diff --git a/.gitignore b/.gitignore
new file mode 100644
index 0000000000000000000000000000000000000000..f5e10357d6d6d2ef04c264fafd7653256cefa4bd
--- /dev/null
+++ b/.gitignore
@@ -0,0 +1,81 @@
+# no IntelliJ files
+.idea
+
+# don't upload macOS folder info
+*.DS_Store
+
+# don't upload node_modules from npm test
+node_modules/*
+flow-typed/*
+
+# potential files generated by golang
+bin/
+
+# don't upload webpack bundle file
+app/dist/
+
+# potential integration testing data directory
+# test_data/
+/data
+
+#python
+*.pyc
+__pycache__/
+
+# pytype
+.pytype
+
+# vscode sftp settings
+.vscode/sftp.json
+
+# vscode launch settings
+.vscode/launch.json
+
+# redis
+*.rdb
+
+# mypy
+.mypy_cache
+
+# jest coverage cache
+coverage/
+
+# downloaded repos and models
+scalabel/bot/experimental/*
+
+
+# python virtual environment
+env/
+
+# vscode workspace configuration
+*.code-workspace
+
+# sphinx build folder
+_build/
+
+# media files are not in this repo
+doc/media
+
+# ignore rope db cache
+.vscode/.ropeproject
+
+# python build
+build/
+dist/
+
+# coverage
+.coverage*
+
+# package default workspace
+/output
+
+*.tmp
+*.zip
+
+# local test logs and scripts
+log/
+/*.sh
+wandb/
+
+# No lightning logs
+lightning_logs/
diff --git a/52715.error b/52715.error
new file mode 100644
index 0000000000000000000000000000000000000000..bacdfe52b63ca97653a4c20c0e481b5eb2579f33
--- /dev/null
+++ b/52715.error
@@ -0,0 +1,309 @@
+Solving dependencies
+Installing conda packages
+Empty environment created at prefix: /scratch/yuqian_fu/micromamba/envs/auto-zcubaqpyrbpe
+error    libmamba Could not lock non-existing path '/scratch/yuqian_fu/micromamba/pkgs'
+Transaction
+
+  Prefix: /scratch/yuqian_fu/micromamba/envs/auto-zcubaqpyrbpe
+
+
+
+  No specs added or removed.
+
+  Package                 Version  Build                         Channel                           Size
+─────────────────────────────────────────────────────────────────────────────────────────────────────────
+  Install:
+─────────────────────────────────────────────────────────────────────────────────────────────────────────
+
+  + _libgcc_mutex             0.1  conda_forge                   conda-forge                           
+  + _openmp_mutex             4.5  2_kmp_llvm                    conda-forge                           
+  + blas                    2.116  mkl                           conda-forge                           
+  + blas-devel              3.9.0  16_linux64_mkl                conda-forge                           
+  + brotli-python           1.1.0  py311hb755f60_1               conda-forge                           
+  + bzip2                   1.0.8  hd590300_5                    conda-forge                           
+  + ca-certificates      2024.6.2  hbcca054_0                    conda-forge                           
+  + certifi              2024.6.2  pyhd8ed1ab_0                  conda-forge                           
+  + cffi                   1.16.0  py311hb3a22ac_0               conda-forge                           
+  + charset-normalizer      3.3.2  pyhd8ed1ab_0                  conda-forge                           
+  + cuda-cudart          12.1.105  0                             nvidia                                
+  + cuda-cupti           12.1.105  0                             /work/conda/cache/nvidia              
+  + cuda-libraries         12.1.0  0                             nvidia                                
+  + cuda-nvrtc           12.1.105  0                             /work/conda/cache/nvidia              
+  + cuda-nvtx            12.1.105  0                             nvidia                                
+  + cuda-opencl           12.5.39  0                             nvidia                                
+  + cuda-runtime           12.1.0  0                             nvidia                                
+  + cuda-version             12.5  3                             nvidia                                
+  + ffmpeg                    4.3  hf484d3e_0                    /work/conda/cache/pytorch             
+  + filelock               3.15.4  pyhd8ed1ab_0                  conda-forge                           
+  + freetype               2.12.1  h267a509_2                    conda-forge                           
+  + gmp                     6.3.0  hac33072_2                    conda-forge                           
+  + gmpy2                   2.1.5  py311hc4f1f91_1               conda-forge                           
+  + gnutls                 3.6.13  h85f3911_1                    /work/conda/cache/conda-forge         
+  + h2                      4.1.0  pyhd8ed1ab_0                  conda-forge                           
+  + hpack                   4.0.0  pyh9f0ad1d_0                  conda-forge                           
+  + hyperframe              6.0.1  pyhd8ed1ab_0                  conda-forge                           
+  + icu                      73.2  h59595ed_0                    /work/conda/cache/conda-forge         
+  + idna                      3.7  pyhd8ed1ab_0                  conda-forge                           
+  + jinja2                  3.1.4  pyhd8ed1ab_0                  conda-forge                           
+  + jpeg                       9e  h166bdaf_2                    conda-forge                           
+  + lame                    3.100  h166bdaf_1003                 conda-forge                           
+  + lcms2                    2.15  hfd0df8a_0                    conda-forge                           
+  + ld_impl_linux-64         2.40  hf3520f5_7                    conda-forge                           
+  + lerc                    4.0.0  h27087fc_0                    conda-forge                           
+  + libblas                 3.9.0  16_linux64_mkl                conda-forge                           
+  + libcblas                3.9.0  16_linux64_mkl                conda-forge                           
+  + libcublas           12.1.0.26  0                             /work/conda/cache/nvidia              
+  + libcufft             11.0.2.4  0                             /work/conda/cache/nvidia              
+  + libcufile            1.10.0.4  0                             nvidia                                
+  + libcurand           10.3.6.39  0                             nvidia                                
+  + libcusolver         11.4.4.55  0                             /work/conda/cache/nvidia              
+  + libcusparse         12.0.2.55  0                             /work/conda/cache/nvidia              
+  + libdeflate               1.17  h0b41bf4_0                    conda-forge                           
+  + libexpat                2.6.2  h59595ed_0                    conda-forge                           
+  + libffi                  3.4.2  h7f98852_5                    conda-forge                           
+  + libgcc-ng              13.2.0  h77fa898_13                   conda-forge                           
+  + libgfortran-ng         13.2.0  h69a702a_13                   conda-forge                           
+  + libgfortran5           13.2.0  h3d2ce59_13                   conda-forge                           
+  + libhwloc               2.10.0  default_h5622ce7_1001         conda-forge                           
+  + libiconv                 1.17  hd590300_2                    conda-forge                           
+  + libjpeg-turbo           2.0.0  h9bf148f_0                    pytorch                               
+  + liblapack               3.9.0  16_linux64_mkl                conda-forge                           
+  + liblapacke              3.9.0  16_linux64_mkl                conda-forge                           
+  + libnpp              12.0.2.50  0                             /work/conda/cache/nvidia              
+  + libnsl                  2.0.1  hd590300_0                    conda-forge                           
+  + libnvjitlink         12.1.105  0                             /work/conda/cache/nvidia              
+  + libnvjpeg           12.1.1.14  0                             /work/conda/cache/nvidia              
+  + libpng                 1.6.43  h2797004_0                    conda-forge                           
+  + libsqlite              3.46.0  hde9e2c9_0                    conda-forge                           
+  + libstdcxx-ng           13.2.0  hc0a3c3a_13                   conda-forge                           
+  + libtiff                 4.5.0  h6adf6a1_2                    conda-forge                           
+  + libuuid                2.38.1  h0b41bf4_0                    conda-forge                           
+  + libwebp-base            1.4.0  hd590300_0                    conda-forge                           
+  + libxcb                   1.13  h7f98852_1004                 conda-forge                           
+  + libxcrypt              4.4.36  hd590300_1                    conda-forge                           
+  + libxml2                2.12.7  hc051c1a_1                    conda-forge                           
+  + libzlib                1.2.13  h4ab18f5_6                    conda-forge                           
+  + llvm-openmp            15.0.7  h0cdce71_0                    /work/conda/cache/conda-forge         
+  + markupsafe              2.1.5  py311h459d7ec_0               conda-forge                           
+  + mkl                  2022.1.0  h84fe81f_915                  /work/conda/cache/conda-forge         
+  + mkl-devel            2022.1.0  ha770c72_916                  conda-forge                           
+  + mkl-include          2022.1.0  h84fe81f_915                  conda-forge                           
+  + mpc                     1.3.1  hfe3b2da_0                    conda-forge                           
+  + mpfr                    4.2.1  h9458935_1                    conda-forge                           
+  + mpmath                  1.3.0  pyhd8ed1ab_0                  conda-forge                           
+  + ncurses                   6.5  h59595ed_0                    conda-forge                           
+  + nettle                    3.6  he412f7d_0                    /work/conda/cache/conda-forge         
+  + networkx                  3.3  pyhd8ed1ab_1                  /work/conda/cache/conda-forge         
+  + numpy                   2.0.0  py311h1461c94_0               conda-forge                           
+  + openh264                2.1.1  h780b84a_0                    /work/conda/cache/conda-forge         
+  + openjpeg                2.5.0  hfec8fc6_2                    conda-forge                           
+  + openssl                 3.3.1  h4ab18f5_1                    conda-forge                           
+  + pandas                  2.2.2  py311h14de704_1               conda-forge                           
+  + pillow                  9.4.0  py311h50def17_1               conda-forge                           
+  + pip                      24.0  pyhd8ed1ab_0                  /work/conda/cache/conda-forge         
+  + pthread-stubs             0.4  h36c2ea0_1001                 conda-forge                           
+  + pycparser                2.22  pyhd8ed1ab_0                  conda-forge                           
+  + pysocks                 1.7.1  pyha2e5f31_6                  conda-forge                           
+  + python                 3.11.9  hb806964_0_cpython            /work/conda/cache/conda-forge         
+  + python-dateutil         2.9.0  pyhd8ed1ab_0                  conda-forge                           
+  + python-tzdata          2024.1  pyhd8ed1ab_0                  conda-forge                           
+  + python_abi               3.11  4_cp311                       conda-forge                           
+  + pytorch                 2.3.1  py3.11_cuda12.1_cudnn8.9.2_0  pytorch                               
+  + pytorch-cuda             12.1  ha16c6d3_5                    pytorch                               
+  + pytorch-mutex             1.0  cuda                          pytorch                               
+  + pytz                   2024.1  pyhd8ed1ab_0                  conda-forge                           
+  + pyyaml                  6.0.1  py311h459d7ec_1               conda-forge                           
+  + readline                  8.2  h8228510_1                    conda-forge                           
+  + requests               2.32.3  pyhd8ed1ab_0                  conda-forge                           
+  + setuptools             70.1.1  pyhd8ed1ab_0                  conda-forge                           
+  + six                    1.16.0  pyh6c4a22f_0                  conda-forge                           
+  + sympy                  1.12.1  pypyh2585a3b_103              conda-forge                           
+  + tbb                 2021.12.0  h297d8ca_1                    conda-forge                           
+  + tk                     8.6.13  noxft_h4845f30_101            /work/conda/cache/conda-forge         
+  + torchtriton             2.3.1  py311                         pytorch                               
+  + torchvision            0.18.1  py311_cu121                   pytorch                               
+  + typing_extensions      4.12.2  pyha770c72_0                  conda-forge                           
+  + tzdata                  2024a  h0c530f3_0                    conda-forge                           
+  + urllib3                 2.2.2  pyhd8ed1ab_1                  conda-forge                           
+  + wheel                  0.43.0  pyhd8ed1ab_1                  conda-forge                           
+  + xorg-libxau            1.0.11  hd590300_0                    conda-forge                           
+  + xorg-libxdmcp           1.1.3  h516909a_0                    conda-forge                           
+  + xz                      5.2.6  h166bdaf_0                    conda-forge                           
+  + yaml                    0.2.5  h7f98852_2                    conda-forge                           
+  + zlib                   1.2.13  h4ab18f5_6                    conda-forge                           
+  + zstandard              0.22.0  py311hb6f056b_1               conda-forge                           
+  + zstd                    1.5.6  ha6fb4c9_0                    conda-forge                           
+
+  Summary:
+
+  Install: 118 packages
+
+  Total download: 0 B
+
+─────────────────────────────────────────────────────────────────────────────────────────────────────────
+
+
+
+Transaction starting
+Linking libcublas-12.1.0.26-0
+Linking libcufft-11.0.2.4-0
+Linking libcusolver-11.4.4.55-0
+Linking libcusparse-12.0.2.55-0
+Linking libnpp-12.0.2.50-0
+Linking libnvjitlink-12.1.105-0
+Linking cuda-cudart-12.1.105-0
+Linking cuda-nvrtc-12.1.105-0
+Linking libnvjpeg-12.1.1.14-0
+Linking cuda-cupti-12.1.105-0
+Linking cuda-nvtx-12.1.105-0
+Linking pytorch-mutex-1.0-cuda
+Linking _libgcc_mutex-0.1-conda_forge
+Linking mkl-include-2022.1.0-h84fe81f_915
+Linking python_abi-3.11-4_cp311
+Linking ld_impl_linux-64-2.40-hf3520f5_7
+Linking ca-certificates-2024.6.2-hbcca054_0
+Linking libgcc-ng-13.2.0-h77fa898_13
+Linking libzlib-1.2.13-h4ab18f5_6
+Linking llvm-openmp-15.0.7-h0cdce71_0
+Linking _openmp_mutex-4.5-2_kmp_llvm
+Linking xorg-libxdmcp-1.1.3-h516909a_0
+Linking pthread-stubs-0.4-h36c2ea0_1001
+Linking xorg-libxau-1.0.11-hd590300_0
+Linking libwebp-base-1.4.0-hd590300_0
+Linking libdeflate-1.17-h0b41bf4_0
+Linking jpeg-9e-h166bdaf_2
+Linking libffi-3.4.2-h7f98852_5
+Linking tk-8.6.13-noxft_h4845f30_101
+Linking openssl-3.3.1-h4ab18f5_1
+Linking libxcrypt-4.4.36-hd590300_1
+Linking libsqlite-3.46.0-hde9e2c9_0
+Linking yaml-0.2.5-h7f98852_2
+Linking ncurses-6.5-h59595ed_0
+Linking libgfortran5-13.2.0-h3d2ce59_13
+Linking lame-3.100-h166bdaf_1003
+Linking nettle-3.6-he412f7d_0
+Linking zlib-1.2.13-h4ab18f5_6
+Linking libstdcxx-ng-13.2.0-hc0a3c3a_13
+Linking libiconv-1.17-hd590300_2
+Linking bzip2-1.0.8-hd590300_5
+Linking libpng-1.6.43-h2797004_0
+Linking xz-5.2.6-h166bdaf_0
+Linking libuuid-2.38.1-h0b41bf4_0
+Linking libnsl-2.0.1-hd590300_0
+Linking libexpat-2.6.2-h59595ed_0
+Linking libxcb-1.13-h7f98852_1004
+Linking readline-8.2-h8228510_1
+Linking libgfortran-ng-13.2.0-h69a702a_13
+Linking icu-73.2-h59595ed_0
+Linking zstd-1.5.6-ha6fb4c9_0
+Linking lerc-4.0.0-h27087fc_0
+Linking openh264-2.1.1-h780b84a_0
+Linking gnutls-3.6.13-h85f3911_1
+Linking gmp-6.3.0-hac33072_2
+Linking freetype-2.12.1-h267a509_2
+Linking libxml2-2.12.7-hc051c1a_1
+Linking libtiff-4.5.0-h6adf6a1_2
+Linking mpfr-4.2.1-h9458935_1
+Linking libhwloc-2.10.0-default_h5622ce7_1001
+Linking openjpeg-2.5.0-hfec8fc6_2
+Linking lcms2-2.15-hfd0df8a_0
+Linking mpc-1.3.1-hfe3b2da_0
+Linking tbb-2021.12.0-h297d8ca_1
+Linking mkl-2022.1.0-h84fe81f_915
+Linking mkl-devel-2022.1.0-ha770c72_916
+Linking libblas-3.9.0-16_linux64_mkl
+Linking liblapack-3.9.0-16_linux64_mkl
+Linking libcblas-3.9.0-16_linux64_mkl
+Linking liblapacke-3.9.0-16_linux64_mkl
+Linking blas-devel-3.9.0-16_linux64_mkl
+Linking blas-2.116-mkl
+Linking cuda-version-12.5-3
+Linking tzdata-2024a-h0c530f3_0
+Linking libjpeg-turbo-2.0.0-h9bf148f_0
+warning  libmamba [libjpeg-turbo-2.0.0-h9bf148f_0] The following files were already present in the environment:
+    - bin/cjpeg
+    - bin/djpeg
+    - bin/jpegtran
+    - bin/rdjpgcom
+    - bin/wrjpgcom
+    - include/jconfig.h
+    - include/jerror.h
+    - include/jmorecfg.h
+    - include/jpeglib.h
+    - lib/libjpeg.a
+    - lib/libjpeg.so
+    - lib/pkgconfig/libjpeg.pc
+    - share/man/man1/cjpeg.1
+    - share/man/man1/djpeg.1
+    - share/man/man1/jpegtran.1
+    - share/man/man1/rdjpgcom.1
+    - share/man/man1/wrjpgcom.1
+Linking ffmpeg-4.3-hf484d3e_0
+Linking libcurand-10.3.6.39-0
+Linking libcufile-1.10.0.4-0
+Linking cuda-opencl-12.5.39-0
+Linking cuda-libraries-12.1.0-0
+Linking cuda-runtime-12.1.0-0
+Linking python-3.11.9-hb806964_0_cpython
+Linking pytorch-cuda-12.1-ha16c6d3_5
+Linking wheel-0.43.0-pyhd8ed1ab_1
+Linking setuptools-70.1.1-pyhd8ed1ab_0
+Linking pip-24.0-pyhd8ed1ab_0
+Linking pycparser-2.22-pyhd8ed1ab_0
+Linking six-1.16.0-pyh6c4a22f_0
+Linking hyperframe-6.0.1-pyhd8ed1ab_0
+Linking pytz-2024.1-pyhd8ed1ab_0
+Linking python-tzdata-2024.1-pyhd8ed1ab_0
+Linking charset-normalizer-3.3.2-pyhd8ed1ab_0
+Linking hpack-4.0.0-pyh9f0ad1d_0
+Linking pysocks-1.7.1-pyha2e5f31_6
+Linking idna-3.7-pyhd8ed1ab_0
+Linking certifi-2024.6.2-pyhd8ed1ab_0
+Linking mpmath-1.3.0-pyhd8ed1ab_0
+Linking typing_extensions-4.12.2-pyha770c72_0
+Linking networkx-3.3-pyhd8ed1ab_1
+Linking filelock-3.15.4-pyhd8ed1ab_0
+Linking python-dateutil-2.9.0-pyhd8ed1ab_0
+Linking h2-4.1.0-pyhd8ed1ab_0
+Linking brotli-python-1.1.0-py311hb755f60_1
+Linking markupsafe-2.1.5-py311h459d7ec_0
+Linking gmpy2-2.1.5-py311hc4f1f91_1
+Linking pyyaml-6.0.1-py311h459d7ec_1
+Linking pillow-9.4.0-py311h50def17_1
+Linking numpy-2.0.0-py311h1461c94_0
+Linking cffi-1.16.0-py311hb3a22ac_0
+Linking pandas-2.2.2-py311h14de704_1
+Linking zstandard-0.22.0-py311hb6f056b_1
+Linking jinja2-3.1.4-pyhd8ed1ab_0
+Linking sympy-1.12.1-pypyh2585a3b_103
+Linking urllib3-2.2.2-pyhd8ed1ab_1
+Linking requests-2.32.3-pyhd8ed1ab_0
+Linking pytorch-2.3.1-py3.11_cuda12.1_cudnn8.9.2_0
+Linking torchtriton-2.3.1-py311
+Linking torchvision-0.18.1-py311_cu121
+
+Transaction finished
+
+To activate this environment, use:
+
+    mamba activate auto-zcubaqpyrbpe
+
+Or to execute a single command in this environment, use:
+
+    mamba run -n auto-zcubaqpyrbpe mycommand
+
+Installing pip packages
+WARNING: The candidate selected for download or install is a yanked version: 'opencv-python' candidate (version 4.5.5.62 at https://files.pythonhosted.org/packages/9d/98/36bfcbff30da27dd6922ed73ca7802c37d87f77daf4c569da3dcb87b4296/opencv_python-4.5.5.62-cp36-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (from https://pypi.org/simple/opencv-python/) (requires-python:>=3.6))
+Reason for being yanked: deprecated, use 4.5.5.64
+Traceback (most recent call last):
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/metatrain_CausalStyle_RN.py", line 124, in <module>
+    base_loader             = base_datamgr.get_data_loader( base_file , aug = params.train_aug )
+                              ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/data/datamgr.py", line 137, in get_data_loader
+    dataset = SetDataset( data_file , self.batch_size, transform )
+              ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/data/dataset.py", line 62, in __init__
+    with open(data_file, 'r') as f:
+         ^^^^^^^^^^^^^^^^^^^^
+FileNotFoundError: [Errno 2] No such file or directory: '/scratch/yuqian_fu/Data/CDFSL/miniImagenet/base.json'
+srun: error: gcp-eu-2: task 0: Exited with exit code 1
diff --git a/52715.log b/52715.log
new file mode 100644
index 0000000000000000000000000000000000000000..e2dab5e5e97b17c6726913cd802593d7624926d6
--- /dev/null
+++ b/52715.log
@@ -0,0 +1,114 @@
+Collecting h5py>=2.9.0
+  Downloading h5py-3.11.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (2.5 kB)
+Collecting ml-collections
+  Downloading ml_collections-0.1.1.tar.gz (77 kB)
+     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 77.9/77.9 kB 8.8 MB/s eta 0:00:00
+  Preparing metadata (setup.py): started
+  Preparing metadata (setup.py): finished with status 'done'
+Collecting opencv-python==4.5.5.62
+  Downloading opencv_python-4.5.5.62-cp36-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (18 kB)
+Collecting scipy>=1.3.2
+  Downloading scipy-1.14.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (60 kB)
+     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 60.8/60.8 kB 8.1 MB/s eta 0:00:00
+Collecting tensorboard
+  Downloading tensorboard-2.17.0-py3-none-any.whl.metadata (1.6 kB)
+Collecting tensorboardX>=1.4
+  Downloading tensorboardX-2.6.2.2-py2.py3-none-any.whl.metadata (5.8 kB)
+Collecting timm
+  Downloading timm-1.0.7-py3-none-any.whl.metadata (47 kB)
+     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 47.5/47.5 kB 16.0 MB/s eta 0:00:00
+Requirement already satisfied: numpy>=1.21.2 in ./lib/python3.11/site-packages (from opencv-python==4.5.5.62) (2.0.0)
+Collecting absl-py (from ml-collections)
+  Downloading absl_py-2.1.0-py3-none-any.whl.metadata (2.3 kB)
+Requirement already satisfied: PyYAML in ./lib/python3.11/site-packages (from ml-collections) (6.0.1)
+Requirement already satisfied: six in ./lib/python3.11/site-packages (from ml-collections) (1.16.0)
+Collecting contextlib2 (from ml-collections)
+  Downloading contextlib2-21.6.0-py2.py3-none-any.whl.metadata (4.1 kB)
+Collecting grpcio>=1.48.2 (from tensorboard)
+  Downloading grpcio-1.64.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (3.3 kB)
+Collecting markdown>=2.6.8 (from tensorboard)
+  Downloading Markdown-3.6-py3-none-any.whl.metadata (7.0 kB)
+Collecting protobuf!=4.24.0,<5.0.0,>=3.19.6 (from tensorboard)
+  Downloading protobuf-4.25.3-cp37-abi3-manylinux2014_x86_64.whl.metadata (541 bytes)
+Requirement already satisfied: setuptools>=41.0.0 in ./lib/python3.11/site-packages (from tensorboard) (70.1.1)
+Collecting tensorboard-data-server<0.8.0,>=0.7.0 (from tensorboard)
+  Downloading tensorboard_data_server-0.7.2-py3-none-manylinux_2_31_x86_64.whl.metadata (1.1 kB)
+Collecting werkzeug>=1.0.1 (from tensorboard)
+  Downloading werkzeug-3.0.3-py3-none-any.whl.metadata (3.7 kB)
+Collecting packaging (from tensorboardX>=1.4)
+  Downloading packaging-24.1-py3-none-any.whl.metadata (3.2 kB)
+Requirement already satisfied: torch in ./lib/python3.11/site-packages (from timm) (2.3.1)
+Requirement already satisfied: torchvision in ./lib/python3.11/site-packages (from timm) (0.18.1)
+Collecting huggingface_hub (from timm)
+  Downloading huggingface_hub-0.23.4-py3-none-any.whl.metadata (12 kB)
+Collecting safetensors (from timm)
+  Downloading safetensors-0.4.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (3.8 kB)
+Requirement already satisfied: MarkupSafe>=2.1.1 in ./lib/python3.11/site-packages (from werkzeug>=1.0.1->tensorboard) (2.1.5)
+Requirement already satisfied: filelock in ./lib/python3.11/site-packages (from huggingface_hub->timm) (3.15.4)
+Collecting fsspec>=2023.5.0 (from huggingface_hub->timm)
+  Downloading fsspec-2024.6.0-py3-none-any.whl.metadata (11 kB)
+Requirement already satisfied: requests in ./lib/python3.11/site-packages (from huggingface_hub->timm) (2.32.3)
+Collecting tqdm>=4.42.1 (from huggingface_hub->timm)
+  Downloading tqdm-4.66.4-py3-none-any.whl.metadata (57 kB)
+     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 57.6/57.6 kB 22.1 MB/s eta 0:00:00
+Requirement already satisfied: typing-extensions>=3.7.4.3 in ./lib/python3.11/site-packages (from huggingface_hub->timm) (4.12.2)
+Requirement already satisfied: sympy in ./lib/python3.11/site-packages (from torch->timm) (1.12.1)
+Requirement already satisfied: networkx in ./lib/python3.11/site-packages (from torch->timm) (3.3)
+Requirement already satisfied: jinja2 in ./lib/python3.11/site-packages (from torch->timm) (3.1.4)
+Requirement already satisfied: pillow!=8.3.*,>=5.3.0 in ./lib/python3.11/site-packages (from torchvision->timm) (9.4.0)
+Requirement already satisfied: charset-normalizer<4,>=2 in ./lib/python3.11/site-packages (from requests->huggingface_hub->timm) (3.3.2)
+Requirement already satisfied: idna<4,>=2.5 in ./lib/python3.11/site-packages (from requests->huggingface_hub->timm) (3.7)
+Requirement already satisfied: urllib3<3,>=1.21.1 in ./lib/python3.11/site-packages (from requests->huggingface_hub->timm) (2.2.2)
+Requirement already satisfied: certifi>=2017.4.17 in ./lib/python3.11/site-packages (from requests->huggingface_hub->timm) (2024.6.2)
+Requirement already satisfied: mpmath<1.4.0,>=1.1.0 in ./lib/python3.11/site-packages (from sympy->torch->timm) (1.3.0)
+Downloading opencv_python-4.5.5.62-cp36-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (60.4 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 60.4/60.4 MB 91.0 MB/s eta 0:00:00
+Downloading h5py-3.11.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (5.4 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 5.4/5.4 MB 183.1 MB/s eta 0:00:00
+Downloading scipy-1.14.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (41.1 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 41.1/41.1 MB 107.5 MB/s eta 0:00:00
+Downloading tensorboard-2.17.0-py3-none-any.whl (5.5 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 5.5/5.5 MB 30.9 MB/s eta 0:00:00
+Downloading tensorboardX-2.6.2.2-py2.py3-none-any.whl (101 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 101.7/101.7 kB 36.0 MB/s eta 0:00:00
+Downloading timm-1.0.7-py3-none-any.whl (2.3 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 2.3/2.3 MB 137.1 MB/s eta 0:00:00
+Downloading absl_py-2.1.0-py3-none-any.whl (133 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 133.7/133.7 kB 51.3 MB/s eta 0:00:00
+Downloading grpcio-1.64.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (5.6 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 5.6/5.6 MB 88.2 MB/s eta 0:00:00
+Downloading Markdown-3.6-py3-none-any.whl (105 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 105.4/105.4 kB 38.1 MB/s eta 0:00:00
+Downloading protobuf-4.25.3-cp37-abi3-manylinux2014_x86_64.whl (294 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 294.6/294.6 kB 50.7 MB/s eta 0:00:00
+Downloading tensorboard_data_server-0.7.2-py3-none-manylinux_2_31_x86_64.whl (6.6 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 6.6/6.6 MB 173.4 MB/s eta 0:00:00
+Downloading werkzeug-3.0.3-py3-none-any.whl (227 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 227.3/227.3 kB 73.1 MB/s eta 0:00:00
+Downloading contextlib2-21.6.0-py2.py3-none-any.whl (13 kB)
+Downloading huggingface_hub-0.23.4-py3-none-any.whl (402 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 402.6/402.6 kB 61.1 MB/s eta 0:00:00
+Downloading packaging-24.1-py3-none-any.whl (53 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 54.0/54.0 kB 21.8 MB/s eta 0:00:00
+Downloading safetensors-0.4.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.2 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 1.2/1.2 MB 122.2 MB/s eta 0:00:00
+Downloading fsspec-2024.6.0-py3-none-any.whl (176 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 176.9/176.9 kB 62.7 MB/s eta 0:00:00
+Downloading tqdm-4.66.4-py3-none-any.whl (78 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 78.3/78.3 kB 27.8 MB/s eta 0:00:00
+Building wheels for collected packages: ml-collections
+  Building wheel for ml-collections (setup.py): started
+  Building wheel for ml-collections (setup.py): finished with status 'done'
+  Created wheel for ml-collections: filename=ml_collections-0.1.1-py3-none-any.whl size=94508 sha256=d89d1d746d60ee7c5ccd906afd932a6369bd5c90b009d4e595ac300929458aa5
+  Stored in directory: /scratch/yuqian_fu/.cache/pip/wheels/28/82/ef/a6971b09a96519d55ce6efef66f0cbcdef2ae9cc1e6b41daf7
+Successfully built ml-collections
+Installing collected packages: werkzeug, tqdm, tensorboard-data-server, scipy, safetensors, protobuf, packaging, opencv-python, markdown, h5py, grpcio, fsspec, contextlib2, absl-py, tensorboardX, tensorboard, ml-collections, huggingface_hub, timm
+Successfully installed absl-py-2.1.0 contextlib2-21.6.0 fsspec-2024.6.0 grpcio-1.64.1 h5py-3.11.0 huggingface_hub-0.23.4 markdown-3.6 ml-collections-0.1.1 opencv-python-4.5.5.62 packaging-24.1 protobuf-4.25.3 safetensors-0.4.3 scipy-1.14.0 tensorboard-2.17.0 tensorboard-data-server-0.7.2 tensorboardX-2.6.2.2 timm-1.0.7 tqdm-4.66.4 werkzeug-3.0.3
+backbone: maml: False
+hi this is causal style
+set seed = 0
+
+--- prepare dataloader ---
+  train with single seen domain miniImagenet
+
+--- build model ---
diff --git a/52729.error b/52729.error
new file mode 100644
index 0000000000000000000000000000000000000000..6bb69d733d0e6354df15e75d8b5e56eef42c386e
--- /dev/null
+++ b/52729.error
@@ -0,0 +1,309 @@
+Solving dependencies
+Installing conda packages
+Empty environment created at prefix: /scratch/yuqian_fu/micromamba/envs/auto-zcubaqpyrbpe
+error    libmamba Could not lock non-existing path '/scratch/yuqian_fu/micromamba/pkgs'
+Transaction
+
+  Prefix: /scratch/yuqian_fu/micromamba/envs/auto-zcubaqpyrbpe
+
+
+
+  No specs added or removed.
+
+  Package                 Version  Build                         Channel                           Size
+─────────────────────────────────────────────────────────────────────────────────────────────────────────
+  Install:
+─────────────────────────────────────────────────────────────────────────────────────────────────────────
+
+  + _libgcc_mutex             0.1  conda_forge                   conda-forge                           
+  + _openmp_mutex             4.5  2_kmp_llvm                    conda-forge                           
+  + blas                    2.116  mkl                           conda-forge                           
+  + blas-devel              3.9.0  16_linux64_mkl                conda-forge                           
+  + brotli-python           1.1.0  py311hb755f60_1               conda-forge                           
+  + bzip2                   1.0.8  hd590300_5                    conda-forge                           
+  + ca-certificates      2024.6.2  hbcca054_0                    conda-forge                           
+  + certifi              2024.6.2  pyhd8ed1ab_0                  conda-forge                           
+  + cffi                   1.16.0  py311hb3a22ac_0               conda-forge                           
+  + charset-normalizer      3.3.2  pyhd8ed1ab_0                  conda-forge                           
+  + cuda-cudart          12.1.105  0                             nvidia                                
+  + cuda-cupti           12.1.105  0                             /work/conda/cache/nvidia              
+  + cuda-libraries         12.1.0  0                             nvidia                                
+  + cuda-nvrtc           12.1.105  0                             /work/conda/cache/nvidia              
+  + cuda-nvtx            12.1.105  0                             nvidia                                
+  + cuda-opencl           12.5.39  0                             nvidia                                
+  + cuda-runtime           12.1.0  0                             nvidia                                
+  + cuda-version             12.5  3                             nvidia                                
+  + ffmpeg                    4.3  hf484d3e_0                    /work/conda/cache/pytorch             
+  + filelock               3.15.4  pyhd8ed1ab_0                  conda-forge                           
+  + freetype               2.12.1  h267a509_2                    conda-forge                           
+  + gmp                     6.3.0  hac33072_2                    conda-forge                           
+  + gmpy2                   2.1.5  py311hc4f1f91_1               conda-forge                           
+  + gnutls                 3.6.13  h85f3911_1                    /work/conda/cache/conda-forge         
+  + h2                      4.1.0  pyhd8ed1ab_0                  conda-forge                           
+  + hpack                   4.0.0  pyh9f0ad1d_0                  conda-forge                           
+  + hyperframe              6.0.1  pyhd8ed1ab_0                  conda-forge                           
+  + icu                      73.2  h59595ed_0                    /work/conda/cache/conda-forge         
+  + idna                      3.7  pyhd8ed1ab_0                  conda-forge                           
+  + jinja2                  3.1.4  pyhd8ed1ab_0                  conda-forge                           
+  + jpeg                       9e  h166bdaf_2                    conda-forge                           
+  + lame                    3.100  h166bdaf_1003                 conda-forge                           
+  + lcms2                    2.15  hfd0df8a_0                    conda-forge                           
+  + ld_impl_linux-64         2.40  hf3520f5_7                    conda-forge                           
+  + lerc                    4.0.0  h27087fc_0                    conda-forge                           
+  + libblas                 3.9.0  16_linux64_mkl                conda-forge                           
+  + libcblas                3.9.0  16_linux64_mkl                conda-forge                           
+  + libcublas           12.1.0.26  0                             /work/conda/cache/nvidia              
+  + libcufft             11.0.2.4  0                             /work/conda/cache/nvidia              
+  + libcufile            1.10.0.4  0                             nvidia                                
+  + libcurand           10.3.6.39  0                             nvidia                                
+  + libcusolver         11.4.4.55  0                             /work/conda/cache/nvidia              
+  + libcusparse         12.0.2.55  0                             /work/conda/cache/nvidia              
+  + libdeflate               1.17  h0b41bf4_0                    conda-forge                           
+  + libexpat                2.6.2  h59595ed_0                    conda-forge                           
+  + libffi                  3.4.2  h7f98852_5                    conda-forge                           
+  + libgcc-ng              13.2.0  h77fa898_13                   conda-forge                           
+  + libgfortran-ng         13.2.0  h69a702a_13                   conda-forge                           
+  + libgfortran5           13.2.0  h3d2ce59_13                   conda-forge                           
+  + libhwloc               2.10.0  default_h5622ce7_1001         conda-forge                           
+  + libiconv                 1.17  hd590300_2                    conda-forge                           
+  + libjpeg-turbo           2.0.0  h9bf148f_0                    pytorch                               
+  + liblapack               3.9.0  16_linux64_mkl                conda-forge                           
+  + liblapacke              3.9.0  16_linux64_mkl                conda-forge                           
+  + libnpp              12.0.2.50  0                             /work/conda/cache/nvidia              
+  + libnsl                  2.0.1  hd590300_0                    conda-forge                           
+  + libnvjitlink         12.1.105  0                             /work/conda/cache/nvidia              
+  + libnvjpeg           12.1.1.14  0                             /work/conda/cache/nvidia              
+  + libpng                 1.6.43  h2797004_0                    conda-forge                           
+  + libsqlite              3.46.0  hde9e2c9_0                    conda-forge                           
+  + libstdcxx-ng           13.2.0  hc0a3c3a_13                   conda-forge                           
+  + libtiff                 4.5.0  h6adf6a1_2                    conda-forge                           
+  + libuuid                2.38.1  h0b41bf4_0                    conda-forge                           
+  + libwebp-base            1.4.0  hd590300_0                    conda-forge                           
+  + libxcb                   1.13  h7f98852_1004                 conda-forge                           
+  + libxcrypt              4.4.36  hd590300_1                    conda-forge                           
+  + libxml2                2.12.7  hc051c1a_1                    conda-forge                           
+  + libzlib                1.2.13  h4ab18f5_6                    conda-forge                           
+  + llvm-openmp            15.0.7  h0cdce71_0                    /work/conda/cache/conda-forge         
+  + markupsafe              2.1.5  py311h459d7ec_0               conda-forge                           
+  + mkl                  2022.1.0  h84fe81f_915                  /work/conda/cache/conda-forge         
+  + mkl-devel            2022.1.0  ha770c72_916                  conda-forge                           
+  + mkl-include          2022.1.0  h84fe81f_915                  conda-forge                           
+  + mpc                     1.3.1  hfe3b2da_0                    conda-forge                           
+  + mpfr                    4.2.1  h9458935_1                    conda-forge                           
+  + mpmath                  1.3.0  pyhd8ed1ab_0                  conda-forge                           
+  + ncurses                   6.5  h59595ed_0                    conda-forge                           
+  + nettle                    3.6  he412f7d_0                    /work/conda/cache/conda-forge         
+  + networkx                  3.3  pyhd8ed1ab_1                  /work/conda/cache/conda-forge         
+  + numpy                   2.0.0  py311h1461c94_0               conda-forge                           
+  + openh264                2.1.1  h780b84a_0                    /work/conda/cache/conda-forge         
+  + openjpeg                2.5.0  hfec8fc6_2                    conda-forge                           
+  + openssl                 3.3.1  h4ab18f5_1                    conda-forge                           
+  + pandas                  2.2.2  py311h14de704_1               conda-forge                           
+  + pillow                  9.4.0  py311h50def17_1               conda-forge                           
+  + pip                      24.0  pyhd8ed1ab_0                  /work/conda/cache/conda-forge         
+  + pthread-stubs             0.4  h36c2ea0_1001                 conda-forge                           
+  + pycparser                2.22  pyhd8ed1ab_0                  conda-forge                           
+  + pysocks                 1.7.1  pyha2e5f31_6                  conda-forge                           
+  + python                 3.11.9  hb806964_0_cpython            /work/conda/cache/conda-forge         
+  + python-dateutil         2.9.0  pyhd8ed1ab_0                  conda-forge                           
+  + python-tzdata          2024.1  pyhd8ed1ab_0                  conda-forge                           
+  + python_abi               3.11  4_cp311                       conda-forge                           
+  + pytorch                 2.3.1  py3.11_cuda12.1_cudnn8.9.2_0  pytorch                               
+  + pytorch-cuda             12.1  ha16c6d3_5                    pytorch                               
+  + pytorch-mutex             1.0  cuda                          pytorch                               
+  + pytz                   2024.1  pyhd8ed1ab_0                  conda-forge                           
+  + pyyaml                  6.0.1  py311h459d7ec_1               conda-forge                           
+  + readline                  8.2  h8228510_1                    conda-forge                           
+  + requests               2.32.3  pyhd8ed1ab_0                  conda-forge                           
+  + setuptools             70.1.1  pyhd8ed1ab_0                  conda-forge                           
+  + six                    1.16.0  pyh6c4a22f_0                  conda-forge                           
+  + sympy                  1.12.1  pypyh2585a3b_103              conda-forge                           
+  + tbb                 2021.12.0  h297d8ca_1                    conda-forge                           
+  + tk                     8.6.13  noxft_h4845f30_101            /work/conda/cache/conda-forge         
+  + torchtriton             2.3.1  py311                         pytorch                               
+  + torchvision            0.18.1  py311_cu121                   pytorch                               
+  + typing_extensions      4.12.2  pyha770c72_0                  conda-forge                           
+  + tzdata                  2024a  h0c530f3_0                    conda-forge                           
+  + urllib3                 2.2.2  pyhd8ed1ab_1                  conda-forge                           
+  + wheel                  0.43.0  pyhd8ed1ab_1                  conda-forge                           
+  + xorg-libxau            1.0.11  hd590300_0                    conda-forge                           
+  + xorg-libxdmcp           1.1.3  h516909a_0                    conda-forge                           
+  + xz                      5.2.6  h166bdaf_0                    conda-forge                           
+  + yaml                    0.2.5  h7f98852_2                    conda-forge                           
+  + zlib                   1.2.13  h4ab18f5_6                    conda-forge                           
+  + zstandard              0.22.0  py311hb6f056b_1               conda-forge                           
+  + zstd                    1.5.6  ha6fb4c9_0                    conda-forge                           
+
+  Summary:
+
+  Install: 118 packages
+
+  Total download: 0 B
+
+─────────────────────────────────────────────────────────────────────────────────────────────────────────
+
+
+
+Transaction starting
+Linking libcublas-12.1.0.26-0
+Linking libcufft-11.0.2.4-0
+Linking libcusolver-11.4.4.55-0
+Linking libcusparse-12.0.2.55-0
+Linking libnpp-12.0.2.50-0
+Linking libnvjitlink-12.1.105-0
+Linking cuda-cudart-12.1.105-0
+Linking cuda-nvrtc-12.1.105-0
+Linking libnvjpeg-12.1.1.14-0
+Linking cuda-cupti-12.1.105-0
+Linking cuda-nvtx-12.1.105-0
+Linking pytorch-mutex-1.0-cuda
+Linking _libgcc_mutex-0.1-conda_forge
+Linking mkl-include-2022.1.0-h84fe81f_915
+Linking python_abi-3.11-4_cp311
+Linking ld_impl_linux-64-2.40-hf3520f5_7
+Linking ca-certificates-2024.6.2-hbcca054_0
+Linking libgcc-ng-13.2.0-h77fa898_13
+Linking libzlib-1.2.13-h4ab18f5_6
+Linking llvm-openmp-15.0.7-h0cdce71_0
+Linking _openmp_mutex-4.5-2_kmp_llvm
+Linking xorg-libxdmcp-1.1.3-h516909a_0
+Linking pthread-stubs-0.4-h36c2ea0_1001
+Linking xorg-libxau-1.0.11-hd590300_0
+Linking libwebp-base-1.4.0-hd590300_0
+Linking libdeflate-1.17-h0b41bf4_0
+Linking jpeg-9e-h166bdaf_2
+Linking libffi-3.4.2-h7f98852_5
+Linking tk-8.6.13-noxft_h4845f30_101
+Linking openssl-3.3.1-h4ab18f5_1
+Linking libxcrypt-4.4.36-hd590300_1
+Linking libsqlite-3.46.0-hde9e2c9_0
+Linking yaml-0.2.5-h7f98852_2
+Linking ncurses-6.5-h59595ed_0
+Linking libgfortran5-13.2.0-h3d2ce59_13
+Linking lame-3.100-h166bdaf_1003
+Linking nettle-3.6-he412f7d_0
+Linking zlib-1.2.13-h4ab18f5_6
+Linking libstdcxx-ng-13.2.0-hc0a3c3a_13
+Linking libiconv-1.17-hd590300_2
+Linking bzip2-1.0.8-hd590300_5
+Linking libpng-1.6.43-h2797004_0
+Linking xz-5.2.6-h166bdaf_0
+Linking libuuid-2.38.1-h0b41bf4_0
+Linking libnsl-2.0.1-hd590300_0
+Linking libexpat-2.6.2-h59595ed_0
+Linking libxcb-1.13-h7f98852_1004
+Linking readline-8.2-h8228510_1
+Linking libgfortran-ng-13.2.0-h69a702a_13
+Linking icu-73.2-h59595ed_0
+Linking zstd-1.5.6-ha6fb4c9_0
+Linking lerc-4.0.0-h27087fc_0
+Linking openh264-2.1.1-h780b84a_0
+Linking gnutls-3.6.13-h85f3911_1
+Linking gmp-6.3.0-hac33072_2
+Linking freetype-2.12.1-h267a509_2
+Linking libxml2-2.12.7-hc051c1a_1
+Linking libtiff-4.5.0-h6adf6a1_2
+Linking mpfr-4.2.1-h9458935_1
+Linking libhwloc-2.10.0-default_h5622ce7_1001
+Linking openjpeg-2.5.0-hfec8fc6_2
+Linking lcms2-2.15-hfd0df8a_0
+Linking mpc-1.3.1-hfe3b2da_0
+Linking tbb-2021.12.0-h297d8ca_1
+Linking mkl-2022.1.0-h84fe81f_915
+Linking mkl-devel-2022.1.0-ha770c72_916
+Linking libblas-3.9.0-16_linux64_mkl
+Linking liblapack-3.9.0-16_linux64_mkl
+Linking libcblas-3.9.0-16_linux64_mkl
+Linking liblapacke-3.9.0-16_linux64_mkl
+Linking blas-devel-3.9.0-16_linux64_mkl
+Linking blas-2.116-mkl
+Linking cuda-version-12.5-3
+Linking tzdata-2024a-h0c530f3_0
+Linking libjpeg-turbo-2.0.0-h9bf148f_0
+warning  libmamba [libjpeg-turbo-2.0.0-h9bf148f_0] The following files were already present in the environment:
+    - bin/cjpeg
+    - bin/djpeg
+    - bin/jpegtran
+    - bin/rdjpgcom
+    - bin/wrjpgcom
+    - include/jconfig.h
+    - include/jerror.h
+    - include/jmorecfg.h
+    - include/jpeglib.h
+    - lib/libjpeg.a
+    - lib/libjpeg.so
+    - lib/pkgconfig/libjpeg.pc
+    - share/man/man1/cjpeg.1
+    - share/man/man1/djpeg.1
+    - share/man/man1/jpegtran.1
+    - share/man/man1/rdjpgcom.1
+    - share/man/man1/wrjpgcom.1
+Linking ffmpeg-4.3-hf484d3e_0
+Linking libcurand-10.3.6.39-0
+Linking libcufile-1.10.0.4-0
+Linking cuda-opencl-12.5.39-0
+Linking cuda-libraries-12.1.0-0
+Linking cuda-runtime-12.1.0-0
+Linking python-3.11.9-hb806964_0_cpython
+Linking pytorch-cuda-12.1-ha16c6d3_5
+Linking wheel-0.43.0-pyhd8ed1ab_1
+Linking setuptools-70.1.1-pyhd8ed1ab_0
+Linking pip-24.0-pyhd8ed1ab_0
+Linking pycparser-2.22-pyhd8ed1ab_0
+Linking six-1.16.0-pyh6c4a22f_0
+Linking hyperframe-6.0.1-pyhd8ed1ab_0
+Linking pytz-2024.1-pyhd8ed1ab_0
+Linking python-tzdata-2024.1-pyhd8ed1ab_0
+Linking charset-normalizer-3.3.2-pyhd8ed1ab_0
+Linking hpack-4.0.0-pyh9f0ad1d_0
+Linking pysocks-1.7.1-pyha2e5f31_6
+Linking idna-3.7-pyhd8ed1ab_0
+Linking certifi-2024.6.2-pyhd8ed1ab_0
+Linking mpmath-1.3.0-pyhd8ed1ab_0
+Linking typing_extensions-4.12.2-pyha770c72_0
+Linking networkx-3.3-pyhd8ed1ab_1
+Linking filelock-3.15.4-pyhd8ed1ab_0
+Linking python-dateutil-2.9.0-pyhd8ed1ab_0
+Linking h2-4.1.0-pyhd8ed1ab_0
+Linking brotli-python-1.1.0-py311hb755f60_1
+Linking markupsafe-2.1.5-py311h459d7ec_0
+Linking gmpy2-2.1.5-py311hc4f1f91_1
+Linking pyyaml-6.0.1-py311h459d7ec_1
+Linking pillow-9.4.0-py311h50def17_1
+Linking numpy-2.0.0-py311h1461c94_0
+Linking cffi-1.16.0-py311hb3a22ac_0
+Linking pandas-2.2.2-py311h14de704_1
+Linking zstandard-0.22.0-py311hb6f056b_1
+Linking jinja2-3.1.4-pyhd8ed1ab_0
+Linking sympy-1.12.1-pypyh2585a3b_103
+Linking urllib3-2.2.2-pyhd8ed1ab_1
+Linking requests-2.32.3-pyhd8ed1ab_0
+Linking pytorch-2.3.1-py3.11_cuda12.1_cudnn8.9.2_0
+Linking torchtriton-2.3.1-py311
+Linking torchvision-0.18.1-py311_cu121
+
+Transaction finished
+
+To activate this environment, use:
+
+    mamba activate auto-zcubaqpyrbpe
+
+Or to execute a single command in this environment, use:
+
+    mamba run -n auto-zcubaqpyrbpe mycommand
+
+Installing pip packages
+WARNING: The candidate selected for download or install is a yanked version: 'opencv-python' candidate (version 4.5.5.62 at https://files.pythonhosted.org/packages/9d/98/36bfcbff30da27dd6922ed73ca7802c37d87f77daf4c569da3dcb87b4296/opencv_python-4.5.5.62-cp36-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (from https://pypi.org/simple/opencv-python/) (requires-python:>=3.6))
+Reason for being yanked: deprecated, use 4.5.5.64
+Traceback (most recent call last):
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/metatrain_CausalStyle_RN.py", line 124, in <module>
+    base_loader             = base_datamgr.get_data_loader( base_file , aug = params.train_aug )
+                              ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/data/datamgr.py", line 137, in get_data_loader
+    dataset = SetDataset( data_file , self.batch_size, transform )
+              ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/data/dataset.py", line 62, in __init__
+    with open(data_file, 'r') as f:
+         ^^^^^^^^^^^^^^^^^^^^
+FileNotFoundError: [Errno 2] No such file or directory: '/scratch/yuqian_fu/Data/CDFSL/miniImagenet/base.json'
+srun: error: gcpl4-eu-2: task 0: Exited with exit code 1
diff --git a/52729.log b/52729.log
new file mode 100644
index 0000000000000000000000000000000000000000..2e5387778a5566fec5cdfbab38bcbeafe1e5d4d7
--- /dev/null
+++ b/52729.log
@@ -0,0 +1,114 @@
+Collecting h5py>=2.9.0
+  Downloading h5py-3.11.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (2.5 kB)
+Collecting ml-collections
+  Downloading ml_collections-0.1.1.tar.gz (77 kB)
+     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 77.9/77.9 kB 8.5 MB/s eta 0:00:00
+  Preparing metadata (setup.py): started
+  Preparing metadata (setup.py): finished with status 'done'
+Collecting opencv-python==4.5.5.62
+  Downloading opencv_python-4.5.5.62-cp36-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (18 kB)
+Collecting scipy>=1.3.2
+  Downloading scipy-1.14.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (60 kB)
+     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 60.8/60.8 kB 10.4 MB/s eta 0:00:00
+Collecting tensorboard
+  Downloading tensorboard-2.17.0-py3-none-any.whl.metadata (1.6 kB)
+Collecting tensorboardX>=1.4
+  Downloading tensorboardX-2.6.2.2-py2.py3-none-any.whl.metadata (5.8 kB)
+Collecting timm
+  Downloading timm-1.0.7-py3-none-any.whl.metadata (47 kB)
+     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 47.5/47.5 kB 16.7 MB/s eta 0:00:00
+Requirement already satisfied: numpy>=1.21.2 in ./lib/python3.11/site-packages (from opencv-python==4.5.5.62) (2.0.0)
+Collecting absl-py (from ml-collections)
+  Downloading absl_py-2.1.0-py3-none-any.whl.metadata (2.3 kB)
+Requirement already satisfied: PyYAML in ./lib/python3.11/site-packages (from ml-collections) (6.0.1)
+Requirement already satisfied: six in ./lib/python3.11/site-packages (from ml-collections) (1.16.0)
+Collecting contextlib2 (from ml-collections)
+  Downloading contextlib2-21.6.0-py2.py3-none-any.whl.metadata (4.1 kB)
+Collecting grpcio>=1.48.2 (from tensorboard)
+  Downloading grpcio-1.64.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (3.3 kB)
+Collecting markdown>=2.6.8 (from tensorboard)
+  Downloading Markdown-3.6-py3-none-any.whl.metadata (7.0 kB)
+Collecting protobuf!=4.24.0,<5.0.0,>=3.19.6 (from tensorboard)
+  Downloading protobuf-4.25.3-cp37-abi3-manylinux2014_x86_64.whl.metadata (541 bytes)
+Requirement already satisfied: setuptools>=41.0.0 in ./lib/python3.11/site-packages (from tensorboard) (70.1.1)
+Collecting tensorboard-data-server<0.8.0,>=0.7.0 (from tensorboard)
+  Downloading tensorboard_data_server-0.7.2-py3-none-manylinux_2_31_x86_64.whl.metadata (1.1 kB)
+Collecting werkzeug>=1.0.1 (from tensorboard)
+  Downloading werkzeug-3.0.3-py3-none-any.whl.metadata (3.7 kB)
+Collecting packaging (from tensorboardX>=1.4)
+  Downloading packaging-24.1-py3-none-any.whl.metadata (3.2 kB)
+Requirement already satisfied: torch in ./lib/python3.11/site-packages (from timm) (2.3.1)
+Requirement already satisfied: torchvision in ./lib/python3.11/site-packages (from timm) (0.18.1)
+Collecting huggingface_hub (from timm)
+  Downloading huggingface_hub-0.23.4-py3-none-any.whl.metadata (12 kB)
+Collecting safetensors (from timm)
+  Downloading safetensors-0.4.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (3.8 kB)
+Requirement already satisfied: MarkupSafe>=2.1.1 in ./lib/python3.11/site-packages (from werkzeug>=1.0.1->tensorboard) (2.1.5)
+Requirement already satisfied: filelock in ./lib/python3.11/site-packages (from huggingface_hub->timm) (3.15.4)
+Collecting fsspec>=2023.5.0 (from huggingface_hub->timm)
+  Downloading fsspec-2024.6.0-py3-none-any.whl.metadata (11 kB)
+Requirement already satisfied: requests in ./lib/python3.11/site-packages (from huggingface_hub->timm) (2.32.3)
+Collecting tqdm>=4.42.1 (from huggingface_hub->timm)
+  Downloading tqdm-4.66.4-py3-none-any.whl.metadata (57 kB)
+     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 57.6/57.6 kB 24.9 MB/s eta 0:00:00
+Requirement already satisfied: typing-extensions>=3.7.4.3 in ./lib/python3.11/site-packages (from huggingface_hub->timm) (4.12.2)
+Requirement already satisfied: sympy in ./lib/python3.11/site-packages (from torch->timm) (1.12.1)
+Requirement already satisfied: networkx in ./lib/python3.11/site-packages (from torch->timm) (3.3)
+Requirement already satisfied: jinja2 in ./lib/python3.11/site-packages (from torch->timm) (3.1.4)
+Requirement already satisfied: pillow!=8.3.*,>=5.3.0 in ./lib/python3.11/site-packages (from torchvision->timm) (9.4.0)
+Requirement already satisfied: charset-normalizer<4,>=2 in ./lib/python3.11/site-packages (from requests->huggingface_hub->timm) (3.3.2)
+Requirement already satisfied: idna<4,>=2.5 in ./lib/python3.11/site-packages (from requests->huggingface_hub->timm) (3.7)
+Requirement already satisfied: urllib3<3,>=1.21.1 in ./lib/python3.11/site-packages (from requests->huggingface_hub->timm) (2.2.2)
+Requirement already satisfied: certifi>=2017.4.17 in ./lib/python3.11/site-packages (from requests->huggingface_hub->timm) (2024.6.2)
+Requirement already satisfied: mpmath<1.4.0,>=1.1.0 in ./lib/python3.11/site-packages (from sympy->torch->timm) (1.3.0)
+Downloading opencv_python-4.5.5.62-cp36-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (60.4 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 60.4/60.4 MB 72.8 MB/s eta 0:00:00
+Downloading h5py-3.11.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (5.4 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 5.4/5.4 MB 209.0 MB/s eta 0:00:00
+Downloading scipy-1.14.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (41.1 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 41.1/41.1 MB 115.1 MB/s eta 0:00:00
+Downloading tensorboard-2.17.0-py3-none-any.whl (5.5 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 5.5/5.5 MB 211.7 MB/s eta 0:00:00
+Downloading tensorboardX-2.6.2.2-py2.py3-none-any.whl (101 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 101.7/101.7 kB 38.7 MB/s eta 0:00:00
+Downloading timm-1.0.7-py3-none-any.whl (2.3 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 2.3/2.3 MB 181.5 MB/s eta 0:00:00
+Downloading absl_py-2.1.0-py3-none-any.whl (133 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 133.7/133.7 kB 52.8 MB/s eta 0:00:00
+Downloading grpcio-1.64.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (5.6 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 5.6/5.6 MB 212.4 MB/s eta 0:00:00
+Downloading Markdown-3.6-py3-none-any.whl (105 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 105.4/105.4 kB 40.3 MB/s eta 0:00:00
+Downloading protobuf-4.25.3-cp37-abi3-manylinux2014_x86_64.whl (294 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 294.6/294.6 kB 101.1 MB/s eta 0:00:00
+Downloading tensorboard_data_server-0.7.2-py3-none-manylinux_2_31_x86_64.whl (6.6 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 6.6/6.6 MB 214.7 MB/s eta 0:00:00
+Downloading werkzeug-3.0.3-py3-none-any.whl (227 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 227.3/227.3 kB 74.9 MB/s eta 0:00:00
+Downloading contextlib2-21.6.0-py2.py3-none-any.whl (13 kB)
+Downloading huggingface_hub-0.23.4-py3-none-any.whl (402 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 402.6/402.6 kB 109.9 MB/s eta 0:00:00
+Downloading packaging-24.1-py3-none-any.whl (53 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 54.0/54.0 kB 21.8 MB/s eta 0:00:00
+Downloading safetensors-0.4.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.2 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 1.2/1.2 MB 170.9 MB/s eta 0:00:00
+Downloading fsspec-2024.6.0-py3-none-any.whl (176 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 176.9/176.9 kB 62.5 MB/s eta 0:00:00
+Downloading tqdm-4.66.4-py3-none-any.whl (78 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 78.3/78.3 kB 30.5 MB/s eta 0:00:00
+Building wheels for collected packages: ml-collections
+  Building wheel for ml-collections (setup.py): started
+  Building wheel for ml-collections (setup.py): finished with status 'done'
+  Created wheel for ml-collections: filename=ml_collections-0.1.1-py3-none-any.whl size=94508 sha256=2e320bb7bf02566bf671fd943ea8dfe7cb6c35a1fab523a080d4ab487706ca51
+  Stored in directory: /scratch/yuqian_fu/.cache/pip/wheels/28/82/ef/a6971b09a96519d55ce6efef66f0cbcdef2ae9cc1e6b41daf7
+Successfully built ml-collections
+Installing collected packages: werkzeug, tqdm, tensorboard-data-server, scipy, safetensors, protobuf, packaging, opencv-python, markdown, h5py, grpcio, fsspec, contextlib2, absl-py, tensorboardX, tensorboard, ml-collections, huggingface_hub, timm
+Successfully installed absl-py-2.1.0 contextlib2-21.6.0 fsspec-2024.6.0 grpcio-1.64.1 h5py-3.11.0 huggingface_hub-0.23.4 markdown-3.6 ml-collections-0.1.1 opencv-python-4.5.5.62 packaging-24.1 protobuf-4.25.3 safetensors-0.4.3 scipy-1.14.0 tensorboard-2.17.0 tensorboard-data-server-0.7.2 tensorboardX-2.6.2.2 timm-1.0.7 tqdm-4.66.4 werkzeug-3.0.3
+backbone: maml: False
+hi this is causal style
+set seed = 0
+
+--- prepare dataloader ---
+  train with single seen domain miniImagenet
+
+--- build model ---
diff --git a/Meta-causal/code-stage1-pipeline/56451.error b/Meta-causal/code-stage1-pipeline/56451.error
new file mode 100644
index 0000000000000000000000000000000000000000..2551fb8116caf9cb33618556d7b8f611e0d7465d
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/56451.error
@@ -0,0 +1,297 @@
+Solving dependencies
+Installing conda packages
+Empty environment created at prefix: /scratch/yuqian_fu/micromamba/envs/auto-uvapqvk3mmem
+error    libmamba Could not lock non-existing path '/scratch/yuqian_fu/micromamba/pkgs'
+Transaction
+
+  Prefix: /scratch/yuqian_fu/micromamba/envs/auto-uvapqvk3mmem
+
+
+
+  No specs added or removed.
+
+  Package                 Version  Build                         Channel                           Size
+─────────────────────────────────────────────────────────────────────────────────────────────────────────
+  Install:
+─────────────────────────────────────────────────────────────────────────────────────────────────────────
+
+  + _libgcc_mutex             0.1  conda_forge                   conda-forge                           
+  + _openmp_mutex             4.5  2_kmp_llvm                    conda-forge                           
+  + blas                    2.116  mkl                           conda-forge                           
+  + blas-devel              3.9.0  16_linux64_mkl                conda-forge                           
+  + brotli-python           1.1.0  py311hb755f60_1               conda-forge                           
+  + bzip2                   1.0.8  hd590300_5                    conda-forge                           
+  + ca-certificates      2024.6.2  hbcca054_0                    conda-forge                           
+  + certifi              2024.6.2  pyhd8ed1ab_0                  conda-forge                           
+  + cffi                   1.16.0  py311hb3a22ac_0               conda-forge                           
+  + charset-normalizer      3.3.2  pyhd8ed1ab_0                  conda-forge                           
+  + click                   8.1.7  unix_pyh707e725_0             conda-forge                           
+  + cuda-cudart          12.1.105  0                             nvidia                                
+  + cuda-cupti           12.1.105  0                             /work/conda/cache/nvidia              
+  + cuda-libraries         12.1.0  0                             nvidia                                
+  + cuda-nvrtc           12.1.105  0                             /work/conda/cache/nvidia              
+  + cuda-nvtx            12.1.105  0                             nvidia                                
+  + cuda-opencl           12.5.39  0                             nvidia                                
+  + cuda-runtime           12.1.0  0                             nvidia                                
+  + cuda-version             12.5  3                             nvidia                                
+  + ffmpeg                    4.3  hf484d3e_0                    /work/conda/cache/pytorch             
+  + filelock               3.15.4  pyhd8ed1ab_0                  conda-forge                           
+  + freetype               2.12.1  h267a509_2                    conda-forge                           
+  + gmp                     6.3.0  hac33072_2                    conda-forge                           
+  + gmpy2                   2.1.5  py311hc4f1f91_1               conda-forge                           
+  + gnutls                 3.6.13  h85f3911_1                    /work/conda/cache/conda-forge         
+  + h2                      4.1.0  pyhd8ed1ab_0                  conda-forge                           
+  + hpack                   4.0.0  pyh9f0ad1d_0                  conda-forge                           
+  + hyperframe              6.0.1  pyhd8ed1ab_0                  conda-forge                           
+  + icu                      73.2  h59595ed_0                    /work/conda/cache/conda-forge         
+  + idna                      3.7  pyhd8ed1ab_0                  conda-forge                           
+  + jinja2                  3.1.4  pyhd8ed1ab_0                  conda-forge                           
+  + jpeg                       9e  h166bdaf_2                    conda-forge                           
+  + lame                    3.100  h166bdaf_1003                 conda-forge                           
+  + lcms2                    2.15  hfd0df8a_0                    conda-forge                           
+  + ld_impl_linux-64         2.40  hf3520f5_7                    conda-forge                           
+  + lerc                    4.0.0  h27087fc_0                    conda-forge                           
+  + libblas                 3.9.0  16_linux64_mkl                conda-forge                           
+  + libcblas                3.9.0  16_linux64_mkl                conda-forge                           
+  + libcublas           12.1.0.26  0                             /work/conda/cache/nvidia              
+  + libcufft             11.0.2.4  0                             /work/conda/cache/nvidia              
+  + libcufile            1.10.0.4  0                             nvidia                                
+  + libcurand           10.3.6.39  0                             nvidia                                
+  + libcusolver         11.4.4.55  0                             /work/conda/cache/nvidia              
+  + libcusparse         12.0.2.55  0                             /work/conda/cache/nvidia              
+  + libdeflate               1.17  h0b41bf4_0                    conda-forge                           
+  + libexpat                2.6.2  h59595ed_0                    conda-forge                           
+  + libffi                  3.4.2  h7f98852_5                    conda-forge                           
+  + libgcc-ng              14.1.0  h77fa898_0                    conda-forge                           
+  + libgfortran-ng         14.1.0  h69a702a_0                    conda-forge                           
+  + libgfortran5           14.1.0  hc5f4f2c_0                    conda-forge                           
+  + libhwloc               2.10.0  default_h5622ce7_1001         conda-forge                           
+  + libiconv                 1.17  hd590300_2                    conda-forge                           
+  + libjpeg-turbo           2.0.0  h9bf148f_0                    pytorch                               
+  + liblapack               3.9.0  16_linux64_mkl                conda-forge                           
+  + liblapacke              3.9.0  16_linux64_mkl                conda-forge                           
+  + libnpp              12.0.2.50  0                             /work/conda/cache/nvidia              
+  + libnsl                  2.0.1  hd590300_0                    conda-forge                           
+  + libnvjitlink         12.1.105  0                             /work/conda/cache/nvidia              
+  + libnvjpeg           12.1.1.14  0                             /work/conda/cache/nvidia              
+  + libpng                 1.6.43  h2797004_0                    conda-forge                           
+  + libsqlite              3.46.0  hde9e2c9_0                    conda-forge                           
+  + libstdcxx-ng           14.1.0  hc0a3c3a_0                    conda-forge                           
+  + libtiff                 4.5.0  h6adf6a1_2                    conda-forge                           
+  + libuuid                2.38.1  h0b41bf4_0                    conda-forge                           
+  + libwebp-base            1.4.0  hd590300_0                    conda-forge                           
+  + libxcb                   1.13  h7f98852_1004                 conda-forge                           
+  + libxcrypt              4.4.36  hd590300_1                    conda-forge                           
+  + libxml2                2.12.7  hc051c1a_1                    conda-forge                           
+  + libzlib                1.2.13  h4ab18f5_6                    conda-forge                           
+  + llvm-openmp            15.0.7  h0cdce71_0                    /work/conda/cache/conda-forge         
+  + markupsafe              2.1.5  py311h459d7ec_0               conda-forge                           
+  + mkl                  2022.1.0  h84fe81f_915                  /work/conda/cache/conda-forge         
+  + mkl-devel            2022.1.0  ha770c72_916                  conda-forge                           
+  + mkl-include          2022.1.0  h84fe81f_915                  conda-forge                           
+  + mpc                     1.3.1  hfe3b2da_0                    conda-forge                           
+  + mpfr                    4.2.1  h9458935_1                    conda-forge                           
+  + mpmath                  1.3.0  pyhd8ed1ab_0                  conda-forge                           
+  + ncurses                   6.5  h59595ed_0                    conda-forge                           
+  + nettle                    3.6  he412f7d_0                    /work/conda/cache/conda-forge         
+  + networkx                  3.3  pyhd8ed1ab_1                  /work/conda/cache/conda-forge         
+  + numpy                   2.0.0  py311h1461c94_0               conda-forge                           
+  + openh264                2.1.1  h780b84a_0                    /work/conda/cache/conda-forge         
+  + openjpeg                2.5.0  hfec8fc6_2                    conda-forge                           
+  + openssl                 3.3.1  h4ab18f5_1                    conda-forge                           
+  + pandas                  2.2.2  py311h14de704_1               conda-forge                           
+  + pillow                  9.4.0  py311h50def17_1               conda-forge                           
+  + pip                      24.0  pyhd8ed1ab_0                  /work/conda/cache/conda-forge         
+  + pthread-stubs             0.4  h36c2ea0_1001                 conda-forge                           
+  + pycparser                2.22  pyhd8ed1ab_0                  conda-forge                           
+  + pysocks                 1.7.1  pyha2e5f31_6                  conda-forge                           
+  + python                 3.11.9  hb806964_0_cpython            /work/conda/cache/conda-forge         
+  + python-dateutil         2.9.0  pyhd8ed1ab_0                  conda-forge                           
+  + python-tzdata          2024.1  pyhd8ed1ab_0                  conda-forge                           
+  + python_abi               3.11  4_cp311                       conda-forge                           
+  + pytorch                 2.3.1  py3.11_cuda12.1_cudnn8.9.2_0  pytorch                               
+  + pytorch-cuda             12.1  ha16c6d3_5                    pytorch                               
+  + pytorch-mutex             1.0  cuda                          pytorch                               
+  + pytz                   2024.1  pyhd8ed1ab_0                  conda-forge                           
+  + pyyaml                  6.0.1  py311h459d7ec_1               conda-forge                           
+  + readline                  8.2  h8228510_1                    conda-forge                           
+  + requests               2.32.3  pyhd8ed1ab_0                  conda-forge                           
+  + setuptools             70.1.1  pyhd8ed1ab_0                  conda-forge                           
+  + six                    1.16.0  pyh6c4a22f_0                  conda-forge                           
+  + sympy                  1.12.1  pypyh2585a3b_103              conda-forge                           
+  + tbb                 2021.12.0  h297d8ca_1                    conda-forge                           
+  + tk                     8.6.13  noxft_h4845f30_101            /work/conda/cache/conda-forge         
+  + torchtriton             2.3.1  py311                         pytorch                               
+  + torchvision            0.18.1  py311_cu121                   pytorch                               
+  + typing_extensions      4.12.2  pyha770c72_0                  conda-forge                           
+  + tzdata                  2024a  h0c530f3_0                    conda-forge                           
+  + urllib3                 2.2.2  pyhd8ed1ab_1                  conda-forge                           
+  + wheel                  0.43.0  pyhd8ed1ab_1                  conda-forge                           
+  + xorg-libxau            1.0.11  hd590300_0                    conda-forge                           
+  + xorg-libxdmcp           1.1.3  h516909a_0                    conda-forge                           
+  + xz                      5.2.6  h166bdaf_0                    conda-forge                           
+  + yaml                    0.2.5  h7f98852_2                    conda-forge                           
+  + zlib                   1.2.13  h4ab18f5_6                    conda-forge                           
+  + zstandard              0.22.0  py311hb6f056b_1               conda-forge                           
+  + zstd                    1.5.6  ha6fb4c9_0                    conda-forge                           
+
+  Summary:
+
+  Install: 119 packages
+
+  Total download: 0 B
+
+─────────────────────────────────────────────────────────────────────────────────────────────────────────
+
+
+
+Transaction starting
+Linking libcublas-12.1.0.26-0
+Linking libcufft-11.0.2.4-0
+Linking libcusolver-11.4.4.55-0
+Linking libcusparse-12.0.2.55-0
+Linking libnpp-12.0.2.50-0
+Linking libnvjitlink-12.1.105-0
+Linking cuda-cudart-12.1.105-0
+Linking cuda-nvrtc-12.1.105-0
+Linking libnvjpeg-12.1.1.14-0
+Linking cuda-cupti-12.1.105-0
+Linking cuda-nvtx-12.1.105-0
+Linking pytorch-mutex-1.0-cuda
+Linking _libgcc_mutex-0.1-conda_forge
+Linking mkl-include-2022.1.0-h84fe81f_915
+Linking python_abi-3.11-4_cp311
+Linking ld_impl_linux-64-2.40-hf3520f5_7
+Linking ca-certificates-2024.6.2-hbcca054_0
+Linking libgcc-ng-14.1.0-h77fa898_0
+Linking libzlib-1.2.13-h4ab18f5_6
+Linking llvm-openmp-15.0.7-h0cdce71_0
+Linking _openmp_mutex-4.5-2_kmp_llvm
+Linking xorg-libxdmcp-1.1.3-h516909a_0
+Linking pthread-stubs-0.4-h36c2ea0_1001
+Linking xorg-libxau-1.0.11-hd590300_0
+Linking libwebp-base-1.4.0-hd590300_0
+Linking libdeflate-1.17-h0b41bf4_0
+Linking jpeg-9e-h166bdaf_2
+Linking libffi-3.4.2-h7f98852_5
+Linking tk-8.6.13-noxft_h4845f30_101
+Linking openssl-3.3.1-h4ab18f5_1
+Linking libxcrypt-4.4.36-hd590300_1
+Linking libsqlite-3.46.0-hde9e2c9_0
+Linking yaml-0.2.5-h7f98852_2
+Linking ncurses-6.5-h59595ed_0
+Linking libgfortran5-14.1.0-hc5f4f2c_0
+Linking lame-3.100-h166bdaf_1003
+Linking nettle-3.6-he412f7d_0
+Linking zlib-1.2.13-h4ab18f5_6
+Linking libstdcxx-ng-14.1.0-hc0a3c3a_0
+Linking libiconv-1.17-hd590300_2
+Linking bzip2-1.0.8-hd590300_5
+Linking libpng-1.6.43-h2797004_0
+Linking xz-5.2.6-h166bdaf_0
+Linking libuuid-2.38.1-h0b41bf4_0
+Linking libnsl-2.0.1-hd590300_0
+Linking libexpat-2.6.2-h59595ed_0
+Linking libxcb-1.13-h7f98852_1004
+Linking readline-8.2-h8228510_1
+Linking libgfortran-ng-14.1.0-h69a702a_0
+Linking icu-73.2-h59595ed_0
+Linking zstd-1.5.6-ha6fb4c9_0
+Linking lerc-4.0.0-h27087fc_0
+Linking openh264-2.1.1-h780b84a_0
+Linking gnutls-3.6.13-h85f3911_1
+Linking gmp-6.3.0-hac33072_2
+Linking freetype-2.12.1-h267a509_2
+Linking libxml2-2.12.7-hc051c1a_1
+Linking libtiff-4.5.0-h6adf6a1_2
+Linking mpfr-4.2.1-h9458935_1
+Linking libhwloc-2.10.0-default_h5622ce7_1001
+Linking openjpeg-2.5.0-hfec8fc6_2
+Linking lcms2-2.15-hfd0df8a_0
+Linking mpc-1.3.1-hfe3b2da_0
+Linking tbb-2021.12.0-h297d8ca_1
+Linking mkl-2022.1.0-h84fe81f_915
+Linking mkl-devel-2022.1.0-ha770c72_916
+Linking libblas-3.9.0-16_linux64_mkl
+Linking liblapack-3.9.0-16_linux64_mkl
+Linking libcblas-3.9.0-16_linux64_mkl
+Linking liblapacke-3.9.0-16_linux64_mkl
+Linking blas-devel-3.9.0-16_linux64_mkl
+Linking blas-2.116-mkl
+Linking cuda-version-12.5-3
+Linking tzdata-2024a-h0c530f3_0
+Linking libjpeg-turbo-2.0.0-h9bf148f_0
+warning  libmamba [libjpeg-turbo-2.0.0-h9bf148f_0] The following files were already present in the environment:
+    - bin/cjpeg
+    - bin/djpeg
+    - bin/jpegtran
+    - bin/rdjpgcom
+    - bin/wrjpgcom
+    - include/jconfig.h
+    - include/jerror.h
+    - include/jmorecfg.h
+    - include/jpeglib.h
+    - lib/libjpeg.a
+    - lib/libjpeg.so
+    - lib/pkgconfig/libjpeg.pc
+    - share/man/man1/cjpeg.1
+    - share/man/man1/djpeg.1
+    - share/man/man1/jpegtran.1
+    - share/man/man1/rdjpgcom.1
+    - share/man/man1/wrjpgcom.1
+Linking ffmpeg-4.3-hf484d3e_0
+Linking libcurand-10.3.6.39-0
+Linking libcufile-1.10.0.4-0
+Linking cuda-opencl-12.5.39-0
+Linking cuda-libraries-12.1.0-0
+Linking cuda-runtime-12.1.0-0
+Linking python-3.11.9-hb806964_0_cpython
+Linking pytorch-cuda-12.1-ha16c6d3_5
+Linking wheel-0.43.0-pyhd8ed1ab_1
+Linking setuptools-70.1.1-pyhd8ed1ab_0
+Linking pip-24.0-pyhd8ed1ab_0
+Linking pycparser-2.22-pyhd8ed1ab_0
+Linking six-1.16.0-pyh6c4a22f_0
+Linking hyperframe-6.0.1-pyhd8ed1ab_0
+Linking pytz-2024.1-pyhd8ed1ab_0
+Linking python-tzdata-2024.1-pyhd8ed1ab_0
+Linking charset-normalizer-3.3.2-pyhd8ed1ab_0
+Linking hpack-4.0.0-pyh9f0ad1d_0
+Linking pysocks-1.7.1-pyha2e5f31_6
+Linking idna-3.7-pyhd8ed1ab_0
+Linking certifi-2024.6.2-pyhd8ed1ab_0
+Linking mpmath-1.3.0-pyhd8ed1ab_0
+Linking typing_extensions-4.12.2-pyha770c72_0
+Linking networkx-3.3-pyhd8ed1ab_1
+Linking filelock-3.15.4-pyhd8ed1ab_0
+Linking click-8.1.7-unix_pyh707e725_0
+Linking python-dateutil-2.9.0-pyhd8ed1ab_0
+Linking h2-4.1.0-pyhd8ed1ab_0
+Linking brotli-python-1.1.0-py311hb755f60_1
+Linking markupsafe-2.1.5-py311h459d7ec_0
+Linking gmpy2-2.1.5-py311hc4f1f91_1
+Linking pyyaml-6.0.1-py311h459d7ec_1
+Linking pillow-9.4.0-py311h50def17_1
+Linking numpy-2.0.0-py311h1461c94_0
+Linking cffi-1.16.0-py311hb3a22ac_0
+Linking pandas-2.2.2-py311h14de704_1
+Linking zstandard-0.22.0-py311hb6f056b_1
+Linking jinja2-3.1.4-pyhd8ed1ab_0
+Linking sympy-1.12.1-pypyh2585a3b_103
+Linking urllib3-2.2.2-pyhd8ed1ab_1
+Linking requests-2.32.3-pyhd8ed1ab_0
+Linking pytorch-2.3.1-py3.11_cuda12.1_cudnn8.9.2_0
+Linking torchtriton-2.3.1-py311
+Linking torchvision-0.18.1-py311_cu121
+
+Transaction finished
+
+To activate this environment, use:
+
+    mamba activate auto-uvapqvk3mmem
+
+Or to execute a single command in this environment, use:
+
+    mamba run -n auto-uvapqvk3mmem mycommand
+
+slurmstepd: error: *** JOB 56451 ON gcpl4-eu-1 CANCELLED AT 2024-07-03T18:51:16 ***
diff --git a/Meta-causal/code-stage1-pipeline/56451.log b/Meta-causal/code-stage1-pipeline/56451.log
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/Meta-causal/code-stage1-pipeline/56452.error b/Meta-causal/code-stage1-pipeline/56452.error
new file mode 100644
index 0000000000000000000000000000000000000000..eb5687437cf8e2e4cb8a88d2216f2c4477d146f8
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/56452.error
@@ -0,0 +1,302 @@
+Solving dependencies
+Installing conda packages
+Empty environment created at prefix: /scratch/yuqian_fu/micromamba/envs/auto-uvapqvk3mmem
+Transaction
+
+  Prefix: /scratch/yuqian_fu/micromamba/envs/auto-uvapqvk3mmem
+
+
+
+  No specs added or removed.
+
+  Package                 Version  Build                         Channel                           Size
+─────────────────────────────────────────────────────────────────────────────────────────────────────────
+  Install:
+─────────────────────────────────────────────────────────────────────────────────────────────────────────
+
+  + _libgcc_mutex             0.1  conda_forge                   conda-forge                           
+  + _openmp_mutex             4.5  2_kmp_llvm                    conda-forge                           
+  + blas                    2.116  mkl                           conda-forge                           
+  + blas-devel              3.9.0  16_linux64_mkl                conda-forge                           
+  + brotli-python           1.1.0  py311hb755f60_1               conda-forge                           
+  + bzip2                   1.0.8  hd590300_5                    conda-forge                           
+  + ca-certificates      2024.6.2  hbcca054_0                    conda-forge                           
+  + certifi              2024.6.2  pyhd8ed1ab_0                  conda-forge                           
+  + cffi                   1.16.0  py311hb3a22ac_0               conda-forge                           
+  + charset-normalizer      3.3.2  pyhd8ed1ab_0                  conda-forge                           
+  + click                   8.1.7  unix_pyh707e725_0             conda-forge                           
+  + cuda-cudart          12.1.105  0                             nvidia                                
+  + cuda-cupti           12.1.105  0                             /work/conda/cache/nvidia              
+  + cuda-libraries         12.1.0  0                             nvidia                                
+  + cuda-nvrtc           12.1.105  0                             /work/conda/cache/nvidia              
+  + cuda-nvtx            12.1.105  0                             nvidia                                
+  + cuda-opencl           12.5.39  0                             nvidia                                
+  + cuda-runtime           12.1.0  0                             nvidia                                
+  + cuda-version             12.5  3                             nvidia                                
+  + ffmpeg                    4.3  hf484d3e_0                    /work/conda/cache/pytorch             
+  + filelock               3.15.4  pyhd8ed1ab_0                  conda-forge                           
+  + freetype               2.12.1  h267a509_2                    conda-forge                           
+  + gmp                     6.3.0  hac33072_2                    conda-forge                           
+  + gmpy2                   2.1.5  py311hc4f1f91_1               conda-forge                           
+  + gnutls                 3.6.13  h85f3911_1                    /work/conda/cache/conda-forge         
+  + h2                      4.1.0  pyhd8ed1ab_0                  conda-forge                           
+  + hpack                   4.0.0  pyh9f0ad1d_0                  conda-forge                           
+  + hyperframe              6.0.1  pyhd8ed1ab_0                  conda-forge                           
+  + icu                      73.2  h59595ed_0                    /work/conda/cache/conda-forge         
+  + idna                      3.7  pyhd8ed1ab_0                  conda-forge                           
+  + jinja2                  3.1.4  pyhd8ed1ab_0                  conda-forge                           
+  + jpeg                       9e  h166bdaf_2                    conda-forge                           
+  + lame                    3.100  h166bdaf_1003                 conda-forge                           
+  + lcms2                    2.15  hfd0df8a_0                    conda-forge                           
+  + ld_impl_linux-64         2.40  hf3520f5_7                    conda-forge                           
+  + lerc                    4.0.0  h27087fc_0                    conda-forge                           
+  + libblas                 3.9.0  16_linux64_mkl                conda-forge                           
+  + libcblas                3.9.0  16_linux64_mkl                conda-forge                           
+  + libcublas           12.1.0.26  0                             /work/conda/cache/nvidia              
+  + libcufft             11.0.2.4  0                             /work/conda/cache/nvidia              
+  + libcufile            1.10.0.4  0                             nvidia                                
+  + libcurand           10.3.6.39  0                             nvidia                                
+  + libcusolver         11.4.4.55  0                             /work/conda/cache/nvidia              
+  + libcusparse         12.0.2.55  0                             /work/conda/cache/nvidia              
+  + libdeflate               1.17  h0b41bf4_0                    conda-forge                           
+  + libexpat                2.6.2  h59595ed_0                    conda-forge                           
+  + libffi                  3.4.2  h7f98852_5                    conda-forge                           
+  + libgcc-ng              14.1.0  h77fa898_0                    conda-forge                           
+  + libgfortran-ng         14.1.0  h69a702a_0                    conda-forge                           
+  + libgfortran5           14.1.0  hc5f4f2c_0                    conda-forge                           
+  + libhwloc               2.10.0  default_h5622ce7_1001         conda-forge                           
+  + libiconv                 1.17  hd590300_2                    conda-forge                           
+  + libjpeg-turbo           2.0.0  h9bf148f_0                    pytorch                               
+  + liblapack               3.9.0  16_linux64_mkl                conda-forge                           
+  + liblapacke              3.9.0  16_linux64_mkl                conda-forge                           
+  + libnpp              12.0.2.50  0                             /work/conda/cache/nvidia              
+  + libnsl                  2.0.1  hd590300_0                    conda-forge                           
+  + libnvjitlink         12.1.105  0                             /work/conda/cache/nvidia              
+  + libnvjpeg           12.1.1.14  0                             /work/conda/cache/nvidia              
+  + libpng                 1.6.43  h2797004_0                    conda-forge                           
+  + libsqlite              3.46.0  hde9e2c9_0                    conda-forge                           
+  + libstdcxx-ng           14.1.0  hc0a3c3a_0                    conda-forge                           
+  + libtiff                 4.5.0  h6adf6a1_2                    conda-forge                           
+  + libuuid                2.38.1  h0b41bf4_0                    conda-forge                           
+  + libwebp-base            1.4.0  hd590300_0                    conda-forge                           
+  + libxcb                   1.13  h7f98852_1004                 conda-forge                           
+  + libxcrypt              4.4.36  hd590300_1                    conda-forge                           
+  + libxml2                2.12.7  hc051c1a_1                    conda-forge                           
+  + libzlib                1.2.13  h4ab18f5_6                    conda-forge                           
+  + llvm-openmp            15.0.7  h0cdce71_0                    /work/conda/cache/conda-forge         
+  + markupsafe              2.1.5  py311h459d7ec_0               conda-forge                           
+  + mkl                  2022.1.0  h84fe81f_915                  /work/conda/cache/conda-forge         
+  + mkl-devel            2022.1.0  ha770c72_916                  conda-forge                           
+  + mkl-include          2022.1.0  h84fe81f_915                  conda-forge                           
+  + mpc                     1.3.1  hfe3b2da_0                    conda-forge                           
+  + mpfr                    4.2.1  h9458935_1                    conda-forge                           
+  + mpmath                  1.3.0  pyhd8ed1ab_0                  conda-forge                           
+  + ncurses                   6.5  h59595ed_0                    conda-forge                           
+  + nettle                    3.6  he412f7d_0                    /work/conda/cache/conda-forge         
+  + networkx                  3.3  pyhd8ed1ab_1                  /work/conda/cache/conda-forge         
+  + numpy                   2.0.0  py311h1461c94_0               conda-forge                           
+  + openh264                2.1.1  h780b84a_0                    /work/conda/cache/conda-forge         
+  + openjpeg                2.5.0  hfec8fc6_2                    conda-forge                           
+  + openssl                 3.3.1  h4ab18f5_1                    conda-forge                           
+  + pandas                  2.2.2  py311h14de704_1               conda-forge                           
+  + pillow                  9.4.0  py311h50def17_1               conda-forge                           
+  + pip                      24.0  pyhd8ed1ab_0                  /work/conda/cache/conda-forge         
+  + pthread-stubs             0.4  h36c2ea0_1001                 conda-forge                           
+  + pycparser                2.22  pyhd8ed1ab_0                  conda-forge                           
+  + pysocks                 1.7.1  pyha2e5f31_6                  conda-forge                           
+  + python                 3.11.9  hb806964_0_cpython            /work/conda/cache/conda-forge         
+  + python-dateutil         2.9.0  pyhd8ed1ab_0                  conda-forge                           
+  + python-tzdata          2024.1  pyhd8ed1ab_0                  conda-forge                           
+  + python_abi               3.11  4_cp311                       conda-forge                           
+  + pytorch                 2.3.1  py3.11_cuda12.1_cudnn8.9.2_0  pytorch                               
+  + pytorch-cuda             12.1  ha16c6d3_5                    pytorch                               
+  + pytorch-mutex             1.0  cuda                          pytorch                               
+  + pytz                   2024.1  pyhd8ed1ab_0                  conda-forge                           
+  + pyyaml                  6.0.1  py311h459d7ec_1               conda-forge                           
+  + readline                  8.2  h8228510_1                    conda-forge                           
+  + requests               2.32.3  pyhd8ed1ab_0                  conda-forge                           
+  + setuptools             70.1.1  pyhd8ed1ab_0                  conda-forge                           
+  + six                    1.16.0  pyh6c4a22f_0                  conda-forge                           
+  + sympy                  1.12.1  pypyh2585a3b_103              conda-forge                           
+  + tbb                 2021.12.0  h297d8ca_1                    conda-forge                           
+  + tk                     8.6.13  noxft_h4845f30_101            /work/conda/cache/conda-forge         
+  + torchtriton             2.3.1  py311                         pytorch                               
+  + torchvision            0.18.1  py311_cu121                   pytorch                               
+  + typing_extensions      4.12.2  pyha770c72_0                  conda-forge                           
+  + tzdata                  2024a  h0c530f3_0                    conda-forge                           
+  + urllib3                 2.2.2  pyhd8ed1ab_1                  conda-forge                           
+  + wheel                  0.43.0  pyhd8ed1ab_1                  conda-forge                           
+  + xorg-libxau            1.0.11  hd590300_0                    conda-forge                           
+  + xorg-libxdmcp           1.1.3  h516909a_0                    conda-forge                           
+  + xz                      5.2.6  h166bdaf_0                    conda-forge                           
+  + yaml                    0.2.5  h7f98852_2                    conda-forge                           
+  + zlib                   1.2.13  h4ab18f5_6                    conda-forge                           
+  + zstandard              0.22.0  py311hb6f056b_1               conda-forge                           
+  + zstd                    1.5.6  ha6fb4c9_0                    conda-forge                           
+
+  Summary:
+
+  Install: 119 packages
+
+  Total download: 0 B
+
+─────────────────────────────────────────────────────────────────────────────────────────────────────────
+
+
+
+Transaction starting
+Linking libcublas-12.1.0.26-0
+Linking libcufft-11.0.2.4-0
+Linking libcusolver-11.4.4.55-0
+Linking libcusparse-12.0.2.55-0
+Linking libnpp-12.0.2.50-0
+Linking libnvjitlink-12.1.105-0
+Linking cuda-cudart-12.1.105-0
+Linking cuda-nvrtc-12.1.105-0
+Linking libnvjpeg-12.1.1.14-0
+Linking cuda-cupti-12.1.105-0
+Linking cuda-nvtx-12.1.105-0
+Linking pytorch-mutex-1.0-cuda
+Linking _libgcc_mutex-0.1-conda_forge
+Linking mkl-include-2022.1.0-h84fe81f_915
+Linking python_abi-3.11-4_cp311
+Linking ld_impl_linux-64-2.40-hf3520f5_7
+Linking ca-certificates-2024.6.2-hbcca054_0
+Linking libgcc-ng-14.1.0-h77fa898_0
+Linking libzlib-1.2.13-h4ab18f5_6
+Linking llvm-openmp-15.0.7-h0cdce71_0
+Linking _openmp_mutex-4.5-2_kmp_llvm
+Linking xorg-libxdmcp-1.1.3-h516909a_0
+Linking pthread-stubs-0.4-h36c2ea0_1001
+Linking xorg-libxau-1.0.11-hd590300_0
+Linking libwebp-base-1.4.0-hd590300_0
+Linking libdeflate-1.17-h0b41bf4_0
+Linking jpeg-9e-h166bdaf_2
+Linking libffi-3.4.2-h7f98852_5
+Linking tk-8.6.13-noxft_h4845f30_101
+Linking openssl-3.3.1-h4ab18f5_1
+Linking libxcrypt-4.4.36-hd590300_1
+Linking libsqlite-3.46.0-hde9e2c9_0
+Linking yaml-0.2.5-h7f98852_2
+Linking ncurses-6.5-h59595ed_0
+Linking libgfortran5-14.1.0-hc5f4f2c_0
+Linking lame-3.100-h166bdaf_1003
+Linking nettle-3.6-he412f7d_0
+Linking zlib-1.2.13-h4ab18f5_6
+Linking libstdcxx-ng-14.1.0-hc0a3c3a_0
+Linking libiconv-1.17-hd590300_2
+Linking bzip2-1.0.8-hd590300_5
+Linking libpng-1.6.43-h2797004_0
+Linking xz-5.2.6-h166bdaf_0
+Linking libuuid-2.38.1-h0b41bf4_0
+Linking libnsl-2.0.1-hd590300_0
+Linking libexpat-2.6.2-h59595ed_0
+Linking libxcb-1.13-h7f98852_1004
+Linking readline-8.2-h8228510_1
+Linking libgfortran-ng-14.1.0-h69a702a_0
+Linking icu-73.2-h59595ed_0
+Linking zstd-1.5.6-ha6fb4c9_0
+Linking lerc-4.0.0-h27087fc_0
+Linking openh264-2.1.1-h780b84a_0
+Linking gnutls-3.6.13-h85f3911_1
+Linking gmp-6.3.0-hac33072_2
+Linking freetype-2.12.1-h267a509_2
+Linking libxml2-2.12.7-hc051c1a_1
+Linking libtiff-4.5.0-h6adf6a1_2
+Linking mpfr-4.2.1-h9458935_1
+Linking libhwloc-2.10.0-default_h5622ce7_1001
+Linking openjpeg-2.5.0-hfec8fc6_2
+Linking lcms2-2.15-hfd0df8a_0
+Linking mpc-1.3.1-hfe3b2da_0
+Linking tbb-2021.12.0-h297d8ca_1
+Linking mkl-2022.1.0-h84fe81f_915
+Linking mkl-devel-2022.1.0-ha770c72_916
+Linking libblas-3.9.0-16_linux64_mkl
+Linking liblapack-3.9.0-16_linux64_mkl
+Linking libcblas-3.9.0-16_linux64_mkl
+Linking liblapacke-3.9.0-16_linux64_mkl
+Linking blas-devel-3.9.0-16_linux64_mkl
+Linking blas-2.116-mkl
+Linking cuda-version-12.5-3
+Linking tzdata-2024a-h0c530f3_0
+Linking libjpeg-turbo-2.0.0-h9bf148f_0
+warning  libmamba [libjpeg-turbo-2.0.0-h9bf148f_0] The following files were already present in the environment:
+    - bin/cjpeg
+    - bin/djpeg
+    - bin/jpegtran
+    - bin/rdjpgcom
+    - bin/wrjpgcom
+    - include/jconfig.h
+    - include/jerror.h
+    - include/jmorecfg.h
+    - include/jpeglib.h
+    - lib/libjpeg.a
+    - lib/libjpeg.so
+    - lib/pkgconfig/libjpeg.pc
+    - share/man/man1/cjpeg.1
+    - share/man/man1/djpeg.1
+    - share/man/man1/jpegtran.1
+    - share/man/man1/rdjpgcom.1
+    - share/man/man1/wrjpgcom.1
+Linking ffmpeg-4.3-hf484d3e_0
+Linking libcurand-10.3.6.39-0
+Linking libcufile-1.10.0.4-0
+Linking cuda-opencl-12.5.39-0
+Linking cuda-libraries-12.1.0-0
+Linking cuda-runtime-12.1.0-0
+Linking python-3.11.9-hb806964_0_cpython
+Linking pytorch-cuda-12.1-ha16c6d3_5
+Linking wheel-0.43.0-pyhd8ed1ab_1
+Linking setuptools-70.1.1-pyhd8ed1ab_0
+Linking pip-24.0-pyhd8ed1ab_0
+Linking pycparser-2.22-pyhd8ed1ab_0
+Linking six-1.16.0-pyh6c4a22f_0
+Linking hyperframe-6.0.1-pyhd8ed1ab_0
+Linking pytz-2024.1-pyhd8ed1ab_0
+Linking python-tzdata-2024.1-pyhd8ed1ab_0
+Linking charset-normalizer-3.3.2-pyhd8ed1ab_0
+Linking hpack-4.0.0-pyh9f0ad1d_0
+Linking pysocks-1.7.1-pyha2e5f31_6
+Linking idna-3.7-pyhd8ed1ab_0
+Linking certifi-2024.6.2-pyhd8ed1ab_0
+Linking mpmath-1.3.0-pyhd8ed1ab_0
+Linking typing_extensions-4.12.2-pyha770c72_0
+Linking networkx-3.3-pyhd8ed1ab_1
+Linking filelock-3.15.4-pyhd8ed1ab_0
+Linking click-8.1.7-unix_pyh707e725_0
+Linking python-dateutil-2.9.0-pyhd8ed1ab_0
+Linking h2-4.1.0-pyhd8ed1ab_0
+Linking brotli-python-1.1.0-py311hb755f60_1
+Linking markupsafe-2.1.5-py311h459d7ec_0
+Linking gmpy2-2.1.5-py311hc4f1f91_1
+Linking pyyaml-6.0.1-py311h459d7ec_1
+Linking pillow-9.4.0-py311h50def17_1
+Linking numpy-2.0.0-py311h1461c94_0
+Linking cffi-1.16.0-py311hb3a22ac_0
+Linking pandas-2.2.2-py311h14de704_1
+Linking zstandard-0.22.0-py311hb6f056b_1
+Linking jinja2-3.1.4-pyhd8ed1ab_0
+Linking sympy-1.12.1-pypyh2585a3b_103
+Linking urllib3-2.2.2-pyhd8ed1ab_1
+Linking requests-2.32.3-pyhd8ed1ab_0
+Linking pytorch-2.3.1-py3.11_cuda12.1_cudnn8.9.2_0
+Linking torchtriton-2.3.1-py311
+Linking torchvision-0.18.1-py311_cu121
+
+Transaction finished
+
+To activate this environment, use:
+
+    mamba activate auto-uvapqvk3mmem
+
+Or to execute a single command in this environment, use:
+
+    mamba run -n auto-uvapqvk3mmem mycommand
+
+Installing pip packages
+WARNING: The candidate selected for download or install is a yanked version: 'opencv-python' candidate (version 4.5.5.62 at https://files.pythonhosted.org/packages/9d/98/36bfcbff30da27dd6922ed73ca7802c37d87f77daf4c569da3dcb87b4296/opencv_python-4.5.5.62-cp36-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (from https://pypi.org/simple/opencv-python/) (requires-python:>=3.6))
+Reason for being yanked: deprecated, use 4.5.5.64
+Downloading: "https://download.pytorch.org/models/resnet18-5c106cde.pth" to /home/yuqian_fu/.cache/torch/hub/checkpoints/resnet18-5c106cde.pth
+  0%|          | 0.00/44.7M [00:00<?, ?B/s] 77%|███████▋  | 34.4M/44.7M [00:00<00:00, 360MB/s]100%|██████████| 44.7M/44.7M [00:00<00:00, 352MB/s]
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-stage1-pipeline/data_loader_joint_v3.py:426: UserWarning: To copy construct from a tensor, it is recommended to use sourceTensor.clone().detach() or sourceTensor.clone().detach().requires_grad_(True), rather than torch.tensor(sourceTensor).
+  x, y = torch.tensor(x), torch.tensor(y, dtype=torch.long)
diff --git a/Meta-causal/code-stage1-pipeline/56452.log b/Meta-causal/code-stage1-pipeline/56452.log
new file mode 100644
index 0000000000000000000000000000000000000000..d2897414b548d3bc6fb6fb3f7921d74e14c3420e
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/56452.log
@@ -0,0 +1,21847 @@
+Collecting h5py>=2.9.0
+  Downloading h5py-3.11.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (2.5 kB)
+Collecting ml-collections
+  Downloading ml_collections-0.1.1.tar.gz (77 kB)
+     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 77.9/77.9 kB 7.6 MB/s eta 0:00:00
+  Preparing metadata (setup.py): started
+  Preparing metadata (setup.py): finished with status 'done'
+Requirement already satisfied: numpy in ./lib/python3.11/site-packages (2.0.0)
+Collecting opencv-python==4.5.5.62
+  Downloading opencv_python-4.5.5.62-cp36-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (18 kB)
+Collecting scipy>=1.3.2
+  Downloading scipy-1.14.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (60 kB)
+     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 60.8/60.8 kB 8.2 MB/s eta 0:00:00
+Collecting tensorboard
+  Downloading tensorboard-2.17.0-py3-none-any.whl.metadata (1.6 kB)
+Collecting tensorboardX>=1.4
+  Downloading tensorboardX-2.6.2.2-py2.py3-none-any.whl.metadata (5.8 kB)
+Collecting timm
+  Downloading timm-1.0.7-py3-none-any.whl.metadata (47 kB)
+     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 47.5/47.5 kB 10.6 MB/s eta 0:00:00
+Collecting absl-py (from ml-collections)
+  Downloading absl_py-2.1.0-py3-none-any.whl.metadata (2.3 kB)
+Requirement already satisfied: PyYAML in ./lib/python3.11/site-packages (from ml-collections) (6.0.1)
+Requirement already satisfied: six in ./lib/python3.11/site-packages (from ml-collections) (1.16.0)
+Collecting contextlib2 (from ml-collections)
+  Downloading contextlib2-21.6.0-py2.py3-none-any.whl.metadata (4.1 kB)
+Collecting grpcio>=1.48.2 (from tensorboard)
+  Downloading grpcio-1.64.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (3.3 kB)
+Collecting markdown>=2.6.8 (from tensorboard)
+  Downloading Markdown-3.6-py3-none-any.whl.metadata (7.0 kB)
+Collecting protobuf!=4.24.0,<5.0.0,>=3.19.6 (from tensorboard)
+  Downloading protobuf-4.25.3-cp37-abi3-manylinux2014_x86_64.whl.metadata (541 bytes)
+Requirement already satisfied: setuptools>=41.0.0 in ./lib/python3.11/site-packages (from tensorboard) (70.1.1)
+Collecting tensorboard-data-server<0.8.0,>=0.7.0 (from tensorboard)
+  Downloading tensorboard_data_server-0.7.2-py3-none-manylinux_2_31_x86_64.whl.metadata (1.1 kB)
+Collecting werkzeug>=1.0.1 (from tensorboard)
+  Downloading werkzeug-3.0.3-py3-none-any.whl.metadata (3.7 kB)
+Collecting packaging (from tensorboardX>=1.4)
+  Downloading packaging-24.1-py3-none-any.whl.metadata (3.2 kB)
+Requirement already satisfied: torch in ./lib/python3.11/site-packages (from timm) (2.3.1)
+Requirement already satisfied: torchvision in ./lib/python3.11/site-packages (from timm) (0.18.1)
+Collecting huggingface_hub (from timm)
+  Downloading huggingface_hub-0.23.4-py3-none-any.whl.metadata (12 kB)
+Collecting safetensors (from timm)
+  Downloading safetensors-0.4.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (3.8 kB)
+Requirement already satisfied: MarkupSafe>=2.1.1 in ./lib/python3.11/site-packages (from werkzeug>=1.0.1->tensorboard) (2.1.5)
+Requirement already satisfied: filelock in ./lib/python3.11/site-packages (from huggingface_hub->timm) (3.15.4)
+Collecting fsspec>=2023.5.0 (from huggingface_hub->timm)
+  Downloading fsspec-2024.6.1-py3-none-any.whl.metadata (11 kB)
+Requirement already satisfied: requests in ./lib/python3.11/site-packages (from huggingface_hub->timm) (2.32.3)
+Collecting tqdm>=4.42.1 (from huggingface_hub->timm)
+  Downloading tqdm-4.66.4-py3-none-any.whl.metadata (57 kB)
+     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 57.6/57.6 kB 16.4 MB/s eta 0:00:00
+Requirement already satisfied: typing-extensions>=3.7.4.3 in ./lib/python3.11/site-packages (from huggingface_hub->timm) (4.12.2)
+Requirement already satisfied: sympy in ./lib/python3.11/site-packages (from torch->timm) (1.12.1)
+Requirement already satisfied: networkx in ./lib/python3.11/site-packages (from torch->timm) (3.3)
+Requirement already satisfied: jinja2 in ./lib/python3.11/site-packages (from torch->timm) (3.1.4)
+Requirement already satisfied: pillow!=8.3.*,>=5.3.0 in ./lib/python3.11/site-packages (from torchvision->timm) (9.4.0)
+Requirement already satisfied: charset-normalizer<4,>=2 in ./lib/python3.11/site-packages (from requests->huggingface_hub->timm) (3.3.2)
+Requirement already satisfied: idna<4,>=2.5 in ./lib/python3.11/site-packages (from requests->huggingface_hub->timm) (3.7)
+Requirement already satisfied: urllib3<3,>=1.21.1 in ./lib/python3.11/site-packages (from requests->huggingface_hub->timm) (2.2.2)
+Requirement already satisfied: certifi>=2017.4.17 in ./lib/python3.11/site-packages (from requests->huggingface_hub->timm) (2024.6.2)
+Requirement already satisfied: mpmath<1.4.0,>=1.1.0 in ./lib/python3.11/site-packages (from sympy->torch->timm) (1.3.0)
+Downloading opencv_python-4.5.5.62-cp36-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (60.4 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 60.4/60.4 MB 78.5 MB/s eta 0:00:00
+Downloading h5py-3.11.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (5.4 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 5.4/5.4 MB 187.2 MB/s eta 0:00:00
+Downloading scipy-1.14.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (41.1 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 41.1/41.1 MB 105.5 MB/s eta 0:00:00
+Downloading tensorboard-2.17.0-py3-none-any.whl (5.5 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 5.5/5.5 MB 189.1 MB/s eta 0:00:00
+Downloading tensorboardX-2.6.2.2-py2.py3-none-any.whl (101 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 101.7/101.7 kB 23.7 MB/s eta 0:00:00
+Downloading timm-1.0.7-py3-none-any.whl (2.3 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 2.3/2.3 MB 138.0 MB/s eta 0:00:00
+Downloading absl_py-2.1.0-py3-none-any.whl (133 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 133.7/133.7 kB 34.2 MB/s eta 0:00:00
+Downloading grpcio-1.64.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (5.6 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 5.6/5.6 MB 47.4 MB/s eta 0:00:00
+Downloading Markdown-3.6-py3-none-any.whl (105 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 105.4/105.4 kB 26.1 MB/s eta 0:00:00
+Downloading protobuf-4.25.3-cp37-abi3-manylinux2014_x86_64.whl (294 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 294.6/294.6 kB 76.8 MB/s eta 0:00:00
+Downloading tensorboard_data_server-0.7.2-py3-none-manylinux_2_31_x86_64.whl (6.6 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 6.6/6.6 MB 184.7 MB/s eta 0:00:00
+Downloading werkzeug-3.0.3-py3-none-any.whl (227 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 227.3/227.3 kB 52.0 MB/s eta 0:00:00
+Downloading contextlib2-21.6.0-py2.py3-none-any.whl (13 kB)
+Downloading huggingface_hub-0.23.4-py3-none-any.whl (402 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 402.6/402.6 kB 82.1 MB/s eta 0:00:00
+Downloading packaging-24.1-py3-none-any.whl (53 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 54.0/54.0 kB 14.7 MB/s eta 0:00:00
+Downloading safetensors-0.4.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.2 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 1.2/1.2 MB 139.2 MB/s eta 0:00:00
+Downloading fsspec-2024.6.1-py3-none-any.whl (177 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 177.6/177.6 kB 39.5 MB/s eta 0:00:00
+Downloading tqdm-4.66.4-py3-none-any.whl (78 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 78.3/78.3 kB 18.7 MB/s eta 0:00:00
+Building wheels for collected packages: ml-collections
+  Building wheel for ml-collections (setup.py): started
+  Building wheel for ml-collections (setup.py): finished with status 'done'
+  Created wheel for ml-collections: filename=ml_collections-0.1.1-py3-none-any.whl size=94508 sha256=ed551f29efc119726e34db83e826c7054abc35ca00823e92370fbc0d102e27d3
+  Stored in directory: /scratch/yuqian_fu/.cache/pip/wheels/28/82/ef/a6971b09a96519d55ce6efef66f0cbcdef2ae9cc1e6b41daf7
+Successfully built ml-collections
+Installing collected packages: werkzeug, tqdm, tensorboard-data-server, scipy, safetensors, protobuf, packaging, opencv-python, markdown, h5py, grpcio, fsspec, contextlib2, absl-py, tensorboardX, tensorboard, ml-collections, huggingface_hub, timm
+Successfully installed absl-py-2.1.0 contextlib2-21.6.0 fsspec-2024.6.1 grpcio-1.64.1 h5py-3.11.0 huggingface_hub-0.23.4 markdown-3.6 ml-collections-0.1.1 opencv-python-4.5.5.62 packaging-24.1 protobuf-4.25.3 safetensors-0.4.3 scipy-1.14.0 tensorboard-2.17.0 tensorboard-data-server-0.7.2 tensorboardX-2.6.2.2 timm-1.0.7 tqdm-4.66.4 werkzeug-3.0.3
+/home/yuqian_fu
+{'gpu': '0', 'data': 'art_painting', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 5, 'factor_num': 16, 'epochs': 70, 'nbatch': 100, 'batchsize': 6, 'lr': 0.01, 'lr_scheduler': 'cosine', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_train.hdf5 torch.Size([1840, 3, 227, 227]) torch.Size([1840])
+--------------------------CA_multiple--------------------------
+---------------------------16 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_val.hdf5 torch.Size([208, 3, 227, 227]) torch.Size([208])
+-------------------------------------loading pretrain weights----------------------------------
+306
+cls_loss: tensor(1.8677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.2724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.1597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(19.6074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(23.8932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(28.2583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(19.5065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(22.3359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(28.7865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(15.5003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(27.3984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(17.4609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(22.8893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.6418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5850, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.2277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.0727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.4115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.2673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4748, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1595, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.6068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.6841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(22.9951, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3748, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2864, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9936e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.2435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0662, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(15.2824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.4119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.5104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.6377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5969, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1980, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5948, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.9618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0978, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8412e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.9140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9928, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3869, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4743, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.8799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.5418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.6426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9743, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1801, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.2450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(30.5912, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(32.6253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1444e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7701, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(16.4349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2871, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.8165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(16.9219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.7055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(28.6595, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5035e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(26.3878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.0863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.0547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(27.7709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.1120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.7891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7957, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.5208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.7279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.3464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2908e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.6888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3516, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.3971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.9838, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(17.8411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(21.2943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.4401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.8125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2122e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.8633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(30.7253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1873, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(18.3563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(18.3669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6957, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3639, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(16.2266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.2409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.7083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.2061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.2643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6710e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(17.7253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.1179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.3981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5908e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(16.7005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(16.8490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.2853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.7637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(20.3854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.9134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4948, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 296.16, cls_loss 6.9189
+306
+cls_loss: tensor(6.0443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(16.9254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(17.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.5632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(31.9297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.0329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9997, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.9794, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.5495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8842, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.1036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4842e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6808, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.0548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5168e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.0834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(19.4871, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6160e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.9792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(24.0729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(22.6382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.3345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6828e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(19.7530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.6979, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6902e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.8449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0951, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7047e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(18.2136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(21.3053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.9195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.3400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(20.6413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.5389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.8858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.7500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.1950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1260e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(16.4442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6979, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(17.5592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(15.1042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7728, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(15.5319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(24.5208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8910, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1912, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1516, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.0597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(20.8785, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(22.6927, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3882e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(27.6635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(19.0840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.5365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4921, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7969, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.1539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4861, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9331, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.994965332706573e-05
+changing lr
+epoch 1, time 305.00, cls_loss 4.7944
+306
+cls_loss: tensor(0.0553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6623e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.6667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1712, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1988e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1990e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.4810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1941e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2930, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0252e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3114e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3945, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.3203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2956, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6982, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(15.7370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8916, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7920, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.1520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3835, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.7098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0848, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0665e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4785, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0963, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.8598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1842, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6193e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.3138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.2735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8952, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.8453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0757e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5128e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3997, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(16.7809, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3678, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6690e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0550e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1842, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2842, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(20.5430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9635, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.979871469976196e-05
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 358.04, cls_loss 2.7433
+306
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.2461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5835, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6558e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2956, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7817e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2676e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8789, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7832, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7746, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.6749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4762e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5586, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2187e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6405e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1525e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(17.0815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2923, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4571e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2584e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1664e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8068e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.7188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5928, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4639e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.3724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3770, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3910, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3843e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2696e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3232e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3000, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0777, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6426e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4770e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9405e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0798e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2565, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7695, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.1888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7975e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8014e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2519e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6777, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4988e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+9.954748808839674e-05
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 369.87, cls_loss 1.7181
+306
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7645e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2385e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5794, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6941e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5777, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2279e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3980, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7286e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2765e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8398e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1923, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7551e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9637e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0590e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4440e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0033e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2572e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4617e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5101e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4902e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2793, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3848, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8347e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5366e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8070e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6293e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0597e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0093e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7723, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5869, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4808, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2519e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0955, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8080e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0889e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0873, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9008e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9009e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6227e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9803e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8213e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8594, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.919647942993148e-05
+changing lr
+epoch 4, time 372.12, cls_loss 0.8746
+306
+cls_loss: tensor(8.3844e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3662, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9564, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8281e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7948e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0464e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4326e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.5469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4637e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0962, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1239e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1380, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2167e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.5286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6578e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9948, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3743e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7895e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0933, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(16.4116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2773, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3034e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7220e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2233e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4505e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1940, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3598e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8837e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2187e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1926, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6927, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0723e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4505e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1940, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3955e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2948e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.3050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3843e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3340e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3801, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8121e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5432e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.874639560909117e-05
+changing lr
+epoch 5, time 370.13, cls_loss 1.0098
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2451e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8425e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4107e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.1962, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9928, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9604e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9737e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7021e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9015e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6927, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9101e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4851e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1901e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4921e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8080e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9936e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2662, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3731e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8942e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1359e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2723, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4041e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7089e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8465e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7902, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2981e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4451e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2000e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2139e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9904, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3292e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8412e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4756e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6530e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6927, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0796e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1842, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2915e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.1185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6756e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1927, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4489, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.819814303479267e-05
+changing lr
+epoch 6, time 370.75, cls_loss 0.7924
+306
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5300e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9564, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1777, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0651e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7154e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5001e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4505e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8114e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2179e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3619e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0861, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6530e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9327e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6690e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4505e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5365e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0597e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1692, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7484e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4174e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0663e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4404e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9313e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(15.2891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9637e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5193e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1808, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8736e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4068e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9662, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3975e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8516, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2649, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3319e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8591e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3362, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.755282581475769e-05
+changing lr
+epoch 7, time 370.66, cls_loss 0.7084
+306
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8955e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5998, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5794, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2200e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8861, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0960, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9935e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2969, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1849e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1327e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5036e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9785, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5366e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2876e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4550, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6445e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0696e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1590e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2252e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7022e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4173e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1346e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7770, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7695, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.681174353198687e-05
+changing lr
+---------------------saving model at epoch 8----------------------------------------------------
+epoch 8, time 370.71, cls_loss 0.4985
+306
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0665e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8347e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1656e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5948, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4902e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8943e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3425e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6986, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3916, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5579e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2784e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7577e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4440e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0246e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2457e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6162e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8347e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8279e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3444e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4618e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6232e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7266e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5960, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0398e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5517e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2785e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6591e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6848e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6162e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1927, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1849e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+9.597638862757255e-05
+changing lr
+epoch 9, time 370.77, cls_loss 0.3858
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1543e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4027e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1979, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1988e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2902e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8279e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5040e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9701, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8837e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6518e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.3325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1186e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0889e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2029e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1485e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5844e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9578e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0405e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7286e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6360e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0623, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0955, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1743, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8372e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1404e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9941e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3516, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0293e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0669e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2187e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1895e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2124, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.504844339512095e-05
+changing lr
+epoch 10, time 379.50, cls_loss 0.4715
+306
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9307e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6073e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6955e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2081e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0550, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2848e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2359e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0597e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7485e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1989e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8745e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2769, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4173e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0905, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2845, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7658e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0748, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3367e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7551e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6425e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1452e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1133e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1930, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2730e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1393e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7948e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5764e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+9.40297765928369e-05
+changing lr
+epoch 11, time 371.48, cls_loss 0.1305
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4968e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5910e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2861, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9525e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1120e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8015e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3114e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0252e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1195e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8997, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8516, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9758e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1564e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1658e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4663e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1338e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6333e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8551e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9935e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+9.292243968009331e-05
+changing lr
+epoch 12, time 369.81, cls_loss 0.1468
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8942e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9803e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0663e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9737e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1127e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.4013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0246e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0306e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4153e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3491e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2916e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0464e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9273e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7802e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8002e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7259e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1927, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5679, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1260e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9936e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8070e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2200e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.172866268606513e-05
+changing lr
+epoch 13, time 369.00, cls_loss 0.1700
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5511e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8809e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9008e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5048e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7008e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2122e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7676e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4035e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1060e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7685e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6458e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0339e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1901e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6405e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9717e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6227e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3041e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2848e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6028e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0439e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7239e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3530e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0465e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2055e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2477e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3340e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4394e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.045084971874738e-05
+changing lr
+epoch 14, time 370.38, cls_loss 0.1292
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5195e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5623, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7883e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4307e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7695, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3577e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7325e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5566e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7816e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6979, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1153e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5564e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8227e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.3646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2200e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1473e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5910e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4571e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2121e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6073e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9837, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3444e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+8.90915741234015e-05
+changing lr
+epoch 15, time 371.67, cls_loss 0.2955
+306
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0780, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1432e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8413e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6953, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8729e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3886, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5035e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1857e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0597e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4107e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7021e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1888e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5822e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4770e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1539e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4349, device='cuda:0', grad_fn=<NllLossBackward0>)
+8.765357330018056e-05
+changing lr
+---------------------saving model at epoch 16----------------------------------------------------
+epoch 16, time 372.24, cls_loss 0.1137
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1531e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8080e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2532e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0108e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0252e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5273e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1313e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3967e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1790e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0665e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9082e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7950e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2259e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8922e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8082e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9206e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2187e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6927, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4186e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8769, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6890e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5040e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0120e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0644e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9637e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9828e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1988e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5035e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+8.613974319136958e-05
+changing lr
+epoch 17, time 371.27, cls_loss 0.0677
+306
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9451e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0947e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3777e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3340e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1776e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0398e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4995e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6293e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6625e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4968e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9405e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8497e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0651e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4108e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5498e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0246e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4571e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2213e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8215e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9406e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0520e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7047e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3246e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8414e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0021e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6650e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2167e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+8.455313244934324e-05
+changing lr
+epoch 18, time 372.50, cls_loss 0.1072
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1953, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2848e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6559e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6677e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1380, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8997, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0398e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1557e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0770e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1060e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5566e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0162e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9571e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8080e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1452e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6890e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9009e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1392e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5167e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+8.289693629698562e-05
+changing lr
+epoch 19, time 371.56, cls_loss 0.0832
+306
+cls_loss: tensor(0.8887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0285e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2200e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9578e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0232e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0929e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4639e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4573e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3916, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5167e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1953, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7830e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8148e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9552e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7551e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2557e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0901e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0692, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7472e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5630e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2650e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4572e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+8.117449009293667e-05
+changing lr
+epoch 20, time 369.09, cls_loss 0.0275
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5035e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5193e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8644e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0597e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2365e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6953, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3967e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7154e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0597e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7751e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3379e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3579e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7021e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0649e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1365e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7219e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3073e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0200e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1340e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2811e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7780, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7246e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+7.938926261462365e-05
+changing lr
+epoch 21, time 368.36, cls_loss 0.0585
+306
+cls_loss: tensor(7.2360e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3444e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2862e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3073e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3645e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3087e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3848e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1790e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5831e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6731e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0597e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4815e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7485e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3292e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0749e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8610e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4081e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2453e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2584e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1583e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+7.754484907260511e-05
+changing lr
+---------------------saving model at epoch 22----------------------------------------------------
+epoch 22, time 367.15, cls_loss 0.0616
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4639e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3491e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6690e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2122e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0570e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4892, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7088e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2981e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7009e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7764e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1808, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6757e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3975e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8678e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8795e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1265e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0398e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9266e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2877e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4241e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4146e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+7.56449638702953e-05
+changing lr
+---------------------saving model at epoch 23----------------------------------------------------
+epoch 23, time 368.69, cls_loss 0.0542
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5657e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0134e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2187e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9089e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5040e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7023e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4564, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1392e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2279e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5989e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8008e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0466e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9703e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3551e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2785e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1458e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0863e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1988e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1724e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6000, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4505e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7949e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4173e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6401e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9207e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7352e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1260e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7703e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1067, device='cuda:0', grad_fn=<NllLossBackward0>)
+7.369343312364992e-05
+changing lr
+epoch 24, time 372.23, cls_loss 0.0459
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6828e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1378e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9008e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7671e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0863e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8745e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5082e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5180e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7810e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9538e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1424e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8008e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4881e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5683e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4438e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2279e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1901e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8974e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0325e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+7.169418695587788e-05
+changing lr
+epoch 25, time 371.99, cls_loss 0.0211
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3645e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0969e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2451e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6094e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1128e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3751e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1988e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8279e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3763e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6623e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2862e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8128e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4637e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7219e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8080e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9538e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5167e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0464e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2803e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2850e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1623e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+6.965125158269616e-05
+changing lr
+epoch 26, time 366.50, cls_loss 0.0463
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3048e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8942e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4835e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5617e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7353e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6227e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6560e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1623e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1260e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5544e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0412e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0929e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2842e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4440e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7219e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+6.756874120406712e-05
+changing lr
+epoch 27, time 373.44, cls_loss 0.0311
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9022e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0657e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8939, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3247e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2365e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5954e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6425e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8081e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1988e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6623e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0268e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1060e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1649, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2532e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1857e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6101e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1365e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8612e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+6.545084971874736e-05
+changing lr
+epoch 28, time 369.89, cls_loss 0.0291
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4903e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4771e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0758e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1896e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3915e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4400e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8610e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1716e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0788e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8147e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0901e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2000e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9935e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7752e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8014e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+6.330184227833373e-05
+changing lr
+epoch 29, time 380.65, cls_loss 0.0019
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1590e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9604e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2040e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1260e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0598e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0206e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7897e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5080e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6639e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5630e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6479e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6426e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7703e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2718e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4835e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+6.11260466978157e-05
+changing lr
+epoch 30, time 372.52, cls_loss 0.0014
+306
+cls_loss: tensor(4.1107e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9935e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6657e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4280e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0664e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8333e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6206e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0453e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0464e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6770e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1392e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3313e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6610e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3619e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8902e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4902e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9327e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6359e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4638e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7697e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+5.892784473993181e-05
+changing lr
+---------------------saving model at epoch 31----------------------------------------------------
+epoch 31, time 368.20, cls_loss 0.0031
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9194e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8545e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9791e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4175e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0663e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1372e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1923e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5101e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0730e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6956e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4438e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2683e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8942e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6161e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6690e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3782e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9008e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7948e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2320e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3729e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2346e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5425e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2042e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+5.6711663290882756e-05
+changing lr
+epoch 32, time 371.78, cls_loss 0.0068
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8612e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7948e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2849e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7023e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7933, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4902e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3433e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0351e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6890e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6182e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6730e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4850e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5035e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2848e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8612e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2848e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5287e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3491e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8439e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8598e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6427e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+5.448196544517166e-05
+changing lr
+epoch 33, time 370.50, cls_loss 0.0207
+306
+cls_loss: tensor(5.3445e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1372e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5630e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2093e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4194e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2876e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6411e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8744e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4345e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1226e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6677e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1378e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2943e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+5.2243241517525733e-05
+changing lr
+epoch 34, time 368.99, cls_loss 0.0115
+306
+cls_loss: tensor(1.1901e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5790e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1261e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9723e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6028e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0087e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7021e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8624e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5630e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3314e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4822e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3551e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0597e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8942e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3180e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7751e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8610e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+4.999999999999998e-05
+changing lr
+---------------------saving model at epoch 35----------------------------------------------------
+epoch 35, time 371.09, cls_loss 0.0023
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1260e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2452e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2904e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4664e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4637e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2861, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3888e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1127e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5300e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2585e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3248e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7027e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9041e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6756e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5990e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4041e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+4.7756758482474244e-05
+changing lr
+epoch 36, time 370.52, cls_loss 0.0033
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3480e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7208e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8400e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4246e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8558e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4776e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3763e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3379e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4299e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3843e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6160e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4365e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0405e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7286e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2080e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9472e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8199e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5962e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3915e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6530e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1060e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5725e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9710e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0994e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9379e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+4.551803455482832e-05
+changing lr
+epoch 37, time 373.66, cls_loss 0.0003
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1737e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7148e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2094e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0333e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9141e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9406e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8803e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6360e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3657e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7326e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3551e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+4.328833670911722e-05
+changing lr
+epoch 38, time 370.52, cls_loss 0.0022
+306
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2929e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8948e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7023e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3325e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2518e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9332e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4902e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6094e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0677e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1060e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7446e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0268e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4945, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+4.1072155260068164e-05
+changing lr
+epoch 39, time 368.60, cls_loss 0.0333
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0679e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5167e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1094e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0200e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0920, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4698e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4743e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0200e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0267e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5195e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7897e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7220e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3247e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3120e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4769e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4969e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8318e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+3.8873953302184275e-05
+changing lr
+epoch 40, time 372.40, cls_loss 0.0009
+306
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4584e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2610e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0864e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0555, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7751e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4771e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3246e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7213e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9140e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2121e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3114e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4175e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2585e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0532e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2849e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+3.669815772166625e-05
+changing lr
+epoch 41, time 370.21, cls_loss 0.0017
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2253e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4041e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6868e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2000e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5040e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0268e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6228e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8517e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4770e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9009e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5233e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+3.454915028125263e-05
+changing lr
+epoch 42, time 371.34, cls_loss 0.0008
+306
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1094e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7949e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5089e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3976e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4835e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7385e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6770e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6559e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9093e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5213e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1822e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9935e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9451e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3828e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3643e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3491e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+3.2431258795932867e-05
+changing lr
+epoch 43, time 371.28, cls_loss 0.0003
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0848e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7484e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4657e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2863e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4835e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3764e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0677e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8743e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9638e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1617e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9630e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4505e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7829e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5365e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9273e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+3.0348748417303827e-05
+changing lr
+epoch 44, time 369.58, cls_loss 0.0184
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0597e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4921e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2572e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9465e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0135e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7499e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6890e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9876e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9009e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2982e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2717e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0140e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1392e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1140e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7882e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0603e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6161e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1656e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1762e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9008e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+2.830581304412209e-05
+changing lr
+epoch 45, time 371.66, cls_loss 0.0106
+306
+cls_loss: tensor(4.4505e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2511e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3146e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1326e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7553e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2121e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7458e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5300e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2650e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1458e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+2.6306566876350062e-05
+changing lr
+epoch 46, time 370.93, cls_loss 0.0004
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2457e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4769e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0490e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2000e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0200e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3683e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7617e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7658e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5869, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6426e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2584e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3923, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0696e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6558e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0333e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0730e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+2.4355036129704693e-05
+changing lr
+---------------------saving model at epoch 47----------------------------------------------------
+epoch 47, time 371.02, cls_loss 0.0094
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5060e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9823e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8412e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3836e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2413e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4936e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8279e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1857e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5274e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7551e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9870e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5744e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2848e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1988e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3200e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3120e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7829e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8809e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3444e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7088e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7948e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0484e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+2.2455150927394874e-05
+changing lr
+epoch 48, time 372.32, cls_loss 0.0075
+306
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5373e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3559e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0994e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9339e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9339e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9935e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7155e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9008e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6756e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1327e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8478e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7155e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+2.0610737385376345e-05
+changing lr
+epoch 49, time 370.91, cls_loss 0.0004
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0253e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2983e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2385e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6955e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7895e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8851e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4902e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0531e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8140e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4822e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9540e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1127e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5127e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1314e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1990e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4658e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5698e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7444e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6559e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7782e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2016e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8040e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8080e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2584e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2637e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+1.8825509907063323e-05
+changing lr
+epoch 50, time 371.81, cls_loss 0.0091
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8558e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0464e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4372e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2717e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0796e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2848e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5313e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7484e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7219e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7154e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7325e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7088e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4180e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0835, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1756e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2531e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4148e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8001e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5306e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7464e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5630e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4969e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2200e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1182e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9650e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4769e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0531e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4042e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9274e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7862e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+1.710306370301437e-05
+changing lr
+epoch 51, time 375.01, cls_loss 0.0040
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1195e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7022e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0597e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5822e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8213e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4049e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1895e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5754, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0778e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7155e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5755e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9009e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8809e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5486e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0808e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2916e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3975e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0405e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8598e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4742e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8743e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0351e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2810e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7842e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2848e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0663e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1458e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2577e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8809e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1981e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8347e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+1.5446867550656765e-05
+changing lr
+epoch 52, time 370.33, cls_loss 0.0134
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4187e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1916, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5650e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0583e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7491e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6425e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9208e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1186e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5857e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6029e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5279e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7088e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5050e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4835e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4080e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8201e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5432e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0068e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+1.3860256808630425e-05
+changing lr
+epoch 53, time 367.86, cls_loss 0.0062
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0802e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5169e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9332e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8427e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0332e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7352e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7869e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9743e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2651e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7818e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4750e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5326e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7922e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4027e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4265e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1742e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5815e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7506e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2319e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3868e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+1.2346426699819455e-05
+changing lr
+epoch 54, time 372.13, cls_loss 0.0010
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9870e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2643e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6570e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2652e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2785e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0200e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2439e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4259e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9208e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8346e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4974e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0134e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4770e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3485e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1040e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3689e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4246e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8279e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5597e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0002e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+1.0908425876598507e-05
+changing lr
+epoch 55, time 372.19, cls_loss 0.0017
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8577e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3115e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8114e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9266e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9075e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2056e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9339e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0848e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7518e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2539e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5498e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9578e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6558e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0201e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2040e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4464e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7864e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6558e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6650e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7299e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0192e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+9.549150281252631e-06
+changing lr
+epoch 56, time 374.32, cls_loss 0.0014
+306
+cls_loss: tensor(3.6558e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4902e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1908e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3073e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2453e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7551e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2848e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2385e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2320e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6842e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9405e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6783e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3643e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0134e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0597e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0073e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3120e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4969e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8412e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2187e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3577e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+8.271337313934865e-06
+changing lr
+epoch 57, time 375.12, cls_loss 0.0065
+306
+cls_loss: tensor(4.2717e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9737e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3232e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6677e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4842e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7120e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0564e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7816e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5167e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4042e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3425e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9538e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4160e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0643e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3114e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2426e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8279e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9941e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0504e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+7.077560319906693e-06
+changing lr
+epoch 58, time 369.93, cls_loss 0.0002
+306
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3749e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2571e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5579e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5386e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2122e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8148e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2319e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0069e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4173e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1941e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5101e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7353e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2175e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9604e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9312e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2153e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3956, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4438e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1326e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1239e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7405e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+5.970223407163098e-06
+changing lr
+epoch 59, time 371.25, cls_loss 0.0097
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7751e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6550e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8756e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5365e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0796e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1525e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0797e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2596e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1592e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0663e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9869e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1658e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5630e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9472e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4637e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+4.9515566048790464e-06
+changing lr
+epoch 60, time 369.02, cls_loss 0.0020
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7818e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5067e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9538e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4041e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1235e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2785e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1590e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4968e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3444e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+4.0236113724274705e-06
+changing lr
+epoch 61, time 371.04, cls_loss 0.0006
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5577e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0379e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2080e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3180e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9167e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1459e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6094e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2916e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0868e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9142e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9525e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3246e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5167e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1856e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9206e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3677e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+3.188256468013139e-06
+changing lr
+epoch 62, time 370.44, cls_loss 0.0022
+306
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0901e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2093e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7762e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7100e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1590e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0689e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0391e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5511e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3525e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9089e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1656e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7186e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7366e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2934e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5795e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5981e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3288e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8339e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1658e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7948e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6623e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+2.4471741852423225e-06
+changing lr
+epoch 63, time 369.65, cls_loss 0.0012
+306
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8294e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2385e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8081e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6623e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7751e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3664e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9385e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0994e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3551e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6890e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6252e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2557e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5101e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+1.8018569652073373e-06
+changing lr
+epoch 64, time 370.77, cls_loss 0.0120
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0797e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6756e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8942e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1393e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2187e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7286e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4563e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7617e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7419e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6034e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9538e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6425e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9133e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2896e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7353e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+1.2536043909088185e-06
+changing lr
+epoch 65, time 372.14, cls_loss 0.0013
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9206e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2630e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4637e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0135e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5028e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7239e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2358e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0465e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9604e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0783e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0464e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4146e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5405e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5062e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5764e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+8.035205700685162e-07
+changing lr
+epoch 66, time 368.52, cls_loss 0.0000
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7816e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3451e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6361e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8876e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0947e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4571e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2174e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8612e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8942e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2187e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1784e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8214e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+4.525119116032647e-07
+changing lr
+epoch 67, time 373.91, cls_loss 0.0013
+306
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4432e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3035e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3643e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2293e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0663e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9578e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9048e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3671e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5566e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6895e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6697e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4451e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7619e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+2.0128530023804648e-07
+changing lr
+epoch 68, time 370.90, cls_loss 0.0011
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4107e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2298e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2596e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4771e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1424e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4458e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4265e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3380e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2254e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5498e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5849e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2419e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4835e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1060e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5963e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9075e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2868e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1881e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1704e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+5.03466729342705e-08
+changing lr
+epoch 69, time 343.07, cls_loss 0.0001
+---------------------saving last model at epoch 69----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5', 'source_domain': 'art_painting', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/art_painting_16factor_last_test_check.csv', 'factor_num': 16, 'epoch': 'last', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of last
+columns: ['art_painting', 'cartoon', 'photo', 'sketch']
+x.shape: (2048, 227, 227, 3)
+x_aug test here torch.Size([2048, 3, 227, 227])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+x.shape: (2344, 227, 227, 3)
+x_aug test here torch.Size([2344, 3, 227, 227])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+x.shape: (1670, 227, 227, 3)
+x_aug test here torch.Size([1670, 3, 227, 227])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+x.shape: (3929, 227, 227, 3)
+x_aug test here torch.Size([3929, 3, 227, 227])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+                     art_painting   cartoon      photo     sketch        Avg
+w/o do (original x)      8.984375  5.759386  11.137725  15.474675  10.790595
diff --git a/Meta-causal/code-stage1-pipeline/56454.error b/Meta-causal/code-stage1-pipeline/56454.error
new file mode 100644
index 0000000000000000000000000000000000000000..4d4eb4cfa24b0c733d487e584e09bc5d6db9f3f9
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/56454.error
@@ -0,0 +1,3 @@
+slurmstepd: error: *** JOB 56454 ON gcpl4-eu-1 CANCELLED AT 2024-07-04T06:57:02 DUE TO TIME LIMIT ***
+slurmstepd: error: *** STEP 56454.0 ON gcpl4-eu-1 CANCELLED AT 2024-07-04T06:57:02 DUE TO TIME LIMIT ***
+srun: Job step aborted: Waiting up to 32 seconds for job step to finish.
diff --git a/Meta-causal/code-stage1-pipeline/56454.log b/Meta-causal/code-stage1-pipeline/56454.log
new file mode 100644
index 0000000000000000000000000000000000000000..0916114b9207bb4c78f7d8d859de666c1add3cc5
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/56454.log
@@ -0,0 +1,24485 @@
+/home/yuqian_fu
+{'gpu': '0', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 500, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+--------------------------CA_multiple--------------------------
+---------------------------14 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+100
+cls_loss: tensor(2.2979, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2842, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1963, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9801, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8921, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4934, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0778, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6746, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9380, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6905, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4832, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4555, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5586, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4380, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4493, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 184.94, cls_loss 1.0915
+100
+cls_loss: tensor(0.2161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1942, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5695, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1743, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2770, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2842, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5979, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1861, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 185.54, cls_loss 0.3618
+100
+cls_loss: tensor(0.2670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2961, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0960, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3794, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0692, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1968, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2769, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2480, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 185.39, cls_loss 0.2422
+100
+cls_loss: tensor(0.1092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0969, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0925, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1925, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1926, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1959, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0951, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0607, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2286, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 186.34, cls_loss 0.1883
+100
+cls_loss: tensor(0.0431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1678, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0915, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0930, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0770, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1639, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0957, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2994, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1923, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0939, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2639, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0639, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1623, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2930, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 185.66, cls_loss 0.1516
+100
+cls_loss: tensor(0.0979, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3934, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0944, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0952, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0845, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2960, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0859, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 5----------------------------------------------------
+epoch 5, time 185.84, cls_loss 0.1194
+100
+cls_loss: tensor(0.0594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0564, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0631, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0728, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0701, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2692, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1851, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1994, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0920, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0961, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0420, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 6----------------------------------------------------
+epoch 6, time 185.38, cls_loss 0.1092
+100
+cls_loss: tensor(0.1926, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0960, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0960, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1926, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0564, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0925, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0595, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3873, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0907, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0920, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1240, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 7----------------------------------------------------
+epoch 7, time 185.55, cls_loss 0.0984
+100
+cls_loss: tensor(0.2656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0786, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1982, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0951, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0994, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0785, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 8----------------------------------------------------
+epoch 8, time 185.48, cls_loss 0.0902
+100
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0982, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0786, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1788, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0780, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0979, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0927, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1946, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0789, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0998, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0953, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 9, time 185.10, cls_loss 0.0674
+100
+cls_loss: tensor(0.0539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0831, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0649, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0944, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 10----------------------------------------------------
+epoch 10, time 186.23, cls_loss 0.0662
+100
+cls_loss: tensor(0.0407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0994, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0997, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0921, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0864, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0850, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0915, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 11----------------------------------------------------
+epoch 11, time 185.79, cls_loss 0.0599
+100
+cls_loss: tensor(0.0840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0746, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0806, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1794, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1955, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0723, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0692, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0694, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 12----------------------------------------------------
+epoch 12, time 185.75, cls_loss 0.0600
+100
+cls_loss: tensor(0.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0725, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0793, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0785, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0926, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0743, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0586, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 13, time 185.55, cls_loss 0.0650
+100
+cls_loss: tensor(0.0447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1746, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0806, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0864, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0806, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0595, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0789, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2728, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0631, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0501, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 14, time 184.99, cls_loss 0.0570
+100
+cls_loss: tensor(0.0296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0825, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0978, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1873, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0627, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 15, time 185.17, cls_loss 0.0396
+100
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0928, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1979, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0952, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1957, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0923, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0472, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 16----------------------------------------------------
+epoch 16, time 184.75, cls_loss 0.0403
+100
+cls_loss: tensor(0.0376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1595, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0994, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0678, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 17, time 183.70, cls_loss 0.0370
+100
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0701, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1808, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1123, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 18, time 183.93, cls_loss 0.0422
+100
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0996, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0746, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0871, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 19, time 183.43, cls_loss 0.0434
+100
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0968, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0754, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 20----------------------------------------------------
+epoch 20, time 183.27, cls_loss 0.0352
+100
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0631, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0951, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0971, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 21, time 183.36, cls_loss 0.0297
+100
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 22, time 183.12, cls_loss 0.0239
+100
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3933, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 23, time 183.42, cls_loss 0.0314
+100
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0793, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0850, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0940, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0910, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 24, time 183.44, cls_loss 0.0295
+100
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0848, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0678, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 25----------------------------------------------------
+epoch 25, time 183.89, cls_loss 0.0145
+100
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6597e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 26----------------------------------------------------
+epoch 26, time 183.47, cls_loss 0.0102
+100
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1840e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 27, time 183.01, cls_loss 0.0175
+100
+cls_loss: tensor(0.1656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0960, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0825, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 28, time 183.09, cls_loss 0.0356
+100
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1929, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0806, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 29, time 182.78, cls_loss 0.0161
+100
+cls_loss: tensor(0.0480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9165e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1850, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 30, time 183.12, cls_loss 0.0169
+100
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6380e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 31, time 183.03, cls_loss 0.0115
+100
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4276e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0555, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1280, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 32, time 183.43, cls_loss 0.0193
+100
+cls_loss: tensor(0.0619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0695, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1997e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0586, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 33, time 183.03, cls_loss 0.0195
+100
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9029e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 34, time 183.14, cls_loss 0.0103
+100
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0955, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8332e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0916, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0555, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 35, time 182.90, cls_loss 0.0126
+100
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8654e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 36, time 183.16, cls_loss 0.0095
+100
+cls_loss: tensor(8.6002e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8347e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7754e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0931e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 37, time 183.79, cls_loss 0.0082
+100
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0350e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2454e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 38, time 183.14, cls_loss 0.0161
+100
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2270e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4112e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0691, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0930, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 39, time 183.19, cls_loss 0.0133
+100
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0603e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4493e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2678e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9906e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5250e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0649, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 40, time 183.48, cls_loss 0.0055
+100
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4949e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0871, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0956, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6949e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 41, time 183.25, cls_loss 0.0050
+100
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4022e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5164e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6996e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4645e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5078e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7840e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8261e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4812e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1731e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0770e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0330, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 42----------------------------------------------------
+epoch 42, time 183.26, cls_loss 0.0034
+100
+cls_loss: tensor(1.9077e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2381e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6371e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3485e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0634e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0144e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 43, time 183.54, cls_loss 0.0097
+100
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0311e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0942, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6479e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3321e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7034e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2262e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2846e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9942e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 44, time 183.51, cls_loss 0.0057
+100
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3320e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5334e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1917e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1147e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7469e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5237e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2063e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2492e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3319e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9957e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8671e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4450e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5639e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5005e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7910e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5902e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 45, time 183.32, cls_loss 0.0031
+100
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0365e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4176e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0116e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8990e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4666e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5151e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4120e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4343e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6305e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4815e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 46, time 183.18, cls_loss 0.0010
+100
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3115e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8053e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4371e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6224e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5136e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5179e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2217e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0519e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3393e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8159e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7295e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0151e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7390e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9805e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 47, time 183.73, cls_loss 0.0091
+100
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8294e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1803e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3092e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4744e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1656e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6206e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8403e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0710e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1703e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6888e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8653e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6184e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3377e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0546e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9573e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8444e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8375e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8256e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9499e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 48, time 183.68, cls_loss 0.0036
+100
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4872e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7360e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7216e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7460e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3468e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8116e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2609e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0956e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5915e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8013e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9726e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1612e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6196e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8266e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7258e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3988e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7822e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2903e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 49, time 183.41, cls_loss 0.0090
+100
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0991, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0786, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0855e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 50, time 183.60, cls_loss 0.0302
+100
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4362e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0694e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2143e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7367e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 51, time 183.34, cls_loss 0.0138
+100
+cls_loss: tensor(7.3526e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5777e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9385e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5654e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5298e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5647e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4520e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5795e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6334e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3394e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9876e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 52, time 183.53, cls_loss 0.0038
+100
+cls_loss: tensor(3.4284e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5983e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8235e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4850e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8682e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9154e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8546e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7932e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0565, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3938e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0118e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8772e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 53, time 183.15, cls_loss 0.0060
+100
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5093e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4988e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1162e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9426e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8380e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2359e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7611e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7428e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9684e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5845e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0541e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6885e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1835e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6986e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 54, time 183.39, cls_loss 0.0054
+100
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4811e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8589e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3906e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1993e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5436e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5094e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5061e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7755e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7322e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3435e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2167e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3713e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3934e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4696e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0857e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5664e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9672e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8072e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0812e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 55, time 183.71, cls_loss 0.0068
+100
+cls_loss: tensor(2.9791e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6391e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3970e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0910, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1399e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5585e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2586e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5198e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4814e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8582e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8688e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1260e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9736e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4922e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1800e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4629e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6667e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1234e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2792e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7802e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2106e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 56, time 183.66, cls_loss 0.0037
+100
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5938e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3979e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7845e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9547e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0539e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4347e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0923, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9627e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0025e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5204e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1494e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9982e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0785, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5558e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6750e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5080e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 57, time 183.49, cls_loss 0.0132
+100
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6419e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7966e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1765e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6329e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4245e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3295e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9597e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3931e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0560e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3413e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8919e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9600e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6867e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 58, time 183.39, cls_loss 0.0024
+100
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4033e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9266e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0480e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0275e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7548e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5593e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0753e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1034e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6448e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9276e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1519e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0504e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9248e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1183e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 59, time 183.85, cls_loss 0.0037
+100
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4772e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1672e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7939e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4146e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0327e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7492e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6267e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5965e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1435e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0338e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9477e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2758e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0633e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5820e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1952e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3005e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6876e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 60, time 183.40, cls_loss 0.0053
+100
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9482e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9581e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8232e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9807e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6554e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5197e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0172e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0806, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9251e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7290e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1649e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2419e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8965e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7125e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9866e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2525e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5911e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1942, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2004e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3375e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9989e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0330e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 61, time 183.48, cls_loss 0.0066
+100
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3482e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5621e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4561e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2713e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8467e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5442e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7074e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1877e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9299e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8241e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0243e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2994e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6922e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0412e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4465e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0436e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1713e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1561e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1300e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8666e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3141e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2912e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9707e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9591e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3051e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 62, time 183.83, cls_loss 0.0050
+100
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3992e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9998e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2785e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0915e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7214e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9425e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8652e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5793e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3309e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0978e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8676e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3028e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0807e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8723e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5384e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1040e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9893e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6129e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3740e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7665e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5539e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1083e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2741e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1638e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1123e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5939e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2662e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6497e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 63----------------------------------------------------
+epoch 63, time 184.00, cls_loss 0.0017
+100
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2360e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5768e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2799e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8579e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8804e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5177e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7588e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3809e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6761e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6983e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7906e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6742e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3931e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5412e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6200e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4496e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0319e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5779e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4339e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3677e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6482e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1178e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9422e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2668e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9890e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6381e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2995e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 64, time 183.92, cls_loss 0.0046
+100
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2234e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7916e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5775e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9244e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9647e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0925, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2144e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 65, time 183.72, cls_loss 0.0122
+100
+cls_loss: tensor(9.3438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5318e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4195e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3847e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5509e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6699e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0995e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6341e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1628e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1658e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4572e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0031e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0716e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1426e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1995e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2338e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1565e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2437e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 66, time 183.80, cls_loss 0.0045
+100
+cls_loss: tensor(7.6279e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3945e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5722e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3304e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0197e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4760e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6446e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9006e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3089e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6869e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6082e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6559e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8121e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8303e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1727e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8971e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4570e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0919e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7855e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9895e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8142e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1191e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0179e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1832e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1953e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 67, time 183.63, cls_loss 0.0041
+100
+cls_loss: tensor(7.7050e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5403e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5045e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9337e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0001e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5144e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3185e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8446e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5862e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3383e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1988e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8236e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1906e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1149e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 68, time 183.36, cls_loss 0.0139
+100
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7440e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7884e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8038e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8470e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8738e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8980e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3974e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0293e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8079e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3402e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4043e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8634e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7654e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5457e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3289e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0939e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 69, time 182.95, cls_loss 0.0066
+100
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0862e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9628e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0670e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9610e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6630e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0550, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9658e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3766e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9111e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3759e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0053e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5685e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9664e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7721e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5492e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1043e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7750e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 70, time 183.30, cls_loss 0.0065
+100
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8745e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5604e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8101e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9109e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9707e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5406e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6900e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6962e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2950e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7953e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6943e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1287e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5121e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3954e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9242e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5924e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2406e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5079e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2212e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8488e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7270e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9876e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 71, time 183.29, cls_loss 0.0053
+100
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2126e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5709e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5225e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0896e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0812e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6891e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6237e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0722e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4391e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 72, time 183.13, cls_loss 0.0131
+100
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8841e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7679e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4736e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6566e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8942e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9484e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2882e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5990e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7666e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5853e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3195e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2084e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7757e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5456e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8205e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5651e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4341e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6455e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8485e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2282e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 73, time 183.25, cls_loss 0.0029
+100
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5806e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2191e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4658e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9152e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5224e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5344e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6233e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6131e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6430e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2852e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8539e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5894e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8876e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2123e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3786e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9248e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3069e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2351e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6838e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1718e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2926e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6375e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3076e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7713e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9366e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6201e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9836e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4503e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9606e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9733e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1586e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 74, time 183.26, cls_loss 0.0017
+100
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7155e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7051e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0722e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9282e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0576e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0852e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5836e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8847e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1398e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1116e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1370e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4694e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8764e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7912e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6922e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6171e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0478e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5864e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2080e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0589e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7582e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0023e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4568e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2203e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3181e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2999e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8719e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2805e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3032e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5129e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0757e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4659e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7904e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8066e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3868e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2301e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6599e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3181e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2820e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6040e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0735e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9051e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7629e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8228e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0124e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 75, time 183.19, cls_loss 0.0008
+100
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0670e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8048e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5475e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8440e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9771e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0424e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5154e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1968e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4193e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8519e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2765e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9088e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5389e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1914e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5812e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9741e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5379e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9920e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8805e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0284e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4189e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8686e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7745e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8441e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2282e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7087e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0361e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5986e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5795e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0078e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6436e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7808e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7360e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6098e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1185e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2667e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7246e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6764e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4846e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7603e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8470e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9054e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8721e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3402e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1947e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4899e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4382e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5032e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9945e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6218e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6876e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2203e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0599e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7029e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7747e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 76, time 183.32, cls_loss 0.0005
+100
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1660e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2974e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2948e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2911e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3658e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8451e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2212e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7274e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7940e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2575e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1383e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3534e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0759e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8759e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6853e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6135e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9360e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1833e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9657e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5343e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1038e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7100e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7125e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8480e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0855e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2560e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7119e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5297e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1754e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6694e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5533e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2308e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5311e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6325e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3541e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5317e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1351e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 77, time 183.08, cls_loss 0.0056
+100
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2457e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3019e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1747e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1337e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2267e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4373e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6688e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6992e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7543e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8970e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5309e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6166e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6026e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0547e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3521e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5481e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5435e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7369e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8790e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5241e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5679e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2700e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5806e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0361e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2689e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6757e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2340e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7702e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2578e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4980e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9533e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5752e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6112e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7988e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1850e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1761e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7927e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9869e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2747e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 78, time 183.10, cls_loss 0.0029
+100
+cls_loss: tensor(4.1511e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6033e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5972e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3283e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5576e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1105e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1532e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5800e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7546e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0403e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0248e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1646e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1080e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0085e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7028e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3171e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7701e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4528e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8747e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1843e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6514e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0041e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8727e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 79, time 182.70, cls_loss 0.0097
+100
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3617e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9078e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5142e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2059e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3623e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7352e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5175e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8574e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6431e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5032e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0735e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9381e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6896e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9477e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2354e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1260e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8430e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3979e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6879e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9642e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5888e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2720e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9945e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4762e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 80, time 183.14, cls_loss 0.0045
+100
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7795e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9311e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5425e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7251e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7495e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1496e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8123e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8823e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9011e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7912e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7386e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7463e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5412e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7188e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5930e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3382e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3211e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2536e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6518e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4082e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2767e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9398e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9742e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3568e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1193e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 81, time 183.31, cls_loss 0.0067
+100
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6391e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0323e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2192e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3519e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9273e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1433e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0162e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1393e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0871e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6449e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7937e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7284e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7255e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5282e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2648e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1898e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0783e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3189e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7501e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8281e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7213e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7957e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9335e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4283e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6252e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1590e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1063e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2313e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5670e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0433e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4598e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1810e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5130e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7397e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2607e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5759e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3407e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5699e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 82, time 183.07, cls_loss 0.0021
+100
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3895e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7952e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0616e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0754, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3396e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5379e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0907e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1585e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5963e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6536e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0336e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2815e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0850e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4785e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4757e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5437e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1652e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0109e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5579e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4916e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6634e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8939e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7293e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9004e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3552e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0482e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8778e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7047e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2760e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1301e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2035e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2487e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1800e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9903e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1554e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2107e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5359e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8140e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3499e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8053e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 83, time 183.04, cls_loss 0.0046
+100
+cls_loss: tensor(8.0541e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1515e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6496e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1638e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1087e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7550e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6684e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4693e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7982e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6563e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8402e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2118e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6238e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8273e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6785e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2452e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5097e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3098e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4074e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1053e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8246e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7197e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4601e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6225e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3477e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1876e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1294e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3402e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1793e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3649e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7573e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2078e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4003e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4078e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6423e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0545e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3814e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3546e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7032e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5140e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1194e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 84, time 183.35, cls_loss 0.0011
+100
+cls_loss: tensor(3.2660e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9725e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2985e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8536e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8712e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1764e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2763e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8280e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5479e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1940e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1613e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9450e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6084e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2877e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0669e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8184e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5193e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5204e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5749e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9658e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2978e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7630e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3435e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6134e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6871e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8820e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2701e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5847e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3244e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4660e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2204e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5102e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1456e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7034e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2242e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4085e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7066e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4004e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7274e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9612e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6413e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3143e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 85, time 183.16, cls_loss 0.0036
+100
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5288e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3867e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7267e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1578e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4452e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8437e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7215e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8124e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3136e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7710e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4480e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2577e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8864e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9221e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6072e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3677e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9518e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3423e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3792e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0968e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4549e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7916e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3450e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8156e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9930e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7377e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8082e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4112e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4136e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8782e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4713e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6669e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5799e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6992e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7410e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8912e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0079e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7828e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1854e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1951e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7151e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1407e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7563e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1388e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9193e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8732e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2363e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9847e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3221e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4547e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6935e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7065e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 86, time 183.46, cls_loss 0.0006
+100
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1296e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3277e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4574e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0126e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7964e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4702e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1681e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8477e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7198e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6343e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6619e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3952e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3591e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6759e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6987e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4420e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0349e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3474e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5563e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7053e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9910e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7417e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1765e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3298e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6720e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3876e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3453e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0278e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4117e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1954e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1139e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6997e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3252e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4309e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4999e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6956e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0827e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3556e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0680e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2009e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4895e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3161e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 87----------------------------------------------------
+epoch 87, time 183.24, cls_loss 0.0002
+100
+cls_loss: tensor(1.1124e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5496e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9806e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9527e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0068e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5039e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5671e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0163e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1004e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9804e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9004e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2888e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0699e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4043e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7311e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4341e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0219e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1331e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3307e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7084e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2074e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4852e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8727e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8255e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3505e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7176e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2686e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1517e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4958e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9712e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7767e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9142e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5716e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0886e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8477e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0865e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1160e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9521e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2765e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6658e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1571e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3916e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5707e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1590e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5509e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0612e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3202e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3048e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2621e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3809e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2934e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6295e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8306e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3903e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3691e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5711e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0834e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1517e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1836e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0366e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9285e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1044e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3500e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6617e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5526e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2984e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 88, time 183.05, cls_loss 0.0001
+100
+cls_loss: tensor(5.3123e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9551e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1504e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6581e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1735e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8495e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4629e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6775e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8269e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1204e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0784e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4029e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2329e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5110e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4438e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6553e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4102e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3213e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8001e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8907e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6294e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1366e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3202e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2107e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1739e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1940e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4250e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4997e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1535e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0848e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6066e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9237e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7267e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2762e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3873e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5566e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4569e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4824e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1611e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8186e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1064e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7109e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6751e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5437e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2702e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1955e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2765e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8831e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5139e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5224e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0592e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9385e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3240e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0371e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4464e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2256e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4684e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8010e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5432e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4035e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2112e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0960e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6809e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9579e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9444e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5218e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2128e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9019e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9874e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6622e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 89, time 182.97, cls_loss 0.0001
+100
+cls_loss: tensor(4.2133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9340e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4673e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2033e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8592e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6744e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2517e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0731e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5270e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6628e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9297e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3603e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3919e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2862e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5963e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7262e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3432e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1398e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8228e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9067e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2977e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2705e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3954e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3266e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3149e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8712e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2981e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4923e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4720e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0509e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5291e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2062e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7829e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1637e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6347e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1009e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2515e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3351e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6625e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7133e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7745e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7834e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6589e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2205e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9740e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9518e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0994e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0841e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6897e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7554e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1947e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3541e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5134e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4104e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3388e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8990e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8343e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8924e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2405e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4302e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5779e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0692e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9947e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3112e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5585e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4673e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1157e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3160e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7321e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3417e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3525e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 90, time 183.28, cls_loss 0.0001
+100
+cls_loss: tensor(4.1187e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9494e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9204e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8780e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5687e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0635e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0951e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1280e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9414e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5927e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6998e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3653e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3073e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6843e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7866e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7571e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8211e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5390e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6950e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7293e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5479e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5103e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6173e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0084e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4234e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1037e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6153e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6753e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0366e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4713e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7455e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1271e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2340e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0333e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7158e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9109e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1384e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3453e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4987e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5456e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2000e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8205e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5534e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1539e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9620e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1366e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4522e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0468e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4140e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1636e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0295e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3782e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0605e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2171e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7332e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9067e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8454e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2066e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3058e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1254e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4783e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7515e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0087e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9542e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8988e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9431e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9465e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7598e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5881e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0390e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7226e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5523e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0429e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1578e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1107e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0889e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8490e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8492e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7528e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 91, time 182.74, cls_loss 0.0001
+100
+cls_loss: tensor(4.3765e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1249e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7168e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3639e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2271e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2075e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6719e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3387e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1148e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6450e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5779e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1085e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8312e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5765e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4261e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9190e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9290e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2182e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0626e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0518e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4350e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0059e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5311e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7372e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7450e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2672e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8459e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1437e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5246e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1877e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1798e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9099e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0324e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9694e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7051e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5626e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1861e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6098e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8022e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7601e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5528e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2536e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0205e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5806e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7930e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6976e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5607e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0161e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4983e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8763e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0520e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5773e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9584e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2453e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8163e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8652e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9077e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6148e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9861e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5363e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9811e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8153e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2647e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5740e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8066e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0622e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0330e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0036e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0072e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6858e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5836e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6673e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3709e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4070e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9132e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5656e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0798e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9057e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6508e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1048e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6723e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 92, time 183.03, cls_loss 0.0001
+100
+cls_loss: tensor(2.3969e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6678e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3016e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0752e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4953e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7704e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0550e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2015e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6843e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0899e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2277e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0273e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2832e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5311e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2774e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1303e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8759e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0419e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4281e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7577e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6380e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4324e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7062e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4624e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1288e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4752e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6129e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8396e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4993e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3097e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2164e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4569e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5712e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1404e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5959e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6980e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6849e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1271e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0356e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3656e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5426e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2465e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3066e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3702e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0563e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3572e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5080e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3511e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1156e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0638e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2391e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3975e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0573e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8820e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4550e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9884e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0356e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5789e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7099e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5730e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8983e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2871e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5661e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1225e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1052e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9971e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9691e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2825e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4498e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8389e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8142e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0502e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9799e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3066e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2107e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4303e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8694e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4126e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1995e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9691e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9396e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2244e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7412e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2115e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4501e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 93, time 183.15, cls_loss 0.0000
+100
+cls_loss: tensor(1.5900e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3973e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5793e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4511e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4974e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9549e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0889e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5772e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9611e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4757e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0436e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2946e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9989e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2606e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1642e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5236e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4503e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7074e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1255e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2962e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2882e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8445e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0175e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2850e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2394e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2311e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9657e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6280e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1020e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5660e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5628e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7602e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5731e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8848e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8209e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3969e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9297e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3851e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8666e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6520e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3581e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3091e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4947e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4777e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0429e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5230e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7258e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3043e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3612e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3991e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6247e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2986e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2037e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2017e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2793e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7302e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8200e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1532e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8967e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5033e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3601e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6538e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5573e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7150e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8203e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9891e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2198e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3532e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8446e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9051e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0802e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9211e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5615e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5889e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5482e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8251e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7896e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0440e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2450e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7932e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4314e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2704e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7618e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5077e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5278e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8024e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3432e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 94----------------------------------------------------
+epoch 94, time 183.35, cls_loss 0.0000
+100
+cls_loss: tensor(1.6153e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4900e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0379e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3574e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5179e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3490e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1551e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3868e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8786e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0134e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9770e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7842e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2890e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0064e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7540e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6192e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3761e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4793e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5062e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7684e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8761e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5204e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0832e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0841e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8492e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1931e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9826e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1590e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8992e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7619e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2653e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2531e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0017e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7217e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1750e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2066e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1399e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9648e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3978e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2724e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6354e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9573e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1148e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7640e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5651e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8072e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8440e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8640e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3806e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4566e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4093e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7655e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1846e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0627e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3612e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2867e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5437e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3744e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3921e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3746e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6179e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5311e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8116e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4820e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1642e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7311e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1458e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1537e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6900e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6328e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1754e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0481e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2527e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6578e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8165e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3607e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2575e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2145e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9849e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3381e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7316e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1079e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 95, time 183.62, cls_loss 0.0000
+100
+cls_loss: tensor(5.5034e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9195e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2361e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5091e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7407e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0941e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0396e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4625e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2170e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8806e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3921e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6239e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8559e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8053e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3705e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8245e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2552e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9290e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9771e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0259e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1654e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9328e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4322e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4976e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3416e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8887e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0199e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6186e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0856e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8177e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2110e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2995e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5531e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7073e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5442e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3906e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0401e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3900e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8082e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4303e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7848e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4074e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0237e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8515e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3819e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7755e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2673e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0124e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8992e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2964e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4563e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6003e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4963e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6537e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8224e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0256e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2513e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2711e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8541e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0286e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8152e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0839e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7493e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6546e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8855e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2569e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6620e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0580e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1197e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4959e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0341e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1658e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2136e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4104e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8240e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5644e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7125e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0319e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1250e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7172e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8312e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5291e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8370e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8403e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3691e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 96, time 183.37, cls_loss 0.0000
+100
+cls_loss: tensor(2.0012e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7156e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8338e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7183e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5593e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6416e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4402e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8962e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7369e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8653e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9620e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9744e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5179e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7839e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1968e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0602e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9426e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8467e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6470e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0904e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9095e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9919e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5390e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7195e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9030e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6859e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4922e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6730e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4111e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5330e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4559e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8221e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8552e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1085e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6004e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8962e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9819e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9154e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1209e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2293e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4959e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0736e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0245e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3468e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4347e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5716e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3860e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2321e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5856e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3288e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0915e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3374e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1506e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0338e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8897e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9877e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7788e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7444e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7813e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9705e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1060e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9062e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7655e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2281e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9211e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0089e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2075e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1846e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7975e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3746e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5289e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1095e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9857e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2701e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5717e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3803e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0669e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6643e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5985e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9856e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1360e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8685e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8276e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4476e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1893e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2010e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4175e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9009e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1004e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4425e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8433e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5363e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 97, time 182.83, cls_loss 0.0000
+100
+cls_loss: tensor(9.9763e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6741e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5577e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0163e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4921e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5066e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4673e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5481e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8767e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6581e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0727e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9235e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2165e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0951e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5805e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3027e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0829e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7911e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6108e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1139e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9349e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5400e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9116e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8440e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4545e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0233e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9363e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2866e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2525e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5244e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6550e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6487e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6673e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1558e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8402e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6000e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4660e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1345e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2740e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7165e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9339e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9614e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7352e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6905e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6135e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7290e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9534e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3975e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7411e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0744e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6284e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0971e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0685e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7472e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5789e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8991e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9720e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2783e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2770e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2579e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7922e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5151e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1316e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3618e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3767e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1004e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2426e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0495e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0899e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4664e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3427e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5162e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8142e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0750e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3868e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6652e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8507e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8368e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8902e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1824e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2591e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5303e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6790e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6182e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2968e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3607e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2846e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 98, time 183.28, cls_loss 0.0000
+100
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1414e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4381e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6112e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5060e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3079e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6024e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5821e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0035e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9162e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6580e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4269e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0643e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0010e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3586e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0218e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5776e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8487e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9621e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9095e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9744e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2697e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7269e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7869e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7195e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0453e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0907e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4885e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7948e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0361e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7311e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5609e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2271e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9718e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8354e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8275e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9861e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7364e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1697e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9582e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7566e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2955e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2852e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6300e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7826e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1148e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2387e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5810e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4976e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7023e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5345e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1500e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2970e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9728e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3670e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0021e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3272e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8902e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4139e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1384e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6773e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8317e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7008e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1441e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3728e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7651e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6125e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2366e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5160e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8338e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1123e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3586e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0356e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4855e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8624e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3387e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6343e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2808e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2486e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5954e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3255e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2585e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3991e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7770e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0543e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3998e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1917e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 99, time 183.73, cls_loss 0.0000
+100
+cls_loss: tensor(2.5071e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5470e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4470e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8819e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2629e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2701e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9057e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4234e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4922e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9428e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1884e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2148e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9823e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9547e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6752e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6206e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6800e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0897e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6384e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2144e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6849e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8738e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3074e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7714e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8636e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5347e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8748e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6997e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5705e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8976e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2538e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7391e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1462e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5963e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1773e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5102e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1409e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1452e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2448e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4990e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3916e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6894e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9733e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9210e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7166e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3521e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7854e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0968e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5907e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3477e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6868e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6673e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3011e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1979e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2616e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6636e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0606e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8801e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5614e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0515e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4629e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2070e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2080e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2152e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0340e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9104e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2634e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9068e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4719e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4214e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2971e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7230e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6764e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0185e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1798e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8850e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6868e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6778e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8848e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6054e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5055e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6017e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0163e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6450e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4587e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7535e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8983e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1218e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3863e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 100, time 183.31, cls_loss 0.0000
+100
+cls_loss: tensor(1.4529e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6491e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5716e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1748e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8023e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3926e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7274e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2966e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3084e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2969e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4042e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7614e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4899e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5108e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8507e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3612e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5183e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4380e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4887e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0576e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2878e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0528e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3320e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1093e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2819e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3134e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9062e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0878e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3087e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2319e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4129e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1973e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5501e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0973e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2634e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1122e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0228e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2846e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7726e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3991e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9355e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8119e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0844e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0337e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9062e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2771e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5674e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1611e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2920e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4273e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7176e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2795e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6769e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2870e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8291e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7129e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0734e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1092e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2040e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1161e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4399e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7444e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2480e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9302e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7172e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0121e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2102e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8035e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5795e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7840e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6624e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1898e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0246e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6040e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0064e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2812e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4090e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2144e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8511e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6950e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1798e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2394e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2804e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7083e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3519e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0830e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1980e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4371e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5644e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1402e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3942e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0291e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 101, time 183.45, cls_loss 0.0000
+100
+cls_loss: tensor(3.4980e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7368e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6526e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5309e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4044e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1197e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8861e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4017e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5455e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4154e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0568e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4767e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8328e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1670e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7427e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2558e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3106e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5423e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1183e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5400e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5963e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7549e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9444e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8962e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9990e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6514e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2185e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1085e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0073e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3652e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6354e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8827e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7337e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6291e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0026e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7721e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7374e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8623e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7356e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3132e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3017e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0839e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1642e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5241e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3251e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6310e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2387e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7606e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8024e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1586e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7753e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4132e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2813e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5006e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5938e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6508e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7053e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6112e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1250e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4818e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0600e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4389e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5896e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6054e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5965e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6494e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8876e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7646e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5705e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2953e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9269e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6853e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7208e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5788e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6853e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2783e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5667e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4268e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0627e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6806e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3900e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8552e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1213e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9966e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2086e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1119e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6056e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5616e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5332e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9244e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7393e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 102, time 183.33, cls_loss 0.0000
+100
+cls_loss: tensor(9.2324e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3702e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4075e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0997e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4848e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3933e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6252e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0554e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8370e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4645e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4689e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1095e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9381e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5373e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2527e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5832e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3090e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6450e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8405e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2416e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5954e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6219e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5907e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9017e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5309e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6683e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1488e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9393e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8774e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0457e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5836e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2745e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7088e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5081e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0006e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5058e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2358e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1244e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6654e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4970e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5885e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1036e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5111e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3271e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4044e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3188e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2585e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1809e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5378e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8280e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2164e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8369e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5555e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4564e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1697e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2454e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3730e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6101e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0200e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2195e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1488e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5254e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1782e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8607e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1744e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8343e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1510e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2785e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9269e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9705e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1234e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9034e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3968e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1989e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3053e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2457e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2476e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0602e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5289e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5290e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3900e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9141e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5907e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2831e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2894e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4175e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3176e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4436e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2787e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7679e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 103, time 183.20, cls_loss 0.0000
+100
+cls_loss: tensor(7.2941e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5446e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2305e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5959e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0734e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2957e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8210e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4054e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3608e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1749e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8168e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9444e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8860e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1213e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4049e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3043e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3384e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2277e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5309e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5958e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1772e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7844e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7677e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2319e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3225e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7917e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8785e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6450e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0166e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3209e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4203e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2670e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5863e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7651e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9430e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8840e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2167e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2229e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2808e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5655e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1023e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4192e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8392e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3872e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8694e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1064e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0688e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3942e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4237e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8238e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4379e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3048e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7099e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8343e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7640e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3043e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8392e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7807e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3127e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2287e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1912e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6135e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0721e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8273e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6112e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7160e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1840e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9914e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7217e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1058e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2552e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0021e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4032e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2834e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2783e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7768e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6098e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8893e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8864e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1735e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3607e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7114e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2957e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3145e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4564e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8205e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4715e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3469e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1153e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3736e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7959e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7493e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 104, time 183.37, cls_loss 0.0000
+100
+cls_loss: tensor(8.2701e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5013e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0734e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4746e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3180e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9663e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3505e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8238e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2911e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7397e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3150e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0415e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4342e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2591e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9390e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0413e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6561e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8445e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3900e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6252e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3639e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8604e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7344e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4782e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6827e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1023e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8732e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1062e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3272e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9652e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9267e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3613e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7051e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4428e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3360e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6939e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6599e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1224e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0919e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5065e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7025e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1642e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6827e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0489e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1158e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4273e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9595e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0701e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0841e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4103e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7593e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8163e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4674e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8859e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2827e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9684e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3267e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5719e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4178e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1269e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1467e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6766e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4315e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7975e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9281e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2230e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7550e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8461e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7643e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4172e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6939e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1437e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8308e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5667e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3596e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2613e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5018e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2096e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4068e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3560e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5667e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4788e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1339e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1958e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2517e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1307e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3633e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5685e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9673e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0606e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 105----------------------------------------------------
+epoch 105, time 183.46, cls_loss 0.0000
+100
+cls_loss: tensor(7.5147e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7502e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7700e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4878e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6056e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7732e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3181e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2105e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8707e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0766e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6922e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5330e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7694e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7248e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4000e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5993e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5803e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9093e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3170e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3896e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6911e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6173e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8024e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2483e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9982e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8958e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3469e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0716e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8773e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1351e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0166e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2111e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7809e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8604e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4932e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4049e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3591e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1399e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2412e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0289e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9155e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4169e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1036e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7977e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8988e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9062e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2345e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8407e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0792e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5789e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3888e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1644e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2105e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0196e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3097e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8615e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6657e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1547e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3560e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9274e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3788e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5395e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1372e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5481e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9546e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1840e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2759e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0726e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4214e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9323e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7663e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0025e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4501e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2596e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9695e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8818e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4827e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1036e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0822e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8301e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0494e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4603e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5154e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3843e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 106, time 183.21, cls_loss 0.0000
+100
+cls_loss: tensor(9.6485e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9439e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6757e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6801e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9919e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4198e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3188e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7054e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0151e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1234e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0361e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6727e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4091e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4144e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3481e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9636e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4250e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6302e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3085e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1174e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1169e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2701e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3097e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9632e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6699e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2971e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9546e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0677e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8328e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7693e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2632e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2957e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1697e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5449e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0408e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6545e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7344e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2031e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2549e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7940e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0526e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3052e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0238e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2585e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6872e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4501e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3963e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2852e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4699e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8592e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2613e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6628e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8312e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4250e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5444e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7800e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3495e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7369e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3933e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4018e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2626e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7998e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8729e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1756e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2692e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4890e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4177e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5390e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6459e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2591e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9116e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5907e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3484e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2564e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5126e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1563e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0429e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2517e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6757e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1362e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5140e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0079e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4394e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3209e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0841e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4713e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0043e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 107----------------------------------------------------
+epoch 107, time 183.49, cls_loss 0.0000
+100
+cls_loss: tensor(3.3081e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7583e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8169e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2219e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9323e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0617e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0152e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3246e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6848e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0408e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2825e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6153e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1429e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3228e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0468e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9281e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3743e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8604e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0598e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5069e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9323e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4820e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5832e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7047e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5907e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9707e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5917e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5121e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2948e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9558e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5842e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5870e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2575e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4320e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1809e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1148e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7505e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8398e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3916e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0643e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5705e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7595e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7975e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9030e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4820e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6682e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1505e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5108e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4380e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9118e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1433e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4128e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8115e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4192e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1828e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8077e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8583e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3544e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4089e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7379e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9072e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3894e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0108e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1260e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9593e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5304e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2793e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1977e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8103e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1384e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2702e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6397e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1090e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1250e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0855e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5428e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6246e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2389e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8685e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1106e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7470e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8895e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6995e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1767e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 108, time 183.56, cls_loss 0.0000
+100
+cls_loss: tensor(2.3767e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3567e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5018e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0489e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3102e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6412e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9558e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5747e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6301e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7818e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0531e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1910e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2442e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8604e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2457e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5204e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8720e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1090e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6480e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0818e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8724e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8738e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6723e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0813e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2808e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7770e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5821e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9137e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2724e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1379e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9571e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6876e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6396e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6988e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2015e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0547e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2527e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2468e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7933e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4848e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0106e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2016e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6426e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0021e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0282e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0587e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3826e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9182e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8044e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0170e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8177e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8515e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2627e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2015e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6205e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5293e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9337e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5970e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2461e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8173e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1062e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9861e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1811e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0096e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7679e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4075e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5332e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4645e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6177e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3135e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4587e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1623e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2749e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5986e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8366e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8366e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3016e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7732e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6140e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9446e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1761e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6450e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0241e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1101e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0745e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8578e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5795e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 109, time 183.51, cls_loss 0.0000
+100
+cls_loss: tensor(1.6030e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2934e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4762e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0541e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3681e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5309e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0822e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8551e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8944e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0502e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0934e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3970e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0206e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4240e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5309e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6603e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0436e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1064e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5651e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7472e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7311e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0878e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9381e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4033e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8370e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3586e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5295e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8727e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3469e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9609e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6794e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2149e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6548e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6629e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1940e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5623e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1979e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1404e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4062e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2933e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4778e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1153e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0920e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0675e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6298e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2984e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3388e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2575e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1979e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7940e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7588e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4946e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9402e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4699e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6375e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5516e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1644e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4587e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9339e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2527e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5779e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6450e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6317e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0021e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6582e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5328e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0824e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1681e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3679e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9968e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0212e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8388e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4848e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5162e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8056e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7621e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3746e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 110, time 183.34, cls_loss 0.0000
+100
+cls_loss: tensor(3.1032e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1399e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1584e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9861e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6383e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2468e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4107e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6417e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1404e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1809e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5719e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6764e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6417e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9085e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0189e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1250e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4452e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7993e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4533e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5309e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0489e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9195e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9998e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0525e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4128e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9428e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6252e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7114e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5996e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6098e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3466e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3097e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3541e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7828e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2021e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4128e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5151e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0319e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4608e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9009e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9446e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0793e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2282e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4452e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3139e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7679e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3376e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8498e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1905e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0042e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1607e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5721e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9334e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4640e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2256e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9057e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2033e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6280e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8105e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9051e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7677e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2799e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7088e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8177e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6613e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0837e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9370e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2089e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5623e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0915e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1569e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7998e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1802e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9376e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1660e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1882e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3771e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0291e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3539e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8924e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8662e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1168e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0340e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1660e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 111, time 183.70, cls_loss 0.0000
+100
+cls_loss: tensor(6.5193e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8589e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5740e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2551e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1484e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0509e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4804e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1584e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2869e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4550e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9695e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2883e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0982e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0547e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1884e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7812e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5667e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5209e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7753e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0256e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2101e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0643e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5241e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7274e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1607e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7844e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5938e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1665e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7367e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5481e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3370e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0897e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5027e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6545e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8147e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0461e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0312e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3830e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5693e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1171e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4538e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0818e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3596e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2639e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0159e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7583e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9221e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5832e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5568e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8351e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6040e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8312e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4911e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4682e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9546e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7791e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9099e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0659e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5907e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2901e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3702e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6566e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0019e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0017e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7181e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6710e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5129e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9407e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4927e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1234e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7544e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9472e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5348e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5166e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5870e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5309e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0233e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2410e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1979e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3858e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0480e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7746e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0785e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6335e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1452e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6462e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 112, time 183.42, cls_loss 0.0000
+100
+cls_loss: tensor(3.3565e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1720e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8801e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0002e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4573e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0874e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3693e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6503e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8429e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3553e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4640e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8173e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0973e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1864e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3910e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7940e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4169e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1441e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2271e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2577e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4645e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4710e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5300e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2643e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0722e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3505e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8221e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6838e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3565e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7083e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4091e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5107e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9057e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2426e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4958e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5719e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3660e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8492e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3560e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1840e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4103e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1403e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9116e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6838e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3947e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3900e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4347e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9712e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7737e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1665e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4752e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7784e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1234e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4878e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6476e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2506e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3190e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0564e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5795e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0262e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5013e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2128e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9465e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9370e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2279e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7567e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1726e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5295e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4075e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3318e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0021e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4417e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8089e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1137e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9989e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3858e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1637e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0121e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2115e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 113, time 183.41, cls_loss 0.0000
+100
+cls_loss: tensor(2.6822e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5479e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3362e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8446e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4205e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8210e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4075e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0191e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3213e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3314e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1979e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0547e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3723e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5160e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6613e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0464e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8376e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2745e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9558e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8056e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7195e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2489e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2387e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7544e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0417e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5884e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3723e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6697e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6368e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5162e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3304e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7195e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6066e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9393e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7940e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2878e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9546e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6445e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0237e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1202e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0386e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3188e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6835e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8573e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5948e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9847e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8983e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9418e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9465e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5516e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3821e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1819e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1563e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6629e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3213e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3165e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4958e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2783e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3074e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4959e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3427e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5193e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1927e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6811e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9034e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1127e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4587e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4017e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3826e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0461e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4997e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6880e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4417e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1254e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0483e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5076e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4783e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9253e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6187e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8370e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2410e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6135e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2477e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9227e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3507e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3681e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 114, time 183.47, cls_loss 0.0000
+100
+cls_loss: tensor(4.0010e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5013e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3505e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7880e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5134e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9796e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2501e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9390e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2852e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7348e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8349e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9877e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1148e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4065e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1584e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5332e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6358e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6859e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5870e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8757e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0472e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0992e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7412e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2763e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4911e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1872e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5907e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8498e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7069e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5479e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9737e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4331e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3507e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7311e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8035e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8743e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0010e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9951e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8403e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8322e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1973e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5497e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6187e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0175e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9733e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7800e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6748e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8641e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0776e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7123e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0350e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6913e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9819e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4005e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0163e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9707e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2890e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1952e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6666e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2650e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2044e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3916e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0765e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3635e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1292e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6450e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4119e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2815e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2457e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5050e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0350e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2070e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1409e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9758e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3657e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9244e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9610e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4012e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4475e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1488e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0364e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0564e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7489e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0273e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1973e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3854e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0589e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6764e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7050e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 115, time 183.40, cls_loss 0.0000
+100
+cls_loss: tensor(1.8775e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1761e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8834e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7230e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0897e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9781e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9253e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0468e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4231e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1989e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7807e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4566e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5721e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9237e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8794e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2685e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1153e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7625e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6599e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8450e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5406e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4624e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9290e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6632e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1540e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1694e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3097e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7381e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6135e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0408e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4587e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0659e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2768e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2013e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1903e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5735e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4108e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1677e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9290e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4959e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3272e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8082e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3486e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4645e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8221e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2153e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5390e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0185e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0859e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3188e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6354e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9898e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4625e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8723e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9021e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3586e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0159e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6727e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3426e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0673e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8983e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4598e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9663e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3272e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6384e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8976e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2521e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5768e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0333e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7518e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4983e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1168e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0936e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3482e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3469e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0740e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6624e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0324e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8333e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0392e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1935e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7172e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5076e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0692e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3074e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 116, time 183.99, cls_loss 0.0000
+100
+cls_loss: tensor(1.0759e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9744e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2703e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9126e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9430e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4389e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4294e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9132e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0401e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6630e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8424e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7386e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6811e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3914e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7323e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1265e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0685e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9332e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4836e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4161e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4911e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8636e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1095e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3814e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0776e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9744e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3225e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8140e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3197e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2899e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5131e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7211e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8645e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1414e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0560e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2532e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6727e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2662e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6385e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9744e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6336e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2599e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9393e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7428e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6156e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7967e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0397e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6287e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3984e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1202e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2075e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1846e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6242e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9877e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1351e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4522e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4715e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4836e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0291e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8887e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2538e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3900e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2634e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1977e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7912e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2604e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0096e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0452e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6976e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9111e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9838e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5076e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6268e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1545e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3026e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1040e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0952e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8534e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1705e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3469e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3714e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0897e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 117, time 184.01, cls_loss 0.0000
+100
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9141e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4417e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2911e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4007e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2182e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9663e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8918e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3074e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8988e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0419e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8545e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0233e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7321e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0606e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2724e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2096e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0664e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4355e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7940e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2301e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0138e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7493e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1479e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2964e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1845e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5278e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1735e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1153e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1048e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7278e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7800e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4959e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6168e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9020e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6513e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2070e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0489e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3106e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6427e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9989e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6252e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7128e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1891e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6301e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3304e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3900e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7917e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8921e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6997e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9642e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2877e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0154e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0267e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8312e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3940e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5779e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4065e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9396e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0175e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1095e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0936e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4468e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7940e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1309e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3225e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1604e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4324e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4059e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2841e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9190e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2724e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1899e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7800e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0498e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3230e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0394e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5144e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2601e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4475e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1846e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 118, time 183.71, cls_loss 0.0000
+100
+cls_loss: tensor(1.1511e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4825e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3924e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7954e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7544e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2256e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7493e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7360e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3892e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1122e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2394e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3097e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7188e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5507e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9360e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6138e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9951e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5837e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3565e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0094e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1131e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9546e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0505e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9286e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4624e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5348e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0541e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3388e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9929e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4401e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8860e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1441e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4017e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1578e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9893e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5134e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7083e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3702e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8289e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0642e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3060e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8876e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1500e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5055e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5900e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2711e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7865e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3076e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3972e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8183e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3148e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7109e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3416e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2601e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3123e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6173e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3900e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3979e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9430e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2724e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2256e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1074e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5188e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1137e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7195e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3213e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1351e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2715e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2441e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2969e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3272e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8662e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0094e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 119, time 183.40, cls_loss 0.0000
+100
+cls_loss: tensor(2.6524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4342e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3586e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4564e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1209e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9222e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4017e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0824e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4062e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6678e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2501e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3210e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3947e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3772e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3155e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0585e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1048e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2084e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9116e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7807e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5959e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4608e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9509e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5337e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3158e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9465e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8720e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9057e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9104e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4762e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0301e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3510e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7956e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2167e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3877e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3388e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2340e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7646e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7700e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8685e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6641e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6566e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2016e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3991e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8743e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8012e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7975e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7295e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9632e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0241e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8636e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6028e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9349e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0466e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1367e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2783e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9092e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3926e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6447e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0291e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1665e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6347e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3784e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9525e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8545e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6811e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7742e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4622e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6056e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0042e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3516e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2373e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7472e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3805e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5912e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1467e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8024e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2643e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 120, time 183.55, cls_loss 0.0000
+100
+cls_loss: tensor(4.7721e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8976e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0973e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1665e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1069e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7083e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8918e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0423e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2762e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7326e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1516e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1994e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5134e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1872e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8089e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2000e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8685e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7640e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2473e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4192e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9175e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2776e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3809e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7199e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1383e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0094e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1584e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8685e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9393e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5076e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7125e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6848e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7476e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5705e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3761e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1437e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8243e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2513e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2671e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9642e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1898e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2182e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0166e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8685e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8759e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1143e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9861e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2766e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4924e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0855e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3877e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5039e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0301e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5075e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7114e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3225e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5502e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3097e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3127e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0319e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0031e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5293e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6997e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0017e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3486e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6317e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5644e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3225e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5832e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0897e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3900e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1931e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2894e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0063e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3468e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1347e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2724e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5963e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6636e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0334e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 121, time 183.63, cls_loss 0.0000
+100
+cls_loss: tensor(2.9728e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7523e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5981e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4682e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5134e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2389e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0882e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1202e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5740e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6615e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2564e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6315e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0096e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3784e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6282e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0329e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4678e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6343e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0745e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1409e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5193e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4171e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6112e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7567e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8988e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9414e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8813e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8604e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1292e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3095e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2783e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6566e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9632e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4192e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1697e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0035e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6545e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4448e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9402e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1590e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2096e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6168e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9951e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6263e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7402e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5341e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8115e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3048e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0042e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4599e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5423e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1893e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4326e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8701e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9430e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6454e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8685e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9381e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7791e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3565e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2591e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8199e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0499e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0776e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8583e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2825e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1467e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8370e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1707e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4937e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6033e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2240e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9521e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8328e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4268e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0333e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4953e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5367e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5251e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 122, time 183.47, cls_loss 0.0000
+100
+cls_loss: tensor(2.4959e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8775e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5567e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5789e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9919e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2783e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8738e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3155e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8610e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5507e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9162e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3490e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0408e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8179e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4198e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3702e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0829e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5460e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7732e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9951e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5572e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3374e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2911e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0543e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5955e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8860e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0654e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9281e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0489e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0617e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2212e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0606e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3947e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9174e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6624e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3784e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9488e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0722e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0573e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9355e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5449e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8662e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9148e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1607e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5586e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1020e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8487e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1995e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1877e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1048e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9705e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9972e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4715e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2899e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9020e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8348e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2313e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4587e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4985e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9956e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4789e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3826e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9334e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1586e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6838e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1260e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1756e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1645e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6338e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1979e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7050e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9935e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9781e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0021e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2373e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 123, time 183.69, cls_loss 0.0000
+100
+cls_loss: tensor(3.7216e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9919e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6168e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4214e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0134e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3022e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9637e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1313e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7172e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5220e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9519e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3433e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1314e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4452e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9057e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5688e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6359e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6021e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6880e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8035e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1861e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5408e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4303e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3111e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5598e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2575e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2643e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8019e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1111e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8843e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9546e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0291e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1979e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3097e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7195e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0042e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1467e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5060e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3309e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0350e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2033e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3150e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8333e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4341e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4454e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8976e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7230e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8476e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9961e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2112e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0408e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6508e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4932e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2182e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2224e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7246e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2171e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4417e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0952e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8030e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2353e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7763e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6727e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5593e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3519e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1069e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8168e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3954e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7732e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2091e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3090e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9153e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4214e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8200e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1995e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8184e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1660e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3437e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6508e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5348e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3597e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8801e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 124, time 183.26, cls_loss 0.0000
+100
+cls_loss: tensor(7.7933e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1958e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1383e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3702e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2527e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4193e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1941e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3784e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5938e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6827e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2468e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5146e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6375e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0531e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9376e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9179e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4000e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6624e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3900e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3469e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9663e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6189e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5740e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9488e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5705e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4736e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5199e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0021e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5416e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5705e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7237e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9781e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1665e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6643e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5857e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0920e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6380e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9621e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1604e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0525e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0175e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1234e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5589e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7116e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2256e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9754e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0340e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6194e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6880e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0021e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8273e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0154e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1429e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3702e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7567e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1958e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7125e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6859e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5236e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3602e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8275e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1234e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4587e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9488e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6450e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4501e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9036e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7344e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5581e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5933e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3057e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1009e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 125, time 183.70, cls_loss 0.0000
+100
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8056e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6487e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5705e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2415e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0340e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1968e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1588e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5300e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5974e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8370e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2212e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1979e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1995e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1979e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5449e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7910e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3469e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8312e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8312e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2575e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4273e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5854e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0739e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3074e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7625e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6322e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4119e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1053e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8720e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0722e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6347e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1270e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2021e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4618e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6799e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8348e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5779e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0350e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5125e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0118e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5944e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2740e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7603e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4622e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7551e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3108e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8056e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6764e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1697e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8992e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0063e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1511e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5183e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6038e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1292e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7630e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5944e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9290e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3155e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7588e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4995e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1303e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3138e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 126, time 183.73, cls_loss 0.0000
+100
+cls_loss: tensor(3.2447e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3761e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1064e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3043e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0415e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3979e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0975e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2128e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0077e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4096e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4389e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7807e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1086e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1346e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8860e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3209e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3351e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9844e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5460e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4028e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2063e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9861e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0952e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0904e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7365e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0056e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7092e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4587e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0983e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4389e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7604e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5937e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8720e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0297e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3213e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9488e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8461e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6310e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9691e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0920e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7428e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3479e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1579e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5423e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5332e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0408e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5332e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3171e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0606e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7008e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4736e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2170e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3076e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2585e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4177e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1660e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0952e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7807e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1154e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2664e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7998e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4075e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3191e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7172e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1444e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1202e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1153e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8604e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1048e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5162e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6561e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8273e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9861e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4987e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 127, time 183.40, cls_loss 0.0000
+100
+cls_loss: tensor(8.0466e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2191e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9882e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5795e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3020e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0394e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1697e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1384e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2000e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0774e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2191e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6657e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6054e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5852e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4995e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3272e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9558e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1979e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6645e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6799e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1623e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5619e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6322e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0654e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1895e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4682e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6538e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0638e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6450e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7428e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2245e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7248e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1675e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4119e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7476e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5236e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3337e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6205e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4389e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6534e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8536e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6459e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1351e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1467e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4757e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5049e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7940e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3690e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0473e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1064e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1270e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7800e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2037e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2203e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1409e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9779e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4075e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0233e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1195e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6082e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0479e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0026e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9260e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2601e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6666e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9930e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7381e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0035e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4187e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5555e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5518e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8445e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1255e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0766e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5821e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3761e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2410e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3586e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1288e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6091e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 128, time 183.55, cls_loss 0.0000
+100
+cls_loss: tensor(2.4214e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5332e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9290e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9707e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5013e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8976e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3851e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5449e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1484e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3974e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3677e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5018e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2985e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9919e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8983e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9919e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5805e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6194e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0055e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0664e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4177e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8685e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8029e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9595e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3262e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4331e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5742e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8200e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9446e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6769e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8348e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7603e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7940e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9435e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7428e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7248e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7721e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4587e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1968e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0217e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4794e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8370e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1011e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4124e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1467e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1250e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3684e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4368e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4443e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1958e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2037e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9334e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0026e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0565e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0990e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3649e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9546e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5907e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8173e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3702e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5944e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0617e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0599e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5777e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2212e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 129, time 184.01, cls_loss 0.0000
+100
+cls_loss: tensor(4.4107e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4096e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4268e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2836e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6731e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0824e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3372e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4205e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2144e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4564e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5623e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9616e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7017e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9281e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0466e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5705e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2538e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0520e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0021e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9148e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9744e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8897e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5134e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6764e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4564e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9260e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3900e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0021e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9232e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2701e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0035e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0680e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2799e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3821e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2613e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0878e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2575e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0543e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1137e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4720e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2946e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3947e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8370e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5204e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2501e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6114e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8440e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7092e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9174e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6343e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9260e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4044e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4820e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7439e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0170e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2927e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5423e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3672e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0094e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2841e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8333e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3432e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4959e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6582e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1437e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2825e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6443e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0829e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1085e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1718e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 130, time 183.55, cls_loss 0.0000
+100
+cls_loss: tensor(2.8722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5970e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9206e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3074e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3430e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2141e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6433e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2899e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2841e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1244e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9977e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7114e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9104e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8217e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2591e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6571e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1466e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4320e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5369e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9707e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0722e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6310e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0547e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1331e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4268e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5278e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2420e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0777e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0163e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0319e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6336e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6880e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4347e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6427e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2415e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2191e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9453e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4959e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3288e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1255e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2212e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8163e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8876e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5602e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1372e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7428e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3358e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5204e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4532e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4133e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4289e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3586e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3788e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3612e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1910e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2634e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2778e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6997e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9057e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8414e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7679e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7248e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2873e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7397e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9856e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1824e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8976e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0755e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4347e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 131, time 183.49, cls_loss 0.0000
+100
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7949e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4666e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2936e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4959e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6913e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1211e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6918e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6280e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8466e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8839e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9349e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4736e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7940e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0282e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3586e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9088e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4645e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8482e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0021e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3448e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6599e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3660e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9260e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2464e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1330e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1884e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4587e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5332e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2957e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5534e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2298e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2778e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2527e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1665e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6450e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7567e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1942e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9647e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8887e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4815e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4260e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2687e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0547e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9488e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4282e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3681e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3784e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6764e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1164e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6859e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6205e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0394e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5321e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9488e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3452e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9977e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6265e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3507e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4475e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8918e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6561e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0776e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6396e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6683e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6252e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1474e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8743e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3304e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 132, time 183.32, cls_loss 0.0000
+100
+cls_loss: tensor(2.8685e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6459e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6615e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0813e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2485e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2329e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2468e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9567e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0920e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8173e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9977e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0175e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9242e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4192e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9744e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2527e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6450e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6508e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0073e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3379e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7807e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0282e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4192e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2815e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5018e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5193e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6799e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1335e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1292e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7940e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1627e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8312e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0487e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2580e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4720e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8685e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2165e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5826e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0883e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5507e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5050e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3537e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0892e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2734e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3819e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1538e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3958e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0990e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1830e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3500e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5251e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4820e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0489e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4145e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5076e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1735e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6242e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8813e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6948e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7544e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2489e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4214e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5188e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7770e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7300e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6450e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8338e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9483e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4363e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3984e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1681e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8887e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9919e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2159e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6194e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 133, time 183.66, cls_loss 0.0000
+100
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7195e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5423e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9614e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7695e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6939e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0713e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6997e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9227e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5134e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1607e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9744e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3958e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2762e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9488e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8780e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3958e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0267e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5076e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9232e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8918e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8056e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4257e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0340e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2442e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8399e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1036e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0035e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5981e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0291e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3267e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0564e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5816e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7546e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5262e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2792e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5358e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6492e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1346e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0028e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0964e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0233e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3213e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4389e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2783e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1404e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3400e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7195e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6508e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6566e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9430e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5623e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7625e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6168e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6657e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2070e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6294e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7114e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1569e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8498e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4622e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6364e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5251e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2485e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4193e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3597e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2629e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0771e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7956e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9898e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6683e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6112e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5705e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0175e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1840e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 134, time 183.55, cls_loss 0.0000
+100
+cls_loss: tensor(4.0978e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8370e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0622e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0878e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8173e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1292e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5309e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8236e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0564e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4645e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6783e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1270e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7348e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3574e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2212e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7018e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1898e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7472e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0466e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3767e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8105e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7434e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9632e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8072e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5896e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4214e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6152e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2240e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9721e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9779e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7518e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5444e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6485e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0035e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2899e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5309e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3958e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7157e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6040e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7434e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7008e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6587e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4065e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6720e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0398e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0659e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5193e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3784e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2733e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6748e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6182e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5726e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8492e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3016e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5854e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5013e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1846e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9174e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1958e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5018e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0766e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4878e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7290e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9595e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 135, time 183.62, cls_loss 0.0000
+100
+cls_loss: tensor(2.6338e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4273e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2506e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0960e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5507e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5705e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2329e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9158e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7269e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4548e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8247e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1660e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3097e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3672e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3283e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4459e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4959e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1218e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0094e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5705e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2091e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4145e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0957e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6799e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5623e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9584e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4587e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7956e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9546e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2708e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4864e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9290e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1143e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7544e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1101e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7917e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5048e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8913e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0973e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2037e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3970e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7195e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1083e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7977e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4028e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2070e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9779e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4592e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7791e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9055e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6874e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3958e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8701e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2643e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9302e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0675e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2841e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5390e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3958e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0499e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 136, time 183.57, cls_loss 0.0000
+100
+cls_loss: tensor(8.7172e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3074e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0094e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7099e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0920e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6194e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4117e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2480e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1398e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0464e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8720e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3395e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2724e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4848e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3900e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3490e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3933e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8280e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1244e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2282e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6112e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5406e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3549e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6997e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5013e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5742e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6112e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7940e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1979e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3246e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4597e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9041e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2964e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3958e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7933e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7369e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5390e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8599e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5428e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1398e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9721e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4145e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7230e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1038e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2760e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0883e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5086e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9046e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7195e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9919e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9765e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2836e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1235e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2229e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2489e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3043e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2000e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7998e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7493e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4331e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4438e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7593e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0494e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9893e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9093e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9034e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2538e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 137, time 183.42, cls_loss 0.0000
+100
+cls_loss: tensor(1.4268e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8003e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2904e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7732e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9721e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6799e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9977e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9838e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4878e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3262e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5209e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1979e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3635e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2990e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3668e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7642e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0543e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0245e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5423e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7540e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3337e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6054e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1735e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0734e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2203e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3272e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4214e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0159e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0356e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9779e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0606e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0834e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1607e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6450e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8310e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1409e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3469e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7844e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6741e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8105e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6459e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6427e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6778e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0005e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3469e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0932e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4564e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9116e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7844e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4193e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6764e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1697e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1979e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5460e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8962e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2554e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3171e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0021e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8291e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9116e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4289e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0685e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8785e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0282e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1586e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 138, time 184.18, cls_loss 0.0000
+100
+cls_loss: tensor(1.7956e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2329e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3469e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1586e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1712e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8217e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5358e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9093e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4640e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1621e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9919e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7998e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9004e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3155e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6194e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5449e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2925e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0096e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2724e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4289e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7828e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8967e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6310e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2841e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2713e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2643e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9930e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0035e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0601e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7753e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1979e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1281e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4192e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4959e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1979e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5076e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9823e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4827e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1558e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3877e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1586e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7770e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0606e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2256e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8918e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2187e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2410e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3160e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1898e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3937e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1697e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4699e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7658e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9281e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3751e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4512e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3486e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3730e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1409e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1569e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7311e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7902e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 139, time 183.36, cls_loss 0.0000
+100
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2899e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2575e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3693e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1467e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6540e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6578e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8589e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5996e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6438e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7544e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6971e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4976e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4448e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3155e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1926e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3635e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1036e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0191e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8813e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7940e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9632e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8515e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5938e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5507e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7099e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1101e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9111e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3751e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1642e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9721e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6939e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7604e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6194e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4214e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5726e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1083e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5134e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3230e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9563e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6492e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7544e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3409e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1101e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2282e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4990e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2745e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7658e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1399e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6799e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8440e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6764e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9222e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1607e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2585e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0606e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9781e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6354e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4564e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9630e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5018e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 140, time 183.67, cls_loss 0.0000
+100
+cls_loss: tensor(7.0035e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7369e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4214e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0824e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8370e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6566e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7381e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3097e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0468e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5332e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2894e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0096e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1213e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6599e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9435e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7046e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3505e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7567e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6112e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6939e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1637e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8720e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6485e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7679e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4820e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1628e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6566e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8946e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0282e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2037e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8370e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6913e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3432e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2613e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6764e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6368e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9781e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9260e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4752e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5705e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1942e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7695e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1211e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1511e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0233e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1707e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0096e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9744e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6368e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4852e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8918e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5018e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7381e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2144e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5705e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7998e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 141, time 183.11, cls_loss 0.0000
+100
+cls_loss: tensor(2.2128e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1584e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9819e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6273e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3469e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2410e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8289e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7604e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2387e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6284e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2724e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4645e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4624e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5236e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8205e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2271e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4922e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5309e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0233e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7859e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4937e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4192e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1919e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7567e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0785e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9546e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9919e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0319e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8312e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4885e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7230e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1697e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2643e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1511e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6459e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3097e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6310e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6310e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7104e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5572e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2387e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2212e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5672e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9349e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6838e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7795e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4380e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6427e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2760e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5907e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1234e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8312e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0654e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0350e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1292e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0094e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1697e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3150e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6741e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6997e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0035e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7434e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3043e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 142, time 183.21, cls_loss 0.0000
+100
+cls_loss: tensor(2.3097e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5938e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4622e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8105e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4587e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0175e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3474e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0841e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0361e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1064e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0920e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5293e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5134e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4277e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1260e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4820e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7230e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0291e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4075e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3155e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1474e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0026e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2277e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8487e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1665e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7742e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4417e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3097e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6683e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0654e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9393e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5332e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6566e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3933e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1675e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1835e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7195e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4193e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6450e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8876e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6135e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2659e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8685e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6135e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2643e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5199e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3958e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0920e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0287e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3486e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6112e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9116e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6205e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4214e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0759e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3432e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1409e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4789e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3702e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2112e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 143, time 184.42, cls_loss 0.0000
+100
+cls_loss: tensor(2.8610e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0233e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9057e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3074e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9632e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7195e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3150e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0547e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0021e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0722e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2852e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8387e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2271e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7174e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3230e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0079e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5076e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0094e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3877e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5193e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0580e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2426e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6427e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0021e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6624e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1995e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4715e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4820e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3043e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1660e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8604e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4214e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0170e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0350e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7178e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3337e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9977e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9721e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2144e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6624e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8759e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3751e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5181e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1623e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2005e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5309e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3421e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 144, time 183.15, cls_loss 0.0000
+100
+cls_loss: tensor(3.3900e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7721e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9034e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9057e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1437e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7172e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5996e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9297e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7658e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9232e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2033e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8105e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6028e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1351e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7311e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7230e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3155e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2037e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9344e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6971e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2841e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3272e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0606e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4645e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4645e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3996e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0154e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2522e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3106e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7269e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9072e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9721e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9919e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8743e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6007e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6764e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0920e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0489e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7854e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1053e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0291e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6566e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5870e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6194e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9919e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6054e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5134e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4566e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0356e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2867e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2016e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2468e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7567e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2410e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3933e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8487e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9174e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3341e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1665e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4959e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1979e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8976e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1607e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8743e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 145, time 183.32, cls_loss 0.0000
+100
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4885e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8312e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6205e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0207e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8738e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4645e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0547e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3076e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3958e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5623e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4044e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1660e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6992e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4103e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4389e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1244e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8440e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4820e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9185e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7248e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8662e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9637e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3155e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9216e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4389e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8056e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8743e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0291e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9721e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3900e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0525e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3213e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1409e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2787e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7178e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1409e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0766e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6880e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8424e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0035e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5332e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5332e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9721e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8173e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0382e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8573e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8887e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0175e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6652e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5996e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2256e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0525e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 146, time 183.25, cls_loss 0.0000
+100
+cls_loss: tensor(5.6252e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4789e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9260e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5449e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1979e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0543e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4512e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4564e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3672e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7323e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9323e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1772e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4512e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1884e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6354e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0601e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7998e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1011e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7567e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1399e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0207e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4827e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0408e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0152e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3283e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1346e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7917e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6566e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7248e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2957e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5018e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6566e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1782e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3076e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5018e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3784e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4401e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9057e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4762e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8291e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7311e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9744e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7311e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3076e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4193e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8801e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7029e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4214e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4214e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3016e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8801e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2760e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5390e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4044e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6662e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 147, time 183.20, cls_loss 0.0000
+100
+cls_loss: tensor(2.1309e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0920e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8205e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7604e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6450e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7998e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1584e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9057e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4995e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3900e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0871e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2575e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9721e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8918e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1234e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9093e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2841e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6545e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8328e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1809e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4820e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7369e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5944e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4869e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8440e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8759e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0096e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4250e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0096e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3262e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9546e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7464e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8801e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4789e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9095e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7940e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8296e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8068e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3702e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8312e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0952e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4389e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0394e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5805e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0275e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8312e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1351e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6252e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0664e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9658e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2740e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3809e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7625e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0990e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 148, time 183.04, cls_loss 0.0000
+100
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4752e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3635e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3702e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8370e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8291e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0152e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7546e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3858e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8014e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8918e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8348e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4331e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4564e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2985e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6205e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8743e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9034e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0525e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9206e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7998e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5623e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7567e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3702e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0350e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7476e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4448e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6310e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9546e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4622e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6375e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7369e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9521e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2410e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7195e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5076e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7104e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0152e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6024e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8662e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3388e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5832e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8440e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5523e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8370e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1048e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3544e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3388e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3486e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5938e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0042e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7211e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6194e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8115e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 149, time 183.56, cls_loss 0.0000
+100
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1234e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8918e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9663e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8801e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6152e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0191e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0042e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5134e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1623e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7232e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1036e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4878e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7195e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5938e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1782e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0245e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8701e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1665e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6508e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8370e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4214e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9334e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1139e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5193e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0308e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3267e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8289e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0282e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0664e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8163e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1586e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8115e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7472e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1288e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1772e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1467e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5572e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0394e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8918e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7369e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3097e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8871e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5076e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1607e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0722e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 150, time 183.73, cls_loss 0.0000
+100
+cls_loss: tensor(2.1979e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7625e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3505e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8370e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4331e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9488e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1607e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9093e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2277e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3388e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0170e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4512e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0580e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8860e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5623e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9465e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7998e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8887e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5821e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1234e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5572e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0408e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2724e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7172e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5257e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5332e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3958e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3933e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0233e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5944e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1458e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1495e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9349e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0233e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7800e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3819e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6997e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2314e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9919e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3900e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1351e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4192e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3469e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9116e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3958e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6112e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8552e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4789e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1095e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4587e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 151, time 183.99, cls_loss 0.0000
+100
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6242e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3097e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8487e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2037e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1697e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2724e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7844e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7195e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9919e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8312e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5332e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1139e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0175e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4389e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7732e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2033e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2643e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6135e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2964e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2724e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4250e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0920e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1660e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5996e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0664e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5390e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9430e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2724e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7369e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9034e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5018e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4533e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2760e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4587e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1607e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6801e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1409e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1665e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9093e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3469e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8515e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2724e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1846e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4250e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1139e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8976e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4937e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1409e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9977e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2329e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5821e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6252e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7311e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8030e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3954e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 152, time 183.16, cls_loss 0.0000
+100
+cls_loss: tensor(3.5390e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4380e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8918e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8685e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8487e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9663e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3379e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4331e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4587e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3388e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1846e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2212e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0675e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7800e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1979e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3970e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8685e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3016e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4715e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6054e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9430e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3074e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9721e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4454e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4331e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2629e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0282e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0245e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2585e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6624e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1437e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1793e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9744e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0175e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5705e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3877e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3702e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7311e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9034e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1234e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1467e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0920e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6280e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8610e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3272e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2841e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5449e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0547e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0489e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5055e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4082e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8487e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7172e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1064e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6997e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3016e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6880e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 153, time 183.79, cls_loss 0.0000
+100
+cls_loss: tensor(1.1660e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1979e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3283e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6450e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2899e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4331e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5570e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5507e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5705e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5623e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1607e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9034e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1309e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2643e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0287e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0282e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0245e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3858e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0706e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6205e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3469e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8801e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0899e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3346e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5944e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6252e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8976e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6799e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6056e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5199e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3672e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5076e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8604e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0547e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2410e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5162e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0350e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6997e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0606e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2538e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9297e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8217e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0079e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5555e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8685e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6764e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8348e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8685e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2212e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1586e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 154, time 183.70, cls_loss 0.0000
+100
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9057e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0606e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0035e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9465e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5449e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4389e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1036e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7567e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9919e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4603e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1772e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1840e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2783e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4878e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9712e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0722e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9546e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8366e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8466e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0654e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6683e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1979e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4075e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4622e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3730e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9546e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7940e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0466e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7844e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6354e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3388e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7428e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8685e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3097e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7172e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4075e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1584e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1607e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2015e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6678e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6880e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4133e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6054e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6252e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6508e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4389e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8312e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8536e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8647e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9898e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7977e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3523e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7998e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7311e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 155, time 183.49, cls_loss 0.0000
+100
+cls_loss: tensor(3.4645e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0356e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4273e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8210e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4762e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1292e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5507e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4937e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0468e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3544e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1681e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2890e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6624e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1607e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0282e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4331e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0468e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2841e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6135e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4622e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6485e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1623e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5390e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1884e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3155e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4075e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1623e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5949e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1064e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6485e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4133e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3991e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4250e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5162e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8545e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3958e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2591e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2841e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2389e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7323e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3155e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8545e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8348e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9861e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0692e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3900e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0617e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0957e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7695e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3672e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6727e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3900e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8545e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 156, time 183.23, cls_loss 0.0000
+100
+cls_loss: tensor(1.6764e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3746e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2219e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7774e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0207e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4622e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7172e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7428e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4331e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5705e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1139e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4959e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2144e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0920e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2873e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1474e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4331e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1665e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7386e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1153e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2724e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6508e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7940e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7172e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1761e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5996e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6054e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6242e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0664e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6764e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3155e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2724e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1926e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7940e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1665e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4587e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0547e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6280e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3586e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8545e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6876e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1234e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1809e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4401e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1979e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2852e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8976e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7311e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2740e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6615e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2538e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 157, time 183.25, cls_loss 0.0000
+100
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3262e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7770e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3213e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4959e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7917e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6135e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2724e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4273e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7625e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7603e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5108e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9290e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4082e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2527e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6880e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8545e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4389e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1101e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2964e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2927e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3900e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6939e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1292e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7455e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9232e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2212e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3469e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5332e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8685e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8801e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1036e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7567e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5593e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0920e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7567e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9838e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4331e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0606e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3821e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1036e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6412e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4082e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8289e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 158, time 183.20, cls_loss 0.0000
+100
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1697e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6252e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5507e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0525e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1399e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8289e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1979e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1958e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8289e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3272e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2724e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6508e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3074e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2468e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6508e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0350e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5705e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6427e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7046e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0175e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4017e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5907e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3560e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0408e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8662e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2899e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0175e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1772e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1367e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2527e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6508e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0468e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1979e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1665e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0282e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8662e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3784e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1642e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1607e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2629e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5581e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7311e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1697e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1607e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 159, time 183.05, cls_loss 0.0000
+100
+cls_loss: tensor(1.4901e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1234e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3560e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1697e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0952e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9861e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9744e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3819e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2410e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4564e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2212e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0489e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1942e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1607e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0466e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7800e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1898e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9488e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8545e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4192e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3784e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9034e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7940e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1351e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4959e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1607e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2762e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6427e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6741e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9861e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6310e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3958e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1735e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4192e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3784e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5076e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5134e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9919e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9838e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7428e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0638e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4587e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0526e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9721e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3958e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2096e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3784e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6683e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 160, time 183.27, cls_loss 0.0000
+100
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7274e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8664e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3272e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8685e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3155e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1467e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6880e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3784e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6880e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9546e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1665e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7658e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1665e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9057e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1584e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5332e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1362e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9057e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2585e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6741e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8056e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4640e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9116e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4438e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9148e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8545e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2957e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6112e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4959e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0489e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5507e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6799e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7917e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6056e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0675e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6764e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0175e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6624e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5193e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5050e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3097e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5705e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1234e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9977e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6987e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 161, time 182.81, cls_loss 0.0000
+100
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1211e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0096e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7621e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5390e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6310e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4661e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7800e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2015e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9430e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5821e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8487e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3341e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1586e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5348e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2256e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0664e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2271e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2410e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4587e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1607e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8662e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3544e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1782e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1467e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6683e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8056e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8743e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3016e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4331e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1782e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2740e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6054e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8573e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4075e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0664e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8764e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3469e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0094e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5705e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4214e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4564e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1234e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8056e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5965e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1979e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5193e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8662e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9057e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2899e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0350e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3155e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4273e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9057e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9057e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 162, time 182.84, cls_loss 0.0000
+100
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0468e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3761e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0340e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2468e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5018e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5332e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3469e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7099e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7940e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7311e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7940e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6683e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6450e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4389e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1213e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7567e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2591e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2468e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6135e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8333e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7859e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8312e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4273e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6566e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0394e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2778e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6566e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9057e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6114e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8115e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2852e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0489e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1840e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7025e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5390e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0291e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7269e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 163, time 183.19, cls_loss 0.0000
+100
+cls_loss: tensor(2.3283e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0398e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1467e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3016e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3702e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6624e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3134e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3097e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8738e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3635e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4878e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3388e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2387e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5721e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4017e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7472e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8662e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2410e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4192e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4273e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6450e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2778e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0920e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7998e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6997e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2091e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4762e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6112e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5076e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8720e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7625e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3821e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4007e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1793e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6880e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7311e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7742e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5134e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3586e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 164, time 182.87, cls_loss 0.0000
+100
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6466e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3016e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1234e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9174e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2740e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3900e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7732e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8743e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3388e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7975e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8487e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3784e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5018e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4906e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3155e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3097e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4363e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8976e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6764e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2783e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0722e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8312e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3784e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4959e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3900e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2724e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9116e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4587e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5623e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9116e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4231e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6741e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8056e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0766e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8604e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4017e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9174e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2410e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 165, time 182.71, cls_loss 0.0000
+100
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7800e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0291e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5332e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5758e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7977e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1153e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8403e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0489e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9721e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5134e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4869e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4678e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7323e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7917e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6135e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2841e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7940e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0291e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4587e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5309e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4273e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1036e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4587e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1095e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0606e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7311e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5623e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4587e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0897e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3784e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9861e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0664e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3784e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1292e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2410e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6252e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7998e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8440e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0394e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2271e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8487e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9093e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6450e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 166, time 182.87, cls_loss 0.0000
+100
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0489e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7859e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0920e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2591e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6450e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1665e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1665e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7917e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7603e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1782e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7998e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1139e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9174e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0489e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4762e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1292e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9861e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4587e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9057e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1234e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6450e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0990e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2212e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6252e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0035e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8370e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3097e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1234e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6764e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7998e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4587e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1958e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6310e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9919e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4762e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8366e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 167, time 182.78, cls_loss 0.0000
+100
+cls_loss: tensor(3.2037e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3469e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1292e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6615e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9232e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1840e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6485e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6624e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6450e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8860e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5507e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0489e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3016e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8545e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3784e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3016e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6112e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6764e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5167e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2527e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2585e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8801e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6503e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6764e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5705e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6880e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8962e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1036e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5332e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0547e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4007e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5996e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1642e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1607e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1095e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0245e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2037e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0415e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9034e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5996e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8370e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4762e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0489e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3155e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 168, time 183.09, cls_loss 0.0000
+100
+cls_loss: tensor(1.2703e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8173e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2585e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3505e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3272e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6205e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3958e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2585e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9116e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3272e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5134e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2841e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8589e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9290e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6194e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2096e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1979e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5332e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5449e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1211e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6764e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8312e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7195e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8743e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3097e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3900e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5390e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4959e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0547e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7625e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0664e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9744e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5449e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2410e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9057e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4645e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9663e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 169, time 183.05, cls_loss 0.0000
+100
+cls_loss: tensor(8.1584e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4273e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3784e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1270e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9174e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0005e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5705e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5705e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3469e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5018e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3761e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8801e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9977e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0915e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2724e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2096e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9116e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3900e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1660e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9861e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8860e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5193e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3958e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3581e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6880e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9174e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7844e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9290e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3272e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9430e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3702e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9721e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8743e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1409e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5018e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6368e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0547e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7195e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 170, time 183.05, cls_loss 0.0000
+100
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5076e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2783e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3784e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7742e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3761e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0282e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7114e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6741e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9488e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0350e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4959e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9174e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2271e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3272e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5740e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5332e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1351e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1234e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6450e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1458e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8801e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1197e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0489e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7940e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9430e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2212e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8801e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6508e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 171, time 183.27, cls_loss 0.0000
+100
+cls_loss: tensor(1.8254e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1234e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0547e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3586e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6880e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7195e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7195e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8370e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5705e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4937e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7998e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1292e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2740e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0175e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2899e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0094e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2070e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8976e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0350e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6310e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0920e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5821e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1036e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1351e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2410e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7998e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1292e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2899e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9057e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0398e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 172, time 182.75, cls_loss 0.0000
+100
+cls_loss: tensor(1.0319e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0617e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6135e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8860e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5309e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2724e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6508e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6997e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3097e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1292e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6939e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3097e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6194e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7567e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4587e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1756e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9057e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3469e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7195e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5134e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2841e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8976e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3097e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8312e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6764e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4214e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5390e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6880e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5740e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1409e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4389e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5332e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5134e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7195e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 173, time 183.05, cls_loss 0.0000
+100
+cls_loss: tensor(7.4133e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2643e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4566e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1840e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9838e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1979e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6450e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6764e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7311e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9488e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6764e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0547e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2015e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6508e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9116e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0692e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6450e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3469e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2554e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9838e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4959e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7567e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4878e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4587e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3900e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2585e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8370e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3784e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 174, time 182.69, cls_loss 0.0000
+100
+cls_loss: tensor(2.7195e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0580e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5193e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6450e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0547e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3469e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7567e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0547e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3784e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8701e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5821e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3821e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9232e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2037e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0766e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4736e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3784e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3150e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4075e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4959e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8370e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9861e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8312e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9744e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3097e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0766e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2899e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1642e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5507e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3097e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8801e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 175, time 183.35, cls_loss 0.0000
+100
+cls_loss: tensor(1.8254e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3900e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0547e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0175e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1607e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7195e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5390e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2724e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5309e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1153e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0750e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4645e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7369e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3213e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9116e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0489e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8312e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1979e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7940e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6741e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0489e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2527e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1234e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5134e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0920e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1234e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 176, time 183.02, cls_loss 0.0000
+100
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8801e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4273e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0175e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0035e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8173e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0175e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6450e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9057e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9861e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1409e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9488e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4645e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2037e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3097e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7567e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3097e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1211e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3155e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6135e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7360e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4214e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3097e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1665e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3213e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1234e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6764e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 177, time 183.08, cls_loss 0.0000
+100
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1665e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3097e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3702e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4645e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4017e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7567e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7195e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6194e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2271e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9546e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3213e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9546e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7603e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0233e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3858e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7323e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2096e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2212e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1665e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1665e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6135e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3155e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1351e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9488e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1979e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0920e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1607e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4959e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4273e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4645e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9744e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0245e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1607e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7940e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 178, time 183.13, cls_loss 0.0000
+100
+cls_loss: tensor(1.6764e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2410e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1153e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3784e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3819e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8918e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9744e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8743e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5332e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8370e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2527e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6135e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8662e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4007e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0606e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0920e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0408e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7311e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9430e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5332e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6741e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1153e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1782e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4587e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2468e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3958e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5390e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4250e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1607e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0152e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9861e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 179, time 183.49, cls_loss 0.0000
+100
+cls_loss: tensor(2.1607e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0489e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6503e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4762e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1362e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5821e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0920e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6880e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0233e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3900e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7311e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7998e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1979e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4389e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5076e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 180, time 183.09, cls_loss 0.0000
+100
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3900e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7567e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0175e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8370e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4959e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6194e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3784e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1660e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9057e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3469e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4331e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6764e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9744e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1292e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2724e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0606e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2096e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0466e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7940e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4214e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1607e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4587e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3097e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1153e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8312e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9744e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1979e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9744e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 181, time 183.00, cls_loss 0.0000
+100
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7625e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6135e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2927e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0489e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4587e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4587e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7940e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8801e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1898e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3097e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1607e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6764e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0489e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9034e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7567e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8173e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9744e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8056e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4214e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8115e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8685e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9744e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 182, time 182.58, cls_loss 0.0000
+100
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2037e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6194e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1351e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5332e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9174e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1095e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3900e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8743e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7195e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7567e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6624e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4342e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3225e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9744e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0489e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6764e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0489e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5134e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1234e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1607e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3469e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7311e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4645e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9744e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0489e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2037e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 183, time 182.91, cls_loss 0.0000
+100
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4075e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5076e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5449e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1607e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3097e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0952e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9093e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1979e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3784e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4389e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9430e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3900e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8604e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4250e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0175e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1409e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5390e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2410e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4075e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9488e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9349e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3097e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 184, time 182.94, cls_loss 0.0000
+100
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3213e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5705e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6508e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8801e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3155e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7998e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9116e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4937e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9861e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3469e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3155e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0233e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2410e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1234e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2468e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1665e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0547e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4959e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6764e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4959e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8312e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 185, time 183.15, cls_loss 0.0000
+100
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7428e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3469e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9488e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4273e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3784e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0920e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6624e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3784e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0175e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5449e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2410e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7625e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1292e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8685e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3097e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9057e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5332e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3272e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6508e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 186, time 183.24, cls_loss 0.0000
+100
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5332e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6880e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3155e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6624e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9721e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9057e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0394e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1351e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1292e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4820e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4959e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9057e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9116e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2783e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9744e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0489e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9861e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 187, time 183.02, cls_loss 0.0000
+100
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7195e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8312e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3469e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0664e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9779e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7998e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5332e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6135e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7828e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4192e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5449e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7567e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5332e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2783e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2554e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0233e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0233e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 188, time 183.02, cls_loss 0.0000
+100
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9430e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6764e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3784e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0489e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7567e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9057e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7567e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7428e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7998e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0920e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1979e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6427e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3155e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6764e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 189, time 183.04, cls_loss 0.0000
+100
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6939e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3097e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0547e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7195e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7195e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2841e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3213e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3155e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4075e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3586e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2841e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5251e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 190, time 182.72, cls_loss 0.0000
+100
+cls_loss: tensor(4.6194e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3784e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4587e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6135e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2841e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5018e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4587e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0664e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0233e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1292e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4214e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5705e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1607e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8056e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5938e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0489e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6764e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 191, time 182.98, cls_loss 0.0000
+100
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2783e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9744e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6764e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9057e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8370e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2037e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3469e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4214e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5449e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1665e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1979e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2468e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2783e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 192, time 182.67, cls_loss 0.0000
+100
+cls_loss: tensor(5.4017e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6880e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9546e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1234e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5390e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1292e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3469e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3469e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1399e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7195e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3900e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6624e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9744e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5332e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1782e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8289e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2724e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9744e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6764e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3784e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 193, time 183.35, cls_loss 0.0000
+100
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4587e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9057e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7625e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3469e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6939e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3784e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8999e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6880e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3469e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4959e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9744e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5332e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2724e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 194, time 183.48, cls_loss 0.0000
+100
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4389e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5076e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6624e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1607e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2410e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4587e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9057e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0722e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3784e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3784e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 195, time 182.89, cls_loss 0.0000
+100
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1607e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0489e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8312e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0350e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8545e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1979e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5332e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6624e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3097e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9034e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1607e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 196, time 183.43, cls_loss 0.0000
+100
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1607e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1234e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1665e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5076e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5332e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4959e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4273e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 197, time 183.22, cls_loss 0.0000
+100
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9744e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7567e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2724e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0175e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4959e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0606e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3469e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 198, time 183.38, cls_loss 0.0000
+100
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9430e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9430e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9919e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2410e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 199, time 183.30, cls_loss 0.0000
+100
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9919e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1234e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4645e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2410e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2724e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4645e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6764e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4959e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2841e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 200, time 183.08, cls_loss 0.0000
+100
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4959e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8685e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5332e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8685e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 201, time 183.06, cls_loss 0.0000
+100
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0489e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2724e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9116e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6450e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 202, time 182.94, cls_loss 0.0000
+100
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3761e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9430e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0547e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7311e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8685e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8312e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2724e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 203, time 183.22, cls_loss 0.0000
+100
+cls_loss: tensor(1.4901e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9744e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1234e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3784e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1292e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6764e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0175e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 204, time 183.02, cls_loss 0.0000
+100
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1292e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9744e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5018e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3272e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5705e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 205, time 183.61, cls_loss 0.0000
+100
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9430e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 206, time 183.08, cls_loss 0.0000
+100
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3900e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1665e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 207, time 183.14, cls_loss 0.0000
+100
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9744e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7940e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1607e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3784e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0920e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 208, time 182.97, cls_loss 0.0000
+100
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9430e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0489e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6764e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4587e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 209, time 183.18, cls_loss 0.0000
+100
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7567e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 210, time 183.34, cls_loss 0.0000
+100
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 211, time 182.80, cls_loss 0.0000
+100
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6764e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4959e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2410e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4214e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7567e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0489e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 212, time 183.16, cls_loss 0.0000
+100
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8254e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4214e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 213, time 182.93, cls_loss 0.0000
+100
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1979e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4959e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6764e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 214, time 182.98, cls_loss 0.0000
+100
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 215, time 183.00, cls_loss 0.0000
+100
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5705e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3155e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1234e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6019e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 216, time 182.80, cls_loss 0.0000
+100
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1234e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 217----------------------------------------------------
+epoch 217, time 182.90, cls_loss 0.0000
+100
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2293e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 218, time 182.38, cls_loss 0.0000
+100
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3155e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3784e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 219, time 182.69, cls_loss 0.0000
+100
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4156e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 220, time 182.68, cls_loss 0.0000
+100
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 221, time 182.94, cls_loss 0.0000
+100
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7136e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5682e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 222, time 182.99, cls_loss 0.0000
+100
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 223, time 182.86, cls_loss 0.0000
+100
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 224, time 182.57, cls_loss 0.0000
+100
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 225, time 182.60, cls_loss 0.0000
+100
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1956e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 226, time 182.72, cls_loss 0.0000
+100
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 227, time 182.96, cls_loss 0.0000
+100
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5879e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0058e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 228, time 183.29, cls_loss 0.0000
+100
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 229, time 182.80, cls_loss 0.0000
+100
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3330e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 230, time 183.33, cls_loss 0.0000
+100
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 231, time 182.99, cls_loss 0.0000
+100
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5274e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 232, time 183.17, cls_loss 0.0000
+100
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3132e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8429e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6764e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 233, time 182.75, cls_loss 0.0000
+100
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6077e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 234, time 182.95, cls_loss 0.0000
+100
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-09, device='cuda:0', grad_fn=<NllLossBackward0>)
diff --git a/Meta-causal/code-stage1-pipeline/56455.error b/Meta-causal/code-stage1-pipeline/56455.error
new file mode 100644
index 0000000000000000000000000000000000000000..38d934231566fdb9cd98197f76b6dd49f332d93a
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/56455.error
@@ -0,0 +1,4 @@
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-stage1-pipeline/data_loader_joint_v3.py:426: UserWarning: To copy construct from a tensor, it is recommended to use sourceTensor.clone().detach() or sourceTensor.clone().detach().requires_grad_(True), rather than torch.tensor(sourceTensor).
+  x, y = torch.tensor(x), torch.tensor(y, dtype=torch.long)
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-stage1-pipeline/data_loader_joint_v3.py:426: UserWarning: To copy construct from a tensor, it is recommended to use sourceTensor.clone().detach() or sourceTensor.clone().detach().requires_grad_(True), rather than torch.tensor(sourceTensor).
+  x, y = torch.tensor(x), torch.tensor(y, dtype=torch.long)
diff --git a/Meta-causal/code-stage1-pipeline/56455.log b/Meta-causal/code-stage1-pipeline/56455.log
new file mode 100644
index 0000000000000000000000000000000000000000..56a2ee207832bca2331b885d1cc197f495694c99
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/56455.log
@@ -0,0 +1,21748 @@
+/home/yuqian_fu
+{'gpu': '0', 'data': 'art_painting', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 5, 'factor_num': 16, 'epochs': 70, 'nbatch': 100, 'batchsize': 6, 'lr': 0.01, 'lr_scheduler': 'cosine', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+x.shape: (1840, 227, 227, 3)
+x_aug train here torch.Size([1840, 3, 227, 227])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_train.hdf5 torch.Size([1840, 3, 227, 227]) torch.Size([1840])
+--------------------------CA_multiple--------------------------
+---------------------------16 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+x.shape: (208, 227, 227, 3)
+x_aug test here torch.Size([208, 3, 227, 227])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_val.hdf5 torch.Size([208, 3, 227, 227]) torch.Size([208])
+-------------------------------------loading pretrain weights----------------------------------
+306
+cls_loss: tensor(2.2935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7793, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(18.2740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.2471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1980, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(22.8802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.4238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.0419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(30.8763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(16.7465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(15.3426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(24.1849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(22.2878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0692, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(16.8876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.7633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.5060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.1387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.7344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4837, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.6686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.5646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(32.3005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.1595, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.0599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.1064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.6269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2956, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(23.3229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.4831, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.3048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.6686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(15.3711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.0818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.5354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.3483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.6338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(35.7786, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.9492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.8542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.2592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.1615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(19.8615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(16.8438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.4896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(15.7689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(16.1529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1748, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(28.6545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(20.7057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(17.5304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(23.4637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(16.0820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(21.6462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(16.0736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(15.4636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(19.9086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(15.0807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(18.1963, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(21.9622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.4477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(22.1042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(21.7604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(22.6425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(23.8737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(23.0524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(15.1250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.6068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(18.6380, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(15.8815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(36.1007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.4844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4831, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.0833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(22.0471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(22.2188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(21.6570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(16.1500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.2359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(18.0378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.6550, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1960, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(25.5935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.6200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1931, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.7409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.9711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.0527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1976, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.1654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.7392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(15.1943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3953, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.2597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0904, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.7485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.2604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(18.8507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.9632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(27.1523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(25.3352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.8202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8961, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.1969, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.8843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.4674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(24.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.7572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6929, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.9297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(15.1634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.1849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(16.5143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.6211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(16.8203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.9343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.9583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(20.7474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.5770, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(15.6935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.9870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.8792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7025, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 329.69, cls_loss 9.0417
+306
+cls_loss: tensor(11.7513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(25.3281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.3963, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.3412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0980, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.8854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(16.6397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.4795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6746, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.0965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.4378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.7009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.8664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8930, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(15.8626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.4440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.5384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(18.0589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.6228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.1535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2743, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.3882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0997, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8712, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.0620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9433e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(22.7552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.4929, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.3893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6929, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2871, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.2485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2884, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.3177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7905, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2961, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.1995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.6726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.1279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7927, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.6406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.1656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4564, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.9622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.1743, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(15.1452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(17.1799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.4440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(19.7578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4978, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(16.9719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.8009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(18.4814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.2826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(15.6644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9903e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.7178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0873, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2789, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3825, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.5799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1978, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3679, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.5835, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4831, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4956, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5960, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6595, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3892, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.7082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0783, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.994965332706573e-05
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 359.68, cls_loss 5.2840
+306
+cls_loss: tensor(4.0417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(18.1537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9206e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4564, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4748, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0780, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3892, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3194e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(17.6563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0925, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0996, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2457e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4275e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7565, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(23.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.2207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9253e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5921, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5695, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3689e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7623, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2723, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3979, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4835e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9873, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7555, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2920, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6794, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6837, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1961, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8347e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0928, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0000, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0960, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0691, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.979871469976196e-05
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 358.51, cls_loss 2.9761
+306
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4946, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5631, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0904, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2121e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8968, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0979, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8431e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5610e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9650e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1948, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0679, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8943e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6838, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3789, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3345e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0518e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9021e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2978, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3000, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5636e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0838, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0969, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0915, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8929, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5301e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2975e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1413e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0939, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1923, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.6146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6825, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3884, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0769, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0926, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4871, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.954748808839674e-05
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 357.65, cls_loss 1.7143
+306
+cls_loss: tensor(1.0860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0723, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9838, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3923, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7525e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9979, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0910, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3786, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6837, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6864, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2873, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7644e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8425e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.4479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5968e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8848, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3677e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9944, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2147e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6824e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5961, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3986, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0649, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1656e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7916, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2931, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8134e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0134e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1643e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2756e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5892, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0929, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.919647942993148e-05
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 360.90, cls_loss 1.1780
+306
+cls_loss: tensor(2.0266e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0689e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1907, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3729e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2676e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2910, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4850, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6538e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9922e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3180e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8555, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2161e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6728, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2431e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0478e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9121e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6034e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6690e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5963e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8845, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9828e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2730e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7904, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6679e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2886, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5709e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9493e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1595, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8942e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0712, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0595, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2905, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6946, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0871, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5780, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4623, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4056e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7685e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8623, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8555, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0976, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8260e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4639e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3689e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3181e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5583, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.874639560909117e-05
+changing lr
+epoch 5, time 357.06, cls_loss 0.9013
+306
+cls_loss: tensor(0.5313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8497e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1808, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9431e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2939, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1292e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3986, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0663e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9804e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9889e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8968, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0590e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3464e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6783e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5961, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1908e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0532e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6690e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4405e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4193e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2939, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8756e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6035e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6043e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4656e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6399e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5956e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3926, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1683e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6607, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6925, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5961e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0884e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7042e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2894e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9925, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9780, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7021e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5234e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6001e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.819814303479267e-05
+changing lr
+---------------------saving model at epoch 6----------------------------------------------------
+epoch 6, time 355.43, cls_loss 0.7067
+306
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6207e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8943e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9968, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4135e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2219e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4723e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4931, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9710e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7617e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4042e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2451e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1392e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1516, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4280e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5876e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2452e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5624e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1991, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5904, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0790e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0637e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8215e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3864, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8281e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9339e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1701, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0794, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3861, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3140e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2497e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1080e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1849e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5632e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9054e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5830e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3977e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0868e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0663e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4677e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8413e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5597e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4345e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4484e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7780, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7279e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9991, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2555, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5479e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2835e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0586, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3127e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.755282581475769e-05
+changing lr
+epoch 7, time 354.12, cls_loss 0.4559
+306
+cls_loss: tensor(0.3040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4029e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5160e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7955e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8585e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1300e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7544e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8952, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8199e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2584e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8279e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4195e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7220e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8015e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0212e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9997e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2637e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0464e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7902, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8133e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5167e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8848, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2755e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4962, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3749e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3259e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0649, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2929e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5692e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7434e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2850, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9540e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9937e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8318e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7816e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2737e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3942, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0160e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1790e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8239e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8307e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2385e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7756e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.681174353198687e-05
+changing lr
+---------------------saving model at epoch 8----------------------------------------------------
+epoch 8, time 358.80, cls_loss 0.3400
+306
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9465e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8020e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5293e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9114e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0955, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7147e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4572e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8691, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8996, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2041e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0929e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9273e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4047e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3491e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7021e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8082e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5902, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0200e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7897e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5738e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4166e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6712, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6492e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1590e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4979, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8650e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8749e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0386e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9373e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0305e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2636e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5934, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8348e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9942e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2717e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2838, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0663e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8889e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1195e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6425e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4043e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5916, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6986, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8478e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8347e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4518e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0797e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2611, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.597638862757255e-05
+changing lr
+epoch 9, time 371.01, cls_loss 0.2145
+306
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6160e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7882e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4959, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8120e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1790e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0730e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7605e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1968, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6544e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0780, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6869e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9093e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1434e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0917e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0332e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1849e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4637e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0996e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7035e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4762e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8957, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0942, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0725, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1260e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7670e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3048e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9786, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4955e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2055e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8650e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2773, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1952, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2795e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3288e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6842, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1931, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4996e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7956, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4108e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9956e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5168e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6650e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5663e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5301e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0832, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1393e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.504844339512095e-05
+changing lr
+epoch 10, time 357.40, cls_loss 0.3486
+306
+cls_loss: tensor(0.1106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1380, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7029e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0777, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9738e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1962e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8081e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2676e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5001e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3577e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4563e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0333e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8015e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0597e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4366e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4188e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2208e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4199e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0915, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6869e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4637e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5040e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5233e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0033e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8544e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2558e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9831, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3345e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6094e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4173e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1193e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2187e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6848e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3995e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5518e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2453e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4180e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3313e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8009e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7566e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2638e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5746, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7883e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0021e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8776e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9093e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6027e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2956e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7452e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7658e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3679e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4902e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3857e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2193e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9804e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3114e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8577e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8080e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6493e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7226e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9803e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2824e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1378e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3976e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8094e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0995e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6471e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2808, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.40297765928369e-05
+changing lr
+---------------------saving model at epoch 11----------------------------------------------------
+epoch 11, time 358.94, cls_loss 0.1780
+306
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3643e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6921e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0637e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8149e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5690e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1676e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8964e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0996, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9729e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2769, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4419e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1047e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5564e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7957e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4809e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4769, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7301e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6425e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2848e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6048e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7499e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6127e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0444e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7968e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2586e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6691e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6955e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1910, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1067e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6650e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1281e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9206e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0490e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9161e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6400e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6577e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9798e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0042e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3679, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1823e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0212e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3313e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4068e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8829e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0691e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.292243968009331e-05
+changing lr
+epoch 12, time 356.09, cls_loss 0.2509
+306
+cls_loss: tensor(8.3804e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1140e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9896e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4285e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6232e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2942, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8214e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6690e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0744e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8743e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0969, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0153e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9074e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5525e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9148e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5584e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9339e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1127e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4175e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1498e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1816, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2187e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6160e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6963e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2994e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0994e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0597e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5646e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7471e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2790e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2823e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2926, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0490e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0610e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7754, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1563e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6228e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4173e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0998, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2572e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9095e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2332e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9074e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0055e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7743, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2869e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6917e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2656e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3638e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1392e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5273e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1424e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9940, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0816, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2994e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0931, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9274e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6425e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2969e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2189e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3041, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.172866268606513e-05
+changing lr
+epoch 13, time 358.04, cls_loss 0.2684
+306
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6212e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3856e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3526e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0192e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3180e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7976e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5365e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1702e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1314e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2778, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2784e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2411e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4769e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9552e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9101e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7718e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1927, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9804e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2286e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9897e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4584e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0055e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8955e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2663e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8809e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2651e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1632e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4881e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8080e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1412e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7619e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1922e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7553e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2837, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5717e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2974e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1857e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5101e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5974e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2929e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5775e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8811e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4850, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3048e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0710e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4796e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7042e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1892, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4586, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7155e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2135e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+9.045084971874738e-05
+changing lr
+epoch 14, time 357.34, cls_loss 0.1243
+306
+cls_loss: tensor(1.6669e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6677e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4769e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0794, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8691, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8551e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5054e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3391e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1195e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4491e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2650e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8379e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3048e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3643e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6293e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0808e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2372e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6252e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8366e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4836e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0723e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7728, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7742e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5897e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3186e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1174e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8148e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5498e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3987e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2378e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0692, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0108e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6400e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2519e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4240e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0531e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8809e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3087e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9140e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4306e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8473e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8809e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3484e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0968, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3445e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7484e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8148e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0663e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4850e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9009e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5167e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8425e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9406e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1697e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1245e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3451e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7419e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4173e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2974e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2252e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9804e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1320e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5498e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3048e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2093e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3862e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2060e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1027e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+8.90915741234015e-05
+changing lr
+epoch 15, time 357.89, cls_loss 0.1362
+306
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6729e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6558e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2795e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6174e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8081e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1912, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0994e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7287e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5605e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9034e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1636e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7696e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0597e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1213e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5597e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8626e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7869e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6233e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2201e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8081e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3213e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2604e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0109e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0864e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7219e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5294e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1208e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6094e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4557e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7393e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2783e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4770e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4485e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2485e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0391e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0305e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1426e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2777, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3313e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4126e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4326e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7603e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2100e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9381e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4683e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6188e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3643e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0332e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8148e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6663e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9326e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6153e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1702e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+8.765357330018056e-05
+changing lr
+epoch 16, time 360.08, cls_loss 0.0830
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7619e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3909e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1808, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0915, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2624e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0967e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9504e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1988e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5253e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6478e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0267e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0709e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5835e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4451e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2115e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4769e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7910, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5220e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3048e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9672e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7516, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3398e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7619e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6716e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9472e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6101e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1976, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8267e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4226e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8020e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8610e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0730e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2969e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3977e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3049e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5975e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8060e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1543e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5035e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4175e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9458e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4365e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2188e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0942e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2718e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0788e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3240e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4333e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1127e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2199e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4571e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0828e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2504e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8744e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8545e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8869e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6890e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4511e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0623, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7220e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5611e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9935e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9513e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3531e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2451e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6960, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9188e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7484e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9977e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8531e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0828e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8546e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7843e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0663e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9028e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9140e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1843e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0663e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1922e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8729e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5101e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4701, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5744e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+8.613974319136958e-05
+changing lr
+epoch 17, time 358.06, cls_loss 0.1141
+306
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4043e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5810e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1922e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8080e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0920, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2252e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5008e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5630e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0670e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4372e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9538e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2042e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2848e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7685e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5233e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3818e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8414e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9902e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1453e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1146e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8849e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3247e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7147e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0444e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7398e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8041e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0341e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4537e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5676e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0201e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8465e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1193e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5948e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2539e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9206e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2994e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1464e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0637e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7061e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5338e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6804e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5407e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0212e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8279e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5526e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6028e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2518e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7816e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0848e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9458e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4881e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4127e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0490e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3129e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+8.455313244934324e-05
+changing lr
+epoch 18, time 357.52, cls_loss 0.0474
+306
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8447e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2988e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8877e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8433e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6518e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3801, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2905, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1128e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3705e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8239e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5094e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1060e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1643e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4637e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4662, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5962e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8080e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5949e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4908e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4120e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1623e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4743e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7433e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5167e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2775e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1630e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8347e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2650e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8346e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3777e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3868e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2100e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3439e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2055e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6889e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8478e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8942e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9273e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2981e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6625e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4438e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7584e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8147e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5168e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9221e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0797e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3863e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1790e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4637e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3186e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1764e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4374e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0723e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1557e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7756e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7088e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6889e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7551e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3180e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6432e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3279e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1458e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8555, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9075e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3292e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0603e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9253e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8743e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3359e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0259e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8545e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3995e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3444e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6623e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3089e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3987e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3577e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+8.289693629698562e-05
+changing lr
+---------------------saving model at epoch 19----------------------------------------------------
+epoch 19, time 356.57, cls_loss 0.0406
+306
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5844e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7617e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0405e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7756e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0969e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1869e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4638e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6359e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3669e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4174e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9705e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8034e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4166e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9353e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0796e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8850e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3941e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7988e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0663e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9332e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2385e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6623e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8610e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2996e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1127e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0400e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5990e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7293e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6818e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6560e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0564e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1929e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7756e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2009e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8347e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2650e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2744e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1988e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6558e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2651e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5195e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9828e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5684e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5564e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9087e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6333e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2519e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4227e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0200e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1060e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9273e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3664e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5102e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8213e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9610e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0246e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1384e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6857e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3431e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7968e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9538e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0114e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7798e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5411e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4704e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8934e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+8.117449009293667e-05
+changing lr
+---------------------saving model at epoch 20----------------------------------------------------
+epoch 20, time 357.61, cls_loss 0.0392
+306
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9698e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8412e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5955e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2586e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6504e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0351e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6903e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1949e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2850e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2319e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7818e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1459e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6227e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5432e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0929, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0252e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0929e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3619e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3406e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0268e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9101e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2107e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5578e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0114e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0391e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0134e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3360e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8162e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5233e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5121e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0995e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6034e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3975e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4836e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1851, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6162e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5498e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6425e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8744e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5897e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7623e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3332e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6228e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0259e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5809, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8478e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5234e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2915e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2848e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4319e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0192e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7088e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7074e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+7.938926261462365e-05
+changing lr
+epoch 21, time 358.54, cls_loss 0.0412
+306
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7762e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9717e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0153e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1458e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8327e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0399e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3703e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1511e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9068e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8414e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7140e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6889e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2652e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4769e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0728, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1253e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2159e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6431e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6160e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3604e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1702e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2081e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6643e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4438e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5234e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9848e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1458e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8412e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1909e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0757e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4107e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4571e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2981e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7193e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8570e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1557e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0599e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4228e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5962e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8512e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1245e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4935e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4663e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7089e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8413e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1027e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2949e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1128e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4319e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6160e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5318e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5896e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2736e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2696e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6427e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0531e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1346e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2974e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7544e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2385e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1751e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0154e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3876e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6530e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6133e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2650e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8439e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4313e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9737e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3247e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4438e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8107e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7484e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1299e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7597e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0425e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+7.754484907260511e-05
+changing lr
+---------------------saving model at epoch 22----------------------------------------------------
+epoch 22, time 357.59, cls_loss 0.0210
+306
+cls_loss: tensor(5.3247e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0400e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3669e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6352e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5750e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7545e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8280e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2983e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3530e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3948e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2153e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6293e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9206e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0135e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3221e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8935e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3531e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8545e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7816e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2848e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1795e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6400e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1835e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1260e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2848e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5749e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3034e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4815e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5983e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5815e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0915e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8592e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6320e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7948e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9751e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4307e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9041e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6206e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6113e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3391e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9405e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2532e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7022e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3738e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0639, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6432e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9339e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4374e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3544e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8253e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2320e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6987e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4645e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3142e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1895e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1206e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4683e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0746, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0387e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3232e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1619e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6505e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+7.56449638702953e-05
+changing lr
+epoch 23, time 360.75, cls_loss 0.0187
+306
+cls_loss: tensor(3.4332e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7219e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7088e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2802e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7339e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2857e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5831e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6890e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4246e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2391e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0762e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0484e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1968e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7950e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3049e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6948e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5557e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0664e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2252e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3075e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1061e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2386e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1265e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1762e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2432e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6479e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0881e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4219e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3440e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9206e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2604e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8318e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0901e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8810e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8744e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8414e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2639, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0398e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7206e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6756e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7219e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2319e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2254e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0359e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4843e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8876e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4041e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7219e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2047e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6957e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9644e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7882e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0663e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1565e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6908e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4976, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6464e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0202e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4438e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7219e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2398e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9500e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5300e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3617e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4599e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6227e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7027e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8545e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0342, device='cuda:0', grad_fn=<NllLossBackward0>)
+7.369343312364992e-05
+changing lr
+epoch 24, time 356.58, cls_loss 0.0428
+306
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3352e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3977e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8955e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6631e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8347e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5167e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0511e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6161e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0239e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3758e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3577e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5419e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1590e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1299e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8672e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2982e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8537e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8134e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4889e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7484e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0754, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6286e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2916e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0490e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2590e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3777e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2049e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6559e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9610e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5300e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7219e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2139e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2777e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5233e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2055e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8213e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8280e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1458e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3539e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9743e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3273e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1825, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2201e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3844e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0361e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9009e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3379e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6160e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7419e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7266e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6015e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+7.169418695587788e-05
+changing lr
+epoch 25, time 365.69, cls_loss 0.0531
+306
+cls_loss: tensor(7.1824e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7088e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3550e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2127e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5208e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1877e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7287e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5751e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6955e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6359e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4665e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9326e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5029e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2188e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7227e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8213e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2684e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3711e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8506e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2260e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9162e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2684e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5994e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5412e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1940, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6736e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7126e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6425e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2915e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5962e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3550e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6908e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5320e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1279e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0201e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9008e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6902e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0465e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2338e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2219e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4571e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8902e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6824e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8944e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1253e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4100e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5140e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1245e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6934, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5744e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5526e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4041e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8544e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2849e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4246e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9034e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2477e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2199e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6560e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8678, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2392e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7816e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4637e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8537e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2915e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+6.965125158269616e-05
+changing lr
+epoch 26, time 358.04, cls_loss 0.0377
+306
+cls_loss: tensor(0.7696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0135e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3327e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1882e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0411e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2452e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8809e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5432e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4439e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7949e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6670e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0069e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5338e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5544e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7286e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3180e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9472e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2651e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8796e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9930e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1550, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5942e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2199e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2577e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7432e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2650e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5114e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1280e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7484e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1988e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2663e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2512e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2848e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5564e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2292e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2842e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3577e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7883e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2034e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8253e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1590e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0842e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0267e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6560e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2319e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8546e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6306e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2056e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8015e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2385e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2260e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7047e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0808, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1193e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6559e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9604e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1750e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0848e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6996e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4505e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5844e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4861e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4849e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9882e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5630e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4359e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6425e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8610e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2784e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8080e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0465e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6904e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8412e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+6.756874120406712e-05
+changing lr
+epoch 27, time 357.21, cls_loss 0.0154
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7485e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7345e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7791e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9504e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7425e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2326e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2034e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7950e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7088e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1067e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9467e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3182e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8050e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2188e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0929e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7120e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6359e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0598e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7325e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8809e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2703e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1061e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1685e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1393e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3187e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8338e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3334e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0982e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1261e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1028e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5036e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0135e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4374e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2584e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1491e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4572e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0412e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6312e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1459e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2718e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7424e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1194e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9804e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0649e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0995e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6425e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8544e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8080e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7275e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7022e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8279e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6690e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4717e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3192e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4285e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8743e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3910e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5300e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6188e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8080e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7551e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9663e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7797e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4671e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2790e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2056e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1134e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1001e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6001e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8200e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3313e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8903e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3843e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4373e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6538e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9036e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6663e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7155e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9009e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2982e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0339e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+6.545084971874736e-05
+changing lr
+epoch 28, time 358.61, cls_loss 0.0293
+306
+cls_loss: tensor(1.0610e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1716e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7339e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4836e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8213e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5372e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2391e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9822e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6987e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7326e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9975e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1656e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9056e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6160e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7088e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8810e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4637e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8414e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7796e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9987e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6227e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7352e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5169e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2387e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1612e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5159e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3657e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5764e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3749e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3929e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9604e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0268e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4286e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3577e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9345e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5159e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3114e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0068e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2233e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4637e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7220e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2021e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0479e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8650e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8677e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9206e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7889e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0293e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1990e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5300e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0532e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0868e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9888e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5054e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5512e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2954e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0995e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7299e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6625e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0930e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5301e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0828e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0550e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3246e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9439e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2816, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4168e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8725e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6113e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2678, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3683e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5234e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3822e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7603e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6504e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4240e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7817e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8822e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6776e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0888e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5387e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9935e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+6.330184227833373e-05
+changing lr
+epoch 29, time 355.96, cls_loss 0.0227
+306
+cls_loss: tensor(1.2815e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6957e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1458e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5564e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6585e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5412e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8743e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9154e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7021e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0002e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4815e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9208e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3570e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9074e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6386e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0471e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0399e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5630e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6957e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9208e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5855e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3564e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1988e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0864e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3180e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9512e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2360e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8803e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0692, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5831e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8981e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6359e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6889e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2512e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2970e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2452e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3180e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3789, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6360e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1583e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0736e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1327e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9750e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0758e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9101e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1851, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2398e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1981e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0864e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5650e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6471e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0828e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9339e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3749e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7154e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2159e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5644e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5354e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4241e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1988e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5749e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4816e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0599e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0731e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5365e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6361e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0780, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0160e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5518e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0003e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1127e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2856e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+6.11260466978157e-05
+changing lr
+epoch 30, time 354.42, cls_loss 0.0082
+306
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4484e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3049e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2981e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9339e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9419e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1327e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8015e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2121e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6558e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0598e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8942e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3393e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4439e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2451e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8545e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6155e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7703e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7962e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9630e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5199e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8809e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4195e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9957e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9174e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8346e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7531e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0584e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1265e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1563e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8743e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1498e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2730e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7265e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8074e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7206e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6293e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3731e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4505e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5934e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6623e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1658e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8683e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1326e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4175e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9034e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3975e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2605e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9074e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1392e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1543e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7140e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3292e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2577e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8942e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7233e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2981e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6558e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4142e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4637e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0531e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0073e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1061e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2903e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0113e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1193e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8081e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2187e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1444e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3445e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2121e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2122e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4412e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9134e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2254e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5656e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4444e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+5.892784473993181e-05
+changing lr
+epoch 31, time 357.66, cls_loss 0.0135
+306
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0371e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4531e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5003e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6955e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4043e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4022e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4557e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2220e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2452e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1040e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4665e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4990e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7219e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2385e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9888e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4822e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2785e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7433e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8016e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4948e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9379e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5199e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8412e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2360e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5577e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0545e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9538e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8308e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0828e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3762e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4544e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9411e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9484e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1379e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2385e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0478e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6332e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0478e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5830e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2584e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0100e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8120e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4081e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7949e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5457e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1393e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2252e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0047e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0465e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6492e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8995e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8809e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5961e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5194e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4241e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3192e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7042e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6756e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7499e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1074e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9910e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0466e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+5.6711663290882756e-05
+changing lr
+epoch 32, time 359.43, cls_loss 0.0168
+306
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8002e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6464e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0864e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9233e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1565e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0186e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7313e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4811e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2651e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4696e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1245e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3843e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8723e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8306e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1794, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5616e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4041e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3122e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5127e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2577e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1539e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4275e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6345e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1656e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5127e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7783e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5698e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0664e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1968, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9869e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0034e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2187e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2783e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6464e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1384e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4120e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7352e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1564, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3532e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6484e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4214e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5235e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2981e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8014e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5239e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4643e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3762e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6360e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7220e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8822e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4438e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4837e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4041e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1901e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1982e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4830e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4704e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1702e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7685e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0252e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2497e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6027e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1857e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4444e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0393e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6791e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6426e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5630e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1060e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0863e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8214e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2319e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3036e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7352e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1392e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1146e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1974e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1060e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4639e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2451e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6956e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1590e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5235e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5427e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5457e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+5.448196544517166e-05
+changing lr
+epoch 33, time 358.22, cls_loss 0.0171
+306
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6758e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0629e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3115e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2353e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1696e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0332e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4041e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2055e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8809e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0969, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1413e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4439e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6828e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6108e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9941e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4643e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0465e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3630e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6777e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8239e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6162e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1206e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0908e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1724e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8193e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7265e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0967e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6550e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4307e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9888e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5630e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7484e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2298e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5577e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2652e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2187e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0649e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7796e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3093e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5551e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9074e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7948e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2298e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9009e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6935e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7498e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1553e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1776e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0730e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1166e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9491e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2855e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1128e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6160e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8810e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3882e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2902e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3909e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7346e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1969e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6041e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8579e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4188e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0664e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3213e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4372e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9585e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+5.2243241517525733e-05
+changing lr
+epoch 34, time 357.39, cls_loss 0.0185
+306
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5239e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3570e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6227e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9254e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6756e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7293e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5544e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6849e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4372e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8658e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2783e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9406e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2358e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1128e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0929e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6161e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4438e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8756e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0793, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0465e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1861e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3967e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0863e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5498e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7485e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3948e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5280e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3246e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6426e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2910, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5557e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9604e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7260e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8108e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5630e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3444e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2288e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0757e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0603e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4571e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0770e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4108e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3246e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4438e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6862e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1861e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7352e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6094e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9803e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8048e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8843e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0201e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9963e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0730e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7306e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1954e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1478e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0202e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6360e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5729e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5690e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0889e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2624e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1464e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4722e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6359e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8505e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9214e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0749e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4485e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1724e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3504e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0021e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4722e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8080e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7630e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2795e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3451e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3828e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0709e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0558e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2796e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8081e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7049e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1643e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3114e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3590e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1478e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3643e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8149e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0550e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+4.999999999999998e-05
+changing lr
+epoch 35, time 360.38, cls_loss 0.0109
+306
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7584e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6623e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6094e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9672e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7617e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2650e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0228e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9570e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0888e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0053e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8378e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3260e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7917e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5233e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9689e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2709e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8610e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8671e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8465e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2016e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7220e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7551e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2451e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6359e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7254e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4717e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6559e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9883e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1776e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8811e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0650e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8246e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0665e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1802e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5366e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3909e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1881e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4307e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0597e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9869e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8347e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1478e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1127e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2590e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5167e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6762e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7517e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9968e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3910e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3729e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4639e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2532e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5936e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7690e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3212e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9604e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5749e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6360e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2968e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0731e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4573e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5897e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2611e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2147e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8121e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9094e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0864e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1988e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8526e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3471e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6333e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2252e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1941e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0663e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3067e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+4.7756758482474244e-05
+changing lr
+epoch 36, time 356.36, cls_loss 0.0026
+306
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0796e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2074e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5636e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3909e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2385e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3530e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7553e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1571e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0598e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8544e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6431e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0068e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7023e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2718e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0988e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6691e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3379e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6612e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6590e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0531e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0895e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9890e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7088e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3166e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8923e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2616e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7213e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0730e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8279e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5169e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1870e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5831e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7882e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1327e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1782e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1724e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7088e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0723e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7287e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0665e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0756e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6160e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0664e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3511e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2650e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8546e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1181e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9803e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1623e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6703e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9008e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0590e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2453e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5365e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2280e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1756e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3987e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7359e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8240e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7227e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2055e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4041e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1572e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0252e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7551e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7027e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0047e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5318e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4970e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8346e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5703e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8148e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0643e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2850e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2187e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1525e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9392e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8174e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4683e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3241e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1040e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+4.551803455482832e-05
+changing lr
+epoch 37, time 356.94, cls_loss 0.0074
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8809e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6559e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3379e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4631e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3670e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7722e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0405e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5041e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7155e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0305e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7220e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9140e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7519e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5961e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4835e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0537e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7810e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5498e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0268e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4108e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3371e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6559e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8564e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3458e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6757e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4511e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0069e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4043e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0868e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3252e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4968e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0273e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6094e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9405e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4637e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9432e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7068e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9644e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4440e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8810e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2849e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9359e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2093e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2060e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0610e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8842e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5775e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6756e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2651e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8213e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1676e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3896e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9836e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3843e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9849e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0994e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4877e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3645e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7617e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1590e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6073e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4770e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0080e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1206e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2174e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4293e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9339e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1061e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5366e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1656e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7816e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3643e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0510e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4140e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6028e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1182e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8412e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2785e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4043e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2823e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9339e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3114e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9604e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1658e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9405e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4762e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7293e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5338e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1106e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+4.328833670911722e-05
+changing lr
+epoch 38, time 361.18, cls_loss 0.0128
+306
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3649e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4683e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9937e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1047e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7385e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1372e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8696e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5239e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2082e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1261e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4440e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9869e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7156e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5366e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0663e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5338e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3711e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6493e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4573e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2452e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8467e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0135e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6425e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0864e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3864e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0967e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8750e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0689e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4809e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2451e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7617e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1922e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2848e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4583e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7484e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4438e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0939, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1162e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3808e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8214e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4173e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6359e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0546e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9916e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6756e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3240e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0412e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2849e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5199e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7862e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5200e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4373e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2983e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9306e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5663e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6623e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4373e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4593e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0532e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1378e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3232e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5378e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9804e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5910e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1716e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2320e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0570e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3643e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7061e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+4.1072155260068164e-05
+changing lr
+---------------------saving model at epoch 39----------------------------------------------------
+epoch 39, time 358.80, cls_loss 0.0086
+306
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6729e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6062e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0842e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7286e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3246e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6843e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2155e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2848e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7287e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3294e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8578e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9869e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6029e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0650e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0088e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0100e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8612e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8790e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2227e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7266e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7352e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8247e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0629e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8678e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5080e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2252e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0135e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9140e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0332e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0069e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0598e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8127e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3570e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2745e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0664e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5632e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7623e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8153e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4412e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5961e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6294e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5446e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0531e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0797e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9140e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9659e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6955e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0267e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7751e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8010e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6259e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2239e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2254e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0200e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3868e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0232e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5233e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5835e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0399e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7663e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9008e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8149e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2518e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4770e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7089e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4265e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0597e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3888e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6623e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0069e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+3.8873953302184275e-05
+changing lr
+---------------------saving model at epoch 40----------------------------------------------------
+epoch 40, time 361.67, cls_loss 0.0076
+306
+cls_loss: tensor(0.0823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4452e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2974e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2420e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7617e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3153e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7008e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4041e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4036e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1831, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0201e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7075e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3525e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2451e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7784e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4886, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9010e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6228e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6756e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9937e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0955, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9008e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1989e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6729e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5962e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8080e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4982e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2657e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4552e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6227e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3379e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1590e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4173e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7484e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4638e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0737e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1160e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7883e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0658e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3114e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8412e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0564e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1404e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6650e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8286e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2663e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5962e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7948e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3053e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1564e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1656e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0484e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9009e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0631e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2252e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6166e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0665e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6663e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0232e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1592e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1716e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8235e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6120e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4505e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3313e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9405e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7166e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2990e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6001e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4571e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0226e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0464e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8319e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5169e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1617e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7346e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6657e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7553e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4908e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2420e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3067e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5765e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0996e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3975e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2848e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0942e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2578e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7743e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3431e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7089e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3444e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6705e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8279e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5340e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2055e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4624e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5775e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0202e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+3.669815772166625e-05
+changing lr
+epoch 41, time 357.39, cls_loss 0.0055
+306
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8213e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4639e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2696e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3643e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3546e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6089e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1770e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8352e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4704e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2650e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0730e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6816e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4571e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6120e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1599e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2189e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3590e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2630e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8169e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2055e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0624e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1590e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2974e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5830e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9544e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7155e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5632e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2254e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0464e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8030e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1656e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9935e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0472e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6221e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3901e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7882e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5101e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7219e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0371e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7155e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7717e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6141e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0293e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2784e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0996e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5326e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3869e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4838, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3279e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1553e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8598e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6617e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1060e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1512e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6956e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0166e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3314e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7219e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7842e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4650e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0069e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8279e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3466e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0786, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3975e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5015e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1392e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8943e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9935e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6227e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7929e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8737e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0550e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6431e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2194e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6955e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8034e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7287e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8219e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5214e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2114e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4445e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6148e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2651e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5961e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+3.454915028125263e-05
+changing lr
+epoch 42, time 356.34, cls_loss 0.0075
+306
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1378e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7784e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3855e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0464e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5432e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1663e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7352e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0081e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9604e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6955e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7062e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3458e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1592e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4783e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9870e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5360e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0464e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2776e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7088e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9140e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1631e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8876e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7063e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4173e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5590e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7155e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4108e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2616e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3380e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3180e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3192e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3433e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3445e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2533e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0892, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9703e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8135e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7690e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8743e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3511e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3444e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0709e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8745e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1115e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2300e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4307e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8127e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4796e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4372e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4583e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8300e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8360e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4438e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8227e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1245e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2844e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8314e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2451e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2894e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3777e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1676e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0526e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2981e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8399e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2187e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5537e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8677e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2060e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5101e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1327e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5532e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1060e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3544e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3643e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4021e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4100e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3181e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3995e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1392e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1697e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0080e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9818e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8240e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9803e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0113e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6956e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0332e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6371e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9904e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6201e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+3.2431258795932867e-05
+changing lr
+epoch 43, time 357.10, cls_loss 0.0085
+306
+cls_loss: tensor(1.6987e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5169e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6325e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4107e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2491e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9672e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2783e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8916e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7889e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0639e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0313e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5934e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9141e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7127e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8604e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3246e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4439e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4162e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4146e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3976e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4638e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1266e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8770e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0465e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0868e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0267e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3061e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7286e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6625e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7227e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8347e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3987e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5785e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6073e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9167e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0504e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1193e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0273e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6133e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4837e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0798e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0398e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1949e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0863e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3967e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3181e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1392e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0464e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8963e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1060e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9405e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5630e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5346e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2975e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4253e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1114e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3022e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2219e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7988e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0930e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5477e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2259e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8493e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6936e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4902e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7856e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4259e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1458e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2252e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1086e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1088e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1194e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9604e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6028e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9142e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0689e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3947e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+3.0348748417303827e-05
+changing lr
+epoch 44, time 356.52, cls_loss 0.0033
+306
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1299e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0915e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5300e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2373e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4438e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5167e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1146e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7870e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4175e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5498e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5963e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8280e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5320e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1988e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3977e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6094e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9538e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0016e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2981e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4571e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5896e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0915e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8942e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6458e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2451e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6227e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7219e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7156e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4126e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1120e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7663e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5008e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7022e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0465e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0021e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6889e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7617e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4041e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7948e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4690e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1392e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3061e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4804e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4769e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4857e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7352e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4776e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2055e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0073e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1327e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8318e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1559e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3266e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1592e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0451e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3292e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0490e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4367e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6896e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0794, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6597e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7901e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4036e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0597e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7021e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4319e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4312e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0074e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8507e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7286e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5233e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6293e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6526e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7691e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5570e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6623e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9206e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8016e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0053e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2219e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4782e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2161e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7756e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9400e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8301e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6294e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1260e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4663e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2894e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+2.830581304412209e-05
+changing lr
+epoch 45, time 358.60, cls_loss 0.0138
+306
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6426e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7107e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2638e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2385e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9061e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7551e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7937e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3280e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5505e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3896e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1279e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8412e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1060e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2478e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7711e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6518e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6107e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8346e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1194e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4835e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8148e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1590e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8279e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7485e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1856e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5453e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7286e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3392e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2451e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2729e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0736e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3977e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4969e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3862e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9472e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1060e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2831e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8545e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2338e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3313e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2729e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4505e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1922e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0663e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1393e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7572e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3380e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8279e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6595, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8810e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3228e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9936e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0500e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9010e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6453e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0366e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0073e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1062e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2457e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9405e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9391e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4968e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4638e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9472e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6359e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0730e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2100e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9797e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1841e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7379e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9274e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4776e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0649e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6987e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0002e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0479e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2134e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3181e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6955e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7976e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1935e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8677e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2815e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1034e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7120e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+2.6306566876350062e-05
+changing lr
+epoch 46, time 355.85, cls_loss 0.0049
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8160e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1273e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0233e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0951, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5074e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3221e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7049e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8809e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1922e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8942e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8855e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6175e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8080e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8114e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3844e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8346e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0087e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8936e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3909e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5888e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3677e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3843e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6890e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2882e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2691e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3049e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2624e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2372e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1969e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4107e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1326e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1623, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8499e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5358e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6623e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6352e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4175e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7353e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6955e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4319e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3915e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2042e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8274e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5432e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4835e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5233e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6187e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7817e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2471e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2398e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4637e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7156e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0751e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1194e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1246e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9022e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1684e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7419e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7147e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5281e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4571e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9804e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0902e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9472e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0069e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7882e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5168e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1790e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7782e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0888e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8888e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8877e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3379e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6425e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8347e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2320e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8414e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7485e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3957e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2916e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2584e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8153e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1836e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3180e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2703e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1060e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4611e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3049e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0610e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6809e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7346e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0068e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4623e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3591e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9141e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+2.4355036129704693e-05
+changing lr
+epoch 47, time 358.34, cls_loss 0.0063
+306
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3778e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3579e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7155e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2400e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6492e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8087e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1352e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7818e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4969e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5616e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5584e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6504e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6967e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4108e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2849e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2087e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0796e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4771e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3246e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5572e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9617e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8564e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0863e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3848e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1988e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5168e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0033e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0466e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9036e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4697e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0597e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0884e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3247e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3063e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0140e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3313e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9140e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4107e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7578e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3049e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7287e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6147e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6955e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1676e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8903e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7949e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6870e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5235e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4915e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0332e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0293e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4618e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9737e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7484e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0996e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5551e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9745e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7464e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1724e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5001e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4027e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0478e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2676e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8610e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5312e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9935e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9009e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7109e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1586, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6650e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2451e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0134e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5035e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6360e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6956e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6690e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8942e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8187e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0796e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6451e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3868e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4571e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2948e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8809e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4505e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+2.2455150927394874e-05
+changing lr
+epoch 48, time 354.26, cls_loss 0.0070
+306
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3444e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7818e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9937e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3420e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0400e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8280e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1857e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7603e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2652e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8532e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4639e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7186e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7478e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6193e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3669e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8610e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3590e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5235e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4968e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0519e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3200e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4208e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0995e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8147e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7948e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2093e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3167e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3649e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3212e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6558e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1922e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8666e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9677e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7095e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4307e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0398e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0742e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3705e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4835e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9010e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6743e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9770e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9606e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2239e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3386e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5544e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3485e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3234e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3783e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9405e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6920, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1146e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3975e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7484e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2717e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1923e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3201e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2650e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9465e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1338e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4307e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8142e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3472e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6387e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5452e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1393e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6174e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5637e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5897e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4174e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8934e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6623e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5830e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4571e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3114e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8944e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4835e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7817e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1128e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2586e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9366e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5254e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9949e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+2.0610737385376345e-05
+changing lr
+epoch 49, time 358.20, cls_loss 0.0036
+306
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1590e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2385e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6134e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9650e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2584e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4438e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5373e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1464e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1484e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4769e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9108e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1352e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3511e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8745e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9009e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6175e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7219e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0187e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8281e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0565, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0202e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7617e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9253e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9936e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9729e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8412e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8048e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2816e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0042e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2252e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1518e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5062e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4434e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2783e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6464e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4836e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5784e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2803e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0465e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3167e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1265e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9208e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5656e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7551e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1127e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8811e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3645e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1367e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9074e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9406e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4206e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1802e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8546e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6889e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3590e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6153e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1988e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8565e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1881e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0649e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8179e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2518e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9479e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1305e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6883e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0003e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4704e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7551e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5080e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3997e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0930e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1168e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6439e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4285e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1458e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0531e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2451e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1802e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7484e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7485e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4573e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+1.8825509907063323e-05
+changing lr
+epoch 50, time 356.73, cls_loss 0.0042
+306
+cls_loss: tensor(6.2346e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1504e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4360e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6432e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6307e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1444e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0464e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9976e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9738e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5610e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6027e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4023e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3838e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6828e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8644e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8969e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4968e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4041e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4471e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6868e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1604e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4041e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3385e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1989e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0664e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1459e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0253e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5001e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8148e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9405e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5637e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1186e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5101e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4835e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7206e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3579e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7751e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1595, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6690e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7259e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6987e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4863e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6484e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9366e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0498e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2319e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9869e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7021e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6677e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8195e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0796e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1643e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3445e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5491e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1915e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2908e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2717e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3379e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6094e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8412e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9909e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8863e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6212e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9140e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1656e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6492e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4643e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8433e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2981e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3909e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5830e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9904e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3577e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4372e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1989e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0510e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5765e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1676e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6750e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7419e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3777e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0075e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7067e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1016e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8393e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9009e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2842e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+1.710306370301437e-05
+changing lr
+epoch 51, time 356.93, cls_loss 0.0081
+306
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9749e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1617e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7021e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1782e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4623e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7816e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8199e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5101e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0135e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9009e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6816e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7577e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0166e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6882e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4710e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2650e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8194e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3471e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5279e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5227e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8412e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3095e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7862e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3247e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8690e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4533e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8352e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0610e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0597e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4041e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1742e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2775e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2254e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0710e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6690e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2253e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6630e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6095e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7948e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2093e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6075e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9049e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7843e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3114e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4603e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7518e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8577e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9339e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4080e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0294e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1458e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2717e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7836e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8809e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0731e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1146e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8610e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2121e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0663e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2981e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2848e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4438e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0802e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1451e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6987e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2385e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0252e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4902e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0028e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1285e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1484e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2550e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7181e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7047e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1067e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4922e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0498e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3677e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7803e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4121e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2471e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6371e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2954e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2279e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8293e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4663e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7219e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4836e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5446e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8201e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1856e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5564e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6691e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+1.5446867550656765e-05
+changing lr
+epoch 52, time 357.03, cls_loss 0.0026
+306
+cls_loss: tensor(2.4100e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3228e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0664e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2465e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6559e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7862e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6361e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7949e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9809e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6955e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1590e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7724e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2122e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0351e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0749e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7101e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6531e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3192e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9540e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6108e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6399e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6227e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4988e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4041e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3133e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0371e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0550e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3444e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2537e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3063e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2585e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5771e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1358e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3186e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1656e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6325e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7751e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8743e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3294e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7949e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9200e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1444e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1206e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6399e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5159e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6758e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1791e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2518e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2579e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7194e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6332e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6095e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0033e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8080e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9160e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9830e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1989e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7333e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8917e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2974e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5365e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1652e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2519e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5498e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4175e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5650e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6003e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5658e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8360e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0202e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6029e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8015e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0465e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2518e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8014e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8611e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1975e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2199e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2775e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4637e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3967e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7625e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2153e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3100e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5365e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+1.3860256808630425e-05
+changing lr
+epoch 53, time 357.45, cls_loss 0.0030
+306
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5831e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3048e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0590e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4815e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8020e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1525e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5532e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0664e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4604e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5869e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4373e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0407e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0995e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4639e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5354e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0034e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2616e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7796e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8147e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3778e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6359e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4968e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2259e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6232e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7565e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9869e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8942e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3711e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0002e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8479e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0464e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4458e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3975e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5133e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0665e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3550e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3975e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3976e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7685e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1923e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1299e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0464e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3181e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2717e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4174e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1424e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5491e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3083e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6279e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9016e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3678e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8948e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9606e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0881e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6095e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3484e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1193e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0610e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9909e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7286e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9544e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1265e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3379e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3987e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6212e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6758e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2333e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7484e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7259e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0930e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4325e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4563e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5585e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1347e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0187e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3530e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2358e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5908e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1656e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0399e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0332e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8944e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7399e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8179e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3313e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5797e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2386e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2850e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2785e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2677e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+1.2346426699819455e-05
+changing lr
+epoch 54, time 356.20, cls_loss 0.0051
+306
+cls_loss: tensor(9.9719e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2466e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0929e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9948e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3505e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6426e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0703e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1756e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7154e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7372e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3910e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2895e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1802e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1022e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1424e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7352e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4440e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4374e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6339e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8148e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3777e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0808e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4116e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2652e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1186e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4742e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8280e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6431e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9008e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9010e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8080e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8280e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2320e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5452e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4312e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1061e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7869e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8611e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0888e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9737e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5153e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1115e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1630e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4643e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6240e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1988e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1683e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9749e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4439e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1326e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7904, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0345e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8219e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0200e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9008e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1458e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3658e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2916e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9771e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8908e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8213e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0332e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9540e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8610e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7916e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0943e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0599e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1015e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3697e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2320e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7365e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3486e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7047e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+1.0908425876598507e-05
+changing lr
+epoch 55, time 356.09, cls_loss 0.0136
+306
+cls_loss: tensor(3.6001e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6493e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2307e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3041e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5167e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2081e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1730e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3550e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0717e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1261e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2187e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2055e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2385e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0465e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2850e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5698e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8213e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6102e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7790e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4835e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5035e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9008e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6200e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5644e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7135e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4572e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1895e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6028e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0267e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9227e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0981e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4438e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9737e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1193e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2888e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3909e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9976e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6584e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0080e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0955e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5736e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0233e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1525e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2101e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8546e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2955e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8651e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9010e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2982e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5020e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3717e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0531e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0603e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0736e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4802e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2179e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1618e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1285e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2333e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7193e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6738e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9472e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0351e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8876e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9822e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2153e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4676e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4120e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9008e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3499e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8080e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2352e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6941e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2253e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4246e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4704e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4372e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8770e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2585e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7619e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6756e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5174e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2433e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0649e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7219e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5148e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1791e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1656e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0565e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3186e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3049e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3750e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1922e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6669e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6312e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8040e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2616e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4704e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0599e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2835e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6559e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5896e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3977e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3108e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.549150281252631e-06
+changing lr
+epoch 56, time 355.81, cls_loss 0.0036
+306
+cls_loss: tensor(2.1438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6439e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6623e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2590e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3380e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3643e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6360e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2385e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1027e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8082e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8862e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7300e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1136e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0863e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7724e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3685e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1968, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2718e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0073e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6956e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4471e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3584e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2864, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8016e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1392e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8029e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5882e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1724e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7484e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5233e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4261e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0730e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4273e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2519e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1358e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2650e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3941e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9294e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2333e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8213e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8478e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5683e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5102e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2557e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0480e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5248e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2068e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1327e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7869e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1060e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0550e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1265e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8122e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8199e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2391e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1802e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2113e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1802e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7916e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8744e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0664e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0703e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5253e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1590e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7089e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5080e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1988e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2868e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1525e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6955e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7619e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9782e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5326e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9379e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9186e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8690e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5815e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9888e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0797e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6757e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6034e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0929e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7500e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2571e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3379e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4988e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+8.271337313934865e-06
+changing lr
+epoch 57, time 361.23, cls_loss 0.0051
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4552e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8332e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5491e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2387e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0658e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5566e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4969e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5352e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2497e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0466e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2737e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2656e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5080e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4240e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9201e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1062e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4835e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6610e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0704e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8015e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0135e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4174e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6492e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4451e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3983e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2239e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9472e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0629e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7619e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3444e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9869e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0192e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5365e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4352e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0464e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5836e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4835e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7678e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3314e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4173e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2696e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7174e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8213e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4265e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6625e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2848e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8074e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1060e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1623e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9252e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4637e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7751e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7074e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7617e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8116e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3379e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7901e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2651e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4769e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0995e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9935e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2848e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2784e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8763e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1061e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0968e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4842e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1558e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3730e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1458e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8954e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0996e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2326e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7816e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7617e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7452e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1583e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4187e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4241e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7219e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9491e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1001e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8825e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6067e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2809e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6804e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5518e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0134e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2777e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9849e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2584e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1791e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0828e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2254e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+7.077560319906693e-06
+changing lr
+epoch 58, time 364.07, cls_loss 0.0025
+306
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2616e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0478e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3684e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2981e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6882e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1923e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7751e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4505e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7247e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2982e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2994e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2665e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3367e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1379e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7843e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5831e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6624e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3849e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3976e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1047e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1261e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8069e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0532e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8332e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0069e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5815e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8413e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4664e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8220e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4970e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2122e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4373e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4683e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0134e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1392e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6392e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7345e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8120e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5054e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3073e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4067e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6823e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5287e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6029e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9935e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9604e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2121e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8612e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0935e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3697e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6345e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7107e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2650e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5948e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0599e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7464e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1923e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2193e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8279e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3181e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0073e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4902e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3313e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1724e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9584e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2915e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4439e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3778e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8254e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0093e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5035e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6332e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1367e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3981e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5599e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9153e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6010e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1086e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0982e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6458e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9169e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+5.970223407163098e-06
+changing lr
+epoch 59, time 356.49, cls_loss 0.0036
+306
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2254e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1001e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9803e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7458e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9149e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9804e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6027e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1233e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7484e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9729e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5765e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9472e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8532e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0796e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3590e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7485e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2596e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7088e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6895e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1841e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8611e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8348e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5075e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0227e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9405e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1106e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0002e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8703e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5676e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8149e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6717e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8215e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7444e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2451e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3313e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9763e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7226e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4208e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1683e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4378e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0731e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2518e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3153e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7156e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6756e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1782e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1194e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8855e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9109e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9325e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2916e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7021e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6426e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6703e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7219e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7365e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4802e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8413e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1086e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0994e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4716e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4372e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0863e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1543e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8214e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7817e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7551e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0107e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0930e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4392e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5411e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5796e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0848e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2055e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0864e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2970e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1372e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0267e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0439e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7948e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2359e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6387e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6034e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0663e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9009e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6625e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3976e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6577e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+4.9515566048790464e-06
+changing lr
+epoch 60, time 355.95, cls_loss 0.0089
+306
+cls_loss: tensor(2.6246e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0400e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3511e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8412e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4603e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1260e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2147e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0473e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3182e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0128e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4168e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1392e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5300e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8988e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5008e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0797e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0664e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8133e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8280e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0864e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2279e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5036e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8115e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9312e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7392e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6889e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4519e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8160e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0413e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2333e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6610e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1153e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5691e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3371e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3577e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9273e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9745e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5830e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0926, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2916e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9405e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7869e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7175e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5579e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8016e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5698e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9995e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6484e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2981e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7617e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0352e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6360e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1837e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4704e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1948e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7862e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7419e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6253e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8108e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3180e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0531e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6624e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8346e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4340e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3093e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9274e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6623e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3180e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0510e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0387e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7909e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2650e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4373e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3941e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6848e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1908e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7022e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8888e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1982e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3603e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3901e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1133e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1663e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2850e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1856e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8968e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5994e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8412e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8080e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0200e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8040e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4563e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5491e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8656e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4047e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+4.0236113724274705e-06
+changing lr
+epoch 61, time 354.62, cls_loss 0.0018
+306
+cls_loss: tensor(2.9405e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7080e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8745e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8665e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5795e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9842e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9340e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1896e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5597e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8811e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6559e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5896e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8346e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2189e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2253e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1782e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0464e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3623e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0267e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8829e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0629e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2392e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5948e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2981e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4970e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3313e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0471e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3645e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4769e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7287e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2122e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3577e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9391e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0399e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8114e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2785e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3445e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8497e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1327e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8876e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7154e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9168e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2252e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1365e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2564e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1497e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2983e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5612e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4440e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0756e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4625e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2339e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0996e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5234e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1525e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1871e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6823e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4478e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9810e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2651e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4638e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7047e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8281e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6558e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1060e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5432e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8412e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8413e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5234e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5432e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1538e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6710e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1504e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2497e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4954e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1770e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9312e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3419e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2020e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7613e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5365e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5167e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2089e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1525e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8414e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0863e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7398e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4517e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3444e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4373e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2610e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9405e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0788e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5564e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0743e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7538e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1107e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3351e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8850e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+3.188256468013139e-06
+changing lr
+epoch 62, time 356.37, cls_loss 0.0015
+306
+cls_loss: tensor(1.2795e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7802e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8016e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2060e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8517e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3445e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0490e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1989e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9540e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7949e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7134e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7544e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8479e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9181e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9936e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0797e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7896e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8610e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4929e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5703e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3073e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6690e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4968e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6401e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9140e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3206e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8544e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2585e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4815e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5578e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8412e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8213e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5200e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2982e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8485e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9790e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0021e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3643e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2056e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9352e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9538e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3351e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3206e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2981e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3603e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9392e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7346e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8505e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1790e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6432e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2189e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0623, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2161e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3947e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0465e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9141e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2676e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0280e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2055e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8366e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5924e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2586e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9067e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9738e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5657e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6492e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4472e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8677e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9560e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6371e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2751e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7325e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8413e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0002e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8081e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2385e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1630e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3947e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1511e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9658e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2796e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1128e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8140e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0848e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1090, device='cuda:0', grad_fn=<NllLossBackward0>)
+2.4471741852423225e-06
+changing lr
+epoch 63, time 356.08, cls_loss 0.0047
+306
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1346e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8546e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9756e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0398e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4623e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0987e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0332e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9391e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0532e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9379e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9206e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5816e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2511e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9093e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1822e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9207e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3823e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1525e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2472e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6332e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5961e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4380e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9963e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9008e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8082e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4970e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9737e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6756e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6868e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8743e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8830e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0325e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4637e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6294e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1571e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9604e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4174e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6260e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6359e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8014e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9763e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4372e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2319e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8604e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4637e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9630e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2239e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7067e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2122e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1275e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5830e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6949e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0930e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2815e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3115e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1935e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1107e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4373e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4802e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3577e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5332e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3777e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4227e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3444e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3146e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2983e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3967e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8492e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1857e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3067e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0597e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3127e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7419e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7253e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0532e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4571e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0027e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0444e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2252e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8942e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3380e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8199e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8677e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+1.8018569652073373e-06
+changing lr
+epoch 64, time 360.71, cls_loss 0.0015
+306
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3180e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4716e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2207e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3579e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2471e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1060e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2784e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4173e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7465e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3247e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5676e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7974e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4438e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2452e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2008e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7949e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5487e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3379e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3015e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2995e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6253e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6493e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4603e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5385e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4578e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7114e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2451e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4981e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5392e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8672e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1525e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8347e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6094e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0268e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9141e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8148e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8413e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8943e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8279e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0665e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7553e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9206e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3048e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6471e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4968e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8359e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3181e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6392e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8888e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8954e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6095e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8586e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2749e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6067e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9207e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6665e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8306e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0352e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8392e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8968e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8610e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7776e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8817e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2425e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0617e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7830e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2981e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2717e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8544e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7736e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0678e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2969e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4982e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2546e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6293e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9339e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9273e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+1.2536043909088185e-06
+changing lr
+epoch 65, time 356.73, cls_loss 0.0081
+306
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9618e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9034e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8810e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0731e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8745e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7736e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7195e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3444e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3273e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8944e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4166e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2386e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8491e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5558e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3643e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4306e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5612e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3379e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6750e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2387e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2240e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6365e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0629e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2518e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2385e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1386e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7089e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1988e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7941e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7883e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9240e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8412e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7818e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7156e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8809e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7154e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7902e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7485e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3367e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4043e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9273e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5233e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0797e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3808e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1656e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7219e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6691e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9889e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6763e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2074e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2519e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3756e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1326e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3691e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2698e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7553e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2121e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5564e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4829e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0113e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1922e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1166e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7206e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1055e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7491e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4981e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7088e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6690e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0399e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0484e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6558e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7480e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6677e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8346e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9267e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4438e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4054e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4802e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8612e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3319e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3115e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2385e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1897e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5372e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+8.035205700685162e-07
+changing lr
+epoch 66, time 355.86, cls_loss 0.0052
+306
+cls_loss: tensor(8.6427e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1678e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0398e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3643e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0333e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2121e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5226e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1127e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0550e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5703e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6180e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3577e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8876e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8612e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4226e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8001e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7882e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7942e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5366e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0003e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4571e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5564e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8610e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2982e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3909e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2756e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1027e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3519e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2890e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8566e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4983e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8292e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5817e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2239e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3778e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7950e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5048e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3830e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2055e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0798e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1047e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0611e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8811e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7305e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0054e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1326e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4970e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1583e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4637e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6426e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7611e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2598e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8080e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2982e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7453e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4756e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8964e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0273e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2765e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4742e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1857e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8544e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8014e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7685e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3228e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7685e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8281e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7299e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3890e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4592e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4970e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3577e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7419e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0465e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2233e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4444e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0869e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0664e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7551e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9314e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4380e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0703e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5551e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5035e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3444e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5498e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2557e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3828e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3491e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9776e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8259e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3544e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6327e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0201e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+4.525119116032647e-07
+changing lr
+epoch 67, time 360.93, cls_loss 0.0015
+306
+cls_loss: tensor(5.0863e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3292e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2783e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1327e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4637e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0332e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6877e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2717e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5394e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2651e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5630e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9405e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7722e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2512e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7419e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7195e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0796e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7107e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0027e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5168e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0325e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8081e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7313e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0381e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3379e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7239e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1497e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9570e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7332e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0202e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9009e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2857e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0003e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7863e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3232e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0268e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1234e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5036e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8080e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3049e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8207e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7353e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9472e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0994e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2187e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7950e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3802e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0520e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8060e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8241e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8943e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2868e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5564e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8942e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9870e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2783e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2644e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5564e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8279e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7623e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0610e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8153e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5140e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8062e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6987e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3128e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9406e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1756e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0987e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2504e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9392e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0610e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2446e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8346e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0425e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2252e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0724e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9540e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7902e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8412e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7902e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7419e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2743e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0644e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4657e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0995e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1656e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1392e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3325e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2122e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+2.0128530023804648e-07
+changing lr
+epoch 68, time 357.71, cls_loss 0.0022
+306
+cls_loss: tensor(6.7949e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1901e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4835e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8942e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0054e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1988e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3945, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3530e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0665e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3247e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3194e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1146e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5015e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2259e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4260e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7557e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1624e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7617e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2717e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7663e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2153e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0465e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1724e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0863e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3505e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0532e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8147e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0201e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5239e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0186e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6624e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3590e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3093e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1603e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1623e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6624e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0611e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0995e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7472e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7950e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9956e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2340e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5035e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6252e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1444e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6371e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4458e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2193e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0214e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7015e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1643e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0398e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8359e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4849e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0881e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6360e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0351e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2378e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4638e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2056e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5903e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8215e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9803e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6027e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2100e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4187e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0566e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3458e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0599e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0167e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4332e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0571e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6963e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6061e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1392e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2677e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4440e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3240e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0053e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2188e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6425e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3431e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4836e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9386e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6094e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7287e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1962e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+5.03466729342705e-08
+changing lr
+epoch 69, time 357.42, cls_loss 0.0029
+---------------------saving last model at epoch 69----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5', 'source_domain': 'art_painting', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/art_painting_16factor_last_test_check.csv', 'factor_num': 16, 'epoch': 'last', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of last
+columns: ['art_painting', 'cartoon', 'photo', 'sketch']
+x.shape: (2048, 227, 227, 3)
+x_aug test here torch.Size([2048, 3, 227, 227])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+x.shape: (2344, 227, 227, 3)
+x_aug test here torch.Size([2344, 3, 227, 227])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+x.shape: (1670, 227, 227, 3)
+x_aug test here torch.Size([1670, 3, 227, 227])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+x.shape: (3929, 227, 227, 3)
+x_aug test here torch.Size([3929, 3, 227, 227])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+                     art_painting    cartoon      photo     sketch        Avg
+w/o do (original x)     88.916016  58.020478  81.497006  50.572665  63.363383
diff --git a/Meta-causal/code-stage1-pipeline/56456.error b/Meta-causal/code-stage1-pipeline/56456.error
new file mode 100644
index 0000000000000000000000000000000000000000..b85c3d299f0714adaa84ad7c6716dd4d92fba1c2
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/56456.error
@@ -0,0 +1,3 @@
+slurmstepd: error: *** JOB 56456 ON gcpl4-eu-1 CANCELLED AT 2024-07-04T07:05:01 DUE TO TIME LIMIT ***
+slurmstepd: error: *** STEP 56456.0 ON gcpl4-eu-1 CANCELLED AT 2024-07-04T07:05:01 DUE TO TIME LIMIT ***
+srun: Job step aborted: Waiting up to 32 seconds for job step to finish.
diff --git a/Meta-causal/code-stage1-pipeline/56456.log b/Meta-causal/code-stage1-pipeline/56456.log
new file mode 100644
index 0000000000000000000000000000000000000000..0219e07a418a32f1d9a7d4547364102ea57bbb24
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/56456.log
@@ -0,0 +1,24798 @@
+/home/yuqian_fu
+{'gpu': '0', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 500, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+x.shape: torch.Size([10000, 3, 32, 32])
+x_aug train here torch.Size([10000, 3, 32, 32])
+--------------------------CA_multiple--------------------------
+---------------------------14 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+100
+cls_loss: tensor(2.2975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2845, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2679, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1931, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2691, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1978, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9986, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1789, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9678, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0623, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7691, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8969, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5358, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 184.48, cls_loss 2.0572
+100
+cls_loss: tensor(1.5558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7955, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7916, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0915, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6788, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4991, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5769, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4912, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5886, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4725, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8837, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8933, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 1, time 182.25, cls_loss 1.6321
+100
+cls_loss: tensor(1.5194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6907, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2837, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6649, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6905, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3994, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2960, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4701, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2084, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 2, time 183.56, cls_loss 1.4163
+100
+cls_loss: tensor(1.2069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3915, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1712, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9564, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9851, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3825, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1586, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9933, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0832, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0912, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2923, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1978, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2927, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3991, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 3, time 183.41, cls_loss 1.2737
+100
+cls_loss: tensor(1.1341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3728, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2809, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3607, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2564, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1837, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0960, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3555, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0998, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0944, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5531, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 4, time 182.84, cls_loss 1.2137
+100
+cls_loss: tensor(1.4209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0801, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1953, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0595, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0991, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8956, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8956, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2986, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0788, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1425, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 5, time 182.60, cls_loss 1.1255
+100
+cls_loss: tensor(0.9153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1789, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5997, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1892, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1884, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8991, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7850, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9712, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1808, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2923, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8916, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0637, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 6, time 182.96, cls_loss 1.0495
+100
+cls_loss: tensor(1.4299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7780, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6793, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0649, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9550, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9980, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 7, time 182.96, cls_loss 1.0033
+100
+cls_loss: tensor(0.8280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8940, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1884, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9982, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7902, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5962, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9277, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 8, time 183.71, cls_loss 0.9300
+100
+cls_loss: tensor(1.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0649, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9595, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9960, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9662, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8000, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8997, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6777, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6788, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1883, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 9, time 183.26, cls_loss 0.8857
+100
+cls_loss: tensor(0.8764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7777, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6691, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1794, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5982, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6920, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9595, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4957, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8902, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6944, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0565, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8925, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8968, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6785, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2786, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7179, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 10, time 183.13, cls_loss 0.8474
+100
+cls_loss: tensor(0.5607, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5923, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3963, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6969, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4931, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8928, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8953, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6623, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5845, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9662, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6933, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8871, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7986, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1940, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7300, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 11----------------------------------------------------
+epoch 11, time 183.26, cls_loss 0.8124
+100
+cls_loss: tensor(0.8014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7595, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4960, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8000, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8000, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4838, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7287, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 12, time 183.80, cls_loss 0.7501
+100
+cls_loss: tensor(1.1947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6565, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6869, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7692, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6842, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0996, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6940, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6537, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 13, time 183.47, cls_loss 0.7426
+100
+cls_loss: tensor(0.9129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7837, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6786, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2838, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2904, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8969, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4982, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6944, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4884, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6873, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7930, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8074, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 14, time 182.69, cls_loss 0.6840
+100
+cls_loss: tensor(0.4868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6748, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6951, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7769, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7905, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1957, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5793, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6930, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5770, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3695, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5905, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4788, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6861, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4926, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6831, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5004, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 15, time 182.20, cls_loss 0.6795
+100
+cls_loss: tensor(0.6640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3869, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8956, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4969, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3691, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8806, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5930, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3910, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5892, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7586, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4358, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 16, time 182.74, cls_loss 0.5845
+100
+cls_loss: tensor(0.6800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6915, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5000, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9662, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2968, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3679, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4962, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7715, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 17, time 182.30, cls_loss 0.5823
+100
+cls_loss: tensor(0.5717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2942, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3982, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5931, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4607, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6948, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4960, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5607, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7051, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 18, time 182.94, cls_loss 0.5565
+100
+cls_loss: tensor(0.8004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3920, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8000, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5926, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4998, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3842, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5962, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5725, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2712, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4801, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4723, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6991, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2680, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 19, time 183.04, cls_loss 0.5575
+100
+cls_loss: tensor(0.6149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4769, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3786, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3978, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3961, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6923, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4912, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3959, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5915, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7933, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4649, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4962, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3886, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2976, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7631, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4592, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 20, time 182.50, cls_loss 0.5078
+100
+cls_loss: tensor(0.3351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5934, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6564, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4910, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3929, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5649, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5838, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3929, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4778, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3997, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2679, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4678, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4991, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 21, time 182.53, cls_loss 0.4780
+100
+cls_loss: tensor(0.5946, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6907, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5902, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3945, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5649, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5931, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5743, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1746, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2793, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2982, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3000, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3842, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7080, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 22, time 182.15, cls_loss 0.4635
+100
+cls_loss: tensor(0.4381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4743, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3905, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5842, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1586, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4838, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2934, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1746, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6942, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3939, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4770, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2347, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 23, time 180.67, cls_loss 0.4375
+100
+cls_loss: tensor(0.3127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3754, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3979, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2952, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4845, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1956, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3961, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3845, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5649, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3928, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4927, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3886, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 24, time 180.55, cls_loss 0.4255
+100
+cls_loss: tensor(0.4367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6905, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6961, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1910, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2961, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2692, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5639, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1468, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 25, time 180.21, cls_loss 0.3821
+100
+cls_loss: tensor(0.4193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3912, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5951, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5982, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4623, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3746, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3956, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1944, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3695, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1905, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2825, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5961, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3341, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 26, time 180.73, cls_loss 0.3916
+100
+cls_loss: tensor(0.3168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4969, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3904, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1945, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4788, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3712, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3678, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3848, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4942, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3793, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4728, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2916, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2905, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2318, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 27, time 180.85, cls_loss 0.3633
+100
+cls_loss: tensor(0.4510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2851, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1837, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3832, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1809, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2934, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1925, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4871, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2907, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1832, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1950, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 28, time 181.01, cls_loss 0.3164
+100
+cls_loss: tensor(0.4032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1986, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2916, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2586, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3986, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3631, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1915, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3907, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1957, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4149, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 29, time 180.94, cls_loss 0.3405
+100
+cls_loss: tensor(0.2687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1832, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3955, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1998, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2831, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2976, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1695, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3931, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2835, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1953, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4946, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4808, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3980, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2942, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2549, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 30, time 180.76, cls_loss 0.3251
+100
+cls_loss: tensor(0.3253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1770, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1978, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4962, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1923, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1873, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3769, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1942, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2952, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1487, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 31, time 180.98, cls_loss 0.3065
+100
+cls_loss: tensor(0.2163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0586, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3884, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4842, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1892, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1946, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3998, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2595, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0788, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2159, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 32, time 180.92, cls_loss 0.2573
+100
+cls_loss: tensor(0.5187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3780, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4555, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6692, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0946, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0910, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1835, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3835, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2921, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1808, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6725, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1335, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 33, time 180.55, cls_loss 0.2864
+100
+cls_loss: tensor(0.0954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0825, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1793, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2728, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0691, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1788, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3957, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1905, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0939, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3851, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1845, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2770, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2933, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2925, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1591, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 34, time 181.01, cls_loss 0.2477
+100
+cls_loss: tensor(0.2219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1907, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1916, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2956, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2695, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1869, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5929, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0550, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4948, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2051, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 35, time 180.79, cls_loss 0.2699
+100
+cls_loss: tensor(0.1293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1786, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4851, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3962, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3786, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0825, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1848, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2773, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0927, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2957, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4994, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0946, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1228, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 36, time 180.57, cls_loss 0.2638
+100
+cls_loss: tensor(0.4190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4801, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1695, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0986, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4712, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2927, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2777, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0754, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2851, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2787, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 37, time 180.99, cls_loss 0.2365
+100
+cls_loss: tensor(0.1717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1886, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2809, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2789, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1743, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4944, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1607, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2639, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1886, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1825, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1893, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 38, time 181.18, cls_loss 0.2396
+100
+cls_loss: tensor(0.2385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0979, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1808, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3980, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1944, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1929, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2789, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2948, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3695, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1789, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1930, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1397, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 39, time 180.88, cls_loss 0.2110
+100
+cls_loss: tensor(0.3090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0564, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0777, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0869, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1907, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0994, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0842, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2809, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1925, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3969, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1048, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 40, time 180.62, cls_loss 0.1737
+100
+cls_loss: tensor(0.1678, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3962, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0957, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2996, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1979, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1748, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1712, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1871, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1845, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1923, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0996, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1996, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2743, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0838, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2040, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 41, time 180.57, cls_loss 0.2038
+100
+cls_loss: tensor(0.1779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0725, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1934, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1728, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1953, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2793, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1979, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1801, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2869, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1952, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0915, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2607, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4728, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1595, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2825, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0945, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 42, time 180.72, cls_loss 0.1968
+100
+cls_loss: tensor(0.0702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0850, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1770, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2969, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0953, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0957, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2939, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0806, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2835, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1025, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 43, time 180.74, cls_loss 0.1963
+100
+cls_loss: tensor(0.3599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1777, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1832, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1928, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1912, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1978, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0905, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1691, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2816, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0754, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 44, time 180.85, cls_loss 0.1777
+100
+cls_loss: tensor(0.2576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2884, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1639, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0773, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1838, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1748, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0942, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0832, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0957, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1808, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1902, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0978, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1899, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 45, time 180.80, cls_loss 0.1613
+100
+cls_loss: tensor(0.3567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0986, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1902, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1801, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1623, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2915, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1916, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3939, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1564, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1837, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1986, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0842, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0842, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1078, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 46, time 181.06, cls_loss 0.1712
+100
+cls_loss: tensor(0.2654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0912, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1980, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2380, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0944, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0565, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1550, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0564, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0900, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 47, time 181.14, cls_loss 0.1416
+100
+cls_loss: tensor(0.1081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1564, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0516, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0639, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1939, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0808, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0778, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0952, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1623, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0926, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1947, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 48, time 180.71, cls_loss 0.1491
+100
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1809, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1837, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0850, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0816, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1845, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0639, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1944, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1725, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1755, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 49, time 180.66, cls_loss 0.1595
+100
+cls_loss: tensor(0.0592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1801, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0516, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0962, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0780, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0930, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0595, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0915, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0816, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1564, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1836, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 50, time 180.78, cls_loss 0.1485
+100
+cls_loss: tensor(0.1528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0842, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1944, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0595, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2956, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2000, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3595, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0959, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0806, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3948, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0831, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 51, time 180.70, cls_loss 0.1875
+100
+cls_loss: tensor(0.1294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1959, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2961, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1825, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0959, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1915, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1712, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1104, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 52, time 180.53, cls_loss 0.1500
+100
+cls_loss: tensor(0.1742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0961, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0979, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0962, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0869, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 53, time 180.72, cls_loss 0.1404
+100
+cls_loss: tensor(0.0987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0701, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0639, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1380, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1915, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0929, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0678, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1930, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0976, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2732, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 54, time 180.79, cls_loss 0.1201
+100
+cls_loss: tensor(0.0726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2892, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1649, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1816, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0892, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0948, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1869, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1712, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0884, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1194, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 55, time 180.78, cls_loss 0.1276
+100
+cls_loss: tensor(0.1962, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2842, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2754, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1951, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3754, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0912, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1801, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0555, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0905, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0801, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1024, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 56, time 180.85, cls_loss 0.1206
+100
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0916, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0725, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0816, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2679, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2997, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0723, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2743, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2939, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0916, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1239, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 57, time 180.62, cls_loss 0.1216
+100
+cls_loss: tensor(0.0997, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1723, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0701, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0777, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2957, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1916, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0806, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0996, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1997, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0957, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1564, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1595, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0516, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1797, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 58, time 180.77, cls_loss 0.1272
+100
+cls_loss: tensor(0.0694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0586, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2923, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0678, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0848, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0869, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0793, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0930, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 59, time 180.92, cls_loss 0.1357
+100
+cls_loss: tensor(0.0366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0816, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0991, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0873, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0725, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0801, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0929, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3516, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 60, time 180.26, cls_loss 0.1066
+100
+cls_loss: tensor(0.1829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3998, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1695, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0902, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1962, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1728, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1915, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0960, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0809, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0806, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3367, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 61, time 180.80, cls_loss 0.1077
+100
+cls_loss: tensor(0.1063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1770, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1871, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0997, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0871, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0746, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1788, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2929, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0793, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 62, time 180.84, cls_loss 0.1309
+100
+cls_loss: tensor(0.3423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0678, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0816, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1884, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0777, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0780, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0809, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1748, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1516, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0940, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0871, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1401, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 63, time 180.60, cls_loss 0.1120
+100
+cls_loss: tensor(0.0838, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2962, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1968, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1816, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1725, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0769, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1071, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 64, time 181.00, cls_loss 0.1222
+100
+cls_loss: tensor(0.0332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0806, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0837, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4380, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4835, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2639, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1651, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 65, time 180.81, cls_loss 0.1110
+100
+cls_loss: tensor(0.2858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1770, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1728, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1639, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1832, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0886, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0785, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0873, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1557, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 66, time 180.77, cls_loss 0.1078
+100
+cls_loss: tensor(0.1173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0934, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0980, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1701, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1769, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0701, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0921, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0855, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 67, time 180.73, cls_loss 0.1101
+100
+cls_loss: tensor(0.1847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0951, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1748, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0586, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1649, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0695, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1931, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0754, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0748, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0869, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 68, time 180.92, cls_loss 0.0807
+100
+cls_loss: tensor(0.0316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1991, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0832, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0997, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0930, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0832, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0494, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 69, time 180.74, cls_loss 0.0841
+100
+cls_loss: tensor(0.0611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2701, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1837, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0639, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0746, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0789, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1851, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0788, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 70, time 180.29, cls_loss 0.0776
+100
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0842, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0921, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0884, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2929, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1848, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0928, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0586, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0330, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 71, time 180.49, cls_loss 0.0906
+100
+cls_loss: tensor(0.1061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1516, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0773, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0595, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0942, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0961, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1951, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0861, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0961, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0801, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0939, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0982, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 72, time 180.89, cls_loss 0.1042
+100
+cls_loss: tensor(0.0868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2595, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1516, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0746, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0773, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1942, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1944, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1945, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1615, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 73, time 180.75, cls_loss 0.0955
+100
+cls_loss: tensor(0.2029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0976, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1832, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0925, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1953, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0748, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2595, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0902, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0886, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 74, time 180.40, cls_loss 0.0924
+100
+cls_loss: tensor(0.1379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0915, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1991, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0848, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0920, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1636, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 75, time 180.41, cls_loss 0.0954
+100
+cls_loss: tensor(0.0561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3777, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1785, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0963, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1777, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0957, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1692, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0712, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1008, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 76, time 180.39, cls_loss 0.0967
+100
+cls_loss: tensor(0.0499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2912, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0902, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0884, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1712, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1586, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0808, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0599, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 77, time 180.43, cls_loss 0.0833
+100
+cls_loss: tensor(0.0454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1892, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1838, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0586, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1905, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 78, time 180.16, cls_loss 0.0689
+100
+cls_loss: tensor(0.0625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0555, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0725, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0725, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0777, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0892, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2816, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0816, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1845, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1778, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0871, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0272, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 79, time 180.22, cls_loss 0.0866
+100
+cls_loss: tensor(0.0598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0789, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1565, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1871, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1963, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1380, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0961, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0786, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0692, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0979, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0516, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0571, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 80, time 180.45, cls_loss 0.0876
+100
+cls_loss: tensor(0.1285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1963, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0968, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0728, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0991, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0816, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0861, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1825, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0847, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 81, time 180.23, cls_loss 0.0722
+100
+cls_loss: tensor(0.0527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1905, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0850, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1631, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1712, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0773, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0816, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0968, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0801, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0717, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 82, time 180.44, cls_loss 0.0746
+100
+cls_loss: tensor(0.0291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2923, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0997, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0997, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1976, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0848, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1383, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 83, time 180.69, cls_loss 0.0826
+100
+cls_loss: tensor(0.1176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2945, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1769, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0850, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0695, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0785, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0701, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1785, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1929, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0390, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 84, time 180.71, cls_loss 0.0726
+100
+cls_loss: tensor(0.1768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0773, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0678, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0996, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 85, time 180.60, cls_loss 0.0607
+100
+cls_loss: tensor(0.0556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0963, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0962, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1793, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0801, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0695, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0327, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 86, time 180.74, cls_loss 0.0742
+100
+cls_loss: tensor(0.0751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0623, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1851, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0679, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0986, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0921, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0897, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 87, time 180.07, cls_loss 0.0698
+100
+cls_loss: tensor(0.0557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1728, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0871, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 88, time 180.15, cls_loss 0.0637
+100
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0963, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0808, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0806, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0788, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2098, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 89, time 180.65, cls_loss 0.0693
+100
+cls_loss: tensor(0.0730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0930, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6639, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1927, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0953, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0998, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0244, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 90, time 180.47, cls_loss 0.0744
+100
+cls_loss: tensor(0.2393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0916, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0649, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0586, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0754, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0915, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0793, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0942, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5793, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0555, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0725, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1240, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 91, time 180.53, cls_loss 0.0857
+100
+cls_loss: tensor(0.1043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1631, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0631, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1991, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0746, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0780, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 92, time 180.45, cls_loss 0.0753
+100
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1952, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0986, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0933, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0802, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 93, time 180.53, cls_loss 0.0573
+100
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0939, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0976, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0788, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0380, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1212, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 94, time 180.19, cls_loss 0.0624
+100
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0835, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0769, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0679, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0381, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 95, time 180.07, cls_loss 0.0549
+100
+cls_loss: tensor(0.0436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0931, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0915, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0831, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0657, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 96, time 180.14, cls_loss 0.0583
+100
+cls_loss: tensor(0.1467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1996, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0769, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0986, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0953, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0979, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1172, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 97, time 180.57, cls_loss 0.0686
+100
+cls_loss: tensor(0.0316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0845, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0550, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3991, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0861, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0748, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0905, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 98, time 180.56, cls_loss 0.0737
+100
+cls_loss: tensor(0.0393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0748, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1978, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0955, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0332, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 99, time 180.29, cls_loss 0.0943
+100
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0712, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0794, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2808, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0808, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0794, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0986, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1957, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0952, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0743, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 100, time 180.17, cls_loss 0.0965
+100
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0916, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2832, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0952, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0952, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3842, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1194, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 101, time 180.48, cls_loss 0.0919
+100
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1555, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2873, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2770, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0926, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1586, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1378, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 102, time 180.69, cls_loss 0.0643
+100
+cls_loss: tensor(0.0392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0892, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0929, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0702, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 103, time 180.79, cls_loss 0.0469
+100
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0923, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0980, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0850, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0793, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 104, time 180.41, cls_loss 0.0439
+100
+cls_loss: tensor(0.0350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0678, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0934, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0994, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1890, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 105, time 180.22, cls_loss 0.0617
+100
+cls_loss: tensor(0.0821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0959, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0996, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0962, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 106, time 180.38, cls_loss 0.0562
+100
+cls_loss: tensor(0.0805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0832, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0586, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1577, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 107, time 180.43, cls_loss 0.0510
+100
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9976e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1245, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 108, time 180.59, cls_loss 0.0550
+100
+cls_loss: tensor(0.2173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0978, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0550, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0861, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0927, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0933, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0842, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0743, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0978, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 109, time 180.65, cls_loss 0.0556
+100
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0930, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1998, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0801, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0728, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 110, time 180.21, cls_loss 0.0514
+100
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0380, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0976, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0679, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0701, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0928, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2978, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0884, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 111, time 180.58, cls_loss 0.0699
+100
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0905, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1565, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0832, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2940, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 112, time 180.32, cls_loss 0.0705
+100
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0809, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0996, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0931, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0996, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0450, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 113, time 180.52, cls_loss 0.0669
+100
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0550, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1902, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4912, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2678, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0676, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 114, time 180.25, cls_loss 0.0758
+100
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0921, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1902, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1457, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 115, time 180.34, cls_loss 0.0879
+100
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1921, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0639, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0845, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0631, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1014, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 116, time 180.64, cls_loss 0.0596
+100
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0809, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0746, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0928, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0994, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 117, time 180.49, cls_loss 0.0614
+100
+cls_loss: tensor(0.0862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0649, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0842, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0789, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0955, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 118, time 180.43, cls_loss 0.0585
+100
+cls_loss: tensor(0.0385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1902, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0934, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0873, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1926, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 119, time 180.82, cls_loss 0.0526
+100
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0942, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0773, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0945, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0363, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 120, time 180.33, cls_loss 0.0412
+100
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0607, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0725, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0998, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0910, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 121, time 180.50, cls_loss 0.0300
+100
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2380, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0565, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 122, time 180.39, cls_loss 0.0516
+100
+cls_loss: tensor(0.0969, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0848, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0926, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1743, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 123, time 180.64, cls_loss 0.0569
+100
+cls_loss: tensor(0.0757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0994, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1801, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0835, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2920, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1806, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 124, time 180.72, cls_loss 0.0822
+100
+cls_loss: tensor(0.1284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1649, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0976, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1794, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2770, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0662, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0996, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0940, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0690, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 125, time 180.57, cls_loss 0.0957
+100
+cls_loss: tensor(0.0561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0963, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0957, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0928, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0916, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0754, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0997, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1946, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0902, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0785, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1104, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 126, time 180.33, cls_loss 0.0616
+100
+cls_loss: tensor(0.1034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0778, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0746, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0864, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0998, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 127, time 180.60, cls_loss 0.0773
+100
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0516, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0942, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 128, time 180.13, cls_loss 0.0676
+100
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0978, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0773, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0905, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0929, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0678, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0892, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 129, time 180.46, cls_loss 0.0579
+100
+cls_loss: tensor(0.0499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0884, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0712, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0550, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0959, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0820, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 130, time 180.34, cls_loss 0.0499
+100
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0793, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0978, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0607, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0691, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0948, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 131, time 180.47, cls_loss 0.0486
+100
+cls_loss: tensor(0.1106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 132----------------------------------------------------
+epoch 132, time 180.57, cls_loss 0.0416
+100
+cls_loss: tensor(0.0626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0953, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0837, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0773, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1902, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0816, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0968, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 133, time 180.39, cls_loss 0.0443
+100
+cls_loss: tensor(0.1028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1748, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 134, time 180.42, cls_loss 0.0399
+100
+cls_loss: tensor(0.0557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1920, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0963, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1746, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0610, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 135, time 180.67, cls_loss 0.0452
+100
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1692, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1639, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 136, time 180.61, cls_loss 0.0362
+100
+cls_loss: tensor(0.0709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0944, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0864, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0910, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1934, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0902, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1289, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 137, time 180.79, cls_loss 0.0508
+100
+cls_loss: tensor(0.0985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0991, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0925, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0957, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1380, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0373, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 138, time 181.22, cls_loss 0.0511
+100
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0978, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0819, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 139, time 180.59, cls_loss 0.0421
+100
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 140, time 180.32, cls_loss 0.0275
+100
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0794, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0565, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0786, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9709e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 141, time 180.31, cls_loss 0.0324
+100
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0969, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1000, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0915, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 142, time 180.23, cls_loss 0.0257
+100
+cls_loss: tensor(0.1236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0835, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0789, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0845, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0516, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 143, time 181.43, cls_loss 0.0335
+100
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0910, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0997, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0566, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 144, time 180.43, cls_loss 0.0344
+100
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0979, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1748, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0777, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0961, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 145, time 180.23, cls_loss 0.0589
+100
+cls_loss: tensor(0.0715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0851, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1945, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0662, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 146, time 180.44, cls_loss 0.0921
+100
+cls_loss: tensor(0.0792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0769, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1801, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0944, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0910, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0678, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1676, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 147, time 180.31, cls_loss 0.0741
+100
+cls_loss: tensor(0.0678, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0778, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1565, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0845, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0982, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1925, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0807, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 148, time 180.17, cls_loss 0.0496
+100
+cls_loss: tensor(0.0654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0785, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0902, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0969, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 149, time 180.29, cls_loss 0.0786
+100
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0962, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0695, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0565, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0678, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2305, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 150, time 180.50, cls_loss 0.0562
+100
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5379e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0809, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 151, time 180.18, cls_loss 0.0525
+100
+cls_loss: tensor(0.1309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1000, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0806, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1851, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 152, time 180.08, cls_loss 0.0569
+100
+cls_loss: tensor(0.1546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0910, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0980, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 153, time 180.41, cls_loss 0.0456
+100
+cls_loss: tensor(0.1133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1649, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0595, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0788, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0752, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 154, time 180.49, cls_loss 0.0422
+100
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0789, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0587, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 155, time 180.16, cls_loss 0.0341
+100
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0921, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0929, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0678, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0450, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 156, time 180.28, cls_loss 0.0499
+100
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0931, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1934, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1555, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0754, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0850, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1770, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 157, time 180.11, cls_loss 0.0500
+100
+cls_loss: tensor(0.1505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0951, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0631, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0550, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0607, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 158, time 179.91, cls_loss 0.0545
+100
+cls_loss: tensor(0.0326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0701, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0945, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3078e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 159, time 180.14, cls_loss 0.0288
+100
+cls_loss: tensor(0.0953, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1931, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0832, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 160, time 180.46, cls_loss 0.0381
+100
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0910, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0725, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0516, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8570e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0963, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0679, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 161, time 180.24, cls_loss 0.0295
+100
+cls_loss: tensor(0.0519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1639, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7064e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0728, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 162, time 180.45, cls_loss 0.0276
+100
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0712, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0695, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0728, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0893, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 163, time 180.50, cls_loss 0.0598
+100
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1956, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0565, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1884, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0963, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 164, time 179.98, cls_loss 0.0356
+100
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9004e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0961, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 165, time 180.25, cls_loss 0.0409
+100
+cls_loss: tensor(0.0956, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0754, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0785, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2832, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1801, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 166, time 180.21, cls_loss 0.0437
+100
+cls_loss: tensor(0.0547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1586, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0915, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0929, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0631, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2785, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0662, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 167, time 180.17, cls_loss 0.0596
+100
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0794, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3334e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0944, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0838, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1504, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 168, time 180.37, cls_loss 0.0458
+100
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0785, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0957, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 169, time 180.19, cls_loss 0.0429
+100
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0770, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0912, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 170, time 180.15, cls_loss 0.0411
+100
+cls_loss: tensor(0.0968, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0946, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1871, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6757e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1777, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0851, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0789, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0679, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0550, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 171, time 180.45, cls_loss 0.0581
+100
+cls_loss: tensor(0.1085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0679, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1000, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0940, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0926, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 172, time 180.02, cls_loss 0.0511
+100
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0816, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1978, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1639, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 173, time 180.13, cls_loss 0.0536
+100
+cls_loss: tensor(0.0395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0692, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0864, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 174, time 180.37, cls_loss 0.0752
+100
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0595, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 175, time 180.28, cls_loss 0.0458
+100
+cls_loss: tensor(0.0442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0933, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1845, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0956, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1892, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0976, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 176, time 180.26, cls_loss 0.0505
+100
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0835, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1526e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0910, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1869, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0793, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0777, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0907, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0850, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 177, time 180.48, cls_loss 0.0529
+100
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0945, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0926, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3770, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 178, time 180.32, cls_loss 0.0321
+100
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0940, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1996, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0679, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0986, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0946, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 179, time 180.33, cls_loss 0.0502
+100
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1986, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0933, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 180, time 180.28, cls_loss 0.0428
+100
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5527e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1761e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0501, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 181, time 180.35, cls_loss 0.0185
+100
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1193e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1700e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0832, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7041e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0871, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 182, time 180.06, cls_loss 0.0326
+100
+cls_loss: tensor(9.0167e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0692, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2464e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 183, time 180.02, cls_loss 0.0301
+100
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4274e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4227e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0945, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2458e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0678, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0777, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0789, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 184, time 180.22, cls_loss 0.0315
+100
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0942, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9432e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0780, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4584e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0944, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0785, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0991, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7288e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0789, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 185, time 180.08, cls_loss 0.0269
+100
+cls_loss: tensor(0.1392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0927, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0801, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2809, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7020e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0837, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 186, time 180.11, cls_loss 0.0360
+100
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8139e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0550, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0948, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0623, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0869, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0940, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0939, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 187, time 180.14, cls_loss 0.0498
+100
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8137e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7596e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0873, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1920, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0770, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0904, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3886, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0679, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 188----------------------------------------------------
+epoch 188, time 180.24, cls_loss 0.0643
+100
+cls_loss: tensor(0.0556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0789, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0801, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0565, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0831, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9241e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0911, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 189, time 180.16, cls_loss 0.0654
+100
+cls_loss: tensor(0.0592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0773, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1959, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0845, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0800, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 190, time 180.39, cls_loss 0.0545
+100
+cls_loss: tensor(0.0348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0831, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0825, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0969, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0951, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 191, time 180.57, cls_loss 0.0361
+100
+cls_loss: tensor(0.0876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0631, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1555, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 192, time 180.43, cls_loss 0.0263
+100
+cls_loss: tensor(0.0973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0748, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0691, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0915, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0555, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0865e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1691, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0850, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0955, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 193, time 180.56, cls_loss 0.0433
+100
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0996, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0725, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0725, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 194, time 180.25, cls_loss 0.0324
+100
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 195, time 180.48, cls_loss 0.0177
+100
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1851, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5646e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0243e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5162e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0998, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1701, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0838, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0695, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0994, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6709e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 196, time 180.02, cls_loss 0.0236
+100
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8347e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0969, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 197, time 180.89, cls_loss 0.0201
+100
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9261e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6776e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6946e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8163e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6428e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2995e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4242e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0838, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3556e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2960e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7003e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0284, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 198, time 181.50, cls_loss 0.0188
+100
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6505e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1930, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0934, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6448e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5627e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 199, time 180.80, cls_loss 0.0253
+100
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1419e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6422e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5747e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9200e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7763e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2530e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0994, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7474e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4786e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2848e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0968, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1712, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 200, time 180.90, cls_loss 0.0206
+100
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9109e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1000, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0980, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0878e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7488e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1816e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 201, time 181.38, cls_loss 0.0196
+100
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1746, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3553e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0743, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0649, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5206e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4576e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 202, time 181.31, cls_loss 0.0256
+100
+cls_loss: tensor(0.1092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7738e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1304e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5706e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0998e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1569e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4000, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0649, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0719, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 203, time 181.27, cls_loss 0.0327
+100
+cls_loss: tensor(0.0946, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4696e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0976, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0927, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3933, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0777, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0419, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 204----------------------------------------------------
+epoch 204, time 181.55, cls_loss 0.0568
+100
+cls_loss: tensor(0.0534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1678, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0979, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0931, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2000, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0631, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 205, time 180.91, cls_loss 0.0628
+100
+cls_loss: tensor(0.0498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0948, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0850, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0907, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3969, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3723, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1550, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 206, time 181.19, cls_loss 0.0607
+100
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0952, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0864, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 207, time 180.78, cls_loss 0.0429
+100
+cls_loss: tensor(0.0701, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0631, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0920, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1838, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 208, time 181.24, cls_loss 0.0450
+100
+cls_loss: tensor(0.0527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1837, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 209, time 180.83, cls_loss 0.0522
+100
+cls_loss: tensor(0.2026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0994, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1831, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0516, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1586, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0838, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 210, time 180.63, cls_loss 0.0631
+100
+cls_loss: tensor(4.4130e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0380, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2714e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0623, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0926, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0794, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0915, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1923, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 211, time 180.97, cls_loss 0.0368
+100
+cls_loss: tensor(0.0393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0994, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8631e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0962, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9452e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0801, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 212, time 181.14, cls_loss 0.0274
+100
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0959, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0100e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4478e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 213, time 180.93, cls_loss 0.0278
+100
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3441e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2417e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0951, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1000, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7293e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0994, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 214, time 180.98, cls_loss 0.0331
+100
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2843e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0692, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2672e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0929, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4702e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5955e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1785, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1465e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0662, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 215, time 181.10, cls_loss 0.0366
+100
+cls_loss: tensor(0.0711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0842, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8008e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0978, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0780, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5128e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6373e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6397e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0770, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1024, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 216, time 181.17, cls_loss 0.0303
+100
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2012e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8852e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8744e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5887e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8274e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7339e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4728e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1398e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0701, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0051e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 217, time 181.11, cls_loss 0.0236
+100
+cls_loss: tensor(0.1085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0754, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0892, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1825e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8098e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0851, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0923, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0786, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 218, time 180.81, cls_loss 0.0342
+100
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3179e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0961, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0565, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2364e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2777, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4635e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0774, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 219, time 181.15, cls_loss 0.0340
+100
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6106e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2915, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6927e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1691, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0380, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0916, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0904, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0861, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0923, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0892, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0592, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 220, time 181.03, cls_loss 0.0428
+100
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0912, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9802e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1845, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2926, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0695, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5706e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7092e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 221, time 181.32, cls_loss 0.0363
+100
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6323e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0806, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0631, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4690e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 222, time 181.27, cls_loss 0.0367
+100
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7999e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7114e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2003e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9550e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0982, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0816, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0417, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 223, time 180.99, cls_loss 0.0284
+100
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5613e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3589e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4100e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0976, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1838, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0955, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7380e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3607e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0976, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9327e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0982, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0479, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 224, time 181.11, cls_loss 0.0263
+100
+cls_loss: tensor(0.2828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1586e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1560e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0780, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2958e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0649, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6869e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0712, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 225, time 180.71, cls_loss 0.0252
+100
+cls_loss: tensor(6.4332e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0996, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0845, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0786, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0831, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 226, time 180.76, cls_loss 0.0326
+100
+cls_loss: tensor(0.0484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7107e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2999e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5554e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2583e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2869e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4904e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3517e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0789, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 227, time 180.91, cls_loss 0.0383
+100
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0794, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0933, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0837, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9680e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1345e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 228, time 181.09, cls_loss 0.0225
+100
+cls_loss: tensor(0.0442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2692, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0963, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0780, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0980, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5291e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8299e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6328e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5138e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7043e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0748, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0945, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0852, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 229, time 180.89, cls_loss 0.0257
+100
+cls_loss: tensor(4.4182e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0892, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3078e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0956, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 230----------------------------------------------------
+epoch 230, time 181.23, cls_loss 0.0499
+100
+cls_loss: tensor(0.0543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0969, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0623, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 231, time 180.47, cls_loss 0.0463
+100
+cls_loss: tensor(0.0857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0979, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0902, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4176e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0912, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0780, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 232, time 180.35, cls_loss 0.0335
+100
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0928, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0929, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1283e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0717e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0848, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0678, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0926, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0411, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 233, time 180.16, cls_loss 0.0408
+100
+cls_loss: tensor(0.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0928, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1842, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0595, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0907, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0696e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1392, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 234, time 180.29, cls_loss 0.0530
+100
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3822e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0701, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1564, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2976, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2348e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0555, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 235, time 180.13, cls_loss 0.0467
+100
+cls_loss: tensor(0.0822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0927, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1945, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0792, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 236, time 179.66, cls_loss 0.0509
+100
+cls_loss: tensor(0.2860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0929, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7290e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4832, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6069e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0725, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0951, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 237, time 179.65, cls_loss 0.0516
+100
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0905, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0638, device='cuda:0', grad_fn=<NllLossBackward0>)
diff --git a/Meta-causal/code-stage1-pipeline/56457.error b/Meta-causal/code-stage1-pipeline/56457.error
new file mode 100644
index 0000000000000000000000000000000000000000..38d934231566fdb9cd98197f76b6dd49f332d93a
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/56457.error
@@ -0,0 +1,4 @@
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-stage1-pipeline/data_loader_joint_v3.py:426: UserWarning: To copy construct from a tensor, it is recommended to use sourceTensor.clone().detach() or sourceTensor.clone().detach().requires_grad_(True), rather than torch.tensor(sourceTensor).
+  x, y = torch.tensor(x), torch.tensor(y, dtype=torch.long)
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-stage1-pipeline/data_loader_joint_v3.py:426: UserWarning: To copy construct from a tensor, it is recommended to use sourceTensor.clone().detach() or sourceTensor.clone().detach().requires_grad_(True), rather than torch.tensor(sourceTensor).
+  x, y = torch.tensor(x), torch.tensor(y, dtype=torch.long)
diff --git a/Meta-causal/code-stage1-pipeline/56457.log b/Meta-causal/code-stage1-pipeline/56457.log
new file mode 100644
index 0000000000000000000000000000000000000000..39719eeab01cfbb421df95d8ac145de4111e49a6
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/56457.log
@@ -0,0 +1,21742 @@
+/home/yuqian_fu
+{'gpu': '0', 'data': 'art_painting', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 5, 'factor_num': 16, 'epochs': 70, 'nbatch': 100, 'batchsize': 6, 'lr': 0.01, 'lr_scheduler': 'cosine', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+x.shape: (1840, 227, 227, 3)
+x_aug train here torch.Size([1840, 3, 227, 227])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_train.hdf5 torch.Size([1840, 3, 227, 227]) torch.Size([1840])
+--------------------------CA_multiple--------------------------
+---------------------------16 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+x.shape: (208, 227, 227, 3)
+x_aug test here torch.Size([208, 3, 227, 227])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_val.hdf5 torch.Size([208, 3, 227, 227]) torch.Size([208])
+-------------------------------------loading pretrain weights----------------------------------
+306
+cls_loss: tensor(1.8001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8794, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(25.0967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(25.7894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(23.8203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(28.3438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(17.1029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(16.7904, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(23.8932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(27.6354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.1585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(24.6112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(29.7782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(23.0859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(19.5303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(19.4688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.2708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.0729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5959, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(15.7894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9794, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2788, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(19.3808, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.9294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(15.5034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.0873, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.3008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0789, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4944, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2801, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(16.3740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.4300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.3665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.6742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.4206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(19.1325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.3400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9691, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(25.3668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(16.2702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.3048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2786, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.4792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.4277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.5544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.8611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.6261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.6582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.6596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.7926, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.2227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(17.2331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.3890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(17.6497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(19.8324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(22.2240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.5198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.3396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.4384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2565, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.4142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.9802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.9609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(16.7301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(15.2033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.6162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.2030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.6465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(16.8358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(25.3555, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2976, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(21.4141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.5736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(25.4401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(17., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.3238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.3807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(17.6940, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(17.4583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(21.4401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.2505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.7308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.9400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.0591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(18.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(15.6161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1957, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.2637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.1081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(15.2397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.4290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(16.0841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(26.5755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1770, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.6341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.4594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(19.0508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.7995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.5618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(24.7995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0838, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4910, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.3747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.9593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.8015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.1666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.6430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3777, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.6166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.3766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.7823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(15.6693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.7246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.7478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1000, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.4967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.7029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.3973, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 356.45, cls_loss 8.9120
+306
+cls_loss: tensor(12.5783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(22.7766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8695, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4982, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.5462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(26.0428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.2122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9927, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.7161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4695, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1884, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8998, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.7513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(16.7188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9991, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.1288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0380, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8871, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0904, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.8154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(15.9635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.1185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9838, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.1385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.2567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.5365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.1884, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3770, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3361e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.2826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7928, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0380, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0976, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.9154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4794, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2801, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.8749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(15.2556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8946, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.3828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8564, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7948, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.1013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.3645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.2589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0788, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4912, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(16.4623, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0864, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4912, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7773, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.4382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6959, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.6663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.0929, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8262, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.994965332706573e-05
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 373.22, cls_loss 4.8684
+306
+cls_loss: tensor(6.1147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7953, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0292e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3848, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8902, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.6224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7996, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5944, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6785, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.7574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5773, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.9245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4935e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.8599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1951, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.2733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1040e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.3361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9623, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4662, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1850, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4948, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(17.3685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1976, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6516, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0824e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7915, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0586, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7759, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.979871469976196e-05
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 368.73, cls_loss 2.6936
+306
+cls_loss: tensor(2.0416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0181e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3892, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1945, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5794, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4838, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5873, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0861, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9207e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1770, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4851, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1793, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5777, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4710e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2345e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9746, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2944, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0994, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7000, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3956, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4892, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5942e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4286e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7910, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1934, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4994, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.9913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1639, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4928, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5795e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8607, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0845, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1683e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5789, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3931, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2904, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7748, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7246e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2720, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.954748808839674e-05
+changing lr
+epoch 3, time 371.62, cls_loss 1.9643
+306
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4955, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2997, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4942, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1339e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3886, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0728, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1956, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8607, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8763e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5929, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4559e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0631, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8861, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5773, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8998, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5998, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3929, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8512e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3200e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3577e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9649, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8829e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0332e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7141e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4780, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9915, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4997, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5101e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6904, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8147e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8931, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2832, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8884, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7871, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1497e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3916, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.4736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7969e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0789, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4603, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.919647942993148e-05
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 371.66, cls_loss 1.5969
+306
+cls_loss: tensor(0.7379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9921, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5837, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8809e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3762e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1873, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0835, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8809, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4630e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4809, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5789, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5955e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9809e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1981e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5135e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3000, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2565, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2980, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2845, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9611e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3921e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9093e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6723, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0662, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1299e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1769, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3907, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2179e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5380, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9968, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5736e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2771e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8617e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7119, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.874639560909117e-05
+changing lr
+epoch 5, time 370.53, cls_loss 1.0565
+306
+cls_loss: tensor(6.8148e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5934e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9520e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3895e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7969, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1923e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5955, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6544e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1723, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4485e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3782e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8777, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0200e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2577e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0464e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2793, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5637e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0134e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9873, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8526e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0009e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4855e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8479e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7544e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1842, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6293e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7928, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0723, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0300e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7948e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5907, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5786, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.819814303479267e-05
+changing lr
+epoch 6, time 372.51, cls_loss 0.7236
+306
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2765e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2784e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8141e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4769e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6365e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7154e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0728, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0961, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4770e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6407e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4961, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0793, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1607, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6034e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7021e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3743, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6597e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9411e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1305e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6359e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0788, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6756e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1420e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6228e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0391e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8319e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3684e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6530e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3843e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9987e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6816, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3313e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0491e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1953, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3921e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1086e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6492e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5923, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6921, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4126e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9604e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6991, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8951, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5986, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4591e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5616e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3115e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0167e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6870e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8199e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3022e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.755282581475769e-05
+changing lr
+epoch 7, time 371.05, cls_loss 0.6909
+306
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5279e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7883e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7817e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4060e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6114e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2861, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4412e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5936e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4533e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5000, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3892, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3643e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0788e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3962e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6869, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0788, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1843e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3248e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5167e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0598e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1532e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6625e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7957, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2942, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0398e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9902, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1559e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9578e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3379e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2784e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2931, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3835, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5868e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2387e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6896e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7869, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0987e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2279e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2358e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8877e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8015e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0639, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8656e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4730e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4603e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3292e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4551e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4835e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4199, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.681174353198687e-05
+changing lr
+epoch 8, time 374.19, cls_loss 0.5058
+306
+cls_loss: tensor(2.2836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3711e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9274e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5167e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2983e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3167e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4863e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0770, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6029e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0788, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0226e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5566e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7754, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2995e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5927, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4718e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5498e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4307e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9869e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4603e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2161e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0963, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8963, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2000e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5855e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7752e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0333e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6411e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8412e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2292e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9074e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4193e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3531e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6161e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1746, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8280e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7997, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6135e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6838e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1187e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0293e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8908e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8955e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8400e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4952, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4175e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0929e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0712, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1193e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0073e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5904e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5850, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3643e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2988e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9068e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0770, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4332e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5910, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6166e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3909e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2519e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3956, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0916, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0003e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9161e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6431e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4801, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1193e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6228e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3600, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.597638862757255e-05
+changing lr
+epoch 9, time 370.81, cls_loss 0.3589
+306
+cls_loss: tensor(0.4434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3643e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3339e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4638e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6757e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6916e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6889e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6650e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0610e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2956, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3884e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8678e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4591e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9703e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8414e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3695, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4444e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3737e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8930e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5908e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0399e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4649, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0968e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0796e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7882e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5167e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7982, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3645e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3975e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1638e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1384e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2101e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3598e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0951, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0047e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8228e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0679, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5630e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4662, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8652e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0810e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3444e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5931, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0161e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9836e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6756e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3325e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2850e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7617e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8983e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3128e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1398e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0703e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3233e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0980, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5102e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5976, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.504844339512095e-05
+changing lr
+epoch 10, time 374.15, cls_loss 0.3164
+306
+cls_loss: tensor(0.2835, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2982e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1988e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5159e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1988e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2094e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6920, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4921e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8998, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6427e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3979, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7352e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8412e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1796e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1994, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5531e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1127e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9683e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5234e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1543e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5365e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6510e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7607, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4573e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0907, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9307e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2930, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0907, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9935e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2518e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3571e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7147e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6946, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4571e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8140e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2246e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4935e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9564, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4306e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4505e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4951, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0886, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2359e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1127e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7923, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1948, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1253e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0027e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1869, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1750, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.40297765928369e-05
+changing lr
+epoch 11, time 368.41, cls_loss 0.4055
+306
+cls_loss: tensor(0.8117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3504e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2718e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0555, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1326e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3943e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3379e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7021e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4970e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1650e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1128e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3777, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1572e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0135e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4505e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3862e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2831, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1531e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3645e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0994, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7471e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9948, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9049e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4498e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7484e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2624e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7752e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0889e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6346e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9419e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9107e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7751e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8598e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0618e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8743e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0663e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9558e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9550e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5061e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8944e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1168e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8326e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0725, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3306e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0691e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1712e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4571e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9252e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2260e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1981e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2365e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0597e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7935e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1121e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2590e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5358e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1285e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0831, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2550e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4836e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0876e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9695, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1497e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3923e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3246e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0411e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7484e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5167e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0599, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.292243968009331e-05
+changing lr
+---------------------saving model at epoch 12----------------------------------------------------
+epoch 12, time 370.29, cls_loss 0.2203
+306
+cls_loss: tensor(4.3313e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1047e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3167e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0864e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5920, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9273e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1670e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5776e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4796e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1825, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3848, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6861, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4069e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2981e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8942e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4835e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2525e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8209e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2920, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4980, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0590e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0094e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2783e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7968e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9340e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0516, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7857e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8147e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2518e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8644e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0531e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3181e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1590e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0927, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9951, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2797e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2934e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1788, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7981e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0669e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3551e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8346e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1148e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3884e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5235e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8809e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9313e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0796e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1380, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7637e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2056e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2373e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4873, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3115e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4440e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9405e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9140e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0629e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.172866268606513e-05
+changing lr
+epoch 13, time 370.78, cls_loss 0.2437
+306
+cls_loss: tensor(1.0939, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3182e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7300e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3073e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4704e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2776e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3789, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2001e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2572e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4670e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1857e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0770, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5564e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8034e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0669e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1988e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0915e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3678, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7722e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7544e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1193e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6425e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8280e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2532e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5472e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5234e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3166e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1480e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0731e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7219e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5775e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3669e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4835e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8213e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0610e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1327e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0466e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5796e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0902e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1923e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3976e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7903e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3160e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1459e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1320e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7617e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5935e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8976e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0107e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2531e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5745e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7156e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9643e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1795e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6228e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0202e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6359e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6671e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6850, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8909e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0555, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.045084971874738e-05
+changing lr
+epoch 14, time 369.04, cls_loss 0.1421
+306
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1219e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5060e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2055e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8035e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1923e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2187e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4716e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9955e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0200e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8545e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2320e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2179e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8537e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4638e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6564e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6160e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8014e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5233e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6863e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4193e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8094e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8976e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0552e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2319e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5432e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7102e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3926, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9339e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7948e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0577e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2452e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2755e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8213e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4571e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6386e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2994e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5405e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8610e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7114e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1989e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4042e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4988e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9909e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6823e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6560e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7219e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4095e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7762e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1194e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9339e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8081e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9884e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4531e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5907, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6584e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3976e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6166e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3976e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3194e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5994e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1195e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+8.90915741234015e-05
+changing lr
+---------------------saving model at epoch 15----------------------------------------------------
+epoch 15, time 371.33, cls_loss 0.0941
+306
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5147e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0472e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8412e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3777e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1968e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9340e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8148e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8279e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1392e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3228e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0689e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2586e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5029e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2286e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8743e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1590e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3180e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7154e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5632e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1384e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1644e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5378e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9339e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6379e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7464e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4544e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8617e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6771e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0848e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0663e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7882e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2974e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4835e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6625e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4737e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5676e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9663e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2139e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1372e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7041e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7862e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3862e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1101e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9882e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6937e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8573e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1082e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0902e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4573e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2385e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0252e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4175e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8347e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5830e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9140e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9274e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9604e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4372e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6047e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5274e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6493e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6427e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6810e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2894e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4438e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8281e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2572e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+8.765357330018056e-05
+changing lr
+---------------------saving model at epoch 16----------------------------------------------------
+epoch 16, time 370.20, cls_loss 0.0437
+306
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2651e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2518e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6478e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3313e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0259e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0968, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4043e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6889e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2189e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7948, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9558e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1988e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1988e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9207e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4835e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1525e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8949e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8612e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1285e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1525e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2948e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0498e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1060e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3359e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9738e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6809e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5498e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9339e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7603e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3380e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1773, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4385e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4692e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9538e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7021e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8710e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3669e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7835e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8313e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1676e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9274e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1815e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0663e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7637e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4869, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2253e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2179e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5180e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0565e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8871e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0598e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3907, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5775e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0955, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2298e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8062e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2652e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3808e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6361e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2577e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4082e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8080e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0326e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7617e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+8.613974319136958e-05
+changing lr
+epoch 17, time 367.09, cls_loss 0.0791
+306
+cls_loss: tensor(0.2980, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8544e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5385e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9155e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0701, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5630e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4227e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3313e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7976e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1590e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3909e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8545e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8279e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4994e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0933, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5365e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0400e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7155e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1392e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1195e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9890e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4903e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4597e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7796e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5835e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0583e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3246e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0842e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8497e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4769e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2915e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4643e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1857e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9089e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0987e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9870e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8214e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7036e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6426e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6803e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6160e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9133e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7764e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9115e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3313e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9339e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2253e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8551e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4573e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2453e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2803e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2903e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7565e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9427e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3425e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2492e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8876e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9703e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6771e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7055e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0796e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4697e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2650e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5815e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5896e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6665e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5346e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0003e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5060e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3086, device='cuda:0', grad_fn=<NllLossBackward0>)
+8.455313244934324e-05
+changing lr
+epoch 18, time 371.84, cls_loss 0.0770
+306
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6955e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7762e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8809e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0135e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4374e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2848e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7948e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7102e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5539e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2134e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4313e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5457e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1434e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6953, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6929e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3937e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8478e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5001e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8942e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4325e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2161e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1790e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5233e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2981e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0113e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9630e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6980, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2386e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9339e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3246e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2784e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8678e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2982e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6943e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2252e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5060e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0464e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2346e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7265e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4758e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0864e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3910e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2570e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6511e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3590e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1374e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1997, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4782e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1762e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8849e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8280e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2093e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1314e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9273e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2783e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4511e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5757e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2831, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0669e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9431e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4372e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7445e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6889e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9738e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5365e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0200e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2453e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1656e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0544e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8279e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4603e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8081e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+8.289693629698562e-05
+changing lr
+epoch 19, time 371.53, cls_loss 0.1129
+306
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1444e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2586e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1695, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0134e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5982, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1543e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3373e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7167e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0471e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2933, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5365e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1140e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2519e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8080e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2975e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6160e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7219e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2292e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2187e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1478e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3610e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0597e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9312e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4835e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7352e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0053e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5035e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8378e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9206e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6869e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6558e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6955e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8280e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0008e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0967e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1656e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6890e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7219e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2511e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9578e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9757e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7505e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2894e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3391e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9584e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8133e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9578e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1590e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7883e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6484e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9505e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6373e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2373e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1068e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3194e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0599e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5890e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8346e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4782e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3577e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4027e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9922e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4783e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8080e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1782e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1736e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2040e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4836e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9049e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+8.117449009293667e-05
+changing lr
+epoch 20, time 370.30, cls_loss 0.0432
+306
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6848e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1811e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8292e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1086e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2545e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1716e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9167e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7910e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5102e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7696e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8153e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0796e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6228e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2876e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3777e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8636e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9008e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2994e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5630e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8775e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6810e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5830e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8754, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8678e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3314e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0332e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5897e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6458e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9074e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6293e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9665e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0788e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3273e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3093e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4769e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0312e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6624e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7773, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8954e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1923e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8902e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8544e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3941e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4373e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8247e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7239e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0977e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1981e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8003e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3921e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0837e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9088e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8134e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4591e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4861e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2851, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4889e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3643e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2824e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4471e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3728, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2457e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0053e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4460e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4782e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8215e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1590e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6709e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9075e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5961e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5703e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7088e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7783e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6995e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0909e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2457e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4968e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4464e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0220e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+7.938926261462365e-05
+changing lr
+epoch 21, time 371.94, cls_loss 0.0887
+306
+cls_loss: tensor(2.9723e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6341e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4940, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6810e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9604e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8809e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8948e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5319e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4829e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7911e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0293e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2990e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0590e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0788, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4126e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2478e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9803e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1426e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2374e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2299e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4108e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7009e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0510e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7041e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6034e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1100e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1459e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6942e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6644e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2055e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8016e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1319e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3711e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7751e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2651e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8678e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7816e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2121e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0784e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9451e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6028e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5830e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7895e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6161e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4941e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6339e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3778e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8328e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2856e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7405e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5902, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2744e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2387e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8080e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4464e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2504e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2319e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7484e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8279e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7925, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3008e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3491e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0742e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3379e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+7.754484907260511e-05
+changing lr
+epoch 22, time 371.89, cls_loss 0.0312
+306
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2585e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0187e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8081e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8014e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4722e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3319e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9994, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4041e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5365e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1194e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1663e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0996e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7293e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7994e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4597e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0864e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1557e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8279e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5179e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9074e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7096e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7883e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0332e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9354e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7021e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8877e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8904e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0996, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4942e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2743, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1048e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6858e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9155e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8743e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9922e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0816e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4174e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3444e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7154e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4498e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0948e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6659e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0597e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6850e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5896e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0411e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4107e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7464e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4365e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1458e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1656e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9008e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9009e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0081e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7883e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8809e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6027e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8001e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4174e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5101e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1458e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1358e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8213e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1583e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5028e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8279e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5716e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0930e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+7.56449638702953e-05
+changing lr
+epoch 23, time 370.29, cls_loss 0.0272
+306
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2596e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7424e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5457e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5969e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2850e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4981e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0532e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9010e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3989e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8942e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1246e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6140e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6763e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0285e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4776e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5491e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7617e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5406e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0444e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0352e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6690e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2551e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7557e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4638e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8094e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3081e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7619e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4175e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7948e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8082e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8149e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6586e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8306e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3643e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8518e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8809e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3114e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2783e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7974e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9672e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2550e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8982e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5101e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6095e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8736e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5167e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3511e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8810e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6193e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9538e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2378e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1086e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4041e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5101e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5365e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0711e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3953, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5684e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5729e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0201e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7551e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4068e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2280e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2161e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9776e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5908e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5968e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9709e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0465e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5087e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2380e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3100e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1366e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2864e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4943e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8944e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8414e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3048e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9657e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7962e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0400e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5915e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1094e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3962e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4970e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+7.369343312364992e-05
+changing lr
+epoch 24, time 381.37, cls_loss 0.0446
+306
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8610e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7949e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3610e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2755e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7877e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7818e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0192e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7915e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9869e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2113e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4206e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0200e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7736e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4836e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4042e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8094e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0465e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3828e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2020e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1458e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6411e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3425e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1420e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1525e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4988e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2657e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0268e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7949e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8876e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0120e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4969e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8849e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4770e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5961e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5935e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8478e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2378e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2864e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4903e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0663e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7160e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7617e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8148e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0749e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0471e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2159e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0776e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6360e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2982e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8611e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3048e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8133e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4035e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6360e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8612e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2519e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0267e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5300e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9465e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9590e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8656e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6158, device='cuda:0', grad_fn=<NllLossBackward0>)
+7.169418695587788e-05
+changing lr
+epoch 25, time 371.11, cls_loss 0.0312
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7557e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5525e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4970e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1253e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1120e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8147e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3632e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8281e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7166e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8656e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5020e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4041e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0135e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1060e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9169e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5916e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5352e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2056e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7022e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0201e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9406e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4107e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5167e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1525e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3260e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7950e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7273e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7484e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5115e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4339e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8081e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2451e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5147e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1698e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5545e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9492e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5830e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0679, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0464e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3557e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5949e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5831, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0591e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4108e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0663e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5054e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2571e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0332e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7001e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7353e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1458e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7883e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9036e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1968e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0929e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5358e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1658e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5394e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0743, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4544e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1227e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3643e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8279e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4042e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6643e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5235e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+6.965125158269616e-05
+changing lr
+epoch 26, time 369.76, cls_loss 0.0675
+306
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6232e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5113e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0701, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8082e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8617e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4160e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7948e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1022e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8215e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1067e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1392e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3864e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8811e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0617e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4306e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8610e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0531e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4717e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5822e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0882e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3511e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6365e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1901e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6313e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7572e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7716e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6762e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0796e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1724e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2584e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0828e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8147e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4736e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1982e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2848e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3617e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8266e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2802e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2452e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0069e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1300e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2916e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2610e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1327e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3743e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8904e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6856e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8948e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8358e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2988e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2777, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1292e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1027e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5087e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9174e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4571e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0002e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9659e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6222e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6643e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5632e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0427e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0709e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2491e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5743e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5273e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0868e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8280e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3325e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+6.756874120406712e-05
+changing lr
+epoch 27, time 378.67, cls_loss 0.0209
+306
+cls_loss: tensor(4.3790e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0332e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4644e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8213e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2193e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6584e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9405e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7286e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4731e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5054e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4439e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8729e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9824e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9869e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3506e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1384e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9783e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2849e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0987e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0200e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6828e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4969e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0597e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7950e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6889e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7022e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8213e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1762e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8553e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3041e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1261e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2570e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8478e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2737e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9405e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8372e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2848e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4498e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6471e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7485e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7511e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1940, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3643e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8016e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8288e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2266e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1895e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7352e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4665e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6757e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2518e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0664e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4228e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9074e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8863e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5934e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2491e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6559e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2815e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9380e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6028e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4373e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0398e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3484e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8214e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0863e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5365e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7021e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2035e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0325e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+6.545084971874736e-05
+changing lr
+epoch 28, time 371.40, cls_loss 0.0175
+306
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7822e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6565e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0994e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4531e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8904e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6028e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4995e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1186e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1623e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7154e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9186e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5830e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0797e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1047e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5101e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5630e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0080e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2041e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8082e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7219e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4583e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7697e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9008e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1128e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2616e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0398e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0267e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1790e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0590e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0810e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2650e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1630e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7921e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3491e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4439e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0651e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0612e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1326e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6140e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4881e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6246e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1226e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3114e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4241e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3115e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7716e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7544e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2729e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0947e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1392e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5831e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4175e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7723e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6989e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0848e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5001e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3909e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6206e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5994e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0033e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6162e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8081e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3212e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2319e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1127e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+6.330184227833373e-05
+changing lr
+epoch 29, time 370.74, cls_loss 0.0151
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7478e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4970e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9405e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9895e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7061e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0061e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6426e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6748, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8506e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4988e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8479e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4321e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9262e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5300e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4544e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7949e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3208e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7048e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4797e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3643e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0398e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1697e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5564e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0921e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4571e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1871e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4241e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7603e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2637e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4378e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0465e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1543e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8942e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7226e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6623e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5167e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8942e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4572e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6690e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4108e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3248e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5193e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1372e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4717e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4981e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0200e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8611e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5566e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5915e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4802e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8610e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6518e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5339e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1458e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0649e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1583e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2922e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8193e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0042e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7444e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3049e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2451e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6034e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1590e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8080e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0465e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4584e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2386e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1590e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0029e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9936e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5094e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6638e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1989e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+6.11260466978157e-05
+changing lr
+epoch 30, time 370.81, cls_loss 0.0388
+306
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9346e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4141e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2915e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0828e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0200e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1444e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8716e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8612e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1748, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2850e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8479e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4531e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1571e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3941e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1060e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8412e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1378e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8199e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5908e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2451e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3975e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5207e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6539e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9570e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8002e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0510e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7220e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2426e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0146e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0785, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0749e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2187e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8525e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6361e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4970e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2387e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1206e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5780, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5259e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0531e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9274e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9133e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7445e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7696e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7201e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1954e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3643e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5226e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4398e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1678, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0400e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0730e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1948, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0709e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4730e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1076e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5737e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0904, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8553e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3684e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8016e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9472e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2585e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+5.892784473993181e-05
+changing lr
+epoch 31, time 371.78, cls_loss 0.0343
+306
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0068e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1718e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4173e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6711e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7817e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8724e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6691e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0968e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4233e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5650e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2636e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0953, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8478e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8279e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5405e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0881e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7617e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5179e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5564e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0539e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4114e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9405e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4736e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2372e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6359e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9538e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9941e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8678e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6570e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3743e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2651e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9538e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5856e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3577e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8233e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3491e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2775e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6955e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3048e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3294e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8214e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2868e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4544e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5365e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3049e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5723e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2055e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6485e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4948e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9890e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8988e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7459e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1194e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6757e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1208e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0326e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3246e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1392e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8021e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0400e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2493e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3102e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7021e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5511e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5080e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9825, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0796e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4941e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5147e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7553e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8081e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+5.6711663290882756e-05
+changing lr
+epoch 32, time 369.09, cls_loss 0.0272
+306
+cls_loss: tensor(2.1696e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2815e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8412e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1869e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4625e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3325e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5035e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1228e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1696e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3923e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9491e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9584e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1882e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8850e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5457e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1168e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0864, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0386e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6227e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8147e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8080e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8199e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2056e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4365e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9234e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0471e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4201e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7459e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7088e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2081e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6559e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0028e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2604e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5366e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5179e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8954e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7751e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1808, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1392e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2717e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7617e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3252e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0279e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4404e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2213e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1392e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0332e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4167e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8830e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8611e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3226e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7981e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0863e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1060e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1485e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8610e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0664e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2154e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1080e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1583e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7968e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7948e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0055e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5605, device='cuda:0', grad_fn=<NllLossBackward0>)
+5.448196544517166e-05
+changing lr
+epoch 33, time 367.91, cls_loss 0.0076
+306
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0583e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0201e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2915e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4942e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7088e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8147e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0796e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5487e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0419e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0294e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8414e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6745e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0802e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9074e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2983e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0583e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2717e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3273e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2452e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7287e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5578e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4226e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3247e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2835e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5855e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1988e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8141e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0705e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1246e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2451e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9273e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6029e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7219e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2518e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3055e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1127e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3379e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2982e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8214e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2313e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1656e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5831e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1193e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3579e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1226e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1100e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2584e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0498e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0989e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0466e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7631e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6484e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3180e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2670e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8279e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2121e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1928, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0134e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9127e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5990e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5312e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4484e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3689e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9141e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0391e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2912, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6718e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1120e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3639e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3764e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5564e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5300e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4981e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1194e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2279e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6980, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9266e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5896e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2385e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1433e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4306e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6227e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3444e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3292e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5300e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0395, device='cuda:0', grad_fn=<NllLossBackward0>)
+5.2243241517525733e-05
+changing lr
+epoch 34, time 369.64, cls_loss 0.0462
+306
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6956, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0762e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4166e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0981e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0202e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0696e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2385e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2974e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2002e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8943e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3036e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6426e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4902e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4107e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4603e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4374e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2557e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5962e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6407e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6828e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7365e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9182e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4942e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7286e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6623e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9306e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0868e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4108e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8261e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8080e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5235e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3227e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8803e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0996e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6359e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1803e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6691e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6081e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6736e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3530e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8312e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0444e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7817e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0994e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2254e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6506e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1127e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9220e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6868e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9765e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3975e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3114e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4480e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4943e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3967e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0202e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7685e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3577e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9093e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2755e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3049e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1047e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7127e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8279e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9624e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5599e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0135e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4771e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7685e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7054e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9923e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2835e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5233e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8413e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9915e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6028e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4836e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6955e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2908e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0339e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6690e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7023e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+4.999999999999998e-05
+changing lr
+epoch 35, time 368.34, cls_loss 0.0160
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7676e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5167e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7823e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4935e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4557e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0731e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8876e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8040e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7089e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1552e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2849e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6308e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1656e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8147e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4881e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4306e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2115e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0662, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3975e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4769e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0069e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0692, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3717e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9857e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6756e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7722e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7484e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2637e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4630e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7670e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7752e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3405e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1742e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2113e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6630e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4638e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2848e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3248e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8811e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3114e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2944e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6935e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1656e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5457e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3313e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9431e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7935e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6585e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7154e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9505e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3975e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7221e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7577e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3804e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2651e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6663e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8267e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8809e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9206e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2048e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1040e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5636e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8915e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6849e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9809e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3478e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1120e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3371e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7219e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1326e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8636e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1061e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4107e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4173e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7074e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2451e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1617e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5877e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1473e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6544e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8148e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8954e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4135e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1988e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+4.7756758482474244e-05
+changing lr
+epoch 36, time 368.79, cls_loss 0.0156
+306
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4849e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5842e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7353e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6710e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9737e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8611e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0967e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3049e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2915e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3406e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0511e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2795e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2683e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3444e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3777e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3208e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6228e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7221e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0380e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8414e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7922e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6758e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3207e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7553e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1976e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3643e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0994e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0762e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9008e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1610e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9617e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0140e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6465e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2717e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8678e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5378e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4988e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2168e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0398e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7862e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4069e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4374e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1856e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0188e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0663e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8015e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1791e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7545e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4074e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0101e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7941e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0232e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1922e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6757e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0360e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0704e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4968e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0723e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3140e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1465e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7670e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2915e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2298e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4027e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3444e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0995e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6955e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0465e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4851, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6108e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4883e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0332e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5378e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4041e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9083e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2730e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0002e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4643e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7923e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7564e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2718e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1618e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0610e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+4.551803455482832e-05
+changing lr
+epoch 37, time 369.07, cls_loss 0.0176
+306
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4439e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7863e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1525e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8161e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4769e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9365e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2869e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1140e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1623e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4174e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9008e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9299e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5764e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7180e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4392e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7974e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2319e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0505e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5167e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4511e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3445e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9207e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4770e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9093e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1200e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3200e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5750e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3471e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0286e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9113e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4769e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9895e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5507e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4968e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2385e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9008e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0731e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4438e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9570e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8545e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1723, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2167e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6359e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5439e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8016e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7500e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0371e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9935e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2109e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8147e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5365e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0464e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7776e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4167e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1146e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4240e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4160e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7484e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5498e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9829e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8081e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4042e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4637e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9095e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2736e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2359e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6604e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4372e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4517e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1584e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5630e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3843e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4763e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3453e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0798e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2755e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1458e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2518e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6332e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7367e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2729e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0003e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9876e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5219e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+4.328833670911722e-05
+changing lr
+epoch 38, time 370.45, cls_loss 0.0107
+306
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1253e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0387e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8784e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7617e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3584e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1882e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6313e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6704e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7869e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7817e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0346e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5604e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4312e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6041e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7023e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2294e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9604e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0464e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7352e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5630e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8147e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9274e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4968e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5102e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1166e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6558e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1724e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6333e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0796e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5101e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1563e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6623e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9870e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6677e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1656e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1326e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0994e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6028e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8014e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1047e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8318e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7352e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1358e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2391e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4683e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0252e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1736e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5506e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3975e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4968e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5301e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6162e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0320e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1658e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8677e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7345e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1643e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9405e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3049e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8207e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1517e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9273e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2970e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5346e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5498e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8810e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8943e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9948e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7108e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3419e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1716e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8705e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1367e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8610e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1458e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9093e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4054e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6162e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4744e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8610e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3347e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1802e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1645e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1631e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3711e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+4.1072155260068164e-05
+changing lr
+epoch 39, time 368.45, cls_loss 0.0066
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9142e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0351e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7617e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6756e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3054e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1047e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1505e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2127e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6756e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6624e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8147e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6280e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1260e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1974e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6677e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9987e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5630e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8134e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8597e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7816e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6345e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8451e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5498e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0987e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1944, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1221e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6095e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9936e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6386e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9140e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4603e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0510e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7135e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3093e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3380e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5630e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5564e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3643e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4836e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2346e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2676e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1895e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0896e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7724e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8809e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8414e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2745e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4583e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7155e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1095e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4233e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8517e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7757e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4935e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6798e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0731e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1273e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1393e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0797e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3544e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4440e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2657e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3380e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2915e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6605e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0464e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9689e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4080e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1180e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6558e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5002e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4835e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3511e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5644e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3976e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7782e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8598e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0967e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9340e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6354e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9008e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+3.8873953302184275e-05
+changing lr
+epoch 40, time 371.13, cls_loss 0.0125
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0612e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5795e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2636e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7385e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4584e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1458e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9538e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1784e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0742e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6790e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3551e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1260e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4994e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6683e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9121e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5692e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3073e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6558e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5233e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0398e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3427e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0864, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7287e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8610e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7553e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3247e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4174e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8835e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5765e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7882e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7711e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0400e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6029e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0943e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0168e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8280e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1989e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0279e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0200e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9717e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1393e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6425e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8777e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4347e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3910e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3570e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3440e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2148e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1823e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8040e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1950e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3975e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0464e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4379e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2784e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4121e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5775e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8114e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5765e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5877e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7154e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9405e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7897e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4903e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0994e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0790e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3868e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7817e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3266e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3572e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9405e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1922e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3471e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0325e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3073e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8943e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7557e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2286e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1543e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2293e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4603e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8394e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6127e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+3.669815772166625e-05
+changing lr
+epoch 41, time 369.79, cls_loss 0.0184
+306
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1762e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8948e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6379e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5048e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6995e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0597e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0669e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0730e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1756e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9803e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2187e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0134e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9650e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5101e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1504e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1458e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2233e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5962e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9054e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2630e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1392e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3445e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0597e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1525e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0333e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7950e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2060e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9273e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1140e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0863e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0532e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3247e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5432e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6212e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9697e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1512e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6770e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2253e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9339e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8478e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1372e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0268e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0274e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2047e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2784e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3916e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9836e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4438e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5796e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0531e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6623e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4578e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7353e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8743e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0054e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6823e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6560e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4306e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1459e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5981e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4374e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5658e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7352e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7577e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7220e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6802e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4175e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6955e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1577e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1060e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1519e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0808e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5974e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9778e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9047e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3605e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8002e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1393e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4941e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2915e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0471e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6723e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0579e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3134e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+3.454915028125263e-05
+changing lr
+epoch 42, time 370.74, cls_loss 0.0064
+306
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7696e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4572e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2718e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6174e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7557e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5101e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3770e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4836e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3617e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8266e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6631e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6559e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1326e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5266e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0333e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4777e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4041e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4969e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9074e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3180e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5962e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3153e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0321e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3511e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2253e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9922e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4444e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0053e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2916e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7286e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0550e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9658e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6538e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9717e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7902e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9431e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2385e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2552e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1590e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7009e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9054e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8545e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2783e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5750e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5219e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5020e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2783e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2387e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7730e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5477e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2822e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8591e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0531e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6484e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6262e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7816e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3259e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4042e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3167e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5366e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6921e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3988e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8478e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4732e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2367e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4704e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3385e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6623e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3836e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7155e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2519e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2385e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6386e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5101e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6464e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1776e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5113e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6246e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2386e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+3.2431258795932867e-05
+changing lr
+epoch 43, time 371.94, cls_loss 0.0071
+306
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0518e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0725e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1047e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5168e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6530e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8531e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8279e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0186e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8233e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0333e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2253e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6690e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6624e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1055e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0347e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1086e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3843e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4711e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9293e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6253e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0967e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3844e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5896e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3379e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3247e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0360e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7670e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7657e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2663e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4108e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3909e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3340e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0068e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2983e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0465e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2319e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0531e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4412e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1592e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1193e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0134e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0399e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4087e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5882e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4226e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3114e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1736e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9618e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4881e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8843e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5842e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9419e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6630e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5632e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1658e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2736e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1762e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3221e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4571e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0691, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9313e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5113e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5365e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8080e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0988e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4160e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7260e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3604e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4950e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6957e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0003e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9406e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+3.0348748417303827e-05
+changing lr
+epoch 44, time 373.41, cls_loss 0.0029
+306
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2986, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0333e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3087e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7478e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6889e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1062e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2652e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1392e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8804e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7412e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5300e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2188e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9937e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3909e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3499e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9431e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3380e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9405e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5181e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8915e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1909e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4835e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0003e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5300e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4771e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8777e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7021e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5698e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2584e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0134e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5961e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3579e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7619e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8544e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7445e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3351e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1384e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0994e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1392e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8478e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3288e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7155e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7022e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9606e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8346e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2848e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1656e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1656e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5167e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2320e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1870e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0611e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8611e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6345e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9206e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5638e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9074e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5498e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3380e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5259e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7949e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6817e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9538e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4704e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1404e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9472e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9538e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8147e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5233e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4385e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2923e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7604e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7617e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2518e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8743e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1352e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2717e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7915e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3570e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5020e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0545e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4762e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4988e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8062e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7816e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4968e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7762e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5187e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9796e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1227e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4008e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9340e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7485e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5630e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9566e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1392e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2253e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5366e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+2.830581304412209e-05
+changing lr
+epoch 45, time 369.63, cls_loss 0.0047
+306
+cls_loss: tensor(4.2915e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1525e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7738e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2412e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4147e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8877e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7089e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3631e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7484e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1027e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3837e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6294e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6427e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3313e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9538e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0478e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7856e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5168e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9042e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4770e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1195e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2200e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5359e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4174e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1458e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7180e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9206e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6426e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0464e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6001e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3107e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4571e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3590e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6161e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6698e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6690e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9975e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1656e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2253e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5948e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9207e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1459e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2882e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1604e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0936e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0725, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9737e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0796e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5605e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6638e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7551e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2584e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6227e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7120e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7460e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8140e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7413e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4710e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4373e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9910e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4836e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4233e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4842e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3699e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1385e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9857e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5835e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6426e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9008e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9240e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4945, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6956e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8863e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0400e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1114e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9941e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+2.6306566876350062e-05
+changing lr
+epoch 46, time 373.36, cls_loss 0.0037
+306
+cls_loss: tensor(8.1062e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0690e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2121e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6174e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8326e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3976e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1345e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2327e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1458e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2795e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6352e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9206e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6690e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5551e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9970e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5102e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0981e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0200e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2518e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1702e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5564e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7200e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4816e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7156e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2187e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3067e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9207e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9380e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9466e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4995e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0226e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6942e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4042e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1537e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2332e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6519e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3843e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0181e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7551e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6021e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6200e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3504e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3379e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3181e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6697e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6148e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0003e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1294e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7286e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0002e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1392e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9208e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4042e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6427e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2677e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4206e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1207e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0371e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8610e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3464e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1795e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6697e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2557e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7492e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0135e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2809e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9737e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0115e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8133e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4836e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8054e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5896e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1458e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8187e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4902e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0391e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1583e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2922e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8373e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5366e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+2.4355036129704693e-05
+changing lr
+epoch 47, time 369.08, cls_loss 0.0015
+306
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4597e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0808e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3194e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8181e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2637e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4505e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0465e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8413e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6227e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1782e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0465e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0691e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4108e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0041e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8080e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6426e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9074e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1286e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7722e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1285e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1193e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4896e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5167e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3491e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8810e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6828e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0113e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4603e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2783e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1080e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8213e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4241e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9042e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2584e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1464e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0200e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1301e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5035e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2981e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1923e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2387e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0267e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0484e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2651e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0202e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0869e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4637e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5385e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1663e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2008e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6930e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7817e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3392e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2320e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2915e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4770e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3736e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0788, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7339e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8869e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1790e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1662, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4173e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8617e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8346e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9810e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9518e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8008e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1776e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8014e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6379e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8215e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9339e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4240e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0941e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5425e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9996e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5392e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7100e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6697e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5736e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8100e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6425e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2452e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8954e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3948e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8678e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2974e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7141e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2122e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9385e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+2.2455150927394874e-05
+changing lr
+epoch 48, time 368.30, cls_loss 0.0068
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6232e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2292e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4791e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2188e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1141e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0192e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0598e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8213e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2850e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4307e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2187e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5658e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8318e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2577e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1287e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3895e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2168e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6962e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7500e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0585e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1247e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1962e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3398e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3625e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8213e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8485e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6260e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8346e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8678e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4762e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0848e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4047e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3480e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4047e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4041e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8611e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0068e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7180e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4166e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3976e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6570e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7267e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6385e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7286e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6034e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6704e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0200e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9113e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7855e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6889e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8517e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7538e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6087e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3247e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8974e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2775e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2890e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0663e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2453e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2440e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6824e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4432e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8677e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0551e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4060e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7948e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7027e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3649e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7319e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8944e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2585e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5597e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0027e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8153e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4897e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8809e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1724e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7883e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9167e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0916e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2982e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7742e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6791e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+2.0610737385376345e-05
+changing lr
+epoch 49, time 368.14, cls_loss 0.0027
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7551e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8756e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2775e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2189e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6095e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9651e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6560e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7955e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2511e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2902e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7716e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8280e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2300e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5254e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8227e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3093e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0611e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0863e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7717e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7400e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8849e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8100e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3975e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6341e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5101e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2830e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7154e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6623e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1060e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8888e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3181e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5871, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3049e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4815e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0465e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4286e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2187e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1922e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3048e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6485e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5584e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0929e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2981e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1021e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7021e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5592e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6471e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8021e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6479e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1154e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8935e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2081e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1532e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3895e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1458e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4041e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1367e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6028e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3287e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8545e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4571e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7558e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8513e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3465e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9672e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6478e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5001e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5783e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0664e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0597e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9406e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+1.8825509907063323e-05
+changing lr
+epoch 50, time 372.71, cls_loss 0.0070
+306
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0068e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6967e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6546e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1193e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9262e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6121e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6359e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2326e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5517e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6492e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3332e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6889e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5989e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9253e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1763e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6293e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6360e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2431e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5566e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3909e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4618e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9339e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9709e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3778e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0770e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0665e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6094e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3511e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2684e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6758e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3107e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7140e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7752e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9153e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2189e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0578e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8014e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5113e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0332e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7239e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0062e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9977e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5267e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5564e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5830e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7022e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1795e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8419e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3749e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2492e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3192e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7752e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9650e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0669e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9121e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7778e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3279e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1358e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4639e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5292e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3351e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2121e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1127e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5352e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8213e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0598e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9142e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8234e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9738e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9340e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0929e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7219e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4404e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5300e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6359e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+1.710306370301437e-05
+changing lr
+epoch 51, time 372.36, cls_loss 0.0120
+306
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5803e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0345e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3444e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0478e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5902e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8016e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0333e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1326e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4903e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0716e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2252e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2518e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7353e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4637e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0889e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9140e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6294e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4173e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0816e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4722e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0796e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1384e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2954e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2785e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9001e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7982e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5889e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9306e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0915e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3941e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4505e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7346e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8954e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7021e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6332e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5577e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3844e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2452e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3909e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8279e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6604e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2056e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4571e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0749e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1060e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6447e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9530e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8458e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7465e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9942e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2254e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9822e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5835e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4505e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8692e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5590e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2783e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0135e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7146e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2591e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0929e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3332e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3444e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1923e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6796e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2795e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6560e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4835e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5029e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8147e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4378e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0994e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0591e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5849e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9937e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5923e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1214e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4372e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0844e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0603e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2924e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6451e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9345e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1597e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8942e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2882e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5717e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7419e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9765e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1444e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9472e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+1.5446867550656765e-05
+changing lr
+epoch 52, time 374.38, cls_loss 0.0065
+306
+cls_loss: tensor(8.2453e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1716e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2922e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0731e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8259e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1186e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2121e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1696e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6142e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0400e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1525e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3557e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3471e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9545e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8610e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5432e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5301e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3049e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9141e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9604e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7829e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0135e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0901e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2485e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8497e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7096e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9936e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0823e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5709e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3444e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3758e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3379e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1989e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2298e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2718e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0002e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9638e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6471e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4835e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7366e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7100e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0180e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0464e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3208e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2056e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1426e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9313e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1433e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8743e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1127e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1458e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5318e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4902e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9876e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2848e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4902e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1943e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2332e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2755e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1525e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2690e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1861e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3240e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8723e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1592e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1412e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2451e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2996e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8214e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9034e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2189e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0332e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5273e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7061e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1074e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7849e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1061e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5630e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1590e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9738e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2616e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0730e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4797e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8347e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9009e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8266e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4359e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+1.3860256808630425e-05
+changing lr
+epoch 53, time 372.56, cls_loss 0.0064
+306
+cls_loss: tensor(3.1590e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4148e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8149e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3716e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2235e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2189e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9354e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5167e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9882e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5994e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3538e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2334e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9558e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5531e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0094e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8584e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5220e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9008e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3763e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0723, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2133e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2838, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3778e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1345e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9804e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7219e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6981e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9782e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4041e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8743e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1603e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2319e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6493e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1326e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8147e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4042e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8312e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2745e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6294e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0081e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2631e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0068e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0863e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5564e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8744e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9142e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8677e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0192e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6531e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5955e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2451e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2048e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2903e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5551e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5471e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9828e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7816e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7305e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3557e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9141e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9268e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2557e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1656e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7022e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1624e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2233e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6299e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5855e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3901e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8744e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8060e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3431e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6074e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8590e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7511e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9738e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4836e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2010e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0194e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5531e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7352e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8738e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8584e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4664e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6889e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6054e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+1.2346426699819455e-05
+changing lr
+epoch 54, time 366.99, cls_loss 0.0043
+306
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0598e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1458e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4771e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8471e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9591e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3882e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2795e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0551e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9545e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1990e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6571e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1981e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3061e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1795e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8670e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7156e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0411e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1404e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9260e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1922e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1856e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4087e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4769e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8811e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0113e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0711e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0989e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9207e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9491e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6935e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2252e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2175e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7154e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4683e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2650e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1902e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5233e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2387e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8366e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8080e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0464e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0709e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3551e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5365e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5896e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4637e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4248e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2630e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0134e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7617e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7286e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9937e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4082e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4571e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5167e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8014e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0047e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0550e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1194e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6252e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2709e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8479e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3299e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0479e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4981e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4637e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5102e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0232e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6690e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2855e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7034e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1923e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8279e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5557e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5036e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8610e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7345e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7246e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0107e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7484e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+1.0908425876598507e-05
+changing lr
+epoch 55, time 369.57, cls_loss 0.0075
+306
+cls_loss: tensor(1.3928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9723e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4962e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1543e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4921e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8266e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5260e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2848e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5564e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2631e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7835e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0730e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7752e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5102e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9591e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8942e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9459e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1226e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1305e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6028e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9300e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1782e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4108e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6889e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1638e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9405e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5101e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4484e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8366e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0863e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2453e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9074e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2002e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4372e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9274e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7021e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9339e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5961e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5738e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3227e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5187e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6625e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8809e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2015e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9353e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8268e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1181e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7941e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0068e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6756e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4312e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3292e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3491e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5179e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4464e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3863e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2214e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7722e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7504e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6758e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2431e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4173e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4186e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3074e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8398e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8544e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1180e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5564e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2784e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3778e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8610e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4306e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1835e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5929e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2453e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5942e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3162e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3955e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1922e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7837e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2744e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5248e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4438e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0868e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4630e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0868e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0895e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.549150281252631e-06
+changing lr
+epoch 56, time 369.69, cls_loss 0.0030
+306
+cls_loss: tensor(0.0919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2426e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1285e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1027e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7088e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3181e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2849e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4107e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6902e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2915e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3246e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4080e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7816e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3751e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0929e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7948e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4307e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4970e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1518e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2954e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9540e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0080e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1459e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5783e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3976e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7219e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1061e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2651e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7836e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1624e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1128e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0947e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6015e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9359e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3286e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9472e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6153e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3888e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1041e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0458e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8783e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4108e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4903e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3711e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0796e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2956e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6095e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3093e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0160e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3180e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0670e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9610e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3246e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0399e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0669e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3048e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1146e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8346e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1458e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6530e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8346e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0068e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2537e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5379e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7102e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5353e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7485e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9679e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3041e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3445e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5333e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9008e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3790e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8876e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2159e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6690e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0398e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0881e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6955e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8545e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2413e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5432e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6162e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1458e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8585e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0267e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5764e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3100e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2584e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5168e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0599e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9467e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4798e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+8.271337313934865e-06
+changing lr
+epoch 57, time 371.73, cls_loss 0.0023
+306
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2326e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2030e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4438e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8678e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1823e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1677e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2398e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3828e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3445e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2114e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9380e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6345e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9604e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2426e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0994e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0704e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5962e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0220e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1060e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8081e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6294e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9010e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8347e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9261e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3380e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1392e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1941e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0663e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0047e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5379e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5822e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6916e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4835e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7027e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9208e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3579e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7484e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3975e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7353e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0882e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9008e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2982e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6340e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4173e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3180e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9274e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5301e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4623e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3248e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2122e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0200e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4107e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7259e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1802e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9672e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1697e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2783e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8412e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2696e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0226e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6782e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0002e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0762e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0929e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0490e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8147e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4280e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2718e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7260e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0268e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7471e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3471e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7917e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7882e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2268e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4921e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1656e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2783e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9451e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2584e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6624e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1106e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2179e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7062e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0206e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3963e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1935e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8001e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8386e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9073e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7220e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5199e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5108e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3445e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1261e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9332e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0599e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5963e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2988e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4809e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4193e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0155e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2080e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2577e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+7.077560319906693e-06
+changing lr
+epoch 58, time 372.81, cls_loss 0.0023
+306
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4537e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7644e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4386e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5578e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9598e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6083e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1393e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5233e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3689e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5775e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3221e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0292e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9206e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1656e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8809e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6955e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7637e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4240e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0963e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2894e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6095e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7551e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0769, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5835e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8678e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4227e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1193e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2915e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8279e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9074e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1590e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5234e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7287e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9067e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5253e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9385e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2387e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8994e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0664e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2453e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7234e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9937e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9988e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5968e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4306e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5235e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5961e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6493e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8346e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4637e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8373e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8876e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5432e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8266e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3207e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6690e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9074e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7685e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0987e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3444e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2849e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7352e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9663e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2518e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2982e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0333e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0980, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8279e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8677e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9869e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4206e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3519e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2298e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8956e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2736e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3379e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7816e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9604e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3910e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9001e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5300e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8691e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9206e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5676e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1573e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4732e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5531e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1060e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2452e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8597e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5644e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9585e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3643e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9843e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3252e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2312e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+5.970223407163098e-06
+changing lr
+epoch 59, time 369.63, cls_loss 0.0032
+306
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0598e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9122e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0570e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2610e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1047e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3444e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4537e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9207e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4881e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4639e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5533e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8557e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4671e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4041e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7155e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0226e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5961e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4851e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9604e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1922e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8763e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1260e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2754, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1261e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0994e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8916e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5392e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9074e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1656e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7286e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8651e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4968e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1935e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9087e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5234e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0724e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2970e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6625e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8147e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5233e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8795e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1372e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8744e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7061e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1590e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6492e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1592e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9511e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9359e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5101e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1988e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4042e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7963e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0332e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8590e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1127e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0531e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5319e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7365e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9292e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0929e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2882e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6512e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0292e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1564e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8716e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3744e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0201e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0069e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1326e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4021e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0049e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2848e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4372e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1888e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9485e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8743e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+4.9515566048790464e-06
+changing lr
+epoch 60, time 370.26, cls_loss 0.0047
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4783e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6352e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0802e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2703e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9027e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1195e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3963e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3923e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8716e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2672e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4200e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7286e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7752e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0663e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3864e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1511e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8611e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2193e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9287e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4041e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2087e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0222e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0399e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8518e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7988e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5663e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9941e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9955e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6294e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0783e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8080e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3433e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1590e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2962e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7088e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2544e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0669e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4968e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3749e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7219e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6758e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6067e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8544e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3976e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6749e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9948e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8279e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5577e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0597e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2915e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4047e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7623e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2736e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2100e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8167e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5035e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7484e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2624e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5630e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4742e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4630e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0146e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2650e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8366e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1319e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1234e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2109e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8578e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7161e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3028e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1656e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7551e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7484e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7822e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8665e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8896e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8240e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6426e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3444e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5961e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9538e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3619e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+4.0236113724274705e-06
+changing lr
+epoch 61, time 368.57, cls_loss 0.0017
+306
+cls_loss: tensor(2.9802e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0028e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5300e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8478e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8785e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2703e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7221e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2784e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2650e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5365e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4166e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4784e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1425e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8811e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6560e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0299e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7154e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4424e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3049e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3729e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5566e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4439e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2179e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1106e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6252e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9883e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9520e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5207e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8413e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1086e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7950e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0186e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6498e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9340e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0074e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3127e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5193e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3791e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1590e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6312e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7305e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0709e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1553e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1802e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5035e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6987e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3750e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6029e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8744e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6756e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6133e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0539e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8227e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9405e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0068e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7751e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8698e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6824e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9758e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9087e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0947e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0848e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6391e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1067e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0398e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8862e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2299e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7484e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2785e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6690e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5599e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2387e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5168e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6485e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7718e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8678e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3444e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6890e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9010e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8570e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6003e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1988e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4597e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7156e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0796e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2974e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+3.188256468013139e-06
+changing lr
+epoch 62, time 373.65, cls_loss 0.0035
+306
+cls_loss: tensor(0.2629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2219e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4340e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8729e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1652e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7440e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4915e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5234e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0665e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7156e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3182e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8517e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1458e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4484e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8147e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1612e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9890e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3444e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3611e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8016e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0398e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3301e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0796e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0888e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1702e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3042e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8942e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5161e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6540e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3947e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4553e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3371e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7265e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9935e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3643e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0585e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4438e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8346e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7818e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2292e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0583e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9206e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1803e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3260e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6140e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4941e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7061e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5505e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0365e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1564e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3610e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1068e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2333e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7551e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0888e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0053e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7950e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9604e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7752e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2597e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0995e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2451e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4769e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6147e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2783e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0598e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1226e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3956e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1802e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5897e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5338e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0723e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4042e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3200e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5564e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9008e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9365e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6856e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5199e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1782e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6559e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2254e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+2.4471741852423225e-06
+changing lr
+epoch 63, time 373.02, cls_loss 0.0045
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2930e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4016e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8168e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0134e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4141e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2094e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0188e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8014e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6623e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9530e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5425e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7623e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5141e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7553e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0730e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6658e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2731e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1935e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5764e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8147e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7484e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1186e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8213e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8544e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1731e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1233e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1618e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4645e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6803e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6577e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8869e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1724e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9141e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5630e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3048e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1458e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2187e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9530e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0220e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2586e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9590e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4974e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3154e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2584e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1193e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3649e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5538e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0333e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9082e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4459e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5795e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2452e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8213e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2187e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9034e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3182e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8215e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3371e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0002e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3975e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2518e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7770e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9870e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4637e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6955e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8956e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1067e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8811e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7950e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0610e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5982e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0798e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7182e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3579e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0087e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0260e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7305e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2564e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6478e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3181e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0168e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5777e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4968e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0333e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0292e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8544e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8015e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0908e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2497e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2121e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5318e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4835e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5169e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+1.8018569652073373e-06
+changing lr
+epoch 64, time 369.82, cls_loss 0.0030
+306
+cls_loss: tensor(5.8492e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7424e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6252e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1518e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7206e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8995e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3115e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3089e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3511e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2233e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8359e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5564e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0053e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4902e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4690e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6663e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8558e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7233e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6558e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8008e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6650e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8213e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7624e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4717e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5961e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7551e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9153e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6890e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3339e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1505e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4325e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3266e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0916e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4265e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0413e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1484e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5755e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2882e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3252e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2744e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7883e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2387e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1564e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5968e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6756e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3511e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0915e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7921e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6465e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6333e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0003e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0332e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8432e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4035e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7021e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1473e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8743e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6955e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6484e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7213e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0863e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9935e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1994e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0663e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6001e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0929e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2910e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6491e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2121e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8677e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6669e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1305e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9440e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8318e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3923e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4571e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6756e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8392e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3910e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6776e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3511e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+1.2536043909088185e-06
+changing lr
+epoch 65, time 368.64, cls_loss 0.0050
+306
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6544e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5624e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0466e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1255e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1100e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2981e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2717e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6133e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6294e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0002e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0929e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3843e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6392e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3645e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8080e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3579e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2333e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2916e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2585e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7419e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1603e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0864e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1981e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2252e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0848e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1273e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3802e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0333e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0663e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5644e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0332e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1592e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4551e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2829e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3818e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9339e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9008e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8610e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2319e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6862e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9340e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3564e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8081e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7871e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7617e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6782e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4174e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2248e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4398e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0127e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4676e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8736e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3516, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9008e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1459e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8153e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7352e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7948e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0836e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0464e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8630e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2651e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8943e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4802e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1590e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2816e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1791e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6955e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6293e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7551e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9252e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5233e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0862e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6848e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8392e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6427e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2584e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0604e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2651e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5929e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7823e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8279e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1683e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8414e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3319e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8571e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1326e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7553e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2783e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8478e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4837e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8002e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2252e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+8.035205700685162e-07
+changing lr
+epoch 66, time 370.25, cls_loss 0.0089
+306
+cls_loss: tensor(5.7022e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5035e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0471e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2815e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2835e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3697e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9074e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9181e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5537e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6093e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6162e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5505e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3828e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3114e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0490e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0537e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2021e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5690e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4372e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6492e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1525e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6056e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1563e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8656e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1656e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9427e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4240e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5566e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5896e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4041e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2934e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6186e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8577e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3093e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6207e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9718e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3643e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1314e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6034e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2175e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3809e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3314e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0200e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7120e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2981e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8346e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3049e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8080e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5764e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4829e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5054e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2327e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9405e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3246e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7265e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2385e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9069e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4829e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3286e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9606e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1074e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6227e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5094e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0226e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1908e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9008e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1922e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3909e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2252e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4153e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2815e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7445e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5142e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3314e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1696e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2670e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9704e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7605e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2663e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3212e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0638e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2848e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7551e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2691e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2082e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9075e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8179e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7478e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0457, device='cuda:0', grad_fn=<NllLossBackward0>)
+4.525119116032647e-07
+changing lr
+epoch 67, time 328.19, cls_loss 0.0088
+306
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2831e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4240e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2815e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5617e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7287e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8498e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0332e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2451e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2332e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3643e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8544e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5517e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5597e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6365e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6359e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7274e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6121e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7537e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0510e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8803e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6669e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8147e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2802e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4663e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0994e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7484e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3200e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2386e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0069e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9008e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7353e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6857e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8717e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2188e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4974e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4597e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4836e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3975e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0886, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6426e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8876e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4439e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0597e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9002e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0921e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8213e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7949e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3670e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1901e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6294e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2585e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4440e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1186e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9140e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5221e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7484e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7219e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7551e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2571e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3756e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9604e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6756e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0371e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5830e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8452e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6133e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6360e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0279e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4173e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1632e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5465e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5571e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9081e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7313e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7180e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2810e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1988e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5636e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9630e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9465e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7764e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0069e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6228e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4968e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1592e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5897e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4108e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+2.0128530023804648e-07
+changing lr
+epoch 68, time 301.22, cls_loss 0.0030
+306
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5234e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4842e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3577e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3764e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9910e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1763e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4902e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5630e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9233e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2055e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6107e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2161e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5300e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0603e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0267e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0068e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3611e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7219e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6690e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5983e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5255e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9107e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0689e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2585e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5048e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2208e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5942e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3312e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1047e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2652e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1060e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2201e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9472e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1696e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0557e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9472e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6948e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3856e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0069e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1319e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2492e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0598e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1392e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9955e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8764e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9262e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0095e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7782e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0583e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4769e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4108e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1631e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4769e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6359e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1783e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2585e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8398e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8749e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5035e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1990e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0864e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2134e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1504e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6823e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4054e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0286e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2453e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1974e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9895e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2718e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5457e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0464e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6067e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4333e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3538e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2055e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9272e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3379e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0511e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4346e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1340e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2179e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2113e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4638e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7763e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0465e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2259e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4413e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0134e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+5.03466729342705e-08
+changing lr
+epoch 69, time 302.19, cls_loss 0.0016
+---------------------saving last model at epoch 69----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5', 'source_domain': 'art_painting', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/art_painting_16factor_last_test_check.csv', 'factor_num': 16, 'epoch': 'last', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of last
+columns: ['art_painting', 'cartoon', 'photo', 'sketch']
+x.shape: (2048, 227, 227, 3)
+x_aug test here torch.Size([2048, 3, 227, 227])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+x.shape: (2344, 227, 227, 3)
+x_aug test here torch.Size([2344, 3, 227, 227])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+x.shape: (1670, 227, 227, 3)
+x_aug test here torch.Size([1670, 3, 227, 227])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+x.shape: (3929, 227, 227, 3)
+x_aug test here torch.Size([3929, 3, 227, 227])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+                     art_painting    cartoon      photo     sketch        Avg
+w/o do (original x)     94.873047  55.332765  92.035928  45.405956  64.258216
diff --git a/Meta-causal/code-stage1-pipeline/56458.error b/Meta-causal/code-stage1-pipeline/56458.error
new file mode 100644
index 0000000000000000000000000000000000000000..551e8156b629e823284bff1b15239ab90e9d86f5
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/56458.error
@@ -0,0 +1,3 @@
+slurmstepd: error: *** JOB 56458 ON gcpl4-eu-1 CANCELLED AT 2024-07-04T07:07:32 DUE TO TIME LIMIT ***
+slurmstepd: error: *** STEP 56458.0 ON gcpl4-eu-1 CANCELLED AT 2024-07-04T07:07:32 DUE TO TIME LIMIT ***
+srun: Job step aborted: Waiting up to 32 seconds for job step to finish.
diff --git a/Meta-causal/code-stage1-pipeline/56458.log b/Meta-causal/code-stage1-pipeline/56458.log
new file mode 100644
index 0000000000000000000000000000000000000000..37d3fcaee1f3c1e4f1ecc7be70d61a7fb1d798d4
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/56458.log
@@ -0,0 +1,24674 @@
+/home/yuqian_fu
+{'gpu': '0', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 500, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+x.shape: torch.Size([10000, 3, 32, 32])
+x_aug train here torch.Size([10000, 3, 32, 32])
+--------------------------CA_multiple--------------------------
+---------------------------14 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+100
+cls_loss: tensor(2.3079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2931, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2934, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2662, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2793, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2623, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2912, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2884, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2831, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1701, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0915, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0723, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0773, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2786, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9957, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1692, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8658, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 182.97, cls_loss 2.1788
+100
+cls_loss: tensor(1.9016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9929, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8809, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8809, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8848, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0746, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5955, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9997, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8701, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6851, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8000, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6925, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5871, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4927, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2979, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6773, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7810, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 183.12, cls_loss 1.7921
+100
+cls_loss: tensor(1.9749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6928, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5976, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5976, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3662, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3960, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4892, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5793, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3933, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2978, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4928, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1187, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 183.70, cls_loss 1.5671
+100
+cls_loss: tensor(1.8093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1957, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0953, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6869, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7920, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1980, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2955, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2940, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5915, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1959, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3902, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0912, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4446, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 183.81, cls_loss 1.4443
+100
+cls_loss: tensor(1.2070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7850, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2639, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5691, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4851, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3994, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3662, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3915, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5962, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2825, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5508, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 183.27, cls_loss 1.3402
+100
+cls_loss: tensor(1.1884, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6809, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8806, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0788, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2777, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3976, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4934, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0341, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 5----------------------------------------------------
+epoch 5, time 182.60, cls_loss 1.2952
+100
+cls_loss: tensor(0.9599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4692, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0916, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2622, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 6----------------------------------------------------
+epoch 6, time 182.83, cls_loss 1.2123
+100
+cls_loss: tensor(1.2682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3979, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1955, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0864, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2692, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3838, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6998, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9907, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9928, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 7----------------------------------------------------
+epoch 7, time 183.06, cls_loss 1.1647
+100
+cls_loss: tensor(1.0754, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0942, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2850, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1998, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1907, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1623, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9848, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1991, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2839, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 8, time 183.03, cls_loss 1.1313
+100
+cls_loss: tensor(0.9350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2723, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2825, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9951, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0940, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8910, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0564, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1380, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8831, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8707, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 9, time 182.42, cls_loss 1.0235
+100
+cls_loss: tensor(0.8801, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2916, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9916, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6921, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9948, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9848, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0516, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1996, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9712, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9793, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2982, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2649, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0842, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9939, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9857, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 10----------------------------------------------------
+epoch 10, time 182.93, cls_loss 1.0756
+100
+cls_loss: tensor(0.6990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8905, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9850, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7931, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7986, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9959, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0955, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7835, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0550, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2111, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 11, time 183.17, cls_loss 0.9875
+100
+cls_loss: tensor(1.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0905, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2639, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0838, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9968, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8907, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4996, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9773, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9767, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 12, time 183.37, cls_loss 0.9463
+100
+cls_loss: tensor(1.0316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0607, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6991, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8907, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7959, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6723, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9816, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 13, time 182.55, cls_loss 0.9335
+100
+cls_loss: tensor(0.9881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1770, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8649, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9679, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8930, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7939, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8997, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8816, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6851, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9915, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7902, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0850, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8832, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7884, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9685, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 14, time 182.43, cls_loss 0.9064
+100
+cls_loss: tensor(1.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7835, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7773, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0845, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4831, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8642, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 15, time 182.11, cls_loss 0.8350
+100
+cls_loss: tensor(0.9005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6662, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5960, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7929, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7948, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7910, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0808, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8946, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2059, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 16, time 182.31, cls_loss 0.8641
+100
+cls_loss: tensor(0.7301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0565, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8794, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7953, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0838, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8980, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4942, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2861, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9864, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 17----------------------------------------------------
+epoch 17, time 182.36, cls_loss 0.8358
+100
+cls_loss: tensor(0.5601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9801, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7978, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5945, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0969, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8861, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5910, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9516, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6712, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5555, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4825, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5840, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 18, time 182.33, cls_loss 0.7596
+100
+cls_loss: tensor(0.8550, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8871, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8912, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9952, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4701, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6939, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7978, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6998, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8586, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7944, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5701, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5837, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6825, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5915, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6931, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6774, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 19, time 182.50, cls_loss 0.7861
+100
+cls_loss: tensor(0.6278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5953, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6934, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4978, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6780, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8770, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2968, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6003, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 20, time 182.37, cls_loss 0.7305
+100
+cls_loss: tensor(0.7701, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6933, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7957, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6835, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6960, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7916, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8998, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7886, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4712, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7246, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 21, time 182.61, cls_loss 0.7229
+100
+cls_loss: tensor(0.5952, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8952, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5595, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7931, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5607, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8778, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9850, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7952, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 22, time 182.62, cls_loss 0.6799
+100
+cls_loss: tensor(0.5969, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4869, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5884, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7586, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6871, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7998, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6934, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7380, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7232, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 23, time 182.25, cls_loss 0.6738
+100
+cls_loss: tensor(0.9265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8994, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4920, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6837, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4986, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5905, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8792, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 24----------------------------------------------------
+epoch 24, time 182.46, cls_loss 0.6676
+100
+cls_loss: tensor(0.6122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8873, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9678, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9639, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5939, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4793, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8746, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3789, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6093, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 25----------------------------------------------------
+epoch 25, time 182.63, cls_loss 0.6359
+100
+cls_loss: tensor(0.6362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5816, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7623, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5851, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6623, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4884, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6923, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6910, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4926, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7785, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4904, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4959, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4981, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 26, time 182.69, cls_loss 0.6211
+100
+cls_loss: tensor(0.7790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7595, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5631, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3871, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5851, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6930, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5968, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5931, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8905, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6933, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6770, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5806, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5803, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 27, time 182.69, cls_loss 0.6134
+100
+cls_loss: tensor(0.7295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5380, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5692, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6831, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4832, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4960, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7886, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6748, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3996, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4491, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 28----------------------------------------------------
+epoch 28, time 182.95, cls_loss 0.5875
+100
+cls_loss: tensor(0.6105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4788, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5793, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7678, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3748, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4809, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5978, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 29----------------------------------------------------
+epoch 29, time 182.97, cls_loss 0.5629
+100
+cls_loss: tensor(0.5179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2892, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5948, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4692, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5748, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7837, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4850, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4945, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2595, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4934, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 30, time 182.71, cls_loss 0.5500
+100
+cls_loss: tensor(0.5226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4921, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7948, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4940, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7904, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5825, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5280, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 31, time 182.49, cls_loss 0.5263
+100
+cls_loss: tensor(0.3079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4929, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5871, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4871, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7956, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6980, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2915, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4631, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5930, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4968, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3923, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5780, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5746, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3991, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3912, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3217, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 32, time 182.04, cls_loss 0.5264
+100
+cls_loss: tensor(0.2748, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6778, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3960, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5728, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4873, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7825, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5986, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5986, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4793, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7491, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 33, time 181.62, cls_loss 0.4934
+100
+cls_loss: tensor(0.4167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5701, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4794, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3871, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3773, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4915, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6748, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2806, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5963, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5997, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2960, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3229, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 34, time 182.03, cls_loss 0.4776
+100
+cls_loss: tensor(0.8007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3785, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5991, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3837, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5725, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2952, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3886, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4921, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2996, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3388, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 35, time 182.11, cls_loss 0.4587
+100
+cls_loss: tensor(0.3386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1948, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2748, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3963, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4939, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2786, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4712, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3777, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4942, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5649, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1980, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3955, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7679, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3962, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5650, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 36, time 182.03, cls_loss 0.4303
+100
+cls_loss: tensor(0.2461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3907, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6944, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4942, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2564, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2845, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4439, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 37, time 182.14, cls_loss 0.4102
+100
+cls_loss: tensor(0.6017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3748, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4785, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1639, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1940, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4586, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3816, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1746, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3785, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3850, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3869, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3504, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 38, time 181.69, cls_loss 0.4135
+100
+cls_loss: tensor(0.3605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4861, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3728, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3769, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5746, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5961, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6930, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2997, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2926, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3669, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 39, time 181.99, cls_loss 0.3995
+100
+cls_loss: tensor(0.1472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6930, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1809, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4997, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3952, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4926, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6969, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5786, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3884, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3006, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 40, time 181.76, cls_loss 0.3803
+100
+cls_loss: tensor(0.2146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1886, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3998, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4825, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1623, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5861, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4931, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4969, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3934, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3778, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4746, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4957, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3930, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7923, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 41, time 181.85, cls_loss 0.3892
+100
+cls_loss: tensor(0.1455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2695, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4929, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3746, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2980, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1786, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5550, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6831, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2912, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2923, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3679, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3293, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 42----------------------------------------------------
+epoch 42, time 181.68, cls_loss 0.3526
+100
+cls_loss: tensor(0.3209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4933, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4816, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2769, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0701, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1639, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3864, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4848, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1838, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3763, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 43, time 181.70, cls_loss 0.3728
+100
+cls_loss: tensor(0.2421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2555, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3873, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3873, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1951, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1801, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2662, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3912, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2933, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2861, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3491, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 44, time 181.75, cls_loss 0.3538
+100
+cls_loss: tensor(0.4396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1951, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7679, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2986, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2979, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3956, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2864, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4905, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3961, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2942, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1728, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3822, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 45, time 182.09, cls_loss 0.3350
+100
+cls_loss: tensor(0.2327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1678, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2780, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3778, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3930, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5294, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 46, time 181.65, cls_loss 0.3007
+100
+cls_loss: tensor(0.2878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3746, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1516, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2930, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1978, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3678, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3026, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 47----------------------------------------------------
+epoch 47, time 182.27, cls_loss 0.2936
+100
+cls_loss: tensor(0.1747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1996, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2904, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4816, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2691, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4916, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2754, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2923, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6032, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 48, time 181.69, cls_loss 0.3251
+100
+cls_loss: tensor(0.3330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5786, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2920, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3794, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4380, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2892, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3960, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4946, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2998, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1957, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1956, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2905, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2778, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1678, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2920, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4153, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 49, time 181.59, cls_loss 0.2937
+100
+cls_loss: tensor(0.2437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3550, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2623, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0770, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2963, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3948, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2963, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1997, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2743, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3794, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2728, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2568, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 50----------------------------------------------------
+epoch 50, time 182.08, cls_loss 0.2901
+100
+cls_loss: tensor(0.1298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0928, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1564, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3957, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2951, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2873, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2912, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1816, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3555, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2459, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 51, time 181.65, cls_loss 0.2588
+100
+cls_loss: tensor(0.2445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1728, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1884, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0907, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0777, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3816, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3944, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0725, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1778, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2945, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3418, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 52, time 181.75, cls_loss 0.2353
+100
+cls_loss: tensor(0.4048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1986, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1939, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1831, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2550, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2979, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1871, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2842, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4930, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 53, time 182.10, cls_loss 0.2449
+100
+cls_loss: tensor(0.5333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3778, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1920, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2994, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1848, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2926, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1959, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3748, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0968, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1931, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1960, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1738, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 54, time 181.99, cls_loss 0.2617
+100
+cls_loss: tensor(0.3551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0838, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2961, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2948, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1986, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1662, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3979, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2996, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0921, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1912, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1969, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4579, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 55, time 182.03, cls_loss 0.2681
+100
+cls_loss: tensor(0.1368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3725, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0963, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0778, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3976, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1986, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2837, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2695, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1940, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2912, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4769, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3723, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3892, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1930, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2925, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1976, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1631, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3024, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 56, time 181.95, cls_loss 0.2233
+100
+cls_loss: tensor(0.1732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1991, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3960, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0639, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1516, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3945, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2861, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1778, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0912, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2275, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 57, time 181.83, cls_loss 0.2456
+100
+cls_loss: tensor(0.1410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1692, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1586, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3905, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2550, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3907, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3788, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1925, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3904, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0919, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 58, time 181.97, cls_loss 0.2123
+100
+cls_loss: tensor(0.1692, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2754, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2850, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0848, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1916, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1998, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1607, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0925, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1851, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1837, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1825, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0809, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2952, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0925, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4286, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 59, time 181.86, cls_loss 0.2182
+100
+cls_loss: tensor(0.0880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0923, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1962, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0794, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0957, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3980, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3712, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1773, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2996, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0723, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2365, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 60, time 182.00, cls_loss 0.2060
+100
+cls_loss: tensor(0.1387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1997, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1662, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2944, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0946, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1886, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2773, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1931, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1921, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1806, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1978, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0980, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1884, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2435, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 61, time 182.01, cls_loss 0.2162
+100
+cls_loss: tensor(0.1360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1928, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2848, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1994, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1905, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0963, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1837, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2649, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1921, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1789, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1650, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 62, time 181.87, cls_loss 0.1768
+100
+cls_loss: tensor(0.3925, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3564, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2986, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1960, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2942, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2728, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0952, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0864, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1921, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0892, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 63, time 181.99, cls_loss 0.1934
+100
+cls_loss: tensor(0.0760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2806, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1831, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1586, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1942, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0864, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0809, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1662, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1252, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 64, time 182.12, cls_loss 0.1679
+100
+cls_loss: tensor(0.1683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0980, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2963, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1902, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2770, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0725, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1864, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1978, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4945, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0712, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1670, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 65, time 181.79, cls_loss 0.1513
+100
+cls_loss: tensor(0.1094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2746, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1691, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2969, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1816, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0955, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2994, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0921, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1994, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2375, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 66, time 181.81, cls_loss 0.1830
+100
+cls_loss: tensor(0.1567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1916, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0927, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0962, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1956, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0925, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1884, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0961, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1746, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0960, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0728, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0842, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0933, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0475, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 67, time 181.63, cls_loss 0.1695
+100
+cls_loss: tensor(0.2305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0380, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5861, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1848, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2555, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4864, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5550, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1961, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0968, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1980, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0946, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4845, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2699, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 68, time 181.65, cls_loss 0.2151
+100
+cls_loss: tensor(0.2077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1555, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0904, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0725, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2952, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0778, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0944, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2956, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0659, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 69, time 181.73, cls_loss 0.1747
+100
+cls_loss: tensor(0.1804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0825, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0944, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0871, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2916, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2586, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1832, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0861, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1959, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0931, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1892, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0892, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0923, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0770, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0912, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1005, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 70, time 181.89, cls_loss 0.1611
+100
+cls_loss: tensor(0.0896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2929, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2778, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0892, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1976, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0957, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1969, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0725, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0794, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1505, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 71, time 181.78, cls_loss 0.1409
+100
+cls_loss: tensor(0.2119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2793, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1623, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0607, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0926, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0939, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1959, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1607, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0869, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1926, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1806, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1994, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1962, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0886, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3360, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 72, time 182.02, cls_loss 0.1552
+100
+cls_loss: tensor(0.0891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1892, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2939, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1968, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1892, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0945, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0631, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2904, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0994, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0837, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0998, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0539, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 73, time 181.96, cls_loss 0.1751
+100
+cls_loss: tensor(0.1695, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0808, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0754, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0869, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1979, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2785, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0743, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1925, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0978, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2701, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0961, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1934, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0905, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2679, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2192, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 74, time 181.98, cls_loss 0.1424
+100
+cls_loss: tensor(0.2372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1871, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2928, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1809, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0848, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0915, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0873, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0788, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 75, time 181.81, cls_loss 0.1479
+100
+cls_loss: tensor(0.2626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1806, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0902, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1851, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2873, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0953, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1743, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1864, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0849, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 76, time 181.52, cls_loss 0.1632
+100
+cls_loss: tensor(0.0480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0691, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1892, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1565, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0940, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0701, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2723, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0978, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0809, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0873, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0835, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0648, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 77----------------------------------------------------
+epoch 77, time 182.15, cls_loss 0.1436
+100
+cls_loss: tensor(0.0755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0861, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0808, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1595, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1746, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1816, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0976, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1725, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2835, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0944, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2743, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1851, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1435, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 78, time 181.86, cls_loss 0.1121
+100
+cls_loss: tensor(0.0527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0979, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0816, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0884, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1746, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1835, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0725, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0801, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0649, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0916, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 79, time 181.90, cls_loss 0.1170
+100
+cls_loss: tensor(0.2415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0886, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0920, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2982, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0623, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0989, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 80, time 181.83, cls_loss 0.1138
+100
+cls_loss: tensor(0.0473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0912, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0925, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0788, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0884, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0945, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0963, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0623, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4959, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0845, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1623, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0691, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0825, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2806, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0944, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 81, time 181.98, cls_loss 0.1567
+100
+cls_loss: tensor(0.2511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0725, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0959, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0904, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0808, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2769, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0940, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0959, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1205, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 82, time 181.87, cls_loss 0.1422
+100
+cls_loss: tensor(0.1305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0925, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1786, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0904, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0904, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0955, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1969, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0582, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 83, time 182.15, cls_loss 0.1114
+100
+cls_loss: tensor(0.4540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3927, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0773, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0962, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1944, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0957, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1997, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2831, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0808, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0991, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1449, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 84, time 181.75, cls_loss 0.1159
+100
+cls_loss: tensor(0.1403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1969, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0962, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0921, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1904, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0816, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1963, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0861, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0930, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0848, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1029, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 85, time 181.65, cls_loss 0.1011
+100
+cls_loss: tensor(0.1018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1907, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1998, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1902, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0991, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1825, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1979, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0712, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1816, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2788, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 86, time 182.02, cls_loss 0.1193
+100
+cls_loss: tensor(0.2521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2956, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0864, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0955, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0748, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2907, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0960, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2108, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 87, time 181.87, cls_loss 0.1497
+100
+cls_loss: tensor(0.0536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0921, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1904, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1928, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0499, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 88, time 181.76, cls_loss 0.1331
+100
+cls_loss: tensor(0.0299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0956, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0976, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0806, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0871, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0929, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0564, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1793, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0773, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2191, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 89, time 182.19, cls_loss 0.1006
+100
+cls_loss: tensor(0.0710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1861, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0905, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0968, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0516, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0929, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0902, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0285, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 90, time 182.36, cls_loss 0.0891
+100
+cls_loss: tensor(0.1350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0991, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0944, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1788, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0978, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0869, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0976, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1837, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1996, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0934, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2952, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1663, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 91, time 182.32, cls_loss 0.1021
+100
+cls_loss: tensor(0.0910, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0728, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0933, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0743, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0649, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0916, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1777, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0816, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2927, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2214, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 92, time 182.17, cls_loss 0.1216
+100
+cls_loss: tensor(0.0646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1770, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0959, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0963, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0835, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0910, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1961, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1723, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0706, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 93, time 181.97, cls_loss 0.1505
+100
+cls_loss: tensor(0.1319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0892, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0773, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1921, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1910, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0786, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1712, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0631, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1692, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 94, time 181.86, cls_loss 0.1161
+100
+cls_loss: tensor(0.0385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0623, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0907, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1982, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0939, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0968, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1848, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0295, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 95, time 181.74, cls_loss 0.0986
+100
+cls_loss: tensor(0.1133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0809, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0962, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1912, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0998, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0982, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1832, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2319, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 96, time 181.78, cls_loss 0.0813
+100
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0921, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0910, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0789, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1565, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 97, time 181.82, cls_loss 0.0745
+100
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0725, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0564, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2929, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0952, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1380, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0904, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0565, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1955, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0902, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 98, time 182.03, cls_loss 0.0993
+100
+cls_loss: tensor(0.0449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0942, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0793, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0945, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0786, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1907, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0691, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0873, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1997, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0754, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0806, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0479, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 99, time 181.99, cls_loss 0.0871
+100
+cls_loss: tensor(0.0421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0555, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0923, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0786, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0565, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0948, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0793, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0780, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2910, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0453, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 100, time 182.06, cls_loss 0.0818
+100
+cls_loss: tensor(0.0434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0945, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0809, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0785, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1136, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 101, time 182.08, cls_loss 0.0989
+100
+cls_loss: tensor(0.0799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0649, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0595, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0886, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0649, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0910, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1931, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1801, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1331, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 102, time 181.69, cls_loss 0.0943
+100
+cls_loss: tensor(0.1304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2692, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0904, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1649, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0850, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0837, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0946, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1565, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0923, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0907, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0907, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1884, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0850, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0738, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 103, time 181.95, cls_loss 0.1023
+100
+cls_loss: tensor(0.1445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1933, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0979, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 104, time 182.08, cls_loss 0.1027
+100
+cls_loss: tensor(0.1546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0555, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0955, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1631, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0959, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0869, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0957, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0851, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1679, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3516, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0928, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1924, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 105, time 182.06, cls_loss 0.1148
+100
+cls_loss: tensor(0.0496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0723, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1848, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1933, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0649, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0780, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0769, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 106, time 182.04, cls_loss 0.1094
+100
+cls_loss: tensor(0.2140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0743, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0785, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0959, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0794, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0550, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0748, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0996, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1942, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 107, time 182.13, cls_loss 0.0729
+100
+cls_loss: tensor(0.0503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1679, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0786, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0619, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 108, time 182.04, cls_loss 0.0695
+100
+cls_loss: tensor(0.1182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2778, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2996, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0837, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0869, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1904, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 109, time 182.10, cls_loss 0.0663
+100
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0831, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0925, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0770, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0998, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0910, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0549, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 110, time 182.12, cls_loss 0.0816
+100
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0723, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0607, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0794, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1962, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1690, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 111, time 182.20, cls_loss 0.0832
+100
+cls_loss: tensor(0.0519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3728, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2907, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1921, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0998, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0678, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0743, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0831, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0712, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0535, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 112, time 181.79, cls_loss 0.1207
+100
+cls_loss: tensor(0.0397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0793, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1934, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0873, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0649, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0931, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0662, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0907, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0789, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0595, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0991, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0382, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 113, time 182.12, cls_loss 0.0922
+100
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0873, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2679, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0952, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0968, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0806, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0595, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1701, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 114, time 181.64, cls_loss 0.0860
+100
+cls_loss: tensor(0.0541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0835, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0565, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0927, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1516, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0892, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0662, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0396, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 115, time 181.92, cls_loss 0.0823
+100
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0806, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0662, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0968, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0746, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0921, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0933, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1979, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1639, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 116, time 182.03, cls_loss 0.0861
+100
+cls_loss: tensor(0.0863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1850, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0712, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1920, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 117, time 181.99, cls_loss 0.0853
+100
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0623, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1892, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0959, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1838, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0607, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0623, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3555, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1701, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 118, time 181.73, cls_loss 0.0851
+100
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0842, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0873, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0953, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0565, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1809, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1996, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0904, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2770, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0943, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 119, time 181.94, cls_loss 0.0954
+100
+cls_loss: tensor(0.0601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1905, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1957, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0786, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0806, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 120, time 181.68, cls_loss 0.0792
+100
+cls_loss: tensor(0.1353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0786, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0979, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0564, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0902, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 121, time 181.87, cls_loss 0.0544
+100
+cls_loss: tensor(0.0943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0915, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0934, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1723, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1317, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 122, time 181.93, cls_loss 0.0714
+100
+cls_loss: tensor(0.0707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1831, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1986, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0997, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0933, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0769, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0785, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0928, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0961, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0892, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 123, time 181.92, cls_loss 0.0593
+100
+cls_loss: tensor(0.0625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2825, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0850, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0915, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0809, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1728, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 124, time 181.94, cls_loss 0.0714
+100
+cls_loss: tensor(0.1110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0925, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0838, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0743, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0723, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0748, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 125, time 181.98, cls_loss 0.0573
+100
+cls_loss: tensor(0.0863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1996, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1000, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1799, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 126, time 181.92, cls_loss 0.0685
+100
+cls_loss: tensor(0.1097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0789, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0837, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1998, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0816, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1701, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1620, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 127, time 182.19, cls_loss 0.0751
+100
+cls_loss: tensor(0.0562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0960, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0832, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0940, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0944, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0902, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0998, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0806, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 128, time 181.68, cls_loss 0.0752
+100
+cls_loss: tensor(0.0627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0926, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0516, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1649, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0902, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4000, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4564, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0780, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0723, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0968, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1864, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0586, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0780, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0905, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 129, time 181.97, cls_loss 0.1064
+100
+cls_loss: tensor(0.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0873, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0926, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1725, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1832, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0869, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1930, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0701, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0873, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0907, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0782, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 130, time 182.13, cls_loss 0.0621
+100
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0380, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0961, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0998, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0723, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0555, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0728, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0747, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 131, time 182.13, cls_loss 0.0419
+100
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0942, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0944, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0831, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0565, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0955, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2931, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 132, time 181.99, cls_loss 0.0582
+100
+cls_loss: tensor(0.1111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0786, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0933, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0916, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1869, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1588, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 133, time 182.23, cls_loss 0.0569
+100
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0910, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0946, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0931, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1682, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 134, time 181.73, cls_loss 0.0607
+100
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6910, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0968, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0997, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 135, time 182.09, cls_loss 0.0796
+100
+cls_loss: tensor(0.0328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0928, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0907, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0586, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0912, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2994, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1979, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0848, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0931, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0463, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 136, time 182.58, cls_loss 0.0635
+100
+cls_loss: tensor(0.0826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0976, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0968, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1902, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 137, time 182.15, cls_loss 0.0795
+100
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0962, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0607, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0933, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1809, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0939, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1960, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0607, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 138, time 181.64, cls_loss 0.0925
+100
+cls_loss: tensor(0.1194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0864, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1930, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1000, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0838, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0955, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1809, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2037, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 139, time 181.95, cls_loss 0.1050
+100
+cls_loss: tensor(0.0353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0785, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0793, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2956, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0539, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 140, time 182.05, cls_loss 0.0962
+100
+cls_loss: tensor(0.0752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0904, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0516, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0564, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0940, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1794, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0549, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 141, time 182.89, cls_loss 0.0766
+100
+cls_loss: tensor(0.0411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1861, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0607, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 142, time 181.95, cls_loss 0.0578
+100
+cls_loss: tensor(0.1010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0953, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0933, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0948, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0942, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1380, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 143, time 181.86, cls_loss 0.0473
+100
+cls_loss: tensor(0.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1725, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0960, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0997, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5586, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0754, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0825, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0933, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0729, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 144, time 182.05, cls_loss 0.0472
+100
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0940, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0801, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0923, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1816, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0649, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 145, time 181.68, cls_loss 0.0378
+100
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 146, time 181.78, cls_loss 0.0419
+100
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1000, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0876, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 147, time 182.07, cls_loss 0.0474
+100
+cls_loss: tensor(0.0278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0884, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0806, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0869, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 148, time 182.19, cls_loss 0.0349
+100
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0884, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0845, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0907, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0927, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9625e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0907, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0747, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6098, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 149, time 181.86, cls_loss 0.0639
+100
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0631, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0952, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0785, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0422, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 150, time 182.00, cls_loss 0.0508
+100
+cls_loss: tensor(0.0488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0980, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0701, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0864, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0991, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1939, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0920, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 151, time 182.04, cls_loss 0.0721
+100
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1926, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1871, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1915, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1489, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 152, time 181.96, cls_loss 0.1119
+100
+cls_loss: tensor(0.0369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0930, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1963, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1000, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0835, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0871, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1960, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0595, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0904, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0944, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0565, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 153, time 181.61, cls_loss 0.0857
+100
+cls_loss: tensor(0.0615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0835, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0692, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0785, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0925, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0991, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0869, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0953, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0886, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 154, time 181.55, cls_loss 0.0740
+100
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0940, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0691, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1928, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 155, time 181.59, cls_loss 0.0413
+100
+cls_loss: tensor(0.1669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0770, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1789, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5748, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1789, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2116, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 156, time 181.81, cls_loss 0.0624
+100
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0952, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 157, time 181.92, cls_loss 0.0348
+100
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0957, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0808, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 158, time 182.11, cls_loss 0.0519
+100
+cls_loss: tensor(0.0648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0555, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0623, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0978, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1000, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0825, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 159, time 182.25, cls_loss 0.0464
+100
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1953, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0998, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0902, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0564, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 160, time 182.23, cls_loss 0.0377
+100
+cls_loss: tensor(0.2825, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0808, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 161, time 181.71, cls_loss 0.0451
+100
+cls_loss: tensor(0.0765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0948, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0845, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0777, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0959, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0864, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1480, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 162, time 181.75, cls_loss 0.0378
+100
+cls_loss: tensor(0.0296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0806, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0691, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1997, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0793, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1679, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 163, time 182.01, cls_loss 0.0551
+100
+cls_loss: tensor(0.2520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0848, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0746, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0639, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0960, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0623, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 164, time 181.71, cls_loss 0.0456
+100
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 165, time 180.88, cls_loss 0.0434
+100
+cls_loss: tensor(0.0837, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0902, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0695, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0933, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0757, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 166, time 180.51, cls_loss 0.0322
+100
+cls_loss: tensor(0.1234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1786, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0780, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0886, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 167, time 180.31, cls_loss 0.0448
+100
+cls_loss: tensor(0.1066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0607, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0986, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1930, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0934, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0662, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0951, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0955, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 168, time 180.23, cls_loss 0.0628
+100
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0550, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2662, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0940, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0861, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0788, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 169, time 180.07, cls_loss 0.0702
+100
+cls_loss: tensor(0.0955, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0794, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1835, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0953, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0942, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3939, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 170, time 180.03, cls_loss 0.0696
+100
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0996, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0516, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0831, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0861, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 171, time 179.98, cls_loss 0.0670
+100
+cls_loss: tensor(0.0431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0565, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0861, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0957, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1631, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0948, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0934, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0851, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0835, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0944, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 172, time 180.04, cls_loss 0.0921
+100
+cls_loss: tensor(0.0939, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0927, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0662, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0939, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0809, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0933, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 173, time 179.82, cls_loss 0.0772
+100
+cls_loss: tensor(0.1601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0905, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0837, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 174, time 180.21, cls_loss 0.0590
+100
+cls_loss: tensor(0.0318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0886, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0940, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 175----------------------------------------------------
+epoch 175, time 180.57, cls_loss 0.0403
+100
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0991, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1919, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0778, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0794, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0816, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0359, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 176, time 179.85, cls_loss 0.0464
+100
+cls_loss: tensor(0.0854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0946, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0778, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 177, time 180.69, cls_loss 0.0419
+100
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 178, time 180.24, cls_loss 0.0298
+100
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0743, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3627e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1997, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0725, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0904, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 179, time 180.23, cls_loss 0.0243
+100
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 180, time 180.04, cls_loss 0.0261
+100
+cls_loss: tensor(0.1043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0933, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0550, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0754, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0980, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0728, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0639, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0638, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0708, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 181, time 180.07, cls_loss 0.0405
+100
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0550, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0983, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 182----------------------------------------------------
+epoch 182, time 180.41, cls_loss 0.0311
+100
+cls_loss: tensor(0.1585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0723, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1886, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3427e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1858e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0982, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0607, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 183, time 180.20, cls_loss 0.0313
+100
+cls_loss: tensor(0.0987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0380, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0692, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0788, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 184, time 180.37, cls_loss 0.0380
+100
+cls_loss: tensor(0.0889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0639, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0639, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0942, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0801, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0982, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0607, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 185, time 180.42, cls_loss 0.0429
+100
+cls_loss: tensor(0.0404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0825, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0845, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0886, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0851, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1343, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 186, time 180.40, cls_loss 0.0528
+100
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0342, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0582, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 187, time 180.59, cls_loss 0.0500
+100
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 188, time 180.53, cls_loss 0.0367
+100
+cls_loss: tensor(0.0785, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0586, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 189, time 180.38, cls_loss 0.0366
+100
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0607, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1991, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1565, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4586, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0825, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0773, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0850, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1668, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 190, time 180.34, cls_loss 0.0799
+100
+cls_loss: tensor(0.0589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0623, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2848, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3845, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1916, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0955, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0953, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0930, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2884, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1956, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0723, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0930, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1825, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 191, time 180.65, cls_loss 0.1287
+100
+cls_loss: tensor(0.1760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1851, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 192, time 180.41, cls_loss 0.0843
+100
+cls_loss: tensor(0.3001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0770, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0994, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0942, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0980, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0743, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 193, time 180.63, cls_loss 0.0771
+100
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0933, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0512, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 194, time 180.78, cls_loss 0.0617
+100
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0786, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0778, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 195, time 180.76, cls_loss 0.0339
+100
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0978, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0754, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0777, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0788, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 196, time 180.70, cls_loss 0.0396
+100
+cls_loss: tensor(0.0858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0952, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 197, time 180.52, cls_loss 0.0287
+100
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0890, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0793, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 198, time 180.62, cls_loss 0.0239
+100
+cls_loss: tensor(0.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0770, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 199, time 180.11, cls_loss 0.0215
+100
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0864, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0564, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0955, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1565, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0942, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 200, time 180.20, cls_loss 0.0221
+100
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0939, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0676, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 201, time 180.58, cls_loss 0.0254
+100
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0952, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2978, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 202, time 180.73, cls_loss 0.0227
+100
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0712, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1986, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0465, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 203, time 180.40, cls_loss 0.0427
+100
+cls_loss: tensor(0.0311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2916, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0979, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0701, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0835, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 204, time 180.62, cls_loss 0.0425
+100
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0927, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1902, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0769, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0380, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0859, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 205, time 180.38, cls_loss 0.0369
+100
+cls_loss: tensor(0.1312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0564, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0832, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6243e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 206, time 180.36, cls_loss 0.0462
+100
+cls_loss: tensor(0.0898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0639, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0980e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0930, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0778, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3969, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0564, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2934, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0302, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 207, time 180.11, cls_loss 0.0838
+100
+cls_loss: tensor(0.0945, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5837, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0735, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0832, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1718, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0550, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0871, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 208, time 180.44, cls_loss 0.0864
+100
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 209, time 180.48, cls_loss 0.0424
+100
+cls_loss: tensor(0.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0923, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0794, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0791, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0851, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1957, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0441, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0748, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1564, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2102, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 210, time 180.65, cls_loss 0.0462
+100
+cls_loss: tensor(0.0217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0565, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0832, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0931, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0925, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0778, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 211, time 180.57, cls_loss 0.0445
+100
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0978, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0765, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0831, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0806, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0607, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0380, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1695, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 212, time 180.82, cls_loss 0.0446
+100
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 213, time 180.64, cls_loss 0.0399
+100
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0915, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0785, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1704, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0912, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1996, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0769, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0565, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0552, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 214, time 180.52, cls_loss 0.0660
+100
+cls_loss: tensor(0.0990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0939, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0963, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0928, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2032, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 215, time 180.71, cls_loss 0.0597
+100
+cls_loss: tensor(0.1189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0945, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0565, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 216, time 180.60, cls_loss 0.0576
+100
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0940, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0785, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0743, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0923, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 217, time 180.62, cls_loss 0.0425
+100
+cls_loss: tensor(0.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0537, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0712, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0871, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 218, time 180.49, cls_loss 0.0314
+100
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0939, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0725, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0873, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 219, time 180.31, cls_loss 0.0316
+100
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0869, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0777, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0554, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 220, time 180.70, cls_loss 0.0204
+100
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 221, time 180.66, cls_loss 0.0195
+100
+cls_loss: tensor(0.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8862e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8035e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7710e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 222, time 180.36, cls_loss 0.0201
+100
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4615e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7018e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 223, time 180.81, cls_loss 0.0143
+100
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0845, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7082e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0959, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0785, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0723, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1245, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 224, time 180.23, cls_loss 0.0279
+100
+cls_loss: tensor(0.0814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8787e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0691, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6440e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 225, time 180.58, cls_loss 0.0268
+100
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0931, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0959, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0905, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1633e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1904, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0963, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0970, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0788, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0986, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3583e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 226, time 180.38, cls_loss 0.0274
+100
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7775e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0916, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2021e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 227, time 180.45, cls_loss 0.0416
+100
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1130, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 228, time 180.37, cls_loss 0.0355
+100
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0968, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5683e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0649, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0691, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1845, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0996, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1748, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 229, time 180.61, cls_loss 0.0416
+100
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1850, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1752, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1946, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0946, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0929, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0777, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1819, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0346, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 230, time 180.77, cls_loss 0.0597
+100
+cls_loss: tensor(0.0656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0902, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0837, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0847, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0746, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0838, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1904, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0631, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0679, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0946, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0831, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0789, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 231, time 180.49, cls_loss 0.0821
+100
+cls_loss: tensor(0.1716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1869, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0692, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0748, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1834, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 232, time 180.36, cls_loss 0.0642
+100
+cls_loss: tensor(0.3302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0806, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0886, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0832, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0835, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 233, time 180.74, cls_loss 0.0522
+100
+cls_loss: tensor(0.1314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0998, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0695, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2952, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0778, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 234, time 180.17, cls_loss 0.0561
+100
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0695, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0927, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 235, time 179.98, cls_loss 0.0445
+100
+cls_loss: tensor(0.0466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0902, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0969, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1981, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1065, device='cuda:0', grad_fn=<NllLossBackward0>)
diff --git a/Meta-causal/code-stage1-pipeline/56526.error b/Meta-causal/code-stage1-pipeline/56526.error
new file mode 100644
index 0000000000000000000000000000000000000000..dba98d58d7937963999306a8f7218b42cac8d5ee
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/56526.error
@@ -0,0 +1,31 @@
+Traceback (most recent call last):
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-stage1-pipeline/main_test_pacs_v13.py", line 86, in <module>
+    main()
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvapqvk3mmem/lib/python3.11/site-packages/click/core.py", line 1157, in __call__
+    return self.main(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvapqvk3mmem/lib/python3.11/site-packages/click/core.py", line 1078, in main
+    rv = self.invoke(ctx)
+         ^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvapqvk3mmem/lib/python3.11/site-packages/click/core.py", line 1434, in invoke
+    return ctx.invoke(self.callback, **ctx.params)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvapqvk3mmem/lib/python3.11/site-packages/click/core.py", line 783, in invoke
+    return __callback(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-stage1-pipeline/main_test_pacs_v13.py", line 29, in main
+    evaluate_pacs(gpu, svroot, source_domain, svpath, factor_num, epoch, stride,eval_mapping, network)
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-stage1-pipeline/main_test_pacs_v13.py", line 42, in evaluate_pacs
+    saved_weight = torch.load(os.path.join(svroot, 'best_cls_net.pkl'))
+                   ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvapqvk3mmem/lib/python3.11/site-packages/torch/serialization.py", line 997, in load
+    with _open_file_like(f, 'rb') as opened_file:
+         ^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvapqvk3mmem/lib/python3.11/site-packages/torch/serialization.py", line 444, in _open_file_like
+    return _open_file(name_or_buffer, mode)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvapqvk3mmem/lib/python3.11/site-packages/torch/serialization.py", line 425, in __init__
+    super().__init__(open(name, mode))
+                     ^^^^^^^^^^^^^^^^
+FileNotFoundError: [Errno 2] No such file or directory: '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep30_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/best_cls_net.pkl'
+srun: error: gcpl4-eu-1: task 0: Exited with exit code 1
diff --git a/Meta-causal/code-stage1-pipeline/56526.log b/Meta-causal/code-stage1-pipeline/56526.log
new file mode 100644
index 0000000000000000000000000000000000000000..1ece7503c1ad1338d6f4d957f617386d42cebd82
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/56526.log
@@ -0,0 +1,4 @@
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep30_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5', 'source_domain': 'art_painting', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep30_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/art_painting_16factor_best_test_check.csv', 'factor_num': 16, 'epoch': 'best', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of best
diff --git a/Meta-causal/code-stage1-pipeline/56527.error b/Meta-causal/code-stage1-pipeline/56527.error
new file mode 100644
index 0000000000000000000000000000000000000000..2bd579eb38978e7fa1e67d92618d75bfaabd44b3
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/56527.error
@@ -0,0 +1,31 @@
+Traceback (most recent call last):
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-stage1-pipeline/main_test_digit_v13.py", line 84, in <module>
+    main()
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvapqvk3mmem/lib/python3.11/site-packages/click/core.py", line 1157, in __call__
+    return self.main(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvapqvk3mmem/lib/python3.11/site-packages/click/core.py", line 1078, in main
+    rv = self.invoke(ctx)
+         ^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvapqvk3mmem/lib/python3.11/site-packages/click/core.py", line 1434, in invoke
+    return ctx.invoke(self.callback, **ctx.params)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvapqvk3mmem/lib/python3.11/site-packages/click/core.py", line 783, in invoke
+    return __callback(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-stage1-pipeline/main_test_digit_v13.py", line 28, in main
+    evaluate_digit(gpu, svroot, svpath, channels, factor_num, stride,epoch, eval_mapping)
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-stage1-pipeline/main_test_digit_v13.py", line 42, in evaluate_digit
+    saved_weight = torch.load(os.path.join(svroot, 'best_cls_net.pkl'))
+                   ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvapqvk3mmem/lib/python3.11/site-packages/torch/serialization.py", line 997, in load
+    with _open_file_like(f, 'rb') as opened_file:
+         ^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvapqvk3mmem/lib/python3.11/site-packages/torch/serialization.py", line 444, in _open_file_like
+    return _open_file(name_or_buffer, mode)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvapqvk3mmem/lib/python3.11/site-packages/torch/serialization.py", line 425, in __init__
+    super().__init__(open(name, mode))
+                     ^^^^^^^^^^^^^^^^
+FileNotFoundError: [Errno 2] No such file or directory: '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep100_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/best_cls_net.pkl'
+srun: error: gcpl4-eu-1: task 0: Exited with exit code 1
diff --git a/Meta-causal/code-stage1-pipeline/56527.log b/Meta-causal/code-stage1-pipeline/56527.log
new file mode 100644
index 0000000000000000000000000000000000000000..3fb3c2fbae12943f0379a7bccbc53cc9cd261cb1
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/56527.log
@@ -0,0 +1,3 @@
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep100_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep100_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/14factor_best.csv', 'channels': 3, 'factor_num': 14, 'stride': 3, 'epoch': 'best', 'eval_mapping': True}
+loading weight of best
diff --git a/Meta-causal/code-stage1-pipeline/56528.error b/Meta-causal/code-stage1-pipeline/56528.error
new file mode 100644
index 0000000000000000000000000000000000000000..89474217af8112f2e4e5d05a7103bba0ccb52ddd
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/56528.error
@@ -0,0 +1,3 @@
+run_my_joint_v13_test.sh: line 25: ndm: command not found
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-stage1-pipeline/data_loader_joint_v3.py:426: UserWarning: To copy construct from a tensor, it is recommended to use sourceTensor.clone().detach() or sourceTensor.clone().detach().requires_grad_(True), rather than torch.tensor(sourceTensor).
+  x, y = torch.tensor(x), torch.tensor(y, dtype=torch.long)
diff --git a/Meta-causal/code-stage1-pipeline/56528.log b/Meta-causal/code-stage1-pipeline/56528.log
new file mode 100644
index 0000000000000000000000000000000000000000..ff3259a1c37b7fa77b234d82797257b99df418de
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/56528.log
@@ -0,0 +1,9332 @@
+/home/yuqian_fu
+{'gpu': '0', 'data': 'art_painting', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 5, 'factor_num': 16, 'epochs': 30, 'nbatch': 100, 'batchsize': 6, 'lr': 0.01, 'lr_scheduler': 'cosine', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep30_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_train.hdf5 torch.Size([1840, 3, 227, 227]) torch.Size([1840])
+--------------------------CA_multiple--------------------------
+---------------------------16 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_val.hdf5 torch.Size([208, 3, 227, 227]) torch.Size([208])
+-------------------------------------loading pretrain weights----------------------------------
+306
+cls_loss: tensor(2.3446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(17.9310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(36.5010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(35.8023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(19.3028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(19.2803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(17.4525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(15.1171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(20.6821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.4511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7550, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.6936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.9821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(19.3366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(17.5163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3700, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.7174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(22.5807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(23.5156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9980, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5980, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(17.5547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(17.2038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(16.7873, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.6703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4948, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.8472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.6823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.8991, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.0729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(16.5872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(19.4049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.4950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(24.6309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.7244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(15.6605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(16.7064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.1146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9922e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.1925, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.4371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7712, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(23.6750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.9434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0892, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(39.4583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.2708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(31.9609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(16.3997, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8835, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.5104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.2083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.4934, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(21.6758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.7370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(18.8994, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(17.0999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.5190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.1353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.5169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(17.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.2741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.1761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8777e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(22.5258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.2950, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.3756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.6576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.4193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.0755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.9922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.5917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2969, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(29.8678, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(20.5466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.5044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0892, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(15.9594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7100e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.0859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(39.3151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6380, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(16.5840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(18.2604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1920, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.4916, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.1998, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8933, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4958, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.9167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(15.8158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1838, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6850, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(15.2419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(16.6875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.1042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(22.6590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.2031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4945, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.3591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(22.2168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6994, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.6354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(18.9355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2566, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 301.10, cls_loss 7.5080
+306
+cls_loss: tensor(7.7917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.9401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2783e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.1868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.8099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(18.5547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2068e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1392e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3695, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2949, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0510e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0905, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.1877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3856e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8864e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.1272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7578, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.7507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2458e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6882e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1825, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8809e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9133e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.1198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.5834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(24.5313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.2891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1979, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.5286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1773, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9595, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(23.9271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0861, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.2166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0716, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6605e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(26.4141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.7318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2307e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.4118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(21.1185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.1224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.8021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(18.4313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4691e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.1328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.9935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0944, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5750e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1953, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3586, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.4421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.4375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.8646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(20.5742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0786, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8160e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(26.7812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.7331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.8438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6513, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1502, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7318, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.972609476841367e-05
+changing lr
+epoch 1, time 297.68, cls_loss 4.1508
+306
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9980, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.9948, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4723, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3844e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.8879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0903, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5808, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(34.0391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1842, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.9610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6890e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0464e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.3542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1890e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.4072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(16.3691, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1380, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(20.6589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.6606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7982e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(26.3333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4948, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.7673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8925, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1953, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0905, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1768, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0769, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5942e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.5260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.6703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8876e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1927, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7645e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9870e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.7396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5300e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9618, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.4076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.1784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8861, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0886, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6495, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9525e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8214e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0730e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9327e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2951, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(15.3555, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7957, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7484e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9918, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.7599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9332e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.2946, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2867, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(18.4948, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.1198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8181, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.890738003669029e-05
+changing lr
+epoch 2, time 302.80, cls_loss 2.9470
+306
+cls_loss: tensor(0.4344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4173e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(30.5417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8743e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0246e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2467e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(12.1016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5586, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2849e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7904, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1922e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.0521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4622, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6783e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8147e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(20.8870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5957, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8080e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5000, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5590e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8149e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9604e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4631, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8952, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(17.1893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1808, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0540, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5630e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0934, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.1250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4962, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7041e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(14.8685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3541, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7219e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5996, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4808, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0967e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6725, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4974e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6047e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2020e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6955e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(16.4661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0679, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0963, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.6146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5677e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+9.755282581475769e-05
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 300.19, cls_loss 1.8753
+306
+cls_loss: tensor(6.3925, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7022e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1825, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1929, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1027e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1193e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3631e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3945, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2122e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9912, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8959, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9746, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0564, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3326e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2992, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(15.9395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4571e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.0501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0929e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4505e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8835, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3838, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5000, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7889e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0955e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4451e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2709, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4573e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2786, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2139e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3061e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5386e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0912, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8169e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+9.567727288213003e-05
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 302.37, cls_loss 1.6264
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1895e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(15.3538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.2866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1895, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8743e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6133e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.7006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2784e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5986, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1285e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6922, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8478e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0911, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3511e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6439, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9604e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6591e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1380, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5837, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6400e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.1302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4003e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6332e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(13.4271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0108e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9657e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8611e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2586e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1953, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1953, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5934, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0806, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3869e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0134e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3649, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2616e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8745e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2584e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+9.330127018922194e-05
+changing lr
+---------------------saving model at epoch 5----------------------------------------------------
+epoch 5, time 321.56, cls_loss 0.9863
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8546e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5683e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2785e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0332e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1930, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3049e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1265e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5934, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9939, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4988e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.6368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6953, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1927, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1392e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1930, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1656e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7658e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8281e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3835, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0956, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0532e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6757e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2777, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6757e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7433e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0759, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0663e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1816, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2982e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1782e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0851, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8458e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6821, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9391e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0889e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8906, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1195e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8279e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+9.045084971874738e-05
+changing lr
+epoch 6, time 329.11, cls_loss 0.6325
+306
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6955e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3682, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8745e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4656e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2785e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0516, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1128e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(11.2057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1881e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3307e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0692, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3327e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1849e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0643, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5000, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1656e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4571e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1651e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8656e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6877e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0797e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1313e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(15.1355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4794, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1543e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0944, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4042e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4439e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8478e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5617e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8743e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0293e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8160e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0466e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1857e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8745e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(10.7670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8996e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1195e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9804e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7023e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0464e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0466e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5260e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2252e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5050e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+8.715724127386972e-05
+changing lr
+---------------------saving model at epoch 7----------------------------------------------------
+epoch 7, time 328.84, cls_loss 0.6575
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9804e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0061e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1586, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5934, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3619e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2180e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2916e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2786, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1825, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1690e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6498, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5764e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5678, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9525e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9920, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6413e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1656e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9630e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8942e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1128e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8624e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2835, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0749e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4676e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6193e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9955e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+8.345653031794292e-05
+changing lr
+---------------------saving model at epoch 8----------------------------------------------------
+epoch 8, time 330.88, cls_loss 0.3828
+306
+cls_loss: tensor(0.7207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9850, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4837, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6361e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0522, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1901e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3816e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0411e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2981e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2848e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6955e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3712, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4970e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8945, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(16.8367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0940, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0728, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5167e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3643e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2279e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4102e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6433e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4889, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7786, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0510e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2365e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2648, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8880, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2916e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5498e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3683e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2100e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2100e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+7.938926261462366e-05
+changing lr
+epoch 9, time 331.22, cls_loss 0.5072
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1922e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2451e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2571e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4146e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0669e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0863e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5199e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3247e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3332e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5590e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2968e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8610e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7816e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9948, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0723, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1392e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9009e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0960, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8503, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9405e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6294e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3326e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8201e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6623e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9948, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8551e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3963, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8736e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9604e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+7.500000000000001e-05
+changing lr
+---------------------saving model at epoch 10----------------------------------------------------
+epoch 10, time 332.14, cls_loss 0.2086
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5253e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2346e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6888e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4836e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2784e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5961e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0930e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5035e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9922e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0597e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8934e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0067e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4948, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4082e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0870e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6940, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4148e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7665e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0995, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1934, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6360e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0796e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1392e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5630e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9332e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3551e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7047e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4333e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2572e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3398e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1922e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0200e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+7.033683215379003e-05
+changing lr
+---------------------saving model at epoch 11----------------------------------------------------
+epoch 11, time 327.33, cls_loss 0.2434
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2280e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7393e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2835e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9008e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1822e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1195e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5432e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7116e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1166e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7754, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9540e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0664e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8016e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5764e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8035e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2718e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4835e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8936e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0347e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2788, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7923, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6757e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5259e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4175e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+6.545084971874738e-05
+changing lr
+epoch 12, time 329.78, cls_loss 0.1202
+306
+cls_loss: tensor(8.0665e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9512, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2876e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0398e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1518, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3444e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4320e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3942, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1208e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0851, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2874, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9935e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1895e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6814, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0466e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7220e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3848, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2718e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2625, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1285e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1643e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1764e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2174e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0832, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9657e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7433e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0425e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9525e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4637e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4107e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1326e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6982e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3049e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2755e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1067e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7537e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7088e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+6.039558454088797e-05
+changing lr
+epoch 13, time 329.34, cls_loss 0.0916
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4571e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7842e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2912, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4464e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5934, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4333e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0689e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0902e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5003e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5167e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9327e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0153e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0797e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7095e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8557e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5672e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4240e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0475, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1630e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2319e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0257, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7484e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2849e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6955e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0849e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+5.522642316338269e-05
+changing lr
+epoch 14, time 333.44, cls_loss 0.0604
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3444e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7023e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8030e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0134e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9103e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0087e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9332e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2862e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1590e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2676e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6397, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3577e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8837e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1590e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7087e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5517e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7843e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2862e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3844e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7485e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2431e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3619e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8346e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7751e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9273e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7352e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2955e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1869e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0715, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+5.000000000000002e-05
+changing lr
+---------------------saving model at epoch 15----------------------------------------------------
+epoch 15, time 329.08, cls_loss 0.0349
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8743e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9746, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6725, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1128e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5590e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1797e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1784e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0664e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9140e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1372e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2451e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2266e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9009e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8942e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6095e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8610e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0531e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0464e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+4.4773576836617344e-05
+changing lr
+epoch 16, time 329.02, cls_loss 0.0865
+306
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3252e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5517e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4808, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1358e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8214e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3818, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2365e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8876e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7154e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4069e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8676e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4813, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6757e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3949e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3305e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5764e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7041e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0510e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0894, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0977, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+3.9604415459112035e-05
+changing lr
+epoch 17, time 329.91, cls_loss 0.0235
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7226e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6890e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1717e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6690e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2252e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2652e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7949e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2347e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2981e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1325e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2849e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2175e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1319e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0206e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9074e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6067e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9326e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6068e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2233e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+3.4549150281252636e-05
+changing lr
+epoch 18, time 327.45, cls_loss 0.0265
+306
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5313e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5040e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3723e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6955e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8413e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6095e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2676e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0669e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4625e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6346e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7022e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0796e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0597e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1524e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7219e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4505e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0466e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2200e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0994e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+2.966316784621e-05
+changing lr
+epoch 19, time 330.49, cls_loss 0.0079
+306
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8374e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3240e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5129e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2637, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8014e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5764e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0332e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2312e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1590e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0200e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2200e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2254e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0232e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1901e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2848e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1724e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3444e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1086e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7484e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9313e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4106e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5040e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4683e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6757e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9645e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2254e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+2.5000000000000015e-05
+changing lr
+epoch 20, time 329.35, cls_loss 0.0503
+306
+cls_loss: tensor(6.5843e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1459e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8710e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7286e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9008e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0705e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9804e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2120e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1882e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9479, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8478e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5775e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3047e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8239e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0466e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7881e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7716e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8516, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+2.0610737385376352e-05
+changing lr
+epoch 21, time 326.17, cls_loss 0.0363
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2790e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4372e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5656e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4438e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3922e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4750e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4506e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2650e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0531e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0669e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6094e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9140e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4199e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3447e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7021e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6042e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0140e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0135e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9604e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+1.654346968205711e-05
+changing lr
+epoch 22, time 327.71, cls_loss 0.0188
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8358e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5994e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0610e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8736e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0987e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8080e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0201e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3578e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7617e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7219e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4639e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5100e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+1.2842758726130304e-05
+changing lr
+epoch 23, time 330.17, cls_loss 0.0121
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1591e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6292e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3544e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0925, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6570e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7213e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0915e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4239e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3910e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2122e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8949e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1127e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9008e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3910e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7156e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5499e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0851, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+9.549150281252636e-06
+changing lr
+epoch 24, time 328.04, cls_loss 0.0214
+306
+cls_loss: tensor(2.6623e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2916e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2121e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0782, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0200e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3512e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3844e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5221e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2718e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0464e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6988, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3944, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8122e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5924, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5775e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7552e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0069e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5775e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1075e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2518e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8577e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6559, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0464e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5167e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+6.698729810778068e-06
+changing lr
+epoch 25, time 329.09, cls_loss 0.0270
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3976e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0267e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2385e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5193e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6212e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2385e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5882e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6689e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5697e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7365e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0001e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2862e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1094e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1564e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4068e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8279e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5457e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3381e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2386e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6560e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3491e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0466e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7021e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5193e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1743, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1339e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5698e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9213e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+4.322727117869953e-06
+changing lr
+epoch 26, time 328.98, cls_loss 0.0144
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3233e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4637e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1062e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7220e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2318e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7186e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2981e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8014e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5566e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0972, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5332e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3644e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7155e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1870e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7676e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7683e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9539e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5763e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5696e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3351e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9010e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5279e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5055e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3645e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0597e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8100e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5817e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+2.447174185242324e-06
+changing lr
+epoch 27, time 334.18, cls_loss 0.0122
+306
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9802e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5385e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0797e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1345e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1855e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0530e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2452e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3454, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3710e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5367e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5829e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5433e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4756e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7750e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5631e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6955e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0134e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7354e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1990e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0663e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2259e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3908e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0755, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1592e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9341e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6149e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5498e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2716e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4493e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7551e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1657e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+1.092619963309716e-06
+changing lr
+epoch 28, time 332.14, cls_loss 0.0115
+306
+cls_loss: tensor(3.3776e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7353e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9671e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1921e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2107e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9207e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2849e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8477e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0339e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0598e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8148e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1348, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1789e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1394e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7618e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4174e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0002e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8014e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4571e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7815e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1460e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9027e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3862e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8612e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0416, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9473e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5914e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1922e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7829e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5558e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2040e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3709e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7420e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1723e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7617e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7023e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4504e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9736e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8743e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9868e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5895e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-08, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0., device='cuda:0', grad_fn=<NllLossBackward0>)
+2.7390523158633003e-07
+changing lr
+epoch 29, time 333.24, cls_loss 0.0053
+---------------------saving last model at epoch 29----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep30_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5', 'source_domain': 'art_painting', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep30_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/art_painting_16factor_best_test_check.csv', 'factor_num': 16, 'epoch': 'best', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of best
+columns: ['art_painting', 'cartoon', 'photo', 'sketch']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+                     art_painting    cartoon      photo     sketch        Avg
+w/o do (original x)     18.505859  16.595563  11.317365  19.648766  15.853898
diff --git a/Meta-causal/code-stage1-pipeline/56529.error b/Meta-causal/code-stage1-pipeline/56529.error
new file mode 100644
index 0000000000000000000000000000000000000000..6719d172fffc992e3a94bb0e7c93ae4f696e52cd
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/56529.error
@@ -0,0 +1 @@
+run_my_joint_test.sh: line 24: randm: command not found
diff --git a/Meta-causal/code-stage1-pipeline/56529.log b/Meta-causal/code-stage1-pipeline/56529.log
new file mode 100644
index 0000000000000000000000000000000000000000..37ddaf98d8e631bf6ee50e8252e96f04757d2a0c
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/56529.log
@@ -0,0 +1,10437 @@
+/home/yuqian_fu
+{'gpu': '0', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 100, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep100_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+--------------------------CA_multiple--------------------------
+---------------------------14 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+100
+cls_loss: tensor(2.3018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2967, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2914, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2888, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2769, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0939, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9794, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5920, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5893, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0905, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.9361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8701, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6842, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6843, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2978, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4986, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5725, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4988, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 182.72, cls_loss 1.1179
+100
+cls_loss: tensor(0.6869, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3712, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5848, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.7101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.8156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3784, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4575, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4822, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1930, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3789, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4645, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2827, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1476, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2374, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1842, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2830, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1787, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2944, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2850, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2945, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1723, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 181.61, cls_loss 0.3343
+100
+cls_loss: tensor(0.1039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1866, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1647, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1711, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4902, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1920, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3517, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1758, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1861, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1834, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1858, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1815, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0743, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3965, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1845, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2842, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0864, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0932, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1733, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4873, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0675, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 181.39, cls_loss 0.2231
+100
+cls_loss: tensor(0.0775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1921, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4841, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1923, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4641, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0728, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1533, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2955, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1904, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0794, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1838, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1490, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0998, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4826, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2966, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2347, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1779, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3870, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0353, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 180.81, cls_loss 0.1847
+100
+cls_loss: tensor(0.1245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0938, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1793, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0803, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0948, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2381, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3650, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3569, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0921, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1553, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0666, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2640, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1662, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0415, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 180.77, cls_loss 0.1422
+100
+cls_loss: tensor(0.0446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0878, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0770, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2492, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0271, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0745, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0798, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2605, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1547, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0985, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1556, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2769, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.6162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0989, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1869, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1494, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0835, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0302, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1760, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0756, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3796, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1589, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 5, time 180.23, cls_loss 0.1221
+100
+cls_loss: tensor(0.0415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0729, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1865, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0838, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0690, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0971, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0623, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0832, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1991, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0799, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3636, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0839, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2863, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0983, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0586, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0899, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1574, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1998, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0848, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1687, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1683, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2951, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2788, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1871, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1557, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2597, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 6----------------------------------------------------
+epoch 6, time 179.72, cls_loss 0.1258
+100
+cls_loss: tensor(0.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0905, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1000, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2734, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0411, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0994, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0921, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0592, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0980, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0565, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0990, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1628, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2706, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2776, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2881, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0739, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4801, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0340, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0712, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0525, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 7----------------------------------------------------
+epoch 7, time 178.45, cls_loss 0.0844
+100
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0908, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0428, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0624, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1567, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0444, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1986, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0626, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0963, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1810, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0795, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0786, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.5539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1927, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0673, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0804, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0952, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0472, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0442, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0561, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 8----------------------------------------------------
+epoch 8, time 178.44, cls_loss 0.0747
+100
+cls_loss: tensor(0.2122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0692, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0678, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1975, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1288, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0710, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0850, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1678, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0777, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0896, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0811, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0523, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0721, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0997, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0859, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0467, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0469, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0542, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2915, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 9, time 178.73, cls_loss 0.0658
+100
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0973, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0510, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0764, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0681, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1807, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1767, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0675, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1898, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0612, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0247, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0697, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0551, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0594, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0847, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 10----------------------------------------------------
+epoch 10, time 178.65, cls_loss 0.0630
+100
+cls_loss: tensor(0.1233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1615, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0913, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1582, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1749, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0431, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1455, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0351, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0978, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0930, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0886, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0346, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0728, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2269, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 11, time 178.47, cls_loss 0.0731
+100
+cls_loss: tensor(0.0491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0402, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0823, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0781, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2191, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0691, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0954, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0497, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0583, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1685, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0805, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0369, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0456, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2754, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0751, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2606, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0573, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0423, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0857, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0408, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0678, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0598, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0693, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0322, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3584, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 12----------------------------------------------------
+epoch 12, time 178.58, cls_loss 0.0598
+100
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0771, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0820, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0368, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1514, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0653, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0487, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0450, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0738, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1792, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0696, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0500, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1907, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0750, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0630, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0493, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 13----------------------------------------------------
+epoch 13, time 178.67, cls_loss 0.0462
+100
+cls_loss: tensor(0.0509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0477, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1806, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0443, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0633, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4964, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0509, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0836, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1607, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0900, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1485, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0621, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1576, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0763, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0671, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0727, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0318, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0238, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1812, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 14, time 179.05, cls_loss 0.0505
+100
+cls_loss: tensor(0.0564, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0506, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0917, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0294, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0695, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0929, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0634, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0817, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0564, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0414, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0667, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0644, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0731, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1676, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 15, time 179.05, cls_loss 0.0410
+100
+cls_loss: tensor(0.0254, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0354, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0499, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0462, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0891, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1743, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0535, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0933, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0658, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1933, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0324, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0855, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0536, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0672, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0483, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0545, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0478, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 16----------------------------------------------------
+epoch 16, time 179.14, cls_loss 0.0373
+100
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0445, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0387, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0828, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1486, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0482, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0941, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1565, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0720, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0401, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0703, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1852, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0463, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0192, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0244, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0538, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0587, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0364, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0570, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 17, time 179.44, cls_loss 0.0374
+100
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0762, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0308, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0848, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1345, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0732, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0849, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1946, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0507, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0375, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 18, time 179.42, cls_loss 0.0304
+100
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1774, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0246, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0554, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0723, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1635, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0980, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0419, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0586, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0656, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0929, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0563, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0904, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0730, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1861, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1829, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 19, time 179.24, cls_loss 0.0376
+100
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0449, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0164, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0742, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0328, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0440, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0452, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1909, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0363, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0790, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0424, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0824, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0886, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1846, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0691, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0589, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0532, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 20, time 179.34, cls_loss 0.0289
+100
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0766, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0331, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0544, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1661, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3797, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0723, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0744, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0937, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0474, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0840, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0882, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0311, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0741, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0570, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 21, time 179.59, cls_loss 0.0318
+100
+cls_loss: tensor(0.0655, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0832, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0931, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1425, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0418, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0310, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0875, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0258, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0717, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0619, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 22, time 179.67, cls_loss 0.0259
+100
+cls_loss: tensor(0.1163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0562, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0856, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0740, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0530, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0461, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0394, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0806, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0501, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0664, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0999, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0390, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0600, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0465, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0828, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 23----------------------------------------------------
+epoch 23, time 179.59, cls_loss 0.0215
+100
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0775, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0266, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0395, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0458, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7273e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0708, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0366, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1686, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0868, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0385, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0446, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0769, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0680, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0312, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0773, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0464, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0552, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 24, time 179.65, cls_loss 0.0217
+100
+cls_loss: tensor(0.2044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1722, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0603, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1736, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0272, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0489, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0595, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0209, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0802, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0976, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0838, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0309, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 25, time 179.39, cls_loss 0.0219
+100
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0659, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0698, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0339, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0307, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0613, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0737, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2524, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0599, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0885, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0853, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0434, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 26, time 179.46, cls_loss 0.0198
+100
+cls_loss: tensor(0.1287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0370, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0835, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0549, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0350, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0677, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0147, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0252, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0316, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0330, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0317, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0531, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 27, time 178.94, cls_loss 0.0217
+100
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0632, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0225, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0984, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0584, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0275, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0376, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0772, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0279, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0780, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0229, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0596, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0335, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 28, time 178.77, cls_loss 0.0193
+100
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0410, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0185, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0488, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0355, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0448, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0304, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0451, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0480, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0403, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0521, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0230, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0699, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1276, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0993, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0182, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 29, time 178.99, cls_loss 0.0216
+100
+cls_loss: tensor(0.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0457, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0131, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2611, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0380, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0273, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0284, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0991, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 30, time 179.12, cls_loss 0.0125
+100
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0248, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8677e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0692, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0579, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1280, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0319, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0161, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0329, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0246, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 31, time 178.96, cls_loss 0.0122
+100
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0534, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6131e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0901, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0936, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0861, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0876, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0399, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0566, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0269, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0484, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0872, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0844, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0184, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 32----------------------------------------------------
+epoch 32, time 179.24, cls_loss 0.0167
+100
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0407, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0372, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0783, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0326, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0188, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0336, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0928, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0620, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0245, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0657, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0227, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0253, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0145, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4602e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 33----------------------------------------------------
+epoch 33, time 179.48, cls_loss 0.0097
+100
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0226, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0862, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0173, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0338, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0358, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0743, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7831e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0343, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0295, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0926, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0601, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 34----------------------------------------------------
+epoch 34, time 179.46, cls_loss 0.0098
+100
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6597e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0642, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0684, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0265, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0639, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2361e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1821e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0190, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1290, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0422, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0297, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1429e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0616, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2367, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0268, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 35, time 179.65, cls_loss 0.0115
+100
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0221, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0539, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0714, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0726, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0546, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0429, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0436, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0689, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0558, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0608, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0396, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0196, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1447, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0357, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0842, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0125, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0321, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0652, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 36, time 179.32, cls_loss 0.0192
+100
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0388, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0176, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0332, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0202, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5736e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8394e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0591, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0565, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0148, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0460, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0943, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0334, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 37, time 179.63, cls_loss 0.0165
+100
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0113, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0380, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0794, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0713, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0529, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2954e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0528, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0453, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 38, time 179.50, cls_loss 0.0099
+100
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0581, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7398e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9884e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6917e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0579e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0195, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3571e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0674, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9765e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1208, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0473, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0987, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7368e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1593, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0130, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0854, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 39, time 178.62, cls_loss 0.0099
+100
+cls_loss: tensor(0.1314, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0421, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4593e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8034e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3297e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0170, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0457e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2915e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4548e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 40, time 178.17, cls_loss 0.0038
+100
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0256, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1299, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0816, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1590, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7971e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0525, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0712, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1595e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6367e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0231, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0560, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0224, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0251, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0285, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0158, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0207, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5095e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 41, time 179.17, cls_loss 0.0132
+100
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2566e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0430, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0627, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8892e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0139, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0200e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2713e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7599e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8599e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3918e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 42----------------------------------------------------
+epoch 42, time 179.63, cls_loss 0.0041
+100
+cls_loss: tensor(7.9356e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7414e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9776e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6645e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0526, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8860e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7676e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1750e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0305e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0409, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1411e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7620e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5098e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0204, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2196e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0491, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9924e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 43, time 179.33, cls_loss 0.0037
+100
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0097, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0691, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5703e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0809, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0991, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0106e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0413, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0619, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4485e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0235, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0108, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0291, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3249e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2920e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6244e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9745e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9668e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4490e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0355e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0608e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4481e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 44, time 179.66, cls_loss 0.0074
+100
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2042e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5420e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4196e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1908e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0753, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0094, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4758e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0384, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5024e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6022e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0255, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0165, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0427, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4730e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0415, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 45, time 179.02, cls_loss 0.0087
+100
+cls_loss: tensor(6.9752e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0167, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0663, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0278, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0106, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0264, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0629e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9775e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1410e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 46, time 179.06, cls_loss 0.0054
+100
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1833, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0670, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0325, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1883, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0341, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3240e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4403e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0187, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0181, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0320, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1520, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0135, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4256e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3073e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1223e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6840e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0519e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1228, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5801e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 47, time 179.17, cls_loss 0.0134
+100
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6101e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0199, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0212, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0432, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0614, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5151e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9531e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9690e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0887, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5059e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4574e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0511, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3253e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7002e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0845e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8923e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3181e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2257e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3485e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 48, time 179.12, cls_loss 0.0055
+100
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8180e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0367e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5617e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6150e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0282, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2824e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3999e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7563e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0360, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0296, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3741e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0496, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9487e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6620e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3303e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1610, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0122, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 49, time 179.50, cls_loss 0.0066
+100
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1327e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8659e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0627e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1388e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0391, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0652, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3654e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0588, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4603e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0274, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0879, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3303e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0102, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0694, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4869e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2460e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5796e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 50, time 179.28, cls_loss 0.0065
+100
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6017e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0417, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6335e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9271e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0193, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0925e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0309e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7805e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6267e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6519e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0243, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7865e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6519e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1761, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5851e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0580, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0175, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0361, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9323e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0386, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 51, time 179.13, cls_loss 0.0070
+100
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0237, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8260e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0404, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0210, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0962, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7536e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7523e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0219, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2668, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0481, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4440e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5988e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2100e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0120, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4157e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0392, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0283, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0234, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5984e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1837e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 52, time 179.50, cls_loss 0.0088
+100
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1270, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0405, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1518e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4760e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0911e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0206, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0383, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0646, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9206e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0293, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7496e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4575e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8943e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0860, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1105, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0172, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0242, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 53, time 179.20, cls_loss 0.0100
+100
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0420, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0377, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0629, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0947, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0178, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0236, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9563e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8242e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0063, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7736e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1219e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0072, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6118e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0329e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5075e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8784e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6962e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0461e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1176e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6627e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4805e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 54, time 180.20, cls_loss 0.0050
+100
+cls_loss: tensor(1.5691e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0935, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8584e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1018e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0716e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2393, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0406, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7624e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2000e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2927e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6200e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9052e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0426, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7529e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8398e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7819e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4357e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4187e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1518e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2240e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0151, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 55, time 178.71, cls_loss 0.0061
+100
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7246e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0736e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0438, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7210e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6191e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2718e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6226e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0037, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0690e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3130e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0138, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7260e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7447e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0162, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4202e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 56, time 179.30, cls_loss 0.0064
+100
+cls_loss: tensor(4.4063e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6175e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0117, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0215, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1110e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9259e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3984e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8046e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9227e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6371e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9298e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3889e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0124, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0797e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5403e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7430e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3579e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1004e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6740e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1397e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0144, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0702, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5191e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4198e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6786e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 57, time 179.10, cls_loss 0.0028
+100
+cls_loss: tensor(3.8136e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9579e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3076e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0466, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3597e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0347e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0079, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6907e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0578e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0281, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8378e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8342e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2831e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8456e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9461e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5281e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7890e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0121, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0059, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0504, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9072e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3063e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6336e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5257e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9127e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9575e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3702e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8790e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0315, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0140, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4572e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9397e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2672e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 58, time 179.17, cls_loss 0.0044
+100
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4153e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7065e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1011e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0654, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8501e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5680e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0171, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0543, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3246e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6229e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5703e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0327, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0303, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6594e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0487e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1776e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0241, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0800, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5140e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1471, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1228e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0352, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0217, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0154, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5177e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0505, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0136, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0201, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0058, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0398, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8289e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 59, time 179.42, cls_loss 0.0115
+100
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0516, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0070, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9767e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1183, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6423e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0877, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0786e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0437, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1707, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1122e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3552e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.3951, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1189, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5500e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2337, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0602, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9689e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8087e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0062, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0153, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0112, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0118, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0087, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9247e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 60, time 179.30, cls_loss 0.0156
+100
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0537e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0235e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0470, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9608e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9915e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1556e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0169, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0053, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4881e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0222, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4517e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2003e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0267, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0617e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2373e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7540e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4631e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8638e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8728e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0179, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0286, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 61, time 179.43, cls_loss 0.0031
+100
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4258e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6431e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4217e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6678e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4157e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0617, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0200, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5360e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3905e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1075e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8770e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6935e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0075, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4460e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7438e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2883e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8476e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0353, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2059e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3326e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9188e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1393e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7481e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2039e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0604, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0152, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 62, time 179.66, cls_loss 0.0034
+100
+cls_loss: tensor(3.2596e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3725e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1051e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0232, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2617e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1493, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1665, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1854e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0194, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0240, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2705, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0359, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0186, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0132, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6884e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7677e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6426e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1610e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0609, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1494e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3617e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7106e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0724, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9577e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 63, time 179.26, cls_loss 0.0154
+100
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8403e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2253e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9715e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0306, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0051, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5392e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1373e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9871e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3570e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9770e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1732e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3669e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1720e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8214e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4133e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0052, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8678e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5837e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2980e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2119e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1067e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6660e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2841e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9869e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5667e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8245e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5387e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0180, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4272e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2118e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6624e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 64, time 179.39, cls_loss 0.0016
+100
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0813e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0400, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1936e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2312e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6924e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8534e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2223e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9271e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1955e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6046e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2706e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0110, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3268e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5192e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5969e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5194e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2387e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4378e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0136e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6810e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2367e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1265e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0792e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9150e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0379, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0146, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0156, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0027e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4952e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7694e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4611e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0572, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4906e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7679e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5868e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1388e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 65, time 179.12, cls_loss 0.0026
+100
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9266e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1246e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2841e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7296e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5248e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8557e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9372e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9669e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3651e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2115e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2209e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8025e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9004e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6137e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7891e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6462e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9357e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1581e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0047, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3908e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2020e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3469e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1198e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8983e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2485e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3993e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2439e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4194e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0984e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3544e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7345e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5605e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 66, time 179.32, cls_loss 0.0010
+100
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5831e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0577, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7534e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5928e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5786e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8764e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6801e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0220, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0920e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2599e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1147e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4892e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0344, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8230e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0433, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0067, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2592e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9965e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4470e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1090e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5419e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8782e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0897, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6040e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1085e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0515, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5149e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5865e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0548, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1838e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4096e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0115, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9630e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0157, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0111, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0301, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0155, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0060, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0373, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0722e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7123e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3185e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 67, time 179.10, cls_loss 0.0074
+100
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8329e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5577e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0300, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9684e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0081, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1900e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0163, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7893e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0928, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8957e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9801e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0378, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5056e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0218, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4950e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8273e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6114e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0516, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6040e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5353e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0042, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0669, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4596e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6288e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4062e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3130e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7145e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0292, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0936e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0127, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0974, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3462e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1683e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 68, time 179.10, cls_loss 0.0060
+100
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0082, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2436e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1349, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5194e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0323, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6360e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0371, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6941e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0166, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3429e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2632e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6587e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0126, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9536e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0239, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5430e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0562e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5013e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5050e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4166e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4115e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0090e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3573e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4096e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0519, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3838e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0313, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3521e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0064, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0261, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4752e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5038e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2233, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2226e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0076, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2843e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 69, time 179.34, cls_loss 0.0071
+100
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0041, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2165e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0597, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0036, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7554e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7857e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0571, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9888e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6091e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8290e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.2435, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9698e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1133, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0287, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1717e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0568, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0061, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0851, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1942e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0412, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0259, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0223, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0128, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0362e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1268e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0090, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0389, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 70, time 179.09, cls_loss 0.0111
+100
+cls_loss: tensor(8.5853e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0382, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0069, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0249, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0038, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5367e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8287e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2733e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0074, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0039, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7525e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0093, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5810e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0098, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3564e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0048, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3061e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1553e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0508, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4182e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0143, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0889e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9804e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.4213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0527, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6396e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0109, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0085, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4110e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0719, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0050, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0585, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0174, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0029, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0298, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0570, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 71, time 178.65, cls_loss 0.0118
+100
+cls_loss: tensor(0.0116, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0066, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0100, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0743, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1197, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0788, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9964e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0028, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5483e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5587e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0104, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0142, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0468, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0333, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0078, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0054, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0651, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0262, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5561e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2075e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0114, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0168, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0096, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2187e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0456e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1285e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0071, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9020e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7624e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0365, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0043, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6352e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0289, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5309e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5094e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 72, time 178.69, cls_loss 0.0074
+100
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6685e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7228e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0149, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2748e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0077, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0092, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5750e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0660, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0177, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0065, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6336e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0095, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0031, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2670e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0123, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8068e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0084, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0044, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6154e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1773e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9140e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0160, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9137e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0305, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0056, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9751e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0213, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0038e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1502e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9050e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0218e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0277, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0073, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6230e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5603e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5096e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3682e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 73----------------------------------------------------
+epoch 73, time 178.81, cls_loss 0.0035
+100
+cls_loss: tensor(4.3157e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0882e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0030, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1153e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9966e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8124e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0088, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4523e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5103e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9754e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1898e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9951e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3986e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2929e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4959e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7854e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7786e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5199e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8587e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3552e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8829e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2873e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0330e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3434e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0165e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1340e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5317e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6005e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1749e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3035e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0834e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0807e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9593e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5478e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8599e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2420e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0250, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2308e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6911e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1191e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1263, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5271e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3790e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 74----------------------------------------------------
+epoch 74, time 178.84, cls_loss 0.0019
+100
+cls_loss: tensor(7.1581e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0152e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8453e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1902e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0022, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0083, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0089, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.1688, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1321e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8552e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0356, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9212e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0107, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6719e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2056e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7425e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0233e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4156e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0030e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2348e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2066e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7233e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7170e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0034, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0026, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0032, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7349e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4612e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0746e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2224e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0057, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4794e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8335e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6915e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9796e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0994e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2306e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0203, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0027, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5763e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4707e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8121e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 75, time 178.30, cls_loss 0.0032
+100
+cls_loss: tensor(6.8396e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6774e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6142e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0017, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1567e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2116e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5570e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6518e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6756e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2863e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2930e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3958e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4910e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0025, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0921e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4169e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4906e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6209e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3191e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0119, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9765e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2954e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2320e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0601e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4719e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8967e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6902e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4607e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2255e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5889e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4399e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4890e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7896e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5008e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1935e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1560e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4757e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7078e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8392e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4933e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1781e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0040, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0018, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7793e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5028e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8954e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4464e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2594e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9777e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2701e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 76, time 179.04, cls_loss 0.0006
+100
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0020, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4213e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5337e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8274e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2066e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0154e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0099, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1377e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7353e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4145e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0591e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0427e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1937e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2946e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6214e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6794e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1765e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0560e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3068e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3274e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9856e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0973e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5768e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4399e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9003e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8083e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6864e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0447e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2541e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0014, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6893e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1600e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0049, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5495e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2465e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6578e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2970e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3913e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3757e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9584e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4283e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0156e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7041e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6503e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2164e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1048e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8100e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0713e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6643e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5516e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1278e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2964e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1553e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4022e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+---------------------saving model at epoch 77----------------------------------------------------
+epoch 77, time 178.92, cls_loss 0.0004
+100
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7900e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6502e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8056e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6636e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9203e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2151e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5743e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2553e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2592e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1921e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0525e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4917e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5091e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0103, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4802e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6310e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9938e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1835e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1701e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1874e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0033, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3058e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8897e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2262e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8497e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7416e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0019, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6617e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2610e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9263e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1232e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4438e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0554e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0539e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1543e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2343e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4423e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0035, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2303e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0827e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7621e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7989e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4192e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9887e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6083e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8124e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5287e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4354e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2467e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9104e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8121e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3413e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9426e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1754e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6877e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6041e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2840e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2256e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2069e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 78, time 178.94, cls_loss 0.0004
+100
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2835e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0340e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3471e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2870e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0537e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6083e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0228e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6194e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6038e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9858e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4567e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7279e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4382e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4785e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1388e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5290e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2557e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8417e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2469e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0787e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1042e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2341e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6459e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6560e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1211e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7017e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2590e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4725e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4755e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5230e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6201e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4659e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1105e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9594e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9232e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8642e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0528e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7407e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9153e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6561e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2932e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8041e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3447e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0023, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4775e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9521e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1581e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9748e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0107e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9749e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0087e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7244e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5449e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7224e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9009e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0992e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3337e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7305e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9057e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6454e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+0.0001
+changing lr
+epoch 79, time 178.91, cls_loss 0.0002
+100
+cls_loss: tensor(7.8112e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6466e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6928e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8086e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3106e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8523e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5893e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7369e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8456e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3028e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7999e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4987e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2691e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1340e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3717e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3543e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9627e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6976e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8795e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7839e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8450e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2015e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3627e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6173e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0186e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5075e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0617e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6710e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8323e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5934e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3958e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3626e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3422e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8241e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4527e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4732e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2405e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2569e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6444e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2098e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4000e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8575e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0651e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4315e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7384e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0021, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2627e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3093e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9705e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1642e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5507e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0080e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1876e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9052e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4692e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4059e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3306e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4815e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7680e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4101e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+1e-05
+changing lr
+epoch 80, time 178.67, cls_loss 0.0001
+100
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2595e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0466e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5982e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7538e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2467e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8872e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6624e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3242e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4105e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6219e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1383e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1975e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7690e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9307e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0125e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3272e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4286e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8056e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1295e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4050e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7835e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5095e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4764e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0741e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0290e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4698e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2836e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2480e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6557e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3626e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8296e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5705e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8902e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7046e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3135e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9668e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0416e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7496e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1979e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0224e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4650e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4650e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6200e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6280e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3623e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1712e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2362e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6801e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5991e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0199e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6971e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7572e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6744e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1495e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2498e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8158e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1580e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1064e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1383e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5528e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1081e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3860e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9729e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3341e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5619e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0991e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0967e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0878e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6070e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7791e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8685e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3576e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3647e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8131e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4990e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+1e-05
+changing lr
+epoch 81, time 178.92, cls_loss 0.0001
+100
+cls_loss: tensor(1.3568e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3031e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9926e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1012e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2580e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8040e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1478e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5371e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3346e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7293e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0966e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8300e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7347e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3106e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9527e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6846e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4546e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1176e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1435e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5021e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9316e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2059e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9098e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2098e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2128e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5005e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5525e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3074e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5602e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1437e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0707e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6997e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5384e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2123e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1472e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1778e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0016, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3672e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2021e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8566e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4480e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5825e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7050e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4149e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4622e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1577e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3602e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0300e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0013, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4176e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0010, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3968e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1126e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8408e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6317e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8110e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4152e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5162e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9790e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0392e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9579e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0211e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6038e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5854e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2314e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7502e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9761e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3505e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0207e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+1e-05
+changing lr
+epoch 82, time 178.87, cls_loss 0.0001
+100
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2175e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2314e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9117e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7535e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9569e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9543e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1751e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9209e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6863e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5224e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7248e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8949e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0495e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5321e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1213e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0051e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4015e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6919e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3284e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4746e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1523e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6479e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0489e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8126e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8432e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9088e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4199e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0474e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6574e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6154e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5082e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4716e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9605e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1910e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0152e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1197e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5246e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4773e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7996e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0111e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1006e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3437e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7412e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2909e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9626e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2912e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6750e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1932e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4566e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+1e-05
+changing lr
+epoch 83, time 179.10, cls_loss 0.0001
+100
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0645e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4952e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7608e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5349e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9977e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0606e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1547e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6263e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9919e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8023e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7746e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3187e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0978e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4505e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8179e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7417e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6887e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1060e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0086, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4111e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8943e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2680e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2311e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7540e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2390e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2918e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3310e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5153e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0356e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1836e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6387e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5380e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9444e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0757e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6848e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0024, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1443e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9717e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7291e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8726e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9765e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1949e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7497e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8913e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0892e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4820e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5390e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3285e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0782e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5322e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6566e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3463e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0129e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3499e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1782e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3894e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8533e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2605e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9542e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1902e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1828e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2346e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3402e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3755e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0707e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6954e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+1e-05
+changing lr
+epoch 84, time 179.33, cls_loss 0.0002
+100
+cls_loss: tensor(1.1861e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3899e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6189e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8989e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3209e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7577e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6315e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2816e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2708e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0835e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0709e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3135e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7798e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5266e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6060e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7660e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8189e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1910e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8422e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0206e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8215e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9161e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6587e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4514e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0990e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2691e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3782e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4750e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8060e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7187e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4477e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2787e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8864e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7993e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7676e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1555e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2238e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1962e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8366e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2266e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0005e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0674e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0692e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4506e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4100e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4342e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4074e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8981e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4789e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7889e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9721e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6168e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5635e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8253e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1456e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0511e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1526e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8563e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9189e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8427e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8165e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6317e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5609e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7635e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4373e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1733e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1342e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6778e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8727e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+1e-05
+changing lr
+epoch 85, time 178.58, cls_loss 0.0001
+100
+cls_loss: tensor(4.1053e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7365e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9172e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0289e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5482e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8236e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4794e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3767e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1926e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8619e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0216e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9397e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0175e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9374e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5769e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8552e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5624e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1295e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0465e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6905e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3043e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8699e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2139e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1735e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8498e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6205e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9985e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1835e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3154e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4146e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8325e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5786e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2276e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2629e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6609e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7146e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3950e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7505e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0755e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9588e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4685e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6822e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1989e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4501e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5262e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0342e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1859e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9252e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8913e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9190e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2778e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6638e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5852e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3784e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0459e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5066e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0677e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9823e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3877e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8852e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9878e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6241e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0088e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4768e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7936e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3693e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0564e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6508e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6184e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+1e-05
+changing lr
+epoch 86, time 178.76, cls_loss 0.0001
+100
+cls_loss: tensor(4.2751e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4275e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9759e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4849e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4345e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2805e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4841e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4922e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7703e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6375e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2435e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0154e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1786e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7083e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6021e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3479e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2029e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0684e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4619e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5937e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2209e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8508e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0683e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1833e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1691e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2651e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3646e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7195e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9529e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7426e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8768e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7885e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6202e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6151e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8764e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4043e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8430e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7110e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4479e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1527e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2795e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4075e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2538e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1174e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1788e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2899e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5220e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5805e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9416e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9210e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1295e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7743e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1494e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5655e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2507e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1690e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5113e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7508e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1292e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6399e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5190e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4801e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+1e-05
+changing lr
+epoch 87, time 178.82, cls_loss 0.0001
+100
+cls_loss: tensor(2.1681e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8261e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3335e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2528e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3817e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1983e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1680e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5552e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7100e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3741e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8762e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4450e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1244e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6981e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5279e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3597e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8934e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1469e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9376e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2361e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5193e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4506e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4095e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9504e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6494e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1010e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0278e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5941e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8943e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6025e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7667e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0718e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9585e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5025e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4699e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6066e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6797e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2440e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0338e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3866e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3694e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2546e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0082e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6603e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6108e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2151e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6692e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2564e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5991e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3849e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6471e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3788e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8899e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3020e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7705e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9407e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3039e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1079e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8855e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1569e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8557e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4417e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1588e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4640e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6306e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0479e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3594e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3184e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3358e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+1e-05
+changing lr
+epoch 88, time 178.67, cls_loss 0.0001
+100
+cls_loss: tensor(0.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9834e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0628e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3381e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8183e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7048e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7742e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2243e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5426e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7878e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5300e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6157e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6364e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0510e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1866e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9642e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0814e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8994e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5337e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2043e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7431e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3553e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9445e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3108e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0986e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9630e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9873e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1262e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9185e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0836e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4250e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8040e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5568e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6368e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0220e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4650e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2603e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5746e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2960e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6065e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6734e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8019e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8727e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2546e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5071e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3680e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8348e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5842e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3916e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8012e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3761e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3505e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5688e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2202e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2229e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7290e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8068e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9521e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3146e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8392e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2517e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2986e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8775e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6131e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2692e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2282e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1360e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1697e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7344e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1269e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4624e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+1e-05
+changing lr
+epoch 89, time 178.88, cls_loss 0.0001
+100
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6638e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7912e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9956e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1047e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7604e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4193e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6626e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8023e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7940e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7956e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2990e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3225e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5453e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1780e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8194e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9975e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8110e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6439e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4703e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2783e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5785e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0792e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8370e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8795e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5949e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0275e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3868e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8173e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0445e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6745e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6411e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4012e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9222e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9858e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2346e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2832e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2329e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1704e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7770e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4823e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0419e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4764e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0941e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9593e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6209e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8977e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7684e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0408e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7660e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6475e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0518e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2680e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8667e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8611e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8869e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3868e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2318e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2692e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7193e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0859e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5267e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1459e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4537e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1479e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8092e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3288e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9494e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8148e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1336e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0484e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5434e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0012, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5257e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8871e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3819e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+1e-05
+changing lr
+epoch 90, time 179.28, cls_loss 0.0001
+100
+cls_loss: tensor(6.8072e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4317e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6161e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8008e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2023e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7407e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3505e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2569e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2414e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7104e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4789e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8763e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7283e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8986e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6615e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0649e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9128e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1914e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3463e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0261e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8152e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4611e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1038e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8161e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7886e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2807e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3824e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5677e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9545e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9622e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2113e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9856e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3528e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4228e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9556e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1057e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8659e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7367e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2585e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7178e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7418e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6876e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0668e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3975e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8302e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9169e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6309e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6536e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3334e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5214e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4394e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6525e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9402e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3448e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3887e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6745e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3382e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2234e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1614e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0249e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1265e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1978e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.5256e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4564e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3246e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7875e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9935e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6194e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7437e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3830e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9328e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1910e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2121e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2527e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9898e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+1e-05
+changing lr
+epoch 91, time 179.30, cls_loss 0.0001
+100
+cls_loss: tensor(4.7684e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0936e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1010e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2435e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5475e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1676e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3299e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5063e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8498e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4338e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8413e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3937e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2054e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4927e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1146e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7805e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3788e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3678e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2836e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7472e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6450e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6661e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5086e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2473e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0986e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9372e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8110e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6571e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9486e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0395e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6525e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4499e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1033e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4024e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7299e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5457e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4901e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9353e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1396e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0951e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3786e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7369e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0007, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4258e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1898e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8585e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9643e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7015e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9595e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6806e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9045e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0075e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4320e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8157e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6132e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7869e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9158e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0308e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4500e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0817e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3049e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3348e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0634e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8788e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5070e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6343e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2826e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9965e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4089e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+1e-05
+changing lr
+epoch 92, time 179.17, cls_loss 0.0001
+100
+cls_loss: tensor(8.4154e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0009, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1027e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8662e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7583e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0052e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0639e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3171e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2538e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2975e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0117e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9024e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0853e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4627e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0062e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3404e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6913e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5460e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2573e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4736e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3670e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6637e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4399e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2415e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1441e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5092e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9357e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.8836e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6856e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9047e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3384e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0646e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9204e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0992e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7049e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3795e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5936e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6112e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2986e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7329e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7715e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7044e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7621e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3375e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9943e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9504e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3597e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1231e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2349e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2539e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.9435e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0962e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2655e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9078e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6571e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0878e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4937e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2971e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7208e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3484e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4792e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4108e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3370e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4339e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4503e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7759e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9616e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7817e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3496e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8328e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2585e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2888e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0009e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9072e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6954e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1720e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0812e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+1e-05
+changing lr
+epoch 93, time 179.46, cls_loss 0.0001
+100
+cls_loss: tensor(5.9307e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9290e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0713e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1548e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4260e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9813e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6693e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0008, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0657e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0035e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7880e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2251e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2995e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6801e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8323e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8934e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1833e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8168e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5935e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3840e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4469e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7439e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1745e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5034e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0878e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1180e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4570e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7423e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6131e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5932e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9145e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2024e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2081e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7959e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2884e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2666e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1122e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0495e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9955e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7699e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4212e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2493e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0494e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1802e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6520e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7098e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7799e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.8768e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5128e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1780e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1125e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1372e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0355e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1732e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6955e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4573e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4799e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3633e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1988e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3371e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5270e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+1e-05
+changing lr
+epoch 94, time 179.61, cls_loss 0.0001
+100
+cls_loss: tensor(6.8359e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7097e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2873e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4448e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1456e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1642e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5512e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3802e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1399e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7129e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1713e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8876e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5744e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3628e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2960e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8266e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1114e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4334e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7509e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5757e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6941e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4421e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2989e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5133e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3858e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3269e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9792e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6212e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9850e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0910e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2478e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0701e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2791e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1402e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4214e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8505e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6657e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4995e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2766e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.8231e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2298e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9804e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2426e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3798e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4238e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4421e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8986e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4913e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0508e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2489e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1886e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7170e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8949e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5065e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2791e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2689e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6297e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6882e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4815e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1752e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.9423e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1234e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1202e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4622e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0456e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1590e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9482e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.6746e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3586e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5337e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0466e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4887e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2797e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1038e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+1e-05
+changing lr
+epoch 95, time 179.34, cls_loss 0.0001
+100
+cls_loss: tensor(1.4622e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.9332e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5528e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5995e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6082e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3839e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1845e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7486e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3256e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9725e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5799e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4445e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6238e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6528e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4894e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0247e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2096e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2873e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9700e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9041e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6619e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.7524e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7638e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6426e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1064e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6403e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6834e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2025e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4149e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0511e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9169e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9607e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5714e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6544e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1579e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4380e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7017e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9730e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3055e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4529e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7839e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7865e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0502e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3411e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6190e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9961e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6021e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7742e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6473e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7109e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8476e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7800e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5943e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9723e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1890e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.1733e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5704e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0261e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0973e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.5406e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6003e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6836e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7303e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6003e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8741e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0259e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5474e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7037e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5273e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3597e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7187e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2965e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.2264e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3944e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2709e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6043e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9164e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0843e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2312e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1456e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+1e-05
+changing lr
+epoch 96, time 179.23, cls_loss 0.0001
+100
+cls_loss: tensor(6.0860e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9057e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8289e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2859e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2923e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8109e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.6880e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2297e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.9320e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0005e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.5841e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1820e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6859e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.8467e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3189e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3146e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3945e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0431e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.0152e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0181e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6156e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2288e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3815e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5189e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0883e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6033e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5461e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3442e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2990e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5899e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1681e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3873e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8342e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5565e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.0310e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.5231e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4652e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1281e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3994e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0870e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4223e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0203e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1312e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1747e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3143e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2836e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7940e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3605e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7904e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1691e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3954e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8934e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3029e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.1254e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.4250e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2966e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8740e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9781e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2314e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7014e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6201e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.6622e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.3768e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6302e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7162e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5520e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8107e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5337e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0109e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0325e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.0908e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4937e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3875e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8871e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.6385e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0129e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5788e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8959e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+1e-05
+changing lr
+epoch 97, time 179.40, cls_loss 0.0001
+100
+cls_loss: tensor(1.2740e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1946e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1730e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.6570e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.7181e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.8679e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0617e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4770e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1458e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.3542e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3648e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.7428e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1456e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.1197e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4980e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4537e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7993e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9841e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9347e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8007e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9737e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.3234e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.3020e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9759e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4957e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2277e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1101e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6725e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.2029e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1408e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0915e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.3152e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3015e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4754e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0717e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0027e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.4521e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7582e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8651e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6599e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4553e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.7354e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0005, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0729e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3437e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0006, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0718e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.9935e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8889e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2002e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6051e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0143e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.4090e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2003e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.4128e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2960e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3291e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2919e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8487e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.8450e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0114e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3346e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.5996e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4173e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6477e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.8215e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+1e-05
+changing lr
+epoch 98, time 178.99, cls_loss 0.0001
+100
+cls_loss: tensor(2.8454e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8163e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0148e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.6323e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.4434e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7084e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3139e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.6933e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.9691e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.7481e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9327e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.2101e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.7725e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5790e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.3285e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2521e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.4401e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0004, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.4814e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.1585e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3664e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4827e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.2882e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2331e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0397e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.5615e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.7588e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2532e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.1668e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.5867e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3757e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8845e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7531e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.0407e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2089e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9614e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3600e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.0355e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2105e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.8290e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(8.2295e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.2852e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.2460e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6131e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.9279e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.3768e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5188e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3027e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(6.8545e-07, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.9424e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.3724e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.7579e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2987e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.3209e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.1491e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.5646e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(7.0408e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1404e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.2317e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.0502e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.1098e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.6855e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.9046e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.5791e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.4797e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(4.0319e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(2.7966e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.1367e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.4432e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(5.2132e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(1.6056e-06, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(9.1378e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+cls_loss: tensor(3.0231e-05, device='cuda:0', grad_fn=<NllLossBackward0>)
+1e-05
+changing lr
+epoch 99, time 179.35, cls_loss 0.0001
+---------------------saving last model at epoch 99----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep100_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep100_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/14factor_best.csv', 'channels': 3, 'factor_num': 14, 'stride': 3, 'epoch': 'best', 'eval_mapping': True}
+loading weight of best
+Using downloaded and verified file: /home/yuqian_fu/.pytorch/SVHN/test_32x32.mat
+                     mnist       svhn  ...       usps        Avg
+w/o do (original x)  98.76  28.284419  ...  80.568012  51.575641
+
+[1 rows x 6 columns]
diff --git a/Meta-causal/code-stage1-pipeline/56540.error b/Meta-causal/code-stage1-pipeline/56540.error
new file mode 100644
index 0000000000000000000000000000000000000000..38d934231566fdb9cd98197f76b6dd49f332d93a
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/56540.error
@@ -0,0 +1,4 @@
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-stage1-pipeline/data_loader_joint_v3.py:426: UserWarning: To copy construct from a tensor, it is recommended to use sourceTensor.clone().detach() or sourceTensor.clone().detach().requires_grad_(True), rather than torch.tensor(sourceTensor).
+  x, y = torch.tensor(x), torch.tensor(y, dtype=torch.long)
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-stage1-pipeline/data_loader_joint_v3.py:426: UserWarning: To copy construct from a tensor, it is recommended to use sourceTensor.clone().detach() or sourceTensor.clone().detach().requires_grad_(True), rather than torch.tensor(sourceTensor).
+  x, y = torch.tensor(x), torch.tensor(y, dtype=torch.long)
diff --git a/Meta-causal/code-stage1-pipeline/56540.log b/Meta-causal/code-stage1-pipeline/56540.log
new file mode 100644
index 0000000000000000000000000000000000000000..aa21cfd02e90b3e6efc8d3fb59385cc17555ae0e
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/56540.log
@@ -0,0 +1,151 @@
+/home/yuqian_fu
+{'gpu': '0', 'data': 'art_painting', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 5, 'factor_num': 16, 'epochs': 30, 'nbatch': 100, 'batchsize': 6, 'lr': 0.01, 'lr_scheduler': 'cosine', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep30_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_pipelineAugWoNorm', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_train.hdf5 torch.Size([1840, 3, 227, 227]) torch.Size([1840])
+--------------------------CA_multiple--------------------------
+---------------------------16 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_val.hdf5 torch.Size([208, 3, 227, 227]) torch.Size([208])
+-------------------------------------loading pretrain weights----------------------------------
+306
+0.0001
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 328.72, cls_loss 8.5176
+306
+9.972609476841367e-05
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 323.89, cls_loss 4.1852
+306
+9.890738003669029e-05
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 321.19, cls_loss 1.7210
+306
+9.755282581475769e-05
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 321.77, cls_loss 0.8687
+306
+9.567727288213003e-05
+changing lr
+epoch 4, time 322.73, cls_loss 0.5508
+306
+9.330127018922194e-05
+changing lr
+epoch 5, time 321.65, cls_loss 0.4191
+306
+9.045084971874738e-05
+changing lr
+epoch 6, time 323.65, cls_loss 0.3904
+306
+8.715724127386972e-05
+changing lr
+---------------------saving model at epoch 7----------------------------------------------------
+epoch 7, time 324.01, cls_loss 0.2998
+306
+8.345653031794292e-05
+changing lr
+epoch 8, time 327.47, cls_loss 0.2084
+306
+7.938926261462366e-05
+changing lr
+epoch 9, time 326.22, cls_loss 0.1815
+306
+7.500000000000001e-05
+changing lr
+epoch 10, time 325.03, cls_loss 0.1476
+306
+7.033683215379003e-05
+changing lr
+epoch 11, time 325.92, cls_loss 0.1094
+306
+6.545084971874738e-05
+changing lr
+---------------------saving model at epoch 12----------------------------------------------------
+epoch 12, time 322.71, cls_loss 0.0653
+306
+6.039558454088797e-05
+changing lr
+epoch 13, time 321.20, cls_loss 0.0639
+306
+5.522642316338269e-05
+changing lr
+---------------------saving model at epoch 14----------------------------------------------------
+epoch 14, time 322.13, cls_loss 0.0464
+306
+5.000000000000002e-05
+changing lr
+epoch 15, time 324.52, cls_loss 0.0402
+306
+4.4773576836617344e-05
+changing lr
+epoch 16, time 322.56, cls_loss 0.0452
+306
+3.9604415459112035e-05
+changing lr
+epoch 17, time 322.39, cls_loss 0.0403
+306
+3.4549150281252636e-05
+changing lr
+epoch 18, time 324.36, cls_loss 0.0190
+306
+2.966316784621e-05
+changing lr
+epoch 19, time 327.79, cls_loss 0.0250
+306
+2.5000000000000015e-05
+changing lr
+epoch 20, time 322.28, cls_loss 0.0416
+306
+2.0610737385376352e-05
+changing lr
+epoch 21, time 322.98, cls_loss 0.0203
+306
+1.654346968205711e-05
+changing lr
+---------------------saving model at epoch 22----------------------------------------------------
+epoch 22, time 325.56, cls_loss 0.0271
+306
+1.2842758726130304e-05
+changing lr
+epoch 23, time 321.58, cls_loss 0.0190
+306
+9.549150281252636e-06
+changing lr
+epoch 24, time 327.21, cls_loss 0.0236
+306
+6.698729810778068e-06
+changing lr
+epoch 25, time 301.36, cls_loss 0.0107
+306
+4.322727117869953e-06
+changing lr
+epoch 26, time 295.79, cls_loss 0.0165
+306
+2.447174185242324e-06
+changing lr
+epoch 27, time 296.53, cls_loss 0.0218
+306
+1.092619963309716e-06
+changing lr
+epoch 28, time 297.90, cls_loss 0.0198
+306
+2.7390523158633003e-07
+changing lr
+epoch 29, time 299.73, cls_loss 0.0094
+---------------------saving last model at epoch 29----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep30_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_pipelineAugWoNorm', 'source_domain': 'art_painting', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep30_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_pipelineAugWoNorm/art_painting_16factor_best_test_check.csv', 'factor_num': 16, 'epoch': 'best', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of best
+columns: ['art_painting', 'cartoon', 'photo', 'sketch']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+                     art_painting    cartoon      photo     sketch        Avg
+w/o do (original x)     93.017578  53.412969  88.203593  45.838636  62.485066
diff --git a/Meta-causal/code-stage1-pipeline/56541.error b/Meta-causal/code-stage1-pipeline/56541.error
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/Meta-causal/code-stage1-pipeline/56541.log b/Meta-causal/code-stage1-pipeline/56541.log
new file mode 100644
index 0000000000000000000000000000000000000000..df2e118cf0696d37e84e6dee5b38c9fa6814d806
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/56541.log
@@ -0,0 +1,432 @@
+/home/yuqian_fu
+{'gpu': '0', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 100, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep100_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_pipelineAugWoNorm', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+--------------------------CA_multiple--------------------------
+---------------------------14 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+100
+0.0001
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 183.25, cls_loss 2.1515
+100
+0.0001
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 183.70, cls_loss 1.7865
+100
+0.0001
+changing lr
+epoch 2, time 183.59, cls_loss 1.5733
+100
+0.0001
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 183.31, cls_loss 1.4407
+100
+0.0001
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 183.01, cls_loss 1.3369
+100
+0.0001
+changing lr
+---------------------saving model at epoch 5----------------------------------------------------
+epoch 5, time 183.85, cls_loss 1.3080
+100
+0.0001
+changing lr
+epoch 6, time 182.43, cls_loss 1.2082
+100
+0.0001
+changing lr
+---------------------saving model at epoch 7----------------------------------------------------
+epoch 7, time 182.60, cls_loss 1.1517
+100
+0.0001
+changing lr
+---------------------saving model at epoch 8----------------------------------------------------
+epoch 8, time 183.05, cls_loss 1.0938
+100
+0.0001
+changing lr
+---------------------saving model at epoch 9----------------------------------------------------
+epoch 9, time 183.04, cls_loss 1.0485
+100
+0.0001
+changing lr
+epoch 10, time 182.31, cls_loss 1.0636
+100
+0.0001
+changing lr
+epoch 11, time 182.08, cls_loss 0.9913
+100
+0.0001
+changing lr
+epoch 12, time 182.44, cls_loss 0.9240
+100
+0.0001
+changing lr
+---------------------saving model at epoch 13----------------------------------------------------
+epoch 13, time 182.56, cls_loss 0.8962
+100
+0.0001
+changing lr
+epoch 14, time 182.83, cls_loss 0.8474
+100
+0.0001
+changing lr
+epoch 15, time 182.24, cls_loss 0.8730
+100
+0.0001
+changing lr
+---------------------saving model at epoch 16----------------------------------------------------
+epoch 16, time 182.40, cls_loss 0.8184
+100
+0.0001
+changing lr
+epoch 17, time 182.12, cls_loss 0.8083
+100
+0.0001
+changing lr
+epoch 18, time 182.02, cls_loss 0.7381
+100
+0.0001
+changing lr
+epoch 19, time 182.19, cls_loss 0.7326
+100
+0.0001
+changing lr
+epoch 20, time 181.69, cls_loss 0.6649
+100
+0.0001
+changing lr
+epoch 21, time 181.62, cls_loss 0.6849
+100
+0.0001
+changing lr
+epoch 22, time 181.68, cls_loss 0.6675
+100
+0.0001
+changing lr
+---------------------saving model at epoch 23----------------------------------------------------
+epoch 23, time 182.29, cls_loss 0.6101
+100
+0.0001
+changing lr
+epoch 24, time 182.13, cls_loss 0.6237
+100
+0.0001
+changing lr
+epoch 25, time 182.23, cls_loss 0.6229
+100
+0.0001
+changing lr
+epoch 26, time 182.24, cls_loss 0.5664
+100
+0.0001
+changing lr
+epoch 27, time 182.13, cls_loss 0.5588
+100
+0.0001
+changing lr
+epoch 28, time 182.14, cls_loss 0.5539
+100
+0.0001
+changing lr
+epoch 29, time 182.35, cls_loss 0.5198
+100
+0.0001
+changing lr
+epoch 30, time 182.22, cls_loss 0.5153
+100
+0.0001
+changing lr
+epoch 31, time 182.36, cls_loss 0.4764
+100
+0.0001
+changing lr
+epoch 32, time 182.13, cls_loss 0.4748
+100
+0.0001
+changing lr
+epoch 33, time 181.83, cls_loss 0.4448
+100
+0.0001
+changing lr
+epoch 34, time 182.32, cls_loss 0.4358
+100
+0.0001
+changing lr
+epoch 35, time 181.92, cls_loss 0.4201
+100
+0.0001
+changing lr
+epoch 36, time 181.91, cls_loss 0.3949
+100
+0.0001
+changing lr
+epoch 37, time 182.01, cls_loss 0.3818
+100
+0.0001
+changing lr
+---------------------saving model at epoch 38----------------------------------------------------
+epoch 38, time 182.02, cls_loss 0.3651
+100
+0.0001
+changing lr
+epoch 39, time 182.07, cls_loss 0.3656
+100
+0.0001
+changing lr
+epoch 40, time 181.87, cls_loss 0.3864
+100
+0.0001
+changing lr
+epoch 41, time 182.33, cls_loss 0.3647
+100
+0.0001
+changing lr
+epoch 42, time 182.58, cls_loss 0.3301
+100
+0.0001
+changing lr
+---------------------saving model at epoch 43----------------------------------------------------
+epoch 43, time 182.56, cls_loss 0.3279
+100
+0.0001
+changing lr
+epoch 44, time 185.15, cls_loss 0.3470
+100
+0.0001
+changing lr
+epoch 45, time 182.28, cls_loss 0.2938
+100
+0.0001
+changing lr
+epoch 46, time 182.03, cls_loss 0.2920
+100
+0.0001
+changing lr
+epoch 47, time 182.53, cls_loss 0.2780
+100
+0.0001
+changing lr
+epoch 48, time 182.87, cls_loss 0.2592
+100
+0.0001
+changing lr
+epoch 49, time 182.61, cls_loss 0.2725
+100
+0.0001
+changing lr
+epoch 50, time 182.34, cls_loss 0.2344
+100
+0.0001
+changing lr
+epoch 51, time 182.13, cls_loss 0.2686
+100
+0.0001
+changing lr
+epoch 52, time 183.03, cls_loss 0.2475
+100
+0.0001
+changing lr
+epoch 53, time 182.25, cls_loss 0.2359
+100
+0.0001
+changing lr
+epoch 54, time 182.39, cls_loss 0.2279
+100
+0.0001
+changing lr
+epoch 55, time 182.38, cls_loss 0.2340
+100
+0.0001
+changing lr
+epoch 56, time 182.19, cls_loss 0.2217
+100
+0.0001
+changing lr
+epoch 57, time 182.01, cls_loss 0.2188
+100
+0.0001
+changing lr
+epoch 58, time 182.23, cls_loss 0.2269
+100
+0.0001
+changing lr
+epoch 59, time 182.47, cls_loss 0.2212
+100
+0.0001
+changing lr
+epoch 60, time 182.34, cls_loss 0.1887
+100
+0.0001
+changing lr
+epoch 61, time 182.11, cls_loss 0.1859
+100
+0.0001
+changing lr
+epoch 62, time 182.40, cls_loss 0.2021
+100
+0.0001
+changing lr
+epoch 63, time 182.09, cls_loss 0.1756
+100
+0.0001
+changing lr
+epoch 64, time 182.38, cls_loss 0.1737
+100
+0.0001
+changing lr
+epoch 65, time 182.21, cls_loss 0.1648
+100
+0.0001
+changing lr
+epoch 66, time 182.02, cls_loss 0.1613
+100
+0.0001
+changing lr
+epoch 67, time 182.29, cls_loss 0.1569
+100
+0.0001
+changing lr
+epoch 68, time 182.29, cls_loss 0.1487
+100
+0.0001
+changing lr
+---------------------saving model at epoch 69----------------------------------------------------
+epoch 69, time 182.61, cls_loss 0.1538
+100
+0.0001
+changing lr
+epoch 70, time 182.28, cls_loss 0.1653
+100
+0.0001
+changing lr
+epoch 71, time 181.94, cls_loss 0.1639
+100
+0.0001
+changing lr
+epoch 72, time 181.84, cls_loss 0.1784
+100
+0.0001
+changing lr
+epoch 73, time 181.70, cls_loss 0.1843
+100
+0.0001
+changing lr
+epoch 74, time 180.53, cls_loss 0.1832
+100
+0.0001
+changing lr
+epoch 75, time 180.51, cls_loss 0.1421
+100
+0.0001
+changing lr
+epoch 76, time 180.07, cls_loss 0.1224
+100
+0.0001
+changing lr
+epoch 77, time 180.21, cls_loss 0.1187
+100
+0.0001
+changing lr
+epoch 78, time 180.07, cls_loss 0.1058
+100
+0.0001
+changing lr
+epoch 79, time 180.76, cls_loss 0.1301
+100
+1e-05
+changing lr
+---------------------saving model at epoch 80----------------------------------------------------
+epoch 80, time 181.07, cls_loss 0.0915
+100
+1e-05
+changing lr
+epoch 81, time 180.00, cls_loss 0.0845
+100
+1e-05
+changing lr
+epoch 82, time 180.09, cls_loss 0.0767
+100
+1e-05
+changing lr
+epoch 83, time 180.14, cls_loss 0.0711
+100
+1e-05
+changing lr
+epoch 84, time 180.25, cls_loss 0.0698
+100
+1e-05
+changing lr
+epoch 85, time 180.12, cls_loss 0.0682
+100
+1e-05
+changing lr
+epoch 86, time 179.91, cls_loss 0.0590
+100
+1e-05
+changing lr
+epoch 87, time 179.84, cls_loss 0.0607
+100
+1e-05
+changing lr
+epoch 88, time 179.82, cls_loss 0.0634
+100
+1e-05
+changing lr
+epoch 89, time 180.04, cls_loss 0.0718
+100
+1e-05
+changing lr
+epoch 90, time 179.62, cls_loss 0.0704
+100
+1e-05
+changing lr
+epoch 91, time 179.77, cls_loss 0.0669
+100
+1e-05
+changing lr
+epoch 92, time 179.87, cls_loss 0.0574
+100
+1e-05
+changing lr
+epoch 93, time 179.66, cls_loss 0.0556
+100
+1e-05
+changing lr
+epoch 94, time 179.87, cls_loss 0.0631
+100
+1e-05
+changing lr
+epoch 95, time 179.67, cls_loss 0.0525
+100
+1e-05
+changing lr
+epoch 96, time 179.69, cls_loss 0.0473
+100
+1e-05
+changing lr
+epoch 97, time 179.39, cls_loss 0.0470
+100
+1e-05
+changing lr
+epoch 98, time 179.75, cls_loss 0.0529
+100
+1e-05
+changing lr
+epoch 99, time 180.06, cls_loss 0.0541
+---------------------saving last model at epoch 99----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep100_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_pipelineAugWoNorm', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep100_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_pipelineAugWoNorm/14factor_best.csv', 'channels': 3, 'factor_num': 14, 'stride': 3, 'epoch': 'best', 'eval_mapping': True}
+loading weight of best
+Using downloaded and verified file: /home/yuqian_fu/.pytorch/SVHN/test_32x32.mat
+                     mnist       svhn  ...       usps       Avg
+w/o do (original x)  93.89  13.579441  ...  89.436971  40.16719
+
+[1 rows x 6 columns]
diff --git a/Meta-causal/code-stage1-pipeline/AllEpochs_test_digit_v13.py b/Meta-causal/code-stage1-pipeline/AllEpochs_test_digit_v13.py
new file mode 100644
index 0000000000000000000000000000000000000000..822168206b9fb4eaa051f71ca1918c000717354d
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/AllEpochs_test_digit_v13.py
@@ -0,0 +1,101 @@
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from torch.utils.data import DataLoader
+
+import os
+import numpy as np
+import click
+import pandas as pd
+
+from network import mnist_net_my as mnist_net
+from network import adaptor_v2
+from tools import causalaugment_v3 as causalaugment
+from main_my_joint_v13_auto import evaluate
+import data_loader_joint_v3 as data_loader
+
+@click.command()
+@click.option('--gpu', type=str, default='0', help='选择GPU编号')
+@click.option('--svroot', type=str, default='./saved')
+@click.option('--svpath', type=str, default=None, help='保存日志的路径')
+@click.option('--channels', type=int, default=3)
+@click.option('--factor_num', type=int, default=16)
+@click.option('--stride', type=int, default=16)
+@click.option('--epoch', type=str, default='best')
+@click.option('--eval_mapping', type=bool, default=True, help='是否查看mapping学习效果')
+def main(gpu, svroot, svpath, channels, factor_num,stride, epoch, eval_mapping):
+    evaluate_digit(gpu, svroot, svpath, channels, factor_num, stride,epoch, eval_mapping)
+    
+def evaluate_digit(gpu, svroot, svpath, channels=3, factor_num=16,stride=5,epoch='best', eval_mapping=True):
+    settings = locals().copy()
+    print(settings)
+    os.environ['CUDA_VISIBLE_DEVICES'] = gpu
+
+    # 加载分类模型
+    if channels == 3:
+        cls_net = mnist_net.ConvNet().cuda()
+    elif channels == 1:
+        cls_net = mnist_net.ConvNet(imdim=channels).cuda()
+    
+
+    epoch_list = []
+    file_list = os.listdir(svroot)
+    for file in file_list:
+        if('.pkl' in file):
+            epoch_list.append(file)
+    print('epoch_list:', epoch_list)
+    
+    '''
+    if epoch == 'best':
+        print("loading weight of %s"%(epoch))
+        saved_weight = torch.load(os.path.join(svroot, 'best_cls_net.pkl'))
+    elif epoch == 'last':
+        print("loading weight of %s"%(epoch))
+        saved_weight = torch.load(os.path.join(svroot, 'last_cls_net.pkl'))
+    '''
+
+    for epoch_file in epoch_list:
+        print("loading weight of %s"%(epoch_file))
+        saved_weight = torch.load(os.path.join(svroot, epoch_file))
+    
+        cls_net.load_state_dict(saved_weight)
+        cls_net.eval()
+
+        # 测试
+        str2fun = { 
+            'mnist': data_loader.load_mnist,
+            'mnist_m': data_loader.load_mnist_m,
+            'usps': data_loader.load_usps,
+            'svhn': data_loader.load_svhn,
+            'syndigit': data_loader.load_syndigit,
+            }   
+        
+        columns = ['mnist', 'svhn', 'mnist_m', 'syndigit','usps']
+        target = ['svhn', 'mnist_m', 'syndigit','usps']
+    
+        index = ['w/o do (original x)']
+        data_result = {}
+
+        for idx, data in enumerate(columns):
+            teset = str2fun[data]('test', channels=channels)
+            teloader = DataLoader(teset, batch_size=8, num_workers=0)
+            # 计算评价指标
+            teacc = evaluate(cls_net, teloader)
+            if data == 'mnist':
+                acc_avg = np.zeros(teacc.shape)
+            else:
+                acc_avg = acc_avg + teacc
+            data_result[data] = teacc         
+        acc_avg = acc_avg/float(len(target))
+        
+        data_result['Avg'] = acc_avg
+
+        df = pd.DataFrame(data_result,index = index)
+        print(df)    
+        if svpath is not None:
+            df.to_csv(svpath)
+
+if __name__=='__main__':
+    main()
+
diff --git a/Meta-causal/code-stage1-pipeline/AllEpochs_test_pacs_v13.py b/Meta-causal/code-stage1-pipeline/AllEpochs_test_pacs_v13.py
new file mode 100644
index 0000000000000000000000000000000000000000..9a54c12cb4164746c76957a03f660880a973b8c7
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/AllEpochs_test_pacs_v13.py
@@ -0,0 +1,103 @@
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from torch.utils.data import DataLoader
+
+import os
+import numpy as np
+import click
+import pandas as pd
+
+from network import resnet as resnet
+from network import adaptor_v2
+from tools import causalaugment_v3 as causalaugment
+from main_my_joint_v13_auto import evaluate
+import data_loader_joint_v3 as data_loader
+
+@click.command()
+@click.option('--gpu', type=str, default='0', help='选择GPU编号')
+@click.option('--svroot', type=str, default='./saved')
+@click.option('--source_domain', type=str, default='art_painting', help='source domain')
+@click.option('--svpath', type=str, default=None, help='保存日志的路径')
+@click.option('--factor_num', type=int, default=16)
+@click.option('--epoch', type=str, default='best')
+@click.option('--stride', type=int, default=5)
+@click.option('--eval_mapping', type=bool, default=False, help='是否查看mapping学习效果')
+@click.option('--network', type=str, default='resnet18', help='项目文件保存路径')
+def main(gpu, svroot, source_domain, svpath, factor_num, epoch, stride,eval_mapping, network):
+    evaluate_pacs(gpu, svroot, source_domain, svpath, factor_num, epoch, stride,eval_mapping, network)
+    
+def evaluate_pacs(gpu, svroot, source_domain, svpath, factor_num=16, epoch='best', stride=5,eval_mapping=False, network='resnet18'):
+    settings = locals().copy()
+    print(settings)
+    os.environ['CUDA_VISIBLE_DEVICES'] = gpu
+
+    # 加载分类模型
+    if network == 'resnet18':
+        cls_net = resnet.resnet18(classes=7,c_dim=2048).cuda()
+        input_dim = 2048
+
+    epoch_list = []
+    file_list = os.listdir(svroot)
+    for file in file_list:
+        if('.pkl' in file):
+            epoch_list.append(file)
+    print('epoch_list:', epoch_list)
+
+    '''
+    if epoch == 'best':
+        print("loading weight of %s"%(epoch))
+        saved_weight = torch.load(os.path.join(svroot, 'best_cls_net.pkl'))
+    elif epoch == 'last':
+        print("loading weight of %s"%(epoch))
+        saved_weight = torch.load(os.path.join(svroot, 'last_cls_net.pkl'))
+    '''
+
+    for epoch_file in epoch_list:
+        print("loading weight of %s"%(epoch_file))
+        saved_weight = torch.load(os.path.join(svroot, epoch_file))
+    
+        cls_net.load_state_dict(saved_weight)
+        cls_net.eval()
+
+
+        columns = ['art_painting', 'cartoon', 'photo', 'sketch']
+        target = [i for i in columns if i!=source_domain]
+        columns = [source_domain] + target
+        print("columns:",columns)
+
+    
+        index = ['w/o do (original x)']
+
+        data_result = {}
+        data_result_ours = {}
+
+        for idx, data in enumerate(columns):
+            teset = data_loader.load_pacs(data, 'test')
+            teloader = DataLoader(teset, batch_size=4, num_workers=0)
+            # 计算评价指标
+            acc = evaluate(cls_net, teloader)
+            data_result_ours[data] = acc
+        
+            teacc = evaluate(cls_net, teloader)
+            if data == source_domain:
+                acc_avg = np.zeros(teacc.shape)
+            else:
+                acc_avg = acc_avg + teacc
+            data_result[data] = teacc        
+        acc_avg = acc_avg/float(len(target))
+        
+        data_result['Avg'] = acc_avg
+
+        df = pd.DataFrame(data_result,index = index)
+        print(df)
+
+        if svpath is not None:
+            df.to_csv(svpath)
+
+if __name__=='__main__':
+    main()
+
+    
+
diff --git a/Meta-causal/code-stage1-pipeline/data_loader_joint_v3.py b/Meta-causal/code-stage1-pipeline/data_loader_joint_v3.py
new file mode 100644
index 0000000000000000000000000000000000000000..c3012d69bfaecec18db3d7888170baa4b35e7b4d
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/data_loader_joint_v3.py
@@ -0,0 +1,861 @@
+''' Digit 实验
+'''
+import torch
+import torch.nn.functional as F
+from torch.utils.data import Dataset, TensorDataset
+from torchvision import transforms
+from torchvision.datasets import MNIST, SVHN, CIFAR10, STL10, USPS
+
+import os
+import pickle
+import numpy as np
+import h5py
+#import cv2
+from scipy.io import loadmat
+from PIL import Image
+
+from tools.autoaugment import SVHNPolicy, CIFAR10Policy
+from tools.randaugment import RandAugment
+from tools.causalaugment_v3 import RandAugment_incausal, FactualAugment_incausal, CounterfactualAugment_incausal, MultiCounterfactualAugment_incausal
+
+from PIL import ImageEnhance
+
+
+transformtypedict=dict(Brightness=ImageEnhance.Brightness, Contrast=ImageEnhance.Contrast, Sharpness=ImageEnhance.Sharpness, Color=ImageEnhance.Color)
+
+class ImageJitterforX(object):
+    '''
+    from StyleAdv dataaug
+    '''
+    def __init__(self, transformdict):
+        self.transforms = [(transformtypedict[k], transformdict[k]) for k in transformdict]
+
+
+    def __call__(self, img):
+        out = img
+        randtensor = torch.rand(len(self.transforms))
+
+        for i, (transformer, alpha) in enumerate(self.transforms):
+            r = alpha*(randtensor[i]*2.0 -1.0) + 1
+            out = transformer(out).enhance(r).convert('RGB')
+
+        return out
+    
+class TransformLoaderforX:
+  '''
+  from StyleAdv dataaug
+  '''
+  def __init__(self, image_size,
+      normalize_param = dict(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
+      jitter_param = dict(Brightness=0.4, Contrast=0.4, Color=0.4)):
+    self.image_size = image_size
+    self.normalize_param = normalize_param
+    self.jitter_param = jitter_param
+
+  def parse_transform(self, transform_type):
+    if transform_type=='ImageJitter':
+      method = ImageJitterforX( self.jitter_param )
+      return method
+    method = getattr(transforms, transform_type)
+
+    if transform_type=='RandomResizedCrop':
+      return method(self.image_size)
+    elif transform_type=='CenterCrop':
+      return method(self.image_size)
+    elif transform_type=='Resize':
+      return method([int(self.image_size*1.15), int(self.image_size*1.15)])
+    elif transform_type=='Normalize':
+      return method(**self.normalize_param )
+    else:
+      return method()
+    
+
+  def get_composed_transform(self, aug = False):
+    if aug:
+      #transform_list = ['RandomResizedCrop', 'ImageJitter', 'RandomHorizontalFlip', 'ToTensor', 'Normalize']
+      transform_list = ['RandomResizedCrop', 'ImageJitter', 'RandomHorizontalFlip', 'ToTensor']
+    else:
+      #transform_list = ['Resize','CenterCrop', 'ToTensor', 'Normalize']
+      #transform_list = ['ToTensor', 'Normalize']
+      transform_list = ['ToTensor']
+    
+    tranform0 = [transforms.ToPILImage()]  
+    transform_funcs = [ self.parse_transform(x) for x in transform_list]
+    tranform_all = tranform0 + transform_funcs
+    transform = transforms.Compose(tranform_all)
+    return transform
+
+
+class myTensorDataset(Dataset):
+    def __init__(self, x, y, transform=None, transform2=None, transform3=None, twox=False):
+        self.x = x
+        self.y = y
+        self.transform = transform
+        self.transform2 = transform2
+        self.transform3 = transform3
+        self.twox = twox
+    def __len__(self):
+        return len(self.x)
+    
+    def __getitem__(self, index):
+        x = self.x[index]
+        y = self.y[index]
+        c, h, w =x.shape
+        if self.transform is not None:
+            x_RA = self.transform(x)
+            # print("x_RA.shape:",x_RA.shape)
+            if self.transform3 is not None:
+                x_CA = self.transform3(x_RA)
+                x_CA = x_CA.reshape(-1,c,h,w)
+                # print("x_CA.shape:",x_CA.shape)           
+                if self.transform2 is not None:
+                    x_FA = self.transform2(x)
+                    # x_FA = x_FA.view(c,13,h,w)
+                    x_FA = x_FA.reshape(-1,c,h,w)
+                    # print("x_FA_in getitem.shape:",x_FA.shape)
+                    # print("x_FA.shape:",x_FA.shape)
+                    
+                    return (x, x_RA, x_FA, x_CA), y
+                else:
+                    return (x, x_RA, x_CA), y
+            else:
+                if self.transform2 is not None:
+                    x_FA = self.transform2(x)
+                    x_FA = x_FA.reshape(-1,c,h,w)
+                    return (x, x_RA, x_FA), y
+                else:
+                    if self.twox:
+                        return (x, x_RA), y
+                    else:
+                        x_RA = self.transform(x)
+                        return  x_RA, y
+                    
+
+HOME = os.environ['HOME']
+print(HOME)
+def resize_imgs(x, size):
+    ''' 目前只能处理单通道 
+        x [n, 28, 28]
+        size int
+    '''
+    resize_x = np.zeros([x.shape[0], size, size])
+    for i, im in enumerate(x):
+        im = Image.fromarray(im)
+        im = im.resize([size, size], Image.ANTIALIAS)
+        resize_x[i] = np.asarray(im)
+    return resize_x
+
+def load_mnist(split='train', translate=None, twox=False, ntr=None, autoaug=None, factor_num=16, randm=False,randn=False,channels=3,n=3,stride=5):
+    '''
+        autoaug == 'AA', AutoAugment
+                   'FastAA', Fast AutoAugment
+                   'RA', RandAugment
+        channels == 3 默认返回 rgb 3通道图像
+                    1 返回单通道图像
+    '''
+    #path = f'data/mnist-{split}.pkl'
+    path = f'/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/minst-{split}.pkl'
+    if not os.path.exists(path):
+        dataset = MNIST(f'{HOME}/.pytorch/MNIST', train=(split=='train'), download=True)
+        x, y = dataset.data, dataset.targets
+        if split=='train':
+            x, y = x[0:10000], y[0:10000]
+        x = torch.tensor(resize_imgs(x.numpy(), 32))
+        x = (x.float()/255.).unsqueeze(1).repeat(1,3,1,1)
+        with open(path, 'wb') as f:
+            pickle.dump([x, y], f)
+    with open(path, 'rb') as f:
+        # print("reading!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!")
+        x, y = pickle.load(f)
+        if channels == 1:
+            x = x[:,0:1,:,:]
+    
+    if ntr is not None:
+        x, y = x[0:ntr], y[0:ntr]
+    
+    # 如果没有数据增强
+    if (translate is None) and (autoaug is None):
+        dataset = TensorDataset(x, y)
+        return dataset
+    
+
+    #fuyuqian: add styleadv-style aug  
+    transform_x_train = TransformLoaderforX((x.shape[-2], x.shape[-1])).get_composed_transform(aug=True)
+    transform_x_test = TransformLoaderforX((x.shape[-2], x.shape[-1])).get_composed_transform(aug=False)
+    if(split == 'train'):
+        transformed_images = []
+        for img in x:
+            img = transform_x_train(img)  # Apply transform to each image
+            transformed_images.append(img)
+        x = torch.stack(transformed_images)
+        #print('x_aug train here', x.shape)
+    else: 
+        transformed_images = []
+        for img in x:
+            img = transform_x_test(img)  # Apply transform to each image
+            transformed_images.append(img)
+        x = torch.stack(transformed_images)
+        #print('x_aug test here', x.shape)
+
+
+
+    transform = [transforms.ToPILImage()]
+    transform_single_factor = [transforms.ToPILImage()]
+    if autoaug == 'CA' or autoaug == 'CA_multiple':
+        transform_CA = [transforms.ToPILImage()]
+    if translate is not None:
+        transform.append(transforms.RandomAffine(0, [translate, translate]))
+        transform_single_factor.append(transforms.RandomAffine(0, [translate, translate]))
+        if autoaug == 'CA' or autoaug == 'CA_multiple':
+            transform_CA.append(transforms.RandomAffine(0, [translate, translate]))
+    if autoaug is not None:
+        if autoaug == 'CA':
+            print("--------------------------CA--------------------------")
+            print("n:",n)
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(CounterfactualAugment_incausal(factor_num))
+        elif autoaug == 'CA_multiple':
+            print("--------------------------CA_multiple--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(MultiCounterfactualAugment_incausal(factor_num, stride))
+        elif autoaug == 'Ours_A':
+            print("--------------------------Ours_Augment--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+
+    transform.append(transforms.ToTensor())
+    transform = transforms.Compose(transform)
+    transform_single_factor.append(transforms.ToTensor())
+    transform_single_factor = transforms.Compose(transform_single_factor)
+    if autoaug == 'CA' or autoaug == 'CA_multiple':
+        transform_CA.append(transforms.ToTensor())
+        transform_CA = transforms.Compose(transform_CA)
+        dataset = myTensorDataset(x, y, transform=transform, transform2=transform_single_factor, transform3=transform_CA,twox=twox)
+    else:
+        dataset = myTensorDataset(x, y, transform=transform, transform2=transform_single_factor, twox=twox)
+    # print(x.shape)
+    # print(y.shape)
+    return dataset
+
+def load_cifar10(split='train', translate=None, twox=False, autoaug=None, factor_num=16, randm=False,randn=False,channels=3,n=3,stride=5):
+    dataset = CIFAR10(f'{HOME}/.pytorch/CIFAR10', train=(split=='train'), download=True)
+    x, y = dataset.data, dataset.targets
+    x = x.transpose(0,3,1,2)
+
+    x, y = torch.tensor(x), torch.tensor(y)
+    x = x.float()/255.
+    print(x.shape,y.shape)
+    if (translate is None) and (autoaug is None):
+        dataset = TensorDataset(x, y)
+        return dataset
+    #x.transpose(0,3,1,2)
+    
+    # 数据增强管道
+    transform = [transforms.ToPILImage()]
+    transform_single_factor = [transforms.ToPILImage()]
+    if autoaug == 'CA' or autoaug == 'CA_multiple':
+        transform_CA = [transforms.ToPILImage()]
+    if translate is not None:
+        transform.append(transforms.RandomAffine(0, [translate, translate]))
+        transform_single_factor.append(transforms.RandomAffine(0, [translate, translate]))
+        if autoaug == 'CA' or autoaug == 'CA_multiple':
+            transform_CA.append(transforms.RandomAffine(0, [translate, translate]))
+    if autoaug is not None:
+        if autoaug == 'CA':
+            print("--------------------------CA--------------------------")
+            print("n:",n)
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(CounterfactualAugment_incausal(factor_num))
+        elif autoaug == 'CA_multiple':
+            print("--------------------------CA_multiple--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(MultiCounterfactualAugment_incausal(factor_num, stride))
+        elif autoaug == 'Ours_A':
+            print("--------------------------Ours_Augment--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+
+    transform.append(transforms.ToTensor())
+    transform = transforms.Compose(transform)
+    transform_single_factor.append(transforms.ToTensor())
+    transform_single_factor = transforms.Compose(transform_single_factor)
+    if autoaug == 'CA' or autoaug == 'CA_multiple':
+        transform_CA.append(transforms.ToTensor())
+        transform_CA = transforms.Compose(transform_CA)
+        dataset = myTensorDataset(x, y, transform=transform, transform2=transform_single_factor, transform3=transform_CA,twox=twox)
+    else:
+        dataset = myTensorDataset(x, y, transform=transform, transform2=transform_single_factor, twox=twox)
+    # print(x.shape)
+    # print(y.shape)
+    return dataset
+def load_IMG(task='S-U', translate=None, twox=False, autoaug=None, factor_num=16, randm=False,randn=False,channels=3,n=3,stride=5):
+    # path = f'data/img2vid/{domain}/stanford40_12.npz'
+    if task == 'S-U':
+        path = f'data/img2vid/{task}/stanford40_12.npz'
+    elif task == 'E-H':
+        path = f'data/img2vid/{task}/EAD50_13.npz'
+    print(path)
+    dataset = np.load(path)
+    x, y = dataset['x'], dataset['y']
+    b, g, r = np.split(x,3,axis=-1)
+    x = np.concatenate((r,g,b),axis=-1)
+    x = x.transpose(0,3,1,2)
+    x, y = torch.tensor(x), torch.tensor(y, dtype=torch.long)
+    x = x.float()/255.
+    print(path,x.shape,y.shape)
+    # for i in range(20):
+    #     img_temp = transforms.ToPILImage()(x[i])
+    #     img_temp.save('data/PACS/debug_images/img_pil_'+domain+'_'+split+'_'+str(i)+'.png')    
+    if (translate is None) and (autoaug is None):
+        dataset = TensorDataset(x, y)
+        return dataset
+
+    #x.transpose(0,3,1,2)
+    
+    # 数据增强管道
+    transform = [transforms.ToPILImage()]
+    if autoaug != 'CA_multiple_noSingle':
+        transform_single_factor = [transforms.ToPILImage()]
+    if autoaug == 'CA' or autoaug == 'CA_multiple' or autoaug == 'CA_multiple_noSingle':
+        transform_CA = [transforms.ToPILImage()]
+    if translate is not None:
+        transform.append(transforms.RandomAffine(0, [translate, translate]))
+        if autoaug != 'CA_multiple_noSingle':
+            transform_single_factor.append(transforms.RandomAffine(0, [translate, translate]))
+        if autoaug == 'CA' or autoaug == 'CA_multiple' or autoaug == 'CA_multiple_noSingle':
+            transform_CA.append(transforms.RandomAffine(0, [translate, translate]))
+    if autoaug is not None:
+        if autoaug == 'CA':
+            print("--------------------------CA--------------------------")
+            print("n:",n)
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(CounterfactualAugment_incausal(factor_num))
+        elif autoaug == 'CA_multiple':
+            print("--------------------------CA_multiple--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(MultiCounterfactualAugment_incausal(factor_num, stride))
+        elif autoaug == 'CA_multiple_noSingle':
+            print("--------------------------CA_multiple_noSingle--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            # transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(MultiCounterfactualAugment_incausal(factor_num, stride))
+        elif autoaug == 'Ours_A':
+            print("--------------------------Ours_Augment--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+
+    transform.append(transforms.ToTensor())
+    transform = transforms.Compose(transform)
+    if autoaug != 'CA_multiple_noSingle':
+        transform_single_factor.append(transforms.ToTensor())
+        transform_single_factor = transforms.Compose(transform_single_factor)
+    if autoaug == 'CA' or autoaug == 'CA_multiple':
+        transform_CA.append(transforms.ToTensor())
+        transform_CA = transforms.Compose(transform_CA)
+        dataset = myTensorDataset(x, y, transform=transform, transform2=transform_single_factor, transform3=transform_CA,twox=twox)
+    elif autoaug == 'CA_multiple_noSingle':
+        transform_CA.append(transforms.ToTensor())
+        transform_CA = transforms.Compose(transform_CA)
+        dataset = myTensorDataset(x, y, transform=transform, transform3=transform_CA,twox=twox)
+    else:
+        dataset = myTensorDataset(x, y, transform=transform, transform2=transform_single_factor, twox=twox)
+    # print(x.shape)
+    # print(y.shape)
+    return dataset
+
+def load_VID(task='S-U',split='1'):
+    if task == 'S-U':
+        path = f'data/img2vid/{task}/ucf101_12_frame_sample8_{split}.npz'
+    elif task == 'E-H':
+        path = f'data/img2vid/{task}/hmdb51_13_frame_sample8_{split}.npz'
+    dataset = np.load(path)
+    print(path)
+    x, y = dataset['x'], dataset['y']
+    b, g, r = np.split(x,3,axis=-1)
+    x = np.concatenate((r,g,b),axis=-1)
+    x = x.transpose(0,3,1,2)
+    x, y = torch.tensor(x), torch.tensor(y, dtype=torch.long)
+    x = x.float()/255.
+    print(path,x.shape,y.shape)
+    # for i in range(20):
+    #     img_temp = transforms.ToPILImage()(x[i])
+    #     img_temp.save('data/PACS/debug_images/img_pil_'+domain+'_'+split+'_'+str(i)+'.png')    
+    dataset = TensorDataset(x, y)
+    return dataset
+
+def load_pacs(domain='photo', split='train', translate=None, twox=False, autoaug=None, factor_num=16, randm=False,randn=False,channels=3,n=3,stride=5):
+    #path = f'data/PACS/{domain}_{split}.hdf5'
+    path = f'/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/{domain}_{split}.hdf5'
+    dataset = h5py.File(path, 'r')
+    x, y = dataset['images'], dataset['labels']
+    #for i in range(20):
+    #    cv2.imwrite('data/PACS/debug_images/img_cv2_'+domain+'_'+split+'_'+str(i)+'.png', x[i])
+    b, g, r = np.split(x,3,axis=-1)
+    x = np.concatenate((r,g,b),axis=-1)
+
+    #x = x.transpose(0,3,1,2)
+    # Convert image data to uint8
+
+
+    #fuyuqian: add styleadv-style aug  
+    x = x.astype(np.uint8)
+    transform_x_train = TransformLoaderforX((x.shape[-3], x.shape[-2])).get_composed_transform(aug=True)
+    transform_x_test = TransformLoaderforX((x.shape[-3], x.shape[-2])).get_composed_transform(aug=False)
+    if(split == 'train'):
+        transformed_images = []
+        for img in x:
+            img = transform_x_train(img)  # Apply transform to each image
+            transformed_images.append(img)
+        x = torch.stack(transformed_images)
+        #print('x_aug train here', x.shape)
+    else: 
+        transformed_images = []
+        for img in x:
+            img = transform_x_test(img)  # Apply transform to each image
+            transformed_images.append(img)
+        x = torch.stack(transformed_images)
+        #print('x_aug test here', x.shape)
+
+
+    x, y = torch.tensor(x), torch.tensor(y, dtype=torch.long)
+   
+    y = y - 1
+    x = x.float()/255.
+    print(path,x.shape,y.shape)
+    # for i in range(20):
+    #     img_temp = transforms.ToPILImage()(x[i])
+    #     img_temp.save('data/PACS/debug_images/img_pil_'+domain+'_'+split+'_'+str(i)+'.png')    
+    if (translate is None) and (autoaug is None):
+        dataset = TensorDataset(x, y)
+        return dataset
+    #x.transpose(0,3,1,2)
+    
+    # 数据增强管道
+    transform = [transforms.ToPILImage()]
+    if autoaug != 'CA_multiple_noSingle':
+        transform_single_factor = [transforms.ToPILImage()]
+    if autoaug == 'CA' or autoaug == 'CA_multiple' or autoaug == 'CA_multiple_noSingle':
+        transform_CA = [transforms.ToPILImage()]
+    if translate is not None:
+        transform.append(transforms.RandomAffine(0, [translate, translate]))
+        if autoaug != 'CA_multiple_noSingle':
+            transform_single_factor.append(transforms.RandomAffine(0, [translate, translate]))
+        if autoaug == 'CA' or autoaug == 'CA_multiple' or autoaug == 'CA_multiple_noSingle':
+            transform_CA.append(transforms.RandomAffine(0, [translate, translate]))
+    if autoaug is not None:
+        if autoaug == 'CA':
+            print("--------------------------CA--------------------------")
+            print("n:",n)
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(CounterfactualAugment_incausal(factor_num))
+        elif autoaug == 'CA_multiple':
+            print("--------------------------CA_multiple--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(MultiCounterfactualAugment_incausal(factor_num, stride))
+        elif autoaug == 'CA_multiple_noSingle':
+            print("--------------------------CA_multiple_noSingle--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            # transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(MultiCounterfactualAugment_incausal(factor_num, stride))
+        elif autoaug == 'Ours_A':
+            print("--------------------------Ours_Augment--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+
+    transform.append(transforms.ToTensor())
+    transform = transforms.Compose(transform)
+    if autoaug != 'CA_multiple_noSingle':
+        transform_single_factor.append(transforms.ToTensor())
+        transform_single_factor = transforms.Compose(transform_single_factor)
+    if autoaug == 'CA' or autoaug == 'CA_multiple':
+        transform_CA.append(transforms.ToTensor())
+        transform_CA = transforms.Compose(transform_CA)
+        dataset = myTensorDataset(x, y, transform=transform, transform2=transform_single_factor, transform3=transform_CA,twox=twox)
+    elif autoaug == 'CA_multiple_noSingle':
+        transform_CA.append(transforms.ToTensor())
+        transform_CA = transforms.Compose(transform_CA)
+        dataset = myTensorDataset(x, y, transform=transform, transform3=transform_CA,twox=twox)
+    else:
+        dataset = myTensorDataset(x, y, transform=transform, transform2=transform_single_factor, twox=twox)
+    # print(x.shape)
+    # print(y.shape)
+    return dataset
+
+def read_dataset(domain, split):
+    path = f'/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/{domain}_{split}.hdf5'
+    dataset = h5py.File(path, 'r')
+    x_temp, y_temp = dataset['images'], dataset['labels']
+    b, g, r = np.split(x_temp,3,axis=-1)
+    x_temp = np.concatenate((r,g,b),axis=-1)
+    x_temp = x_temp.transpose(0,3,1,2)
+    x_temp, y_temp = torch.tensor(x_temp), torch.tensor(y_temp, dtype=torch.long)
+    y_temp = y_temp - 1
+    x_temp = x_temp.float()/255.
+    return x_temp, y_temp
+
+def load_pacs_multi(target_domain=['photo'], split='train', translate=None, twox=False, autoaug=None, factor_num=16, randm=False,randn=False,channels=3,n=3,stride=5):
+    domains = ['art_painting', 'cartoon', 'photo', 'sketch']
+    source_domain = [i for i in domains if i != target_domain]
+    for i in range(len(source_domain)):
+        x_temp, y_temp = read_dataset(source_domain[i],split=split)
+        print(x_temp.shape,y_temp.shape)
+        if i == 0:
+            x = x_temp.clone()
+            y = y_temp.clone()
+        else:
+            x = torch.cat([x,x_temp],0)
+            y = torch.cat([y,y_temp],0)
+    print(x.shape,y.shape)
+    if (translate is None) and (autoaug is None):
+        dataset = TensorDataset(x, y)
+        return dataset
+    #x.transpose(0,3,1,2)
+    
+    # 数据增强管道
+    transform = [transforms.ToPILImage()]
+    if autoaug != 'CA_multiple_noSingle':
+        transform_single_factor = [transforms.ToPILImage()]
+    if autoaug == 'CA' or autoaug == 'CA_multiple' or autoaug == 'CA_multiple_noSingle':
+        transform_CA = [transforms.ToPILImage()]
+    if translate is not None:
+        transform.append(transforms.RandomAffine(0, [translate, translate]))
+        if autoaug != 'CA_multiple_noSingle':
+            transform_single_factor.append(transforms.RandomAffine(0, [translate, translate]))
+        if autoaug == 'CA' or autoaug == 'CA_multiple' or autoaug == 'CA_multiple_noSingle':
+            transform_CA.append(transforms.RandomAffine(0, [translate, translate]))
+    if autoaug is not None:
+        if autoaug == 'CA':
+            print("--------------------------CA--------------------------")
+            print("n:",n)
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(CounterfactualAugment_incausal(factor_num))
+        elif autoaug == 'CA_multiple':
+            print("--------------------------CA_multiple--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(MultiCounterfactualAugment_incausal(factor_num, stride))
+        elif autoaug == 'CA_multiple_noSingle':
+            print("--------------------------CA_multiple_noSingle--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            # transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(MultiCounterfactualAugment_incausal(factor_num, stride))
+        elif autoaug == 'Ours_A':
+            print("--------------------------Ours_Augment--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+
+    transform.append(transforms.ToTensor())
+    transform = transforms.Compose(transform)
+    if autoaug != 'CA_multiple_noSingle':
+        transform_single_factor.append(transforms.ToTensor())
+        transform_single_factor = transforms.Compose(transform_single_factor)
+    if autoaug == 'CA' or autoaug == 'CA_multiple':
+        transform_CA.append(transforms.ToTensor())
+        transform_CA = transforms.Compose(transform_CA)
+        dataset = myTensorDataset(x, y, transform=transform, transform2=transform_single_factor, transform3=transform_CA,twox=twox)
+    elif autoaug == 'CA_multiple_noSingle':
+        transform_CA.append(transforms.ToTensor())
+        transform_CA = transforms.Compose(transform_CA)
+        dataset = myTensorDataset(x, y, transform=transform, transform3=transform_CA,twox=twox)
+    else:
+        dataset = myTensorDataset(x, y, transform=transform, transform2=transform_single_factor, twox=twox)
+    # print(x.shape)
+    # print(y.shape)
+    return dataset
+
+
+def load_cifar10_c_level1(dataroot):
+    path = f'data/cifar10_c_level1.pkl'
+    if not os.path.exists(path):
+        print("genenrating cifar10_c_level1")
+        labels = np.load(os.path.join(dataroot, 'labels.npy'))
+        y_single = labels[0:10000]
+        x = torch.zeros((190000,3,32,32))
+        for j in range(19):
+            if j == 0:
+                y = y_single
+            else:
+                y = np.hstack((y,y_single))
+        index = 0 
+        for filename in os.listdir(dataroot):
+            if filename=='labels.npy':
+                continue
+            else:
+                imgs = np.load(os.path.join(dataroot,filename))
+                imgs = imgs.transpose(0,3,1,2)
+                imgs = torch.tensor(imgs)
+                imgs = imgs.float()/255.
+                print(imgs.shape)
+                x[index*10000:(index+1)*10000] = imgs[0:10000]
+                index = index + 1
+        y = torch.tensor(y)                              
+        with open(path, 'wb') as f:
+            pickle.dump([x, y], f)
+    else:
+        print("reading cifar10_c_level1")
+        with open(path, 'rb') as f:
+            x, y = pickle.load(f)
+    dataset = TensorDataset(x, y)        
+    return dataset
+def load_cifar10_c_level2(dataroot):
+    path = f'data/cifar10_c_level2.pkl'
+    if not os.path.exists(path):
+        print("genenrating cifar10_c_level2")
+        labels = np.load(os.path.join(dataroot, 'labels.npy'))
+        y_single = labels[0:10000]
+        x = torch.zeros((190000,3,32,32))
+        for j in range(19):
+            if j == 0:
+                y = y_single
+            else:
+                y = np.hstack((y,y_single))
+        index = 0 
+        for filename in os.listdir(dataroot):
+            if filename=='labels.npy':
+                continue
+            else:
+                imgs = np.load(os.path.join(dataroot,filename))
+                imgs = imgs.transpose(0,3,1,2)
+                imgs = torch.tensor(imgs)
+                imgs = imgs.float()/255.
+                print(imgs.shape)
+                x[index*10000:(index+1)*10000] = imgs[10000:20000]
+                index = index + 1
+        y = torch.tensor(y)                              
+        with open(path, 'wb') as f:
+            pickle.dump([x, y], f)
+    else:
+        print("reading cifar10_c_level2")
+        with open(path, 'rb') as f:
+            x, y = pickle.load(f)
+    dataset = TensorDataset(x, y)        
+    return dataset
+def load_cifar10_c_level3(dataroot):
+    path = f'data/cifar10_c_level3.pkl'
+    if not os.path.exists(path):
+        print("generating cifar10_c_level3")
+        labels = np.load(os.path.join(dataroot, 'labels.npy'))
+        y_single = labels[0:10000]
+        x = torch.zeros((190000,3,32,32))
+        for j in range(19):
+            if j == 0:
+                y = y_single
+            else:
+                y = np.hstack((y,y_single))
+        index = 0 
+        for filename in os.listdir(dataroot):
+            if filename=='labels.npy':
+                continue
+            else:
+                imgs = np.load(os.path.join(dataroot,filename))
+                imgs = imgs.transpose(0,3,1,2)
+                imgs = torch.tensor(imgs)
+                imgs = imgs.float()/255.
+                print(imgs.shape)
+                x[index*10000:(index+1)*10000] = imgs[20000:30000]
+                index = index + 1
+        y = torch.tensor(y)                              
+        with open(path, 'wb') as f:
+            pickle.dump([x, y], f)
+    else:
+        print("reading cifar10_c_level3")
+        with open(path, 'rb') as f:
+            x, y = pickle.load(f)
+    dataset = TensorDataset(x, y)        
+    return dataset
+def load_cifar10_c_level4(dataroot):
+    path = f'data/cifar10_c_level4.pkl'
+    if not os.path.exists(path):
+        print("genenrating cifar10_c_level4")
+        labels = np.load(os.path.join(dataroot, 'labels.npy'))
+        y_single = labels[0:10000]
+        x = torch.zeros((190000,3,32,32))
+        for j in range(19):
+            if j == 0:
+                y = y_single
+            else:
+                y = np.hstack((y,y_single))
+        index = 0 
+        for filename in os.listdir(dataroot):
+            if filename=='labels.npy':
+                continue
+            else:
+                imgs = np.load(os.path.join(dataroot,filename))
+                imgs = imgs.transpose(0,3,1,2)
+                imgs = torch.tensor(imgs)
+                imgs = imgs.float()/255.
+                print(imgs.shape)
+                x[index*10000:(index+1)*10000] = imgs[30000:40000]
+                index = index + 1
+        y = torch.tensor(y)                              
+        with open(path, 'wb') as f:
+            pickle.dump([x, y], f)
+    else:
+        print("reading cifar10_c_level4")
+        with open(path, 'rb') as f:
+            x, y = pickle.load(f)
+    dataset = TensorDataset(x, y)        
+    return dataset
+def load_cifar10_c_level5(dataroot):
+    path = f'data/cifar10_c_level5.pkl'
+    if not os.path.exists(path):
+        print("genenrating cifar10_c_level5")
+        labels = np.load(os.path.join(dataroot, 'labels.npy'))
+        y_single = labels[0:10000]
+        x = torch.zeros((190000,3,32,32))
+        for j in range(19):
+            if j == 0:
+                y = y_single
+            else:
+                y = np.hstack((y,y_single))
+        index = 0 
+        for filename in os.listdir(dataroot):
+            if filename=='labels.npy':
+                continue
+            else:
+                imgs = np.load(os.path.join(dataroot,filename))
+                imgs = imgs.transpose(0,3,1,2)
+                imgs = torch.tensor(imgs)
+                imgs = imgs.float()/255.
+                print(imgs.shape)
+                x[index*10000:(index+1)*10000] = imgs[40000:50000]
+                index = index + 1
+        y = torch.tensor(y)                              
+        with open(path, 'wb') as f:
+            pickle.dump([x, y], f)
+    else:
+        print("reading cifar10_c_level5")
+        with open(path, 'rb') as f:
+            x, y = pickle.load(f)
+    dataset = TensorDataset(x, y)        
+    return dataset
+def load_cifar10_c(dataroot):
+    y = np.load(os.path.join(dataroot, 'labels.npy'))
+    print("y.shape:",y.shape)
+    y_single = y[0:10000]
+    x1 = torch.zeros((190000,3,32,32))
+    x2 = torch.zeros((190000,3,32,32))
+    x3 = torch.zeros((190000,3,32,32))
+    x4 = torch.zeros((190000,3,32,32))
+    x5 = torch.zeros((190000,3,32,32))
+    for j in range(19):
+        if j == 0:
+            y_total = y_single
+        else:
+            y_total = np.hstack((y_total,y_single))
+    print("y_total.shape:",y_total.shape)
+    index = 0 
+    for filename in os.listdir(dataroot):
+        if filename=='labels.npy':
+            continue
+        else:
+            x = np.load(os.path.join(dataroot,filename))
+            x = x.transpose(0,3,1,2)
+            x = torch.tensor(x)
+            x = x.float()/255.
+            print(x.shape)
+            x1[index*10000:(index+1)*10000] = x[0:10000]
+            x2[index*10000:(index+1)*10000] = x[10000:20000]
+            x3[index*10000:(index+1)*10000] = x[20000:30000]
+            x4[index*10000:(index+1)*10000] = x[30000:40000]
+            x5[index*10000:(index+1)*10000] = x[40000:50000]
+            index = index + 1
+    # x1, x2, x3, x4, x5, y_total = torch.tensor(x1), torch.tensor(x2), torch.tensor(x3),\
+                                    # torch.tensor(x4),torch.tensor(x5),torch.tensor(y_total)
+    y_total = torch.tensor(y_total)                              
+    dataset1 = TensorDataset(x1, y_total)
+    dataset2 = TensorDataset(x2, y_total)
+    dataset3 = TensorDataset(x3, y_total)
+    dataset4 = TensorDataset(x4, y_total)
+    dataset5 = TensorDataset(x5, y_total)
+    return dataset1,dataset2,dataset3,dataset4,dataset5
+
+def load_cifar10_c_class(dataroot,CORRUPTIONS):
+    y = np.load(os.path.join(dataroot, 'labels.npy'))
+    y_single = y[0:10000]
+    y_single = torch.tensor(y_single) 
+    print("y.shape:",y.shape)
+    x = np.load(os.path.join(dataroot,CORRUPTIONS+'.npy'))
+    print("loading data of",os.path.join(dataroot,CORRUPTIONS+'.npy'))
+    x = x.transpose(0,3,1,2)
+    x = torch.tensor(x)
+    x = x.float()/255.
+    dataset = []
+    for i in range(5):
+        x_single = x[i*10000:(i+1)*10000]
+        dataset.append(TensorDataset(x_single, y_single))
+    return dataset
+
+def load_usps(split='train', channels=3):
+    path = f'/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/usps-{split}.pkl'
+    if not os.path.exists(path):
+        dataset = USPS(f'{HOME}/.pytorch/USPS', train=(split=='train'), download=True)
+        x, y = dataset.data, dataset.targets
+        x = torch.tensor(resize_imgs(x, 32))
+        x = (x.float()/255.).unsqueeze(1).repeat(1,3,1,1)
+        y = torch.tensor(y)
+        with open(path, 'wb') as f:
+            pickle.dump([x, y], f)
+    with open(path, 'rb') as f:
+        x, y = pickle.load(f)
+        if channels == 1:
+            x = x[:,0:1,:,:]
+    dataset = TensorDataset(x, y)
+    return dataset
+
+def load_svhn(split='train', channels=3):
+    dataset = SVHN(f'{HOME}/.pytorch/SVHN', split=split, download=True)
+    x, y = dataset.data, dataset.labels
+    x = x.astype('float32')/255.
+    x, y = torch.tensor(x), torch.tensor(y)
+    if channels == 1:
+        x = x.mean(1, keepdim=True)
+    dataset = TensorDataset(x, y)
+    return dataset
+
+
+def load_syndigit(split='train', channels=3):
+    path = f'/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/synth_{split}_32x32.mat'
+    data = loadmat(path)
+    x, y = data['X'], data['y']
+    x = np.transpose(x, [3, 2, 0, 1]).astype('float32')/255.
+    y = y.squeeze()
+    x, y = torch.tensor(x), torch.tensor(y)
+    if channels == 1:
+        x = x.mean(1, keepdim=True)
+    dataset = TensorDataset(x, y)
+    return dataset
+
+def load_mnist_m(split='train', channels=3):
+    path = f'/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/mnist_m-{split}.pkl'
+    with open(path, 'rb') as f:
+        x, y = pickle.load(f)
+        x, y = torch.tensor(x.astype('float32')/255.), torch.tensor(y)
+        if channels==1:
+            x = x.mean(1, keepdim=True)
+    dataset = TensorDataset(x, y)
+    return dataset
+
+if __name__=='__main__':
+    dataset = load_mnist(split='train')
+    print('mnist train', len(dataset))
+    dataset = load_mnist('test')
+    print('mnist test', len(dataset))
+    dataset = load_mnist_m('test')
+    print('mnsit_m test', len(dataset))
+    dataset = load_svhn(split='test')
+    print('svhn', len(dataset))
+    dataset = load_usps(split='test')
+    print('usps', len(dataset))
+    dataset = load_syndigit(split='test')
+    print('syndigit', len(dataset))
+
diff --git a/Meta-causal/code-stage1-pipeline/env.yaml b/Meta-causal/code-stage1-pipeline/env.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..b0bd424fb7c5aa818f10a82173549eb0dd3199c7
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/env.yaml
@@ -0,0 +1,119 @@
+name: Py3.7_torch1.8
+channels:
+  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
+  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
+  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
+  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
+  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
+  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
+  - conda-forge
+  - bioconda
+  - defaults
+dependencies:
+  - _libgcc_mutex=0.1=main
+  - asn1crypto=1.2.0=py37_0
+  - blas=1.0=mkl
+  - bottleneck=1.3.2=py37heb32a55_1
+  - bzip2=1.0.8=h7b6447c_0
+  - ca-certificates=2021.10.8=ha878542_0
+  - cairo=1.14.12=h8948797_3
+  - certifi=2021.10.8=py37h89c1867_1
+  - cffi=1.13.0=py37h2e261b9_0
+  - chardet=3.0.4=py37_1003
+  - click=8.0.3=pyhd3eb1b0_0
+  - conda-package-handling=1.6.0=py37h7b6447c_0
+  - cryptography=2.8=py37h1ba5d50_0
+  - ffmpeg=4.0=hcdf2ecd_0
+  - fontconfig=2.13.0=h9420a91_0
+  - freeglut=3.0.0=hf484d3e_5
+  - freetype=2.11.0=h70c0345_0
+  - glib=2.63.1=h5a9c865_0
+  - graphite2=1.3.14=h23475e2_0
+  - h5py=2.8.0=py37h3010b51_1003
+  - harfbuzz=1.8.8=hffaf4a1_0
+  - hdf5=1.10.2=hba1933b_1
+  - icu=58.2=he6710b0_3
+  - idna=2.8=py37_0
+  - intel-openmp=2021.3.0=h06a4308_3350
+  - jasper=2.0.14=hd8c5072_2
+  - jpeg=9d=h7f8727e_0
+  - libedit=3.1.20181209=hc058e9b_0
+  - libffi=3.2.1=hd88cf55_4
+  - libgcc-ng=9.1.0=hdf63c60_0
+  - libgfortran-ng=7.5.0=ha8ba4b0_17
+  - libgfortran4=7.5.0=ha8ba4b0_17
+  - libglu=9.0.0=hf484d3e_1
+  - libopencv=3.4.2=hb342d67_1
+  - libopus=1.3.1=h7b6447c_0
+  - libpng=1.6.37=hbc83047_0
+  - libprotobuf=3.17.2=h4ff587b_1
+  - libstdcxx-ng=9.1.0=hdf63c60_0
+  - libtiff=4.1.0=h2733197_0
+  - libuuid=1.0.3=h7f8727e_2
+  - libvpx=1.7.0=h439df22_0
+  - libxcb=1.14=h7b6447c_0
+  - libxml2=2.9.9=hea5a465_1
+  - mkl=2021.3.0=h06a4308_520
+  - mkl-service=2.4.0=py37h7f8727e_0
+  - mkl_fft=1.3.1=py37hd3c417c_0
+  - mkl_random=1.2.2=py37h51133e4_0
+  - ncurses=6.1=he6710b0_1
+  - numexpr=2.7.3=py37h22e1b3c_1
+  - numpy-base=1.21.2=py37h79a1101_0
+  - opencv=3.4.2=py37h6fd60c2_1
+  - openssl=1.1.1h=h516909a_0
+  - pandas=1.3.3=py37h8c16a72_0
+  - pcre=8.45=h295c915_0
+  - pip=19.3.1=py37_0
+  - pixman=0.40.0=h7f8727e_1
+  - protobuf=3.17.2=py37h295c915_0
+  - py-opencv=3.4.2=py37hb342d67_1
+  - pycosat=0.6.3=py37h14c3975_0
+  - pycparser=2.19=py37_0
+  - pyopenssl=19.0.0=py37_0
+  - pysocks=1.7.1=py37_0
+  - python=3.7.4=h265db76_1
+  - python-dateutil=2.8.2=pyhd3eb1b0_0
+  - python_abi=3.7=2_cp37m
+  - pytz=2021.3=pyhd3eb1b0_0
+  - readline=7.0=h7b6447c_5
+  - requests=2.22.0=py37_0
+  - ruamel_yaml=0.15.46=py37h14c3975_0
+  - scipy=1.7.1=py37h292c36d_2
+  - setuptools=41.4.0=py37_0
+  - six=1.12.0=py37_0
+  - sqlite=3.30.0=h7b6447c_0
+  - tensorboardx=2.2=pyhd3eb1b0_0
+  - tk=8.6.8=hbc83047_0
+  - tqdm=4.36.1=py_0
+  - urllib3=1.24.2=py37_0
+  - wheel=0.33.6=py37_0
+  - xz=5.2.4=h14c3975_4
+  - yaml=0.1.7=had09818_2
+  - zlib=1.2.11=h7b6447c_3
+  - zstd=1.3.7=h0b5b093_0
+  - pip:
+    - absl-py==1.0.0
+    - cachetools==4.2.4
+    - conda-pack==0.6.0
+    - google-auth==2.3.3
+    - google-auth-oauthlib==0.4.6
+    - grpcio==1.42.0
+    - importlib-metadata==4.8.2
+    - markdown==3.3.6
+    - numpy==1.21.3
+    - oauthlib==3.1.1
+    - pillow==8.4.0
+    - pyasn1==0.4.8
+    - pyasn1-modules==0.2.8
+    - requests-oauthlib==1.3.0
+    - rsa==4.8
+    - tensorboard==2.7.0
+    - tensorboard-data-server==0.6.1
+    - tensorboard-plugin-wit==1.8.0
+    - torch==1.8.1+cu111
+    - torchvision==0.9.1+cu111
+    - typing-extensions==3.10.0.2
+    - werkzeug==2.0.2
+    - zipp==3.6.0
+prefix: /home/chenjin/miniconda3/envs/Py3.7_torch1.8
diff --git a/Meta-causal/code-stage1-pipeline/main_my_joint_v13_auto.py b/Meta-causal/code-stage1-pipeline/main_my_joint_v13_auto.py
new file mode 100644
index 0000000000000000000000000000000000000000..6c7dbc66ee116fe2049d41145424827488c827bc
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/main_my_joint_v13_auto.py
@@ -0,0 +1,279 @@
+
+'''
+训练 base 模型
+'''
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+import itertools
+from torch import optim
+from torch.utils.data import DataLoader, RandomSampler
+from torchvision import models
+from torchvision.datasets import CIFAR10
+from torchvision.utils import make_grid
+import torchvision.transforms as transforms
+from tensorboardX import SummaryWriter
+from torch.cuda.amp import autocast,GradScaler
+
+import os
+import click
+import time
+import numpy as np
+
+from network import mnist_net_my as mnist_net
+from network import wideresnet as wideresnet
+from network import resnet as resnet
+from network import adaptor_v2
+
+from tools import causalaugment_v3 as causalaugment
+import data_loader_joint_v3 as data_loader
+# from utils import set_requires_grad
+
+HOME = os.environ['HOME']
+
+@click.command()
+@click.option('--gpu', type=str, default='0', help='选择gpu')
+@click.option('--data', type=str, default='mnist', help='数据集名称')
+@click.option('--ntr', type=int, default=None, help='选择训练集前ntr个样本')
+@click.option('--translate', type=float, default=None, help='随机平移数据增强')
+@click.option('--autoaug', type=str, default=None, help='AA FastAA RA')
+@click.option('--n', type=int, default=3, help='选择多少个factor生成RA')
+@click.option('--stride', type=int, default=5, help='if autoaug==CA_multiple, stride is used')
+@click.option('--factor_num', type=int, default=16, help='the first n factors')
+@click.option('--epochs', type=int, default=100)
+@click.option('--nbatch', type=int, default=100, help='每个epoch中batch的数量')
+@click.option('--batchsize', type=int, default=128, help='每个batch中样本的数量')
+@click.option('--lr', type=float, default=1e-3)
+@click.option('--lr_scheduler', type=str, default='none', help='是否选择学习率衰减策略')
+@click.option('--svroot', type=str, default='./saved', help='项目文件保存路径')
+@click.option('--clsadapt', type=bool, default=True, help='映射后是否用分类损失')
+@click.option('--lambda_causal', type=float, default=1, help='the weight of reconstruction during mapping and causal ')
+@click.option('--lambda_re', type=float, default=1, help='the weight of reconstruction during mapping and causal ')
+@click.option('--randm', type=bool, default=True, help='m取值是否randm')
+@click.option('--randn', type=bool, default=False, help='原始特征是否detach')
+@click.option('--network', type=str, default='resnet18', help='项目文件保存路径')
+
+
+def experiment(gpu, data, ntr, translate, autoaug, n, stride, factor_num, epochs, nbatch, batchsize, lr, lr_scheduler, svroot, clsadapt, lambda_causal,lambda_re,randm,randn,network):
+    settings = locals().copy()
+    print(settings)
+
+    # 全局设置
+    os.environ['CUDA_VISIBLE_DEVICES'] = gpu
+    if not os.path.exists(svroot):
+        os.makedirs(svroot)
+    log_file = open(svroot+os.sep+'log.log',"w")
+    log_file.write(str(settings)+'\n')
+    writer = SummaryWriter(svroot)
+
+    # 加载数据集和模型
+    if data in ['mnist', 'mnist_t']: 
+        if data == 'mnist':
+            trset = data_loader.load_mnist('train', translate=translate,twox=True, ntr=ntr, factor_num=factor_num,autoaug=autoaug,randm=randm,randn=randn,n=n,stride=stride)
+        elif data == 'mnist_t':
+            trset = data_loader.load_mnist_t('train', translate=translate, ntr=ntr)
+        teset = data_loader.load_mnist('test')
+        trloader = DataLoader(trset, batch_size=batchsize, num_workers=0, \
+                sampler=RandomSampler(trset, True, nbatch*batchsize))
+        teloader = DataLoader(teset, batch_size=batchsize, num_workers=0, shuffle=False)
+        cls_net = mnist_net.ConvNet().cuda()
+       
+        parameter_list = []
+        parameter_list.append({'params':cls_net.parameters(),'lr':lr})
+        opt = optim.Adam(parameter_list, lr=lr)
+        if lr_scheduler == 'cosine':
+            scheduler = optim.lr_scheduler.CosineAnnealingLR(opt, epochs)
+        elif lr_scheduler == 'Exp':
+            scheduler = optim.lr_scheduler.ExponentialLR(opt, gamma=0.95) 
+        elif lr_scheduler == 'Step':
+            scheduler = optim.lr_scheduler.StepLR(opt, step_size=int(epochs*0.8))
+       
+    elif data == 'cifar10':
+        # 加载数据集
+        trset = data_loader.load_cifar10(split='train',twox=True, factor_num=factor_num,autoaug=autoaug,randm=randm,randn=randn,n=n,stride=stride)
+        teset = data_loader.load_cifar10(split='test')
+        trloader = DataLoader(trset, batch_size=batchsize, num_workers=4, shuffle=True, drop_last=True)
+        teloader = DataLoader(teset, batch_size=batchsize, num_workers=4, shuffle=False)
+        cls_net = wideresnet.WideResNet(16, 10, 4).cuda()
+        # cls_opt = optim.SGD(cls_net.parameters(), lr=lr, momentum=0.9, nesterov=True, weight_decay=5e-4)
+        AdaptNet = []
+        parameter_list = []
+        for i in range(factor_num):
+            mapping = adaptor_v2.mapping(256,512,256,4).cuda()
+            AdaptNet.append(mapping)
+            parameter_list.append({'params':mapping.parameters(),'lr':lr})
+        if autoaug == 'CA_multiple':
+            var_num = len(list(range(0, 31, stride)))
+            E_to_W = adaptor_v2.effect_to_weight(10,100,1).cuda()
+        else:
+            E_to_W = adaptor_v2.effect_to_weight(10,100,1).cuda()
+        parameter_list.append({'params':cls_net.parameters(),'lr':lr})
+        parameter_list.append({'params':E_to_W.parameters(),'lr':lr})
+        #print("---------------------------------------------------------------------------------------")
+        # opt = optim.Adam(parameter_list)
+        opt = optim.SGD(parameter_list, lr=lr, momentum=0.9, nesterov=True, weight_decay=5e-4)
+        if lr_scheduler == 'cosine':
+            scheduler = optim.lr_scheduler.CosineAnnealingLR(opt, epochs)
+        elif lr_scheduler == 'Exp':
+            scheduler = optim.lr_scheduler.ExponentialLR(opt, gamma=0.95)
+        elif lr_scheduler == 'Step':
+            scheduler = optim.lr_scheduler.StepLR(opt, step_size=int(epochs*0.8))
+    
+
+    elif data in ['art_painting', 'cartoon', 'photo', 'sketch']:
+        # 加载数据集
+        trset = data_loader.load_pacs(domain=data, split='train', twox=True, factor_num=factor_num,autoaug=autoaug,randm=randm,randn=randn,n=n,stride=stride)
+        teset = data_loader.load_pacs(domain=data, split='val')
+        trloader = DataLoader(trset, batch_size=batchsize, num_workers=4, shuffle=True, drop_last=True)
+        teloader = DataLoader(teset, batch_size=batchsize, num_workers=4, shuffle=False)
+        if network == 'resnet18':
+            cls_net = resnet.resnet18(classes=7,c_dim=2048).cuda()
+
+        classifier_param = list(map(id, cls_net.class_classifier.parameters()))
+        backbone_param  =  filter(lambda p: id(p) not in classifier_param and p.requires_grad, cls_net.parameters())
+        
+        parameter_list = []
+        parameter_list.append({'params':backbone_param,'lr':0.01*lr})
+        parameter_list.append({'params':cls_net.class_classifier.parameters(),'lr':lr})
+
+        opt = optim.SGD(parameter_list, momentum=0.9, nesterov=True, weight_decay=5e-4)
+        if lr_scheduler == 'cosine':
+            scheduler = optim.lr_scheduler.CosineAnnealingLR(opt, epochs)
+        elif lr_scheduler == 'Exp':
+            scheduler = optim.lr_scheduler.ExponentialLR(opt, gamma=0.99999) 
+        elif lr_scheduler == 'Step':
+            scheduler = optim.lr_scheduler.StepLR(opt, step_size=15)
+
+    cls_criterion = nn.CrossEntropyLoss()
+
+    # 开始训练
+    best_acc = 0
+    best_acc_t = 0
+    scaler = GradScaler()
+    for epoch in range(epochs):
+        t1 = time.time() 
+        loss_list = []
+        cls_net.train()
+        print(len(trloader))
+        for i, (x_four,y) in enumerate(trloader):
+            x, x_RA, x_FA, x_CA, y = x_four[0].cuda(), x_four[1].cuda(), x_four[2].cuda(), x_four[3].cuda(), y.cuda()
+            #print('x:', x.shape, 'x_RA:', x_RA.shape, 'x_FA:', x_FA.shape, 'x_CA:', x_CA.shape, 'y:', y.shape)
+            b, c, h, w = x.shape
+            with autocast():
+                p,f = cls_net(x)
+                #print('p:', p.size(), 'f:', f.size())
+        
+                cls_loss = cls_criterion(p, y)
+                #print('cls_loss:', cls_loss)
+
+                loss = cls_loss 
+
+            opt.zero_grad()            
+            scaler.scale(loss).backward()
+            scaler.step(opt)
+            scaler.update()
+            #loss_list.append([cls_loss.item(), cls_loss_mapping.item(),cls_loss_causal.item(), re_mapping.item(), re_causal.item()])
+            loss_list.append(cls_loss.item())
+
+            # 调整学习率
+        if lr_scheduler in ['cosine', 'Exp', 'Step']:
+            writer.add_scalar('scalar/lr', opt.param_groups[0]["lr"], epoch)
+            print(opt.param_groups[0]["lr"])
+            print("changing lr")
+            scheduler.step()
+        #cls_loss, cls_loss_mapping, cls_loss_causal, re_mapping, re_causal = np.mean(loss_list, 0)    
+        cls_loss = np.mean(loss_list)    
+
+        # 测试，并保存最优模型
+        cls_net.eval()
+        if data in ['mnist', 'mnist_t', 'cifar10', 'mnistvis', 'art_painting', 'cartoon', 'photo', 'sketch']:
+            teacc = evaluate(cls_net, teloader)
+
+        if best_acc < teacc:
+            print(f'---------------------saving model at epoch {epoch}----------------------------------------------------')
+            log_file.write(f'saving model at epoch {epoch}\n')
+
+            best_acc = teacc
+            torch.save(cls_net.state_dict(),os.path.join(svroot, 'best_cls_net.pkl'))
+        
+        if ((epoch+1)%5==0):
+            torch.save(cls_net.state_dict(),os.path.join(svroot, f'epoch{epoch}_cls_net.pkl'))
+
+        # 保存日志
+        t2 = time.time()
+        #print(f'epoch {epoch}, time {t2-t1:.2f}, cls_loss {cls_loss:.4f} cls_loss_mapping {cls_loss_mapping:.4f} cls_loss_causal {cls_loss_causal:.4f} re_mapping {re_mapping:.4f} re_causal {re_causal:.4f} /// teacc {teacc:2.2f} lr {opt.param_groups[0]["lr"]:.8f}')
+        print(f'epoch {epoch}, time {t2-t1:.2f}, cls_loss {cls_loss:.4f}')
+
+        #log_file.write(f'epoch {epoch}, time {t2-t1:.2f}, cls_loss {cls_loss:.4f} cls_loss_mapping {cls_loss_mapping:.4f} cls_loss_causal {cls_loss_causal:.4f} re_mapping {re_mapping:.4f} re_causal {re_causal:.4f} /// teacc {teacc:2.2f} lr {opt.param_groups[0]["lr"]:.8f} \n')
+        log_file.write(f'epoch {epoch}, time {t2-t1:.2f}, cls_loss {cls_loss:.4f}')
+
+        writer.add_scalar('scalar/cls_loss', cls_loss, epoch)
+        #writer.add_scalar('scalar/cls_loss_mapping', cls_loss_mapping, epoch)
+        #writer.add_scalar('scalar/cls_loss_causal', cls_loss_causal, epoch)
+        #writer.add_scalar('scalar/re_mapping', re_mapping, epoch)
+        #writer.add_scalar('scalar/re_causal', re_causal, epoch)
+        writer.add_scalar('scalar/teacc', teacc, epoch)
+
+    print(f'---------------------saving last model at epoch {epoch}----------------------------------------------------')
+    log_file.write(f'saving last model at epoch {epoch}\n')
+    torch.save(cls_net.state_dict(),os.path.join(svroot, 'last_cls_net.pkl'))
+    writer.close()
+
+
+def evalute_pacs(source_domain,cls_net):
+    cls_net.eval()
+    data_total = ['art_painting', 'cartoon', 'photo', 'sketch']
+    target = [i for i in data_total if i!=source_domain]
+    acc = np.zeros(len(target))
+    for idx, data in enumerate(target):
+        teset = data_loader.load_pacs(data, 'test')
+        teloader = DataLoader(teset, batch_size=6, num_workers=0)
+        # 计算评价指标
+        acc[idx] = evaluate(cls_net, teloader)
+    acc_avg = sum(acc)/len(target)
+    return acc_avg,acc
+
+def evaluate(net, teloader):
+    ps = []
+    ys = []
+    for i,(x1, y1) in enumerate(teloader):
+        with torch.no_grad():
+            x1 = x1.cuda()
+            p1,_ = net(x1, mode='fc')
+            p1 = p1.argmax(dim=1)
+            ps.append(p1.detach().cpu().numpy())
+            ys.append(y1.numpy())
+    # 计算评价指标
+    ps = np.concatenate(ps)
+    ys = np.concatenate(ys)
+    acc = np.mean(ys==ps)*100
+    return acc
+
+def extract_feature(net, teloader, savedir):
+    ps = []
+    ys = []
+    for i,(x1, y1) in enumerate(teloader):
+        img_class = y1[0].cpu().numpy()
+        save_path = os.path.join(savedir,str(img_class))
+        if not os.path.exists(save_path):
+            os.makedirs(save_path)
+
+        with torch.no_grad():
+            x1 = x1.cuda()
+            p1,f1 = net(x1, mode='fc')
+            save_name = save_path+os.sep+str(i)+'.npy'
+            np.save(save_name,f1.cpu())
+            p1 = p1.argmax(dim=1)
+            ps.append(p1.detach().cpu().numpy())
+            ys.append(y1.numpy())
+    # 计算评价指标
+    ps = np.concatenate(ps)
+    ys = np.concatenate(ys)
+    acc = np.mean(ys==ps)*100
+    return acc
+
+
+
+if __name__=='__main__':
+    experiment()
\ No newline at end of file
diff --git a/Meta-causal/code-stage1-pipeline/main_test_digit_v13.py b/Meta-causal/code-stage1-pipeline/main_test_digit_v13.py
new file mode 100644
index 0000000000000000000000000000000000000000..fcba8e67b2ac2671b34d90590d87d62fa7ef7da9
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/main_test_digit_v13.py
@@ -0,0 +1,85 @@
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from torch.utils.data import DataLoader
+
+import os
+import numpy as np
+import click
+import pandas as pd
+
+from network import mnist_net_my as mnist_net
+from network import adaptor_v2
+from tools import causalaugment_v3 as causalaugment
+from main_my_joint_v13_auto import evaluate
+import data_loader_joint_v3 as data_loader
+
+@click.command()
+@click.option('--gpu', type=str, default='0', help='选择GPU编号')
+@click.option('--svroot', type=str, default='./saved')
+@click.option('--svpath', type=str, default=None, help='保存日志的路径')
+@click.option('--channels', type=int, default=3)
+@click.option('--factor_num', type=int, default=16)
+@click.option('--stride', type=int, default=16)
+@click.option('--epoch', type=str, default='best')
+@click.option('--eval_mapping', type=bool, default=True, help='是否查看mapping学习效果')
+def main(gpu, svroot, svpath, channels, factor_num,stride, epoch, eval_mapping):
+    evaluate_digit(gpu, svroot, svpath, channels, factor_num, stride,epoch, eval_mapping)
+    
+def evaluate_digit(gpu, svroot, svpath, channels=3, factor_num=16,stride=5,epoch='best', eval_mapping=True):
+    settings = locals().copy()
+    print(settings)
+    os.environ['CUDA_VISIBLE_DEVICES'] = gpu
+
+    # 加载分类模型
+    if channels == 3:
+        cls_net = mnist_net.ConvNet().cuda()
+    elif channels == 1:
+        cls_net = mnist_net.ConvNet(imdim=channels).cuda()
+    if epoch == 'best':
+        print("loading weight of %s"%(epoch))
+        saved_weight = torch.load(os.path.join(svroot, 'best_cls_net.pkl'))
+    elif epoch == 'last':
+        print("loading weight of %s"%(epoch))
+        saved_weight = torch.load(os.path.join(svroot, 'last_cls_net.pkl'))
+    cls_net.load_state_dict(saved_weight)
+    cls_net.eval()
+
+    # 测试
+    str2fun = { 
+        'mnist': data_loader.load_mnist,
+        'mnist_m': data_loader.load_mnist_m,
+        'usps': data_loader.load_usps,
+        'svhn': data_loader.load_svhn,
+        'syndigit': data_loader.load_syndigit,
+        }   
+    
+    columns = ['mnist', 'svhn', 'mnist_m', 'syndigit','usps']
+    target = ['svhn', 'mnist_m', 'syndigit','usps']
+  
+    index = ['w/o do (original x)']
+    data_result = {}
+
+    for idx, data in enumerate(columns):
+        teset = str2fun[data]('test', channels=channels)
+        teloader = DataLoader(teset, batch_size=8, num_workers=0)
+        # 计算评价指标
+        teacc = evaluate(cls_net, teloader)
+        if data == 'mnist':
+            acc_avg = np.zeros(teacc.shape)
+        else:
+            acc_avg = acc_avg + teacc
+        data_result[data] = teacc         
+    acc_avg = acc_avg/float(len(target))
+    
+    data_result['Avg'] = acc_avg
+
+    df = pd.DataFrame(data_result,index = index)
+    print(df)    
+    if svpath is not None:
+        df.to_csv(svpath)
+
+if __name__=='__main__':
+    main()
+
diff --git a/Meta-causal/code-stage1-pipeline/main_test_pacs_v13.py b/Meta-causal/code-stage1-pipeline/main_test_pacs_v13.py
new file mode 100644
index 0000000000000000000000000000000000000000..9a8b05675e6319cea1651da2048fbf4720a4dae7
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/main_test_pacs_v13.py
@@ -0,0 +1,89 @@
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from torch.utils.data import DataLoader
+
+import os
+import numpy as np
+import click
+import pandas as pd
+
+from network import resnet as resnet
+from network import adaptor_v2
+from tools import causalaugment_v3 as causalaugment
+from main_my_joint_v13_auto import evaluate
+import data_loader_joint_v3 as data_loader
+
+@click.command()
+@click.option('--gpu', type=str, default='0', help='选择GPU编号')
+@click.option('--svroot', type=str, default='./saved')
+@click.option('--source_domain', type=str, default='art_painting', help='source domain')
+@click.option('--svpath', type=str, default=None, help='保存日志的路径')
+@click.option('--factor_num', type=int, default=16)
+@click.option('--epoch', type=str, default='best')
+@click.option('--stride', type=int, default=5)
+@click.option('--eval_mapping', type=bool, default=False, help='是否查看mapping学习效果')
+@click.option('--network', type=str, default='resnet18', help='项目文件保存路径')
+def main(gpu, svroot, source_domain, svpath, factor_num, epoch, stride,eval_mapping, network):
+    evaluate_pacs(gpu, svroot, source_domain, svpath, factor_num, epoch, stride,eval_mapping, network)
+    
+def evaluate_pacs(gpu, svroot, source_domain, svpath, factor_num=16, epoch='best', stride=5,eval_mapping=False, network='resnet18'):
+    settings = locals().copy()
+    print(settings)
+    os.environ['CUDA_VISIBLE_DEVICES'] = gpu
+
+    # 加载分类模型
+    if network == 'resnet18':
+        cls_net = resnet.resnet18(classes=7,c_dim=2048).cuda()
+        input_dim = 2048
+    if epoch == 'best':
+        print("loading weight of %s"%(epoch))
+        saved_weight = torch.load(os.path.join(svroot, 'best_cls_net.pkl'))
+    elif epoch == 'last':
+        print("loading weight of %s"%(epoch))
+        saved_weight = torch.load(os.path.join(svroot, 'last_cls_net.pkl'))
+   
+    cls_net.load_state_dict(saved_weight)
+    cls_net.eval()
+
+
+    columns = ['art_painting', 'cartoon', 'photo', 'sketch']
+    target = [i for i in columns if i!=source_domain]
+    columns = [source_domain] + target
+    print("columns:",columns)
+
+  
+    index = ['w/o do (original x)']
+
+    data_result = {}
+    data_result_ours = {}
+
+    for idx, data in enumerate(columns):
+        teset = data_loader.load_pacs(data, 'test')
+        teloader = DataLoader(teset, batch_size=4, num_workers=0)
+        # 计算评价指标
+        acc = evaluate(cls_net, teloader)
+        data_result_ours[data] = acc
+      
+        teacc = evaluate(cls_net, teloader)
+        if data == source_domain:
+            acc_avg = np.zeros(teacc.shape)
+        else:
+            acc_avg = acc_avg + teacc
+        data_result[data] = teacc        
+    acc_avg = acc_avg/float(len(target))
+    
+    data_result['Avg'] = acc_avg
+
+    df = pd.DataFrame(data_result,index = index)
+    print(df)
+
+    if svpath is not None:
+        df.to_csv(svpath)
+
+if __name__=='__main__':
+    main()
+
+    
+
diff --git a/Meta-causal/code-stage1-pipeline/network/adaptor_v2.py b/Meta-causal/code-stage1-pipeline/network/adaptor_v2.py
new file mode 100644
index 0000000000000000000000000000000000000000..ce47dbd1a24f9e2f741d8a82061b62b86d3dba41
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/network/adaptor_v2.py
@@ -0,0 +1,63 @@
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+import numpy as np
+
+class mapping(nn.Module):
+    def __init__(self, input_dim=1024, hidden_dim = 512, out_dim=1024, layernum=4):
+        ''' 
+        '''
+        super().__init__()
+        self.layernum = layernum
+        if layernum == 4:
+            self.fc1 = nn.Linear(input_dim, hidden_dim)
+            self.fc2 = nn.Linear(hidden_dim, hidden_dim)
+            self.fc3 = nn.Linear(hidden_dim, hidden_dim)
+            self.fc4 = nn.Linear(hidden_dim, out_dim)
+        elif layernum == 2:
+            self.fc1 = nn.Linear(input_dim, hidden_dim)
+            self.fc2 = nn.Linear(hidden_dim, out_dim)            
+        self.relu = nn.ReLU(inplace=True)
+
+    def forward(self, x): 
+        ''' x '''
+        if self.layernum == 4:
+            x = self.relu(self.fc1(x))
+            x = self.relu(self.fc2(x))
+            x = self.relu(self.fc3(x))
+            x = self.fc4(x)
+        elif self.layernum == 2:
+            x = self.relu(self.fc1(x))
+            x = self.fc2(x)            
+        return x
+
+
+class effect_to_weight(nn.Module):
+    def __init__(self, input_dim = 512, hidden_dim = 256, out_dim = 1, layernum=2, hidden_dim2 = 128):
+        ''' 
+        '''
+        super().__init__()
+        
+        self.layernum = layernum
+        if layernum == 2:
+            self.fc1 = nn.Linear(input_dim, hidden_dim)
+            self.fc2 = nn.Linear(hidden_dim, out_dim)
+        elif layernum == 3:
+            self.fc1 = nn.Linear(input_dim, hidden_dim)
+            self.fc2 = nn.Linear(hidden_dim, hidden_dim2)            
+            self.fc3 = nn.Linear(hidden_dim2, out_dim)  
+        self.relu = nn.ReLU(inplace=True)
+
+    def forward(self, x): 
+        ''' x '''
+        if self.layernum == 2:
+            x = self.relu(self.fc1(x))
+            x = self.fc2(x)
+        else:
+            x = self.relu(self.fc1(x))
+            x = self.relu(self.fc2(x))
+            x = self.fc3(x)
+        return x
+
+
diff --git a/Meta-causal/code-stage1-pipeline/network/mnist_net_my.py b/Meta-causal/code-stage1-pipeline/network/mnist_net_my.py
new file mode 100644
index 0000000000000000000000000000000000000000..15e2e677280fdd2211b559f9f1bafd2fb66b5ef4
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/network/mnist_net_my.py
@@ -0,0 +1,104 @@
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+
+class ConvNet(nn.Module):
+    ''' 网络结构和cvpr2020的 M-ADA 方法一致 '''
+    def __init__(self, imdim=3):
+        super(ConvNet, self).__init__()
+
+        self.conv1 = nn.Conv2d(imdim, 64, kernel_size=5, stride=1, padding=0)
+        self.mp = nn.MaxPool2d(2)
+        self.relu1 = nn.ReLU(inplace=True)
+        self.conv2 = nn.Conv2d(64, 128, kernel_size=5, stride=1, padding=0)
+        self.relu2 = nn.ReLU(inplace=True)
+        self.fc1 = nn.Linear(128*5*5, 1024)
+        self.relu3 = nn.ReLU(inplace=True)
+        self.fc2 = nn.Linear(1024, 1024)
+        self.relu4 = nn.ReLU(inplace=True)
+        
+        self.cls_head_src = nn.Linear(1024, 10)
+        # self.cls_head_tgt = nn.Linear(1024, 10)
+        # self.pro_head = nn.Linear(1024, 128)
+
+    def forward(self, x, mode='fc'):
+        if mode == 'c':
+            out4 = self.relu4(x)
+            p = self.cls_head_src(out4)
+            return p
+        elif mode == 'fc':
+            in_size = x.size(0)
+            out1 = self.mp(self.relu1(self.conv1(x)))
+            out2 = self.mp(self.relu2(self.conv2(out1)))
+            out2 = out2.view(in_size, -1)
+            out3 = self.relu3(self.fc1(out2))
+            out4_worelu = self.fc2(out3)
+            out4 = self.relu4(out4_worelu)
+            p = self.cls_head_src(out4)
+            return p, out4_worelu
+
+        # if mode == 'test':
+        #     p = self.cls_head_src(out4)
+        #     return p
+        # elif mode == 'train':
+        #     p = self.cls_head_src(out4)
+        #     # z = self.pro_head(out4)
+        #     # z = F.normalize(z)
+        #     return p,out4_worelu
+        # elif mode == 'p_f':
+        #     p = self.cls_head_src(out4)
+        #     return p, out4
+        #elif mode == 'target':
+        #    p = self.cls_head_tgt(out4)
+        #    z = self.pro_head(out4)
+        #    z = F.normalize(z)
+        #    return p,z
+    
+class ConvNetVis(nn.Module):
+    ''' 方便可视化，特征提取器输出2-d特征
+    '''
+    def __init__(self, imdim=3):
+        super(ConvNetVis, self).__init__()
+
+        self.conv1 = nn.Conv2d(imdim, 64, kernel_size=5, stride=1, padding=0)
+        self.mp = nn.MaxPool2d(2)
+        self.relu1 = nn.ReLU(inplace=True)
+        self.conv2 = nn.Conv2d(64, 128, kernel_size=5, stride=1, padding=0)
+        self.relu2 = nn.ReLU(inplace=True)
+        self.fc1 = nn.Linear(128*5*5, 1024)
+        self.relu3 = nn.ReLU(inplace=True)
+        self.fc2 = nn.Linear(1024, 2)
+        self.relu4 = nn.ReLU(inplace=True)
+        
+        self.cls_head_src = nn.Linear(2, 10)
+        self.cls_head_tgt = nn.Linear(2, 10)
+        self.pro_head = nn.Linear(2, 128)
+
+    def forward(self, x, mode='test'):
+
+        in_size = x.size(0)
+        out1 = self.mp(self.relu1(self.conv1(x)))
+        out2 = self.mp(self.relu2(self.conv2(out1)))
+        out2 = out2.view(in_size, -1)
+        out3 = self.relu3(self.fc1(out2))
+        out4 = self.relu4(self.fc2(out3))
+        
+        if mode == 'test':
+            p = self.cls_head_src(out4)
+            return p
+        elif mode == 'train':
+            p = self.cls_head_src(out4)
+            z = self.pro_head(out4)
+            z = F.normalize(z)
+            return p,z
+        elif mode == 'p_f':
+            p = self.cls_head_src(out4)
+            return p, out4
+        #elif mode == 'target':
+        #    p = self.cls_head_tgt(out4)
+        #    z = self.pro_head(out4)
+        #    z = F.normalize(z)
+        #    return p,z
+    
+
diff --git a/Meta-causal/code-stage1-pipeline/network/resnet.py b/Meta-causal/code-stage1-pipeline/network/resnet.py
new file mode 100644
index 0000000000000000000000000000000000000000..925410b6cc064aba01d1f86efa8eb7fdd592ecee
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/network/resnet.py
@@ -0,0 +1,101 @@
+from torch import nn
+from torch.utils import model_zoo
+#from torchvision.models.resnet import BasicBlock, model_urls, Bottleneck
+from torchvision.models.resnet import BasicBlock, Bottleneck
+
+import torch
+import ssl
+# from torch import nn as nn
+# from utils.util import *
+
+ssl._create_default_https_context = ssl._create_unverified_context
+
+all = ['ResNet', 'resnet18', 'resnet34', 'resnet50', 'resnet101','resnet152']
+
+model_urls = {
+'resnet18': 'https://download.pytorch.org/models/resnet18-5c106cde.pth',
+'resnet34': 'https://download.pytorch.org/models/resnet34-333f7ec4.pth',
+'resnet50': 'https://download.pytorch.org/models/resnet50-19c8e357.pth',
+'resnet101': 'https://download.pytorch.org/models/resnet101-5d3b4d8f.pth',
+'resnet152': 'https://download.pytorch.org/models/resnet152-b121ed2d.pth',
+}
+
+
+class ResNet(nn.Module):
+    def __init__(self, block, layers,classes=7,c_dim=512):
+        self.inplanes = 64
+        super(ResNet, self).__init__()
+        self.conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3,
+                               bias=False)
+        self.bn1 = nn.BatchNorm2d(64)
+        self.relu = nn.ReLU(inplace=True)
+        self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)
+        self.layer1 = self._make_layer(block, 64, layers[0])
+        self.layer2 = self._make_layer(block, 128, layers[1], stride=2)
+        self.layer3 = self._make_layer(block, 256, layers[2], stride=2)
+        self.layer4 = self._make_layer(block, 512, layers[3], stride=2)
+        self.avgpool = nn.AvgPool2d(7, stride=1)
+        self.class_classifier = nn.Linear(c_dim, classes)
+        for m in self.modules():
+            if isinstance(m, nn.Conv2d):
+                nn.init.kaiming_normal_(m.weight, mode='fan_out', nonlinearity='relu')
+            elif isinstance(m, nn.BatchNorm2d):
+                nn.init.constant_(m.weight, 1)
+                nn.init.constant_(m.bias, 0)
+
+    def _make_layer(self, block, planes, blocks, stride=1):
+        downsample = None
+        if stride != 1 or self.inplanes != planes * block.expansion:
+            downsample = nn.Sequential(
+                nn.Conv2d(self.inplanes, planes * block.expansion,
+                          kernel_size=1, stride=stride, bias=False),
+                nn.BatchNorm2d(planes * block.expansion),
+            )
+
+        layers = []
+        layers.append(block(self.inplanes, planes, stride, downsample))
+        self.inplanes = planes * block.expansion
+        for i in range(1, blocks):
+            layers.append(block(self.inplanes, planes))
+
+        return nn.Sequential(*layers)
+    def forward(self, x, mode='fc'):
+        if mode == 'c':
+            return self.class_classifier(x)
+        else:
+            x = self.conv1(x)
+            x = self.bn1(x)
+            x = self.relu(x)
+            x = self.maxpool(x)
+
+            x = self.layer1(x)
+            x = self.layer2(x)
+            x = self.layer3(x)
+            x = self.layer4(x)
+            x = self.avgpool(x)
+            x = x.view(x.size(0), -1)
+            # print("x.shape:",x.shape)
+            return self.class_classifier(x), x
+
+
+def resnet18(pretrained=True, **kwargs):
+    """Constructs a ResNet-18 model.
+    Args:
+        pretrained (bool): If True, returns a model pre-trained on ImageNet
+    """
+    model = ResNet(BasicBlock, [2, 2, 2, 2], **kwargs)
+    if pretrained:
+        print("-------------------------------------loading pretrain weights----------------------------------")
+        model.load_state_dict(model_zoo.load_url(model_urls['resnet18']), strict=False)
+    return model
+
+def resnet50(pretrained=True, **kwargs):
+    """Constructs a ResNet-50 model.
+    Args:
+        pretrained (bool): If True, returns a model pre-trained on ImageNet
+    """
+    model = ResNet(Bottleneck, [3, 4, 6, 3], **kwargs)
+    if pretrained:
+        print("-------------------------------------loading pretrain weights----------------------------------")
+        model.load_state_dict(model_zoo.load_url(model_urls['resnet50']), strict=False)
+    return model
diff --git a/Meta-causal/code-stage1-pipeline/network/wideresnet.py b/Meta-causal/code-stage1-pipeline/network/wideresnet.py
new file mode 100644
index 0000000000000000000000000000000000000000..1ca130a5f278c3b63f43b589db6ebd18d6e91593
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/network/wideresnet.py
@@ -0,0 +1,86 @@
+import math
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+
+
+class BasicBlock(nn.Module):
+    def __init__(self, in_planes, out_planes, stride, dropRate=0.0):
+        super(BasicBlock, self).__init__()
+        self.bn1 = nn.BatchNorm2d(in_planes)
+        self.relu1 = nn.ReLU(inplace=True)
+        self.conv1 = nn.Conv2d(in_planes, out_planes, kernel_size=3, stride=stride,
+                               padding=1, bias=False)
+        self.bn2 = nn.BatchNorm2d(out_planes)
+        self.relu2 = nn.ReLU(inplace=True)
+        self.conv2 = nn.Conv2d(out_planes, out_planes, kernel_size=3, stride=1,
+                               padding=1, bias=False)
+        self.droprate = dropRate
+        self.equalInOut = (in_planes == out_planes)
+        self.convShortcut = (not self.equalInOut) and nn.Conv2d(in_planes, out_planes, kernel_size=1, stride=stride,
+                               padding=0, bias=False) or None
+    def forward(self, x):
+        if not self.equalInOut:
+            x = self.relu1(self.bn1(x))
+        else:
+            out = self.relu1(self.bn1(x))
+        out = self.relu2(self.bn2(self.conv1(out if self.equalInOut else x)))
+        if self.droprate > 0:
+            out = F.dropout(out, p=self.droprate, training=self.training)
+        out = self.conv2(out)
+        return torch.add(x if self.equalInOut else self.convShortcut(x), out)
+
+class NetworkBlock(nn.Module):
+    def __init__(self, nb_layers, in_planes, out_planes, block, stride, dropRate=0.0):
+        super(NetworkBlock, self).__init__()
+        self.layer = self._make_layer(block, in_planes, out_planes, nb_layers, stride, dropRate)
+    def _make_layer(self, block, in_planes, out_planes, nb_layers, stride, dropRate):
+        layers = []
+        for i in range(int(nb_layers)):
+            layers.append(block(i == 0 and in_planes or out_planes, out_planes, i == 0 and stride or 1, dropRate))
+        return nn.Sequential(*layers)
+    def forward(self, x):
+        return self.layer(x)
+
+class WideResNet(nn.Module):
+    def __init__(self, depth, num_classes, widen_factor=1, dropRate=0.0):
+        super(WideResNet, self).__init__()
+        nChannels = [16, 16*widen_factor, 32*widen_factor, 64*widen_factor]
+        assert((depth - 4) % 6 == 0)
+        n = (depth - 4) / 6
+        block = BasicBlock
+        # 1st conv before any network block
+        self.conv1 = nn.Conv2d(3, nChannels[0], kernel_size=3, stride=1,
+                               padding=1, bias=False)
+        # 1st block
+        self.block1 = NetworkBlock(n, nChannels[0], nChannels[1], block, 1, dropRate)
+        # 2nd block
+        self.block2 = NetworkBlock(n, nChannels[1], nChannels[2], block, 2, dropRate)
+        # 3rd block
+        self.block3 = NetworkBlock(n, nChannels[2], nChannels[3], block, 2, dropRate)
+        # global average pooling and classifier
+        self.bn1 = nn.BatchNorm2d(nChannels[3])
+        self.relu = nn.ReLU(inplace=True)
+        self.fc = nn.Linear(nChannels[3], num_classes)
+        self.nChannels = nChannels[3]
+
+        for m in self.modules():
+            if isinstance(m, nn.Conv2d):
+                nn.init.kaiming_normal_(m.weight, mode='fan_out', nonlinearity='relu')
+            elif isinstance(m, nn.BatchNorm2d):
+                m.weight.data.fill_(1)
+                m.bias.data.zero_()
+            elif isinstance(m, nn.Linear):
+                m.bias.data.zero_()
+    def forward(self, x, mode='fc'):
+        if mode == 'c':
+            return self.fc(x)
+        else:
+            out = self.conv1(x)
+            out = self.block1(out)
+            out = self.block2(out)
+            out = self.block3(out)
+            out = self.relu(self.bn1(out))
+            out = F.avg_pool2d(out, 8)
+            out = out.view(-1, self.nChannels)
+            return self.fc(out), out
diff --git a/Meta-causal/code-stage1-pipeline/run_PACS/run_my_joint_v13_test.sh b/Meta-causal/code-stage1-pipeline/run_PACS/run_my_joint_v13_test.sh
new file mode 100644
index 0000000000000000000000000000000000000000..aa31ce0c1616cc80133bf211bfe621836131b1c4
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/run_PACS/run_my_joint_v13_test.sh
@@ -0,0 +1,35 @@
+
+# $1 gpuid
+# $2 runid
+
+# base方法
+cd ..
+epochs=30
+clsadapt=True
+lr=0.01
+factor_num=16
+lr_scheduler=cosine
+lambda_causal=1
+lambda_re=1
+batchsize=6
+stride=5
+randm=True
+randn=True
+autoaug=CA_multiple
+network=resnet18
+UniqueExpName=pipelineAugWoNorm
+
+root=/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS/
+data=art_painting
+svroot=$root/${data}/${autoaug}_${factor_num}fa_v2_ep${epochs}_lr${lr}_${lr_scheduler}_base0.01_bs${batchsize}_lamCa_${lambda_causal}_lamRe${lambda_re}_adt4_cls1_EW2_70_rm${randm}_rn${randn}_str${stride}_${UniqueExpName}
+#python3 main_my_joint_v13_auto.py --gpu $1 --data ${data} --epochs $epochs --autoaug $autoaug --lambda_causal ${lambda_causal} --lambda_re ${lambda_re} --lr $lr --svroot $svroot --clsadapt $clsadapt --factor_num $factor_num --lr_scheduler ${lr_scheduler} --batchsize ${batchsize} --network ${network} --randm ${randm} --randn ${randn} --stride ${stride}
+
+test_epoch=best
+#python3 main_test_pacs_v13.py --gpu $1 --source_domain $data --svroot $svroot --svpath $svroot/${data}_${factor_num}factor_${test_epoch}_test_check.csv --factor_num $factor_num --epoch $test_epoch --network ${network} --stride ${stride}
+
+python3 AllEpochs_test_pacs_v13.py --gpu $1 --source_domain $data --svroot $svroot --svpath $svroot/${data}_${factor_num}factor_${test_epoch}_test_check.csv --factor_num $factor_num --epoch $test_epoch --network ${network} --stride ${stride}
+
+
+
+
+
diff --git a/Meta-causal/code-stage1-pipeline/run_digits/run_my_joint_test.sh b/Meta-causal/code-stage1-pipeline/run_digits/run_my_joint_test.sh
new file mode 100644
index 0000000000000000000000000000000000000000..7cb85797bdb805f9fee2432529ce99fc8303a8c4
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/run_digits/run_my_joint_test.sh
@@ -0,0 +1,34 @@
+
+# $1 gpuid
+
+cd ..
+epochs=100
+clsadapt=True
+lr=1e-4
+lr_scheduler=Step
+factor_num=14
+test_epoch=best
+lambda_causal=1
+lambda_re=1
+batchsize=32
+stride=3
+randm=True
+randn=True
+autoaug=CA_multiple
+UniqueExpName='pipelineAugWoNorm'
+
+
+root=/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit
+svroot=$root/${autoaug}_${factor_num}fa_all_ep${epochs}_lr${lr}_lr_scheduler${lr_scheduler}0.8_bs${batchsize}_lamCa_${lambda_causal}_lamRe_${lambda_re}_cls1_adt2_EW2_100_rm${randm}_rn${randn}_str${stride}_${UniqueExpName}
+
+#python3 main_my_joint_v13_auto.py --gpu $1 --data mnist --epochs $epochs --autoaug $autoaug --lambda_causal ${lambda_causal} --lambda_re ${lambda_re} --lr $lr --lr_scheduler $lr_scheduler --svroot $svroot --clsadapt $clsadapt --factor_num $factor_num --batchsize ${batchsize} --randm ${randm} --randn ${randn} --stride ${stride}
+
+#python3 main_test_digit_v13.py --gpu $1 --svroot $svroot --svpath $svroot/${factor_num}factor_${test_epoch}.csv --factor_num $factor_num --epoch $test_epoch --stride ${stride}
+
+python3 AllEpochs_test_digit_v13.py --gpu $1 --svroot $svroot --svpath $svroot/${factor_num}factor_${test_epoch}.csv --factor_num $factor_num --epoch $test_epoch --stride ${stride}
+
+
+
+
+
+
diff --git a/Meta-causal/code-stage1-pipeline/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/events.out.tfevents.1719926752.hala b/Meta-causal/code-stage1-pipeline/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/events.out.tfevents.1719926752.hala
new file mode 100644
index 0000000000000000000000000000000000000000..aa44ae0c513b57a8501e9bb1af27dc442b72f7d7
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/events.out.tfevents.1719926752.hala
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a44a49f0a1b3c59b9763c67ea85708ef8b56cae5fe4336f0383f5f71ba0dac84
+size 40
diff --git a/Meta-causal/code-stage1-pipeline/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/log.log b/Meta-causal/code-stage1-pipeline/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/log.log
new file mode 100644
index 0000000000000000000000000000000000000000..f26feaaef352ae5821e49b7fbc4b1720f8735f38
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/log.log
@@ -0,0 +1 @@
+{'gpu': '0', 'data': 'art_painting', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 5, 'factor_num': 16, 'epochs': 70, 'nbatch': 100, 'batchsize': 6, 'lr': 0.01, 'lr_scheduler': 'cosine', 'svroot': 'saved-PACS//art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
diff --git a/Meta-causal/code-stage1-pipeline/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/events.out.tfevents.1719925086.hala b/Meta-causal/code-stage1-pipeline/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/events.out.tfevents.1719925086.hala
new file mode 100644
index 0000000000000000000000000000000000000000..5ec21b3afdf0e11651cc768f4f55ea6269b887f5
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/events.out.tfevents.1719925086.hala
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7946f93077ec2136f75fc090a5762ce810be71cc78d5201e8a671217a678c563
+size 40
diff --git a/Meta-causal/code-stage1-pipeline/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/events.out.tfevents.1719925314.hala b/Meta-causal/code-stage1-pipeline/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/events.out.tfevents.1719925314.hala
new file mode 100644
index 0000000000000000000000000000000000000000..620f9ba109e77ed90b7676c138933f814245e7f1
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/events.out.tfevents.1719925314.hala
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b2021c61739fbe1f9c066067b4e5903d8d2d6c1c44865e1e9c61449eb3d90327
+size 40
diff --git a/Meta-causal/code-stage1-pipeline/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/events.out.tfevents.1719925652.hala b/Meta-causal/code-stage1-pipeline/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/events.out.tfevents.1719925652.hala
new file mode 100644
index 0000000000000000000000000000000000000000..3144b1448112cff1aa0c26e0d825b50698f41d65
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/events.out.tfevents.1719925652.hala
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fafb4b17d350157735eb6174ff44bafcea7ab8bf86948df3421447ef45ffcae3
+size 40
diff --git a/Meta-causal/code-stage1-pipeline/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/log.log b/Meta-causal/code-stage1-pipeline/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/log.log
new file mode 100644
index 0000000000000000000000000000000000000000..f4c211545f0d2b537d3dcf980579f604a33419a7
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/log.log
@@ -0,0 +1 @@
+{'gpu': '0çç', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 500, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': 'saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
diff --git a/Meta-causal/code-stage1-pipeline/submit_v1-2.sh b/Meta-causal/code-stage1-pipeline/submit_v1-2.sh
new file mode 100644
index 0000000000000000000000000000000000000000..bda242b4573754859457a05d8e0f778917c95a13
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/submit_v1-2.sh
@@ -0,0 +1,22 @@
+#!/bin/bash
+#SBATCH --job-name=metatrainRN
+#SBATCH --nodes=1               # Request 1 node
+#SBATCH --ntasks=1              # Number of tasks (total)
+#SBATCH --cpus-per-task=8       # Number of CPU cores (threads) per task
+#SBATCH --mem-per-cpu=4G        # Memory limit per CPU core (there is no --mem-per-task)
+#SBATCH --time=12:00:00         # Job timeout
+#SBATCH --gpus-per-node=l4-24g:1
+#SBATCH --nodelist=gcpl4-eu-1
+#SBATCH --output=%j.log      # Redirect stdout to a log file
+#SBATCH --error=%j.error     # Redirect stderr to a separate error log file
+
+srun --nodes 1 --ntasks-per-node 1 -- \
+mkenv -f ../env_mc.yml -- \
+sh -c "cd run_digits
+bash run_my_joint_test.sh 0
+"
+
+
+
+
+
diff --git a/Meta-causal/code-stage1-pipeline/submit_v1.sh b/Meta-causal/code-stage1-pipeline/submit_v1.sh
new file mode 100644
index 0000000000000000000000000000000000000000..6f434f0b5acdd336596daaba7fafcce8464dc41a
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/submit_v1.sh
@@ -0,0 +1,22 @@
+#!/bin/bash
+#SBATCH --job-name=metatrainRN
+#SBATCH --nodes=1               # Request 1 node
+#SBATCH --ntasks=1              # Number of tasks (total)
+#SBATCH --cpus-per-task=8       # Number of CPU cores (threads) per task
+#SBATCH --mem-per-cpu=4G        # Memory limit per CPU core (there is no --mem-per-task)
+#SBATCH --time=12:00:00         # Job timeout
+#SBATCH --gpus-per-node=l4-24g:1
+#SBATCH --nodelist=gcpl4-eu-1
+#SBATCH --output=%j.log      # Redirect stdout to a log file
+#SBATCH --error=%j.error     # Redirect stderr to a separate error log file
+
+srun --nodes 1 --ntasks-per-node 1 -- \
+mkenv -f ../env_mc.yml -- \
+sh -c "cd run_PACS
+bash run_my_joint_v13_test.sh 0
+"
+
+
+
+
+
diff --git a/Meta-causal/code-stage1-pipeline/tools/autoaugment.py b/Meta-causal/code-stage1-pipeline/tools/autoaugment.py
new file mode 100644
index 0000000000000000000000000000000000000000..76c6bc4ebd5c59b76a58a8dca196f22d41fbf114
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/tools/autoaugment.py
@@ -0,0 +1,234 @@
+from PIL import Image, ImageEnhance, ImageOps
+import numpy as np
+import random
+
+
+class ImageNetPolicy(object):
+    """ Randomly choose one of the best 24 Sub-policies on ImageNet.
+
+        Example:
+        >>> policy = ImageNetPolicy()
+        >>> transformed = policy(image)
+
+        Example as a PyTorch Transform:
+        >>> transform=transforms.Compose([
+        >>>     transforms.Resize(256),
+        >>>     ImageNetPolicy(),
+        >>>     transforms.ToTensor()])
+    """
+    def __init__(self, fillcolor=(128, 128, 128)):
+        self.policies = [
+            SubPolicy(0.4, "posterize", 8, 0.6, "rotate", 9, fillcolor),
+            SubPolicy(0.6, "solarize", 5, 0.6, "autocontrast", 5, fillcolor),
+            SubPolicy(0.8, "equalize", 8, 0.6, "equalize", 3, fillcolor),
+            SubPolicy(0.6, "posterize", 7, 0.6, "posterize", 6, fillcolor),
+            SubPolicy(0.4, "equalize", 7, 0.2, "solarize", 4, fillcolor),
+
+            SubPolicy(0.4, "equalize", 4, 0.8, "rotate", 8, fillcolor),
+            SubPolicy(0.6, "solarize", 3, 0.6, "equalize", 7, fillcolor),
+            SubPolicy(0.8, "posterize", 5, 1.0, "equalize", 2, fillcolor),
+            SubPolicy(0.2, "rotate", 3, 0.6, "solarize", 8, fillcolor),
+            SubPolicy(0.6, "equalize", 8, 0.4, "posterize", 6, fillcolor),
+
+            SubPolicy(0.8, "rotate", 8, 0.4, "color", 0, fillcolor),
+            SubPolicy(0.4, "rotate", 9, 0.6, "equalize", 2, fillcolor),
+            SubPolicy(0.0, "equalize", 7, 0.8, "equalize", 8, fillcolor),
+            SubPolicy(0.6, "invert", 4, 1.0, "equalize", 8, fillcolor),
+            SubPolicy(0.6, "color", 4, 1.0, "contrast", 8, fillcolor),
+
+            SubPolicy(0.8, "rotate", 8, 1.0, "color", 2, fillcolor),
+            SubPolicy(0.8, "color", 8, 0.8, "solarize", 7, fillcolor),
+            SubPolicy(0.4, "sharpness", 7, 0.6, "invert", 8, fillcolor),
+            SubPolicy(0.6, "shearX", 5, 1.0, "equalize", 9, fillcolor),
+            SubPolicy(0.4, "color", 0, 0.6, "equalize", 3, fillcolor),
+
+            SubPolicy(0.4, "equalize", 7, 0.2, "solarize", 4, fillcolor),
+            SubPolicy(0.6, "solarize", 5, 0.6, "autocontrast", 5, fillcolor),
+            SubPolicy(0.6, "invert", 4, 1.0, "equalize", 8, fillcolor),
+            SubPolicy(0.6, "color", 4, 1.0, "contrast", 8, fillcolor),
+            SubPolicy(0.8, "equalize", 8, 0.6, "equalize", 3, fillcolor)
+        ]
+
+
+    def __call__(self, img):
+        policy_idx = random.randint(0, len(self.policies) - 1)
+        return self.policies[policy_idx](img)
+
+    def __repr__(self):
+        return "AutoAugment ImageNet Policy"
+
+
+class CIFAR10Policy(object):
+    """ Randomly choose one of the best 25 Sub-policies on CIFAR10.
+
+        Example:
+        >>> policy = CIFAR10Policy()
+        >>> transformed = policy(image)
+
+        Example as a PyTorch Transform:
+        >>> transform=transforms.Compose([
+        >>>     transforms.Resize(256),
+        >>>     CIFAR10Policy(),
+        >>>     transforms.ToTensor()])
+    """
+    def __init__(self, fillcolor=(128, 128, 128)):
+        self.policies = [
+            SubPolicy(0.1, "invert", 7, 0.2, "contrast", 6, fillcolor),
+            SubPolicy(0.7, "rotate", 2, 0.3, "translateX", 9, fillcolor),
+            SubPolicy(0.8, "sharpness", 1, 0.9, "sharpness", 3, fillcolor),
+            SubPolicy(0.5, "shearY", 8, 0.7, "translateY", 9, fillcolor),
+            SubPolicy(0.5, "autocontrast", 8, 0.9, "equalize", 2, fillcolor),
+
+            SubPolicy(0.2, "shearY", 7, 0.3, "posterize", 7, fillcolor),
+            SubPolicy(0.4, "color", 3, 0.6, "brightness", 7, fillcolor),
+            SubPolicy(0.3, "sharpness", 9, 0.7, "brightness", 9, fillcolor),
+            SubPolicy(0.6, "equalize", 5, 0.5, "equalize", 1, fillcolor),
+            SubPolicy(0.6, "contrast", 7, 0.6, "sharpness", 5, fillcolor),
+
+            SubPolicy(0.7, "color", 7, 0.5, "translateX", 8, fillcolor),
+            SubPolicy(0.3, "equalize", 7, 0.4, "autocontrast", 8, fillcolor),
+            SubPolicy(0.4, "translateY", 3, 0.2, "sharpness", 6, fillcolor),
+            SubPolicy(0.9, "brightness", 6, 0.2, "color", 8, fillcolor),
+            SubPolicy(0.5, "solarize", 2, 0.0, "invert", 3, fillcolor),
+
+            SubPolicy(0.2, "equalize", 0, 0.6, "autocontrast", 0, fillcolor),
+            SubPolicy(0.2, "equalize", 8, 0.6, "equalize", 4, fillcolor),
+            SubPolicy(0.9, "color", 9, 0.6, "equalize", 6, fillcolor),
+            SubPolicy(0.8, "autocontrast", 4, 0.2, "solarize", 8, fillcolor),
+            SubPolicy(0.1, "brightness", 3, 0.7, "color", 0, fillcolor),
+
+            SubPolicy(0.4, "solarize", 5, 0.9, "autocontrast", 3, fillcolor),
+            SubPolicy(0.9, "translateY", 9, 0.7, "translateY", 9, fillcolor),
+            SubPolicy(0.9, "autocontrast", 2, 0.8, "solarize", 3, fillcolor),
+            SubPolicy(0.8, "equalize", 8, 0.1, "invert", 3, fillcolor),
+            SubPolicy(0.7, "translateY", 9, 0.9, "autocontrast", 1, fillcolor)
+        ]
+
+
+    def __call__(self, img):
+        policy_idx = random.randint(0, len(self.policies) - 1)
+        return self.policies[policy_idx](img)
+
+    def __repr__(self):
+        return "AutoAugment CIFAR10 Policy"
+
+
+class SVHNPolicy(object):
+    """ Randomly choose one of the best 25 Sub-policies on SVHN.
+
+        Example:
+        >>> policy = SVHNPolicy()
+        >>> transformed = policy(image)
+
+        Example as a PyTorch Transform:
+        >>> transform=transforms.Compose([
+        >>>     transforms.Resize(256),
+        >>>     SVHNPolicy(),
+        >>>     transforms.ToTensor()])
+    """
+    def __init__(self, fillcolor=(128, 128, 128)):
+        self.policies = [
+            SubPolicy(0.9, "shearX", 4, 0.2, "invert", 3, fillcolor),
+            SubPolicy(0.9, "shearY", 8, 0.7, "invert", 5, fillcolor),
+            SubPolicy(0.6, "equalize", 5, 0.6, "solarize", 6, fillcolor),
+            SubPolicy(0.9, "invert", 3, 0.6, "equalize", 3, fillcolor),
+            SubPolicy(0.6, "equalize", 1, 0.9, "rotate", 3, fillcolor),
+
+            SubPolicy(0.9, "shearX", 4, 0.8, "autocontrast", 3, fillcolor),
+            SubPolicy(0.9, "shearY", 8, 0.4, "invert", 5, fillcolor),
+            SubPolicy(0.9, "shearY", 5, 0.2, "solarize", 6, fillcolor),
+            SubPolicy(0.9, "invert", 6, 0.8, "autocontrast", 1, fillcolor),
+            SubPolicy(0.6, "equalize", 3, 0.9, "rotate", 3, fillcolor),
+
+            SubPolicy(0.9, "shearX", 4, 0.3, "solarize", 3, fillcolor),
+            SubPolicy(0.8, "shearY", 8, 0.7, "invert", 4, fillcolor),
+            SubPolicy(0.9, "equalize", 5, 0.6, "translateY", 6, fillcolor),
+            SubPolicy(0.9, "invert", 4, 0.6, "equalize", 7, fillcolor),
+            SubPolicy(0.3, "contrast", 3, 0.8, "rotate", 4, fillcolor),
+
+            SubPolicy(0.8, "invert", 5, 0.0, "translateY", 2, fillcolor),
+            SubPolicy(0.7, "shearY", 6, 0.4, "solarize", 8, fillcolor),
+            SubPolicy(0.6, "invert", 4, 0.8, "rotate", 4, fillcolor),
+            SubPolicy(0.3, "shearY", 7, 0.9, "translateX", 3, fillcolor),
+            SubPolicy(0.1, "shearX", 6, 0.6, "invert", 5, fillcolor),
+
+            SubPolicy(0.7, "solarize", 2, 0.6, "translateY", 7, fillcolor),
+            SubPolicy(0.8, "shearY", 4, 0.8, "invert", 8, fillcolor),
+            SubPolicy(0.7, "shearX", 9, 0.8, "translateY", 3, fillcolor),
+            SubPolicy(0.8, "shearY", 5, 0.7, "autocontrast", 3, fillcolor),
+            SubPolicy(0.7, "shearX", 2, 0.1, "invert", 5, fillcolor)
+        ]
+
+
+    def __call__(self, img):
+        policy_idx = random.randint(0, len(self.policies) - 1)
+        return self.policies[policy_idx](img)
+
+    def __repr__(self):
+        return "AutoAugment SVHN Policy"
+
+
+class SubPolicy(object):
+    def __init__(self, p1, operation1, magnitude_idx1, p2, operation2, magnitude_idx2, fillcolor=(128, 128, 128)):
+        ranges = {
+            "shearX": np.linspace(0, 0.3, 10),
+            "shearY": np.linspace(0, 0.3, 10),
+            "translateX": np.linspace(0, 150 / 331, 10),
+            "translateY": np.linspace(0, 150 / 331, 10),
+            "rotate": np.linspace(0, 30, 10),
+            "color": np.linspace(0.0, 0.9, 10),
+            "posterize": np.round(np.linspace(8, 4, 10), 0).astype(np.int),
+            "solarize": np.linspace(256, 0, 10),
+            "contrast": np.linspace(0.0, 0.9, 10),
+            "sharpness": np.linspace(0.0, 0.9, 10),
+            "brightness": np.linspace(0.0, 0.9, 10),
+            "autocontrast": [0] * 10,
+            "equalize": [0] * 10,
+            "invert": [0] * 10
+        }
+
+        # from https://stackoverflow.com/questions/5252170/specify-image-filling-color-when-rotating-in-python-with-pil-and-setting-expand
+        def rotate_with_fill(img, magnitude):
+            rot = img.convert("RGBA").rotate(magnitude)
+            return Image.composite(rot, Image.new("RGBA", rot.size, (128,) * 4), rot).convert(img.mode)
+
+        func = {
+            "shearX": lambda img, magnitude: img.transform(
+                img.size, Image.AFFINE, (1, magnitude * random.choice([-1, 1]), 0, 0, 1, 0),
+                Image.BICUBIC, fillcolor=fillcolor),
+            "shearY": lambda img, magnitude: img.transform(
+                img.size, Image.AFFINE, (1, 0, 0, magnitude * random.choice([-1, 1]), 1, 0),
+                Image.BICUBIC, fillcolor=fillcolor),
+            "translateX": lambda img, magnitude: img.transform(
+                img.size, Image.AFFINE, (1, 0, magnitude * img.size[0] * random.choice([-1, 1]), 0, 1, 0),
+                fillcolor=fillcolor),
+            "translateY": lambda img, magnitude: img.transform(
+                img.size, Image.AFFINE, (1, 0, 0, 0, 1, magnitude * img.size[1] * random.choice([-1, 1])),
+                fillcolor=fillcolor),
+            "rotate": lambda img, magnitude: rotate_with_fill(img, magnitude),
+            "color": lambda img, magnitude: ImageEnhance.Color(img).enhance(1 + magnitude * random.choice([-1, 1])),
+            "posterize": lambda img, magnitude: ImageOps.posterize(img, magnitude),
+            "solarize": lambda img, magnitude: ImageOps.solarize(img, magnitude),
+            "contrast": lambda img, magnitude: ImageEnhance.Contrast(img).enhance(
+                1 + magnitude * random.choice([-1, 1])),
+            "sharpness": lambda img, magnitude: ImageEnhance.Sharpness(img).enhance(
+                1 + magnitude * random.choice([-1, 1])),
+            "brightness": lambda img, magnitude: ImageEnhance.Brightness(img).enhance(
+                1 + magnitude * random.choice([-1, 1])),
+            "autocontrast": lambda img, magnitude: ImageOps.autocontrast(img),
+            "equalize": lambda img, magnitude: ImageOps.equalize(img),
+            "invert": lambda img, magnitude: ImageOps.invert(img)
+        }
+
+        self.p1 = p1
+        self.operation1 = func[operation1]
+        self.magnitude1 = ranges[operation1][magnitude_idx1]
+        self.p2 = p2
+        self.operation2 = func[operation2]
+        self.magnitude2 = ranges[operation2][magnitude_idx2]
+
+
+    def __call__(self, img):
+        if random.random() < self.p1: img = self.operation1(img, self.magnitude1)
+        if random.random() < self.p2: img = self.operation2(img, self.magnitude2)
+        return img
\ No newline at end of file
diff --git a/Meta-causal/code-stage1-pipeline/tools/causalaugment_v3.py b/Meta-causal/code-stage1-pipeline/tools/causalaugment_v3.py
new file mode 100644
index 0000000000000000000000000000000000000000..a375b7ebe5a83c3dba5b88f48f23a4326dec77e1
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/tools/causalaugment_v3.py
@@ -0,0 +1,694 @@
+# code in this file is adpated from rpmcruz/autoaugment
+# https://github.com/rpmcruz/autoaugment/blob/master/transformations.py
+import random
+
+import PIL, PIL.ImageOps, PIL.ImageEnhance, PIL.ImageDraw
+import numpy as np
+import torch
+from PIL import Image,ImageStat
+#import cv2
+from torchvision import transforms
+
+# def tensor2img(tensor):
+#     transform = transforms.Compose()
+
+def ShearX(img, v):  # [-0.3, 0.3]
+    assert -0.3 <= v <= 0.3
+    if random.random() > 0.5:
+        v = -v
+    return img.transform(img.size, PIL.Image.AFFINE, (1, v, 0, 0, 1, 0))
+
+def DoShearX(img, v):  # [-0.3, 0.3]
+    return img.transform(img.size, PIL.Image.AFFINE, (1, v, 0, 0, 1, 0))
+
+def ShearY(img, v):  # [-0.3, 0.3]
+    assert -0.3 <= v <= 0.3
+    if random.random() > 0.5:
+        v = -v
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, 0, v, 1, 0))
+
+def DoShearY(img, v):  # [-0.3, 0.3]
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, 0, v, 1, 0))
+
+def TranslateX(img, v):  # [-150, 150] => percentage: [-0.45, 0.45]
+    assert -0.45 <= v <= 0.45
+    if random.random() > 0.5:
+        v = -v
+    v = v * img.size[0]
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, v, 0, 1, 0))
+
+def TranslateXabs(img, v):  # [-150, 150] => percentage: [-0.45, 0.45]
+    assert 0 <= v
+    if random.random() > 0.5:
+        v = -v
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, v, 0, 1, 0))
+def DoTranslateXabs(img, v):  # [-150, 150] => percentage: [-0.45, 0.45]
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, v, 0, 1, 0))
+
+def TranslateY(img, v):  # [-150, 150] => percentage: [-0.45, 0.45]
+    assert -0.45 <= v <= 0.45
+    if random.random() > 0.5:
+        v = -v
+    v = v * img.size[1]
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, 0, 0, 1, v))
+
+
+def TranslateYabs(img, v):  # [-150, 150] => percentage: [-0.45, 0.45]
+    assert 0 <= v
+    if random.random() > 0.5:
+        v = -v
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, 0, 0, 1, v))
+def DoTranslateYabs(img, v):  # [-150, 150] => percentage: [-0.45, 0.45]
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, 0, 0, 1, v))
+
+def Rotate(img, v):  # [-30, 30]
+    assert -30 <= v <= 30
+    if random.random() > 0.5:
+        v = -v
+    return img.rotate(v)
+def DoRotate(img, v):  # [-30, 30]
+    return img.rotate(v)
+
+
+def AutoContrast(img, v):
+    return PIL.ImageOps.autocontrast(img, v)
+def DoAutoContrast(img, v):
+    return PIL.ImageOps.autocontrast(img, v)
+
+def Invert(img, _):
+    return PIL.ImageOps.invert(img)
+def DoInvert(img, _):
+    return PIL.ImageOps.invert(img)
+
+
+def Equalize(img, _):
+    return PIL.ImageOps.equalize(img)
+def DoEqualize(img, _):
+    return PIL.ImageOps.equalize(img)
+
+def Flip(img, _):  # not from the paper
+    return PIL.ImageOps.mirror(img)
+
+def DoFlip(img, _):  # not from the paper
+    return PIL.ImageOps.mirror(img)
+
+
+def Solarize(img, v):  # [0, 256]
+    assert 0 <= v <= 256
+    return PIL.ImageOps.solarize(img, v)
+def DoSolarize(img, v):  # [0, 256]
+    return PIL.ImageOps.solarize(img, v)
+
+def SolarizeAdd(img, addition=0, threshold=128):
+    #img_np = np.array(img).astype(np.int)
+    img_np = np.array(img).astype(np.int32)
+    img_np = img_np + addition
+    img_np = np.clip(img_np, 0, 255)
+    img_np = img_np.astype(np.uint8)
+    img = Image.fromarray(img_np)
+    return PIL.ImageOps.solarize(img, threshold)
+def DoSolarizeAdd(img, addition=0, threshold=128):
+    #img_np = np.array(img).astype(np.int)
+    img_np = np.array(img).astype(np.int32)
+    img_np = img_np + addition
+    img_np = np.clip(img_np, 0, 255)
+    img_np = img_np.astype(np.uint8)
+    img = Image.fromarray(img_np)
+    return PIL.ImageOps.solarize(img, threshold)
+
+def Posterize(img, v):  # [4, 8]
+    v = int(v)
+    v = max(1, v)
+    return PIL.ImageOps.posterize(img, v)
+def DoPosterize(img, v):  # [4, 8]
+    v = int(v)
+    v = max(1, v)
+    return PIL.ImageOps.posterize(img, v)
+
+
+def Contrast(img, v):  # [0.1,1.9]
+    assert 0.1 <= v <= 1.9
+    return PIL.ImageEnhance.Contrast(img).enhance(v)
+
+def DoContrast(img, v):
+    return PIL.ImageEnhance.Contrast(img).enhance(v)
+
+def Color(img, v):  # [0.1,1.9]
+    assert 0.1 <= v <= 1.9
+    return PIL.ImageEnhance.Color(img).enhance(v)
+
+def DoColor(img, v):
+    stat =ImageStat.Stat(img)
+    return PIL.ImageEnhance.Color(img).enhance(v)
+
+
+def Brightness(img, v):  # [0.1,1.9]
+    assert 0.1 <= v <= 1.9
+    return PIL.ImageEnhance.Brightness(img).enhance(v)
+
+def DoBrightness(img, v):  # obtain the brightness of image
+    return PIL.ImageEnhance.Brightness(img).enhance(v)
+
+
+def Sharpness(img, v):  # [0.1,1.9]
+    assert 0.1 <= v <= 1.9
+    return PIL.ImageEnhance.Sharpness(img).enhance(v)
+
+def DoSharpness(img, v):
+    return PIL.ImageEnhance.Sharpness(img).enhance(v)
+
+def Cutout(img, v):  # [0, 60] => percentage: [0, 0.2]
+    assert 0.0 <= v <= 0.2
+    if v <= 0.:
+        return img
+
+    v = v * img.size[0]
+    return CutoutAbs(img, v)
+
+
+def CutoutAbs(img, v):  # [0, 60] => percentage: [0, 0.2]
+    # assert 0 <= v <= 20
+    if v < 0:
+        return img
+    w, h = img.size
+    x0 = np.random.uniform(w)
+    y0 = np.random.uniform(h)
+
+    x0 = int(max(0, x0 - v / 2.))
+    y0 = int(max(0, y0 - v / 2.))
+    x1 = min(w, x0 + v)
+    y1 = min(h, y0 + v)
+
+    xy = (x0, y0, x1, y1)
+    color = (125, 123, 114)
+    # color = (0, 0, 0)
+    img = img.copy()
+    PIL.ImageDraw.Draw(img).rectangle(xy, color)
+    return img
+def DoCutoutAbs(img, v):  # [0, 60] => percentage: [0, 0.2]
+    # assert 0 <= v <= 20
+    if v < 0:
+        return img
+    w, h = img.size
+    x0 = np.random.uniform(w)
+    y0 = np.random.uniform(h)
+
+    x0 = int(max(0, x0 - v / 2.))
+    y0 = int(max(0, y0 - v / 2.))
+    x1 = min(w, x0 + v)
+    y1 = min(h, y0 + v)
+
+    xy = (x0, y0, x1, y1)
+    color = (125, 123, 114)
+    # color = (0, 0, 0)
+    img = img.copy()
+    PIL.ImageDraw.Draw(img).rectangle(xy, color)
+    return img
+
+
+def SamplePairing(imgs):  # [0, 0.4]
+    def f(img1, v):
+        i = np.random.choice(len(imgs))
+        img2 = PIL.Image.fromarray(imgs[i])
+        return PIL.Image.blend(img1, img2, v)
+
+    return f
+
+
+def Identity(img, v):
+    return img
+
+def NoiseSalt(img, noise_rate):
+    """增加椒盐噪声
+    args:
+        noise_rate (float): noise rate
+    """
+    img_ = np.array(img).copy()
+    h, w, c = img_.shape
+    signal_pct = 1 - noise_rate
+    mask = np.random.choice((0, 1, 2), size=(h, w, 1), p=[signal_pct, noise_rate/2., noise_rate/2.])
+    mask = np.repeat(mask, c, axis=2)
+    img_[mask == 1] = 255   # 盐噪声
+    img_[mask == 2] = 0     # 椒噪声
+    return Image.fromarray(img_.astype('uint8'))
+
+def DoNoiseSalt(img, noise_rate):
+    """增加椒盐噪声
+    args:
+        noise_rate (float): noise rate
+    """
+    img_ = np.array(img).copy()
+    h, w, c = img_.shape
+    signal_pct = 1 - noise_rate
+    mask = np.random.choice((0, 1, 2), size=(h, w, 1), p=[signal_pct, noise_rate/2., noise_rate/2.])
+    mask = np.repeat(mask, c, axis=2)
+    img_[mask == 1] = 255   # 盐噪声
+    img_[mask == 2] = 0     # 椒噪声
+    return Image.fromarray(img_.astype('uint8'))
+def NoiseGaussian(img, sigma):
+    """增加高斯噪声
+    传入:
+        img   :  原图
+        mean  :  均值默认0
+        sigma :  标准差
+    返回:
+        gaussian_out : 噪声处理后的图片
+    """
+    # 将图片灰度标准化
+    img_ = np.array(img).copy()
+    img_ = img_ / 255.0
+    # 产生高斯 noise
+    noise = np.random.normal(0, sigma, img_.shape)
+    # 将噪声和图片叠加
+    gaussian_out = img_ + noise
+    # 将超过 1 的置 1，低于 0 的置 0
+    gaussian_out = np.clip(gaussian_out, 0, 1)
+    # 将图片灰度范围的恢复为 0-255
+    gaussian_out = np.uint8(gaussian_out*255)
+    # 将噪声范围搞为 0-255
+    # noise = np.uint8(noise*255)
+    return Image.fromarray(gaussian_out)
+
+def DoNoiseGaussian(img, sigma):
+    """增加高斯噪声
+    传入:
+        img   :  原图
+        mean  :  均值默认0
+        sigma :  标准差
+    返回:
+        gaussian_out : 噪声处理后的图片
+    """
+    # 将图片灰度标准化
+    img_ = np.array(img).copy()
+    img_ = img_ / 255.0
+    # 产生高斯 noise
+    noise = np.random.normal(0, sigma, img_.shape)
+    # 将噪声和图片叠加
+    gaussian_out = img_ + noise
+    # 将超过 1 的置 1，低于 0 的置 0
+    gaussian_out = np.clip(gaussian_out, 0, 1)
+    # 将图片灰度范围的恢复为 0-255
+    gaussian_out = np.uint8(gaussian_out*255)
+    # 将噪声范围搞为 0-255
+    # noise = np.uint8(noise*255)
+    return Image.fromarray(gaussian_out)
+
+# def factor_list(factor_num):
+#     l = [
+#         'AutoContrast',
+#         'Invert',
+#         'Equalize', 
+#         'Solarize',
+#         'SolarizeAdd',
+#         'Posterize', 
+#         'Contrast',
+#         'Color',
+#         'Brightness',
+#         'Sharpness',
+#         'NoiseSalt',
+#         'NoiseGaussian',
+#     ]
+#     return l[:factor_num]  
+
+# def causal_list(factor_num):  # 16 oeprations and their ranges
+#     l = [
+#         (AutoContrast, 0, 100),
+#         (Invert, 0, 1),
+#         (Equalize, 0, 1),
+#         (Solarize, 0, 256),
+#         (SolarizeAdd, 0, 110),
+#         (Posterize, 0, 4),
+#         (Contrast, 0.1, 1.9),
+#         (Color, 0.1, 1.9),
+#         (Brightness, 0.1, 1.9),
+#         (Sharpness, 0.1, 1.9),
+#         (NoiseSalt,0.0,0.1),
+#         (NoiseGaussian,0.0,0.1),
+#     ]
+
+#     return l[:factor_num]
+
+
+# def factor_list(factor_num):
+#     l = [
+#         'ShearX',
+#         'ShearY',
+#         'Rotate',
+#         'Flip'
+#     ]
+#     return l[:factor_num]  
+
+# def causal_list(factor_num):  # 16 oeprations and their ranges
+#     l = [
+#         (ShearX, 0., 0.3),
+#         (ShearY, 0., 0.3),
+#         (Rotate, 0, 30),
+#         (Flip, 0, 1),
+#     ]
+
+#     return l[:factor_num]
+
+def factor_list(factor_num):
+    l = [
+        'ShearX',
+        'ShearY',
+        'AutoContrast',
+        'Invert',
+        'Equalize', 
+        'Solarize',
+        'SolarizeAdd',
+        'Posterize', 
+        'Contrast',
+        'Color',
+        'Brightness',
+        'Sharpness',
+        'NoiseSalt',
+        'NoiseGaussian',
+        'Rotate',
+        'Flip'
+    ]
+    return l[:factor_num]  
+
+def causal_list(factor_num):  # 16 oeprations and their ranges
+    l = [
+        (ShearX, 0., 0.3),
+        (ShearY, 0., 0.3),
+        (AutoContrast, 0, 100),
+        (Invert, 0, 1),
+        (Equalize, 0, 1),
+        (Solarize, 0, 256),
+        (SolarizeAdd, 0, 110),
+        (Posterize, 0, 4),
+        (Contrast, 0.1, 1.9),
+        (Color, 0.1, 1.9),
+        (Brightness, 0.1, 1.9),
+        (Sharpness, 0.1, 1.9),
+        (NoiseSalt,0.0,0.1),
+        (NoiseGaussian,0.0,0.1),
+        (Rotate, 0, 30),
+        (Flip, 0, 1),
+    ]
+
+    return l[:factor_num]
+
+class Lighting(object):
+    """Lighting noise(AlexNet - style PCA - based noise)"""
+
+    def __init__(self, alphastd, eigval, eigvec):
+        self.alphastd = alphastd
+        self.eigval = torch.Tensor(eigval)
+        self.eigvec = torch.Tensor(eigvec)
+
+    def __call__(self, img):
+        if self.alphastd == 0:
+            return img
+
+        alpha = img.new().resize_(3).normal_(0, self.alphastd)
+        rgb = self.eigvec.type_as(img).clone() \
+            .mul(alpha.view(1, 3).expand(3, 3)) \
+            .mul(self.eigval.view(1, 3).expand(3, 3)) \
+            .sum(1).squeeze()
+
+        return img.add(rgb.view(3, 1, 1).expand_as(img))
+
+
+class CutoutDefault(object):
+    """
+    Reference : https://github.com/quark0/darts/blob/master/cnn/utils.py
+    """
+    def __init__(self, length):
+        self.length = length
+
+    def __call__(self, img):
+        h, w = img.size(1), img.size(2)
+        mask = np.ones((h, w), np.float32)
+        y = np.random.randint(h)
+        x = np.random.randint(w)
+
+        y1 = np.clip(y - self.length // 2, 0, h)
+        y2 = np.clip(y + self.length // 2, 0, h)
+        x1 = np.clip(x - self.length // 2, 0, w)
+        x2 = np.clip(x + self.length // 2, 0, w)
+
+        mask[y1: y2, x1: x2] = 0.
+        mask = torch.from_numpy(mask)
+        mask = mask.expand_as(img)
+        img *= mask
+        return img
+
+
+class RandAugment_incausal:
+    def __init__(self, n, m, factor_num, randm=False, randn=False):
+        self.n = n
+        self.m = m      # [0, 30]
+        self.causal_list = causal_list(factor_num)
+        print("---------------------------%d factors-----------------"%(len(self.causal_list)))
+        self.randm = randm
+        self.randn = randn
+        self.factor_num = factor_num
+        print("randm:",self.randm)
+        print("randn:",self.randn)
+        print("n:",self.n)
+    def __call__(self, img):
+        # print("%d factors-----------------"%(len(self.causal_list)))
+        if self.randn:
+            self.n = random.randint(1,self.factor_num)
+        
+        ops = random.choices(self.causal_list, k=self.n)
+        if self.randm:
+            self.m = random.randint(0,30)
+        for op, minval, maxval in ops:
+            val = (float(self.m) / 30) * float(maxval - minval) + minval
+            # print("val:",val)
+            img = op(img, val)
+        return img
+class RandAugment_all:
+    def __init__(self, m, factor_num, randm=False):
+        self.m = m      # [0, 30]
+        self.causal_list = causal_list(factor_num)
+        print("---------------------------%d factors-----------------"%(len(self.causal_list)))
+        self.randm = randm
+        self.factor_num = factor_num
+
+    def __call__(self, img):
+        # print("%d factors-----------------"%(len(self.causal_list)))
+        factor_choice = np.random.randint(0,2,self.factor_num)
+        # ops = random.choices(self.causal_list, k=self.n)
+        if self.randm:
+            self.m = random.randint(0,30)
+        for index, (op, minval, maxval) in enumerate(self.causal_list):
+            if factor_choice[index] == 0:
+                continue
+            else:
+                val = (float(self.m) / 30) * float(maxval - minval) + minval
+                # print("val:",val)
+                img = op(img, val)
+        return img
+class RandAugment_incausal_label:
+    def __init__(self, n, m, factor_num, randm=False):
+        self.n = n
+        self.m = m      # [0, 30]
+        self.causal_list = causal_list(factor_num)
+        self.factor_num = factor_num
+        print("---------------------------%d factors-----------------"%(len(self.causal_list)))
+        self.randm = randm
+        print("randm:",self.randm)
+
+    def __call__(self, img):
+        # print("%d factors-----------------"%(len(self.causal_list)))
+        #op_labels = np.random.randint(0,self.factor_num-1,self.n)
+        op_labels = random.sample(range(0, self.factor_num), self.n)
+        ops = [li for index, li in enumerate(self.causal_list) if index in op_labels]
+        #ops = random.choices(self.causal_list, k=self.n)
+        # print(self.causal_list)
+        # print("op_labels:",op_labels)
+        # print("select_op:",ops)
+        if self.randm:
+            self.m = random.randint(0,30)
+        for op, minval, maxval in ops:
+            val = (float(self.m) / 30) * float(maxval - minval) + minval
+            # print("val:",val)
+            img = op(img, val)
+        return img, np.array(op_labels)
+class FactualAugment_incausal:
+    def __init__(self, m, factor_num, randm=False):
+        self.m = m
+        self.causal_list = causal_list(factor_num)
+        self.factor_list = factor_list(factor_num)
+        self.factor_num = factor_num
+        self.randm = randm
+        print("randm:",self.randm)
+    def __call__(self, img):
+        # ops = random.choices(self.causal_list, k=1)
+        if self.randm:
+            self.m = random.randint(0,30)
+        for index, (op, minval, maxval) in enumerate(self.causal_list):
+            val = (float(self.m) / 30) * float(maxval - minval) + minval
+            if index == 0:
+                imgs = np.array(op(img, val))
+            else:
+                imgs = np.concatenate((imgs, op(img, val)),-1)
+        # print("imgs",imgs.shape)
+        return imgs          
+class CounterfactualAugment_incausal:
+    def __init__(self,factor_num):
+        self.causal_list = causal_list(factor_num)
+        self.factor_list = factor_list(factor_num)
+        self.factor_num = factor_num
+    def __call__(self, img):
+        # index = 0
+        # b, c, h, w = img.shape
+        # imgs = torch.zeros(b*self.factor_num, c, h, w)    
+        # for b_ in range(32):
+        for index, (op, minval, maxval) in enumerate(self.causal_list):
+            op = eval('Do'+self.factor_list[index])
+            if index == 0:
+                imgs = np.array(op(img, maxval))
+            else:
+                imgs = np.concatenate((imgs, op(img, maxval)),-1)
+            # img = op(img, maxval)
+            # imgs[b_*factor_num+index] = op(img[b_], maxval)
+        return imgs
+class MultiCounterfactualAugment_incausal:
+    def __init__(self, factor_num, stride):
+        self.causal_list = causal_list(factor_num)
+        self.factor_list = factor_list(factor_num)
+        self.factor_num = factor_num
+        self.stride = stride
+
+    def __call__(self, img):
+        # index = 0
+        # b, c, h, w = img.shape
+        # imgs = torch.zeros(b*self.factor_num, c, h, w)    
+        # for b_ in range(32):
+        # 0,5,10,15,20,25,30
+        for index, (op, minval, maxval) in enumerate(self.causal_list):
+            op = eval('Do'+self.factor_list[index])
+            for i in range(0, 31, self.stride):
+                val = (float(i) / 30) * float(maxval - minval) + minval
+                if index == 0 and i == 0:
+                    imgs = np.array(op(img, val))
+                else:
+                    imgs = np.concatenate((imgs, op(img, val)),-1)
+            # img = op(img, maxval)
+            # imgs[b_*factor_num+index] = op(img[b_], maxval)
+        return imgs
+class MultiCounterfactualAugment:
+    def __init__(self, factor_num, stride=5):
+        self.causal_list = causal_list(factor_num)
+        self.factor_list = factor_list(factor_num)
+        self.factor_num = factor_num
+        self.stride = stride
+        self.var_num = len(list(range(0, 31, self.stride)))
+        print("stride:",stride)
+    def __call__(self, img):
+        # index = 0
+        b, c, h, w = img.shape
+        imgs = torch.zeros(b*self.factor_num*self.var_num, c, h, w)    
+        # for b_ in range(32):
+        # 0,5,10,15,20,25,30
+        # print(img.shape)
+        for b_ in range(b):
+            img0 = transforms.ToPILImage()(imgs[b_])
+            for index, (op, minval, maxval) in enumerate(self.causal_list):
+                op = eval('Do'+self.factor_list[index])
+                i_index = 0
+                for i in range(0, 31, self.stride):
+                    val = (float(i) / 30) * float(maxval - minval) + minval
+                    img1 = op(img0, val)
+                    img1 = transforms.ToTensor()(img1)
+                    #print(f'batch {b_} factor {index} stride {i} i_index {i_index} total {b_*self.factor_num*self.var_num+index*self.var_num+i_index}')
+                    imgs[b_*self.factor_num*self.var_num+index*self.var_num+i_index] = img1
+                    i_index = i_index + 1
+            # img = op(img, maxval)
+            # imgs[b_*factor_num+index] = op(img[b_], maxval)
+        return imgs
+
+
+class FactualAugment:
+    def __init__(self, m, factor_num, randm=False):
+        self.m = m
+        self.causal_list = causal_list(factor_num)
+        self.factor_list = factor_list(factor_num)
+        self.factor_num = factor_num
+        self.randm = randm
+        print("randm:",randm)
+    def __call__(self, img):
+        index = 0
+        b, c, h, w = img.shape
+        imgs = torch.zeros(b*self.factor_num, c, h, w)    
+
+        img = img.cpu()
+        for b_ in range(b):
+            imgs[b_*self.factor_num:(b_+1)*self.factor_num] = self.get_item(img[b_])
+        return imgs
+    def get_item(self, img):
+        index = 0
+        # print("input_dim:",img.shape)
+        c, h, w = img.shape
+        imgs = torch.zeros(self.factor_num, c, h, w)
+        # img = img.squeeze(0)
+        # print(img.shape)
+        img = transforms.ToPILImage()(img)
+        if self.randm:
+            self.m = random.randint(0,30)
+        for index, (op, minval, maxval) in enumerate(self.causal_list):     
+            op = eval(self.factor_list[index])
+            val = (float(self.m) / 30) * float(maxval - minval) + minval
+            img1 = op(img, val)
+            img1 = transforms.ToTensor()(img1)
+            imgs[index] = img1
+        return imgs 
+class CounterfactualAugment:
+    def __init__(self,factor_num):
+        self.causal_list = causal_list(factor_num)
+        self.factor_list = factor_list(factor_num)
+        self.factor_num = factor_num
+
+    def __call__(self, img):
+        index = 0
+        b, c, h, w = img.shape
+        imgs = torch.zeros(b*self.factor_num, c, h, w)    
+
+        img = img.cpu()
+        for b_ in range(b):
+            imgs[b_*self.factor_num:(b_+1)*self.factor_num] = self.get_item(img[b_])
+        return imgs
+    def get_item(self, img):
+        index = 0
+        c, h, w = img.shape
+        imgs = torch.ones(self.factor_num, c, h, w)
+        # img = img.squeeze(0)
+        img = transforms.ToPILImage()(img)
+        for index, (op, minval, maxval) in enumerate(self.causal_list):     
+            op = eval('Do'+self.factor_list[index])
+            img1 = op(img, maxval)
+            # img1.save('test'+str(index)+'.png')
+            img1 = transforms.ToTensor()(img1)
+            imgs[index] = img1
+        return imgs        
+
+class Avg_statistic:
+    def __init__(self):
+        self.do_list = do_list()
+        self.statistic_num = len(self.do_list)  
+        self.avg_val = np.zeros(self.statistic_num)
+        self.img_num = 0
+
+    def get_item(self,img):
+        # ops = self.statistic_list
+        do_index = 0
+        for op in self.do_list:
+            val=op(img)
+            self.avg_val[do_index] += val
+        self.img_num = self.img_num + 1
+
+    def compute_average(self):
+        self.avg_val = self.avg_val/self.img_num
+
+    def get_infor(self):
+        return self.avg_val, self.img_num
+
+
+
+
diff --git a/Meta-causal/code-stage1-pipeline/tools/randaugment.py b/Meta-causal/code-stage1-pipeline/tools/randaugment.py
new file mode 100644
index 0000000000000000000000000000000000000000..f3bbdf11541df078144fa0ced8d693d4c98507ad
--- /dev/null
+++ b/Meta-causal/code-stage1-pipeline/tools/randaugment.py
@@ -0,0 +1,248 @@
+# code in this file is adpated from rpmcruz/autoaugment
+# https://github.com/rpmcruz/autoaugment/blob/master/transformations.py
+import random
+
+import PIL, PIL.ImageOps, PIL.ImageEnhance, PIL.ImageDraw
+import numpy as np
+import torch
+from PIL import Image
+
+
+def ShearX(img, v):  # [-0.3, 0.3]
+    assert -0.3 <= v <= 0.3
+    if random.random() > 0.5:
+        v = -v
+    return img.transform(img.size, PIL.Image.AFFINE, (1, v, 0, 0, 1, 0))
+
+
+def ShearY(img, v):  # [-0.3, 0.3]
+    assert -0.3 <= v <= 0.3
+    if random.random() > 0.5:
+        v = -v
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, 0, v, 1, 0))
+
+
+def TranslateX(img, v):  # [-150, 150] => percentage: [-0.45, 0.45]
+    assert -0.45 <= v <= 0.45
+    if random.random() > 0.5:
+        v = -v
+    v = v * img.size[0]
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, v, 0, 1, 0))
+
+
+def TranslateXabs(img, v):  # [-150, 150] => percentage: [-0.45, 0.45]
+    assert 0 <= v
+    if random.random() > 0.5:
+        v = -v
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, v, 0, 1, 0))
+
+
+def TranslateY(img, v):  # [-150, 150] => percentage: [-0.45, 0.45]
+    assert -0.45 <= v <= 0.45
+    if random.random() > 0.5:
+        v = -v
+    v = v * img.size[1]
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, 0, 0, 1, v))
+
+
+def TranslateYabs(img, v):  # [-150, 150] => percentage: [-0.45, 0.45]
+    assert 0 <= v
+    if random.random() > 0.5:
+        v = -v
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, 0, 0, 1, v))
+
+
+def Rotate(img, v):  # [-30, 30]
+    assert -30 <= v <= 30
+    if random.random() > 0.5:
+        v = -v
+    return img.rotate(v)
+
+
+def AutoContrast(img, _):
+    return PIL.ImageOps.autocontrast(img)
+
+
+def Invert(img, _):
+    return PIL.ImageOps.invert(img)
+
+
+def Equalize(img, _):
+    return PIL.ImageOps.equalize(img)
+
+
+def Flip(img, _):  # not from the paper
+    return PIL.ImageOps.mirror(img)
+
+
+def Solarize(img, v):  # [0, 256]
+    assert 0 <= v <= 256
+    return PIL.ImageOps.solarize(img, v)
+
+
+def SolarizeAdd(img, addition=0, threshold=128):
+    img_np = np.array(img).astype(np.int)
+    img_np = img_np + addition
+    img_np = np.clip(img_np, 0, 255)
+    img_np = img_np.astype(np.uint8)
+    img = Image.fromarray(img_np)
+    return PIL.ImageOps.solarize(img, threshold)
+
+
+def Posterize(img, v):  # [4, 8]
+    v = int(v)
+    v = max(1, v)
+    return PIL.ImageOps.posterize(img, v)
+
+
+def Contrast(img, v):  # [0.1,1.9]
+    assert 0.1 <= v <= 1.9
+    return PIL.ImageEnhance.Contrast(img).enhance(v)
+
+
+def Color(img, v):  # [0.1,1.9]
+    assert 0.1 <= v <= 1.9
+    return PIL.ImageEnhance.Color(img).enhance(v)
+
+
+def Brightness(img, v):  # [0.1,1.9]
+    assert 0.1 <= v <= 1.9
+    return PIL.ImageEnhance.Brightness(img).enhance(v)
+
+
+def Sharpness(img, v):  # [0.1,1.9]
+    assert 0.1 <= v <= 1.9
+    return PIL.ImageEnhance.Sharpness(img).enhance(v)
+
+
+def Cutout(img, v):  # [0, 60] => percentage: [0, 0.2]
+    assert 0.0 <= v <= 0.2
+    if v <= 0.:
+        return img
+
+    v = v * img.size[0]
+    return CutoutAbs(img, v)
+
+
+def CutoutAbs(img, v):  # [0, 60] => percentage: [0, 0.2]
+    # assert 0 <= v <= 20
+    if v < 0:
+        return img
+    w, h = img.size
+    x0 = np.random.uniform(w)
+    y0 = np.random.uniform(h)
+
+    x0 = int(max(0, x0 - v / 2.))
+    y0 = int(max(0, y0 - v / 2.))
+    x1 = min(w, x0 + v)
+    y1 = min(h, y0 + v)
+
+    xy = (x0, y0, x1, y1)
+    color = (125, 123, 114)
+    # color = (0, 0, 0)
+    img = img.copy()
+    PIL.ImageDraw.Draw(img).rectangle(xy, color)
+    return img
+
+
+def SamplePairing(imgs):  # [0, 0.4]
+    def f(img1, v):
+        i = np.random.choice(len(imgs))
+        img2 = PIL.Image.fromarray(imgs[i])
+        return PIL.Image.blend(img1, img2, v)
+
+    return f
+
+
+def Identity(img, v):
+    return img
+
+
+def augment_list():  # 16 oeprations and their ranges
+
+    # https://github.com/tensorflow/tpu/blob/8462d083dd89489a79e3200bcc8d4063bf362186/models/official/efficientnet/autoaugment.py#L505
+    l = [
+        (AutoContrast, 0, 1),
+        (Equalize, 0, 1),
+        (Invert, 0, 1),
+        (Rotate, 0, 30),
+        (Posterize, 0, 4),
+        (Solarize, 0, 256),
+        (SolarizeAdd, 0, 110),
+        (Color, 0.1, 1.9),
+        (Contrast, 0.1, 1.9),
+        (Brightness, 0.1, 1.9),
+        (Sharpness, 0.1, 1.9),
+        (ShearX, 0., 0.3),
+        (ShearY, 0., 0.3),
+        (CutoutAbs, 0, 40),
+        (TranslateXabs, 0., 100),
+        (TranslateYabs, 0., 100),
+    ]
+
+    return l
+
+
+class Lighting(object):
+    """Lighting noise(AlexNet - style PCA - based noise)"""
+
+    def __init__(self, alphastd, eigval, eigvec):
+        self.alphastd = alphastd
+        self.eigval = torch.Tensor(eigval)
+        self.eigvec = torch.Tensor(eigvec)
+
+    def __call__(self, img):
+        if self.alphastd == 0:
+            return img
+
+        alpha = img.new().resize_(3).normal_(0, self.alphastd)
+        rgb = self.eigvec.type_as(img).clone() \
+            .mul(alpha.view(1, 3).expand(3, 3)) \
+            .mul(self.eigval.view(1, 3).expand(3, 3)) \
+            .sum(1).squeeze()
+
+        return img.add(rgb.view(3, 1, 1).expand_as(img))
+
+
+class CutoutDefault(object):
+    """
+    Reference : https://github.com/quark0/darts/blob/master/cnn/utils.py
+    """
+    def __init__(self, length):
+        self.length = length
+
+    def __call__(self, img):
+        h, w = img.size(1), img.size(2)
+        mask = np.ones((h, w), np.float32)
+        y = np.random.randint(h)
+        x = np.random.randint(w)
+
+        y1 = np.clip(y - self.length // 2, 0, h)
+        y2 = np.clip(y + self.length // 2, 0, h)
+        x1 = np.clip(x - self.length // 2, 0, w)
+        x2 = np.clip(x + self.length // 2, 0, w)
+
+        mask[y1: y2, x1: x2] = 0.
+        mask = torch.from_numpy(mask)
+        mask = mask.expand_as(img)
+        img *= mask
+        return img
+
+
+class RandAugment:
+    def __init__(self, n, m, randm=False):
+        self.n = n
+        self.m = m      # [0, 30]
+        self.augment_list = augment_list()
+        self.randm = randm
+
+    def __call__(self, img):
+        ops = random.choices(self.augment_list, k=self.n)
+        if self.randm:
+            self.m = random.randint(0,30)
+        for op, minval, maxval in ops:
+            val = (float(self.m) / 30) * float(maxval - minval) + minval
+            # print("val:",val)
+            img = op(img, val)
+
+        return img
diff --git a/Meta-causal/code-withStyleAttack/56717.error b/Meta-causal/code-withStyleAttack/56717.error
new file mode 100644
index 0000000000000000000000000000000000000000..f4d95947c7a86339e1d04481c9ef0f88fee09876
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/56717.error
@@ -0,0 +1 @@
+run_my_joint_v13_test.sh: line 27: m}: command not found
diff --git a/Meta-causal/code-withStyleAttack/56717.log b/Meta-causal/code-withStyleAttack/56717.log
new file mode 100644
index 0000000000000000000000000000000000000000..342d449cbbc0cf96ab603cfcc9a39a8178c93297
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/56717.log
@@ -0,0 +1,334 @@
+/home/yuqian_fu
+{'gpu': '0', 'data': 'art_painting', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 5, 'factor_num': 16, 'epochs': 70, 'nbatch': 100, 'batchsize': 6, 'lr': 0.01, 'lr_scheduler': 'cosine', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_ReProduceMetaCausal', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 5
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_train.hdf5 torch.Size([1840, 3, 227, 227]) torch.Size([1840])
+--------------------------CA_multiple--------------------------
+---------------------------16 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_val.hdf5 torch.Size([208, 3, 227, 227]) torch.Size([208])
+-------------------------------------loading pretrain weights----------------------------------
+306
+0.01
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 396.56, cls_loss 6.7564 cls_loss_mapping 1.5193 cls_loss_causal 1.7521 re_mapping 1.0575 re_causal 1.0584 /// teacc 81.25 lr 0.00999497
+306
+0.009994965332706574
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 415.32, cls_loss 2.1970 cls_loss_mapping 0.9096 cls_loss_causal 1.4403 re_mapping 0.7024 re_causal 0.7051 /// teacc 83.65 lr 0.00997987
+306
+0.009979871469976196
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 457.96, cls_loss 1.3065 cls_loss_mapping 0.6322 cls_loss_causal 1.2780 re_mapping 0.6032 re_causal 0.6057 /// teacc 88.46 lr 0.00995475
+306
+0.009954748808839675
+changing lr
+epoch 3, time 451.75, cls_loss 0.5818 cls_loss_mapping 0.5055 cls_loss_causal 1.1465 re_mapping 0.5267 re_causal 0.5293 /// teacc 87.02 lr 0.00991965
+306
+0.009919647942993149
+changing lr
+epoch 4, time 451.48, cls_loss 0.3909 cls_loss_mapping 0.4012 cls_loss_causal 1.0889 re_mapping 0.4649 re_causal 0.4683 /// teacc 84.62 lr 0.00987464
+306
+0.009874639560909117
+changing lr
+epoch 5, time 441.59, cls_loss 0.3191 cls_loss_mapping 0.3555 cls_loss_causal 1.0670 re_mapping 0.3968 re_causal 0.4013 /// teacc 86.06 lr 0.00981981
+306
+0.009819814303479266
+changing lr
+epoch 6, time 432.93, cls_loss 0.1327 cls_loss_mapping 0.2760 cls_loss_causal 1.0002 re_mapping 0.3232 re_causal 0.3278 /// teacc 83.17 lr 0.00975528
+306
+0.009755282581475767
+changing lr
+epoch 7, time 444.85, cls_loss 0.0411 cls_loss_mapping 0.2236 cls_loss_causal 0.9368 re_mapping 0.2592 re_causal 0.2641 /// teacc 88.46 lr 0.00968117
+306
+0.009681174353198686
+changing lr
+epoch 8, time 448.36, cls_loss 0.0723 cls_loss_mapping 0.2492 cls_loss_causal 0.9911 re_mapping 0.2174 re_causal 0.2224 /// teacc 86.54 lr 0.00959764
+306
+0.009597638862757255
+changing lr
+epoch 9, time 446.26, cls_loss 0.0174 cls_loss_mapping 0.1853 cls_loss_causal 0.8733 re_mapping 0.1873 re_causal 0.1925 /// teacc 86.54 lr 0.00950484
+306
+0.009504844339512096
+changing lr
+---------------------saving model at epoch 10----------------------------------------------------
+epoch 10, time 457.12, cls_loss 0.0358 cls_loss_mapping 0.1781 cls_loss_causal 0.8735 re_mapping 0.1610 re_causal 0.1661 /// teacc 89.90 lr 0.00940298
+306
+0.009402977659283692
+changing lr
+epoch 11, time 443.50, cls_loss 0.0162 cls_loss_mapping 0.1514 cls_loss_causal 0.8453 re_mapping 0.1432 re_causal 0.1486 /// teacc 89.90 lr 0.00929224
+306
+0.009292243968009333
+changing lr
+---------------------saving model at epoch 12----------------------------------------------------
+epoch 12, time 453.53, cls_loss 0.0101 cls_loss_mapping 0.1383 cls_loss_causal 0.8002 re_mapping 0.1270 re_causal 0.1328 /// teacc 90.87 lr 0.00917287
+306
+0.009172866268606516
+changing lr
+epoch 13, time 466.47, cls_loss 0.0092 cls_loss_mapping 0.1432 cls_loss_causal 0.8412 re_mapping 0.1167 re_causal 0.1224 /// teacc 90.38 lr 0.00904508
+306
+0.00904508497187474
+changing lr
+epoch 14, time 448.78, cls_loss 0.0063 cls_loss_mapping 0.1207 cls_loss_causal 0.7912 re_mapping 0.1077 re_causal 0.1140 /// teacc 90.38 lr 0.00890916
+306
+0.008909157412340152
+changing lr
+epoch 15, time 442.01, cls_loss 0.0075 cls_loss_mapping 0.1148 cls_loss_causal 0.7640 re_mapping 0.0982 re_causal 0.1047 /// teacc 89.90 lr 0.00876536
+306
+0.00876535733001806
+changing lr
+epoch 16, time 451.70, cls_loss 0.0050 cls_loss_mapping 0.1000 cls_loss_causal 0.7562 re_mapping 0.0898 re_causal 0.0964 /// teacc 90.87 lr 0.00861397
+306
+0.008613974319136962
+changing lr
+epoch 17, time 454.36, cls_loss 0.0084 cls_loss_mapping 0.0986 cls_loss_causal 0.7422 re_mapping 0.0817 re_causal 0.0883 /// teacc 89.90 lr 0.00845531
+306
+0.008455313244934327
+changing lr
+epoch 18, time 450.70, cls_loss 0.0033 cls_loss_mapping 0.0951 cls_loss_causal 0.7426 re_mapping 0.0760 re_causal 0.0827 /// teacc 89.42 lr 0.00828969
+306
+0.008289693629698565
+changing lr
+epoch 19, time 456.56, cls_loss 0.0051 cls_loss_mapping 0.0938 cls_loss_causal 0.7288 re_mapping 0.0711 re_causal 0.0787 /// teacc 88.94 lr 0.00811745
+306
+0.00811744900929367
+changing lr
+epoch 20, time 444.31, cls_loss 0.0025 cls_loss_mapping 0.0920 cls_loss_causal 0.7432 re_mapping 0.0652 re_causal 0.0723 /// teacc 89.90 lr 0.00793893
+306
+0.007938926261462368
+changing lr
+epoch 21, time 436.20, cls_loss 0.0028 cls_loss_mapping 0.0782 cls_loss_causal 0.7226 re_mapping 0.0605 re_causal 0.0677 /// teacc 90.87 lr 0.00775448
+306
+0.007754484907260515
+changing lr
+epoch 22, time 447.42, cls_loss 0.0020 cls_loss_mapping 0.0778 cls_loss_causal 0.6694 re_mapping 0.0571 re_causal 0.0641 /// teacc 90.38 lr 0.00756450
+306
+0.007564496387029534
+changing lr
+epoch 23, time 443.40, cls_loss 0.0019 cls_loss_mapping 0.0766 cls_loss_causal 0.7606 re_mapping 0.0533 re_causal 0.0621 /// teacc 89.42 lr 0.00736934
+306
+0.007369343312364995
+changing lr
+epoch 24, time 439.80, cls_loss 0.0045 cls_loss_mapping 0.0782 cls_loss_causal 0.7261 re_mapping 0.0521 re_causal 0.0608 /// teacc 90.38 lr 0.00716942
+306
+0.0071694186955877925
+changing lr
+epoch 25, time 430.50, cls_loss 0.0020 cls_loss_mapping 0.0645 cls_loss_causal 0.7059 re_mapping 0.0500 re_causal 0.0593 /// teacc 90.87 lr 0.00696513
+306
+0.0069651251582696205
+changing lr
+epoch 26, time 444.21, cls_loss 0.0008 cls_loss_mapping 0.0529 cls_loss_causal 0.6660 re_mapping 0.0448 re_causal 0.0527 /// teacc 90.87 lr 0.00675687
+306
+0.006756874120406716
+changing lr
+epoch 27, time 451.19, cls_loss 0.0027 cls_loss_mapping 0.0633 cls_loss_causal 0.7457 re_mapping 0.0430 re_causal 0.0520 /// teacc 90.87 lr 0.00654508
+306
+0.00654508497187474
+changing lr
+---------------------saving model at epoch 28----------------------------------------------------
+epoch 28, time 444.91, cls_loss 0.0045 cls_loss_mapping 0.0630 cls_loss_causal 0.6839 re_mapping 0.0409 re_causal 0.0485 /// teacc 91.35 lr 0.00633018
+306
+0.006330184227833378
+changing lr
+epoch 29, time 454.38, cls_loss 0.0030 cls_loss_mapping 0.0528 cls_loss_causal 0.6373 re_mapping 0.0388 re_causal 0.0468 /// teacc 88.94 lr 0.00611260
+306
+0.006112604669781575
+changing lr
+epoch 30, time 455.36, cls_loss 0.0023 cls_loss_mapping 0.0479 cls_loss_causal 0.6459 re_mapping 0.0382 re_causal 0.0462 /// teacc 91.35 lr 0.00589278
+306
+0.005892784473993186
+changing lr
+epoch 31, time 447.61, cls_loss 0.0014 cls_loss_mapping 0.0532 cls_loss_causal 0.6553 re_mapping 0.0365 re_causal 0.0447 /// teacc 91.35 lr 0.00567117
+306
+0.00567116632908828
+changing lr
+epoch 32, time 455.74, cls_loss 0.0019 cls_loss_mapping 0.0470 cls_loss_causal 0.6156 re_mapping 0.0346 re_causal 0.0422 /// teacc 90.38 lr 0.00544820
+306
+0.00544819654451717
+changing lr
+epoch 33, time 458.62, cls_loss 0.0026 cls_loss_mapping 0.0475 cls_loss_causal 0.6128 re_mapping 0.0336 re_causal 0.0415 /// teacc 91.35 lr 0.00522432
+306
+0.005224324151752577
+changing lr
+epoch 34, time 443.89, cls_loss 0.0034 cls_loss_mapping 0.0503 cls_loss_causal 0.6216 re_mapping 0.0331 re_causal 0.0412 /// teacc 90.87 lr 0.00500000
+306
+0.005000000000000003
+changing lr
+---------------------saving model at epoch 35----------------------------------------------------
+epoch 35, time 474.23, cls_loss 0.0025 cls_loss_mapping 0.0398 cls_loss_causal 0.5884 re_mapping 0.0317 re_causal 0.0397 /// teacc 91.83 lr 0.00477568
+306
+0.004775675848247429
+changing lr
+epoch 36, time 456.46, cls_loss 0.0023 cls_loss_mapping 0.0434 cls_loss_causal 0.6319 re_mapping 0.0308 re_causal 0.0386 /// teacc 91.35 lr 0.00455180
+306
+0.004551803455482836
+changing lr
+epoch 37, time 460.36, cls_loss 0.0024 cls_loss_mapping 0.0376 cls_loss_causal 0.6052 re_mapping 0.0290 re_causal 0.0364 /// teacc 90.87 lr 0.00432883
+306
+0.004328833670911726
+changing lr
+epoch 38, time 456.58, cls_loss 0.0013 cls_loss_mapping 0.0368 cls_loss_causal 0.6265 re_mapping 0.0276 re_causal 0.0354 /// teacc 90.38 lr 0.00410722
+306
+0.0041072155260068206
+changing lr
+epoch 39, time 468.90, cls_loss 0.0019 cls_loss_mapping 0.0310 cls_loss_causal 0.6240 re_mapping 0.0264 re_causal 0.0344 /// teacc 90.87 lr 0.00388740
+306
+0.0038873953302184317
+changing lr
+epoch 40, time 457.96, cls_loss 0.0020 cls_loss_mapping 0.0328 cls_loss_causal 0.6230 re_mapping 0.0257 re_causal 0.0335 /// teacc 90.87 lr 0.00366982
+306
+0.003669815772166629
+changing lr
+---------------------saving model at epoch 41----------------------------------------------------
+epoch 41, time 469.29, cls_loss 0.0023 cls_loss_mapping 0.0376 cls_loss_causal 0.6061 re_mapping 0.0249 re_causal 0.0320 /// teacc 92.31 lr 0.00345492
+306
+0.0034549150281252667
+changing lr
+epoch 42, time 475.72, cls_loss 0.0025 cls_loss_mapping 0.0311 cls_loss_causal 0.6195 re_mapping 0.0243 re_causal 0.0322 /// teacc 90.87 lr 0.00324313
+306
+0.0032431258795932905
+changing lr
+epoch 43, time 450.85, cls_loss 0.0018 cls_loss_mapping 0.0341 cls_loss_causal 0.6223 re_mapping 0.0235 re_causal 0.0310 /// teacc 90.87 lr 0.00303487
+306
+0.0030348748417303863
+changing lr
+epoch 44, time 441.78, cls_loss 0.0019 cls_loss_mapping 0.0317 cls_loss_causal 0.6072 re_mapping 0.0228 re_causal 0.0304 /// teacc 90.38 lr 0.00283058
+306
+0.0028305813044122124
+changing lr
+---------------------saving model at epoch 45----------------------------------------------------
+epoch 45, time 462.98, cls_loss 0.0013 cls_loss_mapping 0.0307 cls_loss_causal 0.5641 re_mapping 0.0222 re_causal 0.0291 /// teacc 93.75 lr 0.00263066
+306
+0.0026306566876350096
+changing lr
+epoch 46, time 474.81, cls_loss 0.0028 cls_loss_mapping 0.0323 cls_loss_causal 0.6004 re_mapping 0.0218 re_causal 0.0287 /// teacc 91.83 lr 0.00243550
+306
+0.0024355036129704724
+changing lr
+epoch 47, time 465.56, cls_loss 0.0013 cls_loss_mapping 0.0291 cls_loss_causal 0.6082 re_mapping 0.0213 re_causal 0.0289 /// teacc 92.31 lr 0.00224552
+306
+0.00224551509273949
+changing lr
+epoch 48, time 458.33, cls_loss 0.0011 cls_loss_mapping 0.0269 cls_loss_causal 0.6051 re_mapping 0.0208 re_causal 0.0289 /// teacc 91.35 lr 0.00206107
+306
+0.002061073738537637
+changing lr
+epoch 49, time 450.51, cls_loss 0.0012 cls_loss_mapping 0.0242 cls_loss_causal 0.5558 re_mapping 0.0200 re_causal 0.0273 /// teacc 91.35 lr 0.00188255
+306
+0.0018825509907063344
+changing lr
+epoch 50, time 462.46, cls_loss 0.0009 cls_loss_mapping 0.0237 cls_loss_causal 0.5775 re_mapping 0.0194 re_causal 0.0261 /// teacc 90.38 lr 0.00171031
+306
+0.0017103063703014388
+changing lr
+epoch 51, time 458.67, cls_loss 0.0017 cls_loss_mapping 0.0239 cls_loss_causal 0.5359 re_mapping 0.0184 re_causal 0.0244 /// teacc 91.35 lr 0.00154469
+306
+0.0015446867550656784
+changing lr
+epoch 52, time 439.55, cls_loss 0.0016 cls_loss_mapping 0.0239 cls_loss_causal 0.5782 re_mapping 0.0180 re_causal 0.0248 /// teacc 92.31 lr 0.00138603
+306
+0.001386025680863044
+changing lr
+epoch 53, time 468.39, cls_loss 0.0011 cls_loss_mapping 0.0221 cls_loss_causal 0.5797 re_mapping 0.0174 re_causal 0.0241 /// teacc 90.38 lr 0.00123464
+306
+0.0012346426699819469
+changing lr
+epoch 54, time 478.52, cls_loss 0.0011 cls_loss_mapping 0.0208 cls_loss_causal 0.5323 re_mapping 0.0171 re_causal 0.0233 /// teacc 91.35 lr 0.00109084
+306
+0.0010908425876598518
+changing lr
+epoch 55, time 451.23, cls_loss 0.0018 cls_loss_mapping 0.0228 cls_loss_causal 0.5217 re_mapping 0.0167 re_causal 0.0227 /// teacc 91.35 lr 0.00095492
+306
+0.000954915028125264
+changing lr
+epoch 56, time 455.62, cls_loss 0.0008 cls_loss_mapping 0.0185 cls_loss_causal 0.5520 re_mapping 0.0165 re_causal 0.0225 /// teacc 90.87 lr 0.00082713
+306
+0.0008271337313934874
+changing lr
+epoch 57, time 455.64, cls_loss 0.0015 cls_loss_mapping 0.0242 cls_loss_causal 0.5776 re_mapping 0.0162 re_causal 0.0225 /// teacc 90.87 lr 0.00070776
+306
+0.00070775603199067
+changing lr
+epoch 58, time 446.78, cls_loss 0.0009 cls_loss_mapping 0.0185 cls_loss_causal 0.5541 re_mapping 0.0158 re_causal 0.0221 /// teacc 91.35 lr 0.00059702
+306
+0.0005970223407163104
+changing lr
+epoch 59, time 451.88, cls_loss 0.0025 cls_loss_mapping 0.0193 cls_loss_causal 0.5280 re_mapping 0.0156 re_causal 0.0217 /// teacc 92.31 lr 0.00049516
+306
+0.0004951556604879052
+changing lr
+epoch 60, time 459.80, cls_loss 0.0019 cls_loss_mapping 0.0191 cls_loss_causal 0.5650 re_mapping 0.0154 re_causal 0.0212 /// teacc 91.83 lr 0.00040236
+306
+0.00040236113724274745
+changing lr
+epoch 61, time 456.30, cls_loss 0.0013 cls_loss_mapping 0.0195 cls_loss_causal 0.5573 re_mapping 0.0151 re_causal 0.0209 /// teacc 90.87 lr 0.00031883
+306
+0.00031882564680131423
+changing lr
+epoch 62, time 461.25, cls_loss 0.0016 cls_loss_mapping 0.0184 cls_loss_causal 0.5320 re_mapping 0.0149 re_causal 0.0203 /// teacc 91.83 lr 0.00024472
+306
+0.0002447174185242325
+changing lr
+epoch 63, time 461.95, cls_loss 0.0025 cls_loss_mapping 0.0234 cls_loss_causal 0.5478 re_mapping 0.0148 re_causal 0.0203 /// teacc 91.35 lr 0.00018019
+306
+0.0001801856965207339
+changing lr
+epoch 64, time 443.04, cls_loss 0.0012 cls_loss_mapping 0.0208 cls_loss_causal 0.5022 re_mapping 0.0147 re_causal 0.0200 /// teacc 91.35 lr 0.00012536
+306
+0.000125360439090882
+changing lr
+epoch 65, time 454.35, cls_loss 0.0012 cls_loss_mapping 0.0176 cls_loss_causal 0.5745 re_mapping 0.0147 re_causal 0.0203 /// teacc 91.83 lr 0.00008035
+306
+8.03520570068517e-05
+changing lr
+epoch 66, time 462.74, cls_loss 0.0018 cls_loss_mapping 0.0228 cls_loss_causal 0.5579 re_mapping 0.0147 re_causal 0.0201 /// teacc 91.35 lr 0.00004525
+306
+4.5251191160326525e-05
+changing lr
+epoch 67, time 470.10, cls_loss 0.0012 cls_loss_mapping 0.0186 cls_loss_causal 0.5288 re_mapping 0.0147 re_causal 0.0205 /// teacc 92.31 lr 0.00002013
+306
+2.0128530023804673e-05
+changing lr
+epoch 68, time 446.31, cls_loss 0.0011 cls_loss_mapping 0.0165 cls_loss_causal 0.5339 re_mapping 0.0146 re_causal 0.0202 /// teacc 89.42 lr 0.00000503
+306
+5.034667293427056e-06
+changing lr
+epoch 69, time 458.08, cls_loss 0.0013 cls_loss_mapping 0.0148 cls_loss_causal 0.5422 re_mapping 0.0146 re_causal 0.0204 /// teacc 92.31 lr 0.00000000
+---------------------saving last model at epoch 69----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_ReProduceMetaCausal', 'source_domain': 'art_painting', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_ReProduceMetaCausal/art_painting_16factor_last_test_check.csv', 'factor_num': 16, 'epoch': 'last', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of last
+randm: False
+stride: 5
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+columns: ['art_painting', 'cartoon', 'photo', 'sketch']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+                     art_painting    cartoon      photo     sketch        Avg
+w/o do (original x)     99.169922  65.784983  95.209581  64.596589  75.197051
+    art_painting    cartoon      photo     sketch        Avg
+do     99.072266  64.803754  95.269461  64.342072  74.805096
diff --git a/Meta-causal/code-withStyleAttack/56718.error b/Meta-causal/code-withStyleAttack/56718.error
new file mode 100644
index 0000000000000000000000000000000000000000..f26c68e6c5fa980b508c7bd532627e6b75b149fa
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/56718.error
@@ -0,0 +1,2 @@
+bash: run_my_joint_v13_test.sh: No such file or directory
+srun: error: gcpl4-eu-1: task 0: Exited with exit code 127
diff --git a/Meta-causal/code-withStyleAttack/56718.log b/Meta-causal/code-withStyleAttack/56718.log
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/Meta-causal/code-withStyleAttack/56719.error b/Meta-causal/code-withStyleAttack/56719.error
new file mode 100644
index 0000000000000000000000000000000000000000..444e676738c3b4b1c880f3c832cec125757b1b1b
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/56719.error
@@ -0,0 +1,25 @@
+Traceback (most recent call last):
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code/main_test_digit_v13.py", line 142, in <module>
+    main()
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvapqvk3mmem/lib/python3.11/site-packages/click/core.py", line 1157, in __call__
+    return self.main(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvapqvk3mmem/lib/python3.11/site-packages/click/core.py", line 1078, in main
+    rv = self.invoke(ctx)
+         ^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvapqvk3mmem/lib/python3.11/site-packages/click/core.py", line 1434, in invoke
+    return ctx.invoke(self.callback, **ctx.params)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvapqvk3mmem/lib/python3.11/site-packages/click/core.py", line 783, in invoke
+    return __callback(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code/main_test_digit_v13.py", line 28, in main
+    evaluate_digit(gpu, svroot, svpath, channels, factor_num, stride,epoch, eval_mapping)
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code/main_test_digit_v13.py", line 101, in evaluate_digit
+    teset = str2fun[data]('test', channels=channels)
+            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code/data_loader_joint_v3.py", line 722, in load_mnist_m
+    with open(path, 'rb') as f:
+         ^^^^^^^^^^^^^^^^
+FileNotFoundError: [Errno 2] No such file or directory: 'data/mnist_m-test.pkl'
+srun: error: gcpl4-eu-1: task 0: Exited with exit code 1
diff --git a/Meta-causal/code-withStyleAttack/56719.log b/Meta-causal/code-withStyleAttack/56719.log
new file mode 100644
index 0000000000000000000000000000000000000000..877231eeeaf1d132b8ddf33e5c8762b82226e64b
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/56719.log
@@ -0,0 +1,2066 @@
+/home/yuqian_fu
+{'gpu': '0', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 500, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_ReProduceMetaCausal', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 3
+--------------------------CA_multiple--------------------------
+---------------------------14 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+100
+0.0001
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 260.22, cls_loss 1.1168 cls_loss_mapping 1.7217 cls_loss_causal 2.1730 re_mapping 0.1107 re_causal 0.1210 /// teacc 88.60 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 265.91, cls_loss 0.3310 cls_loss_mapping 0.6635 cls_loss_causal 1.7775 re_mapping 0.1227 re_causal 0.1643 /// teacc 94.13 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 274.59, cls_loss 0.2190 cls_loss_mapping 0.3836 cls_loss_causal 1.5398 re_mapping 0.0889 re_causal 0.1349 /// teacc 95.73 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 274.87, cls_loss 0.1538 cls_loss_mapping 0.2464 cls_loss_causal 1.3205 re_mapping 0.0726 re_causal 0.1133 /// teacc 96.67 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 274.40, cls_loss 0.1333 cls_loss_mapping 0.2005 cls_loss_causal 1.2889 re_mapping 0.0565 re_causal 0.0967 /// teacc 96.76 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 5, time 273.58, cls_loss 0.1192 cls_loss_mapping 0.1777 cls_loss_causal 1.1780 re_mapping 0.0494 re_causal 0.0858 /// teacc 96.69 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 6----------------------------------------------------
+epoch 6, time 274.48, cls_loss 0.1015 cls_loss_mapping 0.1485 cls_loss_causal 1.1906 re_mapping 0.0407 re_causal 0.0792 /// teacc 97.65 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 7, time 273.51, cls_loss 0.0994 cls_loss_mapping 0.1401 cls_loss_causal 1.0640 re_mapping 0.0373 re_causal 0.0706 /// teacc 97.62 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 8----------------------------------------------------
+epoch 8, time 274.20, cls_loss 0.0851 cls_loss_mapping 0.1189 cls_loss_causal 1.0603 re_mapping 0.0328 re_causal 0.0659 /// teacc 97.97 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 9, time 273.45, cls_loss 0.0854 cls_loss_mapping 0.1226 cls_loss_causal 1.0207 re_mapping 0.0298 re_causal 0.0623 /// teacc 97.90 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 10----------------------------------------------------
+epoch 10, time 273.93, cls_loss 0.0650 cls_loss_mapping 0.0935 cls_loss_causal 0.9621 re_mapping 0.0281 re_causal 0.0602 /// teacc 98.02 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 11----------------------------------------------------
+epoch 11, time 274.43, cls_loss 0.0669 cls_loss_mapping 0.0951 cls_loss_causal 0.9560 re_mapping 0.0255 re_causal 0.0558 /// teacc 98.22 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 12----------------------------------------------------
+epoch 12, time 274.42, cls_loss 0.0667 cls_loss_mapping 0.0970 cls_loss_causal 0.9466 re_mapping 0.0245 re_causal 0.0554 /// teacc 98.28 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 13----------------------------------------------------
+epoch 13, time 273.96, cls_loss 0.0591 cls_loss_mapping 0.0844 cls_loss_causal 0.9433 re_mapping 0.0231 re_causal 0.0545 /// teacc 98.31 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 14----------------------------------------------------
+epoch 14, time 273.58, cls_loss 0.0548 cls_loss_mapping 0.0830 cls_loss_causal 0.8947 re_mapping 0.0220 re_causal 0.0519 /// teacc 98.41 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 15----------------------------------------------------
+epoch 15, time 269.38, cls_loss 0.0418 cls_loss_mapping 0.0628 cls_loss_causal 0.9005 re_mapping 0.0207 re_causal 0.0518 /// teacc 98.44 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 16----------------------------------------------------
+epoch 16, time 265.41, cls_loss 0.0544 cls_loss_mapping 0.0769 cls_loss_causal 0.8831 re_mapping 0.0197 re_causal 0.0493 /// teacc 98.48 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 17, time 261.91, cls_loss 0.0525 cls_loss_mapping 0.0776 cls_loss_causal 0.8870 re_mapping 0.0197 re_causal 0.0493 /// teacc 98.32 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 18----------------------------------------------------
+epoch 18, time 262.02, cls_loss 0.0382 cls_loss_mapping 0.0581 cls_loss_causal 0.8764 re_mapping 0.0184 re_causal 0.0472 /// teacc 98.51 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 19----------------------------------------------------
+epoch 19, time 262.11, cls_loss 0.0374 cls_loss_mapping 0.0573 cls_loss_causal 0.7987 re_mapping 0.0184 re_causal 0.0452 /// teacc 98.54 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 20, time 261.89, cls_loss 0.0342 cls_loss_mapping 0.0538 cls_loss_causal 0.7636 re_mapping 0.0178 re_causal 0.0453 /// teacc 98.52 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 21, time 261.79, cls_loss 0.0292 cls_loss_mapping 0.0457 cls_loss_causal 0.7961 re_mapping 0.0171 re_causal 0.0436 /// teacc 98.43 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 22, time 261.58, cls_loss 0.0277 cls_loss_mapping 0.0426 cls_loss_causal 0.8074 re_mapping 0.0162 re_causal 0.0421 /// teacc 98.49 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 23----------------------------------------------------
+epoch 23, time 262.62, cls_loss 0.0333 cls_loss_mapping 0.0530 cls_loss_causal 0.7916 re_mapping 0.0156 re_causal 0.0414 /// teacc 98.64 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 24, time 262.08, cls_loss 0.0296 cls_loss_mapping 0.0474 cls_loss_causal 0.7989 re_mapping 0.0151 re_causal 0.0402 /// teacc 98.45 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 25----------------------------------------------------
+epoch 25, time 263.12, cls_loss 0.0246 cls_loss_mapping 0.0418 cls_loss_causal 0.7816 re_mapping 0.0149 re_causal 0.0393 /// teacc 98.75 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 26----------------------------------------------------
+epoch 26, time 262.71, cls_loss 0.0229 cls_loss_mapping 0.0378 cls_loss_causal 0.7518 re_mapping 0.0141 re_causal 0.0374 /// teacc 98.77 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 27, time 261.78, cls_loss 0.0247 cls_loss_mapping 0.0419 cls_loss_causal 0.7570 re_mapping 0.0147 re_causal 0.0376 /// teacc 98.74 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 28, time 262.28, cls_loss 0.0212 cls_loss_mapping 0.0304 cls_loss_causal 0.7520 re_mapping 0.0141 re_causal 0.0367 /// teacc 98.77 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 29----------------------------------------------------
+epoch 29, time 262.94, cls_loss 0.0295 cls_loss_mapping 0.0448 cls_loss_causal 0.7504 re_mapping 0.0136 re_causal 0.0360 /// teacc 98.83 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 30, time 262.56, cls_loss 0.0240 cls_loss_mapping 0.0389 cls_loss_causal 0.7479 re_mapping 0.0136 re_causal 0.0364 /// teacc 98.76 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 31, time 262.55, cls_loss 0.0208 cls_loss_mapping 0.0348 cls_loss_causal 0.7169 re_mapping 0.0130 re_causal 0.0347 /// teacc 98.78 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 32, time 262.24, cls_loss 0.0193 cls_loss_mapping 0.0329 cls_loss_causal 0.6995 re_mapping 0.0122 re_causal 0.0327 /// teacc 98.66 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 33, time 262.86, cls_loss 0.0189 cls_loss_mapping 0.0334 cls_loss_causal 0.7307 re_mapping 0.0124 re_causal 0.0343 /// teacc 98.57 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 34----------------------------------------------------
+epoch 34, time 263.86, cls_loss 0.0187 cls_loss_mapping 0.0314 cls_loss_causal 0.7412 re_mapping 0.0121 re_causal 0.0325 /// teacc 98.88 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 35, time 262.90, cls_loss 0.0162 cls_loss_mapping 0.0290 cls_loss_causal 0.7096 re_mapping 0.0120 re_causal 0.0328 /// teacc 98.82 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 36, time 263.18, cls_loss 0.0130 cls_loss_mapping 0.0216 cls_loss_causal 0.6816 re_mapping 0.0117 re_causal 0.0312 /// teacc 98.71 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 37, time 263.13, cls_loss 0.0150 cls_loss_mapping 0.0245 cls_loss_causal 0.6711 re_mapping 0.0119 re_causal 0.0316 /// teacc 98.77 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 38, time 262.71, cls_loss 0.0171 cls_loss_mapping 0.0291 cls_loss_causal 0.6826 re_mapping 0.0114 re_causal 0.0303 /// teacc 98.84 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 39----------------------------------------------------
+epoch 39, time 263.42, cls_loss 0.0148 cls_loss_mapping 0.0251 cls_loss_causal 0.6789 re_mapping 0.0111 re_causal 0.0298 /// teacc 98.91 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 40----------------------------------------------------
+epoch 40, time 263.43, cls_loss 0.0165 cls_loss_mapping 0.0301 cls_loss_causal 0.6877 re_mapping 0.0113 re_causal 0.0297 /// teacc 98.95 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 41, time 262.57, cls_loss 0.0161 cls_loss_mapping 0.0290 cls_loss_causal 0.6867 re_mapping 0.0103 re_causal 0.0283 /// teacc 98.90 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 42, time 261.54, cls_loss 0.0124 cls_loss_mapping 0.0221 cls_loss_causal 0.6524 re_mapping 0.0104 re_causal 0.0276 /// teacc 98.78 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 43, time 261.64, cls_loss 0.0121 cls_loss_mapping 0.0236 cls_loss_causal 0.6499 re_mapping 0.0107 re_causal 0.0281 /// teacc 98.87 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 44, time 261.70, cls_loss 0.0126 cls_loss_mapping 0.0222 cls_loss_causal 0.6472 re_mapping 0.0107 re_causal 0.0277 /// teacc 98.82 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 45, time 262.23, cls_loss 0.0139 cls_loss_mapping 0.0248 cls_loss_causal 0.6458 re_mapping 0.0097 re_causal 0.0267 /// teacc 98.72 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 46, time 262.35, cls_loss 0.0128 cls_loss_mapping 0.0236 cls_loss_causal 0.6192 re_mapping 0.0103 re_causal 0.0264 /// teacc 98.77 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 47, time 262.98, cls_loss 0.0120 cls_loss_mapping 0.0198 cls_loss_causal 0.6455 re_mapping 0.0097 re_causal 0.0258 /// teacc 98.93 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 48, time 262.58, cls_loss 0.0116 cls_loss_mapping 0.0229 cls_loss_causal 0.6623 re_mapping 0.0099 re_causal 0.0264 /// teacc 98.84 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 49, time 262.10, cls_loss 0.0109 cls_loss_mapping 0.0222 cls_loss_causal 0.6632 re_mapping 0.0094 re_causal 0.0260 /// teacc 98.78 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 50, time 262.49, cls_loss 0.0107 cls_loss_mapping 0.0186 cls_loss_causal 0.6425 re_mapping 0.0094 re_causal 0.0260 /// teacc 98.74 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 51, time 261.98, cls_loss 0.0105 cls_loss_mapping 0.0196 cls_loss_causal 0.6062 re_mapping 0.0099 re_causal 0.0249 /// teacc 98.77 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 52----------------------------------------------------
+epoch 52, time 262.70, cls_loss 0.0123 cls_loss_mapping 0.0222 cls_loss_causal 0.6539 re_mapping 0.0090 re_causal 0.0243 /// teacc 98.99 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 53, time 262.04, cls_loss 0.0082 cls_loss_mapping 0.0165 cls_loss_causal 0.5830 re_mapping 0.0095 re_causal 0.0243 /// teacc 98.90 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 54, time 262.03, cls_loss 0.0134 cls_loss_mapping 0.0238 cls_loss_causal 0.6506 re_mapping 0.0092 re_causal 0.0241 /// teacc 98.78 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 55, time 262.23, cls_loss 0.0092 cls_loss_mapping 0.0175 cls_loss_causal 0.6151 re_mapping 0.0094 re_causal 0.0241 /// teacc 98.93 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 56, time 261.68, cls_loss 0.0083 cls_loss_mapping 0.0146 cls_loss_causal 0.6247 re_mapping 0.0093 re_causal 0.0250 /// teacc 98.78 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 57, time 262.04, cls_loss 0.0094 cls_loss_mapping 0.0173 cls_loss_causal 0.6450 re_mapping 0.0082 re_causal 0.0236 /// teacc 98.80 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 58, time 262.22, cls_loss 0.0082 cls_loss_mapping 0.0182 cls_loss_causal 0.5940 re_mapping 0.0090 re_causal 0.0236 /// teacc 98.76 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 59, time 261.98, cls_loss 0.0107 cls_loss_mapping 0.0187 cls_loss_causal 0.6018 re_mapping 0.0082 re_causal 0.0217 /// teacc 98.85 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 60, time 262.64, cls_loss 0.0096 cls_loss_mapping 0.0165 cls_loss_causal 0.6197 re_mapping 0.0079 re_causal 0.0227 /// teacc 98.84 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 61, time 262.62, cls_loss 0.0077 cls_loss_mapping 0.0133 cls_loss_causal 0.6104 re_mapping 0.0077 re_causal 0.0216 /// teacc 98.95 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 62, time 261.55, cls_loss 0.0094 cls_loss_mapping 0.0177 cls_loss_causal 0.6325 re_mapping 0.0077 re_causal 0.0211 /// teacc 98.84 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 63, time 261.66, cls_loss 0.0096 cls_loss_mapping 0.0173 cls_loss_causal 0.6390 re_mapping 0.0075 re_causal 0.0211 /// teacc 98.84 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 64, time 262.39, cls_loss 0.0089 cls_loss_mapping 0.0176 cls_loss_causal 0.6220 re_mapping 0.0080 re_causal 0.0211 /// teacc 98.96 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 65, time 262.81, cls_loss 0.0054 cls_loss_mapping 0.0089 cls_loss_causal 0.5919 re_mapping 0.0081 re_causal 0.0215 /// teacc 98.94 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 66, time 262.62, cls_loss 0.0072 cls_loss_mapping 0.0145 cls_loss_causal 0.5995 re_mapping 0.0079 re_causal 0.0213 /// teacc 98.80 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 67, time 262.54, cls_loss 0.0065 cls_loss_mapping 0.0115 cls_loss_causal 0.5839 re_mapping 0.0082 re_causal 0.0214 /// teacc 98.93 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 68, time 262.66, cls_loss 0.0082 cls_loss_mapping 0.0151 cls_loss_causal 0.6010 re_mapping 0.0072 re_causal 0.0203 /// teacc 98.68 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 69, time 262.04, cls_loss 0.0072 cls_loss_mapping 0.0131 cls_loss_causal 0.5964 re_mapping 0.0075 re_causal 0.0202 /// teacc 98.86 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 70, time 262.42, cls_loss 0.0068 cls_loss_mapping 0.0141 cls_loss_causal 0.6231 re_mapping 0.0076 re_causal 0.0214 /// teacc 98.96 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 71, time 261.65, cls_loss 0.0077 cls_loss_mapping 0.0151 cls_loss_causal 0.5752 re_mapping 0.0073 re_causal 0.0197 /// teacc 98.89 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 72, time 262.42, cls_loss 0.0077 cls_loss_mapping 0.0130 cls_loss_causal 0.5860 re_mapping 0.0073 re_causal 0.0197 /// teacc 98.95 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 73----------------------------------------------------
+epoch 73, time 263.56, cls_loss 0.0074 cls_loss_mapping 0.0145 cls_loss_causal 0.5783 re_mapping 0.0071 re_causal 0.0192 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 74, time 262.97, cls_loss 0.0064 cls_loss_mapping 0.0111 cls_loss_causal 0.5752 re_mapping 0.0073 re_causal 0.0198 /// teacc 98.91 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 75, time 262.29, cls_loss 0.0067 cls_loss_mapping 0.0128 cls_loss_causal 0.5738 re_mapping 0.0072 re_causal 0.0190 /// teacc 98.84 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 76, time 262.02, cls_loss 0.0060 cls_loss_mapping 0.0107 cls_loss_causal 0.5944 re_mapping 0.0071 re_causal 0.0198 /// teacc 98.93 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 77, time 262.25, cls_loss 0.0055 cls_loss_mapping 0.0086 cls_loss_causal 0.5748 re_mapping 0.0066 re_causal 0.0185 /// teacc 98.83 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 78, time 262.33, cls_loss 0.0048 cls_loss_mapping 0.0105 cls_loss_causal 0.5729 re_mapping 0.0071 re_causal 0.0200 /// teacc 98.86 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 79, time 262.67, cls_loss 0.0054 cls_loss_mapping 0.0086 cls_loss_causal 0.5782 re_mapping 0.0067 re_causal 0.0187 /// teacc 98.91 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 80, time 262.54, cls_loss 0.0048 cls_loss_mapping 0.0092 cls_loss_causal 0.5620 re_mapping 0.0067 re_causal 0.0185 /// teacc 99.01 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 81, time 262.50, cls_loss 0.0063 cls_loss_mapping 0.0131 cls_loss_causal 0.6240 re_mapping 0.0067 re_causal 0.0190 /// teacc 98.96 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 82, time 261.76, cls_loss 0.0077 cls_loss_mapping 0.0136 cls_loss_causal 0.5922 re_mapping 0.0067 re_causal 0.0178 /// teacc 98.97 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 83, time 262.17, cls_loss 0.0064 cls_loss_mapping 0.0120 cls_loss_causal 0.5514 re_mapping 0.0073 re_causal 0.0188 /// teacc 98.82 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 84, time 262.19, cls_loss 0.0056 cls_loss_mapping 0.0093 cls_loss_causal 0.5766 re_mapping 0.0065 re_causal 0.0180 /// teacc 98.85 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 85, time 262.14, cls_loss 0.0050 cls_loss_mapping 0.0080 cls_loss_causal 0.5528 re_mapping 0.0063 re_causal 0.0174 /// teacc 98.96 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 86, time 261.86, cls_loss 0.0051 cls_loss_mapping 0.0088 cls_loss_causal 0.5929 re_mapping 0.0063 re_causal 0.0178 /// teacc 98.92 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 87, time 261.74, cls_loss 0.0050 cls_loss_mapping 0.0087 cls_loss_causal 0.5941 re_mapping 0.0063 re_causal 0.0177 /// teacc 98.80 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 88, time 260.51, cls_loss 0.0048 cls_loss_mapping 0.0085 cls_loss_causal 0.5624 re_mapping 0.0064 re_causal 0.0177 /// teacc 98.88 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 89, time 250.06, cls_loss 0.0047 cls_loss_mapping 0.0084 cls_loss_causal 0.5650 re_mapping 0.0065 re_causal 0.0173 /// teacc 98.92 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 90, time 250.78, cls_loss 0.0049 cls_loss_mapping 0.0091 cls_loss_causal 0.5613 re_mapping 0.0060 re_causal 0.0167 /// teacc 98.88 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 91----------------------------------------------------
+epoch 91, time 251.20, cls_loss 0.0041 cls_loss_mapping 0.0070 cls_loss_causal 0.5382 re_mapping 0.0064 re_causal 0.0165 /// teacc 99.08 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 92, time 251.25, cls_loss 0.0051 cls_loss_mapping 0.0108 cls_loss_causal 0.6002 re_mapping 0.0059 re_causal 0.0168 /// teacc 98.89 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 93, time 250.57, cls_loss 0.0049 cls_loss_mapping 0.0096 cls_loss_causal 0.5548 re_mapping 0.0063 re_causal 0.0168 /// teacc 99.00 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 94, time 250.77, cls_loss 0.0047 cls_loss_mapping 0.0096 cls_loss_causal 0.5460 re_mapping 0.0063 re_causal 0.0163 /// teacc 98.93 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 95, time 250.37, cls_loss 0.0045 cls_loss_mapping 0.0074 cls_loss_causal 0.5265 re_mapping 0.0064 re_causal 0.0160 /// teacc 98.90 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 96, time 249.18, cls_loss 0.0037 cls_loss_mapping 0.0063 cls_loss_causal 0.5633 re_mapping 0.0062 re_causal 0.0172 /// teacc 98.82 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 97, time 249.34, cls_loss 0.0051 cls_loss_mapping 0.0080 cls_loss_causal 0.5467 re_mapping 0.0057 re_causal 0.0156 /// teacc 98.97 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 98, time 249.24, cls_loss 0.0043 cls_loss_mapping 0.0077 cls_loss_causal 0.5665 re_mapping 0.0061 re_causal 0.0163 /// teacc 99.08 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 99, time 247.66, cls_loss 0.0042 cls_loss_mapping 0.0055 cls_loss_causal 0.5559 re_mapping 0.0059 re_causal 0.0160 /// teacc 98.99 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 100, time 247.43, cls_loss 0.0039 cls_loss_mapping 0.0072 cls_loss_causal 0.5491 re_mapping 0.0059 re_causal 0.0159 /// teacc 98.90 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 101, time 247.17, cls_loss 0.0036 cls_loss_mapping 0.0062 cls_loss_causal 0.5947 re_mapping 0.0058 re_causal 0.0166 /// teacc 99.05 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 102, time 247.21, cls_loss 0.0041 cls_loss_mapping 0.0065 cls_loss_causal 0.5484 re_mapping 0.0057 re_causal 0.0155 /// teacc 98.97 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 103, time 247.20, cls_loss 0.0047 cls_loss_mapping 0.0077 cls_loss_causal 0.5315 re_mapping 0.0056 re_causal 0.0149 /// teacc 99.05 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 104, time 247.26, cls_loss 0.0047 cls_loss_mapping 0.0076 cls_loss_causal 0.5507 re_mapping 0.0055 re_causal 0.0148 /// teacc 99.07 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 105, time 247.09, cls_loss 0.0040 cls_loss_mapping 0.0063 cls_loss_causal 0.5417 re_mapping 0.0052 re_causal 0.0150 /// teacc 98.90 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 106, time 247.22, cls_loss 0.0046 cls_loss_mapping 0.0085 cls_loss_causal 0.5688 re_mapping 0.0053 re_causal 0.0154 /// teacc 98.98 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 107, time 247.40, cls_loss 0.0039 cls_loss_mapping 0.0085 cls_loss_causal 0.5396 re_mapping 0.0057 re_causal 0.0155 /// teacc 98.92 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 108, time 247.52, cls_loss 0.0047 cls_loss_mapping 0.0094 cls_loss_causal 0.5722 re_mapping 0.0056 re_causal 0.0150 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 109, time 247.28, cls_loss 0.0036 cls_loss_mapping 0.0055 cls_loss_causal 0.5219 re_mapping 0.0055 re_causal 0.0145 /// teacc 98.97 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 110, time 247.31, cls_loss 0.0033 cls_loss_mapping 0.0053 cls_loss_causal 0.5339 re_mapping 0.0056 re_causal 0.0153 /// teacc 98.91 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 111----------------------------------------------------
+epoch 111, time 248.20, cls_loss 0.0044 cls_loss_mapping 0.0070 cls_loss_causal 0.5686 re_mapping 0.0051 re_causal 0.0146 /// teacc 99.10 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 112, time 247.44, cls_loss 0.0037 cls_loss_mapping 0.0064 cls_loss_causal 0.5641 re_mapping 0.0053 re_causal 0.0150 /// teacc 99.09 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 113, time 247.39, cls_loss 0.0037 cls_loss_mapping 0.0063 cls_loss_causal 0.5414 re_mapping 0.0054 re_causal 0.0149 /// teacc 99.07 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 114, time 247.52, cls_loss 0.0039 cls_loss_mapping 0.0082 cls_loss_causal 0.5541 re_mapping 0.0051 re_causal 0.0144 /// teacc 98.98 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 115, time 247.69, cls_loss 0.0040 cls_loss_mapping 0.0066 cls_loss_causal 0.5456 re_mapping 0.0054 re_causal 0.0145 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 116, time 247.22, cls_loss 0.0031 cls_loss_mapping 0.0053 cls_loss_causal 0.5168 re_mapping 0.0053 re_causal 0.0145 /// teacc 98.99 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 117----------------------------------------------------
+epoch 117, time 248.08, cls_loss 0.0053 cls_loss_mapping 0.0090 cls_loss_causal 0.5568 re_mapping 0.0053 re_causal 0.0148 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 118, time 247.60, cls_loss 0.0033 cls_loss_mapping 0.0064 cls_loss_causal 0.5252 re_mapping 0.0052 re_causal 0.0147 /// teacc 98.92 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 119, time 247.65, cls_loss 0.0033 cls_loss_mapping 0.0068 cls_loss_causal 0.5163 re_mapping 0.0053 re_causal 0.0149 /// teacc 98.97 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 120----------------------------------------------------
+epoch 120, time 249.12, cls_loss 0.0041 cls_loss_mapping 0.0073 cls_loss_causal 0.5428 re_mapping 0.0048 re_causal 0.0140 /// teacc 99.16 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 121, time 247.46, cls_loss 0.0038 cls_loss_mapping 0.0055 cls_loss_causal 0.5502 re_mapping 0.0047 re_causal 0.0134 /// teacc 99.10 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 122, time 247.34, cls_loss 0.0040 cls_loss_mapping 0.0070 cls_loss_causal 0.5413 re_mapping 0.0049 re_causal 0.0141 /// teacc 99.03 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 123, time 247.75, cls_loss 0.0029 cls_loss_mapping 0.0051 cls_loss_causal 0.5293 re_mapping 0.0052 re_causal 0.0145 /// teacc 98.99 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 124, time 247.49, cls_loss 0.0039 cls_loss_mapping 0.0059 cls_loss_causal 0.5299 re_mapping 0.0048 re_causal 0.0137 /// teacc 98.99 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 125, time 247.82, cls_loss 0.0035 cls_loss_mapping 0.0055 cls_loss_causal 0.5164 re_mapping 0.0052 re_causal 0.0143 /// teacc 99.09 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 126, time 247.56, cls_loss 0.0033 cls_loss_mapping 0.0056 cls_loss_causal 0.5298 re_mapping 0.0050 re_causal 0.0141 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 127, time 247.90, cls_loss 0.0032 cls_loss_mapping 0.0058 cls_loss_causal 0.5069 re_mapping 0.0051 re_causal 0.0140 /// teacc 99.02 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 128, time 247.44, cls_loss 0.0035 cls_loss_mapping 0.0061 cls_loss_causal 0.5469 re_mapping 0.0046 re_causal 0.0133 /// teacc 98.98 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 129, time 247.22, cls_loss 0.0035 cls_loss_mapping 0.0046 cls_loss_causal 0.5124 re_mapping 0.0049 re_causal 0.0131 /// teacc 98.99 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 130, time 247.53, cls_loss 0.0041 cls_loss_mapping 0.0070 cls_loss_causal 0.5574 re_mapping 0.0048 re_causal 0.0133 /// teacc 99.10 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 131, time 247.26, cls_loss 0.0034 cls_loss_mapping 0.0052 cls_loss_causal 0.5246 re_mapping 0.0049 re_causal 0.0135 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 132, time 247.37, cls_loss 0.0034 cls_loss_mapping 0.0064 cls_loss_causal 0.5529 re_mapping 0.0047 re_causal 0.0142 /// teacc 99.07 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 133, time 247.41, cls_loss 0.0035 cls_loss_mapping 0.0043 cls_loss_causal 0.5204 re_mapping 0.0046 re_causal 0.0126 /// teacc 98.99 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 134, time 247.49, cls_loss 0.0033 cls_loss_mapping 0.0055 cls_loss_causal 0.5262 re_mapping 0.0045 re_causal 0.0127 /// teacc 99.00 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 135, time 247.43, cls_loss 0.0031 cls_loss_mapping 0.0054 cls_loss_causal 0.5655 re_mapping 0.0046 re_causal 0.0132 /// teacc 99.07 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 136, time 247.17, cls_loss 0.0030 cls_loss_mapping 0.0045 cls_loss_causal 0.5369 re_mapping 0.0046 re_causal 0.0129 /// teacc 99.13 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 137----------------------------------------------------
+epoch 137, time 247.90, cls_loss 0.0025 cls_loss_mapping 0.0044 cls_loss_causal 0.4877 re_mapping 0.0049 re_causal 0.0136 /// teacc 99.17 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 138, time 247.42, cls_loss 0.0034 cls_loss_mapping 0.0051 cls_loss_causal 0.5592 re_mapping 0.0045 re_causal 0.0132 /// teacc 99.00 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 139, time 247.30, cls_loss 0.0035 cls_loss_mapping 0.0068 cls_loss_causal 0.4932 re_mapping 0.0048 re_causal 0.0133 /// teacc 99.07 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 140, time 247.43, cls_loss 0.0030 cls_loss_mapping 0.0041 cls_loss_causal 0.5293 re_mapping 0.0046 re_causal 0.0132 /// teacc 99.05 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 141, time 247.95, cls_loss 0.0024 cls_loss_mapping 0.0036 cls_loss_causal 0.5366 re_mapping 0.0045 re_causal 0.0134 /// teacc 99.10 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 142, time 247.33, cls_loss 0.0033 cls_loss_mapping 0.0058 cls_loss_causal 0.5003 re_mapping 0.0042 re_causal 0.0122 /// teacc 99.17 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 143, time 247.18, cls_loss 0.0030 cls_loss_mapping 0.0053 cls_loss_causal 0.5321 re_mapping 0.0044 re_causal 0.0128 /// teacc 99.17 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 144, time 247.52, cls_loss 0.0032 cls_loss_mapping 0.0051 cls_loss_causal 0.4899 re_mapping 0.0044 re_causal 0.0121 /// teacc 99.01 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 145, time 247.52, cls_loss 0.0025 cls_loss_mapping 0.0044 cls_loss_causal 0.5202 re_mapping 0.0047 re_causal 0.0134 /// teacc 98.98 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 146, time 248.01, cls_loss 0.0027 cls_loss_mapping 0.0047 cls_loss_causal 0.4945 re_mapping 0.0044 re_causal 0.0126 /// teacc 99.02 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 147, time 247.07, cls_loss 0.0025 cls_loss_mapping 0.0037 cls_loss_causal 0.5273 re_mapping 0.0047 re_causal 0.0129 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 148, time 247.44, cls_loss 0.0029 cls_loss_mapping 0.0042 cls_loss_causal 0.5309 re_mapping 0.0046 re_causal 0.0126 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 149, time 246.82, cls_loss 0.0030 cls_loss_mapping 0.0043 cls_loss_causal 0.5280 re_mapping 0.0042 re_causal 0.0121 /// teacc 99.10 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 150, time 247.07, cls_loss 0.0025 cls_loss_mapping 0.0038 cls_loss_causal 0.5050 re_mapping 0.0042 re_causal 0.0121 /// teacc 99.11 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 151, time 247.12, cls_loss 0.0030 cls_loss_mapping 0.0058 cls_loss_causal 0.5175 re_mapping 0.0042 re_causal 0.0118 /// teacc 99.17 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 152, time 247.31, cls_loss 0.0028 cls_loss_mapping 0.0039 cls_loss_causal 0.5003 re_mapping 0.0041 re_causal 0.0114 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 153, time 247.30, cls_loss 0.0027 cls_loss_mapping 0.0047 cls_loss_causal 0.5100 re_mapping 0.0043 re_causal 0.0120 /// teacc 98.99 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 154, time 247.18, cls_loss 0.0028 cls_loss_mapping 0.0035 cls_loss_causal 0.5038 re_mapping 0.0042 re_causal 0.0119 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 155, time 247.28, cls_loss 0.0030 cls_loss_mapping 0.0046 cls_loss_causal 0.5092 re_mapping 0.0045 re_causal 0.0121 /// teacc 99.08 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 156, time 247.53, cls_loss 0.0050 cls_loss_mapping 0.0085 cls_loss_causal 0.5153 re_mapping 0.0044 re_causal 0.0121 /// teacc 98.89 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 157, time 247.52, cls_loss 0.0027 cls_loss_mapping 0.0043 cls_loss_causal 0.5363 re_mapping 0.0044 re_causal 0.0125 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 158, time 247.53, cls_loss 0.0020 cls_loss_mapping 0.0042 cls_loss_causal 0.4788 re_mapping 0.0043 re_causal 0.0124 /// teacc 99.01 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 159, time 247.44, cls_loss 0.0027 cls_loss_mapping 0.0053 cls_loss_causal 0.5289 re_mapping 0.0040 re_causal 0.0117 /// teacc 98.99 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 160, time 247.25, cls_loss 0.0031 cls_loss_mapping 0.0043 cls_loss_causal 0.4845 re_mapping 0.0040 re_causal 0.0103 /// teacc 99.03 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 161, time 247.20, cls_loss 0.0023 cls_loss_mapping 0.0031 cls_loss_causal 0.5342 re_mapping 0.0042 re_causal 0.0119 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 162, time 247.36, cls_loss 0.0022 cls_loss_mapping 0.0035 cls_loss_causal 0.5377 re_mapping 0.0041 re_causal 0.0118 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 163, time 247.20, cls_loss 0.0019 cls_loss_mapping 0.0034 cls_loss_causal 0.5306 re_mapping 0.0040 re_causal 0.0121 /// teacc 99.10 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 164, time 247.35, cls_loss 0.0021 cls_loss_mapping 0.0041 cls_loss_causal 0.5117 re_mapping 0.0042 re_causal 0.0119 /// teacc 98.96 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 165, time 247.03, cls_loss 0.0026 cls_loss_mapping 0.0040 cls_loss_causal 0.5038 re_mapping 0.0040 re_causal 0.0114 /// teacc 98.93 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 166, time 247.07, cls_loss 0.0025 cls_loss_mapping 0.0041 cls_loss_causal 0.5101 re_mapping 0.0042 re_causal 0.0118 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 167, time 247.31, cls_loss 0.0023 cls_loss_mapping 0.0034 cls_loss_causal 0.5069 re_mapping 0.0042 re_causal 0.0115 /// teacc 98.95 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 168, time 247.20, cls_loss 0.0025 cls_loss_mapping 0.0036 cls_loss_causal 0.5038 re_mapping 0.0041 re_causal 0.0114 /// teacc 98.97 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 169, time 247.25, cls_loss 0.0029 cls_loss_mapping 0.0037 cls_loss_causal 0.5111 re_mapping 0.0041 re_causal 0.0109 /// teacc 99.10 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 170, time 247.40, cls_loss 0.0030 cls_loss_mapping 0.0044 cls_loss_causal 0.5222 re_mapping 0.0040 re_causal 0.0112 /// teacc 99.00 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 171, time 247.19, cls_loss 0.0022 cls_loss_mapping 0.0039 cls_loss_causal 0.5095 re_mapping 0.0039 re_causal 0.0115 /// teacc 99.09 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 172, time 247.11, cls_loss 0.0023 cls_loss_mapping 0.0030 cls_loss_causal 0.5020 re_mapping 0.0040 re_causal 0.0114 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 173, time 246.80, cls_loss 0.0024 cls_loss_mapping 0.0035 cls_loss_causal 0.5326 re_mapping 0.0038 re_causal 0.0111 /// teacc 98.99 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 174, time 247.13, cls_loss 0.0024 cls_loss_mapping 0.0026 cls_loss_causal 0.5236 re_mapping 0.0039 re_causal 0.0113 /// teacc 99.07 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 175, time 247.24, cls_loss 0.0022 cls_loss_mapping 0.0039 cls_loss_causal 0.4945 re_mapping 0.0037 re_causal 0.0106 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 176, time 247.09, cls_loss 0.0024 cls_loss_mapping 0.0042 cls_loss_causal 0.5163 re_mapping 0.0039 re_causal 0.0114 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 177, time 246.73, cls_loss 0.0025 cls_loss_mapping 0.0033 cls_loss_causal 0.5106 re_mapping 0.0037 re_causal 0.0110 /// teacc 99.02 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 178, time 247.11, cls_loss 0.0022 cls_loss_mapping 0.0025 cls_loss_causal 0.4798 re_mapping 0.0040 re_causal 0.0111 /// teacc 99.02 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 179, time 246.93, cls_loss 0.0022 cls_loss_mapping 0.0039 cls_loss_causal 0.5108 re_mapping 0.0040 re_causal 0.0114 /// teacc 99.05 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 180, time 247.21, cls_loss 0.0030 cls_loss_mapping 0.0037 cls_loss_causal 0.5233 re_mapping 0.0038 re_causal 0.0109 /// teacc 99.11 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 181, time 247.09, cls_loss 0.0021 cls_loss_mapping 0.0035 cls_loss_causal 0.5065 re_mapping 0.0039 re_causal 0.0113 /// teacc 99.03 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 182, time 246.91, cls_loss 0.0024 cls_loss_mapping 0.0037 cls_loss_causal 0.5588 re_mapping 0.0037 re_causal 0.0114 /// teacc 99.05 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 183, time 247.64, cls_loss 0.0026 cls_loss_mapping 0.0037 cls_loss_causal 0.5331 re_mapping 0.0037 re_causal 0.0107 /// teacc 99.13 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 184, time 247.11, cls_loss 0.0022 cls_loss_mapping 0.0037 cls_loss_causal 0.5064 re_mapping 0.0039 re_causal 0.0110 /// teacc 98.91 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 185, time 247.25, cls_loss 0.0025 cls_loss_mapping 0.0035 cls_loss_causal 0.4997 re_mapping 0.0038 re_causal 0.0109 /// teacc 99.10 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 186, time 247.56, cls_loss 0.0023 cls_loss_mapping 0.0033 cls_loss_causal 0.5319 re_mapping 0.0038 re_causal 0.0112 /// teacc 99.13 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 187, time 246.96, cls_loss 0.0027 cls_loss_mapping 0.0039 cls_loss_causal 0.5077 re_mapping 0.0035 re_causal 0.0098 /// teacc 99.09 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 188, time 247.08, cls_loss 0.0018 cls_loss_mapping 0.0029 cls_loss_causal 0.4799 re_mapping 0.0039 re_causal 0.0109 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 189, time 247.25, cls_loss 0.0017 cls_loss_mapping 0.0028 cls_loss_causal 0.4788 re_mapping 0.0040 re_causal 0.0112 /// teacc 99.01 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 190, time 246.87, cls_loss 0.0025 cls_loss_mapping 0.0032 cls_loss_causal 0.4994 re_mapping 0.0035 re_causal 0.0103 /// teacc 99.05 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 191, time 247.17, cls_loss 0.0023 cls_loss_mapping 0.0034 cls_loss_causal 0.4759 re_mapping 0.0039 re_causal 0.0106 /// teacc 99.00 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 192, time 246.82, cls_loss 0.0022 cls_loss_mapping 0.0030 cls_loss_causal 0.5043 re_mapping 0.0039 re_causal 0.0108 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 193, time 247.13, cls_loss 0.0025 cls_loss_mapping 0.0043 cls_loss_causal 0.5180 re_mapping 0.0035 re_causal 0.0103 /// teacc 98.95 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 194, time 246.74, cls_loss 0.0021 cls_loss_mapping 0.0038 cls_loss_causal 0.5164 re_mapping 0.0037 re_causal 0.0113 /// teacc 99.02 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 195, time 246.90, cls_loss 0.0028 cls_loss_mapping 0.0044 cls_loss_causal 0.5003 re_mapping 0.0037 re_causal 0.0105 /// teacc 98.97 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 196, time 246.96, cls_loss 0.0024 cls_loss_mapping 0.0043 cls_loss_causal 0.5004 re_mapping 0.0037 re_causal 0.0107 /// teacc 99.09 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 197, time 247.11, cls_loss 0.0020 cls_loss_mapping 0.0031 cls_loss_causal 0.4946 re_mapping 0.0038 re_causal 0.0107 /// teacc 99.07 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 198, time 247.15, cls_loss 0.0018 cls_loss_mapping 0.0033 cls_loss_causal 0.5043 re_mapping 0.0036 re_causal 0.0107 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 199, time 246.86, cls_loss 0.0023 cls_loss_mapping 0.0034 cls_loss_causal 0.4853 re_mapping 0.0036 re_causal 0.0102 /// teacc 99.05 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 200, time 247.43, cls_loss 0.0021 cls_loss_mapping 0.0037 cls_loss_causal 0.4856 re_mapping 0.0034 re_causal 0.0103 /// teacc 98.98 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 201, time 247.24, cls_loss 0.0019 cls_loss_mapping 0.0023 cls_loss_causal 0.5071 re_mapping 0.0035 re_causal 0.0105 /// teacc 99.09 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 202, time 247.65, cls_loss 0.0021 cls_loss_mapping 0.0034 cls_loss_causal 0.5178 re_mapping 0.0035 re_causal 0.0104 /// teacc 99.11 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 203, time 247.52, cls_loss 0.0020 cls_loss_mapping 0.0023 cls_loss_causal 0.4825 re_mapping 0.0033 re_causal 0.0094 /// teacc 99.09 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 204, time 247.32, cls_loss 0.0018 cls_loss_mapping 0.0021 cls_loss_causal 0.4940 re_mapping 0.0036 re_causal 0.0101 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 205, time 247.61, cls_loss 0.0022 cls_loss_mapping 0.0036 cls_loss_causal 0.5107 re_mapping 0.0039 re_causal 0.0105 /// teacc 99.14 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 206, time 247.53, cls_loss 0.0020 cls_loss_mapping 0.0030 cls_loss_causal 0.4936 re_mapping 0.0036 re_causal 0.0099 /// teacc 99.13 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 207, time 247.27, cls_loss 0.0024 cls_loss_mapping 0.0033 cls_loss_causal 0.4938 re_mapping 0.0033 re_causal 0.0095 /// teacc 98.94 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 208, time 247.31, cls_loss 0.0020 cls_loss_mapping 0.0024 cls_loss_causal 0.4524 re_mapping 0.0035 re_causal 0.0101 /// teacc 99.03 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 209, time 247.73, cls_loss 0.0017 cls_loss_mapping 0.0022 cls_loss_causal 0.4973 re_mapping 0.0035 re_causal 0.0105 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 210, time 247.40, cls_loss 0.0020 cls_loss_mapping 0.0023 cls_loss_causal 0.4702 re_mapping 0.0036 re_causal 0.0100 /// teacc 99.10 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 211, time 246.89, cls_loss 0.0018 cls_loss_mapping 0.0024 cls_loss_causal 0.5196 re_mapping 0.0034 re_causal 0.0102 /// teacc 99.03 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 212, time 247.35, cls_loss 0.0021 cls_loss_mapping 0.0034 cls_loss_causal 0.4901 re_mapping 0.0034 re_causal 0.0096 /// teacc 99.13 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 213, time 247.22, cls_loss 0.0019 cls_loss_mapping 0.0034 cls_loss_causal 0.5019 re_mapping 0.0033 re_causal 0.0098 /// teacc 99.10 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 214, time 247.39, cls_loss 0.0014 cls_loss_mapping 0.0017 cls_loss_causal 0.4779 re_mapping 0.0034 re_causal 0.0100 /// teacc 99.05 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 215, time 247.27, cls_loss 0.0024 cls_loss_mapping 0.0040 cls_loss_causal 0.4916 re_mapping 0.0033 re_causal 0.0095 /// teacc 98.99 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 216, time 247.37, cls_loss 0.0016 cls_loss_mapping 0.0017 cls_loss_causal 0.4976 re_mapping 0.0033 re_causal 0.0097 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 217, time 247.45, cls_loss 0.0023 cls_loss_mapping 0.0035 cls_loss_causal 0.4677 re_mapping 0.0034 re_causal 0.0095 /// teacc 99.11 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 218, time 247.74, cls_loss 0.0020 cls_loss_mapping 0.0023 cls_loss_causal 0.4740 re_mapping 0.0033 re_causal 0.0098 /// teacc 99.00 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 219, time 247.00, cls_loss 0.0020 cls_loss_mapping 0.0024 cls_loss_causal 0.4902 re_mapping 0.0032 re_causal 0.0095 /// teacc 99.05 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 220, time 247.26, cls_loss 0.0015 cls_loss_mapping 0.0015 cls_loss_causal 0.4984 re_mapping 0.0033 re_causal 0.0100 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 221, time 247.21, cls_loss 0.0018 cls_loss_mapping 0.0018 cls_loss_causal 0.4791 re_mapping 0.0030 re_causal 0.0091 /// teacc 99.16 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 222, time 247.27, cls_loss 0.0019 cls_loss_mapping 0.0025 cls_loss_causal 0.4897 re_mapping 0.0031 re_causal 0.0093 /// teacc 99.13 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 223, time 247.18, cls_loss 0.0022 cls_loss_mapping 0.0027 cls_loss_causal 0.5187 re_mapping 0.0031 re_causal 0.0093 /// teacc 99.03 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 224, time 247.18, cls_loss 0.0020 cls_loss_mapping 0.0025 cls_loss_causal 0.4952 re_mapping 0.0032 re_causal 0.0093 /// teacc 99.08 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 225, time 247.25, cls_loss 0.0021 cls_loss_mapping 0.0027 cls_loss_causal 0.4951 re_mapping 0.0033 re_causal 0.0095 /// teacc 99.03 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 226, time 247.42, cls_loss 0.0015 cls_loss_mapping 0.0017 cls_loss_causal 0.5013 re_mapping 0.0031 re_causal 0.0092 /// teacc 99.07 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 227, time 248.14, cls_loss 0.0016 cls_loss_mapping 0.0030 cls_loss_causal 0.5144 re_mapping 0.0032 re_causal 0.0098 /// teacc 99.13 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 228, time 247.56, cls_loss 0.0020 cls_loss_mapping 0.0027 cls_loss_causal 0.5000 re_mapping 0.0032 re_causal 0.0094 /// teacc 99.11 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 229----------------------------------------------------
+epoch 229, time 247.85, cls_loss 0.0016 cls_loss_mapping 0.0028 cls_loss_causal 0.5045 re_mapping 0.0033 re_causal 0.0098 /// teacc 99.21 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 230, time 247.45, cls_loss 0.0020 cls_loss_mapping 0.0033 cls_loss_causal 0.5028 re_mapping 0.0032 re_causal 0.0097 /// teacc 99.01 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 231, time 247.60, cls_loss 0.0024 cls_loss_mapping 0.0033 cls_loss_causal 0.5090 re_mapping 0.0031 re_causal 0.0092 /// teacc 99.02 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 232, time 247.14, cls_loss 0.0024 cls_loss_mapping 0.0037 cls_loss_causal 0.4987 re_mapping 0.0032 re_causal 0.0093 /// teacc 99.18 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 233, time 247.34, cls_loss 0.0015 cls_loss_mapping 0.0025 cls_loss_causal 0.5306 re_mapping 0.0032 re_causal 0.0099 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 234, time 247.70, cls_loss 0.0018 cls_loss_mapping 0.0023 cls_loss_causal 0.4880 re_mapping 0.0031 re_causal 0.0092 /// teacc 99.08 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 235, time 247.42, cls_loss 0.0017 cls_loss_mapping 0.0020 cls_loss_causal 0.4734 re_mapping 0.0030 re_causal 0.0088 /// teacc 99.10 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 236, time 248.01, cls_loss 0.0018 cls_loss_mapping 0.0024 cls_loss_causal 0.4746 re_mapping 0.0032 re_causal 0.0093 /// teacc 99.05 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 237, time 247.40, cls_loss 0.0016 cls_loss_mapping 0.0021 cls_loss_causal 0.4826 re_mapping 0.0029 re_causal 0.0088 /// teacc 99.07 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 238, time 247.38, cls_loss 0.0017 cls_loss_mapping 0.0016 cls_loss_causal 0.5047 re_mapping 0.0030 re_causal 0.0090 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 239, time 248.73, cls_loss 0.0017 cls_loss_mapping 0.0022 cls_loss_causal 0.5064 re_mapping 0.0030 re_causal 0.0092 /// teacc 99.14 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 240, time 248.15, cls_loss 0.0018 cls_loss_mapping 0.0034 cls_loss_causal 0.5029 re_mapping 0.0031 re_causal 0.0095 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 241, time 247.23, cls_loss 0.0017 cls_loss_mapping 0.0023 cls_loss_causal 0.4986 re_mapping 0.0032 re_causal 0.0096 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 242, time 247.18, cls_loss 0.0017 cls_loss_mapping 0.0026 cls_loss_causal 0.4912 re_mapping 0.0032 re_causal 0.0095 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 243, time 247.37, cls_loss 0.0017 cls_loss_mapping 0.0024 cls_loss_causal 0.4714 re_mapping 0.0031 re_causal 0.0092 /// teacc 99.10 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 244, time 247.36, cls_loss 0.0018 cls_loss_mapping 0.0030 cls_loss_causal 0.4707 re_mapping 0.0031 re_causal 0.0091 /// teacc 99.10 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 245, time 247.07, cls_loss 0.0016 cls_loss_mapping 0.0027 cls_loss_causal 0.4907 re_mapping 0.0032 re_causal 0.0098 /// teacc 99.03 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 246, time 247.63, cls_loss 0.0017 cls_loss_mapping 0.0039 cls_loss_causal 0.5042 re_mapping 0.0032 re_causal 0.0098 /// teacc 99.16 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 247, time 247.28, cls_loss 0.0026 cls_loss_mapping 0.0037 cls_loss_causal 0.4860 re_mapping 0.0031 re_causal 0.0089 /// teacc 99.11 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 248, time 247.15, cls_loss 0.0021 cls_loss_mapping 0.0031 cls_loss_causal 0.4790 re_mapping 0.0033 re_causal 0.0095 /// teacc 99.10 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 249, time 247.23, cls_loss 0.0018 cls_loss_mapping 0.0023 cls_loss_causal 0.4878 re_mapping 0.0031 re_causal 0.0088 /// teacc 99.16 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 250, time 247.02, cls_loss 0.0015 cls_loss_mapping 0.0016 cls_loss_causal 0.4962 re_mapping 0.0029 re_causal 0.0089 /// teacc 99.14 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 251, time 247.51, cls_loss 0.0018 cls_loss_mapping 0.0028 cls_loss_causal 0.4979 re_mapping 0.0030 re_causal 0.0088 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 252, time 247.35, cls_loss 0.0020 cls_loss_mapping 0.0024 cls_loss_causal 0.4525 re_mapping 0.0031 re_causal 0.0088 /// teacc 99.08 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 253, time 247.04, cls_loss 0.0017 cls_loss_mapping 0.0022 cls_loss_causal 0.4552 re_mapping 0.0030 re_causal 0.0087 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 254, time 247.26, cls_loss 0.0022 cls_loss_mapping 0.0036 cls_loss_causal 0.4710 re_mapping 0.0030 re_causal 0.0089 /// teacc 99.02 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 255, time 247.16, cls_loss 0.0011 cls_loss_mapping 0.0015 cls_loss_causal 0.4512 re_mapping 0.0031 re_causal 0.0091 /// teacc 99.02 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 256, time 247.38, cls_loss 0.0018 cls_loss_mapping 0.0023 cls_loss_causal 0.4975 re_mapping 0.0028 re_causal 0.0086 /// teacc 98.97 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 257, time 247.20, cls_loss 0.0016 cls_loss_mapping 0.0018 cls_loss_causal 0.4632 re_mapping 0.0032 re_causal 0.0094 /// teacc 99.02 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 258, time 247.12, cls_loss 0.0015 cls_loss_mapping 0.0023 cls_loss_causal 0.4664 re_mapping 0.0032 re_causal 0.0091 /// teacc 98.95 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 259, time 247.32, cls_loss 0.0018 cls_loss_mapping 0.0025 cls_loss_causal 0.4997 re_mapping 0.0029 re_causal 0.0087 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 260, time 247.19, cls_loss 0.0014 cls_loss_mapping 0.0020 cls_loss_causal 0.4738 re_mapping 0.0029 re_causal 0.0088 /// teacc 99.07 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 261, time 246.87, cls_loss 0.0014 cls_loss_mapping 0.0020 cls_loss_causal 0.4996 re_mapping 0.0032 re_causal 0.0095 /// teacc 99.00 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 262, time 246.91, cls_loss 0.0015 cls_loss_mapping 0.0022 cls_loss_causal 0.5120 re_mapping 0.0029 re_causal 0.0092 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 263, time 247.18, cls_loss 0.0016 cls_loss_mapping 0.0025 cls_loss_causal 0.4762 re_mapping 0.0031 re_causal 0.0087 /// teacc 99.10 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 264, time 246.94, cls_loss 0.0015 cls_loss_mapping 0.0019 cls_loss_causal 0.4728 re_mapping 0.0031 re_causal 0.0092 /// teacc 99.05 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 265, time 246.92, cls_loss 0.0017 cls_loss_mapping 0.0016 cls_loss_causal 0.4729 re_mapping 0.0029 re_causal 0.0082 /// teacc 99.03 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 266, time 246.97, cls_loss 0.0015 cls_loss_mapping 0.0022 cls_loss_causal 0.4830 re_mapping 0.0027 re_causal 0.0083 /// teacc 99.09 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 267, time 247.19, cls_loss 0.0016 cls_loss_mapping 0.0028 cls_loss_causal 0.4905 re_mapping 0.0031 re_causal 0.0092 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 268, time 247.41, cls_loss 0.0014 cls_loss_mapping 0.0023 cls_loss_causal 0.4688 re_mapping 0.0031 re_causal 0.0091 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 269, time 247.14, cls_loss 0.0021 cls_loss_mapping 0.0027 cls_loss_causal 0.5079 re_mapping 0.0030 re_causal 0.0088 /// teacc 99.18 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 270, time 247.08, cls_loss 0.0015 cls_loss_mapping 0.0023 cls_loss_causal 0.4751 re_mapping 0.0029 re_causal 0.0087 /// teacc 99.09 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 271, time 247.23, cls_loss 0.0015 cls_loss_mapping 0.0029 cls_loss_causal 0.4807 re_mapping 0.0029 re_causal 0.0087 /// teacc 98.91 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 272, time 247.25, cls_loss 0.0021 cls_loss_mapping 0.0029 cls_loss_causal 0.4811 re_mapping 0.0029 re_causal 0.0085 /// teacc 99.11 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 273, time 247.12, cls_loss 0.0015 cls_loss_mapping 0.0020 cls_loss_causal 0.4693 re_mapping 0.0030 re_causal 0.0088 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 274, time 247.52, cls_loss 0.0018 cls_loss_mapping 0.0019 cls_loss_causal 0.4625 re_mapping 0.0030 re_causal 0.0081 /// teacc 99.03 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 275, time 247.32, cls_loss 0.0013 cls_loss_mapping 0.0015 cls_loss_causal 0.4594 re_mapping 0.0030 re_causal 0.0086 /// teacc 99.14 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 276, time 247.31, cls_loss 0.0013 cls_loss_mapping 0.0030 cls_loss_causal 0.4717 re_mapping 0.0030 re_causal 0.0090 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 277, time 247.59, cls_loss 0.0021 cls_loss_mapping 0.0022 cls_loss_causal 0.4800 re_mapping 0.0029 re_causal 0.0084 /// teacc 99.10 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 278, time 247.25, cls_loss 0.0015 cls_loss_mapping 0.0017 cls_loss_causal 0.4832 re_mapping 0.0028 re_causal 0.0087 /// teacc 99.07 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 279, time 247.30, cls_loss 0.0013 cls_loss_mapping 0.0019 cls_loss_causal 0.4871 re_mapping 0.0030 re_causal 0.0091 /// teacc 99.17 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 280----------------------------------------------------
+epoch 280, time 248.43, cls_loss 0.0016 cls_loss_mapping 0.0017 cls_loss_causal 0.4657 re_mapping 0.0030 re_causal 0.0084 /// teacc 99.26 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 281, time 247.76, cls_loss 0.0014 cls_loss_mapping 0.0018 cls_loss_causal 0.4639 re_mapping 0.0029 re_causal 0.0085 /// teacc 99.25 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 282, time 247.74, cls_loss 0.0014 cls_loss_mapping 0.0019 cls_loss_causal 0.4466 re_mapping 0.0029 re_causal 0.0082 /// teacc 99.11 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 283, time 247.60, cls_loss 0.0010 cls_loss_mapping 0.0015 cls_loss_causal 0.4532 re_mapping 0.0030 re_causal 0.0089 /// teacc 99.02 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 284, time 247.58, cls_loss 0.0020 cls_loss_mapping 0.0031 cls_loss_causal 0.4614 re_mapping 0.0029 re_causal 0.0086 /// teacc 99.05 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 285, time 247.57, cls_loss 0.0022 cls_loss_mapping 0.0026 cls_loss_causal 0.5009 re_mapping 0.0026 re_causal 0.0077 /// teacc 99.00 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 286, time 247.67, cls_loss 0.0017 cls_loss_mapping 0.0019 cls_loss_causal 0.4442 re_mapping 0.0027 re_causal 0.0079 /// teacc 99.15 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 287, time 247.52, cls_loss 0.0018 cls_loss_mapping 0.0041 cls_loss_causal 0.4619 re_mapping 0.0029 re_causal 0.0083 /// teacc 99.17 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 288, time 246.94, cls_loss 0.0012 cls_loss_mapping 0.0019 cls_loss_causal 0.4668 re_mapping 0.0030 re_causal 0.0090 /// teacc 99.11 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 289, time 247.41, cls_loss 0.0016 cls_loss_mapping 0.0026 cls_loss_causal 0.4698 re_mapping 0.0027 re_causal 0.0083 /// teacc 99.16 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 290, time 247.31, cls_loss 0.0016 cls_loss_mapping 0.0021 cls_loss_causal 0.4558 re_mapping 0.0027 re_causal 0.0079 /// teacc 99.09 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 291, time 247.85, cls_loss 0.0013 cls_loss_mapping 0.0014 cls_loss_causal 0.4896 re_mapping 0.0030 re_causal 0.0089 /// teacc 99.07 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 292, time 247.58, cls_loss 0.0018 cls_loss_mapping 0.0017 cls_loss_causal 0.4845 re_mapping 0.0025 re_causal 0.0075 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 293, time 246.85, cls_loss 0.0018 cls_loss_mapping 0.0019 cls_loss_causal 0.4797 re_mapping 0.0025 re_causal 0.0074 /// teacc 99.02 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 294, time 247.06, cls_loss 0.0015 cls_loss_mapping 0.0020 cls_loss_causal 0.4528 re_mapping 0.0029 re_causal 0.0080 /// teacc 99.13 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 295----------------------------------------------------
+epoch 295, time 248.20, cls_loss 0.0011 cls_loss_mapping 0.0018 cls_loss_causal 0.4663 re_mapping 0.0029 re_causal 0.0085 /// teacc 99.27 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 296, time 247.05, cls_loss 0.0011 cls_loss_mapping 0.0014 cls_loss_causal 0.4457 re_mapping 0.0027 re_causal 0.0079 /// teacc 99.19 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 297, time 247.01, cls_loss 0.0011 cls_loss_mapping 0.0019 cls_loss_causal 0.4646 re_mapping 0.0027 re_causal 0.0083 /// teacc 99.09 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 298, time 247.03, cls_loss 0.0011 cls_loss_mapping 0.0016 cls_loss_causal 0.4582 re_mapping 0.0027 re_causal 0.0081 /// teacc 99.02 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 299, time 247.08, cls_loss 0.0015 cls_loss_mapping 0.0017 cls_loss_causal 0.4958 re_mapping 0.0026 re_causal 0.0083 /// teacc 99.07 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 300, time 247.04, cls_loss 0.0012 cls_loss_mapping 0.0012 cls_loss_causal 0.4689 re_mapping 0.0026 re_causal 0.0079 /// teacc 99.09 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 301, time 247.00, cls_loss 0.0016 cls_loss_mapping 0.0018 cls_loss_causal 0.4784 re_mapping 0.0027 re_causal 0.0083 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 302, time 246.87, cls_loss 0.0014 cls_loss_mapping 0.0022 cls_loss_causal 0.4964 re_mapping 0.0026 re_causal 0.0082 /// teacc 99.14 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 303, time 246.97, cls_loss 0.0014 cls_loss_mapping 0.0016 cls_loss_causal 0.4547 re_mapping 0.0027 re_causal 0.0077 /// teacc 99.03 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 304, time 246.93, cls_loss 0.0012 cls_loss_mapping 0.0017 cls_loss_causal 0.4448 re_mapping 0.0027 re_causal 0.0081 /// teacc 99.13 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 305, time 247.00, cls_loss 0.0011 cls_loss_mapping 0.0009 cls_loss_causal 0.4617 re_mapping 0.0027 re_causal 0.0080 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 306, time 246.97, cls_loss 0.0012 cls_loss_mapping 0.0018 cls_loss_causal 0.4790 re_mapping 0.0027 re_causal 0.0085 /// teacc 99.02 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 307, time 247.08, cls_loss 0.0013 cls_loss_mapping 0.0018 cls_loss_causal 0.4900 re_mapping 0.0026 re_causal 0.0081 /// teacc 99.10 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 308, time 246.70, cls_loss 0.0013 cls_loss_mapping 0.0018 cls_loss_causal 0.4600 re_mapping 0.0026 re_causal 0.0078 /// teacc 99.03 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 309, time 246.77, cls_loss 0.0014 cls_loss_mapping 0.0018 cls_loss_causal 0.4756 re_mapping 0.0027 re_causal 0.0082 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 310, time 247.15, cls_loss 0.0016 cls_loss_mapping 0.0029 cls_loss_causal 0.4717 re_mapping 0.0028 re_causal 0.0082 /// teacc 99.07 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 311, time 247.54, cls_loss 0.0015 cls_loss_mapping 0.0022 cls_loss_causal 0.4607 re_mapping 0.0027 re_causal 0.0078 /// teacc 99.09 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 312, time 247.41, cls_loss 0.0014 cls_loss_mapping 0.0017 cls_loss_causal 0.4517 re_mapping 0.0027 re_causal 0.0080 /// teacc 99.07 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 313, time 247.18, cls_loss 0.0010 cls_loss_mapping 0.0012 cls_loss_causal 0.4551 re_mapping 0.0026 re_causal 0.0080 /// teacc 99.16 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 314, time 247.40, cls_loss 0.0012 cls_loss_mapping 0.0013 cls_loss_causal 0.4355 re_mapping 0.0028 re_causal 0.0079 /// teacc 99.05 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 315, time 247.58, cls_loss 0.0015 cls_loss_mapping 0.0020 cls_loss_causal 0.4555 re_mapping 0.0026 re_causal 0.0075 /// teacc 99.05 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 316, time 247.22, cls_loss 0.0014 cls_loss_mapping 0.0023 cls_loss_causal 0.4448 re_mapping 0.0026 re_causal 0.0075 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 317, time 247.06, cls_loss 0.0017 cls_loss_mapping 0.0022 cls_loss_causal 0.4914 re_mapping 0.0027 re_causal 0.0078 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 318, time 246.94, cls_loss 0.0012 cls_loss_mapping 0.0016 cls_loss_causal 0.4779 re_mapping 0.0027 re_causal 0.0080 /// teacc 99.03 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 319, time 247.06, cls_loss 0.0013 cls_loss_mapping 0.0015 cls_loss_causal 0.4348 re_mapping 0.0026 re_causal 0.0077 /// teacc 99.10 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 320, time 247.23, cls_loss 0.0015 cls_loss_mapping 0.0018 cls_loss_causal 0.4390 re_mapping 0.0025 re_causal 0.0074 /// teacc 99.05 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 321, time 246.84, cls_loss 0.0013 cls_loss_mapping 0.0018 cls_loss_causal 0.4578 re_mapping 0.0024 re_causal 0.0075 /// teacc 99.07 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 322, time 247.00, cls_loss 0.0012 cls_loss_mapping 0.0021 cls_loss_causal 0.4698 re_mapping 0.0026 re_causal 0.0079 /// teacc 99.00 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 323, time 247.23, cls_loss 0.0012 cls_loss_mapping 0.0017 cls_loss_causal 0.4447 re_mapping 0.0027 re_causal 0.0079 /// teacc 99.08 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 324, time 246.90, cls_loss 0.0016 cls_loss_mapping 0.0016 cls_loss_causal 0.4695 re_mapping 0.0028 re_causal 0.0077 /// teacc 99.05 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 325, time 246.85, cls_loss 0.0016 cls_loss_mapping 0.0019 cls_loss_causal 0.4536 re_mapping 0.0027 re_causal 0.0078 /// teacc 99.17 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 326, time 247.13, cls_loss 0.0018 cls_loss_mapping 0.0017 cls_loss_causal 0.4503 re_mapping 0.0026 re_causal 0.0073 /// teacc 99.03 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 327, time 246.92, cls_loss 0.0014 cls_loss_mapping 0.0014 cls_loss_causal 0.4610 re_mapping 0.0027 re_causal 0.0078 /// teacc 98.96 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 328, time 247.01, cls_loss 0.0014 cls_loss_mapping 0.0022 cls_loss_causal 0.4952 re_mapping 0.0026 re_causal 0.0081 /// teacc 99.17 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 329, time 247.26, cls_loss 0.0012 cls_loss_mapping 0.0013 cls_loss_causal 0.4556 re_mapping 0.0026 re_causal 0.0079 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 330, time 247.18, cls_loss 0.0014 cls_loss_mapping 0.0017 cls_loss_causal 0.4647 re_mapping 0.0024 re_causal 0.0073 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 331, time 247.30, cls_loss 0.0012 cls_loss_mapping 0.0017 cls_loss_causal 0.4686 re_mapping 0.0027 re_causal 0.0082 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 332, time 247.31, cls_loss 0.0012 cls_loss_mapping 0.0011 cls_loss_causal 0.4722 re_mapping 0.0024 re_causal 0.0076 /// teacc 99.00 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 333, time 247.49, cls_loss 0.0013 cls_loss_mapping 0.0019 cls_loss_causal 0.4423 re_mapping 0.0026 re_causal 0.0077 /// teacc 98.98 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 334, time 247.27, cls_loss 0.0013 cls_loss_mapping 0.0014 cls_loss_causal 0.4602 re_mapping 0.0023 re_causal 0.0074 /// teacc 98.98 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 335, time 247.17, cls_loss 0.0011 cls_loss_mapping 0.0018 cls_loss_causal 0.4384 re_mapping 0.0026 re_causal 0.0077 /// teacc 99.14 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 336, time 247.21, cls_loss 0.0021 cls_loss_mapping 0.0031 cls_loss_causal 0.4611 re_mapping 0.0024 re_causal 0.0076 /// teacc 99.20 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 337, time 247.10, cls_loss 0.0013 cls_loss_mapping 0.0014 cls_loss_causal 0.4444 re_mapping 0.0025 re_causal 0.0077 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 338, time 247.26, cls_loss 0.0010 cls_loss_mapping 0.0011 cls_loss_causal 0.4533 re_mapping 0.0023 re_causal 0.0076 /// teacc 99.13 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 339, time 247.32, cls_loss 0.0014 cls_loss_mapping 0.0020 cls_loss_causal 0.4566 re_mapping 0.0024 re_causal 0.0076 /// teacc 99.11 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 340, time 247.16, cls_loss 0.0010 cls_loss_mapping 0.0010 cls_loss_causal 0.4598 re_mapping 0.0026 re_causal 0.0080 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 341, time 247.15, cls_loss 0.0012 cls_loss_mapping 0.0015 cls_loss_causal 0.4526 re_mapping 0.0026 re_causal 0.0077 /// teacc 99.03 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 342, time 247.51, cls_loss 0.0011 cls_loss_mapping 0.0013 cls_loss_causal 0.5016 re_mapping 0.0026 re_causal 0.0084 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 343, time 247.38, cls_loss 0.0015 cls_loss_mapping 0.0015 cls_loss_causal 0.4960 re_mapping 0.0025 re_causal 0.0076 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 344, time 247.23, cls_loss 0.0013 cls_loss_mapping 0.0020 cls_loss_causal 0.4559 re_mapping 0.0024 re_causal 0.0072 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 345, time 247.50, cls_loss 0.0012 cls_loss_mapping 0.0015 cls_loss_causal 0.4610 re_mapping 0.0026 re_causal 0.0080 /// teacc 99.03 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 346, time 247.38, cls_loss 0.0017 cls_loss_mapping 0.0023 cls_loss_causal 0.4869 re_mapping 0.0025 re_causal 0.0075 /// teacc 98.91 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 347, time 247.37, cls_loss 0.0012 cls_loss_mapping 0.0014 cls_loss_causal 0.4465 re_mapping 0.0025 re_causal 0.0076 /// teacc 99.02 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 348, time 247.38, cls_loss 0.0013 cls_loss_mapping 0.0014 cls_loss_causal 0.4634 re_mapping 0.0026 re_causal 0.0077 /// teacc 98.95 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 349, time 247.41, cls_loss 0.0014 cls_loss_mapping 0.0017 cls_loss_causal 0.4596 re_mapping 0.0025 re_causal 0.0073 /// teacc 99.05 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 350, time 246.99, cls_loss 0.0013 cls_loss_mapping 0.0013 cls_loss_causal 0.4557 re_mapping 0.0024 re_causal 0.0072 /// teacc 99.11 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 351, time 247.25, cls_loss 0.0012 cls_loss_mapping 0.0014 cls_loss_causal 0.4623 re_mapping 0.0025 re_causal 0.0075 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 352, time 247.18, cls_loss 0.0016 cls_loss_mapping 0.0016 cls_loss_causal 0.4614 re_mapping 0.0025 re_causal 0.0074 /// teacc 99.15 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 353, time 246.88, cls_loss 0.0011 cls_loss_mapping 0.0014 cls_loss_causal 0.4559 re_mapping 0.0026 re_causal 0.0080 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 354, time 247.59, cls_loss 0.0008 cls_loss_mapping 0.0011 cls_loss_causal 0.4315 re_mapping 0.0025 re_causal 0.0079 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 355, time 247.21, cls_loss 0.0013 cls_loss_mapping 0.0017 cls_loss_causal 0.4696 re_mapping 0.0025 re_causal 0.0078 /// teacc 99.17 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 356, time 247.56, cls_loss 0.0017 cls_loss_mapping 0.0026 cls_loss_causal 0.4666 re_mapping 0.0025 re_causal 0.0077 /// teacc 99.02 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 357, time 247.29, cls_loss 0.0010 cls_loss_mapping 0.0014 cls_loss_causal 0.4475 re_mapping 0.0024 re_causal 0.0075 /// teacc 99.13 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 358, time 247.22, cls_loss 0.0011 cls_loss_mapping 0.0014 cls_loss_causal 0.4710 re_mapping 0.0025 re_causal 0.0077 /// teacc 99.17 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 359, time 247.26, cls_loss 0.0011 cls_loss_mapping 0.0012 cls_loss_causal 0.4392 re_mapping 0.0024 re_causal 0.0073 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 360, time 247.41, cls_loss 0.0011 cls_loss_mapping 0.0013 cls_loss_causal 0.4256 re_mapping 0.0024 re_causal 0.0071 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 361, time 247.29, cls_loss 0.0011 cls_loss_mapping 0.0011 cls_loss_causal 0.4301 re_mapping 0.0024 re_causal 0.0072 /// teacc 99.03 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 362, time 247.23, cls_loss 0.0012 cls_loss_mapping 0.0020 cls_loss_causal 0.4589 re_mapping 0.0024 re_causal 0.0072 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 363, time 247.09, cls_loss 0.0012 cls_loss_mapping 0.0018 cls_loss_causal 0.4652 re_mapping 0.0026 re_causal 0.0077 /// teacc 99.02 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 364, time 246.92, cls_loss 0.0014 cls_loss_mapping 0.0011 cls_loss_causal 0.4869 re_mapping 0.0024 re_causal 0.0071 /// teacc 99.02 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 365, time 247.20, cls_loss 0.0020 cls_loss_mapping 0.0026 cls_loss_causal 0.4712 re_mapping 0.0024 re_causal 0.0072 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 366, time 247.23, cls_loss 0.0011 cls_loss_mapping 0.0017 cls_loss_causal 0.4724 re_mapping 0.0025 re_causal 0.0078 /// teacc 99.08 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 367, time 247.13, cls_loss 0.0015 cls_loss_mapping 0.0021 cls_loss_causal 0.4755 re_mapping 0.0023 re_causal 0.0072 /// teacc 99.08 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 368, time 247.27, cls_loss 0.0020 cls_loss_mapping 0.0022 cls_loss_causal 0.4718 re_mapping 0.0024 re_causal 0.0073 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 369, time 247.12, cls_loss 0.0019 cls_loss_mapping 0.0024 cls_loss_causal 0.4716 re_mapping 0.0025 re_causal 0.0074 /// teacc 99.00 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 370, time 246.83, cls_loss 0.0014 cls_loss_mapping 0.0017 cls_loss_causal 0.4717 re_mapping 0.0026 re_causal 0.0074 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 371, time 246.80, cls_loss 0.0009 cls_loss_mapping 0.0011 cls_loss_causal 0.4637 re_mapping 0.0024 re_causal 0.0076 /// teacc 99.11 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 372, time 246.84, cls_loss 0.0010 cls_loss_mapping 0.0013 cls_loss_causal 0.4744 re_mapping 0.0026 re_causal 0.0080 /// teacc 99.01 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 373, time 246.58, cls_loss 0.0011 cls_loss_mapping 0.0014 cls_loss_causal 0.4420 re_mapping 0.0024 re_causal 0.0071 /// teacc 99.03 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 374, time 246.67, cls_loss 0.0012 cls_loss_mapping 0.0014 cls_loss_causal 0.4422 re_mapping 0.0024 re_causal 0.0072 /// teacc 99.01 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 375, time 246.70, cls_loss 0.0011 cls_loss_mapping 0.0012 cls_loss_causal 0.4266 re_mapping 0.0024 re_causal 0.0072 /// teacc 98.94 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 376, time 247.08, cls_loss 0.0013 cls_loss_mapping 0.0017 cls_loss_causal 0.4453 re_mapping 0.0023 re_causal 0.0071 /// teacc 98.97 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 377, time 247.12, cls_loss 0.0011 cls_loss_mapping 0.0016 cls_loss_causal 0.4735 re_mapping 0.0024 re_causal 0.0076 /// teacc 99.01 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 378, time 247.23, cls_loss 0.0013 cls_loss_mapping 0.0014 cls_loss_causal 0.4365 re_mapping 0.0022 re_causal 0.0070 /// teacc 99.05 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 379, time 247.06, cls_loss 0.0012 cls_loss_mapping 0.0018 cls_loss_causal 0.4635 re_mapping 0.0023 re_causal 0.0070 /// teacc 99.01 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 380, time 247.45, cls_loss 0.0008 cls_loss_mapping 0.0011 cls_loss_causal 0.4711 re_mapping 0.0024 re_causal 0.0078 /// teacc 98.98 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 381, time 247.57, cls_loss 0.0011 cls_loss_mapping 0.0013 cls_loss_causal 0.4574 re_mapping 0.0022 re_causal 0.0069 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 382, time 247.44, cls_loss 0.0013 cls_loss_mapping 0.0023 cls_loss_causal 0.4559 re_mapping 0.0024 re_causal 0.0072 /// teacc 99.07 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 383, time 247.33, cls_loss 0.0013 cls_loss_mapping 0.0031 cls_loss_causal 0.4570 re_mapping 0.0026 re_causal 0.0074 /// teacc 98.99 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 384, time 247.28, cls_loss 0.0020 cls_loss_mapping 0.0025 cls_loss_causal 0.4635 re_mapping 0.0024 re_causal 0.0074 /// teacc 98.94 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 385, time 247.44, cls_loss 0.0013 cls_loss_mapping 0.0017 cls_loss_causal 0.4457 re_mapping 0.0024 re_causal 0.0070 /// teacc 99.00 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 386, time 247.08, cls_loss 0.0013 cls_loss_mapping 0.0015 cls_loss_causal 0.4753 re_mapping 0.0022 re_causal 0.0070 /// teacc 99.05 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 387, time 247.01, cls_loss 0.0013 cls_loss_mapping 0.0018 cls_loss_causal 0.4634 re_mapping 0.0025 re_causal 0.0076 /// teacc 99.02 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 388, time 247.20, cls_loss 0.0011 cls_loss_mapping 0.0015 cls_loss_causal 0.4897 re_mapping 0.0023 re_causal 0.0072 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 389, time 247.17, cls_loss 0.0012 cls_loss_mapping 0.0020 cls_loss_causal 0.4658 re_mapping 0.0022 re_causal 0.0068 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 390, time 247.07, cls_loss 0.0011 cls_loss_mapping 0.0015 cls_loss_causal 0.4615 re_mapping 0.0023 re_causal 0.0072 /// teacc 99.13 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 391, time 247.09, cls_loss 0.0013 cls_loss_mapping 0.0020 cls_loss_causal 0.4522 re_mapping 0.0022 re_causal 0.0068 /// teacc 99.10 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 392, time 247.11, cls_loss 0.0011 cls_loss_mapping 0.0015 cls_loss_causal 0.4690 re_mapping 0.0023 re_causal 0.0074 /// teacc 99.09 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 393, time 246.80, cls_loss 0.0009 cls_loss_mapping 0.0013 cls_loss_causal 0.4457 re_mapping 0.0024 re_causal 0.0075 /// teacc 99.14 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 394, time 247.16, cls_loss 0.0011 cls_loss_mapping 0.0013 cls_loss_causal 0.4379 re_mapping 0.0024 re_causal 0.0072 /// teacc 99.01 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 395, time 247.64, cls_loss 0.0012 cls_loss_mapping 0.0014 cls_loss_causal 0.4345 re_mapping 0.0024 re_causal 0.0074 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 396, time 247.37, cls_loss 0.0011 cls_loss_mapping 0.0015 cls_loss_causal 0.4401 re_mapping 0.0024 re_causal 0.0072 /// teacc 99.07 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 397, time 247.54, cls_loss 0.0011 cls_loss_mapping 0.0015 cls_loss_causal 0.4345 re_mapping 0.0022 re_causal 0.0070 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 398, time 247.34, cls_loss 0.0010 cls_loss_mapping 0.0011 cls_loss_causal 0.4310 re_mapping 0.0023 re_causal 0.0071 /// teacc 99.16 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 399, time 246.86, cls_loss 0.0008 cls_loss_mapping 0.0010 cls_loss_causal 0.4484 re_mapping 0.0023 re_causal 0.0074 /// teacc 99.11 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 400, time 247.11, cls_loss 0.0010 cls_loss_mapping 0.0015 cls_loss_causal 0.4272 re_mapping 0.0023 re_causal 0.0071 /// teacc 99.14 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 401, time 247.02, cls_loss 0.0009 cls_loss_mapping 0.0009 cls_loss_causal 0.4241 re_mapping 0.0022 re_causal 0.0068 /// teacc 99.22 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 402, time 247.20, cls_loss 0.0009 cls_loss_mapping 0.0007 cls_loss_causal 0.4582 re_mapping 0.0020 re_causal 0.0069 /// teacc 99.17 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 403, time 247.43, cls_loss 0.0009 cls_loss_mapping 0.0007 cls_loss_causal 0.4785 re_mapping 0.0020 re_causal 0.0071 /// teacc 99.22 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 404, time 246.87, cls_loss 0.0009 cls_loss_mapping 0.0006 cls_loss_causal 0.4336 re_mapping 0.0020 re_causal 0.0066 /// teacc 99.22 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 405, time 247.03, cls_loss 0.0008 cls_loss_mapping 0.0005 cls_loss_causal 0.4119 re_mapping 0.0019 re_causal 0.0066 /// teacc 99.18 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 406, time 247.20, cls_loss 0.0009 cls_loss_mapping 0.0006 cls_loss_causal 0.4492 re_mapping 0.0020 re_causal 0.0067 /// teacc 99.19 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 407, time 247.14, cls_loss 0.0008 cls_loss_mapping 0.0005 cls_loss_causal 0.4428 re_mapping 0.0019 re_causal 0.0067 /// teacc 99.21 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 408, time 246.95, cls_loss 0.0008 cls_loss_mapping 0.0006 cls_loss_causal 0.4292 re_mapping 0.0019 re_causal 0.0065 /// teacc 99.19 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 409, time 247.07, cls_loss 0.0009 cls_loss_mapping 0.0006 cls_loss_causal 0.4267 re_mapping 0.0019 re_causal 0.0063 /// teacc 99.21 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 410, time 246.79, cls_loss 0.0008 cls_loss_mapping 0.0005 cls_loss_causal 0.4532 re_mapping 0.0019 re_causal 0.0067 /// teacc 99.20 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 411, time 247.28, cls_loss 0.0008 cls_loss_mapping 0.0005 cls_loss_causal 0.4191 re_mapping 0.0018 re_causal 0.0065 /// teacc 99.22 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 412, time 247.11, cls_loss 0.0007 cls_loss_mapping 0.0005 cls_loss_causal 0.4227 re_mapping 0.0019 re_causal 0.0066 /// teacc 99.24 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 413, time 247.24, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4239 re_mapping 0.0019 re_causal 0.0067 /// teacc 99.24 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 414, time 246.99, cls_loss 0.0008 cls_loss_mapping 0.0005 cls_loss_causal 0.4236 re_mapping 0.0018 re_causal 0.0064 /// teacc 99.25 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 415, time 247.09, cls_loss 0.0008 cls_loss_mapping 0.0005 cls_loss_causal 0.4173 re_mapping 0.0018 re_causal 0.0064 /// teacc 99.22 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 416, time 246.96, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4130 re_mapping 0.0019 re_causal 0.0066 /// teacc 99.25 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 417, time 247.21, cls_loss 0.0008 cls_loss_mapping 0.0005 cls_loss_causal 0.4219 re_mapping 0.0018 re_causal 0.0064 /// teacc 99.23 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 418, time 247.16, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4107 re_mapping 0.0018 re_causal 0.0064 /// teacc 99.26 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 419, time 247.16, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4217 re_mapping 0.0018 re_causal 0.0064 /// teacc 99.21 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 420, time 247.03, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4252 re_mapping 0.0017 re_causal 0.0063 /// teacc 99.22 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 421, time 246.83, cls_loss 0.0008 cls_loss_mapping 0.0005 cls_loss_causal 0.4170 re_mapping 0.0017 re_causal 0.0063 /// teacc 99.23 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 422, time 247.05, cls_loss 0.0007 cls_loss_mapping 0.0005 cls_loss_causal 0.4611 re_mapping 0.0017 re_causal 0.0067 /// teacc 99.22 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 423, time 247.12, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4178 re_mapping 0.0017 re_causal 0.0064 /// teacc 99.23 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 424, time 246.46, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4336 re_mapping 0.0017 re_causal 0.0063 /// teacc 99.24 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 425, time 246.57, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4000 re_mapping 0.0017 re_causal 0.0060 /// teacc 99.24 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 426, time 246.61, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4221 re_mapping 0.0017 re_causal 0.0062 /// teacc 99.24 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 427, time 246.74, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4261 re_mapping 0.0016 re_causal 0.0063 /// teacc 99.24 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 428, time 247.08, cls_loss 0.0008 cls_loss_mapping 0.0005 cls_loss_causal 0.4231 re_mapping 0.0017 re_causal 0.0062 /// teacc 99.20 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 429, time 247.14, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4139 re_mapping 0.0016 re_causal 0.0061 /// teacc 99.22 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 430, time 247.05, cls_loss 0.0008 cls_loss_mapping 0.0005 cls_loss_causal 0.4485 re_mapping 0.0016 re_causal 0.0062 /// teacc 99.22 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 431, time 246.93, cls_loss 0.0008 cls_loss_mapping 0.0005 cls_loss_causal 0.3967 re_mapping 0.0016 re_causal 0.0059 /// teacc 99.21 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 432, time 246.91, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4022 re_mapping 0.0016 re_causal 0.0060 /// teacc 99.25 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 433, time 246.92, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4053 re_mapping 0.0016 re_causal 0.0062 /// teacc 99.25 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 434, time 246.75, cls_loss 0.0006 cls_loss_mapping 0.0003 cls_loss_causal 0.4163 re_mapping 0.0017 re_causal 0.0063 /// teacc 99.24 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 435, time 247.10, cls_loss 0.0007 cls_loss_mapping 0.0003 cls_loss_causal 0.4253 re_mapping 0.0016 re_causal 0.0062 /// teacc 99.20 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 436, time 247.14, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4303 re_mapping 0.0016 re_causal 0.0060 /// teacc 99.20 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 437, time 246.97, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4144 re_mapping 0.0016 re_causal 0.0060 /// teacc 99.23 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 438, time 247.00, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4147 re_mapping 0.0016 re_causal 0.0062 /// teacc 99.25 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 439, time 247.17, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4282 re_mapping 0.0016 re_causal 0.0063 /// teacc 99.25 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 440, time 246.86, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.3817 re_mapping 0.0016 re_causal 0.0060 /// teacc 99.21 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 441, time 246.73, cls_loss 0.0007 cls_loss_mapping 0.0003 cls_loss_causal 0.4127 re_mapping 0.0016 re_causal 0.0061 /// teacc 99.24 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 442, time 247.03, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4147 re_mapping 0.0016 re_causal 0.0061 /// teacc 99.24 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 443, time 247.06, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4173 re_mapping 0.0016 re_causal 0.0062 /// teacc 99.26 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 444, time 246.70, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4060 re_mapping 0.0016 re_causal 0.0060 /// teacc 99.27 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 445, time 246.69, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.3875 re_mapping 0.0016 re_causal 0.0061 /// teacc 99.25 lr 0.00001000
+100
+1e-05
+changing lr
+---------------------saving model at epoch 446----------------------------------------------------
+epoch 446, time 247.46, cls_loss 0.0006 cls_loss_mapping 0.0003 cls_loss_causal 0.4331 re_mapping 0.0016 re_causal 0.0063 /// teacc 99.28 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 447, time 246.73, cls_loss 0.0006 cls_loss_mapping 0.0003 cls_loss_causal 0.4148 re_mapping 0.0016 re_causal 0.0063 /// teacc 99.28 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 448, time 247.05, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4421 re_mapping 0.0016 re_causal 0.0062 /// teacc 99.26 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 449, time 246.60, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.3929 re_mapping 0.0015 re_causal 0.0059 /// teacc 99.27 lr 0.00001000
+100
+1e-05
+changing lr
+---------------------saving model at epoch 450----------------------------------------------------
+epoch 450, time 247.44, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4173 re_mapping 0.0016 re_causal 0.0060 /// teacc 99.31 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 451, time 246.85, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4352 re_mapping 0.0016 re_causal 0.0062 /// teacc 99.26 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 452, time 246.56, cls_loss 0.0008 cls_loss_mapping 0.0005 cls_loss_causal 0.4248 re_mapping 0.0015 re_causal 0.0058 /// teacc 99.27 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 453, time 246.71, cls_loss 0.0008 cls_loss_mapping 0.0005 cls_loss_causal 0.4208 re_mapping 0.0015 re_causal 0.0059 /// teacc 99.23 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 454, time 247.02, cls_loss 0.0009 cls_loss_mapping 0.0005 cls_loss_causal 0.4349 re_mapping 0.0015 re_causal 0.0059 /// teacc 99.22 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 455, time 246.71, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4133 re_mapping 0.0015 re_causal 0.0059 /// teacc 99.26 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 456, time 246.84, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4097 re_mapping 0.0015 re_causal 0.0060 /// teacc 99.25 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 457, time 246.87, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.3905 re_mapping 0.0015 re_causal 0.0058 /// teacc 99.26 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 458, time 246.86, cls_loss 0.0007 cls_loss_mapping 0.0003 cls_loss_causal 0.3884 re_mapping 0.0016 re_causal 0.0060 /// teacc 99.25 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 459, time 246.68, cls_loss 0.0006 cls_loss_mapping 0.0003 cls_loss_causal 0.3983 re_mapping 0.0016 re_causal 0.0060 /// teacc 99.25 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 460, time 246.95, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4410 re_mapping 0.0016 re_causal 0.0062 /// teacc 99.23 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 461, time 246.76, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4042 re_mapping 0.0015 re_causal 0.0059 /// teacc 99.26 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 462, time 247.25, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4222 re_mapping 0.0016 re_causal 0.0060 /// teacc 99.27 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 463, time 247.13, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4288 re_mapping 0.0015 re_causal 0.0057 /// teacc 99.26 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 464, time 247.10, cls_loss 0.0010 cls_loss_mapping 0.0005 cls_loss_causal 0.4350 re_mapping 0.0015 re_causal 0.0057 /// teacc 99.23 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 465, time 247.08, cls_loss 0.0009 cls_loss_mapping 0.0005 cls_loss_causal 0.4409 re_mapping 0.0014 re_causal 0.0057 /// teacc 99.29 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 466, time 246.90, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.3901 re_mapping 0.0015 re_causal 0.0056 /// teacc 99.28 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 467, time 247.04, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4076 re_mapping 0.0015 re_causal 0.0057 /// teacc 99.27 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 468, time 246.84, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.3978 re_mapping 0.0015 re_causal 0.0056 /// teacc 99.28 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 469, time 246.98, cls_loss 0.0008 cls_loss_mapping 0.0005 cls_loss_causal 0.4259 re_mapping 0.0015 re_causal 0.0057 /// teacc 99.23 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 470, time 246.99, cls_loss 0.0009 cls_loss_mapping 0.0005 cls_loss_causal 0.4459 re_mapping 0.0014 re_causal 0.0056 /// teacc 99.26 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 471, time 247.05, cls_loss 0.0009 cls_loss_mapping 0.0005 cls_loss_causal 0.4229 re_mapping 0.0014 re_causal 0.0056 /// teacc 99.24 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 472, time 246.98, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4319 re_mapping 0.0014 re_causal 0.0058 /// teacc 99.25 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 473, time 246.98, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4292 re_mapping 0.0014 re_causal 0.0058 /// teacc 99.23 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 474, time 247.17, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4197 re_mapping 0.0015 re_causal 0.0059 /// teacc 99.27 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 475, time 247.03, cls_loss 0.0007 cls_loss_mapping 0.0003 cls_loss_causal 0.3734 re_mapping 0.0015 re_causal 0.0057 /// teacc 99.29 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 476, time 247.30, cls_loss 0.0006 cls_loss_mapping 0.0003 cls_loss_causal 0.3885 re_mapping 0.0015 re_causal 0.0059 /// teacc 99.28 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 477, time 248.54, cls_loss 0.0007 cls_loss_mapping 0.0003 cls_loss_causal 0.4097 re_mapping 0.0015 re_causal 0.0059 /// teacc 99.24 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 478, time 247.02, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4113 re_mapping 0.0014 re_causal 0.0057 /// teacc 99.23 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 479, time 247.12, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.3727 re_mapping 0.0014 re_causal 0.0054 /// teacc 99.25 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 480, time 246.85, cls_loss 0.0007 cls_loss_mapping 0.0003 cls_loss_causal 0.4400 re_mapping 0.0015 re_causal 0.0060 /// teacc 99.26 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 481, time 246.83, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4142 re_mapping 0.0015 re_causal 0.0058 /// teacc 99.22 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 482, time 246.97, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4060 re_mapping 0.0014 re_causal 0.0056 /// teacc 99.24 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 483, time 246.78, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4004 re_mapping 0.0014 re_causal 0.0055 /// teacc 99.26 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 484, time 246.96, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4422 re_mapping 0.0015 re_causal 0.0058 /// teacc 99.28 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 485, time 246.70, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.3912 re_mapping 0.0014 re_causal 0.0055 /// teacc 99.27 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 486, time 247.02, cls_loss 0.0006 cls_loss_mapping 0.0003 cls_loss_causal 0.3976 re_mapping 0.0014 re_causal 0.0056 /// teacc 99.26 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 487, time 246.77, cls_loss 0.0006 cls_loss_mapping 0.0003 cls_loss_causal 0.4313 re_mapping 0.0015 re_causal 0.0060 /// teacc 99.26 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 488, time 246.95, cls_loss 0.0007 cls_loss_mapping 0.0003 cls_loss_causal 0.4221 re_mapping 0.0015 re_causal 0.0059 /// teacc 99.27 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 489, time 246.76, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4082 re_mapping 0.0014 re_causal 0.0056 /// teacc 99.25 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 490, time 246.83, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4112 re_mapping 0.0014 re_causal 0.0056 /// teacc 99.21 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 491, time 246.79, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.3886 re_mapping 0.0015 re_causal 0.0055 /// teacc 99.21 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 492, time 246.78, cls_loss 0.0006 cls_loss_mapping 0.0003 cls_loss_causal 0.4168 re_mapping 0.0015 re_causal 0.0058 /// teacc 99.21 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 493, time 246.88, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4221 re_mapping 0.0014 re_causal 0.0057 /// teacc 99.20 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 494, time 246.71, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4312 re_mapping 0.0015 re_causal 0.0058 /// teacc 99.19 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 495, time 246.90, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4413 re_mapping 0.0014 re_causal 0.0059 /// teacc 99.21 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 496, time 246.63, cls_loss 0.0009 cls_loss_mapping 0.0004 cls_loss_causal 0.4036 re_mapping 0.0014 re_causal 0.0056 /// teacc 99.22 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 497, time 246.91, cls_loss 0.0009 cls_loss_mapping 0.0004 cls_loss_causal 0.4220 re_mapping 0.0014 re_causal 0.0057 /// teacc 99.18 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 498, time 247.19, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4161 re_mapping 0.0014 re_causal 0.0056 /// teacc 99.17 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 499, time 247.07, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.3912 re_mapping 0.0014 re_causal 0.0056 /// teacc 99.19 lr 0.00001000
+---------------------saving last model at epoch 499----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_ReProduceMetaCausal', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_ReProduceMetaCausal/14factor_best.csv', 'channels': 3, 'factor_num': 14, 'stride': 3, 'epoch': 'best', 'eval_mapping': True}
+loading weight of best
+randm: False
+stride: 3
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+Using downloaded and verified file: /home/yuqian_fu/.pytorch/SVHN/test_32x32.mat
diff --git a/Meta-causal/code-withStyleAttack/56720.error b/Meta-causal/code-withStyleAttack/56720.error
new file mode 100644
index 0000000000000000000000000000000000000000..4c741962fda5fd145618ae7373555295b05ff9de
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/56720.error
@@ -0,0 +1 @@
+run_my_joint_v13_test.sh: line 28: andn}: command not found
diff --git a/Meta-causal/code-withStyleAttack/56720.log b/Meta-causal/code-withStyleAttack/56720.log
new file mode 100644
index 0000000000000000000000000000000000000000..5e281586589ea1303704167b5264e28ec7b696f5
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/56720.log
@@ -0,0 +1,336 @@
+/home/yuqian_fu
+{'gpu': '0', 'data': 'cartoon', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 5, 'factor_num': 16, 'epochs': 70, 'nbatch': 100, 'batchsize': 6, 'lr': 0.01, 'lr_scheduler': 'cosine', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//cartoon/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_ReProduceMetaCausal', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 5
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_train.hdf5 torch.Size([2107, 3, 227, 227]) torch.Size([2107])
+--------------------------CA_multiple--------------------------
+---------------------------16 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_val.hdf5 torch.Size([237, 3, 227, 227]) torch.Size([237])
+-------------------------------------loading pretrain weights----------------------------------
+351
+0.01
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 500.68, cls_loss 5.0126 cls_loss_mapping 1.4019 cls_loss_causal 1.7210 re_mapping 1.0578 re_causal 1.0584 /// teacc 83.12 lr 0.00999497
+351
+0.009994965332706574
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 530.56, cls_loss 2.0306 cls_loss_mapping 0.7946 cls_loss_causal 1.3288 re_mapping 0.6527 re_causal 0.6538 /// teacc 87.76 lr 0.00997987
+351
+0.009979871469976196
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 536.46, cls_loss 0.6382 cls_loss_mapping 0.4834 cls_loss_causal 1.1278 re_mapping 0.3952 re_causal 0.3957 /// teacc 91.98 lr 0.00995475
+351
+0.009954748808839675
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 514.73, cls_loss 0.2115 cls_loss_mapping 0.3043 cls_loss_causal 0.9479 re_mapping 0.2605 re_causal 0.2608 /// teacc 92.41 lr 0.00991965
+351
+0.009919647942993149
+changing lr
+epoch 4, time 518.58, cls_loss 0.1048 cls_loss_mapping 0.2504 cls_loss_causal 0.8913 re_mapping 0.2075 re_causal 0.2080 /// teacc 92.41 lr 0.00987464
+351
+0.009874639560909117
+changing lr
+---------------------saving model at epoch 5----------------------------------------------------
+epoch 5, time 522.88, cls_loss 0.0517 cls_loss_mapping 0.2038 cls_loss_causal 0.8571 re_mapping 0.1746 re_causal 0.1753 /// teacc 95.36 lr 0.00981981
+351
+0.009819814303479266
+changing lr
+epoch 6, time 515.51, cls_loss 0.0244 cls_loss_mapping 0.1830 cls_loss_causal 0.7905 re_mapping 0.1502 re_causal 0.1512 /// teacc 94.51 lr 0.00975528
+351
+0.009755282581475767
+changing lr
+epoch 7, time 516.68, cls_loss 0.0226 cls_loss_mapping 0.1536 cls_loss_causal 0.7386 re_mapping 0.1335 re_causal 0.1347 /// teacc 94.94 lr 0.00968117
+351
+0.009681174353198686
+changing lr
+epoch 8, time 512.83, cls_loss 0.0311 cls_loss_mapping 0.1488 cls_loss_causal 0.7284 re_mapping 0.1200 re_causal 0.1218 /// teacc 91.56 lr 0.00959764
+351
+0.009597638862757255
+changing lr
+---------------------saving model at epoch 9----------------------------------------------------
+epoch 9, time 515.75, cls_loss 0.0257 cls_loss_mapping 0.1258 cls_loss_causal 0.7038 re_mapping 0.1090 re_causal 0.1110 /// teacc 95.78 lr 0.00950484
+351
+0.009504844339512096
+changing lr
+epoch 10, time 508.97, cls_loss 0.0086 cls_loss_mapping 0.1049 cls_loss_causal 0.7078 re_mapping 0.0973 re_causal 0.0997 /// teacc 94.09 lr 0.00940298
+351
+0.009402977659283692
+changing lr
+epoch 11, time 522.72, cls_loss 0.0121 cls_loss_mapping 0.1017 cls_loss_causal 0.6880 re_mapping 0.0899 re_causal 0.0929 /// teacc 95.36 lr 0.00929224
+351
+0.009292243968009333
+changing lr
+epoch 12, time 511.13, cls_loss 0.0138 cls_loss_mapping 0.0946 cls_loss_causal 0.7011 re_mapping 0.0820 re_causal 0.0855 /// teacc 94.94 lr 0.00917287
+351
+0.009172866268606516
+changing lr
+epoch 13, time 522.62, cls_loss 0.0104 cls_loss_mapping 0.0844 cls_loss_causal 0.6675 re_mapping 0.0747 re_causal 0.0784 /// teacc 94.51 lr 0.00904508
+351
+0.00904508497187474
+changing lr
+epoch 14, time 530.18, cls_loss 0.0122 cls_loss_mapping 0.0736 cls_loss_causal 0.6363 re_mapping 0.0698 re_causal 0.0745 /// teacc 95.78 lr 0.00890916
+351
+0.008909157412340152
+changing lr
+epoch 15, time 513.03, cls_loss 0.0108 cls_loss_mapping 0.0735 cls_loss_causal 0.6055 re_mapping 0.0623 re_causal 0.0673 /// teacc 94.94 lr 0.00876536
+351
+0.00876535733001806
+changing lr
+---------------------saving model at epoch 16----------------------------------------------------
+epoch 16, time 515.62, cls_loss 0.0097 cls_loss_mapping 0.0626 cls_loss_causal 0.6328 re_mapping 0.0572 re_causal 0.0629 /// teacc 97.05 lr 0.00861397
+351
+0.008613974319136962
+changing lr
+epoch 17, time 534.26, cls_loss 0.0145 cls_loss_mapping 0.0706 cls_loss_causal 0.6484 re_mapping 0.0533 re_causal 0.0603 /// teacc 96.20 lr 0.00845531
+351
+0.008455313244934327
+changing lr
+epoch 18, time 532.03, cls_loss 0.0106 cls_loss_mapping 0.0571 cls_loss_causal 0.5705 re_mapping 0.0492 re_causal 0.0567 /// teacc 96.62 lr 0.00828969
+351
+0.008289693629698565
+changing lr
+epoch 19, time 518.07, cls_loss 0.0076 cls_loss_mapping 0.0474 cls_loss_causal 0.5525 re_mapping 0.0441 re_causal 0.0513 /// teacc 95.78 lr 0.00811745
+351
+0.00811744900929367
+changing lr
+epoch 20, time 530.26, cls_loss 0.0081 cls_loss_mapping 0.0546 cls_loss_causal 0.5926 re_mapping 0.0409 re_causal 0.0491 /// teacc 97.05 lr 0.00793893
+351
+0.007938926261462368
+changing lr
+epoch 21, time 534.00, cls_loss 0.0104 cls_loss_mapping 0.0511 cls_loss_causal 0.5469 re_mapping 0.0373 re_causal 0.0451 /// teacc 95.78 lr 0.00775448
+351
+0.007754484907260515
+changing lr
+epoch 22, time 534.87, cls_loss 0.0148 cls_loss_mapping 0.0474 cls_loss_causal 0.5694 re_mapping 0.0353 re_causal 0.0430 /// teacc 95.36 lr 0.00756450
+351
+0.007564496387029534
+changing lr
+epoch 23, time 515.04, cls_loss 0.0053 cls_loss_mapping 0.0395 cls_loss_causal 0.5557 re_mapping 0.0324 re_causal 0.0409 /// teacc 96.62 lr 0.00736934
+351
+0.007369343312364995
+changing lr
+epoch 24, time 527.73, cls_loss 0.0083 cls_loss_mapping 0.0487 cls_loss_causal 0.5594 re_mapping 0.0306 re_causal 0.0402 /// teacc 94.94 lr 0.00716942
+351
+0.0071694186955877925
+changing lr
+epoch 25, time 521.10, cls_loss 0.0080 cls_loss_mapping 0.0392 cls_loss_causal 0.5600 re_mapping 0.0291 re_causal 0.0390 /// teacc 97.05 lr 0.00696513
+351
+0.0069651251582696205
+changing lr
+epoch 26, time 528.30, cls_loss 0.0054 cls_loss_mapping 0.0316 cls_loss_causal 0.5380 re_mapping 0.0270 re_causal 0.0366 /// teacc 96.20 lr 0.00675687
+351
+0.006756874120406716
+changing lr
+epoch 27, time 526.16, cls_loss 0.0075 cls_loss_mapping 0.0354 cls_loss_causal 0.5384 re_mapping 0.0251 re_causal 0.0347 /// teacc 97.05 lr 0.00654508
+351
+0.00654508497187474
+changing lr
+epoch 28, time 520.46, cls_loss 0.0066 cls_loss_mapping 0.0281 cls_loss_causal 0.5043 re_mapping 0.0240 re_causal 0.0354 /// teacc 96.62 lr 0.00633018
+351
+0.006330184227833378
+changing lr
+epoch 29, time 536.80, cls_loss 0.0074 cls_loss_mapping 0.0305 cls_loss_causal 0.5296 re_mapping 0.0227 re_causal 0.0341 /// teacc 95.78 lr 0.00611260
+351
+0.006112604669781575
+changing lr
+epoch 30, time 530.96, cls_loss 0.0062 cls_loss_mapping 0.0301 cls_loss_causal 0.5251 re_mapping 0.0214 re_causal 0.0317 /// teacc 96.20 lr 0.00589278
+351
+0.005892784473993186
+changing lr
+epoch 31, time 528.74, cls_loss 0.0051 cls_loss_mapping 0.0263 cls_loss_causal 0.5350 re_mapping 0.0205 re_causal 0.0317 /// teacc 96.20 lr 0.00567117
+351
+0.00567116632908828
+changing lr
+---------------------saving model at epoch 32----------------------------------------------------
+epoch 32, time 517.42, cls_loss 0.0051 cls_loss_mapping 0.0225 cls_loss_causal 0.5060 re_mapping 0.0197 re_causal 0.0305 /// teacc 97.47 lr 0.00544820
+351
+0.00544819654451717
+changing lr
+---------------------saving model at epoch 33----------------------------------------------------
+epoch 33, time 532.29, cls_loss 0.0050 cls_loss_mapping 0.0196 cls_loss_causal 0.5099 re_mapping 0.0185 re_causal 0.0291 /// teacc 97.89 lr 0.00522432
+351
+0.005224324151752577
+changing lr
+epoch 34, time 521.23, cls_loss 0.0079 cls_loss_mapping 0.0235 cls_loss_causal 0.5058 re_mapping 0.0177 re_causal 0.0285 /// teacc 97.89 lr 0.00500000
+351
+0.005000000000000003
+changing lr
+epoch 35, time 521.42, cls_loss 0.0054 cls_loss_mapping 0.0236 cls_loss_causal 0.4683 re_mapping 0.0178 re_causal 0.0281 /// teacc 97.05 lr 0.00477568
+351
+0.004775675848247429
+changing lr
+epoch 36, time 526.29, cls_loss 0.0057 cls_loss_mapping 0.0231 cls_loss_causal 0.5159 re_mapping 0.0172 re_causal 0.0278 /// teacc 97.05 lr 0.00455180
+351
+0.004551803455482836
+changing lr
+epoch 37, time 535.59, cls_loss 0.0063 cls_loss_mapping 0.0199 cls_loss_causal 0.4658 re_mapping 0.0163 re_causal 0.0267 /// teacc 97.47 lr 0.00432883
+351
+0.004328833670911726
+changing lr
+epoch 38, time 512.58, cls_loss 0.0045 cls_loss_mapping 0.0199 cls_loss_causal 0.4925 re_mapping 0.0155 re_causal 0.0258 /// teacc 97.05 lr 0.00410722
+351
+0.0041072155260068206
+changing lr
+epoch 39, time 532.69, cls_loss 0.0056 cls_loss_mapping 0.0220 cls_loss_causal 0.4772 re_mapping 0.0150 re_causal 0.0253 /// teacc 97.47 lr 0.00388740
+351
+0.0038873953302184317
+changing lr
+epoch 40, time 536.18, cls_loss 0.0044 cls_loss_mapping 0.0185 cls_loss_causal 0.4992 re_mapping 0.0146 re_causal 0.0241 /// teacc 97.47 lr 0.00366982
+351
+0.003669815772166629
+changing lr
+epoch 41, time 531.87, cls_loss 0.0044 cls_loss_mapping 0.0147 cls_loss_causal 0.4840 re_mapping 0.0144 re_causal 0.0246 /// teacc 97.89 lr 0.00345492
+351
+0.0034549150281252667
+changing lr
+---------------------saving model at epoch 42----------------------------------------------------
+epoch 42, time 509.65, cls_loss 0.0045 cls_loss_mapping 0.0164 cls_loss_causal 0.4600 re_mapping 0.0136 re_causal 0.0224 /// teacc 98.31 lr 0.00324313
+351
+0.0032431258795932905
+changing lr
+epoch 43, time 520.56, cls_loss 0.0051 cls_loss_mapping 0.0169 cls_loss_causal 0.5021 re_mapping 0.0137 re_causal 0.0235 /// teacc 97.47 lr 0.00303487
+351
+0.0030348748417303863
+changing lr
+---------------------saving model at epoch 44----------------------------------------------------
+epoch 44, time 532.35, cls_loss 0.0042 cls_loss_mapping 0.0153 cls_loss_causal 0.4512 re_mapping 0.0131 re_causal 0.0230 /// teacc 98.73 lr 0.00283058
+351
+0.0028305813044122124
+changing lr
+epoch 45, time 523.83, cls_loss 0.0053 cls_loss_mapping 0.0159 cls_loss_causal 0.4523 re_mapping 0.0130 re_causal 0.0219 /// teacc 97.89 lr 0.00263066
+351
+0.0026306566876350096
+changing lr
+epoch 46, time 536.05, cls_loss 0.0050 cls_loss_mapping 0.0148 cls_loss_causal 0.4521 re_mapping 0.0125 re_causal 0.0215 /// teacc 96.62 lr 0.00243550
+351
+0.0024355036129704724
+changing lr
+epoch 47, time 509.13, cls_loss 0.0043 cls_loss_mapping 0.0159 cls_loss_causal 0.4864 re_mapping 0.0121 re_causal 0.0214 /// teacc 97.89 lr 0.00224552
+351
+0.00224551509273949
+changing lr
+epoch 48, time 524.58, cls_loss 0.0037 cls_loss_mapping 0.0109 cls_loss_causal 0.4474 re_mapping 0.0120 re_causal 0.0208 /// teacc 98.31 lr 0.00206107
+351
+0.002061073738537637
+changing lr
+epoch 49, time 517.27, cls_loss 0.0033 cls_loss_mapping 0.0125 cls_loss_causal 0.4527 re_mapping 0.0117 re_causal 0.0205 /// teacc 97.89 lr 0.00188255
+351
+0.0018825509907063344
+changing lr
+epoch 50, time 516.76, cls_loss 0.0039 cls_loss_mapping 0.0142 cls_loss_causal 0.4602 re_mapping 0.0116 re_causal 0.0204 /// teacc 97.47 lr 0.00171031
+351
+0.0017103063703014388
+changing lr
+epoch 51, time 513.81, cls_loss 0.0025 cls_loss_mapping 0.0098 cls_loss_causal 0.4081 re_mapping 0.0116 re_causal 0.0197 /// teacc 98.31 lr 0.00154469
+351
+0.0015446867550656784
+changing lr
+epoch 52, time 514.01, cls_loss 0.0042 cls_loss_mapping 0.0125 cls_loss_causal 0.4603 re_mapping 0.0114 re_causal 0.0195 /// teacc 97.89 lr 0.00138603
+351
+0.001386025680863044
+changing lr
+epoch 53, time 524.35, cls_loss 0.0051 cls_loss_mapping 0.0127 cls_loss_causal 0.4572 re_mapping 0.0111 re_causal 0.0193 /// teacc 97.89 lr 0.00123464
+351
+0.0012346426699819469
+changing lr
+epoch 54, time 514.44, cls_loss 0.0044 cls_loss_mapping 0.0127 cls_loss_causal 0.4353 re_mapping 0.0111 re_causal 0.0187 /// teacc 97.47 lr 0.00109084
+351
+0.0010908425876598518
+changing lr
+epoch 55, time 522.77, cls_loss 0.0037 cls_loss_mapping 0.0112 cls_loss_causal 0.4375 re_mapping 0.0109 re_causal 0.0188 /// teacc 98.31 lr 0.00095492
+351
+0.000954915028125264
+changing lr
+epoch 56, time 523.02, cls_loss 0.0041 cls_loss_mapping 0.0109 cls_loss_causal 0.4403 re_mapping 0.0108 re_causal 0.0186 /// teacc 97.05 lr 0.00082713
+351
+0.0008271337313934874
+changing lr
+epoch 57, time 527.11, cls_loss 0.0028 cls_loss_mapping 0.0091 cls_loss_causal 0.4157 re_mapping 0.0108 re_causal 0.0176 /// teacc 97.47 lr 0.00070776
+351
+0.00070775603199067
+changing lr
+epoch 58, time 504.49, cls_loss 0.0031 cls_loss_mapping 0.0086 cls_loss_causal 0.4095 re_mapping 0.0108 re_causal 0.0171 /// teacc 97.89 lr 0.00059702
+351
+0.0005970223407163104
+changing lr
+epoch 59, time 497.53, cls_loss 0.0053 cls_loss_mapping 0.0115 cls_loss_causal 0.4429 re_mapping 0.0105 re_causal 0.0172 /// teacc 97.05 lr 0.00049516
+351
+0.0004951556604879052
+changing lr
+epoch 60, time 507.85, cls_loss 0.0043 cls_loss_mapping 0.0108 cls_loss_causal 0.4240 re_mapping 0.0103 re_causal 0.0166 /// teacc 98.31 lr 0.00040236
+351
+0.00040236113724274745
+changing lr
+epoch 61, time 489.10, cls_loss 0.0040 cls_loss_mapping 0.0104 cls_loss_causal 0.4613 re_mapping 0.0103 re_causal 0.0175 /// teacc 97.05 lr 0.00031883
+351
+0.00031882564680131423
+changing lr
+epoch 62, time 487.44, cls_loss 0.0040 cls_loss_mapping 0.0101 cls_loss_causal 0.4445 re_mapping 0.0102 re_causal 0.0167 /// teacc 98.31 lr 0.00024472
+351
+0.0002447174185242325
+changing lr
+epoch 63, time 492.60, cls_loss 0.0030 cls_loss_mapping 0.0067 cls_loss_causal 0.3786 re_mapping 0.0102 re_causal 0.0165 /// teacc 97.89 lr 0.00018019
+351
+0.0001801856965207339
+changing lr
+epoch 64, time 493.59, cls_loss 0.0040 cls_loss_mapping 0.0106 cls_loss_causal 0.4459 re_mapping 0.0101 re_causal 0.0165 /// teacc 96.62 lr 0.00012536
+351
+0.000125360439090882
+changing lr
+epoch 65, time 485.22, cls_loss 0.0051 cls_loss_mapping 0.0094 cls_loss_causal 0.4355 re_mapping 0.0101 re_causal 0.0162 /// teacc 97.47 lr 0.00008035
+351
+8.03520570068517e-05
+changing lr
+epoch 66, time 475.77, cls_loss 0.0036 cls_loss_mapping 0.0086 cls_loss_causal 0.4274 re_mapping 0.0101 re_causal 0.0165 /// teacc 97.89 lr 0.00004525
+351
+4.5251191160326525e-05
+changing lr
+epoch 67, time 483.43, cls_loss 0.0043 cls_loss_mapping 0.0107 cls_loss_causal 0.4531 re_mapping 0.0102 re_causal 0.0168 /// teacc 96.62 lr 0.00002013
+351
+2.0128530023804673e-05
+changing lr
+epoch 68, time 484.93, cls_loss 0.0030 cls_loss_mapping 0.0073 cls_loss_causal 0.4376 re_mapping 0.0102 re_causal 0.0166 /// teacc 97.89 lr 0.00000503
+351
+5.034667293427056e-06
+changing lr
+epoch 69, time 479.93, cls_loss 0.0041 cls_loss_mapping 0.0089 cls_loss_causal 0.4412 re_mapping 0.0100 re_causal 0.0165 /// teacc 96.20 lr 0.00000000
+---------------------saving last model at epoch 69----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//cartoon/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_ReProduceMetaCausal', 'source_domain': 'cartoon', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//cartoon/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_ReProduceMetaCausal/cartoon_16factor_last_test_check.csv', 'factor_num': 16, 'epoch': 'last', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of last
+randm: False
+stride: 5
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+columns: ['cartoon', 'art_painting', 'photo', 'sketch']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+                       cartoon  art_painting      photo     sketch        Avg
+w/o do (original x)  99.616041     76.806641  89.700599  72.613897  79.707045
+      cartoon  art_painting      photo     sketch        Avg
+do  99.573379     75.537109  89.760479  73.631967  79.643185
diff --git a/Meta-causal/code-withStyleAttack/56721.error b/Meta-causal/code-withStyleAttack/56721.error
new file mode 100644
index 0000000000000000000000000000000000000000..fd313270a3ba847b383c7eb4ae546600fd872b6a
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/56721.error
@@ -0,0 +1 @@
+run_my_joint_v13_test.sh: line 29: de: command not found
diff --git a/Meta-causal/code-withStyleAttack/56721.log b/Meta-causal/code-withStyleAttack/56721.log
new file mode 100644
index 0000000000000000000000000000000000000000..e0e3660d35bfb4347dcbaf5d7e601b60419518bc
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/56721.log
@@ -0,0 +1,329 @@
+/home/yuqian_fu
+{'gpu': '0', 'data': 'photo', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 5, 'factor_num': 16, 'epochs': 70, 'nbatch': 100, 'batchsize': 6, 'lr': 0.01, 'lr_scheduler': 'cosine', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//photo/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_ReProduceMetaCausal', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 5
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_train.hdf5 torch.Size([1499, 3, 227, 227]) torch.Size([1499])
+--------------------------CA_multiple--------------------------
+---------------------------16 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_val.hdf5 torch.Size([171, 3, 227, 227]) torch.Size([171])
+-------------------------------------loading pretrain weights----------------------------------
+249
+0.01
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 330.26, cls_loss 2.1901 cls_loss_mapping 1.0966 cls_loss_causal 1.5411 re_mapping 1.2660 re_causal 1.2689 /// teacc 95.32 lr 0.00999497
+249
+0.009994965332706574
+changing lr
+epoch 1, time 329.57, cls_loss 1.1155 cls_loss_mapping 0.7787 cls_loss_causal 1.4901 re_mapping 0.9558 re_causal 0.9646 /// teacc 93.57 lr 0.00997987
+249
+0.009979871469976196
+changing lr
+epoch 2, time 330.39, cls_loss 0.9288 cls_loss_mapping 0.7032 cls_loss_causal 1.4747 re_mapping 0.7723 re_causal 0.7847 /// teacc 75.44 lr 0.00995475
+249
+0.009954748808839675
+changing lr
+epoch 3, time 328.90, cls_loss 1.2627 cls_loss_mapping 0.6321 cls_loss_causal 1.5390 re_mapping 0.6502 re_causal 0.6690 /// teacc 85.96 lr 0.00991965
+249
+0.009919647942993149
+changing lr
+epoch 4, time 327.35, cls_loss 0.9500 cls_loss_mapping 0.7241 cls_loss_causal 1.5912 re_mapping 0.6164 re_causal 0.6345 /// teacc 93.57 lr 0.00987464
+249
+0.009874639560909117
+changing lr
+epoch 5, time 326.62, cls_loss 1.4824 cls_loss_mapping 0.9000 cls_loss_causal 1.6461 re_mapping 0.5127 re_causal 0.5278 /// teacc 79.53 lr 0.00981981
+249
+0.009819814303479266
+changing lr
+epoch 6, time 329.86, cls_loss 0.5391 cls_loss_mapping 0.6994 cls_loss_causal 1.5297 re_mapping 0.4445 re_causal 0.4580 /// teacc 91.23 lr 0.00975528
+249
+0.009755282581475767
+changing lr
+epoch 7, time 326.96, cls_loss 0.4282 cls_loss_mapping 0.7985 cls_loss_causal 1.5762 re_mapping 0.4031 re_causal 0.4239 /// teacc 90.06 lr 0.00968117
+249
+0.009681174353198686
+changing lr
+epoch 8, time 324.18, cls_loss 0.4582 cls_loss_mapping 0.6437 cls_loss_causal 1.4929 re_mapping 0.3704 re_causal 0.4016 /// teacc 92.40 lr 0.00959764
+249
+0.009597638862757255
+changing lr
+epoch 9, time 329.22, cls_loss 0.4196 cls_loss_mapping 0.6434 cls_loss_causal 1.5206 re_mapping 0.3366 re_causal 0.3732 /// teacc 91.23 lr 0.00950484
+249
+0.009504844339512096
+changing lr
+epoch 10, time 326.22, cls_loss 0.6899 cls_loss_mapping 0.6931 cls_loss_causal 1.4531 re_mapping 0.3138 re_causal 0.3465 /// teacc 91.81 lr 0.00940298
+249
+0.009402977659283692
+changing lr
+epoch 11, time 332.53, cls_loss 0.2100 cls_loss_mapping 0.5305 cls_loss_causal 1.2812 re_mapping 0.2652 re_causal 0.3015 /// teacc 94.15 lr 0.00929224
+249
+0.009292243968009333
+changing lr
+epoch 12, time 328.24, cls_loss 1.9157 cls_loss_mapping 1.1807 cls_loss_causal 1.8542 re_mapping 0.2875 re_causal 0.3153 /// teacc 81.29 lr 0.00917287
+249
+0.009172866268606516
+changing lr
+epoch 13, time 330.89, cls_loss 0.5559 cls_loss_mapping 0.9412 cls_loss_causal 1.5863 re_mapping 0.2804 re_causal 0.3010 /// teacc 88.30 lr 0.00904508
+249
+0.00904508497187474
+changing lr
+epoch 14, time 327.08, cls_loss 0.2945 cls_loss_mapping 0.7027 cls_loss_causal 1.4399 re_mapping 0.2493 re_causal 0.2637 /// teacc 89.47 lr 0.00890916
+249
+0.008909157412340152
+changing lr
+epoch 15, time 327.50, cls_loss 0.1556 cls_loss_mapping 0.5735 cls_loss_causal 1.3348 re_mapping 0.2367 re_causal 0.2499 /// teacc 90.64 lr 0.00876536
+249
+0.00876535733001806
+changing lr
+epoch 16, time 325.93, cls_loss 0.5865 cls_loss_mapping 0.6469 cls_loss_causal 1.4535 re_mapping 0.2249 re_causal 0.2442 /// teacc 83.63 lr 0.00861397
+249
+0.008613974319136962
+changing lr
+epoch 17, time 325.67, cls_loss 0.2541 cls_loss_mapping 0.5530 cls_loss_causal 1.3152 re_mapping 0.1981 re_causal 0.2108 /// teacc 90.64 lr 0.00845531
+249
+0.008455313244934327
+changing lr
+epoch 18, time 328.07, cls_loss 0.1021 cls_loss_mapping 0.4746 cls_loss_causal 1.2840 re_mapping 0.1724 re_causal 0.1940 /// teacc 91.81 lr 0.00828969
+249
+0.008289693629698565
+changing lr
+epoch 19, time 327.66, cls_loss 0.2583 cls_loss_mapping 0.4658 cls_loss_causal 1.3477 re_mapping 0.1511 re_causal 0.1725 /// teacc 85.38 lr 0.00811745
+249
+0.00811744900929367
+changing lr
+epoch 20, time 330.32, cls_loss 0.2436 cls_loss_mapping 0.4640 cls_loss_causal 1.2885 re_mapping 0.1358 re_causal 0.1612 /// teacc 89.47 lr 0.00793893
+249
+0.007938926261462368
+changing lr
+epoch 21, time 327.13, cls_loss 0.0809 cls_loss_mapping 0.3624 cls_loss_causal 1.1645 re_mapping 0.1276 re_causal 0.1497 /// teacc 92.40 lr 0.00775448
+249
+0.007754484907260515
+changing lr
+---------------------saving model at epoch 22----------------------------------------------------
+epoch 22, time 327.51, cls_loss 0.0782 cls_loss_mapping 0.2983 cls_loss_causal 1.0244 re_mapping 0.1161 re_causal 0.1302 /// teacc 95.91 lr 0.00756450
+249
+0.007564496387029534
+changing lr
+epoch 23, time 328.44, cls_loss 0.0508 cls_loss_mapping 0.2665 cls_loss_causal 1.0062 re_mapping 0.1035 re_causal 0.1238 /// teacc 92.40 lr 0.00736934
+249
+0.007369343312364995
+changing lr
+epoch 24, time 326.85, cls_loss 0.0439 cls_loss_mapping 0.2489 cls_loss_causal 0.9377 re_mapping 0.0935 re_causal 0.1083 /// teacc 93.57 lr 0.00716942
+249
+0.0071694186955877925
+changing lr
+epoch 25, time 328.40, cls_loss 0.0447 cls_loss_mapping 0.2510 cls_loss_causal 0.9697 re_mapping 0.0891 re_causal 0.1042 /// teacc 95.32 lr 0.00696513
+249
+0.0069651251582696205
+changing lr
+epoch 26, time 326.49, cls_loss 0.0183 cls_loss_mapping 0.2090 cls_loss_causal 0.9070 re_mapping 0.0889 re_causal 0.1054 /// teacc 94.15 lr 0.00675687
+249
+0.006756874120406716
+changing lr
+epoch 27, time 329.18, cls_loss 0.0199 cls_loss_mapping 0.2252 cls_loss_causal 0.9563 re_mapping 0.0849 re_causal 0.1040 /// teacc 92.40 lr 0.00654508
+249
+0.00654508497187474
+changing lr
+epoch 28, time 331.00, cls_loss 0.0349 cls_loss_mapping 0.1811 cls_loss_causal 0.8829 re_mapping 0.0737 re_causal 0.0947 /// teacc 94.15 lr 0.00633018
+249
+0.006330184227833378
+changing lr
+epoch 29, time 330.93, cls_loss 0.0173 cls_loss_mapping 0.1582 cls_loss_causal 0.8307 re_mapping 0.0685 re_causal 0.0870 /// teacc 95.91 lr 0.00611260
+249
+0.006112604669781575
+changing lr
+---------------------saving model at epoch 30----------------------------------------------------
+epoch 30, time 333.04, cls_loss 0.0136 cls_loss_mapping 0.1520 cls_loss_causal 0.8025 re_mapping 0.0632 re_causal 0.0809 /// teacc 97.08 lr 0.00589278
+249
+0.005892784473993186
+changing lr
+epoch 31, time 328.71, cls_loss 0.0093 cls_loss_mapping 0.1464 cls_loss_causal 0.7705 re_mapping 0.0664 re_causal 0.0860 /// teacc 95.32 lr 0.00567117
+249
+0.00567116632908828
+changing lr
+epoch 32, time 331.65, cls_loss 0.0048 cls_loss_mapping 0.1322 cls_loss_causal 0.7072 re_mapping 0.0552 re_causal 0.0736 /// teacc 95.32 lr 0.00544820
+249
+0.00544819654451717
+changing lr
+---------------------saving model at epoch 33----------------------------------------------------
+epoch 33, time 331.93, cls_loss 0.0196 cls_loss_mapping 0.1406 cls_loss_causal 0.7016 re_mapping 0.0551 re_causal 0.0790 /// teacc 97.66 lr 0.00522432
+249
+0.005224324151752577
+changing lr
+epoch 34, time 326.51, cls_loss 0.0110 cls_loss_mapping 0.1272 cls_loss_causal 0.7379 re_mapping 0.0532 re_causal 0.0753 /// teacc 95.91 lr 0.00500000
+249
+0.005000000000000003
+changing lr
+epoch 35, time 326.79, cls_loss 0.0039 cls_loss_mapping 0.1204 cls_loss_causal 0.7016 re_mapping 0.0500 re_causal 0.0750 /// teacc 96.49 lr 0.00477568
+249
+0.004775675848247429
+changing lr
+epoch 36, time 328.75, cls_loss 0.0098 cls_loss_mapping 0.1122 cls_loss_causal 0.6372 re_mapping 0.0458 re_causal 0.0661 /// teacc 95.32 lr 0.00455180
+249
+0.004551803455482836
+changing lr
+epoch 37, time 333.82, cls_loss 0.0088 cls_loss_mapping 0.1083 cls_loss_causal 0.6648 re_mapping 0.0459 re_causal 0.0701 /// teacc 95.91 lr 0.00432883
+249
+0.004328833670911726
+changing lr
+epoch 38, time 328.36, cls_loss 0.0111 cls_loss_mapping 0.1082 cls_loss_causal 0.6774 re_mapping 0.0479 re_causal 0.0716 /// teacc 94.74 lr 0.00410722
+249
+0.0041072155260068206
+changing lr
+epoch 39, time 329.81, cls_loss 0.0019 cls_loss_mapping 0.0890 cls_loss_causal 0.6447 re_mapping 0.0461 re_causal 0.0699 /// teacc 95.32 lr 0.00388740
+249
+0.0038873953302184317
+changing lr
+epoch 40, time 329.55, cls_loss 0.0031 cls_loss_mapping 0.0853 cls_loss_causal 0.5882 re_mapping 0.0445 re_causal 0.0632 /// teacc 94.74 lr 0.00366982
+249
+0.003669815772166629
+changing lr
+epoch 41, time 330.31, cls_loss 0.0050 cls_loss_mapping 0.0811 cls_loss_causal 0.5662 re_mapping 0.0384 re_causal 0.0568 /// teacc 95.32 lr 0.00345492
+249
+0.0034549150281252667
+changing lr
+epoch 42, time 333.18, cls_loss 0.0062 cls_loss_mapping 0.0839 cls_loss_causal 0.6104 re_mapping 0.0375 re_causal 0.0582 /// teacc 95.91 lr 0.00324313
+249
+0.0032431258795932905
+changing lr
+epoch 43, time 329.10, cls_loss 0.0014 cls_loss_mapping 0.0792 cls_loss_causal 0.5998 re_mapping 0.0385 re_causal 0.0578 /// teacc 96.49 lr 0.00303487
+249
+0.0030348748417303863
+changing lr
+epoch 44, time 327.44, cls_loss 0.0038 cls_loss_mapping 0.0816 cls_loss_causal 0.5993 re_mapping 0.0363 re_causal 0.0564 /// teacc 96.49 lr 0.00283058
+249
+0.0028305813044122124
+changing lr
+epoch 45, time 328.69, cls_loss 0.0064 cls_loss_mapping 0.0724 cls_loss_causal 0.5434 re_mapping 0.0350 re_causal 0.0566 /// teacc 97.08 lr 0.00263066
+249
+0.0026306566876350096
+changing lr
+epoch 46, time 329.11, cls_loss 0.0036 cls_loss_mapping 0.0732 cls_loss_causal 0.6550 re_mapping 0.0336 re_causal 0.0560 /// teacc 97.66 lr 0.00243550
+249
+0.0024355036129704724
+changing lr
+epoch 47, time 330.95, cls_loss 0.0028 cls_loss_mapping 0.0696 cls_loss_causal 0.5213 re_mapping 0.0347 re_causal 0.0540 /// teacc 95.32 lr 0.00224552
+249
+0.00224551509273949
+changing lr
+epoch 48, time 329.49, cls_loss 0.0022 cls_loss_mapping 0.0614 cls_loss_causal 0.5186 re_mapping 0.0319 re_causal 0.0531 /// teacc 97.08 lr 0.00206107
+249
+0.002061073738537637
+changing lr
+epoch 49, time 327.39, cls_loss 0.0030 cls_loss_mapping 0.0631 cls_loss_causal 0.5368 re_mapping 0.0315 re_causal 0.0477 /// teacc 97.08 lr 0.00188255
+249
+0.0018825509907063344
+changing lr
+epoch 50, time 330.68, cls_loss 0.0025 cls_loss_mapping 0.0624 cls_loss_causal 0.5418 re_mapping 0.0308 re_causal 0.0501 /// teacc 95.91 lr 0.00171031
+249
+0.0017103063703014388
+changing lr
+epoch 51, time 331.11, cls_loss 0.0024 cls_loss_mapping 0.0666 cls_loss_causal 0.6219 re_mapping 0.0303 re_causal 0.0463 /// teacc 94.15 lr 0.00154469
+249
+0.0015446867550656784
+changing lr
+epoch 52, time 329.80, cls_loss 0.0037 cls_loss_mapping 0.0624 cls_loss_causal 0.5204 re_mapping 0.0305 re_causal 0.0459 /// teacc 95.91 lr 0.00138603
+249
+0.001386025680863044
+changing lr
+epoch 53, time 330.30, cls_loss 0.0021 cls_loss_mapping 0.0573 cls_loss_causal 0.4976 re_mapping 0.0330 re_causal 0.0522 /// teacc 96.49 lr 0.00123464
+249
+0.0012346426699819469
+changing lr
+epoch 54, time 328.15, cls_loss 0.0037 cls_loss_mapping 0.0636 cls_loss_causal 0.5476 re_mapping 0.0300 re_causal 0.0478 /// teacc 94.74 lr 0.00109084
+249
+0.0010908425876598518
+changing lr
+epoch 55, time 330.82, cls_loss 0.0019 cls_loss_mapping 0.0573 cls_loss_causal 0.4965 re_mapping 0.0298 re_causal 0.0464 /// teacc 94.74 lr 0.00095492
+249
+0.000954915028125264
+changing lr
+epoch 56, time 327.34, cls_loss 0.0026 cls_loss_mapping 0.0569 cls_loss_causal 0.5251 re_mapping 0.0303 re_causal 0.0466 /// teacc 95.91 lr 0.00082713
+249
+0.0008271337313934874
+changing lr
+epoch 57, time 333.58, cls_loss 0.0042 cls_loss_mapping 0.0546 cls_loss_causal 0.5309 re_mapping 0.0287 re_causal 0.0428 /// teacc 95.32 lr 0.00070776
+249
+0.00070775603199067
+changing lr
+epoch 58, time 328.86, cls_loss 0.0031 cls_loss_mapping 0.0587 cls_loss_causal 0.5149 re_mapping 0.0288 re_causal 0.0456 /// teacc 96.49 lr 0.00059702
+249
+0.0005970223407163104
+changing lr
+epoch 59, time 328.86, cls_loss 0.0046 cls_loss_mapping 0.0559 cls_loss_causal 0.5242 re_mapping 0.0292 re_causal 0.0461 /// teacc 95.32 lr 0.00049516
+249
+0.0004951556604879052
+changing lr
+epoch 60, time 329.33, cls_loss 0.0035 cls_loss_mapping 0.0531 cls_loss_causal 0.5105 re_mapping 0.0286 re_causal 0.0415 /// teacc 94.74 lr 0.00040236
+249
+0.00040236113724274745
+changing lr
+epoch 61, time 329.57, cls_loss 0.0024 cls_loss_mapping 0.0552 cls_loss_causal 0.5395 re_mapping 0.0269 re_causal 0.0440 /// teacc 95.91 lr 0.00031883
+249
+0.00031882564680131423
+changing lr
+epoch 62, time 333.79, cls_loss 0.0025 cls_loss_mapping 0.0505 cls_loss_causal 0.5307 re_mapping 0.0257 re_causal 0.0430 /// teacc 95.32 lr 0.00024472
+249
+0.0002447174185242325
+changing lr
+epoch 63, time 325.49, cls_loss 0.0033 cls_loss_mapping 0.0561 cls_loss_causal 0.5009 re_mapping 0.0285 re_causal 0.0429 /// teacc 96.49 lr 0.00018019
+249
+0.0001801856965207339
+changing lr
+epoch 64, time 325.60, cls_loss 0.0020 cls_loss_mapping 0.0478 cls_loss_causal 0.5195 re_mapping 0.0274 re_causal 0.0416 /// teacc 95.32 lr 0.00012536
+249
+0.000125360439090882
+changing lr
+epoch 65, time 329.45, cls_loss 0.0022 cls_loss_mapping 0.0502 cls_loss_causal 0.4924 re_mapping 0.0274 re_causal 0.0425 /// teacc 94.15 lr 0.00008035
+249
+8.03520570068517e-05
+changing lr
+epoch 66, time 331.82, cls_loss 0.0036 cls_loss_mapping 0.0536 cls_loss_causal 0.5226 re_mapping 0.0276 re_causal 0.0429 /// teacc 95.91 lr 0.00004525
+249
+4.5251191160326525e-05
+changing lr
+epoch 67, time 328.42, cls_loss 0.0030 cls_loss_mapping 0.0563 cls_loss_causal 0.5390 re_mapping 0.0282 re_causal 0.0435 /// teacc 95.32 lr 0.00002013
+249
+2.0128530023804673e-05
+changing lr
+epoch 68, time 331.35, cls_loss 0.0034 cls_loss_mapping 0.0501 cls_loss_causal 0.5100 re_mapping 0.0269 re_causal 0.0424 /// teacc 95.32 lr 0.00000503
+249
+5.034667293427056e-06
+changing lr
+epoch 69, time 332.59, cls_loss 0.0023 cls_loss_mapping 0.0540 cls_loss_causal 0.5166 re_mapping 0.0279 re_causal 0.0451 /// teacc 97.08 lr 0.00000000
+---------------------saving last model at epoch 69----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//photo/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_ReProduceMetaCausal', 'source_domain': 'photo', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//photo/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_ReProduceMetaCausal/photo_16factor_last_test_check.csv', 'factor_num': 16, 'epoch': 'last', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of last
+randm: False
+stride: 5
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+columns: ['photo', 'art_painting', 'cartoon', 'sketch']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+                         photo  art_painting    cartoon     sketch        Avg
+w/o do (original x)  99.700599     60.253906  43.515358  57.724612  53.831292
+        photo  art_painting    cartoon    sketch        Avg
+do  99.760479      60.15625  49.274744  60.57521  56.668735
diff --git a/Meta-causal/code-withStyleAttack/56722.error b/Meta-causal/code-withStyleAttack/56722.error
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/Meta-causal/code-withStyleAttack/56722.log b/Meta-causal/code-withStyleAttack/56722.log
new file mode 100644
index 0000000000000000000000000000000000000000..7f87ef44ae593d26a6c9da1bc6c04bcc59b5b290
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/56722.log
@@ -0,0 +1,333 @@
+/home/yuqian_fu
+{'gpu': '0', 'data': 'sketch', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 5, 'factor_num': 16, 'epochs': 70, 'nbatch': 100, 'batchsize': 6, 'lr': 0.01, 'lr_scheduler': 'cosine', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_ReProduceMetaCausal', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 5
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_train.hdf5 torch.Size([3531, 3, 227, 227]) torch.Size([3531])
+--------------------------CA_multiple--------------------------
+---------------------------16 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_val.hdf5 torch.Size([398, 3, 227, 227]) torch.Size([398])
+-------------------------------------loading pretrain weights----------------------------------
+588
+0.01
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 845.95, cls_loss 3.6738 cls_loss_mapping 1.1243 cls_loss_causal 1.4459 re_mapping 0.6948 re_causal 0.6950 /// teacc 87.69 lr 0.00999497
+588
+0.009994965332706574
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 854.64, cls_loss 0.5577 cls_loss_mapping 0.4581 cls_loss_causal 1.0021 re_mapping 0.2545 re_causal 0.2541 /// teacc 90.20 lr 0.00997987
+588
+0.009979871469976196
+changing lr
+epoch 2, time 878.75, cls_loss 0.1988 cls_loss_mapping 0.2884 cls_loss_causal 0.8433 re_mapping 0.1588 re_causal 0.1584 /// teacc 89.70 lr 0.00995475
+588
+0.009954748808839675
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 892.14, cls_loss 0.1337 cls_loss_mapping 0.2165 cls_loss_causal 0.7708 re_mapping 0.1261 re_causal 0.1263 /// teacc 92.96 lr 0.00991965
+588
+0.009919647942993149
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 852.27, cls_loss 0.0720 cls_loss_mapping 0.1604 cls_loss_causal 0.6995 re_mapping 0.1031 re_causal 0.1040 /// teacc 93.22 lr 0.00987464
+588
+0.009874639560909117
+changing lr
+---------------------saving model at epoch 5----------------------------------------------------
+epoch 5, time 847.00, cls_loss 0.0390 cls_loss_mapping 0.1253 cls_loss_causal 0.6512 re_mapping 0.0839 re_causal 0.0858 /// teacc 93.72 lr 0.00981981
+588
+0.009819814303479266
+changing lr
+epoch 6, time 868.82, cls_loss 0.0280 cls_loss_mapping 0.1074 cls_loss_causal 0.6153 re_mapping 0.0698 re_causal 0.0724 /// teacc 92.46 lr 0.00975528
+588
+0.009755282581475767
+changing lr
+---------------------saving model at epoch 7----------------------------------------------------
+epoch 7, time 845.22, cls_loss 0.0251 cls_loss_mapping 0.0936 cls_loss_causal 0.5946 re_mapping 0.0582 re_causal 0.0616 /// teacc 93.97 lr 0.00968117
+588
+0.009681174353198686
+changing lr
+epoch 8, time 850.90, cls_loss 0.0209 cls_loss_mapping 0.0815 cls_loss_causal 0.5643 re_mapping 0.0500 re_causal 0.0549 /// teacc 92.71 lr 0.00959764
+588
+0.009597638862757255
+changing lr
+---------------------saving model at epoch 9----------------------------------------------------
+epoch 9, time 861.45, cls_loss 0.0196 cls_loss_mapping 0.0758 cls_loss_causal 0.5799 re_mapping 0.0425 re_causal 0.0492 /// teacc 94.97 lr 0.00950484
+588
+0.009504844339512096
+changing lr
+epoch 10, time 887.24, cls_loss 0.0124 cls_loss_mapping 0.0557 cls_loss_causal 0.5474 re_mapping 0.0349 re_causal 0.0424 /// teacc 94.22 lr 0.00940298
+588
+0.009402977659283692
+changing lr
+epoch 11, time 860.82, cls_loss 0.0155 cls_loss_mapping 0.0521 cls_loss_causal 0.5327 re_mapping 0.0303 re_causal 0.0397 /// teacc 92.96 lr 0.00929224
+588
+0.009292243968009333
+changing lr
+epoch 12, time 882.17, cls_loss 0.0122 cls_loss_mapping 0.0491 cls_loss_causal 0.5306 re_mapping 0.0254 re_causal 0.0353 /// teacc 92.46 lr 0.00917287
+588
+0.009172866268606516
+changing lr
+epoch 13, time 886.31, cls_loss 0.0123 cls_loss_mapping 0.0488 cls_loss_causal 0.5114 re_mapping 0.0231 re_causal 0.0341 /// teacc 93.97 lr 0.00904508
+588
+0.00904508497187474
+changing lr
+epoch 14, time 860.16, cls_loss 0.0097 cls_loss_mapping 0.0391 cls_loss_causal 0.5384 re_mapping 0.0201 re_causal 0.0320 /// teacc 94.47 lr 0.00890916
+588
+0.008909157412340152
+changing lr
+epoch 15, time 851.33, cls_loss 0.0083 cls_loss_mapping 0.0374 cls_loss_causal 0.4965 re_mapping 0.0180 re_causal 0.0299 /// teacc 92.71 lr 0.00876536
+588
+0.00876535733001806
+changing lr
+epoch 16, time 856.91, cls_loss 0.0087 cls_loss_mapping 0.0368 cls_loss_causal 0.4716 re_mapping 0.0163 re_causal 0.0278 /// teacc 91.96 lr 0.00861397
+588
+0.008613974319136962
+changing lr
+epoch 17, time 881.17, cls_loss 0.0070 cls_loss_mapping 0.0307 cls_loss_causal 0.4890 re_mapping 0.0146 re_causal 0.0269 /// teacc 93.47 lr 0.00845531
+588
+0.008455313244934327
+changing lr
+epoch 18, time 868.14, cls_loss 0.0060 cls_loss_mapping 0.0262 cls_loss_causal 0.4835 re_mapping 0.0132 re_causal 0.0256 /// teacc 93.47 lr 0.00828969
+588
+0.008289693629698565
+changing lr
+epoch 19, time 883.13, cls_loss 0.0067 cls_loss_mapping 0.0258 cls_loss_causal 0.4667 re_mapping 0.0123 re_causal 0.0250 /// teacc 93.72 lr 0.00811745
+588
+0.00811744900929367
+changing lr
+epoch 20, time 884.58, cls_loss 0.0064 cls_loss_mapping 0.0251 cls_loss_causal 0.4629 re_mapping 0.0117 re_causal 0.0239 /// teacc 94.72 lr 0.00793893
+588
+0.007938926261462368
+changing lr
+epoch 21, time 875.05, cls_loss 0.0051 cls_loss_mapping 0.0202 cls_loss_causal 0.4715 re_mapping 0.0107 re_causal 0.0234 /// teacc 92.46 lr 0.00775448
+588
+0.007754484907260515
+changing lr
+epoch 22, time 896.60, cls_loss 0.0054 cls_loss_mapping 0.0194 cls_loss_causal 0.4351 re_mapping 0.0099 re_causal 0.0214 /// teacc 94.97 lr 0.00756450
+588
+0.007564496387029534
+changing lr
+epoch 23, time 860.93, cls_loss 0.0049 cls_loss_mapping 0.0175 cls_loss_causal 0.4279 re_mapping 0.0094 re_causal 0.0210 /// teacc 92.71 lr 0.00736934
+588
+0.007369343312364995
+changing lr
+epoch 24, time 870.01, cls_loss 0.0046 cls_loss_mapping 0.0183 cls_loss_causal 0.4499 re_mapping 0.0094 re_causal 0.0216 /// teacc 94.22 lr 0.00716942
+588
+0.0071694186955877925
+changing lr
+epoch 25, time 881.12, cls_loss 0.0059 cls_loss_mapping 0.0212 cls_loss_causal 0.4502 re_mapping 0.0092 re_causal 0.0210 /// teacc 94.22 lr 0.00696513
+588
+0.0069651251582696205
+changing lr
+epoch 26, time 883.73, cls_loss 0.0052 cls_loss_mapping 0.0151 cls_loss_causal 0.4330 re_mapping 0.0088 re_causal 0.0207 /// teacc 94.47 lr 0.00675687
+588
+0.006756874120406716
+changing lr
+epoch 27, time 876.67, cls_loss 0.0050 cls_loss_mapping 0.0183 cls_loss_causal 0.4334 re_mapping 0.0082 re_causal 0.0200 /// teacc 93.22 lr 0.00654508
+588
+0.00654508497187474
+changing lr
+epoch 28, time 849.09, cls_loss 0.0067 cls_loss_mapping 0.0154 cls_loss_causal 0.4283 re_mapping 0.0084 re_causal 0.0204 /// teacc 93.47 lr 0.00633018
+588
+0.006330184227833378
+changing lr
+epoch 29, time 851.32, cls_loss 0.0044 cls_loss_mapping 0.0147 cls_loss_causal 0.3901 re_mapping 0.0077 re_causal 0.0185 /// teacc 92.96 lr 0.00611260
+588
+0.006112604669781575
+changing lr
+epoch 30, time 854.67, cls_loss 0.0034 cls_loss_mapping 0.0126 cls_loss_causal 0.4241 re_mapping 0.0076 re_causal 0.0193 /// teacc 93.72 lr 0.00589278
+588
+0.005892784473993186
+changing lr
+epoch 31, time 861.52, cls_loss 0.0048 cls_loss_mapping 0.0151 cls_loss_causal 0.4106 re_mapping 0.0072 re_causal 0.0186 /// teacc 93.22 lr 0.00567117
+588
+0.00567116632908828
+changing lr
+epoch 32, time 886.70, cls_loss 0.0034 cls_loss_mapping 0.0119 cls_loss_causal 0.4174 re_mapping 0.0070 re_causal 0.0183 /// teacc 93.72 lr 0.00544820
+588
+0.00544819654451717
+changing lr
+epoch 33, time 865.62, cls_loss 0.0038 cls_loss_mapping 0.0111 cls_loss_causal 0.4096 re_mapping 0.0068 re_causal 0.0178 /// teacc 92.96 lr 0.00522432
+588
+0.005224324151752577
+changing lr
+epoch 34, time 853.80, cls_loss 0.0039 cls_loss_mapping 0.0117 cls_loss_causal 0.4176 re_mapping 0.0066 re_causal 0.0176 /// teacc 93.22 lr 0.00500000
+588
+0.005000000000000003
+changing lr
+epoch 35, time 873.63, cls_loss 0.0043 cls_loss_mapping 0.0126 cls_loss_causal 0.4324 re_mapping 0.0065 re_causal 0.0176 /// teacc 93.22 lr 0.00477568
+588
+0.004775675848247429
+changing lr
+epoch 36, time 847.64, cls_loss 0.0035 cls_loss_mapping 0.0099 cls_loss_causal 0.4156 re_mapping 0.0062 re_causal 0.0166 /// teacc 93.72 lr 0.00455180
+588
+0.004551803455482836
+changing lr
+epoch 37, time 821.88, cls_loss 0.0038 cls_loss_mapping 0.0099 cls_loss_causal 0.4130 re_mapping 0.0059 re_causal 0.0165 /// teacc 94.22 lr 0.00432883
+588
+0.004328833670911726
+changing lr
+epoch 38, time 833.52, cls_loss 0.0039 cls_loss_mapping 0.0113 cls_loss_causal 0.3887 re_mapping 0.0059 re_causal 0.0166 /// teacc 94.97 lr 0.00410722
+588
+0.0041072155260068206
+changing lr
+epoch 39, time 803.24, cls_loss 0.0032 cls_loss_mapping 0.0079 cls_loss_causal 0.4193 re_mapping 0.0058 re_causal 0.0165 /// teacc 94.72 lr 0.00388740
+588
+0.0038873953302184317
+changing lr
+epoch 40, time 810.38, cls_loss 0.0034 cls_loss_mapping 0.0082 cls_loss_causal 0.3832 re_mapping 0.0056 re_causal 0.0154 /// teacc 93.47 lr 0.00366982
+588
+0.003669815772166629
+changing lr
+epoch 41, time 798.30, cls_loss 0.0038 cls_loss_mapping 0.0093 cls_loss_causal 0.3853 re_mapping 0.0054 re_causal 0.0152 /// teacc 93.72 lr 0.00345492
+588
+0.0034549150281252667
+changing lr
+epoch 42, time 770.71, cls_loss 0.0038 cls_loss_mapping 0.0078 cls_loss_causal 0.4206 re_mapping 0.0052 re_causal 0.0155 /// teacc 93.22 lr 0.00324313
+588
+0.0032431258795932905
+changing lr
+epoch 43, time 769.73, cls_loss 0.0032 cls_loss_mapping 0.0085 cls_loss_causal 0.3786 re_mapping 0.0052 re_causal 0.0147 /// teacc 94.22 lr 0.00303487
+588
+0.0030348748417303863
+changing lr
+epoch 44, time 781.30, cls_loss 0.0030 cls_loss_mapping 0.0066 cls_loss_causal 0.3762 re_mapping 0.0052 re_causal 0.0141 /// teacc 92.96 lr 0.00283058
+588
+0.0028305813044122124
+changing lr
+epoch 45, time 763.23, cls_loss 0.0028 cls_loss_mapping 0.0060 cls_loss_causal 0.3935 re_mapping 0.0050 re_causal 0.0143 /// teacc 93.97 lr 0.00263066
+588
+0.0026306566876350096
+changing lr
+epoch 46, time 756.78, cls_loss 0.0030 cls_loss_mapping 0.0072 cls_loss_causal 0.3847 re_mapping 0.0049 re_causal 0.0141 /// teacc 94.47 lr 0.00243550
+588
+0.0024355036129704724
+changing lr
+epoch 47, time 753.45, cls_loss 0.0027 cls_loss_mapping 0.0062 cls_loss_causal 0.3732 re_mapping 0.0048 re_causal 0.0134 /// teacc 93.72 lr 0.00224552
+588
+0.00224551509273949
+changing lr
+epoch 48, time 753.93, cls_loss 0.0029 cls_loss_mapping 0.0050 cls_loss_causal 0.3621 re_mapping 0.0047 re_causal 0.0131 /// teacc 94.22 lr 0.00206107
+588
+0.002061073738537637
+changing lr
+epoch 49, time 760.37, cls_loss 0.0028 cls_loss_mapping 0.0057 cls_loss_causal 0.3736 re_mapping 0.0048 re_causal 0.0132 /// teacc 93.47 lr 0.00188255
+588
+0.0018825509907063344
+changing lr
+---------------------saving model at epoch 50----------------------------------------------------
+epoch 50, time 761.62, cls_loss 0.0025 cls_loss_mapping 0.0047 cls_loss_causal 0.3886 re_mapping 0.0047 re_causal 0.0133 /// teacc 95.48 lr 0.00171031
+588
+0.0017103063703014388
+changing lr
+epoch 51, time 757.83, cls_loss 0.0026 cls_loss_mapping 0.0051 cls_loss_causal 0.3723 re_mapping 0.0047 re_causal 0.0131 /// teacc 92.21 lr 0.00154469
+588
+0.0015446867550656784
+changing lr
+epoch 52, time 756.68, cls_loss 0.0027 cls_loss_mapping 0.0047 cls_loss_causal 0.3874 re_mapping 0.0046 re_causal 0.0131 /// teacc 92.71 lr 0.00138603
+588
+0.001386025680863044
+changing lr
+epoch 53, time 758.80, cls_loss 0.0027 cls_loss_mapping 0.0049 cls_loss_causal 0.3915 re_mapping 0.0046 re_causal 0.0130 /// teacc 93.72 lr 0.00123464
+588
+0.0012346426699819469
+changing lr
+epoch 54, time 754.88, cls_loss 0.0026 cls_loss_mapping 0.0049 cls_loss_causal 0.3825 re_mapping 0.0045 re_causal 0.0130 /// teacc 94.22 lr 0.00109084
+588
+0.0010908425876598518
+changing lr
+epoch 55, time 758.50, cls_loss 0.0030 cls_loss_mapping 0.0050 cls_loss_causal 0.3839 re_mapping 0.0045 re_causal 0.0126 /// teacc 93.22 lr 0.00095492
+588
+0.000954915028125264
+changing lr
+epoch 56, time 757.06, cls_loss 0.0025 cls_loss_mapping 0.0044 cls_loss_causal 0.3577 re_mapping 0.0045 re_causal 0.0122 /// teacc 94.22 lr 0.00082713
+588
+0.0008271337313934874
+changing lr
+epoch 57, time 758.09, cls_loss 0.0023 cls_loss_mapping 0.0046 cls_loss_causal 0.3461 re_mapping 0.0046 re_causal 0.0118 /// teacc 93.47 lr 0.00070776
+588
+0.00070775603199067
+changing lr
+epoch 58, time 760.13, cls_loss 0.0023 cls_loss_mapping 0.0039 cls_loss_causal 0.3523 re_mapping 0.0046 re_causal 0.0118 /// teacc 94.47 lr 0.00059702
+588
+0.0005970223407163104
+changing lr
+epoch 59, time 756.85, cls_loss 0.0021 cls_loss_mapping 0.0035 cls_loss_causal 0.3762 re_mapping 0.0045 re_causal 0.0121 /// teacc 93.22 lr 0.00049516
+588
+0.0004951556604879052
+changing lr
+epoch 60, time 754.41, cls_loss 0.0023 cls_loss_mapping 0.0041 cls_loss_causal 0.3579 re_mapping 0.0044 re_causal 0.0115 /// teacc 92.71 lr 0.00040236
+588
+0.00040236113724274745
+changing lr
+epoch 61, time 758.79, cls_loss 0.0026 cls_loss_mapping 0.0042 cls_loss_causal 0.3682 re_mapping 0.0044 re_causal 0.0114 /// teacc 93.72 lr 0.00031883
+588
+0.00031882564680131423
+changing lr
+epoch 62, time 752.52, cls_loss 0.0025 cls_loss_mapping 0.0039 cls_loss_causal 0.3746 re_mapping 0.0044 re_causal 0.0117 /// teacc 92.46 lr 0.00024472
+588
+0.0002447174185242325
+changing lr
+epoch 63, time 758.14, cls_loss 0.0025 cls_loss_mapping 0.0034 cls_loss_causal 0.3751 re_mapping 0.0044 re_causal 0.0115 /// teacc 93.72 lr 0.00018019
+588
+0.0001801856965207339
+changing lr
+epoch 64, time 751.51, cls_loss 0.0024 cls_loss_mapping 0.0034 cls_loss_causal 0.3590 re_mapping 0.0044 re_causal 0.0114 /// teacc 93.47 lr 0.00012536
+588
+0.000125360439090882
+changing lr
+epoch 65, time 760.25, cls_loss 0.0030 cls_loss_mapping 0.0049 cls_loss_causal 0.3519 re_mapping 0.0044 re_causal 0.0112 /// teacc 93.97 lr 0.00008035
+588
+8.03520570068517e-05
+changing lr
+epoch 66, time 759.68, cls_loss 0.0023 cls_loss_mapping 0.0036 cls_loss_causal 0.3571 re_mapping 0.0044 re_causal 0.0114 /// teacc 92.96 lr 0.00004525
+588
+4.5251191160326525e-05
+changing lr
+epoch 67, time 758.83, cls_loss 0.0025 cls_loss_mapping 0.0043 cls_loss_causal 0.3541 re_mapping 0.0044 re_causal 0.0113 /// teacc 92.21 lr 0.00002013
+588
+2.0128530023804673e-05
+changing lr
+epoch 68, time 755.82, cls_loss 0.0021 cls_loss_mapping 0.0032 cls_loss_causal 0.3385 re_mapping 0.0044 re_causal 0.0113 /// teacc 93.22 lr 0.00000503
+588
+5.034667293427056e-06
+changing lr
+epoch 69, time 757.80, cls_loss 0.0027 cls_loss_mapping 0.0040 cls_loss_causal 0.3563 re_mapping 0.0044 re_causal 0.0113 /// teacc 93.22 lr 0.00000000
+---------------------saving last model at epoch 69----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_ReProduceMetaCausal', 'source_domain': 'sketch', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_ReProduceMetaCausal/sketch_16factor_last_test_check.csv', 'factor_num': 16, 'epoch': 'last', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of last
+randm: False
+stride: 5
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+columns: ['sketch', 'art_painting', 'cartoon', 'photo']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+                        sketch  art_painting    cartoon      photo        Avg
+w/o do (original x)  99.312802     55.029297  67.491468  57.964072  60.161612
+       sketch  art_painting   cartoon      photo        Avg
+do  99.312802     49.804688  63.90785  55.449102  56.387213
diff --git a/Meta-causal/code-withStyleAttack/64943.error b/Meta-causal/code-withStyleAttack/64943.error
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/Meta-causal/code-withStyleAttack/64943.log b/Meta-causal/code-withStyleAttack/64943.log
new file mode 100644
index 0000000000000000000000000000000000000000..39c489604f15f0be2dc04cfe377194415fb1e9bb
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/64943.log
@@ -0,0 +1,1914 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'art_painting', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 5, 'factor_num': 16, 'epochs': 70, 'nbatch': 100, 'batchsize': 6, 'lr': 0.01, 'lr_scheduler': 'cosine', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 5
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_train.hdf5 torch.Size([1840, 3, 227, 227]) torch.Size([1840])
+--------------------------CA_multiple--------------------------
+---------------------------16 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_val.hdf5 torch.Size([208, 3, 227, 227]) torch.Size([208])
+-------------------------------------loading pretrain weights----------------------------------
+Epoch 1, weight, value: tensor([[ 0.0106, -0.0051,  0.0193,  ...,  0.0075,  0.0158, -0.0062],
+        [-0.0130, -0.0094, -0.0199,  ...,  0.0148,  0.0091,  0.0089],
+        [ 0.0217,  0.0123, -0.0198,  ..., -0.0208,  0.0086, -0.0179],
+        ...,
+        [-0.0085, -0.0153,  0.0125,  ...,  0.0016,  0.0065,  0.0184],
+        [ 0.0111, -0.0125,  0.0214,  ..., -0.0080,  0.0129, -0.0186],
+        [-0.0095,  0.0164,  0.0024,  ..., -0.0037,  0.0123,  0.0207]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([ 0.0156, -0.0099, -0.0060, -0.0064, -0.0070,  0.0143,  0.0059],
+       device='cuda:0'), grad: None
+306
+0.01
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 421.76, cls_loss 11.6044 cls_loss_mapping 1.8986 cls_loss_causal 1.9230 re_mapping 0.4058 re_causal 0.4051 /// teacc 43.27 lr 0.00999497
+Epoch 2, weight, value: tensor([[ 0.1878,  0.1646,  0.2100,  ..., -0.0196,  0.0020, -0.0184],
+        [-0.0649, -0.0708, -0.0772,  ...,  0.0933,  0.0843,  0.0784],
+        [-0.0386, -0.0153, -0.0629,  ...,  0.0813,  0.0574,  0.0432],
+        ...,
+        [-0.0308, -0.0403, -0.0028,  ...,  0.0012,  0.0620,  0.0384],
+        [ 0.0231,  0.0282,  0.0095,  ..., -0.1716, -0.1842, -0.2046],
+        [-0.0140,  0.0138, -0.0027,  ..., -0.0242, -0.0221,  0.0152]],
+       device='cuda:0'), grad: tensor([[-0.2456, -0.2186, -0.2211,  ..., -0.0522, -0.0388, -0.0158],
+        [-0.0894, -0.0504, -0.0532,  ..., -0.0684, -0.0511, -0.0178],
+        [ 0.0267,  0.0195,  0.0190,  ...,  0.0144,  0.0101,  0.0034],
+        ...,
+        [-0.0347, -0.0211, -0.0188,  ..., -0.0300, -0.0179, -0.0050],
+        [ 0.0645,  0.0405,  0.0429,  ...,  0.0440,  0.0329,  0.0115],
+        [ 0.2252,  0.1888,  0.1958,  ...,  0.0678,  0.0501,  0.0192]],
+       device='cuda:0')
+Epoch 2, bias, value: tensor([-0.0260,  0.0482, -0.0075, -0.0372,  0.0386, -0.0156,  0.0055],
+       device='cuda:0'), grad: tensor([-0.2336, -0.2844,  0.0637,  0.0666, -0.1208,  0.2062,  0.3025],
+       device='cuda:0')
+306
+0.009994965332706574
+changing lr
+epoch 1, time 424.69, cls_loss 2.0222 cls_loss_mapping 1.6048 cls_loss_causal 1.8042 re_mapping 0.1042 re_causal 0.1037 /// teacc 42.31 lr 0.00997987
+Epoch 3, weight, value: tensor([[ 0.1727,  0.1568,  0.1972,  ..., -0.0276, -0.0070, -0.0236],
+        [-0.1169, -0.1227, -0.1246,  ...,  0.0940,  0.0914,  0.0822],
+        [-0.0560, -0.0360, -0.0763,  ...,  0.0755,  0.0478,  0.0340],
+        ...,
+        [-0.0177, -0.0277,  0.0238,  ..., -0.0073,  0.0621,  0.0368],
+        [ 0.0245,  0.0343,  0.0103,  ..., -0.1734, -0.1889, -0.2067],
+        [ 0.0536,  0.0736,  0.0462,  ..., -0.0229, -0.0228,  0.0129]],
+       device='cuda:0'), grad: tensor([[ 4.2572e-02,  3.2379e-02,  3.3173e-02,  ...,  1.3580e-02,
+          9.7656e-03,  4.5853e-03],
+        [ 2.6875e-03,  1.4639e-03,  1.4391e-03,  ...,  1.2617e-03,
+          9.5606e-04,  5.2929e-04],
+        [ 1.7932e-01,  1.0278e-01,  1.1157e-01,  ...,  6.3354e-02,
+          4.5898e-02,  2.2125e-02],
+        ...,
+        [-2.3206e-01, -1.4355e-01, -1.5369e-01,  ..., -7.8003e-02,
+         -5.5969e-02, -2.5665e-02],
+        [ 7.9679e-04,  4.0364e-04,  3.8266e-04,  ...,  3.4571e-04,
+          2.4199e-04,  1.1581e-04],
+        [ 4.0680e-02,  2.0706e-02,  2.0401e-02,  ...,  1.9073e-02,
+          1.4320e-02,  7.4272e-03]], device='cuda:0')
+Epoch 3, bias, value: tensor([-0.0599,  0.0352, -0.0025, -0.0539,  0.0827, -0.0219,  0.0262],
+       device='cuda:0'), grad: tensor([ 0.0748,  0.0074,  0.2949, -0.1169, -0.3730,  0.0019,  0.1111],
+       device='cuda:0')
+306
+0.009979871469976196
+changing lr
+epoch 2, time 425.75, cls_loss 1.2357 cls_loss_mapping 1.2540 cls_loss_causal 1.6276 re_mapping 0.0906 re_causal 0.0899 /// teacc 37.50 lr 0.00995475
+Epoch 4, weight, value: tensor([[ 0.1852,  0.1727,  0.2084,  ..., -0.0183, -0.0016, -0.0191],
+        [-0.1073, -0.1069, -0.1134,  ...,  0.0933,  0.0911,  0.0836],
+        [-0.0701, -0.0514, -0.0840,  ...,  0.0735,  0.0460,  0.0309],
+        ...,
+        [-0.0694, -0.0779, -0.0236,  ..., -0.0143,  0.0575,  0.0329],
+        [ 0.0138,  0.0213, -0.0054,  ..., -0.1757, -0.1922, -0.2086],
+        [ 0.1033,  0.1200,  0.0955,  ..., -0.0222, -0.0174,  0.0177]],
+       device='cuda:0'), grad: tensor([[-2.4323e-02, -1.7715e-02, -1.8951e-02,  ..., -3.5667e-03,
+         -2.6474e-03, -1.3180e-03],
+        [ 2.2745e-04,  1.7011e-04,  1.8191e-04,  ...,  2.9743e-05,
+          2.2605e-05,  1.0028e-05],
+        [ 2.1515e-03,  1.2884e-03,  1.3847e-03,  ...,  5.4646e-04,
+          3.7622e-04,  2.5415e-04],
+        ...,
+        [ 1.3123e-02,  9.5825e-03,  1.0254e-02,  ...,  1.9026e-03,
+          1.4153e-03,  6.9475e-04],
+        [ 3.9124e-04,  3.5381e-04,  3.7313e-04,  ...,  8.3372e-06,
+          1.3404e-05,  1.1101e-06],
+        [ 6.6795e-03,  5.0278e-03,  5.3711e-03,  ...,  8.4639e-04,
+          6.4564e-04,  2.7847e-04]], device='cuda:0')
+Epoch 4, bias, value: tensor([-0.0368,  0.0249, -0.0431, -0.0514,  0.0937, -0.0193,  0.0377],
+       device='cuda:0'), grad: tensor([-0.0337,  0.0003,  0.0039,  0.0023,  0.0181,  0.0003,  0.0088],
+       device='cuda:0')
+306
+0.009954748808839675
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 431.13, cls_loss 0.8660 cls_loss_mapping 0.9373 cls_loss_causal 1.4483 re_mapping 0.0863 re_causal 0.0854 /// teacc 48.56 lr 0.00991965
+Epoch 5, weight, value: tensor([[ 0.1969,  0.1932,  0.2240,  ..., -0.0106,  0.0083, -0.0084],
+        [-0.1106, -0.1103, -0.1220,  ...,  0.0942,  0.0883,  0.0799],
+        [-0.0832, -0.0670, -0.0937,  ...,  0.0688,  0.0420,  0.0268],
+        ...,
+        [-0.0814, -0.0917, -0.0321,  ..., -0.0199,  0.0522,  0.0261],
+        [ 0.0065,  0.0142, -0.0115,  ..., -0.1784, -0.1959, -0.2123],
+        [ 0.1163,  0.1315,  0.1102,  ..., -0.0206, -0.0112,  0.0235]],
+       device='cuda:0'), grad: tensor([[ 5.9433e-03,  2.8019e-03,  2.9926e-03,  ...,  1.8187e-03,
+          1.3828e-03,  1.1148e-03],
+        [-5.0812e-02, -2.6550e-02, -2.8870e-02,  ..., -1.4725e-02,
+         -1.0307e-02, -8.5678e-03],
+        [ 4.2009e-04,  1.5187e-04,  1.5056e-04,  ...,  1.4293e-04,
+          1.2743e-04,  9.7096e-05],
+        ...,
+        [ 5.1514e-02,  2.4612e-02,  2.6321e-02,  ...,  1.5656e-02,
+          1.1826e-02,  9.5596e-03],
+        [-1.1978e-02, -2.7523e-03, -2.3022e-03,  ..., -4.5547e-03,
+         -4.4975e-03, -3.3283e-03],
+        [ 3.6449e-03,  1.3599e-03,  1.3704e-03,  ...,  1.2245e-03,
+          1.0624e-03,  8.1873e-04]], device='cuda:0')
+Epoch 5, bias, value: tensor([-0.0341,  0.0254, -0.0705, -0.0229,  0.1050, -0.0339,  0.0366],
+       device='cuda:0'), grad: tensor([ 0.0132, -0.0865,  0.0014,  0.0052,  0.1113, -0.0564,  0.0118],
+       device='cuda:0')
+306
+0.009919647942993149
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 432.30, cls_loss 0.6247 cls_loss_mapping 0.7047 cls_loss_causal 1.2669 re_mapping 0.0851 re_causal 0.0840 /// teacc 72.12 lr 0.00987464
+Epoch 6, weight, value: tensor([[ 0.1957,  0.1933,  0.2247,  ..., -0.0115,  0.0068, -0.0090],
+        [-0.1062, -0.1071, -0.1227,  ...,  0.0857,  0.0783,  0.0707],
+        [-0.0818, -0.0668, -0.0912,  ...,  0.0748,  0.0483,  0.0343],
+        ...,
+        [-0.0890, -0.1005, -0.0373,  ..., -0.0144,  0.0582,  0.0325],
+        [-0.0086,  0.0016, -0.0259,  ..., -0.1826, -0.1993, -0.2163],
+        [ 0.1395,  0.1505,  0.1312,  ..., -0.0195, -0.0080,  0.0255]],
+       device='cuda:0'), grad: tensor([[ 0.0750,  0.0472,  0.0440,  ...,  0.0164,  0.0148,  0.0158],
+        [-0.0565, -0.0350, -0.0352,  ..., -0.0148, -0.0146, -0.0162],
+        [ 0.0156,  0.0057,  0.0061,  ...,  0.0040,  0.0032,  0.0034],
+        ...,
+        [ 0.0461,  0.0297,  0.0238,  ...,  0.0068,  0.0044,  0.0037],
+        [-0.0116, -0.0024, -0.0030,  ..., -0.0031, -0.0021, -0.0022],
+        [-0.0692, -0.0453, -0.0359,  ..., -0.0096, -0.0058, -0.0047]],
+       device='cuda:0')
+Epoch 6, bias, value: tensor([-0.0279,  0.0292, -0.0618, -0.0331,  0.0900, -0.0454,  0.0549],
+       device='cuda:0'), grad: tensor([ 0.1162, -0.0898,  0.0411,  0.0019,  0.0696, -0.0381, -0.1008],
+       device='cuda:0')
+306
+0.009874639560909117
+changing lr
+epoch 5, time 426.44, cls_loss 0.4380 cls_loss_mapping 0.5281 cls_loss_causal 1.2226 re_mapping 0.0861 re_causal 0.0850 /// teacc 42.31 lr 0.00981981
+Epoch 7, weight, value: tensor([[ 0.2098,  0.2093,  0.2438,  ..., -0.0112,  0.0055, -0.0106],
+        [-0.0974, -0.0969, -0.1146,  ...,  0.0915,  0.0849,  0.0769],
+        [-0.0816, -0.0701, -0.0943,  ...,  0.0685,  0.0410,  0.0278],
+        ...,
+        [-0.1026, -0.1140, -0.0502,  ..., -0.0106,  0.0625,  0.0370],
+        [-0.0079,  0.0012, -0.0266,  ..., -0.1819, -0.1995, -0.2156],
+        [ 0.1374,  0.1491,  0.1289,  ..., -0.0233, -0.0101,  0.0223]],
+       device='cuda:0'), grad: tensor([[-0.0735, -0.0327, -0.0339,  ..., -0.0254, -0.0235, -0.0245],
+        [ 0.0145,  0.0052,  0.0056,  ...,  0.0056,  0.0052,  0.0054],
+        [-0.0057, -0.0010, -0.0008,  ..., -0.0023, -0.0022, -0.0022],
+        ...,
+        [ 0.0115,  0.0060,  0.0061,  ...,  0.0034,  0.0032,  0.0033],
+        [ 0.0025,  0.0004,  0.0004,  ...,  0.0010,  0.0009,  0.0009],
+        [ 0.0484,  0.0214,  0.0222,  ...,  0.0167,  0.0155,  0.0161]],
+       device='cuda:0')
+Epoch 7, bias, value: tensor([-0.0215,  0.0466, -0.0830, -0.0234,  0.0787, -0.0530,  0.0614],
+       device='cuda:0'), grad: tensor([-0.1722,  0.0393, -0.0172,  0.0070,  0.0224,  0.0075,  0.1133],
+       device='cuda:0')
+306
+0.009819814303479266
+changing lr
+---------------------saving model at epoch 6----------------------------------------------------
+epoch 6, time 427.73, cls_loss 0.3658 cls_loss_mapping 0.4601 cls_loss_causal 1.1575 re_mapping 0.0819 re_causal 0.0808 /// teacc 78.85 lr 0.00975528
+Epoch 8, weight, value: tensor([[ 0.2240,  0.2268,  0.2634,  ..., -0.0166,  0.0008, -0.0141],
+        [-0.0867, -0.0825, -0.1027,  ...,  0.0913,  0.0859,  0.0786],
+        [-0.0880, -0.0760, -0.0994,  ...,  0.0664,  0.0399,  0.0277],
+        ...,
+        [-0.1128, -0.1233, -0.0609,  ..., -0.0075,  0.0650,  0.0393],
+        [-0.0067,  0.0008, -0.0251,  ..., -0.1829, -0.1997, -0.2169],
+        [ 0.1252,  0.1315,  0.1129,  ..., -0.0217, -0.0112,  0.0210]],
+       device='cuda:0'), grad: tensor([[-1.6870e-03, -1.3332e-03, -9.8896e-04,  ..., -2.5082e-04,
+         -2.2459e-04, -2.6464e-04],
+        [ 2.4211e-04,  6.1810e-05,  4.8459e-05,  ...,  1.4257e-04,
+          1.3053e-04,  1.4758e-04],
+        [ 2.3880e-03,  1.4086e-03,  1.0519e-03,  ...,  7.5197e-04,
+          6.8378e-04,  7.8249e-04],
+        ...,
+        [ 8.5688e-04,  1.7285e-04,  1.3876e-04,  ...,  5.4407e-04,
+          4.9782e-04,  5.6219e-04],
+        [-1.4257e-04, -3.1739e-05, -2.5257e-06,  ..., -5.1796e-05,
+         -5.4002e-05, -5.2422e-05],
+        [ 4.9734e-04,  1.1754e-04,  9.1851e-05,  ...,  3.0231e-04,
+          2.7633e-04,  3.1233e-04]], device='cuda:0')
+Epoch 8, bias, value: tensor([-0.0263,  0.0549, -0.0846, -0.0161,  0.0702, -0.0534,  0.0610],
+       device='cuda:0'), grad: tensor([-0.0018,  0.0007,  0.0042, -0.0068,  0.0026, -0.0004,  0.0015],
+       device='cuda:0')
+306
+0.009755282581475767
+changing lr
+epoch 7, time 428.13, cls_loss 0.3124 cls_loss_mapping 0.3850 cls_loss_causal 1.0907 re_mapping 0.0829 re_causal 0.0819 /// teacc 77.88 lr 0.00968117
+Epoch 9, weight, value: tensor([[ 0.2525,  0.2555,  0.2922,  ..., -0.0049,  0.0127, -0.0029],
+        [-0.0902, -0.0873, -0.1086,  ...,  0.0879,  0.0829,  0.0759],
+        [-0.0888, -0.0797, -0.1016,  ...,  0.0671,  0.0397,  0.0283],
+        ...,
+        [-0.1185, -0.1264, -0.0642,  ..., -0.0080,  0.0637,  0.0385],
+        [-0.0113, -0.0028, -0.0307,  ..., -0.1846, -0.2024, -0.2191],
+        [ 0.1178,  0.1233,  0.1060,  ..., -0.0286, -0.0175,  0.0142]],
+       device='cuda:0'), grad: tensor([[ 2.7314e-05, -1.1764e-05, -1.4231e-05,  ...,  2.3901e-05,
+          2.5332e-05,  2.7269e-05],
+        [ 3.2067e-04,  1.0395e-04,  6.3479e-05,  ...,  1.3578e-04,
+          1.5271e-04,  1.6749e-04],
+        [-8.8024e-04, -2.0969e-04, -1.2898e-04,  ..., -3.6907e-04,
+         -3.9673e-04, -4.4155e-04],
+        ...,
+        [ 2.5272e-05,  4.2580e-06,  2.9281e-06,  ...,  1.1168e-05,
+          1.1407e-05,  1.2547e-05],
+        [ 5.6177e-05,  1.7658e-05,  1.0453e-05,  ...,  2.3872e-05,
+          2.6867e-05,  2.9534e-05],
+        [ 8.3685e-05,  2.6420e-05,  2.0012e-05,  ...,  3.2485e-05,
+          3.4392e-05,  3.7998e-05]], device='cuda:0')
+Epoch 9, bias, value: tensor([-0.0317,  0.0606, -0.0707, -0.0167,  0.0594, -0.0630,  0.0678],
+       device='cuda:0'), grad: tensor([ 1.6165e-04,  1.2770e-03, -3.2120e-03,  1.1988e-03,  8.2850e-05,
+         2.2674e-04,  2.6727e-04], device='cuda:0')
+306
+0.009681174353198686
+changing lr
+epoch 8, time 424.95, cls_loss 0.2002 cls_loss_mapping 0.3516 cls_loss_causal 1.0047 re_mapping 0.0820 re_causal 0.0811 /// teacc 33.65 lr 0.00959764
+Epoch 10, weight, value: tensor([[ 0.2614,  0.2600,  0.2987,  ..., -0.0098,  0.0075, -0.0080],
+        [-0.0923, -0.0862, -0.1080,  ...,  0.0822,  0.0782,  0.0712],
+        [-0.0955, -0.0838, -0.1060,  ...,  0.0645,  0.0378,  0.0267],
+        ...,
+        [-0.1192, -0.1275, -0.0653,  ..., -0.0048,  0.0652,  0.0409],
+        [-0.0104, -0.0028, -0.0313,  ..., -0.1847, -0.2024, -0.2193],
+        [ 0.1168,  0.1226,  0.1041,  ..., -0.0272, -0.0155,  0.0157]],
+       device='cuda:0'), grad: tensor([[ 2.3193e-03,  1.1292e-03,  1.1568e-03,  ...,  1.0481e-03,
+          1.2121e-03,  1.2636e-03],
+        [ 2.1305e-03,  1.9920e-04,  2.6274e-04,  ...,  1.1711e-03,
+          1.3361e-03,  1.3800e-03],
+        [-5.6152e-03, -1.1911e-03, -1.2016e-03,  ..., -2.9316e-03,
+         -3.5038e-03, -3.5591e-03],
+        ...,
+        [-1.7195e-03, -1.0481e-03, -1.0672e-03,  ..., -7.2527e-04,
+         -8.3351e-04, -8.7643e-04],
+        [-7.3552e-05, -1.5363e-05, -6.2399e-06,  ..., -2.7969e-05,
+         -3.7313e-05, -3.1382e-05],
+        [ 4.4250e-04,  7.7963e-05,  8.1897e-05,  ...,  2.3389e-04,
+          2.7561e-04,  2.8086e-04]], device='cuda:0')
+Epoch 10, bias, value: tensor([-0.0325,  0.0560, -0.0762, -0.0128,  0.0681, -0.0589,  0.0619],
+       device='cuda:0'), grad: tensor([ 0.0045,  0.0079, -0.0192,  0.0078, -0.0023, -0.0003,  0.0016],
+       device='cuda:0')
+306
+0.009597638862757255
+changing lr
+---------------------saving model at epoch 9----------------------------------------------------
+epoch 9, time 428.66, cls_loss 0.1527 cls_loss_mapping 0.2936 cls_loss_causal 0.9805 re_mapping 0.0773 re_causal 0.0766 /// teacc 84.13 lr 0.00950484
+Epoch 11, weight, value: tensor([[ 0.2543,  0.2539,  0.2933,  ..., -0.0140,  0.0034, -0.0122],
+        [-0.0843, -0.0777, -0.1006,  ...,  0.0825,  0.0791,  0.0716],
+        [-0.0936, -0.0842, -0.1065,  ...,  0.0610,  0.0347,  0.0243],
+        ...,
+        [-0.1203, -0.1270, -0.0658,  ..., -0.0010,  0.0682,  0.0443],
+        [-0.0038,  0.0005, -0.0281,  ..., -0.1811, -0.1990, -0.2157],
+        [ 0.1156,  0.1199,  0.1026,  ..., -0.0263, -0.0146,  0.0164]],
+       device='cuda:0'), grad: tensor([[ 2.4765e-02,  6.7558e-03,  6.9962e-03,  ...,  1.8234e-02,
+          1.8661e-02,  1.9272e-02],
+        [ 4.1313e-03,  1.1272e-03,  1.1683e-03,  ...,  3.0441e-03,
+          3.1166e-03,  3.2177e-03],
+        [ 7.8964e-03,  2.1553e-03,  2.2316e-03,  ...,  5.8098e-03,
+          5.9509e-03,  6.1417e-03],
+        ...,
+        [-3.7140e-02, -1.0139e-02, -1.0498e-02,  ..., -2.7344e-02,
+         -2.7985e-02, -2.8900e-02],
+        [ 1.7428e-04,  4.7594e-05,  4.9263e-05,  ...,  1.2815e-04,
+          1.3125e-04,  1.3554e-04],
+        [ 8.5831e-05,  2.3320e-05,  2.4110e-05,  ...,  6.3360e-05,
+          6.4850e-05,  6.6936e-05]], device='cuda:0')
+Epoch 11, bias, value: tensor([-0.0377,  0.0606, -0.0670, -0.0292,  0.0683, -0.0484,  0.0588],
+       device='cuda:0'), grad: tensor([ 0.0754,  0.0126,  0.0241,  0.0003, -0.1132,  0.0005,  0.0003],
+       device='cuda:0')
+306
+0.009504844339512096
+changing lr
+epoch 10, time 432.92, cls_loss 0.1024 cls_loss_mapping 0.2664 cls_loss_causal 0.9671 re_mapping 0.0781 re_causal 0.0776 /// teacc 78.85 lr 0.00940298
+Epoch 12, weight, value: tensor([[ 0.2556,  0.2549,  0.2939,  ..., -0.0154,  0.0019, -0.0134],
+        [-0.0869, -0.0772, -0.1012,  ...,  0.0757,  0.0722,  0.0644],
+        [-0.0960, -0.0876, -0.1101,  ...,  0.0613,  0.0361,  0.0255],
+        ...,
+        [-0.1176, -0.1258, -0.0646,  ...,  0.0041,  0.0723,  0.0490],
+        [-0.0108, -0.0027, -0.0305,  ..., -0.1790, -0.1969, -0.2136],
+        [ 0.1190,  0.1213,  0.1047,  ..., -0.0270, -0.0154,  0.0159]],
+       device='cuda:0'), grad: tensor([[ 4.6939e-06, -6.5342e-06, -7.6517e-06,  ...,  2.5146e-06,
+          3.9227e-06,  4.4741e-06],
+        [ 2.5302e-05,  8.0988e-06,  5.8897e-06,  ...,  4.1500e-06,
+          5.7928e-06,  6.3777e-06],
+        [ 6.5279e-04,  9.4473e-05,  5.7399e-05,  ...,  3.0136e-04,
+          3.3832e-04,  3.9124e-04],
+        ...,
+        [-3.4866e-03, -3.1996e-04, -1.4079e-04,  ..., -1.8482e-03,
+         -2.0466e-03, -2.3766e-03],
+        [-6.5207e-05, -2.3693e-05, -1.9684e-05,  ..., -6.7875e-06,
+         -3.9041e-06, -1.0878e-06],
+        [-1.3351e-04, -4.1932e-05, -2.8417e-05,  ..., -1.0617e-05,
+         -1.9982e-05, -2.1055e-05]], device='cuda:0')
+Epoch 12, bias, value: tensor([-0.0359,  0.0466, -0.0613, -0.0207,  0.0722, -0.0636,  0.0679],
+       device='cuda:0'), grad: tensor([ 3.7521e-05,  6.2823e-05,  1.5831e-03,  7.4615e-03, -8.5754e-03,
+        -2.2757e-04, -3.4595e-04], device='cuda:0')
+306
+0.009402977659283692
+changing lr
+epoch 11, time 428.82, cls_loss 0.1045 cls_loss_mapping 0.2426 cls_loss_causal 0.9590 re_mapping 0.0746 re_causal 0.0742 /// teacc 73.08 lr 0.00929224
+Epoch 13, weight, value: tensor([[ 0.2544,  0.2549,  0.2941,  ..., -0.0189, -0.0027, -0.0172],
+        [-0.0718, -0.0682, -0.0925,  ...,  0.0745,  0.0723,  0.0643],
+        [-0.0980, -0.0885, -0.1105,  ...,  0.0600,  0.0352,  0.0247],
+        ...,
+        [-0.1210, -0.1289, -0.0685,  ...,  0.0058,  0.0737,  0.0503],
+        [-0.0109, -0.0042, -0.0327,  ..., -0.1759, -0.1932, -0.2096],
+        [ 0.1122,  0.1174,  0.1006,  ..., -0.0270, -0.0160,  0.0152]],
+       device='cuda:0'), grad: tensor([[-3.5858e-03, -1.9474e-03, -1.8644e-03,  ..., -1.1988e-03,
+         -1.4086e-03, -1.4277e-03],
+        [ 3.4409e-03,  1.7090e-03,  1.6346e-03,  ...,  1.1806e-03,
+          1.3924e-03,  1.4219e-03],
+        [-1.8692e-03, -2.7037e-04, -2.5535e-04,  ..., -6.8378e-04,
+         -8.3160e-04, -9.0551e-04],
+        ...,
+        [ 3.8457e-04,  1.0127e-04,  9.6619e-05,  ...,  1.2803e-04,
+          1.5509e-04,  1.6749e-04],
+        [ 8.3780e-04,  1.4365e-04,  1.3626e-04,  ...,  3.0255e-04,
+          3.6740e-04,  3.9887e-04],
+        [ 1.8275e-04,  4.3809e-05,  4.1515e-05,  ...,  6.1333e-05,
+          7.4029e-05,  8.0884e-05]], device='cuda:0')
+Epoch 13, bias, value: tensor([-0.0398,  0.0663, -0.0684, -0.0271,  0.0654, -0.0569,  0.0658],
+       device='cuda:0'), grad: tensor([-0.0050,  0.0056, -0.0061,  0.0013,  0.0010,  0.0026,  0.0005],
+       device='cuda:0')
+306
+0.009292243968009333
+changing lr
+---------------------saving model at epoch 12----------------------------------------------------
+epoch 12, time 433.28, cls_loss 0.1435 cls_loss_mapping 0.2366 cls_loss_causal 0.9508 re_mapping 0.0761 re_causal 0.0760 /// teacc 84.62 lr 0.00917287
+Epoch 14, weight, value: tensor([[ 0.2648,  0.2631,  0.3023,  ..., -0.0203, -0.0039, -0.0183],
+        [-0.0708, -0.0647, -0.0908,  ...,  0.0738,  0.0713,  0.0633],
+        [-0.1016, -0.0902, -0.1106,  ...,  0.0580,  0.0337,  0.0228],
+        ...,
+        [-0.1377, -0.1389, -0.0794,  ...,  0.0060,  0.0728,  0.0497],
+        [-0.0093, -0.0050, -0.0338,  ..., -0.1737, -0.1908, -0.2077],
+        [ 0.1134,  0.1155,  0.1006,  ..., -0.0270, -0.0161,  0.0155]],
+       device='cuda:0'), grad: tensor([[-1.0452e-02, -4.9820e-03, -4.7569e-03,  ..., -1.1320e-03,
+         -1.4286e-03, -1.5659e-03],
+        [ 9.8109e-05,  4.7505e-05,  4.5270e-05,  ...,  1.0222e-05,
+          1.2979e-05,  1.4357e-05],
+        [ 4.1217e-05,  1.9357e-05,  1.8522e-05,  ...,  4.6566e-06,
+          5.8375e-06,  6.3404e-06],
+        ...,
+        [ 1.2827e-03,  6.1560e-04,  5.8699e-04,  ...,  1.3649e-04,
+          1.7273e-04,  1.9014e-04],
+        [ 6.7101e-03,  3.0994e-03,  2.9678e-03,  ...,  7.8487e-04,
+          9.7942e-04,  1.0557e-03],
+        [ 1.6441e-03,  8.8120e-04,  8.3113e-04,  ...,  1.2231e-04,
+          1.6546e-04,  1.9848e-04]], device='cuda:0')
+Epoch 14, bias, value: tensor([-0.0348,  0.0573, -0.0797, -0.0097,  0.0495, -0.0497,  0.0722],
+       device='cuda:0'), grad: tensor([-1.6800e-02,  1.5473e-04,  6.7532e-05,  1.0681e-03,  2.0447e-03,
+         1.1192e-02,  2.2488e-03], device='cuda:0')
+306
+0.009172866268606516
+changing lr
+epoch 13, time 428.41, cls_loss 0.0724 cls_loss_mapping 0.2087 cls_loss_causal 0.9581 re_mapping 0.0757 re_causal 0.0758 /// teacc 82.21 lr 0.00904508
+Epoch 15, weight, value: tensor([[ 0.2678,  0.2653,  0.3044,  ..., -0.0203, -0.0042, -0.0183],
+        [-0.0688, -0.0640, -0.0901,  ...,  0.0728,  0.0709,  0.0626],
+        [-0.1001, -0.0903, -0.1106,  ...,  0.0604,  0.0366,  0.0265],
+        ...,
+        [-0.1351, -0.1369, -0.0781,  ...,  0.0080,  0.0743,  0.0514],
+        [-0.0108, -0.0065, -0.0349,  ..., -0.1723, -0.1900, -0.2064],
+        [ 0.1121,  0.1141,  0.0995,  ..., -0.0277, -0.0169,  0.0143]],
+       device='cuda:0'), grad: tensor([[ 1.1940e-02,  4.6654e-03,  3.6144e-03,  ...,  3.5648e-03,
+          3.6526e-03,  4.1809e-03],
+        [ 7.1526e-04,  2.5606e-04,  1.9670e-04,  ...,  2.4796e-04,
+          2.5439e-04,  2.9278e-04],
+        [ 3.0756e-04,  9.9123e-05,  7.3135e-05,  ...,  1.2970e-04,
+          1.3614e-04,  1.5116e-04],
+        ...,
+        [-1.6800e-02, -6.4583e-03, -4.9934e-03,  ..., -5.1765e-03,
+         -5.3024e-03, -6.0768e-03],
+        [ 3.9649e-04,  1.4973e-04,  1.1551e-04,  ...,  1.2648e-04,
+          1.2982e-04,  1.4853e-04],
+        [ 3.3360e-03,  1.2503e-03,  9.6607e-04,  ...,  1.0710e-03,
+          1.0958e-03,  1.2627e-03]], device='cuda:0')
+Epoch 15, bias, value: tensor([-0.0334,  0.0568, -0.0657, -0.0270,  0.0542, -0.0515,  0.0717],
+       device='cuda:0'), grad: tensor([ 0.0220,  0.0015,  0.0007,  0.0002, -0.0316,  0.0008,  0.0065],
+       device='cuda:0')
+306
+0.00904508497187474
+changing lr
+epoch 14, time 427.18, cls_loss 0.0752 cls_loss_mapping 0.2063 cls_loss_causal 0.9385 re_mapping 0.0745 re_causal 0.0746 /// teacc 77.88 lr 0.00890916
+Epoch 16, weight, value: tensor([[ 0.2597,  0.2606,  0.2997,  ..., -0.0224, -0.0069, -0.0210],
+        [-0.0762, -0.0676, -0.0934,  ...,  0.0694,  0.0677,  0.0592],
+        [-0.0925, -0.0868, -0.1069,  ...,  0.0608,  0.0379,  0.0282],
+        ...,
+        [-0.1296, -0.1333, -0.0759,  ...,  0.0107,  0.0755,  0.0534],
+        [-0.0116, -0.0077, -0.0362,  ..., -0.1713, -0.1888, -0.2052],
+        [ 0.1154,  0.1160,  0.1024,  ..., -0.0267, -0.0156,  0.0152]],
+       device='cuda:0'), grad: tensor([[-1.1276e-02, -7.5569e-03, -7.1335e-03,  ..., -9.6512e-04,
+         -1.2064e-03, -1.4009e-03],
+        [ 9.4399e-06,  6.8583e-06,  6.3330e-06,  ...,  1.8068e-06,
+          1.8124e-06,  1.7043e-06],
+        [ 3.1776e-03,  1.9855e-03,  1.8578e-03,  ...,  3.5858e-04,
+          4.3797e-04,  4.9114e-04],
+        ...,
+        [-5.6791e-04, -1.5104e-04, -1.1533e-04,  ..., -1.8704e-04,
+         -2.1851e-04, -2.2566e-04],
+        [ 1.1760e-04,  4.9055e-05,  4.1932e-05,  ...,  2.5496e-05,
+          3.0220e-05,  3.1352e-05],
+        [ 8.4915e-03,  5.6458e-03,  5.3215e-03,  ...,  7.5531e-04,
+          9.4271e-04,  1.0891e-03]], device='cuda:0')
+Epoch 16, bias, value: tensor([-0.0451,  0.0468, -0.0566, -0.0274,  0.0629, -0.0538,  0.0782],
+       device='cuda:0'), grad: tensor([-1.2550e-02,  7.4729e-06,  4.0016e-03,  7.3373e-05, -1.3828e-03,
+         2.2531e-04,  9.6130e-03], device='cuda:0')
+306
+0.008909157412340152
+changing lr
+epoch 15, time 429.27, cls_loss 0.0493 cls_loss_mapping 0.1644 cls_loss_causal 0.8087 re_mapping 0.0737 re_causal 0.0738 /// teacc 84.13 lr 0.00876536
+Epoch 17, weight, value: tensor([[ 0.2622,  0.2626,  0.3013,  ..., -0.0197, -0.0045, -0.0183],
+        [-0.0737, -0.0665, -0.0920,  ...,  0.0687,  0.0676,  0.0594],
+        [-0.1002, -0.0888, -0.1083,  ...,  0.0566,  0.0336,  0.0238],
+        ...,
+        [-0.1308, -0.1338, -0.0773,  ...,  0.0105,  0.0745,  0.0524],
+        [-0.0091, -0.0070, -0.0355,  ..., -0.1685, -0.1859, -0.2023],
+        [ 0.1094,  0.1124,  0.0990,  ..., -0.0280, -0.0173,  0.0129]],
+       device='cuda:0'), grad: tensor([[ 3.2349e-03,  9.7322e-04,  1.0643e-03,  ...,  9.9182e-04,
+          1.1444e-03,  1.1063e-03],
+        [ 1.0931e-04,  3.7700e-05,  2.9683e-05,  ...,  3.7044e-05,
+          4.3064e-05,  4.2886e-05],
+        [ 3.2806e-04,  1.1384e-04,  1.1349e-04,  ...,  1.0669e-04,
+          1.2398e-04,  1.2791e-04],
+        ...,
+        [-9.7275e-03, -3.2368e-03, -3.2558e-03,  ..., -3.1281e-03,
+         -3.6716e-03, -3.7193e-03],
+        [ 2.3975e-03,  7.9107e-04,  8.0633e-04,  ...,  7.6532e-04,
+          8.9788e-04,  9.0694e-04],
+        [ 4.2582e-04,  1.5390e-04,  1.4496e-04,  ...,  1.4293e-04,
+          1.7035e-04,  1.7917e-04]], device='cuda:0')
+Epoch 17, bias, value: tensor([-0.0407,  0.0508, -0.0761, -0.0104,  0.0615, -0.0460,  0.0660],
+       device='cuda:0'), grad: tensor([ 0.0076,  0.0002,  0.0007,  0.0070, -0.0219,  0.0054,  0.0009],
+       device='cuda:0')
+306
+0.00876535733001806
+changing lr
+epoch 16, time 430.23, cls_loss 0.0479 cls_loss_mapping 0.1632 cls_loss_causal 0.8588 re_mapping 0.0722 re_causal 0.0726 /// teacc 83.65 lr 0.00861397
+Epoch 18, weight, value: tensor([[ 0.2592,  0.2595,  0.2979,  ..., -0.0207, -0.0055, -0.0192],
+        [-0.0728, -0.0663, -0.0919,  ...,  0.0676,  0.0669,  0.0586],
+        [-0.0975, -0.0859, -0.1046,  ...,  0.0558,  0.0330,  0.0236],
+        ...,
+        [-0.1267, -0.1304, -0.0751,  ...,  0.0126,  0.0759,  0.0540],
+        [-0.0114, -0.0086, -0.0370,  ..., -0.1673, -0.1846, -0.2010],
+        [ 0.1103,  0.1118,  0.0986,  ..., -0.0272, -0.0167,  0.0132]],
+       device='cuda:0'), grad: tensor([[ 1.6737e-04,  5.5701e-05,  5.5939e-05,  ...,  5.0575e-05,
+          5.4538e-05,  6.0648e-05],
+        [ 4.0913e-04,  1.3793e-04,  1.3995e-04,  ...,  1.1837e-04,
+          1.2434e-04,  1.3864e-04],
+        [-6.3133e-03, -1.0328e-03, -1.0738e-03,  ..., -2.9068e-03,
+         -2.9488e-03, -3.3131e-03],
+        ...,
+        [ 5.3711e-03,  8.8596e-04,  9.2173e-04,  ...,  2.4643e-03,
+          2.5005e-03,  2.8095e-03],
+        [ 1.8072e-04,  4.8667e-05,  4.9621e-05,  ...,  6.4075e-05,
+          6.6817e-05,  7.4565e-05],
+        [-3.5214e-04, -2.0921e-04, -2.0885e-04,  ..., -1.7747e-05,
+         -3.2753e-05, -3.3498e-05]], device='cuda:0')
+Epoch 18, bias, value: tensor([-0.0402,  0.0505, -0.0748, -0.0158,  0.0623, -0.0484,  0.0714],
+       device='cuda:0'), grad: tensor([ 0.0004,  0.0009, -0.0178,  0.0014,  0.0151,  0.0004, -0.0005],
+       device='cuda:0')
+306
+0.008613974319136962
+changing lr
+epoch 17, time 429.92, cls_loss 0.0243 cls_loss_mapping 0.1391 cls_loss_causal 0.8789 re_mapping 0.0726 re_causal 0.0731 /// teacc 83.17 lr 0.00845531
+Epoch 19, weight, value: tensor([[ 0.2583,  0.2586,  0.2964,  ..., -0.0196, -0.0048, -0.0185],
+        [-0.0752, -0.0660, -0.0914,  ...,  0.0652,  0.0644,  0.0560],
+        [-0.0976, -0.0868, -0.1054,  ...,  0.0534,  0.0304,  0.0213],
+        ...,
+        [-0.1255, -0.1298, -0.0747,  ...,  0.0132,  0.0766,  0.0549],
+        [-0.0113, -0.0088, -0.0373,  ..., -0.1651, -0.1825, -0.1985],
+        [ 0.1100,  0.1122,  0.0997,  ..., -0.0276, -0.0173,  0.0123]],
+       device='cuda:0'), grad: tensor([[ 1.8403e-06, -8.6240e-07, -1.1362e-06,  ...,  1.7639e-06,
+          1.7975e-06,  2.0228e-06],
+        [ 8.0653e-07,  2.6636e-07,  1.9558e-07,  ...,  2.4587e-07,
+          2.5518e-07,  2.9616e-07],
+        [ 1.5311e-06,  3.5390e-07,  1.6950e-07,  ...,  6.5006e-07,
+          5.9977e-07,  7.3202e-07],
+        ...,
+        [-3.5584e-05, -6.4559e-06, -2.1216e-06,  ..., -1.6674e-05,
+         -1.6719e-05, -1.9029e-05],
+        [-7.9721e-07, -1.6205e-07, -3.1292e-07,  ...,  3.2410e-07,
+          2.8685e-07,  2.4214e-07],
+        [ 9.9838e-07,  6.4634e-07,  5.4948e-07,  ...,  1.3597e-07,
+          1.3970e-07,  1.5274e-07]], device='cuda:0')
+Epoch 19, bias, value: tensor([-0.0405,  0.0421, -0.0691, -0.0113,  0.0613, -0.0455,  0.0680],
+       device='cuda:0'), grad: tensor([ 8.4639e-06,  1.9073e-06,  3.9414e-06,  8.4400e-05, -9.7275e-05,
+        -2.9840e-06,  1.5069e-06], device='cuda:0')
+306
+0.008455313244934327
+changing lr
+epoch 18, time 426.88, cls_loss 0.0267 cls_loss_mapping 0.1306 cls_loss_causal 0.8283 re_mapping 0.0700 re_causal 0.0706 /// teacc 84.62 lr 0.00828969
+Epoch 20, weight, value: tensor([[ 0.2555,  0.2564,  0.2938,  ..., -0.0193, -0.0046, -0.0181],
+        [-0.0724, -0.0644, -0.0896,  ...,  0.0648,  0.0644,  0.0561],
+        [-0.0933, -0.0848, -0.1034,  ...,  0.0538,  0.0313,  0.0223],
+        ...,
+        [-0.1238, -0.1286, -0.0743,  ...,  0.0136,  0.0762,  0.0548],
+        [-0.0132, -0.0105, -0.0388,  ..., -0.1628, -0.1805, -0.1963],
+        [ 0.1110,  0.1128,  0.1005,  ..., -0.0283, -0.0180,  0.0112]],
+       device='cuda:0'), grad: tensor([[ 2.0943e-03,  6.0558e-04,  6.5231e-04,  ...,  1.0023e-03,
+          9.3126e-04,  1.0624e-03],
+        [ 3.7360e-04,  1.0639e-04,  1.0651e-04,  ...,  1.6189e-04,
+          1.5295e-04,  1.7846e-04],
+        [ 3.8662e-03,  9.4938e-04,  7.3290e-04,  ...,  1.3113e-03,
+          1.5354e-03,  1.6270e-03],
+        ...,
+        [-8.3771e-03, -2.2507e-03, -2.1477e-03,  ..., -3.5439e-03,
+         -3.6964e-03, -4.0207e-03],
+        [ 4.0007e-04,  1.0943e-04,  1.0467e-04,  ...,  1.6475e-04,
+          1.6594e-04,  1.8454e-04],
+        [ 8.8573e-05,  3.6508e-05,  7.8022e-05,  ...,  1.6296e-04,
+          1.9848e-04,  1.7130e-04]], device='cuda:0')
+Epoch 20, bias, value: tensor([-0.0415,  0.0456, -0.0612, -0.0222,  0.0607, -0.0479,  0.0713],
+       device='cuda:0'), grad: tensor([ 0.0055,  0.0010,  0.0094,  0.0041, -0.0212,  0.0010,  0.0003],
+       device='cuda:0')
+306
+0.008289693629698565
+changing lr
+---------------------saving model at epoch 19----------------------------------------------------
+epoch 19, time 432.12, cls_loss 0.0267 cls_loss_mapping 0.1288 cls_loss_causal 0.8148 re_mapping 0.0707 re_causal 0.0716 /// teacc 86.06 lr 0.00811745
+Epoch 21, weight, value: tensor([[ 0.2600,  0.2587,  0.2960,  ..., -0.0177, -0.0030, -0.0163],
+        [-0.0687, -0.0632, -0.0889,  ...,  0.0651,  0.0654,  0.0569],
+        [-0.0958, -0.0865, -0.1049,  ...,  0.0533,  0.0306,  0.0220],
+        ...,
+        [-0.1248, -0.1282, -0.0745,  ...,  0.0130,  0.0747,  0.0536],
+        [-0.0146, -0.0111, -0.0389,  ..., -0.1617, -0.1793, -0.1949],
+        [ 0.1092,  0.1118,  0.0995,  ..., -0.0295, -0.0196,  0.0092]],
+       device='cuda:0'), grad: tensor([[ 1.8910e-05,  6.5379e-06,  4.4592e-06,  ...,  6.7987e-06,
+          7.1824e-06,  7.8008e-06],
+        [-1.4128e-06, -1.0086e-06, -1.0710e-06,  ..., -6.9104e-07,
+         -1.0608e-06, -9.7603e-07],
+        [ 4.8101e-05,  1.2361e-05,  5.9381e-06,  ...,  8.7246e-06,
+          5.6922e-06,  8.7470e-06],
+        ...,
+        [-6.1803e-06, -3.6955e-06, -3.3882e-06,  ..., -5.7295e-06,
+         -7.3798e-06, -7.0296e-06],
+        [-1.5056e-04, -3.7521e-05, -1.7092e-05,  ..., -2.5272e-05,
+         -1.4730e-05, -2.4661e-05],
+        [ 3.8624e-05,  1.0028e-05,  4.9323e-06,  ...,  6.9328e-06,
+          4.5486e-06,  6.9775e-06]], device='cuda:0')
+Epoch 21, bias, value: tensor([-0.0320,  0.0540, -0.0647, -0.0240,  0.0552, -0.0512,  0.0674],
+       device='cuda:0'), grad: tensor([ 4.3154e-05, -3.6228e-07,  1.2267e-04,  1.3447e-04, -1.0043e-05,
+        -3.8791e-04,  9.7752e-05], device='cuda:0')
+306
+0.00811744900929367
+changing lr
+epoch 20, time 429.61, cls_loss 0.0334 cls_loss_mapping 0.1398 cls_loss_causal 0.8032 re_mapping 0.0706 re_causal 0.0716 /// teacc 84.62 lr 0.00793893
+Epoch 22, weight, value: tensor([[ 0.2576,  0.2569,  0.2942,  ..., -0.0177, -0.0028, -0.0160],
+        [-0.0645, -0.0590, -0.0853,  ...,  0.0635,  0.0634,  0.0551],
+        [-0.0925, -0.0848, -0.1032,  ...,  0.0532,  0.0312,  0.0227],
+        ...,
+        [-0.1247, -0.1288, -0.0756,  ...,  0.0144,  0.0759,  0.0548],
+        [-0.0171, -0.0135, -0.0409,  ..., -0.1600, -0.1781, -0.1935],
+        [ 0.1069,  0.1103,  0.0983,  ..., -0.0300, -0.0205,  0.0080]],
+       device='cuda:0'), grad: tensor([[-8.5533e-05, -6.3598e-05, -6.1393e-05,  ..., -1.3635e-05,
+         -1.5028e-05, -1.5661e-05],
+        [-9.6858e-05, -2.0891e-05, -1.3158e-05,  ..., -1.9193e-05,
+         -2.6330e-05, -3.3528e-05],
+        [ 1.8907e-04,  4.3601e-05,  3.0041e-05,  ...,  4.0948e-05,
+          4.7296e-05,  5.7191e-05],
+        ...,
+        [ 8.9645e-05,  4.6551e-05,  4.2140e-05,  ...,  1.4164e-05,
+          1.6123e-05,  1.9029e-05],
+        [ 3.4887e-06,  1.4324e-06,  1.4063e-06,  ..., -2.2911e-07,
+          7.2271e-07,  9.7789e-07],
+        [-1.1152e-04, -9.6262e-06, -6.3889e-07,  ..., -2.4766e-05,
+         -2.5764e-05, -3.1590e-05]], device='cuda:0')
+Epoch 22, bias, value: tensor([-0.0325,  0.0521, -0.0610, -0.0267,  0.0597, -0.0502,  0.0632],
+       device='cuda:0'), grad: tensor([-9.4354e-05, -2.4581e-04,  4.6301e-04,  2.9758e-05,  1.5485e-04,
+         6.5416e-06, -3.1376e-04], device='cuda:0')
+306
+0.007938926261462368
+changing lr
+epoch 21, time 426.58, cls_loss 0.0379 cls_loss_mapping 0.1226 cls_loss_causal 0.8209 re_mapping 0.0672 re_causal 0.0683 /// teacc 80.77 lr 0.00775448
+Epoch 23, weight, value: tensor([[ 0.2543,  0.2548,  0.2918,  ..., -0.0181, -0.0035, -0.0166],
+        [-0.0610, -0.0557, -0.0815,  ...,  0.0627,  0.0633,  0.0549],
+        [-0.0944, -0.0856, -0.1037,  ...,  0.0523,  0.0305,  0.0222],
+        ...,
+        [-0.1257, -0.1288, -0.0764,  ...,  0.0143,  0.0749,  0.0540],
+        [-0.0155, -0.0136, -0.0409,  ..., -0.1578, -0.1759, -0.1909],
+        [ 0.1065,  0.1089,  0.0971,  ..., -0.0297, -0.0205,  0.0078]],
+       device='cuda:0'), grad: tensor([[-2.0206e-05, -1.4797e-05, -1.2912e-05,  ..., -2.2482e-06,
+         -2.2426e-06, -2.8517e-06],
+        [ 3.0920e-07,  3.2224e-07,  3.0361e-07,  ..., -7.0781e-08,
+         -1.7323e-07, -1.7136e-07],
+        [ 8.7991e-06,  3.8929e-06,  3.2075e-06,  ...,  2.0005e-06,
+          2.0061e-06,  2.2966e-06],
+        ...,
+        [-2.0675e-07,  1.2089e-06,  1.0785e-06,  ..., -2.2911e-06,
+         -2.1961e-06, -2.2668e-06],
+        [-6.8881e-06, -1.1437e-06, -6.6683e-07,  ..., -1.4920e-06,
+         -1.4491e-06, -1.6559e-06],
+        [ 1.3739e-05,  9.4026e-06,  8.1286e-06,  ...,  1.7323e-06,
+          1.7434e-06,  2.1514e-06]], device='cuda:0')
+Epoch 23, bias, value: tensor([-0.0375,  0.0531, -0.0654, -0.0235,  0.0556, -0.0433,  0.0657],
+       device='cuda:0'), grad: tensor([-1.7449e-05, -2.8312e-07,  1.7524e-05,  1.3448e-05, -7.6182e-06,
+        -2.0295e-05,  1.4588e-05], device='cuda:0')
+306
+0.007754484907260515
+changing lr
+epoch 22, time 426.67, cls_loss 0.0169 cls_loss_mapping 0.1011 cls_loss_causal 0.7419 re_mapping 0.0658 re_causal 0.0668 /// teacc 85.58 lr 0.00756450
+Epoch 24, weight, value: tensor([[ 0.2518,  0.2533,  0.2901,  ..., -0.0181, -0.0037, -0.0170],
+        [-0.0619, -0.0557, -0.0812,  ...,  0.0615,  0.0621,  0.0538],
+        [-0.0946, -0.0862, -0.1040,  ...,  0.0516,  0.0301,  0.0220],
+        ...,
+        [-0.1201, -0.1249, -0.0734,  ...,  0.0155,  0.0755,  0.0550],
+        [-0.0152, -0.0134, -0.0403,  ..., -0.1562, -0.1744, -0.1893],
+        [ 0.1044,  0.1070,  0.0952,  ..., -0.0296, -0.0204,  0.0076]],
+       device='cuda:0'), grad: tensor([[ 3.6269e-05,  1.0885e-05,  5.3830e-06,  ...,  2.0787e-05,
+          2.2650e-05,  2.5585e-05],
+        [ 7.8753e-06,  2.4289e-06,  1.2554e-06,  ...,  4.4480e-06,
+          4.8541e-06,  5.4799e-06],
+        [ 9.0837e-05,  2.9549e-05,  1.5378e-05,  ...,  5.3287e-05,
+          5.8591e-05,  6.5625e-05],
+        ...,
+        [-1.1673e-03, -3.6597e-04, -1.8895e-04,  ..., -6.7091e-04,
+         -7.3385e-04, -8.2588e-04],
+        [ 8.7166e-04,  2.7275e-04,  1.4091e-04,  ...,  5.0020e-04,
+          5.4693e-04,  6.1560e-04],
+        [ 4.8757e-05,  1.5154e-05,  7.8380e-06,  ...,  2.7969e-05,
+          3.0503e-05,  3.4362e-05]], device='cuda:0')
+Epoch 24, bias, value: tensor([-0.0378,  0.0497, -0.0652, -0.0239,  0.0594, -0.0413,  0.0638],
+       device='cuda:0'), grad: tensor([ 1.0443e-04,  2.2441e-05,  2.6131e-04,  3.2115e-04, -3.3417e-03,
+         2.4929e-03,  1.3912e-04], device='cuda:0')
+306
+0.007564496387029534
+changing lr
+epoch 23, time 429.30, cls_loss 0.0200 cls_loss_mapping 0.1184 cls_loss_causal 0.7899 re_mapping 0.0647 re_causal 0.0658 /// teacc 85.58 lr 0.00736934
+Epoch 25, weight, value: tensor([[ 0.2588,  0.2577,  0.2946,  ..., -0.0171, -0.0030, -0.0160],
+        [-0.0635, -0.0567, -0.0819,  ...,  0.0609,  0.0619,  0.0534],
+        [-0.0968, -0.0871, -0.1049,  ...,  0.0503,  0.0291,  0.0212],
+        ...,
+        [-0.1225, -0.1247, -0.0735,  ...,  0.0152,  0.0745,  0.0544],
+        [-0.0159, -0.0147, -0.0414,  ..., -0.1544, -0.1725, -0.1874],
+        [ 0.1051,  0.1059,  0.0938,  ..., -0.0290, -0.0201,  0.0078]],
+       device='cuda:0'), grad: tensor([[-7.3481e-04, -4.4537e-04, -4.3368e-04,  ..., -7.9334e-05,
+         -8.5056e-05, -9.8109e-05],
+        [ 3.8147e-05,  1.6361e-05,  1.4454e-05,  ...,  9.4771e-06,
+          1.0312e-05,  1.1541e-05],
+        [ 2.7347e-04,  1.6248e-04,  1.5748e-04,  ...,  3.1322e-05,
+          3.3647e-05,  3.8832e-05],
+        ...,
+        [ 1.1367e-04,  6.1572e-05,  5.8204e-05,  ...,  1.6898e-05,
+          1.8463e-05,  2.0921e-05],
+        [ 1.5259e-04,  1.1063e-04,  1.1152e-04,  ...,  3.8184e-06,
+          4.9807e-06,  5.8860e-06],
+        [ 6.7055e-05,  4.6581e-05,  4.6998e-05,  ...,  3.6433e-06,
+          2.3656e-06,  3.5577e-06]], device='cuda:0')
+Epoch 25, bias, value: tensor([-0.0299,  0.0463, -0.0686, -0.0247,  0.0534, -0.0402,  0.0682],
+       device='cuda:0'), grad: tensor([-9.9564e-04,  7.6473e-05,  3.8290e-04,  1.4734e-04,  1.8203e-04,
+         1.3793e-04,  6.9320e-05], device='cuda:0')
+306
+0.007369343312364995
+changing lr
+epoch 24, time 426.07, cls_loss 0.0251 cls_loss_mapping 0.1051 cls_loss_causal 0.7912 re_mapping 0.0639 re_causal 0.0653 /// teacc 86.06 lr 0.00716942
+Epoch 26, weight, value: tensor([[ 0.2537,  0.2548,  0.2915,  ..., -0.0177, -0.0040, -0.0170],
+        [-0.0597, -0.0541, -0.0789,  ...,  0.0608,  0.0620,  0.0536],
+        [-0.0957, -0.0868, -0.1045,  ...,  0.0499,  0.0289,  0.0212],
+        ...,
+        [-0.1195, -0.1230, -0.0726,  ...,  0.0159,  0.0747,  0.0549],
+        [-0.0175, -0.0150, -0.0414,  ..., -0.1536, -0.1717, -0.1865],
+        [ 0.1010,  0.1035,  0.0916,  ..., -0.0302, -0.0214,  0.0061]],
+       device='cuda:0'), grad: tensor([[ 1.2159e-04,  5.0753e-05,  4.7743e-05,  ...,  3.1084e-05,
+          3.1054e-05,  3.8862e-05],
+        [ 2.5213e-05,  1.1273e-05,  1.0602e-05,  ...,  5.8673e-06,
+          5.9754e-06,  7.4059e-06],
+        [ 1.0826e-05,  5.6848e-06,  5.4725e-06,  ...,  2.8498e-06,
+          3.1032e-06,  3.4459e-06],
+        ...,
+        [-3.8218e-04, -1.7190e-04, -1.6272e-04,  ..., -9.3102e-05,
+         -9.3400e-05, -1.1605e-04],
+        [ 5.5507e-06,  4.1053e-06,  4.2394e-06,  ...,  1.8217e-06,
+          1.5423e-06,  1.8962e-06],
+        [ 3.5197e-05,  1.7121e-05,  1.6272e-05,  ...,  7.8604e-06,
+          7.9349e-06,  9.8199e-06]], device='cuda:0')
+Epoch 26, bias, value: tensor([-0.0365,  0.0497, -0.0662, -0.0146,  0.0565, -0.0447,  0.0602],
+       device='cuda:0'), grad: tensor([ 2.1684e-04,  4.3213e-05,  1.8209e-05,  3.1137e-04, -6.5041e-04,
+         4.7274e-06,  5.6416e-05], device='cuda:0')
+306
+0.0071694186955877925
+changing lr
+epoch 25, time 425.98, cls_loss 0.0207 cls_loss_mapping 0.1023 cls_loss_causal 0.7798 re_mapping 0.0635 re_causal 0.0652 /// teacc 85.10 lr 0.00696513
+Epoch 27, weight, value: tensor([[ 0.2559,  0.2547,  0.2909,  ..., -0.0169, -0.0032, -0.0158],
+        [-0.0587, -0.0531, -0.0774,  ...,  0.0610,  0.0621,  0.0538],
+        [-0.0948, -0.0862, -0.1037,  ...,  0.0492,  0.0285,  0.0209],
+        ...,
+        [-0.1254, -0.1251, -0.0754,  ...,  0.0145,  0.0725,  0.0526],
+        [-0.0178, -0.0154, -0.0415,  ..., -0.1522, -0.1701, -0.1848],
+        [ 0.1037,  0.1041,  0.0924,  ..., -0.0293, -0.0205,  0.0069]],
+       device='cuda:0'), grad: tensor([[ 0.0110,  0.0050,  0.0045,  ...,  0.0032,  0.0036,  0.0042],
+        [ 0.0048,  0.0021,  0.0020,  ...,  0.0013,  0.0015,  0.0018],
+        [-0.0494, -0.0227, -0.0208,  ..., -0.0142, -0.0161, -0.0184],
+        ...,
+        [-0.0014, -0.0005, -0.0005,  ..., -0.0004, -0.0004, -0.0005],
+        [ 0.0221,  0.0103,  0.0094,  ...,  0.0062,  0.0070,  0.0081],
+        [ 0.0116,  0.0054,  0.0049,  ...,  0.0033,  0.0037,  0.0043]],
+       device='cuda:0')
+Epoch 27, bias, value: tensor([-0.0291,  0.0499, -0.0656, -0.0168,  0.0440, -0.0445,  0.0666],
+       device='cuda:0'), grad: tensor([ 0.0222,  0.0096, -0.0975,  0.0028, -0.0031,  0.0432,  0.0229],
+       device='cuda:0')
+306
+0.0069651251582696205
+changing lr
+epoch 26, time 430.16, cls_loss 0.0187 cls_loss_mapping 0.0969 cls_loss_causal 0.7636 re_mapping 0.0622 re_causal 0.0637 /// teacc 81.25 lr 0.00675687
+Epoch 28, weight, value: tensor([[ 0.2514,  0.2523,  0.2883,  ..., -0.0173, -0.0038, -0.0165],
+        [-0.0548, -0.0502, -0.0744,  ...,  0.0596,  0.0609,  0.0527],
+        [-0.0947, -0.0856, -0.1030,  ...,  0.0477,  0.0272,  0.0195],
+        ...,
+        [-0.1235, -0.1248, -0.0757,  ...,  0.0164,  0.0739,  0.0545],
+        [-0.0161, -0.0152, -0.0411,  ..., -0.1507, -0.1689, -0.1832],
+        [ 0.1032,  0.1029,  0.0916,  ..., -0.0280, -0.0190,  0.0081]],
+       device='cuda:0'), grad: tensor([[-6.0415e-04, -3.0947e-04, -3.3808e-04,  ..., -1.3041e-04,
+         -1.2791e-04, -1.2898e-04],
+        [ 4.1664e-05,  2.1353e-05,  2.3395e-05,  ...,  9.0152e-06,
+          8.7842e-06,  8.8438e-06],
+        [ 1.7655e-04,  9.0182e-05,  9.8526e-05,  ...,  3.8236e-05,
+          3.7462e-05,  3.7819e-05],
+        ...,
+        [ 1.4520e-04,  7.4148e-05,  8.1003e-05,  ...,  3.1382e-05,
+          3.0756e-05,  3.1054e-05],
+        [ 1.5426e-04,  7.8619e-05,  8.5890e-05,  ...,  3.3408e-05,
+          3.2693e-05,  3.3081e-05],
+        [ 3.6776e-05,  1.9848e-05,  2.1681e-05,  ...,  7.6070e-06,
+          7.5847e-06,  7.5288e-06]], device='cuda:0')
+Epoch 28, bias, value: tensor([-0.0358,  0.0521, -0.0681, -0.0243,  0.0515, -0.0394,  0.0684],
+       device='cuda:0'), grad: tensor([-9.4175e-04,  6.4969e-05,  2.7657e-04,  7.8797e-05,  2.2757e-04,
+         2.4247e-04,  5.2065e-05], device='cuda:0')
+306
+0.006756874120406716
+changing lr
+epoch 27, time 426.89, cls_loss 0.0093 cls_loss_mapping 0.0824 cls_loss_causal 0.7365 re_mapping 0.0618 re_causal 0.0635 /// teacc 83.17 lr 0.00654508
+Epoch 29, weight, value: tensor([[ 0.2525,  0.2524,  0.2881,  ..., -0.0166, -0.0033, -0.0158],
+        [-0.0550, -0.0497, -0.0737,  ...,  0.0594,  0.0608,  0.0527],
+        [-0.0931, -0.0852, -0.1024,  ...,  0.0472,  0.0270,  0.0195],
+        ...,
+        [-0.1213, -0.1236, -0.0752,  ...,  0.0161,  0.0732,  0.0540],
+        [-0.0171, -0.0156, -0.0414,  ..., -0.1496, -0.1678, -0.1820],
+        [ 0.0988,  0.1004,  0.0894,  ..., -0.0284, -0.0196,  0.0071]],
+       device='cuda:0'), grad: tensor([[ 8.8453e-04,  5.9783e-05,  7.9036e-05,  ...,  3.7479e-04,
+          4.0603e-04,  4.2248e-04],
+        [ 8.6021e-04,  1.4782e-04,  1.5628e-04,  ...,  3.4332e-04,
+          3.6836e-04,  3.8695e-04],
+        [-3.3932e-03, -5.7173e-04, -6.1417e-04,  ..., -1.2398e-03,
+         -1.3380e-03, -1.4076e-03],
+        ...,
+        [ 7.9203e-04,  1.7011e-04,  1.7536e-04,  ...,  2.8706e-04,
+          3.0875e-04,  3.2568e-04],
+        [ 9.2268e-04,  1.6189e-04,  1.6904e-04,  ...,  3.9434e-04,
+          4.2653e-04,  4.4417e-04],
+        [ 6.0749e-04,  1.1957e-04,  1.2189e-04,  ...,  2.7061e-04,
+          2.9230e-04,  3.0398e-04]], device='cuda:0')
+Epoch 29, bias, value: tensor([-0.0325,  0.0499, -0.0641, -0.0240,  0.0539, -0.0409,  0.0621],
+       device='cuda:0'), grad: tensor([ 0.0026,  0.0023, -0.0089, -0.0022,  0.0020,  0.0025,  0.0017],
+       device='cuda:0')
+306
+0.00654508497187474
+changing lr
+epoch 28, time 428.99, cls_loss 0.0094 cls_loss_mapping 0.0876 cls_loss_causal 0.7353 re_mapping 0.0604 re_causal 0.0621 /// teacc 80.77 lr 0.00633018
+Epoch 30, weight, value: tensor([[ 0.2499,  0.2511,  0.2864,  ..., -0.0170, -0.0040, -0.0164],
+        [-0.0549, -0.0491, -0.0729,  ...,  0.0583,  0.0598,  0.0516],
+        [-0.0926, -0.0852, -0.1023,  ...,  0.0469,  0.0268,  0.0194],
+        ...,
+        [-0.1186, -0.1221, -0.0742,  ...,  0.0167,  0.0734,  0.0544],
+        [-0.0186, -0.0162, -0.0417,  ..., -0.1486, -0.1666, -0.1807],
+        [ 0.0981,  0.0995,  0.0886,  ..., -0.0280, -0.0192,  0.0073]],
+       device='cuda:0'), grad: tensor([[-1.0252e-04, -6.0618e-05, -6.3598e-05,  ..., -1.8939e-05,
+         -2.0102e-05, -2.1175e-05],
+        [ 1.9372e-07,  9.1270e-07,  1.0356e-06,  ..., -1.5274e-07,
+         -1.6391e-07, -1.3039e-07],
+        [ 8.8155e-05,  4.9591e-05,  5.1677e-05,  ...,  1.5959e-05,
+          1.6943e-05,  1.8016e-05],
+        ...,
+        [ 2.2665e-05,  5.7630e-06,  4.2319e-06,  ...,  5.5581e-06,
+          6.2585e-06,  7.0035e-06],
+        [-1.6429e-06,  1.9372e-07,  3.2037e-07,  ...,  1.7881e-07,
+          2.0862e-07, -2.9802e-08],
+        [-8.9109e-06,  3.0212e-06,  5.1446e-06,  ..., -2.9318e-06,
+         -3.5129e-06, -4.0941e-06]], device='cuda:0')
+Epoch 30, bias, value: tensor([-0.0365,  0.0475, -0.0623, -0.0214,  0.0576, -0.0432,  0.0627],
+       device='cuda:0'), grad: tensor([-1.2743e-04, -6.9290e-07,  1.1796e-04,  3.1106e-06,  5.4836e-05,
+        -1.0312e-05, -3.7611e-05], device='cuda:0')
+306
+0.006330184227833378
+changing lr
+---------------------saving model at epoch 29----------------------------------------------------
+epoch 29, time 434.47, cls_loss 0.0094 cls_loss_mapping 0.0785 cls_loss_causal 0.7117 re_mapping 0.0606 re_causal 0.0626 /// teacc 87.98 lr 0.00611260
+Epoch 31, weight, value: tensor([[ 0.2503,  0.2510,  0.2860,  ..., -0.0165, -0.0035, -0.0157],
+        [-0.0539, -0.0484, -0.0720,  ...,  0.0578,  0.0594,  0.0514],
+        [-0.0942, -0.0859, -0.1026,  ...,  0.0460,  0.0261,  0.0188],
+        ...,
+        [-0.1188, -0.1221, -0.0747,  ...,  0.0166,  0.0727,  0.0539],
+        [-0.0162, -0.0152, -0.0408,  ..., -0.1465, -0.1646, -0.1787],
+        [ 0.0972,  0.0984,  0.0877,  ..., -0.0281, -0.0194,  0.0069]],
+       device='cuda:0'), grad: tensor([[-4.4346e-04, -2.6488e-04, -2.6155e-04,  ..., -9.3997e-05,
+         -1.1146e-04, -1.1992e-04],
+        [-1.3721e-04, -4.3064e-05, -4.4137e-05,  ..., -5.4270e-05,
+         -5.3287e-05, -5.9724e-05],
+        [ 3.0375e-04,  1.5330e-04,  1.5008e-04,  ...,  8.3685e-05,
+          9.2566e-05,  1.0157e-04],
+        ...,
+        [ 1.5867e-04,  9.5129e-05,  9.6679e-05,  ...,  3.1501e-05,
+          3.5971e-05,  3.8385e-05],
+        [ 3.0577e-05,  1.7941e-05,  1.7643e-05,  ...,  7.5772e-06,
+          8.9332e-06,  9.7007e-06],
+        [ 5.4836e-05,  2.5928e-05,  2.5794e-05,  ...,  1.6108e-05,
+          1.7121e-05,  1.8835e-05]], device='cuda:0')
+Epoch 31, bias, value: tensor([-0.0348,  0.0479, -0.0655, -0.0245,  0.0561, -0.0370,  0.0620],
+       device='cuda:0'), grad: tensor([-5.3549e-04, -4.0984e-04,  5.2595e-04,  6.1989e-05,  2.0742e-04,
+         4.1455e-05,  1.0896e-04], device='cuda:0')
+306
+0.006112604669781575
+changing lr
+epoch 30, time 430.27, cls_loss 0.0094 cls_loss_mapping 0.0758 cls_loss_causal 0.7057 re_mapping 0.0586 re_causal 0.0606 /// teacc 87.98 lr 0.00589278
+Epoch 32, weight, value: tensor([[ 0.2509,  0.2513,  0.2860,  ..., -0.0162, -0.0034, -0.0155],
+        [-0.0541, -0.0483, -0.0717,  ...,  0.0573,  0.0590,  0.0510],
+        [-0.0944, -0.0854, -0.1020,  ...,  0.0452,  0.0255,  0.0182],
+        ...,
+        [-0.1200, -0.1226, -0.0757,  ...,  0.0161,  0.0717,  0.0530],
+        [-0.0130, -0.0142, -0.0394,  ..., -0.1452, -0.1632, -0.1771],
+        [ 0.0928,  0.0963,  0.0856,  ..., -0.0284, -0.0198,  0.0063]],
+       device='cuda:0'), grad: tensor([[ 1.1826e-03,  5.4789e-04,  4.1938e-04,  ...,  3.5620e-04,
+          4.4441e-04,  4.4823e-04],
+        [-3.4008e-03, -1.2341e-03, -9.7752e-04,  ..., -9.1982e-04,
+         -1.2970e-03, -1.2903e-03],
+        [ 1.4651e-04,  4.3333e-05,  2.9847e-05,  ...,  3.4630e-05,
+          6.0350e-05,  5.6565e-05],
+        ...,
+        [ 8.8120e-04,  2.8610e-04,  2.3878e-04,  ...,  1.9145e-04,
+          3.2616e-04,  3.1114e-04],
+        [ 3.8791e-04,  9.6798e-05,  7.8917e-05,  ...,  1.2290e-04,
+          1.5807e-04,  1.6606e-04],
+        [ 5.0402e-04,  1.7214e-04,  1.4174e-04,  ...,  1.1754e-04,
+          1.8585e-04,  1.8072e-04]], device='cuda:0')
+Epoch 32, bias, value: tensor([-0.0336,  0.0461, -0.0671, -0.0183,  0.0533, -0.0309,  0.0549],
+       device='cuda:0'), grad: tensor([ 0.0021, -0.0077,  0.0004,  0.0007,  0.0023,  0.0010,  0.0012],
+       device='cuda:0')
+306
+0.005892784473993186
+changing lr
+---------------------saving model at epoch 31----------------------------------------------------
+epoch 31, time 433.10, cls_loss 0.0076 cls_loss_mapping 0.0626 cls_loss_causal 0.6597 re_mapping 0.0570 re_causal 0.0588 /// teacc 88.46 lr 0.00567117
+Epoch 33, weight, value: tensor([[ 0.2517,  0.2513,  0.2859,  ..., -0.0157, -0.0029, -0.0148],
+        [-0.0529, -0.0478, -0.0712,  ...,  0.0578,  0.0593,  0.0514],
+        [-0.0946, -0.0857, -0.1020,  ...,  0.0441,  0.0248,  0.0176],
+        ...,
+        [-0.1194, -0.1216, -0.0752,  ...,  0.0161,  0.0713,  0.0527],
+        [-0.0172, -0.0160, -0.0411,  ..., -0.1449, -0.1629, -0.1767],
+        [ 0.0949,  0.0966,  0.0861,  ..., -0.0278, -0.0193,  0.0065]],
+       device='cuda:0'), grad: tensor([[-1.3514e-03, -7.8011e-04, -7.8249e-04,  ..., -2.5344e-04,
+         -2.6321e-04, -3.0375e-04],
+        [ 2.7561e-04,  1.6153e-04,  1.6010e-04,  ...,  5.0634e-05,
+          5.1320e-05,  6.0827e-05],
+        [ 2.5606e-04,  1.3661e-04,  1.3423e-04,  ...,  5.1290e-05,
+          5.2512e-05,  6.0558e-05],
+        ...,
+        [ 3.1090e-04,  1.7726e-04,  1.7977e-04,  ...,  5.7518e-05,
+          6.1095e-05,  6.9439e-05],
+        [ 5.1171e-05,  4.8816e-05,  5.0664e-05,  ...,  1.1854e-05,
+          1.3553e-05,  1.4424e-05],
+        [ 2.8563e-04,  1.6415e-04,  1.6391e-04,  ...,  5.2303e-05,
+          5.2512e-05,  6.1929e-05]], device='cuda:0')
+Epoch 33, bias, value: tensor([-0.0312,  0.0491, -0.0674, -0.0199,  0.0518, -0.0381,  0.0600],
+       device='cuda:0'), grad: tensor([-1.9341e-03,  3.7980e-04,  4.0054e-04,  2.6917e-04,  4.5681e-04,
+         2.0683e-05,  4.0674e-04], device='cuda:0')
+306
+0.00567116632908828
+changing lr
+epoch 32, time 426.99, cls_loss 0.0106 cls_loss_mapping 0.0678 cls_loss_causal 0.6951 re_mapping 0.0560 re_causal 0.0581 /// teacc 82.69 lr 0.00544820
+Epoch 34, weight, value: tensor([[ 0.2521,  0.2514,  0.2857,  ..., -0.0157, -0.0028, -0.0148],
+        [-0.0508, -0.0470, -0.0703,  ...,  0.0579,  0.0594,  0.0517],
+        [-0.0956, -0.0860, -0.1020,  ...,  0.0434,  0.0242,  0.0169],
+        ...,
+        [-0.1187, -0.1210, -0.0750,  ...,  0.0163,  0.0710,  0.0527],
+        [-0.0184, -0.0165, -0.0415,  ..., -0.1441, -0.1620, -0.1757],
+        [ 0.0944,  0.0958,  0.0854,  ..., -0.0276, -0.0192,  0.0065]],
+       device='cuda:0'), grad: tensor([[ 5.7459e-04,  2.7680e-04,  2.7418e-04,  ...,  5.6207e-05,
+          6.7353e-05,  1.0335e-04],
+        [ 1.3304e-04,  6.0856e-05,  5.9932e-05,  ...,  1.6704e-05,
+          1.9088e-05,  2.7254e-05],
+        [-1.2275e-06,  2.3041e-06,  2.5667e-06,  ..., -1.2163e-06,
+         -2.1253e-06, -1.9837e-06],
+        ...,
+        [ 2.1264e-05,  1.0088e-05,  1.0043e-05,  ...,  2.2147e-06,
+          2.6375e-06,  3.8743e-06],
+        [ 1.0014e-04,  4.5031e-05,  4.4435e-05,  ...,  1.4551e-05,
+          1.6063e-05,  2.1860e-05],
+        [-8.6927e-04, -4.2367e-04, -4.2057e-04,  ..., -8.1062e-05,
+         -9.7871e-05, -1.5199e-04]], device='cuda:0')
+Epoch 34, bias, value: tensor([-0.0304,  0.0528, -0.0694, -0.0211,  0.0513, -0.0399,  0.0607],
+       device='cuda:0'), grad: tensor([ 1.0033e-03,  2.4414e-04, -6.8992e-06,  3.7402e-05,  3.8028e-05,
+         1.8930e-04, -1.5049e-03], device='cuda:0')
+306
+0.00544819654451717
+changing lr
+epoch 33, time 427.05, cls_loss 0.0080 cls_loss_mapping 0.0678 cls_loss_causal 0.7349 re_mapping 0.0560 re_causal 0.0582 /// teacc 86.54 lr 0.00522432
+Epoch 35, weight, value: tensor([[ 0.2496,  0.2498,  0.2841,  ..., -0.0159, -0.0032, -0.0152],
+        [-0.0509, -0.0468, -0.0699,  ...,  0.0572,  0.0588,  0.0512],
+        [-0.0940, -0.0851, -0.1011,  ...,  0.0432,  0.0242,  0.0171],
+        ...,
+        [-0.1182, -0.1201, -0.0745,  ...,  0.0161,  0.0704,  0.0523],
+        [-0.0183, -0.0166, -0.0416,  ..., -0.1430, -0.1609, -0.1745],
+        [ 0.0933,  0.0948,  0.0846,  ..., -0.0276, -0.0192,  0.0062]],
+       device='cuda:0'), grad: tensor([[-2.4395e-03, -1.4315e-03, -1.4219e-03,  ..., -6.6614e-04,
+         -6.5660e-04, -7.2098e-04],
+        [ 4.0746e-04,  1.6570e-04,  1.5414e-04,  ...,  8.9586e-05,
+          9.1910e-05,  1.0550e-04],
+        [ 4.8685e-04,  2.4652e-04,  2.3901e-04,  ...,  1.1039e-04,
+          1.1253e-04,  1.2529e-04],
+        ...,
+        [ 8.7929e-04,  5.0354e-04,  4.9829e-04,  ...,  2.5129e-04,
+          2.4438e-04,  2.7108e-04],
+        [-3.9077e-04,  3.8408e-06,  4.0323e-05,  ..., -4.2140e-05,
+         -4.7147e-05, -6.9320e-05],
+        [ 8.9645e-04,  4.3797e-04,  4.2105e-04,  ...,  2.1875e-04,
+          2.1732e-04,  2.4557e-04]], device='cuda:0')
+Epoch 35, bias, value: tensor([-0.0333,  0.0510, -0.0670, -0.0178,  0.0498, -0.0383,  0.0596],
+       device='cuda:0'), grad: tensor([-0.0039,  0.0008,  0.0008,  0.0003,  0.0015, -0.0012,  0.0016],
+       device='cuda:0')
+306
+0.005224324151752577
+changing lr
+epoch 34, time 428.33, cls_loss 0.0042 cls_loss_mapping 0.0575 cls_loss_causal 0.6963 re_mapping 0.0553 re_causal 0.0577 /// teacc 85.58 lr 0.00500000
+Epoch 36, weight, value: tensor([[ 0.2492,  0.2493,  0.2833,  ..., -0.0158, -0.0032, -0.0151],
+        [-0.0521, -0.0472, -0.0701,  ...,  0.0566,  0.0582,  0.0505],
+        [-0.0929, -0.0847, -0.1006,  ...,  0.0430,  0.0242,  0.0171],
+        ...,
+        [-0.1164, -0.1190, -0.0738,  ...,  0.0165,  0.0704,  0.0524],
+        [-0.0172, -0.0164, -0.0414,  ..., -0.1417, -0.1595, -0.1728],
+        [ 0.0920,  0.0938,  0.0838,  ..., -0.0276, -0.0193,  0.0059]],
+       device='cuda:0'), grad: tensor([[-2.1362e-04, -1.1706e-04, -1.1629e-04,  ..., -5.4300e-05,
+         -5.6475e-05, -5.9038e-05],
+        [ 2.7761e-05,  1.4283e-05,  1.4096e-05,  ...,  6.8471e-06,
+          7.1414e-06,  7.5735e-06],
+        [ 1.2493e-04,  6.5327e-05,  6.4611e-05,  ...,  3.1233e-05,
+          3.2574e-05,  3.4422e-05],
+        ...,
+        [ 1.7971e-05,  9.3132e-06,  9.1493e-06,  ...,  3.6974e-06,
+          3.9116e-06,  4.1649e-06],
+        [ 4.7088e-05,  2.2233e-05,  2.1875e-05,  ...,  1.0654e-05,
+          1.1109e-05,  1.2226e-05],
+        [-1.9550e-05, -2.3656e-06, -1.5628e-06,  ..., -1.5832e-06,
+         -1.8850e-06, -3.2447e-06]], device='cuda:0')
+Epoch 36, bias, value: tensor([-0.0330,  0.0474, -0.0645, -0.0211,  0.0514, -0.0336,  0.0575],
+       device='cuda:0'), grad: tensor([-3.4666e-04,  4.8816e-05,  2.1541e-04,  2.4825e-05,  3.2306e-05,
+         9.2864e-05, -6.8188e-05], device='cuda:0')
+306
+0.005000000000000003
+changing lr
+epoch 35, time 428.68, cls_loss 0.0057 cls_loss_mapping 0.0564 cls_loss_causal 0.6790 re_mapping 0.0534 re_causal 0.0557 /// teacc 86.54 lr 0.00477568
+Epoch 37, weight, value: tensor([[ 0.2490,  0.2492,  0.2831,  ..., -0.0157, -0.0032, -0.0150],
+        [-0.0533, -0.0474, -0.0702,  ...,  0.0559,  0.0575,  0.0498],
+        [-0.0930, -0.0845, -0.1003,  ...,  0.0425,  0.0239,  0.0169],
+        ...,
+        [-0.1153, -0.1182, -0.0733,  ...,  0.0167,  0.0703,  0.0524],
+        [-0.0177, -0.0169, -0.0417,  ..., -0.1408, -0.1588, -0.1719],
+        [ 0.0928,  0.0935,  0.0835,  ..., -0.0270, -0.0188,  0.0063]],
+       device='cuda:0'), grad: tensor([[-1.9026e-04, -1.2153e-04, -1.2040e-04,  ..., -2.5526e-05,
+         -2.8968e-05, -3.4362e-05],
+        [ 1.2696e-04,  4.9949e-05,  4.9144e-05,  ...,  3.4660e-05,
+          4.0740e-05,  4.1753e-05],
+        [ 8.4221e-05,  4.2409e-05,  4.1664e-05,  ...,  1.6063e-05,
+          1.8761e-05,  2.1011e-05],
+        ...,
+        [-4.0221e-04, -1.1349e-04, -1.1182e-04,  ..., -1.4126e-04,
+         -1.6749e-04, -1.6463e-04],
+        [ 1.6600e-05,  1.8686e-05,  2.0117e-05,  ...,  3.7812e-07,
+          2.9206e-06,  2.1532e-06],
+        [ 1.7178e-04,  6.0230e-05,  5.8681e-05,  ...,  5.3525e-05,
+          6.0827e-05,  6.0886e-05]], device='cuda:0')
+Epoch 37, bias, value: tensor([-0.0331,  0.0438, -0.0652, -0.0216,  0.0517, -0.0324,  0.0609],
+       device='cuda:0'), grad: tensor([-2.2066e-04,  2.5630e-04,  1.3638e-04,  4.3583e-04, -9.7466e-04,
+        -8.4341e-06,  3.7503e-04], device='cuda:0')
+306
+0.004775675848247429
+changing lr
+epoch 36, time 426.09, cls_loss 0.0056 cls_loss_mapping 0.0548 cls_loss_causal 0.6659 re_mapping 0.0529 re_causal 0.0553 /// teacc 84.62 lr 0.00455180
+Epoch 38, weight, value: tensor([[ 0.2494,  0.2492,  0.2830,  ..., -0.0157, -0.0032, -0.0149],
+        [-0.0519, -0.0468, -0.0695,  ...,  0.0557,  0.0575,  0.0499],
+        [-0.0936, -0.0847, -0.1003,  ...,  0.0419,  0.0234,  0.0164],
+        ...,
+        [-0.1138, -0.1172, -0.0726,  ...,  0.0171,  0.0703,  0.0526],
+        [-0.0186, -0.0172, -0.0419,  ..., -0.1402, -0.1581, -0.1712],
+        [ 0.0912,  0.0921,  0.0822,  ..., -0.0268, -0.0187,  0.0063]],
+       device='cuda:0'), grad: tensor([[ 3.4750e-05,  1.2450e-05,  1.1384e-05,  ...,  8.5309e-06,
+          9.8050e-06,  1.1593e-05],
+        [-1.0271e-03, -4.1318e-04, -3.9172e-04,  ..., -1.4448e-04,
+         -1.7440e-04, -2.1589e-04],
+        [ 5.4985e-06,  2.5854e-06,  2.5835e-06,  ...,  2.0489e-08,
+          1.8626e-08,  2.0862e-07],
+        ...,
+        [-4.6492e-06, -3.4589e-06, -3.4049e-06,  ..., -4.2692e-06,
+         -5.1111e-06, -5.2936e-06],
+        [-1.3888e-05, -8.7917e-07, -6.4634e-07,  ..., -3.5372e-06,
+         -2.5574e-06, -3.6340e-06],
+        [ 9.9373e-04,  3.9911e-04,  3.7861e-04,  ...,  1.4126e-04,
+          1.6975e-04,  2.0993e-04]], device='cuda:0')
+Epoch 38, bias, value: tensor([-0.0323,  0.0466, -0.0664, -0.0230,  0.0530, -0.0339,  0.0600],
+       device='cuda:0'), grad: tensor([ 7.5400e-05, -1.8406e-03,  8.1286e-06,  3.1173e-05, -1.1809e-05,
+        -4.4286e-05,  1.7853e-03], device='cuda:0')
+306
+0.004551803455482836
+changing lr
+epoch 37, time 425.12, cls_loss 0.0061 cls_loss_mapping 0.0590 cls_loss_causal 0.6774 re_mapping 0.0525 re_causal 0.0551 /// teacc 83.17 lr 0.00432883
+Epoch 39, weight, value: tensor([[ 0.2483,  0.2485,  0.2821,  ..., -0.0158, -0.0035, -0.0151],
+        [-0.0507, -0.0462, -0.0687,  ...,  0.0556,  0.0575,  0.0499],
+        [-0.0933, -0.0845, -0.1000,  ...,  0.0415,  0.0232,  0.0162],
+        ...,
+        [-0.1130, -0.1164, -0.0722,  ...,  0.0172,  0.0700,  0.0525],
+        [-0.0192, -0.0175, -0.0421,  ..., -0.1396, -0.1574, -0.1704],
+        [ 0.0900,  0.0911,  0.0812,  ..., -0.0268, -0.0187,  0.0061]],
+       device='cuda:0'), grad: tensor([[-1.6487e-04, -1.0222e-04, -1.0294e-04,  ..., -1.8775e-05,
+         -1.5110e-05, -1.9088e-05],
+        [ 2.0981e-05,  3.2540e-06,  2.7195e-06,  ...,  5.4128e-06,
+          6.1393e-06,  7.4096e-06],
+        [ 1.8418e-04,  1.0049e-04,  1.0014e-04,  ...,  2.5466e-05,
+          2.3037e-05,  2.8580e-05],
+        ...,
+        [ 4.7654e-05,  9.2238e-06,  7.8902e-06,  ...,  1.1139e-05,
+          1.2316e-05,  1.5184e-05],
+        [-1.4281e-04, -1.4052e-05, -9.4771e-06,  ..., -3.4928e-05,
+         -3.9577e-05, -4.9472e-05],
+        [ 8.9034e-06, -2.5947e-06, -2.8443e-06,  ...,  2.9244e-07,
+          4.1351e-07,  1.5832e-06]], device='cuda:0')
+Epoch 39, bias, value: tensor([-0.0338,  0.0484, -0.0660, -0.0216,  0.0525, -0.0344,  0.0589],
+       device='cuda:0'), grad: tensor([-1.9264e-04,  6.2644e-05,  2.6774e-04,  1.4007e-04,  1.3340e-04,
+        -4.5323e-04,  4.2528e-05], device='cuda:0')
+306
+0.004328833670911726
+changing lr
+---------------------saving model at epoch 38----------------------------------------------------
+epoch 38, time 430.89, cls_loss 0.0048 cls_loss_mapping 0.0498 cls_loss_causal 0.6565 re_mapping 0.0502 re_causal 0.0527 /// teacc 90.38 lr 0.00410722
+Epoch 40, weight, value: tensor([[ 0.2478,  0.2481,  0.2815,  ..., -0.0158, -0.0035, -0.0151],
+        [-0.0505, -0.0459, -0.0683,  ...,  0.0551,  0.0570,  0.0494],
+        [-0.0923, -0.0841, -0.0996,  ...,  0.0414,  0.0233,  0.0164],
+        ...,
+        [-0.1132, -0.1161, -0.0721,  ...,  0.0171,  0.0696,  0.0521],
+        [-0.0200, -0.0178, -0.0422,  ..., -0.1390, -0.1568, -0.1697],
+        [ 0.0894,  0.0902,  0.0805,  ..., -0.0267, -0.0188,  0.0059]],
+       device='cuda:0'), grad: tensor([[-3.8218e-04, -2.5368e-04, -2.5129e-04,  ..., -3.4750e-05,
+         -4.4465e-05, -5.1945e-05],
+        [ 9.3281e-05,  5.9783e-05,  5.9187e-05,  ...,  1.0341e-05,
+          1.3016e-05,  1.4789e-05],
+        [ 1.3657e-05,  1.0043e-05,  9.9838e-06,  ...,  1.3318e-06,
+          1.8254e-06,  1.9278e-06],
+        ...,
+        [ 5.6207e-05,  3.2425e-05,  3.2097e-05,  ...,  8.9929e-06,
+          1.1019e-05,  1.1913e-05],
+        [ 4.3213e-06,  8.9258e-06,  9.3654e-06,  ..., -5.5321e-07,
+          8.8103e-07,  4.0978e-07],
+        [ 2.1148e-04,  1.3483e-04,  1.3328e-04,  ...,  2.1800e-05,
+          2.6941e-05,  3.1203e-05]], device='cuda:0')
+Epoch 40, bias, value: tensor([-0.0341,  0.0476, -0.0636, -0.0197,  0.0505, -0.0361,  0.0592],
+       device='cuda:0'), grad: tensor([-3.9268e-04,  1.0526e-04,  1.1511e-05, -2.8744e-05,  7.9453e-05,
+        -1.2942e-05,  2.3806e-04], device='cuda:0')
+306
+0.0041072155260068206
+changing lr
+epoch 39, time 431.70, cls_loss 0.0051 cls_loss_mapping 0.0535 cls_loss_causal 0.7021 re_mapping 0.0495 re_causal 0.0520 /// teacc 86.06 lr 0.00388740
+Epoch 41, weight, value: tensor([[ 0.2513,  0.2500,  0.2832,  ..., -0.0149, -0.0026, -0.0140],
+        [-0.0511, -0.0459, -0.0682,  ...,  0.0546,  0.0565,  0.0489],
+        [-0.0920, -0.0841, -0.0995,  ...,  0.0412,  0.0232,  0.0164],
+        ...,
+        [-0.1122, -0.1155, -0.0718,  ...,  0.0172,  0.0693,  0.0519],
+        [-0.0206, -0.0180, -0.0424,  ..., -0.1384, -0.1561, -0.1690],
+        [ 0.0860,  0.0879,  0.0783,  ..., -0.0271, -0.0193,  0.0051]],
+       device='cuda:0'), grad: tensor([[-9.6977e-05, -7.2122e-05, -7.0632e-05,  ..., -4.6343e-06,
+         -6.8955e-06, -6.5528e-06],
+        [ 7.1883e-05,  1.8924e-05,  1.8641e-05,  ...,  2.4423e-05,
+          2.8446e-05,  3.0786e-05],
+        [-1.3530e-04, -5.0068e-06, -4.9546e-06,  ..., -5.1588e-05,
+         -5.1260e-05, -5.7846e-05],
+        ...,
+        [ 1.7941e-04,  4.3571e-05,  4.2886e-05,  ...,  5.6475e-05,
+          6.2644e-05,  6.8307e-05],
+        [-4.5598e-05,  6.7055e-08,  9.5367e-07,  ..., -1.6466e-05,
+         -2.1920e-05, -2.2978e-05],
+        [-3.1441e-05,  5.8487e-07, -5.1036e-07,  ..., -2.8342e-05,
+         -3.4481e-05, -3.7223e-05]], device='cuda:0')
+Epoch 41, bias, value: tensor([-0.0283,  0.0453, -0.0618, -0.0206,  0.0508, -0.0370,  0.0554],
+       device='cuda:0'), grad: tensor([-7.4744e-05,  1.7619e-04, -4.0269e-04,  1.4830e-04,  4.4298e-04,
+        -2.0444e-04, -8.5533e-05], device='cuda:0')
+306
+0.0038873953302184317
+changing lr
+epoch 40, time 429.47, cls_loss 0.0052 cls_loss_mapping 0.0468 cls_loss_causal 0.6742 re_mapping 0.0483 re_causal 0.0508 /// teacc 87.02 lr 0.00366982
+Epoch 42, weight, value: tensor([[ 0.2490,  0.2490,  0.2821,  ..., -0.0153, -0.0030, -0.0145],
+        [-0.0508, -0.0456, -0.0678,  ...,  0.0542,  0.0562,  0.0486],
+        [-0.0907, -0.0838, -0.0991,  ...,  0.0412,  0.0233,  0.0167],
+        ...,
+        [-0.1121, -0.1149, -0.0715,  ...,  0.0172,  0.0689,  0.0516],
+        [-0.0202, -0.0181, -0.0423,  ..., -0.1376, -0.1552, -0.1681],
+        [ 0.0861,  0.0873,  0.0777,  ..., -0.0269, -0.0191,  0.0052]],
+       device='cuda:0'), grad: tensor([[ 7.0524e-04,  2.4354e-04,  2.1636e-04,  ...,  9.5367e-05,
+          1.0043e-04,  1.0616e-04],
+        [ 8.6203e-06, -1.9744e-06, -2.6431e-06,  ..., -6.4969e-06,
+         -6.2473e-06, -7.8455e-06],
+        [ 1.5199e-04,  4.8757e-05,  4.3005e-05,  ...,  3.3259e-05,
+          3.6716e-05,  3.8743e-05],
+        ...,
+        [ 9.5427e-05,  3.2485e-05,  2.9102e-05,  ...,  1.6078e-05,
+          1.7956e-05,  1.9237e-05],
+        [ 7.1466e-05,  2.4527e-05,  2.2009e-05,  ...,  1.1332e-05,
+          1.2673e-05,  1.3590e-05],
+        [-9.4128e-04, -3.2496e-04, -2.8896e-04,  ..., -1.0651e-04,
+         -1.1295e-04, -1.1897e-04]], device='cuda:0')
+Epoch 42, bias, value: tensor([-0.0322,  0.0448, -0.0585, -0.0213,  0.0490, -0.0356,  0.0576],
+       device='cuda:0'), grad: tensor([ 1.4572e-03,  3.4839e-05,  3.1948e-04, -2.0826e-04,  1.9515e-04,
+         1.4567e-04, -1.9464e-03], device='cuda:0')
+306
+0.003669815772166629
+changing lr
+epoch 41, time 427.88, cls_loss 0.0065 cls_loss_mapping 0.0534 cls_loss_causal 0.6753 re_mapping 0.0489 re_causal 0.0515 /// teacc 86.54 lr 0.00345492
+Epoch 43, weight, value: tensor([[ 0.2492,  0.2492,  0.2821,  ..., -0.0153, -0.0032, -0.0146],
+        [-0.0510, -0.0455, -0.0676,  ...,  0.0537,  0.0557,  0.0482],
+        [-0.0909, -0.0837, -0.0989,  ...,  0.0408,  0.0231,  0.0165],
+        ...,
+        [-0.1110, -0.1143, -0.0712,  ...,  0.0175,  0.0690,  0.0519],
+        [-0.0209, -0.0183, -0.0424,  ..., -0.1370, -0.1546, -0.1674],
+        [ 0.0852,  0.0864,  0.0768,  ..., -0.0269, -0.0192,  0.0050]],
+       device='cuda:0'), grad: tensor([[ 1.2779e-04,  4.0859e-05,  3.5703e-05,  ...,  3.8385e-05,
+          4.5091e-05,  5.1558e-05],
+        [ 7.3612e-06,  2.3488e-06,  2.0191e-06,  ...,  2.3954e-06,
+          2.9132e-06,  3.2187e-06],
+        [-6.0797e-05, -1.8999e-05, -1.8507e-05,  ..., -4.4629e-06,
+         -9.8720e-07, -7.0706e-06],
+        ...,
+        [-1.0753e-04, -3.7402e-05, -3.1054e-05,  ..., -4.6730e-05,
+         -5.9545e-05, -6.1870e-05],
+        [-4.8988e-06,  8.9221e-07,  1.3467e-06,  ...,  1.0617e-07,
+         -4.2282e-07, -1.7136e-07],
+        [ 1.0051e-05,  3.7905e-06,  3.2373e-06,  ...,  1.7025e-06,
+          2.3823e-06,  2.7604e-06]], device='cuda:0')
+Epoch 43, bias, value: tensor([-0.0323,  0.0438, -0.0593, -0.0198,  0.0506, -0.0368,  0.0577],
+       device='cuda:0'), grad: tensor([ 2.9945e-04,  1.6332e-05, -1.7369e-04,  6.4611e-05, -2.1088e-04,
+        -1.8358e-05,  2.2486e-05], device='cuda:0')
+306
+0.0034549150281252667
+changing lr
+epoch 42, time 431.83, cls_loss 0.0043 cls_loss_mapping 0.0461 cls_loss_causal 0.6401 re_mapping 0.0486 re_causal 0.0514 /// teacc 84.62 lr 0.00324313
+Epoch 44, weight, value: tensor([[ 0.2495,  0.2492,  0.2820,  ..., -0.0153, -0.0032, -0.0145],
+        [-0.0501, -0.0451, -0.0671,  ...,  0.0536,  0.0556,  0.0481],
+        [-0.0910, -0.0837, -0.0989,  ...,  0.0405,  0.0229,  0.0163],
+        ...,
+        [-0.1111, -0.1140, -0.0711,  ...,  0.0175,  0.0687,  0.0517],
+        [-0.0213, -0.0185, -0.0426,  ..., -0.1364, -0.1540, -0.1667],
+        [ 0.0847,  0.0858,  0.0763,  ..., -0.0268, -0.0192,  0.0050]],
+       device='cuda:0'), grad: tensor([[-1.4976e-05, -1.8388e-05, -1.7866e-05,  ...,  1.8664e-06,
+          2.2594e-06,  2.4643e-06],
+        [ 1.0014e-04,  9.9018e-06,  6.0499e-06,  ...,  3.9488e-05,
+          4.5002e-05,  4.9442e-05],
+        [ 2.6536e-04,  2.3797e-05,  1.4089e-05,  ...,  1.0502e-04,
+          1.2076e-04,  1.3196e-04],
+        ...,
+        [-6.3515e-04, -4.6462e-05, -2.4155e-05,  ..., -2.5392e-04,
+         -2.9373e-04, -3.2043e-04],
+        [ 5.5671e-05,  5.0776e-06,  3.2317e-06,  ...,  2.2560e-05,
+          2.5466e-05,  2.7850e-05],
+        [ 1.9002e-04,  2.3529e-05,  1.6689e-05,  ...,  7.2062e-05,
+          8.2552e-05,  9.0301e-05]], device='cuda:0')
+Epoch 44, bias, value: tensor([-0.0314,  0.0445, -0.0594, -0.0199,  0.0491, -0.0369,  0.0577],
+       device='cuda:0'), grad: tensor([ 1.7658e-05,  3.0422e-04,  8.1301e-04,  1.1760e-04, -1.9779e-03,
+         1.6999e-04,  5.5742e-04], device='cuda:0')
+306
+0.0032431258795932905
+changing lr
+epoch 43, time 427.82, cls_loss 0.0039 cls_loss_mapping 0.0450 cls_loss_causal 0.6249 re_mapping 0.0474 re_causal 0.0502 /// teacc 86.54 lr 0.00303487
+Epoch 45, weight, value: tensor([[ 0.2480,  0.2484,  0.2811,  ..., -0.0155, -0.0035, -0.0148],
+        [-0.0493, -0.0446, -0.0666,  ...,  0.0534,  0.0555,  0.0480],
+        [-0.0911, -0.0836, -0.0987,  ...,  0.0401,  0.0227,  0.0161],
+        ...,
+        [-0.1105, -0.1136, -0.0709,  ...,  0.0176,  0.0687,  0.0517],
+        [-0.0208, -0.0185, -0.0425,  ..., -0.1358, -0.1533, -0.1659],
+        [ 0.0842,  0.0853,  0.0759,  ..., -0.0268, -0.0191,  0.0049]],
+       device='cuda:0'), grad: tensor([[ 3.8862e-04,  1.0622e-04,  1.0890e-04,  ...,  1.5783e-04,
+          1.7059e-04,  1.8311e-04],
+        [ 3.5614e-05,  1.0513e-05,  8.5682e-06,  ...,  1.9521e-05,
+          2.2337e-05,  2.3574e-05],
+        [-2.2268e-04, -3.7193e-05, -4.0859e-05,  ..., -7.3195e-05,
+         -7.8142e-05, -9.1970e-05],
+        ...,
+        [-3.6907e-04, -1.2648e-04, -1.1647e-04,  ..., -1.8442e-04,
+         -2.0373e-04, -2.0933e-04],
+        [ 4.9770e-05,  1.2524e-05,  1.2390e-05,  ...,  2.1741e-05,
+          2.4214e-05,  2.6256e-05],
+        [ 3.8534e-05,  1.1489e-05,  9.8050e-06,  ...,  1.9610e-05,
+          2.1860e-05,  2.2933e-05]], device='cuda:0')
+Epoch 45, bias, value: tensor([-0.0337,  0.0451, -0.0600, -0.0192,  0.0491, -0.0350,  0.0576],
+       device='cuda:0'), grad: tensor([ 8.6308e-04,  7.6950e-05, -5.8699e-04,  1.7869e-04, -7.2908e-04,
+         1.1402e-04,  8.3148e-05], device='cuda:0')
+306
+0.0030348748417303863
+changing lr
+epoch 44, time 426.53, cls_loss 0.0031 cls_loss_mapping 0.0422 cls_loss_causal 0.6510 re_mapping 0.0467 re_causal 0.0495 /// teacc 86.06 lr 0.00283058
+Epoch 46, weight, value: tensor([[ 0.2471,  0.2479,  0.2805,  ..., -0.0157, -0.0037, -0.0151],
+        [-0.0492, -0.0445, -0.0663,  ...,  0.0532,  0.0554,  0.0479],
+        [-0.0904, -0.0834, -0.0984,  ...,  0.0401,  0.0227,  0.0162],
+        ...,
+        [-0.1096, -0.1130, -0.0704,  ...,  0.0179,  0.0687,  0.0519],
+        [-0.0199, -0.0182, -0.0422,  ..., -0.1351, -0.1525, -0.1650],
+        [ 0.0826,  0.0844,  0.0751,  ..., -0.0269, -0.0193,  0.0046]],
+       device='cuda:0'), grad: tensor([[ 2.2233e-05,  4.0531e-06,  3.6173e-06,  ...,  7.3127e-06,
+          8.8513e-06,  9.5591e-06],
+        [ 2.4855e-05,  4.6380e-06,  4.7497e-06,  ...,  1.1235e-05,
+          1.2487e-05,  1.3188e-05],
+        [-1.9088e-05, -3.9786e-06, -2.7493e-06,  ...,  3.8594e-06,
+          1.6009e-06, -4.5635e-07],
+        ...,
+        [ 7.0989e-05,  8.3148e-06,  9.3728e-06,  ...,  3.5614e-05,
+          3.9279e-05,  4.1932e-05],
+        [ 1.1116e-04,  1.2904e-05,  1.5192e-05,  ...,  6.3360e-05,
+          6.8307e-05,  7.0989e-05],
+        [-3.1441e-05, -1.5251e-05, -1.2942e-05,  ..., -6.5006e-07,
+         -3.1181e-06, -3.5092e-06]], device='cuda:0')
+Epoch 46, bias, value: tensor([-0.0350,  0.0450, -0.0580, -0.0206,  0.0497, -0.0327,  0.0553],
+       device='cuda:0'), grad: tensor([ 6.0409e-05,  6.4909e-05, -5.6982e-05, -5.0735e-04,  1.9813e-04,
+         3.0398e-04, -6.2764e-05], device='cuda:0')
+306
+0.0028305813044122124
+changing lr
+epoch 45, time 428.43, cls_loss 0.0033 cls_loss_mapping 0.0372 cls_loss_causal 0.6389 re_mapping 0.0461 re_causal 0.0489 /// teacc 86.06 lr 0.00263066
+Epoch 47, weight, value: tensor([[ 0.2468,  0.2476,  0.2801,  ..., -0.0156, -0.0037, -0.0151],
+        [-0.0488, -0.0443, -0.0660,  ...,  0.0530,  0.0552,  0.0478],
+        [-0.0904, -0.0833, -0.0983,  ...,  0.0398,  0.0225,  0.0160],
+        ...,
+        [-0.1086, -0.1124, -0.0699,  ...,  0.0182,  0.0688,  0.0521],
+        [-0.0199, -0.0184, -0.0423,  ..., -0.1346, -0.1520, -0.1645],
+        [ 0.0815,  0.0837,  0.0744,  ..., -0.0270, -0.0195,  0.0043]],
+       device='cuda:0'), grad: tensor([[ 2.9951e-05, -2.6792e-05, -3.1501e-05,  ...,  8.2031e-06,
+          8.5086e-06,  1.1154e-05],
+        [-1.4961e-04, -6.3956e-05, -6.0052e-05,  ..., -5.1737e-05,
+         -6.2943e-05, -6.9201e-05],
+        [-9.4604e-04, -1.0973e-04, -5.1677e-05,  ..., -1.7416e-04,
+         -1.8346e-04, -2.0885e-04],
+        ...,
+        [ 3.8338e-04,  8.6546e-05,  6.5982e-05,  ...,  9.0778e-05,
+          1.0258e-04,  1.1402e-04],
+        [ 4.9114e-04,  6.0260e-05,  3.3230e-05,  ...,  8.3089e-05,
+          8.5413e-05,  9.7692e-05],
+        [ 1.1992e-04,  3.7611e-05,  3.2216e-05,  ...,  2.8685e-05,
+          3.3110e-05,  3.6567e-05]], device='cuda:0')
+Epoch 47, bias, value: tensor([-0.0350,  0.0456, -0.0582, -0.0206,  0.0506, -0.0320,  0.0536],
+       device='cuda:0'), grad: tensor([ 0.0002, -0.0003, -0.0027,  0.0002,  0.0010,  0.0014,  0.0003],
+       device='cuda:0')
+306
+0.0026306566876350096
+changing lr
+epoch 46, time 470.73, cls_loss 0.0037 cls_loss_mapping 0.0379 cls_loss_causal 0.6401 re_mapping 0.0456 re_causal 0.0483 /// teacc 86.06 lr 0.00243550
+Epoch 48, weight, value: tensor([[ 0.2481,  0.2483,  0.2807,  ..., -0.0153, -0.0034, -0.0146],
+        [-0.0491, -0.0443, -0.0660,  ...,  0.0528,  0.0550,  0.0475],
+        [-0.0905, -0.0833, -0.0982,  ...,  0.0396,  0.0224,  0.0159],
+        ...,
+        [-0.1091, -0.1123, -0.0700,  ...,  0.0180,  0.0684,  0.0517],
+        [-0.0202, -0.0186, -0.0425,  ..., -0.1343, -0.1516, -0.1641],
+        [ 0.0814,  0.0831,  0.0739,  ..., -0.0267, -0.0193,  0.0045]],
+       device='cuda:0'), grad: tensor([[-6.1356e-06, -1.0031e-04, -1.0329e-04,  ..., -3.7737e-06,
+          4.6641e-06, -4.1816e-07],
+        [ 1.4558e-05,  8.7991e-06,  8.2701e-06,  ...,  1.1362e-07,
+          1.1306e-06,  1.6019e-06],
+        [-2.8872e-04, -2.8953e-05, -2.7329e-05,  ..., -4.5776e-05,
+         -5.9903e-05, -6.5863e-05],
+        ...,
+        [ 1.9741e-04,  9.6142e-05,  9.7275e-05,  ...,  3.3945e-05,
+          3.6329e-05,  4.4256e-05],
+        [ 5.7846e-05,  1.5557e-05,  1.5691e-05,  ...,  1.1273e-05,
+          1.2152e-05,  1.4022e-05],
+        [ 1.4775e-05,  4.5337e-06,  5.0813e-06,  ...,  3.1181e-06,
+          4.2319e-06,  4.7013e-06]], device='cuda:0')
+Epoch 48, bias, value: tensor([-0.0331,  0.0446, -0.0586, -0.0211,  0.0488, -0.0323,  0.0554],
+       device='cuda:0'), grad: tensor([ 2.4533e-04,  1.8641e-05, -8.0538e-04,  1.8939e-05,  3.4881e-04,
+         1.3614e-04,  3.7193e-05], device='cuda:0')
+306
+0.0024355036129704724
+changing lr
+epoch 47, time 429.21, cls_loss 0.0029 cls_loss_mapping 0.0359 cls_loss_causal 0.6213 re_mapping 0.0454 re_causal 0.0483 /// teacc 85.58 lr 0.00224552
+Epoch 49, weight, value: tensor([[ 0.2480,  0.2482,  0.2805,  ..., -0.0153, -0.0034, -0.0146],
+        [-0.0491, -0.0442, -0.0658,  ...,  0.0525,  0.0547,  0.0473],
+        [-0.0902, -0.0832, -0.0981,  ...,  0.0395,  0.0223,  0.0158],
+        ...,
+        [-0.1089, -0.1120, -0.0699,  ...,  0.0180,  0.0682,  0.0516],
+        [-0.0203, -0.0188, -0.0426,  ..., -0.1339, -0.1512, -0.1637],
+        [ 0.0814,  0.0828,  0.0736,  ..., -0.0265, -0.0191,  0.0047]],
+       device='cuda:0'), grad: tensor([[-2.2233e-04, -1.4102e-04, -1.4091e-04,  ..., -3.0786e-05,
+         -3.1620e-05, -3.5584e-05],
+        [ 7.0989e-05,  1.6347e-05,  1.2673e-05,  ...,  1.3053e-05,
+          1.4298e-05,  1.8820e-05],
+        [ 9.7334e-05,  4.0352e-05,  3.7849e-05,  ...,  1.6138e-05,
+          1.6898e-05,  2.0996e-05],
+        ...,
+        [ 1.5485e-04,  8.2076e-05,  8.0466e-05,  ...,  2.3916e-05,
+          2.5123e-05,  2.9176e-05],
+        [-1.0288e-04, -8.0243e-06,  7.8324e-07,  ..., -2.0772e-05,
+         -2.2560e-05, -3.1799e-05],
+        [-3.6329e-05,  1.5283e-06,  2.0489e-06,  ..., -9.4473e-06,
+         -1.0073e-05, -1.0923e-05]], device='cuda:0')
+Epoch 49, bias, value: tensor([-0.0331,  0.0438, -0.0579, -0.0215,  0.0480, -0.0320,  0.0564],
+       device='cuda:0'), grad: tensor([-0.0002,  0.0002,  0.0002,  0.0001,  0.0002, -0.0004, -0.0001],
+       device='cuda:0')
+306
+0.00224551509273949
+changing lr
+epoch 48, time 427.84, cls_loss 0.0030 cls_loss_mapping 0.0376 cls_loss_causal 0.6181 re_mapping 0.0457 re_causal 0.0488 /// teacc 87.98 lr 0.00206107
+Epoch 50, weight, value: tensor([[ 0.2472,  0.2477,  0.2799,  ..., -0.0154, -0.0036, -0.0148],
+        [-0.0493, -0.0442, -0.0657,  ...,  0.0523,  0.0545,  0.0471],
+        [-0.0901, -0.0832, -0.0980,  ...,  0.0394,  0.0223,  0.0158],
+        ...,
+        [-0.1086, -0.1115, -0.0695,  ...,  0.0177,  0.0678,  0.0513],
+        [-0.0209, -0.0190, -0.0428,  ..., -0.1336, -0.1509, -0.1634],
+        [ 0.0821,  0.0828,  0.0736,  ..., -0.0262, -0.0188,  0.0050]],
+       device='cuda:0'), grad: tensor([[ 1.4400e-04,  4.0770e-05,  3.5912e-05,  ...,  4.9591e-05,
+          5.7667e-05,  5.9694e-05],
+        [-2.9826e-04, -7.5936e-05, -6.6042e-05,  ..., -1.1307e-04,
+         -1.3459e-04, -1.3673e-04],
+        [ 1.9684e-05,  1.6894e-06,  8.9593e-07,  ...,  1.1876e-05,
+          1.4775e-05,  1.4365e-05],
+        ...,
+        [ 2.1636e-05,  5.9158e-06,  5.1521e-06,  ...,  7.8231e-06,
+          9.0152e-06,  9.3728e-06],
+        [ 7.5512e-06, -1.0384e-06, -7.2550e-07,  ...,  5.0589e-06,
+          8.4639e-06,  7.0296e-06],
+        [ 9.3520e-05,  2.5243e-05,  2.1860e-05,  ...,  3.4422e-05,
+          3.9756e-05,  4.1187e-05]], device='cuda:0')
+Epoch 50, bias, value: tensor([-0.0340,  0.0430, -0.0577, -0.0202,  0.0473, -0.0331,  0.0585],
+       device='cuda:0'), grad: tensor([ 3.0828e-04, -6.5708e-04,  5.1737e-05,  2.4900e-05,  4.6939e-05,
+         2.0772e-05,  2.0397e-04], device='cuda:0')
+306
+0.002061073738537637
+changing lr
+epoch 49, time 427.43, cls_loss 0.0027 cls_loss_mapping 0.0358 cls_loss_causal 0.6541 re_mapping 0.0448 re_causal 0.0479 /// teacc 88.46 lr 0.00188255
+Epoch 51, weight, value: tensor([[ 0.2476,  0.2479,  0.2800,  ..., -0.0152, -0.0035, -0.0146],
+        [-0.0483, -0.0439, -0.0654,  ...,  0.0525,  0.0547,  0.0474],
+        [-0.0902, -0.0832, -0.0979,  ...,  0.0392,  0.0221,  0.0157],
+        ...,
+        [-0.1085, -0.1113, -0.0694,  ...,  0.0177,  0.0677,  0.0511],
+        [-0.0210, -0.0191, -0.0428,  ..., -0.1333, -0.1506, -0.1629],
+        [ 0.0808,  0.0820,  0.0729,  ..., -0.0264, -0.0190,  0.0046]],
+       device='cuda:0'), grad: tensor([[-7.3761e-06, -6.8903e-05, -6.1393e-05,  ...,  3.7342e-05,
+          4.6521e-05,  4.6879e-05],
+        [-4.7827e-04, -1.3089e-04, -1.4806e-04,  ..., -1.6093e-04,
+         -1.8084e-04, -1.7262e-04],
+        [ 9.6321e-05,  4.4078e-05,  4.3571e-05,  ...,  2.0713e-05,
+          2.2292e-05,  2.2203e-05],
+        ...,
+        [ 1.0103e-04,  4.2081e-05,  4.1813e-05,  ...,  2.4498e-05,
+          2.7284e-05,  2.7090e-05],
+        [-7.2420e-05, -5.0105e-06, -3.0901e-06,  ..., -3.3885e-05,
+         -3.8385e-05, -3.9697e-05],
+        [ 3.3355e-04,  1.0943e-04,  1.1837e-04,  ...,  1.0401e-04,
+          1.1396e-04,  1.0717e-04]], device='cuda:0')
+Epoch 51, bias, value: tensor([-0.0331,  0.0450, -0.0578, -0.0209,  0.0469, -0.0330,  0.0567],
+       device='cuda:0'), grad: tensor([ 1.2612e-04, -9.6321e-04,  1.7142e-04,  6.3956e-05,  1.8120e-04,
+        -2.7323e-04,  6.9284e-04], device='cuda:0')
+306
+0.0018825509907063344
+changing lr
+epoch 50, time 426.95, cls_loss 0.0033 cls_loss_mapping 0.0344 cls_loss_causal 0.6313 re_mapping 0.0445 re_causal 0.0478 /// teacc 86.54 lr 0.00171031
+Epoch 52, weight, value: tensor([[ 0.2476,  0.2479,  0.2798,  ..., -0.0152, -0.0035, -0.0146],
+        [-0.0481, -0.0439, -0.0653,  ...,  0.0525,  0.0548,  0.0474],
+        [-0.0902, -0.0832, -0.0979,  ...,  0.0390,  0.0220,  0.0156],
+        ...,
+        [-0.1074, -0.1107, -0.0689,  ...,  0.0179,  0.0678,  0.0512],
+        [-0.0213, -0.0192, -0.0429,  ..., -0.1330, -0.1503, -0.1626],
+        [ 0.0802,  0.0816,  0.0724,  ..., -0.0264, -0.0191,  0.0045]],
+       device='cuda:0'), grad: tensor([[ 1.1891e-04,  3.1561e-05,  2.2739e-05,  ...,  3.7551e-05,
+          2.8744e-05,  3.4332e-05],
+        [ 2.6679e-04,  6.5207e-05,  4.4525e-05,  ...,  7.9095e-05,
+          5.8681e-05,  7.3135e-05],
+        [ 7.6234e-05,  1.8701e-05,  1.0729e-05,  ...,  2.2352e-05,
+          1.4529e-05,  1.7613e-05],
+        ...,
+        [ 3.4004e-05,  5.2080e-06,  1.2452e-06,  ...,  9.4548e-06,
+          6.0275e-06,  6.8285e-06],
+        [-1.1311e-03, -2.8086e-04, -1.7083e-04,  ..., -3.4928e-04,
+         -2.4164e-04, -2.8658e-04],
+        [ 3.1185e-04,  7.9513e-05,  4.2439e-05,  ...,  1.0026e-04,
+          6.4373e-05,  7.1526e-05]], device='cuda:0')
+Epoch 52, bias, value: tensor([-0.0330,  0.0449, -0.0578, -0.0217,  0.0485, -0.0332,  0.0560],
+       device='cuda:0'), grad: tensor([ 0.0003,  0.0008,  0.0002,  0.0009,  0.0001, -0.0033,  0.0009],
+       device='cuda:0')
+306
+0.0017103063703014388
+changing lr
+epoch 51, time 429.18, cls_loss 0.0033 cls_loss_mapping 0.0337 cls_loss_causal 0.6361 re_mapping 0.0436 re_causal 0.0467 /// teacc 83.65 lr 0.00154469
+Epoch 53, weight, value: tensor([[ 0.2471,  0.2476,  0.2795,  ..., -0.0152, -0.0035, -0.0147],
+        [-0.0487, -0.0439, -0.0653,  ...,  0.0522,  0.0545,  0.0471],
+        [-0.0902, -0.0831, -0.0978,  ...,  0.0388,  0.0219,  0.0155],
+        ...,
+        [-0.1067, -0.1102, -0.0686,  ...,  0.0180,  0.0678,  0.0513],
+        [-0.0216, -0.0193, -0.0429,  ..., -0.1328, -0.1500, -0.1623],
+        [ 0.0808,  0.0815,  0.0723,  ..., -0.0261, -0.0189,  0.0047]],
+       device='cuda:0'), grad: tensor([[-2.8858e-03, -1.5879e-03, -1.5993e-03,  ..., -4.1032e-04,
+         -5.5933e-04, -5.7220e-04],
+        [ 2.7132e-04,  1.4031e-04,  1.3936e-04,  ...,  5.5403e-05,
+          6.7294e-05,  6.7949e-05],
+        [ 7.6151e-04,  4.0030e-04,  4.0221e-04,  ...,  1.1492e-04,
+          1.5497e-04,  1.5962e-04],
+        ...,
+        [ 1.3828e-03,  7.1383e-04,  7.1812e-04,  ...,  1.9825e-04,
+          2.7800e-04,  2.9016e-04],
+        [-2.2149e-04,  8.4192e-06,  1.9401e-05,  ..., -1.2338e-04,
+         -1.3256e-04, -1.3959e-04],
+        [ 5.5552e-04,  2.9540e-04,  2.9325e-04,  ...,  1.1337e-04,
+          1.3423e-04,  1.3423e-04]], device='cuda:0')
+Epoch 53, bias, value: tensor([-0.0338,  0.0429, -0.0577, -0.0219,  0.0494, -0.0337,  0.0586],
+       device='cuda:0'), grad: tensor([-0.0040,  0.0004,  0.0011,  0.0004,  0.0021, -0.0009,  0.0009],
+       device='cuda:0')
+306
+0.0015446867550656784
+changing lr
+epoch 52, time 430.64, cls_loss 0.0035 cls_loss_mapping 0.0352 cls_loss_causal 0.6378 re_mapping 0.0435 re_causal 0.0466 /// teacc 85.58 lr 0.00138603
+Epoch 54, weight, value: tensor([[ 0.2474,  0.2477,  0.2796,  ..., -0.0150, -0.0034, -0.0145],
+        [-0.0488, -0.0439, -0.0652,  ...,  0.0520,  0.0543,  0.0469],
+        [-0.0901, -0.0832, -0.0979,  ...,  0.0387,  0.0218,  0.0155],
+        ...,
+        [-0.1063, -0.1099, -0.0683,  ...,  0.0181,  0.0678,  0.0514],
+        [-0.0212, -0.0193, -0.0429,  ..., -0.1324, -0.1496, -0.1619],
+        [ 0.0799,  0.0810,  0.0718,  ..., -0.0262, -0.0191,  0.0045]],
+       device='cuda:0'), grad: tensor([[ 4.4417e-04,  1.6558e-04,  1.5855e-04,  ...,  2.1517e-04,
+          2.1636e-04,  2.3675e-04],
+        [ 9.7871e-05,  3.1441e-05,  2.6315e-05,  ...,  5.4896e-05,
+          5.1409e-05,  5.7578e-05],
+        [ 5.0247e-05,  2.3901e-05,  2.0757e-05,  ...,  3.8058e-05,
+          3.3408e-05,  3.6001e-05],
+        ...,
+        [-2.1362e-04, -1.0002e-04, -1.0782e-04,  ..., -8.4937e-05,
+         -9.6142e-05, -1.0109e-04],
+        [ 1.8752e-04,  5.8442e-05,  4.9949e-05,  ...,  9.8109e-05,
+          9.3877e-05,  1.0526e-04],
+        [ 1.3046e-03,  4.1962e-04,  3.4881e-04,  ...,  7.3671e-04,
+          6.8760e-04,  7.7057e-04]], device='cuda:0')
+Epoch 54, bias, value: tensor([-0.0333,  0.0422, -0.0572, -0.0223,  0.0495, -0.0324,  0.0572],
+       device='cuda:0'), grad: tensor([ 0.0009,  0.0002,  0.0001, -0.0045, -0.0004,  0.0004,  0.0031],
+       device='cuda:0')
+306
+0.001386025680863044
+changing lr
+epoch 53, time 427.28, cls_loss 0.0021 cls_loss_mapping 0.0327 cls_loss_causal 0.5944 re_mapping 0.0434 re_causal 0.0465 /// teacc 88.94 lr 0.00123464
+Epoch 55, weight, value: tensor([[ 0.2475,  0.2476,  0.2795,  ..., -0.0149, -0.0033, -0.0144],
+        [-0.0489, -0.0439, -0.0652,  ...,  0.0518,  0.0542,  0.0468],
+        [-0.0900, -0.0831, -0.0978,  ...,  0.0387,  0.0218,  0.0155],
+        ...,
+        [-0.1068, -0.1099, -0.0684,  ...,  0.0180,  0.0676,  0.0511],
+        [-0.0210, -0.0193, -0.0429,  ..., -0.1321, -0.1493, -0.1615],
+        [ 0.0799,  0.0808,  0.0717,  ..., -0.0261, -0.0190,  0.0045]],
+       device='cuda:0'), grad: tensor([[ 3.1680e-05,  1.2154e-06, -2.8219e-07,  ...,  1.5661e-05,
+          1.7688e-05,  1.8716e-05],
+        [ 2.3949e-04,  2.4959e-05,  1.8969e-05,  ...,  1.3852e-04,
+          1.4877e-04,  1.5247e-04],
+        [ 1.6904e-04,  3.0249e-05,  1.9073e-05,  ...,  8.3625e-05,
+          9.3639e-05,  9.9063e-05],
+        ...,
+        [ 3.6716e-04,  5.6565e-05,  3.5137e-05,  ...,  1.9920e-04,
+          2.1935e-04,  2.2936e-04],
+        [ 4.8161e-05,  3.6024e-06, -6.8396e-06,  ...,  5.0902e-05,
+          5.4926e-05,  5.8174e-05],
+        [ 2.0003e-04,  3.6567e-05,  2.5868e-05,  ...,  9.4771e-05,
+          1.0562e-04,  1.1134e-04]], device='cuda:0')
+Epoch 55, bias, value: tensor([-0.0327,  0.0418, -0.0569, -0.0223,  0.0481, -0.0316,  0.0574],
+       device='cuda:0'), grad: tensor([ 9.8288e-05,  6.6566e-04,  4.4632e-04, -2.8362e-03,  9.7656e-04,
+         1.2803e-04,  5.2500e-04], device='cuda:0')
+306
+0.0012346426699819469
+changing lr
+epoch 54, time 429.05, cls_loss 0.0017 cls_loss_mapping 0.0296 cls_loss_causal 0.6024 re_mapping 0.0432 re_causal 0.0464 /// teacc 87.50 lr 0.00109084
+Epoch 56, weight, value: tensor([[ 0.2472,  0.2475,  0.2793,  ..., -0.0149, -0.0033, -0.0144],
+        [-0.0489, -0.0439, -0.0651,  ...,  0.0517,  0.0541,  0.0467],
+        [-0.0899, -0.0831, -0.0977,  ...,  0.0386,  0.0218,  0.0155],
+        ...,
+        [-0.1066, -0.1098, -0.0684,  ...,  0.0180,  0.0675,  0.0511],
+        [-0.0209, -0.0193, -0.0429,  ..., -0.1319, -0.1491, -0.1613],
+        [ 0.0798,  0.0807,  0.0716,  ..., -0.0261, -0.0190,  0.0045]],
+       device='cuda:0'), grad: tensor([[-3.3474e-03, -2.1229e-03, -2.0885e-03,  ..., -2.0981e-04,
+         -3.1662e-04, -3.3784e-04],
+        [ 2.4605e-04,  1.4138e-04,  1.3793e-04,  ...,  3.1292e-05,
+          3.9667e-05,  4.2975e-05],
+        [ 1.2693e-03,  7.1526e-04,  6.9714e-04,  ...,  1.6069e-04,
+          2.0373e-04,  2.1863e-04],
+        ...,
+        [ 6.1178e-04,  3.5381e-04,  3.4547e-04,  ...,  7.1764e-05,
+          9.2328e-05,  9.9242e-05],
+        [ 6.0844e-04,  2.5725e-04,  2.4486e-04,  ...,  1.1837e-04,
+          1.4007e-04,  1.4651e-04],
+        [ 1.3056e-03,  7.2861e-04,  7.1001e-04,  ...,  1.7309e-04,
+          2.1768e-04,  2.3365e-04]], device='cuda:0')
+Epoch 56, bias, value: tensor([-0.0329,  0.0416, -0.0569, -0.0224,  0.0480, -0.0312,  0.0576],
+       device='cuda:0'), grad: tensor([-0.0040,  0.0004,  0.0019, -0.0025,  0.0009,  0.0013,  0.0020],
+       device='cuda:0')
+306
+0.0010908425876598518
+changing lr
+epoch 55, time 426.80, cls_loss 0.0022 cls_loss_mapping 0.0329 cls_loss_causal 0.6184 re_mapping 0.0427 re_causal 0.0458 /// teacc 86.06 lr 0.00095492
+Epoch 57, weight, value: tensor([[ 0.2475,  0.2476,  0.2794,  ..., -0.0149, -0.0033, -0.0143],
+        [-0.0490, -0.0439, -0.0651,  ...,  0.0516,  0.0539,  0.0466],
+        [-0.0899, -0.0830, -0.0976,  ...,  0.0385,  0.0217,  0.0154],
+        ...,
+        [-0.1065, -0.1096, -0.0683,  ...,  0.0180,  0.0674,  0.0511],
+        [-0.0207, -0.0193, -0.0429,  ..., -0.1316, -0.1488, -0.1610],
+        [ 0.0791,  0.0803,  0.0713,  ..., -0.0262, -0.0191,  0.0043]],
+       device='cuda:0'), grad: tensor([[ 4.2391e-04,  1.2326e-04,  1.0896e-04,  ...,  1.5497e-04,
+          1.8597e-04,  2.0492e-04],
+        [-1.5807e-04, -5.4806e-05, -4.8727e-05,  ..., -3.1233e-05,
+         -3.6001e-05, -4.9263e-05],
+        [ 2.2995e-04,  7.9930e-05,  6.9261e-05,  ...,  8.5711e-05,
+          1.0091e-04,  9.5487e-05],
+        ...,
+        [-5.3787e-04, -1.6129e-04, -1.4102e-04,  ..., -2.2840e-04,
+         -2.7609e-04, -2.7633e-04],
+        [ 2.2441e-05,  1.0282e-05,  1.1332e-05,  ...,  7.6592e-06,
+          1.0222e-05,  1.0461e-05],
+        [ 9.7454e-06,  8.0746e-07, -2.0936e-06,  ...,  9.2760e-06,
+          1.2159e-05,  1.1526e-05]], device='cuda:0')
+Epoch 57, bias, value: tensor([-0.0323,  0.0411, -0.0570, -0.0218,  0.0477, -0.0305,  0.0565],
+       device='cuda:0'), grad: tensor([ 1.1177e-03, -3.0947e-04,  5.4264e-04,  2.3723e-05, -1.4601e-03,
+         4.5985e-05,  4.0382e-05], device='cuda:0')
+306
+0.000954915028125264
+changing lr
+epoch 56, time 428.67, cls_loss 0.0014 cls_loss_mapping 0.0284 cls_loss_causal 0.5831 re_mapping 0.0422 re_causal 0.0451 /// teacc 89.42 lr 0.00082713
+Epoch 58, weight, value: tensor([[ 0.2476,  0.2476,  0.2793,  ..., -0.0148, -0.0033, -0.0143],
+        [-0.0488, -0.0438, -0.0650,  ...,  0.0515,  0.0539,  0.0466],
+        [-0.0900, -0.0830, -0.0976,  ...,  0.0384,  0.0216,  0.0153],
+        ...,
+        [-0.1065, -0.1095, -0.0683,  ...,  0.0180,  0.0674,  0.0510],
+        [-0.0208, -0.0194, -0.0429,  ..., -0.1315, -0.1486, -0.1608],
+        [ 0.0788,  0.0800,  0.0710,  ..., -0.0262, -0.0191,  0.0043]],
+       device='cuda:0'), grad: tensor([[ 1.0282e-05, -2.3227e-06, -4.9472e-06,  ...,  5.3830e-06,
+          5.2825e-06,  6.8247e-06],
+        [-1.4150e-04, -3.4779e-05, -2.1845e-05,  ..., -4.9174e-05,
+         -5.9396e-05, -6.2883e-05],
+        [ 5.2303e-05,  1.5765e-05,  1.3009e-05,  ...,  1.6302e-05,
+          1.9863e-05,  2.0280e-05],
+        ...,
+        [ 2.0757e-05,  5.6326e-06,  4.7274e-06,  ...,  6.5118e-06,
+          7.2829e-06,  7.7114e-06],
+        [-4.5560e-06,  1.7434e-06,  8.5402e-07,  ..., -4.2468e-06,
+         -4.0457e-06, -3.2615e-06],
+        [ 5.4955e-05,  1.2606e-05,  7.1153e-06,  ...,  2.2396e-05,
+          2.7567e-05,  2.8089e-05]], device='cuda:0')
+Epoch 58, bias, value: tensor([-0.0320,  0.0412, -0.0571, -0.0216,  0.0475, -0.0304,  0.0562],
+       device='cuda:0'), grad: tensor([ 5.3912e-05, -3.7479e-04,  1.2082e-04,  2.0117e-05,  5.1171e-05,
+        -1.5542e-05,  1.4389e-04], device='cuda:0')
+306
+0.0008271337313934874
+changing lr
+epoch 57, time 423.71, cls_loss 0.0016 cls_loss_mapping 0.0269 cls_loss_causal 0.5705 re_mapping 0.0421 re_causal 0.0451 /// teacc 87.98 lr 0.00070776
+Epoch 59, weight, value: tensor([[ 0.2474,  0.2474,  0.2791,  ..., -0.0149, -0.0033, -0.0143],
+        [-0.0487, -0.0437, -0.0649,  ...,  0.0515,  0.0538,  0.0465],
+        [-0.0899, -0.0830, -0.0975,  ...,  0.0383,  0.0216,  0.0153],
+        ...,
+        [-0.1063, -0.1094, -0.0682,  ...,  0.0181,  0.0674,  0.0510],
+        [-0.0207, -0.0194, -0.0429,  ..., -0.1313, -0.1485, -0.1606],
+        [ 0.0785,  0.0799,  0.0709,  ..., -0.0262, -0.0192,  0.0042]],
+       device='cuda:0'), grad: tensor([[-9.9182e-05, -6.8128e-05, -6.8247e-05,  ..., -9.6485e-06,
+         -9.5665e-06, -1.1303e-05],
+        [-1.1706e-04, -3.6120e-05, -3.3170e-05,  ..., -3.1769e-05,
+         -3.9518e-05, -4.3839e-05],
+        [ 1.0276e-04,  3.3408e-05,  3.0905e-05,  ...,  3.1918e-05,
+          3.6389e-05,  3.8296e-05],
+        ...,
+        [-8.3864e-05,  3.0044e-06,  7.2084e-06,  ..., -4.6194e-05,
+         -5.0426e-05, -5.1051e-05],
+        [ 8.7619e-05,  2.3827e-05,  2.1413e-05,  ...,  3.0056e-05,
+          3.3259e-05,  3.5048e-05],
+        [ 8.0526e-05,  3.5167e-05,  3.3796e-05,  ...,  1.6659e-05,
+          1.9476e-05,  2.1666e-05]], device='cuda:0')
+Epoch 59, bias, value: tensor([-0.0322,  0.0413, -0.0569, -0.0217,  0.0476, -0.0303,  0.0558],
+       device='cuda:0'), grad: tensor([-1.0520e-04, -2.8086e-04,  2.3329e-04,  6.8605e-05, -2.8443e-04,
+         2.1255e-04,  1.5569e-04], device='cuda:0')
+306
+0.00070775603199067
+changing lr
+epoch 58, time 421.70, cls_loss 0.0019 cls_loss_mapping 0.0311 cls_loss_causal 0.5978 re_mapping 0.0416 re_causal 0.0446 /// teacc 88.46 lr 0.00059702
+Epoch 60, weight, value: tensor([[ 0.2471,  0.2473,  0.2789,  ..., -0.0149, -0.0034, -0.0144],
+        [-0.0483, -0.0436, -0.0647,  ...,  0.0515,  0.0539,  0.0466],
+        [-0.0900, -0.0830, -0.0975,  ...,  0.0382,  0.0215,  0.0152],
+        ...,
+        [-0.1060, -0.1092, -0.0680,  ...,  0.0181,  0.0674,  0.0510],
+        [-0.0210, -0.0194, -0.0429,  ..., -0.1313, -0.1484, -0.1605],
+        [ 0.0782,  0.0797,  0.0707,  ..., -0.0263, -0.0192,  0.0042]],
+       device='cuda:0'), grad: tensor([[ 9.6798e-05,  3.5226e-05,  3.2395e-05,  ...,  2.2635e-05,
+          2.4319e-05,  2.8834e-05],
+        [-1.2958e-04, -2.9504e-05, -2.5034e-05,  ..., -5.7399e-05,
+         -6.4015e-05, -7.1168e-05],
+        [ 2.7716e-05,  7.5512e-06,  6.8322e-06,  ...,  8.3372e-06,
+          8.8662e-06,  1.0163e-05],
+        ...,
+        [ 1.3828e-05,  3.9861e-06,  3.5781e-06,  ...,  7.3947e-06,
+          5.8748e-06,  6.3442e-06],
+        [-9.2566e-05, -2.2456e-05, -2.1636e-05,  ..., -2.6435e-05,
+         -1.8954e-05, -2.1636e-05],
+        [-9.8124e-06, -1.6779e-05, -1.5572e-05,  ...,  9.1493e-06,
+          7.4469e-06,  6.7241e-06]], device='cuda:0')
+Epoch 60, bias, value: tensor([-0.0326,  0.0420, -0.0573, -0.0211,  0.0478, -0.0307,  0.0556],
+       device='cuda:0'), grad: tensor([ 2.0659e-04, -3.7932e-04,  6.7472e-05,  2.5487e-04,  4.3511e-05,
+        -2.1946e-04,  2.6584e-05], device='cuda:0')
+306
+0.0005970223407163104
+changing lr
+epoch 59, time 419.85, cls_loss 0.0019 cls_loss_mapping 0.0281 cls_loss_causal 0.6170 re_mapping 0.0414 re_causal 0.0446 /// teacc 86.54 lr 0.00049516
+Epoch 61, weight, value: tensor([[ 0.2471,  0.2472,  0.2789,  ..., -0.0149, -0.0034, -0.0144],
+        [-0.0482, -0.0435, -0.0646,  ...,  0.0515,  0.0538,  0.0465],
+        [-0.0900, -0.0830, -0.0975,  ...,  0.0382,  0.0215,  0.0152],
+        ...,
+        [-0.1060, -0.1092, -0.0680,  ...,  0.0181,  0.0673,  0.0510],
+        [-0.0211, -0.0195, -0.0430,  ..., -0.1312, -0.1483, -0.1604],
+        [ 0.0781,  0.0796,  0.0706,  ..., -0.0262, -0.0192,  0.0041]],
+       device='cuda:0'), grad: tensor([[ 3.0851e-04,  8.7559e-05,  8.5950e-05,  ...,  8.6188e-05,
+          9.1970e-05,  9.9599e-05],
+        [ 9.4950e-05,  2.9132e-05,  2.7582e-05,  ...,  3.2783e-05,
+          3.2723e-05,  3.5316e-05],
+        [ 2.3806e-04,  6.7055e-05,  6.4909e-05,  ...,  6.5923e-05,
+          6.9439e-05,  7.5936e-05],
+        ...,
+        [-6.3276e-04, -1.7273e-04, -1.7107e-04,  ..., -1.5140e-04,
+         -1.6677e-04, -1.8263e-04],
+        [ 4.5270e-05,  1.0677e-05,  1.3418e-05,  ...,  2.3127e-05,
+          2.5794e-05,  2.4602e-05],
+        [ 1.1426e-04,  3.2634e-05,  3.1173e-05,  ...,  3.8356e-05,
+          4.0770e-05,  4.3154e-05]], device='cuda:0')
+Epoch 61, bias, value: tensor([-0.0325,  0.0420, -0.0571, -0.0209,  0.0476, -0.0309,  0.0554],
+       device='cuda:0'), grad: tensor([ 6.9857e-04,  2.1350e-04,  5.4169e-04, -3.6597e-04, -1.4334e-03,
+         8.5652e-05,  2.5988e-04], device='cuda:0')
+306
+0.0004951556604879052
+changing lr
+epoch 60, time 418.06, cls_loss 0.0022 cls_loss_mapping 0.0259 cls_loss_causal 0.6041 re_mapping 0.0412 re_causal 0.0443 /// teacc 86.54 lr 0.00040236
+Epoch 62, weight, value: tensor([[ 0.2470,  0.2472,  0.2788,  ..., -0.0149, -0.0034, -0.0144],
+        [-0.0483, -0.0435, -0.0646,  ...,  0.0514,  0.0538,  0.0465],
+        [-0.0900, -0.0830, -0.0975,  ...,  0.0382,  0.0215,  0.0152],
+        ...,
+        [-0.1060, -0.1091, -0.0680,  ...,  0.0181,  0.0673,  0.0510],
+        [-0.0210, -0.0195, -0.0430,  ..., -0.1311, -0.1482, -0.1603],
+        [ 0.0780,  0.0795,  0.0705,  ..., -0.0262, -0.0192,  0.0041]],
+       device='cuda:0'), grad: tensor([[-1.7226e-04, -1.2827e-04, -1.2863e-04,  ..., -2.8118e-05,
+         -2.7418e-05, -3.1918e-05],
+        [ 7.6115e-05,  2.7344e-05,  2.4825e-05,  ...,  2.2009e-05,
+          1.9506e-05,  2.3991e-05],
+        [-1.7416e-04, -4.3243e-05, -3.6567e-05,  ..., -5.5730e-05,
+         -6.6042e-05, -7.8082e-05],
+        ...,
+        [ 1.4949e-04,  5.6535e-05,  5.2422e-05,  ...,  3.9339e-05,
+          4.3750e-05,  5.2392e-05],
+        [ 3.4302e-05,  1.2308e-05,  1.1645e-05,  ..., -4.5598e-06,
+          4.0010e-06,  5.4576e-06],
+        [ 2.7195e-05,  5.8621e-05,  6.1750e-05,  ...,  8.6352e-06,
+          8.2105e-06,  5.7817e-06]], device='cuda:0')
+Epoch 62, bias, value: tensor([-0.0326,  0.0417, -0.0571, -0.0207,  0.0475, -0.0307,  0.0555],
+       device='cuda:0'), grad: tensor([-1.1986e-04,  1.8978e-04, -5.1594e-04,  1.7297e-04,  3.4547e-04,
+         1.6943e-05, -8.9169e-05], device='cuda:0')
+306
+0.00040236113724274745
+changing lr
+epoch 61, time 417.60, cls_loss 0.0014 cls_loss_mapping 0.0258 cls_loss_causal 0.5725 re_mapping 0.0409 re_causal 0.0440 /// teacc 87.50 lr 0.00031883
+Epoch 63, weight, value: tensor([[ 0.2470,  0.2471,  0.2787,  ..., -0.0149, -0.0034, -0.0144],
+        [-0.0483, -0.0435, -0.0645,  ...,  0.0514,  0.0538,  0.0465],
+        [-0.0899, -0.0830, -0.0975,  ...,  0.0381,  0.0214,  0.0152],
+        ...,
+        [-0.1060, -0.1090, -0.0679,  ...,  0.0181,  0.0672,  0.0509],
+        [-0.0210, -0.0195, -0.0430,  ..., -0.1310, -0.1482, -0.1602],
+        [ 0.0780,  0.0794,  0.0704,  ..., -0.0262, -0.0192,  0.0041]],
+       device='cuda:0'), grad: tensor([[-3.8743e-06, -7.7784e-06, -8.5309e-06,  ...,  9.4250e-07,
+          1.3597e-06,  1.5721e-06],
+        [ 1.4007e-05,  4.0494e-06,  3.5055e-06,  ...,  4.4778e-06,
+          4.9956e-06,  5.0962e-06],
+        [-1.5117e-05, -8.3074e-07,  8.9593e-07,  ..., -2.8815e-06,
+         -3.7625e-06, -4.4890e-06],
+        ...,
+        [ 3.1926e-06,  2.3656e-07, -2.8312e-07,  ...,  2.5332e-07,
+          3.2783e-07,  6.7800e-07],
+        [-1.6674e-05, -3.1460e-06, -2.5742e-06,  ..., -6.2101e-06,
+         -7.0110e-06, -7.0184e-06],
+        [ 1.7866e-05,  6.9812e-06,  6.5118e-06,  ...,  4.3884e-06,
+          4.9882e-06,  5.0478e-06]], device='cuda:0')
+Epoch 63, bias, value: tensor([-0.0326,  0.0417, -0.0570, -0.0206,  0.0473, -0.0306,  0.0555],
+       device='cuda:0'), grad: tensor([ 9.9242e-06,  3.3975e-05, -4.4495e-05,  3.4831e-07,  9.3728e-06,
+        -4.6074e-05,  3.7163e-05], device='cuda:0')
+306
+0.00031882564680131423
+changing lr
+epoch 62, time 418.99, cls_loss 0.0020 cls_loss_mapping 0.0323 cls_loss_causal 0.5851 re_mapping 0.0406 re_causal 0.0436 /// teacc 88.46 lr 0.00024472
+Epoch 64, weight, value: tensor([[ 0.2469,  0.2471,  0.2787,  ..., -0.0149, -0.0034, -0.0144],
+        [-0.0482, -0.0434, -0.0645,  ...,  0.0514,  0.0538,  0.0465],
+        [-0.0899, -0.0829, -0.0975,  ...,  0.0381,  0.0214,  0.0152],
+        ...,
+        [-0.1060, -0.1090, -0.0679,  ...,  0.0181,  0.0672,  0.0509],
+        [-0.0210, -0.0195, -0.0430,  ..., -0.1310, -0.1481, -0.1602],
+        [ 0.0778,  0.0793,  0.0704,  ..., -0.0262, -0.0192,  0.0041]],
+       device='cuda:0'), grad: tensor([[ 1.2884e-03,  1.9336e-04,  1.0115e-04,  ...,  3.2020e-04,
+          3.5286e-04,  3.9339e-04],
+        [ 6.8521e-04,  1.0777e-04,  5.8651e-05,  ...,  1.6892e-04,
+          1.8585e-04,  2.0766e-04],
+        [ 1.1377e-03,  1.6427e-04,  7.5102e-05,  ...,  2.8133e-04,
+          3.1304e-04,  3.5000e-04],
+        ...,
+        [ 2.3975e-03,  3.2902e-04,  1.3816e-04,  ...,  5.9986e-04,
+          6.6805e-04,  7.4720e-04],
+        [-8.9111e-03, -1.2150e-03, -5.0020e-04,  ..., -2.2259e-03,
+         -2.4834e-03, -2.7771e-03],
+        [ 3.9291e-04,  1.2249e-05, -3.6687e-05,  ...,  1.0353e-04,
+          1.2201e-04,  1.3936e-04]], device='cuda:0')
+Epoch 64, bias, value: tensor([-0.0327,  0.0418, -0.0569, -0.0207,  0.0473, -0.0304,  0.0553],
+       device='cuda:0'), grad: tensor([ 0.0043,  0.0023,  0.0039,  0.0104,  0.0083, -0.0308,  0.0017],
+       device='cuda:0')
+306
+0.0002447174185242325
+changing lr
+epoch 63, time 414.73, cls_loss 0.0017 cls_loss_mapping 0.0244 cls_loss_causal 0.6037 re_mapping 0.0406 re_causal 0.0438 /// teacc 86.06 lr 0.00018019
+Epoch 65, weight, value: tensor([[ 0.2470,  0.2471,  0.2787,  ..., -0.0149, -0.0034, -0.0144],
+        [-0.0482, -0.0434, -0.0645,  ...,  0.0514,  0.0538,  0.0465],
+        [-0.0899, -0.0829, -0.0975,  ...,  0.0381,  0.0214,  0.0152],
+        ...,
+        [-0.1059, -0.1090, -0.0679,  ...,  0.0181,  0.0672,  0.0509],
+        [-0.0209, -0.0195, -0.0429,  ..., -0.1309, -0.1480, -0.1601],
+        [ 0.0777,  0.0792,  0.0703,  ..., -0.0262, -0.0192,  0.0041]],
+       device='cuda:0'), grad: tensor([[-4.4964e-06, -1.0490e-05, -1.0796e-05,  ...,  1.2871e-06,
+          1.4622e-06,  2.0340e-06],
+        [ 7.4387e-05,  1.5885e-05,  1.3448e-05,  ...,  1.7881e-05,
+          1.8552e-05,  2.2933e-05],
+        [ 9.9063e-05,  2.2203e-05,  1.9148e-05,  ...,  2.7061e-05,
+          2.4825e-05,  3.1203e-05],
+        ...,
+        [ 2.1532e-05,  5.4277e-06,  4.3362e-06,  ..., -1.9260e-06,
+         -1.6876e-06, -8.2701e-07],
+        [ 1.1361e-04,  2.1651e-05,  1.7896e-05,  ...,  3.0607e-05,
+          2.9683e-05,  3.7044e-05],
+        [-7.2420e-05, -2.1517e-05, -1.9461e-05,  ..., -1.2890e-05,
+         -1.8656e-05, -2.1428e-05]], device='cuda:0')
+Epoch 65, bias, value: tensor([-0.0326,  0.0418, -0.0570, -0.0208,  0.0472, -0.0302,  0.0552],
+       device='cuda:0'), grad: tensor([ 2.3663e-05,  1.9288e-04,  2.5082e-04, -6.5517e-04,  5.3644e-05,
+         3.0255e-04, -1.6916e-04], device='cuda:0')
+306
+0.0001801856965207339
+changing lr
+epoch 64, time 413.22, cls_loss 0.0016 cls_loss_mapping 0.0248 cls_loss_causal 0.6161 re_mapping 0.0405 re_causal 0.0437 /// teacc 88.94 lr 0.00012536
+Epoch 66, weight, value: tensor([[ 0.2470,  0.2471,  0.2787,  ..., -0.0149, -0.0034, -0.0144],
+        [-0.0481, -0.0434, -0.0645,  ...,  0.0513,  0.0538,  0.0465],
+        [-0.0898, -0.0829, -0.0974,  ...,  0.0381,  0.0214,  0.0152],
+        ...,
+        [-0.1059, -0.1090, -0.0679,  ...,  0.0180,  0.0672,  0.0509],
+        [-0.0209, -0.0195, -0.0430,  ..., -0.1309, -0.1480, -0.1601],
+        [ 0.0777,  0.0792,  0.0703,  ..., -0.0262, -0.0192,  0.0041]],
+       device='cuda:0'), grad: tensor([[-7.0512e-05, -4.7058e-05, -5.0157e-05,  ..., -8.2478e-06,
+         -8.2850e-06, -9.5665e-06],
+        [ 2.0787e-05,  9.5218e-06,  9.8273e-06,  ...,  3.1665e-06,
+          3.2280e-06,  4.0270e-06],
+        [-4.8801e-06,  1.4380e-06,  2.3991e-06,  ..., -1.5441e-06,
+         -1.7043e-06, -3.0026e-06],
+        ...,
+        [ 7.8917e-05,  3.0667e-05,  3.0696e-05,  ...,  1.4104e-05,
+          1.4886e-05,  1.8507e-05],
+        [ 4.3333e-05,  1.1683e-05,  1.1191e-05,  ...,  9.6634e-06,
+          9.5069e-06,  1.1683e-05],
+        [-9.7632e-05, -2.0340e-05, -1.8418e-05,  ..., -2.1979e-05,
+         -2.2665e-05, -2.7910e-05]], device='cuda:0')
+Epoch 66, bias, value: tensor([-0.0326,  0.0419, -0.0568, -0.0208,  0.0471, -0.0302,  0.0551],
+       device='cuda:0'), grad: tensor([-8.1718e-05,  3.6746e-05, -2.0251e-05,  5.1826e-05,  1.5628e-04,
+         1.0252e-04, -2.4605e-04], device='cuda:0')
+306
+0.000125360439090882
+changing lr
+epoch 65, time 415.02, cls_loss 0.0015 cls_loss_mapping 0.0254 cls_loss_causal 0.5788 re_mapping 0.0404 re_causal 0.0434 /// teacc 87.50 lr 0.00008035
+Epoch 67, weight, value: tensor([[ 0.2470,  0.2471,  0.2787,  ..., -0.0149, -0.0034, -0.0144],
+        [-0.0481, -0.0434, -0.0645,  ...,  0.0513,  0.0537,  0.0465],
+        [-0.0898, -0.0829, -0.0974,  ...,  0.0381,  0.0214,  0.0152],
+        ...,
+        [-0.1060, -0.1090, -0.0679,  ...,  0.0180,  0.0672,  0.0509],
+        [-0.0209, -0.0195, -0.0430,  ..., -0.1309, -0.1480, -0.1600],
+        [ 0.0777,  0.0792,  0.0702,  ..., -0.0262, -0.0192,  0.0041]],
+       device='cuda:0'), grad: tensor([[ 4.1676e-04,  1.7440e-04,  1.6701e-04,  ...,  7.9632e-05,
+          8.6963e-05,  9.7990e-05],
+        [ 1.0794e-04,  4.8518e-05,  4.6700e-05,  ...,  2.0698e-05,
+          2.1353e-05,  2.3842e-05],
+        [ 1.4484e-04,  6.3241e-05,  6.0648e-05,  ...,  2.8014e-05,
+          3.1024e-05,  3.4124e-05],
+        ...,
+        [-2.1820e-03, -9.4128e-04, -9.0265e-04,  ..., -4.2129e-04,
+         -4.6349e-04, -5.1355e-04],
+        [ 8.1873e-04,  3.5405e-04,  3.3951e-04,  ...,  1.5831e-04,
+          1.7440e-04,  1.9288e-04],
+        [ 6.5470e-04,  2.8372e-04,  2.7227e-04,  ...,  1.2708e-04,
+          1.4138e-04,  1.5545e-04]], device='cuda:0')
+Epoch 67, bias, value: tensor([-0.0325,  0.0418, -0.0568, -0.0208,  0.0470, -0.0302,  0.0551],
+       device='cuda:0'), grad: tensor([ 9.2602e-04,  2.3615e-04,  3.1257e-04,  8.7500e-05, -4.7569e-03,
+         1.7815e-03,  1.4172e-03], device='cuda:0')
+306
+8.03520570068517e-05
+changing lr
+epoch 66, time 411.65, cls_loss 0.0014 cls_loss_mapping 0.0245 cls_loss_causal 0.5859 re_mapping 0.0403 re_causal 0.0433 /// teacc 88.46 lr 0.00004525
+Epoch 68, weight, value: tensor([[ 0.2470,  0.2471,  0.2787,  ..., -0.0149, -0.0034, -0.0143],
+        [-0.0482, -0.0434, -0.0645,  ...,  0.0513,  0.0537,  0.0464],
+        [-0.0898, -0.0829, -0.0974,  ...,  0.0381,  0.0214,  0.0152],
+        ...,
+        [-0.1060, -0.1089, -0.0679,  ...,  0.0180,  0.0671,  0.0509],
+        [-0.0209, -0.0195, -0.0430,  ..., -0.1309, -0.1480, -0.1600],
+        [ 0.0776,  0.0792,  0.0702,  ..., -0.0262, -0.0192,  0.0041]],
+       device='cuda:0'), grad: tensor([[ 6.9320e-05,  2.5973e-05,  2.5213e-05,  ...,  1.3977e-05,
+          1.4402e-05,  1.9848e-05],
+        [ 9.1970e-05,  1.9833e-05,  1.6674e-05,  ...,  5.2363e-05,
+          5.4508e-05,  6.0260e-05],
+        [ 1.2094e-04,  4.5180e-05,  4.3631e-05,  ...,  2.4304e-05,
+          2.4974e-05,  3.4660e-05],
+        ...,
+        [ 1.0721e-05,  3.2503e-06,  2.9113e-06,  ...,  4.1090e-06,
+          4.3735e-06,  5.1148e-06],
+        [-1.9260e-06,  8.3819e-08,  8.9779e-07,  ...,  8.9593e-07,
+          7.9162e-07,  1.0133e-06],
+        [-2.2829e-04, -8.7917e-05, -8.5890e-05,  ..., -4.2439e-05,
+         -4.3660e-05, -6.2108e-05]], device='cuda:0')
+Epoch 68, bias, value: tensor([-0.0325,  0.0418, -0.0568, -0.0208,  0.0470, -0.0302,  0.0551],
+       device='cuda:0'), grad: tensor([ 1.3232e-04,  2.3067e-04,  2.3127e-04, -1.8311e-04,  2.3663e-05,
+        -9.8050e-06, -4.2439e-04], device='cuda:0')
+306
+4.5251191160326525e-05
+changing lr
+epoch 67, time 411.01, cls_loss 0.0014 cls_loss_mapping 0.0238 cls_loss_causal 0.6263 re_mapping 0.0403 re_causal 0.0434 /// teacc 86.06 lr 0.00002013
+Epoch 69, weight, value: tensor([[ 0.2470,  0.2471,  0.2787,  ..., -0.0149, -0.0034, -0.0143],
+        [-0.0482, -0.0434, -0.0645,  ...,  0.0513,  0.0537,  0.0464],
+        [-0.0898, -0.0829, -0.0974,  ...,  0.0381,  0.0214,  0.0152],
+        ...,
+        [-0.1060, -0.1089, -0.0679,  ...,  0.0180,  0.0671,  0.0509],
+        [-0.0209, -0.0195, -0.0430,  ..., -0.1309, -0.1479, -0.1600],
+        [ 0.0776,  0.0792,  0.0702,  ..., -0.0262, -0.0192,  0.0041]],
+       device='cuda:0'), grad: tensor([[-1.0309e-03, -6.2466e-04, -6.1512e-04,  ..., -9.6560e-05,
+         -1.5414e-04, -1.9073e-04],
+        [ 5.1165e-04,  2.3520e-04,  2.2519e-04,  ...,  1.5378e-04,
+          1.6558e-04,  1.8859e-04],
+        [ 3.4738e-04,  1.6952e-04,  1.6379e-04,  ...,  7.6950e-05,
+          8.8632e-05,  1.0359e-04],
+        ...,
+        [-6.6471e-04, -1.8024e-04, -1.5926e-04,  ..., -3.7694e-04,
+         -3.6836e-04, -4.0412e-04],
+        [ 2.2173e-04,  7.6950e-05,  7.1943e-05,  ...,  7.9215e-05,
+          8.2910e-05,  9.3460e-05],
+        [ 4.4799e-04,  2.6631e-04,  2.6083e-04,  ...,  8.7559e-05,
+          1.0908e-04,  1.2445e-04]], device='cuda:0')
+Epoch 69, bias, value: tensor([-0.0325,  0.0418, -0.0568, -0.0208,  0.0470, -0.0301,  0.0551],
+       device='cuda:0'), grad: tensor([-0.0012,  0.0010,  0.0006,  0.0004, -0.0018,  0.0005,  0.0005],
+       device='cuda:0')
+306
+2.0128530023804673e-05
+changing lr
+epoch 68, time 410.85, cls_loss 0.0015 cls_loss_mapping 0.0246 cls_loss_causal 0.5761 re_mapping 0.0403 re_causal 0.0433 /// teacc 89.42 lr 0.00000503
+Epoch 70, weight, value: tensor([[ 0.2470,  0.2471,  0.2787,  ..., -0.0149, -0.0034, -0.0143],
+        [-0.0482, -0.0434, -0.0645,  ...,  0.0513,  0.0537,  0.0464],
+        [-0.0898, -0.0829, -0.0974,  ...,  0.0381,  0.0214,  0.0152],
+        ...,
+        [-0.1059, -0.1089, -0.0679,  ...,  0.0180,  0.0671,  0.0509],
+        [-0.0209, -0.0195, -0.0430,  ..., -0.1309, -0.1479, -0.1600],
+        [ 0.0776,  0.0791,  0.0702,  ..., -0.0262, -0.0192,  0.0041]],
+       device='cuda:0'), grad: tensor([[ 3.0696e-05,  8.4490e-06,  8.9705e-06,  ...,  7.9796e-06,
+          8.0392e-06,  9.2313e-06],
+        [ 2.1577e-05,  5.4277e-06,  5.2042e-06,  ...,  7.7486e-06,
+          7.9274e-06,  8.6129e-06],
+        [ 1.7853e-06,  1.0766e-06,  1.6764e-08,  ...,  1.8803e-06,
+          2.0973e-06,  1.9260e-06],
+        ...,
+        [ 7.2084e-06,  2.0005e-06,  1.8878e-06,  ...,  1.7714e-06,
+          1.9129e-06,  2.2277e-06],
+        [-7.9811e-05, -2.2769e-05, -2.2128e-05,  ..., -2.4080e-05,
+         -2.4781e-05, -2.7478e-05],
+        [ 1.5169e-05,  3.6657e-06,  3.6526e-06,  ...,  5.2936e-06,
+          5.4389e-06,  5.9977e-06]], device='cuda:0')
+Epoch 70, bias, value: tensor([-0.0325,  0.0418, -0.0568, -0.0208,  0.0470, -0.0301,  0.0551],
+       device='cuda:0'), grad: tensor([ 8.1778e-05,  6.2466e-05,  9.5889e-06,  1.1146e-05,  2.0608e-05,
+        -2.3401e-04,  4.8488e-05], device='cuda:0')
+306
+5.034667293427056e-06
+changing lr
+epoch 69, time 414.33, cls_loss 0.0018 cls_loss_mapping 0.0269 cls_loss_causal 0.6085 re_mapping 0.0402 re_causal 0.0433 /// teacc 88.46 lr 0.00000000
+---------------------saving last model at epoch 69----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1', 'source_domain': 'art_painting', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1/art_painting_16factor_best_test_check.csv', 'factor_num': 16, 'epoch': 'best', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of best
+randm: False
+stride: 5
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+columns: ['art_painting', 'cartoon', 'photo', 'sketch']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+                     art_painting    cartoon      photo     sketch        Avg
+w/o do (original x)     99.023438  69.795222  90.778443  73.199287  77.924317
+    art_painting  cartoon      photo     sketch        Avg
+do     99.023438  72.1843  92.035928  72.410283  78.876837
diff --git a/Meta-causal/code-withStyleAttack/64945.error b/Meta-causal/code-withStyleAttack/64945.error
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/Meta-causal/code-withStyleAttack/64945.log b/Meta-causal/code-withStyleAttack/64945.log
new file mode 100644
index 0000000000000000000000000000000000000000..fded65bae35888cad880615b022fe0045d7b6eea
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/64945.log
@@ -0,0 +1,1954 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'cartoon', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 5, 'factor_num': 16, 'epochs': 70, 'nbatch': 100, 'batchsize': 6, 'lr': 0.01, 'lr_scheduler': 'cosine', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//cartoon/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 5
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_train.hdf5 torch.Size([2107, 3, 227, 227]) torch.Size([2107])
+--------------------------CA_multiple--------------------------
+---------------------------16 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_val.hdf5 torch.Size([237, 3, 227, 227]) torch.Size([237])
+-------------------------------------loading pretrain weights----------------------------------
+Epoch 1, weight, value: tensor([[-0.0100,  0.0028,  0.0031,  ..., -0.0029, -0.0129,  0.0067],
+        [ 0.0146,  0.0136,  0.0209,  ...,  0.0182, -0.0162, -0.0063],
+        [ 0.0144, -0.0044, -0.0032,  ...,  0.0196,  0.0067,  0.0059],
+        ...,
+        [-0.0163, -0.0022,  0.0082,  ...,  0.0012,  0.0086, -0.0212],
+        [-0.0167, -0.0119,  0.0066,  ..., -0.0117,  0.0125, -0.0117],
+        [-0.0118, -0.0128, -0.0087,  ..., -0.0020,  0.0197,  0.0048]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([-0.0072, -0.0193,  0.0095,  0.0119,  0.0171,  0.0063, -0.0017],
+       device='cuda:0'), grad: None
+351
+0.01
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 485.47, cls_loss 16.9782 cls_loss_mapping 2.0665 cls_loss_causal 2.0978 re_mapping 0.2883 re_causal 0.2878 /// teacc 12.66 lr 0.00999497
+Epoch 2, weight, value: tensor([[ 0.0028, -0.0005,  0.0340,  ..., -0.0002,  0.0233,  0.0462],
+        [ 0.0658,  0.0861,  0.0585,  ...,  0.0947,  0.0172,  0.0346],
+        [ 0.0262, -0.0145,  0.0102,  ...,  0.0781,  0.0733,  0.0588],
+        ...,
+        [-0.1058, -0.0852, -0.0944,  ...,  0.0447,  0.0601,  0.0102],
+        [ 0.0011,  0.0218,  0.0048,  ..., -0.0536, -0.0391, -0.0657],
+        [-0.0314, -0.0301,  0.0041,  ..., -0.0928, -0.0691, -0.0766]],
+       device='cuda:0'), grad: tensor([[-0.0698, -0.0076, -0.0194,  ..., -0.0092, -0.0196, -0.0026],
+        [-0.0486, -0.0072, -0.0131,  ..., -0.0160, -0.0171, -0.0081],
+        [ 0.0616,  0.0076,  0.0175,  ...,  0.0109,  0.0186,  0.0045],
+        ...,
+        [ 0.0679,  0.0086,  0.0195,  ...,  0.0142,  0.0205,  0.0061],
+        [ 0.0363,  0.0044,  0.0101,  ...,  0.0059,  0.0107,  0.0021],
+        [ 0.0342,  0.0043,  0.0096,  ...,  0.0069,  0.0106,  0.0030]],
+       device='cuda:0')
+Epoch 2, bias, value: tensor([-0.0115, -0.2892,  0.0229, -0.1414, -0.0596,  0.3315,  0.1640],
+       device='cuda:0'), grad: tensor([-0.1210, -0.2117,  0.1382, -0.1489,  0.1758,  0.0772,  0.0903],
+       device='cuda:0')
+351
+0.009994965332706574
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 485.94, cls_loss 2.0030 cls_loss_mapping 1.9396 cls_loss_causal 1.9387 re_mapping 0.0647 re_causal 0.0644 /// teacc 41.77 lr 0.00997987
+Epoch 3, weight, value: tensor([[ 3.4078e-04,  1.6000e-03,  3.1084e-02,  ..., -1.0942e-03,
+          2.9201e-02,  5.4861e-02],
+        [ 6.9312e-02,  8.8419e-02,  5.7617e-02,  ...,  9.5143e-02,
+          1.9121e-02,  3.5263e-02],
+        [ 2.8979e-02, -1.5773e-02,  2.5921e-02,  ...,  6.5189e-02,
+          6.9842e-02,  5.3385e-02],
+        ...,
+        [-1.1333e-01, -9.1322e-02, -1.0055e-01,  ...,  5.0898e-02,
+          6.5492e-02,  1.1030e-02],
+        [-5.0384e-03,  1.4584e-02,  4.9783e-04,  ..., -4.5509e-02,
+         -4.2445e-02, -7.5379e-02],
+        [-2.9434e-02, -2.5451e-02,  6.7909e-05,  ..., -9.6225e-02,
+         -7.2842e-02, -7.1301e-02]], device='cuda:0'), grad: tensor([[ 0.0200,  0.0067,  0.0079,  ...,  0.0014,  0.0034, -0.0002],
+        [ 0.0065,  0.0008,  0.0016,  ...,  0.0011,  0.0014,  0.0007],
+        [ 0.0329,  0.0065,  0.0102,  ...,  0.0055,  0.0080,  0.0035],
+        ...,
+        [ 0.0395,  0.0060,  0.0104,  ...,  0.0067,  0.0091,  0.0043],
+        [-0.0082,  0.0013, -0.0012,  ..., -0.0020, -0.0016, -0.0008],
+        [-0.0192, -0.0043, -0.0041,  ..., -0.0010, -0.0025, -0.0002]],
+       device='cuda:0')
+Epoch 3, bias, value: tensor([-0.0612, -0.3493,  0.0748, -0.2091, -0.0425,  0.3946,  0.2087],
+       device='cuda:0'), grad: tensor([ 0.0385,  0.0165,  0.0712, -0.1410,  0.0951, -0.0314, -0.0487],
+       device='cuda:0')
+351
+0.009979871469976196
+changing lr
+epoch 2, time 484.44, cls_loss 1.5550 cls_loss_mapping 1.8738 cls_loss_causal 1.9254 re_mapping 0.0608 re_causal 0.0606 /// teacc 13.08 lr 0.00995475
+Epoch 4, weight, value: tensor([[-0.0137, -0.0117,  0.0201,  ..., -0.0003,  0.0411,  0.0727],
+        [ 0.0566,  0.0884,  0.0561,  ...,  0.0828,  0.0134,  0.0221],
+        [ 0.0523,  0.0052,  0.0546,  ...,  0.0551,  0.0651,  0.0509],
+        ...,
+        [-0.1301, -0.1026, -0.1092,  ...,  0.0596,  0.0749,  0.0162],
+        [-0.0134,  0.0029, -0.0080,  ..., -0.0267, -0.0355, -0.0760],
+        [-0.0125, -0.0185, -0.0061,  ..., -0.1114, -0.0908, -0.0794]],
+       device='cuda:0'), grad: tensor([[-0.1074, -0.0163, -0.0219,  ..., -0.0164, -0.0173, -0.0177],
+        [-0.0030, -0.0003, -0.0006,  ..., -0.0013, -0.0013, -0.0013],
+        [ 0.0052,  0.0004,  0.0009,  ...,  0.0014,  0.0014,  0.0014],
+        ...,
+        [ 0.0270,  0.0045,  0.0053,  ...,  0.0024,  0.0023,  0.0031],
+        [ 0.0175,  0.0033,  0.0036,  ...,  0.0030,  0.0029,  0.0029],
+        [ 0.0384,  0.0056,  0.0080,  ...,  0.0066,  0.0071,  0.0070]],
+       device='cuda:0')
+Epoch 4, bias, value: tensor([-0.0258, -0.3557,  0.0860, -0.2310, -0.0076,  0.3735,  0.1763],
+       device='cuda:0'), grad: tensor([-0.2710, -0.0077,  0.0140,  0.0579,  0.0644,  0.0446,  0.0978],
+       device='cuda:0')
+351
+0.009954748808839675
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 488.33, cls_loss 1.3546 cls_loss_mapping 1.7404 cls_loss_causal 1.8961 re_mapping 0.0588 re_causal 0.0585 /// teacc 53.59 lr 0.00991965
+Epoch 5, weight, value: tensor([[-0.0074, -0.0123,  0.0209,  ..., -0.0032,  0.0541,  0.0888],
+        [ 0.0611,  0.0895,  0.0580,  ...,  0.0690,  0.0110,  0.0133],
+        [ 0.0503,  0.0057,  0.0587,  ...,  0.0498,  0.0610,  0.0490],
+        ...,
+        [-0.1420, -0.1151, -0.1146,  ...,  0.0570,  0.0713,  0.0154],
+        [-0.0224, -0.0038, -0.0130,  ..., -0.0028, -0.0191, -0.0638],
+        [-0.0048, -0.0111, -0.0072,  ..., -0.1203, -0.1105, -0.0966]],
+       device='cuda:0'), grad: tensor([[ 1.4026e-01,  1.3710e-02,  3.0167e-02,  ...,  3.7689e-02,
+          3.3051e-02,  3.6926e-02],
+        [ 8.0729e-04,  8.0884e-05,  1.7869e-04,  ...,  1.8716e-04,
+          1.3447e-04,  1.5807e-04],
+        [ 2.3224e-02,  2.2202e-03,  5.0621e-03,  ...,  5.9090e-03,
+          5.0125e-03,  6.0768e-03],
+        ...,
+        [-8.1116e-02, -8.6365e-03, -1.6846e-02,  ..., -1.8463e-02,
+         -1.6403e-02, -1.9104e-02],
+        [ 4.2725e-03,  4.3392e-04,  9.1553e-04,  ...,  1.0796e-03,
+          7.8964e-04,  9.8324e-04],
+        [-9.1919e-02, -8.2321e-03, -2.0401e-02,  ..., -2.7817e-02,
+         -2.3865e-02, -2.6306e-02]], device='cuda:0')
+Epoch 5, bias, value: tensor([-0.0100, -0.3700,  0.0890, -0.2639,  0.0169,  0.3545,  0.1994],
+       device='cuda:0'), grad: tensor([ 0.4014,  0.0023,  0.0675,  0.0128, -0.2286,  0.0120, -0.2673],
+       device='cuda:0')
+351
+0.009919647942993149
+changing lr
+epoch 4, time 490.81, cls_loss 1.1636 cls_loss_mapping 1.6025 cls_loss_causal 1.8435 re_mapping 0.0581 re_causal 0.0578 /// teacc 47.26 lr 0.00987464
+Epoch 6, weight, value: tensor([[-0.0092, -0.0115,  0.0200,  ..., -0.0068,  0.0601,  0.0934],
+        [ 0.0657,  0.0900,  0.0604,  ...,  0.0629,  0.0111,  0.0086],
+        [ 0.0585,  0.0162,  0.0694,  ...,  0.0436,  0.0533,  0.0450],
+        ...,
+        [-0.1502, -0.1233, -0.1191,  ...,  0.0550,  0.0668,  0.0162],
+        [-0.0251, -0.0028, -0.0127,  ...,  0.0180, -0.0031, -0.0522],
+        [-0.0082, -0.0168, -0.0138,  ..., -0.1336, -0.1261, -0.1108]],
+       device='cuda:0'), grad: tensor([[ 0.0056,  0.0005,  0.0013,  ...,  0.0016,  0.0015,  0.0011],
+        [-0.0229, -0.0027, -0.0048,  ..., -0.0075, -0.0068, -0.0052],
+        [ 0.0082,  0.0008,  0.0021,  ...,  0.0037,  0.0028,  0.0022],
+        ...,
+        [-0.0790, -0.0061, -0.0199,  ..., -0.0227, -0.0231, -0.0172],
+        [ 0.0002,  0.0001,  0.0004,  ..., -0.0002,  0.0006,  0.0005],
+        [ 0.0731,  0.0060,  0.0168,  ...,  0.0200,  0.0208,  0.0149]],
+       device='cuda:0')
+Epoch 6, bias, value: tensor([-0.0260, -0.3347,  0.0891, -0.2536,  0.0157,  0.3505,  0.1747],
+       device='cuda:0'), grad: tensor([ 0.0153, -0.0533,  0.0237,  0.0438, -0.2416,  0.0005,  0.2114],
+       device='cuda:0')
+351
+0.009874639560909117
+changing lr
+epoch 5, time 491.16, cls_loss 0.9659 cls_loss_mapping 1.4805 cls_loss_causal 1.8159 re_mapping 0.0580 re_causal 0.0577 /// teacc 44.30 lr 0.00981981
+Epoch 7, weight, value: tensor([[-0.0087, -0.0102,  0.0192,  ..., -0.0007,  0.0825,  0.1130],
+        [ 0.0642,  0.0912,  0.0624,  ...,  0.0528,  0.0038, -0.0031],
+        [ 0.0583,  0.0211,  0.0742,  ...,  0.0440,  0.0475,  0.0432],
+        ...,
+        [-0.1536, -0.1256, -0.1215,  ...,  0.0537,  0.0628,  0.0130],
+        [-0.0222, -0.0026, -0.0132,  ...,  0.0380,  0.0139, -0.0401],
+        [-0.0087, -0.0225, -0.0157,  ..., -0.1544, -0.1509, -0.1300]],
+       device='cuda:0'), grad: tensor([[ 2.9419e-02,  3.1052e-03,  8.2626e-03,  ...,  1.6357e-02,
+          1.6663e-02,  1.5762e-02],
+        [ 1.7862e-03,  1.0294e-04,  4.2748e-04,  ...,  4.0174e-04,
+          4.5538e-04,  3.9983e-04],
+        [ 6.8115e-02,  1.1337e-02,  2.0950e-02,  ...,  1.4877e-02,
+          1.6281e-02,  1.6724e-02],
+        ...,
+        [-7.9285e-02, -1.3260e-02, -2.5253e-02,  ..., -2.6566e-02,
+         -2.7786e-02, -2.7908e-02],
+        [-8.7678e-05,  6.4820e-07, -4.7654e-05,  ..., -4.4513e-04,
+         -1.5175e-04, -1.6284e-04],
+        [-4.0710e-02, -2.8210e-03, -9.1019e-03,  ..., -1.0178e-02,
+         -1.1513e-02, -1.0269e-02]], device='cuda:0')
+Epoch 7, bias, value: tensor([-0.0170, -0.3173,  0.0795, -0.2454,  0.0139,  0.3444,  0.1572],
+       device='cuda:0'), grad: tensor([ 0.0901,  0.0056,  0.1676,  0.0627, -0.2017, -0.0006, -0.1240],
+       device='cuda:0')
+351
+0.009819814303479266
+changing lr
+epoch 6, time 485.87, cls_loss 0.8556 cls_loss_mapping 1.3801 cls_loss_causal 1.7626 re_mapping 0.0591 re_causal 0.0588 /// teacc 16.46 lr 0.00975528
+Epoch 8, weight, value: tensor([[-0.0206, -0.0165,  0.0098,  ..., -0.0012,  0.0856,  0.1165],
+        [ 0.0669,  0.0905,  0.0646,  ...,  0.0561,  0.0145,  0.0017],
+        [ 0.0613,  0.0221,  0.0739,  ...,  0.0347,  0.0348,  0.0349],
+        ...,
+        [-0.1449, -0.1215, -0.1127,  ...,  0.0389,  0.0514,  0.0033],
+        [-0.0210, -0.0022, -0.0147,  ...,  0.0576,  0.0264, -0.0269],
+        [-0.0144, -0.0258, -0.0177,  ..., -0.1550, -0.1571, -0.1350]],
+       device='cuda:0'), grad: tensor([[-1.8387e-02,  2.7108e-04, -4.0817e-03,  ...,  1.6880e-03,
+         -1.1263e-03,  6.9761e-04],
+        [ 2.3499e-02,  4.3144e-03,  4.4899e-03,  ...,  8.8425e-03,
+          8.3237e-03,  5.8784e-03],
+        [ 1.4435e-02,  1.4095e-03,  2.9545e-03,  ...,  3.0537e-03,
+          3.5877e-03,  2.1877e-03],
+        ...,
+        [-4.3671e-02, -9.4910e-03, -8.1940e-03,  ..., -1.9760e-02,
+         -1.8127e-02, -1.3351e-02],
+        [-3.3302e-03, -8.7172e-06, -5.5170e-04,  ..., -8.2636e-04,
+         -2.4056e-04, -1.7405e-04],
+        [ 1.0490e-02,  1.2846e-03,  1.9875e-03,  ...,  2.7065e-03,
+          2.8782e-03,  1.7948e-03]], device='cuda:0')
+Epoch 8, bias, value: tensor([-0.0110, -0.3280,  0.0902, -0.2517,  0.0217,  0.3492,  0.1446],
+       device='cuda:0'), grad: tensor([-0.0444,  0.0637,  0.0409,  0.0447, -0.1157, -0.0180,  0.0287],
+       device='cuda:0')
+351
+0.009755282581475767
+changing lr
+epoch 7, time 487.93, cls_loss 0.7146 cls_loss_mapping 1.2877 cls_loss_causal 1.6994 re_mapping 0.0594 re_causal 0.0592 /// teacc 34.60 lr 0.00968117
+Epoch 9, weight, value: tensor([[-0.0208, -0.0210,  0.0043,  ..., -0.0036,  0.0879,  0.1206],
+        [ 0.0655,  0.0872,  0.0628,  ...,  0.0514,  0.0141, -0.0047],
+        [ 0.0660,  0.0297,  0.0799,  ...,  0.0356,  0.0282,  0.0334],
+        ...,
+        [-0.1432, -0.1176, -0.1069,  ...,  0.0358,  0.0539,  0.0041],
+        [-0.0209, -0.0021, -0.0152,  ...,  0.0649,  0.0277, -0.0243],
+        [-0.0217, -0.0287, -0.0192,  ..., -0.1577, -0.1638, -0.1406]],
+       device='cuda:0'), grad: tensor([[-7.3004e-04, -3.0255e-04, -2.6321e-04,  ...,  3.6263e-04,
+          1.9729e-04,  2.9969e-04],
+        [ 4.7493e-04,  2.4632e-05,  8.4996e-05,  ...,  2.2411e-04,
+          2.1279e-04,  2.3365e-04],
+        [-1.7941e-05, -1.2837e-05, -1.4558e-05,  ...,  2.2948e-06,
+         -4.7162e-06, -4.2170e-06],
+        ...,
+        [-1.8625e-03, -1.7643e-05, -2.9802e-04,  ..., -1.2522e-03,
+         -1.2255e-03, -1.3466e-03],
+        [ 4.2328e-02,  1.7605e-03,  7.6981e-03,  ...,  1.1963e-02,
+          7.0267e-03,  8.6975e-03],
+        [-4.2358e-02, -1.7443e-03, -7.6790e-03,  ..., -1.1917e-02,
+         -6.9313e-03, -8.6136e-03]], device='cuda:0')
+Epoch 9, bias, value: tensor([-0.0195, -0.3211,  0.0706, -0.2405,  0.0008,  0.3643,  0.1601],
+       device='cuda:0'), grad: tensor([-1.0853e-03,  1.5802e-03, -1.3411e-05,  6.2561e-03, -6.5804e-03,
+         1.4355e-01, -1.4368e-01], device='cuda:0')
+351
+0.009681174353198686
+changing lr
+epoch 8, time 487.83, cls_loss 0.6065 cls_loss_mapping 1.1835 cls_loss_causal 1.6608 re_mapping 0.0617 re_causal 0.0615 /// teacc 49.37 lr 0.00959764
+Epoch 10, weight, value: tensor([[-2.4050e-02, -1.7761e-02,  3.4237e-03,  ..., -1.7390e-03,
+          8.9277e-02,  1.2650e-01],
+        [ 6.3247e-02,  8.4007e-02,  6.1289e-02,  ...,  5.2398e-02,
+          1.3658e-02, -8.1415e-03],
+        [ 6.9869e-02,  3.1879e-02,  8.0394e-02,  ...,  2.8270e-02,
+          1.8491e-02,  2.4165e-02],
+        ...,
+        [-1.4282e-01, -1.2039e-01, -1.0256e-01,  ...,  2.5484e-02,
+          5.2426e-02,  1.4157e-04],
+        [-2.1257e-02, -1.3096e-03, -1.7762e-02,  ...,  7.3701e-02,
+          2.8826e-02, -2.2097e-02],
+        [-2.1198e-02, -2.8250e-02, -1.8889e-02,  ..., -1.6167e-01,
+         -1.6683e-01, -1.4144e-01]], device='cuda:0'), grad: tensor([[ 1.7500e-03,  3.7360e-04,  5.3549e-04,  ...,  3.4451e-04,
+          4.9019e-04,  4.7493e-04],
+        [ 2.2078e-04,  5.2124e-05,  7.2539e-05,  ...,  4.3780e-05,
+          6.1393e-05,  5.5730e-05],
+        [-4.3671e-02, -8.8120e-03, -1.5808e-02,  ..., -1.7059e-02,
+         -1.6403e-02, -1.5350e-02],
+        ...,
+        [ 3.6896e-02,  7.3662e-03,  1.3657e-02,  ...,  1.5488e-02,
+          1.4389e-02,  1.3420e-02],
+        [-5.0688e-04,  7.3314e-06, -6.0052e-05,  ..., -1.6499e-04,
+         -7.8738e-05, -2.9728e-05],
+        [ 1.5955e-03,  2.3997e-04,  4.1461e-04,  ...,  3.8505e-04,
+          3.8671e-04,  3.2830e-04]], device='cuda:0')
+Epoch 10, bias, value: tensor([-0.0185, -0.3178,  0.0688, -0.2319,  0.0088,  0.3629,  0.1423],
+       device='cuda:0'), grad: tensor([ 0.0046,  0.0006, -0.1209,  0.0099,  0.1028, -0.0015,  0.0044],
+       device='cuda:0')
+351
+0.009597638862757255
+changing lr
+---------------------saving model at epoch 9----------------------------------------------------
+epoch 9, time 496.62, cls_loss 0.5204 cls_loss_mapping 1.0647 cls_loss_causal 1.5735 re_mapping 0.0619 re_causal 0.0617 /// teacc 78.48 lr 0.00950484
+Epoch 11, weight, value: tensor([[-0.0143, -0.0127,  0.0037,  ...,  0.0025,  0.0978,  0.1330],
+        [ 0.0605,  0.0804,  0.0595,  ...,  0.0587,  0.0218, -0.0022],
+        [ 0.0698,  0.0287,  0.0795,  ...,  0.0239,  0.0185,  0.0256],
+        ...,
+        [-0.1494, -0.1267, -0.1035,  ...,  0.0184,  0.0450, -0.0050],
+        [-0.0252,  0.0017, -0.0171,  ...,  0.0766,  0.0278, -0.0212],
+        [-0.0184, -0.0282, -0.0203,  ..., -0.1655, -0.1755, -0.1504]],
+       device='cuda:0'), grad: tensor([[ 1.2459e-02,  1.3876e-03,  2.9373e-03,  ...,  2.5539e-03,
+          2.7657e-03,  3.2463e-03],
+        [ 1.9388e-03,  1.8775e-04,  4.2844e-04,  ...,  4.3082e-04,
+          4.6372e-04,  5.4216e-04],
+        [ 5.2612e-02,  1.4328e-02,  2.0798e-02,  ...,  4.3564e-03,
+          5.9853e-03,  6.3286e-03],
+        ...,
+        [ 2.6886e-02,  2.6340e-03,  6.0768e-03,  ...,  5.0621e-03,
+          5.5580e-03,  6.7787e-03],
+        [ 6.6996e-05,  9.0525e-06,  1.7419e-05,  ...,  3.0063e-06,
+          5.5954e-06,  9.2536e-06],
+        [-9.5337e-02, -1.8707e-02, -3.0579e-02,  ..., -1.2718e-02,
+         -1.5114e-02, -1.7288e-02]], device='cuda:0')
+Epoch 11, bias, value: tensor([ 0.0015, -0.3192,  0.0555, -0.2433,  0.0173,  0.3439,  0.1586],
+       device='cuda:0'), grad: tensor([ 4.2358e-02,  6.6528e-03,  1.5479e-01,  4.8218e-03,  9.2896e-02,
+         2.2638e-04, -3.0176e-01], device='cuda:0')
+351
+0.009504844339512096
+changing lr
+epoch 10, time 488.71, cls_loss 0.4416 cls_loss_mapping 0.9614 cls_loss_causal 1.5411 re_mapping 0.0639 re_causal 0.0637 /// teacc 43.88 lr 0.00940298
+Epoch 12, weight, value: tensor([[-0.0199, -0.0105,  0.0022,  ...,  0.0044,  0.1020,  0.1346],
+        [ 0.0602,  0.0779,  0.0589,  ...,  0.0587,  0.0236, -0.0019],
+        [ 0.0649,  0.0265,  0.0755,  ...,  0.0258,  0.0215,  0.0291],
+        ...,
+        [-0.1561, -0.1310, -0.1052,  ...,  0.0121,  0.0383, -0.0080],
+        [-0.0179,  0.0020, -0.0169,  ...,  0.0814,  0.0301, -0.0190],
+        [-0.0118, -0.0252, -0.0170,  ..., -0.1677, -0.1806, -0.1532]],
+       device='cuda:0'), grad: tensor([[ 6.2752e-04,  8.8215e-05,  1.4699e-04,  ...,  1.3494e-04,
+          8.3327e-05,  4.4316e-05],
+        [ 3.3450e-04,  4.9382e-05,  9.3460e-05,  ...,  3.2276e-05,
+         -1.6272e-05, -3.8147e-05],
+        [-1.0910e-02, -1.5612e-03, -2.5730e-03,  ..., -2.1000e-03,
+         -1.0977e-03, -4.0007e-04],
+        ...,
+        [ 5.4455e-04,  8.6308e-05,  1.0788e-04,  ...,  6.6996e-05,
+          9.3579e-06, -3.2425e-05],
+        [ 3.1796e-03,  4.5466e-04,  7.5006e-04,  ...,  6.1369e-04,
+          3.2234e-04,  1.1897e-04],
+        [ 3.2673e-03,  4.6039e-04,  7.7772e-04,  ...,  6.8188e-04,
+          4.0054e-04,  1.9753e-04]], device='cuda:0')
+Epoch 12, bias, value: tensor([-0.0175, -0.3137,  0.0387, -0.2354, -0.0062,  0.3748,  0.1735],
+       device='cuda:0'), grad: tensor([ 0.0018,  0.0009, -0.0317,  0.0086,  0.0015,  0.0092,  0.0096],
+       device='cuda:0')
+351
+0.009402977659283692
+changing lr
+---------------------saving model at epoch 11----------------------------------------------------
+epoch 11, time 494.18, cls_loss 0.3891 cls_loss_mapping 0.8157 cls_loss_causal 1.4446 re_mapping 0.0666 re_causal 0.0663 /// teacc 78.90 lr 0.00929224
+Epoch 13, weight, value: tensor([[-0.0114, -0.0099,  0.0014,  ...,  0.0046,  0.1073,  0.1377],
+        [ 0.0535,  0.0753,  0.0569,  ...,  0.0620,  0.0234, -0.0039],
+        [ 0.0735,  0.0337,  0.0822,  ...,  0.0240,  0.0212,  0.0305],
+        ...,
+        [-0.1620, -0.1316, -0.1037,  ...,  0.0099,  0.0368, -0.0077],
+        [-0.0194,  0.0019, -0.0192,  ...,  0.0848,  0.0300, -0.0185],
+        [-0.0162, -0.0297, -0.0210,  ..., -0.1704, -0.1856, -0.1569]],
+       device='cuda:0'), grad: tensor([[ 4.6611e-05,  1.1183e-05,  1.9923e-05,  ..., -2.2575e-05,
+         -2.5004e-05, -2.1055e-05],
+        [ 1.0766e-05,  3.0249e-06,  4.0717e-06,  ...,  2.8312e-06,
+          2.3656e-06,  2.8126e-06],
+        [-1.6193e-03, -5.1022e-04, -6.5613e-04,  ..., -5.1498e-04,
+         -3.5930e-04, -4.0555e-04],
+        ...,
+        [ 1.3876e-04,  3.0369e-05,  4.1813e-05,  ...,  6.6936e-05,
+          7.4625e-05,  8.1360e-05],
+        [ 2.7239e-05,  7.3612e-06,  1.0043e-05,  ...,  7.8529e-06,
+          6.9402e-06,  8.0913e-06],
+        [ 6.2734e-06,  2.1681e-05,  1.8269e-05,  ...,  1.8656e-05,
+         -9.0450e-06, -1.5110e-05]], device='cuda:0')
+Epoch 13, bias, value: tensor([-9.4110e-05, -3.2179e-01,  3.0043e-02, -2.2424e-01, -2.7306e-02,
+         3.7682e-01,  1.8037e-01], device='cuda:0'), grad: tensor([ 1.3185e-04,  2.7537e-05, -3.9215e-03,  3.3684e-03,  3.8481e-04,
+         7.0870e-05, -6.4135e-05], device='cuda:0')
+351
+0.009292243968009333
+changing lr
+epoch 12, time 487.57, cls_loss 0.3192 cls_loss_mapping 0.7209 cls_loss_causal 1.3775 re_mapping 0.0656 re_causal 0.0653 /// teacc 63.71 lr 0.00917287
+Epoch 14, weight, value: tensor([[-0.0128, -0.0094,  0.0006,  ...,  0.0067,  0.1094,  0.1410],
+        [ 0.0535,  0.0740,  0.0570,  ...,  0.0602,  0.0213, -0.0071],
+        [ 0.0651,  0.0308,  0.0764,  ...,  0.0198,  0.0181,  0.0274],
+        ...,
+        [-0.1485, -0.1289, -0.0992,  ...,  0.0107,  0.0365, -0.0067],
+        [-0.0197,  0.0018, -0.0197,  ...,  0.0855,  0.0319, -0.0186],
+        [-0.0218, -0.0307, -0.0218,  ..., -0.1687, -0.1871, -0.1557]],
+       device='cuda:0'), grad: tensor([[ 3.2940e-03,  4.0150e-04,  5.7077e-04,  ...,  5.7507e-04,
+          1.0185e-03,  9.1982e-04],
+        [ 1.8632e-04,  2.0161e-05,  5.4568e-05,  ...,  1.0991e-04,
+          1.2201e-04,  1.3220e-04],
+        [ 1.4639e-04,  1.1936e-05,  3.6836e-05,  ...,  5.2154e-05,
+          4.9412e-05,  5.9545e-05],
+        ...,
+        [ 3.3045e-04,  9.2089e-06,  7.9036e-05,  ...,  4.6194e-05,
+         -1.2025e-05,  2.9653e-05],
+        [ 4.0016e-03,  2.8110e-04,  1.0900e-03,  ...,  1.6613e-03,
+          1.4162e-03,  1.8120e-03],
+        [-8.0948e-03, -7.3528e-04, -1.8692e-03,  ..., -2.5005e-03,
+         -2.6455e-03, -3.0155e-03]], device='cuda:0')
+Epoch 14, bias, value: tensor([-0.0019, -0.3214,  0.0035, -0.2192,  0.0107,  0.3626,  0.1791],
+       device='cuda:0'), grad: tensor([ 0.0094,  0.0007,  0.0006,  0.0006,  0.0016,  0.0171, -0.0299],
+       device='cuda:0')
+351
+0.009172866268606516
+changing lr
+epoch 13, time 489.06, cls_loss 0.2306 cls_loss_mapping 0.6268 cls_loss_causal 1.2624 re_mapping 0.0687 re_causal 0.0684 /// teacc 16.46 lr 0.00904508
+Epoch 15, weight, value: tensor([[-0.0146, -0.0088, -0.0035,  ...,  0.0025,  0.1056,  0.1395],
+        [ 0.0602,  0.0743,  0.0604,  ...,  0.0627,  0.0234, -0.0063],
+        [ 0.0683,  0.0323,  0.0766,  ...,  0.0169,  0.0138,  0.0250],
+        ...,
+        [-0.1461, -0.1274, -0.0961,  ...,  0.0092,  0.0416, -0.0031],
+        [-0.0188,  0.0011, -0.0206,  ...,  0.0915,  0.0352, -0.0144],
+        [-0.0272, -0.0327, -0.0228,  ..., -0.1682, -0.1902, -0.1596]],
+       device='cuda:0'), grad: tensor([[ 0.0088,  0.0010,  0.0025,  ...,  0.0017,  0.0029,  0.0036],
+        [ 0.0007,  0.0002,  0.0003,  ...,  0.0004,  0.0003,  0.0004],
+        [-0.0638, -0.0165, -0.0286,  ..., -0.0233, -0.0222, -0.0276],
+        ...,
+        [ 0.0265,  0.0029,  0.0075,  ...,  0.0056,  0.0092,  0.0112],
+        [ 0.0006,  0.0003,  0.0004,  ...,  0.0004,  0.0002,  0.0003],
+        [ 0.0212,  0.0095,  0.0139,  ...,  0.0119,  0.0074,  0.0095]],
+       device='cuda:0')
+Epoch 15, bias, value: tensor([-0.0048, -0.3123,  0.0152, -0.2279,  0.0035,  0.3635,  0.1762],
+       device='cuda:0'), grad: tensor([ 0.0277,  0.0026, -0.2307,  0.0250,  0.0837,  0.0027,  0.0891],
+       device='cuda:0')
+351
+0.00904508497187474
+changing lr
+epoch 14, time 487.91, cls_loss 0.2457 cls_loss_mapping 0.5984 cls_loss_causal 1.2677 re_mapping 0.0668 re_causal 0.0666 /// teacc 56.12 lr 0.00890916
+Epoch 16, weight, value: tensor([[-0.0190, -0.0126, -0.0079,  ..., -0.0027,  0.1032,  0.1370],
+        [ 0.0610,  0.0744,  0.0602,  ...,  0.0630,  0.0232, -0.0067],
+        [ 0.0704,  0.0346,  0.0775,  ...,  0.0177,  0.0127,  0.0243],
+        ...,
+        [-0.1485, -0.1284, -0.0956,  ...,  0.0113,  0.0454,  0.0003],
+        [-0.0218,  0.0008, -0.0216,  ...,  0.0921,  0.0343, -0.0144],
+        [-0.0231, -0.0305, -0.0202,  ..., -0.1639, -0.1877, -0.1558]],
+       device='cuda:0'), grad: tensor([[ 3.6216e-04,  6.3956e-05,  7.0810e-05,  ...,  1.5664e-04,
+          1.2243e-04,  1.6391e-04],
+        [ 3.8025e-02,  7.5226e-03,  1.1467e-02,  ...,  1.0361e-02,
+          1.5282e-02,  1.5373e-02],
+        [-3.8666e-02, -7.6523e-03, -1.1673e-02,  ..., -1.0529e-02,
+         -1.5549e-02, -1.5640e-02],
+        ...,
+        [ 1.2600e-04,  4.2140e-05,  8.7678e-05,  ..., -1.9401e-05,
+          7.9334e-05,  3.8594e-05],
+        [ 1.6558e-04,  3.2425e-05,  4.8608e-05,  ...,  4.7058e-05,
+          6.5863e-05,  6.7592e-05],
+        [ 6.8665e-05,  1.3933e-05,  2.0951e-05,  ...,  1.8701e-05,
+          2.7299e-05,  2.7537e-05]], device='cuda:0')
+Epoch 16, bias, value: tensor([-0.0068, -0.2992,  0.0154, -0.2199, -0.0004,  0.3446,  0.1795],
+       device='cuda:0'), grad: tensor([ 1.2054e-03,  1.0278e-01, -1.0455e-01, -1.5152e-04,  6.4135e-05,
+         4.5562e-04,  1.8466e-04], device='cuda:0')
+351
+0.008909157412340152
+changing lr
+epoch 15, time 487.09, cls_loss 0.1644 cls_loss_mapping 0.5142 cls_loss_causal 1.1892 re_mapping 0.0672 re_causal 0.0669 /// teacc 66.67 lr 0.00876536
+Epoch 17, weight, value: tensor([[-0.0198, -0.0133, -0.0073,  ..., -0.0034,  0.1047,  0.1385],
+        [ 0.0540,  0.0720,  0.0575,  ...,  0.0566,  0.0184, -0.0133],
+        [ 0.0707,  0.0354,  0.0767,  ...,  0.0200,  0.0152,  0.0280],
+        ...,
+        [-0.1433, -0.1255, -0.0916,  ...,  0.0082,  0.0417, -0.0034],
+        [-0.0192,  0.0005, -0.0220,  ...,  0.0945,  0.0362, -0.0125],
+        [-0.0222, -0.0315, -0.0223,  ..., -0.1588, -0.1861, -0.1524]],
+       device='cuda:0'), grad: tensor([[ 5.0049e-03,  6.1369e-04,  1.1215e-03,  ...,  2.3670e-03,
+          2.7428e-03,  3.0746e-03],
+        [-5.3482e-03, -6.4516e-04, -1.1797e-03,  ..., -2.5311e-03,
+         -2.9335e-03, -3.2787e-03],
+        [ 1.3359e-05,  2.4792e-06,  3.2727e-06,  ...,  4.5523e-06,
+          4.6417e-06,  5.2229e-06],
+        ...,
+        [ 4.4912e-05,  8.4862e-06,  1.0416e-05,  ...,  1.3746e-05,
+          1.2174e-05,  1.3910e-05],
+        [ 2.6345e-04,  5.5492e-05,  6.3419e-05,  ...,  6.0797e-05,
+          4.9591e-05,  5.6654e-05],
+        [ 1.0535e-05, -3.6955e-05, -2.1502e-05,  ...,  8.2850e-05,
+          1.2177e-04,  1.2362e-04]], device='cuda:0')
+Epoch 17, bias, value: tensor([-0.0110, -0.3091,  0.0176, -0.2245,  0.0073,  0.3497,  0.1830],
+       device='cuda:0'), grad: tensor([ 1.5442e-02, -1.6510e-02,  3.9279e-05,  2.3291e-05,  1.3268e-04,
+         7.6675e-04,  9.7513e-05], device='cuda:0')
+351
+0.00876535733001806
+changing lr
+epoch 16, time 486.79, cls_loss 0.1451 cls_loss_mapping 0.4625 cls_loss_causal 1.1703 re_mapping 0.0665 re_causal 0.0663 /// teacc 75.95 lr 0.00861397
+Epoch 18, weight, value: tensor([[-0.0251, -0.0154, -0.0094,  ..., -0.0082,  0.1041,  0.1376],
+        [ 0.0554,  0.0698,  0.0561,  ...,  0.0582,  0.0230, -0.0094],
+        [ 0.0726,  0.0386,  0.0782,  ...,  0.0188,  0.0155,  0.0284],
+        ...,
+        [-0.1426, -0.1242, -0.0895,  ...,  0.0081,  0.0359, -0.0078],
+        [-0.0184,  0.0003, -0.0225,  ...,  0.0962,  0.0364, -0.0117],
+        [-0.0208, -0.0312, -0.0229,  ..., -0.1566, -0.1876, -0.1535]],
+       device='cuda:0'), grad: tensor([[-3.5076e-03, -3.7932e-04, -9.4175e-04,  ..., -8.6021e-04,
+         -2.0180e-03, -2.1801e-03],
+        [ 3.5357e-04,  4.5151e-05,  9.7215e-05,  ...,  8.0526e-05,
+          1.9038e-04,  2.0647e-04],
+        [-2.5787e-03, -8.8978e-04, -1.0452e-03,  ..., -4.4012e-04,
+         -3.0732e-04, -2.9087e-04],
+        ...,
+        [ 3.7956e-04,  7.5400e-05,  1.2279e-04,  ...,  8.1301e-05,
+          1.5175e-04,  1.6046e-04],
+        [ 4.0770e-04,  1.2398e-04,  1.5557e-04,  ...,  7.5758e-05,
+          7.9870e-05,  8.0645e-05],
+        [ 3.2368e-03,  4.5490e-04,  9.3269e-04,  ...,  7.6056e-04,
+          1.6651e-03,  1.7910e-03]], device='cuda:0')
+Epoch 18, bias, value: tensor([-0.0241, -0.2958,  0.0095, -0.2232,  0.0036,  0.3491,  0.1936],
+       device='cuda:0'), grad: tensor([-0.0110,  0.0011, -0.0058,  0.0039,  0.0011,  0.0010,  0.0097],
+       device='cuda:0')
+351
+0.008613974319136962
+changing lr
+epoch 17, time 490.87, cls_loss 0.1359 cls_loss_mapping 0.4107 cls_loss_causal 1.1271 re_mapping 0.0690 re_causal 0.0689 /// teacc 31.65 lr 0.00845531
+Epoch 19, weight, value: tensor([[-0.0262, -0.0149, -0.0089,  ..., -0.0061,  0.1036,  0.1387],
+        [ 0.0530,  0.0664,  0.0550,  ...,  0.0562,  0.0261, -0.0083],
+        [ 0.0759,  0.0417,  0.0804,  ...,  0.0192,  0.0141,  0.0275],
+        ...,
+        [-0.1386, -0.1222, -0.0873,  ...,  0.0064,  0.0339, -0.0098],
+        [-0.0211, -0.0006, -0.0238,  ...,  0.0952,  0.0354, -0.0127],
+        [-0.0220, -0.0315, -0.0255,  ..., -0.1548, -0.1872, -0.1521]],
+       device='cuda:0'), grad: tensor([[ 2.1145e-05,  1.6410e-06,  2.7213e-06,  ...,  1.2532e-05,
+          9.9614e-06,  1.2040e-05],
+        [ 4.3586e-06,  5.0291e-07,  8.1584e-07,  ...,  2.3693e-06,
+          1.9353e-06,  2.2948e-06],
+        [-1.2871e-06, -4.6566e-07, -8.1956e-07,  ...,  7.4506e-09,
+         -4.6380e-07, -6.3702e-07],
+        ...,
+        [-3.9369e-05, -3.1348e-06, -5.4277e-06,  ..., -2.2262e-05,
+         -1.7211e-05, -2.0772e-05],
+        [ 7.0855e-06,  7.5996e-07,  1.2480e-06,  ...,  3.7327e-06,
+          2.9169e-06,  3.5390e-06],
+        [ 8.8438e-06,  1.6782e-06,  2.3842e-06,  ...,  4.1127e-06,
+          3.3025e-06,  4.1015e-06]], device='cuda:0')
+Epoch 19, bias, value: tensor([-0.0223, -0.2936,  0.0166, -0.2197,  0.0082,  0.3351,  0.1881],
+       device='cuda:0'), grad: tensor([ 6.7830e-05,  1.3463e-05, -3.2894e-06,  3.5204e-07, -1.2648e-04,
+         2.2292e-05,  2.5839e-05], device='cuda:0')
+351
+0.008455313244934327
+changing lr
+epoch 18, time 489.60, cls_loss 0.0976 cls_loss_mapping 0.3568 cls_loss_causal 1.0910 re_mapping 0.0673 re_causal 0.0673 /// teacc 77.22 lr 0.00828969
+Epoch 20, weight, value: tensor([[-0.0217, -0.0144, -0.0075,  ..., -0.0047,  0.1070,  0.1415],
+        [ 0.0498,  0.0659,  0.0546,  ...,  0.0559,  0.0258, -0.0093],
+        [ 0.0745,  0.0411,  0.0786,  ...,  0.0179,  0.0144,  0.0282],
+        ...,
+        [-0.1379, -0.1209, -0.0862,  ...,  0.0031,  0.0304, -0.0127],
+        [-0.0152,  0.0002, -0.0226,  ...,  0.0979,  0.0375, -0.0094],
+        [-0.0275, -0.0336, -0.0282,  ..., -0.1550, -0.1903, -0.1554]],
+       device='cuda:0'), grad: tensor([[ 6.8140e-04,  9.6321e-05,  2.1148e-04,  ...,  1.2398e-04,
+          2.8491e-04,  2.6059e-04],
+        [ 8.2016e-05,  1.1437e-05,  2.5108e-05,  ...,  1.6108e-05,
+          3.4273e-05,  3.1531e-05],
+        [ 7.6714e-03,  1.0843e-03,  2.3823e-03,  ...,  1.3924e-03,
+          3.2101e-03,  2.9316e-03],
+        ...,
+        [-8.6060e-03, -1.2188e-03, -2.6779e-03,  ..., -1.5488e-03,
+         -3.6030e-03, -3.2883e-03],
+        [ 8.0839e-06,  2.9299e-06,  6.7875e-06,  ..., -1.3940e-05,
+          3.6377e-06,  3.3900e-07],
+        [ 8.2791e-05,  1.1660e-05,  2.5585e-05,  ...,  1.5527e-05,
+          3.4660e-05,  3.1769e-05]], device='cuda:0')
+Epoch 20, bias, value: tensor([-0.0104, -0.3015,  0.0106, -0.2195,  0.0064,  0.3531,  0.1737],
+       device='cuda:0'), grad: tensor([ 2.2831e-03,  2.7514e-04,  2.5711e-02,  2.7728e-04, -2.8854e-02,
+         2.4706e-05,  2.7752e-04], device='cuda:0')
+351
+0.008289693629698565
+changing lr
+---------------------saving model at epoch 19----------------------------------------------------
+epoch 19, time 497.06, cls_loss 0.1102 cls_loss_mapping 0.3219 cls_loss_causal 1.0679 re_mapping 0.0690 re_causal 0.0690 /// teacc 85.65 lr 0.00811745
+Epoch 21, weight, value: tensor([[-0.0224, -0.0154, -0.0073,  ..., -0.0084,  0.1079,  0.1397],
+        [ 0.0464,  0.0648,  0.0531,  ...,  0.0535,  0.0237, -0.0116],
+        [ 0.0759,  0.0387,  0.0755,  ...,  0.0178,  0.0120,  0.0267],
+        ...,
+        [-0.1408, -0.1212, -0.0868,  ...,  0.0026,  0.0276, -0.0143],
+        [-0.0176, -0.0003, -0.0230,  ...,  0.0976,  0.0375, -0.0091],
+        [-0.0218, -0.0310, -0.0260,  ..., -0.1495, -0.1864, -0.1501]],
+       device='cuda:0'), grad: tensor([[ 4.0054e-05,  2.4103e-06,  7.0930e-06,  ...,  1.6317e-05,
+          9.4175e-06,  1.6287e-05],
+        [ 2.0787e-06,  9.4995e-08,  3.2783e-07,  ...,  8.7358e-07,
+          4.6566e-07,  8.5682e-07],
+        [ 8.4378e-07,  3.7253e-08,  1.4342e-07,  ...,  3.5577e-07,
+          2.1048e-07,  3.4459e-07],
+        ...,
+        [-1.4752e-06, -2.1793e-07, -4.3400e-07,  ..., -1.2107e-06,
+         -1.3504e-06, -1.4361e-06],
+        [ 1.5274e-06,  6.7055e-08,  2.4587e-07,  ...,  6.0722e-07,
+          3.1851e-07,  6.0722e-07],
+        [-4.6432e-05, -3.0883e-06, -8.5682e-06,  ..., -1.7300e-05,
+         -9.3505e-06, -1.7017e-05]], device='cuda:0')
+Epoch 21, bias, value: tensor([-0.0157, -0.3083,  0.0252, -0.2177, -0.0058,  0.3422,  0.1923],
+       device='cuda:0'), grad: tensor([ 1.3244e-04,  6.9551e-06,  2.8443e-06,  9.5814e-06, -4.6417e-06,
+         5.1148e-06, -1.5259e-04], device='cuda:0')
+351
+0.00811744900929367
+changing lr
+---------------------saving model at epoch 20----------------------------------------------------
+epoch 20, time 492.87, cls_loss 0.0760 cls_loss_mapping 0.2840 cls_loss_causal 1.0343 re_mapping 0.0687 re_causal 0.0688 /// teacc 88.61 lr 0.00793893
+Epoch 22, weight, value: tensor([[-2.5705e-02, -1.5634e-02, -7.1052e-03,  ..., -1.0747e-02,
+          1.0806e-01,  1.3788e-01],
+        [ 5.1844e-02,  6.5237e-02,  5.4339e-02,  ...,  5.6280e-02,
+          2.6188e-02, -9.1537e-03],
+        [ 6.8620e-02,  3.6508e-02,  7.1406e-02,  ...,  1.6478e-02,
+          9.5231e-03,  2.5444e-02],
+        ...,
+        [-1.3768e-01, -1.1991e-01, -8.5010e-02,  ...,  2.3305e-03,
+          2.6403e-02, -1.5035e-02],
+        [-1.5751e-02, -7.5948e-05, -2.3335e-02,  ...,  9.7384e-02,
+          3.7156e-02, -9.2214e-03],
+        [-2.1356e-02, -3.0200e-02, -2.5406e-02,  ..., -1.4869e-01,
+         -1.8599e-01, -1.4877e-01]], device='cuda:0'), grad: tensor([[ 2.1867e-06,  2.5891e-07,  4.9360e-07,  ...,  2.1048e-07,
+          5.0291e-08,  2.0303e-07],
+        [ 5.4315e-06,  6.2026e-07,  1.2163e-06,  ...,  5.7369e-07,
+          2.3656e-07,  6.0908e-07],
+        [ 5.8375e-06,  2.1812e-06,  3.0119e-06,  ...,  1.9372e-06,
+          2.6189e-06,  2.4084e-06],
+        ...,
+        [ 5.4896e-05,  2.3603e-05,  3.2067e-05,  ...,  1.9833e-05,
+          2.8804e-05,  2.5585e-05],
+        [ 2.3600e-06,  1.9185e-07,  4.9174e-07,  ..., -3.5390e-08,
+         -1.6019e-07,  3.3528e-08],
+        [-1.3016e-05, -1.3337e-06, -2.7455e-06,  ..., -1.2256e-06,
+         -3.1479e-07, -1.2722e-06]], device='cuda:0')
+Epoch 22, bias, value: tensor([-0.0246, -0.2882,  0.0090, -0.2145, -0.0027,  0.3421,  0.1908],
+       device='cuda:0'), grad: tensor([ 7.1079e-06,  1.7703e-05,  1.3880e-05, -1.2386e-04,  1.2010e-04,
+         7.9721e-06, -4.2945e-05], device='cuda:0')
+351
+0.007938926261462368
+changing lr
+---------------------saving model at epoch 21----------------------------------------------------
+epoch 21, time 495.37, cls_loss 0.0555 cls_loss_mapping 0.2618 cls_loss_causal 1.0042 re_mapping 0.0691 re_causal 0.0694 /// teacc 89.03 lr 0.00775448
+Epoch 23, weight, value: tensor([[-0.0250, -0.0152, -0.0076,  ..., -0.0115,  0.1060,  0.1355],
+        [ 0.0525,  0.0647,  0.0542,  ...,  0.0553,  0.0270, -0.0090],
+        [ 0.0669,  0.0349,  0.0696,  ...,  0.0153,  0.0090,  0.0249],
+        ...,
+        [-0.1370, -0.1186, -0.0835,  ...,  0.0030,  0.0262, -0.0145],
+        [-0.0132, -0.0003, -0.0236,  ...,  0.0985,  0.0381, -0.0077],
+        [-0.0240, -0.0302, -0.0255,  ..., -0.1479, -0.1849, -0.1475]],
+       device='cuda:0'), grad: tensor([[-5.6386e-05, -6.1654e-06, -1.6123e-05,  ..., -5.9873e-05,
+         -7.1406e-05, -7.0572e-05],
+        [ 2.3186e-04,  3.1978e-05,  7.4446e-05,  ...,  1.0973e-04,
+          9.6023e-05,  1.0985e-04],
+        [-6.2808e-06, -3.4869e-06, -7.7672e-07,  ...,  2.3004e-06,
+          1.0543e-06,  1.2200e-06],
+        ...,
+        [ 5.5641e-05,  1.2450e-05,  1.6242e-05,  ...,  1.5393e-05,
+          9.5591e-06,  1.1526e-05],
+        [ 5.9242e-03,  7.5436e-04,  2.0351e-03,  ...,  1.7452e-03,
+          8.3017e-04,  1.3838e-03],
+        [-6.1455e-03, -7.8821e-04, -2.1076e-03,  ..., -1.8110e-03,
+         -8.6451e-04, -1.4343e-03]], device='cuda:0')
+Epoch 23, bias, value: tensor([-0.0237, -0.2811,  0.0093, -0.2139, -0.0032,  0.3464,  0.1781],
+       device='cuda:0'), grad: tensor([-1.8227e-04,  7.1716e-04, -3.7491e-05, -1.1344e-06,  1.5235e-04,
+         1.8356e-02, -1.8997e-02], device='cuda:0')
+351
+0.007754484907260515
+changing lr
+epoch 22, time 489.20, cls_loss 0.0471 cls_loss_mapping 0.2469 cls_loss_causal 0.9975 re_mapping 0.0680 re_causal 0.0683 /// teacc 82.70 lr 0.00756450
+Epoch 24, weight, value: tensor([[-0.0221, -0.0143, -0.0068,  ..., -0.0097,  0.1085,  0.1372],
+        [ 0.0452,  0.0622,  0.0522,  ...,  0.0519,  0.0224, -0.0141],
+        [ 0.0691,  0.0355,  0.0695,  ...,  0.0148,  0.0087,  0.0250],
+        ...,
+        [-0.1330, -0.1165, -0.0813,  ...,  0.0051,  0.0275, -0.0122],
+        [-0.0186, -0.0018, -0.0254,  ...,  0.0961,  0.0369, -0.0089],
+        [-0.0209, -0.0295, -0.0248,  ..., -0.1462, -0.1833, -0.1452]],
+       device='cuda:0'), grad: tensor([[ 1.4174e-04,  1.3284e-05,  2.9057e-05,  ...,  1.0335e-04,
+          7.4446e-05,  7.3075e-05],
+        [ 1.5712e-04,  1.6555e-05,  2.9877e-05,  ...,  8.7261e-05,
+          7.5936e-05,  7.2062e-05],
+        [ 1.4429e-03,  1.5485e-04,  2.7990e-04,  ...,  8.6403e-04,
+          7.5531e-04,  7.2527e-04],
+        ...,
+        [ 1.9875e-03,  2.1029e-04,  3.7670e-04,  ...,  1.0900e-03,
+          9.5558e-04,  9.0551e-04],
+        [-4.4212e-03, -4.6921e-04, -8.4877e-04,  ..., -2.5463e-03,
+         -2.2163e-03, -2.1152e-03],
+        [ 4.1676e-04,  4.4823e-05,  7.9811e-05,  ...,  2.3985e-04,
+          2.1195e-04,  2.0242e-04]], device='cuda:0')
+Epoch 24, bias, value: tensor([-0.0165, -0.2987,  0.0153, -0.2091,  0.0057,  0.3272,  0.1878],
+       device='cuda:0'), grad: tensor([ 0.0006,  0.0006,  0.0057,  0.0011,  0.0080, -0.0178,  0.0017],
+       device='cuda:0')
+351
+0.007564496387029534
+changing lr
+epoch 23, time 487.18, cls_loss 0.0468 cls_loss_mapping 0.2215 cls_loss_causal 0.9253 re_mapping 0.0658 re_causal 0.0661 /// teacc 74.68 lr 0.00736934
+Epoch 25, weight, value: tensor([[-0.0234, -0.0146, -0.0073,  ..., -0.0096,  0.1084,  0.1368],
+        [ 0.0481,  0.0616,  0.0525,  ...,  0.0520,  0.0238, -0.0126],
+        [ 0.0674,  0.0362,  0.0695,  ...,  0.0141,  0.0085,  0.0248],
+        ...,
+        [-0.1308, -0.1160, -0.0815,  ...,  0.0056,  0.0258, -0.0134],
+        [-0.0168, -0.0017, -0.0253,  ...,  0.0961,  0.0370, -0.0083],
+        [-0.0243, -0.0299, -0.0251,  ..., -0.1461, -0.1824, -0.1447]],
+       device='cuda:0'), grad: tensor([[ 6.6817e-05,  1.1541e-05,  1.8194e-05,  ...,  4.5657e-05,
+          4.5270e-05,  4.9025e-05],
+        [ 6.1035e-05,  1.0975e-05,  1.7136e-05,  ...,  4.0889e-05,
+          4.0948e-05,  4.4376e-05],
+        [-1.2368e-05, -4.3958e-06, -4.6641e-06,  ..., -1.9595e-06,
+         -1.4678e-06, -2.7642e-06],
+        ...,
+        [-5.5218e-04, -9.5844e-05, -1.5271e-04,  ..., -3.7932e-04,
+         -3.8004e-04, -4.1032e-04],
+        [ 3.8296e-05,  7.4282e-06,  1.0990e-05,  ...,  2.3633e-05,
+          2.3440e-05,  2.5749e-05],
+        [ 4.2021e-06,  1.1772e-06,  1.3858e-06,  ...,  1.8775e-06,
+          1.8701e-06,  2.2650e-06]], device='cuda:0')
+Epoch 25, bias, value: tensor([-0.0207, -0.2837,  0.0064, -0.2068,  0.0094,  0.3279,  0.1792],
+       device='cuda:0'), grad: tensor([ 1.8096e-04,  1.6356e-04, -3.0279e-05,  1.0567e-03, -1.4839e-03,
+         1.0246e-04,  1.0207e-05], device='cuda:0')
+351
+0.007369343312364995
+changing lr
+epoch 24, time 489.43, cls_loss 0.0561 cls_loss_mapping 0.2156 cls_loss_causal 0.9517 re_mapping 0.0632 re_causal 0.0636 /// teacc 79.75 lr 0.00716942
+Epoch 26, weight, value: tensor([[-0.0244, -0.0149, -0.0076,  ..., -0.0097,  0.1082,  0.1363],
+        [ 0.0462,  0.0608,  0.0517,  ...,  0.0509,  0.0229, -0.0135],
+        [ 0.0703,  0.0368,  0.0696,  ...,  0.0148,  0.0095,  0.0267],
+        ...,
+        [-0.1327, -0.1161, -0.0814,  ...,  0.0048,  0.0241, -0.0150],
+        [-0.0165, -0.0017, -0.0252,  ...,  0.0958,  0.0370, -0.0079],
+        [-0.0249, -0.0295, -0.0252,  ..., -0.1451, -0.1814, -0.1440]],
+       device='cuda:0'), grad: tensor([[ 5.2631e-05,  7.4133e-06,  9.4920e-06,  ...,  2.3797e-05,
+          2.7403e-05,  2.1726e-05],
+        [ 1.2308e-05,  2.1905e-06,  8.9407e-08,  ...,  5.4166e-06,
+          1.6391e-06, -1.0058e-06],
+        [ 6.5804e-04,  8.4043e-05,  1.1456e-04,  ...,  1.8108e-04,
+          1.8704e-04,  1.4186e-04],
+        ...,
+        [ 1.3752e-03,  2.1374e-04,  1.9753e-04,  ...,  6.8903e-04,
+          6.8665e-04,  4.8661e-04],
+        [-1.8311e-03, -2.8539e-04, -2.6178e-04,  ..., -9.2459e-04,
+         -9.2125e-04, -6.5231e-04],
+        [-4.1652e-04, -4.5180e-05, -8.1360e-05,  ..., -4.9084e-05,
+         -5.5760e-05, -4.9591e-05]], device='cuda:0')
+Epoch 26, bias, value: tensor([-0.0235, -0.2851,  0.0169, -0.1963,  0.0014,  0.3240,  0.1741],
+       device='cuda:0'), grad: tensor([ 1.5664e-04,  3.3677e-05,  2.0599e-03,  4.2963e-04,  3.9406e-03,
+        -5.2376e-03, -1.3800e-03], device='cuda:0')
+351
+0.0071694186955877925
+changing lr
+epoch 25, time 486.77, cls_loss 0.0445 cls_loss_mapping 0.2002 cls_loss_causal 0.9541 re_mapping 0.0637 re_causal 0.0641 /// teacc 86.08 lr 0.00696513
+Epoch 27, weight, value: tensor([[-0.0224, -0.0148, -0.0069,  ..., -0.0090,  0.1102,  0.1378],
+        [ 0.0452,  0.0599,  0.0507,  ...,  0.0500,  0.0225, -0.0140],
+        [ 0.0656,  0.0353,  0.0671,  ...,  0.0134,  0.0080,  0.0254],
+        ...,
+        [-0.1328, -0.1142, -0.0798,  ...,  0.0032,  0.0210, -0.0175],
+        [-0.0156, -0.0017, -0.0253,  ...,  0.0967,  0.0379, -0.0066],
+        [-0.0209, -0.0287, -0.0242,  ..., -0.1424, -0.1791, -0.1420]],
+       device='cuda:0'), grad: tensor([[ 2.1248e-03,  3.3641e-04,  6.0511e-04,  ...,  6.1703e-04,
+          1.2503e-03,  1.2083e-03],
+        [-2.7657e-03, -4.6110e-04, -7.8583e-04,  ..., -7.3004e-04,
+         -1.3189e-03, -1.2741e-03],
+        [ 3.1161e-04,  5.1141e-05,  9.0480e-05,  ...,  1.1814e-04,
+          1.1945e-04,  1.3459e-04],
+        ...,
+        [-6.3467e-04, -1.0312e-04, -1.8442e-04,  ..., -2.4652e-04,
+         -2.5082e-04, -2.8372e-04],
+        [ 2.0123e-04,  3.3110e-05,  5.8502e-05,  ...,  7.1347e-05,
+          7.2539e-05,  8.2135e-05],
+        [ 7.2813e-04,  1.3781e-04,  2.0635e-04,  ...,  1.5700e-04,
+          1.1438e-04,  1.1861e-04]], device='cuda:0')
+Epoch 27, bias, value: tensor([-0.0163, -0.2837,  0.0050, -0.1952, -0.0045,  0.3244,  0.1816],
+       device='cuda:0'), grad: tensor([ 0.0065, -0.0087,  0.0010,  0.0001, -0.0021,  0.0007,  0.0025],
+       device='cuda:0')
+351
+0.0069651251582696205
+changing lr
+epoch 26, time 487.73, cls_loss 0.0368 cls_loss_mapping 0.1828 cls_loss_causal 0.8843 re_mapping 0.0628 re_causal 0.0632 /// teacc 86.92 lr 0.00675687
+Epoch 28, weight, value: tensor([[-0.0236, -0.0151, -0.0075,  ..., -0.0090,  0.1096,  0.1365],
+        [ 0.0429,  0.0591,  0.0491,  ...,  0.0491,  0.0215, -0.0149],
+        [ 0.0693,  0.0359,  0.0674,  ...,  0.0138,  0.0074,  0.0253],
+        ...,
+        [-0.1272, -0.1129, -0.0777,  ...,  0.0041,  0.0222, -0.0156],
+        [-0.0171, -0.0017, -0.0255,  ...,  0.0952,  0.0373, -0.0070],
+        [-0.0240, -0.0291, -0.0241,  ..., -0.1416, -0.1779, -0.1408]],
+       device='cuda:0'), grad: tensor([[ 6.0856e-05,  2.1964e-05,  2.7269e-05,  ...,  6.5342e-06,
+         -1.4685e-05, -5.9530e-06],
+        [-6.1631e-05, -9.1717e-06, -6.6832e-06,  ..., -4.4763e-05,
+         -1.7956e-05, -2.1353e-05],
+        [ 9.1195e-05,  2.1666e-05,  5.9724e-05,  ...,  3.2812e-05,
+          1.0960e-05,  2.4229e-05],
+        ...,
+        [-7.8297e-04, -1.6737e-04, -3.1304e-04,  ..., -1.6844e-04,
+         -1.1462e-04, -1.4091e-04],
+        [ 7.5996e-05,  1.4573e-05,  2.2784e-05,  ...,  1.7464e-05,
+          1.4804e-05,  1.4916e-05],
+        [ 2.5916e-04,  5.2959e-05,  8.9407e-05,  ...,  5.7548e-05,
+          4.3720e-05,  4.9055e-05]], device='cuda:0')
+Epoch 28, bias, value: tensor([-0.0193, -0.2885,  0.0172, -0.1947,  0.0115,  0.3121,  0.1729],
+       device='cuda:0'), grad: tensor([ 0.0004, -0.0001,  0.0008,  0.0014, -0.0038,  0.0003,  0.0011],
+       device='cuda:0')
+351
+0.006756874120406716
+changing lr
+epoch 27, time 487.15, cls_loss 0.0301 cls_loss_mapping 0.1562 cls_loss_causal 0.8664 re_mapping 0.0620 re_causal 0.0625 /// teacc 86.50 lr 0.00654508
+Epoch 29, weight, value: tensor([[-0.0220, -0.0148, -0.0074,  ..., -0.0088,  0.1090,  0.1355],
+        [ 0.0451,  0.0592,  0.0495,  ...,  0.0491,  0.0212, -0.0149],
+        [ 0.0643,  0.0347,  0.0653,  ...,  0.0122,  0.0056,  0.0231],
+        ...,
+        [-0.1302, -0.1122, -0.0772,  ...,  0.0024,  0.0208, -0.0162],
+        [-0.0137, -0.0015, -0.0252,  ...,  0.0964,  0.0387, -0.0057],
+        [-0.0215, -0.0287, -0.0234,  ..., -0.1391, -0.1752, -0.1381]],
+       device='cuda:0'), grad: tensor([[-3.0112e-04, -3.0011e-05, -8.4877e-05,  ..., -1.0002e-04,
+         -1.4138e-04, -1.4341e-04],
+        [-2.8610e-05, -2.1160e-06, -7.0333e-06,  ..., -5.9530e-06,
+         -9.5963e-06, -8.3521e-06],
+        [-8.0168e-05, -2.8774e-05, -3.0190e-05,  ..., -7.9945e-06,
+         -3.1590e-06, -7.7263e-06],
+        ...,
+        [ 1.4508e-04,  1.4298e-05,  4.1276e-05,  ...,  4.0680e-05,
+          6.0260e-05,  6.1095e-05],
+        [ 4.0799e-05,  8.3372e-06,  1.2673e-05,  ...,  9.0152e-06,
+          1.1228e-05,  1.1653e-05],
+        [ 1.9717e-04,  3.2246e-05,  5.9605e-05,  ...,  5.6714e-05,
+          7.3969e-05,  7.7367e-05]], device='cuda:0')
+Epoch 29, bias, value: tensor([-0.0145, -0.2783,  0.0044, -0.1967, -0.0009,  0.3187,  0.1783],
+       device='cuda:0'), grad: tensor([-1.0118e-03, -8.4460e-05, -1.9419e-04,  7.6890e-05,  4.8494e-04,
+         1.1617e-04,  6.1226e-04], device='cuda:0')
+351
+0.00654508497187474
+changing lr
+epoch 28, time 488.45, cls_loss 0.0259 cls_loss_mapping 0.1594 cls_loss_causal 0.8755 re_mapping 0.0618 re_causal 0.0624 /// teacc 83.54 lr 0.00633018
+Epoch 30, weight, value: tensor([[-0.0226, -0.0141, -0.0070,  ..., -0.0097,  0.1078,  0.1339],
+        [ 0.0451,  0.0585,  0.0489,  ...,  0.0486,  0.0208, -0.0149],
+        [ 0.0660,  0.0352,  0.0655,  ...,  0.0120,  0.0055,  0.0230],
+        ...,
+        [-0.1285, -0.1112, -0.0761,  ...,  0.0028,  0.0212, -0.0155],
+        [-0.0149, -0.0017, -0.0254,  ...,  0.0952,  0.0380, -0.0061],
+        [-0.0242, -0.0300, -0.0249,  ..., -0.1378, -0.1735, -0.1366]],
+       device='cuda:0'), grad: tensor([[-2.3043e-04, -2.5898e-05, -3.6359e-05,  ..., -6.9618e-05,
+         -6.9380e-05, -6.5029e-05],
+        [ 1.2040e-05,  9.2015e-07,  2.3283e-06,  ...,  4.3623e-06,
+          7.4543e-06,  6.0536e-06],
+        [ 6.5751e-06,  5.9977e-07,  1.3076e-06,  ...,  2.2091e-06,
+          3.5539e-06,  2.9653e-06],
+        ...,
+        [-2.4462e-04, -1.8463e-05, -5.0098e-05,  ..., -1.2875e-04,
+         -9.0241e-05, -9.0182e-05],
+        [ 1.3925e-05,  1.1101e-06,  2.8498e-06,  ...,  6.5938e-06,
+          5.9046e-06,  5.5246e-06],
+        [ 2.1410e-04,  2.4378e-05,  3.3259e-05,  ...,  6.6340e-05,
+          5.7548e-05,  5.6148e-05]], device='cuda:0')
+Epoch 30, bias, value: tensor([-0.0197, -0.2738,  0.0092, -0.1897,  0.0017,  0.3110,  0.1723],
+       device='cuda:0'), grad: tensor([-7.7391e-04,  4.0770e-05,  2.1964e-05,  8.1396e-04, -8.7309e-04,
+         4.8757e-05,  7.2145e-04], device='cuda:0')
+351
+0.006330184227833378
+changing lr
+epoch 29, time 490.75, cls_loss 0.0292 cls_loss_mapping 0.1531 cls_loss_causal 0.8828 re_mapping 0.0614 re_causal 0.0621 /// teacc 86.92 lr 0.00611260
+Epoch 31, weight, value: tensor([[-0.0218, -0.0140, -0.0068,  ..., -0.0089,  0.1091,  0.1349],
+        [ 0.0433,  0.0577,  0.0479,  ...,  0.0471,  0.0192, -0.0167],
+        [ 0.0632,  0.0351,  0.0644,  ...,  0.0113,  0.0043,  0.0219],
+        ...,
+        [-0.1234, -0.1095, -0.0737,  ...,  0.0036,  0.0218, -0.0143],
+        [-0.0140, -0.0017, -0.0254,  ...,  0.0953,  0.0381, -0.0057],
+        [-0.0247, -0.0296, -0.0247,  ..., -0.1371, -0.1730, -0.1360]],
+       device='cuda:0'), grad: tensor([[ 1.1892e-03,  1.4639e-04,  3.5691e-04,  ...,  1.6296e-04,
+          1.0908e-04,  1.8024e-04],
+        [ 1.6034e-04,  2.6032e-05,  4.6492e-05,  ...,  1.7181e-05,
+          9.0823e-06,  1.5661e-05],
+        [ 2.4438e-04,  3.5912e-05,  7.3314e-05,  ...,  3.0607e-05,
+          1.9833e-05,  3.1680e-05],
+        ...,
+        [ 1.6680e-03,  2.5249e-04,  4.9782e-04,  ...,  1.9598e-04,
+          1.2219e-04,  1.9646e-04],
+        [ 1.1700e-04,  1.9327e-05,  3.4690e-05,  ...,  1.2390e-05,
+          7.2531e-06,  1.1504e-05],
+        [-3.3855e-03, -4.7874e-04, -1.0099e-03,  ..., -4.1747e-04,
+         -2.6464e-04, -4.3321e-04]], device='cuda:0')
+Epoch 31, bias, value: tensor([-0.0185, -0.2735,  0.0005, -0.1896,  0.0133,  0.3104,  0.1683],
+       device='cuda:0'), grad: tensor([ 3.7479e-03,  4.8637e-04,  7.4959e-04,  2.9132e-05,  5.0888e-03,
+         3.5143e-04, -1.0460e-02], device='cuda:0')
+351
+0.006112604669781575
+changing lr
+epoch 30, time 493.20, cls_loss 0.0291 cls_loss_mapping 0.1489 cls_loss_causal 0.8701 re_mapping 0.0617 re_causal 0.0625 /// teacc 74.68 lr 0.00589278
+Epoch 32, weight, value: tensor([[-0.0220, -0.0139, -0.0067,  ..., -0.0089,  0.1086,  0.1337],
+        [ 0.0467,  0.0574,  0.0485,  ...,  0.0477,  0.0197, -0.0158],
+        [ 0.0662,  0.0358,  0.0649,  ...,  0.0117,  0.0051,  0.0228],
+        ...,
+        [-0.1264, -0.1089, -0.0743,  ...,  0.0026,  0.0201, -0.0159],
+        [-0.0151, -0.0019, -0.0255,  ...,  0.0943,  0.0375, -0.0061],
+        [-0.0254, -0.0300, -0.0251,  ..., -0.1358, -0.1713, -0.1342]],
+       device='cuda:0'), grad: tensor([[-1.3389e-05, -1.6242e-06, -1.9707e-06,  ..., -2.7418e-06,
+         -9.4846e-06, -9.3952e-06],
+        [-1.7524e-05, -2.8014e-06, -3.5129e-06,  ..., -1.0431e-06,
+          4.0978e-07,  1.3411e-07],
+        [ 6.8881e-06,  1.2890e-06,  1.4454e-06,  ...,  2.3954e-06,
+          2.4922e-06,  2.6710e-06],
+        ...,
+        [ 1.1548e-05,  1.7248e-06,  1.8440e-06,  ...,  2.1644e-06,
+          5.9679e-06,  5.9269e-06],
+        [-3.1888e-06, -1.3709e-06, -8.5682e-07,  ..., -4.1500e-06,
+         -3.0473e-06, -3.2410e-06],
+        [ 1.1280e-05,  1.9930e-06,  2.2314e-06,  ...,  2.0228e-06,
+          1.6540e-06,  1.8477e-06]], device='cuda:0')
+Epoch 32, bias, value: tensor([-0.0184, -0.2584,  0.0100, -0.1898, -0.0010,  0.3036,  0.1646],
+       device='cuda:0'), grad: tensor([-4.1336e-05, -5.4091e-05,  2.0459e-05,  1.2487e-05,  3.4273e-05,
+        -5.7705e-06,  3.3677e-05], device='cuda:0')
+351
+0.005892784473993186
+changing lr
+epoch 31, time 488.22, cls_loss 0.0271 cls_loss_mapping 0.1293 cls_loss_causal 0.8446 re_mapping 0.0604 re_causal 0.0613 /// teacc 82.70 lr 0.00567117
+Epoch 33, weight, value: tensor([[-0.0197, -0.0135, -0.0061,  ..., -0.0079,  0.1092,  0.1343],
+        [ 0.0433,  0.0561,  0.0470,  ...,  0.0464,  0.0185, -0.0169],
+        [ 0.0662,  0.0359,  0.0648,  ...,  0.0113,  0.0046,  0.0225],
+        ...,
+        [-0.1251, -0.1077, -0.0734,  ...,  0.0020,  0.0190, -0.0164],
+        [-0.0145, -0.0019, -0.0255,  ...,  0.0947,  0.0381, -0.0053],
+        [-0.0254, -0.0299, -0.0248,  ..., -0.1351, -0.1700, -0.1333]],
+       device='cuda:0'), grad: tensor([[ 7.5288e-06,  2.6189e-06,  3.0771e-06,  ...,  2.4885e-06,
+          1.8999e-06,  2.2314e-06],
+        [-1.2450e-05, -1.6689e-06, -3.1479e-06,  ..., -3.0622e-06,
+         -2.6710e-06, -4.0866e-06],
+        [ 1.7472e-06,  7.2643e-07,  7.4133e-07,  ...,  7.0408e-07,
+          4.8056e-07,  4.6566e-07],
+        ...,
+        [ 4.3586e-07,  2.6822e-07,  2.6822e-07,  ..., -1.4901e-08,
+          6.3330e-08,  4.8429e-08],
+        [ 2.8573e-06,  9.9838e-07,  1.1586e-06,  ...,  9.1642e-07,
+          7.1153e-07,  8.3074e-07],
+        [ 1.7941e-05,  4.2692e-06,  5.8673e-06,  ...,  5.0589e-06,
+          4.1910e-06,  5.6028e-06]], device='cuda:0')
+Epoch 33, bias, value: tensor([-1.1186e-02, -2.6577e-01,  1.0681e-02, -1.8894e-01, -2.5201e-04,
+         3.0202e-01,  1.6403e-01], device='cuda:0'), grad: tensor([ 1.7270e-05, -3.9309e-05,  3.2783e-06, -3.6538e-05,  1.3039e-07,
+         6.4075e-06,  4.8697e-05], device='cuda:0')
+351
+0.00567116632908828
+changing lr
+epoch 32, time 494.20, cls_loss 0.0140 cls_loss_mapping 0.1146 cls_loss_causal 0.8057 re_mapping 0.0611 re_causal 0.0621 /// teacc 83.12 lr 0.00544820
+Epoch 34, weight, value: tensor([[-0.0195, -0.0134, -0.0060,  ..., -0.0085,  0.1079,  0.1328],
+        [ 0.0439,  0.0556,  0.0467,  ...,  0.0464,  0.0186, -0.0164],
+        [ 0.0643,  0.0355,  0.0638,  ...,  0.0109,  0.0038,  0.0215],
+        ...,
+        [-0.1249, -0.1069, -0.0729,  ...,  0.0022,  0.0192, -0.0160],
+        [-0.0141, -0.0020, -0.0255,  ...,  0.0944,  0.0382, -0.0049],
+        [-0.0244, -0.0296, -0.0242,  ..., -0.1340, -0.1684, -0.1319]],
+       device='cuda:0'), grad: tensor([[ 1.2890e-06,  1.9372e-07,  2.7195e-07,  ...,  2.6450e-07,
+          2.2352e-08,  1.7509e-07],
+        [ 9.8720e-07,  5.5879e-08,  1.4529e-07,  ...,  1.4156e-07,
+          2.5705e-07,  3.3528e-07],
+        [ 1.4901e-07, -1.4901e-08, -7.4506e-09,  ...,  7.4506e-08,
+          5.9605e-08,  6.7055e-08],
+        ...,
+        [ 1.3672e-06,  4.4703e-07,  5.2899e-07,  ...,  6.1840e-07,
+          5.4017e-07,  6.1095e-07],
+        [ 7.1228e-06,  6.7800e-07,  1.1809e-06,  ...,  1.3076e-06,
+          9.6112e-07,  1.6615e-06],
+        [-9.7528e-06, -8.9779e-07, -1.5907e-06,  ..., -1.7695e-06,
+         -1.2815e-06, -2.2501e-06]], device='cuda:0')
+Epoch 34, bias, value: tensor([-0.0111, -0.2602,  0.0059, -0.1873, -0.0030,  0.3006,  0.1656],
+       device='cuda:0'), grad: tensor([ 4.3325e-06,  3.6284e-06,  6.5938e-07, -2.7381e-06,  3.4980e-06,
+         2.5198e-05, -3.4690e-05], device='cuda:0')
+351
+0.00544819654451717
+changing lr
+epoch 33, time 487.32, cls_loss 0.0128 cls_loss_mapping 0.1002 cls_loss_causal 0.7890 re_mapping 0.0586 re_causal 0.0596 /// teacc 80.17 lr 0.00522432
+Epoch 35, weight, value: tensor([[-0.0213, -0.0138, -0.0065,  ..., -0.0094,  0.1059,  0.1304],
+        [ 0.0420,  0.0549,  0.0458,  ...,  0.0458,  0.0181, -0.0168],
+        [ 0.0661,  0.0362,  0.0639,  ...,  0.0114,  0.0046,  0.0225],
+        ...,
+        [-0.1238, -0.1061, -0.0723,  ...,  0.0023,  0.0190, -0.0159],
+        [-0.0145, -0.0020, -0.0256,  ...,  0.0938,  0.0380, -0.0048],
+        [-0.0227, -0.0296, -0.0236,  ..., -0.1327, -0.1667, -0.1304]],
+       device='cuda:0'), grad: tensor([[ 1.6081e-04,  1.3858e-05,  3.4720e-05,  ...,  4.6670e-05,
+          2.1726e-05,  4.5151e-05],
+        [ 1.0207e-05,  5.5134e-07,  2.1979e-06,  ...,  2.7604e-06,
+          1.0394e-06,  2.5928e-06],
+        [ 2.6911e-05,  1.4007e-06,  5.7444e-06,  ...,  7.3723e-06,
+          2.7679e-06,  6.8769e-06],
+        ...,
+        [-6.6936e-05, -9.1121e-06, -1.4573e-05,  ..., -2.1294e-05,
+         -1.2442e-05, -2.1517e-05],
+        [ 1.9655e-05,  1.0766e-06,  4.2394e-06,  ...,  5.3495e-06,
+          2.0340e-06,  5.0180e-06],
+        [-1.6916e-04, -8.7768e-06, -3.6329e-05,  ..., -4.5896e-05,
+         -1.7032e-05, -4.2856e-05]], device='cuda:0')
+Epoch 35, bias, value: tensor([-0.0173, -0.2628,  0.0116, -0.1854, -0.0026,  0.2957,  0.1711],
+       device='cuda:0'), grad: tensor([ 5.9175e-04,  4.2528e-05,  1.1235e-04,  7.7784e-05, -1.9562e-04,
+         8.1778e-05, -7.1049e-04], device='cuda:0')
+351
+0.005224324151752577
+changing lr
+epoch 34, time 489.98, cls_loss 0.0186 cls_loss_mapping 0.1047 cls_loss_causal 0.7736 re_mapping 0.0585 re_causal 0.0595 /// teacc 83.54 lr 0.00500000
+Epoch 36, weight, value: tensor([[-0.0216, -0.0141, -0.0069,  ..., -0.0092,  0.1056,  0.1298],
+        [ 0.0414,  0.0545,  0.0456,  ...,  0.0451,  0.0177, -0.0170],
+        [ 0.0655,  0.0358,  0.0632,  ...,  0.0109,  0.0041,  0.0221],
+        ...,
+        [-0.1214, -0.1049, -0.0712,  ...,  0.0022,  0.0184, -0.0160],
+        [-0.0141, -0.0021, -0.0256,  ...,  0.0938,  0.0382, -0.0044],
+        [-0.0250, -0.0298, -0.0240,  ..., -0.1324, -0.1659, -0.1300]],
+       device='cuda:0'), grad: tensor([[ 3.3408e-05,  6.4932e-06,  9.7007e-06,  ...,  1.7822e-05,
+          2.0593e-05,  2.3276e-05],
+        [-1.0021e-06, -6.2026e-07, -3.3528e-07,  ...,  6.7614e-07,
+          3.2391e-06,  3.2559e-06],
+        [ 2.3395e-05,  4.2990e-06,  7.3910e-06,  ...,  1.0505e-05,
+          1.4037e-05,  1.5646e-05],
+        ...,
+        [-7.9870e-05, -1.5073e-05, -2.4453e-05,  ..., -3.7611e-05,
+         -5.0575e-05, -5.6446e-05],
+        [-1.4920e-06, -2.2538e-07, -2.7567e-07,  ..., -1.7807e-06,
+         -7.6927e-07, -5.2899e-07],
+        [ 1.7151e-05,  3.1851e-06,  5.3979e-06,  ...,  7.2606e-06,
+          9.5218e-06,  1.0468e-05]], device='cuda:0')
+Epoch 36, bias, value: tensor([-0.0171, -0.2617,  0.0107, -0.1806,  0.0014,  0.2941,  0.1635],
+       device='cuda:0'), grad: tensor([ 1.2863e-04,  1.5218e-06,  8.2374e-05,  2.6941e-05, -2.9230e-04,
+        -4.2953e-06,  5.7399e-05], device='cuda:0')
+351
+0.005000000000000003
+changing lr
+epoch 35, time 489.59, cls_loss 0.0186 cls_loss_mapping 0.0992 cls_loss_causal 0.7708 re_mapping 0.0567 re_causal 0.0578 /// teacc 86.08 lr 0.00477568
+Epoch 37, weight, value: tensor([[-0.0225, -0.0142, -0.0072,  ..., -0.0097,  0.1046,  0.1286],
+        [ 0.0419,  0.0541,  0.0454,  ...,  0.0452,  0.0181, -0.0164],
+        [ 0.0645,  0.0356,  0.0626,  ...,  0.0108,  0.0036,  0.0217],
+        ...,
+        [-0.1206, -0.1042, -0.0707,  ...,  0.0022,  0.0184, -0.0158],
+        [-0.0141, -0.0022, -0.0255,  ...,  0.0934,  0.0381, -0.0043],
+        [-0.0259, -0.0298, -0.0239,  ..., -0.1321, -0.1653, -0.1296]],
+       device='cuda:0'), grad: tensor([[ 7.0870e-05,  1.1154e-05,  2.2084e-05,  ...,  2.9728e-05,
+          2.9624e-05,  3.3706e-05],
+        [-1.6823e-05, -2.8890e-06, -5.2638e-06,  ..., -1.3612e-05,
+         -1.8016e-05, -1.7941e-05],
+        [-8.9824e-05, -2.4319e-05, -2.8491e-05,  ..., -6.5714e-06,
+         -1.2629e-05, -1.4260e-05],
+        ...,
+        [ 4.0799e-05,  7.8306e-06,  1.2830e-05,  ...,  1.1452e-05,
+          1.1101e-05,  1.3262e-05],
+        [ 4.5776e-05,  7.6741e-06,  1.4372e-05,  ...,  1.4342e-05,
+          1.1854e-05,  1.5013e-05],
+        [-1.1605e-04, -1.4335e-05, -3.6120e-05,  ..., -4.6641e-05,
+         -3.4481e-05, -4.4852e-05]], device='cuda:0')
+Epoch 37, bias, value: tensor([-0.0201, -0.2563,  0.0100, -0.1743,  0.0009,  0.2915,  0.1585],
+       device='cuda:0'), grad: tensor([ 2.4629e-04, -4.9651e-05, -2.0874e-04,  1.8287e-04,  1.3006e-04,
+         1.5986e-04, -4.6062e-04], device='cuda:0')
+351
+0.004775675848247429
+changing lr
+epoch 36, time 488.84, cls_loss 0.0166 cls_loss_mapping 0.0919 cls_loss_causal 0.7734 re_mapping 0.0554 re_causal 0.0565 /// teacc 65.40 lr 0.00455180
+Epoch 38, weight, value: tensor([[-0.0223, -0.0141, -0.0071,  ..., -0.0098,  0.1041,  0.1278],
+        [ 0.0414,  0.0536,  0.0449,  ...,  0.0448,  0.0178, -0.0165],
+        [ 0.0643,  0.0358,  0.0624,  ...,  0.0106,  0.0035,  0.0215],
+        ...,
+        [-0.1181, -0.1033, -0.0697,  ...,  0.0027,  0.0188, -0.0149],
+        [-0.0145, -0.0024, -0.0256,  ...,  0.0929,  0.0379, -0.0042],
+        [-0.0246, -0.0293, -0.0234,  ..., -0.1310, -0.1640, -0.1285]],
+       device='cuda:0'), grad: tensor([[ 1.3316e-04,  1.7837e-05,  2.2829e-05,  ...,  1.4164e-05,
+          1.2748e-05,  2.1756e-05],
+        [ 5.2564e-06,  4.0606e-07,  8.4192e-07,  ...,  5.1595e-07,
+          6.2212e-07,  8.6613e-07],
+        [ 3.3081e-05,  2.6152e-06,  5.2229e-06,  ...,  3.0957e-06,
+          3.8035e-06,  5.3719e-06],
+        ...,
+        [-5.8189e-06, -4.7125e-07, -1.5218e-06,  ..., -1.4678e-06,
+         -1.4100e-06, -1.4715e-06],
+        [ 2.6207e-06,  1.7136e-07,  3.7812e-07,  ...,  3.9116e-08,
+          2.0675e-07,  3.4086e-07],
+        [-1.6868e-04, -2.0489e-05, -2.7731e-05,  ..., -1.6347e-05,
+         -1.6004e-05, -2.6926e-05]], device='cuda:0')
+Epoch 38, bias, value: tensor([-0.0192, -0.2548,  0.0095, -0.1794,  0.0065,  0.2877,  0.1599],
+       device='cuda:0'), grad: tensor([ 4.4608e-04,  1.7881e-05,  1.1235e-04,  1.7788e-06, -1.9386e-05,
+         9.0301e-06, -5.6791e-04], device='cuda:0')
+351
+0.004551803455482836
+changing lr
+epoch 37, time 487.50, cls_loss 0.0129 cls_loss_mapping 0.0849 cls_loss_causal 0.7819 re_mapping 0.0550 re_causal 0.0562 /// teacc 89.03 lr 0.00432883
+Epoch 39, weight, value: tensor([[-0.0228, -0.0142, -0.0072,  ..., -0.0100,  0.1035,  0.1270],
+        [ 0.0410,  0.0531,  0.0445,  ...,  0.0444,  0.0176, -0.0165],
+        [ 0.0628,  0.0354,  0.0617,  ...,  0.0099,  0.0029,  0.0208],
+        ...,
+        [-0.1189, -0.1028, -0.0695,  ...,  0.0021,  0.0180, -0.0154],
+        [-0.0129, -0.0021, -0.0254,  ...,  0.0936,  0.0385, -0.0033],
+        [-0.0235, -0.0291, -0.0230,  ..., -0.1298, -0.1629, -0.1274]],
+       device='cuda:0'), grad: tensor([[ 1.1024e-03,  1.6773e-04,  1.4496e-04,  ...,  3.4833e-04,
+          2.5558e-04,  3.3259e-04],
+        [ 4.5925e-05,  1.2770e-05,  1.7360e-06,  ...,  1.1012e-05,
+          1.0118e-05,  1.5013e-05],
+        [-1.8396e-03, -5.5504e-04, -3.8934e-04,  ..., -4.4203e-04,
+         -5.5504e-04, -6.4707e-04],
+        ...,
+        [-9.4032e-04, -4.8190e-05, -7.2837e-05,  ..., -3.4523e-04,
+         -1.7154e-04, -2.5058e-04],
+        [ 2.1040e-04,  2.8461e-05,  2.7418e-05,  ...,  6.7711e-05,
+          4.3333e-05,  5.9068e-05],
+        [ 8.0061e-04,  2.2531e-04,  1.6654e-04,  ...,  2.0170e-04,
+          2.3818e-04,  2.7800e-04]], device='cuda:0')
+Epoch 39, bias, value: tensor([-0.0210, -0.2532,  0.0062, -0.1753,  0.0016,  0.2897,  0.1620],
+       device='cuda:0'), grad: tensor([ 0.0037,  0.0001, -0.0050,  0.0018, -0.0036,  0.0007,  0.0022],
+       device='cuda:0')
+351
+0.004328833670911726
+changing lr
+epoch 38, time 486.95, cls_loss 0.0092 cls_loss_mapping 0.0883 cls_loss_causal 0.7727 re_mapping 0.0537 re_causal 0.0550 /// teacc 78.06 lr 0.00410722
+Epoch 40, weight, value: tensor([[-0.0224, -0.0141, -0.0071,  ..., -0.0100,  0.1032,  0.1266],
+        [ 0.0395,  0.0524,  0.0439,  ...,  0.0437,  0.0169, -0.0171],
+        [ 0.0637,  0.0356,  0.0616,  ...,  0.0100,  0.0029,  0.0208],
+        ...,
+        [-0.1182, -0.1022, -0.0690,  ...,  0.0022,  0.0181, -0.0152],
+        [-0.0136, -0.0023, -0.0255,  ...,  0.0932,  0.0385, -0.0032],
+        [-0.0221, -0.0287, -0.0226,  ..., -0.1290, -0.1619, -0.1264]],
+       device='cuda:0'), grad: tensor([[ 1.0431e-04,  8.6427e-06,  8.2403e-06,  ...,  3.6299e-05,
+          2.9549e-05,  2.5302e-05],
+        [ 2.6047e-05,  1.6242e-06,  3.4273e-07,  ...,  8.7395e-06,
+          7.0557e-06,  4.9658e-06],
+        [ 9.1696e-04,  7.5698e-05,  5.7697e-05,  ...,  3.6097e-04,
+          2.8181e-04,  2.4402e-04],
+        ...,
+        [ 1.0424e-03,  7.0632e-05,  5.5134e-05,  ...,  3.4261e-04,
+          2.7657e-04,  2.2483e-04],
+        [-2.4719e-03, -1.8394e-04, -1.4257e-04,  ..., -8.9836e-04,
+         -7.1335e-04, -6.0034e-04],
+        [ 2.6083e-04,  1.5914e-05,  1.1899e-05,  ...,  9.9719e-05,
+          7.9751e-05,  6.6876e-05]], device='cuda:0')
+Epoch 40, bias, value: tensor([-0.0200, -0.2550,  0.0099, -0.1766,  0.0015,  0.2851,  0.1650],
+       device='cuda:0'), grad: tensor([ 3.3784e-04,  8.6427e-05,  2.9964e-03,  3.9721e-04,  3.4218e-03,
+        -8.0948e-03,  8.5974e-04], device='cuda:0')
+351
+0.0041072155260068206
+changing lr
+epoch 39, time 489.22, cls_loss 0.0097 cls_loss_mapping 0.0775 cls_loss_causal 0.7592 re_mapping 0.0543 re_causal 0.0557 /// teacc 82.28 lr 0.00388740
+Epoch 41, weight, value: tensor([[-0.0227, -0.0141, -0.0072,  ..., -0.0101,  0.1026,  0.1259],
+        [ 0.0403,  0.0520,  0.0439,  ...,  0.0437,  0.0173, -0.0165],
+        [ 0.0628,  0.0355,  0.0611,  ...,  0.0095,  0.0024,  0.0202],
+        ...,
+        [-0.1180, -0.1017, -0.0687,  ...,  0.0020,  0.0177, -0.0154],
+        [-0.0123, -0.0022, -0.0253,  ...,  0.0937,  0.0388, -0.0026],
+        [-0.0233, -0.0287, -0.0227,  ..., -0.1287, -0.1614, -0.1262]],
+       device='cuda:0'), grad: tensor([[ 4.6196e-03,  4.9496e-04,  5.7077e-04,  ...,  1.1282e-03,
+          2.0866e-03,  2.3994e-03],
+        [ 2.5436e-05,  1.1943e-05,  7.2420e-06,  ..., -7.5214e-06,
+         -7.6517e-06, -4.2208e-06],
+        [-5.7106e-03, -7.9346e-04, -8.9979e-04,  ..., -1.3742e-03,
+         -2.3251e-03, -2.7313e-03],
+        ...,
+        [ 2.3162e-04,  5.5492e-05,  6.3598e-05,  ...,  5.3585e-05,
+          6.6578e-05,  8.4639e-05],
+        [ 5.7983e-04,  1.6105e-04,  1.8013e-04,  ...,  1.3936e-04,
+          1.2082e-04,  1.7250e-04],
+        [ 1.0353e-04,  2.8998e-05,  3.2276e-05,  ...,  2.4587e-05,
+          2.3708e-05,  3.2336e-05]], device='cuda:0')
+Epoch 41, bias, value: tensor([-2.1788e-02, -2.5003e-01,  8.0240e-03, -1.7373e-01, -1.4076e-04,
+         2.8711e-01,  1.6039e-01], device='cuda:0'), grad: tensor([ 1.5137e-02,  5.2959e-05, -1.8082e-02,  4.0960e-04,  6.5422e-04,
+         1.5545e-03,  2.7752e-04], device='cuda:0')
+351
+0.0038873953302184317
+changing lr
+epoch 40, time 485.05, cls_loss 0.0115 cls_loss_mapping 0.0751 cls_loss_causal 0.7536 re_mapping 0.0549 re_causal 0.0564 /// teacc 88.61 lr 0.00366982
+Epoch 42, weight, value: tensor([[-0.0213, -0.0140, -0.0069,  ..., -0.0095,  0.1029,  0.1261],
+        [ 0.0404,  0.0518,  0.0437,  ...,  0.0434,  0.0173, -0.0165],
+        [ 0.0623,  0.0354,  0.0608,  ...,  0.0093,  0.0022,  0.0200],
+        ...,
+        [-0.1180, -0.1012, -0.0685,  ...,  0.0017,  0.0173, -0.0155],
+        [-0.0132, -0.0024, -0.0255,  ...,  0.0930,  0.0385, -0.0028],
+        [-0.0228, -0.0285, -0.0225,  ..., -0.1279, -0.1605, -0.1255]],
+       device='cuda:0'), grad: tensor([[ 5.6076e-03,  1.2617e-03,  1.4315e-03,  ...,  2.1935e-03,
+          1.7796e-03,  3.0479e-03],
+        [ 4.9362e-03,  2.6488e-04,  7.0047e-04,  ...,  1.4935e-03,
+          1.3771e-03,  1.4277e-03],
+        [ 1.0651e-04, -7.0781e-07,  8.5086e-06,  ...,  3.8654e-05,
+          3.2961e-05,  3.8892e-05],
+        ...,
+        [ 3.0041e-04,  2.2113e-05,  4.7088e-05,  ...,  9.2387e-05,
+          8.4519e-05,  9.2983e-05],
+        [ 9.2316e-03,  3.9482e-04,  1.2436e-03,  ...,  2.7428e-03,
+          2.5539e-03,  2.5234e-03],
+        [-2.0370e-02, -1.9531e-03, -3.4580e-03,  ..., -6.6147e-03,
+         -5.8784e-03, -7.1831e-03]], device='cuda:0')
+Epoch 42, bias, value: tensor([-0.0175, -0.2477,  0.0069, -0.1734, -0.0019,  0.2824,  0.1610],
+       device='cuda:0'), grad: tensor([ 0.0323,  0.0152,  0.0005,  0.0005,  0.0010,  0.0268, -0.0762],
+       device='cuda:0')
+351
+0.003669815772166629
+changing lr
+epoch 41, time 487.61, cls_loss 0.0074 cls_loss_mapping 0.0727 cls_loss_causal 0.7325 re_mapping 0.0550 re_causal 0.0565 /// teacc 85.23 lr 0.00345492
+Epoch 43, weight, value: tensor([[-0.0212, -0.0139, -0.0070,  ..., -0.0095,  0.1025,  0.1256],
+        [ 0.0400,  0.0514,  0.0434,  ...,  0.0431,  0.0171, -0.0166],
+        [ 0.0619,  0.0353,  0.0605,  ...,  0.0092,  0.0022,  0.0200],
+        ...,
+        [-0.1162, -0.1007, -0.0678,  ...,  0.0020,  0.0174, -0.0152],
+        [-0.0136, -0.0025, -0.0255,  ...,  0.0928,  0.0385, -0.0026],
+        [-0.0236, -0.0285, -0.0226,  ..., -0.1276, -0.1601, -0.1253]],
+       device='cuda:0'), grad: tensor([[ 1.8328e-05,  3.5167e-06,  4.0494e-06,  ...,  6.2659e-06,
+          3.9861e-06,  5.5842e-06],
+        [ 3.2261e-06,  8.4192e-07,  1.1250e-06,  ...,  1.3001e-06,
+          1.0841e-06,  1.3933e-06],
+        [ 2.5794e-05,  9.8720e-06,  1.1310e-05,  ...,  9.2685e-06,
+          9.9540e-06,  1.1086e-05],
+        ...,
+        [ 2.9549e-05,  1.0736e-05,  1.2115e-05,  ...,  1.0125e-05,
+          1.0498e-05,  1.1921e-05],
+        [ 1.4000e-05,  2.1495e-06,  3.7774e-06,  ...,  5.8562e-06,
+          3.5763e-06,  5.4203e-06],
+        [-3.0845e-05, -3.8296e-06, -5.8822e-06,  ..., -1.1764e-05,
+         -6.1207e-06, -9.7081e-06]], device='cuda:0')
+Epoch 43, bias, value: tensor([-0.0182, -0.2470,  0.0065, -0.1719,  0.0034,  0.2799,  0.1570],
+       device='cuda:0'), grad: tensor([ 5.5403e-05,  8.9854e-06,  5.5552e-05, -1.2755e-04,  6.5923e-05,
+         4.7505e-05, -1.0574e-04], device='cuda:0')
+351
+0.0034549150281252667
+changing lr
+epoch 42, time 486.22, cls_loss 0.0069 cls_loss_mapping 0.0656 cls_loss_causal 0.7226 re_mapping 0.0538 re_causal 0.0554 /// teacc 68.35 lr 0.00324313
+Epoch 44, weight, value: tensor([[-0.0216, -0.0140, -0.0071,  ..., -0.0096,  0.1021,  0.1251],
+        [ 0.0402,  0.0512,  0.0433,  ...,  0.0430,  0.0172, -0.0164],
+        [ 0.0620,  0.0353,  0.0603,  ...,  0.0091,  0.0021,  0.0199],
+        ...,
+        [-0.1160, -0.1002, -0.0676,  ...,  0.0017,  0.0170, -0.0154],
+        [-0.0131, -0.0025, -0.0254,  ...,  0.0929,  0.0387, -0.0023],
+        [-0.0234, -0.0283, -0.0224,  ..., -0.1271, -0.1595, -0.1248]],
+       device='cuda:0'), grad: tensor([[ 1.6963e-04,  2.2471e-05,  2.5943e-05,  ...,  8.0049e-05,
+          6.7055e-05,  7.7963e-05],
+        [-3.7432e-05, -6.4336e-06, -1.2316e-05,  ..., -4.7833e-05,
+         -5.9873e-05, -6.4135e-05],
+        [-1.2279e-04, -5.3316e-05, -5.8621e-05,  ..., -1.4551e-05,
+         -3.0726e-05, -4.2588e-05],
+        ...,
+        [ 3.2067e-04,  7.4446e-05,  8.3625e-05,  ...,  9.1612e-05,
+          9.7215e-05,  1.2577e-04],
+        [ 5.6219e-04,  5.9366e-05,  6.4909e-05,  ...,  1.5295e-04,
+          1.1712e-04,  1.6892e-04],
+        [-9.2030e-04, -9.9599e-05, -1.0693e-04,  ..., -2.6965e-04,
+         -1.9670e-04, -2.7466e-04]], device='cuda:0')
+Epoch 44, bias, value: tensor([-0.0191, -0.2443,  0.0069, -0.1719,  0.0013,  0.2796,  0.1572],
+       device='cuda:0'), grad: tensor([ 6.8665e-04,  2.4974e-05, -2.1517e-04,  9.7215e-05,  9.1743e-04,
+         2.0123e-03, -3.5248e-03], device='cuda:0')
+351
+0.0032431258795932905
+changing lr
+epoch 43, time 489.72, cls_loss 0.0105 cls_loss_mapping 0.0591 cls_loss_causal 0.7122 re_mapping 0.0533 re_causal 0.0549 /// teacc 88.61 lr 0.00303487
+Epoch 45, weight, value: tensor([[-0.0222, -0.0140, -0.0073,  ..., -0.0099,  0.1017,  0.1245],
+        [ 0.0400,  0.0509,  0.0431,  ...,  0.0428,  0.0171, -0.0163],
+        [ 0.0616,  0.0353,  0.0601,  ...,  0.0087,  0.0019,  0.0196],
+        ...,
+        [-0.1159, -0.0999, -0.0675,  ...,  0.0017,  0.0166, -0.0157],
+        [-0.0133, -0.0026, -0.0255,  ...,  0.0928,  0.0388, -0.0020],
+        [-0.0227, -0.0282, -0.0221,  ..., -0.1265, -0.1588, -0.1241]],
+       device='cuda:0'), grad: tensor([[-8.6203e-06, -1.0803e-06, -2.7604e-06,  ..., -4.3027e-06,
+         -4.8839e-06, -7.2680e-06],
+        [-3.8981e-04, -2.3216e-05, -9.8407e-05,  ..., -1.4544e-04,
+         -2.0409e-04, -1.9073e-04],
+        [-3.0082e-06, -1.6894e-06, -1.5181e-06,  ...,  3.5763e-07,
+          3.6880e-07,  1.2107e-07],
+        ...,
+        [ 3.8028e-04,  2.3350e-05,  9.6440e-05,  ...,  1.4150e-04,
+          1.9836e-04,  1.8644e-04],
+        [ 6.8918e-06,  5.0664e-07,  1.7155e-06,  ...,  2.4550e-06,
+          3.3509e-06,  3.2224e-06],
+        [ 8.7097e-06,  1.1623e-06,  2.7977e-06,  ...,  3.7644e-06,
+          4.5709e-06,  5.8189e-06]], device='cuda:0')
+Epoch 45, bias, value: tensor([-2.0831e-02, -2.4265e-01,  5.8777e-03, -1.6848e-01,  1.9903e-05,
+         2.7736e-01,  1.5830e-01], device='cuda:0'), grad: tensor([-3.1412e-05, -1.2970e-03, -5.6811e-06,  1.4350e-05,  1.2646e-03,
+         2.2843e-05,  2.9579e-05], device='cuda:0')
+351
+0.0030348748417303863
+changing lr
+epoch 44, time 487.09, cls_loss 0.0084 cls_loss_mapping 0.0627 cls_loss_causal 0.7363 re_mapping 0.0523 re_causal 0.0540 /// teacc 72.15 lr 0.00283058
+Epoch 46, weight, value: tensor([[-0.0226, -0.0141, -0.0073,  ..., -0.0101,  0.1011,  0.1239],
+        [ 0.0396,  0.0506,  0.0428,  ...,  0.0426,  0.0171, -0.0163],
+        [ 0.0621,  0.0355,  0.0601,  ...,  0.0086,  0.0018,  0.0196],
+        ...,
+        [-0.1147, -0.0993, -0.0669,  ...,  0.0018,  0.0167, -0.0154],
+        [-0.0123, -0.0025, -0.0252,  ...,  0.0933,  0.0392, -0.0013],
+        [-0.0237, -0.0283, -0.0223,  ..., -0.1264, -0.1586, -0.1242]],
+       device='cuda:0'), grad: tensor([[ 6.1005e-05,  8.5235e-06,  2.0206e-05,  ...,  3.7134e-05,
+          4.8548e-05,  5.1439e-05],
+        [-5.2303e-05, -7.2159e-06, -1.8224e-05,  ..., -3.3587e-05,
+         -4.5151e-05, -4.7475e-05],
+        [-2.4978e-06, -8.5682e-07, -1.0654e-06,  ...,  8.8662e-07,
+         -8.7544e-08, -2.1793e-07],
+        ...,
+        [ 2.4624e-06,  2.3469e-07,  5.1782e-07,  ...,  1.7583e-06,
+          1.6093e-06,  1.7621e-06],
+        [-6.5379e-07, -3.5018e-07,  9.3132e-08,  ..., -8.7172e-06,
+         -6.4522e-06, -6.6496e-06],
+        [-8.6203e-06, -1.7323e-07, -1.4603e-06,  ...,  1.7472e-06,
+          8.6240e-07,  4.0419e-07]], device='cuda:0')
+Epoch 46, bias, value: tensor([-0.0229, -0.2422,  0.0083, -0.1695,  0.0023,  0.2799,  0.1536],
+       device='cuda:0'), grad: tensor([ 2.0087e-04, -1.7345e-04, -5.4091e-06,  2.8592e-06,  8.5533e-06,
+        -5.4836e-06, -2.7969e-05], device='cuda:0')
+351
+0.0028305813044122124
+changing lr
+---------------------saving model at epoch 45----------------------------------------------------
+epoch 45, time 492.10, cls_loss 0.0091 cls_loss_mapping 0.0608 cls_loss_causal 0.7182 re_mapping 0.0522 re_causal 0.0539 /// teacc 90.30 lr 0.00263066
+Epoch 47, weight, value: tensor([[-0.0212, -0.0139, -0.0069,  ..., -0.0095,  0.1019,  0.1245],
+        [ 0.0388,  0.0502,  0.0424,  ...,  0.0422,  0.0167, -0.0167],
+        [ 0.0622,  0.0355,  0.0600,  ...,  0.0085,  0.0017,  0.0195],
+        ...,
+        [-0.1149, -0.0990, -0.0669,  ...,  0.0016,  0.0161, -0.0159],
+        [-0.0125, -0.0025, -0.0252,  ...,  0.0931,  0.0391, -0.0013],
+        [-0.0236, -0.0282, -0.0222,  ..., -0.1260, -0.1581, -0.1238]],
+       device='cuda:0'), grad: tensor([[-2.3961e-04, -1.5020e-05, -4.5061e-05,  ..., -7.1526e-05,
+         -1.4293e-04, -1.5366e-04],
+        [ 4.7952e-05,  6.9402e-06,  1.2204e-05,  ...,  1.8135e-05,
+          2.4453e-05,  2.5079e-05],
+        [-3.4273e-06, -3.3509e-06, -2.6412e-06,  ...,  1.6391e-06,
+          3.9525e-06,  3.6862e-06],
+        ...,
+        [ 1.8501e-04,  1.4961e-05,  3.5077e-05,  ...,  5.6356e-05,
+          1.0079e-04,  1.0961e-04],
+        [-6.5863e-05, -2.5541e-05, -2.4706e-05,  ..., -6.4194e-05,
+         -4.3005e-05, -4.3362e-05],
+        [-2.0619e-06,  1.1697e-06, -4.8615e-07,  ...,  8.0764e-06,
+          8.3670e-06,  9.6112e-06]], device='cuda:0')
+Epoch 47, bias, value: tensor([-1.8068e-02, -2.4327e-01,  9.5686e-03, -1.6941e-01, -7.8014e-05,
+         2.7772e-01,  1.5303e-01], device='cuda:0'), grad: tensor([-8.3208e-04,  1.5223e-04,  4.2468e-07,  2.0671e-04,  6.2895e-04,
+        -1.4079e-04, -1.5587e-05], device='cuda:0')
+351
+0.0026306566876350096
+changing lr
+epoch 46, time 489.43, cls_loss 0.0071 cls_loss_mapping 0.0539 cls_loss_causal 0.6687 re_mapping 0.0523 re_causal 0.0540 /// teacc 81.86 lr 0.00243550
+Epoch 48, weight, value: tensor([[-0.0214, -0.0139, -0.0070,  ..., -0.0097,  0.1014,  0.1239],
+        [ 0.0393,  0.0501,  0.0423,  ...,  0.0422,  0.0167, -0.0165],
+        [ 0.0616,  0.0354,  0.0597,  ...,  0.0082,  0.0015,  0.0192],
+        ...,
+        [-0.1144, -0.0986, -0.0665,  ...,  0.0016,  0.0162, -0.0156],
+        [-0.0122, -0.0024, -0.0251,  ...,  0.0932,  0.0393, -0.0009],
+        [-0.0237, -0.0282, -0.0221,  ..., -0.1258, -0.1577, -0.1235]],
+       device='cuda:0'), grad: tensor([[ 4.4298e-04,  6.1333e-05,  1.1182e-04,  ...,  2.1458e-04,
+          1.8668e-04,  1.7023e-04],
+        [ 1.8826e-03,  2.6131e-04,  4.8971e-04,  ...,  1.0023e-03,
+          8.5163e-04,  7.7057e-04],
+        [ 2.8515e-04,  3.9458e-05,  6.5804e-05,  ...,  7.5281e-05,
+          7.8142e-05,  8.3566e-05],
+        ...,
+        [-2.8276e-04, -4.5151e-05, -1.1039e-04,  ..., -2.2113e-04,
+         -1.5962e-04, -2.0111e-04],
+        [ 5.2691e-04,  7.3135e-05,  1.3399e-04,  ...,  2.4748e-04,
+          2.1160e-04,  2.0254e-04],
+        [-2.9583e-03, -4.0483e-04, -7.1955e-04,  ..., -1.3676e-03,
+         -1.2093e-03, -1.0691e-03]], device='cuda:0')
+Epoch 48, bias, value: tensor([-1.8857e-02, -2.4018e-01,  8.1123e-03, -1.6882e-01, -1.7916e-04,
+         2.7774e-01,  1.5164e-01], device='cuda:0'), grad: tensor([ 0.0014,  0.0060,  0.0009,  0.0003, -0.0010,  0.0017, -0.0095],
+       device='cuda:0')
+351
+0.0024355036129704724
+changing lr
+epoch 47, time 487.96, cls_loss 0.0077 cls_loss_mapping 0.0550 cls_loss_causal 0.6829 re_mapping 0.0517 re_causal 0.0534 /// teacc 81.01 lr 0.00224552
+Epoch 49, weight, value: tensor([[-0.0218, -0.0139, -0.0071,  ..., -0.0099,  0.1009,  0.1234],
+        [ 0.0387,  0.0498,  0.0420,  ...,  0.0420,  0.0165, -0.0166],
+        [ 0.0617,  0.0354,  0.0596,  ...,  0.0082,  0.0014,  0.0191],
+        ...,
+        [-0.1136, -0.0983, -0.0662,  ...,  0.0017,  0.0162, -0.0154],
+        [-0.0129, -0.0026, -0.0253,  ...,  0.0928,  0.0391, -0.0010],
+        [-0.0224, -0.0280, -0.0218,  ..., -0.1249, -0.1569, -0.1228]],
+       device='cuda:0'), grad: tensor([[ 1.1139e-05,  3.9563e-06,  4.2059e-06,  ...,  5.1297e-06,
+         -3.5092e-06, -1.6186e-06],
+        [ 1.8522e-05,  5.1521e-06,  6.6422e-06,  ...,  5.1931e-06,
+          4.4443e-06,  4.9062e-06],
+        [-1.5345e-03, -5.2452e-04, -6.5041e-04,  ..., -2.7299e-04,
+         -2.6488e-04, -3.1328e-04],
+        ...,
+        [ 2.2805e-04,  7.3135e-05,  9.2268e-05,  ...,  4.5002e-05,
+          4.8876e-05,  5.4628e-05],
+        [ 1.2875e-05,  2.3752e-05,  2.5123e-05,  ..., -2.8685e-05,
+         -1.7419e-05, -1.6347e-05],
+        [ 1.1272e-03,  3.7432e-04,  4.6635e-04,  ...,  2.1875e-04,
+          2.0671e-04,  2.4176e-04]], device='cuda:0')
+Epoch 49, bias, value: tensor([-0.0203, -0.2404,  0.0085, -0.1690,  0.0013,  0.2743,  0.1549],
+       device='cuda:0'), grad: tensor([ 2.9311e-05,  4.7684e-05, -3.3817e-03,  3.1281e-04,  5.2595e-04,
+        -8.5831e-05,  2.5520e-03], device='cuda:0')
+351
+0.00224551509273949
+changing lr
+epoch 48, time 489.20, cls_loss 0.0051 cls_loss_mapping 0.0480 cls_loss_causal 0.6975 re_mapping 0.0510 re_causal 0.0528 /// teacc 82.28 lr 0.00206107
+Epoch 50, weight, value: tensor([[-0.0211, -0.0138, -0.0069,  ..., -0.0097,  0.1009,  0.1233],
+        [ 0.0382,  0.0495,  0.0417,  ...,  0.0417,  0.0164, -0.0167],
+        [ 0.0627,  0.0359,  0.0599,  ...,  0.0083,  0.0016,  0.0193],
+        ...,
+        [-0.1137, -0.0980, -0.0661,  ...,  0.0015,  0.0159, -0.0155],
+        [-0.0126, -0.0026, -0.0252,  ...,  0.0929,  0.0392, -0.0008],
+        [-0.0227, -0.0280, -0.0217,  ..., -0.1247, -0.1566, -0.1226]],
+       device='cuda:0'), grad: tensor([[ 1.1253e-03,  1.8346e-04,  4.4370e-04,  ...,  3.2568e-04,
+          3.2568e-04,  3.5405e-04],
+        [-1.6794e-03, -2.7108e-04, -6.5708e-04,  ..., -4.8637e-04,
+         -4.8971e-04, -5.3120e-04],
+        [ 1.3448e-05,  1.6382e-06,  4.7870e-06,  ...,  4.1053e-06,
+          4.4927e-06,  4.7088e-06],
+        ...,
+        [ 6.8322e-06,  7.2643e-07,  1.7742e-06,  ...,  1.8915e-06,
+          2.3209e-06,  2.2016e-06],
+        [ 1.9342e-05,  3.0510e-06,  7.3537e-06,  ...,  5.6028e-06,
+          5.7891e-06,  6.2510e-06],
+        [ 5.0974e-04,  8.1480e-05,  1.9753e-04,  ...,  1.4758e-04,
+          1.5008e-04,  1.6248e-04]], device='cuda:0')
+Epoch 50, bias, value: tensor([-0.0180, -0.2408,  0.0113, -0.1703, -0.0003,  0.2742,  0.1533],
+       device='cuda:0'), grad: tensor([ 3.3379e-03, -4.9934e-03,  4.1991e-05,  8.9183e-06,  2.1189e-05,
+         5.7757e-05,  1.5182e-03], device='cuda:0')
+351
+0.002061073738537637
+changing lr
+epoch 49, time 484.91, cls_loss 0.0058 cls_loss_mapping 0.0522 cls_loss_causal 0.6878 re_mapping 0.0512 re_causal 0.0531 /// teacc 75.53 lr 0.00188255
+Epoch 51, weight, value: tensor([[-0.0213, -0.0139, -0.0069,  ..., -0.0098,  0.1006,  0.1229],
+        [ 0.0383,  0.0494,  0.0416,  ...,  0.0417,  0.0165, -0.0165],
+        [ 0.0622,  0.0358,  0.0597,  ...,  0.0082,  0.0014,  0.0190],
+        ...,
+        [-0.1135, -0.0978, -0.0659,  ...,  0.0015,  0.0158, -0.0155],
+        [-0.0126, -0.0026, -0.0252,  ...,  0.0928,  0.0393, -0.0006],
+        [-0.0230, -0.0279, -0.0217,  ..., -0.1246, -0.1563, -0.1224]],
+       device='cuda:0'), grad: tensor([[ 3.5453e-04,  4.2230e-05,  8.2910e-05,  ...,  1.2863e-04,
+          1.9825e-04,  1.6248e-04],
+        [ 4.3213e-05,  5.1521e-06,  8.0839e-06,  ...,  2.7746e-05,
+          2.8342e-05,  2.6956e-05],
+        [ 2.9758e-05,  3.7849e-06,  5.3681e-06,  ...,  1.8895e-05,
+          1.9521e-05,  1.8239e-05],
+        ...,
+        [-3.7861e-04, -3.9101e-05, -9.9599e-05,  ..., -7.7963e-05,
+         -2.0134e-04, -1.4389e-04],
+        [-1.8530e-03, -3.1042e-04, -3.1281e-04,  ..., -1.2970e-03,
+         -1.1034e-03, -1.1406e-03],
+        [ 1.6336e-03,  2.7657e-04,  2.7704e-04,  ...,  1.1320e-03,
+          9.6369e-04,  9.9659e-04]], device='cuda:0')
+Epoch 51, bias, value: tensor([-0.0185, -0.2392,  0.0103, -0.1683, -0.0005,  0.2735,  0.1519],
+       device='cuda:0'), grad: tensor([ 1.2074e-03,  1.3626e-04,  9.5785e-05,  5.7364e-04, -1.3552e-03,
+        -5.5962e-03,  4.9400e-03], device='cuda:0')
+351
+0.0018825509907063344
+changing lr
+epoch 50, time 487.79, cls_loss 0.0047 cls_loss_mapping 0.0466 cls_loss_causal 0.6943 re_mapping 0.0511 re_causal 0.0530 /// teacc 78.90 lr 0.00171031
+Epoch 52, weight, value: tensor([[-0.0216, -0.0139, -0.0070,  ..., -0.0099,  0.1002,  0.1225],
+        [ 0.0385,  0.0493,  0.0415,  ...,  0.0417,  0.0165, -0.0164],
+        [ 0.0622,  0.0358,  0.0596,  ...,  0.0081,  0.0013,  0.0190],
+        ...,
+        [-0.1131, -0.0975, -0.0657,  ...,  0.0015,  0.0157, -0.0155],
+        [-0.0127, -0.0027, -0.0252,  ...,  0.0927,  0.0393, -0.0006],
+        [-0.0229, -0.0279, -0.0216,  ..., -0.1242, -0.1559, -0.1221]],
+       device='cuda:0'), grad: tensor([[-1.2982e-04, -1.2673e-05, -4.6909e-05,  ..., -6.3837e-05,
+         -1.1736e-04, -1.3304e-04],
+        [-2.3592e-04, -4.2081e-05, -3.9279e-05,  ..., -8.7023e-05,
+         -8.8811e-05, -6.4790e-05],
+        [-3.4034e-05, -2.2024e-05, -2.2888e-05,  ...,  6.2622e-06,
+          9.6485e-06,  3.5074e-06],
+        ...,
+        [ 2.4235e-04,  3.5316e-05,  6.6459e-05,  ...,  1.0478e-04,
+          1.4913e-04,  1.5426e-04],
+        [-9.1434e-05,  1.8887e-06, -5.2340e-06,  ..., -7.2837e-05,
+         -4.9442e-05, -4.6045e-05],
+        [ 1.8239e-04,  2.4110e-05,  3.0428e-05,  ...,  9.0301e-05,
+          7.6056e-05,  6.6817e-05]], device='cuda:0')
+Epoch 52, bias, value: tensor([-0.0198, -0.2375,  0.0106, -0.1674, -0.0003,  0.2722,  0.1516],
+       device='cuda:0'), grad: tensor([-5.4979e-04, -6.8712e-04, -4.6283e-05,  1.8716e-04,  8.5592e-04,
+        -3.2711e-04,  5.6744e-04], device='cuda:0')
+351
+0.0017103063703014388
+changing lr
+epoch 51, time 488.35, cls_loss 0.0062 cls_loss_mapping 0.0457 cls_loss_causal 0.6795 re_mapping 0.0503 re_causal 0.0522 /// teacc 78.48 lr 0.00154469
+Epoch 53, weight, value: tensor([[-0.0217, -0.0139, -0.0071,  ..., -0.0100,  0.1000,  0.1222],
+        [ 0.0387,  0.0492,  0.0415,  ...,  0.0417,  0.0166, -0.0162],
+        [ 0.0617,  0.0357,  0.0594,  ...,  0.0078,  0.0011,  0.0187],
+        ...,
+        [-0.1128, -0.0972, -0.0655,  ...,  0.0015,  0.0156, -0.0155],
+        [-0.0125, -0.0027, -0.0252,  ...,  0.0927,  0.0394, -0.0004],
+        [-0.0228, -0.0278, -0.0215,  ..., -0.1240, -0.1556, -0.1218]],
+       device='cuda:0'), grad: tensor([[-4.3184e-05, -7.6443e-06, -1.2971e-05,  ..., -8.9481e-06,
+         -2.2054e-05, -2.4438e-05],
+        [ 3.1084e-05,  5.4389e-06,  8.3521e-06,  ...,  8.5458e-06,
+          1.3798e-05,  1.4573e-05],
+        [ 1.3590e-04,  1.5318e-05,  2.5660e-05,  ...,  6.3658e-05,
+          4.5538e-05,  4.2319e-05],
+        ...,
+        [-1.6212e-04, -1.7196e-05, -2.8029e-05,  ..., -8.2672e-05,
+         -5.1290e-05, -4.5180e-05],
+        [ 2.1487e-05,  2.5854e-06,  4.3064e-06,  ...,  9.0301e-06,
+          6.7316e-06,  6.4820e-06],
+        [-1.1288e-05, -1.6820e-06, -2.6543e-06,  ..., -2.7064e-06,
+         -1.9800e-06, -2.3786e-06]], device='cuda:0')
+Epoch 53, bias, value: tensor([-2.0178e-02, -2.3575e-01,  9.2648e-03, -1.6716e-01, -2.3270e-04,
+         2.7194e-01,  1.5140e-01], device='cuda:0'), grad: tensor([-1.4365e-04,  9.9480e-05,  4.1962e-04,  8.7023e-05, -4.9305e-04,
+         6.7174e-05, -3.6746e-05], device='cuda:0')
+351
+0.0015446867550656784
+changing lr
+epoch 52, time 486.84, cls_loss 0.0055 cls_loss_mapping 0.0471 cls_loss_causal 0.6569 re_mapping 0.0497 re_causal 0.0515 /// teacc 85.23 lr 0.00138603
+Epoch 54, weight, value: tensor([[-2.1269e-02, -1.3865e-02, -6.9552e-03,  ..., -9.8699e-03,
+          1.0012e-01,  1.2224e-01],
+        [ 3.8476e-02,  4.8979e-02,  4.1318e-02,  ...,  4.1490e-02,
+          1.6448e-02, -1.6356e-02],
+        [ 6.1428e-02,  3.5670e-02,  5.9260e-02,  ...,  7.6740e-03,
+          9.0968e-04,  1.8529e-02],
+        ...,
+        [-1.1242e-01, -9.6968e-02, -6.5334e-02,  ...,  1.5697e-03,
+          1.5542e-02, -1.5468e-02],
+        [-1.2210e-02, -2.6671e-03, -2.5152e-02,  ...,  9.2897e-02,
+          3.9566e-02, -1.3846e-04],
+        [-2.3079e-02, -2.7743e-02, -2.1526e-02,  ..., -1.2388e-01,
+         -1.5544e-01, -1.2169e-01]], device='cuda:0'), grad: tensor([[-6.1512e-04, -2.2143e-05, -1.5163e-04,  ..., -1.7321e-04,
+         -3.0017e-04, -3.2377e-04],
+        [ 3.2759e-04,  6.2287e-05,  9.6262e-05,  ...,  7.9751e-05,
+          8.0824e-05,  9.2447e-05],
+        [ 1.1148e-03,  3.7837e-04,  4.0412e-04,  ...,  3.4690e-04,
+          2.2399e-04,  3.0065e-04],
+        ...,
+        [ 6.1750e-04,  8.4043e-05,  1.8024e-04,  ...,  1.6785e-04,
+          2.0778e-04,  2.3592e-04],
+        [ 6.5422e-04,  2.2161e-04,  2.3806e-04,  ...,  1.9085e-04,
+          1.0508e-04,  1.4663e-04],
+        [ 2.6894e-04,  1.5521e-04,  1.3745e-04,  ...,  1.1659e-04,
+          3.2067e-05,  6.8426e-05]], device='cuda:0')
+Epoch 54, bias, value: tensor([-1.8857e-02, -2.3560e-01,  8.6756e-03, -1.6740e-01,  2.6472e-05,
+         2.7247e-01,  1.4994e-01], device='cuda:0'), grad: tensor([-0.0022,  0.0010,  0.0029, -0.0059,  0.0020,  0.0017,  0.0005],
+       device='cuda:0')
+351
+0.001386025680863044
+changing lr
+---------------------saving model at epoch 53----------------------------------------------------
+epoch 53, time 490.61, cls_loss 0.0052 cls_loss_mapping 0.0430 cls_loss_causal 0.7053 re_mapping 0.0491 re_causal 0.0511 /// teacc 90.72 lr 0.00123464
+Epoch 55, weight, value: tensor([[-2.1294e-02, -1.3864e-02, -6.9845e-03,  ..., -9.8950e-03,
+          9.9935e-02,  1.2198e-01],
+        [ 3.8158e-02,  4.8834e-02,  4.1167e-02,  ...,  4.1333e-02,
+          1.6349e-02, -1.6418e-02],
+        [ 6.1134e-02,  3.5595e-02,  5.9100e-02,  ...,  7.4893e-03,
+          7.9670e-04,  1.8389e-02],
+        ...,
+        [-1.1226e-01, -9.6775e-02, -6.5204e-02,  ...,  1.5158e-03,
+          1.5462e-02, -1.5474e-02],
+        [-1.2280e-02, -2.6849e-03, -2.5158e-02,  ...,  9.2897e-02,
+          3.9609e-02, -5.1898e-05],
+        [-2.2534e-02, -2.7644e-02, -2.1351e-02,  ..., -1.2353e-01,
+         -1.5505e-01, -1.2130e-01]], device='cuda:0'), grad: tensor([[ 3.6740e-04,  1.1533e-04,  1.4138e-04,  ...,  7.1287e-05,
+          6.3181e-05,  8.7380e-05],
+        [ 1.0300e-04,  1.9923e-05,  2.7791e-05,  ...,  2.7940e-05,
+          3.5048e-05,  3.9577e-05],
+        [-4.7874e-03, -1.3676e-03, -1.7347e-03,  ..., -1.0529e-03,
+         -1.1044e-03, -1.3723e-03],
+        ...,
+        [ 2.4045e-04,  5.3853e-05,  6.8605e-05,  ...,  5.7757e-05,
+          6.1929e-05,  7.4923e-05],
+        [ 7.4482e-04,  1.7750e-04,  2.0897e-04,  ...,  1.5354e-04,
+          1.3340e-04,  1.7190e-04],
+        [ 1.6146e-03,  5.3740e-04,  6.7186e-04,  ...,  3.2306e-04,
+          3.2139e-04,  4.0817e-04]], device='cuda:0')
+Epoch 55, bias, value: tensor([-1.9001e-02, -2.3573e-01,  8.0842e-03, -1.6670e-01, -2.0496e-04,
+         2.7154e-01,  1.5125e-01], device='cuda:0'), grad: tensor([ 0.0010,  0.0003, -0.0144,  0.0048,  0.0007,  0.0022,  0.0053],
+       device='cuda:0')
+351
+0.0012346426699819469
+changing lr
+epoch 54, time 488.59, cls_loss 0.0049 cls_loss_mapping 0.0387 cls_loss_causal 0.6318 re_mapping 0.0490 re_causal 0.0508 /// teacc 81.86 lr 0.00109084
+Epoch 56, weight, value: tensor([[-2.1449e-02, -1.3913e-02, -7.0644e-03,  ..., -9.9782e-03,
+          9.9706e-02,  1.2171e-01],
+        [ 3.8039e-02,  4.8727e-02,  4.1080e-02,  ...,  4.1237e-02,
+          1.6312e-02, -1.6407e-02],
+        [ 6.1227e-02,  3.5646e-02,  5.9084e-02,  ...,  7.4554e-03,
+          7.6650e-04,  1.8350e-02],
+        ...,
+        [-1.1180e-01, -9.6573e-02, -6.5017e-02,  ...,  1.5741e-03,
+          1.5466e-02, -1.5377e-02],
+        [-1.2142e-02, -2.6935e-03, -2.5135e-02,  ...,  9.2940e-02,
+          3.9678e-02,  7.4000e-05],
+        [-2.2755e-02, -2.7644e-02, -2.1360e-02,  ..., -1.2344e-01,
+         -1.5488e-01, -1.2119e-01]], device='cuda:0'), grad: tensor([[ 1.8072e-04,  2.8282e-05,  2.8521e-05,  ...,  1.1289e-04,
+          1.1140e-04,  1.0514e-04],
+        [ 8.2701e-06,  2.1160e-06, -5.6066e-07,  ...,  1.0535e-05,
+          9.0897e-06,  9.0003e-06],
+        [ 2.6870e-04,  4.2528e-05,  4.1068e-05,  ...,  1.8346e-04,
+          1.8668e-04,  1.6940e-04],
+        ...,
+        [ 1.0824e-04,  2.4393e-05,  2.8685e-05,  ...,  4.8369e-05,
+          4.9680e-05,  4.8935e-05],
+        [-6.2132e-04, -8.6784e-05, -7.6830e-05,  ..., -4.2725e-04,
+         -4.1485e-04, -3.9148e-04],
+        [ 1.1188e-04,  1.4149e-05,  1.2986e-05,  ...,  7.1883e-05,
+          6.5327e-05,  6.6519e-05]], device='cuda:0')
+Epoch 56, bias, value: tensor([-0.0195, -0.2354,  0.0085, -0.1666,  0.0006,  0.2715,  0.1501],
+       device='cuda:0'), grad: tensor([ 5.4550e-04,  2.2292e-05,  7.8392e-04, -1.4389e-04,  3.1972e-04,
+        -1.8892e-03,  3.6216e-04], device='cuda:0')
+351
+0.0010908425876598518
+changing lr
+epoch 55, time 487.74, cls_loss 0.0051 cls_loss_mapping 0.0425 cls_loss_causal 0.6995 re_mapping 0.0486 re_causal 0.0505 /// teacc 75.95 lr 0.00095492
+Epoch 57, weight, value: tensor([[-2.1218e-02, -1.3897e-02, -7.0272e-03,  ..., -9.9669e-03,
+          9.9634e-02,  1.2159e-01],
+        [ 3.7903e-02,  4.8628e-02,  4.0986e-02,  ...,  4.1183e-02,
+          1.6288e-02, -1.6388e-02],
+        [ 6.1276e-02,  3.5676e-02,  5.9051e-02,  ...,  7.4110e-03,
+          7.6182e-04,  1.8332e-02],
+        ...,
+        [-1.1156e-01, -9.6415e-02, -6.4905e-02,  ...,  1.6178e-03,
+          1.5434e-02, -1.5334e-02],
+        [-1.2345e-02, -2.7407e-03, -2.5176e-02,  ...,  9.2830e-02,
+          3.9633e-02,  7.1650e-05],
+        [-2.2691e-02, -2.7605e-02, -2.1297e-02,  ..., -1.2326e-01,
+         -1.5467e-01, -1.2102e-01]], device='cuda:0'), grad: tensor([[ 3.3617e-04,  3.0011e-05,  6.1452e-05,  ...,  1.2374e-04,
+          1.1009e-04,  1.2720e-04],
+        [-1.7416e-04, -1.3128e-05, -3.3319e-05,  ..., -8.8274e-05,
+         -1.1045e-04, -1.1855e-04],
+        [-4.5091e-05, -2.1130e-05, -1.8314e-05,  ..., -1.2778e-05,
+         -1.1884e-05, -1.6809e-05],
+        ...,
+        [-3.4451e-04, -2.5943e-05, -5.5701e-05,  ..., -9.2685e-05,
+         -3.5495e-05, -5.2899e-05],
+        [ 5.7518e-05,  9.0301e-06,  1.2822e-05,  ...,  1.7747e-05,
+          1.5348e-05,  1.8820e-05],
+        [ 1.1241e-04,  1.0774e-05,  1.9923e-05,  ...,  3.4451e-05,
+          2.0042e-05,  2.6032e-05]], device='cuda:0')
+Epoch 57, bias, value: tensor([-0.0187, -0.2352,  0.0087, -0.1668,  0.0009,  0.2703,  0.1501],
+       device='cuda:0'), grad: tensor([ 0.0011, -0.0005, -0.0001,  0.0002, -0.0012,  0.0002,  0.0004],
+       device='cuda:0')
+351
+0.000954915028125264
+changing lr
+epoch 56, time 487.53, cls_loss 0.0046 cls_loss_mapping 0.0386 cls_loss_causal 0.6371 re_mapping 0.0485 re_causal 0.0503 /// teacc 89.45 lr 0.00082713
+Epoch 58, weight, value: tensor([[-2.1349e-02, -1.3977e-02, -7.1024e-03,  ..., -1.0061e-02,
+          9.9467e-02,  1.2139e-01],
+        [ 3.7762e-02,  4.8537e-02,  4.0907e-02,  ...,  4.1115e-02,
+          1.6256e-02, -1.6382e-02],
+        [ 6.0902e-02,  3.5573e-02,  5.8886e-02,  ...,  7.3153e-03,
+          6.9126e-04,  1.8243e-02],
+        ...,
+        [-1.1138e-01, -9.6263e-02, -6.4804e-02,  ...,  1.6073e-03,
+          1.5345e-02, -1.5362e-02],
+        [-1.2528e-02, -2.7840e-03, -2.5215e-02,  ...,  9.2736e-02,
+          3.9597e-02,  7.3678e-05],
+        [-2.2541e-02, -2.7571e-02, -2.1249e-02,  ..., -1.2309e-01,
+         -1.5450e-01, -1.2087e-01]], device='cuda:0'), grad: tensor([[ 8.9228e-05,  8.5235e-06,  1.4402e-05,  ...,  4.6790e-05,
+          3.9130e-05,  4.3839e-05],
+        [-4.0841e-04, -3.3736e-05, -6.2108e-05,  ..., -1.9312e-04,
+         -1.0115e-04, -1.4365e-04],
+        [ 2.2307e-05,  1.9856e-06,  3.4813e-06,  ...,  1.3821e-05,
+          1.5780e-05,  1.5527e-05],
+        ...,
+        [ 5.1230e-05,  4.4182e-06,  7.8455e-06,  ...,  2.4691e-05,
+          1.4320e-05,  1.9193e-05],
+        [-8.1837e-05, -8.5905e-06, -1.2361e-05,  ..., -6.3300e-05,
+         -8.9049e-05, -8.0585e-05],
+        [ 3.2496e-04,  2.7806e-05,  4.8935e-05,  ...,  1.6892e-04,
+          1.1927e-04,  1.4389e-04]], device='cuda:0')
+Epoch 58, bias, value: tensor([-0.0190, -0.2351,  0.0078, -0.1651,  0.0010,  0.2693,  0.1504],
+       device='cuda:0'), grad: tensor([ 3.0637e-04, -1.2379e-03,  9.0182e-05,  1.1995e-05,  1.5855e-04,
+        -3.9029e-04,  1.0614e-03], device='cuda:0')
+351
+0.0008271337313934874
+changing lr
+epoch 57, time 488.10, cls_loss 0.0042 cls_loss_mapping 0.0381 cls_loss_causal 0.6417 re_mapping 0.0488 re_causal 0.0507 /// teacc 79.32 lr 0.00070776
+Epoch 59, weight, value: tensor([[-2.1408e-02, -1.3989e-02, -7.1333e-03,  ..., -1.0104e-02,
+          9.9326e-02,  1.2121e-01],
+        [ 3.7841e-02,  4.8474e-02,  4.0876e-02,  ...,  4.1118e-02,
+          1.6304e-02, -1.6304e-02],
+        [ 6.1134e-02,  3.5647e-02,  5.8916e-02,  ...,  7.3222e-03,
+          6.9682e-04,  1.8255e-02],
+        ...,
+        [-1.1137e-01, -9.6154e-02, -6.4747e-02,  ...,  1.5936e-03,
+          1.5274e-02, -1.5383e-02],
+        [-1.2516e-02, -2.8023e-03, -2.5213e-02,  ...,  9.2714e-02,
+          3.9614e-02,  1.2627e-04],
+        [-2.2560e-02, -2.7561e-02, -2.1224e-02,  ..., -1.2300e-01,
+         -1.5434e-01, -1.2075e-01]], device='cuda:0'), grad: tensor([[-6.8173e-06,  4.6566e-09, -1.0632e-05,  ..., -4.0606e-07,
+         -1.4566e-05, -1.8001e-05],
+        [ 2.6083e-04,  4.6819e-05,  7.5758e-05,  ...,  6.0946e-05,
+          6.7711e-05,  6.5386e-05],
+        [ 6.2656e-04,  6.6280e-05,  7.1764e-05,  ...,  1.4627e-04,
+          1.2958e-04,  1.4138e-04],
+        ...,
+        [ 2.2799e-05,  2.8126e-06,  5.0887e-06,  ...,  3.4329e-06,
+          6.0424e-06,  6.2250e-06],
+        [ 1.7595e-04,  2.1204e-05,  2.5839e-05,  ...,  4.1038e-05,
+          3.7640e-05,  3.9846e-05],
+        [-1.1568e-03, -1.4627e-04, -1.7905e-04,  ..., -2.6917e-04,
+         -2.4295e-04, -2.5249e-04]], device='cuda:0')
+Epoch 59, bias, value: tensor([-0.0193, -0.2344,  0.0084, -0.1653,  0.0006,  0.2690,  0.1501],
+       device='cuda:0'), grad: tensor([-1.3560e-05,  7.8678e-04,  1.9627e-03,  2.4247e-04,  6.6400e-05,
+         5.4741e-04, -3.5896e-03], device='cuda:0')
+351
+0.00070775603199067
+changing lr
+epoch 58, time 484.91, cls_loss 0.0032 cls_loss_mapping 0.0359 cls_loss_causal 0.6249 re_mapping 0.0487 re_causal 0.0506 /// teacc 86.92 lr 0.00059702
+Epoch 60, weight, value: tensor([[-0.0212, -0.0140, -0.0071,  ..., -0.0101,  0.0993,  0.1212],
+        [ 0.0379,  0.0484,  0.0408,  ...,  0.0411,  0.0163, -0.0163],
+        [ 0.0611,  0.0356,  0.0589,  ...,  0.0073,  0.0007,  0.0182],
+        ...,
+        [-0.1116, -0.0961, -0.0648,  ...,  0.0015,  0.0151, -0.0155],
+        [-0.0125, -0.0028, -0.0252,  ...,  0.0927,  0.0397,  0.0002],
+        [-0.0226, -0.0275, -0.0212,  ..., -0.1229, -0.1542, -0.1207]],
+       device='cuda:0'), grad: tensor([[ 4.3243e-05,  3.6228e-06,  9.9689e-06,  ...,  4.7050e-06,
+          9.7156e-06,  7.1637e-06],
+        [ 1.1969e-04,  9.7975e-06,  2.7657e-05,  ...,  1.1198e-05,
+          2.6122e-05,  1.8969e-05],
+        [ 1.9163e-05,  1.2685e-06,  4.2096e-06,  ...,  2.0973e-06,
+          4.4741e-06,  3.3099e-06],
+        ...,
+        [ 1.0237e-05,  1.1064e-06,  2.3302e-06,  ...,  2.5518e-06,
+          3.0324e-06,  2.6748e-06],
+        [ 6.7830e-05,  5.7332e-06,  1.5661e-05,  ...,  7.5512e-06,
+          1.5438e-05,  1.1593e-05],
+        [-2.8563e-04, -2.3916e-05, -6.5863e-05,  ..., -3.0905e-05,
+         -6.4492e-05, -4.7982e-05]], device='cuda:0')
+Epoch 60, bias, value: tensor([-0.0185, -0.2338,  0.0084, -0.1651, -0.0005,  0.2689,  0.1499],
+       device='cuda:0'), grad: tensor([ 1.4329e-04,  3.9768e-04,  6.4731e-05,  8.4817e-05,  3.3200e-05,
+         2.2471e-04, -9.4748e-04], device='cuda:0')
+351
+0.0005970223407163104
+changing lr
+epoch 59, time 492.38, cls_loss 0.0040 cls_loss_mapping 0.0384 cls_loss_causal 0.6520 re_mapping 0.0485 re_causal 0.0505 /// teacc 82.70 lr 0.00049516
+Epoch 61, weight, value: tensor([[-0.0212, -0.0140, -0.0071,  ..., -0.0101,  0.0992,  0.1211],
+        [ 0.0379,  0.0484,  0.0408,  ...,  0.0411,  0.0163, -0.0162],
+        [ 0.0611,  0.0357,  0.0589,  ...,  0.0073,  0.0006,  0.0182],
+        ...,
+        [-0.1115, -0.0960, -0.0647,  ...,  0.0015,  0.0151, -0.0155],
+        [-0.0122, -0.0028, -0.0252,  ...,  0.0928,  0.0397,  0.0003],
+        [-0.0227, -0.0275, -0.0212,  ..., -0.1229, -0.1541, -0.1206]],
+       device='cuda:0'), grad: tensor([[-2.4581e-04, -2.5958e-05, -5.0008e-05,  ..., -4.5031e-05,
+         -1.1921e-04, -8.9407e-05],
+        [ 8.8871e-05,  5.2899e-06,  7.9200e-06,  ...,  3.9667e-05,
+          2.7984e-05,  2.2709e-05],
+        [ 2.7013e-04,  3.2693e-05,  3.7163e-05,  ...,  1.3626e-04,
+          1.0562e-04,  8.9467e-05],
+        ...,
+        [ 5.0497e-04,  4.4256e-05,  7.9632e-05,  ...,  1.6642e-04,
+          2.0587e-04,  1.6856e-04],
+        [-3.8967e-03, -2.2078e-04, -4.4274e-04,  ..., -1.4009e-03,
+         -1.1187e-03, -9.2793e-04],
+        [ 3.1357e-03,  1.4865e-04,  3.4857e-04,  ...,  1.0357e-03,
+          8.4352e-04,  6.8998e-04]], device='cuda:0')
+Epoch 61, bias, value: tensor([-0.0187, -0.2335,  0.0085, -0.1652, -0.0006,  0.2693,  0.1494],
+       device='cuda:0'), grad: tensor([-0.0008,  0.0003,  0.0008,  0.0005,  0.0016, -0.0127,  0.0103],
+       device='cuda:0')
+351
+0.0004951556604879052
+changing lr
+epoch 60, time 489.26, cls_loss 0.0038 cls_loss_mapping 0.0370 cls_loss_causal 0.6870 re_mapping 0.0484 re_causal 0.0504 /// teacc 82.28 lr 0.00040236
+Epoch 62, weight, value: tensor([[-0.0214, -0.0140, -0.0071,  ..., -0.0102,  0.0991,  0.1210],
+        [ 0.0379,  0.0483,  0.0408,  ...,  0.0411,  0.0163, -0.0162],
+        [ 0.0610,  0.0357,  0.0588,  ...,  0.0072,  0.0006,  0.0182],
+        ...,
+        [-0.1114, -0.0959, -0.0647,  ...,  0.0015,  0.0151, -0.0155],
+        [-0.0122, -0.0028, -0.0252,  ...,  0.0928,  0.0397,  0.0003],
+        [-0.0226, -0.0275, -0.0212,  ..., -0.1228, -0.1540, -0.1205]],
+       device='cuda:0'), grad: tensor([[ 2.2188e-05,  8.2105e-06,  8.0541e-06,  ...,  3.5763e-06,
+          9.4622e-07,  1.9614e-06],
+        [-4.1723e-05, -2.1998e-06, -4.1761e-06,  ..., -1.7449e-05,
+         -1.4827e-05, -1.3500e-05],
+        [-4.8637e-04, -1.8167e-04, -1.8668e-04,  ..., -9.2447e-05,
+         -6.3539e-05, -8.6546e-05],
+        ...,
+        [ 7.5512e-06,  1.9222e-06,  2.1514e-06,  ...,  2.1532e-06,
+          1.8720e-06,  1.9912e-06],
+        [ 1.2040e-04,  4.2289e-05,  4.3929e-05,  ...,  2.5019e-05,
+          1.8135e-05,  2.3142e-05],
+        [ 1.1921e-04,  3.4183e-05,  3.6806e-05,  ...,  2.8491e-05,
+          2.1860e-05,  2.5377e-05]], device='cuda:0')
+Epoch 62, bias, value: tensor([-0.0192, -0.2331,  0.0083, -0.1652, -0.0005,  0.2692,  0.1497],
+       device='cuda:0'), grad: tensor([ 5.2631e-05, -1.3030e-04, -1.1740e-03,  6.2513e-04,  2.0266e-05,
+         2.9707e-04,  3.0971e-04], device='cuda:0')
+351
+0.00040236113724274745
+changing lr
+epoch 61, time 489.43, cls_loss 0.0045 cls_loss_mapping 0.0367 cls_loss_causal 0.6441 re_mapping 0.0480 re_causal 0.0499 /// teacc 78.48 lr 0.00031883
+Epoch 63, weight, value: tensor([[-0.0213, -0.0140, -0.0071,  ..., -0.0101,  0.0991,  0.1209],
+        [ 0.0378,  0.0483,  0.0407,  ...,  0.0410,  0.0163, -0.0162],
+        [ 0.0609,  0.0356,  0.0588,  ...,  0.0072,  0.0006,  0.0181],
+        ...,
+        [-0.1114, -0.0959, -0.0646,  ...,  0.0015,  0.0151, -0.0155],
+        [-0.0123, -0.0028, -0.0252,  ...,  0.0927,  0.0397,  0.0003],
+        [-0.0224, -0.0275, -0.0211,  ..., -0.1227, -0.1539, -0.1204]],
+       device='cuda:0'), grad: tensor([[ 1.2529e-04,  2.2218e-05,  2.8625e-05,  ...,  3.4153e-05,
+          2.4438e-05,  2.4959e-05],
+        [ 1.5825e-05,  1.6261e-06,  1.8962e-06,  ...,  8.0094e-06,
+          6.0126e-06,  6.2659e-06],
+        [-2.7156e-04, -8.5413e-05, -9.2268e-05,  ..., -2.8670e-05,
+         -1.1556e-05, -9.0450e-06],
+        ...,
+        [-2.2966e-06,  7.2680e-06,  4.5262e-06,  ..., -5.1968e-07,
+          2.3246e-06, -6.3702e-07],
+        [-3.3855e-05,  2.4676e-05,  1.8314e-05,  ..., -9.7752e-05,
+         -9.1434e-05, -9.2506e-05],
+        [ 4.2379e-05,  4.2804e-06,  8.4341e-06,  ...,  4.6492e-05,
+          4.1276e-05,  4.2289e-05]], device='cuda:0')
+Epoch 63, bias, value: tensor([-0.0190, -0.2331,  0.0080, -0.1650, -0.0006,  0.2687,  0.1501],
+       device='cuda:0'), grad: tensor([ 3.8457e-04,  5.1320e-05, -7.3528e-04,  3.6812e-04, -5.8979e-05,
+        -1.7655e-04,  1.6725e-04], device='cuda:0')
+351
+0.00031882564680131423
+changing lr
+epoch 62, time 483.86, cls_loss 0.0042 cls_loss_mapping 0.0371 cls_loss_causal 0.6606 re_mapping 0.0480 re_causal 0.0500 /// teacc 87.76 lr 0.00024472
+Epoch 64, weight, value: tensor([[-0.0214, -0.0140, -0.0071,  ..., -0.0102,  0.0990,  0.1208],
+        [ 0.0379,  0.0483,  0.0407,  ...,  0.0410,  0.0163, -0.0162],
+        [ 0.0608,  0.0356,  0.0587,  ...,  0.0072,  0.0006,  0.0181],
+        ...,
+        [-0.1112, -0.0958, -0.0646,  ...,  0.0016,  0.0151, -0.0154],
+        [-0.0124, -0.0028, -0.0252,  ...,  0.0927,  0.0397,  0.0003],
+        [-0.0224, -0.0275, -0.0211,  ..., -0.1227, -0.1538, -0.1203]],
+       device='cuda:0'), grad: tensor([[ 2.7698e-06,  5.7667e-06,  3.1590e-06,  ..., -3.6303e-06,
+         -1.3135e-05, -1.1802e-05],
+        [ 4.9829e-05,  7.4059e-06,  1.1750e-05,  ...,  9.0599e-06,
+          1.1452e-05,  1.4067e-05],
+        [-1.3173e-04, -5.1230e-05, -5.5671e-05,  ..., -1.5497e-05,
+         -5.6326e-06, -1.2428e-05],
+        ...,
+        [ 2.7090e-05,  5.1446e-06,  6.8285e-06,  ...,  3.5875e-06,
+          2.9411e-06,  4.6305e-06],
+        [ 5.3972e-05,  1.4357e-05,  1.7211e-05,  ...,  3.2391e-06,
+          7.2457e-07,  4.1276e-06],
+        [-5.3346e-05,  9.4622e-07, -2.8946e-06,  ..., -4.3772e-06,
+         -1.2368e-06, -6.2324e-06]], device='cuda:0')
+Epoch 64, bias, value: tensor([-1.9339e-02, -2.3265e-01,  7.7978e-03, -1.6499e-01, -7.8075e-05,
+         2.6835e-01,  1.5003e-01], device='cuda:0'), grad: tensor([-2.4382e-06,  1.5533e-04, -3.2139e-04,  1.3471e-04,  8.2672e-05,
+         1.5342e-04, -2.0194e-04], device='cuda:0')
+351
+0.0002447174185242325
+changing lr
+epoch 63, time 490.22, cls_loss 0.0036 cls_loss_mapping 0.0347 cls_loss_causal 0.6470 re_mapping 0.0480 re_causal 0.0500 /// teacc 83.12 lr 0.00018019
+Epoch 65, weight, value: tensor([[-0.0214, -0.0140, -0.0071,  ..., -0.0102,  0.0990,  0.1208],
+        [ 0.0379,  0.0483,  0.0407,  ...,  0.0410,  0.0163, -0.0162],
+        [ 0.0608,  0.0356,  0.0587,  ...,  0.0071,  0.0006,  0.0181],
+        ...,
+        [-0.1111, -0.0958, -0.0645,  ...,  0.0016,  0.0151, -0.0154],
+        [-0.0124, -0.0028, -0.0252,  ...,  0.0927,  0.0397,  0.0003],
+        [-0.0224, -0.0275, -0.0211,  ..., -0.1226, -0.1538, -0.1203]],
+       device='cuda:0'), grad: tensor([[ 5.2881e-04,  4.0114e-05,  1.0240e-04,  ...,  1.3661e-04,
+          1.6046e-04,  1.8704e-04],
+        [-8.0919e-04, -6.5684e-05, -7.5638e-05,  ..., -4.0150e-04,
+         -2.9635e-04, -3.4237e-04],
+        [ 7.9060e-04,  5.5760e-05,  1.4138e-04,  ...,  2.0337e-04,
+          2.2817e-04,  2.6584e-04],
+        ...,
+        [-1.2274e-03, -8.4937e-05, -2.8634e-04,  ..., -2.2125e-04,
+         -3.6216e-04, -4.2987e-04],
+        [ 3.4070e-04,  2.7388e-05,  4.6611e-05,  ...,  1.2219e-04,
+          1.0574e-04,  1.2124e-04],
+        [ 1.5497e-04,  1.1295e-05,  2.6509e-05,  ...,  1.0812e-04,
+          9.7275e-05,  1.2004e-04]], device='cuda:0')
+Epoch 65, bias, value: tensor([-1.9334e-02, -2.3244e-01,  7.7977e-03, -1.6502e-01,  1.9134e-05,
+         2.6818e-01,  1.4991e-01], device='cuda:0'), grad: tensor([ 0.0018, -0.0027,  0.0026,  0.0007, -0.0042,  0.0011,  0.0006],
+       device='cuda:0')
+351
+0.0001801856965207339
+changing lr
+epoch 64, time 492.97, cls_loss 0.0040 cls_loss_mapping 0.0365 cls_loss_causal 0.6452 re_mapping 0.0477 re_causal 0.0498 /// teacc 82.28 lr 0.00012536
+Epoch 66, weight, value: tensor([[-0.0214, -0.0140, -0.0071,  ..., -0.0102,  0.0990,  0.1208],
+        [ 0.0379,  0.0482,  0.0407,  ...,  0.0410,  0.0163, -0.0162],
+        [ 0.0608,  0.0356,  0.0587,  ...,  0.0071,  0.0006,  0.0181],
+        ...,
+        [-0.1110, -0.0957, -0.0645,  ...,  0.0016,  0.0151, -0.0154],
+        [-0.0124, -0.0028, -0.0252,  ...,  0.0927,  0.0397,  0.0003],
+        [-0.0224, -0.0275, -0.0211,  ..., -0.1226, -0.1538, -0.1203]],
+       device='cuda:0'), grad: tensor([[ 4.5419e-05,  6.3926e-06,  1.3947e-05,  ...,  1.1124e-05,
+          1.1191e-05,  1.2450e-05],
+        [-1.0870e-05, -2.7269e-06, -2.4606e-06,  ..., -3.9451e-06,
+         -4.3772e-06, -5.6140e-06],
+        [ 4.3422e-05,  5.9567e-06,  1.4521e-05,  ...,  7.3612e-06,
+          5.9381e-06,  7.0743e-06],
+        ...,
+        [ 1.1817e-05,  2.1253e-06,  4.8801e-06,  ..., -5.6345e-07,
+         -2.2799e-06, -1.7304e-06],
+        [ 2.2992e-05,  3.1963e-06,  7.7263e-06,  ...,  3.9227e-06,
+          3.1628e-06,  3.7048e-06],
+        [-1.1885e-04, -1.5810e-05, -4.0680e-05,  ..., -1.8969e-05,
+         -1.4514e-05, -1.6913e-05]], device='cuda:0')
+Epoch 66, bias, value: tensor([-1.9370e-02, -2.3244e-01,  7.9069e-03, -1.6501e-01,  9.5384e-05,
+         2.6809e-01,  1.4984e-01], device='cuda:0'), grad: tensor([ 1.8620e-04, -2.0117e-05,  1.9896e-04,  2.7701e-05,  6.4075e-05,
+         1.0514e-04, -5.6219e-04], device='cuda:0')
+351
+0.000125360439090882
+changing lr
+epoch 65, time 491.54, cls_loss 0.0036 cls_loss_mapping 0.0321 cls_loss_causal 0.6499 re_mapping 0.0478 re_causal 0.0498 /// teacc 85.65 lr 0.00008035
+Epoch 67, weight, value: tensor([[-0.0214, -0.0140, -0.0071,  ..., -0.0102,  0.0990,  0.1208],
+        [ 0.0379,  0.0482,  0.0407,  ...,  0.0410,  0.0163, -0.0162],
+        [ 0.0608,  0.0356,  0.0587,  ...,  0.0071,  0.0005,  0.0181],
+        ...,
+        [-0.1110, -0.0957, -0.0645,  ...,  0.0016,  0.0151, -0.0154],
+        [-0.0124, -0.0028, -0.0252,  ...,  0.0927,  0.0397,  0.0003],
+        [-0.0224, -0.0275, -0.0211,  ..., -0.1226, -0.1538, -0.1203]],
+       device='cuda:0'), grad: tensor([[ 7.2360e-05,  5.2638e-06,  1.7837e-05,  ...,  1.5587e-05,
+          2.2396e-05,  2.0936e-05],
+        [ 9.2804e-05,  4.1537e-06,  2.0787e-05,  ...,  2.1264e-05,
+          3.0354e-05,  2.8640e-05],
+        [-9.5293e-06, -6.4522e-06, -6.5379e-06,  ..., -1.0915e-06,
+         -2.5313e-06, -3.1143e-06],
+        ...,
+        [ 9.6187e-06,  5.1688e-07,  2.1979e-06,  ...,  1.9427e-06,
+          3.2876e-06,  2.9653e-06],
+        [ 7.5519e-05,  4.3809e-06,  1.7673e-05,  ...,  1.7107e-05,
+          2.4602e-05,  2.3276e-05],
+        [-2.6488e-04, -9.6783e-06, -5.7906e-05,  ..., -6.0499e-05,
+         -8.6486e-05, -8.0824e-05]], device='cuda:0')
+Epoch 67, bias, value: tensor([-1.9302e-02, -2.3238e-01,  7.8917e-03, -1.6504e-01,  1.5820e-04,
+         2.6802e-01,  1.4977e-01], device='cuda:0'), grad: tensor([ 2.1708e-04,  2.8634e-04, -1.5043e-05,  7.3016e-05,  2.8566e-05,
+         2.3031e-04, -8.1968e-04], device='cuda:0')
+351
+8.03520570068517e-05
+changing lr
+epoch 66, time 488.28, cls_loss 0.0043 cls_loss_mapping 0.0363 cls_loss_causal 0.6060 re_mapping 0.0477 re_causal 0.0496 /// teacc 80.17 lr 0.00004525
+Epoch 68, weight, value: tensor([[-0.0214, -0.0140, -0.0071,  ..., -0.0102,  0.0990,  0.1208],
+        [ 0.0379,  0.0482,  0.0407,  ...,  0.0410,  0.0163, -0.0162],
+        [ 0.0609,  0.0356,  0.0587,  ...,  0.0071,  0.0006,  0.0181],
+        ...,
+        [-0.1110, -0.0957, -0.0645,  ...,  0.0016,  0.0151, -0.0154],
+        [-0.0124, -0.0028, -0.0252,  ...,  0.0927,  0.0397,  0.0003],
+        [-0.0225, -0.0275, -0.0211,  ..., -0.1226, -0.1538, -0.1203]],
+       device='cuda:0'), grad: tensor([[ 1.7738e-04,  3.6508e-05,  4.7892e-05,  ...,  3.3021e-05,
+          5.1409e-05,  5.8830e-05],
+        [-1.1176e-04, -1.2986e-05, -2.6107e-05,  ..., -6.1005e-05,
+         -7.1406e-05, -7.7963e-05],
+        [-1.8620e-04, -4.3780e-05, -5.1647e-05,  ..., -1.6481e-05,
+         -4.3839e-05, -4.8906e-05],
+        ...,
+        [ 9.0122e-05,  1.1779e-05,  2.0489e-05,  ...,  2.9355e-05,
+          3.2455e-05,  3.6657e-05],
+        [ 1.6510e-04,  2.1622e-05,  3.7253e-05,  ...,  5.1230e-05,
+          5.6177e-05,  6.3777e-05],
+        [-2.3258e-04, -2.8268e-05, -5.0306e-05,  ..., -5.5730e-05,
+         -4.7892e-05, -5.9724e-05]], device='cuda:0')
+Epoch 68, bias, value: tensor([-1.9269e-02, -2.3232e-01,  8.0016e-03, -1.6504e-01,  1.6669e-04,
+         2.6794e-01,  1.4963e-01], device='cuda:0'), grad: tensor([ 0.0005, -0.0004, -0.0005,  0.0003,  0.0003,  0.0005, -0.0007],
+       device='cuda:0')
+351
+4.5251191160326525e-05
+changing lr
+epoch 67, time 486.30, cls_loss 0.0037 cls_loss_mapping 0.0329 cls_loss_causal 0.6237 re_mapping 0.0478 re_causal 0.0498 /// teacc 78.48 lr 0.00002013
+Epoch 69, weight, value: tensor([[-0.0214, -0.0140, -0.0071,  ..., -0.0102,  0.0990,  0.1208],
+        [ 0.0379,  0.0482,  0.0407,  ...,  0.0410,  0.0163, -0.0162],
+        [ 0.0609,  0.0356,  0.0587,  ...,  0.0071,  0.0006,  0.0181],
+        ...,
+        [-0.1110, -0.0957, -0.0645,  ...,  0.0016,  0.0151, -0.0154],
+        [-0.0124, -0.0028, -0.0252,  ...,  0.0927,  0.0397,  0.0003],
+        [-0.0225, -0.0275, -0.0211,  ..., -0.1226, -0.1538, -0.1203]],
+       device='cuda:0'), grad: tensor([[ 8.3113e-04,  7.4923e-05,  1.7071e-04,  ...,  2.6250e-04,
+          3.9792e-04,  3.2210e-04],
+        [-9.2602e-04, -8.4460e-05, -1.9145e-04,  ..., -2.9302e-04,
+         -4.3583e-04, -3.5167e-04],
+        [-5.4128e-06, -2.5220e-06, -2.1048e-06,  ...,  1.5944e-06,
+          1.8477e-06,  1.1027e-06],
+        ...,
+        [ 2.8223e-05,  2.8014e-06,  6.0685e-06,  ...,  8.5831e-06,
+          1.2398e-05,  1.0081e-05],
+        [ 2.3380e-05,  2.6226e-06,  5.3160e-06,  ...,  7.4133e-06,
+          8.4266e-06,  6.3777e-06],
+        [ 4.0412e-05,  4.8652e-06,  9.2611e-06,  ...,  1.1846e-05,
+          1.4052e-05,  1.0982e-05]], device='cuda:0')
+Epoch 69, bias, value: tensor([-1.9275e-02, -2.3228e-01,  8.0206e-03, -1.6505e-01,  1.7925e-04,
+         2.6789e-01,  1.4963e-01], device='cuda:0'), grad: tensor([ 2.4948e-03, -2.7771e-03, -1.3143e-05,  2.4006e-05,  8.4937e-05,
+         6.9320e-05,  1.1951e-04], device='cuda:0')
+351
+2.0128530023804673e-05
+changing lr
+epoch 68, time 488.59, cls_loss 0.0038 cls_loss_mapping 0.0348 cls_loss_causal 0.6464 re_mapping 0.0477 re_causal 0.0497 /// teacc 81.01 lr 0.00000503
+Epoch 70, weight, value: tensor([[-0.0214, -0.0140, -0.0071,  ..., -0.0102,  0.0990,  0.1208],
+        [ 0.0379,  0.0482,  0.0407,  ...,  0.0410,  0.0163, -0.0162],
+        [ 0.0609,  0.0356,  0.0587,  ...,  0.0071,  0.0006,  0.0181],
+        ...,
+        [-0.1110, -0.0957, -0.0645,  ...,  0.0016,  0.0151, -0.0154],
+        [-0.0124, -0.0028, -0.0252,  ...,  0.0927,  0.0397,  0.0003],
+        [-0.0224, -0.0275, -0.0211,  ..., -0.1226, -0.1538, -0.1203]],
+       device='cuda:0'), grad: tensor([[ 2.3559e-05,  6.6012e-06,  1.9409e-06,  ..., -3.4779e-05,
+         -7.4029e-05, -6.5267e-05],
+        [ 2.2388e-04,  2.8431e-05,  4.1455e-05,  ...,  3.1710e-05,
+          5.0277e-05,  5.2512e-05],
+        [-5.5850e-05, -4.7028e-05, -3.0845e-05,  ..., -2.1219e-05,
+          1.6883e-05,  5.6773e-06],
+        ...,
+        [ 7.6115e-05,  1.3202e-05,  1.9178e-05,  ...,  2.7522e-05,
+          4.1485e-05,  4.3154e-05],
+        [ 4.0293e-04,  5.9634e-05,  8.0347e-05,  ...,  5.4657e-05,
+          7.3731e-05,  7.9453e-05],
+        [-8.0967e-04, -9.9838e-05, -1.5163e-04,  ..., -9.5963e-05,
+         -1.4210e-04, -1.5724e-04]], device='cuda:0')
+Epoch 70, bias, value: tensor([-1.9308e-02, -2.3226e-01,  8.0159e-03, -1.6505e-01,  1.7581e-04,
+         2.6787e-01,  1.4967e-01], device='cuda:0'), grad: tensor([ 5.3346e-05,  7.1144e-04, -1.0407e-04,  4.0460e-04,  2.4176e-04,
+         1.2579e-03, -2.5673e-03], device='cuda:0')
+351
+5.034667293427056e-06
+changing lr
+epoch 69, time 490.70, cls_loss 0.0033 cls_loss_mapping 0.0336 cls_loss_causal 0.6347 re_mapping 0.0477 re_causal 0.0497 /// teacc 83.54 lr 0.00000000
+---------------------saving last model at epoch 69----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//cartoon/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1', 'source_domain': 'cartoon', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//cartoon/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1/cartoon_16factor_best_test_check.csv', 'factor_num': 16, 'epoch': 'best', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of best
+randm: False
+stride: 5
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+columns: ['cartoon', 'art_painting', 'photo', 'sketch']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+                       cartoon  art_painting      photo     sketch        Avg
+w/o do (original x)  99.061433       54.6875  66.047904  60.066175  60.267193
+      cartoon  art_painting     photo     sketch        Avg
+do  99.146758     55.712891  72.45509  63.425808  63.864596
diff --git a/Meta-causal/code-withStyleAttack/64946.error b/Meta-causal/code-withStyleAttack/64946.error
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/Meta-causal/code-withStyleAttack/64946.log b/Meta-causal/code-withStyleAttack/64946.log
new file mode 100644
index 0000000000000000000000000000000000000000..7fb9e7a47f327a6500968fbe621b218e91069882
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/64946.log
@@ -0,0 +1,1950 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'photo', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 5, 'factor_num': 16, 'epochs': 70, 'nbatch': 100, 'batchsize': 6, 'lr': 0.01, 'lr_scheduler': 'cosine', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//photo/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 5
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_train.hdf5 torch.Size([1499, 3, 227, 227]) torch.Size([1499])
+--------------------------CA_multiple--------------------------
+---------------------------16 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_val.hdf5 torch.Size([171, 3, 227, 227]) torch.Size([171])
+-------------------------------------loading pretrain weights----------------------------------
+Epoch 1, weight, value: tensor([[ 1.3781e-02, -2.1813e-02, -1.7643e-02,  ..., -3.4786e-03,
+          7.0747e-03,  1.6051e-02],
+        [ 1.6921e-02,  1.6796e-02,  3.9765e-03,  ...,  6.6386e-03,
+          2.4196e-03,  9.7383e-03],
+        [ 1.8894e-03, -6.7549e-03,  2.1032e-02,  ..., -1.9916e-02,
+         -1.0781e-02,  1.7924e-02],
+        ...,
+        [ 4.6711e-04, -7.8218e-03,  8.8535e-03,  ..., -1.7695e-02,
+         -1.9742e-02, -5.5186e-03],
+        [-1.4236e-02,  1.5676e-02, -6.0038e-03,  ...,  1.4177e-02,
+          1.0025e-02, -3.0311e-03],
+        [-1.4947e-02,  1.6332e-02,  1.3555e-02,  ...,  1.0778e-02,
+          9.8178e-05, -1.3844e-02]], device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([ 0.0165, -0.0171,  0.0209, -0.0155,  0.0020, -0.0164,  0.0005],
+       device='cuda:0'), grad: None
+249
+0.01
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 348.21, cls_loss 9.8684 cls_loss_mapping 1.6022 cls_loss_causal 1.9054 re_mapping 1.0159 re_causal 1.0189 /// teacc 69.59 lr 0.00999497
+Epoch 2, weight, value: tensor([[ 0.0774,  0.0641,  0.0080,  ..., -0.0354, -0.0471, -0.0399],
+        [-0.0260, -0.0458, -0.0257,  ..., -0.0312, -0.0105, -0.0277],
+        [-0.0029, -0.0232,  0.0263,  ..., -0.0459, -0.0319, -0.0043],
+        ...,
+        [ 0.0248,  0.0389,  0.0264,  ...,  0.0109, -0.0060,  0.0109],
+        [-0.0430, -0.0148, -0.0446,  ..., -0.0595, -0.0504, -0.0497],
+        [ 0.0564,  0.0909,  0.0901,  ...,  0.0745,  0.0518,  0.0574]],
+       device='cuda:0'), grad: tensor([[-1.0231e-02, -3.4180e-03, -1.1459e-02,  ...,  7.9918e-04,
+         -4.7612e-04, -1.6251e-03],
+        [ 1.5697e-03,  1.3151e-03,  1.7748e-03,  ...,  1.2712e-03,
+          1.7195e-03,  1.3046e-03],
+        [ 7.8049e-03,  2.6760e-03,  9.8877e-03,  ...,  4.4975e-03,
+          4.5662e-03,  3.6087e-03],
+        ...,
+        [ 2.2011e-03,  1.6279e-03,  2.6894e-03,  ...,  2.0332e-03,
+          2.4071e-03,  1.8253e-03],
+        [ 1.2942e-05,  4.3437e-06,  1.5251e-05,  ...,  2.3097e-06,
+          3.3155e-06,  3.5837e-06],
+        [-3.1967e-03, -2.8076e-03, -3.6583e-03,  ..., -2.7180e-03,
+         -3.6221e-03, -2.7809e-03]], device='cuda:0')
+Epoch 2, bias, value: tensor([ 0.0328, -0.0842,  0.2049,  0.0465,  0.0064, -0.1213, -0.0942],
+       device='cuda:0'), grad: tensor([-0.0866,  0.0029,  0.1262, -0.0544,  0.0152,  0.0001, -0.0035],
+       device='cuda:0')
+249
+0.009994965332706574
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 347.28, cls_loss 3.2468 cls_loss_mapping 1.3975 cls_loss_causal 1.8708 re_mapping 0.7421 re_causal 0.7474 /// teacc 80.70 lr 0.00997987
+Epoch 3, weight, value: tensor([[ 0.0785,  0.0747,  0.0011,  ..., -0.0510, -0.0911, -0.0519],
+        [-0.0322, -0.0574, -0.0140,  ..., -0.0477, -0.0259, -0.0421],
+        [-0.0056, -0.0181,  0.0213,  ..., -0.0507, -0.0635, -0.0161],
+        ...,
+        [-0.0080,  0.0068, -0.0124,  ..., -0.0106, -0.0226, -0.0205],
+        [-0.0517, -0.0187, -0.0551,  ..., -0.0376, -0.0179, -0.0239],
+        [ 0.0674,  0.1059,  0.1026,  ...,  0.1048,  0.0980,  0.0961]],
+       device='cuda:0'), grad: tensor([[ 3.9101e-05,  3.8743e-05,  1.3423e-04,  ...,  1.6487e-04,
+          1.4436e-04,  1.5497e-04],
+        [ 1.8263e-03,  1.4849e-03,  3.7289e-03,  ...,  2.7828e-03,
+          2.1725e-03,  2.8553e-03],
+        [ 4.3368e-04,  9.7847e-04,  3.6945e-03,  ...,  7.3967e-03,
+          7.4463e-03,  7.1487e-03],
+        ...,
+        [-2.4109e-03, -1.7910e-03, -5.5389e-03,  ..., -3.6659e-03,
+         -2.2316e-03, -3.3226e-03],
+        [ 1.4687e-04,  1.4591e-04,  7.2622e-04,  ...,  9.2077e-04,
+          7.4911e-04,  8.0156e-04],
+        [ 3.0994e-06,  2.9132e-06,  1.0602e-05,  ...,  1.2219e-05,
+          1.0259e-05,  1.1235e-05]], device='cuda:0')
+Epoch 3, bias, value: tensor([-0.0016, -0.0449,  0.2193,  0.0254,  0.0386, -0.1846, -0.0613],
+       device='cuda:0'), grad: tensor([ 0.0033,  0.0715,  0.1316, -0.1288, -0.0958,  0.0180,  0.0003],
+       device='cuda:0')
+249
+0.009979871469976196
+changing lr
+epoch 2, time 346.20, cls_loss 3.2564 cls_loss_mapping 1.4641 cls_loss_causal 1.8684 re_mapping 0.6795 re_causal 0.6891 /// teacc 63.16 lr 0.00995475
+Epoch 4, weight, value: tensor([[ 0.1029,  0.0873,  0.0093,  ..., -0.0784, -0.1080, -0.0719],
+        [-0.0437, -0.0644, -0.0257,  ..., -0.0425, -0.0232, -0.0373],
+        [-0.0310, -0.0245, -0.0142,  ..., -0.0414, -0.0979, -0.0245],
+        ...,
+        [-0.0239, -0.0071, -0.0055,  ..., -0.0321, -0.0321, -0.0325],
+        [-0.0364, -0.0142, -0.0472,  ..., -0.0315, -0.0031, -0.0247],
+        [ 0.0723,  0.1110,  0.0884,  ...,  0.1055,  0.1089,  0.1103]],
+       device='cuda:0'), grad: tensor([[-7.9393e-04, -1.0939e-03, -4.1733e-03,  ..., -1.1044e-03,
+         -8.3113e-04, -1.1721e-03],
+        [ 2.8372e-04,  3.9291e-04,  2.0332e-03,  ...,  5.7697e-04,
+          4.7493e-04,  6.3467e-04],
+        [ 1.4377e-04,  1.9968e-04,  1.2112e-03,  ...,  3.5334e-04,
+          3.0017e-04,  3.9363e-04],
+        ...,
+        [ 4.0245e-04,  5.5695e-04,  2.8667e-03,  ...,  8.1253e-04,
+          6.6805e-04,  8.9312e-04],
+        [ 6.9797e-05,  9.6500e-05,  5.6171e-04,  ...,  1.6296e-04,
+          1.3769e-04,  1.8096e-04],
+        [-1.5214e-05,  1.3635e-06,  7.7248e-05,  ...,  1.8284e-05,
+         -2.4140e-06,  2.1279e-05]], device='cuda:0')
+Epoch 4, bias, value: tensor([-0.0196,  0.1142,  0.2746,  0.0413, -0.0684, -0.2400, -0.1112],
+       device='cuda:0'), grad: tensor([-0.0831,  0.0550,  0.0363, -0.1049,  0.0771,  0.0164,  0.0032],
+       device='cuda:0')
+249
+0.009954748808839675
+changing lr
+epoch 3, time 349.42, cls_loss 2.7298 cls_loss_mapping 1.5867 cls_loss_causal 2.0432 re_mapping 0.5943 re_causal 0.6005 /// teacc 77.78 lr 0.00991965
+Epoch 5, weight, value: tensor([[ 0.1081,  0.0900,  0.0151,  ..., -0.0868, -0.1245, -0.0882],
+        [-0.0605, -0.0741, -0.0279,  ..., -0.0441, -0.0276, -0.0324],
+        [-0.0019, -0.0298,  0.0355,  ..., -0.0761, -0.1008, -0.0539],
+        ...,
+        [-0.0150, -0.0192, -0.0049,  ..., -0.0336, -0.0156, -0.0245],
+        [-0.0533, -0.0477, -0.0658,  ..., -0.0337, -0.0129, -0.0378],
+        [ 0.1000,  0.1785,  0.0972,  ...,  0.1097,  0.1032,  0.1183]],
+       device='cuda:0'), grad: tensor([[-1.2827e-03, -1.2982e-04, -2.0485e-03,  ..., -5.8632e-03,
+         -4.2610e-03, -4.8866e-03],
+        [ 7.7248e-04,  4.5151e-05,  1.0691e-03,  ...,  3.7918e-03,
+          3.3112e-03,  3.3703e-03],
+        [ 1.0872e-04,  1.4193e-05,  1.6677e-04,  ...,  4.7517e-04,
+          3.9291e-04,  4.0770e-04],
+        ...,
+        [ 5.5408e-04,  1.0329e-04,  8.8072e-04,  ...,  2.1973e-03,
+          1.8730e-03,  1.8682e-03],
+        [ 1.1146e-05,  1.7807e-06,  1.7256e-05,  ...,  4.6402e-05,
+          3.9756e-05,  3.9905e-05],
+        [ 1.4134e-05,  2.3544e-06,  1.9610e-05,  ...,  5.8502e-05,
+          6.0886e-05,  5.3585e-05]], device='cuda:0')
+Epoch 5, bias, value: tensor([ 0.0686,  0.2019,  0.1705,  0.0255,  0.1121, -0.3466, -0.2412],
+       device='cuda:0'), grad: tensor([-0.1044,  0.0511,  0.0085, -0.0029,  0.0458,  0.0009,  0.0010],
+       device='cuda:0')
+249
+0.009919647942993149
+changing lr
+epoch 4, time 346.66, cls_loss 3.5903 cls_loss_mapping 1.6275 cls_loss_causal 2.0572 re_mapping 0.5120 re_causal 0.5143 /// teacc 35.09 lr 0.00987464
+Epoch 6, weight, value: tensor([[ 0.0966,  0.1068,  0.0187,  ..., -0.0904, -0.1378, -0.0916],
+        [-0.0324, -0.0771,  0.0030,  ..., -0.0663, -0.0303, -0.0512],
+        [ 0.0144, -0.0241,  0.0409,  ..., -0.0741, -0.0996, -0.0597],
+        ...,
+        [-0.0197, -0.0390, -0.0097,  ..., -0.0399, -0.0355, -0.0279],
+        [-0.0444, -0.0515, -0.0625,  ..., -0.0262,  0.0110, -0.0326],
+        [ 0.0648,  0.2060,  0.0403,  ...,  0.1140,  0.0686,  0.1289]],
+       device='cuda:0'), grad: tensor([[ 3.0975e-03,  6.9201e-05,  4.6806e-03,  ...,  4.5848e-04,
+          1.0166e-03,  3.1519e-04],
+        [ 1.7853e-02,  2.6822e-04,  2.4368e-02,  ...,  1.7824e-03,
+          5.9357e-03,  9.9754e-04],
+        [-3.5362e-03, -1.0973e-04, -6.5269e-03,  ..., -1.0843e-03,
+          3.8576e-04,  3.3927e-04],
+        ...,
+        [-1.7624e-02, -7.7367e-05, -1.9379e-02,  ...,  6.7770e-05,
+         -6.5308e-03,  1.6078e-05],
+        [-3.2139e-03, -2.4211e-04, -8.5297e-03,  ..., -1.7824e-03,
+         -1.9932e-03, -2.1458e-03],
+        [ 1.1911e-03,  2.1294e-05,  1.6680e-03,  ...,  1.2493e-04,
+          4.1246e-04,  9.4652e-05]], device='cuda:0')
+Epoch 6, bias, value: tensor([ 0.0241,  0.2085,  0.0226,  0.1522,  0.1168, -0.1597, -0.3738],
+       device='cuda:0'), grad: tensor([ 0.0638,  0.2766, -0.0494,  0.0591, -0.0909, -0.2791,  0.0196],
+       device='cuda:0')
+249
+0.009874639560909117
+changing lr
+epoch 5, time 347.35, cls_loss 3.8974 cls_loss_mapping 1.7399 cls_loss_causal 2.0707 re_mapping 0.4239 re_causal 0.4300 /// teacc 49.12 lr 0.00981981
+Epoch 7, weight, value: tensor([[ 0.0807,  0.1011,  0.0078,  ..., -0.0864, -0.1360, -0.0869],
+        [-0.0310, -0.0750,  0.0037,  ..., -0.0671, -0.0333, -0.0504],
+        [ 0.0193, -0.0341,  0.0472,  ..., -0.1011, -0.0952, -0.0832],
+        ...,
+        [-0.0081, -0.0604,  0.0070,  ..., -0.0446, -0.0309, -0.0428],
+        [-0.0455, -0.0510, -0.0497,  ..., -0.0187,  0.0106, -0.0391],
+        [ 0.0654,  0.2450,  0.0348,  ...,  0.1289,  0.0681,  0.1527]],
+       device='cuda:0'), grad: tensor([[ 2.0275e-03,  4.0388e-04,  5.3253e-03,  ...,  4.7417e-03,
+          5.2872e-03,  4.8218e-03],
+        [-2.3365e-03, -5.3227e-05, -5.9280e-03,  ..., -1.7691e-03,
+         -9.7513e-04, -1.3580e-03],
+        [ 9.0122e-04,  1.6940e-04,  2.2984e-03,  ...,  1.9093e-03,
+          2.0332e-03,  1.8892e-03],
+        ...,
+        [ 1.4031e-04,  2.3878e-04,  8.2350e-04,  ..., -4.3373e-03,
+         -4.6272e-03, -4.6959e-03],
+        [-1.5945e-03, -9.1267e-04, -4.8599e-03,  ..., -2.5234e-03,
+         -3.9253e-03, -2.6951e-03],
+        [ 3.6925e-05,  6.7800e-06,  9.6202e-05,  ...,  7.4565e-05,
+          8.3208e-05,  7.4804e-05]], device='cuda:0')
+Epoch 7, bias, value: tensor([-0.0282,  0.2684,  0.0592,  0.0523,  0.3811, -0.0482, -0.6935],
+       device='cuda:0'), grad: tensor([ 0.1420, -0.1486,  0.0656,  0.0565,  0.0802, -0.1981,  0.0025],
+       device='cuda:0')
+249
+0.009819814303479266
+changing lr
+epoch 6, time 348.88, cls_loss 2.1611 cls_loss_mapping 1.5626 cls_loss_causal 2.0639 re_mapping 0.4027 re_causal 0.4165 /// teacc 53.80 lr 0.00975528
+Epoch 8, weight, value: tensor([[ 0.0680,  0.0850, -0.0052,  ..., -0.0881, -0.1487, -0.0975],
+        [-0.0428, -0.0737,  0.0020,  ..., -0.0586, -0.0247, -0.0390],
+        [ 0.0264, -0.0334,  0.0473,  ..., -0.1011, -0.1059, -0.0839],
+        ...,
+        [-0.0076, -0.0591,  0.0107,  ..., -0.0418, -0.0316, -0.0460],
+        [-0.0439, -0.0489, -0.0498,  ..., -0.0385, -0.0017, -0.0530],
+        [ 0.0812,  0.2544,  0.0455,  ...,  0.1305,  0.0698,  0.1522]],
+       device='cuda:0'), grad: tensor([[ 5.3692e-04,  2.7537e-05,  2.0752e-03,  ..., -8.0633e-04,
+         -4.9686e-04, -8.4734e-04],
+        [-4.8578e-05,  6.2227e-05, -8.9824e-05,  ...,  7.8249e-04,
+          6.9737e-06,  7.3862e-04],
+        [ 3.7956e-04,  1.3542e-04,  1.1082e-03,  ...,  8.0729e-04,
+          7.6675e-04,  7.0953e-04],
+        ...,
+        [-6.8426e-04, -2.0921e-05, -2.8839e-03,  ..., -1.2426e-03,
+         -8.3065e-04, -1.3056e-03],
+        [-5.6648e-04, -3.2020e-04, -1.4095e-03,  ..., -2.0278e-04,
+         -7.4446e-05,  1.4007e-04],
+        [ 1.3745e-04,  3.2336e-05,  4.5538e-04,  ...,  2.6965e-04,
+          2.5702e-04,  2.5105e-04]], device='cuda:0')
+Epoch 8, bias, value: tensor([ 0.1659,  0.0559,  0.0831, -0.0525,  0.2321,  0.0564, -0.5498],
+       device='cuda:0'), grad: tensor([ 0.0200,  0.0316,  0.0316,  0.0189, -0.0889, -0.0259,  0.0126],
+       device='cuda:0')
+249
+0.009755282581475767
+changing lr
+epoch 7, time 347.51, cls_loss 1.8054 cls_loss_mapping 1.4719 cls_loss_causal 1.9194 re_mapping 0.3440 re_causal 0.3578 /// teacc 60.23 lr 0.00968117
+Epoch 9, weight, value: tensor([[ 0.0677,  0.0792,  0.0004,  ..., -0.0899, -0.1448, -0.1001],
+        [-0.0454, -0.0682, -0.0072,  ..., -0.0556, -0.0266, -0.0361],
+        [ 0.0299, -0.0330,  0.0590,  ..., -0.0957, -0.0870, -0.0778],
+        ...,
+        [-0.0150, -0.0534,  0.0009,  ..., -0.0312, -0.0406, -0.0365],
+        [-0.0395, -0.0464, -0.0477,  ..., -0.0495, -0.0057, -0.0608],
+        [ 0.0828,  0.2522,  0.0470,  ...,  0.1284,  0.0701,  0.1498]],
+       device='cuda:0'), grad: tensor([[ 9.4354e-05,  2.9802e-08,  5.6028e-04,  ...,  2.4009e-04,
+          2.0373e-04,  1.9014e-04],
+        [ 3.6687e-05,  0.0000e+00,  8.0585e-05,  ...,  9.3341e-05,
+          6.4671e-05,  7.3910e-05],
+        [ 8.9228e-05,  0.0000e+00,  5.1832e-04,  ...,  2.2709e-04,
+          1.9145e-04,  1.7989e-04],
+        ...,
+        [ 1.3673e-04,  0.0000e+00,  8.4925e-04,  ...,  3.4785e-04,
+          2.9922e-04,  2.7561e-04],
+        [-4.1175e-04,  0.0000e+00, -2.3327e-03,  ..., -1.0481e-03,
+         -8.7738e-04, -8.2970e-04],
+        [ 1.2487e-05, -2.9802e-08,  7.4208e-05,  ...,  3.1859e-05,
+          2.6986e-05,  2.5228e-05]], device='cuda:0')
+Epoch 9, bias, value: tensor([ 0.2562,  0.0744,  0.0247, -0.0490,  0.3360, -0.0729, -0.5780],
+       device='cuda:0'), grad: tensor([ 0.0390, -0.0083,  0.0350,  0.0175,  0.0630, -0.1512,  0.0052],
+       device='cuda:0')
+249
+0.009681174353198686
+changing lr
+epoch 8, time 344.34, cls_loss 1.1558 cls_loss_mapping 1.3434 cls_loss_causal 1.8095 re_mapping 0.3223 re_causal 0.3378 /// teacc 71.35 lr 0.00959764
+Epoch 10, weight, value: tensor([[ 0.0637,  0.0797, -0.0172,  ..., -0.0936, -0.1668, -0.1064],
+        [-0.0445, -0.0665, -0.0026,  ..., -0.0505, -0.0229, -0.0326],
+        [ 0.0233, -0.0360,  0.0487,  ..., -0.1026, -0.0940, -0.0814],
+        ...,
+        [-0.0145, -0.0573,  0.0077,  ..., -0.0440, -0.0493, -0.0489],
+        [-0.0382, -0.0424, -0.0457,  ..., -0.0357,  0.0062, -0.0461],
+        [ 0.0888,  0.2514,  0.0565,  ...,  0.1306,  0.0868,  0.1515]],
+       device='cuda:0'), grad: tensor([[-1.7223e-03,  3.1531e-05, -6.3858e-03,  ..., -2.5387e-03,
+         -4.1237e-03, -2.4738e-03],
+        [ 3.2926e-04,  4.4525e-05,  6.4516e-04,  ..., -1.1349e-03,
+         -1.8263e-03, -1.7786e-03],
+        [ 6.6805e-04,  3.7193e-05,  2.1992e-03,  ...,  1.1168e-03,
+          1.1148e-03,  6.0797e-04],
+        ...,
+        [-7.1383e-04, -2.6226e-04, -6.6233e-04,  ..., -3.1734e-04,
+          3.4962e-03,  3.0727e-03],
+        [ 7.5817e-04,  8.6546e-05,  2.1133e-03,  ...,  1.5717e-03,
+          4.4703e-04,  1.1426e-04],
+        [ 1.2231e-04,  9.2536e-06,  3.8886e-04,  ...,  2.2089e-04,
+          1.8620e-04,  1.0014e-04]], device='cuda:0')
+Epoch 10, bias, value: tensor([ 0.1999,  0.0502, -0.0396,  0.0345,  0.3870, -0.0554, -0.5850],
+       device='cuda:0'), grad: tensor([-0.1238,  0.0103,  0.0461,  0.0386, -0.0331,  0.0534,  0.0084],
+       device='cuda:0')
+249
+0.009597638862757255
+changing lr
+epoch 9, time 346.82, cls_loss 1.0152 cls_loss_mapping 1.2447 cls_loss_causal 1.7866 re_mapping 0.2933 re_causal 0.2910 /// teacc 71.93 lr 0.00950484
+Epoch 11, weight, value: tensor([[ 6.1647e-02,  7.1985e-02, -6.6718e-03,  ..., -8.4501e-02,
+         -1.5132e-01, -9.8548e-02],
+        [-4.4163e-02, -6.3831e-02, -2.0746e-05,  ..., -5.3221e-02,
+         -2.4077e-02, -3.4561e-02],
+        [ 2.2785e-02, -3.1338e-02,  4.7170e-02,  ..., -1.0755e-01,
+         -1.0055e-01, -8.6465e-02],
+        ...,
+        [-1.1486e-02, -5.7438e-02,  8.9108e-03,  ..., -4.2754e-02,
+         -4.6038e-02, -4.9284e-02],
+        [-3.6297e-02, -4.0168e-02, -5.0431e-02,  ..., -3.7683e-02,
+          1.5160e-04, -4.6720e-02],
+        [ 8.4497e-02,  2.4673e-01,  4.9078e-02,  ...,  1.2770e-01,
+          8.1287e-02,  1.4858e-01]], device='cuda:0'), grad: tensor([[-7.1973e-06, -1.4484e-05, -4.7159e-04,  ..., -8.3542e-04,
+         -3.4523e-04, -3.3140e-04],
+        [ 5.9009e-05,  1.4454e-06,  4.6563e-04,  ...,  1.5724e-04,
+          2.6941e-04,  1.0693e-04],
+        [ 7.9334e-05,  3.0696e-06,  6.5899e-04,  ...,  2.7585e-04,
+          3.8648e-04,  1.6868e-04],
+        ...,
+        [-2.1803e-04,  7.0184e-06, -1.3599e-03,  ...,  1.3018e-04,
+         -7.1812e-04, -1.1444e-04],
+        [ 2.7567e-05,  1.3560e-06,  2.3830e-04,  ...,  1.1498e-04,
+          1.4412e-04,  6.7711e-05],
+        [ 1.1414e-05,  3.4273e-07,  9.2506e-05,  ...,  3.5554e-05,
+          5.5403e-05,  2.3544e-05]], device='cuda:0')
+Epoch 11, bias, value: tensor([ 0.3634, -0.0167, -0.1066,  0.0363,  0.4038, -0.0840, -0.6044],
+       device='cuda:0'), grad: tensor([-0.0597,  0.0193,  0.0304,  0.0157, -0.0216,  0.0118,  0.0040],
+       device='cuda:0')
+249
+0.009504844339512096
+changing lr
+---------------------saving model at epoch 10----------------------------------------------------
+epoch 10, time 346.95, cls_loss 0.7606 cls_loss_mapping 1.2027 cls_loss_causal 1.7721 re_mapping 0.2745 re_causal 0.2954 /// teacc 83.04 lr 0.00940298
+Epoch 12, weight, value: tensor([[ 0.0608,  0.0733, -0.0066,  ..., -0.0808, -0.1450, -0.0952],
+        [-0.0455, -0.0656, -0.0015,  ..., -0.0516, -0.0244, -0.0344],
+        [ 0.0261, -0.0287,  0.0484,  ..., -0.1044, -0.0978, -0.0841],
+        ...,
+        [-0.0148, -0.0566,  0.0036,  ..., -0.0439, -0.0561, -0.0477],
+        [-0.0346, -0.0400, -0.0446,  ..., -0.0398,  0.0050, -0.0485],
+        [ 0.0834,  0.2440,  0.0476,  ...,  0.1261,  0.0795,  0.1467]],
+       device='cuda:0'), grad: tensor([[ 2.9125e-03,  2.1839e-03,  1.1055e-02,  ...,  5.8022e-03,
+          1.0353e-02,  4.9248e-03],
+        [ 6.7568e-04,  3.6812e-04,  2.3785e-03,  ...,  8.6689e-04,
+          1.7233e-03,  8.5974e-04],
+        [ 2.8276e-04,  1.4174e-04,  1.0948e-03,  ...,  5.7745e-04,
+          9.5844e-04,  4.5371e-04],
+        ...,
+        [-4.9820e-03, -3.3283e-03, -1.8692e-02,  ..., -9.2621e-03,
+         -1.6571e-02, -7.9346e-03],
+        [ 2.0456e-04,  1.1301e-04,  7.2622e-04,  ...,  2.7800e-04,
+          5.3978e-04,  2.6870e-04],
+        [ 5.4210e-05,  3.0264e-05,  2.0385e-04,  ...,  9.9778e-05,
+          1.7345e-04,  8.3029e-05]], device='cuda:0')
+Epoch 12, bias, value: tensor([ 0.2281,  0.0016, -0.0989,  0.1680,  0.3630, -0.0823, -0.5875],
+       device='cuda:0'), grad: tensor([ 0.1564,  0.0358,  0.0146,  0.0443, -0.2646,  0.0108,  0.0028],
+       device='cuda:0')
+249
+0.009402977659283692
+changing lr
+epoch 11, time 348.26, cls_loss 0.8984 cls_loss_mapping 1.2257 cls_loss_causal 1.7599 re_mapping 0.2440 re_causal 0.2828 /// teacc 64.91 lr 0.00929224
+Epoch 13, weight, value: tensor([[ 0.0547,  0.0676, -0.0145,  ..., -0.0803, -0.1415, -0.0967],
+        [-0.0441, -0.0585, -0.0022,  ..., -0.0485, -0.0291, -0.0319],
+        [ 0.0192, -0.0320,  0.0357,  ..., -0.1065, -0.1117, -0.0865],
+        ...,
+        [-0.0133, -0.0545,  0.0126,  ..., -0.0470, -0.0490, -0.0475],
+        [-0.0264, -0.0354, -0.0327,  ..., -0.0376,  0.0110, -0.0460],
+        [ 0.0860,  0.2429,  0.0513,  ...,  0.1244,  0.0811,  0.1448]],
+       device='cuda:0'), grad: tensor([[ 8.0948e-03,  4.7188e-03,  2.4841e-02,  ...,  6.6223e-03,
+          2.3666e-02,  5.8098e-03],
+        [-1.4984e-02, -7.6065e-03, -5.0842e-02,  ..., -1.6510e-02,
+         -5.0995e-02, -1.5388e-02],
+        [ 3.6883e-04,  9.5189e-05,  1.7767e-03,  ...,  6.6376e-04,
+          1.8787e-03,  6.5994e-04],
+        ...,
+        [ 4.9591e-03,  2.2087e-03,  1.6663e-02,  ...,  5.1651e-03,
+          1.6617e-02,  4.8523e-03],
+        [-4.7541e-04,  1.4246e-04, -1.5488e-03,  ...,  4.7541e-04,
+         -9.6083e-04,  4.7874e-04],
+        [ 5.4026e-04,  1.0842e-04,  2.3575e-03,  ...,  7.8869e-04,
+          2.4357e-03,  7.8535e-04]], device='cuda:0')
+Epoch 13, bias, value: tensor([ 0.2046,  0.0119, -0.1103,  0.1370,  0.3917, -0.0697, -0.5732],
+       device='cuda:0'), grad: tensor([ 0.1096, -0.2756,  0.0134,  0.0499,  0.0839,  0.0035,  0.0153],
+       device='cuda:0')
+249
+0.009292243968009333
+changing lr
+epoch 12, time 346.66, cls_loss 0.8350 cls_loss_mapping 1.2619 cls_loss_causal 1.8637 re_mapping 0.2095 re_causal 0.2569 /// teacc 75.44 lr 0.00917287
+Epoch 14, weight, value: tensor([[ 0.0415,  0.0553, -0.0194,  ..., -0.0846, -0.1425, -0.1021],
+        [-0.0380, -0.0485, -0.0086,  ..., -0.0332, -0.0208, -0.0135],
+        [ 0.0273, -0.0239,  0.0513,  ..., -0.1055, -0.0992, -0.0865],
+        ...,
+        [-0.0156, -0.0573,  0.0202,  ..., -0.0573, -0.0553, -0.0609],
+        [-0.0235, -0.0368, -0.0384,  ..., -0.0439, -0.0034, -0.0513],
+        [ 0.0841,  0.2409,  0.0416,  ...,  0.1204,  0.0700,  0.1413]],
+       device='cuda:0'), grad: tensor([[ 5.5084e-03,  3.4237e-03,  2.1042e-02,  ...,  5.4054e-03,
+          2.2049e-02,  3.4885e-03],
+        [ 2.6642e-02,  8.3694e-03,  8.7708e-02,  ...,  2.2125e-02,
+          9.0027e-02,  1.5335e-02],
+        [-2.5024e-03, -1.3599e-03, -6.5117e-03,  ..., -8.6164e-04,
+         -6.2943e-03, -9.2697e-04],
+        ...,
+        [-2.9495e-02, -1.0429e-02, -1.0193e-01,  ..., -2.6520e-02,
+         -1.0535e-01, -1.7776e-02],
+        [-4.4012e-04, -1.0741e-04, -1.1673e-03,  ..., -3.8886e-04,
+         -1.3380e-03, -3.0255e-04],
+        [ 2.0817e-05,  5.5730e-06,  5.6982e-05,  ...,  1.8135e-05,
+          6.4135e-05,  1.3933e-05]], device='cuda:0')
+Epoch 14, bias, value: tensor([ 0.3738, -0.1402, -0.0957,  0.1669,  0.4431, -0.1405, -0.6153],
+       device='cuda:0'), grad: tensor([ 7.6782e-02,  2.4097e-01, -1.0109e-02,  2.5806e-03, -3.0664e-01,
+        -3.6335e-03,  1.7524e-04], device='cuda:0')
+249
+0.009172866268606516
+changing lr
+epoch 13, time 350.62, cls_loss 0.6228 cls_loss_mapping 1.0631 cls_loss_causal 1.7189 re_mapping 0.2041 re_causal 0.2671 /// teacc 82.46 lr 0.00904508
+Epoch 15, weight, value: tensor([[ 0.0415,  0.0524, -0.0151,  ..., -0.0856, -0.1345, -0.1026],
+        [-0.0382, -0.0479, -0.0106,  ..., -0.0319, -0.0248, -0.0121],
+        [ 0.0226, -0.0257,  0.0433,  ..., -0.1051, -0.1057, -0.0868],
+        ...,
+        [-0.0088, -0.0529,  0.0357,  ..., -0.0457, -0.0336, -0.0496],
+        [-0.0274, -0.0357, -0.0453,  ..., -0.0479, -0.0161, -0.0550],
+        [ 0.0828,  0.2384,  0.0393,  ...,  0.1179,  0.0668,  0.1387]],
+       device='cuda:0'), grad: tensor([[ 1.0033e-03,  3.1304e-04,  4.0283e-03,  ...,  3.7632e-03,
+          6.0463e-03,  3.6373e-03],
+        [ 4.2419e-03,  8.4877e-04,  2.1423e-02,  ...,  8.8348e-03,
+          1.9821e-02,  5.6648e-03],
+        [ 1.6034e-04,  7.2122e-05,  6.4850e-04,  ...,  5.4169e-04,
+          8.7976e-04,  5.1785e-04],
+        ...,
+        [-5.4092e-03, -7.6914e-04, -2.6001e-02,  ..., -1.4404e-02,
+         -2.8580e-02, -1.1177e-02],
+        [-8.4305e-04, -7.4387e-04, -3.4904e-03,  ..., -1.8578e-03,
+         -3.1853e-03, -1.6642e-03],
+        [ 1.1188e-04,  4.2140e-05,  4.5061e-04,  ...,  4.0054e-04,
+          6.4659e-04,  3.8576e-04]], device='cuda:0')
+Epoch 15, bias, value: tensor([ 0.3647, -0.0599, -0.0534,  0.0527,  0.4296, -0.1354, -0.6058],
+       device='cuda:0'), grad: tensor([ 0.0326,  0.1567,  0.0054,  0.0238, -0.1915, -0.0308,  0.0037],
+       device='cuda:0')
+249
+0.00904508497187474
+changing lr
+epoch 14, time 345.66, cls_loss 0.4806 cls_loss_mapping 0.9650 cls_loss_causal 1.6150 re_mapping 0.1894 re_causal 0.2416 /// teacc 77.19 lr 0.00890916
+Epoch 16, weight, value: tensor([[ 0.0310,  0.0436, -0.0326,  ..., -0.0893, -0.1463, -0.1070],
+        [-0.0336, -0.0450, -0.0082,  ..., -0.0312, -0.0237, -0.0113],
+        [ 0.0246, -0.0232,  0.0485,  ..., -0.1049, -0.0998, -0.0867],
+        ...,
+        [-0.0121, -0.0519,  0.0299,  ..., -0.0440, -0.0457, -0.0475],
+        [-0.0270, -0.0393, -0.0407,  ..., -0.0581, -0.0167, -0.0640],
+        [ 0.0877,  0.2420,  0.0476,  ...,  0.1297,  0.0832,  0.1521]],
+       device='cuda:0'), grad: tensor([[-2.5749e-03, -2.3155e-03, -2.6566e-02,  ..., -1.3832e-02,
+         -3.0853e-02, -1.3977e-02],
+        [ 1.1644e-03,  1.1311e-03,  1.2085e-02,  ...,  7.2594e-03,
+          1.5259e-02,  7.4463e-03],
+        [ 1.4566e-05,  1.0222e-05,  8.0287e-05,  ...,  4.5151e-05,
+          8.7559e-05,  4.4107e-05],
+        ...,
+        [ 1.1015e-03,  9.5701e-04,  1.2695e-02,  ...,  5.4970e-03,
+          1.3535e-02,  5.4626e-03],
+        [ 1.5274e-06,  1.0803e-06,  7.8306e-06,  ...,  5.0291e-06,
+          8.9854e-06,  4.9099e-06],
+        [ 1.0610e-04,  7.4029e-05,  5.2881e-04,  ...,  3.1948e-04,
+          5.9080e-04,  3.1304e-04]], device='cuda:0')
+Epoch 16, bias, value: tensor([ 0.3305, -0.0721, -0.0274,  0.0394,  0.4979, -0.1767, -0.5990],
+       device='cuda:0'), grad: tensor([-2.5024e-01,  1.2463e-01,  6.4611e-04,  1.0529e-02,  1.1017e-01,
+         6.5565e-05,  4.2992e-03], device='cuda:0')
+249
+0.008909157412340152
+changing lr
+epoch 15, time 350.72, cls_loss 0.4993 cls_loss_mapping 0.9868 cls_loss_causal 1.6746 re_mapping 0.1866 re_causal 0.2383 /// teacc 80.70 lr 0.00876536
+Epoch 17, weight, value: tensor([[ 0.0314,  0.0435, -0.0261,  ..., -0.0824, -0.1354, -0.1003],
+        [-0.0328, -0.0435, -0.0109,  ..., -0.0273, -0.0238, -0.0068],
+        [ 0.0247, -0.0233,  0.0477,  ..., -0.1042, -0.1016, -0.0861],
+        ...,
+        [-0.0157, -0.0528,  0.0222,  ..., -0.0466, -0.0491, -0.0507],
+        [-0.0192, -0.0351, -0.0167,  ..., -0.0552,  0.0035, -0.0613],
+        [ 0.0835,  0.2381,  0.0352,  ...,  0.1240,  0.0684,  0.1463]],
+       device='cuda:0'), grad: tensor([[-2.4104e-04, -2.0754e-04, -8.3399e-04,  ..., -1.1355e-04,
+         -6.2180e-04, -2.6512e-04],
+        [ 2.5183e-05,  2.0832e-05,  1.2672e-04,  ...,  7.1526e-05,
+          1.3828e-04,  7.4565e-05],
+        [ 5.3018e-05,  3.4392e-05,  4.8375e-04,  ...,  4.2129e-04,
+          6.4516e-04,  3.6454e-04],
+        ...,
+        [ 1.0633e-04,  1.0949e-04, -1.2743e-04,  ..., -6.1083e-04,
+         -5.7030e-04, -3.9434e-04],
+        [ 7.9200e-06,  6.3106e-06,  4.0919e-05,  ...,  2.1562e-05,
+          4.3303e-05,  2.2501e-05],
+        [ 1.1288e-05,  8.6278e-06,  6.8188e-05,  ...,  4.3750e-05,
+          7.8440e-05,  4.2111e-05]], device='cuda:0')
+Epoch 17, bias, value: tensor([ 0.4034, -0.0693, -0.0067, -0.0020,  0.4321, -0.1292, -0.6354],
+       device='cuda:0'), grad: tensor([-0.0068,  0.0015,  0.0075,  0.0033, -0.0069,  0.0005,  0.0009],
+       device='cuda:0')
+249
+0.00876535733001806
+changing lr
+---------------------saving model at epoch 16----------------------------------------------------
+epoch 16, time 349.48, cls_loss 0.4967 cls_loss_mapping 0.9364 cls_loss_causal 1.6148 re_mapping 0.1727 re_causal 0.2309 /// teacc 86.55 lr 0.00861397
+Epoch 18, weight, value: tensor([[ 0.0292,  0.0414, -0.0274,  ..., -0.0836, -0.1345, -0.1007],
+        [-0.0355, -0.0440, -0.0144,  ..., -0.0241, -0.0254, -0.0043],
+        [ 0.0262, -0.0213,  0.0525,  ..., -0.0980, -0.0898, -0.0800],
+        ...,
+        [-0.0131, -0.0515,  0.0331,  ..., -0.0464, -0.0410, -0.0511],
+        [-0.0188, -0.0325, -0.0242,  ..., -0.0596, -0.0079, -0.0654],
+        [ 0.0825,  0.2355,  0.0323,  ...,  0.1215,  0.0647,  0.1435]],
+       device='cuda:0'), grad: tensor([[-1.1539e-04,  5.9366e-04, -4.9591e-03,  ...,  2.3193e-03,
+         -3.9482e-03,  1.3437e-03],
+        [ 1.4591e-04,  1.9825e-04,  1.5459e-03,  ...,  2.2554e-04,
+          1.3132e-03,  2.3484e-04],
+        [ 6.3598e-05,  2.2009e-05,  8.8978e-04,  ...,  1.7858e-04,
+          8.3733e-04,  1.6987e-04],
+        ...,
+        [-5.5456e-04, -8.7023e-04, -4.5128e-03,  ..., -3.4504e-03,
+         -4.6577e-03, -2.6188e-03],
+        [ 2.9516e-04,  2.9728e-05,  4.5509e-03,  ...,  4.1389e-04,
+          4.1580e-03,  5.2357e-04],
+        [ 1.5050e-05,  3.7774e-06,  2.1791e-04,  ...,  3.6508e-05,
+          2.0361e-04,  3.6627e-05]], device='cuda:0')
+Epoch 18, bias, value: tensor([ 0.4269,  0.0323, -0.0444, -0.0081,  0.4233, -0.1873, -0.6500],
+       device='cuda:0'), grad: tensor([-0.0424,  0.0184,  0.0097,  0.0242, -0.0605,  0.0482,  0.0024],
+       device='cuda:0')
+249
+0.008613974319136962
+changing lr
+epoch 17, time 349.89, cls_loss 0.4311 cls_loss_mapping 0.8407 cls_loss_causal 1.5558 re_mapping 0.1541 re_causal 0.2379 /// teacc 77.78 lr 0.00845531
+Epoch 19, weight, value: tensor([[ 0.0282,  0.0388, -0.0318,  ..., -0.0847, -0.1366, -0.1021],
+        [-0.0396, -0.0462, -0.0243,  ..., -0.0225, -0.0308, -0.0026],
+        [ 0.0270, -0.0203,  0.0469,  ..., -0.1002, -0.0983, -0.0844],
+        ...,
+        [-0.0153, -0.0498,  0.0313,  ..., -0.0474, -0.0472, -0.0527],
+        [-0.0148, -0.0298, -0.0123,  ..., -0.0554,  0.0059, -0.0606],
+        [ 0.0825,  0.2338,  0.0333,  ...,  0.1194,  0.0642,  0.1420]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.8238e-06,  ...,  3.3155e-06,
+          5.3868e-06,  3.4422e-06],
+        [ 0.0000e+00,  0.0000e+00, -5.2392e-05,  ..., -6.1572e-05,
+         -1.0008e-04, -6.3956e-05],
+        [-0.0000e+00, -0.0000e+00,  4.7684e-07,  ...,  5.7369e-07,
+          9.2387e-07,  5.9605e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.4107e-05,  ...,  5.1796e-05,
+          8.4221e-05,  5.3823e-05],
+        [ 0.0000e+00,  0.0000e+00,  2.0340e-06,  ...,  2.3842e-06,
+          3.8743e-06,  2.4736e-06],
+        [ 0.0000e+00,  0.0000e+00,  9.5367e-07,  ...,  1.1250e-06,
+          1.8254e-06,  1.1697e-06]], device='cuda:0')
+Epoch 19, bias, value: tensor([ 0.3902, -0.0056, -0.0767, -0.0025,  0.4757, -0.1395, -0.6489],
+       device='cuda:0'), grad: tensor([ 7.1049e-05, -1.3189e-03,  1.2085e-05,  4.8608e-05,  1.1101e-03,
+         5.1111e-05,  2.4080e-05], device='cuda:0')
+249
+0.008455313244934327
+changing lr
+epoch 18, time 349.75, cls_loss 0.2844 cls_loss_mapping 0.8367 cls_loss_causal 1.5332 re_mapping 0.1430 re_causal 0.2201 /// teacc 86.55 lr 0.00828969
+Epoch 20, weight, value: tensor([[ 0.0257,  0.0360, -0.0373,  ..., -0.0822, -0.1377, -0.0995],
+        [-0.0379, -0.0446, -0.0158,  ..., -0.0208, -0.0206, -0.0008],
+        [ 0.0269, -0.0205,  0.0475,  ..., -0.1011, -0.0969, -0.0853],
+        ...,
+        [-0.0122, -0.0477,  0.0364,  ..., -0.0440, -0.0426, -0.0496],
+        [-0.0130, -0.0280, -0.0092,  ..., -0.0557,  0.0070, -0.0598],
+        [ 0.0787,  0.2307,  0.0253,  ...,  0.1169,  0.0551,  0.1387]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  3.0565e-04,  ...,  6.5416e-06,
+          1.8394e-04,  6.3702e-06],
+        [ 7.4506e-09,  7.4506e-09, -9.8419e-04,  ..., -1.6794e-05,
+         -5.8889e-04, -1.6853e-05],
+        [ 7.4506e-09,  7.4506e-09,  2.3067e-05,  ...,  1.3933e-06,
+          1.4633e-05,  1.2591e-06],
+        ...,
+        [ 1.4901e-08,  7.4506e-09,  6.2418e-04,  ...,  1.3180e-05,
+          3.7551e-04,  1.2860e-05],
+        [-2.9802e-08, -2.2352e-08,  1.2152e-05,  ...,  1.8477e-06,
+          8.6427e-06,  1.6168e-06],
+        [ 0.0000e+00,  0.0000e+00,  5.0813e-06,  ...,  1.1027e-06,
+          3.8818e-06,  9.6112e-07]], device='cuda:0')
+Epoch 20, bias, value: tensor([ 0.4344,  0.0165, -0.0767, -0.0469,  0.4770, -0.1534, -0.6582],
+       device='cuda:0'), grad: tensor([ 0.0161, -0.0517,  0.0012,  0.0008,  0.0328,  0.0006,  0.0003],
+       device='cuda:0')
+249
+0.008289693629698565
+changing lr
+epoch 19, time 345.25, cls_loss 0.4219 cls_loss_mapping 0.7627 cls_loss_causal 1.4024 re_mapping 0.1221 re_causal 0.1921 /// teacc 85.38 lr 0.00811745
+Epoch 21, weight, value: tensor([[ 0.0246,  0.0335, -0.0398,  ..., -0.0794, -0.1339, -0.0970],
+        [-0.0375, -0.0443, -0.0158,  ..., -0.0173, -0.0177,  0.0023],
+        [ 0.0239, -0.0216,  0.0428,  ..., -0.1032, -0.1000, -0.0871],
+        ...,
+        [-0.0065, -0.0431,  0.0462,  ..., -0.0464, -0.0408, -0.0515],
+        [-0.0135, -0.0270, -0.0098,  ..., -0.0579,  0.0038, -0.0615],
+        [ 0.0774,  0.2280,  0.0237,  ...,  0.1151,  0.0532,  0.1367]],
+       device='cuda:0'), grad: tensor([[ 3.1769e-05, -1.3721e-04, -6.9380e-05,  ...,  1.2875e-04,
+         -1.4472e-04,  1.0723e-04],
+        [-6.3133e-04, -3.1090e-04, -3.1681e-03,  ..., -6.6280e-04,
+         -3.2272e-03, -6.7329e-04],
+        [ 1.6415e-04,  7.4446e-05,  1.1692e-03,  ...,  2.9182e-04,
+          1.1387e-03,  2.0289e-04],
+        ...,
+        [ 2.4462e-04,  2.8396e-04,  3.3855e-04,  ..., -3.3498e-04,
+          5.1117e-04, -5.7593e-06],
+        [ 1.1869e-05,  5.7518e-06,  7.9215e-05,  ...,  1.9401e-05,
+          7.8201e-05,  1.4484e-05],
+        [ 2.7493e-06,  1.6987e-06,  2.1398e-05,  ...,  7.3612e-06,
+          2.2352e-05,  5.3942e-06]], device='cuda:0')
+Epoch 21, bias, value: tensor([ 0.3833,  0.0472, -0.0680, -0.0074,  0.4733, -0.1728, -0.6628],
+       device='cuda:0'), grad: tensor([-0.0019, -0.0153,  0.0072,  0.0116, -0.0022,  0.0005,  0.0001],
+       device='cuda:0')
+249
+0.00811744900929367
+changing lr
+epoch 20, time 346.79, cls_loss 0.2886 cls_loss_mapping 0.6949 cls_loss_causal 1.3418 re_mapping 0.1059 re_causal 0.1685 /// teacc 84.80 lr 0.00793893
+Epoch 22, weight, value: tensor([[ 0.0233,  0.0313, -0.0416,  ..., -0.0790, -0.1330, -0.0969],
+        [-0.0378, -0.0435, -0.0128,  ..., -0.0185, -0.0118,  0.0010],
+        [ 0.0220, -0.0224,  0.0384,  ..., -0.1022, -0.1030, -0.0863],
+        ...,
+        [-0.0045, -0.0410,  0.0448,  ..., -0.0452, -0.0463, -0.0504],
+        [-0.0108, -0.0260, -0.0016,  ..., -0.0557,  0.0125, -0.0590],
+        [ 0.0770,  0.2260,  0.0238,  ...,  0.1138,  0.0528,  0.1352]],
+       device='cuda:0'), grad: tensor([[-1.5383e-03, -1.8444e-03, -2.1469e-02,  ..., -1.0399e-02,
+         -2.5879e-02, -9.4986e-03],
+        [ 2.7609e-04,  3.4833e-04,  4.5853e-03,  ...,  2.2602e-03,
+          5.6686e-03,  2.0962e-03],
+        [ 7.6443e-06,  6.0983e-06,  1.0163e-04,  ...,  5.5999e-05,
+          1.0902e-04,  4.1693e-05],
+        ...,
+        [ 1.1730e-03,  1.4095e-03,  1.6357e-02,  ...,  7.8964e-03,
+          1.9699e-02,  7.2136e-03],
+        [ 3.9965e-05,  3.9756e-05,  2.0468e-04,  ...,  8.4817e-05,
+          1.8144e-04,  6.2823e-05],
+        [ 1.2055e-05,  1.1958e-05,  6.2764e-05,  ...,  2.6688e-05,
+          5.6267e-05,  1.9848e-05]], device='cuda:0')
+Epoch 22, bias, value: tensor([ 0.3787,  0.0097, -0.0376,  0.0187,  0.4699, -0.1906, -0.6559],
+       device='cuda:0'), grad: tensor([-0.2013,  0.0428,  0.0012,  0.0016,  0.1532,  0.0020,  0.0006],
+       device='cuda:0')
+249
+0.007938926261462368
+changing lr
+epoch 21, time 346.47, cls_loss 0.2398 cls_loss_mapping 0.5935 cls_loss_causal 1.1991 re_mapping 0.0881 re_causal 0.1494 /// teacc 82.46 lr 0.00775448
+Epoch 23, weight, value: tensor([[ 0.0253,  0.0321, -0.0354,  ..., -0.0819, -0.1262, -0.0989],
+        [-0.0420, -0.0463, -0.0222,  ..., -0.0196, -0.0175, -0.0004],
+        [ 0.0206, -0.0235,  0.0366,  ..., -0.1000, -0.1013, -0.0838],
+        ...,
+        [-0.0007, -0.0374,  0.0553,  ..., -0.0389, -0.0385, -0.0454],
+        [-0.0104, -0.0250, -0.0011,  ..., -0.0555,  0.0127, -0.0587],
+        [ 0.0764,  0.2240,  0.0234,  ...,  0.1123,  0.0518,  0.1337]],
+       device='cuda:0'), grad: tensor([[-5.4389e-05, -7.5281e-05,  5.6076e-04,  ...,  1.3840e-04,
+          6.6090e-04,  8.7142e-05],
+        [ 2.1443e-05,  2.7061e-05,  3.8767e-04,  ...,  8.2433e-05,
+          3.6097e-04,  7.1824e-05],
+        [ 5.1558e-06,  3.9563e-06,  4.6968e-05,  ...,  9.5740e-06,
+          4.2051e-05,  7.6294e-06],
+        ...,
+        [ 2.5108e-05,  4.2379e-05, -1.0281e-03,  ..., -2.3723e-04,
+         -1.0948e-03, -1.7190e-04],
+        [ 7.1526e-07,  4.7684e-07,  8.8960e-06,  ...,  1.8738e-06,
+          8.3223e-06,  1.4454e-06],
+        [ 5.3644e-07,  4.7684e-07,  3.5278e-06,  ...,  6.8918e-07,
+          2.9393e-06,  5.9232e-07]], device='cuda:0')
+Epoch 23, bias, value: tensor([ 0.3388, -0.0143, -0.0064,  0.0110,  0.5262, -0.2086, -0.6536],
+       device='cuda:0'), grad: tensor([ 4.0855e-03,  3.0880e-03,  3.2306e-04,  1.3936e-04, -7.7248e-03,
+         6.1810e-05,  2.4408e-05], device='cuda:0')
+249
+0.007754484907260515
+changing lr
+epoch 22, time 343.89, cls_loss 0.2083 cls_loss_mapping 0.5953 cls_loss_causal 1.3084 re_mapping 0.0874 re_causal 0.1513 /// teacc 80.12 lr 0.00756450
+Epoch 24, weight, value: tensor([[ 0.0259,  0.0315, -0.0369,  ..., -0.0825, -0.1337, -0.1016],
+        [-0.0418, -0.0450, -0.0224,  ..., -0.0180, -0.0164,  0.0007],
+        [ 0.0223, -0.0211,  0.0504,  ..., -0.0949, -0.0819, -0.0779],
+        ...,
+        [-0.0006, -0.0368,  0.0494,  ..., -0.0380, -0.0434, -0.0445],
+        [-0.0110, -0.0256, -0.0048,  ..., -0.0579,  0.0065, -0.0612],
+        [ 0.0736,  0.2195,  0.0208,  ...,  0.1090,  0.0525,  0.1319]],
+       device='cuda:0'), grad: tensor([[-9.3132e-08, -1.9372e-07, -6.5938e-07,  ..., -2.3469e-07,
+         -7.3388e-07, -2.3097e-07],
+        [ 7.4506e-09,  1.4901e-08,  4.8429e-08,  ...,  1.8626e-08,
+          5.5879e-08,  1.8626e-08],
+        [ 1.1176e-08,  7.4506e-09,  5.2154e-08,  ...,  2.2352e-08,
+          7.0781e-08,  2.6077e-08],
+        ...,
+        [ 8.5682e-08,  1.7509e-07,  6.0350e-07,  ...,  2.1607e-07,
+          6.7055e-07,  2.1234e-07],
+        [-1.1176e-08, -7.4506e-09, -5.2154e-08,  ..., -1.8626e-08,
+         -6.7055e-08, -2.6077e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 24, bias, value: tensor([ 0.3312, -0.0065,  0.0246,  0.0131,  0.5065, -0.2245, -0.6513],
+       device='cuda:0'), grad: tensor([-2.1271e-06,  1.5646e-07,  1.3411e-07,  0.0000e+00,  1.9483e-06,
+        -1.1921e-07,  0.0000e+00], device='cuda:0')
+249
+0.007564496387029534
+changing lr
+---------------------saving model at epoch 23----------------------------------------------------
+epoch 23, time 350.19, cls_loss 0.2486 cls_loss_mapping 0.5770 cls_loss_causal 1.2395 re_mapping 0.0702 re_causal 0.1356 /// teacc 87.72 lr 0.00736934
+Epoch 25, weight, value: tensor([[ 0.0267,  0.0314, -0.0344,  ..., -0.0778, -0.1292, -0.0977],
+        [-0.0408, -0.0440, -0.0236,  ..., -0.0215, -0.0203, -0.0027],
+        [ 0.0218, -0.0228,  0.0440,  ..., -0.0951, -0.0880, -0.0785],
+        ...,
+        [-0.0041, -0.0360,  0.0495,  ..., -0.0334, -0.0376, -0.0394],
+        [-0.0122, -0.0253, -0.0072,  ..., -0.0591,  0.0014, -0.0627],
+        [ 0.0729,  0.2174,  0.0201,  ...,  0.1076,  0.0512,  0.1303]],
+       device='cuda:0'), grad: tensor([[ 2.5064e-05,  6.3181e-06,  5.1546e-04,  ...,  1.9991e-04,
+          5.3024e-04,  2.0480e-04],
+        [ 5.9462e-04,  3.4310e-06,  1.1429e-02,  ...,  1.4524e-03,
+          8.9111e-03,  1.6298e-03],
+        [ 1.6734e-05,  6.5640e-06,  2.9111e-04,  ...,  1.4937e-04,
+          3.1781e-04,  1.5056e-04],
+        ...,
+        [-6.4468e-04, -1.8567e-05, -1.2383e-02,  ..., -1.8587e-03,
+         -9.9106e-03, -2.0428e-03],
+        [ 3.2559e-06,  7.9721e-07,  5.6028e-05,  ...,  2.0042e-05,
+          5.3853e-05,  2.0519e-05],
+        [ 1.3672e-06,  3.1665e-07,  2.4319e-05,  ...,  8.2403e-06,
+          2.2992e-05,  8.4564e-06]], device='cuda:0')
+Epoch 25, bias, value: tensor([ 0.3551, -0.0608,  0.0083, -0.0027,  0.5596, -0.2145, -0.6520],
+       device='cuda:0'), grad: tensor([ 0.0057,  0.1221,  0.0036,  0.0008, -0.1331,  0.0007,  0.0003],
+       device='cuda:0')
+249
+0.007369343312364995
+changing lr
+---------------------saving model at epoch 24----------------------------------------------------
+epoch 24, time 349.95, cls_loss 0.1266 cls_loss_mapping 0.4742 cls_loss_causal 1.1183 re_mapping 0.0595 re_causal 0.1259 /// teacc 88.30 lr 0.00716942
+Epoch 26, weight, value: tensor([[ 2.6065e-02,  3.1333e-02, -3.2591e-02,  ..., -7.8665e-02,
+         -1.2607e-01, -9.7870e-02],
+        [-4.1028e-02, -4.3888e-02, -2.8106e-02,  ..., -2.2541e-02,
+         -2.3828e-02, -3.8757e-03],
+        [ 2.0624e-02, -2.3310e-02,  3.7576e-02,  ..., -9.6356e-02,
+         -9.4617e-02, -8.0039e-02],
+        ...,
+        [-3.9162e-03, -3.5971e-02,  4.8947e-02,  ..., -3.0996e-02,
+         -3.8739e-02, -3.7762e-02],
+        [-1.0823e-02, -2.4368e-02, -2.1525e-04,  ..., -5.7820e-02,
+          8.0542e-03, -6.0702e-02],
+        [ 7.2154e-02,  2.1539e-01,  1.9567e-02,  ...,  1.0641e-01,
+          5.0375e-02,  1.2895e-01]], device='cuda:0'), grad: tensor([[ 8.8072e-04,  5.1594e-04,  4.9973e-03,  ...,  1.3981e-03,
+          6.2180e-03,  2.2316e-03],
+        [-1.3784e-07, -5.2899e-07, -1.6801e-06,  ...,  4.0233e-07,
+         -1.3262e-06,  4.5076e-07],
+        [ 1.2982e-04,  7.1049e-05,  7.2861e-04,  ...,  1.9443e-04,
+          9.0170e-04,  3.2187e-04],
+        ...,
+        [-1.8549e-03, -1.0757e-03, -1.0483e-02,  ..., -2.9087e-03,
+         -1.3023e-02, -4.6730e-03],
+        [ 6.5744e-05,  3.9637e-05,  3.7694e-04,  ...,  1.0800e-04,
+          4.7064e-04,  1.6940e-04],
+        [ 1.5274e-07,  1.1176e-07,  1.0990e-06,  ...,  3.8370e-07,
+          1.4305e-06,  5.2527e-07]], device='cuda:0')
+Epoch 26, bias, value: tensor([ 0.3469, -0.1051, -0.0202,  0.0171,  0.5930, -0.1889, -0.6496],
+       device='cuda:0'), grad: tensor([ 9.0256e-03, -6.0312e-06,  1.2798e-03,  7.8125e-03, -1.8814e-02,
+         6.9237e-04,  2.4401e-06], device='cuda:0')
+249
+0.0071694186955877925
+changing lr
+epoch 25, time 346.90, cls_loss 0.1057 cls_loss_mapping 0.4313 cls_loss_causal 1.1527 re_mapping 0.0601 re_causal 0.1291 /// teacc 87.72 lr 0.00696513
+Epoch 27, weight, value: tensor([[ 0.0240,  0.0297, -0.0393,  ..., -0.0773, -0.1310, -0.0966],
+        [-0.0409, -0.0436, -0.0290,  ..., -0.0234, -0.0260, -0.0050],
+        [ 0.0212, -0.0224,  0.0399,  ..., -0.0959, -0.0926, -0.0799],
+        ...,
+        [-0.0022, -0.0348,  0.0558,  ..., -0.0309, -0.0303, -0.0371],
+        [-0.0113, -0.0246, -0.0006,  ..., -0.0579,  0.0076, -0.0603],
+        [ 0.0715,  0.2134,  0.0192,  ...,  0.1053,  0.0496,  0.1276]],
+       device='cuda:0'), grad: tensor([[ 4.4703e-08,  6.7055e-08,  8.5682e-07,  ...,  2.0489e-07,
+          6.3702e-07,  2.1979e-07],
+        [-2.1234e-07, -9.6112e-07, -1.2949e-05,  ..., -8.9407e-08,
+         -6.5267e-06, -3.5390e-07],
+        [ 9.3132e-08,  9.6858e-08,  9.4250e-07,  ...,  6.2585e-07,
+          1.1213e-06,  6.5938e-07],
+        ...,
+        [ 2.7940e-07,  9.5367e-07,  1.2428e-05,  ...,  7.0408e-07,
+          6.9104e-06,  9.6858e-07],
+        [ 1.2256e-06,  1.0133e-06,  8.2999e-06,  ...,  8.7470e-06,
+          1.3277e-05,  9.1121e-06],
+        [ 1.0058e-07,  8.1956e-08,  6.8918e-07,  ...,  7.0781e-07,
+          1.0803e-06,  7.3761e-07]], device='cuda:0')
+Epoch 27, bias, value: tensor([ 0.3509, -0.1067, -0.0124,  0.0109,  0.5675, -0.1701, -0.6468],
+       device='cuda:0'), grad: tensor([ 1.0535e-05, -1.7989e-04,  9.7156e-06, -8.5473e-05,  1.6975e-04,
+         6.9559e-05,  5.8375e-06], device='cuda:0')
+249
+0.0069651251582696205
+changing lr
+---------------------saving model at epoch 26----------------------------------------------------
+epoch 26, time 350.28, cls_loss 0.1538 cls_loss_mapping 0.4250 cls_loss_causal 1.0776 re_mapping 0.0632 re_causal 0.1255 /// teacc 90.64 lr 0.00675687
+Epoch 28, weight, value: tensor([[ 0.0238,  0.0302, -0.0388,  ..., -0.0751, -0.1280, -0.0947],
+        [-0.0399, -0.0428, -0.0256,  ..., -0.0245, -0.0237, -0.0060],
+        [ 0.0207, -0.0227,  0.0378,  ..., -0.0960, -0.0952, -0.0803],
+        ...,
+        [-0.0025, -0.0350,  0.0536,  ..., -0.0307, -0.0333, -0.0368],
+        [-0.0113, -0.0245, -0.0016,  ..., -0.0580,  0.0047, -0.0603],
+        [ 0.0711,  0.2119,  0.0192,  ...,  0.1043,  0.0492,  0.1265]],
+       device='cuda:0'), grad: tensor([[ 4.2057e-04,  4.4632e-04,  1.9722e-03,  ...,  1.6460e-03,
+          2.2316e-03,  1.5688e-03],
+        [-2.1400e-03, -2.7809e-03, -1.2062e-02,  ..., -2.9259e-03,
+         -8.4991e-03, -3.2768e-03],
+        [ 1.3411e-04,  1.1194e-04,  5.8365e-04,  ...,  5.7316e-04,
+          7.2050e-04,  5.3406e-04],
+        ...,
+        [ 1.4725e-03,  2.1286e-03,  9.0027e-03,  ...,  2.7800e-04,
+          4.9706e-03,  7.7105e-04],
+        [ 3.4392e-05,  3.2216e-05,  1.6570e-04,  ...,  1.0234e-04,
+          1.6093e-04,  9.8109e-05],
+        [ 1.6198e-05,  1.4491e-05,  7.2718e-05,  ...,  6.4850e-05,
+          8.5056e-05,  6.0856e-05]], device='cuda:0')
+Epoch 28, bias, value: tensor([ 0.3468, -0.1148, -0.0048,  0.0030,  0.5668, -0.1701, -0.6335],
+       device='cuda:0'), grad: tensor([ 0.0176, -0.1155,  0.0043,  0.0018,  0.0899,  0.0013,  0.0006],
+       device='cuda:0')
+249
+0.006756874120406716
+changing lr
+epoch 27, time 347.40, cls_loss 0.1100 cls_loss_mapping 0.3891 cls_loss_causal 1.0223 re_mapping 0.0498 re_causal 0.1108 /// teacc 86.55 lr 0.00654508
+Epoch 29, weight, value: tensor([[ 0.0251,  0.0313, -0.0354,  ..., -0.0745, -0.1234, -0.0937],
+        [-0.0389, -0.0416, -0.0225,  ..., -0.0243, -0.0201, -0.0057],
+        [ 0.0203, -0.0227,  0.0378,  ..., -0.0959, -0.0940, -0.0799],
+        ...,
+        [-0.0031, -0.0347,  0.0522,  ..., -0.0271, -0.0322, -0.0340],
+        [-0.0118, -0.0255, -0.0050,  ..., -0.0594, -0.0014, -0.0617],
+        [ 0.0705,  0.2101,  0.0188,  ...,  0.1032,  0.0484,  0.1253]],
+       device='cuda:0'), grad: tensor([[ 9.3341e-05,  2.8419e-04, -1.9245e-03,  ..., -8.4925e-04,
+         -1.9855e-03, -7.6866e-04],
+        [ 8.4639e-06,  6.5193e-07,  1.0949e-04,  ...,  4.6611e-05,
+          1.0580e-04,  4.3750e-05],
+        [-4.2582e-04, -4.3154e-04, -9.9754e-04,  ..., -3.8195e-04,
+         -7.8344e-04, -4.0030e-04],
+        ...,
+        [ 3.0875e-04,  1.4150e-04,  2.6627e-03,  ...,  1.1206e-03,
+          2.5196e-03,  1.0653e-03],
+        [ 7.2010e-06,  3.9637e-06,  5.4628e-05,  ...,  2.2888e-05,
+          5.1260e-05,  2.1860e-05],
+        [ 2.4959e-06,  8.6799e-07,  2.4691e-05,  ...,  1.0438e-05,
+          2.3559e-05,  9.8720e-06]], device='cuda:0')
+Epoch 29, bias, value: tensor([ 0.3258, -0.1182, -0.0050, -0.0046,  0.5885, -0.1621, -0.6312],
+       device='cuda:0'), grad: tensor([-0.0291,  0.0014, -0.0080,  0.0009,  0.0337,  0.0007,  0.0003],
+       device='cuda:0')
+249
+0.00654508497187474
+changing lr
+---------------------saving model at epoch 28----------------------------------------------------
+epoch 28, time 350.09, cls_loss 0.0846 cls_loss_mapping 0.3395 cls_loss_causal 1.0291 re_mapping 0.0492 re_causal 0.0999 /// teacc 91.23 lr 0.00633018
+Epoch 30, weight, value: tensor([[ 0.0245,  0.0303, -0.0354,  ..., -0.0729, -0.1203, -0.0921],
+        [-0.0388, -0.0409, -0.0223,  ..., -0.0253, -0.0204, -0.0068],
+        [ 0.0205, -0.0223,  0.0394,  ..., -0.0949, -0.0916, -0.0788],
+        ...,
+        [-0.0039, -0.0353,  0.0485,  ..., -0.0274, -0.0367, -0.0344],
+        [-0.0116, -0.0252, -0.0048,  ..., -0.0589, -0.0014, -0.0611],
+        [ 0.0707,  0.2090,  0.0198,  ...,  0.1023,  0.0487,  0.1243]],
+       device='cuda:0'), grad: tensor([[ 1.7681e-03,  4.8485e-03,  2.3468e-02,  ...,  1.2390e-02,
+          3.2959e-02,  1.2566e-02],
+        [ 7.0073e-06,  1.9208e-05,  9.2983e-05,  ...,  4.9084e-05,
+          1.3053e-04,  4.9770e-05],
+        [ 2.7776e-05,  7.6175e-05,  3.6860e-04,  ...,  1.9467e-04,
+          5.1785e-04,  1.9753e-04],
+        ...,
+        [-1.8711e-03, -5.1308e-03, -2.4826e-02,  ..., -1.3115e-02,
+         -3.4882e-02, -1.3306e-02],
+        [ 6.5006e-07,  1.8254e-06,  8.8066e-06,  ...,  4.6603e-06,
+          1.2383e-05,  4.7237e-06],
+        [ 8.1956e-08,  2.2165e-07,  1.0766e-06,  ...,  5.6811e-07,
+          1.5125e-06,  5.7742e-07]], device='cuda:0')
+Epoch 30, bias, value: tensor([ 0.3038, -0.1232,  0.0082, -0.0091,  0.5983, -0.1606, -0.6240],
+       device='cuda:0'), grad: tensor([ 7.3120e-02,  2.8968e-04,  1.1492e-03,  2.8114e-03, -7.7393e-02,
+         2.7552e-05,  3.3565e-06], device='cuda:0')
+249
+0.006330184227833378
+changing lr
+epoch 29, time 347.50, cls_loss 0.0666 cls_loss_mapping 0.3109 cls_loss_causal 1.0087 re_mapping 0.0451 re_causal 0.1122 /// teacc 88.89 lr 0.00611260
+Epoch 31, weight, value: tensor([[ 0.0241,  0.0298, -0.0359,  ..., -0.0724, -0.1209, -0.0915],
+        [-0.0386, -0.0409, -0.0225,  ..., -0.0254, -0.0200, -0.0071],
+        [ 0.0206, -0.0218,  0.0393,  ..., -0.0944, -0.0911, -0.0786],
+        ...,
+        [-0.0044, -0.0350,  0.0488,  ..., -0.0263, -0.0352, -0.0333],
+        [-0.0110, -0.0247, -0.0016,  ..., -0.0572,  0.0027, -0.0592],
+        [ 0.0708,  0.2078,  0.0205,  ...,  0.1016,  0.0490,  0.1235]],
+       device='cuda:0'), grad: tensor([[ 2.9802e-08,  3.3528e-07,  2.7847e-06,  ...,  2.5500e-06,
+          4.0308e-06,  2.2575e-06],
+        [ 8.9407e-08,  4.4703e-08,  4.9360e-07,  ...,  1.6578e-07,
+          4.1164e-07,  1.8440e-07],
+        [ 6.7055e-08,  6.3330e-08,  6.0722e-07,  ...,  3.5018e-07,
+          6.5938e-07,  3.3528e-07],
+        ...,
+        [ 1.2107e-07, -2.7753e-07, -2.0042e-06,  ..., -2.3581e-06,
+         -3.4366e-06, -1.9912e-06],
+        [-3.6135e-07, -2.0303e-07, -2.2780e-06,  ..., -8.9034e-07,
+         -2.0526e-06, -9.7975e-07],
+        [ 4.6566e-08,  2.7940e-08,  2.9802e-07,  ...,  1.2666e-07,
+          2.7753e-07,  1.3597e-07]], device='cuda:0')
+Epoch 31, bias, value: tensor([ 0.3060, -0.1185,  0.0095, -0.0269,  0.5951, -0.1523, -0.6192],
+       device='cuda:0'), grad: tensor([ 5.0515e-05,  3.3751e-06,  6.9812e-06,  1.1921e-06, -4.6074e-05,
+        -1.8597e-05,  2.5593e-06], device='cuda:0')
+249
+0.006112604669781575
+changing lr
+epoch 30, time 348.46, cls_loss 0.0678 cls_loss_mapping 0.3041 cls_loss_causal 1.0036 re_mapping 0.0422 re_causal 0.0991 /// teacc 87.72 lr 0.00589278
+Epoch 32, weight, value: tensor([[ 0.0240,  0.0295, -0.0348,  ..., -0.0705, -0.1179, -0.0899],
+        [-0.0389, -0.0411, -0.0259,  ..., -0.0262, -0.0234, -0.0080],
+        [ 0.0193, -0.0227,  0.0352,  ..., -0.0947, -0.0946, -0.0793],
+        ...,
+        [-0.0031, -0.0331,  0.0529,  ..., -0.0269, -0.0323, -0.0332],
+        [-0.0111, -0.0248, -0.0027,  ..., -0.0571,  0.0015, -0.0591],
+        [ 0.0704,  0.2064,  0.0204,  ...,  0.1008,  0.0485,  0.1226]],
+       device='cuda:0'), grad: tensor([[ 5.2303e-06,  1.8626e-09,  7.0512e-05,  ...,  1.5959e-05,
+          4.7475e-05,  1.5870e-05],
+        [ 1.6205e-07,  3.7253e-09,  2.1849e-06,  ...,  4.0792e-07,
+          1.4659e-06,  4.2841e-07],
+        [ 3.4273e-07,  0.0000e+00,  4.6194e-06,  ...,  1.0468e-06,
+          3.1106e-06,  1.0412e-06],
+        ...,
+        [-6.1430e-06, -5.5879e-09, -8.2850e-05,  ..., -1.8671e-05,
+         -5.5790e-05, -1.8582e-05],
+        [ 6.1467e-08,  0.0000e+00,  8.2888e-07,  ...,  1.8813e-07,
+          5.5879e-07,  1.8626e-07],
+        [ 1.0431e-07,  0.0000e+00,  1.4119e-06,  ...,  3.2037e-07,
+          9.5181e-07,  3.1851e-07]], device='cuda:0')
+Epoch 32, bias, value: tensor([ 0.2986, -0.1310,  0.0074, -0.0110,  0.5969, -0.1544, -0.6129],
+       device='cuda:0'), grad: tensor([ 8.8167e-04,  2.6435e-05,  5.7757e-05,  4.0114e-05, -1.0347e-03,
+         1.0364e-05,  1.7658e-05], device='cuda:0')
+249
+0.005892784473993186
+changing lr
+epoch 31, time 347.30, cls_loss 0.0762 cls_loss_mapping 0.2870 cls_loss_causal 0.9118 re_mapping 0.0449 re_causal 0.0952 /// teacc 86.55 lr 0.00567117
+Epoch 33, weight, value: tensor([[ 0.0234,  0.0290, -0.0348,  ..., -0.0716, -0.1188, -0.0907],
+        [-0.0386, -0.0408, -0.0268,  ..., -0.0260, -0.0243, -0.0082],
+        [ 0.0210, -0.0213,  0.0404,  ..., -0.0924, -0.0888, -0.0774],
+        ...,
+        [-0.0047, -0.0339,  0.0466,  ..., -0.0284, -0.0371, -0.0344],
+        [-0.0111, -0.0246, -0.0016,  ..., -0.0565,  0.0029, -0.0583],
+        [ 0.0698,  0.2048,  0.0199,  ...,  0.0998,  0.0478,  0.1215]],
+       device='cuda:0'), grad: tensor([[ 1.2469e-04,  3.1799e-05,  1.4935e-03,  ...,  7.4530e-04,
+          1.5926e-03,  7.6580e-04],
+        [ 1.1921e-04,  3.4094e-05,  1.4572e-03,  ...,  7.0524e-04,
+          1.5268e-03,  7.2336e-04],
+        [ 1.2279e-04,  3.2246e-05,  1.4772e-03,  ...,  7.3195e-04,
+          1.5697e-03,  7.5197e-04],
+        ...,
+        [-4.2677e-04, -1.1748e-04, -5.1804e-03,  ..., -2.5349e-03,
+         -5.4626e-03, -2.6016e-03],
+        [ 2.8372e-05,  9.4175e-06,  3.5691e-04,  ...,  1.6570e-04,
+          3.6502e-04,  1.6952e-04],
+        [ 9.0078e-06,  2.6394e-06,  1.1051e-04,  ...,  5.3346e-05,
+          1.1563e-04,  5.4717e-05]], device='cuda:0')
+Epoch 33, bias, value: tensor([ 0.3002, -0.1302,  0.0179,  0.0061,  0.5638, -0.1528, -0.6115],
+       device='cuda:0'), grad: tensor([ 0.0169,  0.0172,  0.0169,  0.0035, -0.0601,  0.0044,  0.0013],
+       device='cuda:0')
+249
+0.00567116632908828
+changing lr
+epoch 32, time 344.88, cls_loss 0.0540 cls_loss_mapping 0.2908 cls_loss_causal 0.9360 re_mapping 0.0471 re_causal 0.0968 /// teacc 91.23 lr 0.00544820
+Epoch 34, weight, value: tensor([[ 0.0228,  0.0284, -0.0369,  ..., -0.0712, -0.1194, -0.0903],
+        [-0.0384, -0.0407, -0.0253,  ..., -0.0263, -0.0227, -0.0082],
+        [ 0.0209, -0.0210,  0.0396,  ..., -0.0922, -0.0895, -0.0773],
+        ...,
+        [-0.0041, -0.0327,  0.0500,  ..., -0.0258, -0.0327, -0.0321],
+        [-0.0109, -0.0245, -0.0009,  ..., -0.0557,  0.0040, -0.0574],
+        [ 0.0694,  0.2034,  0.0198,  ...,  0.0990,  0.0474,  0.1206]],
+       device='cuda:0'), grad: tensor([[-2.0489e-07, -1.2107e-07, -1.1250e-06,  ..., -2.6077e-07,
+         -7.8417e-07, -2.5891e-07],
+        [ 2.7940e-08,  2.0489e-08,  1.2480e-07,  ...,  3.3528e-08,
+          8.9407e-08,  3.3528e-08],
+        [-1.8999e-07, -1.6950e-07, -4.6194e-07,  ..., -1.8440e-07,
+         -3.6508e-07, -1.8626e-07],
+        ...,
+        [ 3.1851e-07,  2.3097e-07,  1.3150e-06,  ...,  3.6135e-07,
+          9.4995e-07,  3.6322e-07],
+        [ 2.4214e-08,  2.0489e-08,  7.0781e-08,  ...,  2.4214e-08,
+          5.4017e-08,  2.4214e-08],
+        [ 1.6764e-08,  1.4901e-08,  5.5879e-08,  ...,  1.8626e-08,
+          4.2841e-08,  1.8626e-08]], device='cuda:0')
+Epoch 34, bias, value: tensor([ 0.2845, -0.1277,  0.0171, -0.0108,  0.5882, -0.1503, -0.6074],
+       device='cuda:0'), grad: tensor([-8.8513e-06,  9.9279e-07, -3.8035e-06,  1.6205e-07,  1.0483e-05,
+         5.7369e-07,  4.5635e-07], device='cuda:0')
+249
+0.00544819654451717
+changing lr
+epoch 33, time 347.79, cls_loss 0.0434 cls_loss_mapping 0.2676 cls_loss_causal 0.8887 re_mapping 0.0472 re_causal 0.0963 /// teacc 90.06 lr 0.00522432
+Epoch 35, weight, value: tensor([[ 0.0221,  0.0274, -0.0383,  ..., -0.0715, -0.1193, -0.0896],
+        [-0.0379, -0.0402, -0.0244,  ..., -0.0261, -0.0218, -0.0081],
+        [ 0.0206, -0.0210,  0.0386,  ..., -0.0917, -0.0898, -0.0771],
+        ...,
+        [-0.0036, -0.0317,  0.0507,  ..., -0.0256, -0.0323, -0.0328],
+        [-0.0106, -0.0242,  0.0007,  ..., -0.0543,  0.0056, -0.0559],
+        [ 0.0689,  0.2020,  0.0196,  ...,  0.0982,  0.0469,  0.1197]],
+       device='cuda:0'), grad: tensor([[ 3.2410e-07,  2.4214e-07,  5.4874e-06,  ...,  4.0196e-06,
+          6.5789e-06,  2.8349e-06],
+        [ 1.8626e-09,  1.8626e-09,  2.6077e-08,  ...,  1.6764e-08,
+          2.7940e-08,  1.1176e-08],
+        [ 3.3528e-08,  2.4214e-08,  5.6624e-07,  ...,  4.1351e-07,
+          6.7614e-07,  2.9057e-07],
+        ...,
+        [-3.6322e-07, -2.7195e-07, -6.1877e-06,  ..., -4.5486e-06,
+         -7.4320e-06, -3.2056e-06],
+        [-3.7253e-09, -0.0000e+00, -1.8626e-09,  ...,  1.6764e-08,
+          1.4901e-08,  1.1176e-08],
+        [ 3.7253e-09,  1.8626e-09,  4.4703e-08,  ...,  3.1665e-08,
+          5.2154e-08,  2.2352e-08]], device='cuda:0')
+Epoch 35, bias, value: tensor([ 0.2687, -0.1285,  0.0204, -0.0102,  0.5901, -0.1419, -0.6049],
+       device='cuda:0'), grad: tensor([ 5.6118e-05,  2.5332e-07,  5.7742e-06,  5.8673e-07, -6.3360e-05,
+         7.8231e-08,  4.5076e-07], device='cuda:0')
+249
+0.005224324151752577
+changing lr
+---------------------saving model at epoch 34----------------------------------------------------
+epoch 34, time 349.39, cls_loss 0.0430 cls_loss_mapping 0.2367 cls_loss_causal 0.8582 re_mapping 0.0450 re_causal 0.0985 /// teacc 92.40 lr 0.00500000
+Epoch 36, weight, value: tensor([[ 0.0217,  0.0271, -0.0392,  ..., -0.0714, -0.1198, -0.0895],
+        [-0.0401, -0.0425, -0.0308,  ..., -0.0291, -0.0304, -0.0152],
+        [ 0.0203, -0.0210,  0.0371,  ..., -0.0920, -0.0909, -0.0774],
+        ...,
+        [-0.0033, -0.0313,  0.0507,  ..., -0.0255, -0.0322, -0.0326],
+        [-0.0104, -0.0240,  0.0017,  ..., -0.0535,  0.0067, -0.0551],
+        [ 0.0708,  0.2032,  0.0263,  ...,  0.1006,  0.0557,  0.1260]],
+       device='cuda:0'), grad: tensor([[ 2.0303e-07,  3.7253e-09,  3.2932e-06,  ...,  1.4752e-06,
+          3.1497e-06,  9.6299e-07],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ...,  3.7253e-09,
+          7.4506e-09,  1.8626e-09],
+        [ 5.5879e-09, -1.6764e-08,  3.4459e-07,  ...,  1.5274e-07,
+          3.3528e-07,  9.6858e-08],
+        ...,
+        [-2.3469e-07, -3.7253e-09, -3.8296e-06,  ..., -1.7155e-06,
+         -3.6620e-06, -1.1194e-06],
+        [ 1.8626e-08,  1.4901e-08,  8.7544e-08,  ...,  4.0978e-08,
+          7.8231e-08,  2.9802e-08],
+        [ 3.7253e-09,  0.0000e+00,  3.7253e-08,  ...,  1.6764e-08,
+          3.5390e-08,  1.1176e-08]], device='cuda:0')
+Epoch 36, bias, value: tensor([ 0.2641, -0.1327,  0.0109, -0.0064,  0.5864, -0.1347, -0.5939],
+       device='cuda:0'), grad: tensor([ 2.8789e-05,  7.4506e-08,  3.0044e-06,  4.7125e-07, -3.3468e-05,
+         7.7486e-07,  3.1851e-07], device='cuda:0')
+249
+0.005000000000000003
+changing lr
+epoch 35, time 348.58, cls_loss 0.0310 cls_loss_mapping 0.2276 cls_loss_causal 0.8888 re_mapping 0.0457 re_causal 0.1002 /// teacc 91.23 lr 0.00477568
+Epoch 37, weight, value: tensor([[ 0.0220,  0.0273, -0.0368,  ..., -0.0704, -0.1163, -0.0880],
+        [-0.0400, -0.0422, -0.0303,  ..., -0.0289, -0.0301, -0.0155],
+        [ 0.0201, -0.0209,  0.0377,  ..., -0.0911, -0.0898, -0.0768],
+        ...,
+        [-0.0037, -0.0315,  0.0476,  ..., -0.0260, -0.0347, -0.0332],
+        [-0.0104, -0.0239,  0.0009,  ..., -0.0536,  0.0057, -0.0551],
+        [ 0.0705,  0.2020,  0.0262,  ...,  0.1000,  0.0555,  0.1256]],
+       device='cuda:0'), grad: tensor([[ 3.0566e-06,  4.5821e-06,  3.4451e-05,  ...,  3.8564e-05,
+          5.6267e-05,  3.7909e-05],
+        [-8.5682e-08, -3.3528e-08,  6.5193e-08,  ...,  5.1409e-07,
+          5.1036e-07,  4.9546e-07],
+        [ 5.9605e-08,  1.0431e-07,  9.4622e-07,  ...,  1.1232e-06,
+          1.6093e-06,  1.1008e-06],
+        ...,
+        [ 5.9232e-06,  8.9034e-06,  6.6996e-05,  ...,  7.5161e-05,
+          1.0961e-04,  7.3850e-05],
+        [ 3.1758e-06,  2.3935e-06,  1.6183e-05,  ...,  1.4700e-05,
+          2.1026e-05,  1.3165e-05],
+        [ 7.0781e-07,  7.9162e-07,  5.7667e-06,  ...,  6.0536e-06,
+          8.8066e-06,  5.8040e-06]], device='cuda:0')
+Epoch 37, bias, value: tensor([ 0.2656, -0.1274,  0.0195, -0.0015,  0.5698, -0.1398, -0.5924],
+       device='cuda:0'), grad: tensor([ 3.1233e-04,  7.2457e-07,  8.8885e-06, -1.0853e-03,  6.0797e-04,
+         1.0645e-04,  4.7445e-05], device='cuda:0')
+249
+0.004775675848247429
+changing lr
+---------------------saving model at epoch 36----------------------------------------------------
+epoch 36, time 353.79, cls_loss 0.0258 cls_loss_mapping 0.2135 cls_loss_causal 0.8457 re_mapping 0.0440 re_causal 0.0889 /// teacc 92.98 lr 0.00455180
+Epoch 38, weight, value: tensor([[ 0.0216,  0.0268, -0.0387,  ..., -0.0706, -0.1180, -0.0882],
+        [-0.0392, -0.0414, -0.0269,  ..., -0.0278, -0.0259, -0.0145],
+        [ 0.0201, -0.0205,  0.0382,  ..., -0.0908, -0.0885, -0.0765],
+        ...,
+        [-0.0037, -0.0314,  0.0478,  ..., -0.0250, -0.0340, -0.0322],
+        [-0.0105, -0.0239, -0.0002,  ..., -0.0537,  0.0045, -0.0552],
+        [ 0.0700,  0.2008,  0.0257,  ...,  0.0992,  0.0547,  0.1247]],
+       device='cuda:0'), grad: tensor([[ 1.7226e-04,  2.0072e-05,  1.4858e-03,  ...,  5.2261e-04,
+          1.4391e-03,  5.3930e-04],
+        [ 3.0667e-05,  3.6322e-06,  2.6464e-04,  ...,  9.3102e-05,
+          2.5630e-04,  9.6083e-05],
+        [ 5.8323e-05,  6.7316e-06,  5.0306e-04,  ...,  1.7703e-04,
+          4.8757e-04,  1.8275e-04],
+        ...,
+        [ 1.9684e-03,  2.2709e-04,  1.6953e-02,  ...,  5.9662e-03,
+          1.6418e-02,  6.1569e-03],
+        [-2.4223e-03, -2.7990e-04, -2.0889e-02,  ..., -7.3471e-03,
+         -2.0233e-02, -7.5836e-03],
+        [ 2.8446e-05,  3.3136e-06,  2.4533e-04,  ...,  8.6308e-05,
+          2.3758e-04,  8.9049e-05]], device='cuda:0')
+Epoch 38, bias, value: tensor([ 0.2553, -0.1169,  0.0185, -0.0010,  0.5754, -0.1466, -0.5910],
+       device='cuda:0'), grad: tensor([ 0.0071,  0.0013,  0.0024,  0.0068,  0.0804, -0.0991,  0.0012],
+       device='cuda:0')
+249
+0.004551803455482836
+changing lr
+epoch 37, time 345.70, cls_loss 0.0392 cls_loss_mapping 0.2031 cls_loss_causal 0.7827 re_mapping 0.0426 re_causal 0.0847 /// teacc 91.81 lr 0.00432883
+Epoch 39, weight, value: tensor([[ 0.0215,  0.0267, -0.0387,  ..., -0.0700, -0.1176, -0.0875],
+        [-0.0390, -0.0412, -0.0273,  ..., -0.0277, -0.0263, -0.0145],
+        [ 0.0200, -0.0202,  0.0388,  ..., -0.0900, -0.0872, -0.0757],
+        ...,
+        [-0.0041, -0.0317,  0.0457,  ..., -0.0263, -0.0372, -0.0337],
+        [-0.0103, -0.0238,  0.0006,  ..., -0.0531,  0.0052, -0.0546],
+        [ 0.0696,  0.1996,  0.0253,  ...,  0.0986,  0.0543,  0.1239]],
+       device='cuda:0'), grad: tensor([[-5.1069e-04, -5.7316e-04, -1.7967e-03,  ..., -6.3467e-04,
+         -1.9684e-03, -6.0940e-04],
+        [-2.6338e-06, -2.0098e-06, -2.4334e-05,  ..., -3.8091e-06,
+         -2.3484e-05, -4.0159e-06],
+        [ 3.3885e-05,  1.1325e-04,  6.0272e-04,  ...,  9.6262e-05,
+          7.1335e-04,  1.5843e-04],
+        ...,
+        [ 4.6396e-04,  4.4703e-04,  1.1797e-03,  ...,  5.2500e-04,
+          1.2379e-03,  4.4084e-04],
+        [-1.1455e-07, -2.5146e-08, -4.9360e-07,  ..., -8.6613e-08,
+         -5.4948e-07, -1.2945e-07],
+        [ 1.5736e-05,  1.5169e-05,  3.9428e-05,  ...,  1.7777e-05,
+          4.1455e-05,  1.4901e-05]], device='cuda:0')
+Epoch 39, bias, value: tensor([ 0.2524, -0.1184,  0.0241,  0.0039,  0.5624, -0.1418, -0.5888],
+       device='cuda:0'), grad: tensor([-5.0392e-03, -7.8619e-05,  2.1935e-03,  2.6729e-06,  2.8324e-03,
+        -8.0094e-07,  9.3877e-05], device='cuda:0')
+249
+0.004328833670911726
+changing lr
+---------------------saving model at epoch 38----------------------------------------------------
+epoch 38, time 348.97, cls_loss 0.0203 cls_loss_mapping 0.1966 cls_loss_causal 0.8061 re_mapping 0.0423 re_causal 0.0850 /// teacc 94.74 lr 0.00410722
+Epoch 40, weight, value: tensor([[ 0.0215,  0.0266, -0.0386,  ..., -0.0695, -0.1169, -0.0868],
+        [-0.0386, -0.0406, -0.0256,  ..., -0.0275, -0.0248, -0.0143],
+        [ 0.0196, -0.0203,  0.0365,  ..., -0.0902, -0.0895, -0.0764],
+        ...,
+        [-0.0039, -0.0316,  0.0467,  ..., -0.0254, -0.0348, -0.0325],
+        [-0.0105, -0.0238, -0.0011,  ..., -0.0535,  0.0031, -0.0552],
+        [ 0.0690,  0.1984,  0.0247,  ...,  0.0979,  0.0535,  0.1230]],
+       device='cuda:0'), grad: tensor([[-7.0781e-08, -1.9558e-08, -9.7137e-07,  ..., -4.9174e-07,
+         -1.0999e-06, -4.7404e-07],
+        [ 1.1176e-08,  9.3132e-10,  9.7789e-08,  ...,  2.5146e-08,
+          1.0058e-07,  2.6077e-08],
+        [ 1.3039e-08,  2.7940e-09,  1.3132e-07,  ...,  4.0978e-08,
+          1.3690e-07,  4.0978e-08],
+        ...,
+        [ 7.5437e-08,  1.6764e-08,  8.1304e-07,  ...,  2.9150e-07,
+          8.6334e-07,  2.8964e-07],
+        [-1.0058e-07, -1.3970e-08, -7.5065e-07,  ..., -4.4703e-08,
+         -6.9104e-07, -6.6124e-08],
+        [ 3.4459e-08,  5.5879e-09,  3.0361e-07,  ...,  6.6124e-08,
+          3.0268e-07,  6.9849e-08]], device='cuda:0')
+Epoch 40, bias, value: tensor([ 0.2518, -0.1152,  0.0227,  0.0056,  0.5624, -0.1456, -0.5879],
+       device='cuda:0'), grad: tensor([-6.8396e-06,  5.5786e-07,  8.0466e-07,  2.2724e-06,  5.1595e-06,
+        -3.6880e-06,  1.7229e-06], device='cuda:0')
+249
+0.0041072155260068206
+changing lr
+epoch 39, time 348.75, cls_loss 0.0249 cls_loss_mapping 0.1840 cls_loss_causal 0.8273 re_mapping 0.0398 re_causal 0.0809 /// teacc 90.64 lr 0.00388740
+Epoch 41, weight, value: tensor([[ 0.0218,  0.0268, -0.0371,  ..., -0.0690, -0.1148, -0.0860],
+        [-0.0383, -0.0403, -0.0250,  ..., -0.0273, -0.0241, -0.0142],
+        [ 0.0195, -0.0203,  0.0359,  ..., -0.0899, -0.0896, -0.0763],
+        ...,
+        [-0.0044, -0.0319,  0.0448,  ..., -0.0254, -0.0368, -0.0328],
+        [-0.0102, -0.0233,  0.0007,  ..., -0.0526,  0.0053, -0.0540],
+        [ 0.0687,  0.1974,  0.0243,  ...,  0.0973,  0.0529,  0.1223]],
+       device='cuda:0'), grad: tensor([[2.2352e-06, 6.1840e-07, 1.8418e-05,  ..., 1.3851e-05, 2.5854e-05,
+         1.2666e-05],
+        [2.2817e-07, 7.8231e-08, 1.3914e-06,  ..., 8.5030e-07, 1.7053e-06,
+         8.2236e-07],
+        [1.6764e-05, 5.5805e-06, 7.7784e-05,  ..., 3.8773e-05, 8.3685e-05,
+         3.9458e-05],
+        ...,
+        [8.1360e-06, 2.7195e-06, 3.8117e-05,  ..., 1.9133e-05, 4.1217e-05,
+         1.9446e-05],
+        [4.0419e-06, 1.3923e-06, 2.1443e-05,  ..., 1.1943e-05, 2.4766e-05,
+         1.1817e-05],
+        [3.3919e-06, 1.2238e-06, 1.7583e-05,  ..., 9.4399e-06, 1.9893e-05,
+         9.4622e-06]], device='cuda:0')
+Epoch 41, bias, value: tensor([ 2.4937e-01, -1.1424e-01,  2.2541e-02,  4.9674e-04,  5.6182e-01,
+        -1.4016e-01, -5.8597e-01], device='cuda:0'), grad: tensor([ 1.0884e-04,  8.0839e-06,  3.7861e-04, -8.8835e-04,  1.8752e-04,
+         1.1289e-04,  9.2149e-05], device='cuda:0')
+249
+0.0038873953302184317
+changing lr
+epoch 40, time 347.58, cls_loss 0.0184 cls_loss_mapping 0.1822 cls_loss_causal 0.8379 re_mapping 0.0405 re_causal 0.0762 /// teacc 93.57 lr 0.00366982
+Epoch 42, weight, value: tensor([[ 0.0217,  0.0267, -0.0374,  ..., -0.0689, -0.1149, -0.0858],
+        [-0.0381, -0.0401, -0.0244,  ..., -0.0270, -0.0234, -0.0139],
+        [ 0.0194, -0.0202,  0.0359,  ..., -0.0894, -0.0891, -0.0759],
+        ...,
+        [-0.0035, -0.0310,  0.0476,  ..., -0.0241, -0.0331, -0.0314],
+        [-0.0109, -0.0238, -0.0021,  ..., -0.0534,  0.0022, -0.0548],
+        [ 0.0683,  0.1964,  0.0239,  ...,  0.0967,  0.0524,  0.1216]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  9.3132e-10,  1.3970e-08,  ...,  4.6566e-09,
+          1.3970e-08,  4.6566e-09],
+        [-1.8626e-09, -2.7940e-09, -2.7008e-08,  ..., -8.3819e-09,
+         -2.6077e-08, -8.3819e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  9.3132e-10,
+          3.7253e-09,  9.3132e-10],
+        ...,
+        [ 1.2107e-08,  5.5879e-09,  9.8720e-08,  ...,  3.0734e-08,
+          1.0617e-07,  4.3772e-08],
+        [-1.5832e-08, -6.5193e-09, -1.2200e-07,  ..., -3.8184e-08,
+         -1.3225e-07, -5.5879e-08],
+        [ 1.8626e-09,  9.3132e-10,  1.7695e-08,  ...,  5.5879e-09,
+          1.9558e-08,  8.3819e-09]], device='cuda:0')
+Epoch 42, bias, value: tensor([ 2.4822e-01, -1.1041e-01,  2.3572e-02, -2.5686e-04,  5.6161e-01,
+        -1.4442e-01, -5.8441e-01], device='cuda:0'), grad: tensor([ 1.2759e-07, -2.8498e-07,  1.4901e-08,  7.6368e-08,  5.7649e-07,
+        -5.9418e-07,  9.1270e-08], device='cuda:0')
+249
+0.003669815772166629
+changing lr
+epoch 41, time 349.76, cls_loss 0.0273 cls_loss_mapping 0.1802 cls_loss_causal 0.8285 re_mapping 0.0382 re_causal 0.0830 /// teacc 91.81 lr 0.00345492
+Epoch 43, weight, value: tensor([[ 0.0215,  0.0264, -0.0379,  ..., -0.0689, -0.1151, -0.0857],
+        [-0.0373, -0.0394, -0.0207,  ..., -0.0266, -0.0203, -0.0134],
+        [ 0.0193, -0.0201,  0.0359,  ..., -0.0890, -0.0885, -0.0755],
+        ...,
+        [-0.0041, -0.0313,  0.0442,  ..., -0.0241, -0.0355, -0.0316],
+        [-0.0105, -0.0235,  0.0002,  ..., -0.0525,  0.0048, -0.0537],
+        [ 0.0679,  0.1955,  0.0237,  ...,  0.0962,  0.0519,  0.1210]],
+       device='cuda:0'), grad: tensor([[ 1.7416e-07,  8.6613e-08,  3.6266e-06,  ...,  8.9873e-07,
+          3.3863e-06,  7.4785e-07],
+        [-5.5879e-09, -0.0000e+00, -8.6613e-08,  ..., -4.6566e-09,
+         -6.0536e-08, -2.7940e-09],
+        [ 3.7253e-09,  9.3132e-10,  1.0710e-07,  ...,  2.6077e-08,
+          1.1269e-07,  3.3528e-08],
+        ...,
+        [-1.6857e-07, -8.7544e-08, -3.5223e-06,  ..., -8.9034e-07,
+         -3.2913e-06, -7.2736e-07],
+        [-5.5879e-09,  9.3132e-10, -2.1793e-07,  ..., -5.3085e-08,
+         -2.4587e-07, -8.1956e-08],
+        [ 2.7940e-09,  0.0000e+00,  8.1025e-08,  ...,  1.9558e-08,
+          8.7544e-08,  2.7940e-08]], device='cuda:0')
+Epoch 43, bias, value: tensor([ 0.2411, -0.1017,  0.0264, -0.0056,  0.5517, -0.1354, -0.5827],
+       device='cuda:0'), grad: tensor([ 2.3931e-05, -6.6031e-07,  6.8638e-07,  8.9407e-08, -2.3156e-05,
+        -1.3653e-06,  5.1130e-07], device='cuda:0')
+249
+0.0034549150281252667
+changing lr
+epoch 42, time 349.43, cls_loss 0.0260 cls_loss_mapping 0.1887 cls_loss_causal 0.7472 re_mapping 0.0344 re_causal 0.0714 /// teacc 92.40 lr 0.00324313
+Epoch 44, weight, value: tensor([[ 0.0212,  0.0261, -0.0394,  ..., -0.0695, -0.1166, -0.0861],
+        [-0.0372, -0.0394, -0.0214,  ..., -0.0270, -0.0215, -0.0139],
+        [ 0.0194, -0.0199,  0.0365,  ..., -0.0884, -0.0874, -0.0750],
+        ...,
+        [-0.0035, -0.0308,  0.0474,  ..., -0.0223, -0.0309, -0.0298],
+        [-0.0106, -0.0235, -0.0005,  ..., -0.0525,  0.0040, -0.0537],
+        [ 0.0676,  0.1946,  0.0233,  ...,  0.0957,  0.0514,  0.1203]],
+       device='cuda:0'), grad: tensor([[-1.3959e-04, -9.1136e-05, -1.1940e-03,  ..., -1.2386e-04,
+         -1.0395e-03, -1.3590e-04],
+        [ 1.1966e-05,  1.1869e-05,  1.3447e-04,  ...,  1.7852e-05,
+          1.3018e-04,  1.9625e-05],
+        [ 2.1867e-06,  1.9129e-06,  2.2575e-05,  ...,  2.8014e-06,
+          2.1234e-05,  3.0827e-06],
+        ...,
+        [ 1.2386e-04,  7.6175e-05,  1.0223e-03,  ...,  1.0151e-04,
+          8.7500e-04,  1.1128e-04],
+        [ 5.2806e-07,  4.9081e-07,  5.6736e-06,  ...,  7.2829e-07,
+          5.4091e-06,  8.0094e-07],
+        [ 8.0373e-07,  5.4482e-07,  7.0147e-06,  ...,  7.4971e-07,
+          6.1691e-06,  8.2050e-07]], device='cuda:0')
+Epoch 44, bias, value: tensor([ 2.2749e-01, -1.0423e-01,  3.1431e-02,  1.9333e-04,  5.5837e-01,
+        -1.3793e-01, -5.8138e-01], device='cuda:0'), grad: tensor([-5.3062e-03,  6.4611e-04,  1.0616e-04,  1.3657e-05,  4.4861e-03,
+         2.6956e-05,  3.1412e-05], device='cuda:0')
+249
+0.0032431258795932905
+changing lr
+epoch 43, time 347.80, cls_loss 0.0220 cls_loss_mapping 0.1586 cls_loss_causal 0.7720 re_mapping 0.0327 re_causal 0.0697 /// teacc 92.98 lr 0.00303487
+Epoch 45, weight, value: tensor([[ 0.0212,  0.0260, -0.0388,  ..., -0.0691, -0.1155, -0.0856],
+        [-0.0370, -0.0391, -0.0209,  ..., -0.0267, -0.0210, -0.0137],
+        [ 0.0193, -0.0198,  0.0367,  ..., -0.0879, -0.0868, -0.0746],
+        ...,
+        [-0.0036, -0.0307,  0.0466,  ..., -0.0223, -0.0314, -0.0298],
+        [-0.0106, -0.0234, -0.0010,  ..., -0.0529,  0.0031, -0.0540],
+        [ 0.0673,  0.1938,  0.0231,  ...,  0.0952,  0.0510,  0.1198]],
+       device='cuda:0'), grad: tensor([[ 4.1910e-08,  6.5193e-09,  2.7753e-07,  ...,  1.2107e-08,
+          2.2911e-07,  4.1910e-08],
+        [ 6.3330e-08,  9.3132e-09,  4.2841e-07,  ...,  1.8626e-08,
+          3.5483e-07,  6.6124e-08],
+        [ 7.0781e-08,  7.4506e-09,  4.8056e-07,  ...,  1.6764e-08,
+          3.9861e-07,  7.2643e-08],
+        ...,
+        [ 1.8440e-07,  2.7008e-08,  1.2359e-06,  ...,  5.4017e-08,
+          1.0226e-06,  1.8999e-07],
+        [-6.0163e-07, -8.5682e-08, -4.0382e-06,  ..., -1.6857e-07,
+         -3.3397e-06, -6.1560e-07],
+        [ 1.5274e-07,  2.2352e-08,  1.0235e-06,  ...,  4.5635e-08,
+          8.4843e-07,  1.5832e-07]], device='cuda:0')
+Epoch 45, bias, value: tensor([ 0.2288, -0.1013,  0.0338,  0.0020,  0.5523, -0.1420, -0.5797],
+       device='cuda:0'), grad: tensor([ 1.2945e-06,  2.0079e-06,  2.1942e-06,  2.7083e-06,  5.8040e-06,
+        -1.8835e-05,  4.7907e-06], device='cuda:0')
+249
+0.0030348748417303863
+changing lr
+epoch 44, time 348.82, cls_loss 0.0162 cls_loss_mapping 0.1627 cls_loss_causal 0.7833 re_mapping 0.0324 re_causal 0.0694 /// teacc 92.40 lr 0.00283058
+Epoch 46, weight, value: tensor([[ 0.0214,  0.0261, -0.0369,  ..., -0.0681, -0.1128, -0.0845],
+        [-0.0369, -0.0390, -0.0210,  ..., -0.0267, -0.0211, -0.0138],
+        [ 0.0192, -0.0197,  0.0366,  ..., -0.0876, -0.0864, -0.0743],
+        ...,
+        [-0.0037, -0.0307,  0.0451,  ..., -0.0229, -0.0332, -0.0304],
+        [-0.0105, -0.0233, -0.0010,  ..., -0.0527,  0.0031, -0.0538],
+        [ 0.0670,  0.1930,  0.0228,  ...,  0.0948,  0.0506,  0.1193]],
+       device='cuda:0'), grad: tensor([[-4.6976e-06, -1.3476e-06, -2.8268e-05,  ..., -5.4240e-06,
+         -2.3216e-05, -6.0126e-06],
+        [ 9.7230e-07,  2.8871e-07,  5.8413e-06,  ...,  1.1381e-06,
+          4.8243e-06,  1.2657e-06],
+        [ 1.6019e-07,  6.9384e-08,  9.8627e-07,  ...,  2.4773e-07,
+          8.8522e-07,  2.7753e-07],
+        ...,
+        [ 3.2540e-06,  8.7917e-07,  1.9431e-05,  ...,  3.5278e-06,
+          1.5780e-05,  3.9414e-06],
+        [-8.3353e-08, -5.3085e-08, -3.2783e-07,  ..., -4.0978e-08,
+         -3.4273e-07, -1.0384e-07],
+        [ 3.0082e-07,  1.1595e-07,  1.7677e-06,  ...,  3.8277e-07,
+          1.5311e-06,  4.4005e-07]], device='cuda:0')
+Epoch 46, bias, value: tensor([ 0.2330, -0.1023,  0.0352,  0.0026,  0.5458, -0.1421, -0.5782],
+       device='cuda:0'), grad: tensor([-1.0890e-04,  2.2680e-05,  4.4368e-06,  2.9523e-06,  7.2658e-05,
+        -9.5367e-07,  7.2941e-06], device='cuda:0')
+249
+0.0028305813044122124
+changing lr
+epoch 45, time 347.20, cls_loss 0.0141 cls_loss_mapping 0.1489 cls_loss_causal 0.7867 re_mapping 0.0319 re_causal 0.0649 /// teacc 91.81 lr 0.00263066
+Epoch 47, weight, value: tensor([[ 0.0213,  0.0260, -0.0365,  ..., -0.0677, -0.1122, -0.0841],
+        [-0.0368, -0.0389, -0.0212,  ..., -0.0267, -0.0213, -0.0138],
+        [ 0.0191, -0.0197,  0.0361,  ..., -0.0874, -0.0865, -0.0742],
+        ...,
+        [-0.0037, -0.0305,  0.0450,  ..., -0.0228, -0.0331, -0.0303],
+        [-0.0104, -0.0231, -0.0005,  ..., -0.0524,  0.0036, -0.0535],
+        [ 0.0668,  0.1923,  0.0226,  ...,  0.0944,  0.0503,  0.1188]],
+       device='cuda:0'), grad: tensor([[ 8.6725e-06,  5.0217e-06,  4.3958e-05,  ...,  5.4464e-06,
+          3.4899e-05,  6.7502e-06],
+        [ 7.4506e-07,  4.2841e-07,  3.7719e-06,  ...,  4.8149e-07,
+          3.0138e-06,  5.9186e-07],
+        [ 1.7090e-07,  9.6858e-08,  8.6566e-07,  ...,  1.2107e-07,
+          7.0408e-07,  1.4529e-07],
+        ...,
+        [-9.7156e-06, -5.6326e-06, -4.9174e-05,  ..., -5.9083e-06,
+         -3.8832e-05, -7.3835e-06],
+        [-1.1781e-07, -2.3283e-08, -5.2340e-07,  ..., -1.5181e-07,
+         -5.5414e-07, -1.5413e-07],
+        [ 1.7742e-07,  7.4971e-08,  8.8243e-07,  ...,  2.3749e-07,
+          8.6799e-07,  2.5053e-07]], device='cuda:0')
+Epoch 47, bias, value: tensor([ 0.2331, -0.1031,  0.0329,  0.0037,  0.5448, -0.1405, -0.5769],
+       device='cuda:0'), grad: tensor([ 1.4853e-04,  1.2763e-05,  2.9393e-06,  2.2631e-07, -1.6594e-04,
+        -1.7229e-06,  3.0603e-06], device='cuda:0')
+249
+0.0026306566876350096
+changing lr
+epoch 46, time 351.40, cls_loss 0.0152 cls_loss_mapping 0.1497 cls_loss_causal 0.7486 re_mapping 0.0335 re_causal 0.0688 /// teacc 93.57 lr 0.00243550
+Epoch 48, weight, value: tensor([[ 0.0212,  0.0259, -0.0366,  ..., -0.0673, -0.1120, -0.0837],
+        [-0.0368, -0.0388, -0.0214,  ..., -0.0268, -0.0216, -0.0139],
+        [ 0.0191, -0.0196,  0.0359,  ..., -0.0873, -0.0864, -0.0741],
+        ...,
+        [-0.0035, -0.0303,  0.0454,  ..., -0.0227, -0.0324, -0.0301],
+        [-0.0103, -0.0231, -0.0005,  ..., -0.0522,  0.0037, -0.0533],
+        [ 0.0665,  0.1917,  0.0224,  ...,  0.0940,  0.0500,  0.1183]],
+       device='cuda:0'), grad: tensor([[-3.7253e-08, -2.8871e-08, -4.2934e-07,  ..., -1.4808e-07,
+         -5.2014e-07, -1.5087e-07],
+        [ 3.4925e-08,  2.1886e-08,  3.6834e-07,  ...,  1.2806e-07,
+          4.2701e-07,  1.3644e-07],
+        [ 6.6590e-08,  2.9802e-08,  4.0792e-07,  ...,  1.6857e-07,
+          4.2701e-07,  1.7509e-07],
+        ...,
+        [-6.9849e-08, -3.3993e-08, -4.3446e-07,  ..., -2.0536e-07,
+         -4.4284e-07, -2.0489e-07],
+        [-2.5611e-08,  1.3970e-09, -1.7043e-07,  ..., -7.9162e-09,
+         -1.7602e-07, -4.1910e-08],
+        [ 1.8161e-08,  4.6566e-09,  1.5087e-07,  ...,  3.3993e-08,
+          1.6671e-07,  4.8429e-08]], device='cuda:0')
+Epoch 48, bias, value: tensor([ 0.2353, -0.1035,  0.0320,  0.0043,  0.5411, -0.1397, -0.5755],
+       device='cuda:0'), grad: tensor([-2.6878e-06,  2.3711e-06,  2.2128e-06,  5.7975e-07, -2.6841e-06,
+        -5.8161e-07,  7.8138e-07], device='cuda:0')
+249
+0.0024355036129704724
+changing lr
+epoch 47, time 348.26, cls_loss 0.0167 cls_loss_mapping 0.1378 cls_loss_causal 0.7175 re_mapping 0.0324 re_causal 0.0644 /// teacc 92.40 lr 0.00224552
+Epoch 49, weight, value: tensor([[ 0.0212,  0.0258, -0.0364,  ..., -0.0671, -0.1116, -0.0834],
+        [-0.0367, -0.0387, -0.0215,  ..., -0.0267, -0.0217, -0.0139],
+        [ 0.0190, -0.0195,  0.0362,  ..., -0.0869, -0.0856, -0.0737],
+        ...,
+        [-0.0036, -0.0302,  0.0452,  ..., -0.0227, -0.0324, -0.0301],
+        [-0.0103, -0.0230, -0.0005,  ..., -0.0521,  0.0036, -0.0532],
+        [ 0.0663,  0.1911,  0.0223,  ...,  0.0937,  0.0498,  0.1180]],
+       device='cuda:0'), grad: tensor([[ 1.5041e-07,  1.8626e-08,  2.8182e-06,  ...,  2.5146e-07,
+          2.3022e-06,  2.9523e-07],
+        [-4.1649e-06, -3.5809e-07, -8.1778e-05,  ..., -5.4538e-06,
+         -6.5923e-05, -7.3649e-06],
+        [-3.5390e-07, -2.3004e-07, -1.1837e-06,  ..., -6.8778e-07,
+         -1.3318e-06, -6.9663e-07],
+        ...,
+        [ 4.3176e-06,  5.4855e-07,  7.9632e-05,  ...,  5.8115e-06,
+          6.4492e-05,  7.6815e-06],
+        [ 1.8626e-08,  1.0710e-08,  1.4761e-07,  ...,  3.2596e-08,
+          1.3225e-07,  3.3993e-08],
+        [ 1.1176e-08,  6.0536e-09,  1.0571e-07,  ...,  1.8626e-08,
+          9.1735e-08,  2.0023e-08]], device='cuda:0')
+Epoch 49, bias, value: tensor([ 0.2346, -0.1037,  0.0338,  0.0039,  0.5387, -0.1391, -0.5740],
+       device='cuda:0'), grad: tensor([ 2.5690e-05, -7.4625e-04, -8.5533e-06,  1.1157e-06,  7.2432e-04,
+         1.2517e-06,  9.1363e-07], device='cuda:0')
+249
+0.00224551509273949
+changing lr
+epoch 48, time 349.54, cls_loss 0.0157 cls_loss_mapping 0.1420 cls_loss_causal 0.6908 re_mapping 0.0317 re_causal 0.0606 /// teacc 92.98 lr 0.00206107
+Epoch 50, weight, value: tensor([[ 0.0211,  0.0257, -0.0366,  ..., -0.0671, -0.1117, -0.0833],
+        [-0.0365, -0.0386, -0.0207,  ..., -0.0266, -0.0210, -0.0138],
+        [ 0.0189, -0.0195,  0.0356,  ..., -0.0868, -0.0859, -0.0738],
+        ...,
+        [-0.0037, -0.0303,  0.0446,  ..., -0.0229, -0.0328, -0.0302],
+        [-0.0102, -0.0229, -0.0003,  ..., -0.0517,  0.0038, -0.0527],
+        [ 0.0661,  0.1906,  0.0221,  ...,  0.0934,  0.0496,  0.1176]],
+       device='cuda:0'), grad: tensor([[ 9.1374e-05,  2.3050e-07,  1.6365e-03,  ...,  1.0624e-03,
+          2.1915e-03,  1.0624e-03],
+        [ 1.9059e-05,  2.4680e-08,  3.4165e-04,  ...,  2.2185e-04,
+          4.5753e-04,  2.2185e-04],
+        [ 1.7571e-04,  4.6566e-09,  3.1509e-03,  ...,  2.0466e-03,
+          4.2229e-03,  2.0466e-03],
+        ...,
+        [ 3.8236e-05, -2.6356e-07,  6.8855e-04,  ...,  4.4870e-04,
+          9.2459e-04,  4.4870e-04],
+        [ 2.2948e-05,  0.0000e+00,  4.1151e-04,  ...,  2.6751e-04,
+          5.5122e-04,  2.6751e-04],
+        [ 1.2010e-05,  2.3283e-09,  2.1529e-04,  ...,  1.3983e-04,
+          2.8849e-04,  1.3983e-04]], device='cuda:0')
+Epoch 50, bias, value: tensor([ 0.2324, -0.1012,  0.0313,  0.0066,  0.5357, -0.1379, -0.5729],
+       device='cuda:0'), grad: tensor([ 0.0201,  0.0042,  0.0387, -0.0791,  0.0085,  0.0051,  0.0026],
+       device='cuda:0')
+249
+0.002061073738537637
+changing lr
+epoch 49, time 349.14, cls_loss 0.0116 cls_loss_mapping 0.1371 cls_loss_causal 0.6570 re_mapping 0.0313 re_causal 0.0632 /// teacc 90.06 lr 0.00188255
+Epoch 51, weight, value: tensor([[ 0.0212,  0.0257, -0.0357,  ..., -0.0667, -0.1105, -0.0829],
+        [-0.0363, -0.0384, -0.0197,  ..., -0.0265, -0.0200, -0.0137],
+        [ 0.0188, -0.0195,  0.0353,  ..., -0.0867, -0.0859, -0.0736],
+        ...,
+        [-0.0039, -0.0303,  0.0433,  ..., -0.0230, -0.0339, -0.0304],
+        [-0.0103, -0.0229, -0.0008,  ..., -0.0518,  0.0032, -0.0528],
+        [ 0.0659,  0.1901,  0.0220,  ...,  0.0932,  0.0494,  0.1173]],
+       device='cuda:0'), grad: tensor([[ 2.1094e-07,  1.3877e-07,  1.2722e-06,  ...,  5.4948e-07,
+          1.3569e-06,  4.4703e-07],
+        [ 4.6566e-10, -4.6566e-09, -1.8626e-08,  ...,  3.8650e-08,
+          1.1642e-08,  1.9092e-08],
+        [ 5.5879e-09,  2.3283e-09,  3.3993e-08,  ...,  2.4680e-08,
+          4.3306e-08,  1.9558e-08],
+        ...,
+        [-1.2573e-07, -1.0757e-07, -7.4692e-07,  ..., -1.7555e-07,
+         -6.9290e-07, -1.4016e-07],
+        [ 4.6082e-06,  1.4938e-06,  2.7388e-05,  ...,  2.1830e-05,
+          3.6180e-05,  1.7256e-05],
+        [ 1.1269e-07,  3.7253e-08,  6.7614e-07,  ...,  5.3132e-07,
+          8.8988e-07,  4.2561e-07]], device='cuda:0')
+Epoch 51, bias, value: tensor([ 0.2339, -0.0990,  0.0304,  0.0086,  0.5305, -0.1386, -0.5717],
+       device='cuda:0'), grad: tensor([ 5.8785e-06, -1.5087e-07,  1.8068e-07, -1.5676e-04, -2.9448e-06,
+         1.5032e-04,  3.7197e-06], device='cuda:0')
+249
+0.0018825509907063344
+changing lr
+epoch 50, time 347.08, cls_loss 0.0089 cls_loss_mapping 0.1230 cls_loss_causal 0.6582 re_mapping 0.0311 re_causal 0.0606 /// teacc 92.98 lr 0.00171031
+Epoch 52, weight, value: tensor([[ 0.0211,  0.0257, -0.0356,  ..., -0.0665, -0.1102, -0.0827],
+        [-0.0362, -0.0383, -0.0197,  ..., -0.0264, -0.0200, -0.0137],
+        [ 0.0188, -0.0195,  0.0351,  ..., -0.0865, -0.0858, -0.0735],
+        ...,
+        [-0.0038, -0.0302,  0.0433,  ..., -0.0230, -0.0337, -0.0303],
+        [-0.0103, -0.0229, -0.0008,  ..., -0.0516,  0.0032, -0.0526],
+        [ 0.0658,  0.1896,  0.0219,  ...,  0.0929,  0.0492,  0.1170]],
+       device='cuda:0'), grad: tensor([[ 5.9232e-06,  1.7181e-05,  1.1671e-04,  ...,  4.6760e-05,
+          1.3542e-04,  5.2303e-05],
+        [ 3.1404e-06,  8.9407e-06,  6.0827e-05,  ...,  2.4393e-05,
+          7.0512e-05,  2.7254e-05],
+        [-1.4760e-05, -4.3690e-05, -2.9564e-04,  ..., -1.1837e-04,
+         -3.4332e-04, -1.3256e-04],
+        ...,
+        [ 2.0899e-06,  5.6662e-06,  3.8713e-05,  ...,  1.5587e-05,
+          4.4852e-05,  1.7360e-05],
+        [ 3.9935e-06,  8.7619e-06,  6.1870e-05,  ...,  2.5079e-05,
+          7.0989e-05,  2.7627e-05],
+        [ 1.7686e-06,  3.5763e-06,  2.5600e-05,  ...,  1.0423e-05,
+          2.9281e-05,  1.1422e-05]], device='cuda:0')
+Epoch 52, bias, value: tensor([ 0.2331, -0.0991,  0.0303,  0.0088,  0.5297, -0.1382, -0.5705],
+       device='cuda:0'), grad: tensor([ 9.2030e-04,  4.7851e-04, -2.3384e-03, -1.7226e-05,  3.0231e-04,
+         4.6611e-04,  1.9002e-04], device='cuda:0')
+249
+0.0017103063703014388
+changing lr
+epoch 51, time 350.62, cls_loss 0.0133 cls_loss_mapping 0.1291 cls_loss_causal 0.6928 re_mapping 0.0306 re_causal 0.0583 /// teacc 92.40 lr 0.00154469
+Epoch 53, weight, value: tensor([[ 0.0209,  0.0255, -0.0364,  ..., -0.0666, -0.1109, -0.0828],
+        [-0.0361, -0.0383, -0.0199,  ..., -0.0264, -0.0202, -0.0137],
+        [ 0.0189, -0.0192,  0.0361,  ..., -0.0861, -0.0845, -0.0731],
+        ...,
+        [-0.0038, -0.0301,  0.0433,  ..., -0.0228, -0.0335, -0.0301],
+        [-0.0102, -0.0228, -0.0007,  ..., -0.0515,  0.0033, -0.0525],
+        [ 0.0656,  0.1892,  0.0218,  ...,  0.0927,  0.0490,  0.1167]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  1.8626e-09,  1.2247e-07,  ...,  1.2107e-08,
+          9.7323e-08,  9.7789e-09],
+        [-1.0245e-08, -2.7940e-09, -2.2631e-07,  ..., -2.4680e-08,
+         -1.8207e-07, -1.9558e-08],
+        [ 9.3132e-10,  4.6566e-10,  1.0710e-08,  ...,  9.3132e-10,
+          8.8476e-09,  1.3970e-09],
+        ...,
+        [ 1.4901e-08,  4.6566e-09,  2.0303e-07,  ...,  1.9092e-08,
+          1.6438e-07,  2.3283e-08],
+        [-1.4435e-08, -4.6566e-09, -1.4110e-07,  ..., -9.7789e-09,
+         -1.1316e-07, -1.9092e-08],
+        [ 2.3283e-09,  9.3132e-10,  2.3749e-08,  ...,  1.8626e-09,
+          1.9092e-08,  3.2596e-09]], device='cuda:0')
+Epoch 53, bias, value: tensor([ 0.2295, -0.0996,  0.0344,  0.0079,  0.5294, -0.1378, -0.5696],
+       device='cuda:0'), grad: tensor([ 8.1165e-07, -1.5292e-06,  4.8894e-08,  4.0513e-08,  1.1073e-06,
+        -5.8394e-07,  1.0803e-07], device='cuda:0')
+249
+0.0015446867550656784
+changing lr
+epoch 52, time 348.17, cls_loss 0.0145 cls_loss_mapping 0.1320 cls_loss_causal 0.7023 re_mapping 0.0281 re_causal 0.0541 /// teacc 91.81 lr 0.00138603
+Epoch 54, weight, value: tensor([[ 0.0208,  0.0253, -0.0370,  ..., -0.0667, -0.1116, -0.0828],
+        [-0.0361, -0.0382, -0.0199,  ..., -0.0264, -0.0202, -0.0137],
+        [ 0.0189, -0.0191,  0.0367,  ..., -0.0856, -0.0834, -0.0727],
+        ...,
+        [-0.0038, -0.0300,  0.0433,  ..., -0.0229, -0.0335, -0.0302],
+        [-0.0102, -0.0228, -0.0007,  ..., -0.0514,  0.0033, -0.0524],
+        [ 0.0655,  0.1888,  0.0217,  ...,  0.0925,  0.0489,  0.1165]],
+       device='cuda:0'), grad: tensor([[ 3.2522e-06,  1.6252e-06,  1.9357e-05,  ...,  1.2005e-06,
+          1.5438e-05,  1.0198e-06],
+        [ 4.3004e-07,  1.4878e-07,  2.4345e-06,  ...,  1.5367e-07,
+          1.9297e-06,  1.2107e-07],
+        [ 3.3993e-07,  1.6950e-07,  2.0228e-06,  ...,  1.2713e-07,
+          1.6158e-06,  1.0803e-07],
+        ...,
+        [-4.1947e-06, -2.0079e-06, -2.4796e-05,  ..., -1.5376e-06,
+         -1.9774e-05, -1.2927e-06],
+        [ 8.4285e-08,  2.9569e-08,  4.8243e-07,  ...,  5.0990e-08,
+          4.0536e-07,  4.4703e-08],
+        [ 3.1665e-08,  1.3039e-08,  1.8463e-07,  ...,  1.7928e-08,
+          1.5344e-07,  1.5832e-08]], device='cuda:0')
+Epoch 54, bias, value: tensor([ 0.2269, -0.0993,  0.0366,  0.0082,  0.5280, -0.1374, -0.5688],
+       device='cuda:0'), grad: tensor([ 5.9217e-05,  7.1488e-06,  6.1877e-06,  7.3621e-07, -7.5459e-05,
+         1.4594e-06,  5.6159e-07], device='cuda:0')
+249
+0.001386025680863044
+changing lr
+epoch 53, time 348.79, cls_loss 0.0133 cls_loss_mapping 0.1284 cls_loss_causal 0.7003 re_mapping 0.0296 re_causal 0.0593 /// teacc 91.81 lr 0.00123464
+Epoch 55, weight, value: tensor([[ 0.0208,  0.0252, -0.0373,  ..., -0.0668, -0.1118, -0.0828],
+        [-0.0360, -0.0381, -0.0197,  ..., -0.0263, -0.0200, -0.0136],
+        [ 0.0189, -0.0190,  0.0370,  ..., -0.0854, -0.0829, -0.0725],
+        ...,
+        [-0.0038, -0.0300,  0.0432,  ..., -0.0228, -0.0334, -0.0301],
+        [-0.0102, -0.0228, -0.0010,  ..., -0.0515,  0.0028, -0.0524],
+        [ 0.0654,  0.1885,  0.0217,  ...,  0.0923,  0.0488,  0.1162]],
+       device='cuda:0'), grad: tensor([[-3.7253e-09, -3.4925e-09, -1.8626e-08,  ..., -5.1223e-09,
+         -2.2585e-08, -5.1223e-09],
+        [-7.6834e-09, -4.6566e-09, -5.3551e-08,  ...,  2.3283e-09,
+         -5.0291e-08, -3.0268e-09],
+        [ 5.1688e-08,  2.7008e-08,  2.6380e-07,  ...,  1.2666e-07,
+          3.8091e-07,  1.4249e-07],
+        ...,
+        [ 1.4435e-08,  8.8476e-09,  9.0804e-08,  ...,  8.8476e-09,
+          9.7556e-08,  1.7462e-08],
+        [-1.3737e-08, -6.9849e-09, -8.3586e-08,  ..., -1.1409e-08,
+         -9.4064e-08, -2.3516e-08],
+        [ 1.1642e-08,  6.5193e-09,  6.9384e-08,  ...,  2.3516e-08,
+          9.2434e-08,  3.0734e-08]], device='cuda:0')
+Epoch 55, bias, value: tensor([ 0.2246, -0.0989,  0.0374,  0.0097,  0.5275, -0.1382, -0.5680],
+       device='cuda:0'), grad: tensor([-7.2876e-08, -1.2759e-07,  6.0722e-07, -5.7183e-07,  2.2934e-07,
+        -1.8883e-07,  1.6927e-07], device='cuda:0')
+249
+0.0012346426699819469
+changing lr
+epoch 54, time 350.60, cls_loss 0.0113 cls_loss_mapping 0.1171 cls_loss_causal 0.6751 re_mapping 0.0298 re_causal 0.0561 /// teacc 92.40 lr 0.00109084
+Epoch 56, weight, value: tensor([[ 0.0207,  0.0252, -0.0373,  ..., -0.0667, -0.1117, -0.0827],
+        [-0.0360, -0.0381, -0.0198,  ..., -0.0263, -0.0201, -0.0137],
+        [ 0.0189, -0.0189,  0.0372,  ..., -0.0851, -0.0823, -0.0722],
+        ...,
+        [-0.0037, -0.0299,  0.0433,  ..., -0.0228, -0.0333, -0.0301],
+        [-0.0102, -0.0228, -0.0010,  ..., -0.0514,  0.0028, -0.0524],
+        [ 0.0653,  0.1882,  0.0216,  ...,  0.0922,  0.0486,  0.1161]],
+       device='cuda:0'), grad: tensor([[-1.0012e-08, -6.0536e-09, -3.8184e-08,  ..., -4.1910e-09,
+         -2.0023e-08, -4.8894e-09],
+        [-1.8626e-09,  0.0000e+00, -2.3516e-08,  ...,  0.0000e+00,
+         -1.7462e-08, -4.6566e-10],
+        [ 4.8894e-09,  2.7940e-09,  1.8394e-08,  ...,  2.0955e-09,
+          9.7789e-09,  2.3283e-09],
+        ...,
+        [ 4.6566e-09,  1.8626e-09,  3.2596e-08,  ...,  1.3970e-09,
+          2.1420e-08,  1.8626e-09],
+        [ 4.6566e-10,  2.3283e-10,  1.8626e-09,  ...,  2.3283e-10,
+          1.1642e-09,  4.6566e-10],
+        [ 1.3970e-09,  9.3132e-10,  5.5879e-09,  ...,  6.9849e-10,
+          3.0268e-09,  6.9849e-10]], device='cuda:0')
+Epoch 56, bias, value: tensor([ 0.2242, -0.0992,  0.0382,  0.0095,  0.5265, -0.1378, -0.5674],
+       device='cuda:0'), grad: tensor([-3.2573e-07, -1.0384e-07,  1.5576e-07,  3.0268e-09,  1.9046e-07,
+         1.3504e-08,  4.7730e-08], device='cuda:0')
+249
+0.0010908425876598518
+changing lr
+epoch 55, time 347.23, cls_loss 0.0155 cls_loss_mapping 0.1176 cls_loss_causal 0.7039 re_mapping 0.0292 re_causal 0.0602 /// teacc 91.81 lr 0.00095492
+Epoch 57, weight, value: tensor([[ 0.0207,  0.0251, -0.0374,  ..., -0.0666, -0.1116, -0.0826],
+        [-0.0359, -0.0380, -0.0198,  ..., -0.0263, -0.0201, -0.0137],
+        [ 0.0188, -0.0189,  0.0371,  ..., -0.0850, -0.0822, -0.0722],
+        ...,
+        [-0.0037, -0.0298,  0.0435,  ..., -0.0227, -0.0330, -0.0300],
+        [-0.0106, -0.0229, -0.0022,  ..., -0.0516,  0.0016, -0.0526],
+        [ 0.0652,  0.1880,  0.0215,  ...,  0.0920,  0.0486,  0.1159]],
+       device='cuda:0'), grad: tensor([[-3.4750e-05, -3.1918e-05, -1.2326e-04,  ..., -5.0396e-05,
+         -1.2255e-04, -5.0694e-05],
+        [ 6.5193e-08,  1.5763e-07, -2.6054e-07,  ...,  1.1874e-07,
+         -1.5344e-07,  9.9652e-08],
+        [ 3.3677e-06,  3.0696e-06,  1.2785e-05,  ...,  5.1595e-06,
+          1.2890e-05,  5.2527e-06],
+        ...,
+        [ 2.9519e-05,  2.7031e-05,  1.0395e-04,  ...,  4.2289e-05,
+          1.0300e-04,  4.2528e-05],
+        [ 1.1106e-07,  1.3853e-07, -4.8429e-08,  ...,  1.5693e-07,
+         -1.3364e-07, -2.3283e-10],
+        [ 1.0636e-06,  9.4343e-07,  4.4405e-06,  ...,  1.7015e-06,
+          4.5374e-06,  1.8021e-06]], device='cuda:0')
+Epoch 57, bias, value: tensor([ 0.2236, -0.0991,  0.0380,  0.0114,  0.5264, -0.1394, -0.5667],
+       device='cuda:0'), grad: tensor([-7.5626e-04, -9.3132e-10,  7.8321e-05,  1.4409e-05,  6.3515e-04,
+         1.3635e-06,  2.6494e-05], device='cuda:0')
+249
+0.000954915028125264
+changing lr
+epoch 56, time 347.41, cls_loss 0.0119 cls_loss_mapping 0.1096 cls_loss_causal 0.6021 re_mapping 0.0282 re_causal 0.0535 /// teacc 92.98 lr 0.00082713
+Epoch 58, weight, value: tensor([[ 0.0207,  0.0251, -0.0369,  ..., -0.0663, -0.1110, -0.0823],
+        [-0.0359, -0.0380, -0.0198,  ..., -0.0263, -0.0202, -0.0137],
+        [ 0.0188, -0.0189,  0.0372,  ..., -0.0849, -0.0819, -0.0721],
+        ...,
+        [-0.0037, -0.0298,  0.0430,  ..., -0.0228, -0.0334, -0.0301],
+        [-0.0105, -0.0229, -0.0022,  ..., -0.0515,  0.0016, -0.0525],
+        [ 0.0651,  0.1877,  0.0215,  ...,  0.0919,  0.0484,  0.1157]],
+       device='cuda:0'), grad: tensor([[ 6.9849e-10,  6.9849e-10,  2.5611e-09,  ...,  2.3283e-10,
+          2.0955e-09,  2.3283e-10],
+        [ 2.0955e-09,  2.3283e-09,  7.6834e-09,  ...,  6.9849e-10,
+          6.5193e-09,  9.3132e-10],
+        [-1.6531e-08, -1.6997e-08, -5.6112e-08,  ..., -4.6566e-09,
+         -4.7032e-08, -6.5193e-09],
+        ...,
+        [ 1.8626e-09,  1.8626e-09,  6.5193e-09,  ...,  6.9849e-10,
+          5.5879e-09,  9.3132e-10],
+        [ 7.2177e-09,  7.4506e-09,  2.4680e-08,  ...,  2.0955e-09,
+          2.0722e-08,  3.0268e-09],
+        [ 6.9849e-10,  6.9849e-10,  2.7940e-09,  ...,  2.3283e-10,
+          2.5611e-09,  4.6566e-10]], device='cuda:0')
+Epoch 58, bias, value: tensor([ 0.2244, -0.0993,  0.0384,  0.0119,  0.5244, -0.1393, -0.5663],
+       device='cuda:0'), grad: tensor([ 5.3551e-09,  1.6298e-08, -1.1828e-07,  3.1665e-08,  1.4901e-08,
+         5.2154e-08,  6.7521e-09], device='cuda:0')
+249
+0.0008271337313934874
+changing lr
+epoch 57, time 376.49, cls_loss 0.0116 cls_loss_mapping 0.1136 cls_loss_causal 0.6296 re_mapping 0.0275 re_causal 0.0539 /// teacc 92.40 lr 0.00070776
+Epoch 59, weight, value: tensor([[ 0.0208,  0.0253, -0.0363,  ..., -0.0659, -0.1101, -0.0819],
+        [-0.0360, -0.0381, -0.0201,  ..., -0.0264, -0.0205, -0.0138],
+        [ 0.0188, -0.0189,  0.0371,  ..., -0.0849, -0.0819, -0.0720],
+        ...,
+        [-0.0037, -0.0298,  0.0429,  ..., -0.0228, -0.0335, -0.0301],
+        [-0.0105, -0.0228, -0.0022,  ..., -0.0515,  0.0016, -0.0524],
+        [ 0.0650,  0.1875,  0.0214,  ...,  0.0918,  0.0483,  0.1155]],
+       device='cuda:0'), grad: tensor([[ 2.8219e-07,  3.6857e-07,  2.9244e-06,  ..., -5.0757e-07,
+          2.0470e-06, -4.2375e-07],
+        [-8.3912e-07, -7.2038e-07, -7.1563e-06,  ..., -8.2701e-07,
+         -6.3777e-06, -9.5321e-07],
+        [-2.9076e-06, -2.4326e-06, -1.1869e-05,  ..., -3.7178e-06,
+         -1.2442e-05, -4.3623e-06],
+        ...,
+        [ 2.9034e-07,  2.2585e-07,  2.2016e-06,  ...,  9.3365e-07,
+          2.5388e-06,  9.7509e-07],
+        [ 2.8107e-06,  2.2501e-06,  1.1228e-05,  ...,  2.5090e-06,
+          1.0677e-05,  3.0845e-06],
+        [ 1.0035e-07,  6.4261e-08,  6.9477e-07,  ...,  3.0361e-07,
+          7.8604e-07,  3.1339e-07]], device='cuda:0')
+Epoch 59, bias, value: tensor([ 0.2261, -0.1007,  0.0381,  0.0114,  0.5241, -0.1388, -0.5660],
+       device='cuda:0'), grad: tensor([ 1.1176e-05, -3.3289e-05, -3.5226e-05,  9.2983e-06,  1.0848e-05,
+         3.3617e-05,  3.5930e-06], device='cuda:0')
+249
+0.00070775603199067
+changing lr
+epoch 58, time 348.35, cls_loss 0.0117 cls_loss_mapping 0.1144 cls_loss_causal 0.6328 re_mapping 0.0285 re_causal 0.0533 /// teacc 92.40 lr 0.00059702
+Epoch 60, weight, value: tensor([[ 0.0208,  0.0253, -0.0363,  ..., -0.0659, -0.1100, -0.0818],
+        [-0.0360, -0.0380, -0.0203,  ..., -0.0264, -0.0206, -0.0138],
+        [ 0.0187, -0.0189,  0.0369,  ..., -0.0849, -0.0820, -0.0720],
+        ...,
+        [-0.0037, -0.0298,  0.0431,  ..., -0.0228, -0.0332, -0.0300],
+        [-0.0106, -0.0228, -0.0023,  ..., -0.0515,  0.0015, -0.0524],
+        [ 0.0650,  0.1874,  0.0213,  ...,  0.0917,  0.0482,  0.1154]],
+       device='cuda:0'), grad: tensor([[ 1.0012e-08,  7.2177e-09,  2.1653e-08,  ...,  3.2596e-09,
+          1.8394e-08,  4.8894e-09],
+        [ 6.9849e-10,  0.0000e+00,  1.1874e-08,  ...,  2.7940e-09,
+          1.2806e-08,  3.7253e-09],
+        [ 1.8626e-08,  0.0000e+00,  2.6240e-07,  ...,  9.2434e-08,
+          3.1875e-07,  1.0966e-07],
+        ...,
+        [ 3.0268e-09,  0.0000e+00,  5.2387e-08,  ...,  1.4668e-08,
+          5.8906e-08,  1.8394e-08],
+        [-2.4447e-08,  0.0000e+00, -3.6880e-07,  ..., -1.1991e-07,
+         -4.3539e-07, -1.4459e-07],
+        [-9.3132e-09, -7.9162e-09,  3.7253e-09,  ...,  3.9581e-09,
+          1.1176e-08,  4.4238e-09]], device='cuda:0')
+Epoch 60, bias, value: tensor([ 0.2262, -0.1010,  0.0375,  0.0116,  0.5244, -0.1389, -0.5656],
+       device='cuda:0'), grad: tensor([ 5.0524e-08,  7.7067e-08,  1.6429e-06,  9.4064e-08,  3.3434e-07,
+        -2.3246e-06,  1.1711e-07], device='cuda:0')
+249
+0.0005970223407163104
+changing lr
+epoch 59, time 345.73, cls_loss 0.0119 cls_loss_mapping 0.1103 cls_loss_causal 0.6765 re_mapping 0.0283 re_causal 0.0535 /// teacc 91.81 lr 0.00049516
+Epoch 61, weight, value: tensor([[ 0.0208,  0.0252, -0.0365,  ..., -0.0659, -0.1102, -0.0818],
+        [-0.0359, -0.0380, -0.0201,  ..., -0.0263, -0.0205, -0.0138],
+        [ 0.0187, -0.0189,  0.0370,  ..., -0.0848, -0.0819, -0.0719],
+        ...,
+        [-0.0036, -0.0297,  0.0436,  ..., -0.0226, -0.0326, -0.0298],
+        [-0.0105, -0.0228, -0.0023,  ..., -0.0515,  0.0014, -0.0524],
+        [ 0.0649,  0.1872,  0.0213,  ...,  0.0916,  0.0481,  0.1153]],
+       device='cuda:0'), grad: tensor([[ 4.6253e-05,  6.1572e-05,  5.0497e-04,  ...,  2.6250e-04,
+          5.8270e-04,  1.9765e-04],
+        [ 4.1835e-06,  3.6862e-06,  2.5585e-05,  ...,  4.8950e-06,
+          2.0474e-05,  4.6268e-06],
+        [ 2.0102e-05,  1.8865e-05,  1.2565e-04,  ...,  3.6746e-05,
+          1.1319e-04,  3.0190e-05],
+        ...,
+        [-9.2268e-05, -1.0306e-04, -7.8583e-04,  ..., -3.2687e-04,
+         -8.1778e-04, -2.5463e-04],
+        [ 1.0476e-05,  8.9481e-06,  6.1095e-05,  ...,  9.4324e-06,
+          4.6521e-05,  9.6112e-06],
+        [ 7.7114e-06,  6.6534e-06,  4.5508e-05,  ...,  7.6964e-06,
+          3.5346e-05,  7.5698e-06]], device='cuda:0')
+Epoch 61, bias, value: tensor([ 0.2248, -0.1002,  0.0378,  0.0107,  0.5253, -0.1390, -0.5653],
+       device='cuda:0'), grad: tensor([ 0.0040,  0.0001,  0.0008,  0.0001, -0.0057,  0.0003,  0.0003],
+       device='cuda:0')
+249
+0.0004951556604879052
+changing lr
+epoch 60, time 352.12, cls_loss 0.0114 cls_loss_mapping 0.1141 cls_loss_causal 0.6381 re_mapping 0.0275 re_causal 0.0531 /// teacc 92.98 lr 0.00040236
+Epoch 62, weight, value: tensor([[ 0.0208,  0.0252, -0.0365,  ..., -0.0659, -0.1102, -0.0818],
+        [-0.0359, -0.0379, -0.0199,  ..., -0.0263, -0.0203, -0.0137],
+        [ 0.0187, -0.0188,  0.0369,  ..., -0.0848, -0.0819, -0.0719],
+        ...,
+        [-0.0036, -0.0297,  0.0433,  ..., -0.0226, -0.0328, -0.0299],
+        [-0.0105, -0.0228, -0.0023,  ..., -0.0514,  0.0014, -0.0524],
+        [ 0.0649,  0.1871,  0.0213,  ...,  0.0915,  0.0481,  0.1153]],
+       device='cuda:0'), grad: tensor([[ 1.0245e-08,  3.7253e-09,  1.2573e-07,  ...,  2.3283e-09,
+          8.9407e-08,  8.8476e-09],
+        [-1.2107e-08, -4.1910e-09, -1.4901e-07,  ..., -1.3970e-09,
+         -1.0338e-07, -8.8476e-09],
+        [ 4.6566e-10,  0.0000e+00,  6.0536e-09,  ...,  1.8626e-09,
+          6.5193e-09,  1.8626e-09],
+        ...,
+        [ 2.7940e-09,  9.3132e-10,  3.4459e-08,  ...,  1.8626e-09,
+          2.6543e-08,  3.7253e-09],
+        [-3.7253e-09,  0.0000e+00, -4.6566e-08,  ..., -1.4435e-08,
+         -5.3085e-08, -1.5832e-08],
+        [ 9.3132e-10,  0.0000e+00,  1.4435e-08,  ...,  4.1910e-09,
+          1.6298e-08,  4.6566e-09]], device='cuda:0')
+Epoch 62, bias, value: tensor([ 0.2244, -0.0993,  0.0373,  0.0113,  0.5244, -0.1389, -0.5651],
+       device='cuda:0'), grad: tensor([ 1.2144e-06, -1.4575e-06,  4.0513e-08,  1.2666e-07,  3.1944e-07,
+        -2.9523e-07,  9.4064e-08], device='cuda:0')
+249
+0.00040236113724274745
+changing lr
+epoch 61, time 346.83, cls_loss 0.0095 cls_loss_mapping 0.1049 cls_loss_causal 0.6761 re_mapping 0.0273 re_causal 0.0569 /// teacc 92.40 lr 0.00031883
+Epoch 63, weight, value: tensor([[ 0.0208,  0.0252, -0.0365,  ..., -0.0659, -0.1101, -0.0817],
+        [-0.0359, -0.0379, -0.0199,  ..., -0.0262, -0.0203, -0.0137],
+        [ 0.0187, -0.0188,  0.0369,  ..., -0.0847, -0.0819, -0.0719],
+        ...,
+        [-0.0036, -0.0297,  0.0434,  ..., -0.0226, -0.0328, -0.0298],
+        [-0.0105, -0.0228, -0.0023,  ..., -0.0514,  0.0014, -0.0523],
+        [ 0.0648,  0.1870,  0.0212,  ...,  0.0915,  0.0481,  0.1152]],
+       device='cuda:0'), grad: tensor([[ 3.4785e-07,  5.5879e-08,  3.0063e-06,  ...,  2.0433e-06,
+          4.2580e-06,  1.8263e-06],
+        [ 6.0536e-09, -3.2596e-09,  4.8429e-08,  ...,  5.4948e-08,
+          9.0804e-08,  4.7497e-08],
+        [ 2.3749e-08,  1.3970e-09,  2.2352e-07,  ...,  1.5460e-07,
+          3.2084e-07,  1.3690e-07],
+        ...,
+        [-4.3260e-07, -6.4727e-08, -3.7365e-06,  ..., -2.5649e-06,
+         -5.3197e-06, -2.2911e-06],
+        [ 1.6764e-08,  3.2596e-09,  1.4296e-07,  ...,  9.6858e-08,
+          2.0163e-07,  8.6613e-08],
+        [ 1.5832e-08,  3.2596e-09,  1.3271e-07,  ...,  8.9407e-08,
+          1.8626e-07,  8.0094e-08]], device='cuda:0')
+Epoch 63, bias, value: tensor([ 0.2242, -0.0994,  0.0373,  0.0114,  0.5243, -0.1388, -0.5648],
+       device='cuda:0'), grad: tensor([ 1.7613e-05,  2.6822e-07,  1.3281e-06,  1.0775e-06, -2.1890e-05,
+         8.3307e-07,  7.7114e-07], device='cuda:0')
+249
+0.00031882564680131423
+changing lr
+epoch 62, time 350.05, cls_loss 0.0106 cls_loss_mapping 0.1023 cls_loss_causal 0.6294 re_mapping 0.0283 re_causal 0.0536 /// teacc 94.15 lr 0.00024472
+Epoch 64, weight, value: tensor([[ 0.0208,  0.0252, -0.0364,  ..., -0.0658, -0.1100, -0.0816],
+        [-0.0359, -0.0379, -0.0199,  ..., -0.0262, -0.0203, -0.0137],
+        [ 0.0187, -0.0188,  0.0369,  ..., -0.0847, -0.0818, -0.0719],
+        ...,
+        [-0.0036, -0.0297,  0.0433,  ..., -0.0226, -0.0328, -0.0299],
+        [-0.0105, -0.0228, -0.0023,  ..., -0.0514,  0.0014, -0.0523],
+        [ 0.0648,  0.1869,  0.0212,  ...,  0.0914,  0.0480,  0.1152]],
+       device='cuda:0'), grad: tensor([[ 6.7167e-06,  5.4836e-06,  5.4657e-05,  ...,  2.2575e-05,
+          6.0171e-05,  2.3410e-05],
+        [-4.5478e-05, -3.7491e-05, -3.7265e-04,  ..., -1.5616e-04,
+         -4.1270e-04, -1.6129e-04],
+        [-3.0193e-06, -2.0340e-06, -2.1368e-05,  ..., -5.6773e-06,
+         -1.9714e-05, -6.5938e-06],
+        ...,
+        [ 3.9160e-05,  3.2187e-05,  3.1996e-04,  ...,  1.3328e-04,
+          3.5357e-04,  1.3781e-04],
+        [ 1.5711e-06,  1.0915e-06,  1.1586e-05,  ...,  3.5428e-06,
+          1.1206e-05,  3.9823e-06],
+        [ 3.3574e-07,  2.4680e-07,  2.5537e-06,  ...,  8.7265e-07,
+          2.5854e-06,  9.4902e-07]], device='cuda:0')
+Epoch 64, bias, value: tensor([ 0.2244, -0.0992,  0.0373,  0.0111,  0.5240, -0.1387, -0.5647],
+       device='cuda:0'), grad: tensor([ 3.9625e-04, -2.6951e-03, -1.6081e-04,  3.8087e-05,  2.3155e-03,
+         8.8155e-05,  1.9044e-05], device='cuda:0')
+249
+0.0002447174185242325
+changing lr
+epoch 63, time 349.59, cls_loss 0.0104 cls_loss_mapping 0.1057 cls_loss_causal 0.6085 re_mapping 0.0285 re_causal 0.0531 /// teacc 92.40 lr 0.00018019
+Epoch 65, weight, value: tensor([[ 0.0208,  0.0252, -0.0364,  ..., -0.0658, -0.1100, -0.0816],
+        [-0.0358, -0.0379, -0.0199,  ..., -0.0262, -0.0202, -0.0137],
+        [ 0.0187, -0.0188,  0.0369,  ..., -0.0847, -0.0817, -0.0718],
+        ...,
+        [-0.0036, -0.0297,  0.0432,  ..., -0.0226, -0.0329, -0.0299],
+        [-0.0105, -0.0228, -0.0022,  ..., -0.0514,  0.0015, -0.0523],
+        [ 0.0648,  0.1869,  0.0212,  ...,  0.0914,  0.0480,  0.1151]],
+       device='cuda:0'), grad: tensor([[-2.6748e-06, -2.0582e-06, -1.2316e-05,  ..., -4.2096e-06,
+         -1.1683e-05, -3.3285e-06],
+        [ 5.5740e-07,  4.2049e-07,  2.5891e-06,  ...,  9.0618e-07,
+          2.4661e-06,  7.1293e-07],
+        [ 8.3819e-09,  7.4506e-09,  3.5390e-08,  ...,  9.3132e-09,
+          3.1665e-08,  7.4506e-09],
+        ...,
+        [ 2.0694e-06,  1.5972e-06,  9.5293e-06,  ...,  3.2485e-06,
+          9.0301e-06,  2.5686e-06],
+        [ 1.3970e-09,  9.3132e-10,  5.5879e-09,  ...,  1.8626e-09,
+          5.1223e-09,  1.3970e-09],
+        [ 1.6298e-08,  1.5832e-08,  6.5193e-08,  ...,  1.3504e-08,
+          5.7276e-08,  1.2107e-08]], device='cuda:0')
+Epoch 65, bias, value: tensor([ 0.2243, -0.0992,  0.0374,  0.0111,  0.5236, -0.1383, -0.5645],
+       device='cuda:0'), grad: tensor([-3.7402e-05,  7.9349e-06,  9.6392e-08,  2.9430e-07,  2.8893e-05,
+         1.6764e-08,  1.6717e-07], device='cuda:0')
+249
+0.0001801856965207339
+changing lr
+epoch 64, time 344.76, cls_loss 0.0114 cls_loss_mapping 0.1071 cls_loss_causal 0.6610 re_mapping 0.0270 re_causal 0.0537 /// teacc 92.98 lr 0.00012536
+Epoch 66, weight, value: tensor([[ 0.0208,  0.0252, -0.0364,  ..., -0.0658, -0.1099, -0.0816],
+        [-0.0358, -0.0379, -0.0199,  ..., -0.0262, -0.0203, -0.0137],
+        [ 0.0187, -0.0188,  0.0369,  ..., -0.0846, -0.0817, -0.0718],
+        ...,
+        [-0.0036, -0.0297,  0.0432,  ..., -0.0226, -0.0329, -0.0299],
+        [-0.0105, -0.0228, -0.0022,  ..., -0.0513,  0.0015, -0.0523],
+        [ 0.0648,  0.1868,  0.0212,  ...,  0.0914,  0.0480,  0.1151]],
+       device='cuda:0'), grad: tensor([[-9.0804e-07, -9.2201e-08, -9.3803e-06,  ..., -6.5751e-06,
+         -1.2361e-05, -6.6906e-06],
+        [ 1.5413e-07,  3.9581e-08,  1.1614e-06,  ...,  7.3295e-07,
+          1.4473e-06,  7.4739e-07],
+        [-1.1558e-06, -5.9744e-07, -3.2261e-06,  ..., -6.3749e-07,
+         -2.5984e-06, -6.8406e-07],
+        ...,
+        [ 5.5227e-07,  1.1967e-07,  4.5411e-06,  ...,  2.9691e-06,
+          5.7630e-06,  3.0249e-06],
+        [ 5.0338e-07,  2.4168e-07,  1.7425e-06,  ...,  5.7649e-07,
+          1.6401e-06,  6.0070e-07],
+        [ 3.6415e-07,  1.2945e-07,  2.0899e-06,  ...,  1.1530e-06,
+          2.4363e-06,  1.1791e-06]], device='cuda:0')
+Epoch 66, bias, value: tensor([ 0.2242, -0.0993,  0.0375,  0.0111,  0.5233, -0.1382, -0.5644],
+       device='cuda:0'), grad: tensor([-7.1764e-05,  8.9332e-06, -2.5719e-05,  2.3767e-05,  3.4869e-05,
+         1.3739e-05,  1.6198e-05], device='cuda:0')
+249
+0.000125360439090882
+changing lr
+epoch 65, time 347.47, cls_loss 0.0074 cls_loss_mapping 0.1005 cls_loss_causal 0.6283 re_mapping 0.0267 re_causal 0.0555 /// teacc 92.98 lr 0.00008035
+Epoch 67, weight, value: tensor([[ 0.0208,  0.0252, -0.0363,  ..., -0.0658, -0.1099, -0.0816],
+        [-0.0358, -0.0379, -0.0199,  ..., -0.0262, -0.0203, -0.0137],
+        [ 0.0187, -0.0188,  0.0369,  ..., -0.0846, -0.0817, -0.0718],
+        ...,
+        [-0.0036, -0.0297,  0.0432,  ..., -0.0226, -0.0329, -0.0299],
+        [-0.0105, -0.0228, -0.0022,  ..., -0.0513,  0.0015, -0.0523],
+        [ 0.0648,  0.1868,  0.0212,  ...,  0.0914,  0.0480,  0.1151]],
+       device='cuda:0'), grad: tensor([[-8.9873e-08, -8.8476e-08, -5.7323e-07,  ..., -3.3528e-08,
+         -5.2247e-07, -5.7742e-08],
+        [-1.3970e-08, -2.0955e-08, -9.2667e-08,  ..., -1.9558e-08,
+         -8.4750e-08, -1.8626e-08],
+        [ 3.7253e-09,  2.7940e-09,  2.0489e-08,  ...,  1.3970e-09,
+          1.7695e-08,  2.3283e-09],
+        ...,
+        [ 9.4529e-08,  9.4529e-08,  5.8860e-07,  ...,  4.7032e-08,
+          5.3411e-07,  6.8918e-08],
+        [-1.9092e-08, -2.7940e-09, -6.6590e-08,  ..., -2.7940e-09,
+         -4.8894e-08, -8.8476e-09],
+        [ 2.2817e-08,  1.3039e-08,  1.1083e-07,  ...,  9.3132e-09,
+          9.4995e-08,  1.5367e-08]], device='cuda:0')
+Epoch 67, bias, value: tensor([ 0.2242, -0.0993,  0.0374,  0.0111,  0.5233, -0.1382, -0.5644],
+       device='cuda:0'), grad: tensor([-2.8703e-06, -4.4191e-07,  8.5682e-08,  8.1025e-08,  2.8610e-06,
+        -9.1735e-08,  4.0047e-07], device='cuda:0')
+249
+8.03520570068517e-05
+changing lr
+epoch 66, time 350.79, cls_loss 0.0102 cls_loss_mapping 0.1035 cls_loss_causal 0.6503 re_mapping 0.0282 re_causal 0.0544 /// teacc 92.98 lr 0.00004525
+Epoch 68, weight, value: tensor([[ 0.0208,  0.0252, -0.0363,  ..., -0.0657, -0.1098, -0.0816],
+        [-0.0358, -0.0379, -0.0199,  ..., -0.0262, -0.0203, -0.0137],
+        [ 0.0187, -0.0188,  0.0369,  ..., -0.0846, -0.0817, -0.0718],
+        ...,
+        [-0.0036, -0.0297,  0.0432,  ..., -0.0226, -0.0330, -0.0299],
+        [-0.0105, -0.0228, -0.0022,  ..., -0.0513,  0.0015, -0.0523],
+        [ 0.0647,  0.1868,  0.0212,  ...,  0.0914,  0.0480,  0.1151]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-09, -1.6578e-07,  3.4040e-07,  ...,  8.8708e-07,
+          1.9390e-06,  1.2936e-06],
+        [ 5.5656e-06,  2.6505e-06,  3.2008e-05,  ...,  6.8583e-06,
+          3.1292e-05,  9.4473e-06],
+        [ 1.8822e-06, -2.0154e-06, -5.2452e-06,  ..., -6.8061e-06,
+         -1.0513e-05, -6.3330e-06],
+        ...,
+        [ 7.3723e-06,  3.7421e-06,  4.2647e-05,  ...,  8.7246e-06,
+          4.0591e-05,  1.1817e-05],
+        [-2.2918e-05, -8.0541e-06, -1.1629e-04,  ..., -1.9357e-05,
+         -1.0854e-04, -2.9698e-05],
+        [ 6.1579e-06,  2.8070e-06,  3.4779e-05,  ...,  7.3351e-06,
+          3.3885e-05,  1.0177e-05]], device='cuda:0')
+Epoch 68, bias, value: tensor([ 0.2243, -0.0993,  0.0374,  0.0110,  0.5232, -0.1381, -0.5643],
+       device='cuda:0'), grad: tensor([ 4.2133e-06,  1.1146e-04, -1.1331e-04,  4.3392e-05,  1.4925e-04,
+        -3.1281e-04,  1.1742e-04], device='cuda:0')
+249
+4.5251191160326525e-05
+changing lr
+epoch 67, time 348.82, cls_loss 0.0106 cls_loss_mapping 0.1088 cls_loss_causal 0.6864 re_mapping 0.0277 re_causal 0.0531 /// teacc 94.15 lr 0.00002013
+Epoch 69, weight, value: tensor([[ 0.0208,  0.0252, -0.0362,  ..., -0.0657, -0.1098, -0.0816],
+        [-0.0358, -0.0379, -0.0199,  ..., -0.0262, -0.0203, -0.0137],
+        [ 0.0187, -0.0188,  0.0369,  ..., -0.0846, -0.0817, -0.0718],
+        ...,
+        [-0.0037, -0.0297,  0.0431,  ..., -0.0227, -0.0330, -0.0299],
+        [-0.0105, -0.0228, -0.0022,  ..., -0.0513,  0.0015, -0.0523],
+        [ 0.0647,  0.1868,  0.0212,  ...,  0.0914,  0.0480,  0.1150]],
+       device='cuda:0'), grad: tensor([[-1.3970e-09, -1.8626e-09, -8.8476e-09,  ..., -2.3283e-09,
+         -8.3819e-09, -2.3283e-09],
+        [ 2.7940e-09,  1.3970e-09,  9.3132e-09,  ...,  1.8626e-09,
+          7.4506e-09,  2.3283e-09],
+        [ 6.0536e-09,  2.7940e-09,  2.1886e-08,  ...,  3.7253e-09,
+          1.7695e-08,  5.1223e-09],
+        ...,
+        [ 1.9558e-08,  9.7789e-09,  7.5437e-08,  ...,  1.3970e-08,
+          6.1933e-08,  1.7229e-08],
+        [-2.1560e-07, -9.8720e-08, -7.9814e-07,  ..., -1.4249e-07,
+         -6.4913e-07, -1.8161e-07],
+        [ 3.6322e-08,  1.6764e-08,  1.3597e-07,  ...,  2.4214e-08,
+          1.1083e-07,  3.1199e-08]], device='cuda:0')
+Epoch 69, bias, value: tensor([ 0.2244, -0.0993,  0.0374,  0.0110,  0.5230, -0.1381, -0.5643],
+       device='cuda:0'), grad: tensor([-7.5437e-08,  1.5367e-08,  6.5193e-08,  1.6261e-06,  2.5705e-07,
+        -2.2799e-06,  3.9907e-07], device='cuda:0')
+249
+2.0128530023804673e-05
+changing lr
+epoch 68, time 348.35, cls_loss 0.0081 cls_loss_mapping 0.0988 cls_loss_causal 0.6166 re_mapping 0.0275 re_causal 0.0561 /// teacc 92.98 lr 0.00000503
+Epoch 70, weight, value: tensor([[ 0.0208,  0.0252, -0.0362,  ..., -0.0657, -0.1098, -0.0816],
+        [-0.0358, -0.0379, -0.0199,  ..., -0.0262, -0.0203, -0.0137],
+        [ 0.0187, -0.0188,  0.0369,  ..., -0.0846, -0.0817, -0.0718],
+        ...,
+        [-0.0036, -0.0297,  0.0431,  ..., -0.0226, -0.0330, -0.0299],
+        [-0.0105, -0.0228, -0.0022,  ..., -0.0513,  0.0015, -0.0523],
+        [ 0.0647,  0.1868,  0.0212,  ...,  0.0914,  0.0480,  0.1150]],
+       device='cuda:0'), grad: tensor([[ 1.6321e-07,  1.0757e-07,  8.1025e-07,  ...,  8.5915e-08,
+          8.3540e-07,  1.4552e-07],
+        [-1.7928e-07, -8.5915e-08, -8.9034e-07,  ..., -8.5915e-08,
+         -9.1083e-07, -1.5227e-07],
+        [ 6.4261e-08,  6.8452e-08,  3.1642e-07,  ...,  4.1211e-08,
+          3.3132e-07,  6.4494e-08],
+        ...,
+        [-6.8918e-08, -9.8720e-08, -3.4203e-07,  ..., -4.8662e-08,
+         -3.6345e-07, -7.3109e-08],
+        [ 1.4435e-08,  5.8208e-09,  7.5903e-08,  ...,  4.6566e-09,
+          7.7533e-08,  1.0012e-08],
+        [ 4.1910e-09,  3.0268e-09,  1.9558e-08,  ...,  3.0268e-09,
+          2.0023e-08,  4.4238e-09]], device='cuda:0')
+Epoch 70, bias, value: tensor([ 0.2244, -0.0993,  0.0374,  0.0110,  0.5230, -0.1381, -0.5643],
+       device='cuda:0'), grad: tensor([ 1.9502e-06, -2.0340e-06,  8.4704e-07,  5.7044e-08, -1.0040e-06,
+         1.7532e-07,  4.5868e-08], device='cuda:0')
+249
+5.034667293427056e-06
+changing lr
+epoch 69, time 350.06, cls_loss 0.0124 cls_loss_mapping 0.1044 cls_loss_causal 0.6741 re_mapping 0.0288 re_causal 0.0534 /// teacc 91.81 lr 0.00000000
+---------------------saving last model at epoch 69----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//photo/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1', 'source_domain': 'photo', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//photo/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1/photo_16factor_best_test_check.csv', 'factor_num': 16, 'epoch': 'best', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of best
+randm: False
+stride: 5
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+columns: ['photo', 'art_painting', 'cartoon', 'sketch']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+                         photo  art_painting    cartoon    sketch        Avg
+w/o do (original x)  99.461078     55.761719  49.616041  61.28786  55.555206
+        photo  art_painting  cartoon     sketch        Avg
+do  98.802395     57.617188     50.0  60.269789  55.962325
diff --git a/Meta-causal/code-withStyleAttack/64947.error b/Meta-causal/code-withStyleAttack/64947.error
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/Meta-causal/code-withStyleAttack/64947.log b/Meta-causal/code-withStyleAttack/64947.log
new file mode 100644
index 0000000000000000000000000000000000000000..6c545012ab5f4d2f633171db662ccc1fee29cadd
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/64947.log
@@ -0,0 +1,1939 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'sketch', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 5, 'factor_num': 16, 'epochs': 70, 'nbatch': 100, 'batchsize': 6, 'lr': 0.01, 'lr_scheduler': 'cosine', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 5
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_train.hdf5 torch.Size([3531, 3, 227, 227]) torch.Size([3531])
+--------------------------CA_multiple--------------------------
+---------------------------16 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_val.hdf5 torch.Size([398, 3, 227, 227]) torch.Size([398])
+-------------------------------------loading pretrain weights----------------------------------
+Epoch 1, weight, value: tensor([[-0.0208, -0.0220,  0.0164,  ...,  0.0019,  0.0060,  0.0055],
+        [ 0.0100,  0.0072,  0.0083,  ..., -0.0045, -0.0209, -0.0166],
+        [ 0.0103,  0.0061,  0.0040,  ..., -0.0083, -0.0102,  0.0187],
+        ...,
+        [ 0.0074,  0.0004, -0.0085,  ..., -0.0055,  0.0045,  0.0045],
+        [ 0.0123, -0.0002, -0.0053,  ...,  0.0055, -0.0196, -0.0166],
+        [-0.0206,  0.0139,  0.0016,  ..., -0.0135,  0.0219, -0.0163]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([-0.0178,  0.0114,  0.0058, -0.0179,  0.0187,  0.0121, -0.0002],
+       device='cuda:0'), grad: None
+588
+0.01
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 808.00, cls_loss 7.4242 cls_loss_mapping 1.5280 cls_loss_causal 1.6920 re_mapping 0.2361 re_causal 0.2355 /// teacc 58.79 lr 0.00999497
+Epoch 2, weight, value: tensor([[-0.0031, -0.0020,  0.0128,  ...,  0.0158,  0.0300,  0.0269],
+        [ 0.1318,  0.1076,  0.0753,  ..., -0.0284, -0.0293, -0.0291],
+        [-0.0311, -0.0348,  0.0314,  ...,  0.0709,  0.0060,  0.0512],
+        ...,
+        [-0.1643, -0.1202, -0.1104,  ...,  0.0602,  0.0656,  0.0368],
+        [ 0.1364,  0.0869,  0.0833,  ..., -0.0678, -0.0868, -0.0781],
+        [-0.0035,  0.0195, -0.0150,  ..., -0.0955, -0.0366, -0.0639]],
+       device='cuda:0'), grad: tensor([[ 1.4246e-01,  4.9591e-02,  4.4464e-02,  ...,  4.6326e-02,
+          4.4983e-02,  1.6815e-02],
+        [-4.0009e-02, -1.2909e-02, -7.5607e-03,  ..., -1.5297e-02,
+         -1.6342e-02, -6.8398e-03],
+        [-9.7168e-02, -3.3356e-02, -3.5645e-02,  ..., -3.4088e-02,
+         -2.8824e-02, -9.9335e-03],
+        ...,
+        [-3.7323e-02, -1.3939e-02, -1.0986e-02,  ..., -6.9771e-03,
+         -8.4991e-03, -2.9697e-03],
+        [ 1.8387e-03,  6.6328e-04,  5.3406e-04,  ...,  6.3944e-04,
+          6.3848e-04,  2.6083e-04],
+        [ 1.7262e-04,  5.7131e-05,  5.0813e-05,  ...,  5.4508e-05,
+          4.8101e-05,  1.6570e-05]], device='cuda:0')
+Epoch 2, bias, value: tensor([-0.0211, -0.0330,  0.0198,  0.0471, -0.0429,  0.0361,  0.0054],
+       device='cuda:0'), grad: tensor([ 0.3125, -0.1070, -0.2090,  0.0684, -0.0692,  0.0041,  0.0004],
+       device='cuda:0')
+588
+0.009994965332706574
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 814.99, cls_loss 0.9246 cls_loss_mapping 0.9319 cls_loss_causal 1.3704 re_mapping 0.0927 re_causal 0.0920 /// teacc 63.57 lr 0.00997987
+Epoch 3, weight, value: tensor([[ 0.0241,  0.0225,  0.0199,  ...,  0.0375,  0.0633,  0.0597],
+        [ 0.0934,  0.0721,  0.0373,  ..., -0.0349, -0.0409, -0.0381],
+        [-0.0102, -0.0210,  0.0503,  ...,  0.0576, -0.0119,  0.0319],
+        ...,
+        [-0.1723, -0.1231, -0.1008,  ...,  0.0570,  0.0629,  0.0307],
+        [ 0.1450,  0.0950,  0.0944,  ..., -0.0800, -0.0971, -0.0869],
+        [-0.0020,  0.0219, -0.0180,  ..., -0.0981, -0.0372, -0.0616]],
+       device='cuda:0'), grad: tensor([[-4.3732e-02, -1.3214e-02, -7.5569e-03,  ..., -2.2293e-02,
+         -2.5269e-02, -1.8829e-02],
+        [ 4.2152e-03,  1.6422e-03,  1.0777e-03,  ...,  1.3571e-03,
+          1.5516e-03,  1.1444e-03],
+        [ 1.9958e-02,  5.8060e-03,  3.2330e-03,  ...,  1.0559e-02,
+          1.1971e-02,  8.9111e-03],
+        ...,
+        [ 1.5152e-02,  4.4861e-03,  2.5291e-03,  ...,  8.0414e-03,
+          9.1019e-03,  6.8016e-03],
+        [ 2.3627e-04,  6.9618e-05,  3.9160e-05,  ...,  1.2517e-04,
+          1.4174e-04,  1.0562e-04],
+        [ 2.0713e-05,  4.4778e-06,  2.8610e-06,  ...,  1.4633e-05,
+          1.6212e-05,  1.1973e-05]], device='cuda:0')
+Epoch 3, bias, value: tensor([ 0.0072, -0.0282,  0.0243,  0.0413, -0.0554,  0.0151,  0.0064],
+       device='cuda:0'), grad: tensor([-1.1499e-01,  9.4757e-03,  5.3375e-02,  1.1086e-02,  4.0375e-02,
+         6.2943e-04,  6.2585e-05], device='cuda:0')
+588
+0.009979871469976196
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 817.05, cls_loss 0.5564 cls_loss_mapping 0.5713 cls_loss_causal 1.1146 re_mapping 0.0838 re_causal 0.0829 /// teacc 74.37 lr 0.00995475
+Epoch 4, weight, value: tensor([[ 0.0254,  0.0233,  0.0175,  ...,  0.0372,  0.0729,  0.0651],
+        [ 0.0889,  0.0631,  0.0286,  ..., -0.0262, -0.0341, -0.0294],
+        [-0.0140, -0.0197,  0.0500,  ...,  0.0424, -0.0304,  0.0150],
+        ...,
+        [-0.1693, -0.1204, -0.0955,  ...,  0.0552,  0.0656,  0.0328],
+        [ 0.1554,  0.1025,  0.1018,  ..., -0.0833, -0.1015, -0.0903],
+        [-0.0044,  0.0212, -0.0197,  ..., -0.0954, -0.0348, -0.0581]],
+       device='cuda:0'), grad: tensor([[-9.0551e-04, -1.7595e-04, -1.8907e-04,  ..., -2.0266e-04,
+         -2.7013e-04, -2.0099e-04],
+        [ 8.4281e-05,  1.9148e-05,  1.9908e-05,  ...,  1.7017e-05,
+          2.3603e-05,  1.7703e-05],
+        [ 5.8413e-05,  1.0587e-05,  1.1586e-05,  ...,  1.3597e-05,
+          1.7911e-05,  1.3277e-05],
+        ...,
+        [ 6.3276e-04,  1.1927e-04,  1.2910e-04,  ...,  1.4400e-04,
+          1.9073e-04,  1.4174e-04],
+        [ 1.1668e-05,  2.5332e-06,  2.6636e-06,  ...,  2.4624e-06,
+          3.3677e-06,  2.5183e-06],
+        [ 3.7141e-06,  7.7859e-07,  8.2701e-07,  ...,  7.9721e-07,
+          1.0841e-06,  8.0839e-07]], device='cuda:0')
+Epoch 4, bias, value: tensor([ 0.0101, -0.0139,  0.0060,  0.0420, -0.0526,  0.0196, -0.0008],
+       device='cuda:0'), grad: tensor([-2.4834e-03,  2.2125e-04,  1.6344e-04,  3.0804e-04,  1.7481e-03,
+         3.1203e-05,  1.0014e-05], device='cuda:0')
+588
+0.009954748808839675
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 816.59, cls_loss 0.4075 cls_loss_mapping 0.3747 cls_loss_causal 0.9471 re_mapping 0.0793 re_causal 0.0785 /// teacc 82.91 lr 0.00991965
+Epoch 5, weight, value: tensor([[ 0.0587,  0.0530,  0.0429,  ...,  0.0455,  0.0862,  0.0758],
+        [ 0.0638,  0.0423,  0.0081,  ..., -0.0265, -0.0333, -0.0300],
+        [-0.0198, -0.0299,  0.0373,  ...,  0.0311, -0.0395,  0.0039],
+        ...,
+        [-0.1696, -0.1202, -0.0889,  ...,  0.0488,  0.0549,  0.0276],
+        [ 0.1541,  0.1041,  0.1031,  ..., -0.0847, -0.1032, -0.0916],
+        [ 0.0019,  0.0266, -0.0159,  ..., -0.0918, -0.0314, -0.0543]],
+       device='cuda:0'), grad: tensor([[-0.0616, -0.0126, -0.0163,  ..., -0.0148, -0.0252, -0.0245],
+        [ 0.0148,  0.0030,  0.0038,  ...,  0.0036,  0.0058,  0.0057],
+        [ 0.0296,  0.0063,  0.0077,  ...,  0.0072,  0.0109,  0.0107],
+        ...,
+        [ 0.0063,  0.0008,  0.0018,  ...,  0.0015,  0.0047,  0.0045],
+        [ 0.0024,  0.0005,  0.0006,  ...,  0.0006,  0.0010,  0.0010],
+        [ 0.0011,  0.0002,  0.0003,  ...,  0.0003,  0.0004,  0.0004]],
+       device='cuda:0')
+Epoch 5, bias, value: tensor([ 0.0308, -0.0303,  0.0234,  0.0388, -0.0666,  0.0088,  0.0053],
+       device='cuda:0'), grad: tensor([-0.1545,  0.0386,  0.0775,  0.0186,  0.0105,  0.0064,  0.0030],
+       device='cuda:0')
+588
+0.009919647942993149
+changing lr
+epoch 4, time 813.70, cls_loss 0.3134 cls_loss_mapping 0.2826 cls_loss_causal 0.8661 re_mapping 0.0756 re_causal 0.0750 /// teacc 79.65 lr 0.00987464
+Epoch 6, weight, value: tensor([[ 0.0543,  0.0522,  0.0399,  ...,  0.0406,  0.0876,  0.0772],
+        [ 0.0528,  0.0340,  0.0004,  ..., -0.0232, -0.0285, -0.0257],
+        [-0.0175, -0.0272,  0.0388,  ...,  0.0211, -0.0511, -0.0094],
+        ...,
+        [-0.1690, -0.1242, -0.0903,  ...,  0.0546,  0.0608,  0.0338],
+        [ 0.1551,  0.1075,  0.1070,  ..., -0.0853, -0.1042, -0.0924],
+        [ 0.0127,  0.0348, -0.0096,  ..., -0.0896, -0.0303, -0.0522]],
+       device='cuda:0'), grad: tensor([[ 2.3499e-03,  1.0033e-03,  9.9850e-04,  ...,  1.0929e-03,
+          1.1692e-03,  1.2064e-03],
+        [-2.9125e-03, -1.2484e-03, -1.2417e-03,  ..., -1.3580e-03,
+         -1.4515e-03, -1.4982e-03],
+        [-1.9181e-04, -7.5772e-06, -1.7881e-05,  ..., -2.9355e-05,
+         -5.0336e-05, -5.4300e-05],
+        ...,
+        [ 9.0778e-05,  1.0014e-05,  1.3940e-05,  ...,  1.8895e-05,
+          2.7582e-05,  2.9400e-05],
+        [ 2.1681e-06,  8.0466e-07,  7.9907e-07,  ...,  8.4005e-07,
+          9.4809e-07,  9.8534e-07],
+        [ 2.9460e-05,  1.1928e-05,  1.1489e-05,  ...,  1.1235e-05,
+          1.2793e-05,  1.3262e-05]], device='cuda:0')
+Epoch 6, bias, value: tensor([ 2.3044e-02, -3.1049e-02,  1.9318e-02,  4.3537e-02, -6.0893e-02,
+        -9.9219e-05,  1.5851e-02], device='cuda:0'), grad: tensor([ 4.4403e-03, -5.4855e-03, -5.7840e-04,  1.3084e-03,  2.5487e-04,
+         4.4256e-06,  5.7220e-05], device='cuda:0')
+588
+0.009874639560909117
+changing lr
+epoch 5, time 816.31, cls_loss 0.2576 cls_loss_mapping 0.2196 cls_loss_causal 0.7947 re_mapping 0.0733 re_causal 0.0730 /// teacc 68.09 lr 0.00981981
+Epoch 7, weight, value: tensor([[ 0.0654,  0.0580,  0.0449,  ...,  0.0393,  0.0916,  0.0802],
+        [ 0.0489,  0.0304, -0.0033,  ..., -0.0207, -0.0244, -0.0211],
+        [-0.0205, -0.0309,  0.0346,  ...,  0.0150, -0.0583, -0.0180],
+        ...,
+        [-0.1776, -0.1272, -0.0928,  ...,  0.0570,  0.0628,  0.0360],
+        [ 0.1572,  0.1097,  0.1087,  ..., -0.0837, -0.1025, -0.0906],
+        [ 0.0154,  0.0374, -0.0072,  ..., -0.0894, -0.0337, -0.0543]],
+       device='cuda:0'), grad: tensor([[ 2.8763e-03,  1.4992e-03,  1.5965e-03,  ...,  4.7517e-04,
+          7.0667e-04,  7.4673e-04],
+        [-2.7885e-03, -1.4744e-03, -1.5659e-03,  ..., -4.5371e-04,
+         -6.7568e-04, -7.1335e-04],
+        [-4.0770e-05, -1.8165e-05, -1.9968e-05,  ..., -1.0021e-05,
+         -1.5117e-05, -1.5944e-05],
+        ...,
+        [-4.1306e-05, -2.6934e-06, -8.1509e-06,  ..., -1.0774e-05,
+         -1.5028e-05, -1.6659e-05],
+        [ 1.3821e-06,  5.4017e-07,  5.9605e-07,  ...,  2.9802e-07,
+          4.5076e-07,  4.8056e-07],
+        [-8.7321e-06, -5.0887e-06, -4.1500e-06,  ..., -3.6508e-07,
+         -9.2760e-07, -1.0021e-06]], device='cuda:0')
+Epoch 7, bias, value: tensor([ 0.0437, -0.0316,  0.0258,  0.0446, -0.0881,  0.0026,  0.0124],
+       device='cuda:0'), grad: tensor([ 4.6577e-03, -4.4403e-03, -8.0109e-05, -2.6338e-06, -1.3149e-04,
+         2.9169e-06, -1.2100e-05], device='cuda:0')
+588
+0.009819814303479266
+changing lr
+epoch 6, time 818.25, cls_loss 0.1873 cls_loss_mapping 0.1654 cls_loss_causal 0.7497 re_mapping 0.0694 re_causal 0.0692 /// teacc 82.66 lr 0.00975528
+Epoch 8, weight, value: tensor([[ 0.0525,  0.0526,  0.0366,  ...,  0.0360,  0.0902,  0.0794],
+        [ 0.0595,  0.0406,  0.0080,  ..., -0.0211, -0.0242, -0.0207],
+        [-0.0158, -0.0296,  0.0351,  ...,  0.0148, -0.0563, -0.0175],
+        ...,
+        [-0.1736, -0.1281, -0.0912,  ...,  0.0596,  0.0646,  0.0378],
+        [ 0.1559,  0.1095,  0.1088,  ..., -0.0824, -0.1009, -0.0893],
+        [ 0.0144,  0.0344, -0.0106,  ..., -0.0869, -0.0334, -0.0533]],
+       device='cuda:0'), grad: tensor([[-0.0395, -0.0124, -0.0165,  ..., -0.0090, -0.0090, -0.0092],
+        [ 0.0177,  0.0055,  0.0073,  ...,  0.0041,  0.0041,  0.0042],
+        [ 0.0131,  0.0041,  0.0054,  ...,  0.0029,  0.0029,  0.0030],
+        ...,
+        [ 0.0060,  0.0019,  0.0027,  ...,  0.0015,  0.0015,  0.0015],
+        [ 0.0008,  0.0002,  0.0003,  ...,  0.0002,  0.0002,  0.0002],
+        [ 0.0016,  0.0005,  0.0006,  ...,  0.0004,  0.0004,  0.0004]],
+       device='cuda:0')
+Epoch 8, bias, value: tensor([ 0.0272, -0.0320,  0.0361,  0.0317, -0.0745,  0.0015,  0.0192],
+       device='cuda:0'), grad: tensor([-0.0837,  0.0378,  0.0279,  0.0006,  0.0122,  0.0018,  0.0034],
+       device='cuda:0')
+588
+0.009755282581475767
+changing lr
+---------------------saving model at epoch 7----------------------------------------------------
+epoch 7, time 819.90, cls_loss 0.1601 cls_loss_mapping 0.1472 cls_loss_causal 0.7095 re_mapping 0.0678 re_causal 0.0680 /// teacc 87.19 lr 0.00968117
+Epoch 9, weight, value: tensor([[ 0.0682,  0.0640,  0.0488,  ...,  0.0328,  0.0870,  0.0772],
+        [ 0.0578,  0.0391,  0.0079,  ..., -0.0195, -0.0213, -0.0182],
+        [-0.0168, -0.0309,  0.0323,  ...,  0.0155, -0.0549, -0.0170],
+        ...,
+        [-0.1874, -0.1370, -0.0998,  ...,  0.0593,  0.0642,  0.0377],
+        [ 0.1556,  0.1098,  0.1089,  ..., -0.0811, -0.0990, -0.0878],
+        [ 0.0138,  0.0337, -0.0127,  ..., -0.0853, -0.0336, -0.0529]],
+       device='cuda:0'), grad: tensor([[ 2.3198e-04,  4.4197e-05,  4.7863e-05,  ...,  8.1241e-05,
+          7.5579e-05,  8.2672e-05],
+        [ 1.6642e-04,  2.4870e-05,  2.9132e-05,  ...,  3.4600e-05,
+          3.7372e-05,  3.7581e-05],
+        [-8.1396e-04, -1.6522e-04, -1.7905e-04,  ..., -2.9278e-04,
+         -2.5034e-04, -2.8634e-04],
+        ...,
+        [ 2.6441e-04,  6.7830e-05,  7.0870e-05,  ...,  1.3185e-04,
+          9.2685e-05,  1.1873e-04],
+        [ 6.4850e-05,  1.1407e-05,  1.2659e-05,  ...,  1.8835e-05,
+          1.8939e-05,  1.9878e-05],
+        [ 6.4135e-05,  1.2577e-05,  1.3813e-05,  ...,  1.9103e-05,
+          1.8761e-05,  2.0012e-05]], device='cuda:0')
+Epoch 9, bias, value: tensor([ 0.0404, -0.0317,  0.0415,  0.0336, -0.0923,  0.0013,  0.0160],
+       device='cuda:0'), grad: tensor([ 5.8842e-04,  5.0735e-04, -1.9464e-03,  5.7876e-05,  4.4751e-04,
+         1.7881e-04,  1.6797e-04], device='cuda:0')
+588
+0.009681174353198686
+changing lr
+---------------------saving model at epoch 8----------------------------------------------------
+epoch 8, time 816.90, cls_loss 0.0972 cls_loss_mapping 0.1247 cls_loss_causal 0.6614 re_mapping 0.0653 re_causal 0.0658 /// teacc 87.69 lr 0.00959764
+Epoch 10, weight, value: tensor([[ 0.0649,  0.0594,  0.0458,  ...,  0.0358,  0.0910,  0.0805],
+        [ 0.0608,  0.0405,  0.0098,  ..., -0.0244, -0.0258, -0.0222],
+        [-0.0181, -0.0319,  0.0302,  ...,  0.0187, -0.0479, -0.0123],
+        ...,
+        [-0.1769, -0.1286, -0.0939,  ...,  0.0563,  0.0585,  0.0340],
+        [ 0.1486,  0.1067,  0.1055,  ..., -0.0797, -0.0975, -0.0865],
+        [ 0.0117,  0.0320, -0.0136,  ..., -0.0836, -0.0337, -0.0524]],
+       device='cuda:0'), grad: tensor([[ 1.3912e-04,  1.3083e-05,  3.1382e-05,  ...,  1.8790e-05,
+          2.7537e-05,  2.7105e-05],
+        [ 1.4760e-05,  3.1404e-06,  4.3884e-06,  ...,  3.0473e-06,
+          4.1239e-06,  3.8967e-06],
+        [-2.3866e-04, -2.5272e-05, -5.5760e-05,  ..., -3.4124e-05,
+         -4.9949e-05, -4.8786e-05],
+        ...,
+        [ 6.2108e-05,  7.3090e-06,  1.5132e-05,  ...,  8.9258e-06,
+          1.3202e-05,  1.2845e-05],
+        [ 3.4384e-06,  5.6624e-07,  8.8289e-07,  ...,  4.7311e-07,
+          6.9290e-07,  6.6683e-07],
+        [ 1.0289e-05,  1.9372e-07,  2.1122e-06,  ...,  1.8664e-06,
+          2.6971e-06,  2.6338e-06]], device='cuda:0')
+Epoch 10, bias, value: tensor([ 0.0402, -0.0282,  0.0481,  0.0325, -0.0892, -0.0080,  0.0130],
+       device='cuda:0'), grad: tensor([ 3.9959e-04,  3.6925e-05, -6.7711e-04,  2.5898e-05,  1.7405e-04,
+         9.0674e-06,  3.2365e-05], device='cuda:0')
+588
+0.009597638862757255
+changing lr
+---------------------saving model at epoch 9----------------------------------------------------
+epoch 9, time 819.66, cls_loss 0.0605 cls_loss_mapping 0.0894 cls_loss_causal 0.6396 re_mapping 0.0631 re_causal 0.0640 /// teacc 87.94 lr 0.00950484
+Epoch 11, weight, value: tensor([[ 0.0652,  0.0586,  0.0463,  ...,  0.0348,  0.0899,  0.0799],
+        [ 0.0594,  0.0395,  0.0094,  ..., -0.0237, -0.0246, -0.0211],
+        [-0.0221, -0.0334,  0.0274,  ...,  0.0183, -0.0476, -0.0128],
+        ...,
+        [-0.1754, -0.1277, -0.0936,  ...,  0.0539,  0.0566,  0.0324],
+        [ 0.1493,  0.1067,  0.1054,  ..., -0.0776, -0.0948, -0.0839],
+        [ 0.0100,  0.0321, -0.0137,  ..., -0.0817, -0.0339, -0.0521]],
+       device='cuda:0'), grad: tensor([[ 4.1342e-04,  6.2287e-05,  5.8174e-05,  ...,  1.6308e-04,
+          2.1768e-04,  2.0707e-04],
+        [ 5.8487e-06,  1.2424e-06,  1.2908e-06,  ...,  1.1362e-06,
+          1.2964e-06,  1.3020e-06],
+        [-1.8632e-04, -3.6508e-05, -4.0621e-05,  ..., -2.4974e-05,
+         -3.2604e-05, -3.2872e-05],
+        ...,
+        [-3.2640e-04, -4.5002e-05, -3.9011e-05,  ..., -1.5128e-04,
+         -2.0230e-04, -1.9169e-04],
+        [ 1.6093e-05,  3.6769e-06,  3.7700e-06,  ...,  2.2780e-06,
+          3.0100e-06,  3.0380e-06],
+        [-4.5374e-06, -2.0377e-06, -1.6317e-06,  ..., -6.0350e-07,
+         -9.1456e-07, -9.5554e-07]], device='cuda:0')
+Epoch 11, bias, value: tensor([ 0.0427, -0.0284,  0.0403,  0.0371, -0.0876, -0.0022,  0.0062],
+       device='cuda:0'), grad: tensor([ 1.0977e-03,  1.4700e-05, -4.6778e-04,  2.0730e-04, -8.7881e-04,
+         3.9816e-05, -1.0781e-05], device='cuda:0')
+588
+0.009504844339512096
+changing lr
+epoch 10, time 821.27, cls_loss 0.0561 cls_loss_mapping 0.0788 cls_loss_causal 0.6070 re_mapping 0.0611 re_causal 0.0623 /// teacc 83.92 lr 0.00940298
+Epoch 12, weight, value: tensor([[ 0.0616,  0.0580,  0.0463,  ...,  0.0337,  0.0886,  0.0786],
+        [ 0.0605,  0.0394,  0.0097,  ..., -0.0220, -0.0226, -0.0193],
+        [-0.0253, -0.0349,  0.0243,  ...,  0.0168, -0.0476, -0.0138],
+        ...,
+        [-0.1707, -0.1254, -0.0913,  ...,  0.0518,  0.0543,  0.0307],
+        [ 0.1450,  0.1049,  0.1035,  ..., -0.0758, -0.0927, -0.0822],
+        [ 0.0142,  0.0328, -0.0124,  ..., -0.0793, -0.0332, -0.0505]],
+       device='cuda:0'), grad: tensor([[-1.8275e-04, -1.1110e-04, -1.1367e-04,  ..., -4.3213e-05,
+         -6.9678e-05, -6.4313e-05],
+        [ 1.5283e-04,  8.8334e-05,  9.0718e-05,  ...,  3.4511e-05,
+          5.3734e-05,  5.0426e-05],
+        [-3.7491e-05, -1.5181e-06, -3.3714e-06,  ..., -3.9898e-06,
+         -3.8147e-06, -6.1728e-06],
+        ...,
+        [ 1.9655e-05,  6.2659e-06,  6.9514e-06,  ...,  2.5034e-06,
+          3.4645e-06,  3.9563e-06],
+        [-3.6597e-05, -1.8775e-05, -1.9938e-05,  ..., -9.4250e-07,
+         -1.6708e-06, -2.5108e-06],
+        [ 5.4181e-05,  2.5660e-05,  2.7269e-05,  ...,  5.6326e-06,
+          9.1419e-06,  9.7007e-06]], device='cuda:0')
+Epoch 12, bias, value: tensor([ 0.0346, -0.0208,  0.0361,  0.0345, -0.0834, -0.0068,  0.0138],
+       device='cuda:0'), grad: tensor([-2.5177e-04,  2.2542e-04, -1.1235e-04,  6.1154e-05,  4.2081e-05,
+        -5.0873e-05,  8.6904e-05], device='cuda:0')
+588
+0.009402977659283692
+changing lr
+---------------------saving model at epoch 11----------------------------------------------------
+epoch 11, time 821.31, cls_loss 0.0570 cls_loss_mapping 0.0703 cls_loss_causal 0.5692 re_mapping 0.0586 re_causal 0.0600 /// teacc 90.45 lr 0.00929224
+Epoch 13, weight, value: tensor([[ 0.0644,  0.0581,  0.0467,  ...,  0.0352,  0.0904,  0.0803],
+        [ 0.0619,  0.0420,  0.0125,  ..., -0.0235, -0.0242, -0.0208],
+        [-0.0252, -0.0338,  0.0236,  ...,  0.0161, -0.0469, -0.0139],
+        ...,
+        [-0.1647, -0.1242, -0.0901,  ...,  0.0510,  0.0538,  0.0308],
+        [ 0.1384,  0.1016,  0.1000,  ..., -0.0744, -0.0911, -0.0808],
+        [ 0.0093,  0.0302, -0.0140,  ..., -0.0776, -0.0332, -0.0500]],
+       device='cuda:0'), grad: tensor([[ 8.0392e-06, -8.7544e-08,  2.9430e-07,  ...,  4.3623e-06,
+          5.4911e-06,  5.5321e-06],
+        [ 1.2279e-05,  9.0711e-07,  1.6913e-06,  ...,  7.1265e-06,
+          8.9929e-06,  8.9481e-06],
+        [-3.6621e-04, -2.8491e-05, -4.9472e-05,  ..., -2.0599e-04,
+         -2.6464e-04, -2.6321e-04],
+        ...,
+        [ 3.5000e-04,  3.4899e-05,  5.5104e-05,  ...,  1.8859e-04,
+          2.4211e-04,  2.4068e-04],
+        [-2.7314e-05, -1.5214e-05, -1.6838e-05,  ..., -3.7253e-07,
+         -7.0594e-07, -7.6555e-07],
+        [ 1.8537e-05,  7.1526e-06,  8.2403e-06,  ...,  3.8929e-06,
+          5.1036e-06,  5.0962e-06]], device='cuda:0')
+Epoch 13, bias, value: tensor([ 0.0464, -0.0207,  0.0333,  0.0331, -0.0736, -0.0147,  0.0041],
+       device='cuda:0'), grad: tensor([ 3.1501e-05,  4.5478e-05, -1.3533e-03,  1.9565e-05,  1.2522e-03,
+        -3.3081e-05,  3.8832e-05], device='cuda:0')
+588
+0.009292243968009333
+changing lr
+---------------------saving model at epoch 12----------------------------------------------------
+epoch 12, time 825.67, cls_loss 0.0419 cls_loss_mapping 0.0680 cls_loss_causal 0.5785 re_mapping 0.0564 re_causal 0.0583 /// teacc 90.95 lr 0.00917287
+Epoch 14, weight, value: tensor([[ 0.0640,  0.0587,  0.0481,  ...,  0.0346,  0.0896,  0.0796],
+        [ 0.0618,  0.0423,  0.0138,  ..., -0.0229, -0.0235, -0.0202],
+        [-0.0253, -0.0344,  0.0214,  ...,  0.0166, -0.0444, -0.0121],
+        ...,
+        [-0.1670, -0.1243, -0.0911,  ...,  0.0478,  0.0499,  0.0273],
+        [ 0.1387,  0.0999,  0.0983,  ..., -0.0718, -0.0881, -0.0780],
+        [ 0.0112,  0.0304, -0.0132,  ..., -0.0752, -0.0325, -0.0486]],
+       device='cuda:0'), grad: tensor([[ 2.0409e-03,  9.6655e-04,  1.0223e-03,  ...,  8.1360e-05,
+          2.6798e-04,  2.6321e-04],
+        [ 1.8731e-05,  3.2540e-06,  3.3826e-06,  ...,  1.0967e-05,
+          1.3873e-05,  1.2882e-05],
+        [-3.7594e-03, -1.2169e-03, -1.4153e-03,  ..., -4.4370e-04,
+         -8.7452e-04, -8.0872e-04],
+        ...,
+        [ 1.4982e-03,  2.1255e-04,  3.4595e-04,  ...,  2.7776e-04,
+          4.8876e-04,  4.3702e-04],
+        [ 9.2164e-06,  2.5686e-06,  2.9355e-06,  ...,  1.6699e-06,
+          2.7679e-06,  2.5965e-06],
+        [ 5.2750e-05,  9.8124e-06,  1.0490e-05,  ...,  2.8387e-05,
+          3.6836e-05,  3.4153e-05]], device='cuda:0')
+Epoch 14, bias, value: tensor([ 0.0433, -0.0196,  0.0364,  0.0285, -0.0805, -0.0071,  0.0064],
+       device='cuda:0'), grad: tensor([ 3.7994e-03,  5.9754e-05, -8.5068e-03,  3.9625e-04,  4.0627e-03,
+         2.2739e-05,  1.6463e-04], device='cuda:0')
+588
+0.009172866268606516
+changing lr
+epoch 13, time 817.11, cls_loss 0.0311 cls_loss_mapping 0.0553 cls_loss_causal 0.5720 re_mapping 0.0535 re_causal 0.0557 /// teacc 90.70 lr 0.00904508
+Epoch 15, weight, value: tensor([[ 0.0683,  0.0621,  0.0518,  ...,  0.0324,  0.0866,  0.0768],
+        [ 0.0620,  0.0419,  0.0141,  ..., -0.0221, -0.0225, -0.0192],
+        [-0.0247, -0.0339,  0.0208,  ...,  0.0148, -0.0450, -0.0135],
+        ...,
+        [-0.1660, -0.1239, -0.0918,  ...,  0.0477,  0.0502,  0.0282],
+        [ 0.1343,  0.0975,  0.0958,  ..., -0.0702, -0.0863, -0.0765],
+        [ 0.0075,  0.0282, -0.0144,  ..., -0.0735, -0.0320, -0.0477]],
+       device='cuda:0'), grad: tensor([[ 3.0651e-03,  5.9986e-04,  5.0879e-04,  ...,  5.8985e-04,
+          8.3113e-04,  7.6103e-04],
+        [ 4.5419e-04,  8.9407e-05,  8.0764e-05,  ...,  8.5473e-05,
+          1.2624e-04,  1.1367e-04],
+        [-8.7509e-03, -1.7099e-03, -1.4582e-03,  ..., -1.6956e-03,
+         -2.3994e-03, -2.1935e-03],
+        ...,
+        [ 2.7809e-03,  5.3740e-04,  4.3988e-04,  ...,  5.4169e-04,
+          7.4339e-04,  6.8808e-04],
+        [ 1.7011e-04,  3.3975e-05,  2.9579e-05,  ...,  3.2157e-05,
+          4.6343e-05,  4.2140e-05],
+        [ 4.3726e-04,  8.6069e-05,  7.3731e-05,  ...,  8.3447e-05,
+          1.1867e-04,  1.0842e-04]], device='cuda:0')
+Epoch 15, bias, value: tensor([ 4.2851e-02, -1.4903e-02,  3.4590e-02,  3.1522e-02, -7.6456e-02,
+        -1.0301e-02,  1.8977e-05], device='cuda:0'), grad: tensor([ 0.0080,  0.0012, -0.0229,  0.0049,  0.0072,  0.0004,  0.0011],
+       device='cuda:0')
+588
+0.00904508497187474
+changing lr
+---------------------saving model at epoch 14----------------------------------------------------
+epoch 14, time 826.21, cls_loss 0.0221 cls_loss_mapping 0.0496 cls_loss_causal 0.5465 re_mapping 0.0512 re_causal 0.0539 /// teacc 91.71 lr 0.00890916
+Epoch 16, weight, value: tensor([[ 0.0712,  0.0653,  0.0555,  ...,  0.0318,  0.0849,  0.0754],
+        [ 0.0595,  0.0405,  0.0135,  ..., -0.0222, -0.0225, -0.0193],
+        [-0.0267, -0.0348,  0.0188,  ...,  0.0135, -0.0448, -0.0141],
+        ...,
+        [-0.1610, -0.1225, -0.0914,  ...,  0.0478,  0.0508,  0.0292],
+        [ 0.1298,  0.0948,  0.0930,  ..., -0.0687, -0.0847, -0.0750],
+        [ 0.0085,  0.0278, -0.0139,  ..., -0.0716, -0.0310, -0.0463]],
+       device='cuda:0'), grad: tensor([[ 1.7147e-03,  3.0088e-04,  3.9959e-04,  ...,  4.1032e-04,
+          6.5947e-04,  6.2037e-04],
+        [ 1.4715e-05,  4.4033e-06,  4.8503e-06,  ...,  2.9411e-06,
+          4.1239e-06,  4.0755e-06],
+        [-2.1495e-06,  1.5786e-06,  2.2314e-06,  ..., -4.2655e-06,
+         -2.8461e-06, -3.6471e-06],
+        ...,
+        [-1.7195e-03, -2.9278e-04, -3.9339e-04,  ..., -4.1509e-04,
+         -6.6853e-04, -6.2752e-04],
+        [ 2.4036e-05,  1.1437e-05,  1.1727e-05,  ...,  2.2370e-06,
+          3.2187e-06,  3.4068e-06],
+        [-5.2631e-05, -2.8491e-05, -2.8670e-05,  ..., -3.0771e-06,
+         -4.1500e-06, -4.8578e-06]], device='cuda:0')
+Epoch 16, bias, value: tensor([ 0.0440, -0.0177,  0.0296,  0.0272, -0.0665, -0.0132,  0.0038],
+       device='cuda:0'), grad: tensor([ 4.1809e-03,  3.2425e-05, -1.2070e-05,  5.0902e-05, -4.2076e-03,
+         4.3541e-05, -8.7917e-05], device='cuda:0')
+588
+0.008909157412340152
+changing lr
+epoch 15, time 813.34, cls_loss 0.0266 cls_loss_mapping 0.0508 cls_loss_causal 0.5462 re_mapping 0.0484 re_causal 0.0513 /// teacc 91.71 lr 0.00876536
+Epoch 17, weight, value: tensor([[ 0.0715,  0.0649,  0.0553,  ...,  0.0318,  0.0838,  0.0750],
+        [ 0.0587,  0.0413,  0.0148,  ..., -0.0222, -0.0224, -0.0192],
+        [-0.0274, -0.0342,  0.0180,  ...,  0.0116, -0.0450, -0.0154],
+        ...,
+        [-0.1618, -0.1227, -0.0923,  ...,  0.0472,  0.0501,  0.0288],
+        [ 0.1293,  0.0936,  0.0919,  ..., -0.0669, -0.0824, -0.0730],
+        [ 0.0088,  0.0271, -0.0136,  ..., -0.0700, -0.0305, -0.0454]],
+       device='cuda:0'), grad: tensor([[ 8.0541e-06,  3.9004e-06,  2.7288e-06,  ...,  2.1141e-06,
+          1.3644e-06,  1.4128e-06],
+        [-5.5343e-05, -2.2486e-05, -2.2516e-05,  ..., -4.5486e-06,
+         -6.7763e-06, -7.1824e-06],
+        [ 1.2174e-05,  2.0973e-06,  3.1088e-06,  ...,  2.5313e-06,
+          3.2149e-06,  3.2037e-06],
+        ...,
+        [ 4.1649e-06,  2.9355e-06,  3.1441e-06,  ..., -4.7032e-07,
+         -3.0920e-07, -2.5053e-07],
+        [ 5.8673e-06,  1.9930e-06,  2.1309e-06,  ...,  5.8115e-07,
+          9.0804e-07,  9.4622e-07],
+        [ 2.0936e-05,  7.8082e-06,  8.0466e-06,  ...,  1.8356e-06,
+          2.7772e-06,  2.9653e-06]], device='cuda:0')
+Epoch 17, bias, value: tensor([ 0.0460, -0.0192,  0.0244,  0.0282, -0.0692, -0.0082,  0.0049],
+       device='cuda:0'), grad: tensor([ 1.7703e-05, -1.0329e-04,  3.1352e-05,  2.3097e-06, -1.1222e-06,
+         1.2226e-05,  4.0591e-05], device='cuda:0')
+588
+0.00876535733001806
+changing lr
+---------------------saving model at epoch 16----------------------------------------------------
+epoch 16, time 816.99, cls_loss 0.0211 cls_loss_mapping 0.0483 cls_loss_causal 0.5618 re_mapping 0.0473 re_causal 0.0506 /// teacc 91.96 lr 0.00861397
+Epoch 18, weight, value: tensor([[ 0.0775,  0.0697,  0.0607,  ...,  0.0303,  0.0809,  0.0726],
+        [ 0.0547,  0.0376,  0.0118,  ..., -0.0215, -0.0212, -0.0183],
+        [-0.0281, -0.0353,  0.0158,  ...,  0.0125, -0.0429, -0.0142],
+        ...,
+        [-0.1592, -0.1212, -0.0916,  ...,  0.0467,  0.0500,  0.0292],
+        [ 0.1258,  0.0916,  0.0898,  ..., -0.0655, -0.0808, -0.0716],
+        [ 0.0085,  0.0268, -0.0133,  ..., -0.0684, -0.0301, -0.0447]],
+       device='cuda:0'), grad: tensor([[ 1.4365e-04,  5.3078e-05,  5.5641e-05,  ...,  8.5086e-06,
+          1.4983e-05,  1.8373e-05],
+        [ 4.0591e-05,  1.3851e-05,  1.5192e-05,  ...,  4.5113e-06,
+          6.4410e-06,  7.2829e-06],
+        [ 1.2779e-04,  3.4571e-05,  3.9786e-05,  ...,  2.5526e-05,
+          2.9683e-05,  3.1978e-05],
+        ...,
+        [ 1.4191e-03,  5.2643e-04,  5.5504e-04,  ...,  8.7798e-05,
+          1.5748e-04,  1.9002e-04],
+        [-5.7945e-03, -2.1477e-03, -2.2564e-03,  ..., -3.5357e-04,
+         -6.3562e-04, -7.6866e-04],
+        [ 3.9864e-03,  1.4734e-03,  1.5469e-03,  ...,  2.4414e-04,
+          4.3726e-04,  5.2881e-04]], device='cuda:0')
+Epoch 18, bias, value: tensor([ 0.0497, -0.0176,  0.0255,  0.0224, -0.0677, -0.0103,  0.0047],
+       device='cuda:0'), grad: tensor([ 2.6631e-04,  7.9513e-05,  2.7847e-04,  1.0753e-04,  2.6379e-03,
+        -1.0796e-02,  7.4348e-03], device='cuda:0')
+588
+0.008613974319136962
+changing lr
+epoch 17, time 818.76, cls_loss 0.0146 cls_loss_mapping 0.0373 cls_loss_causal 0.5409 re_mapping 0.0453 re_causal 0.0490 /// teacc 91.71 lr 0.00845531
+Epoch 19, weight, value: tensor([[ 0.0752,  0.0691,  0.0600,  ...,  0.0290,  0.0787,  0.0707],
+        [ 0.0547,  0.0370,  0.0118,  ..., -0.0211, -0.0202, -0.0175],
+        [-0.0266, -0.0350,  0.0150,  ...,  0.0123, -0.0417, -0.0137],
+        ...,
+        [-0.1582, -0.1196, -0.0907,  ...,  0.0456,  0.0486,  0.0283],
+        [ 0.1242,  0.0905,  0.0887,  ..., -0.0641, -0.0790, -0.0700],
+        [ 0.0071,  0.0258, -0.0134,  ..., -0.0670, -0.0298, -0.0441]],
+       device='cuda:0'), grad: tensor([[-1.0096e-06, -1.2126e-06, -1.1018e-06,  ...,  3.4366e-07,
+          2.8312e-07,  1.9837e-07],
+        [ 7.3351e-06,  5.9605e-07,  1.2675e-06,  ...,  3.3565e-06,
+          4.1500e-06,  4.0606e-06],
+        [-5.8636e-06,  4.5262e-07, -1.9465e-07,  ..., -4.3362e-06,
+         -5.1446e-06, -5.1446e-06],
+        ...,
+        [ 3.3751e-06,  1.1064e-06,  1.2377e-06,  ...,  1.1427e-06,
+          1.4827e-06,  1.4231e-06],
+        [ 3.0696e-06,  1.0030e-06,  1.0589e-06,  ...,  3.2783e-07,
+          5.2527e-07,  5.0385e-07],
+        [-3.3528e-06, -1.4165e-06, -1.3765e-06,  ...,  1.2759e-07,
+         -2.5146e-08,  1.8626e-09]], device='cuda:0')
+Epoch 19, bias, value: tensor([ 0.0439, -0.0119,  0.0294,  0.0249, -0.0726, -0.0098,  0.0027],
+       device='cuda:0'), grad: tensor([ 5.2713e-07,  1.9491e-05, -1.6972e-05, -8.5086e-06,  4.9025e-06,
+         5.8562e-06, -5.3048e-06], device='cuda:0')
+588
+0.008455313244934327
+changing lr
+---------------------saving model at epoch 18----------------------------------------------------
+epoch 18, time 814.80, cls_loss 0.0140 cls_loss_mapping 0.0346 cls_loss_causal 0.5277 re_mapping 0.0424 re_causal 0.0464 /// teacc 92.46 lr 0.00828969
+Epoch 20, weight, value: tensor([[ 0.0781,  0.0697,  0.0611,  ...,  0.0294,  0.0788,  0.0709],
+        [ 0.0527,  0.0364,  0.0118,  ..., -0.0212, -0.0206, -0.0179],
+        [-0.0272, -0.0350,  0.0138,  ...,  0.0120, -0.0409, -0.0136],
+        ...,
+        [-0.1548, -0.1181, -0.0897,  ...,  0.0448,  0.0481,  0.0283],
+        [ 0.1220,  0.0894,  0.0875,  ..., -0.0628, -0.0776, -0.0687],
+        [ 0.0063,  0.0250, -0.0135,  ..., -0.0657, -0.0294, -0.0434]],
+       device='cuda:0'), grad: tensor([[ 4.7296e-05,  1.2435e-05,  1.3180e-05,  ...,  8.9556e-06,
+          1.2085e-05,  1.2808e-05],
+        [ 2.1249e-05,  3.6787e-06,  5.5023e-06,  ...,  7.8008e-06,
+          8.6352e-06,  9.1121e-06],
+        [-9.3341e-05, -2.8506e-05, -2.8655e-05,  ..., -1.3091e-05,
+         -1.9684e-05, -2.0817e-05],
+        ...,
+        [ 2.8729e-05,  9.0674e-06,  9.4250e-06,  ...,  3.9823e-06,
+          4.9956e-06,  5.6550e-06],
+        [ 8.0541e-06,  2.3283e-06,  2.3935e-06,  ...,  1.2824e-06,
+          1.7788e-06,  1.9064e-06],
+        [ 5.2862e-06,  1.3188e-06,  1.4612e-06,  ...,  1.1791e-06,
+          1.5628e-06,  1.6280e-06]], device='cuda:0')
+Epoch 20, bias, value: tensor([ 0.0500, -0.0137,  0.0276,  0.0195, -0.0668, -0.0109,  0.0007],
+       device='cuda:0'), grad: tensor([ 1.1319e-04,  5.6565e-05, -2.1183e-04, -5.3734e-05,  6.3956e-05,
+         1.8641e-05,  1.2890e-05], device='cuda:0')
+588
+0.008289693629698565
+changing lr
+epoch 19, time 817.70, cls_loss 0.0107 cls_loss_mapping 0.0303 cls_loss_causal 0.4927 re_mapping 0.0397 re_causal 0.0443 /// teacc 91.96 lr 0.00811745
+Epoch 21, weight, value: tensor([[ 0.0791,  0.0704,  0.0623,  ...,  0.0290,  0.0777,  0.0699],
+        [ 0.0500,  0.0352,  0.0110,  ..., -0.0210, -0.0206, -0.0179],
+        [-0.0248, -0.0341,  0.0136,  ...,  0.0118, -0.0396, -0.0130],
+        ...,
+        [-0.1541, -0.1172, -0.0894,  ...,  0.0437,  0.0465,  0.0273],
+        [ 0.1196,  0.0874,  0.0854,  ..., -0.0615, -0.0760, -0.0673],
+        [ 0.0064,  0.0247, -0.0130,  ..., -0.0642, -0.0286, -0.0423]],
+       device='cuda:0'), grad: tensor([[-3.9160e-05, -1.7390e-05, -2.0787e-05,  ..., -1.6809e-05,
+         -2.4855e-05, -2.4080e-05],
+        [ 3.4142e-04,  8.4937e-05,  9.1851e-05,  ...,  4.8280e-05,
+          8.7559e-05,  8.2612e-05],
+        [-1.4208e-05,  3.8259e-06,  3.5446e-06,  ..., -7.3127e-06,
+         -8.6874e-06, -8.7619e-06],
+        ...,
+        [ 1.3396e-05,  3.8035e-06,  4.4145e-06,  ...,  3.3602e-06,
+          5.0776e-06,  4.9211e-06],
+        [-2.9411e-06, -3.5223e-06, -4.0568e-06,  ...,  6.3144e-07,
+          1.1791e-06,  1.0673e-06],
+        [-3.4285e-04, -7.9155e-05, -8.3864e-05,  ..., -4.0293e-05,
+         -7.7784e-05, -7.2777e-05]], device='cuda:0')
+Epoch 21, bias, value: tensor([ 0.0515, -0.0168,  0.0326,  0.0178, -0.0700, -0.0094,  0.0005],
+       device='cuda:0'), grad: tensor([-7.2360e-05,  8.0204e-04, -5.6326e-05,  1.1629e-04,  3.0488e-05,
+         1.3709e-06, -8.2064e-04], device='cuda:0')
+588
+0.00811744900929367
+changing lr
+---------------------saving model at epoch 20----------------------------------------------------
+epoch 20, time 819.64, cls_loss 0.0094 cls_loss_mapping 0.0289 cls_loss_causal 0.4921 re_mapping 0.0375 re_causal 0.0426 /// teacc 93.97 lr 0.00793893
+Epoch 22, weight, value: tensor([[ 0.0755,  0.0697,  0.0617,  ...,  0.0272,  0.0746,  0.0672],
+        [ 0.0486,  0.0338,  0.0103,  ..., -0.0204, -0.0197, -0.0172],
+        [-0.0257, -0.0337,  0.0127,  ...,  0.0108, -0.0398, -0.0138],
+        ...,
+        [-0.1503, -0.1157, -0.0884,  ...,  0.0436,  0.0470,  0.0282],
+        [ 0.1188,  0.0868,  0.0848,  ..., -0.0600, -0.0743, -0.0659],
+        [ 0.0069,  0.0244, -0.0126,  ..., -0.0629, -0.0281, -0.0414]],
+       device='cuda:0'), grad: tensor([[-1.3173e-04, -6.0469e-05, -6.1989e-05,  ..., -9.6112e-06,
+         -2.5392e-05, -2.3678e-05],
+        [-4.2051e-05, -3.4384e-06, -4.9137e-06,  ..., -1.7628e-05,
+         -2.1622e-05, -2.1964e-05],
+        [ 2.7984e-05,  1.1958e-05,  1.2219e-05,  ...,  3.5465e-06,
+          6.8322e-06,  6.5304e-06],
+        ...,
+        [ 9.0480e-05,  3.0965e-05,  3.3319e-05,  ...,  1.5631e-05,
+          2.5705e-05,  2.5153e-05],
+        [ 1.5885e-05,  5.9344e-06,  6.1505e-06,  ...,  2.3320e-06,
+          4.1239e-06,  3.9600e-06],
+        [ 3.3468e-05,  1.1489e-05,  1.2018e-05,  ...,  5.7481e-06,
+          9.4101e-06,  9.1642e-06]], device='cuda:0')
+Epoch 22, bias, value: tensor([ 0.0416, -0.0155,  0.0282,  0.0205, -0.0621, -0.0081,  0.0015],
+       device='cuda:0'), grad: tensor([-2.2805e-04, -1.2910e-04,  5.2780e-05,  7.2978e-06,  1.9133e-04,
+         3.2693e-05,  7.3075e-05], device='cuda:0')
+588
+0.007938926261462368
+changing lr
+epoch 21, time 817.08, cls_loss 0.0062 cls_loss_mapping 0.0266 cls_loss_causal 0.4959 re_mapping 0.0337 re_causal 0.0396 /// teacc 92.46 lr 0.00775448
+Epoch 23, weight, value: tensor([[ 0.0774,  0.0699,  0.0624,  ...,  0.0271,  0.0741,  0.0668],
+        [ 0.0476,  0.0338,  0.0106,  ..., -0.0205, -0.0197, -0.0172],
+        [-0.0258, -0.0335,  0.0118,  ...,  0.0105, -0.0391, -0.0137],
+        ...,
+        [-0.1503, -0.1148, -0.0882,  ...,  0.0425,  0.0455,  0.0272],
+        [ 0.1166,  0.0855,  0.0835,  ..., -0.0589, -0.0731, -0.0647],
+        [ 0.0065,  0.0236, -0.0126,  ..., -0.0617, -0.0276, -0.0406]],
+       device='cuda:0'), grad: tensor([[-2.8193e-05, -1.7360e-05, -2.0295e-05,  ...,  4.8876e-06,
+          2.8685e-07,  0.0000e+00],
+        [ 3.0443e-05,  5.6103e-06,  8.6799e-06,  ...,  1.1146e-05,
+          1.4178e-05,  1.3806e-05],
+        [ 5.9158e-06,  1.6000e-06,  2.3283e-06,  ...,  3.2876e-06,
+          3.8818e-06,  3.7644e-06],
+        ...,
+        [ 2.7075e-05,  8.2180e-06,  1.0900e-05,  ...,  4.9397e-06,
+          8.1584e-06,  8.0317e-06],
+        [ 1.0602e-05,  2.5760e-06,  3.6433e-06,  ...,  3.0547e-06,
+          4.2059e-06,  4.1127e-06],
+        [ 1.5199e-05,  4.4219e-06,  5.9418e-06,  ...,  3.2336e-06,
+          5.0031e-06,  4.9137e-06]], device='cuda:0')
+Epoch 23, bias, value: tensor([ 0.0455, -0.0160,  0.0273,  0.0216, -0.0653, -0.0090,  0.0019],
+       device='cuda:0'), grad: tensor([-3.4958e-05,  7.6354e-05,  1.3001e-05, -1.7130e-04,  5.8532e-05,
+         2.4796e-05,  3.3438e-05], device='cuda:0')
+588
+0.007754484907260515
+changing lr
+epoch 22, time 813.28, cls_loss 0.0129 cls_loss_mapping 0.0309 cls_loss_causal 0.4926 re_mapping 0.0328 re_causal 0.0391 /// teacc 92.21 lr 0.00756450
+Epoch 24, weight, value: tensor([[ 0.0758,  0.0697,  0.0622,  ...,  0.0260,  0.0721,  0.0649],
+        [ 0.0471,  0.0335,  0.0109,  ..., -0.0200, -0.0191, -0.0167],
+        [-0.0247, -0.0333,  0.0110,  ...,  0.0097, -0.0386, -0.0138],
+        ...,
+        [-0.1486, -0.1136, -0.0874,  ...,  0.0423,  0.0453,  0.0273],
+        [ 0.1150,  0.0843,  0.0823,  ..., -0.0578, -0.0717, -0.0635],
+        [ 0.0080,  0.0234, -0.0121,  ..., -0.0597, -0.0263, -0.0389]],
+       device='cuda:0'), grad: tensor([[-2.2335e-03, -7.6771e-04, -8.5497e-04,  ..., -2.6250e-04,
+         -6.4802e-04, -6.1846e-04],
+        [ 5.7936e-04,  2.0504e-04,  2.0194e-04,  ...,  7.2360e-05,
+          1.7726e-04,  1.7560e-04],
+        [ 1.0309e-03,  3.1829e-04,  3.8576e-04,  ...,  1.1569e-04,
+          2.8825e-04,  2.7323e-04],
+        ...,
+        [ 5.9754e-05,  5.4240e-05,  6.3658e-05,  ...,  6.6273e-06,
+          1.5646e-05,  7.1041e-06],
+        [ 7.4506e-05,  2.3946e-05,  2.7284e-05,  ...,  8.6576e-06,
+          2.1428e-05,  2.0623e-05],
+        [ 3.7026e-04,  1.2684e-04,  1.2946e-04,  ...,  4.5449e-05,
+          1.1164e-04,  1.1009e-04]], device='cuda:0')
+Epoch 24, bias, value: tensor([ 0.0413, -0.0152,  0.0281,  0.0178, -0.0638, -0.0087,  0.0063],
+       device='cuda:0'), grad: tensor([-4.5090e-03,  1.1473e-03,  2.1763e-03,  2.4605e-04,  3.8803e-05,
+         1.5461e-04,  7.4577e-04], device='cuda:0')
+588
+0.007564496387029534
+changing lr
+epoch 23, time 838.63, cls_loss 0.0068 cls_loss_mapping 0.0268 cls_loss_causal 0.4974 re_mapping 0.0309 re_causal 0.0379 /// teacc 93.47 lr 0.00736934
+Epoch 25, weight, value: tensor([[ 0.0772,  0.0701,  0.0627,  ...,  0.0253,  0.0711,  0.0641],
+        [ 0.0474,  0.0329,  0.0109,  ..., -0.0192, -0.0180, -0.0156],
+        [-0.0240, -0.0325,  0.0112,  ...,  0.0092, -0.0379, -0.0136],
+        ...,
+        [-0.1461, -0.1120, -0.0863,  ...,  0.0420,  0.0448,  0.0272],
+        [ 0.1120,  0.0828,  0.0807,  ..., -0.0569, -0.0707, -0.0627],
+        [ 0.0052,  0.0222, -0.0129,  ..., -0.0591, -0.0268, -0.0390]],
+       device='cuda:0'), grad: tensor([[-5.1880e-04, -1.9383e-04, -1.9336e-04,  ..., -4.0913e-04,
+         -5.2977e-04, -5.5504e-04],
+        [ 2.3937e-04,  4.2588e-05,  5.4538e-05,  ...,  1.3030e-04,
+          1.8048e-04,  1.8859e-04],
+        [ 6.7043e-04,  5.6118e-05,  1.1438e-04,  ...,  1.1480e-04,
+          2.1446e-04,  2.1780e-04],
+        ...,
+        [-7.0429e-04,  3.7283e-05, -5.2094e-05,  ...,  6.7055e-05,
+         -1.4283e-05, -4.5113e-06],
+        [ 8.7440e-05,  1.3962e-05,  1.9893e-05,  ...,  2.1994e-05,
+          3.5554e-05,  3.6418e-05],
+        [ 1.3733e-04,  2.6837e-05,  3.4779e-05,  ...,  4.2856e-05,
+          6.5029e-05,  6.6936e-05]], device='cuda:0')
+Epoch 25, bias, value: tensor([ 0.0444, -0.0117,  0.0283,  0.0172, -0.0612, -0.0112, -0.0002],
+       device='cuda:0'), grad: tensor([-0.0020,  0.0009,  0.0019,  0.0003, -0.0017,  0.0002,  0.0004],
+       device='cuda:0')
+588
+0.007369343312364995
+changing lr
+epoch 24, time 812.60, cls_loss 0.0083 cls_loss_mapping 0.0233 cls_loss_causal 0.4944 re_mapping 0.0281 re_causal 0.0354 /// teacc 92.46 lr 0.00716942
+Epoch 26, weight, value: tensor([[ 0.0793,  0.0713,  0.0640,  ...,  0.0250,  0.0705,  0.0636],
+        [ 0.0455,  0.0320,  0.0104,  ..., -0.0190, -0.0178, -0.0154],
+        [-0.0262, -0.0326,  0.0101,  ...,  0.0075, -0.0389, -0.0151],
+        ...,
+        [-0.1435, -0.1111, -0.0858,  ...,  0.0423,  0.0453,  0.0279],
+        [ 0.1096,  0.0815,  0.0795,  ..., -0.0560, -0.0697, -0.0618],
+        [ 0.0047,  0.0217, -0.0128,  ..., -0.0581, -0.0266, -0.0386]],
+       device='cuda:0'), grad: tensor([[-1.9336e-04, -8.9705e-05, -1.1009e-04,  ..., -4.8935e-05,
+         -6.3360e-05, -5.6565e-05],
+        [ 1.6642e-04,  6.4254e-05,  7.9572e-05,  ...,  4.3362e-05,
+          5.6803e-05,  5.0813e-05],
+        [-5.6922e-06, -6.2399e-08, -2.3283e-07,  ..., -2.2445e-07,
+         -1.1520e-06, -1.0673e-06],
+        ...,
+        [ 2.4468e-05,  1.0535e-05,  1.3068e-05,  ...,  6.4000e-06,
+          8.0764e-06,  7.2680e-06],
+        [ 2.3529e-05,  9.8720e-06,  1.1981e-05,  ...,  5.3756e-06,
+          7.2233e-06,  6.5342e-06],
+        [-4.8280e-06, -1.2685e-06, -8.4285e-07,  ...,  8.8289e-07,
+          5.6252e-07,  1.9465e-07]], device='cuda:0')
+Epoch 26, bias, value: tensor([ 0.0483, -0.0136,  0.0214,  0.0208, -0.0566, -0.0131, -0.0017],
+       device='cuda:0'), grad: tensor([-5.5456e-04,  4.6062e-04, -7.7561e-06, -2.8417e-05,  6.7294e-05,
+         6.2883e-05, -7.5717e-07], device='cuda:0')
+588
+0.0071694186955877925
+changing lr
+epoch 25, time 815.09, cls_loss 0.0045 cls_loss_mapping 0.0209 cls_loss_causal 0.4697 re_mapping 0.0255 re_causal 0.0334 /// teacc 90.95 lr 0.00696513
+Epoch 27, weight, value: tensor([[ 0.0799,  0.0712,  0.0642,  ...,  0.0250,  0.0700,  0.0632],
+        [ 0.0423,  0.0301,  0.0090,  ..., -0.0189, -0.0177, -0.0154],
+        [-0.0227, -0.0313,  0.0106,  ...,  0.0076, -0.0376, -0.0143],
+        ...,
+        [-0.1438, -0.1101, -0.0854,  ...,  0.0410,  0.0437,  0.0268],
+        [ 0.1093,  0.0812,  0.0792,  ..., -0.0550, -0.0684, -0.0607],
+        [ 0.0045,  0.0212, -0.0128,  ..., -0.0570, -0.0263, -0.0380]],
+       device='cuda:0'), grad: tensor([[ 7.5102e-04,  2.4223e-04,  2.5082e-04,  ...,  8.1003e-05,
+          1.7059e-04,  1.6427e-04],
+        [-2.1534e-03, -4.9210e-04, -5.3501e-04,  ..., -4.0579e-04,
+         -7.5388e-04, -7.0095e-04],
+        [ 6.5565e-04,  1.3733e-04,  1.5342e-04,  ...,  1.4067e-04,
+          2.4140e-04,  2.2197e-04],
+        ...,
+        [ 4.6134e-04,  1.2887e-04,  1.3399e-04,  ...,  6.0886e-05,
+          1.3816e-04,  1.3185e-04],
+        [ 1.4603e-04,  4.7207e-05,  4.9174e-05,  ...,  1.7181e-05,
+          3.4273e-05,  3.2783e-05],
+        [-2.2185e-04, -1.3363e-04, -1.3316e-04,  ...,  1.8224e-05,
+          2.9132e-05,  2.1964e-05]], device='cuda:0')
+Epoch 27, bias, value: tensor([ 0.0511, -0.0171,  0.0282,  0.0184, -0.0614, -0.0114, -0.0023],
+       device='cuda:0'), grad: tensor([ 0.0015, -0.0049,  0.0015,  0.0008,  0.0010,  0.0003, -0.0003],
+       device='cuda:0')
+588
+0.0069651251582696205
+changing lr
+epoch 26, time 811.56, cls_loss 0.0048 cls_loss_mapping 0.0252 cls_loss_causal 0.4728 re_mapping 0.0231 re_causal 0.0307 /// teacc 92.21 lr 0.00675687
+Epoch 28, weight, value: tensor([[ 0.0781,  0.0708,  0.0640,  ...,  0.0244,  0.0687,  0.0620],
+        [ 0.0419,  0.0297,  0.0090,  ..., -0.0184, -0.0171, -0.0149],
+        [-0.0219, -0.0308,  0.0105,  ...,  0.0071, -0.0371, -0.0143],
+        ...,
+        [-0.1406, -0.1084, -0.0842,  ...,  0.0407,  0.0434,  0.0268],
+        [ 0.1079,  0.0803,  0.0783,  ..., -0.0541, -0.0674, -0.0597],
+        [ 0.0038,  0.0204, -0.0132,  ..., -0.0560, -0.0258, -0.0374]],
+       device='cuda:0'), grad: tensor([[ 2.9993e-04,  5.0426e-05,  7.1168e-05,  ...,  6.6698e-05,
+          1.1802e-04,  1.0926e-04],
+        [ 6.8903e-05,  8.4564e-06,  1.6898e-05,  ...,  2.1636e-05,
+          3.6865e-05,  3.4124e-05],
+        [-2.8992e-04, -4.8310e-05, -7.9393e-05,  ..., -7.9989e-05,
+         -1.5891e-04, -1.5199e-04],
+        ...,
+        [-1.2755e-04, -2.4274e-05, -2.2009e-05,  ..., -1.2144e-05,
+         -2.3648e-05, -2.0996e-05],
+        [ 3.1620e-05,  5.1260e-06,  8.0764e-06,  ...,  8.0988e-06,
+          1.3381e-05,  1.2286e-05],
+        [ 5.0277e-05,  7.9572e-06,  1.3076e-05,  ...,  1.3307e-05,
+          2.3946e-05,  2.2426e-05]], device='cuda:0')
+Epoch 28, bias, value: tensor([ 0.0468, -0.0160,  0.0291,  0.0164, -0.0566, -0.0112, -0.0030],
+       device='cuda:0'), grad: tensor([ 8.6927e-04,  2.4223e-04, -1.1597e-03,  3.6865e-05, -2.4700e-04,
+         9.1076e-05,  1.6832e-04], device='cuda:0')
+588
+0.006756874120406716
+changing lr
+epoch 27, time 812.10, cls_loss 0.0076 cls_loss_mapping 0.0221 cls_loss_causal 0.4726 re_mapping 0.0227 re_causal 0.0314 /// teacc 93.22 lr 0.00654508
+Epoch 29, weight, value: tensor([[ 0.0767,  0.0703,  0.0636,  ...,  0.0237,  0.0673,  0.0607],
+        [ 0.0415,  0.0293,  0.0090,  ..., -0.0181, -0.0167, -0.0145],
+        [-0.0233, -0.0309,  0.0096,  ...,  0.0065, -0.0370, -0.0145],
+        ...,
+        [-0.1376, -0.1069, -0.0831,  ...,  0.0406,  0.0437,  0.0272],
+        [ 0.1074,  0.0792,  0.0773,  ..., -0.0532, -0.0663, -0.0588],
+        [ 0.0036,  0.0202, -0.0129,  ..., -0.0553, -0.0257, -0.0370]],
+       device='cuda:0'), grad: tensor([[ 4.3094e-05,  5.2899e-06,  8.3968e-06,  ...,  3.5278e-06,
+          6.4224e-06,  6.6943e-06],
+        [ 1.5283e-04,  2.0862e-05,  3.1590e-05,  ...,  1.8626e-05,
+          2.8476e-05,  2.9594e-05],
+        [ 3.7730e-05,  5.0962e-06,  7.6368e-06,  ...,  5.5395e-06,
+          8.8438e-06,  8.7544e-06],
+        ...,
+        [-1.3523e-06,  7.4506e-08,  1.4901e-07,  ..., -4.0233e-06,
+         -7.0371e-06, -5.8599e-06],
+        [ 4.2766e-05,  6.2548e-06,  9.1791e-06,  ...,  2.9728e-06,
+          5.7705e-06,  6.0350e-06],
+        [ 9.9599e-05,  1.4491e-05,  2.1368e-05,  ...,  5.8301e-06,
+          1.1764e-05,  1.2614e-05]], device='cuda:0')
+Epoch 29, bias, value: tensor([ 0.0437, -0.0154,  0.0251,  0.0160, -0.0519, -0.0080, -0.0043],
+       device='cuda:0'), grad: tensor([ 1.0687e-04,  3.7146e-04,  9.4533e-05, -9.0218e-04, -1.3970e-05,
+         1.0341e-04,  2.3937e-04], device='cuda:0')
+588
+0.00654508497187474
+changing lr
+epoch 28, time 813.77, cls_loss 0.0030 cls_loss_mapping 0.0186 cls_loss_causal 0.4803 re_mapping 0.0193 re_causal 0.0285 /// teacc 93.72 lr 0.00633018
+Epoch 30, weight, value: tensor([[ 0.0781,  0.0712,  0.0646,  ...,  0.0232,  0.0664,  0.0599],
+        [ 0.0420,  0.0290,  0.0091,  ..., -0.0173, -0.0157, -0.0134],
+        [-0.0223, -0.0306,  0.0091,  ...,  0.0059, -0.0366, -0.0144],
+        ...,
+        [-0.1383, -0.1062, -0.0829,  ...,  0.0398,  0.0426,  0.0264],
+        [ 0.1040,  0.0778,  0.0758,  ..., -0.0526, -0.0658, -0.0584],
+        [ 0.0040,  0.0198, -0.0128,  ..., -0.0544, -0.0254, -0.0364]],
+       device='cuda:0'), grad: tensor([[-4.5508e-05, -2.1264e-05, -2.1949e-05,  ..., -2.3674e-06,
+         -5.2936e-06, -4.8615e-06],
+        [-2.9489e-05, -6.8396e-06, -6.5006e-06,  ..., -4.3102e-06,
+         -1.1213e-05, -1.0550e-05],
+        [-2.6766e-06, -2.5257e-06, -2.3134e-06,  ...,  2.0117e-07,
+          1.0058e-07, -2.6077e-08],
+        ...,
+        [ 3.0696e-05,  1.1295e-05,  1.2062e-05,  ...,  3.9376e-06,
+          6.7912e-06,  6.2697e-06],
+        [ 1.0431e-05,  3.5726e-06,  3.8259e-06,  ...,  1.7378e-06,
+          2.6803e-06,  2.4978e-06],
+        [ 4.9114e-05,  1.3009e-05,  1.3947e-05,  ...,  9.2536e-06,
+          1.6272e-05,  1.5147e-05]], device='cuda:0')
+Epoch 30, bias, value: tensor([ 0.0453, -0.0113,  0.0267,  0.0166, -0.0566, -0.0127, -0.0029],
+       device='cuda:0'), grad: tensor([-7.7009e-05, -7.4744e-05, -4.2170e-06, -4.6015e-05,  6.2525e-05,
+         2.2516e-05,  1.1718e-04], device='cuda:0')
+588
+0.006330184227833378
+changing lr
+epoch 29, time 812.07, cls_loss 0.0059 cls_loss_mapping 0.0181 cls_loss_causal 0.4874 re_mapping 0.0183 re_causal 0.0279 /// teacc 93.97 lr 0.00611260
+Epoch 31, weight, value: tensor([[ 0.0769,  0.0709,  0.0645,  ...,  0.0224,  0.0651,  0.0587],
+        [ 0.0414,  0.0288,  0.0094,  ..., -0.0171, -0.0156, -0.0134],
+        [-0.0222, -0.0306,  0.0084,  ...,  0.0058, -0.0357, -0.0140],
+        ...,
+        [-0.1354, -0.1048, -0.0819,  ...,  0.0395,  0.0425,  0.0266],
+        [ 0.1018,  0.0766,  0.0746,  ..., -0.0519, -0.0650, -0.0577],
+        [ 0.0035,  0.0195, -0.0127,  ..., -0.0537, -0.0253, -0.0361]],
+       device='cuda:0'), grad: tensor([[ 3.9139e-03,  5.4932e-04,  3.8695e-04,  ...,  3.5524e-04,
+          7.6008e-04,  8.3113e-04],
+        [-7.1466e-05, -4.0025e-05, -4.5657e-05,  ..., -2.9542e-06,
+         -7.9945e-06, -5.8375e-06],
+        [ 1.5774e-03,  2.2268e-04,  1.6809e-04,  ...,  1.9121e-04,
+          3.5977e-04,  3.7146e-04],
+        ...,
+        [-5.7487e-03, -7.9298e-04, -5.6410e-04,  ..., -5.7840e-04,
+         -1.1806e-03, -1.2665e-03],
+        [ 4.4435e-05,  7.5325e-06,  6.5975e-06,  ...,  4.9621e-06,
+          9.7528e-06,  9.9167e-06],
+        [ 1.0777e-04,  2.2024e-05,  2.0474e-05,  ...,  1.0796e-05,
+          2.1920e-05,  2.2098e-05]], device='cuda:0')
+Epoch 31, bias, value: tensor([ 0.0428, -0.0124,  0.0279,  0.0186, -0.0526, -0.0146, -0.0046],
+       device='cuda:0'), grad: tensor([ 1.0109e-02, -8.3566e-05,  4.1885e-03,  4.4632e-04, -1.5038e-02,
+         1.1331e-04,  2.6035e-04], device='cuda:0')
+588
+0.006112604669781575
+changing lr
+epoch 30, time 810.53, cls_loss 0.0028 cls_loss_mapping 0.0157 cls_loss_causal 0.4478 re_mapping 0.0176 re_causal 0.0272 /// teacc 89.95 lr 0.00589278
+Epoch 32, weight, value: tensor([[ 0.0778,  0.0712,  0.0649,  ...,  0.0224,  0.0645,  0.0582],
+        [ 0.0394,  0.0280,  0.0090,  ..., -0.0171, -0.0157, -0.0135],
+        [-0.0223, -0.0304,  0.0079,  ...,  0.0056, -0.0352, -0.0139],
+        ...,
+        [-0.1338, -0.1039, -0.0814,  ...,  0.0390,  0.0420,  0.0264],
+        [ 0.1008,  0.0758,  0.0739,  ..., -0.0511, -0.0640, -0.0568],
+        [ 0.0047,  0.0196, -0.0122,  ..., -0.0528, -0.0248, -0.0354]],
+       device='cuda:0'), grad: tensor([[ 1.5440e-03,  2.1601e-04,  3.2449e-04,  ...,  5.2166e-04,
+          7.2908e-04,  7.3481e-04],
+        [ 8.5890e-05,  3.0577e-05,  2.9802e-05,  ...,  9.7379e-06,
+          1.2994e-05,  1.3396e-05],
+        [ 1.4953e-05,  3.4757e-06,  2.5313e-06,  ...,  4.3176e-06,
+          5.6326e-06,  5.4464e-06],
+        ...,
+        [-1.4734e-03, -1.8299e-04, -2.9349e-04,  ..., -5.2118e-04,
+         -7.2861e-04, -7.3338e-04],
+        [ 5.3227e-05,  2.0131e-05,  2.0579e-05,  ...,  4.8876e-06,
+          7.8529e-06,  7.9647e-06],
+        [-1.9717e-04, -8.7500e-05, -8.7082e-05,  ..., -3.6918e-06,
+         -1.1519e-05, -1.1921e-05]], device='cuda:0')
+Epoch 32, bias, value: tensor([ 0.0444, -0.0149,  0.0270,  0.0153, -0.0508, -0.0138, -0.0022],
+       device='cuda:0'), grad: tensor([ 4.4670e-03,  1.7548e-04,  4.0948e-05, -9.1374e-05, -4.3602e-03,
+         1.0496e-04, -3.3760e-04], device='cuda:0')
+588
+0.005892784473993186
+changing lr
+epoch 31, time 813.01, cls_loss 0.0045 cls_loss_mapping 0.0195 cls_loss_causal 0.4568 re_mapping 0.0153 re_causal 0.0249 /// teacc 93.72 lr 0.00567117
+Epoch 33, weight, value: tensor([[ 0.0805,  0.0723,  0.0664,  ...,  0.0227,  0.0647,  0.0585],
+        [ 0.0396,  0.0276,  0.0089,  ..., -0.0171, -0.0156, -0.0135],
+        [-0.0233, -0.0305,  0.0070,  ...,  0.0051, -0.0351, -0.0142],
+        ...,
+        [-0.1332, -0.1033, -0.0812,  ...,  0.0383,  0.0413,  0.0259],
+        [ 0.0997,  0.0750,  0.0731,  ..., -0.0504, -0.0631, -0.0561],
+        [ 0.0031,  0.0189, -0.0125,  ..., -0.0522, -0.0249, -0.0353]],
+       device='cuda:0'), grad: tensor([[-1.4362e-03, -3.2687e-04, -3.6669e-04,  ..., -3.9530e-04,
+         -6.0272e-04, -6.3896e-04],
+        [ 8.1539e-05,  1.5169e-05,  1.7136e-05,  ...,  1.8433e-05,
+          3.4511e-05,  3.5882e-05],
+        [ 2.3198e-04,  6.6042e-05,  6.8784e-05,  ...,  7.9215e-05,
+          1.0860e-04,  1.1557e-04],
+        ...,
+        [ 2.8539e-04,  5.8323e-05,  6.8307e-05,  ...,  6.3658e-05,
+          1.0639e-04,  1.1194e-04],
+        [ 3.8475e-05,  8.2403e-06,  9.5218e-06,  ...,  7.7859e-06,
+          1.3344e-05,  1.3851e-05],
+        [ 1.0186e-04,  2.2292e-05,  2.5555e-05,  ...,  2.1353e-05,
+          3.5822e-05,  3.7313e-05]], device='cuda:0')
+Epoch 33, bias, value: tensor([ 0.0503, -0.0127,  0.0242,  0.0137, -0.0515, -0.0136, -0.0056],
+       device='cuda:0'), grad: tensor([-3.3913e-03,  1.8573e-04,  5.0020e-04,  1.6565e-03,  7.0381e-04,
+         9.3997e-05,  2.4843e-04], device='cuda:0')
+588
+0.00567116632908828
+changing lr
+epoch 32, time 813.20, cls_loss 0.0044 cls_loss_mapping 0.0188 cls_loss_causal 0.4588 re_mapping 0.0156 re_causal 0.0258 /// teacc 91.96 lr 0.00544820
+Epoch 34, weight, value: tensor([[ 0.0806,  0.0727,  0.0669,  ...,  0.0224,  0.0639,  0.0578],
+        [ 0.0380,  0.0269,  0.0086,  ..., -0.0171, -0.0157, -0.0136],
+        [-0.0225, -0.0304,  0.0066,  ...,  0.0050, -0.0343, -0.0138],
+        ...,
+        [-0.1327, -0.1026, -0.0809,  ...,  0.0376,  0.0405,  0.0254],
+        [ 0.0984,  0.0742,  0.0722,  ..., -0.0497, -0.0624, -0.0554],
+        [ 0.0033,  0.0186, -0.0124,  ..., -0.0514, -0.0246, -0.0348]],
+       device='cuda:0'), grad: tensor([[ 7.3204e-03,  2.9449e-03,  3.4027e-03,  ...,  8.6594e-04,
+          1.3466e-03,  1.3685e-03],
+        [-8.4152e-03, -3.3875e-03, -3.9139e-03,  ..., -9.9945e-04,
+         -1.5469e-03, -1.5726e-03],
+        [ 2.3198e-04,  7.9691e-05,  9.4295e-05,  ...,  2.4244e-05,
+          4.5002e-05,  4.4882e-05],
+        ...,
+        [ 2.0623e-05,  3.5644e-05,  3.6538e-05,  ...,  1.2584e-05,
+          2.5295e-06,  4.0717e-06],
+        [ 2.9469e-04,  1.1790e-04,  1.3626e-04,  ...,  3.4988e-05,
+          5.4449e-05,  5.5283e-05],
+        [ 2.4796e-04,  9.5606e-05,  1.1057e-04,  ...,  2.9609e-05,
+          4.6521e-05,  4.6968e-05]], device='cuda:0')
+Epoch 34, bias, value: tensor([ 0.0493, -0.0150,  0.0264,  0.0159, -0.0530, -0.0139, -0.0048],
+       device='cuda:0'), grad: tensor([ 1.3618e-02, -1.5640e-02,  4.8470e-04,  5.6648e-04, -6.4909e-05,
+         5.5075e-04,  4.7946e-04], device='cuda:0')
+588
+0.00544819654451717
+changing lr
+epoch 33, time 818.78, cls_loss 0.0023 cls_loss_mapping 0.0129 cls_loss_causal 0.4522 re_mapping 0.0148 re_causal 0.0254 /// teacc 91.96 lr 0.00522432
+Epoch 35, weight, value: tensor([[ 0.0796,  0.0724,  0.0668,  ...,  0.0219,  0.0628,  0.0569],
+        [ 0.0381,  0.0267,  0.0087,  ..., -0.0168, -0.0154, -0.0133],
+        [-0.0228, -0.0304,  0.0060,  ...,  0.0050, -0.0337, -0.0136],
+        ...,
+        [-0.1316, -0.1018, -0.0804,  ...,  0.0372,  0.0401,  0.0253],
+        [ 0.0989,  0.0742,  0.0721,  ..., -0.0490, -0.0614, -0.0546],
+        [ 0.0030,  0.0181, -0.0125,  ..., -0.0507, -0.0242, -0.0343]],
+       device='cuda:0'), grad: tensor([[ 2.1183e-04,  5.8502e-05,  6.9916e-05,  ...,  1.9699e-05,
+          5.2303e-05,  4.9174e-05],
+        [-8.1635e-04, -2.5177e-04, -3.0231e-04,  ..., -5.6922e-05,
+         -1.7893e-04, -1.6677e-04],
+        [ 1.2612e-04,  2.9176e-05,  3.7014e-05,  ...,  2.0146e-05,
+          3.7521e-05,  3.6120e-05],
+        ...,
+        [-2.9594e-05,  7.0855e-06,  7.8827e-06,  ..., -1.1660e-05,
+         -1.6466e-05, -1.6406e-05],
+        [ 7.7128e-05,  2.2039e-05,  2.6911e-05,  ...,  6.6794e-06,
+          1.7837e-05,  1.6809e-05],
+        [ 3.9768e-04,  1.2183e-04,  1.4615e-04,  ...,  2.8759e-05,
+          8.8274e-05,  8.2433e-05]], device='cuda:0')
+Epoch 35, bias, value: tensor([ 0.0468, -0.0135,  0.0256,  0.0136, -0.0524, -0.0108, -0.0047],
+       device='cuda:0'), grad: tensor([ 4.9591e-04, -1.8606e-03,  3.1376e-04,  7.2539e-05, -1.0914e-04,
+         1.8167e-04,  9.0694e-04], device='cuda:0')
+588
+0.005224324151752577
+changing lr
+epoch 34, time 809.73, cls_loss 0.0030 cls_loss_mapping 0.0131 cls_loss_causal 0.4321 re_mapping 0.0133 re_causal 0.0234 /// teacc 93.72 lr 0.00500000
+Epoch 36, weight, value: tensor([[ 0.0792,  0.0726,  0.0671,  ...,  0.0215,  0.0620,  0.0561],
+        [ 0.0384,  0.0266,  0.0090,  ..., -0.0166, -0.0150, -0.0129],
+        [-0.0234, -0.0303,  0.0054,  ...,  0.0045, -0.0336, -0.0138],
+        ...,
+        [-0.1299, -0.1010, -0.0799,  ...,  0.0368,  0.0399,  0.0252],
+        [ 0.0972,  0.0733,  0.0713,  ..., -0.0484, -0.0608, -0.0540],
+        [ 0.0034,  0.0177, -0.0125,  ..., -0.0499, -0.0239, -0.0338]],
+       device='cuda:0'), grad: tensor([[-3.4839e-05, -1.7911e-05, -1.8388e-05,  ..., -9.1717e-06,
+         -1.5274e-05, -1.3106e-05],
+        [-4.1604e-05, -1.1638e-05, -1.3761e-05,  ..., -7.8678e-06,
+         -1.2323e-05, -1.2226e-05],
+        [-2.9266e-05, -5.5470e-06, -6.1207e-06,  ..., -4.1202e-06,
+         -8.7023e-06, -8.1137e-06],
+        ...,
+        [ 3.9935e-05,  1.6361e-05,  1.7539e-05,  ...,  9.4622e-06,
+          1.5900e-05,  1.4067e-05],
+        [ 9.3356e-06,  2.7418e-06,  3.0492e-06,  ...,  1.7481e-06,
+          2.9411e-06,  2.8014e-06],
+        [ 2.9460e-05,  9.2387e-06,  1.0267e-05,  ...,  5.3309e-06,
+          9.0525e-06,  8.5756e-06]], device='cuda:0')
+Epoch 36, bias, value: tensor([ 0.0453, -0.0114,  0.0233,  0.0128, -0.0499, -0.0123, -0.0032],
+       device='cuda:0'), grad: tensor([-7.5638e-05, -9.5069e-05, -7.8142e-05,  6.7353e-05,  8.9824e-05,
+         2.2471e-05,  6.9141e-05], device='cuda:0')
+588
+0.005000000000000003
+changing lr
+epoch 35, time 808.54, cls_loss 0.0037 cls_loss_mapping 0.0152 cls_loss_causal 0.4379 re_mapping 0.0126 re_causal 0.0233 /// teacc 92.71 lr 0.00477568
+Epoch 37, weight, value: tensor([[ 0.0787,  0.0727,  0.0673,  ...,  0.0212,  0.0613,  0.0555],
+        [ 0.0376,  0.0263,  0.0089,  ..., -0.0166, -0.0151, -0.0130],
+        [-0.0220, -0.0300,  0.0053,  ...,  0.0042, -0.0331, -0.0135],
+        ...,
+        [-0.1292, -0.1005, -0.0797,  ...,  0.0367,  0.0396,  0.0252],
+        [ 0.0957,  0.0724,  0.0704,  ..., -0.0479, -0.0602, -0.0536],
+        [ 0.0029,  0.0175, -0.0124,  ..., -0.0495, -0.0241, -0.0338]],
+       device='cuda:0'), grad: tensor([[ 1.1081e-04,  9.8497e-06,  2.6390e-05,  ...,  5.8085e-05,
+          7.8619e-05,  7.5281e-05],
+        [ 2.9993e-04,  3.1650e-05,  7.5817e-05,  ...,  1.5366e-04,
+          2.0933e-04,  2.0015e-04],
+        [ 6.7055e-05,  7.0333e-06,  1.7270e-05,  ...,  3.8087e-05,
+          5.1022e-05,  4.8697e-05],
+        ...,
+        [ 3.2514e-05,  4.0419e-06,  8.8885e-06,  ...,  1.5900e-05,
+          2.1756e-05,  2.0742e-05],
+        [ 2.3872e-05,  2.6692e-06,  6.0759e-06,  ...,  1.1623e-05,
+          1.6004e-05,  1.5318e-05],
+        [ 9.1270e-06, -7.8883e-07,  1.5451e-06,  ...,  7.1563e-06,
+          9.1866e-06,  8.8215e-06]], device='cuda:0')
+Epoch 37, bias, value: tensor([ 0.0436, -0.0122,  0.0267,  0.0142, -0.0493, -0.0133, -0.0051],
+       device='cuda:0'), grad: tensor([ 3.1781e-04,  8.4877e-04,  1.8942e-04, -1.5469e-03,  9.0361e-05,
+         6.7234e-05,  3.1173e-05], device='cuda:0')
+588
+0.004775675848247429
+changing lr
+epoch 36, time 818.63, cls_loss 0.0022 cls_loss_mapping 0.0121 cls_loss_causal 0.4217 re_mapping 0.0124 re_causal 0.0234 /// teacc 93.47 lr 0.00455180
+Epoch 38, weight, value: tensor([[ 0.0800,  0.0731,  0.0679,  ...,  0.0211,  0.0610,  0.0552],
+        [ 0.0368,  0.0258,  0.0087,  ..., -0.0164, -0.0150, -0.0129],
+        [-0.0223, -0.0300,  0.0047,  ...,  0.0039, -0.0329, -0.0136],
+        ...,
+        [-0.1282, -0.0996, -0.0792,  ...,  0.0364,  0.0393,  0.0251],
+        [ 0.0949,  0.0719,  0.0699,  ..., -0.0473, -0.0595, -0.0529],
+        [ 0.0025,  0.0170, -0.0125,  ..., -0.0490, -0.0238, -0.0334]],
+       device='cuda:0'), grad: tensor([[-7.7605e-05, -4.7684e-05, -4.8161e-05,  ..., -6.0908e-07,
+         -3.0603e-06, -4.1500e-06],
+        [ 4.1366e-05,  2.1577e-05,  2.2545e-05,  ...,  2.4587e-06,
+          4.7572e-06,  4.7386e-06],
+        [-4.3094e-05, -7.4506e-06, -1.1407e-05,  ..., -1.2629e-05,
+         -1.9446e-05, -1.6555e-05],
+        ...,
+        [ 9.5442e-06,  3.5148e-06,  4.1686e-06,  ...,  1.9278e-06,
+          2.9113e-06,  2.4792e-06],
+        [ 1.3210e-05,  6.4522e-06,  6.8471e-06,  ...,  8.5309e-07,
+          1.6466e-06,  1.6224e-06],
+        [ 2.2411e-05,  8.8289e-06,  1.0006e-05,  ...,  2.2650e-06,
+          4.0941e-06,  3.7327e-06]], device='cuda:0')
+Epoch 38, bias, value: tensor([ 0.0465, -0.0125,  0.0255,  0.0122, -0.0490, -0.0131, -0.0052],
+       device='cuda:0'), grad: tensor([-8.8215e-05,  6.2108e-05, -1.2684e-04,  6.6817e-05,  2.1145e-05,
+         2.1160e-05,  4.3809e-05], device='cuda:0')
+588
+0.004551803455482836
+changing lr
+epoch 37, time 812.52, cls_loss 0.0024 cls_loss_mapping 0.0128 cls_loss_causal 0.4274 re_mapping 0.0113 re_causal 0.0217 /// teacc 93.97 lr 0.00432883
+Epoch 39, weight, value: tensor([[ 0.0801,  0.0732,  0.0682,  ...,  0.0209,  0.0604,  0.0547],
+        [ 0.0360,  0.0253,  0.0084,  ..., -0.0163, -0.0149, -0.0129],
+        [-0.0223, -0.0298,  0.0044,  ...,  0.0036, -0.0327, -0.0137],
+        ...,
+        [-0.1261, -0.0988, -0.0787,  ...,  0.0363,  0.0394,  0.0253],
+        [ 0.0938,  0.0713,  0.0693,  ..., -0.0468, -0.0590, -0.0524],
+        [ 0.0012,  0.0164, -0.0128,  ..., -0.0486, -0.0240, -0.0334]],
+       device='cuda:0'), grad: tensor([[ 1.3208e-03,  2.7132e-04,  2.7966e-04,  ...,  2.1148e-04,
+          3.4261e-04,  3.1471e-04],
+        [ 4.4847e-04,  6.2883e-05,  8.6010e-05,  ...,  1.6391e-04,
+          2.0814e-04,  1.9217e-04],
+        [-2.8467e-04, -5.8651e-05, -8.5235e-05,  ..., -9.0823e-06,
+         -5.7757e-05, -7.6950e-05],
+        ...,
+        [-1.1253e-03, -2.3699e-04, -2.0397e-04,  ..., -1.2493e-04,
+         -2.4390e-04, -2.0444e-04],
+        [ 1.0937e-04,  1.8716e-05,  2.3216e-05,  ...,  2.8864e-05,
+          4.0889e-05,  3.8743e-05],
+        [ 3.8415e-05, -2.9765e-06,  2.0452e-06,  ...,  1.7777e-05,
+          2.2992e-05,  2.1994e-05]], device='cuda:0')
+Epoch 39, bias, value: tensor([ 0.0464, -0.0130,  0.0248,  0.0131, -0.0451, -0.0139, -0.0080],
+       device='cuda:0'), grad: tensor([ 0.0036,  0.0013, -0.0009, -0.0013, -0.0031,  0.0003,  0.0002],
+       device='cuda:0')
+588
+0.004328833670911726
+changing lr
+epoch 38, time 816.59, cls_loss 0.0036 cls_loss_mapping 0.0166 cls_loss_causal 0.4544 re_mapping 0.0109 re_causal 0.0217 /// teacc 92.96 lr 0.00410722
+Epoch 40, weight, value: tensor([[ 0.0799,  0.0733,  0.0683,  ...,  0.0205,  0.0596,  0.0540],
+        [ 0.0372,  0.0255,  0.0089,  ..., -0.0160, -0.0144, -0.0124],
+        [-0.0221, -0.0297,  0.0042,  ...,  0.0036, -0.0322, -0.0135],
+        ...,
+        [-0.1258, -0.0986, -0.0787,  ...,  0.0360,  0.0391,  0.0252],
+        [ 0.0927,  0.0707,  0.0687,  ..., -0.0464, -0.0585, -0.0520],
+        [ 0.0008,  0.0161, -0.0128,  ..., -0.0483, -0.0240, -0.0333]],
+       device='cuda:0'), grad: tensor([[ 9.0182e-05,  7.5512e-06,  4.5821e-06,  ...,  1.2167e-05,
+          2.6450e-05,  2.8521e-05],
+        [ 5.2541e-05,  8.3819e-06,  1.0535e-05,  ...,  1.2502e-05,
+          2.0817e-05,  1.9684e-05],
+        [-3.5405e-04, -8.3625e-05, -8.7738e-05,  ..., -1.2740e-05,
+         -4.4912e-05, -5.0306e-05],
+        ...,
+        [ 9.5487e-05,  4.2170e-05,  3.9607e-05,  ..., -3.0175e-05,
+         -3.2872e-05, -2.7359e-05],
+        [ 2.5019e-05,  5.5432e-06,  7.0781e-06,  ...,  4.3400e-06,
+          7.1600e-06,  6.7949e-06],
+        [ 4.0144e-05,  8.8736e-06,  1.1116e-05,  ...,  5.5581e-06,
+          9.4995e-06,  9.3132e-06]], device='cuda:0')
+Epoch 40, bias, value: tensor([ 0.0456, -0.0094,  0.0255,  0.0118, -0.0453, -0.0149, -0.0090],
+       device='cuda:0'), grad: tensor([ 2.6417e-04,  1.5450e-04, -8.4782e-04,  1.2887e-04,  1.3530e-04,
+         6.4671e-05,  1.0115e-04], device='cuda:0')
+588
+0.0041072155260068206
+changing lr
+epoch 39, time 810.16, cls_loss 0.0023 cls_loss_mapping 0.0103 cls_loss_causal 0.4366 re_mapping 0.0109 re_causal 0.0218 /// teacc 92.96 lr 0.00388740
+Epoch 41, weight, value: tensor([[ 0.0813,  0.0739,  0.0691,  ...,  0.0206,  0.0597,  0.0541],
+        [ 0.0351,  0.0247,  0.0081,  ..., -0.0162, -0.0148, -0.0127],
+        [-0.0220, -0.0297,  0.0037,  ...,  0.0036, -0.0318, -0.0133],
+        ...,
+        [-0.1254, -0.0982, -0.0785,  ...,  0.0355,  0.0385,  0.0248],
+        [ 0.0919,  0.0703,  0.0683,  ..., -0.0460, -0.0580, -0.0516],
+        [ 0.0014,  0.0162, -0.0125,  ..., -0.0478, -0.0238, -0.0330]],
+       device='cuda:0'), grad: tensor([[ 3.0786e-05,  6.2510e-06,  6.6385e-06,  ...,  6.4000e-06,
+          1.0177e-05,  9.1493e-06],
+        [ 5.1297e-06,  7.0129e-07,  9.4157e-07,  ...,  2.5406e-06,
+          3.5912e-06,  3.3006e-06],
+        [-1.6153e-04, -3.6359e-05, -4.1485e-05,  ..., -3.7223e-05,
+         -5.7846e-05, -5.2512e-05],
+        ...,
+        [ 4.1604e-05,  9.7454e-06,  1.1414e-05,  ...,  4.6752e-06,
+          9.4995e-06,  8.5384e-06],
+        [ 5.7332e-06,  1.5143e-06,  1.7388e-06,  ...,  9.4809e-07,
+          1.5926e-06,  1.4519e-06],
+        [ 1.7926e-05,  4.1164e-06,  4.8168e-06,  ...,  3.5632e-06,
+          5.8189e-06,  5.2750e-06]], device='cuda:0')
+Epoch 41, bias, value: tensor([ 0.0489, -0.0132,  0.0257,  0.0117, -0.0461, -0.0150, -0.0077],
+       device='cuda:0'), grad: tensor([ 8.4579e-05,  1.6034e-05, -4.2963e-04,  1.6403e-04,  1.0425e-04,
+         1.4126e-05,  4.6611e-05], device='cuda:0')
+588
+0.0038873953302184317
+changing lr
+epoch 40, time 817.72, cls_loss 0.0031 cls_loss_mapping 0.0110 cls_loss_causal 0.4158 re_mapping 0.0106 re_causal 0.0213 /// teacc 93.72 lr 0.00366982
+Epoch 42, weight, value: tensor([[ 0.0811,  0.0739,  0.0692,  ...,  0.0203,  0.0591,  0.0535],
+        [ 0.0352,  0.0245,  0.0082,  ..., -0.0161, -0.0146, -0.0125],
+        [-0.0223, -0.0296,  0.0034,  ...,  0.0033, -0.0318, -0.0134],
+        ...,
+        [-0.1249, -0.0977, -0.0782,  ...,  0.0354,  0.0383,  0.0248],
+        [ 0.0923,  0.0700,  0.0680,  ..., -0.0454, -0.0573, -0.0509],
+        [ 0.0008,  0.0158, -0.0126,  ..., -0.0474, -0.0237, -0.0328]],
+       device='cuda:0'), grad: tensor([[-5.3596e-04, -1.5938e-04, -1.5640e-04,  ..., -1.0812e-04,
+         -1.7965e-04, -1.6940e-04],
+        [ 2.6524e-05,  8.6874e-06,  8.8885e-06,  ...,  5.1670e-06,
+          8.2627e-06,  7.8455e-06],
+        [ 3.5048e-04,  1.0979e-04,  1.0973e-04,  ...,  6.7711e-05,
+          1.1122e-04,  1.0532e-04],
+        ...,
+        [ 5.9277e-05,  2.0459e-05,  2.0370e-05,  ...,  9.4101e-06,
+          1.5780e-05,  1.4931e-05],
+        [-2.8157e-04, -1.4019e-04, -1.5092e-04,  ..., -6.7241e-06,
+         -9.8944e-06, -1.2219e-05],
+        [ 2.2864e-04,  1.0979e-04,  1.1772e-04,  ...,  8.9556e-06,
+          1.3918e-05,  1.5289e-05]], device='cuda:0')
+Epoch 42, bias, value: tensor([ 0.0479, -0.0116,  0.0243,  0.0106, -0.0460, -0.0122, -0.0089],
+       device='cuda:0'), grad: tensor([-1.2474e-03,  5.8174e-05,  7.9107e-04,  3.3116e-04,  1.2589e-04,
+        -4.0770e-04,  3.4833e-04], device='cuda:0')
+588
+0.003669815772166629
+changing lr
+epoch 41, time 817.28, cls_loss 0.0020 cls_loss_mapping 0.0085 cls_loss_causal 0.4236 re_mapping 0.0098 re_causal 0.0200 /// teacc 92.71 lr 0.00345492
+Epoch 43, weight, value: tensor([[ 0.0810,  0.0739,  0.0693,  ...,  0.0202,  0.0586,  0.0532],
+        [ 0.0355,  0.0243,  0.0082,  ..., -0.0159, -0.0144, -0.0124],
+        [-0.0226, -0.0296,  0.0030,  ...,  0.0031, -0.0316, -0.0135],
+        ...,
+        [-0.1245, -0.0972, -0.0780,  ...,  0.0350,  0.0379,  0.0244],
+        [ 0.0916,  0.0696,  0.0677,  ..., -0.0450, -0.0569, -0.0506],
+        [ 0.0011,  0.0156, -0.0125,  ..., -0.0469, -0.0234, -0.0324]],
+       device='cuda:0'), grad: tensor([[ 5.7995e-05, -2.0489e-07,  3.4031e-06,  ...,  3.5316e-05,
+          2.9922e-05,  3.0935e-05],
+        [ 1.4651e-04,  1.6674e-05,  2.3216e-05,  ...,  5.4210e-05,
+          5.6028e-05,  5.6356e-05],
+        [ 2.0862e-04,  3.3289e-05,  4.1366e-05,  ...,  6.0529e-05,
+          7.0274e-05,  6.9916e-05],
+        ...,
+        [ 1.3411e-04,  1.4596e-05,  2.4140e-05,  ...,  5.3406e-05,
+          5.9366e-05,  6.0856e-05],
+        [ 5.0902e-05,  5.4762e-06,  8.8289e-06,  ...,  2.0519e-05,
+          2.2277e-05,  2.2873e-05],
+        [-3.6061e-05, -1.9625e-05, -1.4506e-05,  ...,  1.0744e-05,
+          6.2138e-06,  7.1488e-06]], device='cuda:0')
+Epoch 43, bias, value: tensor([ 0.0477, -0.0095,  0.0231,  0.0105, -0.0466, -0.0127, -0.0083],
+       device='cuda:0'), grad: tensor([ 1.6332e-04,  4.1175e-04,  5.6458e-04, -1.6212e-03,  3.8433e-04,
+         1.4436e-04, -4.7505e-05], device='cuda:0')
+588
+0.0034549150281252667
+changing lr
+epoch 42, time 812.58, cls_loss 0.0022 cls_loss_mapping 0.0107 cls_loss_causal 0.4164 re_mapping 0.0095 re_causal 0.0194 /// teacc 93.47 lr 0.00324313
+Epoch 44, weight, value: tensor([[ 0.0800,  0.0737,  0.0691,  ...,  0.0197,  0.0578,  0.0524],
+        [ 0.0340,  0.0236,  0.0077,  ..., -0.0159, -0.0144, -0.0124],
+        [-0.0221, -0.0294,  0.0029,  ...,  0.0031, -0.0312, -0.0132],
+        ...,
+        [-0.1233, -0.0966, -0.0776,  ...,  0.0348,  0.0378,  0.0244],
+        [ 0.0914,  0.0695,  0.0676,  ..., -0.0447, -0.0565, -0.0502],
+        [ 0.0014,  0.0155, -0.0124,  ..., -0.0465, -0.0231, -0.0320]],
+       device='cuda:0'), grad: tensor([[-3.1042e-04, -1.0139e-04, -1.1402e-04,  ..., -6.8963e-05,
+         -1.1438e-04, -1.0639e-04],
+        [ 5.1528e-05,  1.2212e-05,  1.5438e-05,  ...,  1.2323e-05,
+          2.0087e-05,  1.9476e-05],
+        [ 3.5435e-05,  9.5963e-06,  1.1921e-05,  ...,  7.0035e-06,
+          1.2219e-05,  1.1384e-05],
+        ...,
+        [ 4.0025e-05,  1.4938e-05,  1.6630e-05,  ...,  5.5954e-06,
+          1.2115e-05,  1.0990e-05],
+        [-9.4846e-06, -7.3239e-06, -6.9775e-06,  ...,  7.0781e-07,
+          1.2163e-06,  1.0170e-06],
+        [ 8.6725e-05,  4.3094e-05,  4.1217e-05,  ...,  2.2948e-05,
+          3.1769e-05,  2.8774e-05]], device='cuda:0')
+Epoch 44, bias, value: tensor([ 0.0451, -0.0115,  0.0242,  0.0110, -0.0447, -0.0125, -0.0075],
+       device='cuda:0'), grad: tensor([-7.4959e-04,  1.3137e-04,  9.0301e-05,  2.6941e-04,  9.0837e-05,
+        -4.8429e-06,  1.7333e-04], device='cuda:0')
+588
+0.0032431258795932905
+changing lr
+epoch 43, time 804.92, cls_loss 0.0019 cls_loss_mapping 0.0109 cls_loss_causal 0.4262 re_mapping 0.0091 re_causal 0.0198 /// teacc 93.47 lr 0.00303487
+Epoch 45, weight, value: tensor([[ 0.0801,  0.0737,  0.0692,  ...,  0.0195,  0.0574,  0.0520],
+        [ 0.0328,  0.0230,  0.0073,  ..., -0.0160, -0.0145, -0.0125],
+        [-0.0228, -0.0296,  0.0025,  ...,  0.0029, -0.0311, -0.0133],
+        ...,
+        [-0.1231, -0.0964, -0.0774,  ...,  0.0345,  0.0374,  0.0242],
+        [ 0.0925,  0.0699,  0.0679,  ..., -0.0442, -0.0558, -0.0496],
+        [ 0.0019,  0.0154, -0.0123,  ..., -0.0459, -0.0228, -0.0316]],
+       device='cuda:0'), grad: tensor([[-1.1873e-04, -5.6744e-05, -5.7548e-05,  ..., -4.7311e-06,
+         -1.7673e-05, -1.6883e-05],
+        [-4.3958e-05, -7.3984e-06, -9.5293e-06,  ..., -1.9416e-05,
+         -2.5347e-05, -2.5064e-05],
+        [ 6.7830e-05,  2.6092e-05,  2.6479e-05,  ...,  5.3681e-06,
+          1.3813e-05,  1.3068e-05],
+        ...,
+        [ 5.3883e-05,  2.4945e-05,  2.5496e-05,  ...,  8.3223e-06,
+          1.2457e-05,  1.2666e-05],
+        [ 2.9638e-05,  1.0327e-05,  1.0647e-05,  ...,  4.1239e-06,
+          7.9423e-06,  7.6257e-06],
+        [-1.5184e-05, -6.3851e-06, -4.7423e-06,  ...,  1.8915e-06,
+          8.3167e-07,  1.0170e-06]], device='cuda:0')
+Epoch 45, bias, value: tensor([ 0.0453, -0.0129,  0.0222,  0.0099, -0.0452, -0.0095, -0.0056],
+       device='cuda:0'), grad: tensor([-2.0373e-04, -1.1629e-04,  1.4174e-04,  5.9426e-05,  8.1062e-05,
+         6.4790e-05, -2.6986e-05], device='cuda:0')
+588
+0.0030348748417303863
+changing lr
+epoch 44, time 804.95, cls_loss 0.0013 cls_loss_mapping 0.0102 cls_loss_causal 0.4315 re_mapping 0.0091 re_causal 0.0199 /// teacc 93.97 lr 0.00283058
+Epoch 46, weight, value: tensor([[ 0.0796,  0.0736,  0.0691,  ...,  0.0193,  0.0569,  0.0516],
+        [ 0.0330,  0.0230,  0.0074,  ..., -0.0159, -0.0143, -0.0123],
+        [-0.0223, -0.0294,  0.0024,  ...,  0.0028, -0.0309, -0.0132],
+        ...,
+        [-0.1218, -0.0958, -0.0770,  ...,  0.0343,  0.0374,  0.0242],
+        [ 0.0917,  0.0694,  0.0674,  ..., -0.0440, -0.0556, -0.0494],
+        [ 0.0009,  0.0151, -0.0125,  ..., -0.0457, -0.0228, -0.0316]],
+       device='cuda:0'), grad: tensor([[ 8.4102e-05,  1.2226e-05,  1.5602e-05,  ...,  2.7627e-05,
+          3.4750e-05,  3.2485e-05],
+        [ 4.2558e-05,  6.7316e-06,  8.8438e-06,  ...,  1.4171e-05,
+          1.5810e-05,  1.5028e-05],
+        [-5.0277e-05, -7.6517e-06, -8.5086e-06,  ..., -2.5943e-05,
+         -3.3945e-05, -3.1084e-05],
+        ...,
+        [-1.1601e-05, -1.3327e-06, -7.1526e-07,  ..., -3.8464e-07,
+         -3.6620e-06, -3.3043e-06],
+        [ 2.0102e-05,  3.0212e-06,  3.9376e-06,  ...,  6.6571e-06,
+          8.0541e-06,  7.5586e-06],
+        [ 3.5107e-05,  6.1132e-06,  7.5251e-06,  ...,  1.1280e-05,
+          1.3128e-05,  1.2472e-05]], device='cuda:0')
+Epoch 46, bias, value: tensor([ 0.0443, -0.0117,  0.0232,  0.0096, -0.0433, -0.0102, -0.0078],
+       device='cuda:0'), grad: tensor([ 2.4033e-04,  1.1915e-04, -2.0254e-04, -2.9182e-04, -2.3723e-05,
+         5.7220e-05,  1.0157e-04], device='cuda:0')
+588
+0.0028305813044122124
+changing lr
+---------------------saving model at epoch 45----------------------------------------------------
+epoch 45, time 802.96, cls_loss 0.0019 cls_loss_mapping 0.0101 cls_loss_causal 0.4210 re_mapping 0.0088 re_causal 0.0195 /// teacc 95.23 lr 0.00263066
+Epoch 47, weight, value: tensor([[ 0.0792,  0.0736,  0.0691,  ...,  0.0191,  0.0565,  0.0512],
+        [ 0.0332,  0.0229,  0.0075,  ..., -0.0157, -0.0141, -0.0122],
+        [-0.0215, -0.0292,  0.0023,  ...,  0.0029, -0.0303, -0.0129],
+        ...,
+        [-0.1216, -0.0955, -0.0769,  ...,  0.0340,  0.0371,  0.0240],
+        [ 0.0911,  0.0690,  0.0670,  ..., -0.0437, -0.0553, -0.0491],
+        [ 0.0004,  0.0148, -0.0126,  ..., -0.0455, -0.0229, -0.0315]],
+       device='cuda:0'), grad: tensor([[-1.8418e-05, -7.2941e-06, -5.7556e-06,  ...,  1.8589e-06,
+          5.3830e-07, -3.7253e-08],
+        [-7.3433e-05, -2.5347e-05, -2.9951e-05,  ..., -9.6112e-06,
+         -1.9461e-05, -1.8835e-05],
+        [ 3.6359e-05,  8.6427e-06,  9.7007e-06,  ...,  1.0766e-05,
+          1.2040e-05,  1.2040e-05],
+        ...,
+        [ 5.8889e-05,  1.8105e-05,  2.0280e-05,  ...,  9.3952e-06,
+          1.4931e-05,  1.5140e-05],
+        [ 1.7866e-05,  5.5432e-06,  6.1654e-06,  ...,  3.0100e-06,
+          4.7572e-06,  4.6492e-06],
+        [ 2.5898e-05,  7.6815e-06,  8.3670e-06,  ...,  5.1856e-06,
+          7.3612e-06,  7.0445e-06]], device='cuda:0')
+Epoch 47, bias, value: tensor([ 0.0431, -0.0104,  0.0253,  0.0092, -0.0437, -0.0105, -0.0089],
+       device='cuda:0'), grad: tensor([-3.0026e-05, -1.9670e-04,  8.9884e-05, -1.2034e-04,  1.3995e-04,
+         4.6521e-05,  7.1287e-05], device='cuda:0')
+588
+0.0026306566876350096
+changing lr
+epoch 46, time 796.28, cls_loss 0.0014 cls_loss_mapping 0.0082 cls_loss_causal 0.4007 re_mapping 0.0084 re_causal 0.0181 /// teacc 93.97 lr 0.00243550
+Epoch 48, weight, value: tensor([[ 0.0800,  0.0739,  0.0695,  ...,  0.0190,  0.0563,  0.0510],
+        [ 0.0325,  0.0226,  0.0074,  ..., -0.0158, -0.0142, -0.0122],
+        [-0.0215, -0.0291,  0.0021,  ...,  0.0028, -0.0302, -0.0128],
+        ...,
+        [-0.1211, -0.0952, -0.0767,  ...,  0.0339,  0.0370,  0.0240],
+        [ 0.0904,  0.0686,  0.0666,  ..., -0.0434, -0.0550, -0.0489],
+        [ 0.0002,  0.0146, -0.0126,  ..., -0.0452, -0.0228, -0.0314]],
+       device='cuda:0'), grad: tensor([[-9.3728e-06, -8.9779e-06, -1.1541e-05,  ..., -3.2373e-06,
+         -2.8387e-06, -2.4326e-06],
+        [-2.7701e-05, -5.1409e-06, -5.3905e-06,  ..., -1.6578e-06,
+         -6.9477e-06, -6.6012e-06],
+        [-2.6628e-05, -4.9174e-06, -5.9009e-06,  ..., -5.7742e-07,
+         -5.8301e-07, -1.8738e-06],
+        ...,
+        [ 1.3180e-05,  5.2154e-06,  5.7928e-06,  ...,  8.4750e-07,
+         -2.2538e-07, -2.4959e-07],
+        [ 1.4670e-05,  4.6529e-06,  5.8711e-06,  ...,  2.4792e-06,
+          3.8445e-06,  4.0159e-06],
+        [ 2.3812e-05,  6.0014e-06,  7.0669e-06,  ...,  2.8089e-06,
+          5.7369e-06,  5.8338e-06]], device='cuda:0')
+Epoch 48, bias, value: tensor([ 0.0447, -0.0115,  0.0252,  0.0092, -0.0433, -0.0108, -0.0094],
+       device='cuda:0'), grad: tensor([ 3.0175e-06, -8.2195e-05, -6.7174e-05,  3.0354e-05,  2.5079e-05,
+         3.1263e-05,  5.9664e-05], device='cuda:0')
+588
+0.0024355036129704724
+changing lr
+epoch 47, time 792.94, cls_loss 0.0016 cls_loss_mapping 0.0101 cls_loss_causal 0.4051 re_mapping 0.0084 re_causal 0.0183 /// teacc 94.97 lr 0.00224552
+Epoch 49, weight, value: tensor([[ 0.0804,  0.0740,  0.0697,  ...,  0.0189,  0.0560,  0.0508],
+        [ 0.0324,  0.0225,  0.0073,  ..., -0.0157, -0.0141, -0.0122],
+        [-0.0214, -0.0291,  0.0019,  ...,  0.0027, -0.0300, -0.0128],
+        ...,
+        [-0.1210, -0.0949, -0.0766,  ...,  0.0338,  0.0368,  0.0239],
+        [ 0.0896,  0.0683,  0.0662,  ..., -0.0432, -0.0548, -0.0487],
+        [ 0.0002,  0.0144, -0.0126,  ..., -0.0449, -0.0227, -0.0312]],
+       device='cuda:0'), grad: tensor([[-4.8965e-05, -4.8161e-05, -3.5852e-05,  ...,  9.9897e-05,
+          1.1665e-04,  1.0639e-04],
+        [ 3.0613e-04,  4.1783e-05,  6.2168e-05,  ...,  1.5008e-04,
+          1.8573e-04,  1.8001e-04],
+        [ 1.8191e-04,  2.0936e-05,  4.0591e-05,  ...,  1.1367e-04,
+          1.3721e-04,  1.3256e-04],
+        ...,
+        [-3.9673e-04, -1.5929e-05, -6.0380e-05,  ..., -3.6240e-04,
+         -4.4727e-04, -4.2868e-04],
+        [ 8.0705e-05,  1.0327e-05,  1.5706e-05,  ...,  3.7074e-05,
+          4.5300e-05,  4.4018e-05],
+        [ 7.8142e-05,  1.2510e-05,  1.6153e-05,  ...,  2.5809e-05,
+          3.1680e-05,  3.1292e-05]], device='cuda:0')
+Epoch 49, bias, value: tensor([ 0.0453, -0.0111,  0.0253,  0.0092, -0.0439, -0.0116, -0.0092],
+       device='cuda:0'), grad: tensor([ 1.4640e-05,  8.7214e-04,  5.3501e-04, -5.8937e-04, -1.2760e-03,
+         2.3127e-04,  2.1350e-04], device='cuda:0')
+588
+0.00224551509273949
+changing lr
+epoch 48, time 794.79, cls_loss 0.0011 cls_loss_mapping 0.0088 cls_loss_causal 0.3953 re_mapping 0.0084 re_causal 0.0184 /// teacc 93.47 lr 0.00206107
+Epoch 50, weight, value: tensor([[ 0.0810,  0.0742,  0.0699,  ...,  0.0188,  0.0559,  0.0507],
+        [ 0.0323,  0.0223,  0.0073,  ..., -0.0156, -0.0140, -0.0120],
+        [-0.0219, -0.0292,  0.0016,  ...,  0.0026, -0.0300, -0.0129],
+        ...,
+        [-0.1206, -0.0946, -0.0764,  ...,  0.0336,  0.0366,  0.0238],
+        [ 0.0894,  0.0681,  0.0661,  ..., -0.0430, -0.0545, -0.0484],
+        [-0.0002,  0.0142, -0.0127,  ..., -0.0447, -0.0226, -0.0312]],
+       device='cuda:0'), grad: tensor([[ 3.0398e-04,  5.4359e-05,  5.4806e-05,  ...,  4.3452e-05,
+          8.6904e-05,  8.8394e-05],
+        [ 1.2064e-04,  2.2903e-05,  2.6226e-05,  ...,  3.2097e-05,
+          4.6730e-05,  4.1187e-05],
+        [ 9.8765e-05,  1.6436e-05,  2.0295e-05,  ...,  2.4199e-05,
+          3.8147e-05,  3.3438e-05],
+        ...,
+        [-5.0640e-04, -8.4877e-05, -8.9824e-05,  ..., -8.7798e-05,
+         -1.6844e-04, -1.5855e-04],
+        [ 4.8965e-05,  8.0839e-06,  9.2164e-06,  ...,  1.0423e-05,
+          1.8060e-05,  1.6093e-05],
+        [ 2.6956e-05,  4.8652e-06,  5.8636e-06,  ...,  6.7279e-06,
+          9.9689e-06,  8.8587e-06]], device='cuda:0')
+Epoch 50, bias, value: tensor([ 0.0467, -0.0107,  0.0239,  0.0093, -0.0439, -0.0116, -0.0097],
+       device='cuda:0'), grad: tensor([ 8.0776e-04,  3.3808e-04,  2.8300e-04, -2.2209e-04, -1.4238e-03,
+         1.4186e-04,  7.4983e-05], device='cuda:0')
+588
+0.002061073738537637
+changing lr
+epoch 49, time 791.10, cls_loss 0.0014 cls_loss_mapping 0.0094 cls_loss_causal 0.4036 re_mapping 0.0082 re_causal 0.0180 /// teacc 95.23 lr 0.00188255
+Epoch 51, weight, value: tensor([[ 8.0744e-02,  7.4140e-02,  6.9905e-02,  ...,  1.8685e-02,
+          5.5529e-02,  5.0404e-02],
+        [ 3.1746e-02,  2.2061e-02,  7.1410e-03,  ..., -1.5593e-02,
+         -1.3971e-02, -1.2023e-02],
+        [-2.2164e-02, -2.9223e-02,  1.3682e-03,  ...,  2.5026e-03,
+         -2.9860e-02, -1.2878e-02],
+        ...,
+        [-1.1973e-01, -9.4191e-02, -7.6101e-02,  ...,  3.3470e-02,
+          3.6480e-02,  2.3775e-02],
+        [ 8.9263e-02,  6.8041e-02,  6.5975e-02,  ..., -4.2811e-02,
+         -5.4277e-02, -4.8199e-02],
+        [-3.9018e-05,  1.4104e-02, -1.2632e-02,  ..., -4.4504e-02,
+         -2.2524e-02, -3.0979e-02]], device='cuda:0'), grad: tensor([[ 6.5947e-04,  1.4544e-04,  1.5628e-04,  ...,  1.0252e-04,
+          1.5032e-04,  1.4842e-04],
+        [-2.4295e-04, -9.3803e-06, -1.9312e-05,  ..., -1.9222e-05,
+         -4.0501e-05, -4.5538e-05],
+        [-2.1343e-03, -4.5037e-04, -4.8351e-04,  ..., -4.4036e-04,
+         -6.3276e-04, -5.9366e-04],
+        ...,
+        [ 8.5306e-04,  1.6356e-04,  1.7834e-04,  ...,  1.7262e-04,
+          2.5058e-04,  2.3615e-04],
+        [ 2.0075e-04,  3.8862e-05,  4.3094e-05,  ...,  3.9220e-05,
+          5.7250e-05,  5.3853e-05],
+        [ 3.0589e-04,  5.1260e-05,  5.7101e-05,  ...,  6.2466e-05,
+          9.1553e-05,  8.6486e-05]], device='cuda:0')
+Epoch 51, bias, value: tensor([ 0.0460, -0.0112,  0.0234,  0.0090, -0.0426, -0.0114, -0.0092],
+       device='cuda:0'), grad: tensor([ 0.0016, -0.0008, -0.0052,  0.0009,  0.0022,  0.0005,  0.0008],
+       device='cuda:0')
+588
+0.0018825509907063344
+changing lr
+epoch 50, time 795.94, cls_loss 0.0011 cls_loss_mapping 0.0068 cls_loss_causal 0.4129 re_mapping 0.0080 re_causal 0.0179 /// teacc 94.97 lr 0.00171031
+Epoch 52, weight, value: tensor([[ 0.0813,  0.0744,  0.0702,  ...,  0.0186,  0.0554,  0.0503],
+        [ 0.0316,  0.0219,  0.0071,  ..., -0.0156, -0.0139, -0.0120],
+        [-0.0220, -0.0292,  0.0012,  ...,  0.0025, -0.0297, -0.0128],
+        ...,
+        [-0.1198, -0.0940, -0.0760,  ...,  0.0332,  0.0362,  0.0235],
+        [ 0.0887,  0.0678,  0.0657,  ..., -0.0427, -0.0541, -0.0481],
+        [-0.0004,  0.0139, -0.0127,  ..., -0.0444, -0.0225, -0.0309]],
+       device='cuda:0'), grad: tensor([[ 1.1241e-04,  1.8403e-05,  2.2218e-05,  ...,  9.9093e-06,
+          1.7971e-05,  1.4402e-05],
+        [ 6.7770e-05,  1.4529e-05,  1.5959e-05,  ...,  8.6650e-06,
+          1.3560e-05,  1.1742e-05],
+        [-4.6802e-04, -1.0204e-04, -1.1444e-04,  ..., -4.8071e-05,
+         -8.4698e-05, -7.0930e-05],
+        ...,
+        [ 1.3340e-04,  3.3885e-05,  3.7134e-05,  ...,  2.2039e-05,
+          3.2812e-05,  2.8864e-05],
+        [ 3.4034e-05,  7.4208e-06,  8.2627e-06,  ...,  3.6862e-06,
+          6.2957e-06,  5.3234e-06],
+        [ 7.0393e-05,  1.4640e-05,  1.6451e-05,  ...,  6.6310e-06,
+          1.1899e-05,  9.8571e-06]], device='cuda:0')
+Epoch 52, bias, value: tensor([ 0.0470, -0.0109,  0.0237,  0.0099, -0.0437, -0.0121, -0.0100],
+       device='cuda:0'), grad: tensor([ 2.9802e-04,  1.7095e-04, -1.1902e-03,  1.1951e-04,  3.3593e-04,
+         8.6248e-05,  1.7893e-04], device='cuda:0')
+588
+0.0017103063703014388
+changing lr
+epoch 51, time 792.04, cls_loss 0.0011 cls_loss_mapping 0.0071 cls_loss_causal 0.3982 re_mapping 0.0078 re_causal 0.0171 /// teacc 94.22 lr 0.00154469
+Epoch 53, weight, value: tensor([[ 0.0812,  0.0743,  0.0702,  ...,  0.0185,  0.0551,  0.0501],
+        [ 0.0315,  0.0219,  0.0071,  ..., -0.0155, -0.0139, -0.0119],
+        [-0.0223, -0.0292,  0.0011,  ...,  0.0024, -0.0296, -0.0128],
+        ...,
+        [-0.1192, -0.0937, -0.0758,  ...,  0.0331,  0.0361,  0.0235],
+        [ 0.0883,  0.0675,  0.0655,  ..., -0.0425, -0.0539, -0.0479],
+        [-0.0003,  0.0138, -0.0127,  ..., -0.0441, -0.0224, -0.0308]],
+       device='cuda:0'), grad: tensor([[ 1.5008e-04,  5.9873e-05,  6.0588e-05,  ...,  1.9684e-05,
+          2.8446e-05,  2.8625e-05],
+        [ 7.9155e-05,  2.2858e-05,  2.1115e-05,  ...,  1.0148e-05,
+          1.1407e-05,  1.2696e-05],
+        [ 2.7150e-05,  3.9190e-05,  3.9279e-05,  ..., -2.3127e-05,
+         -2.2963e-05, -2.4423e-05],
+        ...,
+        [ 4.2111e-05,  2.3544e-05,  2.2352e-05,  ..., -1.0498e-05,
+         -1.4298e-05, -1.1802e-05],
+        [-1.4181e-03, -6.0606e-04, -6.0272e-04,  ..., -9.5427e-05,
+         -1.4818e-04, -1.5831e-04],
+        [ 6.4373e-04,  2.7061e-04,  2.6965e-04,  ...,  4.9829e-05,
+          7.5281e-05,  7.9691e-05]], device='cuda:0')
+Epoch 53, bias, value: tensor([ 0.0467, -0.0108,  0.0230,  0.0096, -0.0428, -0.0121, -0.0098],
+       device='cuda:0'), grad: tensor([ 2.8634e-04,  1.4770e-04, -2.5302e-05,  8.5211e-04,  1.3009e-05,
+        -2.3708e-03,  1.0977e-03], device='cuda:0')
+588
+0.0015446867550656784
+changing lr
+epoch 52, time 795.64, cls_loss 0.0012 cls_loss_mapping 0.0080 cls_loss_causal 0.4011 re_mapping 0.0074 re_causal 0.0164 /// teacc 94.72 lr 0.00138603
+Epoch 54, weight, value: tensor([[ 0.0809,  0.0743,  0.0701,  ...,  0.0183,  0.0548,  0.0498],
+        [ 0.0313,  0.0217,  0.0071,  ..., -0.0155, -0.0138, -0.0119],
+        [-0.0224, -0.0292,  0.0009,  ...,  0.0023, -0.0295, -0.0128],
+        ...,
+        [-0.1189, -0.0935, -0.0757,  ...,  0.0330,  0.0360,  0.0235],
+        [ 0.0875,  0.0672,  0.0651,  ..., -0.0424, -0.0538, -0.0478],
+        [ 0.0007,  0.0141, -0.0123,  ..., -0.0439, -0.0222, -0.0305]],
+       device='cuda:0'), grad: tensor([[ 5.2261e-04,  1.0097e-04,  1.3101e-04,  ...,  6.6817e-05,
+          1.1981e-04,  1.1861e-04],
+        [-1.7338e-03, -2.5797e-04, -3.6550e-04,  ..., -4.3845e-04,
+         -7.2861e-04, -6.7663e-04],
+        [ 2.9945e-04,  2.9072e-05,  5.4806e-05,  ...,  1.1230e-04,
+          1.8954e-04,  1.6987e-04],
+        ...,
+        [ 2.6298e-04,  4.7296e-05,  6.0678e-05,  ...,  4.7565e-05,
+          7.9811e-05,  7.6592e-05],
+        [ 6.3241e-05,  1.1340e-05,  1.4648e-05,  ...,  1.3143e-05,
+          2.2039e-05,  2.0698e-05],
+        [ 3.9071e-05,  6.1700e-07,  3.9712e-06,  ...,  1.5177e-05,
+          2.3156e-05,  2.1845e-05]], device='cuda:0')
+Epoch 54, bias, value: tensor([ 0.0460, -0.0107,  0.0226,  0.0094, -0.0424, -0.0133, -0.0077],
+       device='cuda:0'), grad: tensor([ 0.0013, -0.0054,  0.0011,  0.0019,  0.0007,  0.0002,  0.0001],
+       device='cuda:0')
+588
+0.001386025680863044
+changing lr
+epoch 53, time 793.18, cls_loss 0.0015 cls_loss_mapping 0.0074 cls_loss_causal 0.4159 re_mapping 0.0073 re_causal 0.0167 /// teacc 95.23 lr 0.00123464
+Epoch 55, weight, value: tensor([[ 0.0808,  0.0742,  0.0700,  ...,  0.0183,  0.0547,  0.0497],
+        [ 0.0314,  0.0217,  0.0072,  ..., -0.0154, -0.0137, -0.0118],
+        [-0.0221, -0.0291,  0.0009,  ...,  0.0024, -0.0293, -0.0127],
+        ...,
+        [-0.1188, -0.0934, -0.0757,  ...,  0.0329,  0.0359,  0.0234],
+        [ 0.0875,  0.0670,  0.0650,  ..., -0.0422, -0.0536, -0.0476],
+        [ 0.0005,  0.0141, -0.0122,  ..., -0.0438, -0.0222, -0.0305]],
+       device='cuda:0'), grad: tensor([[ 9.7215e-05,  3.1769e-05,  3.2514e-05,  ...,  6.7428e-06,
+          1.2338e-05,  1.2912e-05],
+        [-1.1349e-04, -5.8800e-05, -5.8651e-05,  ..., -9.7454e-06,
+         -1.0319e-05, -1.2718e-05],
+        [ 3.9130e-05,  6.7838e-06,  8.2403e-06,  ...,  3.8221e-06,
+          1.0595e-05,  9.8199e-06],
+        ...,
+        [-1.5461e-04, -1.5020e-05, -2.1026e-05,  ..., -1.6153e-05,
+         -4.4107e-05, -4.0203e-05],
+        [ 4.2558e-05,  7.0110e-06,  8.5458e-06,  ...,  4.8019e-06,
+          1.1727e-05,  1.0826e-05],
+        [ 5.9634e-05,  1.9446e-05,  2.0742e-05,  ...,  6.4783e-06,
+          1.2368e-05,  1.2167e-05]], device='cuda:0')
+Epoch 55, bias, value: tensor([ 0.0458, -0.0104,  0.0234,  0.0088, -0.0427, -0.0127, -0.0083],
+       device='cuda:0'), grad: tensor([ 1.7858e-04, -1.4818e-04,  1.0729e-04,  6.5923e-05, -4.4537e-04,
+         1.1533e-04,  1.2648e-04], device='cuda:0')
+588
+0.0012346426699819469
+changing lr
+epoch 54, time 790.30, cls_loss 0.0012 cls_loss_mapping 0.0074 cls_loss_causal 0.4004 re_mapping 0.0072 re_causal 0.0161 /// teacc 91.46 lr 0.00109084
+Epoch 56, weight, value: tensor([[ 0.0806,  0.0741,  0.0700,  ...,  0.0182,  0.0546,  0.0496],
+        [ 0.0316,  0.0217,  0.0073,  ..., -0.0154, -0.0137, -0.0117],
+        [-0.0220, -0.0291,  0.0008,  ...,  0.0023, -0.0292, -0.0126],
+        ...,
+        [-0.1187, -0.0933, -0.0756,  ...,  0.0328,  0.0357,  0.0233],
+        [ 0.0872,  0.0669,  0.0649,  ..., -0.0421, -0.0535, -0.0475],
+        [ 0.0006,  0.0140, -0.0122,  ..., -0.0436, -0.0221, -0.0304]],
+       device='cuda:0'), grad: tensor([[ 1.4591e-04,  3.2336e-05,  3.3647e-05,  ...,  1.9282e-05,
+          3.5226e-05,  3.2991e-05],
+        [-2.3139e-04, -5.2631e-05, -5.8651e-05,  ..., -1.4164e-05,
+         -5.5045e-05, -5.0008e-05],
+        [ 1.2636e-04,  2.8759e-05,  2.8357e-05,  ...,  2.2590e-05,
+          2.8297e-05,  2.6703e-05],
+        ...,
+        [ 5.3108e-05,  1.2226e-05,  1.3150e-05,  ...,  4.5523e-06,
+          1.2390e-05,  1.1265e-05],
+        [ 3.8326e-05,  8.5011e-06,  9.1940e-06,  ...,  3.8184e-06,
+          9.3132e-06,  8.6427e-06],
+        [ 6.7830e-05,  1.5043e-05,  1.6212e-05,  ...,  7.2420e-06,
+          1.6958e-05,  1.5751e-05]], device='cuda:0')
+Epoch 56, bias, value: tensor([ 0.0456, -0.0096,  0.0236,  0.0082, -0.0428, -0.0130, -0.0080],
+       device='cuda:0'), grad: tensor([ 0.0004, -0.0008,  0.0003, -0.0005,  0.0002,  0.0001,  0.0002],
+       device='cuda:0')
+588
+0.0010908425876598518
+changing lr
+epoch 55, time 791.04, cls_loss 0.0013 cls_loss_mapping 0.0064 cls_loss_causal 0.4006 re_mapping 0.0070 re_causal 0.0157 /// teacc 92.96 lr 0.00095492
+Epoch 57, weight, value: tensor([[ 0.0808,  0.0742,  0.0701,  ...,  0.0182,  0.0545,  0.0495],
+        [ 0.0315,  0.0217,  0.0073,  ..., -0.0154, -0.0136, -0.0117],
+        [-0.0221, -0.0291,  0.0007,  ...,  0.0023, -0.0292, -0.0127],
+        ...,
+        [-0.1184, -0.0931, -0.0755,  ...,  0.0327,  0.0357,  0.0233],
+        [ 0.0870,  0.0668,  0.0647,  ..., -0.0420, -0.0534, -0.0474],
+        [ 0.0003,  0.0139, -0.0123,  ..., -0.0435, -0.0222, -0.0304]],
+       device='cuda:0'), grad: tensor([[-1.2696e-05, -2.6584e-05, -2.5883e-05,  ...,  2.2784e-05,
+          1.7941e-05,  1.9476e-05],
+        [ 3.1024e-05, -3.7383e-06, -1.1204e-06,  ...,  2.1696e-05,
+          2.3231e-05,  2.0608e-05],
+        [ 7.4089e-05,  8.7768e-06,  1.0565e-05,  ...,  2.9594e-05,
+          3.3528e-05,  3.1263e-05],
+        ...,
+        [ 1.1605e-04,  3.8505e-05,  4.2140e-05,  ...,  2.1189e-05,
+          3.2544e-05,  2.7776e-05],
+        [ 2.7940e-05,  4.8168e-06,  5.5768e-06,  ...,  9.3654e-06,
+          1.1064e-05,  1.0468e-05],
+        [ 4.4197e-05,  7.8306e-06,  8.4937e-06,  ...,  1.2912e-05,
+          1.5251e-05,  1.4573e-05]], device='cuda:0')
+Epoch 57, bias, value: tensor([ 0.0457, -0.0097,  0.0232,  0.0087, -0.0423, -0.0132, -0.0086],
+       device='cuda:0'), grad: tensor([ 2.4304e-05,  1.1349e-04,  2.1267e-04, -8.1396e-04,  2.6894e-04,
+         7.5221e-05,  1.1951e-04], device='cuda:0')
+588
+0.000954915028125264
+changing lr
+epoch 56, time 792.00, cls_loss 0.0014 cls_loss_mapping 0.0058 cls_loss_causal 0.3947 re_mapping 0.0070 re_causal 0.0153 /// teacc 93.97 lr 0.00082713
+Epoch 58, weight, value: tensor([[ 0.0812,  0.0743,  0.0703,  ...,  0.0182,  0.0545,  0.0495],
+        [ 0.0314,  0.0216,  0.0072,  ..., -0.0153, -0.0136, -0.0117],
+        [-0.0222, -0.0291,  0.0006,  ...,  0.0023, -0.0291, -0.0126],
+        ...,
+        [-0.1183, -0.0930, -0.0755,  ...,  0.0326,  0.0356,  0.0232],
+        [ 0.0867,  0.0667,  0.0646,  ..., -0.0420, -0.0533, -0.0474],
+        [ 0.0002,  0.0138, -0.0123,  ..., -0.0435, -0.0221, -0.0303]],
+       device='cuda:0'), grad: tensor([[ 2.2018e-04,  4.3094e-05,  4.2945e-05,  ...,  3.9011e-05,
+          6.7592e-05,  6.3181e-05],
+        [ 8.5890e-05,  1.3866e-05,  1.4685e-05,  ...,  2.1249e-05,
+          3.2306e-05,  3.1620e-05],
+        [-4.9263e-05, -8.6352e-06, -7.9125e-06,  ..., -1.0364e-05,
+         -1.6361e-05, -1.6630e-05],
+        ...,
+        [-2.1291e-04, -1.9759e-05, -2.5615e-05,  ..., -6.2048e-05,
+         -1.0628e-04, -9.5904e-05],
+        [ 2.1315e-04,  7.1287e-05,  6.4909e-05,  ...,  1.3031e-05,
+          1.5482e-05,  2.2084e-05],
+        [-3.4785e-04, -1.2279e-04, -1.1086e-04,  ..., -1.4894e-05,
+         -1.4380e-05, -2.6733e-05]], device='cuda:0')
+Epoch 58, bias, value: tensor([ 0.0465, -0.0097,  0.0230,  0.0087, -0.0424, -0.0135, -0.0087],
+       device='cuda:0'), grad: tensor([ 0.0006,  0.0002, -0.0001,  0.0002, -0.0007,  0.0004, -0.0007],
+       device='cuda:0')
+588
+0.0008271337313934874
+changing lr
+epoch 57, time 785.47, cls_loss 0.0014 cls_loss_mapping 0.0066 cls_loss_causal 0.3959 re_mapping 0.0070 re_causal 0.0155 /// teacc 93.72 lr 0.00070776
+Epoch 59, weight, value: tensor([[ 8.1379e-02,  7.4439e-02,  7.0417e-02,  ...,  1.8152e-02,
+          5.4398e-02,  4.9417e-02],
+        [ 3.1237e-02,  2.1533e-02,  7.2049e-03,  ..., -1.5339e-02,
+         -1.3612e-02, -1.1715e-02],
+        [-2.2203e-02, -2.9107e-02,  5.2069e-04,  ...,  2.2342e-03,
+         -2.9068e-02, -1.2622e-02],
+        ...,
+        [-1.1797e-01, -9.2928e-02, -7.5440e-02,  ...,  3.2604e-02,
+          3.5572e-02,  2.3227e-02],
+        [ 8.6427e-02,  6.6554e-02,  6.4479e-02,  ..., -4.1890e-02,
+         -5.3248e-02, -4.7302e-02],
+        [ 3.9185e-05,  1.3749e-02, -1.2354e-02,  ..., -4.3392e-02,
+         -2.2147e-02, -3.0321e-02]], device='cuda:0'), grad: tensor([[-1.1235e-04, -3.5435e-05, -3.2008e-05,  ..., -6.7614e-06,
+         -2.2739e-05, -2.2516e-05],
+        [ 2.6822e-07, -1.0356e-05, -1.0908e-05,  ...,  5.3830e-06,
+          3.4962e-06,  6.2659e-06],
+        [ 2.7850e-05,  5.6587e-06,  7.6592e-06,  ...,  5.3123e-06,
+          9.2909e-06,  9.0823e-06],
+        ...,
+        [ 8.6054e-07,  1.7315e-05,  9.5293e-06,  ..., -1.4305e-05,
+         -1.3761e-05, -1.5251e-05],
+        [ 2.3812e-05,  5.7258e-06,  6.6236e-06,  ...,  3.6899e-06,
+          7.1824e-06,  6.9141e-06],
+        [ 2.9907e-05,  8.1360e-06,  9.1270e-06,  ...,  3.8054e-06,
+          8.0764e-06,  7.7859e-06]], device='cuda:0')
+Epoch 59, bias, value: tensor([ 0.0468, -0.0098,  0.0229,  0.0086, -0.0417, -0.0137, -0.0092],
+       device='cuda:0'), grad: tensor([-2.5082e-04,  2.2411e-05,  7.2360e-05,  6.9439e-05, -4.3809e-05,
+         5.9098e-05,  7.1585e-05], device='cuda:0')
+588
+0.00070775603199067
+changing lr
+epoch 58, time 790.13, cls_loss 0.0015 cls_loss_mapping 0.0079 cls_loss_causal 0.3930 re_mapping 0.0070 re_causal 0.0153 /// teacc 92.71 lr 0.00059702
+Epoch 60, weight, value: tensor([[ 0.0813,  0.0744,  0.0704,  ...,  0.0181,  0.0543,  0.0493],
+        [ 0.0312,  0.0215,  0.0072,  ..., -0.0153, -0.0136, -0.0117],
+        [-0.0220, -0.0291,  0.0005,  ...,  0.0022, -0.0290, -0.0126],
+        ...,
+        [-0.1179, -0.0928, -0.0754,  ...,  0.0325,  0.0355,  0.0232],
+        [ 0.0865,  0.0665,  0.0644,  ..., -0.0418, -0.0531, -0.0472],
+        [-0.0002,  0.0137, -0.0124,  ..., -0.0433, -0.0222, -0.0303]],
+       device='cuda:0'), grad: tensor([[-1.3614e-04, -4.7654e-05, -4.9800e-05,  ..., -9.0376e-06,
+         -2.8431e-05, -3.0428e-05],
+        [ 2.2963e-05, -1.4622e-07,  5.2713e-07,  ...,  7.8231e-06,
+          9.9093e-06,  9.8273e-06],
+        [ 2.0003e-04,  4.9949e-05,  5.4389e-05,  ...,  3.1143e-05,
+          4.8310e-05,  4.9323e-05],
+        ...,
+        [-3.0428e-05,  3.3360e-06,  2.5891e-06,  ..., -6.1467e-06,
+         -7.1004e-06, -7.6443e-06],
+        [ 1.8820e-05,  4.6901e-06,  5.1148e-06,  ...,  3.0342e-06,
+          4.5076e-06,  4.5747e-06],
+        [ 3.3736e-05,  9.0003e-06,  9.7901e-06,  ...,  5.9679e-06,
+          8.0764e-06,  8.0466e-06]], device='cuda:0')
+Epoch 60, bias, value: tensor([ 0.0465, -0.0098,  0.0233,  0.0084, -0.0418, -0.0132, -0.0096],
+       device='cuda:0'), grad: tensor([-2.8539e-04,  7.4804e-05,  4.8685e-04, -2.9206e-04, -1.1086e-04,
+         4.5896e-05,  8.0407e-05], device='cuda:0')
+588
+0.0005970223407163104
+changing lr
+epoch 59, time 787.39, cls_loss 0.0013 cls_loss_mapping 0.0065 cls_loss_causal 0.4018 re_mapping 0.0070 re_causal 0.0152 /// teacc 91.46 lr 0.00049516
+Epoch 61, weight, value: tensor([[ 0.0813,  0.0745,  0.0705,  ...,  0.0181,  0.0542,  0.0493],
+        [ 0.0313,  0.0215,  0.0072,  ..., -0.0153, -0.0135, -0.0116],
+        [-0.0220, -0.0291,  0.0005,  ...,  0.0022, -0.0289, -0.0125],
+        ...,
+        [-0.1179, -0.0928, -0.0754,  ...,  0.0324,  0.0354,  0.0231],
+        [ 0.0865,  0.0664,  0.0644,  ..., -0.0417, -0.0530, -0.0471],
+        [-0.0003,  0.0136, -0.0124,  ..., -0.0433, -0.0222, -0.0303]],
+       device='cuda:0'), grad: tensor([[ 6.6161e-05,  2.5108e-05,  2.2292e-05,  ..., -2.0247e-06,
+          2.7250e-06,  2.9895e-06],
+        [ 1.3210e-05,  1.6913e-05,  1.7300e-05,  ..., -6.8434e-06,
+         -1.0744e-05, -8.6725e-06],
+        [ 5.3674e-05,  3.2604e-05,  3.2365e-05,  ...,  5.1893e-06,
+          6.1728e-06,  6.3814e-06],
+        ...,
+        [-1.4462e-05,  5.9456e-06,  9.0003e-06,  ...,  2.1271e-06,
+         -2.9467e-06, -3.6284e-06],
+        [-7.7200e-04, -3.9530e-04, -4.0317e-04,  ..., -4.7147e-05,
+         -6.9857e-05, -7.2420e-05],
+        [ 4.9162e-04,  2.4366e-04,  2.4891e-04,  ...,  3.4362e-05,
+          5.1647e-05,  5.2601e-05]], device='cuda:0')
+Epoch 61, bias, value: tensor([ 0.0466, -0.0095,  0.0235,  0.0083, -0.0421, -0.0130, -0.0101],
+       device='cuda:0'), grad: tensor([ 1.3614e-04, -1.2711e-05,  6.5029e-05,  2.9325e-04, -7.4446e-05,
+        -1.1940e-03,  7.8773e-04], device='cuda:0')
+588
+0.0004951556604879052
+changing lr
+epoch 60, time 786.59, cls_loss 0.0013 cls_loss_mapping 0.0053 cls_loss_causal 0.4019 re_mapping 0.0070 re_causal 0.0155 /// teacc 93.22 lr 0.00040236
+Epoch 62, weight, value: tensor([[ 0.0815,  0.0745,  0.0705,  ...,  0.0181,  0.0542,  0.0493],
+        [ 0.0313,  0.0215,  0.0073,  ..., -0.0153, -0.0135, -0.0116],
+        [-0.0220, -0.0291,  0.0004,  ...,  0.0022, -0.0289, -0.0125],
+        ...,
+        [-0.1179, -0.0927, -0.0754,  ...,  0.0324,  0.0353,  0.0230],
+        [ 0.0863,  0.0664,  0.0643,  ..., -0.0417, -0.0530, -0.0471],
+        [-0.0004,  0.0135, -0.0125,  ..., -0.0433, -0.0222, -0.0303]],
+       device='cuda:0'), grad: tensor([[-1.4246e-04, -1.9640e-05, -3.0264e-05,  ..., -6.9857e-05,
+         -1.2910e-04, -1.1581e-04],
+        [-1.0908e-05, -6.3218e-06, -5.1782e-06,  ...,  2.3730e-06,
+          3.9525e-06,  3.3639e-06],
+        [ 2.5630e-05,  3.5446e-06,  5.0627e-06,  ...,  1.0781e-05,
+          2.0429e-05,  1.8463e-05],
+        ...,
+        [ 3.6359e-05,  7.1079e-06,  9.3430e-06,  ...,  1.7747e-05,
+          3.2604e-05,  2.9057e-05],
+        [ 1.3679e-05,  2.3674e-06,  3.1535e-06,  ...,  5.2191e-06,
+          9.7379e-06,  8.8066e-06],
+        [ 2.7865e-05,  5.3830e-06,  6.8247e-06,  ...,  1.0662e-05,
+          1.9848e-05,  1.7881e-05]], device='cuda:0')
+Epoch 62, bias, value: tensor([ 0.0468, -0.0092,  0.0235,  0.0086, -0.0424, -0.0132, -0.0102],
+       device='cuda:0'), grad: tensor([-5.7840e-04,  9.1270e-07,  9.4593e-05,  1.9586e-04,  1.4210e-04,
+         4.8250e-05,  9.6798e-05], device='cuda:0')
+588
+0.00040236113724274745
+changing lr
+---------------------saving model at epoch 61----------------------------------------------------
+epoch 61, time 798.02, cls_loss 0.0014 cls_loss_mapping 0.0060 cls_loss_causal 0.3726 re_mapping 0.0069 re_causal 0.0147 /// teacc 95.73 lr 0.00031883
+Epoch 63, weight, value: tensor([[ 0.0815,  0.0745,  0.0706,  ...,  0.0181,  0.0542,  0.0492],
+        [ 0.0313,  0.0215,  0.0073,  ..., -0.0153, -0.0135, -0.0116],
+        [-0.0219, -0.0290,  0.0004,  ...,  0.0022, -0.0288, -0.0125],
+        ...,
+        [-0.1179, -0.0927, -0.0753,  ...,  0.0323,  0.0353,  0.0230],
+        [ 0.0863,  0.0663,  0.0642,  ..., -0.0416, -0.0529, -0.0470],
+        [-0.0005,  0.0135, -0.0125,  ..., -0.0432, -0.0222, -0.0303]],
+       device='cuda:0'), grad: tensor([[-4.3929e-05, -3.4690e-05, -4.0025e-05,  ..., -3.5614e-06,
+         -5.4650e-06, -4.4927e-06],
+        [ 5.9128e-05,  2.5079e-05,  2.8685e-05,  ...,  1.2778e-05,
+          1.7628e-05,  1.6913e-05],
+        [-8.0585e-05, -1.8463e-05, -1.8775e-05,  ..., -5.4836e-05,
+         -6.4671e-05, -6.2823e-05],
+        ...,
+        [-6.9857e-05, -3.1013e-06, -4.7386e-06,  ...,  1.1753e-06,
+         -6.4522e-06, -6.5900e-06],
+        [ 2.0623e-05,  6.4410e-06,  7.3016e-06,  ...,  4.1425e-06,
+          6.3218e-06,  6.1989e-06],
+        [ 3.7521e-05,  1.0610e-05,  1.1824e-05,  ...,  1.3597e-05,
+          1.7479e-05,  1.6838e-05]], device='cuda:0')
+Epoch 63, bias, value: tensor([ 0.0468, -0.0093,  0.0235,  0.0086, -0.0424, -0.0130, -0.0104],
+       device='cuda:0'), grad: tensor([-1.0625e-05,  1.1456e-04, -2.4128e-04,  2.0921e-04, -2.1255e-04,
+         4.9680e-05,  9.0718e-05], device='cuda:0')
+588
+0.00031882564680131423
+changing lr
+epoch 62, time 791.56, cls_loss 0.0014 cls_loss_mapping 0.0056 cls_loss_causal 0.3860 re_mapping 0.0069 re_causal 0.0145 /// teacc 94.97 lr 0.00024472
+Epoch 64, weight, value: tensor([[ 0.0815,  0.0746,  0.0706,  ...,  0.0180,  0.0541,  0.0492],
+        [ 0.0313,  0.0215,  0.0073,  ..., -0.0153, -0.0135, -0.0116],
+        [-0.0220, -0.0290,  0.0004,  ...,  0.0022, -0.0288, -0.0125],
+        ...,
+        [-0.1178, -0.0926, -0.0753,  ...,  0.0323,  0.0353,  0.0230],
+        [ 0.0862,  0.0663,  0.0642,  ..., -0.0416, -0.0529, -0.0470],
+        [-0.0006,  0.0135, -0.0125,  ..., -0.0432, -0.0222, -0.0303]],
+       device='cuda:0'), grad: tensor([[ 4.8518e-04,  1.4091e-04,  1.4400e-04,  ...,  5.1767e-05,
+          1.0324e-04,  1.0949e-04],
+        [-1.6241e-03, -4.9543e-04, -4.9257e-04,  ..., -1.2589e-04,
+         -2.7442e-04, -3.0184e-04],
+        [-9.9719e-05, -6.7130e-06, -1.5736e-05,  ..., -2.8729e-05,
+         -4.7058e-05, -3.9220e-05],
+        ...,
+        [ 1.5032e-04,  4.4167e-05,  4.5151e-05,  ...,  1.7181e-05,
+          3.1292e-05,  3.0518e-05],
+        [ 7.5758e-05,  2.1458e-05,  2.2143e-05,  ...,  7.0743e-06,
+          1.4804e-05,  1.5438e-05],
+        [ 2.1255e-04,  7.0274e-05,  7.1526e-05,  ...,  1.7896e-05,
+          3.7909e-05,  3.9816e-05]], device='cuda:0')
+Epoch 64, bias, value: tensor([ 0.0468, -0.0092,  0.0235,  0.0086, -0.0423, -0.0131, -0.0105],
+       device='cuda:0'), grad: tensor([ 0.0011, -0.0037, -0.0003,  0.0019,  0.0003,  0.0002,  0.0005],
+       device='cuda:0')
+588
+0.0002447174185242325
+changing lr
+epoch 63, time 792.66, cls_loss 0.0014 cls_loss_mapping 0.0055 cls_loss_causal 0.3893 re_mapping 0.0069 re_causal 0.0150 /// teacc 92.96 lr 0.00018019
+Epoch 65, weight, value: tensor([[ 0.0815,  0.0746,  0.0706,  ...,  0.0180,  0.0541,  0.0491],
+        [ 0.0312,  0.0214,  0.0073,  ..., -0.0153, -0.0135, -0.0116],
+        [-0.0220, -0.0290,  0.0003,  ...,  0.0022, -0.0288, -0.0125],
+        ...,
+        [-0.1177, -0.0926, -0.0753,  ...,  0.0323,  0.0352,  0.0230],
+        [ 0.0862,  0.0662,  0.0642,  ..., -0.0416, -0.0529, -0.0470],
+        [-0.0006,  0.0135, -0.0125,  ..., -0.0432, -0.0222, -0.0303]],
+       device='cuda:0'), grad: tensor([[ 8.9228e-05,  1.2606e-05,  1.9163e-05,  ...,  2.3171e-05,
+          3.9995e-05,  3.6895e-05],
+        [ 2.4647e-05,  4.6715e-06,  5.2266e-06,  ...,  1.1235e-05,
+          1.3925e-05,  1.3247e-05],
+        [-1.8505e-06, -1.0058e-06, -1.2983e-06,  ...,  3.5521e-06,
+          4.2692e-06,  3.7104e-06],
+        ...,
+        [-1.0407e-04, -1.2234e-05, -2.0415e-05,  ..., -3.8534e-05,
+         -6.0707e-05, -5.6356e-05],
+        [ 2.6360e-05,  9.4771e-06,  9.5293e-06,  ...,  3.1702e-06,
+          6.7726e-06,  6.0052e-06],
+        [-2.6450e-05, -1.1444e-05, -1.0967e-05,  ...,  1.0896e-07,
+         -3.2596e-06, -2.4661e-06]], device='cuda:0')
+Epoch 65, bias, value: tensor([ 0.0467, -0.0093,  0.0235,  0.0087, -0.0422, -0.0130, -0.0106],
+       device='cuda:0'), grad: tensor([ 2.6202e-04,  7.3969e-05,  4.8243e-06, -1.3702e-05, -3.3689e-04,
+         5.6893e-05, -4.6700e-05], device='cuda:0')
+588
+0.0001801856965207339
+changing lr
+epoch 64, time 789.94, cls_loss 0.0014 cls_loss_mapping 0.0060 cls_loss_causal 0.3751 re_mapping 0.0069 re_causal 0.0144 /// teacc 94.47 lr 0.00012536
+Epoch 66, weight, value: tensor([[ 0.0815,  0.0746,  0.0706,  ...,  0.0180,  0.0541,  0.0491],
+        [ 0.0312,  0.0214,  0.0072,  ..., -0.0152, -0.0135, -0.0116],
+        [-0.0220, -0.0290,  0.0003,  ...,  0.0022, -0.0288, -0.0125],
+        ...,
+        [-0.1177, -0.0926, -0.0753,  ...,  0.0323,  0.0352,  0.0230],
+        [ 0.0862,  0.0662,  0.0642,  ..., -0.0415, -0.0528, -0.0469],
+        [-0.0006,  0.0135, -0.0125,  ..., -0.0432, -0.0222, -0.0303]],
+       device='cuda:0'), grad: tensor([[ 2.0289e-04,  4.7714e-05,  4.6968e-05,  ...,  2.2978e-05,
+          5.6028e-05,  5.4181e-05],
+        [-1.6952e-04, -6.3956e-05, -7.1347e-05,  ..., -3.0875e-05,
+         -5.2601e-05, -5.0157e-05],
+        [-2.3925e-04, -3.6091e-05, -2.8566e-05,  ..., -1.7762e-05,
+         -6.2704e-05, -6.1035e-05],
+        ...,
+        [ 5.8234e-05,  1.5043e-05,  1.5035e-05,  ...,  6.8173e-06,
+          1.5691e-05,  1.5207e-05],
+        [ 3.3915e-05,  7.8082e-06,  7.6219e-06,  ...,  3.8110e-06,
+          9.4622e-06,  9.1419e-06],
+        [ 4.7415e-05,  1.1221e-05,  1.1034e-05,  ...,  5.9307e-06,
+          1.4342e-05,  1.3761e-05]], device='cuda:0')
+Epoch 66, bias, value: tensor([ 0.0466, -0.0093,  0.0235,  0.0087, -0.0421, -0.0130, -0.0106],
+       device='cuda:0'), grad: tensor([ 5.1594e-04, -3.5167e-04, -6.7663e-04,  1.6046e-04,  1.4317e-04,
+         8.6904e-05,  1.2153e-04], device='cuda:0')
+588
+0.000125360439090882
+changing lr
+epoch 65, time 792.08, cls_loss 0.0013 cls_loss_mapping 0.0047 cls_loss_causal 0.4086 re_mapping 0.0070 re_causal 0.0149 /// teacc 94.47 lr 0.00008035
+Epoch 67, weight, value: tensor([[ 0.0815,  0.0746,  0.0706,  ...,  0.0180,  0.0541,  0.0491],
+        [ 0.0312,  0.0214,  0.0072,  ..., -0.0152, -0.0135, -0.0116],
+        [-0.0220, -0.0290,  0.0003,  ...,  0.0022, -0.0288, -0.0125],
+        ...,
+        [-0.1176, -0.0926, -0.0752,  ...,  0.0323,  0.0352,  0.0230],
+        [ 0.0861,  0.0662,  0.0641,  ..., -0.0415, -0.0528, -0.0469],
+        [-0.0006,  0.0134, -0.0125,  ..., -0.0432, -0.0222, -0.0303]],
+       device='cuda:0'), grad: tensor([[ 8.9169e-05,  1.9014e-05,  2.5526e-05,  ...,  8.1286e-06,
+          2.1189e-05,  2.0862e-05],
+        [-7.4327e-05, -1.5467e-05, -2.2471e-05,  ..., -1.4305e-06,
+         -1.2703e-05, -1.2293e-05],
+        [ 6.7241e-06,  6.5006e-07,  7.9162e-07,  ..., -1.1548e-06,
+         -6.4261e-07, -3.6508e-07],
+        ...,
+        [-1.8179e-05,  2.3656e-07, -1.3821e-06,  ..., -5.5097e-06,
+         -9.0227e-06, -9.2089e-06],
+        [ 1.1787e-05,  3.2131e-06,  3.6694e-06,  ...,  1.5590e-06,
+          3.1739e-06,  3.1292e-06],
+        [-2.1517e-05, -9.9093e-06, -8.9705e-06,  ..., -1.8366e-06,
+         -3.9525e-06, -4.0568e-06]], device='cuda:0')
+Epoch 67, bias, value: tensor([ 0.0467, -0.0093,  0.0235,  0.0086, -0.0421, -0.0130, -0.0106],
+       device='cuda:0'), grad: tensor([ 2.2435e-04, -1.8561e-04,  1.4521e-05,  1.4886e-05, -6.1214e-05,
+         2.7463e-05, -3.4809e-05], device='cuda:0')
+588
+8.03520570068517e-05
+changing lr
+epoch 66, time 791.60, cls_loss 0.0012 cls_loss_mapping 0.0048 cls_loss_causal 0.3824 re_mapping 0.0069 re_causal 0.0144 /// teacc 92.71 lr 0.00004525
+Epoch 68, weight, value: tensor([[ 0.0815,  0.0746,  0.0706,  ...,  0.0180,  0.0540,  0.0491],
+        [ 0.0312,  0.0214,  0.0072,  ..., -0.0152, -0.0135, -0.0116],
+        [-0.0220, -0.0290,  0.0003,  ...,  0.0022, -0.0288, -0.0125],
+        ...,
+        [-0.1176, -0.0926, -0.0752,  ...,  0.0323,  0.0352,  0.0230],
+        [ 0.0861,  0.0662,  0.0641,  ..., -0.0415, -0.0528, -0.0469],
+        [-0.0006,  0.0134, -0.0125,  ..., -0.0432, -0.0222, -0.0303]],
+       device='cuda:0'), grad: tensor([[-3.4499e-04, -1.0622e-04, -1.1998e-04,  ..., -5.3972e-05,
+         -8.1837e-05, -8.7082e-05],
+        [ 3.6597e-05,  1.3076e-05,  1.3515e-05,  ..., -1.1846e-05,
+         -9.7007e-06, -7.8529e-06],
+        [ 2.3949e-04,  6.9976e-05,  7.8917e-05,  ...,  4.0054e-05,
+          6.0946e-05,  6.2346e-05],
+        ...,
+        [ 8.7678e-05,  2.6032e-05,  2.8893e-05,  ...,  1.6496e-05,
+          2.5570e-05,  2.4974e-05],
+        [ 6.9022e-05,  2.1338e-05,  2.3648e-05,  ...,  9.4622e-06,
+          1.6078e-05,  1.6108e-05],
+        [-8.6308e-05, -3.0845e-05, -3.1888e-05,  ...,  2.0768e-06,
+         -9.3579e-06, -7.0520e-06]], device='cuda:0')
+Epoch 68, bias, value: tensor([ 0.0467, -0.0093,  0.0235,  0.0086, -0.0420, -0.0130, -0.0106],
+       device='cuda:0'), grad: tensor([-7.2241e-04,  5.9903e-05,  5.2357e-04, -2.9445e-05,  1.9670e-04,
+         1.4806e-04, -1.7786e-04], device='cuda:0')
+588
+4.5251191160326525e-05
+changing lr
+epoch 67, time 790.33, cls_loss 0.0011 cls_loss_mapping 0.0054 cls_loss_causal 0.4041 re_mapping 0.0069 re_causal 0.0150 /// teacc 94.72 lr 0.00002013
+Epoch 69, weight, value: tensor([[ 0.0815,  0.0746,  0.0706,  ...,  0.0180,  0.0540,  0.0491],
+        [ 0.0312,  0.0214,  0.0072,  ..., -0.0152, -0.0135, -0.0116],
+        [-0.0220, -0.0290,  0.0003,  ...,  0.0022, -0.0288, -0.0125],
+        ...,
+        [-0.1176, -0.0925, -0.0752,  ...,  0.0323,  0.0352,  0.0230],
+        [ 0.0861,  0.0662,  0.0641,  ..., -0.0415, -0.0528, -0.0469],
+        [-0.0006,  0.0134, -0.0125,  ..., -0.0432, -0.0222, -0.0303]],
+       device='cuda:0'), grad: tensor([[ 3.5071e-04,  1.1247e-04,  1.2410e-04,  ...,  2.8133e-05,
+          6.1333e-05,  5.7489e-05],
+        [-6.8474e-04, -2.2268e-04, -2.4223e-04,  ..., -5.7817e-05,
+         -1.1975e-04, -1.1617e-04],
+        [-9.4235e-05, -2.9683e-05, -3.3438e-05,  ..., -1.4827e-05,
+         -2.4989e-05, -2.4036e-05],
+        ...,
+        [ 1.2064e-04,  3.9995e-05,  4.2647e-05,  ...,  1.1832e-05,
+          2.3708e-05,  2.3514e-05],
+        [ 5.0396e-05,  1.6794e-05,  1.8194e-05,  ...,  4.7646e-06,
+          9.4473e-06,  9.3356e-06],
+        [ 1.3649e-04,  4.4614e-05,  4.8399e-05,  ...,  1.2234e-05,
+          2.4438e-05,  2.3961e-05]], device='cuda:0')
+Epoch 69, bias, value: tensor([ 0.0467, -0.0093,  0.0234,  0.0086, -0.0420, -0.0131, -0.0106],
+       device='cuda:0'), grad: tensor([ 0.0008, -0.0015, -0.0002,  0.0003,  0.0003,  0.0001,  0.0003],
+       device='cuda:0')
+588
+2.0128530023804673e-05
+changing lr
+epoch 68, time 787.75, cls_loss 0.0012 cls_loss_mapping 0.0053 cls_loss_causal 0.3859 re_mapping 0.0069 re_causal 0.0147 /// teacc 94.47 lr 0.00000503
+Epoch 70, weight, value: tensor([[ 0.0815,  0.0746,  0.0706,  ...,  0.0180,  0.0540,  0.0491],
+        [ 0.0312,  0.0214,  0.0072,  ..., -0.0152, -0.0135, -0.0116],
+        [-0.0220, -0.0290,  0.0003,  ...,  0.0022, -0.0288, -0.0125],
+        ...,
+        [-0.1176, -0.0925, -0.0752,  ...,  0.0323,  0.0352,  0.0230],
+        [ 0.0861,  0.0662,  0.0641,  ..., -0.0415, -0.0528, -0.0469],
+        [-0.0006,  0.0134, -0.0125,  ..., -0.0431, -0.0222, -0.0303]],
+       device='cuda:0'), grad: tensor([[-1.6153e-04, -5.3585e-05, -5.9724e-05,  ..., -3.2395e-05,
+         -5.6535e-05, -5.7220e-05],
+        [ 8.6248e-05,  2.2650e-05,  2.6375e-05,  ...,  2.1592e-05,
+          3.2693e-05,  3.2932e-05],
+        [ 4.7624e-05,  1.4886e-05,  1.6645e-05,  ...,  1.0297e-05,
+          1.6779e-05,  1.7002e-05],
+        ...,
+        [ 4.1991e-05,  1.4745e-05,  1.6540e-05,  ...,  7.4059e-06,
+          1.2279e-05,  1.2465e-05],
+        [-8.6069e-05, -4.3333e-05, -4.7565e-05,  ..., -1.9930e-06,
+         -4.6790e-06, -6.3106e-06],
+        [ 7.8261e-05,  3.6418e-05,  4.0323e-05,  ...,  4.9211e-06,
+          8.8066e-06,  9.9540e-06]], device='cuda:0')
+Epoch 70, bias, value: tensor([ 0.0467, -0.0093,  0.0234,  0.0086, -0.0420, -0.0131, -0.0106],
+       device='cuda:0'), grad: tensor([-3.4833e-04,  1.9848e-04,  1.0222e-04, -4.1157e-05,  8.4817e-05,
+        -1.1569e-04,  1.1945e-04], device='cuda:0')
+588
+5.034667293427056e-06
+changing lr
+epoch 69, time 799.21, cls_loss 0.0015 cls_loss_mapping 0.0062 cls_loss_causal 0.3843 re_mapping 0.0069 re_causal 0.0145 /// teacc 93.47 lr 0.00000000
+---------------------saving last model at epoch 69----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1', 'source_domain': 'sketch', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1/sketch_16factor_last_test_check.csv', 'factor_num': 16, 'epoch': 'last', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of last
+randm: False
+stride: 5
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+columns: ['sketch', 'art_painting', 'cartoon', 'photo']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+                        sketch  art_painting    cartoon      photo        Avg
+w/o do (original x)  99.338254     43.212891  56.186007  46.467066  48.621988
+      sketch  art_painting    cartoon      photo        Avg
+do  99.28735     46.630859  60.025597  52.035928  52.897462
diff --git a/Meta-causal/code-withStyleAttack/65654.error b/Meta-causal/code-withStyleAttack/65654.error
new file mode 100644
index 0000000000000000000000000000000000000000..c8925473af6329b0a06ae76e97c6ab027644bc98
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/65654.error
@@ -0,0 +1,3 @@
+slurmstepd: error: *** STEP 65654.0 ON gcpl4-eu-1 CANCELLED AT 2024-07-19T07:11:27 ***
+slurmstepd: error: *** JOB 65654 ON gcpl4-eu-1 CANCELLED AT 2024-07-19T07:11:27 ***
+srun: Job step aborted: Waiting up to 32 seconds for job step to finish.
diff --git a/Meta-causal/code-withStyleAttack/65654.log b/Meta-causal/code-withStyleAttack/65654.log
new file mode 100644
index 0000000000000000000000000000000000000000..47375e47e56437d95c5b818b3dd56955e45a39c6
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/65654.log
@@ -0,0 +1,7457 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 500, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 3
+--------------------------CA_multiple--------------------------
+---------------------------14 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+Epoch 1, weight, value: tensor([[ 0.0271,  0.0278,  0.0225,  ..., -0.0296, -0.0126,  0.0133],
+        [ 0.0281, -0.0014,  0.0019,  ...,  0.0049, -0.0001, -0.0167],
+        [ 0.0096, -0.0095, -0.0208,  ..., -0.0112,  0.0086,  0.0155],
+        ...,
+        [ 0.0241,  0.0234, -0.0310,  ..., -0.0023,  0.0109, -0.0108],
+        [-0.0104,  0.0021,  0.0085,  ..., -0.0012, -0.0071, -0.0235],
+        [ 0.0238, -0.0081,  0.0041,  ..., -0.0056,  0.0007,  0.0226]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([ 0.0091,  0.0009,  0.0029,  0.0177,  0.0243,  0.0294, -0.0206,  0.0056,
+        -0.0307, -0.0182], device='cuda:0'), grad: None
+100
+0.0001
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 223.22, cls_loss 1.6736 cls_loss_mapping 2.0181 cls_loss_causal 2.2459 re_mapping 0.0816 re_causal 0.0818 /// teacc 73.46 lr 0.00010000
+Epoch 2, weight, value: tensor([[ 0.0191,  0.0323,  0.0264,  ..., -0.0359, -0.0128,  0.0174],
+        [ 0.0360, -0.0041,  0.0007,  ...,  0.0067, -0.0003, -0.0264],
+        [ 0.0048, -0.0081, -0.0186,  ..., -0.0090,  0.0080,  0.0122],
+        ...,
+        [ 0.0229,  0.0276, -0.0377,  ..., -0.0113,  0.0093, -0.0189],
+        [-0.0084, -0.0019,  0.0107,  ...,  0.0022, -0.0053, -0.0228],
+        [ 0.0194, -0.0109, -0.0004,  ..., -0.0055, -0.0014,  0.0232]],
+       device='cuda:0'), grad: tensor([[ 2.0035e-02, -1.3054e-02, -1.5045e-02,  ...,  7.2479e-03,
+          1.3113e-04, -1.1559e-02],
+        [-6.2988e-02,  2.7943e-03, -1.8673e-03,  ..., -4.6967e-02,
+          8.8736e-06, -1.4580e-02],
+        [ 2.7679e-02,  3.3607e-03,  1.9638e-02,  ...,  2.5070e-02,
+          1.5184e-05,  1.3123e-02],
+        ...,
+        [-2.3865e-02, -1.8097e-02,  7.0152e-03,  ..., -5.5695e-03,
+          3.0845e-05,  2.3499e-03],
+        [-3.2921e-03,  7.3509e-03, -9.6130e-04,  ..., -2.1133e-03,
+          1.0669e-04,  1.1459e-02],
+        [ 5.2582e-02,  1.3435e-02,  3.2013e-02,  ...,  7.6172e-02,
+          9.8348e-05,  3.1250e-02]], device='cuda:0')
+Epoch 2, bias, value: tensor([ 0.0069,  0.0036,  0.0026,  0.0171,  0.0236,  0.0295, -0.0215,  0.0064,
+        -0.0314, -0.0176], device='cuda:0'), grad: tensor([ 0.0031, -0.0215,  0.0242,  0.0185, -0.0174, -0.0472, -0.0401, -0.0387,
+         0.0231,  0.0958], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 220.40, cls_loss 0.5839 cls_loss_mapping 0.8899 cls_loss_causal 1.9196 re_mapping 0.2132 re_causal 0.2487 /// teacc 88.40 lr 0.00010000
+Epoch 3, weight, value: tensor([[ 1.5019e-02,  3.5892e-02,  2.8696e-02,  ..., -3.9882e-02,
+         -1.5826e-02,  1.8511e-02],
+        [ 3.8934e-02, -5.4322e-03, -1.9550e-03,  ...,  8.0060e-03,
+         -4.0296e-04, -2.8752e-02],
+        [ 5.3168e-05, -6.9198e-03, -1.8001e-02,  ..., -1.0121e-02,
+          6.0515e-04,  9.4711e-03],
+        ...,
+        [ 2.0476e-02,  3.2725e-02, -4.1894e-02,  ..., -1.5440e-02,
+          8.8445e-03, -2.1740e-02],
+        [-7.3172e-03, -5.6156e-03,  1.3275e-02,  ...,  5.6482e-03,
+         -1.0707e-02, -2.2726e-02],
+        [ 1.8082e-02, -1.1282e-02, -1.0400e-03,  ..., -9.5011e-03,
+         -4.7546e-03,  2.3836e-02]], device='cuda:0'), grad: tensor([[-0.0201, -0.0018, -0.0141,  ..., -0.0006, -0.0001, -0.0125],
+        [-0.0225,  0.0020,  0.0056,  ..., -0.0228, -0.0046, -0.0055],
+        [-0.0170,  0.0011, -0.0056,  ..., -0.0105, -0.0029,  0.0010],
+        ...,
+        [ 0.0154, -0.0052,  0.0065,  ...,  0.0234,  0.0011,  0.0092],
+        [ 0.0093, -0.0120, -0.0126,  ..., -0.0094,  0.0024, -0.0142],
+        [-0.0535,  0.0031, -0.0219,  ..., -0.0405, -0.0099, -0.0302]],
+       device='cuda:0')
+Epoch 3, bias, value: tensor([ 0.0060,  0.0037,  0.0024,  0.0170,  0.0235,  0.0311, -0.0226,  0.0060,
+        -0.0307, -0.0176], device='cuda:0'), grad: tensor([-0.0033, -0.0064, -0.0138,  0.0236,  0.0052,  0.0347,  0.0149,  0.0178,
+        -0.0105, -0.0623], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 221.40, cls_loss 0.3490 cls_loss_mapping 0.5111 cls_loss_causal 1.6934 re_mapping 0.1598 re_causal 0.2406 /// teacc 93.28 lr 0.00010000
+Epoch 4, weight, value: tensor([[ 0.0128,  0.0385,  0.0302,  ..., -0.0418, -0.0186,  0.0193],
+        [ 0.0411, -0.0065, -0.0034,  ...,  0.0094,  0.0028, -0.0307],
+        [-0.0016, -0.0057, -0.0179,  ..., -0.0114, -0.0039,  0.0077],
+        ...,
+        [ 0.0176,  0.0352, -0.0448,  ..., -0.0192,  0.0066, -0.0247],
+        [-0.0074, -0.0083,  0.0139,  ...,  0.0072, -0.0168, -0.0230],
+        [ 0.0178, -0.0127,  0.0003,  ..., -0.0107, -0.0075,  0.0257]],
+       device='cuda:0'), grad: tensor([[ 2.1667e-03, -1.6556e-03, -8.8406e-04,  ...,  2.3785e-03,
+         -8.8811e-05,  1.1215e-03],
+        [-3.7903e-02,  9.2793e-04, -2.2621e-03,  ..., -2.9175e-02,
+         -5.3635e-03, -1.1063e-03],
+        [ 1.2840e-02,  2.3148e-02,  3.6743e-02,  ...,  8.3160e-03,
+          1.0786e-03,  1.8982e-02],
+        ...,
+        [ 8.4782e-04, -2.5757e-02, -1.1475e-02,  ...,  5.2986e-03,
+         -8.3566e-05,  2.4052e-03],
+        [ 2.3956e-03,  2.5101e-03, -2.2717e-03,  ...,  9.8228e-05,
+          4.2915e-03, -4.1389e-03],
+        [ 2.4929e-03,  7.8659e-03, -1.2722e-03,  ...,  2.6436e-03,
+          1.9798e-03,  3.5858e-03]], device='cuda:0')
+Epoch 4, bias, value: tensor([ 0.0061,  0.0039,  0.0026,  0.0171,  0.0231,  0.0317, -0.0228,  0.0055,
+        -0.0311, -0.0173], device='cuda:0'), grad: tensor([ 0.0012, -0.0161,  0.0436, -0.0147, -0.0163,  0.0077,  0.0087, -0.0279,
+         0.0087,  0.0052], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 226.06, cls_loss 0.2774 cls_loss_mapping 0.3965 cls_loss_causal 1.5685 re_mapping 0.1232 re_causal 0.2210 /// teacc 94.53 lr 0.00010000
+Epoch 5, weight, value: tensor([[ 0.0110,  0.0411,  0.0317,  ..., -0.0440, -0.0202,  0.0198],
+        [ 0.0435, -0.0077, -0.0047,  ...,  0.0119,  0.0073, -0.0326],
+        [-0.0040, -0.0042, -0.0183,  ..., -0.0126, -0.0063,  0.0055],
+        ...,
+        [ 0.0148,  0.0371, -0.0472,  ..., -0.0220,  0.0069, -0.0272],
+        [-0.0070, -0.0103,  0.0147,  ...,  0.0082, -0.0222, -0.0230],
+        [ 0.0170, -0.0142,  0.0010,  ..., -0.0117, -0.0113,  0.0266]],
+       device='cuda:0'), grad: tensor([[ 0.0053, -0.0012,  0.0075,  ...,  0.0070,  0.0017,  0.0064],
+        [ 0.0100,  0.0007,  0.0122,  ...,  0.0086,  0.0056,  0.0073],
+        [ 0.0088,  0.0049,  0.0098,  ...,  0.0096,  0.0011,  0.0059],
+        ...,
+        [ 0.0021, -0.0108,  0.0007,  ...,  0.0030,  0.0003, -0.0003],
+        [-0.0210, -0.0032, -0.0249,  ..., -0.0383, -0.0084, -0.0205],
+        [-0.0124,  0.0045, -0.0043,  ..., -0.0104,  0.0005,  0.0046]],
+       device='cuda:0')
+Epoch 5, bias, value: tensor([ 0.0063,  0.0044,  0.0029,  0.0172,  0.0232,  0.0316, -0.0234,  0.0052,
+        -0.0313, -0.0174], device='cuda:0'), grad: tensor([ 0.0081,  0.0140,  0.0146,  0.0090,  0.0138, -0.0153,  0.0077, -0.0058,
+        -0.0338, -0.0123], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 220.46, cls_loss 0.1985 cls_loss_mapping 0.2859 cls_loss_causal 1.4268 re_mapping 0.1054 re_causal 0.2123 /// teacc 95.74 lr 0.00010000
+Epoch 6, weight, value: tensor([[ 0.0102,  0.0432,  0.0323,  ..., -0.0454, -0.0223,  0.0199],
+        [ 0.0447, -0.0086, -0.0058,  ...,  0.0129,  0.0089, -0.0346],
+        [-0.0060, -0.0034, -0.0182,  ..., -0.0142, -0.0080,  0.0036],
+        ...,
+        [ 0.0133,  0.0393, -0.0497,  ..., -0.0241,  0.0056, -0.0296],
+        [-0.0066, -0.0124,  0.0154,  ...,  0.0097, -0.0244, -0.0235],
+        [ 0.0167, -0.0154,  0.0021,  ..., -0.0120, -0.0112,  0.0287]],
+       device='cuda:0'), grad: tensor([[ 1.4601e-03, -1.3130e-02, -2.2583e-02,  ...,  1.3094e-03,
+         -4.4799e-04, -2.4612e-02],
+        [-1.5251e-02, -1.5140e-04,  8.5640e-04,  ..., -1.1124e-02,
+         -4.9400e-04,  4.7040e-04],
+        [ 3.2482e-03,  7.5912e-03,  1.2321e-02,  ...,  3.3531e-03,
+          5.0640e-04,  1.4908e-02],
+        ...,
+        [-1.5125e-03, -8.2092e-03, -1.5507e-03,  ..., -2.8706e-03,
+          8.3327e-05, -1.2074e-03],
+        [ 1.1047e-02,  2.0676e-03,  3.0403e-03,  ...,  7.8735e-03,
+          1.4143e-03,  5.1842e-03],
+        [ 2.3499e-03,  5.7602e-03,  3.4561e-03,  ...,  1.1539e-03,
+          2.4486e-04,  3.8681e-03]], device='cuda:0')
+Epoch 6, bias, value: tensor([ 0.0066,  0.0043,  0.0030,  0.0170,  0.0233,  0.0313, -0.0236,  0.0054,
+        -0.0313, -0.0171], device='cuda:0'), grad: tensor([-0.0211, -0.0063,  0.0145,  0.0088,  0.0003, -0.0048,  0.0039, -0.0125,
+         0.0109,  0.0064], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 5----------------------------------------------------
+epoch 5, time 222.11, cls_loss 0.1691 cls_loss_mapping 0.2370 cls_loss_causal 1.3333 re_mapping 0.0893 re_causal 0.1940 /// teacc 96.15 lr 0.00010000
+Epoch 7, weight, value: tensor([[ 0.0096,  0.0449,  0.0328,  ..., -0.0469, -0.0243,  0.0205],
+        [ 0.0462, -0.0079, -0.0069,  ...,  0.0142,  0.0102, -0.0361],
+        [-0.0077, -0.0027, -0.0187,  ..., -0.0156, -0.0081,  0.0016],
+        ...,
+        [ 0.0117,  0.0412, -0.0513,  ..., -0.0260,  0.0059, -0.0314],
+        [-0.0066, -0.0143,  0.0159,  ...,  0.0108, -0.0281, -0.0238],
+        [ 0.0155, -0.0170,  0.0025,  ..., -0.0129, -0.0132,  0.0298]],
+       device='cuda:0'), grad: tensor([[-4.7989e-03,  2.9755e-02,  1.6830e-02,  ...,  7.0429e-04,
+          5.4896e-05,  1.9928e-02],
+        [-5.1689e-03, -8.4877e-04,  4.2572e-03,  ..., -9.7275e-03,
+         -3.8452e-03,  4.0092e-03],
+        [ 3.7861e-03,  1.0368e-02,  8.0414e-03,  ...,  2.2278e-03,
+          3.1161e-04,  2.1763e-03],
+        ...,
+        [ 2.1324e-03,  4.6730e-03,  6.3324e-03,  ...,  1.4000e-03,
+          2.8062e-04,  5.9605e-04],
+        [ 1.7262e-04,  5.6038e-03,  8.4991e-03,  ...,  3.6087e-03,
+          4.4785e-03,  3.9101e-03],
+        [ 4.1866e-04, -3.2837e-02, -2.7374e-02,  ..., -1.5717e-03,
+         -2.7522e-05, -2.7679e-02]], device='cuda:0')
+Epoch 7, bias, value: tensor([ 0.0068,  0.0043,  0.0028,  0.0169,  0.0232,  0.0313, -0.0237,  0.0057,
+        -0.0310, -0.0174], device='cuda:0'), grad: tensor([ 0.0241, -0.0030,  0.0233, -0.0246, -0.0155, -0.0007,  0.0012,  0.0155,
+         0.0117, -0.0320], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 6----------------------------------------------------
+epoch 6, time 221.10, cls_loss 0.1594 cls_loss_mapping 0.2062 cls_loss_causal 1.3062 re_mapping 0.0763 re_causal 0.1682 /// teacc 96.48 lr 0.00010000
+Epoch 8, weight, value: tensor([[ 9.5645e-03,  4.6679e-02,  3.3759e-02,  ..., -4.8533e-02,
+         -2.6581e-02,  2.0594e-02],
+        [ 4.7984e-02, -6.7997e-03, -7.5239e-03,  ...,  1.5814e-02,
+          1.2059e-02, -3.6902e-02],
+        [-9.2853e-03, -2.6466e-03, -1.9201e-02,  ..., -1.6556e-02,
+         -7.1986e-03,  5.3548e-05],
+        ...,
+        [ 1.0127e-02,  4.3045e-02, -5.3172e-02,  ..., -2.7381e-02,
+          3.9840e-03, -3.3275e-02],
+        [-6.3788e-03, -1.6351e-02,  1.7163e-02,  ...,  1.1576e-02,
+         -2.9850e-02, -2.3237e-02],
+        [ 1.3993e-02, -1.7653e-02,  2.8311e-03,  ..., -1.3822e-02,
+         -1.4593e-02,  3.1092e-02]], device='cuda:0'), grad: tensor([[ 5.3930e-04, -1.5097e-03, -5.8174e-04,  ...,  1.1902e-03,
+          1.3375e-04, -1.5438e-04],
+        [ 2.4242e-03,  2.9621e-03,  2.5196e-03,  ...,  3.6716e-03,
+         -5.2005e-05,  1.4477e-03],
+        [ 1.0633e-03,  1.8406e-03,  1.4019e-03,  ...,  1.6718e-03,
+          2.4527e-05,  9.9277e-04],
+        ...,
+        [ 2.4433e-03, -4.7455e-03,  3.3417e-03,  ...,  3.3054e-03,
+          2.6658e-05,  4.9782e-03],
+        [-8.4839e-03,  2.2907e-03, -6.9160e-03,  ..., -1.0422e-02,
+          4.7255e-04, -9.0551e-04],
+        [ 8.1921e-04, -5.2147e-03, -5.4474e-03,  ..., -2.7847e-03,
+          2.2471e-04, -8.9340e-03]], device='cuda:0')
+Epoch 8, bias, value: tensor([ 0.0071,  0.0049,  0.0026,  0.0170,  0.0233,  0.0308, -0.0240,  0.0054,
+        -0.0309, -0.0173], device='cuda:0'), grad: tensor([ 0.0004,  0.0062,  0.0017,  0.0059,  0.0057, -0.0002, -0.0008,  0.0009,
+        -0.0055, -0.0144], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 7----------------------------------------------------
+epoch 7, time 220.63, cls_loss 0.1296 cls_loss_mapping 0.1668 cls_loss_causal 1.2145 re_mapping 0.0685 re_causal 0.1564 /// teacc 96.98 lr 0.00010000
+Epoch 9, weight, value: tensor([[ 0.0090,  0.0485,  0.0343,  ..., -0.0498, -0.0278,  0.0206],
+        [ 0.0487, -0.0064, -0.0080,  ...,  0.0163,  0.0147, -0.0386],
+        [-0.0105, -0.0028, -0.0199,  ..., -0.0175, -0.0079, -0.0011],
+        ...,
+        [ 0.0092,  0.0445, -0.0551,  ..., -0.0282,  0.0038, -0.0348],
+        [-0.0064, -0.0180,  0.0177,  ...,  0.0123, -0.0317, -0.0236],
+        [ 0.0138, -0.0185,  0.0036,  ..., -0.0137, -0.0161,  0.0322]],
+       device='cuda:0'), grad: tensor([[ 4.2367e-04,  4.2796e-04, -5.7459e-05,  ...,  1.0729e-03,
+          1.3173e-04,  1.1797e-03],
+        [-3.7937e-03,  4.6444e-04,  3.4308e-04,  ..., -2.3613e-03,
+         -8.3447e-04,  5.1880e-04],
+        [ 6.2990e-04, -2.7370e-03, -1.7395e-03,  ...,  1.1911e-03,
+         -9.4986e-04, -8.8596e-04],
+        ...,
+        [ 1.0519e-03, -7.4625e-05,  1.2188e-03,  ...,  1.6823e-03,
+          9.6226e-04,  1.5535e-03],
+        [ 1.1902e-03,  9.8610e-04,  1.7996e-03,  ...,  5.0354e-04,
+          5.4073e-04,  2.3155e-03],
+        [ 4.9782e-04,  4.2114e-03,  5.4502e-04,  ...,  1.0979e-02,
+         -1.5008e-04,  2.7657e-03]], device='cuda:0')
+Epoch 9, bias, value: tensor([ 0.0072,  0.0048,  0.0022,  0.0171,  0.0233,  0.0306, -0.0240,  0.0057,
+        -0.0308, -0.0171], device='cuda:0'), grad: tensor([ 0.0021, -0.0009, -0.0110, -0.0023, -0.0227,  0.0058,  0.0010,  0.0061,
+         0.0062,  0.0157], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 8, time 219.99, cls_loss 0.1144 cls_loss_mapping 0.1485 cls_loss_causal 1.1824 re_mapping 0.0658 re_causal 0.1525 /// teacc 96.50 lr 0.00010000
+Epoch 10, weight, value: tensor([[ 0.0083,  0.0493,  0.0348,  ..., -0.0516, -0.0292,  0.0210],
+        [ 0.0496, -0.0067, -0.0091,  ...,  0.0169,  0.0169, -0.0400],
+        [-0.0112, -0.0026, -0.0206,  ..., -0.0180, -0.0079, -0.0019],
+        ...,
+        [ 0.0081,  0.0461, -0.0564,  ..., -0.0293,  0.0026, -0.0361],
+        [-0.0059, -0.0189,  0.0180,  ...,  0.0134, -0.0330, -0.0242],
+        [ 0.0130, -0.0192,  0.0042,  ..., -0.0143, -0.0175,  0.0331]],
+       device='cuda:0'), grad: tensor([[ 3.9196e-04, -8.0967e-04, -2.7847e-04,  ...,  1.8787e-03,
+         -4.2945e-05,  4.9686e-04],
+        [-1.0902e-04,  3.3712e-04,  7.0238e-04,  ...,  4.1270e-04,
+         -8.4996e-05,  5.3406e-04],
+        [ 5.8594e-03,  1.2207e-02,  7.1411e-03,  ...,  2.6016e-03,
+          1.2375e-02,  1.0185e-03],
+        ...,
+        [-4.7760e-03, -1.2985e-02, -4.4022e-03,  ...,  1.5850e-03,
+         -1.2268e-02,  4.8923e-04],
+        [ 2.0294e-03,  1.9526e-04, -4.1008e-03,  ..., -5.0201e-03,
+          1.3628e-03, -1.4772e-03],
+        [ 1.1253e-03, -2.6989e-03, -3.3021e-04,  ..., -1.6678e-02,
+          7.8773e-04,  1.5488e-03]], device='cuda:0')
+Epoch 10, bias, value: tensor([ 0.0070,  0.0049,  0.0022,  0.0174,  0.0232,  0.0306, -0.0243,  0.0057,
+        -0.0307, -0.0173], device='cuda:0'), grad: tensor([ 0.0013,  0.0016,  0.0327, -0.0082,  0.0449, -0.0026, -0.0027, -0.0279,
+        -0.0060, -0.0330], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 9----------------------------------------------------
+epoch 9, time 220.70, cls_loss 0.1127 cls_loss_mapping 0.1464 cls_loss_causal 1.1127 re_mapping 0.0605 re_causal 0.1393 /// teacc 97.29 lr 0.00010000
+Epoch 11, weight, value: tensor([[ 0.0076,  0.0506,  0.0353,  ..., -0.0530, -0.0307,  0.0217],
+        [ 0.0500, -0.0070, -0.0104,  ...,  0.0172,  0.0171, -0.0415],
+        [-0.0123, -0.0018, -0.0207,  ..., -0.0185, -0.0075, -0.0026],
+        ...,
+        [ 0.0074,  0.0470, -0.0578,  ..., -0.0300,  0.0033, -0.0372],
+        [-0.0059, -0.0200,  0.0187,  ...,  0.0141, -0.0346, -0.0247],
+        [ 0.0125, -0.0205,  0.0052,  ..., -0.0148, -0.0168,  0.0342]],
+       device='cuda:0'), grad: tensor([[-6.7902e-04,  3.5667e-03,  9.3174e-04,  ...,  5.9080e-04,
+          5.4240e-05,  4.0016e-03],
+        [ 1.6699e-03,  9.3126e-04,  4.1604e-04,  ...,  1.9464e-03,
+          9.5367e-05,  3.6311e-04],
+        [ 3.6359e-04, -7.3099e-04,  1.8120e-03,  ...,  1.6575e-03,
+         -1.2457e-04,  2.0657e-03],
+        ...,
+        [ 1.0335e-04, -2.3132e-02, -2.3289e-03,  ..., -2.6569e-03,
+          4.6134e-04, -1.1581e-02],
+        [ 1.5011e-03,  1.9627e-03, -2.9202e-03,  ..., -2.2507e-03,
+          1.5557e-04, -3.5152e-03],
+        [ 2.3675e-04,  1.0742e-02,  3.9597e-03,  ...,  2.7390e-03,
+          1.4015e-05,  8.4457e-03]], device='cuda:0')
+Epoch 11, bias, value: tensor([ 0.0071,  0.0045,  0.0025,  0.0171,  0.0231,  0.0308, -0.0242,  0.0058,
+        -0.0306, -0.0172], device='cuda:0'), grad: tensor([ 0.0059,  0.0036,  0.0040,  0.0004,  0.0058,  0.0013, -0.0023, -0.0410,
+        -0.0020,  0.0243], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 10, time 219.69, cls_loss 0.1089 cls_loss_mapping 0.1431 cls_loss_causal 1.1138 re_mapping 0.0560 re_causal 0.1323 /// teacc 97.06 lr 0.00010000
+Epoch 12, weight, value: tensor([[ 0.0077,  0.0518,  0.0356,  ..., -0.0537, -0.0312,  0.0216],
+        [ 0.0506, -0.0070, -0.0111,  ...,  0.0176,  0.0193, -0.0429],
+        [-0.0134, -0.0019, -0.0214,  ..., -0.0194, -0.0083, -0.0037],
+        ...,
+        [ 0.0065,  0.0486, -0.0593,  ..., -0.0311,  0.0032, -0.0380],
+        [-0.0055, -0.0220,  0.0193,  ...,  0.0151, -0.0354, -0.0247],
+        [ 0.0122, -0.0215,  0.0052,  ..., -0.0152, -0.0179,  0.0346]],
+       device='cuda:0'), grad: tensor([[-0.0003, -0.0039, -0.0028,  ...,  0.0002,  0.0001, -0.0018],
+        [-0.0016, -0.0002,  0.0006,  ..., -0.0008, -0.0003,  0.0003],
+        [ 0.0009,  0.0016,  0.0038,  ...,  0.0002,  0.0001,  0.0014],
+        ...,
+        [ 0.0008,  0.0009,  0.0046,  ...,  0.0003,  0.0002,  0.0028],
+        [ 0.0011,  0.0010,  0.0049,  ...,  0.0004,  0.0003,  0.0026],
+        [ 0.0004, -0.0004, -0.0016,  ..., -0.0005, -0.0002, -0.0031]],
+       device='cuda:0')
+Epoch 12, bias, value: tensor([ 0.0072,  0.0044,  0.0026,  0.0175,  0.0231,  0.0305, -0.0242,  0.0059,
+        -0.0305, -0.0176], device='cuda:0'), grad: tensor([-4.0779e-03,  5.7295e-06,  4.3793e-03, -1.5244e-02,  1.0633e-03,
+        -9.2363e-04,  2.3613e-03,  7.5340e-03,  7.4158e-03, -2.5177e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 11----------------------------------------------------
+epoch 11, time 220.20, cls_loss 0.0997 cls_loss_mapping 0.1288 cls_loss_causal 1.0871 re_mapping 0.0517 re_causal 0.1222 /// teacc 97.69 lr 0.00010000
+Epoch 13, weight, value: tensor([[ 0.0073,  0.0526,  0.0364,  ..., -0.0547, -0.0317,  0.0218],
+        [ 0.0517, -0.0070, -0.0118,  ...,  0.0185,  0.0220, -0.0439],
+        [-0.0148, -0.0023, -0.0219,  ..., -0.0201, -0.0085, -0.0048],
+        ...,
+        [ 0.0060,  0.0496, -0.0604,  ..., -0.0317,  0.0039, -0.0396],
+        [-0.0053, -0.0234,  0.0195,  ...,  0.0158, -0.0373, -0.0247],
+        [ 0.0121, -0.0217,  0.0063,  ..., -0.0155, -0.0180,  0.0363]],
+       device='cuda:0'), grad: tensor([[ 0.0070,  0.0002,  0.0089,  ...,  0.0008,  0.0001,  0.0064],
+        [ 0.0012,  0.0012,  0.0007,  ...,  0.0004,  0.0001,  0.0010],
+        [ 0.0008, -0.0001,  0.0007,  ...,  0.0004, -0.0005,  0.0007],
+        ...,
+        [-0.0053, -0.0071, -0.0018,  ...,  0.0003,  0.0002, -0.0041],
+        [-0.0077,  0.0008,  0.0077,  ..., -0.0116, -0.0051, -0.0032],
+        [ 0.0052,  0.0049,  0.0050,  ...,  0.0007,  0.0002,  0.0056]],
+       device='cuda:0')
+Epoch 13, bias, value: tensor([ 0.0074,  0.0046,  0.0023,  0.0171,  0.0231,  0.0301, -0.0242,  0.0059,
+        -0.0303, -0.0171], device='cuda:0'), grad: tensor([ 0.0065,  0.0027, -0.0007, -0.0220, -0.0017,  0.0090,  0.0061, -0.0085,
+        -0.0006,  0.0091], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 12, time 221.66, cls_loss 0.0806 cls_loss_mapping 0.1054 cls_loss_causal 1.0424 re_mapping 0.0504 re_causal 0.1206 /// teacc 97.65 lr 0.00010000
+Epoch 14, weight, value: tensor([[ 0.0070,  0.0535,  0.0368,  ..., -0.0556, -0.0326,  0.0221],
+        [ 0.0523, -0.0063, -0.0123,  ...,  0.0188,  0.0229, -0.0454],
+        [-0.0150, -0.0025, -0.0219,  ..., -0.0206, -0.0076, -0.0047],
+        ...,
+        [ 0.0051,  0.0506, -0.0622,  ..., -0.0327,  0.0042, -0.0408],
+        [-0.0053, -0.0244,  0.0199,  ...,  0.0165, -0.0383, -0.0247],
+        [ 0.0117, -0.0224,  0.0068,  ..., -0.0159, -0.0191,  0.0370]],
+       device='cuda:0'), grad: tensor([[-9.2506e-04, -1.1635e-03, -6.9332e-04,  ...,  2.3746e-04,
+          2.9787e-05, -6.1417e-04],
+        [ 9.6893e-04,  1.1892e-03,  1.0309e-03,  ...,  9.8038e-04,
+         -9.0182e-05,  7.1526e-04],
+        [ 8.8024e-04,  9.7275e-04, -2.8327e-05,  ..., -2.7537e-04,
+         -1.9813e-04,  4.1389e-04],
+        ...,
+        [ 1.0471e-03, -5.1079e-03,  1.0364e-05,  ...,  1.8263e-03,
+          3.2485e-05,  8.4114e-04],
+        [ 2.6360e-03,  2.3403e-03,  2.8839e-03,  ...,  2.4719e-03,
+          5.4359e-04,  2.9182e-03],
+        [-4.7684e-03, -1.0042e-03, -6.2065e-03,  ..., -2.3708e-03,
+          3.6985e-05, -5.0354e-03]], device='cuda:0')
+Epoch 14, bias, value: tensor([ 0.0073,  0.0045,  0.0026,  0.0173,  0.0232,  0.0298, -0.0243,  0.0058,
+        -0.0302, -0.0173], device='cuda:0'), grad: tensor([-0.0007,  0.0032,  0.0016,  0.0061, -0.0024, -0.0009,  0.0003, -0.0083,
+         0.0086, -0.0075], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 13, time 219.62, cls_loss 0.0816 cls_loss_mapping 0.1040 cls_loss_causal 1.0737 re_mapping 0.0457 re_causal 0.1136 /// teacc 97.55 lr 0.00010000
+Epoch 15, weight, value: tensor([[ 0.0067,  0.0543,  0.0372,  ..., -0.0563, -0.0337,  0.0223],
+        [ 0.0533, -0.0060, -0.0130,  ...,  0.0194,  0.0232, -0.0467],
+        [-0.0158, -0.0027, -0.0224,  ..., -0.0211, -0.0064, -0.0057],
+        ...,
+        [ 0.0042,  0.0513, -0.0634,  ..., -0.0343,  0.0050, -0.0415],
+        [-0.0051, -0.0251,  0.0202,  ...,  0.0170, -0.0395, -0.0248],
+        [ 0.0109, -0.0228,  0.0082,  ..., -0.0163, -0.0202,  0.0386]],
+       device='cuda:0'), grad: tensor([[ 1.4293e-04,  1.9598e-04,  1.1196e-03,  ...,  9.8050e-05,
+          7.2479e-05,  1.2302e-03],
+        [-3.0708e-04,  2.3723e-04,  2.9993e-04,  ..., -2.1541e-04,
+         -1.0449e-04,  1.4913e-04],
+        [ 1.1468e-04,  2.3162e-04,  4.6110e-04,  ..., -5.3525e-05,
+          4.9978e-05,  2.6751e-04],
+        ...,
+        [-6.3002e-05, -1.8501e-03,  9.9182e-04,  ...,  9.4771e-05,
+         -1.0914e-04,  1.2093e-03],
+        [ 3.6502e-04,  3.5429e-04,  1.9035e-03,  ...,  5.9307e-05,
+          1.1194e-04,  7.9918e-04],
+        [ 5.1403e-04,  1.8489e-04, -4.7398e-04,  ...,  9.0933e-04,
+          3.6526e-04, -2.7199e-03]], device='cuda:0')
+Epoch 15, bias, value: tensor([ 0.0075,  0.0043,  0.0026,  0.0170,  0.0233,  0.0298, -0.0246,  0.0059,
+        -0.0300, -0.0170], device='cuda:0'), grad: tensor([ 1.3027e-03,  4.9686e-04, -1.8072e-04, -3.7308e-03, -1.5554e-03,
+         3.6621e-04,  2.4527e-05, -1.4362e-03,  2.7523e-03,  1.9627e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 14, time 220.42, cls_loss 0.0733 cls_loss_mapping 0.0957 cls_loss_causal 0.9991 re_mapping 0.0436 re_causal 0.1045 /// teacc 97.41 lr 0.00010000
+Epoch 16, weight, value: tensor([[ 0.0067,  0.0553,  0.0374,  ..., -0.0572, -0.0349,  0.0224],
+        [ 0.0541, -0.0060, -0.0134,  ...,  0.0199,  0.0238, -0.0478],
+        [-0.0164, -0.0030, -0.0227,  ..., -0.0219, -0.0061, -0.0061],
+        ...,
+        [ 0.0035,  0.0523, -0.0648,  ..., -0.0351,  0.0050, -0.0426],
+        [-0.0051, -0.0259,  0.0206,  ...,  0.0177, -0.0403, -0.0249],
+        [ 0.0106, -0.0233,  0.0086,  ..., -0.0167, -0.0209,  0.0396]],
+       device='cuda:0'), grad: tensor([[ 2.1982e-04, -7.0524e-04, -5.6458e-04,  ...,  3.3593e-04,
+          6.4522e-06, -4.7755e-04],
+        [ 7.4482e-04,  4.0197e-04,  1.3170e-03,  ...,  4.9353e-04,
+          4.0078e-04,  1.3733e-03],
+        [ 1.2219e-04,  1.3423e-04,  1.3447e-04,  ...,  1.1021e-04,
+          4.5337e-06,  1.6093e-04],
+        ...,
+        [ 3.1137e-04, -2.1400e-03,  9.5606e-04,  ...,  3.8457e-04,
+         -7.2765e-04,  9.2149e-05],
+        [ 6.2828e-03,  2.0838e-04,  1.0574e-02,  ...,  6.7101e-03,
+          1.3466e-03,  1.0597e-02],
+        [-1.7300e-05,  1.1148e-03, -3.2825e-03,  ...,  1.1212e-04,
+          7.1335e-04, -1.5526e-03]], device='cuda:0')
+Epoch 16, bias, value: tensor([ 0.0075,  0.0042,  0.0027,  0.0172,  0.0233,  0.0296, -0.0248,  0.0059,
+        -0.0298, -0.0173], device='cuda:0'), grad: tensor([-0.0005,  0.0019,  0.0002, -0.0092,  0.0021,  0.0296, -0.0307, -0.0017,
+         0.0108, -0.0026], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 15, time 220.13, cls_loss 0.0584 cls_loss_mapping 0.0774 cls_loss_causal 0.9628 re_mapping 0.0421 re_causal 0.1043 /// teacc 97.49 lr 0.00010000
+Epoch 17, weight, value: tensor([[ 0.0063,  0.0563,  0.0378,  ..., -0.0581, -0.0361,  0.0227],
+        [ 0.0547, -0.0062, -0.0134,  ...,  0.0208,  0.0256, -0.0488],
+        [-0.0172, -0.0033, -0.0231,  ..., -0.0224, -0.0070, -0.0066],
+        ...,
+        [ 0.0030,  0.0531, -0.0657,  ..., -0.0355,  0.0054, -0.0435],
+        [-0.0049, -0.0262,  0.0209,  ...,  0.0180, -0.0416, -0.0251],
+        [ 0.0103, -0.0238,  0.0093,  ..., -0.0172, -0.0219,  0.0406]],
+       device='cuda:0'), grad: tensor([[ 5.8794e-04,  4.2558e-05,  2.7442e-04,  ...,  4.2367e-04,
+          5.1081e-05,  4.0245e-04],
+        [ 1.0933e-02, -6.7651e-05,  2.2621e-03,  ...,  6.9389e-03,
+          3.3903e-04,  3.5973e-03],
+        [ 1.0300e-03,  2.2531e-04,  2.4700e-04,  ...,  5.6505e-04,
+         -3.1185e-04,  4.2701e-04],
+        ...,
+        [ 3.7313e-04, -8.0681e-04,  4.6039e-04,  ...,  4.2105e-04,
+          1.1581e-04,  5.7983e-04],
+        [-1.2350e-03,  1.3733e-04, -1.1473e-03,  ..., -1.3304e-03,
+          1.4567e-04, -1.6260e-03],
+        [ 2.9877e-05,  1.2922e-04, -3.0231e-03,  ...,  1.2369e-03,
+          1.1597e-03, -4.2419e-03]], device='cuda:0')
+Epoch 17, bias, value: tensor([ 0.0076,  0.0045,  0.0025,  0.0171,  0.0234,  0.0295, -0.0250,  0.0062,
+        -0.0299, -0.0173], device='cuda:0'), grad: tensor([ 7.7820e-04,  1.0666e-02, -2.1696e-04,  3.1586e-03, -2.0084e-03,
+         4.2076e-03, -1.6663e-02,  3.8457e-04,  1.8179e-05, -3.2973e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 16----------------------------------------------------
+epoch 16, time 220.42, cls_loss 0.0681 cls_loss_mapping 0.0863 cls_loss_causal 0.9701 re_mapping 0.0395 re_causal 0.0956 /// teacc 97.89 lr 0.00010000
+Epoch 18, weight, value: tensor([[ 0.0058,  0.0570,  0.0378,  ..., -0.0590, -0.0369,  0.0225],
+        [ 0.0553, -0.0061, -0.0142,  ...,  0.0214,  0.0267, -0.0502],
+        [-0.0180, -0.0035, -0.0230,  ..., -0.0226, -0.0075, -0.0070],
+        ...,
+        [ 0.0023,  0.0543, -0.0668,  ..., -0.0364,  0.0057, -0.0446],
+        [-0.0047, -0.0268,  0.0210,  ...,  0.0182, -0.0422, -0.0255],
+        [ 0.0096, -0.0247,  0.0097,  ..., -0.0173, -0.0220,  0.0418]],
+       device='cuda:0'), grad: tensor([[-1.6606e-04, -2.2507e-03, -2.5892e-04,  ...,  1.1331e-04,
+          3.0205e-05, -9.4175e-04],
+        [-1.0264e-04,  1.7176e-03,  3.6168e-04,  ..., -3.0780e-04,
+          2.7394e-04,  9.9599e-05],
+        [-3.8624e-04,  2.9297e-03,  5.4169e-04,  ...,  6.2399e-07,
+          9.6321e-04,  1.1337e-04],
+        ...,
+        [ 2.6369e-04,  5.0774e-03,  2.3155e-03,  ...,  1.6797e-04,
+          1.3809e-03,  1.4105e-03],
+        [ 5.1165e-04,  1.4029e-03,  7.2908e-04,  ...,  3.1853e-04,
+          2.9731e-04,  1.0271e-03],
+        [ 1.1438e-04, -1.8034e-03, -2.6817e-03,  ..., -1.7774e-04,
+          4.6402e-05, -2.5082e-03]], device='cuda:0')
+Epoch 18, bias, value: tensor([ 0.0074,  0.0043,  0.0027,  0.0170,  0.0231,  0.0298, -0.0250,  0.0064,
+        -0.0299, -0.0172], device='cuda:0'), grad: tensor([-0.0031,  0.0063,  0.0029, -0.0224,  0.0013,  0.0007,  0.0010,  0.0132,
+         0.0042, -0.0042], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 17----------------------------------------------------
+epoch 17, time 219.83, cls_loss 0.0489 cls_loss_mapping 0.0716 cls_loss_causal 0.9451 re_mapping 0.0377 re_causal 0.0944 /// teacc 98.13 lr 0.00010000
+Epoch 19, weight, value: tensor([[ 0.0056,  0.0584,  0.0385,  ..., -0.0598, -0.0374,  0.0231],
+        [ 0.0556, -0.0063, -0.0146,  ...,  0.0213,  0.0277, -0.0511],
+        [-0.0189, -0.0038, -0.0234,  ..., -0.0231, -0.0075, -0.0080],
+        ...,
+        [ 0.0018,  0.0550, -0.0680,  ..., -0.0369,  0.0069, -0.0456],
+        [-0.0041, -0.0277,  0.0213,  ...,  0.0190, -0.0429, -0.0256],
+        [ 0.0091, -0.0252,  0.0102,  ..., -0.0176, -0.0224,  0.0425]],
+       device='cuda:0'), grad: tensor([[ 1.1051e-04, -2.0874e-04, -1.0979e-04,  ...,  1.3673e-04,
+          4.6015e-05, -6.8069e-05],
+        [-2.0638e-03, -9.9421e-05,  4.3869e-05,  ..., -1.7042e-03,
+         -6.4707e-04,  5.6326e-05],
+        [ 7.4768e-04,  2.9773e-05,  1.3733e-04,  ...,  8.0013e-04,
+          6.0987e-04,  1.9515e-04],
+        ...,
+        [ 1.4973e-04, -1.7166e-04,  2.4748e-04,  ...,  2.0123e-04,
+          5.3167e-05,  2.1780e-04],
+        [ 1.5160e-02,  1.7381e-04,  1.0971e-02,  ...,  2.0920e-02,
+          1.3718e-02,  1.0208e-02],
+        [ 3.6979e-04, -2.7463e-05, -1.4043e-04,  ...,  5.1165e-04,
+          3.5214e-04,  5.3465e-05]], device='cuda:0')
+Epoch 19, bias, value: tensor([ 0.0080,  0.0041,  0.0025,  0.0170,  0.0232,  0.0298, -0.0253,  0.0066,
+        -0.0298, -0.0174], device='cuda:0'), grad: tensor([-6.8367e-05, -1.7681e-03,  7.6818e-04,  4.3416e-04,  3.6407e-04,
+        -2.9572e-02,  6.0987e-04,  2.7752e-04,  2.9022e-02, -6.4850e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 18, time 219.10, cls_loss 0.0536 cls_loss_mapping 0.0717 cls_loss_causal 0.9451 re_mapping 0.0348 re_causal 0.0893 /// teacc 98.08 lr 0.00010000
+Epoch 20, weight, value: tensor([[ 0.0055,  0.0591,  0.0385,  ..., -0.0605, -0.0389,  0.0230],
+        [ 0.0562, -0.0061, -0.0152,  ...,  0.0215,  0.0289, -0.0518],
+        [-0.0198, -0.0042, -0.0237,  ..., -0.0235, -0.0078, -0.0085],
+        ...,
+        [ 0.0009,  0.0560, -0.0693,  ..., -0.0377,  0.0073, -0.0461],
+        [-0.0038, -0.0285,  0.0214,  ...,  0.0195, -0.0442, -0.0259],
+        [ 0.0094, -0.0254,  0.0110,  ..., -0.0177, -0.0222,  0.0437]],
+       device='cuda:0'), grad: tensor([[ 4.0591e-05, -2.1148e-04, -9.0837e-05,  ...,  2.0587e-04,
+          1.8328e-05, -9.5546e-05],
+        [-2.4147e-03,  1.0036e-05, -9.7215e-05,  ..., -2.6913e-03,
+         -2.0161e-03,  3.1084e-05],
+        [ 1.7223e-03,  4.3726e-04,  2.2066e-04,  ...,  2.5406e-03,
+          1.5469e-03,  6.5684e-05],
+        ...,
+        [ 2.0754e-04, -1.1021e-04,  2.1553e-04,  ...,  2.2411e-04,
+          1.0091e-04,  2.4438e-04],
+        [-3.0231e-03,  6.5863e-05, -2.1629e-03,  ..., -2.6226e-03,
+          1.1224e-04, -3.9673e-03],
+        [ 1.1224e-04, -1.6436e-05, -7.6151e-04,  ...,  2.0301e-04,
+          1.9401e-05, -9.8324e-04]], device='cuda:0')
+Epoch 20, bias, value: tensor([ 0.0079,  0.0039,  0.0026,  0.0168,  0.0234,  0.0295, -0.0255,  0.0067,
+        -0.0298, -0.0170], device='cuda:0'), grad: tensor([ 0.0001, -0.0035,  0.0035,  0.0005, -0.0154,  0.0029,  0.0163,  0.0005,
+        -0.0042, -0.0006], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 19, time 219.26, cls_loss 0.0496 cls_loss_mapping 0.0627 cls_loss_causal 0.9332 re_mapping 0.0336 re_causal 0.0876 /// teacc 98.05 lr 0.00010000
+Epoch 21, weight, value: tensor([[ 0.0058,  0.0597,  0.0387,  ..., -0.0612, -0.0399,  0.0231],
+        [ 0.0569, -0.0062, -0.0156,  ...,  0.0219,  0.0299, -0.0524],
+        [-0.0207, -0.0047, -0.0242,  ..., -0.0241, -0.0073, -0.0092],
+        ...,
+        [ 0.0002,  0.0567, -0.0705,  ..., -0.0381,  0.0070, -0.0472],
+        [-0.0038, -0.0295,  0.0215,  ...,  0.0199, -0.0455, -0.0261],
+        [ 0.0086, -0.0252,  0.0117,  ..., -0.0183, -0.0229,  0.0444]],
+       device='cuda:0'), grad: tensor([[ 1.1665e-04,  6.6936e-05,  1.3566e-04,  ...,  6.4433e-05,
+          4.7892e-05,  8.9705e-05],
+        [-3.3951e-03,  1.2290e-04,  2.7990e-04,  ..., -2.9411e-03,
+         -9.0170e-04,  8.5652e-05],
+        [-1.5503e-02, -2.0523e-03,  2.6627e-03,  ..., -1.3382e-02,
+          1.7557e-03,  9.4509e-04],
+        ...,
+        [ 3.3665e-04, -2.7409e-03, -1.6785e-03,  ...,  7.9393e-04,
+         -6.5565e-04, -2.2964e-03],
+        [ 1.6739e-02,  1.9207e-03, -4.5609e-04,  ...,  1.4687e-02,
+          8.9788e-04,  1.8358e-04],
+        [ 6.4564e-04,  2.1019e-03,  5.5237e-03,  ...,  3.7932e-04,
+          2.9430e-03,  3.1948e-03]], device='cuda:0')
+Epoch 21, bias, value: tensor([ 0.0077,  0.0038,  0.0024,  0.0171,  0.0234,  0.0298, -0.0252,  0.0064,
+        -0.0301, -0.0168], device='cuda:0'), grad: tensor([ 0.0004, -0.0020, -0.0226,  0.0039, -0.0104, -0.0001,  0.0004, -0.0071,
+         0.0267,  0.0109], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 20----------------------------------------------------
+epoch 20, time 219.80, cls_loss 0.0453 cls_loss_mapping 0.0621 cls_loss_causal 0.9226 re_mapping 0.0327 re_causal 0.0852 /// teacc 98.40 lr 0.00010000
+Epoch 22, weight, value: tensor([[ 0.0056,  0.0604,  0.0388,  ..., -0.0619, -0.0400,  0.0234],
+        [ 0.0575, -0.0059, -0.0155,  ...,  0.0227,  0.0304, -0.0530],
+        [-0.0211, -0.0047, -0.0245,  ..., -0.0246, -0.0076, -0.0098],
+        ...,
+        [-0.0004,  0.0575, -0.0717,  ..., -0.0393,  0.0077, -0.0480],
+        [-0.0035, -0.0300,  0.0217,  ...,  0.0205, -0.0456, -0.0258],
+        [ 0.0084, -0.0261,  0.0124,  ..., -0.0186, -0.0231,  0.0453]],
+       device='cuda:0'), grad: tensor([[-4.5985e-05, -6.9046e-04, -3.7909e-04,  ...,  1.9145e-04,
+          2.6543e-06, -3.5024e-04],
+        [-2.0170e-04,  5.9932e-05,  1.0216e-04,  ..., -4.5627e-05,
+         -3.0935e-05,  7.9393e-05],
+        [ 1.9825e-04,  3.2425e-04,  2.2137e-04,  ...,  2.4307e-04,
+         -1.8924e-05,  2.0266e-04],
+        ...,
+        [ 8.8751e-05, -2.0337e-04,  1.0478e-04,  ...,  1.3888e-04,
+          1.1943e-05,  9.8467e-05],
+        [ 4.4727e-04,  1.3149e-04,  1.7762e-04,  ...,  5.2977e-04,
+          1.7032e-05,  1.2341e-03],
+        [ 1.6820e-04,  2.4343e-04,  2.5139e-03,  ...,  4.7836e-03,
+          4.0084e-06,  2.3632e-03]], device='cuda:0')
+Epoch 22, bias, value: tensor([ 0.0077,  0.0040,  0.0026,  0.0167,  0.0234,  0.0295, -0.0252,  0.0066,
+        -0.0299, -0.0168], device='cuda:0'), grad: tensor([-7.6818e-04,  6.9678e-05,  4.7684e-04,  6.8188e-04, -9.1553e-03,
+         4.3607e-04, -2.4433e-03,  9.4771e-05,  1.2293e-03,  9.3842e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 21, time 218.49, cls_loss 0.0501 cls_loss_mapping 0.0673 cls_loss_causal 0.8941 re_mapping 0.0318 re_causal 0.0784 /// teacc 98.07 lr 0.00010000
+Epoch 23, weight, value: tensor([[ 0.0055,  0.0611,  0.0393,  ..., -0.0624, -0.0404,  0.0241],
+        [ 0.0580, -0.0059, -0.0157,  ...,  0.0230,  0.0310, -0.0537],
+        [-0.0213, -0.0052, -0.0252,  ..., -0.0251, -0.0074, -0.0109],
+        ...,
+        [-0.0010,  0.0587, -0.0726,  ..., -0.0400,  0.0074, -0.0488],
+        [-0.0035, -0.0305,  0.0218,  ...,  0.0210, -0.0465, -0.0261],
+        [ 0.0077, -0.0267,  0.0126,  ..., -0.0195, -0.0236,  0.0456]],
+       device='cuda:0'), grad: tensor([[ 4.9305e-04,  1.2808e-03,  5.1403e-04,  ...,  6.4087e-04,
+          3.5584e-05,  1.3647e-03],
+        [-5.2929e-04,  1.5032e-04,  1.4496e-04,  ..., -4.6825e-04,
+         -2.1553e-04,  1.2052e-04],
+        [ 4.8709e-04,  3.5524e-05,  5.8460e-04,  ...,  1.0735e-04,
+         -2.2745e-04,  4.8494e-04],
+        ...,
+        [ 2.9516e-04, -1.2426e-03,  2.2507e-04,  ...,  2.0361e-04,
+          1.9252e-04,  2.1100e-04],
+        [ 1.1044e-03,  2.8062e-04,  1.5516e-03,  ...,  2.0099e-04,
+          1.5306e-04,  1.3542e-03],
+        [ 1.1617e-04,  1.0508e-04,  4.7177e-05,  ...,  1.1814e-04,
+          4.0948e-05, -9.6202e-05]], device='cuda:0')
+Epoch 23, bias, value: tensor([ 0.0081,  0.0041,  0.0023,  0.0165,  0.0232,  0.0302, -0.0251,  0.0067,
+        -0.0298, -0.0174], device='cuda:0'), grad: tensor([ 0.0023, -0.0002,  0.0003, -0.0031,  0.0002,  0.0013, -0.0024, -0.0013,
+         0.0026,  0.0005], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 22, time 218.35, cls_loss 0.0504 cls_loss_mapping 0.0670 cls_loss_causal 0.8771 re_mapping 0.0303 re_causal 0.0771 /// teacc 98.16 lr 0.00010000
+Epoch 24, weight, value: tensor([[ 0.0051,  0.0611,  0.0390,  ..., -0.0632, -0.0408,  0.0235],
+        [ 0.0586, -0.0060, -0.0163,  ...,  0.0230,  0.0322, -0.0546],
+        [-0.0221, -0.0051, -0.0253,  ..., -0.0254, -0.0077, -0.0111],
+        ...,
+        [-0.0015,  0.0595, -0.0738,  ..., -0.0407,  0.0073, -0.0499],
+        [-0.0035, -0.0305,  0.0221,  ...,  0.0213, -0.0472, -0.0262],
+        [ 0.0070, -0.0269,  0.0132,  ..., -0.0197, -0.0232,  0.0466]],
+       device='cuda:0'), grad: tensor([[-3.4118e-04, -8.9645e-04, -2.0123e-04,  ...,  1.4699e-04,
+          8.8662e-06,  1.3888e-04],
+        [-8.0109e-04,  3.9220e-04,  7.1406e-05,  ..., -5.9652e-04,
+         -8.5413e-05,  5.3406e-05],
+        [ 2.1875e-04,  5.2977e-04,  2.3663e-04,  ...,  2.7204e-04,
+         -2.5049e-05,  1.7333e-04],
+        ...,
+        [ 1.6189e-04,  2.8687e-03,  1.5569e-04,  ...,  2.8553e-03,
+          4.5031e-05,  2.6917e-04],
+        [ 1.7428e-04,  9.2649e-04, -1.7080e-03,  ..., -1.9574e-04,
+          6.3121e-05, -9.7132e-04],
+        [ 1.5223e-04,  2.2697e-03,  1.3363e-04,  ...,  1.2646e-03,
+          5.6893e-05, -2.6298e-04]], device='cuda:0')
+Epoch 24, bias, value: tensor([ 0.0072,  0.0038,  0.0025,  0.0168,  0.0233,  0.0303, -0.0252,  0.0066,
+        -0.0298, -0.0170], device='cuda:0'), grad: tensor([-1.0109e-03, -1.7083e-04,  1.0939e-03,  1.4820e-03, -1.2550e-02,
+         3.3927e-04, -2.3469e-05,  7.5531e-03, -4.8733e-04,  3.7708e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 23, time 219.35, cls_loss 0.0496 cls_loss_mapping 0.0664 cls_loss_causal 0.8789 re_mapping 0.0292 re_causal 0.0773 /// teacc 98.13 lr 0.00010000
+Epoch 25, weight, value: tensor([[ 0.0054,  0.0615,  0.0394,  ..., -0.0639, -0.0413,  0.0239],
+        [ 0.0593, -0.0056, -0.0164,  ...,  0.0237,  0.0332, -0.0548],
+        [-0.0227, -0.0055, -0.0257,  ..., -0.0262, -0.0076, -0.0118],
+        ...,
+        [-0.0024,  0.0608, -0.0746,  ..., -0.0412,  0.0087, -0.0506],
+        [-0.0036, -0.0314,  0.0223,  ...,  0.0215, -0.0483, -0.0262],
+        [ 0.0065, -0.0274,  0.0135,  ..., -0.0201, -0.0241,  0.0470]],
+       device='cuda:0'), grad: tensor([[ 2.5773e-04, -2.8515e-04, -1.2553e-04,  ...,  1.9753e-04,
+          3.1918e-05, -2.6393e-04],
+        [ 2.7390e-03,  1.0118e-05,  1.3244e-04,  ...,  2.4414e-03,
+          1.0872e-03,  7.9441e-04],
+        [ 1.3554e-04,  3.7968e-05,  1.0228e-04,  ..., -3.5000e-04,
+         -6.9714e-04,  8.9407e-05],
+        ...,
+        [ 1.1563e-04, -1.6689e-05,  9.6083e-05,  ...,  1.2267e-04,
+          1.2243e-04,  1.0562e-04],
+        [-7.4539e-03,  5.1409e-05, -6.0409e-05,  ..., -5.7449e-03,
+         -1.5554e-03, -2.6073e-03],
+        [ 2.7585e-04,  1.6236e-04, -1.0881e-03,  ..., -3.6335e-04,
+         -6.9559e-05, -1.4200e-03]], device='cuda:0')
+Epoch 25, bias, value: tensor([ 0.0069,  0.0040,  0.0019,  0.0167,  0.0234,  0.0302, -0.0249,  0.0073,
+        -0.0297, -0.0174], device='cuda:0'), grad: tensor([-3.2961e-05,  3.4847e-03, -2.0485e-03, -3.2568e-04,  4.3335e-03,
+         3.2005e-03, -1.7290e-03,  6.8903e-04, -5.4932e-03, -2.0771e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 24, time 218.92, cls_loss 0.0489 cls_loss_mapping 0.0642 cls_loss_causal 0.8523 re_mapping 0.0289 re_causal 0.0755 /// teacc 98.18 lr 0.00010000
+Epoch 26, weight, value: tensor([[ 0.0057,  0.0623,  0.0403,  ..., -0.0645, -0.0410,  0.0244],
+        [ 0.0597, -0.0055, -0.0171,  ...,  0.0240,  0.0339, -0.0561],
+        [-0.0233, -0.0057, -0.0260,  ..., -0.0267, -0.0066, -0.0123],
+        ...,
+        [-0.0032,  0.0613, -0.0757,  ..., -0.0415,  0.0080, -0.0511],
+        [-0.0035, -0.0320,  0.0225,  ...,  0.0220, -0.0492, -0.0266],
+        [ 0.0063, -0.0284,  0.0139,  ..., -0.0200, -0.0230,  0.0477]],
+       device='cuda:0'), grad: tensor([[ 4.1342e-04,  1.8346e-04,  7.9536e-04,  ...,  1.0500e-03,
+          8.3637e-04,  6.2943e-04],
+        [-7.8773e-04,  4.5395e-04,  2.0790e-04,  ..., -3.2711e-04,
+         -6.1870e-05,  1.8167e-04],
+        [ 1.4954e-03,  5.5933e-04,  9.4528e-03,  ...,  1.2751e-03,
+          5.8823e-03,  4.7607e-03],
+        ...,
+        [ 2.0564e-04, -2.8324e-03,  4.4799e-04,  ..., -1.3232e-04,
+         -1.1339e-03,  2.8324e-04],
+        [ 3.8090e-03,  1.3046e-03,  2.3289e-03,  ...,  3.5496e-03,
+          6.2180e-03,  1.3952e-03],
+        [ 2.1076e-04,  7.9441e-04,  1.5936e-03,  ...,  1.9474e-03,
+          4.0388e-04,  2.0862e-04]], device='cuda:0')
+Epoch 26, bias, value: tensor([ 0.0078,  0.0037,  0.0025,  0.0166,  0.0232,  0.0300, -0.0250,  0.0069,
+        -0.0297, -0.0174], device='cuda:0'), grad: tensor([ 2.2564e-03,  9.7561e-04,  2.4323e-02, -2.2736e-02, -8.3506e-05,
+        -1.1223e-02, -2.0866e-03, -6.9542e-03,  1.0719e-02,  4.8141e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 25, time 219.04, cls_loss 0.0429 cls_loss_mapping 0.0577 cls_loss_causal 0.8779 re_mapping 0.0278 re_causal 0.0738 /// teacc 98.31 lr 0.00010000
+Epoch 27, weight, value: tensor([[ 0.0051,  0.0629,  0.0405,  ..., -0.0655, -0.0417,  0.0247],
+        [ 0.0607, -0.0057, -0.0170,  ...,  0.0246,  0.0348, -0.0565],
+        [-0.0245, -0.0057, -0.0264,  ..., -0.0274, -0.0077, -0.0129],
+        ...,
+        [-0.0036,  0.0619, -0.0770,  ..., -0.0419,  0.0088, -0.0518],
+        [-0.0038, -0.0329,  0.0221,  ...,  0.0222, -0.0505, -0.0272],
+        [ 0.0056, -0.0286,  0.0143,  ..., -0.0204, -0.0237,  0.0483]],
+       device='cuda:0'), grad: tensor([[ 1.0714e-05,  1.8954e-04,  2.3139e-04,  ...,  1.3053e-05,
+          9.5814e-06,  3.1638e-04],
+        [-3.6049e-04,  6.8724e-05,  8.7544e-06,  ..., -1.9324e-04,
+         -1.0598e-04, -1.8775e-06],
+        [ 4.5180e-05, -2.4343e-04, -1.5521e-04,  ...,  2.1398e-05,
+         -3.5137e-05,  1.3745e-04],
+        ...,
+        [ 7.7069e-05, -1.7910e-03,  5.6076e-04,  ...,  6.7651e-05,
+         -2.8476e-05, -1.4293e-04],
+        [ 2.0251e-05,  1.1104e-04,  1.3793e-04,  ..., -9.6619e-05,
+          5.4181e-05,  2.0134e-04],
+        [ 9.9242e-05,  1.0691e-03, -1.7738e-03,  ...,  7.6175e-05,
+         -4.6641e-06, -1.4668e-03]], device='cuda:0')
+Epoch 27, bias, value: tensor([ 0.0077,  0.0040,  0.0024,  0.0167,  0.0236,  0.0305, -0.0252,  0.0067,
+        -0.0302, -0.0173], device='cuda:0'), grad: tensor([ 4.5276e-04, -1.5342e-04, -4.5562e-04,  1.2884e-03,  3.6907e-04,
+         2.5654e-04,  1.0781e-05, -1.7262e-03,  2.4211e-04, -2.8563e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 26, time 218.59, cls_loss 0.0436 cls_loss_mapping 0.0513 cls_loss_causal 0.8530 re_mapping 0.0279 re_causal 0.0697 /// teacc 98.14 lr 0.00010000
+Epoch 28, weight, value: tensor([[ 0.0046,  0.0633,  0.0408,  ..., -0.0665, -0.0427,  0.0250],
+        [ 0.0611, -0.0056, -0.0174,  ...,  0.0250,  0.0352, -0.0572],
+        [-0.0248, -0.0059, -0.0266,  ..., -0.0278, -0.0068, -0.0136],
+        ...,
+        [-0.0042,  0.0627, -0.0780,  ..., -0.0429,  0.0086, -0.0525],
+        [-0.0034, -0.0336,  0.0226,  ...,  0.0231, -0.0512, -0.0273],
+        [ 0.0046, -0.0292,  0.0150,  ..., -0.0211, -0.0242,  0.0488]],
+       device='cuda:0'), grad: tensor([[ 5.3263e-04,  1.0365e-04,  3.3069e-04,  ...,  2.9778e-04,
+          7.8231e-06,  3.8052e-04],
+        [ 3.3712e-04,  5.7161e-05,  1.8036e-04,  ...,  6.1274e-04,
+          1.0198e-04,  9.8884e-05],
+        [ 1.1663e-03,  2.9147e-05,  8.0442e-04,  ...,  1.4949e-04,
+          7.5054e-04,  8.9765e-05],
+        ...,
+        [-1.5581e-04, -3.8586e-03, -7.3433e-04,  ..., -5.2404e-04,
+          9.2834e-06, -2.1648e-03],
+        [ 4.4060e-03,  3.0732e-04,  3.6812e-03,  ...,  2.7981e-03,
+          3.4356e-04,  4.6730e-03],
+        [ 2.0733e-03,  4.5319e-03,  1.6689e-03,  ...,  5.6190e-03,
+          1.0215e-05,  3.5381e-03]], device='cuda:0')
+Epoch 28, bias, value: tensor([ 0.0075,  0.0039,  0.0031,  0.0164,  0.0236,  0.0306, -0.0253,  0.0065,
+        -0.0299, -0.0176], device='cuda:0'), grad: tensor([ 0.0006,  0.0011,  0.0027, -0.0029, -0.0068,  0.0031, -0.0106, -0.0065,
+         0.0063,  0.0131], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 27, time 218.74, cls_loss 0.0394 cls_loss_mapping 0.0515 cls_loss_causal 0.8938 re_mapping 0.0268 re_causal 0.0723 /// teacc 98.38 lr 0.00010000
+Epoch 29, weight, value: tensor([[ 0.0045,  0.0643,  0.0412,  ..., -0.0673, -0.0435,  0.0254],
+        [ 0.0613, -0.0063, -0.0180,  ...,  0.0251,  0.0359, -0.0577],
+        [-0.0258, -0.0062, -0.0269,  ..., -0.0286, -0.0075, -0.0136],
+        ...,
+        [-0.0042,  0.0637, -0.0786,  ..., -0.0431,  0.0094, -0.0533],
+        [-0.0029, -0.0347,  0.0226,  ...,  0.0242, -0.0516, -0.0276],
+        [ 0.0040, -0.0291,  0.0150,  ..., -0.0217, -0.0247,  0.0493]],
+       device='cuda:0'), grad: tensor([[ 1.1379e-04, -1.2283e-03, -1.2350e-03,  ..., -2.2805e-04,
+          6.3181e-05, -1.0834e-03],
+        [-2.5902e-03, -1.5068e-04, -4.2129e-04,  ..., -1.1053e-03,
+         -1.3523e-03,  3.5548e-04],
+        [ 1.4172e-03,  6.7520e-04,  5.2738e-04,  ...,  6.2418e-04,
+          1.2420e-05,  7.2813e-04],
+        ...,
+        [ 4.0674e-04,  8.8930e-05,  3.2926e-04,  ...,  1.8537e-04,
+          2.1052e-04,  3.8338e-04],
+        [ 1.4410e-03,  2.1482e-04,  5.8174e-04,  ...,  9.0981e-04,
+          4.3321e-04,  4.8709e-04],
+        [-6.9737e-06, -4.3422e-05, -3.6716e-03,  ...,  6.1703e-04,
+          1.1218e-04, -3.2043e-03]], device='cuda:0')
+Epoch 29, bias, value: tensor([ 0.0077,  0.0035,  0.0028,  0.0168,  0.0234,  0.0304, -0.0256,  0.0066,
+        -0.0297, -0.0174], device='cuda:0'), grad: tensor([-2.9716e-03, -3.2349e-03,  2.4872e-03,  3.4313e-03, -3.2429e-06,
+         1.8711e-03, -2.1114e-03,  1.0519e-03,  1.9484e-03, -2.4719e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 28, time 218.66, cls_loss 0.0316 cls_loss_mapping 0.0431 cls_loss_causal 0.7947 re_mapping 0.0261 re_causal 0.0710 /// teacc 98.39 lr 0.00010000
+Epoch 30, weight, value: tensor([[ 0.0040,  0.0645,  0.0415,  ..., -0.0676, -0.0439,  0.0254],
+        [ 0.0618, -0.0052, -0.0181,  ...,  0.0255,  0.0362, -0.0585],
+        [-0.0257, -0.0064, -0.0268,  ..., -0.0289, -0.0076, -0.0135],
+        ...,
+        [-0.0049,  0.0640, -0.0797,  ..., -0.0437,  0.0097, -0.0542],
+        [-0.0035, -0.0356,  0.0227,  ...,  0.0242, -0.0527, -0.0278],
+        [ 0.0040, -0.0288,  0.0149,  ..., -0.0223, -0.0248,  0.0496]],
+       device='cuda:0'), grad: tensor([[-3.5137e-05, -1.0848e-04, -7.3195e-05,  ...,  3.4660e-05,
+          4.0054e-05, -8.4460e-05],
+        [ 2.9579e-05, -1.2308e-05,  2.2918e-05,  ...,  1.5807e-04,
+          5.3972e-05,  4.7356e-05],
+        [-4.3464e-04, -1.3262e-05,  1.2398e-05,  ..., -2.4378e-04,
+         -5.8413e-04,  2.7508e-05],
+        ...,
+        [ 8.1062e-05, -1.7896e-05,  4.3213e-05,  ...,  2.1577e-04,
+          1.5163e-04,  5.0724e-05],
+        [-6.5446e-05,  2.3305e-05, -6.3419e-04,  ..., -1.0853e-03,
+         -4.7684e-05, -6.3086e-04],
+        [ 5.7399e-05,  4.3839e-05,  1.8799e-04,  ...,  3.3832e-04,
+          1.0180e-04,  1.3852e-04]], device='cuda:0')
+Epoch 30, bias, value: tensor([ 0.0074,  0.0034,  0.0029,  0.0167,  0.0236,  0.0310, -0.0258,  0.0066,
+        -0.0299, -0.0175], device='cuda:0'), grad: tensor([-4.0770e-05,  3.1471e-04, -2.3918e-03,  5.7364e-04, -3.2353e-04,
+         5.0926e-04,  2.5368e-04,  5.4216e-04,  6.5565e-05,  4.9639e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 29----------------------------------------------------
+epoch 29, time 219.74, cls_loss 0.0331 cls_loss_mapping 0.0461 cls_loss_causal 0.8036 re_mapping 0.0244 re_causal 0.0668 /// teacc 98.42 lr 0.00010000
+Epoch 31, weight, value: tensor([[ 0.0035,  0.0650,  0.0417,  ..., -0.0685, -0.0443,  0.0255],
+        [ 0.0628, -0.0056, -0.0189,  ...,  0.0268,  0.0374, -0.0592],
+        [-0.0262, -0.0061, -0.0268,  ..., -0.0298, -0.0079, -0.0138],
+        ...,
+        [-0.0057,  0.0648, -0.0807,  ..., -0.0448,  0.0100, -0.0551],
+        [-0.0034, -0.0360,  0.0233,  ...,  0.0246, -0.0533, -0.0278],
+        [ 0.0030, -0.0296,  0.0153,  ..., -0.0229, -0.0250,  0.0502]],
+       device='cuda:0'), grad: tensor([[-9.3460e-05, -9.6619e-05, -5.5283e-05,  ..., -3.2157e-05,
+          8.0541e-06, -1.4734e-04],
+        [-1.9574e-04,  1.3494e-04,  1.4567e-04,  ..., -1.3435e-04,
+         -5.5492e-05,  5.2303e-05],
+        [ 1.0145e-04,  2.1725e-03,  1.7262e-03,  ...,  1.0467e-04,
+         -1.0812e-04,  3.0518e-05],
+        ...,
+        [ 5.5969e-05, -5.1613e-03, -3.7727e-03,  ...,  1.0347e-04,
+          5.2720e-05,  3.4660e-05],
+        [-2.0027e-04,  3.5429e-04, -3.5346e-05,  ..., -4.4584e-04,
+          3.8564e-05, -2.1338e-04],
+        [ 1.0240e-04,  2.0337e-04,  2.9659e-04,  ...,  1.5402e-03,
+          1.0677e-05,  1.0681e-03]], device='cuda:0')
+Epoch 31, bias, value: tensor([ 0.0074,  0.0034,  0.0031,  0.0164,  0.0234,  0.0312, -0.0258,  0.0068,
+        -0.0295, -0.0179], device='cuda:0'), grad: tensor([-6.3896e-05,  4.3225e-04,  6.6223e-03,  6.5002e-03, -2.4605e-03,
+         6.2895e-04,  2.0218e-04, -1.5556e-02,  5.1355e-04,  3.1776e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 30, time 218.43, cls_loss 0.0352 cls_loss_mapping 0.0457 cls_loss_causal 0.8238 re_mapping 0.0239 re_causal 0.0642 /// teacc 98.36 lr 0.00010000
+Epoch 32, weight, value: tensor([[ 0.0034,  0.0656,  0.0420,  ..., -0.0692, -0.0448,  0.0259],
+        [ 0.0630, -0.0055, -0.0194,  ...,  0.0267,  0.0378, -0.0604],
+        [-0.0267, -0.0064, -0.0270,  ..., -0.0303, -0.0076, -0.0139],
+        ...,
+        [-0.0070,  0.0654, -0.0820,  ..., -0.0455,  0.0095, -0.0563],
+        [-0.0030, -0.0361,  0.0235,  ...,  0.0252, -0.0538, -0.0280],
+        [ 0.0029, -0.0298,  0.0158,  ..., -0.0232, -0.0253,  0.0510]],
+       device='cuda:0'), grad: tensor([[ 8.2627e-06, -8.9049e-05, -8.9228e-05,  ...,  1.4074e-05,
+          9.9838e-06, -9.8944e-05],
+        [-2.9488e-03,  1.8612e-05,  1.5028e-05,  ..., -3.6716e-03,
+         -3.6812e-03,  1.2040e-05],
+        [ 2.7924e-03,  8.8453e-05,  1.9640e-05,  ...,  3.5038e-03,
+          3.4485e-03,  3.1948e-05],
+        ...,
+        [ 3.8207e-05, -1.4210e-04,  1.9002e-04,  ...,  3.9577e-05,
+          3.2485e-05,  1.3947e-04],
+        [ 1.0353e-04,  2.9549e-05,  1.5903e-04,  ...,  9.7036e-05,
+          7.0989e-05,  1.6773e-04],
+        [ 4.3809e-05, -2.9638e-05, -4.8089e-04,  ...,  5.7928e-07,
+          8.7172e-06, -3.7050e-04]], device='cuda:0')
+Epoch 32, bias, value: tensor([ 0.0074,  0.0030,  0.0032,  0.0168,  0.0234,  0.0310, -0.0259,  0.0065,
+        -0.0293, -0.0178], device='cuda:0'), grad: tensor([-1.3328e-04, -4.5815e-03,  4.3068e-03,  2.7716e-05,  3.1161e-04,
+         9.2328e-05,  4.7088e-05,  9.3162e-05,  3.2449e-04, -4.8804e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 31, time 218.53, cls_loss 0.0307 cls_loss_mapping 0.0406 cls_loss_causal 0.7918 re_mapping 0.0234 re_causal 0.0632 /// teacc 98.26 lr 0.00010000
+Epoch 33, weight, value: tensor([[ 0.0032,  0.0660,  0.0422,  ..., -0.0698, -0.0454,  0.0260],
+        [ 0.0638, -0.0061, -0.0199,  ...,  0.0271,  0.0393, -0.0611],
+        [-0.0277, -0.0066, -0.0269,  ..., -0.0309, -0.0080, -0.0142],
+        ...,
+        [-0.0073,  0.0660, -0.0828,  ..., -0.0456,  0.0101, -0.0568],
+        [-0.0028, -0.0368,  0.0237,  ...,  0.0258, -0.0547, -0.0278],
+        [ 0.0025, -0.0298,  0.0165,  ..., -0.0238, -0.0255,  0.0516]],
+       device='cuda:0'), grad: tensor([[ 2.4274e-05, -1.8358e-04, -1.2338e-04,  ...,  2.2754e-05,
+          6.1579e-06, -2.0647e-04],
+        [-2.0885e-04,  9.9465e-06,  5.4032e-05,  ...,  1.3065e-04,
+         -1.2302e-04,  3.4302e-05],
+        [ 7.6175e-05,  2.2054e-05,  9.0003e-05,  ...,  6.0141e-05,
+          1.7554e-05,  9.6381e-05],
+        ...,
+        [ 1.3494e-04, -3.3522e-04,  6.8486e-05,  ...,  5.1677e-05,
+          6.8665e-05,  5.1945e-05],
+        [ 1.9300e-04,  2.6286e-05,  3.2663e-04,  ...,  8.6248e-05,
+          6.4015e-05,  3.8505e-04],
+        [-1.7285e-05,  2.9612e-04, -2.4166e-03,  ...,  3.8838e-04,
+          2.0516e-04, -1.7834e-03]], device='cuda:0')
+Epoch 33, bias, value: tensor([ 0.0075,  0.0031,  0.0032,  0.0163,  0.0234,  0.0308, -0.0258,  0.0069,
+        -0.0292, -0.0177], device='cuda:0'), grad: tensor([-2.8419e-04,  6.2287e-05,  1.1539e-04,  1.8969e-03, -1.8969e-03,
+         3.6329e-05,  3.0994e-05, -1.5354e-04,  4.5967e-04, -2.6608e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 32, time 218.64, cls_loss 0.0322 cls_loss_mapping 0.0418 cls_loss_causal 0.8160 re_mapping 0.0227 re_causal 0.0610 /// teacc 98.24 lr 0.00010000
+Epoch 34, weight, value: tensor([[ 0.0031,  0.0662,  0.0421,  ..., -0.0705, -0.0463,  0.0252],
+        [ 0.0640, -0.0061, -0.0207,  ...,  0.0273,  0.0400, -0.0619],
+        [-0.0279, -0.0070, -0.0272,  ..., -0.0315, -0.0083, -0.0149],
+        ...,
+        [-0.0079,  0.0670, -0.0836,  ..., -0.0461,  0.0093, -0.0572],
+        [-0.0029, -0.0373,  0.0235,  ...,  0.0262, -0.0554, -0.0285],
+        [ 0.0017, -0.0303,  0.0172,  ..., -0.0240, -0.0259,  0.0528]],
+       device='cuda:0'), grad: tensor([[ 6.0558e-05, -1.8165e-05,  8.3745e-05,  ...,  2.9728e-05,
+          7.1377e-06,  2.0340e-05],
+        [-9.8884e-05,  4.9055e-05,  1.8671e-05,  ..., -6.3837e-05,
+         -4.3064e-05,  9.1866e-06],
+        [ 8.0645e-05,  1.5748e-04,  2.7537e-04,  ...,  1.5366e-04,
+          2.0668e-05,  1.2469e-04],
+        ...,
+        [ 3.6478e-05, -8.7690e-04,  1.8287e-04,  ...,  8.3327e-05,
+         -3.5107e-05,  1.3268e-04],
+        [-9.4557e-04,  6.4850e-05, -2.5349e-03,  ..., -3.7718e-04,
+          1.7598e-05, -1.5869e-03],
+        [ 4.9257e-04,  1.6963e-04,  1.3065e-03,  ...,  2.9993e-04,
+          1.7449e-05,  8.1110e-04]], device='cuda:0')
+Epoch 34, bias, value: tensor([ 0.0070,  0.0029,  0.0031,  0.0167,  0.0233,  0.0310, -0.0255,  0.0069,
+        -0.0296, -0.0177], device='cuda:0'), grad: tensor([ 1.2600e-04,  9.1136e-05,  7.2098e-04,  2.4080e-04,  9.2804e-05,
+         2.1470e-04,  2.4533e-04, -1.1606e-03, -2.5730e-03,  2.0027e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 33, time 218.62, cls_loss 0.0356 cls_loss_mapping 0.0402 cls_loss_causal 0.7848 re_mapping 0.0237 re_causal 0.0591 /// teacc 98.37 lr 0.00010000
+Epoch 35, weight, value: tensor([[ 0.0025,  0.0667,  0.0423,  ..., -0.0713, -0.0475,  0.0252],
+        [ 0.0645, -0.0067, -0.0207,  ...,  0.0275,  0.0415, -0.0626],
+        [-0.0287, -0.0073, -0.0273,  ..., -0.0322, -0.0090, -0.0154],
+        ...,
+        [-0.0085,  0.0682, -0.0849,  ..., -0.0469,  0.0099, -0.0581],
+        [-0.0021, -0.0380,  0.0237,  ...,  0.0271, -0.0559, -0.0282],
+        [ 0.0014, -0.0307,  0.0176,  ..., -0.0247, -0.0265,  0.0536]],
+       device='cuda:0'), grad: tensor([[ 4.2367e-04,  2.9063e-04,  1.2755e-04,  ...,  3.2449e-04,
+          2.8834e-06,  4.5490e-04],
+        [ 4.0889e-05,  2.9445e-04,  2.5392e-04,  ...,  1.0020e-04,
+          4.5747e-06,  2.0993e-04],
+        [ 2.3574e-05, -1.8921e-03,  4.1664e-05,  ...,  2.9624e-05,
+         -3.6812e-04,  2.7224e-05],
+        ...,
+        [ 1.9684e-05,  3.5686e-03,  2.0123e-03,  ...,  5.1022e-04,
+          3.3069e-04,  1.7958e-03],
+        [-1.0133e-04,  1.8060e-04,  1.2374e-04,  ..., -1.5974e-04,
+          3.2093e-06,  2.0695e-04],
+        [-1.4573e-05, -2.6340e-03, -2.8706e-03,  ..., -5.9128e-04,
+          3.2019e-06, -2.6112e-03]], device='cuda:0')
+Epoch 35, bias, value: tensor([ 0.0068,  0.0029,  0.0030,  0.0167,  0.0238,  0.0309, -0.0262,  0.0070,
+        -0.0292, -0.0177], device='cuda:0'), grad: tensor([ 0.0010,  0.0013, -0.0041,  0.0005,  0.0009, -0.0002, -0.0007,  0.0137,
+         0.0004, -0.0128], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 34, time 218.48, cls_loss 0.0307 cls_loss_mapping 0.0392 cls_loss_causal 0.7970 re_mapping 0.0231 re_causal 0.0635 /// teacc 98.41 lr 0.00010000
+Epoch 36, weight, value: tensor([[ 0.0026,  0.0678,  0.0428,  ..., -0.0720, -0.0482,  0.0257],
+        [ 0.0649, -0.0071, -0.0212,  ...,  0.0278,  0.0420, -0.0631],
+        [-0.0292, -0.0075, -0.0277,  ..., -0.0328, -0.0093, -0.0160],
+        ...,
+        [-0.0089,  0.0684, -0.0862,  ..., -0.0474,  0.0109, -0.0589],
+        [-0.0022, -0.0385,  0.0238,  ...,  0.0274, -0.0566, -0.0284],
+        [ 0.0008, -0.0305,  0.0178,  ..., -0.0253, -0.0263,  0.0536]],
+       device='cuda:0'), grad: tensor([[ 3.9965e-05,  1.2743e-04,  2.9847e-05,  ...,  1.9360e-04,
+          3.8967e-06,  3.5226e-05],
+        [-2.7478e-05,  2.0429e-05,  5.0247e-05,  ...,  7.5400e-05,
+         -1.7613e-05,  1.3098e-05],
+        [ 2.2352e-05,  2.2620e-05,  1.7941e-05,  ...,  7.3791e-05,
+         -1.6633e-06,  5.0515e-06],
+        ...,
+        [ 1.5542e-05, -8.1003e-05,  5.7817e-05,  ...,  1.0389e-04,
+          4.1239e-06,  1.6868e-05],
+        [ 8.5294e-05,  2.4036e-05,  1.6952e-04,  ...,  1.7142e-04,
+          1.0967e-05,  1.0186e-04],
+        [ 4.7386e-05,  6.0201e-05,  8.1730e-04,  ...,  1.5917e-03,
+          2.8573e-06, -3.0309e-05]], device='cuda:0')
+Epoch 36, bias, value: tensor([ 0.0074,  0.0027,  0.0029,  0.0166,  0.0238,  0.0318, -0.0261,  0.0064,
+        -0.0295, -0.0177], device='cuda:0'), grad: tensor([ 3.3855e-04,  1.8120e-04,  8.0913e-06, -6.4373e-06, -5.7449e-03,
+        -5.1594e-04,  2.1839e-03,  1.2255e-04,  4.3869e-04,  2.9964e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 35, time 218.10, cls_loss 0.0274 cls_loss_mapping 0.0356 cls_loss_causal 0.7697 re_mapping 0.0220 re_causal 0.0590 /// teacc 98.36 lr 0.00010000
+Epoch 37, weight, value: tensor([[ 0.0025,  0.0683,  0.0430,  ..., -0.0727, -0.0484,  0.0260],
+        [ 0.0656, -0.0065, -0.0216,  ...,  0.0288,  0.0421, -0.0634],
+        [-0.0297, -0.0078, -0.0277,  ..., -0.0334, -0.0087, -0.0162],
+        ...,
+        [-0.0097,  0.0696, -0.0862,  ..., -0.0486,  0.0109, -0.0591],
+        [-0.0021, -0.0394,  0.0239,  ...,  0.0277, -0.0568, -0.0286],
+        [ 0.0002, -0.0313,  0.0178,  ..., -0.0260, -0.0266,  0.0541]],
+       device='cuda:0'), grad: tensor([[-1.6451e-05, -2.3377e-04,  1.1355e-05,  ..., -1.0777e-04,
+          8.7380e-05, -2.8682e-04],
+        [ 2.1946e-04,  2.0254e-04,  2.2805e-04,  ...,  2.0730e-04,
+          9.6738e-05,  6.2361e-06],
+        [-1.6470e-03, -2.9370e-05, -8.6212e-03,  ...,  4.2468e-05,
+         -6.3820e-03,  9.6709e-06],
+        ...,
+        [-2.0635e-04, -1.2732e-03, -4.9210e-04,  ...,  1.4198e-04,
+         -2.0098e-06,  5.2452e-05],
+        [ 1.7905e-04,  8.5771e-05,  1.3089e-04,  ...,  2.1112e-04,
+          3.2932e-05,  4.8310e-05],
+        [ 7.9012e-04,  6.9332e-04,  1.0748e-03,  ...,  1.9798e-03,
+          9.8765e-05,  2.3007e-04]], device='cuda:0')
+Epoch 37, bias, value: tensor([ 0.0074,  0.0030,  0.0028,  0.0166,  0.0236,  0.0317, -0.0259,  0.0069,
+        -0.0296, -0.0180], device='cuda:0'), grad: tensor([-7.6413e-05,  1.0233e-03, -1.6785e-02,  1.6418e-02, -4.9248e-03,
+         6.7854e-04,  2.6450e-05, -1.9798e-03,  6.5660e-04,  4.9744e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 36, time 219.42, cls_loss 0.0297 cls_loss_mapping 0.0412 cls_loss_causal 0.7410 re_mapping 0.0203 re_causal 0.0544 /// teacc 98.37 lr 0.00010000
+Epoch 38, weight, value: tensor([[ 0.0021,  0.0687,  0.0430,  ..., -0.0734, -0.0503,  0.0260],
+        [ 0.0662, -0.0068, -0.0221,  ...,  0.0294,  0.0422, -0.0641],
+        [-0.0298, -0.0082, -0.0272,  ..., -0.0340, -0.0083, -0.0165],
+        ...,
+        [-0.0104,  0.0705, -0.0867,  ..., -0.0493,  0.0112, -0.0596],
+        [-0.0018, -0.0398,  0.0239,  ...,  0.0283, -0.0572, -0.0285],
+        [-0.0003, -0.0315,  0.0183,  ..., -0.0269, -0.0257,  0.0548]],
+       device='cuda:0'), grad: tensor([[-4.3821e-04, -1.0414e-03, -7.4291e-04,  ..., -1.4734e-04,
+          3.1143e-06, -5.2309e-04],
+        [ 2.6211e-05,  2.1353e-05,  5.8860e-06,  ...,  5.8115e-05,
+          2.6405e-05,  6.1803e-06],
+        [ 3.4183e-05,  3.6716e-04,  5.6237e-05,  ...,  5.9396e-05,
+         -5.4777e-05,  5.2154e-05],
+        ...,
+        [ 1.6227e-05, -4.7588e-04,  5.1886e-05,  ...,  1.1265e-04,
+          2.1428e-05,  7.1824e-05],
+        [-7.9036e-05,  7.8619e-05,  7.1704e-05,  ...,  1.5306e-04,
+          2.4110e-05,  1.3530e-04],
+        [ 1.6108e-05,  2.4176e-04, -1.7190e-04,  ..., -3.3112e-03,
+          3.7819e-05, -3.8218e-04]], device='cuda:0')
+Epoch 38, bias, value: tensor([ 0.0073,  0.0028,  0.0031,  0.0166,  0.0238,  0.0318, -0.0263,  0.0069,
+        -0.0296, -0.0181], device='cuda:0'), grad: tensor([-0.0019,  0.0003,  0.0002,  0.0007,  0.0045, -0.0004,  0.0020, -0.0004,
+         0.0005, -0.0055], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 37----------------------------------------------------
+epoch 37, time 219.45, cls_loss 0.0286 cls_loss_mapping 0.0346 cls_loss_causal 0.7683 re_mapping 0.0214 re_causal 0.0582 /// teacc 98.52 lr 0.00010000
+Epoch 39, weight, value: tensor([[ 0.0019,  0.0691,  0.0431,  ..., -0.0738, -0.0508,  0.0259],
+        [ 0.0672, -0.0072, -0.0213,  ...,  0.0302,  0.0437, -0.0641],
+        [-0.0304, -0.0085, -0.0273,  ..., -0.0345, -0.0093, -0.0166],
+        ...,
+        [-0.0109,  0.0718, -0.0875,  ..., -0.0501,  0.0112, -0.0602],
+        [-0.0027, -0.0404,  0.0237,  ...,  0.0282, -0.0580, -0.0289],
+        [-0.0002, -0.0321,  0.0189,  ..., -0.0269, -0.0254,  0.0556]],
+       device='cuda:0'), grad: tensor([[ 4.1336e-05, -6.5947e-04, -5.8031e-04,  ..., -4.5204e-04,
+          1.5453e-05, -9.8515e-04],
+        [-7.1585e-05,  2.7306e-06,  1.7464e-05,  ..., -3.6657e-05,
+          2.9966e-05,  2.5719e-05],
+        [ 1.6019e-05,  7.4744e-05,  6.0052e-05,  ...,  5.5790e-05,
+         -1.5545e-04,  1.0175e-04],
+        ...,
+        [ 2.9862e-05,  4.9323e-05,  8.3566e-05,  ...,  1.4782e-04,
+          5.5462e-05,  1.2022e-04],
+        [ 4.2021e-05,  4.3809e-05,  9.5308e-05,  ...,  9.2983e-05,
+          9.5144e-06,  1.5080e-04],
+        [ 2.7731e-05,  3.0732e-04,  5.1111e-06,  ...,  2.3484e-04,
+          1.6198e-05,  1.5485e-04]], device='cuda:0')
+Epoch 39, bias, value: tensor([ 0.0070,  0.0034,  0.0032,  0.0167,  0.0236,  0.0320, -0.0268,  0.0071,
+        -0.0302, -0.0178], device='cuda:0'), grad: tensor([-1.6642e-03,  8.8453e-05, -1.3864e-04,  7.1859e-04, -1.2898e-04,
+         5.7459e-04, -5.7602e-04,  3.5071e-04,  3.0899e-04,  4.6635e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 38, time 218.12, cls_loss 0.0238 cls_loss_mapping 0.0290 cls_loss_causal 0.7601 re_mapping 0.0200 re_causal 0.0557 /// teacc 98.32 lr 0.00010000
+Epoch 40, weight, value: tensor([[ 0.0007,  0.0692,  0.0437,  ..., -0.0752, -0.0516,  0.0259],
+        [ 0.0668, -0.0073, -0.0216,  ...,  0.0301,  0.0438, -0.0648],
+        [-0.0306, -0.0088, -0.0276,  ..., -0.0348, -0.0096, -0.0169],
+        ...,
+        [-0.0119,  0.0728, -0.0884,  ..., -0.0510,  0.0111, -0.0611],
+        [-0.0024, -0.0407,  0.0239,  ...,  0.0288, -0.0587, -0.0288],
+        [-0.0007, -0.0327,  0.0188,  ..., -0.0272, -0.0257,  0.0558]],
+       device='cuda:0'), grad: tensor([[ 3.0398e-05, -2.0429e-05,  7.2908e-04,  ...,  1.4687e-04,
+          2.9374e-06,  6.4230e-04],
+        [-6.2799e-04,  1.2871e-06,  4.5866e-05,  ..., -5.1355e-04,
+         -1.7190e-04,  3.1263e-05],
+        [ 1.7118e-04,  6.6906e-06,  3.0732e-04,  ...,  1.4853e-04,
+          4.1008e-05,  2.6202e-04],
+        ...,
+        [ 5.0664e-05, -6.0499e-06,  3.9577e-05,  ...,  3.3826e-05,
+          1.0937e-05,  3.2306e-05],
+        [ 6.3896e-04,  2.0396e-06,  3.4561e-03,  ...,  8.9884e-04,
+          2.9922e-05,  3.0060e-03],
+        [ 9.0897e-05,  6.0014e-06, -4.5319e-03,  ..., -7.8773e-04,
+          6.4075e-06, -4.0207e-03]], device='cuda:0')
+Epoch 40, bias, value: tensor([ 0.0071,  0.0029,  0.0032,  0.0171,  0.0236,  0.0319, -0.0261,  0.0071,
+        -0.0302, -0.0182], device='cuda:0'), grad: tensor([ 0.0008, -0.0005,  0.0002, -0.0034,  0.0002,  0.0027,  0.0003,  0.0002,
+         0.0042, -0.0047], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 39, time 218.26, cls_loss 0.0254 cls_loss_mapping 0.0353 cls_loss_causal 0.7439 re_mapping 0.0200 re_causal 0.0565 /// teacc 98.34 lr 0.00010000
+Epoch 41, weight, value: tensor([[ 0.0004,  0.0694,  0.0438,  ..., -0.0758, -0.0519,  0.0258],
+        [ 0.0671, -0.0058, -0.0218,  ...,  0.0300,  0.0446, -0.0653],
+        [-0.0312, -0.0091, -0.0277,  ..., -0.0352, -0.0099, -0.0172],
+        ...,
+        [-0.0133,  0.0732, -0.0890,  ..., -0.0514,  0.0109, -0.0615],
+        [-0.0021, -0.0414,  0.0238,  ...,  0.0292, -0.0589, -0.0291],
+        [-0.0015, -0.0337,  0.0195,  ..., -0.0276, -0.0256,  0.0569]],
+       device='cuda:0'), grad: tensor([[ 1.6623e-03,  2.2755e-03, -2.2149e-04,  ...,  2.9755e-03,
+          4.3400e-06, -1.4400e-03],
+        [-2.0504e-04,  5.5218e-04,  1.3268e-04,  ..., -2.8586e-04,
+         -1.5366e-04,  2.2089e-04],
+        [ 1.7369e-04, -1.9002e-04,  1.3673e-04,  ...,  1.5283e-04,
+          2.2128e-05,  8.7738e-05],
+        ...,
+        [-1.1139e-03, -2.1496e-03, -4.1097e-05,  ..., -1.3262e-05,
+          1.5900e-05, -5.7697e-04],
+        [-1.8425e-03, -2.5978e-03, -4.3440e-04,  ..., -3.4637e-03,
+          2.8044e-05,  1.1530e-03],
+        [ 5.9700e-04,  1.3371e-03, -5.6171e-04,  ..., -7.4863e-05,
+          1.3992e-05, -9.6917e-05]], device='cuda:0')
+Epoch 41, bias, value: tensor([ 0.0066,  0.0031,  0.0033,  0.0177,  0.0234,  0.0315, -0.0257,  0.0067,
+        -0.0303, -0.0181], device='cuda:0'), grad: tensor([ 0.0027,  0.0008, -0.0011,  0.0003,  0.0016,  0.0003,  0.0008, -0.0035,
+        -0.0035,  0.0016], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 40----------------------------------------------------
+epoch 40, time 219.06, cls_loss 0.0203 cls_loss_mapping 0.0270 cls_loss_causal 0.7160 re_mapping 0.0194 re_causal 0.0542 /// teacc 98.54 lr 0.00010000
+Epoch 42, weight, value: tensor([[ 0.0002,  0.0698,  0.0439,  ..., -0.0765, -0.0522,  0.0256],
+        [ 0.0681, -0.0053, -0.0219,  ...,  0.0308,  0.0452, -0.0657],
+        [-0.0314, -0.0092, -0.0278,  ..., -0.0357, -0.0100, -0.0173],
+        ...,
+        [-0.0140,  0.0736, -0.0898,  ..., -0.0525,  0.0110, -0.0623],
+        [-0.0024, -0.0421,  0.0237,  ...,  0.0293, -0.0603, -0.0293],
+        [-0.0023, -0.0341,  0.0199,  ..., -0.0280, -0.0260,  0.0576]],
+       device='cuda:0'), grad: tensor([[-3.6061e-05, -3.3927e-04, -6.3598e-05,  ...,  1.3605e-05,
+          1.1340e-05, -1.8716e-04],
+        [ 2.7370e-04,  6.5982e-05,  1.5354e-03,  ...,  7.5519e-05,
+          2.5654e-04,  1.2517e-05],
+        [-5.7650e-04,  2.3899e-03, -2.1992e-03,  ..., -1.3363e-04,
+         -5.3024e-04,  3.3796e-05],
+        ...,
+        [ 1.5318e-04, -2.8458e-03,  3.0017e-04,  ...,  6.1691e-05,
+          9.1791e-05,  1.4022e-05],
+        [-6.3038e-04,  8.7678e-05, -3.5453e-04,  ..., -7.0953e-04,
+          5.3316e-05,  2.8446e-05],
+        [ 1.0175e-04,  2.6917e-04,  2.0421e-04,  ...,  7.8440e-05,
+          5.5045e-05,  6.8784e-05]], device='cuda:0')
+Epoch 42, bias, value: tensor([ 0.0065,  0.0037,  0.0034,  0.0174,  0.0235,  0.0318, -0.0256,  0.0066,
+        -0.0309, -0.0179], device='cuda:0'), grad: tensor([-0.0006,  0.0046, -0.0022,  0.0011,  0.0003,  0.0002,  0.0001, -0.0045,
+        -0.0003,  0.0012], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 41, time 217.77, cls_loss 0.0242 cls_loss_mapping 0.0313 cls_loss_causal 0.7690 re_mapping 0.0187 re_causal 0.0536 /// teacc 98.39 lr 0.00010000
+Epoch 43, weight, value: tensor([[-0.0003,  0.0705,  0.0442,  ..., -0.0770, -0.0524,  0.0258],
+        [ 0.0681, -0.0058, -0.0223,  ...,  0.0304,  0.0455, -0.0661],
+        [-0.0312, -0.0098, -0.0278,  ..., -0.0353, -0.0096, -0.0176],
+        ...,
+        [-0.0141,  0.0743, -0.0905,  ..., -0.0530,  0.0113, -0.0629],
+        [-0.0021, -0.0422,  0.0239,  ...,  0.0300, -0.0609, -0.0294],
+        [-0.0025, -0.0342,  0.0200,  ..., -0.0286, -0.0262,  0.0578]],
+       device='cuda:0'), grad: tensor([[ 1.6403e-04,  4.2707e-05,  8.7559e-05,  ...,  1.3316e-04,
+          3.0790e-06,  5.4091e-06],
+        [ 1.0222e-04,  2.7448e-05,  8.5115e-05,  ...,  1.3530e-04,
+         -7.5810e-06,  1.2055e-05],
+        [ 1.8430e-04, -8.0585e-05,  2.4408e-05,  ...,  1.8322e-04,
+         -1.8448e-05,  6.3851e-06],
+        ...,
+        [-3.8445e-06, -1.6379e-04,  2.7955e-05,  ...,  8.7321e-05,
+          4.2394e-06,  7.8678e-06],
+        [ 1.2070e-04,  1.1027e-04, -8.0395e-04,  ..., -1.5335e-03,
+          3.9935e-06, -4.1986e-04],
+        [ 1.6892e-04,  1.3876e-04, -1.7178e-04,  ...,  1.1339e-03,
+          1.8388e-05, -1.7107e-04]], device='cuda:0')
+Epoch 43, bias, value: tensor([ 0.0068,  0.0032,  0.0034,  0.0173,  0.0240,  0.0316, -0.0262,  0.0067,
+        -0.0306, -0.0179], device='cuda:0'), grad: tensor([ 3.9792e-04,  3.2473e-04, -9.0301e-05,  1.5354e-03, -6.2180e-04,
+         6.3181e-04, -3.3607e-03, -1.8671e-05, -3.3212e-04,  1.5345e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 42----------------------------------------------------
+epoch 42, time 217.79, cls_loss 0.0241 cls_loss_mapping 0.0309 cls_loss_causal 0.7237 re_mapping 0.0188 re_causal 0.0513 /// teacc 98.58 lr 0.00010000
+Epoch 44, weight, value: tensor([[-0.0007,  0.0715,  0.0444,  ..., -0.0777, -0.0531,  0.0257],
+        [ 0.0690, -0.0062, -0.0220,  ...,  0.0311,  0.0460, -0.0665],
+        [-0.0323, -0.0102, -0.0281,  ..., -0.0361, -0.0099, -0.0180],
+        ...,
+        [-0.0146,  0.0750, -0.0909,  ..., -0.0537,  0.0111, -0.0630],
+        [-0.0022, -0.0428,  0.0237,  ...,  0.0303, -0.0619, -0.0297],
+        [-0.0035, -0.0344,  0.0201,  ..., -0.0294, -0.0264,  0.0583]],
+       device='cuda:0'), grad: tensor([[ 3.9482e-04, -1.2755e-04,  6.7329e-04,  ...,  1.1170e-04,
+          1.2368e-05,  9.6560e-05],
+        [ 6.8605e-05,  6.0424e-06,  8.4996e-05,  ...,  5.1528e-05,
+         -7.6741e-06,  4.6611e-05],
+        [ 5.5599e-04,  4.3392e-05,  9.5940e-04,  ...,  2.9874e-04,
+          1.5274e-05,  1.7571e-04],
+        ...,
+        [ 9.4414e-05,  2.6926e-05,  1.8644e-04,  ...,  1.3864e-04,
+          1.2755e-05,  1.4472e-04],
+        [-4.7569e-03, -2.0087e-04,  6.6376e-04,  ..., -3.5419e-03,
+          1.0639e-04, -2.3537e-03],
+        [ 1.5545e-04, -5.4687e-05, -5.4455e-04,  ..., -1.0706e-05,
+          7.0110e-06, -5.9223e-04]], device='cuda:0')
+Epoch 44, bias, value: tensor([ 0.0070,  0.0034,  0.0033,  0.0171,  0.0239,  0.0326, -0.0261,  0.0065,
+        -0.0309, -0.0182], device='cuda:0'), grad: tensor([ 0.0009,  0.0002,  0.0016, -0.0037,  0.0004,  0.0043,  0.0001,  0.0005,
+        -0.0041, -0.0004], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 43----------------------------------------------------
+epoch 43, time 217.75, cls_loss 0.0242 cls_loss_mapping 0.0309 cls_loss_causal 0.7113 re_mapping 0.0189 re_causal 0.0505 /// teacc 98.64 lr 0.00010000
+Epoch 45, weight, value: tensor([[-0.0021,  0.0717,  0.0450,  ..., -0.0787, -0.0539,  0.0257],
+        [ 0.0698, -0.0058, -0.0223,  ...,  0.0315,  0.0463, -0.0666],
+        [-0.0323, -0.0107, -0.0282,  ..., -0.0360, -0.0097, -0.0182],
+        ...,
+        [-0.0154,  0.0760, -0.0918,  ..., -0.0546,  0.0116, -0.0637],
+        [-0.0024, -0.0434,  0.0242,  ...,  0.0307, -0.0633, -0.0294],
+        [-0.0040, -0.0349,  0.0208,  ..., -0.0299, -0.0269,  0.0592]],
+       device='cuda:0'), grad: tensor([[ 9.9763e-06, -7.0214e-05, -4.3809e-05,  ...,  8.0407e-05,
+          5.6066e-06, -5.5522e-05],
+        [ 9.1270e-08,  4.2059e-06,  6.7204e-06,  ...,  6.2466e-05,
+         -2.3935e-07,  5.1036e-06],
+        [ 5.1670e-06,  1.1794e-05,  1.1558e-06,  ...,  8.6308e-05,
+          5.5991e-06,  1.1981e-05],
+        ...,
+        [ 2.8219e-06, -2.9981e-05,  4.8168e-06,  ...,  3.4571e-05,
+          1.4566e-05,  6.3069e-06],
+        [ 5.4270e-05,  2.0176e-05,  2.8268e-05,  ...,  1.3888e-04,
+          3.2723e-05,  7.4267e-05],
+        [ 6.4895e-06,  3.0607e-05, -6.2287e-05,  ...,  9.6440e-05,
+          3.1263e-05, -6.9559e-05]], device='cuda:0')
+Epoch 45, bias, value: tensor([ 0.0068,  0.0033,  0.0034,  0.0168,  0.0246,  0.0323, -0.0260,  0.0069,
+        -0.0308, -0.0187], device='cuda:0'), grad: tensor([ 2.1830e-05,  1.0622e-04,  1.1861e-04,  2.0683e-05, -6.6109e-03,
+         2.7895e-04,  5.6572e-03,  3.1590e-05,  2.7728e-04,  9.7513e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 44, time 217.05, cls_loss 0.0227 cls_loss_mapping 0.0265 cls_loss_causal 0.7031 re_mapping 0.0179 re_causal 0.0505 /// teacc 98.39 lr 0.00010000
+Epoch 46, weight, value: tensor([[-0.0031,  0.0720,  0.0453,  ..., -0.0793, -0.0552,  0.0255],
+        [ 0.0702, -0.0061, -0.0226,  ...,  0.0318,  0.0465, -0.0670],
+        [-0.0330, -0.0108, -0.0285,  ..., -0.0364, -0.0096, -0.0187],
+        ...,
+        [-0.0148,  0.0763, -0.0928,  ..., -0.0545,  0.0126, -0.0639],
+        [-0.0027, -0.0439,  0.0243,  ...,  0.0306, -0.0647, -0.0295],
+        [-0.0043, -0.0351,  0.0215,  ..., -0.0301, -0.0273,  0.0601]],
+       device='cuda:0'), grad: tensor([[-9.3699e-05, -1.5771e-04,  4.3362e-05,  ...,  3.6061e-05,
+          7.5884e-06,  1.0085e-04],
+        [-2.4706e-05,  2.0728e-05,  4.1038e-05,  ..., -5.0962e-05,
+         -3.2157e-05,  2.3067e-05],
+        [ 1.4770e-04,  1.1049e-05,  1.8990e-04,  ...,  3.4958e-05,
+         -2.8443e-04,  4.0203e-05],
+        ...,
+        [ 1.3876e-04, -8.1182e-05,  2.3961e-04,  ...,  1.2279e-04,
+          1.8895e-04,  2.0278e-04],
+        [-3.1948e-04,  2.5094e-05, -2.9659e-04,  ..., -4.5109e-04,
+          1.3255e-05, -1.9896e-04],
+        [ 2.4092e-04,  4.8041e-05, -1.6689e-06,  ...,  1.6201e-04,
+          1.2256e-05, -9.1195e-05]], device='cuda:0')
+Epoch 46, bias, value: tensor([ 0.0067,  0.0031,  0.0032,  0.0170,  0.0242,  0.0328, -0.0260,  0.0070,
+        -0.0312, -0.0183], device='cuda:0'), grad: tensor([-7.9125e-06,  2.9355e-05, -2.5481e-05,  9.0218e-04,  1.8322e-04,
+        -1.1930e-03,  1.3006e-04,  5.7697e-04, -7.7152e-04,  1.7452e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 45, time 216.97, cls_loss 0.0265 cls_loss_mapping 0.0345 cls_loss_causal 0.7272 re_mapping 0.0184 re_causal 0.0503 /// teacc 98.41 lr 0.00010000
+Epoch 47, weight, value: tensor([[-0.0036,  0.0726,  0.0454,  ..., -0.0800, -0.0557,  0.0250],
+        [ 0.0705, -0.0072, -0.0231,  ...,  0.0319,  0.0469, -0.0675],
+        [-0.0329, -0.0106, -0.0278,  ..., -0.0371, -0.0086, -0.0188],
+        ...,
+        [-0.0143,  0.0770, -0.0941,  ..., -0.0542,  0.0126, -0.0647],
+        [-0.0020, -0.0447,  0.0244,  ...,  0.0317, -0.0658, -0.0289],
+        [-0.0044, -0.0345,  0.0220,  ..., -0.0308, -0.0282,  0.0609]],
+       device='cuda:0'), grad: tensor([[ 1.3731e-05, -3.6992e-06,  7.3314e-06,  ...,  2.9981e-05,
+          1.4082e-05,  6.9141e-06],
+        [ 4.3917e-04, -6.3516e-07,  7.6056e-04,  ...,  4.1275e-03,
+          1.9321e-03,  1.9484e-03],
+        [ 2.8819e-05,  2.2769e-04,  7.6592e-05,  ...,  1.1462e-04,
+          5.4300e-05,  1.7732e-05],
+        ...,
+        [ 1.1271e-04, -4.1676e-04,  7.0751e-05,  ...,  3.9244e-04,
+          1.8013e-04,  1.8811e-04],
+        [ 6.9737e-05,  1.3813e-05,  3.6627e-05,  ...,  7.1347e-05,
+          3.4034e-05,  4.0054e-05],
+        [-7.6962e-04, -4.7028e-05, -1.1253e-03,  ..., -5.3978e-03,
+         -2.6531e-03, -2.6207e-03]], device='cuda:0')
+Epoch 47, bias, value: tensor([ 0.0062,  0.0026,  0.0042,  0.0163,  0.0244,  0.0328, -0.0269,  0.0068,
+        -0.0308, -0.0177], device='cuda:0'), grad: tensor([ 5.7906e-05,  8.2474e-03,  3.2401e-04,  3.4976e-04,  1.3905e-03,
+        -1.0359e-04,  7.1108e-05,  3.6979e-04,  2.2626e-04, -1.0925e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 46, time 217.48, cls_loss 0.0184 cls_loss_mapping 0.0263 cls_loss_causal 0.7013 re_mapping 0.0177 re_causal 0.0504 /// teacc 98.45 lr 0.00010000
+Epoch 48, weight, value: tensor([[-0.0034,  0.0732,  0.0463,  ..., -0.0804, -0.0566,  0.0258],
+        [ 0.0708, -0.0069, -0.0231,  ...,  0.0326,  0.0476, -0.0680],
+        [-0.0334, -0.0110, -0.0280,  ..., -0.0378, -0.0084, -0.0188],
+        ...,
+        [-0.0148,  0.0778, -0.0949,  ..., -0.0555,  0.0122, -0.0653],
+        [-0.0024, -0.0450,  0.0243,  ...,  0.0317, -0.0681, -0.0290],
+        [-0.0045, -0.0350,  0.0219,  ..., -0.0314, -0.0287,  0.0610]],
+       device='cuda:0'), grad: tensor([[ 3.1567e-04,  1.3709e-04,  4.5896e-05,  ...,  1.1444e-04,
+          5.1856e-06,  7.6830e-05],
+        [-4.6372e-05,  1.8731e-05,  2.8417e-05,  ...,  4.1239e-06,
+         -6.7335e-07,  1.0237e-05],
+        [-1.7762e-05,  1.9163e-05,  1.7226e-05,  ...,  2.5421e-05,
+         -5.3138e-05,  9.7007e-06],
+        ...,
+        [ 1.7107e-05, -1.4901e-04,  1.1146e-05,  ...,  2.3648e-05,
+         -3.5405e-05,  5.0329e-06],
+        [ 6.4015e-05,  2.8819e-05,  5.2214e-05,  ...,  8.7082e-05,
+          2.2888e-05,  4.7803e-05],
+        [ 2.2799e-05,  6.9261e-05,  4.6968e-04,  ...,  1.1606e-03,
+          5.5283e-05,  1.3041e-04]], device='cuda:0')
+Epoch 48, bias, value: tensor([ 0.0068,  0.0029,  0.0041,  0.0164,  0.0251,  0.0326, -0.0269,  0.0066,
+        -0.0311, -0.0180], device='cuda:0'), grad: tensor([ 3.6931e-04,  1.1069e-04, -4.9233e-05,  2.0361e-04, -2.0313e-03,
+        -3.6806e-05, -4.2701e-04, -2.3913e-04,  1.9526e-04,  1.9035e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 47, time 216.97, cls_loss 0.0158 cls_loss_mapping 0.0218 cls_loss_causal 0.7106 re_mapping 0.0174 re_causal 0.0497 /// teacc 98.54 lr 0.00010000
+Epoch 49, weight, value: tensor([[-0.0029,  0.0739,  0.0466,  ..., -0.0809, -0.0570,  0.0260],
+        [ 0.0708, -0.0076, -0.0231,  ...,  0.0329,  0.0483, -0.0685],
+        [-0.0340, -0.0111, -0.0283,  ..., -0.0384, -0.0084, -0.0190],
+        ...,
+        [-0.0148,  0.0789, -0.0952,  ..., -0.0554,  0.0119, -0.0658],
+        [-0.0023, -0.0455,  0.0244,  ...,  0.0321, -0.0684, -0.0292],
+        [-0.0051, -0.0355,  0.0223,  ..., -0.0317, -0.0289,  0.0615]],
+       device='cuda:0'), grad: tensor([[ 5.5194e-05,  3.0041e-05,  3.7313e-05,  ...,  4.7714e-05,
+          9.9987e-06,  5.0664e-05],
+        [-1.7524e-04, -4.5151e-05,  4.4644e-05,  ..., -2.7999e-05,
+         -1.1241e-04,  1.4521e-05],
+        [ 7.4267e-05,  3.7044e-05,  2.4602e-05,  ...,  7.3373e-05,
+          2.9132e-05,  1.2510e-05],
+        ...,
+        [ 1.8135e-05, -1.5945e-03, -4.3464e-04,  ...,  7.0870e-05,
+         -5.6058e-05, -5.5504e-04],
+        [ 5.5656e-06,  4.5627e-05,  5.7161e-05,  ..., -6.4313e-05,
+          4.9621e-06,  1.4973e-04],
+        [ 1.7381e-04,  1.4324e-03,  8.6594e-04,  ...,  6.5041e-04,
+          7.8201e-05,  6.6280e-04]], device='cuda:0')
+Epoch 49, bias, value: tensor([ 0.0071,  0.0026,  0.0041,  0.0161,  0.0247,  0.0328, -0.0268,  0.0069,
+        -0.0311, -0.0180], device='cuda:0'), grad: tensor([ 1.5402e-04, -5.0128e-05,  4.0203e-05,  6.3515e-04, -1.1225e-03,
+        -5.4693e-04, -4.0483e-04, -1.9951e-03,  1.9336e-04,  3.0975e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 48, time 217.41, cls_loss 0.0186 cls_loss_mapping 0.0244 cls_loss_causal 0.6991 re_mapping 0.0162 re_causal 0.0460 /// teacc 98.57 lr 0.00010000
+Epoch 50, weight, value: tensor([[-0.0030,  0.0747,  0.0466,  ..., -0.0816, -0.0569,  0.0259],
+        [ 0.0712, -0.0077, -0.0233,  ...,  0.0333,  0.0493, -0.0689],
+        [-0.0344, -0.0114, -0.0282,  ..., -0.0390, -0.0079, -0.0191],
+        ...,
+        [-0.0154,  0.0795, -0.0958,  ..., -0.0560,  0.0117, -0.0663],
+        [-0.0020, -0.0460,  0.0243,  ...,  0.0326, -0.0688, -0.0296],
+        [-0.0057, -0.0360,  0.0228,  ..., -0.0322, -0.0297,  0.0623]],
+       device='cuda:0'), grad: tensor([[ 6.4850e-05, -4.9993e-06,  2.7046e-05,  ...,  4.6968e-05,
+          1.5080e-05,  2.6837e-05],
+        [-1.4663e-04,  3.7700e-05,  2.5511e-05,  ..., -1.9968e-04,
+         -7.0930e-05,  2.0057e-05],
+        [ 8.3208e-05,  2.4283e-04,  3.3528e-05,  ...,  8.3685e-05,
+          8.4162e-05,  9.5367e-06],
+        ...,
+        [ 4.3005e-05, -1.1797e-03, -2.6989e-04,  ...,  4.5419e-05,
+         -1.8084e-04,  1.8567e-05],
+        [ 3.4881e-04,  3.3170e-05,  2.1935e-04,  ...,  1.3721e-04,
+          1.3769e-04,  1.9288e-04],
+        [ 8.1241e-05,  8.9407e-05,  8.7857e-05,  ...,  5.9247e-05,
+          3.6210e-05,  5.7369e-05]], device='cuda:0')
+Epoch 50, bias, value: tensor([ 0.0069,  0.0027,  0.0048,  0.0160,  0.0246,  0.0328, -0.0265,  0.0067,
+        -0.0313, -0.0182], device='cuda:0'), grad: tensor([ 1.1390e-04, -2.4930e-05,  7.5102e-04,  2.6703e-03,  9.5248e-05,
+        -1.2064e-03, -1.0401e-04, -3.2883e-03,  5.8270e-04,  4.1199e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 49----------------------------------------------------
+epoch 49, time 217.63, cls_loss 0.0230 cls_loss_mapping 0.0288 cls_loss_causal 0.7104 re_mapping 0.0164 re_causal 0.0465 /// teacc 98.75 lr 0.00010000
+Epoch 51, weight, value: tensor([[-0.0041,  0.0750,  0.0473,  ..., -0.0827, -0.0594,  0.0258],
+        [ 0.0714, -0.0069, -0.0243,  ...,  0.0332,  0.0504, -0.0691],
+        [-0.0341, -0.0124, -0.0285,  ..., -0.0384, -0.0081, -0.0198],
+        ...,
+        [-0.0148,  0.0802, -0.0960,  ..., -0.0560,  0.0123, -0.0668],
+        [-0.0022, -0.0464,  0.0246,  ...,  0.0331, -0.0699, -0.0298],
+        [-0.0056, -0.0364,  0.0234,  ..., -0.0327, -0.0303,  0.0634]],
+       device='cuda:0'), grad: tensor([[-7.7784e-05, -6.6459e-05, -1.2422e-04,  ...,  1.7035e-04,
+          5.6550e-06, -1.5748e-04],
+        [-3.3528e-06,  1.8239e-04,  3.8773e-05,  ...,  1.0747e-06,
+         -2.8312e-05,  2.8566e-05],
+        [ 4.6253e-05,  1.4794e-04,  1.4722e-04,  ...,  4.5180e-05,
+         -1.6270e-06,  1.8120e-05],
+        ...,
+        [ 3.2336e-05, -1.2178e-03, -5.4121e-04,  ...,  3.1471e-05,
+          9.9018e-06, -1.6618e-04],
+        [-1.0699e-05, -1.4797e-05, -1.4460e-04,  ...,  5.2899e-06,
+          1.9029e-05,  4.0472e-05],
+        [ 1.8612e-05,  1.0624e-03,  5.6887e-04,  ...,  1.1921e-04,
+          3.5614e-06,  2.5177e-04]], device='cuda:0')
+Epoch 51, bias, value: tensor([ 0.0068,  0.0024,  0.0044,  0.0157,  0.0242,  0.0327, -0.0264,  0.0077,
+        -0.0314, -0.0178], device='cuda:0'), grad: tensor([-4.6939e-05,  2.6488e-04,  7.3528e-04,  2.2638e-04, -4.7073e-03,
+         1.0324e-04,  4.0016e-03, -2.3308e-03, -5.5933e-04,  2.3117e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 50, time 217.45, cls_loss 0.0172 cls_loss_mapping 0.0253 cls_loss_causal 0.7170 re_mapping 0.0156 re_causal 0.0456 /// teacc 98.49 lr 0.00010000
+Epoch 52, weight, value: tensor([[-0.0042,  0.0755,  0.0474,  ..., -0.0832, -0.0600,  0.0260],
+        [ 0.0721, -0.0067, -0.0250,  ...,  0.0340,  0.0517, -0.0700],
+        [-0.0352, -0.0127, -0.0285,  ..., -0.0392, -0.0089, -0.0200],
+        ...,
+        [-0.0159,  0.0810, -0.0966,  ..., -0.0574,  0.0121, -0.0674],
+        [-0.0022, -0.0473,  0.0253,  ...,  0.0339, -0.0710, -0.0294],
+        [-0.0061, -0.0369,  0.0236,  ..., -0.0334, -0.0300,  0.0636]],
+       device='cuda:0'), grad: tensor([[ 2.2864e-04,  2.2564e-03, -1.4141e-05,  ...,  2.4602e-05,
+          4.4751e-04,  3.1686e-04],
+        [-6.8426e-05,  1.7989e-04,  3.4750e-05,  ..., -5.0068e-05,
+         -2.1815e-05,  5.0366e-05],
+        [ 7.3850e-05,  1.0931e-04,  2.0236e-05,  ...,  5.2780e-05,
+          5.8919e-05,  2.9698e-05],
+        ...,
+        [-3.7766e-04, -5.1804e-03,  1.1235e-05,  ..., -4.0054e-05,
+         -9.0361e-04, -6.6090e-04],
+        [ 3.7932e-04,  2.4605e-04,  7.0035e-05,  ...,  7.9811e-05,
+          3.6597e-04,  1.7750e-04],
+        [ 1.8597e-04,  1.9741e-03, -1.4091e-04,  ..., -8.7440e-05,
+          3.3545e-04,  1.4007e-04]], device='cuda:0')
+Epoch 52, bias, value: tensor([ 0.0069,  0.0026,  0.0042,  0.0158,  0.0242,  0.0322, -0.0260,  0.0075,
+        -0.0309, -0.0180], device='cuda:0'), grad: tensor([ 0.0033,  0.0002,  0.0003,  0.0002,  0.0004, -0.0019,  0.0013, -0.0073,
+         0.0010,  0.0026], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 51, time 216.88, cls_loss 0.0178 cls_loss_mapping 0.0227 cls_loss_causal 0.7162 re_mapping 0.0165 re_causal 0.0473 /// teacc 98.68 lr 0.00010000
+Epoch 53, weight, value: tensor([[-0.0043,  0.0759,  0.0476,  ..., -0.0838, -0.0603,  0.0261],
+        [ 0.0727, -0.0073, -0.0252,  ...,  0.0345,  0.0520, -0.0708],
+        [-0.0357, -0.0129, -0.0285,  ..., -0.0398, -0.0088, -0.0201],
+        ...,
+        [-0.0160,  0.0819, -0.0972,  ..., -0.0579,  0.0120, -0.0685],
+        [-0.0019, -0.0479,  0.0254,  ...,  0.0343, -0.0711, -0.0294],
+        [-0.0062, -0.0369,  0.0240,  ..., -0.0337, -0.0301,  0.0646]],
+       device='cuda:0'), grad: tensor([[ 1.1206e-04,  8.6486e-05,  2.0218e-04,  ...,  1.5068e-04,
+          6.2585e-06,  2.8038e-04],
+        [-6.2943e-05,  9.2909e-06,  3.9488e-05,  ..., -5.6595e-05,
+         -2.3648e-05,  3.2097e-05],
+        [ 1.2660e-04,  1.5274e-05,  2.4509e-04,  ...,  8.1286e-06,
+         -6.9499e-05,  1.5914e-04],
+        ...,
+        [ 4.9233e-05, -2.2447e-04,  6.1274e-05,  ...,  5.3883e-05,
+         -1.8239e-04,  5.3525e-05],
+        [-2.3532e-04,  7.8157e-06, -1.5867e-04,  ..., -3.2592e-04,
+          2.1413e-05, -1.2732e-04],
+        [ 7.5769e-04,  6.1214e-05,  6.0463e-03,  ...,  2.6631e-04,
+          5.8353e-05,  4.4098e-03]], device='cuda:0')
+Epoch 53, bias, value: tensor([ 0.0065,  0.0026,  0.0041,  0.0154,  0.0244,  0.0325, -0.0264,  0.0076,
+        -0.0310, -0.0175], device='cuda:0'), grad: tensor([ 7.2098e-04,  9.5367e-06,  3.9697e-05, -8.7509e-03,  1.9002e-04,
+         1.3380e-03, -6.5184e-04, -3.0541e-04, -3.7456e-04,  7.7820e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 52, time 217.10, cls_loss 0.0146 cls_loss_mapping 0.0207 cls_loss_causal 0.6966 re_mapping 0.0164 re_causal 0.0463 /// teacc 98.66 lr 0.00010000
+Epoch 54, weight, value: tensor([[-0.0048,  0.0761,  0.0478,  ..., -0.0846, -0.0605,  0.0261],
+        [ 0.0732, -0.0070, -0.0255,  ...,  0.0350,  0.0527, -0.0712],
+        [-0.0362, -0.0132, -0.0287,  ..., -0.0404, -0.0092, -0.0205],
+        ...,
+        [-0.0163,  0.0826, -0.0980,  ..., -0.0582,  0.0121, -0.0694],
+        [-0.0019, -0.0484,  0.0253,  ...,  0.0343, -0.0714, -0.0299],
+        [-0.0067, -0.0374,  0.0239,  ..., -0.0339, -0.0305,  0.0650]],
+       device='cuda:0'), grad: tensor([[-2.5153e-05, -4.3106e-04, -2.5734e-05,  ...,  2.9132e-06,
+          6.7614e-07, -5.6982e-04],
+        [ 2.1219e-05,  1.8871e-04,  5.0552e-06,  ...,  8.9347e-05,
+         -5.9903e-06,  3.0845e-05],
+        [ 2.6405e-05,  6.7949e-05,  1.0088e-05,  ...,  2.2948e-05,
+          2.4904e-06,  3.4273e-05],
+        ...,
+        [ 2.4691e-05, -5.0163e-04,  1.9282e-05,  ..., -2.1148e-04,
+          2.7120e-06,  5.6982e-05],
+        [ 9.9540e-05,  6.4313e-05,  1.6972e-05,  ...,  1.0896e-04,
+          2.6450e-06,  7.3791e-05],
+        [ 3.0324e-05,  6.9559e-05, -7.3910e-06,  ...,  7.8440e-05,
+          1.5078e-06,  2.5272e-05]], device='cuda:0')
+Epoch 54, bias, value: tensor([ 0.0064,  0.0029,  0.0038,  0.0159,  0.0240,  0.0326, -0.0261,  0.0075,
+        -0.0315, -0.0174], device='cuda:0'), grad: tensor([-9.4986e-04,  4.6253e-04,  1.4639e-04,  1.3599e-03, -3.4273e-05,
+        -1.1873e-03,  7.6580e-04, -1.0948e-03,  3.0923e-04,  2.2280e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 53, time 216.68, cls_loss 0.0171 cls_loss_mapping 0.0225 cls_loss_causal 0.6922 re_mapping 0.0162 re_causal 0.0455 /// teacc 98.58 lr 0.00010000
+Epoch 55, weight, value: tensor([[-0.0058,  0.0763,  0.0480,  ..., -0.0850, -0.0611,  0.0266],
+        [ 0.0737, -0.0078, -0.0259,  ...,  0.0353,  0.0537, -0.0721],
+        [-0.0370, -0.0131, -0.0289,  ..., -0.0411, -0.0098, -0.0209],
+        ...,
+        [-0.0164,  0.0837, -0.0989,  ..., -0.0577,  0.0122, -0.0700],
+        [-0.0016, -0.0489,  0.0258,  ...,  0.0348, -0.0710, -0.0297],
+        [-0.0068, -0.0381,  0.0240,  ..., -0.0349, -0.0309,  0.0650]],
+       device='cuda:0'), grad: tensor([[ 1.3700e-06, -1.9562e-04, -6.9857e-05,  ...,  1.9759e-05,
+          3.6597e-05, -7.3835e-06],
+        [-2.0707e-04,  2.7232e-06,  2.5295e-06,  ..., -3.2282e-04,
+         -4.4256e-05,  7.6368e-06],
+        [ 2.2665e-05,  3.5256e-05,  1.2226e-05,  ...,  2.5883e-05,
+          1.4953e-05,  1.5706e-05],
+        ...,
+        [ 4.9949e-05,  2.9489e-05,  1.7309e-04,  ...,  3.2139e-04,
+          8.3029e-05,  2.1482e-04],
+        [ 2.9653e-05,  3.3081e-05, -1.5087e-07,  ...,  4.4316e-05,
+          1.8731e-05,  2.0027e-05],
+        [ 2.3663e-05, -2.5183e-05, -1.8644e-04,  ...,  8.9943e-05,
+          6.6817e-05, -1.8764e-04]], device='cuda:0')
+Epoch 55, bias, value: tensor([ 0.0065,  0.0028,  0.0036,  0.0159,  0.0241,  0.0329, -0.0267,  0.0082,
+        -0.0310, -0.0182], device='cuda:0'), grad: tensor([ 8.6129e-05, -3.1328e-04,  1.3995e-04,  1.5926e-04, -1.9951e-03,
+         2.5249e-04,  1.5712e-04,  1.0376e-03,  1.4603e-04,  3.2949e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 54, time 217.25, cls_loss 0.0172 cls_loss_mapping 0.0246 cls_loss_causal 0.6925 re_mapping 0.0164 re_causal 0.0448 /// teacc 98.74 lr 0.00010000
+Epoch 56, weight, value: tensor([[-0.0057,  0.0773,  0.0481,  ..., -0.0854, -0.0617,  0.0266],
+        [ 0.0737, -0.0080, -0.0266,  ...,  0.0351,  0.0537, -0.0735],
+        [-0.0368, -0.0134, -0.0282,  ..., -0.0410, -0.0090, -0.0201],
+        ...,
+        [-0.0171,  0.0843, -0.1000,  ..., -0.0584,  0.0122, -0.0701],
+        [-0.0012, -0.0494,  0.0260,  ...,  0.0355, -0.0714, -0.0297],
+        [-0.0068, -0.0387,  0.0246,  ..., -0.0348, -0.0309,  0.0661]],
+       device='cuda:0'), grad: tensor([[ 9.7454e-06, -1.2624e-04, -1.7032e-05,  ...,  1.5736e-05,
+          2.8424e-06, -1.6451e-05],
+        [-4.3571e-05,  1.6421e-05,  8.8215e-06,  ..., -3.5256e-05,
+         -2.0832e-05,  8.6576e-06],
+        [ 1.2405e-05, -1.5467e-05,  3.4183e-05,  ...,  1.0386e-05,
+         -2.2411e-05,  4.4376e-05],
+        ...,
+        [ 2.1636e-05, -5.6219e-04, -1.0401e-04,  ..., -5.9783e-05,
+          2.2262e-05, -4.5866e-05],
+        [-6.4373e-05,  5.4032e-05, -4.8965e-05,  ..., -6.9201e-05,
+          4.4331e-06,  9.1940e-06],
+        [ 4.8399e-05,  4.9925e-04,  4.9770e-05,  ...,  9.8228e-05,
+          3.0901e-06, -1.5414e-04]], device='cuda:0')
+Epoch 56, bias, value: tensor([ 0.0070,  0.0023,  0.0048,  0.0155,  0.0231,  0.0333, -0.0264,  0.0077,
+        -0.0309, -0.0181], device='cuda:0'), grad: tensor([-1.6797e-04,  2.4661e-06, -3.0935e-05,  1.9833e-05,  1.1218e-04,
+         1.8322e-04, -1.4246e-04, -9.7847e-04,  4.2766e-05,  9.5892e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 55, time 217.64, cls_loss 0.0152 cls_loss_mapping 0.0221 cls_loss_causal 0.6769 re_mapping 0.0147 re_causal 0.0434 /// teacc 98.39 lr 0.00010000
+Epoch 57, weight, value: tensor([[-0.0061,  0.0778,  0.0483,  ..., -0.0865, -0.0623,  0.0266],
+        [ 0.0744, -0.0077, -0.0269,  ...,  0.0359,  0.0547, -0.0740],
+        [-0.0370, -0.0135, -0.0283,  ..., -0.0411, -0.0090, -0.0203],
+        ...,
+        [-0.0180,  0.0850, -0.1004,  ..., -0.0596,  0.0120, -0.0706],
+        [-0.0017, -0.0502,  0.0257,  ...,  0.0354, -0.0721, -0.0303],
+        [-0.0074, -0.0391,  0.0242,  ..., -0.0353, -0.0311,  0.0658]],
+       device='cuda:0'), grad: tensor([[-3.7700e-05, -5.6887e-04, -3.5238e-04,  ..., -1.5700e-04,
+          7.9628e-07, -5.5027e-04],
+        [-5.8651e-05,  6.4336e-06,  2.8871e-06,  ..., -3.9399e-05,
+         -3.4660e-05,  4.5933e-06],
+        [ 2.7224e-05,  4.3750e-05,  1.4402e-05,  ...,  2.7642e-05,
+          1.0014e-05,  3.1263e-05],
+        ...,
+        [ 1.2755e-05, -1.4015e-05,  1.3880e-05,  ...,  2.2650e-05,
+          5.7071e-06,  1.6466e-05],
+        [ 1.9923e-05,  2.1070e-05, -5.4762e-06,  ...,  1.4119e-05,
+          1.2733e-05,  4.1693e-05],
+        [-1.4650e-06,  2.9340e-05, -7.1824e-05,  ...,  1.9699e-05,
+          1.0617e-06, -5.6028e-05]], device='cuda:0')
+Epoch 57, bias, value: tensor([ 0.0069,  0.0026,  0.0054,  0.0164,  0.0233,  0.0330, -0.0264,  0.0075,
+        -0.0316, -0.0188], device='cuda:0'), grad: tensor([-1.1654e-03, -5.0247e-05,  1.2130e-04,  3.6454e-04,  6.3419e-05,
+        -2.0337e-04,  8.6641e-04,  3.7849e-05,  8.4996e-05, -1.1998e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 56, time 216.82, cls_loss 0.0140 cls_loss_mapping 0.0178 cls_loss_causal 0.7035 re_mapping 0.0155 re_causal 0.0441 /// teacc 98.67 lr 0.00010000
+Epoch 58, weight, value: tensor([[-0.0063,  0.0782,  0.0482,  ..., -0.0870, -0.0625,  0.0265],
+        [ 0.0747, -0.0080, -0.0270,  ...,  0.0361,  0.0550, -0.0744],
+        [-0.0371, -0.0136, -0.0285,  ..., -0.0413, -0.0092, -0.0204],
+        ...,
+        [-0.0182,  0.0856, -0.1010,  ..., -0.0602,  0.0129, -0.0713],
+        [-0.0018, -0.0506,  0.0254,  ...,  0.0353, -0.0725, -0.0307],
+        [-0.0073, -0.0397,  0.0251,  ..., -0.0356, -0.0310,  0.0673]],
+       device='cuda:0'), grad: tensor([[ 7.4245e-06, -7.7039e-06, -4.6119e-06,  ...,  1.8656e-05,
+          4.4703e-07, -1.4104e-05],
+        [ 1.2207e-04,  8.3968e-06,  1.5805e-06,  ...,  3.3545e-04,
+         -2.0280e-05,  7.0035e-07],
+        [ 1.5795e-05,  2.3327e-03,  1.8024e-04,  ...,  3.9756e-05,
+          4.1485e-04,  5.2676e-06],
+        ...,
+        [ 1.4886e-05, -2.4052e-03, -1.7929e-04,  ...,  8.6129e-05,
+         -4.1842e-04,  1.2545e-06],
+        [ 1.2887e-04,  2.2784e-05,  2.0951e-05,  ...,  2.2483e-04,
+          1.0483e-05,  2.3425e-05],
+        [ 1.3240e-05,  8.8453e-05,  3.8654e-05,  ...,  6.5660e-04,
+          1.5451e-06, -1.2599e-05]], device='cuda:0')
+Epoch 58, bias, value: tensor([ 0.0068,  0.0023,  0.0054,  0.0163,  0.0229,  0.0334, -0.0262,  0.0080,
+        -0.0321, -0.0186], device='cuda:0'), grad: tensor([ 4.0978e-05,  4.1986e-04,  1.2688e-02,  2.4700e-04, -3.2578e-03,
+         4.8327e-04, -1.5581e-04, -1.2627e-02,  4.1580e-04,  1.7433e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 57, time 217.10, cls_loss 0.0141 cls_loss_mapping 0.0213 cls_loss_causal 0.7167 re_mapping 0.0146 re_causal 0.0437 /// teacc 98.74 lr 0.00010000
+Epoch 59, weight, value: tensor([[-0.0062,  0.0788,  0.0485,  ..., -0.0881, -0.0632,  0.0266],
+        [ 0.0745, -0.0083, -0.0274,  ...,  0.0359,  0.0554, -0.0753],
+        [-0.0369, -0.0139, -0.0282,  ..., -0.0411, -0.0092, -0.0201],
+        ...,
+        [-0.0185,  0.0860, -0.1017,  ..., -0.0607,  0.0126, -0.0722],
+        [-0.0019, -0.0511,  0.0253,  ...,  0.0355, -0.0730, -0.0310],
+        [-0.0076, -0.0401,  0.0256,  ..., -0.0363, -0.0312,  0.0678]],
+       device='cuda:0'), grad: tensor([[-1.0264e-04, -7.8321e-05, -1.4067e-04,  ...,  9.2089e-06,
+          2.2516e-05, -8.8334e-05],
+        [-3.2991e-05,  2.6911e-05,  5.8040e-06,  ...,  4.9025e-05,
+          3.4022e-04,  5.6848e-06],
+        [ 3.0845e-05,  2.8706e-04,  3.5793e-05,  ..., -6.6638e-05,
+         -2.7418e-04,  3.1292e-05],
+        ...,
+        [ 1.2018e-05, -7.9012e-04,  5.2303e-06,  ..., -5.0694e-05,
+         -2.7752e-04, -4.3809e-05],
+        [ 2.9564e-05,  6.5088e-05,  3.9190e-05,  ...,  1.8075e-05,
+          9.6560e-06,  3.4600e-05],
+        [ 8.2031e-06,  8.7380e-05, -2.1964e-05,  ...,  1.9699e-05,
+          8.3074e-06, -1.8343e-05]], device='cuda:0')
+Epoch 59, bias, value: tensor([ 0.0071,  0.0019,  0.0055,  0.0161,  0.0241,  0.0343, -0.0266,  0.0077,
+        -0.0326, -0.0190], device='cuda:0'), grad: tensor([-0.0003,  0.0010, -0.0006,  0.0002,  0.0003,  0.0003,  0.0001, -0.0014,
+         0.0002,  0.0002], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 58, time 216.93, cls_loss 0.0141 cls_loss_mapping 0.0184 cls_loss_causal 0.6714 re_mapping 0.0145 re_causal 0.0426 /// teacc 98.66 lr 0.00010000
+Epoch 60, weight, value: tensor([[-0.0059,  0.0800,  0.0488,  ..., -0.0887, -0.0636,  0.0264],
+        [ 0.0749, -0.0084, -0.0276,  ...,  0.0366,  0.0560, -0.0762],
+        [-0.0377, -0.0142, -0.0287,  ..., -0.0420, -0.0095, -0.0203],
+        ...,
+        [-0.0190,  0.0856, -0.1028,  ..., -0.0615,  0.0127, -0.0728],
+        [-0.0015, -0.0508,  0.0254,  ...,  0.0360, -0.0734, -0.0311],
+        [-0.0079, -0.0397,  0.0267,  ..., -0.0365, -0.0312,  0.0688]],
+       device='cuda:0'), grad: tensor([[ 2.7549e-06, -4.5598e-05, -2.8729e-05,  ...,  2.9355e-06,
+          1.2685e-06, -3.1739e-05],
+        [-1.2183e-04,  7.7724e-05,  3.3434e-06,  ..., -1.0091e-04,
+         -8.9645e-05,  7.8604e-07],
+        [ 1.0264e-04,  1.5706e-05,  2.6245e-06,  ...,  1.3316e-04,
+          5.3167e-05,  8.5831e-06],
+        ...,
+        [-1.1331e-04, -2.0719e-04,  1.0490e-05,  ..., -2.5153e-04,
+          2.9560e-06,  5.5209e-06],
+        [ 6.9797e-05,  4.7773e-05,  5.2035e-05,  ...,  7.9691e-05,
+          1.6987e-05,  2.7657e-05],
+        [ 1.8865e-05,  3.5524e-05, -1.0617e-06,  ...,  2.4870e-05,
+          2.7437e-06, -1.1690e-05]], device='cuda:0')
+Epoch 60, bias, value: tensor([ 0.0079,  0.0020,  0.0051,  0.0161,  0.0241,  0.0340, -0.0268,  0.0065,
+        -0.0323, -0.0181], device='cuda:0'), grad: tensor([-9.3937e-05, -4.9174e-07,  1.3185e-04,  1.3161e-03,  1.7309e-04,
+        -1.3561e-03,  8.8573e-05, -6.1941e-04,  2.7013e-04,  8.9347e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 59, time 217.49, cls_loss 0.0158 cls_loss_mapping 0.0236 cls_loss_causal 0.7000 re_mapping 0.0148 re_causal 0.0413 /// teacc 98.57 lr 0.00010000
+Epoch 61, weight, value: tensor([[-0.0064,  0.0803,  0.0485,  ..., -0.0896, -0.0641,  0.0264],
+        [ 0.0757, -0.0085, -0.0272,  ...,  0.0376,  0.0563, -0.0758],
+        [-0.0378, -0.0144, -0.0286,  ..., -0.0424, -0.0100, -0.0205],
+        ...,
+        [-0.0191,  0.0865, -0.1037,  ..., -0.0619,  0.0148, -0.0736],
+        [-0.0017, -0.0513,  0.0254,  ...,  0.0361, -0.0738, -0.0313],
+        [-0.0087, -0.0402,  0.0273,  ..., -0.0378, -0.0318,  0.0695]],
+       device='cuda:0'), grad: tensor([[-3.6001e-05, -4.8876e-05, -2.0847e-05,  ...,  2.5630e-05,
+          1.0058e-05,  1.0848e-05],
+        [-1.5214e-05,  1.0318e-04,  1.1158e-04,  ...,  1.3828e-04,
+          9.2864e-05,  5.5492e-05],
+        [ 7.4580e-06,  3.4213e-05, -2.0909e-04,  ..., -2.2459e-04,
+         -2.7394e-04, -8.7738e-05],
+        ...,
+        [-2.1189e-05, -8.4686e-04,  6.3241e-05,  ...,  5.7906e-05,
+          9.3997e-05,  4.6194e-05],
+        [ 6.6906e-06,  2.2754e-05,  1.8895e-05,  ...,  4.0054e-05,
+          1.1064e-05,  2.0280e-05],
+        [ 2.4870e-05,  5.4979e-04, -5.8532e-05,  ...,  3.5954e-04,
+          1.7509e-07, -7.2896e-05]], device='cuda:0')
+Epoch 61, bias, value: tensor([ 0.0075,  0.0022,  0.0052,  0.0156,  0.0244,  0.0335, -0.0263,  0.0078,
+        -0.0329, -0.0184], device='cuda:0'), grad: tensor([ 1.6555e-05,  8.6069e-04, -1.5326e-03,  3.6836e-04, -4.9496e-04,
+         8.4281e-05,  3.4332e-05, -6.1321e-04,  1.3590e-04,  1.1377e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 60, time 217.04, cls_loss 0.0131 cls_loss_mapping 0.0191 cls_loss_causal 0.6444 re_mapping 0.0146 re_causal 0.0409 /// teacc 98.56 lr 0.00010000
+Epoch 62, weight, value: tensor([[-0.0057,  0.0814,  0.0496,  ..., -0.0903, -0.0650,  0.0265],
+        [ 0.0764, -0.0090, -0.0274,  ...,  0.0382,  0.0570, -0.0762],
+        [-0.0386, -0.0150, -0.0290,  ..., -0.0432, -0.0104, -0.0210],
+        ...,
+        [-0.0193,  0.0874, -0.1044,  ..., -0.0625,  0.0144, -0.0744],
+        [-0.0020, -0.0527,  0.0252,  ...,  0.0362, -0.0743, -0.0318],
+        [-0.0094, -0.0403,  0.0273,  ..., -0.0388, -0.0320,  0.0703]],
+       device='cuda:0'), grad: tensor([[ 7.6115e-05, -3.1024e-05,  1.0109e-04,  ...,  7.2300e-05,
+         -1.8366e-06,  1.8024e-04],
+        [ 4.7231e-04,  2.7388e-05,  8.5354e-05,  ...,  3.2473e-04,
+          3.9721e-04,  1.2493e-04],
+        [-3.5000e-04,  2.7984e-05,  7.5996e-05,  ..., -1.1760e-04,
+         -4.0269e-04,  1.2982e-04],
+        ...,
+        [ 3.3200e-05, -5.7928e-07,  6.1333e-05,  ...,  8.2314e-05,
+          3.0492e-06,  1.0407e-04],
+        [-2.3574e-05,  2.0832e-05,  3.5822e-05,  ..., -6.3181e-05,
+          1.6242e-06,  9.0718e-05],
+        [-8.9359e-04, -4.6730e-04, -1.7204e-03,  ..., -1.0118e-03,
+          7.9349e-07, -2.9564e-03]], device='cuda:0')
+Epoch 62, bias, value: tensor([ 0.0074,  0.0025,  0.0047,  0.0162,  0.0246,  0.0335, -0.0264,  0.0077,
+        -0.0333, -0.0184], device='cuda:0'), grad: tensor([ 3.3760e-04,  1.3380e-03, -6.9761e-04,  2.0027e-05,  3.7498e-03,
+         7.6830e-05,  1.3101e-04,  2.8086e-04,  5.6058e-05, -5.2910e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 61, time 217.28, cls_loss 0.0139 cls_loss_mapping 0.0198 cls_loss_causal 0.7196 re_mapping 0.0132 re_causal 0.0402 /// teacc 98.61 lr 0.00010000
+Epoch 63, weight, value: tensor([[-0.0061,  0.0817,  0.0495,  ..., -0.0919, -0.0660,  0.0264],
+        [ 0.0766, -0.0088, -0.0279,  ...,  0.0386,  0.0576, -0.0777],
+        [-0.0389, -0.0149, -0.0293,  ..., -0.0438, -0.0101, -0.0214],
+        ...,
+        [-0.0199,  0.0882, -0.1050,  ..., -0.0635,  0.0141, -0.0752],
+        [-0.0022, -0.0538,  0.0251,  ...,  0.0364, -0.0745, -0.0327],
+        [-0.0094, -0.0411,  0.0278,  ..., -0.0393, -0.0319,  0.0711]],
+       device='cuda:0'), grad: tensor([[-2.7943e-04, -4.9829e-04, -5.8556e-04,  ...,  9.2909e-06,
+          1.7975e-06, -3.7694e-04],
+        [-6.9666e-04,  1.5702e-06,  3.4496e-06,  ..., -3.9101e-04,
+         -5.6934e-04,  3.7476e-06],
+        [-3.1257e-04,  5.3465e-05,  5.9664e-05,  ...,  2.9802e-04,
+          5.3263e-04,  3.7163e-05],
+        ...,
+        [ 3.3885e-05,  8.4788e-06,  1.1921e-05,  ...,  2.7940e-05,
+          1.9848e-05,  1.1757e-05],
+        [ 1.0443e-03,  3.4958e-05,  6.8307e-05,  ...,  1.3506e-04,
+          1.8120e-05,  1.0216e-04],
+        [ 2.1100e-05,  5.4777e-05,  4.6879e-05,  ...,  4.5240e-05,
+          2.7418e-06,  2.7537e-05]], device='cuda:0')
+Epoch 63, bias, value: tensor([ 0.0069,  0.0023,  0.0047,  0.0165,  0.0247,  0.0333, -0.0252,  0.0077,
+        -0.0336, -0.0187], device='cuda:0'), grad: tensor([-1.0357e-03, -1.1702e-03, -5.3501e-04,  1.4496e-04, -6.0946e-05,
+        -9.3746e-04,  1.5068e-03,  8.7798e-05,  1.8692e-03,  1.3113e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 62, time 217.46, cls_loss 0.0137 cls_loss_mapping 0.0196 cls_loss_causal 0.6784 re_mapping 0.0147 re_causal 0.0403 /// teacc 98.62 lr 0.00010000
+Epoch 64, weight, value: tensor([[-0.0063,  0.0821,  0.0497,  ..., -0.0928, -0.0667,  0.0263],
+        [ 0.0774, -0.0088, -0.0282,  ...,  0.0393,  0.0582, -0.0785],
+        [-0.0388, -0.0155, -0.0294,  ..., -0.0437, -0.0097, -0.0213],
+        ...,
+        [-0.0203,  0.0890, -0.1059,  ..., -0.0642,  0.0144, -0.0757],
+        [-0.0020, -0.0538,  0.0249,  ...,  0.0368, -0.0756, -0.0326],
+        [-0.0102, -0.0414,  0.0283,  ..., -0.0398, -0.0327,  0.0717]],
+       device='cuda:0'), grad: tensor([[ 1.0885e-05, -1.4317e-04, -1.2624e-04,  ...,  1.1876e-05,
+          4.7311e-07, -1.3590e-04],
+        [-5.2154e-05, -5.8077e-06,  9.4175e-06,  ..., -3.3021e-05,
+         -2.3827e-05,  5.2825e-06],
+        [ 1.4387e-05,  1.9521e-05,  2.7299e-05,  ...,  6.9886e-06,
+          2.9150e-06,  1.8775e-05],
+        ...,
+        [ 3.1650e-05, -7.1898e-06,  4.3184e-05,  ...,  1.3903e-05,
+          8.9481e-06,  2.5570e-05],
+        [ 2.8163e-05,  5.3719e-06,  6.1333e-05,  ...,  1.8656e-05,
+          8.5235e-06,  6.2883e-05],
+        [-3.3188e-04,  1.2837e-05, -1.1730e-03,  ..., -4.1294e-04,
+          2.5332e-06, -1.0061e-03]], device='cuda:0')
+Epoch 64, bias, value: tensor([ 0.0069,  0.0026,  0.0053,  0.0162,  0.0246,  0.0337, -0.0256,  0.0078,
+        -0.0342, -0.0188], device='cuda:0'), grad: tensor([-3.3283e-04, -4.1038e-05,  5.9336e-05,  2.8634e-04,  1.2703e-03,
+         7.3481e-04,  6.8069e-05,  8.5473e-05,  1.0389e-04, -2.2354e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 63, time 217.58, cls_loss 0.0159 cls_loss_mapping 0.0185 cls_loss_causal 0.6907 re_mapping 0.0142 re_causal 0.0397 /// teacc 98.58 lr 0.00010000
+Epoch 65, weight, value: tensor([[-0.0067,  0.0835,  0.0504,  ..., -0.0939, -0.0670,  0.0266],
+        [ 0.0786, -0.0071, -0.0291,  ...,  0.0400,  0.0591, -0.0796],
+        [-0.0394, -0.0160, -0.0296,  ..., -0.0441, -0.0098, -0.0213],
+        ...,
+        [-0.0220,  0.0886, -0.1073,  ..., -0.0651,  0.0135, -0.0763],
+        [-0.0007, -0.0532,  0.0262,  ...,  0.0384, -0.0760, -0.0321],
+        [-0.0111, -0.0413,  0.0287,  ..., -0.0406, -0.0324,  0.0721]],
+       device='cuda:0'), grad: tensor([[ 6.2108e-05, -1.3180e-05,  8.1062e-05,  ...,  6.0737e-05,
+          4.2729e-06,  9.2089e-05],
+        [ 1.8373e-05,  1.9372e-04,  5.7638e-05,  ..., -3.5077e-05,
+          3.9905e-05,  3.6895e-05],
+        [ 3.0947e-04, -4.1628e-04,  4.4227e-04,  ...,  1.9014e-04,
+          1.9521e-05,  3.7313e-04],
+        ...,
+        [-5.9754e-06,  1.9526e-04,  1.0705e-04,  ...,  4.7445e-05,
+         -8.5711e-05,  7.5042e-05],
+        [ 7.3433e-04,  1.4782e-04,  8.2493e-04,  ...,  4.6515e-04,
+          2.5123e-05,  7.3671e-04],
+        [-1.2434e-04,  2.4348e-05, -4.8780e-04,  ..., -8.9526e-05,
+          3.8832e-05, -4.0293e-04]], device='cuda:0')
+Epoch 65, bias, value: tensor([ 0.0076,  0.0037,  0.0051,  0.0154,  0.0246,  0.0334, -0.0268,  0.0068,
+        -0.0326, -0.0187], device='cuda:0'), grad: tensor([ 0.0002,  0.0004, -0.0003,  0.0087,  0.0012, -0.0111, -0.0009,  0.0009,
+         0.0018, -0.0009], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 64, time 217.59, cls_loss 0.0151 cls_loss_mapping 0.0191 cls_loss_causal 0.6702 re_mapping 0.0140 re_causal 0.0397 /// teacc 98.72 lr 0.00010000
+Epoch 66, weight, value: tensor([[-0.0059,  0.0844,  0.0504,  ..., -0.0948, -0.0673,  0.0266],
+        [ 0.0783, -0.0088, -0.0293,  ...,  0.0399,  0.0596, -0.0797],
+        [-0.0400, -0.0165, -0.0296,  ..., -0.0446, -0.0098, -0.0215],
+        ...,
+        [-0.0209,  0.0892, -0.1088,  ..., -0.0652,  0.0136, -0.0766],
+        [-0.0009, -0.0538,  0.0265,  ...,  0.0382, -0.0768, -0.0320],
+        [-0.0124, -0.0419,  0.0289,  ..., -0.0413, -0.0329,  0.0723]],
+       device='cuda:0'), grad: tensor([[ 8.7738e-05, -6.5029e-05,  2.3276e-05,  ...,  8.7082e-05,
+          1.0896e-06,  1.6510e-05],
+        [-2.5511e-04, -1.3387e-04, -3.3021e-05,  ..., -1.3030e-04,
+         -1.2052e-04,  1.1414e-05],
+        [ 7.6473e-05,  1.3256e-04,  3.6538e-05,  ...,  6.0320e-05,
+          2.7046e-05,  9.2313e-06],
+        ...,
+        [ 1.2195e-04, -6.8378e-04,  3.7700e-06,  ...,  1.1122e-04,
+          5.1707e-05,  9.2909e-06],
+        [ 8.0109e-03,  4.5300e-05,  4.1618e-03,  ...,  6.7596e-03,
+          1.1295e-05,  4.8904e-03],
+        [ 1.2696e-04,  1.0109e-04,  2.4376e-03,  ...,  2.9640e-03,
+          2.0027e-05,  9.9659e-04]], device='cuda:0')
+Epoch 66, bias, value: tensor([ 0.0079,  0.0029,  0.0043,  0.0164,  0.0248,  0.0332, -0.0260,  0.0073,
+        -0.0331, -0.0189], device='cuda:0'), grad: tensor([ 5.0336e-05, -6.1035e-04,  3.8457e-04,  9.7656e-04, -5.9509e-03,
+         8.2111e-04, -1.2543e-02, -9.3555e-04,  1.1742e-02,  6.0616e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 65----------------------------------------------------
+epoch 65, time 218.36, cls_loss 0.0114 cls_loss_mapping 0.0160 cls_loss_causal 0.6463 re_mapping 0.0145 re_causal 0.0400 /// teacc 98.81 lr 0.00010000
+Epoch 67, weight, value: tensor([[-0.0064,  0.0848,  0.0500,  ..., -0.0959, -0.0678,  0.0265],
+        [ 0.0787, -0.0092, -0.0298,  ...,  0.0400,  0.0600, -0.0805],
+        [-0.0405, -0.0169, -0.0296,  ..., -0.0453, -0.0100, -0.0215],
+        ...,
+        [-0.0207,  0.0903, -0.1092,  ..., -0.0658,  0.0138, -0.0772],
+        [-0.0010, -0.0542,  0.0264,  ...,  0.0384, -0.0772, -0.0324],
+        [-0.0123, -0.0421,  0.0296,  ..., -0.0421, -0.0330,  0.0728]],
+       device='cuda:0'), grad: tensor([[-4.0829e-05, -3.4600e-05, -9.2387e-05,  ..., -8.8885e-06,
+          8.4005e-07, -1.4961e-04],
+        [-4.6700e-05, -2.5667e-06, -7.4804e-06,  ..., -4.0352e-05,
+         -2.0251e-05,  3.1628e-06],
+        [-5.2806e-07,  2.0117e-06,  2.0284e-06,  ..., -5.1744e-06,
+          1.4510e-06,  8.6650e-06],
+        ...,
+        [ 3.6895e-05,  1.3039e-07,  9.8869e-06,  ...,  2.7433e-05,
+          6.1281e-06,  9.8497e-06],
+        [ 1.5616e-04,  1.7822e-05,  1.1545e-04,  ...,  1.2434e-04,
+          8.0615e-06,  1.3888e-04],
+        [ 3.5882e-05,  7.1041e-06,  2.3231e-05,  ...,  2.7299e-05,
+          2.4233e-06,  4.9502e-05]], device='cuda:0')
+Epoch 67, bias, value: tensor([ 0.0076,  0.0023,  0.0042,  0.0159,  0.0258,  0.0335, -0.0260,  0.0077,
+        -0.0334, -0.0188], device='cuda:0'), grad: tensor([ 8.9705e-05, -4.6015e-05, -5.7369e-05,  1.8806e-03, -1.0958e-03,
+        -2.1915e-03,  1.5533e-04,  7.4983e-05,  3.8362e-04,  8.0585e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 66, time 217.29, cls_loss 0.0129 cls_loss_mapping 0.0183 cls_loss_causal 0.6694 re_mapping 0.0137 re_causal 0.0393 /// teacc 98.53 lr 0.00010000
+Epoch 68, weight, value: tensor([[-0.0067,  0.0847,  0.0504,  ..., -0.0963, -0.0683,  0.0259],
+        [ 0.0792, -0.0088, -0.0299,  ...,  0.0404,  0.0611, -0.0807],
+        [-0.0406, -0.0175, -0.0297,  ..., -0.0455, -0.0099, -0.0220],
+        ...,
+        [-0.0216,  0.0904, -0.1104,  ..., -0.0662,  0.0130, -0.0775],
+        [-0.0004, -0.0543,  0.0266,  ...,  0.0389, -0.0774, -0.0323],
+        [-0.0130, -0.0413,  0.0303,  ..., -0.0427, -0.0342,  0.0739]],
+       device='cuda:0'), grad: tensor([[-1.1879e-04, -4.3607e-04, -4.4179e-04,  ..., -1.1015e-04,
+          4.8727e-06, -5.3358e-04],
+        [-1.5218e-06,  2.1234e-06,  1.0572e-05,  ..., -4.4703e-06,
+         -6.7018e-06,  8.8513e-06],
+        [-5.8174e-05,  1.3530e-04, -3.5191e-04,  ..., -1.5998e-04,
+         -4.3392e-05, -2.0611e-04],
+        ...,
+        [ 2.7394e-04,  7.0691e-05,  1.4305e-04,  ...,  4.0710e-05,
+          4.3735e-06,  2.2125e-04],
+        [ 3.5810e-04, -1.0556e-04,  6.7711e-05,  ...,  3.6907e-04,
+          4.3821e-04, -9.7632e-05],
+        [ 1.4353e-04,  2.9850e-04,  6.4039e-04,  ...,  1.3578e-04,
+          1.2949e-05,  7.1764e-04]], device='cuda:0')
+Epoch 68, bias, value: tensor([ 0.0068,  0.0028,  0.0046,  0.0153,  0.0250,  0.0336, -0.0260,  0.0073,
+        -0.0333, -0.0178], device='cuda:0'), grad: tensor([-8.6784e-04,  3.1382e-05, -8.8644e-04,  2.1648e-04,  5.0403e-06,
+        -9.8801e-04,  2.2995e-04,  8.0776e-04,  8.7082e-05,  1.3628e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 67, time 217.70, cls_loss 0.0099 cls_loss_mapping 0.0130 cls_loss_causal 0.6772 re_mapping 0.0132 re_causal 0.0392 /// teacc 98.64 lr 0.00010000
+Epoch 69, weight, value: tensor([[-0.0061,  0.0856,  0.0505,  ..., -0.0967, -0.0683,  0.0261],
+        [ 0.0789, -0.0103, -0.0302,  ...,  0.0403,  0.0613, -0.0813],
+        [-0.0409, -0.0172, -0.0301,  ..., -0.0458, -0.0100, -0.0222],
+        ...,
+        [-0.0211,  0.0915, -0.1106,  ..., -0.0665,  0.0129, -0.0779],
+        [-0.0005, -0.0546,  0.0263,  ...,  0.0390, -0.0782, -0.0326],
+        [-0.0136, -0.0420,  0.0303,  ..., -0.0437, -0.0353,  0.0742]],
+       device='cuda:0'), grad: tensor([[ 7.1079e-06, -5.7220e-06, -5.5790e-05,  ...,  4.2468e-06,
+          5.6205e-07, -7.3850e-05],
+        [ 4.1574e-06,  2.0172e-06,  7.4804e-06,  ...,  1.6354e-06,
+         -9.4529e-08,  3.7067e-06],
+        [ 1.2867e-05,  5.4948e-07,  2.1771e-05,  ...,  1.7434e-06,
+         -1.0645e-06,  9.2089e-06],
+        ...,
+        [ 3.5688e-06, -7.2718e-05,  8.7246e-06,  ...,  1.7844e-06,
+          3.2922e-07, -8.6352e-06],
+        [ 3.6627e-05,  3.1404e-06,  6.6459e-05,  ...,  3.8743e-06,
+          1.8049e-06,  1.9982e-05],
+        [ 1.4193e-05,  6.3896e-05,  5.2840e-05,  ...,  7.6741e-06,
+          8.7684e-07,  6.5565e-05]], device='cuda:0')
+Epoch 69, bias, value: tensor([ 0.0071,  0.0018,  0.0049,  0.0155,  0.0256,  0.0345, -0.0262,  0.0077,
+        -0.0337, -0.0186], device='cuda:0'), grad: tensor([-6.5327e-05,  1.7598e-05,  3.3289e-05, -2.3615e-04,  7.6964e-06,
+         6.0469e-05, -4.7758e-06, -1.5426e-04,  1.1778e-04,  2.2399e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 68, time 217.55, cls_loss 0.0102 cls_loss_mapping 0.0148 cls_loss_causal 0.6548 re_mapping 0.0137 re_causal 0.0374 /// teacc 98.75 lr 0.00010000
+Epoch 70, weight, value: tensor([[-0.0061,  0.0859,  0.0508,  ..., -0.0975, -0.0685,  0.0264],
+        [ 0.0794, -0.0104, -0.0310,  ...,  0.0408,  0.0621, -0.0818],
+        [-0.0414, -0.0170, -0.0297,  ..., -0.0465, -0.0103, -0.0224],
+        ...,
+        [-0.0217,  0.0919, -0.1116,  ..., -0.0673,  0.0133, -0.0785],
+        [-0.0004, -0.0549,  0.0266,  ...,  0.0396, -0.0791, -0.0326],
+        [-0.0141, -0.0424,  0.0312,  ..., -0.0442, -0.0355,  0.0747]],
+       device='cuda:0'), grad: tensor([[ 1.4611e-05, -3.7206e-07,  1.1660e-06,  ...,  1.4313e-05,
+          1.3430e-06,  1.7239e-06],
+        [ 5.8460e-04,  6.6757e-06,  2.5947e-06,  ...,  4.4775e-04,
+         -1.4141e-05,  5.1886e-05],
+        [ 3.6955e-05,  8.0466e-06,  3.2187e-06,  ...,  3.3587e-05,
+          1.3188e-05,  1.5497e-06],
+        ...,
+        [ 6.6683e-06, -9.3162e-05,  1.5765e-05,  ...,  1.6510e-05,
+          5.7667e-06,  2.1487e-05],
+        [-9.0361e-04,  3.8929e-06, -1.6287e-05,  ..., -6.6948e-04,
+         -2.9117e-05, -5.1916e-05],
+        [ 3.4273e-05,  2.2680e-05, -1.1677e-04,  ..., -2.5090e-06,
+          2.6971e-06, -1.1867e-04]], device='cuda:0')
+Epoch 70, bias, value: tensor([ 0.0071,  0.0019,  0.0054,  0.0151,  0.0247,  0.0346, -0.0260,  0.0076,
+        -0.0337, -0.0182], device='cuda:0'), grad: tensor([ 1.5244e-05,  5.9795e-04, -9.0078e-06,  2.0039e-04,  1.3351e-04,
+        -1.3447e-04,  2.6369e-04, -9.4414e-05, -8.7166e-04, -1.0192e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 69, time 217.81, cls_loss 0.0091 cls_loss_mapping 0.0133 cls_loss_causal 0.6313 re_mapping 0.0134 re_causal 0.0387 /// teacc 98.74 lr 0.00010000
+Epoch 71, weight, value: tensor([[-0.0069,  0.0862,  0.0505,  ..., -0.0986, -0.0698,  0.0260],
+        [ 0.0802, -0.0104, -0.0310,  ...,  0.0418,  0.0631, -0.0820],
+        [-0.0417, -0.0172, -0.0298,  ..., -0.0470, -0.0102, -0.0225],
+        ...,
+        [-0.0228,  0.0929, -0.1125,  ..., -0.0682,  0.0130, -0.0789],
+        [-0.0002, -0.0549,  0.0265,  ...,  0.0396, -0.0802, -0.0328],
+        [-0.0141, -0.0429,  0.0318,  ..., -0.0443, -0.0359,  0.0756]],
+       device='cuda:0'), grad: tensor([[ 1.2174e-05, -1.6883e-05,  3.7476e-06,  ...,  2.1532e-05,
+          2.6263e-07,  8.5831e-06],
+        [ 1.7667e-04,  2.3925e-04,  6.5845e-07,  ...,  1.0449e-04,
+          6.3837e-05,  6.2957e-07],
+        [ 1.5073e-05,  8.5086e-06,  5.4054e-06,  ...,  1.7419e-05,
+          1.1502e-06,  2.0955e-06],
+        ...,
+        [-3.0017e-04, -3.9744e-04,  9.9279e-07,  ..., -1.7309e-04,
+         -1.1367e-04,  8.9640e-07],
+        [ 5.6118e-05,  8.1599e-05, -2.5555e-06,  ...,  3.1948e-05,
+          2.5213e-05,  1.6093e-05],
+        [ 2.8118e-05,  4.0352e-05, -3.1460e-06,  ...,  3.4064e-05,
+          9.3207e-06,  2.2352e-07]], device='cuda:0')
+Epoch 71, bias, value: tensor([ 0.0060,  0.0025,  0.0055,  0.0147,  0.0244,  0.0354, -0.0262,  0.0075,
+        -0.0338, -0.0179], device='cuda:0'), grad: tensor([ 1.5227e-07,  5.0735e-04,  3.9279e-05,  3.6538e-05, -2.3767e-05,
+         1.3840e-04, -1.3018e-04, -8.3303e-04,  1.6761e-04,  9.7513e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 70, time 217.40, cls_loss 0.0126 cls_loss_mapping 0.0166 cls_loss_causal 0.6516 re_mapping 0.0130 re_causal 0.0374 /// teacc 98.71 lr 0.00010000
+Epoch 72, weight, value: tensor([[-0.0067,  0.0869,  0.0529,  ..., -0.0992, -0.0705,  0.0273],
+        [ 0.0809, -0.0106, -0.0307,  ...,  0.0424,  0.0632, -0.0820],
+        [-0.0422, -0.0176, -0.0301,  ..., -0.0474, -0.0099, -0.0228],
+        ...,
+        [-0.0225,  0.0936, -0.1124,  ..., -0.0690,  0.0130, -0.0793],
+        [-0.0008, -0.0556,  0.0262,  ...,  0.0393, -0.0819, -0.0334],
+        [-0.0148, -0.0439,  0.0310,  ..., -0.0449, -0.0365,  0.0752]],
+       device='cuda:0'), grad: tensor([[ 9.8497e-06, -3.2037e-06, -6.2250e-06,  ...,  1.1481e-05,
+          2.3060e-06, -5.7779e-06],
+        [-6.1572e-05, -4.6343e-06,  4.9993e-06,  ..., -5.3078e-05,
+         -3.4392e-05,  5.6177e-06],
+        [ 1.5140e-05,  2.1495e-06,  4.1164e-06,  ...,  1.6630e-05,
+          6.0350e-06,  1.0896e-06],
+        ...,
+        [ 6.4313e-05,  3.0845e-06,  7.2241e-05,  ...,  1.0329e-04,
+          2.1175e-05,  5.4091e-05],
+        [-6.4135e-05,  5.6773e-06, -8.5356e-07,  ..., -6.0588e-05,
+          9.4250e-06,  1.5572e-05],
+        [ 1.2189e-05, -8.6427e-06, -9.5069e-05,  ..., -2.7508e-05,
+         -1.5453e-05, -8.5175e-05]], device='cuda:0')
+Epoch 72, bias, value: tensor([ 0.0071,  0.0024,  0.0056,  0.0147,  0.0245,  0.0361, -0.0265,  0.0079,
+        -0.0348, -0.0188], device='cuda:0'), grad: tensor([ 7.4040e-08, -6.1214e-05,  3.0249e-05,  1.6212e-05,  4.0233e-05,
+         3.2842e-05, -2.7925e-05,  3.0589e-04, -7.6711e-05, -2.5964e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 71----------------------------------------------------
+epoch 71, time 217.41, cls_loss 0.0109 cls_loss_mapping 0.0170 cls_loss_causal 0.6640 re_mapping 0.0126 re_causal 0.0361 /// teacc 98.87 lr 0.00010000
+Epoch 73, weight, value: tensor([[-0.0070,  0.0869,  0.0538,  ..., -0.0998, -0.0714,  0.0272],
+        [ 0.0812, -0.0113, -0.0318,  ...,  0.0426,  0.0634, -0.0830],
+        [-0.0425, -0.0180, -0.0307,  ..., -0.0477, -0.0095, -0.0232],
+        ...,
+        [-0.0229,  0.0946, -0.1128,  ..., -0.0704,  0.0135, -0.0801],
+        [-0.0006, -0.0555,  0.0264,  ...,  0.0398, -0.0828, -0.0334],
+        [-0.0151, -0.0442,  0.0311,  ..., -0.0451, -0.0373,  0.0765]],
+       device='cuda:0'), grad: tensor([[-1.0394e-05, -3.7611e-05, -2.0280e-05,  ..., -2.5451e-05,
+          7.8510e-07, -4.9055e-05],
+        [-1.4329e-04,  3.8818e-06, -6.0126e-06,  ..., -1.4424e-04,
+         -5.3257e-05, -5.5045e-05],
+        [ 5.5842e-06,  1.2495e-05,  3.7551e-06,  ...,  4.8056e-06,
+          8.3214e-07,  2.5835e-06],
+        ...,
+        [ 1.9431e-05, -8.4400e-05,  2.6636e-06,  ...,  2.3872e-05,
+          6.2808e-06,  8.7023e-06],
+        [ 6.5386e-05,  8.8662e-06,  5.5321e-06,  ...,  6.2704e-05,
+          2.3872e-05,  3.3528e-05],
+        [ 3.3885e-05,  2.2873e-05,  6.9961e-06,  ...,  4.6581e-05,
+          9.6411e-06,  1.9372e-05]], device='cuda:0')
+Epoch 73, bias, value: tensor([ 0.0065,  0.0018,  0.0056,  0.0146,  0.0240,  0.0366, -0.0268,  0.0081,
+        -0.0344, -0.0182], device='cuda:0'), grad: tensor([-1.2529e-04, -1.6105e-04, -5.3570e-06,  4.1306e-05,  1.2541e-04,
+         7.3135e-05,  2.2769e-05, -2.3019e-04,  1.3590e-04,  1.2326e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 72, time 216.82, cls_loss 0.0108 cls_loss_mapping 0.0152 cls_loss_causal 0.6341 re_mapping 0.0127 re_causal 0.0352 /// teacc 98.71 lr 0.00010000
+Epoch 74, weight, value: tensor([[-0.0074,  0.0874,  0.0539,  ..., -0.1007, -0.0720,  0.0272],
+        [ 0.0823, -0.0116, -0.0312,  ...,  0.0439,  0.0648, -0.0829],
+        [-0.0431, -0.0183, -0.0310,  ..., -0.0482, -0.0100, -0.0233],
+        ...,
+        [-0.0233,  0.0948, -0.1136,  ..., -0.0713,  0.0145, -0.0805],
+        [-0.0009, -0.0559,  0.0262,  ...,  0.0398, -0.0836, -0.0336],
+        [-0.0154, -0.0439,  0.0316,  ..., -0.0460, -0.0369,  0.0768]],
+       device='cuda:0'), grad: tensor([[ 9.8228e-05, -4.9639e-07,  1.1140e-04,  ...,  6.6638e-05,
+          1.7500e-06,  4.6313e-05],
+        [ 3.4552e-06,  4.7609e-06,  1.4238e-05,  ...,  8.5607e-06,
+          3.4183e-05,  1.1042e-05],
+        [ 4.8131e-05,  6.1393e-06,  3.2008e-05,  ..., -4.3735e-06,
+         -5.2482e-05,  3.5733e-05],
+        ...,
+        [ 8.7619e-06, -9.7513e-05,  1.2994e-05,  ...,  1.0863e-05,
+          7.2531e-06,  1.2279e-05],
+        [-3.9291e-04,  2.0303e-06, -3.9721e-04,  ..., -1.5020e-04,
+          1.8835e-05, -2.1887e-04],
+        [ 1.7822e-04,  4.2766e-05,  7.4446e-05,  ..., -8.3372e-06,
+         -1.1139e-05,  9.0450e-06]], device='cuda:0')
+Epoch 74, bias, value: tensor([ 0.0065,  0.0027,  0.0054,  0.0147,  0.0241,  0.0363, -0.0269,  0.0080,
+        -0.0350, -0.0182], device='cuda:0'), grad: tensor([ 5.6952e-05,  2.4819e-04, -1.5855e-04,  1.7858e-04,  2.2602e-04,
+        -1.7196e-05,  3.1292e-05, -1.2177e-04, -4.9973e-04,  5.4419e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 73, time 216.84, cls_loss 0.0106 cls_loss_mapping 0.0136 cls_loss_causal 0.6510 re_mapping 0.0127 re_causal 0.0354 /// teacc 98.71 lr 0.00010000
+Epoch 75, weight, value: tensor([[-0.0081,  0.0876,  0.0538,  ..., -0.1032, -0.0736,  0.0268],
+        [ 0.0829, -0.0119, -0.0313,  ...,  0.0445,  0.0652, -0.0837],
+        [-0.0441, -0.0187, -0.0313,  ..., -0.0495, -0.0102, -0.0234],
+        ...,
+        [-0.0236,  0.0958, -0.1143,  ..., -0.0723,  0.0149, -0.0811],
+        [-0.0006, -0.0563,  0.0268,  ...,  0.0409, -0.0844, -0.0335],
+        [-0.0160, -0.0445,  0.0321,  ..., -0.0464, -0.0354,  0.0778]],
+       device='cuda:0'), grad: tensor([[ 2.3139e-04,  9.2030e-05,  1.0246e-04,  ...,  2.6774e-04,
+          3.4180e-07,  2.2006e-04],
+        [-1.0937e-05,  1.4137e-06,  1.5378e-05,  ..., -2.8774e-05,
+         -2.2203e-05,  9.5442e-06],
+        [ 1.4804e-05,  8.8988e-07,  2.1607e-05,  ...,  1.0617e-05,
+          4.1462e-06,  1.2010e-05],
+        ...,
+        [ 4.6849e-05, -9.2685e-06,  6.4194e-05,  ...,  3.7998e-05,
+          8.6278e-06,  5.5254e-05],
+        [ 3.7527e-04,  1.5366e-04,  1.7643e-04,  ...,  4.2915e-04,
+          1.8552e-06,  3.5620e-04],
+        [ 6.9141e-05,  1.7673e-05,  1.2338e-04,  ...,  5.2959e-05,
+          1.6727e-06,  1.1003e-04]], device='cuda:0')
+Epoch 75, bias, value: tensor([ 0.0060,  0.0026,  0.0047,  0.0154,  0.0244,  0.0351, -0.0266,  0.0084,
+        -0.0345, -0.0181], device='cuda:0'), grad: tensor([ 5.8842e-04,  1.5143e-06,  6.8724e-05, -2.9335e-03,  7.7009e-05,
+        -4.3335e-03,  4.8714e-03,  2.4652e-04,  9.7942e-04,  4.3201e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 74, time 217.00, cls_loss 0.0095 cls_loss_mapping 0.0162 cls_loss_causal 0.6392 re_mapping 0.0128 re_causal 0.0361 /// teacc 98.85 lr 0.00010000
+Epoch 76, weight, value: tensor([[-0.0084,  0.0879,  0.0538,  ..., -0.1038, -0.0738,  0.0265],
+        [ 0.0834, -0.0118, -0.0318,  ...,  0.0456,  0.0662, -0.0840],
+        [-0.0445, -0.0190, -0.0313,  ..., -0.0499, -0.0106, -0.0232],
+        ...,
+        [-0.0241,  0.0964, -0.1151,  ..., -0.0740,  0.0146, -0.0817],
+        [-0.0004, -0.0567,  0.0272,  ...,  0.0410, -0.0847, -0.0336],
+        [-0.0166, -0.0449,  0.0323,  ..., -0.0478, -0.0358,  0.0785]],
+       device='cuda:0'), grad: tensor([[ 1.3940e-05, -2.0057e-05,  4.6119e-06,  ...,  1.8671e-05,
+          3.4366e-06, -5.1633e-06],
+        [-2.8685e-06,  3.0901e-06,  5.4203e-06,  ...,  7.7933e-06,
+         -1.1008e-06,  7.3053e-06],
+        [ 8.2105e-06,  3.9563e-06, -8.0019e-06,  ..., -5.2601e-05,
+          1.2830e-05, -1.0818e-05],
+        ...,
+        [ 2.1100e-05, -2.0355e-05,  4.2498e-05,  ...,  3.1829e-05,
+          1.0930e-05,  4.6939e-05],
+        [ 3.0726e-05,  3.0138e-06,  4.5061e-05,  ...,  4.4256e-05,
+          7.9796e-06,  4.3958e-05],
+        [ 2.4819e-04,  1.9744e-05,  2.7561e-04,  ...,  2.1684e-04,
+          1.4400e-04,  2.8157e-04]], device='cuda:0')
+Epoch 76, bias, value: tensor([ 0.0054,  0.0032,  0.0047,  0.0163,  0.0251,  0.0344, -0.0268,  0.0082,
+        -0.0343, -0.0187], device='cuda:0'), grad: tensor([ 2.9460e-05,  5.8413e-05, -2.1577e-04,  4.3392e-04, -5.6458e-04,
+        -1.0576e-03, -4.9084e-05,  1.3280e-04,  1.9884e-04,  1.0309e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 75, time 217.29, cls_loss 0.0096 cls_loss_mapping 0.0140 cls_loss_causal 0.6486 re_mapping 0.0126 re_causal 0.0357 /// teacc 98.76 lr 0.00010000
+Epoch 77, weight, value: tensor([[-0.0085,  0.0886,  0.0543,  ..., -0.1046, -0.0745,  0.0267],
+        [ 0.0835, -0.0120, -0.0321,  ...,  0.0459,  0.0660, -0.0846],
+        [-0.0447, -0.0196, -0.0316,  ..., -0.0501, -0.0103, -0.0234],
+        ...,
+        [-0.0245,  0.0977, -0.1156,  ..., -0.0746,  0.0149, -0.0817],
+        [ 0.0003, -0.0572,  0.0276,  ...,  0.0416, -0.0849, -0.0337],
+        [-0.0173, -0.0460,  0.0322,  ..., -0.0492, -0.0357,  0.0785]],
+       device='cuda:0'), grad: tensor([[ 1.4165e-06, -2.6301e-05, -2.2992e-05,  ...,  2.3115e-06,
+          2.3656e-07, -4.3571e-05],
+        [-1.0222e-05, -8.0606e-07,  2.8722e-06,  ..., -1.6570e-05,
+         -8.2701e-06,  1.1288e-06],
+        [ 2.6617e-06,  4.9695e-06,  9.7379e-06,  ..., -2.0564e-05,
+         -5.7742e-06,  3.6545e-06],
+        ...,
+        [ 9.0823e-06, -1.4079e-04,  1.2197e-05,  ...,  1.7300e-05,
+          4.8019e-06,  1.1131e-05],
+        [-2.6917e-04,  5.0142e-06, -5.6297e-05,  ..., -3.5739e-04,
+          6.1356e-06, -9.9003e-05],
+        [ 5.2601e-06,  2.6122e-05,  9.3877e-06,  ...,  1.0945e-05,
+         -4.8131e-06,  2.5909e-06]], device='cuda:0')
+Epoch 77, bias, value: tensor([ 0.0058,  0.0027,  0.0044,  0.0160,  0.0260,  0.0346, -0.0267,  0.0089,
+        -0.0340, -0.0197], device='cuda:0'), grad: tensor([-4.1217e-05, -5.1633e-06, -1.2226e-05,  6.2764e-05,  1.9014e-05,
+         6.3848e-04,  1.8641e-05, -1.8847e-04, -5.4932e-04,  5.7161e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 76, time 216.57, cls_loss 0.0104 cls_loss_mapping 0.0168 cls_loss_causal 0.6174 re_mapping 0.0129 re_causal 0.0360 /// teacc 98.65 lr 0.00010000
+Epoch 78, weight, value: tensor([[-0.0091,  0.0889,  0.0544,  ..., -0.1057, -0.0762,  0.0265],
+        [ 0.0843, -0.0121, -0.0326,  ...,  0.0463,  0.0677, -0.0853],
+        [-0.0460, -0.0202, -0.0318,  ..., -0.0513, -0.0111, -0.0237],
+        ...,
+        [-0.0254,  0.0990, -0.1157,  ..., -0.0757,  0.0142, -0.0820],
+        [ 0.0009, -0.0581,  0.0280,  ...,  0.0424, -0.0852, -0.0338],
+        [-0.0174, -0.0472,  0.0330,  ..., -0.0497, -0.0355,  0.0801]],
+       device='cuda:0'), grad: tensor([[ 4.5188e-06, -6.0024e-07,  3.0637e-05,  ...,  1.2532e-05,
+          9.7416e-07,  2.9087e-05],
+        [-1.1463e-03, -2.5344e-04, -3.0184e-04,  ..., -9.2793e-04,
+         -2.8443e-04, -1.7715e-04],
+        [ 8.7246e-06, -4.3362e-06,  3.0976e-06,  ..., -1.8300e-06,
+          3.1292e-07, -3.8683e-05],
+        ...,
+        [ 3.1614e-04,  6.8665e-05,  9.2983e-05,  ...,  2.7251e-04,
+          8.6129e-05,  6.3777e-05],
+        [ 1.1998e-04,  2.4259e-05,  2.3103e-04,  ...,  1.4997e-04,
+          3.0339e-05,  2.0719e-04],
+        [ 5.8842e-04,  1.4615e-04, -8.7214e-04,  ...,  1.7083e-04,
+          1.4830e-04, -8.8787e-04]], device='cuda:0')
+Epoch 78, bias, value: tensor([ 0.0055,  0.0032,  0.0041,  0.0153,  0.0251,  0.0347, -0.0262,  0.0094,
+        -0.0340, -0.0194], device='cuda:0'), grad: tensor([ 3.9250e-05, -2.1858e-03, -1.3316e-04,  5.0068e-04,  7.9632e-05,
+         4.1676e-04, -4.9453e-07,  6.8426e-04,  4.3297e-04,  1.6403e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 77, time 217.60, cls_loss 0.0095 cls_loss_mapping 0.0137 cls_loss_causal 0.6158 re_mapping 0.0123 re_causal 0.0350 /// teacc 98.73 lr 0.00010000
+Epoch 79, weight, value: tensor([[-0.0097,  0.0887,  0.0542,  ..., -0.1064, -0.0778,  0.0266],
+        [ 0.0837, -0.0125, -0.0338,  ...,  0.0456,  0.0672, -0.0860],
+        [-0.0449, -0.0196, -0.0311,  ..., -0.0502, -0.0099, -0.0239],
+        ...,
+        [-0.0252,  0.1001, -0.1160,  ..., -0.0754,  0.0147, -0.0828],
+        [ 0.0015, -0.0592,  0.0284,  ...,  0.0432, -0.0850, -0.0337],
+        [-0.0179, -0.0476,  0.0336,  ..., -0.0500, -0.0362,  0.0811]],
+       device='cuda:0'), grad: tensor([[ 2.1711e-05, -7.3425e-06,  4.4316e-05,  ...,  5.6177e-05,
+          2.5565e-07,  5.5999e-05],
+        [-2.2516e-05,  7.8836e-07,  3.2708e-06,  ..., -3.6448e-05,
+         -1.9744e-05,  3.2894e-06],
+        [ 1.1593e-05,  2.5511e-05,  2.0906e-05,  ...,  2.1711e-05,
+          2.9318e-06,  2.1636e-05],
+        ...,
+        [ 1.3456e-05, -8.2135e-05,  2.0832e-05,  ...,  2.7165e-05,
+          5.4426e-06,  2.3559e-05],
+        [-6.6578e-05, -2.8297e-05, -1.8561e-04,  ..., -1.5283e-04,
+          4.7982e-06, -2.0170e-04],
+        [ 2.0444e-05,  3.1531e-05,  2.4423e-05,  ...,  4.8578e-05,
+          1.3113e-06,  3.3349e-05]], device='cuda:0')
+Epoch 79, bias, value: tensor([ 0.0051,  0.0019,  0.0058,  0.0154,  0.0246,  0.0347, -0.0265,  0.0097,
+        -0.0339, -0.0192], device='cuda:0'), grad: tensor([ 1.3912e-04, -3.9041e-05,  9.0420e-05,  1.6725e-04,  3.3438e-05,
+        -4.0792e-06,  3.8654e-05, -3.7044e-05, -5.2691e-04,  1.3828e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 78, time 217.57, cls_loss 0.0110 cls_loss_mapping 0.0143 cls_loss_causal 0.6278 re_mapping 0.0127 re_causal 0.0334 /// teacc 98.75 lr 0.00010000
+Epoch 80, weight, value: tensor([[-0.0100,  0.0893,  0.0541,  ..., -0.1078, -0.0785,  0.0264],
+        [ 0.0843, -0.0124, -0.0352,  ...,  0.0456,  0.0680, -0.0881],
+        [-0.0456, -0.0198, -0.0315,  ..., -0.0512, -0.0107, -0.0245],
+        ...,
+        [-0.0257,  0.1007, -0.1167,  ..., -0.0767,  0.0141, -0.0837],
+        [ 0.0009, -0.0604,  0.0286,  ...,  0.0429, -0.0855, -0.0340],
+        [-0.0181, -0.0478,  0.0341,  ..., -0.0499, -0.0342,  0.0821]],
+       device='cuda:0'), grad: tensor([[ 3.7951e-07, -1.3128e-05,  4.3437e-06,  ...,  2.1562e-05,
+          5.7340e-05, -4.5672e-06],
+        [-2.3112e-05,  3.4012e-06,  1.8254e-06,  ..., -3.5912e-05,
+         -1.5378e-05,  1.0030e-06],
+        [ 6.8359e-06,  1.2085e-05,  3.5465e-05,  ...,  3.3677e-05,
+          2.5198e-05,  2.0247e-06],
+        ...,
+        [ 6.5081e-06, -7.9632e-05,  3.0071e-05,  ...,  3.2842e-05,
+         -2.0891e-05, -1.4484e-05],
+        [-1.2845e-05,  1.1995e-05,  1.7673e-05,  ..., -1.7375e-05,
+          2.6673e-05, -1.0766e-05],
+        [ 4.9286e-06,  4.4644e-05,  1.1519e-05,  ...,  3.2604e-05,
+          7.8857e-05,  6.8061e-06]], device='cuda:0')
+Epoch 80, bias, value: tensor([ 0.0048,  0.0018,  0.0056,  0.0154,  0.0250,  0.0343, -0.0243,  0.0093,
+        -0.0347, -0.0191], device='cuda:0'), grad: tensor([ 3.8791e-04,  3.2727e-06,  1.8442e-04, -2.7347e-04, -1.5287e-03,
+         1.7726e-04,  4.8971e-04, -3.8713e-05,  1.0628e-04,  4.9210e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 79, time 217.34, cls_loss 0.0108 cls_loss_mapping 0.0158 cls_loss_causal 0.6251 re_mapping 0.0123 re_causal 0.0342 /// teacc 98.72 lr 0.00010000
+Epoch 81, weight, value: tensor([[-0.0095,  0.0906,  0.0545,  ..., -0.1085, -0.0787,  0.0266],
+        [ 0.0850, -0.0126, -0.0358,  ...,  0.0467,  0.0695, -0.0885],
+        [-0.0464, -0.0183, -0.0318,  ..., -0.0525, -0.0116, -0.0248],
+        ...,
+        [-0.0261,  0.1003, -0.1172,  ..., -0.0774,  0.0137, -0.0843],
+        [-0.0003, -0.0622,  0.0275,  ...,  0.0421, -0.0870, -0.0353],
+        [-0.0181, -0.0482,  0.0350,  ..., -0.0495, -0.0343,  0.0829]],
+       device='cuda:0'), grad: tensor([[ 7.7903e-05, -1.5050e-06,  5.2266e-06,  ...,  9.4891e-05,
+          2.4796e-07,  3.6675e-06],
+        [ 3.2759e-04, -1.5914e-05,  7.4133e-07,  ...,  3.9077e-04,
+         -1.3627e-05,  4.1490e-07],
+        [ 6.3479e-05,  4.7833e-06,  1.7658e-06,  ...,  7.8201e-05,
+          1.2694e-06,  9.2201e-07],
+        ...,
+        [ 1.9237e-05, -1.7869e-04,  9.7871e-05,  ...,  2.8521e-05,
+          9.5218e-06,  8.8394e-05],
+        [ 6.4611e-04,  2.9560e-06, -8.2478e-06,  ...,  7.6485e-04,
+          6.5845e-07,  1.0379e-05],
+        [ 8.9407e-06, -1.0836e-04, -2.8348e-04,  ...,  1.5482e-05,
+          8.3819e-07, -2.6131e-04]], device='cuda:0')
+Epoch 81, bias, value: tensor([ 0.0052,  0.0024,  0.0058,  0.0151,  0.0246,  0.0343, -0.0240,  0.0087,
+        -0.0357, -0.0185], device='cuda:0'), grad: tensor([ 0.0002,  0.0008,  0.0002,  0.0003,  0.0010,  0.0004, -0.0032, -0.0008,
+         0.0015, -0.0004], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 80, time 217.63, cls_loss 0.0111 cls_loss_mapping 0.0158 cls_loss_causal 0.6414 re_mapping 0.0120 re_causal 0.0342 /// teacc 98.79 lr 0.00010000
+Epoch 82, weight, value: tensor([[-9.8741e-03,  9.1382e-02,  5.4812e-02,  ..., -1.0929e-01,
+         -7.9147e-02,  2.6775e-02],
+        [ 8.5780e-02, -1.1860e-02, -3.6087e-02,  ...,  4.7225e-02,
+          7.1365e-02, -8.8860e-02],
+        [-4.7703e-02, -1.8855e-02, -3.1960e-02,  ..., -5.2953e-02,
+         -1.3034e-02, -2.5070e-02],
+        ...,
+        [-2.5541e-02,  1.0060e-01, -1.1791e-01,  ..., -7.7870e-02,
+          1.3934e-02, -8.5318e-02],
+        [ 1.1617e-04, -6.1831e-02,  2.7713e-02,  ...,  4.2588e-02,
+         -8.7229e-02, -3.5074e-02],
+        [-1.8341e-02, -4.9051e-02,  3.5217e-02,  ..., -5.0428e-02,
+         -3.4711e-02,  8.3518e-02]], device='cuda:0'), grad: tensor([[ 7.0445e-06, -1.6227e-05,  2.1551e-06,  ...,  4.8652e-06,
+          1.6242e-06, -8.4564e-07],
+        [-1.5959e-05,  3.1814e-06,  8.4378e-07,  ..., -1.7837e-05,
+         -1.3530e-05,  1.3821e-06],
+        [ 4.3474e-06, -9.6202e-05,  1.0515e-06,  ...,  4.3549e-06,
+          1.3281e-06,  1.2033e-06],
+        ...,
+        [ 5.9269e-06, -1.6248e-04,  5.2676e-06,  ...,  7.1302e-06,
+          4.7274e-06, -6.4313e-05],
+        [ 5.5104e-05,  8.3074e-06,  2.0027e-05,  ...,  2.2218e-05,
+          8.6501e-06,  2.0131e-05],
+        [ 4.5560e-06,  2.3437e-04, -1.3232e-05,  ...,  4.9323e-06,
+          5.9977e-07,  5.3346e-05]], device='cuda:0')
+Epoch 82, bias, value: tensor([ 0.0055,  0.0031,  0.0052,  0.0148,  0.0253,  0.0340, -0.0248,  0.0091,
+        -0.0353, -0.0190], device='cuda:0'), grad: tensor([-1.2301e-05, -6.9141e-06, -5.9891e-04,  2.2605e-05,  4.0740e-05,
+         1.3638e-04, -2.0611e-04,  3.5286e-05,  1.0598e-04,  4.8208e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 81, time 217.35, cls_loss 0.0097 cls_loss_mapping 0.0159 cls_loss_causal 0.6430 re_mapping 0.0126 re_causal 0.0342 /// teacc 98.81 lr 0.00010000
+Epoch 83, weight, value: tensor([[-0.0101,  0.0917,  0.0546,  ..., -0.1099, -0.0802,  0.0266],
+        [ 0.0855, -0.0111, -0.0363,  ...,  0.0463,  0.0706, -0.0892],
+        [-0.0472, -0.0190, -0.0327,  ..., -0.0518, -0.0115, -0.0254],
+        ...,
+        [-0.0259,  0.1012, -0.1194,  ..., -0.0784,  0.0135, -0.0856],
+        [ 0.0004, -0.0628,  0.0282,  ...,  0.0431, -0.0878, -0.0352],
+        [-0.0189, -0.0497,  0.0354,  ..., -0.0509, -0.0355,  0.0838]],
+       device='cuda:0'), grad: tensor([[ 2.7612e-05, -1.7613e-05,  1.4925e-04,  ...,  1.8120e-05,
+          1.8060e-05, -1.2212e-05],
+        [ 8.4221e-05,  3.6025e-04,  8.7768e-06,  ...,  7.6517e-06,
+          1.8254e-05,  9.0711e-07],
+        [-1.7762e-05,  1.0520e-05,  3.5334e-04,  ...,  3.9935e-06,
+         -8.5533e-06,  7.3947e-07],
+        ...,
+        [-8.3625e-05, -5.2166e-04,  2.1219e-05,  ...,  1.2055e-05,
+         -2.3082e-05,  1.4100e-06],
+        [ 4.1038e-05,  1.2636e-05,  1.4596e-05,  ...,  6.0499e-05,
+          9.8497e-06,  6.9924e-06],
+        [ 1.5661e-05,  4.2439e-05,  3.4034e-05,  ..., -8.1444e-04,
+          8.0988e-06, -2.0713e-06]], device='cuda:0')
+Epoch 83, bias, value: tensor([ 0.0051,  0.0025,  0.0063,  0.0144,  0.0256,  0.0349, -0.0250,  0.0087,
+        -0.0351, -0.0193], device='cuda:0'), grad: tensor([ 0.0006,  0.0005,  0.0011, -0.0021,  0.0037, -0.0044,  0.0042, -0.0006,
+         0.0002, -0.0032], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 82, time 217.01, cls_loss 0.0084 cls_loss_mapping 0.0114 cls_loss_causal 0.6572 re_mapping 0.0119 re_causal 0.0344 /// teacc 98.65 lr 0.00010000
+Epoch 84, weight, value: tensor([[-1.0296e-02,  9.2249e-02,  5.4699e-02,  ..., -1.1042e-01,
+         -8.0827e-02,  2.6515e-02],
+        [ 8.6181e-02, -9.8126e-03, -3.6275e-02,  ...,  4.6982e-02,
+          7.1194e-02, -8.9245e-02],
+        [-4.7421e-02, -1.9725e-02, -3.3079e-02,  ..., -5.2103e-02,
+         -1.1407e-02, -2.5273e-02],
+        ...,
+        [-2.6926e-02,  1.0159e-01, -1.1968e-01,  ..., -8.0110e-02,
+          1.3139e-02, -8.6026e-02],
+        [ 4.3944e-05, -6.3522e-02,  2.7892e-02,  ...,  4.3039e-02,
+         -8.8442e-02, -3.5265e-02],
+        [-1.9875e-02, -5.0545e-02,  3.5718e-02,  ..., -5.0521e-02,
+         -3.5832e-02,  8.4657e-02]], device='cuda:0'), grad: tensor([[ 7.4096e-06, -1.6883e-05, -8.7172e-07,  ...,  7.0035e-06,
+          1.6969e-06, -3.0873e-07],
+        [-8.4734e-04,  5.9977e-07,  1.0896e-06,  ..., -9.0361e-04,
+         -1.7090e-03,  1.4454e-06],
+        [ 6.4802e-04,  3.6452e-06, -3.6918e-06,  ...,  6.8808e-04,
+          1.2655e-03,  4.6454e-06],
+        ...,
+        [ 2.0027e-04,  6.1933e-07,  6.7875e-06,  ...,  3.0947e-04,
+          3.9220e-04,  9.4995e-06],
+        [ 4.3929e-05, -7.4273e-08,  7.9930e-05,  ...,  3.4839e-05,
+         -4.0457e-06,  7.1824e-05],
+        [ 3.7074e-05,  7.0333e-06,  3.8296e-05,  ...,  8.1182e-05,
+          1.4175e-06,  5.4538e-05]], device='cuda:0')
+Epoch 84, bias, value: tensor([ 0.0048,  0.0030,  0.0062,  0.0145,  0.0245,  0.0348, -0.0246,  0.0087,
+        -0.0355, -0.0187], device='cuda:0'), grad: tensor([-2.1338e-05, -1.9894e-03,  1.4706e-03,  5.0688e-04, -3.0947e-04,
+        -7.4053e-04, -2.6766e-06,  6.7377e-04,  1.8239e-04,  2.2733e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 83, time 217.40, cls_loss 0.0072 cls_loss_mapping 0.0099 cls_loss_causal 0.6295 re_mapping 0.0117 re_causal 0.0352 /// teacc 98.79 lr 0.00010000
+Epoch 85, weight, value: tensor([[-0.0100,  0.0928,  0.0543,  ..., -0.1108, -0.0829,  0.0260],
+        [ 0.0865, -0.0101, -0.0364,  ...,  0.0473,  0.0713, -0.0896],
+        [-0.0479, -0.0206, -0.0334,  ..., -0.0526, -0.0116, -0.0256],
+        ...,
+        [-0.0274,  0.1022, -0.1208,  ..., -0.0806,  0.0136, -0.0862],
+        [ 0.0002, -0.0638,  0.0279,  ...,  0.0433, -0.0886, -0.0355],
+        [-0.0203, -0.0505,  0.0364,  ..., -0.0508, -0.0353,  0.0853]],
+       device='cuda:0'), grad: tensor([[ 2.6450e-06, -5.2713e-07,  8.3148e-06,  ...,  4.6529e-06,
+          1.4110e-06,  7.6815e-06],
+        [-1.2726e-05,  5.9232e-07,  2.9560e-06,  ..., -2.3365e-05,
+         -8.6874e-06,  1.6410e-06],
+        [ 3.3751e-06,  3.2410e-06,  1.9208e-05,  ...,  3.7197e-06,
+          1.6699e-06,  2.1607e-06],
+        ...,
+        [ 1.4424e-05, -1.6782e-06,  4.7445e-05,  ...,  1.5102e-05,
+          6.6720e-06,  2.5392e-05],
+        [ 1.8314e-05,  5.3421e-06,  4.2319e-05,  ...,  1.7241e-05,
+          1.3314e-05,  2.1994e-05],
+        [ 9.2566e-05,  5.5619e-06,  1.4699e-04,  ...,  9.3162e-05,
+          8.1658e-06,  2.7394e-04]], device='cuda:0')
+Epoch 85, bias, value: tensor([ 0.0046,  0.0027,  0.0058,  0.0147,  0.0243,  0.0349, -0.0248,  0.0089,
+        -0.0356, -0.0182], device='cuda:0'), grad: tensor([ 1.6943e-05, -1.6868e-05,  3.8475e-05,  1.8730e-03,  2.8849e-05,
+        -2.5635e-03,  2.8133e-05,  9.6917e-05,  1.0794e-04,  3.8934e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 84, time 217.03, cls_loss 0.0080 cls_loss_mapping 0.0105 cls_loss_causal 0.6125 re_mapping 0.0114 re_causal 0.0329 /// teacc 98.83 lr 0.00010000
+Epoch 86, weight, value: tensor([[-1.0266e-02,  9.3217e-02,  5.4418e-02,  ..., -1.1161e-01,
+         -8.3075e-02,  2.5764e-02],
+        [ 8.7239e-02, -1.0392e-02, -3.5655e-02,  ...,  4.8504e-02,
+          7.1378e-02, -8.9176e-02],
+        [-4.8153e-02, -2.0935e-02, -3.3708e-02,  ..., -5.2898e-02,
+         -1.1542e-02, -2.5909e-02],
+        ...,
+        [-2.7471e-02,  1.0312e-01, -1.2112e-01,  ..., -8.0917e-02,
+          1.3959e-02, -8.7156e-02],
+        [-9.8744e-05, -6.4129e-02,  2.8179e-02,  ...,  4.3266e-02,
+         -8.8892e-02, -3.5836e-02],
+        [-2.1463e-02, -5.1019e-02,  3.6275e-02,  ..., -5.2047e-02,
+         -3.5488e-02,  8.5811e-02]], device='cuda:0'), grad: tensor([[-5.1260e-06, -4.2707e-05, -3.2216e-05,  ..., -2.6748e-06,
+          1.8813e-07, -4.8190e-05],
+        [-8.3353e-07, -1.3439e-06,  2.7250e-06,  ..., -1.9316e-06,
+         -1.3784e-06,  3.3118e-06],
+        [ 8.3521e-06,  5.9120e-06,  1.6075e-06,  ...,  5.6922e-06,
+          5.8673e-08,  1.8571e-06],
+        ...,
+        [ 4.1336e-05,  1.1042e-05,  3.9279e-05,  ...,  3.2961e-05,
+          1.0990e-05,  7.0333e-05],
+        [-9.5814e-06,  2.2408e-06,  2.0802e-04,  ...,  1.5765e-05,
+          7.2643e-07,  2.1946e-04],
+        [-1.4946e-05, -1.8612e-05, -3.5238e-04,  ..., -7.5161e-05,
+         -2.3410e-05, -4.3917e-04]], device='cuda:0')
+Epoch 86, bias, value: tensor([ 0.0042,  0.0029,  0.0060,  0.0136,  0.0243,  0.0358, -0.0242,  0.0093,
+        -0.0358, -0.0187], device='cuda:0'), grad: tensor([-6.3181e-05,  2.7180e-05, -1.3137e-04, -1.9848e-04,  3.6025e-04,
+         2.1350e-04,  9.5546e-05,  2.9778e-04,  5.6601e-04, -1.1673e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 85, time 217.61, cls_loss 0.0078 cls_loss_mapping 0.0114 cls_loss_causal 0.5988 re_mapping 0.0116 re_causal 0.0325 /// teacc 98.81 lr 0.00010000
+Epoch 87, weight, value: tensor([[-0.0104,  0.0943,  0.0554,  ..., -0.1120, -0.0833,  0.0262],
+        [ 0.0875, -0.0101, -0.0365,  ...,  0.0483,  0.0715, -0.0904],
+        [-0.0489, -0.0214, -0.0342,  ..., -0.0538, -0.0115, -0.0264],
+        ...,
+        [-0.0281,  0.1035, -0.1215,  ..., -0.0815,  0.0137, -0.0877],
+        [ 0.0009, -0.0635,  0.0284,  ...,  0.0441, -0.0892, -0.0356],
+        [-0.0212, -0.0516,  0.0369,  ..., -0.0518, -0.0350,  0.0869]],
+       device='cuda:0'), grad: tensor([[ 4.1090e-06,  2.1476e-06, -2.8033e-07,  ...,  5.6587e-06,
+          1.9046e-07, -4.0093e-07],
+        [-7.1153e-06,  2.0694e-06,  5.3691e-07,  ..., -5.7854e-06,
+         -2.3060e-06,  2.2352e-07],
+        [ 7.0855e-06,  1.6659e-05,  6.5751e-07,  ...,  8.5458e-06,
+         -1.8692e-06,  2.6450e-07],
+        ...,
+        [ 3.4980e-06, -3.9101e-05,  1.3951e-06,  ...,  8.7991e-06,
+          2.9840e-06,  1.6354e-06],
+        [ 2.6047e-05,  2.4103e-06,  4.5866e-05,  ...,  4.0442e-05,
+          2.5835e-06,  1.0294e-04],
+        [ 1.0878e-05,  6.6720e-06,  1.2167e-05,  ...,  2.8193e-05,
+          8.0932e-07,  1.6972e-05]], device='cuda:0')
+Epoch 87, bias, value: tensor([ 0.0050,  0.0028,  0.0055,  0.0143,  0.0242,  0.0353, -0.0255,  0.0091,
+        -0.0351, -0.0183], device='cuda:0'), grad: tensor([ 1.3091e-05,  3.9637e-06,  5.7556e-07, -3.2425e-05, -3.4750e-05,
+        -1.1396e-04, -4.4238e-07, -5.7444e-06,  1.0848e-04,  6.1452e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 86, time 217.72, cls_loss 0.0074 cls_loss_mapping 0.0093 cls_loss_causal 0.6044 re_mapping 0.0114 re_causal 0.0332 /// teacc 98.72 lr 0.00010000
+Epoch 88, weight, value: tensor([[-0.0104,  0.0951,  0.0553,  ..., -0.1133, -0.0849,  0.0259],
+        [ 0.0879, -0.0102, -0.0366,  ...,  0.0487,  0.0716, -0.0906],
+        [-0.0487, -0.0213, -0.0330,  ..., -0.0535, -0.0108, -0.0265],
+        ...,
+        [-0.0286,  0.1037, -0.1220,  ..., -0.0825,  0.0136, -0.0890],
+        [ 0.0015, -0.0629,  0.0287,  ...,  0.0449, -0.0898, -0.0348],
+        [-0.0215, -0.0521,  0.0373,  ..., -0.0521, -0.0353,  0.0874]],
+       device='cuda:0'), grad: tensor([[ 5.7608e-05,  1.6168e-05,  4.6790e-06,  ...,  4.8310e-05,
+          1.1940e-06,  8.3307e-07],
+        [ 3.2842e-05,  7.1041e-06,  4.2655e-06,  ...,  4.2140e-05,
+         -5.9791e-07,  2.4810e-06],
+        [ 5.3197e-05,  1.7490e-06,  3.1441e-05,  ...,  3.6120e-05,
+          1.8492e-05,  4.9593e-07],
+        ...,
+        [ 5.5991e-06, -1.4864e-05,  5.4985e-06,  ...,  3.8683e-05,
+          4.7646e-06,  3.2224e-06],
+        [ 1.0532e-04,  4.0799e-05, -5.6863e-05,  ...,  4.8697e-05,
+          5.1707e-06, -7.4744e-05],
+        [ 4.8816e-05,  8.6576e-06,  6.9320e-05,  ...,  1.7290e-03,
+          1.4789e-06,  1.9038e-04]], device='cuda:0')
+Epoch 88, bias, value: tensor([ 0.0049,  0.0027,  0.0068,  0.0136,  0.0243,  0.0350, -0.0255,  0.0088,
+        -0.0345, -0.0185], device='cuda:0'), grad: tensor([ 1.3769e-04,  1.2314e-04,  1.6916e-04, -1.6093e-04, -3.6316e-03,
+         8.6308e-05, -7.8535e-04,  8.0168e-05,  2.3484e-04,  3.7441e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 87, time 217.26, cls_loss 0.0073 cls_loss_mapping 0.0096 cls_loss_causal 0.5807 re_mapping 0.0113 re_causal 0.0307 /// teacc 98.83 lr 0.00010000
+Epoch 89, weight, value: tensor([[-0.0107,  0.0958,  0.0555,  ..., -0.1142, -0.0850,  0.0260],
+        [ 0.0885, -0.0102, -0.0369,  ...,  0.0491,  0.0727, -0.0909],
+        [-0.0489, -0.0215, -0.0330,  ..., -0.0532, -0.0113, -0.0271],
+        ...,
+        [-0.0289,  0.1038, -0.1221,  ..., -0.0834,  0.0133, -0.0888],
+        [ 0.0013, -0.0632,  0.0285,  ...,  0.0449, -0.0903, -0.0354],
+        [-0.0222, -0.0534,  0.0376,  ..., -0.0527, -0.0355,  0.0878]],
+       device='cuda:0'), grad: tensor([[ 6.2920e-06, -9.9465e-07,  1.7565e-06,  ...,  7.7859e-06,
+          2.4168e-07,  1.8403e-06],
+        [-2.2203e-05,  3.1758e-07,  7.6974e-07,  ..., -1.0230e-05,
+         -2.3291e-05,  6.6822e-07],
+        [ 4.9919e-05,  4.1910e-07,  3.3751e-06,  ...,  7.7307e-05,
+          1.6123e-05,  9.1409e-07],
+        ...,
+        [ 5.2266e-06, -4.1351e-07,  6.7987e-07,  ...,  8.1509e-06,
+          3.8259e-06,  5.9186e-07],
+        [-1.6168e-05,  2.9430e-06, -3.4958e-05,  ..., -2.3022e-05,
+          1.2945e-06, -1.1824e-05],
+        [ 8.8364e-06,  5.4343e-07,  7.9125e-06,  ...,  1.0565e-05,
+          8.5728e-07,  5.3942e-06]], device='cuda:0')
+Epoch 89, bias, value: tensor([ 0.0050,  0.0033,  0.0068,  0.0130,  0.0252,  0.0356, -0.0255,  0.0085,
+        -0.0351, -0.0191], device='cuda:0'), grad: tensor([ 1.4596e-05, -4.2409e-05,  1.5056e-04,  3.0577e-05,  3.3951e-04,
+         3.0667e-05, -5.1451e-04,  1.7881e-05, -5.1022e-05,  2.4498e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 88----------------------------------------------------
+epoch 88, time 218.18, cls_loss 0.0058 cls_loss_mapping 0.0090 cls_loss_causal 0.5834 re_mapping 0.0115 re_causal 0.0322 /// teacc 98.89 lr 0.00010000
+Epoch 90, weight, value: tensor([[-0.0120,  0.0956,  0.0559,  ..., -0.1162, -0.0873,  0.0258],
+        [ 0.0885, -0.0103, -0.0370,  ...,  0.0493,  0.0731, -0.0911],
+        [-0.0492, -0.0221, -0.0332,  ..., -0.0536, -0.0115, -0.0274],
+        ...,
+        [-0.0286,  0.1045, -0.1226,  ..., -0.0833,  0.0133, -0.0895],
+        [ 0.0013, -0.0635,  0.0284,  ...,  0.0451, -0.0906, -0.0356],
+        [-0.0226, -0.0538,  0.0377,  ..., -0.0529, -0.0357,  0.0882]],
+       device='cuda:0'), grad: tensor([[ 1.0297e-05, -3.5204e-06, -3.4273e-07,  ...,  8.7991e-06,
+          2.1607e-07,  1.8533e-06],
+        [-2.9653e-05,  1.3812e-06,  1.9539e-06,  ..., -4.7356e-05,
+         -2.4945e-05,  2.1569e-06],
+        [ 1.1601e-05,  2.6733e-05,  3.3546e-06,  ...,  1.2681e-05,
+          4.2021e-06,  2.8089e-06],
+        ...,
+        [ 4.5419e-05, -3.4332e-05,  2.4214e-05,  ...,  4.3333e-05,
+          9.6709e-06,  2.3663e-05],
+        [ 4.9204e-05,  7.0361e-07,  2.2814e-05,  ...,  4.1485e-05,
+          3.5148e-06,  2.6822e-05],
+        [ 1.8075e-05,  4.2617e-06,  1.3318e-07,  ...,  1.5751e-05,
+          1.7527e-06,  2.2855e-06]], device='cuda:0')
+Epoch 90, bias, value: tensor([ 0.0045,  0.0029,  0.0065,  0.0131,  0.0251,  0.0358, -0.0249,  0.0090,
+        -0.0353, -0.0192], device='cuda:0'), grad: tensor([ 2.0474e-05, -6.5982e-05,  8.4996e-05,  9.5889e-06,  2.2545e-05,
+        -3.9673e-04,  5.4568e-05,  5.9754e-05,  1.6046e-04,  5.0098e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 89, time 217.02, cls_loss 0.0056 cls_loss_mapping 0.0090 cls_loss_causal 0.5937 re_mapping 0.0112 re_causal 0.0314 /// teacc 98.82 lr 0.00010000
+Epoch 91, weight, value: tensor([[-0.0122,  0.0965,  0.0567,  ..., -0.1159, -0.0872,  0.0268],
+        [ 0.0891, -0.0095, -0.0375,  ...,  0.0500,  0.0736, -0.0920],
+        [-0.0493, -0.0224, -0.0335,  ..., -0.0538, -0.0117, -0.0277],
+        ...,
+        [-0.0294,  0.1044, -0.1235,  ..., -0.0847,  0.0127, -0.0899],
+        [ 0.0013, -0.0637,  0.0283,  ...,  0.0451, -0.0907, -0.0360],
+        [-0.0227, -0.0543,  0.0383,  ..., -0.0525, -0.0354,  0.0892]],
+       device='cuda:0'), grad: tensor([[ 2.7996e-06, -3.0417e-06,  3.4366e-07,  ...,  5.7667e-06,
+          8.5868e-07,  2.9569e-07],
+        [-6.1572e-05,  9.1866e-06,  4.3847e-06,  ..., -1.1069e-04,
+         -3.7163e-05,  3.0026e-06],
+        [ 6.0678e-05, -1.4710e-04,  1.2502e-05,  ...,  1.0681e-04,
+          3.1948e-05,  1.9707e-06],
+        ...,
+        [ 8.0317e-06,  1.2553e-04,  6.9477e-06,  ...,  1.7300e-05,
+          1.6987e-06,  4.4331e-06],
+        [ 4.4793e-05,  4.8503e-06,  5.3436e-05,  ...,  6.4850e-05,
+          2.5518e-06,  3.9250e-05],
+        [ 2.7061e-05,  2.5667e-06,  2.6584e-05,  ...,  4.7445e-05,
+          3.7253e-07,  1.6823e-05]], device='cuda:0')
+Epoch 91, bias, value: tensor([ 0.0053,  0.0035,  0.0065,  0.0133,  0.0247,  0.0356, -0.0251,  0.0083,
+        -0.0355, -0.0188], device='cuda:0'), grad: tensor([ 8.7842e-06, -2.0802e-04, -6.1464e-04,  7.8499e-05, -8.2910e-05,
+        -2.5034e-04, -1.9506e-05,  8.4162e-04,  1.6427e-04,  8.2910e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 90----------------------------------------------------
+epoch 90, time 217.68, cls_loss 0.0084 cls_loss_mapping 0.0124 cls_loss_causal 0.6120 re_mapping 0.0107 re_causal 0.0299 /// teacc 98.90 lr 0.00010000
+Epoch 92, weight, value: tensor([[-0.0124,  0.0976,  0.0570,  ..., -0.1167, -0.0875,  0.0270],
+        [ 0.0891, -0.0101, -0.0378,  ...,  0.0497,  0.0736, -0.0921],
+        [-0.0489, -0.0230, -0.0335,  ..., -0.0530, -0.0117, -0.0281],
+        ...,
+        [-0.0301,  0.1058, -0.1246,  ..., -0.0851,  0.0143, -0.0903],
+        [ 0.0018, -0.0643,  0.0284,  ...,  0.0454, -0.0914, -0.0362],
+        [-0.0239, -0.0549,  0.0389,  ..., -0.0524, -0.0363,  0.0896]],
+       device='cuda:0'), grad: tensor([[ 3.6173e-06, -1.8895e-05, -7.5903e-07,  ...,  1.5525e-06,
+          1.7673e-05, -2.3752e-05],
+        [-1.3880e-05,  7.1712e-06,  5.0068e-06,  ..., -2.3186e-05,
+         -1.4953e-05,  2.7381e-06],
+        [ 9.7454e-06,  7.4655e-06, -7.2360e-05,  ...,  1.6600e-05,
+         -9.6321e-05,  5.7481e-06],
+        ...,
+        [ 3.0156e-06, -2.2423e-04, -7.9155e-05,  ...,  4.8801e-06,
+          2.6152e-05, -5.2780e-05],
+        [-5.4449e-05,  2.8834e-05,  1.4842e-05,  ..., -6.3837e-05,
+          3.4515e-06,  9.4250e-06],
+        [ 8.1733e-06,  1.7118e-04,  9.1016e-05,  ...,  1.4223e-05,
+          1.7688e-05,  4.6641e-05]], device='cuda:0')
+Epoch 92, bias, value: tensor([ 0.0056,  0.0026,  0.0071,  0.0130,  0.0245,  0.0357, -0.0257,  0.0086,
+        -0.0349, -0.0186], device='cuda:0'), grad: tensor([-7.8455e-06, -5.0850e-06, -1.9073e-04,  6.1929e-05,  1.3039e-05,
+         5.5194e-05,  6.0260e-05, -3.5691e-04, -2.5854e-06,  3.7289e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 91, time 216.99, cls_loss 0.0086 cls_loss_mapping 0.0121 cls_loss_causal 0.6155 re_mapping 0.0109 re_causal 0.0293 /// teacc 98.84 lr 0.00010000
+Epoch 93, weight, value: tensor([[-0.0123,  0.0979,  0.0571,  ..., -0.1177, -0.0874,  0.0263],
+        [ 0.0894, -0.0103, -0.0381,  ...,  0.0502,  0.0748, -0.0927],
+        [-0.0494, -0.0240, -0.0337,  ..., -0.0537, -0.0121, -0.0286],
+        ...,
+        [-0.0298,  0.1067, -0.1251,  ..., -0.0853,  0.0136, -0.0895],
+        [ 0.0020, -0.0654,  0.0284,  ...,  0.0459, -0.0917, -0.0364],
+        [-0.0247, -0.0545,  0.0396,  ..., -0.0531, -0.0367,  0.0910]],
+       device='cuda:0'), grad: tensor([[ 2.0131e-05,  1.0468e-05,  4.7013e-06,  ...,  1.4156e-05,
+          1.9036e-06,  5.6922e-06],
+        [ 8.1211e-06,  2.7999e-05,  3.4142e-06,  ..., -2.8424e-06,
+         -1.8580e-06,  3.8929e-07],
+        [ 1.5661e-05,  4.4778e-06,  1.2569e-05,  ...,  1.4246e-05,
+         -2.9970e-06,  7.5670e-07],
+        ...,
+        [-9.2760e-06, -5.8353e-05,  5.2750e-06,  ...,  5.9605e-06,
+          1.2824e-06,  7.9907e-07],
+        [-9.5367e-07,  2.0768e-06,  6.1356e-06,  ..., -2.8446e-05,
+          1.7285e-06,  6.1840e-07],
+        [ 1.2249e-05,  2.4885e-05,  6.1169e-06,  ...,  6.2510e-06,
+          9.2480e-07,  1.9968e-06]], device='cuda:0')
+Epoch 93, bias, value: tensor([ 0.0046,  0.0026,  0.0060,  0.0128,  0.0243,  0.0353, -0.0256,  0.0096,
+        -0.0345, -0.0180], device='cuda:0'), grad: tensor([ 4.9710e-05,  6.1989e-05,  2.8670e-05, -1.9989e-03,  7.0743e-06,
+         1.9064e-03, -3.5554e-05, -8.0168e-05, -8.9630e-06,  6.9201e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 92, time 217.13, cls_loss 0.0060 cls_loss_mapping 0.0106 cls_loss_causal 0.5980 re_mapping 0.0103 re_causal 0.0308 /// teacc 98.83 lr 0.00010000
+Epoch 94, weight, value: tensor([[-0.0127,  0.0982,  0.0573,  ..., -0.1186, -0.0872,  0.0265],
+        [ 0.0897, -0.0105, -0.0384,  ...,  0.0503,  0.0751, -0.0930],
+        [-0.0500, -0.0244, -0.0337,  ..., -0.0540, -0.0124, -0.0287],
+        ...,
+        [-0.0302,  0.1079, -0.1255,  ..., -0.0862,  0.0133, -0.0906],
+        [ 0.0022, -0.0659,  0.0286,  ...,  0.0466, -0.0921, -0.0360],
+        [-0.0251, -0.0555,  0.0397,  ..., -0.0547, -0.0373,  0.0903]],
+       device='cuda:0'), grad: tensor([[ 1.7300e-05, -3.9153e-06,  6.3069e-06,  ...,  3.9153e-06,
+          7.5437e-06, -7.2643e-06],
+        [-2.6315e-05,  3.1479e-07,  2.3134e-06,  ..., -3.9160e-05,
+         -1.2182e-05,  1.2666e-06],
+        [ 4.5061e-05,  8.2999e-06,  3.4332e-05,  ...,  1.3210e-05,
+         -1.2420e-05,  3.8277e-07],
+        ...,
+        [ 2.0579e-05, -3.6061e-06,  2.5079e-05,  ...,  2.3678e-05,
+          8.9183e-06,  2.1160e-05],
+        [-1.5700e-04,  3.6731e-06, -1.2851e-04,  ..., -3.1978e-05,
+          5.7705e-06,  9.3877e-06],
+        [ 4.1258e-07, -1.2264e-05, -7.6473e-05,  ...,  2.2016e-06,
+          8.6380e-07, -8.5115e-05]], device='cuda:0')
+Epoch 94, bias, value: tensor([ 0.0045,  0.0025,  0.0057,  0.0136,  0.0249,  0.0350, -0.0250,  0.0097,
+        -0.0342, -0.0193], device='cuda:0'), grad: tensor([ 1.5998e-04, -2.8551e-05, -1.9407e-04,  3.1137e-04,  9.2566e-05,
+         3.8534e-05, -1.2405e-06,  6.1631e-05, -2.9635e-04, -1.4400e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 93----------------------------------------------------
+epoch 93, time 217.87, cls_loss 0.0058 cls_loss_mapping 0.0095 cls_loss_causal 0.6052 re_mapping 0.0102 re_causal 0.0312 /// teacc 98.95 lr 0.00010000
+Epoch 95, weight, value: tensor([[-0.0131,  0.0986,  0.0572,  ..., -0.1193, -0.0876,  0.0266],
+        [ 0.0901, -0.0106, -0.0385,  ...,  0.0507,  0.0753, -0.0933],
+        [-0.0497, -0.0248, -0.0339,  ..., -0.0538, -0.0119, -0.0290],
+        ...,
+        [-0.0305,  0.1086, -0.1261,  ..., -0.0867,  0.0130, -0.0914],
+        [ 0.0017, -0.0667,  0.0279,  ...,  0.0459, -0.0925, -0.0375],
+        [-0.0252, -0.0561,  0.0404,  ..., -0.0549, -0.0374,  0.0910]],
+       device='cuda:0'), grad: tensor([[ 1.2359e-06, -1.8075e-05, -2.8446e-05,  ...,  1.2051e-06,
+         -1.1466e-05, -2.5585e-05],
+        [-8.4829e-04, -5.2881e-04,  9.2620e-07,  ..., -8.3494e-04,
+         -2.0754e-04,  6.9709e-07],
+        [ 2.0400e-05,  1.7479e-05,  4.5486e-06,  ...,  1.8254e-05,
+          3.0234e-05,  3.6974e-06],
+        ...,
+        [ 6.2704e-04,  3.7241e-04,  1.6522e-06,  ...,  6.1798e-04,
+          1.3912e-04,  1.8086e-06],
+        [ 1.4037e-05,  1.1742e-05,  5.4017e-06,  ...,  1.4015e-05,
+          5.1744e-06,  1.0625e-05],
+        [ 1.5724e-04,  1.1396e-04,  9.4995e-06,  ...,  1.5748e-04,
+          2.8402e-05,  9.8497e-06]], device='cuda:0')
+Epoch 95, bias, value: tensor([ 0.0044,  0.0025,  0.0062,  0.0135,  0.0251,  0.0351, -0.0249,  0.0098,
+        -0.0350, -0.0193], device='cuda:0'), grad: tensor([-8.0526e-05, -2.0885e-03,  6.7115e-05,  4.6015e-05,  6.6102e-05,
+        -2.6584e-05,  4.0114e-05,  1.5030e-03,  5.9217e-05,  4.1389e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 94, time 217.29, cls_loss 0.0072 cls_loss_mapping 0.0108 cls_loss_causal 0.6246 re_mapping 0.0104 re_causal 0.0296 /// teacc 98.93 lr 0.00010000
+Epoch 96, weight, value: tensor([[-0.0131,  0.1002,  0.0583,  ..., -0.1192, -0.0877,  0.0274],
+        [ 0.0910, -0.0100, -0.0389,  ...,  0.0514,  0.0757, -0.0946],
+        [-0.0501, -0.0252, -0.0343,  ..., -0.0541, -0.0122, -0.0296],
+        ...,
+        [-0.0317,  0.1091, -0.1273,  ..., -0.0881,  0.0130, -0.0921],
+        [ 0.0020, -0.0678,  0.0281,  ...,  0.0465, -0.0916, -0.0376],
+        [-0.0261, -0.0568,  0.0407,  ..., -0.0556, -0.0382,  0.0916]],
+       device='cuda:0'), grad: tensor([[ 1.0338e-06, -3.8594e-06, -1.0096e-06,  ...,  1.3225e-06,
+          4.6100e-08, -2.2911e-06],
+        [ 1.9297e-06,  8.2031e-06,  3.8221e-06,  ...,  5.0142e-06,
+         -5.4389e-07,  3.5111e-07],
+        [ 8.5160e-06,  5.7757e-05,  9.4995e-06,  ...,  5.4464e-06,
+          2.3795e-07,  7.9209e-07],
+        ...,
+        [ 1.5851e-06, -1.3125e-04, -8.2795e-07,  ...,  4.0494e-06,
+          2.3236e-07,  6.2631e-07],
+        [-5.9186e-07,  5.2340e-06, -4.1835e-06,  ..., -2.5444e-06,
+          1.0710e-08, -7.6229e-07],
+        [ 1.5935e-06,  1.3046e-05,  3.4999e-06,  ...,  1.5959e-05,
+          1.0664e-07,  2.0713e-06]], device='cuda:0')
+Epoch 96, bias, value: tensor([ 0.0050,  0.0028,  0.0062,  0.0130,  0.0248,  0.0354, -0.0250,  0.0097,
+        -0.0351, -0.0193], device='cuda:0'), grad: tensor([-1.3672e-06,  2.2426e-05,  8.3208e-05,  4.3422e-05, -6.3360e-05,
+        -1.0595e-05, -1.3649e-05, -1.3638e-04,  1.7837e-05,  5.8651e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 95----------------------------------------------------
+epoch 95, time 218.73, cls_loss 0.0065 cls_loss_mapping 0.0098 cls_loss_causal 0.5547 re_mapping 0.0104 re_causal 0.0286 /// teacc 98.98 lr 0.00010000
+Epoch 97, weight, value: tensor([[-0.0155,  0.0994,  0.0587,  ..., -0.1206, -0.0905,  0.0265],
+        [ 0.0913, -0.0097, -0.0397,  ...,  0.0514,  0.0765, -0.0953],
+        [-0.0507, -0.0249, -0.0348,  ..., -0.0545, -0.0125, -0.0296],
+        ...,
+        [-0.0324,  0.1091, -0.1277,  ..., -0.0887,  0.0128, -0.0926],
+        [ 0.0022, -0.0684,  0.0283,  ...,  0.0468, -0.0932, -0.0377],
+        [-0.0268, -0.0572,  0.0412,  ..., -0.0565, -0.0383,  0.0919]],
+       device='cuda:0'), grad: tensor([[ 1.3597e-06, -3.5688e-06, -4.3064e-06,  ...,  1.3448e-06,
+          1.1176e-07, -5.6587e-06],
+        [ 1.2137e-05,  1.0186e-04,  4.6846e-07,  ..., -2.0444e-05,
+         -4.6156e-06,  3.8790e-07],
+        [ 7.1377e-06,  1.5646e-05,  3.7551e-06,  ...,  4.8243e-06,
+          1.4715e-07,  5.7463e-07],
+        ...,
+        [-1.4448e-04, -6.0987e-04,  1.7118e-06,  ...,  2.2296e-06,
+          3.6415e-07,  1.6298e-06],
+        [ 1.4395e-05,  8.6904e-05, -1.7360e-06,  ..., -4.8317e-06,
+          2.4140e-06,  7.5661e-06],
+        [ 3.6001e-05,  1.4269e-04, -8.1882e-06,  ...,  3.6117e-06,
+         -1.7099e-06, -1.3180e-05]], device='cuda:0')
+Epoch 97, bias, value: tensor([ 0.0040,  0.0029,  0.0062,  0.0128,  0.0258,  0.0357, -0.0240,  0.0094,
+        -0.0352, -0.0201], device='cuda:0'), grad: tensor([ 5.7071e-06,  3.3998e-04,  6.6645e-06,  8.5926e-04,  6.2644e-05,
+         1.6272e-05,  2.9698e-05, -2.0905e-03,  3.0065e-04,  4.6921e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 96, time 217.34, cls_loss 0.0059 cls_loss_mapping 0.0083 cls_loss_causal 0.5662 re_mapping 0.0103 re_causal 0.0302 /// teacc 98.83 lr 0.00010000
+Epoch 98, weight, value: tensor([[-0.0161,  0.0994,  0.0589,  ..., -0.1221, -0.0910,  0.0263],
+        [ 0.0914, -0.0110, -0.0408,  ...,  0.0520,  0.0758, -0.0959],
+        [-0.0504, -0.0252, -0.0340,  ..., -0.0540, -0.0113, -0.0299],
+        ...,
+        [-0.0316,  0.1106, -0.1280,  ..., -0.0887,  0.0144, -0.0932],
+        [ 0.0019, -0.0689,  0.0285,  ...,  0.0465, -0.0929, -0.0378],
+        [-0.0277, -0.0576,  0.0412,  ..., -0.0571, -0.0395,  0.0923]],
+       device='cuda:0'), grad: tensor([[ 2.2771e-07,  4.1444e-07,  1.6158e-07,  ...,  2.7567e-07,
+          1.4296e-07,  2.1281e-07],
+        [-8.3493e-07,  3.3528e-07,  1.0384e-07,  ..., -1.1558e-06,
+         -1.8487e-07, -1.1362e-07],
+        [ 5.4203e-07, -3.2857e-06,  4.3493e-07,  ...,  2.1188e-07,
+         -1.6652e-06,  1.0617e-07],
+        ...,
+        [ 5.1642e-07, -1.9483e-06,  7.9488e-07,  ...,  9.5554e-07,
+          4.8522e-07,  1.2852e-06],
+        [-1.0934e-06,  8.8476e-08,  4.4703e-07,  ..., -1.0803e-06,
+          1.0990e-07,  1.2312e-06],
+        [ 1.1576e-06,  2.8927e-06, -1.0701e-06,  ...,  1.9446e-06,
+          6.1048e-07, -5.6475e-06]], device='cuda:0')
+Epoch 98, bias, value: tensor([ 0.0037,  0.0023,  0.0073,  0.0125,  0.0253,  0.0356, -0.0238,  0.0110,
+        -0.0358, -0.0206], device='cuda:0'), grad: tensor([ 2.0582e-06, -3.8650e-08, -1.2361e-05, -2.4755e-06,  8.6753e-07,
+         2.1346e-06,  1.4901e-07,  2.4103e-06,  4.3027e-07,  6.8434e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 97, time 218.27, cls_loss 0.0059 cls_loss_mapping 0.0100 cls_loss_causal 0.6173 re_mapping 0.0104 re_causal 0.0301 /// teacc 98.86 lr 0.00010000
+Epoch 99, weight, value: tensor([[-0.0164,  0.0995,  0.0589,  ..., -0.1237, -0.0912,  0.0263],
+        [ 0.0919, -0.0116, -0.0411,  ...,  0.0525,  0.0768, -0.0962],
+        [-0.0514, -0.0254, -0.0337,  ..., -0.0547, -0.0119, -0.0297],
+        ...,
+        [-0.0316,  0.1114, -0.1285,  ..., -0.0890,  0.0142, -0.0939],
+        [ 0.0015, -0.0697,  0.0282,  ...,  0.0466, -0.0937, -0.0381],
+        [-0.0283, -0.0581,  0.0414,  ..., -0.0580, -0.0393,  0.0922]],
+       device='cuda:0'), grad: tensor([[-4.4331e-07, -2.7895e-05, -8.8960e-06,  ...,  1.2666e-06,
+          2.0070e-07, -1.0841e-06],
+        [-5.6401e-06, -3.1777e-06,  2.4103e-06,  ..., -1.8571e-06,
+         -3.2969e-06,  2.7381e-06],
+        [ 1.9632e-06,  5.3532e-06,  2.0228e-06,  ...,  2.8443e-06,
+          3.0315e-07,  1.5367e-06],
+        ...,
+        [ 5.7109e-06,  3.0734e-06,  3.6657e-06,  ...,  9.2760e-06,
+          2.5034e-06,  7.5139e-06],
+        [-1.1340e-05,  1.6857e-06, -4.9965e-07,  ..., -2.5705e-06,
+          9.4343e-07,  1.3039e-05],
+        [-1.6969e-06,  3.0305e-06, -5.9158e-05,  ..., -9.0742e-04,
+         -3.0473e-06, -1.2264e-03]], device='cuda:0')
+Epoch 99, bias, value: tensor([ 0.0033,  0.0022,  0.0071,  0.0125,  0.0263,  0.0360, -0.0234,  0.0113,
+        -0.0362, -0.0218], device='cuda:0'), grad: tensor([-6.5744e-05,  3.3267e-06,  5.8152e-06,  1.7151e-05,  4.1771e-03,
+         1.3836e-05,  6.9022e-05,  3.3945e-05,  3.1084e-05, -4.2877e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 98, time 217.43, cls_loss 0.0044 cls_loss_mapping 0.0072 cls_loss_causal 0.5994 re_mapping 0.0102 re_causal 0.0298 /// teacc 98.85 lr 0.00010000
+Epoch 100, weight, value: tensor([[-0.0168,  0.0996,  0.0589,  ..., -0.1244, -0.0918,  0.0261],
+        [ 0.0919, -0.0116, -0.0413,  ...,  0.0528,  0.0769, -0.0964],
+        [-0.0515, -0.0255, -0.0337,  ..., -0.0550, -0.0120, -0.0294],
+        ...,
+        [-0.0320,  0.1118, -0.1293,  ..., -0.0898,  0.0139, -0.0947],
+        [ 0.0017, -0.0703,  0.0281,  ...,  0.0471, -0.0938, -0.0384],
+        [-0.0283, -0.0585,  0.0419,  ..., -0.0583, -0.0397,  0.0928]],
+       device='cuda:0'), grad: tensor([[ 1.1727e-05,  4.3362e-06,  6.1132e-06,  ...,  1.6242e-05,
+          1.6391e-07,  1.7472e-06],
+        [-1.3781e-03, -1.5345e-03,  4.6939e-07,  ..., -8.9502e-04,
+         -2.5947e-06,  3.0966e-07],
+        [ 6.9477e-06,  5.6028e-06,  1.9148e-06,  ...,  6.7689e-06,
+          3.6927e-07,  5.6671e-07],
+        ...,
+        [ 1.1168e-03,  1.2169e-03,  1.5132e-05,  ...,  7.2432e-04,
+          8.9174e-07,  2.1741e-05],
+        [ 9.6411e-06,  4.1686e-06,  6.0834e-06,  ...,  1.1824e-05,
+          5.1642e-07,  4.9621e-06],
+        [ 1.5175e-04,  1.9717e-04, -1.6063e-05,  ...,  9.8825e-05,
+          2.9989e-07, -2.7046e-05]], device='cuda:0')
+Epoch 100, bias, value: tensor([ 0.0029,  0.0023,  0.0071,  0.0126,  0.0264,  0.0363, -0.0235,  0.0111,
+        -0.0361, -0.0218], device='cuda:0'), grad: tensor([ 3.6180e-05, -3.8548e-03,  1.8761e-05,  5.5671e-05,  2.7323e-04,
+        -3.1382e-05, -7.4267e-05,  3.1204e-03,  3.0518e-05,  4.2391e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 99, time 221.61, cls_loss 0.0072 cls_loss_mapping 0.0106 cls_loss_causal 0.5654 re_mapping 0.0104 re_causal 0.0290 /// teacc 98.89 lr 0.00010000
+Epoch 101, weight, value: tensor([[-0.0169,  0.1004,  0.0600,  ..., -0.1255, -0.0919,  0.0267],
+        [ 0.0918, -0.0112, -0.0430,  ...,  0.0519,  0.0771, -0.0991],
+        [-0.0523, -0.0260, -0.0333,  ..., -0.0561, -0.0120, -0.0298],
+        ...,
+        [-0.0332,  0.1117, -0.1308,  ..., -0.0922,  0.0137, -0.0952],
+        [ 0.0015, -0.0704,  0.0277,  ...,  0.0471, -0.0945, -0.0388],
+        [-0.0267, -0.0590,  0.0445,  ..., -0.0555, -0.0399,  0.0947]],
+       device='cuda:0'), grad: tensor([[ 1.9558e-06, -3.2913e-06,  3.9022e-07,  ...,  3.2410e-06,
+          2.9989e-07,  9.9838e-07],
+        [ 6.3777e-06,  2.6394e-06,  5.2489e-06,  ...,  1.2763e-05,
+         -8.8476e-08,  3.0342e-06],
+        [ 5.7230e-07,  7.6834e-07,  8.3586e-07,  ...,  1.4193e-06,
+          4.1910e-09,  5.8208e-07],
+        ...,
+        [ 2.7176e-06, -9.7007e-06,  2.7083e-06,  ...,  5.8487e-06,
+          5.0943e-07,  3.4384e-06],
+        [-7.2680e-06,  7.3994e-07, -1.7434e-06,  ..., -1.1712e-05,
+          6.9663e-07,  3.6061e-06],
+        [ 4.3325e-06,  4.1835e-06, -5.5274e-07,  ...,  7.5698e-06,
+          2.2491e-07, -2.0787e-06]], device='cuda:0')
+Epoch 101, bias, value: tensor([ 0.0035,  0.0014,  0.0072,  0.0124,  0.0255,  0.0366, -0.0230,  0.0100,
+        -0.0369, -0.0196], device='cuda:0'), grad: tensor([ 1.2908e-06,  2.8968e-05, -1.9670e-06,  2.0757e-05, -1.0289e-05,
+        -7.7546e-05,  4.5121e-05, -2.0474e-05, -5.3942e-06,  1.9670e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 100, time 220.01, cls_loss 0.0048 cls_loss_mapping 0.0064 cls_loss_causal 0.6021 re_mapping 0.0101 re_causal 0.0298 /// teacc 98.72 lr 0.00010000
+Epoch 102, weight, value: tensor([[-0.0170,  0.1011,  0.0603,  ..., -0.1261, -0.0923,  0.0266],
+        [ 0.0928, -0.0111, -0.0426,  ...,  0.0528,  0.0773, -0.0991],
+        [-0.0530, -0.0265, -0.0337,  ..., -0.0568, -0.0122, -0.0301],
+        ...,
+        [-0.0337,  0.1122, -0.1315,  ..., -0.0932,  0.0139, -0.0955],
+        [ 0.0010, -0.0707,  0.0270,  ...,  0.0466, -0.0946, -0.0394],
+        [-0.0274, -0.0594,  0.0450,  ..., -0.0559, -0.0400,  0.0954]],
+       device='cuda:0'), grad: tensor([[ 4.9686e-07, -7.3537e-06, -2.5947e-06,  ...,  2.2501e-06,
+          2.1886e-08, -3.2000e-06],
+        [ 2.7418e-04,  2.7241e-07,  2.5658e-07,  ...,  9.8515e-04,
+         -2.7427e-07,  2.0349e-07],
+        [ 8.1398e-07,  5.9884e-07,  3.6415e-07,  ...,  2.2352e-06,
+          5.1688e-08,  2.5332e-07],
+        ...,
+        [ 4.6119e-06,  1.5087e-07,  6.2771e-07,  ...,  1.6108e-05,
+          8.8010e-08,  7.2224e-07],
+        [ 5.0664e-06,  2.5472e-07,  1.1679e-06,  ...,  1.6883e-05,
+          3.4459e-08,  1.1679e-06],
+        [ 4.5151e-06,  1.3215e-06, -6.5984e-07,  ...,  1.7345e-05,
+          3.2131e-08, -3.4049e-06]], device='cuda:0')
+Epoch 102, bias, value: tensor([ 0.0038,  0.0019,  0.0067,  0.0126,  0.0258,  0.0369, -0.0236,  0.0099,
+        -0.0378, -0.0195], device='cuda:0'), grad: tensor([-8.3670e-06,  1.1654e-03,  3.8296e-06, -2.7437e-06, -1.2550e-03,
+         8.3074e-06,  2.5705e-05,  2.0385e-05,  2.2292e-05,  1.9699e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 101, time 219.74, cls_loss 0.0046 cls_loss_mapping 0.0077 cls_loss_causal 0.5650 re_mapping 0.0098 re_causal 0.0287 /// teacc 98.82 lr 0.00010000
+Epoch 103, weight, value: tensor([[-0.0171,  0.1016,  0.0605,  ..., -0.1268, -0.0924,  0.0266],
+        [ 0.0935, -0.0108, -0.0433,  ...,  0.0532,  0.0773, -0.0994],
+        [-0.0533, -0.0270, -0.0337,  ..., -0.0569, -0.0120, -0.0300],
+        ...,
+        [-0.0342,  0.1127, -0.1309,  ..., -0.0948,  0.0139, -0.0959],
+        [ 0.0014, -0.0709,  0.0273,  ...,  0.0470, -0.0946, -0.0395],
+        [-0.0289, -0.0603,  0.0449,  ..., -0.0565, -0.0403,  0.0959]],
+       device='cuda:0'), grad: tensor([[ 1.7975e-06,  1.3253e-06,  2.4009e-06,  ...,  2.1122e-06,
+          7.9162e-09,  6.3051e-07],
+        [ 9.6671e-07,  1.2880e-06,  7.9125e-06,  ...,  1.3910e-05,
+         -1.8720e-07,  5.5432e-06],
+        [ 3.3975e-06,  5.9977e-06,  1.1530e-06,  ...,  2.6841e-06,
+          1.2573e-08,  2.3609e-07],
+        ...,
+        [ 5.5227e-07, -1.5005e-05,  1.4221e-06,  ...,  2.6915e-06,
+          8.0559e-08,  1.0971e-06],
+        [-1.1253e-04,  5.8487e-07, -1.6117e-04,  ..., -1.1420e-04,
+          5.9605e-08, -2.7984e-05],
+        [ 8.4341e-06,  3.3583e-06,  9.7811e-05,  ...,  1.9884e-04,
+          5.8673e-08,  5.7727e-05]], device='cuda:0')
+Epoch 103, bias, value: tensor([ 0.0039,  0.0017,  0.0070,  0.0126,  0.0260,  0.0366, -0.0236,  0.0105,
+        -0.0376, -0.0202], device='cuda:0'), grad: tensor([ 7.4431e-06,  3.0071e-05,  1.6794e-05,  1.7321e-04, -3.9005e-04,
+         3.4660e-05,  7.3165e-06, -1.4804e-05, -2.4796e-04,  3.8242e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 102, time 219.44, cls_loss 0.0048 cls_loss_mapping 0.0085 cls_loss_causal 0.5868 re_mapping 0.0100 re_causal 0.0291 /// teacc 98.92 lr 0.00010000
+Epoch 104, weight, value: tensor([[-0.0173,  0.1022,  0.0611,  ..., -0.1273, -0.0924,  0.0270],
+        [ 0.0951, -0.0115, -0.0426,  ...,  0.0543,  0.0785, -0.0994],
+        [-0.0542, -0.0273, -0.0343,  ..., -0.0574, -0.0126, -0.0303],
+        ...,
+        [-0.0354,  0.1146, -0.1313,  ..., -0.0953,  0.0133, -0.0961],
+        [ 0.0017, -0.0711,  0.0274,  ...,  0.0472, -0.0946, -0.0395],
+        [-0.0299, -0.0627,  0.0447,  ..., -0.0575, -0.0407,  0.0960]],
+       device='cuda:0'), grad: tensor([[ 4.6333e-07, -7.4692e-06, -4.6045e-06,  ...,  2.9728e-06,
+          3.2876e-07, -1.7677e-06],
+        [ 1.0706e-05,  2.3216e-05,  1.3523e-06,  ...,  1.3873e-05,
+         -4.6939e-07,  5.9791e-07],
+        [ 5.3868e-06,  2.6524e-06,  3.0342e-06,  ..., -5.6744e-05,
+         -3.2084e-07,  3.8929e-07],
+        ...,
+        [-1.7226e-05, -4.7892e-05,  2.6375e-06,  ..., -2.2694e-05,
+          2.2491e-07,  1.8198e-06],
+        [-8.4657e-07,  4.7795e-06,  6.5938e-06,  ..., -5.8953e-07,
+         -1.4016e-07,  8.1509e-06],
+        [ 1.9325e-07,  7.1116e-06, -1.5110e-05,  ...,  2.5965e-06,
+          1.9511e-07, -1.5840e-05]], device='cuda:0')
+Epoch 104, bias, value: tensor([ 0.0044,  0.0026,  0.0065,  0.0127,  0.0263,  0.0366, -0.0241,  0.0108,
+        -0.0373, -0.0212], device='cuda:0'), grad: tensor([ 2.3589e-05,  5.8800e-05, -8.2445e-04,  3.7074e-05,  7.0477e-04,
+         7.8976e-06,  6.1810e-05, -1.1665e-04,  4.1664e-05,  5.0440e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 103, time 219.90, cls_loss 0.0053 cls_loss_mapping 0.0072 cls_loss_causal 0.6032 re_mapping 0.0099 re_causal 0.0287 /// teacc 98.91 lr 0.00010000
+Epoch 105, weight, value: tensor([[-0.0172,  0.1028,  0.0608,  ..., -0.1273, -0.0924,  0.0263],
+        [ 0.0963, -0.0116, -0.0424,  ...,  0.0556,  0.0796, -0.0996],
+        [-0.0550, -0.0280, -0.0347,  ..., -0.0581, -0.0133, -0.0309],
+        ...,
+        [-0.0359,  0.1150, -0.1318,  ..., -0.0962,  0.0129, -0.0970],
+        [ 0.0004, -0.0716,  0.0268,  ...,  0.0465, -0.0963, -0.0397],
+        [-0.0306, -0.0623,  0.0458,  ..., -0.0577, -0.0408,  0.0974]],
+       device='cuda:0'), grad: tensor([[ 1.4668e-06, -3.8603e-07,  1.3269e-05,  ...,  1.1837e-06,
+          2.9709e-07,  1.9908e-05],
+        [ 2.8051e-06,  7.5903e-08,  9.9018e-06,  ..., -1.8207e-07,
+          2.7753e-06,  7.3165e-06],
+        [ 2.2966e-06,  5.4482e-08,  9.5218e-06,  ...,  4.6287e-07,
+          2.6450e-06,  9.6038e-06],
+        ...,
+        [ 9.0897e-06, -1.5507e-07,  2.7344e-05,  ...,  9.7603e-07,
+          4.6641e-06,  8.5011e-06],
+        [ 2.2762e-06,  1.0757e-07,  1.0706e-05,  ...,  4.2422e-07,
+          2.7362e-06,  1.3269e-05],
+        [ 4.1388e-06,  1.9604e-07, -9.3043e-05,  ...,  1.0384e-06,
+          9.0478e-07, -1.5414e-04]], device='cuda:0')
+Epoch 105, bias, value: tensor([ 0.0040,  0.0034,  0.0062,  0.0123,  0.0261,  0.0378, -0.0248,  0.0106,
+        -0.0387, -0.0205], device='cuda:0'), grad: tensor([ 3.0339e-05,  2.6643e-05,  2.2814e-05, -8.0526e-05,  2.0504e-05,
+        -2.2042e-04,  2.7108e-04,  8.4877e-05,  2.7955e-05, -1.8370e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 104, time 219.66, cls_loss 0.0041 cls_loss_mapping 0.0064 cls_loss_causal 0.5925 re_mapping 0.0096 re_causal 0.0281 /// teacc 98.91 lr 0.00010000
+Epoch 106, weight, value: tensor([[-0.0173,  0.1034,  0.0614,  ..., -0.1283, -0.0924,  0.0265],
+        [ 0.0967, -0.0117, -0.0424,  ...,  0.0558,  0.0800, -0.0997],
+        [-0.0551, -0.0280, -0.0347,  ..., -0.0586, -0.0133, -0.0312],
+        ...,
+        [-0.0361,  0.1154, -0.1323,  ..., -0.0966,  0.0132, -0.0980],
+        [ 0.0003, -0.0721,  0.0268,  ...,  0.0465, -0.0971, -0.0398],
+        [-0.0307, -0.0626,  0.0458,  ..., -0.0582, -0.0414,  0.0977]],
+       device='cuda:0'), grad: tensor([[ 1.3486e-06, -3.2014e-07,  1.3225e-06,  ...,  1.3718e-06,
+          1.3504e-08,  9.7789e-09],
+        [ 6.2678e-07,  2.0536e-07,  1.5395e-06,  ...,  8.8662e-07,
+         -2.1001e-07,  1.9558e-07],
+        [ 7.0743e-06,  1.0221e-07,  8.0615e-06,  ...,  5.6326e-06,
+         -6.7521e-09,  3.1781e-07],
+        ...,
+        [ 2.5295e-06, -2.5835e-06,  3.2522e-06,  ...,  7.5996e-06,
+         -2.9965e-07,  1.2964e-06],
+        [ 2.2631e-06,  1.4598e-07,  1.7183e-06,  ..., -3.0547e-06,
+          6.7987e-08,  2.3395e-06],
+        [ 1.7351e-06,  1.2266e-06, -2.9746e-06,  ...,  1.5404e-06,
+          2.3609e-07, -1.1131e-05]], device='cuda:0')
+Epoch 106, bias, value: tensor([ 0.0043,  0.0034,  0.0063,  0.0121,  0.0265,  0.0380, -0.0251,  0.0104,
+        -0.0391, -0.0205], device='cuda:0'), grad: tensor([ 5.5991e-06,  6.6496e-06,  2.3454e-05, -7.0453e-05, -7.4580e-06,
+         1.2569e-05, -1.8254e-07,  1.4909e-05,  1.1951e-05,  3.0063e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 105, time 219.54, cls_loss 0.0060 cls_loss_mapping 0.0076 cls_loss_causal 0.5872 re_mapping 0.0099 re_causal 0.0296 /// teacc 98.81 lr 0.00010000
+Epoch 107, weight, value: tensor([[-0.0177,  0.1038,  0.0618,  ..., -0.1294, -0.0925,  0.0266],
+        [ 0.0961, -0.0117, -0.0434,  ...,  0.0547,  0.0799, -0.1014],
+        [-0.0553, -0.0285, -0.0345,  ..., -0.0587, -0.0129, -0.0306],
+        ...,
+        [-0.0362,  0.1158, -0.1328,  ..., -0.0969,  0.0133, -0.0988],
+        [ 0.0013, -0.0723,  0.0277,  ...,  0.0484, -0.0970, -0.0388],
+        [-0.0311, -0.0630,  0.0454,  ..., -0.0584, -0.0417,  0.0978]],
+       device='cuda:0'), grad: tensor([[ 2.7753e-06,  5.6744e-04,  2.6226e-03,  ...,  3.0026e-06,
+          4.1910e-09,  4.9210e-03],
+        [-2.1304e-07,  1.9446e-06,  2.9318e-06,  ...,  4.9174e-06,
+         -1.6298e-07,  5.2564e-06],
+        [ 3.5157e-08,  6.1020e-06,  1.7121e-05,  ..., -1.7524e-05,
+          1.4203e-08,  3.0205e-05],
+        ...,
+        [ 2.1537e-07, -3.7216e-06,  9.0674e-06,  ...,  1.5572e-06,
+          2.8405e-08,  1.6674e-05],
+        [ 2.3302e-06,  9.3551e-07,  5.4538e-06,  ...,  6.3591e-06,
+          6.1933e-08,  4.2357e-06],
+        [ 5.5321e-07, -5.8031e-04, -2.6760e-03,  ...,  1.0438e-05,
+          1.6764e-08, -5.0316e-03]], device='cuda:0')
+Epoch 107, bias, value: tensor([ 0.0045,  0.0028,  0.0066,  0.0141,  0.0262,  0.0365, -0.0252,  0.0101,
+        -0.0380, -0.0207], device='cuda:0'), grad: tensor([ 8.3618e-03,  2.0325e-05,  1.2279e-05,  3.0547e-05,  2.7061e-05,
+         2.2352e-05,  1.0967e-05,  2.1651e-05,  2.2978e-05, -8.5220e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 106, time 219.85, cls_loss 0.0065 cls_loss_mapping 0.0107 cls_loss_causal 0.5779 re_mapping 0.0098 re_causal 0.0289 /// teacc 98.82 lr 0.00010000
+Epoch 108, weight, value: tensor([[-0.0176,  0.1046,  0.0618,  ..., -0.1298, -0.0926,  0.0264],
+        [ 0.0951, -0.0103, -0.0428,  ...,  0.0540,  0.0801, -0.1019],
+        [-0.0557, -0.0289, -0.0351,  ..., -0.0596, -0.0129, -0.0310],
+        ...,
+        [-0.0343,  0.1151, -0.1336,  ..., -0.0949,  0.0135, -0.0996],
+        [ 0.0019, -0.0721,  0.0280,  ...,  0.0492, -0.0974, -0.0385],
+        [-0.0311, -0.0638,  0.0459,  ..., -0.0590, -0.0419,  0.0985]],
+       device='cuda:0'), grad: tensor([[ 6.0629e-07,  4.0382e-06,  1.0803e-06,  ...,  1.7285e-06,
+          2.9476e-07,  2.6952e-06],
+        [-7.0155e-05,  8.7693e-06, -1.3545e-05,  ..., -3.4183e-05,
+         -4.5389e-05,  5.8673e-07],
+        [ 3.1814e-06, -7.0035e-05, -5.3681e-06,  ..., -2.4494e-06,
+         -1.5758e-06,  2.8964e-07],
+        ...,
+        [ 5.3585e-05, -1.9848e-05,  1.1884e-05,  ...,  2.9594e-05,
+          3.5077e-05, -1.6898e-05],
+        [-1.1921e-06,  3.4515e-06, -5.4436e-07,  ..., -2.7753e-06,
+          9.7789e-07,  1.2806e-08],
+        [ 2.0750e-06,  4.4674e-05,  1.6466e-06,  ...,  2.1383e-06,
+          1.1567e-06,  1.4976e-05]], device='cuda:0')
+Epoch 108, bias, value: tensor([ 0.0043,  0.0026,  0.0061,  0.0131,  0.0267,  0.0372, -0.0261,  0.0107,
+        -0.0377, -0.0208], device='cuda:0'), grad: tensor([ 1.2018e-05, -9.4950e-05, -5.3930e-04,  2.4104e-04,  8.3074e-07,
+        -1.8418e-05,  3.2838e-06,  2.8896e-04,  2.7955e-05,  7.9453e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 107, time 219.36, cls_loss 0.0056 cls_loss_mapping 0.0071 cls_loss_causal 0.5808 re_mapping 0.0096 re_causal 0.0274 /// teacc 98.85 lr 0.00010000
+Epoch 109, weight, value: tensor([[-0.0184,  0.1053,  0.0624,  ..., -0.1315, -0.0932,  0.0265],
+        [ 0.0953, -0.0102, -0.0431,  ...,  0.0541,  0.0803, -0.1022],
+        [-0.0559, -0.0296, -0.0357,  ..., -0.0596, -0.0131, -0.0317],
+        ...,
+        [-0.0346,  0.1154, -0.1353,  ..., -0.0954,  0.0135, -0.1012],
+        [ 0.0024, -0.0725,  0.0286,  ...,  0.0501, -0.0974, -0.0382],
+        [-0.0313, -0.0638,  0.0472,  ..., -0.0593, -0.0420,  0.0997]],
+       device='cuda:0'), grad: tensor([[ 3.1441e-05,  8.4788e-06, -1.5944e-05,  ...,  4.3750e-05,
+          7.9162e-09,  9.5144e-06],
+        [-9.5606e-05,  8.8438e-06,  4.4517e-07,  ..., -1.7083e-04,
+         -1.6438e-07,  7.1665e-07],
+        [ 5.2117e-06,  9.3162e-05,  2.6003e-05,  ...,  2.8118e-05,
+          6.2399e-08,  2.6971e-05],
+        ...,
+        [ 8.2031e-06, -1.1736e-04,  4.5309e-07,  ...,  1.6093e-05,
+          3.4925e-08,  5.6531e-07],
+        [ 1.9297e-05,  7.1004e-06,  1.3560e-06,  ...,  3.1859e-05,
+          1.2107e-08,  5.3346e-06],
+        [ 1.4052e-05,  3.8773e-05,  1.1377e-05,  ...,  2.4021e-05,
+          1.3970e-08,  1.7196e-05]], device='cuda:0')
+Epoch 109, bias, value: tensor([ 0.0044,  0.0025,  0.0061,  0.0123,  0.0266,  0.0368, -0.0261,  0.0106,
+        -0.0371, -0.0201], device='cuda:0'), grad: tensor([ 4.8965e-05, -1.7607e-04,  2.4939e-04,  4.4882e-05,  5.7608e-05,
+         5.6416e-05, -2.1255e-04, -2.3341e-04,  5.3197e-05,  1.1170e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 108, time 219.56, cls_loss 0.0046 cls_loss_mapping 0.0074 cls_loss_causal 0.5783 re_mapping 0.0103 re_causal 0.0284 /// teacc 98.85 lr 0.00010000
+Epoch 110, weight, value: tensor([[-0.0189,  0.1053,  0.0623,  ..., -0.1319, -0.0937,  0.0257],
+        [ 0.0956, -0.0099, -0.0431,  ...,  0.0545,  0.0807, -0.1024],
+        [-0.0562, -0.0305, -0.0356,  ..., -0.0599, -0.0133, -0.0316],
+        ...,
+        [-0.0348,  0.1163, -0.1351,  ..., -0.0960,  0.0134, -0.1004],
+        [ 0.0026, -0.0727,  0.0290,  ...,  0.0507, -0.0975, -0.0381],
+        [-0.0316, -0.0653,  0.0475,  ..., -0.0597, -0.0423,  0.1006]],
+       device='cuda:0'), grad: tensor([[ 4.5970e-06, -7.9945e-06, -5.0887e-06,  ...,  1.2867e-05,
+          3.3062e-08, -6.7428e-06],
+        [ 6.3218e-06,  2.4319e-05,  1.3728e-06,  ...,  2.7046e-05,
+         -9.8627e-07,  5.2061e-07],
+        [ 9.3430e-06,  2.4050e-05,  2.6766e-06,  ...,  2.4766e-05,
+          3.8929e-07,  5.3551e-07],
+        ...,
+        [ 1.6302e-05,  1.0550e-05,  1.0051e-05,  ...,  5.1767e-05,
+          2.0070e-07,  1.3784e-05],
+        [ 2.5019e-05,  2.4378e-05,  2.2560e-05,  ...,  4.9859e-05,
+          6.2771e-07,  1.7956e-05],
+        [ 7.1116e-06,  1.7568e-05, -2.2367e-05,  ...,  1.8790e-05,
+          1.7509e-07, -2.9162e-05]], device='cuda:0')
+Epoch 110, bias, value: tensor([ 0.0034,  0.0027,  0.0061,  0.0121,  0.0267,  0.0365, -0.0260,  0.0110,
+        -0.0368, -0.0203], device='cuda:0'), grad: tensor([-5.7518e-06,  7.5877e-05,  7.1168e-05, -1.9029e-05, -5.5504e-04,
+         1.0920e-04,  4.8101e-05,  1.0926e-04,  1.5938e-04,  6.6683e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 109, time 219.88, cls_loss 0.0057 cls_loss_mapping 0.0080 cls_loss_causal 0.5823 re_mapping 0.0094 re_causal 0.0280 /// teacc 98.81 lr 0.00010000
+Epoch 111, weight, value: tensor([[-0.0191,  0.1060,  0.0630,  ..., -0.1320, -0.0937,  0.0258],
+        [ 0.0974, -0.0100, -0.0437,  ...,  0.0552,  0.0827, -0.1031],
+        [-0.0584, -0.0311, -0.0364,  ..., -0.0609, -0.0152, -0.0328],
+        ...,
+        [-0.0351,  0.1168, -0.1366,  ..., -0.0967,  0.0132, -0.1023],
+        [ 0.0024, -0.0731,  0.0287,  ...,  0.0507, -0.0977, -0.0384],
+        [-0.0319, -0.0656,  0.0486,  ..., -0.0598, -0.0426,  0.1018]],
+       device='cuda:0'), grad: tensor([[ 2.6058e-06,  6.0536e-08,  7.6462e-07,  ...,  1.9856e-06,
+          3.3947e-07,  3.9395e-07],
+        [ 6.0955e-07,  3.7951e-07,  1.4948e-07,  ..., -7.7952e-07,
+         -5.5879e-07,  7.2177e-08],
+        [ 1.0088e-05,  6.5193e-07,  1.3160e-06,  ...,  6.4038e-06,
+          1.9297e-06,  6.5193e-07],
+        ...,
+        [ 1.0487e-06, -3.6806e-06,  8.4750e-07,  ...,  6.0871e-06,
+          2.7195e-07,  9.2341e-07],
+        [-2.3052e-05,  2.4401e-07, -1.3545e-05,  ..., -1.3284e-05,
+          5.7509e-07, -6.5975e-06],
+        [ 1.4946e-05,  1.3970e-06,  7.1600e-06,  ...,  1.1750e-05,
+          2.1840e-07,  2.2501e-06]], device='cuda:0')
+Epoch 111, bias, value: tensor([ 0.0036,  0.0033,  0.0051,  0.0125,  0.0268,  0.0364, -0.0265,  0.0105,
+        -0.0374, -0.0195], device='cuda:0'), grad: tensor([ 7.1228e-06,  5.9083e-06,  2.0504e-05, -1.2517e-06, -1.9684e-05,
+         1.2189e-05, -2.5257e-05,  1.2934e-05, -5.5313e-05,  4.2737e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 110, time 219.79, cls_loss 0.0053 cls_loss_mapping 0.0084 cls_loss_causal 0.5818 re_mapping 0.0097 re_causal 0.0273 /// teacc 98.92 lr 0.00010000
+Epoch 112, weight, value: tensor([[-0.0192,  0.1064,  0.0634,  ..., -0.1324, -0.0940,  0.0260],
+        [ 0.0981, -0.0102, -0.0434,  ...,  0.0558,  0.0826, -0.1033],
+        [-0.0585, -0.0315, -0.0356,  ..., -0.0608, -0.0149, -0.0329],
+        ...,
+        [-0.0353,  0.1170, -0.1374,  ..., -0.0976,  0.0136, -0.1033],
+        [ 0.0026, -0.0722,  0.0285,  ...,  0.0512, -0.0980, -0.0386],
+        [-0.0321, -0.0665,  0.0494,  ..., -0.0605, -0.0429,  0.1025]],
+       device='cuda:0'), grad: tensor([[ 9.2462e-06,  1.2927e-06, -1.7602e-06,  ...,  1.0513e-05,
+          7.1758e-07, -2.1085e-06],
+        [ 1.9614e-06,  2.6412e-06,  7.2829e-07,  ...,  3.2298e-06,
+          5.7695e-07,  3.5809e-07],
+        [ 1.6410e-06,  1.2834e-06,  4.2794e-07,  ...,  2.0862e-06,
+         -4.8354e-06,  5.8906e-07],
+        ...,
+        [ 4.9872e-07, -9.7454e-06,  1.4910e-06,  ...,  1.1325e-06,
+          1.2675e-06,  1.2117e-06],
+        [ 1.3001e-05,  3.1590e-06,  5.6922e-06,  ...,  1.3441e-05,
+          1.6503e-06,  9.0674e-06],
+        [ 1.9278e-06,  5.8711e-06,  2.8498e-07,  ...,  3.0920e-06,
+          6.0862e-07,  8.2888e-07]], device='cuda:0')
+Epoch 112, bias, value: tensor([ 0.0038,  0.0032,  0.0055,  0.0126,  0.0269,  0.0365, -0.0274,  0.0102,
+        -0.0367, -0.0197], device='cuda:0'), grad: tensor([ 1.7300e-05,  1.2845e-05, -1.3098e-05, -2.1122e-06,  3.1024e-05,
+        -3.7074e-05, -5.5254e-05, -5.9046e-06,  3.8177e-05,  1.4044e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 111, time 219.68, cls_loss 0.0042 cls_loss_mapping 0.0064 cls_loss_causal 0.5716 re_mapping 0.0092 re_causal 0.0261 /// teacc 98.85 lr 0.00010000
+Epoch 113, weight, value: tensor([[-0.0194,  0.1066,  0.0642,  ..., -0.1330, -0.0941,  0.0264],
+        [ 0.0989, -0.0102, -0.0431,  ...,  0.0566,  0.0831, -0.1030],
+        [-0.0588, -0.0319, -0.0351,  ..., -0.0606, -0.0147, -0.0330],
+        ...,
+        [-0.0355,  0.1172, -0.1390,  ..., -0.0981,  0.0136, -0.1042],
+        [ 0.0024, -0.0727,  0.0281,  ...,  0.0509, -0.0985, -0.0393],
+        [-0.0326, -0.0667,  0.0499,  ..., -0.0610, -0.0435,  0.1031]],
+       device='cuda:0'), grad: tensor([[ 9.5740e-07, -2.4308e-06, -7.4357e-06,  ...,  2.9579e-06,
+          5.1688e-08, -1.3359e-05],
+        [-1.7555e-07,  5.8487e-07,  4.7609e-06,  ...,  8.2143e-07,
+         -1.4016e-07,  4.5411e-06],
+        [ 4.0652e-07,  4.9500e-07,  1.0990e-05,  ...,  1.9651e-06,
+          1.9092e-08,  2.9616e-06],
+        ...,
+        [ 2.7288e-07, -1.6475e-06,  6.2548e-06,  ...,  1.3988e-06,
+          1.8068e-07,  6.5491e-06],
+        [-8.3447e-07,  9.6299e-07,  8.5309e-06,  ..., -6.6543e-07,
+          6.8452e-08,  1.8030e-06],
+        [ 3.6974e-07,  1.1772e-06,  1.1409e-06,  ...,  1.8757e-06,
+         -2.9383e-07, -1.0528e-05]], device='cuda:0')
+Epoch 113, bias, value: tensor([ 0.0042,  0.0034,  0.0058,  0.0132,  0.0268,  0.0361, -0.0273,  0.0099,
+        -0.0372, -0.0198], device='cuda:0'), grad: tensor([-1.5974e-05,  1.5333e-05,  2.9907e-05, -1.0639e-04,  8.8632e-05,
+         1.6347e-05, -9.0003e-05,  1.5393e-05,  3.4779e-05,  1.2077e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 112, time 219.36, cls_loss 0.0071 cls_loss_mapping 0.0102 cls_loss_causal 0.5708 re_mapping 0.0101 re_causal 0.0273 /// teacc 98.86 lr 0.00010000
+Epoch 114, weight, value: tensor([[-0.0196,  0.1060,  0.0635,  ..., -0.1339, -0.0941,  0.0250],
+        [ 0.0991, -0.0104, -0.0437,  ...,  0.0572,  0.0833, -0.1035],
+        [-0.0590, -0.0326, -0.0351,  ..., -0.0608, -0.0146, -0.0323],
+        ...,
+        [-0.0357,  0.1184, -0.1392,  ..., -0.0987,  0.0135, -0.1042],
+        [ 0.0012, -0.0747,  0.0264,  ...,  0.0499, -0.0985, -0.0418],
+        [-0.0334, -0.0664,  0.0513,  ..., -0.0614, -0.0437,  0.1050]],
+       device='cuda:0'), grad: tensor([[-1.4435e-08, -2.9188e-06, -5.7742e-06,  ...,  4.1677e-07,
+          3.7719e-08, -6.1393e-06],
+        [-1.1455e-06,  5.8115e-06,  1.7183e-07,  ..., -1.2843e-06,
+         -2.5472e-07,  1.2526e-07],
+        [ 5.9791e-07,  3.9712e-06,  2.4633e-07,  ...,  4.2561e-07,
+         -5.4017e-08,  2.0443e-07],
+        ...,
+        [ 1.0533e-06, -2.3648e-05,  5.2713e-07,  ...,  1.4389e-06,
+          3.3947e-07,  6.3935e-07],
+        [ 6.4308e-07,  5.9605e-07,  1.0198e-06,  ...,  1.8068e-07,
+          3.1199e-07,  1.1856e-06],
+        [ 4.4983e-07,  6.1989e-06,  2.0824e-06,  ...,  7.9488e-07,
+          7.7765e-08,  2.7604e-06]], device='cuda:0')
+Epoch 114, bias, value: tensor([ 0.0029,  0.0034,  0.0059,  0.0135,  0.0259,  0.0353, -0.0262,  0.0104,
+        -0.0383, -0.0187], device='cuda:0'), grad: tensor([-8.9556e-06,  5.8040e-06,  6.4820e-07,  1.5333e-05,  1.5134e-07,
+        -1.7807e-06, -2.7083e-06, -2.2605e-05,  3.2391e-06,  1.0870e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 113, time 219.56, cls_loss 0.0049 cls_loss_mapping 0.0064 cls_loss_causal 0.5931 re_mapping 0.0091 re_causal 0.0264 /// teacc 98.98 lr 0.00010000
+Epoch 115, weight, value: tensor([[-0.0200,  0.1065,  0.0639,  ..., -0.1346, -0.0942,  0.0254],
+        [ 0.0999, -0.0096, -0.0439,  ...,  0.0577,  0.0836, -0.1036],
+        [-0.0594, -0.0323, -0.0352,  ..., -0.0613, -0.0150, -0.0330],
+        ...,
+        [-0.0361,  0.1180, -0.1396,  ..., -0.0991,  0.0139, -0.1050],
+        [ 0.0003, -0.0752,  0.0261,  ...,  0.0493, -0.0997, -0.0423],
+        [-0.0339, -0.0671,  0.0517,  ..., -0.0621, -0.0440,  0.1052]],
+       device='cuda:0'), grad: tensor([[ 7.8045e-07, -6.8499e-07, -1.4063e-06,  ...,  6.5900e-06,
+          1.9139e-07, -3.5670e-07],
+        [ 3.2485e-05, -4.5635e-08,  3.3557e-05,  ...,  1.3614e-04,
+          1.0863e-05,  5.5760e-05],
+        [-3.3341e-06,  4.6566e-08,  5.2340e-07,  ..., -1.3256e-04,
+          1.5507e-07,  7.4133e-07],
+        ...,
+        [ 2.3581e-06,  3.5483e-07,  5.6550e-06,  ...,  2.0191e-05,
+          2.6356e-07,  6.2995e-06],
+        [-3.1963e-06,  8.6613e-08,  3.1013e-07,  ..., -1.9193e-05,
+          2.6859e-06,  1.1370e-05],
+        [ 1.7300e-05, -8.6613e-07,  3.6899e-06,  ...,  2.3082e-05,
+          6.3479e-06,  1.3009e-05]], device='cuda:0')
+Epoch 115, bias, value: tensor([ 0.0031,  0.0040,  0.0066,  0.0129,  0.0263,  0.0362, -0.0260,  0.0095,
+        -0.0393, -0.0190], device='cuda:0'), grad: tensor([ 3.0607e-05,  6.5756e-04, -7.4720e-04,  5.4747e-05,  4.7982e-05,
+        -1.3673e-04,  2.1473e-05,  5.7638e-05,  6.6590e-08,  1.2949e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 114, time 219.59, cls_loss 0.0036 cls_loss_mapping 0.0066 cls_loss_causal 0.6067 re_mapping 0.0088 re_causal 0.0276 /// teacc 98.87 lr 0.00010000
+Epoch 116, weight, value: tensor([[-0.0201,  0.1067,  0.0641,  ..., -0.1354, -0.0942,  0.0256],
+        [ 0.1001, -0.0093, -0.0437,  ...,  0.0579,  0.0837, -0.1037],
+        [-0.0595, -0.0321, -0.0349,  ..., -0.0615, -0.0151, -0.0336],
+        ...,
+        [-0.0365,  0.1179, -0.1407,  ..., -0.0995,  0.0137, -0.1067],
+        [ 0.0009, -0.0755,  0.0265,  ...,  0.0502, -0.0997, -0.0419],
+        [-0.0343, -0.0672,  0.0514,  ..., -0.0634, -0.0442,  0.1051]],
+       device='cuda:0'), grad: tensor([[ 3.9535e-07, -3.3174e-06, -1.1399e-06,  ...,  1.4165e-06,
+          8.2050e-07, -1.0170e-06],
+        [-3.0268e-07,  1.0334e-05,  8.0699e-07,  ...,  5.5470e-06,
+         -2.6310e-07,  4.0093e-07],
+        [ 4.3726e-07,  2.1607e-06,  1.2442e-06,  ...,  1.5106e-06,
+          7.3947e-07,  4.1351e-07],
+        ...,
+        [ 4.8056e-07, -2.2784e-05, -3.7719e-08,  ...,  1.0654e-05,
+          2.2678e-07,  1.1381e-06],
+        [-3.5055e-06,  4.2515e-07, -6.1616e-06,  ..., -4.1649e-06,
+          1.9874e-06, -7.9162e-07],
+        [ 3.3947e-07,  8.7544e-06, -2.5257e-06,  ...,  8.8513e-06,
+          8.6147e-08, -3.6266e-06]], device='cuda:0')
+Epoch 116, bias, value: tensor([ 0.0032,  0.0042,  0.0068,  0.0132,  0.0267,  0.0359, -0.0262,  0.0090,
+        -0.0387, -0.0193], device='cuda:0'), grad: tensor([-1.9688e-06,  2.5228e-05,  9.2536e-06,  2.4170e-05, -2.9847e-05,
+        -2.1115e-05,  8.6278e-06, -3.7998e-05, -3.3118e-06,  2.6822e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 115, time 220.37, cls_loss 0.0049 cls_loss_mapping 0.0067 cls_loss_causal 0.5790 re_mapping 0.0086 re_causal 0.0257 /// teacc 98.89 lr 0.00010000
+Epoch 117, weight, value: tensor([[-0.0205,  0.1073,  0.0644,  ..., -0.1364, -0.0944,  0.0255],
+        [ 0.1006, -0.0094, -0.0435,  ...,  0.0581,  0.0840, -0.1040],
+        [-0.0598, -0.0325, -0.0356,  ..., -0.0619, -0.0155, -0.0346],
+        ...,
+        [-0.0367,  0.1187, -0.1411,  ..., -0.0997,  0.0143, -0.1074],
+        [ 0.0010, -0.0759,  0.0283,  ...,  0.0514, -0.1006, -0.0403],
+        [-0.0351, -0.0681,  0.0513,  ..., -0.0638, -0.0446,  0.1055]],
+       device='cuda:0'), grad: tensor([[ 1.2899e-06,  1.8813e-06,  1.6149e-06,  ...,  7.6555e-07,
+          6.3330e-08,  1.7863e-06],
+        [ 1.1316e-07,  1.2657e-06,  3.3677e-05,  ...,  7.2643e-08,
+         -8.5216e-08,  5.1081e-05],
+        [ 4.1490e-07, -3.3695e-06,  3.2876e-07,  ...,  2.3423e-07,
+          1.4016e-07,  3.5344e-07],
+        ...,
+        [ 8.4937e-07, -2.6915e-06,  6.3851e-06,  ...,  8.8476e-07,
+          6.7987e-08,  5.6848e-06],
+        [-7.9907e-07,  1.8124e-06,  3.5524e-05,  ...,  2.6599e-06,
+          2.9709e-07,  2.8685e-05],
+        [ 3.5111e-07,  1.2890e-06, -1.7154e-04,  ..., -6.9402e-06,
+          2.7940e-08, -2.2888e-04]], device='cuda:0')
+Epoch 117, bias, value: tensor([ 0.0031,  0.0042,  0.0065,  0.0129,  0.0270,  0.0356, -0.0269,  0.0094,
+        -0.0375, -0.0197], device='cuda:0'), grad: tensor([ 3.2693e-05,  8.6784e-05, -9.1553e-05,  4.7795e-06,  2.0564e-04,
+         1.2971e-05, -8.1956e-06,  3.1173e-05,  9.4533e-05, -3.6883e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 116, time 219.06, cls_loss 0.0044 cls_loss_mapping 0.0067 cls_loss_causal 0.5838 re_mapping 0.0092 re_causal 0.0264 /// teacc 98.85 lr 0.00010000
+Epoch 118, weight, value: tensor([[-0.0206,  0.1075,  0.0644,  ..., -0.1368, -0.0944,  0.0253],
+        [ 0.1008, -0.0088, -0.0438,  ...,  0.0581,  0.0844, -0.1047],
+        [-0.0601, -0.0328, -0.0360,  ..., -0.0624, -0.0156, -0.0352],
+        ...,
+        [-0.0370,  0.1186, -0.1418,  ..., -0.0998,  0.0141, -0.1084],
+        [ 0.0008, -0.0763,  0.0283,  ...,  0.0517, -0.1010, -0.0405],
+        [-0.0354, -0.0685,  0.0523,  ..., -0.0637, -0.0447,  0.1069]],
+       device='cuda:0'), grad: tensor([[ 3.9227e-06, -2.6375e-06,  6.1728e-06,  ...,  6.0201e-06,
+          1.9278e-07,  2.0731e-06],
+        [-1.3433e-05,  4.2003e-07,  6.1234e-07,  ..., -1.9163e-05,
+         -5.6289e-06,  6.6916e-07],
+        [ 4.8913e-06,  1.6624e-07,  2.0210e-07,  ...,  6.3516e-06,
+          2.0210e-06,  1.3178e-06],
+        ...,
+        [ 7.3295e-07, -8.6194e-07,  6.1188e-07,  ...,  2.1439e-06,
+          1.5367e-07,  5.0990e-07],
+        [-3.7313e-05,  1.3178e-07, -4.5598e-05,  ..., -4.7117e-05,
+         -6.8024e-06, -3.0354e-05],
+        [ 6.8024e-06,  2.4196e-06,  1.8537e-05,  ...,  3.0816e-05,
+          3.0082e-07,  1.6078e-05]], device='cuda:0')
+Epoch 118, bias, value: tensor([ 0.0029,  0.0045,  0.0066,  0.0120,  0.0265,  0.0358, -0.0264,  0.0093,
+        -0.0378, -0.0191], device='cuda:0'), grad: tensor([ 1.1124e-05, -3.0816e-05, -2.0891e-05,  2.6301e-05, -2.2948e-05,
+         3.4757e-06,  6.9439e-05,  3.2410e-06, -1.0979e-04,  7.0810e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 117, time 219.96, cls_loss 0.0040 cls_loss_mapping 0.0069 cls_loss_causal 0.5664 re_mapping 0.0090 re_causal 0.0264 /// teacc 98.84 lr 0.00010000
+Epoch 119, weight, value: tensor([[-0.0214,  0.1078,  0.0646,  ..., -0.1386, -0.0951,  0.0253],
+        [ 0.1011, -0.0093, -0.0444,  ...,  0.0586,  0.0846, -0.1049],
+        [-0.0604, -0.0331, -0.0365,  ..., -0.0628, -0.0157, -0.0357],
+        ...,
+        [-0.0367,  0.1194, -0.1415,  ..., -0.1001,  0.0140, -0.1095],
+        [ 0.0004, -0.0769,  0.0281,  ...,  0.0516, -0.1012, -0.0407],
+        [-0.0358, -0.0690,  0.0522,  ..., -0.0642, -0.0448,  0.1072]],
+       device='cuda:0'), grad: tensor([[ 4.7088e-06, -5.7276e-08,  6.8285e-06,  ...,  4.6976e-06,
+          2.6962e-07,  2.3786e-06],
+        [ 1.9185e-06,  1.0654e-06,  2.5872e-06,  ...,  4.6901e-06,
+          9.4995e-08,  1.0785e-06],
+        [ 3.8557e-06,  3.0175e-07,  1.2524e-05,  ...,  2.9504e-06,
+          2.2203e-06,  9.7230e-07],
+        ...,
+        [ 1.0356e-06, -1.3113e-05,  2.0098e-06,  ...,  2.9095e-06,
+          2.3749e-07,  1.0580e-06],
+        [-2.3395e-05,  1.3746e-06, -2.1607e-05,  ..., -2.1994e-05,
+          2.8033e-07, -3.2373e-06],
+        [ 4.3921e-06,  9.0003e-06, -2.9374e-06,  ..., -1.7393e-04,
+          6.3796e-08, -1.7858e-04]], device='cuda:0')
+Epoch 119, bias, value: tensor([ 0.0023,  0.0043,  0.0065,  0.0117,  0.0268,  0.0363, -0.0256,  0.0098,
+        -0.0383, -0.0195], device='cuda:0'), grad: tensor([ 1.7047e-05,  1.5959e-05,  8.4162e-05, -8.6129e-05,  6.5088e-04,
+         4.6007e-06,  1.4141e-05, -1.1981e-05, -3.0056e-05, -6.5851e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 118, time 219.59, cls_loss 0.0044 cls_loss_mapping 0.0060 cls_loss_causal 0.6092 re_mapping 0.0087 re_causal 0.0259 /// teacc 98.97 lr 0.00010000
+Epoch 120, weight, value: tensor([[-0.0220,  0.1085,  0.0647,  ..., -0.1402, -0.0952,  0.0252],
+        [ 0.1013, -0.0097, -0.0456,  ...,  0.0587,  0.0847, -0.1051],
+        [-0.0608, -0.0335, -0.0372,  ..., -0.0634, -0.0158, -0.0360],
+        ...,
+        [-0.0367,  0.1200, -0.1419,  ..., -0.1006,  0.0139, -0.1103],
+        [ 0.0017, -0.0760,  0.0298,  ...,  0.0529, -0.1012, -0.0400],
+        [-0.0364, -0.0695,  0.0525,  ..., -0.0644, -0.0450,  0.1077]],
+       device='cuda:0'), grad: tensor([[ 7.9768e-07, -8.9034e-07, -1.1083e-07,  ...,  3.8892e-06,
+          1.5367e-08, -1.6484e-07],
+        [-2.4214e-06,  1.0140e-05,  4.3958e-07,  ...,  1.5097e-06,
+         -1.2666e-07,  2.6403e-07],
+        [ 5.7230e-07,  9.5367e-07,  6.6170e-07,  ...,  1.8969e-05,
+         -2.0210e-07,  1.6438e-07],
+        ...,
+        [ 1.2973e-06, -1.8612e-05,  1.1455e-06,  ...,  3.4273e-06,
+          2.3516e-07,  9.2387e-07],
+        [ 7.7710e-06,  9.3691e-07,  6.2473e-06,  ...,  1.4640e-05,
+          3.6834e-07,  7.3351e-06],
+        [ 1.6633e-06,  5.9530e-06,  1.1288e-06,  ...,  8.8364e-06,
+          6.1002e-08,  4.5262e-07]], device='cuda:0')
+Epoch 120, bias, value: tensor([ 0.0023,  0.0040,  0.0061,  0.0113,  0.0270,  0.0366, -0.0268,  0.0098,
+        -0.0363, -0.0195], device='cuda:0'), grad: tensor([ 5.0962e-06,  2.4304e-05,  2.8253e-05, -8.3819e-06, -5.0020e-04,
+        -2.0623e-05,  4.2486e-04, -2.1994e-05,  3.9548e-05,  2.8834e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 119, time 219.88, cls_loss 0.0036 cls_loss_mapping 0.0061 cls_loss_causal 0.5716 re_mapping 0.0086 re_causal 0.0256 /// teacc 98.91 lr 0.00010000
+Epoch 121, weight, value: tensor([[-0.0222,  0.1091,  0.0647,  ..., -0.1409, -0.0953,  0.0250],
+        [ 0.1017, -0.0097, -0.0458,  ...,  0.0589,  0.0849, -0.1052],
+        [-0.0611, -0.0338, -0.0374,  ..., -0.0638, -0.0160, -0.0362],
+        ...,
+        [-0.0370,  0.1206, -0.1423,  ..., -0.1009,  0.0138, -0.1105],
+        [ 0.0016, -0.0769,  0.0295,  ...,  0.0528, -0.1015, -0.0402],
+        [-0.0366, -0.0702,  0.0532,  ..., -0.0654, -0.0450,  0.1083]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-07, -2.3544e-06,  2.5472e-07,  ...,  6.0629e-07,
+          1.8114e-07, -5.0897e-07],
+        [-1.4314e-06,  1.8720e-07,  2.3730e-06,  ..., -2.0154e-06,
+         -1.3690e-07,  1.2619e-07],
+        [ 9.0674e-06,  4.9593e-07,  1.6928e-05,  ...,  1.7434e-06,
+          7.3984e-06,  2.9104e-07],
+        ...,
+        [ 6.4913e-07, -8.3400e-07,  6.8685e-07,  ...,  6.5845e-07,
+          2.4866e-07,  2.9709e-07],
+        [ 1.0114e-06,  2.9849e-07,  2.8126e-06,  ..., -1.1977e-06,
+          1.3402e-06,  5.4529e-07],
+        [ 7.3249e-07,  1.3020e-06,  5.6345e-07,  ...,  1.1306e-06,
+          2.1886e-07,  3.7346e-07]], device='cuda:0')
+Epoch 121, bias, value: tensor([ 0.0023,  0.0041,  0.0060,  0.0113,  0.0276,  0.0364, -0.0266,  0.0098,
+        -0.0367, -0.0198], device='cuda:0'), grad: tensor([-2.4326e-06, -2.2119e-07,  2.9728e-05, -2.8282e-05,  4.0000e-07,
+        -4.1813e-05,  3.3528e-05,  1.3784e-06,  3.9376e-06,  3.9265e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 120, time 219.47, cls_loss 0.0043 cls_loss_mapping 0.0082 cls_loss_causal 0.5748 re_mapping 0.0089 re_causal 0.0253 /// teacc 98.91 lr 0.00010000
+Epoch 122, weight, value: tensor([[-0.0222,  0.1102,  0.0650,  ..., -0.1412, -0.0953,  0.0252],
+        [ 0.1020, -0.0100, -0.0464,  ...,  0.0593,  0.0854, -0.1056],
+        [-0.0612, -0.0346, -0.0375,  ..., -0.0640, -0.0162, -0.0366],
+        ...,
+        [-0.0371,  0.1225, -0.1424,  ..., -0.1018,  0.0133, -0.1120],
+        [ 0.0016, -0.0793,  0.0295,  ...,  0.0531, -0.1016, -0.0403],
+        [-0.0369, -0.0713,  0.0539,  ..., -0.0652, -0.0450,  0.1094]],
+       device='cuda:0'), grad: tensor([[ 1.9185e-06, -1.8165e-05, -9.3877e-06,  ...,  3.2205e-06,
+          1.2713e-07, -1.0721e-05],
+        [-2.3562e-07,  2.9672e-06,  2.0862e-06,  ...,  3.9935e-06,
+          8.3353e-07,  4.0885e-07],
+        [-2.6952e-06,  8.5458e-06, -3.8594e-05,  ..., -7.5391e-07,
+          8.5309e-07, -3.4392e-05],
+        ...,
+        [ 2.8592e-07, -7.4625e-05,  6.9523e-07,  ...,  7.5512e-06,
+         -3.5226e-05,  7.5996e-07],
+        [-8.1165e-07,  6.7532e-05,  3.4217e-06,  ..., -1.5143e-06,
+          2.9087e-05,  2.3879e-06],
+        [ 4.7591e-07,  4.3549e-06,  1.2822e-05,  ...,  8.7470e-06,
+          8.9174e-07,  1.3933e-05]], device='cuda:0')
+Epoch 122, bias, value: tensor([ 0.0026,  0.0040,  0.0061,  0.0107,  0.0271,  0.0363, -0.0270,  0.0108,
+        -0.0374, -0.0195], device='cuda:0'), grad: tensor([-7.1883e-05,  2.5645e-05, -1.3089e-04,  9.9778e-05, -3.7849e-05,
+         2.6390e-05,  6.6981e-06, -2.0576e-04,  2.2829e-04,  5.9545e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 121, time 219.12, cls_loss 0.0038 cls_loss_mapping 0.0070 cls_loss_causal 0.5679 re_mapping 0.0087 re_causal 0.0257 /// teacc 98.96 lr 0.00010000
+Epoch 123, weight, value: tensor([[-0.0224,  0.1109,  0.0653,  ..., -0.1418, -0.0953,  0.0253],
+        [ 0.1013, -0.0102, -0.0466,  ...,  0.0580,  0.0845, -0.1056],
+        [-0.0598, -0.0349, -0.0378,  ..., -0.0618, -0.0152, -0.0368],
+        ...,
+        [-0.0372,  0.1234, -0.1433,  ..., -0.1021,  0.0132, -0.1125],
+        [ 0.0014, -0.0803,  0.0297,  ...,  0.0531, -0.1018, -0.0402],
+        [-0.0375, -0.0724,  0.0540,  ..., -0.0657, -0.0451,  0.1096]],
+       device='cuda:0'), grad: tensor([[ 9.2201e-08, -6.8452e-08,  9.3132e-10,  ...,  1.3132e-07,
+          7.9162e-09,  9.3132e-10],
+        [-8.7731e-07,  3.7812e-07,  7.7300e-08,  ..., -1.7649e-06,
+         -6.9384e-08,  4.6100e-08],
+        [ 8.2515e-07,  1.5348e-06,  5.6485e-07,  ...,  8.9174e-07,
+         -2.4680e-08,  3.9581e-08],
+        ...,
+        [ 5.3504e-07, -4.7609e-06,  2.1933e-07,  ...,  8.5123e-07,
+          8.5216e-08,  1.4342e-07],
+        [-1.8626e-07,  6.3470e-07, -3.8184e-08,  ..., -6.6124e-08,
+         -4.3772e-08,  1.2312e-06],
+        [ 2.6776e-07,  1.4426e-06, -3.0780e-07,  ...,  6.8359e-07,
+          1.0245e-08, -3.9907e-07]], device='cuda:0')
+Epoch 123, bias, value: tensor([ 0.0028,  0.0029,  0.0077,  0.0117,  0.0266,  0.0359, -0.0269,  0.0108,
+        -0.0376, -0.0196], device='cuda:0'), grad: tensor([ 7.6042e-07,  6.1700e-07, -4.9114e-05,  9.7677e-06,  1.2135e-06,
+        -3.4440e-06,  1.2722e-06,  2.8789e-05,  7.8827e-06,  2.2184e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 122, time 218.99, cls_loss 0.0045 cls_loss_mapping 0.0079 cls_loss_causal 0.5839 re_mapping 0.0086 re_causal 0.0256 /// teacc 98.93 lr 0.00010000
+Epoch 124, weight, value: tensor([[-0.0235,  0.1116,  0.0657,  ..., -0.1435, -0.0962,  0.0253],
+        [ 0.1023, -0.0084, -0.0471,  ...,  0.0592,  0.0847, -0.1060],
+        [-0.0600, -0.0359, -0.0381,  ..., -0.0620, -0.0153, -0.0370],
+        ...,
+        [-0.0388,  0.1231, -0.1432,  ..., -0.1043,  0.0131, -0.1127],
+        [ 0.0007, -0.0824,  0.0289,  ...,  0.0522, -0.1020, -0.0414],
+        [-0.0381, -0.0744,  0.0529,  ..., -0.0665, -0.0455,  0.1091]],
+       device='cuda:0'), grad: tensor([[ 1.4640e-06, -1.6652e-06, -6.6031e-07,  ...,  1.6252e-06,
+         -3.9581e-08, -1.5358e-06],
+        [-3.1758e-06,  1.3374e-06,  1.1846e-06,  ..., -3.8780e-06,
+         -1.3765e-06,  1.1288e-06],
+        [ 2.9393e-06,  7.5018e-07,  1.3672e-06,  ...,  3.3211e-06,
+          1.5739e-07,  3.0873e-07],
+        ...,
+        [ 1.9222e-06, -7.5288e-06,  5.9642e-06,  ...,  3.3937e-06,
+          4.7637e-07,  6.3218e-06],
+        [-1.1757e-05,  8.1863e-07, -6.3404e-06,  ..., -1.3158e-05,
+          2.3935e-07,  1.0626e-06],
+        [ 8.3912e-07,  3.4235e-06, -1.5721e-05,  ...,  1.0453e-05,
+          1.2992e-07, -1.7345e-05]], device='cuda:0')
+Epoch 124, bias, value: tensor([ 0.0029,  0.0037,  0.0077,  0.0119,  0.0265,  0.0369, -0.0265,  0.0105,
+        -0.0386, -0.0205], device='cuda:0'), grad: tensor([ 1.7388e-06, -8.1863e-07,  3.5800e-06,  5.1767e-05, -6.8545e-06,
+        -3.5882e-05,  1.4342e-05,  6.0797e-06, -2.8431e-05, -5.4576e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 123, time 218.59, cls_loss 0.0033 cls_loss_mapping 0.0055 cls_loss_causal 0.5471 re_mapping 0.0088 re_causal 0.0248 /// teacc 98.92 lr 0.00010000
+Epoch 125, weight, value: tensor([[-0.0238,  0.1118,  0.0659,  ..., -0.1442, -0.0961,  0.0254],
+        [ 0.1025, -0.0085, -0.0475,  ...,  0.0595,  0.0848, -0.1064],
+        [-0.0603, -0.0359, -0.0383,  ..., -0.0623, -0.0152, -0.0371],
+        ...,
+        [-0.0391,  0.1236, -0.1438,  ..., -0.1047,  0.0129, -0.1131],
+        [ 0.0009, -0.0827,  0.0290,  ...,  0.0525, -0.1026, -0.0414],
+        [-0.0384, -0.0754,  0.0531,  ..., -0.0675, -0.0458,  0.1094]],
+       device='cuda:0'), grad: tensor([[ 1.4948e-07, -3.9535e-07, -2.5425e-07,  ...,  1.6205e-07,
+          2.7940e-08, -4.2655e-07],
+        [-3.2783e-05,  4.5123e-07,  3.6508e-07,  ..., -5.5999e-05,
+         -3.1233e-05,  3.1292e-07],
+        [ 1.5482e-05,  1.0291e-07,  1.2945e-06,  ...,  2.5585e-05,
+          1.4320e-05,  5.2154e-08],
+        ...,
+        [ 1.7107e-05, -2.0266e-06,  6.2473e-06,  ...,  3.4153e-05,
+          1.5423e-05,  1.5810e-05],
+        [ 5.0925e-06,  2.6310e-07,  1.1683e-05,  ...,  2.7865e-06,
+          1.3271e-07,  4.4703e-06],
+        [ 2.8545e-07,  6.1374e-07, -1.2413e-05,  ..., -2.7522e-05,
+          6.4261e-08, -7.6711e-05]], device='cuda:0')
+Epoch 125, bias, value: tensor([ 0.0029,  0.0037,  0.0079,  0.0116,  0.0269,  0.0372, -0.0265,  0.0106,
+        -0.0386, -0.0211], device='cuda:0'), grad: tensor([-5.3318e-07, -5.4687e-05,  2.8312e-05, -3.1829e-05,  1.0687e-04,
+         5.9977e-06, -1.3318e-07,  5.7817e-05,  3.3587e-05, -1.4532e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 124, time 218.14, cls_loss 0.0042 cls_loss_mapping 0.0059 cls_loss_causal 0.5615 re_mapping 0.0086 re_causal 0.0247 /// teacc 98.88 lr 0.00010000
+Epoch 126, weight, value: tensor([[-0.0246,  0.1120,  0.0663,  ..., -0.1458, -0.0966,  0.0256],
+        [ 0.1020, -0.0086, -0.0486,  ...,  0.0591,  0.0847, -0.1078],
+        [-0.0594, -0.0363, -0.0387,  ..., -0.0618, -0.0149, -0.0373],
+        ...,
+        [-0.0393,  0.1240, -0.1443,  ..., -0.1048,  0.0127, -0.1141],
+        [ 0.0024, -0.0824,  0.0283,  ...,  0.0539, -0.1030, -0.0423],
+        [-0.0389, -0.0757,  0.0538,  ..., -0.0676, -0.0455,  0.1104]],
+       device='cuda:0'), grad: tensor([[ 3.8091e-07, -6.9337e-07, -4.3539e-07,  ...,  6.2538e-07,
+          5.7742e-08, -7.7533e-07],
+        [ 1.8135e-05,  2.9756e-07,  5.1083e-07,  ...,  3.5077e-05,
+          5.0291e-06,  1.6764e-08],
+        [ 1.3262e-06,  2.4773e-07, -5.3318e-07,  ...,  2.0117e-06,
+          1.4529e-07,  5.4948e-08],
+        ...,
+        [ 4.6045e-06,  3.3528e-06,  2.3156e-05,  ...,  7.1758e-07,
+          8.5682e-08,  8.6147e-08],
+        [-2.0638e-05,  1.2433e-07,  1.2824e-06,  ..., -4.0710e-05,
+         -5.7295e-06,  8.0094e-08],
+        [ 5.6485e-07,  9.6858e-07,  2.2668e-06,  ...,  2.2352e-07,
+          2.3283e-08,  3.1991e-07]], device='cuda:0')
+Epoch 126, bias, value: tensor([ 0.0029,  0.0026,  0.0092,  0.0119,  0.0269,  0.0372, -0.0279,  0.0107,
+        -0.0378, -0.0209], device='cuda:0'), grad: tensor([-3.0827e-07,  4.6611e-05,  2.5611e-07, -5.9783e-05,  1.5385e-06,
+         5.9158e-06, -1.0626e-06,  4.9382e-05, -4.8250e-05,  5.8077e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 125, time 218.17, cls_loss 0.0039 cls_loss_mapping 0.0057 cls_loss_causal 0.5538 re_mapping 0.0086 re_causal 0.0249 /// teacc 98.92 lr 0.00010000
+Epoch 127, weight, value: tensor([[-0.0251,  0.1112,  0.0653,  ..., -0.1468, -0.0969,  0.0242],
+        [ 0.1028, -0.0088, -0.0487,  ...,  0.0596,  0.0855, -0.1080],
+        [-0.0600, -0.0372, -0.0391,  ..., -0.0623, -0.0155, -0.0375],
+        ...,
+        [-0.0396,  0.1247, -0.1449,  ..., -0.1051,  0.0123, -0.1148],
+        [ 0.0022, -0.0826,  0.0282,  ...,  0.0538, -0.1034, -0.0424],
+        [-0.0396, -0.0753,  0.0548,  ..., -0.0678, -0.0457,  0.1119]],
+       device='cuda:0'), grad: tensor([[ 2.4140e-06, -1.9193e-05, -2.0206e-05,  ...,  1.9092e-06,
+          2.7940e-09, -2.2322e-05],
+        [ 6.9849e-08,  1.5851e-06,  7.2550e-07,  ..., -2.2305e-07,
+         -6.8452e-08,  1.0151e-06],
+        [ 8.1304e-07, -8.3074e-06,  7.4506e-07,  ...,  6.1430e-06,
+          2.1886e-08,  6.4820e-07],
+        ...,
+        [ 4.6426e-07,  6.7279e-06,  1.1493e-06,  ...,  7.0594e-07,
+          4.3306e-08,  9.2611e-06],
+        [ 7.6741e-07,  2.0415e-06,  2.8722e-06,  ...,  7.8091e-07,
+          8.7079e-08,  2.0023e-06],
+        [ 7.0874e-07,  1.6332e-05,  1.3016e-05,  ...,  1.6745e-06,
+          1.2107e-08,  2.1840e-07]], device='cuda:0')
+Epoch 127, bias, value: tensor([ 0.0012,  0.0029,  0.0087,  0.0120,  0.0266,  0.0376, -0.0278,  0.0109,
+        -0.0381, -0.0198], device='cuda:0'), grad: tensor([-7.2718e-05,  8.9705e-06, -9.2268e-05, -2.0079e-06,  4.1455e-05,
+         6.0052e-06, -3.6448e-05,  1.2124e-04,  9.4771e-06,  1.6317e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 126, time 218.89, cls_loss 0.0037 cls_loss_mapping 0.0046 cls_loss_causal 0.5610 re_mapping 0.0089 re_causal 0.0255 /// teacc 98.86 lr 0.00010000
+Epoch 128, weight, value: tensor([[-0.0249,  0.1119,  0.0663,  ..., -0.1465, -0.0972,  0.0244],
+        [ 0.1024, -0.0090, -0.0508,  ...,  0.0585,  0.0857, -0.1093],
+        [-0.0600, -0.0380, -0.0376,  ..., -0.0613, -0.0155, -0.0375],
+        ...,
+        [-0.0398,  0.1255, -0.1445,  ..., -0.1053,  0.0121, -0.1138],
+        [ 0.0020, -0.0832,  0.0280,  ...,  0.0536, -0.1038, -0.0428],
+        [-0.0400, -0.0764,  0.0542,  ..., -0.0683, -0.0458,  0.1118]],
+       device='cuda:0'), grad: tensor([[-3.9302e-06, -7.8261e-05, -1.0943e-04,  ..., -4.2468e-05,
+          4.6566e-10, -1.0145e-04],
+        [ 3.1805e-07,  8.9360e-07,  1.0598e-06,  ...,  2.1644e-06,
+         -1.3970e-09,  1.0319e-06],
+        [ 4.7078e-07,  6.8638e-07, -6.9011e-07,  ...,  2.1514e-06,
+          9.3132e-10,  3.5297e-07],
+        ...,
+        [ 1.5041e-06,  2.5854e-05,  2.9709e-06,  ...,  8.7917e-05,
+          1.8626e-09,  3.1572e-06],
+        [ 6.0320e-05,  1.9029e-05,  1.9506e-05,  ...,  6.1929e-05,
+          1.3039e-08,  3.7670e-05],
+        [ 1.0662e-05,  5.3495e-05,  5.6088e-05,  ...,  7.2002e-05,
+          0.0000e+00,  4.7833e-05]], device='cuda:0')
+Epoch 128, bias, value: tensor([ 0.0016,  0.0020,  0.0094,  0.0121,  0.0262,  0.0380, -0.0275,  0.0118,
+        -0.0384, -0.0206], device='cuda:0'), grad: tensor([-2.0099e-04,  6.1840e-06,  1.5507e-06,  1.3866e-05, -3.1114e-04,
+        -3.9554e-04,  3.7408e-04,  2.0599e-04,  9.9599e-05,  2.0742e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 127, time 217.69, cls_loss 0.0038 cls_loss_mapping 0.0059 cls_loss_causal 0.5678 re_mapping 0.0080 re_causal 0.0242 /// teacc 98.82 lr 0.00010000
+Epoch 129, weight, value: tensor([[-0.0255,  0.1126,  0.0667,  ..., -0.1473, -0.0978,  0.0246],
+        [ 0.1028, -0.0096, -0.0518,  ...,  0.0590,  0.0860, -0.1096],
+        [-0.0605, -0.0388, -0.0374,  ..., -0.0618, -0.0157, -0.0379],
+        ...,
+        [-0.0399,  0.1263, -0.1450,  ..., -0.1056,  0.0121, -0.1144],
+        [ 0.0027, -0.0821,  0.0295,  ...,  0.0548, -0.1052, -0.0420],
+        [-0.0412, -0.0770,  0.0542,  ..., -0.0691, -0.0459,  0.1118]],
+       device='cuda:0'), grad: tensor([[ 1.8510e-07, -3.0873e-07, -1.2550e-07,  ...,  3.6694e-07,
+          7.9721e-07, -4.1444e-08],
+        [-1.3009e-05,  2.4904e-06, -2.5844e-08,  ..., -2.1622e-05,
+          3.7672e-07,  1.3690e-07],
+        [ 2.2110e-06,  6.6590e-07,  1.3527e-07,  ...,  3.7793e-06,
+         -1.2226e-05,  3.5623e-08],
+        ...,
+        [ 1.6429e-06, -5.6103e-06,  6.4913e-07,  ...,  1.7891e-06,
+          1.3225e-06,  8.8476e-07],
+        [ 1.2584e-05,  3.0990e-07,  4.8764e-06,  ...,  2.3305e-05,
+          3.6019e-07,  1.0192e-05],
+        [ 3.0990e-07,  1.3523e-06, -2.1309e-06,  ...,  1.6671e-06,
+          3.8906e-07, -3.0492e-06]], device='cuda:0')
+Epoch 129, bias, value: tensor([ 0.0018,  0.0019,  0.0093,  0.0118,  0.0262,  0.0380, -0.0278,  0.0120,
+        -0.0378, -0.0208], device='cuda:0'), grad: tensor([ 1.7077e-05, -3.5074e-06, -2.6202e-04,  1.8990e-04,  3.2596e-06,
+        -1.7792e-05,  8.9258e-06,  2.4125e-05,  3.1859e-05,  8.0690e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 128, time 216.95, cls_loss 0.0045 cls_loss_mapping 0.0078 cls_loss_causal 0.5343 re_mapping 0.0086 re_causal 0.0235 /// teacc 98.98 lr 0.00010000
+Epoch 130, weight, value: tensor([[-0.0260,  0.1134,  0.0674,  ..., -0.1482, -0.0981,  0.0251],
+        [ 0.1046, -0.0096, -0.0511,  ...,  0.0607,  0.0884, -0.1087],
+        [-0.0612, -0.0397, -0.0375,  ..., -0.0624, -0.0172, -0.0394],
+        ...,
+        [-0.0409,  0.1270, -0.1454,  ..., -0.1066,  0.0104, -0.1151],
+        [ 0.0023, -0.0817,  0.0295,  ...,  0.0542, -0.1056, -0.0423],
+        [-0.0425, -0.0781,  0.0548,  ..., -0.0673, -0.0462,  0.1134]],
+       device='cuda:0'), grad: tensor([[ 7.7067e-08, -4.2953e-06, -2.7511e-06,  ...,  2.3469e-07,
+          1.6904e-07, -4.8503e-06],
+        [-2.1188e-08,  2.9020e-06,  9.4064e-07,  ...,  1.2480e-07,
+          4.4308e-07,  2.9965e-07],
+        [ 2.0373e-07,  7.8827e-06,  3.8370e-06,  ...,  8.6054e-07,
+          1.2387e-06,  8.7544e-07],
+        ...,
+        [ 4.2259e-07, -2.8282e-05,  8.1211e-06,  ...,  2.1756e-06,
+          4.9220e-07, -2.7083e-06],
+        [ 6.1374e-07,  7.1479e-07,  2.3879e-06,  ...,  1.1232e-06,
+          8.3260e-07,  9.2667e-07],
+        [ 1.1967e-07,  8.9109e-06,  2.9784e-06,  ...,  2.7902e-06,
+          2.0228e-06,  5.1335e-06]], device='cuda:0')
+Epoch 130, bias, value: tensor([ 0.0022,  0.0031,  0.0089,  0.0114,  0.0240,  0.0379, -0.0271,  0.0118,
+        -0.0387, -0.0199], device='cuda:0'), grad: tensor([-9.1046e-06,  4.5240e-05, -2.1458e-05, -3.5763e-05,  4.1425e-06,
+         1.0140e-05,  2.7083e-06, -3.0190e-05,  7.5623e-06,  2.6688e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 129, time 217.09, cls_loss 0.0030 cls_loss_mapping 0.0053 cls_loss_causal 0.6039 re_mapping 0.0082 re_causal 0.0251 /// teacc 98.94 lr 0.00010000
+Epoch 131, weight, value: tensor([[-0.0270,  0.1138,  0.0676,  ..., -0.1489, -0.0989,  0.0252],
+        [ 0.1051, -0.0099, -0.0512,  ...,  0.0612,  0.0889, -0.1086],
+        [-0.0615, -0.0404, -0.0375,  ..., -0.0625, -0.0173, -0.0399],
+        ...,
+        [-0.0410,  0.1276, -0.1462,  ..., -0.1067,  0.0102, -0.1163],
+        [ 0.0020, -0.0824,  0.0292,  ...,  0.0539, -0.1058, -0.0426],
+        [-0.0430, -0.0785,  0.0551,  ..., -0.0675, -0.0464,  0.1138]],
+       device='cuda:0'), grad: tensor([[ 2.7511e-06, -1.0068e-06, -1.2224e-07,  ...,  3.1292e-06,
+          3.4692e-08, -3.9674e-07],
+        [-1.3188e-05,  9.6392e-07,  2.8014e-05,  ...,  3.2205e-06,
+         -3.7462e-05,  2.9713e-05],
+        [ 2.0698e-05,  5.6252e-07,  1.6112e-06,  ...,  1.7837e-05,
+          3.2395e-05,  8.9966e-07],
+        ...,
+        [ 3.9004e-06, -3.4571e-06,  1.6931e-06,  ...,  4.2245e-06,
+          4.8839e-06,  1.3681e-06],
+        [ 1.9848e-04,  2.0908e-07,  1.3411e-06,  ...,  2.1315e-04,
+          1.8883e-07,  3.9011e-05],
+        [-1.8299e-05,  1.6401e-06, -6.7651e-05,  ..., -4.7237e-05,
+          2.2328e-07, -7.1585e-05]], device='cuda:0')
+Epoch 131, bias, value: tensor([ 0.0021,  0.0031,  0.0088,  0.0116,  0.0239,  0.0382, -0.0269,  0.0120,
+        -0.0392, -0.0200], device='cuda:0'), grad: tensor([ 4.2766e-06,  1.9580e-05,  5.0694e-05, -1.3374e-05,  9.0659e-05,
+         4.9710e-05, -4.8566e-04,  8.1733e-06,  4.2439e-04, -1.4806e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 130, time 217.19, cls_loss 0.0041 cls_loss_mapping 0.0070 cls_loss_causal 0.5723 re_mapping 0.0082 re_causal 0.0247 /// teacc 98.85 lr 0.00010000
+Epoch 132, weight, value: tensor([[-0.0271,  0.1122,  0.0667,  ..., -0.1495, -0.0990,  0.0231],
+        [ 0.1055, -0.0104, -0.0514,  ...,  0.0614,  0.0894, -0.1091],
+        [-0.0619, -0.0410, -0.0384,  ..., -0.0628, -0.0177, -0.0406],
+        ...,
+        [-0.0411,  0.1283, -0.1466,  ..., -0.1066,  0.0098, -0.1173],
+        [ 0.0025, -0.0828,  0.0294,  ...,  0.0543, -0.1060, -0.0426],
+        [-0.0435, -0.0772,  0.0564,  ..., -0.0678, -0.0466,  0.1163]],
+       device='cuda:0'), grad: tensor([[ 5.5227e-07, -7.4785e-07,  2.5239e-07,  ...,  7.8557e-07,
+          1.2107e-08, -2.4633e-07],
+        [-4.1090e-06,  6.9709e-07,  3.8510e-07,  ..., -9.4026e-06,
+         -1.5199e-06,  3.4040e-07],
+        [ 2.1886e-06,  2.4540e-07,  5.0571e-07,  ...,  4.3884e-06,
+          8.1258e-07,  2.5565e-07],
+        ...,
+        [ 8.0094e-07, -2.2799e-06,  1.7285e-06,  ...,  1.3858e-06,
+          1.8207e-07,  2.5909e-06],
+        [ 4.3027e-07,  3.3341e-07, -4.3958e-07,  ...,  9.5926e-08,
+          1.5413e-07,  5.4240e-06],
+        [ 2.1607e-06,  7.6648e-07,  1.9670e-06,  ...,  2.8424e-06,
+          4.6566e-08,  9.3598e-07]], device='cuda:0')
+Epoch 132, bias, value: tensor([ 8.0441e-05,  2.7230e-03,  8.1190e-03,  1.2262e-02,  2.3700e-02,
+         3.8310e-02, -2.7228e-02,  1.2495e-02, -3.8886e-02, -1.8500e-02],
+       device='cuda:0'), grad: tensor([ 3.1106e-06, -7.9423e-06, -1.9789e-05,  3.1263e-05,  3.1777e-06,
+        -3.4034e-05,  6.0871e-06,  9.4548e-06,  3.8035e-06,  4.8205e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 131, time 217.26, cls_loss 0.0040 cls_loss_mapping 0.0060 cls_loss_causal 0.5742 re_mapping 0.0083 re_causal 0.0240 /// teacc 98.91 lr 0.00010000
+Epoch 133, weight, value: tensor([[-0.0264,  0.1138,  0.0674,  ..., -0.1497, -0.0995,  0.0236],
+        [ 0.1060, -0.0107, -0.0514,  ...,  0.0621,  0.0898, -0.1087],
+        [-0.0621, -0.0439, -0.0411,  ..., -0.0638, -0.0181, -0.0442],
+        ...,
+        [-0.0413,  0.1290, -0.1472,  ..., -0.1072,  0.0095, -0.1181],
+        [ 0.0020, -0.0833,  0.0286,  ...,  0.0539, -0.1067, -0.0436],
+        [-0.0440, -0.0780,  0.0565,  ..., -0.0684, -0.0473,  0.1163]],
+       device='cuda:0'), grad: tensor([[ 7.2643e-08, -5.7191e-05, -2.0385e-05,  ...,  2.1281e-07,
+          3.7253e-09, -8.0228e-05],
+        [-3.1590e-06,  2.8312e-07,  1.9046e-07,  ..., -2.7977e-06,
+         -4.7823e-07,  2.8312e-07],
+        [ 7.0082e-07,  2.1085e-06,  7.2876e-07,  ...,  1.3653e-06,
+          8.8476e-09,  2.7698e-06],
+        ...,
+        [ 1.2852e-06,  1.6570e-05,  6.2510e-06,  ...,  9.7007e-06,
+          1.1874e-07,  2.4512e-05],
+        [ 1.3644e-07,  3.7178e-06,  1.9241e-06,  ...,  3.0547e-07,
+          1.1642e-08,  6.2175e-06],
+        [ 7.6881e-07,  3.1721e-06, -3.0287e-06,  ...,  1.3381e-05,
+          2.9989e-07, -2.9709e-06]], device='cuda:0')
+Epoch 133, bias, value: tensor([ 0.0010,  0.0027,  0.0065,  0.0127,  0.0241,  0.0400, -0.0275,  0.0125,
+        -0.0397, -0.0189], device='cuda:0'), grad: tensor([-1.7560e-04, -3.2764e-06,  8.3372e-06,  8.3372e-06, -4.1604e-05,
+         6.7353e-05,  2.6450e-05,  7.0333e-05,  1.3143e-05,  2.6584e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 132, time 217.19, cls_loss 0.0032 cls_loss_mapping 0.0061 cls_loss_causal 0.5685 re_mapping 0.0084 re_causal 0.0237 /// teacc 98.97 lr 0.00010000
+Epoch 134, weight, value: tensor([[-0.0269,  0.1142,  0.0676,  ..., -0.1506, -0.0996,  0.0238],
+        [ 0.1065, -0.0108, -0.0515,  ...,  0.0628,  0.0902, -0.1089],
+        [-0.0623, -0.0447, -0.0413,  ..., -0.0643, -0.0181, -0.0448],
+        ...,
+        [-0.0417,  0.1296, -0.1478,  ..., -0.1078,  0.0087, -0.1190],
+        [ 0.0020, -0.0835,  0.0289,  ...,  0.0539, -0.1067, -0.0437],
+        [-0.0445, -0.0784,  0.0566,  ..., -0.0693, -0.0475,  0.1164]],
+       device='cuda:0'), grad: tensor([[ 2.7800e-07, -3.4068e-06, -5.1893e-06,  ...,  6.6590e-07,
+          3.6741e-07, -9.1642e-06],
+        [-7.6771e-05,  3.1479e-06,  1.1409e-07,  ..., -1.9920e-04,
+         -1.6487e-04,  1.4855e-07],
+        [ 6.8665e-05,  6.7940e-07,  2.0256e-07,  ...,  1.8036e-04,
+          1.4806e-04,  2.1188e-07],
+        ...,
+        [ 6.3740e-06, -6.1169e-06,  2.3469e-07,  ...,  1.3106e-05,
+          1.2286e-05,  3.2922e-07],
+        [ 4.1910e-09,  1.2089e-06, -1.4016e-07,  ...,  3.3947e-07,
+          6.1281e-07,  3.3621e-07],
+        [ 2.4913e-07,  1.6131e-06,  2.2724e-06,  ...,  6.8359e-07,
+          3.8277e-07,  3.6061e-06]], device='cuda:0')
+Epoch 134, bias, value: tensor([ 0.0011,  0.0026,  0.0064,  0.0122,  0.0246,  0.0400, -0.0271,  0.0126,
+        -0.0396, -0.0193], device='cuda:0'), grad: tensor([-1.2517e-05, -5.7459e-04,  5.2214e-04,  6.5453e-06,  4.6901e-06,
+         1.7080e-06,  7.1190e-06,  3.3140e-05,  3.5297e-06,  7.4692e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 133, time 217.92, cls_loss 0.0039 cls_loss_mapping 0.0068 cls_loss_causal 0.5475 re_mapping 0.0081 re_causal 0.0236 /// teacc 98.95 lr 0.00010000
+Epoch 135, weight, value: tensor([[-0.0271,  0.1147,  0.0681,  ..., -0.1512, -0.0998,  0.0241],
+        [ 0.1084, -0.0106, -0.0490,  ...,  0.0650,  0.0907, -0.1066],
+        [-0.0629, -0.0450, -0.0414,  ..., -0.0653, -0.0188, -0.0456],
+        ...,
+        [-0.0425,  0.1295, -0.1498,  ..., -0.1092,  0.0091, -0.1195],
+        [ 0.0015, -0.0841,  0.0282,  ...,  0.0539, -0.1060, -0.0444],
+        [-0.0470, -0.0790,  0.0560,  ..., -0.0702, -0.0481,  0.1162]],
+       device='cuda:0'), grad: tensor([[ 6.0815e-07,  4.6380e-07,  4.5868e-07,  ...,  1.0924e-06,
+          4.0233e-07,  9.8534e-07],
+        [ 1.8720e-07,  8.4043e-06,  1.2685e-06,  ...,  7.6974e-07,
+          3.7067e-07,  2.3693e-06],
+        [ 2.9663e-07,  3.9876e-05, -3.9116e-07,  ...,  3.0734e-07,
+         -1.4538e-06,  2.1327e-07],
+        ...,
+        [ 8.8150e-07, -7.5877e-05, -4.6240e-07,  ...,  1.3057e-06,
+         -9.4855e-07, -3.4785e-07],
+        [ 3.4094e-04,  9.0718e-05,  3.1233e-04,  ...,  4.1032e-04,
+          8.3447e-07,  3.8600e-04],
+        [ 1.0291e-06,  1.1154e-05,  3.7905e-07,  ...,  4.3809e-06,
+          1.1288e-06, -3.1246e-07]], device='cuda:0')
+Epoch 135, bias, value: tensor([ 0.0014,  0.0038,  0.0061,  0.0114,  0.0244,  0.0404, -0.0265,  0.0121,
+        -0.0396, -0.0200], device='cuda:0'), grad: tensor([ 5.9083e-06,  2.9042e-05,  1.3523e-05,  5.7578e-05, -5.3011e-06,
+        -8.1348e-04,  7.4744e-05, -1.4639e-04,  7.5722e-04,  2.7373e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 134, time 217.31, cls_loss 0.0027 cls_loss_mapping 0.0050 cls_loss_causal 0.5486 re_mapping 0.0082 re_causal 0.0238 /// teacc 98.84 lr 0.00010000
+Epoch 136, weight, value: tensor([[-0.0276,  0.1150,  0.0680,  ..., -0.1521, -0.1000,  0.0241],
+        [ 0.1089, -0.0106, -0.0495,  ...,  0.0652,  0.0910, -0.1075],
+        [-0.0632, -0.0452, -0.0412,  ..., -0.0655, -0.0188, -0.0460],
+        ...,
+        [-0.0428,  0.1297, -0.1508,  ..., -0.1099,  0.0091, -0.1215],
+        [ 0.0015, -0.0847,  0.0281,  ...,  0.0539, -0.1065, -0.0449],
+        [-0.0471, -0.0791,  0.0570,  ..., -0.0702, -0.0484,  0.1173]],
+       device='cuda:0'), grad: tensor([[ 4.0978e-06, -7.4739e-07,  2.0534e-05,  ...,  1.7658e-05,
+          9.7789e-09,  1.6615e-05],
+        [-4.5542e-07,  1.8347e-07,  1.2089e-06,  ...,  1.3597e-07,
+         -2.4028e-07,  1.3355e-06],
+        [ 4.4703e-07,  7.4040e-08,  1.4529e-07,  ...,  1.3169e-06,
+          1.1642e-08,  1.1474e-06],
+        ...,
+        [ 3.5111e-07, -1.1697e-06,  6.8471e-06,  ...,  3.2876e-06,
+          8.8941e-08,  1.2293e-05],
+        [-6.3956e-05,  1.6158e-07, -3.4881e-04,  ..., -2.8896e-04,
+          4.0047e-08, -2.7919e-04],
+        [ 1.6943e-05,  1.2396e-06,  7.4089e-05,  ...,  6.9022e-05,
+          6.2399e-08,  4.1902e-05]], device='cuda:0')
+Epoch 136, bias, value: tensor([ 0.0013,  0.0038,  0.0064,  0.0109,  0.0245,  0.0403, -0.0265,  0.0116,
+        -0.0400, -0.0193], device='cuda:0'), grad: tensor([ 3.9220e-05,  2.0694e-06, -1.0081e-05,  1.2226e-05,  2.0802e-05,
+         4.1747e-04,  2.3201e-05,  2.1100e-05, -6.4754e-04,  1.2147e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 135, time 217.41, cls_loss 0.0034 cls_loss_mapping 0.0045 cls_loss_causal 0.5399 re_mapping 0.0085 re_causal 0.0240 /// teacc 98.85 lr 0.00010000
+Epoch 137, weight, value: tensor([[-0.0278,  0.1151,  0.0682,  ..., -0.1528, -0.1000,  0.0242],
+        [ 0.1094, -0.0107, -0.0505,  ...,  0.0654,  0.0911, -0.1078],
+        [-0.0635, -0.0455, -0.0416,  ..., -0.0658, -0.0190, -0.0461],
+        ...,
+        [-0.0435,  0.1293, -0.1533,  ..., -0.1107,  0.0096, -0.1208],
+        [ 0.0014, -0.0851,  0.0280,  ...,  0.0540, -0.1069, -0.0451],
+        [-0.0476, -0.0782,  0.0589,  ..., -0.0705, -0.0497,  0.1175]],
+       device='cuda:0'), grad: tensor([[ 1.9401e-05,  3.9525e-06,  9.4697e-06,  ...,  7.3910e-06,
+          2.0489e-08,  6.6757e-06],
+        [-2.6226e-04, -7.3314e-05, -1.0854e-04,  ..., -1.0622e-04,
+         -1.2062e-05, -7.1883e-05],
+        [ 4.3325e-06,  9.7416e-07,  2.1271e-06,  ...,  1.8841e-06,
+          8.1956e-08,  1.3188e-06],
+        ...,
+        [ 6.6042e-05,  2.6807e-05,  1.6123e-05,  ...,  3.3021e-05,
+          1.0431e-05,  1.1280e-05],
+        [ 1.2022e-04,  2.5049e-05,  5.9277e-05,  ...,  4.5061e-05,
+          4.9872e-07,  4.2379e-05],
+        [ 4.2558e-05,  1.3739e-05,  5.3458e-07,  ...,  1.8045e-05,
+          5.3877e-07, -1.8030e-05]], device='cuda:0')
+Epoch 137, bias, value: tensor([ 0.0013,  0.0034,  0.0062,  0.0118,  0.0247,  0.0398, -0.0266,  0.0109,
+        -0.0401, -0.0183], device='cuda:0'), grad: tensor([ 3.9309e-05, -5.4216e-04,  9.8124e-06,  7.9051e-06, -4.8280e-06,
+         3.0160e-05,  1.0924e-06,  1.4102e-04,  2.4533e-04,  7.2002e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 136, time 217.30, cls_loss 0.0032 cls_loss_mapping 0.0055 cls_loss_causal 0.5481 re_mapping 0.0075 re_causal 0.0227 /// teacc 98.98 lr 0.00010000
+Epoch 138, weight, value: tensor([[-0.0283,  0.1154,  0.0684,  ..., -0.1536, -0.0999,  0.0243],
+        [ 0.1101, -0.0110, -0.0509,  ...,  0.0656,  0.0920, -0.1081],
+        [-0.0636, -0.0457, -0.0403,  ..., -0.0659, -0.0191, -0.0448],
+        ...,
+        [-0.0439,  0.1299, -0.1545,  ..., -0.1114,  0.0086, -0.1222],
+        [ 0.0013, -0.0854,  0.0278,  ...,  0.0541, -0.1069, -0.0451],
+        [-0.0485, -0.0786,  0.0592,  ..., -0.0707, -0.0503,  0.1181]],
+       device='cuda:0'), grad: tensor([[ 3.8464e-07,  4.1910e-08,  1.8114e-07,  ...,  3.6974e-07,
+         -1.1409e-07, -2.4028e-07],
+        [-1.1809e-05,  2.0996e-05,  1.8226e-06,  ...,  3.8631e-06,
+         -3.3379e-06,  6.7195e-07],
+        [ 2.3190e-06,  4.0531e-06,  3.3826e-06,  ...,  7.6741e-07,
+          8.5961e-07,  2.8592e-07],
+        ...,
+        [ 1.2279e-05, -2.7850e-05,  3.0398e-06,  ...,  1.6317e-05,
+          1.4994e-06,  7.9116e-07],
+        [-1.4268e-05,  9.7323e-08, -7.6145e-06,  ..., -2.4617e-05,
+          1.9837e-07, -2.0221e-05],
+        [ 1.7092e-05,  7.4320e-07,  2.1309e-05,  ...,  2.9400e-05,
+          5.0850e-07,  1.3776e-05]], device='cuda:0')
+Epoch 138, bias, value: tensor([ 0.0013,  0.0034,  0.0070,  0.0120,  0.0248,  0.0400, -0.0266,  0.0104,
+        -0.0406, -0.0183], device='cuda:0'), grad: tensor([ 1.1725e-06,  3.8117e-05,  1.6496e-05, -7.5340e-05, -5.6535e-05,
+         1.9744e-05,  6.1169e-06, -7.5214e-06, -2.1741e-05,  7.9334e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 137, time 217.11, cls_loss 0.0046 cls_loss_mapping 0.0070 cls_loss_causal 0.5767 re_mapping 0.0080 re_causal 0.0235 /// teacc 98.92 lr 0.00010000
+Epoch 139, weight, value: tensor([[-0.0285,  0.1155,  0.0694,  ..., -0.1560, -0.1001,  0.0245],
+        [ 0.1112, -0.0112, -0.0504,  ...,  0.0665,  0.0922, -0.1077],
+        [-0.0640, -0.0462, -0.0407,  ..., -0.0664, -0.0188, -0.0451],
+        ...,
+        [-0.0445,  0.1311, -0.1542,  ..., -0.1121,  0.0085, -0.1219],
+        [ 0.0034, -0.0856,  0.0331,  ...,  0.0560, -0.1063, -0.0402],
+        [-0.0522, -0.0799,  0.0554,  ..., -0.0707, -0.0521,  0.1158]],
+       device='cuda:0'), grad: tensor([[ 6.5677e-06,  1.0245e-06,  5.8785e-06,  ...,  8.3148e-06,
+          1.0245e-08,  4.3958e-06],
+        [ 3.1898e-07,  8.8988e-07,  1.3988e-06,  ...,  1.4454e-06,
+         -1.3737e-07,  1.2890e-06],
+        [ 9.3551e-07,  4.1118e-07,  1.3877e-06,  ...,  1.3793e-06,
+          7.4971e-08,  7.7765e-07],
+        ...,
+        [ 6.8313e-07, -4.7199e-06,  7.7710e-06,  ...,  3.1628e-06,
+          1.3132e-07,  1.1645e-05],
+        [ 4.1444e-07,  1.7043e-07, -4.9025e-06,  ..., -4.2059e-06,
+          6.0862e-07, -2.7139e-06],
+        [ 4.7637e-07,  3.4496e-06, -1.2487e-05,  ...,  2.6934e-06,
+          5.1223e-08, -1.9103e-05]], device='cuda:0')
+Epoch 139, bias, value: tensor([ 0.0015,  0.0036,  0.0071,  0.0119,  0.0229,  0.0400, -0.0274,  0.0108,
+        -0.0362, -0.0208], device='cuda:0'), grad: tensor([ 3.5256e-05,  7.7784e-06, -7.5400e-05, -2.4419e-06,  3.5554e-05,
+         1.8522e-05, -1.2554e-05,  2.8431e-05, -2.8927e-06, -3.2395e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 138, time 217.23, cls_loss 0.0034 cls_loss_mapping 0.0063 cls_loss_causal 0.5555 re_mapping 0.0078 re_causal 0.0228 /// teacc 98.81 lr 0.00010000
+Epoch 140, weight, value: tensor([[-0.0288,  0.1160,  0.0697,  ..., -0.1570, -0.1003,  0.0245],
+        [ 0.1116, -0.0116, -0.0495,  ...,  0.0662,  0.0936, -0.1074],
+        [-0.0643, -0.0465, -0.0409,  ..., -0.0664, -0.0189, -0.0453],
+        ...,
+        [-0.0447,  0.1324, -0.1533,  ..., -0.1119,  0.0064, -0.1214],
+        [ 0.0033, -0.0865,  0.0331,  ...,  0.0560, -0.1068, -0.0402],
+        [-0.0536, -0.0812,  0.0551,  ..., -0.0708, -0.0522,  0.1159]],
+       device='cuda:0'), grad: tensor([[ 1.7136e-07, -1.4171e-05, -3.5971e-05,  ..., -6.3218e-06,
+          2.5611e-08, -2.3663e-05],
+        [-3.6089e-07,  9.4390e-07,  1.0207e-06,  ..., -2.5984e-07,
+         -2.0489e-07,  8.4704e-07],
+        [ 1.2806e-07,  4.8168e-06,  1.3277e-05,  ...,  2.5481e-06,
+          2.1886e-08,  8.7470e-06],
+        ...,
+        [ 3.6228e-07, -4.0419e-06,  2.2240e-06,  ...,  5.1456e-07,
+          1.0896e-07,  2.5369e-06],
+        [ 4.6305e-06,  1.5898e-06,  2.6956e-05,  ...,  1.1235e-05,
+          6.3796e-08,  4.1813e-05],
+        [-1.4724e-06,  4.0568e-06, -2.0549e-05,  ..., -5.9940e-06,
+          6.1933e-08, -4.3929e-05]], device='cuda:0')
+Epoch 140, bias, value: tensor([ 0.0015,  0.0030,  0.0076,  0.0124,  0.0225,  0.0396, -0.0270,  0.0116,
+        -0.0363, -0.0211], device='cuda:0'), grad: tensor([-8.1003e-05,  2.6524e-06,  2.9922e-05,  2.6748e-06,  7.6294e-06,
+         4.0904e-06,  1.7151e-05, -8.1677e-07,  5.1975e-05, -3.4362e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 139, time 217.21, cls_loss 0.0042 cls_loss_mapping 0.0055 cls_loss_causal 0.5839 re_mapping 0.0083 re_causal 0.0231 /// teacc 98.69 lr 0.00010000
+Epoch 141, weight, value: tensor([[-0.0294,  0.1163,  0.0699,  ..., -0.1582, -0.1015,  0.0245],
+        [ 0.1112, -0.0119, -0.0499,  ...,  0.0658,  0.0929, -0.1079],
+        [-0.0646, -0.0477, -0.0423,  ..., -0.0669, -0.0189, -0.0443],
+        ...,
+        [-0.0450,  0.1334, -0.1535,  ..., -0.1125,  0.0062, -0.1224],
+        [ 0.0031, -0.0871,  0.0334,  ...,  0.0563, -0.1049, -0.0406],
+        [-0.0541, -0.0817,  0.0551,  ..., -0.0714, -0.0525,  0.1161]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-07, -1.5572e-05, -2.5071e-06,  ...,  4.1816e-07,
+         -1.3888e-05, -8.5309e-06],
+        [-1.3039e-06,  3.6182e-07,  6.4354e-07,  ...,  4.0270e-06,
+          4.3213e-07,  1.1222e-07],
+        [ 1.4007e-06,  1.8589e-06, -6.8173e-07,  ...,  6.6310e-07,
+         -1.2845e-05,  3.4412e-07],
+        ...,
+        [ 2.9281e-06,  1.9111e-06,  5.6662e-06,  ...,  1.1295e-05,
+          1.8794e-06,  4.7591e-07],
+        [ 5.7295e-06,  1.5516e-06,  3.8035e-06,  ...,  6.1393e-06,
+          6.9849e-06,  6.8396e-06],
+        [ 8.2003e-07,  2.9374e-06,  1.1744e-06,  ...,  5.4277e-06,
+          2.1644e-06,  4.7637e-07]], device='cuda:0')
+Epoch 141, bias, value: tensor([ 0.0014,  0.0023,  0.0062,  0.0121,  0.0225,  0.0397, -0.0261,  0.0118,
+        -0.0350, -0.0215], device='cuda:0'), grad: tensor([-2.2560e-05,  9.2268e-05, -3.3321e-03,  4.2558e-04, -3.2216e-05,
+        -4.9233e-05,  2.8908e-05,  2.7657e-03,  9.8765e-05,  2.2471e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 140, time 217.61, cls_loss 0.0063 cls_loss_mapping 0.0072 cls_loss_causal 0.5785 re_mapping 0.0085 re_causal 0.0238 /// teacc 98.90 lr 0.00010000
+Epoch 142, weight, value: tensor([[-0.0297,  0.1171,  0.0702,  ..., -0.1590, -0.1013,  0.0247],
+        [ 0.1124, -0.0122, -0.0502,  ...,  0.0662,  0.0932, -0.1082],
+        [-0.0652, -0.0504, -0.0442,  ..., -0.0679, -0.0193, -0.0443],
+        ...,
+        [-0.0462,  0.1345, -0.1539,  ..., -0.1139,  0.0059, -0.1230],
+        [ 0.0028, -0.0875,  0.0359,  ...,  0.0560, -0.1041, -0.0382],
+        [-0.0544, -0.0820,  0.0533,  ..., -0.0719, -0.0526,  0.1146]],
+       device='cuda:0'), grad: tensor([[ 1.9372e-07, -1.1129e-07,  4.0652e-07,  ...,  4.1630e-07,
+          3.3062e-08,  3.0082e-07],
+        [-1.3504e-08,  3.1851e-07,  3.4971e-07,  ..., -1.0915e-05,
+         -2.5555e-06,  2.8918e-07],
+        [ 1.3083e-05,  9.5461e-08,  3.6415e-07,  ...,  1.7852e-05,
+          5.4948e-07,  4.2841e-08],
+        ...,
+        [ 7.4506e-08, -4.9919e-06,  2.5239e-07,  ...,  5.1558e-06,
+          1.1474e-06,  1.8720e-07],
+        [ 4.7451e-07,  6.3796e-08,  5.5954e-06,  ...,  2.3320e-06,
+          2.6263e-07,  5.6773e-06],
+        [ 1.6019e-07,  4.2431e-06, -1.8120e-05,  ..., -2.9467e-06,
+          6.6124e-08, -1.6928e-05]], device='cuda:0')
+Epoch 142, bias, value: tensor([ 0.0016,  0.0021,  0.0055,  0.0118,  0.0231,  0.0395, -0.0252,  0.0118,
+        -0.0329, -0.0232], device='cuda:0'), grad: tensor([ 1.1930e-06, -1.5527e-05,  6.1333e-05,  6.8173e-06,  1.9342e-05,
+        -4.5300e-06, -6.2048e-05,  1.7779e-06,  1.0975e-05, -1.9431e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 141, time 217.74, cls_loss 0.0039 cls_loss_mapping 0.0046 cls_loss_causal 0.5521 re_mapping 0.0088 re_causal 0.0244 /// teacc 98.90 lr 0.00010000
+Epoch 143, weight, value: tensor([[-0.0298,  0.1175,  0.0703,  ..., -0.1592, -0.1014,  0.0248],
+        [ 0.1132, -0.0124, -0.0498,  ...,  0.0669,  0.0934, -0.1081],
+        [-0.0652, -0.0491, -0.0471,  ..., -0.0702, -0.0211, -0.0445],
+        ...,
+        [-0.0465,  0.1341, -0.1547,  ..., -0.1142,  0.0057, -0.1235],
+        [ 0.0026, -0.0881,  0.0356,  ...,  0.0556, -0.1042, -0.0384],
+        [-0.0547, -0.0818,  0.0538,  ..., -0.0720, -0.0528,  0.1152]],
+       device='cuda:0'), grad: tensor([[ 2.8424e-06, -5.7695e-07,  4.0457e-06,  ...,  9.7156e-06,
+          4.6566e-10,  3.7160e-06],
+        [ 4.1910e-09,  2.6748e-06,  5.9698e-07,  ...,  3.6554e-07,
+         -3.6787e-08,  6.6869e-07],
+        [ 2.5295e-06,  5.5414e-07,  4.3586e-06,  ...,  8.6948e-06,
+          4.6566e-09,  4.0643e-06],
+        ...,
+        [-2.4214e-08, -2.3916e-05,  1.4193e-06,  ...,  4.7218e-07,
+          1.8626e-08,  1.6587e-06],
+        [ 4.8392e-06,  5.3346e-06,  1.3806e-05,  ...,  1.6183e-05,
+          4.1910e-09,  1.7002e-05],
+        [ 1.4389e-07,  7.0967e-07, -1.2435e-05,  ...,  3.2820e-06,
+          2.7940e-09, -1.7881e-05]], device='cuda:0')
+Epoch 143, bias, value: tensor([ 0.0016,  0.0023,  0.0041,  0.0117,  0.0227,  0.0418, -0.0250,  0.0110,
+        -0.0334, -0.0227], device='cuda:0'), grad: tensor([ 1.9073e-05,  6.5342e-06,  1.8761e-05,  2.7806e-05,  1.8422e-06,
+         4.8399e-04, -5.5647e-04, -3.9190e-05,  5.9187e-05, -2.1219e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 142, time 217.68, cls_loss 0.0041 cls_loss_mapping 0.0053 cls_loss_causal 0.5561 re_mapping 0.0079 re_causal 0.0230 /// teacc 98.88 lr 0.00010000
+Epoch 144, weight, value: tensor([[-0.0305,  0.1180,  0.0706,  ..., -0.1600, -0.1030,  0.0248],
+        [ 0.1133, -0.0125, -0.0504,  ...,  0.0669,  0.0933, -0.1083],
+        [-0.0650, -0.0491, -0.0469,  ..., -0.0701, -0.0211, -0.0447],
+        ...,
+        [-0.0466,  0.1350, -0.1548,  ..., -0.1149,  0.0059, -0.1239],
+        [ 0.0027, -0.0886,  0.0356,  ...,  0.0559, -0.1042, -0.0385],
+        [-0.0549, -0.0824,  0.0540,  ..., -0.0726, -0.0525,  0.1154]],
+       device='cuda:0'), grad: tensor([[ 6.7139e-04,  3.6812e-04, -3.7253e-08,  ...,  6.9551e-06,
+          1.2178e-03,  1.9836e-04],
+        [-1.1265e-05,  3.2410e-07,  9.0338e-08,  ..., -1.8269e-05,
+          6.5612e-07,  2.1746e-07],
+        [ 7.7635e-06,  1.0133e-06,  1.0245e-07,  ...,  9.6485e-06,
+          2.7008e-06,  5.4669e-07],
+        ...,
+        [ 4.2915e-06, -5.8068e-07,  1.5367e-07,  ...,  6.7279e-06,
+          1.4435e-07,  1.0012e-07],
+        [ 7.4971e-07,  1.0421e-06, -1.9390e-06,  ..., -4.2170e-06,
+          1.6969e-06, -2.8200e-06],
+        [ 2.1942e-06,  6.7195e-07,  2.1886e-06,  ...,  6.2101e-06,
+          8.2795e-07,  3.1181e-06]], device='cuda:0')
+Epoch 144, bias, value: tensor([ 0.0013,  0.0018,  0.0044,  0.0129,  0.0233,  0.0404, -0.0246,  0.0116,
+        -0.0334, -0.0231], device='cuda:0'), grad: tensor([ 2.3117e-03, -5.1469e-05,  3.2634e-05,  1.6832e-03,  1.2731e-06,
+        -1.6518e-03, -2.3556e-03,  1.9148e-05, -6.6590e-08,  1.3053e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 143, time 217.10, cls_loss 0.0029 cls_loss_mapping 0.0051 cls_loss_causal 0.5340 re_mapping 0.0079 re_causal 0.0231 /// teacc 98.89 lr 0.00010000
+Epoch 145, weight, value: tensor([[-0.0314,  0.1182,  0.0712,  ..., -0.1604, -0.1044,  0.0251],
+        [ 0.1139, -0.0127, -0.0504,  ...,  0.0670,  0.0942, -0.1084],
+        [-0.0656, -0.0488, -0.0477,  ..., -0.0702, -0.0218, -0.0450],
+        ...,
+        [-0.0472,  0.1352, -0.1552,  ..., -0.1155,  0.0057, -0.1245],
+        [ 0.0027, -0.0889,  0.0359,  ...,  0.0560, -0.1043, -0.0386],
+        [-0.0554, -0.0827,  0.0539,  ..., -0.0737, -0.0527,  0.1154]],
+       device='cuda:0'), grad: tensor([[ 3.4692e-07, -2.7902e-06, -4.6343e-06,  ...,  5.4203e-07,
+          8.5216e-08, -5.3346e-06],
+        [ 2.9877e-06,  2.6003e-06,  3.2391e-06,  ...,  3.0864e-06,
+         -1.9977e-07,  4.4517e-07],
+        [ 3.3975e-06,  2.9011e-07,  2.8368e-06,  ...,  2.4978e-06,
+         -2.6077e-08,  2.8173e-07],
+        ...,
+        [ 1.6019e-05, -4.6790e-06,  1.4462e-05,  ...,  1.2591e-05,
+          4.2375e-07,  2.6580e-06],
+        [ 1.1779e-05, -1.5646e-06,  5.8532e-05,  ...,  2.2382e-05,
+          1.1228e-05,  8.0943e-05],
+        [ 1.2200e-06,  1.6391e-06, -4.7803e-05,  ..., -1.7449e-05,
+         -1.2986e-05, -9.1970e-05]], device='cuda:0')
+Epoch 145, bias, value: tensor([ 0.0013,  0.0019,  0.0035,  0.0128,  0.0245,  0.0404, -0.0244,  0.0115,
+        -0.0327, -0.0237], device='cuda:0'), grad: tensor([-1.4074e-05,  2.1204e-05,  1.4484e-05, -1.9777e-04,  2.4494e-07,
+         4.4674e-05,  3.6284e-06,  6.2048e-05,  1.5354e-04, -8.8036e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 144, time 217.13, cls_loss 0.0030 cls_loss_mapping 0.0042 cls_loss_causal 0.5391 re_mapping 0.0082 re_causal 0.0230 /// teacc 98.87 lr 0.00010000
+Epoch 146, weight, value: tensor([[-0.0316,  0.1193,  0.0702,  ..., -0.1608, -0.1052,  0.0240],
+        [ 0.1146, -0.0126, -0.0511,  ...,  0.0675,  0.0943, -0.1096],
+        [-0.0656, -0.0486, -0.0478,  ..., -0.0705, -0.0218, -0.0452],
+        ...,
+        [-0.0479,  0.1353, -0.1557,  ..., -0.1160,  0.0056, -0.1250],
+        [ 0.0025, -0.0898,  0.0358,  ...,  0.0558, -0.1045, -0.0387],
+        [-0.0559, -0.0829,  0.0543,  ..., -0.0740, -0.0520,  0.1160]],
+       device='cuda:0'), grad: tensor([[ 3.4459e-07, -1.8813e-07, -8.9407e-08,  ...,  3.8417e-07,
+         -4.7497e-08, -2.2398e-07],
+        [-4.1910e-08,  1.4259e-06,  1.3271e-07,  ...,  8.1956e-07,
+         -8.1491e-08,  9.9652e-08],
+        [ 5.6345e-08,  5.4948e-08,  1.2061e-07,  ...,  2.0210e-07,
+         -4.0978e-08,  1.8161e-08],
+        ...,
+        [ 3.6787e-08, -2.5071e-06,  5.3318e-07,  ...,  3.0231e-06,
+          1.3271e-07,  3.7346e-07],
+        [ 5.8068e-07,  1.7835e-07,  2.3562e-06,  ...,  5.8953e-07,
+          1.4203e-07,  2.3898e-06],
+        [ 2.2538e-07,  1.3951e-06, -2.0489e-06,  ...,  4.2468e-06,
+          7.1712e-08, -2.9393e-06]], device='cuda:0')
+Epoch 146, bias, value: tensor([ 0.0005,  0.0019,  0.0036,  0.0128,  0.0245,  0.0409, -0.0246,  0.0110,
+        -0.0329, -0.0233], device='cuda:0'), grad: tensor([ 7.1526e-07,  4.6678e-06, -2.4401e-07,  4.0233e-06, -1.3381e-05,
+        -8.2999e-06, -2.4941e-06,  2.4829e-06,  6.3553e-06,  6.1840e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 145, time 217.50, cls_loss 0.0024 cls_loss_mapping 0.0041 cls_loss_causal 0.5600 re_mapping 0.0076 re_causal 0.0233 /// teacc 98.90 lr 0.00010000
+Epoch 147, weight, value: tensor([[-0.0316,  0.1197,  0.0706,  ..., -0.1611, -0.1053,  0.0242],
+        [ 0.1149, -0.0126, -0.0513,  ...,  0.0678,  0.0946, -0.1098],
+        [-0.0659, -0.0488, -0.0481,  ..., -0.0707, -0.0220, -0.0452],
+        ...,
+        [-0.0483,  0.1358, -0.1558,  ..., -0.1164,  0.0054, -0.1254],
+        [ 0.0025, -0.0903,  0.0357,  ...,  0.0558, -0.1045, -0.0388],
+        [-0.0562, -0.0833,  0.0543,  ..., -0.0743, -0.0521,  0.1162]],
+       device='cuda:0'), grad: tensor([[ 2.1718e-06,  3.2224e-06, -1.9325e-07,  ...,  2.2119e-07,
+          6.5193e-09,  4.6985e-07],
+        [-4.6194e-07,  2.4913e-07,  1.6261e-06,  ..., -2.3842e-07,
+         -1.3970e-07,  1.6820e-06],
+        [ 1.1995e-06,  1.8869e-06,  2.2799e-06,  ...,  2.7288e-07,
+          1.5367e-08,  1.7649e-07],
+        ...,
+        [ 2.2687e-06,  3.5036e-06,  6.4932e-06,  ...,  4.4284e-07,
+          7.2177e-08,  1.6149e-06],
+        [ 1.2666e-06,  6.5705e-07,  3.0454e-06,  ...,  4.1910e-07,
+          2.8871e-08,  4.1574e-06],
+        [ 4.1537e-07,  7.1526e-07, -1.3433e-05,  ...,  6.0583e-07,
+          3.4925e-08, -1.8448e-05]], device='cuda:0')
+Epoch 147, bias, value: tensor([ 0.0007,  0.0020,  0.0033,  0.0132,  0.0246,  0.0408, -0.0243,  0.0108,
+        -0.0330, -0.0233], device='cuda:0'), grad: tensor([ 1.1347e-05,  4.8354e-06,  7.3388e-06, -2.3901e-05,  2.6077e-05,
+         8.1677e-07, -1.7479e-05,  1.7807e-05,  1.0617e-05, -3.7491e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 146, time 217.21, cls_loss 0.0027 cls_loss_mapping 0.0049 cls_loss_causal 0.5621 re_mapping 0.0076 re_causal 0.0230 /// teacc 98.92 lr 0.00010000
+Epoch 148, weight, value: tensor([[-0.0299,  0.1212,  0.0708,  ..., -0.1613, -0.1053,  0.0242],
+        [ 0.1147, -0.0130, -0.0516,  ...,  0.0678,  0.0950, -0.1102],
+        [-0.0662, -0.0489, -0.0482,  ..., -0.0708, -0.0223, -0.0458],
+        ...,
+        [-0.0486,  0.1365, -0.1561,  ..., -0.1176,  0.0052, -0.1261],
+        [ 0.0024, -0.0906,  0.0356,  ...,  0.0557, -0.1047, -0.0389],
+        [-0.0564, -0.0843,  0.0546,  ..., -0.0746, -0.0523,  0.1167]],
+       device='cuda:0'), grad: tensor([[ 2.2352e-08, -2.1793e-06, -1.1623e-06,  ...,  7.1712e-08,
+         -1.2107e-08, -1.4994e-06],
+        [-3.5437e-07,  1.6810e-07,  3.0641e-07,  ..., -5.5647e-07,
+         -8.4285e-08,  3.7253e-08],
+        [ 5.8208e-08,  2.3469e-07,  1.3178e-06,  ...,  2.1933e-07,
+          2.2817e-08,  6.5658e-08],
+        ...,
+        [ 8.3819e-08, -4.4098e-07,  2.2277e-06,  ...,  1.9884e-07,
+          1.8626e-08,  7.7300e-07],
+        [-4.4238e-08,  1.6950e-07,  2.9001e-06,  ..., -6.1328e-07,
+          3.7253e-08,  2.3432e-06],
+        [ 4.7032e-08,  1.8133e-06, -1.0710e-06,  ...,  1.8626e-07,
+          2.9337e-08, -2.3693e-06]], device='cuda:0')
+Epoch 148, bias, value: tensor([ 0.0018,  0.0015,  0.0033,  0.0137,  0.0247,  0.0403, -0.0246,  0.0105,
+        -0.0332, -0.0230], device='cuda:0'), grad: tensor([-4.0531e-06,  1.3933e-06, -1.0729e-05, -2.3812e-05,  5.5693e-06,
+         6.8322e-06,  7.8380e-06,  7.9796e-06,  8.5235e-06,  5.4203e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 147, time 216.86, cls_loss 0.0031 cls_loss_mapping 0.0047 cls_loss_causal 0.5443 re_mapping 0.0077 re_causal 0.0223 /// teacc 98.92 lr 0.00010000
+Epoch 149, weight, value: tensor([[-0.0300,  0.1235,  0.0722,  ..., -0.1619, -0.1054,  0.0248],
+        [ 0.1148, -0.0140, -0.0517,  ...,  0.0679,  0.0952, -0.1103],
+        [-0.0664, -0.0493, -0.0485,  ..., -0.0709, -0.0225, -0.0460],
+        ...,
+        [-0.0486,  0.1378, -0.1566,  ..., -0.1176,  0.0052, -0.1270],
+        [ 0.0028, -0.0920,  0.0355,  ...,  0.0558, -0.1047, -0.0391],
+        [-0.0567, -0.0849,  0.0548,  ..., -0.0742, -0.0525,  0.1172]],
+       device='cuda:0'), grad: tensor([[ 8.6101e-07,  2.4308e-07,  1.7881e-07,  ...,  1.8124e-06,
+          7.6834e-08,  2.6124e-07],
+        [-1.0945e-05, -7.5484e-07, -2.8759e-06,  ...,  7.9691e-05,
+         -7.3016e-06,  2.3097e-07],
+        [ 3.2634e-06,  9.1270e-08,  9.9279e-07,  ...,  3.3714e-06,
+          3.1106e-06,  1.4156e-07],
+        ...,
+        [ 2.9448e-06,  2.6682e-07,  6.2305e-07,  ...,  7.7188e-06,
+          1.0980e-06,  8.4285e-08],
+        [ 1.8124e-06,  3.4180e-07,  6.6264e-07,  ...,  9.5665e-06,
+          4.4750e-07,  5.6531e-07],
+        [ 1.5050e-06,  1.3784e-07,  3.6694e-07,  ...,  1.5843e-04,
+          1.0338e-06,  7.2829e-07]], device='cuda:0')
+Epoch 149, bias, value: tensor([ 0.0031,  0.0010,  0.0032,  0.0127,  0.0240,  0.0413, -0.0250,  0.0109,
+        -0.0334, -0.0228], device='cuda:0'), grad: tensor([ 4.5896e-06,  1.4436e-04,  6.9775e-06,  2.9244e-06, -4.9686e-04,
+         6.8620e-06,  2.2929e-06,  1.5572e-05,  1.9208e-05,  2.9469e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 148, time 217.35, cls_loss 0.0026 cls_loss_mapping 0.0044 cls_loss_causal 0.5725 re_mapping 0.0075 re_causal 0.0234 /// teacc 98.93 lr 0.00010000
+Epoch 150, weight, value: tensor([[-0.0309,  0.1238,  0.0723,  ..., -0.1636, -0.1076,  0.0248],
+        [ 0.1150, -0.0144, -0.0519,  ...,  0.0678,  0.0958, -0.1106],
+        [-0.0665, -0.0492, -0.0487,  ..., -0.0711, -0.0227, -0.0460],
+        ...,
+        [-0.0489,  0.1384, -0.1568,  ..., -0.1182,  0.0046, -0.1272],
+        [ 0.0026, -0.0927,  0.0354,  ...,  0.0556, -0.1051, -0.0392],
+        [-0.0569, -0.0853,  0.0549,  ..., -0.0746, -0.0526,  0.1174]],
+       device='cuda:0'), grad: tensor([[ 6.2771e-07, -6.5193e-08,  3.7346e-07,  ...,  6.5658e-07,
+          1.6578e-07,  2.8405e-07],
+        [ 1.7405e-05,  3.6368e-07,  9.1493e-06,  ...,  1.0677e-05,
+          3.5390e-08,  4.6715e-06],
+        [ 1.4501e-06,  2.1234e-07,  7.6741e-07,  ...,  9.5274e-07,
+          2.9802e-08,  3.1292e-07],
+        ...,
+        [ 4.9826e-07, -1.1651e-06,  9.3784e-07,  ...,  4.7032e-07,
+          8.8941e-08,  6.8778e-07],
+        [-3.0786e-05,  1.6904e-07, -7.6890e-06,  ..., -2.0549e-05,
+          1.3709e-06, -2.6692e-06],
+        [ 6.4541e-07,  4.1304e-07, -3.7365e-06,  ...,  1.1474e-06,
+          2.3004e-07, -3.5372e-06]], device='cuda:0')
+Epoch 150, bias, value: tensor([ 0.0022,  0.0006,  0.0033,  0.0124,  0.0250,  0.0420, -0.0251,  0.0110,
+        -0.0337, -0.0230], device='cuda:0'), grad: tensor([ 1.5134e-06,  2.4244e-05,  3.2000e-06,  6.0163e-06,  7.7020e-07,
+        -9.8050e-06,  7.3798e-06,  6.0210e-07, -2.9281e-05, -4.6194e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 149, time 217.01, cls_loss 0.0028 cls_loss_mapping 0.0040 cls_loss_causal 0.5482 re_mapping 0.0075 re_causal 0.0220 /// teacc 98.95 lr 0.00010000
+Epoch 151, weight, value: tensor([[-0.0311,  0.1242,  0.0724,  ..., -0.1644, -0.1081,  0.0248],
+        [ 0.1152, -0.0144, -0.0521,  ...,  0.0676,  0.0961, -0.1108],
+        [-0.0668, -0.0489, -0.0486,  ..., -0.0712, -0.0228, -0.0461],
+        ...,
+        [-0.0496,  0.1387, -0.1571,  ..., -0.1186,  0.0043, -0.1276],
+        [ 0.0028, -0.0935,  0.0353,  ...,  0.0558, -0.1053, -0.0394],
+        [-0.0572, -0.0855,  0.0551,  ..., -0.0749, -0.0527,  0.1176]],
+       device='cuda:0'), grad: tensor([[ 1.2247e-07,  5.3970e-07,  4.2878e-06,  ...,  1.5050e-06,
+          7.9162e-09,  4.5449e-06],
+        [-4.0419e-06, -2.6077e-07,  1.2107e-07,  ..., -3.3807e-06,
+         -9.1735e-08,  1.1269e-07],
+        [ 1.5367e-07,  2.4140e-06,  6.0536e-08,  ...,  1.8720e-07,
+          2.5146e-08,  6.0536e-08],
+        ...,
+        [ 2.7064e-06, -4.1962e-05,  8.0885e-07,  ...,  2.5220e-06,
+          1.9791e-07,  7.8510e-07],
+        [ 3.5577e-07,  2.2259e-06,  2.6554e-05,  ...,  8.7768e-06,
+         -1.5600e-07,  2.8074e-05],
+        [ 7.3668e-07,  3.3557e-05, -3.5048e-05,  ..., -9.2462e-06,
+          3.4925e-08, -3.6210e-05]], device='cuda:0')
+Epoch 151, bias, value: tensor([ 0.0019,  0.0005,  0.0035,  0.0113,  0.0251,  0.0428, -0.0251,  0.0108,
+        -0.0338, -0.0229], device='cuda:0'), grad: tensor([ 1.0140e-05, -7.1898e-06,  3.0100e-06,  6.3293e-06,  4.2506e-06,
+         6.2771e-07,  5.6904e-07, -6.0588e-05,  5.7846e-05, -1.4879e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 150, time 217.20, cls_loss 0.0023 cls_loss_mapping 0.0044 cls_loss_causal 0.5272 re_mapping 0.0073 re_causal 0.0221 /// teacc 98.98 lr 0.00010000
+Epoch 152, weight, value: tensor([[-0.0317,  0.1247,  0.0726,  ..., -0.1650, -0.1085,  0.0249],
+        [ 0.1160, -0.0144, -0.0522,  ...,  0.0679,  0.0965, -0.1111],
+        [-0.0671, -0.0489, -0.0486,  ..., -0.0713, -0.0230, -0.0461],
+        ...,
+        [-0.0501,  0.1389, -0.1574,  ..., -0.1190,  0.0042, -0.1282],
+        [ 0.0010, -0.0964,  0.0350,  ...,  0.0544, -0.1054, -0.0398],
+        [-0.0573, -0.0857,  0.0551,  ..., -0.0762, -0.0527,  0.1178]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09, -5.3868e-06, -2.9989e-06,  ...,  4.0280e-08,
+         -8.9873e-07, -4.2282e-06],
+        [-2.5798e-07,  2.2724e-07,  9.7789e-09,  ..., -3.2317e-07,
+         -1.1642e-08,  4.4703e-08],
+        [ 1.2130e-07,  1.5763e-07,  6.9849e-08,  ...,  2.2096e-07,
+         -5.3551e-09,  5.9605e-08],
+        ...,
+        [ 1.1059e-07, -4.2934e-07,  8.1258e-08,  ...,  2.3679e-07,
+          2.1188e-08,  1.4924e-07],
+        [-2.5379e-08,  1.3225e-07,  6.5425e-08,  ...,  3.4925e-09,
+          1.8161e-08,  2.0908e-07],
+        [ 2.5844e-08,  3.8147e-06,  2.1942e-06,  ...,  1.7439e-07,
+          7.2550e-07,  2.8461e-06]], device='cuda:0')
+Epoch 152, bias, value: tensor([ 0.0019,  0.0006,  0.0034,  0.0114,  0.0262,  0.0435, -0.0250,  0.0108,
+        -0.0346, -0.0235], device='cuda:0'), grad: tensor([-1.3314e-05,  3.7951e-08,  6.7148e-07,  5.3225e-07,  4.8149e-07,
+         1.2051e-06,  1.0692e-06,  1.4971e-07,  3.1316e-07,  8.8215e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 151, time 217.66, cls_loss 0.0025 cls_loss_mapping 0.0048 cls_loss_causal 0.5431 re_mapping 0.0076 re_causal 0.0212 /// teacc 98.96 lr 0.00010000
+Epoch 153, weight, value: tensor([[-0.0319,  0.1250,  0.0728,  ..., -0.1654, -0.1085,  0.0250],
+        [ 0.1162, -0.0146, -0.0524,  ...,  0.0678,  0.0966, -0.1114],
+        [-0.0674, -0.0487, -0.0487,  ..., -0.0715, -0.0230, -0.0459],
+        ...,
+        [-0.0503,  0.1392, -0.1577,  ..., -0.1195,  0.0042, -0.1285],
+        [ 0.0010, -0.0967,  0.0350,  ...,  0.0545, -0.1054, -0.0399],
+        [-0.0576, -0.0859,  0.0553,  ..., -0.0767, -0.0528,  0.1181]],
+       device='cuda:0'), grad: tensor([[ 2.9267e-07, -1.7406e-06, -7.1852e-07,  ...,  5.5972e-07,
+         -1.0813e-06, -1.1697e-06],
+        [ 6.2492e-07, -7.1945e-08,  4.4121e-07,  ..., -8.2189e-08,
+         -7.2643e-07, -2.0745e-07],
+        [ 5.5693e-07,  1.2736e-07,  1.2107e-07,  ...,  5.2992e-07,
+          1.6112e-07,  8.8476e-08],
+        ...,
+        [ 1.3104e-06, -4.8243e-07,  2.0466e-07,  ...,  1.0617e-06,
+          4.5565e-07,  2.7148e-07],
+        [-2.2158e-05,  9.8487e-08, -3.3788e-06,  ..., -1.1146e-05,
+         -6.5658e-07,  1.5125e-06],
+        [ 1.0235e-06,  1.2415e-06,  4.1467e-07,  ...,  9.3970e-07,
+          9.7509e-07,  6.3330e-07]], device='cuda:0')
+Epoch 153, bias, value: tensor([ 0.0020,  0.0003,  0.0039,  0.0118,  0.0266,  0.0432, -0.0249,  0.0105,
+        -0.0346, -0.0236], device='cuda:0'), grad: tensor([-5.0776e-06,  4.4773e-07,  1.8235e-06,  2.1845e-05,  1.5693e-07,
+         6.4671e-06,  9.1502e-07,  2.4382e-06, -3.5048e-05,  6.0722e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 152, time 217.32, cls_loss 0.0028 cls_loss_mapping 0.0047 cls_loss_causal 0.5532 re_mapping 0.0073 re_causal 0.0214 /// teacc 98.98 lr 0.00010000
+Epoch 154, weight, value: tensor([[-0.0322,  0.1253,  0.0722,  ..., -0.1662, -0.1087,  0.0242],
+        [ 0.1168, -0.0148, -0.0530,  ...,  0.0681,  0.0968, -0.1117],
+        [-0.0675, -0.0488, -0.0487,  ..., -0.0715, -0.0228, -0.0461],
+        ...,
+        [-0.0505,  0.1398, -0.1579,  ..., -0.1200,  0.0040, -0.1294],
+        [ 0.0008, -0.0973,  0.0350,  ...,  0.0542, -0.1055, -0.0401],
+        [-0.0582, -0.0861,  0.0556,  ..., -0.0770, -0.0529,  0.1187]],
+       device='cuda:0'), grad: tensor([[ 5.5600e-07,  2.7940e-09,  2.4289e-06,  ...,  4.8522e-07,
+          4.1910e-09,  3.1223e-07],
+        [-6.9663e-06, -1.1008e-06,  2.4196e-06,  ..., -7.6666e-06,
+         -5.1223e-09,  1.7360e-06],
+        [ 1.9744e-06,  1.6019e-07,  4.2245e-06,  ...,  2.4550e-06,
+          3.2829e-08,  6.1002e-07],
+        ...,
+        [ 3.1758e-06, -1.6764e-08,  1.3495e-06,  ...,  2.4941e-06,
+          3.6089e-08,  3.7719e-07],
+        [-1.4909e-05,  1.3062e-07, -1.5393e-05,  ..., -4.3392e-05,
+          5.9372e-08, -3.7521e-05],
+        [ 1.2189e-05,  5.9791e-07,  1.6123e-05,  ...,  2.9460e-05,
+          7.6834e-09,  2.3499e-05]], device='cuda:0')
+Epoch 154, bias, value: tensor([ 0.0013,  0.0002,  0.0044,  0.0115,  0.0267,  0.0434, -0.0245,  0.0103,
+        -0.0351, -0.0234], device='cuda:0'), grad: tensor([ 7.4171e-06, -1.5393e-05,  1.5527e-05, -3.0851e-04,  4.9770e-06,
+         2.7394e-04,  6.8992e-06,  1.1832e-05, -5.8442e-05,  6.1333e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 153, time 217.54, cls_loss 0.0031 cls_loss_mapping 0.0066 cls_loss_causal 0.5615 re_mapping 0.0076 re_causal 0.0217 /// teacc 98.96 lr 0.00010000
+Epoch 155, weight, value: tensor([[-0.0323,  0.1255,  0.0721,  ..., -0.1674, -0.1088,  0.0241],
+        [ 0.1172, -0.0149, -0.0537,  ...,  0.0683,  0.0969, -0.1125],
+        [-0.0669, -0.0490, -0.0491,  ..., -0.0721, -0.0227, -0.0462],
+        ...,
+        [-0.0511,  0.1403, -0.1584,  ..., -0.1206,  0.0037, -0.1304],
+        [ 0.0007, -0.0979,  0.0349,  ...,  0.0545, -0.1056, -0.0403],
+        [-0.0589, -0.0864,  0.0560,  ..., -0.0779, -0.0531,  0.1193]],
+       device='cuda:0'), grad: tensor([[ 6.1933e-08, -9.9763e-06, -7.6592e-06,  ..., -2.4065e-06,
+          3.7253e-09, -3.1590e-06],
+        [-1.5516e-06,  2.1383e-06,  1.7765e-07,  ..., -1.8245e-06,
+         -1.6065e-08,  9.9186e-08],
+        [ 3.3039e-07,  4.9882e-06,  3.8464e-07,  ...,  4.8568e-07,
+         -7.0548e-08,  1.6391e-07],
+        ...,
+        [ 6.2305e-07, -2.0042e-05,  2.6799e-07,  ...,  8.3307e-07,
+          1.8626e-08,  2.1770e-07],
+        [ 3.6135e-07,  7.5810e-07,  9.8348e-07,  ...,  2.2631e-07,
+          1.1013e-07,  1.0142e-06],
+        [ 3.4273e-07,  1.0572e-05,  9.1642e-07,  ...,  2.1514e-06,
+          6.0536e-09, -9.5926e-07]], device='cuda:0')
+Epoch 155, bias, value: tensor([ 0.0012, -0.0004,  0.0049,  0.0105,  0.0272,  0.0433, -0.0230,  0.0104,
+        -0.0357, -0.0234], device='cuda:0'), grad: tensor([-2.9042e-05,  6.6962e-07,  9.6932e-06,  6.1542e-06,  4.3325e-06,
+         2.5313e-06,  1.4752e-05, -3.7402e-05,  4.2208e-06,  2.4021e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 154, time 217.20, cls_loss 0.0028 cls_loss_mapping 0.0040 cls_loss_causal 0.5425 re_mapping 0.0075 re_causal 0.0216 /// teacc 98.87 lr 0.00010000
+Epoch 156, weight, value: tensor([[-0.0327,  0.1261,  0.0721,  ..., -0.1681, -0.1089,  0.0241],
+        [ 0.1211, -0.0151, -0.0516,  ...,  0.0707,  0.0975, -0.1127],
+        [-0.0681, -0.0488, -0.0496,  ..., -0.0725, -0.0233, -0.0462],
+        ...,
+        [-0.0516,  0.1408, -0.1587,  ..., -0.1210,  0.0036, -0.1307],
+        [-0.0009, -0.0983,  0.0343,  ...,  0.0537, -0.1057, -0.0404],
+        [-0.0594, -0.0867,  0.0561,  ..., -0.0781, -0.0533,  0.1196]],
+       device='cuda:0'), grad: tensor([[-2.8443e-04, -3.0208e-04, -1.5981e-06,  ...,  5.3924e-07,
+          2.8498e-07, -2.7958e-06],
+        [ 1.0121e-04,  1.2082e-04,  8.7777e-08,  ..., -1.3448e-05,
+         -1.0140e-05,  6.7987e-08],
+        [ 3.1590e-05,  2.9370e-05,  1.7858e-07,  ..., -3.5256e-05,
+         -6.6102e-05,  2.5705e-07],
+        ...,
+        [ 8.0168e-06,  3.1628e-06,  3.1199e-07,  ...,  5.5917e-06,
+          4.5598e-06,  4.2538e-07],
+        [ 3.8054e-06,  3.7868e-06,  4.4610e-07,  ...,  1.1679e-06,
+          4.2585e-07,  9.9745e-07],
+        [ 2.2519e-06,  2.5295e-06, -3.5716e-07,  ...,  1.1921e-06,
+          9.2713e-07, -3.8720e-07]], device='cuda:0')
+Epoch 156, bias, value: tensor([ 0.0012,  0.0015,  0.0052,  0.0105,  0.0271,  0.0433, -0.0236,  0.0103,
+        -0.0368, -0.0234], device='cuda:0'), grad: tensor([-9.6464e-04,  2.9707e-04, -1.8072e-04,  2.1577e-05,  2.2918e-05,
+        -2.6941e-05,  7.4673e-04,  5.4181e-05,  1.6510e-05,  1.3798e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 155----------------------------------------------------
+epoch 155, time 217.97, cls_loss 0.0032 cls_loss_mapping 0.0052 cls_loss_causal 0.5341 re_mapping 0.0076 re_causal 0.0215 /// teacc 99.00 lr 0.00010000
+Epoch 157, weight, value: tensor([[-0.0322,  0.1270,  0.0718,  ..., -0.1686, -0.1089,  0.0240],
+        [ 0.1222, -0.0141, -0.0519,  ...,  0.0726,  0.0976, -0.1131],
+        [-0.0686, -0.0493, -0.0500,  ..., -0.0728, -0.0232, -0.0464],
+        ...,
+        [-0.0535,  0.1407, -0.1591,  ..., -0.1235,  0.0036, -0.1311],
+        [-0.0012, -0.0989,  0.0344,  ...,  0.0534, -0.1058, -0.0406],
+        [-0.0604, -0.0874,  0.0566,  ..., -0.0774, -0.0535,  0.1206]],
+       device='cuda:0'), grad: tensor([[ 1.2387e-07,  5.0943e-07, -2.1583e-07,  ...,  3.8277e-07,
+          4.0745e-08, -2.5891e-07],
+        [-4.6613e-07,  8.9593e-07,  1.3388e-07,  ...,  6.1840e-07,
+          2.6077e-08,  6.3796e-08],
+        [ 9.3831e-08,  2.2165e-07, -2.2096e-07,  ..., -5.6671e-07,
+          7.2177e-09,  2.7940e-08],
+        ...,
+        [ 2.0070e-07,  1.6633e-06,  3.8999e-07,  ...,  4.6134e-05,
+         -1.0189e-06, -2.4587e-07],
+        [ 1.4552e-07,  1.8859e-07,  5.0664e-07,  ...,  2.0433e-06,
+          8.1491e-09,  1.6391e-07],
+        [ 7.8231e-08,  5.1521e-06, -4.7474e-07,  ...,  1.4290e-05,
+          2.0210e-07, -8.6799e-07]], device='cuda:0')
+Epoch 157, bias, value: tensor([ 0.0014,  0.0020,  0.0049,  0.0100,  0.0258,  0.0439, -0.0232,  0.0099,
+        -0.0369, -0.0227], device='cuda:0'), grad: tensor([ 1.0589e-06,  3.5968e-06, -1.8729e-06, -2.4438e-06, -1.6296e-04,
+         1.3679e-05, -3.1237e-06,  1.0687e-04,  5.7369e-06,  3.9458e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 156, time 217.45, cls_loss 0.0029 cls_loss_mapping 0.0053 cls_loss_causal 0.5657 re_mapping 0.0073 re_causal 0.0213 /// teacc 98.96 lr 0.00010000
+Epoch 158, weight, value: tensor([[-0.0323,  0.1284,  0.0717,  ..., -0.1687, -0.1090,  0.0235],
+        [ 0.1224, -0.0144, -0.0524,  ...,  0.0727,  0.0979, -0.1136],
+        [-0.0698, -0.0507, -0.0505,  ..., -0.0729, -0.0233, -0.0470],
+        ...,
+        [-0.0540,  0.1412, -0.1599,  ..., -0.1238,  0.0034, -0.1319],
+        [-0.0010, -0.0992,  0.0342,  ...,  0.0535, -0.1059, -0.0408],
+        [-0.0611, -0.0882,  0.0574,  ..., -0.0777, -0.0537,  0.1216]],
+       device='cuda:0'), grad: tensor([[ 5.9530e-06,  1.5907e-06,  7.7263e-06,  ...,  5.0552e-06,
+          0.0000e+00,  2.5965e-06],
+        [-1.3828e-05, -2.2203e-06, -3.8883e-08,  ..., -1.8731e-05,
+          0.0000e+00,  4.3493e-07],
+        [-5.3830e-07, -1.0468e-05, -1.6242e-05,  ...,  9.3058e-06,
+          0.0000e+00,  1.8673e-07],
+        ...,
+        [ 8.0317e-06,  3.5553e-07,  1.5106e-06,  ...,  7.9647e-06,
+          0.0000e+00,  2.4354e-07],
+        [-7.0445e-06,  7.6815e-06,  1.9325e-08,  ..., -1.0669e-05,
+          0.0000e+00, -5.4799e-06],
+        [ 2.2110e-06,  1.0319e-06,  7.9721e-07,  ...,  1.1064e-06,
+          0.0000e+00, -4.6706e-07]], device='cuda:0')
+Epoch 158, bias, value: tensor([ 0.0016,  0.0017,  0.0049,  0.0111,  0.0256,  0.0435, -0.0241,  0.0098,
+        -0.0370, -0.0222], device='cuda:0'), grad: tensor([ 2.1622e-05, -2.5481e-05, -1.1981e-04,  4.8168e-06,  5.5553e-07,
+         1.4216e-05,  8.3260e-07,  1.5453e-05,  8.3029e-05,  4.8578e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 157, time 217.00, cls_loss 0.0021 cls_loss_mapping 0.0041 cls_loss_causal 0.5195 re_mapping 0.0072 re_causal 0.0210 /// teacc 98.96 lr 0.00010000
+Epoch 159, weight, value: tensor([[-0.0325,  0.1293,  0.0725,  ..., -0.1693, -0.1089,  0.0241],
+        [ 0.1233, -0.0145, -0.0531,  ...,  0.0731,  0.0983, -0.1144],
+        [-0.0716, -0.0511, -0.0503,  ..., -0.0736, -0.0237, -0.0473],
+        ...,
+        [-0.0544,  0.1418, -0.1602,  ..., -0.1241,  0.0033, -0.1330],
+        [-0.0007, -0.0996,  0.0343,  ...,  0.0538, -0.1059, -0.0408],
+        [-0.0616, -0.0885,  0.0573,  ..., -0.0779, -0.0539,  0.1217]],
+       device='cuda:0'), grad: tensor([[ 2.9523e-07, -1.2824e-06, -7.4040e-07,  ...,  4.3912e-07,
+          9.3132e-10, -1.7937e-06],
+        [-2.3767e-06,  3.2503e-07, -1.0943e-08,  ..., -2.1048e-06,
+          4.4238e-09, -6.8219e-08],
+        [-3.1311e-06, -3.5129e-06, -2.9560e-06,  ...,  6.1002e-07,
+          6.9849e-10,  2.5379e-07],
+        ...,
+        [ 7.4320e-07, -4.9397e-06,  4.6007e-07,  ...,  6.4448e-07,
+          6.5193e-09,  5.5786e-07],
+        [ 5.0776e-06,  3.8408e-06,  2.7642e-06,  ...,  4.0187e-07,
+          4.0280e-08,  1.5479e-06],
+        [ 5.7369e-07,  4.2245e-06, -6.5472e-07,  ...,  9.4622e-07,
+          2.3283e-09, -3.7253e-07]], device='cuda:0')
+Epoch 159, bias, value: tensor([ 0.0022,  0.0025,  0.0042,  0.0113,  0.0257,  0.0430, -0.0241,  0.0098,
+        -0.0370, -0.0224], device='cuda:0'), grad: tensor([-3.6284e-06, -2.1346e-06, -6.9797e-05,  8.6427e-06,  2.7828e-06,
+        -6.9737e-06,  1.9986e-06, -4.0494e-06,  6.6698e-05,  6.3963e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 158, time 217.31, cls_loss 0.0020 cls_loss_mapping 0.0042 cls_loss_causal 0.5469 re_mapping 0.0070 re_causal 0.0215 /// teacc 98.97 lr 0.00010000
+Epoch 160, weight, value: tensor([[-0.0331,  0.1297,  0.0724,  ..., -0.1705, -0.1089,  0.0242],
+        [ 0.1249, -0.0139, -0.0531,  ...,  0.0743,  0.0991, -0.1144],
+        [-0.0734, -0.0519, -0.0503,  ..., -0.0745, -0.0244, -0.0479],
+        ...,
+        [-0.0556,  0.1417, -0.1604,  ..., -0.1254,  0.0032, -0.1340],
+        [-0.0006, -0.1000,  0.0343,  ...,  0.0537, -0.1059, -0.0408],
+        [-0.0624, -0.0883,  0.0574,  ..., -0.0782, -0.0540,  0.1220]],
+       device='cuda:0'), grad: tensor([[ 1.1874e-06,  2.7427e-07,  6.5845e-07,  ...,  1.4799e-06,
+          0.0000e+00, -1.0454e-07],
+        [ 1.9360e-04,  6.6340e-05,  2.1956e-07,  ...,  2.1112e-04,
+         -5.5879e-09,  4.6333e-08],
+        [ 1.0572e-05,  3.6359e-06, -3.5893e-06,  ...,  7.4245e-06,
+          2.3283e-10,  3.4692e-08],
+        ...,
+        [ 2.3302e-06, -7.0501e-07,  2.5891e-07,  ...,  3.1032e-06,
+          2.0955e-09,  1.4226e-07],
+        [-2.0945e-04, -7.1585e-05,  2.7437e-06,  ..., -2.2602e-04,
+          2.3283e-10,  5.8860e-07],
+        [ 4.8010e-07,  9.2015e-07, -2.5565e-07,  ...,  1.0375e-06,
+          1.3970e-09, -9.3551e-07]], device='cuda:0')
+Epoch 160, bias, value: tensor([ 0.0021,  0.0033,  0.0039,  0.0111,  0.0259,  0.0429, -0.0239,  0.0092,
+        -0.0371, -0.0222], device='cuda:0'), grad: tensor([ 5.3942e-06,  5.2118e-04, -1.1958e-06, -1.4730e-05,  2.7893e-07,
+         2.4661e-05,  5.9828e-06,  4.0904e-06, -5.4693e-04,  2.3022e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 159, time 217.56, cls_loss 0.0024 cls_loss_mapping 0.0045 cls_loss_causal 0.5345 re_mapping 0.0070 re_causal 0.0214 /// teacc 98.96 lr 0.00010000
+Epoch 161, weight, value: tensor([[-0.0333,  0.1301,  0.0724,  ..., -0.1712, -0.1089,  0.0242],
+        [ 0.1257, -0.0134, -0.0530,  ...,  0.0745,  0.0997, -0.1145],
+        [-0.0737, -0.0521, -0.0503,  ..., -0.0745, -0.0244, -0.0483],
+        ...,
+        [-0.0567,  0.1422, -0.1609,  ..., -0.1258,  0.0024, -0.1355],
+        [-0.0006, -0.1004,  0.0341,  ...,  0.0537, -0.1059, -0.0410],
+        [-0.0628, -0.0893,  0.0578,  ..., -0.0783, -0.0543,  0.1226]],
+       device='cuda:0'), grad: tensor([[ 2.6310e-08,  3.9209e-07, -2.6985e-07,  ...,  4.5169e-08,
+          8.6147e-09, -2.7008e-07],
+        [-2.5844e-08,  3.3751e-06,  3.9348e-08,  ..., -3.7486e-08,
+         -1.4668e-08,  6.8452e-08],
+        [ 2.0256e-08,  4.4145e-07,  1.6810e-07,  ...,  1.4668e-08,
+          1.3970e-09,  1.4203e-08],
+        ...,
+        [ 4.6566e-09, -3.6049e-04,  6.2399e-08,  ...,  5.6811e-08,
+          5.5879e-09, -5.6513e-06],
+        [ 6.4727e-08,  6.9197e-07,  4.0629e-07,  ...,  4.8196e-08,
+          5.3551e-09,  2.1956e-07],
+        [ 2.6077e-08,  3.5238e-04, -2.7381e-07,  ...,  2.7241e-08,
+          2.3283e-09,  4.9025e-06]], device='cuda:0')
+Epoch 161, bias, value: tensor([ 0.0021,  0.0036,  0.0040,  0.0112,  0.0257,  0.0427, -0.0240,  0.0090,
+        -0.0372, -0.0219], device='cuda:0'), grad: tensor([ 4.8336e-07,  6.0834e-06,  8.7451e-07, -7.9442e-07,  4.5449e-06,
+         2.2147e-06, -2.0396e-07, -6.5851e-04,  2.1234e-06,  6.4373e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 160, time 217.33, cls_loss 0.0022 cls_loss_mapping 0.0035 cls_loss_causal 0.5651 re_mapping 0.0072 re_causal 0.0216 /// teacc 98.89 lr 0.00010000
+Epoch 162, weight, value: tensor([[-0.0337,  0.1302,  0.0723,  ..., -0.1720, -0.1090,  0.0241],
+        [ 0.1260, -0.0140, -0.0534,  ...,  0.0747,  0.1000, -0.1152],
+        [-0.0740, -0.0526, -0.0502,  ..., -0.0749, -0.0245, -0.0485],
+        ...,
+        [-0.0567,  0.1434, -0.1617,  ..., -0.1260,  0.0023, -0.1373],
+        [-0.0006, -0.1013,  0.0342,  ...,  0.0539, -0.1060, -0.0409],
+        [-0.0632, -0.0895,  0.0579,  ..., -0.0785, -0.0544,  0.1229]],
+       device='cuda:0'), grad: tensor([[ 3.4459e-08,  1.1572e-07, -4.4471e-08,  ...,  1.1688e-07,
+          1.2340e-08, -1.1828e-07],
+        [-1.0571e-07,  3.5297e-06,  5.3132e-07,  ...,  2.2608e-07,
+          6.5193e-09,  5.6578e-08],
+        [ 1.8068e-07,  3.0234e-05,  3.6284e-06,  ...,  3.1921e-07,
+         -1.1711e-07,  6.8452e-08],
+        ...,
+        [ 2.2235e-07, -9.6917e-05, -1.1854e-05,  ...,  4.8522e-07,
+          2.3050e-08,  5.8906e-08],
+        [-1.6410e-06,  6.2585e-07, -1.1660e-06,  ..., -1.9427e-06,
+          1.0012e-08, -3.9791e-07],
+        [ 2.0163e-07,  5.5730e-05,  6.8992e-06,  ...,  2.1905e-06,
+          9.5461e-09, -2.4005e-07]], device='cuda:0')
+Epoch 162, bias, value: tensor([ 0.0019,  0.0033,  0.0042,  0.0110,  0.0259,  0.0426, -0.0241,  0.0091,
+        -0.0373, -0.0216], device='cuda:0'), grad: tensor([ 9.9000e-07,  9.6709e-06,  7.0751e-05,  6.2697e-06,  4.5560e-06,
+         6.6943e-06,  2.4959e-06, -2.4676e-04, -2.2221e-06,  1.4734e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 161, time 217.28, cls_loss 0.0028 cls_loss_mapping 0.0051 cls_loss_causal 0.5337 re_mapping 0.0075 re_causal 0.0210 /// teacc 98.89 lr 0.00010000
+Epoch 163, weight, value: tensor([[-0.0339,  0.1315,  0.0727,  ..., -0.1729, -0.1094,  0.0242],
+        [ 0.1261, -0.0142, -0.0539,  ...,  0.0745,  0.1000, -0.1159],
+        [-0.0740, -0.0539, -0.0506,  ..., -0.0746, -0.0243, -0.0488],
+        ...,
+        [-0.0570,  0.1448, -0.1620,  ..., -0.1263,  0.0022, -0.1382],
+        [-0.0010, -0.1011,  0.0342,  ...,  0.0536, -0.1060, -0.0412],
+        [-0.0639, -0.0912,  0.0580,  ..., -0.0792, -0.0546,  0.1232]],
+       device='cuda:0'), grad: tensor([[ 5.4808e-07, -1.8075e-05, -1.3702e-05,  ...,  2.1495e-06,
+          4.5169e-08, -2.0623e-05],
+        [ 2.4870e-05,  3.2574e-05,  1.8045e-05,  ...,  3.2157e-05,
+          1.1958e-05,  1.5318e-05],
+        [ 4.0643e-06,  5.9698e-07,  1.8142e-06,  ...,  3.2276e-05,
+          2.2873e-06,  8.9873e-07],
+        ...,
+        [-1.2949e-05, -4.3571e-05,  4.3982e-07,  ..., -6.3032e-06,
+         -2.1949e-05,  3.2503e-07],
+        [-1.4581e-05,  6.3255e-06, -2.1324e-05,  ..., -2.7180e-05,
+          3.2932e-06, -1.2994e-05],
+        [ 1.5367e-06,  8.7321e-06,  6.3255e-06,  ...,  1.5944e-06,
+          7.0501e-07,  8.8066e-06]], device='cuda:0')
+Epoch 163, bias, value: tensor([ 0.0024,  0.0029,  0.0040,  0.0095,  0.0261,  0.0434, -0.0233,  0.0094,
+        -0.0372, -0.0221], device='cuda:0'), grad: tensor([-5.2303e-05,  1.4746e-04,  5.8472e-05,  1.0245e-05, -3.8564e-05,
+         1.4633e-05, -1.2062e-05, -1.2517e-04, -3.3200e-05,  3.0667e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 162, time 217.42, cls_loss 0.0036 cls_loss_mapping 0.0061 cls_loss_causal 0.5676 re_mapping 0.0075 re_causal 0.0212 /// teacc 98.99 lr 0.00010000
+Epoch 164, weight, value: tensor([[-0.0345,  0.1319,  0.0727,  ..., -0.1739, -0.1094,  0.0244],
+        [ 0.1257, -0.0162, -0.0561,  ...,  0.0750,  0.1004, -0.1164],
+        [-0.0743, -0.0536, -0.0508,  ..., -0.0751, -0.0244, -0.0491],
+        ...,
+        [-0.0558,  0.1465, -0.1628,  ..., -0.1266,  0.0023, -0.1379],
+        [-0.0011, -0.1018,  0.0342,  ...,  0.0533, -0.1063, -0.0412],
+        [-0.0655, -0.0911,  0.0594,  ..., -0.0812, -0.0550,  0.1238]],
+       device='cuda:0'), grad: tensor([[-5.8208e-09, -2.9076e-06, -3.8669e-06,  ...,  1.8161e-08,
+         -2.3423e-07, -5.2564e-06],
+        [-1.0920e-07,  3.0082e-07,  1.3388e-07,  ..., -8.4285e-08,
+         -1.0943e-08,  1.6578e-07],
+        [ 2.1420e-08,  2.0862e-07,  1.0384e-07,  ...,  2.1188e-08,
+         -2.3283e-08,  1.2410e-07],
+        ...,
+        [ 4.8662e-08, -8.0885e-07,  3.7253e-07,  ...,  8.5682e-08,
+          3.7253e-08,  6.4075e-07],
+        [-2.1188e-08,  5.8673e-07,  8.4005e-07,  ..., -8.1258e-08,
+          2.3516e-08,  1.1018e-06],
+        [ 3.5623e-08,  1.8142e-06,  1.3411e-06,  ...,  1.5227e-07,
+          1.4156e-07,  1.3849e-06]], device='cuda:0')
+Epoch 164, bias, value: tensor([ 0.0024,  0.0013,  0.0043,  0.0125,  0.0264,  0.0410, -0.0230,  0.0100,
+        -0.0374, -0.0219], device='cuda:0'), grad: tensor([-1.4581e-05,  1.3094e-06, -1.6186e-06,  4.3400e-07,  7.3388e-07,
+         8.5495e-07,  2.4308e-06,  8.4797e-07,  3.0920e-06,  6.4671e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 163, time 217.61, cls_loss 0.0022 cls_loss_mapping 0.0040 cls_loss_causal 0.5235 re_mapping 0.0074 re_causal 0.0205 /// teacc 98.98 lr 0.00010000
+Epoch 165, weight, value: tensor([[-0.0354,  0.1313,  0.0730,  ..., -0.1746, -0.1095,  0.0242],
+        [ 0.1263, -0.0160, -0.0560,  ...,  0.0757,  0.1006, -0.1165],
+        [-0.0745, -0.0540, -0.0508,  ..., -0.0752, -0.0245, -0.0493],
+        ...,
+        [-0.0565,  0.1468, -0.1630,  ..., -0.1273,  0.0023, -0.1380],
+        [-0.0010, -0.1022,  0.0341,  ...,  0.0534, -0.1064, -0.0411],
+        [-0.0666, -0.0917,  0.0595,  ..., -0.0814, -0.0556,  0.1243]],
+       device='cuda:0'), grad: tensor([[ 5.6578e-08, -2.2096e-07, -8.0168e-06,  ...,  1.2573e-07,
+          4.8196e-08, -1.0945e-05],
+        [ 2.0070e-07,  1.3039e-08,  1.1828e-07,  ...,  1.4985e-06,
+          8.2422e-07,  1.4622e-07],
+        [ 1.9167e-06,  5.9837e-08,  8.2888e-08,  ...,  8.2999e-06,
+          4.0755e-06,  1.2619e-07],
+        ...,
+        [ 1.6093e-06, -5.1502e-07,  2.1141e-07,  ...,  7.0557e-06,
+          3.2447e-06,  3.3597e-07],
+        [-4.9174e-06,  1.0710e-07, -4.1984e-06,  ..., -1.9819e-05,
+         -1.0185e-05, -4.4107e-06],
+        [ 7.7533e-07,  5.0105e-07,  7.0222e-06,  ...,  4.0978e-07,
+          1.6065e-08,  8.1807e-06]], device='cuda:0')
+Epoch 165, bias, value: tensor([ 0.0019,  0.0016,  0.0044,  0.0124,  0.0261,  0.0409, -0.0221,  0.0101,
+        -0.0375, -0.0220], device='cuda:0'), grad: tensor([-2.1785e-05,  3.5278e-06,  1.5825e-05,  2.7101e-06,  2.2352e-06,
+         1.7853e-06,  1.3232e-05,  1.3448e-05, -5.5045e-05,  2.4095e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 164, time 217.33, cls_loss 0.0027 cls_loss_mapping 0.0048 cls_loss_causal 0.5711 re_mapping 0.0067 re_causal 0.0206 /// teacc 99.00 lr 0.00010000
+Epoch 166, weight, value: tensor([[-0.0350,  0.1322,  0.0733,  ..., -0.1748, -0.1096,  0.0242],
+        [ 0.1268, -0.0159, -0.0561,  ...,  0.0760,  0.1005, -0.1168],
+        [-0.0743, -0.0539, -0.0509,  ..., -0.0751, -0.0250, -0.0497],
+        ...,
+        [-0.0570,  0.1469, -0.1639,  ..., -0.1278,  0.0032, -0.1398],
+        [-0.0010, -0.1024,  0.0341,  ...,  0.0538, -0.1067, -0.0412],
+        [-0.0678, -0.0921,  0.0598,  ..., -0.0820, -0.0560,  0.1249]],
+       device='cuda:0'), grad: tensor([[ 2.2142e-07, -2.4755e-06, -6.5845e-07,  ...,  3.7719e-07,
+          1.6298e-08, -2.0247e-06],
+        [-3.4878e-07,  8.2655e-07,  2.8592e-07,  ...,  4.3749e-07,
+         -1.9791e-07,  4.1095e-07],
+        [ 5.1223e-07,  3.2387e-07,  1.6508e-07,  ...,  9.3784e-07,
+          1.6321e-07,  2.6054e-07],
+        ...,
+        [ 1.8300e-07, -3.4701e-06,  5.5460e-07,  ...,  6.8871e-07,
+          4.5868e-08,  9.3644e-07],
+        [ 1.1325e-06,  3.2131e-07,  3.0193e-06,  ...,  1.6233e-06,
+          1.3062e-07,  3.8296e-06],
+        [ 6.6310e-07,  3.4980e-06, -2.7549e-06,  ...,  3.8981e-05,
+          2.0023e-08,  1.1269e-06]], device='cuda:0')
+Epoch 166, bias, value: tensor([ 0.0023,  0.0013,  0.0049,  0.0123,  0.0264,  0.0410, -0.0224,  0.0098,
+        -0.0376, -0.0221], device='cuda:0'), grad: tensor([-7.6741e-06,  2.7884e-06,  2.9001e-06,  8.3447e-06, -9.5487e-05,
+        -1.4305e-05,  4.2580e-06, -1.8328e-06,  1.0461e-05,  9.0361e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 165----------------------------------------------------
+epoch 165, time 218.57, cls_loss 0.0024 cls_loss_mapping 0.0040 cls_loss_causal 0.5314 re_mapping 0.0070 re_causal 0.0198 /// teacc 99.02 lr 0.00010000
+Epoch 167, weight, value: tensor([[-0.0353,  0.1328,  0.0731,  ..., -0.1757, -0.1096,  0.0238],
+        [ 0.1273, -0.0159, -0.0557,  ...,  0.0767,  0.1006, -0.1167],
+        [-0.0745, -0.0547, -0.0510,  ..., -0.0754, -0.0252, -0.0500],
+        ...,
+        [-0.0579,  0.1468, -0.1641,  ..., -0.1296,  0.0035, -0.1403],
+        [-0.0008, -0.1005,  0.0339,  ...,  0.0545, -0.1069, -0.0415],
+        [-0.0688, -0.0925,  0.0600,  ..., -0.0827, -0.0562,  0.1254]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-07, -2.1681e-06, -7.8045e-07,  ...,  3.2061e-07,
+          3.6322e-08, -4.4145e-06],
+        [-1.4305e-06, -1.0384e-07,  4.0978e-08,  ..., -1.2247e-06,
+         -3.7812e-07,  1.0221e-07],
+        [ 1.5809e-07,  3.4459e-08, -2.1327e-07,  ...,  2.2748e-07,
+          6.3563e-08,  1.8394e-07],
+        ...,
+        [ 4.4145e-07, -1.1828e-07,  9.6392e-08,  ...,  6.5239e-07,
+          1.1688e-07,  2.0000e-07],
+        [ 7.6368e-08,  1.7090e-07,  3.8277e-07,  ...,  2.7684e-07,
+          2.6543e-08,  4.5076e-07],
+        [ 9.5926e-08,  1.6512e-06,  3.2154e-07,  ...,  4.7614e-07,
+          2.1188e-08,  2.8275e-06]], device='cuda:0')
+Epoch 167, bias, value: tensor([ 0.0021,  0.0015,  0.0048,  0.0118,  0.0267,  0.0415, -0.0225,  0.0091,
+        -0.0371, -0.0221], device='cuda:0'), grad: tensor([-8.4490e-06, -2.1700e-06, -4.4890e-07,  7.6834e-07, -2.1365e-06,
+         6.3609e-07,  1.2415e-06,  1.3420e-06,  2.0899e-06,  7.1190e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 166, time 217.43, cls_loss 0.0025 cls_loss_mapping 0.0035 cls_loss_causal 0.5349 re_mapping 0.0071 re_causal 0.0197 /// teacc 98.97 lr 0.00010000
+Epoch 168, weight, value: tensor([[-0.0357,  0.1335,  0.0734,  ..., -0.1774, -0.1099,  0.0240],
+        [ 0.1275, -0.0163, -0.0560,  ...,  0.0767,  0.1008, -0.1169],
+        [-0.0743, -0.0547, -0.0511,  ..., -0.0757, -0.0248, -0.0502],
+        ...,
+        [-0.0581,  0.1475, -0.1645,  ..., -0.1299,  0.0035, -0.1406],
+        [-0.0004, -0.1006,  0.0340,  ...,  0.0551, -0.1072, -0.0416],
+        [-0.0692, -0.0931,  0.0602,  ..., -0.0830, -0.0564,  0.1256]],
+       device='cuda:0'), grad: tensor([[ 5.7835e-07,  2.8173e-08,  1.7788e-06,  ...,  8.5123e-07,
+          3.7719e-08,  2.1718e-06],
+        [-1.6876e-06,  6.5845e-07,  1.1846e-06,  ..., -1.6391e-07,
+         -6.8359e-07,  7.0268e-07],
+        [ 6.7279e-06,  5.0478e-06,  8.7395e-06,  ...,  8.6725e-06,
+          6.6869e-07,  1.0617e-07],
+        ...,
+        [ 1.1250e-06, -1.4696e-06,  2.3730e-06,  ...,  1.5050e-06,
+          2.5122e-07,  3.1646e-06],
+        [-6.4671e-05, -3.6627e-05, -6.4552e-05,  ..., -1.1295e-04,
+         -6.5519e-07,  9.6262e-06],
+        [ 3.2387e-07,  8.3167e-07, -2.1085e-05,  ...,  3.2131e-06,
+          4.7032e-08, -3.9071e-05]], device='cuda:0')
+Epoch 168, bias, value: tensor([ 0.0022,  0.0011,  0.0059,  0.0118,  0.0267,  0.0413, -0.0227,  0.0092,
+        -0.0375, -0.0222], device='cuda:0'), grad: tensor([ 6.4224e-06, -1.2377e-06,  4.0740e-05,  3.4094e-05, -5.6997e-06,
+         2.6965e-04,  5.0426e-05,  9.2760e-06, -3.3832e-04, -6.5327e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 167, time 217.87, cls_loss 0.0027 cls_loss_mapping 0.0046 cls_loss_causal 0.5459 re_mapping 0.0072 re_causal 0.0200 /// teacc 99.00 lr 0.00010000
+Epoch 169, weight, value: tensor([[-0.0361,  0.1339,  0.0732,  ..., -0.1791, -0.1100,  0.0239],
+        [ 0.1284, -0.0151, -0.0563,  ...,  0.0767,  0.1030, -0.1174],
+        [-0.0745, -0.0530, -0.0512,  ..., -0.0760, -0.0248, -0.0508],
+        ...,
+        [-0.0601,  0.1460, -0.1649,  ..., -0.1305,  0.0011, -0.1412],
+        [ 0.0012, -0.1000,  0.0348,  ...,  0.0574, -0.1074, -0.0409],
+        [-0.0696, -0.0936,  0.0605,  ..., -0.0830, -0.0568,  0.1262]],
+       device='cuda:0'), grad: tensor([[ 1.4901e-07,  1.1129e-07,  2.9802e-08,  ...,  3.2806e-07,
+          1.4738e-07,  1.9325e-08],
+        [ 7.2410e-08,  3.3132e-07,  1.4016e-07,  ...,  5.5227e-07,
+          2.4214e-07,  4.3074e-08],
+        [ 1.3155e-07, -1.5842e-06,  1.4692e-07,  ...,  1.7439e-07,
+          2.5379e-08,  1.8394e-08],
+        ...,
+        [ 1.7518e-06,  1.6182e-07,  2.9104e-07,  ...,  4.0978e-06,
+          3.0454e-06,  6.2399e-08],
+        [ 5.4315e-06,  2.4051e-07,  8.6846e-08,  ...,  1.2390e-05,
+          9.3356e-06, -1.3132e-07],
+        [ 3.7905e-07,  9.1689e-07, -1.0338e-07,  ...,  5.8003e-06,
+          4.1211e-08, -2.1118e-07]], device='cuda:0')
+Epoch 169, bias, value: tensor([ 0.0018,  0.0022,  0.0074,  0.0114,  0.0261,  0.0410, -0.0234,  0.0070,
+        -0.0360, -0.0219], device='cuda:0'), grad: tensor([ 1.3430e-06,  2.9858e-06, -9.8273e-06,  1.7220e-06, -1.0192e-05,
+        -5.8234e-05,  1.2293e-06,  2.1070e-05,  3.8564e-05,  1.1407e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 168----------------------------------------------------
+epoch 168, time 217.92, cls_loss 0.0019 cls_loss_mapping 0.0041 cls_loss_causal 0.5386 re_mapping 0.0074 re_causal 0.0211 /// teacc 99.03 lr 0.00010000
+Epoch 170, weight, value: tensor([[-0.0363,  0.1344,  0.0733,  ..., -0.1801, -0.1100,  0.0241],
+        [ 0.1282, -0.0162, -0.0583,  ...,  0.0766,  0.1029, -0.1193],
+        [-0.0741, -0.0530, -0.0503,  ..., -0.0759, -0.0244, -0.0513],
+        ...,
+        [-0.0599,  0.1473, -0.1648,  ..., -0.1304,  0.0011, -0.1415],
+        [ 0.0013, -0.1003,  0.0346,  ...,  0.0573, -0.1075, -0.0411],
+        [-0.0704, -0.0940,  0.0608,  ..., -0.0834, -0.0570,  0.1267]],
+       device='cuda:0'), grad: tensor([[ 3.1665e-08, -2.3516e-07, -1.1874e-07,  ...,  6.8219e-08,
+          1.6298e-09, -4.2701e-07],
+        [-6.9104e-07,  8.2655e-08,  5.4017e-08,  ..., -6.0722e-07,
+         -3.6554e-08,  1.1199e-07],
+        [ 3.7532e-07,  5.6345e-08,  2.6077e-08,  ...,  6.6683e-07,
+          1.8394e-08,  3.7719e-08],
+        ...,
+        [ 1.3504e-07, -1.3635e-06,  1.1316e-07,  ...,  7.5530e-07,
+          3.7253e-09,  2.3120e-07],
+        [-2.8461e-06,  4.6333e-08, -1.0608e-06,  ..., -3.0342e-06,
+          6.9849e-09, -2.1625e-06],
+        [ 1.9409e-06,  1.0459e-06,  7.1991e-07,  ...,  1.7792e-05,
+          1.3970e-09,  1.5534e-06]], device='cuda:0')
+Epoch 170, bias, value: tensor([ 0.0019,  0.0008,  0.0082,  0.0113,  0.0261,  0.0409, -0.0228,  0.0075,
+        -0.0362, -0.0218], device='cuda:0'), grad: tensor([-6.5472e-07, -4.5076e-07,  8.0978e-07,  3.4459e-07, -2.8580e-05,
+         1.6969e-06,  1.3411e-06,  5.7276e-08, -7.1600e-06,  3.2574e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 169, time 216.63, cls_loss 0.0022 cls_loss_mapping 0.0031 cls_loss_causal 0.5380 re_mapping 0.0070 re_causal 0.0200 /// teacc 99.02 lr 0.00010000
+Epoch 171, weight, value: tensor([[-0.0364,  0.1349,  0.0734,  ..., -0.1808, -0.1101,  0.0240],
+        [ 0.1282, -0.0165, -0.0589,  ...,  0.0765,  0.1026, -0.1202],
+        [-0.0744, -0.0534, -0.0504,  ..., -0.0764, -0.0250, -0.0517],
+        ...,
+        [-0.0599,  0.1480, -0.1654,  ..., -0.1305,  0.0021, -0.1420],
+        [ 0.0014, -0.1007,  0.0347,  ...,  0.0577, -0.1077, -0.0410],
+        [-0.0708, -0.0942,  0.0612,  ..., -0.0836, -0.0575,  0.1271]],
+       device='cuda:0'), grad: tensor([[ 1.0375e-06, -3.1060e-07,  1.7742e-07,  ...,  2.9299e-06,
+          3.2596e-09, -7.1712e-08],
+        [-5.7602e-07,  4.0233e-07,  2.9057e-07,  ..., -3.9767e-07,
+         -2.3749e-08,  1.7276e-07],
+        [ 4.6706e-07,  2.1467e-07,  1.4659e-06,  ...,  1.2135e-06,
+         -5.5879e-08,  1.3784e-07],
+        ...,
+        [ 9.7789e-08, -1.2666e-06,  1.0822e-06,  ...,  3.6135e-07,
+          1.2107e-08,  1.1269e-07],
+        [ 1.0803e-06,  9.4995e-08,  7.8753e-06,  ...,  2.7865e-06,
+          3.2131e-08,  7.7439e-07],
+        [ 1.1595e-07,  5.6298e-07, -2.1011e-05,  ...,  4.1490e-07,
+          4.6566e-09, -1.8448e-05]], device='cuda:0')
+Epoch 171, bias, value: tensor([ 1.8011e-03,  7.5177e-05,  8.0893e-03,  1.1034e-02,  2.6050e-02,
+         4.0835e-02, -2.2656e-02,  8.3115e-03, -3.6115e-02, -2.1732e-02],
+       device='cuda:0'), grad: tensor([ 4.4107e-06,  3.5483e-07,  2.5071e-06, -4.0866e-06,  1.0453e-05,
+         1.2271e-05, -2.3261e-05,  1.2871e-06,  2.2933e-05, -2.6867e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 170, time 216.84, cls_loss 0.0023 cls_loss_mapping 0.0037 cls_loss_causal 0.5338 re_mapping 0.0066 re_causal 0.0197 /// teacc 98.96 lr 0.00010000
+Epoch 172, weight, value: tensor([[-0.0366,  0.1358,  0.0737,  ..., -0.1818, -0.1103,  0.0243],
+        [ 0.1303, -0.0137, -0.0591,  ...,  0.0796,  0.1025, -0.1207],
+        [-0.0748, -0.0523, -0.0506,  ..., -0.0770, -0.0254, -0.0525],
+        ...,
+        [-0.0624,  0.1454, -0.1656,  ..., -0.1343,  0.0025, -0.1422],
+        [ 0.0016, -0.1011,  0.0346,  ...,  0.0581, -0.1077, -0.0410],
+        [-0.0714, -0.0947,  0.0614,  ..., -0.0840, -0.0577,  0.1274]],
+       device='cuda:0'), grad: tensor([[-1.1399e-06, -2.2501e-05, -1.1101e-05,  ..., -3.4180e-06,
+          9.3132e-10, -1.9491e-05],
+        [-4.7684e-07, -4.6566e-09,  4.5169e-08,  ..., -4.8894e-07,
+         -1.3970e-09,  6.1002e-08],
+        [ 5.5879e-08, -4.3493e-07,  1.0664e-07,  ..., -6.6124e-08,
+         -9.3132e-10,  6.7521e-08],
+        ...,
+        [ 3.6322e-07,  1.2573e-08,  1.3597e-07,  ...,  4.9639e-07,
+          1.3970e-09,  9.8255e-08],
+        [-3.4451e-05,  6.5425e-07,  5.9046e-07,  ..., -6.5029e-05,
+          1.2573e-08, -1.0967e-05],
+        [ 8.1491e-08,  4.2887e-07,  1.1316e-07,  ...,  1.4901e-07,
+          2.3283e-09,  1.6904e-07]], device='cuda:0')
+Epoch 172, bias, value: tensor([ 0.0020,  0.0017,  0.0081,  0.0113,  0.0262,  0.0402, -0.0218,  0.0068,
+        -0.0361, -0.0219], device='cuda:0'), grad: tensor([-4.7833e-05, -2.7614e-07, -5.1633e-06,  1.5469e-06,  1.2433e-07,
+         5.3644e-05,  8.9228e-05,  2.4866e-06, -9.4652e-05,  9.4390e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 171, time 217.17, cls_loss 0.0017 cls_loss_mapping 0.0036 cls_loss_causal 0.5369 re_mapping 0.0068 re_causal 0.0200 /// teacc 98.99 lr 0.00010000
+Epoch 173, weight, value: tensor([[-0.0368,  0.1365,  0.0742,  ..., -0.1826, -0.1103,  0.0246],
+        [ 0.1301, -0.0141, -0.0595,  ...,  0.0796,  0.1028, -0.1212],
+        [-0.0752, -0.0526, -0.0506,  ..., -0.0775, -0.0257, -0.0531],
+        ...,
+        [-0.0625,  0.1459, -0.1661,  ..., -0.1345,  0.0027, -0.1436],
+        [ 0.0018, -0.1014,  0.0347,  ...,  0.0584, -0.1079, -0.0411],
+        [-0.0718, -0.0946,  0.0615,  ..., -0.0842, -0.0582,  0.1277]],
+       device='cuda:0'), grad: tensor([[ 1.6112e-07, -1.2685e-06, -1.0468e-06,  ...,  1.5134e-07,
+          1.8161e-08, -1.7826e-06],
+        [-1.1884e-06,  1.8906e-07, -3.6741e-07,  ..., -6.1095e-07,
+         -1.2191e-06,  3.3062e-08],
+        [ 8.6101e-07,  2.5053e-07,  3.2596e-07,  ...,  7.6927e-07,
+          8.9267e-07,  3.0734e-08],
+        ...,
+        [ 2.2957e-07, -5.6392e-07,  6.4727e-08,  ...,  4.5821e-07,
+          2.0675e-07,  4.5914e-07],
+        [ 9.4995e-08,  3.4273e-07,  4.5542e-07,  ...,  1.7881e-07,
+          1.9092e-08,  6.7381e-07],
+        [ 1.9418e-07,  1.0412e-06,  5.7695e-07,  ...,  3.9907e-07,
+          2.0768e-07,  8.8522e-07]], device='cuda:0')
+Epoch 173, bias, value: tensor([ 0.0023,  0.0014,  0.0082,  0.0116,  0.0263,  0.0398, -0.0218,  0.0069,
+        -0.0360, -0.0219], device='cuda:0'), grad: tensor([-3.8035e-06, -1.5264e-06,  2.4624e-06, -4.9025e-06, -2.2016e-06,
+         3.9451e-06,  2.6589e-07,  5.0524e-07,  1.6503e-06,  3.5893e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 172, time 217.46, cls_loss 0.0020 cls_loss_mapping 0.0035 cls_loss_causal 0.5576 re_mapping 0.0071 re_causal 0.0206 /// teacc 98.97 lr 0.00010000
+Epoch 174, weight, value: tensor([[-0.0373,  0.1370,  0.0753,  ..., -0.1841, -0.1095,  0.0251],
+        [ 0.1303, -0.0145, -0.0600,  ...,  0.0797,  0.1035, -0.1225],
+        [-0.0758, -0.0531, -0.0507,  ..., -0.0779, -0.0266, -0.0537],
+        ...,
+        [-0.0623,  0.1468, -0.1664,  ..., -0.1345,  0.0027, -0.1441],
+        [ 0.0017, -0.1020,  0.0348,  ...,  0.0584, -0.1080, -0.0411],
+        [-0.0724, -0.0951,  0.0612,  ..., -0.0847, -0.0601,  0.1276]],
+       device='cuda:0'), grad: tensor([[ 1.2713e-07, -1.9409e-06, -1.3104e-06,  ...,  5.2433e-07,
+          2.2817e-08, -1.6671e-06],
+        [ 1.3076e-05,  5.1688e-08,  7.4971e-08,  ...,  2.9683e-05,
+          2.9244e-06,  8.7544e-08],
+        [ 6.9337e-07, -1.2480e-07,  2.6822e-07,  ...,  2.0731e-06,
+          9.3132e-08,  2.8312e-07],
+        ...,
+        [ 9.4483e-07, -1.8533e-07,  8.5216e-08,  ...,  2.0619e-06,
+          1.2247e-07,  1.2852e-07],
+        [-1.6540e-05,  2.0256e-07, -9.3132e-08,  ..., -3.4750e-05,
+         -3.4645e-06,  4.3726e-07],
+        [ 1.4296e-07,  9.3179e-07,  1.0943e-07,  ...,  9.0385e-07,
+          1.8626e-08, -9.7975e-07]], device='cuda:0')
+Epoch 174, bias, value: tensor([ 0.0029,  0.0014,  0.0078,  0.0117,  0.0264,  0.0399, -0.0218,  0.0072,
+        -0.0360, -0.0223], device='cuda:0'), grad: tensor([-4.6454e-06,  5.5760e-05,  2.8703e-06,  1.0934e-06, -1.3642e-05,
+         1.8273e-06,  1.1794e-05,  5.0329e-06, -6.2823e-05,  2.7288e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 173----------------------------------------------------
+epoch 173, time 217.45, cls_loss 0.0023 cls_loss_mapping 0.0031 cls_loss_causal 0.5156 re_mapping 0.0068 re_causal 0.0190 /// teacc 99.04 lr 0.00010000
+Epoch 175, weight, value: tensor([[-0.0378,  0.1381,  0.0757,  ..., -0.1859, -0.1094,  0.0253],
+        [ 0.1305, -0.0146, -0.0618,  ...,  0.0795,  0.1039, -0.1266],
+        [-0.0762, -0.0537, -0.0508,  ..., -0.0783, -0.0271, -0.0543],
+        ...,
+        [-0.0627,  0.1471, -0.1669,  ..., -0.1349,  0.0028, -0.1456],
+        [ 0.0027, -0.1012,  0.0348,  ...,  0.0595, -0.1082, -0.0406],
+        [-0.0720, -0.0951,  0.0617,  ..., -0.0842, -0.0607,  0.1295]],
+       device='cuda:0'), grad: tensor([[ 2.4028e-06,  1.5367e-08, -8.3819e-09,  ...,  9.3356e-06,
+          0.0000e+00, -1.2573e-08],
+        [-2.1271e-06, -1.2042e-06,  2.7008e-08,  ..., -5.1521e-06,
+          0.0000e+00,  3.3993e-08],
+        [ 2.4196e-06,  1.1735e-06,  1.0477e-07,  ...,  6.0759e-06,
+          0.0000e+00,  9.4529e-08],
+        ...,
+        [ 6.3796e-07, -1.0803e-06,  3.0734e-08,  ...,  1.2126e-06,
+          0.0000e+00,  4.2841e-08],
+        [ 3.6918e-06,  2.2585e-07, -1.8952e-07,  ...,  5.4240e-06,
+          0.0000e+00, -4.5355e-07],
+        [ 2.5099e-07,  4.9500e-07,  1.5367e-08,  ...,  9.5274e-07,
+          0.0000e+00,  1.6764e-07]], device='cuda:0')
+Epoch 175, bias, value: tensor([ 0.0032,  0.0009,  0.0075,  0.0125,  0.0259,  0.0391, -0.0220,  0.0067,
+        -0.0355, -0.0213], device='cuda:0'), grad: tensor([ 1.6049e-05, -1.3143e-05,  1.5259e-05,  1.8887e-06,  3.3736e-05,
+         3.8818e-06, -7.4983e-05,  1.1083e-06,  1.3642e-05,  2.5425e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 174, time 217.55, cls_loss 0.0025 cls_loss_mapping 0.0040 cls_loss_causal 0.5165 re_mapping 0.0064 re_causal 0.0184 /// teacc 98.99 lr 0.00010000
+Epoch 176, weight, value: tensor([[-0.0394,  0.1376,  0.0758,  ..., -0.1889, -0.1097,  0.0252],
+        [ 0.1317, -0.0149, -0.0622,  ...,  0.0806,  0.1043, -0.1272],
+        [-0.0767, -0.0542, -0.0509,  ..., -0.0787, -0.0275, -0.0547],
+        ...,
+        [-0.0629,  0.1485, -0.1671,  ..., -0.1351,  0.0027, -0.1466],
+        [ 0.0022, -0.1024,  0.0344,  ...,  0.0589, -0.1083, -0.0411],
+        [-0.0714, -0.0960,  0.0623,  ..., -0.0845, -0.0609,  0.1305]],
+       device='cuda:0'), grad: tensor([[ 7.8697e-08, -1.6578e-07,  7.8082e-06,  ...,  4.0494e-06,
+          0.0000e+00,  8.9109e-06],
+        [-1.6997e-07,  8.0094e-08,  1.1828e-07,  ..., -9.0804e-08,
+         -6.0536e-09,  1.3225e-07],
+        [ 3.6787e-08,  8.4750e-08,  7.3109e-08,  ...,  8.8010e-08,
+          9.3132e-10,  7.8231e-08],
+        ...,
+        [ 1.4063e-07, -3.6694e-07,  5.3085e-08,  ...,  2.2212e-07,
+          2.3283e-09,  5.8673e-08],
+        [ 1.1548e-07,  7.4971e-08,  1.4508e-04,  ...,  7.0274e-05,
+          1.3970e-09,  1.6499e-04],
+        [ 4.5169e-08,  3.1106e-07, -1.5461e-04,  ..., -7.4089e-05,
+          9.3132e-10, -1.7560e-04]], device='cuda:0')
+Epoch 176, bias, value: tensor([ 0.0026,  0.0012,  0.0072,  0.0122,  0.0259,  0.0395, -0.0221,  0.0072,
+        -0.0362, -0.0211], device='cuda:0'), grad: tensor([ 1.8090e-05,  4.9360e-08,  3.4226e-07,  1.6317e-06,  7.2783e-07,
+        -1.5199e-06,  2.9337e-08,  5.1688e-08,  3.3307e-04, -3.5262e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 175, time 217.39, cls_loss 0.0028 cls_loss_mapping 0.0042 cls_loss_causal 0.5232 re_mapping 0.0068 re_causal 0.0199 /// teacc 99.02 lr 0.00010000
+Epoch 177, weight, value: tensor([[-0.0398,  0.1381,  0.0759,  ..., -0.1898, -0.1097,  0.0253],
+        [ 0.1319, -0.0149, -0.0636,  ...,  0.0805,  0.1034, -0.1280],
+        [-0.0765, -0.0540, -0.0497,  ..., -0.0784, -0.0266, -0.0552],
+        ...,
+        [-0.0631,  0.1488, -0.1677,  ..., -0.1353,  0.0034, -0.1476],
+        [ 0.0020, -0.1032,  0.0339,  ...,  0.0588, -0.1085, -0.0418],
+        [-0.0722, -0.0967,  0.0627,  ..., -0.0850, -0.0613,  0.1312]],
+       device='cuda:0'), grad: tensor([[ 1.7369e-07, -1.2619e-07,  2.0117e-07,  ...,  1.2992e-07,
+          1.3970e-09, -8.0094e-08],
+        [-4.5076e-07, -1.6298e-08,  2.4308e-07,  ..., -6.5938e-07,
+         -3.9116e-08, -9.7789e-09],
+        [ 2.2305e-07,  4.6100e-08,  2.0349e-07,  ...,  1.0943e-07,
+          6.0536e-09,  1.4435e-08],
+        ...,
+        [ 2.2165e-07, -3.1991e-07,  3.4133e-07,  ...,  1.6158e-07,
+          6.9849e-09,  9.7789e-09],
+        [ 1.2871e-06,  4.8429e-08,  2.1290e-06,  ...,  9.4343e-07,
+          6.9849e-09,  1.7835e-07],
+        [ 1.8813e-07,  2.2491e-07,  1.8021e-07,  ...,  2.0256e-07,
+          7.9162e-09, -1.1642e-08]], device='cuda:0')
+Epoch 177, bias, value: tensor([ 0.0026,  0.0001,  0.0085,  0.0091,  0.0257,  0.0430, -0.0231,  0.0075,
+        -0.0369, -0.0210], device='cuda:0'), grad: tensor([ 6.1421e-07, -3.7625e-07,  8.0373e-07, -1.0860e-04,  2.1001e-07,
+         9.8705e-05, -1.3988e-06,  7.6694e-07,  8.0466e-06,  1.2396e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 176, time 217.16, cls_loss 0.0028 cls_loss_mapping 0.0041 cls_loss_causal 0.5138 re_mapping 0.0065 re_causal 0.0188 /// teacc 98.97 lr 0.00010000
+Epoch 178, weight, value: tensor([[-0.0426,  0.1362,  0.0754,  ..., -0.1922, -0.1132,  0.0244],
+        [ 0.1329, -0.0151, -0.0627,  ...,  0.0818,  0.1041, -0.1274],
+        [-0.0775, -0.0529, -0.0497,  ..., -0.0798, -0.0275, -0.0557],
+        ...,
+        [-0.0632,  0.1491, -0.1679,  ..., -0.1359,  0.0036, -0.1479],
+        [ 0.0021, -0.1034,  0.0338,  ...,  0.0590, -0.1086, -0.0420],
+        [-0.0748, -0.0974,  0.0629,  ..., -0.0859, -0.0618,  0.1317]],
+       device='cuda:0'), grad: tensor([[-2.0582e-07, -1.3746e-06, -9.0245e-07,  ..., -6.8918e-07,
+         -4.1956e-07, -3.8520e-06],
+        [ 4.7032e-08,  1.9558e-08,  5.2620e-08,  ...,  2.6263e-07,
+          2.5611e-08,  1.1362e-07],
+        [ 2.7474e-08,  3.3062e-08,  3.9581e-08,  ...,  1.6978e-06,
+          1.2573e-08,  4.9360e-08],
+        ...,
+        [ 2.9337e-08, -4.7963e-08,  4.8429e-08,  ...,  7.9628e-07,
+          7.9162e-09,  1.1595e-07],
+        [ 9.7416e-07,  1.9558e-08,  5.4343e-07,  ..., -2.0210e-07,
+          1.0245e-07,  1.7844e-06],
+        [ 7.5437e-08,  4.0047e-08, -6.3330e-08,  ...,  1.5991e-06,
+          2.9802e-08, -2.5565e-07]], device='cuda:0')
+Epoch 178, bias, value: tensor([ 0.0001,  0.0004,  0.0092,  0.0083,  0.0266,  0.0438, -0.0226,  0.0075,
+        -0.0373, -0.0214], device='cuda:0'), grad: tensor([-2.7508e-05,  8.1724e-07,  9.4026e-06,  1.3094e-06, -4.9807e-06,
+        -4.3996e-06,  2.7567e-05,  1.8477e-06, -7.2196e-06,  3.1553e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 177, time 217.13, cls_loss 0.0023 cls_loss_mapping 0.0026 cls_loss_causal 0.5396 re_mapping 0.0065 re_causal 0.0193 /// teacc 98.97 lr 0.00010000
+Epoch 179, weight, value: tensor([[-0.0429,  0.1379,  0.0743,  ..., -0.1924, -0.1131,  0.0227],
+        [ 0.1334, -0.0153, -0.0630,  ...,  0.0820,  0.1044, -0.1278],
+        [-0.0780, -0.0508, -0.0496,  ..., -0.0802, -0.0273, -0.0550],
+        ...,
+        [-0.0634,  0.1477, -0.1682,  ..., -0.1363,  0.0035, -0.1485],
+        [ 0.0020, -0.1040,  0.0336,  ...,  0.0589, -0.1088, -0.0423],
+        [-0.0755, -0.0979,  0.0635,  ..., -0.0867, -0.0623,  0.1330]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-08, -3.5577e-07, -1.2619e-07,  ...,  3.9116e-08,
+          4.6566e-09, -1.2200e-07],
+        [-8.7079e-08,  1.5367e-08,  3.9581e-08,  ..., -1.0058e-07,
+          5.1223e-09,  8.0094e-08],
+        [ 2.6543e-08,  8.1956e-08,  4.0513e-08,  ...,  3.6787e-08,
+          9.3132e-10,  4.8429e-08],
+        ...,
+        [ 2.1420e-08, -6.5193e-08,  1.1129e-07,  ...,  3.1199e-08,
+          3.2596e-09,  1.9092e-07],
+        [ 5.7742e-08,  2.9802e-08,  7.3202e-07,  ...,  1.0384e-07,
+          2.8871e-08,  1.2880e-06],
+        [ 3.8650e-08,  9.5461e-08, -1.3756e-06,  ...,  6.8918e-08,
+          8.3819e-09, -2.3767e-06]], device='cuda:0')
+Epoch 179, bias, value: tensor([-0.0005,  0.0003,  0.0110,  0.0087,  0.0272,  0.0434, -0.0230,  0.0063,
+        -0.0377, -0.0211], device='cuda:0'), grad: tensor([-7.9675e-07, -4.6566e-10,  9.7323e-08,  5.4343e-07,  1.5870e-06,
+        -1.1194e-06,  8.9919e-07,  2.8918e-07,  2.0564e-06, -3.5651e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 178, time 217.81, cls_loss 0.0022 cls_loss_mapping 0.0035 cls_loss_causal 0.4831 re_mapping 0.0066 re_causal 0.0186 /// teacc 98.81 lr 0.00010000
+Epoch 180, weight, value: tensor([[-0.0429,  0.1385,  0.0746,  ..., -0.1927, -0.1131,  0.0228],
+        [ 0.1352, -0.0147, -0.0633,  ...,  0.0841,  0.1045, -0.1281],
+        [-0.0787, -0.0507, -0.0497,  ..., -0.0806, -0.0275, -0.0551],
+        ...,
+        [-0.0643,  0.1480, -0.1685,  ..., -0.1377,  0.0042, -0.1486],
+        [ 0.0015, -0.1051,  0.0334,  ...,  0.0586, -0.1094, -0.0425],
+        [-0.0777, -0.0990,  0.0639,  ..., -0.0877, -0.0624,  0.1335]],
+       device='cuda:0'), grad: tensor([[ 1.3225e-07, -1.8813e-07, -6.7521e-08,  ...,  1.1083e-07,
+          2.3283e-09, -4.5169e-08],
+        [ 1.7714e-06,  4.9919e-06,  3.5763e-07,  ...,  1.7509e-07,
+          3.0734e-08,  4.4005e-07],
+        [ 4.4703e-08,  2.3562e-07, -6.0536e-09,  ...,  7.5903e-08,
+          5.1223e-09,  2.3749e-08],
+        ...,
+        [-3.4124e-06, -1.2845e-05, -1.9139e-07,  ...,  1.6158e-07,
+         -1.2573e-07,  7.1712e-08],
+        [ 3.5074e-06,  1.1269e-07,  1.8738e-06,  ...,  1.5516e-06,
+          1.0431e-07,  3.2485e-06],
+        [ 2.2221e-06,  6.9663e-06,  4.0513e-07,  ...,  6.5938e-07,
+          1.2200e-07,  3.3667e-07]], device='cuda:0')
+Epoch 180, bias, value: tensor([-0.0003,  0.0008,  0.0111,  0.0089,  0.0271,  0.0433, -0.0230,  0.0065,
+        -0.0384, -0.0212], device='cuda:0'), grad: tensor([-3.7858e-07,  8.5309e-06, -7.6788e-07,  8.0233e-07, -1.9977e-07,
+        -9.6858e-06,  3.1665e-06, -1.9491e-05,  5.5023e-06,  1.2480e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 179, time 216.95, cls_loss 0.0021 cls_loss_mapping 0.0029 cls_loss_causal 0.5251 re_mapping 0.0068 re_causal 0.0198 /// teacc 98.94 lr 0.00010000
+Epoch 181, weight, value: tensor([[-0.0431,  0.1391,  0.0740,  ..., -0.1933, -0.1131,  0.0222],
+        [ 0.1357, -0.0151, -0.0630,  ...,  0.0847,  0.1049, -0.1285],
+        [-0.0780, -0.0510, -0.0499,  ..., -0.0812, -0.0276, -0.0557],
+        ...,
+        [-0.0645,  0.1488, -0.1689,  ..., -0.1380,  0.0044, -0.1490],
+        [ 0.0015, -0.1054,  0.0333,  ...,  0.0588, -0.1094, -0.0427],
+        [-0.0782, -0.0994,  0.0643,  ..., -0.0882, -0.0631,  0.1343]],
+       device='cuda:0'), grad: tensor([[ 5.1223e-08, -8.8885e-06, -8.8811e-06,  ..., -2.0005e-06,
+          4.3306e-08, -1.0006e-05],
+        [-4.8190e-05,  4.0531e-06,  2.6636e-07,  ..., -1.5438e-05,
+         -9.1970e-05,  3.2270e-07],
+        [ 2.4483e-05,  1.2936e-06,  9.9000e-07,  ...,  8.2329e-06,
+          4.6700e-05,  1.0943e-06],
+        ...,
+        [ 2.2918e-05, -9.6709e-06,  1.1269e-07,  ...,  7.4431e-06,
+          4.2677e-05,  1.1455e-07],
+        [-2.5928e-06,  3.3006e-06, -2.5500e-06,  ..., -4.0904e-06,
+          6.7893e-07, -3.5260e-06],
+        [ 2.4661e-06,  4.5337e-06,  4.8727e-06,  ...,  3.9861e-06,
+          9.3179e-07,  6.1542e-06]], device='cuda:0')
+Epoch 181, bias, value: tensor([-0.0005,  0.0006,  0.0114,  0.0090,  0.0271,  0.0430, -0.0237,  0.0069,
+        -0.0385, -0.0211], device='cuda:0'), grad: tensor([-2.8849e-05, -1.5187e-04,  8.5890e-05,  2.1942e-06,  1.0571e-06,
+         1.8245e-06,  1.4797e-05,  5.4926e-05, -3.2000e-06,  2.3350e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 180, time 217.46, cls_loss 0.0017 cls_loss_mapping 0.0041 cls_loss_causal 0.5551 re_mapping 0.0065 re_causal 0.0190 /// teacc 99.01 lr 0.00010000
+Epoch 182, weight, value: tensor([[-0.0433,  0.1395,  0.0743,  ..., -0.1938, -0.1132,  0.0224],
+        [ 0.1365, -0.0151, -0.0642,  ...,  0.0851,  0.1056, -0.1305],
+        [-0.0794, -0.0511, -0.0502,  ..., -0.0823, -0.0282, -0.0570],
+        ...,
+        [-0.0646,  0.1493, -0.1692,  ..., -0.1382,  0.0041, -0.1481],
+        [ 0.0016, -0.1056,  0.0333,  ...,  0.0590, -0.1095, -0.0427],
+        [-0.0793, -0.1004,  0.0651,  ..., -0.0881, -0.0632,  0.1355]],
+       device='cuda:0'), grad: tensor([[ 3.0082e-07,  1.8254e-07,  1.2480e-07,  ...,  1.0105e-07,
+          0.0000e+00,  5.5274e-07],
+        [ 4.7730e-07,  2.0117e-07,  3.2037e-07,  ...,  4.8941e-07,
+         -1.8626e-09,  1.4529e-07],
+        [ 3.6396e-06,  7.8790e-07,  1.4342e-06,  ...,  3.7104e-06,
+         -4.6566e-10,  2.3143e-07],
+        ...,
+        [ 1.1735e-06,  9.4203e-07,  1.5646e-06,  ...,  3.4552e-07,
+          1.3970e-09,  1.1660e-06],
+        [-1.1586e-05,  3.4738e-07, -1.8962e-06,  ..., -1.4767e-05,
+          0.0000e+00,  2.5984e-06],
+        [ 1.7229e-07,  9.6858e-08, -4.2319e-06,  ...,  3.0966e-07,
+          0.0000e+00, -5.9828e-06]], device='cuda:0')
+Epoch 182, bias, value: tensor([-0.0003,  0.0005,  0.0108,  0.0092,  0.0269,  0.0429, -0.0238,  0.0072,
+        -0.0384, -0.0207], device='cuda:0'), grad: tensor([ 1.8682e-06,  2.3823e-06,  1.3389e-05,  3.4422e-06,  2.5239e-06,
+         9.9391e-06,  3.0287e-06,  7.7486e-06, -3.4869e-05, -9.4101e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 181, time 217.56, cls_loss 0.0019 cls_loss_mapping 0.0036 cls_loss_causal 0.5393 re_mapping 0.0061 re_causal 0.0190 /// teacc 99.00 lr 0.00010000
+Epoch 183, weight, value: tensor([[-0.0436,  0.1398,  0.0748,  ..., -0.1942, -0.1131,  0.0228],
+        [ 0.1375, -0.0147, -0.0647,  ...,  0.0856,  0.1060, -0.1313],
+        [-0.0798, -0.0513, -0.0505,  ..., -0.0827, -0.0284, -0.0577],
+        ...,
+        [-0.0658,  0.1493, -0.1695,  ..., -0.1389,  0.0039, -0.1490],
+        [ 0.0020, -0.1059,  0.0334,  ...,  0.0593, -0.1096, -0.0427],
+        [-0.0800, -0.1012,  0.0655,  ..., -0.0887, -0.0634,  0.1359]],
+       device='cuda:0'), grad: tensor([[ 1.3411e-07, -7.6881e-07, -8.3959e-07,  ...,  8.9873e-08,
+         -7.0315e-08, -1.1865e-06],
+        [-2.7893e-07,  6.7912e-06, -1.0952e-06,  ..., -2.5518e-06,
+         -4.1910e-09, -7.5065e-07],
+        [ 3.0315e-07,  5.4669e-07,  9.4064e-08,  ...,  1.9465e-07,
+          1.3970e-09,  5.3085e-08],
+        ...,
+        [-1.6652e-06, -7.7188e-05, -4.4070e-06,  ...,  1.6997e-07,
+          2.3283e-09,  5.4017e-08],
+        [ 7.3807e-07,  1.5106e-06,  5.1735e-07,  ...,  1.1362e-07,
+          9.3132e-10,  1.1269e-07],
+        [ 1.7509e-06,  6.7592e-05,  6.2920e-06,  ...,  2.1830e-06,
+          4.2375e-08,  1.4547e-06]], device='cuda:0')
+Epoch 183, bias, value: tensor([-2.5532e-05,  7.0022e-04,  1.0523e-02,  9.2398e-03,  2.7203e-02,
+         4.3542e-02, -2.5544e-02,  6.8184e-03, -3.8187e-02, -2.0872e-02],
+       device='cuda:0'), grad: tensor([-2.3451e-06,  7.9349e-06,  1.4678e-06, -9.8161e-07,  1.4585e-06,
+         1.2666e-07, -6.2725e-07, -1.2887e-04,  3.7923e-06,  1.1808e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 182, time 217.45, cls_loss 0.0015 cls_loss_mapping 0.0023 cls_loss_causal 0.5278 re_mapping 0.0064 re_causal 0.0196 /// teacc 98.98 lr 0.00010000
+Epoch 184, weight, value: tensor([[-0.0442,  0.1403,  0.0751,  ..., -0.1951, -0.1133,  0.0229],
+        [ 0.1385, -0.0144, -0.0646,  ...,  0.0861,  0.1062, -0.1316],
+        [-0.0802, -0.0515, -0.0508,  ..., -0.0829, -0.0286, -0.0583],
+        ...,
+        [-0.0660,  0.1504, -0.1687,  ..., -0.1392,  0.0038, -0.1489],
+        [ 0.0017, -0.1073,  0.0334,  ...,  0.0593, -0.1097, -0.0428],
+        [-0.0821, -0.1035,  0.0653,  ..., -0.0893, -0.0635,  0.1358]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-08, -1.3504e-08,  2.9337e-08,  ...,  2.1886e-08,
+          4.6566e-10,  2.7474e-08],
+        [-3.7253e-08, -4.6566e-10,  1.0524e-07,  ..., -1.8161e-08,
+         -7.4506e-09,  1.2200e-07],
+        [ 2.3283e-08,  4.6566e-09,  4.4238e-08,  ...,  2.0489e-08,
+          3.2596e-09,  1.2107e-08],
+        ...,
+        [ 4.1910e-08,  3.3528e-08,  2.7474e-07,  ...,  5.5414e-08,
+          7.4506e-09,  2.6077e-07],
+        [ 1.2806e-07,  2.9802e-08,  3.4925e-07,  ...,  1.4016e-07,
+          1.3970e-09,  4.6985e-07],
+        [ 4.9127e-07, -9.4529e-08, -2.2398e-07,  ...,  6.8778e-07,
+          9.3132e-10,  2.3888e-07]], device='cuda:0')
+Epoch 184, bias, value: tensor([ 9.9534e-05,  9.5707e-04,  1.0190e-02,  9.1858e-03,  2.7522e-02,
+         4.3569e-02, -2.5344e-02,  7.6505e-03, -3.8411e-02, -2.1817e-02],
+       device='cuda:0'), grad: tensor([ 9.7323e-08,  1.8580e-07, -4.0978e-08, -9.7789e-08,  3.3574e-07,
+        -2.7232e-06,  9.4716e-07,  7.4273e-07,  8.0420e-07, -2.4447e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 183, time 217.52, cls_loss 0.0029 cls_loss_mapping 0.0046 cls_loss_causal 0.5287 re_mapping 0.0065 re_causal 0.0185 /// teacc 98.92 lr 0.00010000
+Epoch 185, weight, value: tensor([[-0.0457,  0.1401,  0.0750,  ..., -0.1976, -0.1135,  0.0228],
+        [ 0.1411, -0.0128, -0.0654,  ...,  0.0874,  0.1075, -0.1324],
+        [-0.0816, -0.0517, -0.0511,  ..., -0.0838, -0.0296, -0.0590],
+        ...,
+        [-0.0698,  0.1474, -0.1693,  ..., -0.1424,  0.0036, -0.1497],
+        [ 0.0047, -0.1045,  0.0336,  ...,  0.0615, -0.1099, -0.0428],
+        [-0.0841, -0.1046,  0.0658,  ..., -0.0903, -0.0637,  0.1376]],
+       device='cuda:0'), grad: tensor([[ 7.0035e-07, -2.3190e-07, -5.2107e-07,  ...,  3.8883e-07,
+          1.1642e-08, -1.0859e-06],
+        [-3.1497e-06,  1.2321e-06,  3.5111e-07,  ..., -2.2203e-06,
+         -1.3225e-07,  4.5402e-07],
+        [ 1.8207e-07,  3.5437e-07,  7.2177e-08,  ...,  3.5437e-07,
+         -1.8626e-09,  4.9360e-08],
+        ...,
+        [ 9.8720e-08, -1.5780e-05, -2.7865e-06,  ...,  2.7847e-07,
+          5.1223e-09,  6.7055e-08],
+        [ 1.5572e-06,  6.0629e-07,  2.6217e-07,  ...,  1.8291e-06,
+          1.0850e-07,  5.8021e-07],
+        [ 6.2119e-07,  3.7439e-06,  1.7621e-06,  ...,  7.7114e-06,
+          5.1223e-09,  4.4145e-06]], device='cuda:0')
+Epoch 185, bias, value: tensor([-0.0005,  0.0025,  0.0098,  0.0091,  0.0280,  0.0436, -0.0250,  0.0047,
+        -0.0356, -0.0221], device='cuda:0'), grad: tensor([-6.3516e-07, -6.2026e-07,  1.1632e-06,  2.3231e-05, -2.0981e-05,
+        -7.3433e-05,  7.5936e-05, -3.2812e-05,  4.9658e-06,  2.3171e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 184, time 217.35, cls_loss 0.0017 cls_loss_mapping 0.0030 cls_loss_causal 0.5288 re_mapping 0.0067 re_causal 0.0195 /// teacc 98.96 lr 0.00010000
+Epoch 186, weight, value: tensor([[-0.0462,  0.1401,  0.0750,  ..., -0.1985, -0.1136,  0.0228],
+        [ 0.1413, -0.0127, -0.0665,  ...,  0.0873,  0.1077, -0.1331],
+        [-0.0820, -0.0516, -0.0504,  ..., -0.0837, -0.0295, -0.0599],
+        ...,
+        [-0.0699,  0.1476, -0.1695,  ..., -0.1426,  0.0039, -0.1496],
+        [ 0.0049, -0.1045,  0.0338,  ...,  0.0622, -0.1101, -0.0427],
+        [-0.0846, -0.1056,  0.0662,  ..., -0.0902, -0.0642,  0.1381]],
+       device='cuda:0'), grad: tensor([[ 1.5879e-07, -6.6683e-06, -3.1069e-06,  ...,  1.3690e-07,
+         -1.8161e-08, -2.1905e-06],
+        [-5.9307e-06, -4.3446e-07,  3.8184e-08,  ..., -9.6411e-06,
+          4.6566e-10,  1.3970e-08],
+        [ 5.5088e-07,  9.7752e-06,  2.6729e-06,  ...,  7.7672e-07,
+          2.3283e-09,  1.8943e-06],
+        ...,
+        [ 9.9465e-07, -5.4017e-06,  6.2399e-08,  ...,  1.4044e-06,
+          4.6566e-10,  1.9092e-08],
+        [ 3.8408e-06,  1.3430e-06,  2.2305e-07,  ...,  6.5416e-06,
+          2.7940e-09,  3.6228e-07],
+        [ 1.3830e-07,  8.6427e-07,  2.8452e-07,  ...,  2.1886e-07,
+          6.5193e-09,  1.7881e-07]], device='cuda:0')
+Epoch 186, bias, value: tensor([-0.0006,  0.0023,  0.0104,  0.0090,  0.0277,  0.0436, -0.0251,  0.0047,
+        -0.0355, -0.0219], device='cuda:0'), grad: tensor([-1.7717e-05, -1.1146e-05,  1.1548e-05, -1.1129e-06,  1.1679e-06,
+         3.8818e-06, -1.2061e-07, -1.7369e-06,  1.2234e-05,  2.9765e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 185, time 216.97, cls_loss 0.0021 cls_loss_mapping 0.0033 cls_loss_causal 0.5310 re_mapping 0.0066 re_causal 0.0193 /// teacc 98.97 lr 0.00010000
+Epoch 187, weight, value: tensor([[-0.0464,  0.1398,  0.0749,  ..., -0.1992, -0.1136,  0.0228],
+        [ 0.1415, -0.0131, -0.0667,  ...,  0.0873,  0.1082, -0.1332],
+        [-0.0825, -0.0518, -0.0505,  ..., -0.0840, -0.0299, -0.0603],
+        ...,
+        [-0.0700,  0.1487, -0.1687,  ..., -0.1427,  0.0037, -0.1488],
+        [ 0.0055, -0.1044,  0.0343,  ...,  0.0634, -0.1101, -0.0424],
+        [-0.0851, -0.1087,  0.0659,  ..., -0.0904, -0.0644,  0.1382]],
+       device='cuda:0'), grad: tensor([[ 1.5507e-07,  7.4040e-08,  4.1910e-09,  ...,  2.6077e-07,
+          4.6566e-10,  1.3039e-08],
+        [-1.6065e-07,  5.6345e-08,  2.8871e-08,  ..., -2.1281e-07,
+          4.8429e-08,  5.0757e-08],
+        [-1.3225e-07,  2.9802e-08,  2.3749e-08,  ...,  1.2293e-07,
+         -1.4715e-07,  1.2573e-08],
+        ...,
+        [ 1.5879e-07, -2.8079e-07,  4.4703e-08,  ...,  1.0850e-07,
+          4.7963e-08,  8.0094e-08],
+        [ 2.6952e-06,  1.6969e-06,  2.1234e-07,  ...,  4.8093e-06,
+          2.7940e-09,  4.5029e-07],
+        [ 3.1665e-08,  1.8207e-07, -9.5041e-07,  ...,  5.2154e-08,
+          9.3132e-10, -1.8040e-06]], device='cuda:0')
+Epoch 187, bias, value: tensor([-0.0009,  0.0021,  0.0102,  0.0088,  0.0278,  0.0438, -0.0266,  0.0058,
+        -0.0349, -0.0229], device='cuda:0'), grad: tensor([ 5.4156e-07,  2.2855e-06, -7.0594e-06,  1.2079e-06,  1.9781e-06,
+         4.3400e-07, -9.3579e-06,  2.3395e-06,  9.8422e-06, -2.2054e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 186, time 217.30, cls_loss 0.0022 cls_loss_mapping 0.0029 cls_loss_causal 0.5668 re_mapping 0.0068 re_causal 0.0195 /// teacc 98.91 lr 0.00010000
+Epoch 188, weight, value: tensor([[-0.0468,  0.1403,  0.0750,  ..., -0.2001, -0.1136,  0.0230],
+        [ 0.1420, -0.0137, -0.0668,  ...,  0.0874,  0.1088, -0.1333],
+        [-0.0833, -0.0524, -0.0508,  ..., -0.0845, -0.0302, -0.0611],
+        ...,
+        [-0.0699,  0.1494, -0.1696,  ..., -0.1429,  0.0034, -0.1495],
+        [ 0.0054, -0.1046,  0.0344,  ...,  0.0635, -0.1102, -0.0423],
+        [-0.0864, -0.1094,  0.0662,  ..., -0.0908, -0.0645,  0.1383]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-08, -1.5944e-06, -5.1968e-07,  ...,  2.3749e-08,
+          0.0000e+00, -2.4624e-06],
+        [-2.0256e-07,  1.0571e-07,  6.3796e-08,  ..., -1.2945e-07,
+         -4.6566e-10,  9.8720e-08],
+        [ 5.2620e-08,  8.0094e-08,  7.2177e-08,  ...,  4.2841e-08,
+          0.0000e+00,  1.3504e-07],
+        ...,
+        [ 1.0943e-07, -3.0641e-07,  1.0477e-07,  ...,  1.4296e-07,
+          0.0000e+00,  2.1374e-07],
+        [ 1.7649e-07,  1.2480e-07,  8.8476e-08,  ...,  2.4354e-07,
+          0.0000e+00,  3.3667e-07],
+        [ 2.5611e-08,  6.3563e-07,  1.3225e-07,  ...,  6.1747e-07,
+          0.0000e+00,  6.5565e-07]], device='cuda:0')
+Epoch 188, bias, value: tensor([-0.0008,  0.0017,  0.0093,  0.0087,  0.0280,  0.0440, -0.0265,  0.0062,
+        -0.0351, -0.0231], device='cuda:0'), grad: tensor([-7.4133e-06,  2.4633e-07,  1.8161e-07, -6.3796e-08, -1.4175e-06,
+         1.9390e-06,  1.2014e-06,  5.9465e-07,  1.1530e-06,  3.5670e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 187, time 217.38, cls_loss 0.0026 cls_loss_mapping 0.0046 cls_loss_causal 0.5645 re_mapping 0.0064 re_causal 0.0190 /// teacc 98.98 lr 0.00010000
+Epoch 189, weight, value: tensor([[-0.0474,  0.1403,  0.0749,  ..., -0.2009, -0.1136,  0.0230],
+        [ 0.1425, -0.0142, -0.0671,  ...,  0.0876,  0.1095, -0.1334],
+        [-0.0854, -0.0525, -0.0516,  ..., -0.0856, -0.0311, -0.0616],
+        ...,
+        [-0.0700,  0.1499, -0.1712,  ..., -0.1431,  0.0033, -0.1499],
+        [ 0.0055, -0.1046,  0.0346,  ...,  0.0634, -0.1103, -0.0425],
+        [-0.0871, -0.1103,  0.0669,  ..., -0.0911, -0.0646,  0.1387]],
+       device='cuda:0'), grad: tensor([[ 1.5181e-06,  7.9349e-07,  9.3132e-10,  ...,  1.1828e-06,
+          4.6566e-09, -4.0047e-08],
+        [-6.5193e-08,  1.5786e-07,  2.6543e-08,  ...,  3.0734e-08,
+          1.7229e-08,  1.3039e-08],
+        [ 4.6566e-08,  3.6787e-08,  1.1176e-08,  ...,  7.0315e-08,
+          3.2596e-09,  2.3283e-09],
+        ...,
+        [ 1.7695e-08, -7.7672e-07,  3.6787e-08,  ...,  7.5437e-08,
+         -2.8033e-07,  4.2841e-08],
+        [-4.3306e-07,  7.8697e-08,  4.5169e-08,  ..., -7.7300e-07,
+          1.6298e-08,  3.5297e-07],
+        [ 3.9581e-08,  2.4168e-07, -3.6880e-07,  ...,  1.9046e-07,
+          1.1455e-07, -5.0105e-07]], device='cuda:0')
+Epoch 189, bias, value: tensor([-0.0009,  0.0016,  0.0085,  0.0113,  0.0279,  0.0415, -0.0264,  0.0063,
+        -0.0349, -0.0228], device='cuda:0'), grad: tensor([ 9.6783e-06,  3.3006e-06, -1.6004e-05,  3.7905e-06,  8.7079e-08,
+         1.9837e-06, -8.1882e-06,  3.2280e-06,  1.5013e-06,  5.8161e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 188, time 216.92, cls_loss 0.0021 cls_loss_mapping 0.0036 cls_loss_causal 0.5321 re_mapping 0.0062 re_causal 0.0186 /// teacc 98.88 lr 0.00010000
+Epoch 190, weight, value: tensor([[-0.0473,  0.1409,  0.0747,  ..., -0.2012, -0.1136,  0.0225],
+        [ 0.1429, -0.0145, -0.0672,  ...,  0.0878,  0.1098, -0.1336],
+        [-0.0861, -0.0526, -0.0519,  ..., -0.0863, -0.0314, -0.0622],
+        ...,
+        [-0.0700,  0.1502, -0.1719,  ..., -0.1432,  0.0033, -0.1498],
+        [ 0.0052, -0.1048,  0.0344,  ...,  0.0629, -0.1104, -0.0432],
+        [-0.0885, -0.1108,  0.0672,  ..., -0.0920, -0.0646,  0.1387]],
+       device='cuda:0'), grad: tensor([[ 1.7323e-07,  2.5611e-08, -1.1176e-08,  ...,  2.2724e-07,
+          1.8626e-09,  6.7055e-08],
+        [-2.5379e-07,  5.0757e-08,  3.8184e-08,  ..., -3.4086e-07,
+         -1.5367e-08,  8.7079e-08],
+        [ 3.8603e-07, -1.3970e-09,  3.8650e-08,  ...,  5.3737e-07,
+          1.4435e-08,  1.0012e-07],
+        ...,
+        [ 1.6345e-07, -4.8755e-07,  2.3516e-07,  ...,  2.2165e-07,
+          9.7789e-09,  6.3190e-07],
+        [ 1.4529e-06,  3.0734e-08,  1.8533e-07,  ...,  1.7788e-06,
+          2.0023e-08,  8.3493e-07],
+        [ 2.1327e-07,  7.7300e-08, -9.9279e-07,  ...,  3.1525e-07,
+          4.6566e-09, -2.9616e-06]], device='cuda:0')
+Epoch 190, bias, value: tensor([-0.0010,  0.0015,  0.0082,  0.0110,  0.0287,  0.0419, -0.0259,  0.0066,
+        -0.0353, -0.0235], device='cuda:0'), grad: tensor([ 8.8708e-07, -2.0163e-07, -3.2922e-07,  4.8848e-07,  5.3495e-06,
+         1.5870e-05, -2.2128e-05,  1.2135e-06,  2.8741e-06, -4.0084e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 189, time 216.85, cls_loss 0.0019 cls_loss_mapping 0.0034 cls_loss_causal 0.5367 re_mapping 0.0062 re_causal 0.0185 /// teacc 98.95 lr 0.00010000
+Epoch 191, weight, value: tensor([[-0.0476,  0.1414,  0.0753,  ..., -0.2019, -0.1136,  0.0228],
+        [ 0.1434, -0.0145, -0.0671,  ...,  0.0883,  0.1099, -0.1333],
+        [-0.0866, -0.0527, -0.0519,  ..., -0.0867, -0.0313, -0.0625],
+        ...,
+        [-0.0701,  0.1503, -0.1729,  ..., -0.1433,  0.0033, -0.1502],
+        [ 0.0050, -0.1049,  0.0342,  ...,  0.0627, -0.1105, -0.0435],
+        [-0.0891, -0.1109,  0.0677,  ..., -0.0921, -0.0647,  0.1389]],
+       device='cuda:0'), grad: tensor([[ 3.2084e-07, -2.5611e-09,  1.9316e-06,  ...,  1.3532e-06,
+          1.4901e-08,  1.7975e-06],
+        [ 4.7311e-07,  2.9244e-07,  1.0310e-06,  ...,  1.0701e-06,
+          5.5879e-09,  6.1374e-07],
+        [ 1.2284e-06,  1.4538e-06,  9.6038e-06,  ...,  5.1223e-06,
+          1.2876e-07,  5.3123e-06],
+        ...,
+        [ 2.2259e-07, -2.8163e-06,  1.7639e-06,  ...,  9.4436e-07,
+          2.5611e-08,  1.1381e-06],
+        [-5.4464e-06,  6.1700e-08, -1.6186e-06,  ..., -8.2105e-06,
+          1.1409e-07, -9.9000e-07],
+        [ 5.4110e-07,  1.0082e-07,  2.6487e-06,  ...,  1.9036e-06,
+          3.4925e-08,  1.1902e-06]], device='cuda:0')
+Epoch 191, bias, value: tensor([-0.0003,  0.0014,  0.0091,  0.0112,  0.0282,  0.0415, -0.0258,  0.0067,
+        -0.0355, -0.0234], device='cuda:0'), grad: tensor([ 7.0743e-06,  5.4725e-06,  3.1948e-05,  3.6746e-05,  1.2629e-06,
+        -6.0916e-05,  1.8720e-06,  1.5823e-06, -3.4779e-05,  9.6634e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 190, time 217.16, cls_loss 0.0019 cls_loss_mapping 0.0035 cls_loss_causal 0.5090 re_mapping 0.0060 re_causal 0.0181 /// teacc 98.90 lr 0.00010000
+Epoch 192, weight, value: tensor([[-0.0477,  0.1416,  0.0753,  ..., -0.2025, -0.1136,  0.0230],
+        [ 0.1431, -0.0147, -0.0679,  ...,  0.0878,  0.1101, -0.1341],
+        [-0.0869, -0.0527, -0.0519,  ..., -0.0871, -0.0315, -0.0630],
+        ...,
+        [-0.0701,  0.1507, -0.1734,  ..., -0.1435,  0.0030, -0.1505],
+        [ 0.0054, -0.1049,  0.0353,  ...,  0.0640, -0.1102, -0.0421],
+        [-0.0913, -0.1113,  0.0679,  ..., -0.0924, -0.0649,  0.1390]],
+       device='cuda:0'), grad: tensor([[ 1.3388e-07,  2.4750e-07, -1.4901e-08,  ...,  2.1816e-07,
+          4.6566e-10, -2.0256e-08],
+        [-1.3458e-07,  2.6776e-08,  3.3993e-08,  ...,  1.0524e-06,
+         -2.9569e-08,  5.8906e-08],
+        [ 5.3085e-08,  6.0303e-08,  1.0012e-08,  ...,  1.8300e-07,
+          3.0268e-09,  1.8161e-08],
+        ...,
+        [ 2.9197e-07,  4.5169e-08,  2.3516e-07,  ...,  1.0636e-06,
+          8.3819e-09,  1.2037e-07],
+        [-4.6031e-07,  1.9860e-07, -1.3551e-07,  ..., -1.4175e-06,
+          1.2340e-08, -6.7241e-07],
+        [ 4.9639e-07,  8.1956e-08, -3.6485e-07,  ...,  3.9749e-06,
+          1.3970e-09, -1.2782e-07]], device='cuda:0')
+Epoch 192, bias, value: tensor([-0.0001,  0.0008,  0.0092,  0.0111,  0.0279,  0.0415, -0.0255,  0.0069,
+        -0.0351, -0.0234], device='cuda:0'), grad: tensor([ 5.2806e-07,  2.5257e-06,  2.7660e-07, -9.0990e-07, -1.1027e-05,
+         4.5002e-06, -4.6864e-06,  3.4459e-06, -1.8831e-06,  7.2271e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 191, time 217.21, cls_loss 0.0022 cls_loss_mapping 0.0030 cls_loss_causal 0.5340 re_mapping 0.0060 re_causal 0.0182 /// teacc 98.91 lr 0.00010000
+Epoch 193, weight, value: tensor([[-0.0484,  0.1415,  0.0751,  ..., -0.2035, -0.1138,  0.0228],
+        [ 0.1439, -0.0145, -0.0691,  ...,  0.0880,  0.1107, -0.1355],
+        [-0.0881, -0.0531, -0.0523,  ..., -0.0887, -0.0322, -0.0641],
+        ...,
+        [-0.0703,  0.1510, -0.1742,  ..., -0.1438,  0.0026, -0.1515],
+        [ 0.0054, -0.1050,  0.0355,  ...,  0.0637, -0.1094, -0.0422],
+        [-0.0921, -0.1118,  0.0685,  ..., -0.0930, -0.0651,  0.1393]],
+       device='cuda:0'), grad: tensor([[ 1.0943e-08,  6.8024e-06,  1.6764e-08,  ...,  7.9498e-06,
+          0.0000e+00,  1.5469e-06],
+        [-6.1747e-07,  1.0729e-06,  1.4901e-08,  ..., -3.4925e-08,
+         -3.4925e-09,  9.0571e-08],
+        [ 2.4214e-08,  1.1278e-06,  3.9581e-08,  ...,  2.0908e-07,
+         -2.0955e-09,  3.9348e-08],
+        ...,
+        [ 2.9732e-07, -3.6880e-06,  3.4692e-08,  ...,  3.8208e-07,
+          2.3283e-09,  4.0745e-08],
+        [-1.1688e-07,  9.7789e-07,  3.7509e-07,  ...,  8.4750e-07,
+          2.3283e-10,  8.7032e-07],
+        [ 4.1234e-07,  1.3579e-06, -7.5903e-08,  ...,  1.6186e-06,
+          6.9849e-10,  1.5297e-07]], device='cuda:0')
+Epoch 193, bias, value: tensor([-0.0005,  0.0008,  0.0085,  0.0112,  0.0285,  0.0414, -0.0250,  0.0071,
+        -0.0352, -0.0237], device='cuda:0'), grad: tensor([ 3.1888e-05,  1.6261e-06,  1.6196e-06,  1.4864e-06,  2.4602e-05,
+         6.2399e-07, -6.8486e-05, -3.6880e-06,  4.5076e-06,  5.8189e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 192----------------------------------------------------
+epoch 192, time 217.92, cls_loss 0.0020 cls_loss_mapping 0.0034 cls_loss_causal 0.5147 re_mapping 0.0058 re_causal 0.0172 /// teacc 99.05 lr 0.00010000
+Epoch 194, weight, value: tensor([[-0.0493,  0.1398,  0.0756,  ..., -0.2064, -0.1150,  0.0232],
+        [ 0.1442, -0.0160, -0.0693,  ...,  0.0876,  0.1107, -0.1360],
+        [-0.0884, -0.0534, -0.0525,  ..., -0.0890, -0.0323, -0.0652],
+        ...,
+        [-0.0703,  0.1515, -0.1744,  ..., -0.1432,  0.0027, -0.1517],
+        [ 0.0053, -0.1048,  0.0353,  ...,  0.0625, -0.1095, -0.0425],
+        [-0.0926, -0.1121,  0.0686,  ..., -0.0933, -0.0651,  0.1395]],
+       device='cuda:0'), grad: tensor([[ 7.9162e-09,  2.2352e-08,  2.7940e-09,  ...,  1.5367e-08,
+          0.0000e+00, -3.2596e-09],
+        [ 2.6403e-07,  5.5740e-07,  1.9139e-07,  ...,  6.7754e-07,
+         -1.3970e-09,  3.3202e-07],
+        [ 1.8626e-08,  9.8161e-07,  2.7008e-08,  ...,  3.2131e-08,
+          0.0000e+00,  6.5193e-09],
+        ...,
+        [ 6.8452e-08, -4.9509e-06,  2.3982e-07,  ...,  2.0256e-07,
+          9.3132e-10,  4.2981e-07],
+        [-4.2468e-07,  3.4878e-07,  1.1129e-07,  ..., -8.4797e-07,
+          0.0000e+00,  1.7555e-07],
+        [ 4.8429e-08,  9.5135e-07, -1.5143e-06,  ..., -3.1525e-07,
+          0.0000e+00, -2.7865e-06]], device='cuda:0')
+Epoch 194, bias, value: tensor([-0.0016, -0.0007,  0.0085,  0.0111,  0.0286,  0.0416, -0.0238,  0.0076,
+        -0.0353, -0.0239], device='cuda:0'), grad: tensor([ 1.1921e-07,  2.7232e-06,  1.3541e-06,  2.4270e-06,  3.9786e-06,
+        -3.8967e-06,  4.3325e-06, -7.0743e-06, -3.8417e-07, -3.6322e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 193, time 217.25, cls_loss 0.0022 cls_loss_mapping 0.0040 cls_loss_causal 0.4958 re_mapping 0.0064 re_causal 0.0177 /// teacc 99.01 lr 0.00010000
+Epoch 195, weight, value: tensor([[-0.0494,  0.1409,  0.0749,  ..., -0.2068, -0.1150,  0.0224],
+        [ 0.1445, -0.0165, -0.0710,  ...,  0.0866,  0.1123, -0.1377],
+        [-0.0893, -0.0537, -0.0512,  ..., -0.0890, -0.0339, -0.0632],
+        ...,
+        [-0.0703,  0.1521, -0.1756,  ..., -0.1432,  0.0025, -0.1526],
+        [ 0.0053, -0.1050,  0.0352,  ...,  0.0621, -0.1095, -0.0426],
+        [-0.0929, -0.1125,  0.0702,  ..., -0.0925, -0.0653,  0.1409]],
+       device='cuda:0'), grad: tensor([[ 4.1910e-09, -1.8254e-07, -1.3039e-08,  ...,  2.5146e-08,
+          9.3132e-10, -3.1199e-08],
+        [-1.6112e-07,  3.9581e-08,  3.5856e-08,  ..., -2.5006e-07,
+          4.6566e-10,  4.0978e-08],
+        [ 1.4435e-08,  1.0850e-07,  1.2573e-08,  ...,  2.9802e-08,
+         -1.2107e-08,  1.2107e-08],
+        ...,
+        [ 2.9802e-08, -1.5274e-07,  1.3830e-07,  ...,  9.0338e-08,
+          2.3283e-09,  1.9558e-07],
+        [ 3.1199e-08,  5.2154e-08,  2.2072e-07,  ...,  6.5658e-08,
+          3.7253e-09,  3.2689e-07],
+        [ 6.1002e-08,  6.5658e-08, -4.8056e-07,  ...,  1.2014e-07,
+          4.6566e-10, -6.9849e-07]], device='cuda:0')
+Epoch 195, bias, value: tensor([-0.0023, -0.0022,  0.0093,  0.0110,  0.0270,  0.0415, -0.0232,  0.0078,
+        -0.0357, -0.0220], device='cuda:0'), grad: tensor([-1.7788e-07, -2.8033e-07,  3.0268e-08, -6.2305e-07,  8.8010e-08,
+         7.3574e-07, -6.9849e-08,  3.4878e-07,  8.6939e-07, -9.3831e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 194----------------------------------------------------
+epoch 194, time 218.21, cls_loss 0.0019 cls_loss_mapping 0.0037 cls_loss_causal 0.5179 re_mapping 0.0063 re_causal 0.0183 /// teacc 99.09 lr 0.00010000
+Epoch 196, weight, value: tensor([[-0.0497,  0.1411,  0.0745,  ..., -0.2076, -0.1150,  0.0219],
+        [ 0.1457, -0.0165, -0.0708,  ...,  0.0874,  0.1126, -0.1379],
+        [-0.0897, -0.0540, -0.0512,  ..., -0.0891, -0.0342, -0.0629],
+        ...,
+        [-0.0705,  0.1523, -0.1762,  ..., -0.1436,  0.0025, -0.1536],
+        [ 0.0053, -0.1051,  0.0352,  ...,  0.0622, -0.1096, -0.0422],
+        [-0.0940, -0.1126,  0.0705,  ..., -0.0929, -0.0654,  0.1411]],
+       device='cuda:0'), grad: tensor([[ 4.4238e-07,  8.7544e-08, -6.5193e-09,  ...,  5.6485e-07,
+          9.3132e-10,  1.2247e-07],
+        [-4.5076e-06, -1.1139e-06, -2.1374e-07,  ..., -7.1004e-06,
+          5.1223e-09,  2.2817e-08],
+        [ 5.0291e-07,  3.2736e-07,  1.3039e-08,  ...,  6.5891e-07,
+         -1.3970e-08,  1.6764e-08],
+        ...,
+        [ 1.3821e-06, -3.7719e-07,  1.4668e-07,  ...,  2.7362e-06,
+          1.8626e-09,  1.6764e-08],
+        [ 5.2340e-06,  2.1420e-06,  3.2131e-08,  ...,  6.5118e-06,
+          2.3283e-09,  2.4885e-06],
+        [ 4.8196e-07,  5.1409e-07,  1.1642e-08,  ...,  9.7509e-07,
+          4.6566e-10, -1.8161e-08]], device='cuda:0')
+Epoch 196, bias, value: tensor([-0.0028, -0.0022,  0.0094,  0.0109,  0.0270,  0.0413, -0.0229,  0.0078,
+        -0.0356, -0.0218], device='cuda:0'), grad: tensor([ 9.1922e-07, -1.4685e-05,  7.7439e-07,  3.7113e-07,  9.2061e-07,
+         6.7830e-05, -7.5161e-05,  5.1744e-06,  1.1533e-05,  2.5332e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 195, time 217.14, cls_loss 0.0025 cls_loss_mapping 0.0050 cls_loss_causal 0.5187 re_mapping 0.0066 re_causal 0.0175 /// teacc 98.95 lr 0.00010000
+Epoch 197, weight, value: tensor([[-0.0503,  0.1413,  0.0747,  ..., -0.2087, -0.1154,  0.0221],
+        [ 0.1467, -0.0167, -0.0708,  ...,  0.0881,  0.1134, -0.1381],
+        [-0.0906, -0.0571, -0.0514,  ..., -0.0897, -0.0346, -0.0631],
+        ...,
+        [-0.0706,  0.1546, -0.1766,  ..., -0.1439,  0.0021, -0.1546],
+        [ 0.0054, -0.1052,  0.0349,  ...,  0.0626, -0.1096, -0.0431],
+        [-0.0947, -0.1131,  0.0712,  ..., -0.0925, -0.0658,  0.1418]],
+       device='cuda:0'), grad: tensor([[-2.0489e-08, -4.8196e-07,  3.3155e-07,  ...,  9.4995e-08,
+          4.6566e-10,  8.4750e-08],
+        [-1.8850e-06,  1.2852e-07,  9.9186e-08,  ..., -2.5053e-06,
+         -5.1223e-09,  3.4366e-07],
+        [ 3.5670e-07,  1.3504e-08,  2.5379e-07,  ...,  4.8708e-07,
+          4.6566e-10,  1.0198e-07],
+        ...,
+        [ 3.5297e-07, -5.9605e-08,  7.0734e-07,  ...,  6.0070e-07,
+          1.8626e-09,  8.6613e-07],
+        [-3.8669e-06, -1.3970e-08,  3.3043e-06,  ..., -6.9216e-06,
+          4.6566e-10, -3.7607e-06],
+        [ 2.9188e-06,  8.7544e-08,  6.5304e-06,  ...,  6.6757e-06,
+          9.3132e-10,  6.2287e-06]], device='cuda:0')
+Epoch 197, bias, value: tensor([-0.0030, -0.0019,  0.0085,  0.0107,  0.0266,  0.0415, -0.0238,  0.0091,
+        -0.0361, -0.0213], device='cuda:0'), grad: tensor([ 4.3772e-07, -3.9712e-06,  8.0932e-07, -3.4004e-05, -1.6876e-06,
+         4.3511e-06,  4.2319e-06,  3.2298e-06, -2.6450e-06,  2.9191e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 196, time 216.86, cls_loss 0.0019 cls_loss_mapping 0.0034 cls_loss_causal 0.5055 re_mapping 0.0065 re_causal 0.0190 /// teacc 99.01 lr 0.00010000
+Epoch 198, weight, value: tensor([[-0.0504,  0.1418,  0.0746,  ..., -0.2091, -0.1155,  0.0222],
+        [ 0.1474, -0.0169, -0.0709,  ...,  0.0883,  0.1140, -0.1383],
+        [-0.0911, -0.0571, -0.0511,  ..., -0.0900, -0.0350, -0.0631],
+        ...,
+        [-0.0708,  0.1547, -0.1770,  ..., -0.1443,  0.0018, -0.1548],
+        [ 0.0056, -0.1054,  0.0348,  ...,  0.0631, -0.1087, -0.0434],
+        [-0.0952, -0.1131,  0.0714,  ..., -0.0924, -0.0662,  0.1421]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  8.3353e-07,  1.8869e-06,  ...,  1.1232e-06,
+          3.7253e-08,  2.3544e-06],
+        [-1.6764e-08,  2.6748e-05,  1.3836e-05,  ...,  7.9023e-07,
+          2.7940e-09,  1.7444e-06],
+        [ 1.8626e-09,  1.1735e-05,  9.9167e-06,  ...,  4.0904e-06,
+          1.3039e-08,  7.1302e-06],
+        ...,
+        [ 1.4901e-08,  7.1907e-04,  3.4547e-04,  ...,  4.7311e-07,
+          1.3504e-08,  1.5944e-06],
+        [-9.3132e-09,  9.5218e-06,  5.8152e-06,  ...,  7.7672e-07,
+          2.9337e-08,  2.0936e-06],
+        [ 4.1910e-09, -7.7438e-04, -3.3593e-04,  ...,  2.7388e-05,
+          8.3819e-09,  5.9813e-05]], device='cuda:0')
+Epoch 198, bias, value: tensor([-0.0029, -0.0018,  0.0086,  0.0107,  0.0262,  0.0413, -0.0241,  0.0089,
+        -0.0358, -0.0209], device='cuda:0'), grad: tensor([ 7.8902e-06,  1.2732e-04,  6.6400e-05,  2.2733e-04,  2.2218e-05,
+        -3.2783e-04,  3.3304e-06,  3.3607e-03,  4.7296e-05, -3.5362e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 197, time 216.86, cls_loss 0.0019 cls_loss_mapping 0.0040 cls_loss_causal 0.5165 re_mapping 0.0064 re_causal 0.0180 /// teacc 99.02 lr 0.00010000
+Epoch 199, weight, value: tensor([[-0.0504,  0.1427,  0.0751,  ..., -0.2094, -0.1155,  0.0225],
+        [ 0.1475, -0.0178, -0.0712,  ...,  0.0884,  0.1142, -0.1387],
+        [-0.0914, -0.0569, -0.0512,  ..., -0.0903, -0.0356, -0.0633],
+        ...,
+        [-0.0708,  0.1545, -0.1789,  ..., -0.1444,  0.0026, -0.1567],
+        [ 0.0057, -0.1055,  0.0348,  ...,  0.0634, -0.1089, -0.0433],
+        [-0.0957, -0.1113,  0.0709,  ..., -0.0933, -0.0664,  0.1416]],
+       device='cuda:0'), grad: tensor([[ 4.9360e-08, -3.1199e-08, -1.3039e-08,  ...,  1.5134e-07,
+          1.8626e-09, -1.9558e-08],
+        [ 1.4435e-08,  1.1036e-07,  8.3819e-09,  ...,  4.3772e-08,
+          4.6566e-10,  2.1420e-08],
+        [ 1.3504e-08,  1.3039e-08,  6.0536e-09,  ..., -2.9523e-07,
+         -3.8184e-08,  8.8476e-09],
+        ...,
+        [-1.8626e-09, -2.4401e-07,  1.3970e-08,  ...,  5.1688e-08,
+          3.2596e-09,  3.0268e-08],
+        [ 2.5658e-07,  5.7742e-08,  1.1688e-07,  ...,  3.1432e-07,
+          2.5611e-08,  3.4133e-07],
+        [ 4.4238e-08,  1.2806e-07, -1.1409e-07,  ...,  1.3923e-07,
+          9.3132e-10, -1.7788e-07]], device='cuda:0')
+Epoch 199, bias, value: tensor([-0.0027, -0.0023,  0.0088,  0.0107,  0.0265,  0.0413, -0.0235,  0.0081,
+        -0.0358, -0.0204], device='cuda:0'), grad: tensor([ 3.7625e-07,  4.3772e-07, -2.8051e-06,  1.0692e-06,  1.6108e-05,
+        -1.7546e-06, -1.5661e-05,  8.2748e-07,  1.3653e-06,  2.3283e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 198, time 216.85, cls_loss 0.0015 cls_loss_mapping 0.0026 cls_loss_causal 0.4966 re_mapping 0.0064 re_causal 0.0181 /// teacc 98.99 lr 0.00010000
+Epoch 200, weight, value: tensor([[-0.0507,  0.1431,  0.0754,  ..., -0.2101, -0.1155,  0.0227],
+        [ 0.1477, -0.0180, -0.0714,  ...,  0.0886,  0.1144, -0.1389],
+        [-0.0920, -0.0569, -0.0513,  ..., -0.0905, -0.0358, -0.0635],
+        ...,
+        [-0.0708,  0.1547, -0.1790,  ..., -0.1447,  0.0025, -0.1569],
+        [ 0.0059, -0.1055,  0.0348,  ...,  0.0638, -0.1090, -0.0435],
+        [-0.0961, -0.1116,  0.0712,  ..., -0.0939, -0.0664,  0.1419]],
+       device='cuda:0'), grad: tensor([[ 2.8405e-08, -1.3039e-08,  1.2107e-07,  ...,  1.1502e-07,
+          0.0000e+00,  2.0862e-07],
+        [-2.1253e-06,  1.1222e-07,  4.4238e-08,  ..., -2.5351e-06,
+          0.0000e+00,  7.6368e-08],
+        [ 1.8086e-06,  6.2166e-07,  2.3376e-07,  ...,  2.5742e-06,
+          0.0000e+00,  3.2736e-07],
+        ...,
+        [ 1.8114e-07, -8.8243e-07,  7.2177e-08,  ...,  3.8277e-07,
+          0.0000e+00,  1.2480e-07],
+        [ 6.6590e-08,  2.0489e-08,  8.7824e-07,  ...,  2.0489e-07,
+          0.0000e+00,  1.6317e-06],
+        [ 4.2841e-08,  1.0058e-07,  3.3900e-06,  ...,  2.0750e-06,
+          0.0000e+00,  6.1169e-06]], device='cuda:0')
+Epoch 200, bias, value: tensor([-0.0026, -0.0023,  0.0088,  0.0107,  0.0268,  0.0416, -0.0240,  0.0081,
+        -0.0358, -0.0206], device='cuda:0'), grad: tensor([ 5.3924e-07, -4.6045e-06,  4.9360e-06,  8.6203e-06, -4.7497e-08,
+        -2.2501e-05,  6.7009e-07, -1.6531e-07,  2.4941e-06,  1.0096e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 199, time 216.92, cls_loss 0.0014 cls_loss_mapping 0.0029 cls_loss_causal 0.5240 re_mapping 0.0060 re_causal 0.0182 /// teacc 99.08 lr 0.00010000
+Epoch 201, weight, value: tensor([[-0.0514,  0.1431,  0.0759,  ..., -0.2107, -0.1163,  0.0230],
+        [ 0.1490, -0.0178, -0.0715,  ...,  0.0892,  0.1154, -0.1391],
+        [-0.0925, -0.0568, -0.0514,  ..., -0.0908, -0.0360, -0.0637],
+        ...,
+        [-0.0713,  0.1547, -0.1791,  ..., -0.1456,  0.0012, -0.1571],
+        [ 0.0058, -0.1056,  0.0346,  ...,  0.0637, -0.1092, -0.0439],
+        [-0.0964, -0.1120,  0.0711,  ..., -0.0942, -0.0668,  0.1419]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-08, -6.9849e-08,  1.1176e-07,  ...,  2.0824e-06,
+          1.3970e-09, -1.9092e-08],
+        [ 3.8370e-07,  1.6065e-07,  2.2259e-07,  ...,  1.0636e-06,
+          1.2573e-08,  1.7928e-07],
+        [ 4.6566e-08,  7.9628e-08,  5.1036e-07,  ...,  3.6508e-07,
+          5.0757e-08,  1.4110e-07],
+        ...,
+        [ 6.2864e-08, -2.1886e-07,  1.6764e-07,  ...,  2.0349e-07,
+         -9.7789e-09,  8.1025e-08],
+        [-1.3284e-05, -4.5635e-07, -7.5214e-06,  ..., -3.0175e-05,
+          3.7253e-09, -6.0573e-06],
+        [ 1.7043e-07,  9.4064e-08, -1.7881e-07,  ...,  4.5858e-06,
+          5.5879e-09, -2.7753e-07]], device='cuda:0')
+Epoch 201, bias, value: tensor([-0.0025, -0.0017,  0.0088,  0.0109,  0.0269,  0.0416, -0.0242,  0.0077,
+        -0.0359, -0.0209], device='cuda:0'), grad: tensor([ 9.0674e-06,  1.9334e-06,  2.7902e-06,  8.7684e-07, -3.6150e-05,
+         2.2322e-05,  2.4587e-05,  6.2445e-07, -4.4048e-05,  1.8016e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 200----------------------------------------------------
+epoch 200, time 217.82, cls_loss 0.0015 cls_loss_mapping 0.0029 cls_loss_causal 0.4658 re_mapping 0.0062 re_causal 0.0179 /// teacc 99.11 lr 0.00010000
+Epoch 202, weight, value: tensor([[-0.0547,  0.1418,  0.0762,  ..., -0.2116, -0.1191,  0.0232],
+        [ 0.1490, -0.0179, -0.0716,  ...,  0.0892,  0.1155, -0.1393],
+        [-0.0926, -0.0569, -0.0515,  ..., -0.0908, -0.0362, -0.0639],
+        ...,
+        [-0.0713,  0.1549, -0.1794,  ..., -0.1456,  0.0012, -0.1576],
+        [ 0.0062, -0.1057,  0.0345,  ...,  0.0645, -0.1090, -0.0438],
+        [-0.0970, -0.1122,  0.0713,  ..., -0.0945, -0.0670,  0.1421]],
+       device='cuda:0'), grad: tensor([[-6.2818e-07, -1.3560e-06,  8.8476e-09,  ...,  2.2911e-07,
+          9.5926e-08, -4.3120e-07],
+        [ 1.8254e-06,  1.1921e-07,  1.1642e-08,  ...,  2.1197e-06,
+          9.8627e-07,  2.8592e-07],
+        [ 5.3458e-06,  6.3796e-08,  4.0559e-07,  ...,  6.3293e-06,
+          3.3788e-06,  6.5006e-07],
+        ...,
+        [ 1.0924e-06, -1.4435e-08,  4.0978e-08,  ...,  1.3830e-06,
+          6.0257e-07,  1.4156e-07],
+        [-9.9361e-05,  2.1514e-07, -9.9372e-07,  ..., -1.1927e-04,
+         -5.4091e-05, -1.0602e-05],
+        [ 2.0629e-07,  3.6787e-08, -8.5682e-08,  ...,  1.0431e-06,
+          9.4529e-08, -1.0245e-07]], device='cuda:0')
+Epoch 202, bias, value: tensor([-0.0048, -0.0019,  0.0089,  0.0107,  0.0270,  0.0417, -0.0228,  0.0077,
+        -0.0357, -0.0209], device='cuda:0'), grad: tensor([-2.7120e-06,  5.7705e-06,  1.7390e-05,  1.1604e-06, -1.1222e-06,
+         2.6488e-04,  9.7677e-06,  3.4925e-06, -3.0184e-04,  2.6524e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 201, time 216.93, cls_loss 0.0016 cls_loss_mapping 0.0042 cls_loss_causal 0.5273 re_mapping 0.0060 re_causal 0.0176 /// teacc 99.01 lr 0.00010000
+Epoch 203, weight, value: tensor([[-0.0548,  0.1423,  0.0768,  ..., -0.2120, -0.1192,  0.0237],
+        [ 0.1497, -0.0179, -0.0720,  ...,  0.0895,  0.1164, -0.1399],
+        [-0.0931, -0.0569, -0.0517,  ..., -0.0909, -0.0367, -0.0643],
+        ...,
+        [-0.0716,  0.1550, -0.1802,  ..., -0.1462,  0.0004, -0.1580],
+        [ 0.0063, -0.1058,  0.0341,  ...,  0.0648, -0.1081, -0.0441],
+        [-0.0974, -0.1123,  0.0719,  ..., -0.0943, -0.0685,  0.1425]],
+       device='cuda:0'), grad: tensor([[ 2.0210e-07,  4.3306e-08,  1.3504e-07,  ...,  8.5589e-07,
+          3.7253e-09, -3.1898e-07],
+        [ 3.5763e-07,  2.2519e-06,  5.7276e-08,  ...,  1.3178e-07,
+          1.8915e-06,  2.9337e-08],
+        [-3.2736e-07,  3.4459e-08, -1.2554e-06,  ...,  8.4145e-07,
+         -2.0117e-06, -1.8813e-06],
+        ...,
+        [ 2.5611e-08, -9.8050e-06,  3.2783e-07,  ...,  2.2352e-08,
+          1.8347e-07,  6.2399e-08],
+        [ 3.0510e-06,  6.8452e-08,  1.4883e-06,  ...,  7.2233e-06,
+          6.9384e-08,  1.9651e-06],
+        [ 3.2596e-09,  7.5027e-06,  4.9407e-07,  ...,  2.2305e-07,
+          2.1886e-08,  4.8010e-07]], device='cuda:0')
+Epoch 203, bias, value: tensor([-0.0046, -0.0015,  0.0088,  0.0107,  0.0266,  0.0417, -0.0228,  0.0074,
+        -0.0359, -0.0205], device='cuda:0'), grad: tensor([ 4.2133e-06,  1.5229e-05, -1.3381e-05, -8.2701e-06,  3.0175e-06,
+         1.0960e-05, -3.9428e-05, -1.3448e-05,  2.8595e-05,  1.2577e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 202, time 217.26, cls_loss 0.0016 cls_loss_mapping 0.0035 cls_loss_causal 0.4971 re_mapping 0.0063 re_causal 0.0176 /// teacc 98.99 lr 0.00010000
+Epoch 204, weight, value: tensor([[-0.0547,  0.1441,  0.0764,  ..., -0.2124, -0.1193,  0.0235],
+        [ 0.1505, -0.0176, -0.0725,  ...,  0.0902,  0.1165, -0.1407],
+        [-0.0935, -0.0573, -0.0518,  ..., -0.0911, -0.0368, -0.0645],
+        ...,
+        [-0.0721,  0.1548, -0.1805,  ..., -0.1473,  0.0007, -0.1591],
+        [ 0.0065, -0.1059,  0.0339,  ...,  0.0649, -0.1082, -0.0445],
+        [-0.0967, -0.1118,  0.0730,  ..., -0.0939, -0.0677,  0.1436]],
+       device='cuda:0'), grad: tensor([[ 1.2442e-06,  1.4482e-07,  1.4473e-06,  ...,  1.0580e-06,
+          4.6566e-10,  1.5730e-06],
+        [-5.9139e-08,  4.3306e-08,  3.0082e-07,  ...,  5.4156e-07,
+         -5.5879e-09,  5.5460e-07],
+        [ 2.5146e-08,  2.0489e-08,  3.9116e-08,  ...,  3.9581e-08,
+          9.3132e-10,  7.7300e-08],
+        ...,
+        [ 4.5169e-08, -5.6345e-08,  5.0198e-07,  ...,  1.7649e-07,
+          9.3132e-10,  1.4184e-06],
+        [-4.1723e-06, -8.9360e-07, -3.7923e-06,  ..., -2.4792e-06,
+          1.8626e-09, -3.7216e-06],
+        [ 6.3004e-07,  1.6345e-07, -3.2373e-06,  ...,  3.5521e-06,
+          9.3132e-10, -8.3447e-06]], device='cuda:0')
+Epoch 204, bias, value: tensor([-0.0036, -0.0017,  0.0089,  0.0107,  0.0261,  0.0415, -0.0228,  0.0058,
+        -0.0361, -0.0182], device='cuda:0'), grad: tensor([ 3.6098e-06,  1.8440e-06,  1.6578e-07,  2.4214e-06,  3.3043e-06,
+         4.6603e-06,  6.8499e-07,  3.1497e-06, -7.2867e-06, -1.2532e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 203, time 216.92, cls_loss 0.0012 cls_loss_mapping 0.0029 cls_loss_causal 0.4860 re_mapping 0.0062 re_causal 0.0180 /// teacc 98.89 lr 0.00010000
+Epoch 205, weight, value: tensor([[-0.0549,  0.1442,  0.0765,  ..., -0.2132, -0.1193,  0.0236],
+        [ 0.1508, -0.0186, -0.0725,  ...,  0.0904,  0.1170, -0.1409],
+        [-0.0939, -0.0573, -0.0520,  ..., -0.0913, -0.0370, -0.0647],
+        ...,
+        [-0.0721,  0.1556, -0.1807,  ..., -0.1474,  0.0014, -0.1597],
+        [ 0.0063, -0.1059,  0.0336,  ...,  0.0648, -0.1083, -0.0451],
+        [-0.0963, -0.1121,  0.0742,  ..., -0.0940, -0.0681,  0.1448]],
+       device='cuda:0'), grad: tensor([[ 3.2596e-09, -1.0850e-07, -3.8929e-07,  ...,  1.7695e-08,
+          0.0000e+00, -5.2107e-07],
+        [-1.2619e-07,  2.2817e-08,  4.8429e-08,  ..., -1.8626e-07,
+         -4.6566e-10,  8.9873e-08],
+        [ 6.5193e-09,  1.8207e-07,  9.5461e-08,  ..., -6.0536e-09,
+          0.0000e+00,  1.0896e-07],
+        ...,
+        [ 7.5437e-08, -9.2993e-07,  1.7369e-07,  ...,  2.6729e-07,
+         -4.6566e-10,  2.8918e-07],
+        [ 2.9197e-07,  2.9337e-08,  2.2398e-07,  ...,  6.4075e-07,
+          4.6566e-10,  1.0002e-06],
+        [ 4.5635e-08,  6.7707e-07, -1.5348e-05,  ..., -1.2174e-05,
+          1.3970e-09, -2.9042e-05]], device='cuda:0')
+Epoch 205, bias, value: tensor([-0.0037, -0.0020,  0.0088,  0.0106,  0.0262,  0.0411, -0.0226,  0.0062,
+        -0.0364, -0.0179], device='cuda:0'), grad: tensor([-1.1437e-06, -1.5600e-07,  3.9069e-07,  5.2992e-07,  5.0455e-05,
+        -5.9232e-07,  6.4820e-07, -5.0850e-07,  9.2434e-07, -5.0515e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 204, time 216.71, cls_loss 0.0022 cls_loss_mapping 0.0041 cls_loss_causal 0.5371 re_mapping 0.0061 re_causal 0.0173 /// teacc 99.03 lr 0.00010000
+Epoch 206, weight, value: tensor([[-0.0568,  0.1415,  0.0751,  ..., -0.2169, -0.1197,  0.0221],
+        [ 0.1531, -0.0175, -0.0734,  ...,  0.0917,  0.1176, -0.1430],
+        [-0.0943, -0.0574, -0.0521,  ..., -0.0915, -0.0372, -0.0649],
+        ...,
+        [-0.0732,  0.1553, -0.1822,  ..., -0.1497,  0.0008, -0.1603],
+        [ 0.0062, -0.1060,  0.0335,  ...,  0.0647, -0.1085, -0.0454],
+        [-0.0966, -0.1122,  0.0757,  ..., -0.0939, -0.0663,  0.1457]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09,  1.7121e-05, -2.9244e-07,  ...,  1.1176e-08,
+          0.0000e+00, -5.6252e-07],
+        [ 1.9930e-07,  6.8871e-07,  1.0664e-07,  ...,  3.4412e-07,
+          0.0000e+00,  1.3504e-07],
+        [ 6.6590e-08, -4.6611e-05,  4.3772e-08,  ...,  4.4703e-08,
+          0.0000e+00,  6.7055e-08],
+        ...,
+        [ 1.6298e-08,  1.6853e-05,  1.3504e-08,  ...,  7.1246e-08,
+          0.0000e+00,  1.3970e-08],
+        [-7.3249e-07,  7.8678e-06, -2.2724e-07,  ..., -1.0170e-06,
+          0.0000e+00, -2.3609e-07],
+        [ 1.1548e-07,  3.2932e-06,  1.8766e-07,  ...,  2.8824e-07,
+          0.0000e+00,  3.2876e-07]], device='cuda:0')
+Epoch 206, bias, value: tensor([-0.0059, -0.0015,  0.0087,  0.0109,  0.0261,  0.0411, -0.0210,  0.0055,
+        -0.0365, -0.0175], device='cuda:0'), grad: tensor([ 4.0978e-05,  2.0079e-06, -1.1355e-04,  6.0489e-07, -2.1840e-07,
+         9.4017e-07,  1.0943e-06,  4.4584e-05,  1.7777e-05,  5.8338e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 205, time 217.40, cls_loss 0.0020 cls_loss_mapping 0.0037 cls_loss_causal 0.5254 re_mapping 0.0057 re_causal 0.0167 /// teacc 98.96 lr 0.00010000
+Epoch 207, weight, value: tensor([[-0.0569,  0.1424,  0.0760,  ..., -0.2173, -0.1197,  0.0234],
+        [ 0.1535, -0.0184, -0.0738,  ...,  0.0915,  0.1183, -0.1435],
+        [-0.0944, -0.0572, -0.0523,  ..., -0.0915, -0.0376, -0.0651],
+        ...,
+        [-0.0734,  0.1566, -0.1825,  ..., -0.1499,  0.0003, -0.1614],
+        [ 0.0063, -0.1063,  0.0334,  ...,  0.0647, -0.1088, -0.0453],
+        [-0.0976, -0.1146,  0.0757,  ..., -0.0946, -0.0668,  0.1456]],
+       device='cuda:0'), grad: tensor([[ 1.0878e-06, -1.2685e-06, -1.6708e-06,  ...,  6.6124e-08,
+         -6.0536e-09, -2.8964e-07],
+        [-1.8626e-08,  4.7684e-07,  1.4855e-07,  ..., -1.4901e-08,
+         -1.8161e-08,  2.2398e-07],
+        [ 3.2689e-07, -2.6226e-06,  1.6764e-08,  ...,  3.0175e-07,
+         -3.1199e-08,  8.8802e-07],
+        ...,
+        [ 2.9104e-07,  2.1756e-06,  4.1118e-07,  ...,  3.9767e-07,
+          1.5367e-08,  4.9500e-07],
+        [-7.4646e-07, -1.1455e-07, -2.4866e-07,  ..., -1.2303e-06,
+          4.6566e-09,  5.9651e-07],
+        [ 1.3551e-07,  1.7649e-06,  3.8138e-07,  ...,  5.3644e-07,
+          1.4435e-08,  1.3188e-06]], device='cuda:0')
+Epoch 207, bias, value: tensor([-0.0049, -0.0021,  0.0088,  0.0109,  0.0265,  0.0412, -0.0214,  0.0062,
+        -0.0367, -0.0184], device='cuda:0'), grad: tensor([ 2.6934e-06,  1.7062e-06, -9.0078e-06,  8.5915e-07,  3.6741e-07,
+         4.8690e-06, -1.7226e-05,  9.9242e-06, -1.0990e-06,  6.9141e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 206, time 217.29, cls_loss 0.0020 cls_loss_mapping 0.0030 cls_loss_causal 0.5063 re_mapping 0.0061 re_causal 0.0171 /// teacc 99.01 lr 0.00010000
+Epoch 208, weight, value: tensor([[-0.0574,  0.1429,  0.0760,  ..., -0.2178, -0.1200,  0.0234],
+        [ 0.1549, -0.0186, -0.0743,  ...,  0.0921,  0.1182, -0.1444],
+        [-0.0947, -0.0574, -0.0521,  ..., -0.0918, -0.0378, -0.0653],
+        ...,
+        [-0.0738,  0.1573, -0.1834,  ..., -0.1503,  0.0006, -0.1622],
+        [ 0.0063, -0.1065,  0.0333,  ...,  0.0647, -0.1092, -0.0456],
+        [-0.1001, -0.1156,  0.0756,  ..., -0.0958, -0.0659,  0.1455]],
+       device='cuda:0'), grad: tensor([[ 3.8650e-08,  1.2992e-07,  1.3327e-06,  ...,  3.2131e-07,
+          3.7253e-09,  3.9907e-07],
+        [-6.1747e-07,  2.4475e-06,  2.5285e-07,  ..., -8.7498e-07,
+         -3.2596e-09,  1.2899e-07],
+        [ 1.1642e-07,  3.1330e-06,  2.4527e-05,  ...,  8.9630e-06,
+         -4.1910e-08,  1.5095e-05],
+        ...,
+        [ 1.9791e-07, -1.9163e-05,  2.1793e-07,  ...,  3.5483e-07,
+         -1.1362e-07,  1.2759e-07],
+        [-2.7940e-06, -3.0771e-06, -3.4332e-05,  ..., -1.3240e-05,
+          2.9337e-08, -2.0653e-05],
+        [ 1.0151e-07,  1.3970e-05,  3.8184e-06,  ...,  2.3637e-06,
+          1.2573e-08,  2.4438e-06]], device='cuda:0')
+Epoch 208, bias, value: tensor([-0.0048, -0.0020,  0.0087,  0.0110,  0.0273,  0.0416, -0.0218,  0.0065,
+        -0.0370, -0.0193], device='cuda:0'), grad: tensor([ 3.3602e-06,  3.0454e-06,  5.1290e-05,  6.6459e-06, -1.4361e-06,
+         6.8620e-06,  8.1258e-07, -3.0518e-05, -7.2420e-05,  3.2336e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 207, time 217.06, cls_loss 0.0020 cls_loss_mapping 0.0030 cls_loss_causal 0.5266 re_mapping 0.0059 re_causal 0.0169 /// teacc 98.93 lr 0.00010000
+Epoch 209, weight, value: tensor([[-0.0576,  0.1434,  0.0756,  ..., -0.2181, -0.1199,  0.0232],
+        [ 0.1549, -0.0185, -0.0760,  ...,  0.0916,  0.1186, -0.1468],
+        [-0.0953, -0.0574, -0.0535,  ..., -0.0921, -0.0380, -0.0666],
+        ...,
+        [-0.0743,  0.1577, -0.1857,  ..., -0.1509,  0.0004, -0.1639],
+        [ 0.0083, -0.1067,  0.0355,  ...,  0.0674, -0.1100, -0.0426],
+        [-0.1023, -0.1160,  0.0760,  ..., -0.0965, -0.0663,  0.1457]],
+       device='cuda:0'), grad: tensor([[ 4.5635e-08, -1.2051e-06,  5.1688e-08,  ...,  8.4750e-08,
+         -7.9488e-07, -1.1213e-06],
+        [-3.5716e-07,  4.5672e-06,  7.6368e-08,  ...,  2.5276e-06,
+          2.4447e-07,  5.3085e-08],
+        [ 4.8894e-08,  1.9651e-07, -5.3877e-07,  ...,  1.0058e-07,
+          2.9802e-08,  5.0757e-08],
+        ...,
+        [-4.5775e-07, -5.0999e-06,  2.2119e-07,  ...,  1.0319e-06,
+         -2.2538e-07,  3.0175e-07],
+        [-2.8126e-06, -6.4261e-08,  1.7304e-06,  ..., -1.7174e-06,
+          8.8010e-08,  3.4608e-06],
+        [ 1.7742e-07,  3.6228e-07, -4.9621e-06,  ...,  1.1977e-06,
+          1.5786e-07, -8.9332e-06]], device='cuda:0')
+Epoch 209, bias, value: tensor([-0.0048, -0.0021,  0.0085,  0.0121,  0.0273,  0.0405, -0.0218,  0.0062,
+        -0.0359, -0.0194], device='cuda:0'), grad: tensor([-3.0678e-06,  1.2301e-05, -6.4746e-06,  4.9267e-07, -3.5930e-06,
+         6.3442e-06,  3.7961e-06, -3.8147e-06,  1.1176e-05, -1.7270e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 208, time 217.29, cls_loss 0.0020 cls_loss_mapping 0.0028 cls_loss_causal 0.4938 re_mapping 0.0058 re_causal 0.0168 /// teacc 99.06 lr 0.00010000
+Epoch 210, weight, value: tensor([[-0.0577,  0.1443,  0.0762,  ..., -0.2187, -0.1199,  0.0242],
+        [ 0.1563, -0.0183, -0.0771,  ...,  0.0924,  0.1196, -0.1476],
+        [-0.0955, -0.0576, -0.0540,  ..., -0.0924, -0.0381, -0.0672],
+        ...,
+        [-0.0749,  0.1581, -0.1874,  ..., -0.1513, -0.0009, -0.1660],
+        [ 0.0083, -0.1069,  0.0357,  ...,  0.0675, -0.1101, -0.0424],
+        [-0.1032, -0.1169,  0.0777,  ..., -0.0968, -0.0664,  0.1464]],
+       device='cuda:0'), grad: tensor([[ 1.3690e-07, -8.9407e-06, -1.1310e-05,  ...,  2.1141e-07,
+          0.0000e+00, -2.0474e-05],
+        [ 1.7388e-06,  1.2387e-07,  8.2981e-07,  ...,  2.6301e-06,
+          0.0000e+00,  6.1980e-07],
+        [ 1.5292e-06,  2.2398e-07,  2.3097e-07,  ...,  2.4550e-06,
+          0.0000e+00,  7.5949e-07],
+        ...,
+        [ 3.8091e-07, -4.2655e-07,  1.5786e-07,  ...,  5.7276e-07,
+          0.0000e+00,  3.6461e-07],
+        [-9.5740e-06,  1.2321e-06,  4.4564e-07,  ..., -1.3642e-05,
+          0.0000e+00,  1.1502e-07],
+        [ 1.4855e-07,  1.9576e-06,  4.6194e-06,  ...,  4.9639e-07,
+          0.0000e+00,  8.0168e-06]], device='cuda:0')
+Epoch 210, bias, value: tensor([-0.0043, -0.0017,  0.0084,  0.0121,  0.0268,  0.0392, -0.0199,  0.0059,
+        -0.0360, -0.0190], device='cuda:0'), grad: tensor([-4.0472e-05,  6.4224e-06,  4.7386e-06,  3.1069e-06, -1.6671e-06,
+         1.8135e-05,  1.8030e-05,  1.2983e-06, -2.7463e-05,  1.7866e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 209, time 217.16, cls_loss 0.0015 cls_loss_mapping 0.0030 cls_loss_causal 0.5452 re_mapping 0.0058 re_causal 0.0186 /// teacc 99.03 lr 0.00010000
+Epoch 211, weight, value: tensor([[-0.0576,  0.1458,  0.0771,  ..., -0.2182, -0.1199,  0.0250],
+        [ 0.1566, -0.0200, -0.0774,  ...,  0.0927,  0.1203, -0.1478],
+        [-0.0986, -0.0577, -0.0543,  ..., -0.0931, -0.0384, -0.0677],
+        ...,
+        [-0.0748,  0.1590, -0.1878,  ..., -0.1518, -0.0015, -0.1664],
+        [ 0.0081, -0.1071,  0.0355,  ...,  0.0673, -0.1102, -0.0427],
+        [-0.1037, -0.1174,  0.0776,  ..., -0.0975, -0.0665,  0.1463]],
+       device='cuda:0'), grad: tensor([[ 3.2596e-09,  5.4482e-08, -9.7789e-09,  ...,  1.0710e-08,
+          0.0000e+00, -1.3504e-08],
+        [-3.9116e-08,  4.9826e-08,  3.2596e-09,  ..., -5.8673e-08,
+          0.0000e+00,  2.7940e-09],
+        [ 5.1223e-09, -4.1090e-06,  1.2573e-08,  ...,  3.6787e-08,
+          0.0000e+00,  1.3970e-09],
+        ...,
+        [ 1.2573e-08,  3.6769e-06,  6.9849e-09,  ...,  4.1910e-08,
+          0.0000e+00,  5.5879e-09],
+        [ 4.2375e-08,  4.2375e-08,  4.6566e-09,  ...,  3.0268e-08,
+          0.0000e+00,  1.9092e-08],
+        [ 9.7789e-09,  4.9360e-08, -6.2305e-07,  ...,  1.8021e-07,
+          0.0000e+00, -6.9616e-07]], device='cuda:0')
+Epoch 211, bias, value: tensor([-0.0034, -0.0023,  0.0071,  0.0122,  0.0273,  0.0391, -0.0183,  0.0061,
+        -0.0363, -0.0195], device='cuda:0'), grad: tensor([ 1.4529e-07,  3.7253e-08, -1.0625e-05,  4.8801e-07,  9.3644e-07,
+         5.9139e-08, -1.1316e-07,  9.7528e-06,  1.7043e-07, -8.2469e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 210, time 217.21, cls_loss 0.0015 cls_loss_mapping 0.0027 cls_loss_causal 0.5085 re_mapping 0.0060 re_causal 0.0176 /// teacc 99.08 lr 0.00010000
+Epoch 212, weight, value: tensor([[-0.0579,  0.1453,  0.0758,  ..., -0.2194, -0.1199,  0.0245],
+        [ 0.1575, -0.0205, -0.0776,  ...,  0.0935,  0.1205, -0.1481],
+        [-0.0988, -0.0578, -0.0545,  ..., -0.0933, -0.0384, -0.0679],
+        ...,
+        [-0.0750,  0.1596, -0.1880,  ..., -0.1522, -0.0016, -0.1668],
+        [ 0.0081, -0.1072,  0.0358,  ...,  0.0674, -0.1104, -0.0426],
+        [-0.1043, -0.1181,  0.0775,  ..., -0.0980, -0.0665,  0.1463]],
+       device='cuda:0'), grad: tensor([[ 2.2817e-08, -1.2107e-08,  6.3796e-08,  ...,  2.5611e-08,
+          0.0000e+00,  5.3085e-08],
+        [-2.3935e-07,  2.7809e-06, -8.4285e-08,  ..., -2.5379e-07,
+          0.0000e+00, -2.8871e-08],
+        [ 5.4948e-08,  5.7295e-06,  3.6974e-07,  ...,  7.0315e-08,
+          0.0000e+00,  2.4494e-07],
+        ...,
+        [ 2.8405e-08, -9.2387e-06,  5.4017e-08,  ...,  3.5996e-07,
+          0.0000e+00,  2.5611e-08],
+        [ 2.4447e-07,  2.1607e-07,  2.3982e-07,  ...,  2.2817e-07,
+          0.0000e+00,  2.3609e-07],
+        [ 1.6950e-07,  2.8126e-07, -5.0059e-07,  ...,  4.2049e-07,
+          0.0000e+00, -7.1386e-07]], device='cuda:0')
+Epoch 212, bias, value: tensor([-0.0040, -0.0019,  0.0070,  0.0121,  0.0277,  0.0393, -0.0184,  0.0063,
+        -0.0363, -0.0200], device='cuda:0'), grad: tensor([ 1.5646e-07,  3.5241e-06,  9.0152e-06, -7.4552e-07, -2.1216e-06,
+         3.2550e-07, -4.2608e-07, -1.1712e-05,  1.5069e-06,  4.6939e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 211, time 217.24, cls_loss 0.0014 cls_loss_mapping 0.0020 cls_loss_causal 0.5065 re_mapping 0.0059 re_causal 0.0176 /// teacc 98.98 lr 0.00010000
+Epoch 213, weight, value: tensor([[-0.0580,  0.1455,  0.0761,  ..., -0.2197, -0.1199,  0.0251],
+        [ 0.1574, -0.0206, -0.0789,  ...,  0.0934,  0.1211, -0.1486],
+        [-0.0990, -0.0577, -0.0531,  ..., -0.0935, -0.0387, -0.0675],
+        ...,
+        [-0.0751,  0.1602, -0.1878,  ..., -0.1526, -0.0021, -0.1673],
+        [ 0.0085, -0.1074,  0.0362,  ...,  0.0682, -0.1105, -0.0428],
+        [-0.1046, -0.1188,  0.0775,  ..., -0.0990, -0.0665,  0.1465]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10, -4.6566e-10,  1.1828e-07,  ...,  7.9162e-09,
+          0.0000e+00, -3.2596e-08],
+        [-3.2596e-09,  1.2107e-08,  4.0047e-08,  ...,  7.6368e-07,
+          0.0000e+00,  1.7229e-08],
+        [ 4.1910e-09,  1.4435e-08,  3.9581e-08,  ...,  2.5611e-08,
+          9.3132e-10,  1.2107e-08],
+        ...,
+        [ 1.8626e-09,  4.7823e-07,  9.4436e-07,  ...,  1.0012e-07,
+          0.0000e+00,  8.3866e-07],
+        [-4.6566e-09,  4.1910e-08,  2.3469e-07,  ...,  8.0559e-08,
+          0.0000e+00,  1.4948e-07],
+        [ 1.3970e-09, -7.0967e-07, -8.7079e-07,  ...,  1.7602e-07,
+          0.0000e+00, -2.1365e-06]], device='cuda:0')
+Epoch 213, bias, value: tensor([-0.0038, -0.0022,  0.0073,  0.0121,  0.0286,  0.0393, -0.0187,  0.0066,
+        -0.0360, -0.0208], device='cuda:0'), grad: tensor([ 1.8347e-07,  1.1437e-06,  1.2526e-07, -2.4084e-06,  1.0226e-06,
+         2.9989e-07,  1.3597e-07,  3.4738e-06,  7.1805e-07, -4.7013e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 212, time 217.28, cls_loss 0.0018 cls_loss_mapping 0.0024 cls_loss_causal 0.5026 re_mapping 0.0062 re_causal 0.0173 /// teacc 99.04 lr 0.00010000
+Epoch 214, weight, value: tensor([[-0.0580,  0.1459,  0.0757,  ..., -0.2200, -0.1200,  0.0252],
+        [ 0.1579, -0.0213, -0.0799,  ...,  0.0941,  0.1226, -0.1490],
+        [-0.0992, -0.0579, -0.0532,  ..., -0.0936, -0.0392, -0.0678],
+        ...,
+        [-0.0755,  0.1610, -0.1874,  ..., -0.1537, -0.0037, -0.1680],
+        [ 0.0087, -0.1075,  0.0365,  ...,  0.0684, -0.1106, -0.0430],
+        [-0.1053, -0.1191,  0.0777,  ..., -0.0996, -0.0667,  0.1467]],
+       device='cuda:0'), grad: tensor([[ 6.7055e-07, -7.5111e-07,  6.5193e-09,  ...,  1.3215e-06,
+          0.0000e+00, -1.6158e-07],
+        [ 4.4495e-05,  8.0559e-08,  1.7928e-08,  ...,  7.9334e-05,
+          0.0000e+00,  1.1869e-05],
+        [ 7.6368e-07,  3.4925e-08,  3.6089e-08,  ...,  1.6834e-07,
+          0.0000e+00,  2.2794e-07],
+        ...,
+        [ 8.5449e-08,  7.1479e-07,  6.0908e-07,  ...,  2.0280e-07,
+          0.0000e+00,  1.0561e-06],
+        [ 5.9232e-06,  3.5437e-07,  4.7777e-07,  ...,  1.2480e-05,
+          0.0000e+00,  2.3134e-06],
+        [ 1.0733e-07, -3.5670e-07, -6.2957e-07,  ...,  7.3574e-07,
+          0.0000e+00, -8.0839e-07]], device='cuda:0')
+Epoch 214, bias, value: tensor([-0.0038, -0.0026,  0.0074,  0.0111,  0.0290,  0.0400, -0.0189,  0.0070,
+        -0.0359, -0.0213], device='cuda:0'), grad: tensor([ 1.9744e-06,  1.9920e-04, -1.6198e-05, -1.6508e-07,  2.5928e-06,
+         5.9009e-05, -2.9635e-04,  3.3285e-06,  4.7743e-05, -7.9628e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 213, time 217.33, cls_loss 0.0014 cls_loss_mapping 0.0030 cls_loss_causal 0.5260 re_mapping 0.0059 re_causal 0.0177 /// teacc 99.01 lr 0.00010000
+Epoch 215, weight, value: tensor([[-0.0581,  0.1459,  0.0754,  ..., -0.2209, -0.1200,  0.0248],
+        [ 0.1584, -0.0212, -0.0799,  ...,  0.0943,  0.1233, -0.1493],
+        [-0.0993, -0.0580, -0.0533,  ..., -0.0938, -0.0393, -0.0683],
+        ...,
+        [-0.0759,  0.1612, -0.1879,  ..., -0.1545, -0.0045, -0.1688],
+        [ 0.0088, -0.1076,  0.0360,  ...,  0.0684, -0.1107, -0.0440],
+        [-0.1058, -0.1193,  0.0793,  ..., -0.0996, -0.0668,  0.1482]],
+       device='cuda:0'), grad: tensor([[ 6.9849e-09, -5.1223e-09,  6.9849e-09,  ...,  1.1176e-08,
+          2.3283e-10, -1.4668e-08],
+        [-3.6787e-08,  6.7148e-07,  2.0256e-08,  ..., -4.5402e-08,
+         -1.1642e-09,  2.3283e-09],
+        [ 4.3074e-08,  6.2399e-08,  2.5425e-07,  ...,  6.6124e-08,
+          2.3283e-10,  1.8626e-09],
+        ...,
+        [ 1.6065e-08, -1.0207e-06,  1.5087e-07,  ...,  3.2363e-08,
+          4.6566e-10,  1.0710e-08],
+        [ 1.3271e-08,  6.5891e-08,  1.3900e-07,  ...,  3.1432e-08,
+          0.0000e+00,  4.9127e-08],
+        [ 4.4238e-09,  1.7066e-07,  4.7497e-08,  ...,  2.5053e-07,
+          2.3283e-10, -6.7521e-09]], device='cuda:0')
+Epoch 215, bias, value: tensor([-0.0040, -0.0022,  0.0074,  0.0111,  0.0289,  0.0403, -0.0194,  0.0067,
+        -0.0363, -0.0206], device='cuda:0'), grad: tensor([ 6.8452e-08,  1.2163e-06,  6.5612e-07, -2.9728e-06, -2.4564e-07,
+         2.3167e-07, -1.9791e-07, -5.0291e-07,  8.5495e-07,  8.9873e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 214, time 217.31, cls_loss 0.0015 cls_loss_mapping 0.0022 cls_loss_causal 0.5305 re_mapping 0.0057 re_causal 0.0175 /// teacc 99.09 lr 0.00010000
+Epoch 216, weight, value: tensor([[-0.0582,  0.1460,  0.0744,  ..., -0.2211, -0.1200,  0.0240],
+        [ 0.1592, -0.0212, -0.0800,  ...,  0.0948,  0.1236, -0.1494],
+        [-0.0994, -0.0582, -0.0535,  ..., -0.0939, -0.0395, -0.0685],
+        ...,
+        [-0.0760,  0.1616, -0.1886,  ..., -0.1549, -0.0049, -0.1697],
+        [ 0.0086, -0.1076,  0.0359,  ...,  0.0681, -0.1110, -0.0445],
+        [-0.1067, -0.1198,  0.0800,  ..., -0.1000, -0.0668,  0.1489]],
+       device='cuda:0'), grad: tensor([[ 1.1711e-07, -2.0023e-08,  1.6321e-07,  ...,  3.9535e-07,
+          0.0000e+00,  5.3830e-07],
+        [ 3.0082e-07,  1.0594e-07,  1.2293e-07,  ...,  1.7392e-07,
+         -9.3132e-10,  2.8149e-07],
+        [ 2.3702e-07,  2.1420e-08,  1.0408e-07,  ...,  2.5798e-07,
+          2.3283e-10,  2.6077e-07],
+        ...,
+        [ 1.6857e-07, -3.9628e-07,  4.7032e-08,  ...,  1.5530e-07,
+          2.3283e-10,  9.8022e-08],
+        [ 4.7982e-05,  2.5146e-08,  1.2510e-05,  ...,  3.9101e-05,
+          2.3283e-10,  3.2097e-05],
+        [ 4.9034e-07,  1.4575e-07,  2.0093e-07,  ...,  4.8289e-07,
+          2.3283e-10,  3.6089e-07]], device='cuda:0')
+Epoch 216, bias, value: tensor([-0.0045, -0.0019,  0.0073,  0.0113,  0.0291,  0.0403, -0.0196,  0.0065,
+        -0.0367, -0.0205], device='cuda:0'), grad: tensor([ 1.1399e-06,  2.3097e-06, -6.9337e-07, -2.4915e-05,  1.6298e-07,
+        -1.2577e-04,  2.8014e-05, -3.2340e-07,  1.1843e-04,  1.7611e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 215, time 217.47, cls_loss 0.0018 cls_loss_mapping 0.0033 cls_loss_causal 0.5191 re_mapping 0.0059 re_causal 0.0176 /// teacc 99.05 lr 0.00010000
+Epoch 217, weight, value: tensor([[-0.0583,  0.1463,  0.0746,  ..., -0.2214, -0.1200,  0.0243],
+        [ 0.1586, -0.0222, -0.0823,  ...,  0.0918,  0.1211, -0.1503],
+        [-0.0984, -0.0585, -0.0512,  ..., -0.0911, -0.0373, -0.0687],
+        ...,
+        [-0.0761,  0.1625, -0.1887,  ..., -0.1550, -0.0050, -0.1701],
+        [ 0.0085, -0.1077,  0.0356,  ...,  0.0678, -0.1113, -0.0451],
+        [-0.1072, -0.1202,  0.0799,  ..., -0.1027, -0.0665,  0.1482]],
+       device='cuda:0'), grad: tensor([[ 1.0245e-08, -6.4261e-08,  2.9802e-08,  ...,  2.2352e-08,
+          3.8184e-08, -1.7229e-08],
+        [-9.1735e-08,  6.8918e-08,  2.0955e-08,  ..., -1.1409e-07,
+          2.7940e-09,  1.6764e-08],
+        [ 6.6124e-08,  6.1002e-08,  6.7055e-08,  ...,  3.4599e-07,
+         -2.5798e-07,  7.5437e-08],
+        ...,
+        [ 3.7719e-08, -2.6822e-07,  1.5832e-07,  ...,  9.7323e-08,
+          6.1467e-08,  2.5006e-07],
+        [-8.4937e-06,  4.5635e-08,  1.0571e-07,  ..., -1.7956e-05,
+          7.5903e-08, -4.2021e-06],
+        [ 1.0710e-08,  9.5926e-08, -3.4971e-07,  ...,  1.7416e-07,
+          2.8871e-08, -6.3144e-07]], device='cuda:0')
+Epoch 217, bias, value: tensor([-0.0042, -0.0051,  0.0099,  0.0113,  0.0316,  0.0411, -0.0205,  0.0070,
+        -0.0371, -0.0224], device='cuda:0'), grad: tensor([ 1.1129e-07,  1.2573e-07, -1.1213e-06, -2.1979e-07,  7.2177e-08,
+         8.1137e-06,  2.1562e-05,  6.1048e-07, -2.8655e-05, -5.8347e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 216, time 217.48, cls_loss 0.0029 cls_loss_mapping 0.0025 cls_loss_causal 0.4983 re_mapping 0.0060 re_causal 0.0169 /// teacc 98.98 lr 0.00010000
+Epoch 218, weight, value: tensor([[-0.0588,  0.1465,  0.0747,  ..., -0.2231, -0.1200,  0.0246],
+        [ 0.1577, -0.0219, -0.0854,  ...,  0.0887,  0.1181, -0.1537],
+        [-0.0963, -0.0584, -0.0481,  ..., -0.0881, -0.0345, -0.0692],
+        ...,
+        [-0.0763,  0.1626, -0.1892,  ..., -0.1558, -0.0050, -0.1703],
+        [ 0.0077, -0.1079,  0.0354,  ...,  0.0672, -0.1118, -0.0454],
+        [-0.1082, -0.1205,  0.0803,  ..., -0.1018, -0.0615,  0.1497]],
+       device='cuda:0'), grad: tensor([[ 1.7043e-07, -2.3060e-06,  4.6566e-09,  ...,  6.6450e-07,
+          2.3283e-09, -5.5600e-07],
+        [-1.1846e-06,  4.0419e-07,  1.0710e-08,  ..., -1.0356e-06,
+         -1.2107e-06,  2.1001e-07],
+        [ 1.4342e-06,  1.7462e-07,  4.4238e-08,  ...,  1.3430e-06,
+          1.1157e-06,  3.5111e-07],
+        ...,
+        [ 1.7835e-07,  4.6892e-07,  1.8161e-08,  ...,  3.5390e-07,
+          1.7788e-07,  8.8708e-07],
+        [-2.5287e-05,  9.1363e-07,  2.3609e-07,  ..., -3.4094e-05,
+          2.3283e-09, -2.4036e-05],
+        [ 2.9895e-07,  1.0151e-07,  1.6345e-07,  ...,  4.0326e-07,
+          6.5193e-09,  3.0268e-07]], device='cuda:0')
+Epoch 218, bias, value: tensor([-0.0043, -0.0081,  0.0128,  0.0114,  0.0314,  0.0411, -0.0205,  0.0068,
+        -0.0380, -0.0213], device='cuda:0'), grad: tensor([-3.6750e-06, -3.9674e-07,  2.6599e-06, -3.8333e-06, -7.2177e-08,
+         1.3970e-05,  6.4492e-05,  2.4028e-06, -7.7188e-05,  1.6298e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 217, time 217.23, cls_loss 0.0020 cls_loss_mapping 0.0029 cls_loss_causal 0.5147 re_mapping 0.0058 re_causal 0.0169 /// teacc 98.94 lr 0.00010000
+Epoch 219, weight, value: tensor([[-0.0590,  0.1468,  0.0749,  ..., -0.2261, -0.1228,  0.0230],
+        [ 0.1576, -0.0221, -0.0856,  ...,  0.0887,  0.1181, -0.1546],
+        [-0.0965, -0.0586, -0.0481,  ..., -0.0882, -0.0345, -0.0699],
+        ...,
+        [-0.0769,  0.1625, -0.1904,  ..., -0.1561, -0.0051, -0.1729],
+        [ 0.0086, -0.1072,  0.0357,  ...,  0.0679, -0.1119, -0.0451],
+        [-0.1085, -0.1205,  0.0814,  ..., -0.1025, -0.0612,  0.1505]],
+       device='cuda:0'), grad: tensor([[ 9.7789e-09,  4.6566e-09,  5.5879e-09,  ...,  6.0070e-08,
+          0.0000e+00,  1.5832e-08],
+        [-5.5740e-07,  6.6590e-08,  5.5879e-09,  ..., -1.1241e-06,
+         -2.7940e-09,  7.6368e-08],
+        [ 5.2154e-08,  5.4948e-08,  8.6147e-08,  ...,  2.2585e-07,
+          3.2596e-09,  2.0955e-08],
+        ...,
+        [ 6.9849e-08, -1.4529e-07,  1.5413e-07,  ...,  2.3888e-07,
+          2.3283e-09,  4.7572e-06],
+        [ 1.9092e-08,  1.0431e-07,  1.2573e-08,  ...,  2.5239e-07,
+          2.7940e-09,  2.5611e-07],
+        [ 2.2352e-08, -2.9709e-07, -5.3039e-07,  ...,  1.2442e-05,
+          4.6566e-10, -3.2485e-06]], device='cuda:0')
+Epoch 219, bias, value: tensor([-0.0065, -0.0082,  0.0127,  0.0114,  0.0327,  0.0414, -0.0192,  0.0056,
+        -0.0366, -0.0214], device='cuda:0'), grad: tensor([ 1.4761e-07, -1.3076e-06,  6.6636e-07, -8.6613e-08, -9.4846e-06,
+        -8.1025e-08, -4.9546e-06,  1.0252e-05,  9.8161e-07,  3.8594e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 218, time 216.62, cls_loss 0.0016 cls_loss_mapping 0.0022 cls_loss_causal 0.5047 re_mapping 0.0059 re_causal 0.0172 /// teacc 99.02 lr 0.00010000
+Epoch 220, weight, value: tensor([[-0.0591,  0.1469,  0.0748,  ..., -0.2263, -0.1228,  0.0231],
+        [ 0.1577, -0.0228, -0.0858,  ...,  0.0887,  0.1182, -0.1546],
+        [-0.0966, -0.0587, -0.0481,  ..., -0.0882, -0.0346, -0.0699],
+        ...,
+        [-0.0770,  0.1628, -0.1917,  ..., -0.1564, -0.0051, -0.1730],
+        [ 0.0085, -0.1071,  0.0358,  ...,  0.0677, -0.1121, -0.0455],
+        [-0.1087, -0.1204,  0.0823,  ..., -0.1030, -0.0612,  0.1506]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09, -1.8626e-08,  1.7043e-07,  ...,  2.1327e-07,
+          0.0000e+00,  1.0524e-07],
+        [-1.4761e-07,  1.0300e-06,  8.3353e-08,  ..., -2.1560e-07,
+         -5.1223e-09,  1.6904e-07],
+        [ 2.5611e-08,  1.8068e-07,  7.5903e-08,  ...,  6.6124e-08,
+          1.3970e-09,  1.1409e-07],
+        ...,
+        [ 3.1199e-08, -5.9716e-06,  2.9113e-06,  ...,  1.1502e-07,
+          2.3283e-09,  4.4852e-06],
+        [ 6.7521e-08,  3.5251e-07,  1.6810e-07,  ..., -9.2089e-06,
+          0.0000e+00,  1.9632e-06],
+        [ 1.8626e-08,  3.9823e-06, -7.2345e-06,  ...,  4.2289e-05,
+          9.3132e-10, -1.5348e-05]], device='cuda:0')
+Epoch 220, bias, value: tensor([-0.0065, -0.0082,  0.0127,  0.0113,  0.0330,  0.0414, -0.0189,  0.0054,
+        -0.0365, -0.0213], device='cuda:0'), grad: tensor([ 3.3621e-07,  2.1905e-06,  7.5437e-07, -2.1281e-07, -7.6354e-05,
+         8.5607e-06,  8.5123e-07, -6.0536e-06, -2.1532e-06,  7.1824e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 219, time 216.92, cls_loss 0.0015 cls_loss_mapping 0.0023 cls_loss_causal 0.5224 re_mapping 0.0055 re_causal 0.0169 /// teacc 99.06 lr 0.00010000
+Epoch 221, weight, value: tensor([[-0.0591,  0.1474,  0.0750,  ..., -0.2264, -0.1228,  0.0233],
+        [ 0.1587, -0.0205, -0.0858,  ...,  0.0888,  0.1182, -0.1548],
+        [-0.0967, -0.0590, -0.0481,  ..., -0.0882, -0.0346, -0.0701],
+        ...,
+        [-0.0782,  0.1624, -0.1918,  ..., -0.1591, -0.0052, -0.1732],
+        [ 0.0084, -0.1072,  0.0360,  ...,  0.0678, -0.1128, -0.0459],
+        [-0.1096, -0.1214,  0.0827,  ..., -0.1037, -0.0612,  0.1508]],
+       device='cuda:0'), grad: tensor([[ 8.3819e-09, -7.8231e-08, -8.8476e-08,  ...,  1.0245e-08,
+          9.3132e-10, -2.5565e-07],
+        [-2.9383e-07,  3.3528e-08,  3.7253e-09,  ..., -4.1910e-07,
+         -2.2817e-08,  2.7940e-09],
+        [ 1.3318e-07,  4.8429e-08,  2.3283e-09,  ...,  2.2212e-07,
+         -6.0536e-09,  7.4506e-09],
+        ...,
+        [ 6.7987e-08, -3.6322e-07,  1.0245e-08,  ...,  1.0710e-07,
+          1.3970e-08,  1.2107e-08],
+        [-2.8405e-08,  2.0023e-08,  4.1910e-09,  ..., -4.1910e-08,
+          5.5879e-09,  1.6298e-08],
+        [ 2.5146e-08,  3.0687e-07, -4.0978e-08,  ...,  1.7090e-07,
+          2.3283e-09,  8.6613e-08]], device='cuda:0')
+Epoch 221, bias, value: tensor([-0.0064, -0.0081,  0.0127,  0.0111,  0.0343,  0.0417, -0.0200,  0.0050,
+        -0.0366, -0.0218], device='cuda:0'), grad: tensor([-4.2375e-07, -7.7160e-07,  1.0477e-07,  3.2596e-08,  0.0000e+00,
+         1.5227e-07,  1.8161e-07, -1.5041e-07,  7.8697e-08,  8.1956e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 220, time 216.54, cls_loss 0.0014 cls_loss_mapping 0.0027 cls_loss_causal 0.4930 re_mapping 0.0055 re_causal 0.0160 /// teacc 99.03 lr 0.00010000
+Epoch 222, weight, value: tensor([[-0.0592,  0.1480,  0.0733,  ..., -0.2265, -0.1228,  0.0216],
+        [ 0.1596, -0.0203, -0.0857,  ...,  0.0889,  0.1184, -0.1548],
+        [-0.0971, -0.0593, -0.0481,  ..., -0.0882, -0.0347, -0.0704],
+        ...,
+        [-0.0786,  0.1628, -0.1920,  ..., -0.1598, -0.0058, -0.1736],
+        [ 0.0084, -0.1073,  0.0359,  ...,  0.0678, -0.1129, -0.0460],
+        [-0.1101, -0.1218,  0.0842,  ..., -0.1038, -0.0612,  0.1519]],
+       device='cuda:0'), grad: tensor([[ 9.8720e-08, -8.2422e-08,  4.1910e-09,  ...,  1.2666e-07,
+          0.0000e+00, -1.4901e-08],
+        [-1.0282e-06,  3.5856e-08,  8.3819e-09,  ..., -1.4063e-06,
+          0.0000e+00,  1.1176e-08],
+        [ 2.6729e-07,  2.3283e-08,  1.2573e-08,  ...,  3.6322e-07,
+          4.6566e-10,  1.9092e-08],
+        ...,
+        [ 7.4692e-07, -1.4622e-07,  3.2596e-08,  ...,  1.0179e-06,
+          4.6566e-10,  4.4703e-08],
+        [ 7.0920e-07,  3.3993e-08,  1.0524e-07,  ...,  8.4937e-07,
+          9.3132e-10,  2.3004e-07],
+        [ 7.9628e-08,  5.6345e-08, -2.9942e-07,  ...,  1.0943e-07,
+          0.0000e+00, -4.8755e-07]], device='cuda:0')
+Epoch 222, bias, value: tensor([-0.0073, -0.0079,  0.0126,  0.0108,  0.0341,  0.0421, -0.0204,  0.0051,
+        -0.0367, -0.0211], device='cuda:0'), grad: tensor([ 1.1921e-07, -3.4031e-06,  1.0990e-06, -2.9337e-08,  2.9542e-06,
+         1.5656e-06, -6.7167e-06,  2.4159e-06,  2.4382e-06, -4.2794e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 221, time 217.14, cls_loss 0.0017 cls_loss_mapping 0.0026 cls_loss_causal 0.5020 re_mapping 0.0057 re_causal 0.0165 /// teacc 99.03 lr 0.00010000
+Epoch 223, weight, value: tensor([[-0.0594,  0.1482,  0.0713,  ..., -0.2269, -0.1228,  0.0198],
+        [ 0.1602, -0.0204, -0.0858,  ...,  0.0890,  0.1184, -0.1549],
+        [-0.0973, -0.0594, -0.0481,  ..., -0.0883, -0.0347, -0.0706],
+        ...,
+        [-0.0787,  0.1630, -0.1935,  ..., -0.1600, -0.0063, -0.1739],
+        [ 0.0082, -0.1074,  0.0353,  ...,  0.0676, -0.1130, -0.0465],
+        [-0.1105, -0.1219,  0.0856,  ..., -0.1047, -0.0612,  0.1529]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-09, -2.5425e-07, -2.9244e-07,  ...,  2.7008e-08,
+          0.0000e+00, -5.3644e-07],
+        [-2.1420e-08,  7.4506e-08,  1.3970e-08,  ..., -2.5146e-08,
+         -1.8626e-09,  2.4214e-08],
+        [ 1.8626e-07,  4.5728e-07,  1.2387e-07,  ...,  2.9057e-07,
+          9.3132e-10,  1.3132e-07],
+        ...,
+        [ 2.3283e-08, -8.2608e-07,  5.3085e-08,  ...,  5.6811e-08,
+          9.3132e-10,  9.2201e-08],
+        [-1.7043e-07,  6.2399e-08,  1.4910e-06,  ..., -2.1141e-07,
+          0.0000e+00,  3.4273e-06],
+        [ 7.3574e-08,  3.9488e-07, -1.4240e-06,  ...,  6.2492e-07,
+          0.0000e+00, -3.1367e-06]], device='cuda:0')
+Epoch 223, bias, value: tensor([-0.0088, -0.0079,  0.0125,  0.0109,  0.0351,  0.0422, -0.0203,  0.0046,
+        -0.0370, -0.0205], device='cuda:0'), grad: tensor([-2.6040e-06,  1.4249e-07,  1.6605e-06,  1.0179e-06, -4.1164e-07,
+        -1.1949e-06, -8.3819e-09, -9.9372e-07,  6.6608e-06, -4.2729e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 222, time 217.06, cls_loss 0.0022 cls_loss_mapping 0.0034 cls_loss_causal 0.5202 re_mapping 0.0056 re_causal 0.0163 /// teacc 98.91 lr 0.00010000
+Epoch 224, weight, value: tensor([[-0.0595,  0.1483,  0.0718,  ..., -0.2272, -0.1228,  0.0199],
+        [ 0.1603, -0.0203, -0.0863,  ...,  0.0890,  0.1184, -0.1556],
+        [-0.0977, -0.0599, -0.0480,  ..., -0.0883, -0.0347, -0.0711],
+        ...,
+        [-0.0791,  0.1639, -0.1938,  ..., -0.1605, -0.0064, -0.1743],
+        [ 0.0091, -0.1077,  0.0362,  ...,  0.0685, -0.1132, -0.0462],
+        [-0.1124, -0.1228,  0.0852,  ..., -0.1069, -0.0612,  0.1519]],
+       device='cuda:0'), grad: tensor([[ 1.7695e-08, -8.3819e-09,  1.6578e-07,  ...,  2.4214e-08,
+          2.7940e-09,  6.5193e-09],
+        [-8.4750e-08,  6.2399e-08,  7.8231e-08,  ..., -1.4342e-07,
+         -3.3528e-08,  9.3132e-09],
+        [ 1.0803e-07,  6.0536e-08,  3.5763e-07,  ...,  1.8906e-07,
+          5.5879e-09,  3.7253e-08],
+        ...,
+        [ 4.0047e-08, -5.3458e-07,  4.4424e-07,  ...,  7.2643e-08,
+         -1.3970e-08,  3.1665e-08],
+        [-5.4352e-06,  1.5832e-08, -1.2763e-05,  ..., -1.0870e-05,
+          1.0245e-08, -6.8173e-06],
+        [ 1.8533e-07,  3.6415e-07,  1.5302e-06,  ...,  3.6601e-07,
+          1.9558e-08,  2.4866e-07]], device='cuda:0')
+Epoch 224, bias, value: tensor([-0.0086, -0.0080,  0.0127,  0.0107,  0.0376,  0.0420, -0.0203,  0.0048,
+        -0.0368, -0.0227], device='cuda:0'), grad: tensor([ 3.6787e-07, -5.8673e-08,  5.6811e-07, -1.5125e-06,  1.5832e-07,
+         2.3916e-05, -3.8743e-06,  4.0233e-07, -2.3559e-05,  3.6154e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 223, time 216.75, cls_loss 0.0015 cls_loss_mapping 0.0023 cls_loss_causal 0.4844 re_mapping 0.0060 re_causal 0.0168 /// teacc 98.87 lr 0.00010000
+Epoch 225, weight, value: tensor([[-0.0596,  0.1493,  0.0725,  ..., -0.2275, -0.1228,  0.0206],
+        [ 0.1616, -0.0204, -0.0864,  ...,  0.0891,  0.1186, -0.1557],
+        [-0.0982, -0.0603, -0.0481,  ..., -0.0884, -0.0348, -0.0714],
+        ...,
+        [-0.0789,  0.1686, -0.1908,  ..., -0.1608, -0.0063, -0.1748],
+        [ 0.0091, -0.1078,  0.0362,  ...,  0.0686, -0.1134, -0.0465],
+        [-0.1167, -0.1290,  0.0826,  ..., -0.1074, -0.0613,  0.1521]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-08, -1.2387e-07, -4.0047e-08,  ...,  1.3970e-08,
+          1.3970e-08, -7.4506e-08],
+        [ 3.6322e-08,  8.8476e-08,  3.3528e-08,  ...,  5.5879e-09,
+          5.2154e-08,  4.6566e-08],
+        [ 2.6077e-08,  2.2631e-07,  2.9802e-08,  ...,  1.9558e-08,
+          1.2387e-07,  2.4214e-08],
+        ...,
+        [ 8.3819e-09, -1.8105e-06,  7.8231e-08,  ...,  9.3132e-09,
+         -8.2981e-07,  1.1455e-07],
+        [ 1.4249e-07,  8.1025e-08,  1.5926e-07,  ...,  8.0094e-08,
+          1.0803e-07,  1.7695e-07],
+        [ 3.3528e-08,  7.5437e-08, -1.7602e-07,  ...,  3.2596e-08,
+          2.7008e-08, -2.6450e-07]], device='cuda:0')
+Epoch 225, bias, value: tensor([-0.0080, -0.0079,  0.0126,  0.0106,  0.0375,  0.0421, -0.0204,  0.0089,
+        -0.0370, -0.0266], device='cuda:0'), grad: tensor([-2.7567e-07,  4.3213e-07,  2.2724e-07,  5.4650e-06,  1.9670e-06,
+        -5.6587e-06,  1.7416e-07, -2.9486e-06,  7.4785e-07, -1.5087e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 224, time 217.68, cls_loss 0.0022 cls_loss_mapping 0.0030 cls_loss_causal 0.5144 re_mapping 0.0060 re_causal 0.0165 /// teacc 98.99 lr 0.00010000
+Epoch 226, weight, value: tensor([[-0.0597,  0.1498,  0.0721,  ..., -0.2278, -0.1228,  0.0192],
+        [ 0.1633, -0.0186, -0.0864,  ...,  0.0891,  0.1186, -0.1558],
+        [-0.0984, -0.0599, -0.0481,  ..., -0.0884, -0.0349, -0.0736],
+        ...,
+        [-0.0811,  0.1683, -0.1910,  ..., -0.1621, -0.0060, -0.1767],
+        [ 0.0096, -0.1080,  0.0367,  ...,  0.0696, -0.1142, -0.0464],
+        [-0.1175, -0.1290,  0.0829,  ..., -0.1081, -0.0615,  0.1538]],
+       device='cuda:0'), grad: tensor([[ 3.1665e-08, -1.4529e-07, -1.8906e-07,  ...,  4.1910e-08,
+          6.5193e-09, -1.5646e-07],
+        [-1.1828e-07,  6.7987e-08,  7.4506e-09,  ..., -1.9185e-07,
+         -1.8626e-08,  2.6077e-08],
+        [ 6.4261e-08,  1.5553e-07,  1.0803e-07,  ...,  1.0431e-07,
+          1.2107e-08,  1.0803e-07],
+        ...,
+        [ 1.0058e-07, -2.0955e-07,  1.6764e-08,  ...,  1.4342e-07,
+          6.2399e-08,  2.3097e-07],
+        [ 5.3644e-07,  1.8626e-08,  5.3830e-07,  ...,  7.3109e-07,
+          1.1548e-07,  1.7788e-06],
+        [ 9.2201e-08,  7.6368e-08, -1.5832e-08,  ...,  1.4901e-07,
+          2.8871e-08, -1.3039e-08]], device='cuda:0')
+Epoch 226, bias, value: tensor([-0.0090, -0.0075,  0.0126,  0.0106,  0.0370,  0.0419, -0.0201,  0.0083,
+        -0.0369, -0.0261], device='cuda:0'), grad: tensor([-2.6636e-06, -1.8254e-07,  1.9558e-06,  1.1483e-06,  7.0781e-08,
+        -3.1590e-05,  2.7820e-05,  5.9605e-08,  2.8759e-06,  4.7684e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 225, time 218.10, cls_loss 0.0019 cls_loss_mapping 0.0031 cls_loss_causal 0.4940 re_mapping 0.0056 re_causal 0.0161 /// teacc 98.94 lr 0.00010000
+Epoch 227, weight, value: tensor([[-0.0598,  0.1510,  0.0723,  ..., -0.2282, -0.1228,  0.0195],
+        [ 0.1639, -0.0189, -0.0865,  ...,  0.0892,  0.1187, -0.1568],
+        [-0.0989, -0.0605, -0.0482,  ..., -0.0884, -0.0350, -0.0738],
+        ...,
+        [-0.0826,  0.1684, -0.1911,  ..., -0.1624, -0.0058, -0.1786],
+        [ 0.0108, -0.1070,  0.0359,  ...,  0.0689, -0.1149, -0.0475],
+        [-0.1177, -0.1291,  0.0834,  ..., -0.1082, -0.0610,  0.1550]],
+       device='cuda:0'), grad: tensor([[ 5.8766e-07, -1.5832e-08,  5.4017e-08,  ...,  4.4052e-07,
+          1.8626e-08,  1.0058e-07],
+        [-5.1260e-06,  1.6764e-08,  2.0489e-08,  ..., -4.6566e-06,
+         -2.6450e-07,  7.6368e-08],
+        [ 1.2713e-06,  5.3085e-08,  1.7416e-07,  ...,  1.2089e-06,
+          1.7043e-07,  5.4017e-08],
+        ...,
+        [ 1.1120e-06, -5.0291e-08,  1.9744e-07,  ...,  7.7300e-07,
+          7.0781e-08,  1.5274e-06],
+        [ 9.8813e-07,  4.7497e-08, -4.5076e-07,  ..., -6.6869e-07,
+          2.8871e-08, -2.0489e-08],
+        [-1.4435e-07,  4.0978e-08,  2.9616e-07,  ...,  1.1800e-06,
+          3.1665e-08, -3.4831e-06]], device='cuda:0')
+Epoch 227, bias, value: tensor([-0.0086, -0.0077,  0.0126,  0.0112,  0.0366,  0.0416, -0.0200,  0.0076,
+        -0.0349, -0.0259], device='cuda:0'), grad: tensor([ 1.7267e-06, -1.5303e-05,  4.9621e-06, -3.6377e-06,  4.6417e-06,
+         3.3434e-07,  2.3767e-06,  5.4948e-06,  1.8617e-06, -2.5108e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 226, time 217.40, cls_loss 0.0018 cls_loss_mapping 0.0026 cls_loss_causal 0.4829 re_mapping 0.0056 re_causal 0.0158 /// teacc 98.94 lr 0.00010000
+Epoch 228, weight, value: tensor([[-0.0601,  0.1515,  0.0722,  ..., -0.2285, -0.1228,  0.0194],
+        [ 0.1644, -0.0199, -0.0862,  ...,  0.0894,  0.1189, -0.1562],
+        [-0.0998, -0.0607, -0.0484,  ..., -0.0885, -0.0352, -0.0763],
+        ...,
+        [-0.0824,  0.1687, -0.1912,  ..., -0.1631, -0.0053, -0.1791],
+        [ 0.0109, -0.1073,  0.0362,  ...,  0.0693, -0.1169, -0.0475],
+        [-0.1181, -0.1291,  0.0837,  ..., -0.1082, -0.0613,  0.1560]],
+       device='cuda:0'), grad: tensor([[ 2.0489e-08, -9.8720e-08,  1.4808e-07,  ...,  3.0734e-08,
+          2.1420e-08,  3.9395e-07],
+        [-2.1651e-05,  2.0582e-07,  1.9558e-08,  ..., -3.2306e-05,
+         -2.4185e-05,  3.7253e-08],
+        [ 1.9923e-05, -3.1386e-07, -1.3784e-07,  ...,  2.9758e-05,
+          2.2277e-05,  1.8999e-07],
+        ...,
+        [ 1.0384e-06, -6.7614e-07,  6.0536e-08,  ...,  1.5581e-06,
+          1.1111e-06,  9.4064e-08],
+        [ 1.4715e-07,  1.0710e-07,  8.4564e-07,  ...,  3.4086e-07,
+          9.1270e-08,  1.4752e-06],
+        [ 5.7742e-08,  7.0687e-07, -1.2834e-06,  ...,  9.4995e-08,
+          8.6613e-08, -2.5295e-06]], device='cuda:0')
+Epoch 228, bias, value: tensor([-0.0087, -0.0078,  0.0125,  0.0112,  0.0361,  0.0412, -0.0198,  0.0079,
+        -0.0350, -0.0258], device='cuda:0'), grad: tensor([ 6.1467e-07, -9.4473e-05,  7.0930e-05,  1.4389e-06,  1.0312e-05,
+         5.4669e-07,  2.8275e-06,  5.6662e-06,  5.8040e-06, -3.8035e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 227, time 217.62, cls_loss 0.0017 cls_loss_mapping 0.0030 cls_loss_causal 0.5094 re_mapping 0.0058 re_causal 0.0163 /// teacc 98.94 lr 0.00010000
+Epoch 229, weight, value: tensor([[-0.0599,  0.1530,  0.0729,  ..., -0.2287, -0.1229,  0.0197],
+        [ 0.1647, -0.0201, -0.0863,  ...,  0.0895,  0.1189, -0.1564],
+        [-0.1001, -0.0611, -0.0484,  ..., -0.0886, -0.0353, -0.0764],
+        ...,
+        [-0.0824,  0.1688, -0.1913,  ..., -0.1643, -0.0053, -0.1806],
+        [ 0.0107, -0.1076,  0.0363,  ...,  0.0692, -0.1176, -0.0479],
+        [-0.1183, -0.1291,  0.0836,  ..., -0.1086, -0.0614,  0.1568]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  8.3819e-09,  1.0245e-08,  ...,  6.5193e-09,
+          5.5879e-09,  9.3132e-10],
+        [-2.0768e-07,  6.8247e-05,  9.3132e-10,  ..., -4.0140e-07,
+          5.2243e-05,  0.0000e+00],
+        [ 1.7416e-07,  1.8999e-07,  1.9558e-08,  ...,  3.8277e-07,
+          3.4925e-07,  1.8626e-09],
+        ...,
+        [ 8.3819e-09, -7.4744e-05,  9.3132e-09,  ...,  3.1665e-08,
+         -5.7399e-05,  2.7940e-09],
+        [ 1.1176e-08,  5.4985e-06,  7.4506e-09,  ...,  1.8626e-08,
+          4.2245e-06,  5.5879e-09],
+        [ 4.6566e-09,  1.9185e-07, -4.6566e-09,  ...,  5.3085e-08,
+          1.3132e-07, -1.9558e-08]], device='cuda:0')
+Epoch 229, bias, value: tensor([-0.0079, -0.0077,  0.0125,  0.0108,  0.0356,  0.0427, -0.0207,  0.0079,
+        -0.0353, -0.0256], device='cuda:0'), grad: tensor([ 3.7812e-07,  3.7384e-04, -8.3148e-06,  2.3358e-06,  1.8254e-07,
+         9.9745e-07,  1.0896e-06, -4.0436e-04,  3.1590e-05,  1.6131e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 228, time 217.74, cls_loss 0.0013 cls_loss_mapping 0.0020 cls_loss_causal 0.5074 re_mapping 0.0057 re_causal 0.0163 /// teacc 99.01 lr 0.00010000
+Epoch 230, weight, value: tensor([[-0.0601,  0.1533,  0.0731,  ..., -0.2288, -0.1229,  0.0199],
+        [ 0.1652, -0.0205, -0.0864,  ...,  0.0896,  0.1189, -0.1566],
+        [-0.1004, -0.0609, -0.0485,  ..., -0.0887, -0.0353, -0.0772],
+        ...,
+        [-0.0827,  0.1692, -0.1913,  ..., -0.1636, -0.0047, -0.1814],
+        [ 0.0109, -0.1091,  0.0364,  ...,  0.0690, -0.1188, -0.0477],
+        [-0.1190, -0.1291,  0.0841,  ..., -0.1089, -0.0614,  0.1574]],
+       device='cuda:0'), grad: tensor([[ 1.4529e-07, -1.5339e-06, -3.9712e-06,  ...,  1.4901e-07,
+         -3.4180e-06, -5.3197e-06],
+        [-2.4214e-06, -2.6077e-08,  9.4995e-08,  ..., -2.4997e-06,
+         -2.3562e-07,  8.1956e-08],
+        [ 1.0887e-06,  2.9057e-07,  3.7178e-06,  ...,  1.1204e-06,
+          4.3958e-07,  2.4904e-06],
+        ...,
+        [ 3.5018e-07, -4.5821e-07,  2.0582e-07,  ...,  3.6880e-07,
+          7.6368e-08,  1.5926e-07],
+        [ 5.4669e-07,  1.1176e-07,  2.2091e-06,  ...,  5.6904e-07,
+          1.3132e-07,  1.4277e-06],
+        [ 1.3225e-07,  5.0850e-07, -9.3803e-06,  ...,  2.2724e-07,
+          2.5146e-07, -5.4054e-06]], device='cuda:0')
+Epoch 230, bias, value: tensor([-0.0078, -0.0078,  0.0125,  0.0107,  0.0350,  0.0427, -0.0208,  0.0082,
+        -0.0358, -0.0255], device='cuda:0'), grad: tensor([-2.2903e-05, -6.9961e-06,  1.1533e-05,  1.0030e-06,  3.4496e-06,
+         1.8671e-05,  8.9593e-07,  7.5530e-07,  5.8673e-06, -1.2323e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 229, time 216.99, cls_loss 0.0013 cls_loss_mapping 0.0025 cls_loss_causal 0.4928 re_mapping 0.0053 re_causal 0.0158 /// teacc 99.11 lr 0.00010000
+Epoch 231, weight, value: tensor([[-0.0604,  0.1536,  0.0737,  ..., -0.2292, -0.1228,  0.0202],
+        [ 0.1655, -0.0204, -0.0866,  ...,  0.0896,  0.1190, -0.1571],
+        [-0.1009, -0.0612, -0.0486,  ..., -0.0888, -0.0354, -0.0775],
+        ...,
+        [-0.0830,  0.1693, -0.1914,  ..., -0.1642, -0.0045, -0.1816],
+        [ 0.0114, -0.1092,  0.0369,  ...,  0.0697, -0.1201, -0.0476],
+        [-0.1190, -0.1292,  0.0848,  ..., -0.1086, -0.0615,  0.1580]],
+       device='cuda:0'), grad: tensor([[ 7.1712e-08,  1.2051e-06, -3.1758e-07,  ..., -7.2364e-07,
+          4.2841e-07, -1.3057e-06],
+        [-7.1377e-06, -5.2974e-06,  1.3970e-08,  ..., -5.1335e-06,
+          2.5146e-08,  9.3132e-09],
+        [ 4.0140e-07,  5.6252e-07,  9.0338e-08,  ...,  3.1944e-07,
+          1.4156e-07,  1.0245e-08],
+        ...,
+        [ 6.2585e-06, -6.7428e-07,  3.2037e-07,  ...,  4.1947e-06,
+         -1.7844e-06,  8.1025e-08],
+        [ 1.5646e-07,  4.2468e-07,  1.2480e-07,  ...,  3.1572e-07,
+          1.2852e-07,  1.6671e-07],
+        [ 6.4727e-07,  2.6971e-06,  2.7940e-08,  ...,  8.0466e-07,
+          7.4040e-07,  8.8476e-08]], device='cuda:0')
+Epoch 231, bias, value: tensor([-0.0075, -0.0078,  0.0124,  0.0110,  0.0340,  0.0424, -0.0207,  0.0081,
+        -0.0358, -0.0251], device='cuda:0'), grad: tensor([-7.7300e-07, -3.8117e-05,  3.0696e-06, -2.9877e-06,  6.8638e-07,
+         1.4370e-06,  2.0042e-06,  2.4036e-05,  2.1011e-06,  8.5756e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 230, time 216.99, cls_loss 0.0018 cls_loss_mapping 0.0031 cls_loss_causal 0.4933 re_mapping 0.0056 re_causal 0.0155 /// teacc 99.10 lr 0.00010000
+Epoch 232, weight, value: tensor([[-0.0609,  0.1548,  0.0742,  ..., -0.2297, -0.1228,  0.0207],
+        [ 0.1665, -0.0212, -0.0869,  ...,  0.0899,  0.1194, -0.1582],
+        [-0.1017, -0.0613, -0.0486,  ..., -0.0889, -0.0356, -0.0777],
+        ...,
+        [-0.0832,  0.1696, -0.1914,  ..., -0.1657, -0.0053, -0.1818],
+        [ 0.0113, -0.1096,  0.0368,  ...,  0.0697, -0.1215, -0.0479],
+        [-0.1195, -0.1292,  0.0851,  ..., -0.1087, -0.0619,  0.1585]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-09, -6.4261e-08, -1.0617e-07,  ..., -3.1665e-08,
+         -2.7940e-08, -2.0396e-07],
+        [-1.7509e-07, -3.0734e-08, -6.5193e-09,  ..., -3.7160e-07,
+         -4.5635e-08,  2.7940e-09],
+        [ 1.6764e-08,  1.4901e-08,  1.3039e-08,  ..., -6.2399e-08,
+          1.2107e-08,  1.9558e-08],
+        ...,
+        [ 8.1025e-08, -9.3132e-10,  2.7940e-08,  ...,  1.7881e-07,
+          2.5146e-08,  1.8626e-08],
+        [ 6.2399e-08,  3.7253e-08,  8.4750e-08,  ...,  2.4308e-07,
+          2.1420e-08,  1.3784e-07],
+        [ 9.3132e-09,  2.5146e-08, -1.0338e-07,  ...,  2.8871e-08,
+          7.4506e-09, -1.7136e-07]], device='cuda:0')
+Epoch 232, bias, value: tensor([-0.0070, -0.0078,  0.0123,  0.0111,  0.0337,  0.0423, -0.0210,  0.0084,
+        -0.0361, -0.0250], device='cuda:0'), grad: tensor([-5.2899e-07, -6.1933e-07, -6.8825e-07, -1.3225e-07,  2.4121e-07,
+         8.7544e-08,  4.0978e-08,  4.5169e-07,  1.2917e-06, -1.2480e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 231, time 217.25, cls_loss 0.0016 cls_loss_mapping 0.0024 cls_loss_causal 0.5177 re_mapping 0.0054 re_causal 0.0159 /// teacc 99.02 lr 0.00010000
+Epoch 233, weight, value: tensor([[-0.0613,  0.1559,  0.0746,  ..., -0.2300, -0.1229,  0.0210],
+        [ 0.1667, -0.0226, -0.0870,  ...,  0.0900,  0.1196, -0.1583],
+        [-0.1020, -0.0615, -0.0487,  ..., -0.0891, -0.0358, -0.0781],
+        ...,
+        [-0.0833,  0.1700, -0.1916,  ..., -0.1658, -0.0053, -0.1826],
+        [ 0.0118, -0.1097,  0.0372,  ...,  0.0704, -0.1221, -0.0479],
+        [-0.1199, -0.1292,  0.0854,  ..., -0.1092, -0.0621,  0.1587]],
+       device='cuda:0'), grad: tensor([[ 5.4948e-08, -7.2550e-07, -2.1048e-07,  ...,  1.4622e-07,
+          9.3132e-10, -3.2410e-07],
+        [ 6.2287e-06,  3.7160e-07,  3.2783e-06,  ...,  1.0237e-05,
+         -2.0489e-08,  3.6098e-06],
+        [ 1.1642e-07,  1.2107e-07,  1.7788e-07,  ...,  3.3621e-07,
+          2.0582e-07,  7.1712e-08],
+        ...,
+        [-1.5832e-08, -3.5856e-07,  2.6077e-08,  ...,  3.9674e-07,
+          2.0489e-08,  1.9558e-08],
+        [-8.1658e-06,  1.5087e-07, -4.1835e-06,  ..., -1.3486e-05,
+          1.8626e-08, -4.6119e-06],
+        [ 1.7881e-07,  1.9744e-07,  1.3597e-07,  ...,  1.3644e-06,
+          5.5879e-09,  1.6112e-07]], device='cuda:0')
+Epoch 233, bias, value: tensor([-0.0068, -0.0076,  0.0120,  0.0120,  0.0336,  0.0413, -0.0211,  0.0086,
+        -0.0360, -0.0250], device='cuda:0'), grad: tensor([-1.7602e-06,  1.8716e-05,  2.5742e-06, -1.2228e-06, -4.3437e-06,
+         2.0899e-06,  1.9670e-06,  7.9814e-07, -2.3156e-05,  4.3213e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 232, time 216.79, cls_loss 0.0014 cls_loss_mapping 0.0023 cls_loss_causal 0.4906 re_mapping 0.0054 re_causal 0.0156 /// teacc 98.94 lr 0.00010000
+Epoch 234, weight, value: tensor([[-0.0614,  0.1566,  0.0749,  ..., -0.2302, -0.1229,  0.0211],
+        [ 0.1669, -0.0231, -0.0870,  ...,  0.0901,  0.1197, -0.1584],
+        [-0.1024, -0.0616, -0.0487,  ..., -0.0892, -0.0358, -0.0783],
+        ...,
+        [-0.0834,  0.1704, -0.1918,  ..., -0.1661, -0.0051, -0.1853],
+        [ 0.0117, -0.1104,  0.0374,  ...,  0.0706, -0.1226, -0.0480],
+        [-0.1202, -0.1294,  0.0855,  ..., -0.1096, -0.0622,  0.1595]],
+       device='cuda:0'), grad: tensor([[ 1.3039e-08,  7.4506e-09,  0.0000e+00,  ...,  3.9116e-08,
+          6.5193e-09, -4.6566e-09],
+        [-2.7105e-05,  2.4214e-08,  9.3132e-10,  ..., -1.4082e-05,
+         -4.2945e-05,  7.4506e-09],
+        [ 2.4542e-05,  3.4459e-08,  9.3132e-10,  ...,  1.4089e-05,
+          3.8922e-05,  9.3132e-10],
+        ...,
+        [ 2.2389e-06, -2.2892e-06,  1.7695e-08,  ...,  1.8952e-06,
+          3.5372e-06,  1.7323e-07],
+        [ 2.7940e-08,  2.8871e-08,  7.4506e-09,  ...,  3.9823e-06,
+          1.9558e-08,  2.8871e-08],
+        [ 1.6298e-07,  2.1867e-06, -2.3283e-08,  ...,  1.0319e-05,
+          2.3749e-07, -2.4959e-07]], device='cuda:0')
+Epoch 234, bias, value: tensor([-0.0067, -0.0077,  0.0119,  0.0134,  0.0334,  0.0401, -0.0212,  0.0087,
+        -0.0362, -0.0249], device='cuda:0'), grad: tensor([ 1.0245e-07, -9.7692e-05,  9.0778e-05,  1.5181e-07, -3.3855e-05,
+        -3.1665e-08,  8.9332e-06,  6.0797e-06,  6.2250e-06,  1.9163e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 233, time 216.78, cls_loss 0.0016 cls_loss_mapping 0.0036 cls_loss_causal 0.5011 re_mapping 0.0060 re_causal 0.0166 /// teacc 99.01 lr 0.00010000
+Epoch 235, weight, value: tensor([[-0.0624,  0.1587,  0.0760,  ..., -0.2308, -0.1231,  0.0225],
+        [ 0.1686, -0.0221, -0.0871,  ...,  0.0907,  0.1199, -0.1581],
+        [-0.1028, -0.0606, -0.0486,  ..., -0.0892, -0.0360, -0.0786],
+        ...,
+        [-0.0837,  0.1700, -0.1918,  ..., -0.1683, -0.0064, -0.1862],
+        [ 0.0116, -0.1107,  0.0373,  ...,  0.0703, -0.1228, -0.0481],
+        [-0.1208, -0.1294,  0.0854,  ..., -0.1105, -0.0623,  0.1595]],
+       device='cuda:0'), grad: tensor([[ 3.0734e-08,  1.9558e-08,  4.6566e-09,  ...,  4.4703e-08,
+          9.3132e-10,  3.7253e-09],
+        [-3.2131e-07, -2.0303e-07,  1.0245e-08,  ..., -5.6531e-07,
+         -7.8231e-08,  5.5879e-09],
+        [ 8.5682e-08,  6.5193e-08,  1.6764e-08,  ...,  4.2748e-07,
+          1.8626e-09,  2.7940e-09],
+        ...,
+        [ 1.8626e-07,  7.3574e-08,  5.4948e-08,  ...,  3.7346e-07,
+          4.6566e-08,  9.4064e-08],
+        [ 1.3448e-06,  6.2399e-08,  2.6785e-06,  ...,  5.7928e-07,
+          1.4901e-08,  1.4417e-06],
+        [ 1.0058e-07,  3.4459e-08,  5.3085e-08,  ...,  1.2852e-07,
+          9.3132e-09, -3.3062e-07]], device='cuda:0')
+Epoch 235, bias, value: tensor([-0.0058, -0.0070,  0.0124,  0.0109,  0.0335,  0.0418, -0.0229,  0.0079,
+        -0.0364, -0.0249], device='cuda:0'), grad: tensor([ 4.4424e-07, -1.0617e-06, -3.5483e-07, -8.2478e-06,  1.5832e-08,
+         1.9111e-06, -4.3586e-07,  1.0589e-06,  6.4895e-06,  1.7695e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 234----------------------------------------------------
+epoch 234, time 217.92, cls_loss 0.0014 cls_loss_mapping 0.0021 cls_loss_causal 0.5009 re_mapping 0.0057 re_causal 0.0163 /// teacc 99.12 lr 0.00010000
+Epoch 236, weight, value: tensor([[-0.0626,  0.1589,  0.0775,  ..., -0.2311, -0.1231,  0.0236],
+        [ 0.1688, -0.0226, -0.0872,  ...,  0.0908,  0.1199, -0.1585],
+        [-0.1030, -0.0606, -0.0487,  ..., -0.0893, -0.0360, -0.0789],
+        ...,
+        [-0.0838,  0.1702, -0.1919,  ..., -0.1689, -0.0058, -0.1874],
+        [ 0.0128, -0.1109,  0.0372,  ...,  0.0724, -0.1220, -0.0490],
+        [-0.1213, -0.1294,  0.0852,  ..., -0.1107, -0.0624,  0.1595]],
+       device='cuda:0'), grad: tensor([[ 6.3330e-08,  2.3283e-08,  1.3607e-06,  ...,  6.4261e-08,
+          9.3132e-10,  1.9558e-08],
+        [ 1.2107e-08,  6.5193e-09,  3.3528e-08,  ...,  1.4901e-08,
+          1.8626e-09,  3.7253e-09],
+        [ 1.3411e-07,  2.1420e-08, -1.8729e-06,  ...,  1.4715e-07,
+          8.3819e-09,  2.7008e-08],
+        ...,
+        [ 2.2352e-08, -1.2107e-08,  8.2888e-08,  ...,  2.0489e-08,
+          3.7253e-09,  2.3283e-08],
+        [-2.8778e-07, -3.6322e-08,  2.0675e-07,  ..., -3.3993e-07,
+          6.8918e-08, -3.5390e-08],
+        [ 1.4901e-08,  1.4901e-08,  2.7008e-08,  ...,  2.4214e-08,
+          1.8626e-09, -4.8429e-08]], device='cuda:0')
+Epoch 236, bias, value: tensor([-0.0050, -0.0070,  0.0124,  0.0106,  0.0333,  0.0418, -0.0229,  0.0079,
+        -0.0358, -0.0250], device='cuda:0'), grad: tensor([ 1.4380e-05,  1.9372e-07, -2.1130e-05, -9.9242e-06,  4.9360e-08,
+         1.2182e-05, -7.5437e-07,  3.9581e-07,  4.2729e-06,  2.8964e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 235, time 216.99, cls_loss 0.0014 cls_loss_mapping 0.0025 cls_loss_causal 0.4868 re_mapping 0.0056 re_causal 0.0156 /// teacc 99.05 lr 0.00010000
+Epoch 237, weight, value: tensor([[-0.0630,  0.1592,  0.0779,  ..., -0.2314, -0.1232,  0.0238],
+        [ 0.1694, -0.0224, -0.0872,  ...,  0.0910,  0.1201, -0.1586],
+        [-0.1033, -0.0607, -0.0487,  ..., -0.0894, -0.0361, -0.0790],
+        ...,
+        [-0.0840,  0.1703, -0.1919,  ..., -0.1693, -0.0063, -0.1880],
+        [ 0.0124, -0.1113,  0.0370,  ...,  0.0718, -0.1231, -0.0493],
+        [-0.1215, -0.1294,  0.0852,  ..., -0.1111, -0.0626,  0.1597]],
+       device='cuda:0'), grad: tensor([[ 1.1176e-08,  3.0603e-06,  1.8626e-09,  ...,  9.3132e-09,
+          0.0000e+00, -3.2783e-07],
+        [ 7.4506e-09,  1.4558e-05,  1.8626e-09,  ...,  1.4901e-08,
+          0.0000e+00,  1.0245e-08],
+        [ 2.7008e-08,  4.9546e-07,  1.7695e-08,  ...,  7.0781e-08,
+         -1.8626e-09,  2.4214e-08],
+        ...,
+        [ 3.7253e-09, -2.3916e-05,  1.3039e-08,  ...,  1.7695e-08,
+          9.3132e-10,  7.9162e-08],
+        [-1.3039e-08,  4.6939e-07, -1.9558e-08,  ..., -1.2852e-07,
+          0.0000e+00,  6.4261e-08],
+        [ 6.5193e-09,  3.0212e-06, -8.9407e-08,  ...,  2.0396e-07,
+          0.0000e+00, -1.8906e-07]], device='cuda:0')
+Epoch 237, bias, value: tensor([-0.0049, -0.0068,  0.0123,  0.0078,  0.0332,  0.0446, -0.0222,  0.0078,
+        -0.0363, -0.0251], device='cuda:0'), grad: tensor([ 5.5060e-06,  2.6748e-05,  1.0496e-06,  4.7591e-07,  2.2296e-06,
+         1.3039e-06,  1.8254e-07, -4.3690e-05,  6.1374e-07,  5.6289e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 236, time 216.96, cls_loss 0.0018 cls_loss_mapping 0.0022 cls_loss_causal 0.5370 re_mapping 0.0053 re_causal 0.0160 /// teacc 99.10 lr 0.00010000
+Epoch 238, weight, value: tensor([[-0.0636,  0.1589,  0.0777,  ..., -0.2321, -0.1232,  0.0237],
+        [ 0.1702, -0.0216, -0.0871,  ...,  0.0911,  0.1202, -0.1585],
+        [-0.1039, -0.0619, -0.0487,  ..., -0.0894, -0.0361, -0.0789],
+        ...,
+        [-0.0842,  0.1704, -0.1922,  ..., -0.1698, -0.0063, -0.1889],
+        [ 0.0116, -0.1124,  0.0360,  ...,  0.0711, -0.1235, -0.0499],
+        [-0.1222, -0.1294,  0.0854,  ..., -0.1140, -0.0629,  0.1597]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  8.5682e-08, -7.4506e-09,  ...,  7.4506e-09,
+          0.0000e+00, -1.8999e-07],
+        [ 7.4506e-09,  4.2561e-07,  1.8626e-09,  ...,  8.3819e-09,
+          0.0000e+00,  2.0489e-08],
+        [ 2.3283e-08,  6.1691e-06,  5.5879e-09,  ...,  5.7742e-08,
+          0.0000e+00,  2.7940e-08],
+        ...,
+        [ 6.2399e-08, -7.3537e-06,  1.1362e-07,  ...,  1.5367e-07,
+          0.0000e+00,  8.8196e-07],
+        [-1.3225e-07,  9.4064e-08,  3.7253e-09,  ..., -3.1851e-07,
+          0.0000e+00,  2.5146e-08],
+        [ 8.3819e-09, -2.3283e-06, -1.0859e-06,  ...,  4.8429e-08,
+          0.0000e+00, -8.5086e-06]], device='cuda:0')
+Epoch 238, bias, value: tensor([-0.0051, -0.0066,  0.0121,  0.0079,  0.0356,  0.0448, -0.0215,  0.0077,
+        -0.0374, -0.0261], device='cuda:0'), grad: tensor([-1.9744e-07,  7.7300e-07,  9.5963e-06,  1.8440e-07,  1.7568e-05,
+         4.2841e-07,  2.9895e-07, -9.3803e-06, -4.4703e-07, -1.8805e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 237, time 216.70, cls_loss 0.0016 cls_loss_mapping 0.0026 cls_loss_causal 0.5184 re_mapping 0.0056 re_causal 0.0160 /// teacc 99.12 lr 0.00010000
+Epoch 239, weight, value: tensor([[-0.0643,  0.1589,  0.0776,  ..., -0.2333, -0.1232,  0.0236],
+        [ 0.1708, -0.0209, -0.0872,  ...,  0.0913,  0.1201, -0.1587],
+        [-0.1042, -0.0627, -0.0487,  ..., -0.0895, -0.0361, -0.0796],
+        ...,
+        [-0.0848,  0.1705, -0.1923,  ..., -0.1715, -0.0059, -0.1902],
+        [ 0.0117, -0.1128,  0.0356,  ...,  0.0712, -0.1237, -0.0509],
+        [-0.1227, -0.1294,  0.0857,  ..., -0.1140, -0.0630,  0.1607]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-09, -2.5146e-08,  9.3132e-10,  ...,  1.5832e-08,
+          0.0000e+00, -1.0245e-08],
+        [-5.2154e-08,  2.1420e-08,  7.4506e-09,  ..., -1.7323e-07,
+          0.0000e+00,  1.3970e-08],
+        [ 4.2841e-08,  7.4506e-09,  4.6566e-09,  ...,  1.3877e-07,
+         -1.8626e-09,  5.5879e-09],
+        ...,
+        [ 7.4506e-09, -5.4017e-08,  2.7940e-09,  ...,  2.0489e-08,
+          0.0000e+00,  1.1176e-08],
+        [ 2.4214e-08,  1.3039e-08,  2.1420e-08,  ...,  3.6322e-08,
+          0.0000e+00,  6.1467e-08],
+        [ 8.3819e-09,  2.2352e-08,  3.7253e-09,  ...,  2.5146e-08,
+          0.0000e+00, -5.9605e-08]], device='cuda:0')
+Epoch 239, bias, value: tensor([-0.0054, -0.0065,  0.0120,  0.0080,  0.0354,  0.0450, -0.0224,  0.0077,
+        -0.0377, -0.0259], device='cuda:0'), grad: tensor([-2.6077e-08, -2.4214e-07,  1.9744e-07,  6.7521e-07,  9.4064e-08,
+        -7.4599e-07, -3.5390e-08, -2.6077e-08,  1.4715e-07, -3.9116e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 238, time 216.69, cls_loss 0.0015 cls_loss_mapping 0.0023 cls_loss_causal 0.5046 re_mapping 0.0055 re_causal 0.0156 /// teacc 99.02 lr 0.00010000
+Epoch 240, weight, value: tensor([[-0.0647,  0.1596,  0.0778,  ..., -0.2336, -0.1233,  0.0238],
+        [ 0.1718, -0.0219, -0.0870,  ...,  0.0916,  0.1203, -0.1580],
+        [-0.1047, -0.0601, -0.0489,  ..., -0.0896, -0.0362, -0.0808],
+        ...,
+        [-0.0847,  0.1703, -0.1923,  ..., -0.1716, -0.0060, -0.1912],
+        [ 0.0124, -0.1130,  0.0353,  ...,  0.0720, -0.1231, -0.0512],
+        [-0.1233, -0.1297,  0.0859,  ..., -0.1143, -0.0630,  0.1613]],
+       device='cuda:0'), grad: tensor([[ 2.5239e-07,  1.4901e-08,  3.0827e-07,  ...,  4.0513e-07,
+          0.0000e+00,  3.7253e-09],
+        [ 8.9034e-07,  1.2107e-07,  1.3039e-07,  ...,  5.4482e-07,
+         -9.3132e-10,  1.8626e-09],
+        [ 2.2799e-06,  5.9977e-07,  2.5295e-06,  ...,  4.1015e-06,
+          7.4506e-09,  2.7940e-09],
+        ...,
+        [ 4.0978e-08, -8.7358e-07,  2.2072e-07,  ...,  1.0896e-07,
+          0.0000e+00,  6.4261e-08],
+        [-3.2093e-06, -1.3039e-08, -3.7812e-06,  ..., -1.0379e-05,
+         -9.3132e-09,  1.5367e-07],
+        [ 1.0896e-07,  3.6322e-08,  7.2177e-07,  ...,  8.2050e-07,
+          0.0000e+00, -2.4214e-08]], device='cuda:0')
+Epoch 240, bias, value: tensor([-0.0053, -0.0064,  0.0126,  0.0087,  0.0354,  0.0441, -0.0228,  0.0074,
+        -0.0375, -0.0260], device='cuda:0'), grad: tensor([ 1.9073e-06,  2.8536e-06,  2.1964e-05, -9.5546e-05,  8.3260e-07,
+         1.0413e-04, -5.9698e-07, -2.2538e-07, -3.9160e-05,  3.8128e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 239, time 217.40, cls_loss 0.0011 cls_loss_mapping 0.0017 cls_loss_causal 0.4959 re_mapping 0.0057 re_causal 0.0162 /// teacc 99.02 lr 0.00010000
+Epoch 241, weight, value: tensor([[-0.0651,  0.1597,  0.0778,  ..., -0.2341, -0.1233,  0.0238],
+        [ 0.1719, -0.0220, -0.0871,  ...,  0.0917,  0.1203, -0.1582],
+        [-0.1049, -0.0602, -0.0490,  ..., -0.0896, -0.0363, -0.0807],
+        ...,
+        [-0.0847,  0.1704, -0.1925,  ..., -0.1717, -0.0059, -0.1920],
+        [ 0.0129, -0.1134,  0.0349,  ...,  0.0724, -0.1234, -0.0514],
+        [-0.1235, -0.1297,  0.0862,  ..., -0.1143, -0.0631,  0.1618]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09, -2.5425e-07, -1.3784e-07,  ...,  6.5193e-09,
+          1.3970e-08, -3.1479e-07],
+        [ 1.0245e-08,  1.6764e-08,  1.9558e-07,  ...,  2.8592e-07,
+          4.5635e-08,  1.6298e-07],
+        [ 9.3132e-09, -4.0047e-08,  8.6892e-07,  ...,  2.7008e-08,
+          4.5411e-06,  1.7695e-08],
+        ...,
+        [ 4.6566e-09,  4.2841e-08,  2.6915e-07,  ...,  1.7695e-08,
+          1.3364e-06,  2.2352e-08],
+        [-2.5332e-07,  4.8429e-08, -1.5125e-06,  ..., -2.8834e-06,
+          5.4017e-08, -1.2238e-06],
+        [ 1.7975e-07,  8.1956e-08,  1.0198e-06,  ...,  1.9260e-06,
+          2.6077e-08,  7.3481e-07]], device='cuda:0')
+Epoch 241, bias, value: tensor([-0.0053, -0.0064,  0.0126,  0.0087,  0.0353,  0.0441, -0.0230,  0.0073,
+        -0.0376, -0.0258], device='cuda:0'), grad: tensor([-7.7579e-07,  7.7393e-07,  3.1441e-05, -4.3392e-05,  8.2795e-07,
+         1.6317e-06,  3.4273e-07,  9.7007e-06, -3.5129e-06,  2.9802e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 240, time 217.24, cls_loss 0.0013 cls_loss_mapping 0.0021 cls_loss_causal 0.4897 re_mapping 0.0053 re_causal 0.0151 /// teacc 98.99 lr 0.00010000
+Epoch 242, weight, value: tensor([[-0.0657,  0.1594,  0.0776,  ..., -0.2349, -0.1233,  0.0236],
+        [ 0.1723, -0.0221, -0.0871,  ...,  0.0918,  0.1203, -0.1582],
+        [-0.1053, -0.0605, -0.0491,  ..., -0.0897, -0.0363, -0.0813],
+        ...,
+        [-0.0849,  0.1707, -0.1929,  ..., -0.1723, -0.0059, -0.1926],
+        [ 0.0131, -0.1134,  0.0345,  ...,  0.0726, -0.1241, -0.0516],
+        [-0.1239, -0.1299,  0.0868,  ..., -0.1144, -0.0631,  0.1622]],
+       device='cuda:0'), grad: tensor([[ 2.5518e-07,  7.3574e-08,  3.6508e-07,  ...,  4.4424e-07,
+          0.0000e+00,  7.5903e-07],
+        [ 3.8296e-06,  1.1930e-06,  1.0803e-07,  ...,  4.9248e-06,
+         -2.7940e-09,  1.2042e-06],
+        [ 7.4506e-08,  2.7940e-08,  1.2852e-07,  ...,  1.6764e-07,
+          9.3132e-10,  2.3842e-07],
+        ...,
+        [ 4.1910e-08, -4.3772e-08,  3.5856e-07,  ...,  2.1048e-07,
+          9.3132e-10,  6.3609e-07],
+        [ 4.0308e-06,  3.6880e-07,  6.0678e-05,  ...,  2.1815e-05,
+          0.0000e+00,  1.1122e-04],
+        [ 7.4506e-07,  1.4901e-08, -5.8800e-05,  ..., -2.2098e-05,
+          9.3132e-10, -1.2612e-04]], device='cuda:0')
+Epoch 242, bias, value: tensor([-0.0056, -0.0064,  0.0125,  0.0088,  0.0352,  0.0440, -0.0227,  0.0073,
+        -0.0378, -0.0256], device='cuda:0'), grad: tensor([ 1.7304e-06,  7.8306e-06,  3.2410e-07, -5.0783e-05,  1.5432e-06,
+         6.8903e-05, -3.3736e-05,  1.2880e-06,  1.9443e-04, -1.9145e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 241, time 217.09, cls_loss 0.0013 cls_loss_mapping 0.0025 cls_loss_causal 0.5291 re_mapping 0.0056 re_causal 0.0165 /// teacc 99.10 lr 0.00010000
+Epoch 243, weight, value: tensor([[-0.0661,  0.1593,  0.0775,  ..., -0.2354, -0.1233,  0.0235],
+        [ 0.1727, -0.0222, -0.0872,  ...,  0.0918,  0.1204, -0.1583],
+        [-0.1056, -0.0606, -0.0490,  ..., -0.0897, -0.0363, -0.0805],
+        ...,
+        [-0.0850,  0.1708, -0.1935,  ..., -0.1727, -0.0059, -0.1934],
+        [ 0.0138, -0.1132,  0.0336,  ...,  0.0735, -0.1245, -0.0519],
+        [-0.1245, -0.1299,  0.0882,  ..., -0.1141, -0.0632,  0.1641]],
+       device='cuda:0'), grad: tensor([[ 5.6811e-08, -3.8045e-07, -1.8161e-08,  ...,  4.3772e-08,
+          0.0000e+00, -2.3982e-07],
+        [-2.0396e-07,  4.0513e-08, -1.8161e-08,  ..., -2.4680e-07,
+          0.0000e+00, -1.7229e-08],
+        [ 6.3796e-08, -1.9744e-07,  2.3283e-08,  ...,  7.1246e-08,
+         -4.6566e-10,  2.6077e-08],
+        ...,
+        [ 2.4680e-08,  2.1188e-07,  3.1199e-08,  ...,  7.8697e-08,
+          0.0000e+00,  4.3306e-08],
+        [ 1.4482e-07,  2.3516e-07,  3.3528e-08,  ...,  1.8580e-07,
+          0.0000e+00,  1.6252e-07],
+        [ 2.8871e-08,  1.2433e-07, -7.5763e-07,  ...,  1.2154e-07,
+          0.0000e+00, -1.2517e-06]], device='cuda:0')
+Epoch 243, bias, value: tensor([-0.0058, -0.0064,  0.0125,  0.0088,  0.0340,  0.0439, -0.0229,  0.0072,
+        -0.0378, -0.0250], device='cuda:0'), grad: tensor([-7.0827e-07, -3.8417e-07, -4.4964e-06, -2.2491e-07,  2.7008e-06,
+         3.0966e-07, -3.9069e-07,  4.3176e-06,  1.4119e-06, -2.5369e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 242, time 217.17, cls_loss 0.0011 cls_loss_mapping 0.0019 cls_loss_causal 0.5190 re_mapping 0.0057 re_causal 0.0163 /// teacc 98.96 lr 0.00010000
+Epoch 244, weight, value: tensor([[-0.0669,  0.1590,  0.0774,  ..., -0.2364, -0.1234,  0.0234],
+        [ 0.1736, -0.0220, -0.0872,  ...,  0.0918,  0.1209, -0.1584],
+        [-0.1061, -0.0610, -0.0491,  ..., -0.0898, -0.0365, -0.0807],
+        ...,
+        [-0.0858,  0.1710, -0.1939,  ..., -0.1729, -0.0081, -0.1947],
+        [ 0.0139, -0.1134,  0.0335,  ...,  0.0737, -0.1246, -0.0518],
+        [-0.1248, -0.1299,  0.0887,  ..., -0.1139, -0.0633,  0.1650]],
+       device='cuda:0'), grad: tensor([[ 1.3784e-06,  2.1234e-06, -1.3597e-07,  ...,  2.6841e-06,
+          4.6566e-10,  1.5190e-06],
+        [-1.9558e-08,  2.3283e-08,  7.9162e-09,  ..., -1.3504e-08,
+         -4.1910e-09,  2.4214e-08],
+        [ 5.7276e-08,  7.5903e-08,  8.3819e-09,  ...,  9.9652e-08,
+         -4.1910e-09,  6.0536e-08],
+        ...,
+        [ 1.5832e-08,  9.3132e-10,  1.2247e-07,  ...,  1.7229e-08,
+          5.1223e-09,  1.6298e-07],
+        [ 1.2340e-07,  1.9837e-07,  1.4715e-07,  ...,  1.9092e-07,
+          1.8626e-09,  3.5390e-07],
+        [ 5.4482e-08,  7.2643e-08, -9.7323e-08,  ...,  1.5227e-07,
+          1.8626e-09, -7.8697e-08]], device='cuda:0')
+Epoch 244, bias, value: tensor([-0.0061, -0.0059,  0.0124,  0.0090,  0.0333,  0.0439, -0.0227,  0.0066,
+        -0.0379, -0.0246], device='cuda:0'), grad: tensor([ 8.8811e-06,  3.8184e-08,  2.3702e-07,  1.2107e-08,  8.3679e-07,
+         8.3353e-08, -1.1668e-05,  4.9546e-07,  9.8906e-07,  8.8010e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 243, time 216.89, cls_loss 0.0012 cls_loss_mapping 0.0028 cls_loss_causal 0.5106 re_mapping 0.0057 re_causal 0.0160 /// teacc 98.96 lr 0.00010000
+Epoch 245, weight, value: tensor([[-0.0674,  0.1593,  0.0774,  ..., -0.2367, -0.1235,  0.0235],
+        [ 0.1739, -0.0224, -0.0873,  ...,  0.0919,  0.1210, -0.1588],
+        [-0.1066, -0.0611, -0.0492,  ..., -0.0898, -0.0365, -0.0808],
+        ...,
+        [-0.0858,  0.1712, -0.1940,  ..., -0.1732, -0.0082, -0.1949],
+        [ 0.0138, -0.1136,  0.0330,  ...,  0.0737, -0.1251, -0.0522],
+        [-0.1250, -0.1300,  0.0890,  ..., -0.1145, -0.0635,  0.1654]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-09, -6.1467e-08, -1.8626e-09,  ...,  5.5879e-09,
+          0.0000e+00, -1.3039e-08],
+        [ 5.5507e-07,  6.5193e-08,  1.0245e-08,  ...,  4.7311e-07,
+         -9.3132e-10,  4.9360e-08],
+        [ 2.5146e-08,  1.6764e-08,  6.5193e-09,  ...,  2.3283e-08,
+         -9.3132e-10,  6.5193e-09],
+        ...,
+        [ 4.2841e-08, -1.5087e-07,  3.9116e-08,  ...,  3.8184e-08,
+          0.0000e+00,  6.0536e-08],
+        [-8.2608e-07,  2.3283e-08,  9.5926e-08,  ..., -7.0874e-07,
+          0.0000e+00,  1.2573e-07],
+        [ 4.8429e-08,  7.5437e-08, -2.3656e-07,  ...,  4.3772e-08,
+          9.3132e-10, -4.9546e-07]], device='cuda:0')
+Epoch 245, bias, value: tensor([-0.0060, -0.0059,  0.0123,  0.0089,  0.0337,  0.0440, -0.0227,  0.0067,
+        -0.0381, -0.0248], device='cuda:0'), grad: tensor([-2.5798e-07,  1.2284e-06,  7.7300e-08,  9.3784e-07,  5.8487e-07,
+        -1.0412e-06,  2.8871e-07,  6.9849e-08, -1.1967e-06, -6.9197e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 244, time 217.16, cls_loss 0.0013 cls_loss_mapping 0.0023 cls_loss_causal 0.4824 re_mapping 0.0056 re_causal 0.0158 /// teacc 99.09 lr 0.00010000
+Epoch 246, weight, value: tensor([[-0.0677,  0.1596,  0.0773,  ..., -0.2370, -0.1236,  0.0234],
+        [ 0.1748, -0.0225, -0.0872,  ...,  0.0921,  0.1211, -0.1585],
+        [-0.1075, -0.0613, -0.0493,  ..., -0.0899, -0.0367, -0.0810],
+        ...,
+        [-0.0860,  0.1713, -0.1942,  ..., -0.1737, -0.0082, -0.1957],
+        [ 0.0133, -0.1140,  0.0323,  ...,  0.0730, -0.1254, -0.0527],
+        [-0.1256, -0.1300,  0.0893,  ..., -0.1173, -0.0637,  0.1649]],
+       device='cuda:0'), grad: tensor([[ 4.0047e-08,  1.3690e-07,  6.5193e-09,  ...,  4.3772e-08,
+          8.0094e-08, -9.3132e-10],
+        [-8.2888e-08,  1.9092e-07,  6.5193e-09,  ...,  4.6566e-08,
+          6.6124e-08,  7.4506e-09],
+        [ 6.7987e-08,  6.4261e-08,  8.3819e-09,  ...,  8.1956e-08,
+          3.4459e-08,  3.7253e-09],
+        ...,
+        [ 1.4901e-08, -1.1828e-06,  1.2107e-08,  ...,  1.0058e-07,
+         -4.2748e-07,  1.3039e-08],
+        [ 8.6799e-07,  1.4156e-07,  2.9802e-07,  ...,  6.9570e-07,
+          4.9919e-07,  3.9861e-07],
+        [ 6.5193e-09,  4.8801e-07, -2.2352e-08,  ...,  1.8934e-06,
+          1.8161e-07, -1.0896e-07]], device='cuda:0')
+Epoch 246, bias, value: tensor([-0.0061, -0.0057,  0.0122,  0.0088,  0.0363,  0.0442, -0.0223,  0.0066,
+        -0.0386, -0.0265], device='cuda:0'), grad: tensor([ 3.1572e-07,  5.0012e-07, -8.0094e-07,  3.5297e-07, -3.9749e-06,
+        -1.5236e-06, -1.7695e-08, -1.7723e-06,  2.6673e-06,  4.2692e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 245, time 216.47, cls_loss 0.0013 cls_loss_mapping 0.0029 cls_loss_causal 0.4911 re_mapping 0.0055 re_causal 0.0152 /// teacc 98.95 lr 0.00010000
+Epoch 247, weight, value: tensor([[-0.0678,  0.1599,  0.0774,  ..., -0.2373, -0.1236,  0.0235],
+        [ 0.1773, -0.0232, -0.0872,  ...,  0.0930,  0.1240, -0.1587],
+        [-0.1113, -0.0621, -0.0493,  ..., -0.0909, -0.0393, -0.0812],
+        ...,
+        [-0.0863,  0.1719, -0.1942,  ..., -0.1741, -0.0099, -0.1960],
+        [ 0.0132, -0.1142,  0.0322,  ...,  0.0731, -0.1253, -0.0530],
+        [-0.1256, -0.1300,  0.0902,  ..., -0.1164, -0.0640,  0.1675]],
+       device='cuda:0'), grad: tensor([[ 1.0524e-07, -1.1176e-08, -6.5193e-09,  ...,  1.0151e-07,
+          1.7695e-08, -8.3819e-09],
+        [-1.3616e-06,  5.5879e-09,  9.5926e-08,  ..., -1.1949e-06,
+         -3.0361e-07,  9.0338e-08],
+        [ 1.2079e-06,  2.7940e-09,  2.7940e-09,  ...,  1.4268e-06,
+          1.0896e-07,  1.0245e-08],
+        ...,
+        [ 1.8161e-07, -1.7695e-08,  3.2596e-08,  ...,  2.0396e-07,
+          2.7008e-08,  7.7300e-08],
+        [-2.5295e-06,  2.7940e-09, -7.1339e-07,  ..., -3.0678e-06,
+          7.1712e-08, -6.8359e-07],
+        [ 2.3376e-07,  9.3132e-09, -4.8243e-07,  ...,  3.8929e-07,
+          4.0047e-08, -1.1781e-06]], device='cuda:0')
+Epoch 247, bias, value: tensor([-0.0061, -0.0049,  0.0111,  0.0087,  0.0351,  0.0440, -0.0220,  0.0069,
+        -0.0388, -0.0255], device='cuda:0'), grad: tensor([ 2.3469e-07, -3.0808e-06,  4.4666e-06,  3.9209e-07,  1.5646e-06,
+         3.8147e-06,  1.8030e-06,  6.8638e-07, -8.4490e-06, -1.4678e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 246, time 216.55, cls_loss 0.0013 cls_loss_mapping 0.0027 cls_loss_causal 0.5105 re_mapping 0.0057 re_causal 0.0164 /// teacc 99.03 lr 0.00010000
+Epoch 248, weight, value: tensor([[-0.0687,  0.1592,  0.0765,  ..., -0.2384, -0.1237,  0.0228],
+        [ 0.1798, -0.0208, -0.0873,  ...,  0.0934,  0.1248, -0.1589],
+        [-0.1136, -0.0644, -0.0494,  ..., -0.0911, -0.0398, -0.0814],
+        ...,
+        [-0.0874,  0.1719, -0.1943,  ..., -0.1753, -0.0114, -0.1963],
+        [ 0.0136, -0.1143,  0.0325,  ...,  0.0736, -0.1259, -0.0528],
+        [-0.1263, -0.1301,  0.0907,  ..., -0.1165, -0.0645,  0.1683]],
+       device='cuda:0'), grad: tensor([[ 2.4214e-08,  1.0245e-08, -5.5879e-09,  ...,  3.5390e-08,
+          1.0245e-08, -7.4506e-09],
+        [-2.0489e-08,  3.7253e-09,  2.7940e-09,  ..., -5.9605e-08,
+          0.0000e+00,  2.7940e-09],
+        [ 1.4901e-08,  4.6566e-09,  3.2596e-08,  ...,  3.5390e-08,
+          0.0000e+00,  3.7253e-09],
+        ...,
+        [ 5.5879e-09, -7.4506e-09,  4.6566e-09,  ...,  1.3039e-08,
+          0.0000e+00,  1.8626e-09],
+        [ 2.2352e-08,  3.7253e-09,  2.4214e-08,  ..., -4.6566e-09,
+          0.0000e+00,  3.3528e-08],
+        [ 2.2352e-08,  5.5879e-09,  1.8626e-09,  ...,  5.8673e-08,
+          0.0000e+00,  2.7940e-09]], device='cuda:0')
+Epoch 248, bias, value: tensor([-0.0068, -0.0038,  0.0103,  0.0093,  0.0348,  0.0434, -0.0213,  0.0066,
+        -0.0386, -0.0254], device='cuda:0'), grad: tensor([ 4.1910e-08, -1.2573e-07,  2.0489e-07,  8.9128e-07,  7.4506e-09,
+        -1.2610e-06,  9.3132e-10,  5.8673e-08,  6.3330e-08,  1.1083e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 247, time 216.59, cls_loss 0.0008 cls_loss_mapping 0.0020 cls_loss_causal 0.5057 re_mapping 0.0056 re_causal 0.0167 /// teacc 99.09 lr 0.00010000
+Epoch 249, weight, value: tensor([[-0.0694,  0.1594,  0.0763,  ..., -0.2392, -0.1237,  0.0228],
+        [ 0.1792, -0.0226, -0.0872,  ...,  0.0935,  0.1249, -0.1589],
+        [-0.1139, -0.0645, -0.0494,  ..., -0.0912, -0.0398, -0.0819],
+        ...,
+        [-0.0858,  0.1729, -0.1944,  ..., -0.1755, -0.0114, -0.1966],
+        [ 0.0135, -0.1145,  0.0324,  ...,  0.0736, -0.1261, -0.0531],
+        [-0.1267, -0.1301,  0.0909,  ..., -0.1165, -0.0647,  0.1686]],
+       device='cuda:0'), grad: tensor([[ 3.2037e-07, -1.8626e-09,  2.9802e-07,  ...,  3.8929e-07,
+          9.3132e-10,  2.0303e-07],
+        [-1.1176e-08,  1.8440e-07,  1.6764e-08,  ...,  5.5879e-09,
+         -1.6764e-08,  1.2107e-08],
+        [ 4.7497e-08,  3.1386e-07,  2.8871e-08,  ...,  6.1467e-08,
+          3.7253e-09,  2.1420e-08],
+        ...,
+        [ 3.4459e-08, -8.3540e-07,  2.3283e-08,  ...,  1.7136e-07,
+         -5.5879e-09,  2.0489e-08],
+        [-1.5711e-06,  2.5518e-07, -1.3327e-06,  ..., -1.9018e-06,
+          5.5879e-09, -9.0990e-07],
+        [ 4.4890e-07,  9.9652e-08,  2.1327e-07,  ...,  6.2957e-07,
+          9.3132e-09,  9.0338e-08]], device='cuda:0')
+Epoch 249, bias, value: tensor([-0.0069, -0.0045,  0.0102,  0.0093,  0.0347,  0.0433, -0.0204,  0.0075,
+        -0.0388, -0.0254], device='cuda:0'), grad: tensor([ 1.7770e-06,  3.2131e-07,  7.0687e-07,  2.3656e-06, -2.4028e-07,
+         1.5516e-06,  1.4901e-07, -1.0431e-06, -7.9423e-06,  2.3562e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 248, time 217.40, cls_loss 0.0017 cls_loss_mapping 0.0021 cls_loss_causal 0.5201 re_mapping 0.0053 re_causal 0.0151 /// teacc 99.06 lr 0.00010000
+Epoch 250, weight, value: tensor([[-0.0697,  0.1601,  0.0763,  ..., -0.2399, -0.1237,  0.0228],
+        [ 0.1794, -0.0229, -0.0874,  ...,  0.0935,  0.1249, -0.1595],
+        [-0.1140, -0.0646, -0.0496,  ..., -0.0912, -0.0399, -0.0822],
+        ...,
+        [-0.0860,  0.1729, -0.1944,  ..., -0.1767, -0.0114, -0.1977],
+        [ 0.0135, -0.1148,  0.0322,  ...,  0.0739, -0.1264, -0.0537],
+        [-0.1261, -0.1301,  0.0920,  ..., -0.1172, -0.0648,  0.1703]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-08,  5.5879e-09,  1.3039e-08,  ...,  1.7695e-08,
+          2.7940e-09,  2.7940e-09],
+        [-3.3587e-05, -3.0145e-05,  1.3039e-08,  ..., -4.3005e-05,
+         -3.0734e-08,  1.8626e-09],
+        [ 3.7253e-08,  3.3528e-08,  7.5437e-08,  ...,  4.2841e-08,
+          1.1176e-08,  1.8626e-09],
+        ...,
+        [ 2.8029e-05,  2.5049e-05,  7.2643e-08,  ...,  3.5971e-05,
+          8.3819e-09,  2.9802e-08],
+        [ 2.4680e-07,  2.4401e-07,  1.2107e-08,  ...,  3.0547e-07,
+          9.3132e-09, -1.8626e-09],
+        [ 3.1739e-06,  2.9132e-06, -1.6671e-07,  ...,  4.0941e-06,
+          4.6566e-09, -3.5577e-07]], device='cuda:0')
+Epoch 250, bias, value: tensor([-0.0068, -0.0046,  0.0102,  0.0093,  0.0349,  0.0433, -0.0211,  0.0073,
+        -0.0388, -0.0251], device='cuda:0'), grad: tensor([ 3.1386e-07, -1.0931e-04, -1.4342e-06, -2.2501e-06,  7.2122e-06,
+         8.1118e-07,  9.8068e-07,  9.2387e-05,  1.2508e-06,  1.0066e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 249, time 217.34, cls_loss 0.0014 cls_loss_mapping 0.0022 cls_loss_causal 0.5086 re_mapping 0.0052 re_causal 0.0152 /// teacc 99.01 lr 0.00010000
+Epoch 251, weight, value: tensor([[-0.0706,  0.1596,  0.0761,  ..., -0.2408, -0.1242,  0.0227],
+        [ 0.1802, -0.0233, -0.0875,  ...,  0.0936,  0.1255, -0.1597],
+        [-0.1142, -0.0647, -0.0497,  ..., -0.0913, -0.0400, -0.0826],
+        ...,
+        [-0.0868,  0.1736, -0.1945,  ..., -0.1772, -0.0136, -0.1979],
+        [ 0.0135, -0.1154,  0.0325,  ...,  0.0742, -0.1267, -0.0540],
+        [-0.1269, -0.1303,  0.0923,  ..., -0.1172, -0.0654,  0.1708]],
+       device='cuda:0'), grad: tensor([[ 8.0373e-07,  2.5090e-06,  1.1055e-06,  ...,  2.3954e-06,
+          9.3132e-10,  7.5996e-07],
+        [ 5.5879e-09,  9.3132e-09,  5.8673e-08,  ...,  1.5832e-08,
+         -1.6764e-08,  2.6077e-08],
+        [ 3.0734e-08,  7.4506e-09, -6.2399e-07,  ...,  8.6613e-08,
+          3.7253e-09,  8.3819e-09],
+        ...,
+        [ 2.5146e-08, -9.3132e-09,  2.4214e-08,  ...,  5.0291e-08,
+          5.5879e-09,  1.6764e-08],
+        [-2.2613e-06, -3.2783e-07, -1.9372e-06,  ..., -2.0452e-06,
+          2.7940e-09, -1.2731e-06],
+        [ 4.0419e-07,  6.9849e-08,  3.5204e-07,  ...,  3.7719e-07,
+          2.7940e-09,  1.7602e-07]], device='cuda:0')
+Epoch 251, bias, value: tensor([-0.0074, -0.0045,  0.0101,  0.0094,  0.0347,  0.0433, -0.0210,  0.0075,
+        -0.0388, -0.0251], device='cuda:0'), grad: tensor([ 1.1213e-05,  2.5798e-07, -3.9265e-06,  3.4906e-06, -2.0582e-07,
+         1.7053e-06, -7.2569e-06,  2.1979e-07, -6.9179e-06,  1.4063e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 250, time 217.23, cls_loss 0.0014 cls_loss_mapping 0.0026 cls_loss_causal 0.5175 re_mapping 0.0055 re_causal 0.0159 /// teacc 99.04 lr 0.00010000
+Epoch 252, weight, value: tensor([[-0.0711,  0.1599,  0.0760,  ..., -0.2414, -0.1243,  0.0226],
+        [ 0.1804, -0.0236, -0.0880,  ...,  0.0937,  0.1261, -0.1599],
+        [-0.1153, -0.0648, -0.0499,  ..., -0.0915, -0.0406, -0.0829],
+        ...,
+        [-0.0868,  0.1745, -0.1945,  ..., -0.1763, -0.0139, -0.1984],
+        [ 0.0133, -0.1177,  0.0326,  ...,  0.0736, -0.1284, -0.0539],
+        [-0.1281, -0.1306,  0.0930,  ..., -0.1171, -0.0658,  0.1720]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-09,  1.0245e-08,  1.3970e-08,  ...,  1.0245e-08,
+          0.0000e+00, -5.5879e-09],
+        [ 5.7369e-07,  4.9174e-06,  1.4808e-07,  ...,  1.0747e-06,
+          0.0000e+00,  1.5832e-07],
+        [ 1.5832e-08,  4.1910e-08,  5.5879e-09,  ...,  9.9652e-08,
+          0.0000e+00,  1.7695e-08],
+        ...,
+        [-1.0403e-06, -9.9316e-06,  1.0245e-08,  ...,  1.5553e-07,
+          0.0000e+00,  1.3970e-08],
+        [-2.6077e-08,  6.2399e-08,  1.9558e-08,  ..., -1.4957e-06,
+          0.0000e+00,  2.3283e-08],
+        [ 4.9081e-07,  4.6901e-06, -4.8243e-07,  ...,  1.3970e-08,
+          0.0000e+00, -5.3924e-07]], device='cuda:0')
+Epoch 252, bias, value: tensor([-0.0075, -0.0044,  0.0097,  0.0094,  0.0341,  0.0433, -0.0203,  0.0081,
+        -0.0400, -0.0247], device='cuda:0'), grad: tensor([ 7.4506e-08,  9.9093e-06,  2.3283e-07,  1.0431e-07,  5.0478e-07,
+         8.7731e-07, -2.5891e-07, -1.4395e-05, -3.0696e-06,  6.0126e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 251, time 216.99, cls_loss 0.0012 cls_loss_mapping 0.0021 cls_loss_causal 0.5002 re_mapping 0.0052 re_causal 0.0150 /// teacc 99.05 lr 0.00010000
+Epoch 253, weight, value: tensor([[-0.0714,  0.1604,  0.0753,  ..., -0.2418, -0.1245,  0.0219],
+        [ 0.1822, -0.0239, -0.0882,  ...,  0.0939,  0.1279, -0.1600],
+        [-0.1173, -0.0648, -0.0497,  ..., -0.0918, -0.0423, -0.0836],
+        ...,
+        [-0.0870,  0.1750, -0.1946,  ..., -0.1763, -0.0145, -0.1987],
+        [ 0.0135, -0.1180,  0.0328,  ...,  0.0741, -0.1294, -0.0537],
+        [-0.1284, -0.1309,  0.0936,  ..., -0.1173, -0.0660,  0.1727]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-09, -5.0478e-07, -4.3772e-08,  ...,  7.4506e-09,
+         -9.3132e-09, -9.1735e-07],
+        [-2.0489e-08,  1.2666e-07,  2.0489e-08,  ..., -2.8871e-08,
+         -3.7253e-08,  1.1269e-07],
+        [ 4.9360e-08,  3.3528e-08,  7.4506e-09,  ...,  6.3330e-08,
+         -5.3085e-08,  3.7253e-08],
+        ...,
+        [ 3.4180e-07, -1.1176e-07,  1.6764e-07,  ...,  2.7940e-08,
+          8.1956e-08,  9.8068e-07],
+        [-2.8871e-08,  1.5832e-08, -3.9116e-08,  ..., -7.1712e-08,
+          3.7253e-09,  1.9558e-08],
+        [-5.1316e-07,  9.4995e-08, -2.5332e-07,  ...,  6.6124e-08,
+          5.5879e-09, -1.5320e-06]], device='cuda:0')
+Epoch 253, bias, value: tensor([-0.0079, -0.0036,  0.0089,  0.0095,  0.0341,  0.0432, -0.0201,  0.0082,
+        -0.0401, -0.0248], device='cuda:0'), grad: tensor([-3.8147e-06,  4.9267e-07, -8.6240e-07,  1.9558e-07,  2.0638e-06,
+         1.7416e-07,  2.2985e-06,  4.0196e-06, -7.1712e-08, -4.4890e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 252, time 218.08, cls_loss 0.0013 cls_loss_mapping 0.0021 cls_loss_causal 0.4895 re_mapping 0.0052 re_causal 0.0150 /// teacc 98.93 lr 0.00010000
+Epoch 254, weight, value: tensor([[-0.0719,  0.1627,  0.0754,  ..., -0.2424, -0.1246,  0.0220],
+        [ 0.1830, -0.0238, -0.0887,  ...,  0.0942,  0.1286, -0.1603],
+        [-0.1178, -0.0649, -0.0492,  ..., -0.0920, -0.0426, -0.0836],
+        ...,
+        [-0.0878,  0.1750, -0.1948,  ..., -0.1770, -0.0162, -0.1994],
+        [ 0.0132, -0.1183,  0.0328,  ...,  0.0741, -0.1303, -0.0542],
+        [-0.1294, -0.1310,  0.0940,  ..., -0.1174, -0.0664,  0.1734]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09, -1.9595e-06,  5.5879e-09,  ...,  4.6566e-09,
+         -9.3132e-10,  2.7940e-09],
+        [ 7.5437e-08,  3.6322e-07,  6.9849e-08,  ...,  6.9849e-08,
+         -4.6566e-09,  1.1176e-08],
+        [ 9.2480e-07,  8.5682e-08,  7.4785e-07,  ...,  8.6334e-07,
+          3.7253e-09,  9.3132e-10],
+        ...,
+        [ 7.9162e-08, -1.5087e-07,  1.0431e-07,  ...,  8.5682e-08,
+          9.3132e-10,  6.5193e-08],
+        [-2.1905e-06,  1.0617e-07, -1.7239e-06,  ..., -2.0452e-06,
+          0.0000e+00,  6.1467e-08],
+        [ 2.5146e-08,  2.6077e-08, -5.8580e-07,  ...,  3.5390e-08,
+          9.3132e-10, -1.0859e-06]], device='cuda:0')
+Epoch 254, bias, value: tensor([-0.0069, -0.0034,  0.0088,  0.0096,  0.0340,  0.0431, -0.0205,  0.0080,
+        -0.0403, -0.0247], device='cuda:0'), grad: tensor([-7.9572e-06,  1.7174e-06,  8.0541e-06, -1.9088e-05,  2.4997e-06,
+         3.5074e-06,  6.5081e-06,  1.5050e-05, -7.6964e-06, -2.6077e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 253, time 216.90, cls_loss 0.0014 cls_loss_mapping 0.0023 cls_loss_causal 0.4777 re_mapping 0.0056 re_causal 0.0154 /// teacc 99.07 lr 0.00010000
+Epoch 255, weight, value: tensor([[-0.0724,  0.1644,  0.0751,  ..., -0.2433, -0.1254,  0.0215],
+        [ 0.1830, -0.0240, -0.0901,  ...,  0.0941,  0.1281, -0.1604],
+        [-0.1176, -0.0647, -0.0479,  ..., -0.0919, -0.0420, -0.0847],
+        ...,
+        [-0.0878,  0.1752, -0.1950,  ..., -0.1774, -0.0160, -0.2012],
+        [ 0.0126, -0.1188,  0.0323,  ...,  0.0736, -0.1327, -0.0550],
+        [-0.1299, -0.1312,  0.0949,  ..., -0.1175, -0.0668,  0.1748]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -9.0338e-08,  4.0978e-08,  ...,  3.3528e-08,
+          1.8626e-09,  2.8871e-08],
+        [-2.3190e-07,  2.4624e-06,  3.7253e-09,  ..., -2.9150e-07,
+          6.8080e-07,  4.6566e-09],
+        [ 4.8429e-08,  5.0850e-07,  9.3132e-09,  ...,  6.7055e-08,
+          1.3504e-07,  6.5193e-09],
+        ...,
+        [ 8.3819e-08, -5.7593e-06,  5.5879e-09,  ...,  8.1956e-08,
+         -1.6745e-06,  4.6566e-09],
+        [ 6.3330e-08,  2.5593e-06,  1.9558e-08,  ...,  1.0151e-07,
+          7.7393e-07,  7.5437e-08],
+        [ 4.2841e-08,  2.7847e-07,  1.0245e-08,  ...,  1.5553e-07,
+          6.6124e-08, -2.6077e-08]], device='cuda:0')
+Epoch 255, bias, value: tensor([-0.0067, -0.0039,  0.0094,  0.0104,  0.0338,  0.0422, -0.0203,  0.0077,
+        -0.0409, -0.0243], device='cuda:0'), grad: tensor([-2.2352e-08,  3.6582e-06,  1.0226e-06,  4.1015e-06, -2.3842e-07,
+        -4.1462e-06, -8.1025e-08, -9.8348e-06,  4.7460e-06,  7.8231e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 254, time 217.28, cls_loss 0.0017 cls_loss_mapping 0.0022 cls_loss_causal 0.5136 re_mapping 0.0055 re_causal 0.0148 /// teacc 99.02 lr 0.00010000
+Epoch 256, weight, value: tensor([[-0.0733,  0.1656,  0.0749,  ..., -0.2445, -0.1253,  0.0219],
+        [ 0.1831, -0.0240, -0.0915,  ...,  0.0941,  0.1281, -0.1610],
+        [-0.1181, -0.0650, -0.0467,  ..., -0.0920, -0.0419, -0.0852],
+        ...,
+        [-0.0884,  0.1754, -0.1955,  ..., -0.1782, -0.0163, -0.2016],
+        [ 0.0133, -0.1191,  0.0330,  ...,  0.0744, -0.1331, -0.0552],
+        [-0.1304, -0.1312,  0.0955,  ..., -0.1177, -0.0673,  0.1751]],
+       device='cuda:0'), grad: tensor([[ 3.1665e-08, -1.9222e-06, -1.9278e-07,  ...,  3.1665e-08,
+          9.3132e-10, -1.7807e-06],
+        [-2.5146e-08,  5.4017e-08,  5.5879e-09,  ..., -5.5879e-09,
+         -9.3132e-10,  3.9116e-08],
+        [ 3.5390e-08,  2.0489e-08,  5.6811e-08,  ..., -8.3819e-09,
+         -3.3528e-08,  1.3970e-08],
+        ...,
+        [ 1.3039e-08,  1.8626e-08,  8.3819e-09,  ...,  2.0862e-07,
+          3.7253e-09,  2.5146e-08],
+        [ 1.3970e-07,  4.8429e-08,  8.0094e-08,  ...,  1.7881e-07,
+          1.8626e-09,  1.8626e-08],
+        [ 1.1176e-08,  1.6950e-06,  1.6950e-07,  ...,  9.3877e-07,
+          1.8626e-09,  1.5628e-06]], device='cuda:0')
+Epoch 256, bias, value: tensor([-0.0064, -0.0041,  0.0095,  0.0101,  0.0338,  0.0421, -0.0186,  0.0076,
+        -0.0407, -0.0242], device='cuda:0'), grad: tensor([-6.1169e-06,  3.1572e-07, -4.4797e-07, -2.8498e-07, -1.8813e-06,
+         4.9267e-07, -3.4273e-07,  4.8615e-07,  7.1153e-07,  7.0743e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 255, time 217.54, cls_loss 0.0013 cls_loss_mapping 0.0021 cls_loss_causal 0.4901 re_mapping 0.0054 re_causal 0.0154 /// teacc 98.98 lr 0.00010000
+Epoch 257, weight, value: tensor([[-0.0739,  0.1671,  0.0753,  ..., -0.2449, -0.1253,  0.0229],
+        [ 0.1816, -0.0265, -0.0920,  ...,  0.0942,  0.1281, -0.1614],
+        [-0.1183, -0.0651, -0.0464,  ..., -0.0920, -0.0419, -0.0856],
+        ...,
+        [-0.0865,  0.1774, -0.1955,  ..., -0.1795, -0.0159, -0.2020],
+        [ 0.0138, -0.1195,  0.0334,  ...,  0.0751, -0.1336, -0.0551],
+        [-0.1315, -0.1314,  0.0956,  ..., -0.1188, -0.0675,  0.1750]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09, -1.0822e-06, -3.0734e-08,  ..., -2.7660e-07,
+          0.0000e+00, -1.0226e-06],
+        [ 8.3819e-09,  7.4506e-09,  3.0734e-08,  ...,  2.7940e-09,
+          0.0000e+00,  5.4948e-08],
+        [ 1.8626e-09,  5.5879e-09,  4.6566e-09,  ...,  1.8626e-09,
+          0.0000e+00,  5.5879e-09],
+        ...,
+        [ 1.9558e-08,  1.4901e-08,  1.1269e-07,  ...,  8.3819e-09,
+          0.0000e+00,  2.5425e-07],
+        [-4.4703e-08,  2.0489e-08,  1.7695e-08,  ..., -6.3330e-08,
+          0.0000e+00,  3.6322e-08],
+        [-4.6566e-08,  1.7975e-07, -2.2445e-07,  ...,  2.2352e-08,
+          0.0000e+00, -3.7812e-07]], device='cuda:0')
+Epoch 257, bias, value: tensor([-0.0058, -0.0054,  0.0097,  0.0100,  0.0344,  0.0420, -0.0185,  0.0091,
+        -0.0407, -0.0248], device='cuda:0'), grad: tensor([-3.2298e-06,  1.6205e-07,  8.3819e-09, -5.5879e-09,  4.7684e-07,
+         2.4345e-06,  3.3528e-07,  7.4599e-07,  4.2841e-08, -9.5740e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 256, time 217.53, cls_loss 0.0012 cls_loss_mapping 0.0032 cls_loss_causal 0.5167 re_mapping 0.0052 re_causal 0.0154 /// teacc 99.05 lr 0.00010000
+Epoch 258, weight, value: tensor([[-0.0743,  0.1677,  0.0751,  ..., -0.2451, -0.1254,  0.0229],
+        [ 0.1813, -0.0272, -0.0922,  ...,  0.0942,  0.1282, -0.1617],
+        [-0.1184, -0.0648, -0.0463,  ..., -0.0921, -0.0421, -0.0857],
+        ...,
+        [-0.0879,  0.1766, -0.1957,  ..., -0.1813, -0.0160, -0.2026],
+        [ 0.0170, -0.1166,  0.0330,  ...,  0.0768, -0.1348, -0.0552],
+        [-0.1318, -0.1315,  0.0960,  ..., -0.1203, -0.0676,  0.1753]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-08, -1.8347e-07,  6.8918e-08,  ...,  1.0245e-07,
+          0.0000e+00, -8.7544e-08],
+        [-1.1176e-08,  1.3970e-08,  2.9802e-08,  ..., -1.5832e-08,
+         -1.8626e-09,  3.0734e-08],
+        [ 4.2841e-08,  5.4948e-08,  5.3085e-08,  ...,  8.7544e-08,
+         -5.5879e-09,  4.2841e-08],
+        ...,
+        [ 2.1420e-08, -1.3318e-07,  8.2888e-08,  ...,  5.2154e-08,
+          1.8626e-09,  1.0524e-07],
+        [-1.2293e-07,  1.3039e-07, -4.3493e-07,  ..., -1.0934e-06,
+          2.7940e-09, -2.7753e-07],
+        [ 1.4901e-07,  7.8231e-08, -1.8720e-07,  ...,  3.3248e-07,
+          9.3132e-10, -5.5321e-07]], device='cuda:0')
+Epoch 258, bias, value: tensor([-0.0057, -0.0057,  0.0098,  0.0104,  0.0353,  0.0418, -0.0188,  0.0083,
+        -0.0382, -0.0254], device='cuda:0'), grad: tensor([-4.2189e-07,  1.5181e-07,  2.4308e-07,  1.7099e-06,  1.5600e-06,
+         3.1851e-07, -1.0431e-07,  3.7625e-07, -3.4049e-06, -4.4145e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 257, time 216.89, cls_loss 0.0012 cls_loss_mapping 0.0018 cls_loss_causal 0.4978 re_mapping 0.0053 re_causal 0.0149 /// teacc 99.02 lr 0.00010000
+Epoch 259, weight, value: tensor([[-0.0755,  0.1685,  0.0754,  ..., -0.2461, -0.1254,  0.0233],
+        [ 0.1816, -0.0272, -0.0925,  ...,  0.0944,  0.1284, -0.1631],
+        [-0.1189, -0.0648, -0.0463,  ..., -0.0924, -0.0422, -0.0862],
+        ...,
+        [-0.0881,  0.1764, -0.1970,  ..., -0.1822, -0.0164, -0.2056],
+        [ 0.0170, -0.1167,  0.0329,  ...,  0.0770, -0.1352, -0.0553],
+        [-0.1325, -0.1312,  0.0978,  ..., -0.1197, -0.0676,  0.1780]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  1.2107e-08,  0.0000e+00,  ...,  3.7253e-09,
+          0.0000e+00,  1.8626e-09],
+        [-8.3260e-07, -5.2713e-07,  0.0000e+00,  ..., -7.2643e-07,
+          0.0000e+00,  2.0489e-08],
+        [ 5.5879e-09, -1.3551e-06,  0.0000e+00,  ...,  1.5739e-07,
+          0.0000e+00,  2.3283e-08],
+        ...,
+        [ 6.7241e-07,  9.1176e-07,  2.7940e-09,  ...,  1.4035e-06,
+          0.0000e+00,  9.6858e-08],
+        [ 1.6764e-08,  4.7497e-08,  1.8626e-09,  ...,  2.7008e-08,
+          0.0000e+00,  7.4506e-09],
+        [ 1.3597e-07,  8.4098e-07, -2.8871e-08,  ...,  5.9485e-05,
+          0.0000e+00,  9.3505e-06]], device='cuda:0')
+Epoch 259, bias, value: tensor([-0.0056, -0.0056,  0.0095,  0.0104,  0.0344,  0.0418, -0.0177,  0.0078,
+        -0.0383, -0.0244], device='cuda:0'), grad: tensor([ 3.9116e-08, -1.2731e-06, -2.4661e-06,  1.2573e-07, -1.6522e-04,
+        -9.0338e-08,  2.0303e-07,  3.5502e-06,  1.6205e-07,  1.6499e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 258, time 217.23, cls_loss 0.0013 cls_loss_mapping 0.0032 cls_loss_causal 0.4974 re_mapping 0.0052 re_causal 0.0153 /// teacc 98.99 lr 0.00010000
+Epoch 260, weight, value: tensor([[-0.0758,  0.1687,  0.0754,  ..., -0.2467, -0.1254,  0.0234],
+        [ 0.1819, -0.0270, -0.0926,  ...,  0.0946,  0.1286, -0.1633],
+        [-0.1191, -0.0672, -0.0463,  ..., -0.0925, -0.0423, -0.0864],
+        ...,
+        [-0.0882,  0.1776, -0.1972,  ..., -0.1831, -0.0166, -0.2058],
+        [ 0.0166, -0.1169,  0.0319,  ...,  0.0762, -0.1377, -0.0562],
+        [-0.1323, -0.1313,  0.0984,  ..., -0.1219, -0.0678,  0.1784]],
+       device='cuda:0'), grad: tensor([[ 8.1956e-08, -6.7055e-08,  1.6764e-08,  ...,  1.8068e-07,
+          0.0000e+00,  2.1420e-08],
+        [ 2.8592e-07,  5.9605e-08,  1.7136e-07,  ...,  3.9767e-07,
+          0.0000e+00,  1.7695e-07],
+        [ 4.7497e-08,  6.7055e-08,  3.5390e-08,  ...,  6.9849e-08,
+          0.0000e+00,  2.1420e-08],
+        ...,
+        [ 1.9651e-07, -4.7497e-08,  8.1956e-08,  ...,  3.0920e-07,
+          0.0000e+00,  8.0094e-08],
+        [-3.1423e-06, -3.7160e-07, -1.0645e-06,  ..., -4.8727e-06,
+          0.0000e+00, -1.6764e-06],
+        [ 7.6555e-07,  2.4308e-07,  3.8277e-07,  ...,  1.1856e-06,
+          0.0000e+00,  3.5297e-07]], device='cuda:0')
+Epoch 260, bias, value: tensor([-0.0056, -0.0055,  0.0088,  0.0105,  0.0364,  0.0419, -0.0178,  0.0084,
+        -0.0391, -0.0260], device='cuda:0'), grad: tensor([ 2.8126e-07,  1.0878e-06,  3.0454e-07,  7.1898e-07,  4.8336e-07,
+         3.6880e-06,  1.2200e-06,  5.9139e-07, -1.1377e-05,  2.9951e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 259, time 217.25, cls_loss 0.0012 cls_loss_mapping 0.0023 cls_loss_causal 0.5104 re_mapping 0.0053 re_causal 0.0153 /// teacc 98.92 lr 0.00010000
+Epoch 261, weight, value: tensor([[-0.0761,  0.1691,  0.0754,  ..., -0.2471, -0.1255,  0.0234],
+        [ 0.1821, -0.0271, -0.0927,  ...,  0.0948,  0.1290, -0.1633],
+        [-0.1194, -0.0670, -0.0463,  ..., -0.0927, -0.0425, -0.0871],
+        ...,
+        [-0.0884,  0.1776, -0.1974,  ..., -0.1837, -0.0171, -0.2060],
+        [ 0.0168, -0.1170,  0.0319,  ...,  0.0769, -0.1382, -0.0562],
+        [-0.1331, -0.1313,  0.0987,  ..., -0.1221, -0.0680,  0.1788]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-08, -3.7253e-09,  1.5832e-08,  ...,  2.5146e-08,
+          0.0000e+00,  1.3039e-08],
+        [ 1.8626e-09,  4.2003e-07,  1.3039e-08,  ...,  2.2352e-08,
+          2.9802e-08,  1.3970e-08],
+        [ 5.5879e-09,  3.7253e-09,  6.5193e-09,  ...,  1.2573e-07,
+          0.0000e+00,  5.5879e-09],
+        ...,
+        [ 4.6566e-09, -4.6846e-07,  5.1223e-08,  ...,  4.6566e-08,
+         -3.1665e-08,  7.3574e-08],
+        [-1.9372e-07,  1.8626e-09, -3.2876e-07,  ..., -6.2585e-07,
+          0.0000e+00, -3.0641e-07],
+        [ 1.1362e-07,  4.0047e-08,  2.3283e-08,  ...,  2.4308e-07,
+          9.3132e-10, -7.3574e-08]], device='cuda:0')
+Epoch 261, bias, value: tensor([-0.0055, -0.0053,  0.0091,  0.0108,  0.0363,  0.0417, -0.0177,  0.0079,
+        -0.0391, -0.0260], device='cuda:0'), grad: tensor([ 8.5682e-08,  9.6392e-07, -2.7847e-07,  1.3039e-07,  4.5169e-07,
+         2.9895e-07,  2.5425e-07, -3.0734e-07, -1.7826e-06,  2.0117e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 260, time 219.29, cls_loss 0.0019 cls_loss_mapping 0.0031 cls_loss_causal 0.4680 re_mapping 0.0054 re_causal 0.0142 /// teacc 98.94 lr 0.00010000
+Epoch 262, weight, value: tensor([[-0.0774,  0.1694,  0.0748,  ..., -0.2480, -0.1255,  0.0231],
+        [ 0.1822, -0.0272, -0.0928,  ...,  0.0947,  0.1295, -0.1635],
+        [-0.1200, -0.0670, -0.0462,  ..., -0.0929, -0.0429, -0.0875],
+        ...,
+        [-0.0885,  0.1785, -0.1978,  ..., -0.1846, -0.0177, -0.2063],
+        [ 0.0177, -0.1173,  0.0320,  ...,  0.0791, -0.1383, -0.0558],
+        [-0.1343, -0.1314,  0.0994,  ..., -0.1246, -0.0685,  0.1797]],
+       device='cuda:0'), grad: tensor([[ 1.8161e-07, -6.5193e-09,  2.9895e-07,  ...,  1.4156e-07,
+          1.3039e-08,  3.7998e-07],
+        [-3.5949e-07,  6.7055e-08,  4.7497e-08,  ..., -3.8184e-07,
+         -2.7288e-07,  9.6858e-08],
+        [ 1.3225e-07,  1.9558e-08,  3.4459e-08,  ...,  1.7788e-07,
+          3.3528e-08,  4.4703e-08],
+        ...,
+        [ 1.2945e-07, -3.2037e-07,  1.1092e-06,  ...,  2.4773e-07,
+          6.1467e-08,  1.5972e-06],
+        [-8.1956e-08,  3.7253e-08,  3.3528e-08,  ..., -9.6206e-07,
+          3.5390e-08,  3.8743e-07],
+        [ 2.2352e-07,  2.0489e-07, -4.5821e-06,  ...,  1.1520e-06,
+          7.4506e-08, -7.2792e-06]], device='cuda:0')
+Epoch 262, bias, value: tensor([-0.0059, -0.0054,  0.0093,  0.0091,  0.0381,  0.0413, -0.0171,  0.0094,
+        -0.0388, -0.0276], device='cuda:0'), grad: tensor([ 1.4091e-06, -3.8557e-07,  2.0210e-07,  7.3574e-07,  1.1601e-05,
+         3.0994e-06, -1.0114e-06,  4.9546e-06, -1.2415e-06, -1.9401e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 261, time 222.27, cls_loss 0.0013 cls_loss_mapping 0.0019 cls_loss_causal 0.4975 re_mapping 0.0057 re_causal 0.0160 /// teacc 99.08 lr 0.00010000
+Epoch 263, weight, value: tensor([[-0.0780,  0.1700,  0.0747,  ..., -0.2486, -0.1260,  0.0227],
+        [ 0.1822, -0.0276, -0.0929,  ...,  0.0948,  0.1296, -0.1637],
+        [-0.1204, -0.0669, -0.0463,  ..., -0.0931, -0.0431, -0.0877],
+        ...,
+        [-0.0884,  0.1788, -0.1981,  ..., -0.1855, -0.0174, -0.2068],
+        [ 0.0178, -0.1174,  0.0321,  ...,  0.0795, -0.1389, -0.0558],
+        [-0.1345, -0.1314,  0.1011,  ..., -0.1246, -0.0689,  0.1812]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09, -2.7940e-09,  1.0245e-08,  ...,  2.7940e-09,
+          0.0000e+00, -1.8626e-09],
+        [-1.6764e-08,  6.7055e-08,  9.3132e-09,  ..., -2.4214e-08,
+         -7.4506e-09,  9.3132e-10],
+        [ 8.3819e-09,  6.6124e-08,  1.3039e-08,  ...,  1.7695e-08,
+          1.0245e-08,  0.0000e+00],
+        ...,
+        [ 1.8626e-08, -3.9302e-07,  3.9116e-08,  ...,  5.0291e-08,
+         -3.3528e-08,  1.8626e-09],
+        [-2.0023e-07,  2.2259e-07,  1.1083e-07,  ..., -4.7870e-07,
+          2.8871e-08, -9.3132e-09],
+        [ 1.3970e-08,  1.5832e-08,  7.4506e-09,  ...,  1.0803e-07,
+          1.8626e-09, -3.6322e-08]], device='cuda:0')
+Epoch 263, bias, value: tensor([-0.0060, -0.0057,  0.0093,  0.0092,  0.0377,  0.0412, -0.0164,  0.0093,
+        -0.0387, -0.0272], device='cuda:0'), grad: tensor([ 3.1665e-08,  9.7789e-08,  5.7649e-07, -1.3277e-05, -3.1944e-07,
+         1.1794e-05,  3.3062e-07,  3.9954e-07,  7.6368e-08,  2.7381e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 262, time 221.87, cls_loss 0.0016 cls_loss_mapping 0.0027 cls_loss_causal 0.4670 re_mapping 0.0052 re_causal 0.0147 /// teacc 99.03 lr 0.00010000
+Epoch 264, weight, value: tensor([[-0.0803,  0.1704,  0.0744,  ..., -0.2508, -0.1275,  0.0224],
+        [ 0.1814, -0.0280, -0.0929,  ...,  0.0946,  0.1291, -0.1638],
+        [-0.1206, -0.0670, -0.0463,  ..., -0.0931, -0.0432, -0.0879],
+        ...,
+        [-0.0881,  0.1790, -0.1994,  ..., -0.1863, -0.0167, -0.2085],
+        [ 0.0178, -0.1175,  0.0305,  ...,  0.0797, -0.1394, -0.0570],
+        [-0.1354, -0.1314,  0.1014,  ..., -0.1250, -0.0689,  0.1815]],
+       device='cuda:0'), grad: tensor([[ 3.5390e-08, -1.2675e-06, -3.7346e-07,  ...,  4.5635e-08,
+          5.5879e-09, -4.7777e-07],
+        [-7.1712e-08,  8.2888e-08,  9.3132e-08,  ..., -1.7695e-07,
+         -8.1025e-08,  1.1735e-07],
+        [ 4.2841e-08,  2.5332e-07,  1.4808e-07,  ...,  6.9849e-08,
+          5.2154e-08,  1.0151e-07],
+        ...,
+        [ 1.6950e-07, -9.4064e-08,  1.5832e-07,  ...,  3.0268e-07,
+          3.9116e-08,  1.5832e-07],
+        [ 1.1921e-07,  3.0827e-07,  7.4506e-09,  ..., -1.2107e-08,
+          9.8720e-08,  3.3714e-07],
+        [ 1.8906e-07,  2.8405e-07,  1.9837e-07,  ...,  2.9150e-07,
+          9.7789e-08,  2.9057e-07]], device='cuda:0')
+Epoch 264, bias, value: tensor([-0.0068, -0.0063,  0.0093,  0.0097,  0.0377,  0.0410, -0.0142,  0.0092,
+        -0.0390, -0.0271], device='cuda:0'), grad: tensor([-6.4075e-06,  4.9360e-08,  1.5637e-06, -8.1025e-08,  1.0524e-07,
+        -1.6484e-06,  2.6133e-06,  7.4878e-07,  1.1744e-06,  1.8906e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 263, time 220.78, cls_loss 0.0016 cls_loss_mapping 0.0029 cls_loss_causal 0.5002 re_mapping 0.0053 re_causal 0.0152 /// teacc 98.99 lr 0.00010000
+Epoch 265, weight, value: tensor([[-0.0805,  0.1710,  0.0750,  ..., -0.2517, -0.1275,  0.0224],
+        [ 0.1825, -0.0274, -0.0931,  ...,  0.0954,  0.1295, -0.1638],
+        [-0.1208, -0.0676, -0.0461,  ..., -0.0933, -0.0432, -0.0884],
+        ...,
+        [-0.0893,  0.1791, -0.1998,  ..., -0.1907, -0.0184, -0.2090],
+        [ 0.0170, -0.1178,  0.0293,  ...,  0.0769, -0.1399, -0.0603],
+        [-0.1369, -0.1317,  0.1019,  ..., -0.1255, -0.0698,  0.1819]],
+       device='cuda:0'), grad: tensor([[ 4.2375e-08, -6.6124e-08,  2.3283e-09,  ...,  4.8894e-08,
+          0.0000e+00, -2.7940e-09],
+        [ 3.7719e-08,  2.2305e-07,  5.0757e-08,  ...,  4.7963e-08,
+          0.0000e+00,  4.5169e-08],
+        [ 1.3039e-08, -6.7521e-08,  1.8161e-08,  ...,  2.0955e-08,
+          0.0000e+00,  8.3819e-09],
+        ...,
+        [ 5.0757e-08, -3.6368e-07,  7.5158e-07,  ...,  8.0094e-08,
+          0.0000e+00,  7.2317e-07],
+        [-3.6508e-07,  1.5087e-07,  2.0489e-08,  ..., -4.0093e-07,
+          0.0000e+00,  5.8673e-08],
+        [ 1.0524e-07, -2.6077e-08, -2.0154e-06,  ...,  1.1176e-07,
+          0.0000e+00, -2.1234e-06]], device='cuda:0')
+Epoch 265, bias, value: tensor([-0.0065, -0.0055,  0.0093,  0.0108,  0.0380,  0.0404, -0.0140,  0.0086,
+        -0.0407, -0.0274], device='cuda:0'), grad: tensor([ 2.2585e-07,  6.9151e-07, -3.8138e-07,  1.1418e-06,  3.9749e-06,
+        -3.2689e-07,  3.9209e-07,  2.9579e-06, -1.7658e-06, -6.9141e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 264, time 222.38, cls_loss 0.0013 cls_loss_mapping 0.0020 cls_loss_causal 0.5126 re_mapping 0.0051 re_causal 0.0147 /// teacc 99.01 lr 0.00010000
+Epoch 266, weight, value: tensor([[-0.0806,  0.1719,  0.0751,  ..., -0.2522, -0.1275,  0.0225],
+        [ 0.1825, -0.0276, -0.0933,  ...,  0.0954,  0.1295, -0.1641],
+        [-0.1209, -0.0676, -0.0466,  ..., -0.0933, -0.0433, -0.0886],
+        ...,
+        [-0.0893,  0.1794, -0.2009,  ..., -0.1911, -0.0185, -0.2091],
+        [ 0.0181, -0.1178,  0.0294,  ...,  0.0789, -0.1400, -0.0590],
+        [-0.1371, -0.1319,  0.1022,  ..., -0.1256, -0.0698,  0.1823]],
+       device='cuda:0'), grad: tensor([[ 1.0338e-07,  2.0489e-08,  1.3504e-08,  ...,  7.5437e-08,
+          1.3970e-09,  4.6566e-09],
+        [-4.9472e-06, -4.6100e-07, -3.8650e-08,  ..., -7.7337e-06,
+         -3.8892e-06,  1.0710e-08],
+        [ 3.3751e-06,  2.1886e-08,  1.2107e-08,  ...,  6.2287e-06,
+          3.5241e-06,  7.4506e-09],
+        ...,
+        [ 5.1735e-07,  2.1420e-08,  2.3749e-08,  ...,  6.6636e-07,
+          2.8824e-07,  1.3039e-08],
+        [ 6.1886e-07,  1.4482e-07,  1.9651e-07,  ...,  6.9151e-07,
+          2.3283e-09,  2.1001e-07],
+        [ 4.7917e-07,  1.8766e-07,  1.0803e-07,  ...,  4.1211e-07,
+          5.5879e-09,  9.6858e-08]], device='cuda:0')
+Epoch 266, bias, value: tensor([-0.0061, -0.0057,  0.0092,  0.0117,  0.0379,  0.0402, -0.0154,  0.0082,
+        -0.0397, -0.0274], device='cuda:0'), grad: tensor([ 2.0396e-07, -1.8522e-05,  1.4029e-05,  5.4855e-07,  1.6065e-07,
+        -8.8513e-06,  7.7784e-06,  1.6447e-06,  1.7984e-06,  1.2144e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
diff --git a/Meta-causal/code-withStyleAttack/65662.error b/Meta-causal/code-withStyleAttack/65662.error
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/Meta-causal/code-withStyleAttack/65662.log b/Meta-causal/code-withStyleAttack/65662.log
new file mode 100644
index 0000000000000000000000000000000000000000..c30ac72a3bdb1ad4985ed47eb8c4e80a2e2b08f4
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/65662.log
@@ -0,0 +1,7153 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 250, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep250_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_epoch250', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 3
+--------------------------CA_multiple--------------------------
+---------------------------14 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+Epoch 1, weight, value: tensor([[-0.0118,  0.0228, -0.0024,  ..., -0.0263,  0.0294,  0.0225],
+        [ 0.0117,  0.0125, -0.0312,  ...,  0.0006, -0.0133,  0.0132],
+        [ 0.0204, -0.0145, -0.0123,  ..., -0.0209,  0.0127, -0.0073],
+        ...,
+        [-0.0015, -0.0013,  0.0121,  ...,  0.0043,  0.0199,  0.0109],
+        [ 0.0096,  0.0208, -0.0142,  ...,  0.0160, -0.0174,  0.0288],
+        [-0.0055, -0.0161,  0.0242,  ..., -0.0260, -0.0230,  0.0003]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([ 0.0002,  0.0236,  0.0062,  0.0051,  0.0040, -0.0094,  0.0250, -0.0272,
+         0.0250,  0.0046], device='cuda:0'), grad: None
+100
+0.0001
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 221.75, cls_loss 1.6842 cls_loss_mapping 2.0049 cls_loss_causal 2.2496 re_mapping 0.0767 re_causal 0.0774 /// teacc 84.37 lr 0.00010000
+Epoch 2, weight, value: tensor([[-0.0126,  0.0228,  0.0004,  ..., -0.0319,  0.0314,  0.0219],
+        [ 0.0086,  0.0125, -0.0421,  ...,  0.0074, -0.0105,  0.0126],
+        [ 0.0192, -0.0145, -0.0187,  ..., -0.0247,  0.0152, -0.0079],
+        ...,
+        [ 0.0011, -0.0013,  0.0107,  ...,  0.0045,  0.0185,  0.0114],
+        [ 0.0097,  0.0208, -0.0128,  ...,  0.0117, -0.0165,  0.0295],
+        [-0.0047, -0.0161,  0.0288,  ..., -0.0276, -0.0288, -0.0004]],
+       device='cuda:0'), grad: tensor([[ 0.0072,  0.0000,  0.0089,  ...,  0.0002,  0.0204,  0.0000],
+        [ 0.0124,  0.0000,  0.0125,  ...,  0.0015,  0.0347,  0.0000],
+        [-0.0183,  0.0000,  0.0107,  ...,  0.0003, -0.0353,  0.0000],
+        ...,
+        [-0.0045,  0.0000, -0.0565,  ..., -0.0074, -0.0013,  0.0000],
+        [-0.0344,  0.0000, -0.0058,  ..., -0.0060, -0.0693,  0.0000],
+        [ 0.0173,  0.0000,  0.1266,  ...,  0.0083,  0.0386,  0.0000]],
+       device='cuda:0')
+Epoch 2, bias, value: tensor([-0.0037,  0.0263,  0.0055,  0.0059,  0.0041, -0.0085,  0.0241, -0.0262,
+         0.0237,  0.0050], device='cuda:0'), grad: tensor([ 0.0261,  0.0339, -0.0185,  0.0468, -0.0235, -0.0387, -0.0398, -0.0343,
+        -0.0600,  0.1082], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 222.81, cls_loss 0.5751 cls_loss_mapping 0.8903 cls_loss_causal 1.9459 re_mapping 0.2095 re_causal 0.2474 /// teacc 90.15 lr 0.00010000
+Epoch 3, weight, value: tensor([[-0.0133,  0.0228, -0.0016,  ..., -0.0345,  0.0322,  0.0219],
+        [ 0.0073,  0.0125, -0.0446,  ...,  0.0099, -0.0113,  0.0126],
+        [ 0.0210, -0.0145, -0.0211,  ..., -0.0259,  0.0167, -0.0079],
+        ...,
+        [ 0.0014, -0.0013,  0.0108,  ...,  0.0048,  0.0192,  0.0114],
+        [ 0.0087,  0.0208, -0.0127,  ...,  0.0093, -0.0153,  0.0295],
+        [-0.0047, -0.0161,  0.0294,  ..., -0.0308, -0.0306, -0.0004]],
+       device='cuda:0'), grad: tensor([[ 0.0004,  0.0000,  0.0062,  ...,  0.0003,  0.0099,  0.0000],
+        [ 0.0026,  0.0000,  0.0009,  ...,  0.0002,  0.0028,  0.0000],
+        [-0.0282,  0.0000, -0.0045,  ...,  0.0004, -0.0375,  0.0000],
+        ...,
+        [-0.0017,  0.0000,  0.0044,  ...,  0.0007, -0.0014,  0.0000],
+        [ 0.0175,  0.0000,  0.0013,  ...,  0.0011,  0.0173,  0.0000],
+        [ 0.0029,  0.0000,  0.0058,  ...,  0.0027,  0.0027,  0.0000]],
+       device='cuda:0')
+Epoch 3, bias, value: tensor([-0.0044,  0.0265,  0.0052,  0.0057,  0.0041, -0.0070,  0.0236, -0.0264,
+         0.0234,  0.0052], device='cuda:0'), grad: tensor([ 0.0199,  0.0046, -0.0508, -0.0047,  0.0078, -0.0029, -0.0100,  0.0019,
+         0.0240,  0.0102], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 220.88, cls_loss 0.3477 cls_loss_mapping 0.5253 cls_loss_causal 1.7447 re_mapping 0.1589 re_causal 0.2344 /// teacc 93.42 lr 0.00010000
+Epoch 4, weight, value: tensor([[-0.0136,  0.0228, -0.0035,  ..., -0.0363,  0.0330,  0.0219],
+        [ 0.0068,  0.0125, -0.0460,  ...,  0.0108, -0.0103,  0.0126],
+        [ 0.0225, -0.0145, -0.0216,  ..., -0.0257,  0.0167, -0.0079],
+        ...,
+        [ 0.0025, -0.0013,  0.0104,  ...,  0.0053,  0.0195,  0.0114],
+        [ 0.0083,  0.0208, -0.0141,  ...,  0.0069, -0.0150,  0.0295],
+        [-0.0057, -0.0161,  0.0304,  ..., -0.0329, -0.0310, -0.0004]],
+       device='cuda:0'), grad: tensor([[-0.0008,  0.0000,  0.0006,  ...,  0.0000, -0.0026,  0.0000],
+        [ 0.0009,  0.0000,  0.0005,  ...,  0.0000, -0.0022,  0.0000],
+        [-0.0275,  0.0000,  0.0009,  ...,  0.0000, -0.0058,  0.0000],
+        ...,
+        [ 0.0023,  0.0000,  0.0018,  ...,  0.0000,  0.0020,  0.0000],
+        [ 0.0611,  0.0000,  0.0223,  ...,  0.0000,  0.0236,  0.0000],
+        [ 0.0045,  0.0000, -0.0014,  ...,  0.0000,  0.0022,  0.0000]],
+       device='cuda:0')
+Epoch 4, bias, value: tensor([-0.0041,  0.0269,  0.0052,  0.0057,  0.0037, -0.0064,  0.0235, -0.0267,
+         0.0230,  0.0052], device='cuda:0'), grad: tensor([-0.0077, -0.0008, -0.0145, -0.0323,  0.0042, -0.0293,  0.0009,  0.0038,
+         0.0704,  0.0052], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 218.72, cls_loss 0.2539 cls_loss_mapping 0.3669 cls_loss_causal 1.5234 re_mapping 0.1287 re_causal 0.2210 /// teacc 94.90 lr 0.00010000
+Epoch 5, weight, value: tensor([[-0.0134,  0.0228, -0.0046,  ..., -0.0408,  0.0336,  0.0219],
+        [ 0.0065,  0.0125, -0.0470,  ...,  0.0115, -0.0087,  0.0126],
+        [ 0.0238, -0.0145, -0.0223,  ..., -0.0229,  0.0165, -0.0079],
+        ...,
+        [ 0.0047, -0.0013,  0.0098,  ...,  0.0070,  0.0199,  0.0114],
+        [ 0.0074,  0.0208, -0.0146,  ...,  0.0038, -0.0147,  0.0295],
+        [-0.0073, -0.0161,  0.0309,  ..., -0.0338, -0.0308, -0.0004]],
+       device='cuda:0'), grad: tensor([[ 2.4948e-03,  0.0000e+00,  2.3232e-03,  ...,  5.9843e-05,
+          8.5449e-03,  0.0000e+00],
+        [-3.3360e-03,  0.0000e+00, -6.3744e-03,  ..., -1.0071e-02,
+         -2.1877e-03,  0.0000e+00],
+        [ 2.0355e-02,  0.0000e+00,  1.5106e-03,  ...,  8.4114e-04,
+          1.0719e-02,  0.0000e+00],
+        ...,
+        [ 1.0414e-02,  0.0000e+00,  7.0229e-03,  ..., -1.8120e-04,
+          6.8588e-03,  0.0000e+00],
+        [-4.2389e-02,  0.0000e+00,  1.3069e-02,  ...,  2.7485e-03,
+         -1.3840e-02,  0.0000e+00],
+        [ 4.2953e-03,  0.0000e+00, -3.7781e-02,  ...,  6.1703e-04,
+         -8.6594e-03,  0.0000e+00]], device='cuda:0')
+Epoch 5, bias, value: tensor([-0.0039,  0.0276,  0.0055,  0.0055,  0.0038, -0.0067,  0.0232, -0.0267,
+         0.0230,  0.0051], device='cuda:0'), grad: tensor([ 0.0161, -0.0300,  0.0190,  0.0335, -0.0035, -0.0140, -0.0066,  0.0149,
+        -0.0064, -0.0230], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 219.21, cls_loss 0.2005 cls_loss_mapping 0.2738 cls_loss_causal 1.4344 re_mapping 0.1058 re_causal 0.2003 /// teacc 95.39 lr 0.00010000
+Epoch 6, weight, value: tensor([[-0.0138,  0.0228, -0.0060,  ..., -0.0444,  0.0334,  0.0219],
+        [ 0.0058,  0.0125, -0.0481,  ...,  0.0117, -0.0080,  0.0126],
+        [ 0.0248, -0.0145, -0.0229,  ..., -0.0204,  0.0163, -0.0079],
+        ...,
+        [ 0.0057, -0.0013,  0.0094,  ...,  0.0076,  0.0200,  0.0114],
+        [ 0.0074,  0.0208, -0.0151,  ...,  0.0024, -0.0143,  0.0295],
+        [-0.0078, -0.0161,  0.0315,  ..., -0.0345, -0.0306, -0.0004]],
+       device='cuda:0'), grad: tensor([[-2.9697e-03,  0.0000e+00,  6.4507e-03,  ...,  2.4348e-05,
+         -9.5177e-04,  0.0000e+00],
+        [ 1.1158e-03,  0.0000e+00,  4.9877e-04,  ...,  7.8022e-05,
+          9.6560e-04,  0.0000e+00],
+        [ 1.1053e-03,  0.0000e+00,  1.8187e-03,  ...,  1.6415e-04,
+         -8.0795e-03,  0.0000e+00],
+        ...,
+        [-1.9119e-02,  0.0000e+00, -5.7793e-04,  ...,  5.4866e-05,
+         -1.5533e-02,  0.0000e+00],
+        [ 2.9640e-03,  0.0000e+00, -6.6185e-03,  ...,  3.2568e-04,
+          4.6883e-03,  0.0000e+00],
+        [ 1.2794e-02,  0.0000e+00,  8.0338e-03,  ...,  2.3575e-03,
+          1.3672e-02,  0.0000e+00]], device='cuda:0')
+Epoch 6, bias, value: tensor([-0.0039,  0.0276,  0.0055,  0.0052,  0.0041, -0.0066,  0.0229, -0.0268,
+         0.0231,  0.0053], device='cuda:0'), grad: tensor([ 0.0018,  0.0014, -0.0032,  0.0058, -0.0147,  0.0065,  0.0040, -0.0266,
+        -0.0003,  0.0253], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 5----------------------------------------------------
+epoch 5, time 219.32, cls_loss 0.1731 cls_loss_mapping 0.2329 cls_loss_causal 1.3032 re_mapping 0.0907 re_causal 0.1857 /// teacc 95.98 lr 0.00010000
+Epoch 7, weight, value: tensor([[-0.0144,  0.0228, -0.0067,  ..., -0.0481,  0.0336,  0.0219],
+        [ 0.0057,  0.0125, -0.0497,  ...,  0.0112, -0.0073,  0.0126],
+        [ 0.0258, -0.0145, -0.0238,  ..., -0.0200,  0.0160, -0.0079],
+        ...,
+        [ 0.0062, -0.0013,  0.0088,  ...,  0.0078,  0.0200,  0.0114],
+        [ 0.0069,  0.0208, -0.0155,  ...,  0.0013, -0.0143,  0.0295],
+        [-0.0090, -0.0161,  0.0321,  ..., -0.0352, -0.0308, -0.0004]],
+       device='cuda:0'), grad: tensor([[-5.1041e-03,  0.0000e+00,  1.3676e-03,  ...,  2.3358e-06,
+         -3.9597e-03,  0.0000e+00],
+        [ 1.2379e-03,  0.0000e+00,  9.1839e-04,  ...,  1.4175e-06,
+          6.3438e-03,  0.0000e+00],
+        [ 5.2166e-04,  0.0000e+00,  2.2125e-03,  ...,  9.5833e-07,
+         -5.6763e-03,  0.0000e+00],
+        ...,
+        [ 1.5430e-03,  0.0000e+00,  1.4477e-03,  ..., -1.9759e-05,
+          4.8304e-04,  0.0000e+00],
+        [ 4.6120e-03,  0.0000e+00,  2.7122e-03,  ...,  3.3388e-07,
+          3.3855e-03,  0.0000e+00],
+        [ 1.3089e-04,  0.0000e+00, -1.5572e-02,  ...,  1.0930e-05,
+         -2.2449e-03,  0.0000e+00]], device='cuda:0')
+Epoch 7, bias, value: tensor([-0.0034,  0.0276,  0.0053,  0.0051,  0.0045, -0.0070,  0.0225, -0.0269,
+         0.0232,  0.0054], device='cuda:0'), grad: tensor([-0.0089,  0.0094, -0.0060, -0.0251,  0.0048,  0.0266, -0.0009,  0.0030,
+         0.0094, -0.0122], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 6----------------------------------------------------
+epoch 6, time 219.21, cls_loss 0.1524 cls_loss_mapping 0.2100 cls_loss_causal 1.2993 re_mapping 0.0762 re_causal 0.1680 /// teacc 96.07 lr 0.00010000
+Epoch 8, weight, value: tensor([[-0.0149,  0.0228, -0.0079,  ..., -0.0489,  0.0333,  0.0219],
+        [ 0.0052,  0.0125, -0.0507,  ...,  0.0111, -0.0067,  0.0126],
+        [ 0.0266, -0.0145, -0.0243,  ..., -0.0201,  0.0152, -0.0079],
+        ...,
+        [ 0.0067, -0.0013,  0.0084,  ...,  0.0079,  0.0200,  0.0114],
+        [ 0.0065,  0.0208, -0.0156,  ...,  0.0013, -0.0144,  0.0295],
+        [-0.0094, -0.0161,  0.0328,  ..., -0.0354, -0.0297, -0.0004]],
+       device='cuda:0'), grad: tensor([[-0.0003,  0.0000,  0.0005,  ...,  0.0000, -0.0020,  0.0000],
+        [ 0.0006,  0.0000, -0.0210,  ...,  0.0000, -0.0089,  0.0000],
+        [-0.0083,  0.0000,  0.0005,  ...,  0.0000, -0.0036,  0.0000],
+        ...,
+        [ 0.0036,  0.0000,  0.0120,  ...,  0.0000,  0.0046,  0.0000],
+        [ 0.0022,  0.0000,  0.0033,  ...,  0.0000,  0.0036,  0.0000],
+        [-0.0108,  0.0000, -0.0057,  ...,  0.0000, -0.0091,  0.0000]],
+       device='cuda:0')
+Epoch 8, bias, value: tensor([-0.0035,  0.0279,  0.0055,  0.0049,  0.0042, -0.0072,  0.0225, -0.0270,
+         0.0231,  0.0058], device='cuda:0'), grad: tensor([-0.0048, -0.0293, -0.0114,  0.0277,  0.0001,  0.0094, -0.0057,  0.0235,
+         0.0070, -0.0167], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 7----------------------------------------------------
+epoch 7, time 219.46, cls_loss 0.1335 cls_loss_mapping 0.1743 cls_loss_causal 1.2317 re_mapping 0.0690 re_causal 0.1570 /// teacc 96.80 lr 0.00010000
+Epoch 9, weight, value: tensor([[-0.0148,  0.0228, -0.0085,  ..., -0.0495,  0.0332,  0.0219],
+        [ 0.0047,  0.0125, -0.0512,  ...,  0.0108, -0.0057,  0.0126],
+        [ 0.0269, -0.0145, -0.0251,  ..., -0.0202,  0.0141, -0.0079],
+        ...,
+        [ 0.0080, -0.0013,  0.0080,  ...,  0.0082,  0.0203,  0.0114],
+        [ 0.0060,  0.0208, -0.0156,  ...,  0.0017, -0.0143,  0.0295],
+        [-0.0108, -0.0161,  0.0333,  ..., -0.0362, -0.0297, -0.0004]],
+       device='cuda:0'), grad: tensor([[ 2.0733e-03,  0.0000e+00,  2.9349e-04,  ...,  0.0000e+00,
+         -7.9453e-05,  0.0000e+00],
+        [ 1.6060e-03,  0.0000e+00,  8.5402e-04,  ...,  0.0000e+00,
+          9.1362e-04,  0.0000e+00],
+        [ 5.8055e-05,  0.0000e+00,  3.3522e-04,  ...,  0.0000e+00,
+          9.9277e-04,  0.0000e+00],
+        ...,
+        [ 4.6692e-03,  0.0000e+00,  2.4109e-03,  ...,  0.0000e+00,
+          8.7357e-04,  0.0000e+00],
+        [-1.6518e-03,  0.0000e+00,  1.9779e-03,  ...,  0.0000e+00,
+         -1.9665e-03,  0.0000e+00],
+        [ 2.2774e-03,  0.0000e+00,  4.0283e-03,  ...,  0.0000e+00,
+         -9.0265e-04,  0.0000e+00]], device='cuda:0')
+Epoch 9, bias, value: tensor([-0.0035,  0.0284,  0.0051,  0.0052,  0.0044, -0.0077,  0.0223, -0.0268,
+         0.0235,  0.0056], device='cuda:0'), grad: tensor([ 0.0006,  0.0042,  0.0017,  0.0190, -0.0242, -0.0178, -0.0019,  0.0090,
+         0.0014,  0.0079], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 8----------------------------------------------------
+epoch 8, time 219.68, cls_loss 0.1251 cls_loss_mapping 0.1543 cls_loss_causal 1.1917 re_mapping 0.0646 re_causal 0.1443 /// teacc 97.04 lr 0.00010000
+Epoch 10, weight, value: tensor([[-0.0155,  0.0228, -0.0092,  ..., -0.0506,  0.0329,  0.0219],
+        [ 0.0038,  0.0125, -0.0519,  ...,  0.0105, -0.0049,  0.0126],
+        [ 0.0274, -0.0145, -0.0256,  ..., -0.0202,  0.0133, -0.0079],
+        ...,
+        [ 0.0088, -0.0013,  0.0078,  ...,  0.0089,  0.0203,  0.0114],
+        [ 0.0060,  0.0208, -0.0159,  ...,  0.0020, -0.0140,  0.0295],
+        [-0.0118, -0.0161,  0.0339,  ..., -0.0364, -0.0292, -0.0004]],
+       device='cuda:0'), grad: tensor([[ 3.0828e-04,  0.0000e+00,  4.2892e-04,  ...,  4.5970e-06,
+          4.0579e-04,  0.0000e+00],
+        [ 6.8617e-04,  0.0000e+00,  8.0824e-05,  ...,  1.7239e-06,
+         -4.3917e-04,  0.0000e+00],
+        [ 1.7424e-03,  0.0000e+00,  5.7983e-04,  ...,  1.4137e-06,
+          2.6398e-03,  0.0000e+00],
+        ...,
+        [ 1.7726e-04,  0.0000e+00,  2.1839e-04,  ..., -1.5914e-05,
+          5.3644e-04,  0.0000e+00],
+        [-4.1962e-03,  0.0000e+00, -5.4979e-04,  ...,  1.0096e-06,
+          2.3484e-05,  0.0000e+00],
+        [ 9.2316e-04,  0.0000e+00,  4.6015e-04,  ...,  4.0270e-06,
+          1.1492e-04,  0.0000e+00]], device='cuda:0')
+Epoch 10, bias, value: tensor([-0.0037,  0.0280,  0.0050,  0.0049,  0.0042, -0.0077,  0.0222, -0.0264,
+         0.0240,  0.0057], device='cuda:0'), grad: tensor([ 0.0023,  0.0010,  0.0195, -0.0186,  0.0017,  0.0015, -0.0014,  0.0021,
+        -0.0106,  0.0024], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 9, time 218.62, cls_loss 0.1113 cls_loss_mapping 0.1363 cls_loss_causal 1.1221 re_mapping 0.0603 re_causal 0.1350 /// teacc 96.99 lr 0.00010000
+Epoch 11, weight, value: tensor([[-0.0164,  0.0228, -0.0096,  ..., -0.0521,  0.0328,  0.0219],
+        [ 0.0033,  0.0125, -0.0523,  ...,  0.0103, -0.0042,  0.0126],
+        [ 0.0280, -0.0145, -0.0261,  ..., -0.0204,  0.0129, -0.0079],
+        ...,
+        [ 0.0089, -0.0013,  0.0071,  ...,  0.0104,  0.0199,  0.0114],
+        [ 0.0057,  0.0208, -0.0162,  ...,  0.0015, -0.0138,  0.0295],
+        [-0.0123, -0.0161,  0.0344,  ..., -0.0364, -0.0289, -0.0004]],
+       device='cuda:0'), grad: tensor([[ 1.7178e-04,  0.0000e+00,  1.3912e-04,  ...,  2.2531e-05,
+          3.3593e-04,  0.0000e+00],
+        [ 3.1853e-04,  0.0000e+00,  1.2231e-04,  ...,  5.9724e-05,
+         -3.1519e-04,  0.0000e+00],
+        [ 1.0300e-03,  0.0000e+00,  1.1057e-04,  ...,  3.7074e-04,
+          4.4799e-04,  0.0000e+00],
+        ...,
+        [-2.0523e-03,  0.0000e+00,  4.9686e-04,  ..., -3.4976e-04,
+         -1.0376e-03,  0.0000e+00],
+        [ 2.0905e-03,  0.0000e+00,  3.2921e-03,  ...,  2.2125e-04,
+          2.3098e-03,  0.0000e+00],
+        [-1.5465e-02,  0.0000e+00, -5.7793e-03,  ...,  1.4937e-04,
+         -1.5442e-02,  0.0000e+00]], device='cuda:0')
+Epoch 11, bias, value: tensor([-0.0038,  0.0280,  0.0052,  0.0048,  0.0044, -0.0077,  0.0219, -0.0265,
+         0.0243,  0.0056], device='cuda:0'), grad: tensor([ 6.6853e-04, -5.5701e-05,  1.0920e-03,  1.9730e-02,  7.5483e-04,
+        -5.8441e-03, -1.4508e-04, -1.8644e-03,  5.8098e-03, -2.0142e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 10----------------------------------------------------
+epoch 10, time 221.32, cls_loss 0.0999 cls_loss_mapping 0.1227 cls_loss_causal 1.1094 re_mapping 0.0549 re_causal 0.1267 /// teacc 97.24 lr 0.00010000
+Epoch 12, weight, value: tensor([[-0.0171,  0.0228, -0.0102,  ..., -0.0525,  0.0324,  0.0219],
+        [ 0.0031,  0.0125, -0.0536,  ...,  0.0116, -0.0032,  0.0126],
+        [ 0.0284, -0.0145, -0.0262,  ..., -0.0203,  0.0123, -0.0079],
+        ...,
+        [ 0.0094, -0.0013,  0.0069,  ...,  0.0110,  0.0197,  0.0114],
+        [ 0.0054,  0.0208, -0.0166,  ...,  0.0004, -0.0138,  0.0295],
+        [-0.0129, -0.0161,  0.0346,  ..., -0.0370, -0.0284, -0.0004]],
+       device='cuda:0'), grad: tensor([[ 2.4557e-04,  0.0000e+00, -2.1343e-03,  ...,  1.0300e-06,
+         -1.6947e-03,  0.0000e+00],
+        [ 2.1577e-04,  0.0000e+00,  3.1209e-04,  ...,  1.6671e-07,
+         -8.0013e-04,  0.0000e+00],
+        [-1.9207e-03,  0.0000e+00,  4.3845e-04,  ...,  1.9372e-07,
+          2.2519e-04,  0.0000e+00],
+        ...,
+        [ 2.8992e-04,  0.0000e+00,  1.5678e-03,  ...,  1.7462e-07,
+          1.4315e-03,  0.0000e+00],
+        [-1.1641e-04,  0.0000e+00, -3.7231e-03,  ...,  4.0419e-06,
+         -3.1757e-03,  0.0000e+00],
+        [ 1.1234e-03,  0.0000e+00,  7.3776e-03,  ...,  1.6848e-06,
+          2.5864e-03,  0.0000e+00]], device='cuda:0')
+Epoch 12, bias, value: tensor([-0.0040,  0.0282,  0.0049,  0.0049,  0.0042, -0.0078,  0.0220, -0.0264,
+         0.0244,  0.0056], device='cuda:0'), grad: tensor([-1.0231e-02, -1.9920e-04, -1.6049e-05,  4.3144e-03, -4.3869e-03,
+         3.5877e-03,  1.2624e-04,  5.4092e-03, -1.2894e-02,  1.4290e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 11----------------------------------------------------
+epoch 11, time 218.79, cls_loss 0.0856 cls_loss_mapping 0.1040 cls_loss_causal 1.0154 re_mapping 0.0538 re_causal 0.1211 /// teacc 97.46 lr 0.00010000
+Epoch 13, weight, value: tensor([[-1.7175e-02,  2.2769e-02, -1.0488e-02,  ..., -5.3541e-02,
+          3.2494e-02,  2.1893e-02],
+        [ 2.9271e-03,  1.2500e-02, -5.4046e-02,  ...,  1.1676e-02,
+         -2.6134e-03,  1.2576e-02],
+        [ 2.8715e-02, -1.4480e-02, -2.6587e-02,  ..., -2.0364e-02,
+          1.1720e-02, -7.9110e-03],
+        ...,
+        [ 1.0327e-02, -1.2941e-03,  6.8708e-03,  ...,  1.1770e-02,
+          1.9598e-02,  1.1425e-02],
+        [ 4.7974e-03,  2.0836e-02, -1.6912e-02,  ...,  4.7806e-05,
+         -1.3859e-02,  2.9502e-02],
+        [-1.3850e-02, -1.6141e-02,  3.5095e-02,  ..., -3.7387e-02,
+         -2.7884e-02, -3.8447e-04]], device='cuda:0'), grad: tensor([[ 4.3821e-04,  0.0000e+00,  6.7174e-05,  ...,  5.4501e-06,
+          9.9778e-05,  0.0000e+00],
+        [ 1.0386e-03,  0.0000e+00,  1.5581e-04,  ...,  1.2964e-05,
+         -3.2783e-04,  0.0000e+00],
+        [ 1.9627e-03,  0.0000e+00,  2.3377e-04,  ...,  1.3493e-05,
+          1.2789e-03,  0.0000e+00],
+        ...,
+        [-1.0918e-02,  0.0000e+00, -2.1954e-03,  ..., -1.4901e-04,
+         -1.3571e-03,  0.0000e+00],
+        [ 2.9602e-03,  0.0000e+00,  9.1553e-05,  ...,  1.5095e-05,
+         -7.1478e-04,  0.0000e+00],
+        [-3.8795e-03,  0.0000e+00, -1.3718e-02,  ...,  4.4942e-05,
+          7.5340e-04,  0.0000e+00]], device='cuda:0')
+Epoch 13, bias, value: tensor([-0.0035,  0.0282,  0.0049,  0.0050,  0.0041, -0.0079,  0.0217, -0.0261,
+         0.0245,  0.0054], device='cuda:0'), grad: tensor([-0.0006,  0.0010, -0.0040,  0.0029,  0.0187,  0.0026, -0.0006, -0.0105,
+         0.0057, -0.0152], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 12----------------------------------------------------
+epoch 12, time 219.25, cls_loss 0.0909 cls_loss_mapping 0.1133 cls_loss_causal 1.0595 re_mapping 0.0484 re_causal 0.1174 /// teacc 97.57 lr 0.00010000
+Epoch 14, weight, value: tensor([[-0.0174,  0.0223, -0.0110,  ..., -0.0539,  0.0324,  0.0219],
+        [ 0.0026,  0.0108, -0.0538,  ...,  0.0116, -0.0016,  0.0126],
+        [ 0.0294, -0.0126, -0.0267,  ..., -0.0198,  0.0113, -0.0079],
+        ...,
+        [ 0.0107, -0.0024,  0.0064,  ...,  0.0118,  0.0192,  0.0114],
+        [ 0.0041,  0.0201, -0.0172,  ..., -0.0004, -0.0138,  0.0295],
+        [-0.0141, -0.0164,  0.0356,  ..., -0.0377, -0.0274, -0.0004]],
+       device='cuda:0'), grad: tensor([[-1.1490e-02,  0.0000e+00, -4.9531e-05,  ...,  0.0000e+00,
+         -1.7609e-02,  0.0000e+00],
+        [ 8.0109e-03,  0.0000e+00,  3.1352e-04,  ...,  0.0000e+00,
+          1.1238e-02,  0.0000e+00],
+        [-5.4665e-03,  0.0000e+00,  1.9860e-04,  ...,  0.0000e+00,
+          4.8375e-04,  0.0000e+00],
+        ...,
+        [ 3.0017e-04,  0.0000e+00,  1.4007e-04,  ...,  0.0000e+00,
+          4.7827e-04,  0.0000e+00],
+        [ 5.2948e-03,  0.0000e+00,  6.5279e-04,  ...,  0.0000e+00,
+          1.3485e-03,  0.0000e+00],
+        [ 3.5019e-03,  0.0000e+00,  1.9302e-03,  ...,  0.0000e+00,
+          2.7733e-03,  0.0000e+00]], device='cuda:0')
+Epoch 14, bias, value: tensor([-0.0034,  0.0282,  0.0052,  0.0048,  0.0041, -0.0080,  0.0213, -0.0263,
+         0.0245,  0.0056], device='cuda:0'), grad: tensor([-0.0307,  0.0211, -0.0127, -0.0020, -0.0030, -0.0025,  0.0077,  0.0009,
+         0.0143,  0.0070], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 13, time 218.77, cls_loss 0.0798 cls_loss_mapping 0.0973 cls_loss_causal 1.0558 re_mapping 0.0448 re_causal 0.1108 /// teacc 97.50 lr 0.00010000
+Epoch 15, weight, value: tensor([[-0.0175,  0.0202, -0.0115,  ..., -0.0566,  0.0324,  0.0219],
+        [ 0.0023,  0.0079, -0.0546,  ...,  0.0113, -0.0007,  0.0126],
+        [ 0.0293, -0.0095, -0.0275,  ..., -0.0198,  0.0108, -0.0079],
+        ...,
+        [ 0.0112, -0.0049,  0.0064,  ...,  0.0129,  0.0189,  0.0114],
+        [ 0.0036,  0.0175, -0.0176,  ..., -0.0007, -0.0135,  0.0295],
+        [-0.0153, -0.0178,  0.0362,  ..., -0.0381, -0.0271, -0.0004]],
+       device='cuda:0'), grad: tensor([[ 1.3185e-04,  0.0000e+00, -1.1963e-04,  ...,  1.0490e-05,
+          2.2864e-04,  0.0000e+00],
+        [-1.4439e-03,  0.0000e+00,  6.2943e-05,  ...,  1.4651e-04,
+         -2.2297e-03,  0.0000e+00],
+        [ 2.1629e-03,  0.0000e+00,  7.2241e-05,  ...,  7.5197e-04,
+          1.1454e-03,  0.0000e+00],
+        ...,
+        [ 3.1403e-02,  0.0000e+00,  3.8028e-04,  ...,  1.6312e-02,
+          4.7922e-04,  0.0000e+00],
+        [ 4.9973e-04,  0.0000e+00,  1.9255e-03,  ...,  1.0657e-04,
+          3.2711e-04,  0.0000e+00],
+        [ 1.1492e-03,  0.0000e+00,  1.2932e-03,  ...,  5.6684e-05,
+          3.3975e-04,  0.0000e+00]], device='cuda:0')
+Epoch 15, bias, value: tensor([-0.0033,  0.0283,  0.0051,  0.0051,  0.0043, -0.0082,  0.0211, -0.0261,
+         0.0245,  0.0054], device='cuda:0'), grad: tensor([-0.0007, -0.0028,  0.0026, -0.0197, -0.0010, -0.0102,  0.0006,  0.0254,
+         0.0029,  0.0028], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 14, time 217.64, cls_loss 0.0826 cls_loss_mapping 0.1031 cls_loss_causal 1.0196 re_mapping 0.0416 re_causal 0.0998 /// teacc 97.44 lr 0.00010000
+Epoch 16, weight, value: tensor([[-1.7718e-02,  1.2063e-02, -1.2141e-02,  ..., -5.6871e-02,
+          3.2121e-02,  2.1893e-02],
+        [ 1.5121e-03, -5.6718e-04, -5.4833e-02,  ...,  1.1570e-02,
+         -2.3863e-05,  1.2576e-02],
+        [ 2.9192e-02, -1.5483e-03, -2.7864e-02,  ..., -2.0202e-02,
+          1.0512e-02, -7.9110e-03],
+        ...,
+        [ 1.2028e-02, -1.3074e-02,  5.7202e-03,  ...,  1.3618e-02,
+          1.8653e-02,  1.1425e-02],
+        [ 4.3767e-03,  1.0639e-02, -1.7824e-02,  ..., -8.9181e-04,
+         -1.3371e-02,  2.9502e-02],
+        [-1.6387e-02, -2.5177e-02,  3.6844e-02,  ..., -3.8102e-02,
+         -2.6650e-02, -3.8447e-04]], device='cuda:0'), grad: tensor([[ 5.1260e-05,  0.0000e+00, -8.0913e-06,  ...,  3.9674e-07,
+         -1.6284e-04,  0.0000e+00],
+        [ 3.3450e-04,  0.0000e+00,  2.2471e-04,  ...,  2.7921e-06,
+         -3.1233e-04,  0.0000e+00],
+        [ 1.9503e-04,  0.0000e+00,  1.0413e-04,  ...,  1.9163e-05,
+          1.1146e-04,  0.0000e+00],
+        ...,
+        [-9.7370e-04,  0.0000e+00,  1.0544e-04,  ...,  2.6613e-05,
+         -6.1214e-05,  0.0000e+00],
+        [ 3.0208e-04,  0.0000e+00,  2.2686e-04,  ...,  1.3120e-05,
+          1.8597e-04,  0.0000e+00],
+        [ 2.8443e-04,  0.0000e+00, -5.9414e-04,  ...,  8.5756e-06,
+         -4.8470e-04,  0.0000e+00]], device='cuda:0')
+Epoch 16, bias, value: tensor([-0.0035,  0.0285,  0.0049,  0.0049,  0.0045, -0.0085,  0.0211, -0.0261,
+         0.0251,  0.0052], device='cuda:0'), grad: tensor([-1.1375e-02,  1.7452e-04,  6.6805e-04,  1.0559e-02,  7.7844e-05,
+        -3.0689e-03,  3.1452e-03, -7.8106e-04,  9.4700e-04, -3.5429e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 15----------------------------------------------------
+epoch 15, time 217.96, cls_loss 0.0682 cls_loss_mapping 0.0822 cls_loss_causal 0.9587 re_mapping 0.0406 re_causal 0.0976 /// teacc 97.77 lr 0.00010000
+Epoch 17, weight, value: tensor([[-0.0181,  0.0045, -0.0123,  ..., -0.0573,  0.0318,  0.0219],
+        [ 0.0012,  0.0009, -0.0553,  ...,  0.0113,  0.0007,  0.0126],
+        [ 0.0296, -0.0034, -0.0283,  ..., -0.0206,  0.0101, -0.0079],
+        ...,
+        [ 0.0129, -0.0164,  0.0054,  ...,  0.0138,  0.0187,  0.0114],
+        [ 0.0039,  0.0084, -0.0182,  ..., -0.0005, -0.0135,  0.0295],
+        [-0.0172, -0.0323,  0.0373,  ..., -0.0381, -0.0264, -0.0004]],
+       device='cuda:0'), grad: tensor([[ 1.4687e-04,  0.0000e+00,  1.2720e-04,  ...,  2.6543e-07,
+          1.8859e-04,  0.0000e+00],
+        [ 1.4913e-04,  0.0000e+00,  1.7488e-04,  ...,  1.1977e-06,
+         -1.1253e-03,  0.0000e+00],
+        [-6.3324e-04,  0.0000e+00,  1.1492e-04,  ...,  3.8277e-07,
+          1.6022e-04,  0.0000e+00],
+        ...,
+        [ 2.5234e-03,  0.0000e+00,  5.4646e-04,  ..., -6.7838e-06,
+          8.2111e-04,  0.0000e+00],
+        [ 3.8171e-04,  0.0000e+00,  1.2569e-03,  ...,  3.0734e-07,
+          7.5245e-04,  0.0000e+00],
+        [ 3.7074e-04,  0.0000e+00, -4.2114e-03,  ...,  2.6487e-06,
+         -5.6601e-04,  0.0000e+00]], device='cuda:0')
+Epoch 17, bias, value: tensor([-0.0036,  0.0284,  0.0050,  0.0047,  0.0045, -0.0085,  0.0211, -0.0256,
+         0.0248,  0.0053], device='cuda:0'), grad: tensor([ 0.0004, -0.0008, -0.0018,  0.0008,  0.0044, -0.0139,  0.0076,  0.0042,
+         0.0035, -0.0042], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 16, time 217.24, cls_loss 0.0656 cls_loss_mapping 0.0820 cls_loss_causal 0.9977 re_mapping 0.0380 re_causal 0.0964 /// teacc 97.29 lr 0.00010000
+Epoch 18, weight, value: tensor([[-0.0176, -0.0005, -0.0122,  ..., -0.0576,  0.0316,  0.0219],
+        [ 0.0006,  0.0024, -0.0561,  ...,  0.0109,  0.0013,  0.0126],
+        [ 0.0301, -0.0043, -0.0290,  ..., -0.0205,  0.0099, -0.0079],
+        ...,
+        [ 0.0131, -0.0207,  0.0057,  ...,  0.0136,  0.0186,  0.0114],
+        [ 0.0035,  0.0050, -0.0187,  ..., -0.0001, -0.0133,  0.0295],
+        [-0.0181, -0.0383,  0.0374,  ..., -0.0383, -0.0263, -0.0004]],
+       device='cuda:0'), grad: tensor([[ 8.4162e-05,  0.0000e+00,  6.0856e-05,  ...,  2.8871e-07,
+          5.6237e-05,  0.0000e+00],
+        [-8.5354e-04,  0.0000e+00,  8.1241e-05,  ...,  4.4331e-07,
+         -1.0977e-03,  0.0000e+00],
+        [-2.4509e-04,  0.0000e+00,  7.7248e-05,  ...,  7.7300e-07,
+          1.1319e-04,  0.0000e+00],
+        ...,
+        [-6.0678e-05,  0.0000e+00,  8.0490e-04,  ..., -5.2229e-06,
+          2.4199e-04,  0.0000e+00],
+        [ 5.5408e-04,  0.0000e+00,  1.1454e-03,  ...,  2.2631e-07,
+          2.9325e-04,  0.0000e+00],
+        [-8.4305e-04,  0.0000e+00, -4.2801e-03,  ...,  1.4668e-06,
+          7.2896e-05,  0.0000e+00]], device='cuda:0')
+Epoch 18, bias, value: tensor([-0.0032,  0.0283,  0.0051,  0.0047,  0.0047, -0.0088,  0.0209, -0.0256,
+         0.0248,  0.0053], device='cuda:0'), grad: tensor([-0.0002, -0.0039,  0.0004,  0.0022,  0.0046, -0.0015,  0.0001,  0.0017,
+         0.0029, -0.0064], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 17, time 217.25, cls_loss 0.0763 cls_loss_mapping 0.0965 cls_loss_causal 0.9589 re_mapping 0.0377 re_causal 0.0918 /// teacc 97.72 lr 0.00010000
+Epoch 19, weight, value: tensor([[-1.8015e-02, -1.0963e-02, -1.2383e-02,  ..., -5.7778e-02,
+          3.1339e-02,  2.1893e-02],
+        [ 8.5515e-05,  4.4174e-03, -5.6827e-02,  ...,  1.0723e-02,
+          2.0767e-03,  1.2576e-02],
+        [ 3.0601e-02, -3.0445e-03, -2.8312e-02,  ..., -2.0565e-02,
+          9.7862e-03, -7.9110e-03],
+        ...,
+        [ 1.2963e-02, -2.1107e-02,  5.4822e-03,  ...,  1.4224e-02,
+          1.8137e-02,  1.1425e-02],
+        [ 3.4132e-03, -6.8826e-03, -1.9315e-02,  ..., -2.9777e-04,
+         -1.3033e-02,  2.9502e-02],
+        [-1.8927e-02, -5.1199e-02,  3.7845e-02,  ..., -3.8537e-02,
+         -2.5991e-02, -3.8447e-04]], device='cuda:0'), grad: tensor([[ 3.1853e-04,  2.1532e-06,  1.5855e-04,  ...,  2.0117e-07,
+          1.8072e-04,  0.0000e+00],
+        [ 2.7370e-04,  7.7114e-06,  6.9857e-05,  ..., -1.7434e-05,
+         -6.2704e-05,  0.0000e+00],
+        [-6.3896e-04, -2.4572e-05,  1.4186e-04,  ...,  1.6643e-06,
+          3.7342e-05,  0.0000e+00],
+        ...,
+        [-8.5115e-04,  2.7381e-06,  1.6773e-04,  ...,  7.1079e-06,
+         -7.5245e-04,  0.0000e+00],
+        [ 3.0422e-04,  3.9712e-06,  5.8651e-04,  ...,  1.0869e-06,
+          8.0168e-05,  0.0000e+00],
+        [ 7.1096e-04,  3.1386e-07,  2.6274e-04,  ...,  7.3947e-07,
+          4.4203e-04,  0.0000e+00]], device='cuda:0')
+Epoch 19, bias, value: tensor([-0.0031,  0.0282,  0.0061,  0.0049,  0.0044, -0.0090,  0.0207, -0.0260,
+         0.0248,  0.0051], device='cuda:0'), grad: tensor([ 1.1177e-03,  3.6025e-04, -2.2340e-04, -1.9180e-02,  8.4519e-05,
+         1.4404e-02,  1.5745e-03, -2.0638e-03,  1.7977e-03,  2.1400e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 18----------------------------------------------------
+epoch 18, time 218.21, cls_loss 0.0601 cls_loss_mapping 0.0775 cls_loss_causal 0.9205 re_mapping 0.0346 re_causal 0.0893 /// teacc 97.79 lr 0.00010000
+Epoch 20, weight, value: tensor([[-0.0183, -0.0115, -0.0128,  ..., -0.0579,  0.0312,  0.0219],
+        [-0.0007,  0.0045, -0.0574,  ...,  0.0107,  0.0024,  0.0126],
+        [ 0.0308, -0.0015, -0.0285,  ..., -0.0207,  0.0096, -0.0079],
+        ...,
+        [ 0.0134, -0.0245,  0.0053,  ...,  0.0145,  0.0179,  0.0114],
+        [ 0.0032, -0.0086, -0.0197,  ..., -0.0002, -0.0130,  0.0295],
+        [-0.0196, -0.0530,  0.0381,  ..., -0.0390, -0.0255, -0.0004]],
+       device='cuda:0'), grad: tensor([[ 1.0884e-04,  0.0000e+00,  1.6153e-05,  ...,  1.6764e-08,
+          6.9022e-05,  0.0000e+00],
+        [ 1.8191e-04,  0.0000e+00,  2.9355e-05,  ...,  1.6857e-07,
+          1.8477e-04,  0.0000e+00],
+        [-1.3094e-03,  0.0000e+00, -3.0130e-05,  ...,  1.5832e-07,
+          1.6534e-04,  0.0000e+00],
+        ...,
+        [ 1.2052e-04,  0.0000e+00,  2.3365e-05,  ..., -1.0924e-06,
+         -1.6861e-03,  0.0000e+00],
+        [-1.8060e-05,  0.0000e+00,  1.0139e-04,  ...,  1.0245e-07,
+          6.1655e-04,  0.0000e+00],
+        [-9.4414e-05,  0.0000e+00,  6.0320e-04,  ...,  2.3562e-07,
+         -2.7871e-04,  0.0000e+00]], device='cuda:0')
+Epoch 20, bias, value: tensor([-0.0034,  0.0280,  0.0061,  0.0053,  0.0048, -0.0089,  0.0204, -0.0259,
+         0.0248,  0.0049], device='cuda:0'), grad: tensor([ 4.3273e-04,  2.6550e-03, -2.4376e-03,  1.8759e-03,  7.3075e-05,
+         1.4553e-03,  1.5039e-03, -1.5472e-02,  1.0910e-02, -1.0080e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 19----------------------------------------------------
+epoch 19, time 218.04, cls_loss 0.0640 cls_loss_mapping 0.0817 cls_loss_causal 0.8950 re_mapping 0.0349 re_causal 0.0851 /// teacc 98.11 lr 0.00010000
+Epoch 21, weight, value: tensor([[-0.0184, -0.0115, -0.0130,  ..., -0.0580,  0.0308,  0.0219],
+        [-0.0009,  0.0049, -0.0574,  ...,  0.0107,  0.0033,  0.0126],
+        [ 0.0312, -0.0017, -0.0292,  ..., -0.0208,  0.0092, -0.0079],
+        ...,
+        [ 0.0143, -0.0247,  0.0050,  ...,  0.0148,  0.0179,  0.0114],
+        [ 0.0026, -0.0089, -0.0199,  ..., -0.0002, -0.0128,  0.0295],
+        [-0.0204, -0.0534,  0.0383,  ..., -0.0392, -0.0253, -0.0004]],
+       device='cuda:0'), grad: tensor([[-5.2547e-04,  1.7667e-06,  5.3942e-05,  ...,  5.7742e-08,
+          4.2856e-05,  0.0000e+00],
+        [ 3.6860e-04,  1.1669e-06,  1.4949e-04,  ...,  1.7779e-06,
+         -6.7472e-05,  0.0000e+00],
+        [-7.4244e-04, -1.0341e-05,  3.2067e-05,  ...,  3.9022e-07,
+          2.6047e-05,  0.0000e+00],
+        ...,
+        [-3.2663e-04,  2.5127e-06,  1.7512e-04,  ..., -5.9791e-06,
+          1.5795e-04,  0.0000e+00],
+        [ 2.0874e-04,  1.8450e-06,  1.1164e-04,  ...,  2.2445e-07,
+         -2.4092e-04,  0.0000e+00],
+        [-1.0830e-04,  3.3621e-07,  3.2806e-04,  ...,  1.4734e-06,
+         -2.7418e-04,  0.0000e+00]], device='cuda:0')
+Epoch 21, bias, value: tensor([-0.0038,  0.0283,  0.0060,  0.0048,  0.0048, -0.0084,  0.0200, -0.0256,
+         0.0249,  0.0049], device='cuda:0'), grad: tensor([-0.0028,  0.0007, -0.0006,  0.0019, -0.0031,  0.0019,  0.0008,  0.0007,
+        -0.0004,  0.0009], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 20, time 217.31, cls_loss 0.0542 cls_loss_mapping 0.0705 cls_loss_causal 0.9315 re_mapping 0.0321 re_causal 0.0833 /// teacc 98.00 lr 0.00010000
+Epoch 22, weight, value: tensor([[-0.0184, -0.0117, -0.0132,  ..., -0.0585,  0.0304,  0.0219],
+        [-0.0010,  0.0058, -0.0580,  ...,  0.0102,  0.0037,  0.0126],
+        [ 0.0317, -0.0022, -0.0298,  ..., -0.0210,  0.0090, -0.0079],
+        ...,
+        [ 0.0145, -0.0249,  0.0048,  ...,  0.0151,  0.0174,  0.0114],
+        [ 0.0020, -0.0101, -0.0203,  ..., -0.0005, -0.0128,  0.0295],
+        [-0.0208, -0.0541,  0.0386,  ..., -0.0394, -0.0246, -0.0004]],
+       device='cuda:0'), grad: tensor([[-9.7454e-05,  3.9972e-06, -3.6925e-05,  ...,  2.0768e-07,
+          3.5435e-05,  0.0000e+00],
+        [ 1.3280e-04,  1.9222e-05,  2.7806e-05,  ...,  1.4547e-06,
+         -6.2227e-04,  0.0000e+00],
+        [-6.7043e-04, -1.7178e-04,  6.2108e-05,  ...,  1.5860e-06,
+          1.1045e-04,  0.0000e+00],
+        ...,
+        [ 6.2799e-04,  1.4037e-05,  9.3579e-05,  ..., -7.2643e-06,
+          3.0923e-04,  0.0000e+00],
+        [ 7.3671e-04,  8.6010e-05,  4.7803e-04,  ...,  5.4855e-07,
+         -2.6751e-04,  0.0000e+00],
+        [ 5.8937e-04,  1.4156e-06, -2.1660e-04,  ...,  1.5246e-06,
+         -2.0134e-04,  0.0000e+00]], device='cuda:0')
+Epoch 22, bias, value: tensor([-0.0040,  0.0282,  0.0062,  0.0045,  0.0049, -0.0084,  0.0202, -0.0260,
+         0.0250,  0.0051], device='cuda:0'), grad: tensor([-0.0005, -0.0007, -0.0005,  0.0026,  0.0002, -0.0050,  0.0004,  0.0015,
+         0.0013,  0.0006], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 21----------------------------------------------------
+epoch 21, time 218.45, cls_loss 0.0558 cls_loss_mapping 0.0664 cls_loss_causal 0.8972 re_mapping 0.0329 re_causal 0.0796 /// teacc 98.12 lr 0.00010000
+Epoch 23, weight, value: tensor([[-0.0186, -0.0118, -0.0133,  ..., -0.0587,  0.0301,  0.0219],
+        [-0.0009,  0.0076, -0.0593,  ...,  0.0102,  0.0041,  0.0126],
+        [ 0.0318, -0.0036, -0.0302,  ..., -0.0211,  0.0086, -0.0079],
+        ...,
+        [ 0.0148, -0.0253,  0.0048,  ...,  0.0162,  0.0172,  0.0114],
+        [ 0.0021, -0.0110, -0.0203,  ..., -0.0007, -0.0126,  0.0295],
+        [-0.0218, -0.0545,  0.0391,  ..., -0.0396, -0.0243, -0.0004]],
+       device='cuda:0'), grad: tensor([[ 3.8981e-04,  0.0000e+00,  1.4699e-04,  ...,  2.1756e-06,
+          2.6536e-04,  0.0000e+00],
+        [ 6.7186e-04,  0.0000e+00,  3.4070e-04,  ...,  6.9365e-06,
+         -9.4461e-04,  0.0000e+00],
+        [-3.8490e-03,  0.0000e+00,  8.8835e-04,  ...,  6.3591e-06,
+         -6.7091e-04,  0.0000e+00],
+        ...,
+        [-5.2261e-04,  0.0000e+00,  3.4733e-03,  ...,  1.2529e-04,
+          5.5164e-05,  0.0000e+00],
+        [ 3.1433e-03,  0.0000e+00,  1.5602e-03,  ...,  4.8876e-05,
+          1.4668e-03,  0.0000e+00],
+        [ 7.0763e-04,  0.0000e+00,  1.0300e-03,  ...,  2.1428e-05,
+          9.9838e-05,  0.0000e+00]], device='cuda:0')
+Epoch 23, bias, value: tensor([-0.0037,  0.0282,  0.0060,  0.0042,  0.0050, -0.0085,  0.0200, -0.0257,
+         0.0254,  0.0050], device='cuda:0'), grad: tensor([ 0.0011,  0.0006, -0.0045,  0.0013, -0.0178,  0.0050, -0.0032,  0.0054,
+         0.0092,  0.0029], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 22, time 217.54, cls_loss 0.0515 cls_loss_mapping 0.0723 cls_loss_causal 0.9218 re_mapping 0.0304 re_causal 0.0818 /// teacc 98.03 lr 0.00010000
+Epoch 24, weight, value: tensor([[-0.0190, -0.0121, -0.0134,  ..., -0.0590,  0.0299,  0.0219],
+        [-0.0009,  0.0083, -0.0598,  ...,  0.0101,  0.0048,  0.0126],
+        [ 0.0321, -0.0038, -0.0306,  ..., -0.0207,  0.0081, -0.0079],
+        ...,
+        [ 0.0150, -0.0254,  0.0046,  ...,  0.0170,  0.0171,  0.0114],
+        [ 0.0021, -0.0132, -0.0203,  ..., -0.0009, -0.0127,  0.0295],
+        [-0.0229, -0.0565,  0.0390,  ..., -0.0399, -0.0241, -0.0004]],
+       device='cuda:0'), grad: tensor([[ 8.8394e-05,  4.2655e-06,  3.4682e-06,  ...,  5.5693e-06,
+          2.7239e-05,  0.0000e+00],
+        [-1.1295e-04, -7.3290e-04, -4.3720e-05,  ..., -3.6359e-05,
+         -5.7220e-04,  0.0000e+00],
+        [ 4.0527e-02,  4.5562e-04,  1.8632e-04,  ...,  6.4278e-03,
+          1.5032e-04,  0.0000e+00],
+        ...,
+        [ 6.4468e-04,  7.9751e-05,  3.1877e-04,  ...,  3.8838e-04,
+          3.8862e-04,  0.0000e+00],
+        [-6.1512e-04,  7.6592e-05, -3.2444e-03,  ...,  3.0696e-05,
+         -7.5388e-04,  0.0000e+00],
+        [ 2.3174e-03,  1.2986e-05,  2.5196e-03,  ...,  1.5192e-05,
+          5.9557e-04,  0.0000e+00]], device='cuda:0')
+Epoch 24, bias, value: tensor([-0.0039,  0.0285,  0.0059,  0.0042,  0.0053, -0.0083,  0.0200, -0.0256,
+         0.0251,  0.0047], device='cuda:0'), grad: tensor([-0.0012, -0.0017,  0.0298, -0.0299,  0.0003,  0.0004,  0.0009,  0.0002,
+        -0.0079,  0.0092], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 23, time 217.11, cls_loss 0.0458 cls_loss_mapping 0.0581 cls_loss_causal 0.8614 re_mapping 0.0302 re_causal 0.0783 /// teacc 98.01 lr 0.00010000
+Epoch 25, weight, value: tensor([[-0.0196, -0.0126, -0.0135,  ..., -0.0592,  0.0296,  0.0219],
+        [-0.0011,  0.0091, -0.0608,  ...,  0.0096,  0.0052,  0.0126],
+        [ 0.0319, -0.0037, -0.0306,  ..., -0.0209,  0.0079, -0.0079],
+        ...,
+        [ 0.0156, -0.0260,  0.0052,  ...,  0.0189,  0.0168,  0.0114],
+        [ 0.0015, -0.0175, -0.0203,  ..., -0.0011, -0.0129,  0.0295],
+        [-0.0235, -0.0598,  0.0393,  ..., -0.0400, -0.0235, -0.0004]],
+       device='cuda:0'), grad: tensor([[ 4.8935e-05,  0.0000e+00,  2.1607e-05,  ...,  1.3225e-07,
+          3.8505e-05,  0.0000e+00],
+        [ 1.8549e-04,  0.0000e+00,  1.1384e-05,  ...,  1.1250e-06,
+         -2.6122e-05,  0.0000e+00],
+        [-8.5258e-04,  0.0000e+00,  8.4117e-06,  ...,  1.3690e-06,
+          5.0306e-05,  0.0000e+00],
+        ...,
+        [ 4.9067e-04,  0.0000e+00,  1.0548e-03,  ..., -1.5140e-05,
+          1.9670e-04,  0.0000e+00],
+        [ 2.7752e-04,  0.0000e+00,  5.5969e-05,  ...,  8.2888e-07,
+          1.3232e-04,  0.0000e+00],
+        [ 1.8609e-04,  0.0000e+00, -1.1787e-03,  ...,  6.0052e-06,
+         -9.8109e-05,  0.0000e+00]], device='cuda:0')
+Epoch 25, bias, value: tensor([-0.0035,  0.0285,  0.0059,  0.0044,  0.0050, -0.0086,  0.0200, -0.0250,
+         0.0248,  0.0046], device='cuda:0'), grad: tensor([ 8.8573e-05,  2.4557e-04, -1.3609e-03, -4.1275e-03,  2.1636e-04,
+         3.8681e-03, -4.5490e-04,  2.5425e-03,  5.7983e-04, -1.5926e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 24----------------------------------------------------
+epoch 24, time 218.00, cls_loss 0.0482 cls_loss_mapping 0.0591 cls_loss_causal 0.9073 re_mapping 0.0287 re_causal 0.0757 /// teacc 98.21 lr 0.00010000
+Epoch 26, weight, value: tensor([[-0.0200, -0.0126, -0.0137,  ..., -0.0600,  0.0294,  0.0219],
+        [-0.0016,  0.0096, -0.0609,  ...,  0.0104,  0.0054,  0.0126],
+        [ 0.0320, -0.0038, -0.0307,  ..., -0.0209,  0.0078, -0.0079],
+        ...,
+        [ 0.0163, -0.0261,  0.0048,  ...,  0.0181,  0.0170,  0.0114],
+        [ 0.0009, -0.0183, -0.0208,  ..., -0.0012, -0.0128,  0.0295],
+        [-0.0241, -0.0604,  0.0394,  ..., -0.0390, -0.0238, -0.0004]],
+       device='cuda:0'), grad: tensor([[ 9.5725e-05,  0.0000e+00,  8.0466e-05,  ...,  1.1489e-05,
+          4.8697e-05,  0.0000e+00],
+        [-2.5034e-04,  0.0000e+00,  1.3340e-04,  ..., -2.1994e-04,
+         -6.4373e-04,  0.0000e+00],
+        [ 8.7690e-04,  0.0000e+00,  5.6028e-04,  ...,  9.1791e-05,
+          7.7188e-05,  0.0000e+00],
+        ...,
+        [-3.2005e-03,  0.0000e+00, -2.3712e-02,  ..., -4.6501e-03,
+          3.2640e-04,  0.0000e+00],
+        [-3.3665e-04,  0.0000e+00, -1.1625e-03,  ...,  1.3635e-05,
+          9.6321e-05,  0.0000e+00],
+        [-9.8944e-05,  0.0000e+00, -9.7084e-04,  ...,  2.3186e-05,
+          8.5235e-05,  0.0000e+00]], device='cuda:0')
+Epoch 26, bias, value: tensor([-0.0037,  0.0280,  0.0060,  0.0041,  0.0053, -0.0081,  0.0202, -0.0248,
+         0.0245,  0.0045], device='cuda:0'), grad: tensor([-0.0005, -0.0022,  0.0017,  0.0016,  0.0291,  0.0009, -0.0002, -0.0281,
+        -0.0015, -0.0009], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 25, time 217.30, cls_loss 0.0344 cls_loss_mapping 0.0494 cls_loss_causal 0.8657 re_mapping 0.0287 re_causal 0.0770 /// teacc 98.14 lr 0.00010000
+Epoch 27, weight, value: tensor([[-0.0204, -0.0127, -0.0142,  ..., -0.0601,  0.0290,  0.0219],
+        [-0.0020,  0.0102, -0.0611,  ...,  0.0110,  0.0059,  0.0126],
+        [ 0.0326, -0.0040, -0.0305,  ..., -0.0214,  0.0074, -0.0079],
+        ...,
+        [ 0.0168, -0.0271,  0.0049,  ...,  0.0186,  0.0166,  0.0114],
+        [ 0.0006, -0.0189, -0.0212,  ..., -0.0013, -0.0127,  0.0295],
+        [-0.0250, -0.0607,  0.0398,  ..., -0.0388, -0.0233, -0.0004]],
+       device='cuda:0'), grad: tensor([[-1.2600e-04,  0.0000e+00, -5.7258e-06,  ...,  2.7940e-08,
+          8.4005e-07,  0.0000e+00],
+        [-2.2388e-04,  0.0000e+00,  2.0713e-05,  ..., -2.2314e-06,
+         -1.1387e-03,  0.0000e+00],
+        [ 9.0837e-05,  0.0000e+00,  1.2839e-04,  ...,  1.0990e-07,
+          8.0287e-05,  0.0000e+00],
+        ...,
+        [ 7.8827e-06,  0.0000e+00,  1.3566e-04,  ...,  2.3469e-07,
+          1.9968e-04,  0.0000e+00],
+        [ 2.4009e-04,  0.0000e+00, -1.1176e-04,  ...,  2.1607e-07,
+          3.5644e-04,  0.0000e+00],
+        [ 1.2875e-04,  0.0000e+00, -2.6059e-04,  ...,  4.6007e-07,
+          1.1408e-04,  0.0000e+00]], device='cuda:0')
+Epoch 27, bias, value: tensor([-0.0038,  0.0279,  0.0062,  0.0042,  0.0051, -0.0086,  0.0203, -0.0245,
+         0.0244,  0.0047], device='cuda:0'), grad: tensor([-5.7173e-04, -2.7485e-03,  6.3372e-04, -4.7188e-03,  1.0300e-03,
+         4.5738e-03,  5.1320e-05,  8.1778e-04,  7.6199e-04,  1.6844e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 26----------------------------------------------------
+epoch 26, time 218.42, cls_loss 0.0370 cls_loss_mapping 0.0525 cls_loss_causal 0.8234 re_mapping 0.0278 re_causal 0.0727 /// teacc 98.29 lr 0.00010000
+Epoch 28, weight, value: tensor([[-0.0206, -0.0127, -0.0145,  ..., -0.0603,  0.0286,  0.0219],
+        [-0.0021,  0.0102, -0.0619,  ...,  0.0110,  0.0065,  0.0126],
+        [ 0.0332, -0.0039, -0.0310,  ..., -0.0213,  0.0069, -0.0079],
+        ...,
+        [ 0.0168, -0.0272,  0.0049,  ...,  0.0193,  0.0162,  0.0114],
+        [ 0.0002, -0.0190, -0.0212,  ..., -0.0014, -0.0128,  0.0295],
+        [-0.0255, -0.0607,  0.0398,  ..., -0.0389, -0.0230, -0.0004]],
+       device='cuda:0'), grad: tensor([[ 1.9801e-04,  0.0000e+00,  1.0413e-04,  ...,  4.6566e-08,
+          6.3300e-05,  0.0000e+00],
+        [ 3.9062e-03,  0.0000e+00,  1.3137e-04,  ..., -2.6841e-06,
+          4.3106e-04,  0.0000e+00],
+        [-4.9362e-03,  0.0000e+00, -7.3195e-05,  ...,  8.4937e-07,
+         -1.2693e-03,  0.0000e+00],
+        ...,
+        [-2.3804e-03,  0.0000e+00, -2.9869e-03,  ...,  1.0431e-07,
+         -1.0738e-03,  0.0000e+00],
+        [ 1.0395e-03,  0.0000e+00,  5.9652e-04,  ...,  4.0792e-07,
+          3.7146e-04,  0.0000e+00],
+        [ 2.0847e-03,  0.0000e+00,  3.2883e-03,  ...,  2.0489e-08,
+          8.9359e-04,  0.0000e+00]], device='cuda:0')
+Epoch 28, bias, value: tensor([-0.0038,  0.0280,  0.0064,  0.0041,  0.0049, -0.0080,  0.0204, -0.0248,
+         0.0242,  0.0047], device='cuda:0'), grad: tensor([ 0.0017,  0.0159, -0.0332,  0.0026, -0.0008,  0.0006,  0.0009, -0.0072,
+         0.0081,  0.0114], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 27, time 217.22, cls_loss 0.0374 cls_loss_mapping 0.0512 cls_loss_causal 0.8379 re_mapping 0.0267 re_causal 0.0732 /// teacc 98.14 lr 0.00010000
+Epoch 29, weight, value: tensor([[-0.0209, -0.0128, -0.0149,  ..., -0.0606,  0.0283,  0.0219],
+        [-0.0025,  0.0107, -0.0627,  ...,  0.0110,  0.0073,  0.0126],
+        [ 0.0328, -0.0042, -0.0315,  ..., -0.0215,  0.0066, -0.0079],
+        ...,
+        [ 0.0173, -0.0273,  0.0052,  ...,  0.0194,  0.0156,  0.0114],
+        [-0.0002, -0.0196, -0.0214,  ..., -0.0016, -0.0127,  0.0295],
+        [-0.0266, -0.0618,  0.0400,  ..., -0.0389, -0.0226, -0.0004]],
+       device='cuda:0'), grad: tensor([[ 1.1474e-04,  2.0489e-08,  1.8191e-04,  ...,  2.9244e-07,
+          1.1253e-04,  0.0000e+00],
+        [ 4.4346e-04,  6.4261e-07,  2.1696e-04,  ...,  2.5276e-06,
+          2.4587e-05,  0.0000e+00],
+        [ 2.0778e-04,  4.6194e-07,  8.2016e-04,  ...,  1.9707e-06,
+          9.1195e-05,  0.0000e+00],
+        ...,
+        [ 1.2541e-04, -1.9316e-06,  3.4761e-04,  ..., -2.0005e-06,
+          4.7833e-05,  0.0000e+00],
+        [ 4.6062e-04,  9.8720e-08,  6.0797e-04,  ...,  1.9651e-06,
+         -3.4833e-04,  0.0000e+00],
+        [ 3.0637e-04,  2.3097e-07,  8.7786e-04,  ...,  2.0489e-06,
+          1.5116e-04,  0.0000e+00]], device='cuda:0')
+Epoch 29, bias, value: tensor([-0.0038,  0.0281,  0.0061,  0.0046,  0.0048, -0.0084,  0.0205, -0.0246,
+         0.0241,  0.0046], device='cuda:0'), grad: tensor([ 5.0974e-04,  1.0605e-03,  1.8349e-03, -2.7809e-03, -2.4204e-03,
+        -1.8835e-03,  1.2693e-03,  7.3528e-04,  8.3804e-05,  1.5898e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 28----------------------------------------------------
+epoch 28, time 218.04, cls_loss 0.0366 cls_loss_mapping 0.0434 cls_loss_causal 0.8025 re_mapping 0.0265 re_causal 0.0670 /// teacc 98.47 lr 0.00010000
+Epoch 30, weight, value: tensor([[-0.0212, -0.0130, -0.0154,  ..., -0.0621,  0.0280,  0.0219],
+        [-0.0031,  0.0109, -0.0637,  ...,  0.0105,  0.0080,  0.0126],
+        [ 0.0331, -0.0036, -0.0323,  ..., -0.0217,  0.0064, -0.0079],
+        ...,
+        [ 0.0176, -0.0284,  0.0047,  ...,  0.0189,  0.0152,  0.0114],
+        [-0.0006, -0.0206, -0.0218,  ..., -0.0004, -0.0124,  0.0295],
+        [-0.0269, -0.0667,  0.0405,  ..., -0.0392, -0.0221, -0.0004]],
+       device='cuda:0'), grad: tensor([[ 9.5308e-05,  0.0000e+00,  1.9133e-05,  ...,  0.0000e+00,
+          9.1851e-05,  0.0000e+00],
+        [ 1.1027e-04,  0.0000e+00,  1.6570e-05,  ...,  0.0000e+00,
+         -6.4299e-06,  0.0000e+00],
+        [ 4.9210e-04,  0.0000e+00,  2.5392e-05,  ...,  0.0000e+00,
+          3.9411e-04,  0.0000e+00],
+        ...,
+        [-1.8203e-04,  0.0000e+00, -7.4729e-06,  ...,  0.0000e+00,
+          2.4661e-05,  0.0000e+00],
+        [ 2.7347e-04,  0.0000e+00,  1.6868e-04,  ...,  0.0000e+00,
+         -6.8092e-04,  0.0000e+00],
+        [-1.5056e-04,  0.0000e+00, -3.8624e-04,  ...,  0.0000e+00,
+         -5.8889e-05,  0.0000e+00]], device='cuda:0')
+Epoch 30, bias, value: tensor([-0.0039,  0.0277,  0.0064,  0.0043,  0.0051, -0.0079,  0.0200, -0.0249,
+         0.0242,  0.0047], device='cuda:0'), grad: tensor([ 2.2161e-04,  1.6427e-04,  1.3714e-03, -5.7745e-04,  8.2445e-04,
+        -5.4550e-04,  4.0054e-05, -2.6464e-04, -6.6137e-04, -5.7173e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 29, time 217.56, cls_loss 0.0332 cls_loss_mapping 0.0423 cls_loss_causal 0.8212 re_mapping 0.0253 re_causal 0.0703 /// teacc 98.34 lr 0.00010000
+Epoch 31, weight, value: tensor([[-0.0215, -0.0131, -0.0149,  ..., -0.0626,  0.0278,  0.0219],
+        [-0.0034,  0.0115, -0.0641,  ...,  0.0104,  0.0086,  0.0126],
+        [ 0.0336, -0.0041, -0.0330,  ..., -0.0219,  0.0061, -0.0079],
+        ...,
+        [ 0.0178, -0.0280,  0.0046,  ...,  0.0190,  0.0150,  0.0114],
+        [-0.0012, -0.0212, -0.0222,  ..., -0.0007, -0.0124,  0.0295],
+        [-0.0278, -0.0695,  0.0408,  ..., -0.0395, -0.0219, -0.0004]],
+       device='cuda:0'), grad: tensor([[-7.0989e-05,  3.7253e-08, -8.7738e-05,  ...,  3.7439e-07,
+          3.6150e-05,  0.0000e+00],
+        [ 2.2411e-04, -1.8403e-06,  1.5962e-04,  ...,  1.1474e-06,
+          9.7752e-05,  0.0000e+00],
+        [-2.5868e-04,  4.3772e-07,  5.0992e-05,  ...,  6.6496e-07,
+          6.1274e-05,  0.0000e+00],
+        ...,
+        [-6.8069e-05, -5.2527e-07, -2.1726e-05,  ..., -1.6779e-05,
+          9.8199e-06,  0.0000e+00],
+        [ 2.5764e-05,  1.5832e-07,  5.1200e-05,  ...,  2.1979e-07,
+          3.4332e-05,  0.0000e+00],
+        [ 7.9811e-05,  3.2037e-07,  5.6028e-04,  ...,  1.0386e-05,
+          6.8806e-06,  0.0000e+00]], device='cuda:0')
+Epoch 31, bias, value: tensor([-0.0038,  0.0277,  0.0066,  0.0045,  0.0050, -0.0076,  0.0199, -0.0249,
+         0.0237,  0.0048], device='cuda:0'), grad: tensor([-2.2163e-03,  8.8215e-04,  1.9491e-05,  1.6749e-04, -8.3923e-04,
+         8.0490e-04, -4.4894e-04,  1.7673e-05,  3.0446e-04,  1.3094e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 30, time 217.41, cls_loss 0.0350 cls_loss_mapping 0.0488 cls_loss_causal 0.7968 re_mapping 0.0245 re_causal 0.0674 /// teacc 97.97 lr 0.00010000
+Epoch 32, weight, value: tensor([[-0.0212, -0.0132, -0.0150,  ..., -0.0627,  0.0275,  0.0219],
+        [-0.0046,  0.0114, -0.0647,  ...,  0.0103,  0.0087,  0.0126],
+        [ 0.0341, -0.0038, -0.0330,  ..., -0.0221,  0.0058, -0.0079],
+        ...,
+        [ 0.0181, -0.0281,  0.0045,  ...,  0.0193,  0.0153,  0.0114],
+        [-0.0012, -0.0216, -0.0222,  ..., -0.0006, -0.0122,  0.0295],
+        [-0.0295, -0.0710,  0.0408,  ..., -0.0396, -0.0222, -0.0004]],
+       device='cuda:0'), grad: tensor([[ 4.1604e-05,  2.1793e-07,  3.0303e-04,  ...,  0.0000e+00,
+          1.8805e-05,  0.0000e+00],
+        [ 6.8367e-05,  1.9558e-06, -6.0940e-04,  ...,  0.0000e+00,
+         -3.4356e-04,  0.0000e+00],
+        [-2.9182e-04,  2.5127e-06,  1.1837e-04,  ...,  0.0000e+00,
+         -9.7334e-05,  0.0000e+00],
+        ...,
+        [-1.2648e-04, -9.6485e-06,  2.4891e-04,  ...,  0.0000e+00,
+          1.1402e-04,  0.0000e+00],
+        [ 1.9145e-04,  6.1281e-07,  4.1699e-04,  ...,  0.0000e+00,
+          1.5914e-04,  0.0000e+00],
+        [-8.3590e-04,  4.8243e-07, -1.3245e-02,  ...,  0.0000e+00,
+         -1.0490e-03,  0.0000e+00]], device='cuda:0')
+Epoch 32, bias, value: tensor([-0.0040,  0.0270,  0.0071,  0.0045,  0.0047, -0.0075,  0.0204, -0.0248,
+         0.0241,  0.0044], device='cuda:0'), grad: tensor([ 0.0004, -0.0014, -0.0006,  0.0012,  0.0153,  0.0024,  0.0020,  0.0004,
+         0.0011, -0.0207], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 31, time 217.14, cls_loss 0.0289 cls_loss_mapping 0.0428 cls_loss_causal 0.8166 re_mapping 0.0234 re_causal 0.0661 /// teacc 97.91 lr 0.00010000
+Epoch 33, weight, value: tensor([[-0.0214, -0.0132, -0.0152,  ..., -0.0628,  0.0274,  0.0219],
+        [-0.0048,  0.0114, -0.0644,  ...,  0.0109,  0.0093,  0.0126],
+        [ 0.0341, -0.0038, -0.0331,  ..., -0.0221,  0.0053, -0.0079],
+        ...,
+        [ 0.0187, -0.0280,  0.0044,  ...,  0.0194,  0.0150,  0.0114],
+        [-0.0014, -0.0218, -0.0225,  ..., -0.0006, -0.0120,  0.0295],
+        [-0.0298, -0.0713,  0.0406,  ..., -0.0400, -0.0220, -0.0004]],
+       device='cuda:0'), grad: tensor([[-6.7186e-04,  0.0000e+00,  6.1020e-06,  ...,  0.0000e+00,
+         -2.2709e-04,  0.0000e+00],
+        [-1.3947e-04,  0.0000e+00,  2.1249e-05,  ...,  0.0000e+00,
+         -7.4196e-04,  0.0000e+00],
+        [ 6.3801e-04,  0.0000e+00,  1.8165e-05,  ...,  0.0000e+00,
+          3.7980e-04,  0.0000e+00],
+        ...,
+        [-5.5361e-04,  0.0000e+00,  2.7210e-05,  ...,  0.0000e+00,
+          7.0453e-05,  0.0000e+00],
+        [ 6.3300e-05,  0.0000e+00, -5.3346e-05,  ...,  0.0000e+00,
+          1.2684e-04,  0.0000e+00],
+        [ 1.3009e-05,  0.0000e+00, -1.7568e-05,  ...,  0.0000e+00,
+         -8.2791e-05,  0.0000e+00]], device='cuda:0')
+Epoch 33, bias, value: tensor([-0.0037,  0.0273,  0.0070,  0.0044,  0.0052, -0.0077,  0.0198, -0.0251,
+         0.0244,  0.0042], device='cuda:0'), grad: tensor([-4.0855e-03, -8.3303e-04,  1.0691e-03,  1.0443e-03,  2.8133e-04,
+        -1.4186e-04,  2.7294e-03, -1.8871e-04,  6.5625e-05,  5.9724e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 32, time 217.28, cls_loss 0.0318 cls_loss_mapping 0.0407 cls_loss_causal 0.7904 re_mapping 0.0228 re_causal 0.0645 /// teacc 98.26 lr 0.00010000
+Epoch 34, weight, value: tensor([[-0.0207, -0.0132, -0.0152,  ..., -0.0629,  0.0278,  0.0213],
+        [-0.0056,  0.0116, -0.0641,  ...,  0.0116,  0.0101,  0.0051],
+        [ 0.0342, -0.0039, -0.0335,  ..., -0.0221,  0.0048, -0.0112],
+        ...,
+        [ 0.0189, -0.0280,  0.0043,  ...,  0.0194,  0.0145,  0.0135],
+        [-0.0010, -0.0219, -0.0227,  ..., -0.0006, -0.0121,  0.0260],
+        [-0.0304, -0.0714,  0.0409,  ..., -0.0401, -0.0215, -0.0013]],
+       device='cuda:0'), grad: tensor([[ 1.5482e-05,  0.0000e+00,  3.5241e-06,  ...,  0.0000e+00,
+          1.1146e-05,  0.0000e+00],
+        [ 1.8328e-05,  0.0000e+00,  1.4216e-05,  ...,  0.0000e+00,
+         -2.6524e-05,  0.0000e+00],
+        [-1.5581e-04,  0.0000e+00,  6.1542e-06,  ...,  0.0000e+00,
+         -5.9605e-08,  0.0000e+00],
+        ...,
+        [ 3.0220e-05,  0.0000e+00,  1.3852e-04,  ...,  0.0000e+00,
+          1.9014e-04,  0.0000e+00],
+        [ 1.1468e-04,  0.0000e+00,  1.1104e-04,  ...,  0.0000e+00,
+          7.5102e-05,  0.0000e+00],
+        [ 5.3495e-05,  0.0000e+00, -2.1905e-05,  ...,  0.0000e+00,
+         -2.3496e-04,  0.0000e+00]], device='cuda:0')
+Epoch 34, bias, value: tensor([-0.0036,  0.0275,  0.0067,  0.0043,  0.0046, -0.0077,  0.0200, -0.0251,
+         0.0245,  0.0046], device='cuda:0'), grad: tensor([-2.5272e-05,  1.2353e-05, -2.8682e-04,  1.2231e-04, -2.1112e-04,
+        -3.1734e-04, -3.1590e-05,  4.6444e-04,  4.1318e-04, -1.4067e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 33, time 217.36, cls_loss 0.0300 cls_loss_mapping 0.0402 cls_loss_causal 0.7865 re_mapping 0.0223 re_causal 0.0598 /// teacc 98.47 lr 0.00010000
+Epoch 35, weight, value: tensor([[-0.0213, -0.0133, -0.0151,  ..., -0.0633,  0.0277,  0.0212],
+        [-0.0064,  0.0115, -0.0647,  ...,  0.0116,  0.0104,  0.0050],
+        [ 0.0345, -0.0037, -0.0340,  ..., -0.0221,  0.0044, -0.0113],
+        ...,
+        [ 0.0197, -0.0281,  0.0043,  ...,  0.0200,  0.0144,  0.0136],
+        [-0.0013, -0.0219, -0.0228,  ..., -0.0007, -0.0119,  0.0259],
+        [-0.0314, -0.0715,  0.0409,  ..., -0.0402, -0.0214, -0.0013]],
+       device='cuda:0'), grad: tensor([[ 5.9217e-05,  0.0000e+00,  8.9183e-06,  ...,  3.8184e-07,
+          4.2111e-05,  0.0000e+00],
+        [ 6.6757e-05,  0.0000e+00,  1.1727e-05,  ...,  3.6694e-07,
+         -6.7115e-05,  0.0000e+00],
+        [ 6.3002e-05,  0.0000e+00,  1.0349e-05,  ...,  9.0338e-07,
+          3.3230e-05,  0.0000e+00],
+        ...,
+        [-3.2973e-04,  0.0000e+00,  1.2197e-05,  ...,  1.5423e-06,
+          8.5086e-06,  0.0000e+00],
+        [ 8.0228e-05,  0.0000e+00,  3.7044e-05,  ...,  6.1430e-06,
+          3.6687e-05,  0.0000e+00],
+        [ 1.8787e-04,  0.0000e+00,  3.0732e-04,  ...,  4.8615e-06,
+         -6.1095e-05,  0.0000e+00]], device='cuda:0')
+Epoch 35, bias, value: tensor([-0.0034,  0.0271,  0.0068,  0.0039,  0.0048, -0.0075,  0.0202, -0.0246,
+         0.0249,  0.0040], device='cuda:0'), grad: tensor([ 1.2267e-04, -1.3083e-05,  1.1319e-04, -8.4782e-04, -4.7731e-04,
+         7.5340e-04, -6.8307e-05, -3.9458e-04,  1.8954e-04,  6.2323e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 34, time 217.43, cls_loss 0.0290 cls_loss_mapping 0.0377 cls_loss_causal 0.7935 re_mapping 0.0221 re_causal 0.0606 /// teacc 98.46 lr 0.00010000
+Epoch 36, weight, value: tensor([[-0.0215, -0.0133, -0.0156,  ..., -0.0633,  0.0272,  0.0212],
+        [-0.0070,  0.0115, -0.0653,  ...,  0.0117,  0.0107,  0.0012],
+        [ 0.0346, -0.0037, -0.0343,  ..., -0.0222,  0.0038, -0.0143],
+        ...,
+        [ 0.0203, -0.0281,  0.0042,  ...,  0.0201,  0.0145,  0.0167],
+        [-0.0013, -0.0220, -0.0233,  ..., -0.0007, -0.0117,  0.0255],
+        [-0.0322, -0.0715,  0.0413,  ..., -0.0402, -0.0213, -0.0013]],
+       device='cuda:0'), grad: tensor([[-9.2566e-05,  0.0000e+00, -6.7890e-05,  ...,  0.0000e+00,
+         -1.5020e-04,  2.5146e-07],
+        [ 1.9088e-05,  0.0000e+00,  8.3447e-06,  ...,  0.0000e+00,
+         -1.4699e-04,  5.5507e-07],
+        [-8.8394e-05,  0.0000e+00,  1.3910e-05,  ...,  0.0000e+00,
+          3.2872e-05,  3.9116e-08],
+        ...,
+        [-5.6922e-06,  0.0000e+00,  3.2634e-05,  ...,  0.0000e+00,
+          1.2732e-04, -3.9786e-06],
+        [ 1.0467e-04,  0.0000e+00,  2.1607e-05,  ...,  0.0000e+00,
+          1.4806e-04,  5.2154e-08],
+        [ 1.1663e-03,  0.0000e+00,  5.0694e-05,  ...,  0.0000e+00,
+          1.3676e-03,  2.2352e-06]], device='cuda:0')
+Epoch 36, bias, value: tensor([-0.0035,  0.0269,  0.0066,  0.0038,  0.0050, -0.0077,  0.0205, -0.0244,
+         0.0250,  0.0038], device='cuda:0'), grad: tensor([-7.6962e-04, -1.7488e-04, -9.6112e-06, -2.7161e-03,  1.9491e-05,
+         3.1209e-04,  2.2793e-04,  2.0015e-04,  3.3307e-04,  2.5768e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 35----------------------------------------------------
+epoch 35, time 218.07, cls_loss 0.0257 cls_loss_mapping 0.0350 cls_loss_causal 0.7962 re_mapping 0.0212 re_causal 0.0601 /// teacc 98.51 lr 0.00010000
+Epoch 37, weight, value: tensor([[-0.0213, -0.0133, -0.0156,  ..., -0.0634,  0.0269,  0.0212],
+        [-0.0077,  0.0115, -0.0658,  ...,  0.0117,  0.0118, -0.0022],
+        [ 0.0351, -0.0037, -0.0346,  ..., -0.0222,  0.0034, -0.0154],
+        ...,
+        [ 0.0205, -0.0281,  0.0044,  ...,  0.0203,  0.0138,  0.0195],
+        [-0.0016, -0.0220, -0.0236,  ..., -0.0007, -0.0118,  0.0251],
+        [-0.0328, -0.0715,  0.0414,  ..., -0.0403, -0.0207, -0.0014]],
+       device='cuda:0'), grad: tensor([[ 1.1921e-04,  0.0000e+00,  2.6897e-05,  ...,  0.0000e+00,
+          4.2379e-05,  0.0000e+00],
+        [ 1.5955e-03,  0.0000e+00,  5.2512e-05,  ...,  0.0000e+00,
+          4.6206e-04,  0.0000e+00],
+        [-2.1667e-03,  0.0000e+00,  1.1832e-05,  ...,  0.0000e+00,
+         -4.3035e-04,  0.0000e+00],
+        ...,
+        [ 2.1863e-04,  0.0000e+00,  5.2023e-04,  ...,  0.0000e+00,
+          3.4404e-04,  0.0000e+00],
+        [ 5.0497e-04,  0.0000e+00,  2.1124e-04,  ...,  0.0000e+00,
+          1.7059e-04,  0.0000e+00],
+        [-2.3887e-05,  0.0000e+00, -9.7942e-04,  ...,  0.0000e+00,
+         -7.6103e-04,  0.0000e+00]], device='cuda:0')
+Epoch 37, bias, value: tensor([-0.0031,  0.0273,  0.0069,  0.0038,  0.0047, -0.0076,  0.0200, -0.0246,
+         0.0248,  0.0040], device='cuda:0'), grad: tensor([ 0.0002,  0.0050, -0.0057,  0.0034,  0.0006, -0.0041,  0.0001,  0.0013,
+         0.0011, -0.0020], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 36----------------------------------------------------
+epoch 36, time 218.13, cls_loss 0.0268 cls_loss_mapping 0.0352 cls_loss_causal 0.7471 re_mapping 0.0214 re_causal 0.0572 /// teacc 98.63 lr 0.00010000
+Epoch 38, weight, value: tensor([[-0.0217, -0.0133, -0.0153,  ..., -0.0639,  0.0265,  0.0212],
+        [-0.0086,  0.0113, -0.0664,  ...,  0.0117,  0.0120, -0.0027],
+        [ 0.0356, -0.0033, -0.0352,  ..., -0.0223,  0.0031, -0.0160],
+        ...,
+        [ 0.0208, -0.0283,  0.0040,  ...,  0.0208,  0.0135,  0.0202],
+        [-0.0017, -0.0222, -0.0241,  ..., -0.0008, -0.0119,  0.0249],
+        [-0.0337, -0.0716,  0.0412,  ..., -0.0407, -0.0203, -0.0014]],
+       device='cuda:0'), grad: tensor([[ 4.2975e-05,  0.0000e+00,  3.8356e-05,  ...,  0.0000e+00,
+          1.5348e-05,  0.0000e+00],
+        [ 1.4806e-04,  0.0000e+00,  4.3094e-05,  ...,  0.0000e+00,
+         -3.4600e-05,  0.0000e+00],
+        [ 1.9860e-04,  0.0000e+00,  6.9320e-05,  ...,  0.0000e+00,
+          7.6115e-05,  0.0000e+00],
+        ...,
+        [-9.0742e-04,  0.0000e+00, -1.0812e-04,  ...,  0.0000e+00,
+         -7.3731e-05,  0.0000e+00],
+        [ 1.5688e-04,  0.0000e+00,  2.8682e-04,  ...,  0.0000e+00,
+          1.5330e-04,  0.0000e+00],
+        [-4.9829e-05,  0.0000e+00, -3.7217e-04,  ...,  0.0000e+00,
+         -2.8253e-04,  0.0000e+00]], device='cuda:0')
+Epoch 38, bias, value: tensor([-0.0029,  0.0267,  0.0069,  0.0039,  0.0051, -0.0077,  0.0204, -0.0243,
+         0.0246,  0.0036], device='cuda:0'), grad: tensor([ 5.4747e-05,  2.1505e-04,  3.8195e-04,  6.9141e-04,  2.5535e-04,
+        -5.3883e-04,  2.3174e-04, -1.3437e-03,  6.3276e-04, -5.8079e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 37, time 217.49, cls_loss 0.0266 cls_loss_mapping 0.0349 cls_loss_causal 0.7600 re_mapping 0.0200 re_causal 0.0567 /// teacc 98.43 lr 0.00010000
+Epoch 39, weight, value: tensor([[-0.0225, -0.0134, -0.0157,  ..., -0.0642,  0.0258,  0.0212],
+        [-0.0089,  0.0112, -0.0672,  ...,  0.0116,  0.0124, -0.0028],
+        [ 0.0359, -0.0031, -0.0360,  ..., -0.0225,  0.0028, -0.0160],
+        ...,
+        [ 0.0210, -0.0286,  0.0036,  ...,  0.0205,  0.0130,  0.0203],
+        [-0.0019, -0.0223, -0.0243,  ..., -0.0009, -0.0117,  0.0249],
+        [-0.0341, -0.0718,  0.0415,  ..., -0.0407, -0.0194, -0.0014]],
+       device='cuda:0'), grad: tensor([[-2.5177e-04,  0.0000e+00, -1.1501e-03,  ...,  7.4506e-08,
+         -1.1665e-04,  0.0000e+00],
+        [ 1.7837e-05,  0.0000e+00,  6.3360e-05,  ...,  1.5087e-07,
+         -1.1736e-04,  0.0000e+00],
+        [-5.0992e-05,  0.0000e+00,  1.1599e-04,  ...,  2.6450e-07,
+          2.2128e-05,  0.0000e+00],
+        ...,
+        [ 7.1466e-05,  0.0000e+00,  2.2244e-04,  ...,  7.7859e-07,
+          1.9407e-04,  0.0000e+00],
+        [ 1.2863e-04,  0.0000e+00,  3.6979e-04,  ...,  1.5087e-07,
+          2.0814e-04,  0.0000e+00],
+        [ 7.9632e-05,  0.0000e+00,  9.6703e-04,  ...,  2.8312e-07,
+         -3.3236e-04,  0.0000e+00]], device='cuda:0')
+Epoch 39, bias, value: tensor([-0.0038,  0.0265,  0.0064,  0.0037,  0.0051, -0.0071,  0.0204, -0.0245,
+         0.0249,  0.0043], device='cuda:0'), grad: tensor([-2.2202e-03, -3.1859e-05,  1.6952e-04, -2.0468e-04, -1.1339e-03,
+         4.4107e-04,  2.9254e-04,  6.3801e-04,  8.7500e-04,  1.1740e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 38, time 217.23, cls_loss 0.0263 cls_loss_mapping 0.0371 cls_loss_causal 0.7553 re_mapping 0.0206 re_causal 0.0557 /// teacc 98.47 lr 0.00010000
+Epoch 40, weight, value: tensor([[-0.0214, -0.0135, -0.0156,  ..., -0.0643,  0.0260,  0.0212],
+        [-0.0097,  0.0114, -0.0677,  ...,  0.0116,  0.0128, -0.0036],
+        [ 0.0359, -0.0032, -0.0363,  ..., -0.0226,  0.0023, -0.0161],
+        ...,
+        [ 0.0220, -0.0287,  0.0035,  ...,  0.0212,  0.0127,  0.0204],
+        [-0.0022, -0.0224, -0.0251,  ..., -0.0010, -0.0117,  0.0249],
+        [-0.0352, -0.0721,  0.0420,  ..., -0.0409, -0.0191, -0.0014]],
+       device='cuda:0'), grad: tensor([[ 7.6145e-06,  0.0000e+00,  3.9190e-05,  ...,  0.0000e+00,
+         -6.0111e-05,  0.0000e+00],
+        [ 5.1069e-04,  0.0000e+00,  3.2663e-05,  ...,  0.0000e+00,
+          1.2982e-04,  0.0000e+00],
+        [ 5.7936e-04,  0.0000e+00,  1.4983e-05,  ...,  0.0000e+00,
+          4.1693e-05,  0.0000e+00],
+        ...,
+        [-1.4238e-03,  0.0000e+00,  2.0385e-04,  ...,  0.0000e+00,
+          1.4901e-07,  0.0000e+00],
+        [ 1.3757e-04,  0.0000e+00,  1.2898e-04,  ...,  0.0000e+00,
+          2.5320e-04,  0.0000e+00],
+        [ 2.9755e-04,  0.0000e+00, -1.0824e-03,  ...,  0.0000e+00,
+          3.3617e-05,  0.0000e+00]], device='cuda:0')
+Epoch 40, bias, value: tensor([-0.0032,  0.0264,  0.0060,  0.0038,  0.0051, -0.0071,  0.0203, -0.0242,
+         0.0246,  0.0043], device='cuda:0'), grad: tensor([-0.0004,  0.0009,  0.0009, -0.0002,  0.0012,  0.0003, -0.0004, -0.0015,
+         0.0009, -0.0017], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 39, time 217.27, cls_loss 0.0205 cls_loss_mapping 0.0267 cls_loss_causal 0.7271 re_mapping 0.0203 re_causal 0.0569 /// teacc 98.48 lr 0.00010000
+Epoch 41, weight, value: tensor([[-0.0212, -0.0136, -0.0148,  ..., -0.0649,  0.0257,  0.0211],
+        [-0.0100,  0.0114, -0.0680,  ...,  0.0118,  0.0136, -0.0063],
+        [ 0.0361, -0.0032, -0.0363,  ..., -0.0230,  0.0018, -0.0191],
+        ...,
+        [ 0.0217, -0.0287,  0.0034,  ...,  0.0215,  0.0125,  0.0233],
+        [-0.0023, -0.0225, -0.0255,  ..., -0.0010, -0.0118,  0.0228],
+        [-0.0360, -0.0722,  0.0422,  ..., -0.0411, -0.0187, -0.0014]],
+       device='cuda:0'), grad: tensor([[ 7.8857e-05,  0.0000e+00,  2.6524e-05,  ...,  0.0000e+00,
+          7.1645e-05,  7.6927e-07],
+        [ 4.2826e-05,  0.0000e+00,  3.3021e-05,  ...,  0.0000e+00,
+          4.4823e-05,  8.7917e-07],
+        [-2.6917e-04,  0.0000e+00,  2.1899e-04,  ...,  0.0000e+00,
+          6.7353e-05,  1.0021e-05],
+        ...,
+        [-6.6566e-04,  0.0000e+00, -1.1083e-06,  ...,  0.0000e+00,
+         -4.2379e-05, -2.4244e-05],
+        [ 1.4257e-04,  0.0000e+00,  6.3479e-06,  ...,  0.0000e+00,
+          2.2042e-04,  6.6869e-07],
+        [ 1.9717e-04,  0.0000e+00, -5.4455e-04,  ...,  0.0000e+00,
+         -2.4307e-04,  8.1956e-07]], device='cuda:0')
+Epoch 41, bias, value: tensor([-0.0029,  0.0266,  0.0060,  0.0037,  0.0049, -0.0067,  0.0204, -0.0242,
+         0.0243,  0.0041], device='cuda:0'), grad: tensor([ 1.5390e-04,  1.7715e-04,  1.4389e-04,  8.8358e-04,  2.3401e-04,
+         1.8346e-04, -3.2663e-04, -9.5177e-04, -5.2661e-05, -4.4346e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 40, time 217.22, cls_loss 0.0278 cls_loss_mapping 0.0355 cls_loss_causal 0.7402 re_mapping 0.0194 re_causal 0.0535 /// teacc 98.50 lr 0.00010000
+Epoch 42, weight, value: tensor([[-0.0217, -0.0137, -0.0155,  ..., -0.0652,  0.0252,  0.0212],
+        [-0.0104,  0.0124, -0.0687,  ...,  0.0118,  0.0139, -0.0082],
+        [ 0.0365, -0.0038, -0.0374,  ..., -0.0231,  0.0014, -0.0194],
+        ...,
+        [ 0.0220, -0.0299,  0.0028,  ...,  0.0216,  0.0117,  0.0233],
+        [-0.0028, -0.0230, -0.0258,  ..., -0.0010, -0.0123,  0.0218],
+        [-0.0360, -0.0725,  0.0420,  ..., -0.0412, -0.0172, -0.0015]],
+       device='cuda:0'), grad: tensor([[ 1.2231e-04,  0.0000e+00,  1.9178e-05,  ...,  2.5705e-07,
+          3.7551e-05,  0.0000e+00],
+        [-2.3580e-04,  0.0000e+00, -1.3723e-03,  ...,  5.2713e-07,
+         -1.8854e-03,  0.0000e+00],
+        [ 7.8058e-04,  0.0000e+00,  8.6844e-05,  ...,  8.9034e-07,
+          8.6546e-05,  0.0000e+00],
+        ...,
+        [ 2.9421e-04,  0.0000e+00,  1.8239e-04,  ..., -4.6901e-06,
+          1.4985e-04,  0.0000e+00],
+        [ 2.9325e-04,  0.0000e+00,  1.4365e-04,  ...,  9.1270e-08,
+          1.1625e-03,  0.0000e+00],
+        [ 4.1318e-04,  0.0000e+00,  1.2839e-04,  ...,  3.1665e-07,
+          3.6240e-04,  0.0000e+00]], device='cuda:0')
+Epoch 42, bias, value: tensor([-0.0038,  0.0265,  0.0060,  0.0041,  0.0053, -0.0069,  0.0206, -0.0245,
+         0.0242,  0.0043], device='cuda:0'), grad: tensor([ 0.0002, -0.0046,  0.0013, -0.0137,  0.0022,  0.0096,  0.0004,  0.0008,
+         0.0024,  0.0013], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 41, time 217.42, cls_loss 0.0263 cls_loss_mapping 0.0359 cls_loss_causal 0.7653 re_mapping 0.0191 re_causal 0.0547 /// teacc 98.61 lr 0.00010000
+Epoch 43, weight, value: tensor([[-0.0218, -0.0137, -0.0155,  ..., -0.0653,  0.0249,  0.0212],
+        [-0.0102,  0.0125, -0.0683,  ...,  0.0121,  0.0146, -0.0108],
+        [ 0.0366, -0.0037, -0.0374,  ..., -0.0231,  0.0007, -0.0196],
+        ...,
+        [ 0.0223, -0.0300,  0.0030,  ...,  0.0220,  0.0110,  0.0240],
+        [-0.0028, -0.0232, -0.0262,  ..., -0.0011, -0.0122,  0.0206],
+        [-0.0373, -0.0726,  0.0423,  ..., -0.0409, -0.0166, -0.0016]],
+       device='cuda:0'), grad: tensor([[ 1.1790e-04,  0.0000e+00, -1.4424e-04,  ...,  7.0035e-07,
+         -5.1409e-05,  1.6764e-08],
+        [ 5.7489e-05,  0.0000e+00,  4.3094e-05,  ...,  3.3993e-06,
+         -4.2230e-05,  1.1176e-08],
+        [-2.4452e-03,  0.0000e+00, -6.9332e-04,  ...,  2.9132e-06,
+          2.3738e-05, -4.3213e-07],
+        ...,
+        [ 1.6584e-03,  0.0000e+00,  1.9569e-03,  ...,  1.1140e-04,
+          2.1420e-07,  2.7008e-07],
+        [ 1.0443e-04,  0.0000e+00,  4.3392e-05,  ...,  1.0524e-06,
+          6.2585e-05,  5.9605e-08],
+        [ 1.3113e-04,  0.0000e+00,  5.0783e-04,  ...,  5.1931e-06,
+          3.3259e-05,  1.8626e-09]], device='cuda:0')
+Epoch 43, bias, value: tensor([-0.0035,  0.0271,  0.0062,  0.0038,  0.0049, -0.0061,  0.0194, -0.0246,
+         0.0241,  0.0045], device='cuda:0'), grad: tensor([-5.6553e-04,  4.1902e-05, -3.3340e-03,  4.6396e-04, -1.9264e-03,
+         7.8506e-03, -7.3128e-03,  3.6144e-03,  2.8491e-04,  8.7690e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 42, time 217.23, cls_loss 0.0251 cls_loss_mapping 0.0325 cls_loss_causal 0.7533 re_mapping 0.0186 re_causal 0.0523 /// teacc 98.16 lr 0.00010000
+Epoch 44, weight, value: tensor([[-0.0216, -0.0139, -0.0156,  ..., -0.0655,  0.0245,  0.0213],
+        [-0.0109,  0.0137, -0.0686,  ...,  0.0123,  0.0155, -0.0119],
+        [ 0.0368, -0.0045, -0.0379,  ..., -0.0232,  0.0003, -0.0195],
+        ...,
+        [ 0.0226, -0.0307,  0.0028,  ...,  0.0224,  0.0106,  0.0241],
+        [-0.0035, -0.0238, -0.0263,  ..., -0.0011, -0.0123,  0.0202],
+        [-0.0377, -0.0730,  0.0421,  ..., -0.0409, -0.0160, -0.0016]],
+       device='cuda:0'), grad: tensor([[-1.4746e-04,  0.0000e+00,  1.7494e-05,  ...,  1.8626e-09,
+          1.7494e-05,  1.1362e-07],
+        [ 3.8475e-05,  0.0000e+00,  2.7761e-05,  ..., -2.1979e-07,
+         -1.2405e-05,  3.2410e-07],
+        [ 3.8415e-05,  0.0000e+00,  1.3888e-05,  ...,  1.8626e-08,
+          1.3970e-05,  3.3528e-08],
+        ...,
+        [ 5.1558e-05,  0.0000e+00,  9.4235e-05,  ...,  1.1735e-07,
+          1.3721e-04, -5.2080e-06],
+        [-4.7445e-04,  0.0000e+00, -2.2697e-04,  ...,  3.3528e-08,
+         -2.0921e-05,  9.4995e-08],
+        [-5.0604e-05,  0.0000e+00, -3.7098e-04,  ...,  1.3039e-08,
+         -3.2878e-04,  4.0196e-06]], device='cuda:0')
+Epoch 44, bias, value: tensor([-0.0039,  0.0273,  0.0063,  0.0042,  0.0051, -0.0066,  0.0193, -0.0245,
+         0.0241,  0.0044], device='cuda:0'), grad: tensor([-0.0003,  0.0001,  0.0003,  0.0012,  0.0005, -0.0001,  0.0003,  0.0008,
+        -0.0011, -0.0016], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 43----------------------------------------------------
+epoch 43, time 218.05, cls_loss 0.0216 cls_loss_mapping 0.0296 cls_loss_causal 0.7488 re_mapping 0.0182 re_causal 0.0537 /// teacc 98.70 lr 0.00010000
+Epoch 45, weight, value: tensor([[-2.1662e-02, -1.3942e-02, -1.5540e-02,  ..., -6.5847e-02,
+          2.4035e-02,  2.0561e-02],
+        [-1.1763e-02,  1.3926e-02, -6.9201e-02,  ...,  1.3015e-02,
+          1.5959e-02, -1.9042e-02],
+        [ 3.7467e-02, -4.6319e-03, -3.7659e-02,  ..., -2.3430e-02,
+          3.5998e-05, -1.6238e-02],
+        ...,
+        [ 2.2948e-02, -3.1033e-02,  2.3940e-03,  ...,  2.2459e-02,
+          1.0317e-02,  2.4452e-02],
+        [-3.4721e-03, -2.3909e-02, -2.6404e-02,  ..., -1.1909e-03,
+         -1.2683e-02,  1.4079e-02],
+        [-3.8343e-02, -7.3186e-02,  4.2162e-02,  ..., -4.1136e-02,
+         -1.5362e-02, -1.8112e-03]], device='cuda:0'), grad: tensor([[ 1.6704e-05,  0.0000e+00,  7.9453e-05,  ...,  1.8626e-08,
+          9.8169e-05, -5.2266e-06],
+        [ 5.4359e-05,  0.0000e+00,  2.2650e-06,  ..., -2.9579e-06,
+         -9.3818e-05,  4.8522e-07],
+        [ 7.5674e-04,  0.0000e+00,  3.5539e-06,  ...,  6.1467e-08,
+          2.9892e-05,  1.1362e-06],
+        ...,
+        [ 1.8448e-02,  0.0000e+00, -6.4559e-06,  ..., -4.6752e-07,
+          1.9878e-05,  1.4808e-06],
+        [ 1.7715e-04,  0.0000e+00,  7.3731e-05,  ...,  1.0990e-06,
+          1.0115e-04,  4.2468e-07],
+        [ 1.3864e-04,  0.0000e+00,  4.4018e-05,  ...,  1.0347e-06,
+          2.5824e-05,  1.1446e-06]], device='cuda:0')
+Epoch 45, bias, value: tensor([-0.0041,  0.0270,  0.0068,  0.0040,  0.0051, -0.0067,  0.0195, -0.0247,
+         0.0241,  0.0047], device='cuda:0'), grad: tensor([ 3.6454e-04, -7.8022e-05,  7.7581e-04, -2.2430e-02,  1.1027e-04,
+         8.7309e-04, -1.9178e-03,  2.1240e-02,  7.0715e-04,  3.5405e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 44, time 217.20, cls_loss 0.0268 cls_loss_mapping 0.0348 cls_loss_causal 0.7402 re_mapping 0.0183 re_causal 0.0492 /// teacc 98.68 lr 0.00010000
+Epoch 46, weight, value: tensor([[-0.0223, -0.0140, -0.0157,  ..., -0.0668,  0.0235,  0.0201],
+        [-0.0123,  0.0147, -0.0699,  ...,  0.0135,  0.0164, -0.0214],
+        [ 0.0382, -0.0053, -0.0381,  ..., -0.0237, -0.0004, -0.0166],
+        ...,
+        [ 0.0234, -0.0312,  0.0023,  ...,  0.0235,  0.0099,  0.0263],
+        [-0.0044, -0.0240, -0.0268,  ..., -0.0015, -0.0125,  0.0133],
+        [-0.0390, -0.0734,  0.0420,  ..., -0.0419, -0.0142, -0.0015]],
+       device='cuda:0'), grad: tensor([[ 1.0669e-05,  0.0000e+00,  4.6045e-06,  ...,  2.3190e-07,
+          1.3091e-05,  0.0000e+00],
+        [ 1.4126e-04,  0.0000e+00,  4.9621e-06,  ...,  7.6089e-07,
+          2.8700e-05,  0.0000e+00],
+        [ 3.1638e-04,  0.0000e+00,  1.7406e-06,  ...,  1.5926e-07,
+          3.5882e-05,  0.0000e+00],
+        ...,
+        [-6.7902e-04,  0.0000e+00,  1.1735e-07,  ..., -2.6859e-06,
+         -8.9183e-06,  0.0000e+00],
+        [ 2.8312e-05,  0.0000e+00,  1.7777e-05,  ...,  8.1025e-08,
+          2.1660e-04,  0.0000e+00],
+        [ 6.2466e-05,  0.0000e+00, -4.7497e-06,  ...,  2.1793e-07,
+         -2.8229e-04,  0.0000e+00]], device='cuda:0')
+Epoch 46, bias, value: tensor([-0.0042,  0.0267,  0.0071,  0.0033,  0.0050, -0.0061,  0.0196, -0.0244,
+         0.0241,  0.0045], device='cuda:0'), grad: tensor([-6.1035e-04,  3.5381e-04,  7.6532e-04,  4.0317e-04,  6.7353e-05,
+         3.9721e-04,  1.4015e-05, -9.4509e-04, -1.1098e-04, -3.3498e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 45, time 217.33, cls_loss 0.0208 cls_loss_mapping 0.0290 cls_loss_causal 0.7351 re_mapping 0.0180 re_causal 0.0513 /// teacc 98.69 lr 0.00010000
+Epoch 47, weight, value: tensor([[-0.0228, -0.0141, -0.0160,  ..., -0.0670,  0.0233,  0.0196],
+        [-0.0126,  0.0150, -0.0703,  ...,  0.0137,  0.0169, -0.0235],
+        [ 0.0384, -0.0053, -0.0385,  ..., -0.0238, -0.0008, -0.0166],
+        ...,
+        [ 0.0239, -0.0319,  0.0024,  ...,  0.0238,  0.0096,  0.0267],
+        [-0.0047, -0.0242, -0.0272,  ..., -0.0015, -0.0126,  0.0130],
+        [-0.0400, -0.0736,  0.0419,  ..., -0.0418, -0.0144, -0.0011]],
+       device='cuda:0'), grad: tensor([[ 8.3447e-06,  1.8626e-08,  1.8269e-05,  ...,  1.1269e-07,
+          1.8924e-05,  1.1893e-06],
+        [ 1.6347e-05,  8.1956e-08,  1.2800e-05,  ..., -6.3181e-06,
+         -5.4389e-05,  8.4285e-07],
+        [-1.5616e-05, -6.2399e-07,  4.8965e-05,  ...,  1.2694e-06,
+          4.0561e-05, -6.8657e-06],
+        ...,
+        [-2.3615e-04,  4.6566e-07,  1.6987e-05,  ...,  1.6680e-06,
+         -8.1837e-05, -3.3863e-06],
+        [ 3.1978e-05,  1.6764e-08, -4.4346e-05,  ...,  5.5321e-07,
+         -6.6936e-05,  4.3400e-06],
+        [ 1.6749e-04,  2.7940e-09,  6.3753e-04,  ...,  3.1479e-07,
+          7.5817e-05,  2.1495e-06]], device='cuda:0')
+Epoch 47, bias, value: tensor([-0.0041,  0.0264,  0.0074,  0.0033,  0.0052, -0.0056,  0.0195, -0.0239,
+         0.0235,  0.0040], device='cuda:0'), grad: tensor([-3.1424e-04,  1.0319e-06,  1.4210e-04,  1.0484e-04, -1.3399e-03,
+         1.2827e-04,  2.6202e-04, -4.3726e-04, -2.3150e-04,  1.6851e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 46, time 217.28, cls_loss 0.0208 cls_loss_mapping 0.0304 cls_loss_causal 0.7148 re_mapping 0.0173 re_causal 0.0485 /// teacc 98.64 lr 0.00010000
+Epoch 48, weight, value: tensor([[-0.0234, -0.0142, -0.0162,  ..., -0.0672,  0.0230,  0.0196],
+        [-0.0131,  0.0151, -0.0706,  ...,  0.0152,  0.0175, -0.0253],
+        [ 0.0389, -0.0050, -0.0388,  ..., -0.0239, -0.0016, -0.0169],
+        ...,
+        [ 0.0238, -0.0329,  0.0023,  ...,  0.0241,  0.0090,  0.0277],
+        [-0.0052, -0.0244, -0.0277,  ..., -0.0017, -0.0124,  0.0122],
+        [-0.0410, -0.0738,  0.0418,  ..., -0.0422, -0.0139, -0.0014]],
+       device='cuda:0'), grad: tensor([[ 1.7062e-05,  0.0000e+00,  2.8804e-05,  ...,  2.7940e-09,
+          3.5763e-05,  0.0000e+00],
+        [ 8.6799e-06,  0.0000e+00,  1.0848e-05,  ...,  3.2596e-08,
+         -3.9190e-05,  0.0000e+00],
+        [ 4.5896e-05,  0.0000e+00,  3.2723e-05,  ...,  1.3970e-08,
+          2.1017e-04,  0.0000e+00],
+        ...,
+        [ 1.2845e-05,  0.0000e+00,  8.6963e-05,  ..., -1.5739e-07,
+          3.2812e-05,  0.0000e+00],
+        [ 7.5638e-05,  0.0000e+00, -5.3406e-05,  ...,  8.3819e-09,
+         -3.9005e-04,  0.0000e+00],
+        [ 1.3161e-04,  0.0000e+00, -6.5625e-05,  ...,  6.7987e-08,
+         -5.2527e-06,  0.0000e+00]], device='cuda:0')
+Epoch 48, bias, value: tensor([-0.0047,  0.0262,  0.0074,  0.0039,  0.0061, -0.0060,  0.0197, -0.0240,
+         0.0235,  0.0036], device='cuda:0'), grad: tensor([-2.6345e-04,  1.5981e-06,  9.1696e-04, -2.0218e-03,  6.6423e-04,
+        -1.0996e-03,  3.2692e-03,  3.5763e-04, -2.2240e-03,  4.0007e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 47, time 217.62, cls_loss 0.0205 cls_loss_mapping 0.0240 cls_loss_causal 0.7104 re_mapping 0.0168 re_causal 0.0484 /// teacc 98.68 lr 0.00010000
+Epoch 49, weight, value: tensor([[-0.0235, -0.0142, -0.0164,  ..., -0.0674,  0.0224,  0.0165],
+        [-0.0133,  0.0151, -0.0709,  ...,  0.0155,  0.0183, -0.0294],
+        [ 0.0385, -0.0049, -0.0396,  ..., -0.0241, -0.0021, -0.0166],
+        ...,
+        [ 0.0241, -0.0333,  0.0022,  ...,  0.0244,  0.0084,  0.0283],
+        [-0.0050, -0.0247, -0.0281,  ..., -0.0018, -0.0123,  0.0110],
+        [-0.0410, -0.0740,  0.0420,  ..., -0.0424, -0.0130,  0.0020]],
+       device='cuda:0'), grad: tensor([[ 3.2723e-05,  0.0000e+00,  6.3896e-05,  ...,  0.0000e+00,
+          2.8729e-05,  5.4110e-07],
+        [ 1.4234e-04,  0.0000e+00,  8.8066e-06,  ...,  0.0000e+00,
+         -3.2149e-06,  8.9593e-07],
+        [ 4.6778e-04,  0.0000e+00,  5.3532e-06,  ...,  0.0000e+00,
+          1.2696e-04,  1.5814e-06],
+        ...,
+        [ 7.8559e-05,  0.0000e+00,  9.2626e-05,  ...,  0.0000e+00,
+          1.0234e-04,  1.0051e-05],
+        [ 1.8215e-04,  0.0000e+00,  1.2577e-05,  ...,  0.0000e+00,
+          4.3094e-05,  3.9581e-07],
+        [ 9.0778e-05,  0.0000e+00, -2.1911e-04,  ...,  0.0000e+00,
+         -1.9205e-04, -1.6764e-05]], device='cuda:0')
+Epoch 49, bias, value: tensor([-0.0053,  0.0265,  0.0061,  0.0034,  0.0063, -0.0054,  0.0199, -0.0241,
+         0.0236,  0.0044], device='cuda:0'), grad: tensor([ 0.0003,  0.0001,  0.0006, -0.0014,  0.0006, -0.0008,  0.0002,  0.0004,
+         0.0003, -0.0004], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 48, time 217.58, cls_loss 0.0171 cls_loss_mapping 0.0232 cls_loss_causal 0.7122 re_mapping 0.0174 re_causal 0.0492 /// teacc 98.60 lr 0.00010000
+Epoch 50, weight, value: tensor([[-0.0229, -0.0144, -0.0163,  ..., -0.0677,  0.0216,  0.0158],
+        [-0.0135,  0.0156, -0.0712,  ...,  0.0171,  0.0185, -0.0293],
+        [ 0.0386, -0.0052, -0.0398,  ..., -0.0242, -0.0027, -0.0153],
+        ...,
+        [ 0.0244, -0.0335,  0.0021,  ...,  0.0249,  0.0083,  0.0310],
+        [-0.0054, -0.0249, -0.0284,  ..., -0.0019, -0.0120,  0.0078],
+        [-0.0418, -0.0750,  0.0423,  ..., -0.0418, -0.0124,  0.0005]],
+       device='cuda:0'), grad: tensor([[ 5.0142e-06,  0.0000e+00,  6.1020e-06,  ...,  2.1420e-08,
+         -1.4156e-05,  9.3132e-10],
+        [-6.5379e-07,  0.0000e+00,  4.9174e-06,  ..., -2.3823e-06,
+         -2.0295e-05,  9.3132e-10],
+        [ 6.5267e-06,  0.0000e+00,  1.5005e-05,  ...,  1.9372e-07,
+          1.5408e-05, -1.2107e-08],
+        ...,
+        [ 1.2331e-05,  0.0000e+00,  2.1517e-05,  ...,  1.3039e-06,
+          1.7717e-05,  2.7940e-09],
+        [-9.4116e-05,  0.0000e+00, -2.7895e-05,  ...,  1.8533e-07,
+          8.9705e-05,  2.7940e-09],
+        [-2.3156e-05,  0.0000e+00, -5.6237e-05,  ...,  2.6729e-07,
+         -1.2684e-04,  0.0000e+00]], device='cuda:0')
+Epoch 50, bias, value: tensor([-0.0048,  0.0265,  0.0059,  0.0037,  0.0057, -0.0055,  0.0199, -0.0240,
+         0.0235,  0.0046], device='cuda:0'), grad: tensor([-4.3488e-04, -5.6811e-06,  1.0598e-04,  9.5308e-05,  4.9978e-05,
+         4.1246e-04,  2.6131e-04,  1.4341e-04, -4.8876e-04, -1.3745e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 49----------------------------------------------------
+epoch 49, time 218.07, cls_loss 0.0172 cls_loss_mapping 0.0231 cls_loss_causal 0.7000 re_mapping 0.0167 re_causal 0.0471 /// teacc 98.72 lr 0.00010000
+Epoch 51, weight, value: tensor([[-0.0231, -0.0144, -0.0166,  ..., -0.0680,  0.0211,  0.0147],
+        [-0.0139,  0.0156, -0.0716,  ...,  0.0181,  0.0188, -0.0318],
+        [ 0.0396, -0.0049, -0.0398,  ..., -0.0246, -0.0024, -0.0150],
+        ...,
+        [ 0.0245, -0.0342,  0.0018,  ...,  0.0246,  0.0076,  0.0297],
+        [-0.0057, -0.0250, -0.0284,  ..., -0.0021, -0.0119,  0.0064],
+        [-0.0426, -0.0752,  0.0422,  ..., -0.0421, -0.0116,  0.0011]],
+       device='cuda:0'), grad: tensor([[-8.6594e-04,  0.0000e+00,  1.1921e-05,  ...,  0.0000e+00,
+          5.4687e-06,  0.0000e+00],
+        [ 4.1068e-05,  0.0000e+00,  4.1574e-05,  ...,  0.0000e+00,
+         -7.4089e-05,  0.0000e+00],
+        [ 1.1700e-04,  0.0000e+00,  6.5446e-05,  ...,  0.0000e+00,
+          1.3456e-05, -2.7940e-09],
+        ...,
+        [-2.2620e-05,  0.0000e+00,  3.8862e-05,  ...,  0.0000e+00,
+          4.2856e-05,  0.0000e+00],
+        [ 7.3814e-04,  0.0000e+00, -8.7082e-05,  ...,  0.0000e+00,
+          2.8610e-05,  9.3132e-10],
+        [-2.6718e-05,  0.0000e+00,  5.5805e-06,  ...,  0.0000e+00,
+         -1.3721e-04,  0.0000e+00]], device='cuda:0')
+Epoch 51, bias, value: tensor([-0.0046,  0.0264,  0.0070,  0.0030,  0.0056, -0.0055,  0.0200, -0.0245,
+         0.0235,  0.0046], device='cuda:0'), grad: tensor([-5.1727e-03,  7.4387e-05,  6.0892e-04,  3.2425e-03,  3.1328e-04,
+        -3.0842e-03,  1.1027e-04,  3.2401e-04,  3.7804e-03, -1.9515e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 50, time 217.49, cls_loss 0.0194 cls_loss_mapping 0.0260 cls_loss_causal 0.6824 re_mapping 0.0163 re_causal 0.0452 /// teacc 98.56 lr 0.00010000
+Epoch 52, weight, value: tensor([[-0.0237, -0.0151, -0.0168,  ..., -0.0683,  0.0208,  0.0146],
+        [-0.0139,  0.0150, -0.0722,  ...,  0.0181,  0.0196, -0.0351],
+        [ 0.0401, -0.0038, -0.0403,  ..., -0.0247, -0.0028, -0.0152],
+        ...,
+        [ 0.0245, -0.0348,  0.0019,  ...,  0.0255,  0.0076,  0.0301],
+        [-0.0063, -0.0263, -0.0286,  ..., -0.0021, -0.0122,  0.0049],
+        [-0.0436, -0.0768,  0.0415,  ..., -0.0425, -0.0117,  0.0009]],
+       device='cuda:0'), grad: tensor([[-6.1452e-05,  0.0000e+00, -4.2200e-05,  ...,  0.0000e+00,
+          7.9721e-06,  1.6764e-08],
+        [ 4.0352e-05,  0.0000e+00,  2.9981e-05,  ...,  0.0000e+00,
+          8.1509e-06,  3.9116e-08],
+        [ 2.7388e-05,  0.0000e+00,  1.7679e-04,  ...,  0.0000e+00,
+          1.1191e-05, -3.2131e-07],
+        ...,
+        [-3.9756e-05,  0.0000e+00,  3.2693e-05,  ...,  0.0000e+00,
+          5.7667e-05,  5.7742e-08],
+        [ 1.0622e-04,  0.0000e+00,  1.6844e-04,  ...,  0.0000e+00,
+         -1.8692e-04,  5.2154e-08],
+        [ 3.5346e-05,  0.0000e+00,  1.6868e-05,  ...,  0.0000e+00,
+         -8.7202e-05,  3.7253e-09]], device='cuda:0')
+Epoch 52, bias, value: tensor([-0.0044,  0.0265,  0.0073,  0.0034,  0.0061, -0.0054,  0.0201, -0.0242,
+         0.0230,  0.0035], device='cuda:0'), grad: tensor([-2.1553e-04,  1.7560e-04,  1.6892e-04,  1.2817e-03, -1.4615e-04,
+        -3.2043e-03,  1.0386e-03,  1.3685e-04,  6.8235e-04,  8.4579e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 51, time 217.38, cls_loss 0.0181 cls_loss_mapping 0.0232 cls_loss_causal 0.6852 re_mapping 0.0160 re_causal 0.0452 /// teacc 98.68 lr 0.00010000
+Epoch 53, weight, value: tensor([[-0.0240, -0.0152, -0.0172,  ..., -0.0684,  0.0205,  0.0145],
+        [-0.0140,  0.0152, -0.0721,  ...,  0.0189,  0.0205, -0.0359],
+        [ 0.0398, -0.0039, -0.0409,  ..., -0.0248, -0.0036, -0.0153],
+        ...,
+        [ 0.0249, -0.0349,  0.0021,  ...,  0.0253,  0.0072,  0.0312],
+        [-0.0060, -0.0263, -0.0290,  ..., -0.0022, -0.0128,  0.0040],
+        [-0.0438, -0.0769,  0.0416,  ..., -0.0423, -0.0112,  0.0007]],
+       device='cuda:0'), grad: tensor([[ 1.5512e-05,  1.1791e-06,  9.5218e-06,  ...,  0.0000e+00,
+          1.8209e-05,  6.9477e-07],
+        [ 2.7180e-05,  8.4750e-08,  3.7942e-06,  ...,  0.0000e+00,
+         -6.8605e-05,  2.7940e-07],
+        [-1.0514e-04, -1.0476e-05,  1.2526e-06,  ...,  0.0000e+00,
+          2.2516e-05, -1.9297e-06],
+        ...,
+        [-8.1122e-05,  8.3633e-07,  4.9248e-06,  ...,  0.0000e+00,
+          1.2346e-05,  4.5076e-07],
+        [ 1.5162e-06,  5.1688e-07,  5.5701e-05,  ...,  0.0000e+00,
+          8.7023e-05,  4.5002e-06],
+        [ 4.0025e-05,  1.7881e-07,  4.8578e-06,  ...,  0.0000e+00,
+          6.1989e-06,  8.6799e-07]], device='cuda:0')
+Epoch 53, bias, value: tensor([-0.0037,  0.0273,  0.0067,  0.0031,  0.0058, -0.0056,  0.0206, -0.0238,
+         0.0227,  0.0034], device='cuda:0'), grad: tensor([ 5.4300e-05, -5.0664e-05, -1.0252e-04,  1.6451e-04,  4.5300e-05,
+        -7.2670e-03,  6.9962e-03, -1.2708e-04,  1.9574e-04,  8.8096e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 52, time 217.56, cls_loss 0.0145 cls_loss_mapping 0.0191 cls_loss_causal 0.7120 re_mapping 0.0158 re_causal 0.0456 /// teacc 98.68 lr 0.00010000
+Epoch 54, weight, value: tensor([[-0.0241, -0.0153, -0.0176,  ..., -0.0685,  0.0203,  0.0144],
+        [-0.0138,  0.0154, -0.0725,  ...,  0.0190,  0.0211, -0.0371],
+        [ 0.0397, -0.0038, -0.0413,  ..., -0.0249, -0.0041, -0.0159],
+        ...,
+        [ 0.0248, -0.0359,  0.0021,  ...,  0.0253,  0.0066,  0.0319],
+        [-0.0059, -0.0269, -0.0288,  ..., -0.0023, -0.0124,  0.0032],
+        [-0.0443, -0.0789,  0.0415,  ..., -0.0426, -0.0106,  0.0006]],
+       device='cuda:0'), grad: tensor([[-8.9034e-07,  9.3132e-10,  3.8929e-06,  ...,  8.7265e-07,
+          1.2085e-05,  6.5193e-09],
+        [ 4.7952e-05, -6.5193e-08,  2.8968e-05,  ...,  1.3120e-05,
+         -9.6142e-05,  3.0734e-08],
+        [-5.5321e-06,  8.3819e-09,  3.2540e-06,  ...,  5.8860e-07,
+          1.3672e-05,  3.3528e-08],
+        ...,
+        [-8.9288e-05,  4.6566e-09, -2.4661e-05,  ..., -3.7491e-05,
+          3.8385e-05,  7.0781e-08],
+        [ 3.9227e-06,  3.6322e-08, -9.1419e-06,  ...,  7.3947e-07,
+          1.2167e-05,  5.5879e-09],
+        [-1.1146e-04,  9.3132e-10, -1.2898e-04,  ...,  1.4231e-05,
+         -9.1851e-05,  6.1467e-08]], device='cuda:0')
+Epoch 54, bias, value: tensor([-0.0036,  0.0274,  0.0066,  0.0028,  0.0057, -0.0053,  0.0204, -0.0241,
+         0.0234,  0.0033], device='cuda:0'), grad: tensor([-2.7001e-05, -1.7390e-05,  1.7717e-05,  8.5473e-05,  3.6478e-04,
+         5.4330e-05,  8.6904e-05, -7.1585e-05, -1.2189e-05, -4.8113e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 53, time 217.60, cls_loss 0.0164 cls_loss_mapping 0.0233 cls_loss_causal 0.6930 re_mapping 0.0159 re_causal 0.0448 /// teacc 98.62 lr 0.00010000
+Epoch 55, weight, value: tensor([[-0.0245, -0.0155, -0.0180,  ..., -0.0689,  0.0198,  0.0144],
+        [-0.0141,  0.0152, -0.0729,  ...,  0.0195,  0.0218, -0.0375],
+        [ 0.0400, -0.0033, -0.0416,  ..., -0.0252, -0.0046, -0.0159],
+        ...,
+        [ 0.0251, -0.0366,  0.0018,  ...,  0.0248,  0.0064,  0.0318],
+        [-0.0060, -0.0278, -0.0297,  ..., -0.0027, -0.0125,  0.0026],
+        [-0.0445, -0.0798,  0.0418,  ..., -0.0417, -0.0100,  0.0015]],
+       device='cuda:0'), grad: tensor([[ 5.4855e-07,  1.8626e-09,  2.0880e-06,  ...,  9.3132e-10,
+          7.0147e-06,  1.8626e-09],
+        [ 1.0625e-05, -3.6322e-08,  4.1723e-05,  ...,  2.7008e-08,
+          1.2495e-05,  2.7940e-09],
+        [-1.1854e-05,  2.3283e-08,  1.8954e-05,  ...,  3.7253e-09,
+          5.8934e-06, -2.9802e-08],
+        ...,
+        [-3.2354e-06, -7.6368e-08,  4.4376e-05,  ..., -7.4506e-08,
+          1.7107e-05,  1.0245e-08],
+        [-4.6849e-05,  1.3039e-08,  7.5586e-06,  ...,  1.8626e-09,
+          2.4036e-05,  6.5193e-09],
+        [ 9.4324e-06,  3.0734e-08,  2.6035e-04,  ...,  2.2352e-08,
+          8.3864e-05,  0.0000e+00]], device='cuda:0')
+Epoch 55, bias, value: tensor([-0.0039,  0.0272,  0.0065,  0.0021,  0.0061, -0.0050,  0.0206, -0.0239,
+         0.0228,  0.0038], device='cuda:0'), grad: tensor([-3.8713e-05,  1.0645e-04,  2.7493e-05,  6.2644e-05, -8.4352e-04,
+         2.0945e-04, -2.6345e-04,  1.0085e-04, -3.8370e-07,  6.3944e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 54, time 217.37, cls_loss 0.0150 cls_loss_mapping 0.0199 cls_loss_causal 0.7068 re_mapping 0.0156 re_causal 0.0453 /// teacc 98.60 lr 0.00010000
+Epoch 56, weight, value: tensor([[-0.0247, -0.0156, -0.0177,  ..., -0.0693,  0.0197,  0.0145],
+        [-0.0148,  0.0154, -0.0735,  ...,  0.0200,  0.0215, -0.0382],
+        [ 0.0410, -0.0032, -0.0419,  ..., -0.0252, -0.0052, -0.0155],
+        ...,
+        [ 0.0249, -0.0371,  0.0017,  ...,  0.0249,  0.0060,  0.0317],
+        [-0.0065, -0.0281, -0.0298,  ..., -0.0029, -0.0117,  0.0022],
+        [-0.0451, -0.0802,  0.0417,  ..., -0.0417, -0.0097,  0.0015]],
+       device='cuda:0'), grad: tensor([[ 1.1310e-05,  0.0000e+00,  1.1489e-05,  ...,  2.4214e-07,
+          8.5384e-06,  2.0489e-07],
+        [ 1.0908e-05,  0.0000e+00,  9.8133e-04,  ...,  1.5553e-07,
+         -1.4871e-05,  1.3039e-07],
+        [-6.3062e-05,  0.0000e+00,  1.6928e-05,  ...,  8.8476e-08,
+          1.0617e-05,  7.4506e-08],
+        ...,
+        [ 7.4267e-05,  0.0000e+00,  1.1963e-04,  ..., -8.7079e-07,
+          2.7373e-05, -7.2457e-07],
+        [-7.1704e-05,  0.0000e+00, -1.0040e-06,  ...,  1.3970e-08,
+         -5.5641e-05,  1.3970e-08],
+        [-2.6345e-04,  0.0000e+00, -1.4257e-04,  ...,  1.2480e-07,
+         -1.0115e-04,  8.6613e-08]], device='cuda:0')
+Epoch 56, bias, value: tensor([-0.0034,  0.0261,  0.0076,  0.0022,  0.0060, -0.0051,  0.0208, -0.0239,
+         0.0226,  0.0035], device='cuda:0'), grad: tensor([-6.1512e-05,  1.6642e-03,  1.2144e-05,  6.1369e-04, -2.0256e-03,
+         1.1718e-04,  2.0981e-04,  3.4213e-04, -2.2316e-04, -6.4898e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 55----------------------------------------------------
+epoch 55, time 218.09, cls_loss 0.0158 cls_loss_mapping 0.0216 cls_loss_causal 0.6807 re_mapping 0.0153 re_causal 0.0438 /// teacc 98.75 lr 0.00010000
+Epoch 57, weight, value: tensor([[-0.0248, -0.0158, -0.0183,  ..., -0.0694,  0.0195,  0.0146],
+        [-0.0153,  0.0157, -0.0749,  ...,  0.0201,  0.0222, -0.0391],
+        [ 0.0409, -0.0034, -0.0421,  ..., -0.0253, -0.0060, -0.0154],
+        ...,
+        [ 0.0251, -0.0371,  0.0017,  ...,  0.0247,  0.0056,  0.0319],
+        [-0.0071, -0.0287, -0.0297,  ..., -0.0029, -0.0114,  0.0019],
+        [-0.0456, -0.0806,  0.0416,  ..., -0.0414, -0.0094,  0.0013]],
+       device='cuda:0'), grad: tensor([[ 4.9710e-05,  0.0000e+00,  4.1053e-06,  ...,  0.0000e+00,
+          8.2478e-06,  2.0489e-08],
+        [ 6.7830e-05,  0.0000e+00,  8.4657e-07,  ...,  0.0000e+00,
+         -6.4932e-06,  3.7253e-09],
+        [ 1.3816e-04,  0.0000e+00,  2.0117e-06,  ...,  0.0000e+00,
+          6.0797e-05, -1.6019e-07],
+        ...,
+        [ 1.2720e-04,  0.0000e+00,  1.6131e-06,  ...,  0.0000e+00,
+          2.3380e-05,  2.4214e-08],
+        [ 3.1528e-03,  0.0000e+00,  1.2845e-05,  ...,  0.0000e+00,
+          5.5122e-04,  4.5635e-08],
+        [ 4.6790e-05,  0.0000e+00, -7.7952e-07,  ...,  0.0000e+00,
+         -5.1558e-06,  1.8626e-09]], device='cuda:0')
+Epoch 57, bias, value: tensor([-0.0044,  0.0262,  0.0070,  0.0028,  0.0058, -0.0049,  0.0213, -0.0238,
+         0.0228,  0.0034], device='cuda:0'), grad: tensor([-4.8339e-05,  9.0957e-05,  3.6979e-04, -6.9618e-03,  2.9474e-05,
+         6.2561e-04, -7.4267e-05,  2.2662e-04,  5.6686e-03,  7.0810e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 56, time 217.63, cls_loss 0.0186 cls_loss_mapping 0.0258 cls_loss_causal 0.7043 re_mapping 0.0158 re_causal 0.0433 /// teacc 98.57 lr 0.00010000
+Epoch 58, weight, value: tensor([[-0.0250, -0.0158, -0.0180,  ..., -0.0695,  0.0192,  0.0145],
+        [-0.0156,  0.0161, -0.0754,  ...,  0.0215,  0.0232, -0.0394],
+        [ 0.0417, -0.0034, -0.0439,  ..., -0.0253, -0.0064, -0.0157],
+        ...,
+        [ 0.0254, -0.0379,  0.0012,  ...,  0.0248,  0.0045,  0.0322],
+        [-0.0078, -0.0289, -0.0301,  ..., -0.0030, -0.0117,  0.0004],
+        [-0.0466, -0.0810,  0.0413,  ..., -0.0424, -0.0096,  0.0033]],
+       device='cuda:0'), grad: tensor([[ 1.6138e-05,  0.0000e+00,  3.1888e-05,  ...,  4.6566e-09,
+          4.7117e-05,  0.0000e+00],
+        [-9.5248e-05,  0.0000e+00,  3.1412e-05,  ...,  4.0978e-08,
+         -2.5892e-04,  0.0000e+00],
+        [ 2.8133e-04,  0.0000e+00,  4.5395e-04,  ...,  8.3819e-09,
+          2.1851e-04,  0.0000e+00],
+        ...,
+        [-4.9233e-05,  0.0000e+00,  5.6535e-05,  ..., -1.4808e-07,
+          1.3351e-04,  0.0000e+00],
+        [-4.2677e-04,  0.0000e+00, -5.2357e-04,  ...,  3.7253e-09,
+         -8.2636e-04,  0.0000e+00],
+        [ 1.4293e-04,  0.0000e+00,  2.3687e-04,  ...,  4.3772e-08,
+          3.1137e-04,  0.0000e+00]], device='cuda:0')
+Epoch 58, bias, value: tensor([-0.0039,  0.0267,  0.0069,  0.0029,  0.0070, -0.0045,  0.0206, -0.0240,
+         0.0224,  0.0025], device='cuda:0'), grad: tensor([ 1.6534e-04, -4.2868e-04,  1.7815e-03,  7.1716e-04, -1.0710e-03,
+         5.3740e-04,  1.2405e-05,  2.7108e-04, -3.0842e-03,  1.1015e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 57----------------------------------------------------
+epoch 57, time 218.30, cls_loss 0.0125 cls_loss_mapping 0.0167 cls_loss_causal 0.6787 re_mapping 0.0154 re_causal 0.0436 /// teacc 98.78 lr 0.00010000
+Epoch 59, weight, value: tensor([[-0.0252, -0.0158, -0.0180,  ..., -0.0697,  0.0189,  0.0145],
+        [-0.0163,  0.0161, -0.0760,  ...,  0.0215,  0.0231, -0.0400],
+        [ 0.0415, -0.0034, -0.0442,  ..., -0.0254, -0.0066, -0.0156],
+        ...,
+        [ 0.0263, -0.0379,  0.0009,  ...,  0.0247,  0.0043,  0.0323],
+        [-0.0084, -0.0290, -0.0303,  ..., -0.0030, -0.0117, -0.0010],
+        [-0.0472, -0.0810,  0.0410,  ..., -0.0421, -0.0095,  0.0040]],
+       device='cuda:0'), grad: tensor([[ 2.0528e-04,  0.0000e+00,  8.5640e-04,  ...,  1.2200e-07,
+          8.0228e-05,  2.2352e-08],
+        [ 3.8892e-05,  0.0000e+00,  4.8578e-06,  ...,  7.1153e-07,
+         -3.3855e-05,  2.9802e-08],
+        [-1.9681e-04,  0.0000e+00,  1.1034e-05,  ...,  1.6112e-07,
+          3.5137e-05, -4.0792e-07],
+        ...,
+        [ 2.4706e-05,  0.0000e+00,  3.2902e-05,  ..., -3.7421e-06,
+          1.9372e-05,  4.4703e-08],
+        [ 6.1870e-05,  0.0000e+00,  1.7241e-05,  ...,  3.6322e-08,
+          3.2216e-05,  1.0710e-07],
+        [ 1.3340e-04,  0.0000e+00, -2.8968e-05,  ...,  1.3616e-06,
+          3.5495e-05,  5.6811e-08]], device='cuda:0')
+Epoch 59, bias, value: tensor([-0.0037,  0.0260,  0.0064,  0.0036,  0.0073, -0.0051,  0.0210, -0.0234,
+         0.0222,  0.0023], device='cuda:0'), grad: tensor([ 6.5384e-03,  3.2693e-05, -2.4128e-04, -1.9169e-03,  6.7711e-05,
+        -5.8861e-03,  7.1907e-04,  1.6999e-04,  1.9586e-04,  3.2806e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 58, time 217.54, cls_loss 0.0172 cls_loss_mapping 0.0211 cls_loss_causal 0.6828 re_mapping 0.0150 re_causal 0.0416 /// teacc 98.75 lr 0.00010000
+Epoch 60, weight, value: tensor([[-0.0257, -0.0160, -0.0187,  ..., -0.0699,  0.0184,  0.0121],
+        [-0.0173,  0.0160, -0.0761,  ...,  0.0232,  0.0238, -0.0407],
+        [ 0.0416, -0.0029, -0.0445,  ..., -0.0256, -0.0071, -0.0150],
+        ...,
+        [ 0.0271, -0.0385,  0.0006,  ...,  0.0239,  0.0037,  0.0321],
+        [-0.0088, -0.0295, -0.0307,  ..., -0.0032, -0.0118, -0.0034],
+        [-0.0476, -0.0819,  0.0410,  ..., -0.0422, -0.0087,  0.0062]],
+       device='cuda:0'), grad: tensor([[ 1.1347e-05,  0.0000e+00,  2.9624e-05,  ...,  5.4296e-07,
+          1.6227e-05,  2.1514e-07],
+        [ 2.5064e-05,  0.0000e+00,  3.1590e-05,  ...,  2.9374e-06,
+         -8.3625e-05,  4.2841e-08],
+        [ 2.3520e-04,  0.0000e+00,  1.5926e-04,  ...,  1.3541e-06,
+          6.3181e-05, -2.0284e-06],
+        ...,
+        [-7.4530e-04,  0.0000e+00, -2.9373e-04,  ..., -1.1764e-05,
+         -1.0717e-04,  5.2806e-07],
+        [ 1.2094e-04,  0.0000e+00,  5.5695e-04,  ...,  2.0768e-07,
+          2.5153e-04,  4.9639e-07],
+        [ 3.8266e-04,  0.0000e+00,  3.5048e-04,  ...,  1.9874e-06,
+          1.6320e-04,  5.0291e-08]], device='cuda:0')
+Epoch 60, bias, value: tensor([-0.0046,  0.0262,  0.0061,  0.0037,  0.0078, -0.0049,  0.0213, -0.0230,
+         0.0215,  0.0025], device='cuda:0'), grad: tensor([-7.2300e-05, -8.2433e-05,  6.9761e-04,  3.4237e-03,  1.0049e-04,
+        -6.0387e-03,  7.3135e-05, -1.3237e-03,  1.8244e-03,  1.3971e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 59, time 217.55, cls_loss 0.0166 cls_loss_mapping 0.0204 cls_loss_causal 0.6826 re_mapping 0.0141 re_causal 0.0387 /// teacc 98.65 lr 0.00010000
+Epoch 61, weight, value: tensor([[-0.0254, -0.0160, -0.0193,  ..., -0.0705,  0.0180,  0.0111],
+        [-0.0169,  0.0160, -0.0763,  ...,  0.0229,  0.0251, -0.0412],
+        [ 0.0423, -0.0028, -0.0438,  ..., -0.0259, -0.0079, -0.0139],
+        ...,
+        [ 0.0263, -0.0387,  0.0005,  ...,  0.0245,  0.0034,  0.0320],
+        [-0.0092, -0.0297, -0.0309,  ..., -0.0033, -0.0117, -0.0040],
+        [-0.0483, -0.0820,  0.0406,  ..., -0.0423, -0.0077,  0.0070]],
+       device='cuda:0'), grad: tensor([[-3.3736e-05,  0.0000e+00,  2.2724e-06,  ...,  1.7416e-07,
+          3.0883e-06,  0.0000e+00],
+        [ 1.7837e-05,  0.0000e+00,  2.3052e-05,  ...,  3.1590e-06,
+          2.2829e-05,  0.0000e+00],
+        [-1.8287e-04,  0.0000e+00,  2.1011e-06,  ...,  1.8347e-07,
+          6.0201e-06,  0.0000e+00],
+        ...,
+        [ 1.4937e-04,  0.0000e+00,  9.5516e-06,  ...,  1.8999e-07,
+          4.2841e-06,  0.0000e+00],
+        [ 1.1183e-05,  0.0000e+00,  1.4611e-05,  ...,  2.2724e-07,
+          8.9109e-06,  0.0000e+00],
+        [ 6.5155e-06,  0.0000e+00,  2.1946e-04,  ...,  3.0637e-05,
+          2.4462e-04,  0.0000e+00]], device='cuda:0')
+Epoch 61, bias, value: tensor([-0.0037,  0.0270,  0.0065,  0.0033,  0.0075, -0.0048,  0.0207, -0.0236,
+         0.0217,  0.0021], device='cuda:0'), grad: tensor([-1.5318e-04,  1.0294e-04, -2.0874e-04,  4.4703e-05, -2.3991e-05,
+        -3.2872e-05, -7.9489e-04,  2.3258e-04,  7.4685e-05,  7.5865e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 60, time 217.42, cls_loss 0.0137 cls_loss_mapping 0.0218 cls_loss_causal 0.6739 re_mapping 0.0142 re_causal 0.0422 /// teacc 98.61 lr 0.00010000
+Epoch 62, weight, value: tensor([[-0.0256, -0.0160, -0.0195,  ..., -0.0706,  0.0177,  0.0111],
+        [-0.0171,  0.0160, -0.0770,  ...,  0.0231,  0.0256, -0.0414],
+        [ 0.0417, -0.0027, -0.0439,  ..., -0.0260, -0.0082, -0.0138],
+        ...,
+        [ 0.0272, -0.0389,  0.0004,  ...,  0.0248,  0.0031,  0.0320],
+        [-0.0095, -0.0297, -0.0307,  ..., -0.0034, -0.0116, -0.0042],
+        [-0.0486, -0.0820,  0.0405,  ..., -0.0426, -0.0075,  0.0070]],
+       device='cuda:0'), grad: tensor([[ 2.0191e-05,  0.0000e+00,  1.8001e-05,  ...,  1.0617e-05,
+          9.7305e-06,  0.0000e+00],
+        [ 2.0862e-04,  0.0000e+00,  2.8238e-05,  ..., -3.7265e-04,
+         -2.3079e-04,  0.0000e+00],
+        [ 2.2903e-05,  0.0000e+00,  6.5118e-06,  ...,  1.6198e-05,
+          4.0196e-06,  0.0000e+00],
+        ...,
+        [-1.2789e-03,  0.0000e+00,  8.1062e-05,  ..., -3.9506e-04,
+          1.4150e-04,  0.0000e+00],
+        [ 1.8105e-05,  0.0000e+00,  9.6202e-05,  ...,  1.5512e-05,
+          1.6421e-05,  0.0000e+00],
+        [ 7.0238e-04,  0.0000e+00, -1.8911e-03,  ...,  4.2415e-04,
+         -2.1935e-05,  0.0000e+00]], device='cuda:0')
+Epoch 62, bias, value: tensor([-0.0035,  0.0276,  0.0059,  0.0031,  0.0076, -0.0045,  0.0199, -0.0230,
+         0.0217,  0.0017], device='cuda:0'), grad: tensor([ 8.7202e-05, -2.6779e-03,  1.0395e-04,  2.7990e-04,  4.8065e-03,
+        -1.0052e-03,  8.5497e-04, -1.5268e-03,  2.6345e-04, -1.1806e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 61, time 217.58, cls_loss 0.0129 cls_loss_mapping 0.0180 cls_loss_causal 0.6543 re_mapping 0.0144 re_causal 0.0404 /// teacc 98.73 lr 0.00010000
+Epoch 63, weight, value: tensor([[-0.0264, -0.0161, -0.0200,  ..., -0.0708,  0.0174,  0.0110],
+        [-0.0186,  0.0160, -0.0776,  ...,  0.0244,  0.0262, -0.0416],
+        [ 0.0426, -0.0027, -0.0440,  ..., -0.0261, -0.0085, -0.0137],
+        ...,
+        [ 0.0280, -0.0389,  0.0004,  ...,  0.0248,  0.0028,  0.0320],
+        [-0.0099, -0.0298, -0.0309,  ..., -0.0035, -0.0125, -0.0043],
+        [-0.0492, -0.0821,  0.0408,  ..., -0.0434, -0.0069,  0.0070]],
+       device='cuda:0'), grad: tensor([[ 1.1988e-05,  0.0000e+00,  6.2250e-06,  ...,  4.4219e-06,
+          1.3508e-05,  9.5461e-07],
+        [ 2.5082e-04,  0.0000e+00,  1.0999e-06,  ...,  1.0228e-04,
+         -3.6192e-04,  3.7812e-07],
+        [ 1.3149e-04,  0.0000e+00,  2.9393e-06,  ...,  2.8592e-06,
+          5.7220e-05,  2.0675e-07],
+        ...,
+        [-2.6727e-04,  0.0000e+00,  9.2462e-06,  ..., -4.9973e-04,
+         -3.0804e-04,  6.6962e-07],
+        [ 8.1360e-06,  0.0000e+00,  1.0498e-05,  ...,  5.7146e-06,
+          2.4289e-05,  1.7351e-06],
+        [ 1.4722e-04,  0.0000e+00,  1.9461e-05,  ...,  1.4126e-04,
+          1.3447e-04,  3.5390e-08]], device='cuda:0')
+Epoch 63, bias, value: tensor([-0.0045,  0.0273,  0.0065,  0.0025,  0.0070, -0.0043,  0.0207, -0.0226,
+         0.0212,  0.0024], device='cuda:0'), grad: tensor([ 5.1260e-05, -3.9196e-04,  2.0123e-04, -3.1924e-04,  1.1377e-03,
+        -4.2605e-04,  3.1304e-04, -1.0786e-03,  1.2651e-05,  5.0116e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 62, time 217.42, cls_loss 0.0098 cls_loss_mapping 0.0155 cls_loss_causal 0.6317 re_mapping 0.0139 re_causal 0.0408 /// teacc 98.67 lr 0.00010000
+Epoch 64, weight, value: tensor([[-0.0267, -0.0161, -0.0201,  ..., -0.0709,  0.0170,  0.0106],
+        [-0.0182,  0.0160, -0.0781,  ...,  0.0245,  0.0267, -0.0451],
+        [ 0.0432, -0.0027, -0.0442,  ..., -0.0263, -0.0086, -0.0112],
+        ...,
+        [ 0.0278, -0.0389,  0.0005,  ...,  0.0252,  0.0024,  0.0331],
+        [-0.0105, -0.0298, -0.0310,  ..., -0.0036, -0.0123, -0.0077],
+        [-0.0498, -0.0821,  0.0407,  ..., -0.0436, -0.0066,  0.0070]],
+       device='cuda:0'), grad: tensor([[ 6.0536e-07,  0.0000e+00, -3.2447e-06,  ...,  2.3562e-07,
+          2.0694e-06,  0.0000e+00],
+        [ 2.2396e-05,  0.0000e+00,  1.0796e-05,  ...,  4.9584e-06,
+          9.0897e-07,  0.0000e+00],
+        [-2.8551e-05,  0.0000e+00,  3.1125e-06,  ...,  6.1560e-07,
+          3.4608e-06,  0.0000e+00],
+        ...,
+        [-3.1620e-05,  0.0000e+00,  8.2999e-06,  ..., -9.4622e-06,
+          3.0138e-06,  0.0000e+00],
+        [ 5.6699e-06,  0.0000e+00,  6.8732e-06,  ...,  1.3225e-07,
+         -5.4669e-07,  0.0000e+00],
+        [ 1.3776e-05,  0.0000e+00,  6.4913e-07,  ...,  2.0433e-06,
+         -9.7081e-06,  0.0000e+00]], device='cuda:0')
+Epoch 64, bias, value: tensor([-0.0043,  0.0275,  0.0069,  0.0023,  0.0069, -0.0045,  0.0206, -0.0225,
+         0.0213,  0.0020], device='cuda:0'), grad: tensor([-6.9439e-05,  5.7817e-05, -2.4870e-05,  1.9029e-05, -3.3706e-05,
+         2.5228e-05,  1.1884e-05, -2.7746e-05,  1.3225e-05,  2.8580e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 63, time 217.33, cls_loss 0.0105 cls_loss_mapping 0.0174 cls_loss_causal 0.6285 re_mapping 0.0139 re_causal 0.0398 /// teacc 98.61 lr 0.00010000
+Epoch 65, weight, value: tensor([[-2.7072e-02, -1.6177e-02, -2.0683e-02,  ..., -7.1142e-02,
+          1.6065e-02,  1.0269e-02],
+        [-1.8219e-02,  1.6318e-02, -7.8408e-02,  ...,  2.4330e-02,
+          2.6914e-02, -4.5978e-02],
+        [ 4.3092e-02, -3.2435e-03, -4.4140e-02,  ..., -2.6427e-02,
+         -9.2436e-03, -1.0578e-02],
+        ...,
+        [ 2.8469e-02, -3.7164e-02,  9.7241e-05,  ...,  2.5689e-02,
+          2.2677e-03,  3.3124e-02],
+        [-1.1044e-02, -2.8373e-02, -3.1328e-02,  ..., -3.7202e-03,
+         -1.2169e-02, -8.0873e-03],
+        [-5.0665e-02, -8.2488e-02,  4.0945e-02,  ..., -4.3980e-02,
+         -5.8393e-03,  7.2448e-03]], device='cuda:0'), grad: tensor([[-4.5806e-05,  0.0000e+00, -6.1654e-06,  ...,  0.0000e+00,
+         -8.8692e-05,  2.5891e-07],
+        [-2.2078e-04,  0.0000e+00,  3.5428e-06,  ..., -7.4506e-09,
+         -1.3590e-04,  8.4750e-08],
+        [ 1.2517e-04,  0.0000e+00,  9.6038e-06,  ...,  9.3132e-10,
+          8.9407e-05, -2.4959e-06],
+        ...,
+        [-1.9395e-04,  0.0000e+00,  1.1474e-05,  ...,  2.7940e-09,
+          2.5004e-05,  2.8219e-07],
+        [ 3.0190e-05,  0.0000e+00, -9.6262e-05,  ...,  9.3132e-10,
+          2.9400e-05,  9.4995e-07],
+        [ 9.4056e-05,  0.0000e+00,  3.0756e-05,  ...,  9.3132e-10,
+          1.1668e-05,  2.9430e-07]], device='cuda:0')
+Epoch 65, bias, value: tensor([-0.0056,  0.0274,  0.0066,  0.0022,  0.0069, -0.0040,  0.0208, -0.0223,
+         0.0213,  0.0025], device='cuda:0'), grad: tensor([-6.9189e-04, -4.8566e-04,  6.0892e-04,  4.1437e-04, -1.0639e-05,
+         3.4142e-04,  4.0531e-05, -2.5105e-04, -3.0065e-04,  3.3569e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 64, time 217.47, cls_loss 0.0115 cls_loss_mapping 0.0163 cls_loss_causal 0.6585 re_mapping 0.0138 re_causal 0.0398 /// teacc 98.60 lr 0.00010000
+Epoch 66, weight, value: tensor([[-0.0272, -0.0163, -0.0210,  ..., -0.0715,  0.0157,  0.0102],
+        [-0.0181,  0.0168, -0.0790,  ...,  0.0249,  0.0274, -0.0474],
+        [ 0.0430, -0.0037, -0.0443,  ..., -0.0267, -0.0095, -0.0101],
+        ...,
+        [ 0.0285, -0.0373, -0.0003,  ...,  0.0255,  0.0015,  0.0334],
+        [-0.0114, -0.0279, -0.0316,  ..., -0.0040, -0.0121, -0.0090],
+        [-0.0507, -0.0830,  0.0411,  ..., -0.0438, -0.0049,  0.0073]],
+       device='cuda:0'), grad: tensor([[ 3.2187e-05,  0.0000e+00,  7.4133e-07,  ...,  4.4703e-08,
+          6.4336e-06,  3.7253e-09],
+        [ 1.0520e-04,  0.0000e+00, -1.7323e-07,  ...,  3.7067e-07,
+         -4.6074e-05,  1.8626e-09],
+        [-1.4615e-04,  0.0000e+00,  3.5223e-06,  ...,  6.5193e-08,
+          1.0267e-05,  0.0000e+00],
+        ...,
+        [-1.4150e-04,  0.0000e+00,  3.3677e-06,  ...,  3.0547e-07,
+         -3.5204e-07,  1.8626e-09],
+        [ 1.1258e-05,  0.0000e+00, -1.8906e-06,  ...,  8.1956e-08,
+          2.2426e-05,  1.6764e-08],
+        [ 4.5061e-05,  0.0000e+00,  9.7603e-06,  ...,  2.1700e-06,
+          2.8387e-06,  7.4506e-09]], device='cuda:0')
+Epoch 66, bias, value: tensor([-0.0053,  0.0279,  0.0062,  0.0022,  0.0073, -0.0040,  0.0208, -0.0230,
+         0.0211,  0.0029], device='cuda:0'), grad: tensor([ 4.7386e-05,  1.1557e-04, -1.2052e-04,  1.2934e-04,  3.9935e-06,
+        -3.7272e-06,  4.7654e-05, -3.1686e-04,  5.4836e-05,  4.2111e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 65, time 217.73, cls_loss 0.0131 cls_loss_mapping 0.0205 cls_loss_causal 0.6611 re_mapping 0.0136 re_causal 0.0398 /// teacc 98.61 lr 0.00010000
+Epoch 67, weight, value: tensor([[-0.0276, -0.0163, -0.0225,  ..., -0.0717,  0.0154,  0.0086],
+        [-0.0182,  0.0173, -0.0797,  ...,  0.0261,  0.0281, -0.0498],
+        [ 0.0430, -0.0041, -0.0445,  ..., -0.0268, -0.0098, -0.0102],
+        ...,
+        [ 0.0291, -0.0373, -0.0002,  ...,  0.0245,  0.0011,  0.0325],
+        [-0.0117, -0.0280, -0.0316,  ..., -0.0040, -0.0123, -0.0114],
+        [-0.0516, -0.0832,  0.0411,  ..., -0.0444, -0.0043,  0.0091]],
+       device='cuda:0'), grad: tensor([[ 2.9281e-06,  0.0000e+00, -4.0010e-06,  ...,  2.9802e-08,
+          9.4622e-07,  0.0000e+00],
+        [ 5.2080e-06,  0.0000e+00,  8.5607e-06,  ...,  2.2911e-07,
+         -5.0589e-06,  0.0000e+00],
+        [ 1.6773e-04,  0.0000e+00,  1.8571e-06,  ...,  1.4901e-08,
+          4.1246e-05,  0.0000e+00],
+        ...,
+        [ 4.6015e-04,  0.0000e+00,  4.7415e-05,  ..., -8.4005e-07,
+          1.1665e-04,  0.0000e+00],
+        [ 2.2560e-05,  0.0000e+00,  4.4592e-06,  ...,  9.3132e-09,
+          1.9707e-06,  0.0000e+00],
+        [-4.7588e-04,  0.0000e+00,  9.3818e-05,  ...,  4.3772e-07,
+         -1.2022e-04,  0.0000e+00]], device='cuda:0')
+Epoch 67, bias, value: tensor([-0.0062,  0.0282,  0.0058,  0.0026,  0.0072, -0.0043,  0.0209, -0.0223,
+         0.0210,  0.0028], device='cuda:0'), grad: tensor([-4.2653e-04,  3.5793e-05,  2.2519e-04, -1.6630e-04, -3.9911e-04,
+        -6.3926e-06,  4.6432e-05,  1.2360e-03,  3.9428e-05, -5.8317e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 66, time 217.57, cls_loss 0.0108 cls_loss_mapping 0.0163 cls_loss_causal 0.6815 re_mapping 0.0131 re_causal 0.0391 /// teacc 98.44 lr 0.00010000
+Epoch 68, weight, value: tensor([[-0.0278, -0.0164, -0.0225,  ..., -0.0718,  0.0154,  0.0085],
+        [-0.0188,  0.0172, -0.0803,  ...,  0.0262,  0.0280, -0.0518],
+        [ 0.0430, -0.0038, -0.0447,  ..., -0.0269, -0.0103, -0.0097],
+        ...,
+        [ 0.0290, -0.0376, -0.0004,  ...,  0.0245,  0.0009,  0.0319],
+        [-0.0116, -0.0282, -0.0319,  ..., -0.0040, -0.0119, -0.0129],
+        [-0.0521, -0.0835,  0.0407,  ..., -0.0446, -0.0044,  0.0092]],
+       device='cuda:0'), grad: tensor([[-4.2558e-05,  0.0000e+00, -1.0401e-04,  ...,  1.7323e-06,
+          1.0937e-05,  0.0000e+00],
+        [ 2.0385e-05,  0.0000e+00,  2.5779e-06,  ...,  7.1898e-07,
+          7.6070e-06,  0.0000e+00],
+        [-4.4405e-06,  0.0000e+00,  2.7329e-05,  ...,  2.0117e-07,
+          1.4424e-05,  0.0000e+00],
+        ...,
+        [ 1.9610e-05,  0.0000e+00,  6.6310e-06,  ...,  4.5672e-06,
+          4.9099e-06,  0.0000e+00],
+        [ 4.4078e-05,  0.0000e+00,  2.2978e-05,  ...,  5.1223e-07,
+          3.1263e-05,  0.0000e+00],
+        [ 1.4924e-05,  0.0000e+00,  8.5980e-06,  ...,  1.3504e-06,
+         -5.0217e-05,  0.0000e+00]], device='cuda:0')
+Epoch 68, bias, value: tensor([-0.0052,  0.0277,  0.0054,  0.0029,  0.0079, -0.0038,  0.0199, -0.0224,
+         0.0219,  0.0017], device='cuda:0'), grad: tensor([-2.2864e-04,  4.4703e-05,  6.5088e-05, -1.7500e-04,  6.8188e-04,
+         8.3596e-06, -5.8270e-04,  7.8678e-05,  1.7023e-04, -6.3062e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 67, time 217.62, cls_loss 0.0130 cls_loss_mapping 0.0167 cls_loss_causal 0.6240 re_mapping 0.0135 re_causal 0.0360 /// teacc 98.68 lr 0.00010000
+Epoch 69, weight, value: tensor([[-0.0273, -0.0171, -0.0232,  ..., -0.0719,  0.0148,  0.0083],
+        [-0.0195,  0.0175, -0.0807,  ...,  0.0266,  0.0282, -0.0539],
+        [ 0.0436, -0.0041, -0.0447,  ..., -0.0273, -0.0102, -0.0084],
+        ...,
+        [ 0.0291, -0.0375, -0.0004,  ...,  0.0244,  0.0005,  0.0320],
+        [-0.0122, -0.0285, -0.0323,  ..., -0.0042, -0.0117, -0.0147],
+        [-0.0524, -0.0865,  0.0411,  ..., -0.0446, -0.0034,  0.0093]],
+       device='cuda:0'), grad: tensor([[ 8.6054e-07,  0.0000e+00,  5.7556e-07,  ...,  0.0000e+00,
+          4.5784e-06,  1.4901e-08],
+        [ 8.1062e-06,  0.0000e+00,  7.7114e-07,  ...,  0.0000e+00,
+          2.4028e-06,  3.7253e-09],
+        [-4.3273e-05,  0.0000e+00,  6.4075e-07,  ...,  0.0000e+00,
+         -8.1807e-06, -1.8999e-07],
+        ...,
+        [-7.8604e-06,  0.0000e+00,  1.1940e-06,  ...,  0.0000e+00,
+          1.1660e-06,  2.6077e-08],
+        [ 7.7963e-05,  0.0000e+00, -3.0361e-07,  ...,  0.0000e+00,
+         -4.7296e-05,  6.7055e-08],
+        [ 7.4506e-06,  0.0000e+00,  2.8443e-06,  ...,  0.0000e+00,
+         -2.8815e-06,  1.1176e-08]], device='cuda:0')
+Epoch 69, bias, value: tensor([-0.0056,  0.0271,  0.0061,  0.0027,  0.0071, -0.0043,  0.0207, -0.0226,
+         0.0216,  0.0029], device='cuda:0'), grad: tensor([ 4.1723e-06,  3.2455e-05, -3.0112e-04, -6.1929e-05,  3.6150e-05,
+         2.8145e-06,  5.7995e-05,  2.3823e-06,  2.0814e-04,  1.8746e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 68, time 217.61, cls_loss 0.0105 cls_loss_mapping 0.0142 cls_loss_causal 0.6285 re_mapping 0.0132 re_causal 0.0378 /// teacc 98.70 lr 0.00010000
+Epoch 70, weight, value: tensor([[-0.0276, -0.0177, -0.0233,  ..., -0.0720,  0.0147,  0.0083],
+        [-0.0199,  0.0174, -0.0809,  ...,  0.0267,  0.0285, -0.0540],
+        [ 0.0452, -0.0029, -0.0452,  ..., -0.0276, -0.0104, -0.0083],
+        ...,
+        [ 0.0280, -0.0391, -0.0008,  ...,  0.0243,  0.0003,  0.0320],
+        [-0.0127, -0.0294, -0.0326,  ..., -0.0043, -0.0117, -0.0150],
+        [-0.0531, -0.0898,  0.0410,  ..., -0.0447, -0.0032,  0.0093]],
+       device='cuda:0'), grad: tensor([[-2.1040e-05,  1.4901e-08,  2.5287e-05,  ...,  5.8301e-07,
+          1.3039e-06,  0.0000e+00],
+        [-3.9265e-06,  1.8626e-09,  3.8929e-06,  ...,  2.6822e-07,
+         -2.9355e-05,  0.0000e+00],
+        [ 2.5421e-05, -1.9185e-07,  1.0908e-05,  ...,  2.4028e-07,
+          6.5304e-06,  0.0000e+00],
+        ...,
+        [-3.5763e-05,  5.7742e-08,  3.8091e-06,  ...,  4.4703e-07,
+          1.3202e-05,  0.0000e+00],
+        [ 4.1649e-06,  3.5390e-08,  2.1327e-06,  ...,  6.3889e-07,
+          1.5311e-06,  0.0000e+00],
+        [ 9.0748e-06,  1.8626e-09,  2.4605e-04,  ...,  9.0152e-07,
+         -4.3884e-06,  0.0000e+00]], device='cuda:0')
+Epoch 70, bias, value: tensor([-0.0059,  0.0271,  0.0073,  0.0026,  0.0070, -0.0035,  0.0207, -0.0235,
+         0.0211,  0.0028], device='cuda:0'), grad: tensor([-5.0545e-05, -5.3406e-05,  7.9989e-05,  2.6679e-04, -6.3086e-04,
+        -1.8489e-04,  1.1188e-04, -2.3812e-05, -5.2899e-06,  4.9019e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 69, time 217.57, cls_loss 0.0124 cls_loss_mapping 0.0166 cls_loss_causal 0.6367 re_mapping 0.0129 re_causal 0.0360 /// teacc 98.55 lr 0.00010000
+Epoch 71, weight, value: tensor([[-0.0278, -0.0180, -0.0226,  ..., -0.0724,  0.0145,  0.0083],
+        [-0.0206,  0.0190, -0.0813,  ...,  0.0269,  0.0288, -0.0541],
+        [ 0.0452, -0.0032, -0.0453,  ..., -0.0278, -0.0111, -0.0083],
+        ...,
+        [ 0.0292, -0.0418, -0.0010,  ...,  0.0238,  0.0003,  0.0320],
+        [-0.0134, -0.0293, -0.0328,  ..., -0.0043, -0.0119, -0.0150],
+        [-0.0540, -0.0909,  0.0407,  ..., -0.0438, -0.0030,  0.0093]],
+       device='cuda:0'), grad: tensor([[ 9.9465e-06,  1.1735e-07,  5.9120e-06,  ...,  0.0000e+00,
+          3.9116e-06,  0.0000e+00],
+        [ 5.7316e-04,  3.5204e-07,  1.4305e-05,  ...,  0.0000e+00,
+          1.9228e-04,  0.0000e+00],
+        [ 1.3344e-05, -3.5763e-06,  9.8124e-06,  ...,  0.0000e+00,
+          4.1306e-05,  0.0000e+00],
+        ...,
+        [-6.3467e-04,  2.5537e-06, -1.3620e-05,  ...,  0.0000e+00,
+         -2.1434e-04,  0.0000e+00],
+        [ 4.4584e-05,  2.5891e-07,  3.2842e-05,  ...,  0.0000e+00,
+          8.7693e-06,  0.0000e+00],
+        [ 1.7524e-05,  7.6368e-08,  7.8306e-06,  ...,  0.0000e+00,
+         -2.5794e-05,  0.0000e+00]], device='cuda:0')
+Epoch 71, bias, value: tensor([-0.0054,  0.0273,  0.0069,  0.0026,  0.0068, -0.0034,  0.0209, -0.0228,
+         0.0209,  0.0021], device='cuda:0'), grad: tensor([ 2.7493e-05,  1.0395e-03, -3.6693e-04,  1.1736e-04,  5.2404e-04,
+        -1.9684e-03,  1.3933e-03, -1.0023e-03,  2.4009e-04, -2.1681e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 70, time 217.65, cls_loss 0.0096 cls_loss_mapping 0.0137 cls_loss_causal 0.6347 re_mapping 0.0125 re_causal 0.0354 /// teacc 98.60 lr 0.00010000
+Epoch 72, weight, value: tensor([[-2.8076e-02, -1.8209e-02, -2.2606e-02,  ..., -7.2785e-02,
+          1.3884e-02,  8.2790e-03],
+        [-2.1000e-02,  1.8953e-02, -8.1715e-02,  ...,  2.7560e-02,
+          2.9278e-02, -5.4273e-02],
+        [ 4.5328e-02, -2.9603e-03, -4.5887e-02,  ..., -2.8830e-02,
+         -1.1658e-02, -7.9245e-03],
+        ...,
+        [ 2.9706e-02, -4.2213e-02, -5.4599e-05,  ...,  2.3662e-02,
+         -8.8294e-05,  3.1973e-02],
+        [-1.3631e-02, -2.9744e-02, -3.3184e-02,  ..., -4.5730e-03,
+         -1.1871e-02, -1.5075e-02],
+        [-5.4218e-02, -9.1713e-02,  4.1074e-02,  ..., -4.3564e-02,
+         -2.3413e-03,  9.3247e-03]], device='cuda:0'), grad: tensor([[-5.3257e-05,  0.0000e+00,  4.0978e-05,  ...,  1.2480e-07,
+          6.3553e-06,  0.0000e+00],
+        [ 5.7034e-06,  0.0000e+00,  9.4920e-06,  ..., -1.6868e-05,
+         -2.9728e-05,  0.0000e+00],
+        [ 8.7470e-06,  0.0000e+00,  1.0051e-05,  ...,  1.1176e-06,
+          5.6326e-06, -9.3132e-09],
+        ...,
+        [ 5.7891e-06,  0.0000e+00,  5.3674e-05,  ...,  3.6340e-06,
+          5.5254e-05,  0.0000e+00],
+        [ 2.6226e-05,  0.0000e+00,  6.0536e-06,  ...,  2.4773e-07,
+         -4.4554e-06,  1.8626e-09],
+        [ 6.3255e-06,  0.0000e+00,  6.3837e-05,  ...,  9.2015e-07,
+         -4.6134e-05,  0.0000e+00]], device='cuda:0')
+Epoch 72, bias, value: tensor([-0.0056,  0.0270,  0.0067,  0.0025,  0.0060, -0.0033,  0.0209, -0.0222,
+         0.0209,  0.0024], device='cuda:0'), grad: tensor([-3.5524e-04,  6.8918e-08,  1.2147e-04,  3.8385e-04, -1.1522e-04,
+        -6.2704e-04, -1.8954e-05,  2.8110e-04,  2.0301e-04,  1.2720e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 71, time 217.80, cls_loss 0.0099 cls_loss_mapping 0.0126 cls_loss_causal 0.6549 re_mapping 0.0128 re_causal 0.0372 /// teacc 98.77 lr 0.00010000
+Epoch 73, weight, value: tensor([[-0.0276, -0.0184, -0.0229,  ..., -0.0733,  0.0139,  0.0083],
+        [-0.0213,  0.0189, -0.0816,  ...,  0.0293,  0.0302, -0.0545],
+        [ 0.0446, -0.0027, -0.0462,  ..., -0.0308, -0.0128, -0.0083],
+        ...,
+        [ 0.0303, -0.0423, -0.0002,  ...,  0.0235, -0.0001,  0.0324],
+        [-0.0142, -0.0300, -0.0337,  ..., -0.0053, -0.0121, -0.0152],
+        [-0.0547, -0.0924,  0.0411,  ..., -0.0437, -0.0021,  0.0093]],
+       device='cuda:0'), grad: tensor([[ 1.6242e-06,  0.0000e+00, -1.7297e-04,  ...,  5.3272e-07,
+          1.2666e-06,  0.0000e+00],
+        [ 5.1230e-05,  0.0000e+00,  5.2564e-06,  ...,  4.6402e-05,
+         -1.1206e-05,  0.0000e+00],
+        [-5.2661e-05,  0.0000e+00,  4.1425e-06,  ...,  6.0163e-07,
+          8.9779e-07,  0.0000e+00],
+        ...,
+        [-5.5909e-05,  0.0000e+00,  1.0967e-05,  ..., -5.7161e-05,
+          9.8050e-06,  0.0000e+00],
+        [ 1.1679e-06,  0.0000e+00,  1.2025e-05,  ...,  3.9674e-07,
+          2.4810e-06,  0.0000e+00],
+        [ 4.8950e-06,  0.0000e+00,  1.2124e-04,  ...,  6.9030e-06,
+         -1.0848e-05,  0.0000e+00]], device='cuda:0')
+Epoch 73, bias, value: tensor([-0.0045,  0.0273,  0.0058,  0.0027,  0.0059, -0.0034,  0.0206, -0.0217,
+         0.0205,  0.0024], device='cuda:0'), grad: tensor([-7.5912e-04,  5.9128e-04, -6.1035e-05,  9.1970e-05, -3.3379e-04,
+         3.0175e-05,  6.6280e-04, -6.4182e-04,  5.1618e-05,  3.6740e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 72, time 217.57, cls_loss 0.0129 cls_loss_mapping 0.0171 cls_loss_causal 0.6663 re_mapping 0.0127 re_causal 0.0349 /// teacc 98.62 lr 0.00010000
+Epoch 74, weight, value: tensor([[-0.0277, -0.0190, -0.0246,  ..., -0.0738,  0.0134,  0.0078],
+        [-0.0223,  0.0185, -0.0821,  ...,  0.0293,  0.0309, -0.0553],
+        [ 0.0448, -0.0023, -0.0465,  ..., -0.0308, -0.0133, -0.0077],
+        ...,
+        [ 0.0310, -0.0423, -0.0001,  ...,  0.0239, -0.0003,  0.0325],
+        [-0.0142, -0.0309, -0.0344,  ..., -0.0055, -0.0121, -0.0163],
+        [-0.0555, -0.0943,  0.0415,  ..., -0.0436, -0.0013,  0.0097]],
+       device='cuda:0'), grad: tensor([[ 6.0387e-06,  3.1665e-08,  1.0455e-04,  ...,  1.9558e-07,
+          1.3933e-06,  4.6566e-08],
+        [-2.6073e-03, -4.9174e-05,  8.5458e-06,  ...,  2.5313e-06,
+          2.6897e-06,  5.5879e-09],
+        [ 2.2202e-03,  4.1455e-05,  1.2144e-05,  ...,  2.7753e-07,
+          4.5113e-06, -4.3958e-07],
+        ...,
+        [ 2.5654e-04,  5.5470e-06,  1.0699e-05,  ..., -1.8671e-05,
+          2.0545e-06,  2.1048e-07],
+        [ 1.6987e-05,  1.9744e-07,  1.4409e-05,  ...,  8.3819e-08,
+         -6.2399e-06,  4.0978e-08],
+        [ 5.2214e-05,  4.0978e-08,  1.0767e-03,  ...,  1.3493e-05,
+         -2.0359e-06,  7.4506e-09]], device='cuda:0')
+Epoch 74, bias, value: tensor([-0.0050,  0.0271,  0.0057,  0.0025,  0.0058, -0.0030,  0.0199, -0.0212,
+         0.0201,  0.0029], device='cuda:0'), grad: tensor([ 1.8048e-04, -4.6577e-03,  4.0016e-03,  8.1718e-05,  3.7625e-06,
+        -1.9464e-03,  2.7511e-06,  4.8470e-04,  3.1322e-05,  1.8177e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 73, time 217.83, cls_loss 0.0099 cls_loss_mapping 0.0152 cls_loss_causal 0.6255 re_mapping 0.0126 re_causal 0.0362 /// teacc 98.67 lr 0.00010000
+Epoch 75, weight, value: tensor([[-0.0281, -0.0192, -0.0255,  ..., -0.0741,  0.0130,  0.0078],
+        [-0.0216,  0.0191, -0.0827,  ...,  0.0298,  0.0315, -0.0558],
+        [ 0.0450, -0.0026, -0.0463,  ..., -0.0315, -0.0137, -0.0075],
+        ...,
+        [ 0.0308, -0.0425, -0.0002,  ...,  0.0239, -0.0010,  0.0326],
+        [-0.0145, -0.0312, -0.0355,  ..., -0.0056, -0.0123, -0.0165],
+        [-0.0560, -0.0947,  0.0413,  ..., -0.0436, -0.0015,  0.0097]],
+       device='cuda:0'), grad: tensor([[ 4.6119e-06,  0.0000e+00,  6.6981e-06,  ...,  6.7055e-08,
+          3.1859e-05,  2.0489e-07],
+        [ 5.7220e-06,  0.0000e+00,  2.3358e-06,  ...,  1.9558e-07,
+          3.3903e-04,  2.4214e-08],
+        [ 1.8284e-05,  0.0000e+00,  1.1176e-08,  ...,  2.5518e-07,
+          2.1055e-05, -6.8732e-07],
+        ...,
+        [-6.1058e-06,  0.0000e+00, -2.6077e-07,  ...,  8.4005e-07,
+          5.3197e-05,  9.8720e-08],
+        [ 1.2532e-05,  0.0000e+00,  1.9684e-05,  ...,  1.2852e-07,
+         -3.5381e-04,  1.0990e-07],
+        [ 1.6481e-05,  0.0000e+00,  4.2245e-06,  ...,  3.0231e-06,
+         -7.0453e-05,  6.5193e-08]], device='cuda:0')
+Epoch 75, bias, value: tensor([-0.0054,  0.0278,  0.0057,  0.0021,  0.0069, -0.0031,  0.0206, -0.0215,
+         0.0197,  0.0025], device='cuda:0'), grad: tensor([ 1.7381e-04,  8.4591e-04,  6.5923e-05, -6.0111e-05,  8.6784e-05,
+        -4.0359e-03,  3.4924e-03,  1.2183e-04, -4.9400e-04, -1.9872e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 74, time 217.65, cls_loss 0.0095 cls_loss_mapping 0.0135 cls_loss_causal 0.6296 re_mapping 0.0118 re_causal 0.0349 /// teacc 98.65 lr 0.00010000
+Epoch 76, weight, value: tensor([[-2.8399e-02, -1.9514e-02, -2.5600e-02,  ..., -7.4149e-02,
+          1.2587e-02,  7.4560e-03],
+        [-2.1964e-02,  2.1534e-02, -8.3086e-02,  ...,  2.9884e-02,
+          3.1886e-02, -5.7684e-02],
+        [ 4.5360e-02, -4.0404e-03, -4.5648e-02,  ..., -3.1736e-02,
+         -1.4179e-02, -6.7006e-03],
+        ...,
+        [ 3.1116e-02, -4.3402e-02,  9.1840e-05,  ...,  2.4230e-02,
+         -9.5036e-04,  3.2503e-02],
+        [-1.5044e-02, -3.1580e-02, -3.5740e-02,  ..., -5.6757e-03,
+         -1.3008e-02, -1.7315e-02],
+        [-5.6663e-02, -9.5329e-02,  4.0913e-02,  ..., -4.3756e-02,
+         -9.6210e-04,  9.7934e-03]], device='cuda:0'), grad: tensor([[ 7.1004e-06,  0.0000e+00,  8.8848e-07,  ...,  3.9116e-07,
+          1.0788e-05,  1.7881e-07],
+        [ 3.9116e-06,  0.0000e+00,  1.3895e-06,  ..., -3.4243e-05,
+         -2.4652e-04,  9.8720e-08],
+        [ 2.9707e-04,  0.0000e+00,  1.1399e-06,  ...,  5.3085e-07,
+          4.3124e-05, -2.5798e-06],
+        ...,
+        [ 2.3693e-05,  0.0000e+00,  2.4587e-06,  ...,  3.8706e-06,
+          3.9846e-05,  4.7684e-07],
+        [-1.6236e-04,  0.0000e+00,  9.8720e-07,  ...,  2.9802e-07,
+         -2.1088e-04,  7.6741e-07],
+        [ 8.5160e-06,  0.0000e+00,  4.1574e-06,  ...,  4.7944e-06,
+         -3.5197e-05,  7.8231e-08]], device='cuda:0')
+Epoch 76, bias, value: tensor([-0.0049,  0.0282,  0.0057,  0.0022,  0.0063, -0.0026,  0.0197, -0.0212,
+         0.0190,  0.0024], device='cuda:0'), grad: tensor([-1.1748e-04, -4.1556e-04,  4.7827e-04, -2.1830e-06,  9.2149e-05,
+        -3.1948e-05,  2.3785e-03,  1.1194e-04, -2.4166e-03, -7.4744e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 75, time 217.53, cls_loss 0.0075 cls_loss_mapping 0.0109 cls_loss_causal 0.6068 re_mapping 0.0120 re_causal 0.0356 /// teacc 98.64 lr 0.00010000
+Epoch 77, weight, value: tensor([[-2.8559e-02, -1.9567e-02, -2.5859e-02,  ..., -7.4169e-02,
+          1.2412e-02,  7.1361e-03],
+        [-2.1615e-02,  2.1567e-02, -8.3421e-02,  ...,  3.0023e-02,
+          3.2002e-02, -5.9072e-02],
+        [ 4.5470e-02, -3.6383e-03, -4.6237e-02,  ..., -3.1782e-02,
+         -1.4606e-02, -6.3415e-03],
+        ...,
+        [ 3.1047e-02, -4.3923e-02,  1.2460e-05,  ...,  2.4196e-02,
+         -1.2116e-03,  3.2991e-02],
+        [-1.5367e-02, -3.1813e-02, -3.5822e-02,  ..., -5.6927e-03,
+         -1.2372e-02, -1.8245e-02],
+        [-5.7009e-02, -9.5381e-02,  4.0660e-02,  ..., -4.3789e-02,
+         -5.2460e-04,  1.0220e-02]], device='cuda:0'), grad: tensor([[ 2.3916e-06,  0.0000e+00, -1.6969e-06,  ...,  0.0000e+00,
+          1.8533e-06,  1.4156e-07],
+        [ 1.2130e-05,  0.0000e+00,  4.8429e-07,  ...,  0.0000e+00,
+         -6.6012e-06,  2.4214e-08],
+        [ 6.9700e-06,  0.0000e+00,  1.1772e-06,  ...,  0.0000e+00,
+          2.9169e-06,  3.1665e-08],
+        ...,
+        [-1.7917e-04,  0.0000e+00,  1.1697e-06,  ...,  0.0000e+00,
+          5.1945e-05,  5.5879e-09],
+        [ 2.0468e-04,  0.0000e+00,  3.3528e-05,  ...,  0.0000e+00,
+          4.0650e-05,  2.4773e-07],
+        [ 2.4766e-05,  0.0000e+00, -1.6280e-06,  ...,  0.0000e+00,
+         -6.6042e-05,  2.0489e-08]], device='cuda:0')
+Epoch 77, bias, value: tensor([-0.0048,  0.0285,  0.0054,  0.0022,  0.0076, -0.0024,  0.0174, -0.0213,
+         0.0196,  0.0022], device='cuda:0'), grad: tensor([-9.1791e-06,  1.7196e-05,  4.1872e-05, -8.0395e-04,  9.6023e-05,
+         3.4380e-04, -1.3918e-05, -2.5916e-04,  5.5361e-04,  3.5286e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 76, time 217.60, cls_loss 0.0090 cls_loss_mapping 0.0118 cls_loss_causal 0.6183 re_mapping 0.0120 re_causal 0.0344 /// teacc 98.77 lr 0.00010000
+Epoch 78, weight, value: tensor([[-0.0289, -0.0196, -0.0262,  ..., -0.0742,  0.0118,  0.0068],
+        [-0.0222,  0.0217, -0.0851,  ...,  0.0300,  0.0325, -0.0612],
+        [ 0.0466, -0.0037, -0.0468,  ..., -0.0318, -0.0142, -0.0054],
+        ...,
+        [ 0.0313, -0.0438,  0.0001,  ...,  0.0243, -0.0014,  0.0335],
+        [-0.0163, -0.0320, -0.0355,  ..., -0.0057, -0.0129, -0.0190],
+        [-0.0577, -0.0956,  0.0403,  ..., -0.0438, -0.0003,  0.0103]],
+       device='cuda:0'), grad: tensor([[ 2.5295e-06,  7.6368e-08,  1.7136e-06,  ...,  7.4506e-09,
+          4.4405e-06,  2.4773e-07],
+        [-3.1924e-04, -1.0008e-04,  1.5330e-06,  ..., -4.2096e-07,
+         -6.0129e-04,  4.8429e-08],
+        [ 3.0065e-04,  9.2387e-05,  1.8813e-06,  ...,  4.0978e-08,
+          5.3644e-04,  2.7195e-07],
+        ...,
+        [ 1.4678e-05,  4.0904e-06,  2.4028e-06,  ...,  1.7695e-07,
+          3.1292e-05,  1.3039e-08],
+        [ 3.8333e-06,  2.7008e-07, -2.9337e-06,  ...,  3.7253e-08,
+          2.9244e-06,  1.6261e-06],
+        [ 1.4510e-06,  7.8231e-08,  1.1213e-05,  ...,  2.2352e-08,
+          6.5528e-06,  3.5390e-08]], device='cuda:0')
+Epoch 78, bias, value: tensor([-0.0048,  0.0283,  0.0063,  0.0019,  0.0073, -0.0020,  0.0177, -0.0210,
+         0.0189,  0.0017], device='cuda:0'), grad: tensor([ 4.7758e-06, -2.2602e-03,  2.0752e-03, -1.2435e-05,  7.8321e-05,
+         7.6950e-05, -4.9859e-05,  1.1832e-04, -9.5487e-05,  6.1035e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 77, time 217.53, cls_loss 0.0098 cls_loss_mapping 0.0129 cls_loss_causal 0.6230 re_mapping 0.0113 re_causal 0.0339 /// teacc 98.74 lr 0.00010000
+Epoch 79, weight, value: tensor([[-0.0286, -0.0196, -0.0263,  ..., -0.0747,  0.0114,  0.0067],
+        [-0.0218,  0.0221, -0.0858,  ...,  0.0331,  0.0339, -0.0616],
+        [ 0.0466, -0.0041, -0.0468,  ..., -0.0320, -0.0141, -0.0048],
+        ...,
+        [ 0.0310, -0.0438, -0.0003,  ...,  0.0228, -0.0034,  0.0334],
+        [-0.0166, -0.0321, -0.0360,  ..., -0.0059, -0.0131, -0.0194],
+        [-0.0586, -0.0956,  0.0403,  ..., -0.0447,  0.0010,  0.0103]],
+       device='cuda:0'), grad: tensor([[ 9.2328e-05,  0.0000e+00,  1.8060e-05,  ...,  1.2480e-07,
+          1.3292e-04,  3.7253e-09],
+        [ 3.3855e-05,  0.0000e+00,  1.5460e-06,  ...,  1.7025e-06,
+          8.7991e-06,  0.0000e+00],
+        [-4.5121e-05,  0.0000e+00,  6.0461e-06,  ...,  8.3633e-07,
+          6.4932e-06,  0.0000e+00],
+        ...,
+        [-7.1228e-06,  0.0000e+00, -4.9695e-06,  ...,  1.5073e-05,
+          4.0442e-05,  0.0000e+00],
+        [ 2.5570e-05,  0.0000e+00, -4.3809e-06,  ...,  6.4634e-07,
+         -3.2812e-05,  1.4901e-08],
+        [-8.4221e-05,  0.0000e+00, -1.4782e-04,  ...,  2.6580e-06,
+         -2.7251e-04,  0.0000e+00]], device='cuda:0')
+Epoch 79, bias, value: tensor([-0.0045,  0.0297,  0.0063,  0.0016,  0.0076, -0.0024,  0.0181, -0.0226,
+         0.0188,  0.0018], device='cuda:0'), grad: tensor([ 4.7183e-04,  6.1333e-05, -6.2108e-05, -1.4615e-04,  6.9666e-04,
+         6.6876e-05,  9.8869e-06,  3.1382e-05, -5.8174e-05, -1.0710e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 78----------------------------------------------------
+epoch 78, time 218.26, cls_loss 0.0097 cls_loss_mapping 0.0133 cls_loss_causal 0.6282 re_mapping 0.0121 re_causal 0.0346 /// teacc 98.79 lr 0.00010000
+Epoch 80, weight, value: tensor([[-0.0289, -0.0198, -0.0275,  ..., -0.0754,  0.0105,  0.0049],
+        [-0.0217,  0.0221, -0.0861,  ...,  0.0336,  0.0338, -0.0620],
+        [ 0.0463, -0.0040, -0.0467,  ..., -0.0322, -0.0146, -0.0046],
+        ...,
+        [ 0.0314, -0.0439, -0.0003,  ...,  0.0226, -0.0035,  0.0333],
+        [-0.0166, -0.0324, -0.0359,  ..., -0.0063, -0.0126, -0.0197],
+        [-0.0595, -0.0957,  0.0409,  ..., -0.0447,  0.0018,  0.0122]],
+       device='cuda:0'), grad: tensor([[ 7.0930e-05,  1.9558e-07, -5.0217e-06,  ...,  1.3813e-05,
+          3.9786e-06,  3.7253e-09],
+        [ 1.4639e-04, -1.7136e-06,  3.3509e-06,  ...,  1.9018e-06,
+         -8.3148e-05,  2.4214e-08],
+        [-7.3957e-04, -7.9274e-06,  1.2778e-06,  ...,  2.4438e-06,
+          4.7535e-05,  2.7940e-08],
+        ...,
+        [ 7.0858e-04,  6.4857e-06,  1.8418e-05,  ...,  3.2043e-04,
+          6.5744e-05, -1.3970e-07],
+        [ 7.5758e-05,  1.1027e-06,  2.8443e-06,  ...,  1.7229e-06,
+         -7.4692e-07,  5.5879e-09],
+        [-5.4598e-04,  1.9372e-07, -3.1471e-05,  ..., -3.9339e-04,
+         -8.2970e-05,  1.4901e-08]], device='cuda:0')
+Epoch 80, bias, value: tensor([-0.0055,  0.0298,  0.0057,  0.0021,  0.0071, -0.0028,  0.0181, -0.0223,
+         0.0192,  0.0028], device='cuda:0'), grad: tensor([ 9.1434e-05, -9.4593e-05, -1.1358e-03,  4.4203e-04,  1.4544e-04,
+         1.0180e-04,  4.5955e-05,  1.7052e-03,  1.6081e-04, -1.4639e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 79, time 217.32, cls_loss 0.0091 cls_loss_mapping 0.0132 cls_loss_causal 0.6258 re_mapping 0.0123 re_causal 0.0346 /// teacc 98.70 lr 0.00010000
+Epoch 81, weight, value: tensor([[-0.0290, -0.0202, -0.0279,  ..., -0.0756,  0.0100,  0.0050],
+        [-0.0223,  0.0217, -0.0868,  ...,  0.0338,  0.0339, -0.0622],
+        [ 0.0470, -0.0040, -0.0466,  ..., -0.0323, -0.0145, -0.0045],
+        ...,
+        [ 0.0315, -0.0419, -0.0005,  ...,  0.0224, -0.0039,  0.0332],
+        [-0.0165, -0.0328, -0.0365,  ..., -0.0064, -0.0124, -0.0198],
+        [-0.0605, -0.0962,  0.0407,  ..., -0.0441,  0.0022,  0.0122]],
+       device='cuda:0'), grad: tensor([[ 2.7776e-05,  8.9407e-08, -2.6405e-05,  ...,  0.0000e+00,
+          6.1616e-06,  0.0000e+00],
+        [ 1.4842e-04,  3.5390e-08,  6.4820e-06,  ...,  0.0000e+00,
+          6.1333e-05,  0.0000e+00],
+        [-1.3828e-04,  1.0803e-07,  4.7684e-06,  ...,  0.0000e+00,
+          1.9372e-05,  0.0000e+00],
+        ...,
+        [-1.0990e-07,  1.4342e-07,  5.3495e-06,  ...,  0.0000e+00,
+          4.9882e-06,  0.0000e+00],
+        [-5.6219e-04,  1.0617e-07,  1.2136e-04,  ...,  0.0000e+00,
+         -2.1923e-04,  0.0000e+00],
+        [-4.3064e-05,  3.5949e-07,  6.5923e-05,  ...,  0.0000e+00,
+         -1.8394e-04,  0.0000e+00]], device='cuda:0')
+Epoch 81, bias, value: tensor([-0.0056,  0.0293,  0.0064,  0.0021,  0.0071, -0.0025,  0.0179, -0.0224,
+         0.0191,  0.0028], device='cuda:0'), grad: tensor([-1.6165e-04,  3.9744e-04, -1.3697e-04,  1.2474e-03,  2.3350e-05,
+        -1.8339e-03,  8.6641e-04,  6.3539e-05, -4.9400e-04,  2.9072e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 80----------------------------------------------------
+epoch 80, time 218.07, cls_loss 0.0083 cls_loss_mapping 0.0122 cls_loss_causal 0.5981 re_mapping 0.0119 re_causal 0.0344 /// teacc 98.88 lr 0.00010000
+Epoch 82, weight, value: tensor([[-0.0295, -0.0203, -0.0289,  ..., -0.0757,  0.0097,  0.0042],
+        [-0.0221,  0.0221, -0.0875,  ...,  0.0342,  0.0343, -0.0623],
+        [ 0.0472, -0.0043, -0.0468,  ..., -0.0335, -0.0148, -0.0045],
+        ...,
+        [ 0.0320, -0.0418, -0.0002,  ...,  0.0227, -0.0041,  0.0332],
+        [-0.0169, -0.0341, -0.0370,  ..., -0.0065, -0.0128, -0.0199],
+        [-0.0610, -0.0966,  0.0413,  ..., -0.0442,  0.0028,  0.0130]],
+       device='cuda:0'), grad: tensor([[ 5.7220e-06,  1.7695e-07, -3.6713e-06,  ...,  2.3805e-06,
+          1.2200e-06,  3.7253e-09],
+        [ 4.9382e-05,  9.1456e-07,  2.1867e-06,  ...,  1.8761e-05,
+         -5.6028e-06,  3.7253e-09],
+        [ 1.0651e-04,  4.0755e-06,  1.1295e-05,  ...,  5.3078e-05,
+          1.7025e-06, -6.5193e-08],
+        ...,
+        [ 1.6308e-04,  2.2724e-05,  6.4746e-06,  ...,  3.0184e-04,
+          2.1812e-06,  3.7253e-09],
+        [ 3.4869e-05,  1.2256e-06,  7.9334e-05,  ...,  1.4484e-05,
+          3.1199e-06,  2.0489e-08],
+        [ 1.7846e-04,  1.9930e-07, -4.9400e-03,  ...,  3.4031e-06,
+         -1.0654e-06,  9.3132e-09]], device='cuda:0')
+Epoch 82, bias, value: tensor([-0.0060,  0.0293,  0.0065,  0.0020,  0.0067, -0.0030,  0.0182, -0.0220,
+         0.0185,  0.0036], device='cuda:0'), grad: tensor([-1.7142e-04,  7.7486e-05,  1.7238e-04, -8.3065e-04,  6.1455e-03,
+        -1.7178e-04,  4.5568e-05, -2.8342e-05,  2.2936e-04, -5.4665e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 81, time 217.48, cls_loss 0.0085 cls_loss_mapping 0.0113 cls_loss_causal 0.6304 re_mapping 0.0117 re_causal 0.0343 /// teacc 98.83 lr 0.00010000
+Epoch 83, weight, value: tensor([[-0.0297, -0.0208, -0.0294,  ..., -0.0767,  0.0092,  0.0033],
+        [-0.0226,  0.0220, -0.0880,  ...,  0.0343,  0.0345, -0.0626],
+        [ 0.0475, -0.0028, -0.0478,  ..., -0.0341, -0.0153, -0.0042],
+        ...,
+        [ 0.0323, -0.0433, -0.0006,  ...,  0.0221, -0.0041,  0.0332],
+        [-0.0169, -0.0308, -0.0373,  ..., -0.0069, -0.0139, -0.0200],
+        [-0.0618, -0.0982,  0.0415,  ..., -0.0443,  0.0032,  0.0138]],
+       device='cuda:0'), grad: tensor([[ 1.3448e-06,  3.7253e-08, -6.2063e-06,  ...,  3.7253e-09,
+         -1.6429e-06,  7.8231e-08],
+        [ 4.7348e-06,  5.5879e-09,  1.9372e-07,  ...,  1.8626e-09,
+          7.8604e-07,  3.1665e-08],
+        [-5.2378e-06, -8.8662e-07,  2.8312e-07,  ...,  0.0000e+00,
+          4.0755e-06, -9.8720e-07],
+        ...,
+        [-9.8944e-06,  8.0094e-08,  4.0792e-07,  ...,  3.7253e-09,
+          8.3074e-07,  1.9744e-07],
+        [ 1.0118e-05,  4.9919e-07,  2.5332e-07,  ...,  5.5879e-09,
+         -7.5065e-06,  5.2713e-07],
+        [ 1.1526e-05,  1.1176e-08,  3.8259e-06,  ...,  1.1176e-08,
+          4.9993e-06,  1.1176e-08]], device='cuda:0')
+Epoch 83, bias, value: tensor([-0.0063,  0.0290,  0.0062,  0.0021,  0.0065, -0.0021,  0.0192, -0.0217,
+         0.0179,  0.0033], device='cuda:0'), grad: tensor([-9.0420e-05,  1.2666e-05,  2.2035e-06, -5.9414e-04,  3.4347e-06,
+         5.9795e-04,  2.0131e-05, -1.6093e-05, -5.9605e-06,  6.9916e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 82, time 217.31, cls_loss 0.0095 cls_loss_mapping 0.0135 cls_loss_causal 0.6320 re_mapping 0.0115 re_causal 0.0318 /// teacc 98.85 lr 0.00010000
+Epoch 84, weight, value: tensor([[-0.0307, -0.0219, -0.0295,  ..., -0.0770,  0.0084,  0.0033],
+        [-0.0229,  0.0219, -0.0883,  ...,  0.0352,  0.0349, -0.0627],
+        [ 0.0477, -0.0026, -0.0476,  ..., -0.0344, -0.0156, -0.0041],
+        ...,
+        [ 0.0325, -0.0433, -0.0002,  ...,  0.0227, -0.0041,  0.0332],
+        [-0.0162, -0.0286, -0.0376,  ..., -0.0074, -0.0139, -0.0201],
+        [-0.0632, -0.0995,  0.0413,  ..., -0.0446,  0.0031,  0.0140]],
+       device='cuda:0'), grad: tensor([[ 7.9051e-06,  0.0000e+00,  5.6066e-07,  ...,  1.1027e-06,
+          1.5385e-06,  1.8626e-09],
+        [ 3.9554e-04,  0.0000e+00,  7.1339e-07,  ...,  9.8348e-05,
+         -3.7253e-07,  1.8626e-09],
+        [-3.3236e-04,  0.0000e+00,  2.4214e-06,  ..., -1.3435e-04,
+          7.2829e-07, -3.3528e-08],
+        ...,
+        [-4.0102e-04,  0.0000e+00, -4.8429e-06,  ...,  8.5086e-06,
+          1.6112e-06,  3.7253e-09],
+        [ 1.6546e-04,  0.0000e+00,  5.8860e-06,  ...,  2.3358e-06,
+          3.5595e-06,  1.8626e-09],
+        [ 1.1906e-05,  0.0000e+00,  1.7118e-06,  ...,  6.2957e-07,
+         -3.7514e-06,  0.0000e+00]], device='cuda:0')
+Epoch 84, bias, value: tensor([-0.0060,  0.0289,  0.0062,  0.0016,  0.0061, -0.0018,  0.0198, -0.0207,
+         0.0182,  0.0022], device='cuda:0'), grad: tensor([ 6.0052e-06,  7.1144e-04, -5.6505e-04,  2.3878e-04,  3.9935e-05,
+        -3.9458e-05,  2.0295e-05, -7.6151e-04,  3.2234e-04,  2.7657e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 83, time 217.22, cls_loss 0.0081 cls_loss_mapping 0.0107 cls_loss_causal 0.6117 re_mapping 0.0115 re_causal 0.0324 /// teacc 98.82 lr 0.00010000
+Epoch 85, weight, value: tensor([[-3.1685e-02, -2.2533e-02, -2.9514e-02,  ..., -7.7276e-02,
+          7.8431e-03,  8.4042e-04],
+        [-2.2637e-02,  2.1747e-02, -8.8562e-02,  ...,  3.5310e-02,
+          3.5274e-02, -6.3473e-02],
+        [ 4.9551e-02, -4.4498e-04, -4.7656e-02,  ..., -3.4386e-02,
+         -1.5733e-02, -3.9914e-03],
+        ...,
+        [ 3.0931e-02, -4.5407e-02, -4.3666e-05,  ...,  2.3128e-02,
+         -4.6640e-03,  3.3222e-02],
+        [-1.6874e-02, -2.8735e-02, -3.7578e-02,  ..., -7.5971e-03,
+         -1.3717e-02, -2.0330e-02],
+        [-6.3224e-02, -1.0058e-01,  4.1021e-02,  ..., -4.4998e-02,
+          3.1767e-03,  1.6374e-02]], device='cuda:0'), grad: tensor([[-2.7150e-05,  3.7253e-09,  1.3225e-07,  ...,  1.3039e-08,
+          6.4224e-06,  3.7253e-09],
+        [ 5.2787e-06,  3.7253e-09,  1.2293e-07,  ..., -2.7940e-08,
+          5.6601e-04,  1.8626e-09],
+        [-2.3559e-05, -7.0781e-08,  2.4214e-08,  ...,  3.5390e-08,
+          1.1571e-05, -3.9116e-08],
+        ...,
+        [ 7.3686e-06,  1.8626e-08,  2.0117e-07,  ...,  3.3528e-08,
+          3.8669e-06,  7.4506e-09],
+        [ 2.4468e-05,  2.0489e-08,  3.0156e-06,  ...,  4.2841e-08,
+         -7.7391e-04,  1.3039e-08],
+        [ 4.1910e-06,  0.0000e+00,  1.2629e-06,  ...,  3.5390e-08,
+          6.4783e-06,  0.0000e+00]], device='cuda:0')
+Epoch 85, bias, value: tensor([-0.0068,  0.0291,  0.0075,  0.0017,  0.0062, -0.0014,  0.0201, -0.0219,
+         0.0181,  0.0021], device='cuda:0'), grad: tensor([-7.9930e-05,  1.6823e-03,  1.3895e-05,  4.8667e-05,  2.1145e-05,
+         8.5354e-05,  3.5524e-04,  2.8700e-05, -2.1915e-03,  3.5554e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 84, time 217.28, cls_loss 0.0073 cls_loss_mapping 0.0105 cls_loss_causal 0.6257 re_mapping 0.0116 re_causal 0.0334 /// teacc 98.88 lr 0.00010000
+Epoch 86, weight, value: tensor([[-3.1825e-02, -2.3469e-02, -2.9618e-02,  ..., -7.7369e-02,
+          7.4945e-03,  5.2248e-04],
+        [-2.2788e-02,  2.1964e-02, -8.8911e-02,  ...,  3.5498e-02,
+          3.5503e-02, -6.3982e-02],
+        [ 4.9456e-02,  4.7805e-05, -4.8111e-02,  ..., -3.4768e-02,
+         -1.6050e-02, -3.4699e-03],
+        ...,
+        [ 3.1461e-02, -4.5332e-02, -9.5766e-05,  ...,  2.3146e-02,
+         -4.7482e-03,  3.3152e-02],
+        [-1.6918e-02, -2.9669e-02, -3.7855e-02,  ..., -7.7859e-03,
+         -1.3847e-02, -2.0583e-02],
+        [-6.3803e-02, -1.0353e-01,  4.1037e-02,  ..., -4.5113e-02,
+          3.5997e-03,  1.6679e-02]], device='cuda:0'), grad: tensor([[ 1.1260e-06,  1.7695e-08,  1.9503e-04,  ...,  6.5193e-09,
+          3.2596e-07,  3.6322e-08],
+        [ 1.2983e-06,  6.2399e-08,  6.6198e-06,  ..., -2.1420e-08,
+         -4.6790e-06,  1.2107e-08],
+        [-1.0736e-05, -7.5437e-07,  4.1395e-05,  ...,  3.2596e-08,
+          1.0859e-06, -6.5099e-07],
+        ...,
+        [-2.7418e-06,  2.0489e-08,  1.0639e-05,  ...,  4.2841e-08,
+          2.0191e-06,  2.0489e-08],
+        [ 5.7966e-06,  3.8277e-07,  8.2552e-05,  ...,  5.3085e-08,
+          2.1383e-06,  3.4086e-07],
+        [ 1.7062e-06,  5.5879e-09, -1.0139e-04,  ...,  1.1269e-07,
+         -1.9521e-06,  4.0978e-08]], device='cuda:0')
+Epoch 86, bias, value: tensor([-0.0065,  0.0290,  0.0072,  0.0018,  0.0061, -0.0014,  0.0200, -0.0214,
+         0.0178,  0.0020], device='cuda:0'), grad: tensor([ 3.5858e-04,  4.9174e-06,  6.3777e-05,  4.7207e-05, -8.9359e-04,
+         2.5129e-04,  1.4913e-04,  2.2173e-05,  1.9062e-04, -1.9395e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 85, time 217.40, cls_loss 0.0081 cls_loss_mapping 0.0098 cls_loss_causal 0.5964 re_mapping 0.0113 re_causal 0.0326 /// teacc 98.49 lr 0.00010000
+Epoch 87, weight, value: tensor([[-3.1343e-02, -2.4470e-02, -2.9745e-02,  ..., -7.7509e-02,
+          7.6419e-03,  5.0189e-04],
+        [-2.2495e-02,  2.0924e-02, -8.9341e-02,  ...,  3.6480e-02,
+          3.6347e-02, -6.4996e-02],
+        [ 4.9868e-02,  1.4075e-03, -4.8820e-02,  ..., -3.4958e-02,
+         -1.5985e-02, -3.3829e-03],
+        ...,
+        [ 3.1334e-02, -4.5443e-02,  5.2919e-05,  ...,  2.3273e-02,
+         -5.9362e-03,  3.3070e-02],
+        [-1.6709e-02, -3.0405e-02, -3.7853e-02,  ..., -7.9055e-03,
+         -1.3858e-02, -2.2335e-02],
+        [-6.4422e-02, -1.0611e-01,  4.0836e-02,  ..., -4.5450e-02,
+          3.9890e-03,  1.6682e-02]], device='cuda:0'), grad: tensor([[ 4.0978e-07,  9.3132e-10, -1.0170e-05,  ...,  0.0000e+00,
+          5.4296e-07,  7.4506e-09],
+        [ 1.5544e-06,  9.3132e-10,  2.5164e-06,  ...,  0.0000e+00,
+         -3.7178e-06,  6.5193e-09],
+        [-1.3791e-05, -1.3970e-08,  5.5507e-07,  ...,  0.0000e+00,
+          8.4005e-07, -9.8720e-08],
+        ...,
+        [-8.5030e-07,  9.3132e-09,  1.6736e-06,  ...,  0.0000e+00,
+          5.3823e-05,  4.9360e-08],
+        [ 7.9200e-06,  9.3132e-10,  6.5506e-05,  ...,  0.0000e+00,
+          9.7379e-06,  1.0245e-08],
+        [ 1.4817e-06,  0.0000e+00,  1.8880e-05,  ...,  0.0000e+00,
+         -1.5497e-04,  1.8626e-09]], device='cuda:0')
+Epoch 87, bias, value: tensor([-0.0061,  0.0293,  0.0075,  0.0013,  0.0064, -0.0016,  0.0196, -0.0218,
+         0.0183,  0.0017], device='cuda:0'), grad: tensor([-1.3685e-04,  2.7679e-06, -4.1686e-06,  8.9228e-05,  3.0661e-04,
+        -2.4045e-04,  2.9087e-05,  2.0981e-04,  2.5105e-04, -5.0783e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 86, time 217.68, cls_loss 0.0067 cls_loss_mapping 0.0099 cls_loss_causal 0.5950 re_mapping 0.0114 re_causal 0.0325 /// teacc 98.70 lr 0.00010000
+Epoch 88, weight, value: tensor([[-0.0312, -0.0246, -0.0295,  ..., -0.0782,  0.0075,  0.0002],
+        [-0.0228,  0.0209, -0.0900,  ...,  0.0364,  0.0365, -0.0667],
+        [ 0.0502,  0.0013, -0.0498,  ..., -0.0350, -0.0165, -0.0029],
+        ...,
+        [ 0.0315, -0.0452,  0.0002,  ...,  0.0235, -0.0060,  0.0331],
+        [-0.0170, -0.0305, -0.0380,  ..., -0.0079, -0.0142, -0.0247],
+        [-0.0646, -0.1065,  0.0410,  ..., -0.0454,  0.0050,  0.0170]],
+       device='cuda:0'), grad: tensor([[ 4.7907e-06,  0.0000e+00, -5.7649e-07,  ...,  0.0000e+00,
+          1.0449e-06,  6.6496e-07],
+        [ 1.1303e-05,  0.0000e+00,  2.1413e-05,  ...,  4.6566e-09,
+         -1.8990e-06,  2.6338e-06],
+        [-3.0100e-05,  0.0000e+00,  4.1813e-05,  ...,  1.8626e-09,
+         -6.7204e-06,  4.8764e-06],
+        ...,
+        [ 1.7524e-05,  0.0000e+00,  3.8296e-06,  ...,  3.2596e-08,
+          4.2953e-06,  1.5181e-07],
+        [ 8.2701e-06,  0.0000e+00, -2.0396e-06,  ...,  9.3132e-10,
+         -4.3735e-06,  3.8464e-07],
+        [ 2.4214e-06,  0.0000e+00,  6.9737e-05,  ...,  8.4843e-07,
+         -4.8727e-06,  1.0524e-07]], device='cuda:0')
+Epoch 88, bias, value: tensor([-0.0055,  0.0290,  0.0079,  0.0007,  0.0065, -0.0022,  0.0192, -0.0216,
+         0.0183,  0.0020], device='cuda:0'), grad: tensor([ 1.0412e-06,  7.9870e-05,  1.3269e-05,  2.9147e-05,  1.2331e-03,
+         7.5459e-05, -1.6127e-03,  5.8949e-05,  8.2776e-06,  1.1331e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 87, time 217.48, cls_loss 0.0085 cls_loss_mapping 0.0108 cls_loss_causal 0.6280 re_mapping 0.0110 re_causal 0.0322 /// teacc 98.77 lr 0.00010000
+Epoch 89, weight, value: tensor([[-0.0314, -0.0251, -0.0293,  ..., -0.0785,  0.0071,  0.0002],
+        [-0.0230,  0.0212, -0.0907,  ...,  0.0371,  0.0365, -0.0686],
+        [ 0.0491,  0.0004, -0.0504,  ..., -0.0356, -0.0174, -0.0023],
+        ...,
+        [ 0.0328, -0.0442,  0.0004,  ...,  0.0232, -0.0067,  0.0329],
+        [-0.0175, -0.0311, -0.0381,  ..., -0.0081, -0.0145, -0.0269],
+        [-0.0650, -0.1072,  0.0408,  ..., -0.0456,  0.0066,  0.0170]],
+       device='cuda:0'), grad: tensor([[ 1.4510e-06,  6.4261e-08,  5.1036e-07,  ...,  0.0000e+00,
+         -3.2574e-05,  4.5635e-08],
+        [ 3.4392e-05,  2.6412e-06,  1.1539e-06,  ...,  0.0000e+00,
+         -6.3963e-06,  2.1420e-08],
+        [-2.8417e-05, -4.3958e-06,  6.0070e-07,  ...,  0.0000e+00,
+          5.9754e-06, -2.8312e-07],
+        ...,
+        [ 2.1935e-05,  1.0682e-06,  4.6752e-07,  ...,  0.0000e+00,
+          4.7982e-06,  2.9802e-08],
+        [ 1.4707e-05,  6.3330e-08, -4.3139e-06,  ...,  0.0000e+00,
+          1.6503e-06,  3.7253e-08],
+        [ 4.8801e-06,  4.8429e-08,  3.6657e-05,  ...,  0.0000e+00,
+          1.2271e-05,  9.3132e-09]], device='cuda:0')
+Epoch 89, bias, value: tensor([-0.0057,  0.0289,  0.0068,  0.0005,  0.0063, -0.0010,  0.0189, -0.0212,
+         0.0179,  0.0025], device='cuda:0'), grad: tensor([-6.7234e-04,  4.2140e-05, -4.7266e-05, -4.3631e-05, -1.5020e-04,
+         5.5313e-05,  5.9032e-04,  4.2647e-05,  1.5251e-05,  1.6809e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 88, time 217.44, cls_loss 0.0074 cls_loss_mapping 0.0116 cls_loss_causal 0.5915 re_mapping 0.0114 re_causal 0.0316 /// teacc 98.73 lr 0.00010000
+Epoch 90, weight, value: tensor([[-3.1579e-02, -2.6152e-02, -2.9042e-02,  ..., -7.8652e-02,
+          6.8017e-03,  1.4344e-04],
+        [-2.3562e-02,  2.0799e-02, -9.0943e-02,  ...,  3.7086e-02,
+          3.6621e-02, -7.0911e-02],
+        [ 4.7967e-02, -5.5387e-04, -5.0581e-02,  ..., -3.5739e-02,
+         -1.8544e-02, -1.5847e-03],
+        ...,
+        [ 3.4704e-02, -4.2498e-02,  4.0799e-05,  ...,  2.3258e-02,
+         -6.1374e-03,  3.2744e-02],
+        [-1.8080e-02, -3.3078e-02, -3.8440e-02,  ..., -8.2613e-03,
+         -1.4512e-02, -2.7978e-02],
+        [-6.5961e-02, -1.0942e-01,  4.0714e-02,  ..., -4.5746e-02,
+          7.1932e-03,  1.6938e-02]], device='cuda:0'), grad: tensor([[ 9.8124e-06,  1.8347e-07,  2.8126e-07,  ...,  6.7707e-07,
+          3.8259e-06,  7.4506e-09],
+        [ 4.4203e-04,  1.8571e-06,  2.7195e-07,  ...,  7.1898e-06,
+          8.2016e-05,  1.8626e-09],
+        [-1.6975e-04, -7.3671e-05,  8.1956e-08,  ...,  3.5483e-07,
+          2.9877e-05, -5.5879e-09],
+        ...,
+        [-2.3403e-03,  7.0214e-05,  1.0729e-06,  ..., -3.7074e-05,
+         -1.5855e-04,  4.6566e-09],
+        [ 8.0824e-05,  6.4634e-07,  8.0653e-07,  ...,  4.1258e-07,
+          2.5138e-05,  2.0489e-08],
+        [ 1.4281e-04,  3.3528e-08,  9.7230e-07,  ...,  2.3738e-05,
+          2.8461e-05,  3.7253e-09]], device='cuda:0')
+Epoch 90, bias, value: tensor([-0.0057,  0.0286,  0.0057,  0.0009,  0.0060, -0.0014,  0.0198, -0.0198,
+         0.0174,  0.0025], device='cuda:0'), grad: tensor([-7.1563e-06,  1.0080e-03, -9.0539e-05,  2.0084e-03,  1.7658e-05,
+         2.0057e-05, -1.9744e-06, -3.4561e-03,  1.9920e-04,  3.0518e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 89, time 217.67, cls_loss 0.0073 cls_loss_mapping 0.0093 cls_loss_causal 0.5837 re_mapping 0.0107 re_causal 0.0308 /// teacc 98.78 lr 0.00010000
+Epoch 91, weight, value: tensor([[-3.1746e-02, -2.7109e-02, -2.9686e-02,  ..., -7.8891e-02,
+          6.5501e-03, -1.6570e-03],
+        [-2.3629e-02,  2.0780e-02, -9.1575e-02,  ...,  3.6932e-02,
+          3.7027e-02, -7.1353e-02],
+        [ 4.8177e-02,  2.5558e-05, -5.0932e-02,  ..., -3.5760e-02,
+         -1.8929e-02, -1.5281e-03],
+        ...,
+        [ 3.4894e-02, -4.3069e-02,  1.3605e-04,  ...,  2.3350e-02,
+         -6.3779e-03,  3.2673e-02],
+        [-1.8058e-02, -3.6473e-02, -3.9193e-02,  ..., -8.4988e-03,
+         -1.4524e-02, -2.8189e-02],
+        [-6.6684e-02, -1.1092e-01,  4.1127e-02,  ..., -4.6283e-02,
+          7.5552e-03,  1.8712e-02]], device='cuda:0'), grad: tensor([[ 1.2424e-06,  2.1420e-08,  2.6003e-06,  ...,  0.0000e+00,
+         -2.1964e-05,  2.1607e-07],
+        [ 1.0744e-05,  6.5193e-09,  2.0824e-06,  ...,  0.0000e+00,
+          6.2399e-07,  2.3283e-08],
+        [-2.1346e-06, -2.1234e-07,  1.6196e-06,  ...,  0.0000e+00,
+          4.5374e-06,  3.0361e-07],
+        ...,
+        [-1.4091e-04,  6.5193e-08,  1.2927e-06,  ...,  0.0000e+00,
+         -6.7055e-05,  4.4703e-08],
+        [ 5.2713e-06,  8.1025e-08,  1.5963e-06,  ...,  0.0000e+00,
+          5.4426e-06,  3.8184e-08],
+        [ 1.2803e-04,  2.7940e-09,  1.3679e-05,  ...,  0.0000e+00,
+          7.4387e-05, -7.7114e-07]], device='cuda:0')
+Epoch 91, bias, value: tensor([-0.0062,  0.0285,  0.0056,  0.0005,  0.0059, -0.0013,  0.0196, -0.0199,
+         0.0176,  0.0032], device='cuda:0'), grad: tensor([-2.4843e-04,  2.7999e-05,  1.0908e-05,  1.1347e-05, -4.0501e-05,
+         1.3694e-05,  1.4402e-05, -4.5466e-04,  3.1620e-05,  6.3324e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 90, time 217.48, cls_loss 0.0071 cls_loss_mapping 0.0088 cls_loss_causal 0.6120 re_mapping 0.0111 re_causal 0.0317 /// teacc 98.75 lr 0.00010000
+Epoch 92, weight, value: tensor([[-0.0322, -0.0274, -0.0297,  ..., -0.0794,  0.0062, -0.0017],
+        [-0.0244,  0.0209, -0.0918,  ...,  0.0371,  0.0372, -0.0720],
+        [ 0.0483,  0.0001, -0.0511,  ..., -0.0358, -0.0193, -0.0015],
+        ...,
+        [ 0.0347, -0.0432,  0.0004,  ...,  0.0243, -0.0064,  0.0330],
+        [-0.0170, -0.0365, -0.0396,  ..., -0.0088, -0.0141, -0.0284],
+        [-0.0680, -0.1112,  0.0409,  ..., -0.0468,  0.0070,  0.0187]],
+       device='cuda:0'), grad: tensor([[ 1.1742e-05,  0.0000e+00,  1.6717e-06,  ...,  0.0000e+00,
+          2.2665e-05,  4.1723e-07],
+        [ 3.9458e-05,  0.0000e+00,  2.5239e-06,  ...,  0.0000e+00,
+          9.7901e-06,  1.8626e-09],
+        [-3.8058e-05,  0.0000e+00,  9.5833e-07,  ...,  0.0000e+00,
+          3.7700e-06,  2.7940e-09],
+        ...,
+        [ 2.9221e-05,  0.0000e+00,  2.1160e-06,  ...,  0.0000e+00,
+          5.3123e-06,  9.3132e-10],
+        [ 1.7121e-05,  0.0000e+00,  6.3255e-06,  ...,  0.0000e+00,
+         -2.2724e-06,  1.1176e-08],
+        [ 3.3647e-05,  0.0000e+00,  4.2655e-07,  ...,  0.0000e+00,
+         -2.1141e-06,  1.1176e-08]], device='cuda:0')
+Epoch 92, bias, value: tensor([-0.0058,  0.0281,  0.0056,  0.0013,  0.0061, -0.0017,  0.0193, -0.0199,
+         0.0184,  0.0025], device='cuda:0'), grad: tensor([ 2.1122e-06,  1.1557e-04,  6.3404e-06,  1.5147e-05, -7.5400e-05,
+         2.9594e-05, -2.5630e-04,  6.0707e-05,  4.5806e-05,  5.6356e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 91, time 217.71, cls_loss 0.0082 cls_loss_mapping 0.0113 cls_loss_causal 0.5898 re_mapping 0.0106 re_causal 0.0300 /// teacc 98.74 lr 0.00010000
+Epoch 93, weight, value: tensor([[-0.0327, -0.0276, -0.0300,  ..., -0.0796,  0.0058, -0.0017],
+        [-0.0256,  0.0210, -0.0923,  ...,  0.0383,  0.0380, -0.0738],
+        [ 0.0484,  0.0001, -0.0511,  ..., -0.0359, -0.0198, -0.0015],
+        ...,
+        [ 0.0346, -0.0431,  0.0007,  ...,  0.0239, -0.0064,  0.0339],
+        [-0.0152, -0.0369, -0.0400,  ..., -0.0089, -0.0150, -0.0288],
+        [-0.0696, -0.1117,  0.0409,  ..., -0.0471,  0.0072,  0.0187]],
+       device='cuda:0'), grad: tensor([[ 1.6345e-06,  0.0000e+00, -2.1327e-07,  ...,  0.0000e+00,
+          9.4995e-07,  1.0245e-08],
+        [ 9.8720e-06,  0.0000e+00,  2.3022e-06,  ...,  0.0000e+00,
+          5.2676e-06,  8.3819e-08],
+        [ 1.1444e-05,  0.0000e+00,  3.8836e-07,  ...,  0.0000e+00,
+          2.6487e-06,  1.3970e-08],
+        ...,
+        [-7.4387e-05,  0.0000e+00, -2.9467e-06,  ...,  0.0000e+00,
+         -1.2696e-05,  6.3330e-08],
+        [ 7.1935e-06,  0.0000e+00,  2.0880e-06,  ...,  0.0000e+00,
+          2.8312e-05,  6.5193e-09],
+        [ 4.0323e-05,  0.0000e+00, -8.0705e-05,  ...,  0.0000e+00,
+         -2.6989e-04,  1.1269e-07]], device='cuda:0')
+Epoch 93, bias, value: tensor([-0.0055,  0.0282,  0.0057,  0.0009,  0.0062, -0.0014,  0.0195, -0.0204,
+         0.0192,  0.0019], device='cuda:0'), grad: tensor([-3.8457e-04,  3.9786e-05,  2.4736e-05, -1.7537e-06,  8.3256e-04,
+         2.4509e-04,  1.2743e-04, -1.9467e-04,  9.7811e-05, -7.8630e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 92, time 217.78, cls_loss 0.0079 cls_loss_mapping 0.0109 cls_loss_causal 0.6241 re_mapping 0.0104 re_causal 0.0300 /// teacc 98.67 lr 0.00010000
+Epoch 94, weight, value: tensor([[-0.0335, -0.0284, -0.0298,  ..., -0.0800,  0.0075, -0.0018],
+        [-0.0254,  0.0211, -0.0932,  ...,  0.0390,  0.0385, -0.0767],
+        [ 0.0486,  0.0006, -0.0513,  ..., -0.0360, -0.0200, -0.0013],
+        ...,
+        [ 0.0347, -0.0436,  0.0005,  ...,  0.0237, -0.0067,  0.0343],
+        [-0.0154, -0.0376, -0.0412,  ..., -0.0090, -0.0151, -0.0310],
+        [-0.0708, -0.1126,  0.0407,  ..., -0.0479,  0.0077,  0.0189]],
+       device='cuda:0'), grad: tensor([[ 3.9227e-06,  0.0000e+00,  1.1586e-05,  ...,  1.3132e-07,
+          4.2245e-06,  0.0000e+00],
+        [ 2.0355e-05,  0.0000e+00,  6.8992e-06,  ...,  2.9057e-07,
+          2.5891e-07,  0.0000e+00],
+        [-2.3365e-05,  0.0000e+00, -2.0117e-06,  ...,  6.9849e-08,
+          6.9384e-07,  0.0000e+00],
+        ...,
+        [-2.1830e-05,  0.0000e+00,  7.8380e-06,  ...,  2.4494e-07,
+          6.2808e-06,  0.0000e+00],
+        [ 5.6356e-05,  0.0000e+00,  1.0610e-05,  ...,  5.4203e-07,
+          1.2092e-05,  0.0000e+00],
+        [-8.9686e-07,  0.0000e+00,  3.0994e-05,  ...,  8.9407e-08,
+         -2.6330e-05,  0.0000e+00]], device='cuda:0')
+Epoch 94, bias, value: tensor([-0.0044,  0.0283,  0.0060,  0.0006,  0.0068, -0.0011,  0.0183, -0.0203,
+         0.0190,  0.0012], device='cuda:0'), grad: tensor([ 6.1356e-06,  5.4240e-05, -3.8385e-05,  3.0786e-05,  2.3693e-05,
+        -1.9336e-04,  2.2739e-05, -1.4365e-05,  1.3149e-04, -2.3007e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 93, time 217.53, cls_loss 0.0064 cls_loss_mapping 0.0085 cls_loss_causal 0.5821 re_mapping 0.0112 re_causal 0.0301 /// teacc 98.77 lr 0.00010000
+Epoch 95, weight, value: tensor([[-0.0337, -0.0289, -0.0299,  ..., -0.0801,  0.0071, -0.0018],
+        [-0.0257,  0.0209, -0.0937,  ...,  0.0391,  0.0383, -0.0771],
+        [ 0.0490, -0.0002, -0.0512,  ..., -0.0360, -0.0202, -0.0012],
+        ...,
+        [ 0.0351, -0.0427,  0.0004,  ...,  0.0236, -0.0069,  0.0343],
+        [-0.0163, -0.0364, -0.0413,  ..., -0.0091, -0.0152, -0.0313],
+        [-0.0713, -0.1136,  0.0402,  ..., -0.0481,  0.0087,  0.0189]],
+       device='cuda:0'), grad: tensor([[ 2.8685e-06,  0.0000e+00, -4.3027e-07,  ...,  0.0000e+00,
+          4.1053e-06,  0.0000e+00],
+        [ 5.6252e-06,  0.0000e+00,  1.0505e-06,  ...,  0.0000e+00,
+          3.9935e-06,  0.0000e+00],
+        [-2.7657e-04,  0.0000e+00,  1.4780e-06,  ...,  0.0000e+00,
+         -5.3763e-05,  0.0000e+00],
+        ...,
+        [ 5.6103e-06,  0.0000e+00,  3.8296e-06,  ...,  0.0000e+00,
+          2.5593e-06,  0.0000e+00],
+        [ 4.9353e-05,  0.0000e+00,  5.8208e-07,  ...,  0.0000e+00,
+         -5.4762e-06,  0.0000e+00],
+        [ 1.3048e-06,  0.0000e+00,  9.8441e-07,  ...,  0.0000e+00,
+         -5.4687e-06,  0.0000e+00]], device='cuda:0')
+Epoch 95, bias, value: tensor([-0.0041,  0.0277,  0.0060,  0.0004,  0.0066, -0.0012,  0.0192, -0.0197,
+         0.0181,  0.0013], device='cuda:0'), grad: tensor([-1.1310e-05,  2.5257e-05, -3.2830e-04,  2.7680e-04,  8.7693e-06,
+         1.5780e-05, -4.0382e-05,  5.8264e-06,  2.8074e-05,  1.9282e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 94, time 217.70, cls_loss 0.0068 cls_loss_mapping 0.0090 cls_loss_causal 0.5953 re_mapping 0.0108 re_causal 0.0296 /// teacc 98.76 lr 0.00010000
+Epoch 96, weight, value: tensor([[-0.0332, -0.0295, -0.0301,  ..., -0.0801,  0.0071, -0.0027],
+        [-0.0264,  0.0209, -0.0953,  ...,  0.0391,  0.0382, -0.0777],
+        [ 0.0489, -0.0002, -0.0499,  ..., -0.0361, -0.0207, -0.0007],
+        ...,
+        [ 0.0356, -0.0426,  0.0003,  ...,  0.0236, -0.0074,  0.0342],
+        [-0.0162, -0.0369, -0.0418,  ..., -0.0092, -0.0156, -0.0314],
+        [-0.0722, -0.1155,  0.0398,  ..., -0.0483,  0.0097,  0.0198]],
+       device='cuda:0'), grad: tensor([[ 1.5683e-06,  0.0000e+00,  9.8534e-07,  ...,  0.0000e+00,
+          3.6806e-06,  2.4214e-08],
+        [-9.3639e-05,  0.0000e+00,  3.6042e-07,  ...,  0.0000e+00,
+         -2.0456e-04,  1.8626e-09],
+        [-2.2817e-06,  0.0000e+00,  1.1735e-07,  ...,  0.0000e+00,
+          6.6198e-06, -9.6858e-08],
+        ...,
+        [-1.4678e-05,  0.0000e+00,  2.6356e-07,  ...,  0.0000e+00,
+          1.8373e-05,  2.0489e-08],
+        [ 7.4446e-05,  0.0000e+00,  1.0848e-05,  ...,  0.0000e+00,
+          1.9288e-04,  1.8626e-08],
+        [ 3.4552e-06,  0.0000e+00,  1.7444e-06,  ...,  0.0000e+00,
+         -5.3734e-05,  6.5193e-09]], device='cuda:0')
+Epoch 96, bias, value: tensor([-3.8285e-03,  2.7058e-02,  5.7196e-03,  4.5091e-05,  6.8383e-03,
+        -1.6129e-03,  1.9928e-02, -1.9388e-02,  1.8173e-02,  1.3574e-03],
+       device='cuda:0'), grad: tensor([ 1.0476e-05, -4.3154e-04,  7.2643e-06,  4.7475e-05,  3.8713e-05,
+        -1.9848e-04,  1.8823e-04,  2.1607e-05,  4.4274e-04, -1.2684e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 95, time 217.70, cls_loss 0.0067 cls_loss_mapping 0.0095 cls_loss_causal 0.5823 re_mapping 0.0103 re_causal 0.0293 /// teacc 98.85 lr 0.00010000
+Epoch 97, weight, value: tensor([[-0.0331, -0.0296, -0.0303,  ..., -0.0802,  0.0070, -0.0033],
+        [-0.0267,  0.0209, -0.0961,  ...,  0.0392,  0.0389, -0.0779],
+        [ 0.0491, -0.0002, -0.0502,  ..., -0.0361, -0.0209, -0.0006],
+        ...,
+        [ 0.0356, -0.0426,  0.0006,  ...,  0.0236, -0.0087,  0.0342],
+        [-0.0166, -0.0374, -0.0426,  ..., -0.0093, -0.0163, -0.0314],
+        [-0.0717, -0.1157,  0.0396,  ..., -0.0484,  0.0107,  0.0204]],
+       device='cuda:0'), grad: tensor([[ 5.3905e-06,  9.3132e-09, -1.1951e-05,  ...,  0.0000e+00,
+          1.0353e-04,  0.0000e+00],
+        [ 3.4533e-06,  2.1420e-08,  5.6438e-07,  ...,  0.0000e+00,
+         -4.2629e-04,  0.0000e+00],
+        [-3.0383e-05, -5.0571e-07,  2.6450e-07,  ...,  0.0000e+00,
+          3.0875e-05,  0.0000e+00],
+        ...,
+        [ 6.2659e-06,  3.0547e-07,  1.0934e-06,  ...,  0.0000e+00,
+          1.9431e-05,  0.0000e+00],
+        [ 1.3940e-05,  1.0151e-07,  1.5991e-06,  ...,  0.0000e+00,
+          1.8382e-04,  0.0000e+00],
+        [ 1.6302e-05,  9.3132e-10,  1.0524e-06,  ...,  0.0000e+00,
+          1.2964e-05,  0.0000e+00]], device='cuda:0')
+Epoch 97, bias, value: tensor([-0.0044,  0.0272,  0.0058, -0.0002,  0.0070, -0.0013,  0.0195, -0.0194,
+         0.0173,  0.0024], device='cuda:0'), grad: tensor([ 1.3947e-04, -8.3208e-04,  2.7224e-05,  4.8429e-07,  5.4121e-05,
+         5.3167e-05,  1.0347e-04,  5.0157e-05,  3.6764e-04,  3.7253e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 96, time 218.00, cls_loss 0.0065 cls_loss_mapping 0.0105 cls_loss_causal 0.6096 re_mapping 0.0104 re_causal 0.0302 /// teacc 98.85 lr 0.00010000
+Epoch 98, weight, value: tensor([[-0.0333, -0.0296, -0.0303,  ..., -0.0803,  0.0063, -0.0033],
+        [-0.0270,  0.0209, -0.0973,  ...,  0.0392,  0.0411, -0.0783],
+        [ 0.0490, -0.0002, -0.0507,  ..., -0.0361, -0.0218, -0.0003],
+        ...,
+        [ 0.0359, -0.0426,  0.0009,  ...,  0.0240, -0.0096,  0.0342],
+        [-0.0169, -0.0373, -0.0425,  ..., -0.0093, -0.0166, -0.0316],
+        [-0.0730, -0.1157,  0.0383,  ..., -0.0485,  0.0098,  0.0204]],
+       device='cuda:0'), grad: tensor([[ 9.4157e-07,  0.0000e+00,  2.0452e-06,  ...,  0.0000e+00,
+          1.8045e-05,  5.8934e-06],
+        [ 1.5616e-05,  0.0000e+00,  8.4005e-07,  ...,  0.0000e+00,
+         -5.6811e-06,  3.9116e-08],
+        [-2.0695e-03,  0.0000e+00,  5.0385e-07,  ...,  0.0000e+00,
+          2.2054e-06,  4.9360e-08],
+        ...,
+        [ 3.4332e-05,  0.0000e+00,  3.7346e-07,  ...,  0.0000e+00,
+          4.5411e-06,  1.5832e-08],
+        [ 2.0199e-03,  0.0000e+00,  1.4147e-06,  ...,  0.0000e+00,
+          5.1633e-06,  2.9150e-07],
+        [ 4.5076e-06,  0.0000e+00,  7.2829e-06,  ...,  0.0000e+00,
+          5.1744e-06,  2.1141e-07]], device='cuda:0')
+Epoch 98, bias, value: tensor([-0.0042,  0.0278,  0.0052, -0.0019,  0.0079,  0.0004,  0.0197, -0.0191,
+         0.0174,  0.0009], device='cuda:0'), grad: tensor([ 7.0572e-05,  6.8724e-05, -1.0391e-02, -1.7971e-05,  8.3745e-06,
+         2.9594e-05, -9.5189e-05,  1.7679e-04,  1.0132e-02,  2.8670e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 97, time 219.00, cls_loss 0.0060 cls_loss_mapping 0.0092 cls_loss_causal 0.6126 re_mapping 0.0106 re_causal 0.0308 /// teacc 98.75 lr 0.00010000
+Epoch 99, weight, value: tensor([[-0.0339, -0.0298, -0.0312,  ..., -0.0804,  0.0058, -0.0038],
+        [-0.0272,  0.0208, -0.0988,  ...,  0.0392,  0.0420, -0.0788],
+        [ 0.0487, -0.0002, -0.0513,  ..., -0.0361, -0.0223,  0.0007],
+        ...,
+        [ 0.0366, -0.0425,  0.0013,  ...,  0.0241, -0.0114,  0.0342],
+        [-0.0174, -0.0375, -0.0420,  ..., -0.0093, -0.0159, -0.0318],
+        [-0.0740, -0.1160,  0.0385,  ..., -0.0486,  0.0104,  0.0209]],
+       device='cuda:0'), grad: tensor([[ 1.1455e-06,  0.0000e+00,  3.3118e-06,  ...,  0.0000e+00,
+          2.7604e-06,  0.0000e+00],
+        [ 1.1334e-06,  0.0000e+00,  2.2903e-05,  ...,  0.0000e+00,
+          2.7925e-05,  0.0000e+00],
+        [-2.0444e-05,  0.0000e+00,  2.8647e-06,  ...,  0.0000e+00,
+          3.4068e-06,  0.0000e+00],
+        ...,
+        [ 1.0906e-06,  0.0000e+00,  1.6332e-05,  ...,  0.0000e+00,
+          1.2338e-05,  0.0000e+00],
+        [ 9.9763e-06,  0.0000e+00,  2.6286e-05,  ...,  0.0000e+00,
+          3.4183e-05,  0.0000e+00],
+        [-9.5218e-06,  0.0000e+00, -1.2856e-03,  ...,  0.0000e+00,
+         -1.5278e-03,  0.0000e+00]], device='cuda:0')
+Epoch 99, bias, value: tensor([-0.0046,  0.0282,  0.0053, -0.0019,  0.0082,  0.0003,  0.0200, -0.0192,
+         0.0171,  0.0006], device='cuda:0'), grad: tensor([ 1.3858e-05,  1.1659e-04, -2.6584e-05,  2.7001e-05,  5.9814e-03,
+         2.6464e-05,  5.9083e-06,  6.7651e-05,  1.5199e-04, -6.3629e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 98, time 220.62, cls_loss 0.0061 cls_loss_mapping 0.0087 cls_loss_causal 0.5846 re_mapping 0.0107 re_causal 0.0294 /// teacc 98.87 lr 0.00010000
+Epoch 100, weight, value: tensor([[-3.3953e-02, -3.0393e-02, -3.1401e-02,  ..., -8.0508e-02,
+          5.6541e-03, -3.9072e-03],
+        [-2.8621e-02,  2.0676e-02, -9.9945e-02,  ...,  3.9273e-02,
+          4.1239e-02, -7.9373e-02],
+        [ 4.9674e-02,  1.0520e-04, -5.1749e-02,  ..., -3.6169e-02,
+         -2.1992e-02,  3.4256e-04],
+        ...,
+        [ 3.6689e-02, -4.3312e-02,  6.7844e-04,  ...,  2.4578e-02,
+         -1.0763e-02,  3.4235e-02],
+        [-1.7645e-02, -3.4443e-02, -4.2634e-02,  ..., -9.3818e-03,
+         -1.5728e-02, -3.1914e-02],
+        [-7.5739e-02, -1.1693e-01,  3.9002e-02,  ..., -4.8760e-02,
+          1.0871e-02,  2.0944e-02]], device='cuda:0'), grad: tensor([[ 4.7684e-06,  0.0000e+00, -7.3668e-07,  ...,  0.0000e+00,
+          3.2447e-06,  0.0000e+00],
+        [ 2.9672e-06,  0.0000e+00,  8.9407e-08,  ...,  0.0000e+00,
+         -2.3264e-06,  9.3132e-10],
+        [ 3.5405e-05,  0.0000e+00,  2.9709e-07,  ...,  0.0000e+00,
+          2.1495e-06,  9.3132e-10],
+        ...,
+        [ 4.1038e-05,  0.0000e+00,  2.0862e-07,  ...,  0.0000e+00,
+          2.0117e-06, -3.7253e-09],
+        [ 3.2037e-05,  0.0000e+00, -1.1316e-06,  ...,  0.0000e+00,
+         -1.0459e-06,  0.0000e+00],
+        [ 1.9386e-05,  0.0000e+00,  1.7621e-06,  ...,  0.0000e+00,
+         -1.4435e-07,  0.0000e+00]], device='cuda:0')
+Epoch 100, bias, value: tensor([-0.0045,  0.0270,  0.0061, -0.0019,  0.0081,  0.0003,  0.0199, -0.0191,
+         0.0172,  0.0007], device='cuda:0'), grad: tensor([ 9.5665e-06,  1.8738e-06,  6.9201e-05, -2.7299e-04,  1.2249e-05,
+         2.7418e-05, -2.0176e-05,  7.9393e-05,  5.6714e-05,  3.6359e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 99, time 219.76, cls_loss 0.0061 cls_loss_mapping 0.0098 cls_loss_causal 0.5776 re_mapping 0.0097 re_causal 0.0281 /// teacc 98.79 lr 0.00010000
+Epoch 101, weight, value: tensor([[-0.0344, -0.0308, -0.0316,  ..., -0.0808,  0.0052, -0.0039],
+        [-0.0280,  0.0221, -0.1008,  ...,  0.0393,  0.0423, -0.0805],
+        [ 0.0494, -0.0005, -0.0518,  ..., -0.0363, -0.0229,  0.0003],
+        ...,
+        [ 0.0369, -0.0435,  0.0007,  ...,  0.0246, -0.0113,  0.0342],
+        [-0.0179, -0.0344, -0.0427,  ..., -0.0095, -0.0154, -0.0321],
+        [-0.0764, -0.1177,  0.0383,  ..., -0.0488,  0.0093,  0.0210]],
+       device='cuda:0'), grad: tensor([[ 8.3353e-07,  0.0000e+00,  6.8918e-08,  ...,  9.3132e-10,
+          2.0228e-06,  0.0000e+00],
+        [ 9.1866e-06,  0.0000e+00,  1.9092e-07,  ...,  4.6566e-09,
+         -4.9263e-05,  0.0000e+00],
+        [ 7.2643e-06,  0.0000e+00,  6.3330e-08,  ...,  9.3132e-10,
+          1.4089e-05,  0.0000e+00],
+        ...,
+        [-1.6123e-05,  0.0000e+00, -3.3062e-07,  ...,  6.5193e-09,
+          6.4969e-06,  0.0000e+00],
+        [-7.9162e-07,  0.0000e+00,  6.7055e-08,  ...,  0.0000e+00,
+         -1.4335e-05,  0.0000e+00],
+        [ 5.4426e-06,  0.0000e+00,  1.1902e-06,  ...,  1.8626e-09,
+          2.3276e-05,  0.0000e+00]], device='cuda:0')
+Epoch 101, bias, value: tensor([-0.0043,  0.0280,  0.0055, -0.0019,  0.0094,  0.0004,  0.0195, -0.0191,
+         0.0174, -0.0006], device='cuda:0'), grad: tensor([ 8.6520e-07, -1.1861e-04,  4.8667e-05, -3.8683e-05,  2.2829e-05,
+         4.7565e-05,  1.4812e-05, -1.3679e-05, -3.6657e-05,  7.2837e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 100, time 220.23, cls_loss 0.0049 cls_loss_mapping 0.0077 cls_loss_causal 0.5981 re_mapping 0.0095 re_causal 0.0302 /// teacc 98.85 lr 0.00010000
+Epoch 102, weight, value: tensor([[-3.6489e-02, -3.0842e-02, -3.2005e-02,  ..., -8.1052e-02,
+          4.7590e-03, -5.4737e-03],
+        [-2.8206e-02,  2.2080e-02, -1.0224e-01,  ...,  3.9480e-02,
+          4.2716e-02, -8.1424e-02],
+        [ 4.9432e-02, -5.1822e-04, -5.2023e-02,  ..., -3.6279e-02,
+         -2.3179e-02,  7.6837e-05],
+        ...,
+        [ 3.7007e-02, -4.3526e-02,  6.6154e-04,  ...,  2.4375e-02,
+         -1.1564e-02,  3.4171e-02],
+        [-1.8206e-02, -3.4415e-02, -4.2652e-02,  ..., -9.5949e-03,
+         -1.5960e-02, -3.3009e-02],
+        [-7.6831e-02, -1.1773e-01,  3.8692e-02,  ..., -4.9303e-02,
+          9.9592e-03,  2.2451e-02]], device='cuda:0'), grad: tensor([[ 6.8545e-07,  0.0000e+00,  4.5355e-07,  ...,  0.0000e+00,
+         -2.2911e-07,  9.3132e-10],
+        [ 6.9514e-06,  0.0000e+00,  3.3323e-06,  ...,  0.0000e+00,
+          6.7391e-06,  0.0000e+00],
+        [ 4.8131e-06,  0.0000e+00,  9.9558e-07,  ...,  0.0000e+00,
+          1.6466e-05,  0.0000e+00],
+        ...,
+        [-2.0906e-05,  0.0000e+00,  4.2111e-05,  ...,  0.0000e+00,
+          1.5534e-06,  9.3132e-10],
+        [ 4.7199e-06,  0.0000e+00,  1.2564e-06,  ...,  0.0000e+00,
+         -6.0886e-05,  9.3132e-09],
+        [ 1.3299e-06,  0.0000e+00,  1.7929e-04,  ...,  0.0000e+00,
+         -5.2899e-07,  1.8626e-09]], device='cuda:0')
+Epoch 102, bias, value: tensor([-0.0053,  0.0281,  0.0052, -0.0015,  0.0089,  0.0005,  0.0198, -0.0191,
+         0.0170,  0.0002], device='cuda:0'), grad: tensor([-7.5847e-06,  5.0664e-05,  5.9903e-05, -2.1353e-05, -3.3379e-04,
+         1.0902e-04,  2.3350e-05,  3.3051e-05, -1.8108e-04,  2.6751e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 101, time 219.97, cls_loss 0.0055 cls_loss_mapping 0.0081 cls_loss_causal 0.5910 re_mapping 0.0098 re_causal 0.0284 /// teacc 98.82 lr 0.00010000
+Epoch 103, weight, value: tensor([[-3.6805e-02, -3.1012e-02, -3.2107e-02,  ..., -8.1267e-02,
+          4.7487e-03, -5.6299e-03],
+        [-2.8118e-02,  2.2084e-02, -1.0252e-01,  ...,  3.9501e-02,
+          4.2437e-02, -8.1695e-02],
+        [ 4.8978e-02, -2.9018e-04, -5.1800e-02,  ..., -3.6337e-02,
+         -2.3783e-02,  9.4734e-05],
+        ...,
+        [ 3.7675e-02, -4.3732e-02,  5.3099e-04,  ...,  2.4381e-02,
+         -1.1898e-02,  3.4208e-02],
+        [-1.8497e-02, -3.4439e-02, -4.2968e-02,  ..., -9.6682e-03,
+         -1.6326e-02, -3.3269e-02],
+        [-7.7103e-02, -1.1787e-01,  3.8125e-02,  ..., -4.9589e-02,
+          1.1430e-02,  2.2593e-02]], device='cuda:0'), grad: tensor([[ 7.4320e-07,  0.0000e+00,  1.9997e-05,  ...,  1.2573e-07,
+          3.8058e-05,  3.7253e-09],
+        [ 3.3472e-06,  0.0000e+00,  3.8370e-06,  ...,  3.5763e-07,
+          1.8710e-06,  3.7253e-09],
+        [-4.1537e-06,  0.0000e+00,  5.2862e-06,  ...,  7.7300e-08,
+          4.3996e-06, -8.4750e-08],
+        ...,
+        [-1.9163e-05,  0.0000e+00,  2.0787e-06,  ..., -4.3698e-06,
+          3.8818e-06,  1.3039e-08],
+        [ 1.2266e-06,  0.0000e+00,  4.3772e-07,  ...,  4.9360e-08,
+          1.7673e-05,  3.0734e-08],
+        [ 1.4603e-05,  0.0000e+00, -8.8096e-05,  ...,  3.9563e-06,
+         -1.3924e-04,  3.7253e-09]], device='cuda:0')
+Epoch 103, bias, value: tensor([-0.0048,  0.0281,  0.0043, -0.0017,  0.0088,  0.0003,  0.0202, -0.0185,
+         0.0166,  0.0005], device='cuda:0'), grad: tensor([ 2.3580e-04,  3.7789e-05,  1.9640e-05,  2.2024e-05,  6.1655e-04,
+         1.6823e-05,  2.2396e-05, -6.7279e-06,  4.7803e-05, -1.0118e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 102, time 220.05, cls_loss 0.0062 cls_loss_mapping 0.0108 cls_loss_causal 0.5879 re_mapping 0.0097 re_causal 0.0290 /// teacc 98.87 lr 0.00010000
+Epoch 104, weight, value: tensor([[-0.0372, -0.0314, -0.0326,  ..., -0.0813,  0.0045, -0.0057],
+        [-0.0287,  0.0221, -0.1038,  ...,  0.0397,  0.0423, -0.0833],
+        [ 0.0489, -0.0010, -0.0521,  ..., -0.0364, -0.0239,  0.0015],
+        ...,
+        [ 0.0382, -0.0427,  0.0004,  ...,  0.0244, -0.0124,  0.0340],
+        [-0.0191, -0.0345, -0.0431,  ..., -0.0097, -0.0165, -0.0338],
+        [-0.0773, -0.1185,  0.0383,  ..., -0.0499,  0.0114,  0.0225]],
+       device='cuda:0'), grad: tensor([[ 4.8801e-06,  0.0000e+00,  3.4366e-07,  ...,  0.0000e+00,
+          1.7863e-06, -6.0629e-07],
+        [ 4.2021e-05,  0.0000e+00,  1.4063e-07,  ...,  0.0000e+00,
+         -2.1011e-06,  3.6322e-08],
+        [-5.3585e-05,  0.0000e+00,  3.0827e-07,  ...,  0.0000e+00,
+          8.3167e-07,  1.5367e-07],
+        ...,
+        [-3.4332e-05,  0.0000e+00,  2.3656e-07,  ...,  0.0000e+00,
+          1.2573e-06,  9.2201e-08],
+        [ 1.2048e-05,  0.0000e+00,  1.1548e-07,  ...,  0.0000e+00,
+          2.6934e-06,  9.5926e-08],
+        [ 1.2487e-05,  0.0000e+00,  6.4913e-07,  ...,  0.0000e+00,
+          3.5763e-07,  4.9360e-08]], device='cuda:0')
+Epoch 104, bias, value: tensor([-0.0036,  0.0277,  0.0041, -0.0008,  0.0091, -0.0004,  0.0206, -0.0183,
+         0.0162, -0.0001], device='cuda:0'), grad: tensor([-3.6210e-06,  9.2983e-05, -1.3793e-04, -1.1981e-05,  1.0997e-05,
+         1.8626e-05,  2.5213e-05, -5.8264e-05,  2.3052e-05,  4.0591e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 103, time 219.73, cls_loss 0.0055 cls_loss_mapping 0.0080 cls_loss_causal 0.5779 re_mapping 0.0097 re_causal 0.0281 /// teacc 98.79 lr 0.00010000
+Epoch 105, weight, value: tensor([[-0.0377, -0.0315, -0.0327,  ..., -0.0816,  0.0042, -0.0059],
+        [-0.0282,  0.0222, -0.1054,  ...,  0.0401,  0.0427, -0.0848],
+        [ 0.0493, -0.0010, -0.0513,  ..., -0.0364, -0.0243,  0.0016],
+        ...,
+        [ 0.0382, -0.0427,  0.0005,  ...,  0.0247, -0.0134,  0.0341],
+        [-0.0195, -0.0345, -0.0432,  ..., -0.0098, -0.0164, -0.0341],
+        [-0.0782, -0.1185,  0.0380,  ..., -0.0498,  0.0116,  0.0225]],
+       device='cuda:0'), grad: tensor([[ 9.7603e-07,  0.0000e+00,  6.4075e-07,  ...,  0.0000e+00,
+          3.6448e-05,  2.1420e-08],
+        [-9.6798e-05,  0.0000e+00,  1.9465e-07,  ...,  0.0000e+00,
+         -2.4629e-04,  7.4506e-09],
+        [ 7.4357e-06,  0.0000e+00,  3.0641e-07,  ...,  0.0000e+00,
+          1.6451e-05,  3.7253e-09],
+        ...,
+        [ 6.8307e-05,  0.0000e+00,  2.0862e-07,  ...,  0.0000e+00,
+          1.7691e-04,  1.5832e-08],
+        [ 3.5577e-06,  0.0000e+00,  9.3691e-07,  ...,  0.0000e+00,
+          3.7938e-05,  1.9185e-07],
+        [ 8.3745e-06,  0.0000e+00,  2.2054e-06,  ...,  0.0000e+00,
+         -4.7654e-05,  1.6764e-07]], device='cuda:0')
+Epoch 105, bias, value: tensor([-0.0042,  0.0281,  0.0044, -0.0022,  0.0098,  0.0007,  0.0211, -0.0186,
+         0.0160, -0.0006], device='cuda:0'), grad: tensor([ 3.2902e-04, -7.4434e-04,  1.5211e-04,  9.5963e-05,  1.7428e-04,
+         9.2313e-06, -8.7991e-06,  5.7507e-04, -1.1958e-05, -5.7125e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 104, time 219.80, cls_loss 0.0053 cls_loss_mapping 0.0086 cls_loss_causal 0.6177 re_mapping 0.0097 re_causal 0.0289 /// teacc 98.84 lr 0.00010000
+Epoch 106, weight, value: tensor([[-0.0375, -0.0318, -0.0335,  ..., -0.0818,  0.0043, -0.0078],
+        [-0.0294,  0.0224, -0.1056,  ...,  0.0403,  0.0426, -0.0851],
+        [ 0.0495, -0.0010, -0.0514,  ..., -0.0367, -0.0229,  0.0016],
+        ...,
+        [ 0.0389, -0.0428,  0.0004,  ...,  0.0246, -0.0140,  0.0341],
+        [-0.0201, -0.0335, -0.0428,  ..., -0.0099, -0.0162, -0.0342],
+        [-0.0784, -0.1199,  0.0380,  ..., -0.0498,  0.0120,  0.0244]],
+       device='cuda:0'), grad: tensor([[ 2.0377e-06,  3.2596e-09,  1.2163e-06,  ...,  2.6962e-07,
+          5.1316e-07,  1.3504e-08],
+        [ 1.1802e-05,  4.7963e-08,  1.4426e-06,  ...,  1.4808e-06,
+         -2.5108e-06,  2.2817e-08],
+        [-1.8716e-05, -2.3795e-07,  3.4971e-07,  ...,  2.9616e-07,
+          4.3586e-07, -1.3085e-07],
+        ...,
+        [-8.3983e-05,  1.5227e-07, -1.7285e-05,  ..., -1.8656e-05,
+          2.1756e-06,  2.5611e-08],
+        [ 2.4855e-05,  8.3819e-09,  6.1421e-07,  ...,  2.2911e-07,
+         -2.1867e-06,  6.0536e-09],
+        [ 4.7535e-05,  9.3132e-10,  8.0317e-06,  ...,  7.7635e-06,
+          2.5565e-07,  5.1223e-09]], device='cuda:0')
+Epoch 106, bias, value: tensor([-4.4666e-03,  2.7202e-02,  4.9677e-03, -1.8957e-03,  9.6344e-03,
+        -4.6174e-04,  2.1111e-02, -1.8173e-02,  1.6226e-02, -7.8943e-05],
+       device='cuda:0'), grad: tensor([-8.6927e-04,  3.1650e-05, -3.9786e-06,  3.0935e-05,  3.7134e-05,
+         7.3686e-06,  1.0520e-05, -2.5725e-04,  1.6838e-05,  9.9659e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 105, time 219.41, cls_loss 0.0056 cls_loss_mapping 0.0066 cls_loss_causal 0.5660 re_mapping 0.0099 re_causal 0.0279 /// teacc 98.81 lr 0.00010000
+Epoch 107, weight, value: tensor([[-0.0380, -0.0338, -0.0338,  ..., -0.0819,  0.0038, -0.0078],
+        [-0.0297,  0.0233, -0.1064,  ...,  0.0406,  0.0433, -0.0856],
+        [ 0.0496, -0.0015, -0.0515,  ..., -0.0367, -0.0233,  0.0018],
+        ...,
+        [ 0.0392, -0.0427,  0.0006,  ...,  0.0247, -0.0144,  0.0343],
+        [-0.0206, -0.0329, -0.0432,  ..., -0.0100, -0.0165, -0.0344],
+        [-0.0791, -0.1209,  0.0382,  ..., -0.0500,  0.0121,  0.0244]],
+       device='cuda:0'), grad: tensor([[ 7.0035e-07,  2.7474e-08,  4.5775e-07,  ...,  0.0000e+00,
+          2.5127e-06,  2.9802e-08],
+        [ 3.5707e-06,  2.2817e-08,  4.5868e-07,  ...,  0.0000e+00,
+         -2.4401e-06,  8.5216e-08],
+        [-3.9548e-05, -5.2452e-06,  9.3598e-08,  ...,  0.0000e+00,
+          2.2724e-07, -1.7229e-07],
+        ...,
+        [ 1.9401e-05,  5.1335e-06,  2.0443e-07,  ...,  0.0000e+00,
+          1.3933e-06, -2.0443e-07],
+        [ 3.3937e-06,  3.6322e-08,  2.0474e-05,  ...,  0.0000e+00,
+          9.7603e-06,  5.7742e-08],
+        [ 7.6666e-06,  1.3970e-09,  5.3365e-07,  ...,  0.0000e+00,
+         -1.6429e-06,  6.2864e-08]], device='cuda:0')
+Epoch 107, bias, value: tensor([-0.0046,  0.0273,  0.0049, -0.0016,  0.0094, -0.0007,  0.0190, -0.0179,
+         0.0183, -0.0001], device='cuda:0'), grad: tensor([-1.5404e-06,  9.8720e-07, -5.4210e-05,  2.7239e-05,  1.2495e-05,
+        -1.6248e-04,  5.5850e-05,  2.2382e-05,  9.7394e-05,  1.6484e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 106, time 219.79, cls_loss 0.0052 cls_loss_mapping 0.0092 cls_loss_causal 0.5927 re_mapping 0.0095 re_causal 0.0290 /// teacc 98.65 lr 0.00010000
+Epoch 108, weight, value: tensor([[-0.0382, -0.0345, -0.0339,  ..., -0.0820,  0.0035, -0.0079],
+        [-0.0309,  0.0235, -0.1067,  ...,  0.0407,  0.0445, -0.0868],
+        [ 0.0506, -0.0014, -0.0512,  ..., -0.0368, -0.0235,  0.0022],
+        ...,
+        [ 0.0392, -0.0429,  0.0004,  ...,  0.0250, -0.0150,  0.0342],
+        [-0.0208, -0.0336, -0.0445,  ..., -0.0100, -0.0169, -0.0345],
+        [-0.0795, -0.1217,  0.0382,  ..., -0.0508,  0.0120,  0.0244]],
+       device='cuda:0'), grad: tensor([[ 1.3961e-06,  0.0000e+00,  4.7497e-08,  ...,  0.0000e+00,
+          2.9981e-05,  1.3292e-05],
+        [ 7.4413e-07,  0.0000e+00,  6.5193e-09,  ...,  0.0000e+00,
+         -6.9849e-07,  6.2399e-08],
+        [ 4.8578e-06,  0.0000e+00,  7.4506e-09,  ...,  0.0000e+00,
+          4.6268e-06,  1.6568e-06],
+        ...,
+        [ 1.1353e-06,  0.0000e+00,  3.5390e-08,  ...,  0.0000e+00,
+          1.3700e-06,  9.3132e-09],
+        [ 2.0396e-06,  0.0000e+00,  3.5297e-07,  ...,  0.0000e+00,
+          2.5164e-06,  2.6729e-07],
+        [ 2.6077e-06,  0.0000e+00,  3.6322e-08,  ...,  0.0000e+00,
+         -1.6456e-06,  3.5390e-08]], device='cuda:0')
+Epoch 108, bias, value: tensor([-0.0045,  0.0273,  0.0062, -0.0019,  0.0109, -0.0006,  0.0191, -0.0187,
+         0.0177, -0.0013], device='cuda:0'), grad: tensor([ 1.6916e-04,  1.0170e-06,  3.1114e-05, -2.7850e-05,  8.5160e-06,
+         2.6435e-05, -2.2793e-04,  5.0329e-06,  1.3761e-05,  8.7079e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 107, time 219.86, cls_loss 0.0052 cls_loss_mapping 0.0074 cls_loss_causal 0.5872 re_mapping 0.0096 re_causal 0.0278 /// teacc 98.86 lr 0.00010000
+Epoch 109, weight, value: tensor([[-3.8403e-02, -3.5559e-02, -3.4272e-02,  ..., -8.2115e-02,
+          2.9623e-03, -8.0154e-03],
+        [-3.1084e-02,  2.2822e-02, -1.0705e-01,  ...,  3.8417e-02,
+          4.4395e-02, -8.6931e-02],
+        [ 5.0280e-02, -1.7909e-03, -5.1552e-02,  ..., -3.6777e-02,
+         -2.4747e-02,  2.1256e-03],
+        ...,
+        [ 3.9916e-02, -4.1949e-02,  1.0697e-04,  ...,  2.5264e-02,
+         -1.5121e-02,  3.4228e-02],
+        [-2.1378e-02, -3.5603e-02, -4.5783e-02,  ..., -1.0111e-02,
+         -1.7135e-02, -3.4575e-02],
+        [-7.9854e-02, -1.2301e-01,  3.7948e-02,  ..., -4.8472e-02,
+          1.2831e-02,  2.4600e-02]], device='cuda:0'), grad: tensor([[ 5.8301e-07, -2.1532e-06,  7.0594e-07,  ...,  0.0000e+00,
+          1.6959e-06,  0.0000e+00],
+        [ 1.4745e-05,  6.0536e-08,  1.3905e-06,  ...,  0.0000e+00,
+          6.9849e-07,  0.0000e+00],
+        [-2.2218e-05,  8.7544e-08, -9.7789e-08,  ...,  0.0000e+00,
+         -6.2399e-07,  0.0000e+00],
+        ...,
+        [-2.6971e-06,  3.1292e-07,  2.0228e-06,  ...,  0.0000e+00,
+          6.8918e-07,  0.0000e+00],
+        [ 2.8759e-06,  1.5274e-07,  6.7167e-06,  ...,  0.0000e+00,
+          2.2873e-06,  0.0000e+00],
+        [ 2.0433e-06,  2.3656e-07, -1.3580e-03,  ...,  0.0000e+00,
+         -3.6788e-04,  0.0000e+00]], device='cuda:0')
+Epoch 109, bias, value: tensor([-0.0042,  0.0271,  0.0052, -0.0021,  0.0114, -0.0006,  0.0191, -0.0176,
+         0.0169, -0.0011], device='cuda:0'), grad: tensor([-1.9848e-05,  3.2067e-05, -3.6597e-05,  2.2620e-05,  3.3932e-03,
+         2.1175e-05, -4.8071e-05,  1.7164e-06,  3.0056e-05, -3.3989e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 108, time 219.60, cls_loss 0.0059 cls_loss_mapping 0.0100 cls_loss_causal 0.5958 re_mapping 0.0092 re_causal 0.0278 /// teacc 98.78 lr 0.00010000
+Epoch 110, weight, value: tensor([[-0.0397, -0.0375, -0.0346,  ..., -0.0836,  0.0025, -0.0081],
+        [-0.0318,  0.0207, -0.1075,  ...,  0.0384,  0.0443, -0.0871],
+        [ 0.0500, -0.0008, -0.0536,  ..., -0.0373, -0.0245,  0.0021],
+        ...,
+        [ 0.0403, -0.0417, -0.0009,  ...,  0.0246, -0.0151,  0.0343],
+        [-0.0218, -0.0337, -0.0461,  ..., -0.0106, -0.0170, -0.0346],
+        [-0.0807, -0.1270,  0.0384,  ..., -0.0486,  0.0131,  0.0246]],
+       device='cuda:0'), grad: tensor([[ 7.8231e-08,  2.0489e-08,  3.4254e-06,  ...,  4.1258e-07,
+          2.0452e-06,  0.0000e+00],
+        [ 2.3656e-07,  1.0245e-08,  7.1153e-07,  ...,  2.0489e-08,
+         -3.0994e-06,  0.0000e+00],
+        [-8.2608e-07, -7.0874e-07,  5.8208e-07,  ...,  7.4506e-09,
+          3.9581e-07,  0.0000e+00],
+        ...,
+        [-7.5437e-08,  2.5518e-07,  6.0722e-06,  ...,  5.5879e-08,
+          1.3607e-06,  0.0000e+00],
+        [ 7.8231e-07,  1.6112e-07,  1.4920e-06,  ...,  9.3132e-08,
+          1.9316e-06,  0.0000e+00],
+        [ 7.1526e-07,  1.2107e-08,  1.4193e-05,  ...,  1.0617e-07,
+          4.4703e-08,  0.0000e+00]], device='cuda:0')
+Epoch 110, bias, value: tensor([-0.0047,  0.0257,  0.0052,  0.0003,  0.0111, -0.0010,  0.0188, -0.0171,
+         0.0169, -0.0009], device='cuda:0'), grad: tensor([-2.3380e-05, -2.4252e-06,  3.3677e-06,  3.6340e-06, -8.4877e-05,
+        -2.2605e-05,  3.2932e-06,  4.2081e-05,  1.0341e-05,  7.0393e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 109, time 219.83, cls_loss 0.0051 cls_loss_mapping 0.0073 cls_loss_causal 0.6049 re_mapping 0.0095 re_causal 0.0287 /// teacc 98.85 lr 0.00010000
+Epoch 111, weight, value: tensor([[-0.0401, -0.0383, -0.0351,  ..., -0.0838,  0.0019, -0.0081],
+        [-0.0320,  0.0204, -0.1081,  ...,  0.0385,  0.0450, -0.0875],
+        [ 0.0501, -0.0009, -0.0542,  ..., -0.0374, -0.0250,  0.0025],
+        ...,
+        [ 0.0405, -0.0414, -0.0002,  ...,  0.0248, -0.0157,  0.0342],
+        [-0.0220, -0.0337, -0.0465,  ..., -0.0106, -0.0177, -0.0348],
+        [-0.0817, -0.1276,  0.0384,  ..., -0.0487,  0.0133,  0.0247]],
+       device='cuda:0'), grad: tensor([[ 2.1830e-06,  1.3504e-07,  3.1628e-06,  ...,  0.0000e+00,
+          7.7300e-07,  4.3772e-07],
+        [ 1.8273e-06,  5.7742e-08,  7.6368e-07,  ...,  0.0000e+00,
+         -2.2873e-06,  1.3411e-07],
+        [-1.3113e-06, -1.6158e-06,  5.5656e-06,  ...,  0.0000e+00,
+          2.1569e-06, -8.2795e-07],
+        ...,
+        [ 1.4260e-05,  1.2852e-07,  1.4743e-06,  ...,  0.0000e+00,
+          7.3388e-06,  2.8033e-07],
+        [ 4.4182e-06,  2.0210e-07,  4.3809e-06,  ...,  0.0000e+00,
+          2.0806e-06,  9.9465e-07],
+        [ 5.1379e-05,  1.5832e-08,  5.2825e-06,  ...,  0.0000e+00,
+          1.9237e-05,  3.3900e-07]], device='cuda:0')
+Epoch 111, bias, value: tensor([-5.3301e-03,  2.5805e-02,  4.9322e-03,  3.8411e-05,  1.1153e-02,
+        -4.7907e-04,  1.9546e-02, -1.6959e-02,  1.6641e-02, -1.1235e-03],
+       device='cuda:0'), grad: tensor([-5.1051e-05, -3.2093e-06,  2.5973e-05, -1.5163e-04, -3.4308e-04,
+        -1.0085e-04,  4.3035e-04,  5.0932e-05,  3.2067e-05,  1.0979e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 110, time 220.27, cls_loss 0.0051 cls_loss_mapping 0.0084 cls_loss_causal 0.5764 re_mapping 0.0097 re_causal 0.0273 /// teacc 98.81 lr 0.00010000
+Epoch 112, weight, value: tensor([[-0.0405, -0.0396, -0.0347,  ..., -0.0838,  0.0017, -0.0086],
+        [-0.0311,  0.0213, -0.1087,  ...,  0.0385,  0.0462, -0.0880],
+        [ 0.0502, -0.0020, -0.0536,  ..., -0.0374, -0.0254,  0.0026],
+        ...,
+        [ 0.0405, -0.0406,  0.0002,  ...,  0.0251, -0.0170,  0.0342],
+        [-0.0222, -0.0338, -0.0465,  ..., -0.0106, -0.0174, -0.0356],
+        [-0.0823, -0.1288,  0.0387,  ..., -0.0487,  0.0137,  0.0247]],
+       device='cuda:0'), grad: tensor([[ 2.3246e-06,  8.3819e-09,  1.0341e-05,  ...,  0.0000e+00,
+          2.5574e-06,  0.0000e+00],
+        [ 8.8010e-07,  1.8626e-09,  3.6843e-06,  ...,  0.0000e+00,
+         -2.1979e-07,  0.0000e+00],
+        [-7.9256e-07,  9.3132e-10,  2.4289e-06,  ...,  0.0000e+00,
+          1.6838e-06,  0.0000e+00],
+        ...,
+        [-1.6140e-06,  1.8626e-09,  1.4961e-05,  ...,  0.0000e+00,
+          6.4820e-07,  0.0000e+00],
+        [-1.1418e-06,  5.2154e-08,  4.6864e-06,  ...,  0.0000e+00,
+         -1.4819e-05,  0.0000e+00],
+        [ 1.9986e-06,  8.3819e-09,  1.9264e-04,  ...,  0.0000e+00,
+         -5.7183e-07,  0.0000e+00]], device='cuda:0')
+Epoch 112, bias, value: tensor([-0.0049,  0.0272,  0.0048, -0.0007,  0.0104, -0.0015,  0.0205, -0.0174,
+         0.0169, -0.0010], device='cuda:0'), grad: tensor([ 3.0816e-05,  2.3514e-05,  8.3089e-05,  2.1005e-04, -1.1311e-03,
+        -1.1855e-04,  1.1645e-05,  1.3542e-04, -3.0446e-04,  1.0605e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 111, time 219.73, cls_loss 0.0060 cls_loss_mapping 0.0070 cls_loss_causal 0.6029 re_mapping 0.0092 re_causal 0.0268 /// teacc 98.88 lr 0.00010000
+Epoch 113, weight, value: tensor([[-0.0410, -0.0416, -0.0349,  ..., -0.0840,  0.0015, -0.0088],
+        [-0.0308,  0.0216, -0.1101,  ...,  0.0388,  0.0468, -0.0901],
+        [ 0.0507, -0.0021, -0.0546,  ..., -0.0374, -0.0257,  0.0020],
+        ...,
+        [ 0.0405, -0.0407,  0.0014,  ...,  0.0249, -0.0180,  0.0341],
+        [-0.0225, -0.0344, -0.0476,  ..., -0.0107, -0.0170, -0.0371],
+        [-0.0834, -0.1302,  0.0389,  ..., -0.0488,  0.0139,  0.0247]],
+       device='cuda:0'), grad: tensor([[ 1.9558e-07,  0.0000e+00,  4.5821e-06,  ...,  0.0000e+00,
+          1.8282e-06,  0.0000e+00],
+        [ 2.3190e-07,  0.0000e+00, -1.5914e-05,  ...,  1.8626e-09,
+         -3.9071e-05,  0.0000e+00],
+        [-3.0361e-06,  0.0000e+00,  1.4994e-07,  ...,  9.3132e-10,
+          1.5991e-06,  0.0000e+00],
+        ...,
+        [ 9.9279e-07,  0.0000e+00,  3.0920e-06,  ...,  8.3819e-09,
+          5.6997e-06,  0.0000e+00],
+        [-5.7146e-06,  0.0000e+00,  5.6982e-05,  ...,  9.3132e-10,
+          2.2531e-05,  0.0000e+00],
+        [ 3.7812e-07,  0.0000e+00, -4.5347e-04,  ...,  1.1176e-08,
+         -2.0897e-04,  0.0000e+00]], device='cuda:0')
+Epoch 113, bias, value: tensor([-0.0051,  0.0274,  0.0048, -0.0015,  0.0101, -0.0007,  0.0202, -0.0174,
+         0.0173, -0.0010], device='cuda:0'), grad: tensor([ 1.4007e-06, -1.2732e-04,  1.7891e-06,  7.3624e-04,  1.2189e-04,
+         3.4404e-04,  4.4614e-05,  2.5123e-05,  9.4354e-05, -1.2417e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 112----------------------------------------------------
+epoch 112, time 220.48, cls_loss 0.0040 cls_loss_mapping 0.0059 cls_loss_causal 0.5629 re_mapping 0.0095 re_causal 0.0286 /// teacc 98.89 lr 0.00010000
+Epoch 114, weight, value: tensor([[-0.0416, -0.0419, -0.0361,  ..., -0.0842,  0.0012, -0.0088],
+        [-0.0308,  0.0217, -0.1108,  ...,  0.0389,  0.0475, -0.0909],
+        [ 0.0509, -0.0021, -0.0534,  ..., -0.0377, -0.0263,  0.0035],
+        ...,
+        [ 0.0407, -0.0408,  0.0013,  ...,  0.0249, -0.0181,  0.0340],
+        [-0.0225, -0.0343, -0.0476,  ..., -0.0108, -0.0173, -0.0379],
+        [-0.0839, -0.1303,  0.0393,  ..., -0.0489,  0.0144,  0.0246]],
+       device='cuda:0'), grad: tensor([[ 3.4459e-07,  4.6566e-09,  3.3993e-07,  ...,  0.0000e+00,
+          4.8801e-07,  6.3330e-08],
+        [ 4.1574e-06,  9.3132e-09,  2.7064e-06,  ...,  0.0000e+00,
+         -8.3968e-06,  2.4214e-08],
+        [-1.7732e-05, -1.5739e-07,  1.5255e-06,  ...,  0.0000e+00,
+          9.2015e-07,  3.5390e-08],
+        ...,
+        [-3.6098e-06,  1.5832e-08,  1.9614e-06,  ...,  0.0000e+00,
+          1.7537e-06,  9.3132e-10],
+        [ 7.2606e-06,  7.0781e-08,  1.9046e-06,  ...,  0.0000e+00,
+          4.4405e-06,  2.9802e-08],
+        [ 1.5832e-06,  1.8626e-09, -8.3260e-07,  ...,  0.0000e+00,
+         -5.6550e-06,  1.8626e-09]], device='cuda:0')
+Epoch 114, bias, value: tensor([-0.0057,  0.0279,  0.0047, -0.0011,  0.0098, -0.0015,  0.0200, -0.0174,
+         0.0176, -0.0008], device='cuda:0'), grad: tensor([ 2.4587e-06, -5.3048e-06, -2.0295e-05,  8.5086e-06, -1.9427e-06,
+         9.2015e-07,  2.9840e-06,  1.7984e-06,  2.1785e-05, -1.0937e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 113, time 219.65, cls_loss 0.0048 cls_loss_mapping 0.0087 cls_loss_causal 0.5868 re_mapping 0.0096 re_causal 0.0280 /// teacc 98.83 lr 0.00010000
+Epoch 115, weight, value: tensor([[-0.0419, -0.0422, -0.0371,  ..., -0.0843,  0.0009, -0.0088],
+        [-0.0309,  0.0223, -0.1121,  ...,  0.0390,  0.0478, -0.0915],
+        [ 0.0512, -0.0020, -0.0527,  ..., -0.0381, -0.0266,  0.0045],
+        ...,
+        [ 0.0407, -0.0411,  0.0011,  ...,  0.0253, -0.0188,  0.0340],
+        [-0.0232, -0.0344, -0.0470,  ..., -0.0108, -0.0183, -0.0381],
+        [-0.0845, -0.1310,  0.0389,  ..., -0.0491,  0.0151,  0.0246]],
+       device='cuda:0'), grad: tensor([[ 4.8801e-07,  0.0000e+00,  5.6550e-06,  ...,  4.0978e-08,
+          4.6287e-07,  2.7940e-09],
+        [ 8.4117e-06,  0.0000e+00,  7.6666e-06,  ...,  2.4214e-08,
+          3.3155e-07,  9.3132e-10],
+        [ 1.0967e-05,  0.0000e+00,  8.8885e-06,  ...,  3.7253e-09,
+          8.9686e-07, -5.4017e-08],
+        ...,
+        [-1.7602e-06,  0.0000e+00,  7.7710e-06,  ..., -4.6566e-08,
+          7.3053e-06,  7.4506e-09],
+        [ 2.0191e-05,  0.0000e+00,  9.5963e-06,  ...,  8.3819e-08,
+         -6.0461e-06,  2.4214e-08],
+        [ 8.5868e-07,  0.0000e+00,  1.5557e-05,  ...,  4.6566e-08,
+         -5.7220e-06,  9.3132e-10]], device='cuda:0')
+Epoch 115, bias, value: tensor([-0.0051,  0.0280,  0.0047, -0.0013,  0.0102, -0.0013,  0.0198, -0.0177,
+         0.0173, -0.0006], device='cuda:0'), grad: tensor([-1.1814e-04,  4.5747e-05,  5.8800e-05, -5.1022e-05, -3.1257e-04,
+        -6.2406e-05,  2.9612e-04,  1.3113e-04,  5.0783e-05, -3.8475e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 114----------------------------------------------------
+epoch 114, time 220.54, cls_loss 0.0040 cls_loss_mapping 0.0069 cls_loss_causal 0.5432 re_mapping 0.0096 re_causal 0.0265 /// teacc 98.92 lr 0.00010000
+Epoch 116, weight, value: tensor([[-0.0423, -0.0426, -0.0373,  ..., -0.0843,  0.0007, -0.0092],
+        [-0.0312,  0.0222, -0.1125,  ...,  0.0390,  0.0470, -0.0932],
+        [ 0.0517, -0.0015, -0.0525,  ..., -0.0384, -0.0267,  0.0045],
+        ...,
+        [ 0.0407, -0.0413,  0.0012,  ...,  0.0253, -0.0177,  0.0339],
+        [-0.0237, -0.0342, -0.0470,  ..., -0.0109, -0.0186, -0.0386],
+        [-0.0853, -0.1316,  0.0386,  ..., -0.0491,  0.0151,  0.0247]],
+       device='cuda:0'), grad: tensor([[ 4.0606e-07,  1.8626e-09,  3.8370e-07,  ...,  9.3132e-10,
+          3.8557e-07,  0.0000e+00],
+        [ 9.6038e-06,  1.6764e-08,  2.0832e-05,  ...,  1.8626e-09,
+          1.8403e-05,  0.0000e+00],
+        [ 3.4273e-06, -8.5682e-08,  5.6159e-07,  ...,  4.6566e-09,
+          1.6233e-06,  0.0000e+00],
+        ...,
+        [-7.3835e-06,  1.3970e-08, -9.6619e-05,  ...,  1.6764e-08,
+         -6.5923e-05,  0.0000e+00],
+        [-9.4891e-05,  3.8184e-08, -4.2260e-05,  ...,  1.8626e-09,
+         -8.6606e-05,  0.0000e+00],
+        [ 2.0843e-06,  1.8626e-09,  7.0691e-05,  ...,  2.7940e-09,
+          4.8637e-05,  0.0000e+00]], device='cuda:0')
+Epoch 116, bias, value: tensor([-0.0052,  0.0264,  0.0050, -0.0018,  0.0099, -0.0006,  0.0199, -0.0164,
+         0.0176, -0.0011], device='cuda:0'), grad: tensor([ 1.8645e-06,  1.5104e-04,  1.2010e-05,  2.0695e-04,  3.3528e-05,
+         5.3078e-05,  1.7393e-04, -5.8126e-04, -4.6754e-04,  4.1628e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 115, time 219.85, cls_loss 0.0056 cls_loss_mapping 0.0099 cls_loss_causal 0.5739 re_mapping 0.0091 re_causal 0.0261 /// teacc 98.77 lr 0.00010000
+Epoch 117, weight, value: tensor([[-0.0407, -0.0432, -0.0374,  ..., -0.0845,  0.0027, -0.0093],
+        [-0.0325,  0.0221, -0.1119,  ...,  0.0402,  0.0472, -0.0946],
+        [ 0.0514, -0.0006, -0.0528,  ..., -0.0384, -0.0271,  0.0048],
+        ...,
+        [ 0.0411, -0.0412,  0.0010,  ...,  0.0249, -0.0189,  0.0341],
+        [-0.0247, -0.0362, -0.0474,  ..., -0.0110, -0.0186, -0.0394],
+        [-0.0860, -0.1327,  0.0384,  ..., -0.0494,  0.0161,  0.0249]],
+       device='cuda:0'), grad: tensor([[ 1.3076e-06,  1.2107e-08,  1.0677e-05,  ...,  0.0000e+00,
+          1.1912e-06,  3.4180e-07],
+        [ 1.3467e-06,  1.0245e-08,  2.3469e-07,  ...,  0.0000e+00,
+         -6.3404e-06,  6.9849e-08],
+        [-7.3854e-07, -1.8347e-07,  3.0026e-06,  ...,  0.0000e+00,
+          1.0692e-06, -1.3132e-07],
+        ...,
+        [-3.8855e-06,  2.4214e-08,  5.8487e-07,  ...,  0.0000e+00,
+          1.8552e-06,  5.3085e-08],
+        [ 1.3523e-06,  4.4703e-08,  1.0077e-06,  ...,  0.0000e+00,
+          5.0105e-06,  2.4587e-07],
+        [ 1.0654e-05,  2.7940e-09, -2.0608e-05,  ...,  0.0000e+00,
+          1.6108e-05,  1.3970e-08]], device='cuda:0')
+Epoch 117, bias, value: tensor([-0.0032,  0.0256,  0.0052, -0.0014,  0.0094, -0.0002,  0.0200, -0.0167,
+         0.0170, -0.0013], device='cuda:0'), grad: tensor([ 4.9114e-05, -9.1717e-06,  1.4983e-05, -4.3780e-05,  1.0595e-05,
+         1.4469e-05, -6.2212e-06, -1.5805e-06,  1.5303e-05, -4.3660e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 116, time 219.65, cls_loss 0.0058 cls_loss_mapping 0.0087 cls_loss_causal 0.5783 re_mapping 0.0091 re_causal 0.0268 /// teacc 98.89 lr 0.00010000
+Epoch 118, weight, value: tensor([[-0.0412, -0.0444, -0.0362,  ..., -0.0850,  0.0034, -0.0121],
+        [-0.0339,  0.0230, -0.1138,  ...,  0.0404,  0.0474, -0.0954],
+        [ 0.0513, -0.0005, -0.0519,  ..., -0.0386, -0.0276,  0.0050],
+        ...,
+        [ 0.0422, -0.0417,  0.0007,  ...,  0.0250, -0.0193,  0.0343],
+        [-0.0249, -0.0364, -0.0479,  ..., -0.0112, -0.0190, -0.0396],
+        [-0.0869, -0.1341,  0.0369,  ..., -0.0498,  0.0159,  0.0277]],
+       device='cuda:0'), grad: tensor([[ 9.4399e-06,  0.0000e+00,  2.0802e-05,  ...,  0.0000e+00,
+          6.4261e-08,  0.0000e+00],
+        [ 1.6140e-06,  0.0000e+00,  2.6338e-06,  ...,  0.0000e+00,
+         -2.1979e-07,  0.0000e+00],
+        [ 4.3437e-06,  0.0000e+00,  7.7337e-06,  ...,  0.0000e+00,
+          2.7101e-07, -1.8626e-09],
+        ...,
+        [ 8.1304e-07,  0.0000e+00,  9.3505e-06,  ...,  0.0000e+00,
+          2.5332e-07,  0.0000e+00],
+        [ 1.5739e-06,  0.0000e+00,  1.3579e-06,  ...,  0.0000e+00,
+          7.8231e-08,  0.0000e+00],
+        [ 5.5805e-06,  0.0000e+00,  1.0952e-05,  ...,  0.0000e+00,
+         -9.4995e-07,  0.0000e+00]], device='cuda:0')
+Epoch 118, bias, value: tensor([-0.0037,  0.0250,  0.0049, -0.0013,  0.0106, -0.0005,  0.0202, -0.0159,
+         0.0166, -0.0014], device='cuda:0'), grad: tensor([ 4.8786e-05,  8.2701e-06,  2.3931e-05,  1.1943e-05, -1.4257e-04,
+        -1.7434e-05,  3.3349e-05,  6.0797e-06, -1.7202e-06,  2.9370e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 117, time 219.61, cls_loss 0.0035 cls_loss_mapping 0.0055 cls_loss_causal 0.5805 re_mapping 0.0087 re_causal 0.0272 /// teacc 98.87 lr 0.00010000
+Epoch 119, weight, value: tensor([[-0.0414, -0.0448, -0.0364,  ..., -0.0850,  0.0033, -0.0122],
+        [-0.0341,  0.0231, -0.1143,  ...,  0.0404,  0.0475, -0.0961],
+        [ 0.0523, -0.0004, -0.0503,  ..., -0.0386, -0.0279,  0.0050],
+        ...,
+        [ 0.0422, -0.0416,  0.0007,  ...,  0.0251, -0.0198,  0.0347],
+        [-0.0262, -0.0368, -0.0491,  ..., -0.0112, -0.0194, -0.0397],
+        [-0.0871, -0.1347,  0.0367,  ..., -0.0498,  0.0169,  0.0277]],
+       device='cuda:0'), grad: tensor([[ 6.3144e-07,  0.0000e+00,  5.0198e-07,  ...,  0.0000e+00,
+          2.3749e-07,  4.6566e-09],
+        [ 5.6066e-06,  0.0000e+00,  9.0525e-07,  ...,  0.0000e+00,
+         -4.2841e-08,  4.6566e-09],
+        [-4.0114e-05,  0.0000e+00,  1.9064e-06,  ...,  0.0000e+00,
+          7.3947e-07,  2.7940e-09],
+        ...,
+        [ 4.6939e-05,  0.0000e+00,  1.7196e-05,  ...,  0.0000e+00,
+          2.2911e-07,  2.2352e-08],
+        [ 7.9349e-06,  0.0000e+00,  1.1995e-06,  ...,  0.0000e+00,
+          9.8720e-07,  2.7940e-09],
+        [ 4.9993e-06,  0.0000e+00,  6.9998e-06,  ...,  0.0000e+00,
+         -1.8999e-07,  7.4506e-09]], device='cuda:0')
+Epoch 119, bias, value: tensor([-0.0032,  0.0248,  0.0056, -0.0015,  0.0106, -0.0004,  0.0204, -0.0163,
+         0.0156, -0.0013], device='cuda:0'), grad: tensor([ 2.1793e-06,  1.2830e-05, -3.2961e-05, -3.2187e-05, -9.1553e-05,
+         3.6769e-06,  7.6108e-06,  8.7440e-05,  1.3083e-05,  2.9802e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 118, time 219.85, cls_loss 0.0037 cls_loss_mapping 0.0055 cls_loss_causal 0.5427 re_mapping 0.0089 re_causal 0.0256 /// teacc 98.83 lr 0.00010000
+Epoch 120, weight, value: tensor([[-0.0416, -0.0450, -0.0365,  ..., -0.0850,  0.0025, -0.0136],
+        [-0.0344,  0.0231, -0.1147,  ...,  0.0404,  0.0476, -0.0969],
+        [ 0.0525, -0.0004, -0.0504,  ..., -0.0387, -0.0277,  0.0049],
+        ...,
+        [ 0.0423, -0.0416,  0.0007,  ...,  0.0251, -0.0199,  0.0344],
+        [-0.0266, -0.0368, -0.0503,  ..., -0.0112, -0.0201, -0.0400],
+        [-0.0880, -0.1349,  0.0374,  ..., -0.0498,  0.0172,  0.0292]],
+       device='cuda:0'), grad: tensor([[ 1.9968e-06,  0.0000e+00,  2.7493e-06,  ...,  6.7707e-07,
+          1.9558e-06,  1.8626e-09],
+        [-2.8300e-04,  0.0000e+00,  8.0094e-07,  ..., -1.1557e-04,
+         -8.0764e-05,  9.3132e-10],
+        [ 2.4331e-04,  0.0000e+00,  3.8818e-06,  ...,  9.9182e-05,
+          6.3241e-05, -2.5146e-08],
+        ...,
+        [ 2.2314e-06,  0.0000e+00,  8.8196e-07,  ...,  8.5160e-06,
+          5.8040e-06,  3.7253e-09],
+        [ 3.5837e-06,  0.0000e+00,  1.9558e-06,  ...,  1.8626e-07,
+          1.0006e-05,  1.8626e-09],
+        [ 1.0699e-05,  0.0000e+00,  2.6608e-04,  ...,  1.7043e-07,
+          2.2724e-07,  1.8626e-09]], device='cuda:0')
+Epoch 120, bias, value: tensor([-0.0037,  0.0247,  0.0058, -0.0014,  0.0098, -0.0005,  0.0215, -0.0163,
+         0.0147, -0.0005], device='cuda:0'), grad: tensor([-2.1830e-06, -8.9788e-04,  7.7772e-04,  2.5436e-05, -1.2054e-03,
+         2.3901e-05, -9.4324e-06,  2.6017e-05,  4.8608e-05,  1.2121e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 119, time 219.49, cls_loss 0.0045 cls_loss_mapping 0.0060 cls_loss_causal 0.5151 re_mapping 0.0089 re_causal 0.0245 /// teacc 98.91 lr 0.00010000
+Epoch 121, weight, value: tensor([[-4.1891e-02, -4.5554e-02, -3.6993e-02,  ..., -8.5104e-02,
+          2.3789e-03, -1.3753e-02],
+        [-3.4267e-02,  2.3360e-02, -1.1493e-01,  ...,  4.0970e-02,
+          4.8083e-02, -9.7092e-02],
+        [ 5.2753e-02, -7.1994e-06, -5.0606e-02,  ..., -3.9629e-02,
+         -2.8378e-02,  5.0982e-03],
+        ...,
+        [ 4.1737e-02, -4.2261e-02,  3.1517e-04,  ...,  2.4773e-02,
+         -2.1074e-02,  3.4351e-02],
+        [-2.6481e-02, -3.6210e-02, -5.0717e-02,  ..., -1.1237e-02,
+         -1.9154e-02, -4.0000e-02],
+        [-8.8695e-02, -1.3654e-01,  3.6906e-02,  ..., -4.9851e-02,
+          1.7697e-02,  2.9283e-02]], device='cuda:0'), grad: tensor([[ 7.0315e-07,  0.0000e+00,  1.1744e-06,  ...,  0.0000e+00,
+          2.7101e-06,  0.0000e+00],
+        [ 4.6380e-07,  0.0000e+00,  6.3423e-07,  ...,  0.0000e+00,
+         -2.8815e-06,  0.0000e+00],
+        [-1.1571e-05,  0.0000e+00, -8.7917e-07,  ...,  0.0000e+00,
+          3.9861e-06,  0.0000e+00],
+        ...,
+        [-4.3958e-07,  0.0000e+00,  1.5646e-06,  ...,  0.0000e+00,
+          1.2740e-06,  0.0000e+00],
+        [ 2.5108e-06,  0.0000e+00,  5.3108e-05,  ...,  0.0000e+00,
+         -5.8532e-05,  0.0000e+00],
+        [ 2.4866e-07,  0.0000e+00, -7.8738e-05,  ...,  0.0000e+00,
+          5.6505e-05,  0.0000e+00]], device='cuda:0')
+Epoch 121, bias, value: tensor([-0.0034,  0.0249,  0.0060, -0.0009,  0.0099, -0.0005,  0.0210, -0.0172,
+         0.0154, -0.0007], device='cuda:0'), grad: tensor([ 4.8786e-05, -6.2473e-06,  3.3826e-05,  1.0192e-04,  3.7503e-04,
+        -2.4390e-04,  5.5581e-05,  1.4514e-05,  3.8177e-05, -4.1676e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 120, time 219.65, cls_loss 0.0042 cls_loss_mapping 0.0060 cls_loss_causal 0.5517 re_mapping 0.0085 re_causal 0.0251 /// teacc 98.84 lr 0.00010000
+Epoch 122, weight, value: tensor([[-0.0423, -0.0464, -0.0373,  ..., -0.0852,  0.0020, -0.0138],
+        [-0.0338,  0.0234, -0.1153,  ...,  0.0410,  0.0483, -0.0971],
+        [ 0.0527,  0.0008, -0.0507,  ..., -0.0397, -0.0288,  0.0051],
+        ...,
+        [ 0.0415, -0.0431,  0.0005,  ...,  0.0248, -0.0214,  0.0344],
+        [-0.0267, -0.0355, -0.0510,  ..., -0.0113, -0.0192, -0.0401],
+        [-0.0895, -0.1379,  0.0366,  ..., -0.0499,  0.0181,  0.0293]],
+       device='cuda:0'), grad: tensor([[ 3.2224e-07,  0.0000e+00,  2.0862e-07,  ...,  0.0000e+00,
+          3.1851e-07,  0.0000e+00],
+        [ 3.3900e-06,  0.0000e+00,  1.2843e-06,  ...,  0.0000e+00,
+          2.7381e-07,  0.0000e+00],
+        [ 5.3346e-06,  0.0000e+00,  1.3132e-07,  ...,  0.0000e+00,
+          7.0259e-06,  0.0000e+00],
+        ...,
+        [-1.0841e-05,  0.0000e+00,  4.3120e-07,  ...,  0.0000e+00,
+          3.8557e-07,  0.0000e+00],
+        [-1.0632e-05,  0.0000e+00,  7.9256e-07,  ...,  0.0000e+00,
+         -2.5615e-05,  0.0000e+00],
+        [ 6.6869e-07,  0.0000e+00,  9.8526e-05,  ...,  0.0000e+00,
+          3.0287e-06,  0.0000e+00]], device='cuda:0')
+Epoch 122, bias, value: tensor([-0.0036,  0.0253,  0.0059, -0.0012,  0.0097,  0.0006,  0.0206, -0.0174,
+         0.0154, -0.0008], device='cuda:0'), grad: tensor([-1.7909e-06,  1.2085e-05,  4.6521e-05,  8.1480e-05, -3.6263e-04,
+         1.0304e-05,  9.7752e-06, -1.3247e-05, -1.5104e-04,  3.6764e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 121, time 218.27, cls_loss 0.0038 cls_loss_mapping 0.0058 cls_loss_causal 0.5796 re_mapping 0.0081 re_causal 0.0251 /// teacc 98.73 lr 0.00010000
+Epoch 123, weight, value: tensor([[-0.0426, -0.0470, -0.0376,  ..., -0.0853,  0.0020, -0.0138],
+        [-0.0337,  0.0231, -0.1159,  ...,  0.0410,  0.0484, -0.0973],
+        [ 0.0524,  0.0007, -0.0509,  ..., -0.0398, -0.0290,  0.0054],
+        ...,
+        [ 0.0417, -0.0429,  0.0005,  ...,  0.0249, -0.0216,  0.0344],
+        [-0.0266, -0.0341, -0.0521,  ..., -0.0113, -0.0193, -0.0402],
+        [-0.0903, -0.1387,  0.0365,  ..., -0.0499,  0.0185,  0.0293]],
+       device='cuda:0'), grad: tensor([[ 6.6124e-08,  0.0000e+00,  1.0338e-07,  ...,  0.0000e+00,
+          1.7602e-07,  6.8918e-08],
+        [ 7.8324e-07,  0.0000e+00,  1.8068e-07,  ...,  2.7940e-09,
+         -6.5845e-07,  1.7695e-08],
+        [-1.5525e-06,  0.0000e+00,  1.4622e-07,  ...,  9.3132e-10,
+          2.9244e-07, -4.8429e-08],
+        ...,
+        [-4.4703e-07,  0.0000e+00,  6.1560e-07,  ...,  8.3819e-09,
+          1.0319e-06,  3.6322e-08],
+        [ 2.1048e-07,  0.0000e+00,  1.1146e-05,  ...,  0.0000e+00,
+          5.3924e-07,  4.0978e-08],
+        [ 7.4599e-07,  0.0000e+00, -9.6336e-06,  ...,  9.3132e-10,
+         -1.3925e-05,  1.7136e-07]], device='cuda:0')
+Epoch 123, bias, value: tensor([-0.0035,  0.0253,  0.0053, -0.0015,  0.0101,  0.0009,  0.0206, -0.0171,
+         0.0153, -0.0009], device='cuda:0'), grad: tensor([-1.8924e-05,  2.5779e-06,  1.6484e-06,  3.5524e-05,  8.7440e-05,
+        -2.3335e-05,  4.7311e-06,  5.7630e-06,  2.2635e-05, -1.1802e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 122, time 217.89, cls_loss 0.0045 cls_loss_mapping 0.0068 cls_loss_causal 0.5693 re_mapping 0.0082 re_causal 0.0244 /// teacc 98.82 lr 0.00010000
+Epoch 124, weight, value: tensor([[-0.0426, -0.0489, -0.0372,  ..., -0.0853,  0.0019, -0.0138],
+        [-0.0349,  0.0233, -0.1164,  ...,  0.0410,  0.0484, -0.0974],
+        [ 0.0517,  0.0010, -0.0507,  ..., -0.0398, -0.0296,  0.0055],
+        ...,
+        [ 0.0434, -0.0433,  0.0004,  ...,  0.0249, -0.0216,  0.0345],
+        [-0.0270, -0.0343, -0.0527,  ..., -0.0113, -0.0191, -0.0402],
+        [-0.0913, -0.1407,  0.0360,  ..., -0.0499,  0.0186,  0.0294]],
+       device='cuda:0'), grad: tensor([[ 6.2678e-07,  5.0291e-08,  3.0190e-05,  ...,  0.0000e+00,
+          4.0555e-04,  1.0395e-03],
+        [ 2.1532e-06,  6.4448e-07,  3.4459e-07,  ...,  0.0000e+00,
+         -6.1281e-06,  1.1707e-06],
+        [ 6.0797e-06,  2.2855e-06,  4.6194e-07,  ...,  0.0000e+00,
+          7.1488e-06,  1.3039e-05],
+        ...,
+        [-1.4164e-05, -4.1462e-06,  1.9465e-07,  ...,  0.0000e+00,
+          4.1015e-06,  6.4299e-06],
+        [ 1.7900e-06,  5.0571e-07,  9.4436e-07,  ...,  0.0000e+00,
+          3.4794e-06,  4.2096e-07],
+        [ 2.3730e-06,  2.8871e-08, -3.0905e-05,  ...,  0.0000e+00,
+         -4.2057e-04, -1.0691e-03]], device='cuda:0')
+Epoch 124, bias, value: tensor([-0.0031,  0.0245,  0.0046, -0.0014,  0.0098,  0.0005,  0.0216, -0.0160,
+         0.0155, -0.0015], device='cuda:0'), grad: tensor([ 3.3512e-03, -6.5193e-06,  7.2837e-05,  1.5944e-05,  2.4661e-05,
+         9.9763e-06, -6.9775e-06, -3.8624e-05,  2.0161e-05, -3.4447e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 123, time 217.94, cls_loss 0.0048 cls_loss_mapping 0.0090 cls_loss_causal 0.5585 re_mapping 0.0081 re_causal 0.0244 /// teacc 98.73 lr 0.00010000
+Epoch 125, weight, value: tensor([[-4.2627e-02, -5.0596e-02, -3.7549e-02,  ..., -8.5329e-02,
+          1.2055e-03, -1.4830e-02],
+        [-3.6399e-02,  2.5624e-02, -1.1669e-01,  ...,  4.1077e-02,
+          4.8046e-02, -9.7861e-02],
+        [ 5.3142e-02,  5.3213e-05, -5.0821e-02,  ..., -3.9793e-02,
+         -2.7590e-02,  5.0983e-03],
+        ...,
+        [ 4.3337e-02, -4.3581e-02,  1.4466e-03,  ...,  2.4874e-02,
+         -2.3025e-02,  3.4299e-02],
+        [-2.7399e-02, -3.4579e-02, -5.3095e-02,  ..., -1.1379e-02,
+         -1.9393e-02, -4.0246e-02],
+        [-9.2012e-02, -1.4119e-01,  3.4798e-02,  ..., -4.9943e-02,
+          1.9133e-02,  3.0366e-02]], device='cuda:0'), grad: tensor([[ 2.9523e-07,  9.3132e-10,  7.2643e-08,  ...,  0.0000e+00,
+          4.5002e-06,  0.0000e+00],
+        [ 9.2573e-07,  5.5879e-09,  2.2259e-07,  ...,  9.3132e-10,
+         -5.0198e-07,  0.0000e+00],
+        [ 1.3959e-04,  1.1176e-08,  6.3330e-08,  ...,  0.0000e+00,
+          5.2482e-05,  0.0000e+00],
+        ...,
+        [ 1.1493e-06, -2.7940e-08,  1.4473e-06,  ...,  1.3970e-08,
+          3.7681e-06,  0.0000e+00],
+        [ 5.0142e-06, -2.7940e-09,  1.2480e-07,  ...,  0.0000e+00,
+          1.8567e-05,  0.0000e+00],
+        [ 1.0822e-06,  9.3132e-10, -2.6263e-07,  ...,  1.8626e-09,
+         -1.7047e-05,  0.0000e+00]], device='cuda:0')
+Epoch 125, bias, value: tensor([-0.0032,  0.0235,  0.0065, -0.0008,  0.0110, -0.0002,  0.0218, -0.0160,
+         0.0151, -0.0026], device='cuda:0'), grad: tensor([ 9.6262e-06,  1.2014e-06,  2.0218e-04, -2.0838e-04,  2.0593e-05,
+         1.2290e-04, -1.7917e-04,  1.5825e-05,  1.0389e-04, -8.8751e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 124, time 218.06, cls_loss 0.0034 cls_loss_mapping 0.0056 cls_loss_causal 0.5950 re_mapping 0.0083 re_causal 0.0250 /// teacc 98.79 lr 0.00010000
+Epoch 126, weight, value: tensor([[-0.0428, -0.0509, -0.0376,  ..., -0.0866,  0.0010, -0.0148],
+        [-0.0362,  0.0260, -0.1168,  ...,  0.0423,  0.0494, -0.0980],
+        [ 0.0527, -0.0002, -0.0503,  ..., -0.0405, -0.0284,  0.0052],
+        ...,
+        [ 0.0435, -0.0438,  0.0012,  ...,  0.0238, -0.0230,  0.0343],
+        [-0.0281, -0.0339, -0.0535,  ..., -0.0116, -0.0212, -0.0403],
+        [-0.0922, -0.1420,  0.0347,  ..., -0.0500,  0.0193,  0.0304]],
+       device='cuda:0'), grad: tensor([[ 6.7875e-06,  0.0000e+00,  4.1537e-07,  ...,  3.5390e-08,
+          5.9139e-07,  1.6764e-08],
+        [ 3.1050e-06,  9.3132e-10,  2.1774e-06,  ...,  6.9290e-07,
+         -1.7852e-05,  1.8626e-09],
+        [ 1.0759e-05,  9.3132e-10,  4.9081e-07,  ...,  3.0734e-08,
+          1.4435e-07,  1.8626e-09],
+        ...,
+        [ 1.6838e-05,  0.0000e+00,  1.6131e-06,  ...,  5.0291e-08,
+          8.5309e-07,  0.0000e+00],
+        [ 5.2489e-06, -5.5879e-09,  2.3097e-07,  ...,  2.7940e-09,
+          6.3889e-07,  3.6322e-08],
+        [ 6.8024e-06,  0.0000e+00,  3.1479e-06,  ...,  1.2666e-07,
+         -5.5879e-09,  1.8626e-09]], device='cuda:0')
+Epoch 126, bias, value: tensor([-0.0029,  0.0244,  0.0063, -0.0001,  0.0111, -0.0007,  0.0218, -0.0160,
+         0.0137, -0.0028], device='cuda:0'), grad: tensor([ 3.1926e-06, -8.8871e-05,  2.6375e-05, -7.8917e-05,  7.8261e-05,
+         6.2212e-06,  3.8929e-06,  2.9132e-05, -3.8520e-06,  2.4319e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 125, time 217.57, cls_loss 0.0039 cls_loss_mapping 0.0057 cls_loss_causal 0.5592 re_mapping 0.0083 re_causal 0.0252 /// teacc 98.84 lr 0.00010000
+Epoch 127, weight, value: tensor([[-0.0426, -0.0521, -0.0376,  ..., -0.0870,  0.0008, -0.0148],
+        [-0.0368,  0.0249, -0.1158,  ...,  0.0442,  0.0492, -0.0984],
+        [ 0.0525, -0.0003, -0.0502,  ..., -0.0409, -0.0288,  0.0055],
+        ...,
+        [ 0.0444, -0.0424,  0.0007,  ...,  0.0229, -0.0225,  0.0340],
+        [-0.0284, -0.0344, -0.0547,  ..., -0.0118, -0.0204, -0.0404],
+        [-0.0932, -0.1440,  0.0345,  ..., -0.0502,  0.0194,  0.0304]],
+       device='cuda:0'), grad: tensor([[ 1.8310e-06,  0.0000e+00,  1.2293e-07,  ...,  0.0000e+00,
+          1.4342e-07,  0.0000e+00],
+        [ 1.1725e-06,  0.0000e+00,  1.0338e-07,  ...,  0.0000e+00,
+         -2.3246e-06,  9.3132e-10],
+        [-1.0657e-04,  0.0000e+00,  1.7695e-08,  ...,  0.0000e+00,
+          3.2410e-07, -6.5193e-09],
+        ...,
+        [ 8.5354e-05,  0.0000e+00,  3.0454e-07,  ...,  0.0000e+00,
+          1.3057e-06,  1.8626e-09],
+        [ 4.9137e-06,  0.0000e+00,  5.5693e-07,  ...,  0.0000e+00,
+          1.3243e-06,  1.8626e-09],
+        [ 1.0684e-05,  0.0000e+00, -2.9616e-06,  ...,  0.0000e+00,
+         -7.9125e-06,  0.0000e+00]], device='cuda:0')
+Epoch 127, bias, value: tensor([-2.7319e-03,  2.4492e-02,  6.0260e-03, -1.9379e-05,  1.0846e-02,
+        -5.6764e-04,  2.1557e-02, -1.5500e-02,  1.3877e-02, -3.1854e-03],
+       device='cuda:0'), grad: tensor([-6.3851e-06, -2.0042e-06, -1.6820e-04,  1.6257e-05,  1.7643e-05,
+        -8.6054e-06,  7.4655e-06,  1.4496e-04,  1.2785e-05, -1.4186e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 126, time 217.37, cls_loss 0.0034 cls_loss_mapping 0.0062 cls_loss_causal 0.5403 re_mapping 0.0081 re_causal 0.0253 /// teacc 98.90 lr 0.00010000
+Epoch 128, weight, value: tensor([[-0.0425, -0.0528, -0.0379,  ..., -0.0872,  0.0007, -0.0148],
+        [-0.0369,  0.0253, -0.1164,  ...,  0.0444,  0.0497, -0.0987],
+        [ 0.0513, -0.0005, -0.0504,  ..., -0.0414, -0.0289,  0.0055],
+        ...,
+        [ 0.0457, -0.0424,  0.0005,  ...,  0.0229, -0.0225,  0.0340],
+        [-0.0285, -0.0345, -0.0547,  ..., -0.0119, -0.0210, -0.0404],
+        [-0.0939, -0.1444,  0.0344,  ..., -0.0503,  0.0195,  0.0304]],
+       device='cuda:0'), grad: tensor([[ 1.8422e-06,  0.0000e+00,  1.8338e-06,  ...,  4.6566e-10,
+          1.2480e-07,  2.7940e-09],
+        [ 1.0021e-05,  1.8626e-09,  2.9337e-06,  ...,  2.3283e-09,
+         -1.0785e-06,  2.0955e-08],
+        [ 2.4457e-06,  9.3132e-10,  1.3243e-06,  ...,  1.8626e-09,
+          1.7649e-07,  3.4925e-08],
+        ...,
+        [-2.2396e-05, -6.5193e-09, -3.8091e-06,  ...,  4.6566e-09,
+          4.9965e-07, -1.0431e-07],
+        [ 1.6659e-05,  4.6566e-10,  1.1057e-05,  ...,  7.9162e-09,
+         -3.0734e-08,  4.1910e-09],
+        [ 2.5872e-06,  4.6566e-10,  8.7731e-07,  ...,  1.1642e-08,
+          4.6100e-08,  2.5611e-08]], device='cuda:0')
+Epoch 128, bias, value: tensor([-0.0025,  0.0247,  0.0048, -0.0004,  0.0110, -0.0006,  0.0213, -0.0144,
+         0.0139, -0.0034], device='cuda:0'), grad: tensor([ 1.6913e-05,  3.0816e-05,  1.3649e-05,  3.4094e-05,  1.5363e-05,
+         2.3520e-04, -3.9649e-04, -5.6863e-05,  9.9123e-05,  8.1956e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 127, time 217.16, cls_loss 0.0054 cls_loss_mapping 0.0067 cls_loss_causal 0.5697 re_mapping 0.0086 re_causal 0.0245 /// teacc 98.79 lr 0.00010000
+Epoch 129, weight, value: tensor([[-0.0431, -0.0539, -0.0384,  ..., -0.0876,  0.0008, -0.0148],
+        [-0.0363,  0.0256, -0.1174,  ...,  0.0447,  0.0508, -0.0988],
+        [ 0.0513,  0.0008, -0.0493,  ..., -0.0422, -0.0292,  0.0056],
+        ...,
+        [ 0.0455, -0.0440,  0.0005,  ...,  0.0229, -0.0243,  0.0340],
+        [-0.0289, -0.0348, -0.0554,  ..., -0.0121, -0.0216, -0.0404],
+        [-0.0930, -0.1463,  0.0342,  ..., -0.0503,  0.0203,  0.0304]],
+       device='cuda:0'), grad: tensor([[ 4.1258e-07,  0.0000e+00,  2.1420e-07,  ...,  0.0000e+00,
+          6.1467e-08,  9.3132e-10],
+        [ 9.4533e-05,  0.0000e+00,  6.4727e-07,  ...,  4.6566e-09,
+         -2.1420e-08,  5.5879e-09],
+        [ 5.4762e-07,  0.0000e+00,  3.4459e-07,  ...,  9.3132e-10,
+          1.0896e-07,  4.6566e-09],
+        ...,
+        [-7.2527e-04,  0.0000e+00,  6.6161e-05,  ...,  2.7008e-08,
+          8.5831e-06, -2.6077e-08],
+        [ 1.7481e-06,  0.0000e+00,  5.9828e-06,  ...,  0.0000e+00,
+          1.6633e-06,  3.7253e-09],
+        [ 5.7745e-04,  0.0000e+00, -9.6083e-05,  ...,  0.0000e+00,
+         -1.3061e-05,  8.3819e-09]], device='cuda:0')
+Epoch 129, bias, value: tensor([-0.0022,  0.0255,  0.0050, -0.0011,  0.0105, -0.0012,  0.0227, -0.0155,
+         0.0130, -0.0025], device='cuda:0'), grad: tensor([ 1.6550e-06,  2.4092e-04,  4.4219e-06,  1.1832e-04,  8.6546e-05,
+        -1.9282e-05,  4.3474e-06, -1.5459e-03,  1.9282e-05,  1.0891e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 128, time 217.40, cls_loss 0.0045 cls_loss_mapping 0.0068 cls_loss_causal 0.5977 re_mapping 0.0082 re_causal 0.0249 /// teacc 98.87 lr 0.00010000
+Epoch 130, weight, value: tensor([[-0.0434, -0.0553, -0.0403,  ..., -0.0878, -0.0003, -0.0160],
+        [-0.0365,  0.0258, -0.1181,  ...,  0.0450,  0.0512, -0.0995],
+        [ 0.0518,  0.0008, -0.0492,  ..., -0.0426, -0.0294,  0.0051],
+        ...,
+        [ 0.0457, -0.0443,  0.0003,  ...,  0.0227, -0.0246,  0.0338],
+        [-0.0284, -0.0349, -0.0574,  ..., -0.0122, -0.0218, -0.0405],
+        [-0.0943, -0.1489,  0.0365,  ..., -0.0505,  0.0213,  0.0316]],
+       device='cuda:0'), grad: tensor([[ 1.4072e-06,  2.8219e-07,  1.3411e-07,  ...,  0.0000e+00,
+          3.3267e-06,  7.4506e-09],
+        [ 1.6105e-04,  3.3975e-05,  1.5926e-07,  ...,  0.0000e+00,
+         -1.9222e-06,  9.3132e-10],
+        [-2.0921e-04, -4.4346e-05,  3.9209e-07,  ...,  0.0000e+00,
+          1.2405e-06, -4.0978e-08],
+        ...,
+        [ 8.6427e-06,  2.0191e-06,  1.5460e-07,  ...,  0.0000e+00,
+          4.3306e-07,  1.1176e-08],
+        [ 4.1910e-06,  7.6555e-07, -2.9746e-06,  ...,  0.0000e+00,
+          1.5181e-07,  9.3132e-10],
+        [ 1.1116e-05,  2.2855e-06,  2.7418e-06,  ...,  0.0000e+00,
+          1.0040e-06,  1.4901e-08]], device='cuda:0')
+Epoch 130, bias, value: tensor([-0.0031,  0.0255,  0.0054, -0.0015,  0.0102, -0.0016,  0.0219, -0.0154,
+         0.0128, -0.0010], device='cuda:0'), grad: tensor([ 9.9242e-06,  2.6059e-04, -3.4046e-04,  2.0459e-05,  4.7684e-06,
+         1.5073e-05, -1.1809e-05,  1.6093e-05, -4.4331e-06,  2.9758e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 129, time 217.34, cls_loss 0.0038 cls_loss_mapping 0.0056 cls_loss_causal 0.5527 re_mapping 0.0082 re_causal 0.0253 /// teacc 98.82 lr 0.00010000
+Epoch 131, weight, value: tensor([[-0.0437, -0.0563, -0.0406,  ..., -0.0878, -0.0007, -0.0165],
+        [-0.0375,  0.0238, -0.1184,  ...,  0.0451,  0.0515, -0.0998],
+        [ 0.0517,  0.0022, -0.0495,  ..., -0.0427, -0.0294,  0.0050],
+        ...,
+        [ 0.0467, -0.0440,  0.0016,  ...,  0.0227, -0.0247,  0.0336],
+        [-0.0289, -0.0351, -0.0576,  ..., -0.0122, -0.0222, -0.0405],
+        [-0.0954, -0.1510,  0.0365,  ..., -0.0505,  0.0218,  0.0321]],
+       device='cuda:0'), grad: tensor([[ 7.7300e-07,  1.0151e-07,  1.3877e-07,  ...,  0.0000e+00,
+          3.6974e-07,  0.0000e+00],
+        [ 8.5533e-06,  1.4249e-07,  3.5763e-07,  ...,  0.0000e+00,
+         -3.4198e-06,  0.0000e+00],
+        [-5.0664e-06, -2.1160e-06,  1.4063e-07,  ...,  0.0000e+00,
+          8.2608e-07, -5.5879e-09],
+        ...,
+        [ 7.8380e-06,  5.4482e-07,  1.8522e-05,  ...,  0.0000e+00,
+          4.0568e-06,  2.7940e-09],
+        [ 9.5144e-06,  1.1539e-06,  1.5851e-06,  ...,  0.0000e+00,
+          3.0361e-07,  9.3132e-10],
+        [ 7.9036e-05,  8.3819e-09,  1.2070e-04,  ...,  0.0000e+00,
+         -4.2245e-06,  0.0000e+00]], device='cuda:0')
+Epoch 131, bias, value: tensor([-0.0032,  0.0251,  0.0053, -0.0016,  0.0097, -0.0019,  0.0216, -0.0143,
+         0.0131, -0.0011], device='cuda:0'), grad: tensor([ 2.6338e-06,  9.9242e-06, -4.4778e-06,  1.5542e-05, -4.4227e-04,
+         3.9674e-06,  9.7975e-07,  7.2122e-05,  2.2560e-05,  3.1805e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 130, time 217.21, cls_loss 0.0041 cls_loss_mapping 0.0064 cls_loss_causal 0.5552 re_mapping 0.0082 re_causal 0.0238 /// teacc 98.89 lr 0.00010000
+Epoch 132, weight, value: tensor([[-0.0466, -0.0579, -0.0408,  ..., -0.0879, -0.0012, -0.0166],
+        [-0.0385,  0.0230, -0.1188,  ...,  0.0449,  0.0518, -0.1009],
+        [ 0.0519,  0.0021, -0.0489,  ..., -0.0428, -0.0295,  0.0092],
+        ...,
+        [ 0.0473, -0.0432,  0.0017,  ...,  0.0227, -0.0250,  0.0335],
+        [-0.0294, -0.0348, -0.0575,  ..., -0.0123, -0.0221, -0.0409],
+        [-0.0963, -0.1540,  0.0359,  ..., -0.0500,  0.0220,  0.0320]],
+       device='cuda:0'), grad: tensor([[ 1.5646e-07,  2.7940e-09,  4.4424e-07,  ...,  0.0000e+00,
+          1.2480e-07,  2.4214e-08],
+        [ 4.7311e-07,  4.0047e-08,  1.7583e-06,  ...,  0.0000e+00,
+         -3.4831e-06,  7.4506e-09],
+        [-5.1036e-07,  2.8871e-08,  7.6182e-07,  ...,  0.0000e+00,
+          2.4866e-07, -2.4866e-07],
+        ...,
+        [-3.5688e-06, -1.7975e-07,  6.4913e-07,  ...,  0.0000e+00,
+          1.5320e-06,  1.8068e-07],
+        [ 4.8243e-07,  2.7940e-09,  4.0233e-07,  ...,  0.0000e+00,
+          9.6671e-07,  2.1420e-08],
+        [ 1.5311e-06,  5.2154e-08,  4.7326e-05,  ...,  0.0000e+00,
+         -9.8348e-07,  1.8626e-09]], device='cuda:0')
+Epoch 132, bias, value: tensor([-0.0034,  0.0246,  0.0053, -0.0010,  0.0100, -0.0024,  0.0197, -0.0138,
+         0.0151, -0.0015], device='cuda:0'), grad: tensor([ 2.4825e-05, -1.5842e-06,  8.5384e-06,  4.1090e-06, -8.9109e-05,
+         3.8072e-06, -8.0407e-05,  2.0396e-07,  8.9332e-06,  1.2082e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 131, time 217.19, cls_loss 0.0032 cls_loss_mapping 0.0047 cls_loss_causal 0.5390 re_mapping 0.0083 re_causal 0.0238 /// teacc 98.80 lr 0.00010000
+Epoch 133, weight, value: tensor([[-0.0463, -0.0582, -0.0412,  ..., -0.0892, -0.0010, -0.0166],
+        [-0.0383,  0.0232, -0.1192,  ...,  0.0449,  0.0529, -0.1012],
+        [ 0.0523,  0.0023, -0.0494,  ..., -0.0434, -0.0297,  0.0095],
+        ...,
+        [ 0.0471, -0.0435,  0.0015,  ...,  0.0225, -0.0259,  0.0332],
+        [-0.0303, -0.0349, -0.0581,  ..., -0.0126, -0.0239, -0.0412],
+        [-0.0964, -0.1553,  0.0365,  ..., -0.0498,  0.0228,  0.0320]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-07,  9.3132e-10,  8.1956e-08,  ...,  2.7195e-07,
+          6.0629e-07,  0.0000e+00],
+        [-2.2069e-05,  2.4214e-08,  9.7789e-08,  ..., -2.5630e-05,
+         -5.0306e-05,  0.0000e+00],
+        [ 1.6153e-05,  4.6566e-09,  2.3376e-07,  ...,  2.0161e-05,
+          3.9101e-05,  0.0000e+00],
+        ...,
+        [ 1.3942e-06, -7.1712e-08, -9.7416e-07,  ...,  2.8163e-06,
+          5.8860e-06,  0.0000e+00],
+        [ 8.4471e-07,  3.7253e-09,  6.8266e-07,  ...,  5.1223e-08,
+          4.0885e-07,  0.0000e+00],
+        [ 7.3668e-07,  1.5832e-08,  2.9337e-07,  ...,  1.0990e-07,
+         -6.2492e-07,  0.0000e+00]], device='cuda:0')
+Epoch 133, bias, value: tensor([-0.0031,  0.0250,  0.0054, -0.0017,  0.0094, -0.0017,  0.0194, -0.0142,
+         0.0142, -0.0007], device='cuda:0'), grad: tensor([-4.5240e-05, -2.7251e-04,  2.1565e-04,  4.6715e-06,  2.0668e-05,
+         2.1495e-06,  4.8101e-05,  1.2137e-05,  4.9211e-06,  9.2387e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 132, time 217.25, cls_loss 0.0039 cls_loss_mapping 0.0056 cls_loss_causal 0.5650 re_mapping 0.0080 re_causal 0.0237 /// teacc 98.77 lr 0.00010000
+Epoch 134, weight, value: tensor([[-0.0463, -0.0613, -0.0417,  ..., -0.0893, -0.0013, -0.0187],
+        [-0.0384,  0.0235, -0.1194,  ...,  0.0455,  0.0533, -0.1029],
+        [ 0.0525,  0.0023, -0.0488,  ..., -0.0442, -0.0299,  0.0089],
+        ...,
+        [ 0.0473, -0.0432,  0.0013,  ...,  0.0221, -0.0259,  0.0329],
+        [-0.0310, -0.0349, -0.0587,  ..., -0.0128, -0.0245, -0.0417],
+        [-0.0979, -0.1640,  0.0360,  ..., -0.0499,  0.0225,  0.0341]],
+       device='cuda:0'), grad: tensor([[ 3.4198e-06,  1.8626e-09,  1.8626e-07,  ...,  7.4506e-09,
+          6.5193e-08,  3.3434e-06],
+        [ 1.7323e-07,  1.8626e-09,  1.8394e-06,  ...,  3.1665e-07,
+         -1.7062e-06,  4.3772e-08],
+        [-5.4911e-06, -4.1910e-08,  4.7218e-07,  ...,  4.2841e-08,
+          1.4994e-07, -5.1446e-06],
+        ...,
+        [ 7.6462e-07,  3.5390e-08,  9.9931e-07,  ...,  6.5193e-08,
+          7.1619e-07,  6.5845e-07],
+        [ 2.3376e-07, -2.7940e-09,  9.4250e-07,  ...,  4.6566e-09,
+          7.9256e-07,  1.2200e-07],
+        [ 4.0885e-07,  9.3132e-10,  1.3942e-06,  ...,  5.5879e-08,
+         -5.8766e-07,  2.5798e-07]], device='cuda:0')
+Epoch 134, bias, value: tensor([-0.0042,  0.0252,  0.0058, -0.0018,  0.0096, -0.0012,  0.0194, -0.0140,
+         0.0137, -0.0006], device='cuda:0'), grad: tensor([-3.5260e-06,  2.3991e-06, -1.3016e-05,  1.7034e-06, -1.1824e-05,
+         1.2685e-06,  8.4788e-06,  6.2846e-06,  3.9376e-06,  4.2804e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 133, time 217.18, cls_loss 0.0043 cls_loss_mapping 0.0053 cls_loss_causal 0.5260 re_mapping 0.0081 re_causal 0.0236 /// teacc 98.89 lr 0.00010000
+Epoch 135, weight, value: tensor([[-0.0463, -0.0633, -0.0420,  ..., -0.0893, -0.0027, -0.0206],
+        [-0.0399,  0.0244, -0.1198,  ...,  0.0464,  0.0537, -0.1077],
+        [ 0.0537,  0.0029, -0.0491,  ..., -0.0443, -0.0300,  0.0102],
+        ...,
+        [ 0.0469, -0.0448,  0.0012,  ...,  0.0213, -0.0263,  0.0317],
+        [-0.0315, -0.0351, -0.0591,  ..., -0.0130, -0.0244, -0.0432],
+        [-0.0995, -0.1688,  0.0354,  ..., -0.0501,  0.0233,  0.0359]],
+       device='cuda:0'), grad: tensor([[ 2.6636e-07,  1.6764e-08,  3.1665e-08,  ...,  0.0000e+00,
+         -1.0364e-05,  0.0000e+00],
+        [ 9.0618e-07,  3.4273e-07,  8.3819e-08,  ...,  0.0000e+00,
+         -3.4496e-06,  0.0000e+00],
+        [-2.2911e-06,  3.1944e-07,  5.3085e-08,  ...,  9.3132e-10,
+          1.6820e-06, -9.3132e-10],
+        ...,
+        [ 9.4995e-06, -1.3513e-06,  3.7216e-06,  ...,  9.3132e-10,
+          4.5169e-07,  9.3132e-10],
+        [ 1.9260e-06,  6.8918e-08,  1.1735e-07,  ...,  9.3132e-10,
+          3.4153e-05,  0.0000e+00],
+        [-5.7369e-05,  1.4901e-08, -1.3188e-05,  ...,  0.0000e+00,
+          1.6633e-06,  0.0000e+00]], device='cuda:0')
+Epoch 135, bias, value: tensor([-0.0055,  0.0245,  0.0065, -0.0011,  0.0104, -0.0005,  0.0197, -0.0143,
+         0.0131, -0.0003], device='cuda:0'), grad: tensor([-4.0740e-05, -4.6194e-06,  3.1628e-06,  8.1360e-06,  3.3259e-04,
+         5.8270e-04, -6.5899e-04,  1.1539e-04,  1.3030e-04, -4.6730e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 134, time 217.67, cls_loss 0.0039 cls_loss_mapping 0.0075 cls_loss_causal 0.5445 re_mapping 0.0081 re_causal 0.0231 /// teacc 98.92 lr 0.00010000
+Epoch 136, weight, value: tensor([[-0.0446, -0.0650, -0.0424,  ..., -0.0896, -0.0028, -0.0208],
+        [-0.0403,  0.0243, -0.1201,  ...,  0.0471,  0.0548, -0.1087],
+        [ 0.0539,  0.0028, -0.0515,  ..., -0.0444, -0.0302,  0.0104],
+        ...,
+        [ 0.0469, -0.0449,  0.0010,  ...,  0.0210, -0.0274,  0.0314],
+        [-0.0317, -0.0344, -0.0599,  ..., -0.0131, -0.0246, -0.0438],
+        [-0.1025, -0.1704,  0.0346,  ..., -0.0506,  0.0234,  0.0363]],
+       device='cuda:0'), grad: tensor([[ 1.3322e-05,  0.0000e+00,  5.4911e-06,  ...,  0.0000e+00,
+          1.3970e-08,  0.0000e+00],
+        [ 5.3458e-06,  0.0000e+00,  2.2128e-06,  ...,  0.0000e+00,
+         -1.4529e-07,  9.3132e-10],
+        [ 1.5602e-05,  0.0000e+00,  6.6981e-06,  ...,  0.0000e+00,
+          5.5879e-08,  4.6566e-09],
+        ...,
+        [ 4.7497e-08,  0.0000e+00,  1.9744e-07,  ...,  0.0000e+00,
+          4.2841e-08, -7.4506e-09],
+        [ 1.3858e-06,  0.0000e+00,  8.2701e-07,  ...,  0.0000e+00,
+          8.3819e-09,  0.0000e+00],
+        [-1.6898e-05,  0.0000e+00, -6.8434e-06,  ...,  0.0000e+00,
+         -2.0489e-08,  9.3132e-10]], device='cuda:0')
+Epoch 136, bias, value: tensor([-4.9428e-03,  2.4967e-02,  6.1505e-03, -4.1212e-04,  1.0852e-02,
+         9.9237e-05,  1.9116e-02, -1.4833e-02,  1.2888e-02, -9.0948e-04],
+       device='cuda:0'), grad: tensor([ 4.9740e-05,  1.3009e-05,  4.1425e-05,  1.8209e-05,  3.4142e-04,
+         1.0274e-05, -4.0984e-04,  1.1306e-06,  3.4682e-06, -6.9201e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 135, time 217.64, cls_loss 0.0030 cls_loss_mapping 0.0049 cls_loss_causal 0.5488 re_mapping 0.0080 re_causal 0.0247 /// teacc 98.76 lr 0.00010000
+Epoch 137, weight, value: tensor([[-0.0448, -0.0658, -0.0425,  ..., -0.0896, -0.0030, -0.0208],
+        [-0.0404,  0.0244, -0.1203,  ...,  0.0471,  0.0550, -0.1090],
+        [ 0.0538,  0.0026, -0.0521,  ..., -0.0444, -0.0305,  0.0103],
+        ...,
+        [ 0.0471, -0.0449,  0.0011,  ...,  0.0211, -0.0276,  0.0316],
+        [-0.0315, -0.0326, -0.0603,  ..., -0.0132, -0.0247, -0.0440],
+        [-0.1029, -0.1710,  0.0333,  ..., -0.0515,  0.0235,  0.0363]],
+       device='cuda:0'), grad: tensor([[ 2.5332e-07,  0.0000e+00,  4.4703e-08,  ...,  0.0000e+00,
+          2.0396e-07,  1.5739e-07],
+        [ 1.1683e-05,  0.0000e+00,  1.1083e-07,  ...,  0.0000e+00,
+         -2.6245e-06,  1.6810e-06],
+        [ 2.2486e-05,  0.0000e+00, -1.3867e-06,  ...,  0.0000e+00,
+          1.5507e-06,  3.6452e-06],
+        ...,
+        [-5.7071e-05,  0.0000e+00,  4.0978e-08,  ...,  0.0000e+00,
+          6.8173e-07, -8.5905e-06],
+        [ 3.2987e-06,  0.0000e+00,  1.6764e-07,  ...,  0.0000e+00,
+          4.4145e-07,  3.7067e-07],
+        [ 1.4596e-05,  0.0000e+00,  7.7300e-08,  ...,  0.0000e+00,
+         -2.3954e-06,  2.1141e-06]], device='cuda:0')
+Epoch 137, bias, value: tensor([-4.9095e-03,  2.4978e-02,  5.8470e-03,  8.5718e-05,  1.1930e-02,
+        -4.4005e-04,  1.9489e-02, -1.4733e-02,  1.3005e-02, -1.7870e-03],
+       device='cuda:0'), grad: tensor([-1.5870e-05,  3.3855e-05,  9.0301e-05,  1.9558e-06,  1.3597e-05,
+         7.1041e-06,  3.5763e-06, -2.0278e-04,  1.1377e-05,  5.6952e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 136, time 217.36, cls_loss 0.0033 cls_loss_mapping 0.0059 cls_loss_causal 0.5427 re_mapping 0.0076 re_causal 0.0228 /// teacc 98.84 lr 0.00010000
+Epoch 138, weight, value: tensor([[-0.0449, -0.0669, -0.0431,  ..., -0.0898, -0.0024, -0.0211],
+        [-0.0418,  0.0247, -0.1206,  ...,  0.0471,  0.0555, -0.1102],
+        [ 0.0541,  0.0025, -0.0514,  ..., -0.0444, -0.0306,  0.0113],
+        ...,
+        [ 0.0481, -0.0450,  0.0007,  ...,  0.0214, -0.0281,  0.0316],
+        [-0.0318, -0.0334, -0.0608,  ..., -0.0134, -0.0248, -0.0449],
+        [-0.1037, -0.1713,  0.0326,  ..., -0.0523,  0.0237,  0.0365]],
+       device='cuda:0'), grad: tensor([[-1.4043e-04,  9.3132e-10,  6.2212e-07,  ...,  1.8626e-09,
+         -2.4009e-06,  9.8720e-08],
+        [ 3.7961e-06, -4.7497e-08,  3.4086e-07,  ...,  3.4459e-08,
+         -3.8370e-06,  5.4948e-08],
+        [-1.2718e-05,  8.3819e-09, -4.4443e-06,  ...,  3.7253e-09,
+         -1.1260e-06, -1.3718e-06],
+        ...,
+        [ 4.2692e-06,  1.0245e-08,  4.8708e-07,  ...,  1.2107e-08,
+          6.2026e-07,  5.4017e-08],
+        [ 6.9402e-06,  1.3970e-08,  2.5183e-06,  ...,  1.8626e-09,
+          2.3618e-06,  3.9116e-08],
+        [ 1.2279e-04,  9.3132e-10,  1.3933e-06,  ...,  8.3819e-09,
+          2.7195e-06,  7.5437e-08]], device='cuda:0')
+Epoch 138, bias, value: tensor([-4.3489e-03,  2.3705e-02,  5.6880e-03, -1.3175e-04,  1.2197e-02,
+        -5.3660e-05,  1.9176e-02, -1.3496e-02,  1.3220e-02, -2.2984e-03],
+       device='cuda:0'), grad: tensor([-7.7009e-04,  1.1409e-06, -1.7881e-05,  5.5611e-05,  6.0759e-06,
+         5.9903e-06,  9.7975e-06,  7.3388e-06,  3.2365e-05,  6.6900e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 137, time 217.46, cls_loss 0.0042 cls_loss_mapping 0.0060 cls_loss_causal 0.5544 re_mapping 0.0078 re_causal 0.0232 /// teacc 98.87 lr 0.00010000
+Epoch 139, weight, value: tensor([[-0.0448, -0.0679, -0.0437,  ..., -0.0912, -0.0026, -0.0211],
+        [-0.0423,  0.0250, -0.1206,  ...,  0.0474,  0.0550, -0.1124],
+        [ 0.0543,  0.0024, -0.0517,  ..., -0.0447, -0.0295,  0.0122],
+        ...,
+        [ 0.0486, -0.0451,  0.0005,  ...,  0.0205, -0.0287,  0.0302],
+        [-0.0324, -0.0338, -0.0610,  ..., -0.0138, -0.0253, -0.0470],
+        [-0.1049, -0.1715,  0.0322,  ..., -0.0523,  0.0242,  0.0366]],
+       device='cuda:0'), grad: tensor([[ 2.2072e-07,  0.0000e+00,  1.9558e-08,  ...,  0.0000e+00,
+          2.0899e-06,  1.8626e-08],
+        [ 5.0757e-07,  5.5879e-09,  2.4214e-08,  ...,  0.0000e+00,
+          5.5879e-08,  1.3970e-08],
+        [ 7.1526e-06,  9.3132e-10,  4.1910e-08,  ...,  0.0000e+00,
+          1.5870e-06,  3.7253e-09],
+        ...,
+        [ 1.2174e-05, -9.3132e-09,  1.0710e-07,  ...,  0.0000e+00,
+          1.0626e-06,  3.9116e-08],
+        [ 6.2585e-07,  9.3132e-10,  2.1141e-07,  ...,  0.0000e+00,
+          2.4289e-06,  1.2014e-07],
+        [ 6.1095e-07,  9.3132e-10, -6.9197e-07,  ...,  0.0000e+00,
+         -6.6385e-06, -3.9302e-07]], device='cuda:0')
+Epoch 139, bias, value: tensor([-0.0043,  0.0236,  0.0059,  0.0019,  0.0121, -0.0017,  0.0196, -0.0133,
+         0.0130, -0.0027], device='cuda:0'), grad: tensor([ 4.6156e-06,  1.5106e-06,  1.3456e-05, -2.1562e-05,  2.1249e-05,
+         3.4962e-06, -1.4141e-05,  2.0027e-05,  7.1302e-06, -3.5793e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 138, time 217.48, cls_loss 0.0047 cls_loss_mapping 0.0060 cls_loss_causal 0.5589 re_mapping 0.0077 re_causal 0.0233 /// teacc 98.84 lr 0.00010000
+Epoch 140, weight, value: tensor([[-0.0451, -0.0694, -0.0438,  ..., -0.0915, -0.0029, -0.0212],
+        [-0.0424,  0.0250, -0.1212,  ...,  0.0492,  0.0561, -0.1182],
+        [ 0.0536,  0.0024, -0.0518,  ..., -0.0449, -0.0290,  0.0139],
+        ...,
+        [ 0.0495, -0.0451,  0.0025,  ...,  0.0231, -0.0302,  0.0292],
+        [-0.0327, -0.0336, -0.0619,  ..., -0.0139, -0.0265, -0.0526],
+        [-0.1056, -0.1719,  0.0334,  ..., -0.0525,  0.0227,  0.0365]],
+       device='cuda:0'), grad: tensor([[-2.9244e-07,  9.3132e-10,  3.9581e-07,  ...,  0.0000e+00,
+          5.7742e-08,  2.1420e-08],
+        [ 1.7285e-06,  3.7253e-09,  2.3823e-06,  ...,  1.7788e-07,
+         -7.9162e-08,  1.3132e-07],
+        [-9.8813e-07,  7.4506e-09,  6.0350e-07,  ...,  9.3132e-10,
+          1.6298e-07,  3.4459e-08],
+        ...,
+        [-2.2240e-06, -1.9558e-08,  7.5027e-06,  ..., -2.0675e-07,
+          4.1723e-07,  4.1444e-07],
+        [-7.4413e-07,  9.3132e-10,  6.8359e-07,  ...,  9.3132e-10,
+         -3.6769e-06,  2.7008e-08],
+        [ 7.7859e-07,  9.3132e-10,  3.5837e-06,  ...,  2.1420e-08,
+         -2.4047e-06,  2.9150e-07]], device='cuda:0')
+Epoch 140, bias, value: tensor([-0.0044,  0.0243,  0.0056,  0.0009,  0.0124, -0.0006,  0.0198, -0.0127,
+         0.0120, -0.0035], device='cuda:0'), grad: tensor([ 1.6764e-07,  8.1733e-06,  1.2890e-06,  1.4327e-05, -2.9519e-05,
+         8.2105e-06,  1.5181e-06,  1.1414e-05, -2.0623e-05,  5.0142e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 139----------------------------------------------------
+epoch 139, time 218.25, cls_loss 0.0035 cls_loss_mapping 0.0048 cls_loss_causal 0.5540 re_mapping 0.0076 re_causal 0.0230 /// teacc 98.93 lr 0.00010000
+Epoch 141, weight, value: tensor([[-0.0454, -0.0696, -0.0441,  ..., -0.0916, -0.0033, -0.0213],
+        [-0.0428,  0.0251, -0.1215,  ...,  0.0494,  0.0568, -0.1189],
+        [ 0.0539,  0.0017, -0.0528,  ..., -0.0449, -0.0294,  0.0139],
+        ...,
+        [ 0.0491, -0.0452,  0.0023,  ...,  0.0229, -0.0309,  0.0282],
+        [-0.0330, -0.0320, -0.0622,  ..., -0.0140, -0.0268, -0.0538],
+        [-0.1058, -0.1722,  0.0339,  ..., -0.0523,  0.0233,  0.0367]],
+       device='cuda:0'), grad: tensor([[-2.4121e-06,  1.8626e-09,  3.4180e-07,  ...,  0.0000e+00,
+          2.7101e-07,  4.1910e-08],
+        [ 3.8277e-07,  2.7940e-09,  1.4901e-07,  ...,  0.0000e+00,
+         -5.5879e-09,  1.0245e-08],
+        [-3.5297e-07, -2.9802e-08,  2.8536e-06,  ...,  0.0000e+00,
+          5.9325e-07, -4.6566e-09],
+        ...,
+        [-5.1036e-07,  9.3132e-09,  1.4435e-07,  ...,  0.0000e+00,
+          3.7625e-07,  7.4506e-09],
+        [ 3.1851e-07,  4.6566e-09, -8.1584e-07,  ...,  0.0000e+00,
+          2.1271e-06,  3.3900e-07],
+        [ 1.5451e-06,  9.3132e-10,  2.3656e-07,  ...,  0.0000e+00,
+         -1.5395e-06,  1.8626e-09]], device='cuda:0')
+Epoch 141, bias, value: tensor([-0.0046,  0.0242,  0.0054,  0.0019,  0.0122, -0.0005,  0.0196, -0.0133,
+         0.0120, -0.0029], device='cuda:0'), grad: tensor([-5.8636e-06,  1.3923e-06,  1.5125e-05,  3.0808e-06,  3.4496e-06,
+         7.8797e-05, -1.0431e-04,  1.5749e-06,  8.1062e-06, -1.5376e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 140, time 217.41, cls_loss 0.0032 cls_loss_mapping 0.0053 cls_loss_causal 0.5313 re_mapping 0.0077 re_causal 0.0235 /// teacc 98.85 lr 0.00010000
+Epoch 142, weight, value: tensor([[-0.0447, -0.0701, -0.0445,  ..., -0.0917, -0.0038, -0.0215],
+        [-0.0425,  0.0258, -0.1222,  ...,  0.0500,  0.0573, -0.1193],
+        [ 0.0538,  0.0013, -0.0520,  ..., -0.0469, -0.0297,  0.0162],
+        ...,
+        [ 0.0490, -0.0456,  0.0023,  ...,  0.0228, -0.0317,  0.0284],
+        [-0.0329, -0.0321, -0.0626,  ..., -0.0140, -0.0270, -0.0592],
+        [-0.1066, -0.1723,  0.0340,  ..., -0.0524,  0.0241,  0.0365]],
+       device='cuda:0'), grad: tensor([[-2.8033e-07,  0.0000e+00,  8.9034e-07,  ...,  0.0000e+00,
+          2.0675e-07,  6.5193e-08],
+        [ 1.0421e-06,  0.0000e+00,  1.2983e-06,  ...,  0.0000e+00,
+         -1.0375e-06,  9.2201e-08],
+        [ 4.2692e-06,  0.0000e+00,  4.3064e-06,  ...,  0.0000e+00,
+          1.2480e-07,  3.8464e-07],
+        ...,
+        [-1.5497e-06,  0.0000e+00,  2.4289e-06,  ...,  0.0000e+00,
+          4.1258e-07, -8.6706e-07],
+        [ 1.0962e-06,  0.0000e+00,  1.9185e-07,  ...,  0.0000e+00,
+          5.1223e-08,  2.5984e-07],
+        [ 7.5717e-07,  0.0000e+00,  6.8545e-06,  ...,  0.0000e+00,
+          4.9733e-07,  6.8918e-08]], device='cuda:0')
+Epoch 142, bias, value: tensor([-0.0046,  0.0246,  0.0050,  0.0019,  0.0117, -0.0004,  0.0194, -0.0136,
+         0.0123, -0.0024], device='cuda:0'), grad: tensor([-4.0792e-06,  1.3718e-06,  1.4804e-05,  2.8163e-06, -3.7611e-05,
+        -7.2550e-07,  5.1558e-06,  1.1157e-06, -5.2247e-07,  1.7643e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 141, time 217.42, cls_loss 0.0035 cls_loss_mapping 0.0060 cls_loss_causal 0.5447 re_mapping 0.0077 re_causal 0.0229 /// teacc 98.83 lr 0.00010000
+Epoch 143, weight, value: tensor([[-0.0448, -0.0706, -0.0453,  ..., -0.0917, -0.0041, -0.0215],
+        [-0.0414,  0.0260, -0.1232,  ...,  0.0500,  0.0595, -0.1196],
+        [ 0.0543,  0.0015, -0.0515,  ..., -0.0469, -0.0298,  0.0175],
+        ...,
+        [ 0.0485, -0.0459,  0.0021,  ...,  0.0228, -0.0325,  0.0282],
+        [-0.0333, -0.0323, -0.0634,  ..., -0.0140, -0.0274, -0.0595],
+        [-0.1097, -0.1725,  0.0332,  ..., -0.0524,  0.0228,  0.0364]],
+       device='cuda:0'), grad: tensor([[ 1.1083e-06,  4.6566e-09,  2.0768e-07,  ...,  0.0000e+00,
+          4.4703e-08,  0.0000e+00],
+        [ 7.3314e-06,  2.0768e-07,  1.2480e-07,  ...,  0.0000e+00,
+          3.3807e-07,  0.0000e+00],
+        [-3.9369e-05,  4.2841e-08, -5.3197e-06,  ...,  0.0000e+00,
+          1.3039e-08,  0.0000e+00],
+        ...,
+        [-9.8944e-06, -5.2340e-07,  1.1297e-06,  ...,  0.0000e+00,
+         -1.5935e-06,  0.0000e+00],
+        [ 2.1383e-05,  3.7253e-09,  1.2234e-05,  ...,  0.0000e+00,
+          7.1116e-06,  0.0000e+00],
+        [ 6.4820e-06,  1.1548e-07,  2.1048e-07,  ...,  0.0000e+00,
+          6.9663e-07,  0.0000e+00]], device='cuda:0')
+Epoch 143, bias, value: tensor([-0.0046,  0.0259,  0.0053,  0.0023,  0.0116, -0.0006,  0.0198, -0.0144,
+         0.0118, -0.0031], device='cuda:0'), grad: tensor([ 1.6829e-06,  1.2398e-05, -7.4327e-05,  1.2413e-05,  8.0094e-06,
+         1.1623e-04, -1.9383e-04, -1.9014e-05,  1.2445e-04,  1.1809e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 142, time 217.58, cls_loss 0.0028 cls_loss_mapping 0.0043 cls_loss_causal 0.5187 re_mapping 0.0077 re_causal 0.0228 /// teacc 98.89 lr 0.00010000
+Epoch 144, weight, value: tensor([[-0.0450, -0.0708, -0.0456,  ..., -0.0917, -0.0038, -0.0215],
+        [-0.0414,  0.0262, -0.1243,  ...,  0.0500,  0.0585, -0.1197],
+        [ 0.0548,  0.0012, -0.0511,  ..., -0.0470, -0.0299,  0.0174],
+        ...,
+        [ 0.0485, -0.0460,  0.0019,  ...,  0.0228, -0.0327,  0.0282],
+        [-0.0336, -0.0314, -0.0640,  ..., -0.0140, -0.0252, -0.0596],
+        [-0.1108, -0.1727,  0.0348,  ..., -0.0524,  0.0231,  0.0364]],
+       device='cuda:0'), grad: tensor([[-6.2678e-07,  1.8626e-09,  2.8498e-07,  ...,  2.3283e-08,
+          1.2573e-07,  0.0000e+00],
+        [ 6.0070e-07, -8.2888e-07,  1.0720e-06,  ...,  8.8476e-08,
+         -6.0052e-06,  0.0000e+00],
+        [ 6.2361e-06,  5.9884e-07,  5.0385e-07,  ...,  3.3528e-08,
+          4.2655e-06,  0.0000e+00],
+        ...,
+        [ 1.3024e-05,  5.5879e-08, -4.5568e-05,  ..., -1.4752e-05,
+          4.6939e-06,  0.0000e+00],
+        [ 2.4572e-05,  1.3877e-07, -1.7630e-06,  ...,  2.9802e-08,
+          1.2793e-05,  0.0000e+00],
+        [ 1.3085e-06,  1.1176e-08,  3.5018e-06,  ...,  1.3504e-07,
+         -2.5518e-07,  0.0000e+00]], device='cuda:0')
+Epoch 144, bias, value: tensor([-0.0042,  0.0249,  0.0056,  0.0021,  0.0100, -0.0005,  0.0199, -0.0144,
+         0.0132, -0.0019], device='cuda:0'), grad: tensor([-4.2543e-06, -1.4521e-05,  3.1054e-05, -7.2896e-05,  2.6584e-04,
+         1.2696e-05, -7.4983e-05, -2.7537e-04,  1.1462e-04,  1.8358e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 143, time 217.66, cls_loss 0.0027 cls_loss_mapping 0.0044 cls_loss_causal 0.5373 re_mapping 0.0075 re_causal 0.0226 /// teacc 98.84 lr 0.00010000
+Epoch 145, weight, value: tensor([[-0.0444, -0.0713, -0.0461,  ..., -0.0917, -0.0041, -0.0215],
+        [-0.0419,  0.0264, -0.1247,  ...,  0.0500,  0.0575, -0.1198],
+        [ 0.0551,  0.0011, -0.0513,  ..., -0.0470, -0.0301,  0.0174],
+        ...,
+        [ 0.0489, -0.0460,  0.0010,  ...,  0.0229, -0.0309,  0.0276],
+        [-0.0344, -0.0313, -0.0642,  ..., -0.0140, -0.0254, -0.0596],
+        [-0.1114, -0.1728,  0.0348,  ..., -0.0524,  0.0231,  0.0364]],
+       device='cuda:0'), grad: tensor([[-4.3306e-07,  2.2352e-08,  1.2293e-07,  ...,  0.0000e+00,
+          1.9372e-07,  0.0000e+00],
+        [ 2.6915e-07, -2.9523e-06,  3.0082e-07,  ...,  0.0000e+00,
+         -5.8301e-06,  0.0000e+00],
+        [ 3.0547e-06,  2.6356e-07,  1.5274e-07,  ...,  0.0000e+00,
+          2.2277e-06,  0.0000e+00],
+        ...,
+        [-1.4156e-05,  8.3819e-08,  7.1712e-08,  ...,  0.0000e+00,
+         -3.4869e-06,  0.0000e+00],
+        [ 2.6524e-06,  2.1607e-06,  1.0151e-07,  ...,  0.0000e+00,
+          5.1558e-06,  9.3132e-10],
+        [ 7.3574e-06,  1.8626e-08,  2.2724e-06,  ...,  0.0000e+00,
+          9.8627e-07,  9.3132e-10]], device='cuda:0')
+Epoch 145, bias, value: tensor([-4.0226e-03,  2.4210e-02,  5.7599e-03,  1.7476e-03,  1.0116e-02,
+         1.7832e-05,  1.9924e-02, -1.3649e-02,  1.2958e-02, -2.1085e-03],
+       device='cuda:0'), grad: tensor([-3.8035e-06, -1.1526e-05,  1.4603e-05,  5.5581e-06, -5.6103e-06,
+        -2.2613e-06, -2.2873e-06, -4.0263e-05,  1.9819e-05,  2.5690e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 144, time 217.57, cls_loss 0.0024 cls_loss_mapping 0.0042 cls_loss_causal 0.5331 re_mapping 0.0073 re_causal 0.0216 /// teacc 98.89 lr 0.00010000
+Epoch 146, weight, value: tensor([[-0.0445, -0.0720, -0.0463,  ..., -0.0917, -0.0044, -0.0215],
+        [-0.0419,  0.0265, -0.1249,  ...,  0.0500,  0.0578, -0.1200],
+        [ 0.0554,  0.0008, -0.0515,  ..., -0.0470, -0.0303,  0.0174],
+        ...,
+        [ 0.0488, -0.0460,  0.0014,  ...,  0.0229, -0.0311,  0.0273],
+        [-0.0350, -0.0306, -0.0640,  ..., -0.0140, -0.0262, -0.0597],
+        [-0.1121, -0.1734,  0.0342,  ..., -0.0524,  0.0235,  0.0364]],
+       device='cuda:0'), grad: tensor([[ 2.8126e-07,  0.0000e+00,  1.6671e-07,  ...,  0.0000e+00,
+          1.1176e-07,  0.0000e+00],
+        [ 9.6112e-07,  0.0000e+00,  7.8324e-07,  ...,  0.0000e+00,
+         -5.8673e-08,  0.0000e+00],
+        [-2.6673e-06,  0.0000e+00,  1.0710e-07,  ...,  0.0000e+00,
+          2.9430e-07,  0.0000e+00],
+        ...,
+        [ 9.1866e-06,  0.0000e+00,  1.7554e-05,  ...,  0.0000e+00,
+          4.7535e-06,  0.0000e+00],
+        [ 2.7195e-06,  0.0000e+00,  4.5449e-07,  ...,  0.0000e+00,
+          8.2236e-07,  0.0000e+00],
+        [ 1.2228e-06,  0.0000e+00,  4.8369e-05,  ...,  0.0000e+00,
+          7.8231e-06,  0.0000e+00]], device='cuda:0')
+Epoch 146, bias, value: tensor([-3.6336e-03,  2.4358e-02,  5.8552e-03,  1.8479e-03,  1.0120e-02,
+         1.4250e-05,  2.0323e-02, -1.3637e-02,  1.2483e-02, -2.4146e-03],
+       device='cuda:0'), grad: tensor([-2.7902e-06,  3.3528e-06, -4.1872e-06,  3.2540e-06, -1.9431e-04,
+        -1.9789e-05, -1.9651e-06,  6.4611e-05,  8.3670e-06,  1.4329e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 145, time 217.47, cls_loss 0.0028 cls_loss_mapping 0.0051 cls_loss_causal 0.5687 re_mapping 0.0077 re_causal 0.0228 /// teacc 98.85 lr 0.00010000
+Epoch 147, weight, value: tensor([[-0.0445, -0.0724, -0.0466,  ..., -0.0919, -0.0047, -0.0215],
+        [-0.0420,  0.0266, -0.1255,  ...,  0.0500,  0.0585, -0.1201],
+        [ 0.0554,  0.0007, -0.0519,  ..., -0.0470, -0.0305,  0.0174],
+        ...,
+        [ 0.0490, -0.0461,  0.0010,  ...,  0.0228, -0.0315,  0.0276],
+        [-0.0355, -0.0295, -0.0640,  ..., -0.0141, -0.0263, -0.0598],
+        [-0.1123, -0.1737,  0.0340,  ..., -0.0524,  0.0241,  0.0364]],
+       device='cuda:0'), grad: tensor([[ 6.8918e-08,  0.0000e+00,  5.7649e-07,  ...,  0.0000e+00,
+          7.3947e-07,  2.0489e-07],
+        [ 1.0477e-06, -2.8871e-08,  5.6811e-08,  ...,  0.0000e+00,
+          1.5367e-06,  4.5728e-07],
+        [-3.5316e-06,  1.3970e-08,  3.2503e-07,  ...,  0.0000e+00,
+         -2.1290e-06,  3.4459e-08],
+        ...,
+        [-7.1339e-07,  5.5879e-09,  4.7497e-08,  ...,  0.0000e+00,
+         -9.7826e-06, -3.1497e-06],
+        [ 2.7083e-06,  3.7253e-09,  1.8626e-09,  ...,  0.0000e+00,
+          2.0787e-06,  3.5390e-08],
+        [ 2.0675e-07,  0.0000e+00,  1.0738e-06,  ...,  0.0000e+00,
+          6.0797e-06,  2.2184e-06]], device='cuda:0')
+Epoch 147, bias, value: tensor([-0.0035,  0.0246,  0.0056,  0.0007,  0.0101,  0.0006,  0.0204, -0.0136,
+         0.0126, -0.0024], device='cuda:0'), grad: tensor([ 4.9248e-06,  9.6038e-06, -8.0019e-06,  7.2643e-07, -3.5390e-08,
+         7.0706e-06, -4.2841e-06, -5.3465e-05,  8.5384e-06,  3.4958e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 146, time 217.52, cls_loss 0.0028 cls_loss_mapping 0.0055 cls_loss_causal 0.5228 re_mapping 0.0077 re_causal 0.0230 /// teacc 98.90 lr 0.00010000
+Epoch 148, weight, value: tensor([[-0.0446, -0.0726, -0.0467,  ..., -0.0919, -0.0049, -0.0215],
+        [-0.0424,  0.0266, -0.1268,  ...,  0.0500,  0.0589, -0.1203],
+        [ 0.0559,  0.0009, -0.0518,  ..., -0.0470, -0.0298,  0.0173],
+        ...,
+        [ 0.0491, -0.0462,  0.0009,  ...,  0.0228, -0.0323,  0.0277],
+        [-0.0360, -0.0287, -0.0648,  ..., -0.0141, -0.0271, -0.0599],
+        [-0.1123, -0.1738,  0.0340,  ..., -0.0524,  0.0246,  0.0364]],
+       device='cuda:0'), grad: tensor([[ 6.2399e-08,  0.0000e+00, -9.7096e-05,  ...,  0.0000e+00,
+          1.6484e-07,  3.7253e-09],
+        [-7.2271e-07,  0.0000e+00,  1.0459e-06,  ...,  0.0000e+00,
+         -1.3262e-06,  9.3132e-10],
+        [ 1.0934e-06,  0.0000e+00,  5.0180e-06,  ...,  0.0000e+00,
+          1.6801e-06,  9.3132e-10],
+        ...,
+        [-1.6009e-06,  0.0000e+00,  3.1572e-07,  ...,  0.0000e+00,
+         -9.3132e-08,  0.0000e+00],
+        [ 1.2759e-07,  0.0000e+00, -4.2439e-05,  ...,  0.0000e+00,
+         -2.7016e-05,  2.7940e-09],
+        [ 7.0874e-07,  0.0000e+00,  8.7798e-05,  ...,  0.0000e+00,
+          2.2233e-05,  0.0000e+00]], device='cuda:0')
+Epoch 148, bias, value: tensor([-0.0034,  0.0245,  0.0062,  0.0007,  0.0101,  0.0008,  0.0203, -0.0139,
+         0.0123, -0.0022], device='cuda:0'), grad: tensor([-5.8651e-04, -1.1176e-08,  3.8773e-05,  1.9059e-05,  5.6326e-06,
+         3.4153e-05,  2.1720e-04, -1.6810e-06, -2.0349e-04,  4.7636e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 147----------------------------------------------------
+epoch 147, time 218.16, cls_loss 0.0030 cls_loss_mapping 0.0047 cls_loss_causal 0.5137 re_mapping 0.0077 re_causal 0.0221 /// teacc 98.94 lr 0.00010000
+Epoch 149, weight, value: tensor([[-0.0451, -0.0729, -0.0466,  ..., -0.0920, -0.0053, -0.0216],
+        [-0.0416,  0.0270, -0.1280,  ...,  0.0502,  0.0595, -0.1204],
+        [ 0.0555,  0.0004, -0.0523,  ..., -0.0478, -0.0306,  0.0174],
+        ...,
+        [ 0.0492, -0.0463,  0.0007,  ...,  0.0228, -0.0320,  0.0277],
+        [-0.0368, -0.0287, -0.0642,  ..., -0.0141, -0.0265, -0.0599],
+        [-0.1132, -0.1739,  0.0333,  ..., -0.0525,  0.0244,  0.0364]],
+       device='cuda:0'), grad: tensor([[ 4.1444e-08,  0.0000e+00,  1.2247e-07,  ...,  0.0000e+00,
+          4.8950e-06,  2.1607e-07],
+        [-6.0573e-06,  0.0000e+00,  1.4761e-07,  ...,  0.0000e+00,
+         -7.9051e-06,  1.8626e-09],
+        [ 1.8906e-07,  0.0000e+00,  3.5390e-08,  ...,  0.0000e+00,
+          2.4866e-07,  0.0000e+00],
+        ...,
+        [ 5.6587e-06,  0.0000e+00,  2.9802e-07,  ...,  0.0000e+00,
+          7.3090e-06,  4.6566e-10],
+        [ 2.9337e-07,  0.0000e+00,  5.3644e-07,  ...,  0.0000e+00,
+          1.0747e-06,  3.2596e-08],
+        [ 1.3970e-07,  0.0000e+00,  1.0170e-06,  ...,  0.0000e+00,
+         -2.0061e-06,  4.6566e-10]], device='cuda:0')
+Epoch 149, bias, value: tensor([-0.0035,  0.0253,  0.0051, -0.0010,  0.0101,  0.0020,  0.0202, -0.0137,
+         0.0128, -0.0027], device='cuda:0'), grad: tensor([ 2.5809e-05, -2.0534e-05,  8.4052e-07,  1.2070e-06,  2.6580e-06,
+         3.0659e-06, -3.2723e-05,  2.0325e-05,  5.8934e-06, -6.6124e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 148, time 217.82, cls_loss 0.0030 cls_loss_mapping 0.0062 cls_loss_causal 0.5130 re_mapping 0.0080 re_causal 0.0223 /// teacc 98.84 lr 0.00010000
+Epoch 150, weight, value: tensor([[-0.0456, -0.0736, -0.0468,  ..., -0.0921, -0.0058, -0.0216],
+        [-0.0415,  0.0272, -0.1290,  ...,  0.0505,  0.0600, -0.1207],
+        [ 0.0559,  0.0014, -0.0526,  ..., -0.0492, -0.0309,  0.0180],
+        ...,
+        [ 0.0490, -0.0470,  0.0006,  ...,  0.0228, -0.0323,  0.0276],
+        [-0.0379, -0.0287, -0.0651,  ..., -0.0141, -0.0267, -0.0600],
+        [-0.1134, -0.1741,  0.0333,  ..., -0.0525,  0.0251,  0.0365]],
+       device='cuda:0'), grad: tensor([[ 9.3598e-08,  0.0000e+00,  2.8405e-08,  ...,  0.0000e+00,
+          1.2387e-07,  4.6566e-10],
+        [ 1.7229e-08,  0.0000e+00,  6.5658e-08,  ...,  0.0000e+00,
+         -2.5313e-06,  4.6566e-10],
+        [ 1.1213e-05,  0.0000e+00,  1.3392e-06,  ...,  0.0000e+00,
+          2.0443e-07, -2.3283e-09],
+        ...,
+        [-1.2457e-05,  0.0000e+00, -1.4557e-06,  ...,  0.0000e+00,
+          1.4324e-06,  4.6566e-10],
+        [ 7.2131e-07,  0.0000e+00,  1.0477e-07,  ...,  0.0000e+00,
+          2.4401e-07,  9.3132e-10],
+        [ 2.0862e-07,  0.0000e+00,  3.4040e-07,  ...,  0.0000e+00,
+          8.8476e-08,  0.0000e+00]], device='cuda:0')
+Epoch 150, bias, value: tensor([-0.0036,  0.0254,  0.0049, -0.0022,  0.0102,  0.0039,  0.0198, -0.0137,
+         0.0123, -0.0026], device='cuda:0'), grad: tensor([ 5.7230e-07, -7.2159e-06,  1.9610e-05, -1.2107e-07,  7.1526e-07,
+         9.0711e-07, -3.8138e-07, -1.6734e-05,  1.9874e-06,  6.5379e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 149, time 217.74, cls_loss 0.0027 cls_loss_mapping 0.0036 cls_loss_causal 0.5477 re_mapping 0.0077 re_causal 0.0229 /// teacc 98.92 lr 0.00010000
+Epoch 151, weight, value: tensor([[-0.0455, -0.0740, -0.0453,  ..., -0.0921, -0.0061, -0.0216],
+        [-0.0412,  0.0272, -0.1294,  ...,  0.0505,  0.0605, -0.1209],
+        [ 0.0557,  0.0012, -0.0527,  ..., -0.0492, -0.0311,  0.0180],
+        ...,
+        [ 0.0488, -0.0470,  0.0019,  ...,  0.0228, -0.0343,  0.0275],
+        [-0.0375, -0.0283, -0.0651,  ..., -0.0141, -0.0265, -0.0600],
+        [-0.1138, -0.1742,  0.0332,  ..., -0.0525,  0.0268,  0.0365]],
+       device='cuda:0'), grad: tensor([[ 1.5320e-07,  0.0000e+00, -1.2154e-07,  ...,  0.0000e+00,
+          8.1956e-08,  0.0000e+00],
+        [ 6.7987e-08,  0.0000e+00,  1.1390e-06,  ...,  0.0000e+00,
+          8.0233e-07,  0.0000e+00],
+        [-1.0170e-06,  0.0000e+00, -4.3772e-08,  ...,  0.0000e+00,
+          1.0058e-07, -9.3132e-10],
+        ...,
+        [ 4.6147e-07,  0.0000e+00,  3.6974e-07,  ...,  0.0000e+00,
+          4.5588e-07,  0.0000e+00],
+        [ 1.5134e-07,  0.0000e+00,  5.9884e-07,  ...,  0.0000e+00,
+          5.1549e-07,  0.0000e+00],
+        [ 3.4226e-07,  0.0000e+00, -3.8072e-06,  ...,  0.0000e+00,
+         -5.7556e-06,  0.0000e+00]], device='cuda:0')
+Epoch 151, bias, value: tensor([-0.0030,  0.0257,  0.0046, -0.0019,  0.0100,  0.0037,  0.0193, -0.0145,
+         0.0127, -0.0022], device='cuda:0'), grad: tensor([-5.2117e-06,  9.8422e-06, -8.2934e-07,  2.6803e-06,  2.2963e-05,
+         4.6901e-06,  6.5845e-07,  3.6135e-06,  2.5406e-06, -4.0919e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 150, time 217.61, cls_loss 0.0034 cls_loss_mapping 0.0058 cls_loss_causal 0.5523 re_mapping 0.0072 re_causal 0.0217 /// teacc 98.87 lr 0.00010000
+Epoch 152, weight, value: tensor([[-0.0445, -0.0740, -0.0457,  ..., -0.0921, -0.0081, -0.0241],
+        [-0.0425,  0.0272, -0.1311,  ...,  0.0505,  0.0605, -0.1214],
+        [ 0.0560,  0.0012, -0.0515,  ..., -0.0492, -0.0312,  0.0180],
+        ...,
+        [ 0.0498, -0.0470,  0.0016,  ...,  0.0228, -0.0335,  0.0272],
+        [-0.0373, -0.0284, -0.0660,  ..., -0.0141, -0.0267, -0.0603],
+        [-0.1154, -0.1743,  0.0332,  ..., -0.0525,  0.0274,  0.0390]],
+       device='cuda:0'), grad: tensor([[ 5.5321e-07,  0.0000e+00,  1.2293e-07,  ...,  0.0000e+00,
+          8.2888e-08,  1.8626e-09],
+        [ 1.1642e-06,  0.0000e+00,  1.1735e-07,  ...,  0.0000e+00,
+         -6.0163e-07,  1.8626e-09],
+        [ 1.7092e-05,  0.0000e+00,  4.2506e-06,  ...,  0.0000e+00,
+          1.6298e-07, -8.3819e-09],
+        ...,
+        [ 5.6289e-06,  0.0000e+00,  1.4324e-06,  ...,  0.0000e+00,
+          1.8068e-07,  9.3132e-10],
+        [ 4.2468e-06,  0.0000e+00,  6.9663e-06,  ...,  0.0000e+00,
+          2.7977e-06,  0.0000e+00],
+        [ 1.0999e-06,  0.0000e+00,  8.0373e-07,  ...,  0.0000e+00,
+         -3.2037e-07,  0.0000e+00]], device='cuda:0')
+Epoch 152, bias, value: tensor([-0.0042,  0.0249,  0.0047, -0.0017,  0.0101,  0.0030,  0.0206, -0.0134,
+         0.0126, -0.0022], device='cuda:0'), grad: tensor([-5.5023e-06,  2.7940e-09,  1.6540e-05, -2.8536e-05, -6.6217e-07,
+        -3.9376e-06, -3.1441e-05,  3.6415e-06,  4.4644e-05,  5.1484e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 151, time 217.86, cls_loss 0.0033 cls_loss_mapping 0.0058 cls_loss_causal 0.5633 re_mapping 0.0074 re_causal 0.0217 /// teacc 98.83 lr 0.00010000
+Epoch 153, weight, value: tensor([[-0.0442, -0.0743, -0.0464,  ..., -0.0921, -0.0063, -0.0247],
+        [-0.0426,  0.0273, -0.1324,  ...,  0.0505,  0.0607, -0.1218],
+        [ 0.0571,  0.0012, -0.0523,  ..., -0.0493, -0.0312,  0.0172],
+        ...,
+        [ 0.0493, -0.0470,  0.0018,  ...,  0.0228, -0.0339,  0.0266],
+        [-0.0379, -0.0284, -0.0657,  ..., -0.0142, -0.0270, -0.0605],
+        [-0.1168, -0.1744,  0.0330,  ..., -0.0525,  0.0267,  0.0395]],
+       device='cuda:0'), grad: tensor([[-8.3819e-09,  0.0000e+00,  4.0047e-08,  ...,  0.0000e+00,
+          8.4750e-08,  2.1420e-08],
+        [ 2.3209e-06,  0.0000e+00,  1.2601e-06,  ...,  1.8626e-09,
+         -1.3690e-07,  2.1420e-08],
+        [-1.2904e-05,  0.0000e+00,  3.6322e-07,  ...,  1.8626e-09,
+          1.9278e-07, -2.5146e-08],
+        ...,
+        [-4.9453e-07,  0.0000e+00,  7.5437e-07,  ...,  1.8626e-09,
+          7.5996e-07,  1.8813e-07],
+        [-4.2841e-08,  0.0000e+00,  6.7875e-06,  ...,  1.8626e-09,
+          1.3355e-06,  1.1083e-07],
+        [ 3.1386e-07,  0.0000e+00, -4.7591e-07,  ...,  9.3132e-10,
+         -4.3288e-06, -7.0035e-07]], device='cuda:0')
+Epoch 153, bias, value: tensor([-0.0027,  0.0247,  0.0057, -0.0012,  0.0097,  0.0036,  0.0201, -0.0138,
+         0.0126, -0.0031], device='cuda:0'), grad: tensor([-2.0005e-06,  9.4622e-06, -1.2368e-05,  1.4052e-05, -5.3942e-06,
+        -1.1943e-05,  3.2075e-06,  4.1127e-06,  2.1353e-05, -2.0593e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 152, time 218.05, cls_loss 0.0026 cls_loss_mapping 0.0047 cls_loss_causal 0.5490 re_mapping 0.0073 re_causal 0.0216 /// teacc 98.87 lr 0.00010000
+Epoch 154, weight, value: tensor([[-0.0443, -0.0746, -0.0463,  ..., -0.0921, -0.0066, -0.0247],
+        [-0.0428,  0.0278, -0.1330,  ...,  0.0505,  0.0608, -0.1222],
+        [ 0.0596,  0.0007, -0.0517,  ..., -0.0493, -0.0312,  0.0171],
+        ...,
+        [ 0.0474, -0.0472,  0.0017,  ...,  0.0229, -0.0339,  0.0264],
+        [-0.0384, -0.0285, -0.0663,  ..., -0.0142, -0.0270, -0.0610],
+        [-0.1173, -0.1745,  0.0331,  ..., -0.0526,  0.0269,  0.0395]],
+       device='cuda:0'), grad: tensor([[ 3.0547e-07,  0.0000e+00,  1.3504e-07,  ...,  9.3132e-10,
+          5.8450e-06,  1.5926e-06],
+        [-4.0978e-08,  0.0000e+00,  4.6566e-09,  ...,  5.5879e-09,
+         -1.5795e-06,  2.6077e-08],
+        [-7.4506e-09,  0.0000e+00,  5.5879e-09,  ...,  2.7940e-09,
+          9.6764e-07,  5.3085e-08],
+        ...,
+        [-2.9802e-07,  0.0000e+00,  0.0000e+00,  ..., -1.3039e-08,
+          3.2224e-07,  1.8626e-09],
+        [ 4.6473e-07,  0.0000e+00,  5.5879e-09,  ...,  0.0000e+00,
+          3.2224e-07,  5.0291e-08],
+        [ 2.9523e-07,  0.0000e+00,  1.8626e-09,  ...,  1.8626e-09,
+          4.9360e-08,  1.3970e-08]], device='cuda:0')
+Epoch 154, bias, value: tensor([-0.0023,  0.0246,  0.0080, -0.0016,  0.0094,  0.0042,  0.0197, -0.0155,
+         0.0126, -0.0033], device='cuda:0'), grad: tensor([ 3.6716e-05, -3.2857e-06,  1.7313e-06, -2.9318e-06,  3.0212e-06,
+         4.8950e-06, -4.3869e-05, -9.3132e-08,  2.6077e-06,  1.1381e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 153, time 217.75, cls_loss 0.0029 cls_loss_mapping 0.0044 cls_loss_causal 0.5572 re_mapping 0.0070 re_causal 0.0218 /// teacc 98.85 lr 0.00010000
+Epoch 155, weight, value: tensor([[-0.0440, -0.0747, -0.0463,  ..., -0.0923, -0.0064, -0.0247],
+        [-0.0425,  0.0278, -0.1318,  ...,  0.0505,  0.0614, -0.1225],
+        [ 0.0598,  0.0006, -0.0519,  ..., -0.0494, -0.0320,  0.0171],
+        ...,
+        [ 0.0472, -0.0472,  0.0020,  ...,  0.0238, -0.0336,  0.0259],
+        [-0.0389, -0.0284, -0.0666,  ..., -0.0142, -0.0272, -0.0611],
+        [-0.1190, -0.1746,  0.0330,  ..., -0.0527,  0.0269,  0.0397]],
+       device='cuda:0'), grad: tensor([[ 8.6240e-07,  0.0000e+00,  3.3528e-08,  ...,  0.0000e+00,
+          9.9931e-07,  0.0000e+00],
+        [ 4.8988e-07,  1.8626e-09,  1.8440e-07,  ...,  0.0000e+00,
+         -1.5181e-07,  2.7940e-09],
+        [ 4.7684e-05, -3.7253e-09,  4.3772e-08,  ...,  0.0000e+00,
+          1.3970e-08,  9.3132e-10],
+        ...,
+        [-4.5076e-06,  1.8626e-09,  5.5321e-07,  ...,  0.0000e+00,
+          7.5437e-08,  8.3819e-09],
+        [-4.6343e-05,  0.0000e+00,  2.0768e-07,  ...,  0.0000e+00,
+          1.2200e-07,  0.0000e+00],
+        [ 2.4773e-07,  0.0000e+00, -1.4901e-07,  ...,  0.0000e+00,
+         -5.4482e-07,  2.7940e-09]], device='cuda:0')
+Epoch 155, bias, value: tensor([-0.0017,  0.0251,  0.0078, -0.0010,  0.0092,  0.0033,  0.0202, -0.0153,
+         0.0124, -0.0038], device='cuda:0'), grad: tensor([ 6.0201e-06,  1.1977e-06,  1.4019e-04,  4.9621e-06,  3.3155e-07,
+         8.0187e-07, -4.4703e-06, -3.9376e-06, -1.4472e-04, -4.8988e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 154, time 217.72, cls_loss 0.0034 cls_loss_mapping 0.0058 cls_loss_causal 0.5530 re_mapping 0.0069 re_causal 0.0213 /// teacc 98.91 lr 0.00010000
+Epoch 156, weight, value: tensor([[-0.0441, -0.0755, -0.0469,  ..., -0.0925, -0.0068, -0.0247],
+        [-0.0421,  0.0279, -0.1352,  ...,  0.0510,  0.0634, -0.1232],
+        [ 0.0586, -0.0022, -0.0530,  ..., -0.0507, -0.0325,  0.0169],
+        ...,
+        [ 0.0483, -0.0449,  0.0015,  ...,  0.0237, -0.0354,  0.0235],
+        [-0.0393, -0.0283, -0.0660,  ..., -0.0143, -0.0255, -0.0614],
+        [-0.1201, -0.1748,  0.0330,  ..., -0.0529,  0.0270,  0.0398]],
+       device='cuda:0'), grad: tensor([[ 6.5472e-07,  1.8626e-09,  3.2876e-07,  ...,  0.0000e+00,
+         -2.4699e-06,  9.3132e-10],
+        [ 1.1828e-07,  5.5879e-09,  9.9652e-08,  ...,  0.0000e+00,
+         -1.4529e-07,  0.0000e+00],
+        [-3.1412e-05,  3.9116e-08, -2.3603e-05,  ...,  0.0000e+00,
+          2.4866e-07, -2.7940e-09],
+        ...,
+        [ 1.5367e-07,  1.7695e-08,  1.7602e-07,  ...,  0.0000e+00,
+          2.9337e-07,  9.3132e-10],
+        [ 2.7269e-05, -1.5646e-07,  2.1785e-05,  ...,  0.0000e+00,
+          5.4725e-06,  9.3132e-10],
+        [ 4.0978e-07,  9.3132e-10, -8.5961e-07,  ...,  0.0000e+00,
+         -4.4852e-06,  0.0000e+00]], device='cuda:0')
+Epoch 156, bias, value: tensor([-0.0023,  0.0256,  0.0065, -0.0002,  0.0093,  0.0019,  0.0202, -0.0149,
+         0.0141, -0.0037], device='cuda:0'), grad: tensor([-1.4089e-05,  4.7125e-07, -9.9063e-05,  6.6571e-06,  5.4203e-06,
+         2.8536e-06, -9.4809e-07,  1.4780e-06,  1.1295e-04, -1.5602e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 155, time 217.80, cls_loss 0.0030 cls_loss_mapping 0.0058 cls_loss_causal 0.5448 re_mapping 0.0072 re_causal 0.0215 /// teacc 98.93 lr 0.00010000
+Epoch 157, weight, value: tensor([[-0.0442, -0.0758, -0.0471,  ..., -0.0928, -0.0067, -0.0247],
+        [-0.0446,  0.0279, -0.1359,  ...,  0.0509,  0.0622, -0.1236],
+        [ 0.0598, -0.0022, -0.0530,  ..., -0.0508, -0.0304,  0.0169],
+        ...,
+        [ 0.0487, -0.0449,  0.0009,  ...,  0.0237, -0.0353,  0.0232],
+        [-0.0398, -0.0279, -0.0662,  ..., -0.0144, -0.0263, -0.0615],
+        [-0.1212, -0.1750,  0.0325,  ..., -0.0528,  0.0269,  0.0398]],
+       device='cuda:0'), grad: tensor([[-8.3353e-07,  0.0000e+00, -2.5611e-07,  ...,  0.0000e+00,
+          2.4959e-07,  0.0000e+00],
+        [-2.0601e-06,  0.0000e+00,  1.2815e-06,  ...,  0.0000e+00,
+         -7.8827e-06,  0.0000e+00],
+        [ 2.9802e-06,  0.0000e+00,  1.8394e-06,  ...,  0.0000e+00,
+          4.3586e-06,  0.0000e+00],
+        ...,
+        [ 8.6613e-07,  0.0000e+00,  9.4064e-08,  ...,  0.0000e+00,
+          4.1686e-06,  0.0000e+00],
+        [-4.0233e-06,  0.0000e+00, -5.5581e-06,  ...,  0.0000e+00,
+         -3.3081e-06,  0.0000e+00],
+        [ 4.6287e-07,  0.0000e+00,  1.1818e-06,  ...,  0.0000e+00,
+          1.7416e-07,  0.0000e+00]], device='cuda:0')
+Epoch 157, bias, value: tensor([-0.0022,  0.0239,  0.0079, -0.0004,  0.0096,  0.0022,  0.0199, -0.0145,
+         0.0135, -0.0039], device='cuda:0'), grad: tensor([-8.4639e-06, -2.0847e-05,  3.1441e-05,  1.3344e-05,  1.7360e-06,
+         1.5423e-05,  2.3842e-06,  1.7628e-05, -6.0380e-05,  7.6443e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 156, time 217.43, cls_loss 0.0032 cls_loss_mapping 0.0045 cls_loss_causal 0.5750 re_mapping 0.0072 re_causal 0.0213 /// teacc 98.92 lr 0.00010000
+Epoch 158, weight, value: tensor([[-0.0445, -0.0761, -0.0478,  ..., -0.0931, -0.0068, -0.0247],
+        [-0.0424,  0.0283, -0.1368,  ...,  0.0509,  0.0646, -0.1236],
+        [ 0.0591, -0.0025, -0.0529,  ..., -0.0508, -0.0307,  0.0169],
+        ...,
+        [ 0.0478, -0.0450,  0.0009,  ...,  0.0237, -0.0373,  0.0232],
+        [-0.0399, -0.0279, -0.0667,  ..., -0.0145, -0.0266, -0.0615],
+        [-0.1223, -0.1751,  0.0321,  ..., -0.0528,  0.0263,  0.0398]],
+       device='cuda:0'), grad: tensor([[ 5.9605e-08,  8.3819e-09,  4.1444e-07,  ...,  0.0000e+00,
+          4.8429e-08,  0.0000e+00],
+        [-9.1735e-07, -1.6214e-06,  1.2435e-05,  ...,  0.0000e+00,
+         -2.4028e-07,  0.0000e+00],
+        [ 1.1344e-06,  1.1222e-06,  2.9057e-07,  ...,  0.0000e+00,
+          9.4995e-08,  0.0000e+00],
+        ...,
+        [-9.2294e-07,  4.2841e-08,  8.0187e-07,  ...,  0.0000e+00,
+          1.9837e-07,  0.0000e+00],
+        [-4.9360e-08,  7.9162e-08, -1.8626e-08,  ...,  0.0000e+00,
+         -8.0280e-07,  0.0000e+00],
+        [ 3.3807e-07,  1.8626e-09,  2.1353e-05,  ...,  0.0000e+00,
+          5.6997e-07,  0.0000e+00]], device='cuda:0')
+Epoch 158, bias, value: tensor([-0.0020,  0.0261,  0.0071, -0.0005,  0.0094,  0.0025,  0.0201, -0.0156,
+         0.0134, -0.0044], device='cuda:0'), grad: tensor([-8.5160e-06,  2.6196e-05,  7.8380e-06,  6.6683e-07, -1.3053e-04,
+         6.0834e-06,  3.9905e-05,  1.7984e-06, -4.0755e-06,  6.0737e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 157----------------------------------------------------
+epoch 157, time 218.21, cls_loss 0.0034 cls_loss_mapping 0.0053 cls_loss_causal 0.5586 re_mapping 0.0067 re_causal 0.0209 /// teacc 98.96 lr 0.00010000
+Epoch 159, weight, value: tensor([[-0.0452, -0.0764, -0.0487,  ..., -0.0932, -0.0071, -0.0247],
+        [-0.0435,  0.0286, -0.1380,  ...,  0.0509,  0.0646, -0.1237],
+        [ 0.0579, -0.0022, -0.0525,  ..., -0.0509, -0.0309,  0.0169],
+        ...,
+        [ 0.0498, -0.0454,  0.0009,  ...,  0.0237, -0.0373,  0.0232],
+        [-0.0412, -0.0280, -0.0670,  ..., -0.0145, -0.0266, -0.0615],
+        [-0.1213, -0.1752,  0.0311,  ..., -0.0528,  0.0275,  0.0398]],
+       device='cuda:0'), grad: tensor([[ 1.1735e-07,  0.0000e+00,  8.8476e-08,  ...,  0.0000e+00,
+          2.1327e-07,  0.0000e+00],
+        [ 3.7253e-08,  0.0000e+00,  1.9185e-07,  ...,  0.0000e+00,
+         -2.2098e-05,  0.0000e+00],
+        [-7.9162e-08,  0.0000e+00,  3.6322e-08,  ...,  0.0000e+00,
+          1.7295e-06,  0.0000e+00],
+        ...,
+        [-5.5879e-08,  0.0000e+00,  4.5169e-07,  ...,  0.0000e+00,
+          1.1539e-06,  0.0000e+00],
+        [ 3.6508e-06,  0.0000e+00,  1.2517e-05,  ...,  0.0000e+00,
+          1.9237e-05,  0.0000e+00],
+        [ 2.6077e-08,  0.0000e+00, -2.4773e-07,  ...,  0.0000e+00,
+         -1.0366e-06,  0.0000e+00]], device='cuda:0')
+Epoch 159, bias, value: tensor([-0.0024,  0.0252,  0.0058, -0.0021,  0.0101,  0.0026,  0.0212, -0.0139,
+         0.0133, -0.0044], device='cuda:0'), grad: tensor([ 6.1747e-07, -6.8307e-05,  4.9807e-06,  7.4580e-06,  1.5581e-06,
+        -4.1008e-05,  2.7660e-07,  8.9258e-06,  9.3997e-05, -8.7172e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 158----------------------------------------------------
+epoch 158, time 218.38, cls_loss 0.0036 cls_loss_mapping 0.0043 cls_loss_causal 0.5536 re_mapping 0.0071 re_causal 0.0211 /// teacc 98.97 lr 0.00010000
+Epoch 160, weight, value: tensor([[-0.0455, -0.0767, -0.0508,  ..., -0.0932, -0.0089, -0.0255],
+        [-0.0436,  0.0289, -0.1382,  ...,  0.0509,  0.0648, -0.1238],
+        [ 0.0579, -0.0023, -0.0526,  ..., -0.0509, -0.0311,  0.0169],
+        ...,
+        [ 0.0478, -0.0455,  0.0009,  ...,  0.0237, -0.0372,  0.0231],
+        [-0.0415, -0.0277, -0.0684,  ..., -0.0145, -0.0270, -0.0615],
+        [-0.1229, -0.1755,  0.0311,  ..., -0.0528,  0.0283,  0.0406]],
+       device='cuda:0'), grad: tensor([[ 5.8077e-06,  0.0000e+00,  2.2762e-06,  ...,  0.0000e+00,
+          8.5216e-07,  0.0000e+00],
+        [ 2.7582e-05,  0.0000e+00,  9.1456e-07,  ...,  0.0000e+00,
+          6.4448e-07,  0.0000e+00],
+        [-9.2015e-06,  0.0000e+00,  3.0734e-08,  ...,  0.0000e+00,
+         -2.0396e-07,  0.0000e+00],
+        ...,
+        [-5.7548e-05,  0.0000e+00,  3.1292e-06,  ...,  0.0000e+00,
+          1.1148e-06,  0.0000e+00],
+        [ 6.4597e-06,  0.0000e+00,  2.8014e-06,  ...,  0.0000e+00,
+          3.8520e-06,  0.0000e+00],
+        [ 2.0847e-05,  0.0000e+00,  2.8461e-06,  ...,  0.0000e+00,
+         -1.0237e-05,  0.0000e+00]], device='cuda:0')
+Epoch 160, bias, value: tensor([-0.0036,  0.0253,  0.0057, -0.0008,  0.0101,  0.0041,  0.0214, -0.0156,
+         0.0128, -0.0043], device='cuda:0'), grad: tensor([-1.9324e-04,  5.5164e-05,  2.5973e-05,  8.0407e-05,  2.9713e-05,
+         3.0939e-06,  4.7356e-05, -1.2052e-04,  5.6177e-05,  1.5780e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 159, time 217.57, cls_loss 0.0030 cls_loss_mapping 0.0042 cls_loss_causal 0.5736 re_mapping 0.0069 re_causal 0.0218 /// teacc 98.88 lr 0.00010000
+Epoch 161, weight, value: tensor([[-4.5857e-02, -7.6750e-02, -5.1790e-02,  ..., -9.3160e-02,
+         -9.3876e-03, -2.5657e-02],
+        [-4.3888e-02,  2.8944e-02, -1.4007e-01,  ...,  5.0875e-02,
+          6.4678e-02, -1.2382e-01],
+        [ 5.7464e-02, -2.3744e-03, -5.2539e-02,  ..., -5.0855e-02,
+         -3.1399e-02,  1.6877e-02],
+        ...,
+        [ 4.8401e-02, -4.5495e-02,  1.2720e-04,  ...,  2.3744e-02,
+         -3.6993e-02,  2.3039e-02],
+        [-4.1970e-02, -2.7749e-02, -7.1137e-02,  ..., -1.4514e-02,
+         -2.7987e-02, -6.1501e-02],
+        [-1.2395e-01, -1.7548e-01,  3.0484e-02,  ..., -5.2835e-02,
+          2.8416e-02,  4.0770e-02]], device='cuda:0'), grad: tensor([[ 1.0151e-06,  7.4506e-09,  9.3132e-08,  ...,  0.0000e+00,
+          2.9393e-06,  0.0000e+00],
+        [-4.5672e-06, -5.4762e-06,  3.1833e-06,  ...,  0.0000e+00,
+         -2.2188e-05,  0.0000e+00],
+        [ 2.8685e-06,  4.0717e-06,  1.9930e-07,  ...,  0.0000e+00,
+          7.0706e-06,  0.0000e+00],
+        ...,
+        [ 4.5337e-06,  1.1846e-06,  2.2110e-06,  ...,  0.0000e+00,
+          1.1772e-05,  0.0000e+00],
+        [ 8.3074e-06,  8.3819e-09,  8.1770e-07,  ...,  0.0000e+00,
+          6.1467e-07,  0.0000e+00],
+        [-1.1269e-06,  2.7940e-09,  4.8503e-06,  ...,  0.0000e+00,
+         -1.8068e-06,  0.0000e+00]], device='cuda:0')
+Epoch 161, bias, value: tensor([-0.0040,  0.0249,  0.0052, -0.0010,  0.0104,  0.0048,  0.0224, -0.0150,
+         0.0115, -0.0046], device='cuda:0'), grad: tensor([ 2.6301e-06, -4.5180e-05,  2.3752e-05, -2.2769e-05, -3.8683e-05,
+         3.5968e-06,  1.8431e-06,  4.0680e-05,  2.0668e-05,  1.3426e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 160----------------------------------------------------
+epoch 160, time 218.11, cls_loss 0.0026 cls_loss_mapping 0.0038 cls_loss_causal 0.5599 re_mapping 0.0070 re_causal 0.0206 /// teacc 98.99 lr 0.00010000
+Epoch 162, weight, value: tensor([[-4.5117e-02, -7.6832e-02, -5.1337e-02,  ..., -9.3163e-02,
+         -9.3608e-03, -2.5657e-02],
+        [-4.4441e-02,  2.8980e-02, -1.4044e-01,  ...,  5.0872e-02,
+          6.4983e-02, -1.2392e-01],
+        [ 5.7667e-02, -2.3949e-03, -5.3077e-02,  ..., -5.0859e-02,
+         -3.1665e-02,  1.6904e-02],
+        ...,
+        [ 4.8568e-02, -4.5502e-02,  1.5208e-04,  ...,  2.3794e-02,
+         -3.7037e-02,  2.3019e-02],
+        [-4.2857e-02, -2.7810e-02, -7.1684e-02,  ..., -1.4516e-02,
+         -2.8775e-02, -6.1504e-02],
+        [-1.2449e-01, -1.7553e-01,  3.0229e-02,  ..., -5.2838e-02,
+          2.8715e-02,  4.0770e-02]], device='cuda:0'), grad: tensor([[ 1.3709e-06,  0.0000e+00,  7.4506e-09,  ...,  0.0000e+00,
+          6.4168e-07,  0.0000e+00],
+        [ 5.2974e-06,  0.0000e+00,  2.9802e-08,  ...,  0.0000e+00,
+          5.8766e-07,  0.0000e+00],
+        [ 6.5845e-07,  0.0000e+00,  1.3039e-08,  ...,  0.0000e+00,
+          9.8813e-07,  0.0000e+00],
+        ...,
+        [-2.5891e-07,  0.0000e+00,  2.6077e-08,  ...,  0.0000e+00,
+          1.1558e-06,  0.0000e+00],
+        [ 3.4049e-06,  0.0000e+00,  2.4214e-08,  ...,  0.0000e+00,
+         -4.3493e-07,  0.0000e+00],
+        [ 9.9838e-06,  0.0000e+00,  2.9802e-08,  ...,  0.0000e+00,
+          3.1516e-06,  0.0000e+00]], device='cuda:0')
+Epoch 162, bias, value: tensor([-0.0034,  0.0246,  0.0054, -0.0009,  0.0102,  0.0047,  0.0226, -0.0148,
+         0.0106, -0.0046], device='cuda:0'), grad: tensor([ 4.8019e-06,  1.5199e-05,  5.3905e-06, -7.6711e-05,  5.9754e-06,
+         1.5259e-05, -6.6385e-06,  1.4622e-07, -1.3849e-06,  3.7879e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 161, time 217.40, cls_loss 0.0030 cls_loss_mapping 0.0047 cls_loss_causal 0.5517 re_mapping 0.0069 re_causal 0.0209 /// teacc 98.89 lr 0.00010000
+Epoch 163, weight, value: tensor([[-4.5946e-02, -7.7002e-02, -5.2057e-02,  ..., -9.3185e-02,
+         -9.5410e-03, -2.5657e-02],
+        [-4.3536e-02,  2.9060e-02, -1.4104e-01,  ...,  5.0846e-02,
+          6.6817e-02, -1.2396e-01],
+        [ 5.7733e-02, -2.4102e-03, -5.4186e-02,  ..., -5.0873e-02,
+         -3.1812e-02,  1.6908e-02],
+        ...,
+        [ 4.8195e-02, -4.5548e-02,  1.2527e-04,  ...,  2.3880e-02,
+         -3.9076e-02,  2.3016e-02],
+        [-4.4463e-02, -2.7671e-02, -7.3438e-02,  ..., -1.4531e-02,
+         -2.8740e-02, -6.1509e-02],
+        [-1.2521e-01, -1.7565e-01,  3.0465e-02,  ..., -5.2845e-02,
+          2.8975e-02,  4.0770e-02]], device='cuda:0'), grad: tensor([[ 1.9837e-07,  0.0000e+00,  1.5832e-08,  ...,  0.0000e+00,
+          1.0896e-07,  0.0000e+00],
+        [ 5.7463e-07,  0.0000e+00,  1.0245e-08,  ...,  0.0000e+00,
+         -5.2303e-06,  0.0000e+00],
+        [-2.1923e-06,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          1.2573e-07,  0.0000e+00],
+        ...,
+        [ 7.8231e-08,  0.0000e+00,  6.5193e-09,  ...,  0.0000e+00,
+          4.8149e-07,  0.0000e+00],
+        [ 5.2713e-07,  4.6566e-09,  1.9185e-07,  ...,  0.0000e+00,
+          4.2878e-06,  0.0000e+00],
+        [ 6.7987e-08,  0.0000e+00,  1.2387e-07,  ...,  0.0000e+00,
+          1.3132e-07,  0.0000e+00]], device='cuda:0')
+Epoch 163, bias, value: tensor([-0.0037,  0.0260,  0.0052, -0.0010,  0.0106,  0.0054,  0.0222, -0.0158,
+         0.0100, -0.0045], device='cuda:0'), grad: tensor([ 2.0303e-07, -1.0371e-05, -2.8480e-06,  1.0291e-06,  9.9652e-08,
+         4.3027e-07, -3.8184e-07,  1.2992e-06,  1.0043e-05,  4.8894e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 162, time 217.49, cls_loss 0.0033 cls_loss_mapping 0.0041 cls_loss_causal 0.5250 re_mapping 0.0072 re_causal 0.0202 /// teacc 98.97 lr 0.00010000
+Epoch 164, weight, value: tensor([[-4.6336e-02, -7.7186e-02, -5.3196e-02,  ..., -9.3215e-02,
+         -1.2330e-02, -2.8327e-02],
+        [-4.4323e-02,  2.9254e-02, -1.4132e-01,  ...,  5.0783e-02,
+          6.7174e-02, -1.2457e-01],
+        [ 5.7638e-02, -2.2848e-03, -5.4184e-02,  ..., -5.0889e-02,
+         -3.2044e-02,  1.6707e-02],
+        ...,
+        [ 4.8958e-02, -4.5794e-02, -6.4190e-05,  ...,  2.3987e-02,
+         -3.9013e-02,  2.2711e-02],
+        [-4.6292e-02, -2.7411e-02, -7.3815e-02,  ..., -1.4554e-02,
+         -2.9622e-02, -6.1524e-02],
+        [-1.2614e-01, -1.7583e-01,  3.0799e-02,  ..., -5.2888e-02,
+          3.1135e-02,  4.3435e-02]], device='cuda:0'), grad: tensor([[ 2.2016e-06,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          1.4901e-08,  0.0000e+00],
+        [ 6.7592e-05,  5.5879e-09,  1.4901e-08,  ...,  0.0000e+00,
+         -4.9639e-07,  0.0000e+00],
+        [-2.7880e-05,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          1.5832e-08,  0.0000e+00],
+        ...,
+        [-5.8919e-05, -8.3819e-09,  2.7008e-08,  ...,  0.0000e+00,
+          1.5460e-07,  0.0000e+00],
+        [ 4.2021e-06,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          2.2911e-07,  0.0000e+00],
+        [ 1.5069e-06,  0.0000e+00,  2.4214e-08,  ...,  0.0000e+00,
+         -2.3935e-07,  0.0000e+00]], device='cuda:0')
+Epoch 164, bias, value: tensor([-0.0054,  0.0258,  0.0051, -0.0011,  0.0105,  0.0055,  0.0230, -0.0152,
+         0.0087, -0.0037], device='cuda:0'), grad: tensor([-4.3511e-06,  1.3995e-04, -4.7803e-05,  1.2711e-05,  2.4773e-06,
+         5.5246e-06,  5.1185e-06, -1.2827e-04,  8.6054e-06,  6.0871e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 163----------------------------------------------------
+epoch 163, time 218.26, cls_loss 0.0022 cls_loss_mapping 0.0037 cls_loss_causal 0.5264 re_mapping 0.0069 re_causal 0.0208 /// teacc 99.05 lr 0.00010000
+Epoch 165, weight, value: tensor([[-0.0463, -0.0772, -0.0532,  ..., -0.0934, -0.0123, -0.0283],
+        [-0.0447,  0.0293, -0.1418,  ...,  0.0502,  0.0672, -0.1246],
+        [ 0.0577, -0.0023, -0.0545,  ..., -0.0509, -0.0323,  0.0167],
+        ...,
+        [ 0.0492, -0.0458, -0.0002,  ...,  0.0250, -0.0388,  0.0227],
+        [-0.0464, -0.0274, -0.0735,  ..., -0.0146, -0.0297, -0.0615],
+        [-0.1270, -0.1759,  0.0305,  ..., -0.0544,  0.0312,  0.0434]],
+       device='cuda:0'), grad: tensor([[ 5.1502e-07,  0.0000e+00,  5.2620e-07,  ...,  8.3819e-09,
+          2.3376e-07,  0.0000e+00],
+        [-8.2999e-06,  0.0000e+00,  4.5635e-06,  ...,  4.0978e-08,
+         -1.5542e-05,  0.0000e+00],
+        [ 4.5151e-05,  0.0000e+00,  1.9968e-04,  ...,  1.3970e-08,
+          8.4657e-07, -2.7940e-09],
+        ...,
+        [ 6.4671e-06,  0.0000e+00,  3.3695e-06,  ...,  5.5879e-08,
+          1.2413e-05,  9.3132e-10],
+        [ 1.2284e-06,  0.0000e+00,  2.8443e-06,  ...,  2.7940e-09,
+          2.0675e-07,  0.0000e+00],
+        [ 1.8030e-06,  0.0000e+00,  7.8790e-07,  ...,  8.7544e-08,
+          1.3337e-06,  0.0000e+00]], device='cuda:0')
+Epoch 165, bias, value: tensor([-0.0048,  0.0256,  0.0050, -0.0013,  0.0105,  0.0055,  0.0232, -0.0149,
+         0.0089, -0.0041], device='cuda:0'), grad: tensor([-3.7365e-06, -4.0889e-05,  3.4976e-04, -2.4773e-06, -3.7122e-04,
+         1.1437e-06,  3.6266e-06,  4.4227e-05,  6.7800e-06,  1.3463e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 164, time 217.47, cls_loss 0.0029 cls_loss_mapping 0.0033 cls_loss_causal 0.5503 re_mapping 0.0070 re_causal 0.0209 /// teacc 98.99 lr 0.00010000
+Epoch 166, weight, value: tensor([[-0.0468, -0.0773, -0.0539,  ..., -0.0943, -0.0124, -0.0283],
+        [-0.0449,  0.0296, -0.1427,  ...,  0.0519,  0.0680, -0.1246],
+        [ 0.0571, -0.0024, -0.0553,  ..., -0.0510, -0.0325,  0.0167],
+        ...,
+        [ 0.0497, -0.0459, -0.0006,  ...,  0.0241, -0.0395,  0.0227],
+        [-0.0472, -0.0274, -0.0739,  ..., -0.0151, -0.0301, -0.0615],
+        [-0.1277, -0.1759,  0.0296,  ..., -0.0546,  0.0314,  0.0434]],
+       device='cuda:0'), grad: tensor([[ 1.6671e-07,  0.0000e+00,  6.5472e-07,  ...,  9.5926e-08,
+          3.2596e-07,  0.0000e+00],
+        [ 1.8766e-06,  0.0000e+00,  1.8179e-06,  ...,  3.0175e-07,
+          3.1665e-08,  0.0000e+00],
+        [-1.8999e-06,  0.0000e+00, -2.9244e-07,  ...,  6.5193e-08,
+          7.9162e-08,  0.0000e+00],
+        ...,
+        [-1.3970e-08,  0.0000e+00,  2.4438e-06,  ...,  4.0047e-07,
+          1.9837e-07,  0.0000e+00],
+        [ 7.9721e-07,  0.0000e+00,  4.8727e-06,  ...,  5.8953e-07,
+          3.4153e-05,  0.0000e+00],
+        [ 6.2063e-06,  0.0000e+00,  5.7429e-05,  ...,  5.1595e-06,
+          1.0207e-06,  0.0000e+00]], device='cuda:0')
+Epoch 166, bias, value: tensor([-0.0045,  0.0259,  0.0043, -0.0012,  0.0108,  0.0054,  0.0237, -0.0147,
+         0.0084, -0.0046], device='cuda:0'), grad: tensor([ 3.2187e-06,  1.0543e-05, -3.2801e-06,  1.3709e-06, -1.9014e-04,
+         4.7708e-04, -6.4754e-04,  3.2224e-06,  1.8990e-04,  1.5438e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 165, time 217.56, cls_loss 0.0024 cls_loss_mapping 0.0047 cls_loss_causal 0.5648 re_mapping 0.0069 re_causal 0.0207 /// teacc 98.99 lr 0.00010000
+Epoch 167, weight, value: tensor([[-0.0462, -0.0773, -0.0544,  ..., -0.0945, -0.0121, -0.0283],
+        [-0.0451,  0.0296, -0.1436,  ...,  0.0521,  0.0683, -0.1247],
+        [ 0.0571, -0.0024, -0.0551,  ..., -0.0510, -0.0327,  0.0166],
+        ...,
+        [ 0.0499, -0.0459, -0.0008,  ...,  0.0240, -0.0399,  0.0227],
+        [-0.0475, -0.0274, -0.0741,  ..., -0.0153, -0.0304, -0.0615],
+        [-0.1284, -0.1759,  0.0292,  ..., -0.0548,  0.0316,  0.0434]],
+       device='cuda:0'), grad: tensor([[ 2.4773e-07,  0.0000e+00, -1.5497e-06,  ...,  1.1176e-08,
+          1.8533e-07,  0.0000e+00],
+        [ 4.2375e-07,  0.0000e+00,  5.3179e-07,  ...,  4.0978e-08,
+          7.4506e-09,  0.0000e+00],
+        [-1.9297e-06,  0.0000e+00,  7.7207e-07,  ...,  1.1176e-08,
+          1.4529e-07,  0.0000e+00],
+        ...,
+        [-3.6228e-07,  0.0000e+00,  5.0385e-07,  ...,  1.0058e-07,
+          1.0068e-06,  0.0000e+00],
+        [ 5.1875e-07,  0.0000e+00,  5.8860e-07,  ...,  9.3132e-09,
+          5.0887e-06,  0.0000e+00],
+        [ 3.9581e-07,  0.0000e+00,  2.1905e-06,  ...,  1.5553e-07,
+         -1.2159e-05,  0.0000e+00]], device='cuda:0')
+Epoch 167, bias, value: tensor([-0.0041,  0.0257,  0.0043, -0.0019,  0.0108,  0.0064,  0.0238, -0.0147,
+         0.0082, -0.0046], device='cuda:0'), grad: tensor([-1.0706e-05,  2.3842e-06, -3.2131e-07,  2.1532e-06,  6.7279e-06,
+         6.0461e-06,  4.2543e-06,  2.3358e-06,  2.2218e-05, -3.5197e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 166, time 217.68, cls_loss 0.0028 cls_loss_mapping 0.0046 cls_loss_causal 0.5522 re_mapping 0.0065 re_causal 0.0200 /// teacc 98.98 lr 0.00010000
+Epoch 168, weight, value: tensor([[-0.0465, -0.0773, -0.0549,  ..., -0.0960, -0.0125, -0.0283],
+        [-0.0452,  0.0297, -0.1446,  ...,  0.0515,  0.0685, -0.1249],
+        [ 0.0573, -0.0025, -0.0549,  ..., -0.0512, -0.0331,  0.0166],
+        ...,
+        [ 0.0499, -0.0459, -0.0009,  ...,  0.0262, -0.0399,  0.0225],
+        [-0.0479, -0.0275, -0.0744,  ..., -0.0158, -0.0305, -0.0615],
+        [-0.1296, -0.1759,  0.0293,  ..., -0.0575,  0.0319,  0.0435]],
+       device='cuda:0'), grad: tensor([[ 6.1467e-08,  2.1420e-08,  2.9150e-07,  ...,  4.6566e-09,
+          6.6534e-06,  0.0000e+00],
+        [ 1.5553e-07,  6.7987e-08,  1.4249e-07,  ...,  2.9802e-08,
+         -8.5402e-07,  0.0000e+00],
+        [ 9.9093e-07,  6.5193e-09,  3.1199e-07,  ...,  1.3970e-08,
+          5.0850e-06,  0.0000e+00],
+        ...,
+        [ 2.1234e-06,  4.6566e-09,  1.7043e-07,  ...,  6.0536e-08,
+          1.1092e-06,  0.0000e+00],
+        [ 1.1921e-07,  4.6566e-09, -1.3048e-06,  ...,  2.7940e-09,
+         -3.4750e-05,  0.0000e+00],
+        [ 1.1483e-06,  4.6566e-09,  1.8943e-06,  ...,  2.1327e-07,
+          3.7979e-06,  0.0000e+00]], device='cuda:0')
+Epoch 168, bias, value: tensor([-0.0040,  0.0256,  0.0044, -0.0017,  0.0106,  0.0061,  0.0245, -0.0145,
+         0.0083, -0.0051], device='cuda:0'), grad: tensor([ 2.5034e-05, -6.6496e-07,  2.5898e-05,  1.3337e-05, -4.2319e-06,
+        -1.2740e-06,  6.6221e-05,  3.5781e-06, -1.4889e-04,  2.0996e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 167, time 217.51, cls_loss 0.0034 cls_loss_mapping 0.0045 cls_loss_causal 0.5187 re_mapping 0.0066 re_causal 0.0194 /// teacc 98.93 lr 0.00010000
+Epoch 169, weight, value: tensor([[-0.0469, -0.0774, -0.0553,  ..., -0.0961, -0.0143, -0.0287],
+        [-0.0476,  0.0297, -0.1454,  ...,  0.0514,  0.0674, -0.1250],
+        [ 0.0574, -0.0024, -0.0551,  ..., -0.0512, -0.0335,  0.0165],
+        ...,
+        [ 0.0512, -0.0459, -0.0023,  ...,  0.0264, -0.0385,  0.0224],
+        [-0.0487, -0.0275, -0.0748,  ..., -0.0159, -0.0305, -0.0615],
+        [-0.1304, -0.1759,  0.0293,  ..., -0.0578,  0.0336,  0.0438]],
+       device='cuda:0'), grad: tensor([[-2.4233e-06,  0.0000e+00,  1.2107e-08,  ...,  0.0000e+00,
+         -1.5125e-05,  1.1176e-08],
+        [ 3.9786e-06,  3.7253e-09,  1.7695e-08,  ...,  0.0000e+00,
+         -1.9893e-06,  2.7940e-09],
+        [-2.8834e-05,  9.3132e-10, -1.7695e-08,  ...,  0.0000e+00,
+          2.2445e-06, -1.0431e-07],
+        ...,
+        [ 3.2317e-07, -8.3819e-09,  2.6077e-08,  ...,  0.0000e+00,
+          1.1111e-06,  2.1420e-08],
+        [ 1.3247e-05,  9.3132e-10,  4.4703e-08,  ...,  0.0000e+00,
+          3.7625e-07,  7.4506e-09],
+        [ 4.9546e-06,  0.0000e+00,  1.7509e-07,  ...,  0.0000e+00,
+          1.2144e-05,  9.3132e-09]], device='cuda:0')
+Epoch 169, bias, value: tensor([-0.0052,  0.0233,  0.0042, -0.0015,  0.0106,  0.0059,  0.0247, -0.0128,
+         0.0085, -0.0044], device='cuda:0'), grad: tensor([-1.3173e-04,  6.2864e-07, -4.6223e-05,  1.4842e-05,  3.0678e-06,
+         1.9725e-06,  8.0094e-06,  3.7253e-06,  3.2663e-05,  1.1313e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 168, time 217.62, cls_loss 0.0027 cls_loss_mapping 0.0058 cls_loss_causal 0.5603 re_mapping 0.0067 re_causal 0.0196 /// teacc 98.95 lr 0.00010000
+Epoch 170, weight, value: tensor([[-0.0471, -0.0774, -0.0554,  ..., -0.0962, -0.0147, -0.0288],
+        [-0.0479,  0.0298, -0.1472,  ...,  0.0513,  0.0672, -0.1251],
+        [ 0.0579, -0.0025, -0.0546,  ..., -0.0512, -0.0326,  0.0165],
+        ...,
+        [ 0.0510, -0.0460, -0.0052,  ...,  0.0265, -0.0400,  0.0224],
+        [-0.0491, -0.0275, -0.0763,  ..., -0.0159, -0.0311, -0.0616],
+        [-0.1292, -0.1760,  0.0293,  ..., -0.0579,  0.0357,  0.0440]],
+       device='cuda:0'), grad: tensor([[ 2.8312e-07,  0.0000e+00,  1.1176e-08,  ...,  0.0000e+00,
+         -3.1665e-08,  0.0000e+00],
+        [ 4.8801e-06,  0.0000e+00,  2.1793e-07,  ...,  0.0000e+00,
+          1.3746e-06,  0.0000e+00],
+        [-4.7348e-06,  0.0000e+00, -2.1420e-08,  ...,  0.0000e+00,
+          1.7509e-07,  0.0000e+00],
+        ...,
+        [ 6.8955e-06,  0.0000e+00,  7.3574e-08,  ...,  0.0000e+00,
+          2.1793e-06,  0.0000e+00],
+        [ 1.3672e-06,  0.0000e+00,  3.8557e-07,  ...,  0.0000e+00,
+          2.7493e-06,  0.0000e+00],
+        [-1.1928e-05,  0.0000e+00,  4.7870e-06,  ...,  0.0000e+00,
+         -5.4687e-06,  0.0000e+00]], device='cuda:0')
+Epoch 170, bias, value: tensor([-0.0050,  0.0230,  0.0049, -0.0016,  0.0106,  0.0060,  0.0244, -0.0135,
+         0.0080, -0.0033], device='cuda:0'), grad: tensor([-8.3745e-05,  1.4491e-05, -1.7378e-06,  1.4357e-05, -9.7230e-06,
+         2.9951e-06, -1.1288e-05,  3.9488e-05,  1.7539e-05,  1.7643e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 169, time 217.55, cls_loss 0.0025 cls_loss_mapping 0.0033 cls_loss_causal 0.5709 re_mapping 0.0070 re_causal 0.0216 /// teacc 98.99 lr 0.00010000
+Epoch 171, weight, value: tensor([[-0.0474, -0.0775, -0.0557,  ..., -0.0965, -0.0148, -0.0288],
+        [-0.0480,  0.0298, -0.1475,  ...,  0.0513,  0.0675, -0.1251],
+        [ 0.0585, -0.0025, -0.0548,  ..., -0.0513, -0.0328,  0.0165],
+        ...,
+        [ 0.0508, -0.0460, -0.0056,  ...,  0.0267, -0.0401,  0.0224],
+        [-0.0490, -0.0275, -0.0768,  ..., -0.0161, -0.0308, -0.0616],
+        [-0.1308, -0.1760,  0.0286,  ..., -0.0579,  0.0356,  0.0440]],
+       device='cuda:0'), grad: tensor([[ 3.4459e-08,  0.0000e+00,  4.3772e-08,  ...,  0.0000e+00,
+          6.8918e-08,  0.0000e+00],
+        [ 3.3528e-08,  0.0000e+00,  3.2224e-07,  ...,  0.0000e+00,
+          3.8091e-07,  0.0000e+00],
+        [-2.6077e-08,  0.0000e+00,  2.0396e-07,  ...,  0.0000e+00,
+          4.0978e-07,  0.0000e+00],
+        ...,
+        [ 2.4214e-08,  0.0000e+00,  3.5856e-07,  ...,  0.0000e+00,
+          3.7905e-07,  0.0000e+00],
+        [ 3.1665e-08,  0.0000e+00,  3.1199e-07,  ...,  0.0000e+00,
+          5.0291e-08,  0.0000e+00],
+        [ 1.8626e-08,  0.0000e+00,  1.3508e-05,  ...,  0.0000e+00,
+         -1.8384e-06,  0.0000e+00]], device='cuda:0')
+Epoch 171, bias, value: tensor([-0.0050,  0.0232,  0.0051, -0.0016,  0.0115,  0.0060,  0.0249, -0.0138,
+         0.0082, -0.0040], device='cuda:0'), grad: tensor([-5.3085e-08,  2.4959e-06,  1.7369e-06,  3.7998e-07, -3.4571e-05,
+        -3.2876e-07, -2.5034e-06,  1.9297e-06,  1.6764e-08,  3.0965e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 170, time 217.37, cls_loss 0.0055 cls_loss_mapping 0.0079 cls_loss_causal 0.5374 re_mapping 0.0066 re_causal 0.0194 /// teacc 98.98 lr 0.00010000
+Epoch 172, weight, value: tensor([[-0.0486, -0.0777, -0.0559,  ..., -0.0975, -0.0149, -0.0288],
+        [-0.0497,  0.0299, -0.1479,  ...,  0.0565,  0.0661, -0.1251],
+        [ 0.0581, -0.0025, -0.0548,  ..., -0.0515, -0.0343,  0.0165],
+        ...,
+        [ 0.0525, -0.0460, -0.0057,  ...,  0.0216, -0.0383,  0.0224],
+        [-0.0497, -0.0268, -0.0770,  ..., -0.0170, -0.0318, -0.0616],
+        [-0.1322, -0.1763,  0.0288,  ..., -0.0568,  0.0354,  0.0440]],
+       device='cuda:0'), grad: tensor([[ 4.7497e-08,  0.0000e+00, -4.0559e-07,  ...,  8.8476e-09,
+          1.0245e-07,  0.0000e+00],
+        [ 8.3726e-07,  0.0000e+00,  1.1362e-07,  ...,  9.7789e-09,
+         -4.4936e-07,  0.0000e+00],
+        [-1.4361e-06,  0.0000e+00,  1.1688e-07,  ...,  2.1886e-08,
+          9.0338e-08,  0.0000e+00],
+        ...,
+        [ 6.9663e-07,  0.0000e+00,  1.1921e-07,  ...,  5.4482e-08,
+          2.4028e-07,  0.0000e+00],
+        [ 1.2852e-07,  0.0000e+00,  1.9511e-07,  ...,  1.9092e-08,
+          3.2363e-07,  0.0000e+00],
+        [ 4.5681e-07,  0.0000e+00,  8.3912e-07,  ...,  3.1665e-08,
+         -3.1292e-07,  0.0000e+00]], device='cuda:0')
+Epoch 172, bias, value: tensor([-0.0048,  0.0222,  0.0039, -0.0015,  0.0110,  0.0055,  0.0248, -0.0124,
+         0.0078, -0.0041], device='cuda:0'), grad: tensor([-3.6210e-06,  3.9814e-07, -1.5739e-06,  9.3654e-06, -1.7276e-07,
+        -7.1637e-06, -2.6654e-06,  1.4063e-06,  1.7658e-06,  2.2445e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 171, time 217.23, cls_loss 0.0025 cls_loss_mapping 0.0040 cls_loss_causal 0.5282 re_mapping 0.0066 re_causal 0.0205 /// teacc 98.98 lr 0.00010000
+Epoch 173, weight, value: tensor([[-0.0492, -0.0784, -0.0559,  ..., -0.0977, -0.0150, -0.0288],
+        [-0.0500,  0.0305, -0.1486,  ...,  0.0564,  0.0662, -0.1251],
+        [ 0.0576, -0.0027, -0.0546,  ..., -0.0516, -0.0349,  0.0165],
+        ...,
+        [ 0.0531, -0.0461, -0.0057,  ...,  0.0218, -0.0383,  0.0224],
+        [-0.0500, -0.0266, -0.0769,  ..., -0.0171, -0.0315, -0.0616],
+        [-0.1324, -0.1766,  0.0287,  ..., -0.0576,  0.0360,  0.0440]],
+       device='cuda:0'), grad: tensor([[ 3.9581e-08,  0.0000e+00, -1.8207e-07,  ...,  0.0000e+00,
+         -4.6846e-07,  0.0000e+00],
+        [ 4.2142e-07,  1.1176e-08,  7.5437e-08,  ...,  0.0000e+00,
+          2.0023e-08,  0.0000e+00],
+        [ 1.2061e-07,  3.9581e-08,  9.2201e-08,  ...,  0.0000e+00,
+          1.6298e-08,  0.0000e+00],
+        ...,
+        [ 2.5146e-06, -5.5879e-08,  6.0070e-08,  ...,  0.0000e+00,
+          1.0878e-06,  0.0000e+00],
+        [ 2.6729e-07,  2.3283e-09, -6.8499e-07,  ...,  0.0000e+00,
+          9.3132e-09,  0.0000e+00],
+        [ 8.3074e-07,  0.0000e+00,  2.3330e-07,  ...,  0.0000e+00,
+          1.4761e-07,  0.0000e+00]], device='cuda:0')
+Epoch 173, bias, value: tensor([-0.0048,  0.0220,  0.0034, -0.0016,  0.0107,  0.0057,  0.0240, -0.0121,
+         0.0081, -0.0040], device='cuda:0'), grad: tensor([-6.1929e-05,  9.0478e-07,  5.3085e-07, -4.6268e-06, -1.6671e-07,
+         7.5735e-06,  5.0366e-05,  3.3751e-06,  2.9197e-07,  3.5688e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 172, time 217.41, cls_loss 0.0021 cls_loss_mapping 0.0035 cls_loss_causal 0.5382 re_mapping 0.0066 re_causal 0.0206 /// teacc 98.99 lr 0.00010000
+Epoch 174, weight, value: tensor([[-0.0498, -0.0789, -0.0559,  ..., -0.0978, -0.0150, -0.0288],
+        [-0.0502,  0.0306, -0.1494,  ...,  0.0565,  0.0661, -0.1251],
+        [ 0.0578, -0.0027, -0.0547,  ..., -0.0516, -0.0348,  0.0165],
+        ...,
+        [ 0.0532, -0.0461, -0.0061,  ...,  0.0218, -0.0384,  0.0224],
+        [-0.0506, -0.0267, -0.0774,  ..., -0.0171, -0.0316, -0.0616],
+        [-0.1330, -0.1775,  0.0287,  ..., -0.0577,  0.0363,  0.0440]],
+       device='cuda:0'), grad: tensor([[ 1.5367e-07,  0.0000e+00,  4.1444e-08,  ...,  4.6566e-10,
+          6.8452e-08,  0.0000e+00],
+        [ 4.4843e-07,  0.0000e+00,  2.9802e-08,  ...,  4.6566e-10,
+         -1.2349e-06,  0.0000e+00],
+        [ 4.8103e-07,  0.0000e+00,  6.9849e-09,  ...,  0.0000e+00,
+          1.8347e-07,  0.0000e+00],
+        ...,
+        [-3.6843e-06,  0.0000e+00,  1.9092e-08,  ...,  4.6566e-10,
+          7.2410e-07,  0.0000e+00],
+        [ 4.9826e-07,  0.0000e+00,  1.5786e-07,  ...,  2.7940e-09,
+          1.9558e-07,  0.0000e+00],
+        [ 4.2748e-07,  0.0000e+00,  3.6787e-08,  ...,  4.6566e-10,
+          2.1420e-08,  0.0000e+00]], device='cuda:0')
+Epoch 174, bias, value: tensor([-0.0048,  0.0219,  0.0035, -0.0017,  0.0113,  0.0054,  0.0251, -0.0121,
+         0.0079, -0.0041], device='cuda:0'), grad: tensor([-3.2969e-07, -1.4976e-06,  1.2200e-06,  1.3344e-05,  3.1153e-07,
+        -1.0528e-05, -1.2852e-07, -4.8652e-06,  1.2126e-06,  1.2703e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 173, time 217.46, cls_loss 0.0018 cls_loss_mapping 0.0045 cls_loss_causal 0.5394 re_mapping 0.0066 re_causal 0.0205 /// teacc 98.95 lr 0.00010000
+Epoch 175, weight, value: tensor([[-0.0501, -0.0797, -0.0562,  ..., -0.0986, -0.0151, -0.0288],
+        [-0.0502,  0.0317, -0.1499,  ...,  0.0564,  0.0662, -0.1251],
+        [ 0.0577, -0.0035, -0.0547,  ..., -0.0518, -0.0352,  0.0165],
+        ...,
+        [ 0.0534, -0.0463, -0.0064,  ...,  0.0218, -0.0384,  0.0223],
+        [-0.0513, -0.0275, -0.0775,  ..., -0.0175, -0.0314, -0.0616],
+        [-0.1336, -0.1782,  0.0285,  ..., -0.0570,  0.0366,  0.0440]],
+       device='cuda:0'), grad: tensor([[ 1.4901e-07,  0.0000e+00,  1.4435e-07,  ...,  9.3132e-10,
+          2.0117e-07,  0.0000e+00],
+        [ 3.7067e-07,  0.0000e+00,  2.6077e-08,  ...,  0.0000e+00,
+         -4.3772e-08,  0.0000e+00],
+        [ 3.8277e-07,  0.0000e+00,  2.7940e-08,  ...,  0.0000e+00,
+          6.6124e-08,  0.0000e+00],
+        ...,
+        [-2.6897e-06,  0.0000e+00,  2.2352e-08,  ...,  0.0000e+00,
+          1.7695e-08,  0.0000e+00],
+        [ 1.3281e-06,  0.0000e+00,  1.5348e-06,  ...,  1.8626e-09,
+          2.2277e-06,  0.0000e+00],
+        [ 1.6894e-06,  0.0000e+00, -2.5593e-06,  ...,  3.7253e-09,
+         -4.1239e-06,  0.0000e+00]], device='cuda:0')
+Epoch 175, bias, value: tensor([-0.0047,  0.0219,  0.0033, -0.0006,  0.0113,  0.0038,  0.0250, -0.0120,
+         0.0077, -0.0040], device='cuda:0'), grad: tensor([ 1.6699e-06,  6.5565e-07,  1.9521e-06,  4.6343e-06,  1.2545e-06,
+         3.6787e-07,  1.9372e-07, -4.6156e-06,  1.6019e-05, -2.2128e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 174, time 217.71, cls_loss 0.0026 cls_loss_mapping 0.0034 cls_loss_causal 0.5116 re_mapping 0.0066 re_causal 0.0198 /// teacc 98.87 lr 0.00010000
+Epoch 176, weight, value: tensor([[-0.0506, -0.0815, -0.0566,  ..., -0.0989, -0.0152, -0.0288],
+        [-0.0502,  0.0346, -0.1505,  ...,  0.0565,  0.0662, -0.1252],
+        [ 0.0579, -0.0043, -0.0549,  ..., -0.0530, -0.0354,  0.0164],
+        ...,
+        [ 0.0535, -0.0482, -0.0068,  ...,  0.0217, -0.0384,  0.0225],
+        [-0.0517, -0.0277, -0.0783,  ..., -0.0177, -0.0320, -0.0616],
+        [-0.1337, -0.1789,  0.0304,  ..., -0.0571,  0.0368,  0.0440]],
+       device='cuda:0'), grad: tensor([[ 1.2387e-07,  0.0000e+00,  4.2655e-07,  ...,  8.3819e-09,
+          1.3970e-08,  0.0000e+00],
+        [ 4.2282e-07,  0.0000e+00,  5.6904e-07,  ...,  9.3132e-08,
+         -3.9116e-08,  0.0000e+00],
+        [ 3.0641e-07,  0.0000e+00,  4.9546e-07,  ...,  6.7987e-08,
+          9.3132e-09,  0.0000e+00],
+        ...,
+        [ 2.0396e-07,  0.0000e+00,  4.9081e-07,  ...,  7.4506e-08,
+          8.9407e-08,  0.0000e+00],
+        [ 2.8498e-07,  0.0000e+00,  1.1828e-07,  ...,  1.8626e-09,
+          2.5146e-08,  0.0000e+00],
+        [ 2.2072e-07,  0.0000e+00, -1.6734e-05,  ...,  2.1420e-08,
+         -1.3132e-07,  0.0000e+00]], device='cuda:0')
+Epoch 176, bias, value: tensor([-0.0047,  0.0219,  0.0033, -0.0008,  0.0094,  0.0048,  0.0238, -0.0120,
+         0.0073, -0.0023], device='cuda:0'), grad: tensor([ 8.7637e-07,  1.5022e-06,  1.6857e-06, -4.4107e-05,  2.3648e-05,
+         4.7028e-05,  1.9073e-06,  1.6000e-06,  5.8115e-07, -3.4839e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 175, time 217.51, cls_loss 0.0023 cls_loss_mapping 0.0032 cls_loss_causal 0.5346 re_mapping 0.0065 re_causal 0.0200 /// teacc 98.95 lr 0.00010000
+Epoch 177, weight, value: tensor([[-0.0510, -0.0844, -0.0569,  ..., -0.0993, -0.0153, -0.0289],
+        [-0.0501,  0.0381, -0.1520,  ...,  0.0567,  0.0666, -0.1252],
+        [ 0.0577, -0.0067, -0.0551,  ..., -0.0537, -0.0363,  0.0163],
+        ...,
+        [ 0.0536, -0.0498, -0.0068,  ...,  0.0217, -0.0386,  0.0224],
+        [-0.0519, -0.0299, -0.0786,  ..., -0.0178, -0.0324, -0.0616],
+        [-0.1342, -0.1804,  0.0313,  ..., -0.0572,  0.0367,  0.0441]],
+       device='cuda:0'), grad: tensor([[ 2.3358e-06,  0.0000e+00,  1.5367e-06,  ...,  0.0000e+00,
+          1.4901e-08,  0.0000e+00],
+        [ 1.4555e-04,  0.0000e+00,  3.4645e-07,  ...,  0.0000e+00,
+         -1.2191e-06,  0.0000e+00],
+        [ 1.8477e-05,  0.0000e+00,  5.4576e-07,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        ...,
+        [-2.3496e-04,  0.0000e+00,  7.2643e-08,  ...,  0.0000e+00,
+          1.5553e-07,  0.0000e+00],
+        [ 8.0049e-05,  0.0000e+00,  1.8710e-06,  ...,  0.0000e+00,
+          5.8580e-07,  0.0000e+00],
+        [ 1.0774e-05,  0.0000e+00,  1.1653e-05,  ...,  0.0000e+00,
+          1.1921e-07,  0.0000e+00]], device='cuda:0')
+Epoch 177, bias, value: tensor([-0.0047,  0.0223,  0.0025, -0.0010,  0.0084,  0.0045,  0.0237, -0.0121,
+         0.0073, -0.0015], device='cuda:0'), grad: tensor([ 1.3605e-05,  4.6992e-04,  5.9366e-05,  4.4644e-05,  4.5486e-06,
+        -8.6725e-05, -4.1515e-05, -7.9012e-04,  2.5797e-04,  6.7592e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 176, time 217.40, cls_loss 0.0024 cls_loss_mapping 0.0037 cls_loss_causal 0.5344 re_mapping 0.0067 re_causal 0.0197 /// teacc 98.92 lr 0.00010000
+Epoch 178, weight, value: tensor([[-0.0513, -0.0846, -0.0570,  ..., -0.0994, -0.0154, -0.0289],
+        [-0.0502,  0.0382, -0.1522,  ...,  0.0568,  0.0666, -0.1252],
+        [ 0.0580, -0.0068, -0.0552,  ..., -0.0538, -0.0356,  0.0163],
+        ...,
+        [ 0.0537, -0.0498, -0.0069,  ...,  0.0215, -0.0387,  0.0224],
+        [-0.0527, -0.0304, -0.0791,  ..., -0.0179, -0.0325, -0.0616],
+        [-0.1346, -0.1809,  0.0311,  ..., -0.0572,  0.0369,  0.0441]],
+       device='cuda:0'), grad: tensor([[ 8.1956e-08,  0.0000e+00,  5.5879e-09,  ...,  0.0000e+00,
+          1.5832e-08,  0.0000e+00],
+        [ 1.9008e-06,  0.0000e+00,  1.0524e-07,  ...,  0.0000e+00,
+         -5.1316e-07,  0.0000e+00],
+        [ 7.5437e-08,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          1.6764e-08,  0.0000e+00],
+        ...,
+        [ 4.9081e-07,  0.0000e+00, -1.0338e-07,  ...,  0.0000e+00,
+          6.6683e-07,  0.0000e+00],
+        [ 4.0978e-08,  0.0000e+00,  7.6089e-07,  ...,  0.0000e+00,
+         -4.0978e-08,  0.0000e+00],
+        [-7.0184e-06,  0.0000e+00,  2.9523e-07,  ...,  0.0000e+00,
+         -5.6066e-07,  0.0000e+00]], device='cuda:0')
+Epoch 178, bias, value: tensor([-0.0048,  0.0223,  0.0030, -0.0011,  0.0106,  0.0045,  0.0239, -0.0121,
+         0.0068, -0.0036], device='cuda:0'), grad: tensor([ 1.0151e-07,  2.7232e-06,  2.9430e-07,  2.7195e-06,  1.2636e-05,
+        -2.7567e-06,  6.4913e-07,  8.3297e-06,  1.2098e-06, -2.5928e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 177, time 217.36, cls_loss 0.0020 cls_loss_mapping 0.0032 cls_loss_causal 0.4922 re_mapping 0.0066 re_causal 0.0197 /// teacc 99.00 lr 0.00010000
+Epoch 179, weight, value: tensor([[-0.0528, -0.0848, -0.0571,  ..., -0.0995, -0.0156, -0.0289],
+        [-0.0502,  0.0383, -0.1555,  ...,  0.0569,  0.0663, -0.1252],
+        [ 0.0580, -0.0068, -0.0551,  ..., -0.0546, -0.0356,  0.0163],
+        ...,
+        [ 0.0536, -0.0499, -0.0071,  ...,  0.0215, -0.0389,  0.0224],
+        [-0.0532, -0.0306, -0.0793,  ..., -0.0179, -0.0336, -0.0616],
+        [-0.1353, -0.1813,  0.0312,  ..., -0.0567,  0.0378,  0.0441]],
+       device='cuda:0'), grad: tensor([[-1.0338e-06,  0.0000e+00,  1.1176e-08,  ...,  9.3132e-10,
+          1.0077e-06,  0.0000e+00],
+        [ 2.9057e-07, -9.3132e-10,  1.4342e-07,  ...,  1.2107e-08,
+         -5.4296e-07,  0.0000e+00],
+        [-7.0669e-06,  0.0000e+00,  2.4214e-08,  ...,  9.3132e-10,
+          1.4687e-06,  0.0000e+00],
+        ...,
+        [ 8.2254e-06,  9.3132e-10,  2.7940e-08,  ...,  1.8626e-09,
+          4.9453e-07,  0.0000e+00],
+        [ 5.4911e-06,  0.0000e+00,  4.0978e-08,  ...,  9.3132e-10,
+          7.5996e-07,  0.0000e+00],
+        [ 2.1681e-06,  0.0000e+00,  1.3784e-07,  ...,  1.1176e-08,
+          1.1455e-07,  0.0000e+00]], device='cuda:0')
+Epoch 179, bias, value: tensor([-0.0053,  0.0218,  0.0030, -0.0009,  0.0117,  0.0045,  0.0242, -0.0123,
+         0.0061, -0.0035], device='cuda:0'), grad: tensor([-1.0490e-05, -2.0899e-06, -1.4510e-06, -1.3478e-05,  6.2101e-06,
+         7.2829e-07, -1.9118e-05,  1.6659e-05,  1.0513e-05,  1.2442e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 178, time 217.36, cls_loss 0.0021 cls_loss_mapping 0.0038 cls_loss_causal 0.5240 re_mapping 0.0070 re_causal 0.0196 /// teacc 98.83 lr 0.00010000
+Epoch 180, weight, value: tensor([[-0.0541, -0.0853, -0.0572,  ..., -0.0995, -0.0157, -0.0289],
+        [-0.0502,  0.0384, -0.1557,  ...,  0.0569,  0.0664, -0.1253],
+        [ 0.0584, -0.0046, -0.0547,  ..., -0.0546, -0.0357,  0.0164],
+        ...,
+        [ 0.0535, -0.0516, -0.0072,  ...,  0.0215, -0.0390,  0.0223],
+        [-0.0538, -0.0308, -0.0794,  ..., -0.0179, -0.0336, -0.0617],
+        [-0.1358, -0.1820,  0.0310,  ..., -0.0568,  0.0379,  0.0441]],
+       device='cuda:0'), grad: tensor([[-9.3132e-09,  0.0000e+00,  3.7253e-08,  ...,  0.0000e+00,
+          7.4863e-05,  0.0000e+00],
+        [ 6.7800e-07,  0.0000e+00,  8.7917e-07,  ...,  0.0000e+00,
+         -1.2340e-06,  0.0000e+00],
+        [ 3.1330e-06,  0.0000e+00,  1.5739e-07,  ...,  0.0000e+00,
+          3.6694e-07,  0.0000e+00],
+        ...,
+        [ 4.0978e-06,  0.0000e+00,  2.1141e-07,  ...,  0.0000e+00,
+          2.4959e-06,  0.0000e+00],
+        [-7.8380e-06,  0.0000e+00,  9.4995e-08,  ...,  0.0000e+00,
+          9.9558e-07,  0.0000e+00],
+        [-5.6904e-07,  0.0000e+00,  3.1032e-06,  ...,  0.0000e+00,
+         -4.0382e-06,  0.0000e+00]], device='cuda:0')
+Epoch 180, bias, value: tensor([-0.0050,  0.0217,  0.0031, -0.0003,  0.0118,  0.0042,  0.0246, -0.0124,
+         0.0060, -0.0036], device='cuda:0'), grad: tensor([ 9.6560e-04,  2.4959e-06,  1.2040e-05,  1.9390e-06, -4.2245e-06,
+         3.2391e-06, -9.8038e-04,  4.6074e-05, -4.3392e-05, -4.9397e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 179, time 217.26, cls_loss 0.0032 cls_loss_mapping 0.0034 cls_loss_causal 0.5091 re_mapping 0.0062 re_causal 0.0188 /// teacc 98.98 lr 0.00010000
+Epoch 181, weight, value: tensor([[-0.0544, -0.0860, -0.0573,  ..., -0.0995, -0.0160, -0.0322],
+        [-0.0497,  0.0399, -0.1558,  ...,  0.0569,  0.0667, -0.1261],
+        [ 0.0580, -0.0057, -0.0549,  ..., -0.0547, -0.0361,  0.0138],
+        ...,
+        [ 0.0532, -0.0525, -0.0076,  ...,  0.0215, -0.0393,  0.0215],
+        [-0.0537, -0.0309, -0.0796,  ..., -0.0179, -0.0338, -0.0619],
+        [-0.1372, -0.1827,  0.0305,  ..., -0.0568,  0.0384,  0.0474]],
+       device='cuda:0'), grad: tensor([[ 2.2352e-08,  0.0000e+00,  4.9360e-08,  ...,  5.5879e-09,
+          1.6112e-07,  9.3132e-10],
+        [ 7.4226e-07,  0.0000e+00,  8.8476e-08,  ..., -1.3569e-06,
+         -1.0379e-05,  9.3132e-10],
+        [ 3.1535e-06,  0.0000e+00,  4.8429e-08,  ...,  2.7940e-09,
+          1.0338e-07, -2.4214e-08],
+        ...,
+        [-5.9530e-06,  0.0000e+00,  3.3155e-07,  ...,  9.6392e-07,
+          8.4266e-06,  2.0489e-08],
+        [ 7.8231e-08,  0.0000e+00, -3.7253e-09,  ...,  1.3970e-08,
+         -2.3935e-07,  0.0000e+00],
+        [-2.8908e-06,  0.0000e+00,  6.4075e-07,  ...,  2.2165e-07,
+         -1.3754e-05,  0.0000e+00]], device='cuda:0')
+Epoch 181, bias, value: tensor([-0.0074,  0.0221,  0.0024, -0.0004,  0.0120,  0.0045,  0.0251, -0.0127,
+         0.0062, -0.0027], device='cuda:0'), grad: tensor([-2.8223e-05, -1.3173e-05,  7.3463e-06,  3.0454e-06,  8.0705e-05,
+         1.8431e-06,  6.7241e-06,  8.4639e-06, -3.4757e-06, -6.3300e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 180, time 217.34, cls_loss 0.0033 cls_loss_mapping 0.0051 cls_loss_causal 0.5516 re_mapping 0.0072 re_causal 0.0200 /// teacc 98.91 lr 0.00010000
+Epoch 182, weight, value: tensor([[-0.0548, -0.0890, -0.0563,  ..., -0.0997, -0.0162, -0.0323],
+        [-0.0496,  0.0410, -0.1559,  ...,  0.0568,  0.0668, -0.1264],
+        [ 0.0580, -0.0062, -0.0546,  ..., -0.0548, -0.0364,  0.0142],
+        ...,
+        [ 0.0566, -0.0531, -0.0078,  ...,  0.0215, -0.0381,  0.0211],
+        [-0.0545, -0.0310, -0.0795,  ..., -0.0181, -0.0330, -0.0622],
+        [-0.1408, -0.1838,  0.0300,  ..., -0.0565,  0.0356,  0.0475]],
+       device='cuda:0'), grad: tensor([[ 1.7695e-08,  0.0000e+00,  3.2596e-08,  ...,  0.0000e+00,
+          1.5832e-08,  0.0000e+00],
+        [ 2.6077e-08,  0.0000e+00,  2.6077e-08,  ...,  0.0000e+00,
+         -1.5832e-07,  0.0000e+00],
+        [-4.2655e-07,  0.0000e+00,  3.0734e-08,  ...,  0.0000e+00,
+          1.8626e-08,  0.0000e+00],
+        ...,
+        [ 4.7404e-07,  0.0000e+00,  3.7253e-08,  ...,  0.0000e+00,
+          1.3318e-07,  0.0000e+00],
+        [ 4.3772e-08,  0.0000e+00,  3.6135e-07,  ...,  0.0000e+00,
+          1.9092e-07,  0.0000e+00],
+        [ 9.0338e-08,  0.0000e+00,  3.1851e-07,  ...,  0.0000e+00,
+         -1.0151e-07,  0.0000e+00]], device='cuda:0')
+Epoch 182, bias, value: tensor([-0.0066,  0.0222,  0.0023, -0.0042,  0.0120,  0.0041,  0.0255, -0.0102,
+         0.0067, -0.0053], device='cuda:0'), grad: tensor([-3.2317e-07, -2.5425e-07, -3.8464e-07, -4.3213e-07,  1.0058e-07,
+        -1.5080e-05,  1.3612e-05,  9.4157e-07,  1.3318e-06,  4.6473e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 181, time 217.48, cls_loss 0.0021 cls_loss_mapping 0.0037 cls_loss_causal 0.5057 re_mapping 0.0069 re_causal 0.0202 /// teacc 99.00 lr 0.00010000
+Epoch 183, weight, value: tensor([[-0.0550, -0.0909, -0.0564,  ..., -0.0999, -0.0163, -0.0323],
+        [-0.0499,  0.0418, -0.1561,  ...,  0.0568,  0.0668, -0.1268],
+        [ 0.0580, -0.0065, -0.0556,  ..., -0.0548, -0.0367,  0.0136],
+        ...,
+        [ 0.0564, -0.0537, -0.0085,  ...,  0.0216, -0.0380,  0.0213],
+        [-0.0557, -0.0313, -0.0794,  ..., -0.0182, -0.0336, -0.0627],
+        [-0.1408, -0.1867,  0.0301,  ..., -0.0561,  0.0358,  0.0475]],
+       device='cuda:0'), grad: tensor([[ 2.1979e-07,  9.3132e-09,  3.7253e-08,  ...,  0.0000e+00,
+          2.3283e-08,  1.6764e-08],
+        [-1.0796e-05,  6.5193e-09,  1.0245e-08,  ...,  0.0000e+00,
+         -1.1310e-05,  3.7253e-09],
+        [-2.8443e-06, -2.1327e-07,  1.3039e-08,  ...,  0.0000e+00,
+          1.7229e-07,  5.5879e-09],
+        ...,
+        [ 1.1265e-05,  2.1700e-07,  5.4948e-08,  ...,  0.0000e+00,
+          1.1042e-05,  2.5146e-08],
+        [ 9.1176e-07,  5.5879e-09,  6.6590e-07,  ...,  0.0000e+00,
+         -4.8950e-06,  5.5879e-09],
+        [ 7.1526e-07,  2.2352e-08,  1.1548e-07,  ...,  0.0000e+00,
+          5.3085e-08,  5.1223e-08]], device='cuda:0')
+Epoch 183, bias, value: tensor([-0.0065,  0.0221,  0.0021, -0.0034,  0.0118,  0.0036,  0.0256, -0.0103,
+         0.0062, -0.0051], device='cuda:0'), grad: tensor([-8.0094e-07, -2.5913e-05, -3.1013e-06,  2.0325e-05,  3.2689e-07,
+        -1.8045e-05,  1.4335e-05,  2.5362e-05, -1.4544e-05,  2.0210e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 182, time 217.24, cls_loss 0.0029 cls_loss_mapping 0.0048 cls_loss_causal 0.5477 re_mapping 0.0070 re_causal 0.0204 /// teacc 98.82 lr 0.00010000
+Epoch 184, weight, value: tensor([[-0.0544, -0.0920, -0.0566,  ..., -0.1026, -0.0160, -0.0323],
+        [-0.0502,  0.0422, -0.1562,  ...,  0.0568,  0.0670, -0.1272],
+        [ 0.0581, -0.0055, -0.0555,  ..., -0.0556, -0.0371,  0.0135],
+        ...,
+        [ 0.0566, -0.0549, -0.0094,  ...,  0.0219, -0.0381,  0.0214],
+        [-0.0569, -0.0312, -0.0802,  ..., -0.0186, -0.0344, -0.0627],
+        [-0.1411, -0.1877,  0.0294,  ..., -0.0572,  0.0357,  0.0475]],
+       device='cuda:0'), grad: tensor([[ 2.7847e-07,  0.0000e+00,  4.3027e-07,  ...,  0.0000e+00,
+          4.3400e-07,  0.0000e+00],
+        [ 1.3225e-07,  0.0000e+00,  3.3341e-07,  ...,  3.7253e-09,
+         -2.3376e-07,  0.0000e+00],
+        [-9.7323e-07,  0.0000e+00,  3.4831e-07,  ...,  0.0000e+00,
+          1.1399e-06,  0.0000e+00],
+        ...,
+        [ 7.5251e-07,  0.0000e+00,  1.2005e-06,  ..., -5.5879e-09,
+          2.8759e-06,  0.0000e+00],
+        [ 1.5711e-06,  0.0000e+00,  8.8010e-07,  ...,  0.0000e+00,
+          2.6412e-06,  0.0000e+00],
+        [-2.1495e-06,  0.0000e+00, -1.5972e-06,  ...,  9.3132e-10,
+         -9.2760e-06,  0.0000e+00]], device='cuda:0')
+Epoch 184, bias, value: tensor([-0.0061,  0.0220,  0.0020, -0.0034,  0.0120,  0.0038,  0.0250, -0.0102,
+         0.0054, -0.0053], device='cuda:0'), grad: tensor([ 3.7812e-06,  1.0710e-07,  1.7788e-06,  1.1902e-06,  5.0850e-07,
+        -2.4047e-06,  1.5311e-06,  1.0528e-05,  1.1221e-05, -2.8238e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 183, time 217.79, cls_loss 0.0021 cls_loss_mapping 0.0038 cls_loss_causal 0.5195 re_mapping 0.0068 re_causal 0.0195 /// teacc 98.89 lr 0.00010000
+Epoch 185, weight, value: tensor([[-0.0545, -0.0928, -0.0553,  ..., -0.1031, -0.0161, -0.0323],
+        [-0.0503,  0.0431, -0.1564,  ...,  0.0567,  0.0671, -0.1274],
+        [ 0.0588, -0.0058, -0.0556,  ..., -0.0570, -0.0373,  0.0136],
+        ...,
+        [ 0.0566, -0.0556, -0.0097,  ...,  0.0219, -0.0382,  0.0213],
+        [-0.0583, -0.0305, -0.0802,  ..., -0.0189, -0.0337, -0.0628],
+        [-0.1410, -0.1885,  0.0290,  ..., -0.0563,  0.0361,  0.0475]],
+       device='cuda:0'), grad: tensor([[ 1.4994e-07,  0.0000e+00, -4.2841e-08,  ...,  6.6124e-08,
+          8.4750e-08,  0.0000e+00],
+        [ 2.0731e-06,  0.0000e+00,  3.2596e-08,  ...,  1.6810e-06,
+         -1.0934e-06,  0.0000e+00],
+        [ 6.6776e-07,  0.0000e+00,  2.1420e-08,  ...,  3.0734e-08,
+          7.6462e-07,  0.0000e+00],
+        ...,
+        [-4.1425e-06,  0.0000e+00,  5.1223e-08,  ..., -2.5332e-06,
+          2.3190e-07,  0.0000e+00],
+        [ 8.0094e-08,  0.0000e+00,  8.2888e-08,  ...,  2.9802e-08,
+          6.8918e-08,  0.0000e+00],
+        [ 5.2620e-07,  0.0000e+00,  8.8196e-07,  ...,  4.2468e-07,
+         -2.0862e-07,  0.0000e+00]], device='cuda:0')
+Epoch 185, bias, value: tensor([-0.0056,  0.0220,  0.0027, -0.0043,  0.0120,  0.0060,  0.0236, -0.0103,
+         0.0055, -0.0054], device='cuda:0'), grad: tensor([ 1.6671e-07,  5.0887e-06,  2.9076e-06,  1.7481e-06, -1.5274e-07,
+        -2.8033e-07, -1.3877e-06, -1.1422e-05,  4.6659e-07,  2.8554e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 184, time 217.34, cls_loss 0.0020 cls_loss_mapping 0.0033 cls_loss_causal 0.5266 re_mapping 0.0068 re_causal 0.0198 /// teacc 98.95 lr 0.00010000
+Epoch 186, weight, value: tensor([[-0.0548, -0.0931, -0.0579,  ..., -0.1046, -0.0160, -0.0323],
+        [-0.0504,  0.0432, -0.1566,  ...,  0.0568,  0.0672, -0.1276],
+        [ 0.0590, -0.0058, -0.0560,  ..., -0.0575, -0.0375,  0.0136],
+        ...,
+        [ 0.0565, -0.0556, -0.0118,  ...,  0.0215, -0.0383,  0.0212],
+        [-0.0586, -0.0308, -0.0785,  ..., -0.0201, -0.0335, -0.0629],
+        [-0.1411, -0.1887,  0.0287,  ..., -0.0570,  0.0361,  0.0475]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  0.0000e+00, -1.9092e-07,  ...,  0.0000e+00,
+          2.3097e-07,  0.0000e+00],
+        [ 6.1467e-08,  0.0000e+00,  1.2480e-07,  ...,  0.0000e+00,
+         -6.1281e-07,  0.0000e+00],
+        [-8.5682e-08,  0.0000e+00,  5.2154e-08,  ...,  0.0000e+00,
+          4.0978e-08,  0.0000e+00],
+        ...,
+        [ 2.1141e-07,  0.0000e+00,  2.0843e-06,  ...,  0.0000e+00,
+          1.1548e-07,  9.3132e-10],
+        [-3.3602e-06,  0.0000e+00,  6.7987e-08,  ...,  0.0000e+00,
+          2.4084e-06,  0.0000e+00],
+        [ 3.0063e-06,  0.0000e+00,  3.0279e-05,  ...,  0.0000e+00,
+         -2.7940e-08, -3.7253e-09]], device='cuda:0')
+Epoch 186, bias, value: tensor([-0.0056,  0.0219,  0.0027, -0.0043,  0.0123,  0.0053,  0.0230, -0.0104,
+         0.0073, -0.0055], device='cuda:0'), grad: tensor([-1.3756e-06,  5.6140e-06,  1.0943e-06,  7.5251e-07, -5.7906e-05,
+         2.9095e-06, -1.0684e-05,  6.6906e-06, -2.1085e-05,  7.3910e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 185, time 217.74, cls_loss 0.0022 cls_loss_mapping 0.0035 cls_loss_causal 0.5201 re_mapping 0.0067 re_causal 0.0185 /// teacc 99.01 lr 0.00010000
+Epoch 187, weight, value: tensor([[-0.0551, -0.0933, -0.0580,  ..., -0.1058, -0.0160, -0.0323],
+        [-0.0503,  0.0434, -0.1567,  ...,  0.0578,  0.0675, -0.1280],
+        [ 0.0588, -0.0061, -0.0567,  ..., -0.0578, -0.0380,  0.0134],
+        ...,
+        [ 0.0566, -0.0555, -0.0122,  ...,  0.0207, -0.0386,  0.0206],
+        [-0.0596, -0.0312, -0.0787,  ..., -0.0206, -0.0336, -0.0637],
+        [-0.1412, -0.1891,  0.0284,  ..., -0.0587,  0.0364,  0.0476]],
+       device='cuda:0'), grad: tensor([[ 3.4273e-07,  0.0000e+00,  6.4261e-08,  ...,  0.0000e+00,
+          1.7043e-07,  0.0000e+00],
+        [ 6.6496e-07,  0.0000e+00,  1.2107e-07,  ...,  0.0000e+00,
+         -2.0396e-07,  0.0000e+00],
+        [-1.7926e-05,  0.0000e+00,  1.6112e-07,  ...,  0.0000e+00,
+          2.8871e-08,  0.0000e+00],
+        ...,
+        [ 1.2584e-05,  0.0000e+00,  1.0263e-06,  ...,  0.0000e+00,
+          1.8226e-06,  4.8429e-08],
+        [ 4.0829e-06,  0.0000e+00,  1.2945e-07,  ...,  0.0000e+00,
+          7.9535e-07,  0.0000e+00],
+        [ 3.6135e-07,  0.0000e+00, -3.2820e-06,  ...,  0.0000e+00,
+         -2.6561e-06, -5.7742e-08]], device='cuda:0')
+Epoch 187, bias, value: tensor([-0.0055,  0.0221,  0.0024, -0.0041,  0.0121,  0.0050,  0.0241, -0.0106,
+         0.0072, -0.0053], device='cuda:0'), grad: tensor([ 2.3600e-06,  1.3169e-06, -2.9624e-05,  9.9465e-07,  1.6585e-05,
+         8.2105e-06, -9.0748e-06,  3.7760e-05,  1.7405e-05, -4.5925e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 186, time 217.68, cls_loss 0.0023 cls_loss_mapping 0.0040 cls_loss_causal 0.5198 re_mapping 0.0063 re_causal 0.0189 /// teacc 98.92 lr 0.00010000
+Epoch 188, weight, value: tensor([[-0.0553, -0.0941, -0.0582,  ..., -0.1067, -0.0162, -0.0323],
+        [-0.0504,  0.0444, -0.1573,  ...,  0.0578,  0.0676, -0.1281],
+        [ 0.0593, -0.0071, -0.0552,  ..., -0.0579, -0.0369,  0.0134],
+        ...,
+        [ 0.0565, -0.0558, -0.0124,  ...,  0.0207, -0.0390,  0.0195],
+        [-0.0602, -0.0324, -0.0787,  ..., -0.0209, -0.0323, -0.0639],
+        [-0.1407, -0.1899,  0.0281,  ..., -0.0607,  0.0369,  0.0476]],
+       device='cuda:0'), grad: tensor([[ 5.5507e-07,  0.0000e+00,  3.4925e-07,  ...,  0.0000e+00,
+          2.2352e-08,  0.0000e+00],
+        [ 7.9349e-07,  0.0000e+00,  6.1467e-08,  ...,  0.0000e+00,
+          5.3085e-08,  0.0000e+00],
+        [-1.7434e-05,  0.0000e+00,  8.5030e-07,  ...,  0.0000e+00,
+          1.3225e-07,  0.0000e+00],
+        ...,
+        [-4.6659e-07,  0.0000e+00,  5.4948e-08,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 1.7984e-06,  2.7940e-09,  1.5832e-07,  ...,  0.0000e+00,
+          8.5682e-08,  0.0000e+00],
+        [ 2.0638e-06,  0.0000e+00,  5.6997e-06,  ...,  0.0000e+00,
+         -2.4773e-07,  0.0000e+00]], device='cuda:0')
+Epoch 188, bias, value: tensor([-0.0055,  0.0220,  0.0032, -0.0042,  0.0124,  0.0048,  0.0240, -0.0109,
+         0.0081, -0.0052], device='cuda:0'), grad: tensor([ 1.1846e-06,  1.5805e-06, -4.0084e-05,  3.7253e-05, -1.7092e-05,
+         2.5891e-07,  1.2200e-07, -7.5344e-07,  3.8780e-06,  1.3664e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 187, time 217.32, cls_loss 0.0020 cls_loss_mapping 0.0034 cls_loss_causal 0.5193 re_mapping 0.0064 re_causal 0.0192 /// teacc 98.91 lr 0.00010000
+Epoch 189, weight, value: tensor([[-0.0554, -0.0953, -0.0581,  ..., -0.1068, -0.0164, -0.0323],
+        [-0.0505,  0.0446, -0.1574,  ...,  0.0593,  0.0681, -0.1284],
+        [ 0.0592, -0.0063, -0.0565,  ..., -0.0582, -0.0371,  0.0127],
+        ...,
+        [ 0.0565, -0.0565, -0.0119,  ...,  0.0196, -0.0394,  0.0195],
+        [-0.0607, -0.0328, -0.0795,  ..., -0.0212, -0.0324, -0.0647],
+        [-0.1407, -0.1907,  0.0285,  ..., -0.0607,  0.0370,  0.0476]],
+       device='cuda:0'), grad: tensor([[ 1.5339e-06,  9.2201e-08,  4.7497e-08,  ...,  1.8626e-09,
+          1.5553e-07,  3.7253e-09],
+        [-5.2340e-07, -3.1143e-06,  3.9861e-07,  ...,  4.0978e-08,
+         -5.1856e-06,  2.0489e-08],
+        [-2.5079e-05,  6.6031e-07,  5.6811e-08,  ...,  3.7253e-09,
+          1.0421e-06,  8.3819e-09],
+        ...,
+        [ 3.1106e-06,  1.7853e-06,  7.7952e-07,  ...,  3.7253e-09,
+          2.9616e-06,  2.7940e-08],
+        [ 1.5395e-06,  1.9558e-07,  7.8231e-08,  ...,  0.0000e+00,
+          3.1292e-07,  4.9360e-08],
+        [ 1.0505e-06,  1.3970e-07,  2.2426e-06,  ...,  1.1828e-07,
+          2.2911e-07,  6.5193e-08]], device='cuda:0')
+Epoch 189, bias, value: tensor([-0.0055,  0.0223,  0.0030, -0.0042,  0.0123,  0.0047,  0.0245, -0.0111,
+         0.0076, -0.0052], device='cuda:0'), grad: tensor([ 1.1865e-06, -8.8587e-06, -4.2409e-05, -5.9485e-05, -9.2685e-06,
+         9.1076e-05,  2.1942e-06,  1.2279e-05,  3.5465e-06,  9.6038e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 188, time 217.87, cls_loss 0.0019 cls_loss_mapping 0.0027 cls_loss_causal 0.5406 re_mapping 0.0064 re_causal 0.0199 /// teacc 98.99 lr 0.00010000
+Epoch 190, weight, value: tensor([[-0.0557, -0.0962, -0.0581,  ..., -0.1073, -0.0163, -0.0323],
+        [-0.0505,  0.0448, -0.1578,  ...,  0.0610,  0.0685, -0.1292],
+        [ 0.0596, -0.0063, -0.0563,  ..., -0.0582, -0.0371,  0.0127],
+        ...,
+        [ 0.0565, -0.0566, -0.0121,  ...,  0.0180, -0.0397,  0.0198],
+        [-0.0611, -0.0326, -0.0796,  ..., -0.0214, -0.0332, -0.0649],
+        [-0.1408, -0.1916,  0.0284,  ..., -0.0611,  0.0370,  0.0476]],
+       device='cuda:0'), grad: tensor([[ 4.8429e-08,  3.4273e-07,  1.2852e-07,  ...,  2.7940e-09,
+          1.7975e-07,  0.0000e+00],
+        [-1.0589e-06, -1.9640e-05,  2.3283e-07,  ...,  6.5193e-09,
+         -4.0047e-07,  0.0000e+00],
+        [ 2.2165e-07,  1.2331e-05,  1.1455e-07,  ...,  3.7253e-09,
+          3.2783e-07,  0.0000e+00],
+        ...,
+        [ 2.0582e-07,  7.9721e-07,  2.6450e-07,  ...,  5.1223e-08,
+          1.2740e-06,  0.0000e+00],
+        [ 8.1025e-08,  1.8906e-07,  2.5053e-07,  ...,  9.3132e-10,
+         -2.5108e-06,  0.0000e+00],
+        [-5.1223e-08,  2.9802e-08,  2.7698e-06,  ...,  4.6566e-09,
+         -2.4009e-06,  0.0000e+00]], device='cuda:0')
+Epoch 190, bias, value: tensor([-0.0052,  0.0227,  0.0035, -0.0040,  0.0123,  0.0033,  0.0253, -0.0114,
+         0.0076, -0.0052], device='cuda:0'), grad: tensor([ 2.0191e-06, -7.1228e-05,  4.4823e-05,  4.6268e-06,  6.1393e-06,
+         1.7136e-05,  7.8678e-06,  8.6725e-06, -1.5676e-05, -4.4778e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 189, time 217.83, cls_loss 0.0023 cls_loss_mapping 0.0035 cls_loss_causal 0.5231 re_mapping 0.0063 re_causal 0.0190 /// teacc 98.96 lr 0.00010000
+Epoch 191, weight, value: tensor([[-0.0559, -0.0985, -0.0588,  ..., -0.1076, -0.0170, -0.0324],
+        [-0.0501,  0.0477, -0.1580,  ...,  0.0612,  0.0687, -0.1306],
+        [ 0.0588, -0.0090, -0.0593,  ..., -0.0583, -0.0379,  0.0126],
+        ...,
+        [ 0.0566, -0.0575, -0.0122,  ...,  0.0179, -0.0396,  0.0192],
+        [-0.0611, -0.0319, -0.0797,  ..., -0.0215, -0.0339, -0.0655],
+        [-0.1412, -0.1933,  0.0307,  ..., -0.0612,  0.0371,  0.0478]],
+       device='cuda:0'), grad: tensor([[ 1.9372e-07,  0.0000e+00,  7.4506e-08,  ...,  0.0000e+00,
+          1.6019e-07,  1.6578e-07],
+        [ 4.8056e-07,  0.0000e+00,  4.1071e-07,  ...,  0.0000e+00,
+         -8.9221e-07,  2.7940e-09],
+        [ 1.8701e-06,  0.0000e+00,  1.8813e-07,  ...,  0.0000e+00,
+          1.2945e-07,  1.6764e-08],
+        ...,
+        [ 4.8243e-06,  0.0000e+00,  7.8976e-07,  ...,  0.0000e+00,
+          8.7265e-07,  0.0000e+00],
+        [ 7.1060e-07,  0.0000e+00,  3.9302e-07,  ...,  0.0000e+00,
+         -4.9919e-07,  1.6484e-07],
+        [ 1.2619e-06,  0.0000e+00,  1.7649e-06,  ...,  0.0000e+00,
+          4.1351e-07,  7.4506e-09]], device='cuda:0')
+Epoch 191, bias, value: tensor([-0.0056,  0.0231,  0.0017, -0.0038,  0.0125,  0.0014,  0.0254, -0.0113,
+         0.0074, -0.0046], device='cuda:0'), grad: tensor([ 2.2724e-06, -1.3318e-07,  2.1532e-06, -1.0058e-05, -4.9174e-06,
+        -1.0151e-07, -4.2915e-06,  8.5682e-06, -2.0396e-07,  6.6534e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 190----------------------------------------------------
+epoch 190, time 218.54, cls_loss 0.0026 cls_loss_mapping 0.0034 cls_loss_causal 0.5075 re_mapping 0.0065 re_causal 0.0187 /// teacc 99.13 lr 0.00010000
+Epoch 192, weight, value: tensor([[-0.0564, -0.1009, -0.0593,  ..., -0.1078, -0.0182, -0.0324],
+        [-0.0500,  0.0478, -0.1583,  ...,  0.0612,  0.0689, -0.1308],
+        [ 0.0549, -0.0103, -0.0633,  ..., -0.0583, -0.0407,  0.0126],
+        ...,
+        [ 0.0572, -0.0554, -0.0125,  ...,  0.0179, -0.0394,  0.0192],
+        [-0.0620, -0.0329, -0.0800,  ..., -0.0216, -0.0335, -0.0655],
+        [-0.1417, -0.1968,  0.0305,  ..., -0.0612,  0.0378,  0.0478]],
+       device='cuda:0'), grad: tensor([[ 1.4715e-07,  0.0000e+00,  1.6764e-08,  ...,  0.0000e+00,
+          5.8673e-08,  0.0000e+00],
+        [-9.4064e-08,  9.3132e-10,  5.5879e-09,  ...,  0.0000e+00,
+         -3.1013e-06,  0.0000e+00],
+        [ 6.9570e-07,  9.3132e-10,  1.8626e-09,  ...,  0.0000e+00,
+          8.5682e-07,  0.0000e+00],
+        ...,
+        [ 2.1327e-07, -1.7695e-08,  7.4506e-09,  ...,  0.0000e+00,
+          1.7565e-06,  0.0000e+00],
+        [-5.7742e-08,  1.8626e-09,  1.6287e-05,  ...,  0.0000e+00,
+          4.7088e-06,  0.0000e+00],
+        [ 8.6613e-08,  1.8626e-09, -1.7077e-05,  ...,  0.0000e+00,
+         -5.1893e-06,  0.0000e+00]], device='cuda:0')
+Epoch 192, bias, value: tensor([-0.0063,  0.0232, -0.0031, -0.0041,  0.0126,  0.0044,  0.0250, -0.0107,
+         0.0071, -0.0044], device='cuda:0'), grad: tensor([-8.1584e-07, -7.7188e-06,  2.5351e-06, -2.5053e-06,  2.0508e-06,
+         2.9467e-06,  2.2277e-06,  5.1036e-06,  3.5316e-05, -3.9220e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 191, time 217.78, cls_loss 0.0013 cls_loss_mapping 0.0023 cls_loss_causal 0.4607 re_mapping 0.0063 re_causal 0.0180 /// teacc 98.80 lr 0.00010000
+Epoch 193, weight, value: tensor([[-0.0561, -0.1010, -0.0593,  ..., -0.1079, -0.0184, -0.0324],
+        [-0.0504,  0.0478, -0.1585,  ...,  0.0612,  0.0689, -0.1308],
+        [ 0.0550, -0.0103, -0.0634,  ..., -0.0583, -0.0411,  0.0126],
+        ...,
+        [ 0.0574, -0.0554, -0.0136,  ...,  0.0179, -0.0394,  0.0192],
+        [-0.0623, -0.0326, -0.0802,  ..., -0.0217, -0.0336, -0.0656],
+        [-0.1419, -0.1969,  0.0305,  ..., -0.0612,  0.0380,  0.0478]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-08,  0.0000e+00,  6.2399e-08,  ...,  0.0000e+00,
+          3.9116e-08,  0.0000e+00],
+        [ 1.1455e-07,  0.0000e+00,  1.1548e-07,  ...,  9.3132e-10,
+         -2.7940e-07,  0.0000e+00],
+        [-2.2277e-06,  0.0000e+00,  5.7742e-08,  ...,  0.0000e+00,
+          3.0734e-08,  0.0000e+00],
+        ...,
+        [ 4.8578e-06, -9.3132e-10,  1.5274e-07,  ..., -3.7253e-09,
+          2.7101e-07,  0.0000e+00],
+        [ 1.0421e-06,  0.0000e+00,  9.4716e-07,  ...,  0.0000e+00,
+          6.7335e-07,  0.0000e+00],
+        [-2.3469e-06,  0.0000e+00, -8.0541e-06,  ...,  9.3132e-10,
+         -6.3926e-06,  0.0000e+00]], device='cuda:0')
+Epoch 193, bias, value: tensor([-0.0063,  0.0229, -0.0032, -0.0041,  0.0125,  0.0045,  0.0251, -0.0106,
+         0.0069, -0.0043], device='cuda:0'), grad: tensor([ 1.2601e-06, -1.0058e-07, -2.3302e-06,  4.3511e-05, -9.2667e-07,
+         1.4929e-06,  2.5891e-07,  7.1712e-06,  5.6811e-06, -5.6058e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 192, time 217.55, cls_loss 0.0022 cls_loss_mapping 0.0027 cls_loss_causal 0.4963 re_mapping 0.0064 re_causal 0.0185 /// teacc 99.02 lr 0.00010000
+Epoch 194, weight, value: tensor([[-0.0559, -0.1018, -0.0595,  ..., -0.1079, -0.0187, -0.0324],
+        [-0.0507,  0.0484, -0.1586,  ...,  0.0612,  0.0690, -0.1311],
+        [ 0.0552, -0.0105, -0.0633,  ..., -0.0583, -0.0413,  0.0129],
+        ...,
+        [ 0.0573, -0.0561, -0.0134,  ...,  0.0180, -0.0395,  0.0189],
+        [-0.0629, -0.0313, -0.0803,  ..., -0.0219, -0.0337, -0.0657],
+        [-0.1417, -0.1972,  0.0308,  ..., -0.0612,  0.0386,  0.0478]],
+       device='cuda:0'), grad: tensor([[ 6.6124e-08,  0.0000e+00, -1.5749e-06,  ...,  0.0000e+00,
+          3.7253e-08,  2.7940e-09],
+        [ 4.4666e-06,  0.0000e+00,  4.6566e-09,  ...,  0.0000e+00,
+          9.4716e-07,  4.6566e-08],
+        [-1.3016e-05,  0.0000e+00,  1.2107e-08,  ...,  0.0000e+00,
+         -5.3458e-06,  1.8626e-08],
+        ...,
+        [-8.2105e-06,  0.0000e+00,  9.3132e-09,  ...,  0.0000e+00,
+         -1.1446e-06, -2.3935e-07],
+        [ 1.4435e-07,  0.0000e+00,  8.3819e-08,  ...,  0.0000e+00,
+          1.4994e-07,  8.3819e-09],
+        [ 1.2061e-06,  0.0000e+00,  4.7218e-07,  ...,  0.0000e+00,
+         -1.2759e-07,  5.5879e-08]], device='cuda:0')
+Epoch 194, bias, value: tensor([-0.0071,  0.0228, -0.0029, -0.0041,  0.0121,  0.0047,  0.0248, -0.0108,
+         0.0068, -0.0035], device='cuda:0'), grad: tensor([-8.2403e-06,  1.9744e-05, -8.9824e-05,  6.2846e-06,  4.1910e-06,
+         1.0291e-06,  9.0480e-05, -2.6152e-05,  2.3749e-07,  2.1402e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 193, time 217.64, cls_loss 0.0020 cls_loss_mapping 0.0040 cls_loss_causal 0.5150 re_mapping 0.0060 re_causal 0.0186 /// teacc 98.87 lr 0.00010000
+Epoch 195, weight, value: tensor([[-0.0560, -0.1023, -0.0593,  ..., -0.1092, -0.0187, -0.0324],
+        [-0.0494,  0.0485, -0.1588,  ...,  0.0612,  0.0702, -0.1329],
+        [ 0.0555, -0.0100, -0.0633,  ..., -0.0587, -0.0413,  0.0128],
+        ...,
+        [ 0.0564, -0.0569, -0.0131,  ...,  0.0187, -0.0407,  0.0198],
+        [-0.0635, -0.0286, -0.0805,  ..., -0.0237, -0.0343, -0.0658],
+        [-0.1417, -0.1975,  0.0304,  ..., -0.0614,  0.0388,  0.0478]],
+       device='cuda:0'), grad: tensor([[ 3.0734e-08,  0.0000e+00,  4.4238e-08,  ...,  1.1176e-08,
+          1.5907e-06,  0.0000e+00],
+        [ 5.3504e-07,  9.3132e-10,  1.5181e-07,  ...,  2.6077e-08,
+         -6.4790e-05,  0.0000e+00],
+        [ 1.3132e-07,  0.0000e+00,  4.2375e-08,  ...,  1.0710e-08,
+          3.1441e-05,  0.0000e+00],
+        ...,
+        [-1.4473e-06, -1.8626e-09,  2.0768e-07,  ...,  5.3551e-08,
+          1.1120e-06,  0.0000e+00],
+        [ 9.9652e-08,  0.0000e+00,  5.8208e-08,  ...,  5.1223e-09,
+          2.7835e-05,  0.0000e+00],
+        [ 2.9476e-07,  0.0000e+00,  1.7919e-06,  ...,  3.1339e-07,
+          8.3353e-08,  0.0000e+00]], device='cuda:0')
+Epoch 195, bias, value: tensor([-0.0069,  0.0242, -0.0026, -0.0042,  0.0122,  0.0045,  0.0248, -0.0119,
+         0.0071, -0.0037], device='cuda:0'), grad: tensor([ 3.6284e-06, -1.4067e-04,  6.9082e-05,  3.7532e-07, -6.2436e-06,
+         1.4976e-06,  5.6848e-06,  7.6927e-07,  6.1214e-05,  4.6268e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 194, time 217.62, cls_loss 0.0022 cls_loss_mapping 0.0035 cls_loss_causal 0.5276 re_mapping 0.0060 re_causal 0.0191 /// teacc 98.90 lr 0.00010000
+Epoch 196, weight, value: tensor([[-0.0561, -0.1033, -0.0594,  ..., -0.1103, -0.0213, -0.0324],
+        [-0.0495,  0.0485, -0.1590,  ...,  0.0612,  0.0703, -0.1334],
+        [ 0.0563, -0.0076, -0.0632,  ..., -0.0588, -0.0417,  0.0128],
+        ...,
+        [ 0.0562, -0.0595, -0.0136,  ...,  0.0187, -0.0407,  0.0200],
+        [-0.0639, -0.0286, -0.0806,  ..., -0.0242, -0.0348, -0.0658],
+        [-0.1419, -0.1980,  0.0303,  ..., -0.0613,  0.0401,  0.0478]],
+       device='cuda:0'), grad: tensor([[ 4.9360e-08,  0.0000e+00,  3.4925e-08,  ...,  8.3819e-09,
+          1.4529e-07,  0.0000e+00],
+        [ 3.1758e-07,  0.0000e+00,  9.6858e-08,  ...,  1.7695e-08,
+         -3.7719e-08,  0.0000e+00],
+        [-5.3868e-06,  0.0000e+00, -8.4145e-07,  ...,  1.8626e-08,
+          1.7695e-08,  0.0000e+00],
+        ...,
+        [-4.7218e-07,  0.0000e+00,  3.5018e-07,  ...,  1.0291e-07,
+          3.1199e-08,  0.0000e+00],
+        [ 6.6124e-08,  0.0000e+00, -3.3341e-07,  ...,  1.8626e-09,
+         -3.5390e-08,  0.0000e+00],
+        [ 5.2154e-08,  0.0000e+00,  5.9092e-07,  ...,  1.1642e-08,
+         -2.6450e-07,  0.0000e+00]], device='cuda:0')
+Epoch 196, bias, value: tensor([-0.0090,  0.0242, -0.0018, -0.0041,  0.0124,  0.0045,  0.0242, -0.0122,
+         0.0069, -0.0023], device='cuda:0'), grad: tensor([ 8.5980e-06,  1.0505e-06, -6.4299e-06,  1.0617e-06, -1.9446e-06,
+         8.2701e-06, -2.0280e-05, -5.0105e-07,  8.1286e-06,  2.0191e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 195, time 218.00, cls_loss 0.0015 cls_loss_mapping 0.0026 cls_loss_causal 0.5352 re_mapping 0.0064 re_causal 0.0190 /// teacc 98.94 lr 0.00010000
+Epoch 197, weight, value: tensor([[-0.0559, -0.1038, -0.0593,  ..., -0.1106, -0.0215, -0.0324],
+        [-0.0495,  0.0485, -0.1592,  ...,  0.0611,  0.0705, -0.1337],
+        [ 0.0567, -0.0072, -0.0629,  ..., -0.0589, -0.0419,  0.0133],
+        ...,
+        [ 0.0562, -0.0598, -0.0135,  ...,  0.0187, -0.0408,  0.0193],
+        [-0.0646, -0.0285, -0.0807,  ..., -0.0245, -0.0362, -0.0660],
+        [-0.1419, -0.1988,  0.0303,  ..., -0.0610,  0.0402,  0.0478]],
+       device='cuda:0'), grad: tensor([[-1.1688e-07,  0.0000e+00,  3.8883e-07,  ...,  1.8626e-09,
+          6.7987e-08,  0.0000e+00],
+        [ 3.2177e-07,  0.0000e+00,  2.2305e-07,  ...,  9.7789e-09,
+         -8.3353e-08,  0.0000e+00],
+        [ 7.3528e-07,  0.0000e+00,  1.4482e-07,  ...,  2.3283e-09,
+          1.9558e-07,  0.0000e+00],
+        ...,
+        [ 8.3167e-07,  0.0000e+00,  7.4971e-07,  ...,  4.7963e-08,
+          1.1129e-07,  0.0000e+00],
+        [ 5.8115e-07,  0.0000e+00,  1.7490e-06,  ...,  4.6566e-10,
+          5.6811e-08,  0.0000e+00],
+        [ 1.5358e-06,  0.0000e+00,  4.4517e-06,  ...,  1.3970e-08,
+          1.0617e-07,  0.0000e+00]], device='cuda:0')
+Epoch 197, bias, value: tensor([-0.0087,  0.0243, -0.0016, -0.0041,  0.0123,  0.0043,  0.0238, -0.0123,
+         0.0063, -0.0023], device='cuda:0'), grad: tensor([-1.9390e-06,  4.6426e-07,  2.5649e-06,  7.7128e-05,  1.9874e-06,
+        -9.3937e-05, -6.4820e-06,  2.4643e-06,  4.3772e-06,  1.3426e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 196, time 217.69, cls_loss 0.0016 cls_loss_mapping 0.0029 cls_loss_causal 0.5102 re_mapping 0.0061 re_causal 0.0183 /// teacc 98.95 lr 0.00010000
+Epoch 198, weight, value: tensor([[-0.0553, -0.1042, -0.0594,  ..., -0.1115, -0.0203, -0.0324],
+        [-0.0496,  0.0486, -0.1594,  ...,  0.0614,  0.0704, -0.1337],
+        [ 0.0570, -0.0072, -0.0629,  ..., -0.0589, -0.0423,  0.0133],
+        ...,
+        [ 0.0562, -0.0599, -0.0138,  ...,  0.0184, -0.0408,  0.0193],
+        [-0.0661, -0.0282, -0.0810,  ..., -0.0248, -0.0366, -0.0660],
+        [-0.1421, -0.1994,  0.0307,  ..., -0.0607,  0.0405,  0.0478]],
+       device='cuda:0'), grad: tensor([[-4.8168e-06,  0.0000e+00,  1.0710e-08,  ...,  0.0000e+00,
+         -5.8264e-06,  0.0000e+00],
+        [ 2.8554e-06,  9.3132e-10,  8.2888e-08,  ...,  4.6566e-10,
+          1.5646e-06,  0.0000e+00],
+        [ 3.4273e-06, -4.1910e-09,  1.2573e-08,  ...,  0.0000e+00,
+          6.5286e-07,  0.0000e+00],
+        ...,
+        [-4.3064e-06,  2.7940e-09,  4.4703e-08,  ...,  9.3132e-10,
+          3.6322e-07,  0.0000e+00],
+        [ 4.5309e-07,  0.0000e+00,  1.7229e-08,  ...,  0.0000e+00,
+          1.2247e-07,  4.6566e-10],
+        [ 2.3469e-07,  0.0000e+00,  2.4401e-07,  ...,  2.3283e-09,
+          2.3423e-07,  0.0000e+00]], device='cuda:0')
+Epoch 198, bias, value: tensor([-0.0077,  0.0241, -0.0015, -0.0044,  0.0123,  0.0042,  0.0239, -0.0124,
+         0.0050, -0.0023], device='cuda:0'), grad: tensor([-3.3975e-05,  1.3359e-05,  7.4357e-06,  1.5944e-06,  3.2457e-07,
+        -1.4855e-07,  1.3851e-05, -5.1409e-06,  9.0431e-07,  1.8040e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 197, time 217.76, cls_loss 0.0023 cls_loss_mapping 0.0036 cls_loss_causal 0.5214 re_mapping 0.0064 re_causal 0.0179 /// teacc 98.89 lr 0.00010000
+Epoch 199, weight, value: tensor([[-0.0551, -0.1055, -0.0586,  ..., -0.1120, -0.0202, -0.0324],
+        [-0.0494,  0.0486, -0.1595,  ...,  0.0612,  0.0706, -0.1345],
+        [ 0.0567, -0.0073, -0.0626,  ..., -0.0592, -0.0431,  0.0136],
+        ...,
+        [ 0.0563, -0.0597, -0.0141,  ...,  0.0190, -0.0409,  0.0195],
+        [-0.0657, -0.0283, -0.0811,  ..., -0.0251, -0.0361, -0.0663],
+        [-0.1426, -0.2014,  0.0302,  ..., -0.0626,  0.0406,  0.0478]],
+       device='cuda:0'), grad: tensor([[ 7.3668e-07,  9.3132e-10,  1.8813e-07,  ...,  0.0000e+00,
+          2.0210e-07,  1.6764e-08],
+        [ 3.2410e-06,  2.5146e-08,  7.4226e-07,  ...,  9.3132e-10,
+          2.8964e-07,  7.4506e-09],
+        [ 4.4592e-06,  1.7695e-08,  9.4436e-07,  ...,  9.3132e-10,
+          7.5996e-07,  1.1176e-08],
+        ...,
+        [-2.0385e-05, -6.7055e-08,  1.2452e-06,  ..., -1.2107e-08,
+         -4.1537e-06,  2.3842e-07],
+        [-1.3702e-05,  9.3132e-09, -6.6943e-06,  ...,  0.0000e+00,
+         -1.0058e-05,  9.3132e-09],
+        [ 1.7971e-05,  7.4506e-09,  8.9128e-07,  ...,  0.0000e+00,
+          1.1697e-05, -2.9430e-07]], device='cuda:0')
+Epoch 199, bias, value: tensor([-0.0066,  0.0242, -0.0018, -0.0045,  0.0124,  0.0046,  0.0243, -0.0122,
+         0.0054, -0.0036], device='cuda:0'), grad: tensor([ 2.0191e-06,  9.6858e-06,  1.3098e-05,  1.1854e-05,  1.3299e-05,
+         8.8010e-07, -1.8626e-08, -5.0873e-05, -9.9599e-05,  9.9659e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 198, time 217.76, cls_loss 0.0025 cls_loss_mapping 0.0038 cls_loss_causal 0.5459 re_mapping 0.0061 re_causal 0.0182 /// teacc 98.90 lr 0.00010000
+Epoch 200, weight, value: tensor([[-0.0557, -0.1071, -0.0590,  ..., -0.1147, -0.0204, -0.0324],
+        [-0.0494,  0.0491, -0.1600,  ...,  0.0614,  0.0709, -0.1355],
+        [ 0.0565, -0.0077, -0.0625,  ..., -0.0595, -0.0434,  0.0117],
+        ...,
+        [ 0.0565, -0.0596, -0.0155,  ...,  0.0187, -0.0410,  0.0189],
+        [-0.0661, -0.0266, -0.0825,  ..., -0.0281, -0.0365, -0.0693],
+        [-0.1430, -0.2037,  0.0285,  ..., -0.0653,  0.0397,  0.0478]],
+       device='cuda:0'), grad: tensor([[ 5.6811e-08,  9.3132e-10,  3.4459e-08,  ...,  1.4622e-07,
+          6.3330e-07,  2.7940e-09],
+        [ 6.2399e-07,  9.3132e-09,  1.8626e-08,  ..., -4.4346e-05,
+         -5.9754e-05,  2.8871e-08],
+        [-1.0710e-06,  2.7940e-09,  1.8626e-09,  ...,  1.0431e-07,
+          2.7847e-07,  7.4506e-09],
+        ...,
+        [ 5.6531e-07,  7.4506e-09,  2.7940e-08,  ...,  3.6180e-05,
+          4.7743e-05,  2.3283e-08],
+        [ 2.6356e-07,  2.0489e-08,  1.4808e-07,  ...,  2.7940e-09,
+          2.4121e-07,  5.5879e-08],
+        [ 2.1979e-07,  1.6764e-08,  1.3784e-07,  ...,  4.5113e-06,
+          5.9046e-06,  5.1223e-08]], device='cuda:0')
+Epoch 200, bias, value: tensor([-0.0068,  0.0244, -0.0021, -0.0049,  0.0147,  0.0054,  0.0251, -0.0122,
+         0.0047, -0.0056], device='cuda:0'), grad: tensor([ 1.7108e-06, -2.0659e-04, -7.8697e-07, -6.5029e-05,  1.6347e-05,
+         6.3658e-05,  5.0478e-07,  1.6820e-04,  1.1297e-06,  2.1100e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 199, time 217.80, cls_loss 0.0022 cls_loss_mapping 0.0039 cls_loss_causal 0.5363 re_mapping 0.0064 re_causal 0.0190 /// teacc 98.85 lr 0.00001000
+Epoch 201, weight, value: tensor([[-0.0558, -0.1075, -0.0597,  ..., -0.1150, -0.0204, -0.0324],
+        [-0.0494,  0.0489, -0.1612,  ...,  0.0615,  0.0709, -0.1365],
+        [ 0.0563, -0.0076, -0.0633,  ..., -0.0596, -0.0440,  0.0089],
+        ...,
+        [ 0.0566, -0.0597, -0.0167,  ...,  0.0187, -0.0411,  0.0182],
+        [-0.0664, -0.0264, -0.0824,  ..., -0.0285, -0.0351, -0.0708],
+        [-0.1432, -0.2039,  0.0286,  ..., -0.0658,  0.0400,  0.0480]],
+       device='cuda:0'), grad: tensor([[ 1.5739e-07,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.0338e-08,  0.0000e+00],
+        [ 4.1984e-06,  0.0000e+00,  3.4180e-07,  ...,  0.0000e+00,
+          1.9372e-06,  0.0000e+00],
+        [ 2.9579e-06,  0.0000e+00,  1.6764e-08,  ...,  0.0000e+00,
+          2.7195e-06,  0.0000e+00],
+        ...,
+        [-4.7237e-05,  0.0000e+00,  3.6992e-06,  ...,  0.0000e+00,
+         -2.3842e-05, -9.3132e-10],
+        [ 5.6103e-06,  0.0000e+00,  5.3570e-06,  ...,  0.0000e+00,
+          3.3602e-06,  9.3132e-10],
+        [ 3.3200e-05,  0.0000e+00, -2.1994e-05,  ...,  0.0000e+00,
+          1.4156e-05,  0.0000e+00]], device='cuda:0')
+Epoch 201, bias, value: tensor([-0.0068,  0.0244, -0.0026, -0.0052,  0.0149,  0.0056,  0.0250, -0.0123,
+         0.0057, -0.0054], device='cuda:0'), grad: tensor([ 1.4668e-06,  3.3379e-05,  4.2379e-05,  1.5264e-06,  3.7491e-05,
+         9.4026e-06,  9.5926e-08, -4.4703e-04,  7.0095e-05,  2.5082e-04],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 200, time 217.27, cls_loss 0.0020 cls_loss_mapping 0.0034 cls_loss_causal 0.5173 re_mapping 0.0064 re_causal 0.0187 /// teacc 98.95 lr 0.00001000
+Epoch 202, weight, value: tensor([[-0.0558, -0.1076, -0.0598,  ..., -0.1151, -0.0204, -0.0325],
+        [-0.0495,  0.0490, -0.1613,  ...,  0.0615,  0.0709, -0.1365],
+        [ 0.0563, -0.0076, -0.0633,  ..., -0.0596, -0.0440,  0.0089],
+        ...,
+        [ 0.0566, -0.0597, -0.0167,  ...,  0.0187, -0.0411,  0.0181],
+        [-0.0664, -0.0263, -0.0824,  ..., -0.0285, -0.0350, -0.0709],
+        [-0.1433, -0.2039,  0.0287,  ..., -0.0659,  0.0400,  0.0480]],
+       device='cuda:0'), grad: tensor([[ 7.7300e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.7695e-08,  0.0000e+00],
+        [ 1.8533e-07,  0.0000e+00,  4.6566e-09,  ...,  0.0000e+00,
+         -4.2841e-08,  0.0000e+00],
+        [-4.6752e-07,  0.0000e+00, -1.2107e-08,  ...,  0.0000e+00,
+          1.9558e-08,  0.0000e+00],
+        ...,
+        [ 1.5115e-06,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          3.6787e-07,  0.0000e+00],
+        [ 7.6368e-08,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          4.6566e-08,  0.0000e+00],
+        [ 1.4808e-07,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+         -7.7114e-07,  0.0000e+00]], device='cuda:0')
+Epoch 202, bias, value: tensor([-0.0068,  0.0244, -0.0026, -0.0051,  0.0148,  0.0056,  0.0250, -0.0123,
+         0.0058, -0.0054], device='cuda:0'), grad: tensor([-2.4475e-06,  6.0629e-07, -1.9027e-06, -1.8049e-06,  1.6913e-06,
+         2.6543e-07, -1.1642e-07,  2.5313e-06,  5.5693e-07,  6.2771e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 201, time 217.37, cls_loss 0.0018 cls_loss_mapping 0.0024 cls_loss_causal 0.5187 re_mapping 0.0058 re_causal 0.0183 /// teacc 98.99 lr 0.00001000
+Epoch 203, weight, value: tensor([[-0.0558, -0.1076, -0.0598,  ..., -0.1151, -0.0204, -0.0325],
+        [-0.0496,  0.0490, -0.1613,  ...,  0.0615,  0.0709, -0.1366],
+        [ 0.0563, -0.0076, -0.0633,  ..., -0.0596, -0.0441,  0.0089],
+        ...,
+        [ 0.0567, -0.0597, -0.0168,  ...,  0.0187, -0.0411,  0.0181],
+        [-0.0664, -0.0263, -0.0824,  ..., -0.0285, -0.0350, -0.0709],
+        [-0.1433, -0.2040,  0.0286,  ..., -0.0659,  0.0401,  0.0480]],
+       device='cuda:0'), grad: tensor([[ 1.7323e-07,  9.3132e-10,  6.5193e-09,  ...,  0.0000e+00,
+          1.4901e-08,  0.0000e+00],
+        [ 4.9453e-07, -1.0338e-07,  7.1153e-07,  ...,  0.0000e+00,
+         -8.5682e-08,  0.0000e+00],
+        [-5.2713e-06,  6.7987e-08,  3.0734e-08,  ...,  0.0000e+00,
+          5.8673e-08,  0.0000e+00],
+        ...,
+        [ 6.1467e-07,  2.0489e-08,  9.0525e-07,  ...,  0.0000e+00,
+          7.7765e-07,  0.0000e+00],
+        [ 3.8445e-06,  9.3132e-10,  1.1176e-08,  ...,  0.0000e+00,
+          3.2596e-08,  0.0000e+00],
+        [-4.9546e-07,  0.0000e+00, -9.7603e-07,  ...,  0.0000e+00,
+         -1.0189e-06,  0.0000e+00]], device='cuda:0')
+Epoch 203, bias, value: tensor([-0.0068,  0.0242, -0.0026, -0.0051,  0.0148,  0.0055,  0.0249, -0.0122,
+         0.0058, -0.0054], device='cuda:0'), grad: tensor([-4.6939e-07,  1.6829e-06, -1.3433e-05,  6.0815e-07,  1.9409e-06,
+         5.5321e-07,  5.7556e-07,  1.0334e-05,  9.3132e-06, -1.1131e-05],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 202, time 217.21, cls_loss 0.0014 cls_loss_mapping 0.0016 cls_loss_causal 0.5039 re_mapping 0.0056 re_causal 0.0177 /// teacc 99.04 lr 0.00001000
+Epoch 204, weight, value: tensor([[-0.0558, -0.1077, -0.0599,  ..., -0.1151, -0.0204, -0.0325],
+        [-0.0496,  0.0490, -0.1613,  ...,  0.0615,  0.0709, -0.1367],
+        [ 0.0564, -0.0076, -0.0633,  ..., -0.0596, -0.0441,  0.0089],
+        ...,
+        [ 0.0567, -0.0597, -0.0169,  ...,  0.0187, -0.0411,  0.0181],
+        [-0.0665, -0.0264, -0.0824,  ..., -0.0286, -0.0350, -0.0709],
+        [-0.1433, -0.2040,  0.0286,  ..., -0.0659,  0.0401,  0.0480]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00,  5.1223e-08,  ...,  9.3132e-10,
+          2.7940e-08,  9.3132e-10],
+        [ 4.9360e-08,  0.0000e+00,  3.1907e-06,  ...,  9.3132e-09,
+          7.2643e-08,  0.0000e+00],
+        [-1.9558e-08,  0.0000e+00,  1.0431e-07,  ...,  1.8626e-09,
+          3.5390e-08,  0.0000e+00],
+        ...,
+        [-1.9558e-08,  0.0000e+00,  2.5444e-06,  ...,  4.7497e-08,
+          2.9523e-07,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  1.5087e-07,  ...,  0.0000e+00,
+          1.4342e-07,  1.8626e-09],
+        [ 2.7940e-09,  0.0000e+00,  6.3144e-06,  ...,  5.5879e-09,
+          1.6391e-07,  0.0000e+00]], device='cuda:0')
+Epoch 204, bias, value: tensor([-0.0068,  0.0242, -0.0026, -0.0051,  0.0149,  0.0055,  0.0249, -0.0121,
+         0.0058, -0.0054], device='cuda:0'), grad: tensor([ 2.1327e-07,  1.0818e-05,  3.7812e-07,  1.4342e-07, -3.7342e-05,
+         6.9756e-07, -8.4843e-07,  7.5474e-06,  9.1828e-07,  1.7449e-05],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 203, time 217.32, cls_loss 0.0016 cls_loss_mapping 0.0016 cls_loss_causal 0.4828 re_mapping 0.0055 re_causal 0.0171 /// teacc 99.02 lr 0.00001000
+Epoch 205, weight, value: tensor([[-0.0558, -0.1078, -0.0599,  ..., -0.1151, -0.0205, -0.0325],
+        [-0.0497,  0.0490, -0.1614,  ...,  0.0616,  0.0709, -0.1367],
+        [ 0.0564, -0.0076, -0.0633,  ..., -0.0596, -0.0441,  0.0088],
+        ...,
+        [ 0.0568, -0.0597, -0.0169,  ...,  0.0186, -0.0412,  0.0181],
+        [-0.0665, -0.0264, -0.0824,  ..., -0.0286, -0.0351, -0.0709],
+        [-0.1433, -0.2040,  0.0286,  ..., -0.0659,  0.0401,  0.0480]],
+       device='cuda:0'), grad: tensor([[ 1.0338e-07,  0.0000e+00,  1.4994e-07,  ...,  0.0000e+00,
+          5.2154e-08,  0.0000e+00],
+        [ 2.0210e-07,  0.0000e+00,  3.5390e-08,  ...,  9.3132e-10,
+          1.6391e-07,  0.0000e+00],
+        [-5.2713e-07,  0.0000e+00,  3.6322e-08,  ...,  0.0000e+00,
+          1.4994e-07,  0.0000e+00],
+        ...,
+        [ 1.8626e-07,  0.0000e+00,  9.1270e-08,  ...,  9.3132e-10,
+          1.8720e-07,  0.0000e+00],
+        [ 4.9919e-07,  0.0000e+00,  1.4333e-06,  ...,  0.0000e+00,
+          1.2573e-07,  0.0000e+00],
+        [ 2.1979e-07,  0.0000e+00, -1.7742e-06,  ...,  3.7253e-09,
+         -1.3188e-06,  0.0000e+00]], device='cuda:0')
+Epoch 205, bias, value: tensor([-0.0068,  0.0241, -0.0026, -0.0051,  0.0149,  0.0055,  0.0249, -0.0121,
+         0.0058, -0.0054], device='cuda:0'), grad: tensor([-2.7567e-07,  1.3702e-05,  5.9698e-07,  2.7511e-06,  1.5814e-06,
+        -2.4289e-06,  1.5087e-07,  1.3495e-06, -1.0237e-05, -7.2308e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 204, time 217.47, cls_loss 0.0019 cls_loss_mapping 0.0018 cls_loss_causal 0.4965 re_mapping 0.0054 re_causal 0.0175 /// teacc 99.00 lr 0.00001000
+Epoch 206, weight, value: tensor([[-0.0558, -0.1078, -0.0599,  ..., -0.1152, -0.0205, -0.0325],
+        [-0.0499,  0.0491, -0.1614,  ...,  0.0618,  0.0710, -0.1369],
+        [ 0.0564, -0.0076, -0.0633,  ..., -0.0596, -0.0441,  0.0088],
+        ...,
+        [ 0.0569, -0.0597, -0.0169,  ...,  0.0184, -0.0412,  0.0182],
+        [-0.0665, -0.0264, -0.0823,  ..., -0.0287, -0.0351, -0.0709],
+        [-0.1433, -0.2040,  0.0285,  ..., -0.0660,  0.0401,  0.0480]],
+       device='cuda:0'), grad: tensor([[ 1.4435e-07,  0.0000e+00, -2.6543e-07,  ...,  0.0000e+00,
+          5.4948e-08,  0.0000e+00],
+        [ 2.2724e-07,  0.0000e+00,  8.1025e-08,  ...,  0.0000e+00,
+         -5.5879e-08,  0.0000e+00],
+        [-7.2550e-07,  0.0000e+00,  1.7695e-08,  ...,  0.0000e+00,
+          1.7695e-08,  0.0000e+00],
+        ...,
+        [ 3.0734e-08,  0.0000e+00,  3.8184e-08,  ...,  0.0000e+00,
+          4.6566e-08,  0.0000e+00],
+        [ 1.6149e-06,  0.0000e+00,  7.2643e-08,  ...,  0.0000e+00,
+          3.7253e-08,  0.0000e+00],
+        [ 9.3132e-08,  0.0000e+00,  6.8545e-07,  ...,  0.0000e+00,
+         -6.2399e-08,  0.0000e+00]], device='cuda:0')
+Epoch 206, bias, value: tensor([-0.0068,  0.0240, -0.0026, -0.0051,  0.0149,  0.0055,  0.0249, -0.0120,
+         0.0059, -0.0054], device='cuda:0'), grad: tensor([-8.0373e-07,  6.0908e-07, -6.3889e-07, -2.4177e-06,  5.5283e-06,
+         5.7369e-07, -7.8827e-06, -1.6950e-07,  3.4273e-06,  1.7742e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 205, time 217.63, cls_loss 0.0015 cls_loss_mapping 0.0017 cls_loss_causal 0.5079 re_mapping 0.0053 re_causal 0.0177 /// teacc 99.02 lr 0.00001000
+Epoch 207, weight, value: tensor([[-0.0558, -0.1079, -0.0599,  ..., -0.1153, -0.0205, -0.0325],
+        [-0.0500,  0.0491, -0.1614,  ...,  0.0618,  0.0710, -0.1369],
+        [ 0.0564, -0.0076, -0.0634,  ..., -0.0596, -0.0441,  0.0088],
+        ...,
+        [ 0.0569, -0.0597, -0.0170,  ...,  0.0184, -0.0412,  0.0181],
+        [-0.0665, -0.0264, -0.0823,  ..., -0.0288, -0.0351, -0.0709],
+        [-0.1434, -0.2041,  0.0284,  ..., -0.0660,  0.0401,  0.0480]],
+       device='cuda:0'), grad: tensor([[ 9.0338e-08,  0.0000e+00,  7.4506e-09,  ...,  0.0000e+00,
+          3.1758e-07,  0.0000e+00],
+        [ 3.8277e-07,  0.0000e+00,  5.4948e-08,  ...,  0.0000e+00,
+         -1.8235e-06,  0.0000e+00],
+        [ 9.8720e-07,  0.0000e+00, -7.4506e-09,  ...,  0.0000e+00,
+          1.7416e-07,  0.0000e+00],
+        ...,
+        [-2.5183e-06,  0.0000e+00,  2.4308e-07,  ...,  0.0000e+00,
+          7.6741e-07,  0.0000e+00],
+        [ 8.7544e-08,  0.0000e+00,  7.4506e-09,  ...,  0.0000e+00,
+          1.0710e-07,  0.0000e+00],
+        [ 1.8813e-07,  0.0000e+00,  2.6729e-07,  ...,  1.8626e-09,
+          8.2888e-08,  0.0000e+00]], device='cuda:0')
+Epoch 207, bias, value: tensor([-0.0068,  0.0239, -0.0026, -0.0051,  0.0149,  0.0055,  0.0249, -0.0119,
+         0.0059, -0.0054], device='cuda:0'), grad: tensor([-2.4647e-05, -2.9095e-06,  3.4720e-06,  1.2005e-06, -3.2783e-07,
+         1.5674e-06,  2.0713e-05, -2.5723e-06,  2.7046e-06,  8.3167e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 206, time 217.72, cls_loss 0.0016 cls_loss_mapping 0.0014 cls_loss_causal 0.5105 re_mapping 0.0053 re_causal 0.0176 /// teacc 99.01 lr 0.00001000
+Epoch 208, weight, value: tensor([[-0.0559, -0.1079, -0.0599,  ..., -0.1154, -0.0205, -0.0325],
+        [-0.0500,  0.0492, -0.1614,  ...,  0.0620,  0.0711, -0.1369],
+        [ 0.0564, -0.0076, -0.0634,  ..., -0.0597, -0.0443,  0.0088],
+        ...,
+        [ 0.0569, -0.0597, -0.0170,  ...,  0.0183, -0.0412,  0.0181],
+        [-0.0665, -0.0264, -0.0823,  ..., -0.0288, -0.0352, -0.0709],
+        [-0.1434, -0.2041,  0.0284,  ..., -0.0660,  0.0401,  0.0480]],
+       device='cuda:0'), grad: tensor([[ 2.1420e-08,  0.0000e+00, -1.3039e-08,  ...,  2.7940e-09,
+          5.8673e-08,  0.0000e+00],
+        [ 8.0932e-07, -1.1176e-08,  1.8626e-09,  ...,  1.2573e-07,
+         -8.9407e-07,  0.0000e+00],
+        [ 6.7055e-08,  1.8626e-09,  9.3132e-10,  ...,  5.5879e-09,
+          7.6368e-08,  0.0000e+00],
+        ...,
+        [-2.0042e-06,  7.4506e-09,  2.7940e-09,  ..., -3.2596e-07,
+          3.5763e-07,  0.0000e+00],
+        [ 1.3039e-08,  0.0000e+00,  1.7695e-08,  ...,  9.3132e-10,
+          6.9849e-08,  0.0000e+00],
+        [ 9.5740e-07,  0.0000e+00,  4.6566e-09,  ...,  1.7416e-07,
+          1.1176e-08,  0.0000e+00]], device='cuda:0')
+Epoch 208, bias, value: tensor([-0.0067,  0.0239, -0.0027, -0.0051,  0.0149,  0.0055,  0.0249, -0.0119,
+         0.0059, -0.0055], device='cuda:0'), grad: tensor([ 4.1630e-07, -6.7987e-07,  1.2973e-06,  3.9116e-07,  1.0571e-06,
+         3.4366e-07, -2.8312e-07, -3.2913e-06, -1.4212e-06,  2.1700e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 207, time 217.40, cls_loss 0.0015 cls_loss_mapping 0.0014 cls_loss_causal 0.4776 re_mapping 0.0052 re_causal 0.0165 /// teacc 99.04 lr 0.00001000
+Epoch 209, weight, value: tensor([[-0.0559, -0.1080, -0.0599,  ..., -0.1154, -0.0205, -0.0325],
+        [-0.0501,  0.0492, -0.1615,  ...,  0.0620,  0.0711, -0.1369],
+        [ 0.0564, -0.0076, -0.0634,  ..., -0.0597, -0.0443,  0.0088],
+        ...,
+        [ 0.0570, -0.0597, -0.0170,  ...,  0.0183, -0.0412,  0.0181],
+        [-0.0665, -0.0265, -0.0823,  ..., -0.0289, -0.0352, -0.0709],
+        [-0.1434, -0.2041,  0.0284,  ..., -0.0661,  0.0401,  0.0480]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-08,  9.3132e-10,  6.7055e-08,  ...,  0.0000e+00,
+          8.1956e-08,  0.0000e+00],
+        [ 9.4716e-07, -3.9116e-08,  1.1083e-07,  ...,  1.1176e-08,
+         -1.5832e-08,  0.0000e+00],
+        [ 2.2072e-07,  1.7695e-08,  2.9802e-08,  ...,  9.3132e-10,
+          1.3690e-07,  0.0000e+00],
+        ...,
+        [-1.1697e-06,  8.3819e-09,  7.5437e-08,  ...,  3.7253e-09,
+          1.8068e-07,  0.0000e+00],
+        [ 6.8918e-08,  0.0000e+00,  2.4680e-07,  ...,  9.3132e-10,
+          6.1560e-07,  0.0000e+00],
+        [ 4.3400e-07,  0.0000e+00,  1.0245e-07,  ...,  7.4506e-09,
+         -1.7835e-06,  0.0000e+00]], device='cuda:0')
+Epoch 209, bias, value: tensor([-0.0068,  0.0239, -0.0027, -0.0051,  0.0149,  0.0055,  0.0249, -0.0119,
+         0.0060, -0.0055], device='cuda:0'), grad: tensor([ 4.2096e-07,  1.8552e-06,  1.0254e-06,  2.9095e-06,  1.0394e-06,
+        -2.1867e-06, -9.6019e-07, -1.7770e-06,  1.6447e-06, -3.9972e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 208, time 217.22, cls_loss 0.0015 cls_loss_mapping 0.0013 cls_loss_causal 0.4651 re_mapping 0.0050 re_causal 0.0163 /// teacc 99.05 lr 0.00001000
+Epoch 210, weight, value: tensor([[-0.0559, -0.1080, -0.0600,  ..., -0.1156, -0.0205, -0.0325],
+        [-0.0501,  0.0492, -0.1615,  ...,  0.0621,  0.0711, -0.1370],
+        [ 0.0564, -0.0076, -0.0634,  ..., -0.0597, -0.0444,  0.0088],
+        ...,
+        [ 0.0570, -0.0597, -0.0170,  ...,  0.0182, -0.0413,  0.0181],
+        [-0.0666, -0.0264, -0.0823,  ..., -0.0289, -0.0352, -0.0709],
+        [-0.1434, -0.2041,  0.0284,  ..., -0.0660,  0.0402,  0.0480]],
+       device='cuda:0'), grad: tensor([[ 3.1237e-06,  0.0000e+00,  8.3819e-09,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [ 6.9197e-07,  0.0000e+00,  5.2154e-08,  ...,  0.0000e+00,
+         -3.7253e-08,  0.0000e+00],
+        [-9.0972e-06,  0.0000e+00,  2.0489e-08,  ...,  0.0000e+00,
+          1.8626e-08,  0.0000e+00],
+        ...,
+        [-3.3807e-07,  0.0000e+00,  2.0489e-08,  ...,  0.0000e+00,
+         -8.4750e-08,  0.0000e+00],
+        [ 2.5462e-06,  0.0000e+00, -3.8091e-07,  ...,  0.0000e+00,
+          1.1176e-08,  0.0000e+00],
+        [ 1.1455e-07,  0.0000e+00,  2.3376e-07,  ...,  0.0000e+00,
+         -1.2107e-08,  0.0000e+00]], device='cuda:0')
+Epoch 210, bias, value: tensor([-0.0068,  0.0239, -0.0027, -0.0051,  0.0149,  0.0055,  0.0249, -0.0119,
+         0.0061, -0.0055], device='cuda:0'), grad: tensor([ 1.0259e-05,  1.9968e-06, -3.1561e-05,  6.5044e-06,  1.6205e-07,
+         7.1432e-07,  4.2766e-06, -6.2864e-07,  6.6943e-06,  1.5358e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 209, time 217.24, cls_loss 0.0013 cls_loss_mapping 0.0013 cls_loss_causal 0.5117 re_mapping 0.0050 re_causal 0.0171 /// teacc 99.05 lr 0.00001000
+Epoch 211, weight, value: tensor([[-0.0559, -0.1080, -0.0600,  ..., -0.1156, -0.0205, -0.0325],
+        [-0.0502,  0.0492, -0.1615,  ...,  0.0621,  0.0712, -0.1370],
+        [ 0.0564, -0.0076, -0.0634,  ..., -0.0597, -0.0444,  0.0088],
+        ...,
+        [ 0.0571, -0.0597, -0.0170,  ...,  0.0181, -0.0413,  0.0181],
+        [-0.0666, -0.0265, -0.0823,  ..., -0.0290, -0.0353, -0.0709],
+        [-0.1435, -0.2041,  0.0283,  ..., -0.0659,  0.0402,  0.0480]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  0.0000e+00,  2.0489e-08,  ...,  0.0000e+00,
+          5.3085e-08,  0.0000e+00],
+        [ 2.4680e-07,  0.0000e+00,  1.0058e-07,  ...,  0.0000e+00,
+         -2.2259e-07,  0.0000e+00],
+        [-8.8476e-08,  0.0000e+00,  1.2107e-08,  ...,  0.0000e+00,
+          1.3970e-08,  0.0000e+00],
+        ...,
+        [-3.6787e-07,  0.0000e+00,  6.8918e-08,  ...,  0.0000e+00,
+          1.4622e-07,  0.0000e+00],
+        [ 4.6566e-09,  0.0000e+00,  4.2934e-07,  ...,  0.0000e+00,
+          1.3970e-07,  0.0000e+00],
+        [ 8.4750e-08,  0.0000e+00,  5.0571e-07,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00]], device='cuda:0')
+Epoch 211, bias, value: tensor([-0.0068,  0.0238, -0.0027, -0.0051,  0.0149,  0.0055,  0.0249, -0.0118,
+         0.0060, -0.0055], device='cuda:0'), grad: tensor([ 1.2852e-07,  4.2189e-07, -2.7940e-08,  9.0338e-07, -1.6801e-06,
+        -7.8510e-07, -7.4785e-07, -3.5949e-07,  3.5483e-07,  1.7742e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 210, time 217.42, cls_loss 0.0013 cls_loss_mapping 0.0014 cls_loss_causal 0.4885 re_mapping 0.0050 re_causal 0.0169 /// teacc 99.05 lr 0.00001000
+Epoch 212, weight, value: tensor([[-0.0559, -0.1081, -0.0600,  ..., -0.1157, -0.0205, -0.0325],
+        [-0.0502,  0.0492, -0.1615,  ...,  0.0624,  0.0713, -0.1371],
+        [ 0.0565, -0.0076, -0.0634,  ..., -0.0597, -0.0444,  0.0089],
+        ...,
+        [ 0.0571, -0.0597, -0.0170,  ...,  0.0179, -0.0414,  0.0180],
+        [-0.0667, -0.0265, -0.0823,  ..., -0.0291, -0.0353, -0.0709],
+        [-0.1435, -0.2042,  0.0283,  ..., -0.0659,  0.0402,  0.0480]],
+       device='cuda:0'), grad: tensor([[ 1.9092e-07,  0.0000e+00,  2.9150e-07,  ...,  0.0000e+00,
+          1.5646e-07,  5.5879e-09],
+        [ 8.0280e-07,  0.0000e+00,  6.0908e-07,  ...,  2.7940e-08,
+         -8.4098e-07,  0.0000e+00],
+        [-1.1511e-06,  0.0000e+00, -1.4622e-07,  ...,  9.3132e-10,
+          1.0803e-07,  0.0000e+00],
+        ...,
+        [ 1.0980e-06,  0.0000e+00,  1.1213e-06,  ...,  4.6566e-08,
+          3.0268e-07,  3.7253e-09],
+        [ 6.6124e-08,  0.0000e+00,  2.2352e-08,  ...,  0.0000e+00,
+          1.0123e-06,  0.0000e+00],
+        [ 4.7591e-07,  0.0000e+00,  2.4363e-06,  ...,  2.4214e-08,
+         -1.5665e-06, -2.9802e-08]], device='cuda:0')
+Epoch 212, bias, value: tensor([-0.0067,  0.0239, -0.0027, -0.0051,  0.0149,  0.0055,  0.0249, -0.0118,
+         0.0060, -0.0055], device='cuda:0'), grad: tensor([ 1.0114e-06,  7.6648e-07, -1.4771e-06,  8.3260e-07, -3.3956e-06,
+        -4.9137e-06,  5.3737e-07,  3.7849e-06,  3.8408e-06, -9.9372e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 211, time 217.28, cls_loss 0.0011 cls_loss_mapping 0.0009 cls_loss_causal 0.4808 re_mapping 0.0049 re_causal 0.0169 /// teacc 99.03 lr 0.00001000
+Epoch 213, weight, value: tensor([[-0.0559, -0.1081, -0.0600,  ..., -0.1158, -0.0205, -0.0325],
+        [-0.0502,  0.0493, -0.1616,  ...,  0.0624,  0.0713, -0.1371],
+        [ 0.0565, -0.0076, -0.0634,  ..., -0.0597, -0.0444,  0.0089],
+        ...,
+        [ 0.0571, -0.0598, -0.0171,  ...,  0.0179, -0.0414,  0.0180],
+        [-0.0667, -0.0265, -0.0823,  ..., -0.0292, -0.0354, -0.0709],
+        [-0.1435, -0.2042,  0.0283,  ..., -0.0659,  0.0402,  0.0480]],
+       device='cuda:0'), grad: tensor([[ 1.7695e-08,  0.0000e+00,  5.5879e-09,  ...,  0.0000e+00,
+          6.5193e-08,  0.0000e+00],
+        [ 4.4517e-07, -9.3132e-10,  5.3085e-08,  ...,  0.0000e+00,
+         -5.6997e-07,  0.0000e+00],
+        [ 1.8161e-07,  0.0000e+00,  3.5390e-08,  ...,  0.0000e+00,
+          8.5682e-08,  0.0000e+00],
+        ...,
+        [-1.8710e-06,  9.3132e-10, -5.5879e-09,  ...,  0.0000e+00,
+          3.1292e-07,  0.0000e+00],
+        [-1.2387e-07,  0.0000e+00,  1.4901e-08,  ...,  0.0000e+00,
+         -1.5646e-07,  0.0000e+00],
+        [ 2.3283e-07,  0.0000e+00, -4.0606e-07,  ...,  0.0000e+00,
+         -2.2538e-07,  0.0000e+00]], device='cuda:0')
+Epoch 213, bias, value: tensor([-0.0067,  0.0239, -0.0027, -0.0051,  0.0149,  0.0055,  0.0249, -0.0119,
+         0.0060, -0.0055], device='cuda:0'), grad: tensor([ 2.2911e-07, -5.0385e-07,  3.4571e-06,  1.9055e-06,  5.1036e-06,
+         3.6415e-07,  1.2387e-07, -8.7395e-06, -9.7603e-07, -9.7137e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 212, time 217.45, cls_loss 0.0011 cls_loss_mapping 0.0010 cls_loss_causal 0.5021 re_mapping 0.0049 re_causal 0.0171 /// teacc 99.06 lr 0.00001000
+Epoch 214, weight, value: tensor([[-0.0559, -0.1081, -0.0601,  ..., -0.1159, -0.0205, -0.0325],
+        [-0.0502,  0.0493, -0.1616,  ...,  0.0626,  0.0714, -0.1371],
+        [ 0.0565, -0.0076, -0.0634,  ..., -0.0598, -0.0444,  0.0089],
+        ...,
+        [ 0.0571, -0.0598, -0.0171,  ...,  0.0177, -0.0415,  0.0180],
+        [-0.0667, -0.0266, -0.0823,  ..., -0.0293, -0.0354, -0.0709],
+        [-0.1435, -0.2042,  0.0283,  ..., -0.0660,  0.0402,  0.0480]],
+       device='cuda:0'), grad: tensor([[ 2.2352e-08,  0.0000e+00,  2.7008e-08,  ...,  9.3132e-09,
+          3.6322e-08,  0.0000e+00],
+        [ 6.1374e-07,  0.0000e+00,  1.4622e-07,  ..., -4.5076e-06,
+         -7.3947e-06,  0.0000e+00],
+        [-3.1106e-07,  0.0000e+00,  5.2154e-08,  ...,  3.7253e-09,
+          2.5146e-08,  0.0000e+00],
+        ...,
+        [-6.5286e-07,  0.0000e+00,  7.6275e-07,  ...,  2.5872e-06,
+          4.2431e-06,  0.0000e+00],
+        [ 4.5635e-08,  0.0000e+00,  3.5390e-08,  ...,  1.3039e-08,
+          5.6811e-08,  0.0000e+00],
+        [ 8.7544e-08,  0.0000e+00,  1.4110e-06,  ...,  3.1013e-07,
+          4.1258e-07,  0.0000e+00]], device='cuda:0')
+Epoch 214, bias, value: tensor([-0.0067,  0.0239, -0.0026, -0.0051,  0.0149,  0.0055,  0.0249, -0.0119,
+         0.0060, -0.0055], device='cuda:0'), grad: tensor([-2.6915e-07, -1.7598e-05, -5.1875e-07,  3.6042e-07, -1.0915e-06,
+        -1.1921e-07,  2.6356e-07,  1.2495e-05,  3.7346e-07,  6.0759e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 213, time 217.46, cls_loss 0.0011 cls_loss_mapping 0.0012 cls_loss_causal 0.4840 re_mapping 0.0048 re_causal 0.0169 /// teacc 99.05 lr 0.00001000
+Epoch 215, weight, value: tensor([[-0.0559, -0.1082, -0.0601,  ..., -0.1160, -0.0205, -0.0325],
+        [-0.0502,  0.0493, -0.1616,  ...,  0.0627,  0.0714, -0.1371],
+        [ 0.0565, -0.0076, -0.0634,  ..., -0.0598, -0.0445,  0.0088],
+        ...,
+        [ 0.0571, -0.0598, -0.0171,  ...,  0.0176, -0.0415,  0.0180],
+        [-0.0668, -0.0267, -0.0823,  ..., -0.0294, -0.0354, -0.0709],
+        [-0.1435, -0.2042,  0.0283,  ..., -0.0658,  0.0403,  0.0480]],
+       device='cuda:0'), grad: tensor([[ 1.0245e-08,  0.0000e+00,  2.3935e-07,  ...,  0.0000e+00,
+          6.5193e-09,  0.0000e+00],
+        [ 1.9092e-07,  0.0000e+00,  1.6950e-07,  ...,  9.3132e-10,
+         -2.6729e-07,  0.0000e+00],
+        [-5.6811e-08,  0.0000e+00,  4.4703e-08,  ...,  0.0000e+00,
+          2.3283e-08,  0.0000e+00],
+        ...,
+        [-2.8871e-07,  0.0000e+00,  3.1013e-07,  ...,  9.3132e-10,
+          1.8999e-07,  0.0000e+00],
+        [ 8.9407e-08,  0.0000e+00,  1.7202e-06,  ...,  0.0000e+00,
+          2.7940e-08,  0.0000e+00],
+        [ 1.1176e-07,  0.0000e+00,  8.6520e-07,  ...,  1.2107e-08,
+          7.4506e-09,  0.0000e+00]], device='cuda:0')
+Epoch 215, bias, value: tensor([-0.0067,  0.0239, -0.0026, -0.0051,  0.0149,  0.0055,  0.0248, -0.0119,
+         0.0060, -0.0055], device='cuda:0'), grad: tensor([ 6.1560e-07,  2.0023e-07,  8.5682e-08,  3.1114e-05, -1.6857e-06,
+        -4.1664e-05,  3.9414e-06,  5.8394e-07,  4.5672e-06,  2.3115e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 214, time 217.44, cls_loss 0.0013 cls_loss_mapping 0.0011 cls_loss_causal 0.4966 re_mapping 0.0049 re_causal 0.0167 /// teacc 99.03 lr 0.00001000
+Epoch 216, weight, value: tensor([[-0.0559, -0.1082, -0.0601,  ..., -0.1161, -0.0206, -0.0325],
+        [-0.0502,  0.0493, -0.1616,  ...,  0.0627,  0.0715, -0.1372],
+        [ 0.0566, -0.0076, -0.0634,  ..., -0.0598, -0.0445,  0.0088],
+        ...,
+        [ 0.0571, -0.0598, -0.0172,  ...,  0.0176, -0.0416,  0.0180],
+        [-0.0668, -0.0267, -0.0823,  ..., -0.0295, -0.0355, -0.0709],
+        [-0.1435, -0.2042,  0.0282,  ..., -0.0659,  0.0403,  0.0480]],
+       device='cuda:0'), grad: tensor([[ 3.5390e-08,  0.0000e+00, -2.5146e-08,  ...,  0.0000e+00,
+          1.0431e-07,  0.0000e+00],
+        [-1.7695e-07,  0.0000e+00,  6.7055e-08,  ...,  1.8626e-09,
+         -2.3693e-06,  0.0000e+00],
+        [-8.1025e-08,  0.0000e+00,  1.8626e-08,  ...,  0.0000e+00,
+          9.8627e-07,  0.0000e+00],
+        ...,
+        [ 4.2375e-07,  0.0000e+00,  2.5798e-07,  ...,  9.3132e-10,
+          1.1530e-06,  0.0000e+00],
+        [ 4.1910e-08,  0.0000e+00,  4.6566e-09,  ...,  0.0000e+00,
+          4.5728e-07,  0.0000e+00],
+        [ 4.0978e-08,  0.0000e+00,  1.0338e-07,  ...,  4.6566e-09,
+         -1.3132e-07,  0.0000e+00]], device='cuda:0')
+Epoch 216, bias, value: tensor([-0.0067,  0.0239, -0.0026, -0.0051,  0.0149,  0.0055,  0.0249, -0.0119,
+         0.0060, -0.0055], device='cuda:0'), grad: tensor([-6.3516e-07, -5.3756e-06,  2.2668e-06, -4.6287e-07,  3.8091e-07,
+         1.2405e-06, -2.3022e-06,  3.4161e-06,  1.4408e-06,  6.6124e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 215, time 217.22, cls_loss 0.0013 cls_loss_mapping 0.0011 cls_loss_causal 0.4995 re_mapping 0.0049 re_causal 0.0170 /// teacc 99.06 lr 0.00001000
+Epoch 217, weight, value: tensor([[-0.0559, -0.1082, -0.0601,  ..., -0.1162, -0.0206, -0.0325],
+        [-0.0502,  0.0494, -0.1617,  ...,  0.0628,  0.0715, -0.1372],
+        [ 0.0566, -0.0076, -0.0634,  ..., -0.0598, -0.0445,  0.0088],
+        ...,
+        [ 0.0571, -0.0598, -0.0173,  ...,  0.0175, -0.0416,  0.0180],
+        [-0.0668, -0.0267, -0.0823,  ..., -0.0296, -0.0355, -0.0709],
+        [-0.1436, -0.2042,  0.0281,  ..., -0.0659,  0.0403,  0.0480]],
+       device='cuda:0'), grad: tensor([[ 7.7300e-08,  0.0000e+00,  1.4901e-08,  ...,  0.0000e+00,
+          3.2410e-07,  0.0000e+00],
+        [ 5.3085e-08,  0.0000e+00,  2.4214e-08,  ...,  0.0000e+00,
+         -1.2927e-06,  0.0000e+00],
+        [-7.5251e-07,  0.0000e+00,  2.7940e-08,  ...,  0.0000e+00,
+          1.0338e-07,  0.0000e+00],
+        ...,
+        [ 4.2375e-07,  0.0000e+00,  3.1665e-08,  ...,  0.0000e+00,
+          4.8615e-07,  0.0000e+00],
+        [ 1.0245e-07,  9.3132e-10, -1.0608e-06,  ...,  1.8626e-09,
+         -7.7300e-08,  9.3132e-10],
+        [ 1.3970e-08,  0.0000e+00,  1.1688e-06,  ...,  9.3132e-10,
+          2.5239e-07,  0.0000e+00]], device='cuda:0')
+Epoch 217, bias, value: tensor([-0.0067,  0.0240, -0.0026, -0.0051,  0.0149,  0.0055,  0.0249, -0.0119,
+         0.0060, -0.0055], device='cuda:0'), grad: tensor([ 8.7358e-07, -2.3674e-06, -8.9686e-07,  1.2740e-06,  3.4831e-07,
+         1.4622e-07,  2.3004e-07,  1.9260e-06, -7.6666e-06,  6.1281e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 216, time 217.54, cls_loss 0.0010 cls_loss_mapping 0.0011 cls_loss_causal 0.4542 re_mapping 0.0048 re_causal 0.0164 /// teacc 99.00 lr 0.00001000
+Epoch 218, weight, value: tensor([[-0.0559, -0.1083, -0.0601,  ..., -0.1163, -0.0206, -0.0325],
+        [-0.0502,  0.0494, -0.1617,  ...,  0.0628,  0.0715, -0.1372],
+        [ 0.0567, -0.0076, -0.0634,  ..., -0.0598, -0.0446,  0.0088],
+        ...,
+        [ 0.0571, -0.0598, -0.0173,  ...,  0.0175, -0.0416,  0.0180],
+        [-0.0668, -0.0267, -0.0823,  ..., -0.0296, -0.0356, -0.0709],
+        [-0.1436, -0.2043,  0.0281,  ..., -0.0658,  0.0404,  0.0480]],
+       device='cuda:0'), grad: tensor([[ 1.4678e-06,  0.0000e+00,  9.8720e-08,  ...,  4.6566e-09,
+          2.3283e-08,  0.0000e+00],
+        [ 9.6858e-08,  0.0000e+00,  4.3772e-08,  ...,  7.4506e-09,
+         -4.3120e-07,  0.0000e+00],
+        [-2.9597e-06,  0.0000e+00, -1.2666e-07,  ...,  9.3132e-10,
+          3.5390e-08,  0.0000e+00],
+        ...,
+        [ 5.0664e-07,  0.0000e+00,  2.9802e-08,  ...,  3.7253e-09,
+          2.6077e-07,  0.0000e+00],
+        [ 9.0711e-07,  0.0000e+00,  2.5984e-07,  ...,  4.1910e-08,
+          5.1223e-08,  0.0000e+00],
+        [ 1.7136e-07,  0.0000e+00,  3.9395e-07,  ...,  1.2107e-08,
+          4.7497e-08,  0.0000e+00]], device='cuda:0')
+Epoch 218, bias, value: tensor([-0.0067,  0.0239, -0.0026, -0.0051,  0.0149,  0.0055,  0.0249, -0.0119,
+         0.0060, -0.0055], device='cuda:0'), grad: tensor([ 9.0003e-06, -4.7963e-07, -1.5974e-05,  7.8753e-06, -3.7253e-07,
+        -8.4788e-06,  2.8033e-07,  1.5674e-06,  5.2229e-06,  1.3541e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 217, time 217.58, cls_loss 0.0011 cls_loss_mapping 0.0009 cls_loss_causal 0.4670 re_mapping 0.0047 re_causal 0.0166 /// teacc 99.02 lr 0.00001000
+Epoch 219, weight, value: tensor([[-0.0559, -0.1083, -0.0601,  ..., -0.1163, -0.0206, -0.0325],
+        [-0.0503,  0.0494, -0.1617,  ...,  0.0628,  0.0715, -0.1372],
+        [ 0.0567, -0.0076, -0.0633,  ..., -0.0598, -0.0446,  0.0088],
+        ...,
+        [ 0.0571, -0.0598, -0.0174,  ...,  0.0175, -0.0416,  0.0179],
+        [-0.0669, -0.0267, -0.0823,  ..., -0.0297, -0.0356, -0.0709],
+        [-0.1437, -0.2043,  0.0280,  ..., -0.0659,  0.0404,  0.0480]],
+       device='cuda:0'), grad: tensor([[ 1.7788e-07,  0.0000e+00,  5.2620e-08,  ...,  0.0000e+00,
+          4.4238e-08,  4.6566e-10],
+        [ 4.7497e-07,  0.0000e+00,  4.1910e-09,  ..., -2.3283e-09,
+         -7.1479e-07,  0.0000e+00],
+        [-6.0163e-07,  0.0000e+00, -1.8720e-07,  ...,  0.0000e+00,
+          1.3690e-07,  0.0000e+00],
+        ...,
+        [-1.0598e-06,  0.0000e+00,  2.5611e-08,  ...,  4.6566e-10,
+          6.7661e-07,  0.0000e+00],
+        [ 4.9919e-07,  0.0000e+00,  4.5169e-08,  ...,  9.3132e-10,
+          1.4110e-07,  9.3132e-10],
+        [ 2.2305e-07,  0.0000e+00, -2.7893e-07,  ...,  4.6566e-10,
+         -1.4026e-06,  0.0000e+00]], device='cuda:0')
+Epoch 219, bias, value: tensor([-0.0067,  0.0239, -0.0026, -0.0050,  0.0149,  0.0055,  0.0248, -0.0119,
+         0.0060, -0.0055], device='cuda:0'), grad: tensor([-6.8732e-07, -2.9057e-07, -5.4715e-07,  5.2294e-07,  8.1211e-06,
+         2.3982e-07,  1.4668e-07,  1.5218e-06,  1.2591e-06, -1.0327e-05],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 218, time 217.43, cls_loss 0.0010 cls_loss_mapping 0.0007 cls_loss_causal 0.4783 re_mapping 0.0048 re_causal 0.0166 /// teacc 99.08 lr 0.00001000
+Epoch 220, weight, value: tensor([[-0.0560, -0.1083, -0.0601,  ..., -0.1164, -0.0206, -0.0325],
+        [-0.0504,  0.0494, -0.1618,  ...,  0.0628,  0.0715, -0.1372],
+        [ 0.0568, -0.0076, -0.0633,  ..., -0.0598, -0.0446,  0.0088],
+        ...,
+        [ 0.0572, -0.0598, -0.0174,  ...,  0.0175, -0.0416,  0.0179],
+        [-0.0669, -0.0267, -0.0823,  ..., -0.0298, -0.0356, -0.0710],
+        [-0.1437, -0.2043,  0.0280,  ..., -0.0660,  0.0404,  0.0480]],
+       device='cuda:0'), grad: tensor([[ 8.3819e-09,  0.0000e+00,  6.5193e-09,  ...,  0.0000e+00,
+          1.6764e-08,  0.0000e+00],
+        [ 5.2620e-08,  0.0000e+00,  3.1199e-08,  ...,  0.0000e+00,
+         -1.4389e-07,  0.0000e+00],
+        [ 3.2131e-08,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          2.0955e-08,  0.0000e+00],
+        ...,
+        [-6.4727e-08,  0.0000e+00,  1.7229e-08,  ...,  4.6566e-10,
+          1.2619e-07,  0.0000e+00],
+        [ 2.1886e-08,  0.0000e+00,  3.2131e-08,  ...,  4.6566e-10,
+          4.1444e-08,  0.0000e+00],
+        [ 2.6543e-08,  0.0000e+00,  1.3495e-06,  ...,  4.6566e-10,
+         -1.6764e-07,  0.0000e+00]], device='cuda:0')
+Epoch 220, bias, value: tensor([-0.0067,  0.0239, -0.0025, -0.0050,  0.0149,  0.0055,  0.0249, -0.0119,
+         0.0060, -0.0056], device='cuda:0'), grad: tensor([-1.6419e-06, -5.6811e-08,  1.2480e-06,  1.0319e-06, -7.6834e-08,
+        -3.3490e-06, -6.5193e-09,  2.6636e-07,  2.9337e-07,  2.3078e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 219, time 217.35, cls_loss 0.0012 cls_loss_mapping 0.0009 cls_loss_causal 0.4607 re_mapping 0.0048 re_causal 0.0166 /// teacc 99.08 lr 0.00001000
+Epoch 221, weight, value: tensor([[-0.0560, -0.1083, -0.0601,  ..., -0.1164, -0.0206, -0.0325],
+        [-0.0505,  0.0495, -0.1618,  ...,  0.0629,  0.0716, -0.1372],
+        [ 0.0568, -0.0076, -0.0633,  ..., -0.0598, -0.0447,  0.0088],
+        ...,
+        [ 0.0573, -0.0598, -0.0175,  ...,  0.0174, -0.0416,  0.0179],
+        [-0.0670, -0.0267, -0.0823,  ..., -0.0299, -0.0357, -0.0710],
+        [-0.1438, -0.2043,  0.0280,  ..., -0.0660,  0.0404,  0.0480]],
+       device='cuda:0'), grad: tensor([[ 2.9802e-08,  0.0000e+00,  2.7940e-09,  ...,  3.2596e-09,
+          1.4901e-08,  3.2596e-09],
+        [ 1.0049e-06,  0.0000e+00,  8.6147e-08,  ...,  2.0443e-07,
+         -2.0675e-07,  4.6566e-10],
+        [ 9.4529e-08,  0.0000e+00,  7.9162e-09,  ...,  7.4506e-09,
+          1.7695e-08,  9.3132e-10],
+        ...,
+        [-1.5199e-06,  0.0000e+00,  1.4901e-08,  ..., -3.4412e-07,
+          1.7369e-07,  0.0000e+00],
+        [ 1.4063e-07,  0.0000e+00, -3.4459e-08,  ...,  1.8626e-09,
+          2.4121e-07,  2.3283e-09],
+        [ 5.0943e-07,  0.0000e+00, -3.6694e-07,  ...,  1.0151e-07,
+         -5.3551e-07,  0.0000e+00]], device='cuda:0')
+Epoch 221, bias, value: tensor([-0.0067,  0.0238, -0.0026, -0.0050,  0.0149,  0.0055,  0.0249, -0.0118,
+         0.0060, -0.0055], device='cuda:0'), grad: tensor([-1.2210e-06,  2.8107e-06,  3.2131e-07, -4.5495e-07,  3.1479e-06,
+         8.6799e-07, -6.4448e-07, -4.1798e-06,  5.5414e-08, -7.0315e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 220, time 217.49, cls_loss 0.0009 cls_loss_mapping 0.0009 cls_loss_causal 0.4765 re_mapping 0.0048 re_causal 0.0169 /// teacc 99.09 lr 0.00001000
+Epoch 222, weight, value: tensor([[-0.0560, -0.1084, -0.0601,  ..., -0.1165, -0.0206, -0.0325],
+        [-0.0505,  0.0495, -0.1618,  ...,  0.0629,  0.0716, -0.1372],
+        [ 0.0568, -0.0076, -0.0633,  ..., -0.0598, -0.0447,  0.0088],
+        ...,
+        [ 0.0573, -0.0598, -0.0175,  ...,  0.0174, -0.0417,  0.0179],
+        [-0.0671, -0.0267, -0.0823,  ..., -0.0300, -0.0357, -0.0710],
+        [-0.1438, -0.2043,  0.0280,  ..., -0.0659,  0.0404,  0.0480]],
+       device='cuda:0'), grad: tensor([[ 7.9162e-09,  0.0000e+00,  3.2596e-09,  ...,  0.0000e+00,
+          9.7789e-09,  0.0000e+00],
+        [ 2.6124e-07,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+         -7.3574e-08,  0.0000e+00],
+        [ 4.2375e-08,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          2.3749e-08,  0.0000e+00],
+        ...,
+        [-1.9651e-07,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          1.0990e-07,  0.0000e+00],
+        [ 2.3283e-08,  0.0000e+00,  6.9384e-08,  ...,  0.0000e+00,
+         -1.8021e-07,  0.0000e+00],
+        [ 8.6613e-08,  0.0000e+00,  1.6298e-08,  ...,  0.0000e+00,
+         -4.9360e-08,  0.0000e+00]], device='cuda:0')
+Epoch 222, bias, value: tensor([-0.0066,  0.0238, -0.0025, -0.0050,  0.0149,  0.0055,  0.0249, -0.0118,
+         0.0060, -0.0056], device='cuda:0'), grad: tensor([-2.9802e-08,  9.0152e-07,  2.3050e-07, -9.6392e-08,  3.3760e-07,
+         1.4082e-06, -9.2573e-07, -3.0873e-07, -1.6680e-06,  1.7788e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 221, time 217.43, cls_loss 0.0009 cls_loss_mapping 0.0009 cls_loss_causal 0.4679 re_mapping 0.0048 re_causal 0.0166 /// teacc 99.06 lr 0.00001000
+Epoch 223, weight, value: tensor([[-0.0560, -0.1084, -0.0601,  ..., -0.1165, -0.0206, -0.0325],
+        [-0.0505,  0.0495, -0.1618,  ...,  0.0629,  0.0717, -0.1372],
+        [ 0.0569, -0.0076, -0.0634,  ..., -0.0598, -0.0448,  0.0088],
+        ...,
+        [ 0.0572, -0.0599, -0.0175,  ...,  0.0174, -0.0417,  0.0179],
+        [-0.0672, -0.0268, -0.0823,  ..., -0.0300, -0.0358, -0.0710],
+        [-0.1439, -0.2044,  0.0280,  ..., -0.0659,  0.0404,  0.0480]],
+       device='cuda:0'), grad: tensor([[ 7.8697e-08,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+         -2.0489e-08,  0.0000e+00],
+        [ 2.1141e-07,  4.6566e-10,  3.9581e-08,  ...,  0.0000e+00,
+         -2.4308e-07,  0.0000e+00],
+        [ 1.1809e-06,  4.6566e-10,  4.6566e-09,  ...,  0.0000e+00,
+          5.1223e-08,  0.0000e+00],
+        ...,
+        [ 1.0272e-06, -3.7253e-09,  2.8405e-08,  ...,  0.0000e+00,
+          1.8161e-07,  0.0000e+00],
+        [ 8.6613e-08,  0.0000e+00,  1.3970e-09,  ...,  0.0000e+00,
+          3.0734e-08,  0.0000e+00],
+        [ 2.5798e-07,  0.0000e+00,  1.3504e-07,  ...,  0.0000e+00,
+         -1.3178e-07,  0.0000e+00]], device='cuda:0')
+Epoch 223, bias, value: tensor([-0.0066,  0.0238, -0.0025, -0.0050,  0.0149,  0.0055,  0.0249, -0.0118,
+         0.0059, -0.0056], device='cuda:0'), grad: tensor([-2.0564e-06,  1.2107e-08,  2.0638e-06, -3.6675e-06, -4.1304e-07,
+         6.1328e-07,  4.9965e-07,  1.7984e-06,  2.7707e-07,  8.4564e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 222, time 217.28, cls_loss 0.0011 cls_loss_mapping 0.0008 cls_loss_causal 0.4832 re_mapping 0.0048 re_causal 0.0167 /// teacc 99.09 lr 0.00001000
+Epoch 224, weight, value: tensor([[-0.0560, -0.1084, -0.0601,  ..., -0.1167, -0.0206, -0.0325],
+        [-0.0505,  0.0496, -0.1619,  ...,  0.0629,  0.0717, -0.1372],
+        [ 0.0569, -0.0076, -0.0633,  ..., -0.0599, -0.0448,  0.0088],
+        ...,
+        [ 0.0573, -0.0599, -0.0175,  ...,  0.0174, -0.0417,  0.0179],
+        [-0.0673, -0.0268, -0.0823,  ..., -0.0301, -0.0358, -0.0710],
+        [-0.1439, -0.2044,  0.0279,  ..., -0.0658,  0.0404,  0.0480]],
+       device='cuda:0'), grad: tensor([[ 2.8871e-08,  0.0000e+00,  2.3283e-09,  ...,  0.0000e+00,
+          3.8650e-08,  4.6566e-10],
+        [ 5.2154e-08,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+         -1.2573e-07,  0.0000e+00],
+        [-4.5029e-07,  0.0000e+00,  3.2596e-09,  ...,  0.0000e+00,
+          2.1886e-08,  0.0000e+00],
+        ...,
+        [-5.6811e-08,  0.0000e+00,  1.7229e-08,  ...,  0.0000e+00,
+          9.7323e-08,  0.0000e+00],
+        [ 3.8091e-07,  0.0000e+00, -4.6566e-09,  ...,  0.0000e+00,
+          2.7474e-08,  5.5879e-09],
+        [ 5.4948e-08,  0.0000e+00, -7.4506e-09,  ...,  0.0000e+00,
+         -7.8697e-08,  0.0000e+00]], device='cuda:0')
+Epoch 224, bias, value: tensor([-0.0066,  0.0238, -0.0025, -0.0051,  0.0149,  0.0055,  0.0249, -0.0118,
+         0.0059, -0.0056], device='cuda:0'), grad: tensor([-3.6601e-07,  4.7963e-08, -3.9814e-07,  2.4494e-07,  2.1666e-05,
+         2.1085e-06, -2.4587e-05,  4.5914e-07,  1.1511e-06, -3.2643e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 223, time 217.27, cls_loss 0.0010 cls_loss_mapping 0.0008 cls_loss_causal 0.4846 re_mapping 0.0047 re_causal 0.0167 /// teacc 99.09 lr 0.00001000
+Epoch 225, weight, value: tensor([[-0.0560, -0.1085, -0.0601,  ..., -0.1168, -0.0206, -0.0325],
+        [-0.0505,  0.0497, -0.1619,  ...,  0.0629,  0.0718, -0.1372],
+        [ 0.0569, -0.0076, -0.0633,  ..., -0.0599, -0.0448,  0.0088],
+        ...,
+        [ 0.0573, -0.0600, -0.0175,  ...,  0.0174, -0.0418,  0.0179],
+        [-0.0674, -0.0268, -0.0823,  ..., -0.0302, -0.0359, -0.0710],
+        [-0.1440, -0.2044,  0.0279,  ..., -0.0659,  0.0404,  0.0480]],
+       device='cuda:0'), grad: tensor([[-1.1967e-07,  0.0000e+00,  1.3970e-08,  ...,  1.8626e-09,
+          2.7986e-07,  0.0000e+00],
+        [ 1.5181e-07,  0.0000e+00,  3.9814e-07,  ...,  1.0710e-08,
+         -8.0392e-06,  0.0000e+00],
+        [-1.5661e-05,  0.0000e+00,  3.9581e-08,  ...,  3.7253e-09,
+          1.5087e-07,  0.0000e+00],
+        ...,
+        [ 1.5557e-05,  0.0000e+00,  1.5693e-07,  ...,  3.4459e-08,
+          1.1967e-06,  0.0000e+00],
+        [ 2.4354e-07,  0.0000e+00,  3.7719e-08,  ...,  2.3283e-09,
+          4.0270e-06,  0.0000e+00],
+        [ 2.9383e-07,  0.0000e+00,  5.9605e-07,  ...,  9.7789e-09,
+          2.2724e-07,  0.0000e+00]], device='cuda:0')
+Epoch 225, bias, value: tensor([-0.0066,  0.0239, -0.0025, -0.0051,  0.0149,  0.0055,  0.0249, -0.0118,
+         0.0059, -0.0056], device='cuda:0'), grad: tensor([-8.4564e-06, -3.4094e-05, -1.8910e-05, -6.5891e-07,  7.0930e-06,
+         8.5216e-07,  9.5554e-07,  2.4691e-05,  1.8150e-05,  1.0386e-05],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 224, time 217.37, cls_loss 0.0009 cls_loss_mapping 0.0008 cls_loss_causal 0.4598 re_mapping 0.0046 re_causal 0.0162 /// teacc 99.07 lr 0.00001000
+Epoch 226, weight, value: tensor([[-0.0560, -0.1087, -0.0601,  ..., -0.1169, -0.0206, -0.0325],
+        [-0.0505,  0.0498, -0.1619,  ...,  0.0629,  0.0718, -0.1372],
+        [ 0.0570, -0.0076, -0.0633,  ..., -0.0599, -0.0448,  0.0088],
+        ...,
+        [ 0.0573, -0.0600, -0.0176,  ...,  0.0174, -0.0418,  0.0179],
+        [-0.0675, -0.0269, -0.0824,  ..., -0.0303, -0.0360, -0.0710],
+        [-0.1440, -0.2045,  0.0278,  ..., -0.0659,  0.0405,  0.0480]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-07,  7.9162e-09,  8.1025e-08,  ...,  0.0000e+00,
+         -1.1036e-07,  0.0000e+00],
+        [ 1.7118e-06,  3.4319e-07,  3.0268e-08,  ...,  0.0000e+00,
+         -2.6543e-08,  0.0000e+00],
+        [-3.2084e-07,  9.8441e-07,  8.7079e-08,  ...,  0.0000e+00,
+          1.5832e-08,  0.0000e+00],
+        ...,
+        [ 1.5059e-06,  2.4540e-07,  2.5099e-07,  ...,  1.8626e-09,
+          1.0058e-07,  0.0000e+00],
+        [-9.4846e-06, -4.2617e-06, -1.8366e-06,  ...,  0.0000e+00,
+         -3.2596e-09,  4.6566e-10],
+        [ 1.4128e-06,  2.2352e-08,  9.1875e-07,  ...,  0.0000e+00,
+         -1.8021e-07,  0.0000e+00]], device='cuda:0')
+Epoch 226, bias, value: tensor([-0.0066,  0.0239, -0.0025, -0.0051,  0.0148,  0.0055,  0.0249, -0.0118,
+         0.0058, -0.0056], device='cuda:0'), grad: tensor([-1.4342e-06,  5.1707e-06,  7.7859e-06,  5.4725e-06,  1.0990e-06,
+         9.1642e-06,  1.3642e-05,  4.9323e-06, -5.1469e-05,  5.7034e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 225, time 217.26, cls_loss 0.0010 cls_loss_mapping 0.0008 cls_loss_causal 0.4718 re_mapping 0.0046 re_causal 0.0162 /// teacc 99.06 lr 0.00001000
+Epoch 227, weight, value: tensor([[-0.0560, -0.1087, -0.0601,  ..., -0.1169, -0.0207, -0.0325],
+        [-0.0505,  0.0499, -0.1620,  ...,  0.0629,  0.0718, -0.1373],
+        [ 0.0570, -0.0077, -0.0633,  ..., -0.0599, -0.0448,  0.0088],
+        ...,
+        [ 0.0573, -0.0600, -0.0176,  ...,  0.0174, -0.0418,  0.0178],
+        [-0.0676, -0.0269, -0.0824,  ..., -0.0303, -0.0360, -0.0710],
+        [-0.1441, -0.2045,  0.0278,  ..., -0.0659,  0.0405,  0.0480]],
+       device='cuda:0'), grad: tensor([[ 1.0887e-06,  0.0000e+00, -4.2282e-07,  ...,  4.6566e-10,
+          1.7229e-08,  0.0000e+00],
+        [ 8.6501e-06,  4.6566e-10,  5.1223e-08,  ...,  8.3819e-09,
+         -1.8300e-07,  0.0000e+00],
+        [ 1.9930e-07, -3.0268e-08,  8.7079e-08,  ...,  4.6566e-10,
+          2.9337e-08,  0.0000e+00],
+        ...,
+        [-1.4834e-05,  2.7940e-08,  4.0978e-08,  ...,  1.8626e-09,
+          1.8068e-07,  0.0000e+00],
+        [ 8.0559e-08,  4.6566e-10, -3.1665e-08,  ...,  0.0000e+00,
+          4.4238e-08,  0.0000e+00],
+        [ 7.6182e-07,  0.0000e+00,  2.2445e-07,  ...,  5.1223e-09,
+         -2.0023e-07,  0.0000e+00]], device='cuda:0')
+Epoch 227, bias, value: tensor([-0.0066,  0.0239, -0.0024, -0.0050,  0.0148,  0.0055,  0.0250, -0.0118,
+         0.0058, -0.0056], device='cuda:0'), grad: tensor([ 5.4482e-08,  1.9237e-05,  1.0636e-06,  3.3602e-06,  4.5709e-06,
+         2.9020e-06, -2.7474e-08, -3.2455e-05, -4.2375e-08,  1.3420e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 226, time 217.33, cls_loss 0.0010 cls_loss_mapping 0.0008 cls_loss_causal 0.4768 re_mapping 0.0046 re_causal 0.0162 /// teacc 99.06 lr 0.00001000
+Epoch 228, weight, value: tensor([[-0.0560, -0.1089, -0.0601,  ..., -0.1170, -0.0207, -0.0325],
+        [-0.0506,  0.0501, -0.1620,  ...,  0.0629,  0.0718, -0.1373],
+        [ 0.0571, -0.0077, -0.0633,  ..., -0.0599, -0.0449,  0.0088],
+        ...,
+        [ 0.0573, -0.0602, -0.0177,  ...,  0.0174, -0.0418,  0.0178],
+        [-0.0677, -0.0269, -0.0824,  ..., -0.0304, -0.0360, -0.0710],
+        [-0.1441, -0.2046,  0.0278,  ..., -0.0660,  0.0406,  0.0481]],
+       device='cuda:0'), grad: tensor([[-1.5069e-06,  0.0000e+00,  1.3970e-09,  ...,  9.3132e-10,
+          4.1444e-08,  0.0000e+00],
+        [ 2.5202e-06,  0.0000e+00,  1.4435e-08,  ...,  1.2424e-06,
+         -2.6915e-07,  0.0000e+00],
+        [-7.4320e-07,  0.0000e+00, -6.9849e-09,  ...,  2.3283e-09,
+          2.0489e-08,  0.0000e+00],
+        ...,
+        [-3.3397e-06,  0.0000e+00, -1.0617e-07,  ..., -1.3513e-06,
+          2.9290e-07,  0.0000e+00],
+        [ 4.2468e-07,  0.0000e+00,  1.5832e-08,  ...,  0.0000e+00,
+          4.4703e-08,  1.3970e-09],
+        [ 1.7658e-06,  0.0000e+00,  6.2399e-08,  ...,  8.1956e-08,
+         -2.5518e-07,  0.0000e+00]], device='cuda:0')
+Epoch 228, bias, value: tensor([-0.0065,  0.0238, -0.0024, -0.0051,  0.0148,  0.0055,  0.0249, -0.0118,
+         0.0058, -0.0056], device='cuda:0'), grad: tensor([-7.0482e-06,  5.2638e-06, -5.5600e-07,  6.2585e-07,  1.0468e-06,
+         4.6752e-07,  1.5907e-06, -7.0408e-06,  1.1679e-06,  4.4964e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 227, time 217.31, cls_loss 0.0011 cls_loss_mapping 0.0008 cls_loss_causal 0.4716 re_mapping 0.0045 re_causal 0.0158 /// teacc 99.06 lr 0.00001000
+Epoch 229, weight, value: tensor([[-0.0560, -0.1089, -0.0602,  ..., -0.1171, -0.0207, -0.0325],
+        [-0.0506,  0.0501, -0.1620,  ...,  0.0629,  0.0719, -0.1373],
+        [ 0.0571, -0.0077, -0.0632,  ..., -0.0600, -0.0449,  0.0088],
+        ...,
+        [ 0.0574, -0.0602, -0.0178,  ...,  0.0174, -0.0418,  0.0178],
+        [-0.0678, -0.0269, -0.0824,  ..., -0.0305, -0.0360, -0.0710],
+        [-0.1442, -0.2046,  0.0277,  ..., -0.0660,  0.0406,  0.0481]],
+       device='cuda:0'), grad: tensor([[ 4.0978e-08,  0.0000e+00, -9.5740e-06,  ...,  4.6566e-10,
+          5.0291e-08,  0.0000e+00],
+        [ 4.0382e-06,  0.0000e+00,  7.0781e-08,  ...,  0.0000e+00,
+         -1.7462e-07,  0.0000e+00],
+        [ 1.1083e-07,  0.0000e+00,  1.4435e-08,  ...,  0.0000e+00,
+          2.7008e-08,  0.0000e+00],
+        ...,
+        [-1.2569e-05,  0.0000e+00,  1.5600e-07,  ...,  4.6566e-10,
+          1.7276e-07,  0.0000e+00],
+        [ 1.5134e-07,  0.0000e+00, -1.1735e-07,  ...,  1.3970e-09,
+         -7.8231e-08,  0.0000e+00],
+        [ 5.5693e-06,  0.0000e+00,  1.9604e-07,  ...,  1.3970e-09,
+         -6.3051e-07,  0.0000e+00]], device='cuda:0')
+Epoch 229, bias, value: tensor([-0.0065,  0.0238, -0.0024, -0.0051,  0.0148,  0.0055,  0.0249, -0.0118,
+         0.0058, -0.0056], device='cuda:0'), grad: tensor([-7.5281e-05,  1.2934e-05,  9.1121e-06,  9.0823e-06,  3.4235e-06,
+         1.7181e-05,  4.0114e-05, -4.0084e-05,  1.9614e-06,  2.1502e-05],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 228, time 217.25, cls_loss 0.0011 cls_loss_mapping 0.0010 cls_loss_causal 0.4693 re_mapping 0.0045 re_causal 0.0162 /// teacc 99.07 lr 0.00001000
+Epoch 230, weight, value: tensor([[-0.0560, -0.1090, -0.0601,  ..., -0.1172, -0.0207, -0.0325],
+        [-0.0507,  0.0501, -0.1621,  ...,  0.0629,  0.0719, -0.1373],
+        [ 0.0573, -0.0076, -0.0632,  ..., -0.0600, -0.0449,  0.0088],
+        ...,
+        [ 0.0574, -0.0602, -0.0178,  ...,  0.0174, -0.0418,  0.0178],
+        [-0.0680, -0.0269, -0.0824,  ..., -0.0306, -0.0361, -0.0710],
+        [-0.1442, -0.2046,  0.0277,  ..., -0.0660,  0.0406,  0.0481]],
+       device='cuda:0'), grad: tensor([[ 3.3528e-08,  0.0000e+00,  4.6566e-09,  ...,  0.0000e+00,
+          3.9581e-08,  0.0000e+00],
+        [ 7.5437e-08,  8.3819e-09,  4.2375e-08,  ...,  4.6566e-10,
+         -4.6706e-07,  0.0000e+00],
+        [-6.9477e-07, -1.3970e-08,  8.3819e-09,  ...,  0.0000e+00,
+          3.7253e-08,  0.0000e+00],
+        ...,
+        [ 4.6426e-07,  5.1223e-09,  3.2596e-08,  ...,  0.0000e+00,
+          2.7241e-07,  0.0000e+00],
+        [ 7.3574e-08,  0.0000e+00,  4.1910e-09,  ...,  0.0000e+00,
+          8.9873e-08,  0.0000e+00],
+        [ 9.7789e-09,  4.6566e-10,  1.2629e-06,  ...,  4.6566e-10,
+         -1.9791e-07,  0.0000e+00]], device='cuda:0')
+Epoch 230, bias, value: tensor([-0.0065,  0.0238, -0.0023, -0.0051,  0.0148,  0.0055,  0.0249, -0.0118,
+         0.0057, -0.0056], device='cuda:0'), grad: tensor([-2.1653e-07, -7.5204e-07, -7.1526e-07,  1.3178e-07, -2.4363e-06,
+         1.5181e-07, -3.0687e-07,  1.3579e-06,  2.9337e-07,  2.4978e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 229, time 217.25, cls_loss 0.0008 cls_loss_mapping 0.0007 cls_loss_causal 0.4313 re_mapping 0.0045 re_causal 0.0159 /// teacc 99.05 lr 0.00001000
+Epoch 231, weight, value: tensor([[-0.0560, -0.1090, -0.0601,  ..., -0.1173, -0.0207, -0.0325],
+        [-0.0507,  0.0501, -0.1621,  ...,  0.0629,  0.0719, -0.1374],
+        [ 0.0574, -0.0076, -0.0631,  ..., -0.0600, -0.0449,  0.0088],
+        ...,
+        [ 0.0574, -0.0602, -0.0180,  ...,  0.0174, -0.0419,  0.0177],
+        [-0.0681, -0.0269, -0.0825,  ..., -0.0306, -0.0362, -0.0710],
+        [-0.1443, -0.2047,  0.0276,  ..., -0.0660,  0.0407,  0.0481]],
+       device='cuda:0'), grad: tensor([[ 7.7020e-07,  0.0000e+00,  7.1852e-07,  ...,  9.3132e-10,
+          3.9022e-07,  0.0000e+00],
+        [ 2.0284e-06,  0.0000e+00,  2.3330e-07,  ...,  9.3132e-10,
+         -5.2787e-06,  0.0000e+00],
+        [-4.7907e-06,  0.0000e+00,  2.8610e-06,  ...,  0.0000e+00,
+          5.4017e-07,  0.0000e+00],
+        ...,
+        [ 1.9036e-06,  0.0000e+00,  1.4855e-07,  ...,  1.4435e-08,
+         -5.1735e-07,  0.0000e+00],
+        [-2.0768e-06,  0.0000e+00, -5.4352e-06,  ...,  2.3283e-09,
+          1.2089e-06,  0.0000e+00],
+        [ 2.7716e-06,  0.0000e+00,  7.6648e-07,  ..., -1.5832e-08,
+          8.6613e-07,  0.0000e+00]], device='cuda:0')
+Epoch 231, bias, value: tensor([-0.0065,  0.0237, -0.0022, -0.0051,  0.0148,  0.0055,  0.0248, -0.0118,
+         0.0056, -0.0057], device='cuda:0'), grad: tensor([ 6.5342e-06, -1.7121e-05,  5.6028e-06, -6.1607e-07,  1.5572e-05,
+         1.8459e-06, -5.3868e-06,  2.3749e-07, -1.7524e-05,  1.0848e-05],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 230, time 217.45, cls_loss 0.0009 cls_loss_mapping 0.0008 cls_loss_causal 0.4844 re_mapping 0.0045 re_causal 0.0164 /// teacc 99.04 lr 0.00001000
+Epoch 232, weight, value: tensor([[-0.0560, -0.1090, -0.0601,  ..., -0.1173, -0.0207, -0.0325],
+        [-0.0507,  0.0501, -0.1622,  ...,  0.0629,  0.0720, -0.1374],
+        [ 0.0574, -0.0076, -0.0632,  ..., -0.0600, -0.0449,  0.0088],
+        ...,
+        [ 0.0574, -0.0602, -0.0181,  ...,  0.0174, -0.0419,  0.0176],
+        [-0.0681, -0.0270, -0.0825,  ..., -0.0307, -0.0363, -0.0710],
+        [-0.1443, -0.2047,  0.0276,  ..., -0.0660,  0.0407,  0.0481]],
+       device='cuda:0'), grad: tensor([[ 1.2573e-08,  1.8626e-09,  1.2107e-08,  ...,  0.0000e+00,
+          3.9581e-08,  0.0000e+00],
+        [-6.3656e-07, -1.3709e-06,  2.4214e-08,  ...,  0.0000e+00,
+         -2.9728e-06,  0.0000e+00],
+        [ 1.9465e-07,  3.1060e-07,  9.3132e-10,  ...,  0.0000e+00,
+          7.3761e-07, -4.6566e-10],
+        ...,
+        [ 3.9767e-07,  9.4064e-07,  6.9849e-09,  ...,  0.0000e+00,
+          1.4007e-06,  4.6566e-10],
+        [-6.9384e-08,  1.3970e-09,  2.7940e-08,  ...,  0.0000e+00,
+          1.1036e-07,  0.0000e+00],
+        [ 1.3504e-07,  9.3132e-10,  1.5311e-06,  ...,  0.0000e+00,
+         -6.1467e-08,  0.0000e+00]], device='cuda:0')
+Epoch 232, bias, value: tensor([-0.0064,  0.0238, -0.0022, -0.0050,  0.0148,  0.0055,  0.0248, -0.0118,
+         0.0056, -0.0057], device='cuda:0'), grad: tensor([-2.6077e-07, -1.1854e-05,  3.8091e-06,  5.7835e-07,  1.8813e-06,
+        -2.9672e-06,  9.7416e-07,  6.3889e-06, -3.2075e-06,  4.6380e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 231, time 217.33, cls_loss 0.0009 cls_loss_mapping 0.0008 cls_loss_causal 0.4745 re_mapping 0.0045 re_causal 0.0162 /// teacc 99.05 lr 0.00001000
+Epoch 233, weight, value: tensor([[-0.0560, -0.1091, -0.0600,  ..., -0.1174, -0.0207, -0.0325],
+        [-0.0508,  0.0502, -0.1622,  ...,  0.0629,  0.0720, -0.1374],
+        [ 0.0575, -0.0076, -0.0631,  ..., -0.0601, -0.0449,  0.0088],
+        ...,
+        [ 0.0574, -0.0602, -0.0182,  ...,  0.0174, -0.0419,  0.0176],
+        [-0.0682, -0.0271, -0.0825,  ..., -0.0308, -0.0364, -0.0710],
+        [-0.1444, -0.2047,  0.0276,  ..., -0.0660,  0.0407,  0.0481]],
+       device='cuda:0'), grad: tensor([[ 1.4901e-08,  9.3132e-10,  3.2596e-09,  ...,  0.0000e+00,
+          2.4680e-08,  0.0000e+00],
+        [ 1.0934e-06, -2.8266e-07,  1.5832e-08,  ...,  4.6566e-10,
+         -2.2259e-07,  0.0000e+00],
+        [-8.6986e-07,  1.7509e-07,  3.7253e-09,  ...,  0.0000e+00,
+          1.9185e-07,  0.0000e+00],
+        ...,
+        [-2.7614e-07,  9.8255e-08,  1.6764e-08,  ...,  4.6566e-10,
+          1.9511e-07,  0.0000e+00],
+        [ 1.4482e-07,  4.6566e-10,  1.3039e-08,  ...,  0.0000e+00,
+          1.3318e-07,  0.0000e+00],
+        [ 1.7695e-07,  0.0000e+00, -6.0536e-09,  ...,  4.6566e-10,
+         -2.3143e-07,  0.0000e+00]], device='cuda:0')
+Epoch 233, bias, value: tensor([-0.0064,  0.0237, -0.0022, -0.0051,  0.0148,  0.0055,  0.0248, -0.0118,
+         0.0056, -0.0057], device='cuda:0'), grad: tensor([-9.6206e-07,  1.1604e-06, -5.0291e-07, -6.1467e-07,  7.1200e-07,
+         5.9977e-07, -1.1763e-06, -5.8673e-08,  6.4075e-07,  2.2445e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 232, time 217.63, cls_loss 0.0010 cls_loss_mapping 0.0008 cls_loss_causal 0.4912 re_mapping 0.0045 re_causal 0.0163 /// teacc 99.05 lr 0.00001000
+Epoch 234, weight, value: tensor([[-0.0560, -0.1091, -0.0600,  ..., -0.1175, -0.0208, -0.0325],
+        [-0.0508,  0.0502, -0.1623,  ...,  0.0629,  0.0720, -0.1374],
+        [ 0.0575, -0.0076, -0.0631,  ..., -0.0601, -0.0449,  0.0088],
+        ...,
+        [ 0.0574, -0.0602, -0.0182,  ...,  0.0174, -0.0419,  0.0176],
+        [-0.0683, -0.0271, -0.0826,  ..., -0.0308, -0.0365, -0.0710],
+        [-0.1445, -0.2047,  0.0275,  ..., -0.0660,  0.0408,  0.0481]],
+       device='cuda:0'), grad: tensor([[ 4.4703e-08,  7.4506e-09,  3.9116e-08,  ...,  0.0000e+00,
+          4.6566e-08,  1.1176e-08],
+        [ 1.8841e-06,  3.7998e-07,  2.8126e-07,  ...,  0.0000e+00,
+          2.3842e-07,  1.8626e-09],
+        [ 7.9721e-07,  1.8626e-07,  4.1910e-08,  ...,  0.0000e+00,
+          1.0245e-08,  9.3132e-10],
+        ...,
+        [-3.7961e-06, -8.1025e-07,  1.2480e-06,  ...,  0.0000e+00,
+          1.0896e-07,  0.0000e+00],
+        [ 4.4703e-08,  4.6566e-09,  1.4901e-08,  ...,  0.0000e+00,
+         -5.3272e-07,  3.4459e-08],
+        [ 5.1316e-07,  9.3132e-08,  6.3293e-06,  ...,  9.3132e-10,
+          1.9558e-08,  9.3132e-10]], device='cuda:0')
+Epoch 234, bias, value: tensor([-0.0064,  0.0237, -0.0021, -0.0051,  0.0148,  0.0056,  0.0248, -0.0117,
+         0.0054, -0.0057], device='cuda:0'), grad: tensor([-1.9632e-06,  7.5102e-06,  2.1011e-06,  1.5208e-06, -1.8805e-05,
+         1.8440e-06, -2.1793e-07, -5.1335e-06, -3.6955e-06,  1.6794e-05],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 233, time 217.48, cls_loss 0.0009 cls_loss_mapping 0.0006 cls_loss_causal 0.4746 re_mapping 0.0044 re_causal 0.0160 /// teacc 99.04 lr 0.00001000
+Epoch 235, weight, value: tensor([[-0.0561, -0.1092, -0.0600,  ..., -0.1175, -0.0208, -0.0325],
+        [-0.0509,  0.0502, -0.1624,  ...,  0.0629,  0.0721, -0.1374],
+        [ 0.0577, -0.0076, -0.0630,  ..., -0.0601, -0.0449,  0.0088],
+        ...,
+        [ 0.0574, -0.0602, -0.0183,  ...,  0.0174, -0.0419,  0.0176],
+        [-0.0684, -0.0271, -0.0826,  ..., -0.0308, -0.0366, -0.0710],
+        [-0.1445, -0.2047,  0.0274,  ..., -0.0661,  0.0408,  0.0481]],
+       device='cuda:0'), grad: tensor([[ 4.4703e-08,  2.7940e-09,  6.5193e-09,  ...,  0.0000e+00,
+          3.9116e-08,  0.0000e+00],
+        [ 6.7521e-07,  1.0058e-07,  1.8626e-08,  ...,  0.0000e+00,
+         -3.9116e-08,  0.0000e+00],
+        [ 8.5589e-07,  2.2538e-07, -8.3819e-09,  ...,  0.0000e+00,
+          1.3970e-08,  0.0000e+00],
+        ...,
+        [-2.7753e-07,  6.8918e-08,  2.5146e-08,  ...,  0.0000e+00,
+          7.7300e-08,  4.6566e-09],
+        [-4.3176e-06, -1.2023e-06,  1.2387e-07,  ...,  0.0000e+00,
+          7.9162e-08,  0.0000e+00],
+        [ 6.6776e-07,  7.4506e-09,  8.1025e-08,  ...,  0.0000e+00,
+         -1.7136e-07, -5.5879e-09]], device='cuda:0')
+Epoch 235, bias, value: tensor([-0.0064,  0.0237, -0.0021, -0.0051,  0.0148,  0.0056,  0.0248, -0.0117,
+         0.0053, -0.0058], device='cuda:0'), grad: tensor([ 1.6764e-07,  3.3490e-06,  5.7146e-06,  7.9721e-07,  8.7172e-07,
+         8.1435e-06,  8.4713e-06, -1.3318e-07, -2.8715e-05,  1.3076e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 234, time 217.43, cls_loss 0.0009 cls_loss_mapping 0.0007 cls_loss_causal 0.4849 re_mapping 0.0044 re_causal 0.0165 /// teacc 99.03 lr 0.00001000
+Epoch 236, weight, value: tensor([[-0.0560, -0.1092, -0.0600,  ..., -0.1176, -0.0208, -0.0325],
+        [-0.0509,  0.0502, -0.1625,  ...,  0.0630,  0.0721, -0.1374],
+        [ 0.0578, -0.0076, -0.0629,  ..., -0.0601, -0.0450,  0.0088],
+        ...,
+        [ 0.0574, -0.0602, -0.0184,  ...,  0.0173, -0.0420,  0.0176],
+        [-0.0686, -0.0271, -0.0827,  ..., -0.0309, -0.0368, -0.0710],
+        [-0.1446, -0.2048,  0.0273,  ..., -0.0661,  0.0409,  0.0481]],
+       device='cuda:0'), grad: tensor([[ 2.2352e-08,  9.3132e-10, -2.7940e-09,  ...,  0.0000e+00,
+          1.4901e-08,  0.0000e+00],
+        [-9.7696e-07, -1.7183e-06,  2.7008e-08,  ...,  0.0000e+00,
+         -2.5313e-06,  0.0000e+00],
+        [ 6.7800e-07,  9.8720e-07,  6.5193e-09,  ...,  0.0000e+00,
+          1.3402e-06,  0.0000e+00],
+        ...,
+        [-1.2135e-06,  6.8825e-07, -7.0781e-08,  ...,  0.0000e+00,
+          1.0477e-06,  0.0000e+00],
+        [ 4.3493e-07,  9.3132e-10,  9.6858e-08,  ...,  0.0000e+00,
+          3.2596e-08,  0.0000e+00],
+        [ 1.0971e-06,  0.0000e+00,  1.8813e-07,  ...,  9.3132e-10,
+         -5.9605e-08,  0.0000e+00]], device='cuda:0')
+Epoch 236, bias, value: tensor([-0.0063,  0.0237, -0.0020, -0.0051,  0.0148,  0.0056,  0.0248, -0.0118,
+         0.0052, -0.0058], device='cuda:0'), grad: tensor([-2.3283e-07, -4.9025e-06,  2.6934e-06, -2.4587e-07,  5.1595e-07,
+         5.3085e-08,  1.3411e-07, -2.5406e-06,  1.4957e-06,  3.0212e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 235, time 217.60, cls_loss 0.0010 cls_loss_mapping 0.0008 cls_loss_causal 0.4786 re_mapping 0.0045 re_causal 0.0162 /// teacc 99.04 lr 0.00001000
+Epoch 237, weight, value: tensor([[-0.0561, -0.1093, -0.0601,  ..., -0.1177, -0.0209, -0.0325],
+        [-0.0509,  0.0502, -0.1626,  ...,  0.0629,  0.0722, -0.1374],
+        [ 0.0578, -0.0077, -0.0629,  ..., -0.0601, -0.0451,  0.0088],
+        ...,
+        [ 0.0574, -0.0602, -0.0185,  ...,  0.0173, -0.0420,  0.0175],
+        [-0.0687, -0.0271, -0.0827,  ..., -0.0310, -0.0369, -0.0711],
+        [-0.1446, -0.2048,  0.0274,  ..., -0.0661,  0.0410,  0.0481]],
+       device='cuda:0'), grad: tensor([[ 2.9802e-08,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          1.5832e-08,  0.0000e+00],
+        [ 1.8720e-07,  0.0000e+00,  1.3970e-08,  ...,  4.6566e-09,
+         -2.3376e-07,  0.0000e+00],
+        [-2.7474e-07,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          5.1223e-08,  0.0000e+00],
+        ...,
+        [-4.1723e-07,  0.0000e+00,  3.7253e-09,  ..., -2.3283e-08,
+          2.1700e-07,  0.0000e+00],
+        [ 6.7055e-08,  0.0000e+00,  5.5879e-09,  ...,  0.0000e+00,
+          4.0047e-08,  0.0000e+00],
+        [ 7.6368e-08,  0.0000e+00, -1.1176e-08,  ...,  3.7253e-09,
+         -1.0272e-06,  0.0000e+00]], device='cuda:0')
+Epoch 237, bias, value: tensor([-0.0063,  0.0237, -0.0020, -0.0051,  0.0147,  0.0057,  0.0249, -0.0118,
+         0.0052, -0.0057], device='cuda:0'), grad: tensor([-4.1425e-06,  2.0675e-07, -2.4866e-07,  1.0775e-06,  3.2783e-06,
+         3.0287e-06,  7.1060e-07, -1.2517e-06,  3.1572e-07, -2.9635e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 236, time 217.65, cls_loss 0.0009 cls_loss_mapping 0.0007 cls_loss_causal 0.4453 re_mapping 0.0043 re_causal 0.0157 /// teacc 99.08 lr 0.00001000
+Epoch 238, weight, value: tensor([[-0.0561, -0.1093, -0.0600,  ..., -0.1178, -0.0210, -0.0325],
+        [-0.0509,  0.0502, -0.1626,  ...,  0.0629,  0.0722, -0.1375],
+        [ 0.0579, -0.0077, -0.0629,  ..., -0.0602, -0.0451,  0.0088],
+        ...,
+        [ 0.0574, -0.0602, -0.0185,  ...,  0.0174, -0.0420,  0.0175],
+        [-0.0688, -0.0271, -0.0828,  ..., -0.0310, -0.0370, -0.0711],
+        [-0.1447, -0.2048,  0.0273,  ..., -0.0661,  0.0411,  0.0481]],
+       device='cuda:0'), grad: tensor([[ 1.4901e-08,  0.0000e+00,  1.6671e-07,  ...,  9.3132e-10,
+          1.0245e-08,  0.0000e+00],
+        [ 1.5553e-07,  0.0000e+00,  9.8720e-08,  ...,  1.8626e-09,
+          3.6322e-08,  0.0000e+00],
+        [-3.7253e-09,  0.0000e+00,  1.5739e-07,  ...,  0.0000e+00,
+          1.3970e-08,  0.0000e+00],
+        ...,
+        [-9.9652e-08,  0.0000e+00,  4.9081e-07,  ...,  1.6671e-07,
+          6.8732e-07,  0.0000e+00],
+        [ 3.7253e-08,  0.0000e+00,  8.0932e-07,  ...,  1.8626e-09,
+         -3.3900e-07,  0.0000e+00],
+        [-6.0536e-08,  0.0000e+00, -8.2795e-07,  ..., -2.1048e-07,
+         -5.6252e-07,  0.0000e+00]], device='cuda:0')
+Epoch 238, bias, value: tensor([-0.0063,  0.0237, -0.0020, -0.0051,  0.0147,  0.0057,  0.0249, -0.0118,
+         0.0051, -0.0057], device='cuda:0'), grad: tensor([-6.0536e-06,  1.3392e-06,  4.1537e-07,  3.9041e-05,  8.0913e-06,
+        -4.2588e-05,  1.8114e-06,  5.6326e-06,  1.7956e-06, -9.5442e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 237, time 217.36, cls_loss 0.0008 cls_loss_mapping 0.0008 cls_loss_causal 0.4947 re_mapping 0.0045 re_causal 0.0168 /// teacc 99.07 lr 0.00001000
+Epoch 239, weight, value: tensor([[-0.0562, -0.1093, -0.0601,  ..., -0.1178, -0.0210, -0.0325],
+        [-0.0509,  0.0503, -0.1627,  ...,  0.0629,  0.0723, -0.1375],
+        [ 0.0579, -0.0077, -0.0629,  ..., -0.0602, -0.0452,  0.0088],
+        ...,
+        [ 0.0574, -0.0602, -0.0186,  ...,  0.0174, -0.0421,  0.0175],
+        [-0.0689, -0.0271, -0.0828,  ..., -0.0311, -0.0370, -0.0711],
+        [-0.1447, -0.2048,  0.0272,  ..., -0.0661,  0.0411,  0.0481]],
+       device='cuda:0'), grad: tensor([[ 7.6368e-08,  0.0000e+00,  8.6613e-08,  ...,  0.0000e+00,
+          3.5390e-08,  0.0000e+00],
+        [ 8.9407e-08,  0.0000e+00,  2.9802e-08,  ...,  0.0000e+00,
+         -6.5193e-08,  0.0000e+00],
+        [-2.7940e-08,  0.0000e+00,  1.2107e-08,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        ...,
+        [-1.8626e-08,  0.0000e+00,  2.5146e-08,  ...,  0.0000e+00,
+          4.1910e-08,  0.0000e+00],
+        [ 1.5832e-08,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          1.2107e-08,  0.0000e+00],
+        [ 6.0536e-08,  0.0000e+00, -9.1176e-07,  ...,  0.0000e+00,
+         -3.8650e-07,  0.0000e+00]], device='cuda:0')
+Epoch 239, bias, value: tensor([-0.0063,  0.0237, -0.0020, -0.0051,  0.0147,  0.0057,  0.0249, -0.0118,
+         0.0051, -0.0057], device='cuda:0'), grad: tensor([ 2.4214e-06,  1.5926e-07,  8.4750e-07, -1.7695e-08,  4.8876e-06,
+         6.4634e-07, -6.2585e-06,  1.3970e-08,  3.7253e-08, -2.7139e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 238, time 217.38, cls_loss 0.0010 cls_loss_mapping 0.0008 cls_loss_causal 0.4748 re_mapping 0.0045 re_causal 0.0163 /// teacc 99.08 lr 0.00001000
+Epoch 240, weight, value: tensor([[-0.0561, -0.1093, -0.0601,  ..., -0.1179, -0.0210, -0.0325],
+        [-0.0509,  0.0503, -0.1627,  ...,  0.0632,  0.0725, -0.1375],
+        [ 0.0580, -0.0077, -0.0629,  ..., -0.0602, -0.0453,  0.0088],
+        ...,
+        [ 0.0574, -0.0602, -0.0187,  ...,  0.0171, -0.0423,  0.0175],
+        [-0.0690, -0.0271, -0.0828,  ..., -0.0312, -0.0371, -0.0711],
+        [-0.1448, -0.2048,  0.0271,  ..., -0.0661,  0.0412,  0.0481]],
+       device='cuda:0'), grad: tensor([[ 9.2108e-07,  0.0000e+00,  1.4901e-08,  ...,  2.0489e-08,
+          6.0536e-08,  0.0000e+00],
+        [ 1.9372e-07,  0.0000e+00,  1.3690e-07,  ...,  1.7229e-07,
+         -9.3132e-10,  0.0000e+00],
+        [-2.3954e-06,  0.0000e+00,  5.9605e-08,  ...,  9.6858e-08,
+          8.0094e-08,  0.0000e+00],
+        ...,
+        [-3.3453e-06,  0.0000e+00, -6.5006e-06,  ..., -1.0706e-05,
+          4.2841e-08,  0.0000e+00],
+        [ 4.1723e-07,  0.0000e+00,  2.4214e-08,  ...,  5.5879e-09,
+          6.9849e-08,  0.0000e+00],
+        [ 2.5146e-07,  0.0000e+00,  6.9197e-07,  ...,  2.8126e-07,
+         -6.7987e-08,  0.0000e+00]], device='cuda:0')
+Epoch 240, bias, value: tensor([-0.0063,  0.0238, -0.0020, -0.0051,  0.0147,  0.0057,  0.0249, -0.0119,
+         0.0050, -0.0058], device='cuda:0'), grad: tensor([ 2.0154e-06,  8.3912e-07, -5.2452e-06,  2.4885e-06,  1.5751e-05,
+         4.3623e-06, -1.8626e-07, -2.3693e-05,  1.2135e-06,  2.4140e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 239, time 217.94, cls_loss 0.0009 cls_loss_mapping 0.0009 cls_loss_causal 0.4928 re_mapping 0.0045 re_causal 0.0165 /// teacc 99.09 lr 0.00001000
+Epoch 241, weight, value: tensor([[-0.0561, -0.1094, -0.0601,  ..., -0.1179, -0.0210, -0.0325],
+        [-0.0510,  0.0503, -0.1628,  ...,  0.0634,  0.0727, -0.1375],
+        [ 0.0581, -0.0077, -0.0628,  ..., -0.0603, -0.0453,  0.0088],
+        ...,
+        [ 0.0574, -0.0602, -0.0187,  ...,  0.0170, -0.0425,  0.0174],
+        [-0.0691, -0.0271, -0.0828,  ..., -0.0312, -0.0372, -0.0711],
+        [-0.1448, -0.2048,  0.0270,  ..., -0.0661,  0.0412,  0.0481]],
+       device='cuda:0'), grad: tensor([[ 1.3318e-07,  0.0000e+00,  4.7870e-07,  ...,  0.0000e+00,
+          8.3167e-07,  0.0000e+00],
+        [ 3.0641e-07,  0.0000e+00,  3.7439e-07,  ...,  0.0000e+00,
+          4.0978e-08,  0.0000e+00],
+        [-3.0976e-06,  0.0000e+00,  1.9483e-06,  ...,  0.0000e+00,
+          3.1944e-07,  0.0000e+00],
+        ...,
+        [ 2.5146e-06,  0.0000e+00,  4.3958e-07,  ...,  0.0000e+00,
+          4.5635e-08,  0.0000e+00],
+        [-4.4424e-07,  0.0000e+00, -3.5241e-06,  ...,  0.0000e+00,
+          1.4156e-07,  0.0000e+00],
+        [ 4.0699e-07,  0.0000e+00,  5.8860e-07,  ...,  0.0000e+00,
+         -8.3819e-08,  0.0000e+00]], device='cuda:0')
+Epoch 241, bias, value: tensor([-0.0063,  0.0239, -0.0019, -0.0052,  0.0148,  0.0057,  0.0249, -0.0119,
+         0.0050, -0.0058], device='cuda:0'), grad: tensor([ 4.8317e-06,  1.8971e-06, -1.1455e-07,  4.8056e-07, -1.3271e-06,
+         2.4453e-05, -2.7820e-05,  8.4937e-06, -1.3821e-05,  2.8722e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 240, time 218.12, cls_loss 0.0009 cls_loss_mapping 0.0008 cls_loss_causal 0.4641 re_mapping 0.0044 re_causal 0.0161 /// teacc 99.09 lr 0.00001000
+Epoch 242, weight, value: tensor([[-0.0562, -0.1094, -0.0602,  ..., -0.1180, -0.0210, -0.0325],
+        [-0.0509,  0.0504, -0.1629,  ...,  0.0634,  0.0727, -0.1375],
+        [ 0.0581, -0.0077, -0.0628,  ..., -0.0603, -0.0454,  0.0088],
+        ...,
+        [ 0.0574, -0.0603, -0.0189,  ...,  0.0170, -0.0425,  0.0174],
+        [-0.0692, -0.0271, -0.0829,  ..., -0.0313, -0.0373, -0.0711],
+        [-0.1449, -0.2048,  0.0270,  ..., -0.0661,  0.0413,  0.0481]],
+       device='cuda:0'), grad: tensor([[ 1.5832e-08,  0.0000e+00,  5.5879e-09,  ...,  0.0000e+00,
+          1.8626e-08,  0.0000e+00],
+        [ 4.2003e-07,  0.0000e+00,  1.4435e-07,  ...,  3.7253e-09,
+         -1.0338e-07,  0.0000e+00],
+        [-7.1246e-07,  0.0000e+00, -2.4214e-08,  ...,  9.3132e-10,
+          1.4901e-08,  0.0000e+00],
+        ...,
+        [-9.2201e-08,  0.0000e+00, -4.0978e-08,  ..., -4.0047e-08,
+          6.3889e-07,  0.0000e+00],
+        [ 4.1910e-08,  0.0000e+00, -2.9802e-08,  ...,  0.0000e+00,
+          7.0781e-08,  0.0000e+00],
+        [ 1.8161e-07,  0.0000e+00,  1.7136e-07,  ...,  2.4214e-08,
+         -1.0300e-06,  0.0000e+00]], device='cuda:0')
+Epoch 242, bias, value: tensor([-0.0063,  0.0239, -0.0019, -0.0051,  0.0147,  0.0057,  0.0248, -0.0120,
+         0.0049, -0.0057], device='cuda:0'), grad: tensor([ 1.1269e-07,  1.0245e-06, -9.7975e-07, -6.3796e-07,  4.9639e-07,
+         1.2433e-06,  1.0058e-07,  1.3551e-06,  6.0536e-08, -2.7735e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 241, time 218.15, cls_loss 0.0009 cls_loss_mapping 0.0007 cls_loss_causal 0.4478 re_mapping 0.0045 re_causal 0.0161 /// teacc 99.10 lr 0.00001000
+Epoch 243, weight, value: tensor([[-0.0562, -0.1094, -0.0603,  ..., -0.1181, -0.0211, -0.0326],
+        [-0.0509,  0.0505, -0.1630,  ...,  0.0634,  0.0728, -0.1376],
+        [ 0.0582, -0.0077, -0.0628,  ..., -0.0603, -0.0455,  0.0087],
+        ...,
+        [ 0.0574, -0.0603, -0.0189,  ...,  0.0170, -0.0426,  0.0174],
+        [-0.0694, -0.0271, -0.0830,  ..., -0.0314, -0.0374, -0.0711],
+        [-0.1449, -0.2049,  0.0270,  ..., -0.0661,  0.0415,  0.0481]],
+       device='cuda:0'), grad: tensor([[ 4.8429e-08,  0.0000e+00,  1.4901e-08,  ...,  0.0000e+00,
+          1.2107e-08,  0.0000e+00],
+        [ 9.1922e-07,  0.0000e+00,  6.0536e-08,  ...,  0.0000e+00,
+         -5.3085e-08,  0.0000e+00],
+        [-6.2399e-08,  0.0000e+00,  1.4901e-08,  ...,  0.0000e+00,
+         -5.5879e-08,  0.0000e+00],
+        ...,
+        [-1.2908e-06,  0.0000e+00,  9.4995e-08,  ...,  0.0000e+00,
+          7.9162e-08,  0.0000e+00],
+        [ 6.7055e-08,  0.0000e+00, -3.7253e-09,  ...,  0.0000e+00,
+          6.5193e-09,  0.0000e+00],
+        [ 4.1910e-08,  0.0000e+00,  2.3022e-05,  ...,  0.0000e+00,
+         -5.5879e-08,  0.0000e+00]], device='cuda:0')
+Epoch 243, bias, value: tensor([-0.0063,  0.0239, -0.0019, -0.0051,  0.0147,  0.0058,  0.0247, -0.0120,
+         0.0048, -0.0057], device='cuda:0'), grad: tensor([ 1.2945e-07,  1.6727e-06, -3.2783e-07,  6.6124e-07, -5.6118e-05,
+        -1.3923e-06,  1.3961e-06, -1.9539e-06,  6.9849e-08,  5.5909e-05],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 242, time 217.94, cls_loss 0.0008 cls_loss_mapping 0.0009 cls_loss_causal 0.4683 re_mapping 0.0046 re_causal 0.0163 /// teacc 99.09 lr 0.00001000
+Epoch 244, weight, value: tensor([[-0.0562, -0.1095, -0.0603,  ..., -0.1181, -0.0211, -0.0326],
+        [-0.0509,  0.0508, -0.1631,  ...,  0.0634,  0.0728, -0.1376],
+        [ 0.0583, -0.0077, -0.0628,  ..., -0.0603, -0.0455,  0.0087],
+        ...,
+        [ 0.0574, -0.0605, -0.0191,  ...,  0.0170, -0.0426,  0.0174],
+        [-0.0695, -0.0271, -0.0830,  ..., -0.0314, -0.0374, -0.0711],
+        [-0.1450, -0.2049,  0.0268,  ..., -0.0661,  0.0415,  0.0481]],
+       device='cuda:0'), grad: tensor([[ 5.7742e-08,  0.0000e+00,  1.2107e-07,  ...,  0.0000e+00,
+          1.6298e-07,  0.0000e+00],
+        [ 3.0547e-07,  0.0000e+00,  6.8918e-08,  ...,  0.0000e+00,
+         -1.2144e-06,  0.0000e+00],
+        [ 1.3877e-07,  0.0000e+00,  6.1933e-07,  ...,  0.0000e+00,
+          1.3905e-06,  0.0000e+00],
+        ...,
+        [-2.1011e-06,  0.0000e+00,  3.8184e-08,  ...,  0.0000e+00,
+          7.4320e-07,  6.5193e-09],
+        [-9.3132e-09,  0.0000e+00,  4.1164e-07,  ...,  0.0000e+00,
+          1.4901e-07,  9.3132e-10],
+        [ 9.5554e-07,  0.0000e+00,  2.2817e-07,  ...,  0.0000e+00,
+         -3.0920e-07, -2.8871e-08]], device='cuda:0')
+Epoch 244, bias, value: tensor([-0.0062,  0.0239, -0.0018, -0.0051,  0.0148,  0.0058,  0.0247, -0.0120,
+         0.0048, -0.0058], device='cuda:0'), grad: tensor([ 1.6363e-06, -1.4044e-06,  9.6411e-06,  2.4773e-06,  6.1169e-06,
+        -5.4110e-07, -1.8746e-05, -3.8296e-06,  1.9372e-06,  2.7083e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 243, time 217.97, cls_loss 0.0008 cls_loss_mapping 0.0007 cls_loss_causal 0.4854 re_mapping 0.0045 re_causal 0.0166 /// teacc 99.10 lr 0.00001000
+Epoch 245, weight, value: tensor([[-0.0563, -0.1095, -0.0603,  ..., -0.1181, -0.0211, -0.0326],
+        [-0.0509,  0.0509, -0.1632,  ...,  0.0634,  0.0729, -0.1376],
+        [ 0.0584, -0.0077, -0.0628,  ..., -0.0604, -0.0455,  0.0088],
+        ...,
+        [ 0.0574, -0.0606, -0.0191,  ...,  0.0170, -0.0426,  0.0174],
+        [-0.0698, -0.0271, -0.0830,  ..., -0.0314, -0.0375, -0.0711],
+        [-0.1450, -0.2049,  0.0267,  ..., -0.0661,  0.0415,  0.0481]],
+       device='cuda:0'), grad: tensor([[ 2.0582e-07,  0.0000e+00,  8.7544e-08,  ...,  0.0000e+00,
+          1.8720e-07,  0.0000e+00],
+        [ 2.5984e-07,  0.0000e+00,  1.6298e-07,  ...,  0.0000e+00,
+         -5.3309e-06,  0.0000e+00],
+        [-8.6427e-06,  0.0000e+00, -4.4517e-07,  ...,  0.0000e+00,
+         -3.7253e-09,  0.0000e+00],
+        ...,
+        [ 7.5400e-06,  0.0000e+00,  3.9302e-07,  ...,  0.0000e+00,
+          3.6508e-06,  0.0000e+00],
+        [ 4.4610e-07,  0.0000e+00,  3.0082e-07,  ...,  0.0000e+00,
+          1.5274e-07,  0.0000e+00],
+        [ 7.1712e-08,  0.0000e+00,  8.5495e-07,  ...,  0.0000e+00,
+          9.6578e-07,  0.0000e+00]], device='cuda:0')
+Epoch 245, bias, value: tensor([-0.0062,  0.0239, -0.0018, -0.0050,  0.0148,  0.0057,  0.0248, -0.0120,
+         0.0047, -0.0058], device='cuda:0'), grad: tensor([-4.5542e-07, -1.5318e-05, -1.4447e-05,  3.1665e-07, -2.4922e-06,
+         6.5193e-09, -4.9360e-08,  2.4512e-05,  1.8803e-06,  6.0573e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 244, time 217.95, cls_loss 0.0008 cls_loss_mapping 0.0008 cls_loss_causal 0.4894 re_mapping 0.0045 re_causal 0.0166 /// teacc 99.10 lr 0.00001000
+Epoch 246, weight, value: tensor([[-0.0563, -0.1096, -0.0603,  ..., -0.1181, -0.0211, -0.0326],
+        [-0.0509,  0.0511, -0.1632,  ...,  0.0634,  0.0730, -0.1376],
+        [ 0.0585, -0.0078, -0.0628,  ..., -0.0604, -0.0455,  0.0088],
+        ...,
+        [ 0.0573, -0.0608, -0.0193,  ...,  0.0169, -0.0427,  0.0173],
+        [-0.0701, -0.0271, -0.0830,  ..., -0.0315, -0.0375, -0.0711],
+        [-0.1451, -0.2049,  0.0266,  ..., -0.0662,  0.0416,  0.0481]],
+       device='cuda:0'), grad: tensor([[ 6.9849e-08,  0.0000e+00, -7.1712e-08,  ...,  9.3132e-10,
+          1.4901e-08,  8.3819e-09],
+        [ 1.7975e-07,  0.0000e+00,  6.1616e-06,  ...,  9.1735e-07,
+          1.8338e-06,  4.6566e-09],
+        [ 9.0338e-07,  0.0000e+00,  4.8429e-08,  ...,  3.7253e-09,
+          2.7008e-08,  8.3819e-08],
+        ...,
+        [-4.5914e-07,  0.0000e+00,  2.3935e-07,  ...,  6.5193e-09,
+          1.5926e-07,  2.1420e-08],
+        [ 3.5390e-08,  0.0000e+00,  7.2643e-08,  ...,  0.0000e+00,
+          1.1176e-08,  3.7253e-09],
+        [ 8.1956e-08,  0.0000e+00,  3.5651e-06,  ...,  4.9639e-07,
+          1.1204e-06,  7.4506e-09]], device='cuda:0')
+Epoch 246, bias, value: tensor([-0.0062,  0.0240, -0.0017, -0.0050,  0.0148,  0.0057,  0.0247, -0.0121,
+         0.0046, -0.0058], device='cuda:0'), grad: tensor([-3.7961e-06,  1.4223e-05,  1.6093e-06, -1.5646e-06, -2.2992e-05,
+         1.1595e-06,  1.9930e-06,  2.4866e-07,  2.8033e-07,  8.8140e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 245, time 217.97, cls_loss 0.0010 cls_loss_mapping 0.0007 cls_loss_causal 0.4716 re_mapping 0.0044 re_causal 0.0160 /// teacc 99.06 lr 0.00001000
+Epoch 247, weight, value: tensor([[-0.0564, -0.1097, -0.0602,  ..., -0.1182, -0.0212, -0.0326],
+        [-0.0510,  0.0512, -0.1634,  ...,  0.0634,  0.0731, -0.1376],
+        [ 0.0586, -0.0077, -0.0628,  ..., -0.0604, -0.0456,  0.0087],
+        ...,
+        [ 0.0574, -0.0609, -0.0194,  ...,  0.0169, -0.0428,  0.0172],
+        [-0.0703, -0.0271, -0.0831,  ..., -0.0315, -0.0377, -0.0711],
+        [-0.1452, -0.2049,  0.0266,  ..., -0.0662,  0.0417,  0.0482]],
+       device='cuda:0'), grad: tensor([[ 1.0245e-08,  0.0000e+00,  4.6566e-09,  ...,  0.0000e+00,
+          1.5944e-06,  1.8626e-09],
+        [ 1.2852e-07,  0.0000e+00,  8.3819e-08,  ...,  0.0000e+00,
+         -1.0617e-07,  2.7940e-09],
+        [-7.4506e-09,  0.0000e+00,  4.0047e-08,  ...,  0.0000e+00,
+          2.2352e-08,  0.0000e+00],
+        ...,
+        [-6.7055e-08,  0.0000e+00,  7.7300e-08,  ...,  5.5879e-09,
+          7.9442e-07,  1.2293e-07],
+        [ 1.4901e-08,  0.0000e+00,  1.3970e-08,  ...,  0.0000e+00,
+          3.7253e-08,  0.0000e+00],
+        [ 3.4459e-08,  0.0000e+00,  3.1114e-05,  ..., -2.2352e-08,
+         -2.0117e-06, -3.1479e-07]], device='cuda:0')
+Epoch 247, bias, value: tensor([-0.0061,  0.0240, -0.0017, -0.0050,  0.0148,  0.0057,  0.0248, -0.0121,
+         0.0044, -0.0059], device='cuda:0'), grad: tensor([ 1.9282e-05,  2.9895e-07,  1.5646e-07, -8.5682e-08, -9.7990e-05,
+         3.8743e-06, -2.3216e-05,  3.5446e-06,  2.1420e-07,  9.3937e-05],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 246, time 217.96, cls_loss 0.0010 cls_loss_mapping 0.0008 cls_loss_causal 0.4909 re_mapping 0.0044 re_causal 0.0165 /// teacc 99.06 lr 0.00001000
+Epoch 248, weight, value: tensor([[-0.0564, -0.1098, -0.0602,  ..., -0.1182, -0.0213, -0.0326],
+        [-0.0509,  0.0514, -0.1635,  ...,  0.0636,  0.0733, -0.1376],
+        [ 0.0586, -0.0078, -0.0628,  ..., -0.0604, -0.0457,  0.0087],
+        ...,
+        [ 0.0573, -0.0610, -0.0195,  ...,  0.0168, -0.0430,  0.0171],
+        [-0.0705, -0.0271, -0.0832,  ..., -0.0316, -0.0378, -0.0711],
+        [-0.1452, -0.2049,  0.0264,  ..., -0.0662,  0.0417,  0.0482]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-08,  6.5193e-09, -9.6858e-08,  ...,  0.0000e+00,
+          1.1455e-07,  0.0000e+00],
+        [-1.0006e-05, -3.0398e-06,  2.2743e-06,  ...,  0.0000e+00,
+          2.7474e-07,  0.0000e+00],
+        [ 8.7768e-06,  2.6524e-06,  4.0047e-08,  ...,  0.0000e+00,
+          2.4717e-06,  0.0000e+00],
+        ...,
+        [ 1.4026e-06,  3.5856e-07,  9.4995e-08,  ...,  0.0000e+00,
+          3.8743e-07,  0.0000e+00],
+        [ 3.7160e-07,  1.8626e-09,  1.4693e-05,  ...,  0.0000e+00,
+          2.1145e-05,  0.0000e+00],
+        [ 9.4995e-08,  0.0000e+00,  4.7907e-06,  ...,  0.0000e+00,
+         -6.0536e-08,  0.0000e+00]], device='cuda:0')
+Epoch 248, bias, value: tensor([-0.0061,  0.0241, -0.0017, -0.0049,  0.0148,  0.0056,  0.0248, -0.0122,
+         0.0044, -0.0059], device='cuda:0'), grad: tensor([-1.3225e-07, -2.0951e-05,  3.2604e-05, -8.4937e-07, -1.3880e-05,
+        -1.9765e-04,  7.2956e-05,  5.0738e-06,  1.0872e-04,  1.3739e-05],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 247, time 217.99, cls_loss 0.0012 cls_loss_mapping 0.0010 cls_loss_causal 0.4750 re_mapping 0.0044 re_causal 0.0158 /// teacc 99.03 lr 0.00001000
+Epoch 249, weight, value: tensor([[-0.0564, -0.1098, -0.0603,  ..., -0.1183, -0.0214, -0.0326],
+        [-0.0510,  0.0514, -0.1637,  ...,  0.0636,  0.0735, -0.1377],
+        [ 0.0586, -0.0078, -0.0628,  ..., -0.0605, -0.0458,  0.0086],
+        ...,
+        [ 0.0574, -0.0611, -0.0197,  ...,  0.0167, -0.0431,  0.0171],
+        [-0.0706, -0.0272, -0.0832,  ..., -0.0316, -0.0380, -0.0711],
+        [-0.1453, -0.2050,  0.0264,  ..., -0.0664,  0.0419,  0.0482]],
+       device='cuda:0'), grad: tensor([[ 4.7777e-07,  9.3132e-10,  1.1176e-08,  ...,  0.0000e+00,
+          2.7008e-08,  0.0000e+00],
+        [ 3.9767e-07, -4.0699e-07,  1.5832e-08,  ...,  0.0000e+00,
+         -8.4192e-07,  0.0000e+00],
+        [-1.7695e-06,  1.0245e-08, -1.1642e-07,  ...,  0.0000e+00,
+          3.4459e-08,  0.0000e+00],
+        ...,
+        [ 3.7067e-07,  3.8184e-07,  2.4214e-08,  ...,  0.0000e+00,
+          7.2829e-07,  0.0000e+00],
+        [ 3.8221e-06,  5.5879e-09,  1.2107e-08,  ...,  0.0000e+00,
+          4.0047e-08,  0.0000e+00],
+        [ 9.4995e-08,  0.0000e+00,  1.5832e-08,  ...,  0.0000e+00,
+         -1.0151e-07,  0.0000e+00]], device='cuda:0')
+Epoch 249, bias, value: tensor([-0.0061,  0.0242, -0.0017, -0.0048,  0.0148,  0.0056,  0.0247, -0.0123,
+         0.0042, -0.0059], device='cuda:0'), grad: tensor([ 5.9325e-07, -1.1474e-06, -7.4543e-06, -6.0275e-06,  5.3085e-07,
+         2.7977e-06, -6.1467e-08,  1.8887e-06,  9.1195e-06, -2.4028e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 248, time 217.94, cls_loss 0.0009 cls_loss_mapping 0.0008 cls_loss_causal 0.4825 re_mapping 0.0043 re_causal 0.0161 /// teacc 99.07 lr 0.00001000
+Epoch 250, weight, value: tensor([[-0.0565, -0.1099, -0.0603,  ..., -0.1183, -0.0214, -0.0326],
+        [-0.0510,  0.0515, -0.1638,  ...,  0.0636,  0.0735, -0.1377],
+        [ 0.0587, -0.0078, -0.0628,  ..., -0.0605, -0.0459,  0.0086],
+        ...,
+        [ 0.0574, -0.0611, -0.0198,  ...,  0.0167, -0.0432,  0.0171],
+        [-0.0707, -0.0272, -0.0833,  ..., -0.0317, -0.0379, -0.0711],
+        [-0.1453, -0.2050,  0.0263,  ..., -0.0664,  0.0419,  0.0482]],
+       device='cuda:0'), grad: tensor([[ 1.6857e-07,  0.0000e+00,  1.2107e-08,  ...,  0.0000e+00,
+          8.0094e-08,  0.0000e+00],
+        [ 3.0454e-07,  0.0000e+00,  7.5437e-08,  ...,  0.0000e+00,
+         -2.2631e-07,  0.0000e+00],
+        [-6.8098e-06,  0.0000e+00,  7.0781e-08,  ...,  0.0000e+00,
+          3.0734e-08,  0.0000e+00],
+        ...,
+        [ 6.0499e-06,  0.0000e+00,  9.1270e-08,  ...,  0.0000e+00,
+          8.4750e-08,  0.0000e+00],
+        [ 1.1921e-07,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          2.7940e-08,  0.0000e+00],
+        [ 8.5682e-08,  0.0000e+00,  4.1910e-08,  ...,  0.0000e+00,
+          6.8918e-08,  0.0000e+00]], device='cuda:0')
+Epoch 250, bias, value: tensor([-0.0060,  0.0242, -0.0017, -0.0049,  0.0149,  0.0056,  0.0246, -0.0122,
+         0.0042, -0.0059], device='cuda:0'), grad: tensor([ 4.5355e-07,  3.3993e-07, -9.6262e-06,  1.1735e-07,  3.1199e-07,
+         3.3528e-07, -9.0897e-07,  8.1509e-06,  2.8033e-07,  5.3365e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 249, time 217.65, cls_loss 0.0009 cls_loss_mapping 0.0008 cls_loss_causal 0.4359 re_mapping 0.0043 re_causal 0.0156 /// teacc 99.02 lr 0.00001000
+---------------------saving last model at epoch 249----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep250_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_epoch250', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep250_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_epoch250/14factor_last.csv', 'channels': 3, 'factor_num': 14, 'stride': 3, 'epoch': 'last', 'eval_mapping': True}
+loading weight of last
+randm: False
+stride: 3
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+Using downloaded and verified file: /home/yuqian_fu/.pytorch/SVHN/test_32x32.mat
+                         mnist   mnist_FA  ...    usps_FA        Avg
+ShearX               98.879997  98.769997  ...  76.482315  71.892851
+ShearY               98.739998  98.629997  ...  76.482315  62.471693
+AutoContrast         98.970001  99.000000  ...  76.482315  58.870535
+Invert               98.750000  97.680000  ...  76.482315  62.949374
+Equalize             98.329994  97.570000  ...  76.482315  69.557647
+Solarize             98.070000  97.029999  ...  76.482315  63.104321
+SolarizeAdd          98.239998  97.389999  ...  76.482315  69.777911
+Posterize            99.010002  98.849998  ...  76.482315  73.372108
+Contrast             99.049995  98.970001  ...  76.482315  68.781693
+Color                99.089996  99.019997  ...  76.482315  63.887585
+Brightness           99.000000  98.979996  ...  76.482315  66.205976
+Sharpness            99.019997  98.979996  ...  76.482315  71.537817
+NoiseSalt            99.119995  98.970001  ...  76.482315  57.677266
+NoiseGaussian        99.110001  99.010002  ...  76.482315  58.686552
+w/o do (original x)  99.020000   0.000000  ...   0.000000  72.226558
+
+[15 rows x 11 columns]
+    mnist       svhn    mnist_m   syndigit       usps       Avg
+do  99.04  66.122465  78.591268  75.662096  80.568012  75.23596
diff --git a/Meta-causal/code-withStyleAttack/66517.error b/Meta-causal/code-withStyleAttack/66517.error
new file mode 100644
index 0000000000000000000000000000000000000000..6d4d04b85103027d163f9cff0fc8075b560ec0bc
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/66517.error
@@ -0,0 +1,4 @@
+run_my_joint_test.sh: line 28: 14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1: command not found
+slurmstepd: error: *** JOB 66517 ON gcp-us-0 CANCELLED AT 2024-07-21T15:11:49 DUE TO TIME LIMIT ***
+slurmstepd: error: *** STEP 66517.0 ON gcp-us-0 CANCELLED AT 2024-07-21T15:11:49 DUE TO TIME LIMIT ***
+srun: Job step aborted: Waiting up to 32 seconds for job step to finish.
diff --git a/Meta-causal/code-withStyleAttack/66517.log b/Meta-causal/code-withStyleAttack/66517.log
new file mode 100644
index 0000000000000000000000000000000000000000..586302bafcb8386e092a11fbbc32f157ed84ef87
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/66517.log
@@ -0,0 +1,22817 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 500, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 3
+--------------------------CA_multiple--------------------------
+---------------------------14 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+Epoch 1, weight, value: tensor([[-0.0256,  0.0311,  0.0202,  ..., -0.0092,  0.0157,  0.0004],
+        [ 0.0206,  0.0280, -0.0197,  ..., -0.0287, -0.0107,  0.0182],
+        [ 0.0262,  0.0067, -0.0170,  ..., -0.0002, -0.0249,  0.0204],
+        ...,
+        [ 0.0079,  0.0292,  0.0166,  ...,  0.0049,  0.0199,  0.0240],
+        [ 0.0082, -0.0053, -0.0057,  ..., -0.0270, -0.0140,  0.0196],
+        [ 0.0090,  0.0293, -0.0138,  ..., -0.0019, -0.0216,  0.0208]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([-0.0081, -0.0085, -0.0046, -0.0105, -0.0169, -0.0071,  0.0164, -0.0019,
+         0.0246,  0.0014], device='cuda:0'), grad: None
+100
+0.0001
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 225.02, cls_loss 1.7388 cls_loss_mapping 2.0137 cls_loss_causal 2.2418 re_mapping 0.0700 re_causal 0.0682 /// teacc 79.37 lr 0.00010000
+Epoch 2, weight, value: tensor([[-0.0355,  0.0352,  0.0261,  ..., -0.0077,  0.0137, -0.0090],
+        [ 0.0269,  0.0208, -0.0298,  ..., -0.0371, -0.0168,  0.0250],
+        [ 0.0299,  0.0008, -0.0227,  ..., -0.0027, -0.0262,  0.0209],
+        ...,
+        [ 0.0082,  0.0308,  0.0243,  ...,  0.0127,  0.0284,  0.0257],
+        [ 0.0117, -0.0102, -0.0127,  ..., -0.0320, -0.0156,  0.0231],
+        [ 0.0038,  0.0307, -0.0128,  ..., -0.0043, -0.0193,  0.0209]],
+       device='cuda:0'), grad: tensor([[ 2.6875e-03,  1.0078e-02,  5.2795e-03,  ...,  1.4557e-02,
+          2.4967e-03,  1.6403e-03],
+        [-1.4076e-02,  2.6509e-05,  1.7376e-03,  ..., -5.1956e-03,
+         -3.9673e-03, -2.7588e-02],
+        [ 2.3007e-04, -1.8082e-02,  1.5087e-03,  ...,  1.2903e-03,
+         -8.3876e-04,  1.2703e-02],
+        ...,
+        [-1.5198e-02,  1.3838e-03, -3.1250e-02,  ..., -2.1011e-02,
+         -3.7079e-02, -1.4610e-02],
+        [-1.9958e-02,  1.3199e-02,  9.2392e-03,  ...,  1.4076e-02,
+          7.1068e-03, -1.3199e-02],
+        [ 1.6708e-02, -4.0627e-03,  5.7678e-03,  ...,  1.8570e-02,
+          2.8183e-02,  3.6713e-02]], device='cuda:0')
+Epoch 2, bias, value: tensor([-0.0083, -0.0080, -0.0044, -0.0110, -0.0160, -0.0072,  0.0160, -0.0009,
+         0.0239,  0.0007], device='cuda:0'), grad: tensor([ 0.0194, -0.0116, -0.0517,  0.0079, -0.0030, -0.0464,  0.0831, -0.0077,
+        -0.0031,  0.0132], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 231.02, cls_loss 0.5377 cls_loss_mapping 0.8528 cls_loss_causal 1.9007 re_mapping 0.2121 re_causal 0.2516 /// teacc 91.60 lr 0.00010000
+Epoch 3, weight, value: tensor([[-0.0381,  0.0368,  0.0271,  ..., -0.0083,  0.0109, -0.0109],
+        [ 0.0276,  0.0206, -0.0329,  ..., -0.0403, -0.0184,  0.0273],
+        [ 0.0315, -0.0022, -0.0229,  ..., -0.0030, -0.0253,  0.0185],
+        ...,
+        [ 0.0103,  0.0296,  0.0270,  ...,  0.0141,  0.0320,  0.0264],
+        [ 0.0138, -0.0134, -0.0159,  ..., -0.0359, -0.0176,  0.0251],
+        [ 0.0027,  0.0326, -0.0096,  ..., -0.0036, -0.0175,  0.0213]],
+       device='cuda:0'), grad: tensor([[ 1.2026e-03, -1.1848e-02, -1.3016e-02,  ..., -4.4212e-03,
+          6.9389e-03,  1.2054e-03],
+        [ 3.7785e-03,  2.2049e-03,  1.7500e-03,  ...,  1.8940e-03,
+          9.8896e-04,  5.9509e-03],
+        [-2.5040e-02, -1.4849e-03,  2.0199e-03,  ..., -1.7673e-05,
+          8.8739e-04, -2.8656e-02],
+        ...,
+        [ 2.3890e-04,  1.3123e-02,  1.4961e-02,  ...,  1.1703e-02,
+          3.7632e-03,  5.4703e-03],
+        [-1.3817e-02,  7.8011e-03,  4.6577e-03,  ..., -4.8370e-03,
+          1.2150e-03, -1.4687e-02],
+        [ 3.4981e-03, -4.7668e-02, -8.7158e-02,  ..., -6.1340e-02,
+         -4.0375e-02,  4.7150e-03]], device='cuda:0')
+Epoch 3, bias, value: tensor([-0.0084, -0.0081, -0.0047, -0.0105, -0.0162, -0.0060,  0.0152, -0.0014,
+         0.0237,  0.0007], device='cuda:0'), grad: tensor([-0.0068,  0.0059, -0.0256,  0.0390, -0.0054,  0.0425, -0.0387,  0.0103,
+        -0.0045, -0.0167], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 231.25, cls_loss 0.3231 cls_loss_mapping 0.4890 cls_loss_causal 1.6727 re_mapping 0.1563 re_causal 0.2430 /// teacc 93.14 lr 0.00010000
+Epoch 4, weight, value: tensor([[-0.0399,  0.0377,  0.0280,  ..., -0.0088,  0.0094, -0.0126],
+        [ 0.0285,  0.0211, -0.0349,  ..., -0.0418, -0.0185,  0.0287],
+        [ 0.0327, -0.0044, -0.0236,  ..., -0.0032, -0.0251,  0.0173],
+        ...,
+        [ 0.0119,  0.0292,  0.0291,  ...,  0.0155,  0.0348,  0.0265],
+        [ 0.0147, -0.0160, -0.0187,  ..., -0.0386, -0.0189,  0.0267],
+        [ 0.0009,  0.0343, -0.0074,  ..., -0.0033, -0.0172,  0.0215]],
+       device='cuda:0'), grad: tensor([[-6.9427e-03, -2.3895e-02, -2.1408e-02,  ..., -2.5192e-02,
+          6.3658e-04, -2.8877e-03],
+        [ 3.5095e-03,  3.6955e-04,  3.7460e-03,  ...,  3.1166e-03,
+          8.3876e-04,  9.4593e-05],
+        [-2.3926e-02,  4.6272e-03, -1.8311e-03,  ..., -1.1002e-02,
+          6.0368e-04, -1.2459e-02],
+        ...,
+        [-1.6832e-03, -2.8286e-03, -2.7435e-02,  ..., -3.6316e-03,
+         -3.2745e-02, -1.8036e-02],
+        [ 1.2085e-02,  1.2169e-02,  1.8158e-02,  ...,  1.3412e-02,
+          4.6997e-03,  1.4366e-02],
+        [ 8.0414e-03, -1.5160e-02,  3.3545e-04,  ...,  1.1925e-02,
+          1.6388e-02, -6.1378e-03]], device='cuda:0')
+Epoch 4, bias, value: tensor([-0.0083, -0.0077, -0.0046, -0.0106, -0.0162, -0.0057,  0.0149, -0.0011,
+         0.0233,  0.0007], device='cuda:0'), grad: tensor([-0.0356,  0.0061, -0.0238,  0.0141,  0.0317, -0.0174,  0.0058, -0.0032,
+         0.0307, -0.0085], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 230.96, cls_loss 0.2490 cls_loss_mapping 0.3600 cls_loss_causal 1.5010 re_mapping 0.1211 re_causal 0.2153 /// teacc 94.93 lr 0.00010000
+Epoch 5, weight, value: tensor([[-0.0417,  0.0385,  0.0286,  ..., -0.0085,  0.0079, -0.0141],
+        [ 0.0292,  0.0212, -0.0366,  ..., -0.0427, -0.0190,  0.0299],
+        [ 0.0345, -0.0061, -0.0237,  ..., -0.0029, -0.0248,  0.0163],
+        ...,
+        [ 0.0129,  0.0290,  0.0308,  ...,  0.0162,  0.0375,  0.0260],
+        [ 0.0153, -0.0186, -0.0224,  ..., -0.0411, -0.0205,  0.0281],
+        [-0.0012,  0.0359, -0.0057,  ..., -0.0040, -0.0174,  0.0220]],
+       device='cuda:0'), grad: tensor([[ 0.0006, -0.0004, -0.0003,  ..., -0.0010,  0.0004,  0.0006],
+        [-0.0272, -0.0137,  0.0006,  ..., -0.0071, -0.0086, -0.0281],
+        [ 0.0099,  0.0067,  0.0028,  ...,  0.0053,  0.0053,  0.0085],
+        ...,
+        [-0.0113, -0.0112, -0.0245,  ..., -0.0173, -0.0207, -0.0051],
+        [ 0.0141,  0.0128,  0.0042,  ...,  0.0067,  0.0031,  0.0190],
+        [ 0.0095,  0.0090,  0.0152,  ...,  0.0122,  0.0122,  0.0054]],
+       device='cuda:0')
+Epoch 5, bias, value: tensor([-0.0082, -0.0076, -0.0043, -0.0104, -0.0162, -0.0062,  0.0144, -0.0010,
+         0.0234,  0.0007], device='cuda:0'), grad: tensor([ 0.0015, -0.0276,  0.0137,  0.0022,  0.0031, -0.0129, -0.0070, -0.0186,
+         0.0291,  0.0164], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 230.80, cls_loss 0.1967 cls_loss_mapping 0.2618 cls_loss_causal 1.3837 re_mapping 0.0988 re_causal 0.1978 /// teacc 95.61 lr 0.00010000
+Epoch 6, weight, value: tensor([[-0.0435,  0.0389,  0.0284,  ..., -0.0084,  0.0068, -0.0149],
+        [ 0.0297,  0.0227, -0.0381,  ..., -0.0433, -0.0191,  0.0309],
+        [ 0.0356, -0.0082, -0.0247,  ..., -0.0029, -0.0255,  0.0153],
+        ...,
+        [ 0.0142,  0.0284,  0.0324,  ...,  0.0169,  0.0394,  0.0261],
+        [ 0.0164, -0.0208, -0.0246,  ..., -0.0438, -0.0212,  0.0292],
+        [-0.0038,  0.0377, -0.0044,  ..., -0.0040, -0.0179,  0.0223]],
+       device='cuda:0'), grad: tensor([[ 4.8447e-03, -1.4887e-03, -1.7977e-03,  ..., -2.4700e-03,
+          1.3971e-04,  3.6097e-04],
+        [-1.0719e-03, -1.5701e-02, -1.3733e-02,  ..., -8.9111e-03,
+         -6.4313e-05, -1.3161e-02],
+        [ 1.1597e-03,  1.5335e-03,  1.5078e-03,  ...,  1.4095e-03,
+          1.8072e-04,  1.7118e-03],
+        ...,
+        [-6.5136e-04,  4.1733e-03,  9.7656e-04,  ...,  3.4618e-04,
+         -3.2387e-03,  3.8948e-03],
+        [-1.2444e-02,  5.9891e-03,  5.8174e-03,  ...,  4.2038e-03,
+          2.2519e-04, -2.7447e-03],
+        [ 5.8842e-04,  1.0742e-02,  6.9809e-03,  ...,  3.3832e-04,
+          1.7824e-03,  9.4604e-03]], device='cuda:0')
+Epoch 6, bias, value: tensor([-0.0081, -0.0071, -0.0044, -0.0106, -0.0164, -0.0062,  0.0141, -0.0006,
+         0.0236,  0.0004], device='cuda:0'), grad: tensor([ 0.0181, -0.0152,  0.0045,  0.0120, -0.0160,  0.0135,  0.0078,  0.0042,
+        -0.0415,  0.0128], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 5----------------------------------------------------
+epoch 5, time 231.00, cls_loss 0.1648 cls_loss_mapping 0.2202 cls_loss_causal 1.3461 re_mapping 0.0845 re_causal 0.1866 /// teacc 96.50 lr 0.00010000
+Epoch 7, weight, value: tensor([[-0.0448,  0.0392,  0.0286,  ..., -0.0078,  0.0058, -0.0157],
+        [ 0.0295,  0.0236, -0.0394,  ..., -0.0445, -0.0196,  0.0320],
+        [ 0.0365, -0.0102, -0.0257,  ..., -0.0033, -0.0253,  0.0148],
+        ...,
+        [ 0.0148,  0.0279,  0.0336,  ...,  0.0178,  0.0410,  0.0253],
+        [ 0.0174, -0.0230, -0.0271,  ..., -0.0458, -0.0221,  0.0303],
+        [-0.0062,  0.0395, -0.0034,  ..., -0.0043, -0.0187,  0.0222]],
+       device='cuda:0'), grad: tensor([[ 0.0008, -0.0011,  0.0002,  ...,  0.0009,  0.0003,  0.0003],
+        [-0.0026,  0.0005,  0.0012,  ...,  0.0008, -0.0003, -0.0047],
+        [-0.0034,  0.0010, -0.0062,  ..., -0.0117,  0.0001,  0.0027],
+        ...,
+        [-0.0081, -0.0045, -0.0128,  ..., -0.0055, -0.0092, -0.0030],
+        [-0.0015, -0.0029,  0.0020,  ...,  0.0019,  0.0009, -0.0036],
+        [ 0.0040,  0.0009,  0.0016,  ...,  0.0020,  0.0028,  0.0036]],
+       device='cuda:0')
+Epoch 7, bias, value: tensor([-0.0079, -0.0070, -0.0044, -0.0104, -0.0159, -0.0069,  0.0138, -0.0006,
+         0.0234,  0.0006], device='cuda:0'), grad: tensor([ 0.0025, -0.0015, -0.0120,  0.0113,  0.0019,  0.0014,  0.0009, -0.0065,
+        -0.0031,  0.0051], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 6, time 214.86, cls_loss 0.1555 cls_loss_mapping 0.1990 cls_loss_causal 1.2760 re_mapping 0.0740 re_causal 0.1701 /// teacc 96.28 lr 0.00010000
+Epoch 8, weight, value: tensor([[-0.0462,  0.0399,  0.0280,  ..., -0.0080,  0.0046, -0.0164],
+        [ 0.0300,  0.0240, -0.0402,  ..., -0.0445, -0.0188,  0.0324],
+        [ 0.0372, -0.0110, -0.0254,  ..., -0.0028, -0.0252,  0.0140],
+        ...,
+        [ 0.0157,  0.0273,  0.0343,  ...,  0.0181,  0.0423,  0.0252],
+        [ 0.0183, -0.0244, -0.0287,  ..., -0.0469, -0.0229,  0.0315],
+        [-0.0080,  0.0407, -0.0023,  ..., -0.0052, -0.0191,  0.0222]],
+       device='cuda:0'), grad: tensor([[ 0.0011,  0.0012,  0.0027,  ...,  0.0022,  0.0015,  0.0002],
+        [-0.0056, -0.0027,  0.0010,  ..., -0.0013,  0.0011, -0.0086],
+        [-0.0023,  0.0006, -0.0048,  ..., -0.0166,  0.0025,  0.0034],
+        ...,
+        [-0.0025, -0.0020, -0.0053,  ...,  0.0010, -0.0102,  0.0034],
+        [-0.0135,  0.0025,  0.0015,  ..., -0.0071,  0.0009, -0.0045],
+        [ 0.0027, -0.0085, -0.0126,  ..., -0.0011, -0.0026, -0.0025]],
+       device='cuda:0')
+Epoch 8, bias, value: tensor([-0.0077, -0.0069, -0.0042, -0.0106, -0.0161, -0.0070,  0.0135, -0.0008,
+         0.0238,  0.0007], device='cuda:0'), grad: tensor([ 0.0035, -0.0025, -0.0062,  0.0287,  0.0078,  0.0044,  0.0069, -0.0029,
+        -0.0362, -0.0034], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 7----------------------------------------------------
+epoch 7, time 231.65, cls_loss 0.1254 cls_loss_mapping 0.1577 cls_loss_causal 1.2108 re_mapping 0.0669 re_causal 0.1563 /// teacc 96.58 lr 0.00010000
+Epoch 9, weight, value: tensor([[-0.0470,  0.0400,  0.0276,  ..., -0.0083,  0.0035, -0.0170],
+        [ 0.0305,  0.0250, -0.0412,  ..., -0.0451, -0.0183,  0.0331],
+        [ 0.0379, -0.0122, -0.0260,  ..., -0.0023, -0.0251,  0.0135],
+        ...,
+        [ 0.0167,  0.0267,  0.0354,  ...,  0.0189,  0.0437,  0.0247],
+        [ 0.0190, -0.0264, -0.0298,  ..., -0.0482, -0.0240,  0.0325],
+        [-0.0099,  0.0426, -0.0013,  ..., -0.0058, -0.0196,  0.0225]],
+       device='cuda:0'), grad: tensor([[ 5.0783e-04, -3.1548e-03,  1.0719e-03,  ..., -1.7424e-03,
+          4.3869e-04,  6.3467e-04],
+        [-1.5078e-03, -7.1144e-04,  4.3678e-04,  ...,  1.5050e-05,
+         -2.7180e-03, -2.8667e-03],
+        [ 1.8272e-03,  2.2106e-03,  1.0233e-03,  ...,  9.5415e-04,
+          1.4057e-03,  2.2430e-03],
+        ...,
+        [-4.6272e-03, -1.1772e-02, -1.9196e-02,  ..., -4.1428e-03,
+         -8.1482e-03, -3.4571e-04],
+        [-5.5122e-03,  3.2735e-04,  1.1435e-03,  ...,  1.0223e-03,
+          4.0555e-04, -4.4250e-03],
+        [ 4.7150e-03,  4.5509e-03,  1.2329e-02,  ...,  3.3875e-03,
+          6.4201e-03, -9.6436e-03]], device='cuda:0')
+Epoch 9, bias, value: tensor([-0.0074, -0.0067, -0.0041, -0.0111, -0.0161, -0.0073,  0.0133, -0.0008,
+         0.0241,  0.0009], device='cuda:0'), grad: tensor([-0.0112, -0.0030,  0.0077,  0.0049,  0.0041,  0.0046,  0.0076, -0.0107,
+        -0.0057,  0.0017], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 8----------------------------------------------------
+epoch 8, time 231.29, cls_loss 0.1204 cls_loss_mapping 0.1486 cls_loss_causal 1.1595 re_mapping 0.0601 re_causal 0.1435 /// teacc 97.07 lr 0.00010000
+Epoch 10, weight, value: tensor([[-0.0482,  0.0401,  0.0272,  ..., -0.0080,  0.0025, -0.0177],
+        [ 0.0310,  0.0252, -0.0426,  ..., -0.0458, -0.0184,  0.0337],
+        [ 0.0383, -0.0147, -0.0269,  ..., -0.0029, -0.0250,  0.0128],
+        ...,
+        [ 0.0177,  0.0272,  0.0366,  ...,  0.0199,  0.0451,  0.0249],
+        [ 0.0199, -0.0275, -0.0313,  ..., -0.0497, -0.0242,  0.0336],
+        [-0.0117,  0.0436, -0.0004,  ..., -0.0065, -0.0201,  0.0219]],
+       device='cuda:0'), grad: tensor([[ 7.2479e-05,  1.6737e-03,  1.6737e-03,  ...,  2.4676e-04,
+          1.2600e-04,  8.1182e-05],
+        [-5.8770e-05,  2.7704e-04,  2.9683e-04,  ...,  2.1422e-04,
+          1.1049e-05, -1.8883e-04],
+        [ 4.5204e-04,  1.6556e-03,  1.3800e-03,  ...,  3.4046e-04,
+          6.3229e-04,  2.7323e-04],
+        ...,
+        [-1.4143e-03, -8.2111e-04, -4.1695e-03,  ..., -1.6098e-03,
+         -3.2959e-03,  1.6832e-04],
+        [-2.5392e-04,  1.6994e-03,  8.0061e-04,  ...,  4.7112e-04,
+          1.5676e-04, -6.0558e-04],
+        [ 4.5323e-04, -7.3242e-03, -3.7174e-03,  ...,  1.0544e-04,
+          1.7042e-03, -1.7319e-03]], device='cuda:0')
+Epoch 10, bias, value: tensor([-0.0071, -0.0065, -0.0046, -0.0109, -0.0157, -0.0079,  0.0130, -0.0005,
+         0.0243,  0.0006], device='cuda:0'), grad: tensor([ 0.0020,  0.0005,  0.0015,  0.0006, -0.0028,  0.0010,  0.0036, -0.0012,
+         0.0010, -0.0061], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 9----------------------------------------------------
+epoch 9, time 230.84, cls_loss 0.0973 cls_loss_mapping 0.1216 cls_loss_causal 1.1107 re_mapping 0.0573 re_causal 0.1388 /// teacc 97.32 lr 0.00010000
+Epoch 11, weight, value: tensor([[-0.0497,  0.0407,  0.0269,  ..., -0.0075,  0.0013, -0.0185],
+        [ 0.0313,  0.0260, -0.0437,  ..., -0.0469, -0.0182,  0.0344],
+        [ 0.0391, -0.0161, -0.0273,  ..., -0.0023, -0.0243,  0.0124],
+        ...,
+        [ 0.0183,  0.0273,  0.0372,  ...,  0.0203,  0.0460,  0.0247],
+        [ 0.0208, -0.0291, -0.0327,  ..., -0.0513, -0.0251,  0.0345],
+        [-0.0126,  0.0451,  0.0008,  ..., -0.0067, -0.0204,  0.0220]],
+       device='cuda:0'), grad: tensor([[ 0.0003,  0.0006,  0.0009,  ...,  0.0006,  0.0002,  0.0001],
+        [ 0.0005,  0.0008,  0.0016,  ...,  0.0014,  0.0002, -0.0009],
+        [-0.0022,  0.0008,  0.0005,  ..., -0.0016, -0.0003,  0.0008],
+        ...,
+        [ 0.0019,  0.0077,  0.0087,  ...,  0.0037,  0.0040,  0.0027],
+        [-0.0005,  0.0013,  0.0009,  ...,  0.0010,  0.0004, -0.0011],
+        [-0.0018, -0.0242, -0.0300,  ..., -0.0141, -0.0067, -0.0032]],
+       device='cuda:0')
+Epoch 11, bias, value: tensor([-0.0072, -0.0066, -0.0044, -0.0112, -0.0158, -0.0083,  0.0130, -0.0002,
+         0.0245,  0.0009], device='cuda:0'), grad: tensor([ 1.2264e-03,  1.3876e-03, -2.6345e-04,  1.5327e-02,  1.1435e-03,
+        -6.1560e-04,  6.2585e-06,  9.3460e-03,  1.1883e-03, -2.8748e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 10, time 214.76, cls_loss 0.1025 cls_loss_mapping 0.1267 cls_loss_causal 1.0994 re_mapping 0.0517 re_causal 0.1271 /// teacc 97.25 lr 0.00010000
+Epoch 12, weight, value: tensor([[-0.0506,  0.0410,  0.0268,  ..., -0.0069,  0.0003, -0.0190],
+        [ 0.0314,  0.0264, -0.0445,  ..., -0.0479, -0.0181,  0.0352],
+        [ 0.0394, -0.0171, -0.0282,  ..., -0.0022, -0.0242,  0.0118],
+        ...,
+        [ 0.0191,  0.0271,  0.0380,  ...,  0.0208,  0.0472,  0.0246],
+        [ 0.0214, -0.0304, -0.0338,  ..., -0.0526, -0.0251,  0.0351],
+        [-0.0141,  0.0459,  0.0013,  ..., -0.0076, -0.0210,  0.0218]],
+       device='cuda:0'), grad: tensor([[ 0.0001,  0.0003, -0.0008,  ..., -0.0008,  0.0004,  0.0002],
+        [ 0.0002,  0.0030,  0.0004,  ...,  0.0003,  0.0003,  0.0042],
+        [ 0.0002,  0.0016,  0.0005,  ...,  0.0006,  0.0003,  0.0004],
+        ...,
+        [-0.0008, -0.0014, -0.0041,  ..., -0.0011, -0.0033,  0.0001],
+        [-0.0010, -0.0093,  0.0003,  ...,  0.0006,  0.0001, -0.0193],
+        [ 0.0004,  0.0052,  0.0024,  ...,  0.0021,  0.0013,  0.0009]],
+       device='cuda:0')
+Epoch 12, bias, value: tensor([-0.0069, -0.0068, -0.0044, -0.0111, -0.0158, -0.0084,  0.0129, -0.0001,
+         0.0246,  0.0007], device='cuda:0'), grad: tensor([ 0.0011,  0.0072,  0.0021,  0.0070,  0.0148,  0.0092, -0.0173, -0.0011,
+        -0.0288,  0.0056], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 11, time 214.93, cls_loss 0.0883 cls_loss_mapping 0.1132 cls_loss_causal 1.0790 re_mapping 0.0483 re_causal 0.1220 /// teacc 97.21 lr 0.00010000
+Epoch 13, weight, value: tensor([[-0.0524,  0.0410,  0.0263,  ..., -0.0069, -0.0006, -0.0197],
+        [ 0.0314,  0.0276, -0.0446,  ..., -0.0483, -0.0179,  0.0358],
+        [ 0.0399, -0.0178, -0.0293,  ..., -0.0023, -0.0247,  0.0115],
+        ...,
+        [ 0.0200,  0.0264,  0.0385,  ...,  0.0213,  0.0485,  0.0246],
+        [ 0.0223, -0.0316, -0.0339,  ..., -0.0531, -0.0255,  0.0359],
+        [-0.0153,  0.0468,  0.0020,  ..., -0.0086, -0.0214,  0.0218]],
+       device='cuda:0'), grad: tensor([[ 7.5245e-04, -9.6283e-03,  4.6682e-04,  ..., -3.3455e-03,
+          1.1218e-04,  1.1814e-04],
+        [-1.4229e-02, -5.9128e-03, -2.3689e-03,  ..., -1.8585e-02,
+         -4.9973e-04, -1.4820e-03],
+        [ 9.7733e-03,  4.9896e-03,  3.9215e-03,  ...,  1.5129e-02,
+         -7.0190e-04,  1.3924e-03],
+        ...,
+        [ 1.3885e-03,  2.5005e-03,  1.3628e-03,  ...,  1.0033e-03,
+         -9.8586e-05,  8.6641e-04],
+        [-1.4214e-02, -2.7370e-03, -6.0577e-03,  ..., -1.2451e-02,
+          1.8382e-04, -6.4659e-04],
+        [ 1.1415e-03,  1.2169e-02,  6.2828e-03,  ...,  2.3041e-03,
+          8.1396e-04,  4.0970e-03]], device='cuda:0')
+Epoch 13, bias, value: tensor([-0.0071, -0.0070, -0.0043, -0.0110, -0.0158, -0.0087,  0.0126, -0.0001,
+         0.0252,  0.0007], device='cuda:0'), grad: tensor([-0.0119, -0.0182,  0.0153,  0.0171, -0.0175,  0.0057,  0.0061,  0.0044,
+        -0.0178,  0.0168], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 12----------------------------------------------------
+epoch 12, time 230.44, cls_loss 0.0744 cls_loss_mapping 0.0954 cls_loss_causal 1.0119 re_mapping 0.0455 re_causal 0.1126 /// teacc 97.58 lr 0.00010000
+Epoch 14, weight, value: tensor([[-0.0533,  0.0419,  0.0258,  ..., -0.0068, -0.0013, -0.0202],
+        [ 0.0317,  0.0282, -0.0450,  ..., -0.0482, -0.0177,  0.0364],
+        [ 0.0400, -0.0189, -0.0298,  ..., -0.0018, -0.0246,  0.0105],
+        ...,
+        [ 0.0204,  0.0264,  0.0389,  ...,  0.0212,  0.0491,  0.0247],
+        [ 0.0230, -0.0328, -0.0350,  ..., -0.0540, -0.0263,  0.0367],
+        [-0.0160,  0.0474,  0.0025,  ..., -0.0094, -0.0214,  0.0217]],
+       device='cuda:0'), grad: tensor([[ 7.3135e-05, -7.8630e-04, -1.0347e-04,  ..., -1.8823e-04,
+          2.2933e-05,  1.6570e-05],
+        [-8.0407e-05,  1.1033e-04,  3.6120e-05,  ...,  1.1736e-04,
+         -4.0054e-05, -1.3793e-04],
+        [-2.5606e-04,  4.8375e-04,  9.1016e-05,  ..., -3.5316e-05,
+         -1.4627e-04,  1.4687e-04],
+        ...,
+        [ 1.3506e-04,  3.0541e-04,  1.1182e-04,  ...,  1.6987e-04,
+          4.2200e-05,  1.1498e-04],
+        [-2.9206e-05,  1.0691e-03,  3.1042e-04,  ...,  5.6458e-04,
+          6.8843e-05,  7.4267e-05],
+        [ 2.0444e-05,  2.6836e-03,  1.8024e-04,  ...,  2.3401e-04,
+         -1.8269e-05,  7.7105e-04]], device='cuda:0')
+Epoch 14, bias, value: tensor([-0.0070, -0.0068, -0.0042, -0.0110, -0.0159, -0.0088,  0.0126, -0.0005,
+         0.0252,  0.0008], device='cuda:0'), grad: tensor([ 1.5869e-03,  7.6532e-05,  2.9492e-04, -1.7052e-03, -3.9368e-03,
+         1.1196e-03, -2.7504e-03,  4.6372e-04,  1.4658e-03,  3.3798e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 13----------------------------------------------------
+epoch 13, time 231.16, cls_loss 0.0683 cls_loss_mapping 0.0915 cls_loss_causal 0.9978 re_mapping 0.0413 re_causal 0.1072 /// teacc 97.60 lr 0.00010000
+Epoch 15, weight, value: tensor([[-0.0540,  0.0426,  0.0253,  ..., -0.0064, -0.0019, -0.0206],
+        [ 0.0318,  0.0288, -0.0462,  ..., -0.0492, -0.0174,  0.0369],
+        [ 0.0405, -0.0204, -0.0305,  ..., -0.0019, -0.0250,  0.0104],
+        ...,
+        [ 0.0206,  0.0265,  0.0396,  ...,  0.0215,  0.0499,  0.0248],
+        [ 0.0233, -0.0343, -0.0361,  ..., -0.0548, -0.0268,  0.0372],
+        [-0.0172,  0.0483,  0.0031,  ..., -0.0102, -0.0217,  0.0217]],
+       device='cuda:0'), grad: tensor([[ 1.2565e-04, -1.2379e-03,  2.7037e-04,  ..., -4.1246e-04,
+          5.3525e-05,  2.1979e-05],
+        [ 4.0889e-04,  2.0313e-03,  8.0442e-04,  ...,  5.1832e-04,
+          3.1686e-04,  1.5650e-03],
+        [-2.6417e-03,  1.0185e-03,  5.3501e-04,  ..., -1.2131e-03,
+         -1.4223e-05, -7.8082e-05],
+        ...,
+        [-1.0300e-03,  3.9673e-04, -9.6035e-04,  ..., -1.4746e-04,
+         -1.4067e-03,  1.4699e-04],
+        [ 1.8425e-03,  2.0390e-03,  1.2455e-03,  ...,  2.8286e-03,
+          3.1614e-04,  5.8746e-04],
+        [ 4.7565e-04, -1.2352e-02, -4.1509e-04,  ...,  5.9967e-03,
+          2.6536e-04, -1.3580e-02]], device='cuda:0')
+Epoch 15, bias, value: tensor([-0.0067, -0.0066, -0.0042, -0.0109, -0.0162, -0.0089,  0.0127, -0.0004,
+         0.0251,  0.0008], device='cuda:0'), grad: tensor([-1.2589e-03,  2.4986e-03, -1.6842e-03, -2.6016e-02,  1.1261e-02,
+         1.7929e-02,  1.0891e-03, -8.9407e-06,  4.2648e-03, -8.0795e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 14----------------------------------------------------
+epoch 14, time 230.77, cls_loss 0.0694 cls_loss_mapping 0.0901 cls_loss_causal 0.9835 re_mapping 0.0401 re_causal 0.0973 /// teacc 97.68 lr 0.00010000
+Epoch 16, weight, value: tensor([[-0.0557,  0.0433,  0.0249,  ..., -0.0059, -0.0029, -0.0214],
+        [ 0.0328,  0.0289, -0.0474,  ..., -0.0494, -0.0171,  0.0373],
+        [ 0.0407, -0.0212, -0.0309,  ..., -0.0011, -0.0252,  0.0098],
+        ...,
+        [ 0.0208,  0.0268,  0.0406,  ...,  0.0221,  0.0510,  0.0243],
+        [ 0.0243, -0.0349, -0.0370,  ..., -0.0561, -0.0271,  0.0381],
+        [-0.0181,  0.0490,  0.0037,  ..., -0.0109, -0.0217,  0.0217]],
+       device='cuda:0'), grad: tensor([[ 1.6618e-04, -2.1785e-05,  3.9876e-05,  ...,  7.1339e-06,
+          4.5657e-05,  1.4472e-04],
+        [ 6.7043e-04,  1.0163e-04,  1.6773e-04,  ...,  4.0936e-04,
+          2.3460e-04,  2.0373e-04],
+        [-5.0545e-04,  4.2963e-04,  3.2592e-04,  ..., -5.2786e-04,
+          1.1396e-04,  3.3998e-04],
+        ...,
+        [-7.0333e-04, -7.5245e-04, -1.3685e-03,  ..., -4.3869e-04,
+         -1.2436e-03,  1.2720e-04],
+        [-7.4863e-04,  1.6184e-03,  2.1064e-04,  ...,  4.7326e-04,
+          1.5318e-04, -4.7016e-04],
+        [ 3.2043e-04,  1.3819e-03,  4.9829e-04,  ...,  4.3893e-04,
+          5.2500e-04,  9.8133e-04]], device='cuda:0')
+Epoch 16, bias, value: tensor([-0.0066, -0.0066, -0.0042, -0.0112, -0.0160, -0.0092,  0.0129, -0.0004,
+         0.0254,  0.0006], device='cuda:0'), grad: tensor([ 0.0003,  0.0010, -0.0002,  0.0006, -0.0020, -0.0059,  0.0025, -0.0006,
+         0.0024,  0.0019], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 15, time 214.52, cls_loss 0.0726 cls_loss_mapping 0.0841 cls_loss_causal 0.9889 re_mapping 0.0384 re_causal 0.0922 /// teacc 97.36 lr 0.00010000
+Epoch 17, weight, value: tensor([[-0.0567,  0.0438,  0.0244,  ..., -0.0060, -0.0036, -0.0220],
+        [ 0.0319,  0.0302, -0.0477,  ..., -0.0504, -0.0175,  0.0378],
+        [ 0.0416, -0.0222, -0.0317,  ..., -0.0017, -0.0251,  0.0094],
+        ...,
+        [ 0.0219,  0.0267,  0.0413,  ...,  0.0231,  0.0525,  0.0244],
+        [ 0.0250, -0.0364, -0.0384,  ..., -0.0571, -0.0275,  0.0389],
+        [-0.0193,  0.0492,  0.0041,  ..., -0.0117, -0.0222,  0.0216]],
+       device='cuda:0'), grad: tensor([[ 6.0081e-04, -4.0114e-05,  4.6706e-04,  ...,  2.2781e-04,
+          2.5439e-04,  3.6311e-04],
+        [ 2.0905e-03, -2.8634e-04,  1.0929e-03,  ...,  1.1454e-03,
+          1.3280e-04,  7.5865e-04],
+        [-1.2680e-02,  8.1587e-04,  6.7854e-04,  ..., -2.0523e-03,
+         -1.8263e-03, -6.0387e-03],
+        ...,
+        [ 1.1154e-02,  4.1771e-03,  1.2299e-02,  ...,  1.0269e-02,
+          2.7580e-03,  8.2092e-03],
+        [ 4.1618e-03,  1.1501e-03,  2.4166e-03,  ...,  2.4395e-03,
+          1.4820e-03,  2.2926e-03],
+        [ 8.6021e-04, -3.0098e-03, -3.3550e-03,  ...,  4.6182e-04,
+         -1.5199e-04, -8.7833e-04]], device='cuda:0')
+Epoch 17, bias, value: tensor([-6.4189e-03, -6.6149e-03, -4.1205e-03, -1.0993e-02, -1.5864e-02,
+        -9.0205e-03,  1.2469e-02,  3.3429e-07,  2.5280e-02,  9.3300e-05],
+       device='cuda:0'), grad: tensor([ 0.0005,  0.0015, -0.0091, -0.0127,  0.0009,  0.0003,  0.0004,  0.0164,
+         0.0046, -0.0027], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 16, time 214.84, cls_loss 0.0616 cls_loss_mapping 0.0751 cls_loss_causal 0.9772 re_mapping 0.0374 re_causal 0.0935 /// teacc 97.67 lr 0.00010000
+Epoch 18, weight, value: tensor([[-0.0576,  0.0438,  0.0241,  ..., -0.0059, -0.0045, -0.0224],
+        [ 0.0315,  0.0304, -0.0481,  ..., -0.0503, -0.0180,  0.0379],
+        [ 0.0422, -0.0228, -0.0325,  ..., -0.0017, -0.0248,  0.0091],
+        ...,
+        [ 0.0223,  0.0262,  0.0416,  ...,  0.0229,  0.0533,  0.0243],
+        [ 0.0257, -0.0375, -0.0396,  ..., -0.0579, -0.0281,  0.0398],
+        [-0.0199,  0.0500,  0.0047,  ..., -0.0121, -0.0220,  0.0214]],
+       device='cuda:0'), grad: tensor([[ 5.5122e-04,  1.3185e-04,  4.3225e-04,  ...,  7.4196e-04,
+          2.1279e-04,  1.6320e-04],
+        [ 4.0174e-04,  1.4865e-04,  5.5933e-04,  ...,  5.3883e-04,
+          1.7798e-04,  1.1009e-04],
+        [-1.0710e-03, -6.2287e-06,  4.3035e-04,  ..., -1.4610e-03,
+          2.5845e-04,  1.7989e-04],
+        ...,
+        [-2.1827e-04,  8.3160e-03,  1.0284e-02,  ...,  2.5177e-03,
+          2.5291e-03, -1.4210e-03],
+        [-3.0923e-04, -2.1374e-04,  3.4475e-04,  ...,  7.7200e-04,
+          5.5933e-04, -1.8721e-03],
+        [-1.1892e-03, -7.8430e-03, -1.4580e-02,  ..., -5.0621e-03,
+         -4.8561e-03,  2.3766e-03]], device='cuda:0')
+Epoch 18, bias, value: tensor([-0.0068, -0.0068, -0.0042, -0.0109, -0.0155, -0.0094,  0.0129, -0.0003,
+         0.0253,  0.0003], device='cuda:0'), grad: tensor([ 0.0014,  0.0008, -0.0028,  0.0030, -0.0028, -0.0002,  0.0006,  0.0062,
+        -0.0006, -0.0056], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 17, time 214.73, cls_loss 0.0637 cls_loss_mapping 0.0804 cls_loss_causal 0.9249 re_mapping 0.0351 re_causal 0.0871 /// teacc 97.64 lr 0.00010000
+Epoch 19, weight, value: tensor([[-0.0584,  0.0441,  0.0236,  ..., -0.0055, -0.0056, -0.0231],
+        [ 0.0320,  0.0305, -0.0487,  ..., -0.0510, -0.0174,  0.0386],
+        [ 0.0423, -0.0231, -0.0330,  ..., -0.0015, -0.0245,  0.0083],
+        ...,
+        [ 0.0226,  0.0261,  0.0423,  ...,  0.0230,  0.0541,  0.0243],
+        [ 0.0262, -0.0385, -0.0407,  ..., -0.0593, -0.0288,  0.0410],
+        [-0.0209,  0.0509,  0.0053,  ..., -0.0125, -0.0224,  0.0211]],
+       device='cuda:0'), grad: tensor([[ 5.8621e-05, -4.5657e-05,  1.1694e-04,  ...,  4.2677e-05,
+          9.8467e-05,  4.5121e-05],
+        [-2.3483e-02, -6.8054e-03, -1.3374e-02,  ..., -6.3057e-03,
+         -1.6922e-02, -1.5793e-02],
+        [-1.1110e-03,  2.7800e-04,  4.5538e-04,  ...,  6.1369e-04,
+          1.7941e-04, -9.8133e-04],
+        ...,
+        [ 2.2278e-02,  6.1302e-03,  1.1856e-02,  ...,  5.8594e-03,
+          1.5190e-02,  1.5152e-02],
+        [-5.2243e-05,  2.6441e-04,  3.9816e-04,  ...,  7.2670e-04,
+          6.2346e-05, -2.3544e-04],
+        [ 4.2343e-04,  2.2125e-04,  4.9782e-04,  ...,  4.9639e-04,
+          5.4312e-04,  2.3580e-04]], device='cuda:0')
+Epoch 19, bias, value: tensor([-6.8119e-03, -7.0288e-03, -3.9785e-03, -1.0953e-02, -1.5697e-02,
+        -8.7681e-03,  1.2069e-02, -5.2090e-05,  2.5437e-02,  2.9523e-04],
+       device='cuda:0'), grad: tensor([ 3.4094e-05, -2.1469e-02, -2.9678e-03, -1.0614e-03,  6.9475e-04,
+         1.4849e-03,  3.3379e-04,  2.0935e-02,  1.0843e-03,  9.2363e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 18----------------------------------------------------
+epoch 18, time 229.04, cls_loss 0.0529 cls_loss_mapping 0.0677 cls_loss_causal 0.9468 re_mapping 0.0340 re_causal 0.0894 /// teacc 98.05 lr 0.00010000
+Epoch 20, weight, value: tensor([[-0.0595,  0.0443,  0.0231,  ..., -0.0056, -0.0066, -0.0236],
+        [ 0.0318,  0.0311, -0.0496,  ..., -0.0520, -0.0176,  0.0392],
+        [ 0.0430, -0.0233, -0.0335,  ..., -0.0009, -0.0238,  0.0079],
+        ...,
+        [ 0.0233,  0.0260,  0.0430,  ...,  0.0235,  0.0550,  0.0243],
+        [ 0.0267, -0.0392, -0.0415,  ..., -0.0605, -0.0294,  0.0416],
+        [-0.0223,  0.0512,  0.0055,  ..., -0.0134, -0.0226,  0.0210]],
+       device='cuda:0'), grad: tensor([[ 2.7275e-04, -3.9649e-04, -3.7462e-05,  ..., -5.5283e-05,
+          4.6194e-05,  1.8466e-04],
+        [ 1.2046e-04,  1.6308e-04,  1.5426e-04,  ...,  2.1279e-04,
+         -1.3256e-04,  1.1355e-04],
+        [-1.1170e-04, -1.1605e-04, -1.1516e-04,  ..., -6.2275e-04,
+         -3.0184e-04,  8.7214e-04],
+        ...,
+        [ 3.0947e-04,  1.5295e-04, -2.1052e-04,  ...,  1.4770e-04,
+         -3.2216e-05,  3.4142e-04],
+        [-9.4070e-03,  1.6975e-03,  5.5361e-04,  ...,  1.8990e-04,
+          6.0469e-05, -1.0239e-02],
+        [ 3.1528e-03,  2.6665e-03,  8.5771e-05,  ...,  1.3828e-04,
+          9.7930e-05,  9.3460e-03]], device='cuda:0')
+Epoch 20, bias, value: tensor([-7.0737e-03, -7.1977e-03, -3.4984e-03, -1.1235e-02, -1.5931e-02,
+        -8.6086e-03,  1.2708e-02,  5.7766e-05,  2.5508e-02, -1.2062e-04],
+       device='cuda:0'), grad: tensor([-0.0003,  0.0005,  0.0014,  0.0006, -0.0129,  0.0043,  0.0090,  0.0008,
+        -0.0152,  0.0118], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 19----------------------------------------------------
+epoch 19, time 231.29, cls_loss 0.0562 cls_loss_mapping 0.0771 cls_loss_causal 0.9101 re_mapping 0.0320 re_causal 0.0845 /// teacc 98.20 lr 0.00010000
+Epoch 21, weight, value: tensor([[-0.0604,  0.0448,  0.0226,  ..., -0.0057, -0.0071, -0.0240],
+        [ 0.0323,  0.0310, -0.0506,  ..., -0.0520, -0.0171,  0.0397],
+        [ 0.0430, -0.0238, -0.0340,  ..., -0.0010, -0.0237,  0.0074],
+        ...,
+        [ 0.0233,  0.0261,  0.0436,  ...,  0.0237,  0.0557,  0.0242],
+        [ 0.0280, -0.0399, -0.0420,  ..., -0.0610, -0.0291,  0.0425],
+        [-0.0232,  0.0516,  0.0055,  ..., -0.0142, -0.0235,  0.0209]],
+       device='cuda:0'), grad: tensor([[ 1.3626e-04,  1.2457e-04,  3.1203e-05,  ...,  2.7746e-05,
+          2.6926e-05,  4.7982e-05],
+        [ 7.6413e-05,  1.8179e-05,  8.6963e-05,  ...,  4.3869e-05,
+          1.2573e-07,  2.8476e-05],
+        [-1.0881e-03,  4.1187e-05, -2.3639e-04,  ..., -5.9748e-04,
+         -7.5483e-04,  6.0529e-05],
+        ...,
+        [ 5.7077e-04,  8.2076e-05,  2.2316e-04,  ...,  3.5930e-04,
+          5.4169e-04,  1.7071e-04],
+        [ 4.1366e-04,  1.0395e-03,  8.0395e-04,  ...,  2.1255e-04,
+          1.1539e-04,  9.6464e-04],
+        [ 3.8986e-03,  9.1400e-03,  8.7204e-03,  ...,  4.3654e-04,
+          9.4223e-04,  1.2726e-02]], device='cuda:0')
+Epoch 21, bias, value: tensor([-7.1765e-03, -7.1599e-03, -3.7100e-03, -1.1132e-02, -1.6029e-02,
+        -8.8079e-03,  1.2442e-02,  1.2523e-04,  2.5943e-02, -4.6145e-05],
+       device='cuda:0'), grad: tensor([ 6.2180e-04,  2.8467e-04, -1.1215e-03, -2.9355e-05, -1.9073e-02,
+         1.1311e-03, -3.1433e-03,  7.9393e-04,  2.4815e-03,  1.8051e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 20----------------------------------------------------
+epoch 20, time 230.81, cls_loss 0.0493 cls_loss_mapping 0.0664 cls_loss_causal 0.9091 re_mapping 0.0309 re_causal 0.0811 /// teacc 98.22 lr 0.00010000
+Epoch 22, weight, value: tensor([[-0.0610,  0.0451,  0.0222,  ..., -0.0057, -0.0072, -0.0247],
+        [ 0.0321,  0.0313, -0.0517,  ..., -0.0523, -0.0173,  0.0400],
+        [ 0.0429, -0.0245, -0.0348,  ..., -0.0013, -0.0238,  0.0068],
+        ...,
+        [ 0.0241,  0.0260,  0.0441,  ...,  0.0236,  0.0565,  0.0244],
+        [ 0.0287, -0.0407, -0.0428,  ..., -0.0614, -0.0292,  0.0430],
+        [-0.0242,  0.0520,  0.0057,  ..., -0.0146, -0.0238,  0.0209]],
+       device='cuda:0'), grad: tensor([[ 6.6161e-05, -3.5739e-04,  1.5116e-04,  ...,  9.6858e-05,
+          1.2660e-04,  1.3269e-05],
+        [ 3.0231e-04,  4.7594e-05,  1.6415e-04,  ...,  1.4138e-04,
+          3.2520e-04,  4.8161e-05],
+        [-4.8971e-04,  2.4283e-04, -4.0643e-06,  ..., -6.6614e-04,
+         -3.5858e-04,  1.3697e-04],
+        ...,
+        [-7.1287e-04, -3.3188e-04, -7.2908e-04,  ...,  2.6658e-05,
+         -1.1215e-03, -2.2137e-04],
+        [ 6.4373e-05,  2.3580e-04,  1.9383e-04,  ...,  1.5819e-04,
+          1.5402e-04, -2.5320e-04],
+        [ 1.1927e-04,  1.1778e-03,  1.2827e-03,  ...,  1.0891e-03,
+          1.7524e-04, -2.6003e-05]], device='cuda:0')
+Epoch 22, bias, value: tensor([-6.8432e-03, -7.1374e-03, -4.0128e-03, -1.0986e-02, -1.5977e-02,
+        -8.7012e-03,  1.2376e-02,  3.2097e-05,  2.5943e-02, -1.4922e-04],
+       device='cuda:0'), grad: tensor([-0.0006,  0.0003, -0.0004,  0.0016,  0.0007, -0.0070,  0.0004, -0.0002,
+         0.0005,  0.0046], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 21, time 214.81, cls_loss 0.0481 cls_loss_mapping 0.0610 cls_loss_causal 0.9001 re_mapping 0.0299 re_causal 0.0779 /// teacc 98.17 lr 0.00010000
+Epoch 23, weight, value: tensor([[-0.0619,  0.0453,  0.0218,  ..., -0.0059, -0.0080, -0.0254],
+        [ 0.0322,  0.0322, -0.0524,  ..., -0.0523, -0.0169,  0.0407],
+        [ 0.0436, -0.0254, -0.0347,  ..., -0.0012, -0.0232,  0.0063],
+        ...,
+        [ 0.0245,  0.0263,  0.0450,  ...,  0.0241,  0.0577,  0.0242],
+        [ 0.0294, -0.0414, -0.0435,  ..., -0.0622, -0.0300,  0.0435],
+        [-0.0243,  0.0528,  0.0060,  ..., -0.0152, -0.0243,  0.0211]],
+       device='cuda:0'), grad: tensor([[ 3.0923e-04,  2.0742e-04,  5.5408e-04,  ...,  2.8658e-04,
+          1.9538e-04,  1.0885e-05],
+        [-2.9698e-05, -3.3665e-04,  4.4346e-05,  ...,  1.0705e-04,
+         -1.7357e-04, -3.3450e-04],
+        [ 4.1847e-03,  1.3971e-03,  7.7782e-03,  ...,  4.7569e-03,
+          6.5498e-03,  6.1393e-05],
+        ...,
+        [-5.3406e-03, -1.8063e-03, -9.9258e-03,  ..., -6.0349e-03,
+         -7.4959e-03,  2.2089e-04],
+        [-1.2958e-04,  7.9393e-05,  1.0169e-04,  ...,  6.3121e-05,
+         -7.5817e-05, -2.0885e-04],
+        [ 2.2733e-04,  2.3854e-04,  5.9336e-05,  ...,  2.5010e-04,
+          1.9979e-04,  3.2425e-04]], device='cuda:0')
+Epoch 23, bias, value: tensor([-0.0069, -0.0070, -0.0038, -0.0115, -0.0162, -0.0091,  0.0125,  0.0001,
+         0.0261,  0.0003], device='cuda:0'), grad: tensor([ 5.7507e-04, -4.0817e-04,  7.2021e-03,  7.6532e-04, -1.8239e-04,
+         4.1866e-04, -1.4460e-04, -8.8196e-03, -5.9634e-05,  6.5804e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 22, time 215.05, cls_loss 0.0522 cls_loss_mapping 0.0684 cls_loss_causal 0.8888 re_mapping 0.0288 re_causal 0.0762 /// teacc 98.10 lr 0.00010000
+Epoch 24, weight, value: tensor([[-0.0627,  0.0454,  0.0212,  ..., -0.0062, -0.0088, -0.0260],
+        [ 0.0326,  0.0327, -0.0535,  ..., -0.0515, -0.0169,  0.0413],
+        [ 0.0434, -0.0267, -0.0356,  ..., -0.0016, -0.0238,  0.0059],
+        ...,
+        [ 0.0248,  0.0263,  0.0455,  ...,  0.0243,  0.0583,  0.0238],
+        [ 0.0303, -0.0424, -0.0441,  ..., -0.0625, -0.0293,  0.0444],
+        [-0.0250,  0.0538,  0.0065,  ..., -0.0157, -0.0245,  0.0209]],
+       device='cuda:0'), grad: tensor([[ 4.9442e-05, -1.1921e-04,  1.6665e-04,  ...,  4.4137e-05,
+          7.5459e-05,  1.0774e-05],
+        [ 4.2105e-04,  1.1176e-04,  1.4591e-04,  ...,  3.2115e-04,
+          2.8920e-04,  1.5008e-04],
+        [-7.2432e-04,  1.7536e-04,  1.6749e-04,  ..., -5.9652e-04,
+         -5.0259e-04, -1.2338e-04],
+        ...,
+        [-1.3375e-04,  9.4295e-05, -6.2037e-04,  ..., -1.5116e-04,
+         -3.8743e-04,  1.0544e-04],
+        [-1.2875e-04,  2.3794e-04,  2.1100e-04,  ...,  2.0850e-04,
+          1.0431e-04, -2.6059e-04],
+        [ 1.1539e-04,  5.7745e-04,  3.5572e-04,  ...,  1.1551e-04,
+          5.2691e-04,  3.7998e-05]], device='cuda:0')
+Epoch 24, bias, value: tensor([-7.1215e-03, -6.3597e-03, -4.2000e-03, -1.1755e-02, -1.6257e-02,
+        -8.9121e-03,  1.2129e-02,  5.5141e-05,  2.6057e-02,  7.3294e-04],
+       device='cuda:0'), grad: tensor([-9.0122e-05,  6.2180e-04, -7.4482e-04,  8.1396e-04, -1.4801e-03,
+        -3.3021e-04,  7.3195e-05,  1.2644e-05,  9.2268e-05,  1.0300e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 23----------------------------------------------------
+epoch 23, time 231.37, cls_loss 0.0410 cls_loss_mapping 0.0539 cls_loss_causal 0.8602 re_mapping 0.0289 re_causal 0.0751 /// teacc 98.40 lr 0.00010000
+Epoch 25, weight, value: tensor([[-0.0635,  0.0456,  0.0209,  ..., -0.0061, -0.0095, -0.0263],
+        [ 0.0323,  0.0335, -0.0534,  ..., -0.0520, -0.0169,  0.0416],
+        [ 0.0441, -0.0278, -0.0364,  ..., -0.0016, -0.0242,  0.0057],
+        ...,
+        [ 0.0251,  0.0264,  0.0461,  ...,  0.0248,  0.0592,  0.0234],
+        [ 0.0306, -0.0438, -0.0448,  ..., -0.0635, -0.0293,  0.0451],
+        [-0.0253,  0.0540,  0.0065,  ..., -0.0165, -0.0248,  0.0207]],
+       device='cuda:0'), grad: tensor([[ 2.1890e-05, -2.5463e-04,  1.2660e-04,  ...,  5.0962e-06,
+          1.3530e-05,  3.2838e-06],
+        [ 1.5364e-03,  6.7663e-04,  2.3985e-04,  ...,  9.4271e-04,
+          7.8154e-04,  3.7694e-04],
+        [-1.4496e-03, -5.2595e-04, -1.6701e-04,  ..., -9.9945e-04,
+         -8.6784e-04,  3.0696e-05],
+        ...,
+        [ 1.7262e-04,  6.0129e-04,  7.5102e-04,  ...,  3.4976e-04,
+          1.0836e-04,  4.7743e-05],
+        [-1.8859e-04,  8.1491e-04,  6.9618e-04,  ...,  3.7408e-04,
+          1.1504e-04, -7.3576e-04],
+        [-2.3890e-04,  1.0139e-02,  1.4694e-02,  ...,  8.2092e-03,
+         -2.2948e-04,  8.7202e-05]], device='cuda:0')
+Epoch 25, bias, value: tensor([-0.0072, -0.0067, -0.0037, -0.0117, -0.0162, -0.0090,  0.0124,  0.0003,
+         0.0258,  0.0004], device='cuda:0'), grad: tensor([-0.0004,  0.0021, -0.0017, -0.0133,  0.0013, -0.0030,  0.0002,  0.0008,
+         0.0008,  0.0133], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 24, time 214.65, cls_loss 0.0394 cls_loss_mapping 0.0513 cls_loss_causal 0.8296 re_mapping 0.0283 re_causal 0.0723 /// teacc 98.19 lr 0.00010000
+Epoch 26, weight, value: tensor([[-0.0645,  0.0453,  0.0205,  ..., -0.0064, -0.0103, -0.0265],
+        [ 0.0320,  0.0336, -0.0542,  ..., -0.0527, -0.0175,  0.0416],
+        [ 0.0443, -0.0283, -0.0369,  ..., -0.0013, -0.0244,  0.0052],
+        ...,
+        [ 0.0257,  0.0264,  0.0466,  ...,  0.0251,  0.0601,  0.0235],
+        [ 0.0316, -0.0443, -0.0450,  ..., -0.0640, -0.0287,  0.0460],
+        [-0.0261,  0.0545,  0.0069,  ..., -0.0172, -0.0251,  0.0206]],
+       device='cuda:0'), grad: tensor([[-2.6083e-04, -3.7408e-04,  1.2624e-04,  ...,  5.8353e-05,
+          1.1152e-04, -1.2302e-04],
+        [ 7.9803e-03,  4.4098e-03,  5.7411e-03,  ...,  3.2310e-03,
+          6.7482e-03,  9.7656e-03],
+        [-1.1140e-04,  3.2806e-04,  4.7374e-04,  ...,  3.1209e-04,
+          9.0718e-05,  3.3236e-04],
+        ...,
+        [-2.4246e-02, -1.8143e-02, -3.1860e-02,  ..., -2.0416e-02,
+         -2.4261e-02, -2.1194e-02],
+        [ 4.3716e-03,  3.3264e-03,  3.6850e-03,  ...,  2.1420e-03,
+          2.9812e-03,  4.9934e-03],
+        [ 1.3056e-03,  8.2970e-04,  1.5440e-03,  ...,  1.2951e-03,
+          1.1797e-03,  8.7833e-04]], device='cuda:0')
+Epoch 26, bias, value: tensor([-0.0076, -0.0070, -0.0038, -0.0122, -0.0160, -0.0085,  0.0124,  0.0007,
+         0.0261,  0.0003], device='cuda:0'), grad: tensor([-0.0008,  0.0095,  0.0003,  0.0159,  0.0009, -0.0002, -0.0009, -0.0333,
+         0.0066,  0.0019], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 25, time 214.61, cls_loss 0.0370 cls_loss_mapping 0.0490 cls_loss_causal 0.7954 re_mapping 0.0276 re_causal 0.0724 /// teacc 98.31 lr 0.00010000
+Epoch 27, weight, value: tensor([[-0.0652,  0.0455,  0.0201,  ..., -0.0065, -0.0108, -0.0269],
+        [ 0.0319,  0.0343, -0.0543,  ..., -0.0527, -0.0174,  0.0420],
+        [ 0.0449, -0.0295, -0.0378,  ..., -0.0014, -0.0245,  0.0050],
+        ...,
+        [ 0.0261,  0.0266,  0.0472,  ...,  0.0256,  0.0609,  0.0236],
+        [ 0.0315, -0.0452, -0.0460,  ..., -0.0651, -0.0293,  0.0463],
+        [-0.0266,  0.0546,  0.0072,  ..., -0.0178, -0.0252,  0.0203]],
+       device='cuda:0'), grad: tensor([[ 6.1095e-05, -1.2684e-03,  8.1882e-06,  ..., -6.0177e-04,
+          4.5687e-05,  1.2428e-05],
+        [ 2.2113e-04, -3.4511e-05,  2.0540e-04,  ...,  3.7289e-04,
+          1.7321e-04, -1.4591e-04],
+        [-4.6616e-03, -9.0361e-04, -3.5667e-03,  ..., -6.3057e-03,
+         -4.2610e-03,  1.4150e-04],
+        ...,
+        [ 4.0779e-03,  1.4105e-03,  3.1509e-03,  ...,  5.8746e-03,
+          3.7022e-03,  1.4913e-04],
+        [-6.7616e-04,  2.0623e-04, -1.2880e-06,  ..., -1.7345e-05,
+          3.4332e-05, -1.0176e-03],
+        [ 7.1049e-05,  6.2990e-04,  3.3426e-04,  ...,  4.6206e-04,
+          4.5687e-05,  8.4043e-05]], device='cuda:0')
+Epoch 27, bias, value: tensor([-0.0076, -0.0067, -0.0039, -0.0122, -0.0157, -0.0085,  0.0123,  0.0009,
+         0.0258,  0.0001], device='cuda:0'), grad: tensor([-1.5726e-03,  2.5845e-04, -5.2605e-03,  6.0654e-04, -3.4547e-04,
+         4.4417e-04,  6.1512e-05,  5.6343e-03, -7.5197e-04,  9.2077e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 26, time 215.10, cls_loss 0.0322 cls_loss_mapping 0.0477 cls_loss_causal 0.8245 re_mapping 0.0261 re_causal 0.0701 /// teacc 98.33 lr 0.00010000
+Epoch 28, weight, value: tensor([[-0.0661,  0.0457,  0.0197,  ..., -0.0064, -0.0111, -0.0275],
+        [ 0.0315,  0.0348, -0.0550,  ..., -0.0530, -0.0177,  0.0423],
+        [ 0.0452, -0.0302, -0.0380,  ..., -0.0012, -0.0245,  0.0048],
+        ...,
+        [ 0.0265,  0.0264,  0.0476,  ...,  0.0257,  0.0616,  0.0239],
+        [ 0.0321, -0.0462, -0.0468,  ..., -0.0657, -0.0295,  0.0470],
+        [-0.0267,  0.0552,  0.0078,  ..., -0.0186, -0.0253,  0.0201]],
+       device='cuda:0'), grad: tensor([[ 1.6257e-05, -4.2588e-05,  3.6955e-05,  ..., -2.0284e-06,
+          2.2322e-05,  3.6508e-06],
+        [ 2.9374e-06, -3.2157e-05,  2.7061e-05,  ...,  3.2902e-05,
+          1.1928e-05, -4.3213e-05],
+        [-8.9128e-07,  5.0008e-05,  4.8310e-05,  ...,  1.4547e-06,
+          4.3511e-05,  1.5251e-05],
+        ...,
+        [-1.7500e-04, -1.1057e-04, -3.1281e-04,  ..., -1.9705e-04,
+         -3.1233e-04,  2.0698e-05],
+        [-1.8299e-05,  1.2141e-04,  9.6083e-05,  ...,  1.4448e-04,
+          2.6613e-05, -3.7789e-05],
+        [ 7.1943e-05,  1.0633e-04,  7.7188e-05,  ...,  2.1970e-04,
+          9.6202e-05,  2.6107e-05]], device='cuda:0')
+Epoch 28, bias, value: tensor([-0.0076, -0.0069, -0.0040, -0.0120, -0.0158, -0.0088,  0.0124,  0.0009,
+         0.0257,  0.0004], device='cuda:0'), grad: tensor([ 3.9041e-05, -1.1899e-05,  7.7784e-05,  1.2512e-03, -9.6440e-05,
+        -1.4696e-03, -2.6643e-05, -2.3746e-04,  1.8024e-04,  2.9516e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 27----------------------------------------------------
+epoch 27, time 231.11, cls_loss 0.0360 cls_loss_mapping 0.0535 cls_loss_causal 0.8226 re_mapping 0.0262 re_causal 0.0724 /// teacc 98.44 lr 0.00010000
+Epoch 29, weight, value: tensor([[-0.0668,  0.0459,  0.0193,  ..., -0.0065, -0.0116, -0.0278],
+        [ 0.0313,  0.0348, -0.0556,  ..., -0.0536, -0.0177,  0.0427],
+        [ 0.0455, -0.0307, -0.0387,  ..., -0.0009, -0.0248,  0.0045],
+        ...,
+        [ 0.0268,  0.0262,  0.0479,  ...,  0.0257,  0.0622,  0.0237],
+        [ 0.0324, -0.0469, -0.0472,  ..., -0.0668, -0.0299,  0.0476],
+        [-0.0277,  0.0559,  0.0081,  ..., -0.0191, -0.0257,  0.0198]],
+       device='cuda:0'), grad: tensor([[ 8.4698e-05, -8.8501e-04, -3.2735e-04,  ..., -3.0041e-04,
+          2.1327e-06,  5.5760e-05],
+        [-2.8563e-04, -3.3641e-04, -3.9101e-04,  ...,  9.1136e-05,
+         -3.6049e-04, -4.5013e-04],
+        [-1.6012e-03,  1.2553e-04,  4.9353e-05,  ..., -1.1244e-03,
+          1.8969e-05, -2.2876e-04],
+        ...,
+        [ 5.2023e-04,  3.7003e-04,  3.3092e-04,  ...,  1.0610e-04,
+          2.3699e-04,  4.7898e-04],
+        [ 1.9360e-04, -2.0303e-06,  2.2089e-04,  ...,  8.0013e-04,
+          4.2886e-05, -9.2602e-04],
+        [ 2.4140e-04,  5.1165e-04,  7.3835e-06,  ...,  1.6809e-04,
+         -3.3796e-05,  1.6022e-04]], device='cuda:0')
+Epoch 29, bias, value: tensor([-0.0077, -0.0071, -0.0038, -0.0120, -0.0152, -0.0089,  0.0128,  0.0007,
+         0.0255,  0.0003], device='cuda:0'), grad: tensor([-8.5020e-04, -2.5630e-04, -2.3289e-03,  7.7200e-04,  7.9870e-05,
+        -4.7016e-04,  8.8978e-04,  8.6784e-04,  3.9196e-04,  9.0504e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 28, time 214.83, cls_loss 0.0353 cls_loss_mapping 0.0468 cls_loss_causal 0.8024 re_mapping 0.0253 re_causal 0.0663 /// teacc 98.34 lr 0.00010000
+Epoch 30, weight, value: tensor([[-0.0677,  0.0464,  0.0189,  ..., -0.0064, -0.0124, -0.0282],
+        [ 0.0316,  0.0354, -0.0563,  ..., -0.0540, -0.0171,  0.0432],
+        [ 0.0457, -0.0309, -0.0390,  ..., -0.0009, -0.0250,  0.0041],
+        ...,
+        [ 0.0270,  0.0266,  0.0484,  ...,  0.0260,  0.0630,  0.0234],
+        [ 0.0330, -0.0477, -0.0475,  ..., -0.0671, -0.0297,  0.0484],
+        [-0.0284,  0.0564,  0.0082,  ..., -0.0195, -0.0261,  0.0198]],
+       device='cuda:0'), grad: tensor([[ 5.0902e-05, -1.0490e-04,  5.7459e-05,  ..., -1.3486e-05,
+          4.7088e-05,  6.9365e-06],
+        [ 1.3582e-05, -1.9848e-04,  9.1910e-05,  ...,  6.2108e-05,
+          5.6595e-05, -2.6536e-04],
+        [-2.7679e-02, -4.2419e-03, -2.6520e-02,  ..., -9.3842e-03,
+         -2.2354e-02,  4.6998e-05],
+        ...,
+        [ 2.7039e-02,  4.2877e-03,  2.5955e-02,  ...,  9.1400e-03,
+          2.1805e-02,  8.1718e-05],
+        [ 2.3365e-05,  3.0780e-04,  2.7251e-04,  ...,  1.1343e-04,
+          5.0247e-05, -1.8701e-05],
+        [ 8.8453e-05, -6.4659e-04, -6.5136e-04,  ...,  4.4703e-05,
+          1.8775e-05, -7.3135e-05]], device='cuda:0')
+Epoch 30, bias, value: tensor([-0.0076, -0.0070, -0.0036, -0.0123, -0.0156, -0.0087,  0.0121,  0.0010,
+         0.0257,  0.0003], device='cuda:0'), grad: tensor([-3.1978e-05, -1.6284e-04, -2.5864e-02,  2.2182e-03,  1.0481e-03,
+        -1.8415e-03, -3.3450e-04,  2.5436e-02,  4.0889e-04, -8.7261e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 29, time 214.76, cls_loss 0.0360 cls_loss_mapping 0.0462 cls_loss_causal 0.8216 re_mapping 0.0244 re_causal 0.0637 /// teacc 98.39 lr 0.00010000
+Epoch 31, weight, value: tensor([[-0.0689,  0.0470,  0.0187,  ..., -0.0064, -0.0132, -0.0288],
+        [ 0.0314,  0.0360, -0.0571,  ..., -0.0539, -0.0170,  0.0437],
+        [ 0.0468, -0.0313, -0.0393,  ..., -0.0012, -0.0243,  0.0038],
+        ...,
+        [ 0.0272,  0.0266,  0.0491,  ...,  0.0261,  0.0637,  0.0232],
+        [ 0.0330, -0.0489, -0.0484,  ..., -0.0679, -0.0300,  0.0490],
+        [-0.0281,  0.0565,  0.0086,  ..., -0.0199, -0.0265,  0.0197]],
+       device='cuda:0'), grad: tensor([[ 6.2525e-05,  2.5034e-05,  7.7248e-05,  ...,  5.7817e-06,
+          6.6876e-05,  3.4600e-05],
+        [ 2.3469e-05, -1.2946e-04,  1.6987e-04,  ...,  6.0618e-05,
+          8.0287e-05, -3.2401e-04],
+        [ 1.5554e-03,  1.1473e-03,  2.4166e-03,  ...,  8.2588e-04,
+          2.3098e-03,  1.3483e-04],
+        ...,
+        [-3.7365e-03, -2.5158e-03, -5.5923e-03,  ..., -1.6718e-03,
+         -5.1994e-03,  5.3793e-05],
+        [-1.5986e-04,  1.9503e-04,  2.8968e-04,  ...,  1.2720e-04,
+          2.1219e-04, -3.8004e-04],
+        [ 1.8044e-03,  1.8587e-03,  2.8572e-03,  ...,  1.0195e-03,
+          2.0752e-03,  4.6396e-04]], device='cuda:0')
+Epoch 31, bias, value: tensor([-7.5410e-03, -7.1090e-03, -3.3202e-03, -1.2278e-02, -1.5424e-02,
+        -8.4791e-03,  1.2319e-02,  1.0175e-03,  2.5229e-02,  9.9798e-05],
+       device='cuda:0'), grad: tensor([ 0.0002, -0.0001,  0.0028,  0.0004, -0.0008,  0.0023, -0.0027, -0.0055,
+        -0.0003,  0.0038], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 30, time 214.77, cls_loss 0.0350 cls_loss_mapping 0.0442 cls_loss_causal 0.7742 re_mapping 0.0233 re_causal 0.0607 /// teacc 98.38 lr 0.00010000
+Epoch 32, weight, value: tensor([[-0.0698,  0.0471,  0.0180,  ..., -0.0063, -0.0140, -0.0294],
+        [ 0.0312,  0.0365, -0.0574,  ..., -0.0544, -0.0170,  0.0439],
+        [ 0.0470, -0.0316, -0.0396,  ..., -0.0010, -0.0241,  0.0039],
+        ...,
+        [ 0.0279,  0.0261,  0.0493,  ...,  0.0265,  0.0646,  0.0231],
+        [ 0.0338, -0.0493, -0.0490,  ..., -0.0687, -0.0303,  0.0501],
+        [-0.0289,  0.0567,  0.0087,  ..., -0.0203, -0.0270,  0.0192]],
+       device='cuda:0'), grad: tensor([[ 6.7174e-05,  6.9439e-05,  1.6212e-04,  ...,  7.9989e-05,
+          6.5923e-05,  2.4542e-05],
+        [ 4.0591e-05, -3.8475e-05,  2.2411e-04,  ...,  1.3733e-04,
+          1.0449e-04, -1.2481e-04],
+        [ 7.4625e-04,  3.6907e-04,  1.5097e-03,  ...,  1.1606e-03,
+          3.1352e-04,  1.1253e-04],
+        ...,
+        [ 2.9640e-03,  4.4346e-04,  5.8556e-03,  ...,  5.1460e-03,
+          4.7231e-04,  4.2975e-05],
+        [ 4.9400e-04,  4.3368e-04,  7.8583e-04,  ...,  8.7214e-04,
+          4.0233e-05, -2.6393e-04],
+        [ 7.9572e-05,  3.7384e-03,  2.6093e-03,  ...,  9.5701e-04,
+          9.1374e-05,  3.2067e-05]], device='cuda:0')
+Epoch 32, bias, value: tensor([-0.0077, -0.0074, -0.0029, -0.0124, -0.0151, -0.0085,  0.0121,  0.0012,
+         0.0254, -0.0003], device='cuda:0'), grad: tensor([ 0.0003,  0.0001,  0.0016, -0.0063, -0.0119,  0.0005,  0.0003,  0.0045,
+         0.0012,  0.0097], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 31, time 214.71, cls_loss 0.0250 cls_loss_mapping 0.0352 cls_loss_causal 0.8064 re_mapping 0.0222 re_causal 0.0629 /// teacc 98.33 lr 0.00010000
+Epoch 33, weight, value: tensor([[-0.0699,  0.0477,  0.0177,  ..., -0.0065, -0.0144, -0.0296],
+        [ 0.0305,  0.0366, -0.0582,  ..., -0.0548, -0.0170,  0.0441],
+        [ 0.0467, -0.0323, -0.0402,  ..., -0.0011, -0.0248,  0.0033],
+        ...,
+        [ 0.0283,  0.0263,  0.0498,  ...,  0.0267,  0.0655,  0.0230],
+        [ 0.0348, -0.0502, -0.0500,  ..., -0.0694, -0.0304,  0.0508],
+        [-0.0289,  0.0572,  0.0091,  ..., -0.0206, -0.0270,  0.0191]],
+       device='cuda:0'), grad: tensor([[ 6.2704e-05, -1.7917e-04,  6.0737e-05,  ..., -9.1612e-05,
+          4.6223e-05,  3.1084e-05],
+        [ 2.8777e-04,  3.2216e-05,  1.0037e-04,  ...,  5.9694e-05,
+          8.0585e-05,  2.3520e-04],
+        [ 3.9139e-03,  1.2655e-03,  4.5052e-03,  ...,  3.4695e-03,
+          4.5700e-03,  3.4356e-04],
+        ...,
+        [-4.1618e-03, -1.5039e-03, -5.4169e-03,  ..., -3.7212e-03,
+         -5.4474e-03,  9.5963e-05],
+        [-1.5249e-03, -3.2634e-05,  1.4699e-04,  ...,  7.2539e-05,
+          4.5419e-05, -1.7605e-03],
+        [ 4.2319e-04,  1.8346e-04,  4.4370e-04,  ...,  2.1029e-04,
+          4.2057e-04,  1.4031e-04]], device='cuda:0')
+Epoch 33, bias, value: tensor([-0.0074, -0.0077, -0.0033, -0.0123, -0.0152, -0.0087,  0.0124,  0.0014,
+         0.0255, -0.0002], device='cuda:0'), grad: tensor([-0.0001,  0.0005,  0.0054,  0.0008,  0.0003,  0.0002,  0.0002, -0.0057,
+        -0.0024,  0.0009], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 32, time 214.74, cls_loss 0.0275 cls_loss_mapping 0.0347 cls_loss_causal 0.7906 re_mapping 0.0228 re_causal 0.0609 /// teacc 98.28 lr 0.00010000
+Epoch 34, weight, value: tensor([[-0.0709,  0.0481,  0.0177,  ..., -0.0064, -0.0148, -0.0302],
+        [ 0.0306,  0.0370, -0.0588,  ..., -0.0549, -0.0168,  0.0445],
+        [ 0.0468, -0.0333, -0.0409,  ..., -0.0014, -0.0252,  0.0028],
+        ...,
+        [ 0.0289,  0.0266,  0.0504,  ...,  0.0267,  0.0662,  0.0232],
+        [ 0.0354, -0.0512, -0.0508,  ..., -0.0701, -0.0307,  0.0514],
+        [-0.0297,  0.0576,  0.0095,  ..., -0.0214, -0.0273,  0.0190]],
+       device='cuda:0'), grad: tensor([[ 1.1760e-04, -2.8815e-06,  4.7266e-05,  ...,  9.4697e-06,
+          1.6481e-05,  3.3885e-05],
+        [ 2.0540e-04, -2.6841e-06,  4.9859e-05,  ...,  5.8830e-05,
+          8.5384e-06, -2.1487e-05],
+        [ 1.0481e-03,  5.2273e-05, -6.3926e-06,  ..., -8.1420e-05,
+         -1.2085e-05,  3.4189e-04],
+        ...,
+        [ 1.2308e-05,  1.4961e-04, -1.1742e-04,  ..., -8.9630e-06,
+         -1.2934e-04,  1.1003e-04],
+        [-2.4261e-03,  1.1659e-04,  9.6858e-05,  ...,  6.0111e-05,
+          1.2480e-05, -6.4850e-04],
+        [ 5.0932e-05, -2.7943e-04, -1.6146e-03,  ..., -6.5470e-04,
+          4.1068e-05,  2.6631e-04]], device='cuda:0')
+Epoch 34, bias, value: tensor([-0.0074, -0.0076, -0.0037, -0.0121, -0.0155, -0.0088,  0.0127,  0.0017,
+         0.0257, -0.0005], device='cuda:0'), grad: tensor([ 0.0004,  0.0008,  0.0039,  0.0021, -0.0017,  0.0010,  0.0020,  0.0004,
+        -0.0085, -0.0003], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 33, time 214.67, cls_loss 0.0309 cls_loss_mapping 0.0412 cls_loss_causal 0.8196 re_mapping 0.0216 re_causal 0.0615 /// teacc 98.43 lr 0.00010000
+Epoch 35, weight, value: tensor([[-0.0719,  0.0486,  0.0175,  ..., -0.0064, -0.0152, -0.0309],
+        [ 0.0312,  0.0369, -0.0593,  ..., -0.0551, -0.0163,  0.0449],
+        [ 0.0470, -0.0330, -0.0410,  ..., -0.0009, -0.0248,  0.0024],
+        ...,
+        [ 0.0287,  0.0263,  0.0505,  ...,  0.0263,  0.0665,  0.0230],
+        [ 0.0361, -0.0520, -0.0518,  ..., -0.0708, -0.0309,  0.0523],
+        [-0.0303,  0.0579,  0.0097,  ..., -0.0219, -0.0275,  0.0185]],
+       device='cuda:0'), grad: tensor([[ 5.1826e-05,  1.6764e-05,  6.0409e-05,  ...,  2.8551e-05,
+          4.4227e-05,  3.0726e-05],
+        [-1.5390e-04, -8.7976e-04, -2.2483e-04,  ..., -4.4727e-04,
+         -3.1996e-04, -4.4012e-04],
+        [ 4.3011e-04,  7.3147e-04,  4.7565e-04,  ...,  4.6015e-04,
+          4.3297e-04,  4.7827e-04],
+        ...,
+        [-2.1095e-03, -4.2248e-04, -3.4962e-03,  ..., -2.0218e-03,
+         -2.5349e-03,  3.0264e-05],
+        [-7.8201e-04, -5.9843e-04,  1.0914e-04,  ...,  8.2433e-05,
+          7.7248e-05, -1.2703e-03],
+        [ 1.5342e-04, -3.3646e-03, -5.2214e-04,  ...,  1.0538e-04,
+          1.0419e-04, -1.7605e-03]], device='cuda:0')
+Epoch 35, bias, value: tensor([-0.0073, -0.0081, -0.0029, -0.0120, -0.0154, -0.0085,  0.0123,  0.0011,
+         0.0259, -0.0006], device='cuda:0'), grad: tensor([ 1.0675e-04, -1.6880e-03,  1.5955e-03,  3.0899e-03,  5.2834e-03,
+         4.7255e-04, -5.4296e-07, -2.3842e-03, -1.5516e-03, -4.9248e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 34----------------------------------------------------
+epoch 34, time 231.04, cls_loss 0.0304 cls_loss_mapping 0.0418 cls_loss_causal 0.7979 re_mapping 0.0222 re_causal 0.0616 /// teacc 98.56 lr 0.00010000
+Epoch 36, weight, value: tensor([[-0.0730,  0.0484,  0.0171,  ..., -0.0069, -0.0159, -0.0313],
+        [ 0.0321,  0.0383, -0.0588,  ..., -0.0552, -0.0152,  0.0458],
+        [ 0.0469, -0.0335, -0.0417,  ..., -0.0012, -0.0251,  0.0018],
+        ...,
+        [ 0.0287,  0.0257,  0.0506,  ...,  0.0264,  0.0669,  0.0224],
+        [ 0.0365, -0.0532, -0.0524,  ..., -0.0715, -0.0314,  0.0530],
+        [-0.0306,  0.0583,  0.0097,  ..., -0.0224, -0.0276,  0.0184]],
+       device='cuda:0'), grad: tensor([[ 6.3002e-05,  4.0680e-05,  5.7071e-05,  ...,  4.7743e-05,
+          6.7711e-05,  2.5213e-05],
+        [ 1.9205e-04, -2.1141e-06,  8.7500e-05,  ...,  2.0361e-04,
+          2.1350e-04, -2.6822e-05],
+        [-6.2513e-04,  9.3222e-05,  5.3465e-05,  ..., -4.2105e-04,
+         -4.6396e-04,  3.7074e-05],
+        ...,
+        [-2.0754e-04, -2.6846e-04, -5.7697e-04,  ..., -2.6846e-04,
+         -4.4823e-04, -6.9216e-06],
+        [-4.7803e-04, -3.7700e-05,  7.4863e-05,  ...,  2.6256e-05,
+          1.9944e-04, -1.1587e-03],
+        [ 2.2185e-04,  2.1666e-05, -1.5870e-05,  ...,  5.5820e-05,
+          5.4687e-05,  1.9550e-04]], device='cuda:0')
+Epoch 36, bias, value: tensor([-0.0076, -0.0072, -0.0029, -0.0118, -0.0155, -0.0083,  0.0120,  0.0008,
+         0.0256, -0.0006], device='cuda:0'), grad: tensor([ 0.0003,  0.0003, -0.0009,  0.0011, -0.0001,  0.0005, -0.0002, -0.0003,
+        -0.0011,  0.0004], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 35, time 215.06, cls_loss 0.0228 cls_loss_mapping 0.0312 cls_loss_causal 0.7089 re_mapping 0.0209 re_causal 0.0552 /// teacc 98.38 lr 0.00010000
+Epoch 37, weight, value: tensor([[-0.0733,  0.0489,  0.0169,  ..., -0.0071, -0.0165, -0.0317],
+        [ 0.0318,  0.0382, -0.0595,  ..., -0.0556, -0.0155,  0.0460],
+        [ 0.0470, -0.0343, -0.0423,  ..., -0.0013, -0.0255,  0.0012],
+        ...,
+        [ 0.0294,  0.0260,  0.0510,  ...,  0.0267,  0.0677,  0.0226],
+        [ 0.0371, -0.0542, -0.0533,  ..., -0.0723, -0.0318,  0.0538],
+        [-0.0312,  0.0586,  0.0101,  ..., -0.0229, -0.0271,  0.0182]],
+       device='cuda:0'), grad: tensor([[ 9.1642e-06, -2.4486e-04,  1.3269e-05,  ..., -2.5868e-04,
+          6.7167e-06,  1.7229e-06],
+        [-1.6969e-06, -2.4468e-05,  2.2501e-05,  ...,  2.1994e-05,
+          8.4341e-06, -6.8605e-05],
+        [-2.4825e-05,  1.8418e-04,  3.2854e-04,  ...,  1.8382e-04,
+          2.0158e-04, -4.2021e-05],
+        ...,
+        [-4.8232e-04, -1.6838e-05, -4.9639e-04,  ..., -3.9983e-04,
+         -4.9210e-04,  1.5527e-05],
+        [ 2.4676e-04,  6.3241e-05,  4.5896e-05,  ...,  1.3518e-04,
+          9.6917e-05,  5.5909e-05],
+        [-3.2574e-05, -5.4836e-04, -4.9591e-04,  ...,  1.0610e-04,
+         -6.3419e-05, -1.0327e-05]], device='cuda:0')
+Epoch 37, bias, value: tensor([-0.0071, -0.0075, -0.0032, -0.0118, -0.0153, -0.0084,  0.0120,  0.0009,
+         0.0255, -0.0005], device='cuda:0'), grad: tensor([-5.8031e-04, -2.1681e-05,  5.2035e-05,  4.7255e-04,  6.8855e-04,
+        -8.4758e-05, -5.0098e-05, -3.1781e-04,  4.3988e-04, -5.9700e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 36, time 215.13, cls_loss 0.0253 cls_loss_mapping 0.0362 cls_loss_causal 0.7899 re_mapping 0.0213 re_causal 0.0576 /// teacc 98.35 lr 0.00010000
+Epoch 38, weight, value: tensor([[-0.0744,  0.0490,  0.0165,  ..., -0.0070, -0.0171, -0.0323],
+        [ 0.0321,  0.0389, -0.0592,  ..., -0.0561, -0.0152,  0.0466],
+        [ 0.0471, -0.0355, -0.0426,  ..., -0.0014, -0.0256,  0.0007],
+        ...,
+        [ 0.0299,  0.0263,  0.0515,  ...,  0.0271,  0.0689,  0.0226],
+        [ 0.0375, -0.0548, -0.0542,  ..., -0.0733, -0.0323,  0.0546],
+        [-0.0321,  0.0589,  0.0100,  ..., -0.0234, -0.0279,  0.0177]],
+       device='cuda:0'), grad: tensor([[ 1.6379e-04, -5.1212e-04,  8.9109e-06,  ..., -5.0497e-04,
+          2.3082e-05,  7.5996e-05],
+        [-1.6159e-02, -1.1612e-02, -6.9847e-03,  ...,  3.4499e-04,
+         -1.4000e-02, -7.3586e-03],
+        [-7.4053e-04, -6.2525e-05,  1.7691e-04,  ..., -8.7643e-04,
+         -5.4932e-04,  2.3234e-04],
+        ...,
+        [ 1.4206e-02,  9.9258e-03,  5.6267e-03,  ...,  9.1732e-05,
+          1.2054e-02,  6.2943e-03],
+        [-1.6861e-03, -1.0710e-03,  2.9027e-05,  ...,  1.6868e-04,
+          9.5367e-05, -2.0237e-03],
+        [ 1.2951e-03,  1.4420e-03,  5.8031e-04,  ...,  3.2592e-04,
+          1.1873e-03,  6.1178e-04]], device='cuda:0')
+Epoch 38, bias, value: tensor([-0.0073, -0.0073, -0.0035, -0.0114, -0.0150, -0.0088,  0.0121,  0.0013,
+         0.0254, -0.0008], device='cuda:0'), grad: tensor([-0.0021, -0.0184, -0.0019,  0.0010,  0.0014,  0.0021,  0.0027,  0.0165,
+        -0.0046,  0.0034], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 37, time 215.39, cls_loss 0.0241 cls_loss_mapping 0.0367 cls_loss_causal 0.7490 re_mapping 0.0199 re_causal 0.0560 /// teacc 98.36 lr 0.00010000
+Epoch 39, weight, value: tensor([[-0.0750,  0.0490,  0.0162,  ..., -0.0068, -0.0175, -0.0327],
+        [ 0.0323,  0.0394, -0.0593,  ..., -0.0563, -0.0147,  0.0469],
+        [ 0.0472, -0.0360, -0.0432,  ..., -0.0013, -0.0259,  0.0004],
+        ...,
+        [ 0.0300,  0.0258,  0.0517,  ...,  0.0272,  0.0694,  0.0222],
+        [ 0.0379, -0.0554, -0.0547,  ..., -0.0740, -0.0326,  0.0556],
+        [-0.0325,  0.0590,  0.0107,  ..., -0.0237, -0.0278,  0.0177]],
+       device='cuda:0'), grad: tensor([[ 5.4955e-05, -3.7909e-05,  6.2346e-05,  ...,  2.9787e-05,
+          4.7237e-05,  2.5570e-05],
+        [ 2.5177e-03,  1.6041e-03,  2.5501e-03,  ...,  7.4244e-04,
+          2.7542e-03,  7.4863e-04],
+        [ 9.1267e-04,  6.5994e-04,  1.0662e-03,  ...,  7.1192e-04,
+          7.1096e-04,  2.3913e-04],
+        ...,
+        [-3.6392e-03, -2.2011e-03, -3.5324e-03,  ..., -4.3249e-04,
+         -4.5776e-03, -1.0405e-03],
+        [ 2.0790e-04,  3.7098e-04,  3.6383e-04,  ...,  1.4448e-04,
+          3.3402e-04,  9.5189e-05],
+        [ 3.6168e-04, -4.7493e-04,  3.5048e-04,  ...,  1.4150e-04,
+          3.8052e-04,  2.4242e-03]], device='cuda:0')
+Epoch 39, bias, value: tensor([-0.0074, -0.0073, -0.0033, -0.0114, -0.0145, -0.0093,  0.0122,  0.0009,
+         0.0255, -0.0009], device='cuda:0'), grad: tensor([-1.5527e-05,  3.6716e-03,  1.6241e-03, -9.7656e-04, -2.1248e-03,
+         3.0279e-04,  2.2936e-04, -4.6768e-03,  6.5851e-04,  1.3046e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 38, time 214.81, cls_loss 0.0247 cls_loss_mapping 0.0314 cls_loss_causal 0.7198 re_mapping 0.0199 re_causal 0.0542 /// teacc 98.49 lr 0.00010000
+Epoch 40, weight, value: tensor([[-7.5558e-02,  4.8734e-02,  1.5599e-02,  ..., -7.1549e-03,
+         -1.8099e-02, -3.3183e-02],
+        [ 3.1851e-02,  3.9503e-02, -6.0699e-02,  ..., -5.7021e-02,
+         -1.5786e-02,  4.7270e-02],
+        [ 4.7919e-02, -3.6365e-02, -4.3390e-02,  ..., -1.0510e-03,
+         -2.5506e-02, -5.8012e-05],
+        ...,
+        [ 3.0494e-02,  2.6070e-02,  5.2435e-02,  ...,  2.7253e-02,
+          7.0422e-02,  2.2360e-02],
+        [ 3.7992e-02, -5.6698e-02, -5.5239e-02,  ..., -7.5137e-02,
+         -3.2685e-02,  5.6172e-02],
+        [-3.2974e-02,  5.9861e-02,  1.1100e-02,  ..., -2.4012e-02,
+         -2.8156e-02,  1.7345e-02]], device='cuda:0'), grad: tensor([[ 1.0490e-05, -1.3232e-04,  7.2233e-06,  ..., -5.8487e-06,
+          7.6033e-06,  6.0275e-06],
+        [ 9.4414e-05,  2.3052e-05,  6.5625e-05,  ...,  6.0558e-05,
+          7.7546e-05,  1.5363e-05],
+        [ 2.1398e-05,  2.2963e-05,  1.0818e-04,  ..., -2.8923e-05,
+          6.1989e-05,  7.6175e-05],
+        ...,
+        [-4.9019e-04, -4.7058e-05, -3.9291e-04,  ..., -2.2662e-04,
+         -4.5180e-04, -1.7464e-04],
+        [ 3.6538e-05,  2.0325e-04,  1.0800e-04,  ...,  6.7472e-05,
+          9.2566e-05, -4.2230e-05],
+        [ 1.3918e-05, -4.0698e-04, -1.3936e-04,  ...,  3.7044e-05,
+          9.9540e-06, -1.0854e-04]], device='cuda:0')
+Epoch 40, bias, value: tensor([-0.0080, -0.0077, -0.0030, -0.0118, -0.0149, -0.0085,  0.0125,  0.0011,
+         0.0250, -0.0004], device='cuda:0'), grad: tensor([-1.5724e-04,  1.3161e-04, -4.2439e-05,  1.3936e-04,  1.5295e-04,
+         3.7885e-04,  1.3280e-04, -3.6764e-04,  3.9530e-04, -7.6246e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 39----------------------------------------------------
+epoch 39, time 230.86, cls_loss 0.0248 cls_loss_mapping 0.0329 cls_loss_causal 0.7405 re_mapping 0.0202 re_causal 0.0538 /// teacc 98.58 lr 0.00010000
+Epoch 41, weight, value: tensor([[-0.0764,  0.0492,  0.0153,  ..., -0.0071, -0.0188, -0.0339],
+        [ 0.0321,  0.0401, -0.0606,  ..., -0.0572, -0.0154,  0.0476],
+        [ 0.0480, -0.0371, -0.0439,  ..., -0.0009, -0.0253, -0.0009],
+        ...,
+        [ 0.0313,  0.0259,  0.0529,  ...,  0.0275,  0.0709,  0.0221],
+        [ 0.0383, -0.0574, -0.0562,  ..., -0.0763, -0.0333,  0.0571],
+        [-0.0334,  0.0602,  0.0113,  ..., -0.0248, -0.0285,  0.0173]],
+       device='cuda:0'), grad: tensor([[ 9.9778e-05,  5.3108e-05,  2.1935e-05,  ...,  1.3304e-04,
+          1.9208e-05,  3.8326e-05],
+        [ 2.0134e-04,  1.2434e-04,  1.3518e-04,  ...,  9.9063e-05,
+          1.3590e-04,  1.1492e-04],
+        [-8.2731e-04, -4.7892e-05, -1.3447e-03,  ..., -1.7967e-03,
+         -9.0408e-04,  4.2176e-04],
+        ...,
+        [ 1.7238e-04, -1.5903e-04,  7.2002e-05,  ...,  5.0402e-04,
+         -6.8426e-05, -8.5831e-05],
+        [-8.4066e-04,  7.6532e-05,  6.1154e-05,  ...,  4.3154e-04,
+          4.4644e-05, -7.3195e-04],
+        [ 1.5211e-04,  9.5487e-05,  8.9288e-05,  ...,  1.1963e-04,
+          7.3314e-05,  7.5698e-05]], device='cuda:0')
+Epoch 41, bias, value: tensor([-0.0079, -0.0075, -0.0033, -0.0120, -0.0149, -0.0082,  0.0119,  0.0014,
+         0.0251, -0.0002], device='cuda:0'), grad: tensor([ 4.3464e-04,  4.3344e-04, -1.5450e-03,  9.8648e-03,  2.4819e-04,
+        -1.3222e-02,  2.8954e-03,  4.6110e-04, -2.4676e-05,  4.4894e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 40, time 214.65, cls_loss 0.0305 cls_loss_mapping 0.0361 cls_loss_causal 0.7446 re_mapping 0.0195 re_causal 0.0523 /// teacc 98.38 lr 0.00010000
+Epoch 42, weight, value: tensor([[-0.0776,  0.0496,  0.0148,  ..., -0.0073, -0.0194, -0.0346],
+        [ 0.0327,  0.0410, -0.0609,  ..., -0.0574, -0.0147,  0.0481],
+        [ 0.0481, -0.0381, -0.0448,  ..., -0.0014, -0.0255, -0.0015],
+        ...,
+        [ 0.0317,  0.0262,  0.0535,  ...,  0.0280,  0.0720,  0.0225],
+        [ 0.0387, -0.0582, -0.0568,  ..., -0.0773, -0.0341,  0.0579],
+        [-0.0344,  0.0607,  0.0117,  ..., -0.0256, -0.0281,  0.0170]],
+       device='cuda:0'), grad: tensor([[ 8.4937e-06, -4.3809e-05,  1.6764e-05,  ...,  4.9844e-06,
+          1.4760e-05,  2.1290e-06],
+        [ 4.3958e-05, -2.4319e-05,  1.7077e-05,  ...,  2.7329e-05,
+          3.0905e-05, -1.5274e-05],
+        [-2.1294e-05,  2.9296e-05,  6.3181e-05,  ..., -1.5959e-05,
+          2.7195e-05,  1.8582e-05],
+        ...,
+        [-1.3912e-04, -6.8903e-05, -2.2995e-04,  ..., -1.2720e-04,
+         -1.8382e-04,  4.9844e-06],
+        [-5.5730e-05,  2.9385e-05,  1.4126e-05,  ...,  2.2411e-05,
+         -1.3009e-05, -9.1374e-05],
+        [ 3.4362e-05,  1.3463e-05,  3.3796e-05,  ...,  3.4094e-05,
+          3.6895e-05,  4.8056e-06]], device='cuda:0')
+Epoch 42, bias, value: tensor([-0.0080, -0.0073, -0.0036, -0.0123, -0.0154, -0.0074,  0.0115,  0.0020,
+         0.0251, -0.0004], device='cuda:0'), grad: tensor([ 3.1233e-05,  2.8715e-05, -1.1124e-05, -8.8394e-05,  1.4640e-05,
+        -3.9268e-04,  4.9639e-04, -1.3244e-04, -6.5267e-06,  6.0380e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 41, time 214.55, cls_loss 0.0251 cls_loss_mapping 0.0297 cls_loss_causal 0.7324 re_mapping 0.0191 re_causal 0.0524 /// teacc 98.43 lr 0.00010000
+Epoch 43, weight, value: tensor([[-0.0780,  0.0499,  0.0145,  ..., -0.0072, -0.0197, -0.0350],
+        [ 0.0331,  0.0414, -0.0613,  ..., -0.0578, -0.0139,  0.0489],
+        [ 0.0483, -0.0382, -0.0449,  ..., -0.0009, -0.0254, -0.0021],
+        ...,
+        [ 0.0318,  0.0263,  0.0539,  ...,  0.0278,  0.0726,  0.0224],
+        [ 0.0390, -0.0591, -0.0573,  ..., -0.0779, -0.0344,  0.0584],
+        [-0.0351,  0.0608,  0.0117,  ..., -0.0266, -0.0285,  0.0167]],
+       device='cuda:0'), grad: tensor([[ 4.6402e-05,  1.2726e-05,  2.7597e-05,  ...,  5.2184e-05,
+          2.1279e-05,  1.8686e-05],
+        [ 3.6478e-05,  6.3665e-06,  3.7581e-05,  ...,  5.4359e-05,
+          3.0234e-05, -9.7305e-06],
+        [ 1.4133e-03,  5.6505e-04,  7.1764e-04,  ...,  1.5917e-03,
+          6.1989e-04,  7.0333e-04],
+        ...,
+        [ 3.3998e-04,  1.2755e-04,  1.3864e-04,  ...,  3.9172e-04,
+          1.1224e-04,  1.7643e-04],
+        [ 2.1362e-03,  9.0933e-04,  1.1168e-03,  ...,  2.4967e-03,
+          9.6512e-04,  9.7609e-04],
+        [ 3.3587e-05, -6.2168e-05, -5.9843e-05,  ...,  4.2260e-05,
+          1.7300e-05,  1.4491e-05]], device='cuda:0')
+Epoch 43, bias, value: tensor([-0.0079, -0.0072, -0.0029, -0.0126, -0.0156, -0.0072,  0.0118,  0.0020,
+         0.0247, -0.0009], device='cuda:0'), grad: tensor([ 9.0063e-05,  5.1528e-05,  2.2335e-03, -6.4735e-03,  2.1756e-05,
+         1.0878e-04, -6.3539e-05,  5.3453e-04,  3.5114e-03, -8.6352e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 42, time 214.78, cls_loss 0.0230 cls_loss_mapping 0.0354 cls_loss_causal 0.7725 re_mapping 0.0187 re_causal 0.0532 /// teacc 98.47 lr 0.00010000
+Epoch 44, weight, value: tensor([[-0.0779,  0.0508,  0.0140,  ..., -0.0070, -0.0201, -0.0354],
+        [ 0.0330,  0.0412, -0.0617,  ..., -0.0582, -0.0141,  0.0493],
+        [ 0.0482, -0.0393, -0.0455,  ..., -0.0009, -0.0257, -0.0028],
+        ...,
+        [ 0.0320,  0.0262,  0.0541,  ...,  0.0281,  0.0731,  0.0219],
+        [ 0.0401, -0.0594, -0.0566,  ..., -0.0780, -0.0331,  0.0595],
+        [-0.0353,  0.0610,  0.0117,  ..., -0.0271, -0.0288,  0.0166]],
+       device='cuda:0'), grad: tensor([[ 2.5845e-04, -6.9857e-04,  2.4974e-05,  ...,  1.3149e-04,
+          1.3280e-04,  5.4501e-06],
+        [-2.4295e-04, -7.0620e-04,  9.8228e-05,  ...,  6.3479e-05,
+         -2.3150e-04, -4.5633e-04],
+        [-3.8099e-04,  1.3816e-04,  1.0812e-04,  ..., -4.3035e-04,
+         -1.0073e-04,  6.3002e-05],
+        ...,
+        [-5.2691e-04, -1.0943e-04, -8.2731e-04,  ..., -1.6499e-04,
+         -5.5647e-04,  3.8266e-05],
+        [ 2.7752e-04,  2.8324e-04,  1.4508e-04,  ...,  7.1168e-05,
+          2.0766e-04,  9.6083e-05],
+        [ 2.5749e-04,  3.2353e-04,  3.5405e-04,  ...,  2.1088e-04,
+          2.3115e-04,  4.2289e-05]], device='cuda:0')
+Epoch 44, bias, value: tensor([-0.0073, -0.0074, -0.0032, -0.0125, -0.0152, -0.0075,  0.0114,  0.0017,
+         0.0250, -0.0006], device='cuda:0'), grad: tensor([-0.0007, -0.0009, -0.0013,  0.0001,  0.0004,  0.0005,  0.0011, -0.0006,
+         0.0008,  0.0007], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 43, time 214.55, cls_loss 0.0217 cls_loss_mapping 0.0293 cls_loss_causal 0.7475 re_mapping 0.0185 re_causal 0.0512 /// teacc 98.48 lr 0.00010000
+Epoch 45, weight, value: tensor([[-0.0786,  0.0509,  0.0138,  ..., -0.0070, -0.0206, -0.0359],
+        [ 0.0328,  0.0416, -0.0619,  ..., -0.0589, -0.0145,  0.0497],
+        [ 0.0483, -0.0404, -0.0463,  ..., -0.0010, -0.0268, -0.0031],
+        ...,
+        [ 0.0327,  0.0266,  0.0547,  ...,  0.0287,  0.0747,  0.0218],
+        [ 0.0404, -0.0603, -0.0570,  ..., -0.0787, -0.0334,  0.0602],
+        [-0.0362,  0.0610,  0.0116,  ..., -0.0278, -0.0294,  0.0163]],
+       device='cuda:0'), grad: tensor([[ 3.1829e-04,  4.2510e-04,  5.9120e-06,  ...,  4.8161e-04,
+          7.4580e-06,  2.7493e-06],
+        [ 1.3649e-05,  1.2442e-05,  1.2279e-05,  ...,  3.5048e-05,
+          2.1070e-05, -1.9804e-05],
+        [-2.4343e-04,  3.6091e-05, -7.1049e-05,  ..., -2.1183e-04,
+         -2.1911e-04,  1.6779e-05],
+        ...,
+        [ 1.2827e-04,  9.1910e-05,  1.2532e-05,  ...,  1.5247e-04,
+          4.9800e-05,  1.3113e-05],
+        [ 1.7154e-04,  2.5010e-04,  2.5854e-05,  ...,  3.1400e-04,
+          3.5256e-05, -2.5019e-05],
+        [ 3.2395e-05,  9.0361e-05, -2.9966e-05,  ...,  4.6700e-05,
+         -7.5437e-07,  2.9653e-05]], device='cuda:0')
+Epoch 45, bias, value: tensor([-0.0079, -0.0076, -0.0035, -0.0121, -0.0156, -0.0075,  0.0118,  0.0025,
+         0.0249, -0.0009], device='cuda:0'), grad: tensor([ 1.9970e-03,  8.7321e-05, -2.4378e-04,  1.2884e-03, -9.3579e-05,
+        -4.1428e-03, -8.9931e-04,  4.8137e-04,  1.2684e-03,  2.5797e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 44, time 214.67, cls_loss 0.0242 cls_loss_mapping 0.0346 cls_loss_causal 0.7296 re_mapping 0.0174 re_causal 0.0490 /// teacc 98.28 lr 0.00010000
+Epoch 46, weight, value: tensor([[-0.0793,  0.0512,  0.0133,  ..., -0.0071, -0.0215, -0.0364],
+        [ 0.0323,  0.0413, -0.0627,  ..., -0.0593, -0.0153,  0.0499],
+        [ 0.0483, -0.0404, -0.0465,  ..., -0.0010, -0.0266, -0.0038],
+        ...,
+        [ 0.0334,  0.0266,  0.0548,  ...,  0.0287,  0.0754,  0.0223],
+        [ 0.0411, -0.0608, -0.0574,  ..., -0.0789, -0.0333,  0.0611],
+        [-0.0362,  0.0615,  0.0125,  ..., -0.0283, -0.0290,  0.0162]],
+       device='cuda:0'), grad: tensor([[ 3.4720e-05,  1.9222e-05,  2.4945e-05,  ...,  4.0084e-05,
+          2.4185e-05,  1.5244e-05],
+        [ 8.4281e-05, -2.8539e-04,  6.4611e-05,  ..., -1.2141e-04,
+         -1.8418e-04, -4.9084e-05],
+        [ 6.1572e-05,  4.9019e-04,  3.4642e-04,  ...,  4.7922e-04,
+          1.3626e-04, -2.0170e-04],
+        ...,
+        [ 2.0809e-03,  1.8606e-03,  2.0218e-03,  ...,  3.0270e-03,
+          1.1311e-03,  1.6797e-04],
+        [ 1.0021e-05,  1.7309e-04,  1.5986e-04,  ...,  2.1136e-04,
+          9.4712e-05, -1.2016e-04],
+        [ 4.6343e-05, -1.6367e-04, -2.0659e-04,  ...,  3.7372e-05,
+         -8.5533e-05,  4.1872e-05]], device='cuda:0')
+Epoch 46, bias, value: tensor([-0.0078, -0.0080, -0.0035, -0.0125, -0.0157, -0.0071,  0.0117,  0.0028,
+         0.0250, -0.0008], device='cuda:0'), grad: tensor([ 7.5817e-05, -6.5565e-04,  5.6314e-04, -3.8166e-03,  5.6088e-05,
+         2.1076e-04,  4.3303e-05,  3.5591e-03,  1.2922e-04, -1.6224e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 45, time 214.80, cls_loss 0.0215 cls_loss_mapping 0.0312 cls_loss_causal 0.7238 re_mapping 0.0181 re_causal 0.0491 /// teacc 98.48 lr 0.00010000
+Epoch 47, weight, value: tensor([[-0.0802,  0.0516,  0.0132,  ..., -0.0071, -0.0222, -0.0372],
+        [ 0.0328,  0.0422, -0.0629,  ..., -0.0592, -0.0151,  0.0509],
+        [ 0.0485, -0.0409, -0.0469,  ..., -0.0009, -0.0268, -0.0040],
+        ...,
+        [ 0.0340,  0.0266,  0.0553,  ...,  0.0289,  0.0764,  0.0221],
+        [ 0.0410, -0.0617, -0.0581,  ..., -0.0796, -0.0338,  0.0616],
+        [-0.0373,  0.0620,  0.0131,  ..., -0.0289, -0.0294,  0.0159]],
+       device='cuda:0'), grad: tensor([[ 4.8280e-05,  2.5466e-05,  3.0115e-05,  ...,  2.5675e-05,
+          2.6032e-05,  6.8955e-06],
+        [ 6.1131e-04,  2.9516e-04,  2.0361e-04,  ...,  1.3888e-04,
+          4.4560e-04,  1.2410e-04],
+        [-3.1567e-03,  3.8177e-05,  2.8536e-05,  ..., -2.3142e-05,
+         -2.1515e-03, -7.4673e-04],
+        ...,
+        [ 1.4114e-04, -1.5056e-04, -2.7275e-04,  ...,  5.8353e-05,
+         -7.2122e-05,  5.8919e-05],
+        [ 2.1877e-03,  1.0765e-04,  5.7310e-05,  ...,  1.0645e-04,
+          1.4563e-03,  4.9543e-04],
+        [ 2.1827e-04,  8.6737e-04,  1.2660e-04,  ...,  1.4567e-04,
+          1.3077e-04,  1.8263e-04]], device='cuda:0')
+Epoch 47, bias, value: tensor([-0.0077, -0.0073, -0.0034, -0.0128, -0.0155, -0.0066,  0.0110,  0.0028,
+         0.0242, -0.0008], device='cuda:0'), grad: tensor([ 0.0003,  0.0010, -0.0026,  0.0044, -0.0014, -0.0034, -0.0026,  0.0002,
+         0.0024,  0.0018], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 46, time 214.83, cls_loss 0.0205 cls_loss_mapping 0.0262 cls_loss_causal 0.6983 re_mapping 0.0171 re_causal 0.0473 /// teacc 98.55 lr 0.00010000
+Epoch 48, weight, value: tensor([[-0.0801,  0.0523,  0.0129,  ..., -0.0068, -0.0221, -0.0376],
+        [ 0.0330,  0.0423, -0.0631,  ..., -0.0589, -0.0147,  0.0517],
+        [ 0.0485, -0.0414, -0.0470,  ..., -0.0009, -0.0272, -0.0047],
+        ...,
+        [ 0.0341,  0.0268,  0.0556,  ...,  0.0285,  0.0772,  0.0218],
+        [ 0.0418, -0.0624, -0.0584,  ..., -0.0800, -0.0337,  0.0623],
+        [-0.0380,  0.0622,  0.0131,  ..., -0.0293, -0.0298,  0.0157]],
+       device='cuda:0'), grad: tensor([[ 2.2054e-05, -2.1681e-05,  3.4541e-05,  ...,  2.8908e-05,
+          2.1026e-05,  1.4275e-05],
+        [-1.0805e-03, -1.8368e-03,  3.9548e-05,  ...,  2.9492e-04,
+          1.8215e-04, -1.9484e-03],
+        [-1.8132e-04,  9.0182e-05,  9.4831e-05,  ..., -1.5008e-04,
+         -1.3983e-04,  4.9412e-05],
+        ...,
+        [-4.6611e-04, -1.3046e-03, -2.4986e-03,  ..., -3.2592e-04,
+         -1.5802e-03,  5.8830e-05],
+        [ 9.5987e-04,  1.6556e-03,  1.5306e-04,  ...,  5.9545e-05,
+          8.5890e-05,  1.4820e-03],
+        [ 5.1308e-04,  1.6270e-03,  2.2430e-03,  ...,  6.1941e-04,
+          1.4133e-03,  1.5652e-04]], device='cuda:0')
+Epoch 48, bias, value: tensor([-0.0072, -0.0070, -0.0034, -0.0126, -0.0153, -0.0075,  0.0111,  0.0027,
+         0.0245, -0.0009], device='cuda:0'), grad: tensor([ 2.0996e-05, -3.0918e-03, -2.3282e-04, -8.3160e-04,  6.3702e-06,
+         3.7408e-04,  7.6473e-05, -2.2411e-03,  2.9831e-03,  2.9354e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 47----------------------------------------------------
+epoch 47, time 231.10, cls_loss 0.0233 cls_loss_mapping 0.0282 cls_loss_causal 0.7449 re_mapping 0.0168 re_causal 0.0472 /// teacc 98.60 lr 0.00010000
+Epoch 49, weight, value: tensor([[-0.0807,  0.0530,  0.0129,  ..., -0.0062, -0.0224, -0.0382],
+        [ 0.0330,  0.0429, -0.0629,  ..., -0.0597, -0.0145,  0.0521],
+        [ 0.0493, -0.0424, -0.0476,  ..., -0.0008, -0.0275, -0.0048],
+        ...,
+        [ 0.0341,  0.0269,  0.0560,  ...,  0.0291,  0.0779,  0.0213],
+        [ 0.0418, -0.0633, -0.0590,  ..., -0.0811, -0.0343,  0.0631],
+        [-0.0381,  0.0621,  0.0131,  ..., -0.0297, -0.0302,  0.0151]],
+       device='cuda:0'), grad: tensor([[ 2.5127e-06, -3.2723e-05,  7.4804e-06,  ..., -1.1906e-05,
+          3.1870e-06,  9.3952e-06],
+        [ 3.4660e-05,  1.1368e-03,  1.9228e-04,  ...,  4.2111e-05,
+          3.5554e-05,  3.3736e-04],
+        [ 6.0022e-05,  7.6115e-05,  5.1767e-05,  ...,  3.1203e-05,
+          5.1886e-05,  2.6092e-05],
+        ...,
+        [-1.2445e-04,  4.1395e-05, -1.0788e-04,  ..., -4.7952e-05,
+         -1.2946e-04,  4.5775e-07],
+        [-3.8324e-07,  4.9496e-04,  1.6391e-05,  ...,  2.2888e-04,
+          2.9318e-06,  1.5810e-05],
+        [ 1.2375e-05, -2.1133e-03, -3.3116e-04,  ...,  3.5018e-05,
+          2.0787e-05, -6.7806e-04]], device='cuda:0')
+Epoch 49, bias, value: tensor([-0.0070, -0.0068, -0.0033, -0.0126, -0.0153, -0.0076,  0.0114,  0.0026,
+         0.0242, -0.0012], device='cuda:0'), grad: tensor([-9.8646e-05,  1.4915e-03,  1.6713e-04, -5.3673e-03,  1.0939e-03,
+         3.8357e-03,  3.3522e-04,  1.8133e-06,  1.1120e-03, -2.5654e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 48, time 214.72, cls_loss 0.0182 cls_loss_mapping 0.0259 cls_loss_causal 0.6848 re_mapping 0.0174 re_causal 0.0469 /// teacc 98.60 lr 0.00010000
+Epoch 50, weight, value: tensor([[-0.0813,  0.0534,  0.0126,  ..., -0.0062, -0.0228, -0.0388],
+        [ 0.0330,  0.0431, -0.0634,  ..., -0.0602, -0.0148,  0.0527],
+        [ 0.0496, -0.0426, -0.0474,  ..., -0.0009, -0.0272, -0.0056],
+        ...,
+        [ 0.0341,  0.0269,  0.0560,  ...,  0.0295,  0.0785,  0.0212],
+        [ 0.0427, -0.0639, -0.0596,  ..., -0.0814, -0.0345,  0.0637],
+        [-0.0385,  0.0624,  0.0135,  ..., -0.0304, -0.0304,  0.0151]],
+       device='cuda:0'), grad: tensor([[ 1.2085e-05,  2.5600e-05,  3.6091e-05,  ...,  2.7508e-05,
+          6.6087e-06,  2.7686e-05],
+        [ 2.8715e-05,  3.8922e-05,  2.3350e-05,  ...,  3.1799e-05,
+          2.3857e-05,  4.7743e-05],
+        [-4.3631e-05, -2.0891e-05,  2.4587e-05,  ..., -1.3255e-05,
+         -3.9637e-05, -5.8502e-05],
+        ...,
+        [ 3.5834e-04,  1.2712e-03,  1.7319e-03,  ...,  6.4373e-04,
+          8.3590e-04,  5.7369e-05],
+        [-1.6201e-04, -5.2750e-05,  4.2945e-05,  ..., -8.2791e-05,
+          1.1340e-05, -6.3181e-04],
+        [-3.6693e-04, -9.4032e-04, -1.5163e-03,  ..., -3.7408e-04,
+         -8.7023e-04,  8.4698e-05]], device='cuda:0')
+Epoch 50, bias, value: tensor([-0.0069, -0.0068, -0.0034, -0.0124, -0.0153, -0.0079,  0.0116,  0.0026,
+         0.0245, -0.0013], device='cuda:0'), grad: tensor([ 1.0800e-04,  1.2326e-04,  1.7917e-04, -1.4997e-04, -6.8307e-05,
+         1.5426e-04, -8.5533e-05,  1.8368e-03, -8.1730e-04, -1.2789e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 49----------------------------------------------------
+epoch 49, time 230.92, cls_loss 0.0142 cls_loss_mapping 0.0208 cls_loss_causal 0.6810 re_mapping 0.0177 re_causal 0.0478 /// teacc 98.68 lr 0.00010000
+Epoch 51, weight, value: tensor([[-0.0820,  0.0531,  0.0123,  ..., -0.0062, -0.0232, -0.0394],
+        [ 0.0329,  0.0432, -0.0639,  ..., -0.0601, -0.0150,  0.0529],
+        [ 0.0493, -0.0429, -0.0480,  ..., -0.0012, -0.0277, -0.0062],
+        ...,
+        [ 0.0349,  0.0269,  0.0564,  ...,  0.0298,  0.0792,  0.0214],
+        [ 0.0431, -0.0646, -0.0601,  ..., -0.0819, -0.0346,  0.0644],
+        [-0.0387,  0.0633,  0.0140,  ..., -0.0305, -0.0300,  0.0150]],
+       device='cuda:0'), grad: tensor([[ 5.3197e-06, -2.3283e-06,  9.4175e-06,  ...,  2.6152e-06,
+          1.1027e-05,  9.1568e-06],
+        [ 8.7395e-06,  1.2852e-05,  2.4498e-05,  ...,  1.2144e-05,
+          2.9802e-05, -1.7388e-06],
+        [-5.1081e-05,  2.3261e-05, -4.5411e-06,  ..., -5.7399e-05,
+          2.2780e-06, -2.2333e-06],
+        ...,
+        [-2.5183e-05,  4.8780e-04,  2.1565e-04,  ..., -1.0759e-05,
+          4.5180e-04,  3.7193e-04],
+        [ 1.8150e-05,  6.6638e-05,  5.1796e-05,  ...,  6.4611e-05,
+          4.8876e-05,  2.2128e-05],
+        [ 2.4185e-05,  3.0479e-03,  1.6193e-03,  ...,  1.8388e-05,
+          2.9831e-03,  2.2697e-03]], device='cuda:0')
+Epoch 51, bias, value: tensor([-0.0074, -0.0069, -0.0037, -0.0128, -0.0150, -0.0079,  0.0109,  0.0028,
+         0.0247, -0.0007], device='cuda:0'), grad: tensor([ 1.5855e-05,  4.8816e-05, -7.3433e-05, -3.3307e-04, -7.4081e-03,
+         3.6192e-04, -2.1458e-05,  9.9277e-04,  1.9515e-04,  6.2256e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 50, time 215.02, cls_loss 0.0143 cls_loss_mapping 0.0205 cls_loss_causal 0.6864 re_mapping 0.0160 re_causal 0.0453 /// teacc 98.57 lr 0.00010000
+Epoch 52, weight, value: tensor([[-0.0827,  0.0535,  0.0120,  ..., -0.0065, -0.0239, -0.0399],
+        [ 0.0330,  0.0435, -0.0644,  ..., -0.0603, -0.0150,  0.0532],
+        [ 0.0495, -0.0434, -0.0484,  ..., -0.0012, -0.0278, -0.0066],
+        ...,
+        [ 0.0353,  0.0271,  0.0569,  ...,  0.0301,  0.0799,  0.0217],
+        [ 0.0432, -0.0656, -0.0606,  ..., -0.0827, -0.0349,  0.0647],
+        [-0.0392,  0.0633,  0.0141,  ..., -0.0310, -0.0304,  0.0146]],
+       device='cuda:0'), grad: tensor([[ 5.0592e-04,  8.2636e-04,  5.5075e-04,  ...,  9.2030e-04,
+          3.9525e-06,  2.3365e-05],
+        [ 3.7581e-05,  3.9995e-05,  3.8058e-05,  ...,  7.8559e-05,
+          1.6898e-05, -4.4793e-05],
+        [ 3.2615e-06,  1.9979e-04,  1.9622e-04,  ...,  4.4155e-04,
+         -1.7539e-05,  1.0684e-05],
+        ...,
+        [ 6.5446e-05,  1.4937e-04, -2.4632e-05,  ...,  9.9361e-05,
+         -6.9976e-05,  6.1810e-05],
+        [ 3.1424e-04,  9.3651e-04,  4.3893e-04,  ...,  6.7854e-04,
+          1.5795e-05,  2.0337e-04],
+        [-1.6141e-04, -1.5917e-03,  7.9989e-05,  ...,  3.3951e-04,
+          2.0638e-05, -1.5812e-03]], device='cuda:0')
+Epoch 52, bias, value: tensor([-0.0074, -0.0069, -0.0039, -0.0127, -0.0148, -0.0073,  0.0108,  0.0032,
+         0.0241, -0.0010], device='cuda:0'), grad: tensor([ 0.0030,  0.0003,  0.0006, -0.0046,  0.0038, -0.0033,  0.0007,  0.0008,
+         0.0030, -0.0043], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 51, time 215.02, cls_loss 0.0176 cls_loss_mapping 0.0229 cls_loss_causal 0.6949 re_mapping 0.0161 re_causal 0.0464 /// teacc 98.56 lr 0.00010000
+Epoch 53, weight, value: tensor([[-0.0835,  0.0539,  0.0117,  ..., -0.0067, -0.0243, -0.0404],
+        [ 0.0331,  0.0440, -0.0642,  ..., -0.0607, -0.0153,  0.0538],
+        [ 0.0496, -0.0439, -0.0491,  ..., -0.0010, -0.0283, -0.0070],
+        ...,
+        [ 0.0361,  0.0271,  0.0576,  ...,  0.0308,  0.0811,  0.0218],
+        [ 0.0434, -0.0662, -0.0613,  ..., -0.0838, -0.0353,  0.0653],
+        [-0.0398,  0.0632,  0.0139,  ..., -0.0317, -0.0308,  0.0143]],
+       device='cuda:0'), grad: tensor([[-1.1735e-05,  3.4256e-03,  4.7731e-04,  ...,  3.8803e-05,
+         -6.3896e-05, -9.6932e-06],
+        [ 2.0221e-05,  5.4449e-05,  2.8029e-05,  ...,  2.7269e-05,
+          2.7463e-05, -1.8075e-05],
+        [ 1.1644e-03,  1.2465e-03,  1.8425e-03,  ...,  2.2507e-03,
+         -2.6673e-06,  2.8670e-05],
+        ...,
+        [ 5.5656e-06,  7.7248e-05, -4.4644e-05,  ...,  3.1829e-05,
+         -3.1255e-06, -2.0123e-04],
+        [ 2.7561e-04,  2.9039e-04,  4.5657e-04,  ...,  5.7745e-04,
+          7.0520e-06, -1.7762e-05],
+        [ 3.1978e-05, -3.8052e-03, -4.3869e-04,  ...,  4.9323e-05,
+          1.2778e-05,  1.4253e-05]], device='cuda:0')
+Epoch 53, bias, value: tensor([-0.0074, -0.0067, -0.0040, -0.0132, -0.0146, -0.0072,  0.0112,  0.0038,
+         0.0238, -0.0015], device='cuda:0'), grad: tensor([ 0.0038,  0.0002,  0.0046, -0.0052,  0.0058,  0.0004, -0.0018, -0.0054,
+         0.0011, -0.0037], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 52, time 214.82, cls_loss 0.0161 cls_loss_mapping 0.0250 cls_loss_causal 0.6895 re_mapping 0.0163 re_causal 0.0460 /// teacc 98.55 lr 0.00010000
+Epoch 54, weight, value: tensor([[-0.0840,  0.0536,  0.0114,  ..., -0.0066, -0.0245, -0.0411],
+        [ 0.0329,  0.0444, -0.0647,  ..., -0.0608, -0.0157,  0.0538],
+        [ 0.0496, -0.0444, -0.0496,  ..., -0.0010, -0.0282, -0.0074],
+        ...,
+        [ 0.0361,  0.0275,  0.0578,  ...,  0.0306,  0.0814,  0.0209],
+        [ 0.0446, -0.0671, -0.0610,  ..., -0.0842, -0.0338,  0.0669],
+        [-0.0407,  0.0634,  0.0139,  ..., -0.0321, -0.0316,  0.0139]],
+       device='cuda:0'), grad: tensor([[ 1.2159e-04,  2.4724e-04,  1.0289e-05,  ...,  2.0608e-05,
+          9.5367e-06,  1.6582e-04],
+        [-8.2159e-04, -1.1520e-03,  1.3721e-04,  ...,  5.8711e-05,
+          1.3852e-04, -1.1740e-03],
+        [ 6.2764e-05,  5.1439e-05,  2.5943e-05,  ...,  1.5572e-05,
+          2.3007e-05,  1.0133e-04],
+        ...,
+        [-1.5962e-04, -3.1561e-05, -2.1887e-04,  ..., -8.4639e-05,
+         -1.9765e-04, -4.0144e-05],
+        [ 3.6478e-04,  8.3065e-04,  1.5616e-05,  ..., -1.3840e-04,
+          9.2089e-06,  4.4203e-04],
+        [ 4.7147e-05,  1.2243e-04, -1.5050e-05,  ...,  2.8476e-05,
+          2.0579e-05,  1.6499e-04]], device='cuda:0')
+Epoch 54, bias, value: tensor([-0.0078, -0.0067, -0.0041, -0.0126, -0.0146, -0.0075,  0.0115,  0.0038,
+         0.0240, -0.0017], device='cuda:0'), grad: tensor([ 8.6355e-04, -2.9869e-03,  2.0957e-04,  3.2115e-04, -4.3654e-04,
+         4.9210e-04, -5.4687e-05, -1.9327e-05,  1.2550e-03,  3.5501e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 53, time 215.21, cls_loss 0.0133 cls_loss_mapping 0.0192 cls_loss_causal 0.6994 re_mapping 0.0158 re_causal 0.0451 /// teacc 98.61 lr 0.00010000
+Epoch 55, weight, value: tensor([[-0.0845,  0.0539,  0.0110,  ..., -0.0069, -0.0249, -0.0416],
+        [ 0.0330,  0.0444, -0.0650,  ..., -0.0608, -0.0155,  0.0540],
+        [ 0.0498, -0.0454, -0.0501,  ..., -0.0011, -0.0286, -0.0075],
+        ...,
+        [ 0.0364,  0.0274,  0.0583,  ...,  0.0308,  0.0819,  0.0208],
+        [ 0.0449, -0.0677, -0.0616,  ..., -0.0847, -0.0339,  0.0674],
+        [-0.0412,  0.0636,  0.0145,  ..., -0.0325, -0.0318,  0.0136]],
+       device='cuda:0'), grad: tensor([[ 6.7614e-06, -1.0043e-04,  7.3612e-06,  ..., -2.2873e-05,
+          4.9919e-06,  4.1574e-06],
+        [-5.8636e-06, -4.6611e-05,  2.0340e-05,  ...,  3.2365e-05,
+          2.0206e-05, -9.7990e-05],
+        [-1.2646e-03, -1.8239e-04, -4.9686e-04,  ..., -1.0614e-03,
+         -8.4686e-04,  3.0398e-05],
+        ...,
+        [ 4.7803e-04, -3.1066e-04, -8.7309e-04,  ...,  1.0080e-03,
+          1.6820e-04, -1.9634e-04],
+        [-2.7984e-05,  7.7188e-05,  1.3375e-04,  ...,  2.1309e-05,
+          5.9783e-05, -8.3447e-05],
+        [ 6.4659e-04,  4.4513e-04,  1.1139e-03,  ...,  2.5094e-05,
+          5.4073e-04,  1.9932e-04]], device='cuda:0')
+Epoch 55, bias, value: tensor([-0.0074, -0.0068, -0.0042, -0.0128, -0.0145, -0.0074,  0.0114,  0.0038,
+         0.0238, -0.0016], device='cuda:0'), grad: tensor([-1.0079e-04, -1.2827e-04, -1.6117e-03,  9.5904e-05, -1.1615e-05,
+         7.0214e-05,  1.4174e-04,  2.5654e-04,  4.3839e-05,  1.2445e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 54, time 214.93, cls_loss 0.0145 cls_loss_mapping 0.0236 cls_loss_causal 0.6786 re_mapping 0.0157 re_causal 0.0445 /// teacc 98.56 lr 0.00010000
+Epoch 56, weight, value: tensor([[-0.0852,  0.0540,  0.0103,  ..., -0.0070, -0.0255, -0.0423],
+        [ 0.0334,  0.0450, -0.0649,  ..., -0.0611, -0.0149,  0.0549],
+        [ 0.0500, -0.0456, -0.0503,  ..., -0.0006, -0.0283, -0.0081],
+        ...,
+        [ 0.0362,  0.0265,  0.0581,  ...,  0.0303,  0.0818,  0.0201],
+        [ 0.0454, -0.0686, -0.0620,  ..., -0.0852, -0.0341,  0.0680],
+        [-0.0417,  0.0645,  0.0150,  ..., -0.0329, -0.0315,  0.0136]],
+       device='cuda:0'), grad: tensor([[ 6.0536e-06, -4.3735e-06,  1.4983e-05,  ..., -1.5013e-05,
+          5.6215e-06,  6.6049e-06],
+        [ 1.7926e-05, -1.6494e-06,  3.0965e-05,  ...,  1.2048e-05,
+          2.3365e-05, -1.2510e-05],
+        [ 2.8253e-05,  3.3766e-05,  2.5213e-05,  ...,  1.1995e-05,
+          1.5467e-05,  4.7833e-05],
+        ...,
+        [-9.1493e-05, -9.4712e-05, -1.9979e-04,  ..., -1.7285e-05,
+         -1.8990e-04,  3.4682e-06],
+        [-8.1539e-05,  2.3022e-05,  6.9857e-05,  ...,  7.5161e-05,
+          4.6700e-05, -1.8251e-04],
+        [ 1.1837e-04, -7.5459e-05,  6.5088e-05,  ...,  6.4731e-05,
+          1.4448e-04,  7.3493e-05]], device='cuda:0')
+Epoch 56, bias, value: tensor([-0.0077, -0.0065, -0.0040, -0.0125, -0.0139, -0.0077,  0.0107,  0.0030,
+         0.0241, -0.0012], device='cuda:0'), grad: tensor([-3.7998e-05,  1.6451e-05,  8.8215e-05, -1.1206e-04,  1.1635e-04,
+         2.2084e-05,  3.1203e-05, -1.2231e-04, -5.2214e-05,  5.0306e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 55----------------------------------------------------
+epoch 55, time 225.16, cls_loss 0.0174 cls_loss_mapping 0.0217 cls_loss_causal 0.6880 re_mapping 0.0148 re_causal 0.0411 /// teacc 98.69 lr 0.00010000
+Epoch 57, weight, value: tensor([[-0.0858,  0.0543,  0.0095,  ..., -0.0070, -0.0261, -0.0433],
+        [ 0.0331,  0.0454, -0.0654,  ..., -0.0617, -0.0150,  0.0556],
+        [ 0.0502, -0.0458, -0.0508,  ..., -0.0005, -0.0285, -0.0083],
+        ...,
+        [ 0.0368,  0.0266,  0.0587,  ...,  0.0308,  0.0827,  0.0200],
+        [ 0.0458, -0.0694, -0.0625,  ..., -0.0859, -0.0343,  0.0688],
+        [-0.0421,  0.0649,  0.0154,  ..., -0.0333, -0.0318,  0.0135]],
+       device='cuda:0'), grad: tensor([[ 6.9812e-06,  1.1392e-05,  1.0960e-05,  ...,  3.9563e-06,
+          6.8396e-06,  1.2949e-05],
+        [-4.7588e-04, -4.1604e-04,  1.1820e-04,  ...,  4.8950e-06,
+          7.8678e-05, -9.3794e-04],
+        [ 3.3200e-05,  5.0128e-05,  3.1471e-05,  ..., -1.6004e-05,
+          1.5333e-05,  6.7890e-05],
+        ...,
+        [ 1.6940e-04,  4.4179e-04,  4.4584e-04,  ...,  4.2375e-07,
+          2.9135e-04,  4.1628e-04],
+        [ 3.8648e-04,  4.3344e-04,  4.8459e-05,  ...,  1.5795e-05,
+          2.0862e-05,  7.6246e-04],
+        [-2.1935e-04, -6.6662e-04, -8.6355e-04,  ...,  1.9535e-05,
+         -5.7602e-04, -5.5647e-04]], device='cuda:0')
+Epoch 57, bias, value: tensor([-0.0074, -0.0064, -0.0037, -0.0128, -0.0141, -0.0080,  0.0108,  0.0031,
+         0.0237, -0.0010], device='cuda:0'), grad: tensor([ 6.8569e-04, -1.2522e-03,  8.6427e-05,  1.3277e-05,  3.5715e-04,
+        -1.2732e-04, -6.8092e-04,  7.1049e-04,  1.1387e-03, -9.3031e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 56, time 214.72, cls_loss 0.0144 cls_loss_mapping 0.0217 cls_loss_causal 0.6888 re_mapping 0.0152 re_causal 0.0425 /// teacc 98.63 lr 0.00010000
+Epoch 58, weight, value: tensor([[-0.0867,  0.0547,  0.0092,  ..., -0.0068, -0.0266, -0.0443],
+        [ 0.0330,  0.0457, -0.0658,  ..., -0.0620, -0.0152,  0.0562],
+        [ 0.0502, -0.0465, -0.0515,  ..., -0.0008, -0.0287, -0.0089],
+        ...,
+        [ 0.0371,  0.0267,  0.0589,  ...,  0.0304,  0.0835,  0.0198],
+        [ 0.0461, -0.0702, -0.0632,  ..., -0.0869, -0.0346,  0.0696],
+        [-0.0428,  0.0648,  0.0155,  ..., -0.0339, -0.0321,  0.0126]],
+       device='cuda:0'), grad: tensor([[ 5.8681e-05, -7.4990e-06,  1.2226e-05,  ...,  9.6262e-06,
+          5.5023e-06,  1.0710e-06],
+        [ 4.9412e-05, -3.8415e-05,  1.5557e-05,  ...,  1.1243e-05,
+          6.6385e-06, -8.5473e-05],
+        [ 3.5038e-03,  5.9992e-05,  4.3780e-05,  ...,  1.4361e-06,
+          1.2808e-05,  6.9201e-05],
+        ...,
+        [-5.2631e-05, -2.6554e-05, -1.3769e-04,  ..., -3.7640e-05,
+         -1.0413e-04,  2.1029e-06],
+        [-4.3259e-03,  3.3498e-05,  3.5495e-05,  ...,  3.2604e-05,
+          4.3809e-06,  4.6492e-06],
+        [ 2.3067e-05, -7.8976e-05, -4.3750e-05,  ...,  1.9222e-05,
+          2.1398e-05, -1.8179e-05]], device='cuda:0')
+Epoch 58, bias, value: tensor([-0.0075, -0.0063, -0.0042, -0.0120, -0.0141, -0.0076,  0.0116,  0.0027,
+         0.0235, -0.0016], device='cuda:0'), grad: tensor([ 1.9288e-04,  1.2312e-06,  1.1772e-02,  1.9157e-04,  1.5736e-04,
+         4.7016e-04,  1.6079e-03, -7.3195e-05, -1.4244e-02, -7.2539e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 57----------------------------------------------------
+epoch 57, time 224.63, cls_loss 0.0151 cls_loss_mapping 0.0209 cls_loss_causal 0.6313 re_mapping 0.0150 re_causal 0.0407 /// teacc 98.73 lr 0.00010000
+Epoch 59, weight, value: tensor([[-0.0872,  0.0549,  0.0088,  ..., -0.0067, -0.0270, -0.0450],
+        [ 0.0326,  0.0454, -0.0661,  ..., -0.0624, -0.0160,  0.0565],
+        [ 0.0505, -0.0464, -0.0520,  ..., -0.0003, -0.0283, -0.0093],
+        ...,
+        [ 0.0373,  0.0267,  0.0592,  ...,  0.0310,  0.0840,  0.0193],
+        [ 0.0467, -0.0707, -0.0633,  ..., -0.0877, -0.0345,  0.0701],
+        [-0.0424,  0.0648,  0.0158,  ..., -0.0345, -0.0320,  0.0126]],
+       device='cuda:0'), grad: tensor([[ 8.6874e-06,  2.3320e-05,  2.5019e-05,  ...,  8.4937e-06,
+          1.3910e-05,  3.0678e-06],
+        [ 2.2933e-05,  1.0467e-04,  7.7665e-05,  ...,  2.2486e-05,
+          4.1783e-05, -1.1802e-05],
+        [ 6.7353e-05,  6.8069e-05,  1.5175e-04,  ..., -5.9813e-05,
+          1.0592e-04,  1.1154e-05],
+        ...,
+        [-2.7323e-04, -1.3089e-04, -7.8964e-04,  ..., -2.2554e-04,
+         -4.9353e-04,  9.6858e-06],
+        [-6.0499e-06,  1.2720e-04,  1.3971e-04,  ...,  1.3478e-05,
+          1.8090e-05, -9.5144e-06],
+        [ 4.0203e-05, -1.2207e-04, -4.2021e-05,  ...,  3.7849e-05,
+          9.8884e-05, -5.4449e-05]], device='cuda:0')
+Epoch 59, bias, value: tensor([-0.0071, -0.0068, -0.0039, -0.0120, -0.0139, -0.0077,  0.0110,  0.0026,
+         0.0240, -0.0017], device='cuda:0'), grad: tensor([ 1.6117e-04,  3.9220e-04, -3.4761e-04,  4.6468e-04,  4.8161e-04,
+         2.1422e-04, -6.6376e-04, -8.6498e-04,  2.4152e-04, -7.7665e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 58, time 214.76, cls_loss 0.0121 cls_loss_mapping 0.0176 cls_loss_causal 0.6447 re_mapping 0.0155 re_causal 0.0415 /// teacc 98.70 lr 0.00010000
+Epoch 60, weight, value: tensor([[-0.0879,  0.0552,  0.0085,  ..., -0.0066, -0.0274, -0.0456],
+        [ 0.0323,  0.0455, -0.0665,  ..., -0.0626, -0.0160,  0.0566],
+        [ 0.0506, -0.0468, -0.0528,  ..., -0.0003, -0.0285, -0.0096],
+        ...,
+        [ 0.0372,  0.0265,  0.0596,  ...,  0.0311,  0.0846,  0.0188],
+        [ 0.0477, -0.0709, -0.0632,  ..., -0.0881, -0.0345,  0.0711],
+        [-0.0428,  0.0646,  0.0159,  ..., -0.0352, -0.0323,  0.0123]],
+       device='cuda:0'), grad: tensor([[ 2.5984e-07, -1.8373e-05,  1.7928e-06,  ..., -3.0920e-06,
+          1.8720e-07,  6.7521e-07],
+        [-2.5973e-05, -2.6271e-05,  9.5740e-06,  ...,  1.3553e-05,
+         -4.0904e-06, -5.0426e-05],
+        [ 5.3644e-05,  4.6194e-05,  9.6560e-05,  ...,  1.4615e-04,
+          1.6866e-06,  1.5780e-05],
+        ...,
+        [ 1.3500e-05,  1.5497e-05,  4.3586e-06,  ...,  1.4015e-05,
+         -2.6748e-06,  1.8597e-05],
+        [ 1.0645e-06,  1.6496e-05,  1.2629e-05,  ...,  1.7643e-05,
+          5.4576e-07, -1.4491e-06],
+        [ 4.5560e-06,  5.5656e-06, -7.8380e-06,  ...,  5.9269e-06,
+          2.3823e-06,  9.0003e-06]], device='cuda:0')
+Epoch 60, bias, value: tensor([-0.0072, -0.0070, -0.0040, -0.0122, -0.0132, -0.0074,  0.0109,  0.0024,
+         0.0245, -0.0022], device='cuda:0'), grad: tensor([-2.7090e-05, -7.4327e-05,  1.3757e-04, -1.4317e-04,  5.0515e-06,
+        -6.3658e-05,  5.1647e-05,  4.2975e-05,  4.6194e-05,  2.4796e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 59----------------------------------------------------
+epoch 59, time 230.72, cls_loss 0.0110 cls_loss_mapping 0.0184 cls_loss_causal 0.6622 re_mapping 0.0146 re_causal 0.0414 /// teacc 98.81 lr 0.00010000
+Epoch 61, weight, value: tensor([[-0.0885,  0.0550,  0.0079,  ..., -0.0068, -0.0277, -0.0461],
+        [ 0.0324,  0.0456, -0.0669,  ..., -0.0630, -0.0160,  0.0570],
+        [ 0.0508, -0.0471, -0.0533,  ..., -0.0002, -0.0287, -0.0100],
+        ...,
+        [ 0.0377,  0.0261,  0.0600,  ...,  0.0310,  0.0851,  0.0185],
+        [ 0.0479, -0.0715, -0.0637,  ..., -0.0885, -0.0347,  0.0716],
+        [-0.0434,  0.0651,  0.0157,  ..., -0.0357, -0.0326,  0.0121]],
+       device='cuda:0'), grad: tensor([[ 2.7314e-05,  9.9912e-06,  1.5363e-05,  ...,  2.6524e-05,
+          1.9129e-06,  1.6978e-06],
+        [-7.2527e-04, -2.0707e-04,  4.4107e-06,  ...,  2.5108e-05,
+         -2.7609e-04, -3.9172e-04],
+        [ 3.7014e-05,  9.7573e-05,  5.4576e-06,  ..., -4.2057e-04,
+          2.2733e-04,  2.6393e-04],
+        ...,
+        [ 6.0499e-05,  2.2441e-05, -9.7007e-06,  ...,  3.0786e-05,
+         -3.1535e-06,  2.4706e-05],
+        [ 3.0351e-04,  2.1374e-04,  1.3137e-04,  ...,  2.3842e-04,
+          2.7180e-05,  3.8505e-05],
+        [ 6.6757e-05, -7.8738e-05, -9.3102e-05,  ...,  1.2577e-04,
+          5.9940e-06,  1.9208e-05]], device='cuda:0')
+Epoch 61, bias, value: tensor([-0.0075, -0.0071, -0.0041, -0.0120, -0.0131, -0.0066,  0.0105,  0.0023,
+         0.0243, -0.0023], device='cuda:0'), grad: tensor([ 9.1910e-05, -1.0405e-03, -3.8004e-04,  1.9932e-03,  5.9366e-05,
+        -2.1114e-03,  1.2529e-04,  1.5521e-04,  1.0223e-03,  8.7261e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 60, time 214.73, cls_loss 0.0159 cls_loss_mapping 0.0203 cls_loss_causal 0.6741 re_mapping 0.0141 re_causal 0.0397 /// teacc 98.74 lr 0.00010000
+Epoch 62, weight, value: tensor([[-0.0893,  0.0549,  0.0075,  ..., -0.0072, -0.0282, -0.0467],
+        [ 0.0321,  0.0461, -0.0673,  ..., -0.0637, -0.0163,  0.0574],
+        [ 0.0512, -0.0472, -0.0537,  ...,  0.0004, -0.0291, -0.0100],
+        ...,
+        [ 0.0383,  0.0260,  0.0603,  ...,  0.0312,  0.0861,  0.0184],
+        [ 0.0482, -0.0723, -0.0642,  ..., -0.0897, -0.0348,  0.0722],
+        [-0.0438,  0.0648,  0.0157,  ..., -0.0365, -0.0330,  0.0118]],
+       device='cuda:0'), grad: tensor([[ 1.5807e-04,  5.9557e-04,  2.4843e-04,  ...,  5.1641e-04,
+          3.1257e-04,  2.5675e-05],
+        [ 8.0967e-04,  9.8526e-05,  1.4901e-04,  ...,  5.6934e-04,
+          1.0500e-03, -6.9380e-05],
+        [-8.0681e-04,  9.9897e-05,  8.8751e-05,  ..., -4.8923e-04,
+         -8.7595e-04,  8.1003e-05],
+        ...,
+        [-1.3673e-04, -4.2439e-04, -6.8521e-04,  ..., -2.9087e-04,
+         -7.6914e-04,  1.9699e-05],
+        [-9.8467e-05,  4.9442e-05,  5.1826e-05,  ...,  5.7846e-05,
+          4.8995e-05, -1.5175e-04],
+        [ 2.8819e-05, -4.7016e-04, -7.2289e-04,  ...,  5.0277e-05,
+         -3.4904e-04,  1.3404e-05]], device='cuda:0')
+Epoch 62, bias, value: tensor([-0.0080, -0.0075, -0.0033, -0.0119, -0.0127, -0.0062,  0.0105,  0.0027,
+         0.0239, -0.0030], device='cuda:0'), grad: tensor([ 1.1158e-03,  2.0332e-03, -1.7595e-03,  8.9216e-04,  8.9884e-04,
+        -1.4858e-03, -3.5256e-05, -7.6437e-04, -1.0419e-04, -7.9298e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 61, time 214.72, cls_loss 0.0144 cls_loss_mapping 0.0211 cls_loss_causal 0.6536 re_mapping 0.0148 re_causal 0.0424 /// teacc 98.67 lr 0.00010000
+Epoch 63, weight, value: tensor([[-9.0131e-02,  5.5090e-02,  6.9804e-03,  ..., -7.2474e-03,
+         -2.9012e-02, -4.8310e-02],
+        [ 3.1593e-02,  4.6702e-02, -6.8191e-02,  ..., -6.4467e-02,
+         -1.7217e-02,  5.7917e-02],
+        [ 5.0951e-02, -4.7940e-02, -5.5087e-02,  ..., -2.7335e-05,
+         -3.0230e-02, -1.0337e-02],
+        ...,
+        [ 3.8590e-02,  2.6356e-02,  6.0410e-02,  ...,  3.1009e-02,
+          8.7287e-02,  1.8017e-02],
+        [ 4.7961e-02, -7.3184e-02, -6.5033e-02,  ..., -9.0978e-02,
+         -3.5257e-02,  7.2934e-02],
+        [-4.3146e-02,  6.5725e-02,  1.6971e-02,  ..., -3.6201e-02,
+         -3.2671e-02,  1.3038e-02]], device='cuda:0'), grad: tensor([[ 2.4870e-05, -2.6599e-05,  1.4096e-05,  ...,  1.0443e-04,
+          1.1340e-05, -5.0198e-07],
+        [ 1.2353e-05,  2.3320e-05,  3.4958e-05,  ...,  4.5359e-05,
+          1.6689e-05, -1.3737e-06],
+        [-3.5334e-04,  5.3257e-05, -3.6895e-05,  ..., -5.0354e-04,
+         -2.6274e-04,  1.0327e-05],
+        ...,
+        [ 1.6832e-04,  2.2084e-05,  8.2850e-05,  ...,  2.0289e-04,
+          1.6689e-04,  7.1488e-06],
+        [ 3.3855e-05,  4.4048e-05,  4.2647e-05,  ...,  6.0171e-05,
+          8.4713e-06,  1.3597e-05],
+        [ 1.3262e-05,  7.0333e-04, -2.0757e-05,  ...,  1.1660e-05,
+          2.0847e-05,  7.4434e-04]], device='cuda:0')
+Epoch 63, bias, value: tensor([-0.0085, -0.0074, -0.0036, -0.0118, -0.0133, -0.0059,  0.0104,  0.0024,
+         0.0233, -0.0017], device='cuda:0'), grad: tensor([ 1.4734e-04,  8.0764e-05, -9.2649e-04,  2.5702e-04, -1.7815e-03,
+         2.6107e-05,  3.0965e-05,  3.5286e-04,  1.6940e-04,  1.6422e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 62, time 214.97, cls_loss 0.0128 cls_loss_mapping 0.0191 cls_loss_causal 0.6625 re_mapping 0.0145 re_causal 0.0408 /// teacc 98.68 lr 0.00010000
+Epoch 64, weight, value: tensor([[-0.0912,  0.0551,  0.0066,  ..., -0.0071, -0.0297, -0.0492],
+        [ 0.0314,  0.0470, -0.0684,  ..., -0.0650, -0.0174,  0.0584],
+        [ 0.0521, -0.0485, -0.0546,  ...,  0.0004, -0.0294, -0.0111],
+        ...,
+        [ 0.0384,  0.0268,  0.0608,  ...,  0.0314,  0.0875,  0.0177],
+        [ 0.0481, -0.0745, -0.0653,  ..., -0.0917, -0.0349,  0.0735],
+        [-0.0430,  0.0662,  0.0172,  ..., -0.0370, -0.0326,  0.0133]],
+       device='cuda:0'), grad: tensor([[ 2.2292e-05, -1.4916e-05,  3.9265e-06,  ...,  1.7695e-06,
+          2.7493e-06,  3.4064e-05],
+        [ 8.7404e-04, -4.9174e-05,  6.4895e-06,  ...,  4.5970e-06,
+          2.9188e-06,  1.5402e-03],
+        [ 2.4706e-05,  2.4274e-05,  1.1846e-05,  ..., -7.1637e-06,
+         -2.6785e-06,  9.0957e-05],
+        ...,
+        [-2.0146e-05,  5.0031e-06, -4.6164e-05,  ..., -1.9565e-05,
+         -3.1590e-05,  4.6670e-05],
+        [-1.0118e-03,  1.3866e-05,  1.6928e-05,  ...,  6.2585e-06,
+          4.7125e-06, -1.8845e-03],
+        [ 1.2577e-05, -5.6475e-06, -3.1944e-07,  ...,  1.3590e-05,
+          5.7966e-06,  5.8338e-06]], device='cuda:0')
+Epoch 64, bias, value: tensor([-0.0085, -0.0073, -0.0031, -0.0120, -0.0138, -0.0059,  0.0108,  0.0025,
+         0.0227, -0.0014], device='cuda:0'), grad: tensor([ 3.5346e-05,  1.7958e-03,  1.1325e-04,  3.0905e-05,  8.4758e-05,
+         9.7811e-05,  4.3184e-05,  1.1034e-05, -2.2221e-03,  9.1717e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 63, time 215.05, cls_loss 0.0120 cls_loss_mapping 0.0181 cls_loss_causal 0.6824 re_mapping 0.0143 re_causal 0.0408 /// teacc 98.69 lr 0.00010000
+Epoch 65, weight, value: tensor([[-9.1802e-02,  5.5720e-02,  6.3943e-03,  ..., -7.2533e-03,
+         -3.0065e-02, -4.9806e-02],
+        [ 3.1856e-02,  4.7580e-02, -6.7240e-02,  ..., -6.4421e-02,
+         -1.6967e-02,  5.9152e-02],
+        [ 5.1922e-02, -4.8785e-02, -5.5649e-02,  ...,  6.0204e-05,
+         -3.0386e-02, -1.1354e-02],
+        ...,
+        [ 3.9207e-02,  2.6878e-02,  6.1477e-02,  ...,  3.1801e-02,
+          8.8768e-02,  1.7651e-02],
+        [ 4.8599e-02, -7.4676e-02, -6.5740e-02,  ..., -9.2264e-02,
+         -3.5223e-02,  7.4609e-02],
+        [-4.4124e-02,  6.5959e-02,  1.6824e-02,  ..., -3.7561e-02,
+         -3.3331e-02,  1.2376e-02]], device='cuda:0'), grad: tensor([[ 2.4557e-05, -1.3094e-06,  1.6481e-05,  ...,  1.3359e-05,
+          2.5824e-05,  8.9481e-06],
+        [ 4.0501e-05,  2.6807e-05,  2.1839e-04,  ...,  1.6093e-04,
+          2.0933e-04, -1.3900e-04],
+        [-3.8290e-04,  4.4167e-05, -1.8871e-04,  ..., -2.4307e-04,
+         -4.8018e-04,  2.3708e-05],
+        ...,
+        [-2.1183e-04, -7.7200e-04, -8.9359e-04,  ..., -5.5408e-04,
+         -6.1178e-04,  1.4663e-05],
+        [ 2.1279e-04,  2.2602e-04,  2.0528e-04,  ...,  1.9884e-04,
+          1.1170e-04,  2.1803e-04],
+        [ 3.2711e-04,  4.3344e-04,  5.9414e-04,  ...,  4.5490e-04,
+          5.8985e-04,  8.0764e-06]], device='cuda:0')
+Epoch 65, bias, value: tensor([-0.0084, -0.0067, -0.0030, -0.0120, -0.0140, -0.0066,  0.0108,  0.0028,
+         0.0232, -0.0021], device='cuda:0'), grad: tensor([ 9.2506e-05,  2.3997e-04, -7.3338e-04, -1.6046e-04, -3.3355e-04,
+         1.7262e-04,  2.4605e-04, -1.2217e-03,  5.3549e-04,  1.1597e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 64, time 215.02, cls_loss 0.0138 cls_loss_mapping 0.0204 cls_loss_causal 0.6667 re_mapping 0.0140 re_causal 0.0384 /// teacc 98.74 lr 0.00010000
+Epoch 66, weight, value: tensor([[-9.2671e-02,  5.6513e-02,  6.0798e-03,  ..., -6.9074e-03,
+         -3.1055e-02, -5.0347e-02],
+        [ 3.1625e-02,  4.7524e-02, -6.7843e-02,  ..., -6.5017e-02,
+         -1.7943e-02,  5.9382e-02],
+        [ 5.1893e-02, -4.9488e-02, -5.5866e-02,  ..., -2.9052e-05,
+         -3.0425e-02, -1.2488e-02],
+        ...,
+        [ 3.8996e-02,  2.6471e-02,  6.0450e-02,  ...,  3.1353e-02,
+          8.8967e-02,  1.8121e-02],
+        [ 4.8972e-02, -7.5253e-02, -6.6376e-02,  ..., -9.2968e-02,
+         -3.5481e-02,  7.5510e-02],
+        [-4.3719e-02,  6.6098e-02,  1.8009e-02,  ..., -3.7854e-02,
+         -3.2249e-02,  1.1444e-02]], device='cuda:0'), grad: tensor([[-2.1942e-06, -3.5584e-05,  2.7083e-06,  ..., -7.1749e-06,
+          3.5968e-06,  3.1162e-06],
+        [ 4.3102e-06, -5.4359e-05,  4.4674e-05,  ...,  1.1288e-05,
+          2.6315e-05, -1.3769e-04],
+        [ 1.4439e-05,  1.4715e-05,  1.8314e-05,  ...,  6.1840e-06,
+          1.5393e-05,  1.0341e-05],
+        ...,
+        [-1.0681e-03, -2.5415e-04, -1.6079e-03,  ..., -3.9673e-04,
+         -1.2474e-03,  3.2261e-06],
+        [ 3.1084e-05,  5.8919e-05,  2.8700e-05,  ...,  1.0252e-05,
+          2.0742e-05,  8.2672e-05],
+        [ 9.4461e-04,  2.2328e-04,  1.3971e-03,  ...,  3.5357e-04,
+          1.0967e-03,  2.0370e-05]], device='cuda:0')
+Epoch 66, bias, value: tensor([-0.0077, -0.0068, -0.0034, -0.0119, -0.0133, -0.0062,  0.0108,  0.0018,
+         0.0230, -0.0020], device='cuda:0'), grad: tensor([-3.3855e-05, -1.2422e-04,  4.9472e-05,  1.1826e-04,  3.6925e-05,
+         2.0236e-05, -1.0383e-04, -1.5221e-03,  1.8656e-04,  1.3733e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 65, time 214.75, cls_loss 0.0121 cls_loss_mapping 0.0171 cls_loss_causal 0.6589 re_mapping 0.0136 re_causal 0.0390 /// teacc 98.64 lr 0.00010000
+Epoch 67, weight, value: tensor([[-9.4084e-02,  5.6880e-02,  5.7173e-03,  ..., -6.5814e-03,
+         -3.1736e-02, -5.2937e-02],
+        [ 3.1793e-02,  4.7365e-02, -6.8117e-02,  ..., -6.5509e-02,
+         -1.7528e-02,  5.9585e-02],
+        [ 5.2018e-02, -4.9698e-02, -5.6268e-02,  ...,  2.7254e-05,
+         -3.0388e-02, -1.2801e-02],
+        ...,
+        [ 3.9262e-02,  2.5856e-02,  6.0914e-02,  ...,  3.1889e-02,
+          8.9248e-02,  1.7148e-02],
+        [ 4.9730e-02, -7.5219e-02, -6.6653e-02,  ..., -9.3494e-02,
+         -3.5677e-02,  7.7292e-02],
+        [-4.4559e-02,  6.6297e-02,  1.7968e-02,  ..., -3.8633e-02,
+         -3.2572e-02,  1.0745e-02]], device='cuda:0'), grad: tensor([[ 1.0110e-05,  5.8413e-05,  6.1154e-05,  ...,  6.3837e-05,
+          1.1817e-05,  7.7114e-06],
+        [ 3.6240e-05,  6.1393e-05,  1.0538e-04,  ...,  8.6427e-05,
+          4.7892e-05, -1.3351e-05],
+        [ 2.5138e-05,  7.3910e-05,  8.3506e-05,  ...,  8.3268e-05,
+          2.9832e-05,  1.3001e-05],
+        ...,
+        [-1.5104e-04,  2.5034e-04, -7.2300e-05,  ...,  1.2743e-04,
+         -2.2149e-04,  1.2837e-05],
+        [-3.8981e-05,  7.5459e-05,  2.8944e-04,  ...,  3.9721e-04,
+          8.1658e-06, -1.9267e-05],
+        [ 4.0442e-05, -8.3804e-05, -3.7849e-05,  ...,  8.3327e-05,
+          6.9618e-05,  5.8301e-06]], device='cuda:0')
+Epoch 67, bias, value: tensor([-0.0075, -0.0073, -0.0033, -0.0121, -0.0128, -0.0060,  0.0109,  0.0016,
+         0.0238, -0.0024], device='cuda:0'), grad: tensor([ 0.0014,  0.0010,  0.0012, -0.0016,  0.0020, -0.0133,  0.0007,  0.0061,
+         0.0013,  0.0013], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 66, time 214.81, cls_loss 0.0109 cls_loss_mapping 0.0158 cls_loss_causal 0.6325 re_mapping 0.0141 re_causal 0.0367 /// teacc 98.68 lr 0.00010000
+Epoch 68, weight, value: tensor([[-0.0948,  0.0571,  0.0054,  ..., -0.0066, -0.0322, -0.0537],
+        [ 0.0315,  0.0475, -0.0687,  ..., -0.0662, -0.0179,  0.0595],
+        [ 0.0517, -0.0507, -0.0574,  ..., -0.0002, -0.0313, -0.0135],
+        ...,
+        [ 0.0400,  0.0262,  0.0618,  ...,  0.0328,  0.0902,  0.0166],
+        [ 0.0500, -0.0762, -0.0673,  ..., -0.0946, -0.0359,  0.0782],
+        [-0.0453,  0.0667,  0.0180,  ..., -0.0396, -0.0330,  0.0107]],
+       device='cuda:0'), grad: tensor([[ 5.0999e-06,  1.0878e-05,  7.9423e-06,  ...,  5.9083e-06,
+          5.4576e-06,  1.9476e-05],
+        [-1.2159e-04, -2.5606e-04,  2.3693e-05,  ...,  2.5257e-05,
+         -1.9765e-04, -7.3528e-04],
+        [ 1.0765e-04,  8.5115e-05,  1.8334e-04,  ...,  2.2244e-04,
+          5.8711e-05,  1.5545e-04],
+        ...,
+        [ 3.3617e-05,  7.1824e-05,  4.7207e-05,  ...,  1.8090e-05,
+          5.4508e-05,  1.0985e-04],
+        [ 3.5107e-05,  6.9499e-05,  5.9783e-05,  ...,  6.2406e-05,
+          2.9176e-05,  1.2994e-04],
+        [ 6.3330e-06, -3.3283e-04, -2.9469e-04,  ...,  1.0379e-05,
+         -9.7394e-05,  1.5691e-05]], device='cuda:0')
+Epoch 68, bias, value: tensor([-0.0076, -0.0077, -0.0036, -0.0123, -0.0127, -0.0055,  0.0110,  0.0020,
+         0.0235, -0.0023], device='cuda:0'), grad: tensor([ 5.5939e-05, -1.4257e-03,  5.8746e-04, -4.3416e-04,  5.4789e-04,
+         1.9526e-04,  2.7561e-04,  2.7657e-04,  3.4571e-04, -4.2415e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 67, time 214.68, cls_loss 0.0116 cls_loss_mapping 0.0155 cls_loss_causal 0.6524 re_mapping 0.0135 re_causal 0.0361 /// teacc 98.79 lr 0.00010000
+Epoch 69, weight, value: tensor([[-0.0955,  0.0572,  0.0053,  ..., -0.0065, -0.0327, -0.0546],
+        [ 0.0310,  0.0479, -0.0698,  ..., -0.0665, -0.0183,  0.0598],
+        [ 0.0519, -0.0513, -0.0577,  ..., -0.0003, -0.0315, -0.0137],
+        ...,
+        [ 0.0410,  0.0269,  0.0631,  ...,  0.0333,  0.0917,  0.0165],
+        [ 0.0502, -0.0773, -0.0681,  ..., -0.0956, -0.0363,  0.0790],
+        [-0.0462,  0.0668,  0.0177,  ..., -0.0405, -0.0339,  0.0105]],
+       device='cuda:0'), grad: tensor([[ 7.1749e-06, -2.4140e-06,  1.0736e-05,  ...,  4.6194e-06,
+          1.1288e-05,  1.9241e-06],
+        [-1.1816e-03, -1.8013e-04, -1.1883e-03,  ..., -1.9178e-03,
+         -2.4033e-03, -2.1644e-06],
+        [ 9.5940e-04,  1.6081e-04,  1.0014e-03,  ...,  1.4763e-03,
+          1.8845e-03,  1.5117e-05],
+        ...,
+        [-2.2566e-04, -8.2910e-05, -4.0340e-04,  ...,  3.0547e-05,
+         -1.4603e-04, -8.6010e-05],
+        [ 5.2303e-05,  7.7665e-05,  1.3137e-04,  ...,  3.1918e-05,
+          6.0409e-05,  4.3035e-05],
+        [ 5.2273e-05, -2.7561e-04, -2.3007e-04,  ...,  2.6360e-05,
+          7.2896e-05, -1.4162e-04]], device='cuda:0')
+Epoch 69, bias, value: tensor([-0.0079, -0.0077, -0.0040, -0.0125, -0.0129, -0.0048,  0.0113,  0.0027,
+         0.0229, -0.0026], device='cuda:0'), grad: tensor([ 3.6545e-06, -4.7455e-03,  3.6755e-03,  1.1730e-03,  3.4869e-05,
+         3.3826e-05,  1.5602e-05,  2.1860e-05,  1.9765e-04, -4.0603e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 68, time 214.88, cls_loss 0.0116 cls_loss_mapping 0.0173 cls_loss_causal 0.6437 re_mapping 0.0137 re_causal 0.0377 /// teacc 98.71 lr 0.00010000
+Epoch 70, weight, value: tensor([[-9.5797e-02,  5.7788e-02,  6.6002e-03,  ..., -6.4182e-03,
+         -3.3385e-02, -5.5504e-02],
+        [ 3.1207e-02,  4.8217e-02, -6.9822e-02,  ..., -6.6095e-02,
+         -1.7887e-02,  6.0344e-02],
+        [ 5.2696e-02, -5.2102e-02, -5.7815e-02,  ..., -3.6206e-05,
+         -3.1531e-02, -1.2868e-02],
+        ...,
+        [ 4.1461e-02,  2.7217e-02,  6.3732e-02,  ...,  3.3716e-02,
+          9.2492e-02,  1.6250e-02],
+        [ 4.9684e-02, -7.7900e-02, -6.9060e-02,  ..., -9.6234e-02,
+         -3.7097e-02,  7.8802e-02],
+        [-4.6658e-02,  6.7132e-02,  1.7915e-02,  ..., -4.1135e-02,
+         -3.3683e-02,  1.0405e-02]], device='cuda:0'), grad: tensor([[ 9.0823e-06,  6.8881e-06,  4.8392e-06,  ...,  1.1874e-06,
+          5.1335e-06,  1.4916e-05],
+        [-3.1263e-05,  3.7217e-04,  1.7333e-04,  ...,  3.5577e-06,
+          1.1241e-04,  1.2107e-05],
+        [ 1.2457e-05,  2.0906e-05,  6.0610e-06,  ..., -4.5411e-06,
+          1.1958e-05,  3.3677e-05],
+        ...,
+        [-2.7686e-05,  1.4782e-04, -1.1094e-05,  ..., -2.5094e-05,
+          3.0715e-06,  7.1883e-05],
+        [-6.1691e-05, -4.5925e-05,  6.2697e-06,  ...,  2.7250e-06,
+          5.7071e-06, -3.1543e-04],
+        [ 1.9342e-05, -7.9060e-04, -3.0565e-04,  ...,  1.1012e-05,
+         -1.6642e-04, -1.9252e-04]], device='cuda:0')
+Epoch 70, bias, value: tensor([-0.0077, -0.0073, -0.0037, -0.0125, -0.0133, -0.0054,  0.0117,  0.0029,
+         0.0223, -0.0027], device='cuda:0'), grad: tensor([ 2.9817e-05,  3.5238e-04,  3.7223e-05,  1.5426e-04,  5.4985e-05,
+         2.0266e-04,  2.0432e-04,  1.4651e-04, -3.6955e-04, -8.1301e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 69, time 214.85, cls_loss 0.0095 cls_loss_mapping 0.0135 cls_loss_causal 0.6541 re_mapping 0.0128 re_causal 0.0376 /// teacc 98.77 lr 0.00010000
+Epoch 71, weight, value: tensor([[-0.0963,  0.0580,  0.0063,  ..., -0.0062, -0.0339, -0.0561],
+        [ 0.0312,  0.0485, -0.0701,  ..., -0.0665, -0.0178,  0.0605],
+        [ 0.0524, -0.0527, -0.0587,  ..., -0.0003, -0.0318, -0.0134],
+        ...,
+        [ 0.0421,  0.0278,  0.0646,  ...,  0.0343,  0.0935,  0.0161],
+        [ 0.0499, -0.0783, -0.0696,  ..., -0.0967, -0.0374,  0.0794],
+        [-0.0472,  0.0671,  0.0179,  ..., -0.0417, -0.0342,  0.0100]],
+       device='cuda:0'), grad: tensor([[ 1.6645e-05,  2.9709e-06,  1.5721e-06,  ..., -8.8755e-07,
+          7.3574e-07,  3.3349e-05],
+        [ 1.0677e-05,  5.1320e-05,  5.8971e-06,  ...,  5.7258e-06,
+          3.2261e-06,  5.8021e-07],
+        [-1.7798e-04, -5.0575e-05,  2.9951e-06,  ..., -6.8545e-05,
+         -5.2810e-05, -7.3574e-07],
+        ...,
+        [ 7.9334e-05,  2.2531e-05,  8.6129e-06,  ...,  4.7356e-05,
+          4.4137e-05,  5.7332e-06],
+        [-5.2512e-05, -3.9190e-05,  3.7197e-06,  ...,  6.9663e-06,
+          1.0571e-06, -1.8442e-04],
+        [ 6.9559e-05,  1.9467e-04,  5.0664e-06,  ...,  2.5302e-05,
+          3.6228e-07,  4.3422e-05]], device='cuda:0')
+Epoch 71, bias, value: tensor([-0.0078, -0.0073, -0.0041, -0.0124, -0.0135, -0.0054,  0.0122,  0.0036,
+         0.0223, -0.0030], device='cuda:0'), grad: tensor([-2.4676e-05,  2.2268e-04, -8.8453e-04,  3.0088e-04,  1.8954e-04,
+        -5.7125e-04,  3.5000e-04,  1.7214e-04, -2.6393e-04,  5.0831e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 70, time 215.06, cls_loss 0.0093 cls_loss_mapping 0.0134 cls_loss_causal 0.6893 re_mapping 0.0127 re_causal 0.0378 /// teacc 98.68 lr 0.00010000
+Epoch 72, weight, value: tensor([[-0.0968,  0.0581,  0.0057,  ..., -0.0063, -0.0345, -0.0565],
+        [ 0.0308,  0.0482, -0.0707,  ..., -0.0668, -0.0181,  0.0604],
+        [ 0.0522, -0.0536, -0.0594,  ..., -0.0001, -0.0323, -0.0140],
+        ...,
+        [ 0.0427,  0.0279,  0.0650,  ...,  0.0343,  0.0942,  0.0164],
+        [ 0.0501, -0.0788, -0.0703,  ..., -0.0975, -0.0377,  0.0804],
+        [-0.0472,  0.0674,  0.0182,  ..., -0.0422, -0.0345,  0.0100]],
+       device='cuda:0'), grad: tensor([[ 4.5300e-06,  3.0920e-06,  8.4564e-06,  ...,  4.6119e-06,
+          3.2689e-06,  2.2091e-06],
+        [ 7.3552e-05,  4.6372e-05,  5.6356e-05,  ...,  2.6882e-05,
+          8.0466e-05,  2.2464e-06],
+        [ 3.1686e-04,  4.9204e-05,  1.8239e-04,  ...,  1.4746e-04,
+          2.7514e-04,  1.0066e-05],
+        ...,
+        [-4.3964e-04, -1.9789e-04, -2.8872e-04,  ..., -1.5759e-04,
+         -4.6039e-04, -4.3176e-06],
+        [-1.4566e-05,  2.9057e-05,  4.1217e-05,  ...,  1.6481e-05,
+          5.4017e-06, -3.8415e-05],
+        [ 1.3411e-05,  3.8803e-05, -7.8604e-06,  ...,  1.0207e-05,
+          4.2379e-05,  3.6880e-06]], device='cuda:0')
+Epoch 72, bias, value: tensor([-0.0079, -0.0077, -0.0043, -0.0125, -0.0136, -0.0050,  0.0122,  0.0038,
+         0.0222, -0.0028], device='cuda:0'), grad: tensor([ 1.5110e-05,  1.3900e-04,  2.7275e-04,  1.4752e-05,  5.1647e-05,
+         3.8803e-05,  1.1645e-05, -6.4182e-04,  2.0236e-05,  7.8380e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 71, time 214.90, cls_loss 0.0088 cls_loss_mapping 0.0123 cls_loss_causal 0.6377 re_mapping 0.0128 re_causal 0.0374 /// teacc 98.69 lr 0.00010000
+Epoch 73, weight, value: tensor([[-0.0973,  0.0580,  0.0053,  ..., -0.0068, -0.0349, -0.0569],
+        [ 0.0307,  0.0483, -0.0717,  ..., -0.0662, -0.0185,  0.0607],
+        [ 0.0517, -0.0546, -0.0596,  ..., -0.0004, -0.0327, -0.0148],
+        ...,
+        [ 0.0430,  0.0280,  0.0649,  ...,  0.0340,  0.0946,  0.0167],
+        [ 0.0509, -0.0787, -0.0707,  ..., -0.0979, -0.0378,  0.0814],
+        [-0.0470,  0.0680,  0.0188,  ..., -0.0426, -0.0342,  0.0096]],
+       device='cuda:0'), grad: tensor([[-1.6959e-06, -6.9588e-06,  2.1346e-06,  ...,  3.5577e-07,
+         -2.5574e-06,  4.4629e-06],
+        [ 8.5175e-05,  1.6046e-04,  2.0564e-06,  ...,  1.6978e-06,
+          1.9693e-04, -3.7346e-07],
+        [-7.4506e-05, -1.5306e-04,  2.7083e-06,  ..., -1.5898e-06,
+         -1.9455e-04,  1.4551e-05],
+        ...,
+        [-1.3955e-05,  1.3366e-05, -8.7991e-06,  ..., -1.2420e-05,
+         -1.6019e-05,  7.1786e-06],
+        [-1.2589e-04,  1.0423e-05,  1.9521e-06,  ...,  1.8999e-06,
+          2.1048e-06, -1.9085e-04],
+        [ 2.0504e-05,  3.8600e-04, -2.4125e-05,  ...,  2.5108e-06,
+          7.9814e-07,  2.3639e-04]], device='cuda:0')
+Epoch 73, bias, value: tensor([-0.0082, -0.0074, -0.0051, -0.0124, -0.0140, -0.0047,  0.0123,  0.0034,
+         0.0226, -0.0023], device='cuda:0'), grad: tensor([-2.0303e-06,  4.3654e-04, -3.9864e-04,  1.0622e-04, -6.7091e-04,
+        -7.3016e-05,  2.6107e-04,  1.6972e-05, -3.4857e-04,  6.7377e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 72, time 214.92, cls_loss 0.0094 cls_loss_mapping 0.0141 cls_loss_causal 0.6511 re_mapping 0.0134 re_causal 0.0380 /// teacc 98.73 lr 0.00010000
+Epoch 74, weight, value: tensor([[-0.0983,  0.0584,  0.0049,  ..., -0.0070, -0.0359, -0.0574],
+        [ 0.0306,  0.0481, -0.0723,  ..., -0.0675, -0.0186,  0.0612],
+        [ 0.0509, -0.0547, -0.0611,  ..., -0.0013, -0.0347, -0.0150],
+        ...,
+        [ 0.0438,  0.0286,  0.0657,  ...,  0.0355,  0.0960,  0.0159],
+        [ 0.0521, -0.0795, -0.0705,  ..., -0.0981, -0.0370,  0.0824],
+        [-0.0474,  0.0675,  0.0190,  ..., -0.0428, -0.0347,  0.0088]],
+       device='cuda:0'), grad: tensor([[ 1.7704e-06, -1.7130e-04,  3.4347e-06,  ...,  1.8291e-06,
+          2.6654e-06,  2.9150e-06],
+        [-2.5239e-07,  1.7248e-06,  9.3281e-06,  ...,  3.4552e-06,
+          4.0010e-06, -8.4266e-06],
+        [ 2.2091e-06,  6.8508e-06,  5.1744e-06,  ..., -1.1176e-07,
+          3.3639e-06,  3.1777e-06],
+        ...,
+        [-5.7042e-05, -3.1382e-05, -6.9022e-05,  ..., -2.3693e-05,
+         -9.4235e-05, -1.2964e-05],
+        [ 3.2485e-06,  1.9550e-05,  1.4067e-05,  ...,  7.2531e-06,
+          3.9898e-06,  2.1979e-05],
+        [ 1.8820e-05, -6.7949e-05, -9.1553e-05,  ..., -1.7345e-05,
+         -2.4408e-05, -1.8068e-07]], device='cuda:0')
+Epoch 74, bias, value: tensor([-0.0081, -0.0078, -0.0053, -0.0130, -0.0130, -0.0046,  0.0119,  0.0041,
+         0.0227, -0.0029], device='cuda:0'), grad: tensor([-2.7108e-04,  1.2726e-05,  1.3225e-05, -2.0251e-05,  1.4985e-04,
+        -8.6606e-05,  2.7156e-04, -6.7651e-05,  8.4937e-05, -8.7440e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 73, time 214.80, cls_loss 0.0112 cls_loss_mapping 0.0172 cls_loss_causal 0.6517 re_mapping 0.0124 re_causal 0.0359 /// teacc 98.63 lr 0.00010000
+Epoch 75, weight, value: tensor([[-0.0987,  0.0589,  0.0044,  ..., -0.0071, -0.0368, -0.0576],
+        [ 0.0306,  0.0491, -0.0729,  ..., -0.0685, -0.0182,  0.0622],
+        [ 0.0515, -0.0553, -0.0617,  ..., -0.0017, -0.0348, -0.0144],
+        ...,
+        [ 0.0440,  0.0287,  0.0673,  ...,  0.0363,  0.0968,  0.0150],
+        [ 0.0518, -0.0801, -0.0711,  ..., -0.0986, -0.0376,  0.0827],
+        [-0.0471,  0.0671,  0.0186,  ..., -0.0430, -0.0351,  0.0083]],
+       device='cuda:0'), grad: tensor([[ 6.0499e-06, -2.4334e-05,  1.2964e-06,  ..., -6.8992e-06,
+          2.0172e-06,  5.1297e-06],
+        [ 2.2352e-05,  6.6683e-06,  1.9535e-05,  ...,  1.0237e-05,
+          2.8372e-05, -1.2271e-05],
+        [-4.9084e-05,  6.4969e-06,  5.5954e-06,  ..., -3.8177e-05,
+         -1.1288e-05,  1.6838e-05],
+        ...,
+        [-2.4602e-05, -8.3372e-06, -4.0442e-05,  ..., -2.9430e-07,
+         -5.0396e-05,  1.0468e-05],
+        [ 1.3985e-05,  1.1049e-05,  4.5970e-06,  ...,  3.2067e-05,
+          1.1779e-05, -3.5673e-05],
+        [ 2.5064e-05,  1.4216e-05, -8.9407e-07,  ...,  1.3143e-05,
+          8.7470e-06,  2.2203e-06]], device='cuda:0')
+Epoch 75, bias, value: tensor([-0.0077, -0.0081, -0.0051, -0.0132, -0.0128, -0.0047,  0.0120,  0.0046,
+         0.0221, -0.0031], device='cuda:0'), grad: tensor([-4.2021e-05,  2.6390e-05, -3.5286e-05, -6.6161e-05,  5.5507e-06,
+        -2.2814e-05,  3.3081e-05, -1.1891e-05,  2.6137e-05,  8.6904e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 74, time 215.15, cls_loss 0.0081 cls_loss_mapping 0.0163 cls_loss_causal 0.6193 re_mapping 0.0127 re_causal 0.0374 /// teacc 98.58 lr 0.00010000
+Epoch 76, weight, value: tensor([[-0.0992,  0.0593,  0.0043,  ..., -0.0068, -0.0376, -0.0582],
+        [ 0.0302,  0.0488, -0.0734,  ..., -0.0687, -0.0186,  0.0620],
+        [ 0.0516, -0.0554, -0.0619,  ..., -0.0014, -0.0348, -0.0150],
+        ...,
+        [ 0.0445,  0.0296,  0.0681,  ...,  0.0364,  0.0976,  0.0149],
+        [ 0.0524, -0.0804, -0.0712,  ..., -0.0990, -0.0376,  0.0838],
+        [-0.0479,  0.0670,  0.0183,  ..., -0.0439, -0.0359,  0.0081]],
+       device='cuda:0'), grad: tensor([[ 2.5127e-06,  1.1707e-06,  1.5115e-06,  ...,  5.0552e-06,
+          8.9221e-07,  6.4261e-07],
+        [ 5.8338e-06,  8.2105e-06,  9.6336e-06,  ...,  1.1720e-05,
+          6.0722e-06, -3.1460e-06],
+        [-8.7768e-06,  8.0094e-06,  3.0752e-06,  ..., -9.1419e-06,
+         -2.7604e-06,  6.5751e-06],
+        ...,
+        [-6.0536e-06,  2.2352e-07, -9.2313e-06,  ...,  3.9898e-06,
+         -1.1474e-05,  2.2482e-06],
+        [-3.7663e-06,  1.5885e-05,  5.0701e-06,  ...,  9.6709e-06,
+          8.9314e-07, -1.1735e-05],
+        [ 3.7551e-06,  3.5409e-06,  5.2433e-07,  ...,  6.8918e-06,
+          2.8927e-06,  2.6561e-06]], device='cuda:0')
+Epoch 76, bias, value: tensor([-0.0073, -0.0087, -0.0049, -0.0136, -0.0131, -0.0047,  0.0122,  0.0053,
+         0.0224, -0.0035], device='cuda:0'), grad: tensor([ 1.2010e-05,  2.3037e-05,  1.3430e-06, -2.4533e-04, -9.5218e-06,
+         1.4472e-04,  3.2067e-05,  3.6880e-06,  2.2218e-05,  1.5363e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 75, time 215.04, cls_loss 0.0077 cls_loss_mapping 0.0111 cls_loss_causal 0.6284 re_mapping 0.0125 re_causal 0.0356 /// teacc 98.72 lr 0.00010000
+Epoch 77, weight, value: tensor([[-0.1000,  0.0596,  0.0041,  ..., -0.0067, -0.0378, -0.0591],
+        [ 0.0302,  0.0487, -0.0736,  ..., -0.0685, -0.0185,  0.0622],
+        [ 0.0519, -0.0555, -0.0617,  ..., -0.0007, -0.0348, -0.0151],
+        ...,
+        [ 0.0450,  0.0297,  0.0686,  ...,  0.0366,  0.0983,  0.0147],
+        [ 0.0528, -0.0809, -0.0715,  ..., -0.0996, -0.0378,  0.0849],
+        [-0.0486,  0.0670,  0.0182,  ..., -0.0444, -0.0362,  0.0077]],
+       device='cuda:0'), grad: tensor([[ 1.3597e-05,  8.5831e-05,  7.6771e-05,  ...,  1.8671e-05,
+          1.3225e-06,  5.4538e-05],
+        [-1.8552e-06,  4.3660e-05,  4.4644e-05,  ...,  1.1042e-05,
+          2.8778e-07, -1.5333e-05],
+        [ 3.1352e-05,  6.6817e-05,  4.4495e-05,  ...,  5.2810e-05,
+          8.5309e-07,  5.9038e-05],
+        ...,
+        [ 6.7428e-07,  2.8014e-04,  2.4533e-04,  ...,  4.9211e-06,
+          2.0266e-04,  2.4870e-05],
+        [ 9.3400e-05,  2.4962e-04,  1.2136e-04,  ...,  3.4285e-04,
+          3.3341e-06,  6.4492e-05],
+        [ 2.3656e-06, -1.0786e-03, -9.6416e-04,  ...,  7.4506e-06,
+         -2.4939e-04, -3.4237e-04]], device='cuda:0')
+Epoch 77, bias, value: tensor([-0.0071, -0.0087, -0.0045, -0.0136, -0.0131, -0.0050,  0.0121,  0.0054,
+         0.0226, -0.0038], device='cuda:0'), grad: tensor([ 2.2173e-04,  7.7367e-05,  1.9455e-04,  1.1677e-04,  1.5485e-04,
+         4.3559e-04,  2.8044e-05,  4.7708e-04,  5.8079e-04, -2.2869e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 76, time 215.06, cls_loss 0.0086 cls_loss_mapping 0.0131 cls_loss_causal 0.6295 re_mapping 0.0118 re_causal 0.0340 /// teacc 98.71 lr 0.00010000
+Epoch 78, weight, value: tensor([[-0.1014,  0.0595,  0.0038,  ..., -0.0076, -0.0384, -0.0608],
+        [ 0.0306,  0.0492, -0.0739,  ..., -0.0685, -0.0180,  0.0629],
+        [ 0.0514, -0.0560, -0.0622,  ..., -0.0008, -0.0353, -0.0155],
+        ...,
+        [ 0.0450,  0.0290,  0.0685,  ...,  0.0361,  0.0984,  0.0140],
+        [ 0.0534, -0.0817, -0.0719,  ..., -0.1004, -0.0381,  0.0857],
+        [-0.0490,  0.0673,  0.0183,  ..., -0.0448, -0.0364,  0.0073]],
+       device='cuda:0'), grad: tensor([[ 3.3733e-06,  1.6987e-04,  7.4506e-05,  ...,  1.9461e-05,
+          6.8592e-07,  2.1476e-06],
+        [-3.0976e-06, -5.6297e-05, -5.1185e-06,  ...,  6.4857e-06,
+         -8.2925e-06, -5.1141e-05],
+        [ 4.2981e-07,  1.3483e-04,  7.7128e-05,  ...,  3.4481e-05,
+         -4.7274e-06,  4.4294e-06],
+        ...,
+        [ 4.0419e-06,  4.8965e-05,  2.5362e-05,  ...,  8.0839e-06,
+          2.1867e-06,  1.5810e-05],
+        [ 3.0458e-05,  2.5466e-05,  1.7241e-05,  ...,  1.0230e-05,
+          2.2314e-06,  2.3097e-06],
+        [ 5.4762e-06, -9.4509e-04, -4.3654e-04,  ..., -4.8399e-05,
+          2.1886e-07, -1.1297e-06]], device='cuda:0')
+Epoch 78, bias, value: tensor([-0.0081, -0.0081, -0.0048, -0.0131, -0.0132, -0.0044,  0.0118,  0.0050,
+         0.0223, -0.0036], device='cuda:0'), grad: tensor([ 0.0003, -0.0002,  0.0003,  0.0006,  0.0001,  0.0008, -0.0010,  0.0001,
+         0.0003, -0.0014], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 77, time 215.07, cls_loss 0.0065 cls_loss_mapping 0.0110 cls_loss_causal 0.5932 re_mapping 0.0124 re_causal 0.0350 /// teacc 98.68 lr 0.00010000
+Epoch 79, weight, value: tensor([[-0.1018,  0.0595,  0.0036,  ..., -0.0077, -0.0388, -0.0611],
+        [ 0.0309,  0.0492, -0.0742,  ..., -0.0685, -0.0179,  0.0630],
+        [ 0.0512, -0.0562, -0.0626,  ..., -0.0008, -0.0356, -0.0158],
+        ...,
+        [ 0.0452,  0.0290,  0.0689,  ...,  0.0362,  0.0988,  0.0139],
+        [ 0.0538, -0.0821, -0.0722,  ..., -0.1007, -0.0381,  0.0863],
+        [-0.0492,  0.0678,  0.0185,  ..., -0.0450, -0.0361,  0.0072]],
+       device='cuda:0'), grad: tensor([[ 1.0908e-05, -2.0973e-06,  5.8375e-06,  ...,  5.4650e-06,
+          7.1116e-06,  7.4096e-06],
+        [ 1.3697e-04,  2.5928e-05,  1.1516e-04,  ...,  7.7426e-05,
+          1.6737e-04, -3.4720e-06],
+        [-2.2009e-05,  7.7337e-06,  2.3857e-05,  ..., -3.0726e-05,
+          2.2128e-05,  6.5714e-06],
+        ...,
+        [-2.8777e-04, -6.4790e-05, -2.8253e-04,  ..., -1.6701e-04,
+         -3.4499e-04,  1.1161e-05],
+        [-1.5068e-04, -6.7353e-05,  1.2174e-05,  ...,  2.5749e-05,
+          1.6883e-05, -3.4428e-04],
+        [ 1.8820e-05, -3.0905e-05, -2.2635e-05,  ...,  1.2644e-05,
+          1.3493e-05,  3.8780e-06]], device='cuda:0')
+Epoch 79, bias, value: tensor([-0.0080, -0.0082, -0.0046, -0.0133, -0.0129, -0.0043,  0.0113,  0.0051,
+         0.0220, -0.0034], device='cuda:0'), grad: tensor([ 1.9416e-05,  2.2316e-04, -6.8247e-05,  6.2227e-04, -2.3887e-05,
+         2.4423e-05, -3.1441e-05, -4.1318e-04, -3.3879e-04, -1.4596e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 78, time 215.06, cls_loss 0.0082 cls_loss_mapping 0.0136 cls_loss_causal 0.6094 re_mapping 0.0122 re_causal 0.0341 /// teacc 98.73 lr 0.00010000
+Epoch 80, weight, value: tensor([[-0.1029,  0.0588,  0.0033,  ..., -0.0077, -0.0398, -0.0617],
+        [ 0.0308,  0.0495, -0.0745,  ..., -0.0689, -0.0183,  0.0637],
+        [ 0.0513, -0.0569, -0.0632,  ..., -0.0009, -0.0353, -0.0162],
+        ...,
+        [ 0.0459,  0.0291,  0.0693,  ...,  0.0363,  0.0995,  0.0138],
+        [ 0.0541, -0.0830, -0.0725,  ..., -0.1007, -0.0383,  0.0867],
+        [-0.0497,  0.0686,  0.0186,  ..., -0.0453, -0.0365,  0.0066]],
+       device='cuda:0'), grad: tensor([[ 3.9518e-05,  2.4036e-05,  1.4640e-06,  ...,  9.6411e-06,
+          6.2212e-06,  6.0737e-05],
+        [-3.8934e-04, -5.1737e-04,  3.4347e-06,  ...,  2.1234e-06,
+         -6.8665e-05, -7.3814e-04],
+        [ 5.3376e-05,  9.6500e-05,  3.1516e-06,  ..., -5.4657e-05,
+          1.7658e-05,  1.6117e-04],
+        ...,
+        [ 1.2904e-05,  2.7478e-05, -8.4490e-06,  ...,  1.9819e-06,
+         -9.1568e-06,  3.7789e-05],
+        [ 1.9884e-04,  3.0684e-04,  6.5342e-06,  ...,  2.3693e-05,
+          3.8415e-05,  3.5667e-04],
+        [ 1.1601e-05, -5.4576e-06, -1.9029e-05,  ...,  5.1707e-06,
+         -2.7902e-06,  1.9297e-05]], device='cuda:0')
+Epoch 80, bias, value: tensor([-0.0088, -0.0082, -0.0047, -0.0139, -0.0128, -0.0042,  0.0113,  0.0055,
+         0.0219, -0.0030], device='cuda:0'), grad: tensor([ 1.0753e-04, -1.1368e-03,  5.2989e-05,  7.7009e-05,  3.6955e-05,
+         5.7489e-05,  5.0038e-05,  6.5029e-05,  6.8188e-04,  9.3058e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 79, time 214.88, cls_loss 0.0094 cls_loss_mapping 0.0140 cls_loss_causal 0.6520 re_mapping 0.0118 re_causal 0.0348 /// teacc 98.73 lr 0.00010000
+Epoch 81, weight, value: tensor([[-0.1040,  0.0592,  0.0041,  ..., -0.0080, -0.0406, -0.0625],
+        [ 0.0310,  0.0501, -0.0745,  ..., -0.0691, -0.0181,  0.0646],
+        [ 0.0518, -0.0576, -0.0632,  ..., -0.0005, -0.0348, -0.0166],
+        ...,
+        [ 0.0457,  0.0286,  0.0693,  ...,  0.0363,  0.0995,  0.0135],
+        [ 0.0543, -0.0841, -0.0726,  ..., -0.1011, -0.0386,  0.0872],
+        [-0.0496,  0.0691,  0.0188,  ..., -0.0457, -0.0366,  0.0063]],
+       device='cuda:0'), grad: tensor([[ 1.8388e-05, -2.3901e-04,  1.1906e-05,  ..., -2.2739e-05,
+          1.0930e-05,  3.7216e-06],
+        [ 1.7118e-04,  2.5302e-05,  3.5912e-05,  ...,  7.3254e-05,
+          1.4246e-04, -3.3509e-06],
+        [-1.8561e-04,  4.7117e-05,  1.8284e-05,  ..., -6.1691e-05,
+         -9.3818e-05, -1.2647e-06],
+        ...,
+        [-1.4842e-04, -1.5080e-04, -2.8896e-04,  ..., -9.1717e-06,
+         -3.4404e-04,  3.0193e-06],
+        [ 8.7619e-06,  1.9863e-05,  1.0245e-05,  ...,  7.4469e-06,
+          4.5635e-06,  2.1663e-06],
+        [ 9.6977e-05,  2.1291e-04,  1.5986e-04,  ...,  1.6496e-05,
+          2.3055e-04,  8.6939e-07]], device='cuda:0')
+Epoch 81, bias, value: tensor([-0.0085, -0.0078, -0.0045, -0.0132, -0.0124, -0.0051,  0.0114,  0.0050,
+         0.0213, -0.0028], device='cuda:0'), grad: tensor([-4.6968e-04,  3.0351e-04, -2.3174e-04,  6.3837e-05,  5.5134e-05,
+         3.3706e-05,  5.2840e-05, -3.6907e-04,  5.3585e-05,  5.0783e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 80----------------------------------------------------
+epoch 80, time 231.50, cls_loss 0.0073 cls_loss_mapping 0.0132 cls_loss_causal 0.6114 re_mapping 0.0116 re_causal 0.0325 /// teacc 98.84 lr 0.00010000
+Epoch 82, weight, value: tensor([[-0.1048,  0.0603,  0.0038,  ..., -0.0067, -0.0416, -0.0629],
+        [ 0.0310,  0.0507, -0.0746,  ..., -0.0695, -0.0178,  0.0646],
+        [ 0.0519, -0.0581, -0.0635,  ..., -0.0003, -0.0346, -0.0173],
+        ...,
+        [ 0.0457,  0.0279,  0.0695,  ...,  0.0364,  0.0995,  0.0129],
+        [ 0.0553, -0.0842, -0.0728,  ..., -0.1016, -0.0384,  0.0888],
+        [-0.0501,  0.0693,  0.0190,  ..., -0.0461, -0.0367,  0.0059]],
+       device='cuda:0'), grad: tensor([[ 3.1590e-06, -3.9823e-06,  6.5304e-06,  ...,  4.0047e-06,
+          7.3668e-07,  1.3625e-06],
+        [ 1.7695e-08, -2.5347e-05,  1.2204e-05,  ...,  7.4841e-06,
+          3.0827e-07, -3.9965e-05],
+        [ 5.2452e-05,  5.2713e-06,  1.0842e-04,  ...,  6.7115e-05,
+          9.2909e-06,  4.7795e-06],
+        ...,
+        [ 1.4257e-04,  1.1273e-05,  2.9922e-04,  ...,  1.8549e-04,
+          1.8895e-05,  1.2405e-05],
+        [ 6.8098e-06,  4.8913e-06,  1.5274e-05,  ...,  9.0152e-06,
+          1.8422e-06,  3.0454e-06],
+        [ 1.9856e-06,  4.7311e-06, -7.1991e-07,  ...,  2.2128e-06,
+          3.5996e-07,  7.2643e-06]], device='cuda:0')
+Epoch 82, bias, value: tensor([-0.0077, -0.0080, -0.0045, -0.0139, -0.0118, -0.0051,  0.0107,  0.0047,
+         0.0220, -0.0028], device='cuda:0'), grad: tensor([ 7.5623e-07, -6.3598e-05,  1.2046e-04, -4.4727e-04,  1.1146e-05,
+         7.3090e-06,  2.5034e-06,  3.2616e-04,  2.5824e-05,  1.6734e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 81, time 215.03, cls_loss 0.0090 cls_loss_mapping 0.0148 cls_loss_causal 0.6320 re_mapping 0.0121 re_causal 0.0328 /// teacc 98.64 lr 0.00010000
+Epoch 83, weight, value: tensor([[-0.1059,  0.0606,  0.0035,  ..., -0.0072, -0.0426, -0.0637],
+        [ 0.0301,  0.0507, -0.0759,  ..., -0.0701, -0.0189,  0.0645],
+        [ 0.0523, -0.0585, -0.0638,  ...,  0.0003, -0.0342, -0.0175],
+        ...,
+        [ 0.0467,  0.0281,  0.0705,  ...,  0.0367,  0.1007,  0.0132],
+        [ 0.0557, -0.0846, -0.0732,  ..., -0.1025, -0.0386,  0.0898],
+        [-0.0506,  0.0698,  0.0193,  ..., -0.0468, -0.0371,  0.0057]],
+       device='cuda:0'), grad: tensor([[ 1.6084e-06,  5.5833e-07,  1.6587e-06,  ...,  1.0571e-06,
+          9.4017e-07,  2.4252e-06],
+        [-5.2869e-05, -6.4015e-05,  3.5539e-06,  ...,  6.1914e-06,
+          3.9786e-06, -9.9599e-05],
+        [ 4.4155e-04,  1.6719e-05,  4.2176e-04,  ...,  3.3236e-04,
+          7.4530e-04,  1.1578e-05],
+        ...,
+        [-4.5013e-04,  7.9814e-07, -4.3225e-04,  ..., -3.4308e-04,
+         -7.6675e-04,  1.2226e-05],
+        [ 1.2293e-05,  2.6748e-05,  4.1202e-06,  ...,  4.9435e-06,
+          1.5134e-06,  2.1458e-05],
+        [ 1.0692e-05,  1.7643e-05,  2.0981e-05,  ...,  1.8179e-05,
+          4.2021e-06,  1.5825e-05]], device='cuda:0')
+Epoch 83, bias, value: tensor([-0.0076, -0.0090, -0.0040, -0.0142, -0.0122, -0.0054,  0.0110,  0.0053,
+         0.0221, -0.0027], device='cuda:0'), grad: tensor([ 1.0870e-05, -1.7822e-04,  7.2670e-04, -3.3200e-05, -1.4231e-05,
+         1.8582e-05,  5.2392e-05, -7.1335e-04,  6.9857e-05,  6.0618e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 82, time 214.93, cls_loss 0.0071 cls_loss_mapping 0.0120 cls_loss_causal 0.5977 re_mapping 0.0121 re_causal 0.0341 /// teacc 98.60 lr 0.00010000
+Epoch 84, weight, value: tensor([[-0.1066,  0.0606,  0.0031,  ..., -0.0074, -0.0433, -0.0643],
+        [ 0.0301,  0.0508, -0.0760,  ..., -0.0704, -0.0190,  0.0650],
+        [ 0.0518, -0.0593, -0.0648,  ..., -0.0004, -0.0349, -0.0179],
+        ...,
+        [ 0.0476,  0.0283,  0.0713,  ...,  0.0375,  0.1018,  0.0131],
+        [ 0.0559, -0.0852, -0.0739,  ..., -0.1033, -0.0389,  0.0902],
+        [-0.0514,  0.0696,  0.0192,  ..., -0.0475, -0.0379,  0.0051]],
+       device='cuda:0'), grad: tensor([[-6.8219e-07, -3.4831e-06,  3.3174e-06,  ...,  3.6787e-06,
+         -7.4832e-07,  1.6550e-06],
+        [ 4.0978e-06,  2.4572e-05,  4.0904e-06,  ...,  4.7423e-06,
+          3.0808e-06,  4.7265e-07],
+        [-4.0621e-05, -3.2216e-05, -6.7234e-05,  ..., -2.6727e-04,
+         -2.8342e-05,  1.2971e-05],
+        ...,
+        [ 3.4958e-05,  3.7730e-05,  2.6107e-05,  ...,  2.5898e-05,
+          2.0906e-05,  1.8030e-05],
+        [-2.3469e-05,  1.3851e-05,  7.7114e-06,  ...,  1.4886e-05,
+         -2.5295e-06, -2.8104e-05],
+        [ 2.0340e-05, -5.9545e-05, -6.0260e-05,  ...,  7.2718e-06,
+         -1.0282e-06,  2.8521e-05]], device='cuda:0')
+Epoch 84, bias, value: tensor([-0.0080, -0.0089, -0.0048, -0.0142, -0.0116, -0.0050,  0.0114,  0.0059,
+         0.0218, -0.0032], device='cuda:0'), grad: tensor([ 5.4426e-06,  1.0514e-04, -3.8910e-04,  4.1866e-04, -2.3544e-04,
+        -1.5521e-04,  8.7619e-05,  1.4770e-04,  3.7938e-05, -2.2978e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 83, time 214.94, cls_loss 0.0094 cls_loss_mapping 0.0134 cls_loss_causal 0.6151 re_mapping 0.0117 re_causal 0.0323 /// teacc 98.73 lr 0.00010000
+Epoch 85, weight, value: tensor([[-0.1078,  0.0607,  0.0026,  ..., -0.0077, -0.0442, -0.0652],
+        [ 0.0303,  0.0517, -0.0758,  ..., -0.0712, -0.0185,  0.0659],
+        [ 0.0513, -0.0604, -0.0666,  ..., -0.0010, -0.0357, -0.0180],
+        ...,
+        [ 0.0482,  0.0282,  0.0719,  ...,  0.0380,  0.1030,  0.0122],
+        [ 0.0565, -0.0857, -0.0747,  ..., -0.1040, -0.0394,  0.0910],
+        [-0.0522,  0.0696,  0.0194,  ..., -0.0480, -0.0386,  0.0047]],
+       device='cuda:0'), grad: tensor([[ 5.7757e-05,  1.9491e-05,  3.0413e-05,  ...,  2.0251e-05,
+          3.5256e-05,  3.5018e-05],
+        [ 2.1338e-04,  3.8177e-05,  1.3685e-04,  ...,  3.2216e-05,
+          1.5676e-04,  1.3125e-04],
+        [ 1.4150e-04,  2.8938e-05,  3.8475e-05,  ..., -6.1810e-05,
+          6.5446e-05,  1.7953e-04],
+        ...,
+        [ 9.8228e-04,  1.5390e-04,  6.8665e-04,  ...,  1.4973e-04,
+          7.5817e-04,  5.7554e-04],
+        [-2.8276e-04, -1.9968e-04,  1.3173e-04,  ..., -3.3468e-05,
+          2.9624e-05, -3.9721e-04],
+        [-1.7071e-03, -1.9598e-04, -1.2560e-03,  ..., -1.8954e-04,
+         -1.3876e-03, -9.5081e-04]], device='cuda:0')
+Epoch 85, bias, value: tensor([-0.0083, -0.0087, -0.0055, -0.0141, -0.0108, -0.0045,  0.0107,  0.0058,
+         0.0220, -0.0035], device='cuda:0'), grad: tensor([ 1.1903e-04,  4.8351e-04,  1.7512e-04,  4.4727e-04,  4.5013e-04,
+         1.0210e-04,  4.0084e-05,  2.4204e-03, -3.5137e-05, -4.2000e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 84, time 214.85, cls_loss 0.0105 cls_loss_mapping 0.0155 cls_loss_causal 0.5995 re_mapping 0.0115 re_causal 0.0320 /// teacc 98.80 lr 0.00010000
+Epoch 86, weight, value: tensor([[-0.1090,  0.0602,  0.0016,  ..., -0.0082, -0.0454, -0.0657],
+        [ 0.0304,  0.0512, -0.0759,  ..., -0.0718, -0.0185,  0.0667],
+        [ 0.0512, -0.0596, -0.0673,  ..., -0.0010, -0.0360, -0.0180],
+        ...,
+        [ 0.0483,  0.0282,  0.0720,  ...,  0.0373,  0.1035,  0.0121],
+        [ 0.0575, -0.0858, -0.0746,  ..., -0.1044, -0.0397,  0.0920],
+        [-0.0523,  0.0714,  0.0199,  ..., -0.0488, -0.0387,  0.0060]],
+       device='cuda:0'), grad: tensor([[ 2.9206e-06, -2.2918e-05,  2.4419e-06,  ..., -9.3430e-06,
+          2.2966e-06,  1.0384e-06],
+        [ 1.4625e-05, -5.1931e-06,  2.2098e-05,  ...,  1.3784e-05,
+          2.2471e-05, -3.8028e-05],
+        [ 4.8423e-04,  1.9407e-04,  3.6526e-04,  ...,  2.5272e-04,
+          3.6240e-04,  2.3633e-05],
+        ...,
+        [-5.7793e-04, -1.8823e-04, -4.3368e-04,  ..., -2.9159e-04,
+         -4.4107e-04,  1.3709e-06],
+        [ 1.6585e-05,  1.1787e-05,  1.5542e-05,  ...,  9.7305e-06,
+          1.3366e-05,  2.3004e-06],
+        [ 8.4192e-06,  4.3869e-05, -2.0452e-06,  ...,  5.8748e-06,
+          7.3276e-06,  2.8741e-06]], device='cuda:0')
+Epoch 86, bias, value: tensor([-0.0091, -0.0089, -0.0049, -0.0137, -0.0126, -0.0051,  0.0102,  0.0055,
+         0.0224, -0.0015], device='cuda:0'), grad: tensor([-5.1767e-05, -1.0192e-05,  8.5545e-04,  4.3988e-05, -1.6224e-04,
+         1.3627e-05,  4.8488e-05, -8.7070e-04,  3.9846e-05,  9.3102e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 85, time 214.78, cls_loss 0.0070 cls_loss_mapping 0.0097 cls_loss_causal 0.6229 re_mapping 0.0112 re_causal 0.0327 /// teacc 98.78 lr 0.00010000
+Epoch 87, weight, value: tensor([[-0.1096,  0.0611,  0.0017,  ..., -0.0063, -0.0460, -0.0662],
+        [ 0.0306,  0.0514, -0.0765,  ..., -0.0722, -0.0183,  0.0673],
+        [ 0.0511, -0.0604, -0.0674,  ..., -0.0010, -0.0360, -0.0187],
+        ...,
+        [ 0.0485,  0.0281,  0.0722,  ...,  0.0371,  0.1039,  0.0121],
+        [ 0.0576, -0.0864, -0.0753,  ..., -0.1052, -0.0400,  0.0926],
+        [-0.0526,  0.0712,  0.0195,  ..., -0.0495, -0.0394,  0.0055]],
+       device='cuda:0'), grad: tensor([[ 2.5835e-06, -2.2948e-04,  9.7603e-07,  ...,  1.4529e-06,
+          9.3691e-07, -5.4359e-05],
+        [ 4.9127e-07,  3.9041e-06,  3.2205e-06,  ...,  2.8778e-06,
+          1.4752e-06, -9.0823e-06],
+        [-4.5925e-05, -1.2718e-05,  1.2601e-06,  ..., -3.4422e-05,
+         -1.8448e-05,  3.3267e-06],
+        ...,
+        [ 4.0978e-06,  1.7397e-06, -1.1154e-05,  ...,  6.2324e-06,
+         -4.0047e-07,  3.8594e-06],
+        [ 2.6450e-06,  2.8700e-05,  1.5618e-06,  ...,  7.6666e-06,
+          3.2764e-06, -5.9940e-06],
+        [ 6.6571e-06,  1.9744e-05,  8.4415e-06,  ...,  4.5523e-06,
+          4.9062e-06,  9.8348e-06]], device='cuda:0')
+Epoch 87, bias, value: tensor([-0.0078, -0.0087, -0.0052, -0.0137, -0.0126, -0.0050,  0.0100,  0.0053,
+         0.0220, -0.0018], device='cuda:0'), grad: tensor([-3.7336e-04,  6.9067e-06, -1.7571e-04,  3.3140e-05,  2.7597e-05,
+         3.4451e-05,  3.0375e-04,  2.4885e-05,  6.9499e-05,  4.8488e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 86, time 215.13, cls_loss 0.0069 cls_loss_mapping 0.0112 cls_loss_causal 0.5931 re_mapping 0.0111 re_causal 0.0319 /// teacc 98.79 lr 0.00010000
+Epoch 88, weight, value: tensor([[-0.1110,  0.0609,  0.0012,  ..., -0.0070, -0.0467, -0.0677],
+        [ 0.0304,  0.0517, -0.0770,  ..., -0.0725, -0.0183,  0.0678],
+        [ 0.0513, -0.0608, -0.0678,  ..., -0.0010, -0.0362, -0.0190],
+        ...,
+        [ 0.0490,  0.0282,  0.0732,  ...,  0.0376,  0.1049,  0.0122],
+        [ 0.0578, -0.0871, -0.0760,  ..., -0.1062, -0.0404,  0.0931],
+        [-0.0529,  0.0712,  0.0191,  ..., -0.0513, -0.0401,  0.0053]],
+       device='cuda:0'), grad: tensor([[ 6.6459e-06,  6.9151e-07,  3.9376e-06,  ...,  2.9895e-06,
+          1.4147e-06,  3.9637e-06],
+        [-3.6974e-06, -4.7944e-06,  1.1250e-06,  ...,  1.3970e-06,
+         -1.5227e-06, -8.6203e-06],
+        [ 5.8621e-05,  3.1888e-06,  3.7640e-05,  ...,  1.1116e-05,
+         -8.9183e-06,  5.1320e-05],
+        ...,
+        [ 4.4882e-05, -5.3504e-07,  1.5810e-05,  ...,  2.2426e-05,
+          1.6838e-05,  1.5289e-05],
+        [-1.4496e-04,  4.4294e-06, -7.9811e-05,  ..., -4.8429e-05,
+         -1.8120e-05, -8.0109e-05],
+        [ 2.3674e-06,  1.0204e-04,  1.8075e-05,  ...,  8.6203e-06,
+          2.4904e-06,  1.2374e-04]], device='cuda:0')
+Epoch 88, bias, value: tensor([-0.0082, -0.0083, -0.0053, -0.0131, -0.0128, -0.0052,  0.0101,  0.0057,
+         0.0217, -0.0021], device='cuda:0'), grad: tensor([ 1.4171e-05, -1.2368e-05,  1.0520e-04,  6.8784e-05, -1.9395e-04,
+        -3.0071e-05, -1.6600e-05,  7.5579e-05, -2.1935e-04,  2.0790e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 87, time 215.02, cls_loss 0.0071 cls_loss_mapping 0.0099 cls_loss_causal 0.6009 re_mapping 0.0112 re_causal 0.0325 /// teacc 98.74 lr 0.00010000
+Epoch 89, weight, value: tensor([[-0.1122,  0.0605,  0.0008,  ..., -0.0070, -0.0472, -0.0687],
+        [ 0.0300,  0.0521, -0.0774,  ..., -0.0730, -0.0185,  0.0684],
+        [ 0.0514, -0.0611, -0.0679,  ..., -0.0008, -0.0360, -0.0199],
+        ...,
+        [ 0.0497,  0.0279,  0.0733,  ...,  0.0377,  0.1055,  0.0125],
+        [ 0.0580, -0.0878, -0.0760,  ..., -0.1073, -0.0406,  0.0938],
+        [-0.0536,  0.0721,  0.0195,  ..., -0.0518, -0.0403,  0.0048]],
+       device='cuda:0'), grad: tensor([[-1.0091e-04, -1.4603e-04,  6.1654e-06,  ...,  2.0400e-05,
+          6.4634e-07, -6.3241e-05],
+        [-6.7711e-05, -8.5115e-05, -5.1647e-05,  ...,  1.5646e-05,
+         -6.6340e-05, -1.2910e-04],
+        [ 1.9744e-05,  3.2157e-05,  3.9369e-05,  ...,  9.8169e-05,
+          2.1264e-05,  1.0058e-05],
+        ...,
+        [-1.3225e-05,  1.1623e-05, -2.1383e-05,  ..., -2.3291e-05,
+         -2.3827e-05,  1.9863e-05],
+        [ 1.4269e-04,  5.3740e-04,  3.9649e-04,  ...,  6.0177e-04,
+          3.9972e-06,  4.5776e-04],
+        [ 5.6028e-05,  9.5248e-05,  4.8161e-05,  ...,  1.7807e-05,
+          5.2005e-05,  1.0008e-04]], device='cuda:0')
+Epoch 89, bias, value: tensor([-0.0089, -0.0081, -0.0054, -0.0130, -0.0135, -0.0049,  0.0104,  0.0059,
+         0.0212, -0.0015], device='cuda:0'), grad: tensor([-3.4761e-04, -1.8466e-04,  1.4138e-04, -1.5907e-03,  3.0851e-04,
+        -9.8133e-04,  5.6458e-04,  3.3211e-06,  1.8568e-03,  2.3007e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 88, time 214.74, cls_loss 0.0096 cls_loss_mapping 0.0159 cls_loss_causal 0.6375 re_mapping 0.0112 re_causal 0.0314 /// teacc 98.64 lr 0.00010000
+Epoch 90, weight, value: tensor([[-0.1131,  0.0606,  0.0001,  ..., -0.0071, -0.0489, -0.0697],
+        [ 0.0307,  0.0518, -0.0776,  ..., -0.0732, -0.0181,  0.0690],
+        [ 0.0517, -0.0613, -0.0675,  ..., -0.0002, -0.0365, -0.0200],
+        ...,
+        [ 0.0500,  0.0289,  0.0748,  ...,  0.0378,  0.1071,  0.0119],
+        [ 0.0583, -0.0885, -0.0767,  ..., -0.1080, -0.0408,  0.0946],
+        [-0.0546,  0.0717,  0.0185,  ..., -0.0524, -0.0412,  0.0044]],
+       device='cuda:0'), grad: tensor([[ 4.6268e-06,  2.9970e-06,  6.0759e-06,  ...,  3.5577e-06,
+          6.2920e-06,  2.6431e-06],
+        [-2.1681e-06,  2.6360e-05,  9.0152e-06,  ...,  7.6517e-06,
+          7.5027e-06, -1.9427e-06],
+        [ 4.7356e-05,  2.1979e-05,  3.4362e-05,  ...,  8.0988e-06,
+          2.9147e-05,  1.3880e-05],
+        ...,
+        [-8.4400e-05,  2.0459e-05, -4.8041e-05,  ..., -9.5069e-06,
+         -7.4983e-05,  2.2307e-05],
+        [ 1.5527e-05,  2.5302e-05,  2.4423e-05,  ...,  4.7266e-05,
+          6.2473e-06,  2.2456e-05],
+        [ 9.5814e-06,  6.6876e-05,  2.3529e-05,  ...,  1.5691e-05,
+          1.3337e-05,  4.9978e-05]], device='cuda:0')
+Epoch 90, bias, value: tensor([-0.0091, -0.0080, -0.0047, -0.0130, -0.0133, -0.0050,  0.0103,  0.0066,
+         0.0209, -0.0025], device='cuda:0'), grad: tensor([ 1.9252e-05,  9.8288e-05,  9.6440e-05, -3.3736e-04, -5.9843e-04,
+         3.7432e-04,  1.1325e-05,  8.4192e-06,  9.2387e-05,  2.3401e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 89, time 215.06, cls_loss 0.0063 cls_loss_mapping 0.0101 cls_loss_causal 0.5909 re_mapping 0.0110 re_causal 0.0315 /// teacc 98.71 lr 0.00010000
+Epoch 91, weight, value: tensor([[-1.1349e-01,  6.1119e-02, -8.3829e-05,  ..., -6.9841e-03,
+         -4.9288e-02, -7.0300e-02],
+        [ 3.0311e-02,  5.1560e-02, -7.8058e-02,  ..., -7.3620e-02,
+         -1.8435e-02,  6.8914e-02],
+        [ 5.1805e-02, -6.1402e-02, -6.8099e-02,  ..., -2.2289e-04,
+         -3.6480e-02, -2.0132e-02],
+        ...,
+        [ 5.0269e-02,  2.8600e-02,  7.5160e-02,  ...,  3.8152e-02,
+          1.0761e-01,  1.1717e-02],
+        [ 5.8803e-02, -8.8817e-02, -7.6880e-02,  ..., -1.0861e-01,
+         -4.0962e-02,  9.5204e-02],
+        [-5.4935e-02,  7.1068e-02,  1.8568e-02,  ..., -5.2845e-02,
+         -4.1878e-02,  3.8089e-03]], device='cuda:0'), grad: tensor([[ 3.4869e-06,  1.1558e-06,  1.3234e-06,  ...,  1.0999e-06,
+          1.2405e-06,  1.8319e-06],
+        [ 1.8790e-05, -3.5372e-06,  1.9401e-05,  ...,  2.7437e-06,
+         -2.6468e-06, -7.0751e-05],
+        [-3.4541e-05, -1.2420e-05,  9.8944e-06,  ...,  3.2037e-07,
+          2.0757e-05,  4.0591e-05],
+        ...,
+        [-4.0174e-05,  3.3323e-06, -4.1008e-05,  ..., -8.3521e-06,
+         -4.3660e-05,  1.0036e-05],
+        [ 2.8595e-05,  1.5408e-05,  5.5544e-06,  ...,  2.8573e-06,
+          4.0159e-06,  5.6699e-06],
+        [ 1.2010e-05,  3.2842e-05, -3.6741e-07,  ...,  3.8445e-06,
+          4.5784e-06,  4.4554e-05]], device='cuda:0')
+Epoch 91, bias, value: tensor([-0.0087, -0.0086, -0.0046, -0.0134, -0.0122, -0.0044,  0.0107,  0.0065,
+         0.0207, -0.0034], device='cuda:0'), grad: tensor([ 4.4167e-05, -1.1420e-04, -4.1533e-04,  1.2651e-05, -6.1452e-05,
+         1.1809e-05,  3.7905e-06, -3.2455e-05,  3.5310e-04,  1.9801e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 90, time 215.07, cls_loss 0.0068 cls_loss_mapping 0.0091 cls_loss_causal 0.6113 re_mapping 0.0107 re_causal 0.0312 /// teacc 98.74 lr 0.00010000
+Epoch 92, weight, value: tensor([[-0.1140,  0.0608, -0.0003,  ..., -0.0070, -0.0498, -0.0708],
+        [ 0.0310,  0.0524, -0.0776,  ..., -0.0743, -0.0181,  0.0703],
+        [ 0.0525, -0.0617, -0.0687,  ..., -0.0002, -0.0361, -0.0207],
+        ...,
+        [ 0.0496,  0.0279,  0.0752,  ...,  0.0386,  0.1075,  0.0105],
+        [ 0.0595, -0.0892, -0.0773,  ..., -0.1091, -0.0412,  0.0962],
+        [-0.0553,  0.0717,  0.0191,  ..., -0.0533, -0.0418,  0.0036]],
+       device='cuda:0'), grad: tensor([[ 8.6278e-06, -3.7644e-06,  5.3942e-06,  ...,  2.9095e-06,
+          9.5442e-06,  2.0163e-07],
+        [ 1.3247e-05,  1.8058e-06,  8.7246e-06,  ...,  7.8827e-06,
+          1.5378e-05, -5.2974e-06],
+        [-1.5616e-04, -1.7405e-05, -2.9355e-05,  ..., -5.8323e-05,
+         -1.4293e-04,  1.7276e-06],
+        ...,
+        [ 3.8028e-05,  1.4892e-06, -1.7956e-05,  ...,  1.9357e-05,
+          2.3782e-05,  3.6461e-07],
+        [ 1.0878e-05,  2.0415e-06,  5.9567e-06,  ...,  6.8769e-06,
+          1.5408e-05, -2.8387e-06],
+        [ 2.2486e-05,  1.0312e-05,  2.0593e-05,  ...,  6.3367e-06,
+          1.9327e-05,  8.4564e-07]], device='cuda:0')
+Epoch 92, bias, value: tensor([-0.0091, -0.0081, -0.0039, -0.0140, -0.0126, -0.0042,  0.0104,  0.0059,
+         0.0213, -0.0030], device='cuda:0'), grad: tensor([ 1.4238e-05,  3.3885e-05, -3.7384e-04,  9.1970e-05,  1.2100e-05,
+         2.2724e-05,  4.1574e-06,  9.9957e-05,  3.6895e-05,  5.7667e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 91, time 215.05, cls_loss 0.0056 cls_loss_mapping 0.0104 cls_loss_causal 0.5917 re_mapping 0.0102 re_causal 0.0309 /// teacc 98.78 lr 0.00010000
+Epoch 93, weight, value: tensor([[-1.1490e-01,  6.1446e-02, -4.2594e-04,  ..., -7.0450e-03,
+         -5.0205e-02, -7.1270e-02],
+        [ 3.0594e-02,  5.2816e-02, -7.7803e-02,  ..., -7.4437e-02,
+         -1.8102e-02,  7.0136e-02],
+        [ 5.3685e-02, -6.2480e-02, -6.8219e-02,  ...,  9.7826e-05,
+         -3.5198e-02, -2.0515e-02],
+        ...,
+        [ 4.9382e-02,  2.7617e-02,  7.5143e-02,  ...,  3.8585e-02,
+          1.0728e-01,  1.0451e-02],
+        [ 5.9562e-02, -9.0459e-02, -7.7996e-02,  ..., -1.0960e-01,
+         -4.1483e-02,  9.6639e-02],
+        [-5.5637e-02,  7.1233e-02,  1.9046e-02,  ..., -5.3717e-02,
+         -4.2198e-02,  3.2040e-03]], device='cuda:0'), grad: tensor([[ 5.9232e-07, -2.3985e-04,  4.6939e-07,  ...,  5.6345e-08,
+          4.8243e-07,  5.3924e-07],
+        [ 6.1274e-05,  3.0994e-06,  5.2094e-05,  ...,  1.4968e-05,
+          6.3837e-05,  1.2718e-05],
+        [ 9.2015e-06,  5.9158e-06,  7.1935e-06,  ...,  1.9930e-06,
+          8.5086e-06,  2.4308e-06],
+        ...,
+        [-7.8797e-05, -2.2165e-06, -6.8724e-05,  ..., -1.9431e-05,
+         -8.3387e-05, -1.6034e-05],
+        [-1.5693e-07,  1.8682e-06,  2.0862e-06,  ...,  7.6182e-07,
+          1.8161e-06, -1.5432e-06],
+        [ 5.8897e-06,  2.3949e-04,  4.0010e-06,  ...,  1.5013e-06,
+          5.6513e-06,  2.2966e-06]], device='cuda:0')
+Epoch 93, bias, value: tensor([-0.0088, -0.0086, -0.0030, -0.0142, -0.0123, -0.0036,  0.0105,  0.0057,
+         0.0207, -0.0035], device='cuda:0'), grad: tensor([-3.8481e-04,  9.8169e-05,  3.5435e-05,  4.2804e-06, -2.6114e-06,
+         3.6895e-05, -1.0693e-04, -1.1885e-04,  2.9609e-05,  4.0841e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 92, time 214.53, cls_loss 0.0078 cls_loss_mapping 0.0117 cls_loss_causal 0.6235 re_mapping 0.0104 re_causal 0.0310 /// teacc 98.74 lr 0.00010000
+Epoch 94, weight, value: tensor([[-0.1160,  0.0617, -0.0009,  ..., -0.0073, -0.0511, -0.0719],
+        [ 0.0293,  0.0531, -0.0799,  ..., -0.0763, -0.0199,  0.0703],
+        [ 0.0529, -0.0635, -0.0696,  ..., -0.0010, -0.0363, -0.0213],
+        ...,
+        [ 0.0500,  0.0285,  0.0758,  ...,  0.0403,  0.1089,  0.0103],
+        [ 0.0596, -0.0912, -0.0787,  ..., -0.1102, -0.0418,  0.0967],
+        [-0.0538,  0.0704,  0.0199,  ..., -0.0541, -0.0415,  0.0037]],
+       device='cuda:0'), grad: tensor([[ 9.0292e-07, -2.8968e-05,  1.3113e-05,  ...,  1.2806e-07,
+          9.2993e-07,  4.4331e-07],
+        [ 2.0210e-06,  1.2964e-06,  8.5607e-06,  ...,  1.9427e-06,
+          6.1952e-06, -6.5193e-06],
+        [ 1.2107e-08,  4.0084e-06,  1.0274e-05,  ..., -1.5832e-06,
+          1.4780e-06,  3.5111e-06],
+        ...,
+        [-1.7926e-05,  1.2830e-05,  4.1351e-06,  ..., -8.6129e-06,
+         -2.5168e-05, -7.1898e-07],
+        [ 6.0396e-07,  5.7817e-06,  2.1551e-06,  ...,  1.4268e-06,
+          1.3588e-06, -1.2591e-06],
+        [ 5.7481e-06, -2.9966e-05, -7.6473e-05,  ...,  2.3209e-06,
+          7.6443e-06,  2.0433e-06]], device='cuda:0')
+Epoch 94, bias, value: tensor([-0.0089, -0.0095, -0.0038, -0.0143, -0.0115, -0.0037,  0.0110,  0.0065,
+         0.0203, -0.0034], device='cuda:0'), grad: tensor([-5.7101e-05,  3.6694e-06,  9.8571e-06,  4.3094e-05,  1.9148e-05,
+        -3.8773e-05,  7.8917e-05,  2.1815e-05,  2.0742e-05, -1.0163e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 93, time 214.42, cls_loss 0.0058 cls_loss_mapping 0.0085 cls_loss_causal 0.5990 re_mapping 0.0103 re_causal 0.0301 /// teacc 98.83 lr 0.00010000
+Epoch 95, weight, value: tensor([[-0.1166,  0.0623, -0.0008,  ..., -0.0074, -0.0520, -0.0726],
+        [ 0.0292,  0.0532, -0.0804,  ..., -0.0765, -0.0201,  0.0707],
+        [ 0.0528, -0.0639, -0.0698,  ..., -0.0010, -0.0364, -0.0222],
+        ...,
+        [ 0.0502,  0.0282,  0.0762,  ...,  0.0403,  0.1094,  0.0102],
+        [ 0.0599, -0.0913, -0.0791,  ..., -0.1107, -0.0419,  0.0981],
+        [-0.0541,  0.0703,  0.0199,  ..., -0.0546, -0.0419,  0.0038]],
+       device='cuda:0'), grad: tensor([[ 8.2375e-07, -2.7791e-05,  1.6829e-06,  ...,  7.0687e-07,
+          4.2170e-06,  4.9127e-07],
+        [-2.6450e-07, -5.4855e-07,  3.1367e-06,  ...,  5.8347e-07,
+          1.8561e-06, -8.2701e-06],
+        [-2.7474e-06,  4.6305e-06,  1.5497e-06,  ..., -9.8422e-06,
+         -1.2405e-05,  3.1721e-06],
+        ...,
+        [ 2.1625e-04,  1.1575e-04,  4.8208e-04,  ...,  1.0096e-06,
+          3.1400e-04,  2.3264e-06],
+        [-1.0118e-05,  1.3500e-05,  9.8571e-06,  ..., -2.4494e-06,
+          2.7325e-06, -1.9580e-05],
+        [-2.2566e-04, -1.7285e-04, -5.5313e-04,  ...,  2.8461e-06,
+         -3.2091e-04, -1.3039e-08]], device='cuda:0')
+Epoch 95, bias, value: tensor([-0.0083, -0.0094, -0.0040, -0.0146, -0.0112, -0.0036,  0.0111,  0.0065,
+         0.0207, -0.0040], device='cuda:0'), grad: tensor([-6.1750e-05, -3.3416e-06, -4.4376e-05,  3.5316e-05,  1.3089e-04,
+         3.6657e-05,  9.8720e-06,  6.0940e-04,  1.4305e-05, -7.2718e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 94, time 214.70, cls_loss 0.0076 cls_loss_mapping 0.0116 cls_loss_causal 0.6043 re_mapping 0.0102 re_causal 0.0302 /// teacc 98.82 lr 0.00010000
+Epoch 96, weight, value: tensor([[-0.1179,  0.0638, -0.0005,  ..., -0.0075, -0.0539, -0.0747],
+        [ 0.0296,  0.0535, -0.0802,  ..., -0.0765, -0.0195,  0.0720],
+        [ 0.0526, -0.0646, -0.0704,  ..., -0.0011, -0.0368, -0.0243],
+        ...,
+        [ 0.0502,  0.0280,  0.0758,  ...,  0.0398,  0.1095,  0.0099],
+        [ 0.0613, -0.0939, -0.0807,  ..., -0.1110, -0.0424,  0.0989],
+        [-0.0543,  0.0706,  0.0203,  ..., -0.0551, -0.0420,  0.0043]],
+       device='cuda:0'), grad: tensor([[ 1.5059e-06, -7.7300e-08,  3.3341e-07,  ...,  2.0023e-07,
+          3.1758e-07,  5.4995e-07],
+        [-2.6133e-06, -8.7470e-06,  1.0552e-06,  ...,  6.2259e-07,
+         -1.1243e-05, -2.6643e-05],
+        [ 5.0897e-07,  1.2890e-06, -4.6566e-09,  ..., -2.6189e-06,
+         -7.1432e-07,  2.7679e-06],
+        ...,
+        [-1.1241e-06,  4.5262e-06, -4.5262e-06,  ..., -1.1362e-07,
+          1.8552e-06,  1.1541e-05],
+        [ 5.0008e-05,  2.5313e-06,  1.4203e-06,  ...,  1.4445e-06,
+          1.2647e-06, -2.2864e-07],
+        [ 3.4738e-06,  1.1928e-05, -1.1334e-06,  ...,  1.3364e-06,
+          8.6278e-06,  1.4663e-05]], device='cuda:0')
+Epoch 96, bias, value: tensor([-0.0076, -0.0085, -0.0047, -0.0137, -0.0111, -0.0040,  0.0100,  0.0060,
+         0.0202, -0.0036], device='cuda:0'), grad: tensor([ 4.0680e-05, -2.9728e-05,  5.3719e-06,  2.2352e-06, -1.2644e-05,
+         1.3514e-03, -2.8839e-03,  1.6481e-05,  1.4477e-03,  6.2048e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 95, time 215.15, cls_loss 0.0073 cls_loss_mapping 0.0107 cls_loss_causal 0.6109 re_mapping 0.0099 re_causal 0.0303 /// teacc 98.79 lr 0.00010000
+Epoch 97, weight, value: tensor([[-0.1189,  0.0638, -0.0009,  ..., -0.0075, -0.0549, -0.0754],
+        [ 0.0283,  0.0540, -0.0811,  ..., -0.0768, -0.0200,  0.0716],
+        [ 0.0522, -0.0656, -0.0713,  ..., -0.0015, -0.0376, -0.0255],
+        ...,
+        [ 0.0512,  0.0279,  0.0764,  ...,  0.0403,  0.1107,  0.0105],
+        [ 0.0617, -0.0940, -0.0816,  ..., -0.1114, -0.0429,  0.0999],
+        [-0.0538,  0.0704,  0.0205,  ..., -0.0560, -0.0420,  0.0041]],
+       device='cuda:0'), grad: tensor([[ 9.4771e-06,  3.2652e-06,  5.3160e-06,  ...,  1.1781e-06,
+          3.2745e-06,  1.1742e-05],
+        [ 1.9029e-05,  4.8894e-07,  2.8193e-05,  ...,  6.8136e-06,
+          1.6585e-05, -9.9186e-07],
+        [ 1.2286e-05,  2.3302e-06,  1.7986e-05,  ...,  2.4904e-06,
+          7.5288e-06,  4.8429e-06],
+        ...,
+        [-1.1826e-03,  5.9716e-06, -1.7252e-03,  ..., -4.0889e-04,
+         -1.0014e-03, -1.0067e-04],
+        [-1.0431e-07, -1.6734e-05,  4.5389e-05,  ...,  1.0647e-05,
+          2.6062e-05, -4.9978e-05],
+        [ 1.0767e-03,  8.3327e-05,  1.5478e-03,  ...,  3.7026e-04,
+          9.3031e-04,  1.5438e-04]], device='cuda:0')
+Epoch 97, bias, value: tensor([-0.0076, -0.0092, -0.0055, -0.0137, -0.0111, -0.0035,  0.0102,  0.0065,
+         0.0200, -0.0036], device='cuda:0'), grad: tensor([ 3.0264e-05,  3.5495e-05,  2.6271e-05,  9.1255e-05, -1.7846e-04,
+         4.5538e-05, -2.5406e-05, -2.1400e-03, -2.5064e-05,  2.1420e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 96----------------------------------------------------
+epoch 96, time 231.73, cls_loss 0.0051 cls_loss_mapping 0.0064 cls_loss_causal 0.5691 re_mapping 0.0100 re_causal 0.0285 /// teacc 98.86 lr 0.00010000
+Epoch 98, weight, value: tensor([[-0.1199,  0.0634, -0.0016,  ..., -0.0078, -0.0556, -0.0786],
+        [ 0.0286,  0.0539, -0.0808,  ..., -0.0771, -0.0200,  0.0721],
+        [ 0.0517, -0.0661, -0.0724,  ..., -0.0016, -0.0384, -0.0259],
+        ...,
+        [ 0.0517,  0.0281,  0.0772,  ...,  0.0411,  0.1118,  0.0102],
+        [ 0.0622, -0.0936, -0.0817,  ..., -0.1121, -0.0433,  0.1015],
+        [-0.0544,  0.0705,  0.0201,  ..., -0.0568, -0.0427,  0.0033]],
+       device='cuda:0'), grad: tensor([[ 2.9989e-07, -8.0884e-05,  1.6764e-07,  ..., -2.7955e-05,
+          3.6601e-07,  9.1968e-07],
+        [ 4.7358e-07,  1.5600e-07,  3.7765e-07,  ...,  2.9476e-07,
+          3.5670e-07, -1.6084e-06],
+        [-1.7211e-06,  5.5693e-06,  3.9395e-07,  ..., -6.9384e-07,
+         -1.0962e-06,  4.9099e-06],
+        ...,
+        [-6.9244e-07,  1.7444e-06, -1.7332e-06,  ..., -2.9523e-07,
+         -1.6205e-06,  1.1493e-06],
+        [-1.2018e-05,  8.7321e-06,  2.3078e-06,  ...,  2.9523e-06,
+         -4.3400e-06, -2.2024e-05],
+        [ 1.8002e-06,  8.3819e-06, -5.9791e-07,  ...,  2.5406e-06,
+          1.0636e-06,  1.1344e-06]], device='cuda:0')
+Epoch 98, bias, value: tensor([-0.0084, -0.0089, -0.0058, -0.0140, -0.0107, -0.0038,  0.0098,  0.0070,
+         0.0208, -0.0039], device='cuda:0'), grad: tensor([-2.1243e-04,  1.3672e-06,  3.7514e-06,  3.1684e-06,  1.7643e-05,
+         7.4744e-05,  8.4043e-05,  4.2655e-06,  2.5574e-06,  2.1055e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 97, time 214.75, cls_loss 0.0058 cls_loss_mapping 0.0100 cls_loss_causal 0.5821 re_mapping 0.0102 re_causal 0.0297 /// teacc 98.70 lr 0.00010000
+Epoch 99, weight, value: tensor([[-0.1207,  0.0631, -0.0021,  ..., -0.0079, -0.0567, -0.0793],
+        [ 0.0291,  0.0548, -0.0806,  ..., -0.0774, -0.0189,  0.0730],
+        [ 0.0516, -0.0668, -0.0725,  ..., -0.0013, -0.0389, -0.0266],
+        ...,
+        [ 0.0520,  0.0277,  0.0777,  ...,  0.0413,  0.1121,  0.0099],
+        [ 0.0624, -0.0941, -0.0823,  ..., -0.1129, -0.0437,  0.1021],
+        [-0.0549,  0.0706,  0.0197,  ..., -0.0577, -0.0433,  0.0028]],
+       device='cuda:0'), grad: tensor([[ 1.2189e-05,  3.3641e-04,  1.4007e-04,  ...,  3.4310e-06,
+          8.8736e-06,  1.3389e-05],
+        [ 1.9073e-03,  1.1425e-03,  8.6880e-04,  ...,  5.7779e-06,
+          1.6899e-03,  2.3632e-03],
+        [-2.6627e-03, -1.5144e-03, -1.1663e-03,  ..., -7.5340e-05,
+         -2.2945e-03, -3.1700e-03],
+        ...,
+        [ 4.7421e-04,  3.0565e-04,  2.2030e-04,  ...,  4.0792e-06,
+          4.1890e-04,  5.9843e-04],
+        [ 1.0848e-04,  8.0764e-05,  5.8681e-05,  ...,  1.6496e-05,
+          8.5652e-05,  1.2600e-04],
+        [ 6.9976e-05, -2.3568e-04, -1.5450e-04,  ...,  5.6177e-06,
+          6.0201e-05,  2.5439e-04]], device='cuda:0')
+Epoch 99, bias, value: tensor([-0.0088, -0.0080, -0.0058, -0.0137, -0.0108, -0.0039,  0.0098,  0.0071,
+         0.0205, -0.0042], device='cuda:0'), grad: tensor([ 5.5790e-04,  3.7460e-03, -5.5008e-03,  4.9591e-04, -4.8041e-04,
+        -1.8552e-05, -4.2692e-06,  9.9277e-04,  3.2973e-04, -1.1545e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 98, time 214.44, cls_loss 0.0064 cls_loss_mapping 0.0094 cls_loss_causal 0.5831 re_mapping 0.0103 re_causal 0.0286 /// teacc 98.77 lr 0.00010000
+Epoch 100, weight, value: tensor([[-0.1219,  0.0630, -0.0026,  ..., -0.0085, -0.0577, -0.0805],
+        [ 0.0266,  0.0540, -0.0828,  ..., -0.0776, -0.0220,  0.0704],
+        [ 0.0535, -0.0665, -0.0719,  ...,  0.0002, -0.0367, -0.0254],
+        ...,
+        [ 0.0528,  0.0281,  0.0784,  ...,  0.0400,  0.1133,  0.0119],
+        [ 0.0627, -0.0944, -0.0826,  ..., -0.1134, -0.0432,  0.1026],
+        [-0.0551,  0.0706,  0.0197,  ..., -0.0584, -0.0436,  0.0023]],
+       device='cuda:0'), grad: tensor([[ 1.0230e-05,  2.5965e-06,  1.0975e-05,  ...,  1.7853e-06,
+          1.4745e-05,  1.0960e-05],
+        [-7.4530e-04, -2.6298e-04,  8.9705e-06,  ...,  2.6803e-06,
+         -1.8573e-04, -1.6642e-03],
+        [ 3.5197e-05,  8.3745e-06,  2.8491e-05,  ...,  2.1651e-05,
+          4.3303e-05,  2.1189e-05],
+        ...,
+        [-5.2750e-05, -3.9162e-07, -4.9621e-05,  ..., -5.0455e-05,
+         -1.3494e-04,  5.2661e-05],
+        [ 4.9305e-04,  1.8644e-04,  1.9908e-05,  ...,  2.8946e-06,
+          1.4031e-04,  1.0109e-03],
+        [ 2.1875e-04,  6.0230e-05, -1.5795e-04,  ...,  1.6943e-05,
+          1.3113e-04,  4.5395e-04]], device='cuda:0')
+Epoch 100, bias, value: tensor([-0.0092, -0.0102, -0.0038, -0.0131, -0.0111, -0.0026,  0.0094,  0.0075,
+         0.0196, -0.0042], device='cuda:0'), grad: tensor([ 2.4885e-05, -2.3937e-03,  7.7546e-05,  1.9157e-04, -5.2035e-05,
+        -3.8475e-05,  1.7929e-04,  1.4573e-05,  1.5125e-03,  4.8208e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 99, time 214.79, cls_loss 0.0052 cls_loss_mapping 0.0083 cls_loss_causal 0.6080 re_mapping 0.0100 re_causal 0.0307 /// teacc 98.85 lr 0.00010000
+Epoch 101, weight, value: tensor([[-1.2243e-01,  6.3021e-02, -2.6671e-03,  ..., -8.7930e-03,
+         -5.8369e-02, -8.0959e-02],
+        [ 2.6563e-02,  5.4652e-02, -8.2717e-02,  ..., -7.7451e-02,
+         -2.1994e-02,  7.0961e-02],
+        [ 5.3388e-02, -6.6882e-02, -7.2237e-02,  ...,  1.0859e-04,
+         -3.6889e-02, -2.6186e-02],
+        ...,
+        [ 5.2747e-02,  2.7832e-02,  7.8331e-02,  ...,  4.0245e-02,
+          1.1347e-01,  1.1596e-02],
+        [ 6.3279e-02, -9.4487e-02, -8.2951e-02,  ..., -1.1371e-01,
+         -4.3377e-02,  1.0349e-01],
+        [-5.4881e-02,  7.1502e-02,  2.1022e-02,  ..., -5.9062e-02,
+         -4.2726e-02,  1.6109e-03]], device='cuda:0'), grad: tensor([[ 2.4419e-06, -1.2964e-06,  1.0589e-06,  ..., -5.0478e-07,
+          3.2736e-07,  1.9018e-06],
+        [ 8.2282e-07,  9.4529e-07,  2.0824e-06,  ...,  3.2829e-07,
+          7.3807e-07, -2.4568e-06],
+        [ 4.1611e-06,  3.2969e-06,  3.9004e-06,  ...,  3.5856e-06,
+          2.5351e-06,  1.6950e-06],
+        ...,
+        [ 1.8224e-05,  1.2979e-05,  4.4107e-05,  ..., -9.4064e-07,
+          2.5719e-05,  4.1723e-06],
+        [ 7.9349e-06,  9.7975e-06,  8.3596e-06,  ...,  7.1758e-07,
+          4.8168e-06,  3.5111e-06],
+        [ 3.0160e-05, -7.3388e-06, -1.2577e-04,  ...,  3.8557e-07,
+         -4.6462e-05,  5.0902e-05]], device='cuda:0')
+Epoch 101, bias, value: tensor([-0.0095, -0.0097, -0.0042, -0.0134, -0.0119, -0.0028,  0.0098,  0.0071,
+         0.0197, -0.0031], device='cuda:0'), grad: tensor([ 2.8480e-06,  4.9137e-06,  1.8403e-05,  1.7136e-05, -3.8147e-04,
+         2.9132e-06,  2.3693e-05,  7.8559e-05,  6.1512e-05,  1.7166e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 100, time 214.83, cls_loss 0.0051 cls_loss_mapping 0.0087 cls_loss_causal 0.5521 re_mapping 0.0103 re_causal 0.0288 /// teacc 98.68 lr 0.00010000
+Epoch 102, weight, value: tensor([[-0.1231,  0.0632, -0.0029,  ..., -0.0090, -0.0592, -0.0813],
+        [ 0.0261,  0.0548, -0.0837,  ..., -0.0789, -0.0227,  0.0711],
+        [ 0.0531, -0.0673, -0.0726,  ...,  0.0002, -0.0373, -0.0264],
+        ...,
+        [ 0.0525,  0.0279,  0.0784,  ...,  0.0408,  0.1140,  0.0108],
+        [ 0.0649, -0.0947, -0.0824,  ..., -0.1130, -0.0424,  0.1051],
+        [-0.0543,  0.0713,  0.0216,  ..., -0.0599, -0.0424,  0.0010]],
+       device='cuda:0'), grad: tensor([[ 3.5902e-07, -2.8759e-05,  4.2515e-07,  ..., -2.7064e-06,
+          3.6322e-07,  1.1818e-06],
+        [ 4.5076e-06,  6.1141e-07,  4.9435e-06,  ...,  7.7672e-07,
+          4.7386e-06, -1.0997e-04],
+        [-7.0315e-08,  3.8790e-07, -7.5018e-07,  ..., -1.7807e-06,
+         -2.0806e-06,  2.3872e-05],
+        ...,
+        [-2.2203e-05,  2.2836e-06, -2.3365e-05,  ..., -1.5721e-06,
+         -2.1830e-05,  2.0817e-05],
+        [ 3.9898e-06,  1.4296e-06,  6.9328e-06,  ...,  1.2089e-06,
+          5.8301e-06,  1.5900e-05],
+        [ 1.1519e-05,  1.8030e-05,  1.0058e-05,  ...,  2.6170e-06,
+          1.1496e-05,  2.4289e-05]], device='cuda:0')
+Epoch 102, bias, value: tensor([-0.0093, -0.0100, -0.0046, -0.0124, -0.0116, -0.0037,  0.0096,  0.0069,
+         0.0203, -0.0032], device='cuda:0'), grad: tensor([-4.1872e-05, -2.2173e-04,  4.4405e-05,  1.5736e-05,  2.3052e-05,
+         1.6004e-05,  1.6853e-05,  4.1962e-05,  3.9011e-05,  6.6638e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 101----------------------------------------------------
+epoch 101, time 231.01, cls_loss 0.0065 cls_loss_mapping 0.0099 cls_loss_causal 0.6120 re_mapping 0.0098 re_causal 0.0283 /// teacc 98.91 lr 0.00010000
+Epoch 103, weight, value: tensor([[-0.1239,  0.0637, -0.0034,  ..., -0.0095, -0.0605, -0.0808],
+        [ 0.0261,  0.0543, -0.0841,  ..., -0.0791, -0.0225,  0.0712],
+        [ 0.0534, -0.0679, -0.0727,  ...,  0.0010, -0.0373, -0.0262],
+        ...,
+        [ 0.0524,  0.0280,  0.0787,  ...,  0.0410,  0.1141,  0.0105],
+        [ 0.0649, -0.0952, -0.0833,  ..., -0.1148, -0.0429,  0.1054],
+        [-0.0538,  0.0710,  0.0217,  ..., -0.0611, -0.0423,  0.0008]],
+       device='cuda:0'), grad: tensor([[ 5.6345e-07, -1.8135e-05,  9.8627e-07,  ..., -1.1260e-06,
+          4.0233e-07,  2.1048e-07],
+        [ 5.6066e-07,  0.0000e+00,  1.2061e-06,  ...,  6.6776e-07,
+          9.0152e-07, -9.5088e-07],
+        [ 6.3032e-06,  2.9206e-06,  6.4969e-05,  ...,  7.5758e-05,
+         -1.4249e-07,  1.4538e-06],
+        ...,
+        [-9.5069e-06,  1.5590e-06, -6.3851e-06,  ...,  1.4538e-06,
+         -1.1191e-05, -3.8557e-06],
+        [ 7.8157e-06,  6.4671e-06,  9.2536e-06,  ...,  4.2580e-06,
+          4.7982e-06,  2.4717e-06],
+        [ 8.7824e-07, -6.5677e-06, -1.5661e-05,  ...,  3.3937e-06,
+          2.8871e-06,  4.5635e-07]], device='cuda:0')
+Epoch 103, bias, value: tensor([-0.0090, -0.0104, -0.0040, -0.0130, -0.0101, -0.0031,  0.0081,  0.0066,
+         0.0197, -0.0032], device='cuda:0'), grad: tensor([-2.8223e-05,  1.9521e-06,  7.1585e-05, -7.5877e-05,  2.8074e-05,
+        -1.3679e-05,  9.1121e-06, -5.0776e-06,  3.5703e-05, -2.3678e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 102, time 214.92, cls_loss 0.0062 cls_loss_mapping 0.0104 cls_loss_causal 0.5684 re_mapping 0.0103 re_causal 0.0278 /// teacc 98.72 lr 0.00010000
+Epoch 104, weight, value: tensor([[-0.1247,  0.0646, -0.0036,  ..., -0.0094, -0.0613, -0.0812],
+        [ 0.0258,  0.0539, -0.0848,  ..., -0.0793, -0.0226,  0.0712],
+        [ 0.0537, -0.0682, -0.0729,  ...,  0.0014, -0.0372, -0.0265],
+        ...,
+        [ 0.0526,  0.0279,  0.0791,  ...,  0.0410,  0.1144,  0.0103],
+        [ 0.0649, -0.0956, -0.0839,  ..., -0.1157, -0.0432,  0.1056],
+        [-0.0536,  0.0715,  0.0221,  ..., -0.0616, -0.0425,  0.0016]],
+       device='cuda:0'), grad: tensor([[ 9.3505e-07, -5.8800e-05,  4.1388e-06,  ..., -2.3082e-05,
+          2.4643e-06,  7.6182e-07],
+        [ 3.0547e-06, -1.7779e-06,  4.3325e-06,  ...,  2.4773e-06,
+          2.4736e-06, -3.9376e-06],
+        [ 2.3007e-05,  3.4198e-06,  1.9521e-05,  ...,  1.1355e-05,
+          1.4558e-05,  9.7230e-06],
+        ...,
+        [-7.5877e-05,  2.1994e-05, -1.2314e-04,  ..., -3.8803e-05,
+         -6.5684e-05,  6.9290e-06],
+        [-6.0797e-05, -3.3155e-07,  7.6070e-06,  ..., -4.1611e-06,
+         -2.6271e-05, -5.8979e-05],
+        [ 6.7532e-05,  1.3605e-05,  4.7266e-05,  ...,  2.9087e-05,
+          4.2856e-05,  3.1114e-05]], device='cuda:0')
+Epoch 104, bias, value: tensor([-0.0082, -0.0106, -0.0037, -0.0133, -0.0104, -0.0034,  0.0082,  0.0064,
+         0.0192, -0.0025], device='cuda:0'), grad: tensor([-1.0371e-04,  1.5814e-06,  5.0753e-05,  4.0054e-05,  1.9908e-05,
+         2.6360e-05,  2.7478e-05, -1.0484e-04, -1.0526e-04,  1.4746e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 103----------------------------------------------------
+epoch 103, time 232.48, cls_loss 0.0041 cls_loss_mapping 0.0069 cls_loss_causal 0.5946 re_mapping 0.0098 re_causal 0.0282 /// teacc 98.99 lr 0.00010000
+Epoch 105, weight, value: tensor([[-0.1264,  0.0646, -0.0039,  ..., -0.0097, -0.0619, -0.0820],
+        [ 0.0256,  0.0542, -0.0854,  ..., -0.0799, -0.0227,  0.0715],
+        [ 0.0532, -0.0686, -0.0737,  ...,  0.0012, -0.0375, -0.0275],
+        ...,
+        [ 0.0534,  0.0277,  0.0801,  ...,  0.0418,  0.1151,  0.0105],
+        [ 0.0652, -0.0957, -0.0847,  ..., -0.1163, -0.0437,  0.1061],
+        [-0.0540,  0.0713,  0.0221,  ..., -0.0626, -0.0431,  0.0008]],
+       device='cuda:0'), grad: tensor([[ 8.6799e-07, -3.2336e-05,  6.5099e-07,  ..., -1.3523e-06,
+          8.4471e-07,  8.9314e-07],
+        [ 3.1274e-06, -7.8231e-07,  2.9225e-06,  ...,  5.6215e-06,
+          4.9360e-06, -4.7795e-06],
+        [-4.9174e-05,  2.4773e-06, -1.9804e-05,  ..., -5.0485e-05,
+         -4.4137e-05,  2.3320e-06],
+        ...,
+        [ 3.2604e-05,  5.3272e-06,  1.3351e-05,  ...,  3.3289e-05,
+          3.0547e-05,  5.9195e-06],
+        [-5.5321e-06,  3.0845e-06,  1.7369e-06,  ..., -4.2282e-06,
+          2.6301e-06, -1.6287e-05],
+        [ 1.4352e-06,  7.5400e-05,  2.1860e-05,  ...,  2.6692e-06,
+          2.1473e-05,  5.4479e-05]], device='cuda:0')
+Epoch 105, bias, value: tensor([-0.0086, -0.0107, -0.0041, -0.0136, -0.0102, -0.0031,  0.0089,  0.0070,
+         0.0190, -0.0031], device='cuda:0'), grad: tensor([-5.8353e-05,  4.6231e-06, -8.2135e-05,  4.6164e-05, -1.4043e-04,
+         5.4091e-06,  3.7290e-06,  7.0035e-05, -1.4819e-05,  1.6582e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 104, time 214.64, cls_loss 0.0060 cls_loss_mapping 0.0097 cls_loss_causal 0.5615 re_mapping 0.0097 re_causal 0.0274 /// teacc 98.86 lr 0.00010000
+Epoch 106, weight, value: tensor([[-0.1281,  0.0645, -0.0045,  ..., -0.0096, -0.0628, -0.0826],
+        [ 0.0260,  0.0549, -0.0852,  ..., -0.0802, -0.0226,  0.0725],
+        [ 0.0529, -0.0690, -0.0742,  ...,  0.0011, -0.0375, -0.0285],
+        ...,
+        [ 0.0538,  0.0274,  0.0806,  ...,  0.0426,  0.1154,  0.0102],
+        [ 0.0655, -0.0961, -0.0854,  ..., -0.1168, -0.0440,  0.1067],
+        [-0.0546,  0.0710,  0.0221,  ..., -0.0642, -0.0437, -0.0003]],
+       device='cuda:0'), grad: tensor([[ 3.6180e-05,  3.4004e-05,  8.0094e-06,  ...,  1.8477e-06,
+          6.5342e-06,  8.8811e-05],
+        [ 3.5971e-05,  1.7273e-04,  1.8096e-04,  ...,  3.4850e-06,
+          1.3459e-04,  1.1940e-06],
+        [ 9.0674e-06,  1.4357e-05,  2.0787e-06,  ..., -2.9624e-05,
+         -1.2919e-05,  3.6985e-05],
+        ...,
+        [-8.9407e-05, -4.0722e-04, -4.3941e-04,  ..., -1.3085e-06,
+         -3.2282e-04,  5.3179e-07],
+        [-6.6698e-05, -4.6939e-05,  6.2175e-06,  ...,  3.0380e-06,
+          5.6662e-06, -1.7607e-04],
+        [ 4.5121e-05,  1.5008e-04,  1.4317e-04,  ...,  3.6433e-06,
+          1.0788e-04,  4.3780e-05]], device='cuda:0')
+Epoch 106, bias, value: tensor([-0.0087, -0.0101, -0.0047, -0.0137, -0.0095, -0.0032,  0.0095,  0.0071,
+         0.0189, -0.0038], device='cuda:0'), grad: tensor([ 2.1243e-04,  4.1437e-04,  3.2365e-05,  1.4710e-04,  8.0764e-05,
+        -5.5507e-06,  8.8811e-06, -9.5701e-04, -3.5667e-04,  4.2272e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 105, time 214.34, cls_loss 0.0057 cls_loss_mapping 0.0074 cls_loss_causal 0.5831 re_mapping 0.0099 re_causal 0.0279 /// teacc 98.88 lr 0.00010000
+Epoch 107, weight, value: tensor([[-1.2887e-01,  6.4654e-02, -5.2609e-03,  ..., -9.8035e-03,
+         -6.4007e-02, -8.3582e-02],
+        [ 2.5826e-02,  5.5312e-02, -8.5839e-02,  ..., -8.1350e-02,
+         -2.2914e-02,  7.3066e-02],
+        [ 5.2679e-02, -7.0137e-02, -7.5388e-02,  ...,  7.3491e-04,
+         -3.8034e-02, -2.8988e-02],
+        ...,
+        [ 5.3936e-02,  2.8049e-02,  8.1363e-02,  ...,  4.3794e-02,
+          1.1619e-01,  9.7921e-03],
+        [ 6.5762e-02, -9.6593e-02, -8.5960e-02,  ..., -1.1750e-01,
+         -4.4540e-02,  1.0723e-01],
+        [-5.3784e-02,  7.1393e-02,  2.2733e-02,  ..., -6.4972e-02,
+         -4.3043e-02,  9.7140e-05]], device='cuda:0'), grad: tensor([[ 1.4901e-07, -1.1064e-05,  2.1700e-07,  ...,  3.7439e-07,
+          2.4308e-07, -7.7710e-06],
+        [ 8.5682e-08,  1.4603e-06,  5.5321e-07,  ...,  3.9954e-07,
+          2.0303e-07, -2.0117e-06],
+        [-0.0000e+00,  3.7253e-06,  1.2228e-06,  ...,  2.5332e-07,
+         -5.5600e-07,  2.0489e-06],
+        ...,
+        [ 4.9360e-07,  2.3283e-06,  4.2804e-06,  ...,  4.8690e-06,
+          9.8255e-07,  7.2084e-07],
+        [ 3.0175e-07,  7.0743e-06,  1.8133e-06,  ...,  1.7295e-06,
+          6.2305e-07,  4.1351e-06],
+        [ 4.7404e-07,  5.2433e-07, -3.2093e-06,  ...,  5.5786e-07,
+          4.3679e-07,  1.3923e-06]], device='cuda:0')
+Epoch 107, bias, value: tensor([-0.0090, -0.0100, -0.0052, -0.0143, -0.0100, -0.0032,  0.0096,  0.0072,
+         0.0188, -0.0029], device='cuda:0'), grad: tensor([-5.8621e-05,  8.2403e-06,  1.8075e-05, -7.2643e-07, -4.0263e-05,
+        -1.6302e-05,  2.5615e-05,  1.4529e-05,  3.9399e-05,  1.0058e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 106, time 214.56, cls_loss 0.0040 cls_loss_mapping 0.0072 cls_loss_causal 0.5961 re_mapping 0.0093 re_causal 0.0281 /// teacc 98.92 lr 0.00010000
+Epoch 108, weight, value: tensor([[-1.2956e-01,  6.5283e-02, -5.5275e-03,  ..., -9.7910e-03,
+         -6.4728e-02, -8.3802e-02],
+        [ 2.5746e-02,  5.5225e-02, -8.5800e-02,  ..., -8.1675e-02,
+         -2.2938e-02,  7.3292e-02],
+        [ 5.2822e-02, -7.0412e-02, -7.5613e-02,  ...,  7.4171e-04,
+         -3.7971e-02, -2.9272e-02],
+        ...,
+        [ 5.3924e-02,  2.8354e-02,  8.1749e-02,  ...,  4.4249e-02,
+          1.1659e-01,  9.5030e-03],
+        [ 6.5823e-02, -9.6769e-02, -8.6358e-02,  ..., -1.1824e-01,
+         -4.4775e-02,  1.0756e-01],
+        [-5.3801e-02,  7.1343e-02,  2.2677e-02,  ..., -6.5766e-02,
+         -4.3392e-02,  3.6780e-05]], device='cuda:0'), grad: tensor([[ 1.5330e-06, -1.8813e-07,  5.0664e-07,  ...,  1.0030e-06,
+          6.2771e-07,  1.6773e-06],
+        [ 1.2271e-05,  6.7614e-06,  1.5348e-05,  ...,  1.1116e-05,
+          2.3037e-05, -2.2724e-05],
+        [ 2.4866e-07, -4.3064e-05, -1.0669e-05,  ..., -6.7353e-05,
+         -6.1691e-06,  1.4454e-05],
+        ...,
+        [-4.6581e-05, -7.9572e-06, -3.6806e-05,  ..., -2.3901e-05,
+         -5.3585e-05,  3.5111e-07],
+        [-2.3156e-05, -1.0855e-05,  1.8142e-06,  ...,  2.4103e-06,
+          2.2091e-06, -3.9369e-05],
+        [ 1.5169e-05,  3.2991e-05,  1.1638e-05,  ...,  3.9995e-05,
+          1.3225e-05,  8.0988e-06]], device='cuda:0')
+Epoch 108, bias, value: tensor([-0.0083, -0.0100, -0.0054, -0.0143, -0.0100, -0.0030,  0.0095,  0.0071,
+         0.0184, -0.0030], device='cuda:0'), grad: tensor([ 4.6939e-06,  2.8852e-06, -1.4842e-04,  1.1772e-04, -1.1683e-05,
+         3.9816e-05, -2.3339e-06, -5.1707e-05, -7.8082e-05,  1.2743e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 107, time 214.22, cls_loss 0.0045 cls_loss_mapping 0.0080 cls_loss_causal 0.5918 re_mapping 0.0097 re_causal 0.0281 /// teacc 98.86 lr 0.00010000
+Epoch 109, weight, value: tensor([[-0.1307,  0.0654, -0.0058,  ..., -0.0100, -0.0654, -0.0842],
+        [ 0.0260,  0.0559, -0.0860,  ..., -0.0816, -0.0227,  0.0738],
+        [ 0.0528, -0.0709, -0.0757,  ...,  0.0013, -0.0381, -0.0298],
+        ...,
+        [ 0.0542,  0.0279,  0.0819,  ...,  0.0442,  0.1168,  0.0094],
+        [ 0.0655, -0.0973, -0.0870,  ..., -0.1190, -0.0451,  0.1078],
+        [-0.0544,  0.0714,  0.0225,  ..., -0.0673, -0.0439, -0.0008]],
+       device='cuda:0'), grad: tensor([[ 2.2855e-06,  6.4075e-07,  2.5686e-06,  ...,  4.8801e-07,
+          1.4817e-06,  2.3097e-07],
+        [ 2.3339e-06, -1.3597e-07,  2.8852e-06,  ...,  1.1204e-06,
+          1.7742e-06, -1.7490e-06],
+        [ 9.5129e-05,  1.4752e-06,  7.7546e-05,  ...,  2.3752e-05,
+          6.6757e-05,  1.3839e-06],
+        ...,
+        [-2.6846e-04, -1.1012e-05, -2.6035e-04,  ..., -1.2040e-04,
+         -2.2101e-04, -4.0531e-06],
+        [ 4.6521e-05,  7.6964e-06,  4.2558e-05,  ...,  2.0042e-05,
+          2.3887e-05,  1.0040e-06],
+        [ 4.2528e-05,  7.4916e-06,  3.4183e-05,  ...,  1.5870e-05,
+          6.6698e-05,  8.3968e-06]], device='cuda:0')
+Epoch 109, bias, value: tensor([-0.0083, -0.0094, -0.0054, -0.0142, -0.0097, -0.0027,  0.0100,  0.0071,
+         0.0175, -0.0034], device='cuda:0'), grad: tensor([ 5.6550e-06,  2.6524e-06,  9.1732e-05,  9.1910e-05,  6.4820e-06,
+        -7.7665e-05,  4.5478e-05, -3.2043e-04,  9.2149e-05,  6.1929e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 108, time 214.61, cls_loss 0.0066 cls_loss_mapping 0.0074 cls_loss_causal 0.5725 re_mapping 0.0096 re_causal 0.0274 /// teacc 98.72 lr 0.00010000
+Epoch 110, weight, value: tensor([[-1.3215e-01,  6.4564e-02, -6.5148e-03,  ..., -1.1245e-02,
+         -6.6529e-02, -8.5058e-02],
+        [ 2.5540e-02,  5.4919e-02, -8.6100e-02,  ..., -8.2607e-02,
+         -2.3124e-02,  7.3633e-02],
+        [ 5.2793e-02, -7.0152e-02, -7.7243e-02,  ...,  4.1386e-05,
+         -3.7448e-02, -2.8473e-02],
+        ...,
+        [ 5.4851e-02,  2.8397e-02,  8.3007e-02,  ...,  4.4650e-02,
+          1.1775e-01,  9.2202e-03],
+        [ 6.6402e-02, -9.7765e-02, -8.7675e-02,  ..., -1.1985e-01,
+         -4.5636e-02,  1.0880e-01],
+        [-5.5372e-02,  7.1734e-02,  2.2360e-02,  ..., -6.9406e-02,
+         -4.5352e-02, -1.5588e-03]], device='cuda:0'), grad: tensor([[ 1.4342e-07,  1.9372e-05,  1.3970e-07,  ..., -1.4510e-06,
+          1.3970e-07,  3.1199e-07],
+        [ 8.0187e-07,  1.8151e-06,  2.7549e-06,  ...,  1.8803e-06,
+          1.3104e-06, -3.1199e-07],
+        [ 3.4831e-07,  7.8324e-07,  2.4494e-07,  ..., -1.0030e-06,
+         -1.0217e-06,  6.0257e-07],
+        ...,
+        [-3.6117e-06,  9.2015e-07, -2.6450e-07,  ...,  2.4252e-06,
+         -4.2245e-06,  5.7183e-07],
+        [-1.1541e-05,  1.0552e-06,  3.1050e-06,  ...,  2.4587e-06,
+         -4.2655e-06, -1.5870e-05],
+        [ 1.1988e-05,  1.2502e-05,  1.0289e-05,  ...,  7.7263e-06,
+          8.8587e-06,  1.4290e-05]], device='cuda:0')
+Epoch 110, bias, value: tensor([-0.0094, -0.0106, -0.0052, -0.0144, -0.0100, -0.0015,  0.0104,  0.0078,
+         0.0178, -0.0038], device='cuda:0'), grad: tensor([ 6.9141e-05,  6.2808e-06,  1.4603e-06, -3.7789e-05,  4.2439e-05,
+         3.2395e-05, -1.4460e-04,  1.9027e-06, -2.1368e-05,  5.0336e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 109, time 214.36, cls_loss 0.0054 cls_loss_mapping 0.0080 cls_loss_causal 0.5582 re_mapping 0.0092 re_causal 0.0266 /// teacc 98.76 lr 0.00010000
+Epoch 111, weight, value: tensor([[-0.1331,  0.0642, -0.0069,  ..., -0.0106, -0.0687, -0.0857],
+        [ 0.0256,  0.0546, -0.0864,  ..., -0.0826, -0.0229,  0.0739],
+        [ 0.0528, -0.0707, -0.0776,  ..., -0.0003, -0.0375, -0.0287],
+        ...,
+        [ 0.0550,  0.0278,  0.0831,  ...,  0.0448,  0.1179,  0.0091],
+        [ 0.0665, -0.0984, -0.0883,  ..., -0.1208, -0.0460,  0.1092],
+        [-0.0555,  0.0719,  0.0226,  ..., -0.0703, -0.0458, -0.0023]],
+       device='cuda:0'), grad: tensor([[ 2.3842e-07, -8.9593e-07,  5.0943e-07,  ...,  3.8836e-07,
+          5.7090e-07,  1.7043e-07],
+        [-1.2508e-06, -4.4033e-06,  4.1071e-07,  ...,  3.9395e-07,
+         -4.2878e-06, -1.0870e-05],
+        [ 2.3395e-06,  3.4943e-06,  1.6978e-06,  ...,  1.2107e-06,
+          5.3942e-06,  8.6799e-06],
+        ...,
+        [-7.7248e-05, -4.1366e-05, -1.8632e-04,  ..., -3.6240e-05,
+         -1.5855e-04,  1.1921e-06],
+        [-2.6729e-06, -1.9632e-06,  2.5891e-07,  ..., -5.1875e-07,
+          3.6508e-07, -5.1260e-06],
+        [ 6.6400e-05,  4.1872e-05,  1.6725e-04,  ...,  2.1443e-05,
+          1.3733e-04,  8.5682e-07]], device='cuda:0')
+Epoch 111, bias, value: tensor([-0.0100, -0.0107, -0.0054, -0.0144, -0.0099, -0.0013,  0.0105,  0.0084,
+         0.0174, -0.0039], device='cuda:0'), grad: tensor([ 2.4866e-07, -1.6987e-05,  1.6823e-05,  1.7434e-05,  3.0696e-06,
+         8.1956e-06, -2.9206e-06, -2.2268e-04, -6.3032e-06,  2.0289e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 110, time 214.95, cls_loss 0.0049 cls_loss_mapping 0.0083 cls_loss_causal 0.5674 re_mapping 0.0097 re_causal 0.0276 /// teacc 98.90 lr 0.00010000
+Epoch 112, weight, value: tensor([[-0.1340,  0.0644, -0.0079,  ..., -0.0113, -0.0694, -0.0863],
+        [ 0.0256,  0.0552, -0.0867,  ..., -0.0828, -0.0227,  0.0743],
+        [ 0.0535, -0.0712, -0.0779,  ...,  0.0002, -0.0372, -0.0288],
+        ...,
+        [ 0.0548,  0.0276,  0.0833,  ...,  0.0447,  0.1179,  0.0088],
+        [ 0.0667, -0.0986, -0.0888,  ..., -0.1218, -0.0464,  0.1100],
+        [-0.0555,  0.0716,  0.0228,  ..., -0.0716, -0.0458, -0.0027]],
+       device='cuda:0'), grad: tensor([[ 4.9360e-08, -4.0643e-06,  1.5926e-07,  ..., -1.5013e-06,
+          5.1223e-08,  2.6077e-08],
+        [-6.2399e-08, -4.9360e-08,  5.4110e-07,  ...,  7.3016e-07,
+          6.7055e-08, -9.7603e-07],
+        [ 9.4064e-08,  9.6206e-07,  9.2108e-07,  ..., -3.9116e-08,
+         -3.4552e-07,  2.0210e-07],
+        ...,
+        [-1.8720e-07,  6.0536e-07,  2.6915e-07,  ...,  9.4343e-07,
+         -3.3248e-07,  2.7660e-07],
+        [ 5.4017e-08,  1.1669e-06,  5.7463e-07,  ...,  1.0263e-06,
+          3.5390e-08,  4.9360e-08],
+        [ 3.0827e-07,  2.5164e-06,  9.6206e-07,  ...,  1.3663e-06,
+          1.7509e-07,  2.2445e-07]], device='cuda:0')
+Epoch 112, bias, value: tensor([-0.0099, -0.0103, -0.0052, -0.0138, -0.0097, -0.0018,  0.0111,  0.0081,
+         0.0174, -0.0043], device='cuda:0'), grad: tensor([-4.2096e-06,  3.6228e-07,  2.2389e-06, -5.0217e-06,  1.6168e-06,
+         2.6435e-05, -4.1962e-05,  2.2165e-06,  9.4846e-06,  8.7619e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 111, time 214.83, cls_loss 0.0041 cls_loss_mapping 0.0068 cls_loss_causal 0.5715 re_mapping 0.0088 re_causal 0.0273 /// teacc 98.81 lr 0.00010000
+Epoch 113, weight, value: tensor([[-1.3488e-01,  6.4776e-02, -8.3121e-03,  ..., -1.0928e-02,
+         -7.0167e-02, -8.6715e-02],
+        [ 2.5152e-02,  5.5399e-02, -8.6895e-02,  ..., -8.3144e-02,
+         -2.2846e-02,  7.4103e-02],
+        [ 5.3771e-02, -7.1466e-02, -7.8507e-02,  ...,  7.1163e-05,
+         -3.7105e-02, -2.8292e-02],
+        ...,
+        [ 5.4838e-02,  2.7564e-02,  8.3689e-02,  ...,  4.5115e-02,
+          1.1820e-01,  8.5024e-03],
+        [ 6.7641e-02, -9.9024e-02, -8.9214e-02,  ..., -1.2225e-01,
+         -4.6433e-02,  1.1102e-01],
+        [-5.5626e-02,  7.1637e-02,  2.3037e-02,  ..., -7.2606e-02,
+         -4.5843e-02, -2.9646e-03]], device='cuda:0'), grad: tensor([[ 7.2550e-07, -1.4079e-04,  4.3865e-07,  ...,  6.2585e-07,
+          5.6345e-07,  2.7604e-06],
+        [ 2.3559e-05,  4.5914e-07,  1.0245e-06,  ...,  5.5321e-07,
+          2.5973e-05, -3.2485e-06],
+        [-3.4571e-05,  1.4063e-06,  9.5367e-07,  ..., -1.5637e-06,
+         -3.5763e-05,  1.2852e-07],
+        ...,
+        [-4.6603e-06,  8.6892e-07, -1.3702e-05,  ..., -5.5395e-06,
+         -5.3607e-06,  9.7975e-07],
+        [ 1.5022e-06,  4.0047e-06,  1.1213e-06,  ...,  6.9663e-07,
+          1.3039e-06,  1.0710e-06],
+        [ 5.8040e-06,  1.4222e-04,  1.0118e-05,  ...,  4.2282e-06,
+          6.3106e-06,  1.5963e-06]], device='cuda:0')
+Epoch 113, bias, value: tensor([-0.0096, -0.0109, -0.0047, -0.0134, -0.0101, -0.0019,  0.0114,  0.0079,
+         0.0177, -0.0044], device='cuda:0'), grad: tensor([-1.9121e-04,  9.1374e-05, -1.3173e-04,  1.6719e-05, -4.0144e-05,
+        -5.8766e-07, -1.7717e-05,  1.6158e-06,  1.9297e-05,  2.5177e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 112, time 214.88, cls_loss 0.0063 cls_loss_mapping 0.0076 cls_loss_causal 0.5927 re_mapping 0.0093 re_causal 0.0269 /// teacc 98.89 lr 0.00010000
+Epoch 114, weight, value: tensor([[-0.1357,  0.0648, -0.0085,  ..., -0.0112, -0.0713, -0.0869],
+        [ 0.0282,  0.0548, -0.0873,  ..., -0.0790, -0.0197,  0.0743],
+        [ 0.0503, -0.0712, -0.0791,  ..., -0.0021, -0.0407, -0.0287],
+        ...,
+        [ 0.0551,  0.0275,  0.0842,  ...,  0.0454,  0.1185,  0.0085],
+        [ 0.0681, -0.0994, -0.0895,  ..., -0.1229, -0.0468,  0.1118],
+        [-0.0560,  0.0717,  0.0228,  ..., -0.0736, -0.0461, -0.0034]],
+       device='cuda:0'), grad: tensor([[ 5.2340e-07, -7.4841e-06,  2.4494e-06,  ...,  1.1055e-06,
+          2.2817e-07,  5.0850e-07],
+        [ 2.2221e-06, -1.3784e-07,  1.7164e-06,  ...,  1.2154e-06,
+          2.7902e-06, -4.8149e-07],
+        [-4.4145e-06,  9.8255e-07,  4.7050e-06,  ...,  7.2643e-08,
+         -6.9253e-06,  7.3574e-07],
+        ...,
+        [ 3.9116e-07,  1.5516e-06,  1.0513e-05,  ...,  5.5134e-06,
+          9.1083e-07,  7.3481e-07],
+        [-7.1079e-06,  4.0568e-06,  2.7776e-05,  ...,  1.2122e-05,
+          5.1316e-07, -1.0759e-05],
+        [ 2.9132e-06,  2.5824e-05,  2.6631e-04,  ...,  1.1253e-04,
+          8.9779e-07,  4.4703e-06]], device='cuda:0')
+Epoch 114, bias, value: tensor([-0.0099, -0.0083, -0.0072, -0.0139, -0.0099, -0.0016,  0.0113,  0.0080,
+         0.0177, -0.0045], device='cuda:0'), grad: tensor([-1.3210e-05,  5.0589e-06, -3.7663e-06, -3.5930e-04,  1.0822e-06,
+         2.5481e-05,  6.7316e-06,  1.6645e-05,  2.0415e-05,  3.0112e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 113, time 214.89, cls_loss 0.0062 cls_loss_mapping 0.0073 cls_loss_causal 0.5676 re_mapping 0.0088 re_causal 0.0270 /// teacc 98.84 lr 0.00010000
+Epoch 115, weight, value: tensor([[-0.1388,  0.0652, -0.0088,  ..., -0.0113, -0.0721, -0.0897],
+        [ 0.0309,  0.0545, -0.0859,  ..., -0.0748, -0.0177,  0.0764],
+        [ 0.0474, -0.0710, -0.0815,  ..., -0.0054, -0.0428, -0.0317],
+        ...,
+        [ 0.0555,  0.0274,  0.0848,  ...,  0.0456,  0.1191,  0.0084],
+        [ 0.0692, -0.0990, -0.0898,  ..., -0.1235, -0.0473,  0.1134],
+        [-0.0564,  0.0719,  0.0227,  ..., -0.0743, -0.0465, -0.0037]],
+       device='cuda:0'), grad: tensor([[ 2.7474e-07,  6.9197e-07,  7.6741e-07,  ...,  1.6112e-07,
+          3.1292e-07,  1.5926e-07],
+        [ 3.8370e-07,  3.8091e-07,  6.5099e-07,  ...,  4.8243e-07,
+          5.1130e-07,  2.2817e-07],
+        [ 1.3039e-08,  2.9150e-07,  1.8906e-07,  ..., -6.6124e-07,
+         -6.3330e-08,  3.0920e-07],
+        ...,
+        [-7.0110e-06,  5.0701e-06, -1.2718e-05,  ..., -2.0377e-06,
+         -1.3858e-05,  6.4224e-06],
+        [ 7.5903e-07,  1.8738e-06,  2.0266e-06,  ...,  1.4799e-06,
+          5.5693e-07,  6.4448e-07],
+        [ 4.8615e-06, -1.2584e-05, -4.8839e-06,  ...,  2.5388e-06,
+          1.1258e-05,  1.5730e-06]], device='cuda:0')
+Epoch 115, bias, value: tensor([-0.0101, -0.0056, -0.0097, -0.0145, -0.0099, -0.0016,  0.0108,  0.0082,
+         0.0185, -0.0046], device='cuda:0'), grad: tensor([ 1.7257e-06,  1.6615e-06, -8.3353e-07, -2.1420e-07,  3.6173e-06,
+         2.4997e-06,  1.2564e-06, -8.1062e-06,  6.3628e-06, -7.9349e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 114, time 214.63, cls_loss 0.0044 cls_loss_mapping 0.0074 cls_loss_causal 0.5560 re_mapping 0.0085 re_causal 0.0258 /// teacc 98.91 lr 0.00010000
+Epoch 116, weight, value: tensor([[-0.1393,  0.0652, -0.0093,  ..., -0.0115, -0.0740, -0.0900],
+        [ 0.0307,  0.0549, -0.0867,  ..., -0.0751, -0.0182,  0.0768],
+        [ 0.0472, -0.0714, -0.0818,  ..., -0.0058, -0.0434, -0.0318],
+        ...,
+        [ 0.0569,  0.0274,  0.0856,  ...,  0.0472,  0.1210,  0.0085],
+        [ 0.0699, -0.0991, -0.0907,  ..., -0.1244, -0.0480,  0.1144],
+        [-0.0570,  0.0720,  0.0227,  ..., -0.0760, -0.0470, -0.0043]],
+       device='cuda:0'), grad: tensor([[ 5.3197e-06, -2.9316e-03,  7.3984e-06,  ..., -5.3365e-07,
+         -4.9025e-05,  2.6524e-06],
+        [ 6.6280e-05,  4.8280e-06,  8.2627e-06,  ...,  5.5917e-06,
+          1.4931e-05,  1.1736e-04],
+        [-1.5900e-05,  1.0319e-05,  6.5826e-06,  ..., -9.0003e-06,
+         -3.9846e-05,  7.5847e-06],
+        ...,
+        [-2.0221e-05,  5.3905e-06, -2.0266e-06,  ..., -1.7896e-05,
+         -2.7701e-05, -2.2128e-06],
+        [-9.8765e-05,  2.9728e-06,  1.0937e-05,  ..., -3.2037e-06,
+          3.5465e-06, -2.1231e-04],
+        [ 3.9488e-05,  2.8419e-03,  4.0114e-05,  ...,  2.1458e-05,
+          7.9036e-05,  3.0428e-05]], device='cuda:0')
+Epoch 116, bias, value: tensor([-0.0103, -0.0058, -0.0098, -0.0142, -0.0101, -0.0020,  0.0106,  0.0092,
+         0.0187, -0.0050], device='cuda:0'), grad: tensor([-4.9896e-03,  1.9252e-04,  4.6879e-05,  3.2544e-04,  1.2362e-04,
+        -1.3437e-03,  7.3016e-05,  4.9973e-04, -8.3029e-05,  5.1575e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 115, time 214.72, cls_loss 0.0058 cls_loss_mapping 0.0062 cls_loss_causal 0.5531 re_mapping 0.0089 re_causal 0.0248 /// teacc 98.77 lr 0.00010000
+Epoch 117, weight, value: tensor([[-0.1403,  0.0662, -0.0098,  ..., -0.0116, -0.0759, -0.0903],
+        [ 0.0309,  0.0538, -0.0868,  ..., -0.0749, -0.0179,  0.0771],
+        [ 0.0469, -0.0701, -0.0824,  ..., -0.0059, -0.0438, -0.0324],
+        ...,
+        [ 0.0575,  0.0271,  0.0860,  ...,  0.0473,  0.1216,  0.0088],
+        [ 0.0702, -0.0996, -0.0917,  ..., -0.1253, -0.0484,  0.1150],
+        [-0.0572,  0.0724,  0.0233,  ..., -0.0767, -0.0476, -0.0036]],
+       device='cuda:0'), grad: tensor([[ 6.5286e-07, -1.6436e-05,  5.1223e-07,  ...,  2.4028e-07,
+          4.0606e-07, -1.7695e-08],
+        [ 1.5378e-05,  1.0449e-06,  1.0647e-05,  ...,  5.6960e-06,
+          7.5884e-06,  4.0606e-06],
+        [ 6.6012e-06,  1.2582e-06,  5.9530e-06,  ..., -4.2468e-07,
+          1.5823e-06,  1.6866e-06],
+        ...,
+        [-1.6421e-05,  1.8151e-06, -2.4468e-05,  ..., -1.0036e-05,
+         -1.6600e-05,  1.2092e-05],
+        [-2.4080e-05,  2.3898e-06,  2.2780e-06,  ...,  1.3085e-06,
+          1.1632e-06, -2.9862e-05],
+        [ 3.5372e-06,  1.7043e-07, -1.9185e-06,  ...,  8.8383e-07,
+          1.6028e-06,  2.0899e-06]], device='cuda:0')
+Epoch 117, bias, value: tensor([-0.0096, -0.0059, -0.0094, -0.0146, -0.0113, -0.0016,  0.0100,  0.0093,
+         0.0184, -0.0046], device='cuda:0'), grad: tensor([-4.1783e-05,  2.7061e-05,  7.5176e-06,  7.4804e-06,  7.3835e-06,
+         1.2204e-05,  2.0504e-05, -2.0280e-05, -2.5511e-05,  5.2787e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 116, time 214.80, cls_loss 0.0048 cls_loss_mapping 0.0063 cls_loss_causal 0.5858 re_mapping 0.0089 re_causal 0.0266 /// teacc 98.90 lr 0.00010000
+Epoch 118, weight, value: tensor([[-0.1412,  0.0664, -0.0105,  ..., -0.0127, -0.0768, -0.0908],
+        [ 0.0310,  0.0554, -0.0864,  ..., -0.0750, -0.0179,  0.0780],
+        [ 0.0471, -0.0702, -0.0823,  ..., -0.0057, -0.0435, -0.0326],
+        ...,
+        [ 0.0577,  0.0255,  0.0862,  ...,  0.0472,  0.1217,  0.0081],
+        [ 0.0710, -0.0998, -0.0927,  ..., -0.1261, -0.0491,  0.1160],
+        [-0.0578,  0.0715,  0.0228,  ..., -0.0774, -0.0481, -0.0052]],
+       device='cuda:0'), grad: tensor([[ 3.8296e-06, -3.2969e-07,  1.7723e-06,  ...,  1.5832e-07,
+          4.0680e-06,  1.6391e-06],
+        [ 4.1466e-03,  1.0179e-06,  1.8196e-03,  ...,  4.6901e-06,
+          4.3755e-03,  1.6356e-03],
+        [ 9.2015e-06,  3.9004e-06,  1.6987e-05,  ..., -5.7444e-06,
+          1.2912e-05,  2.0012e-05],
+        ...,
+        [-4.2801e-03,  9.1493e-06, -1.8911e-03,  ...,  5.7649e-07,
+         -4.5166e-03, -1.6918e-03],
+        [ 2.0400e-05,  7.1339e-06,  9.4995e-06,  ...,  1.3532e-06,
+          2.0012e-05,  1.0215e-05],
+        [ 1.4693e-05,  1.2852e-05,  4.9435e-06,  ...,  4.1164e-07,
+          1.6332e-05,  2.3976e-05]], device='cuda:0')
+Epoch 118, bias, value: tensor([-0.0099, -0.0056, -0.0092, -0.0140, -0.0110, -0.0020,  0.0096,  0.0094,
+         0.0186, -0.0054], device='cuda:0'), grad: tensor([ 6.7502e-06,  7.0381e-03,  3.3289e-05,  1.5926e-04, -7.4208e-05,
+        -2.8566e-05,  4.6100e-07, -7.2556e-03,  5.0962e-05,  6.8367e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 117, time 214.99, cls_loss 0.0034 cls_loss_mapping 0.0078 cls_loss_causal 0.5768 re_mapping 0.0091 re_causal 0.0257 /// teacc 98.88 lr 0.00010000
+Epoch 119, weight, value: tensor([[-0.1416,  0.0666, -0.0108,  ..., -0.0129, -0.0771, -0.0911],
+        [ 0.0304,  0.0554, -0.0874,  ..., -0.0751, -0.0184,  0.0777],
+        [ 0.0475, -0.0702, -0.0819,  ..., -0.0053, -0.0431, -0.0327],
+        ...,
+        [ 0.0582,  0.0251,  0.0866,  ...,  0.0471,  0.1222,  0.0084],
+        [ 0.0719, -0.0999, -0.0931,  ..., -0.1266, -0.0495,  0.1175],
+        [-0.0580,  0.0712,  0.0231,  ..., -0.0778, -0.0482, -0.0058]],
+       device='cuda:0'), grad: tensor([[ 9.2834e-06,  4.1388e-06,  2.2035e-06,  ...,  6.9849e-07,
+          1.4771e-06,  1.2524e-05],
+        [-1.2422e-04, -1.1867e-04,  1.7006e-06,  ...,  1.7341e-06,
+         -4.6521e-05, -2.1970e-04],
+        [ 4.9993e-06,  3.1777e-06, -7.1432e-07,  ..., -6.0722e-07,
+         -5.4762e-06,  4.7088e-05],
+        ...,
+        [ 2.1726e-05,  1.7092e-05, -1.2917e-06,  ..., -7.9628e-07,
+          8.7544e-06,  5.2631e-05],
+        [-2.1309e-05,  7.1347e-05,  1.1176e-06,  ..., -4.3474e-06,
+          3.2514e-05,  5.0038e-05],
+        [ 1.5721e-05,  8.6799e-06, -6.2846e-06,  ..., -1.8254e-07,
+          4.9882e-06,  3.5375e-05]], device='cuda:0')
+Epoch 119, bias, value: tensor([-0.0099, -0.0062, -0.0088, -0.0144, -0.0107, -0.0018,  0.0097,  0.0096,
+         0.0193, -0.0058], device='cuda:0'), grad: tensor([ 3.1412e-05, -3.4285e-04,  1.8847e-04,  9.9838e-05, -4.0960e-04,
+         2.8938e-05,  1.1617e-04,  1.5664e-04,  4.6968e-05,  8.3923e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 118, time 214.55, cls_loss 0.0035 cls_loss_mapping 0.0060 cls_loss_causal 0.5798 re_mapping 0.0087 re_causal 0.0265 /// teacc 98.91 lr 0.00010000
+Epoch 120, weight, value: tensor([[-0.1421,  0.0665, -0.0110,  ..., -0.0133, -0.0781, -0.0915],
+        [ 0.0302,  0.0557, -0.0878,  ..., -0.0752, -0.0188,  0.0779],
+        [ 0.0486, -0.0703, -0.0809,  ..., -0.0049, -0.0422, -0.0321],
+        ...,
+        [ 0.0580,  0.0251,  0.0867,  ...,  0.0471,  0.1223,  0.0084],
+        [ 0.0708, -0.1003, -0.0934,  ..., -0.1270, -0.0503,  0.1172],
+        [-0.0589,  0.0711,  0.0231,  ..., -0.0786, -0.0488, -0.0063]],
+       device='cuda:0'), grad: tensor([[ 1.1986e-06,  3.4608e-06,  4.4852e-06,  ...,  2.3469e-07,
+          5.0571e-07,  7.2233e-06],
+        [-3.1203e-05,  3.0136e-04,  3.5310e-04,  ...,  1.7006e-06,
+         -2.2613e-06,  3.8171e-04],
+        [ 6.6347e-06,  1.4022e-05,  1.4544e-05,  ..., -1.5814e-06,
+         -2.8759e-06,  2.7448e-05],
+        ...,
+        [ 1.5739e-07,  1.4372e-05,  6.9179e-06,  ..., -2.5854e-06,
+         -2.6207e-06,  2.2456e-05],
+        [ 1.7196e-05,  5.1796e-05,  2.6733e-05,  ..., -5.2713e-07,
+          3.9227e-06,  7.3612e-05],
+        [ 3.0790e-06, -9.1457e-04, -9.6369e-04,  ...,  6.8359e-07,
+          1.0375e-06, -1.2274e-03]], device='cuda:0')
+Epoch 120, bias, value: tensor([-0.0100, -0.0065, -0.0078, -0.0145, -0.0110, -0.0016,  0.0096,  0.0096,
+         0.0183, -0.0061], device='cuda:0'), grad: tensor([ 1.6421e-05,  1.1120e-03,  5.6505e-05,  1.6394e-03,  4.1455e-05,
+         2.1982e-04,  2.4438e-06,  4.4674e-05,  1.5497e-04, -3.2864e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 119, time 214.90, cls_loss 0.0036 cls_loss_mapping 0.0054 cls_loss_causal 0.5874 re_mapping 0.0083 re_causal 0.0261 /// teacc 98.84 lr 0.00010000
+Epoch 121, weight, value: tensor([[-0.1424,  0.0664, -0.0113,  ..., -0.0130, -0.0791, -0.0917],
+        [ 0.0304,  0.0558, -0.0875,  ..., -0.0753, -0.0186,  0.0784],
+        [ 0.0488, -0.0706, -0.0809,  ..., -0.0049, -0.0421, -0.0323],
+        ...,
+        [ 0.0574,  0.0247,  0.0864,  ...,  0.0472,  0.1221,  0.0075],
+        [ 0.0716, -0.1009, -0.0931,  ..., -0.1273, -0.0496,  0.1182],
+        [-0.0593,  0.0717,  0.0234,  ..., -0.0790, -0.0493, -0.0063]],
+       device='cuda:0'), grad: tensor([[ 1.1791e-06, -2.0996e-05,  1.5264e-06,  ..., -3.1106e-07,
+          1.0580e-06,  4.2561e-07],
+        [ 1.1817e-05,  5.8673e-07,  1.7300e-05,  ...,  2.6394e-06,
+          1.2539e-05,  2.9057e-06],
+        [ 6.3144e-06,  1.4156e-06,  8.1658e-06,  ...,  1.0012e-06,
+          5.6587e-06,  1.9316e-06],
+        ...,
+        [-1.0002e-04,  9.0003e-06, -1.5390e-04,  ..., -2.2918e-05,
+         -8.7440e-05,  3.2246e-05],
+        [ 3.4925e-06,  1.7947e-06,  8.2776e-06,  ...,  1.4817e-06,
+          6.2175e-06, -2.7474e-07],
+        [ 6.7294e-05,  9.1121e-06,  8.4817e-05,  ...,  1.3545e-05,
+          7.3254e-05,  1.4916e-05]], device='cuda:0')
+Epoch 121, bias, value: tensor([-0.0101, -0.0062, -0.0078, -0.0148, -0.0110, -0.0022,  0.0104,  0.0089,
+         0.0183, -0.0056], device='cuda:0'), grad: tensor([-3.6329e-05,  3.0279e-05,  2.1949e-05,  4.1425e-05, -2.1756e-04,
+         2.8592e-07, -1.3672e-05, -5.5507e-06,  2.5049e-05,  1.5402e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 120, time 214.78, cls_loss 0.0040 cls_loss_mapping 0.0066 cls_loss_causal 0.5680 re_mapping 0.0084 re_causal 0.0251 /// teacc 98.87 lr 0.00010000
+Epoch 122, weight, value: tensor([[-0.1430,  0.0675, -0.0117,  ..., -0.0131, -0.0799, -0.0919],
+        [ 0.0305,  0.0556, -0.0872,  ..., -0.0754, -0.0185,  0.0787],
+        [ 0.0491, -0.0706, -0.0808,  ..., -0.0044, -0.0419, -0.0325],
+        ...,
+        [ 0.0573,  0.0248,  0.0869,  ...,  0.0472,  0.1224,  0.0074],
+        [ 0.0719, -0.1021, -0.0939,  ..., -0.1280, -0.0498,  0.1193],
+        [-0.0602,  0.0725,  0.0233,  ..., -0.0797, -0.0500, -0.0063]],
+       device='cuda:0'), grad: tensor([[ 8.5123e-07,  5.7369e-07,  1.0617e-06,  ...,  6.3330e-07,
+          1.0468e-06,  3.0920e-07],
+        [ 1.3877e-07, -1.5553e-07,  2.0266e-06,  ...,  1.6941e-06,
+          9.1549e-07, -4.0829e-06],
+        [-4.9453e-07,  3.1330e-06,  3.1721e-06,  ..., -1.0217e-06,
+         -1.2694e-06,  2.3693e-06],
+        ...,
+        [-1.0714e-05, -6.8061e-06, -1.5825e-05,  ..., -9.6560e-06,
+         -1.5363e-05, -1.0254e-06],
+        [-2.7996e-06,  3.5129e-06,  2.8554e-06,  ...,  1.5870e-06,
+          2.0396e-06, -5.0478e-06],
+        [ 5.3309e-06, -3.1721e-06, -3.8929e-07,  ...,  4.9621e-06,
+          6.8061e-06,  1.3476e-06]], device='cuda:0')
+Epoch 122, bias, value: tensor([-0.0089, -0.0061, -0.0074, -0.0154, -0.0116, -0.0022,  0.0095,  0.0090,
+         0.0180, -0.0054], device='cuda:0'), grad: tensor([ 5.2489e-06, -2.2911e-06,  1.0937e-05,  4.9680e-05,  2.4974e-05,
+        -4.4852e-05, -6.0461e-06, -2.2307e-05,  7.2047e-06, -2.2575e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 121, time 214.61, cls_loss 0.0041 cls_loss_mapping 0.0065 cls_loss_causal 0.5779 re_mapping 0.0091 re_causal 0.0244 /// teacc 98.89 lr 0.00010000
+Epoch 123, weight, value: tensor([[-0.1437,  0.0677, -0.0122,  ..., -0.0132, -0.0809, -0.0924],
+        [ 0.0303,  0.0563, -0.0876,  ..., -0.0755, -0.0187,  0.0791],
+        [ 0.0494, -0.0709, -0.0806,  ..., -0.0041, -0.0415, -0.0326],
+        ...,
+        [ 0.0572,  0.0240,  0.0869,  ...,  0.0467,  0.1224,  0.0068],
+        [ 0.0733, -0.1028, -0.0935,  ..., -0.1292, -0.0487,  0.1210],
+        [-0.0607,  0.0728,  0.0237,  ..., -0.0806, -0.0505, -0.0071]],
+       device='cuda:0'), grad: tensor([[ 1.3784e-07, -2.2165e-06,  1.3318e-07,  ..., -1.6158e-06,
+          1.9651e-07,  2.0210e-07],
+        [-5.0291e-07,  1.1567e-06,  3.0641e-07,  ...,  3.7067e-07,
+          4.4052e-07, -2.4829e-06],
+        [ 7.9162e-07,  5.7928e-07,  1.5544e-06,  ...,  7.6741e-07,
+          6.5379e-07,  7.4785e-07],
+        ...,
+        [-1.5339e-06,  9.3877e-07, -2.1476e-06,  ..., -1.1865e-06,
+         -2.5313e-06,  2.0545e-06],
+        [ 1.6019e-07,  1.0496e-06,  1.9278e-07,  ...,  8.0187e-07,
+          1.4435e-07,  7.9256e-07],
+        [ 1.2945e-07,  1.0077e-06, -7.4506e-08,  ...,  4.6100e-07,
+          1.2573e-07,  7.3668e-07]], device='cuda:0')
+Epoch 123, bias, value: tensor([-0.0091, -0.0063, -0.0071, -0.0155, -0.0118, -0.0022,  0.0103,  0.0086,
+         0.0183, -0.0055], device='cuda:0'), grad: tensor([-4.4927e-06,  1.6857e-07,  2.6636e-06,  1.3672e-06, -1.0036e-05,
+        -1.1828e-06,  1.1194e-06,  8.2422e-07,  6.6161e-06,  2.9169e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 122, time 214.63, cls_loss 0.0044 cls_loss_mapping 0.0070 cls_loss_causal 0.5524 re_mapping 0.0088 re_causal 0.0257 /// teacc 98.85 lr 0.00010000
+Epoch 124, weight, value: tensor([[-0.1442,  0.0682, -0.0125,  ..., -0.0124, -0.0809, -0.0922],
+        [ 0.0304,  0.0566, -0.0876,  ..., -0.0762, -0.0189,  0.0797],
+        [ 0.0494, -0.0713, -0.0815,  ..., -0.0043, -0.0418, -0.0326],
+        ...,
+        [ 0.0572,  0.0232,  0.0873,  ...,  0.0482,  0.1233,  0.0057],
+        [ 0.0737, -0.1036, -0.0941,  ..., -0.1302, -0.0491,  0.1217],
+        [-0.0610,  0.0722,  0.0236,  ..., -0.0821, -0.0507, -0.0078]],
+       device='cuda:0'), grad: tensor([[ 4.7497e-07,  6.3106e-06,  1.1735e-06,  ...,  7.8138e-07,
+          3.8743e-07,  8.8811e-06],
+        [ 1.2722e-06,  2.5984e-06,  2.8033e-06,  ...,  1.2089e-06,
+          1.8580e-06,  2.0266e-06],
+        [ 3.5614e-06,  7.2643e-06,  8.5905e-06,  ...,  8.2627e-06,
+          2.6617e-06,  1.1161e-05],
+        ...,
+        [-2.4959e-06,  3.8482e-06,  5.6624e-07,  ...,  3.7719e-06,
+         -3.8408e-06,  4.7237e-06],
+        [ 4.1686e-06,  4.7460e-06,  9.3728e-06,  ...,  8.3223e-06,
+          3.4198e-06,  7.3463e-06],
+        [ 2.0079e-06, -1.4752e-05, -6.2771e-06,  ...,  1.1409e-06,
+          1.7928e-06, -6.9030e-06]], device='cuda:0')
+Epoch 124, bias, value: tensor([-0.0083, -0.0063, -0.0071, -0.0147, -0.0113, -0.0024,  0.0111,  0.0082,
+         0.0178, -0.0063], device='cuda:0'), grad: tensor([ 3.8207e-05,  1.1228e-05,  3.9220e-05, -3.5614e-05, -1.0973e-04,
+         4.0308e-06,  2.8774e-05,  1.4007e-05,  1.9968e-05, -1.0207e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 123, time 214.54, cls_loss 0.0051 cls_loss_mapping 0.0078 cls_loss_causal 0.5790 re_mapping 0.0088 re_causal 0.0261 /// teacc 98.81 lr 0.00010000
+Epoch 125, weight, value: tensor([[-0.1448,  0.0668, -0.0127,  ..., -0.0142, -0.0814, -0.0930],
+        [ 0.0301,  0.0566, -0.0881,  ..., -0.0765, -0.0192,  0.0795],
+        [ 0.0497, -0.0718, -0.0815,  ..., -0.0043, -0.0415, -0.0325],
+        ...,
+        [ 0.0571,  0.0229,  0.0868,  ...,  0.0475,  0.1237,  0.0053],
+        [ 0.0738, -0.1044, -0.0953,  ..., -0.1314, -0.0495,  0.1220],
+        [-0.0617,  0.0726,  0.0224,  ..., -0.0808, -0.0515, -0.0090]],
+       device='cuda:0'), grad: tensor([[ 3.5949e-07, -1.1474e-06,  7.1898e-07,  ...,  2.8312e-07,
+          7.0129e-07, -4.3772e-08],
+        [ 3.1088e-06,  4.4797e-07,  5.8636e-06,  ...,  3.7756e-06,
+          6.0014e-06, -1.0738e-06],
+        [ 6.7167e-06,  3.8557e-07,  1.3053e-05,  ...,  7.9572e-06,
+          1.3813e-05,  2.5705e-07],
+        ...,
+        [-2.8536e-05,  2.8219e-07, -5.5075e-05,  ..., -3.4302e-05,
+         -5.5045e-05,  2.3376e-07],
+        [-1.6391e-07,  4.4145e-06,  7.3574e-07,  ...,  1.0533e-06,
+          5.0757e-07, -1.6298e-07],
+        [ 1.2899e-06,  5.6159e-07,  2.5947e-06,  ...,  1.9129e-06,
+          2.2836e-06,  4.6939e-07]], device='cuda:0')
+Epoch 125, bias, value: tensor([-0.0104, -0.0067, -0.0070, -0.0166, -0.0093,  0.0005,  0.0108,  0.0078,
+         0.0173, -0.0058], device='cuda:0'), grad: tensor([-1.6857e-07,  8.6501e-06,  1.6987e-05,  5.6267e-05,  2.3320e-06,
+        -9.1255e-05,  5.0902e-05, -6.6400e-05,  1.8269e-05,  4.4331e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 124, time 214.41, cls_loss 0.0038 cls_loss_mapping 0.0062 cls_loss_causal 0.5496 re_mapping 0.0084 re_causal 0.0243 /// teacc 98.93 lr 0.00010000
+Epoch 126, weight, value: tensor([[-0.1453,  0.0663, -0.0137,  ..., -0.0149, -0.0820, -0.0931],
+        [ 0.0300,  0.0568, -0.0889,  ..., -0.0766, -0.0194,  0.0796],
+        [ 0.0496, -0.0722, -0.0819,  ..., -0.0043, -0.0415, -0.0328],
+        ...,
+        [ 0.0575,  0.0223,  0.0873,  ...,  0.0477,  0.1241,  0.0052],
+        [ 0.0746, -0.1055, -0.0966,  ..., -0.1333, -0.0497,  0.1229],
+        [-0.0617,  0.0739,  0.0232,  ..., -0.0816, -0.0517, -0.0083]],
+       device='cuda:0'), grad: tensor([[ 6.3796e-07,  7.3798e-06,  1.0636e-06,  ...,  3.1292e-07,
+          6.5099e-07,  1.3504e-06],
+        [ 3.8892e-06, -6.8806e-06,  4.0792e-06,  ...,  2.4810e-06,
+          4.1015e-06, -2.8223e-05],
+        [ 8.8364e-06,  3.4254e-06,  1.1049e-05,  ...,  6.3404e-06,
+          1.2197e-05,  9.2313e-06],
+        ...,
+        [-1.9848e-05,  2.5760e-06, -2.7820e-05,  ..., -1.5602e-05,
+         -3.0905e-05,  2.8778e-06],
+        [-3.0845e-05,  8.9929e-06,  1.1930e-06,  ...,  8.4005e-07,
+          7.4878e-07, -3.1829e-05],
+        [ 1.4575e-06,  2.5183e-05,  5.8860e-07,  ...,  1.7462e-06,
+          1.7378e-06,  1.2016e-04]], device='cuda:0')
+Epoch 126, bias, value: tensor([-1.0898e-02, -6.7702e-03, -7.0332e-03, -1.5952e-02, -9.9472e-03,
+        -5.1618e-05,  1.0435e-02,  7.8232e-03,  1.6963e-02, -4.7845e-03],
+       device='cuda:0'), grad: tensor([ 4.7743e-05, -4.7207e-05,  3.4213e-05,  2.7090e-05, -3.4380e-04,
+         6.2823e-05,  7.0572e-05, -2.4021e-05, -2.0549e-05,  1.9348e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 125, time 214.35, cls_loss 0.0042 cls_loss_mapping 0.0068 cls_loss_causal 0.5487 re_mapping 0.0082 re_causal 0.0238 /// teacc 98.87 lr 0.00010000
+Epoch 127, weight, value: tensor([[-0.1461,  0.0661, -0.0139,  ..., -0.0148, -0.0828, -0.0941],
+        [ 0.0303,  0.0576, -0.0890,  ..., -0.0766, -0.0191,  0.0811],
+        [ 0.0493, -0.0730, -0.0827,  ..., -0.0047, -0.0419, -0.0342],
+        ...,
+        [ 0.0576,  0.0214,  0.0876,  ...,  0.0477,  0.1244,  0.0046],
+        [ 0.0747, -0.1079, -0.0975,  ..., -0.1344, -0.0500,  0.1232],
+        [-0.0620,  0.0749,  0.0234,  ..., -0.0826, -0.0519, -0.0085]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-07, -2.5127e-06,  1.5097e-06,  ...,  1.7472e-06,
+          2.4866e-07,  4.6566e-08],
+        [ 5.3830e-07,  8.4098e-07,  2.6524e-06,  ...,  2.5835e-06,
+          1.0682e-06, -7.9162e-08],
+        [-1.9670e-06,  7.3798e-06,  2.5570e-05,  ...,  3.0160e-05,
+         -3.5632e-06,  2.1607e-07],
+        ...,
+        [-1.7500e-04, -9.0241e-05, -4.7684e-04,  ..., -3.9309e-05,
+         -4.3845e-04,  1.0617e-07],
+        [-1.0096e-06,  1.6615e-06,  2.0005e-06,  ...,  2.3842e-06,
+          3.8929e-07, -1.5590e-06],
+        [ 1.7548e-04,  9.1434e-05,  4.7493e-04,  ...,  4.3184e-05,
+          4.3821e-04,  3.9954e-07]], device='cuda:0')
+Epoch 127, bias, value: tensor([-0.0110, -0.0063, -0.0076, -0.0147, -0.0102, -0.0010,  0.0109,  0.0076,
+         0.0155, -0.0040], device='cuda:0'), grad: tensor([-2.6990e-06,  7.5586e-06,  5.0902e-05, -7.5042e-05,  3.8892e-06,
+         1.6403e-04, -1.6320e-04, -6.8521e-04,  7.7263e-06,  6.9237e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 126, time 214.78, cls_loss 0.0037 cls_loss_mapping 0.0065 cls_loss_causal 0.5467 re_mapping 0.0085 re_causal 0.0241 /// teacc 98.86 lr 0.00010000
+Epoch 128, weight, value: tensor([[-0.1465,  0.0663, -0.0143,  ..., -0.0150, -0.0836, -0.0944],
+        [ 0.0300,  0.0577, -0.0894,  ..., -0.0767, -0.0192,  0.0809],
+        [ 0.0493, -0.0733, -0.0834,  ..., -0.0049, -0.0420, -0.0343],
+        ...,
+        [ 0.0571,  0.0213,  0.0875,  ...,  0.0475,  0.1241,  0.0034],
+        [ 0.0775, -0.1084, -0.0948,  ..., -0.1327, -0.0474,  0.1256],
+        [-0.0642,  0.0745,  0.0225,  ..., -0.0832, -0.0537, -0.0091]],
+       device='cuda:0'), grad: tensor([[ 7.7020e-07, -6.4634e-07,  1.2536e-06,  ...,  4.8615e-07,
+          1.2834e-06,  8.8476e-08],
+        [ 3.3349e-05,  9.6709e-06,  5.4866e-05,  ...,  3.4660e-05,
+          6.7115e-05, -1.1772e-06],
+        [ 6.8583e-06,  2.9504e-06,  1.0230e-05,  ...,  1.8338e-06,
+          1.1399e-05,  5.2992e-07],
+        ...,
+        [-1.7989e-04, -5.6863e-05, -2.7418e-04,  ..., -1.3602e-04,
+         -3.3307e-04, -1.5348e-06],
+        [ 2.8890e-06,  1.7453e-06,  8.1360e-06,  ...,  4.6454e-06,
+          9.9540e-06, -2.3302e-06],
+        [ 8.3923e-05,  1.8075e-05,  1.2010e-04,  ...,  5.7787e-05,
+          1.5318e-04,  6.0257e-07]], device='cuda:0')
+Epoch 128, bias, value: tensor([-0.0110, -0.0065, -0.0078, -0.0147, -0.0099, -0.0010,  0.0109,  0.0077,
+         0.0175, -0.0052], device='cuda:0'), grad: tensor([ 5.9083e-06,  1.1575e-04,  1.9982e-05,  1.1176e-04,  5.8740e-05,
+         1.2882e-05, -1.2353e-05, -5.7125e-04,  1.3717e-05,  2.4533e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 127, time 214.54, cls_loss 0.0034 cls_loss_mapping 0.0055 cls_loss_causal 0.5744 re_mapping 0.0080 re_causal 0.0250 /// teacc 98.73 lr 0.00010000
+Epoch 129, weight, value: tensor([[-0.1472,  0.0663, -0.0146,  ..., -0.0151, -0.0844, -0.0949],
+        [ 0.0295,  0.0577, -0.0902,  ..., -0.0773, -0.0198,  0.0810],
+        [ 0.0493, -0.0734, -0.0839,  ..., -0.0049, -0.0422, -0.0343],
+        ...,
+        [ 0.0579,  0.0217,  0.0886,  ...,  0.0484,  0.1252,  0.0033],
+        [ 0.0776, -0.1088, -0.0950,  ..., -0.1331, -0.0475,  0.1260],
+        [-0.0647,  0.0747,  0.0223,  ..., -0.0839, -0.0542, -0.0090]],
+       device='cuda:0'), grad: tensor([[ 2.7008e-07, -1.8343e-05,  1.9092e-07,  ..., -8.1137e-06,
+          2.0489e-08,  7.7393e-07],
+        [-1.1353e-06, -1.7919e-06,  3.7439e-07,  ...,  4.6846e-07,
+         -1.8626e-09, -4.1649e-06],
+        [-6.8918e-08,  4.1723e-06,  2.3004e-07,  ...,  1.7025e-06,
+         -1.4156e-07,  4.2003e-07],
+        ...,
+        [ 2.5425e-07,  2.6189e-06,  2.5425e-06,  ...,  3.8091e-07,
+          1.9744e-07,  8.6799e-07],
+        [ 6.3330e-08,  2.3916e-06,  1.5534e-06,  ...,  8.3819e-07,
+          6.5193e-08,  4.9174e-07],
+        [ 6.9849e-08,  2.9225e-06, -1.2204e-05,  ...,  4.9770e-06,
+         -5.4855e-07, -1.2107e-07]], device='cuda:0')
+Epoch 129, bias, value: tensor([-0.0113, -0.0069, -0.0078, -0.0150, -0.0098, -0.0009,  0.0114,  0.0084,
+         0.0173, -0.0052], device='cuda:0'), grad: tensor([-4.7863e-05, -4.5598e-06,  1.0766e-05,  5.3272e-06,  1.4193e-05,
+        -5.5656e-06,  3.3565e-06,  6.4671e-06,  6.1207e-06,  1.1623e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 128, time 214.67, cls_loss 0.0034 cls_loss_mapping 0.0059 cls_loss_causal 0.5587 re_mapping 0.0076 re_causal 0.0229 /// teacc 98.93 lr 0.00010000
+Epoch 130, weight, value: tensor([[-0.1476,  0.0661, -0.0149,  ..., -0.0156, -0.0852, -0.0952],
+        [ 0.0282,  0.0575, -0.0910,  ..., -0.0774, -0.0210,  0.0799],
+        [ 0.0496, -0.0736, -0.0840,  ..., -0.0046, -0.0420, -0.0343],
+        ...,
+        [ 0.0590,  0.0213,  0.0890,  ...,  0.0485,  0.1265,  0.0043],
+        [ 0.0777, -0.1093, -0.0953,  ..., -0.1338, -0.0477,  0.1264],
+        [-0.0648,  0.0749,  0.0230,  ..., -0.0846, -0.0542, -0.0091]],
+       device='cuda:0'), grad: tensor([[ 1.0151e-07, -2.6766e-06,  1.2107e-07,  ..., -8.7917e-07,
+          6.0536e-08,  1.7043e-07],
+        [-4.0419e-07, -1.9614e-06,  9.8720e-08,  ...,  9.0338e-08,
+         -8.4843e-07, -4.8392e-06],
+        [ 4.7125e-07,  5.2247e-07,  6.2399e-08,  ..., -2.5891e-07,
+         -7.8231e-08,  1.5134e-06],
+        ...,
+        [ 4.6473e-07,  5.8487e-07, -1.4994e-07,  ..., -5.4017e-08,
+          2.5798e-07,  1.3784e-06],
+        [-2.8666e-06,  1.0934e-06,  5.9418e-07,  ...,  3.9022e-07,
+         -1.6019e-07, -3.1944e-06],
+        [ 7.1898e-07,  1.1355e-05,  2.3358e-06,  ...,  2.9858e-06,
+         -3.1851e-07,  8.5309e-07]], device='cuda:0')
+Epoch 130, bias, value: tensor([-0.0115, -0.0081, -0.0075, -0.0149, -0.0099, -0.0008,  0.0121,  0.0093,
+         0.0169, -0.0052], device='cuda:0'), grad: tensor([-4.2394e-06, -6.8806e-06,  1.9725e-06,  1.2748e-05,  2.2538e-06,
+        -7.2241e-05,  4.1127e-05,  2.6040e-06, -1.7900e-06,  2.4483e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 129, time 214.55, cls_loss 0.0035 cls_loss_mapping 0.0056 cls_loss_causal 0.5515 re_mapping 0.0080 re_causal 0.0236 /// teacc 98.69 lr 0.00010000
+Epoch 131, weight, value: tensor([[-0.1480,  0.0664, -0.0151,  ..., -0.0151, -0.0861, -0.0955],
+        [ 0.0289,  0.0592, -0.0887,  ..., -0.0775, -0.0201,  0.0812],
+        [ 0.0495, -0.0739, -0.0846,  ..., -0.0046, -0.0420, -0.0344],
+        ...,
+        [ 0.0588,  0.0195,  0.0888,  ...,  0.0494,  0.1262,  0.0030],
+        [ 0.0779, -0.1094, -0.0956,  ..., -0.1344, -0.0478,  0.1269],
+        [-0.0654,  0.0751,  0.0227,  ..., -0.0858, -0.0551, -0.0086]],
+       device='cuda:0'), grad: tensor([[ 7.3835e-06,  2.0582e-07,  2.7772e-06,  ...,  2.3749e-07,
+          5.6531e-07,  9.1344e-06],
+        [ 3.7923e-06,  1.6261e-06,  3.1590e-06,  ...,  9.4622e-07,
+          1.6177e-06,  3.9674e-06],
+        [ 6.6385e-06,  9.3728e-06,  3.9265e-06,  ..., -3.8184e-07,
+          1.2619e-06,  1.4998e-05],
+        ...,
+        [-5.3570e-06,  3.5930e-06, -7.1451e-06,  ..., -2.9132e-06,
+         -6.2995e-06,  5.0813e-06],
+        [-4.9919e-05,  1.3197e-06, -1.2077e-05,  ...,  2.7008e-07,
+          9.8534e-07, -6.1393e-05],
+        [ 3.0696e-05, -1.4830e-04, -2.0409e-04,  ...,  6.3796e-07,
+         -4.9680e-05, -7.9274e-05]], device='cuda:0')
+Epoch 131, bias, value: tensor([-0.0111, -0.0070, -0.0075, -0.0148, -0.0104, -0.0011,  0.0116,  0.0085,
+         0.0170, -0.0050], device='cuda:0'), grad: tensor([ 2.2277e-05,  1.4901e-05,  4.8280e-05,  9.0599e-06,  3.4547e-04,
+         7.6145e-06, -4.3549e-06,  3.3975e-06, -1.2457e-04, -3.2258e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 130, time 214.69, cls_loss 0.0032 cls_loss_mapping 0.0055 cls_loss_causal 0.5380 re_mapping 0.0081 re_causal 0.0234 /// teacc 98.90 lr 0.00010000
+Epoch 132, weight, value: tensor([[-0.1484,  0.0673, -0.0154,  ..., -0.0148, -0.0865, -0.0959],
+        [ 0.0288,  0.0591, -0.0887,  ..., -0.0777, -0.0203,  0.0812],
+        [ 0.0499, -0.0742, -0.0853,  ..., -0.0046, -0.0418, -0.0342],
+        ...,
+        [ 0.0589,  0.0194,  0.0891,  ...,  0.0496,  0.1264,  0.0029],
+        [ 0.0777, -0.1102, -0.0959,  ..., -0.1353, -0.0478,  0.1273],
+        [-0.0657,  0.0759,  0.0233,  ..., -0.0861, -0.0553, -0.0076]],
+       device='cuda:0'), grad: tensor([[ 5.3365e-07, -2.6263e-06,  1.7695e-07,  ...,  8.2888e-08,
+          2.4587e-07,  7.0035e-07],
+        [ 1.1027e-06, -4.3306e-07,  1.0002e-06,  ...,  5.3830e-07,
+          4.7218e-07, -1.7220e-06],
+        [ 3.4403e-06,  1.1567e-06,  7.3109e-07,  ..., -9.8348e-07,
+         -4.9453e-07,  6.1616e-06],
+        ...,
+        [-4.1537e-07,  2.6729e-06, -5.4203e-06,  ..., -1.2973e-06,
+         -3.4627e-06,  8.0913e-06],
+        [-2.3651e-04,  4.5113e-06,  1.5981e-06,  ...,  3.1013e-07,
+          2.5891e-07, -1.9431e-04],
+        [ 1.8269e-05,  7.4282e-06,  4.3400e-07,  ...,  8.5775e-07,
+          1.6410e-06,  2.6569e-05]], device='cuda:0')
+Epoch 132, bias, value: tensor([-0.0098, -0.0073, -0.0071, -0.0147, -0.0115, -0.0012,  0.0104,  0.0085,
+         0.0165, -0.0041], device='cuda:0'), grad: tensor([-3.7029e-06, -1.5991e-06,  9.1717e-06,  4.9099e-06, -4.4048e-05,
+         5.8126e-04,  5.2974e-06,  8.5607e-06, -6.1798e-04,  5.7995e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 131, time 214.58, cls_loss 0.0033 cls_loss_mapping 0.0060 cls_loss_causal 0.5468 re_mapping 0.0078 re_causal 0.0230 /// teacc 98.89 lr 0.00010000
+Epoch 133, weight, value: tensor([[-0.1489,  0.0680, -0.0157,  ..., -0.0146, -0.0874, -0.0964],
+        [ 0.0289,  0.0591, -0.0888,  ..., -0.0779, -0.0203,  0.0815],
+        [ 0.0503, -0.0748, -0.0855,  ..., -0.0048, -0.0413, -0.0343],
+        ...,
+        [ 0.0586,  0.0189,  0.0888,  ...,  0.0496,  0.1261,  0.0028],
+        [ 0.0778, -0.1110, -0.0961,  ..., -0.1360, -0.0479,  0.1275],
+        [-0.0660,  0.0748,  0.0232,  ..., -0.0864, -0.0552, -0.0088]],
+       device='cuda:0'), grad: tensor([[ 1.0431e-07, -2.1961e-06,  3.1944e-07,  ..., -4.4890e-07,
+          1.3411e-07,  8.5682e-08],
+        [ 4.0233e-07,  1.8626e-09,  6.1840e-07,  ...,  4.2655e-07,
+          7.2829e-07, -6.4354e-07],
+        [-1.6615e-06,  4.9174e-07,  9.8441e-07,  ..., -7.1898e-07,
+         -1.6419e-06,  3.3062e-07],
+        ...,
+        [-1.6587e-06,  4.0941e-06,  9.9242e-06,  ...,  2.9188e-06,
+          5.2713e-07,  2.6543e-07],
+        [ 5.1130e-07,  1.4510e-06,  1.2871e-06,  ...,  7.6834e-07,
+          7.7020e-07,  5.7742e-08],
+        [ 2.1514e-07, -9.2387e-07, -2.1681e-05,  ..., -6.5453e-06,
+         -4.3660e-06,  2.0675e-06]], device='cuda:0')
+Epoch 133, bias, value: tensor([-0.0090, -0.0073, -0.0070, -0.0146, -0.0109, -0.0014,  0.0106,  0.0083,
+         0.0161, -0.0047], device='cuda:0'), grad: tensor([-6.2212e-07,  1.6056e-06, -4.7684e-06,  2.1279e-05, -1.7941e-05,
+        -3.2216e-05,  1.6987e-05,  2.0728e-05,  8.7917e-06, -1.3866e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 132, time 214.49, cls_loss 0.0041 cls_loss_mapping 0.0058 cls_loss_causal 0.5755 re_mapping 0.0078 re_causal 0.0231 /// teacc 98.98 lr 0.00010000
+Epoch 134, weight, value: tensor([[-0.1492,  0.0674, -0.0160,  ..., -0.0149, -0.0879, -0.0970],
+        [ 0.0288,  0.0581, -0.0893,  ..., -0.0782, -0.0205,  0.0817],
+        [ 0.0502, -0.0747, -0.0861,  ..., -0.0047, -0.0415, -0.0344],
+        ...,
+        [ 0.0590,  0.0178,  0.0892,  ...,  0.0500,  0.1266,  0.0027],
+        [ 0.0782, -0.1110, -0.0963,  ..., -0.1366, -0.0480,  0.1284],
+        [-0.0667,  0.0758,  0.0235,  ..., -0.0870, -0.0554, -0.0091]],
+       device='cuda:0'), grad: tensor([[ 3.0641e-07, -6.4913e-07,  4.8429e-08,  ..., -2.1420e-08,
+          2.2072e-07,  1.7602e-07],
+        [-1.9502e-06, -1.2051e-06,  6.6124e-08,  ...,  2.4214e-07,
+         -9.3505e-07, -4.4852e-06],
+        [-5.4017e-07,  6.3330e-07,  5.7090e-07,  ..., -4.5542e-07,
+         -9.8534e-07,  1.2163e-06],
+        ...,
+        [ 1.7444e-06,  1.3625e-06,  5.0291e-08,  ...,  4.0699e-07,
+          9.2480e-07,  2.7176e-06],
+        [-6.9197e-07,  6.9942e-07,  1.3318e-07,  ...,  2.4494e-07,
+          2.3842e-07, -5.9791e-07],
+        [ 3.5763e-07,  1.5832e-06,  4.5635e-08,  ...,  1.9837e-07,
+          1.4156e-07,  1.1390e-06]], device='cuda:0')
+Epoch 134, bias, value: tensor([-0.0097, -0.0080, -0.0067, -0.0149, -0.0109, -0.0011,  0.0101,  0.0083,
+         0.0166, -0.0040], device='cuda:0'), grad: tensor([ 2.9299e-06, -8.5682e-06, -1.3504e-07,  7.3686e-06,  1.0610e-05,
+        -6.0834e-06, -2.3082e-05,  8.7991e-06,  1.9353e-06,  6.2063e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 133, time 214.55, cls_loss 0.0039 cls_loss_mapping 0.0058 cls_loss_causal 0.5726 re_mapping 0.0079 re_causal 0.0225 /// teacc 98.85 lr 0.00010000
+Epoch 135, weight, value: tensor([[-0.1494,  0.0681, -0.0166,  ..., -0.0148, -0.0887, -0.0980],
+        [ 0.0287,  0.0577, -0.0898,  ..., -0.0784, -0.0205,  0.0818],
+        [ 0.0503, -0.0753, -0.0865,  ..., -0.0045, -0.0415, -0.0346],
+        ...,
+        [ 0.0594,  0.0175,  0.0900,  ...,  0.0503,  0.1271,  0.0026],
+        [ 0.0785, -0.1115, -0.0965,  ..., -0.1371, -0.0481,  0.1291],
+        [-0.0674,  0.0753,  0.0233,  ..., -0.0879, -0.0559, -0.0095]],
+       device='cuda:0'), grad: tensor([[ 4.6100e-07, -3.5405e-05,  2.6189e-06,  ...,  5.4017e-06,
+          1.0245e-07,  2.1420e-07],
+        [ 1.6559e-06,  5.6587e-06,  8.4843e-07,  ...,  1.3830e-06,
+          2.0117e-07,  4.4852e-06],
+        [-5.3458e-06,  2.0817e-05,  2.2396e-05,  ...,  4.5478e-05,
+         -6.4913e-07,  8.0373e-07],
+        ...,
+        [-1.4715e-07,  3.4962e-06, -4.4145e-07,  ...,  1.9111e-06,
+         -4.7311e-07,  1.8552e-06],
+        [-1.7807e-06,  3.4776e-06,  3.0994e-06,  ...,  6.9067e-06,
+          1.6298e-07, -4.2617e-06],
+        [ 9.3691e-07,  5.3376e-05,  4.3660e-06,  ...,  8.4937e-06,
+          1.4529e-07,  1.1444e-05]], device='cuda:0')
+Epoch 135, bias, value: tensor([-0.0096, -0.0082, -0.0067, -0.0151, -0.0104, -0.0012,  0.0108,  0.0086,
+         0.0167, -0.0047], device='cuda:0'), grad: tensor([-6.6221e-05,  1.6108e-05,  1.3053e-04,  1.3185e-04, -4.8727e-05,
+        -3.3903e-04,  1.5989e-05,  1.1109e-05,  1.6659e-05,  1.3173e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 134, time 214.84, cls_loss 0.0041 cls_loss_mapping 0.0059 cls_loss_causal 0.5543 re_mapping 0.0079 re_causal 0.0227 /// teacc 98.86 lr 0.00010000
+Epoch 136, weight, value: tensor([[-0.1499,  0.0682, -0.0174,  ..., -0.0144, -0.0892, -0.0985],
+        [ 0.0275,  0.0581, -0.0916,  ..., -0.0785, -0.0219,  0.0804],
+        [ 0.0506, -0.0756, -0.0872,  ..., -0.0043, -0.0415, -0.0347],
+        ...,
+        [ 0.0605,  0.0168,  0.0912,  ...,  0.0501,  0.1288,  0.0041],
+        [ 0.0787, -0.1118, -0.0967,  ..., -0.1383, -0.0481,  0.1300],
+        [-0.0678,  0.0755,  0.0236,  ..., -0.0890, -0.0562, -0.0097]],
+       device='cuda:0'), grad: tensor([[ 1.2144e-06,  1.7695e-08,  5.9232e-07,  ...,  8.1304e-07,
+          1.0533e-06,  1.3243e-06],
+        [ 3.9428e-05, -9.4343e-07,  2.6166e-05,  ...,  3.9786e-06,
+          4.8667e-05,  2.4602e-05],
+        [-2.0653e-05,  1.2293e-06,  5.4762e-06,  ..., -6.0946e-06,
+         -1.1012e-05, -2.8908e-05],
+        ...,
+        [-4.8488e-05,  5.3737e-07, -3.8594e-05,  ...,  1.2824e-06,
+         -6.6519e-05, -2.4945e-05],
+        [ 1.7405e-05,  2.7753e-07,  5.5395e-06,  ...,  8.2552e-06,
+          1.4618e-05,  1.9640e-05],
+        [ 1.0710e-06, -3.0827e-07,  5.0291e-07,  ...,  5.3179e-07,
+          1.4240e-06,  7.4413e-07]], device='cuda:0')
+Epoch 136, bias, value: tensor([-0.0096, -0.0095, -0.0065, -0.0154, -0.0103, -0.0010,  0.0104,  0.0099,
+         0.0169, -0.0048], device='cuda:0'), grad: tensor([ 3.1665e-06,  7.4148e-05, -3.7640e-05, -5.9605e-08,  2.6710e-06,
+         3.2857e-06,  1.0990e-06, -8.8274e-05,  3.9876e-05,  1.8952e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 135, time 214.58, cls_loss 0.0034 cls_loss_mapping 0.0057 cls_loss_causal 0.5186 re_mapping 0.0082 re_causal 0.0228 /// teacc 98.89 lr 0.00010000
+Epoch 137, weight, value: tensor([[-0.1505,  0.0686, -0.0178,  ..., -0.0143, -0.0892, -0.0993],
+        [ 0.0274,  0.0588, -0.0921,  ..., -0.0786, -0.0220,  0.0808],
+        [ 0.0506, -0.0759, -0.0874,  ..., -0.0041, -0.0414, -0.0353],
+        ...,
+        [ 0.0607,  0.0160,  0.0920,  ...,  0.0503,  0.1290,  0.0039],
+        [ 0.0791, -0.1130, -0.0971,  ..., -0.1388, -0.0482,  0.1309],
+        [-0.0680,  0.0754,  0.0241,  ..., -0.0895, -0.0563, -0.0097]],
+       device='cuda:0'), grad: tensor([[ 7.4226e-07, -6.6124e-08,  1.0394e-06,  ...,  2.4587e-07,
+          5.5972e-07,  4.5449e-07],
+        [ 4.2953e-06,  2.1979e-06,  1.9204e-06,  ...,  5.6624e-07,
+          1.2107e-07,  2.5164e-06],
+        [-1.9912e-06,  4.0829e-06,  5.9232e-07,  ..., -8.4564e-07,
+         -1.3970e-06,  5.1335e-06],
+        ...,
+        [-5.1595e-06,  8.4341e-06, -7.3016e-06,  ..., -3.6117e-06,
+         -5.5619e-06,  5.7966e-06],
+        [ 8.3297e-06,  1.4968e-05,  1.5320e-06,  ...,  6.4820e-07,
+          1.5572e-06,  1.9982e-05],
+        [ 1.8194e-05,  1.1079e-05, -4.1984e-06,  ...,  2.7530e-06,
+          2.1234e-06,  3.6120e-05]], device='cuda:0')
+Epoch 137, bias, value: tensor([-0.0092, -0.0095, -0.0065, -0.0159, -0.0105, -0.0006,  0.0105,  0.0099,
+         0.0170, -0.0048], device='cuda:0'), grad: tensor([ 1.5087e-07,  4.2468e-06,  5.0962e-06,  4.0680e-06, -1.0067e-04,
+         1.5227e-06,  3.5372e-06,  9.0227e-06,  3.6448e-05,  3.6627e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 136, time 214.77, cls_loss 0.0027 cls_loss_mapping 0.0050 cls_loss_causal 0.5337 re_mapping 0.0082 re_causal 0.0244 /// teacc 98.93 lr 0.00010000
+Epoch 138, weight, value: tensor([[-0.1511,  0.0685, -0.0182,  ..., -0.0145, -0.0903, -0.1000],
+        [ 0.0274,  0.0590, -0.0921,  ..., -0.0788, -0.0220,  0.0810],
+        [ 0.0504, -0.0764, -0.0894,  ..., -0.0044, -0.0419, -0.0355],
+        ...,
+        [ 0.0612,  0.0168,  0.0930,  ...,  0.0514,  0.1297,  0.0038],
+        [ 0.0791, -0.1146, -0.0973,  ..., -0.1396, -0.0483,  0.1308],
+        [-0.0681,  0.0756,  0.0241,  ..., -0.0900, -0.0565, -0.0095]],
+       device='cuda:0'), grad: tensor([[ 1.9893e-06, -1.5959e-05,  2.5332e-07,  ..., -1.4435e-06,
+          9.8720e-08, -4.1090e-06],
+        [ 1.8999e-05,  1.7043e-06,  2.6207e-06,  ...,  1.4547e-06,
+          5.0105e-06,  1.7717e-05],
+        [ 1.9088e-05,  1.3150e-06,  8.8476e-07,  ..., -1.2945e-07,
+         -2.2613e-06,  2.2382e-05],
+        ...,
+        [ 2.5362e-05,  1.3009e-05,  1.5646e-07,  ...,  2.3451e-06,
+          5.5097e-06,  3.5942e-05],
+        [-1.2636e-04,  3.3043e-06,  2.7996e-06,  ...,  2.7213e-06,
+          7.5065e-07, -1.2505e-04],
+        [ 3.5483e-06,  3.2187e-06,  1.3411e-07,  ...,  1.0235e-06,
+          8.6240e-07,  6.4261e-06]], device='cuda:0')
+Epoch 138, bias, value: tensor([-0.0095, -0.0093, -0.0068, -0.0164, -0.0107, -0.0003,  0.0104,  0.0106,
+         0.0162, -0.0046], device='cuda:0'), grad: tensor([-5.4330e-05,  3.1263e-05,  3.0607e-05, -1.9938e-05, -4.9055e-05,
+         8.6427e-05,  5.6207e-05,  6.6876e-05, -1.6463e-04,  1.6570e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 137, time 214.63, cls_loss 0.0038 cls_loss_mapping 0.0049 cls_loss_causal 0.5768 re_mapping 0.0081 re_causal 0.0227 /// teacc 98.78 lr 0.00010000
+Epoch 139, weight, value: tensor([[-0.1511,  0.0671, -0.0181,  ..., -0.0146, -0.0883, -0.0993],
+        [ 0.0275,  0.0593, -0.0924,  ..., -0.0789, -0.0218,  0.0817],
+        [ 0.0508, -0.0770, -0.0897,  ..., -0.0041, -0.0416, -0.0358],
+        ...,
+        [ 0.0610,  0.0156,  0.0933,  ...,  0.0513,  0.1296,  0.0032],
+        [ 0.0792, -0.1154, -0.0975,  ..., -0.1402, -0.0484,  0.1313],
+        [-0.0684,  0.0771,  0.0242,  ..., -0.0908, -0.0570, -0.0097]],
+       device='cuda:0'), grad: tensor([[ 2.4587e-07, -2.0675e-07,  5.9325e-07,  ...,  2.9057e-07,
+          2.5332e-07,  3.3155e-07],
+        [ 4.8056e-07, -2.8964e-07,  2.5686e-06,  ...,  8.9221e-07,
+          8.5868e-07, -4.9621e-06],
+        [ 7.1712e-07,  1.4575e-06,  1.1893e-06,  ...,  8.3447e-07,
+          6.5472e-07,  2.5816e-06],
+        ...,
+        [-2.9001e-06,  7.1246e-07, -4.5337e-06,  ..., -1.6401e-06,
+         -4.3251e-06,  6.6496e-07],
+        [-1.4612e-06,  1.2722e-06,  1.4463e-06,  ...,  7.1805e-07,
+          1.9651e-07, -2.5630e-06],
+        [ 9.8161e-07, -2.4922e-06, -2.7083e-06,  ...,  9.4064e-07,
+          1.2936e-06,  5.3085e-08]], device='cuda:0')
+Epoch 139, bias, value: tensor([-0.0106, -0.0091, -0.0065, -0.0163, -0.0105, -0.0003,  0.0098,  0.0102,
+         0.0159, -0.0037], device='cuda:0'), grad: tensor([ 3.0994e-06, -7.4692e-07,  1.3731e-05, -2.3410e-05, -7.9155e-05,
+         2.7210e-05,  6.1870e-05, -4.3213e-06,  1.8235e-06, -1.8533e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 138, time 214.46, cls_loss 0.0025 cls_loss_mapping 0.0040 cls_loss_causal 0.5689 re_mapping 0.0076 re_causal 0.0235 /// teacc 98.91 lr 0.00010000
+Epoch 140, weight, value: tensor([[-0.1521,  0.0675, -0.0186,  ..., -0.0147, -0.0884, -0.1003],
+        [ 0.0275,  0.0599, -0.0927,  ..., -0.0791, -0.0220,  0.0822],
+        [ 0.0508, -0.0773, -0.0903,  ..., -0.0042, -0.0415, -0.0358],
+        ...,
+        [ 0.0614,  0.0154,  0.0940,  ...,  0.0512,  0.1301,  0.0030],
+        [ 0.0794, -0.1155, -0.0977,  ..., -0.1410, -0.0485,  0.1322],
+        [-0.0695,  0.0767,  0.0233,  ..., -0.0922, -0.0581, -0.0104]],
+       device='cuda:0'), grad: tensor([[ 3.1106e-07,  4.9360e-07,  2.2724e-07,  ...,  4.9360e-08,
+          6.9849e-08,  1.7229e-07],
+        [ 7.6741e-07, -2.6114e-06,  1.7919e-06,  ...,  1.4864e-06,
+          1.0207e-06, -3.8892e-06],
+        [ 3.7625e-07,  4.3586e-07,  8.4005e-07,  ...,  5.4669e-07,
+          3.4459e-07,  6.7987e-08],
+        ...,
+        [-1.6913e-06,  2.2110e-06,  3.4552e-07,  ..., -7.8510e-07,
+         -1.3197e-06,  8.7824e-07],
+        [ 3.1590e-06,  9.8050e-06,  1.4910e-06,  ...,  7.8045e-07,
+          4.7870e-07,  1.2340e-06],
+        [ 4.7404e-07, -3.6657e-06, -5.7220e-06,  ...,  6.3702e-07,
+          2.8312e-07,  3.1292e-07]], device='cuda:0')
+Epoch 140, bias, value: tensor([-0.0104, -0.0090, -0.0064, -0.0156, -0.0102, -0.0010,  0.0094,  0.0103,
+         0.0162, -0.0044], device='cuda:0'), grad: tensor([ 1.8878e-06, -4.7684e-07,  1.9632e-06, -5.0180e-06,  7.6815e-06,
+        -3.1888e-05,  2.9542e-06,  2.3488e-06,  2.7955e-05, -7.4692e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 139, time 214.59, cls_loss 0.0033 cls_loss_mapping 0.0061 cls_loss_causal 0.5438 re_mapping 0.0081 re_causal 0.0239 /// teacc 98.94 lr 0.00010000
+Epoch 141, weight, value: tensor([[-0.1529,  0.0686, -0.0192,  ..., -0.0140, -0.0888, -0.1011],
+        [ 0.0271,  0.0593, -0.0932,  ..., -0.0797, -0.0225,  0.0819],
+        [ 0.0517, -0.0764, -0.0897,  ..., -0.0030, -0.0405, -0.0357],
+        ...,
+        [ 0.0612,  0.0154,  0.0942,  ...,  0.0504,  0.1301,  0.0033],
+        [ 0.0798, -0.1165, -0.0983,  ..., -0.1422, -0.0486,  0.1329],
+        [-0.0698,  0.0768,  0.0232,  ..., -0.0935, -0.0583, -0.0107]],
+       device='cuda:0'), grad: tensor([[ 5.4482e-07, -5.2862e-06,  2.1793e-07,  ..., -2.5332e-07,
+          3.7253e-09,  1.5199e-06],
+        [ 2.5719e-05,  9.2294e-07,  2.6915e-07,  ...,  2.7474e-07,
+          1.3039e-08,  7.5221e-05],
+        [ 1.3225e-06,  5.8580e-07,  3.0268e-07,  ...,  9.1270e-08,
+         -2.6356e-07,  4.4294e-06],
+        ...,
+        [ 7.0781e-07,  5.1223e-07, -1.3970e-07,  ...,  1.3877e-07,
+          9.9652e-08,  2.0098e-06],
+        [-3.0234e-05,  1.4063e-07,  1.0626e-06,  ...,  7.3574e-07,
+         -7.7300e-08, -8.9645e-05],
+        [ 2.2911e-07,  6.6683e-06,  7.1246e-07,  ...,  2.0098e-06,
+          3.2596e-08,  1.0319e-06]], device='cuda:0')
+Epoch 141, bias, value: tensor([-0.0098, -0.0098, -0.0051, -0.0157, -0.0101, -0.0008,  0.0081,  0.0102,
+         0.0164, -0.0044], device='cuda:0'), grad: tensor([-5.3421e-06,  7.9751e-05,  5.3272e-06, -3.4451e-05, -7.0129e-07,
+         4.9055e-05, -2.0996e-05,  3.0175e-06, -8.5890e-05,  1.0148e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 140, time 214.70, cls_loss 0.0027 cls_loss_mapping 0.0051 cls_loss_causal 0.5738 re_mapping 0.0077 re_causal 0.0234 /// teacc 98.87 lr 0.00010000
+Epoch 142, weight, value: tensor([[-0.1546,  0.0680, -0.0212,  ..., -0.0148, -0.0908, -0.1016],
+        [ 0.0272,  0.0597, -0.0933,  ..., -0.0798, -0.0224,  0.0823],
+        [ 0.0516, -0.0770, -0.0901,  ..., -0.0030, -0.0407, -0.0362],
+        ...,
+        [ 0.0616,  0.0154,  0.0950,  ...,  0.0513,  0.1305,  0.0032],
+        [ 0.0801, -0.1152, -0.0992,  ..., -0.1436, -0.0489,  0.1339],
+        [-0.0702,  0.0764,  0.0228,  ..., -0.0952, -0.0586, -0.0111]],
+       device='cuda:0'), grad: tensor([[ 9.1270e-08, -5.5842e-06,  3.2596e-08,  ..., -1.1548e-07,
+          5.6811e-08,  3.6508e-07],
+        [-1.1353e-06, -5.3085e-06,  1.4435e-07,  ...,  1.2200e-07,
+         -4.4052e-07, -6.3591e-06],
+        [ 3.1479e-07,  6.5472e-07,  1.9744e-07,  ..., -4.5355e-07,
+         -4.2841e-08,  9.6671e-07],
+        ...,
+        [ 2.9337e-07,  1.8468e-06, -1.5460e-07,  ..., -2.9802e-08,
+         -5.4948e-08,  2.1290e-06],
+        [-1.7621e-06,  5.7276e-07,  1.5087e-07,  ...,  4.2841e-08,
+          6.5193e-08, -2.2799e-06],
+        [ 2.7288e-07,  3.6769e-06, -1.6261e-06,  ...,  4.2934e-07,
+          1.3970e-07,  6.8452e-07]], device='cuda:0')
+Epoch 142, bias, value: tensor([-0.0106, -0.0096, -0.0054, -0.0153, -0.0101, -0.0019,  0.0098,  0.0105,
+         0.0173, -0.0048], device='cuda:0'), grad: tensor([-5.9977e-06, -1.1265e-05,  3.1479e-07,  2.7865e-06,  5.8338e-06,
+         1.2908e-06, -2.8778e-07,  3.9265e-06, -2.1756e-06,  5.5432e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 141, time 214.55, cls_loss 0.0033 cls_loss_mapping 0.0044 cls_loss_causal 0.5623 re_mapping 0.0075 re_causal 0.0228 /// teacc 98.90 lr 0.00010000
+Epoch 143, weight, value: tensor([[-0.1552,  0.0684, -0.0218,  ..., -0.0137, -0.0916, -0.1019],
+        [ 0.0273,  0.0609, -0.0933,  ..., -0.0799, -0.0222,  0.0832],
+        [ 0.0510, -0.0778, -0.0926,  ..., -0.0039, -0.0415, -0.0365],
+        ...,
+        [ 0.0621,  0.0147,  0.0963,  ...,  0.0525,  0.1312,  0.0029],
+        [ 0.0801, -0.1164, -0.0997,  ..., -0.1446, -0.0490,  0.1340],
+        [-0.0706,  0.0763,  0.0233,  ..., -0.0959, -0.0589, -0.0113]],
+       device='cuda:0'), grad: tensor([[ 1.1269e-07,  3.7719e-08,  9.3132e-08,  ..., -8.2422e-08,
+          1.8161e-07,  1.1502e-07],
+        [ 1.4249e-07,  2.4438e-06,  3.8650e-07,  ...,  1.5367e-07,
+          2.3562e-07, -6.3982e-07],
+        [-7.4692e-07,  1.3988e-06,  1.3504e-07,  ..., -7.8883e-07,
+         -7.4925e-07,  3.1525e-07],
+        ...,
+        [-2.2352e-07,  2.6003e-06, -2.9132e-06,  ..., -3.4459e-07,
+         -1.7276e-06,  2.8685e-07],
+        [-3.8650e-08,  8.6501e-06,  1.5739e-07,  ...,  4.6380e-07,
+          4.0838e-07, -1.5479e-06],
+        [ 1.0477e-07,  4.2111e-05,  3.9116e-07,  ...,  2.4308e-07,
+          2.2911e-07,  6.1234e-07]], device='cuda:0')
+Epoch 143, bias, value: tensor([-0.0103, -0.0092, -0.0063, -0.0158, -0.0101, -0.0008,  0.0091,  0.0108,
+         0.0166, -0.0049], device='cuda:0'), grad: tensor([ 1.9148e-05,  1.0580e-05,  2.0266e-06,  5.7034e-06, -3.1471e-05,
+         3.0145e-05, -1.4615e-04,  9.7416e-07,  3.6478e-05,  7.2420e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 142, time 214.57, cls_loss 0.0032 cls_loss_mapping 0.0057 cls_loss_causal 0.5412 re_mapping 0.0080 re_causal 0.0228 /// teacc 98.89 lr 0.00010000
+Epoch 144, weight, value: tensor([[-0.1556,  0.0682, -0.0223,  ..., -0.0137, -0.0923, -0.1022],
+        [ 0.0280,  0.0612, -0.0923,  ..., -0.0798, -0.0216,  0.0839],
+        [ 0.0507, -0.0780, -0.0926,  ..., -0.0035, -0.0418, -0.0368],
+        ...,
+        [ 0.0621,  0.0145,  0.0960,  ...,  0.0521,  0.1314,  0.0026],
+        [ 0.0803, -0.1162, -0.1000,  ..., -0.1454, -0.0491,  0.1355],
+        [-0.0716,  0.0767,  0.0230,  ..., -0.0965, -0.0602, -0.0120]],
+       device='cuda:0'), grad: tensor([[ 1.7090e-07,  6.3963e-06,  1.8999e-06,  ...,  1.4948e-07,
+          1.4435e-07,  7.3155e-07],
+        [ 3.1460e-06,  6.3372e-04,  1.5032e-04,  ...,  2.7139e-06,
+          4.4554e-06,  3.9041e-05],
+        [ 5.1782e-07,  4.6007e-06,  1.1474e-06,  ...,  2.7288e-07,
+         -3.4925e-08,  1.3299e-06],
+        ...,
+        [-4.7088e-06,  4.4614e-05,  7.2494e-06,  ..., -4.0010e-06,
+         -7.0520e-06,  5.4613e-06],
+        [-4.6305e-06,  7.3314e-06,  1.5236e-06,  ..., -1.7630e-06,
+         -2.1467e-07, -3.7048e-06],
+        [ 7.6368e-07, -1.0443e-03, -2.6917e-04,  ...,  8.3167e-07,
+          9.6206e-07, -4.8429e-05]], device='cuda:0')
+Epoch 144, bias, value: tensor([-0.0106, -0.0082, -0.0061, -0.0157, -0.0109, -0.0010,  0.0096,  0.0103,
+         0.0171, -0.0052], device='cuda:0'), grad: tensor([ 1.6600e-05,  1.4591e-03,  1.4253e-05,  5.3197e-05,  5.8699e-04,
+         4.8518e-05,  4.1910e-06,  1.3041e-04,  1.4260e-05, -2.3270e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 143, time 214.70, cls_loss 0.0025 cls_loss_mapping 0.0051 cls_loss_causal 0.5730 re_mapping 0.0075 re_causal 0.0229 /// teacc 98.91 lr 0.00010000
+Epoch 145, weight, value: tensor([[-0.1559,  0.0686, -0.0227,  ..., -0.0138, -0.0927, -0.1026],
+        [ 0.0279,  0.0613, -0.0925,  ..., -0.0800, -0.0216,  0.0846],
+        [ 0.0514, -0.0781, -0.0918,  ..., -0.0028, -0.0409, -0.0368],
+        ...,
+        [ 0.0618,  0.0144,  0.0961,  ...,  0.0517,  0.1312,  0.0024],
+        [ 0.0804, -0.1170, -0.1002,  ..., -0.1462, -0.0492,  0.1358],
+        [-0.0720,  0.0766,  0.0231,  ..., -0.0973, -0.0610, -0.0123]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-07, -1.6671e-07,  2.8778e-07,  ...,  9.4995e-08,
+          1.4249e-07,  6.0163e-07],
+        [ 3.4682e-06,  7.5996e-06,  3.5129e-06,  ...,  1.5516e-06,
+          2.6524e-06,  9.2536e-06],
+        [ 9.5442e-06,  3.8650e-07,  2.1085e-06,  ...,  8.1956e-07,
+          1.3569e-06,  8.1658e-06],
+        ...,
+        [-1.3933e-05, -2.3730e-06, -1.8269e-05,  ..., -7.9498e-06,
+         -1.3918e-05, -2.1197e-06],
+        [-2.2292e-05,  3.2298e-06,  2.6375e-06,  ...,  1.0757e-06,
+          1.7192e-06, -1.8269e-05],
+        [ 3.5632e-06, -1.5423e-06,  2.7940e-07,  ...,  1.4910e-06,
+          2.5462e-06,  2.2780e-06]], device='cuda:0')
+Epoch 145, bias, value: tensor([-0.0105, -0.0083, -0.0053, -0.0141, -0.0109, -0.0023,  0.0096,  0.0100,
+         0.0168, -0.0054], device='cuda:0'), grad: tensor([ 2.6785e-06,  4.1455e-05,  2.0742e-05,  2.1994e-05,  5.3085e-07,
+         6.1214e-05, -9.7215e-05, -2.0832e-05, -3.2932e-05,  2.2985e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 144, time 214.47, cls_loss 0.0025 cls_loss_mapping 0.0049 cls_loss_causal 0.5270 re_mapping 0.0075 re_causal 0.0223 /// teacc 98.83 lr 0.00010000
+Epoch 146, weight, value: tensor([[-0.1566,  0.0688, -0.0230,  ..., -0.0138, -0.0930, -0.1033],
+        [ 0.0279,  0.0620, -0.0928,  ..., -0.0800, -0.0216,  0.0851],
+        [ 0.0514, -0.0781, -0.0921,  ..., -0.0028, -0.0409, -0.0374],
+        ...,
+        [ 0.0622,  0.0139,  0.0966,  ...,  0.0519,  0.1315,  0.0026],
+        [ 0.0810, -0.1179, -0.1010,  ..., -0.1467, -0.0495,  0.1368],
+        [-0.0725,  0.0767,  0.0237,  ..., -0.0979, -0.0613, -0.0126]],
+       device='cuda:0'), grad: tensor([[ 5.0291e-07, -3.5558e-06,  5.4948e-08,  ..., -5.8487e-07,
+          3.4552e-07,  3.8184e-08],
+        [ 1.1344e-06,  2.0489e-07,  1.4715e-07,  ...,  1.7518e-06,
+          1.0990e-06,  1.8068e-07],
+        [-9.9614e-06,  6.7614e-07, -1.8626e-07,  ..., -1.4283e-05,
+         -5.4613e-06,  5.0291e-08],
+        ...,
+        [ 1.1055e-06,  1.3690e-06,  8.8103e-07,  ...,  1.8422e-06,
+          1.3430e-06,  6.1002e-07],
+        [ 4.6752e-07,  4.3493e-07,  2.3842e-07,  ...,  1.2256e-06,
+          4.6659e-07, -9.9465e-07],
+        [ 3.8184e-07, -4.1053e-06, -8.3596e-06,  ...,  8.9314e-07,
+          2.3190e-07,  9.8255e-07]], device='cuda:0')
+Epoch 146, bias, value: tensor([-0.0104, -0.0082, -0.0053, -0.0143, -0.0107, -0.0022,  0.0079,  0.0101,
+         0.0174, -0.0052], device='cuda:0'), grad: tensor([-6.4522e-06,  5.5768e-06, -4.0919e-05,  2.4915e-05,  8.5831e-06,
+        -3.6620e-06,  4.8392e-06,  8.1137e-06,  2.9728e-06, -4.0010e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 145, time 214.40, cls_loss 0.0031 cls_loss_mapping 0.0045 cls_loss_causal 0.5260 re_mapping 0.0074 re_causal 0.0220 /// teacc 98.99 lr 0.00010000
+Epoch 147, weight, value: tensor([[-0.1569,  0.0689, -0.0237,  ..., -0.0139, -0.0934, -0.1037],
+        [ 0.0273,  0.0621, -0.0939,  ..., -0.0813, -0.0225,  0.0852],
+        [ 0.0512, -0.0790, -0.0934,  ..., -0.0038, -0.0417, -0.0378],
+        ...,
+        [ 0.0633,  0.0141,  0.0983,  ...,  0.0540,  0.1332,  0.0028],
+        [ 0.0810, -0.1184, -0.1014,  ..., -0.1478, -0.0496,  0.1370],
+        [-0.0732,  0.0767,  0.0232,  ..., -0.0996, -0.0621, -0.0128]],
+       device='cuda:0'), grad: tensor([[ 2.8592e-07, -5.5939e-05, -1.8075e-05,  ...,  1.3607e-06,
+          1.1157e-06,  2.0582e-07],
+        [ 1.8887e-06, -3.2317e-06,  4.4610e-07,  ...,  2.0228e-06,
+          1.9912e-06, -8.3521e-06],
+        [-3.6895e-05,  2.0172e-06, -1.2875e-05,  ..., -5.4777e-05,
+         -5.8830e-05,  1.8328e-06],
+        ...,
+        [ 2.4959e-05, -3.5197e-05, -7.7009e-05,  ...,  2.7329e-05,
+         -8.2433e-05,  6.7335e-07],
+        [ 4.0680e-06,  1.4622e-06,  8.8010e-07,  ...,  3.6247e-06,
+          3.3304e-06, -6.7987e-07],
+        [ 1.0598e-06,  3.5375e-05,  1.1690e-05,  ...,  1.8161e-06,
+          3.3714e-06, -5.0198e-07]], device='cuda:0')
+Epoch 147, bias, value: tensor([-0.0105, -0.0088, -0.0060, -0.0143, -0.0107, -0.0012,  0.0079,  0.0114,
+         0.0160, -0.0054], device='cuda:0'), grad: tensor([-1.1617e-04, -7.3612e-06, -1.1706e-04,  2.3007e-05,  1.9038e-04,
+         1.2785e-05,  1.9237e-05, -9.7990e-05,  1.4000e-05,  7.8857e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 146, time 214.70, cls_loss 0.0038 cls_loss_mapping 0.0059 cls_loss_causal 0.5834 re_mapping 0.0071 re_causal 0.0223 /// teacc 98.92 lr 0.00010000
+Epoch 148, weight, value: tensor([[-0.1581,  0.0686, -0.0247,  ..., -0.0135, -0.0947, -0.1046],
+        [ 0.0267,  0.0625, -0.0949,  ..., -0.0825, -0.0232,  0.0850],
+        [ 0.0508, -0.0796, -0.0943,  ..., -0.0036, -0.0422, -0.0381],
+        ...,
+        [ 0.0648,  0.0140,  0.0999,  ...,  0.0557,  0.1347,  0.0036],
+        [ 0.0814, -0.1196, -0.1018,  ..., -0.1492, -0.0498,  0.1379],
+        [-0.0740,  0.0793,  0.0242,  ..., -0.1009, -0.0625, -0.0108]],
+       device='cuda:0'), grad: tensor([[ 6.0257e-07, -4.2655e-06,  2.1905e-06,  ...,  6.6776e-07,
+          5.4017e-08,  2.8498e-07],
+        [-1.3169e-06, -2.0325e-05,  3.7625e-07,  ..., -3.1944e-07,
+          5.0291e-08, -3.7074e-05],
+        [ 5.9567e-06,  1.1802e-05,  1.1865e-06,  ...,  1.6904e-06,
+          2.6822e-07,  2.6375e-05],
+        ...,
+        [-2.1048e-06,  2.7008e-06, -7.8827e-06,  ..., -4.2208e-06,
+         -3.0175e-07,  3.0566e-06],
+        [-9.1940e-06,  1.6429e-06,  5.4110e-07,  ..., -1.2098e-06,
+         -3.6135e-07, -9.0301e-06],
+        [ 2.5183e-06, -2.2262e-05, -5.0783e-05,  ..., -1.0453e-05,
+          1.0710e-07,  5.6140e-06]], device='cuda:0')
+Epoch 148, bias, value: tensor([-0.0108, -0.0095, -0.0061, -0.0148, -0.0130, -0.0016,  0.0073,  0.0128,
+         0.0169, -0.0035], device='cuda:0'), grad: tensor([-3.6322e-06, -8.4579e-05,  6.3002e-05,  6.6996e-05,  1.0140e-05,
+         2.0415e-05, -3.0294e-05, -4.4443e-06, -8.1211e-06, -2.9564e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 147----------------------------------------------------
+epoch 147, time 230.51, cls_loss 0.0028 cls_loss_mapping 0.0051 cls_loss_causal 0.5440 re_mapping 0.0071 re_causal 0.0214 /// teacc 99.02 lr 0.00010000
+Epoch 149, weight, value: tensor([[-0.1587,  0.0694, -0.0249,  ..., -0.0129, -0.0951, -0.1053],
+        [ 0.0276,  0.0633, -0.0943,  ..., -0.0825, -0.0224,  0.0864],
+        [ 0.0505, -0.0806, -0.0947,  ..., -0.0038, -0.0425, -0.0390],
+        ...,
+        [ 0.0643,  0.0130,  0.0998,  ...,  0.0560,  0.1344,  0.0025],
+        [ 0.0819, -0.1205, -0.1020,  ..., -0.1501, -0.0499,  0.1389],
+        [-0.0748,  0.0785,  0.0241,  ..., -0.1022, -0.0629, -0.0120]],
+       device='cuda:0'), grad: tensor([[ 1.6578e-07, -4.8019e-06,  1.0990e-07,  ..., -2.0135e-06,
+          1.6764e-07,  2.7008e-08],
+        [ 2.8964e-07,  1.9651e-07,  2.1141e-07,  ...,  8.9128e-07,
+          1.9465e-07, -5.7742e-07],
+        [-2.3227e-06,  5.4296e-07, -8.4378e-07,  ..., -5.1409e-06,
+         -1.8906e-06,  3.0734e-07],
+        ...,
+        [ 3.3993e-07,  4.5355e-07, -6.0443e-07,  ...,  1.6056e-06,
+          2.1420e-07,  5.0198e-07],
+        [ 4.6007e-07,  1.1073e-06,  3.2969e-07,  ...,  1.5693e-06,
+          4.2468e-07,  3.2596e-08],
+        [ 1.4249e-07,  1.8161e-06,  9.0338e-08,  ...,  1.0235e-06,
+          1.4063e-07,  1.7136e-07]], device='cuda:0')
+Epoch 149, bias, value: tensor([-0.0102, -0.0081, -0.0067, -0.0151, -0.0120, -0.0012,  0.0072,  0.0118,
+         0.0171, -0.0046], device='cuda:0'), grad: tensor([-1.5289e-05,  1.3290e-06, -6.1616e-06,  3.5726e-06, -1.2042e-06,
+         1.4901e-06,  8.6706e-07,  3.6322e-06,  5.6811e-06,  6.0461e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 148, time 214.66, cls_loss 0.0031 cls_loss_mapping 0.0047 cls_loss_causal 0.5254 re_mapping 0.0076 re_causal 0.0216 /// teacc 98.97 lr 0.00010000
+Epoch 150, weight, value: tensor([[-0.1596,  0.0697, -0.0248,  ..., -0.0120, -0.0956, -0.1061],
+        [ 0.0274,  0.0635, -0.0947,  ..., -0.0831, -0.0224,  0.0867],
+        [ 0.0504, -0.0809, -0.0951,  ..., -0.0037, -0.0425, -0.0397],
+        ...,
+        [ 0.0638,  0.0129,  0.0999,  ...,  0.0565,  0.1344,  0.0014],
+        [ 0.0840, -0.1207, -0.1010,  ..., -0.1492, -0.0490,  0.1417],
+        [-0.0755,  0.0782,  0.0242,  ..., -0.1035, -0.0632, -0.0126]],
+       device='cuda:0'), grad: tensor([[ 5.3272e-07, -1.1218e-04,  1.2089e-06,  ..., -2.4602e-05,
+          2.0023e-07,  1.1465e-06],
+        [ 2.6952e-06,  6.9737e-06,  4.5113e-06,  ...,  6.0312e-06,
+          1.5022e-06,  6.4820e-06],
+        [-1.8645e-06,  2.8703e-06,  7.3537e-06,  ...,  2.6841e-06,
+         -9.7882e-07,  2.2370e-06],
+        ...,
+        [-8.8155e-05,  1.4439e-05, -8.9884e-05,  ..., -5.4777e-05,
+         -3.5256e-05, -3.1572e-06],
+        [ 4.6313e-05,  1.8299e-05,  5.8174e-05,  ...,  3.6120e-05,
+          1.8373e-05,  1.5497e-05],
+        [ 1.5637e-06,  3.5620e-04, -2.2221e-06,  ...,  5.7742e-06,
+          7.8045e-07,  2.4438e-04]], device='cuda:0')
+Epoch 150, bias, value: tensor([-0.0104, -0.0083, -0.0068, -0.0149, -0.0118, -0.0019,  0.0085,  0.0115,
+         0.0186, -0.0052], device='cuda:0'), grad: tensor([-4.3988e-04,  3.4988e-05,  1.8343e-05,  5.9642e-06, -1.2760e-03,
+         2.7150e-05,  4.6182e-04, -1.2481e-04,  1.6856e-04,  1.1234e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 149, time 214.43, cls_loss 0.0028 cls_loss_mapping 0.0041 cls_loss_causal 0.5267 re_mapping 0.0075 re_causal 0.0219 /// teacc 99.00 lr 0.00010000
+Epoch 151, weight, value: tensor([[-0.1605,  0.0698, -0.0253,  ..., -0.0118, -0.0961, -0.1066],
+        [ 0.0257,  0.0637, -0.0951,  ..., -0.0836, -0.0236,  0.0852],
+        [ 0.0498, -0.0812, -0.0955,  ..., -0.0037, -0.0429, -0.0401],
+        ...,
+        [ 0.0651,  0.0124,  0.1000,  ...,  0.0567,  0.1359,  0.0022],
+        [ 0.0855, -0.1209, -0.1006,  ..., -0.1505, -0.0492,  0.1431],
+        [-0.0759,  0.0781,  0.0243,  ..., -0.1040, -0.0635, -0.0130]],
+       device='cuda:0'), grad: tensor([[ 7.8231e-08, -6.3702e-07,  4.6566e-09,  ..., -1.1362e-07,
+          8.6613e-08,  1.3039e-08],
+        [-2.2188e-05, -8.7544e-08,  2.0489e-08,  ..., -3.4064e-05,
+         -2.7433e-05, -2.2165e-07],
+        [ 2.0191e-05,  4.1910e-08,  1.7695e-08,  ...,  3.0026e-05,
+          2.4140e-05,  8.3912e-07],
+        ...,
+        [ 1.8505e-06,  1.7509e-07, -5.5879e-09,  ...,  2.8163e-06,
+          2.2426e-06,  1.6019e-07],
+        [-8.4750e-07,  1.3225e-07,  3.5390e-08,  ...,  1.4808e-07,
+          6.7055e-08, -1.0272e-06],
+        [ 1.2387e-07, -2.1420e-08, -1.8161e-07,  ...,  1.7695e-07,
+          7.6368e-08,  1.0524e-07]], device='cuda:0')
+Epoch 151, bias, value: tensor([-0.0103, -0.0096, -0.0072, -0.0142, -0.0116, -0.0023,  0.0085,  0.0125,
+         0.0193, -0.0054], device='cuda:0'), grad: tensor([-1.0217e-06, -1.1641e-04,  1.0335e-04,  2.8498e-06,  3.5018e-07,
+         4.0606e-07,  4.3306e-07,  9.9912e-06, -5.3737e-07,  5.8860e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 150, time 214.80, cls_loss 0.0024 cls_loss_mapping 0.0047 cls_loss_causal 0.5567 re_mapping 0.0076 re_causal 0.0223 /// teacc 98.97 lr 0.00010000
+Epoch 152, weight, value: tensor([[-0.1611,  0.0702, -0.0254,  ..., -0.0121, -0.0964, -0.1068],
+        [ 0.0255,  0.0638, -0.0953,  ..., -0.0838, -0.0237,  0.0854],
+        [ 0.0501, -0.0815, -0.0958,  ..., -0.0030, -0.0429, -0.0405],
+        ...,
+        [ 0.0653,  0.0117,  0.1003,  ...,  0.0567,  0.1361,  0.0021],
+        [ 0.0854, -0.1211, -0.1008,  ..., -0.1512, -0.0494,  0.1435],
+        [-0.0762,  0.0779,  0.0247,  ..., -0.1046, -0.0637, -0.0132]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-08, -2.3935e-06,  3.3993e-07,  ..., -3.0361e-07,
+          4.6566e-09,  1.5553e-07],
+        [-2.0877e-05, -4.1910e-08,  4.8615e-07,  ...,  2.6915e-07,
+          2.0303e-07, -3.4660e-05],
+        [ 5.8673e-06,  4.8801e-07,  1.0040e-06,  ...,  1.0058e-06,
+          1.1269e-07,  9.5218e-06],
+        ...,
+        [ 7.6741e-06,  1.9558e-07, -1.2051e-06,  ..., -4.1258e-07,
+         -6.5751e-07,  1.3746e-05],
+        [ 4.0159e-06,  5.6718e-07,  4.6846e-07,  ...,  1.8906e-07,
+          2.0489e-08,  6.1654e-06],
+        [ 1.9241e-06, -3.4180e-07, -7.9721e-07,  ...,  6.3889e-07,
+          2.8498e-07,  2.6189e-06]], device='cuda:0')
+Epoch 152, bias, value: tensor([-0.0103, -0.0097, -0.0067, -0.0155, -0.0111, -0.0014,  0.0084,  0.0124,
+         0.0191, -0.0057], device='cuda:0'), grad: tensor([-3.3416e-06, -6.3956e-05,  1.9401e-05,  6.7167e-06,  4.6045e-06,
+        -5.8264e-06, -2.9430e-07,  2.4498e-05,  1.3039e-05,  4.9956e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 151, time 214.67, cls_loss 0.0037 cls_loss_mapping 0.0061 cls_loss_causal 0.5193 re_mapping 0.0078 re_causal 0.0219 /// teacc 98.96 lr 0.00010000
+Epoch 153, weight, value: tensor([[-0.1620,  0.0706, -0.0263,  ..., -0.0123, -0.0969, -0.1075],
+        [ 0.0254,  0.0637, -0.0952,  ..., -0.0840, -0.0239,  0.0857],
+        [ 0.0514, -0.0817, -0.0949,  ..., -0.0008, -0.0421, -0.0419],
+        ...,
+        [ 0.0636,  0.0134,  0.0990,  ...,  0.0542,  0.1360,  0.0019],
+        [ 0.0862, -0.1218, -0.1006,  ..., -0.1515, -0.0489,  0.1446],
+        [-0.0762,  0.0777,  0.0247,  ..., -0.1051, -0.0640, -0.0134]],
+       device='cuda:0'), grad: tensor([[ 2.2538e-07, -9.0618e-07,  1.4156e-07,  ...,  6.5193e-08,
+          7.1712e-08,  1.6112e-07],
+        [ 4.4517e-06, -6.2678e-07,  3.9376e-06,  ...,  6.6776e-07,
+          1.6894e-06, -2.4270e-06],
+        [ 4.3958e-07,  3.1758e-07,  2.5034e-06,  ...,  1.5739e-07,
+          8.3726e-07, -7.7765e-07],
+        ...,
+        [-1.2279e-05,  4.0140e-07, -1.1384e-05,  ..., -2.1569e-06,
+         -5.2825e-06,  6.7428e-07],
+        [ 1.8664e-06,  4.8149e-07,  1.0198e-06,  ...,  6.0070e-07,
+          5.1502e-07,  8.8569e-07],
+        [ 3.6582e-06,  1.5926e-07,  1.6913e-06,  ...,  4.3400e-07,
+          1.6019e-06,  2.1700e-07]], device='cuda:0')
+Epoch 153, bias, value: tensor([-0.0106, -0.0097, -0.0055, -0.0149, -0.0118, -0.0018,  0.0089,  0.0113,
+         0.0201, -0.0060], device='cuda:0'), grad: tensor([-1.8859e-06,  4.4629e-06, -2.9057e-07,  1.1874e-06, -2.6152e-05,
+         1.0720e-06,  2.4691e-05, -1.5058e-05,  5.2154e-06,  6.7726e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 152, time 214.67, cls_loss 0.0028 cls_loss_mapping 0.0040 cls_loss_causal 0.5416 re_mapping 0.0076 re_causal 0.0219 /// teacc 98.94 lr 0.00010000
+Epoch 154, weight, value: tensor([[-1.6294e-01,  7.1158e-02, -2.6980e-02,  ..., -1.1700e-02,
+         -9.7284e-02, -1.0796e-01],
+        [ 2.4883e-02,  6.3166e-02, -9.6171e-02,  ..., -8.4620e-02,
+         -2.4299e-02,  8.5606e-02],
+        [ 5.2276e-02, -8.2091e-02, -9.4249e-02,  ...,  1.1465e-04,
+         -4.1739e-02, -4.2401e-02],
+        ...,
+        [ 6.3415e-02,  1.4235e-02,  9.9814e-02,  ...,  5.3723e-02,
+          1.3648e-01,  2.4348e-03],
+        [ 8.6179e-02, -1.2237e-01, -1.0100e-01,  ..., -1.5249e-01,
+         -4.9038e-02,  1.4487e-01],
+        [-7.7673e-02,  7.7732e-02,  2.4149e-02,  ..., -1.0675e-01,
+         -6.5447e-02, -1.3673e-02]], device='cuda:0'), grad: tensor([[ 2.3376e-07, -2.1476e-06,  9.6858e-08,  ...,  2.2929e-06,
+          4.2561e-07,  1.6112e-07],
+        [ 1.1493e-06, -3.3993e-07,  1.3411e-07,  ...,  1.1967e-06,
+          4.5914e-07, -4.4145e-07],
+        [-2.0549e-05,  1.7136e-07, -9.0338e-07,  ..., -2.4915e-05,
+         -6.7018e-06,  6.1374e-07],
+        ...,
+        [ 1.0736e-05,  4.1071e-07,  2.8312e-07,  ...,  6.3516e-06,
+          2.5686e-06,  1.7695e-07],
+        [ 4.4964e-06,  1.3784e-07,  3.7346e-07,  ...,  4.9509e-06,
+          1.8869e-06, -2.2706e-06],
+        [ 7.6182e-07,  6.8732e-07, -5.6531e-07,  ...,  4.0885e-07,
+          1.0990e-07,  1.2238e-06]], device='cuda:0')
+Epoch 154, bias, value: tensor([-0.0103, -0.0102, -0.0048, -0.0157, -0.0119, -0.0012,  0.0090,  0.0116,
+         0.0197, -0.0063], device='cuda:0'), grad: tensor([ 1.9800e-06,  2.5667e-06, -6.4731e-05,  2.3365e-05, -2.1141e-07,
+         2.3860e-06,  5.3421e-06,  1.6972e-05,  8.8364e-06,  3.4813e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 153----------------------------------------------------
+epoch 153, time 231.30, cls_loss 0.0024 cls_loss_mapping 0.0041 cls_loss_causal 0.5377 re_mapping 0.0075 re_causal 0.0209 /// teacc 99.09 lr 0.00010000
+Epoch 155, weight, value: tensor([[-0.1637,  0.0717, -0.0276,  ..., -0.0107, -0.0975, -0.1085],
+        [ 0.0247,  0.0637, -0.0966,  ..., -0.0853, -0.0245,  0.0860],
+        [ 0.0524, -0.0827, -0.0946,  ...,  0.0005, -0.0419, -0.0426],
+        ...,
+        [ 0.0639,  0.0138,  0.1003,  ...,  0.0540,  0.1369,  0.0025],
+        [ 0.0859, -0.1231, -0.1022,  ..., -0.1543, -0.0493,  0.1448],
+        [-0.0782,  0.0774,  0.0239,  ..., -0.1080, -0.0658, -0.0139]],
+       device='cuda:0'), grad: tensor([[ 7.8883e-07, -5.3756e-06,  1.8217e-06,  ..., -2.3842e-07,
+          7.6834e-07,  2.0899e-06],
+        [-3.8648e-04, -6.5041e-04, -9.2983e-04,  ...,  5.6438e-07,
+         -3.7599e-04, -1.1387e-03],
+        [-3.1497e-06,  1.5935e-06,  1.4622e-06,  ..., -2.2948e-06,
+         -3.4999e-06,  2.3637e-06],
+        ...,
+        [ 3.6025e-04,  6.0177e-04,  8.5974e-04,  ...,  1.4538e-06,
+          3.5095e-04,  1.0529e-03],
+        [ 2.8498e-07,  1.0179e-06,  8.8569e-07,  ...,  1.4435e-07,
+          3.8184e-07,  4.6752e-07],
+        [ 1.5348e-05,  2.7597e-05,  3.5644e-05,  ...,  3.0641e-07,
+          1.4871e-05,  4.4793e-05]], device='cuda:0')
+Epoch 155, bias, value: tensor([-0.0100, -0.0102, -0.0042, -0.0162, -0.0115, -0.0015,  0.0097,  0.0118,
+         0.0188, -0.0067], device='cuda:0'), grad: tensor([-1.2584e-05, -1.8759e-03, -3.7868e-06,  2.2743e-06,  5.4479e-05,
+         3.7327e-06,  5.7109e-06,  1.7424e-03,  2.3134e-06,  8.0764e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 154, time 214.46, cls_loss 0.0020 cls_loss_mapping 0.0036 cls_loss_causal 0.5628 re_mapping 0.0073 re_causal 0.0221 /// teacc 98.92 lr 0.00010000
+Epoch 156, weight, value: tensor([[-0.1650,  0.0721, -0.0285,  ..., -0.0106, -0.0980, -0.1095],
+        [ 0.0252,  0.0650, -0.0957,  ..., -0.0854, -0.0241,  0.0873],
+        [ 0.0524, -0.0831, -0.0948,  ...,  0.0005, -0.0420, -0.0432],
+        ...,
+        [ 0.0638,  0.0131,  0.1002,  ...,  0.0542,  0.1369,  0.0016],
+        [ 0.0860, -0.1232, -0.1025,  ..., -0.1548, -0.0495,  0.1450],
+        [-0.0787,  0.0772,  0.0238,  ..., -0.1087, -0.0662, -0.0143]],
+       device='cuda:0'), grad: tensor([[ 5.1782e-07,  1.0896e-07,  2.6543e-07,  ...,  1.2387e-07,
+          3.4180e-07,  5.4110e-07],
+        [ 4.2543e-06, -1.7695e-08,  5.0291e-07,  ...,  2.9709e-07,
+          3.4813e-06,  3.3341e-06],
+        [-3.6120e-05,  2.9244e-07,  6.6403e-07,  ..., -2.1886e-06,
+         -2.6926e-05, -3.1322e-05],
+        ...,
+        [ 8.9854e-06,  1.8068e-07, -1.0142e-06,  ...,  2.8033e-07,
+          6.1654e-06,  9.1344e-06],
+        [ 1.9535e-05,  1.1772e-06,  1.7863e-06,  ...,  2.3991e-06,
+          1.5602e-05,  1.6227e-05],
+        [ 9.8161e-07,  3.5428e-06,  6.1877e-06,  ...,  3.0864e-06,
+          3.0268e-07,  1.5246e-06]], device='cuda:0')
+Epoch 156, bias, value: tensor([-0.0101, -0.0094, -0.0043, -0.0162, -0.0114, -0.0017,  0.0100,  0.0115,
+         0.0188, -0.0071], device='cuda:0'), grad: tensor([ 1.5255e-06,  9.4920e-06, -7.7426e-05, -1.7792e-05,  1.3951e-06,
+         1.3430e-06,  8.8941e-07,  1.9982e-05,  4.6879e-05,  1.3679e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 155, time 214.74, cls_loss 0.0029 cls_loss_mapping 0.0049 cls_loss_causal 0.5499 re_mapping 0.0078 re_causal 0.0219 /// teacc 98.95 lr 0.00010000
+Epoch 157, weight, value: tensor([[-0.1660,  0.0723, -0.0291,  ..., -0.0109, -0.0985, -0.1100],
+        [ 0.0258,  0.0673, -0.0957,  ..., -0.0862, -0.0243,  0.0889],
+        [ 0.0520, -0.0838, -0.0954,  ...,  0.0002, -0.0429, -0.0435],
+        ...,
+        [ 0.0639,  0.0112,  0.1009,  ...,  0.0550,  0.1379,  0.0002],
+        [ 0.0865, -0.1223, -0.1029,  ..., -0.1563, -0.0494,  0.1462],
+        [-0.0797,  0.0772,  0.0237,  ..., -0.1093, -0.0668, -0.0145]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-07, -2.1886e-07,  6.0629e-07,  ...,  1.3597e-07,
+          8.4750e-08,  6.0536e-08],
+        [ 9.7230e-07,  1.4165e-06,  1.8217e-06,  ...,  6.2399e-07,
+          9.8348e-07,  8.0094e-08],
+        [ 3.2783e-07,  1.4780e-06,  2.4140e-06,  ...,  1.7229e-07,
+          8.7544e-08,  2.5332e-07],
+        ...,
+        [-2.1085e-06,  2.0992e-06, -2.8368e-06,  ..., -1.0664e-06,
+         -2.2929e-06,  8.1025e-07],
+        [-9.8273e-06,  4.6417e-06,  4.1798e-06,  ...,  2.1327e-07,
+          2.0023e-07, -4.5411e-06],
+        [ 5.3644e-07, -1.6019e-05, -1.2830e-05,  ...,  4.4424e-07,
+          3.7439e-07, -4.7404e-07]], device='cuda:0')
+Epoch 157, bias, value: tensor([-0.0100, -0.0086, -0.0048, -0.0166, -0.0113, -0.0022,  0.0100,  0.0114,
+         0.0197, -0.0073], device='cuda:0'), grad: tensor([-9.1270e-07,  5.6773e-06,  4.2170e-06,  2.0102e-05, -4.1164e-07,
+         1.2495e-05,  2.9519e-05,  1.7108e-06, -3.7432e-05, -3.4899e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 156, time 214.65, cls_loss 0.0025 cls_loss_mapping 0.0063 cls_loss_causal 0.5276 re_mapping 0.0076 re_causal 0.0218 /// teacc 98.95 lr 0.00010000
+Epoch 158, weight, value: tensor([[-1.6648e-01,  7.2482e-02, -2.9594e-02,  ..., -1.1325e-02,
+         -9.8867e-02, -1.1017e-01],
+        [ 2.6267e-02,  6.8086e-02, -9.6103e-02,  ..., -8.7093e-02,
+         -2.4636e-02,  9.0681e-02],
+        [ 5.1938e-02, -8.4105e-02, -9.6005e-02,  ..., -5.4659e-06,
+         -4.3686e-02, -4.3579e-02],
+        ...,
+        [ 6.4309e-02,  1.1079e-02,  1.0168e-01,  ...,  5.5606e-02,
+          1.3898e-01,  1.5304e-04],
+        [ 8.5047e-02, -1.2398e-01, -1.0392e-01,  ..., -1.5903e-01,
+         -4.9659e-02,  1.4417e-01],
+        [-8.0093e-02,  7.7007e-02,  2.3471e-02,  ..., -1.1011e-01,
+         -6.7483e-02, -1.4686e-02]], device='cuda:0'), grad: tensor([[ 2.1979e-06, -3.3006e-06,  1.0058e-06,  ..., -2.5984e-07,
+          1.6093e-06,  1.1362e-06],
+        [ 1.0881e-03, -3.6601e-07,  7.7391e-04,  ...,  3.1944e-07,
+          7.8917e-04,  5.6410e-04],
+        [ 3.0160e-05,  2.3842e-07,  2.2665e-05,  ...,  6.8173e-07,
+          2.1607e-05,  1.5482e-05],
+        ...,
+        [-1.1930e-03,  9.8627e-07, -8.4925e-04,  ..., -1.8496e-06,
+         -8.6498e-04, -6.1750e-04],
+        [ 5.3197e-05,  3.3062e-07,  3.8654e-05,  ...,  1.7975e-07,
+          3.9428e-05,  2.6479e-05],
+        [ 9.1717e-06,  1.4156e-06,  5.8822e-06,  ...,  4.5821e-07,
+          6.5006e-06,  5.2005e-06]], device='cuda:0')
+Epoch 158, bias, value: tensor([-0.0100, -0.0076, -0.0050, -0.0167, -0.0111, -0.0015,  0.0102,  0.0119,
+         0.0172, -0.0076], device='cuda:0'), grad: tensor([-2.5854e-06,  2.1343e-03,  5.8860e-05,  1.4573e-05,  9.2108e-07,
+         1.5022e-06,  2.0601e-06, -2.3365e-03,  1.0425e-04,  2.1592e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 157, time 214.28, cls_loss 0.0040 cls_loss_mapping 0.0054 cls_loss_causal 0.5501 re_mapping 0.0078 re_causal 0.0209 /// teacc 98.94 lr 0.00010000
+Epoch 159, weight, value: tensor([[-0.1674,  0.0713, -0.0301,  ..., -0.0108, -0.0996, -0.1110],
+        [ 0.0260,  0.0686, -0.0966,  ..., -0.0876, -0.0250,  0.0918],
+        [ 0.0522, -0.0849, -0.0959,  ...,  0.0003, -0.0433, -0.0441],
+        ...,
+        [ 0.0647,  0.0103,  0.1021,  ...,  0.0554,  0.1394, -0.0002],
+        [ 0.0845, -0.1257, -0.1043,  ..., -0.1599, -0.0499,  0.1435],
+        [-0.0810,  0.0782,  0.0233,  ..., -0.1116, -0.0680, -0.0146]],
+       device='cuda:0'), grad: tensor([[ 2.6077e-08, -3.5614e-06,  2.9802e-08,  ..., -8.1677e-07,
+          1.3970e-08,  1.0710e-07],
+        [-5.5395e-06,  6.9216e-06,  4.0513e-07,  ..., -3.2149e-06,
+         -4.9248e-06, -2.5854e-06],
+        [ 4.9472e-06,  4.9733e-07,  1.0524e-07,  ...,  2.0918e-06,
+          5.0478e-06,  8.3596e-06],
+        ...,
+        [-1.0990e-06,  8.0932e-07, -2.6263e-06,  ..., -1.8124e-06,
+         -1.7295e-06,  8.5589e-07],
+        [ 3.0734e-07,  1.2666e-06,  1.6987e-06,  ...,  8.8848e-07,
+          4.5635e-08,  3.8836e-07],
+        [ 8.0094e-08,  2.2426e-06, -1.9595e-06,  ...,  3.6694e-07,
+          6.4261e-08,  6.5751e-07]], device='cuda:0')
+Epoch 159, bias, value: tensor([-0.0113, -0.0074, -0.0051, -0.0170, -0.0111, -0.0013,  0.0108,  0.0118,
+         0.0167, -0.0067], device='cuda:0'), grad: tensor([-6.6049e-06, -2.6412e-06,  1.8999e-05,  3.5912e-06, -2.5302e-05,
+         1.4091e-06,  2.0005e-06, -1.0058e-07,  5.8748e-06,  2.7884e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 158, time 214.69, cls_loss 0.0027 cls_loss_mapping 0.0047 cls_loss_causal 0.5370 re_mapping 0.0075 re_causal 0.0218 /// teacc 98.90 lr 0.00010000
+Epoch 160, weight, value: tensor([[-1.6793e-01,  7.1738e-02, -3.0766e-02,  ..., -9.9862e-03,
+         -9.9903e-02, -1.1138e-01],
+        [ 2.5850e-02,  6.7588e-02, -9.7046e-02,  ..., -8.8755e-02,
+         -2.5160e-02,  9.1904e-02],
+        [ 5.2039e-02, -8.4225e-02, -9.6477e-02,  ...,  7.0035e-05,
+         -4.3605e-02, -4.4739e-02],
+        ...,
+        [ 6.5010e-02,  1.0158e-02,  1.0269e-01,  ...,  5.5871e-02,
+          1.3984e-01, -2.4710e-04],
+        [ 8.4581e-02, -1.2606e-01, -1.0469e-01,  ..., -1.6075e-01,
+         -5.0027e-02,  1.4359e-01],
+        [-8.1196e-02,  7.7011e-02,  2.3064e-02,  ..., -1.1242e-01,
+         -6.8750e-02, -1.5213e-02]], device='cuda:0'), grad: tensor([[ 3.9488e-07, -3.8557e-07,  6.6124e-08,  ..., -1.2293e-07,
+          1.3784e-07,  2.8219e-07],
+        [ 2.0657e-06,  3.3621e-07,  5.8487e-07,  ...,  9.9279e-07,
+          2.5891e-07,  1.1455e-06],
+        [-5.1335e-06,  1.0869e-06,  2.8405e-07,  ..., -3.3937e-06,
+         -6.0070e-07,  5.1502e-07],
+        ...,
+        [-1.8999e-07,  3.4366e-07, -1.1679e-06,  ..., -4.9453e-07,
+         -6.1002e-07,  2.3562e-07],
+        [-2.8219e-06,  2.7008e-07,  1.1176e-08,  ...,  1.8980e-06,
+          4.3213e-07, -5.8301e-06],
+        [ 7.0035e-07,  3.0901e-06,  7.1712e-08,  ...,  5.5507e-07,
+          7.4506e-08,  1.5385e-06]], device='cuda:0')
+Epoch 160, bias, value: tensor([-0.0109, -0.0084, -0.0044, -0.0159, -0.0095, -0.0022,  0.0101,  0.0120,
+         0.0166, -0.0077], device='cuda:0'), grad: tensor([ 2.6226e-06,  8.1882e-06, -1.8135e-05,  4.5337e-06, -4.9695e-06,
+         2.5764e-05, -2.3544e-05,  8.8941e-07, -5.2452e-06,  9.7901e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 159, time 214.89, cls_loss 0.0031 cls_loss_mapping 0.0047 cls_loss_causal 0.5505 re_mapping 0.0074 re_causal 0.0207 /// teacc 98.97 lr 0.00010000
+Epoch 161, weight, value: tensor([[-0.1689,  0.0718, -0.0316,  ..., -0.0105, -0.1006, -0.1120],
+        [ 0.0271,  0.0698, -0.0970,  ..., -0.0893, -0.0240,  0.0928],
+        [ 0.0519, -0.0845, -0.0966,  ...,  0.0002, -0.0438, -0.0453],
+        ...,
+        [ 0.0644,  0.0081,  0.1031,  ...,  0.0562,  0.1394, -0.0013],
+        [ 0.0847, -0.1267, -0.1051,  ..., -0.1616, -0.0502,  0.1437],
+        [-0.0821,  0.0749,  0.0219,  ..., -0.1142, -0.0704, -0.0163]],
+       device='cuda:0'), grad: tensor([[ 3.7346e-07, -5.1409e-07,  2.7511e-06,  ...,  2.0042e-06,
+          4.8522e-07,  1.3039e-08],
+        [ 1.8431e-06,  3.8557e-06,  4.8019e-06,  ...,  1.8664e-06,
+          2.5872e-06, -3.0268e-07],
+        [-1.6764e-07,  3.1013e-06,  5.3309e-06,  ...,  3.4552e-06,
+         -6.4261e-08,  7.7300e-08],
+        ...,
+        [-3.9749e-06, -4.1425e-06, -4.8988e-06,  ..., -4.5542e-07,
+         -5.4687e-06,  1.8533e-07],
+        [ 4.3958e-07,  3.0845e-06,  3.1646e-06,  ...,  1.5013e-06,
+          7.0781e-08,  2.5611e-07],
+        [ 1.0384e-06, -3.5428e-06, -4.1910e-06,  ...,  8.4285e-07,
+          1.4175e-06, -8.1025e-08]], device='cuda:0')
+Epoch 161, bias, value: tensor([-0.0110, -0.0071, -0.0046, -0.0162, -0.0070, -0.0015,  0.0092,  0.0112,
+         0.0162, -0.0098], device='cuda:0'), grad: tensor([ 2.9616e-06,  1.1161e-05,  1.1846e-05, -2.7776e-05,  1.1474e-05,
+        -4.2059e-06, -4.6864e-06, -8.6650e-06,  1.3985e-05, -6.0946e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 160, time 214.56, cls_loss 0.0027 cls_loss_mapping 0.0045 cls_loss_causal 0.5481 re_mapping 0.0073 re_causal 0.0204 /// teacc 98.85 lr 0.00010000
+Epoch 162, weight, value: tensor([[-0.1700,  0.0718, -0.0323,  ..., -0.0107, -0.1011, -0.1126],
+        [ 0.0267,  0.0700, -0.0973,  ..., -0.0898, -0.0246,  0.0930],
+        [ 0.0517, -0.0853, -0.0970,  ...,  0.0004, -0.0442, -0.0463],
+        ...,
+        [ 0.0652,  0.0079,  0.1036,  ...,  0.0564,  0.1403, -0.0009],
+        [ 0.0845, -0.1272, -0.1056,  ..., -0.1622, -0.0507,  0.1437],
+        [-0.0826,  0.0749,  0.0223,  ..., -0.1146, -0.0706, -0.0165]],
+       device='cuda:0'), grad: tensor([[ 4.3120e-07,  1.2284e-06,  2.3469e-07,  ...,  1.5246e-06,
+          5.5693e-07,  4.6566e-09],
+        [ 8.1304e-07,  4.8429e-08,  6.5193e-07,  ...,  9.4716e-07,
+          1.1632e-06, -1.1083e-07],
+        [-5.6438e-06,  9.1270e-08, -2.7828e-06,  ..., -6.0089e-06,
+         -8.4415e-06,  3.6322e-08],
+        ...,
+        [ 1.0980e-06,  1.4715e-07,  4.5914e-07,  ...,  1.2573e-06,
+          1.6931e-06,  6.0536e-08],
+        [ 1.1511e-06,  4.8149e-07,  7.1060e-07,  ...,  1.2293e-06,
+          1.5385e-06, -3.2596e-08],
+        [ 1.3784e-07,  1.3877e-07,  1.6205e-07,  ...,  3.4552e-07,
+          1.6950e-07,  1.4901e-08]], device='cuda:0')
+Epoch 162, bias, value: tensor([-0.0111, -0.0071, -0.0050, -0.0165, -0.0069, -0.0015,  0.0092,  0.0118,
+         0.0160, -0.0098], device='cuda:0'), grad: tensor([ 7.6964e-06,  3.5949e-06, -2.4378e-05,  1.1265e-05,  4.6287e-07,
+        -1.0721e-05, -3.6769e-06,  5.7034e-06,  8.7619e-06,  1.2759e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 161, time 214.67, cls_loss 0.0016 cls_loss_mapping 0.0037 cls_loss_causal 0.5458 re_mapping 0.0069 re_causal 0.0213 /// teacc 98.97 lr 0.00010000
+Epoch 163, weight, value: tensor([[-0.1703,  0.0726, -0.0325,  ..., -0.0106, -0.1013, -0.1130],
+        [ 0.0265,  0.0697, -0.0977,  ..., -0.0902, -0.0248,  0.0929],
+        [ 0.0518, -0.0857, -0.0970,  ...,  0.0005, -0.0440, -0.0464],
+        ...,
+        [ 0.0653,  0.0078,  0.1038,  ...,  0.0564,  0.1405, -0.0009],
+        [ 0.0845, -0.1277, -0.1060,  ..., -0.1626, -0.0508,  0.1438],
+        [-0.0827,  0.0748,  0.0231,  ..., -0.1150, -0.0706, -0.0165]],
+       device='cuda:0'), grad: tensor([[ 3.1386e-07,  1.0617e-07,  2.7288e-07,  ...,  2.7657e-05,
+          3.3528e-07,  5.3458e-07],
+        [-1.1347e-05, -5.3383e-06, -5.7071e-06,  ...,  6.0722e-07,
+         -1.2577e-05, -2.8253e-05],
+        [ 1.7164e-06,  8.8662e-07,  2.2743e-06,  ...,  3.0696e-05,
+          1.5926e-06,  5.9307e-06],
+        ...,
+        [ 7.6294e-06,  4.1276e-06,  2.7604e-06,  ..., -3.5111e-07,
+          8.0839e-06,  1.9908e-05],
+        [-1.0990e-07,  5.6718e-07,  7.5344e-07,  ...,  2.2631e-06,
+          3.6322e-07, -3.6880e-07],
+        [ 7.2550e-07, -3.1199e-07, -7.0315e-07,  ...,  6.1281e-07,
+          5.4389e-07,  9.0804e-07]], device='cuda:0')
+Epoch 163, bias, value: tensor([-0.0104, -0.0074, -0.0048, -0.0167, -0.0066, -0.0012,  0.0084,  0.0117,
+         0.0157, -0.0099], device='cuda:0'), grad: tensor([ 4.6164e-05, -4.8578e-05,  5.9366e-05, -1.1116e-04,  1.7779e-06,
+         8.5160e-06,  4.4592e-06,  3.4839e-05,  4.2357e-06,  4.6566e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 162, time 214.83, cls_loss 0.0031 cls_loss_mapping 0.0052 cls_loss_causal 0.5354 re_mapping 0.0069 re_causal 0.0201 /// teacc 98.75 lr 0.00010000
+Epoch 164, weight, value: tensor([[-0.1708,  0.0727, -0.0332,  ..., -0.0109, -0.1018, -0.1138],
+        [ 0.0268,  0.0696, -0.0964,  ..., -0.0897, -0.0246,  0.0932],
+        [ 0.0519, -0.0862, -0.0971,  ...,  0.0005, -0.0438, -0.0467],
+        ...,
+        [ 0.0651,  0.0075,  0.1028,  ...,  0.0559,  0.1403, -0.0013],
+        [ 0.0847, -0.1284, -0.1063,  ..., -0.1632, -0.0509,  0.1440],
+        [-0.0855,  0.0737,  0.0213,  ..., -0.1164, -0.0713, -0.0175]],
+       device='cuda:0'), grad: tensor([[ 3.7905e-07, -3.9022e-07,  4.9733e-07,  ...,  2.0117e-07,
+          2.8126e-07,  4.5169e-07],
+        [ 9.2462e-06,  2.0899e-06,  6.6049e-06,  ...,  4.1388e-06,
+          6.7018e-06, -2.7213e-06],
+        [ 1.5222e-05,  2.2426e-06,  9.8273e-06,  ...,  7.0818e-06,
+          1.2025e-05,  6.4224e-06],
+        ...,
+        [-6.4969e-05,  2.5537e-06, -3.8832e-05,  ..., -2.0102e-05,
+         -4.1068e-05, -1.5959e-05],
+        [ 2.8253e-05,  1.1725e-06,  1.5885e-05,  ...,  5.4464e-06,
+          1.3746e-05,  1.0602e-05],
+        [ 1.4529e-06, -2.8536e-06, -6.7391e-06,  ...,  3.6601e-07,
+          7.3668e-07,  4.8317e-06]], device='cuda:0')
+Epoch 164, bias, value: tensor([-0.0107, -0.0069, -0.0048, -0.0160, -0.0046, -0.0015,  0.0099,  0.0110,
+         0.0154, -0.0118], device='cuda:0'), grad: tensor([ 3.8091e-07,  1.3463e-05,  2.8774e-05, -8.8364e-06, -5.1349e-05,
+         3.5167e-05,  5.4836e-06, -7.3791e-05,  3.6240e-05,  1.4424e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 163, time 214.71, cls_loss 0.0027 cls_loss_mapping 0.0039 cls_loss_causal 0.5417 re_mapping 0.0070 re_causal 0.0199 /// teacc 98.99 lr 0.00010000
+Epoch 165, weight, value: tensor([[-0.1718,  0.0729, -0.0340,  ..., -0.0111, -0.1025, -0.1147],
+        [ 0.0261,  0.0694, -0.0969,  ..., -0.0903, -0.0249,  0.0926],
+        [ 0.0518, -0.0867, -0.0974,  ...,  0.0004, -0.0438, -0.0471],
+        ...,
+        [ 0.0655,  0.0068,  0.1029,  ...,  0.0564,  0.1408, -0.0012],
+        [ 0.0849, -0.1289, -0.1068,  ..., -0.1639, -0.0511,  0.1443],
+        [-0.0851,  0.0735,  0.0229,  ..., -0.1169, -0.0706, -0.0178]],
+       device='cuda:0'), grad: tensor([[ 3.4412e-07, -2.7288e-07,  4.1258e-07,  ...,  1.1316e-07,
+          5.1688e-08,  2.1886e-08],
+        [ 4.4750e-07,  3.3248e-07,  9.3877e-07,  ...,  3.0082e-07,
+          2.4028e-07,  5.8673e-08],
+        [-5.1921e-07,  9.9652e-08,  2.9569e-07,  ..., -7.1665e-07,
+         -1.6764e-07,  6.2399e-08],
+        ...,
+        [-5.1819e-06, -6.3702e-07, -8.3521e-06,  ..., -2.6133e-06,
+         -2.6617e-06,  1.3504e-08],
+        [ 1.4529e-07,  4.2887e-07,  4.6939e-07,  ...,  3.9395e-07,
+          2.3004e-07, -7.2224e-07],
+        [ 1.8943e-06, -2.3305e-05, -1.2815e-05,  ...,  4.4750e-07,
+          1.2703e-06,  9.5926e-08]], device='cuda:0')
+Epoch 165, bias, value: tensor([-0.0106, -0.0078, -0.0048, -0.0160, -0.0043, -0.0012,  0.0114,  0.0109,
+         0.0151, -0.0117], device='cuda:0'), grad: tensor([-7.9162e-09,  1.4910e-06, -2.0191e-06,  2.3507e-06,  1.5058e-05,
+         3.1888e-05, -1.0105e-07, -9.6560e-06,  1.5413e-06, -4.0561e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 164, time 214.55, cls_loss 0.0034 cls_loss_mapping 0.0042 cls_loss_causal 0.5508 re_mapping 0.0072 re_causal 0.0200 /// teacc 98.96 lr 0.00010000
+Epoch 166, weight, value: tensor([[-0.1725,  0.0726, -0.0349,  ..., -0.0112, -0.1028, -0.1151],
+        [ 0.0256,  0.0689, -0.0975,  ..., -0.0909, -0.0253,  0.0920],
+        [ 0.0519, -0.0871, -0.0976,  ...,  0.0004, -0.0437, -0.0475],
+        ...,
+        [ 0.0659,  0.0060,  0.1030,  ...,  0.0566,  0.1413, -0.0010],
+        [ 0.0855, -0.1290, -0.1076,  ..., -0.1645, -0.0512,  0.1449],
+        [-0.0850,  0.0726,  0.0209,  ..., -0.1190, -0.0713, -0.0173]],
+       device='cuda:0'), grad: tensor([[-2.3488e-06, -7.7114e-06, -8.5682e-08,  ..., -2.6776e-07,
+         -7.4785e-07,  2.6543e-08],
+        [ 2.5518e-07,  5.0012e-07,  8.5216e-08,  ...,  4.7497e-08,
+          1.6158e-07, -1.1595e-06],
+        [-1.4948e-07,  3.3714e-07,  2.2817e-08,  ...,  1.0710e-08,
+         -1.9791e-07,  3.3062e-08],
+        ...,
+        [ 8.2422e-08,  3.8510e-07, -9.3132e-10,  ...,  4.8894e-08,
+          8.2422e-08,  7.7765e-08],
+        [ 1.8710e-06,  5.9754e-06,  6.7428e-07,  ...,  1.1362e-07,
+          5.6392e-07,  3.0920e-07],
+        [ 3.3528e-08, -4.8503e-06, -5.0962e-06,  ...,  6.4261e-08,
+          4.7497e-08, -7.1106e-07]], device='cuda:0')
+Epoch 166, bias, value: tensor([-0.0109, -0.0089, -0.0048, -0.0162, -0.0026, -0.0011,  0.0126,  0.0109,
+         0.0155, -0.0128], device='cuda:0'), grad: tensor([-2.3246e-05,  1.3644e-07,  7.0455e-07,  1.9781e-06,  1.4499e-05,
+        -3.0547e-07,  1.6149e-06,  1.3402e-06,  1.8686e-05, -1.5408e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 165, time 214.69, cls_loss 0.0024 cls_loss_mapping 0.0037 cls_loss_causal 0.5292 re_mapping 0.0069 re_causal 0.0206 /// teacc 99.05 lr 0.00010000
+Epoch 167, weight, value: tensor([[-0.1730,  0.0728, -0.0355,  ..., -0.0113, -0.1031, -0.1156],
+        [ 0.0244,  0.0687, -0.0987,  ..., -0.0922, -0.0269,  0.0918],
+        [ 0.0518, -0.0874, -0.0978,  ...,  0.0005, -0.0442, -0.0478],
+        ...,
+        [ 0.0667,  0.0059,  0.1036,  ...,  0.0570,  0.1428, -0.0012],
+        [ 0.0852, -0.1295, -0.1080,  ..., -0.1652, -0.0512,  0.1447],
+        [-0.0847,  0.0728,  0.0214,  ..., -0.1196, -0.0711, -0.0175]],
+       device='cuda:0'), grad: tensor([[ 8.4285e-08, -7.3910e-06,  1.0571e-07,  ...,  8.1025e-08,
+          2.4680e-08,  3.7253e-09],
+        [ 1.5087e-07,  2.6077e-08,  2.7614e-07,  ...,  1.3225e-07,
+          1.3551e-07, -3.3993e-08],
+        [-2.6077e-08,  1.9139e-07,  3.0827e-07,  ...,  3.5856e-08,
+         -3.9581e-08,  1.7695e-08],
+        ...,
+        [-7.2690e-07,  6.9849e-07, -1.2843e-06,  ..., -4.0419e-07,
+         -6.0862e-07,  1.4435e-08],
+        [ 2.1886e-08,  2.0601e-06,  1.1548e-07,  ...,  8.1956e-08,
+          2.7474e-08, -1.5646e-07],
+        [ 1.4435e-07,  9.0105e-07, -3.0128e-07,  ...,  1.1828e-07,
+          1.1548e-07,  4.3772e-08]], device='cuda:0')
+Epoch 167, bias, value: tensor([-0.0105, -0.0099, -0.0050, -0.0157, -0.0029, -0.0016,  0.0142,  0.0113,
+         0.0148, -0.0124], device='cuda:0'), grad: tensor([-2.7344e-05,  4.0093e-07,  3.8929e-07,  1.0859e-06,  1.0543e-06,
+         1.7077e-05, -5.8115e-06,  1.6438e-06,  8.8513e-06,  2.6915e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 166, time 214.81, cls_loss 0.0019 cls_loss_mapping 0.0043 cls_loss_causal 0.5338 re_mapping 0.0071 re_causal 0.0206 /// teacc 98.88 lr 0.00010000
+Epoch 168, weight, value: tensor([[-0.1739,  0.0729, -0.0362,  ..., -0.0115, -0.1036, -0.1160],
+        [ 0.0240,  0.0683, -0.0992,  ..., -0.0927, -0.0271,  0.0915],
+        [ 0.0518, -0.0880, -0.0981,  ...,  0.0005, -0.0442, -0.0479],
+        ...,
+        [ 0.0671,  0.0059,  0.1046,  ...,  0.0575,  0.1434, -0.0013],
+        [ 0.0859, -0.1303, -0.1085,  ..., -0.1660, -0.0512,  0.1454],
+        [-0.0851,  0.0734,  0.0218,  ..., -0.1204, -0.0717, -0.0174]],
+       device='cuda:0'), grad: tensor([[ 5.9232e-07, -3.0417e-06,  1.3458e-07,  ...,  9.1270e-08,
+          3.0268e-08,  1.1697e-06],
+        [-8.4639e-06, -4.9397e-06,  3.5092e-06,  ...,  2.3004e-06,
+          1.2107e-06, -1.4305e-05],
+        [ 3.4105e-06,  2.0117e-06,  5.5460e-07,  ...,  2.9802e-07,
+          2.8405e-08,  5.5879e-06],
+        ...,
+        [-7.9945e-06,  1.2061e-07, -1.4871e-05,  ..., -9.6560e-06,
+         -5.3532e-06, -3.2745e-06],
+        [ 4.2580e-06,  2.4531e-06,  1.1018e-06,  ...,  1.1288e-06,
+          2.8964e-07,  2.1979e-05],
+        [ 7.2690e-07,  6.1095e-07, -1.0012e-07,  ...,  2.1607e-07,
+          4.2841e-08,  1.0533e-06]], device='cuda:0')
+Epoch 168, bias, value: tensor([-0.0105, -0.0103, -0.0050, -0.0159, -0.0032, -0.0020,  0.0141,  0.0117,
+         0.0147, -0.0118], device='cuda:0'), grad: tensor([-1.3560e-06, -3.1769e-05,  1.5900e-05,  1.2524e-05,  2.1700e-06,
+         3.8117e-05, -1.7679e-04, -1.6525e-05,  1.5342e-04,  3.9153e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 167, time 214.94, cls_loss 0.0025 cls_loss_mapping 0.0044 cls_loss_causal 0.5463 re_mapping 0.0064 re_causal 0.0198 /// teacc 98.84 lr 0.00010000
+Epoch 169, weight, value: tensor([[-0.1753,  0.0741, -0.0375,  ..., -0.0118, -0.1045, -0.1167],
+        [ 0.0249,  0.0700, -0.0989,  ..., -0.0930, -0.0263,  0.0927],
+        [ 0.0522, -0.0885, -0.0980,  ...,  0.0008, -0.0438, -0.0483],
+        ...,
+        [ 0.0663,  0.0048,  0.1042,  ...,  0.0574,  0.1427, -0.0026],
+        [ 0.0858, -0.1318, -0.1089,  ..., -0.1669, -0.0514,  0.1453],
+        [-0.0848,  0.0734,  0.0223,  ..., -0.1213, -0.0720, -0.0174]],
+       device='cuda:0'), grad: tensor([[ 1.5413e-07, -8.2748e-07,  3.2596e-07,  ...,  7.9162e-08,
+          1.8161e-07,  3.6787e-08],
+        [ 2.7642e-06,  7.6881e-07,  4.5225e-06,  ...,  7.6788e-07,
+          3.1609e-06,  4.7497e-08],
+        [ 2.3842e-07,  4.6799e-07,  7.3249e-07,  ...,  5.1223e-08,
+          2.3469e-07,  8.7079e-08],
+        ...,
+        [-4.0941e-06, -4.1677e-07, -6.4597e-06,  ..., -1.2564e-06,
+         -4.7609e-06,  3.1712e-07],
+        [-8.3167e-07,  3.6368e-07,  2.3935e-07,  ...,  3.7719e-08,
+          6.2864e-08, -1.1222e-06],
+        [ 5.5367e-07, -4.1276e-06, -2.9355e-06,  ...,  1.4622e-07,
+          6.1234e-07,  1.3234e-06]], device='cuda:0')
+Epoch 169, bias, value: tensor([-0.0095, -0.0094, -0.0045, -0.0159, -0.0035, -0.0024,  0.0140,  0.0107,
+         0.0141, -0.0116], device='cuda:0'), grad: tensor([ 5.3830e-07,  6.8285e-06,  1.4044e-06,  8.1435e-06, -2.2575e-06,
+         2.9914e-06, -1.8850e-06, -7.8529e-06, -9.6764e-07, -6.9924e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 168, time 215.11, cls_loss 0.0024 cls_loss_mapping 0.0043 cls_loss_causal 0.5554 re_mapping 0.0068 re_causal 0.0199 /// teacc 98.97 lr 0.00010000
+Epoch 170, weight, value: tensor([[-0.1766,  0.0753, -0.0390,  ..., -0.0119, -0.1056, -0.1178],
+        [ 0.0248,  0.0700, -0.0991,  ..., -0.0933, -0.0264,  0.0929],
+        [ 0.0520, -0.0886, -0.0983,  ...,  0.0007, -0.0438, -0.0492],
+        ...,
+        [ 0.0659,  0.0047,  0.1039,  ...,  0.0576,  0.1426, -0.0035],
+        [ 0.0881, -0.1319, -0.1066,  ..., -0.1671, -0.0497,  0.1467],
+        [-0.0855,  0.0734,  0.0225,  ..., -0.1225, -0.0723, -0.0177]],
+       device='cuda:0'), grad: tensor([[ 2.3656e-06,  1.3597e-07,  4.4424e-07,  ...,  9.3132e-09,
+          4.6566e-09,  3.3490e-06],
+        [ 3.5092e-06,  6.7055e-08,  3.8929e-07,  ...,  3.6322e-08,
+          3.3528e-08,  5.5917e-06],
+        [ 3.4943e-06,  1.2014e-07,  3.2224e-07,  ...,  4.0047e-08,
+          6.7055e-08,  6.2212e-06],
+        ...,
+        [ 5.9605e-07,  8.4750e-08, -8.9407e-08,  ..., -5.9605e-08,
+         -1.2480e-07,  1.2843e-06],
+        [-3.1173e-05, -1.8636e-06, -4.3362e-06,  ...,  2.4214e-08,
+         -3.3528e-08, -4.7654e-05],
+        [ 6.3609e-07,  9.3039e-07, -7.4506e-09,  ...,  3.9116e-08,
+          5.5879e-09,  1.1725e-06]], device='cuda:0')
+Epoch 170, bias, value: tensor([-0.0086, -0.0098, -0.0042, -0.0148, -0.0037, -0.0043,  0.0139,  0.0103,
+         0.0160, -0.0118], device='cuda:0'), grad: tensor([ 9.6038e-06,  1.4924e-05,  1.5721e-05,  2.8446e-05,  2.5202e-06,
+         3.4094e-05,  1.7479e-05,  3.1106e-06, -1.3018e-04,  4.1872e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 169, time 214.91, cls_loss 0.0028 cls_loss_mapping 0.0045 cls_loss_causal 0.5394 re_mapping 0.0067 re_causal 0.0200 /// teacc 98.99 lr 0.00010000
+Epoch 171, weight, value: tensor([[-0.1777,  0.0755, -0.0397,  ..., -0.0119, -0.1061, -0.1191],
+        [ 0.0243,  0.0692, -0.0992,  ..., -0.0935, -0.0265,  0.0916],
+        [ 0.0519, -0.0889, -0.0986,  ...,  0.0006, -0.0438, -0.0498],
+        ...,
+        [ 0.0660,  0.0043,  0.1041,  ...,  0.0577,  0.1428, -0.0036],
+        [ 0.0889, -0.1319, -0.1070,  ..., -0.1679, -0.0497,  0.1475],
+        [-0.0864,  0.0736,  0.0229,  ..., -0.1229, -0.0724, -0.0181]],
+       device='cuda:0'), grad: tensor([[ 5.4389e-07, -5.7332e-06,  2.0582e-07,  ...,  1.8161e-07,
+          4.7404e-07,  1.3402e-06],
+        [-2.3767e-06, -4.3306e-07,  1.0263e-06,  ...,  9.8534e-07,
+         -7.3873e-06, -1.6093e-05],
+        [ 1.0557e-05,  6.7987e-08,  2.0280e-05,  ..., -1.6065e-06,
+          8.5980e-06,  6.5006e-06],
+        ...,
+        [-2.5019e-05,  1.6857e-07, -3.1412e-05,  ..., -5.0776e-06,
+         -1.1683e-05,  4.1388e-06],
+        [ 6.7651e-06,  4.6100e-07,  3.7961e-06,  ...,  2.6394e-06,
+          3.4831e-06,  1.3951e-06],
+        [ 5.0291e-08, -1.5367e-06, -2.0489e-06,  ...,  4.7497e-08,
+          2.0862e-07,  5.2899e-07]], device='cuda:0')
+Epoch 171, bias, value: tensor([-0.0087, -0.0120, -0.0043, -0.0145, -0.0041, -0.0050,  0.0164,  0.0103,
+         0.0171, -0.0117], device='cuda:0'), grad: tensor([-1.7628e-05, -4.3720e-05,  1.8775e-05,  1.0528e-05, -5.1372e-06,
+         3.2056e-06,  3.0085e-05, -1.0841e-05,  1.6063e-05, -1.3271e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 170, time 214.56, cls_loss 0.0025 cls_loss_mapping 0.0031 cls_loss_causal 0.5325 re_mapping 0.0065 re_causal 0.0189 /// teacc 98.98 lr 0.00010000
+Epoch 172, weight, value: tensor([[-0.1794,  0.0758, -0.0415,  ..., -0.0123, -0.1073, -0.1196],
+        [ 0.0239,  0.0691, -0.1002,  ..., -0.0942, -0.0270,  0.0917],
+        [ 0.0521, -0.0899, -0.0989,  ...,  0.0008, -0.0442, -0.0501],
+        ...,
+        [ 0.0665,  0.0043,  0.1048,  ...,  0.0579,  0.1436, -0.0035],
+        [ 0.0888, -0.1326, -0.1076,  ..., -0.1694, -0.0499,  0.1475],
+        [-0.0867,  0.0740,  0.0234,  ..., -0.1234, -0.0726, -0.0182]],
+       device='cuda:0'), grad: tensor([[ 6.8918e-08, -8.8196e-07,  7.7300e-08,  ...,  3.4459e-08,
+          4.2841e-08,  4.8429e-08],
+        [ 2.6822e-07, -8.3819e-07,  8.2236e-07,  ...,  3.1851e-07,
+          2.2072e-07, -1.6931e-06],
+        [-9.7789e-08,  1.5367e-07,  2.1793e-07,  ...,  4.3772e-08,
+          2.2352e-08,  9.7789e-08],
+        ...,
+        [-1.2256e-06,  4.0792e-07, -1.5218e-06,  ..., -4.9546e-07,
+         -1.1977e-06,  6.0443e-07],
+        [ 2.1327e-07,  4.9826e-07,  3.9022e-07,  ...,  2.2352e-07,
+          1.4622e-07,  8.4750e-08],
+        [ 3.9022e-07,  1.2191e-06, -6.1933e-07,  ...,  1.8533e-07,
+          3.3248e-07,  1.0459e-06]], device='cuda:0')
+Epoch 172, bias, value: tensor([-0.0085, -0.0121, -0.0038, -0.0155, -0.0045, -0.0040,  0.0162,  0.0105,
+         0.0166, -0.0114], device='cuda:0'), grad: tensor([-1.1846e-06, -2.1029e-06,  2.3562e-07,  1.5078e-06, -1.1539e-06,
+        -2.5183e-06,  9.3132e-07, -4.1816e-07,  1.5525e-06,  3.1460e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 171, time 214.84, cls_loss 0.0025 cls_loss_mapping 0.0040 cls_loss_causal 0.5421 re_mapping 0.0069 re_causal 0.0195 /// teacc 98.94 lr 0.00010000
+Epoch 173, weight, value: tensor([[-0.1826,  0.0755, -0.0431,  ..., -0.0126, -0.1083, -0.1201],
+        [ 0.0239,  0.0692, -0.1002,  ..., -0.0945, -0.0270,  0.0920],
+        [ 0.0524, -0.0905, -0.0993,  ...,  0.0008, -0.0442, -0.0500],
+        ...,
+        [ 0.0668,  0.0042,  0.1054,  ...,  0.0584,  0.1440, -0.0037],
+        [ 0.0884, -0.1335, -0.1081,  ..., -0.1711, -0.0502,  0.1477],
+        [-0.0873,  0.0742,  0.0234,  ..., -0.1245, -0.0733, -0.0187]],
+       device='cuda:0'), grad: tensor([[ 2.4401e-07,  2.1048e-07,  2.2911e-07,  ...,  3.7253e-08,
+          7.6368e-08,  2.4214e-08],
+        [ 1.1221e-05,  3.7160e-07,  5.8040e-06,  ...,  2.5257e-06,
+          6.7912e-06,  2.7958e-06],
+        [-1.4529e-07,  6.9756e-07,  9.5833e-07,  ...,  2.9057e-07,
+          4.4610e-07,  6.3330e-08],
+        ...,
+        [-2.0087e-05,  1.0803e-07, -1.0081e-05,  ..., -4.6864e-06,
+         -1.2301e-05, -4.9546e-06],
+        [ 5.2489e-06,  1.1604e-06,  3.1516e-06,  ...,  1.1344e-06,
+          3.0827e-06,  1.1306e-06],
+        [ 1.3178e-06, -5.8487e-06, -2.8573e-06,  ...,  3.3714e-07,
+          7.4226e-07,  3.4552e-07]], device='cuda:0')
+Epoch 173, bias, value: tensor([-0.0086, -0.0120, -0.0035, -0.0140, -0.0044, -0.0053,  0.0160,  0.0107,
+         0.0162, -0.0115], device='cuda:0'), grad: tensor([ 1.0896e-06,  1.7405e-05,  1.5181e-07,  7.5437e-06,  2.1346e-06,
+         1.1083e-06,  7.8231e-08, -2.9013e-05,  1.0766e-05, -1.1310e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 172, time 214.96, cls_loss 0.0027 cls_loss_mapping 0.0040 cls_loss_causal 0.5096 re_mapping 0.0065 re_causal 0.0190 /// teacc 98.95 lr 0.00010000
+Epoch 174, weight, value: tensor([[-0.1850,  0.0757, -0.0439,  ..., -0.0132, -0.1091, -0.1208],
+        [ 0.0230,  0.0690, -0.1012,  ..., -0.0953, -0.0283,  0.0921],
+        [ 0.0514, -0.0935, -0.1001,  ...,  0.0004, -0.0460, -0.0502],
+        ...,
+        [ 0.0682,  0.0044,  0.1065,  ...,  0.0590,  0.1460, -0.0040],
+        [ 0.0886, -0.1336, -0.1083,  ..., -0.1716, -0.0504,  0.1482],
+        [-0.0876,  0.0746,  0.0239,  ..., -0.1250, -0.0730, -0.0180]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-08,  2.3283e-08,  6.4261e-08,  ...,  3.7253e-08,
+          3.6322e-08,  1.2107e-08],
+        [ 4.0513e-07, -6.0536e-08,  3.7905e-07,  ...,  1.3411e-07,
+          3.7346e-07, -2.8405e-07],
+        [-1.0990e-07,  3.6322e-08,  8.6613e-08,  ..., -6.8918e-08,
+         -4.7497e-08,  5.2154e-08],
+        ...,
+        [-7.5065e-07,  8.3819e-08, -6.2399e-07,  ..., -1.6112e-07,
+         -6.8545e-07,  7.4506e-08],
+        [-5.6811e-08,  1.1735e-07,  1.2293e-07,  ...,  4.2841e-08,
+          6.4261e-08, -1.0803e-07],
+        [ 1.9465e-07, -5.4389e-07, -7.1712e-07,  ...,  3.9116e-08,
+          1.3039e-07,  8.9407e-08]], device='cuda:0')
+Epoch 174, bias, value: tensor([-0.0086, -0.0126, -0.0052, -0.0142, -0.0048, -0.0042,  0.0156,  0.0119,
+         0.0162, -0.0111], device='cuda:0'), grad: tensor([ 3.5390e-07,  3.1013e-07, -1.3690e-07,  1.0338e-07,  1.0589e-06,
+         2.9709e-07, -4.5914e-07, -7.2550e-07,  2.1234e-07, -1.0319e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 173, time 214.69, cls_loss 0.0027 cls_loss_mapping 0.0046 cls_loss_causal 0.5881 re_mapping 0.0067 re_causal 0.0209 /// teacc 98.85 lr 0.00010000
+Epoch 175, weight, value: tensor([[-0.1859,  0.0753, -0.0448,  ..., -0.0125, -0.1097, -0.1212],
+        [ 0.0218,  0.0694, -0.1030,  ..., -0.0957, -0.0296,  0.0915],
+        [ 0.0522, -0.0938, -0.1002,  ...,  0.0010, -0.0458, -0.0505],
+        ...,
+        [ 0.0692,  0.0040,  0.1080,  ...,  0.0593,  0.1471, -0.0029],
+        [ 0.0877, -0.1342, -0.1091,  ..., -0.1750, -0.0508,  0.1483],
+        [-0.0892,  0.0746,  0.0239,  ..., -0.1268, -0.0745, -0.0183]],
+       device='cuda:0'), grad: tensor([[ 8.3819e-08, -4.0978e-08,  1.6857e-07,  ...,  1.3970e-07,
+          1.9558e-08,  8.4750e-08],
+        [-1.5553e-07, -6.6403e-07,  8.2795e-07,  ...,  7.6368e-07,
+         -2.3190e-07, -1.9800e-06],
+        [ 1.9465e-07,  1.7136e-07,  5.3085e-07,  ...,  4.7311e-07,
+         -8.2888e-08,  2.8592e-07],
+        ...,
+        [ 3.7253e-07,  6.6683e-07,  1.8012e-06,  ...,  2.9244e-07,
+          8.7917e-07,  3.5949e-07],
+        [-2.7008e-06,  1.7136e-07,  4.1630e-07,  ...,  3.8184e-07,
+         -2.0768e-07, -3.4459e-06],
+        [ 1.7956e-06, -8.7079e-07, -2.3339e-06,  ...,  8.1025e-08,
+         -8.0466e-07,  2.4494e-06]], device='cuda:0')
+Epoch 175, bias, value: tensor([-0.0089, -0.0133, -0.0044, -0.0143, -0.0054, -0.0019,  0.0141,  0.0128,
+         0.0155, -0.0114], device='cuda:0'), grad: tensor([ 8.5961e-07, -8.0839e-07,  1.5246e-06, -2.0772e-05,  2.7753e-06,
+         1.4849e-05,  2.0117e-06,  4.1388e-06, -5.2378e-06,  5.8115e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 174, time 214.72, cls_loss 0.0032 cls_loss_mapping 0.0062 cls_loss_causal 0.5662 re_mapping 0.0068 re_causal 0.0188 /// teacc 98.93 lr 0.00010000
+Epoch 176, weight, value: tensor([[-0.1881,  0.0754, -0.0467,  ..., -0.0133, -0.1108, -0.1236],
+        [ 0.0214,  0.0695, -0.1036,  ..., -0.0971, -0.0303,  0.0920],
+        [ 0.0520, -0.0933, -0.1007,  ...,  0.0013, -0.0458, -0.0537],
+        ...,
+        [ 0.0700,  0.0039,  0.1091,  ...,  0.0602,  0.1480, -0.0024],
+        [ 0.0901, -0.1363, -0.1097,  ..., -0.1761, -0.0513,  0.1506],
+        [-0.0900,  0.0750,  0.0239,  ..., -0.1287, -0.0756, -0.0186]],
+       device='cuda:0'), grad: tensor([[ 4.6007e-06, -3.5856e-07,  4.0699e-07,  ..., -1.3039e-08,
+          1.2107e-08,  7.9796e-06],
+        [ 5.7554e-04,  5.4296e-07,  7.2736e-07,  ...,  1.7602e-07,
+         -1.4994e-07,  9.8801e-04],
+        [ 1.4789e-05,  1.9465e-07,  8.3819e-08,  ..., -2.9430e-07,
+         -1.1083e-07,  2.6003e-05],
+        ...,
+        [ 1.1168e-05,  1.3724e-05,  2.4348e-05,  ...,  5.5879e-09,
+          7.8231e-08,  2.0429e-05],
+        [-6.3753e-04,  1.7677e-06,  1.0543e-06,  ...,  8.7544e-08,
+          6.7055e-08, -1.0939e-03],
+        [ 1.3569e-06, -1.7929e-03, -3.5262e-04,  ...,  4.9360e-08,
+          2.3283e-08, -1.5087e-03]], device='cuda:0')
+Epoch 176, bias, value: tensor([-0.0091, -0.0137, -0.0036, -0.0146, -0.0056, -0.0019,  0.0119,  0.0134,
+         0.0180, -0.0113], device='cuda:0'), grad: tensor([ 1.1511e-05,  1.5020e-03,  3.9220e-05,  2.5406e-05,  5.2719e-03,
+        -7.6070e-06,  6.0052e-05,  7.2002e-05, -1.6565e-03, -5.3215e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 175, time 214.91, cls_loss 0.0023 cls_loss_mapping 0.0029 cls_loss_causal 0.4960 re_mapping 0.0068 re_causal 0.0188 /// teacc 98.88 lr 0.00010000
+Epoch 177, weight, value: tensor([[-0.1898,  0.0758, -0.0474,  ..., -0.0138, -0.1122, -0.1242],
+        [ 0.0213,  0.0697, -0.1037,  ..., -0.0973, -0.0302,  0.0919],
+        [ 0.0522, -0.0937, -0.1008,  ...,  0.0016, -0.0456, -0.0539],
+        ...,
+        [ 0.0700,  0.0037,  0.1094,  ...,  0.0603,  0.1481, -0.0026],
+        [ 0.0904, -0.1371, -0.1101,  ..., -0.1767, -0.0515,  0.1511],
+        [-0.0903,  0.0758,  0.0242,  ..., -0.1294, -0.0759, -0.0170]],
+       device='cuda:0'), grad: tensor([[ 3.0398e-06,  1.4501e-06,  2.1327e-06,  ...,  1.3160e-06,
+          4.5039e-06,  1.2852e-07],
+        [ 8.5980e-06,  9.4716e-07,  7.2643e-07,  ...,  1.3057e-06,
+          2.6301e-06,  7.4469e-06],
+        [-9.9689e-06,  5.8766e-07,  6.8825e-07,  ..., -7.5549e-06,
+         -5.0813e-06,  5.1782e-07],
+        ...,
+        [-2.3376e-07, -1.7611e-06, -5.2080e-06,  ...,  9.5926e-08,
+         -7.3984e-06,  2.9430e-07],
+        [ 1.7822e-05,  2.3916e-05,  4.8801e-07,  ...,  1.0803e-06,
+          1.0254e-06, -1.0662e-05],
+        [ 1.3160e-06, -7.6834e-07, -2.0489e-06,  ...,  6.0163e-07,
+          7.1060e-07,  4.8149e-07]], device='cuda:0')
+Epoch 177, bias, value: tensor([-0.0086, -0.0137, -0.0034, -0.0141, -0.0066, -0.0025,  0.0121,  0.0132,
+         0.0179, -0.0104], device='cuda:0'), grad: tensor([ 1.4789e-05,  2.0817e-05, -2.2501e-05,  5.4091e-05,  8.9556e-06,
+        -2.2578e-04,  9.0599e-06, -1.1362e-05,  1.4997e-04,  2.0452e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 176, time 214.89, cls_loss 0.0026 cls_loss_mapping 0.0039 cls_loss_causal 0.5085 re_mapping 0.0064 re_causal 0.0183 /// teacc 99.00 lr 0.00010000
+Epoch 178, weight, value: tensor([[-0.1906,  0.0761, -0.0484,  ..., -0.0140, -0.1134, -0.1247],
+        [ 0.0220,  0.0705, -0.1028,  ..., -0.0961, -0.0293,  0.0932],
+        [ 0.0521, -0.0940, -0.1013,  ...,  0.0017, -0.0457, -0.0549],
+        ...,
+        [ 0.0697,  0.0031,  0.1093,  ...,  0.0602,  0.1478, -0.0040],
+        [ 0.0902, -0.1380, -0.1108,  ..., -0.1778, -0.0519,  0.1511],
+        [-0.0904,  0.0754,  0.0247,  ..., -0.1300, -0.0762, -0.0175]],
+       device='cuda:0'), grad: tensor([[ 5.6624e-07, -3.9302e-06,  3.1944e-07,  ...,  4.2375e-07,
+          3.3062e-07,  1.0896e-07],
+        [ 2.4557e-05,  8.3353e-07,  3.3975e-05,  ...,  1.2994e-05,
+          3.1471e-05,  1.2435e-05],
+        [-6.0499e-06,  3.7719e-07,  2.8294e-06,  ..., -8.1807e-06,
+          5.8021e-07,  9.5647e-07],
+        ...,
+        [-3.9667e-05,  2.5425e-07, -5.8413e-05,  ..., -1.8805e-05,
+         -5.2571e-05, -2.0429e-05],
+        [ 8.5682e-06,  9.3691e-07,  1.2353e-05,  ...,  5.5172e-06,
+          1.1154e-05,  3.7365e-06],
+        [ 4.5076e-06,  2.9728e-06,  8.7246e-06,  ...,  3.6489e-06,
+          6.1579e-06,  2.4531e-06]], device='cuda:0')
+Epoch 178, bias, value: tensor([-0.0088, -0.0128, -0.0034, -0.0145, -0.0062, -0.0021,  0.0123,  0.0123,
+         0.0174, -0.0110], device='cuda:0'), grad: tensor([-5.9567e-06,  6.0827e-05, -2.5198e-05,  1.8686e-05, -2.0713e-06,
+         1.0639e-05, -5.8599e-06, -9.2983e-05,  2.3887e-05,  1.7956e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 177, time 214.75, cls_loss 0.0023 cls_loss_mapping 0.0041 cls_loss_causal 0.5267 re_mapping 0.0066 re_causal 0.0194 /// teacc 98.95 lr 0.00010000
+Epoch 179, weight, value: tensor([[-0.1915,  0.0764, -0.0495,  ..., -0.0132, -0.1140, -0.1245],
+        [ 0.0223,  0.0709, -0.1022,  ..., -0.0951, -0.0289,  0.0938],
+        [ 0.0526, -0.0928, -0.1011,  ...,  0.0015, -0.0455, -0.0543],
+        ...,
+        [ 0.0694,  0.0025,  0.1092,  ...,  0.0599,  0.1476, -0.0046],
+        [ 0.0902, -0.1385, -0.1111,  ..., -0.1784, -0.0521,  0.1513],
+        [-0.0913,  0.0753,  0.0250,  ..., -0.1315, -0.0770, -0.0179]],
+       device='cuda:0'), grad: tensor([[ 5.4017e-08, -9.3132e-07,  2.7101e-07,  ...,  2.5891e-07,
+          5.8673e-08,  1.2107e-08],
+        [ 4.4703e-08,  6.4261e-08,  3.3900e-07,  ...,  2.8498e-07,
+          4.9360e-08, -6.9849e-08],
+        [-1.6391e-07,  3.9302e-07,  1.9372e-06,  ...,  1.6065e-06,
+         -1.9092e-07,  2.0489e-08],
+        ...,
+        [-1.7043e-07,  5.8301e-06,  1.3374e-05,  ...,  3.9767e-07,
+         -1.2293e-07,  3.9116e-08],
+        [-3.1665e-08,  1.2545e-06,  2.3544e-06,  ...,  1.7630e-06,
+          2.8871e-08, -1.0524e-07],
+        [-8.3819e-09, -1.8433e-05, -2.6494e-05,  ...,  5.1130e-07,
+          2.7008e-08, -3.7719e-07]], device='cuda:0')
+Epoch 179, bias, value: tensor([-0.0084, -0.0126, -0.0022, -0.0147, -0.0062, -0.0019,  0.0122,  0.0114,
+         0.0173, -0.0112], device='cuda:0'), grad: tensor([-9.0431e-07,  5.3737e-07,  2.4680e-06, -7.8380e-06,  2.7448e-05,
+         2.9802e-06,  2.9895e-07,  2.3603e-05,  4.6566e-06, -5.3227e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 178, time 214.99, cls_loss 0.0021 cls_loss_mapping 0.0036 cls_loss_causal 0.5361 re_mapping 0.0067 re_causal 0.0203 /// teacc 98.90 lr 0.00010000
+Epoch 180, weight, value: tensor([[-0.1920,  0.0767, -0.0508,  ..., -0.0128, -0.1146, -0.1244],
+        [ 0.0221,  0.0711, -0.1025,  ..., -0.0955, -0.0291,  0.0939],
+        [ 0.0526, -0.0934, -0.1013,  ...,  0.0015, -0.0456, -0.0554],
+        ...,
+        [ 0.0695,  0.0021,  0.1092,  ...,  0.0603,  0.1479, -0.0047],
+        [ 0.0904, -0.1390, -0.1116,  ..., -0.1795, -0.0519,  0.1515],
+        [-0.0911,  0.0757,  0.0262,  ..., -0.1326, -0.0762, -0.0179]],
+       device='cuda:0'), grad: tensor([[ 2.0619e-06, -2.3041e-06,  9.2201e-08,  ...,  4.6194e-07,
+          2.2352e-08,  8.8476e-08],
+        [ 4.4797e-07,  4.3474e-06,  2.8666e-06,  ...,  2.0638e-06,
+          8.7824e-07,  2.6599e-06],
+        [-3.5260e-06,  4.6659e-07,  5.1875e-07,  ..., -6.4261e-07,
+          6.8918e-08,  3.7998e-07],
+        ...,
+        [-1.6103e-06,  4.0382e-06,  7.8045e-07,  ...,  3.1386e-07,
+         -4.5914e-07,  2.6133e-06],
+        [ 1.6177e-06,  1.4845e-06,  1.2778e-06,  ...,  6.2305e-07,
+          1.5646e-07,  1.2610e-06],
+        [ 1.4622e-07,  2.4121e-06,  6.7707e-07,  ...,  1.3793e-06,
+          4.9919e-07,  8.7079e-07]], device='cuda:0')
+Epoch 180, bias, value: tensor([-0.0083, -0.0126, -0.0024, -0.0139, -0.0066, -0.0025,  0.0122,  0.0113,
+         0.0172, -0.0105], device='cuda:0'), grad: tensor([ 2.5444e-06,  1.5706e-05, -1.2234e-05,  2.8256e-06, -4.1813e-05,
+         1.6354e-06,  6.0350e-07,  1.1936e-05,  1.0878e-05,  7.8753e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 179, time 214.67, cls_loss 0.0016 cls_loss_mapping 0.0030 cls_loss_causal 0.5335 re_mapping 0.0062 re_causal 0.0192 /// teacc 98.91 lr 0.00010000
+Epoch 181, weight, value: tensor([[-0.1929,  0.0767, -0.0516,  ..., -0.0129, -0.1151, -0.1256],
+        [ 0.0221,  0.0716, -0.1028,  ..., -0.0958, -0.0292,  0.0946],
+        [ 0.0525, -0.0940, -0.1015,  ...,  0.0017, -0.0457, -0.0565],
+        ...,
+        [ 0.0699,  0.0022,  0.1099,  ...,  0.0608,  0.1483, -0.0048],
+        [ 0.0904, -0.1395, -0.1121,  ..., -0.1802, -0.0521,  0.1515],
+        [-0.0919,  0.0757,  0.0262,  ..., -0.1344, -0.0770, -0.0182]],
+       device='cuda:0'), grad: tensor([[ 1.0431e-07,  5.3830e-07,  2.5146e-07,  ...,  1.6764e-08,
+          3.8184e-08,  4.1816e-07],
+        [-2.5146e-08, -2.8964e-06,  2.7101e-07,  ...,  1.4994e-07,
+          6.2678e-07, -3.9823e-06],
+        [-4.1444e-07,  2.2445e-07,  2.1420e-07,  ..., -2.8871e-08,
+         -5.3458e-07,  2.7567e-07],
+        ...,
+        [-4.1258e-07,  3.7160e-07, -7.6927e-07,  ..., -1.5274e-07,
+         -5.4017e-07,  4.4983e-07],
+        [ 8.8476e-08,  6.5099e-07,  1.0673e-06,  ...,  4.1910e-08,
+          7.0781e-08,  4.7497e-07],
+        [ 2.8592e-07, -1.5656e-06, -3.0473e-06,  ...,  8.9407e-08,
+          2.3656e-07,  5.7742e-07]], device='cuda:0')
+Epoch 181, bias, value: tensor([-0.0086, -0.0124, -0.0025, -0.0127, -0.0067, -0.0036,  0.0123,  0.0117,
+         0.0171, -0.0106], device='cuda:0'), grad: tensor([ 1.6280e-06, -6.6981e-06, -1.1707e-06, -1.4715e-07,  5.3272e-06,
+         8.3819e-09,  2.8685e-06,  3.9674e-07,  3.6098e-06, -5.8264e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 180, time 214.98, cls_loss 0.0021 cls_loss_mapping 0.0034 cls_loss_causal 0.5126 re_mapping 0.0061 re_causal 0.0178 /// teacc 98.92 lr 0.00010000
+Epoch 182, weight, value: tensor([[-0.1942,  0.0770, -0.0538,  ..., -0.0135, -0.1169, -0.1252],
+        [ 0.0219,  0.0719, -0.1033,  ..., -0.0965, -0.0294,  0.0949],
+        [ 0.0527, -0.0944, -0.1019,  ...,  0.0017, -0.0457, -0.0573],
+        ...,
+        [ 0.0703,  0.0022,  0.1108,  ...,  0.0614,  0.1488, -0.0046],
+        [ 0.0905, -0.1403, -0.1124,  ..., -0.1808, -0.0522,  0.1517],
+        [-0.0926,  0.0756,  0.0262,  ..., -0.1355, -0.0777, -0.0188]],
+       device='cuda:0'), grad: tensor([[ 1.3588e-06,  8.1584e-06,  1.8906e-07,  ...,  1.4016e-06,
+          4.7497e-08,  2.5984e-06],
+        [ 2.2929e-06, -3.4552e-07,  5.7463e-07,  ...,  1.1064e-06,
+          2.3805e-06, -1.9595e-06],
+        [-7.7859e-06,  2.6170e-07,  3.3621e-07,  ..., -6.2473e-06,
+         -3.3751e-06,  4.8894e-07],
+        ...,
+        [ 1.8626e-08,  2.5053e-07, -4.2375e-07,  ...,  3.4180e-07,
+         -3.8370e-07, -1.2480e-07],
+        [ 4.5635e-07,  1.6699e-06,  1.6680e-06,  ...,  4.2096e-07,
+          1.3225e-07,  5.6531e-07],
+        [ 1.8626e-07, -6.6698e-05, -7.2777e-05,  ...,  1.7509e-07,
+          3.8184e-08, -2.5690e-05]], device='cuda:0')
+Epoch 182, bias, value: tensor([-0.0086, -0.0125, -0.0023, -0.0130, -0.0066, -0.0035,  0.0122,  0.0122,
+         0.0171, -0.0108], device='cuda:0'), grad: tensor([ 5.0724e-05,  4.1239e-06, -2.1622e-05,  8.5235e-06,  2.0504e-04,
+        -1.6510e-05, -1.7151e-05,  1.7807e-06,  7.0520e-06, -2.2161e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 181, time 214.80, cls_loss 0.0024 cls_loss_mapping 0.0035 cls_loss_causal 0.5388 re_mapping 0.0065 re_causal 0.0190 /// teacc 98.97 lr 0.00010000
+Epoch 183, weight, value: tensor([[-0.1962,  0.0774, -0.0560,  ..., -0.0139, -0.1183, -0.1261],
+        [ 0.0211,  0.0721, -0.1047,  ..., -0.0983, -0.0308,  0.0955],
+        [ 0.0515, -0.0953, -0.1034,  ...,  0.0005, -0.0473, -0.0575],
+        ...,
+        [ 0.0715,  0.0022,  0.1122,  ...,  0.0630,  0.1504, -0.0053],
+        [ 0.0908, -0.1410, -0.1124,  ..., -0.1811, -0.0517,  0.1517],
+        [-0.0929,  0.0759,  0.0268,  ..., -0.1359, -0.0778, -0.0190]],
+       device='cuda:0'), grad: tensor([[ 1.2666e-07, -3.9078e-06,  1.1362e-07,  ..., -1.4901e-07,
+          1.0990e-07,  2.9244e-07],
+        [-1.6214e-06, -2.6543e-06,  5.5972e-07,  ...,  3.6415e-07,
+          5.5600e-07, -1.3523e-05],
+        [ 1.1772e-06,  7.3668e-07,  1.4296e-06,  ...,  6.5006e-07,
+          1.4249e-06,  1.7369e-06],
+        ...,
+        [-2.5220e-06,  2.4363e-06, -3.6489e-06,  ..., -1.9707e-06,
+         -3.6918e-06,  6.2212e-07],
+        [ 8.6054e-07,  1.2768e-06,  1.1455e-07,  ...,  5.2154e-08,
+          5.9605e-08,  5.4017e-06],
+        [ 2.5984e-07,  1.6578e-07,  1.5460e-07,  ...,  1.7043e-07,
+          2.7195e-07,  4.0326e-07]], device='cuda:0')
+Epoch 183, bias, value: tensor([-0.0084, -0.0130, -0.0034, -0.0133, -0.0068, -0.0032,  0.0121,  0.0132,
+         0.0170, -0.0106], device='cuda:0'), grad: tensor([-8.6650e-06, -1.7673e-05,  4.7833e-06,  1.4137e-06,  2.4550e-06,
+         1.3500e-05, -1.0267e-05,  2.8964e-06,  9.7156e-06,  1.7779e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 182, time 214.63, cls_loss 0.0025 cls_loss_mapping 0.0043 cls_loss_causal 0.5092 re_mapping 0.0065 re_causal 0.0183 /// teacc 98.96 lr 0.00010000
+Epoch 184, weight, value: tensor([[-0.1985,  0.0777, -0.0594,  ..., -0.0147, -0.1211, -0.1272],
+        [ 0.0201,  0.0715, -0.1060,  ..., -0.1005, -0.0325,  0.0961],
+        [ 0.0526, -0.0967, -0.1028,  ...,  0.0013, -0.0470, -0.0579],
+        ...,
+        [ 0.0714,  0.0027,  0.1125,  ...,  0.0636,  0.1512, -0.0059],
+        [ 0.0909, -0.1411, -0.1127,  ..., -0.1819, -0.0517,  0.1520],
+        [-0.0932,  0.0759,  0.0272,  ..., -0.1368, -0.0783, -0.0193]],
+       device='cuda:0'), grad: tensor([[ 1.8533e-07, -2.3842e-07,  5.1223e-08,  ...,  1.6568e-06,
+          1.2582e-06,  6.6124e-08],
+        [-2.7940e-08, -9.0338e-08,  1.6205e-07,  ...,  8.5030e-07,
+          7.2923e-07, -1.3728e-06],
+        [-5.1782e-07,  7.4506e-08,  1.1642e-07,  ..., -6.1132e-06,
+         -4.5374e-06,  2.3004e-07],
+        ...,
+        [-3.0641e-07,  1.7602e-07, -7.0501e-07,  ...,  7.2643e-07,
+          9.6858e-08,  5.2992e-07],
+        [-1.0617e-07,  3.0641e-07,  1.2759e-07,  ...,  2.9802e-07,
+          2.4028e-07,  1.4063e-07],
+        [ 2.8592e-07,  7.4599e-07, -1.9558e-08,  ...,  3.0268e-07,
+          4.5542e-07,  1.4286e-06]], device='cuda:0')
+Epoch 184, bias, value: tensor([-0.0083, -0.0138, -0.0030, -0.0142, -0.0068, -0.0022,  0.0121,  0.0134,
+         0.0170, -0.0105], device='cuda:0'), grad: tensor([ 3.7365e-06,  2.7288e-07, -1.4573e-05,  5.9344e-06, -4.6082e-06,
+        -7.8231e-06,  8.1137e-06,  2.1700e-06,  2.1160e-06,  4.5933e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 183, time 214.89, cls_loss 0.0026 cls_loss_mapping 0.0032 cls_loss_causal 0.5184 re_mapping 0.0064 re_causal 0.0182 /// teacc 98.87 lr 0.00010000
+Epoch 185, weight, value: tensor([[-0.2001,  0.0779, -0.0613,  ..., -0.0152, -0.1231, -0.1289],
+        [ 0.0197,  0.0717, -0.1066,  ..., -0.1007, -0.0328,  0.0962],
+        [ 0.0519, -0.0973, -0.1035,  ...,  0.0009, -0.0475, -0.0602],
+        ...,
+        [ 0.0721,  0.0028,  0.1132,  ...,  0.0637,  0.1518, -0.0054],
+        [ 0.0911, -0.1419, -0.1133,  ..., -0.1824, -0.0520,  0.1525],
+        [-0.0935,  0.0755,  0.0276,  ..., -0.1378, -0.0787, -0.0195]],
+       device='cuda:0'), grad: tensor([[ 4.7404e-07,  8.3540e-07,  1.6671e-07,  ...,  2.3656e-07,
+          2.3562e-07,  2.4717e-06],
+        [ 2.9448e-06,  1.2159e-05,  8.4098e-07,  ...,  1.0869e-06,
+          3.9302e-07,  1.8656e-05],
+        [-1.2740e-06,  5.7556e-07,  2.6692e-06,  ...,  1.9893e-06,
+         -1.6177e-06,  1.1176e-06],
+        ...,
+        [ 1.0747e-06,  4.0159e-06,  6.0443e-07,  ...,  1.0058e-06,
+          2.5146e-07,  5.3011e-06],
+        [-1.5900e-05, -5.5991e-06, -7.9423e-06,  ..., -7.1824e-06,
+          1.3970e-07, -2.2352e-05],
+        [ 1.1856e-06,  7.7844e-05,  2.8044e-05,  ...,  4.5635e-07,
+          2.2445e-07,  3.6180e-05]], device='cuda:0')
+Epoch 185, bias, value: tensor([-0.0084, -0.0139, -0.0037, -0.0149, -0.0068, -0.0017,  0.0124,  0.0139,
+         0.0170, -0.0108], device='cuda:0'), grad: tensor([ 8.4117e-06,  3.2604e-05,  1.5255e-06,  2.8461e-05, -2.0063e-04,
+         3.2075e-06,  7.0855e-06,  1.2062e-05, -4.2170e-05,  1.4913e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 184, time 214.80, cls_loss 0.0018 cls_loss_mapping 0.0039 cls_loss_causal 0.5091 re_mapping 0.0063 re_causal 0.0183 /// teacc 98.86 lr 0.00010000
+Epoch 186, weight, value: tensor([[-0.1980,  0.0777, -0.0628,  ..., -0.0154, -0.1240, -0.1272],
+        [ 0.0198,  0.0715, -0.1065,  ..., -0.1007, -0.0328,  0.0965],
+        [ 0.0520, -0.0972, -0.1031,  ...,  0.0014, -0.0473, -0.0611],
+        ...,
+        [ 0.0721,  0.0024,  0.1131,  ...,  0.0637,  0.1518, -0.0060],
+        [ 0.0911, -0.1432, -0.1136,  ..., -0.1829, -0.0522,  0.1528],
+        [-0.0938,  0.0759,  0.0275,  ..., -0.1408, -0.0801, -0.0196]],
+       device='cuda:0'), grad: tensor([[ 1.9465e-07, -5.3924e-07,  5.0291e-08,  ...,  7.9162e-08,
+          2.0489e-08, -7.4506e-09],
+        [-1.5631e-05, -2.3972e-06,  7.3574e-08,  ...,  6.6124e-08,
+         -1.4640e-05, -2.8417e-05],
+        [-1.4016e-06,  4.2561e-07,  3.2596e-08,  ..., -7.0687e-07,
+         -7.3574e-08,  5.7649e-07],
+        ...,
+        [ 1.5013e-05,  2.7400e-06, -8.7544e-08,  ...,  8.3819e-09,
+          1.3888e-05,  2.7165e-05],
+        [ 1.0272e-06,  3.8035e-06,  1.9688e-06,  ...,  2.8498e-06,
+          3.7346e-07, -9.0618e-07],
+        [ 3.3062e-07, -5.3011e-06,  3.1665e-08,  ...,  2.3190e-07,
+          2.3935e-07,  4.5635e-08]], device='cuda:0')
+Epoch 186, bias, value: tensor([-0.0085, -0.0138, -0.0030, -0.0153, -0.0066, -0.0015,  0.0125,  0.0136,
+         0.0169, -0.0110], device='cuda:0'), grad: tensor([-8.6986e-07, -4.6879e-05, -2.0042e-06,  1.2808e-05,  8.4639e-06,
+        -2.4796e-05,  2.0191e-06,  4.6045e-05,  1.5676e-05, -1.0461e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 185, time 214.55, cls_loss 0.0018 cls_loss_mapping 0.0028 cls_loss_causal 0.5255 re_mapping 0.0061 re_causal 0.0189 /// teacc 99.01 lr 0.00010000
+Epoch 187, weight, value: tensor([[-0.1985,  0.0778, -0.0641,  ..., -0.0157, -0.1248, -0.1276],
+        [ 0.0190,  0.0715, -0.1072,  ..., -0.1009, -0.0332,  0.0963],
+        [ 0.0535, -0.0980, -0.1019,  ...,  0.0025, -0.0463, -0.0623],
+        ...,
+        [ 0.0714,  0.0024,  0.1127,  ...,  0.0630,  0.1515, -0.0059],
+        [ 0.0917, -0.1438, -0.1133,  ..., -0.1836, -0.0515,  0.1534],
+        [-0.0940,  0.0761,  0.0276,  ..., -0.1412, -0.0807, -0.0195]],
+       device='cuda:0'), grad: tensor([[ 2.1234e-07, -5.3179e-07,  2.5891e-07,  ...,  1.0151e-07,
+          1.8347e-07,  3.0734e-08],
+        [ 2.5332e-07,  1.9744e-07,  3.6601e-07,  ...,  1.2666e-07,
+          2.5239e-07, -2.2165e-07],
+        [-6.7987e-08,  2.9244e-07,  1.9185e-07,  ..., -2.5798e-07,
+          1.0151e-07,  1.1176e-07],
+        ...,
+        [-9.7137e-07,  5.1688e-07, -1.2619e-06,  ..., -2.7008e-07,
+         -9.6112e-07,  1.5087e-07],
+        [ 1.4622e-07,  2.5984e-06,  1.8161e-07,  ...,  2.0023e-07,
+          8.7544e-08,  4.2841e-08],
+        [ 7.0781e-07,  1.0788e-05,  3.0734e-07,  ...,  1.3039e-07,
+          2.3842e-07,  1.4771e-06]], device='cuda:0')
+Epoch 187, bias, value: tensor([-0.0086, -0.0142, -0.0023, -0.0154, -0.0066, -0.0014,  0.0126,  0.0133,
+         0.0169, -0.0108], device='cuda:0'), grad: tensor([ 1.6078e-05,  2.6673e-06,  2.3264e-06,  3.3490e-06,  3.2127e-05,
+        -3.4660e-05, -6.1810e-05,  3.7067e-07,  1.1638e-05,  2.7895e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 186, time 214.60, cls_loss 0.0019 cls_loss_mapping 0.0031 cls_loss_causal 0.5490 re_mapping 0.0058 re_causal 0.0182 /// teacc 98.91 lr 0.00010000
+Epoch 188, weight, value: tensor([[-0.1990,  0.0777, -0.0654,  ..., -0.0159, -0.1264, -0.1281],
+        [ 0.0198,  0.0720, -0.1069,  ..., -0.1010, -0.0323,  0.0967],
+        [ 0.0530, -0.0989, -0.1023,  ...,  0.0024, -0.0470, -0.0629],
+        ...,
+        [ 0.0715,  0.0022,  0.1130,  ...,  0.0632,  0.1515, -0.0061],
+        [ 0.0917, -0.1443, -0.1137,  ..., -0.1841, -0.0517,  0.1534],
+        [-0.0950,  0.0758,  0.0277,  ..., -0.1421, -0.0815, -0.0202]],
+       device='cuda:0'), grad: tensor([[ 1.7509e-07, -1.3132e-07,  1.0245e-07,  ...,  2.3842e-07,
+          2.2631e-07,  8.3819e-09],
+        [ 2.0098e-06, -1.4342e-07,  1.7658e-06,  ...,  2.0042e-06,
+          1.9986e-06, -2.5053e-07],
+        [-2.7627e-05,  1.6764e-08, -1.2085e-05,  ..., -2.4825e-05,
+         -1.9103e-05,  5.3085e-08],
+        ...,
+        [ 1.7792e-05,  2.2817e-07,  7.3723e-06,  ...,  1.5900e-05,
+          1.1779e-05,  1.3039e-08],
+        [ 1.6754e-06,  6.7987e-08,  7.9628e-07,  ...,  1.4482e-06,
+          1.1511e-06, -1.1548e-07],
+        [ 1.5646e-07, -1.6764e-07, -5.1875e-07,  ...,  2.3656e-07,
+          1.0338e-07,  1.0990e-07]], device='cuda:0')
+Epoch 188, bias, value: tensor([-0.0087, -0.0132, -0.0032, -0.0155, -0.0063, -0.0014,  0.0128,  0.0132,
+         0.0166, -0.0113], device='cuda:0'), grad: tensor([ 3.3528e-07,  5.1670e-06, -5.0992e-05,  8.9854e-06,  5.7835e-07,
+         7.7486e-07,  1.9185e-07,  3.2216e-05,  2.8964e-06, -1.8533e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 187, time 214.73, cls_loss 0.0016 cls_loss_mapping 0.0033 cls_loss_causal 0.5142 re_mapping 0.0062 re_causal 0.0185 /// teacc 99.02 lr 0.00010000
+Epoch 189, weight, value: tensor([[-0.1995,  0.0780, -0.0671,  ..., -0.0158, -0.1276, -0.1292],
+        [ 0.0197,  0.0725, -0.1072,  ..., -0.1014, -0.0323,  0.0970],
+        [ 0.0529, -0.0992, -0.1027,  ...,  0.0022, -0.0473, -0.0640],
+        ...,
+        [ 0.0718,  0.0021,  0.1136,  ...,  0.0636,  0.1518, -0.0059],
+        [ 0.0919, -0.1449, -0.1141,  ..., -0.1847, -0.0520,  0.1537],
+        [-0.0960,  0.0757,  0.0277,  ..., -0.1439, -0.0823, -0.0204]],
+       device='cuda:0'), grad: tensor([[ 3.7719e-07, -2.2314e-06,  2.2538e-07,  ...,  2.6543e-07,
+          1.2852e-07,  2.2911e-07],
+        [ 3.1572e-07,  1.1940e-06,  2.8461e-06,  ...,  8.6427e-07,
+          5.2992e-07, -1.1716e-06],
+        [ 2.8666e-06,  1.1856e-06, -1.1884e-06,  ..., -3.1665e-06,
+         -4.6492e-06,  4.7721e-06],
+        ...,
+        [ 1.6186e-06,  8.6799e-07,  7.0315e-07,  ...,  1.4203e-06,
+          4.8336e-07,  6.5658e-07],
+        [-2.0489e-05,  1.4668e-06,  9.7509e-07,  ...,  8.3633e-07,
+          3.1665e-07, -1.0431e-05],
+        [ 2.7493e-06, -1.0673e-06, -2.6170e-07,  ...,  2.2687e-06,
+          1.5274e-06,  2.5798e-07]], device='cuda:0')
+Epoch 189, bias, value: tensor([-0.0087, -0.0132, -0.0034, -0.0154, -0.0064, -0.0014,  0.0127,  0.0136,
+         0.0166, -0.0115], device='cuda:0'), grad: tensor([-2.0470e-06,  6.6832e-06,  9.3728e-06, -5.2452e-06,  2.2240e-06,
+         2.3559e-05,  1.1623e-05,  7.0184e-06, -5.8681e-05,  5.5283e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 188, time 214.79, cls_loss 0.0018 cls_loss_mapping 0.0033 cls_loss_causal 0.5119 re_mapping 0.0063 re_causal 0.0184 /// teacc 99.00 lr 0.00010000
+Epoch 190, weight, value: tensor([[-0.2001,  0.0783, -0.0692,  ..., -0.0174, -0.1284, -0.1301],
+        [ 0.0197,  0.0728, -0.1071,  ..., -0.1015, -0.0324,  0.0974],
+        [ 0.0526, -0.0997, -0.1036,  ...,  0.0010, -0.0476, -0.0650],
+        ...,
+        [ 0.0720,  0.0021,  0.1140,  ...,  0.0640,  0.1521, -0.0063],
+        [ 0.0924, -0.1460, -0.1140,  ..., -0.1845, -0.0517,  0.1541],
+        [-0.0971,  0.0754,  0.0276,  ..., -0.1466, -0.0834, -0.0212]],
+       device='cuda:0'), grad: tensor([[ 5.0291e-08,  9.6858e-08,  1.8887e-06,  ..., -1.4715e-07,
+          7.4506e-09,  5.1223e-07],
+        [-1.3448e-06, -2.7940e-07,  3.3528e-08,  ...,  5.5879e-08,
+         -4.4703e-08, -9.7305e-06],
+        [ 1.2349e-06,  2.7195e-07,  1.7323e-07,  ...,  7.8231e-08,
+         -1.6764e-08,  3.6843e-06],
+        ...,
+        [ 4.7125e-07,  3.7067e-06,  7.3798e-06,  ...,  4.2282e-07,
+         -2.0489e-08,  2.5947e-06],
+        [-1.5572e-06,  3.9116e-07,  5.7742e-08,  ...,  1.6019e-07,
+          4.0978e-08,  1.2852e-07],
+        [ 8.0094e-08, -4.5560e-06, -1.1086e-05,  ..., -5.3458e-07,
+          9.3132e-09,  6.9290e-07]], device='cuda:0')
+Epoch 190, bias, value: tensor([-0.0089, -0.0130, -0.0040, -0.0151, -0.0061, -0.0015,  0.0127,  0.0137,
+         0.0166, -0.0117], device='cuda:0'), grad: tensor([ 1.6868e-05, -1.0937e-05,  4.7944e-06,  1.8403e-06, -1.2517e-06,
+        -1.8626e-09, -1.4797e-05,  1.1250e-05,  1.9874e-06, -9.8050e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 189, time 214.60, cls_loss 0.0020 cls_loss_mapping 0.0034 cls_loss_causal 0.5276 re_mapping 0.0064 re_causal 0.0179 /// teacc 98.89 lr 0.00010000
+Epoch 191, weight, value: tensor([[-0.2010,  0.0795, -0.0714,  ..., -0.0180, -0.1298, -0.1305],
+        [ 0.0196,  0.0732, -0.1073,  ..., -0.1019, -0.0325,  0.0977],
+        [ 0.0527, -0.1001, -0.1041,  ...,  0.0006, -0.0476, -0.0645],
+        ...,
+        [ 0.0722,  0.0017,  0.1145,  ...,  0.0644,  0.1523, -0.0065],
+        [ 0.0923, -0.1467, -0.1148,  ..., -0.1864, -0.0521,  0.1544],
+        [-0.0977,  0.0755,  0.0279,  ..., -0.1480, -0.0840, -0.0214]],
+       device='cuda:0'), grad: tensor([[ 7.0781e-08, -2.0489e-08,  4.4703e-08,  ...,  2.0489e-08,
+          4.8429e-08,  1.8068e-07],
+        [-6.3367e-06, -9.9987e-06, -1.0714e-05,  ..., -2.0023e-06,
+          1.9372e-07, -2.3112e-05],
+        [ 3.0715e-06,  6.3330e-08,  2.1793e-06,  ...,  1.6969e-06,
+          2.7940e-06,  2.3469e-07],
+        ...,
+        [ 1.6205e-06,  8.6054e-06,  6.2250e-06,  ..., -6.8918e-07,
+         -3.9451e-06,  2.1994e-05],
+        [-1.4901e-07,  2.6077e-07,  5.8115e-07,  ...,  1.9930e-07,
+          1.5646e-07,  5.2154e-08],
+        [ 5.7369e-07,  8.9966e-07, -1.2107e-07,  ...,  2.1793e-07,
+          1.1921e-07,  1.7788e-06]], device='cuda:0')
+Epoch 191, bias, value: tensor([-0.0066, -0.0131, -0.0040, -0.0153, -0.0062, -0.0013,  0.0117,  0.0138,
+         0.0165, -0.0117], device='cuda:0'), grad: tensor([ 1.3616e-06, -1.2733e-05,  4.6566e-06,  8.9779e-07, -1.8440e-06,
+         2.1145e-05, -4.8161e-05,  2.4199e-05,  4.6343e-06,  5.7295e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 190, time 214.71, cls_loss 0.0016 cls_loss_mapping 0.0029 cls_loss_causal 0.5355 re_mapping 0.0067 re_causal 0.0199 /// teacc 99.02 lr 0.00010000
+Epoch 192, weight, value: tensor([[-0.2017,  0.0795, -0.0731,  ..., -0.0177, -0.1301, -0.1322],
+        [ 0.0193,  0.0729, -0.1077,  ..., -0.1025, -0.0326,  0.0977],
+        [ 0.0526, -0.1005, -0.1044,  ...,  0.0004, -0.0477, -0.0650],
+        ...,
+        [ 0.0726,  0.0019,  0.1150,  ...,  0.0650,  0.1526, -0.0065],
+        [ 0.0922, -0.1481, -0.1159,  ..., -0.1869, -0.0523,  0.1545],
+        [-0.0983,  0.0760,  0.0283,  ..., -0.1496, -0.0853, -0.0211]],
+       device='cuda:0'), grad: tensor([[ 3.3528e-08,  8.3819e-08,  1.1176e-08,  ...,  5.5879e-09,
+          1.8626e-09,  1.1735e-07],
+        [-5.6997e-06, -1.2510e-05,  3.5390e-08,  ...,  2.0489e-08,
+          1.3039e-08, -2.0102e-05],
+        [ 3.1665e-08,  8.3819e-08,  5.9605e-08,  ...,  7.4506e-09,
+         -7.4506e-09,  9.6858e-08],
+        ...,
+        [ 2.1793e-07,  8.4750e-07, -7.2643e-08,  ..., -2.9802e-08,
+         -4.4703e-08,  9.9279e-07],
+        [ 4.9546e-07,  1.1884e-06,  2.2352e-08,  ...,  0.0000e+00,
+          1.8626e-09,  1.7919e-06],
+        [ 3.5763e-06,  1.7792e-05, -2.0675e-07,  ...,  4.0978e-08,
+          1.6764e-08,  1.2442e-05]], device='cuda:0')
+Epoch 192, bias, value: tensor([-0.0066, -0.0132, -0.0042, -0.0154, -0.0063, -0.0010,  0.0115,  0.0142,
+         0.0158, -0.0112], device='cuda:0'), grad: tensor([ 9.3132e-07, -4.1485e-05,  3.0920e-07,  4.2841e-08, -3.0175e-05,
+         6.4597e-06, -8.4192e-06,  2.8703e-06,  4.0904e-06,  6.5327e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 191, time 214.72, cls_loss 0.0015 cls_loss_mapping 0.0026 cls_loss_causal 0.5516 re_mapping 0.0066 re_causal 0.0197 /// teacc 98.92 lr 0.00010000
+Epoch 193, weight, value: tensor([[-0.2022,  0.0805, -0.0734,  ..., -0.0162, -0.1307, -0.1326],
+        [ 0.0191,  0.0734, -0.1080,  ..., -0.1028, -0.0328,  0.0982],
+        [ 0.0528, -0.1010, -0.1045,  ...,  0.0004, -0.0476, -0.0655],
+        ...,
+        [ 0.0728,  0.0017,  0.1155,  ...,  0.0653,  0.1528, -0.0064],
+        [ 0.0923, -0.1484, -0.1164,  ..., -0.1878, -0.0526,  0.1546],
+        [-0.0993,  0.0754,  0.0280,  ..., -0.1523, -0.0861, -0.0214]],
+       device='cuda:0'), grad: tensor([[ 8.0466e-07, -3.3714e-07,  6.3702e-07,  ...,  4.8988e-07,
+          8.9966e-07,  1.3225e-07],
+        [ 1.8198e-06,  6.0163e-07,  1.9986e-06,  ...,  9.8906e-07,
+          1.9222e-06,  4.5076e-07],
+        [ 1.1325e-05,  1.1604e-06,  1.1526e-05,  ...,  6.4559e-06,
+          1.3165e-05,  7.5251e-07],
+        ...,
+        [-1.6630e-05,  5.0291e-08, -1.7375e-05,  ..., -9.3952e-06,
+         -1.9893e-05,  6.5751e-07],
+        [ 1.5926e-06,  6.7614e-07,  1.7267e-06,  ...,  8.8476e-07,
+          1.7285e-06,  5.6252e-07],
+        [ 2.1737e-06,  5.0627e-06,  5.9232e-07,  ...,  1.1548e-06,
+          6.1654e-07,  6.1579e-06]], device='cuda:0')
+Epoch 193, bias, value: tensor([-0.0062, -0.0132, -0.0039, -0.0157, -0.0064, -0.0009,  0.0116,  0.0145,
+         0.0158, -0.0118], device='cuda:0'), grad: tensor([ 7.4692e-07,  4.8950e-06,  2.3574e-05,  1.2517e-06, -2.4557e-05,
+         1.8254e-07,  1.7714e-06, -3.0249e-05,  4.8317e-06,  1.7524e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 192, time 214.81, cls_loss 0.0016 cls_loss_mapping 0.0029 cls_loss_causal 0.5263 re_mapping 0.0064 re_causal 0.0186 /// teacc 99.05 lr 0.00010000
+Epoch 194, weight, value: tensor([[-2.0279e-01,  8.0691e-02, -7.4324e-02,  ..., -1.5059e-02,
+         -1.3116e-01, -1.3309e-01],
+        [ 1.8299e-02,  7.4346e-02, -1.0934e-01,  ..., -1.0290e-01,
+         -3.3242e-02,  9.8005e-02],
+        [ 5.2739e-02, -1.0213e-01, -1.0478e-01,  ...,  1.9529e-04,
+         -4.7642e-02, -6.6802e-02],
+        ...,
+        [ 7.3336e-02,  6.8327e-04,  1.1626e-01,  ...,  6.5286e-02,
+          1.5309e-01, -5.7657e-03],
+        [ 9.2697e-02, -1.4880e-01, -1.1673e-01,  ..., -1.8856e-01,
+         -5.2508e-02,  1.5500e-01],
+        [-1.0024e-01,  7.5419e-02,  2.8391e-02,  ..., -1.5283e-01,
+         -8.6411e-02, -2.1823e-02]], device='cuda:0'), grad: tensor([[ 9.4995e-08, -1.1034e-05,  9.8720e-08,  ...,  7.8231e-08,
+          7.2643e-08,  5.2154e-08],
+        [-1.2591e-06, -2.3376e-06,  1.1548e-07,  ...,  1.0803e-07,
+          9.1270e-08, -4.9844e-06],
+        [-1.5646e-07,  7.8231e-08,  3.3155e-07,  ...,  0.0000e+00,
+         -2.4214e-07,  1.5832e-07],
+        ...,
+        [ 2.5705e-07,  1.0617e-06,  1.4640e-06,  ...,  7.1526e-07,
+         -3.5390e-08,  9.6671e-07],
+        [ 2.1607e-07,  8.1770e-07,  2.2724e-07,  ...,  2.2352e-07,
+          1.3784e-07,  6.7428e-07],
+        [ 1.9930e-07, -1.0971e-06, -3.3099e-06,  ..., -5.7742e-07,
+         -3.4459e-07,  4.5635e-07]], device='cuda:0')
+Epoch 194, bias, value: tensor([-0.0061, -0.0135, -0.0045, -0.0159, -0.0063, -0.0004,  0.0114,  0.0148,
+         0.0159, -0.0120], device='cuda:0'), grad: tensor([-2.6584e-05, -8.4415e-06, -1.7695e-07,  1.3039e-06,  3.8184e-07,
+         1.0058e-06,  2.9668e-05,  3.7309e-06,  1.9763e-06, -2.9206e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 193, time 214.93, cls_loss 0.0017 cls_loss_mapping 0.0035 cls_loss_causal 0.5525 re_mapping 0.0063 re_causal 0.0182 /// teacc 99.01 lr 0.00010000
+Epoch 195, weight, value: tensor([[-2.0313e-01,  8.0924e-02, -7.4921e-02,  ..., -1.5367e-02,
+         -1.3183e-01, -1.3359e-01],
+        [ 1.8617e-02,  7.4323e-02, -1.0978e-01,  ..., -1.0316e-01,
+         -3.2954e-02,  9.8162e-02],
+        [ 5.2170e-02, -1.0260e-01, -1.0493e-01,  ...,  4.6870e-04,
+         -4.8094e-02, -6.8206e-02],
+        ...,
+        [ 7.3647e-02,  8.3612e-05,  1.1651e-01,  ...,  6.5584e-02,
+          1.5324e-01, -5.9058e-03],
+        [ 9.3081e-02, -1.4930e-01, -1.1758e-01,  ..., -1.8936e-01,
+         -5.2513e-02,  1.5587e-01],
+        [-1.0004e-01,  7.5995e-02,  2.9680e-02,  ..., -1.5351e-01,
+         -8.5192e-02, -2.1985e-02]], device='cuda:0'), grad: tensor([[ 4.2841e-08, -1.8626e-09,  1.3970e-07,  ...,  7.6368e-08,
+          2.6077e-08,  5.5879e-09],
+        [ 6.8583e-06, -1.4901e-08,  3.3062e-06,  ...,  2.8908e-06,
+          4.7311e-06,  6.1654e-07],
+        [ 2.0608e-05,  4.2841e-07,  8.4192e-06,  ...,  9.1568e-06,
+          1.4156e-05,  2.5406e-06],
+        ...,
+        [-2.8655e-05,  1.1176e-07, -1.1794e-05,  ..., -1.1772e-05,
+         -1.9744e-05, -3.3807e-06],
+        [ 3.0603e-06,  3.7253e-07,  5.0254e-06,  ...,  5.6401e-06,
+          4.0606e-07,  0.0000e+00],
+        [ 4.8615e-07, -4.0792e-07, -4.4703e-08,  ...,  2.2724e-07,
+          3.6880e-07,  7.6368e-08]], device='cuda:0')
+Epoch 195, bias, value: tensor([-0.0060, -0.0132, -0.0050, -0.0161, -0.0065, -0.0006,  0.0113,  0.0148,
+         0.0163, -0.0113], device='cuda:0'), grad: tensor([ 1.8254e-07,  1.1191e-05,  3.4839e-05, -1.0565e-05,  2.5332e-07,
+         5.7556e-07,  4.0978e-08, -4.6551e-05,  1.0103e-05, -1.3039e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 194, time 214.85, cls_loss 0.0021 cls_loss_mapping 0.0038 cls_loss_causal 0.5520 re_mapping 0.0067 re_causal 0.0190 /// teacc 98.99 lr 0.00010000
+Epoch 196, weight, value: tensor([[-0.2046,  0.0810, -0.0762,  ..., -0.0157, -0.1333, -0.1354],
+        [ 0.0200,  0.0761, -0.1080,  ..., -0.1036, -0.0317,  0.1004],
+        [ 0.0517, -0.1034, -0.1056,  ...,  0.0004, -0.0486, -0.0699],
+        ...,
+        [ 0.0735, -0.0021,  0.1159,  ...,  0.0659,  0.1531, -0.0083],
+        [ 0.0930, -0.1498, -0.1190,  ..., -0.1913, -0.0531,  0.1565],
+        [-0.1011,  0.0758,  0.0296,  ..., -0.1549, -0.0871, -0.0223]],
+       device='cuda:0'), grad: tensor([[ 9.3319e-07,  4.4703e-08,  2.5518e-07,  ...,  4.2655e-07,
+          6.1467e-07,  3.7253e-08],
+        [ 2.1413e-05,  1.3039e-08,  4.2506e-06,  ...,  1.0245e-05,
+          1.3851e-05, -1.1362e-07],
+        [ 2.8610e-03,  4.8429e-08,  4.0054e-04,  ...,  1.3199e-03,
+          1.8511e-03,  2.3097e-07],
+        ...,
+        [-2.9888e-03, -8.1956e-08, -4.2439e-04,  ..., -1.3800e-03,
+         -1.9331e-03, -2.3656e-07],
+        [ 3.8415e-05,  3.4831e-07,  6.1616e-06,  ...,  1.8001e-05,
+          2.6152e-05, -1.7397e-06],
+        [ 7.4692e-07,  3.2801e-06,  7.9535e-07,  ...,  3.8370e-07,
+          4.3213e-07,  1.0669e-05]], device='cuda:0')
+Epoch 196, bias, value: tensor([-0.0062, -0.0116, -0.0057, -0.0162, -0.0060, -0.0006,  0.0114,  0.0138,
+         0.0163, -0.0117], device='cuda:0'), grad: tensor([ 1.2442e-06,  2.3648e-05,  3.0632e-03,  6.9737e-05, -3.1888e-05,
+         4.8429e-07,  1.0673e-06, -3.2024e-03,  4.1693e-05,  2.9773e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 195, time 214.72, cls_loss 0.0015 cls_loss_mapping 0.0024 cls_loss_causal 0.4992 re_mapping 0.0064 re_causal 0.0176 /// teacc 99.05 lr 0.00010000
+Epoch 197, weight, value: tensor([[-0.2055,  0.0811, -0.0771,  ..., -0.0161, -0.1351, -0.1357],
+        [ 0.0199,  0.0762, -0.1082,  ..., -0.1040, -0.0318,  0.1006],
+        [ 0.0498, -0.1037, -0.1066,  ..., -0.0013, -0.0499, -0.0706],
+        ...,
+        [ 0.0752, -0.0023,  0.1167,  ...,  0.0678,  0.1542, -0.0084],
+        [ 0.0931, -0.1502, -0.1196,  ..., -0.1920, -0.0535,  0.1568],
+        [-0.1021,  0.0761,  0.0300,  ..., -0.1560, -0.0876, -0.0226]],
+       device='cuda:0'), grad: tensor([[ 1.8440e-07, -1.1548e-07,  9.3132e-09,  ...,  1.0803e-07,
+          9.3132e-09,  2.7753e-07],
+        [ 1.0923e-05, -3.9116e-07,  5.2154e-08,  ...,  1.8440e-07,
+          2.7940e-08,  1.6868e-05],
+        [ 2.1141e-06,  3.7253e-08,  1.4901e-08,  ..., -7.4692e-07,
+         -1.1362e-07,  3.9712e-06],
+        ...,
+        [ 6.5193e-07,  1.4901e-07, -1.5460e-07,  ...,  8.1956e-08,
+         -9.4995e-08,  1.3672e-06],
+        [-1.5616e-05,  2.0117e-07,  6.1467e-08,  ..., -3.7253e-09,
+          8.5682e-08, -2.5213e-05],
+        [ 1.4715e-07,  5.4017e-08, -3.1665e-07,  ...,  4.6566e-08,
+          6.7055e-08,  4.1723e-07]], device='cuda:0')
+Epoch 197, bias, value: tensor([-0.0063, -0.0116, -0.0068, -0.0163, -0.0063, -0.0004,  0.0112,  0.0149,
+         0.0163, -0.0116], device='cuda:0'), grad: tensor([ 3.9935e-06,  3.0100e-05,  4.1351e-06,  7.3574e-07, -9.6858e-08,
+         1.7397e-06, -2.2613e-06,  2.4978e-06, -4.1604e-05,  7.0967e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 196, time 214.94, cls_loss 0.0017 cls_loss_mapping 0.0032 cls_loss_causal 0.5326 re_mapping 0.0062 re_causal 0.0180 /// teacc 98.90 lr 0.00010000
+Epoch 198, weight, value: tensor([[-0.2060,  0.0814, -0.0784,  ..., -0.0170, -0.1362, -0.1357],
+        [ 0.0194,  0.0766, -0.1083,  ..., -0.1051, -0.0327,  0.1010],
+        [ 0.0504, -0.1041, -0.1067,  ..., -0.0007, -0.0490, -0.0710],
+        ...,
+        [ 0.0748, -0.0028,  0.1167,  ...,  0.0676,  0.1542, -0.0087],
+        [ 0.0932, -0.1506, -0.1200,  ..., -0.1927, -0.0537,  0.1570],
+        [-0.1029,  0.0759,  0.0306,  ..., -0.1566, -0.0878, -0.0230]],
+       device='cuda:0'), grad: tensor([[ 3.3528e-08, -4.6566e-08,  2.9802e-08,  ...,  1.8626e-08,
+          9.3132e-09,  2.4214e-08],
+        [-2.5332e-07, -3.5018e-07,  1.8068e-07,  ...,  1.1921e-07,
+          6.1467e-08, -8.6240e-07],
+        [ 3.4273e-07,  8.5682e-08,  2.1793e-07,  ...,  1.2293e-07,
+          9.6858e-08,  2.7008e-07],
+        ...,
+        [-1.8813e-07,  9.4995e-08, -3.6694e-07,  ..., -2.1420e-07,
+         -3.0175e-07,  1.7509e-07],
+        [-2.6058e-06,  3.5390e-08, -9.2760e-07,  ..., -1.0114e-06,
+         -9.8720e-08, -2.8852e-06],
+        [ 2.9802e-07,  2.9057e-07,  1.6019e-07,  ...,  1.4342e-07,
+          9.4995e-08,  4.6007e-07]], device='cuda:0')
+Epoch 198, bias, value: tensor([-0.0061, -0.0121, -0.0060, -0.0163, -0.0048, -0.0005,  0.0115,  0.0140,
+         0.0162, -0.0121], device='cuda:0'), grad: tensor([ 6.3330e-08, -1.5069e-06,  8.4378e-07, -7.5996e-06, -2.6077e-08,
+         1.2666e-05,  4.0978e-08, -1.1176e-07, -5.6997e-06,  1.3094e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 197, time 214.66, cls_loss 0.0016 cls_loss_mapping 0.0029 cls_loss_causal 0.5187 re_mapping 0.0059 re_causal 0.0184 /// teacc 99.06 lr 0.00010000
+Epoch 199, weight, value: tensor([[-0.2064,  0.0817, -0.0788,  ..., -0.0176, -0.1369, -0.1363],
+        [ 0.0193,  0.0775, -0.1086,  ..., -0.1054, -0.0329,  0.1015],
+        [ 0.0505, -0.1046, -0.1070,  ..., -0.0007, -0.0489, -0.0713],
+        ...,
+        [ 0.0750, -0.0028,  0.1172,  ...,  0.0677,  0.1544, -0.0088],
+        [ 0.0927, -0.1526, -0.1205,  ..., -0.1932, -0.0541,  0.1566],
+        [-0.1036,  0.0758,  0.0307,  ..., -0.1576, -0.0883, -0.0235]],
+       device='cuda:0'), grad: tensor([[ 1.0058e-07, -5.9977e-07,  9.4995e-08,  ...,  5.9605e-08,
+          9.1270e-08,  1.3039e-08],
+        [ 1.0617e-07, -1.1995e-06,  5.6624e-07,  ...,  2.9802e-07,
+          4.3586e-07, -2.3153e-06],
+        [-4.0507e-04,  7.0594e-07, -2.0373e-04,  ..., -1.0914e-04,
+         -2.5249e-04,  1.1008e-06],
+        ...,
+        [ 4.0245e-04,  2.9616e-07,  2.0146e-04,  ...,  1.0771e-04,
+          2.5105e-04,  2.3842e-07],
+        [ 7.6182e-07,  2.1234e-07,  6.8918e-07,  ...,  4.4703e-07,
+          2.6822e-07,  1.0245e-07],
+        [ 2.7195e-07, -2.4214e-08, -6.6496e-07,  ...,  7.6368e-08,
+          7.6368e-08,  4.1537e-07]], device='cuda:0')
+Epoch 199, bias, value: tensor([-0.0064, -0.0119, -0.0060, -0.0163, -0.0048, -0.0002,  0.0117,  0.0141,
+         0.0154, -0.0123], device='cuda:0'), grad: tensor([-7.4692e-07, -3.2205e-06, -4.4203e-04,  1.9185e-06,  7.6927e-07,
+         9.9652e-07, -4.6194e-07,  4.4060e-04,  2.0135e-06,  2.5146e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 198, time 214.99, cls_loss 0.0016 cls_loss_mapping 0.0023 cls_loss_causal 0.5206 re_mapping 0.0058 re_causal 0.0182 /// teacc 98.98 lr 0.00010000
+Epoch 200, weight, value: tensor([[-0.2071,  0.0817, -0.0803,  ..., -0.0177, -0.1377, -0.1373],
+        [ 0.0178,  0.0773, -0.1095,  ..., -0.1056, -0.0335,  0.1006],
+        [ 0.0512, -0.1042, -0.1069,  ..., -0.0005, -0.0488, -0.0682],
+        ...,
+        [ 0.0755, -0.0029,  0.1180,  ...,  0.0677,  0.1549, -0.0084],
+        [ 0.0926, -0.1530, -0.1208,  ..., -0.1937, -0.0544,  0.1567],
+        [-0.1054,  0.0758,  0.0305,  ..., -0.1580, -0.0897, -0.0242]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  0.0000e+00,  1.8626e-08,  ...,  5.5879e-09,
+          0.0000e+00,  3.1665e-08],
+        [-2.2352e-07, -3.2969e-07,  4.6566e-08,  ...,  1.3039e-08,
+          1.6764e-08, -2.5239e-06],
+        [ 1.4901e-08,  5.4017e-08,  2.6077e-08,  ...,  9.3132e-09,
+          3.7253e-09,  1.4342e-07],
+        ...,
+        [-2.6077e-08,  1.5460e-07, -1.1176e-08,  ..., -7.4506e-09,
+         -3.7253e-08,  3.2783e-07],
+        [ 1.6950e-07,  3.2783e-07,  9.8720e-08,  ...,  1.4901e-08,
+          1.8626e-09,  1.5274e-06],
+        [ 2.4214e-08,  2.3134e-06, -1.8254e-07,  ...,  1.4901e-08,
+          7.4506e-09,  1.3076e-06]], device='cuda:0')
+Epoch 200, bias, value: tensor([-0.0067, -0.0133, -0.0046, -0.0158, -0.0047, -0.0007,  0.0120,  0.0144,
+         0.0153, -0.0125], device='cuda:0'), grad: tensor([ 1.1548e-07, -3.6173e-06,  3.2596e-07,  7.0296e-06, -5.8860e-06,
+        -1.2249e-05,  3.1535e-06,  7.0035e-07,  2.9225e-06,  7.5325e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 199, time 214.87, cls_loss 0.0022 cls_loss_mapping 0.0048 cls_loss_causal 0.5339 re_mapping 0.0059 re_causal 0.0176 /// teacc 99.04 lr 0.00010000
+Epoch 201, weight, value: tensor([[-0.2092,  0.0791, -0.0835,  ..., -0.0194, -0.1401, -0.1396],
+        [ 0.0183,  0.0789, -0.1096,  ..., -0.1060, -0.0334,  0.1020],
+        [ 0.0513, -0.1053, -0.1071,  ..., -0.0005, -0.0488, -0.0696],
+        ...,
+        [ 0.0756, -0.0034,  0.1183,  ...,  0.0678,  0.1550, -0.0086],
+        [ 0.0944, -0.1545, -0.1217,  ..., -0.1944, -0.0547,  0.1571],
+        [-0.1064,  0.0776,  0.0308,  ..., -0.1591, -0.0903, -0.0248]],
+       device='cuda:0'), grad: tensor([[ 2.4214e-08, -5.7742e-08,  9.8720e-08,  ...,  6.1467e-08,
+          5.5879e-09,  2.6077e-08],
+        [ 1.2107e-07, -1.7323e-07,  2.2165e-07,  ...,  1.8068e-07,
+          8.1956e-08, -3.2037e-07],
+        [ 2.9802e-08,  1.0803e-07,  3.0175e-07,  ..., -7.0781e-08,
+          7.4506e-09,  1.0803e-07],
+        ...,
+        [-2.1048e-07,  1.7136e-07, -4.0978e-08,  ...,  1.7509e-07,
+         -2.3469e-07,  1.0990e-07],
+        [-1.6540e-06,  1.6391e-07,  1.8068e-07,  ...,  5.1409e-07,
+          9.3132e-09, -1.7136e-06],
+        [ 1.4398e-06,  7.8231e-08, -1.3039e-08,  ...,  3.7812e-07,
+          2.7940e-08,  1.5385e-06]], device='cuda:0')
+Epoch 201, bias, value: tensor([-0.0094, -0.0124, -0.0050, -0.0155, -0.0049, -0.0024,  0.0104,  0.0145,
+         0.0176, -0.0113], device='cuda:0'), grad: tensor([ 2.2724e-07, -9.8720e-08,  2.8498e-07, -2.1774e-06,  1.2480e-07,
+         7.7859e-07, -3.1106e-07,  6.6869e-07, -2.8312e-06,  3.3155e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 200, time 215.21, cls_loss 0.0019 cls_loss_mapping 0.0027 cls_loss_causal 0.5164 re_mapping 0.0057 re_causal 0.0174 /// teacc 99.00 lr 0.00010000
+Epoch 202, weight, value: tensor([[-0.2102,  0.0793, -0.0847,  ..., -0.0197, -0.1416, -0.1403],
+        [ 0.0178,  0.0790, -0.1100,  ..., -0.1069, -0.0340,  0.1023],
+        [ 0.0514, -0.1060, -0.1074,  ..., -0.0005, -0.0487, -0.0695],
+        ...,
+        [ 0.0759, -0.0034,  0.1187,  ...,  0.0682,  0.1554, -0.0087],
+        [ 0.0945, -0.1552, -0.1222,  ..., -0.1955, -0.0549,  0.1570],
+        [-0.1071,  0.0774,  0.0316,  ..., -0.1603, -0.0908, -0.0250]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-09, -2.6822e-07,  1.3039e-08,  ...,  7.4506e-09,
+          9.3132e-09,  5.5879e-09],
+        [ 4.8429e-08,  5.7742e-08,  8.1956e-08,  ...,  1.3039e-08,
+          6.5193e-08, -5.2154e-08],
+        [-2.9802e-08,  3.1665e-08,  3.3528e-08,  ..., -6.8918e-08,
+         -1.3039e-08,  2.0489e-08],
+        ...,
+        [-1.7472e-06,  4.6566e-08, -2.3115e-06,  ...,  1.8626e-08,
+         -2.1756e-06,  6.8918e-08],
+        [ 7.4506e-08,  2.6077e-08,  1.2293e-07,  ...,  3.7253e-09,
+          1.0617e-07, -5.5879e-09],
+        [ 1.5181e-06,  1.1921e-07,  1.7062e-06,  ...,  1.6764e-08,
+          1.8682e-06,  4.0978e-08]], device='cuda:0')
+Epoch 202, bias, value: tensor([-0.0096, -0.0128, -0.0046, -0.0159, -0.0047, -0.0022,  0.0115,  0.0147,
+         0.0170, -0.0118], device='cuda:0'), grad: tensor([-4.0233e-07,  2.1979e-07, -4.5449e-07,  1.3784e-07, -1.0990e-07,
+         1.2480e-07,  1.4715e-07, -3.1292e-06,  2.8685e-07,  3.2093e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 201, time 214.77, cls_loss 0.0027 cls_loss_mapping 0.0036 cls_loss_causal 0.5296 re_mapping 0.0061 re_causal 0.0178 /// teacc 98.90 lr 0.00010000
+Epoch 203, weight, value: tensor([[-0.2109,  0.0792, -0.0854,  ..., -0.0202, -0.1426, -0.1407],
+        [ 0.0140,  0.0789, -0.1142,  ..., -0.1099, -0.0383,  0.0999],
+        [ 0.0509, -0.1065, -0.1086,  ..., -0.0010, -0.0490, -0.0699],
+        ...,
+        [ 0.0801, -0.0033,  0.1238,  ...,  0.0708,  0.1596, -0.0054],
+        [ 0.0936, -0.1540, -0.1252,  ..., -0.1986, -0.0580,  0.1580],
+        [-0.1094,  0.0771,  0.0307,  ..., -0.1629, -0.0933, -0.0262]],
+       device='cuda:0'), grad: tensor([[ 9.3691e-07,  3.2615e-06,  3.7253e-09,  ...,  0.0000e+00,
+          3.7253e-09,  3.5558e-06],
+        [-5.4948e-07, -7.9125e-06,  9.3132e-09,  ...,  3.7253e-09,
+         -5.7593e-06, -1.4119e-05],
+        [ 1.0580e-06,  2.3544e-06,  1.1176e-08,  ...,  1.8626e-09,
+          5.9232e-07,  4.4741e-06],
+        ...,
+        [ 2.6338e-06,  6.1095e-07, -5.5879e-09,  ..., -3.7253e-09,
+          5.0142e-06,  9.8646e-06],
+        [-6.9402e-06, -8.1137e-06, -1.9372e-07,  ...,  1.8626e-09,
+         -1.1176e-08, -1.6153e-05],
+        [ 7.0408e-07,  9.2201e-07,  2.0489e-08,  ...,  1.8626e-09,
+          2.7940e-08,  1.2536e-06]], device='cuda:0')
+Epoch 203, bias, value: tensor([-0.0102, -0.0172, -0.0047, -0.0168, -0.0039, -0.0022,  0.0114,  0.0199,
+         0.0168, -0.0127], device='cuda:0'), grad: tensor([ 1.2212e-05, -3.4153e-05,  9.6112e-06,  8.9630e-06,  1.3754e-05,
+         2.8610e-06,  3.9190e-06,  1.7539e-05, -3.8922e-05,  4.2208e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 202, time 214.70, cls_loss 0.0013 cls_loss_mapping 0.0028 cls_loss_causal 0.5071 re_mapping 0.0065 re_causal 0.0194 /// teacc 98.99 lr 0.00010000
+Epoch 204, weight, value: tensor([[-0.2109,  0.0794, -0.0854,  ..., -0.0203, -0.1428, -0.1408],
+        [ 0.0142,  0.0800, -0.1142,  ..., -0.1100, -0.0380,  0.1004],
+        [ 0.0511, -0.1069, -0.1087,  ..., -0.0009, -0.0489, -0.0700],
+        ...,
+        [ 0.0800, -0.0046,  0.1240,  ...,  0.0707,  0.1595, -0.0059],
+        [ 0.0939, -0.1542, -0.1251,  ..., -0.1989, -0.0580,  0.1584],
+        [-0.1115,  0.0772,  0.0305,  ..., -0.1642, -0.0943, -0.0266]],
+       device='cuda:0'), grad: tensor([[ 3.5390e-08, -2.9299e-06,  2.2352e-08,  ...,  2.0489e-08,
+          1.4901e-08,  9.3132e-09],
+        [ 1.3411e-07, -3.3155e-07,  1.6578e-07,  ...,  1.5087e-07,
+          8.7544e-08, -8.6240e-07],
+        [ 3.2596e-07,  1.3039e-07,  3.2037e-07,  ...,  2.1979e-07,
+          3.6135e-07,  2.2352e-07],
+        ...,
+        [-7.9162e-07,  5.5879e-08, -7.5065e-07,  ..., -6.6310e-07,
+         -8.4750e-07,  2.2165e-07],
+        [ 2.2165e-07,  6.4261e-07,  1.7881e-07,  ...,  3.7812e-07,
+          8.5682e-08,  8.5682e-08],
+        [ 6.3330e-08,  1.8068e-07, -1.1362e-07,  ...,  1.7323e-07,
+          7.0781e-08,  1.1176e-07]], device='cuda:0')
+Epoch 204, bias, value: tensor([-0.0101, -0.0172, -0.0042, -0.0169, -0.0040, -0.0023,  0.0118,  0.0198,
+         0.0167, -0.0130], device='cuda:0'), grad: tensor([-5.4650e-06, -1.4622e-06,  1.0133e-06,  2.2054e-06,  8.5682e-07,
+        -4.2804e-06,  3.8557e-07, -8.4378e-07,  6.5342e-06,  1.0636e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 203, time 214.72, cls_loss 0.0040 cls_loss_mapping 0.0045 cls_loss_causal 0.5233 re_mapping 0.0059 re_causal 0.0172 /// teacc 99.03 lr 0.00010000
+Epoch 205, weight, value: tensor([[-0.2115,  0.0798, -0.0860,  ..., -0.0201, -0.1432, -0.1408],
+        [ 0.0112,  0.0807, -0.1158,  ..., -0.1101, -0.0402,  0.0976],
+        [ 0.0510, -0.1077, -0.1090,  ..., -0.0009, -0.0490, -0.0713],
+        ...,
+        [ 0.0828, -0.0060,  0.1250,  ...,  0.0707,  0.1614, -0.0029],
+        [ 0.0941, -0.1548, -0.1252,  ..., -0.1993, -0.0582,  0.1588],
+        [-0.1127,  0.0787,  0.0325,  ..., -0.1656, -0.0938, -0.0273]],
+       device='cuda:0'), grad: tensor([[ 8.1956e-08, -1.8906e-06, -1.2070e-06,  ..., -2.2054e-06,
+          5.9605e-08,  3.5204e-07],
+        [ 3.1292e-07,  5.1223e-07,  6.1467e-08,  ...,  1.1176e-07,
+          1.0803e-07,  2.4773e-07],
+        [-3.1218e-06,  3.6322e-07, -5.8673e-07,  ..., -3.2634e-06,
+         -4.2953e-06,  9.4436e-07],
+        ...,
+        [ 4.2953e-06,  1.3821e-06,  7.8045e-07,  ...,  3.2280e-06,
+          4.1649e-06,  1.3188e-06],
+        [-4.0568e-06,  4.7311e-07,  1.5087e-07,  ...,  1.5274e-07,
+         -6.2212e-07, -4.2953e-06],
+        [ 1.0990e-07,  2.7511e-06,  6.6310e-07,  ...,  1.5795e-06,
+          4.0978e-08,  5.1223e-07]], device='cuda:0')
+Epoch 205, bias, value: tensor([-0.0097, -0.0202, -0.0045, -0.0167, -0.0048, -0.0024,  0.0114,  0.0228,
+         0.0167, -0.0119], device='cuda:0'), grad: tensor([-1.0155e-05,  2.5481e-06, -6.6757e-06,  5.3197e-06, -1.3106e-05,
+         1.5050e-06,  9.5740e-07,  1.5497e-05, -8.5980e-06,  1.2636e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 204, time 214.82, cls_loss 0.0021 cls_loss_mapping 0.0030 cls_loss_causal 0.4850 re_mapping 0.0061 re_causal 0.0167 /// teacc 98.86 lr 0.00010000
+Epoch 206, weight, value: tensor([[-0.2120,  0.0831, -0.0854,  ..., -0.0202, -0.1439, -0.1407],
+        [ 0.0113,  0.0813, -0.1149,  ..., -0.1090, -0.0404,  0.0979],
+        [ 0.0508, -0.1082, -0.1096,  ..., -0.0010, -0.0492, -0.0720],
+        ...,
+        [ 0.0829, -0.0073,  0.1242,  ...,  0.0702,  0.1617, -0.0032],
+        [ 0.0943, -0.1554, -0.1252,  ..., -0.2000, -0.0583,  0.1590],
+        [-0.1142,  0.0767,  0.0334,  ..., -0.1664, -0.0940, -0.0275]],
+       device='cuda:0'), grad: tensor([[-1.8626e-08, -7.5623e-07,  3.7253e-09,  ...,  5.5879e-08,
+          5.0291e-08,  7.2643e-08],
+        [ 9.6858e-08, -1.3411e-07,  1.1176e-08,  ...,  1.3784e-07,
+          1.3784e-07, -4.3586e-07],
+        [-3.2056e-06,  1.0245e-07, -1.4715e-07,  ..., -3.0622e-06,
+         -3.0156e-06,  2.9802e-08],
+        ...,
+        [ 1.6894e-06,  1.5832e-07,  7.8231e-08,  ...,  1.5888e-06,
+          1.5534e-06,  2.5705e-07],
+        [ 6.8545e-07,  2.1234e-07,  5.5879e-08,  ...,  6.4448e-07,
+          6.3702e-07,  3.9116e-08],
+        [ 9.6858e-08,  6.6496e-07, -3.7253e-08,  ...,  5.0291e-08,
+          5.7742e-08,  5.9605e-08]], device='cuda:0')
+Epoch 206, bias, value: tensor([-0.0064, -0.0198, -0.0050, -0.0171, -0.0054, -0.0023,  0.0111,  0.0224,
+         0.0167, -0.0139], device='cuda:0'), grad: tensor([-1.2182e-06, -1.7323e-07, -8.4043e-06,  2.5332e-06, -1.4398e-06,
+        -2.4401e-06,  1.4156e-06,  5.0887e-06,  2.7269e-06,  1.8999e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 205, time 214.92, cls_loss 0.0016 cls_loss_mapping 0.0034 cls_loss_causal 0.4859 re_mapping 0.0064 re_causal 0.0187 /// teacc 98.91 lr 0.00010000
+Epoch 207, weight, value: tensor([[-0.2121,  0.0811, -0.0857,  ..., -0.0202, -0.1441, -0.1409],
+        [ 0.0114,  0.0823, -0.1148,  ..., -0.1091, -0.0403,  0.0981],
+        [ 0.0509, -0.1092, -0.1097,  ..., -0.0011, -0.0491, -0.0722],
+        ...,
+        [ 0.0828, -0.0084,  0.1241,  ...,  0.0702,  0.1616, -0.0033],
+        [ 0.0943, -0.1557, -0.1253,  ..., -0.2003, -0.0583,  0.1590],
+        [-0.1145,  0.0784,  0.0338,  ..., -0.1672, -0.0943, -0.0279]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09, -3.5390e-08,  3.7253e-09,  ...,  3.7253e-09,
+          7.4506e-09,  7.4506e-09],
+        [-5.9791e-07, -9.0525e-07,  3.3528e-08,  ...,  2.7940e-08,
+         -1.8775e-06, -2.9281e-06],
+        [ 1.5274e-07,  8.5682e-08,  8.1956e-08,  ...,  4.8429e-08,
+          2.4028e-07,  2.7753e-07],
+        ...,
+        [-4.7870e-07,  7.1526e-07, -7.4320e-07,  ..., -5.6252e-07,
+          8.0653e-07,  2.3264e-06],
+        [ 2.0862e-07,  3.9116e-08,  2.0489e-07,  ...,  1.6578e-07,
+          2.1793e-07, -3.3528e-08],
+        [ 5.0291e-08,  8.5682e-08,  1.3039e-08,  ...,  1.1176e-08,
+          1.2480e-07,  1.8626e-07]], device='cuda:0')
+Epoch 207, bias, value: tensor([-0.0083, -0.0197, -0.0050, -0.0167, -0.0053, -0.0025,  0.0112,  0.0223,
+         0.0166, -0.0123], device='cuda:0'), grad: tensor([ 6.3330e-08, -7.5549e-06,  8.2888e-07,  7.7672e-07,  1.2480e-07,
+         2.5332e-07, -3.1851e-07,  4.8205e-06,  4.3586e-07,  5.6438e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 206, time 214.82, cls_loss 0.0016 cls_loss_mapping 0.0039 cls_loss_causal 0.5377 re_mapping 0.0063 re_causal 0.0178 /// teacc 98.92 lr 0.00010000
+Epoch 208, weight, value: tensor([[-0.2128,  0.0815, -0.0863,  ..., -0.0232, -0.1447, -0.1403],
+        [ 0.0114,  0.0831, -0.1150,  ..., -0.1093, -0.0405,  0.0982],
+        [ 0.0528, -0.1090, -0.1077,  ...,  0.0005, -0.0476, -0.0729],
+        ...,
+        [ 0.0824, -0.0092,  0.1236,  ...,  0.0691,  0.1612, -0.0033],
+        [ 0.0941, -0.1561, -0.1255,  ..., -0.2016, -0.0584,  0.1592],
+        [-0.1164,  0.0781,  0.0337,  ..., -0.1701, -0.0952, -0.0288]],
+       device='cuda:0'), grad: tensor([[ 2.0489e-08,  1.3039e-08,  5.7742e-08,  ...,  1.4901e-08,
+          4.2841e-08,  1.6764e-08],
+        [ 1.3597e-07, -1.7509e-07,  2.7195e-07,  ...,  7.6368e-08,
+          1.8440e-07, -4.7684e-07],
+        [ 2.3842e-07,  7.0781e-08,  2.6636e-07,  ...,  9.6858e-08,
+          2.1048e-07,  2.8312e-07],
+        ...,
+        [-8.0690e-06,  1.8999e-07, -1.7390e-05,  ..., -3.7346e-06,
+         -1.7703e-05,  2.7195e-07],
+        [-6.8918e-08, -9.5926e-07,  3.2224e-07,  ...,  8.0094e-08,
+          2.3842e-07, -4.7348e-06],
+        [ 7.5437e-06, -1.1303e-05,  1.0550e-05,  ...,  3.4980e-06,
+          8.8662e-06,  3.1162e-06]], device='cuda:0')
+Epoch 208, bias, value: tensor([-0.0082, -0.0197, -0.0034, -0.0187, -0.0055, -0.0003,  0.0114,  0.0221,
+         0.0164, -0.0128], device='cuda:0'), grad: tensor([ 1.6764e-07, -1.8254e-07,  1.1064e-06, -1.1817e-05,  4.5300e-05,
+         1.5467e-05,  2.2091e-06, -4.2379e-05, -1.3463e-05,  3.5949e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 207, time 214.92, cls_loss 0.0022 cls_loss_mapping 0.0036 cls_loss_causal 0.5284 re_mapping 0.0058 re_causal 0.0175 /// teacc 98.99 lr 0.00010000
+Epoch 209, weight, value: tensor([[-0.2131,  0.0816, -0.0868,  ..., -0.0233, -0.1448, -0.1406],
+        [ 0.0113,  0.0831, -0.1150,  ..., -0.1095, -0.0405,  0.0983],
+        [ 0.0529, -0.1103, -0.1079,  ...,  0.0004, -0.0476, -0.0736],
+        ...,
+        [ 0.0821, -0.0110,  0.1221,  ...,  0.0662,  0.1609, -0.0034],
+        [ 0.0946, -0.1564, -0.1257,  ..., -0.2020, -0.0584,  0.1603],
+        [-0.1160,  0.0793,  0.0367,  ..., -0.1706, -0.0929, -0.0282]],
+       device='cuda:0'), grad: tensor([[ 1.6764e-08, -7.4506e-08,  1.3039e-08,  ...,  9.3132e-09,
+          5.5879e-09,  5.5879e-09],
+        [ 1.6391e-07,  1.6950e-07,  7.6368e-08,  ...,  4.8429e-08,
+          5.4017e-08, -1.2293e-07],
+        [ 2.6077e-07,  1.0431e-07,  2.3097e-07,  ...,  1.1735e-07,
+          2.1793e-07,  5.0291e-08],
+        ...,
+        [-9.5740e-07,  1.0245e-07, -7.4878e-07,  ..., -4.8429e-07,
+         -7.5996e-07,  8.7544e-08],
+        [ 1.1921e-07,  3.0361e-07,  1.0058e-07,  ...,  8.3819e-08,
+          8.9407e-08, -2.6077e-07],
+        [ 2.9057e-06,  1.4585e-06, -1.3784e-07,  ...,  4.2841e-08,
+          9.4995e-08,  2.1048e-07]], device='cuda:0')
+Epoch 209, bias, value: tensor([-0.0082, -0.0197, -0.0037, -0.0172, -0.0072, -0.0003,  0.0111,  0.0215,
+         0.0167, -0.0109], device='cuda:0'), grad: tensor([ 3.7253e-09,  6.5006e-07,  8.0280e-07,  3.8818e-06,  6.2585e-06,
+         7.5996e-06,  8.0392e-06, -1.2219e-06,  1.3299e-06, -2.7344e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 208, time 215.02, cls_loss 0.0019 cls_loss_mapping 0.0035 cls_loss_causal 0.5111 re_mapping 0.0059 re_causal 0.0165 /// teacc 98.92 lr 0.00010000
+Epoch 210, weight, value: tensor([[-0.2140,  0.0817, -0.0878,  ..., -0.0234, -0.1459, -0.1414],
+        [ 0.0113,  0.0857, -0.1151,  ..., -0.1098, -0.0404,  0.0987],
+        [ 0.0531, -0.1108, -0.1082,  ...,  0.0003, -0.0475, -0.0741],
+        ...,
+        [ 0.0821, -0.0120,  0.1221,  ...,  0.0660,  0.1609, -0.0035],
+        [ 0.0953, -0.1569, -0.1259,  ..., -0.2022, -0.0585,  0.1617],
+        [-0.1165,  0.0797,  0.0375,  ..., -0.1711, -0.0931, -0.0274]],
+       device='cuda:0'), grad: tensor([[ 1.1921e-07,  9.3132e-10,  1.8626e-08,  ...,  1.5832e-07,
+          8.8476e-08,  6.3330e-08],
+        [ 2.7083e-06,  2.4773e-07,  2.1476e-06,  ...,  1.8533e-06,
+          2.2408e-06, -2.2817e-07],
+        [-1.5711e-06,  1.8440e-07,  5.3737e-07,  ..., -2.7400e-06,
+         -1.0794e-06,  3.0082e-07],
+        ...,
+        [-4.1127e-06, -1.2834e-06, -4.1500e-06,  ..., -2.2538e-06,
+         -3.4645e-06, -1.5618e-06],
+        [ 7.1805e-07,  2.5611e-07,  4.0513e-07,  ...,  7.4133e-07,
+          5.6624e-07,  2.9430e-07],
+        [ 3.6974e-07,  1.7416e-07,  2.4214e-07,  ...,  3.1292e-07,
+          3.1572e-07,  2.4308e-07]], device='cuda:0')
+Epoch 210, bias, value: tensor([-0.0080, -0.0194, -0.0037, -0.0171, -0.0081, -0.0004,  0.0096,  0.0214,
+         0.0172, -0.0103], device='cuda:0'), grad: tensor([ 5.0012e-07,  2.2743e-06, -6.1840e-06,  4.1649e-06,  1.4417e-06,
+        -9.7789e-07,  1.3737e-06, -6.2175e-06,  2.3190e-06,  1.2722e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 209, time 214.96, cls_loss 0.0015 cls_loss_mapping 0.0027 cls_loss_causal 0.5111 re_mapping 0.0061 re_causal 0.0177 /// teacc 99.08 lr 0.00010000
+Epoch 211, weight, value: tensor([[-2.1572e-01,  8.1682e-02, -8.8811e-02,  ..., -2.4072e-02,
+         -1.4668e-01, -1.4369e-01],
+        [ 1.1355e-02,  8.6367e-02, -1.1516e-01,  ..., -1.0995e-01,
+         -4.0405e-02,  9.8854e-02],
+        [ 5.3085e-02, -1.1158e-01, -1.0865e-01,  ..., -1.0879e-05,
+         -4.7602e-02, -7.4325e-02],
+        ...,
+        [ 8.2124e-02, -1.2542e-02,  1.2229e-01,  ...,  6.6095e-02,
+          1.6103e-01, -3.5835e-03],
+        [ 9.5953e-02, -1.5709e-01, -1.2617e-01,  ..., -2.0381e-01,
+         -5.8390e-02,  1.6284e-01],
+        [-1.1716e-01,  7.9502e-02,  3.7543e-02,  ..., -1.7193e-01,
+         -9.3474e-02, -2.7964e-02]], device='cuda:0'), grad: tensor([[ 3.0734e-08,  1.1623e-06,  6.8918e-08,  ...,  8.8476e-08,
+          2.4214e-08,  4.9639e-07],
+        [ 2.8964e-07,  6.5565e-06,  9.2760e-07,  ...,  2.7474e-07,
+          1.4715e-07,  7.7784e-06],
+        [-3.2745e-06,  3.0827e-07,  5.9605e-08,  ..., -2.8685e-06,
+         -2.0936e-06,  3.7625e-07],
+        ...,
+        [ 1.1250e-06,  1.2023e-06,  3.4925e-07,  ...,  9.9093e-07,
+          9.0059e-07,  1.5721e-06],
+        [ 1.2433e-06,  1.5765e-05,  1.9409e-06,  ...,  1.1893e-06,
+          7.4320e-07,  1.8016e-05],
+        [ 4.9360e-08, -7.0095e-05, -9.8273e-06,  ...,  9.3132e-08,
+         -8.2888e-08, -8.7738e-05]], device='cuda:0')
+Epoch 211, bias, value: tensor([-0.0081, -0.0193, -0.0037, -0.0167, -0.0080, -0.0003,  0.0089,  0.0214,
+         0.0176, -0.0105], device='cuda:0'), grad: tensor([ 4.0680e-06,  2.2709e-05, -7.7635e-06,  2.7828e-06,  1.5783e-04,
+        -3.0100e-05,  2.2352e-05,  6.9812e-06,  5.6267e-05, -2.3520e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 210, time 215.14, cls_loss 0.0028 cls_loss_mapping 0.0043 cls_loss_causal 0.5010 re_mapping 0.0060 re_causal 0.0169 /// teacc 98.94 lr 0.00010000
+Epoch 212, weight, value: tensor([[-2.1496e-01,  8.0081e-02, -8.9318e-02,  ..., -2.4282e-02,
+         -1.4753e-01, -1.4080e-01],
+        [ 9.3222e-03,  8.7015e-02, -1.1683e-01,  ..., -1.1007e-01,
+         -4.2170e-02,  9.6724e-02],
+        [ 5.1880e-02, -1.1267e-01, -1.0964e-01,  ..., -7.5343e-05,
+         -4.8630e-02, -7.8786e-02],
+        ...,
+        [ 8.3954e-02, -1.2307e-02,  1.2379e-01,  ...,  6.5576e-02,
+          1.6281e-01, -1.3846e-03],
+        [ 9.8334e-02, -1.5848e-01, -1.2403e-01,  ..., -2.0133e-01,
+         -5.5925e-02,  1.6416e-01],
+        [-1.1890e-01,  8.0957e-02,  3.7209e-02,  ..., -1.7360e-01,
+         -9.4773e-02, -2.8545e-02]], device='cuda:0'), grad: tensor([[ 2.7940e-09, -1.3269e-05,  1.7695e-08,  ..., -2.2445e-06,
+          1.8626e-09,  5.5879e-09],
+        [-5.4017e-08, -1.1921e-07,  1.4901e-08,  ...,  1.3039e-08,
+          1.8626e-09, -6.2026e-07],
+        [-2.7940e-09,  5.3644e-07,  4.1910e-08,  ...,  5.4948e-08,
+         -2.7008e-08,  4.9360e-08],
+        ...,
+        [ 3.8184e-08,  3.0082e-07, -0.0000e+00,  ...,  3.0734e-08,
+         -0.0000e+00,  4.9733e-07],
+        [-5.9605e-08,  2.5705e-07,  7.1712e-08,  ...,  2.1420e-08,
+         -9.3132e-10, -5.0291e-08],
+        [ 5.5879e-09,  1.1407e-05, -6.1467e-07,  ...,  1.9725e-06,
+          1.8626e-09,  2.6450e-07]], device='cuda:0')
+Epoch 212, bias, value: tensor([-0.0097, -0.0212, -0.0055, -0.0169, -0.0080, -0.0001,  0.0090,  0.0232,
+         0.0183, -0.0093], device='cuda:0'), grad: tensor([-1.6922e-06, -5.9884e-07,  1.0878e-06,  1.6335e-06, -1.3970e-07,
+         2.7120e-06, -2.4840e-05,  9.0618e-07,  7.4320e-07,  2.0117e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 211, time 214.86, cls_loss 0.0026 cls_loss_mapping 0.0042 cls_loss_causal 0.5133 re_mapping 0.0058 re_causal 0.0168 /// teacc 98.99 lr 0.00010000
+Epoch 213, weight, value: tensor([[-0.2155,  0.0803, -0.0910,  ..., -0.0237, -0.1500, -0.1407],
+        [ 0.0092,  0.0893, -0.1175,  ..., -0.1120, -0.0422,  0.0968],
+        [ 0.0523, -0.1149, -0.1098,  ...,  0.0004, -0.0481, -0.0799],
+        ...,
+        [ 0.0839, -0.0161,  0.1233,  ...,  0.0644,  0.1624, -0.0014],
+        [ 0.0983, -0.1598, -0.1245,  ..., -0.2020, -0.0561,  0.1645],
+        [-0.1207,  0.0812,  0.0392,  ..., -0.1767, -0.0933, -0.0291]],
+       device='cuda:0'), grad: tensor([[ 1.7695e-07,  1.3195e-05,  3.2596e-08,  ...,  6.5193e-09,
+          1.3970e-08,  2.0862e-07],
+        [ 1.8869e-06,  3.0547e-07,  1.3411e-07,  ...,  2.4401e-07,
+          8.1025e-08,  1.4734e-06],
+        [-9.1046e-06,  2.5425e-07,  2.3656e-07,  ..., -5.8562e-06,
+         -5.7630e-06,  1.5246e-06],
+        ...,
+        [ 9.5293e-06,  5.8021e-07, -8.3167e-07,  ...,  5.0627e-06,
+          4.9174e-06,  1.3327e-06],
+        [-4.8093e-06,  2.9191e-05,  2.2538e-07,  ...,  2.6450e-07,
+          9.1270e-08, -6.2436e-06],
+        [ 8.8476e-08,  1.1645e-05,  7.3574e-08,  ...,  9.4064e-08,
+          4.0978e-08,  2.0023e-07]], device='cuda:0')
+Epoch 213, bias, value: tensor([-0.0095, -0.0211, -0.0056, -0.0157, -0.0080, -0.0004,  0.0089,  0.0229,
+         0.0181, -0.0088], device='cuda:0'), grad: tensor([ 1.2267e-04,  7.6741e-06, -1.0386e-05,  5.1737e-05,  5.1409e-07,
+        -7.3004e-04,  3.4094e-04,  1.7092e-05,  1.7202e-04,  2.7552e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 212, time 214.89, cls_loss 0.0016 cls_loss_mapping 0.0035 cls_loss_causal 0.5215 re_mapping 0.0058 re_causal 0.0178 /// teacc 98.93 lr 0.00010000
+Epoch 214, weight, value: tensor([[-2.1595e-01,  8.0279e-02, -9.1560e-02,  ..., -2.5181e-02,
+         -1.5106e-01, -1.4096e-01],
+        [ 9.2960e-03,  8.9657e-02, -1.1715e-01,  ..., -1.1157e-01,
+         -4.1954e-02,  9.6957e-02],
+        [ 5.1385e-02, -1.1609e-01, -1.1120e-01,  ..., -8.3849e-05,
+         -4.9176e-02, -8.0157e-02],
+        ...,
+        [ 8.4175e-02, -1.6419e-02,  1.2342e-01,  ...,  6.4589e-02,
+          1.6275e-01, -1.4949e-03],
+        [ 9.8528e-02, -1.6101e-01, -1.2455e-01,  ..., -2.0221e-01,
+         -5.6079e-02,  1.6502e-01],
+        [-1.2168e-01,  8.0904e-02,  3.9426e-02,  ..., -1.7768e-01,
+         -9.3383e-02, -2.9649e-02]], device='cuda:0'), grad: tensor([[ 8.3819e-09, -4.9360e-08,  1.8626e-09,  ...,  3.7253e-09,
+          9.3132e-10,  3.7253e-09],
+        [-1.3970e-08, -1.8347e-07,  1.3970e-08,  ...,  1.9558e-08,
+          7.4506e-09, -3.2783e-07],
+        [-4.9639e-07,  1.4901e-08,  5.0291e-08,  ..., -3.3248e-07,
+         -3.1386e-07,  2.2352e-08],
+        ...,
+        [ 3.8091e-07,  1.2107e-07, -5.1223e-08,  ...,  2.4680e-07,
+          2.8964e-07,  1.7323e-07],
+        [ 1.3970e-08,  1.5367e-07,  8.0094e-08,  ...,  6.8918e-08,
+          1.0245e-08,  1.2107e-08],
+        [ 8.3819e-09,  9.3132e-08, -7.4506e-08,  ...,  7.4506e-09,
+         -1.4901e-08,  7.2643e-08]], device='cuda:0')
+Epoch 214, bias, value: tensor([-0.0096, -0.0210, -0.0064, -0.0157, -0.0079,  0.0004,  0.0088,  0.0229,
+         0.0179, -0.0091], device='cuda:0'), grad: tensor([-2.4214e-08, -4.2282e-07, -9.4622e-07,  1.3784e-07, -8.2888e-08,
+        -6.5565e-07,  3.1944e-07,  9.7044e-07,  5.2527e-07,  1.9837e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 213, time 214.89, cls_loss 0.0016 cls_loss_mapping 0.0033 cls_loss_causal 0.5079 re_mapping 0.0059 re_causal 0.0176 /// teacc 99.04 lr 0.00010000
+Epoch 215, weight, value: tensor([[-0.2164,  0.0808, -0.0922,  ..., -0.0252, -0.1520, -0.1398],
+        [ 0.0094,  0.0900, -0.1166,  ..., -0.1106, -0.0417,  0.0972],
+        [ 0.0512, -0.1165, -0.1117,  ..., -0.0002, -0.0494, -0.0805],
+        ...,
+        [ 0.0842, -0.0184,  0.1231,  ...,  0.0643,  0.1627, -0.0018],
+        [ 0.0986, -0.1622, -0.1247,  ..., -0.2024, -0.0561,  0.1651],
+        [-0.1222,  0.0807,  0.0397,  ..., -0.1783, -0.0934, -0.0288]],
+       device='cuda:0'), grad: tensor([[-0.0000e+00, -5.1223e-08,  4.6566e-09,  ..., -9.3132e-10,
+          1.8626e-09,  1.3039e-08],
+        [ 4.5635e-08, -1.5646e-07,  3.7253e-08,  ...,  5.2154e-08,
+         -6.5193e-09, -3.2969e-07],
+        [ 4.0047e-08,  8.3819e-09,  1.1455e-07,  ...,  1.7881e-07,
+          2.4214e-08,  1.8626e-08],
+        ...,
+        [ 1.5832e-08,  9.4995e-08,  1.1828e-07,  ...,  2.7474e-07,
+         -1.7695e-08,  2.2631e-07],
+        [-2.8126e-07,  9.3132e-08,  7.4506e-08,  ...,  1.1269e-07,
+          1.2107e-08, -4.8336e-07],
+        [ 2.2352e-08,  2.8871e-08, -4.8429e-08,  ...,  6.5193e-09,
+          4.6566e-09,  8.2888e-08]], device='cuda:0')
+Epoch 215, bias, value: tensor([-9.1212e-03, -2.0824e-02, -6.5486e-03, -1.5617e-02, -7.6305e-03,
+         9.7456e-05,  8.8742e-03,  2.2635e-02,  1.7739e-02, -9.2100e-03],
+       device='cuda:0'), grad: tensor([-1.4901e-08, -3.1572e-07,  2.5705e-07,  4.2990e-06, -1.0617e-07,
+        -4.5225e-06, -2.2911e-07,  5.9232e-07, -8.3819e-08,  1.2200e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 214, time 214.86, cls_loss 0.0021 cls_loss_mapping 0.0032 cls_loss_causal 0.5470 re_mapping 0.0061 re_causal 0.0177 /// teacc 98.95 lr 0.00010000
+Epoch 216, weight, value: tensor([[-0.2181,  0.0809, -0.0936,  ..., -0.0256, -0.1548, -0.1410],
+        [ 0.0104,  0.0903, -0.1167,  ..., -0.1098, -0.0400,  0.0973],
+        [ 0.0506, -0.1172, -0.1109,  ...,  0.0019, -0.0504, -0.0811],
+        ...,
+        [ 0.0835, -0.0191,  0.1221,  ...,  0.0624,  0.1615, -0.0019],
+        [ 0.0995, -0.1614, -0.1250,  ..., -0.2030, -0.0562,  0.1671],
+        [-0.1213,  0.0806,  0.0414,  ..., -0.1795, -0.0912, -0.0289]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09, -7.5717e-07,  1.0338e-07,  ...,  5.4948e-08,
+          3.5390e-08,  4.6566e-09],
+        [ 8.5682e-08,  6.3330e-08,  2.5891e-06,  ...,  1.4016e-06,
+          8.5961e-07, -2.3283e-07],
+        [ 2.1420e-08,  1.4901e-08,  6.3330e-08,  ...,  5.0291e-08,
+         -5.7090e-07,  6.5193e-09],
+        ...,
+        [ 1.0416e-05,  3.6716e-05,  5.1165e-04,  ...,  2.8229e-04,
+          9.4414e-05,  9.6858e-08],
+        [ 1.3039e-08,  1.4063e-07,  5.3458e-07,  ...,  3.0175e-07,
+          1.0803e-07,  9.1270e-08],
+        [ 2.1700e-07,  1.4026e-06,  2.3581e-06,  ...,  1.3243e-06,
+          4.6287e-07,  5.2527e-07]], device='cuda:0')
+Epoch 216, bias, value: tensor([-9.1327e-03, -2.0039e-02, -7.6493e-03, -1.5267e-02, -7.6808e-03,
+        -7.8043e-05,  9.0725e-03,  2.2007e-02,  1.8396e-02, -8.6250e-03],
+       device='cuda:0'), grad: tensor([-1.0272e-06,  4.0457e-06, -1.3206e-06, -6.9094e-04, -1.4203e-06,
+         4.5169e-07,  7.7114e-07,  6.8283e-04,  9.8441e-07,  5.6922e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 215, time 215.04, cls_loss 0.0017 cls_loss_mapping 0.0025 cls_loss_causal 0.5197 re_mapping 0.0060 re_causal 0.0173 /// teacc 99.01 lr 0.00010000
+Epoch 217, weight, value: tensor([[-0.2187,  0.0811, -0.0943,  ..., -0.0257, -0.1555, -0.1411],
+        [ 0.0107,  0.0905, -0.1168,  ..., -0.1095, -0.0394,  0.0973],
+        [ 0.0502, -0.1181, -0.1108,  ...,  0.0024, -0.0509, -0.0818],
+        ...,
+        [ 0.0835, -0.0193,  0.1218,  ...,  0.0617,  0.1614, -0.0019],
+        [ 0.1000, -0.1609, -0.1250,  ..., -0.2030, -0.0562,  0.1683],
+        [-0.1221,  0.0803,  0.0415,  ..., -0.1806, -0.0914, -0.0297]],
+       device='cuda:0'), grad: tensor([[ 4.5355e-07, -5.4426e-06,  4.2841e-08,  ...,  1.9278e-07,
+          2.0675e-07,  8.3819e-09],
+        [ 2.4401e-07, -3.1106e-07,  2.7567e-07,  ...,  2.1607e-07,
+          1.2200e-07, -9.5088e-07],
+        [-9.8199e-06,  7.7300e-08,  3.9022e-07,  ..., -4.0382e-06,
+         -4.2915e-06, -7.0781e-08],
+        ...,
+        [ 3.1516e-06,  1.9185e-07, -6.7763e-06,  ..., -5.5321e-07,
+         -9.5181e-07,  5.8860e-07],
+        [ 1.8207e-06,  8.2608e-07,  3.2689e-07,  ...,  7.1432e-07,
+          7.5810e-07,  8.4750e-08],
+        [-2.9802e-08,  1.8887e-06, -3.2317e-07,  ...,  1.2200e-07,
+          2.2165e-07,  2.7753e-07]], device='cuda:0')
+Epoch 217, bias, value: tensor([-9.0201e-03, -1.9812e-02, -8.2540e-03, -1.5311e-02, -7.3845e-03,
+         8.2756e-05,  9.5756e-03,  2.1864e-02,  1.8853e-02, -8.9927e-03],
+       device='cuda:0'), grad: tensor([-1.1317e-05, -7.4971e-07, -1.6227e-05,  8.4043e-06,  1.4044e-06,
+        -6.6124e-08,  6.8694e-06,  3.4645e-06,  6.4597e-06,  1.7872e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 216, time 214.69, cls_loss 0.0012 cls_loss_mapping 0.0020 cls_loss_causal 0.5388 re_mapping 0.0058 re_causal 0.0186 /// teacc 98.89 lr 0.00010000
+Epoch 218, weight, value: tensor([[-0.2178,  0.0811, -0.0938,  ..., -0.0255, -0.1538, -0.1398],
+        [ 0.0107,  0.0907, -0.1168,  ..., -0.1094, -0.0393,  0.0973],
+        [ 0.0505, -0.1188, -0.1104,  ...,  0.0026, -0.0508, -0.0827],
+        ...,
+        [ 0.0833, -0.0195,  0.1218,  ...,  0.0615,  0.1613, -0.0020],
+        [ 0.1002, -0.1616, -0.1250,  ..., -0.2032, -0.0563,  0.1686],
+        [-0.1233,  0.0803,  0.0412,  ..., -0.1818, -0.0918, -0.0301]],
+       device='cuda:0'), grad: tensor([[ 1.5832e-08, -6.7987e-08,  4.5635e-08,  ...,  4.5635e-08,
+          1.2107e-08,  2.7940e-09],
+        [ 1.8813e-06, -5.5879e-09,  8.6613e-07,  ...,  7.0315e-07,
+          1.6298e-06,  1.2945e-07],
+        [ 4.7218e-07,  2.3283e-07,  1.8924e-06,  ...,  1.4808e-06,
+          1.9185e-07,  8.1956e-08],
+        ...,
+        [-3.0976e-06,  1.3970e-08, -2.2855e-06,  ..., -9.7230e-07,
+         -2.3860e-06, -2.0396e-07],
+        [ 8.3819e-09,  4.3772e-08,  2.4866e-07,  ...,  2.4494e-07,
+          6.3330e-08, -8.2888e-08],
+        [ 2.1514e-07,  6.4261e-08,  1.7788e-07,  ...,  1.0617e-07,
+          1.7602e-07,  2.2352e-08]], device='cuda:0')
+Epoch 218, bias, value: tensor([-0.0089, -0.0197, -0.0082, -0.0152, -0.0074,  0.0010,  0.0086,  0.0218,
+         0.0187, -0.0092], device='cuda:0'), grad: tensor([ 1.3970e-08,  3.2410e-06,  2.8927e-06, -3.8296e-06,  6.9290e-07,
+         7.5903e-07, -8.9314e-07, -3.8818e-06,  5.1595e-07,  4.7963e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 217, time 214.89, cls_loss 0.0023 cls_loss_mapping 0.0034 cls_loss_causal 0.5245 re_mapping 0.0057 re_causal 0.0175 /// teacc 99.00 lr 0.00010000
+Epoch 219, weight, value: tensor([[-0.2202,  0.0811, -0.0958,  ..., -0.0259, -0.1548, -0.1401],
+        [ 0.0105,  0.0890, -0.1170,  ..., -0.1096, -0.0393,  0.0964],
+        [ 0.0511, -0.1165, -0.1110,  ...,  0.0025, -0.0508, -0.0803],
+        ...,
+        [ 0.0825, -0.0203,  0.1212,  ...,  0.0616,  0.1606, -0.0024],
+        [ 0.1029, -0.1622, -0.1223,  ..., -0.2032, -0.0535,  0.1712],
+        [-0.1246,  0.0804,  0.0414,  ..., -0.1824, -0.0923, -0.0305]],
+       device='cuda:0'), grad: tensor([[ 2.1420e-08, -4.0699e-07,  3.6322e-08,  ...,  4.6566e-09,
+          1.0245e-08,  1.5832e-08],
+        [-2.7474e-06, -1.6298e-07,  1.2666e-07,  ...,  3.9116e-08,
+          7.2643e-08, -5.9381e-06],
+        [ 5.6904e-07,  1.1176e-08,  5.6531e-07,  ...,  1.8068e-07,
+          5.0850e-07,  2.0396e-07],
+        ...,
+        [-9.3132e-10,  1.7136e-07, -1.0636e-06,  ..., -3.7253e-07,
+         -1.0207e-06,  2.0601e-06],
+        [ 1.6820e-06,  4.9174e-07,  4.2841e-07,  ...,  5.4017e-08,
+          1.6205e-07,  3.0492e-06],
+        [ 1.7602e-07, -9.0245e-07, -2.1029e-06,  ...,  3.4459e-08,
+          8.9407e-08,  1.5087e-07]], device='cuda:0')
+Epoch 219, bias, value: tensor([-0.0090, -0.0215, -0.0057, -0.0151, -0.0074,  0.0007,  0.0085,  0.0214,
+         0.0202, -0.0092], device='cuda:0'), grad: tensor([-4.4424e-07, -8.1956e-06,  1.0878e-06,  3.5353e-06,  3.3639e-06,
+        -3.8445e-06, -6.7055e-08,  1.5665e-06,  5.8375e-06, -2.8647e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 218, time 214.88, cls_loss 0.0020 cls_loss_mapping 0.0026 cls_loss_causal 0.5364 re_mapping 0.0055 re_causal 0.0171 /// teacc 98.95 lr 0.00010000
+Epoch 220, weight, value: tensor([[-0.2212,  0.0813, -0.0969,  ..., -0.0259, -0.1550, -0.1403],
+        [ 0.0093,  0.0888, -0.1192,  ..., -0.1098, -0.0408,  0.0952],
+        [ 0.0511, -0.1160, -0.1115,  ...,  0.0024, -0.0509, -0.0798],
+        ...,
+        [ 0.0838, -0.0209,  0.1236,  ...,  0.0617,  0.1625, -0.0012],
+        [ 0.1029, -0.1630, -0.1225,  ..., -0.2033, -0.0536,  0.1712],
+        [-0.1258,  0.0804,  0.0414,  ..., -0.1834, -0.0929, -0.0309]],
+       device='cuda:0'), grad: tensor([[ 7.7393e-07,  1.4622e-07,  5.5879e-09,  ...,  6.2399e-08,
+          1.2107e-08,  7.8883e-07],
+        [-3.1125e-06, -8.4471e-07,  2.7008e-08,  ...,  1.0245e-08,
+         -2.2110e-06, -3.3006e-06],
+        [ 1.8617e-06,  4.9081e-07,  2.0582e-07,  ...,  5.3085e-08,
+          1.3141e-06,  1.7863e-06],
+        ...,
+        [ 6.9942e-07,  4.5542e-07, -2.8592e-07,  ..., -5.4948e-08,
+          4.8429e-07,  1.2247e-06],
+        [-1.2023e-06, -2.2631e-07,  2.4214e-08,  ..., -1.0431e-07,
+          8.3819e-08, -1.2619e-06],
+        [ 5.7090e-07,  3.7439e-07,  3.2596e-08,  ...,  3.7253e-08,
+          2.3749e-07,  7.3295e-07]], device='cuda:0')
+Epoch 220, bias, value: tensor([-0.0090, -0.0228, -0.0052, -0.0154, -0.0077,  0.0009,  0.0085,  0.0228,
+         0.0200, -0.0092], device='cuda:0'), grad: tensor([ 1.8226e-06, -1.2957e-05,  7.2494e-06,  2.0489e-07, -1.4501e-06,
+         1.4901e-07,  8.3633e-07,  4.2543e-06, -2.5332e-06,  2.3879e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 219, time 214.85, cls_loss 0.0017 cls_loss_mapping 0.0031 cls_loss_causal 0.5089 re_mapping 0.0056 re_causal 0.0162 /// teacc 99.05 lr 0.00010000
+Epoch 221, weight, value: tensor([[-0.2217,  0.0813, -0.0978,  ..., -0.0261, -0.1555, -0.1405],
+        [ 0.0099,  0.0891, -0.1175,  ..., -0.1078, -0.0401,  0.0954],
+        [ 0.0511, -0.1161, -0.1118,  ...,  0.0025, -0.0509, -0.0799],
+        ...,
+        [ 0.0833, -0.0215,  0.1222,  ...,  0.0611,  0.1619, -0.0014],
+        [ 0.1032, -0.1637, -0.1223,  ..., -0.2037, -0.0534,  0.1718],
+        [-0.1278,  0.0803,  0.0414,  ..., -0.1845, -0.0935, -0.0321]],
+       device='cuda:0'), grad: tensor([[ 5.0291e-08,  6.1877e-06,  7.5437e-08,  ...,  1.1176e-08,
+          3.0734e-08,  1.5926e-07],
+        [ 5.0571e-07,  3.4478e-06,  1.6931e-06,  ...,  1.8906e-07,
+          4.3400e-07,  1.2098e-06],
+        [-1.8468e-06,  6.2492e-07,  2.6263e-07,  ..., -7.9721e-07,
+         -1.1632e-06,  3.3714e-07],
+        ...,
+        [-1.5842e-06, -1.6298e-07, -4.1239e-06,  ...,  7.3016e-07,
+         -3.3379e-06,  4.8708e-07],
+        [ 4.6566e-08,  1.1809e-06,  5.8580e-07,  ...,  2.2259e-07,
+          6.0536e-08,  3.0175e-07],
+        [ 3.8669e-06,  9.3654e-06,  8.2031e-06,  ...,  5.1409e-07,
+          3.7625e-06,  2.4941e-06]], device='cuda:0')
+Epoch 221, bias, value: tensor([-0.0090, -0.0221, -0.0052, -0.0158, -0.0077,  0.0009,  0.0089,  0.0219,
+         0.0200, -0.0094], device='cuda:0'), grad: tensor([ 1.6138e-05,  9.0301e-06, -1.9558e-06, -1.6108e-05,  8.7470e-06,
+        -2.1793e-07, -4.4733e-05, -2.6301e-06,  3.4086e-06,  2.8327e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 220, time 214.93, cls_loss 0.0012 cls_loss_mapping 0.0026 cls_loss_causal 0.4853 re_mapping 0.0055 re_causal 0.0170 /// teacc 99.01 lr 0.00010000
+Epoch 222, weight, value: tensor([[-0.2220,  0.0816, -0.0984,  ..., -0.0266, -0.1558, -0.1408],
+        [ 0.0100,  0.0894, -0.1175,  ..., -0.1079, -0.0402,  0.0955],
+        [ 0.0511, -0.1161, -0.1122,  ...,  0.0023, -0.0509, -0.0799],
+        ...,
+        [ 0.0834, -0.0218,  0.1224,  ...,  0.0612,  0.1621, -0.0015],
+        [ 0.1032, -0.1645, -0.1225,  ..., -0.2040, -0.0535,  0.1718],
+        [-0.1287,  0.0800,  0.0415,  ..., -0.1850, -0.0939, -0.0329]],
+       device='cuda:0'), grad: tensor([[ 5.3085e-08,  3.4459e-08,  1.3970e-08,  ...,  3.4459e-08,
+          3.0734e-08,  2.1420e-08],
+        [-5.5879e-09, -9.2667e-07,  2.2817e-07,  ...,  1.0338e-07,
+          1.7602e-07, -2.5686e-06],
+        [ 2.6915e-07,  4.7497e-08,  3.5483e-07,  ..., -7.0781e-08,
+          6.3330e-08,  9.8720e-08],
+        ...,
+        [-1.7174e-06,  3.4925e-07, -1.3728e-06,  ..., -5.6066e-07,
+         -1.0319e-06,  7.0781e-07],
+        [ 7.5437e-08,  4.0699e-07,  1.8813e-07,  ...,  2.0675e-07,
+          2.8033e-07,  7.0315e-07],
+        [ 3.1944e-07,  1.7108e-06,  1.4435e-07,  ...,  4.2841e-08,
+          1.7881e-07,  3.2037e-07]], device='cuda:0')
+Epoch 222, bias, value: tensor([-0.0088, -0.0220, -0.0052, -0.0160, -0.0077,  0.0005,  0.0096,  0.0219,
+         0.0198, -0.0097], device='cuda:0'), grad: tensor([ 2.6077e-07, -3.1963e-06, -3.5390e-08,  4.7684e-06, -3.6415e-07,
+        -7.0743e-06,  6.5379e-07, -1.3476e-06,  1.7155e-06,  4.6268e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 221, time 214.61, cls_loss 0.0017 cls_loss_mapping 0.0024 cls_loss_causal 0.5264 re_mapping 0.0056 re_causal 0.0169 /// teacc 98.92 lr 0.00010000
+Epoch 223, weight, value: tensor([[-0.2221,  0.0817, -0.0992,  ..., -0.0271, -0.1563, -0.1411],
+        [ 0.0098,  0.0905, -0.1177,  ..., -0.1080, -0.0405,  0.0956],
+        [ 0.0511, -0.1162, -0.1124,  ...,  0.0024, -0.0509, -0.0800],
+        ...,
+        [ 0.0838, -0.0231,  0.1230,  ...,  0.0613,  0.1628, -0.0015],
+        [ 0.1031, -0.1654, -0.1229,  ..., -0.2046, -0.0536,  0.1718],
+        [-0.1331,  0.0796,  0.0401,  ..., -0.1865, -0.0962, -0.0336]],
+       device='cuda:0'), grad: tensor([[ 1.1083e-07,  9.2201e-08,  8.6613e-08,  ...,  1.7695e-08,
+          6.7987e-08,  1.2759e-07],
+        [-2.4045e-04, -2.7275e-04, -3.1978e-05,  ...,  3.1665e-08,
+         -1.6689e-04, -2.5487e-04],
+        [ 5.5600e-07,  1.5274e-07,  4.0792e-07,  ...,  8.0094e-08,
+          4.2096e-07,  3.9861e-07],
+        ...,
+        [ 1.5306e-04,  1.7488e-04,  1.9267e-05,  ..., -3.2783e-07,
+          1.0568e-04,  1.6415e-04],
+        [ 3.6675e-06,  3.4068e-06,  1.1148e-06,  ...,  1.0245e-07,
+          1.8626e-06,  4.6790e-06],
+        [ 7.8797e-05,  8.9884e-05,  9.9242e-06,  ...,  1.7602e-07,
+          5.5909e-05,  8.1658e-05]], device='cuda:0')
+Epoch 223, bias, value: tensor([-0.0087, -0.0220, -0.0053, -0.0166, -0.0073,  0.0009,  0.0098,  0.0221,
+         0.0195, -0.0105], device='cuda:0'), grad: tensor([ 3.9302e-07, -6.8665e-04,  1.2266e-06,  9.3319e-07,  9.3132e-06,
+         5.9418e-07,  9.1642e-07,  4.3941e-04,  1.1913e-05,  2.2221e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 222, time 214.74, cls_loss 0.0017 cls_loss_mapping 0.0031 cls_loss_causal 0.5709 re_mapping 0.0057 re_causal 0.0172 /// teacc 98.98 lr 0.00010000
+Epoch 224, weight, value: tensor([[-0.2226,  0.0817, -0.1009,  ..., -0.0272, -0.1571, -0.1421],
+        [ 0.0100,  0.0914, -0.1177,  ..., -0.1081, -0.0405,  0.0960],
+        [ 0.0511, -0.1163, -0.1128,  ...,  0.0022, -0.0510, -0.0800],
+        ...,
+        [ 0.0839, -0.0239,  0.1232,  ...,  0.0614,  0.1629, -0.0016],
+        [ 0.1030, -0.1681, -0.1232,  ..., -0.2049, -0.0535,  0.1713],
+        [-0.1345,  0.0780,  0.0400,  ..., -0.1874, -0.0968, -0.0374]],
+       device='cuda:0'), grad: tensor([[ 8.9407e-08, -2.7101e-06,  2.4214e-08,  ...,  2.7940e-09,
+          1.5832e-08,  2.6636e-07],
+        [-1.0855e-05, -1.9282e-05,  3.1665e-08,  ...,  9.3132e-09,
+         -1.3849e-06, -3.2455e-05],
+        [ 7.4599e-07,  9.6858e-07,  1.3690e-07,  ...,  9.3132e-10,
+          2.4308e-07,  2.2333e-06],
+        ...,
+        [ 3.0249e-06,  6.8024e-06, -4.5076e-07,  ..., -8.1956e-08,
+          1.1921e-07,  1.0654e-05],
+        [ 2.5965e-06,  2.2016e-06,  1.8626e-07,  ...,  9.3132e-09,
+          5.1782e-07,  7.5325e-06],
+        [ 2.9616e-06,  7.2569e-06, -9.7696e-07,  ...,  4.7497e-08,
+          2.2165e-07,  7.6592e-06]], device='cuda:0')
+Epoch 224, bias, value: tensor([-0.0089, -0.0218, -0.0053, -0.0179, -0.0044,  0.0022,  0.0094,  0.0221,
+         0.0188, -0.0122], device='cuda:0'), grad: tensor([-9.5367e-06, -6.8724e-05,  5.7183e-06,  1.5134e-06,  9.3728e-06,
+         1.6345e-06,  2.9989e-06,  2.2694e-05,  1.4454e-05,  1.9848e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 223, time 214.79, cls_loss 0.0015 cls_loss_mapping 0.0033 cls_loss_causal 0.5010 re_mapping 0.0059 re_causal 0.0166 /// teacc 98.99 lr 0.00010000
+Epoch 225, weight, value: tensor([[-0.2230,  0.0818, -0.1019,  ..., -0.0266, -0.1574, -0.1424],
+        [ 0.0100,  0.0920, -0.1176,  ..., -0.1083, -0.0405,  0.0961],
+        [ 0.0511, -0.1163, -0.1131,  ...,  0.0023, -0.0509, -0.0801],
+        ...,
+        [ 0.0840, -0.0250,  0.1232,  ...,  0.0616,  0.1630, -0.0017],
+        [ 0.1029, -0.1703, -0.1234,  ..., -0.2053, -0.0536,  0.1713],
+        [-0.1352,  0.0780,  0.0405,  ..., -0.1893, -0.0972, -0.0377]],
+       device='cuda:0'), grad: tensor([[ 8.2888e-08, -2.1048e-07,  1.9930e-07,  ...,  2.5146e-08,
+          7.5437e-08,  2.5146e-08],
+        [ 2.3818e-04,  2.5611e-07,  6.0815e-07,  ...,  2.8944e-04,
+          7.7772e-04, -3.7253e-09],
+        [-2.3901e-04,  9.3132e-08,  8.3074e-07,  ..., -2.9159e-04,
+         -7.8106e-04,  4.9360e-08],
+        ...,
+        [-2.9672e-06,  3.3993e-07, -5.3309e-06,  ...,  8.2888e-08,
+         -1.4454e-06,  1.1176e-08],
+        [ 9.6951e-07,  3.4347e-06,  4.0084e-06,  ...,  2.5891e-07,
+          6.6590e-07,  6.7241e-07],
+        [ 1.4231e-06, -2.1145e-05, -1.4864e-05,  ...,  9.4995e-07,
+          2.9039e-06, -2.1327e-06]], device='cuda:0')
+Epoch 225, bias, value: tensor([-0.0087, -0.0217, -0.0053, -0.0179, -0.0046,  0.0028,  0.0096,  0.0220,
+         0.0179, -0.0122], device='cuda:0'), grad: tensor([ 3.1013e-07,  2.1572e-03, -2.1706e-03,  7.9256e-07,  4.2081e-05,
+         2.9430e-06,  3.1851e-07,  1.9968e-06,  9.8050e-06, -4.7296e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 224, time 214.77, cls_loss 0.0015 cls_loss_mapping 0.0032 cls_loss_causal 0.5142 re_mapping 0.0055 re_causal 0.0168 /// teacc 98.95 lr 0.00010000
+Epoch 226, weight, value: tensor([[-0.2233,  0.0819, -0.1030,  ..., -0.0265, -0.1581, -0.1425],
+        [ 0.0099,  0.0921, -0.1177,  ..., -0.1095, -0.0409,  0.0962],
+        [ 0.0513, -0.1163, -0.1131,  ...,  0.0031, -0.0503, -0.0801],
+        ...,
+        [ 0.0840, -0.0253,  0.1235,  ...,  0.0616,  0.1630, -0.0018],
+        [ 0.1031, -0.1708, -0.1235,  ..., -0.2057, -0.0535,  0.1717],
+        [-0.1360,  0.0788,  0.0410,  ..., -0.1909, -0.0975, -0.0368]],
+       device='cuda:0'), grad: tensor([[ 2.2352e-08, -6.4708e-06,  2.0582e-07,  ..., -8.5682e-08,
+          1.2107e-08,  8.8476e-08],
+        [ 1.0338e-07,  6.9011e-07,  4.5355e-07,  ...,  4.7497e-08,
+          5.2154e-08,  2.7381e-07],
+        [-9.6671e-07,  9.2387e-07,  1.4435e-07,  ..., -1.0766e-06,
+         -9.2480e-07,  1.4249e-07],
+        ...,
+        [ 9.2853e-07,  1.0924e-06,  1.4231e-06,  ...,  9.7323e-07,
+          8.1025e-07,  4.9174e-07],
+        [-5.4017e-07,  2.6431e-06,  3.4850e-06,  ..., -3.5390e-08,
+          4.0978e-08,  1.3225e-07],
+        [-3.1069e-06, -9.4116e-05, -1.1408e-04,  ...,  7.0781e-08,
+         -1.0710e-07, -4.8190e-05]], device='cuda:0')
+Epoch 226, bias, value: tensor([-0.0087, -0.0219, -0.0050, -0.0179, -0.0060,  0.0034,  0.0091,  0.0220,
+         0.0177, -0.0112], device='cuda:0'), grad: tensor([-1.1533e-05,  2.0973e-06,  9.5740e-06,  1.4370e-06,  3.0971e-04,
+         1.9297e-06,  8.2105e-06,  6.3777e-06,  8.2031e-06, -3.3593e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 225, time 214.61, cls_loss 0.0015 cls_loss_mapping 0.0025 cls_loss_causal 0.5101 re_mapping 0.0054 re_causal 0.0163 /// teacc 98.96 lr 0.00010000
+Epoch 227, weight, value: tensor([[-0.2237,  0.0820, -0.1037,  ..., -0.0266, -0.1585, -0.1427],
+        [ 0.0098,  0.0927, -0.1177,  ..., -0.1098, -0.0410,  0.0964],
+        [ 0.0512, -0.1164, -0.1137,  ...,  0.0029, -0.0504, -0.0802],
+        ...,
+        [ 0.0842, -0.0266,  0.1237,  ...,  0.0619,  0.1634, -0.0019],
+        [ 0.1032, -0.1712, -0.1237,  ..., -0.2059, -0.0536,  0.1718],
+        [-0.1364,  0.0794,  0.0426,  ..., -0.1915, -0.0977, -0.0354]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09, -1.2107e-08,  8.0094e-08,  ...,  4.7497e-08,
+          1.8626e-09,  1.8626e-09],
+        [ 3.4459e-08, -4.6566e-08,  9.9652e-08,  ...,  1.0151e-07,
+          3.6322e-08, -1.0431e-07],
+        [-3.7011e-06,  1.8626e-08, -1.0245e-07,  ..., -3.8370e-06,
+         -3.5334e-06,  1.4901e-08],
+        ...,
+        [ 3.6526e-06,  5.6811e-08,  5.4203e-07,  ...,  4.2170e-06,
+          3.4589e-06,  8.7544e-08],
+        [-4.5635e-08,  1.8533e-07,  2.5984e-07,  ...,  6.7055e-08,
+         -2.7940e-09, -5.5879e-08],
+        [ 7.4506e-09,  5.9605e-08,  5.5879e-09,  ...,  2.6636e-07,
+          6.5193e-09,  1.0245e-08]], device='cuda:0')
+Epoch 227, bias, value: tensor([-0.0087, -0.0219, -0.0050, -0.0180, -0.0070,  0.0032,  0.0094,  0.0220,
+         0.0177, -0.0104], device='cuda:0'), grad: tensor([ 5.2154e-08,  4.1910e-08, -7.8008e-06, -2.2631e-07,  2.7940e-07,
+        -2.1495e-06,  4.2841e-07,  8.7321e-06,  6.7987e-07, -6.7987e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 226, time 214.84, cls_loss 0.0014 cls_loss_mapping 0.0033 cls_loss_causal 0.5069 re_mapping 0.0054 re_causal 0.0168 /// teacc 98.93 lr 0.00010000
+Epoch 228, weight, value: tensor([[-0.2241,  0.0820, -0.1051,  ..., -0.0268, -0.1590, -0.1431],
+        [ 0.0099,  0.0930, -0.1171,  ..., -0.1095, -0.0408,  0.0965],
+        [ 0.0510, -0.1165, -0.1142,  ...,  0.0029, -0.0506, -0.0803],
+        ...,
+        [ 0.0842, -0.0269,  0.1234,  ...,  0.0619,  0.1634, -0.0020],
+        [ 0.1033, -0.1721, -0.1238,  ..., -0.2061, -0.0536,  0.1721],
+        [-0.1373,  0.0793,  0.0427,  ..., -0.1929, -0.0982, -0.0357]],
+       device='cuda:0'), grad: tensor([[ 1.0803e-07, -1.8161e-07, -1.3970e-08,  ..., -1.7695e-08,
+          6.7987e-08,  2.0489e-08],
+        [ 4.2655e-07,  1.1837e-06,  2.0489e-08,  ...,  2.8871e-08,
+          2.2352e-08,  1.6699e-06],
+        [-5.2806e-07,  2.6636e-07, -6.1467e-08,  ..., -5.5134e-07,
+         -4.7870e-07,  1.0245e-08],
+        ...,
+        [ 5.1036e-07,  7.0501e-07, -7.4506e-09,  ...,  3.9395e-07,
+          3.0547e-07,  8.4657e-07],
+        [ 4.6473e-07,  3.0976e-06,  4.0978e-08,  ...,  9.0338e-08,
+          3.5390e-08,  1.6410e-06],
+        [ 4.8988e-07, -7.4916e-06, -1.3830e-06,  ...,  5.6811e-08,
+          1.3970e-08,  2.0284e-06]], device='cuda:0')
+Epoch 228, bias, value: tensor([-0.0088, -0.0216, -0.0051, -0.0164, -0.0070,  0.0019,  0.0095,  0.0218,
+         0.0175, -0.0104], device='cuda:0'), grad: tensor([ 1.1623e-06,  3.7849e-06, -8.7544e-07,  1.9800e-06,  2.1383e-05,
+        -1.4722e-05,  2.9244e-06,  3.3900e-06,  1.0036e-05, -2.9162e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 227, time 214.94, cls_loss 0.0018 cls_loss_mapping 0.0033 cls_loss_causal 0.5029 re_mapping 0.0056 re_causal 0.0157 /// teacc 98.94 lr 0.00010000
+Epoch 229, weight, value: tensor([[-0.2250,  0.0821, -0.1060,  ..., -0.0277, -0.1596, -0.1435],
+        [ 0.0100,  0.0937, -0.1172,  ..., -0.1097, -0.0409,  0.0968],
+        [ 0.0511, -0.1166, -0.1147,  ...,  0.0030, -0.0506, -0.0803],
+        ...,
+        [ 0.0843, -0.0283,  0.1237,  ...,  0.0621,  0.1636, -0.0023],
+        [ 0.1031, -0.1733, -0.1240,  ..., -0.2068, -0.0537,  0.1723],
+        [-0.1384,  0.0792,  0.0427,  ..., -0.1942, -0.0986, -0.0362]],
+       device='cuda:0'), grad: tensor([[ 1.9558e-08,  1.6112e-07,  1.8813e-07,  ...,  3.9116e-08,
+          3.5390e-08,  2.2352e-08],
+        [ 3.4459e-08,  1.5367e-07,  1.4529e-07,  ...,  2.7940e-08,
+          2.0489e-08,  3.6322e-08],
+        [-8.8476e-08,  4.0978e-08, -3.4459e-08,  ..., -2.5891e-07,
+         -2.5053e-07,  2.1420e-08],
+        ...,
+        [-2.0489e-08,  3.1851e-07,  1.7975e-07,  ...,  6.0536e-08,
+          5.0291e-08,  7.6368e-08],
+        [-1.9576e-06, -8.7451e-07,  3.4925e-07,  ...,  4.0978e-08,
+          2.8871e-08, -6.1095e-06],
+        [-4.6194e-07, -1.8001e-05, -1.5959e-05,  ...,  1.3970e-08,
+          5.5879e-09, -3.4925e-06]], device='cuda:0')
+Epoch 229, bias, value: tensor([-0.0089, -0.0215, -0.0051, -0.0162, -0.0069,  0.0019,  0.0096,  0.0218,
+         0.0170, -0.0106], device='cuda:0'), grad: tensor([ 6.2771e-07,  5.1036e-07, -7.5344e-07,  1.3068e-05,  4.2230e-05,
+        -2.6226e-05,  2.7090e-05,  1.0040e-06, -1.3314e-05, -4.4316e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 228, time 214.98, cls_loss 0.0015 cls_loss_mapping 0.0020 cls_loss_causal 0.5078 re_mapping 0.0055 re_causal 0.0166 /// teacc 98.99 lr 0.00010000
+Epoch 230, weight, value: tensor([[-0.2257,  0.0822, -0.1034,  ..., -0.0270, -0.1599, -0.1445],
+        [ 0.0101,  0.0943, -0.1169,  ..., -0.1097, -0.0408,  0.0971],
+        [ 0.0512, -0.1168, -0.1153,  ...,  0.0028, -0.0506, -0.0804],
+        ...,
+        [ 0.0842, -0.0295,  0.1234,  ...,  0.0619,  0.1637, -0.0025],
+        [ 0.1031, -0.1731, -0.1242,  ..., -0.2072, -0.0537,  0.1725],
+        [-0.1392,  0.0789,  0.0423,  ..., -0.1959, -0.0989, -0.0368]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09, -4.4517e-07,  2.7940e-09,  ...,  1.2107e-08,
+          1.3970e-09, -0.0000e+00],
+        [ 7.9162e-09, -6.1933e-08,  5.5879e-08,  ...,  3.0268e-08,
+          3.4459e-08, -2.5099e-07],
+        [ 4.0513e-08,  7.7300e-08,  6.9849e-08,  ..., -9.8255e-08,
+          5.1223e-08,  6.5658e-08],
+        ...,
+        [-1.7090e-07,  8.1491e-08, -2.0675e-07,  ..., -4.4238e-08,
+         -1.6904e-07,  7.3109e-08],
+        [ 2.7008e-08,  6.0536e-08,  1.9558e-08,  ...,  4.7497e-08,
+          1.1176e-08,  5.2154e-08],
+        [ 5.9139e-08,  2.0443e-07,  4.4703e-08,  ...,  4.0978e-08,
+          5.1223e-08,  3.0268e-08]], device='cuda:0')
+Epoch 230, bias, value: tensor([-0.0086, -0.0213, -0.0051, -0.0165, -0.0065,  0.0022,  0.0095,  0.0216,
+         0.0170, -0.0111], device='cuda:0'), grad: tensor([-6.8173e-07, -2.3050e-07, -3.2969e-07, -6.5193e-09,  5.8673e-08,
+         3.3295e-07, -2.3982e-07,  1.9092e-08,  4.8988e-07,  5.9651e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 229, time 214.83, cls_loss 0.0013 cls_loss_mapping 0.0026 cls_loss_causal 0.4981 re_mapping 0.0054 re_causal 0.0160 /// teacc 98.94 lr 0.00010000
+Epoch 231, weight, value: tensor([[-0.2256,  0.0829, -0.1025,  ..., -0.0266, -0.1601, -0.1438],
+        [ 0.0105,  0.0943, -0.1168,  ..., -0.1098, -0.0405,  0.0972],
+        [ 0.0506, -0.1168, -0.1165,  ...,  0.0030, -0.0512, -0.0804],
+        ...,
+        [ 0.0845, -0.0298,  0.1240,  ...,  0.0618,  0.1639, -0.0026],
+        [ 0.1030, -0.1737, -0.1245,  ..., -0.2077, -0.0538,  0.1724],
+        [-0.1419,  0.0782,  0.0412,  ..., -0.1967, -0.1003, -0.0372]],
+       device='cuda:0'), grad: tensor([[ 1.5832e-07,  2.4214e-07,  6.5193e-09,  ...,  1.8626e-09,
+          0.0000e+00,  3.1572e-07],
+        [-1.8636e-06, -3.4831e-06,  5.1223e-08,  ...,  2.3283e-08,
+          2.4214e-08, -4.4629e-06],
+        [ 1.0990e-07,  1.4156e-07,  2.6077e-08,  ...,  1.6764e-08,
+          2.7940e-09,  2.1234e-07],
+        ...,
+        [ 1.3420e-06,  2.2724e-06, -3.3528e-08,  ..., -1.2107e-08,
+         -3.6322e-08,  3.0566e-06],
+        [-3.3248e-07,  2.5239e-07,  1.3970e-08,  ...,  5.5879e-09,
+          0.0000e+00, -1.7509e-07],
+        [ 3.4925e-07,  3.5111e-07, -3.2596e-08,  ...,  2.7940e-09,
+          2.7940e-09,  5.9139e-07]], device='cuda:0')
+Epoch 231, bias, value: tensor([-0.0073, -0.0209, -0.0057, -0.0165, -0.0062,  0.0020,  0.0092,  0.0217,
+         0.0167, -0.0119], device='cuda:0'), grad: tensor([ 7.0035e-07, -9.1270e-06,  4.9639e-07, -3.3434e-07,  1.1269e-07,
+         3.3900e-07,  5.1595e-07,  6.3553e-06, -4.2375e-07,  1.3439e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 230, time 214.63, cls_loss 0.0013 cls_loss_mapping 0.0030 cls_loss_causal 0.5261 re_mapping 0.0058 re_causal 0.0175 /// teacc 98.91 lr 0.00010000
+Epoch 232, weight, value: tensor([[-0.2263,  0.0829, -0.1034,  ..., -0.0270, -0.1608, -0.1444],
+        [ 0.0105,  0.0945, -0.1169,  ..., -0.1104, -0.0406,  0.0973],
+        [ 0.0508, -0.1169, -0.1168,  ...,  0.0032, -0.0511, -0.0803],
+        ...,
+        [ 0.0834, -0.0298,  0.1237,  ...,  0.0616,  0.1634, -0.0033],
+        [ 0.1053, -0.1757, -0.1227,  ..., -0.2065, -0.0516,  0.1746],
+        [-0.1421,  0.0783,  0.0413,  ..., -0.1971, -0.1005, -0.0371]],
+       device='cuda:0'), grad: tensor([[ 7.9162e-08,  3.5375e-05,  6.8009e-05,  ...,  1.0245e-08,
+          7.4506e-09,  1.0896e-07],
+        [-1.9574e-04, -1.8189e-06, -9.6142e-05,  ...,  2.0489e-08,
+         -2.0459e-05, -2.2566e-04],
+        [ 4.7963e-07,  7.4133e-07,  1.6689e-06,  ...,  2.3749e-07,
+          5.1223e-08,  6.7614e-07],
+        ...,
+        [ 1.9217e-04,  1.4678e-06,  9.5606e-05,  ..., -5.5879e-09,
+          2.0102e-05,  2.2066e-04],
+        [ 1.2731e-06,  5.6066e-07,  1.3430e-06,  ...,  1.6764e-08,
+          1.2945e-07,  1.5879e-06],
+        [ 5.6438e-07, -3.8326e-05, -7.3671e-05,  ...,  1.1176e-08,
+          5.7742e-08,  7.7952e-07]], device='cuda:0')
+Epoch 232, bias, value: tensor([-0.0074, -0.0209, -0.0056, -0.0165, -0.0062,  0.0021,  0.0092,  0.0213,
+         0.0178, -0.0118], device='cuda:0'), grad: tensor([ 1.5020e-04, -6.4516e-04,  5.1931e-06,  2.6822e-06,  3.9451e-06,
+         1.1371e-06,  2.5909e-06,  6.3324e-04,  6.3814e-06, -1.6069e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 231, time 214.41, cls_loss 0.0019 cls_loss_mapping 0.0034 cls_loss_causal 0.4781 re_mapping 0.0059 re_causal 0.0159 /// teacc 98.93 lr 0.00010000
+Epoch 233, weight, value: tensor([[-0.2269,  0.0828, -0.1055,  ..., -0.0270, -0.1614, -0.1449],
+        [ 0.0106,  0.0946, -0.1169,  ..., -0.1105, -0.0406,  0.0975],
+        [ 0.0508, -0.1170, -0.1172,  ...,  0.0031, -0.0511, -0.0804],
+        ...,
+        [ 0.0835, -0.0296,  0.1242,  ...,  0.0616,  0.1637, -0.0034],
+        [ 0.1053, -0.1765, -0.1229,  ..., -0.2068, -0.0517,  0.1749],
+        [-0.1438,  0.0782,  0.0409,  ..., -0.1979, -0.1020, -0.0381]],
+       device='cuda:0'), grad: tensor([[ 2.9802e-08,  1.3234e-06,  1.5395e-06,  ..., -9.3132e-10,
+          0.0000e+00,  7.0781e-08],
+        [-6.3330e-07, -1.0571e-06,  1.6112e-07,  ...,  1.8626e-09,
+          0.0000e+00, -1.5106e-06],
+        [ 5.6811e-08,  1.6484e-07,  6.9849e-08,  ...,  8.3819e-09,
+          0.0000e+00,  2.0396e-07],
+        ...,
+        [ 8.1956e-08,  4.9639e-07,  2.1979e-07,  ...,  0.0000e+00,
+          0.0000e+00,  4.6100e-07],
+        [-1.0431e-07,  2.9523e-07,  2.7288e-07,  ...,  3.7253e-09,
+          0.0000e+00, -1.6205e-07],
+        [ 5.5879e-09, -3.6415e-06, -4.6305e-06,  ...,  0.0000e+00,
+          0.0000e+00,  7.7300e-08]], device='cuda:0')
+Epoch 233, bias, value: tensor([-0.0077, -0.0208, -0.0056, -0.0167, -0.0061,  0.0025,  0.0097,  0.0213,
+         0.0175, -0.0121], device='cuda:0'), grad: tensor([ 3.4198e-06, -4.0755e-06,  6.1467e-07,  1.8971e-06,  4.5486e-06,
+        -2.2296e-06,  3.2093e-06,  1.5181e-06,  8.6240e-07, -9.8124e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 232, time 214.52, cls_loss 0.0016 cls_loss_mapping 0.0027 cls_loss_causal 0.4863 re_mapping 0.0057 re_causal 0.0161 /// teacc 98.97 lr 0.00010000
+Epoch 234, weight, value: tensor([[-0.2279,  0.0828, -0.1063,  ..., -0.0272, -0.1626, -0.1461],
+        [ 0.0105,  0.0946, -0.1170,  ..., -0.1106, -0.0407,  0.0974],
+        [ 0.0509, -0.1170, -0.1175,  ...,  0.0032, -0.0510, -0.0804],
+        ...,
+        [ 0.0837, -0.0296,  0.1246,  ...,  0.0618,  0.1640, -0.0034],
+        [ 0.1055, -0.1776, -0.1232,  ..., -0.2071, -0.0518,  0.1754],
+        [-0.1449,  0.0782,  0.0406,  ..., -0.1982, -0.1030, -0.0384]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-08,  2.8219e-07,  2.0210e-07,  ...,  2.0489e-08,
+          2.8871e-08,  2.7008e-08],
+        [ 1.9059e-05,  2.7362e-06,  2.9817e-05,  ...,  3.2596e-08,
+          1.9953e-05,  1.4193e-05],
+        [ 9.9465e-07,  8.4843e-07,  1.6754e-06,  ...,  9.8720e-08,
+          1.0198e-06,  7.4971e-07],
+        ...,
+        [-2.4766e-05,  1.8161e-07, -3.8534e-05,  ...,  8.3819e-09,
+         -2.5928e-05, -1.8403e-05],
+        [ 9.6858e-08,  1.8515e-06,  4.0699e-07,  ...,  4.2841e-08,
+          1.2107e-07,  6.7055e-08],
+        [ 4.3474e-06, -4.1313e-06,  6.2101e-06,  ...,  3.4459e-08,
+          4.5411e-06,  3.4589e-06]], device='cuda:0')
+Epoch 234, bias, value: tensor([-0.0078, -0.0208, -0.0056, -0.0172, -0.0060,  0.0025,  0.0105,  0.0213,
+         0.0171, -0.0121], device='cuda:0'), grad: tensor([ 2.7865e-06,  8.7619e-05,  7.2792e-06, -2.1793e-06,  3.2056e-06,
+         5.0664e-06, -5.4240e-05, -5.2691e-05,  1.1973e-05, -8.7321e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 233, time 214.82, cls_loss 0.0015 cls_loss_mapping 0.0026 cls_loss_causal 0.5377 re_mapping 0.0057 re_causal 0.0167 /// teacc 99.01 lr 0.00010000
+Epoch 235, weight, value: tensor([[-0.2284,  0.0829, -0.1069,  ..., -0.0272, -0.1633, -0.1463],
+        [ 0.0105,  0.0946, -0.1170,  ..., -0.1107, -0.0407,  0.0975],
+        [ 0.0509, -0.1172, -0.1179,  ...,  0.0032, -0.0511, -0.0805],
+        ...,
+        [ 0.0837, -0.0299,  0.1247,  ...,  0.0618,  0.1642, -0.0035],
+        [ 0.1056, -0.1779, -0.1233,  ..., -0.2073, -0.0518,  0.1756],
+        [-0.1452,  0.0785,  0.0411,  ..., -0.1984, -0.1032, -0.0384]],
+       device='cuda:0'), grad: tensor([[ 6.8918e-08, -2.9698e-05,  3.5390e-08,  ...,  3.8184e-08,
+          4.6566e-08, -1.5534e-06],
+        [-1.6764e-08,  2.0787e-05,  7.1712e-08,  ...,  4.0978e-08,
+          6.6124e-08,  1.0040e-06],
+        [-2.3209e-06,  5.9120e-06, -5.7556e-07,  ..., -1.4435e-06,
+         -1.9912e-06,  6.8825e-07],
+        ...,
+        [ 9.0618e-07,  3.1199e-06, -6.3423e-07,  ...,  1.2387e-06,
+          9.2853e-07,  1.9483e-06],
+        [ 1.0049e-06,  9.9652e-07,  1.0859e-06,  ...,  1.6019e-07,
+          7.1898e-07,  7.5903e-07],
+        [ 2.4773e-07,  3.5882e-05,  9.8720e-08,  ...,  2.3283e-08,
+          1.7509e-07,  2.3827e-05]], device='cuda:0')
+Epoch 235, bias, value: tensor([-0.0078, -0.0208, -0.0056, -0.0175, -0.0062,  0.0028,  0.0102,  0.0213,
+         0.0170, -0.0118], device='cuda:0'), grad: tensor([-6.7234e-05,  4.9978e-05,  9.8273e-06,  2.3842e-06, -2.7800e-04,
+         7.9628e-07,  3.4459e-06,  2.4274e-05,  7.6033e-06,  2.4700e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 234, time 214.66, cls_loss 0.0014 cls_loss_mapping 0.0017 cls_loss_causal 0.4843 re_mapping 0.0056 re_causal 0.0162 /// teacc 99.01 lr 0.00010000
+Epoch 236, weight, value: tensor([[-0.2291,  0.0831, -0.1075,  ..., -0.0274, -0.1639, -0.1470],
+        [ 0.0109,  0.0952, -0.1166,  ..., -0.1108, -0.0407,  0.0980],
+        [ 0.0510, -0.1172, -0.1182,  ...,  0.0033, -0.0510, -0.0806],
+        ...,
+        [ 0.0833, -0.0317,  0.1244,  ...,  0.0617,  0.1641, -0.0039],
+        [ 0.1056, -0.1787, -0.1236,  ..., -0.2077, -0.0518,  0.1758],
+        [-0.1449,  0.0788,  0.0417,  ..., -0.1990, -0.1033, -0.0388]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09, -1.0142e-06, -2.7847e-07,  ..., -3.9767e-07,
+          7.4506e-09, -1.3206e-06],
+        [ 4.8429e-08,  5.8860e-07,  1.5553e-07,  ...,  1.7509e-07,
+          8.7544e-08,  4.0513e-07],
+        [ 3.0734e-08,  1.9465e-07,  1.3504e-07,  ...,  5.1223e-08,
+          3.7253e-08,  1.3225e-07],
+        ...,
+        [-1.4529e-07,  4.3679e-07, -1.6671e-07,  ...,  4.6566e-09,
+         -2.1607e-07,  3.2969e-07],
+        [ 1.0245e-08,  3.6135e-07,  9.4064e-08,  ...,  7.3574e-08,
+          1.3039e-08,  2.2445e-07],
+        [ 3.2596e-08,  1.6298e-07, -5.9605e-08,  ...,  5.4017e-08,
+          4.4703e-08,  1.4994e-07]], device='cuda:0')
+Epoch 236, bias, value: tensor([-0.0076, -0.0206, -0.0055, -0.0175, -0.0061,  0.0029,  0.0099,  0.0208,
+         0.0169, -0.0116], device='cuda:0'), grad: tensor([ 4.2245e-06,  1.9632e-06,  6.8545e-07,  1.1083e-07,  2.1420e-07,
+         3.6228e-07, -1.0267e-05,  8.6054e-07,  1.3253e-06,  5.0385e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 235, time 214.93, cls_loss 0.0019 cls_loss_mapping 0.0025 cls_loss_causal 0.5347 re_mapping 0.0055 re_causal 0.0163 /// teacc 99.00 lr 0.00010000
+Epoch 237, weight, value: tensor([[-0.2295,  0.0831, -0.1084,  ..., -0.0275, -0.1647, -0.1473],
+        [ 0.0110,  0.0962, -0.1163,  ..., -0.1095, -0.0407,  0.0989],
+        [ 0.0509, -0.1173, -0.1193,  ...,  0.0026, -0.0511, -0.0810],
+        ...,
+        [ 0.0834, -0.0326,  0.1243,  ...,  0.0617,  0.1643, -0.0043],
+        [ 0.1057, -0.1791, -0.1239,  ..., -0.2081, -0.0519,  0.1762],
+        [-0.1451,  0.0788,  0.0423,  ..., -0.1997, -0.1035, -0.0396]],
+       device='cuda:0'), grad: tensor([[ 2.1420e-07, -9.3132e-10,  8.0187e-07,  ...,  5.2340e-07,
+          2.8964e-07,  2.5053e-07],
+        [ 1.2904e-05,  1.0207e-05,  1.7866e-05,  ...,  7.9572e-06,
+          1.7539e-05,  1.1511e-05],
+        [ 3.7625e-07,  7.0129e-07,  2.6207e-06,  ...,  1.8310e-06,
+          6.1188e-07,  6.7987e-07],
+        ...,
+        [-1.5751e-05, -1.2271e-05, -2.1592e-05,  ..., -9.4175e-06,
+         -2.1279e-05, -1.3970e-05],
+        [ 2.8033e-07,  2.2631e-07,  5.0105e-07,  ...,  2.9802e-07,
+          2.9616e-07,  9.3132e-08],
+        [ 5.6904e-07,  4.5169e-07,  8.5309e-07,  ...,  3.9116e-07,
+          7.0222e-07,  5.0943e-07]], device='cuda:0')
+Epoch 237, bias, value: tensor([-0.0075, -0.0200, -0.0057, -0.0190, -0.0064,  0.0025,  0.0106,  0.0205,
+         0.0167, -0.0111], device='cuda:0'), grad: tensor([ 1.1884e-06,  3.9846e-05,  6.1914e-06, -7.5586e-06,  2.0936e-06,
+         1.9018e-06,  3.8370e-07, -4.7982e-05,  1.7546e-06,  2.1495e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 236, time 214.70, cls_loss 0.0016 cls_loss_mapping 0.0025 cls_loss_causal 0.5087 re_mapping 0.0055 re_causal 0.0163 /// teacc 98.97 lr 0.00010000
+Epoch 238, weight, value: tensor([[-0.2301,  0.0832, -0.1088,  ..., -0.0268, -0.1656, -0.1467],
+        [ 0.0109,  0.0962, -0.1163,  ..., -0.1098, -0.0408,  0.0990],
+        [ 0.0510, -0.1174, -0.1196,  ...,  0.0027, -0.0511, -0.0811],
+        ...,
+        [ 0.0835, -0.0328,  0.1242,  ...,  0.0614,  0.1644, -0.0044],
+        [ 0.1057, -0.1796, -0.1240,  ..., -0.2095, -0.0519,  0.1766],
+        [-0.1455,  0.0786,  0.0421,  ..., -0.2007, -0.1037, -0.0395]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09, -3.2131e-07,  2.6077e-08,  ...,  2.8871e-08,
+          2.7940e-09,  7.2643e-08],
+        [ 4.8429e-08,  4.5635e-08,  1.2759e-07,  ...,  7.5437e-08,
+          2.0489e-08,  7.0781e-08],
+        [ 1.3970e-07,  3.5390e-08,  2.8033e-07,  ...,  1.9837e-07,
+          5.6811e-08, -4.2003e-07],
+        ...,
+        [-5.2247e-07,  1.4622e-07, -2.0768e-07,  ..., -1.5274e-07,
+         -2.0582e-07,  1.3877e-07],
+        [ 9.4064e-08,  1.0617e-07,  4.2375e-07,  ...,  2.3842e-07,
+          3.5390e-08, -2.8126e-07],
+        [ 5.2154e-08,  6.3982e-07,  2.3376e-07,  ...,  4.3772e-08,
+          1.8626e-08,  6.5472e-07]], device='cuda:0')
+Epoch 238, bias, value: tensor([-0.0075, -0.0200, -0.0058, -0.0191, -0.0059,  0.0033,  0.0105,  0.0204,
+         0.0168, -0.0116], device='cuda:0'), grad: tensor([-2.4121e-07,  6.3609e-07, -1.1958e-06,  3.4086e-06, -2.1383e-06,
+        -4.5635e-06,  9.1828e-07,  6.3330e-08,  6.3144e-07,  2.4475e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 237, time 214.88, cls_loss 0.0013 cls_loss_mapping 0.0030 cls_loss_causal 0.5114 re_mapping 0.0055 re_causal 0.0165 /// teacc 99.00 lr 0.00010000
+Epoch 239, weight, value: tensor([[-0.2308,  0.0829, -0.1093,  ..., -0.0270, -0.1661, -0.1471],
+        [ 0.0110,  0.0963, -0.1161,  ..., -0.1096, -0.0407,  0.0992],
+        [ 0.0509, -0.1175, -0.1202,  ...,  0.0025, -0.0511, -0.0813],
+        ...,
+        [ 0.0835, -0.0331,  0.1240,  ...,  0.0615,  0.1645, -0.0045],
+        [ 0.1060, -0.1792, -0.1241,  ..., -0.2097, -0.0519,  0.1778],
+        [-0.1458,  0.0788,  0.0423,  ..., -0.2012, -0.1038, -0.0397]],
+       device='cuda:0'), grad: tensor([[ 2.2352e-07,  1.2107e-08,  3.1665e-08,  ...,  4.7497e-08,
+          6.5193e-09,  1.3039e-08],
+        [ 1.0906e-06,  3.4459e-08,  1.2200e-07,  ...,  1.2768e-06,
+          1.3746e-06, -1.1176e-08],
+        [-1.6950e-07,  1.5832e-08,  3.4645e-07,  ..., -3.1330e-06,
+         -1.4137e-06,  1.6298e-07],
+        ...,
+        [-2.6330e-05,  2.0582e-07, -2.5686e-06,  ...,  1.2480e-07,
+         -4.6566e-09,  9.2201e-08],
+        [ 2.0061e-06,  2.7008e-08,  2.4214e-08,  ...,  1.5851e-06,
+          9.3132e-09, -3.9395e-07],
+        [ 2.4028e-07, -1.0123e-06, -1.5413e-06,  ...,  5.5879e-09,
+          6.5193e-09,  1.3039e-07]], device='cuda:0')
+Epoch 239, bias, value: tensor([-0.0079, -0.0198, -0.0059, -0.0182, -0.0058,  0.0023,  0.0094,  0.0202,
+         0.0178, -0.0115], device='cuda:0'), grad: tensor([ 8.2236e-07,  5.4054e-06,  4.9733e-07,  1.7053e-06,  8.0764e-05,
+         4.6678e-06,  3.8464e-07, -9.8884e-05,  5.8450e-06, -1.1576e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 238, time 214.98, cls_loss 0.0013 cls_loss_mapping 0.0029 cls_loss_causal 0.4805 re_mapping 0.0056 re_causal 0.0157 /// teacc 98.89 lr 0.00010000
+Epoch 240, weight, value: tensor([[-0.2320,  0.0828, -0.1105,  ..., -0.0274, -0.1672, -0.1476],
+        [ 0.0112,  0.0970, -0.1160,  ..., -0.1097, -0.0408,  0.0995],
+        [ 0.0508, -0.1176, -0.1210,  ...,  0.0024, -0.0512, -0.0814],
+        ...,
+        [ 0.0835, -0.0344,  0.1240,  ...,  0.0617,  0.1646, -0.0048],
+        [ 0.1060, -0.1798, -0.1243,  ..., -0.2102, -0.0520,  0.1779],
+        [-0.1459,  0.0792,  0.0429,  ..., -0.2019, -0.1038, -0.0397]],
+       device='cuda:0'), grad: tensor([[ 1.2107e-08, -1.2871e-06,  1.3970e-08,  ..., -6.1840e-07,
+          6.5193e-09,  1.8626e-09],
+        [ 7.6368e-08, -6.5193e-09,  1.0524e-07,  ...,  5.3085e-08,
+          6.4261e-08, -4.7497e-08],
+        [-1.3039e-08,  9.3412e-07,  6.7055e-08,  ...,  4.8522e-07,
+          0.0000e+00,  1.9558e-08],
+        ...,
+        [-1.5087e-07,  2.7940e-08, -1.8906e-07,  ..., -4.4703e-08,
+         -1.2852e-07,  1.6764e-08],
+        [-2.5146e-08,  7.7300e-08,  2.8871e-08,  ...,  4.5635e-08,
+          1.3039e-08, -2.5146e-08],
+        [ 2.7940e-08,  2.6170e-07,  3.0734e-08,  ...,  1.2666e-07,
+          2.1420e-08,  5.0291e-08]], device='cuda:0')
+Epoch 240, bias, value: tensor([-0.0081, -0.0196, -0.0059, -0.0181, -0.0061,  0.0020,  0.0098,  0.0200,
+         0.0176, -0.0111], device='cuda:0'), grad: tensor([-5.3793e-06,  1.6578e-07,  3.7998e-06, -2.6077e-07,  5.7742e-08,
+        -8.5589e-07,  1.2703e-06, -1.7975e-07,  3.0175e-07,  1.0766e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 239, time 214.85, cls_loss 0.0015 cls_loss_mapping 0.0024 cls_loss_causal 0.5140 re_mapping 0.0056 re_causal 0.0163 /// teacc 98.93 lr 0.00010000
+Epoch 241, weight, value: tensor([[-0.2328,  0.0829, -0.1110,  ..., -0.0276, -0.1682, -0.1482],
+        [ 0.0104,  0.0979, -0.1167,  ..., -0.1096, -0.0418,  0.0997],
+        [ 0.0506, -0.1177, -0.1219,  ...,  0.0022, -0.0512, -0.0817],
+        ...,
+        [ 0.0845, -0.0358,  0.1249,  ...,  0.0619,  0.1659, -0.0046],
+        [ 0.1060, -0.1804, -0.1245,  ..., -0.2107, -0.0521,  0.1781],
+        [-0.1466,  0.0794,  0.0431,  ..., -0.2027, -0.1041, -0.0400]],
+       device='cuda:0'), grad: tensor([[ 6.0350e-07, -1.9558e-08,  1.2107e-08,  ...,  1.3448e-06,
+          9.6858e-08,  4.6566e-09],
+        [ 1.8626e-07, -9.2201e-08,  1.1828e-07,  ...,  1.1176e-07,
+          2.0675e-07, -2.2911e-07],
+        [-9.0990e-07,  4.0047e-08,  2.7567e-07,  ..., -2.0899e-06,
+         -2.1048e-07,  3.2596e-08],
+        ...,
+        [-3.3248e-07, -4.6566e-09, -6.1560e-07,  ...,  1.1176e-07,
+         -3.5390e-07,  4.0978e-08],
+        [ 6.2399e-08,  1.3877e-07,  1.9185e-07,  ...,  5.6811e-08,
+          2.9802e-08,  1.4901e-08],
+        [ 7.4506e-08, -2.8126e-07, -3.4273e-07,  ...,  1.6764e-08,
+          6.7055e-08,  2.2352e-08]], device='cuda:0')
+Epoch 241, bias, value: tensor([-0.0081, -0.0200, -0.0061, -0.0181, -0.0064,  0.0017,  0.0099,  0.0208,
+         0.0174, -0.0110], device='cuda:0'), grad: tensor([ 5.3160e-06,  2.4680e-07, -7.9423e-06,  1.6233e-06,  6.6683e-07,
+        -1.1921e-07,  4.2282e-07, -2.8126e-07,  6.7241e-07, -6.4541e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 240, time 214.96, cls_loss 0.0012 cls_loss_mapping 0.0025 cls_loss_causal 0.5177 re_mapping 0.0057 re_causal 0.0163 /// teacc 98.93 lr 0.00010000
+Epoch 242, weight, value: tensor([[-0.2341,  0.0829, -0.1117,  ..., -0.0279, -0.1692, -0.1494],
+        [ 0.0104,  0.0980, -0.1168,  ..., -0.1095, -0.0418,  0.0998],
+        [ 0.0505, -0.1178, -0.1224,  ...,  0.0021, -0.0514, -0.0821],
+        ...,
+        [ 0.0846, -0.0361,  0.1250,  ...,  0.0620,  0.1660, -0.0046],
+        [ 0.1060, -0.1810, -0.1247,  ..., -0.2112, -0.0521,  0.1781],
+        [-0.1467,  0.0795,  0.0435,  ..., -0.2034, -0.1041, -0.0402]],
+       device='cuda:0'), grad: tensor([[ 2.8498e-07,  3.2596e-08,  8.3819e-08,  ...,  3.0734e-08,
+          1.8626e-08,  4.2282e-07],
+        [ 7.3574e-08,  7.1712e-08,  9.7789e-08,  ...,  5.9605e-08,
+          5.5879e-08,  4.5635e-08],
+        [ 3.1479e-07,  3.0734e-08,  3.2410e-07,  ...,  1.3411e-07,
+          2.2352e-07,  1.7975e-07],
+        ...,
+        [-3.0454e-07,  2.1234e-07,  8.4564e-07,  ..., -7.8231e-08,
+         -3.7253e-07, -1.0245e-08],
+        [-9.4250e-07,  2.5053e-07,  2.9057e-07,  ...,  4.9360e-08,
+          2.7940e-08, -1.4370e-06],
+        [ 2.0862e-07, -2.6356e-07, -1.8608e-06,  ...,  2.1420e-08,
+          7.4506e-09,  3.1665e-07]], device='cuda:0')
+Epoch 242, bias, value: tensor([-0.0082, -0.0199, -0.0062, -0.0177, -0.0066,  0.0014,  0.0102,  0.0208,
+         0.0171, -0.0109], device='cuda:0'), grad: tensor([ 1.2070e-06,  7.0501e-07,  8.2701e-07,  2.1353e-05,  6.2399e-07,
+        -2.5377e-05,  1.6773e-06,  1.4324e-06, -2.7474e-07, -2.1569e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 241, time 215.05, cls_loss 0.0012 cls_loss_mapping 0.0023 cls_loss_causal 0.5149 re_mapping 0.0052 re_causal 0.0161 /// teacc 98.88 lr 0.00010000
+Epoch 243, weight, value: tensor([[-0.2347,  0.0829, -0.1120,  ..., -0.0283, -0.1700, -0.1495],
+        [ 0.0105,  0.0983, -0.1167,  ..., -0.1095, -0.0418,  0.1001],
+        [ 0.0507, -0.1179, -0.1227,  ...,  0.0023, -0.0513, -0.0822],
+        ...,
+        [ 0.0845, -0.0366,  0.1251,  ...,  0.0621,  0.1661, -0.0048],
+        [ 0.1061, -0.1816, -0.1249,  ..., -0.2114, -0.0522,  0.1782],
+        [-0.1470,  0.0789,  0.0433,  ..., -0.2040, -0.1043, -0.0402]],
+       device='cuda:0'), grad: tensor([[ 5.9605e-08, -1.4957e-06,  1.4715e-07,  ...,  5.4948e-08,
+          6.4261e-08,  4.6566e-09],
+        [ 7.8976e-06, -2.1607e-07,  1.6280e-06,  ...,  4.1053e-06,
+          4.2170e-06, -2.8126e-07],
+        [-7.6517e-06,  2.3283e-08,  1.3374e-06,  ..., -1.8487e-06,
+         -3.6377e-06,  1.2107e-08],
+        ...,
+        [-8.4400e-05,  1.4808e-07, -2.1040e-04,  ..., -1.8847e-04,
+         -7.5102e-05,  1.6671e-07],
+        [ 1.8161e-07,  2.3283e-08,  2.9895e-07,  ...,  2.7195e-07,
+          1.3318e-07,  1.6764e-08],
+        [ 3.6322e-08,  1.4901e-06,  3.2596e-08,  ...,  1.2480e-07,
+          5.0291e-08,  4.4703e-08]], device='cuda:0')
+Epoch 243, bias, value: tensor([-0.0084, -0.0198, -0.0062, -0.0180, -0.0060,  0.0015,  0.0105,  0.0207,
+         0.0168, -0.0113], device='cuda:0'), grad: tensor([-2.4214e-06,  2.6241e-05, -2.5764e-05,  2.9635e-04,  5.7742e-08,
+         4.6473e-07,  2.2165e-07, -2.9826e-04,  7.2177e-07,  2.9225e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 242, time 214.89, cls_loss 0.0013 cls_loss_mapping 0.0029 cls_loss_causal 0.4928 re_mapping 0.0053 re_causal 0.0154 /// teacc 98.92 lr 0.00010000
+Epoch 244, weight, value: tensor([[-0.2357,  0.0831, -0.1124,  ..., -0.0288, -0.1705, -0.1500],
+        [ 0.0105,  0.0982, -0.1167,  ..., -0.1098, -0.0418,  0.1003],
+        [ 0.0507, -0.1182, -0.1230,  ...,  0.0024, -0.0513, -0.0825],
+        ...,
+        [ 0.0846, -0.0373,  0.1252,  ...,  0.0624,  0.1662, -0.0050],
+        [ 0.1062, -0.1821, -0.1249,  ..., -0.2118, -0.0522,  0.1785],
+        [-0.1474,  0.0790,  0.0437,  ..., -0.2055, -0.1044, -0.0403]],
+       device='cuda:0'), grad: tensor([[ 1.5832e-08,  3.2689e-07,  5.2247e-07,  ...,  3.7253e-09,
+          9.3132e-10,  4.5635e-08],
+        [-2.8685e-07, -5.5414e-07,  1.9278e-07,  ...,  6.5193e-09,
+          1.8626e-09, -1.2852e-06],
+        [ 8.6613e-08,  4.1351e-07,  2.1420e-07,  ..., -7.4506e-09,
+         -3.7253e-09,  2.7660e-07],
+        ...,
+        [ 1.2107e-07,  3.7160e-07,  4.6566e-08,  ...,  0.0000e+00,
+         -2.7940e-09,  5.7928e-07],
+        [-5.4296e-07,  2.1514e-07,  2.1793e-07,  ...,  2.1420e-08,
+          1.8626e-09, -3.7719e-07],
+        [ 2.1327e-07, -7.2360e-05, -4.9829e-05,  ...,  9.3132e-10,
+          9.3132e-10, -6.3702e-06]], device='cuda:0')
+Epoch 244, bias, value: tensor([-0.0083, -0.0198, -0.0063, -0.0183, -0.0056,  0.0013,  0.0112,  0.0206,
+         0.0169, -0.0113], device='cuda:0'), grad: tensor([ 1.1977e-06, -2.8517e-06,  1.5153e-06,  2.9922e-05,  6.6124e-07,
+         1.8466e-04,  2.4773e-07,  1.5888e-06, -1.0896e-07, -2.1648e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 243, time 214.86, cls_loss 0.0014 cls_loss_mapping 0.0022 cls_loss_causal 0.5033 re_mapping 0.0052 re_causal 0.0151 /// teacc 99.04 lr 0.00010000
+Epoch 245, weight, value: tensor([[-0.2361,  0.0833, -0.1131,  ..., -0.0290, -0.1711, -0.1503],
+        [ 0.0108,  0.0992, -0.1166,  ..., -0.1101, -0.0417,  0.1007],
+        [ 0.0506, -0.1184, -0.1235,  ...,  0.0024, -0.0514, -0.0828],
+        ...,
+        [ 0.0844, -0.0387,  0.1253,  ...,  0.0626,  0.1662, -0.0054],
+        [ 0.1063, -0.1828, -0.1252,  ..., -0.2125, -0.0522,  0.1787],
+        [-0.1478,  0.0791,  0.0441,  ..., -0.2069, -0.1046, -0.0405]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-08, -1.6391e-07,  7.2643e-08,  ..., -1.4901e-08,
+          0.0000e+00,  4.4703e-08],
+        [ 2.1420e-08,  3.4459e-08,  1.1548e-07,  ...,  5.0291e-08,
+          1.1176e-08, -4.1910e-08],
+        [ 6.5006e-07,  7.0781e-08,  2.1886e-07,  ...,  9.4995e-08,
+          5.5879e-09,  1.1465e-06],
+        ...,
+        [-4.6566e-09,  2.4214e-07,  7.1060e-07,  ...,  2.9709e-07,
+         -3.1665e-08,  3.8184e-08],
+        [-7.1805e-07,  1.6764e-07,  1.5460e-07,  ...,  8.9407e-08,
+          3.7253e-09, -1.2843e-06],
+        [ 2.9802e-08, -3.9116e-07, -1.2759e-06,  ..., -3.4459e-08,
+          5.5879e-09,  8.2888e-08]], device='cuda:0')
+Epoch 245, bias, value: tensor([-0.0081, -0.0195, -0.0065, -0.0180, -0.0056,  0.0008,  0.0114,  0.0203,
+         0.0165, -0.0111], device='cuda:0'), grad: tensor([-4.0978e-08,  2.7940e-07,  2.7623e-06, -7.9628e-07,  2.5984e-07,
+         1.1269e-07, -1.8999e-07,  1.6857e-06, -1.7425e-06, -2.3432e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 244, time 215.04, cls_loss 0.0012 cls_loss_mapping 0.0027 cls_loss_causal 0.4946 re_mapping 0.0053 re_causal 0.0158 /// teacc 99.00 lr 0.00010000
+Epoch 246, weight, value: tensor([[-0.2366,  0.0827, -0.1137,  ..., -0.0289, -0.1720, -0.1502],
+        [ 0.0106,  0.0994, -0.1168,  ..., -0.1104, -0.0418,  0.1009],
+        [ 0.0506, -0.1185, -0.1239,  ...,  0.0024, -0.0514, -0.0830],
+        ...,
+        [ 0.0847, -0.0391,  0.1256,  ...,  0.0629,  0.1665, -0.0054],
+        [ 0.1063, -0.1836, -0.1254,  ..., -0.2132, -0.0522,  0.1788],
+        [-0.1482,  0.0797,  0.0442,  ..., -0.2084, -0.1049, -0.0406]],
+       device='cuda:0'), grad: tensor([[ 1.1176e-08,  1.3970e-08,  4.3772e-08,  ..., -9.3132e-10,
+          9.3132e-09,  1.7323e-07],
+        [-7.1712e-08, -4.0978e-08,  6.6403e-07,  ...,  3.3621e-07,
+          6.5193e-09, -2.7940e-07],
+        [ 2.6077e-08,  3.2317e-07,  3.6322e-08,  ...,  1.7695e-08,
+          7.4506e-09,  4.3865e-07],
+        ...,
+        [-3.8184e-08,  1.5404e-06,  1.9684e-05,  ...,  9.8944e-06,
+         -5.2154e-08,  2.6543e-07],
+        [ 9.3132e-10,  4.3865e-07,  3.8184e-07,  ...,  9.4064e-08,
+          9.3132e-10,  1.7975e-07],
+        [ 2.2352e-08,  1.9949e-06,  3.9302e-07,  ...,  4.0885e-07,
+          1.8626e-08,  3.3695e-06]], device='cuda:0')
+Epoch 246, bias, value: tensor([-0.0087, -0.0195, -0.0065, -0.0182, -0.0058,  0.0005,  0.0120,  0.0204,
+         0.0162, -0.0108], device='cuda:0'), grad: tensor([ 3.6508e-07,  5.7649e-07,  1.2573e-06, -1.8939e-05, -1.1653e-05,
+        -1.7703e-05,  9.0431e-07,  3.4600e-05,  1.6810e-06,  8.8811e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 245, time 215.00, cls_loss 0.0016 cls_loss_mapping 0.0027 cls_loss_causal 0.4881 re_mapping 0.0055 re_causal 0.0152 /// teacc 98.97 lr 0.00010000
+Epoch 247, weight, value: tensor([[-2.3726e-01,  8.2839e-02, -1.1469e-01,  ..., -2.9012e-02,
+         -1.7283e-01, -1.5050e-01],
+        [ 1.0028e-02,  9.9441e-02, -1.1733e-01,  ..., -1.1276e-01,
+         -4.2461e-02,  1.0092e-01],
+        [ 4.8989e-02, -1.1864e-01, -1.2695e-01,  ...,  1.2988e-04,
+         -5.3391e-02, -8.3037e-02],
+        ...,
+        [ 8.6123e-02, -3.9210e-02,  1.2717e-01,  ...,  6.5527e-02,
+          1.6855e-01, -5.4687e-03],
+        [ 1.0614e-01, -1.8428e-01, -1.2573e-01,  ..., -2.1414e-01,
+         -5.2315e-02,  1.7866e-01],
+        [-1.4929e-01,  7.9187e-02,  4.3832e-02,  ..., -2.1112e-01,
+         -1.0573e-01, -4.1084e-02]], device='cuda:0'), grad: tensor([[ 4.0047e-08, -5.7742e-08,  5.3085e-08,  ...,  7.4506e-09,
+          5.4948e-08,  3.7253e-09],
+        [ 1.5367e-07, -8.0094e-08,  3.6694e-07,  ...,  4.9360e-08,
+          2.3842e-07, -1.9651e-07],
+        [ 2.8871e-08,  1.6764e-08,  5.4017e-08,  ...,  1.8626e-09,
+          4.0047e-08,  1.3039e-08],
+        ...,
+        [-3.9488e-06, -1.2293e-07, -7.7039e-06,  ..., -8.1863e-07,
+         -4.8541e-06,  1.3318e-07],
+        [ 4.0792e-07,  3.6322e-08,  8.4378e-07,  ...,  8.2888e-08,
+          4.8708e-07,  9.3132e-09],
+        [ 3.0063e-06,  7.1712e-08,  5.7817e-06,  ...,  6.1188e-07,
+          3.6545e-06,  5.5879e-09]], device='cuda:0')
+Epoch 247, bias, value: tensor([-0.0088, -0.0198, -0.0071, -0.0180, -0.0054,  0.0036,  0.0091,  0.0213,
+         0.0149, -0.0112], device='cuda:0'), grad: tensor([ 4.4703e-08,  9.7789e-08,  1.0151e-07,  2.5146e-07,  6.9104e-07,
+        -8.3353e-07,  8.0746e-07, -1.0453e-05,  1.2591e-06,  8.0168e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 246, time 214.92, cls_loss 0.0015 cls_loss_mapping 0.0023 cls_loss_causal 0.5513 re_mapping 0.0050 re_causal 0.0155 /// teacc 99.00 lr 0.00010000
+Epoch 248, weight, value: tensor([[-0.2386,  0.0829, -0.1154,  ..., -0.0297, -0.1737, -0.1515],
+        [ 0.0107,  0.0992, -0.1163,  ..., -0.1125, -0.0425,  0.1014],
+        [ 0.0491, -0.1187, -0.1270,  ...,  0.0003, -0.0533, -0.0831],
+        ...,
+        [ 0.0855, -0.0394,  0.1263,  ...,  0.0653,  0.1686, -0.0060],
+        [ 0.1064, -0.1846, -0.1259,  ..., -0.2145, -0.0523,  0.1792],
+        [-0.1498,  0.0791,  0.0442,  ..., -0.2120, -0.1061, -0.0414]],
+       device='cuda:0'), grad: tensor([[ 1.3039e-08, -1.5043e-05,  7.8231e-08,  ..., -4.8429e-08,
+          1.2107e-08, -1.1874e-06],
+        [ 1.3560e-06,  1.4976e-05,  5.8636e-06,  ...,  1.2852e-07,
+          1.3690e-07,  8.1807e-06],
+        [ 1.8626e-08,  1.1902e-06,  2.1700e-07,  ...,  4.1910e-08,
+          5.5879e-09,  2.3656e-07],
+        ...,
+        [ 2.8312e-07,  2.5313e-06,  1.8226e-06,  ..., -4.5635e-08,
+         -2.3283e-07,  2.7865e-06],
+        [ 7.6368e-08,  8.2608e-07,  3.0547e-07,  ...,  3.9116e-08,
+          4.6566e-09,  4.3958e-07],
+        [-5.3011e-06, -2.9922e-05, -2.4080e-05,  ...,  8.8476e-08,
+          3.9116e-08, -3.2455e-05]], device='cuda:0')
+Epoch 248, bias, value: tensor([-0.0089, -0.0194, -0.0071, -0.0181, -0.0052,  0.0038,  0.0090,  0.0206,
+         0.0148, -0.0113], device='cuda:0'), grad: tensor([-2.4974e-05,  3.3349e-05,  2.2948e-06, -8.5589e-07,  5.5373e-05,
+        -9.4622e-07,  8.7619e-06,  6.9067e-06,  2.1420e-06, -8.2076e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 247, time 215.16, cls_loss 0.0013 cls_loss_mapping 0.0023 cls_loss_causal 0.4831 re_mapping 0.0051 re_causal 0.0152 /// teacc 99.06 lr 0.00010000
+Epoch 249, weight, value: tensor([[-0.2400,  0.0831, -0.1157,  ..., -0.0302, -0.1743, -0.1519],
+        [ 0.0110,  0.0998, -0.1162,  ..., -0.1127, -0.0423,  0.1017],
+        [ 0.0490, -0.1189, -0.1273,  ...,  0.0004, -0.0534, -0.0834],
+        ...,
+        [ 0.0854, -0.0406,  0.1263,  ...,  0.0657,  0.1686, -0.0063],
+        [ 0.1065, -0.1852, -0.1261,  ..., -0.2155, -0.0524,  0.1794],
+        [-0.1501,  0.0791,  0.0447,  ..., -0.2130, -0.1062, -0.0412]],
+       device='cuda:0'), grad: tensor([[ 1.7136e-07, -1.5140e-05,  2.4773e-07,  ...,  2.0489e-08,
+          1.3225e-07,  6.4261e-08],
+        [-2.3283e-08, -2.0415e-06,  8.4937e-07,  ...,  6.7055e-08,
+          4.7591e-07, -1.9725e-06],
+        [-8.6613e-08,  1.2107e-07,  6.3330e-08,  ..., -1.2293e-07,
+         -2.2352e-08,  1.4901e-08],
+        ...,
+        [-2.7828e-06,  3.2503e-07, -4.6566e-06,  ..., -2.7381e-07,
+         -2.6468e-06,  2.3562e-07],
+        [ 6.8638e-07,  1.1418e-06,  7.8324e-07,  ...,  1.1269e-07,
+          4.5076e-07,  6.2026e-07],
+        [ 1.0822e-06,  3.1665e-07,  1.4426e-06,  ...,  9.5926e-08,
+          9.6764e-07,  1.2573e-07]], device='cuda:0')
+Epoch 249, bias, value: tensor([-0.0090, -0.0192, -0.0071, -0.0184, -0.0054,  0.0056,  0.0073,  0.0205,
+         0.0145, -0.0112], device='cuda:0'), grad: tensor([-2.5705e-05, -3.3304e-06,  4.6380e-07,  8.6799e-07,  7.6555e-07,
+         5.7556e-06,  1.5259e-05, -5.9940e-06,  8.7470e-06,  3.1814e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 248, time 215.16, cls_loss 0.0014 cls_loss_mapping 0.0025 cls_loss_causal 0.4550 re_mapping 0.0054 re_causal 0.0148 /// teacc 98.96 lr 0.00010000
+Epoch 250, weight, value: tensor([[-0.2409,  0.0832, -0.1162,  ..., -0.0302, -0.1757, -0.1521],
+        [ 0.0103,  0.1000, -0.1170,  ..., -0.1135, -0.0430,  0.1017],
+        [ 0.0489, -0.1191, -0.1276,  ...,  0.0004, -0.0535, -0.0836],
+        ...,
+        [ 0.0862, -0.0409,  0.1274,  ...,  0.0662,  0.1695, -0.0062],
+        [ 0.1065, -0.1863, -0.1267,  ..., -0.2168, -0.0527,  0.1801],
+        [-0.1509,  0.0791,  0.0448,  ..., -0.2152, -0.1066, -0.0414]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09, -3.7253e-08,  8.3819e-09,  ...,  2.1420e-08,
+          1.8626e-09, -1.8626e-09],
+        [ 3.6322e-08,  1.3039e-08,  5.5879e-08,  ...,  7.5437e-08,
+          3.4459e-08, -2.7008e-08],
+        [-1.0151e-07,  2.7008e-08,  3.2596e-08,  ..., -2.3078e-06,
+          1.3970e-08,  5.5879e-09],
+        ...,
+        [-9.9652e-08,  1.8626e-08, -1.2480e-07,  ..., -4.3772e-08,
+         -9.0338e-08,  1.6764e-08],
+        [ 1.0990e-07,  1.0803e-07,  1.7695e-08,  ...,  2.1569e-06,
+          7.4506e-09, -3.7253e-09],
+        [ 2.1420e-08,  1.0617e-07,  1.5832e-08,  ...,  2.3283e-08,
+          1.6764e-08,  5.7742e-08]], device='cuda:0')
+Epoch 250, bias, value: tensor([-0.0091, -0.0196, -0.0072, -0.0188, -0.0055,  0.0056,  0.0076,  0.0210,
+         0.0143, -0.0113], device='cuda:0'), grad: tensor([ 1.5832e-08,  2.4866e-07, -8.7023e-06, -1.3523e-05, -6.0536e-08,
+         1.2204e-05,  8.1770e-07, -8.1025e-08,  8.7395e-06,  3.4273e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 249, time 215.02, cls_loss 0.0013 cls_loss_mapping 0.0022 cls_loss_causal 0.5108 re_mapping 0.0050 re_causal 0.0152 /// teacc 98.96 lr 0.00010000
+Epoch 251, weight, value: tensor([[-0.2420,  0.0833, -0.1173,  ..., -0.0305, -0.1769, -0.1525],
+        [ 0.0107,  0.1001, -0.1149,  ..., -0.1106, -0.0440,  0.1015],
+        [ 0.0491, -0.1192, -0.1278,  ...,  0.0009, -0.0534, -0.0837],
+        ...,
+        [ 0.0860, -0.0410,  0.1254,  ...,  0.0634,  0.1704, -0.0060],
+        [ 0.1067, -0.1871, -0.1268,  ..., -0.2175, -0.0528,  0.1806],
+        [-0.1518,  0.0792,  0.0450,  ..., -0.2166, -0.1069, -0.0417]],
+       device='cuda:0'), grad: tensor([[ 1.3504e-08,  8.8988e-07,  5.2759e-07,  ...,  8.3959e-07,
+          1.8626e-09,  8.8941e-08],
+        [ 6.9803e-07, -7.1712e-08,  9.4296e-07,  ...,  6.2026e-07,
+          5.5181e-07, -1.2107e-08],
+        [-6.5193e-09,  8.6613e-08,  1.3970e-07,  ...,  1.3271e-07,
+          8.8476e-09,  3.5390e-08],
+        ...,
+        [-1.3653e-06,  9.9186e-08, -1.3905e-06,  ..., -6.9663e-07,
+         -1.0515e-06, -1.8394e-07],
+        [-1.8207e-07,  8.4657e-07,  6.8685e-07,  ...,  9.4669e-07,
+          1.7323e-07, -3.7719e-07],
+        [ 3.9861e-07,  2.9663e-07,  3.1479e-07,  ...,  3.2736e-07,
+          5.3085e-08,  3.8883e-07]], device='cuda:0')
+Epoch 251, bias, value: tensor([-0.0091, -0.0183, -0.0070, -0.0186, -0.0056,  0.0056,  0.0076,  0.0196,
+         0.0143, -0.0113], device='cuda:0'), grad: tensor([ 2.7549e-06,  1.7229e-06,  3.8370e-07, -7.3537e-06,  1.1362e-07,
+         1.0133e-06,  7.4506e-09, -2.5444e-06,  1.7332e-06,  2.1756e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 250, time 214.84, cls_loss 0.0012 cls_loss_mapping 0.0019 cls_loss_causal 0.4859 re_mapping 0.0050 re_causal 0.0145 /// teacc 99.00 lr 0.00010000
+Epoch 252, weight, value: tensor([[-0.2422,  0.0837, -0.1177,  ..., -0.0307, -0.1782, -0.1524],
+        [ 0.0106,  0.1002, -0.1150,  ..., -0.1106, -0.0442,  0.1018],
+        [ 0.0492, -0.1193, -0.1280,  ...,  0.0010, -0.0533, -0.0839],
+        ...,
+        [ 0.0860, -0.0414,  0.1256,  ...,  0.0635,  0.1706, -0.0062],
+        [ 0.1068, -0.1875, -0.1269,  ..., -0.2177, -0.0529,  0.1808],
+        [-0.1525,  0.0791,  0.0451,  ..., -0.2176, -0.1072, -0.0420]],
+       device='cuda:0'), grad: tensor([[ 3.2596e-09,  3.3528e-08,  1.8626e-09,  ...,  1.8626e-09,
+          9.3132e-10,  1.8626e-09],
+        [-4.1444e-08, -1.2154e-07,  2.1886e-08,  ...,  5.5879e-09,
+          1.7695e-08, -2.4727e-07],
+        [-2.0955e-08,  7.4506e-09,  2.3283e-09,  ..., -4.5635e-08,
+         -1.4901e-08,  1.2107e-08],
+        ...,
+        [ 9.3132e-10,  1.1036e-07, -5.9139e-08,  ...,  6.0536e-09,
+         -3.8650e-08,  1.9232e-07],
+        [-4.6566e-09,  2.9057e-07,  3.8184e-08,  ...,  9.3132e-09,
+          6.0536e-09, -1.2107e-08],
+        [ 3.1199e-08, -5.0291e-08, -4.3772e-08,  ...,  3.2596e-09,
+          2.2817e-08,  1.5367e-08]], device='cuda:0')
+Epoch 252, bias, value: tensor([-0.0091, -0.0183, -0.0071, -0.0186, -0.0054,  0.0055,  0.0077,  0.0196,
+         0.0143, -0.0116], device='cuda:0'), grad: tensor([ 5.6578e-07, -3.3295e-07,  1.8626e-09,  1.7649e-07,  4.3958e-06,
+        -6.6590e-07, -6.0238e-06,  3.3155e-07,  1.5991e-06, -6.5658e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 251, time 214.84, cls_loss 0.0011 cls_loss_mapping 0.0021 cls_loss_causal 0.5119 re_mapping 0.0053 re_causal 0.0161 /// teacc 98.99 lr 0.00010000
+Epoch 253, weight, value: tensor([[-0.2419,  0.0830, -0.1185,  ..., -0.0310, -0.1787, -0.1522],
+        [ 0.0114,  0.1002, -0.1149,  ..., -0.1107, -0.0437,  0.1025],
+        [ 0.0493, -0.1194, -0.1281,  ...,  0.0012, -0.0532, -0.0840],
+        ...,
+        [ 0.0854, -0.0418,  0.1256,  ...,  0.0635,  0.1704, -0.0069],
+        [ 0.1070, -0.1878, -0.1270,  ..., -0.2180, -0.0529,  0.1810],
+        [-0.1537,  0.0787,  0.0442,  ..., -0.2211, -0.1083, -0.0426]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-08, -8.5635e-07,  1.8626e-09,  ...,  3.7719e-08,
+          5.2154e-08,  8.8476e-09],
+        [ 1.3877e-07, -5.0571e-07,  4.1910e-09,  ...,  1.1642e-07,
+          1.6345e-07, -1.1120e-06],
+        [-1.1232e-06,  4.0978e-08,  7.4506e-09,  ..., -6.5705e-07,
+         -9.0944e-07,  6.2864e-08],
+        ...,
+        [ 4.5123e-07,  1.6950e-07, -1.7229e-08,  ...,  2.5611e-07,
+          3.4971e-07,  3.1898e-07],
+        [ 1.6764e-07,  1.3737e-07,  1.3970e-08,  ...,  1.2387e-07,
+          1.7043e-07, -9.3132e-10],
+        [ 3.7253e-08,  4.0513e-08, -4.8894e-08,  ...,  1.9558e-08,
+          2.7474e-08,  7.2177e-08]], device='cuda:0')
+Epoch 253, bias, value: tensor([-0.0098, -0.0179, -0.0070, -0.0187, -0.0043,  0.0054,  0.0079,  0.0191,
+         0.0143, -0.0124], device='cuda:0'), grad: tensor([-5.1595e-07, -1.4920e-06, -3.0696e-06,  3.1106e-07,  7.1712e-07,
+         2.5779e-06, -2.4065e-06,  2.0899e-06,  1.5628e-06,  2.0815e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 252, time 215.00, cls_loss 0.0011 cls_loss_mapping 0.0023 cls_loss_causal 0.5275 re_mapping 0.0053 re_causal 0.0157 /// teacc 99.02 lr 0.00010000
+Epoch 254, weight, value: tensor([[-0.2421,  0.0831, -0.1189,  ..., -0.0314, -0.1803, -0.1519],
+        [ 0.0116,  0.1003, -0.1149,  ..., -0.1107, -0.0436,  0.1027],
+        [ 0.0494, -0.1194, -0.1280,  ...,  0.0015, -0.0531, -0.0839],
+        ...,
+        [ 0.0853, -0.0421,  0.1256,  ...,  0.0634,  0.1704, -0.0071],
+        [ 0.1070, -0.1886, -0.1271,  ..., -0.2185, -0.0530,  0.1812],
+        [-0.1543,  0.0784,  0.0440,  ..., -0.2220, -0.1086, -0.0430]],
+       device='cuda:0'), grad: tensor([[ 2.3469e-07, -1.6764e-08,  1.1176e-07,  ...,  6.7055e-08,
+          2.0489e-07,  5.5879e-08],
+        [ 9.0338e-07, -6.8918e-08,  4.8243e-07,  ...,  2.7567e-07,
+          8.4937e-07, -1.3039e-08],
+        [ 3.5167e-06,  3.7253e-08,  3.3975e-06,  ..., -1.3281e-06,
+          4.8913e-06,  1.6503e-06],
+        ...,
+        [-8.3372e-06,  3.7253e-08, -5.2974e-06,  ..., -2.4028e-07,
+         -8.9034e-06, -2.2966e-06],
+        [ 1.1418e-06,  5.0291e-08,  4.9919e-07,  ...,  4.1537e-07,
+          9.3877e-07,  2.0117e-07],
+        [ 1.0245e-06, -1.0561e-06, -3.8743e-07,  ...,  2.7567e-07,
+          9.3319e-07,  2.2911e-07]], device='cuda:0')
+Epoch 254, bias, value: tensor([-0.0098, -0.0177, -0.0069, -0.0187, -0.0040,  0.0055,  0.0078,  0.0190,
+         0.0140, -0.0128], device='cuda:0'), grad: tensor([ 5.1409e-07,  1.7826e-06,  8.9332e-06,  6.0536e-07,  2.7213e-06,
+         1.3504e-06,  3.2969e-07, -1.8716e-05,  2.6114e-06, -1.6950e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 253, time 215.09, cls_loss 0.0013 cls_loss_mapping 0.0022 cls_loss_causal 0.5052 re_mapping 0.0050 re_causal 0.0150 /// teacc 98.99 lr 0.00010000
+Epoch 255, weight, value: tensor([[-0.2419,  0.0834, -0.1195,  ..., -0.0318, -0.1823, -0.1517],
+        [ 0.0143,  0.1003, -0.1124,  ..., -0.1107, -0.0428,  0.1040],
+        [ 0.0496, -0.1195, -0.1285,  ...,  0.0017, -0.0531, -0.0840],
+        ...,
+        [ 0.0828, -0.0424,  0.1233,  ...,  0.0635,  0.1698, -0.0086],
+        [ 0.1071, -0.1883, -0.1275,  ..., -0.2192, -0.0533,  0.1818],
+        [-0.1555,  0.0785,  0.0440,  ..., -0.2232, -0.1094, -0.0432]],
+       device='cuda:0'), grad: tensor([[ 5.7742e-08, -2.5891e-07,  1.4901e-08,  ...,  1.8626e-09,
+          1.8626e-09,  1.4156e-07],
+        [ 7.8231e-08,  7.4506e-09,  5.9605e-08,  ...,  2.6077e-08,
+          5.7742e-08,  4.6566e-08],
+        [ 8.5682e-08,  1.8626e-09,  5.0291e-08,  ..., -1.8626e-09,
+          3.1665e-08,  1.4901e-07],
+        ...,
+        [-1.1362e-07,  3.7253e-09, -1.1548e-07,  ..., -4.0978e-08,
+         -1.2293e-07,  2.0489e-08],
+        [-2.5332e-07,  1.5460e-07, -5.2154e-08,  ...,  5.5879e-09,
+          9.3132e-09, -6.7055e-07],
+        [ 2.9802e-08,  2.1793e-07, -0.0000e+00,  ...,  1.8626e-09,
+          7.4506e-09,  3.9116e-08]], device='cuda:0')
+Epoch 255, bias, value: tensor([-0.0097, -0.0157, -0.0069, -0.0188, -0.0041,  0.0054,  0.0080,  0.0168,
+         0.0143, -0.0130], device='cuda:0'), grad: tensor([-7.7672e-07,  2.5518e-07,  4.0233e-07,  3.4794e-06,  6.1467e-08,
+        -4.1127e-06,  1.0971e-06, -1.2666e-07, -1.1064e-06,  8.1211e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 254, time 215.17, cls_loss 0.0011 cls_loss_mapping 0.0020 cls_loss_causal 0.4893 re_mapping 0.0052 re_causal 0.0149 /// teacc 98.92 lr 0.00010000
+Epoch 256, weight, value: tensor([[-0.2431,  0.0835, -0.1203,  ..., -0.0323, -0.1831, -0.1519],
+        [ 0.0138,  0.1001, -0.1128,  ..., -0.1108, -0.0435,  0.1038],
+        [ 0.0497, -0.1196, -0.1287,  ...,  0.0019, -0.0531, -0.0840],
+        ...,
+        [ 0.0831, -0.0423,  0.1237,  ...,  0.0634,  0.1705, -0.0084],
+        [ 0.1076, -0.1888, -0.1275,  ..., -0.2195, -0.0530,  0.1826],
+        [-0.1561,  0.0787,  0.0444,  ..., -0.2240, -0.1096, -0.0435]],
+       device='cuda:0'), grad: tensor([[ 4.4703e-08, -1.1735e-07,  3.7253e-08,  ...,  1.8626e-09,
+          1.3039e-08,  1.4901e-08],
+        [ 1.3411e-07,  5.5879e-09,  1.8068e-07,  ...,  7.6368e-08,
+          1.1176e-08,  1.2666e-07],
+        [ 8.9407e-08,  1.8626e-08,  3.5390e-08,  ...,  0.0000e+00,
+          9.3132e-09,  1.0990e-07],
+        ...,
+        [-5.1260e-06,  1.1921e-07, -3.6880e-06,  ...,  3.2783e-07,
+         -1.7062e-06,  1.0431e-07],
+        [-8.7544e-07,  6.5193e-08,  5.0291e-08,  ...,  5.5879e-09,
+          1.6764e-08, -1.4715e-06],
+        [ 1.3597e-07,  3.5018e-07,  3.9116e-07,  ...,  1.3970e-07,
+          4.4703e-08,  1.9744e-07]], device='cuda:0')
+Epoch 256, bias, value: tensor([-0.0097, -0.0160, -0.0068, -0.0188, -0.0044,  0.0053,  0.0081,  0.0171,
+         0.0145, -0.0126], device='cuda:0'), grad: tensor([-1.5087e-07,  6.1467e-07,  3.4086e-07, -2.9430e-07, -1.2778e-06,
+         9.0078e-06,  1.7881e-07, -7.0259e-06, -3.0436e-06,  1.6373e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 255, time 214.98, cls_loss 0.0010 cls_loss_mapping 0.0024 cls_loss_causal 0.5034 re_mapping 0.0053 re_causal 0.0157 /// teacc 98.92 lr 0.00010000
+Epoch 257, weight, value: tensor([[-0.2435,  0.0839, -0.1208,  ..., -0.0324, -0.1838, -0.1515],
+        [ 0.0134,  0.1002, -0.1131,  ..., -0.1109, -0.0446,  0.1034],
+        [ 0.0498, -0.1196, -0.1289,  ...,  0.0020, -0.0531, -0.0841],
+        ...,
+        [ 0.0836, -0.0424,  0.1241,  ...,  0.0634,  0.1717, -0.0080],
+        [ 0.1080, -0.1892, -0.1276,  ..., -0.2197, -0.0530,  0.1832],
+        [-0.1574,  0.0787,  0.0441,  ..., -0.2247, -0.1110, -0.0438]],
+       device='cuda:0'), grad: tensor([[ 2.0489e-08, -2.9616e-07,  2.7940e-08,  ...,  1.6764e-08,
+          1.8626e-08,  7.4506e-09],
+        [ 3.0361e-07, -3.1479e-07,  2.7195e-07,  ...,  2.0675e-07,
+          2.2724e-07, -9.7416e-07],
+        [-2.6822e-07,  2.4214e-08,  3.3528e-08,  ..., -3.4831e-07,
+         -7.8231e-08,  3.9116e-08],
+        ...,
+        [-6.3144e-07, -6.8918e-08, -1.1120e-06,  ...,  3.5390e-08,
+         -7.3947e-07,  8.1956e-08],
+        [ 6.3330e-08,  7.8231e-08,  1.0431e-07,  ...,  1.4901e-07,
+          4.4703e-08,  5.0291e-08],
+        [ 4.2468e-07,  1.7881e-07,  6.5938e-07,  ...,  2.9802e-08,
+          4.6194e-07,  2.9802e-08]], device='cuda:0')
+Epoch 257, bias, value: tensor([-0.0091, -0.0163, -0.0068, -0.0185, -0.0044,  0.0050,  0.0080,  0.0175,
+         0.0149, -0.0128], device='cuda:0'), grad: tensor([-6.4261e-07, -9.9652e-07, -9.5367e-07, -4.1164e-07, -9.3132e-09,
+         4.4703e-07,  1.7751e-06, -7.9535e-07,  5.7183e-07,  9.9652e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 256, time 215.12, cls_loss 0.0012 cls_loss_mapping 0.0023 cls_loss_causal 0.5248 re_mapping 0.0052 re_causal 0.0152 /// teacc 99.01 lr 0.00010000
+Epoch 258, weight, value: tensor([[-0.2447,  0.0843, -0.1217,  ..., -0.0365, -0.1850, -0.1525],
+        [ 0.0132,  0.1002, -0.1133,  ..., -0.1109, -0.0452,  0.1035],
+        [ 0.0498, -0.1197, -0.1292,  ...,  0.0020, -0.0531, -0.0847],
+        ...,
+        [ 0.0839, -0.0426,  0.1244,  ...,  0.0634,  0.1723, -0.0079],
+        [ 0.1081, -0.1900, -0.1278,  ..., -0.2203, -0.0530,  0.1833],
+        [-0.1582,  0.0784,  0.0442,  ..., -0.2254, -0.1116, -0.0439]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  3.0864e-06,  5.5879e-09,  ...,  6.2101e-06,
+          0.0000e+00,  1.8626e-09],
+        [ 3.7253e-09,  3.7253e-08,  2.6077e-08,  ...,  3.3528e-08,
+          3.7253e-09, -1.0058e-07],
+        [ 5.5879e-09,  9.8720e-08,  5.5879e-09,  ...,  1.9558e-07,
+          1.8626e-09,  3.1665e-08],
+        ...,
+        [-7.4506e-09,  2.9802e-08,  1.1176e-08,  ...,  3.7253e-09,
+         -7.4506e-09,  5.4017e-08],
+        [-6.8918e-08,  8.7544e-08,  2.6077e-08,  ...,  1.3225e-07,
+          1.8626e-09, -1.3411e-07],
+        [ 2.0489e-08,  5.5879e-09, -6.3330e-07,  ...,  5.5879e-09,
+          0.0000e+00,  6.7241e-07]], device='cuda:0')
+Epoch 258, bias, value: tensor([-0.0094, -0.0163, -0.0069, -0.0176, -0.0042,  0.0050,  0.0080,  0.0176,
+         0.0146, -0.0132], device='cuda:0'), grad: tensor([ 2.5183e-05,  1.4156e-07,  8.6613e-07, -2.9266e-05, -5.2154e-08,
+         1.8068e-06,  3.0920e-07,  1.5646e-07,  3.8929e-07,  4.8056e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 257, time 214.96, cls_loss 0.0008 cls_loss_mapping 0.0018 cls_loss_causal 0.4852 re_mapping 0.0050 re_causal 0.0154 /// teacc 98.90 lr 0.00010000
+Epoch 259, weight, value: tensor([[-0.2451,  0.0847, -0.1220,  ..., -0.0369, -0.1855, -0.1528],
+        [ 0.0132,  0.1001, -0.1134,  ..., -0.1109, -0.0454,  0.1036],
+        [ 0.0501, -0.1197, -0.1292,  ...,  0.0021, -0.0527, -0.0848],
+        ...,
+        [ 0.0839, -0.0428,  0.1244,  ...,  0.0634,  0.1724, -0.0080],
+        [ 0.1082, -0.1906, -0.1281,  ..., -0.2205, -0.0530,  0.1837],
+        [-0.1586,  0.0784,  0.0446,  ..., -0.2256, -0.1118, -0.0442]],
+       device='cuda:0'), grad: tensor([[-1.4901e-08,  5.2899e-07,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  7.4506e-09],
+        [-5.5879e-09,  6.8918e-08,  3.7253e-09,  ...,  1.8626e-09,
+          3.7253e-09, -8.5682e-08],
+        [ 0.0000e+00,  3.5577e-07,  0.0000e+00,  ..., -3.7253e-09,
+         -1.8626e-09,  4.8429e-08],
+        ...,
+        [-5.5879e-09,  5.9605e-08, -5.5879e-09,  ..., -1.8626e-09,
+         -5.5879e-09,  3.7253e-08],
+        [-3.9116e-08,  3.5390e-08,  1.8626e-09,  ...,  1.8626e-09,
+          0.0000e+00, -4.8429e-08],
+        [ 2.4214e-08,  2.0675e-07, -1.1176e-08,  ...,  0.0000e+00,
+          0.0000e+00,  2.9802e-08]], device='cuda:0')
+Epoch 259, bias, value: tensor([-0.0090, -0.0164, -0.0067, -0.0171, -0.0041,  0.0049,  0.0078,  0.0175,
+         0.0146, -0.0133], device='cuda:0'), grad: tensor([ 3.1069e-06,  6.5006e-07,  1.6298e-06,  5.2154e-08, -7.8008e-06,
+         3.5390e-08,  1.2759e-06,  1.8440e-07,  1.6764e-08,  8.3447e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 258, time 214.62, cls_loss 0.0011 cls_loss_mapping 0.0022 cls_loss_causal 0.5221 re_mapping 0.0050 re_causal 0.0159 /// teacc 99.01 lr 0.00010000
+Epoch 260, weight, value: tensor([[-0.2457,  0.0848, -0.1224,  ..., -0.0369, -0.1862, -0.1535],
+        [ 0.0132,  0.0996, -0.1134,  ..., -0.1110, -0.0454,  0.1039],
+        [ 0.0496, -0.1199, -0.1301,  ...,  0.0019, -0.0531, -0.0850],
+        ...,
+        [ 0.0840, -0.0429,  0.1246,  ...,  0.0636,  0.1727, -0.0081],
+        [ 0.1082, -0.1912, -0.1284,  ..., -0.2207, -0.0532,  0.1838],
+        [-0.1571,  0.0811,  0.0483,  ..., -0.2260, -0.1120, -0.0412]],
+       device='cuda:0'), grad: tensor([[ 1.3039e-08, -6.9477e-07,  3.7253e-09,  ...,  1.8626e-09,
+          1.8626e-09, -2.8685e-07],
+        [-1.5832e-07, -4.8988e-07,  1.1176e-08,  ...,  0.0000e+00,
+         -1.8626e-09, -6.5751e-07],
+        [ 3.7253e-08,  2.9802e-07,  3.7253e-09,  ..., -5.5879e-09,
+         -1.8626e-09,  2.7940e-07],
+        ...,
+        [ 3.1665e-08,  1.9744e-07,  7.4506e-09,  ...,  0.0000e+00,
+         -7.4506e-09,  2.6636e-07],
+        [-1.6764e-08,  5.0105e-07,  4.2841e-08,  ...,  1.8626e-09,
+          1.8626e-09,  2.0862e-07],
+        [ 3.3528e-08,  1.9550e-05,  3.0827e-06,  ...,  0.0000e+00,
+          3.7253e-09,  9.1046e-06]], device='cuda:0')
+Epoch 260, bias, value: tensor([-0.0089, -0.0163, -0.0069, -0.0176, -0.0069,  0.0051,  0.0078,  0.0175,
+         0.0144, -0.0105], device='cuda:0'), grad: tensor([ 2.7753e-07, -8.9779e-07,  1.3839e-06,  5.3458e-07, -4.9055e-05,
+         1.1437e-06, -1.1787e-05,  5.9605e-07,  8.2403e-06,  4.9531e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 259, time 214.75, cls_loss 0.0016 cls_loss_mapping 0.0021 cls_loss_causal 0.4975 re_mapping 0.0051 re_causal 0.0146 /// teacc 98.92 lr 0.00010000
+Epoch 261, weight, value: tensor([[-0.2455,  0.0874, -0.1217,  ..., -0.0370, -0.1879, -0.1514],
+        [ 0.0144,  0.1018, -0.1129,  ..., -0.1111, -0.0441,  0.1055],
+        [ 0.0494, -0.1202, -0.1311,  ...,  0.0018, -0.0534, -0.0853],
+        ...,
+        [ 0.0830, -0.0454,  0.1242,  ...,  0.0637,  0.1718, -0.0096],
+        [ 0.1081, -0.1929, -0.1288,  ..., -0.2212, -0.0533,  0.1838],
+        [-0.1579,  0.0818,  0.0505,  ..., -0.2265, -0.1126, -0.0397]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09, -3.7253e-09,  5.5879e-09,  ...,  1.8626e-09,
+          1.8626e-09,  1.1176e-08],
+        [ 8.0094e-08,  1.3039e-08,  1.4901e-08,  ...,  8.5682e-08,
+          7.8231e-08,  2.4214e-08],
+        [-8.9407e-08,  1.4901e-08,  7.4506e-09,  ..., -1.0058e-07,
+         -8.7544e-08,  1.4901e-08],
+        ...,
+        [-3.7253e-09,  9.8720e-08,  3.7253e-09,  ...,  5.5879e-09,
+         -7.4506e-09,  8.9407e-08],
+        [-1.3039e-08,  1.4342e-07,  2.2911e-07,  ...,  1.8626e-09,
+          1.8626e-09,  6.3330e-08],
+        [ 9.3132e-09,  3.5949e-07, -6.5193e-07,  ...,  3.7253e-09,
+          9.3132e-09,  4.1537e-07]], device='cuda:0')
+Epoch 261, bias, value: tensor([-0.0062, -0.0156, -0.0070, -0.0175, -0.0089,  0.0049,  0.0078,  0.0169,
+         0.0138, -0.0093], device='cuda:0'), grad: tensor([ 3.5390e-08,  5.0105e-07, -3.8929e-07,  3.2410e-07, -1.8664e-06,
+        -1.8291e-06,  1.1008e-06,  4.0047e-07,  1.2387e-06,  4.8056e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 260, time 214.89, cls_loss 0.0018 cls_loss_mapping 0.0029 cls_loss_causal 0.5069 re_mapping 0.0052 re_causal 0.0148 /// teacc 99.00 lr 0.00010000
+Epoch 262, weight, value: tensor([[-0.2473,  0.0877, -0.1237,  ..., -0.0374, -0.1915, -0.1524],
+        [ 0.0154,  0.1030, -0.1123,  ..., -0.1111, -0.0429,  0.1066],
+        [ 0.0495, -0.1200, -0.1314,  ...,  0.0020, -0.0533, -0.0854],
+        ...,
+        [ 0.0824, -0.0467,  0.1239,  ...,  0.0641,  0.1713, -0.0104],
+        [ 0.1082, -0.1944, -0.1292,  ..., -0.2219, -0.0536,  0.1839],
+        [-0.1606,  0.0816,  0.0506,  ..., -0.2274, -0.1145, -0.0401]],
+       device='cuda:0'), grad: tensor([[ 9.6485e-07,  2.7195e-07,  5.5879e-09,  ...,  4.7870e-07,
+          4.9360e-07,  3.2969e-07],
+        [-3.3714e-07, -1.4827e-06,  9.3132e-09,  ...,  1.5460e-07,
+          3.1665e-08, -1.3616e-06],
+        [-1.3784e-06,  5.0291e-08,  3.7253e-09,  ..., -1.1101e-06,
+         -7.9907e-07,  4.6566e-08],
+        ...,
+        [ 1.1362e-07,  9.8720e-08, -1.4901e-08,  ...,  6.7055e-08,
+          4.2841e-08,  1.0431e-07],
+        [ 3.8929e-07,  3.1292e-07,  3.7253e-09,  ...,  1.7695e-07,
+          1.8068e-07,  2.6822e-07],
+        [ 3.1665e-08,  1.5087e-07, -2.4214e-08,  ...,  5.5879e-09,
+          5.5879e-09,  8.1956e-08]], device='cuda:0')
+Epoch 262, bias, value: tensor([-0.0061, -0.0147, -0.0067, -0.0197, -0.0088,  0.0052,  0.0075,  0.0162,
+         0.0133, -0.0096], device='cuda:0'), grad: tensor([ 3.8221e-06, -2.8405e-06, -7.5772e-06,  1.4342e-07,  6.5938e-07,
+         3.2037e-07,  2.2147e-06,  7.4878e-07,  1.9968e-06,  4.4890e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 261, time 214.94, cls_loss 0.0010 cls_loss_mapping 0.0019 cls_loss_causal 0.4980 re_mapping 0.0051 re_causal 0.0154 /// teacc 99.03 lr 0.00010000
+Epoch 263, weight, value: tensor([[-0.2485,  0.0876, -0.1245,  ..., -0.0379, -0.1936, -0.1534],
+        [ 0.0156,  0.1036, -0.1119,  ..., -0.1107, -0.0428,  0.1069],
+        [ 0.0495, -0.1203, -0.1316,  ...,  0.0020, -0.0533, -0.0857],
+        ...,
+        [ 0.0822, -0.0468,  0.1236,  ...,  0.0638,  0.1714, -0.0105],
+        [ 0.1082, -0.1957, -0.1295,  ..., -0.2225, -0.0537,  0.1839],
+        [-0.1615,  0.0813,  0.0504,  ..., -0.2288, -0.1153, -0.0407]],
+       device='cuda:0'), grad: tensor([[ 1.4901e-08,  1.8626e-09,  1.8626e-09,  ...,  5.5879e-09,
+          7.4506e-09,  5.5879e-09],
+        [ 8.2701e-07, -1.0431e-07,  5.4017e-08,  ...,  1.6764e-08,
+          3.0361e-07, -4.5635e-07],
+        [ 1.3225e-07,  3.9116e-08,  2.4214e-08,  ..., -2.2352e-08,
+          5.0291e-08,  2.1607e-07],
+        ...,
+        [-1.5065e-05,  7.2643e-08, -7.8045e-07,  ...,  1.4901e-08,
+         -7.1973e-06, -7.7561e-06],
+        [ 4.5821e-07,  8.0094e-08,  2.6077e-08,  ...,  5.5879e-09,
+          2.2538e-07,  3.4831e-07],
+        [ 2.9802e-08,  5.5879e-09,  5.5879e-09,  ...,  1.8626e-09,
+          1.6764e-08,  2.2352e-08]], device='cuda:0')
+Epoch 263, bias, value: tensor([-0.0064, -0.0142, -0.0068, -0.0195, -0.0086,  0.0051,  0.0074,  0.0159,
+         0.0129, -0.0099], device='cuda:0'), grad: tensor([ 3.5763e-07, -5.0478e-07,  6.2585e-07,  1.4827e-06,  2.2441e-05,
+        -5.9307e-06, -4.7088e-06, -1.8701e-05,  4.8429e-06,  8.0094e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 262, time 215.14, cls_loss 0.0012 cls_loss_mapping 0.0021 cls_loss_causal 0.5000 re_mapping 0.0051 re_causal 0.0147 /// teacc 98.99 lr 0.00010000
+Epoch 264, weight, value: tensor([[-2.4934e-01,  8.7733e-02, -1.2530e-01,  ..., -3.8183e-02,
+         -1.9506e-01, -1.5312e-01],
+        [ 1.4994e-02,  1.0367e-01, -1.1237e-01,  ..., -1.1099e-01,
+         -4.4027e-02,  1.0671e-01],
+        [ 4.9086e-02, -1.2046e-01, -1.3335e-01,  ..., -5.3777e-06,
+         -5.3792e-02, -8.5791e-02],
+        ...,
+        [ 8.3102e-02, -4.6851e-02,  1.2423e-01,  ...,  6.4068e-02,
+          1.7311e-01, -1.0195e-02],
+        [ 1.0853e-01, -1.9584e-01, -1.3002e-01,  ..., -2.2325e-01,
+         -5.3950e-02,  1.8454e-01],
+        [-1.6298e-01,  8.1286e-02,  5.0317e-02,  ..., -2.3228e-01,
+         -1.1637e-01, -4.0816e-02]], device='cuda:0'), grad: tensor([[ 1.3039e-08,  5.7742e-08,  3.3528e-08,  ...,  0.0000e+00,
+          1.8626e-09,  1.4901e-08],
+        [ 3.3528e-07,  2.4028e-06,  8.1956e-08,  ...,  3.7253e-09,
+          1.4901e-08,  1.5050e-06],
+        [ 9.4995e-08,  1.8626e-08,  5.5879e-09,  ...,  0.0000e+00,
+          1.8626e-09,  9.4995e-08],
+        ...,
+        [ 3.7253e-09,  2.9989e-07,  4.4890e-07,  ..., -7.4506e-09,
+         -1.6764e-08,  5.5879e-08],
+        [-1.4901e-08,  2.1048e-07,  2.4959e-07,  ...,  0.0000e+00,
+          7.4506e-09, -8.0094e-08],
+        [-5.4017e-08, -1.2666e-07, -1.1176e-06,  ...,  1.8626e-09,
+         -1.3039e-08,  2.1979e-07]], device='cuda:0')
+Epoch 264, bias, value: tensor([-0.0064, -0.0145, -0.0077, -0.0170, -0.0086,  0.0046,  0.0074,  0.0165,
+         0.0133, -0.0100], device='cuda:0'), grad: tensor([ 1.2666e-06,  6.0350e-06,  4.9733e-07,  2.6636e-07, -8.5086e-06,
+        -4.9360e-07,  1.0990e-07,  8.8476e-07,  7.1712e-07, -8.1770e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 263, time 215.09, cls_loss 0.0010 cls_loss_mapping 0.0018 cls_loss_causal 0.5175 re_mapping 0.0050 re_causal 0.0152 /// teacc 98.96 lr 0.00010000
+Epoch 265, weight, value: tensor([[-2.5100e-01,  8.7694e-02, -1.2624e-01,  ..., -3.8266e-02,
+         -1.9723e-01, -1.5306e-01],
+        [ 1.4832e-02,  1.0374e-01, -1.1252e-01,  ..., -1.1112e-01,
+         -4.4380e-02,  1.0675e-01],
+        [ 4.9198e-02, -1.2054e-01, -1.3353e-01,  ...,  1.3101e-04,
+         -5.3759e-02, -8.5866e-02],
+        ...,
+        [ 8.3332e-02, -4.6919e-02,  1.2442e-01,  ...,  6.4142e-02,
+          1.7354e-01, -1.0191e-02],
+        [ 1.0858e-01, -1.9649e-01, -1.3041e-01,  ..., -2.2369e-01,
+         -5.4105e-02,  1.8475e-01],
+        [-1.6355e-01,  8.1277e-02,  5.0412e-02,  ..., -2.3367e-01,
+         -1.1674e-01, -4.0880e-02]], device='cuda:0'), grad: tensor([[ 1.8626e-09,  4.2841e-08,  3.1665e-08,  ...,  5.5879e-09,
+          0.0000e+00,  2.6077e-08],
+        [ 1.6764e-08,  8.3819e-06,  7.3165e-06,  ...,  8.5682e-08,
+          1.6764e-08,  4.0159e-06],
+        [ 0.0000e+00,  4.4703e-08,  4.4703e-08,  ...,  9.3132e-09,
+          0.0000e+00,  1.8626e-08],
+        ...,
+        [-5.2154e-08,  1.3132e-06,  1.1921e-06,  ...,  1.0915e-06,
+         -3.9116e-08,  2.7567e-07],
+        [ 5.5879e-09,  8.6613e-07,  7.6555e-07,  ...,  2.4959e-07,
+          5.5879e-09,  3.3900e-07],
+        [ 7.4506e-09,  6.2287e-06,  5.2415e-06,  ...,  3.5390e-08,
+          1.8626e-09,  3.0864e-06]], device='cuda:0')
+Epoch 265, bias, value: tensor([-0.0066, -0.0146, -0.0077, -0.0169, -0.0086,  0.0046,  0.0073,  0.0166,
+         0.0131, -0.0100], device='cuda:0'), grad: tensor([ 1.6019e-07,  1.8045e-05,  9.6858e-08, -9.3877e-05,  2.1979e-07,
+         5.5939e-05, -5.5879e-09,  3.8669e-06,  2.1420e-06,  1.3404e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 264, time 214.84, cls_loss 0.0012 cls_loss_mapping 0.0015 cls_loss_causal 0.4862 re_mapping 0.0052 re_causal 0.0149 /// teacc 98.88 lr 0.00010000
+Epoch 266, weight, value: tensor([[-0.2520,  0.0872, -0.1269,  ..., -0.0384, -0.1986, -0.1532],
+        [ 0.0145,  0.1036, -0.1128,  ..., -0.1113, -0.0450,  0.1067],
+        [ 0.0496, -0.1206, -0.1340,  ...,  0.0007, -0.0535, -0.0859],
+        ...,
+        [ 0.0837, -0.0470,  0.1249,  ...,  0.0643,  0.1743, -0.0102],
+        [ 0.1086, -0.1972, -0.1310,  ..., -0.2245, -0.0543,  0.1848],
+        [-0.1635,  0.0827,  0.0515,  ..., -0.2349, -0.1170, -0.0399]],
+       device='cuda:0'), grad: tensor([[ 3.1665e-08, -5.5321e-07,  5.4017e-08,  ...,  1.1176e-08,
+          2.2352e-08,  1.8626e-09],
+        [ 7.6182e-07,  1.7509e-07,  9.4809e-07,  ...,  1.5832e-07,
+          5.7928e-07, -5.5879e-08],
+        [ 1.6578e-07,  7.6368e-08,  2.5332e-07,  ...,  9.6858e-08,
+          1.3970e-07,  1.8626e-08],
+        ...,
+        [-2.3022e-06, -2.4028e-07, -2.6785e-06,  ..., -3.6880e-07,
+         -1.7378e-06,  3.5390e-08],
+        [ 5.7742e-08,  2.1793e-07,  1.6019e-07,  ...,  7.0781e-08,
+          4.0978e-08,  2.2352e-08],
+        [ 1.0934e-06,  4.9546e-07,  1.3355e-06,  ...,  2.1793e-07,
+          8.0466e-07,  8.3819e-08]], device='cuda:0')
+Epoch 266, bias, value: tensor([-0.0072, -0.0148, -0.0075, -0.0174, -0.0099,  0.0047,  0.0076,  0.0168,
+         0.0126, -0.0088], device='cuda:0'), grad: tensor([-1.0394e-06,  1.7900e-06,  6.1095e-07, -9.3132e-07, -8.8289e-07,
+         6.5193e-07,  1.9185e-07, -4.7423e-06,  7.9535e-07,  3.5372e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 265, time 214.71, cls_loss 0.0017 cls_loss_mapping 0.0029 cls_loss_causal 0.4964 re_mapping 0.0052 re_causal 0.0148 /// teacc 98.91 lr 0.00010000
+Epoch 267, weight, value: tensor([[-0.2531,  0.0860, -0.1278,  ..., -0.0385, -0.1997, -0.1537],
+        [ 0.0143,  0.1019, -0.1126,  ..., -0.1109, -0.0452,  0.1064],
+        [ 0.0497, -0.1208, -0.1344,  ...,  0.0007, -0.0534, -0.0863],
+        ...,
+        [ 0.0837, -0.0472,  0.1246,  ...,  0.0640,  0.1746, -0.0106],
+        [ 0.1129, -0.1957, -0.1281,  ..., -0.2253, -0.0544,  0.1896],
+        [-0.1667,  0.0835,  0.0494,  ..., -0.2360, -0.1171, -0.0424]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09, -4.4703e-08,  1.1176e-08,  ...,  1.6764e-08,
+          1.1176e-08,  2.9802e-08],
+        [ 5.6140e-06, -1.5087e-07,  5.1335e-06,  ...,  1.3970e-07,
+          5.0850e-06,  2.4661e-06],
+        [ 1.8626e-08,  2.9802e-08,  6.5193e-08,  ..., -7.8231e-08,
+         -6.8918e-08,  1.0990e-07],
+        ...,
+        [-5.7854e-06,  1.7509e-07, -5.3197e-06,  ..., -9.3132e-08,
+         -5.2750e-06, -2.8424e-06],
+        [-2.2352e-08,  6.3330e-08,  4.2841e-08,  ...,  1.3039e-08,
+          3.1665e-08,  9.3132e-08],
+        [ 5.3830e-07,  3.6508e-07,  3.1665e-08,  ...,  1.1176e-08,
+          1.2107e-07,  1.4268e-06]], device='cuda:0')
+Epoch 267, bias, value: tensor([-0.0089, -0.0151, -0.0076, -0.0179, -0.0098,  0.0047,  0.0076,  0.0164,
+         0.0173, -0.0109], device='cuda:0'), grad: tensor([-2.9802e-08,  1.3232e-05,  9.3132e-08, -9.3132e-09, -4.1947e-06,
+         4.5896e-06, -9.5963e-06, -9.1121e-06,  1.4305e-06,  3.5465e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 266, time 214.96, cls_loss 0.0015 cls_loss_mapping 0.0025 cls_loss_causal 0.5036 re_mapping 0.0051 re_causal 0.0143 /// teacc 98.97 lr 0.00010000
+Epoch 268, weight, value: tensor([[-0.2537,  0.0860, -0.1284,  ..., -0.0402, -0.2009, -0.1540],
+        [ 0.0145,  0.1013, -0.1121,  ..., -0.1101, -0.0456,  0.1070],
+        [ 0.0527, -0.1194, -0.1341,  ...,  0.0037, -0.0507, -0.0864],
+        ...,
+        [ 0.0821, -0.0474,  0.1241,  ...,  0.0609,  0.1732, -0.0111],
+        [ 0.1129, -0.1959, -0.1281,  ..., -0.2260, -0.0546,  0.1898],
+        [-0.1667,  0.0833,  0.0495,  ..., -0.2368, -0.1177, -0.0426]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-08,  6.3330e-08,  1.4901e-08,  ...,  6.8918e-08,
+          3.3528e-08,  1.0617e-07],
+        [ 8.1956e-08, -3.4831e-07,  1.9744e-07,  ...,  2.4028e-07,
+          2.0675e-07, -7.4692e-07],
+        [-6.8918e-07,  5.7742e-08,  1.6764e-07,  ..., -7.3947e-07,
+         -6.0163e-07,  1.2666e-07],
+        ...,
+        [ 2.6636e-07,  6.8918e-08, -3.7067e-07,  ...,  3.4831e-07,
+          1.8254e-07,  1.4901e-07],
+        [ 5.4017e-08,  1.6391e-07,  2.2352e-08,  ...,  8.3819e-08,
+          6.1467e-08,  9.4995e-08],
+        [ 1.0058e-07,  4.6194e-07,  1.2107e-07,  ...,  9.8720e-08,
+          5.0291e-08,  7.8976e-07]], device='cuda:0')
+Epoch 268, bias, value: tensor([-0.0092, -0.0149, -0.0045, -0.0180, -0.0094,  0.0047,  0.0076,  0.0147,
+         0.0173, -0.0111], device='cuda:0'), grad: tensor([ 5.3085e-07, -8.7544e-07, -1.7248e-06, -8.2888e-07, -2.4047e-06,
+         9.8906e-07, -1.0058e-07,  1.1623e-06,  6.7428e-07,  2.5705e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 267, time 214.90, cls_loss 0.0012 cls_loss_mapping 0.0019 cls_loss_causal 0.4941 re_mapping 0.0052 re_causal 0.0149 /// teacc 98.99 lr 0.00010000
+Epoch 269, weight, value: tensor([[-0.2542,  0.0861, -0.1289,  ..., -0.0405, -0.2015, -0.1550],
+        [ 0.0145,  0.1012, -0.1119,  ..., -0.1100, -0.0459,  0.1070],
+        [ 0.0526, -0.1195, -0.1344,  ...,  0.0036, -0.0508, -0.0865],
+        ...,
+        [ 0.0823, -0.0473,  0.1240,  ...,  0.0610,  0.1738, -0.0111],
+        [ 0.1129, -0.1960, -0.1282,  ..., -0.2270, -0.0548,  0.1899],
+        [-0.1668,  0.0832,  0.0495,  ..., -0.2379, -0.1187, -0.0426]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09, -1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 1.8626e-07, -1.8626e-09,  1.7136e-07,  ...,  7.6368e-08,
+          1.7136e-07, -1.6764e-08],
+        [ 5.2154e-08,  0.0000e+00,  4.0978e-08,  ...,  3.5390e-08,
+          5.0291e-08,  1.8626e-09],
+        ...,
+        [-4.5635e-07,  0.0000e+00, -4.1164e-07,  ..., -2.0303e-07,
+         -4.2282e-07,  5.5879e-09],
+        [ 4.4703e-08,  1.8626e-09,  4.8429e-08,  ...,  4.6566e-08,
+          5.9605e-08, -1.4901e-08],
+        [ 1.2852e-07,  1.8626e-09,  1.2666e-07,  ...,  2.2352e-08,
+          1.0990e-07,  5.5879e-09]], device='cuda:0')
+Epoch 269, bias, value: tensor([-0.0097, -0.0147, -0.0047, -0.0161, -0.0091,  0.0033,  0.0084,  0.0146,
+         0.0172, -0.0112], device='cuda:0'), grad: tensor([ 9.3132e-09,  2.9616e-07,  9.1270e-08,  1.0617e-07,  1.6764e-08,
+        -1.3039e-08, -2.3097e-07, -7.9721e-07,  2.8685e-07,  2.3842e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 268, time 215.00, cls_loss 0.0010 cls_loss_mapping 0.0016 cls_loss_causal 0.5021 re_mapping 0.0050 re_causal 0.0148 /// teacc 98.97 lr 0.00010000
+Epoch 270, weight, value: tensor([[-0.2546,  0.0867, -0.1291,  ..., -0.0408, -0.2024, -0.1549],
+        [ 0.0144,  0.1009, -0.1120,  ..., -0.1101, -0.0461,  0.1071],
+        [ 0.0527, -0.1195, -0.1347,  ...,  0.0038, -0.0507, -0.0868],
+        ...,
+        [ 0.0823, -0.0474,  0.1242,  ...,  0.0610,  0.1740, -0.0111],
+        [ 0.1129, -0.1960, -0.1282,  ..., -0.2277, -0.0549,  0.1900],
+        [-0.1668,  0.0831,  0.0495,  ..., -0.2389, -0.1192, -0.0427]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09, -8.4005e-07,  1.8626e-09,  ..., -3.5390e-08,
+          0.0000e+00,  7.4506e-09],
+        [ 6.3330e-08, -6.1467e-08,  3.3528e-08,  ...,  3.3528e-08,
+          3.1665e-08, -3.5577e-07],
+        [ 2.8685e-07,  1.0803e-07,  7.4506e-09,  ..., -4.6566e-08,
+          1.2480e-07,  4.4703e-08],
+        ...,
+        [-7.0594e-07,  3.9116e-08, -5.5879e-08,  ..., -1.7136e-07,
+         -2.5518e-07,  5.5879e-08],
+        [-5.4017e-08,  3.7253e-08,  5.5879e-09,  ...,  2.0489e-08,
+          3.7253e-09, -6.3330e-08],
+        [ 1.1176e-08,  5.4203e-07, -2.2352e-08,  ...,  3.3528e-08,
+          7.4506e-09,  1.1176e-08]], device='cuda:0')
+Epoch 270, bias, value: tensor([-0.0093, -0.0148, -0.0046, -0.0162, -0.0089,  0.0032,  0.0083,  0.0146,
+         0.0172, -0.0113], device='cuda:0'), grad: tensor([-1.8571e-06, -6.2399e-07,  5.7928e-07,  3.3341e-07,  5.5879e-07,
+         2.1234e-07,  6.9290e-07, -1.0990e-06, -1.0245e-07,  1.2610e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 269, time 214.94, cls_loss 0.0011 cls_loss_mapping 0.0023 cls_loss_causal 0.5123 re_mapping 0.0049 re_causal 0.0148 /// teacc 98.82 lr 0.00010000
+Epoch 271, weight, value: tensor([[-0.2546,  0.0865, -0.1294,  ..., -0.0410, -0.2032, -0.1550],
+        [ 0.0143,  0.1011, -0.1122,  ..., -0.1103, -0.0463,  0.1073],
+        [ 0.0525, -0.1197, -0.1355,  ...,  0.0037, -0.0510, -0.0872],
+        ...,
+        [ 0.0825, -0.0475,  0.1245,  ...,  0.0613,  0.1744, -0.0113],
+        [ 0.1130, -0.1962, -0.1282,  ..., -0.2278, -0.0548,  0.1901],
+        [-0.1669,  0.0830,  0.0495,  ..., -0.2396, -0.1196, -0.0428]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-09, -3.5577e-07,  1.1176e-08,  ...,  5.5879e-09,
+          5.5879e-09, -7.0781e-08],
+        [-7.2084e-07,  4.4703e-08, -6.7055e-08,  ...,  2.6077e-08,
+         -9.3132e-08, -1.1455e-06],
+        [ 3.1665e-08,  1.6764e-08,  1.1362e-07,  ..., -6.5193e-08,
+          1.8626e-08,  1.4901e-08],
+        ...,
+        [ 5.3458e-07,  1.8626e-08, -1.6391e-07,  ..., -2.4214e-08,
+         -1.8626e-08,  1.1306e-06],
+        [ 3.7253e-09,  2.5518e-07,  7.6368e-08,  ...,  7.4506e-09,
+          9.3132e-09,  1.8626e-08],
+        [ 5.5879e-09,  3.7253e-08, -1.2666e-07,  ...,  0.0000e+00,
+          1.8626e-09,  2.2352e-08]], device='cuda:0')
+Epoch 271, bias, value: tensor([-0.0095, -0.0147, -0.0045, -0.0162, -0.0089,  0.0032,  0.0080,  0.0147,
+         0.0173, -0.0115], device='cuda:0'), grad: tensor([-8.0280e-07, -3.1032e-06, -2.6077e-08,  3.0175e-07, -1.5646e-07,
+        -7.6368e-08,  2.0117e-07,  2.9989e-06,  7.1153e-07, -5.2154e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 270, time 214.94, cls_loss 0.0010 cls_loss_mapping 0.0020 cls_loss_causal 0.4814 re_mapping 0.0051 re_causal 0.0149 /// teacc 98.90 lr 0.00010000
+Epoch 272, weight, value: tensor([[-0.2558,  0.0839, -0.1325,  ..., -0.0412, -0.2042, -0.1563],
+        [ 0.0140,  0.1011, -0.1124,  ..., -0.1105, -0.0468,  0.1073],
+        [ 0.0525, -0.1203, -0.1361,  ...,  0.0036, -0.0511, -0.0872],
+        ...,
+        [ 0.0829, -0.0474,  0.1249,  ...,  0.0614,  0.1750, -0.0111],
+        [ 0.1130, -0.1964, -0.1283,  ..., -0.2287, -0.0551,  0.1901],
+        [-0.1669,  0.0842,  0.0497,  ..., -0.2402, -0.1201, -0.0429]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09,  7.0781e-08,  1.0803e-07,  ...,  7.6368e-08,
+          5.5879e-09,  1.8626e-09],
+        [-1.5274e-07, -2.4028e-07,  1.2293e-07,  ...,  4.8429e-08,
+          8.0094e-08, -1.2759e-06],
+        [-1.1940e-06,  1.4342e-07,  2.1048e-07,  ..., -3.7812e-07,
+         -7.9162e-07,  2.0489e-08],
+        ...,
+        [ 9.5181e-07,  4.2841e-08, -8.5682e-08,  ...,  4.3400e-07,
+          6.0163e-07,  7.4506e-08],
+        [ 3.1292e-07,  2.7195e-07,  1.0226e-06,  ...,  3.9116e-08,
+          4.2841e-08,  1.1288e-06],
+        [ 7.4506e-09, -2.5891e-07, -1.3076e-06,  ...,  1.4901e-08,
+          2.9802e-08,  1.4901e-08]], device='cuda:0')
+Epoch 272, bias, value: tensor([-0.0125, -0.0149, -0.0046, -0.0162, -0.0090,  0.0031,  0.0082,  0.0151,
+         0.0171, -0.0109], device='cuda:0'), grad: tensor([ 3.7998e-07, -1.7695e-06, -1.5758e-06, -1.4994e-06,  6.5193e-07,
+         3.4459e-07,  6.1467e-08,  2.1327e-06,  4.3549e-06, -3.0864e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 271, time 214.88, cls_loss 0.0012 cls_loss_mapping 0.0019 cls_loss_causal 0.4997 re_mapping 0.0049 re_causal 0.0144 /// teacc 98.97 lr 0.00010000
+Epoch 273, weight, value: tensor([[-0.2577,  0.0841, -0.1330,  ..., -0.0415, -0.2063, -0.1579],
+        [ 0.0135,  0.1000, -0.1127,  ..., -0.1108, -0.0475,  0.1068],
+        [ 0.0525, -0.1205, -0.1368,  ...,  0.0037, -0.0510, -0.0874],
+        ...,
+        [ 0.0833, -0.0474,  0.1253,  ...,  0.0615,  0.1755, -0.0110],
+        [ 0.1132, -0.1966, -0.1282,  ..., -0.2296, -0.0546,  0.1904],
+        [-0.1670,  0.0843,  0.0497,  ..., -0.2410, -0.1210, -0.0430]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09, -1.0617e-07,  2.6077e-08,  ...,  1.3039e-08,
+          0.0000e+00,  1.8626e-09],
+        [ 5.0291e-08, -7.6182e-07,  1.8813e-07,  ...,  1.1176e-07,
+          4.0978e-08, -1.8626e-08],
+        [-7.2643e-08,  8.3819e-08,  1.5460e-07,  ...,  2.7940e-08,
+         -1.7323e-07,  3.7253e-09],
+        ...,
+        [ 9.1270e-08,  2.1979e-07,  1.9930e-07,  ...,  1.5274e-07,
+          1.2666e-07,  1.3039e-08],
+        [ 6.3330e-08,  7.7486e-07,  5.5693e-07,  ...,  2.9244e-07,
+          1.8626e-09, -2.2352e-08],
+        [ 1.1176e-08,  4.0606e-07, -2.9802e-08,  ...,  9.3132e-09,
+          1.8626e-09,  1.3039e-08]], device='cuda:0')
+Epoch 273, bias, value: tensor([-0.0126, -0.0157, -0.0045, -0.0164, -0.0087,  0.0031,  0.0098,  0.0153,
+         0.0172, -0.0110], device='cuda:0'), grad: tensor([-2.4959e-07, -1.6894e-06,  3.8929e-07,  1.6298e-06,  1.5274e-07,
+        -1.3143e-05,  4.2841e-06,  1.3895e-06,  5.9158e-06,  1.3169e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 272, time 214.84, cls_loss 0.0012 cls_loss_mapping 0.0020 cls_loss_causal 0.4672 re_mapping 0.0056 re_causal 0.0147 /// teacc 98.90 lr 0.00010000
+Epoch 274, weight, value: tensor([[-0.2585,  0.0841, -0.1332,  ..., -0.0417, -0.2074, -0.1579],
+        [ 0.0131,  0.1000, -0.1129,  ..., -0.1110, -0.0481,  0.1067],
+        [ 0.0523, -0.1206, -0.1369,  ...,  0.0041, -0.0513, -0.0875],
+        ...,
+        [ 0.0840, -0.0481,  0.1256,  ...,  0.0618,  0.1764, -0.0109],
+        [ 0.1132, -0.1967, -0.1283,  ..., -0.2309, -0.0548,  0.1906],
+        [-0.1669,  0.0846,  0.0500,  ..., -0.2416, -0.1214, -0.0430]],
+       device='cuda:0'), grad: tensor([[ 4.9360e-08,  2.1420e-08,  1.2107e-08,  ...,  1.5832e-08,
+          4.6566e-09,  7.5437e-08],
+        [-2.6505e-06, -2.4457e-06,  7.5437e-08,  ...,  1.3970e-08,
+          5.4017e-08, -1.1802e-05],
+        [ 7.0222e-07,  3.5483e-07,  6.4261e-08,  ..., -3.8277e-07,
+          3.1665e-08,  6.6273e-06],
+        ...,
+        [-8.0466e-07, -1.6857e-07, -4.5635e-06,  ..., -7.4506e-09,
+         -2.0303e-06,  1.4910e-06],
+        [ 1.6019e-07,  2.9057e-07,  1.6857e-07,  ...,  6.0536e-08,
+          8.3819e-09,  4.1910e-07],
+        [ 9.5926e-08, -8.9407e-08, -7.5437e-08,  ...,  2.7940e-09,
+          4.6566e-08,  1.5367e-07]], device='cuda:0')
+Epoch 274, bias, value: tensor([-0.0125, -0.0160, -0.0044, -0.0181, -0.0089,  0.0032,  0.0099,  0.0156,
+         0.0172, -0.0108], device='cuda:0'), grad: tensor([ 3.6508e-07, -3.3110e-05,  1.5631e-05,  1.6373e-06,  3.0339e-05,
+         1.5097e-06,  1.5423e-05, -3.4541e-05,  2.1011e-06,  5.9232e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 273, time 214.73, cls_loss 0.0012 cls_loss_mapping 0.0023 cls_loss_causal 0.5334 re_mapping 0.0056 re_causal 0.0157 /// teacc 99.00 lr 0.00010000
+Epoch 275, weight, value: tensor([[-0.2595,  0.0841, -0.1333,  ..., -0.0420, -0.2093, -0.1583],
+        [ 0.0122,  0.0995, -0.1133,  ..., -0.1114, -0.0494,  0.1065],
+        [ 0.0521, -0.1207, -0.1376,  ...,  0.0041, -0.0514, -0.0884],
+        ...,
+        [ 0.0852, -0.0469,  0.1262,  ...,  0.0621,  0.1777, -0.0100],
+        [ 0.1130, -0.1970, -0.1284,  ..., -0.2328, -0.0560,  0.1904],
+        [-0.1671,  0.0846,  0.0499,  ..., -0.2436, -0.1226, -0.0431]],
+       device='cuda:0'), grad: tensor([[ 3.2596e-08, -5.2154e-08,  3.7253e-08,  ...,  2.5146e-08,
+          1.8626e-08,  9.3132e-10],
+        [ 1.5739e-07,  8.3819e-09,  9.4995e-08,  ...,  6.4261e-08,
+          8.8476e-08, -3.5390e-08],
+        [ 1.4342e-07,  2.9802e-08,  9.8720e-08,  ...,  2.1420e-08,
+          5.6811e-08,  5.5879e-09],
+        ...,
+        [-6.6962e-07,  1.5832e-08, -3.2783e-07,  ..., -1.7881e-07,
+         -3.5763e-07,  1.4901e-08],
+        [ 3.2596e-07,  5.2154e-08,  2.2352e-07,  ...,  1.7975e-07,
+          1.6391e-07,  1.3039e-08],
+        [ 3.7253e-09,  5.5879e-09, -1.3970e-08,  ...,  1.2107e-08,
+          1.8626e-09,  1.7695e-08]], device='cuda:0')
+Epoch 275, bias, value: tensor([-0.0126, -0.0163, -0.0046, -0.0183, -0.0089,  0.0029,  0.0101,  0.0165,
+         0.0171, -0.0109], device='cuda:0'), grad: tensor([-1.0245e-07,  1.3039e-06, -4.2282e-06, -1.1930e-06,  2.8405e-07,
+         8.5495e-07,  2.8722e-06, -6.2399e-07,  7.2084e-07,  1.2759e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 274, time 214.95, cls_loss 0.0011 cls_loss_mapping 0.0017 cls_loss_causal 0.4583 re_mapping 0.0052 re_causal 0.0144 /// teacc 98.92 lr 0.00010000
+Epoch 276, weight, value: tensor([[-0.2603,  0.0838, -0.1335,  ..., -0.0422, -0.2100, -0.1589],
+        [ 0.0121,  0.0991, -0.1134,  ..., -0.1115, -0.0495,  0.1068],
+        [ 0.0521, -0.1209, -0.1381,  ...,  0.0041, -0.0515, -0.0892],
+        ...,
+        [ 0.0853, -0.0470,  0.1263,  ...,  0.0622,  0.1779, -0.0101],
+        [ 0.1131, -0.1973, -0.1285,  ..., -0.2334, -0.0561,  0.1905],
+        [-0.1671,  0.0847,  0.0500,  ..., -0.2442, -0.1230, -0.0431]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09, -4.1910e-08,  2.7940e-09,  ...,  9.3132e-10,
+          3.7253e-09,  9.3132e-10],
+        [ 5.4389e-07,  3.1758e-07,  5.3365e-07,  ...,  9.3132e-09,
+          4.1258e-07, -3.9767e-07],
+        [-2.4840e-05,  7.4506e-09, -4.1686e-06,  ..., -5.4501e-06,
+         -1.4797e-05,  4.6566e-09],
+        ...,
+        [ 2.3857e-05, -5.9512e-07,  3.1609e-06,  ...,  5.4426e-06,
+          1.4037e-05,  2.0489e-08],
+        [ 7.4506e-09,  1.7695e-08,  5.5879e-09,  ...,  1.8626e-09,
+          5.5879e-09,  9.7789e-08],
+        [ 4.5635e-07,  5.1409e-07,  4.6752e-07,  ...,  2.7940e-09,
+          3.5111e-07,  1.1176e-08]], device='cuda:0')
+Epoch 276, bias, value: tensor([-0.0130, -0.0163, -0.0047, -0.0185, -0.0087,  0.0033,  0.0100,  0.0165,
+         0.0170, -0.0109], device='cuda:0'), grad: tensor([-6.9849e-08,  5.6811e-07, -2.9609e-05,  1.9372e-07, -9.8720e-08,
+        -9.5926e-07,  4.5355e-07,  2.7552e-05,  2.1234e-07,  1.7537e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 275, time 215.19, cls_loss 0.0012 cls_loss_mapping 0.0021 cls_loss_causal 0.4908 re_mapping 0.0052 re_causal 0.0149 /// teacc 98.97 lr 0.00010000
+Epoch 277, weight, value: tensor([[-0.2610,  0.0834, -0.1337,  ..., -0.0423, -0.2104, -0.1600],
+        [ 0.0112,  0.0991, -0.1140,  ..., -0.1116, -0.0511,  0.1063],
+        [ 0.0522, -0.1210, -0.1385,  ...,  0.0041, -0.0515, -0.0893],
+        ...,
+        [ 0.0860, -0.0471,  0.1267,  ...,  0.0621,  0.1791, -0.0096],
+        [ 0.1135, -0.1975, -0.1285,  ..., -0.2342, -0.0560,  0.1920],
+        [-0.1670,  0.0845,  0.0502,  ..., -0.2447, -0.1222, -0.0433]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09, -1.3970e-08,  2.4214e-08,  ...,  9.3132e-09,
+          1.8626e-09, -0.0000e+00],
+        [ 3.7253e-08,  1.4435e-07,  3.6880e-07,  ...,  7.8231e-08,
+          3.4459e-08,  2.7940e-09],
+        [-7.4506e-09,  8.7544e-08,  2.8778e-07,  ...,  1.8626e-07,
+         -4.6566e-09,  1.8626e-09],
+        ...,
+        [-5.3085e-08,  1.6484e-07,  4.4052e-07,  ...,  7.8231e-08,
+         -5.4017e-08,  0.0000e+00],
+        [-7.4506e-09,  1.2293e-07,  3.7625e-07,  ...,  7.5437e-08,
+          9.3132e-09, -2.1420e-08],
+        [ 1.0245e-08, -2.1476e-06, -3.0641e-06,  ...,  7.4506e-08,
+          5.5879e-09,  6.5193e-09]], device='cuda:0')
+Epoch 277, bias, value: tensor([-0.0133, -0.0169, -0.0048, -0.0181, -0.0085,  0.0031,  0.0090,  0.0169,
+         0.0176, -0.0109], device='cuda:0'), grad: tensor([ 2.4214e-08,  9.2015e-07,  3.8277e-07, -1.8328e-06,  5.8953e-07,
+         7.6517e-06, -2.3283e-08,  9.7230e-07,  8.3540e-07, -9.5516e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 276, time 215.09, cls_loss 0.0011 cls_loss_mapping 0.0019 cls_loss_causal 0.4571 re_mapping 0.0053 re_causal 0.0140 /// teacc 98.90 lr 0.00010000
+Epoch 278, weight, value: tensor([[-0.2621,  0.0835, -0.1341,  ..., -0.0424, -0.2117, -0.1604],
+        [ 0.0104,  0.0990, -0.1147,  ..., -0.1117, -0.0523,  0.1060],
+        [ 0.0522, -0.1211, -0.1392,  ...,  0.0040, -0.0517, -0.0894],
+        ...,
+        [ 0.0869, -0.0472,  0.1277,  ...,  0.0623,  0.1805, -0.0093],
+        [ 0.1135, -0.1977, -0.1286,  ..., -0.2360, -0.0563,  0.1921],
+        [-0.1673,  0.0845,  0.0500,  ..., -0.2462, -0.1235, -0.0434]],
+       device='cuda:0'), grad: tensor([[ 3.7067e-07,  7.4506e-09,  5.8673e-08,  ...,  2.9709e-07,
+          1.8161e-07,  1.6764e-08],
+        [ 2.5705e-07,  3.0734e-08,  4.6380e-07,  ...,  4.0792e-07,
+          8.3819e-08, -1.9558e-08],
+        [-1.9595e-06,  2.6077e-08,  1.2293e-07,  ..., -1.5739e-06,
+         -1.0161e-06,  2.2352e-08],
+        ...,
+        [ 9.5889e-06,  5.0664e-07,  2.5123e-05,  ...,  2.3052e-05,
+          3.2596e-07,  2.1793e-07],
+        [ 2.0601e-06,  3.6880e-07,  4.2766e-06,  ...,  4.1537e-06,
+          3.5856e-07, -1.1642e-07],
+        [-1.9558e-08, -2.0508e-06, -1.5963e-06,  ...,  1.0524e-07,
+          1.3039e-08,  5.6811e-08]], device='cuda:0')
+Epoch 278, bias, value: tensor([-0.0132, -0.0175, -0.0047, -0.0180, -0.0083,  0.0029,  0.0088,  0.0178,
+         0.0175, -0.0111], device='cuda:0'), grad: tensor([ 1.4696e-06,  1.0477e-06, -6.4857e-06, -4.7654e-05,  2.4457e-06,
+         1.3690e-06,  2.5891e-07,  4.7415e-05,  1.0625e-05, -1.0520e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 277, time 215.03, cls_loss 0.0010 cls_loss_mapping 0.0020 cls_loss_causal 0.4985 re_mapping 0.0050 re_causal 0.0147 /// teacc 98.91 lr 0.00010000
+Epoch 279, weight, value: tensor([[-0.2635,  0.0837, -0.1347,  ..., -0.0428, -0.2139, -0.1610],
+        [ 0.0105,  0.0990, -0.1146,  ..., -0.1117, -0.0523,  0.1069],
+        [ 0.0522, -0.1213, -0.1398,  ...,  0.0041, -0.0516, -0.0914],
+        ...,
+        [ 0.0869, -0.0474,  0.1277,  ...,  0.0622,  0.1805, -0.0096],
+        [ 0.1135, -0.1979, -0.1286,  ..., -0.2373, -0.0565,  0.1922],
+        [-0.1673,  0.0844,  0.0501,  ..., -0.2467, -0.1237, -0.0434]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09, -2.3190e-07,  3.7253e-09,  ..., -2.8871e-08,
+          9.3132e-10,  2.3283e-08],
+        [-9.2201e-08, -8.1025e-08,  2.9802e-08,  ...,  1.0245e-08,
+          2.4214e-08, -2.5611e-07],
+        [ 5.5879e-09,  1.3970e-08,  6.5193e-09,  ..., -1.8626e-09,
+         -3.7253e-09,  1.7695e-08],
+        ...,
+        [ 2.1420e-08,  6.4261e-08, -5.5879e-08,  ..., -1.6764e-08,
+         -4.8429e-08,  1.7881e-07],
+        [ 4.6566e-09,  6.5193e-08,  1.0245e-08,  ...,  2.7940e-09,
+          2.7940e-09,  1.2880e-06],
+        [ 4.2841e-08,  1.0338e-07, -2.7008e-08,  ...,  2.1420e-08,
+          2.0489e-08,  4.1910e-08]], device='cuda:0')
+Epoch 279, bias, value: tensor([-0.0132, -0.0172, -0.0050, -0.0181, -0.0079,  0.0027,  0.0088,  0.0176,
+         0.0175, -0.0111], device='cuda:0'), grad: tensor([-2.6356e-07, -6.1467e-07,  6.6124e-08,  3.0082e-07,  1.5181e-07,
+         1.3644e-06, -1.2308e-05,  4.2189e-07,  1.0476e-05,  3.7905e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 278, time 214.96, cls_loss 0.0012 cls_loss_mapping 0.0019 cls_loss_causal 0.4749 re_mapping 0.0049 re_causal 0.0135 /// teacc 99.09 lr 0.00010000
+Epoch 280, weight, value: tensor([[-0.2646,  0.0839, -0.1349,  ..., -0.0446, -0.2146, -0.1628],
+        [ 0.0090,  0.0990, -0.1155,  ..., -0.1118, -0.0542,  0.1064],
+        [ 0.0521, -0.1214, -0.1403,  ...,  0.0041, -0.0519, -0.0918],
+        ...,
+        [ 0.0883, -0.0475,  0.1286,  ...,  0.0622,  0.1824, -0.0092],
+        [ 0.1136, -0.1980, -0.1287,  ..., -0.2381, -0.0566,  0.1926],
+        [-0.1673,  0.0844,  0.0502,  ..., -0.2473, -0.1240, -0.0435]],
+       device='cuda:0'), grad: tensor([[ 3.4459e-08, -2.0210e-07,  9.3132e-10,  ...,  2.7008e-08,
+          5.1223e-08,  2.7940e-09],
+        [ 3.4459e-08,  9.6858e-08,  7.4506e-08,  ...,  6.2399e-08,
+          4.0047e-08, -2.2072e-07],
+        [-3.9116e-07,  3.5390e-08,  2.8871e-08,  ..., -3.5670e-07,
+         -6.0908e-07,  2.4214e-08],
+        ...,
+        [ 3.0920e-07,  3.4459e-08,  3.4459e-08,  ...,  3.4552e-07,
+          4.6007e-07,  1.8440e-07],
+        [-3.9116e-08,  3.5390e-08,  7.3574e-08,  ...,  6.5193e-08,
+          3.0734e-08, -1.9558e-08],
+        [ 5.7742e-08,  7.6462e-07,  4.9081e-07,  ...,  9.4995e-08,
+          1.2107e-08,  2.0210e-07]], device='cuda:0')
+Epoch 280, bias, value: tensor([-0.0134, -0.0186, -0.0052, -0.0179, -0.0077,  0.0025,  0.0091,  0.0190,
+         0.0176, -0.0112], device='cuda:0'), grad: tensor([-2.8498e-07,  1.0990e-07, -1.3607e-06, -1.9707e-06, -2.0787e-06,
+         5.0850e-07,  6.3423e-07,  1.5935e-06,  2.4121e-07,  2.6096e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 279, time 214.88, cls_loss 0.0010 cls_loss_mapping 0.0018 cls_loss_causal 0.5234 re_mapping 0.0045 re_causal 0.0139 /// teacc 98.89 lr 0.00010000
+Epoch 281, weight, value: tensor([[-0.2652,  0.0843, -0.1350,  ..., -0.0446, -0.2157, -0.1630],
+        [ 0.0089,  0.0989, -0.1155,  ..., -0.1119, -0.0542,  0.1066],
+        [ 0.0521, -0.1216, -0.1410,  ...,  0.0041, -0.0519, -0.0921],
+        ...,
+        [ 0.0884, -0.0477,  0.1287,  ...,  0.0623,  0.1825, -0.0093],
+        [ 0.1136, -0.1982, -0.1287,  ..., -0.2402, -0.0568,  0.1927],
+        [-0.1674,  0.0842,  0.0502,  ..., -0.2483, -0.1245, -0.0436]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-09, -1.4715e-07,  9.3132e-10,  ...,  4.6566e-09,
+          4.6566e-09,  0.0000e+00],
+        [ 1.3970e-07,  2.1420e-08,  6.0536e-08,  ...,  6.2399e-08,
+          7.5437e-08, -4.2841e-08],
+        [-5.6997e-07,  1.4901e-08,  8.3819e-09,  ..., -3.0454e-07,
+         -3.0641e-07,  8.3819e-09],
+        ...,
+        [-3.3900e-07,  1.3970e-08, -3.4273e-07,  ..., -1.1455e-07,
+         -1.9465e-07,  2.5146e-08],
+        [ 6.2212e-07,  4.1537e-07,  2.7474e-07,  ...,  2.4680e-07,
+          2.9709e-07, -1.7695e-08],
+        [ 1.1828e-07,  1.1194e-06,  5.0291e-08,  ...,  1.1176e-08,
+          1.3039e-08,  7.4506e-09]], device='cuda:0')
+Epoch 281, bias, value: tensor([-0.0129, -0.0186, -0.0051, -0.0181, -0.0076,  0.0025,  0.0090,  0.0190,
+         0.0175, -0.0113], device='cuda:0'), grad: tensor([-2.4401e-07,  4.1071e-07, -2.4252e-06,  1.2279e-05,  2.2631e-07,
+        -1.7405e-05,  6.2678e-07, -2.3097e-07,  3.0808e-06,  3.6638e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 280, time 215.05, cls_loss 0.0014 cls_loss_mapping 0.0029 cls_loss_causal 0.4772 re_mapping 0.0049 re_causal 0.0141 /// teacc 98.94 lr 0.00010000
+Epoch 282, weight, value: tensor([[-0.2666,  0.0845, -0.1351,  ..., -0.0447, -0.2163, -0.1638],
+        [ 0.0095,  0.0989, -0.1156,  ..., -0.1120, -0.0538,  0.1077],
+        [ 0.0520, -0.1217, -0.1417,  ...,  0.0040, -0.0521, -0.0924],
+        ...,
+        [ 0.0878, -0.0479,  0.1283,  ...,  0.0625,  0.1822, -0.0104],
+        [ 0.1137, -0.1982, -0.1288,  ..., -0.2410, -0.0575,  0.1934],
+        [-0.1673,  0.0841,  0.0513,  ..., -0.2496, -0.1231, -0.0437]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09, -6.8508e-06, -1.0245e-08,  ...,  1.8626e-09,
+          3.7253e-09,  9.3132e-09],
+        [ 5.0291e-08, -6.3330e-08,  4.1910e-08,  ...,  6.5193e-08,
+          1.6671e-07, -1.4808e-07],
+        [-7.0781e-08,  2.8871e-08, -2.9802e-08,  ..., -8.1956e-08,
+         -2.2165e-07, -1.2945e-07],
+        ...,
+        [ 3.7253e-09,  9.2201e-08, -3.0734e-08,  ..., -6.5193e-09,
+          2.7940e-09,  1.9930e-07],
+        [-2.1420e-08,  4.7497e-08,  4.6566e-09,  ...,  3.7253e-09,
+          8.3819e-09, -3.9116e-08],
+        [ 1.2107e-08,  2.3097e-07,  9.3132e-09,  ...,  5.5879e-09,
+          1.2107e-08,  5.1223e-08]], device='cuda:0')
+Epoch 282, bias, value: tensor([-0.0129, -0.0179, -0.0053, -0.0185, -0.0074,  0.0023,  0.0073,  0.0176,
+         0.0184, -0.0105], device='cuda:0'), grad: tensor([-1.5527e-05, -7.4506e-09, -1.2759e-06,  2.6356e-06,  5.4017e-08,
+         1.0483e-05,  1.8002e-06,  9.6392e-07,  1.7975e-07,  7.0222e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 281, time 214.69, cls_loss 0.0013 cls_loss_mapping 0.0018 cls_loss_causal 0.5125 re_mapping 0.0049 re_causal 0.0141 /// teacc 98.98 lr 0.00010000
+Epoch 283, weight, value: tensor([[-0.2689,  0.0844, -0.1355,  ..., -0.0449, -0.2190, -0.1659],
+        [ 0.0089,  0.0989, -0.1162,  ..., -0.1129, -0.0550,  0.1078],
+        [ 0.0518, -0.1219, -0.1429,  ...,  0.0039, -0.0524, -0.0926],
+        ...,
+        [ 0.0888, -0.0478,  0.1295,  ...,  0.0640,  0.1843, -0.0105],
+        [ 0.1137, -0.1987, -0.1289,  ..., -0.2438, -0.0587,  0.1936],
+        [-0.1676,  0.0842,  0.0507,  ..., -0.2585, -0.1279, -0.0439]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09, -1.8626e-09,  1.0245e-08,  ...,  5.5879e-09,
+          2.7940e-09,  1.8626e-09],
+        [-1.1921e-07,  9.3132e-09,  6.5193e-08,  ...,  4.3772e-08,
+          5.4948e-08, -7.1619e-07],
+        [ 4.2096e-07,  1.5832e-08,  2.4494e-07,  ...,  2.3749e-07,
+          3.5018e-07,  8.1025e-08],
+        ...,
+        [-5.8208e-07,  9.3132e-09, -3.8929e-07,  ..., -3.5018e-07,
+         -5.2713e-07,  7.0781e-08],
+        [ 1.7695e-07,  4.6566e-08,  8.9407e-08,  ...,  4.2841e-08,
+          5.5879e-08,  4.6287e-07],
+        [ 7.1712e-08, -7.5903e-07, -2.8033e-07,  ...,  4.1910e-08,
+          5.5879e-08,  2.4214e-08]], device='cuda:0')
+Epoch 283, bias, value: tensor([-0.0133, -0.0185, -0.0054, -0.0162, -0.0073,  0.0004,  0.0075,  0.0186,
+         0.0183, -0.0109], device='cuda:0'), grad: tensor([ 8.2888e-08, -1.5749e-06,  8.9314e-07, -4.7404e-07,  1.6000e-06,
+         1.0347e-06,  2.1979e-07, -7.8045e-07,  1.5115e-06, -2.5053e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 282, time 214.74, cls_loss 0.0011 cls_loss_mapping 0.0018 cls_loss_causal 0.5120 re_mapping 0.0049 re_causal 0.0144 /// teacc 98.98 lr 0.00010000
+Epoch 284, weight, value: tensor([[-0.2696,  0.0839, -0.1358,  ..., -0.0451, -0.2201, -0.1664],
+        [ 0.0089,  0.0982, -0.1164,  ..., -0.1131, -0.0551,  0.1083],
+        [ 0.0518, -0.1220, -0.1433,  ...,  0.0039, -0.0524, -0.0929],
+        ...,
+        [ 0.0890, -0.0480,  0.1299,  ...,  0.0644,  0.1847, -0.0109],
+        [ 0.1136, -0.1989, -0.1290,  ..., -0.2451, -0.0595,  0.1937],
+        [-0.1678,  0.0849,  0.0507,  ..., -0.2595, -0.1289, -0.0439]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09, -3.7253e-09,  9.3132e-09,  ...,  6.5193e-09,
+          4.6566e-09,  1.8626e-09],
+        [ 1.0338e-07, -1.8626e-09,  1.4529e-07,  ...,  9.5926e-08,
+          9.0338e-08, -4.0047e-08],
+        [ 9.3132e-10,  2.7940e-09,  5.4017e-08,  ..., -1.6764e-08,
+          4.5635e-08,  5.5879e-09],
+        ...,
+        [-6.7428e-07,  6.5193e-09, -9.7696e-07,  ..., -4.9081e-07,
+         -6.6962e-07,  1.9558e-08],
+        [ 2.3656e-07,  1.3970e-08,  2.8498e-07,  ...,  1.3411e-07,
+          1.8254e-07,  5.5879e-09],
+        [ 4.0978e-08,  9.3225e-07,  3.3528e-08,  ...,  4.0047e-08,
+          3.9116e-08,  7.8510e-07]], device='cuda:0')
+Epoch 284, bias, value: tensor([-0.0139, -0.0183, -0.0055, -0.0166, -0.0072,  0.0004,  0.0074,  0.0186,
+         0.0182, -0.0106], device='cuda:0'), grad: tensor([ 1.2293e-07,  2.7288e-07,  2.4214e-08,  6.0070e-07, -3.4682e-06,
+         1.9092e-07, -7.5810e-07, -1.4128e-06,  6.0536e-07,  3.8110e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 283, time 214.94, cls_loss 0.0014 cls_loss_mapping 0.0024 cls_loss_causal 0.4898 re_mapping 0.0051 re_causal 0.0136 /// teacc 99.02 lr 0.00010000
+Epoch 285, weight, value: tensor([[-0.2702,  0.0839, -0.1367,  ..., -0.0458, -0.2222, -0.1670],
+        [ 0.0088,  0.0979, -0.1166,  ..., -0.1133, -0.0552,  0.1087],
+        [ 0.0520, -0.1222, -0.1438,  ...,  0.0040, -0.0523, -0.0931],
+        ...,
+        [ 0.0892, -0.0481,  0.1303,  ...,  0.0645,  0.1851, -0.0110],
+        [ 0.1136, -0.1998, -0.1292,  ..., -0.2475, -0.0603,  0.1935],
+        [-0.1679,  0.0852,  0.0508,  ..., -0.2600, -0.1297, -0.0436]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -2.7940e-09,  2.7940e-09,  ...,  9.3132e-10,
+          1.8626e-09,  1.8626e-09],
+        [ 1.1362e-07, -3.2596e-08,  1.1176e-07,  ...,  6.8918e-08,
+          1.4901e-07, -9.4157e-07],
+        [-1.7695e-07,  1.5832e-08,  1.6578e-07,  ...,  1.7229e-07,
+         -3.3341e-07,  5.7835e-07],
+        ...,
+        [-1.3970e-07,  4.3586e-07,  1.8552e-06,  ..., -5.5879e-09,
+          1.5460e-07,  1.8626e-08],
+        [ 1.4808e-07,  5.5879e-09,  1.2480e-07,  ...,  3.7253e-08,
+          1.9372e-07,  1.4901e-08],
+        [ 3.1665e-08, -4.6566e-07, -2.3153e-06,  ...,  5.5879e-09,
+         -2.1048e-07,  4.0978e-08]], device='cuda:0')
+Epoch 285, bias, value: tensor([-0.0142, -0.0184, -0.0056, -0.0165, -0.0074,  0.0009,  0.0072,  0.0188,
+         0.0179, -0.0105], device='cuda:0'), grad: tensor([ 6.0536e-08, -7.2680e-06,  4.7013e-06, -5.4855e-07,  2.8405e-07,
+         3.1665e-08,  2.2762e-06,  2.5686e-06,  4.9639e-07, -2.6412e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 284----------------------------------------------------
+epoch 284, time 231.45, cls_loss 0.0010 cls_loss_mapping 0.0016 cls_loss_causal 0.4645 re_mapping 0.0048 re_causal 0.0137 /// teacc 99.17 lr 0.00010000
+Epoch 286, weight, value: tensor([[-0.2708,  0.0840, -0.1369,  ..., -0.0461, -0.2231, -0.1672],
+        [ 0.0088,  0.0980, -0.1160,  ..., -0.1134, -0.0553,  0.1088],
+        [ 0.0521, -0.1222, -0.1442,  ...,  0.0041, -0.0522, -0.0932],
+        ...,
+        [ 0.0893, -0.0483,  0.1300,  ...,  0.0646,  0.1853, -0.0110],
+        [ 0.1136, -0.2000, -0.1294,  ..., -0.2492, -0.0611,  0.1935],
+        [-0.1681,  0.0848,  0.0506,  ..., -0.2604, -0.1303, -0.0439]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -4.0419e-07,  9.3132e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-09,  5.1223e-08,  6.5193e-09,  ...,  4.6566e-09,
+          4.6566e-09, -7.4506e-09],
+        [-5.8673e-08,  1.9558e-08,  4.6566e-09,  ..., -4.1910e-08,
+         -5.0291e-08,  2.7940e-09],
+        ...,
+        [ 1.4901e-08,  2.6077e-08, -7.4506e-09,  ...,  1.1176e-08,
+          1.1176e-08,  5.5879e-09],
+        [ 2.2352e-08,  8.1956e-08,  1.8626e-09,  ...,  1.8626e-08,
+          2.2352e-08, -9.3132e-10],
+        [ 3.7253e-09, -1.8626e-09, -7.9162e-08,  ...,  1.8626e-09,
+          2.7940e-09,  3.2596e-08]], device='cuda:0')
+Epoch 286, bias, value: tensor([-0.0140, -0.0178, -0.0055, -0.0165, -0.0070,  0.0008,  0.0073,  0.0184,
+         0.0177, -0.0108], device='cuda:0'), grad: tensor([-1.0822e-06,  1.5087e-07, -2.1420e-07,  6.3330e-08,  1.1828e-07,
+         2.9430e-07,  1.3970e-07,  1.5274e-07,  3.3341e-07,  6.2399e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 285, time 214.98, cls_loss 0.0009 cls_loss_mapping 0.0019 cls_loss_causal 0.4962 re_mapping 0.0049 re_causal 0.0145 /// teacc 99.04 lr 0.00010000
+Epoch 287, weight, value: tensor([[-0.2714,  0.0844, -0.1373,  ..., -0.0462, -0.2240, -0.1673],
+        [ 0.0088,  0.0981, -0.1158,  ..., -0.1134, -0.0553,  0.1090],
+        [ 0.0528, -0.1223, -0.1441,  ...,  0.0047, -0.0512, -0.0933],
+        ...,
+        [ 0.0891, -0.0485,  0.1299,  ...,  0.0642,  0.1849, -0.0111],
+        [ 0.1136, -0.2006, -0.1294,  ..., -0.2500, -0.0613,  0.1936],
+        [-0.1681,  0.0850,  0.0507,  ..., -0.2606, -0.1306, -0.0439]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 3.7253e-09, -7.4506e-09,  1.9558e-08,  ...,  1.9558e-08,
+          8.3819e-09, -3.2596e-08],
+        [-1.8626e-08,  9.3132e-10,  7.6648e-07,  ...,  1.1437e-06,
+         -1.7695e-08,  3.7253e-09],
+        ...,
+        [ 6.5193e-09,  3.7253e-09, -2.1420e-08,  ...,  3.7253e-09,
+          2.7940e-09,  7.3574e-08],
+        [ 1.8626e-09,  1.8626e-09,  5.5879e-09,  ...,  3.7253e-09,
+          9.3132e-10,  7.4506e-09],
+        [ 2.7940e-09, -4.6566e-09, -1.8626e-09,  ...,  1.8626e-09,
+          3.7253e-09,  9.3132e-09]], device='cuda:0')
+Epoch 287, bias, value: tensor([-0.0144, -0.0176, -0.0050, -0.0171, -0.0073,  0.0011,  0.0076,  0.0181,
+         0.0177, -0.0107], device='cuda:0'), grad: tensor([ 2.0489e-08,  0.0000e+00,  2.5053e-06, -2.6897e-06, -2.9430e-07,
+         1.2480e-07, -1.4901e-08,  2.7195e-07,  3.8184e-08,  3.1665e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 286, time 215.06, cls_loss 0.0012 cls_loss_mapping 0.0025 cls_loss_causal 0.4806 re_mapping 0.0050 re_causal 0.0139 /// teacc 98.98 lr 0.00010000
+Epoch 288, weight, value: tensor([[-0.2723,  0.0847, -0.1374,  ..., -0.0462, -0.2245, -0.1676],
+        [ 0.0088,  0.0980, -0.1159,  ..., -0.1136, -0.0553,  0.1091],
+        [ 0.0524, -0.1225, -0.1458,  ...,  0.0043, -0.0516, -0.0935],
+        ...,
+        [ 0.0893, -0.0486,  0.1302,  ...,  0.0647,  0.1852, -0.0111],
+        [ 0.1138, -0.2008, -0.1294,  ..., -0.2506, -0.0610,  0.1940],
+        [-0.1682,  0.0843,  0.0508,  ..., -0.2610, -0.1308, -0.0443]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09,  1.1176e-08,  0.0000e+00,  ...,  2.7940e-09,
+          9.3132e-10,  9.3132e-10],
+        [ 4.6566e-09,  3.9078e-06,  1.8626e-09,  ...,  9.3132e-10,
+          1.8626e-09, -1.2107e-08],
+        [-9.3132e-09,  3.8184e-08,  8.3819e-09,  ..., -2.1420e-08,
+         -1.8626e-09,  4.6566e-09],
+        ...,
+        [-4.6566e-09,  1.8626e-08, -1.4901e-08,  ...,  8.3819e-09,
+         -1.0245e-08,  1.0245e-08],
+        [ 1.3039e-08,  1.4696e-06,  1.8626e-09,  ...,  2.7940e-09,
+          1.8626e-09,  3.7253e-09],
+        [ 6.7055e-08,  2.1830e-06, -6.5193e-09,  ...,  9.3132e-10,
+          1.8626e-09,  1.1362e-07]], device='cuda:0')
+Epoch 288, bias, value: tensor([-0.0147, -0.0176, -0.0055, -0.0170, -0.0072,  0.0013,  0.0076,  0.0182,
+         0.0178, -0.0109], device='cuda:0'), grad: tensor([ 1.1828e-07,  4.8697e-05,  4.9546e-07,  4.4525e-05, -3.6322e-08,
+        -1.1933e-04,  1.3039e-07,  1.0617e-07,  1.7866e-05,  7.4692e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 287, time 214.77, cls_loss 0.0011 cls_loss_mapping 0.0021 cls_loss_causal 0.4833 re_mapping 0.0049 re_causal 0.0142 /// teacc 99.03 lr 0.00010000
+Epoch 289, weight, value: tensor([[-0.2750,  0.0857, -0.1379,  ..., -0.0468, -0.2275, -0.1658],
+        [ 0.0085,  0.0978, -0.1161,  ..., -0.1136, -0.0559,  0.1094],
+        [ 0.0525, -0.1227, -0.1466,  ...,  0.0045, -0.0515, -0.0948],
+        ...,
+        [ 0.0896, -0.0488,  0.1305,  ...,  0.0647,  0.1857, -0.0110],
+        [ 0.1138, -0.2012, -0.1295,  ..., -0.2515, -0.0612,  0.1941],
+        [-0.1677,  0.0848,  0.0516,  ..., -0.2612, -0.1309, -0.0445]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09,  4.6566e-09,  6.5193e-09,  ...,  5.5879e-09,
+          3.7253e-09,  0.0000e+00],
+        [ 5.5879e-08, -8.3819e-09,  9.2201e-08,  ...,  2.5146e-08,
+          9.0338e-08, -3.4459e-08],
+        [-1.1176e-08,  3.7253e-09, -9.4064e-08,  ..., -1.0245e-08,
+         -7.4506e-08,  2.7940e-09],
+        ...,
+        [-9.4064e-08,  1.3970e-08, -7.5437e-08,  ..., -2.3283e-08,
+         -1.0058e-07,  2.4214e-08],
+        [ 5.6811e-08,  4.5635e-08,  1.3039e-08,  ...,  7.4506e-09,
+          1.0245e-08,  9.3132e-10],
+        [ 3.7253e-08, -2.7940e-09,  4.9360e-08,  ...,  1.0245e-08,
+          5.0291e-08,  1.8626e-09]], device='cuda:0')
+Epoch 289, bias, value: tensor([-0.0136, -0.0178, -0.0055, -0.0171, -0.0082,  0.0019,  0.0074,  0.0183,
+         0.0177, -0.0105], device='cuda:0'), grad: tensor([ 8.2888e-08,  3.1572e-07, -5.2806e-07,  5.5879e-09,  6.6124e-08,
+        -2.2873e-06,  1.1595e-06,  4.4703e-08,  9.4902e-07,  1.9372e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 288, time 215.26, cls_loss 0.0013 cls_loss_mapping 0.0014 cls_loss_causal 0.4624 re_mapping 0.0048 re_causal 0.0139 /// teacc 98.97 lr 0.00010000
+Epoch 290, weight, value: tensor([[-0.2767,  0.0827, -0.1383,  ..., -0.0471, -0.2295, -0.1660],
+        [ 0.0083,  0.0979, -0.1162,  ..., -0.1138, -0.0560,  0.1096],
+        [ 0.0523, -0.1229, -0.1477,  ...,  0.0044, -0.0518, -0.0950],
+        ...,
+        [ 0.0901, -0.0489,  0.1308,  ...,  0.0650,  0.1862, -0.0110],
+        [ 0.1138, -0.2015, -0.1296,  ..., -0.2538, -0.0616,  0.1941],
+        [-0.1677,  0.0877,  0.0516,  ..., -0.2614, -0.1311, -0.0447]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09, -1.2387e-07,  2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09],
+        [ 8.3819e-09,  3.9116e-08,  5.5879e-08,  ...,  3.7253e-09,
+          8.3819e-09, -8.5682e-08],
+        [ 3.8184e-08,  1.8626e-09,  2.7008e-08,  ...,  1.8626e-08,
+          4.2841e-08,  1.3039e-08],
+        ...,
+        [-4.2841e-08,  6.4261e-08, -2.7940e-08,  ..., -2.5146e-08,
+         -5.7742e-08,  9.1270e-08],
+        [-1.9558e-08,  1.8626e-08,  1.1176e-08,  ...,  9.3132e-10,
+          1.8626e-09, -2.4214e-08],
+        [ 3.7253e-09, -1.5283e-06, -1.0794e-06,  ...,  9.3132e-10,
+          3.7253e-09,  1.2107e-08]], device='cuda:0')
+Epoch 290, bias, value: tensor([-0.0165, -0.0178, -0.0057, -0.0171, -0.0086,  0.0021,  0.0071,  0.0188,
+         0.0176, -0.0080], device='cuda:0'), grad: tensor([-2.3004e-07,  9.1270e-08,  9.8720e-08,  1.7695e-08,  4.0792e-06,
+         9.2201e-08, -6.9942e-07,  2.0489e-07,  2.1420e-08, -3.6657e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 289, time 215.28, cls_loss 0.0008 cls_loss_mapping 0.0016 cls_loss_causal 0.4918 re_mapping 0.0049 re_causal 0.0147 /// teacc 98.99 lr 0.00010000
+Epoch 291, weight, value: tensor([[-0.2769,  0.0828, -0.1387,  ..., -0.0473, -0.2300, -0.1661],
+        [ 0.0083,  0.0979, -0.1162,  ..., -0.1139, -0.0561,  0.1098],
+        [ 0.0524, -0.1230, -0.1481,  ...,  0.0044, -0.0518, -0.0950],
+        ...,
+        [ 0.0901, -0.0490,  0.1309,  ...,  0.0650,  0.1863, -0.0111],
+        [ 0.1138, -0.2018, -0.1296,  ..., -0.2546, -0.0618,  0.1942],
+        [-0.1677,  0.0875,  0.0516,  ..., -0.2618, -0.1312, -0.0448]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  4.4703e-08,  1.1176e-08,  ...,  1.8626e-09,
+          4.6566e-09,  1.8626e-09],
+        [ 4.7497e-08,  7.5437e-08,  9.7789e-08,  ...,  2.5146e-08,
+          6.8918e-08, -1.0524e-07],
+        [ 2.9802e-08,  3.4459e-08,  4.7497e-08,  ...,  1.3970e-08,
+          3.2596e-08,  6.0536e-08],
+        ...,
+        [-2.5146e-07,  4.0978e-08, -5.3085e-07,  ..., -1.3597e-07,
+         -3.8836e-07,  1.1455e-07],
+        [ 8.3819e-09,  2.7213e-06,  2.7940e-08,  ...,  4.6566e-09,
+          1.1176e-08,  3.7253e-08],
+        [ 1.6671e-07,  2.6077e-08,  2.4121e-07,  ...,  7.5437e-08,
+          2.4773e-07,  9.0338e-08]], device='cuda:0')
+Epoch 291, bias, value: tensor([-0.0165, -0.0178, -0.0057, -0.0171, -0.0084,  0.0015,  0.0079,  0.0188,
+         0.0176, -0.0082], device='cuda:0'), grad: tensor([ 2.0675e-07,  2.2445e-07,  2.0396e-07,  2.2501e-06, -2.3283e-07,
+        -4.7833e-05,  3.3319e-05, -2.8312e-07,  1.1653e-05,  4.4610e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 290, time 215.08, cls_loss 0.0012 cls_loss_mapping 0.0020 cls_loss_causal 0.5037 re_mapping 0.0049 re_causal 0.0141 /// teacc 98.97 lr 0.00010000
+Epoch 292, weight, value: tensor([[-0.2767,  0.0829, -0.1396,  ..., -0.0481, -0.2307, -0.1658],
+        [ 0.0083,  0.0978, -0.1157,  ..., -0.1137, -0.0561,  0.1103],
+        [ 0.0527, -0.1231, -0.1483,  ...,  0.0046, -0.0514, -0.0951],
+        ...,
+        [ 0.0901, -0.0493,  0.1305,  ...,  0.0648,  0.1862, -0.0115],
+        [ 0.1138, -0.2040, -0.1297,  ..., -0.2565, -0.0621,  0.1940],
+        [-0.1678,  0.0874,  0.0516,  ..., -0.2622, -0.1314, -0.0451]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -3.5670e-07,  3.7253e-09,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 5.5879e-09,  1.6764e-08,  2.0489e-08,  ...,  1.3970e-08,
+          4.6566e-09, -1.3039e-08],
+        [ 2.7940e-08,  1.0245e-08,  2.9802e-08,  ...,  2.9802e-08,
+          3.2596e-08,  1.2107e-08],
+        ...,
+        [-3.3528e-08,  3.8184e-08, -4.6566e-09,  ..., -1.3039e-08,
+         -4.0978e-08,  2.8871e-08],
+        [-5.0291e-08,  2.2352e-08,  1.6764e-08,  ...,  4.6566e-09,
+          9.3132e-10, -1.1828e-07],
+        [ 4.0047e-08,  1.9558e-07, -7.9162e-08,  ...,  1.8626e-09,
+          9.3132e-10,  2.5611e-07]], device='cuda:0')
+Epoch 292, bias, value: tensor([-0.0164, -0.0172, -0.0056, -0.0174, -0.0082,  0.0021,  0.0082,  0.0182,
+         0.0173, -0.0083], device='cuda:0'), grad: tensor([-7.0222e-07,  9.0338e-08,  1.0524e-07, -6.2399e-08, -4.7870e-07,
+         4.1537e-07, -9.5926e-08,  1.1176e-07, -1.5367e-07,  7.7393e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 291, time 215.22, cls_loss 0.0012 cls_loss_mapping 0.0014 cls_loss_causal 0.4478 re_mapping 0.0048 re_causal 0.0134 /// teacc 99.02 lr 0.00010000
+Epoch 293, weight, value: tensor([[-0.2779,  0.0829, -0.1411,  ..., -0.0484, -0.2320, -0.1669],
+        [ 0.0082,  0.0976, -0.1158,  ..., -0.1139, -0.0563,  0.1107],
+        [ 0.0531, -0.1233, -0.1492,  ...,  0.0051, -0.0510, -0.0956],
+        ...,
+        [ 0.0901, -0.0495,  0.1307,  ...,  0.0645,  0.1864, -0.0116],
+        [ 0.1138, -0.2044, -0.1298,  ..., -0.2578, -0.0625,  0.1942],
+        [-0.1678,  0.0880,  0.0523,  ..., -0.2626, -0.1315, -0.0438]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -4.9360e-08,  9.3132e-10,  ...,  2.7940e-09,
+          0.0000e+00,  9.3132e-10],
+        [ 4.2841e-08, -6.5193e-09,  5.7742e-08,  ...,  2.7940e-08,
+          3.5390e-08, -1.2107e-08],
+        [ 9.3132e-09,  9.3132e-09,  2.8871e-08,  ..., -2.3283e-08,
+          1.3970e-08,  6.5193e-09],
+        ...,
+        [-6.7987e-08,  8.3819e-09, -1.0431e-07,  ..., -3.7253e-08,
+         -6.8918e-08,  2.2352e-08],
+        [-4.0047e-08,  1.1176e-08,  4.6566e-09,  ...,  8.3819e-09,
+          2.7940e-09, -1.3504e-07],
+        [ 1.4901e-08,  2.5146e-08, -1.4901e-08,  ...,  1.0245e-08,
+          1.1176e-08,  2.7940e-08]], device='cuda:0')
+Epoch 293, bias, value: tensor([-0.0164, -0.0172, -0.0057, -0.0171, -0.0099,  0.0020,  0.0085,  0.0181,
+         0.0172, -0.0075], device='cuda:0'), grad: tensor([-4.1910e-08,  1.3132e-07,  4.6566e-09,  2.3283e-08,  2.0768e-07,
+         2.1514e-07, -2.5146e-06, -8.4750e-08,  1.9800e-06,  8.8476e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 292, time 214.97, cls_loss 0.0011 cls_loss_mapping 0.0016 cls_loss_causal 0.4983 re_mapping 0.0048 re_causal 0.0142 /// teacc 99.02 lr 0.00010000
+Epoch 294, weight, value: tensor([[-0.2811,  0.0829, -0.1424,  ..., -0.0491, -0.2358, -0.1695],
+        [ 0.0080,  0.0983, -0.1154,  ..., -0.1138, -0.0570,  0.1112],
+        [ 0.0532, -0.1235, -0.1500,  ...,  0.0054, -0.0509, -0.0954],
+        ...,
+        [ 0.0906, -0.0495,  0.1312,  ...,  0.0655,  0.1877, -0.0117],
+        [ 0.1138, -0.2049, -0.1299,  ..., -0.2602, -0.0637,  0.1941],
+        [-0.1680,  0.0880,  0.0524,  ..., -0.2632, -0.1320, -0.0437]],
+       device='cuda:0'), grad: tensor([[ 3.4925e-08,  4.6566e-10,  6.5193e-08,  ...,  5.1223e-09,
+          4.7497e-08,  4.6566e-10],
+        [ 3.4273e-07, -3.3528e-08,  4.8848e-07,  ...,  7.0781e-08,
+          3.5670e-07,  1.9092e-08],
+        [ 1.5274e-07,  9.3132e-10,  2.8778e-07,  ..., -2.9337e-08,
+          2.0955e-07,  7.9162e-09],
+        ...,
+        [-3.4943e-06,  1.7695e-08, -6.2138e-06,  ..., -1.7462e-07,
+         -4.5821e-06, -2.2119e-07],
+        [ 1.9418e-07,  2.3749e-08,  2.8033e-07,  ...,  5.9139e-08,
+          2.0536e-07,  8.9407e-08],
+        [ 2.0247e-06,  1.0664e-07,  3.7551e-06,  ...,  4.5635e-08,
+          2.7716e-06,  6.8452e-08]], device='cuda:0')
+Epoch 294, bias, value: tensor([-0.0165, -0.0168, -0.0052, -0.0191, -0.0101,  0.0019,  0.0085,  0.0185,
+         0.0171, -0.0075], device='cuda:0'), grad: tensor([ 1.4575e-07,  5.5134e-07,  3.0547e-07,  7.6089e-07,  1.5320e-07,
+         1.2163e-06, -1.9278e-07, -1.0133e-05,  6.7940e-07,  6.5342e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 293, time 215.12, cls_loss 0.0011 cls_loss_mapping 0.0016 cls_loss_causal 0.4852 re_mapping 0.0050 re_causal 0.0142 /// teacc 99.02 lr 0.00010000
+Epoch 295, weight, value: tensor([[-0.2817,  0.0830, -0.1428,  ..., -0.0494, -0.2363, -0.1689],
+        [ 0.0078,  0.0985, -0.1157,  ..., -0.1141, -0.0574,  0.1113],
+        [ 0.0532, -0.1238, -0.1507,  ...,  0.0054, -0.0509, -0.0957],
+        ...,
+        [ 0.0910, -0.0497,  0.1318,  ...,  0.0659,  0.1883, -0.0116],
+        [ 0.1137, -0.2053, -0.1300,  ..., -0.2627, -0.0643,  0.1941],
+        [-0.1681,  0.0879,  0.0523,  ..., -0.2643, -0.1333, -0.0438]],
+       device='cuda:0'), grad: tensor([[ 3.2596e-09, -5.6811e-08,  3.7253e-09,  ...,  1.8626e-09,
+          3.7253e-09,  1.3970e-09],
+        [ 4.8894e-08,  4.9360e-08,  5.7742e-08,  ...,  3.0734e-08,
+          4.7963e-08,  1.9092e-08],
+        [ 1.0291e-07,  1.0245e-08,  1.5320e-07,  ...,  7.3109e-08,
+          8.8010e-08,  6.0536e-09],
+        ...,
+        [-1.1753e-06,  4.1444e-08, -1.6969e-06,  ..., -6.8964e-07,
+         -1.2554e-06,  3.7719e-08],
+        [ 4.7032e-08,  3.3062e-08,  8.4285e-08,  ...,  4.4703e-08,
+          5.5414e-08, -2.7008e-08],
+        [ 9.3970e-07,  8.2701e-06,  1.3616e-06,  ...,  5.2527e-07,
+          1.0319e-06,  4.8727e-06]], device='cuda:0')
+Epoch 295, bias, value: tensor([-0.0165, -0.0169, -0.0051, -0.0190, -0.0099,  0.0018,  0.0085,  0.0188,
+         0.0169, -0.0077], device='cuda:0'), grad: tensor([-1.1735e-07,  3.1060e-07,  2.3469e-07,  8.8476e-08, -3.3677e-05,
+        -4.7032e-08,  7.1246e-08, -2.4699e-06,  1.6391e-07,  3.5495e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 294, time 215.31, cls_loss 0.0010 cls_loss_mapping 0.0015 cls_loss_causal 0.4753 re_mapping 0.0050 re_causal 0.0141 /// teacc 99.07 lr 0.00010000
+Epoch 296, weight, value: tensor([[-0.2823,  0.0830, -0.1432,  ..., -0.0495, -0.2365, -0.1692],
+        [ 0.0078,  0.0991, -0.1157,  ..., -0.1142, -0.0574,  0.1125],
+        [ 0.0538, -0.1241, -0.1514,  ...,  0.0058, -0.0507, -0.0962],
+        ...,
+        [ 0.0910, -0.0501,  0.1323,  ...,  0.0661,  0.1887, -0.0120],
+        [ 0.1137, -0.2057, -0.1301,  ..., -0.2639, -0.0646,  0.1938],
+        [-0.1682,  0.0876,  0.0521,  ..., -0.2649, -0.1341, -0.0440]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-09, -4.0652e-07,  5.1223e-09,  ...,  4.6566e-10,
+          4.6566e-10,  3.5856e-08],
+        [ 1.8086e-06,  2.8405e-08,  3.7253e-09,  ...,  8.8476e-09,
+          9.7789e-09,  6.8843e-06],
+        [-3.7253e-09,  9.3132e-09,  7.4506e-09,  ..., -1.3504e-08,
+         -2.7474e-08,  1.5879e-07],
+        ...,
+        [ 9.4064e-08,  8.9407e-08,  2.5611e-08,  ...,  1.1176e-08,
+          1.4435e-08,  3.9022e-07],
+        [-2.0601e-06,  1.2992e-07,  1.3970e-08,  ...,  1.8626e-09,
+          9.3132e-10, -7.8529e-06],
+        [ 2.0955e-08,  1.8686e-05, -8.4750e-08,  ...,  4.6566e-10,
+          4.6566e-10,  1.6466e-05]], device='cuda:0')
+Epoch 296, bias, value: tensor([-0.0165, -0.0162, -0.0050, -0.0197, -0.0090,  0.0018,  0.0084,  0.0186,
+         0.0167, -0.0081], device='cuda:0'), grad: tensor([-7.6601e-07,  8.2403e-06,  1.3504e-07,  6.7055e-08, -6.8903e-05,
+        -1.8161e-07,  5.8860e-07,  8.0653e-07, -8.8662e-06,  6.8903e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 295, time 214.83, cls_loss 0.0012 cls_loss_mapping 0.0021 cls_loss_causal 0.5254 re_mapping 0.0050 re_causal 0.0146 /// teacc 99.02 lr 0.00010000
+Epoch 297, weight, value: tensor([[-0.2825,  0.0830, -0.1443,  ..., -0.0500, -0.2395, -0.1692],
+        [ 0.0077,  0.0990, -0.1158,  ..., -0.1145, -0.0576,  0.1126],
+        [ 0.0546, -0.1245, -0.1519,  ...,  0.0063, -0.0504, -0.0964],
+        ...,
+        [ 0.0909, -0.0495,  0.1328,  ...,  0.0660,  0.1891, -0.0121],
+        [ 0.1138, -0.2061, -0.1302,  ..., -0.2634, -0.0650,  0.1942],
+        [-0.1685,  0.0874,  0.0518,  ..., -0.2661, -0.1353, -0.0443]],
+       device='cuda:0'), grad: tensor([[ 1.9558e-08,  1.1176e-08,  3.5390e-08,  ...,  1.1176e-08,
+          3.4459e-08,  0.0000e+00],
+        [ 1.3597e-07, -5.1223e-08,  2.9150e-07,  ...,  9.3132e-08,
+          2.7474e-07, -2.4773e-07],
+        [-1.4901e-08,  9.3132e-09,  2.6077e-08,  ..., -9.3132e-10,
+         -1.9558e-08,  1.8626e-09],
+        ...,
+        [-2.4959e-07, -1.3690e-07, -5.0012e-07,  ..., -1.5646e-07,
+         -4.4797e-07,  6.6124e-08],
+        [ 1.3039e-08,  2.2352e-08,  1.1176e-08,  ...,  8.3819e-09,
+          2.5146e-08,  1.2107e-08],
+        [ 6.7987e-08,  1.8440e-07, -5.3085e-08,  ...,  3.0734e-08,
+          8.6613e-08,  1.8254e-07]], device='cuda:0')
+Epoch 297, bias, value: tensor([-0.0165, -0.0162, -0.0047, -0.0199, -0.0087,  0.0016,  0.0086,  0.0189,
+         0.0167, -0.0085], device='cuda:0'), grad: tensor([ 9.4995e-08,  1.7043e-07, -7.3574e-08,  2.2352e-08,  1.5739e-07,
+        -5.3085e-07,  1.0617e-07, -1.0049e-06,  1.3411e-07,  9.2853e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 296, time 214.87, cls_loss 0.0013 cls_loss_mapping 0.0022 cls_loss_causal 0.4706 re_mapping 0.0051 re_causal 0.0138 /// teacc 98.97 lr 0.00010000
+Epoch 298, weight, value: tensor([[-0.2838,  0.0829, -0.1449,  ..., -0.0510, -0.2402, -0.1694],
+        [ 0.0075,  0.0991, -0.1160,  ..., -0.1148, -0.0578,  0.1128],
+        [ 0.0546, -0.1246, -0.1526,  ...,  0.0065, -0.0503, -0.0965],
+        ...,
+        [ 0.0911, -0.0494,  0.1330,  ...,  0.0661,  0.1894, -0.0123],
+        [ 0.1142, -0.2064, -0.1302,  ..., -0.2644, -0.0652,  0.1948],
+        [-0.1687,  0.0874,  0.0518,  ..., -0.2667, -0.1357, -0.0445]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-08,  2.0489e-08,  2.6077e-08,  ...,  6.5193e-09,
+          1.1176e-08,  7.4506e-09],
+        [ 1.7881e-07,  6.5286e-07,  7.4413e-07,  ...,  5.4948e-08,
+          1.9744e-07,  1.9465e-07],
+        [ 4.6253e-05,  4.4703e-08,  1.5453e-05,  ...,  1.7300e-05,
+          3.3557e-05,  8.7172e-07],
+        ...,
+        [-4.6670e-05,  7.4506e-08, -1.5542e-05,  ..., -1.7464e-05,
+         -3.3945e-05, -8.4471e-07],
+        [ 1.1269e-07,  8.9407e-08,  7.6368e-08,  ...,  5.2154e-08,
+          1.0245e-07, -3.4459e-08],
+        [ 2.1420e-08,  1.4342e-07, -4.3772e-08,  ...,  1.1176e-08,
+          2.4214e-08,  1.6764e-08]], device='cuda:0')
+Epoch 298, bias, value: tensor([-0.0169, -0.0162, -0.0045, -0.0176, -0.0088, -0.0002,  0.0094,  0.0190,
+         0.0170, -0.0086], device='cuda:0'), grad: tensor([ 9.4995e-08,  2.2501e-06,  5.6505e-05, -6.8210e-06, -1.0645e-06,
+         4.0047e-06,  3.2317e-07, -5.6624e-05,  5.0105e-07,  9.1922e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 297, time 214.93, cls_loss 0.0012 cls_loss_mapping 0.0018 cls_loss_causal 0.4977 re_mapping 0.0048 re_causal 0.0134 /// teacc 99.03 lr 0.00010000
+Epoch 299, weight, value: tensor([[-0.2853,  0.0829, -0.1461,  ..., -0.0520, -0.2417, -0.1697],
+        [ 0.0074,  0.0985, -0.1162,  ..., -0.1151, -0.0581,  0.1128],
+        [ 0.0542, -0.1249, -0.1537,  ...,  0.0063, -0.0507, -0.0969],
+        ...,
+        [ 0.0915, -0.0498,  0.1334,  ...,  0.0665,  0.1900, -0.0123],
+        [ 0.1143, -0.2076, -0.1303,  ..., -0.2654, -0.0653,  0.1949],
+        [-0.1688,  0.0871,  0.0517,  ..., -0.2675, -0.1365, -0.0446]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-09,  2.7940e-08,  9.3132e-09,  ...,  3.7253e-09,
+          9.3132e-10,  3.7253e-08],
+        [-4.7032e-07, -2.5649e-06, -4.4424e-07,  ...,  1.1176e-08,
+          5.5879e-09, -2.3413e-06],
+        [ 3.7253e-09,  5.8673e-08,  1.3970e-08,  ..., -6.3330e-08,
+         -6.5193e-09,  5.2154e-08],
+        ...,
+        [ 3.6694e-07,  2.0564e-06,  3.4366e-07,  ..., -4.6566e-09,
+         -9.3132e-09,  1.8682e-06],
+        [-2.8871e-08,  1.5274e-07,  2.5146e-08,  ...,  3.9116e-08,
+          1.8626e-09,  3.3528e-08],
+        [ 4.0978e-08,  3.9302e-07,  3.5390e-08,  ...,  2.1420e-08,
+          5.5879e-09,  1.6391e-07]], device='cuda:0')
+Epoch 299, bias, value: tensor([-0.0171, -0.0164, -0.0047, -0.0167, -0.0073, -0.0011,  0.0102,  0.0191,
+         0.0167, -0.0092], device='cuda:0'), grad: tensor([ 1.8068e-07, -9.8422e-06, -1.1735e-06, -9.3132e-10,  1.2107e-08,
+        -5.3272e-07,  3.3434e-07,  7.9125e-06,  1.3225e-06,  1.7472e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 298, time 214.67, cls_loss 0.0011 cls_loss_mapping 0.0018 cls_loss_causal 0.4835 re_mapping 0.0048 re_causal 0.0136 /// teacc 99.01 lr 0.00010000
+Epoch 300, weight, value: tensor([[-0.2867,  0.0830, -0.1467,  ..., -0.0524, -0.2421, -0.1713],
+        [ 0.0076,  0.1003, -0.1155,  ..., -0.1153, -0.0582,  0.1138],
+        [ 0.0541, -0.1254, -0.1541,  ...,  0.0063, -0.0506, -0.0978],
+        ...,
+        [ 0.0916, -0.0513,  0.1333,  ...,  0.0666,  0.1902, -0.0126],
+        [ 0.1146, -0.2081, -0.1304,  ..., -0.2661, -0.0655,  0.1953],
+        [-0.1693,  0.0867,  0.0512,  ..., -0.2690, -0.1377, -0.0453]],
+       device='cuda:0'), grad: tensor([[ 5.7742e-08, -1.5888e-06,  7.4506e-09,  ...,  3.7253e-09,
+          1.8626e-09,  2.0396e-07],
+        [ 7.7300e-08, -1.0245e-08,  9.0338e-08,  ...,  6.7987e-08,
+          4.0047e-08, -3.6322e-08],
+        [ 5.4017e-08,  1.1176e-08,  8.1025e-08,  ...,  4.9360e-08,
+          2.5146e-08,  2.7940e-09],
+        ...,
+        [-2.9895e-07,  3.4459e-08, -3.1479e-07,  ..., -1.9744e-07,
+         -1.3970e-07,  3.5390e-08],
+        [-1.2666e-07,  3.9116e-08,  5.0291e-08,  ...,  2.9802e-08,
+          8.3819e-09, -5.3644e-07],
+        [ 1.9837e-07,  2.8405e-07, -8.9407e-08,  ...,  6.2399e-08,
+          4.7497e-08,  2.8498e-07]], device='cuda:0')
+Epoch 300, bias, value: tensor([-0.0170, -0.0159, -0.0046, -0.0157, -0.0068, -0.0019,  0.0102,  0.0188,
+         0.0168, -0.0097], device='cuda:0'), grad: tensor([-5.6922e-06,  2.3060e-06,  1.1735e-07, -3.4459e-08,  5.8115e-07,
+         1.9222e-06, -1.0058e-07, -3.5111e-07, -8.7824e-07,  2.1085e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 299, time 214.43, cls_loss 0.0010 cls_loss_mapping 0.0023 cls_loss_causal 0.4911 re_mapping 0.0047 re_causal 0.0139 /// teacc 99.00 lr 0.00010000
+Epoch 301, weight, value: tensor([[-0.2877,  0.0832, -0.1471,  ..., -0.0534, -0.2424, -0.1715],
+        [ 0.0070,  0.1012, -0.1161,  ..., -0.1160, -0.0594,  0.1144],
+        [ 0.0540, -0.1256, -0.1557,  ...,  0.0067, -0.0510, -0.0980],
+        ...,
+        [ 0.0922, -0.0521,  0.1341,  ...,  0.0668,  0.1914, -0.0129],
+        [ 0.1147, -0.2083, -0.1304,  ..., -0.2668, -0.0657,  0.1955],
+        [-0.1695,  0.0865,  0.0513,  ..., -0.2693, -0.1378, -0.0457]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -2.3469e-07,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [-9.3132e-10, -1.6764e-08, -2.3283e-08,  ...,  9.3132e-10,
+         -1.1176e-08, -4.1816e-07],
+        [ 2.4214e-08,  1.0245e-08,  1.3039e-08,  ...,  9.3132e-10,
+          5.5879e-09,  2.0675e-07],
+        ...,
+        [ 8.3819e-09,  1.1176e-08,  1.3970e-08,  ...,  0.0000e+00,
+          5.5879e-09,  2.1793e-07],
+        [-1.8626e-07,  3.7253e-09,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00, -1.2573e-07],
+        [ 6.5193e-09,  2.1886e-07, -4.6566e-09,  ...,  0.0000e+00,
+          0.0000e+00,  6.5193e-09]], device='cuda:0')
+Epoch 301, bias, value: tensor([-0.0169, -0.0161, -0.0044, -0.0156, -0.0069, -0.0017,  0.0099,  0.0191,
+         0.0168, -0.0099], device='cuda:0'), grad: tensor([-4.8708e-07, -5.2992e-07,  3.0454e-07,  7.3574e-08,  7.4506e-09,
+         1.1269e-07,  1.6112e-07,  2.9150e-07, -3.9674e-07,  4.7032e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 300, time 214.54, cls_loss 0.0009 cls_loss_mapping 0.0019 cls_loss_causal 0.4817 re_mapping 0.0046 re_causal 0.0142 /// teacc 99.00 lr 0.00010000
+Epoch 302, weight, value: tensor([[-0.2878,  0.0834, -0.1478,  ..., -0.0536, -0.2425, -0.1712],
+        [ 0.0067,  0.1013, -0.1165,  ..., -0.1165, -0.0602,  0.1147],
+        [ 0.0544, -0.1259, -0.1560,  ...,  0.0070, -0.0507, -0.0985],
+        ...,
+        [ 0.0924, -0.0530,  0.1345,  ...,  0.0668,  0.1919, -0.0132],
+        [ 0.1147, -0.2086, -0.1305,  ..., -0.2671, -0.0657,  0.1956],
+        [-0.1695,  0.0860,  0.0511,  ..., -0.2694, -0.1405, -0.0459]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09, -1.4342e-07,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09],
+        [ 2.5146e-08, -1.3039e-08,  1.3039e-08,  ...,  3.7253e-09,
+          9.3132e-09, -7.4506e-09],
+        [ 2.2352e-08,  5.5879e-09,  9.3132e-10,  ..., -9.3132e-10,
+          0.0000e+00,  3.1665e-08],
+        ...,
+        [-1.0245e-08,  1.6764e-08, -1.3039e-08,  ..., -9.3132e-10,
+         -1.0245e-08,  2.6077e-08],
+        [-1.4063e-07,  1.3039e-08,  1.2107e-08,  ...,  4.6566e-09,
+          1.8626e-09, -1.9930e-07],
+        [ 5.5879e-09,  2.9337e-07,  9.3132e-10,  ...,  9.3132e-10,
+          1.8626e-09,  1.4249e-07]], device='cuda:0')
+Epoch 302, bias, value: tensor([-0.0167, -0.0162, -0.0044, -0.0159, -0.0054, -0.0015,  0.0098,  0.0191,
+         0.0168, -0.0107], device='cuda:0'), grad: tensor([-2.7008e-07,  1.5832e-08,  6.2399e-08, -1.5832e-08, -1.0999e-06,
+         2.0582e-07,  1.3318e-07,  4.9360e-08, -2.9523e-07,  1.2359e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 301, time 214.96, cls_loss 0.0010 cls_loss_mapping 0.0017 cls_loss_causal 0.5097 re_mapping 0.0044 re_causal 0.0134 /// teacc 99.03 lr 0.00010000
+Epoch 303, weight, value: tensor([[-0.2886,  0.0834, -0.1486,  ..., -0.0537, -0.2427, -0.1717],
+        [ 0.0036,  0.1016, -0.1194,  ..., -0.1166, -0.0633,  0.1141],
+        [ 0.0542, -0.1263, -0.1566,  ...,  0.0070, -0.0508, -0.0990],
+        ...,
+        [ 0.0953, -0.0560,  0.1368,  ...,  0.0668,  0.1950, -0.0124],
+        [ 0.1148, -0.2090, -0.1305,  ..., -0.2674, -0.0660,  0.1957],
+        [-0.1694,  0.0860,  0.0520,  ..., -0.2688, -0.1418, -0.0460]],
+       device='cuda:0'), grad: tensor([[ 1.3039e-08, -1.6298e-07,  1.7695e-08,  ...,  7.4506e-09,
+          8.3819e-09,  1.8626e-09],
+        [-8.1062e-06, -1.3784e-07,  4.6566e-08,  ...,  1.9558e-08,
+         -7.3649e-06, -2.6356e-07],
+        [ 7.6592e-06,  4.6566e-09,  2.1420e-08,  ...,  1.0245e-08,
+          6.9365e-06,  1.4901e-08],
+        ...,
+        [-6.8918e-08,  8.2888e-08, -7.9069e-07,  ..., -3.3714e-07,
+          4.9360e-08,  1.5181e-07],
+        [-2.2911e-07,  1.4901e-08,  2.2352e-08,  ...,  9.3132e-09,
+          1.3039e-08, -3.0920e-07],
+        [ 5.0757e-07,  2.5146e-08,  4.9360e-07,  ...,  2.1793e-07,
+          2.5425e-07,  2.1793e-07]], device='cuda:0')
+Epoch 303, bias, value: tensor([-0.0167, -0.0189, -0.0046, -0.0164, -0.0045, -0.0012,  0.0099,  0.0214,
+         0.0168, -0.0109], device='cuda:0'), grad: tensor([-2.7940e-07, -3.6627e-05,  3.4064e-05,  1.0524e-07,  4.0699e-07,
+         2.2817e-07,  3.8184e-07,  9.2201e-07, -7.1526e-07,  1.5236e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 302, time 215.26, cls_loss 0.0012 cls_loss_mapping 0.0017 cls_loss_causal 0.4741 re_mapping 0.0044 re_causal 0.0128 /// teacc 98.97 lr 0.00010000
+Epoch 304, weight, value: tensor([[-0.2911,  0.0836, -0.1492,  ..., -0.0557, -0.2445, -0.1718],
+        [ 0.0026,  0.1020, -0.1203,  ..., -0.1174, -0.0644,  0.1142],
+        [ 0.0546, -0.1268, -0.1580,  ...,  0.0073, -0.0512, -0.0993],
+        ...,
+        [ 0.0963, -0.0563,  0.1377,  ...,  0.0672,  0.1961, -0.0122],
+        [ 0.1148, -0.2096, -0.1306,  ..., -0.2689, -0.0665,  0.1958],
+        [-0.1695,  0.0859,  0.0521,  ..., -0.2693, -0.1420, -0.0463]],
+       device='cuda:0'), grad: tensor([[ 2.0489e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  6.0536e-08],
+        [ 5.2154e-08, -2.7940e-09,  4.4703e-08,  ...,  4.7497e-08,
+          2.7940e-08,  7.4506e-09],
+        [ 1.0058e-07,  0.0000e+00,  3.6322e-08,  ..., -4.5635e-08,
+          2.6077e-08,  2.3097e-07],
+        ...,
+        [-9.6858e-08,  5.5879e-09, -1.0617e-07,  ..., -4.8429e-08,
+         -7.0781e-08,  2.4214e-08],
+        [-1.5739e-07,  2.7940e-09,  4.6566e-09,  ...,  2.7940e-09,
+          1.8626e-09, -4.5728e-07],
+        [ 1.5832e-08, -6.2399e-08, -5.9605e-08,  ...,  6.5193e-09,
+         -2.0489e-08,  1.5832e-08]], device='cuda:0')
+Epoch 304, bias, value: tensor([-0.0165, -0.0198, -0.0038, -0.0166, -0.0044, -0.0020,  0.0111,  0.0223,
+         0.0166, -0.0111], device='cuda:0'), grad: tensor([ 8.0094e-08,  1.8161e-07,  1.2666e-07,  1.7695e-08,  2.1048e-07,
+         1.2107e-08,  2.1886e-07, -1.3411e-07, -5.7928e-07, -1.3132e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 303, time 215.10, cls_loss 0.0013 cls_loss_mapping 0.0016 cls_loss_causal 0.4839 re_mapping 0.0046 re_causal 0.0133 /// teacc 98.98 lr 0.00010000
+Epoch 305, weight, value: tensor([[-0.2898,  0.0838, -0.1501,  ..., -0.0561, -0.2453, -0.1686],
+        [ 0.0005,  0.1032, -0.1229,  ..., -0.1178, -0.0672,  0.1129],
+        [ 0.0547, -0.1274, -0.1601,  ...,  0.0076, -0.0515, -0.0995],
+        ...,
+        [ 0.0984, -0.0578,  0.1405,  ...,  0.0673,  0.1990, -0.0107],
+        [ 0.1148, -0.2103, -0.1308,  ..., -0.2696, -0.0670,  0.1957],
+        [-0.1697,  0.0857,  0.0522,  ..., -0.2697, -0.1422, -0.0465]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09, -2.5239e-07,  4.6566e-09,  ...,  1.8626e-09,
+          1.8626e-09,  3.7253e-09],
+        [ 5.1223e-08,  2.0489e-08,  1.0896e-07,  ...,  3.0734e-08,
+          3.0734e-08,  1.8626e-09],
+        [-1.1176e-08,  2.7940e-09,  5.5879e-09,  ..., -1.3039e-08,
+         -0.0000e+00,  2.0489e-08],
+        ...,
+        [-4.1910e-08,  9.3132e-10,  2.7940e-08,  ...,  4.0047e-08,
+         -4.2841e-08,  2.7008e-08],
+        [-5.2154e-08,  1.3039e-08,  4.6566e-09,  ...,  1.1176e-08,
+          9.3132e-10, -1.0710e-07],
+        [ 3.2596e-08,  1.8626e-08,  3.8184e-08,  ...,  1.7695e-08,
+          7.4506e-09,  4.0047e-08]], device='cuda:0')
+Epoch 305, bias, value: tensor([-0.0162, -0.0225, -0.0037, -0.0169, -0.0043,  0.0009,  0.0081,  0.0250,
+         0.0164, -0.0113], device='cuda:0'), grad: tensor([-5.4762e-07,  2.1979e-07, -3.3528e-08,  3.4086e-07,  4.5635e-08,
+        -4.0699e-07,  5.3085e-08,  1.1455e-07,  3.0734e-08,  1.8533e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 304, time 215.05, cls_loss 0.0013 cls_loss_mapping 0.0024 cls_loss_causal 0.4494 re_mapping 0.0049 re_causal 0.0126 /// teacc 98.96 lr 0.00010000
+Epoch 306, weight, value: tensor([[-0.2901,  0.0838, -0.1509,  ..., -0.0567, -0.2456, -0.1688],
+        [ 0.0005,  0.1040, -0.1228,  ..., -0.1181, -0.0673,  0.1137],
+        [ 0.0548, -0.1279, -0.1607,  ...,  0.0076, -0.0513, -0.0999],
+        ...,
+        [ 0.0984, -0.0598,  0.1403,  ...,  0.0673,  0.1991, -0.0117],
+        [ 0.1148, -0.2119, -0.1311,  ..., -0.2705, -0.0672,  0.1959],
+        [-0.1695,  0.0864,  0.0541,  ..., -0.2699, -0.1423, -0.0454]],
+       device='cuda:0'), grad: tensor([[ 1.0245e-08,  6.5193e-09,  1.6764e-08,  ...,  7.4506e-09,
+          7.4506e-09,  6.5193e-09],
+        [ 5.8673e-07,  1.3728e-06,  2.9616e-06,  ...,  4.3306e-07,
+          3.9674e-07,  1.0896e-06],
+        [ 1.8859e-06,  2.7940e-08,  1.4203e-06,  ...,  1.3756e-06,
+          1.3253e-06,  2.7940e-08],
+        ...,
+        [-3.5986e-06,  1.1381e-06, -9.2853e-07,  ..., -2.6468e-06,
+         -2.4755e-06,  9.5926e-07],
+        [ 7.4506e-08,  1.5181e-07,  2.8592e-07,  ...,  5.5879e-08,
+          5.1223e-08,  8.1956e-08],
+        [ 9.2201e-08, -2.8089e-06, -5.5246e-06,  ...,  6.1467e-08,
+          5.8673e-08, -1.8142e-06]], device='cuda:0')
+Epoch 306, bias, value: tensor([-0.0162, -0.0224, -0.0040, -0.0174, -0.0060,  0.0012,  0.0083,  0.0248,
+         0.0159, -0.0099], device='cuda:0'), grad: tensor([ 5.5879e-08,  6.7428e-06,  4.0643e-06,  2.0824e-06, -5.0943e-07,
+        -2.8312e-07,  2.0210e-07, -2.8946e-06,  9.0059e-07, -1.0334e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 305, time 214.82, cls_loss 0.0011 cls_loss_mapping 0.0018 cls_loss_causal 0.5117 re_mapping 0.0047 re_causal 0.0133 /// teacc 99.01 lr 0.00010000
+Epoch 307, weight, value: tensor([[-0.2910,  0.0839, -0.1518,  ..., -0.0573, -0.2464, -0.1694],
+        [ 0.0004,  0.1042, -0.1231,  ..., -0.1184, -0.0674,  0.1135],
+        [ 0.0560, -0.1282, -0.1612,  ...,  0.0087, -0.0508, -0.1004],
+        ...,
+        [ 0.0984, -0.0602,  0.1407,  ...,  0.0669,  0.1992, -0.0114],
+        [ 0.1148, -0.2123, -0.1312,  ..., -0.2730, -0.0675,  0.1963],
+        [-0.1700,  0.0863,  0.0539,  ..., -0.2708, -0.1434, -0.0459]],
+       device='cuda:0'), grad: tensor([[ 2.2445e-07,  5.5879e-09,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.0454e-07],
+        [ 2.0489e-08, -0.0000e+00,  5.4017e-08,  ...,  9.3132e-09,
+          4.6566e-09, -8.0094e-08],
+        [ 1.8626e-09,  1.0245e-08,  2.3283e-08,  ...,  3.7253e-09,
+         -8.3819e-09,  6.6124e-08],
+        ...,
+        [ 4.2841e-08,  9.1270e-08,  2.4214e-08,  ...,  1.1176e-08,
+         -9.3132e-10,  6.7055e-08],
+        [-3.2224e-07,  6.7055e-08,  8.4750e-08,  ...,  7.4506e-09,
+          1.8626e-09, -5.1409e-07],
+        [-2.7940e-08, -2.6543e-07, -3.6228e-07,  ...,  9.3132e-10,
+          1.8626e-09,  1.3411e-07]], device='cuda:0')
+Epoch 307, bias, value: tensor([-0.0163, -0.0225, -0.0029, -0.0182, -0.0056,  0.0015,  0.0083,  0.0248,
+         0.0158, -0.0101], device='cuda:0'), grad: tensor([ 4.8801e-07, -1.8626e-09,  7.9162e-08, -2.6077e-08,  5.4948e-08,
+         6.4261e-08,  6.9849e-08,  3.7625e-07, -3.9581e-07, -7.0408e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 306, time 214.93, cls_loss 0.0011 cls_loss_mapping 0.0017 cls_loss_causal 0.4907 re_mapping 0.0048 re_causal 0.0134 /// teacc 98.98 lr 0.00010000
+Epoch 308, weight, value: tensor([[-0.2916,  0.0839, -0.1525,  ..., -0.0576, -0.2471, -0.1696],
+        [ 0.0004,  0.1046, -0.1232,  ..., -0.1189, -0.0675,  0.1139],
+        [ 0.0560, -0.1286, -0.1620,  ...,  0.0089, -0.0508, -0.1016],
+        ...,
+        [ 0.0985, -0.0606,  0.1408,  ...,  0.0670,  0.1993, -0.0116],
+        [ 0.1152, -0.2127, -0.1313,  ..., -0.2737, -0.0676,  0.1968],
+        [-0.1702,  0.0862,  0.0540,  ..., -0.2712, -0.1436, -0.0461]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+          9.3132e-10,  9.3132e-10],
+        [ 2.0675e-07, -1.9558e-08,  1.7136e-07,  ...,  3.0734e-08,
+          7.3574e-08,  1.6764e-08],
+        [-3.7253e-09,  2.7940e-09,  3.7253e-09,  ..., -5.5879e-09,
+         -4.6566e-09,  4.6566e-09],
+        ...,
+        [-3.4180e-07,  2.2352e-08, -2.8498e-07,  ..., -4.7497e-08,
+         -1.1735e-07, -4.7497e-08],
+        [ 7.8231e-08,  1.1176e-08,  6.7055e-08,  ...,  1.3039e-08,
+          2.7008e-08,  2.7940e-08],
+        [ 4.1910e-08,  1.1437e-06,  2.9802e-08,  ...,  6.5193e-09,
+          1.4901e-08,  1.3039e-06]], device='cuda:0')
+Epoch 308, bias, value: tensor([-0.0162, -0.0224, -0.0032, -0.0187, -0.0053,  0.0016,  0.0084,  0.0247,
+         0.0159, -0.0103], device='cuda:0'), grad: tensor([ 1.8626e-09,  2.9150e-07, -4.6566e-09,  2.0489e-08, -5.8301e-06,
+         1.0245e-08,  2.7101e-07, -5.0757e-07,  1.9278e-07,  5.5321e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 307, time 215.13, cls_loss 0.0012 cls_loss_mapping 0.0017 cls_loss_causal 0.4949 re_mapping 0.0048 re_causal 0.0137 /// teacc 99.01 lr 0.00010000
+Epoch 309, weight, value: tensor([[-0.2922,  0.0839, -0.1535,  ..., -0.0584, -0.2473, -0.1698],
+        [ 0.0005,  0.1084, -0.1226,  ..., -0.1191, -0.0675,  0.1175],
+        [ 0.0543, -0.1321, -0.1657,  ...,  0.0077, -0.0520, -0.1052],
+        ...,
+        [ 0.0987, -0.0630,  0.1408,  ...,  0.0680,  0.1995, -0.0132],
+        [ 0.1153, -0.2132, -0.1313,  ..., -0.2751, -0.0678,  0.1971],
+        [-0.1705,  0.0863,  0.0541,  ..., -0.2723, -0.1439, -0.0467]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09, -3.7253e-09,  9.3132e-10,  ...,  9.3132e-10,
+          0.0000e+00,  9.3132e-10],
+        [-1.5646e-07, -3.9022e-07, -1.0245e-08,  ...,  5.5879e-09,
+          1.8626e-09, -6.7987e-07],
+        [-1.2293e-07,  1.1176e-08,  2.7940e-09,  ..., -8.7544e-08,
+         -3.6322e-08,  6.5193e-09],
+        ...,
+        [ 9.7789e-08,  1.0896e-07,  3.3528e-08,  ...,  6.7987e-08,
+          3.1665e-08,  6.4261e-08],
+        [ 1.3970e-08,  7.4506e-09,  4.6566e-09,  ...,  1.1176e-08,
+          9.3132e-10,  7.4506e-09],
+        [ 3.7253e-09,  3.2596e-08, -5.8673e-08,  ...,  1.8626e-09,
+          1.8626e-09,  2.3283e-08]], device='cuda:0')
+Epoch 309, bias, value: tensor([-0.0162, -0.0209, -0.0070, -0.0192, -0.0056,  0.0018,  0.0085,  0.0246,
+         0.0160, -0.0103], device='cuda:0'), grad: tensor([-9.3132e-10, -1.7025e-06, -1.9372e-07,  4.3772e-08, -1.1176e-07,
+         2.1420e-08,  1.2880e-06,  5.7090e-07,  6.1467e-08,  4.5635e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 308, time 215.30, cls_loss 0.0009 cls_loss_mapping 0.0017 cls_loss_causal 0.4658 re_mapping 0.0049 re_causal 0.0138 /// teacc 99.03 lr 0.00010000
+Epoch 310, weight, value: tensor([[-0.2925,  0.0840, -0.1539,  ..., -0.0586, -0.2474, -0.1700],
+        [ 0.0005,  0.1087, -0.1224,  ..., -0.1191, -0.0675,  0.1179],
+        [ 0.0540, -0.1322, -0.1664,  ...,  0.0075, -0.0529, -0.1052],
+        ...,
+        [ 0.0987, -0.0633,  0.1407,  ...,  0.0682,  0.1996, -0.0137],
+        [ 0.1153, -0.2138, -0.1315,  ..., -0.2759, -0.0679,  0.1971],
+        [-0.1705,  0.0871,  0.0567,  ..., -0.2724, -0.1439, -0.0460]],
+       device='cuda:0'), grad: tensor([[ 3.5390e-08,  1.4901e-08,  9.5926e-08,  ...,  1.9558e-08,
+          2.7940e-09,  1.9930e-07],
+        [-6.1244e-06, -5.5246e-06, -2.1562e-05,  ..., -3.4738e-06,
+         -1.3597e-07, -4.8161e-05],
+        [ 1.1530e-06,  8.9593e-07,  3.9302e-06,  ...,  5.7090e-07,
+          1.1083e-07,  8.0317e-06],
+        ...,
+        [ 2.6245e-06,  2.9244e-06,  1.0878e-05,  ...,  1.6522e-06,
+         -1.3597e-07,  2.5541e-05],
+        [ 1.4622e-07,  1.0431e-07,  3.4459e-07,  ...,  8.5682e-08,
+          1.4901e-08,  8.8289e-07],
+        [ 1.5553e-07,  2.6077e-08,  1.2014e-07,  ...,  6.0536e-08,
+          4.1910e-08,  1.2759e-07]], device='cuda:0')
+Epoch 310, bias, value: tensor([-0.0162, -0.0207, -0.0071, -0.0192, -0.0069,  0.0019,  0.0083,  0.0244,
+         0.0158, -0.0094], device='cuda:0'), grad: tensor([ 3.5856e-07, -8.4579e-05,  1.4186e-05,  2.2903e-05,  2.6822e-07,
+         6.0070e-07,  4.0047e-07,  4.3571e-05,  1.8459e-06,  5.6252e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 309, time 214.99, cls_loss 0.0013 cls_loss_mapping 0.0025 cls_loss_causal 0.4816 re_mapping 0.0049 re_causal 0.0130 /// teacc 99.06 lr 0.00010000
+Epoch 311, weight, value: tensor([[-0.2933,  0.0841, -0.1548,  ..., -0.0590, -0.2477, -0.1706],
+        [ 0.0008,  0.1090, -0.1223,  ..., -0.1197, -0.0673,  0.1190],
+        [ 0.0533, -0.1324, -0.1674,  ...,  0.0075, -0.0541, -0.1057],
+        ...,
+        [ 0.0988, -0.0638,  0.1401,  ...,  0.0688,  0.1997, -0.0146],
+        [ 0.1148, -0.2144, -0.1317,  ..., -0.2774, -0.0683,  0.1967],
+        [-0.1710,  0.0871,  0.0594,  ..., -0.2731, -0.1456, -0.0462]],
+       device='cuda:0'), grad: tensor([[ 1.9558e-08, -2.9430e-07,  4.6566e-09,  ...,  9.3132e-10,
+          9.3132e-10,  3.5390e-08],
+        [ 2.7940e-08,  1.4901e-08,  7.4506e-08,  ...,  1.8626e-08,
+          3.0734e-08, -3.2596e-08],
+        [ 2.1420e-08,  7.4506e-09,  2.7940e-08,  ...,  5.5879e-09,
+          9.3132e-09,  1.1176e-08],
+        ...,
+        [-1.3504e-07,  2.5146e-08, -4.2934e-07,  ..., -7.3574e-08,
+         -1.9465e-07,  3.7253e-08],
+        [-9.1270e-08,  1.1269e-07,  5.0291e-08,  ...,  1.8626e-09,
+          2.7940e-09, -1.8161e-07],
+        [ 1.4529e-07,  1.9129e-06,  2.1141e-07,  ...,  4.7497e-08,
+          1.4063e-07,  1.3411e-07]], device='cuda:0')
+Epoch 311, bias, value: tensor([-0.0161, -0.0201, -0.0079, -0.0198, -0.0068,  0.0016,  0.0081,  0.0239,
+         0.0150, -0.0086], device='cuda:0'), grad: tensor([-3.7998e-07,  1.3970e-07,  7.3574e-08,  6.8638e-07, -2.9802e-08,
+        -8.7395e-06,  5.6252e-07, -4.5355e-07,  1.9930e-07,  7.9572e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 310, time 215.22, cls_loss 0.0017 cls_loss_mapping 0.0017 cls_loss_causal 0.4823 re_mapping 0.0050 re_causal 0.0131 /// teacc 98.96 lr 0.00010000
+Epoch 312, weight, value: tensor([[-0.2936,  0.0809, -0.1561,  ..., -0.0616, -0.2482, -0.1701],
+        [ 0.0008,  0.1091, -0.1225,  ..., -0.1201, -0.0670,  0.1192],
+        [ 0.0529, -0.1325, -0.1681,  ...,  0.0072, -0.0552, -0.1058],
+        ...,
+        [ 0.0991, -0.0641,  0.1406,  ...,  0.0699,  0.1996, -0.0149],
+        [ 0.1148, -0.2151, -0.1319,  ..., -0.2790, -0.0688,  0.1967],
+        [-0.1713,  0.0868,  0.0593,  ..., -0.2737, -0.1459, -0.0466]],
+       device='cuda:0'), grad: tensor([[-8.4657e-07, -1.5683e-06,  1.3039e-08,  ...,  9.3132e-09,
+          8.3819e-09, -1.9185e-07],
+        [ 2.5332e-07,  7.7300e-08,  3.8184e-07,  ...,  6.0536e-08,
+          1.9465e-07, -2.6077e-08],
+        [ 1.1828e-07,  1.9744e-07,  1.2293e-07,  ..., -1.8626e-09,
+          3.0734e-08,  4.6566e-08],
+        ...,
+        [-2.1700e-07,  5.1409e-07, -1.0766e-06,  ..., -1.8068e-07,
+         -5.4482e-07,  9.7789e-08],
+        [ 7.1712e-08,  7.8231e-08,  6.9849e-08,  ...,  3.0734e-08,
+          3.9116e-08, -9.3132e-10],
+        [ 4.6194e-07,  4.6846e-07,  4.3772e-07,  ...,  7.9162e-08,
+          2.3469e-07,  6.7987e-08]], device='cuda:0')
+Epoch 312, bias, value: tensor([-0.0195, -0.0196, -0.0083, -0.0210, -0.0061,  0.0036,  0.0103,  0.0237,
+         0.0147, -0.0091], device='cuda:0'), grad: tensor([-4.9919e-06,  8.4471e-07,  6.3889e-07, -4.0047e-08,  9.4995e-08,
+         2.8219e-07,  4.8894e-07,  2.0582e-07,  3.5018e-07,  2.1476e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 311, time 215.77, cls_loss 0.0011 cls_loss_mapping 0.0016 cls_loss_causal 0.4722 re_mapping 0.0049 re_causal 0.0133 /// teacc 98.99 lr 0.00010000
+Epoch 313, weight, value: tensor([[-0.2941,  0.0809, -0.1571,  ..., -0.0622, -0.2487, -0.1696],
+        [ 0.0008,  0.1090, -0.1225,  ..., -0.1195, -0.0669,  0.1192],
+        [ 0.0530, -0.1326, -0.1683,  ...,  0.0071, -0.0553, -0.1058],
+        ...,
+        [ 0.0991, -0.0645,  0.1406,  ...,  0.0696,  0.1995, -0.0151],
+        [ 0.1152, -0.2156, -0.1321,  ..., -0.2801, -0.0690,  0.1977],
+        [-0.1714,  0.0870,  0.0595,  ..., -0.2745, -0.1462, -0.0468]],
+       device='cuda:0'), grad: tensor([[ 5.3085e-08, -1.5367e-07,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  7.4506e-08],
+        [ 1.5832e-08, -5.5134e-07,  1.0245e-08,  ...,  7.4506e-09,
+          4.6566e-09, -4.8149e-07],
+        [ 3.9116e-08,  4.8429e-08,  2.6077e-08,  ...,  1.8626e-08,
+          1.3039e-08,  5.9605e-08],
+        ...,
+        [-3.9116e-08,  1.4156e-07, -3.4459e-08,  ..., -2.0489e-08,
+         -2.4214e-08,  1.3132e-07],
+        [-8.2627e-06,  5.6811e-08, -3.0305e-06,  ..., -7.2923e-07,
+          9.3132e-10, -8.2627e-06],
+        [ 7.2643e-08,  4.0047e-07,  1.8626e-09,  ...,  9.3132e-10,
+          9.3132e-10,  3.6694e-07]], device='cuda:0')
+Epoch 313, bias, value: tensor([-0.0195, -0.0196, -0.0083, -0.0210, -0.0059,  0.0034,  0.0103,  0.0236,
+         0.0149, -0.0091], device='cuda:0'), grad: tensor([-1.0990e-07, -1.7229e-06,  2.4680e-07,  2.0206e-05,  6.7987e-08,
+         2.1141e-07,  1.4063e-07,  3.9581e-07, -2.0802e-05,  1.3700e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 312, time 217.41, cls_loss 0.0010 cls_loss_mapping 0.0018 cls_loss_causal 0.4671 re_mapping 0.0048 re_causal 0.0134 /// teacc 98.99 lr 0.00010000
+Epoch 314, weight, value: tensor([[-0.2946,  0.0810, -0.1576,  ..., -0.0627, -0.2490, -0.1698],
+        [ 0.0009,  0.1095, -0.1224,  ..., -0.1195, -0.0669,  0.1196],
+        [ 0.0532, -0.1326, -0.1683,  ...,  0.0076, -0.0552, -0.1059],
+        ...,
+        [ 0.0990, -0.0653,  0.1407,  ...,  0.0695,  0.1995, -0.0154],
+        [ 0.1154, -0.2162, -0.1321,  ..., -0.2812, -0.0691,  0.1981],
+        [-0.1717,  0.0866,  0.0595,  ..., -0.2749, -0.1463, -0.0475]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 3.3528e-08,  9.3132e-10,  4.6566e-09,  ...,  9.3132e-09,
+          3.7253e-09,  0.0000e+00],
+        [-3.3248e-07,  0.0000e+00,  1.2107e-08,  ..., -8.1956e-08,
+          1.2107e-08,  0.0000e+00],
+        ...,
+        [-1.0245e-08,  3.7253e-09, -4.6566e-09,  ..., -6.5193e-09,
+         -1.8626e-08,  0.0000e+00],
+        [ 1.8254e-07,  2.7940e-09,  6.5193e-09,  ...,  4.6566e-08,
+          1.8626e-09,  0.0000e+00],
+        [ 6.5193e-09, -1.0245e-08, -2.8871e-08,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 314, bias, value: tensor([-0.0195, -0.0194, -0.0082, -0.0219, -0.0053,  0.0036,  0.0103,  0.0235,
+         0.0149, -0.0095], device='cuda:0'), grad: tensor([ 3.1665e-08,  1.2293e-07, -1.3206e-06,  1.5181e-07,  2.3656e-07,
+         2.4214e-08,  2.7008e-08,  5.6811e-08,  7.1246e-07, -4.0047e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 313, time 219.60, cls_loss 0.0012 cls_loss_mapping 0.0020 cls_loss_causal 0.4936 re_mapping 0.0045 re_causal 0.0131 /// teacc 98.98 lr 0.00010000
+Epoch 315, weight, value: tensor([[-0.2968,  0.0809, -0.1602,  ..., -0.0633, -0.2495, -0.1715],
+        [ 0.0012,  0.1098, -0.1225,  ..., -0.1198, -0.0669,  0.1204],
+        [ 0.0522, -0.1327, -0.1688,  ...,  0.0073, -0.0556, -0.1059],
+        ...,
+        [ 0.0992, -0.0661,  0.1408,  ...,  0.0700,  0.1996, -0.0158],
+        [ 0.1146, -0.2193, -0.1324,  ..., -0.2821, -0.0693,  0.1972],
+        [-0.1715,  0.0863,  0.0596,  ..., -0.2754, -0.1466, -0.0473]],
+       device='cuda:0'), grad: tensor([[ 1.6764e-08,  9.3132e-09,  3.5390e-08,  ...,  2.7940e-09,
+          9.3132e-10,  2.6077e-08],
+        [ 2.7940e-08,  2.2352e-08,  5.1223e-08,  ...,  6.5193e-09,
+          9.3132e-09, -3.6322e-08],
+        [-2.7940e-09,  3.7253e-09,  2.7940e-09,  ..., -1.7695e-08,
+         -4.6566e-09,  1.1176e-08],
+        ...,
+        [-2.3283e-08,  1.2200e-07,  8.1025e-08,  ..., -9.3132e-10,
+         -1.6764e-08,  6.0536e-08],
+        [-1.1912e-06, -2.3562e-07,  4.6566e-08,  ...,  1.8626e-09,
+          1.8626e-09, -2.5053e-06],
+        [ 1.8626e-09, -1.8813e-07, -2.8405e-07,  ...,  2.7940e-09,
+          6.5193e-09,  1.7695e-08]], device='cuda:0')
+Epoch 315, bias, value: tensor([-0.0195, -0.0191, -0.0086, -0.0221, -0.0043,  0.0041,  0.0103,  0.0235,
+         0.0135, -0.0097], device='cuda:0'), grad: tensor([ 8.2888e-08,  5.3085e-08, -2.2352e-08,  1.3039e-07, -2.9523e-07,
+         3.5334e-06,  1.1548e-07,  3.4925e-07, -3.6247e-06, -3.2317e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 314, time 215.04, cls_loss 0.0013 cls_loss_mapping 0.0020 cls_loss_causal 0.4892 re_mapping 0.0043 re_causal 0.0126 /// teacc 99.01 lr 0.00010000
+Epoch 316, weight, value: tensor([[-0.2976,  0.0807, -0.1625,  ..., -0.0637, -0.2498, -0.1718],
+        [ 0.0014,  0.1094, -0.1224,  ..., -0.1184, -0.0663,  0.1205],
+        [ 0.0506, -0.1329, -0.1696,  ...,  0.0064, -0.0572, -0.1060],
+        ...,
+        [ 0.0994, -0.0663,  0.1409,  ...,  0.0700,  0.1993, -0.0159],
+        [ 0.1148, -0.2206, -0.1326,  ..., -0.2844, -0.0696,  0.1975],
+        [-0.1718,  0.0871,  0.0597,  ..., -0.2767, -0.1468, -0.0477]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  2.9802e-06,  0.0000e+00,  ...,  2.7940e-09,
+          9.3132e-10,  9.3132e-10],
+        [ 2.7940e-09, -1.1176e-08,  2.7940e-09,  ...,  1.2107e-08,
+          6.5193e-09, -3.8184e-08],
+        [-7.3574e-08,  2.4214e-08,  9.3132e-10,  ..., -7.6368e-08,
+         -3.2596e-08,  1.8626e-09],
+        ...,
+        [ 5.9605e-08,  1.4901e-08, -2.7940e-09,  ...,  5.0291e-08,
+          2.3283e-08,  4.0978e-08],
+        [ 7.4506e-09,  1.7695e-08,  9.3132e-10,  ...,  6.5193e-09,
+          2.7940e-09,  1.8626e-09],
+        [ 9.3132e-10, -3.2224e-06, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  7.4506e-09]], device='cuda:0')
+Epoch 316, bias, value: tensor([-0.0196, -0.0187, -0.0092, -0.0236, -0.0040,  0.0057,  0.0102,  0.0232,
+         0.0133, -0.0094], device='cuda:0'), grad: tensor([ 4.9174e-06, -2.3283e-08, -2.0768e-07,  1.2107e-08,  2.6077e-07,
+         7.4506e-09,  6.5193e-09,  2.3562e-07,  6.1467e-08, -5.2825e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 315, time 215.95, cls_loss 0.0009 cls_loss_mapping 0.0015 cls_loss_causal 0.4695 re_mapping 0.0047 re_causal 0.0135 /// teacc 99.03 lr 0.00010000
+Epoch 317, weight, value: tensor([[-0.2980,  0.0808, -0.1628,  ..., -0.0640, -0.2500, -0.1718],
+        [ 0.0013,  0.1094, -0.1225,  ..., -0.1187, -0.0663,  0.1205],
+        [ 0.0504, -0.1330, -0.1698,  ...,  0.0065, -0.0574, -0.1060],
+        ...,
+        [ 0.0995, -0.0664,  0.1410,  ...,  0.0702,  0.1994, -0.0159],
+        [ 0.1148, -0.2210, -0.1327,  ..., -0.2859, -0.0699,  0.1976],
+        [-0.1721,  0.0867,  0.0596,  ..., -0.2769, -0.1473, -0.0480]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10, -1.7695e-08,  1.3970e-09,  ...,  3.7253e-09,
+          4.6566e-10,  9.3132e-10],
+        [ 4.7963e-08, -1.1176e-08,  7.3574e-08,  ...,  4.4238e-08,
+          2.0489e-08, -1.1222e-07],
+        [ 1.1176e-08,  1.6298e-08,  2.0489e-08,  ...,  3.3993e-08,
+         -2.7940e-09,  1.3039e-08],
+        ...,
+        [-1.9651e-07,  8.1956e-08, -2.5379e-07,  ..., -1.0058e-07,
+         -5.9605e-08,  5.7742e-08],
+        [-9.6858e-08,  5.1223e-09,  1.0710e-08,  ...,  2.3283e-09,
+          1.3970e-09, -2.1234e-07],
+        [ 2.3283e-08,  1.0850e-07,  1.5367e-08,  ...,  1.1642e-08,
+          6.9849e-09,  3.7253e-09]], device='cuda:0')
+Epoch 317, bias, value: tensor([-0.0195, -0.0187, -0.0091, -0.0224, -0.0038,  0.0054,  0.0101,  0.0233,
+         0.0130, -0.0098], device='cuda:0'), grad: tensor([-2.9337e-08,  2.7008e-08,  1.1502e-07,  1.8626e-08, -4.5169e-07,
+         1.2526e-07,  1.7276e-07, -1.4296e-07, -2.0349e-07,  3.7672e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 316, time 214.79, cls_loss 0.0012 cls_loss_mapping 0.0021 cls_loss_causal 0.4800 re_mapping 0.0046 re_causal 0.0126 /// teacc 99.01 lr 0.00010000
+Epoch 318, weight, value: tensor([[-0.2982,  0.0796, -0.1641,  ..., -0.0643, -0.2504, -0.1720],
+        [ 0.0012,  0.1095, -0.1226,  ..., -0.1190, -0.0664,  0.1207],
+        [ 0.0504, -0.1332, -0.1703,  ...,  0.0059, -0.0575, -0.1062],
+        ...,
+        [ 0.0996, -0.0670,  0.1412,  ...,  0.0702,  0.1996, -0.0161],
+        [ 0.1151, -0.2214, -0.1327,  ..., -0.2868, -0.0695,  0.1978],
+        [-0.1725,  0.0894,  0.0595,  ..., -0.2773, -0.1484, -0.0484]],
+       device='cuda:0'), grad: tensor([[ 3.2596e-09, -2.0955e-08,  2.7940e-09,  ...,  2.3283e-09,
+          4.6566e-10,  9.3132e-10],
+        [ 8.7079e-08, -6.5193e-09,  7.4506e-08,  ...,  7.0315e-08,
+          4.0513e-08, -3.0734e-08],
+        [-5.6345e-08,  1.8626e-09,  1.2107e-08,  ..., -6.4261e-08,
+         -8.8476e-09,  2.3283e-09],
+        ...,
+        [-1.9139e-07,  1.6298e-08, -1.6345e-07,  ..., -1.1688e-07,
+         -1.0384e-07,  2.5146e-08],
+        [-1.5832e-08,  9.7789e-09,  1.5367e-08,  ...,  2.5611e-08,
+          1.0710e-08, -5.0757e-08],
+        [ 1.3039e-08, -3.9395e-07, -3.7905e-07,  ...,  1.5367e-08,
+          3.7253e-09,  3.6322e-08]], device='cuda:0')
+Epoch 318, bias, value: tensor([-0.0205, -0.0188, -0.0093, -0.0226, -0.0037,  0.0057,  0.0102,  0.0233,
+         0.0128, -0.0073], device='cuda:0'), grad: tensor([-2.8871e-08,  2.0629e-07, -2.8918e-07,  7.2177e-08,  1.0841e-06,
+         7.6834e-08, -4.0978e-08, -2.5705e-07,  4.7963e-08, -8.7125e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 317, time 215.15, cls_loss 0.0010 cls_loss_mapping 0.0017 cls_loss_causal 0.4611 re_mapping 0.0043 re_causal 0.0124 /// teacc 99.00 lr 0.00010000
+Epoch 319, weight, value: tensor([[-0.2989,  0.0796, -0.1644,  ..., -0.0648, -0.2506, -0.1724],
+        [ 0.0012,  0.1095, -0.1227,  ..., -0.1196, -0.0665,  0.1207],
+        [ 0.0508, -0.1333, -0.1704,  ...,  0.0064, -0.0572, -0.1061],
+        ...,
+        [ 0.0997, -0.0673,  0.1413,  ...,  0.0703,  0.1996, -0.0163],
+        [ 0.1153, -0.2213, -0.1328,  ..., -0.2893, -0.0698,  0.1987],
+        [-0.1727,  0.0892,  0.0597,  ..., -0.2777, -0.1483, -0.0487]],
+       device='cuda:0'), grad: tensor([[ 6.9849e-09, -4.0513e-08,  7.4506e-09,  ...,  2.2817e-08,
+          0.0000e+00,  6.5193e-09],
+        [ 2.3004e-07,  1.1176e-08,  2.9337e-08,  ...,  2.1420e-08,
+          1.2573e-08,  1.8347e-07],
+        [ 2.0787e-06,  4.6566e-09,  2.3283e-08,  ...,  2.2817e-08,
+          1.9558e-08,  1.7509e-06],
+        ...,
+        [-6.2399e-08,  4.1910e-09, -5.3085e-08,  ..., -4.4238e-08,
+         -5.4482e-08,  6.5193e-09],
+        [-2.9989e-06,  5.9139e-08,  7.2643e-08,  ...,  2.0023e-08,
+          9.3132e-09, -2.6226e-06],
+        [ 1.3178e-07, -2.9802e-08, -9.4064e-08,  ...,  2.7940e-09,
+          2.3283e-09,  1.3551e-07]], device='cuda:0')
+Epoch 319, bias, value: tensor([-0.0205, -0.0188, -0.0092, -0.0235, -0.0031,  0.0062,  0.0102,  0.0233,
+         0.0130, -0.0075], device='cuda:0'), grad: tensor([-1.0664e-07,  7.7626e-07,  6.7316e-06,  2.3283e-09,  1.1595e-07,
+         1.4007e-06,  3.8464e-07,  1.4435e-08, -9.5218e-06,  2.0675e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 318, time 215.02, cls_loss 0.0007 cls_loss_mapping 0.0013 cls_loss_causal 0.4717 re_mapping 0.0045 re_causal 0.0131 /// teacc 98.95 lr 0.00010000
+Epoch 320, weight, value: tensor([[-0.2989,  0.0796, -0.1647,  ..., -0.0650, -0.2509, -0.1723],
+        [ 0.0012,  0.1094, -0.1227,  ..., -0.1197, -0.0665,  0.1208],
+        [ 0.0507, -0.1333, -0.1706,  ...,  0.0064, -0.0572, -0.1062],
+        ...,
+        [ 0.0996, -0.0677,  0.1413,  ...,  0.0702,  0.1996, -0.0168],
+        [ 0.1156, -0.2216, -0.1329,  ..., -0.2898, -0.0699,  0.1993],
+        [-0.1729,  0.0887,  0.0594,  ..., -0.2779, -0.1483, -0.0492]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  1.2731e-06,  9.3132e-09,  ...,  7.4506e-09,
+          9.3132e-10,  1.8626e-09],
+        [ 3.8184e-08,  2.7940e-09,  6.3330e-08,  ...,  5.2154e-08,
+          2.7940e-08, -4.2841e-08],
+        [-5.6438e-07,  1.4901e-08, -3.4180e-07,  ..., -3.4925e-07,
+         -5.8860e-07,  9.3132e-09],
+        ...,
+        [ 5.4110e-07,  1.6764e-08,  3.7625e-07,  ...,  3.7253e-07,
+          5.5227e-07,  2.4214e-08],
+        [-1.5832e-07,  1.6764e-08,  7.1712e-08,  ...,  4.7497e-08,
+          1.8626e-09, -3.4086e-07],
+        [ 9.3132e-10,  5.4017e-08, -1.2107e-08,  ...,  3.7253e-09,
+          9.3132e-10,  3.2596e-08]], device='cuda:0')
+Epoch 320, bias, value: tensor([-0.0205, -0.0188, -0.0092, -0.0235, -0.0017,  0.0062,  0.0102,  0.0232,
+         0.0132, -0.0081], device='cuda:0'), grad: tensor([ 2.7940e-06,  9.7789e-08, -1.2489e-06, -4.4610e-07, -1.3504e-07,
+         1.5646e-07, -2.0862e-06,  1.3504e-06, -6.1281e-07,  1.3225e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 319, time 214.63, cls_loss 0.0011 cls_loss_mapping 0.0015 cls_loss_causal 0.4845 re_mapping 0.0045 re_causal 0.0126 /// teacc 99.09 lr 0.00010000
+Epoch 321, weight, value: tensor([[-0.2993,  0.0799, -0.1656,  ..., -0.0656, -0.2519, -0.1707],
+        [ 0.0012,  0.1095, -0.1228,  ..., -0.1201, -0.0666,  0.1211],
+        [ 0.0504, -0.1334, -0.1711,  ...,  0.0063, -0.0574, -0.1062],
+        ...,
+        [ 0.0997, -0.0682,  0.1413,  ...,  0.0705,  0.1997, -0.0174],
+        [ 0.1161, -0.2220, -0.1331,  ..., -0.2908, -0.0705,  0.2008],
+        [-0.1728,  0.0890,  0.0609,  ..., -0.2785, -0.1482, -0.0494]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09,  8.3819e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10, -0.0000e+00],
+        [ 3.7532e-07, -3.7253e-08,  8.3819e-09,  ...,  3.7253e-09,
+          8.0094e-08, -8.2888e-08],
+        [-6.5751e-07,  1.8626e-09,  2.7940e-09,  ..., -9.3132e-10,
+         -1.3690e-07,  2.7940e-09],
+        ...,
+        [ 4.3772e-08,  2.9802e-08, -1.5832e-08,  ..., -4.6566e-09,
+          1.8626e-09,  4.3772e-08],
+        [ 7.2643e-08,  1.8813e-07,  1.0245e-08,  ...,  0.0000e+00,
+          1.4901e-08,  2.7940e-09],
+        [ 1.3970e-08,  1.0245e-08, -7.4506e-09,  ...,  2.7940e-09,
+          6.5193e-09,  1.8626e-08]], device='cuda:0')
+Epoch 321, bias, value: tensor([-0.0203, -0.0187, -0.0095, -0.0237, -0.0025,  0.0063,  0.0099,  0.0231,
+         0.0138, -0.0077], device='cuda:0'), grad: tensor([ 8.9407e-08,  1.0571e-06, -2.1290e-06,  2.2352e-08,  2.0862e-07,
+        -4.0904e-06,  3.4533e-06,  2.7753e-07,  1.0347e-06,  8.7544e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 320, time 214.85, cls_loss 0.0010 cls_loss_mapping 0.0015 cls_loss_causal 0.4677 re_mapping 0.0046 re_causal 0.0132 /// teacc 99.00 lr 0.00010000
+Epoch 322, weight, value: tensor([[-0.3000,  0.0800, -0.1664,  ..., -0.0660, -0.2523, -0.1708],
+        [ 0.0009,  0.1096, -0.1229,  ..., -0.1206, -0.0669,  0.1212],
+        [ 0.0511, -0.1334, -0.1708,  ...,  0.0067, -0.0568, -0.1059],
+        ...,
+        [ 0.0999, -0.0685,  0.1414,  ...,  0.0706,  0.2000, -0.0181],
+        [ 0.1165, -0.2223, -0.1333,  ..., -0.2927, -0.0710,  0.2014],
+        [-0.1731,  0.0887,  0.0609,  ..., -0.2790, -0.1484, -0.0500]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -8.1211e-07,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 1.0245e-08, -4.5635e-08,  6.5193e-09,  ...,  2.7940e-09,
+          6.5193e-09, -8.6613e-08],
+        [-1.2107e-08,  1.5832e-08,  9.3132e-10,  ..., -3.7253e-09,
+         -6.5193e-09,  2.7940e-09],
+        ...,
+        [ 1.8626e-09,  2.4214e-08, -6.5193e-09,  ...,  9.3132e-10,
+          0.0000e+00,  4.1910e-08],
+        [ 0.0000e+00,  7.4506e-09,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  7.4506e-09],
+        [ 1.8626e-09,  8.7265e-07, -1.8626e-09,  ...,  0.0000e+00,
+          1.8626e-09,  8.1956e-08]], device='cuda:0')
+Epoch 322, bias, value: tensor([-0.0203, -0.0188, -0.0088, -0.0238, -0.0021,  0.0061,  0.0099,  0.0231,
+         0.0140, -0.0080], device='cuda:0'), grad: tensor([-2.0433e-06, -1.7881e-07,  1.6764e-08,  2.3283e-08, -2.8033e-07,
+         1.8626e-09, -8.8476e-08,  1.2200e-07,  9.2201e-08,  2.3283e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 321, time 214.79, cls_loss 0.0008 cls_loss_mapping 0.0012 cls_loss_causal 0.5133 re_mapping 0.0047 re_causal 0.0139 /// teacc 99.06 lr 0.00010000
+Epoch 323, weight, value: tensor([[-0.3004,  0.0800, -0.1669,  ..., -0.0662, -0.2527, -0.1711],
+        [ 0.0005,  0.1094, -0.1234,  ..., -0.1207, -0.0674,  0.1210],
+        [ 0.0523, -0.1335, -0.1707,  ...,  0.0078, -0.0555, -0.1059],
+        ...,
+        [ 0.1001, -0.0687,  0.1419,  ...,  0.0699,  0.2004, -0.0176],
+        [ 0.1164, -0.2226, -0.1336,  ..., -0.2941, -0.0717,  0.2015],
+        [-0.1733,  0.0887,  0.0609,  ..., -0.2792, -0.1488, -0.0504]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  2.7940e-09,  5.5879e-09,  ...,  9.3132e-10,
+          9.3132e-10,  9.3132e-10],
+        [ 2.8871e-08, -8.3819e-09,  5.7742e-08,  ...,  4.6566e-09,
+          3.1665e-08, -3.3528e-08],
+        [ 4.6566e-09,  9.3132e-10,  1.7695e-08,  ..., -5.5879e-09,
+          8.3819e-09, -2.6077e-08],
+        ...,
+        [-1.9930e-07,  7.4506e-09, -3.6974e-07,  ...,  1.7695e-08,
+         -2.1607e-07,  2.4214e-08],
+        [ 6.5193e-09,  4.7497e-08,  7.5437e-08,  ...,  9.3132e-10,
+          3.7253e-09,  2.0489e-08],
+        [ 1.5087e-07, -2.3283e-08,  1.7881e-07,  ...,  0.0000e+00,
+          1.5926e-07, -3.7253e-09]], device='cuda:0')
+Epoch 323, bias, value: tensor([-0.0202, -0.0190, -0.0085, -0.0238, -0.0020,  0.0058,  0.0100,  0.0232,
+         0.0138, -0.0081], device='cuda:0'), grad: tensor([ 3.4459e-08,  7.2643e-08, -2.7940e-06,  1.6764e-08,  2.2631e-07,
+        -1.8720e-07, -9.9652e-08, -5.4762e-07,  5.0571e-07,  2.7698e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 322, time 215.01, cls_loss 0.0009 cls_loss_mapping 0.0017 cls_loss_causal 0.4965 re_mapping 0.0046 re_causal 0.0137 /// teacc 99.07 lr 0.00010000
+Epoch 324, weight, value: tensor([[-0.3010,  0.0801, -0.1684,  ..., -0.0664, -0.2530, -0.1717],
+        [ 0.0006,  0.1094, -0.1231,  ..., -0.1211, -0.0674,  0.1214],
+        [ 0.0527, -0.1335, -0.1706,  ...,  0.0081, -0.0553, -0.1059],
+        ...,
+        [ 0.1000, -0.0689,  0.1418,  ...,  0.0700,  0.2004, -0.0184],
+        [ 0.1169, -0.2236, -0.1346,  ..., -0.2947, -0.0722,  0.2029],
+        [-0.1740,  0.0887,  0.0613,  ..., -0.2804, -0.1495, -0.0517]],
+       device='cuda:0'), grad: tensor([[ 5.3085e-08,  1.3420e-06,  0.0000e+00,  ...,  9.3132e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 7.2643e-08,  9.3132e-09,  0.0000e+00,  ...,  1.1176e-08,
+          5.5879e-09,  4.2841e-08],
+        [-8.8662e-07,  1.8626e-08,  0.0000e+00,  ..., -1.4622e-07,
+         -1.2107e-08,  1.8626e-09],
+        ...,
+        [ 2.0489e-08,  5.5879e-09,  0.0000e+00,  ...,  3.7253e-09,
+          1.8626e-09,  7.4506e-09],
+        [ 3.5949e-07,  2.1420e-08,  0.0000e+00,  ...,  6.4261e-08,
+          2.7940e-09, -6.7055e-08],
+        [ 5.5879e-09,  3.5390e-08,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 324, bias, value: tensor([-0.0202, -0.0190, -0.0082, -0.0237, -0.0019,  0.0056,  0.0100,  0.0230,
+         0.0139, -0.0082], device='cuda:0'), grad: tensor([ 5.0440e-06,  2.2352e-07, -2.5127e-06,  8.6427e-07,  3.9116e-08,
+         9.4995e-08, -5.1148e-06,  7.9162e-08,  1.1539e-06,  1.1269e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 323, time 214.72, cls_loss 0.0011 cls_loss_mapping 0.0016 cls_loss_causal 0.4979 re_mapping 0.0045 re_causal 0.0128 /// teacc 98.97 lr 0.00010000
+Epoch 325, weight, value: tensor([[-0.3014,  0.0801, -0.1697,  ..., -0.0665, -0.2531, -0.1718],
+        [ 0.0006,  0.1095, -0.1232,  ..., -0.1214, -0.0674,  0.1216],
+        [ 0.0528, -0.1335, -0.1706,  ...,  0.0083, -0.0552, -0.1060],
+        ...,
+        [ 0.1000, -0.0695,  0.1418,  ...,  0.0699,  0.2005, -0.0188],
+        [ 0.1169, -0.2242, -0.1347,  ..., -0.2956, -0.0724,  0.2032],
+        [-0.1743,  0.0900,  0.0636,  ..., -0.2809, -0.1497, -0.0522]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.9558e-08,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 1.9278e-07,  8.1956e-08,  2.6822e-07,  ...,  4.2841e-08,
+          7.3574e-08, -2.5146e-08],
+        [-4.3772e-08,  1.3039e-08,  1.0245e-08,  ..., -3.4459e-08,
+          1.8626e-09,  1.8626e-09],
+        ...,
+        [-1.5181e-07,  1.6764e-07,  1.5367e-07,  ..., -7.4506e-09,
+         -6.0536e-08,  2.7008e-08],
+        [-1.6205e-07,  5.5879e-08,  3.6322e-08,  ...,  0.0000e+00,
+          0.0000e+00, -3.9954e-07],
+        [ 1.8626e-09,  4.1239e-06, -5.8208e-07,  ...,  0.0000e+00,
+         -1.5832e-08,  1.2945e-07]], device='cuda:0')
+Epoch 325, bias, value: tensor([-0.0202, -0.0190, -0.0081, -0.0266, -0.0043,  0.0079,  0.0100,  0.0230,
+         0.0135, -0.0070], device='cuda:0'), grad: tensor([-3.4459e-08,  1.0366e-06, -1.3597e-07,  3.2596e-07, -2.1279e-05,
+         2.7381e-07,  9.9652e-07,  7.7859e-07, -7.6089e-07,  1.8835e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 324, time 214.49, cls_loss 0.0009 cls_loss_mapping 0.0019 cls_loss_causal 0.4498 re_mapping 0.0046 re_causal 0.0127 /// teacc 99.04 lr 0.00010000
+Epoch 326, weight, value: tensor([[-0.3020,  0.0801, -0.1703,  ..., -0.0670, -0.2538, -0.1718],
+        [ 0.0007,  0.1095, -0.1230,  ..., -0.1218, -0.0675,  0.1217],
+        [ 0.0528, -0.1336, -0.1709,  ...,  0.0083, -0.0553, -0.1058],
+        ...,
+        [ 0.1000, -0.0698,  0.1420,  ...,  0.0700,  0.2007, -0.0193],
+        [ 0.1171, -0.2245, -0.1348,  ..., -0.2962, -0.0726,  0.2037],
+        [-0.1752,  0.0899,  0.0630,  ..., -0.2815, -0.1506, -0.0525]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -7.4506e-09,  9.3132e-10,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 1.7695e-08,  1.8626e-09,  1.7695e-08,  ...,  1.2107e-08,
+          1.4901e-08,  0.0000e+00],
+        [ 3.4459e-08,  0.0000e+00,  2.7008e-08,  ...,  1.8626e-08,
+          3.1665e-08,  9.3132e-09],
+        ...,
+        [-9.3132e-08,  1.8626e-09, -4.6566e-08,  ..., -3.0734e-08,
+         -8.7544e-08, -1.3039e-08],
+        [ 2.7940e-09, -0.0000e+00,  1.3970e-08,  ...,  1.0245e-08,
+          1.6764e-08, -1.3970e-08],
+        [ 1.1176e-08,  2.7940e-09,  3.7253e-09,  ...,  4.6566e-09,
+          8.3819e-09,  5.5879e-09]], device='cuda:0')
+Epoch 326, bias, value: tensor([-0.0202, -0.0191, -0.0070, -0.0267, -0.0041,  0.0079,  0.0101,  0.0229,
+         0.0134, -0.0073], device='cuda:0'), grad: tensor([-1.2107e-08,  4.8429e-08,  9.1270e-08, -6.8918e-08,  3.2596e-08,
+         5.5879e-08, -1.5832e-08, -1.7229e-07,  9.3132e-09,  3.3528e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 325, time 214.54, cls_loss 0.0009 cls_loss_mapping 0.0018 cls_loss_causal 0.4603 re_mapping 0.0045 re_causal 0.0131 /// teacc 99.08 lr 0.00010000
+Epoch 327, weight, value: tensor([[-0.3023,  0.0801, -0.1710,  ..., -0.0674, -0.2540, -0.1721],
+        [ 0.0006,  0.1095, -0.1231,  ..., -0.1220, -0.0676,  0.1219],
+        [ 0.0526, -0.1337, -0.1712,  ...,  0.0082, -0.0556, -0.1059],
+        ...,
+        [ 0.1001, -0.0701,  0.1420,  ...,  0.0693,  0.2008, -0.0196],
+        [ 0.1176, -0.2248, -0.1349,  ..., -0.2968, -0.0729,  0.2040],
+        [-0.1754,  0.0898,  0.0631,  ..., -0.2822, -0.1509, -0.0527]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-09, -1.9185e-07,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00, -4.6566e-09],
+        [ 7.4506e-09,  6.5193e-09,  9.3132e-09,  ...,  9.3132e-10,
+          4.6566e-09, -7.4506e-09],
+        [ 1.8626e-09,  4.6566e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  7.4506e-09],
+        ...,
+        [-2.5146e-08,  7.4506e-09, -2.4214e-08,  ..., -3.7253e-09,
+         -1.4901e-08,  1.2107e-08],
+        [-5.4017e-08,  1.6764e-08,  1.3970e-08,  ...,  9.3132e-10,
+          3.7253e-09, -2.4773e-07],
+        [ 5.4017e-08,  8.3819e-09, -4.7497e-08,  ...,  0.0000e+00,
+          2.7940e-09,  2.1420e-07]], device='cuda:0')
+Epoch 327, bias, value: tensor([-0.0202, -0.0194, -0.0063, -0.0265, -0.0042,  0.0074,  0.0101,  0.0228,
+         0.0138, -0.0074], device='cuda:0'), grad: tensor([-5.6811e-07,  8.9407e-08, -2.5146e-08,  2.7940e-08,  1.1921e-07,
+         4.1910e-08,  3.4645e-07,  3.7253e-09, -6.8452e-07,  6.4541e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 326, time 214.75, cls_loss 0.0010 cls_loss_mapping 0.0021 cls_loss_causal 0.4937 re_mapping 0.0045 re_causal 0.0130 /// teacc 98.94 lr 0.00010000
+Epoch 328, weight, value: tensor([[-0.3026,  0.0802, -0.1721,  ..., -0.0682, -0.2550, -0.1729],
+        [ 0.0006,  0.1095, -0.1232,  ..., -0.1226, -0.0677,  0.1220],
+        [ 0.0540, -0.1337, -0.1705,  ...,  0.0098, -0.0533, -0.1058],
+        ...,
+        [ 0.0999, -0.0706,  0.1419,  ...,  0.0687,  0.2008, -0.0199],
+        [ 0.1178, -0.2255, -0.1351,  ..., -0.2983, -0.0734,  0.2044],
+        [-0.1758,  0.0897,  0.0632,  ..., -0.2831, -0.1514, -0.0531]],
+       device='cuda:0'), grad: tensor([[-3.8184e-08,  4.5635e-08,  8.4750e-08,  ...,  0.0000e+00,
+          2.7940e-09,  1.8626e-09],
+        [ 3.7253e-08,  6.1188e-07,  1.9651e-07,  ...,  9.3132e-10,
+          4.3772e-08, -5.5879e-09],
+        [ 1.3039e-08,  3.5204e-07,  5.4017e-08,  ..., -2.7940e-09,
+          9.3132e-09,  6.5193e-09],
+        ...,
+        [-5.2154e-08,  2.4103e-06,  5.5600e-07,  ...,  9.3132e-10,
+         -6.9849e-08, -7.4506e-09],
+        [ 7.4506e-09,  2.7381e-07,  7.5437e-08,  ...,  0.0000e+00,
+          4.6566e-09,  3.7253e-09],
+        [ 1.7695e-08,  1.4353e-04,  3.6299e-05,  ...,  0.0000e+00,
+          3.7253e-09,  3.6322e-08]], device='cuda:0')
+Epoch 328, bias, value: tensor([-0.0202, -0.0195, -0.0050, -0.0275, -0.0038,  0.0073,  0.0102,  0.0226,
+         0.0137, -0.0076], device='cuda:0'), grad: tensor([ 2.7940e-09,  1.6848e-06,  9.5181e-07,  4.7032e-07, -3.8767e-04,
+         1.1865e-06, -8.4285e-07,  6.2361e-06,  2.2445e-06,  3.7575e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 327, time 214.67, cls_loss 0.0012 cls_loss_mapping 0.0017 cls_loss_causal 0.4706 re_mapping 0.0046 re_causal 0.0127 /// teacc 98.95 lr 0.00010000
+Epoch 329, weight, value: tensor([[-0.3021,  0.0803, -0.1733,  ..., -0.0686, -0.2559, -0.1720],
+        [ 0.0006,  0.1096, -0.1232,  ..., -0.1229, -0.0677,  0.1224],
+        [ 0.0543, -0.1340, -0.1723,  ...,  0.0078, -0.0532, -0.1059],
+        ...,
+        [ 0.0999, -0.0719,  0.1419,  ...,  0.0686,  0.2008, -0.0208],
+        [ 0.1182, -0.2261, -0.1353,  ..., -0.2994, -0.0736,  0.2053],
+        [-0.1764,  0.0892,  0.0629,  ..., -0.2835, -0.1513, -0.0536]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 6.5193e-09, -1.3970e-08,  1.8626e-09,  ...,  3.7253e-09,
+          1.8626e-09, -5.8673e-08],
+        [ 0.0000e+00,  9.3132e-10, -0.0000e+00,  ..., -5.5879e-09,
+         -5.5879e-09,  1.0245e-08],
+        ...,
+        [ 9.3132e-09,  1.2107e-08,  3.7253e-09,  ...,  2.7940e-09,
+          2.7940e-09,  5.7742e-08],
+        [-1.1548e-07,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -1.3784e-07],
+        [ 8.2888e-08, -1.8626e-09, -1.0245e-08,  ...,  0.0000e+00,
+          9.3132e-10,  1.0338e-07]], device='cuda:0')
+Epoch 329, bias, value: tensor([-0.0201, -0.0197, -0.0063, -0.0256, -0.0028,  0.0072,  0.0102,  0.0224,
+         0.0139, -0.0082], device='cuda:0'), grad: tensor([-3.7253e-09, -8.2888e-08, -1.8626e-09, -2.7940e-09,  1.9558e-08,
+         3.6322e-08,  1.3970e-08,  1.2293e-07, -4.0140e-07,  2.9989e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 328, time 214.55, cls_loss 0.0012 cls_loss_mapping 0.0017 cls_loss_causal 0.4845 re_mapping 0.0045 re_causal 0.0130 /// teacc 98.99 lr 0.00010000
+Epoch 330, weight, value: tensor([[-0.3029,  0.0803, -0.1746,  ..., -0.0691, -0.2565, -0.1723],
+        [ 0.0006,  0.1095, -0.1233,  ..., -0.1231, -0.0677,  0.1225],
+        [ 0.0552, -0.1341, -0.1733,  ...,  0.0067, -0.0530, -0.1058],
+        ...,
+        [ 0.0998, -0.0723,  0.1419,  ...,  0.0685,  0.2008, -0.0213],
+        [ 0.1187, -0.2265, -0.1351,  ..., -0.3001, -0.0742,  0.2063],
+        [-0.1766,  0.0900,  0.0647,  ..., -0.2839, -0.1511, -0.0540]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.1176e-08,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 5.5879e-09, -1.3039e-08,  5.5879e-09,  ...,  9.3132e-10,
+          2.7940e-09, -2.3283e-08],
+        [ 2.6077e-08,  6.5193e-09,  2.0489e-08,  ...,  1.1176e-08,
+          1.5832e-08,  6.5193e-09],
+        ...,
+        [-3.2596e-08,  1.6764e-08, -1.5832e-08,  ..., -1.3970e-08,
+         -1.9558e-08,  1.4901e-08],
+        [-7.4506e-09,  2.7940e-09,  5.5879e-09,  ...,  9.3132e-10,
+          9.3132e-10, -9.3132e-09],
+        [ 5.5879e-09, -8.6613e-08, -1.5367e-07,  ...,  0.0000e+00,
+         -1.3039e-08,  5.5879e-09]], device='cuda:0')
+Epoch 330, bias, value: tensor([-0.0201, -0.0198, -0.0071, -0.0245, -0.0044,  0.0070,  0.0102,  0.0222,
+         0.0141, -0.0072], device='cuda:0'), grad: tensor([-2.3283e-08, -4.0978e-08,  6.0536e-08,  7.4506e-09,  2.9616e-07,
+         8.3819e-09, -2.2352e-08,  7.4506e-09, -5.5879e-09, -2.6915e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 329, time 215.25, cls_loss 0.0010 cls_loss_mapping 0.0013 cls_loss_causal 0.4635 re_mapping 0.0044 re_causal 0.0127 /// teacc 99.04 lr 0.00010000
+Epoch 331, weight, value: tensor([[-0.3033,  0.0806, -0.1751,  ..., -0.0692, -0.2568, -0.1725],
+        [ 0.0007,  0.1099, -0.1232,  ..., -0.1235, -0.0677,  0.1232],
+        [ 0.0553, -0.1343, -0.1734,  ...,  0.0067, -0.0531, -0.1058],
+        ...,
+        [ 0.0996, -0.0745,  0.1417,  ...,  0.0683,  0.2008, -0.0226],
+        [ 0.1190, -0.2273, -0.1354,  ..., -0.3011, -0.0745,  0.2068],
+        [-0.1769,  0.0896,  0.0649,  ..., -0.2845, -0.1515, -0.0544]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -1.4249e-07,  3.7253e-09,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 4.4703e-08,  4.6566e-09,  3.8184e-08,  ...,  2.3283e-08,
+          2.4214e-08, -8.3819e-09],
+        [-1.8626e-08,  9.3132e-10,  9.1270e-08,  ..., -5.5879e-08,
+         -4.8429e-08,  9.3132e-09],
+        ...,
+        [-4.0978e-08,  5.5879e-09, -1.2107e-07,  ...,  1.1176e-08,
+         -1.2107e-08,  6.5193e-09],
+        [-2.9802e-08,  1.3970e-08,  1.7695e-08,  ...,  1.8626e-09,
+          2.7940e-09, -4.0978e-08],
+        [ 6.5193e-09,  5.9605e-08, -3.3528e-08,  ...,  2.7940e-09,
+          2.7940e-09,  0.0000e+00]], device='cuda:0')
+Epoch 331, bias, value: tensor([-0.0198, -0.0197, -0.0071, -0.0244, -0.0042,  0.0072,  0.0101,  0.0219,
+         0.0140, -0.0078], device='cuda:0'), grad: tensor([-3.3434e-07,  1.4529e-07, -3.0827e-07,  6.7987e-08,  9.0338e-08,
+        -3.8464e-07,  4.5728e-07,  1.4994e-07, -4.6566e-09,  1.3132e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 330, time 215.04, cls_loss 0.0009 cls_loss_mapping 0.0014 cls_loss_causal 0.4651 re_mapping 0.0043 re_causal 0.0126 /// teacc 98.96 lr 0.00010000
+Epoch 332, weight, value: tensor([[-0.3035,  0.0808, -0.1763,  ..., -0.0694, -0.2570, -0.1723],
+        [ 0.0006,  0.1100, -0.1233,  ..., -0.1241, -0.0679,  0.1232],
+        [ 0.0549, -0.1344, -0.1737,  ...,  0.0067, -0.0536, -0.1059],
+        ...,
+        [ 0.0998, -0.0750,  0.1421,  ...,  0.0687,  0.2011, -0.0228],
+        [ 0.1198, -0.2276, -0.1357,  ..., -0.3020, -0.0751,  0.2082],
+        [-0.1774,  0.0893,  0.0649,  ..., -0.2856, -0.1522, -0.0546]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  0.0000e+00,  7.4506e-09,  ...,  0.0000e+00,
+          2.7940e-09,  9.3132e-10],
+        [ 3.3528e-08,  3.5390e-08,  7.0781e-08,  ...,  1.0245e-08,
+          2.0489e-08,  2.9802e-08],
+        [ 1.2107e-08,  1.7695e-08,  1.8626e-08,  ...,  1.8626e-09,
+          6.5193e-09,  1.0245e-08],
+        ...,
+        [-9.5926e-08,  6.7055e-08,  5.1223e-08,  ..., -3.7253e-09,
+         -7.4506e-08,  7.7300e-08],
+        [-3.2596e-08,  1.9558e-08,  4.8429e-08,  ...,  2.0489e-08,
+          2.7940e-09, -7.9162e-08],
+        [ 2.9802e-08,  1.5460e-07, -1.1828e-07,  ...,  5.5879e-09,
+          2.1420e-08,  1.9372e-07]], device='cuda:0')
+Epoch 332, bias, value: tensor([-0.0197, -0.0199, -0.0072, -0.0244, -0.0042,  0.0072,  0.0101,  0.0221,
+         0.0149, -0.0081], device='cuda:0'), grad: tensor([ 1.3039e-08,  3.2410e-07,  9.8720e-08,  2.2911e-07, -8.5961e-07,
+        -5.7835e-07,  1.1548e-07,  2.6636e-07, -2.2445e-07,  6.2399e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 331, time 215.17, cls_loss 0.0009 cls_loss_mapping 0.0016 cls_loss_causal 0.4850 re_mapping 0.0045 re_causal 0.0133 /// teacc 99.04 lr 0.00010000
+Epoch 333, weight, value: tensor([[-0.3040,  0.0810, -0.1767,  ..., -0.0695, -0.2574, -0.1725],
+        [ 0.0003,  0.1099, -0.1237,  ..., -0.1255, -0.0683,  0.1233],
+        [ 0.0546, -0.1345, -0.1741,  ...,  0.0067, -0.0541, -0.1060],
+        ...,
+        [ 0.1002, -0.0755,  0.1426,  ...,  0.0694,  0.2016, -0.0230],
+        [ 0.1203, -0.2282, -0.1358,  ..., -0.3027, -0.0755,  0.2089],
+        [-0.1778,  0.0894,  0.0657,  ..., -0.2859, -0.1522, -0.0548]],
+       device='cuda:0'), grad: tensor([[ 1.7695e-08,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+          3.7253e-09,  2.0489e-08],
+        [-3.7253e-09, -1.6764e-08,  2.7940e-09,  ...,  2.7940e-09,
+          2.7940e-09, -8.1025e-08],
+        [-5.0291e-08,  9.3132e-10,  0.0000e+00,  ..., -3.3528e-08,
+         -4.5635e-08,  2.0489e-08],
+        ...,
+        [ 4.0978e-08,  1.0990e-07, -1.2107e-08,  ...,  2.2352e-08,
+          9.3132e-09,  1.6112e-07],
+        [-2.5146e-08,  1.8626e-09,  2.7940e-09,  ...,  3.7253e-09,
+          4.6566e-09, -6.3330e-08],
+        [ 7.4506e-09,  1.0245e-08, -2.7940e-09,  ...,  0.0000e+00,
+          9.3132e-10,  2.7008e-08]], device='cuda:0')
+Epoch 333, bias, value: tensor([-0.0195, -0.0200, -0.0072, -0.0244, -0.0046,  0.0070,  0.0100,  0.0222,
+         0.0151, -0.0080], device='cuda:0'), grad: tensor([ 6.4261e-08, -1.0990e-07, -1.5274e-07,  6.5193e-09, -2.4028e-07,
+         1.2107e-08,  8.3819e-09,  4.5169e-07, -9.5926e-08,  6.1467e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 332, time 214.92, cls_loss 0.0008 cls_loss_mapping 0.0012 cls_loss_causal 0.5080 re_mapping 0.0043 re_causal 0.0132 /// teacc 99.00 lr 0.00010000
+Epoch 334, weight, value: tensor([[-0.3015,  0.0813, -0.1762,  ..., -0.0698, -0.2578, -0.1703],
+        [ 0.0011,  0.1100, -0.1220,  ..., -0.1259, -0.0683,  0.1242],
+        [ 0.0546, -0.1346, -0.1742,  ...,  0.0067, -0.0543, -0.1060],
+        ...,
+        [ 0.0995, -0.0761,  0.1409,  ...,  0.0696,  0.2017, -0.0244],
+        [ 0.1209, -0.2287, -0.1361,  ..., -0.3033, -0.0759,  0.2096],
+        [-0.1778,  0.0891,  0.0658,  ..., -0.2862, -0.1522, -0.0548]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -9.3132e-09,  1.8626e-09,  ...,  1.8626e-09,
+          0.0000e+00,  9.3132e-10],
+        [ 1.2107e-08, -1.5832e-08,  1.3039e-08,  ...,  1.1176e-08,
+          5.5879e-09, -8.1025e-08],
+        [-3.5949e-07,  3.7253e-09,  1.8626e-08,  ..., -1.4529e-07,
+         -2.7101e-07,  1.3039e-08],
+        ...,
+        [ 3.5390e-07,  1.2107e-08,  8.3819e-09,  ...,  1.6019e-07,
+          2.6636e-07,  3.1665e-08],
+        [-2.0489e-08,  1.3039e-08,  4.6566e-09,  ...,  4.6566e-09,
+          2.7940e-09, -1.4901e-08],
+        [ 9.3132e-10,  2.7008e-08,  3.7253e-09,  ...,  5.5879e-09,
+          0.0000e+00,  1.1176e-08]], device='cuda:0')
+Epoch 334, bias, value: tensor([-0.0190, -0.0190, -0.0071, -0.0244, -0.0043,  0.0067,  0.0095,  0.0210,
+         0.0155, -0.0083], device='cuda:0'), grad: tensor([-1.3039e-08, -1.5274e-07, -7.9256e-07, -1.7323e-07, -8.6613e-08,
+         2.8871e-08,  6.7055e-08,  9.7137e-07,  3.0734e-08,  1.2200e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 333, time 215.04, cls_loss 0.0010 cls_loss_mapping 0.0016 cls_loss_causal 0.4911 re_mapping 0.0046 re_causal 0.0132 /// teacc 99.03 lr 0.00010000
+Epoch 335, weight, value: tensor([[-0.3022,  0.0815, -0.1766,  ..., -0.0701, -0.2583, -0.1709],
+        [ 0.0008,  0.1097, -0.1222,  ..., -0.1274, -0.0687,  0.1242],
+        [ 0.0542, -0.1347, -0.1750,  ...,  0.0066, -0.0558, -0.1059],
+        ...,
+        [ 0.0999, -0.0765,  0.1413,  ...,  0.0705,  0.2024, -0.0247],
+        [ 0.1217, -0.2291, -0.1365,  ..., -0.3065, -0.0774,  0.2105],
+        [-0.1782,  0.0888,  0.0657,  ..., -0.2868, -0.1528, -0.0550]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -1.8626e-09,  1.8626e-09,  ...,  9.3132e-10,
+          0.0000e+00, -1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.8626e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [-1.8626e-09,  1.8626e-09,  9.3132e-09,  ...,  9.3132e-10,
+          0.0000e+00, -1.8626e-09],
+        [ 9.3132e-10,  2.7940e-08, -5.5879e-09,  ...,  0.0000e+00,
+          9.3132e-10,  9.3132e-10]], device='cuda:0')
+Epoch 335, bias, value: tensor([-0.0188, -0.0192, -0.0072, -0.0242, -0.0042,  0.0061,  0.0094,  0.0212,
+         0.0163, -0.0087], device='cuda:0'), grad: tensor([ 7.4506e-09,  1.5832e-08, -3.4459e-08, -1.1176e-08, -1.2759e-07,
+         1.9558e-08, -2.3283e-08,  1.9558e-08,  2.6077e-08,  1.1735e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 334, time 214.90, cls_loss 0.0011 cls_loss_mapping 0.0019 cls_loss_causal 0.4990 re_mapping 0.0043 re_causal 0.0128 /// teacc 99.00 lr 0.00010000
+Epoch 336, weight, value: tensor([[-0.3025,  0.0816, -0.1773,  ..., -0.0708, -0.2587, -0.1715],
+        [-0.0004,  0.1102, -0.1218,  ..., -0.1278, -0.0690,  0.1236],
+        [ 0.0540, -0.1348, -0.1751,  ...,  0.0066, -0.0560, -0.1063],
+        ...,
+        [ 0.1001, -0.0804,  0.1415,  ...,  0.0707,  0.2030, -0.0271],
+        [ 0.1248, -0.2262, -0.1368,  ..., -0.3076, -0.0781,  0.2138],
+        [-0.1798,  0.0885,  0.0648,  ..., -0.2878, -0.1557, -0.0570]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09, -5.9605e-08, -9.3132e-10,  ...,  2.7940e-09,
+          1.8626e-09,  4.6566e-09],
+        [-1.8626e-09,  4.7497e-08, -1.0990e-07,  ...,  4.6566e-09,
+          2.2352e-08, -2.1048e-07],
+        [-9.3132e-09,  1.5832e-08,  8.3819e-09,  ..., -1.6764e-08,
+         -8.3819e-09,  1.4901e-08],
+        ...,
+        [-1.0058e-07,  4.6566e-08, -7.3574e-08,  ..., -1.8626e-09,
+         -1.0058e-07,  1.5553e-07],
+        [-9.3132e-10,  1.6764e-08,  1.5832e-08,  ...,  2.7940e-09,
+          2.7940e-09,  1.3039e-08],
+        [ 1.0151e-07,  1.3318e-06,  1.5926e-07,  ...,  7.4506e-09,
+          8.0094e-08,  6.9849e-08]], device='cuda:0')
+Epoch 336, bias, value: tensor([-0.0188, -0.0200, -0.0074, -0.0242, -0.0042,  0.0060,  0.0093,  0.0210,
+         0.0194, -0.0092], device='cuda:0'), grad: tensor([-1.5553e-07, -8.3353e-07, -2.0489e-08,  6.9849e-08, -5.1558e-06,
+         4.3772e-08,  1.1269e-07,  6.9477e-07,  1.4901e-07,  5.0738e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 335, time 214.92, cls_loss 0.0010 cls_loss_mapping 0.0015 cls_loss_causal 0.4852 re_mapping 0.0047 re_causal 0.0131 /// teacc 99.04 lr 0.00010000
+Epoch 337, weight, value: tensor([[-0.3025,  0.0816, -0.1779,  ..., -0.0719, -0.2591, -0.1711],
+        [-0.0009,  0.1101, -0.1224,  ..., -0.1285, -0.0696,  0.1235],
+        [ 0.0539, -0.1351, -0.1755,  ...,  0.0065, -0.0566, -0.1065],
+        ...,
+        [ 0.1009, -0.0805,  0.1424,  ...,  0.0714,  0.2037, -0.0266],
+        [ 0.1247, -0.2265, -0.1374,  ..., -0.3088, -0.0790,  0.2138],
+        [-0.1808,  0.0882,  0.0643,  ..., -0.2893, -0.1568, -0.0579]],
+       device='cuda:0'), grad: tensor([[ 1.2107e-08,  1.5832e-08,  1.7695e-08,  ...,  2.7940e-09,
+          9.3132e-10,  2.7008e-08],
+        [ 2.4214e-08,  5.6811e-08,  4.1910e-08,  ...,  1.2107e-08,
+          4.6566e-09,  6.5193e-09],
+        [ 1.1828e-07,  4.6566e-09,  1.9558e-08,  ...,  5.5879e-09,
+          8.3819e-09,  2.7474e-07],
+        ...,
+        [-1.8626e-08,  6.5193e-09, -1.3970e-08,  ..., -4.6566e-09,
+         -1.6764e-08,  3.4459e-08],
+        [-2.6990e-06,  3.5390e-08,  2.0489e-08,  ...,  4.6566e-09,
+          9.3132e-10, -8.3596e-06],
+        [ 2.0303e-06, -1.2573e-07, -1.3225e-07,  ...,  1.0245e-08,
+          1.8626e-09,  6.4112e-06]], device='cuda:0')
+Epoch 337, bias, value: tensor([-0.0187, -0.0202, -0.0074, -0.0245, -0.0034,  0.0061,  0.0095,  0.0214,
+         0.0192, -0.0098], device='cuda:0'), grad: tensor([ 1.5460e-07,  3.0734e-07,  9.3412e-07,  2.2259e-07,  4.7497e-08,
+        -4.0978e-07,  5.2899e-06,  7.2643e-08, -2.7180e-05,  2.0608e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 336, time 214.83, cls_loss 0.0010 cls_loss_mapping 0.0013 cls_loss_causal 0.4924 re_mapping 0.0044 re_causal 0.0128 /// teacc 99.08 lr 0.00010000
+Epoch 338, weight, value: tensor([[-0.3025,  0.0817, -0.1785,  ..., -0.0726, -0.2593, -0.1709],
+        [-0.0014,  0.1100, -0.1231,  ..., -0.1287, -0.0702,  0.1230],
+        [ 0.0543, -0.1352, -0.1757,  ...,  0.0065, -0.0565, -0.1066],
+        ...,
+        [ 0.1015, -0.0806,  0.1431,  ...,  0.0713,  0.2044, -0.0253],
+        [ 0.1247, -0.2267, -0.1380,  ..., -0.3107, -0.0793,  0.2139],
+        [-0.1812,  0.0882,  0.0645,  ..., -0.2898, -0.1570, -0.0588]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  2.4214e-08,  8.1025e-08,  ...,  1.8626e-09,
+          1.8626e-09,  9.3132e-10],
+        [-4.6566e-09, -2.7940e-09,  1.1269e-07,  ...,  3.7253e-09,
+          8.3819e-09, -3.5390e-08],
+        [ 9.3132e-09,  7.4506e-09,  2.9802e-08,  ..., -3.8184e-08,
+         -1.3039e-08,  7.4506e-09],
+        ...,
+        [-3.1665e-08,  8.9686e-07,  3.1702e-06,  ...,  1.8626e-09,
+         -3.2596e-08,  2.9802e-08],
+        [-7.4506e-09,  1.4622e-07,  5.3737e-07,  ...,  1.8626e-09,
+          9.3132e-10, -8.3819e-09],
+        [ 2.6077e-08, -1.8431e-06, -6.8024e-06,  ...,  1.8626e-09,
+          2.6077e-08,  2.7940e-09]], device='cuda:0')
+Epoch 338, bias, value: tensor([-0.0187, -0.0206, -0.0073, -0.0249, -0.0032,  0.0074,  0.0096,  0.0218,
+         0.0190, -0.0101], device='cuda:0'), grad: tensor([ 2.7288e-07,  2.5146e-07, -3.7253e-09,  3.5018e-07,  7.3649e-06,
+         6.3609e-07,  7.6368e-07,  1.0349e-05,  1.7053e-06, -2.1681e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 337, time 214.96, cls_loss 0.0009 cls_loss_mapping 0.0014 cls_loss_causal 0.4844 re_mapping 0.0043 re_causal 0.0127 /// teacc 99.06 lr 0.00010000
+Epoch 339, weight, value: tensor([[-0.3026,  0.0817, -0.1791,  ..., -0.0730, -0.2596, -0.1711],
+        [-0.0014,  0.1103, -0.1232,  ..., -0.1290, -0.0703,  0.1237],
+        [ 0.0546, -0.1353, -0.1759,  ...,  0.0065, -0.0564, -0.1067],
+        ...,
+        [ 0.1016, -0.0809,  0.1433,  ...,  0.0715,  0.2045, -0.0256],
+        [ 0.1245, -0.2272, -0.1384,  ..., -0.3119, -0.0799,  0.2137],
+        [-0.1814,  0.0882,  0.0649,  ..., -0.2901, -0.1573, -0.0596]],
+       device='cuda:0'), grad: tensor([[ 1.7695e-08, -1.8626e-09,  9.3132e-10,  ...,  0.0000e+00,
+          1.8626e-09,  3.1665e-08],
+        [ 8.4750e-08, -8.4750e-08,  8.1025e-08,  ...,  2.5146e-08,
+          8.2888e-08, -1.8720e-07],
+        [ 1.1455e-07,  2.2352e-08,  1.0245e-07,  ...,  3.1665e-08,
+          1.1083e-07,  4.9360e-08],
+        ...,
+        [-2.6822e-07,  5.5879e-08, -3.1199e-07,  ..., -9.5926e-08,
+         -2.7195e-07,  1.2759e-07],
+        [-4.8429e-08,  1.8626e-09,  1.5832e-08,  ...,  4.6566e-09,
+          1.2107e-08, -1.0058e-07],
+        [ 2.7008e-08,  1.8626e-09,  1.0245e-08,  ...,  2.7940e-09,
+          8.3819e-09,  3.9116e-08]], device='cuda:0')
+Epoch 339, bias, value: tensor([-0.0187, -0.0205, -0.0073, -0.0248, -0.0034,  0.0075,  0.0096,  0.0217,
+         0.0188, -0.0101], device='cuda:0'), grad: tensor([ 8.6613e-08, -3.2317e-07,  3.6042e-07,  1.6112e-07, -9.3132e-09,
+         2.0489e-08,  6.8918e-08, -2.3562e-07, -2.5984e-07,  1.2759e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 338, time 215.11, cls_loss 0.0009 cls_loss_mapping 0.0013 cls_loss_causal 0.4963 re_mapping 0.0046 re_causal 0.0135 /// teacc 98.93 lr 0.00010000
+Epoch 340, weight, value: tensor([[-0.3030,  0.0817, -0.1797,  ..., -0.0739, -0.2608, -0.1713],
+        [-0.0017,  0.1106, -0.1236,  ..., -0.1293, -0.0706,  0.1239],
+        [ 0.0549, -0.1353, -0.1760,  ...,  0.0065, -0.0560, -0.1067],
+        ...,
+        [ 0.1020, -0.0813,  0.1438,  ...,  0.0714,  0.2049, -0.0256],
+        [ 0.1247, -0.2273, -0.1387,  ..., -0.3128, -0.0815,  0.2141],
+        [-0.1818,  0.0882,  0.0649,  ..., -0.2906, -0.1581, -0.0601]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  1.9465e-07,  3.4459e-08,  ...,  1.0245e-08,
+          0.0000e+00,  4.6566e-09],
+        [ 4.9360e-08, -1.8626e-08,  4.8429e-08,  ...,  1.7695e-08,
+          3.7253e-09, -8.3819e-08],
+        [ 9.3132e-09,  2.1420e-08,  3.5390e-08,  ...,  1.3970e-08,
+          9.3132e-10,  2.9802e-08],
+        ...,
+        [-1.2107e-08,  4.0047e-08,  1.8626e-09,  ...,  1.8626e-09,
+         -7.4506e-09,  1.3039e-07],
+        [-2.1048e-07,  3.8184e-08,  9.9652e-08,  ...,  3.3528e-08,
+          0.0000e+00, -3.9861e-07],
+        [ 6.5193e-09,  1.3690e-07,  2.2165e-07,  ...,  7.4506e-08,
+          9.3132e-10,  9.3132e-08]], device='cuda:0')
+Epoch 340, bias, value: tensor([-0.0187, -0.0206, -0.0072, -0.0248, -0.0035,  0.0076,  0.0095,  0.0219,
+         0.0190, -0.0102], device='cuda:0'), grad: tensor([ 4.9174e-07,  2.1420e-08,  1.5926e-07, -1.0515e-06, -2.1327e-07,
+        -4.2468e-07,  8.5402e-07,  2.8033e-07, -8.7637e-07,  7.4692e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 339, time 215.06, cls_loss 0.0010 cls_loss_mapping 0.0014 cls_loss_causal 0.4661 re_mapping 0.0047 re_causal 0.0127 /// teacc 98.99 lr 0.00010000
+Epoch 341, weight, value: tensor([[-0.3029,  0.0818, -0.1802,  ..., -0.0748, -0.2618, -0.1713],
+        [-0.0019,  0.1107, -0.1238,  ..., -0.1300, -0.0708,  0.1241],
+        [ 0.0588, -0.1354, -0.1731,  ...,  0.0081, -0.0523, -0.1069],
+        ...,
+        [ 0.1000, -0.0817,  0.1427,  ...,  0.0685,  0.2035, -0.0261],
+        [ 0.1246, -0.2274, -0.1390,  ..., -0.3175, -0.0840,  0.2142],
+        [-0.1839,  0.0881,  0.0635,  ..., -0.2922, -0.1611, -0.0613]],
+       device='cuda:0'), grad: tensor([[ 3.6322e-08, -4.6566e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  8.7544e-08],
+        [-9.6858e-08, -5.5879e-09,  9.3132e-10,  ...,  0.0000e+00,
+         -2.7940e-09, -4.4331e-07],
+        [ 4.6566e-08,  2.7940e-09,  9.3132e-10,  ...,  0.0000e+00,
+          9.3132e-10,  1.7788e-07],
+        ...,
+        [ 1.0245e-08,  5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09,  4.2841e-08],
+        [-4.8429e-08,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 3.3528e-08,  1.0245e-08,  9.3132e-10,  ...,  0.0000e+00,
+          9.3132e-10,  7.7300e-08]], device='cuda:0')
+Epoch 341, bias, value: tensor([-0.0186, -0.0207, -0.0049, -0.0254, -0.0030,  0.0073,  0.0095,  0.0203,
+         0.0189, -0.0109], device='cuda:0'), grad: tensor([ 1.2945e-07, -1.1204e-06,  4.2375e-07,  3.7253e-09, -2.0489e-07,
+         2.2352e-08,  1.6391e-07,  1.4715e-07,  1.5739e-07,  2.7474e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 340, time 214.94, cls_loss 0.0010 cls_loss_mapping 0.0026 cls_loss_causal 0.5094 re_mapping 0.0045 re_causal 0.0127 /// teacc 99.03 lr 0.00010000
+Epoch 342, weight, value: tensor([[-0.3030,  0.0819, -0.1812,  ..., -0.0759, -0.2623, -0.1718],
+        [-0.0020,  0.1105, -0.1240,  ..., -0.1303, -0.0709,  0.1240],
+        [ 0.0587, -0.1358, -0.1732,  ...,  0.0080, -0.0524, -0.1070],
+        ...,
+        [ 0.1002, -0.0819,  0.1428,  ...,  0.0685,  0.2037, -0.0261],
+        [ 0.1246, -0.2277, -0.1393,  ..., -0.3180, -0.0843,  0.2143],
+        [-0.1844,  0.0880,  0.0634,  ..., -0.2928, -0.1618, -0.0618]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -5.5879e-09,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09],
+        [-1.1083e-07, -3.5763e-07, -1.9930e-07,  ...,  1.8626e-09,
+          0.0000e+00, -3.7905e-07],
+        [-9.3132e-10,  3.7253e-09,  1.8626e-09,  ..., -1.7695e-08,
+          0.0000e+00,  5.5879e-09],
+        ...,
+        [ 9.1270e-08,  2.9709e-07,  1.6671e-07,  ...,  9.3132e-10,
+          0.0000e+00,  3.0361e-07],
+        [ 2.7940e-09,  4.6566e-09,  2.7940e-09,  ...,  1.2107e-08,
+          0.0000e+00,  5.5879e-09],
+        [ 1.3039e-08,  4.5635e-08,  1.8626e-08,  ...,  0.0000e+00,
+          0.0000e+00,  4.0047e-08]], device='cuda:0')
+Epoch 342, bias, value: tensor([-0.0186, -0.0209, -0.0050, -0.0247, -0.0029,  0.0058,  0.0097,  0.0204,
+         0.0187, -0.0111], device='cuda:0'), grad: tensor([ 0.0000e+00, -1.3290e-06, -3.2783e-07,  2.2352e-08,  8.3819e-08,
+        -1.5832e-08,  2.7940e-08,  1.1222e-06,  2.6263e-07,  1.5739e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 341, time 215.07, cls_loss 0.0010 cls_loss_mapping 0.0023 cls_loss_causal 0.4748 re_mapping 0.0043 re_causal 0.0121 /// teacc 98.93 lr 0.00010000
+Epoch 343, weight, value: tensor([[-0.3034,  0.0820, -0.1817,  ..., -0.0752, -0.2630, -0.1721],
+        [-0.0021,  0.1105, -0.1242,  ..., -0.1309, -0.0710,  0.1241],
+        [ 0.0587, -0.1360, -0.1733,  ...,  0.0080, -0.0524, -0.1070],
+        ...,
+        [ 0.1004, -0.0820,  0.1409,  ...,  0.0686,  0.2027, -0.0264],
+        [ 0.1249, -0.2278, -0.1396,  ..., -0.3194, -0.0842,  0.2145],
+        [-0.1857,  0.0880,  0.0654,  ..., -0.2952, -0.1623, -0.0622]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09,  1.8626e-09,  4.6566e-09,  ...,  9.3132e-10,
+          9.3132e-10,  7.4506e-09],
+        [ 1.8254e-07,  1.4901e-08,  1.8626e-08,  ...,  4.6566e-09,
+          8.3819e-09,  2.2538e-07],
+        [ 8.4843e-07,  1.8626e-09,  1.0245e-08,  ..., -6.5193e-09,
+         -9.3132e-09,  9.0245e-07],
+        ...,
+        [ 3.9116e-08,  1.1176e-08, -4.3772e-08,  ..., -1.3039e-08,
+         -2.4214e-08,  9.4995e-08],
+        [-1.2135e-06,  4.8429e-08,  8.9407e-08,  ...,  2.7940e-09,
+          4.6566e-09, -1.2703e-06],
+        [ 2.3283e-08, -4.4703e-08, -1.2852e-07,  ...,  4.6566e-09,
+          1.0245e-08,  1.7602e-07]], device='cuda:0')
+Epoch 343, bias, value: tensor([-0.0185, -0.0210, -0.0050, -0.0247, -0.0028,  0.0056,  0.0097,  0.0188,
+         0.0188, -0.0094], device='cuda:0'), grad: tensor([ 2.5518e-07,  7.7952e-07,  2.4177e-06,  6.0070e-07, -3.3062e-07,
+         1.7928e-06, -4.7088e-06,  2.1327e-07, -1.2983e-06,  2.8126e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 342, time 215.18, cls_loss 0.0008 cls_loss_mapping 0.0015 cls_loss_causal 0.4569 re_mapping 0.0043 re_causal 0.0125 /// teacc 99.03 lr 0.00010000
+Epoch 344, weight, value: tensor([[-0.3026,  0.0820, -0.1826,  ..., -0.0754, -0.2618, -0.1708],
+        [-0.0021,  0.1106, -0.1243,  ..., -0.1314, -0.0712,  0.1245],
+        [ 0.0587, -0.1363, -0.1734,  ...,  0.0080, -0.0525, -0.1077],
+        ...,
+        [ 0.1005, -0.0824,  0.1411,  ...,  0.0689,  0.2029, -0.0267],
+        [ 0.1251, -0.2280, -0.1401,  ..., -0.3208, -0.0851,  0.2147],
+        [-0.1861,  0.0879,  0.0653,  ..., -0.2965, -0.1625, -0.0625]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -1.5832e-07,  0.0000e+00,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 4.6566e-09, -9.3132e-10,  9.3132e-10,  ...,  3.7253e-09,
+          5.5879e-09, -4.6566e-09],
+        [-3.6322e-08,  9.3132e-10, -1.1176e-08,  ..., -6.1467e-08,
+         -8.1956e-08,  9.3132e-10],
+        ...,
+        [ 3.1665e-08,  9.3132e-10,  1.0245e-08,  ...,  5.0291e-08,
+          6.7055e-08,  3.7253e-09],
+        [-1.6764e-08,  1.8626e-09,  9.3132e-10,  ...,  9.3132e-10,
+          9.3132e-10, -2.4214e-08],
+        [ 8.3819e-09,  3.2596e-08, -9.3132e-09,  ...,  1.8626e-09,
+          2.7940e-09,  1.2107e-08]], device='cuda:0')
+Epoch 344, bias, value: tensor([-0.0184, -0.0210, -0.0052, -0.0247, -0.0027,  0.0055,  0.0097,  0.0189,
+         0.0188, -0.0095], device='cuda:0'), grad: tensor([-5.7276e-07,  5.5879e-09, -1.6391e-07,  6.5193e-09,  2.7940e-08,
+         2.1420e-08,  4.3306e-07,  1.4715e-07, -4.4703e-08,  1.4156e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 343, time 214.90, cls_loss 0.0009 cls_loss_mapping 0.0014 cls_loss_causal 0.4526 re_mapping 0.0045 re_causal 0.0130 /// teacc 99.02 lr 0.00010000
+Epoch 345, weight, value: tensor([[-0.3028,  0.0820, -0.1840,  ..., -0.0758, -0.2623, -0.1709],
+        [-0.0027,  0.1067, -0.1260,  ..., -0.1316, -0.0721,  0.1243],
+        [ 0.0585, -0.1364, -0.1735,  ...,  0.0079, -0.0527, -0.1079],
+        ...,
+        [ 0.1013, -0.0827,  0.1414,  ...,  0.0691,  0.2038, -0.0256],
+        [ 0.1247, -0.2283, -0.1412,  ..., -0.3220, -0.0884,  0.2145],
+        [-0.1865,  0.0904,  0.0660,  ..., -0.2969, -0.1626, -0.0628]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.4065e-06,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.3039e-08],
+        [ 3.7253e-09,  3.1665e-08,  3.7253e-09,  ...,  1.8626e-09,
+          4.6566e-09, -2.0489e-08],
+        [-2.7940e-08,  8.7544e-08,  9.3132e-10,  ..., -1.5832e-08,
+         -2.8871e-08,  1.8626e-09],
+        ...,
+        [ 2.3283e-08,  4.0047e-08, -9.3132e-09,  ...,  1.3039e-08,
+          2.0489e-08,  2.1420e-08],
+        [ 0.0000e+00,  7.4506e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.3772e-08],
+        [ 3.7253e-09, -2.7288e-06,  6.5193e-09,  ...,  1.8626e-09,
+          5.5879e-09,  4.6566e-09]], device='cuda:0')
+Epoch 345, bias, value: tensor([-0.0185, -0.0233, -0.0053, -0.0247, -0.0028,  0.0061,  0.0097,  0.0194,
+         0.0184, -0.0076], device='cuda:0'), grad: tensor([ 6.2771e-06,  6.0536e-08,  1.8161e-07,  4.7497e-08,  3.3434e-07,
+        -3.1851e-07, -3.7625e-07,  3.6135e-07,  3.0734e-07, -6.8992e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 344, time 214.74, cls_loss 0.0009 cls_loss_mapping 0.0011 cls_loss_causal 0.4513 re_mapping 0.0046 re_causal 0.0131 /// teacc 98.95 lr 0.00010000
+Epoch 346, weight, value: tensor([[-0.3031,  0.0821, -0.1854,  ..., -0.0763, -0.2631, -0.1710],
+        [-0.0026,  0.1060, -0.1264,  ..., -0.1324, -0.0723,  0.1251],
+        [ 0.0585, -0.1365, -0.1736,  ...,  0.0079, -0.0526, -0.1085],
+        ...,
+        [ 0.1014, -0.0828,  0.1416,  ...,  0.0694,  0.2040, -0.0261],
+        [ 0.1244, -0.2285, -0.1422,  ..., -0.3237, -0.0901,  0.2144],
+        [-0.1868,  0.0909,  0.0662,  ..., -0.2979, -0.1625, -0.0638]],
+       device='cuda:0'), grad: tensor([[ 1.3597e-07, -7.4506e-09,  1.3504e-07,  ...,  9.3132e-10,
+          1.3225e-07,  2.9802e-08],
+        [ 6.2466e-05,  1.1176e-08,  5.9694e-05,  ...,  9.3132e-10,
+          6.0618e-05,  1.2323e-05],
+        [ 5.6438e-07,  6.5193e-09,  5.4762e-07,  ..., -3.7253e-09,
+          5.4762e-07,  1.1455e-07],
+        ...,
+        [-6.6161e-05,  4.8429e-08, -6.3181e-05,  ..., -1.8626e-09,
+         -6.4254e-05, -1.3031e-05],
+        [ 1.9912e-06,  1.2107e-08,  1.9129e-06,  ...,  9.3132e-10,
+          1.9334e-06,  3.9767e-07],
+        [ 4.7218e-07,  1.4603e-05,  7.9796e-06,  ...,  9.3132e-10,
+          4.5821e-07,  5.4985e-06]], device='cuda:0')
+Epoch 346, bias, value: tensor([-0.0184, -0.0234, -0.0053, -0.0229, -0.0025,  0.0031,  0.0097,  0.0193,
+         0.0180, -0.0072], device='cuda:0'), grad: tensor([ 9.7007e-06,  1.3101e-04,  1.2638e-06,  8.3726e-07, -6.3658e-05,
+         2.3842e-07, -1.0438e-05, -1.3816e-04,  4.8093e-06,  6.4254e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 345, time 215.02, cls_loss 0.0009 cls_loss_mapping 0.0018 cls_loss_causal 0.4655 re_mapping 0.0044 re_causal 0.0126 /// teacc 99.07 lr 0.00010000
+Epoch 347, weight, value: tensor([[-0.3037,  0.0821, -0.1861,  ..., -0.0781, -0.2648, -0.1711],
+        [-0.0035,  0.1060, -0.1273,  ..., -0.1336, -0.0732,  0.1247],
+        [ 0.0586, -0.1366, -0.1737,  ...,  0.0079, -0.0525, -0.1079],
+        ...,
+        [ 0.1022, -0.0825,  0.1422,  ...,  0.0699,  0.2048, -0.0257],
+        [ 0.1244, -0.2287, -0.1428,  ..., -0.3245, -0.0919,  0.2146],
+        [-0.1876,  0.0908,  0.0661,  ..., -0.3014, -0.1627, -0.0644]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -4.3027e-07,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00, -2.7940e-09],
+        [ 9.3132e-10,  6.5193e-09,  1.2107e-08,  ...,  3.7253e-09,
+          1.8626e-09, -6.5193e-09],
+        [ 4.6566e-09,  9.3132e-09,  3.7253e-09,  ...,  3.7253e-09,
+          9.3132e-10,  8.3819e-09],
+        ...,
+        [-4.6566e-09,  1.1176e-08,  6.5193e-08,  ..., -9.3132e-10,
+         -1.8626e-09,  5.5879e-09],
+        [-4.6566e-09,  2.4214e-08,  1.8626e-08,  ...,  9.3132e-10,
+          0.0000e+00, -9.3132e-09],
+        [ 4.6566e-09,  3.3900e-07, -1.5181e-07,  ...,  1.8626e-09,
+         -1.8626e-09,  2.7940e-09]], device='cuda:0')
+Epoch 347, bias, value: tensor([-0.0185, -0.0239, -0.0052, -0.0229, -0.0022,  0.0029,  0.0098,  0.0198,
+         0.0180, -0.0074], device='cuda:0'), grad: tensor([-1.2936e-06,  3.2596e-08, -1.8813e-07,  8.2888e-08,  3.6042e-07,
+         2.2352e-08, -8.6613e-08,  1.0803e-07,  1.1083e-07,  8.6054e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 346, time 215.04, cls_loss 0.0009 cls_loss_mapping 0.0013 cls_loss_causal 0.4804 re_mapping 0.0043 re_causal 0.0127 /// teacc 99.02 lr 0.00010000
+Epoch 348, weight, value: tensor([[-0.3043,  0.0822, -0.1865,  ..., -0.0792, -0.2662, -0.1718],
+        [-0.0033,  0.1060, -0.1275,  ..., -0.1339, -0.0732,  0.1253],
+        [ 0.0582, -0.1366, -0.1739,  ...,  0.0078, -0.0531, -0.1082],
+        ...,
+        [ 0.1025, -0.0829,  0.1423,  ...,  0.0700,  0.2052, -0.0258],
+        [ 0.1242, -0.2289, -0.1431,  ..., -0.3251, -0.0922,  0.2143],
+        [-0.1881,  0.0909,  0.0663,  ..., -0.3022, -0.1628, -0.0648]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.1176e-08,  2.7940e-09,  ...,  2.7940e-09,
+          0.0000e+00,  9.3132e-10],
+        [ 1.2107e-08, -2.7940e-09,  4.0978e-08,  ...,  2.7940e-08,
+          1.0245e-08, -7.3574e-08],
+        [ 1.7695e-08,  9.3132e-10,  1.2293e-07,  ...,  1.3039e-07,
+          2.7940e-09,  3.7253e-09],
+        ...,
+        [-3.4459e-08,  4.6566e-09, -1.7695e-08,  ...,  2.1420e-08,
+         -3.6322e-08,  5.6811e-08],
+        [ 3.2596e-08,  1.2107e-08,  2.5518e-07,  ...,  2.3562e-07,
+          9.3132e-10,  4.6566e-09],
+        [ 2.3283e-08, -1.1176e-08, -4.2841e-08,  ...,  1.2107e-08,
+          1.8626e-08,  1.8626e-09]], device='cuda:0')
+Epoch 348, bias, value: tensor([-0.0188, -0.0236, -0.0054, -0.0229, -0.0028,  0.0006,  0.0114,  0.0198,
+         0.0174, -0.0073], device='cuda:0'), grad: tensor([-1.2107e-08, -2.5146e-08,  3.5018e-07, -1.1353e-06,  4.5635e-08,
+         3.7253e-08,  1.4901e-08,  9.6858e-08,  7.4413e-07, -1.1735e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 347, time 215.15, cls_loss 0.0008 cls_loss_mapping 0.0016 cls_loss_causal 0.4756 re_mapping 0.0042 re_causal 0.0123 /// teacc 98.97 lr 0.00010000
+Epoch 349, weight, value: tensor([[-0.3049,  0.0823, -0.1872,  ..., -0.0808, -0.2679, -0.1719],
+        [-0.0033,  0.1061, -0.1275,  ..., -0.1341, -0.0733,  0.1255],
+        [ 0.0582, -0.1368, -0.1739,  ...,  0.0079, -0.0530, -0.1084],
+        ...,
+        [ 0.1025, -0.0832,  0.1424,  ...,  0.0700,  0.2053, -0.0261],
+        [ 0.1244, -0.2290, -0.1433,  ..., -0.3259, -0.0925,  0.2145],
+        [-0.1884,  0.0909,  0.0663,  ..., -0.3028, -0.1629, -0.0654]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -1.8626e-09,  9.3132e-10,  ...,  1.8626e-09,
+          0.0000e+00,  1.8626e-09],
+        [ 2.4214e-08, -2.2352e-08,  2.8871e-08,  ...,  7.4506e-09,
+          1.9558e-08, -1.3039e-08],
+        [ 2.7940e-09,  9.3132e-10,  6.5193e-09,  ..., -5.5879e-09,
+          5.5879e-09,  3.7253e-09],
+        ...,
+        [-3.6322e-08,  3.3528e-08, -7.0781e-08,  ..., -1.4901e-08,
+         -6.0536e-08,  6.1467e-08],
+        [-6.7055e-08,  6.5193e-09,  7.4506e-09,  ...,  9.3132e-10,
+          1.8626e-09, -5.8115e-07],
+        [ 2.7940e-08,  8.1304e-07,  4.3306e-07,  ...,  6.5193e-09,
+          2.8871e-08,  7.2271e-07]], device='cuda:0')
+Epoch 349, bias, value: tensor([-0.0188, -0.0235, -0.0055, -0.0229, -0.0028,  0.0006,  0.0113,  0.0197,
+         0.0175, -0.0074], device='cuda:0'), grad: tensor([ 2.8871e-08,  7.7300e-08, -3.7253e-09,  1.4994e-07, -4.2021e-06,
+        -1.6764e-07,  8.2329e-07,  5.5879e-09, -9.6951e-07,  4.2580e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 348, time 214.86, cls_loss 0.0009 cls_loss_mapping 0.0012 cls_loss_causal 0.4790 re_mapping 0.0041 re_causal 0.0118 /// teacc 99.03 lr 0.00010000
+Epoch 350, weight, value: tensor([[-0.3061,  0.0823, -0.1880,  ..., -0.0815, -0.2687, -0.1731],
+        [-0.0033,  0.1060, -0.1276,  ..., -0.1334, -0.0729,  0.1256],
+        [ 0.0583, -0.1369, -0.1741,  ...,  0.0077, -0.0530, -0.1085],
+        ...,
+        [ 0.1026, -0.0835,  0.1424,  ...,  0.0694,  0.2051, -0.0262],
+        [ 0.1246, -0.2292, -0.1436,  ..., -0.3269, -0.0930,  0.2149],
+        [-0.1888,  0.0908,  0.0664,  ..., -0.3045, -0.1629, -0.0660]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -2.7940e-09,  1.8626e-09,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 8.3819e-09,  1.8626e-09,  7.9162e-08,  ...,  7.3574e-08,
+          1.5832e-08,  1.8626e-08],
+        [ 3.3528e-08,  9.3132e-10,  1.7323e-07,  ...,  1.6391e-07,
+          3.5390e-08,  3.9116e-08],
+        ...,
+        [-3.7253e-09,  0.0000e+00,  8.1956e-08,  ...,  7.9162e-08,
+          1.3970e-08,  3.7253e-09],
+        [-6.9849e-08,  1.0245e-08,  6.5193e-09,  ...,  3.7253e-09,
+          1.8626e-09, -1.1176e-07],
+        [ 7.4506e-09,  0.0000e+00, -5.5879e-09,  ...,  3.7253e-09,
+          9.3132e-10,  2.2352e-08]], device='cuda:0')
+Epoch 350, bias, value: tensor([-0.0188, -0.0233, -0.0056, -0.0232, -0.0026,  0.0011,  0.0113,  0.0195,
+         0.0176, -0.0075], device='cuda:0'), grad: tensor([ 9.3132e-09,  2.4680e-07,  5.6252e-07, -8.9034e-07, -2.7940e-09,
+        -1.7229e-07,  1.6671e-07,  2.1979e-07, -2.0489e-07,  5.8673e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 349, time 214.96, cls_loss 0.0009 cls_loss_mapping 0.0016 cls_loss_causal 0.4694 re_mapping 0.0041 re_causal 0.0123 /// teacc 98.93 lr 0.00010000
+Epoch 351, weight, value: tensor([[-0.3063,  0.0824, -0.1886,  ..., -0.0823, -0.2689, -0.1735],
+        [-0.0034,  0.1061, -0.1277,  ..., -0.1316, -0.0722,  0.1258],
+        [ 0.0583, -0.1369, -0.1746,  ...,  0.0076, -0.0532, -0.1086],
+        ...,
+        [ 0.1027, -0.0838,  0.1426,  ...,  0.0684,  0.2047, -0.0262],
+        [ 0.1248, -0.2295, -0.1439,  ..., -0.3278, -0.0934,  0.2151],
+        [-0.1891,  0.0908,  0.0665,  ..., -0.3053, -0.1630, -0.0663]],
+       device='cuda:0'), grad: tensor([[ 3.6322e-08, -1.2107e-08,  6.5193e-09,  ...,  0.0000e+00,
+          9.3132e-10,  2.8778e-07],
+        [-2.4159e-06, -9.8720e-08, -2.9150e-07,  ...,  2.7940e-09,
+          4.6566e-09, -1.9997e-05],
+        [ 1.5637e-06,  1.8626e-09,  2.0768e-07,  ..., -1.6764e-08,
+         -7.4506e-09,  1.2740e-05],
+        ...,
+        [ 7.0781e-07,  1.9558e-08,  3.1479e-07,  ...,  1.3039e-08,
+          4.0047e-08,  5.6550e-06],
+        [ 2.2352e-08,  1.3039e-08,  2.6077e-08,  ...,  1.8626e-09,
+          3.7253e-09,  2.3842e-07],
+        [ 8.3819e-09, -6.5193e-08, -3.6508e-07,  ...,  9.3132e-10,
+         -5.3085e-08,  5.4948e-08]], device='cuda:0')
+Epoch 351, bias, value: tensor([-0.0188, -0.0229, -0.0055, -0.0232, -0.0029,  0.0013,  0.0112,  0.0192,
+         0.0176, -0.0075], device='cuda:0'), grad: tensor([ 5.5227e-07, -4.0442e-05,  2.5645e-05,  1.6950e-07,  1.1250e-06,
+        -1.0803e-07,  1.3076e-06,  1.1928e-05,  5.7835e-07, -7.9721e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 350, time 215.09, cls_loss 0.0009 cls_loss_mapping 0.0014 cls_loss_causal 0.4769 re_mapping 0.0041 re_causal 0.0123 /// teacc 98.98 lr 0.00010000
+Epoch 352, weight, value: tensor([[-0.3065,  0.0824, -0.1892,  ..., -0.0835, -0.2694, -0.1737],
+        [-0.0026,  0.1065, -0.1274,  ..., -0.1296, -0.0707,  0.1274],
+        [ 0.0580, -0.1370, -0.1751,  ...,  0.0073, -0.0538, -0.1092],
+        ...,
+        [ 0.1024, -0.0851,  0.1427,  ...,  0.0672,  0.2040, -0.0277],
+        [ 0.1249, -0.2304, -0.1443,  ..., -0.3292, -0.0937,  0.2147],
+        [-0.1894,  0.0908,  0.0665,  ..., -0.3061, -0.1630, -0.0667]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09, -1.2107e-08,  1.2107e-08,  ...,  1.4901e-08,
+          2.7940e-09, -1.8626e-09],
+        [ 1.0338e-07,  3.7253e-09,  1.3597e-07,  ...,  7.3574e-08,
+          1.0710e-07,  6.2399e-08],
+        [ 8.6613e-08,  9.3132e-10,  7.3574e-08,  ...,  5.0291e-08,
+          4.1910e-08,  8.5682e-08],
+        ...,
+        [-3.6787e-07,  4.6566e-09, -8.9500e-07,  ..., -6.3051e-07,
+         -5.8953e-07,  1.8626e-08],
+        [-2.7101e-07,  6.5193e-09,  9.3132e-09,  ...,  8.3819e-09,
+          3.7253e-09, -3.7532e-07],
+        [ 4.5635e-08,  9.1270e-08,  8.0094e-08,  ...,  3.7253e-09,
+          9.2201e-08,  3.4459e-08]], device='cuda:0')
+Epoch 352, bias, value: tensor([-0.0187, -0.0213, -0.0058, -0.0232, -0.0029,  0.0009,  0.0113,  0.0182,
+         0.0172, -0.0076], device='cuda:0'), grad: tensor([ 0.0000e+00,  3.9674e-07,  3.2596e-07,  8.8289e-07, -2.1607e-07,
+         1.7695e-07,  2.9057e-07, -1.2862e-06, -9.4436e-07,  3.7905e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 351, time 214.49, cls_loss 0.0009 cls_loss_mapping 0.0011 cls_loss_causal 0.4473 re_mapping 0.0042 re_causal 0.0121 /// teacc 98.98 lr 0.00010000
+Epoch 353, weight, value: tensor([[-0.3067,  0.0825, -0.1899,  ..., -0.0836, -0.2698, -0.1735],
+        [-0.0024,  0.1065, -0.1276,  ..., -0.1290, -0.0702,  0.1278],
+        [ 0.0580, -0.1375, -0.1752,  ...,  0.0072, -0.0540, -0.1099],
+        ...,
+        [ 0.1024, -0.0853,  0.1428,  ...,  0.0665,  0.2038, -0.0278],
+        [ 0.1249, -0.2308, -0.1447,  ..., -0.3302, -0.0941,  0.2148],
+        [-0.1898,  0.0908,  0.0666,  ..., -0.3075, -0.1631, -0.0671]],
+       device='cuda:0'), grad: tensor([[-9.3132e-10, -9.9186e-07,  7.4506e-09,  ...,  2.0489e-08,
+          0.0000e+00, -1.8626e-08],
+        [ 4.5635e-08,  2.7940e-08,  6.7055e-08,  ...,  7.3574e-08,
+          5.6811e-08,  1.0245e-08],
+        [ 1.8626e-09,  2.6356e-07,  2.0768e-07,  ...,  5.8673e-07,
+          1.2107e-08,  1.8626e-09],
+        ...,
+        [-5.1223e-08,  3.7253e-09, -4.3772e-08,  ...,  9.3132e-10,
+         -6.2399e-08, -1.8626e-08],
+        [ 0.0000e+00,  9.3132e-09,  1.8626e-09,  ...,  2.7940e-09,
+          0.0000e+00,  2.7940e-09],
+        [ 2.7940e-09,  9.8255e-07,  4.6566e-09,  ...,  1.8626e-09,
+          3.7253e-09,  2.2352e-08]], device='cuda:0')
+Epoch 353, bias, value: tensor([-0.0187, -0.0207, -0.0061, -0.0234, -0.0031,  0.0013,  0.0114,  0.0180,
+         0.0170, -0.0076], device='cuda:0'), grad: tensor([-2.3842e-06,  2.4308e-07,  1.3784e-06, -2.3395e-06, -1.3970e-08,
+         7.4320e-07,  1.5832e-08, -8.8476e-08,  3.1665e-08,  2.4103e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 352, time 214.99, cls_loss 0.0008 cls_loss_mapping 0.0014 cls_loss_causal 0.4644 re_mapping 0.0042 re_causal 0.0122 /// teacc 98.99 lr 0.00010000
+Epoch 354, weight, value: tensor([[-0.3069,  0.0824, -0.1913,  ..., -0.0851, -0.2714, -0.1731],
+        [-0.0011,  0.1066, -0.1251,  ..., -0.1285, -0.0705,  0.1288],
+        [ 0.0580, -0.1377, -0.1754,  ...,  0.0072, -0.0540, -0.1101],
+        ...,
+        [ 0.1015, -0.0850,  0.1412,  ...,  0.0662,  0.2041, -0.0293],
+        [ 0.1249, -0.2313, -0.1451,  ..., -0.3310, -0.0943,  0.2147],
+        [-0.1902,  0.0908,  0.0666,  ..., -0.3094, -0.1633, -0.0681]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.1176e-08,  1.3411e-07,  ...,  9.3132e-10,
+          1.8626e-08,  9.3132e-10],
+        [ 5.0291e-08,  1.4901e-08,  1.0803e-07,  ...,  3.4459e-08,
+          1.1083e-07, -9.3132e-10],
+        [ 3.7253e-09,  1.8626e-09,  5.1223e-08,  ..., -1.9558e-08,
+          4.3772e-08,  9.3132e-10],
+        ...,
+        [-8.6613e-08,  2.7940e-09,  6.0536e-08,  ..., -4.8429e-08,
+         -1.7509e-07,  2.7940e-09],
+        [ 5.5879e-09,  1.1176e-08,  3.5390e-08,  ...,  1.1176e-08,
+          4.6566e-09,  0.0000e+00],
+        [ 7.4506e-09, -2.7940e-08, -4.9360e-07,  ...,  1.2107e-08,
+         -4.2841e-08,  1.6764e-08]], device='cuda:0')
+Epoch 354, bias, value: tensor([-0.0187, -0.0190, -0.0061, -0.0235, -0.0030,  0.0013,  0.0113,  0.0166,
+         0.0168, -0.0078], device='cuda:0'), grad: tensor([ 6.5658e-07,  3.2503e-07,  1.5739e-07,  1.5181e-07,  3.2969e-07,
+         1.8347e-07, -4.7125e-07,  7.0315e-07,  2.5425e-07, -2.3041e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 353, time 214.93, cls_loss 0.0008 cls_loss_mapping 0.0012 cls_loss_causal 0.4767 re_mapping 0.0042 re_causal 0.0124 /// teacc 99.00 lr 0.00010000
+Epoch 355, weight, value: tensor([[-0.3066,  0.0826, -0.1917,  ..., -0.0841, -0.2717, -0.1729],
+        [-0.0014,  0.1066, -0.1253,  ..., -0.1288, -0.0710,  0.1286],
+        [ 0.0580, -0.1381, -0.1754,  ...,  0.0072, -0.0539, -0.1096],
+        ...,
+        [ 0.1018, -0.0852,  0.1415,  ...,  0.0663,  0.2047, -0.0291],
+        [ 0.1250, -0.2317, -0.1455,  ..., -0.3326, -0.0948,  0.2148],
+        [-0.1909,  0.0904,  0.0665,  ..., -0.3107, -0.1636, -0.0685]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  6.5193e-08,  1.8626e-09,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 9.5926e-08, -1.8626e-09,  1.1269e-07,  ...,  1.5274e-07,
+          1.8626e-09, -8.3819e-09],
+        [ 5.1223e-08,  0.0000e+00,  6.0536e-08,  ...,  8.3819e-08,
+         -9.3132e-10, -0.0000e+00],
+        ...,
+        [ 5.0385e-07,  9.3132e-10,  5.8301e-07,  ...,  8.1863e-07,
+         -1.8626e-09,  9.3132e-10],
+        [ 8.0094e-08,  9.3132e-10,  9.5926e-08,  ...,  1.2945e-07,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10, -2.7940e-09, -1.6764e-08,  ...,  1.8626e-09,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 355, bias, value: tensor([-0.0186, -0.0192, -0.0060, -0.0235, -0.0021,  0.0013,  0.0114,  0.0168,
+         0.0166, -0.0083], device='cuda:0'), grad: tensor([ 6.7614e-07,  3.8464e-07,  2.1327e-07, -3.0287e-06,  1.4901e-08,
+         5.1223e-08, -6.9756e-07,  2.0843e-06,  3.4086e-07, -2.7940e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 354, time 214.89, cls_loss 0.0008 cls_loss_mapping 0.0011 cls_loss_causal 0.4647 re_mapping 0.0041 re_causal 0.0125 /// teacc 99.00 lr 0.00010000
+Epoch 356, weight, value: tensor([[-0.3073,  0.0819, -0.1929,  ..., -0.0851, -0.2719, -0.1749],
+        [-0.0017,  0.1066, -0.1258,  ..., -0.1286, -0.0715,  0.1282],
+        [ 0.0581, -0.1382, -0.1755,  ...,  0.0072, -0.0540, -0.1097],
+        ...,
+        [ 0.1022, -0.0855,  0.1419,  ...,  0.0662,  0.2053, -0.0282],
+        [ 0.1249, -0.2323, -0.1463,  ..., -0.3348, -0.0950,  0.2148],
+        [-0.1923,  0.0906,  0.0662,  ..., -0.3115, -0.1640, -0.0694]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  9.3132e-10],
+        [ 6.5193e-09,  4.6566e-09,  1.8626e-09,  ...,  2.7940e-09,
+          9.3132e-10,  2.7940e-09],
+        [-1.0803e-07,  9.3132e-10,  0.0000e+00,  ..., -3.2596e-08,
+         -2.1420e-08,  1.8626e-09],
+        ...,
+        [ 2.7940e-09,  4.6566e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  7.4506e-09],
+        [ 1.1176e-08,  7.4506e-09,  5.5879e-09,  ...,  2.7940e-08,
+          1.9558e-08, -1.9558e-07],
+        [ 9.3132e-10,  8.3819e-09, -7.4506e-09,  ...,  9.3132e-10,
+          0.0000e+00,  1.2107e-08]], device='cuda:0')
+Epoch 356, bias, value: tensor([-0.0192, -0.0194, -0.0059, -0.0236, -0.0008,  0.0013,  0.0117,  0.0170,
+         0.0163, -0.0085], device='cuda:0'), grad: tensor([ 1.2107e-08,  4.5635e-08, -2.8498e-07,  6.7707e-07, -5.6811e-08,
+        -7.4878e-07,  5.7742e-07,  3.4459e-08, -2.8778e-07,  4.1910e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 355, time 214.51, cls_loss 0.0007 cls_loss_mapping 0.0016 cls_loss_causal 0.4435 re_mapping 0.0044 re_causal 0.0123 /// teacc 98.95 lr 0.00010000
+Epoch 357, weight, value: tensor([[-0.3076,  0.0821, -0.1934,  ..., -0.0854, -0.2720, -0.1750],
+        [-0.0021,  0.1066, -0.1261,  ..., -0.1286, -0.0721,  0.1278],
+        [ 0.0581, -0.1384, -0.1756,  ...,  0.0072, -0.0540, -0.1099],
+        ...,
+        [ 0.1026, -0.0860,  0.1423,  ...,  0.0663,  0.2059, -0.0276],
+        [ 0.1251, -0.2325, -0.1465,  ..., -0.3349, -0.0952,  0.2152],
+        [-0.1927,  0.0909,  0.0663,  ..., -0.3122, -0.1642, -0.0686]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.8207e-06,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-1.9558e-08,  9.6112e-07,  1.0245e-08,  ...,  5.5879e-09,
+          9.3132e-10, -2.8871e-08],
+        [ 3.7253e-09,  6.1467e-08,  4.6566e-09,  ...,  2.7940e-09,
+          9.3132e-10,  3.7253e-09],
+        ...,
+        [ 1.4901e-08,  2.2352e-08, -6.5193e-09,  ..., -2.7940e-09,
+         -5.5879e-09,  2.8871e-08],
+        [-3.1665e-08,  1.1176e-08,  8.3819e-09,  ...,  9.3132e-10,
+          0.0000e+00, -4.5635e-08],
+        [ 6.5193e-09,  4.9360e-08, -1.9558e-08,  ...,  2.7940e-09,
+          1.8626e-09,  8.3819e-09]], device='cuda:0')
+Epoch 357, bias, value: tensor([-0.0191, -0.0196, -0.0059, -0.0236, -0.0014,  0.0011,  0.0117,  0.0172,
+         0.0163, -0.0083], device='cuda:0'), grad: tensor([-5.0068e-06,  2.6226e-06,  1.8626e-07, -1.2405e-06,  2.9802e-08,
+         1.3830e-06,  1.8626e-06,  1.0524e-07, -7.8231e-08,  1.2107e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 356, time 214.85, cls_loss 0.0008 cls_loss_mapping 0.0014 cls_loss_causal 0.4755 re_mapping 0.0041 re_causal 0.0122 /// teacc 99.01 lr 0.00010000
+Epoch 358, weight, value: tensor([[-0.3080,  0.0822, -0.1941,  ..., -0.0856, -0.2726, -0.1751],
+        [-0.0024,  0.1064, -0.1261,  ..., -0.1291, -0.0726,  0.1283],
+        [ 0.0581, -0.1391, -0.1757,  ...,  0.0072, -0.0541, -0.1113],
+        ...,
+        [ 0.1029, -0.0840,  0.1424,  ...,  0.0667,  0.2065, -0.0272],
+        [ 0.1253, -0.2328, -0.1465,  ..., -0.3353, -0.0951,  0.2154],
+        [-0.1933,  0.0907,  0.0663,  ..., -0.3133, -0.1644, -0.0696]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -8.6613e-08,  2.4214e-08,  ...,  1.3970e-08,
+          9.3132e-10, -3.1665e-08],
+        [ 5.6811e-08,  2.2352e-08,  5.6811e-08,  ...,  5.2154e-08,
+          1.5832e-08,  0.0000e+00],
+        [-2.0396e-07,  2.8871e-08,  6.5193e-09,  ..., -4.4703e-08,
+         -2.7940e-08, -2.1420e-08],
+        ...,
+        [ 1.3039e-07,  4.6566e-09,  1.4901e-08,  ...,  5.4948e-08,
+          2.7940e-09,  3.1665e-08],
+        [-1.7695e-08,  1.5832e-08,  8.3819e-09,  ...,  8.3819e-09,
+          1.8626e-09, -1.1642e-07],
+        [ 1.8626e-08,  6.2399e-08,  9.3132e-09,  ...,  4.6566e-09,
+          4.6566e-09,  8.9407e-08]], device='cuda:0')
+Epoch 358, bias, value: tensor([-0.0191, -0.0195, -0.0061, -0.0235, -0.0013,  0.0009,  0.0117,  0.0174,
+         0.0164, -0.0085], device='cuda:0'), grad: tensor([-2.6356e-07,  2.1979e-07, -3.0734e-07, -3.2317e-07, -2.4214e-08,
+         9.3132e-08,  1.0058e-07,  3.1665e-07, -1.5832e-07,  3.4552e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 357, time 214.83, cls_loss 0.0007 cls_loss_mapping 0.0014 cls_loss_causal 0.4556 re_mapping 0.0042 re_causal 0.0121 /// teacc 98.97 lr 0.00010000
+Epoch 359, weight, value: tensor([[-0.3080,  0.0825, -0.1945,  ..., -0.0861, -0.2729, -0.1748],
+        [-0.0031,  0.1065, -0.1267,  ..., -0.1296, -0.0730,  0.1288],
+        [ 0.0581, -0.1375, -0.1755,  ...,  0.0074, -0.0541, -0.1114],
+        ...,
+        [ 0.1035, -0.0847,  0.1429,  ...,  0.0672,  0.2069, -0.0279],
+        [ 0.1256, -0.2332, -0.1466,  ..., -0.3354, -0.0941,  0.2156],
+        [-0.1938,  0.0903,  0.0662,  ..., -0.3162, -0.1645, -0.0698]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.5832e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09, -2.7940e-09,  3.7253e-09,  ...,  3.7253e-09,
+          1.8626e-09, -9.3132e-09],
+        [ 1.8626e-09,  0.0000e+00,  4.6566e-09,  ..., -9.3132e-10,
+         -5.5879e-09,  0.0000e+00],
+        ...,
+        [-3.7253e-09,  1.8626e-09, -4.6566e-09,  ..., -9.3132e-10,
+         -3.7253e-09,  6.5193e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  1.7695e-08,  9.3132e-10,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 359, bias, value: tensor([-0.0189, -0.0198, -0.0057, -0.0237, -0.0015,  0.0009,  0.0117,  0.0177,
+         0.0165, -0.0090], device='cuda:0'), grad: tensor([-3.5390e-08, -1.0245e-08, -2.5146e-08, -1.7695e-08,  2.7008e-08,
+         5.5879e-09, -7.4506e-09,  9.3132e-09,  8.3819e-09,  4.2841e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 358, time 214.71, cls_loss 0.0010 cls_loss_mapping 0.0014 cls_loss_causal 0.5017 re_mapping 0.0044 re_causal 0.0123 /// teacc 99.13 lr 0.00010000
+Epoch 360, weight, value: tensor([[-0.3086,  0.0827, -0.1951,  ..., -0.0868, -0.2734, -0.1747],
+        [-0.0006,  0.1066, -0.1240,  ..., -0.1298, -0.0731,  0.1302],
+        [ 0.0582, -0.1375, -0.1756,  ...,  0.0074, -0.0540, -0.1115],
+        ...,
+        [ 0.1013, -0.0851,  0.1404,  ...,  0.0670,  0.2071, -0.0297],
+        [ 0.1257, -0.2337, -0.1469,  ..., -0.3365, -0.0944,  0.2157],
+        [-0.1944,  0.0902,  0.0662,  ..., -0.3177, -0.1646, -0.0698]],
+       device='cuda:0'), grad: tensor([[-9.3132e-10, -4.2841e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [-1.8626e-09, -3.7253e-09,  9.3132e-10,  ...,  1.8626e-09,
+          3.7253e-09, -1.2107e-07],
+        [ 2.0955e-08,  7.9162e-09,  0.0000e+00,  ..., -2.3283e-09,
+         -5.1223e-09,  4.9360e-08],
+        ...,
+        [ 4.6566e-10,  8.3819e-09,  4.6566e-10,  ...,  0.0000e+00,
+          4.6566e-10,  1.5832e-08],
+        [-2.2352e-08,  5.5879e-09,  1.3970e-09,  ...,  0.0000e+00,
+          0.0000e+00, -2.0955e-08],
+        [ 9.3132e-10,  2.1886e-08, -7.4506e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.0023e-08]], device='cuda:0')
+Epoch 360, bias, value: tensor([-0.0188, -0.0174, -0.0054, -0.0237, -0.0016,  0.0001,  0.0122,  0.0153,
+         0.0161, -0.0091], device='cuda:0'), grad: tensor([-1.0664e-07, -3.9907e-07,  1.6112e-07,  1.4435e-08, -9.5461e-08,
+        -2.9802e-08,  2.9989e-07,  7.7765e-08, -3.2596e-08,  1.2247e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 359, time 214.75, cls_loss 0.0009 cls_loss_mapping 0.0016 cls_loss_causal 0.5007 re_mapping 0.0041 re_causal 0.0121 /// teacc 99.06 lr 0.00010000
+Epoch 361, weight, value: tensor([[-0.3092,  0.0828, -0.1967,  ..., -0.0876, -0.2742, -0.1746],
+        [-0.0013,  0.1067, -0.1244,  ..., -0.1304, -0.0747,  0.1299],
+        [ 0.0578, -0.1378, -0.1763,  ...,  0.0071, -0.0545, -0.1115],
+        ...,
+        [ 0.1022, -0.0855,  0.1410,  ...,  0.0681,  0.2088, -0.0293],
+        [ 0.1259, -0.2341, -0.1474,  ..., -0.3374, -0.0948,  0.2160],
+        [-0.1947,  0.0901,  0.0663,  ..., -0.3184, -0.1647, -0.0703]],
+       device='cuda:0'), grad: tensor([[ 3.2596e-09, -1.1642e-08,  2.3283e-09,  ...,  4.1910e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 3.7253e-09,  1.8626e-09,  5.1223e-09,  ...,  3.7253e-09,
+          1.8626e-09, -1.3970e-09],
+        [-2.4680e-08,  2.7940e-09, -8.8476e-09,  ..., -2.5611e-08,
+          1.3970e-09,  4.6566e-10],
+        ...,
+        [-9.3132e-10,  1.3970e-09, -9.3132e-10,  ...,  9.3132e-10,
+         -1.3970e-09,  1.3970e-09],
+        [ 1.8626e-09,  2.3283e-09,  9.3132e-10,  ...,  2.3283e-09,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  4.6566e-09, -4.1910e-09,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10]], device='cuda:0')
+Epoch 361, bias, value: tensor([-0.0187, -0.0178, -0.0056, -0.0237, -0.0019,  0.0001,  0.0122,  0.0158,
+         0.0159, -0.0091], device='cuda:0'), grad: tensor([-1.1642e-08,  1.5367e-08, -1.2014e-07,  6.7521e-08,  2.0023e-08,
+         1.8626e-08, -1.4901e-08,  8.8476e-09,  1.9092e-08,  1.0710e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 360, time 214.98, cls_loss 0.0011 cls_loss_mapping 0.0020 cls_loss_causal 0.4641 re_mapping 0.0043 re_causal 0.0115 /// teacc 99.03 lr 0.00010000
+Epoch 362, weight, value: tensor([[-0.3101,  0.0829, -0.1988,  ..., -0.0890, -0.2754, -0.1747],
+        [-0.0030,  0.1066, -0.1254,  ..., -0.1308, -0.0768,  0.1299],
+        [ 0.0558, -0.1385, -0.1787,  ...,  0.0060, -0.0562, -0.1119],
+        ...,
+        [ 0.1047, -0.0858,  0.1424,  ...,  0.0700,  0.2114, -0.0294],
+        [ 0.1261, -0.2345, -0.1483,  ..., -0.3388, -0.0953,  0.2163],
+        [-0.1951,  0.0899,  0.0665,  ..., -0.3188, -0.1646, -0.0713]],
+       device='cuda:0'), grad: tensor([[-9.3132e-10, -4.2841e-08,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 4.6566e-09,  9.3132e-10,  4.1910e-09,  ...,  9.3132e-10,
+          9.3132e-10, -2.7940e-09],
+        [ 2.3283e-09,  3.7253e-09,  2.7940e-09,  ...,  2.3283e-09,
+          1.3970e-09,  1.3970e-09],
+        ...,
+        [ 1.8626e-09,  3.7253e-09,  2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-09],
+        [-5.5879e-09,  6.4727e-08,  5.5414e-08,  ...,  4.6566e-10,
+          0.0000e+00, -6.5193e-09],
+        [ 1.8626e-09, -5.4482e-08, -8.5216e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 362, bias, value: tensor([-1.8620e-02, -1.8831e-02, -6.9481e-03, -2.3424e-02, -1.2679e-03,
+        -4.5993e-06,  1.2204e-02,  1.7227e-02,  1.5779e-02, -9.2256e-03],
+       device='cuda:0'), grad: tensor([-5.5879e-08,  1.1176e-08,  1.7695e-08,  2.7940e-09,  9.1735e-08,
+        -1.2573e-08, -2.9337e-08,  2.1886e-08,  2.5937e-07, -2.9989e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 361, time 214.90, cls_loss 0.0009 cls_loss_mapping 0.0014 cls_loss_causal 0.4836 re_mapping 0.0041 re_causal 0.0119 /// teacc 99.10 lr 0.00010000
+Epoch 363, weight, value: tensor([[-0.3110,  0.0831, -0.2001,  ..., -0.0903, -0.2764, -0.1747],
+        [-0.0033,  0.1066, -0.1255,  ..., -0.1315, -0.0773,  0.1299],
+        [ 0.0549, -0.1386, -0.1798,  ...,  0.0058, -0.0577, -0.1120],
+        ...,
+        [ 0.1054, -0.0856,  0.1427,  ...,  0.0712,  0.2126, -0.0294],
+        [ 0.1264, -0.2349, -0.1490,  ..., -0.3399, -0.0961,  0.2166],
+        [-0.1953,  0.0900,  0.0666,  ..., -0.3191, -0.1647, -0.0716]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09, -1.8626e-09,  2.7940e-09,  ...,  9.3132e-10,
+          2.7940e-09,  7.4506e-09],
+        [ 9.3132e-09,  3.7253e-09,  2.1420e-08,  ...,  3.7253e-09,
+          1.2107e-08,  2.7940e-09],
+        [-3.7253e-09,  2.7940e-09,  1.5832e-08,  ..., -8.3819e-09,
+         -1.4901e-08,  2.6077e-08],
+        ...,
+        [-1.1176e-08,  3.9116e-08,  2.0955e-07,  ...,  3.7253e-09,
+          1.0058e-07,  3.7253e-09],
+        [-9.6858e-08,  1.8626e-09,  5.5879e-09,  ...,  0.0000e+00,
+          4.6566e-09, -1.8068e-07],
+        [ 6.7987e-08, -7.0781e-08, -3.0175e-07,  ...,  0.0000e+00,
+         -1.2293e-07,  1.1921e-07]], device='cuda:0')
+Epoch 363, bias, value: tensor([-0.0185, -0.0190, -0.0072, -0.0234, -0.0016,  0.0003,  0.0120,  0.0175,
+         0.0156, -0.0092], device='cuda:0'), grad: tensor([ 1.0524e-07,  1.3877e-07, -1.1455e-07, -3.0734e-08,  5.9232e-07,
+         2.6263e-07, -7.3109e-07,  4.6473e-07, -5.4482e-07, -1.4994e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 362, time 214.86, cls_loss 0.0007 cls_loss_mapping 0.0013 cls_loss_causal 0.4754 re_mapping 0.0043 re_causal 0.0125 /// teacc 99.00 lr 0.00010000
+Epoch 364, weight, value: tensor([[-0.3117,  0.0829, -0.2034,  ..., -0.0910, -0.2796, -0.1748],
+        [-0.0045,  0.1066, -0.1261,  ..., -0.1320, -0.0786,  0.1292],
+        [ 0.0549, -0.1387, -0.1800,  ...,  0.0058, -0.0578, -0.1121],
+        ...,
+        [ 0.1066, -0.0873,  0.1432,  ...,  0.0717,  0.2139, -0.0285],
+        [ 0.1265, -0.2351, -0.1497,  ..., -0.3412, -0.0975,  0.2174],
+        [-0.1955,  0.0905,  0.0674,  ..., -0.3194, -0.1644, -0.0718]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09, -1.8626e-09,  2.7940e-09,  ...,  1.8626e-09,
+          2.7940e-09,  0.0000e+00],
+        [ 3.3528e-08,  1.3970e-08,  3.1665e-08,  ...,  1.7695e-08,
+          3.0734e-08,  3.7253e-09],
+        [ 8.2888e-08,  9.3132e-10,  8.5682e-08,  ...,  4.4703e-08,
+          8.4750e-08,  1.8626e-09],
+        ...,
+        [-1.5739e-07,  1.8626e-08, -1.4901e-07,  ..., -8.3819e-08,
+         -1.5460e-07,  9.3132e-10],
+        [ 3.7253e-09,  3.2596e-08,  1.7695e-08,  ...,  3.7253e-09,
+          6.5193e-09, -6.5193e-09],
+        [ 2.7940e-08,  2.8871e-08, -8.3819e-09,  ...,  1.3970e-08,
+          2.5146e-08,  1.9558e-08]], device='cuda:0')
+Epoch 364, bias, value: tensor([-0.0186, -0.0197, -0.0071, -0.0235, -0.0018,  0.0008,  0.0116,  0.0182,
+         0.0163, -0.0088], device='cuda:0'), grad: tensor([ 4.6566e-09,  1.2293e-07,  1.8720e-07,  5.4017e-08, -3.2783e-07,
+        -1.8626e-07,  3.4459e-08, -2.5518e-07,  1.0058e-07,  2.6450e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 363, time 214.76, cls_loss 0.0011 cls_loss_mapping 0.0011 cls_loss_causal 0.4675 re_mapping 0.0043 re_causal 0.0119 /// teacc 98.95 lr 0.00010000
+Epoch 365, weight, value: tensor([[-0.3124,  0.0829, -0.2035,  ..., -0.0918, -0.2798, -0.1751],
+        [-0.0039,  0.1065, -0.1254,  ..., -0.1326, -0.0793,  0.1297],
+        [ 0.0550, -0.1388, -0.1808,  ...,  0.0047, -0.0581, -0.1119],
+        ...,
+        [ 0.1063, -0.0876,  0.1427,  ...,  0.0723,  0.2147, -0.0292],
+        [ 0.1263, -0.2356, -0.1513,  ..., -0.3458, -0.0997,  0.2180],
+        [-0.1969,  0.0906,  0.0673,  ..., -0.3210, -0.1646, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -8.1956e-08,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 4.6566e-09,  4.6566e-09,  2.7940e-09,  ...,  3.7253e-09,
+          1.8626e-09, -1.8626e-09],
+        [-7.4506e-09,  2.7940e-09,  1.8626e-09,  ..., -5.5879e-09,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [-3.7253e-09,  2.7940e-09, -8.3819e-09,  ..., -0.0000e+00,
+         -3.7253e-09,  1.8626e-09],
+        [ 1.8626e-09,  2.7940e-09,  2.7940e-09,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 2.7940e-09,  9.8720e-08, -9.3132e-10,  ...,  9.3132e-10,
+          1.8626e-09,  9.3132e-10]], device='cuda:0')
+Epoch 365, bias, value: tensor([-0.0187, -0.0191, -0.0074, -0.0228, -0.0016,  0.0003,  0.0116,  0.0176,
+         0.0160, -0.0090], device='cuda:0'), grad: tensor([-1.0431e-07,  3.9116e-08, -2.3283e-08,  9.3132e-09, -3.0920e-07,
+         9.3132e-09,  1.5646e-07,  2.7940e-09,  2.3283e-08,  2.1048e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 364, time 214.85, cls_loss 0.0008 cls_loss_mapping 0.0011 cls_loss_causal 0.4580 re_mapping 0.0041 re_causal 0.0116 /// teacc 99.00 lr 0.00010000
+Epoch 366, weight, value: tensor([[-0.3128,  0.0829, -0.2036,  ..., -0.0930, -0.2800, -0.1754],
+        [-0.0040,  0.1066, -0.1255,  ..., -0.1330, -0.0795,  0.1299],
+        [ 0.0550, -0.1390, -0.1809,  ...,  0.0048, -0.0581, -0.1122],
+        ...,
+        [ 0.1065, -0.0878,  0.1428,  ...,  0.0725,  0.2150, -0.0294],
+        [ 0.1270, -0.2360, -0.1522,  ..., -0.3466, -0.1006,  0.2188],
+        [-0.1973,  0.0898,  0.0674,  ..., -0.3223, -0.1647, -0.0745]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09, -6.4261e-08,  1.6764e-08,  ...,  1.8626e-09,
+          4.6566e-09, -3.7253e-09],
+        [ 7.4506e-09, -1.1921e-07,  2.4214e-08,  ...,  2.7940e-09,
+          6.5193e-09, -1.0878e-06],
+        [ 2.7940e-09,  2.0489e-08,  3.7253e-09,  ...,  9.3132e-10,
+          9.3132e-10,  9.5926e-08],
+        ...,
+        [-3.4459e-08,  1.8347e-07, -8.5682e-08,  ..., -1.4901e-08,
+         -3.3528e-08,  1.0077e-06],
+        [-2.7940e-09,  2.4214e-08,  1.5832e-08,  ...,  1.8626e-09,
+          3.7253e-09,  6.2399e-08],
+        [ 1.3039e-08, -6.0443e-07, -9.9838e-07,  ...,  5.5879e-09,
+          1.2107e-08,  8.8476e-08]], device='cuda:0')
+Epoch 366, bias, value: tensor([-1.8616e-02, -1.9143e-02, -7.3684e-03, -2.2830e-02, -5.0967e-06,
+         4.5515e-04,  1.1458e-02,  1.7689e-02,  1.6315e-02, -9.9327e-03],
+       device='cuda:0'), grad: tensor([-1.5646e-07, -1.3178e-06,  1.5181e-07,  2.3283e-08,  2.1011e-06,
+         4.2841e-08,  5.9605e-08,  1.2713e-06,  1.3504e-07, -2.3171e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 365, time 214.76, cls_loss 0.0011 cls_loss_mapping 0.0020 cls_loss_causal 0.4673 re_mapping 0.0041 re_causal 0.0115 /// teacc 98.96 lr 0.00010000
+Epoch 367, weight, value: tensor([[-0.3131,  0.0830, -0.2037,  ..., -0.0956, -0.2801, -0.1759],
+        [-0.0042,  0.1065, -0.1256,  ..., -0.1336, -0.0796,  0.1306],
+        [ 0.0555, -0.1397, -0.1811,  ...,  0.0048, -0.0581, -0.1124],
+        ...,
+        [ 0.1064, -0.0897,  0.1429,  ...,  0.0725,  0.2151, -0.0305],
+        [ 0.1275, -0.2371, -0.1535,  ..., -0.3486, -0.1009,  0.2196],
+        [-0.2003,  0.0888,  0.0673,  ..., -0.3236, -0.1649, -0.0782]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  1.2396e-06,  4.6566e-09,  ...,  9.3132e-10,
+          0.0000e+00,  5.5879e-09],
+        [-8.3819e-09,  1.1735e-07,  2.7008e-08,  ...,  1.8626e-09,
+          1.8626e-09,  1.3877e-07],
+        [-1.3039e-08,  4.6566e-09,  2.7940e-09,  ..., -8.3819e-09,
+          0.0000e+00,  3.7253e-09],
+        ...,
+        [-2.7940e-09,  4.0047e-08,  1.4901e-08,  ..., -9.3132e-10,
+         -8.3819e-09,  2.7008e-08],
+        [ 9.3132e-10,  7.8231e-08,  1.6764e-08,  ...,  7.4506e-09,
+          0.0000e+00,  3.1665e-08],
+        [ 7.4506e-09, -1.2014e-07, -2.1327e-07,  ...,  9.3132e-10,
+          1.8626e-09,  8.0094e-08]], device='cuda:0')
+Epoch 367, bias, value: tensor([-0.0188, -0.0194, -0.0067, -0.0208,  0.0019, -0.0016,  0.0116,  0.0175,
+         0.0165, -0.0110], device='cuda:0'), grad: tensor([ 8.0019e-06,  5.4482e-07, -1.6764e-08, -1.8626e-09,  7.0129e-07,
+         1.0151e-07, -9.4920e-06,  1.0617e-07,  3.2224e-07, -2.4121e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 366, time 215.24, cls_loss 0.0011 cls_loss_mapping 0.0013 cls_loss_causal 0.4770 re_mapping 0.0038 re_causal 0.0113 /// teacc 99.04 lr 0.00010000
+Epoch 368, weight, value: tensor([[-0.3134,  0.0830, -0.2038,  ..., -0.0961, -0.2803, -0.1764],
+        [-0.0038,  0.1064, -0.1253,  ..., -0.1317, -0.0786,  0.1304],
+        [ 0.0552, -0.1401, -0.1817,  ...,  0.0046, -0.0586, -0.1126],
+        ...,
+        [ 0.1064, -0.0886,  0.1431,  ...,  0.0717,  0.2148, -0.0299],
+        [ 0.1277, -0.2381, -0.1553,  ..., -0.3496, -0.1026,  0.2200],
+        [-0.2026,  0.0896,  0.0673,  ..., -0.3262, -0.1654, -0.0785]],
+       device='cuda:0'), grad: tensor([[-0.0000e+00, -1.0617e-07,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00, -4.5635e-08],
+        [-9.3132e-10,  5.4948e-08, -9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  1.0245e-08],
+        [ 0.0000e+00,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  2.5146e-08,  1.3970e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.3970e-08],
+        [ 0.0000e+00,  9.3132e-09,  2.7940e-09,  ...,  9.3132e-10,
+          0.0000e+00,  7.4506e-09],
+        [-0.0000e+00,  3.1665e-08, -2.6077e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.3970e-08]], device='cuda:0')
+Epoch 368, bias, value: tensor([-0.0187, -0.0184, -0.0073, -0.0212,  0.0011, -0.0022,  0.0119,  0.0171,
+         0.0165, -0.0107], device='cuda:0'), grad: tensor([-2.1048e-07,  8.6613e-08,  6.5193e-09,  1.2107e-08,  1.3970e-08,
+        -3.9488e-07,  3.3434e-07,  5.9605e-08,  2.7940e-08,  7.4506e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 367, time 214.96, cls_loss 0.0007 cls_loss_mapping 0.0011 cls_loss_causal 0.4542 re_mapping 0.0042 re_causal 0.0120 /// teacc 99.02 lr 0.00010000
+Epoch 369, weight, value: tensor([[-0.3143,  0.0831, -0.2041,  ..., -0.0987, -0.2812, -0.1771],
+        [-0.0038,  0.1065, -0.1253,  ..., -0.1317, -0.0787,  0.1306],
+        [ 0.0553, -0.1406, -0.1819,  ...,  0.0047, -0.0585, -0.1127],
+        ...,
+        [ 0.1065, -0.0889,  0.1430,  ...,  0.0713,  0.2149, -0.0299],
+        [ 0.1275, -0.2394, -0.1565,  ..., -0.3507, -0.1038,  0.2199],
+        [-0.2028,  0.0895,  0.0674,  ..., -0.3266, -0.1654, -0.0786]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -6.8918e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -1.3039e-08],
+        [ 7.4506e-09, -1.4529e-07,  9.3132e-09,  ...,  4.6566e-09,
+          5.5879e-09, -6.0070e-07],
+        [-1.2107e-08,  4.6566e-09,  3.7253e-09,  ..., -4.6566e-09,
+         -1.0245e-08,  1.3970e-08],
+        ...,
+        [-0.0000e+00,  8.3819e-09, -1.3039e-08,  ...,  9.3132e-10,
+          1.8626e-09,  1.5832e-08],
+        [ 0.0000e+00,  7.4506e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.1176e-08],
+        [ 9.3132e-10,  3.1665e-08, -9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  3.5390e-08]], device='cuda:0')
+Epoch 369, bias, value: tensor([-0.0187, -0.0184, -0.0072, -0.0209,  0.0011, -0.0024,  0.0121,  0.0170,
+         0.0159, -0.0108], device='cuda:0'), grad: tensor([-1.5181e-07, -9.4622e-07,  1.0245e-08,  1.1362e-07, -1.2107e-07,
+        -1.1269e-07,  1.0524e-06,  3.1665e-08,  2.9802e-08,  1.0245e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 368, time 214.79, cls_loss 0.0007 cls_loss_mapping 0.0010 cls_loss_causal 0.4729 re_mapping 0.0040 re_causal 0.0117 /// teacc 99.00 lr 0.00010000
+Epoch 370, weight, value: tensor([[-0.3145,  0.0826, -0.2048,  ..., -0.0993, -0.2814, -0.1769],
+        [-0.0040,  0.1067, -0.1254,  ..., -0.1318, -0.0790,  0.1304],
+        [ 0.0554, -0.1407, -0.1819,  ...,  0.0048, -0.0585, -0.1128],
+        ...,
+        [ 0.1066, -0.0895,  0.1431,  ...,  0.0712,  0.2152, -0.0295],
+        [ 0.1279, -0.2413, -0.1579,  ..., -0.3512, -0.1039,  0.2200],
+        [-0.2029,  0.0904,  0.0676,  ..., -0.3268, -0.1654, -0.0786]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  4.0978e-08,  1.8626e-09,  ...,  3.7253e-09,
+          1.8626e-09,  3.3528e-08],
+        [ 1.1176e-08, -3.4086e-07,  1.1176e-08,  ...,  1.8626e-08,
+          7.4506e-09, -1.5460e-07],
+        [-7.8231e-08,  1.1176e-08, -8.1956e-08,  ..., -1.3784e-07,
+         -5.5879e-08,  3.7253e-09],
+        ...,
+        [ 3.9116e-08,  7.4506e-09,  4.2841e-08,  ...,  7.0781e-08,
+          2.9802e-08,  5.5879e-09],
+        [ 3.7253e-09,  7.4506e-09,  7.4506e-09,  ...,  1.3039e-08,
+          5.5879e-09, -1.4901e-08],
+        [ 7.4506e-09, -3.3528e-08, -4.8429e-08,  ...,  5.5879e-09,
+          1.8626e-09,  1.4901e-08]], device='cuda:0')
+Epoch 370, bias, value: tensor([-0.0189, -0.0185, -0.0071, -0.0210,  0.0011, -0.0022,  0.0120,  0.0171,
+         0.0157, -0.0104], device='cuda:0'), grad: tensor([ 1.4901e-07, -8.9221e-07, -4.7870e-07,  5.0291e-08,  1.3411e-07,
+         4.8429e-08,  6.5193e-07,  2.8871e-07,  3.5390e-08,  1.3039e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 369, time 215.19, cls_loss 0.0013 cls_loss_mapping 0.0015 cls_loss_causal 0.4985 re_mapping 0.0040 re_causal 0.0118 /// teacc 98.99 lr 0.00010000
+Epoch 371, weight, value: tensor([[-0.3150,  0.0810, -0.2057,  ..., -0.1003, -0.2818, -0.1770],
+        [-0.0042,  0.1063, -0.1255,  ..., -0.1321, -0.0791,  0.1304],
+        [ 0.0495, -0.1408, -0.1853,  ..., -0.0012, -0.0646, -0.1182],
+        ...,
+        [ 0.1119, -0.0896,  0.1440,  ...,  0.0773,  0.2205, -0.0249],
+        [ 0.1280, -0.2417, -0.1586,  ..., -0.3537, -0.1059,  0.2204],
+        [-0.2040,  0.0920,  0.0678,  ..., -0.3280, -0.1656, -0.0797]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -4.1537e-07,  1.8626e-09,  ..., -3.9116e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 7.4506e-09,  1.8626e-09,  3.3528e-08,  ...,  1.1176e-08,
+          5.5879e-09, -1.8626e-09],
+        [ 9.3132e-09,  1.1176e-08,  1.1176e-08,  ...,  5.5879e-09,
+          9.3132e-09,  0.0000e+00],
+        ...,
+        [-3.1665e-08,  3.7253e-09,  2.0489e-08,  ...,  7.4506e-09,
+         -2.7940e-08,  1.8626e-09],
+        [-3.7253e-09,  5.5879e-09,  2.7940e-08,  ...,  7.4506e-09,
+          1.8626e-09, -1.4901e-08],
+        [ 7.4506e-09,  2.6822e-07,  7.4506e-09,  ...,  4.6566e-08,
+          5.5879e-09,  5.5879e-09]], device='cuda:0')
+Epoch 371, bias, value: tensor([-0.0199, -0.0187, -0.0128, -0.0203,  0.0020, -0.0022,  0.0117,  0.0213,
+         0.0158, -0.0096], device='cuda:0'), grad: tensor([-9.0152e-07,  6.8918e-08,  6.3330e-08, -1.2852e-07,  2.8685e-07,
+         6.8918e-08, -1.0990e-07, -1.8626e-09,  2.6077e-08,  6.3144e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 370, time 214.95, cls_loss 0.0009 cls_loss_mapping 0.0012 cls_loss_causal 0.4548 re_mapping 0.0039 re_causal 0.0114 /// teacc 98.94 lr 0.00010000
+Epoch 372, weight, value: tensor([[-0.3151,  0.0813, -0.2058,  ..., -0.1003, -0.2820, -0.1776],
+        [-0.0040,  0.1062, -0.1253,  ..., -0.1322, -0.0792,  0.1311],
+        [ 0.0494, -0.1408, -0.1854,  ..., -0.0012, -0.0646, -0.1182],
+        ...,
+        [ 0.1119, -0.0900,  0.1436,  ...,  0.0773,  0.2206, -0.0253],
+        [ 0.1281, -0.2421, -0.1591,  ..., -0.3542, -0.1062,  0.2207],
+        [-0.2046,  0.0921,  0.0688,  ..., -0.3289, -0.1657, -0.0802]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09, -6.1467e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-09],
+        [ 5.1223e-07,  9.8720e-08,  5.5879e-09,  ...,  0.0000e+00,
+          1.8626e-09,  5.9605e-07],
+        [ 5.5879e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  7.4506e-09],
+        ...,
+        [ 5.5879e-09,  3.7253e-09, -1.3039e-08,  ..., -0.0000e+00,
+         -1.1176e-08,  1.6764e-08],
+        [-6.2771e-07, -1.1735e-07,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -7.3388e-07],
+        [ 1.3039e-08,  4.6566e-08, -9.3132e-09,  ...,  0.0000e+00,
+          7.4506e-09,  9.3132e-09]], device='cuda:0')
+Epoch 372, bias, value: tensor([-0.0197, -0.0184, -0.0128, -0.0203,  0.0012, -0.0022,  0.0117,  0.0211,
+         0.0158, -0.0091], device='cuda:0'), grad: tensor([-1.3225e-07,  1.8440e-06,  2.2352e-08,  3.3528e-08,  3.3528e-08,
+         2.0489e-07,  5.0291e-08,  3.1665e-08, -2.2538e-06,  1.4901e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 371, time 214.97, cls_loss 0.0011 cls_loss_mapping 0.0017 cls_loss_causal 0.4748 re_mapping 0.0042 re_causal 0.0120 /// teacc 98.97 lr 0.00010000
+Epoch 373, weight, value: tensor([[-0.3145,  0.0816, -0.2061,  ..., -0.1008, -0.2821, -0.1770],
+        [-0.0071,  0.1064, -0.1282,  ..., -0.1322, -0.0823,  0.1281],
+        [ 0.0494, -0.1412, -0.1856,  ..., -0.0012, -0.0647, -0.1183],
+        ...,
+        [ 0.1145, -0.0908,  0.1464,  ...,  0.0773,  0.2234, -0.0223],
+        [ 0.1288, -0.2429, -0.1597,  ..., -0.3551, -0.1066,  0.2215],
+        [-0.2053,  0.0919,  0.0693,  ..., -0.3301, -0.1655, -0.0811]],
+       device='cuda:0'), grad: tensor([[-3.7253e-09, -4.8429e-08,  3.5390e-08,  ...,  2.9802e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 3.7253e-09,  8.3819e-08,  2.0489e-08,  ...,  1.4901e-08,
+          0.0000e+00,  9.3132e-09],
+        [-1.6764e-08,  6.3330e-08,  2.0489e-08,  ...,  5.5879e-09,
+          0.0000e+00,  1.8626e-09],
+        ...,
+        [ 1.4901e-08,  1.4715e-07,  1.1176e-08,  ...,  2.2352e-08,
+         -1.8626e-09,  2.0489e-08],
+        [ 1.8626e-09,  1.7881e-07,  2.7940e-08,  ...,  1.3039e-08,
+          0.0000e+00,  3.7253e-09],
+        [ 1.8626e-09,  1.9260e-06, -1.4342e-07,  ..., -5.5879e-09,
+          0.0000e+00,  3.2410e-07]], device='cuda:0')
+Epoch 373, bias, value: tensor([-0.0195, -0.0213, -0.0128, -0.0193,  0.0014, -0.0034,  0.0118,  0.0236,
+         0.0158, -0.0090], device='cuda:0'), grad: tensor([-2.9802e-08,  3.4645e-07,  1.2293e-07, -9.6858e-08, -1.0461e-05,
+         2.3469e-07,  6.3330e-08,  6.7241e-07,  4.7870e-07,  8.6427e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 372, time 215.27, cls_loss 0.0009 cls_loss_mapping 0.0021 cls_loss_causal 0.5016 re_mapping 0.0041 re_causal 0.0118 /// teacc 98.97 lr 0.00010000
+Epoch 374, weight, value: tensor([[-0.3150,  0.0819, -0.2061,  ..., -0.1016, -0.2823, -0.1767],
+        [-0.0072,  0.1065, -0.1280,  ..., -0.1322, -0.0822,  0.1283],
+        [ 0.0497, -0.1412, -0.1854,  ..., -0.0011, -0.0645, -0.1183],
+        ...,
+        [ 0.1144, -0.0916,  0.1462,  ...,  0.0772,  0.2233, -0.0225],
+        [ 0.1291, -0.2438, -0.1604,  ..., -0.3555, -0.1070,  0.2218],
+        [-0.2063,  0.0916,  0.0693,  ..., -0.3308, -0.1656, -0.0814]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -2.0489e-08,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-1.3441e-05, -1.8626e-09, -2.2538e-07,  ...,  1.8626e-09,
+         -5.5879e-06, -5.4203e-07],
+        [ 1.2010e-05,  3.7253e-09,  2.0862e-07,  ..., -0.0000e+00,
+          4.9919e-06,  4.7497e-07],
+        ...,
+        [ 1.4119e-06,  5.5879e-09,  2.2352e-08,  ..., -1.8626e-09,
+          5.8487e-07,  6.1467e-08],
+        [ 5.5879e-09,  1.8626e-09,  1.8626e-09,  ...,  0.0000e+00,
+          1.8626e-09,  1.8626e-09],
+        [ 7.4506e-09,  9.3132e-09, -9.3132e-09,  ...,  1.8626e-09,
+          3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 374, bias, value: tensor([-0.0194, -0.0213, -0.0122, -0.0195,  0.0013, -0.0029,  0.0118,  0.0233,
+         0.0156, -0.0093], device='cuda:0'), grad: tensor([-5.2154e-08, -5.7995e-05,  5.1796e-05,  1.8626e-09,  9.3132e-09,
+         3.3528e-08, -1.0617e-07,  6.1244e-06,  1.4156e-07,  4.8429e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 373, time 215.18, cls_loss 0.0009 cls_loss_mapping 0.0015 cls_loss_causal 0.4820 re_mapping 0.0043 re_causal 0.0119 /// teacc 99.04 lr 0.00010000
+Epoch 375, weight, value: tensor([[-0.3171,  0.0818, -0.2062,  ..., -0.1025, -0.2828, -0.1785],
+        [-0.0071,  0.1068, -0.1280,  ..., -0.1323, -0.0822,  0.1284],
+        [ 0.0497, -0.1414, -0.1855,  ..., -0.0011, -0.0645, -0.1184],
+        ...,
+        [ 0.1144, -0.0927,  0.1458,  ...,  0.0768,  0.2232, -0.0226],
+        [ 0.1291, -0.2448, -0.1616,  ..., -0.3564, -0.1074,  0.2219],
+        [-0.2068,  0.0921,  0.0701,  ..., -0.3313, -0.1656, -0.0813]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  1.8626e-09,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [-2.8517e-06,  6.1467e-08, -1.5333e-05,  ..., -5.1036e-07,
+         -2.4229e-05,  1.8626e-09],
+        [ 3.7253e-08, -3.9116e-08,  1.0729e-06,  ...,  2.6077e-08,
+          1.6689e-06,  1.1176e-08],
+        ...,
+        [ 2.7698e-06,  3.3528e-08,  1.4298e-05,  ...,  4.8615e-07,
+          2.2486e-05,  1.6764e-08],
+        [-1.8626e-08,  1.1176e-08,  1.3039e-08,  ...,  1.8626e-09,
+          1.8626e-09, -2.6077e-08],
+        [ 7.4506e-09, -1.0245e-06, -1.2238e-06,  ...,  0.0000e+00,
+          3.7253e-09, -2.4587e-07]], device='cuda:0')
+Epoch 375, bias, value: tensor([-0.0195, -0.0212, -0.0123, -0.0167,  0.0006, -0.0045,  0.0118,  0.0231,
+         0.0151, -0.0087], device='cuda:0'), grad: tensor([ 3.9116e-08, -8.6129e-05,  5.1670e-06,  8.3819e-08,  3.1553e-06,
+         4.4703e-08,  1.2666e-07,  8.0705e-05,  2.4214e-08, -3.3565e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 374, time 215.09, cls_loss 0.0008 cls_loss_mapping 0.0021 cls_loss_causal 0.4786 re_mapping 0.0041 re_causal 0.0117 /// teacc 99.03 lr 0.00010000
+Epoch 376, weight, value: tensor([[-0.3171,  0.0850, -0.2063,  ..., -0.1032, -0.2830, -0.1756],
+        [-0.0070,  0.1067, -0.1276,  ..., -0.1323, -0.0821,  0.1287],
+        [ 0.0498, -0.1416, -0.1856,  ..., -0.0010, -0.0644, -0.1184],
+        ...,
+        [ 0.1142, -0.0940,  0.1454,  ...,  0.0768,  0.2232, -0.0229],
+        [ 0.1294, -0.2450, -0.1618,  ..., -0.3566, -0.1076,  0.2223],
+        [-0.2073,  0.0922,  0.0708,  ..., -0.3316, -0.1655, -0.0818]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  3.7253e-09,  7.4506e-09,  ...,  3.7253e-09,
+          0.0000e+00,  1.8626e-09],
+        [-2.5451e-05,  1.8626e-08, -3.8475e-05,  ...,  1.4901e-08,
+          5.5879e-09, -2.5600e-05],
+        [ 9.8720e-08,  1.3970e-07,  2.1979e-07,  ...,  1.5460e-07,
+          0.0000e+00,  1.4901e-08],
+        ...,
+        [ 2.5243e-05,  3.7253e-09,  3.8207e-05,  ...,  5.5879e-09,
+         -1.3039e-08,  2.5392e-05],
+        [-1.8626e-09,  1.3039e-08,  3.1665e-08,  ...,  0.0000e+00,
+          0.0000e+00, -3.7253e-09],
+        [ 5.0291e-08, -8.1956e-08, -1.0245e-07,  ...,  0.0000e+00,
+          5.5879e-09,  4.0978e-08]], device='cuda:0')
+Epoch 376, bias, value: tensor([-0.0165, -0.0210, -0.0122, -0.0168,  0.0008, -0.0045,  0.0091,  0.0227,
+         0.0153, -0.0086], device='cuda:0'), grad: tensor([ 1.6764e-08, -7.6413e-05,  4.8988e-07, -2.3469e-07,  2.6077e-07,
+         0.0000e+00,  7.4506e-09,  7.5936e-05,  6.5193e-08, -2.4773e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 375, time 215.07, cls_loss 0.0007 cls_loss_mapping 0.0011 cls_loss_causal 0.4505 re_mapping 0.0041 re_causal 0.0114 /// teacc 98.97 lr 0.00010000
+Epoch 377, weight, value: tensor([[-0.3177,  0.0850, -0.2063,  ..., -0.1035, -0.2834, -0.1755],
+        [-0.0070,  0.1067, -0.1275,  ..., -0.1324, -0.0821,  0.1289],
+        [ 0.0498, -0.1419, -0.1858,  ..., -0.0010, -0.0644, -0.1184],
+        ...,
+        [ 0.1142, -0.0942,  0.1453,  ...,  0.0768,  0.2232, -0.0231],
+        [ 0.1300, -0.2454, -0.1623,  ..., -0.3568, -0.1069,  0.2228],
+        [-0.2066,  0.0924,  0.0715,  ..., -0.3318, -0.1653, -0.0820]],
+       device='cuda:0'), grad: tensor([[-7.4506e-09, -2.2352e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -9.3132e-09],
+        [ 3.7253e-09, -1.8626e-09,  1.4901e-08,  ...,  3.7253e-09,
+          5.5879e-09, -3.1665e-08],
+        [ 3.7253e-09,  5.5879e-09,  5.5879e-09,  ...,  3.7253e-09,
+          0.0000e+00,  1.8626e-09],
+        ...,
+        [-5.2154e-08,  3.7253e-09, -3.3528e-08,  ..., -1.8626e-09,
+         -1.6764e-08,  5.5879e-09],
+        [ 3.7253e-09,  7.4506e-09,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [ 2.9802e-08, -1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          7.4506e-09,  1.1176e-08]], device='cuda:0')
+Epoch 377, bias, value: tensor([-0.0164, -0.0209, -0.0122, -0.0169,  0.0004, -0.0043,  0.0090,  0.0226,
+         0.0153, -0.0080], device='cuda:0'), grad: tensor([-8.1956e-08, -1.8626e-08,  3.1665e-08, -9.3132e-09,  2.4214e-08,
+         3.3528e-08,  5.5879e-09, -7.2643e-08,  2.7940e-08,  5.0291e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 376, time 215.18, cls_loss 0.0008 cls_loss_mapping 0.0012 cls_loss_causal 0.4847 re_mapping 0.0038 re_causal 0.0114 /// teacc 98.98 lr 0.00010000
+Epoch 378, weight, value: tensor([[-0.3207,  0.0851, -0.2067,  ..., -0.1067, -0.2866, -0.1755],
+        [-0.0070,  0.1062, -0.1276,  ..., -0.1326, -0.0822,  0.1289],
+        [ 0.0498, -0.1422, -0.1859,  ..., -0.0009, -0.0643, -0.1185],
+        ...,
+        [ 0.1142, -0.0949,  0.1453,  ...,  0.0768,  0.2232, -0.0231],
+        [ 0.1312, -0.2464, -0.1628,  ..., -0.3569, -0.1072,  0.2238],
+        [-0.2069,  0.0928,  0.0720,  ..., -0.3322, -0.1653, -0.0823]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  5.0552e-06,  2.9057e-07,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  1.8626e-09,  1.8626e-09,  ...,  1.8626e-09,
+          0.0000e+00, -5.5879e-09],
+        [-0.0000e+00,  4.2841e-08,  1.8626e-09,  ..., -1.8626e-09,
+         -1.8626e-09,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  1.6764e-08,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  9.3132e-09],
+        [-5.5879e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -7.4506e-09],
+        [ 1.8626e-09, -5.1931e-06, -2.9989e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-08]], device='cuda:0')
+Epoch 378, bias, value: tensor([-0.0166, -0.0210, -0.0120, -0.0171,  0.0002, -0.0040,  0.0090,  0.0226,
+         0.0157, -0.0075], device='cuda:0'), grad: tensor([ 1.0908e-05,  5.5879e-09,  8.9407e-08, -1.8626e-09,  1.2293e-07,
+         4.4703e-08, -3.5390e-08,  4.8429e-08,  0.0000e+00, -1.1176e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 377, time 215.12, cls_loss 0.0008 cls_loss_mapping 0.0010 cls_loss_causal 0.4715 re_mapping 0.0040 re_causal 0.0117 /// teacc 98.96 lr 0.00010000
+Epoch 379, weight, value: tensor([[-3.2090e-01,  8.5054e-02, -2.0690e-01,  ..., -1.0692e-01,
+         -2.8684e-01, -1.7552e-01],
+        [-7.0227e-03,  1.0596e-01, -1.2756e-01,  ..., -1.3267e-01,
+         -8.2172e-02,  1.2905e-01],
+        [ 5.0169e-02, -1.4331e-01, -1.8508e-01,  ..., -3.3537e-04,
+         -6.3194e-02, -1.1866e-01],
+        ...,
+        [ 1.1397e-01, -9.5941e-02,  1.4515e-01,  ...,  7.6159e-02,
+          2.2270e-01, -2.3162e-02],
+        [ 1.3167e-01, -2.4664e-01, -1.6301e-01,  ..., -3.5707e-01,
+         -1.0748e-01,  2.2432e-01],
+        [-2.0639e-01,  9.3577e-02,  7.3160e-02,  ..., -3.3247e-01,
+         -1.6465e-01, -8.1888e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -7.4506e-09,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 7.4506e-09,  9.3132e-09,  4.0978e-08,  ...,  2.2352e-08,
+          1.8626e-09, -7.4506e-09],
+        [-0.0000e+00,  5.5879e-09,  3.7253e-09,  ...,  1.8626e-09,
+         -0.0000e+00,  7.4506e-09],
+        ...,
+        [ 3.3528e-08,  9.4995e-08,  1.6391e-07,  ..., -0.0000e+00,
+         -1.8626e-09,  1.4901e-08],
+        [-5.5879e-08,  3.7253e-09,  5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00, -1.3039e-07],
+        [-8.0094e-08, -2.3097e-07, -4.3027e-07,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-09]], device='cuda:0')
+Epoch 379, bias, value: tensor([-0.0166, -0.0210, -0.0116, -0.0174, -0.0009, -0.0038,  0.0090,  0.0223,
+         0.0158, -0.0063], device='cuda:0'), grad: tensor([ 3.7253e-09,  9.1270e-08,  5.0291e-08, -7.0781e-08,  3.7439e-07,
+         5.2154e-08,  3.5390e-08,  3.2969e-07, -1.3411e-07, -7.4133e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 378, time 214.97, cls_loss 0.0009 cls_loss_mapping 0.0017 cls_loss_causal 0.4912 re_mapping 0.0040 re_causal 0.0114 /// teacc 99.00 lr 0.00010000
+Epoch 380, weight, value: tensor([[-3.2104e-01,  8.5091e-02, -2.0715e-01,  ..., -1.0707e-01,
+         -2.8699e-01, -1.7549e-01],
+        [-7.0416e-03,  1.0574e-01, -1.2761e-01,  ..., -1.3292e-01,
+         -8.2193e-02,  1.2908e-01],
+        [ 5.0165e-02, -1.4372e-01, -1.8527e-01,  ..., -3.0770e-04,
+         -6.3153e-02, -1.1873e-01],
+        ...,
+        [ 1.1402e-01, -9.6256e-02,  1.4525e-01,  ...,  7.6224e-02,
+          2.2275e-01, -2.3183e-02],
+        [ 1.3200e-01, -2.4709e-01, -1.6363e-01,  ..., -3.5737e-01,
+         -1.0792e-01,  2.2467e-01],
+        [-2.0747e-01,  9.3518e-02,  7.3351e-02,  ..., -3.3430e-01,
+         -1.6489e-01, -8.3039e-02]], device='cuda:0'), grad: tensor([[ 1.8626e-09, -4.0978e-08,  3.7253e-09,  ...,  5.5879e-09,
+          1.8626e-09, -5.5879e-09],
+        [ 1.1176e-08,  2.2352e-08,  1.4901e-08,  ...,  1.3039e-08,
+          5.5879e-09,  4.0978e-08],
+        [ 1.4901e-08,  5.5879e-09,  0.0000e+00,  ..., -2.0489e-08,
+         -7.4506e-09,  5.5879e-09],
+        ...,
+        [-1.6764e-08,  1.1176e-08, -1.8626e-09,  ..., -1.1176e-08,
+         -1.6764e-08,  5.5879e-09],
+        [ 2.0489e-08,  4.6566e-08,  1.0058e-07,  ...,  3.7253e-09,
+          0.0000e+00, -1.4901e-08],
+        [-3.1665e-08, -0.0000e+00, -1.2852e-07,  ...,  0.0000e+00,
+          0.0000e+00,  4.2841e-08]], device='cuda:0')
+Epoch 380, bias, value: tensor([-0.0166, -0.0210, -0.0116, -0.0168, -0.0005, -0.0049,  0.0091,  0.0224,
+         0.0157, -0.0064], device='cuda:0'), grad: tensor([-6.3330e-08,  1.5087e-07, -1.5087e-07,  7.6368e-08, -1.5087e-07,
+        -1.3039e-07,  1.6578e-07,  2.9802e-08,  3.3155e-07, -2.6077e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 379, time 215.54, cls_loss 0.0009 cls_loss_mapping 0.0020 cls_loss_causal 0.4862 re_mapping 0.0040 re_causal 0.0116 /// teacc 99.02 lr 0.00010000
+Epoch 381, weight, value: tensor([[-3.2150e-01,  8.5052e-02, -2.0748e-01,  ..., -1.0733e-01,
+         -2.8716e-01, -1.7559e-01],
+        [-7.0471e-03,  1.0629e-01, -1.2764e-01,  ..., -1.3314e-01,
+         -8.2227e-02,  1.2934e-01],
+        [ 5.0154e-02, -1.4411e-01, -1.8540e-01,  ..., -3.1780e-04,
+         -6.3162e-02, -1.1933e-01],
+        ...,
+        [ 1.1404e-01, -9.6640e-02,  1.4526e-01,  ...,  7.6249e-02,
+          2.2279e-01, -2.3219e-02],
+        [ 1.3233e-01, -2.4958e-01, -1.6541e-01,  ..., -3.5779e-01,
+         -1.0825e-01,  2.2400e-01],
+        [-2.0801e-01,  9.3332e-02,  7.3749e-02,  ..., -3.3552e-01,
+         -1.6478e-01, -8.3964e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -1.8813e-07, -5.4017e-08,  ...,  0.0000e+00,
+          0.0000e+00, -1.1399e-06],
+        [-1.8626e-09,  1.5646e-07,  4.6566e-08,  ..., -1.8626e-09,
+         -1.8626e-09,  9.5740e-07],
+        ...,
+        [-1.8626e-09,  2.6077e-08,  3.7253e-09,  ...,  1.8626e-09,
+         -3.7253e-09,  1.5274e-07],
+        [-3.7253e-09,  0.0000e+00,  0.0000e+00,  ..., -0.0000e+00,
+          0.0000e+00, -5.5879e-09],
+        [ 3.7253e-09, -1.8626e-09,  1.8626e-09,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00]], device='cuda:0')
+Epoch 381, bias, value: tensor([-1.6681e-02, -2.0937e-02, -1.1697e-02, -1.5873e-02,  3.4713e-05,
+        -6.1113e-03,  9.2421e-03,  2.2333e-02,  1.4960e-02, -6.4731e-03],
+       device='cuda:0'), grad: tensor([ 0.0000e+00, -1.7956e-06,  1.5032e-06,  1.6950e-07,  1.6764e-08,
+        -1.3411e-07,  5.5879e-09,  2.3842e-07, -5.5879e-09,  5.5879e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 380, time 215.48, cls_loss 0.0008 cls_loss_mapping 0.0012 cls_loss_causal 0.4610 re_mapping 0.0040 re_causal 0.0117 /// teacc 99.05 lr 0.00010000
+Epoch 382, weight, value: tensor([[-3.2173e-01,  8.5094e-02, -2.0763e-01,  ..., -1.0748e-01,
+         -2.8725e-01, -1.7561e-01],
+        [-7.0837e-03,  1.0636e-01, -1.2772e-01,  ..., -1.3344e-01,
+         -8.2278e-02,  1.2936e-01],
+        [ 5.0151e-02, -1.4434e-01, -1.8566e-01,  ..., -2.9652e-04,
+         -6.3185e-02, -1.1940e-01],
+        ...,
+        [ 1.1434e-01, -9.6628e-02,  1.4596e-01,  ...,  7.6293e-02,
+          2.2355e-01, -2.3219e-02],
+        [ 1.3276e-01, -2.5015e-01, -1.6626e-01,  ..., -3.5841e-01,
+         -1.0843e-01,  2.2462e-01],
+        [-2.1128e-01,  9.3384e-02,  7.1495e-02,  ..., -3.3676e-01,
+         -1.6789e-01, -8.4024e-02]], device='cuda:0'), grad: tensor([[ 1.8626e-09, -1.3039e-08,  1.8626e-09,  ...,  3.7253e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09, -1.8626e-09,  3.7253e-09,  ...,  5.5879e-09,
+          3.7253e-09, -2.2352e-08],
+        [-1.6764e-08,  1.3039e-08,  1.8626e-08,  ..., -7.4506e-09,
+         -9.3132e-09,  5.5879e-09],
+        ...,
+        [-1.8626e-09,  5.5879e-09,  1.8626e-09,  ...,  1.8626e-09,
+          1.8626e-09,  9.3132e-09],
+        [-1.8626e-09,  3.7253e-09,  1.8626e-09,  ...,  1.8626e-09,
+          0.0000e+00, -5.5879e-09],
+        [ 1.8626e-09,  8.0094e-08, -9.3132e-09,  ...,  3.7253e-09,
+          0.0000e+00,  1.2480e-07]], device='cuda:0')
+Epoch 382, bias, value: tensor([-1.6638e-02, -2.0981e-02, -1.1682e-02, -1.5964e-02,  7.3005e-05,
+        -6.2297e-03,  9.2144e-03,  2.2756e-02,  1.5060e-02, -8.4564e-03],
+       device='cuda:0'), grad: tensor([-3.3528e-08, -1.1176e-08, -2.9802e-08, -2.0489e-08, -3.7998e-07,
+         1.3039e-08,  1.8626e-08,  2.9802e-08,  9.3132e-09,  3.7625e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 381, time 215.31, cls_loss 0.0010 cls_loss_mapping 0.0018 cls_loss_causal 0.4774 re_mapping 0.0038 re_causal 0.0110 /// teacc 98.98 lr 0.00010000
+Epoch 383, weight, value: tensor([[-3.2185e-01,  8.5087e-02, -2.0790e-01,  ..., -1.0767e-01,
+         -2.8729e-01, -1.7566e-01],
+        [-7.0202e-03,  1.0707e-01, -1.2753e-01,  ..., -1.3364e-01,
+         -8.2255e-02,  1.2986e-01],
+        [ 5.0204e-02, -1.4579e-01, -1.8580e-01,  ..., -2.2696e-04,
+         -6.3064e-02, -1.1952e-01],
+        ...,
+        [ 1.1427e-01, -9.7734e-02,  1.4579e-01,  ...,  7.6208e-02,
+          2.2350e-01, -2.3501e-02],
+        [ 1.3301e-01, -2.5067e-01, -1.6688e-01,  ..., -3.5915e-01,
+         -1.0884e-01,  2.2499e-01],
+        [-2.1138e-01,  9.3380e-02,  7.1447e-02,  ..., -3.3756e-01,
+         -1.6792e-01, -8.5555e-02]], device='cuda:0'), grad: tensor([[ 1.4901e-08, -9.4995e-08,  5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.0489e-08],
+        [-8.6613e-07, -1.3895e-06, -2.2165e-07,  ...,  0.0000e+00,
+          0.0000e+00, -1.2070e-06],
+        [ 3.7253e-09,  2.0489e-08,  1.8626e-09,  ..., -1.8626e-09,
+         -1.8626e-09,  1.4901e-08],
+        ...,
+        [ 6.6310e-07,  1.0692e-06,  1.7136e-07,  ...,  0.0000e+00,
+         -1.8626e-09,  9.2573e-07],
+        [ 9.3132e-09,  1.8626e-08,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.3039e-08],
+        [ 1.1735e-07,  2.4959e-07, -7.8231e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.9185e-07]], device='cuda:0')
+Epoch 383, bias, value: tensor([-0.0167, -0.0207, -0.0116, -0.0161,  0.0008, -0.0059,  0.0091,  0.0225,
+         0.0149, -0.0088], device='cuda:0'), grad: tensor([-8.9407e-08, -5.5693e-06,  6.8918e-08,  1.0990e-07,  2.2165e-07,
+         1.3784e-07, -1.4529e-07,  4.2878e-06,  8.7544e-08,  8.6986e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 382, time 215.16, cls_loss 0.0009 cls_loss_mapping 0.0012 cls_loss_causal 0.4698 re_mapping 0.0041 re_causal 0.0116 /// teacc 99.08 lr 0.00010000
+Epoch 384, weight, value: tensor([[-3.2198e-01,  8.5156e-02, -2.0801e-01,  ..., -1.0773e-01,
+         -2.8733e-01, -1.7554e-01],
+        [-7.0267e-03,  1.0723e-01, -1.2756e-01,  ..., -1.3396e-01,
+         -8.2289e-02,  1.2996e-01],
+        [ 5.0197e-02, -1.4623e-01, -1.8598e-01,  ..., -2.0350e-04,
+         -6.3064e-02, -1.1967e-01],
+        ...,
+        [ 1.1428e-01, -9.8728e-02,  1.4582e-01,  ...,  7.6209e-02,
+          2.2354e-01, -2.3558e-02],
+        [ 1.3367e-01, -2.5118e-01, -1.6694e-01,  ..., -3.5866e-01,
+         -1.0940e-01,  2.2573e-01],
+        [-2.1146e-01,  9.2691e-02,  7.1362e-02,  ..., -3.3812e-01,
+         -1.6794e-01, -8.7762e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -5.2527e-07,  5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00, -9.3132e-09],
+        [ 0.0000e+00,  1.3039e-08,  1.6764e-08,  ...,  7.4506e-09,
+          0.0000e+00, -7.4506e-09],
+        [ 0.0000e+00,  2.0489e-08,  2.6077e-08,  ...,  1.8626e-08,
+          0.0000e+00,  5.5879e-09],
+        ...,
+        [ 0.0000e+00,  9.3132e-09,  1.3039e-08,  ...,  7.4506e-09,
+          0.0000e+00,  5.5879e-09],
+        [ 0.0000e+00,  6.8918e-08,  2.7940e-08,  ...,  5.5879e-09,
+          0.0000e+00,  5.5879e-09],
+        [ 0.0000e+00, -4.4517e-07, -2.1607e-07,  ...,  1.8626e-09,
+          0.0000e+00, -6.1467e-08]], device='cuda:0')
+Epoch 384, bias, value: tensor([-0.0166, -0.0207, -0.0116, -0.0161,  0.0020, -0.0061,  0.0092,  0.0225,
+         0.0150, -0.0094], device='cuda:0'), grad: tensor([-1.6969e-06,  5.4017e-08,  1.2107e-07, -1.1548e-07,  1.6056e-06,
+         6.3330e-08,  9.0897e-07,  5.0291e-08,  2.2352e-07, -1.2219e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 383, time 215.27, cls_loss 0.0008 cls_loss_mapping 0.0013 cls_loss_causal 0.4602 re_mapping 0.0042 re_causal 0.0117 /// teacc 99.02 lr 0.00010000
+Epoch 385, weight, value: tensor([[-3.2223e-01,  8.5241e-02, -2.0814e-01,  ..., -1.0794e-01,
+         -2.8739e-01, -1.7551e-01],
+        [-6.8556e-03,  1.0541e-01, -1.2719e-01,  ..., -1.3416e-01,
+         -8.2304e-02,  1.3054e-01],
+        [ 5.0199e-02, -1.4680e-01, -1.8611e-01,  ..., -1.9148e-04,
+         -6.3064e-02, -1.1973e-01],
+        ...,
+        [ 1.1415e-01, -9.9216e-02,  1.4543e-01,  ...,  7.6219e-02,
+          2.2356e-01, -2.4042e-02],
+        [ 1.3386e-01, -2.5168e-01, -1.6753e-01,  ..., -3.5927e-01,
+         -1.0972e-01,  2.2571e-01],
+        [-2.1157e-01,  9.3685e-02,  7.1602e-02,  ..., -3.3855e-01,
+         -1.6795e-01, -8.9241e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -9.3132e-09,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00, -1.8626e-09],
+        [ 1.8626e-08,  7.0781e-08,  8.3819e-08,  ...,  1.1176e-08,
+          3.7253e-09,  5.5879e-09],
+        [ 1.8626e-09,  1.8626e-09,  7.4506e-09,  ..., -3.7253e-09,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [-4.8429e-08,  3.7253e-09, -3.3528e-08,  ..., -1.8626e-09,
+         -2.0489e-08,  0.0000e+00],
+        [-0.0000e+00,  1.4901e-08,  1.8626e-08,  ...,  3.7253e-09,
+          0.0000e+00, -1.8626e-09],
+        [ 1.8626e-08, -1.2293e-07, -1.0617e-07,  ...,  3.7253e-09,
+          9.3132e-09, -5.5879e-09]], device='cuda:0')
+Epoch 385, bias, value: tensor([-0.0165, -0.0206, -0.0116, -0.0162,  0.0029, -0.0061,  0.0091,  0.0222,
+         0.0147, -0.0089], device='cuda:0'), grad: tensor([-3.5390e-08,  4.2468e-07, -5.5879e-09, -5.7742e-08,  6.8918e-08,
+         2.0489e-08,  9.4995e-08, -5.7742e-08,  7.8231e-08, -5.4576e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 384, time 215.02, cls_loss 0.0007 cls_loss_mapping 0.0014 cls_loss_causal 0.4278 re_mapping 0.0038 re_causal 0.0109 /// teacc 99.06 lr 0.00010000
+Epoch 386, weight, value: tensor([[-3.2140e-01,  8.5284e-02, -2.0821e-01,  ..., -1.0810e-01,
+         -2.8746e-01, -1.7543e-01],
+        [-6.8479e-03,  1.0463e-01, -1.2720e-01,  ..., -1.3442e-01,
+         -8.2278e-02,  1.3073e-01],
+        [ 5.0274e-02, -1.4742e-01, -1.8612e-01,  ..., -1.0763e-04,
+         -6.2974e-02, -1.1990e-01],
+        ...,
+        [ 1.1411e-01, -9.9288e-02,  1.4542e-01,  ...,  7.6160e-02,
+          2.2351e-01, -2.4199e-02],
+        [ 1.3429e-01, -2.5230e-01, -1.6791e-01,  ..., -3.5979e-01,
+         -1.0993e-01,  2.2599e-01],
+        [-2.1176e-01,  9.3991e-02,  7.1691e-02,  ..., -3.3900e-01,
+         -1.6797e-01, -9.0394e-02]], device='cuda:0'), grad: tensor([[ 3.7253e-09, -1.8626e-09,  3.7253e-09,  ...,  3.7253e-09,
+          0.0000e+00,  1.8626e-09],
+        [-1.9930e-07,  0.0000e+00, -6.9104e-07,  ...,  1.3039e-08,
+         -9.5740e-07, -1.6484e-06],
+        [-1.8626e-08,  5.5879e-09,  7.4506e-08,  ...,  4.8429e-08,
+          7.4506e-09,  1.1176e-08],
+        ...,
+        [ 2.3097e-07,  1.8626e-09,  7.0222e-07,  ...,  5.5879e-09,
+          9.4622e-07,  1.6857e-06],
+        [-3.5390e-08,  1.8626e-09,  2.0489e-08,  ...,  3.1665e-08,
+          1.8626e-09, -1.3225e-07],
+        [ 2.2352e-08,  1.8626e-09,  5.5879e-09,  ...,  3.7253e-09,
+          3.7253e-09,  3.3528e-08]], device='cuda:0')
+Epoch 386, bias, value: tensor([-0.0164, -0.0206, -0.0114, -0.0162,  0.0035, -0.0061,  0.0090,  0.0221,
+         0.0141, -0.0087], device='cuda:0'), grad: tensor([ 1.6764e-08, -2.8275e-06,  1.0431e-07, -3.0175e-07, -7.4506e-09,
+         1.1921e-07, -2.0489e-08,  2.9597e-06, -1.2107e-07,  8.1956e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 385, time 215.10, cls_loss 0.0007 cls_loss_mapping 0.0008 cls_loss_causal 0.4783 re_mapping 0.0039 re_causal 0.0124 /// teacc 99.03 lr 0.00010000
+Epoch 387, weight, value: tensor([[-3.2151e-01,  8.5298e-02, -2.0825e-01,  ..., -1.0823e-01,
+         -2.8753e-01, -1.7545e-01],
+        [-6.9461e-03,  1.0449e-01, -1.2734e-01,  ..., -1.3466e-01,
+         -8.2411e-02,  1.3080e-01],
+        [ 5.0275e-02, -1.4783e-01, -1.8648e-01,  ..., -1.9148e-04,
+         -6.2983e-02, -1.1996e-01],
+        ...,
+        [ 1.1419e-01, -9.9868e-02,  1.4543e-01,  ...,  7.5978e-02,
+          2.2364e-01, -2.4203e-02],
+        [ 1.3453e-01, -2.5296e-01, -1.6823e-01,  ..., -3.6009e-01,
+         -1.1003e-01,  2.2595e-01],
+        [-2.1183e-01,  9.4231e-02,  7.1800e-02,  ..., -3.3933e-01,
+         -1.6798e-01, -9.0938e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  5.5879e-09,  3.1665e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-7.4506e-09,  7.4506e-09,  1.1176e-08,  ...,  0.0000e+00,
+          0.0000e+00, -1.6764e-08],
+        [ 7.4506e-09, -1.0990e-07, -1.8440e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.4901e-08]], device='cuda:0')
+Epoch 387, bias, value: tensor([-0.0164, -0.0207, -0.0115, -0.0157,  0.0038, -0.0061,  0.0090,  0.0221,
+         0.0139, -0.0087], device='cuda:0'), grad: tensor([ 5.5879e-09,  9.3132e-09,  5.5879e-09,  9.3132e-09,  2.6822e-07,
+        -1.8626e-08,  1.6764e-08,  6.8918e-08, -9.3132e-09, -3.5204e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 386, time 214.84, cls_loss 0.0007 cls_loss_mapping 0.0009 cls_loss_causal 0.4506 re_mapping 0.0040 re_causal 0.0115 /// teacc 99.07 lr 0.00010000
+Epoch 388, weight, value: tensor([[-3.2127e-01,  8.5353e-02, -2.0822e-01,  ..., -1.0829e-01,
+         -2.8754e-01, -1.7547e-01],
+        [-6.9585e-03,  1.0458e-01, -1.2733e-01,  ..., -1.3500e-01,
+         -8.2464e-02,  1.3088e-01],
+        [ 5.0291e-02, -1.4857e-01, -1.8662e-01,  ..., -1.7818e-04,
+         -6.2985e-02, -1.2002e-01],
+        ...,
+        [ 1.1420e-01, -9.9980e-02,  1.4543e-01,  ...,  7.5999e-02,
+          2.2369e-01, -2.4268e-02],
+        [ 1.3485e-01, -2.5335e-01, -1.6865e-01,  ..., -3.6163e-01,
+         -1.1037e-01,  2.2667e-01],
+        [-2.1204e-01,  9.4008e-02,  7.1792e-02,  ..., -3.4015e-01,
+         -1.6800e-01, -9.1826e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  3.7253e-09,  ...,  1.8626e-09,
+          0.0000e+00,  1.8626e-09],
+        [ 5.9605e-08, -1.6764e-08,  8.7544e-08,  ...,  4.4703e-08,
+          4.0978e-08, -6.3330e-08],
+        [ 3.1665e-08,  1.8626e-09,  4.2841e-08,  ...,  2.0489e-08,
+          2.0489e-08,  5.5879e-09],
+        ...,
+        [-1.0990e-07,  2.0489e-08, -1.4715e-07,  ..., -6.7055e-08,
+         -7.6368e-08,  4.2841e-08],
+        [-1.8626e-09,  1.1176e-08,  1.6764e-08,  ...,  3.7253e-09,
+          1.8626e-09, -7.4506e-09],
+        [ 9.3132e-09, -2.0489e-08, -1.3039e-08,  ...,  5.5879e-09,
+          7.4506e-09,  9.3132e-09]], device='cuda:0')
+Epoch 388, bias, value: tensor([-0.0164, -0.0207, -0.0115, -0.0158,  0.0040, -0.0058,  0.0090,  0.0221,
+         0.0140, -0.0090], device='cuda:0'), grad: tensor([ 9.3132e-09,  5.2154e-08,  9.1270e-08, -1.1921e-07,  5.5879e-08,
+         1.3225e-07,  1.8626e-09, -1.9185e-07,  4.4703e-08, -6.3330e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 387, time 214.84, cls_loss 0.0012 cls_loss_mapping 0.0020 cls_loss_causal 0.4720 re_mapping 0.0040 re_causal 0.0112 /// teacc 99.05 lr 0.00010000
+Epoch 389, weight, value: tensor([[-3.1951e-01,  8.5384e-02, -2.0859e-01,  ..., -1.0855e-01,
+         -2.8762e-01, -1.7579e-01],
+        [-7.0103e-03,  1.0452e-01, -1.2755e-01,  ..., -1.3572e-01,
+         -8.2519e-02,  1.3087e-01],
+        [ 5.0256e-02, -1.4904e-01, -1.8703e-01,  ..., -1.7403e-04,
+         -6.2967e-02, -1.2028e-01],
+        ...,
+        [ 1.1423e-01, -1.0038e-01,  1.4543e-01,  ...,  7.6065e-02,
+          2.2373e-01, -2.4355e-02],
+        [ 1.3716e-01, -2.5459e-01, -1.6936e-01,  ..., -3.6219e-01,
+         -1.0988e-01,  2.2842e-01],
+        [-2.1236e-01,  9.3834e-02,  7.3113e-02,  ..., -3.4131e-01,
+         -1.6792e-01, -9.3531e-02]], device='cuda:0'), grad: tensor([[ 3.7253e-08,  0.0000e+00,  1.1176e-08,  ...,  5.2154e-08,
+          2.9802e-08,  7.4506e-09],
+        [ 7.0781e-08,  1.3039e-08,  4.2841e-08,  ...,  1.0617e-07,
+          5.5879e-08, -3.3267e-06],
+        [-2.8871e-07,  9.3132e-09,  2.9802e-08,  ..., -3.2596e-07,
+         -2.3469e-07,  2.8927e-06],
+        ...,
+        [ 1.0803e-07,  9.3132e-09,  3.7253e-09,  ...,  1.5274e-07,
+          9.1270e-08,  3.2037e-07],
+        [ 1.8626e-08,  9.3132e-09,  2.6077e-08,  ...,  5.0291e-08,
+          2.0489e-08,  1.3039e-08],
+        [ 7.4506e-09,  1.6764e-08,  1.1176e-08,  ...,  2.2352e-08,
+          5.5879e-09,  1.8626e-09]], device='cuda:0')
+Epoch 389, bias, value: tensor([-0.0167, -0.0209, -0.0115, -0.0158,  0.0050, -0.0061,  0.0096,  0.0220,
+         0.0144, -0.0087], device='cuda:0'), grad: tensor([ 2.1607e-07, -6.7353e-06,  4.8950e-06, -2.5146e-07,  9.4995e-08,
+        -4.0978e-08,  1.8068e-07,  1.2927e-06,  2.1793e-07,  1.0431e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 388, time 214.88, cls_loss 0.0008 cls_loss_mapping 0.0012 cls_loss_causal 0.4599 re_mapping 0.0041 re_causal 0.0115 /// teacc 99.01 lr 0.00010000
+Epoch 390, weight, value: tensor([[-3.1966e-01,  8.5417e-02, -2.0882e-01,  ..., -1.0883e-01,
+         -2.8767e-01, -1.7586e-01],
+        [-7.1106e-03,  1.0464e-01, -1.2756e-01,  ..., -1.3652e-01,
+         -8.2541e-02,  1.3091e-01],
+        [ 5.0391e-02, -1.4952e-01, -1.8761e-01,  ..., -2.2423e-04,
+         -6.2958e-02, -1.2013e-01],
+        ...,
+        [ 1.1427e-01, -1.0022e-01,  1.4548e-01,  ...,  7.6097e-02,
+          2.2379e-01, -2.4361e-02],
+        [ 1.3762e-01, -2.5477e-01, -1.7044e-01,  ..., -3.6356e-01,
+         -1.1054e-01,  2.2908e-01],
+        [-2.1252e-01,  9.3816e-02,  7.3209e-02,  ..., -3.4229e-01,
+         -1.6796e-01, -9.4384e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.8626e-09,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 4.6566e-09,  2.3283e-07,  1.1176e-08,  ...,  2.7940e-09,
+          3.7253e-09,  9.4995e-08],
+        [ 1.0245e-08,  9.3132e-10,  9.3132e-10,  ..., -9.3132e-10,
+         -0.0000e+00,  1.7695e-08],
+        ...,
+        [-7.4506e-09,  1.3039e-08, -1.3970e-08,  ..., -7.4506e-09,
+         -8.3819e-09,  1.1176e-08],
+        [-2.9802e-08,  2.7940e-09,  5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00, -4.4703e-08],
+        [ 9.3132e-10, -9.3132e-10, -2.1420e-08,  ...,  9.3132e-10,
+          9.3132e-10,  3.7253e-09]], device='cuda:0')
+Epoch 390, bias, value: tensor([-0.0167, -0.0212, -0.0109, -0.0156,  0.0048, -0.0061,  0.0096,  0.0220,
+         0.0144, -0.0089], device='cuda:0'), grad: tensor([-2.7940e-09,  6.0536e-07,  2.0489e-08,  8.3819e-09, -6.6776e-07,
+         1.9558e-08,  7.2643e-08,  1.7695e-08, -3.5390e-08, -3.5390e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 389, time 214.91, cls_loss 0.0009 cls_loss_mapping 0.0010 cls_loss_causal 0.4698 re_mapping 0.0041 re_causal 0.0113 /// teacc 99.06 lr 0.00010000
+Epoch 391, weight, value: tensor([[-3.1827e-01,  8.5570e-02, -2.0935e-01,  ..., -1.0915e-01,
+         -2.8779e-01, -1.7577e-01],
+        [-7.1549e-03,  1.0479e-01, -1.2751e-01,  ..., -1.3688e-01,
+         -8.2548e-02,  1.3108e-01],
+        [ 5.0438e-02, -1.5051e-01, -1.8783e-01,  ..., -2.1166e-04,
+         -6.2938e-02, -1.2037e-01],
+        ...,
+        [ 1.1429e-01, -1.0098e-01,  1.4552e-01,  ...,  7.6134e-02,
+          2.2383e-01, -2.4480e-02],
+        [ 1.3830e-01, -2.5533e-01, -1.7153e-01,  ..., -3.6347e-01,
+         -1.1119e-01,  2.2973e-01],
+        [-2.1300e-01,  9.3569e-02,  7.3345e-02,  ..., -3.4356e-01,
+         -1.6803e-01, -9.6333e-02]], device='cuda:0'), grad: tensor([[ 9.3132e-10, -2.7940e-09,  9.3132e-10,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 1.0245e-08,  1.8626e-09,  1.8626e-09,  ...,  1.8626e-09,
+          1.8626e-09,  1.6764e-08],
+        [-6.5193e-09,  9.3132e-10,  0.0000e+00,  ..., -9.3132e-09,
+         -6.5193e-09,  1.8626e-09],
+        ...,
+        [ 7.4506e-09,  2.7940e-09, -0.0000e+00,  ...,  3.7253e-09,
+          1.8626e-09,  1.3039e-08],
+        [-1.2107e-07,  9.3132e-10, -1.3039e-08,  ...,  1.8626e-09,
+          9.3132e-10, -2.1514e-07],
+        [ 9.9652e-08,  1.8347e-07, -4.6566e-09,  ...,  9.3132e-10,
+          9.3132e-10,  2.0955e-07]], device='cuda:0')
+Epoch 391, bias, value: tensor([-0.0165, -0.0214, -0.0105, -0.0156,  0.0049, -0.0060,  0.0096,  0.0220,
+         0.0144, -0.0094], device='cuda:0'), grad: tensor([ 2.5146e-08,  3.5390e-08, -3.2596e-08,  9.3132e-09, -8.5123e-07,
+         2.7940e-09, -2.1420e-08,  4.0978e-08, -3.8557e-07,  1.1800e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 390, time 214.75, cls_loss 0.0008 cls_loss_mapping 0.0011 cls_loss_causal 0.4912 re_mapping 0.0039 re_causal 0.0116 /// teacc 99.01 lr 0.00010000
+Epoch 392, weight, value: tensor([[-3.1837e-01,  8.5508e-02, -2.0998e-01,  ..., -1.0934e-01,
+         -2.8786e-01, -1.7579e-01],
+        [-7.1612e-03,  1.0487e-01, -1.2753e-01,  ..., -1.3714e-01,
+         -8.2639e-02,  1.3131e-01],
+        [ 5.0486e-02, -1.5131e-01, -1.8801e-01,  ..., -1.1163e-04,
+         -6.2933e-02, -1.2063e-01],
+        ...,
+        [ 1.1431e-01, -1.0183e-01,  1.4556e-01,  ...,  7.6137e-02,
+          2.2393e-01, -2.4623e-02],
+        [ 1.3811e-01, -2.5578e-01, -1.7251e-01,  ..., -3.6563e-01,
+         -1.1174e-01,  2.3035e-01],
+        [-2.1317e-01,  9.3884e-02,  7.3522e-02,  ..., -3.4447e-01,
+         -1.6805e-01, -9.6865e-02]], device='cuda:0'), grad: tensor([[ 2.7940e-09,  1.8626e-09,  2.7940e-09,  ...,  9.3132e-10,
+          0.0000e+00,  4.6566e-09],
+        [ 9.2201e-08, -2.7940e-08,  1.3411e-07,  ...,  2.4214e-08,
+          1.2014e-07, -3.5390e-08],
+        [ 1.3039e-08,  5.5879e-09,  1.5832e-08,  ...,  1.1176e-08,
+          1.1176e-08,  1.3039e-08],
+        ...,
+        [-1.1548e-07,  1.3039e-08, -1.6578e-07,  ..., -3.5390e-08,
+         -1.4994e-07, -3.7253e-09],
+        [-1.8626e-08,  6.5193e-09,  9.3132e-09,  ...,  2.7940e-09,
+          0.0000e+00, -1.7695e-08],
+        [ 2.5146e-08, -2.2352e-08, -1.6764e-08,  ...,  3.7253e-09,
+          1.5832e-08,  2.1420e-08]], device='cuda:0')
+Epoch 392, bias, value: tensor([-0.0166, -0.0213, -0.0104, -0.0159,  0.0046, -0.0059,  0.0097,  0.0220,
+         0.0143, -0.0092], device='cuda:0'), grad: tensor([ 1.6764e-08,  5.2154e-08,  6.6124e-08,  4.4703e-08,  2.5146e-08,
+         7.4506e-09,  1.8626e-08, -1.9185e-07, -7.4506e-09, -3.6322e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 391, time 214.82, cls_loss 0.0009 cls_loss_mapping 0.0020 cls_loss_causal 0.4509 re_mapping 0.0039 re_causal 0.0114 /// teacc 98.96 lr 0.00010000
+Epoch 393, weight, value: tensor([[-3.1842e-01,  8.5310e-02, -2.1026e-01,  ..., -1.0985e-01,
+         -2.8795e-01, -1.7623e-01],
+        [-7.7054e-03,  1.0587e-01, -1.2821e-01,  ..., -1.3764e-01,
+         -8.3463e-02,  1.3148e-01],
+        [ 5.0429e-02, -1.5453e-01, -1.8836e-01,  ..., -1.9264e-04,
+         -6.2962e-02, -1.2185e-01],
+        ...,
+        [ 1.1483e-01, -1.0171e-01,  1.4627e-01,  ...,  7.6206e-02,
+          2.2472e-01, -2.4285e-02],
+        [ 1.3800e-01, -2.5657e-01, -1.7511e-01,  ..., -3.6661e-01,
+         -1.1415e-01,  2.3035e-01],
+        [-2.1343e-01,  9.5009e-02,  7.4804e-02,  ..., -3.4556e-01,
+         -1.6811e-01, -9.7190e-02]], device='cuda:0'), grad: tensor([[ 9.3132e-10, -4.0885e-07,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09],
+        [ 4.6566e-09,  1.7695e-08,  6.5193e-09,  ...,  9.3132e-10,
+          2.7940e-09,  4.8429e-08],
+        [ 2.7940e-09,  8.3819e-09,  1.8626e-09,  ...,  0.0000e+00,
+          1.8626e-09,  3.7253e-09],
+        ...,
+        [-1.0990e-07,  1.5832e-08, -1.6578e-07,  ..., -9.3132e-10,
+         -1.7043e-07,  2.0489e-08],
+        [ 9.3132e-10,  1.0245e-08,  2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 7.4506e-09,  3.8743e-07, -1.8626e-08,  ...,  0.0000e+00,
+          6.5193e-09,  2.0210e-07]], device='cuda:0')
+Epoch 393, bias, value: tensor([-0.0169, -0.0215, -0.0109, -0.0153,  0.0018, -0.0063,  0.0100,  0.0225,
+         0.0138, -0.0084], device='cuda:0'), grad: tensor([-8.7451e-07,  1.8720e-07,  2.8871e-08,  1.0245e-08, -4.7591e-07,
+         4.6566e-09,  2.0489e-08, -3.8277e-07,  3.9116e-08,  1.4268e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 392, time 214.79, cls_loss 0.0010 cls_loss_mapping 0.0010 cls_loss_causal 0.4538 re_mapping 0.0041 re_causal 0.0112 /// teacc 99.04 lr 0.00010000
+Epoch 394, weight, value: tensor([[-3.1859e-01,  8.5213e-02, -2.1132e-01,  ..., -1.1034e-01,
+         -2.8824e-01, -1.7630e-01],
+        [-7.8000e-03,  1.0551e-01, -1.2843e-01,  ..., -1.3819e-01,
+         -8.3611e-02,  1.3137e-01],
+        [ 5.0432e-02, -1.5506e-01, -1.8851e-01,  ..., -1.6036e-04,
+         -6.2941e-02, -1.2204e-01],
+        ...,
+        [ 1.1493e-01, -1.0225e-01,  1.4650e-01,  ...,  7.6275e-02,
+          2.2489e-01, -2.4219e-02],
+        [ 1.3902e-01, -2.5729e-01, -1.7533e-01,  ..., -3.6667e-01,
+         -1.1460e-01,  2.3135e-01],
+        [-2.1368e-01,  9.5764e-02,  7.5636e-02,  ..., -3.4778e-01,
+         -1.6819e-01, -1.0165e-01]], device='cuda:0'), grad: tensor([[ 6.5193e-09, -1.7695e-08,  4.6566e-09,  ...,  7.4506e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 1.7695e-08,  7.4506e-09,  1.6764e-08,  ...,  4.1910e-08,
+          1.1176e-08, -1.8626e-09],
+        [-7.1712e-08,  2.7940e-09,  4.6566e-09,  ..., -5.2154e-08,
+         -1.8626e-08, -0.0000e+00],
+        ...,
+        [ 4.6566e-09,  4.6566e-09,  8.3819e-09,  ...,  1.3039e-08,
+          1.8626e-09,  9.3132e-10],
+        [ 2.7940e-08,  5.5879e-09,  6.5193e-09,  ...,  1.6764e-08,
+          1.8626e-09,  9.3132e-10],
+        [ 1.8626e-09,  8.3819e-09,  5.5879e-09,  ...,  6.5193e-09,
+          0.0000e+00,  2.7940e-09]], device='cuda:0')
+Epoch 394, bias, value: tensor([-0.0171, -0.0217, -0.0109, -0.0159,  0.0025, -0.0058,  0.0100,  0.0226,
+         0.0142, -0.0081], device='cuda:0'), grad: tensor([-4.4703e-08,  1.6391e-07, -4.7963e-07, -3.6508e-07,  3.7253e-09,
+         3.2317e-07,  1.1269e-07,  4.9360e-08,  2.0396e-07,  4.0978e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 393, time 215.01, cls_loss 0.0008 cls_loss_mapping 0.0012 cls_loss_causal 0.4731 re_mapping 0.0040 re_causal 0.0114 /// teacc 99.05 lr 0.00010000
+Epoch 395, weight, value: tensor([[-3.1851e-01,  8.5286e-02, -2.1150e-01,  ..., -1.1049e-01,
+         -2.8841e-01, -1.7626e-01],
+        [-7.9529e-03,  1.0539e-01, -1.2859e-01,  ..., -1.3847e-01,
+         -8.3835e-02,  1.3134e-01],
+        [ 5.0488e-02, -1.5568e-01, -1.8866e-01,  ..., -1.5392e-04,
+         -6.2885e-02, -1.2225e-01],
+        ...,
+        [ 1.1505e-01, -1.0263e-01,  1.4671e-01,  ...,  7.6320e-02,
+          2.2511e-01, -2.4177e-02],
+        [ 1.3889e-01, -2.5836e-01, -1.7716e-01,  ..., -3.6749e-01,
+         -1.1583e-01,  2.3117e-01],
+        [-2.1397e-01,  9.5773e-02,  7.5640e-02,  ..., -3.5120e-01,
+         -1.6831e-01, -1.0190e-01]], device='cuda:0'), grad: tensor([[ 1.8626e-09,  9.3132e-10,  9.3132e-10,  ...,  9.3132e-10,
+          9.3132e-10,  1.8626e-09],
+        [ 2.1420e-08, -6.5193e-08,  2.2352e-08,  ...,  1.1176e-08,
+          1.9558e-08, -5.4017e-08],
+        [-4.6566e-09,  1.9558e-08,  6.5193e-09,  ..., -9.3132e-09,
+         -5.5879e-09,  1.2107e-08],
+        ...,
+        [-5.0291e-08,  3.6322e-08, -5.4017e-08,  ..., -1.6764e-08,
+         -4.4703e-08,  3.0734e-08],
+        [ 4.6566e-09,  7.4506e-09,  2.7940e-09,  ...,  3.7253e-09,
+          4.6566e-09,  3.7253e-09],
+        [ 1.3970e-08,  5.5879e-09,  1.4901e-08,  ...,  6.5193e-09,
+          1.2107e-08,  5.5879e-09]], device='cuda:0')
+Epoch 395, bias, value: tensor([-0.0170, -0.0218, -0.0108, -0.0159,  0.0026, -0.0056,  0.0100,  0.0227,
+         0.0133, -0.0082], device='cuda:0'), grad: tensor([ 1.1176e-08, -1.2945e-07, -4.7497e-08,  2.8871e-08,  9.3132e-09,
+        -5.0291e-08,  2.3283e-08,  4.7497e-08,  5.3085e-08,  5.9605e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 394, time 215.10, cls_loss 0.0008 cls_loss_mapping 0.0013 cls_loss_causal 0.4515 re_mapping 0.0039 re_causal 0.0111 /// teacc 98.99 lr 0.00010000
+Epoch 396, weight, value: tensor([[-3.1988e-01,  8.5339e-02, -2.1177e-01,  ..., -1.1277e-01,
+         -2.9076e-01, -1.7627e-01],
+        [-7.9469e-03,  1.0576e-01, -1.2862e-01,  ..., -1.3876e-01,
+         -8.3839e-02,  1.3153e-01],
+        [ 5.0514e-02, -1.5625e-01, -1.8890e-01,  ..., -6.2472e-05,
+         -6.2731e-02, -1.2250e-01],
+        ...,
+        [ 1.1513e-01, -1.0362e-01,  1.4694e-01,  ...,  7.6377e-02,
+          2.2526e-01, -2.4261e-02],
+        [ 1.3886e-01, -2.5922e-01, -1.7826e-01,  ..., -3.6872e-01,
+         -1.1758e-01,  2.3123e-01],
+        [-2.1476e-01,  9.5815e-02,  7.5207e-02,  ..., -3.5395e-01,
+         -1.6886e-01, -1.0220e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 1.2107e-08,  1.8626e-09,  1.3039e-08,  ...,  1.0245e-08,
+          1.0245e-08,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  3.7253e-09,  ..., -0.0000e+00,
+         -9.3132e-10,  0.0000e+00],
+        ...,
+        [-1.7695e-08, -2.7940e-09, -2.0489e-08,  ..., -1.3970e-08,
+         -1.3039e-08,  9.3132e-10],
+        [-0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -1.8626e-09],
+        [ 9.3132e-10,  4.6566e-09,  0.0000e+00,  ...,  9.3132e-10,
+          9.3132e-10,  9.3132e-10]], device='cuda:0')
+Epoch 396, bias, value: tensor([-0.0171, -0.0218, -0.0107, -0.0159,  0.0023, -0.0050,  0.0097,  0.0227,
+         0.0126, -0.0085], device='cuda:0'), grad: tensor([-8.3819e-09,  3.2596e-08, -7.4506e-09,  3.6322e-08,  9.3132e-10,
+        -2.6077e-08, -2.7940e-09, -3.9116e-08,  2.7940e-09,  1.4901e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 395, time 214.79, cls_loss 0.0009 cls_loss_mapping 0.0012 cls_loss_causal 0.4820 re_mapping 0.0038 re_causal 0.0115 /// teacc 99.04 lr 0.00010000
+Epoch 397, weight, value: tensor([[-0.3201,  0.0854, -0.2120,  ..., -0.1135, -0.2909, -0.1763],
+        [-0.0081,  0.1058, -0.1288,  ..., -0.1398, -0.0840,  0.1315],
+        [ 0.0503, -0.1556, -0.1908,  ..., -0.0004, -0.0631, -0.1226],
+        ...,
+        [ 0.1154, -0.1037,  0.1474,  ...,  0.0768,  0.2256, -0.0243],
+        [ 0.1399, -0.2599, -0.1789,  ..., -0.3695, -0.1184,  0.2324],
+        [-0.2150,  0.0957,  0.0754,  ..., -0.3557, -0.1690, -0.1026]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09, -9.3132e-09,  1.8626e-09,  ...,  3.7253e-09,
+          0.0000e+00,  4.6566e-09],
+        [ 3.0734e-08,  6.5193e-09,  2.3283e-08,  ...,  2.3283e-08,
+          1.2107e-08, -3.1665e-08],
+        [-2.7940e-07,  7.4506e-09,  6.5193e-09,  ...,  6.5193e-09,
+          1.8626e-09, -3.5390e-08],
+        ...,
+        [ 3.7253e-08,  5.0291e-08, -9.3132e-09,  ...,  6.5193e-09,
+         -1.7695e-08,  7.5437e-08],
+        [ 1.0245e-07,  4.6566e-09,  4.6566e-09,  ...,  5.5879e-09,
+          9.3132e-10,  1.9558e-08],
+        [ 3.7253e-09,  1.8626e-08,  2.7940e-09,  ...,  9.3132e-10,
+          1.8626e-09,  1.6764e-08]], device='cuda:0')
+Epoch 397, bias, value: tensor([-0.0171, -0.0219, -0.0109, -0.0161,  0.0019, -0.0036,  0.0094,  0.0230,
+         0.0133, -0.0087], device='cuda:0'), grad: tensor([ 1.8626e-09,  6.7055e-08, -5.0012e-07, -2.0582e-07, -1.3784e-07,
+         8.0094e-08,  1.1176e-07,  2.7660e-07,  2.0862e-07,  7.5437e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 396, time 214.92, cls_loss 0.0009 cls_loss_mapping 0.0012 cls_loss_causal 0.4638 re_mapping 0.0041 re_causal 0.0116 /// teacc 99.08 lr 0.00010000
+Epoch 398, weight, value: tensor([[-0.3209,  0.0854, -0.2121,  ..., -0.1138, -0.2910, -0.1766],
+        [-0.0081,  0.1058, -0.1288,  ..., -0.1403, -0.0841,  0.1316],
+        [ 0.0503, -0.1559, -0.1910,  ..., -0.0004, -0.0631, -0.1227],
+        ...,
+        [ 0.1155, -0.1049,  0.1475,  ...,  0.0769,  0.2257, -0.0243],
+        [ 0.1412, -0.2612, -0.1798,  ..., -0.3706, -0.1199,  0.2340],
+        [-0.2156,  0.0956,  0.0754,  ..., -0.3575, -0.1691, -0.1043]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -7.8231e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [-3.7253e-09,  1.8626e-09, -1.8626e-09,  ..., -1.8626e-09,
+         -3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  3.7253e-09,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  3.1665e-08, -3.7253e-08,  ...,  0.0000e+00,
+          1.8626e-09, -0.0000e+00]], device='cuda:0')
+Epoch 398, bias, value: tensor([-0.0173, -0.0219, -0.0109, -0.0161,  0.0025, -0.0036,  0.0097,  0.0230,
+         0.0136, -0.0091], device='cuda:0'), grad: tensor([-1.4529e-07,  1.8626e-09,  1.8626e-09,  1.8626e-09,  1.1921e-07,
+         1.1176e-08,  1.8626e-09,  0.0000e+00,  1.3039e-08, -7.4506e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 397, time 214.71, cls_loss 0.0008 cls_loss_mapping 0.0012 cls_loss_causal 0.4579 re_mapping 0.0040 re_causal 0.0119 /// teacc 99.08 lr 0.00010000
+Epoch 399, weight, value: tensor([[-0.3205,  0.0864, -0.2120,  ..., -0.1133, -0.2910, -0.1765],
+        [-0.0081,  0.1055, -0.1289,  ..., -0.1407, -0.0841,  0.1316],
+        [ 0.0503, -0.1562, -0.1911,  ..., -0.0004, -0.0631, -0.1227],
+        ...,
+        [ 0.1155, -0.1053,  0.1475,  ...,  0.0770,  0.2258, -0.0243],
+        [ 0.1414, -0.2626, -0.1806,  ..., -0.3718, -0.1204,  0.2341],
+        [-0.2157,  0.0953,  0.0755,  ..., -0.3585, -0.1691, -0.1046]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -9.3132e-09, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  9.3132e-09,  9.3132e-09,  ...,  0.0000e+00,
+          1.8626e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [-0.0000e+00, -5.5879e-09, -1.6764e-08,  ...,  0.0000e+00,
+         -3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 399, bias, value: tensor([-0.0155, -0.0220, -0.0109, -0.0182,  0.0024, -0.0018,  0.0082,  0.0230,
+         0.0128, -0.0092], device='cuda:0'), grad: tensor([ 1.6764e-08,  7.4506e-09,  2.2352e-08,  7.4506e-09,  3.7998e-07,
+         1.1176e-07, -5.9232e-07,  3.1665e-08,  4.0978e-08, -2.2352e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 398, time 214.96, cls_loss 0.0007 cls_loss_mapping 0.0013 cls_loss_causal 0.4737 re_mapping 0.0039 re_causal 0.0116 /// teacc 99.02 lr 0.00010000
+Epoch 400, weight, value: tensor([[-0.3203,  0.0867, -0.2122,  ..., -0.1133, -0.2912, -0.1762],
+        [-0.0082,  0.1055, -0.1289,  ..., -0.1408, -0.0842,  0.1316],
+        [ 0.0503, -0.1564, -0.1911,  ..., -0.0004, -0.0630, -0.1225],
+        ...,
+        [ 0.1155, -0.1061,  0.1476,  ...,  0.0769,  0.2258, -0.0244],
+        [ 0.1415, -0.2638, -0.1821,  ..., -0.3727, -0.1219,  0.2342],
+        [-0.2158,  0.0948,  0.0757,  ..., -0.3588, -0.1691, -0.1057]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 1.1176e-08, -1.8626e-09,  1.1176e-08,  ...,  1.8626e-09,
+          1.3039e-08, -5.5879e-09],
+        [-1.8626e-09,  0.0000e+00,  5.5879e-09,  ..., -3.7253e-09,
+          3.7253e-09,  0.0000e+00],
+        ...,
+        [-6.1467e-08, -0.0000e+00, -5.2154e-08,  ..., -3.7253e-09,
+         -5.2154e-08,  3.7253e-09],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 3.3528e-08,  1.4901e-08,  2.4214e-08,  ...,  1.8626e-09,
+          2.4214e-08,  0.0000e+00]], device='cuda:0')
+Epoch 400, bias, value: tensor([-0.0152, -0.0220, -0.0108, -0.0185,  0.0025, -0.0016,  0.0082,  0.0230,
+         0.0123, -0.0097], device='cuda:0'), grad: tensor([ 2.4214e-08,  1.8626e-08, -9.3132e-09,  1.3039e-08,  1.8626e-08,
+        -4.4703e-08, -1.1176e-08, -1.2852e-07,  1.1176e-08,  1.0617e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 399, time 215.07, cls_loss 0.0008 cls_loss_mapping 0.0009 cls_loss_causal 0.4474 re_mapping 0.0039 re_causal 0.0114 /// teacc 98.96 lr 0.00001000
+Epoch 401, weight, value: tensor([[-0.3205,  0.0867, -0.2124,  ..., -0.1135, -0.2912, -0.1762],
+        [-0.0082,  0.1056, -0.1290,  ..., -0.1412, -0.0842,  0.1317],
+        [ 0.0503, -0.1567, -0.1912,  ..., -0.0004, -0.0630, -0.1228],
+        ...,
+        [ 0.1155, -0.1073,  0.1476,  ...,  0.0769,  0.2259, -0.0245],
+        [ 0.1434, -0.2645, -0.1818,  ..., -0.3725, -0.1221,  0.2359],
+        [-0.2167,  0.0942,  0.0754,  ..., -0.3595, -0.1692, -0.1081]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 7.4506e-09, -1.4901e-08,  1.1176e-08,  ...,  3.7253e-09,
+          1.1176e-08, -3.7253e-09],
+        [-3.7253e-09,  0.0000e+00,  0.0000e+00,  ..., -3.7253e-09,
+         -3.7253e-09,  0.0000e+00],
+        ...,
+        [-1.1176e-08,  1.1176e-08, -1.4901e-08,  ..., -3.7253e-09,
+         -1.4901e-08,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.0978e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  5.2154e-08]], device='cuda:0')
+Epoch 401, bias, value: tensor([-0.0152, -0.0220, -0.0109, -0.0193,  0.0037, -0.0009,  0.0084,  0.0230,
+         0.0133, -0.0106], device='cuda:0'), grad: tensor([ 0.0000e+00, -2.6077e-08, -7.4506e-09, -3.7253e-09, -2.0117e-07,
+        -5.5879e-08,  1.8626e-08,  1.4901e-08,  1.1176e-08,  2.1979e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 400, time 215.12, cls_loss 0.0010 cls_loss_mapping 0.0014 cls_loss_causal 0.4432 re_mapping 0.0038 re_causal 0.0108 /// teacc 98.96 lr 0.00001000
+Epoch 402, weight, value: tensor([[-0.3206,  0.0867, -0.2124,  ..., -0.1135, -0.2912, -0.1762],
+        [-0.0082,  0.1056, -0.1290,  ..., -0.1413, -0.0842,  0.1317],
+        [ 0.0503, -0.1568, -0.1912,  ..., -0.0004, -0.0629, -0.1229],
+        ...,
+        [ 0.1155, -0.1075,  0.1476,  ...,  0.0769,  0.2259, -0.0245],
+        [ 0.1436, -0.2646, -0.1818,  ..., -0.3724, -0.1221,  0.2361],
+        [-0.2170,  0.0941,  0.0754,  ..., -0.3596, -0.1692, -0.1084]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  3.3528e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -7.4506e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -0.0000e+00,
+         -0.0000e+00,  3.7253e-09],
+        ...,
+        [-0.0000e+00,  0.0000e+00, -0.0000e+00,  ..., -0.0000e+00,
+         -3.7253e-09,  3.7253e-09],
+        [-3.7253e-09,  0.0000e+00, -0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -7.4506e-09],
+        [ 0.0000e+00, -0.0000e+00, -0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09]], device='cuda:0')
+Epoch 402, bias, value: tensor([-0.0152, -0.0221, -0.0108, -0.0195,  0.0039, -0.0006,  0.0084,  0.0230,
+         0.0133, -0.0108], device='cuda:0'), grad: tensor([ 4.8056e-07,  2.6077e-08,  1.1176e-08,  7.4506e-09,  3.3900e-07,
+         1.2293e-07, -1.0133e-06,  7.4506e-09,  0.0000e+00,  7.4506e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 401, time 215.15, cls_loss 0.0008 cls_loss_mapping 0.0009 cls_loss_causal 0.4554 re_mapping 0.0036 re_causal 0.0108 /// teacc 99.03 lr 0.00001000
+Epoch 403, weight, value: tensor([[-3.2057e-01,  8.6725e-02, -2.1239e-01,  ..., -1.1348e-01,
+         -2.9122e-01, -1.7622e-01],
+        [-8.2493e-03,  1.0558e-01, -1.2905e-01,  ..., -1.4141e-01,
+         -8.4256e-02,  1.3166e-01],
+        [ 5.0345e-02, -1.5681e-01, -1.9119e-01,  ..., -3.6259e-04,
+         -6.2901e-02, -1.2279e-01],
+        ...,
+        [ 1.1555e-01, -1.0753e-01,  1.4768e-01,  ...,  7.6932e-02,
+          2.2590e-01, -2.4496e-02],
+        [ 1.4362e-01, -2.6465e-01, -1.8183e-01,  ..., -3.7246e-01,
+         -1.2211e-01,  2.3614e-01],
+        [-2.1698e-01,  9.4074e-02,  7.5402e-02,  ..., -3.5971e-01,
+         -1.6922e-01, -1.0844e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -8.5682e-08,  4.4703e-08,  ...,  3.7253e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 7.4506e-09,  0.0000e+00,  1.1176e-08,  ...,  1.4901e-08,
+          3.7253e-09, -2.2352e-08],
+        [-0.0000e+00,  4.8429e-08,  7.0781e-08,  ...,  8.5682e-08,
+          3.7253e-09,  0.0000e+00],
+        ...,
+        [-1.1176e-08,  1.1176e-08, -0.0000e+00,  ...,  7.4506e-09,
+         -1.1176e-08,  1.8626e-08],
+        [-1.8626e-08,  1.1176e-08,  0.0000e+00,  ...,  3.7253e-09,
+          0.0000e+00, -2.2352e-08],
+        [ 3.7253e-09,  3.7253e-09,  0.0000e+00,  ...,  3.7253e-09,
+          0.0000e+00,  7.4506e-09]], device='cuda:0')
+Epoch 403, bias, value: tensor([-0.0152, -0.0221, -0.0108, -0.0195,  0.0039, -0.0005,  0.0084,  0.0230,
+         0.0132, -0.0108], device='cuda:0'), grad: tensor([-1.2293e-07, -7.4506e-09,  2.2724e-07, -4.4703e-07, -1.4901e-08,
+         2.4959e-07,  2.2352e-08,  5.5879e-08, -2.2352e-08,  3.3528e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 402, time 215.04, cls_loss 0.0008 cls_loss_mapping 0.0007 cls_loss_causal 0.4496 re_mapping 0.0036 re_causal 0.0108 /// teacc 99.05 lr 0.00001000
+Epoch 404, weight, value: tensor([[-3.2058e-01,  8.6713e-02, -2.1241e-01,  ..., -1.1349e-01,
+         -2.9123e-01, -1.7622e-01],
+        [-8.2560e-03,  1.0557e-01, -1.2906e-01,  ..., -1.4148e-01,
+         -8.4264e-02,  1.3166e-01],
+        [ 5.0353e-02, -1.5683e-01, -1.9120e-01,  ..., -3.5259e-04,
+         -6.2889e-02, -1.2278e-01],
+        ...,
+        [ 1.1555e-01, -1.0760e-01,  1.4768e-01,  ...,  7.6927e-02,
+          2.2590e-01, -2.4508e-02],
+        [ 1.4368e-01, -2.6470e-01, -1.8185e-01,  ..., -3.7249e-01,
+         -1.2214e-01,  2.3623e-01],
+        [-2.1702e-01,  9.4105e-02,  7.5404e-02,  ..., -3.5983e-01,
+         -1.6923e-01, -1.0851e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  3.7253e-09,  3.7253e-09,  ...,  3.7253e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 1.1176e-08,  3.7253e-09,  7.4506e-09,  ...,  1.1176e-08,
+          0.0000e+00,  1.1176e-08],
+        ...,
+        [ 0.0000e+00,  3.7253e-09,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [-1.4901e-08,  3.7253e-09,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00, -1.1176e-08],
+        [-3.7253e-09, -0.0000e+00, -1.4901e-08,  ...,  0.0000e+00,
+         -0.0000e+00,  3.7253e-09]], device='cuda:0')
+Epoch 404, bias, value: tensor([-0.0152, -0.0221, -0.0108, -0.0195,  0.0040, -0.0005,  0.0085,  0.0230,
+         0.0132, -0.0108], device='cuda:0'), grad: tensor([ 3.7253e-09,  2.9802e-08,  5.2154e-08, -4.0978e-08, -4.4703e-08,
+         3.7253e-09, -1.4901e-08,  1.4901e-08, -2.2352e-08,  0.0000e+00],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 403, time 215.01, cls_loss 0.0007 cls_loss_mapping 0.0005 cls_loss_causal 0.4597 re_mapping 0.0035 re_causal 0.0109 /// teacc 99.04 lr 0.00001000
+Epoch 405, weight, value: tensor([[-3.2060e-01,  8.6720e-02, -2.1242e-01,  ..., -1.1350e-01,
+         -2.9124e-01, -1.7623e-01],
+        [-8.2655e-03,  1.0557e-01, -1.2907e-01,  ..., -1.4154e-01,
+         -8.4278e-02,  1.3166e-01],
+        [ 5.0358e-02, -1.5685e-01, -1.9120e-01,  ..., -3.4654e-04,
+         -6.2879e-02, -1.2277e-01],
+        ...,
+        [ 1.1556e-01, -1.0765e-01,  1.4770e-01,  ...,  7.6925e-02,
+          2.2591e-01, -2.4510e-02],
+        [ 1.4375e-01, -2.6474e-01, -1.8187e-01,  ..., -3.7253e-01,
+         -1.2217e-01,  2.3630e-01],
+        [-2.1705e-01,  9.4092e-02,  7.5402e-02,  ..., -3.5993e-01,
+         -1.6924e-01, -1.0857e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  3.7253e-09,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -7.4506e-09,  3.7253e-09,  ...,  3.7253e-09,
+          0.0000e+00, -4.0978e-08],
+        [ 0.0000e+00,  7.4506e-09,  1.1176e-08,  ...,  7.4506e-09,
+          0.0000e+00,  3.7253e-09],
+        ...,
+        [ 0.0000e+00,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  7.4506e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-0.0000e+00, -0.0000e+00, -3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 405, bias, value: tensor([-0.0152, -0.0221, -0.0108, -0.0195,  0.0040, -0.0005,  0.0085,  0.0230,
+         0.0133, -0.0109], device='cuda:0'), grad: tensor([ 7.4506e-09, -5.9605e-08,  2.9802e-08, -5.9605e-08,  4.0978e-08,
+         7.4506e-09,  1.1176e-08,  1.4901e-08,  3.7253e-09, -7.4506e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 404, time 215.25, cls_loss 0.0007 cls_loss_mapping 0.0006 cls_loss_causal 0.4557 re_mapping 0.0035 re_causal 0.0109 /// teacc 99.12 lr 0.00001000
+Epoch 406, weight, value: tensor([[-3.2062e-01,  8.6722e-02, -2.1244e-01,  ..., -1.1352e-01,
+         -2.9124e-01, -1.7623e-01],
+        [-8.2704e-03,  1.0557e-01, -1.2908e-01,  ..., -1.4162e-01,
+         -8.4286e-02,  1.3167e-01],
+        [ 5.0355e-02, -1.5688e-01, -1.9125e-01,  ..., -3.4780e-04,
+         -6.2885e-02, -1.2277e-01],
+        ...,
+        [ 1.1557e-01, -1.0768e-01,  1.4771e-01,  ...,  7.6936e-02,
+          2.2593e-01, -2.4521e-02],
+        [ 1.4380e-01, -2.6478e-01, -1.8190e-01,  ..., -3.7257e-01,
+         -1.2217e-01,  2.3635e-01],
+        [-2.1709e-01,  9.4078e-02,  7.5398e-02,  ..., -3.6005e-01,
+         -1.6924e-01, -1.0863e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.8626e-08,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00, -0.0000e+00],
+        [ 0.0000e+00, -1.4901e-08,  1.4901e-08,  ...,  7.4506e-09,
+          1.1176e-08, -5.9605e-08],
+        [ 7.4506e-09,  0.0000e+00,  7.4506e-09,  ...,  3.7253e-09,
+          7.4506e-09,  0.0000e+00],
+        ...,
+        [-2.6077e-08,  1.4901e-08, -3.7253e-08,  ..., -1.4901e-08,
+         -3.3528e-08,  4.4703e-08],
+        [ 0.0000e+00,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.0978e-08,  1.1176e-08,  ...,  7.4506e-09,
+          3.7253e-09,  4.8429e-08]], device='cuda:0')
+Epoch 406, bias, value: tensor([-0.0152, -0.0221, -0.0108, -0.0196,  0.0040, -0.0005,  0.0085,  0.0230,
+         0.0133, -0.0109], device='cuda:0'), grad: tensor([-4.8429e-08, -9.6858e-08,  1.8626e-08,  2.7940e-07, -2.3097e-07,
+        -2.9802e-07,  3.7253e-09,  3.3528e-08,  7.4506e-09,  3.0175e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 405, time 214.97, cls_loss 0.0006 cls_loss_mapping 0.0005 cls_loss_causal 0.4370 re_mapping 0.0034 re_causal 0.0108 /// teacc 99.11 lr 0.00001000
+Epoch 407, weight, value: tensor([[-3.2062e-01,  8.6729e-02, -2.1243e-01,  ..., -1.1352e-01,
+         -2.9125e-01, -1.7623e-01],
+        [-8.2816e-03,  1.0557e-01, -1.2911e-01,  ..., -1.4168e-01,
+         -8.4307e-02,  1.3167e-01],
+        [ 5.0355e-02, -1.5695e-01, -1.9128e-01,  ..., -3.4631e-04,
+         -6.2885e-02, -1.2276e-01],
+        ...,
+        [ 1.1558e-01, -1.0776e-01,  1.4775e-01,  ...,  7.6940e-02,
+          2.2595e-01, -2.4523e-02],
+        [ 1.4381e-01, -2.6482e-01, -1.8192e-01,  ..., -3.7260e-01,
+         -1.2219e-01,  2.3637e-01],
+        [-2.1711e-01,  9.4084e-02,  7.5395e-02,  ..., -3.6013e-01,
+         -1.6925e-01, -1.0865e-01]], device='cuda:0'), grad: tensor([[ 3.7253e-09, -2.1234e-07,  0.0000e+00,  ..., -3.7253e-09,
+          0.0000e+00,  3.7253e-09],
+        [-4.0978e-07, -2.9802e-08,  0.0000e+00,  ...,  3.7253e-09,
+         -5.5879e-08, -5.4762e-07],
+        [ 2.6077e-08,  3.7253e-09,  0.0000e+00,  ..., -3.7253e-09,
+          3.7253e-09,  3.3528e-08],
+        ...,
+        [ 1.8254e-07,  1.8626e-08,  0.0000e+00,  ...,  0.0000e+00,
+          2.6077e-08,  2.4214e-07],
+        [ 1.7881e-07,  1.4901e-08,  0.0000e+00,  ...,  0.0000e+00,
+          2.6077e-08,  2.3469e-07],
+        [ 7.4506e-09,  1.1176e-08, -0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  7.4506e-09]], device='cuda:0')
+Epoch 407, bias, value: tensor([-0.0152, -0.0222, -0.0108, -0.0196,  0.0040, -0.0005,  0.0085,  0.0230,
+         0.0132, -0.0109], device='cuda:0'), grad: tensor([-7.2643e-07, -1.1735e-06,  7.4506e-08,  2.2352e-08,  0.0000e+00,
+         9.6858e-08,  5.8487e-07,  5.3644e-07,  5.2154e-07,  5.2154e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 406, time 214.90, cls_loss 0.0006 cls_loss_mapping 0.0005 cls_loss_causal 0.4339 re_mapping 0.0034 re_causal 0.0108 /// teacc 99.11 lr 0.00001000
+Epoch 408, weight, value: tensor([[-3.2064e-01,  8.6738e-02, -2.1243e-01,  ..., -1.1354e-01,
+         -2.9126e-01, -1.7624e-01],
+        [-8.3011e-03,  1.0554e-01, -1.2913e-01,  ..., -1.4169e-01,
+         -8.4333e-02,  1.3167e-01],
+        [ 5.0354e-02, -1.5705e-01, -1.9130e-01,  ..., -3.4760e-04,
+         -6.2888e-02, -1.2277e-01],
+        ...,
+        [ 1.1560e-01, -1.0780e-01,  1.4777e-01,  ...,  7.6940e-02,
+          2.2598e-01, -2.4516e-02],
+        [ 1.4384e-01, -2.6486e-01, -1.8196e-01,  ..., -3.7261e-01,
+         -1.2222e-01,  2.3641e-01],
+        [-2.1713e-01,  9.4096e-02,  7.5403e-02,  ..., -3.6017e-01,
+         -1.6926e-01, -1.0868e-01]], device='cuda:0'), grad: tensor([[ 3.7253e-09,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [ 1.4901e-08,  3.7253e-09,  1.4901e-08,  ...,  7.4506e-09,
+          1.1176e-08,  3.7253e-09],
+        [-1.1176e-08,  0.0000e+00,  7.4506e-09,  ...,  7.4506e-09,
+         -3.7253e-09, -2.2352e-08],
+        ...,
+        [-1.4901e-08,  0.0000e+00, -2.6077e-08,  ..., -1.4901e-08,
+         -1.4901e-08,  1.1176e-08],
+        [ 7.4506e-09,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  3.7253e-09],
+        [ 3.7253e-09, -3.7253e-09, -3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 408, bias, value: tensor([-0.0152, -0.0222, -0.0108, -0.0196,  0.0040, -0.0005,  0.0085,  0.0230,
+         0.0132, -0.0109], device='cuda:0'), grad: tensor([ 1.1176e-08,  4.8429e-08, -3.7253e-08, -5.2154e-08,  7.4506e-09,
+        -1.4901e-08,  1.8626e-08, -2.2352e-08,  4.0978e-08, -7.4506e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 407, time 214.73, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4486 re_mapping 0.0034 re_causal 0.0111 /// teacc 99.14 lr 0.00001000
+Epoch 409, weight, value: tensor([[-3.2066e-01,  8.6728e-02, -2.1245e-01,  ..., -1.1355e-01,
+         -2.9126e-01, -1.7624e-01],
+        [-8.3043e-03,  1.0555e-01, -1.2914e-01,  ..., -1.4173e-01,
+         -8.4336e-02,  1.3168e-01],
+        [ 5.0353e-02, -1.5708e-01, -1.9133e-01,  ..., -3.4869e-04,
+         -6.2891e-02, -1.2278e-01],
+        ...,
+        [ 1.1560e-01, -1.0787e-01,  1.4778e-01,  ...,  7.6942e-02,
+          2.2598e-01, -2.4524e-02],
+        [ 1.4386e-01, -2.6489e-01, -1.8198e-01,  ..., -3.7263e-01,
+         -1.2223e-01,  2.3643e-01],
+        [-2.1715e-01,  9.4121e-02,  7.5403e-02,  ..., -3.6023e-01,
+         -1.6926e-01, -1.0870e-01]], device='cuda:0'), grad: tensor([[ 3.7253e-09,  7.8231e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.6858e-08],
+        [-3.7253e-09, -2.1234e-07,  2.6077e-08,  ...,  1.8626e-08,
+          1.1176e-08, -2.6822e-07],
+        [ 0.0000e+00,  7.4506e-09,  1.1176e-08,  ...,  3.7253e-09,
+          3.7253e-09,  7.4506e-09],
+        ...,
+        [ 2.9802e-08,  6.7055e-08,  1.3411e-07,  ...,  9.3132e-08,
+          5.2154e-08,  8.9407e-08],
+        [ 0.0000e+00,  2.2352e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  2.9802e-08],
+        [ 0.0000e+00,  7.4506e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  7.4506e-09]], device='cuda:0')
+Epoch 409, bias, value: tensor([-0.0152, -0.0222, -0.0108, -0.0195,  0.0040, -0.0005,  0.0085,  0.0230,
+         0.0132, -0.0109], device='cuda:0'), grad: tensor([ 3.1665e-07, -7.7486e-07,  4.0978e-08, -5.2527e-07,  7.4506e-09,
+         5.5879e-08,  5.9605e-08,  6.8918e-07,  9.6858e-08,  2.9802e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 408, time 214.89, cls_loss 0.0006 cls_loss_mapping 0.0005 cls_loss_causal 0.4354 re_mapping 0.0033 re_causal 0.0107 /// teacc 99.10 lr 0.00001000
+Epoch 410, weight, value: tensor([[-3.2067e-01,  8.6732e-02, -2.1246e-01,  ..., -1.1356e-01,
+         -2.9127e-01, -1.7624e-01],
+        [-8.3042e-03,  1.0558e-01, -1.2915e-01,  ..., -1.4174e-01,
+         -8.4342e-02,  1.3170e-01],
+        [ 5.0354e-02, -1.5710e-01, -1.9135e-01,  ..., -3.4723e-04,
+         -6.2892e-02, -1.2278e-01],
+        ...,
+        [ 1.1560e-01, -1.0800e-01,  1.4779e-01,  ...,  7.6936e-02,
+          2.2599e-01, -2.4530e-02],
+        [ 1.4386e-01, -2.6492e-01, -1.8201e-01,  ..., -3.7267e-01,
+         -1.2226e-01,  2.3644e-01],
+        [-2.1717e-01,  9.4117e-02,  7.5414e-02,  ..., -3.6025e-01,
+         -1.6927e-01, -1.0875e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.8626e-08,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.4901e-08,  7.4506e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  2.9802e-08],
+        [-7.0781e-08,  0.0000e+00,  0.0000e+00,  ..., -4.4703e-08,
+         -5.9605e-08,  0.0000e+00],
+        ...,
+        [ 6.7055e-08,  3.7253e-09,  0.0000e+00,  ...,  4.0978e-08,
+          5.5879e-08,  0.0000e+00],
+        [-2.6077e-08,  7.4506e-09,  7.4506e-09,  ...,  0.0000e+00,
+          0.0000e+00, -4.4703e-08],
+        [ 0.0000e+00,  7.0781e-08, -1.8626e-08,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09]], device='cuda:0')
+Epoch 410, bias, value: tensor([-0.0152, -0.0222, -0.0108, -0.0195,  0.0040, -0.0005,  0.0085,  0.0230,
+         0.0132, -0.0109], device='cuda:0'), grad: tensor([-3.7253e-08,  1.8626e-07, -1.5274e-07,  4.8429e-08, -4.7050e-06,
+        -5.9605e-08,  7.8231e-08,  3.9488e-07,  2.2352e-08,  4.1984e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 409, time 214.76, cls_loss 0.0006 cls_loss_mapping 0.0006 cls_loss_causal 0.4290 re_mapping 0.0032 re_causal 0.0105 /// teacc 99.12 lr 0.00001000
+Epoch 411, weight, value: tensor([[-3.2068e-01,  8.6729e-02, -2.1247e-01,  ..., -1.1356e-01,
+         -2.9127e-01, -1.7624e-01],
+        [-8.3142e-03,  1.0557e-01, -1.2917e-01,  ..., -1.4180e-01,
+         -8.4357e-02,  1.3170e-01],
+        [ 5.0351e-02, -1.5714e-01, -1.9141e-01,  ..., -3.4868e-04,
+         -6.2895e-02, -1.2278e-01],
+        ...,
+        [ 1.1562e-01, -1.0803e-01,  1.4782e-01,  ...,  7.6948e-02,
+          2.2601e-01, -2.4528e-02],
+        [ 1.4388e-01, -2.6495e-01, -1.8205e-01,  ..., -3.7271e-01,
+         -1.2230e-01,  2.3647e-01],
+        [-2.1720e-01,  9.4139e-02,  7.5410e-02,  ..., -3.6035e-01,
+         -1.6928e-01, -1.0879e-01]], device='cuda:0'), grad: tensor([[ 3.7253e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 6.8545e-07,  6.3330e-08,  2.5332e-07,  ...,  3.7253e-09,
+          3.5763e-07,  2.3842e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [-8.5309e-07, -4.4703e-08, -3.1665e-07,  ...,  0.0000e+00,
+         -4.4703e-07, -2.7940e-07],
+        [ 5.9605e-08,  1.4901e-08,  2.2352e-08,  ...,  3.7253e-09,
+          3.3528e-08,  2.2352e-08],
+        [ 8.9407e-08,  1.3411e-07,  2.6077e-08,  ...,  0.0000e+00,
+          4.4703e-08,  1.3411e-07]], device='cuda:0')
+Epoch 411, bias, value: tensor([-0.0152, -0.0222, -0.0108, -0.0195,  0.0040, -0.0005,  0.0085,  0.0230,
+         0.0132, -0.0109], device='cuda:0'), grad: tensor([ 1.1176e-08,  1.3150e-06,  0.0000e+00,  4.0978e-07, -6.5193e-07,
+        -5.9977e-07,  1.1921e-07, -1.4901e-06,  1.6391e-07,  7.1526e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 410, time 214.44, cls_loss 0.0006 cls_loss_mapping 0.0005 cls_loss_causal 0.4290 re_mapping 0.0032 re_causal 0.0106 /// teacc 99.09 lr 0.00001000
+Epoch 412, weight, value: tensor([[-3.2070e-01,  8.6724e-02, -2.1249e-01,  ..., -1.1359e-01,
+         -2.9128e-01, -1.7624e-01],
+        [-8.3191e-03,  1.0558e-01, -1.2917e-01,  ..., -1.4187e-01,
+         -8.4360e-02,  1.3171e-01],
+        [ 5.0344e-02, -1.5715e-01, -1.9147e-01,  ..., -3.5128e-04,
+         -6.2906e-02, -1.2279e-01],
+        ...,
+        [ 1.1563e-01, -1.0803e-01,  1.4784e-01,  ...,  7.6962e-02,
+          2.2602e-01, -2.4539e-02],
+        [ 1.4392e-01, -2.6499e-01, -1.8207e-01,  ..., -3.7277e-01,
+         -1.2234e-01,  2.3653e-01],
+        [-2.1723e-01,  9.4159e-02,  7.5406e-02,  ..., -3.6042e-01,
+         -1.6930e-01, -1.0882e-01]], device='cuda:0'), grad: tensor([[ 1.4901e-08, -1.8626e-08,  0.0000e+00,  ...,  7.4506e-09,
+          3.7253e-09,  0.0000e+00],
+        [ 3.7253e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [-4.8429e-08,  0.0000e+00,  0.0000e+00,  ..., -2.6077e-08,
+         -2.2352e-08,  0.0000e+00],
+        ...,
+        [ 2.6077e-08,  3.7253e-09,  7.4506e-09,  ...,  1.1176e-08,
+          1.8626e-08,  7.4506e-09],
+        [-5.5879e-08,  3.7253e-09, -1.4901e-08,  ..., -7.4506e-09,
+          0.0000e+00, -7.8231e-08],
+        [ 7.4506e-09, -5.2154e-08, -7.0781e-08,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09]], device='cuda:0')
+Epoch 412, bias, value: tensor([-0.0153, -0.0222, -0.0108, -0.0195,  0.0040, -0.0005,  0.0085,  0.0230,
+         0.0132, -0.0109], device='cuda:0'), grad: tensor([ 0.0000e+00,  1.8626e-08, -1.6764e-07,  1.6391e-07,  1.4156e-07,
+         7.4506e-09,  3.3528e-08,  7.8231e-08, -1.4156e-07, -1.4156e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 411, time 214.91, cls_loss 0.0006 cls_loss_mapping 0.0005 cls_loss_causal 0.4431 re_mapping 0.0031 re_causal 0.0107 /// teacc 99.10 lr 0.00001000
+Epoch 413, weight, value: tensor([[-3.2070e-01,  8.6737e-02, -2.1249e-01,  ..., -1.1360e-01,
+         -2.9129e-01, -1.7624e-01],
+        [-8.3373e-03,  1.0560e-01, -1.2920e-01,  ..., -1.4191e-01,
+         -8.4386e-02,  1.3172e-01],
+        [ 5.0347e-02, -1.5717e-01, -1.9150e-01,  ..., -3.4639e-04,
+         -6.2902e-02, -1.2278e-01],
+        ...,
+        [ 1.1565e-01, -1.0811e-01,  1.4787e-01,  ...,  7.6968e-02,
+          2.2605e-01, -2.4544e-02],
+        [ 1.4393e-01, -2.6503e-01, -1.8211e-01,  ..., -3.7280e-01,
+         -1.2238e-01,  2.3655e-01],
+        [-2.1727e-01,  9.4138e-02,  7.5413e-02,  ..., -3.6051e-01,
+         -1.6931e-01, -1.0887e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3097e-07, -3.7253e-09,  1.6019e-07,  ...,  1.6391e-07,
+          1.2293e-07, -1.8626e-08],
+        [ 2.6077e-08,  0.0000e+00,  1.8626e-08,  ...,  1.8626e-08,
+          1.4901e-08,  0.0000e+00],
+        ...,
+        [-2.7195e-07,  7.4506e-09, -1.6019e-07,  ..., -1.7509e-07,
+         -1.4156e-07,  3.7253e-09],
+        [-3.7253e-09,  0.0000e+00, -0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -3.7253e-09],
+        [ 3.7253e-09,  3.7253e-09,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09]], device='cuda:0')
+Epoch 413, bias, value: tensor([-0.0152, -0.0222, -0.0108, -0.0195,  0.0040, -0.0005,  0.0085,  0.0230,
+         0.0132, -0.0110], device='cuda:0'), grad: tensor([ 0.0000e+00,  4.7684e-07,  6.3330e-08, -2.6077e-08,  7.4506e-09,
+         3.7253e-09,  3.7253e-09, -5.3272e-07, -1.1176e-08,  1.1176e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 412, time 214.69, cls_loss 0.0006 cls_loss_mapping 0.0005 cls_loss_causal 0.4021 re_mapping 0.0031 re_causal 0.0103 /// teacc 99.13 lr 0.00001000
+Epoch 414, weight, value: tensor([[-3.2073e-01,  8.6743e-02, -2.1251e-01,  ..., -1.1362e-01,
+         -2.9130e-01, -1.7624e-01],
+        [-8.3455e-03,  1.0561e-01, -1.2921e-01,  ..., -1.4199e-01,
+         -8.4398e-02,  1.3173e-01],
+        [ 5.0349e-02, -1.5719e-01, -1.9153e-01,  ..., -3.4137e-04,
+         -6.2902e-02, -1.2279e-01],
+        ...,
+        [ 1.1566e-01, -1.0815e-01,  1.4789e-01,  ...,  7.6978e-02,
+          2.2607e-01, -2.4550e-02],
+        [ 1.4393e-01, -2.6509e-01, -1.8214e-01,  ..., -3.7284e-01,
+         -1.2242e-01,  2.3655e-01],
+        [-2.1729e-01,  9.4130e-02,  7.5421e-02,  ..., -3.6057e-01,
+         -1.6932e-01, -1.0890e-01]], device='cuda:0'), grad: tensor([[ 3.7253e-09,  2.2352e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.4901e-08],
+        [ 3.7253e-09, -0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          3.7253e-09, -7.4506e-09],
+        [ 3.7253e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [-2.6077e-08,  7.4506e-09, -1.8626e-08,  ..., -0.0000e+00,
+         -1.4901e-08,  7.4506e-09],
+        [ 0.0000e+00,  2.9802e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.4901e-08],
+        [ 1.4901e-08,  3.7253e-09,  1.1176e-08,  ...,  0.0000e+00,
+          7.4506e-09,  3.7253e-09]], device='cuda:0')
+Epoch 414, bias, value: tensor([-0.0152, -0.0222, -0.0108, -0.0195,  0.0040, -0.0005,  0.0085,  0.0230,
+         0.0132, -0.0110], device='cuda:0'), grad: tensor([ 1.6019e-07,  3.7253e-09,  3.7253e-09,  1.2293e-07, -2.9802e-08,
+        -1.0356e-06,  5.2154e-07, -1.4901e-08,  2.0862e-07,  5.2154e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 413, time 214.86, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4399 re_mapping 0.0031 re_causal 0.0105 /// teacc 99.12 lr 0.00001000
+Epoch 415, weight, value: tensor([[-3.2074e-01,  8.6748e-02, -2.1252e-01,  ..., -1.1363e-01,
+         -2.9131e-01, -1.7625e-01],
+        [-8.3957e-03,  1.0568e-01, -1.2928e-01,  ..., -1.4206e-01,
+         -8.4466e-02,  1.3174e-01],
+        [ 5.0347e-02, -1.5720e-01, -1.9156e-01,  ..., -3.3974e-04,
+         -6.2907e-02, -1.2279e-01],
+        ...,
+        [ 1.1571e-01, -1.0830e-01,  1.4797e-01,  ...,  7.6988e-02,
+          2.2614e-01, -2.4552e-02],
+        [ 1.4393e-01, -2.6514e-01, -1.8220e-01,  ..., -3.7290e-01,
+         -1.2250e-01,  2.3656e-01],
+        [-2.1735e-01,  9.4113e-02,  7.5407e-02,  ..., -3.6063e-01,
+         -1.6934e-01, -1.0898e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 3.7253e-09, -0.0000e+00,  7.4506e-09,  ...,  0.0000e+00,
+          7.4506e-09, -0.0000e+00],
+        [-7.4506e-09,  0.0000e+00,  0.0000e+00,  ..., -3.7253e-09,
+         -7.4506e-09,  0.0000e+00],
+        ...,
+        [-0.0000e+00,  0.0000e+00, -1.1176e-08,  ...,  3.7253e-09,
+         -7.4506e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 415, bias, value: tensor([-0.0152, -0.0222, -0.0108, -0.0195,  0.0040, -0.0005,  0.0085,  0.0231,
+         0.0131, -0.0110], device='cuda:0'), grad: tensor([ 3.7253e-09,  7.4506e-09, -1.4901e-08,  1.4901e-08,  0.0000e+00,
+        -1.8626e-08,  0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 414, time 214.95, cls_loss 0.0006 cls_loss_mapping 0.0005 cls_loss_causal 0.4755 re_mapping 0.0032 re_causal 0.0109 /// teacc 99.11 lr 0.00001000
+Epoch 416, weight, value: tensor([[-3.2076e-01,  8.6729e-02, -2.1252e-01,  ..., -1.1364e-01,
+         -2.9132e-01, -1.7625e-01],
+        [-8.4033e-03,  1.0569e-01, -1.2929e-01,  ..., -1.4215e-01,
+         -8.4476e-02,  1.3175e-01],
+        [ 5.0345e-02, -1.5724e-01, -1.9161e-01,  ..., -3.3854e-04,
+         -6.2914e-02, -1.2281e-01],
+        ...,
+        [ 1.1572e-01, -1.0833e-01,  1.4799e-01,  ...,  7.7000e-02,
+          2.2616e-01, -2.4555e-02],
+        [ 1.4396e-01, -2.6520e-01, -1.8226e-01,  ..., -3.7293e-01,
+         -1.2253e-01,  2.3659e-01],
+        [-2.1739e-01,  9.4172e-02,  7.5405e-02,  ..., -3.6069e-01,
+         -1.6936e-01, -1.0899e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -4.0978e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [-3.7253e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -3.7253e-09],
+        [ 0.0000e+00,  7.4506e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  5.9605e-08]], device='cuda:0')
+Epoch 416, bias, value: tensor([-0.0153, -0.0222, -0.0108, -0.0195,  0.0040, -0.0005,  0.0085,  0.0231,
+         0.0131, -0.0110], device='cuda:0'), grad: tensor([-8.9407e-08,  0.0000e+00,  3.7253e-09, -4.4703e-08, -2.5705e-07,
+        -4.4703e-08,  7.0781e-08,  3.7253e-09, -3.7253e-09,  3.5763e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 415, time 215.00, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4405 re_mapping 0.0032 re_causal 0.0105 /// teacc 99.12 lr 0.00001000
+Epoch 417, weight, value: tensor([[-3.2078e-01,  8.6707e-02, -2.1255e-01,  ..., -1.1364e-01,
+         -2.9132e-01, -1.7626e-01],
+        [-8.4017e-03,  1.0569e-01, -1.2928e-01,  ..., -1.4220e-01,
+         -8.4477e-02,  1.3177e-01],
+        [ 5.0339e-02, -1.5737e-01, -1.9167e-01,  ..., -3.4518e-04,
+         -6.2923e-02, -1.2282e-01],
+        ...,
+        [ 1.1572e-01, -1.0845e-01,  1.4799e-01,  ...,  7.7016e-02,
+          2.2617e-01, -2.4567e-02],
+        [ 1.4400e-01, -2.6525e-01, -1.8230e-01,  ..., -3.7297e-01,
+         -1.2257e-01,  2.3664e-01],
+        [-2.1740e-01,  9.4253e-02,  7.5414e-02,  ..., -3.6076e-01,
+         -1.6937e-01, -1.0902e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [ 3.5018e-07, -5.9605e-08,  1.8254e-07,  ...,  7.4506e-09,
+          2.9430e-07,  4.4703e-08],
+        [ 1.8626e-08,  0.0000e+00,  1.1176e-08,  ...,  0.0000e+00,
+          1.4901e-08,  7.4506e-09],
+        ...,
+        [-4.1723e-07,  4.8429e-08, -2.1607e-07,  ..., -7.4506e-09,
+         -3.4645e-07, -9.6858e-08],
+        [ 2.6077e-08,  3.7253e-09,  1.1176e-08,  ...,  0.0000e+00,
+          1.8626e-08,  1.4901e-08],
+        [ 1.8626e-08,  1.8626e-08,  7.4506e-09,  ...,  0.0000e+00,
+          1.1176e-08,  2.2352e-08]], device='cuda:0')
+Epoch 417, bias, value: tensor([-0.0153, -0.0222, -0.0108, -0.0195,  0.0040, -0.0005,  0.0085,  0.0231,
+         0.0131, -0.0109], device='cuda:0'), grad: tensor([ 3.7253e-09,  3.7253e-07,  3.7253e-08,  0.0000e+00,  0.0000e+00,
+        -5.9605e-08,  5.5879e-08, -5.5879e-07,  5.5879e-08,  9.3132e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 416, time 214.81, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4385 re_mapping 0.0031 re_causal 0.0106 /// teacc 99.11 lr 0.00001000
+Epoch 418, weight, value: tensor([[-3.2078e-01,  8.6695e-02, -2.1264e-01,  ..., -1.1365e-01,
+         -2.9133e-01, -1.7627e-01],
+        [-8.3893e-03,  1.0577e-01, -1.2927e-01,  ..., -1.4224e-01,
+         -8.4467e-02,  1.3180e-01],
+        [ 5.0345e-02, -1.5741e-01, -1.9169e-01,  ..., -3.3714e-04,
+         -6.2917e-02, -1.2284e-01],
+        ...,
+        [ 1.1572e-01, -1.0875e-01,  1.4799e-01,  ...,  7.7015e-02,
+          2.2616e-01, -2.4597e-02],
+        [ 1.4403e-01, -2.6530e-01, -1.8235e-01,  ..., -3.7302e-01,
+         -1.2260e-01,  2.3669e-01],
+        [-2.1744e-01,  9.4288e-02,  7.5427e-02,  ..., -3.6081e-01,
+         -1.6938e-01, -1.0905e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  3.7253e-09,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 7.4506e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        ...,
+        [-3.7253e-09,  1.1176e-08,  7.4506e-09,  ..., -0.0000e+00,
+         -3.7253e-09,  0.0000e+00],
+        [-1.1176e-08,  3.7253e-09,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00, -7.4506e-09],
+        [ 0.0000e+00, -7.0781e-08, -7.0781e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 418, bias, value: tensor([-0.0153, -0.0222, -0.0108, -0.0196,  0.0040, -0.0005,  0.0086,  0.0231,
+         0.0131, -0.0109], device='cuda:0'), grad: tensor([ 0.0000e+00,  1.8626e-08,  3.3528e-08,  5.2154e-08,  1.0803e-07,
+         2.6077e-08,  7.4506e-09,  4.4703e-08, -2.6077e-08, -2.7567e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 417, time 214.85, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4392 re_mapping 0.0031 re_causal 0.0106 /// teacc 99.12 lr 0.00001000
+Epoch 419, weight, value: tensor([[-3.2080e-01,  8.6699e-02, -2.1265e-01,  ..., -1.1366e-01,
+         -2.9134e-01, -1.7627e-01],
+        [-8.4144e-03,  1.0578e-01, -1.2931e-01,  ..., -1.4227e-01,
+         -8.4508e-02,  1.3181e-01],
+        [ 5.0342e-02, -1.5747e-01, -1.9172e-01,  ..., -3.3734e-04,
+         -6.2921e-02, -1.2285e-01],
+        ...,
+        [ 1.1574e-01, -1.0889e-01,  1.4804e-01,  ...,  7.7026e-02,
+          2.2621e-01, -2.4595e-02],
+        [ 1.4406e-01, -2.6534e-01, -1.8239e-01,  ..., -3.7306e-01,
+         -1.2263e-01,  2.3671e-01],
+        [-2.1746e-01,  9.4303e-02,  7.5425e-02,  ..., -3.6087e-01,
+         -1.6940e-01, -1.0908e-01]], device='cuda:0'), grad: tensor([[ 3.7253e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [ 3.3155e-07,  1.0803e-07,  2.9802e-07,  ...,  1.5646e-07,
+          2.5705e-07,  5.5879e-08],
+        [ 2.2352e-08,  0.0000e+00,  3.7253e-08,  ..., -1.1176e-08,
+          2.2352e-08,  3.7253e-09],
+        ...,
+        [-4.0606e-07,  1.4901e-08, -3.7253e-07,  ..., -1.7509e-07,
+         -3.2410e-07,  1.1176e-08],
+        [ 0.0000e+00,  3.7253e-09,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-3.7253e-09, -2.0117e-07, -2.4214e-07,  ...,  3.7253e-09,
+          7.4506e-09,  1.1176e-08]], device='cuda:0')
+Epoch 419, bias, value: tensor([-0.0153, -0.0222, -0.0108, -0.0196,  0.0040, -0.0005,  0.0086,  0.0231,
+         0.0131, -0.0109], device='cuda:0'), grad: tensor([ 7.0781e-08,  1.0543e-06,  3.7253e-09,  6.3330e-08,  3.4273e-07,
+         6.3330e-08, -4.4703e-07, -7.2643e-07,  3.3528e-07, -7.7859e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 418, time 214.62, cls_loss 0.0005 cls_loss_mapping 0.0005 cls_loss_causal 0.4388 re_mapping 0.0031 re_causal 0.0104 /// teacc 99.12 lr 0.00001000
+Epoch 420, weight, value: tensor([[-3.2081e-01,  8.6719e-02, -2.1268e-01,  ..., -1.1366e-01,
+         -2.9135e-01, -1.7627e-01],
+        [-8.4120e-03,  1.0579e-01, -1.2931e-01,  ..., -1.4230e-01,
+         -8.4502e-02,  1.3183e-01],
+        [ 5.0348e-02, -1.5752e-01, -1.9173e-01,  ..., -3.2662e-04,
+         -6.2908e-02, -1.2280e-01],
+        ...,
+        [ 1.1575e-01, -1.0903e-01,  1.4804e-01,  ...,  7.7027e-02,
+          2.2621e-01, -2.4614e-02],
+        [ 1.4405e-01, -2.6540e-01, -1.8243e-01,  ..., -3.7313e-01,
+         -1.2272e-01,  2.3672e-01],
+        [-2.1751e-01,  9.4296e-02,  7.5434e-02,  ..., -3.6098e-01,
+         -1.6941e-01, -1.0915e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.4901e-08, -0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          7.4506e-09, -3.7253e-09],
+        [-1.4901e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -7.4506e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 420, bias, value: tensor([-0.0153, -0.0222, -0.0108, -0.0196,  0.0040, -0.0005,  0.0086,  0.0231,
+         0.0131, -0.0109], device='cuda:0'), grad: tensor([ 7.4506e-09,  7.8231e-08, -7.4506e-08,  1.8626e-08,  1.8626e-08,
+         4.8429e-08, -1.0803e-07,  3.7253e-09,  1.1176e-08,  0.0000e+00],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 419, time 214.63, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4420 re_mapping 0.0031 re_causal 0.0102 /// teacc 99.13 lr 0.00001000
+Epoch 421, weight, value: tensor([[-3.2082e-01,  8.6735e-02, -2.1268e-01,  ..., -1.1366e-01,
+         -2.9136e-01, -1.7627e-01],
+        [-8.4147e-03,  1.0578e-01, -1.2931e-01,  ..., -1.4234e-01,
+         -8.4505e-02,  1.3184e-01],
+        [ 5.0346e-02, -1.5757e-01, -1.9177e-01,  ..., -3.2358e-04,
+         -6.2912e-02, -1.2281e-01],
+        ...,
+        [ 1.1575e-01, -1.0911e-01,  1.4805e-01,  ...,  7.7031e-02,
+          2.2621e-01, -2.4626e-02],
+        [ 1.4407e-01, -2.6547e-01, -1.8246e-01,  ..., -3.7319e-01,
+         -1.2276e-01,  2.3675e-01],
+        [-2.1754e-01,  9.4306e-02,  7.5447e-02,  ..., -3.6101e-01,
+         -1.6942e-01, -1.0919e-01]], device='cuda:0'), grad: tensor([[ 5.5879e-09, -1.8626e-09,  0.0000e+00,  ...,  5.5879e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  2.0489e-08,  1.8626e-09,  ...,  0.0000e+00,
+          1.8626e-09,  4.0978e-08],
+        [ 5.0291e-08,  0.0000e+00,  0.0000e+00,  ..., -1.8626e-09,
+         -1.8626e-09,  5.7742e-08],
+        ...,
+        [ 3.7253e-09,  9.3132e-09,  1.8626e-09,  ...,  1.8626e-09,
+          0.0000e+00,  2.0489e-08],
+        [-6.7055e-08,  0.0000e+00,  0.0000e+00,  ..., -9.3132e-09,
+          0.0000e+00, -6.7055e-08],
+        [-0.0000e+00,  1.6764e-08, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-08]], device='cuda:0')
+Epoch 421, bias, value: tensor([-0.0153, -0.0222, -0.0108, -0.0196,  0.0040, -0.0005,  0.0086,  0.0231,
+         0.0130, -0.0109], device='cuda:0'), grad: tensor([ 3.7253e-08,  7.8231e-08,  7.6368e-08,  1.6764e-08, -1.7509e-07,
+         1.8626e-09,  5.5879e-09,  4.4703e-08, -1.5460e-07,  6.3330e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 420, time 214.44, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4524 re_mapping 0.0030 re_causal 0.0105 /// teacc 99.12 lr 0.00001000
+Epoch 422, weight, value: tensor([[-3.2083e-01,  8.6741e-02, -2.1268e-01,  ..., -1.1365e-01,
+         -2.9136e-01, -1.7628e-01],
+        [-8.4174e-03,  1.0579e-01, -1.2932e-01,  ..., -1.4241e-01,
+         -8.4512e-02,  1.3186e-01],
+        [ 5.0342e-02, -1.5760e-01, -1.9181e-01,  ..., -3.2418e-04,
+         -6.2921e-02, -1.2283e-01],
+        ...,
+        [ 1.1576e-01, -1.0917e-01,  1.4807e-01,  ...,  7.7040e-02,
+          2.2623e-01, -2.4634e-02],
+        [ 1.4403e-01, -2.6553e-01, -1.8251e-01,  ..., -3.7322e-01,
+         -1.2282e-01,  2.3673e-01],
+        [-2.1758e-01,  9.4310e-02,  7.5461e-02,  ..., -3.6107e-01,
+         -1.6944e-01, -1.0925e-01]], device='cuda:0'), grad: tensor([[ 5.5879e-09, -3.7253e-09,  1.8626e-09,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 2.6077e-08,  7.4506e-09,  3.5390e-08,  ...,  1.8626e-08,
+          2.4214e-08, -1.8626e-09],
+        [ 9.3132e-09,  0.0000e+00,  5.5879e-09,  ...,  1.8626e-09,
+          5.5879e-09,  1.8626e-09],
+        ...,
+        [-8.9407e-08, -1.8626e-08, -1.0245e-07,  ..., -4.8429e-08,
+         -8.1956e-08,  3.7253e-09],
+        [-3.7253e-09,  0.0000e+00, -0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -3.7253e-09],
+        [ 2.2352e-08, -3.5390e-08, -3.1665e-08,  ...,  9.3132e-09,
+          1.6764e-08,  5.5879e-09]], device='cuda:0')
+Epoch 422, bias, value: tensor([-0.0153, -0.0222, -0.0108, -0.0196,  0.0040, -0.0005,  0.0086,  0.0231,
+         0.0130, -0.0109], device='cuda:0'), grad: tensor([ 3.7253e-09,  6.7055e-08,  2.2352e-08,  6.8918e-08,  9.1270e-08,
+         1.8626e-08,  1.8626e-09, -2.2165e-07, -7.4506e-09, -5.7742e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 421, time 214.76, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4378 re_mapping 0.0030 re_causal 0.0103 /// teacc 99.12 lr 0.00001000
+Epoch 423, weight, value: tensor([[-3.2085e-01,  8.6736e-02, -2.1270e-01,  ..., -1.1366e-01,
+         -2.9137e-01, -1.7628e-01],
+        [-8.4228e-03,  1.0579e-01, -1.2934e-01,  ..., -1.4247e-01,
+         -8.4525e-02,  1.3187e-01],
+        [ 5.0342e-02, -1.5765e-01, -1.9183e-01,  ..., -3.1882e-04,
+         -6.2918e-02, -1.2286e-01],
+        ...,
+        [ 1.1577e-01, -1.0917e-01,  1.4809e-01,  ...,  7.7043e-02,
+          2.2624e-01, -2.4641e-02],
+        [ 1.4403e-01, -2.6558e-01, -1.8258e-01,  ..., -3.7329e-01,
+         -1.2287e-01,  2.3675e-01],
+        [-2.1760e-01,  9.4353e-02,  7.5482e-02,  ..., -3.6111e-01,
+         -1.6944e-01, -1.0928e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 2.9802e-07,  7.4506e-09,  1.2480e-07,  ...,  5.5879e-09,
+          1.7136e-07,  1.1362e-07],
+        [-2.6822e-07,  1.8626e-09,  1.1176e-08,  ..., -4.0978e-08,
+         -2.1793e-07,  1.8626e-09],
+        ...,
+        [-1.2480e-07,  2.4214e-08, -1.2666e-07,  ...,  3.1665e-08,
+         -1.3039e-08, -1.4342e-07],
+        [ 3.3528e-08,  1.8626e-09,  1.6764e-08,  ...,  0.0000e+00,
+          2.2352e-08,  9.3132e-09],
+        [ 4.0978e-08, -1.8626e-07, -2.7195e-07,  ...,  9.3132e-09,
+          2.4214e-08,  1.4901e-08]], device='cuda:0')
+Epoch 423, bias, value: tensor([-0.0153, -0.0222, -0.0108, -0.0196,  0.0040, -0.0005,  0.0086,  0.0231,
+         0.0129, -0.0109], device='cuda:0'), grad: tensor([ 1.3039e-08,  5.7556e-07, -3.1665e-07, -2.2352e-08,  5.8673e-07,
+         2.0489e-08, -3.9116e-08, -2.9244e-07,  7.4506e-08, -6.1654e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 422, time 214.75, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4124 re_mapping 0.0030 re_causal 0.0099 /// teacc 99.13 lr 0.00001000
+Epoch 424, weight, value: tensor([[-3.2086e-01,  8.6750e-02, -2.1271e-01,  ..., -1.1367e-01,
+         -2.9138e-01, -1.7628e-01],
+        [-8.4125e-03,  1.0585e-01, -1.2933e-01,  ..., -1.4250e-01,
+         -8.4512e-02,  1.3194e-01],
+        [ 5.0329e-02, -1.5769e-01, -1.9193e-01,  ..., -3.2987e-04,
+         -6.2943e-02, -1.2287e-01],
+        ...,
+        [ 1.1578e-01, -1.0944e-01,  1.4811e-01,  ...,  7.7074e-02,
+          2.2626e-01, -2.4696e-02],
+        [ 1.4403e-01, -2.6565e-01, -1.8265e-01,  ..., -3.7332e-01,
+         -1.2292e-01,  2.3676e-01],
+        [-2.1764e-01,  9.4354e-02,  7.5492e-02,  ..., -3.6119e-01,
+         -1.6947e-01, -1.0934e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  1.8626e-09,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 4.0978e-08,  7.4506e-09,  4.0978e-08,  ...,  1.3039e-08,
+          5.0291e-08,  2.9802e-08],
+        [ 3.7253e-08,  1.8626e-09,  3.9116e-08,  ...,  1.8626e-08,
+          5.0291e-08,  7.4506e-09],
+        ...,
+        [-2.1607e-07,  3.7253e-09, -2.3097e-07,  ..., -1.1176e-07,
+         -2.9616e-07, -3.1665e-08],
+        [ 9.3132e-09,  3.7253e-09,  9.3132e-09,  ...,  1.8626e-09,
+          1.1176e-08,  5.5879e-09],
+        [ 9.3132e-09,  1.8626e-08,  1.1176e-08,  ...,  3.7253e-09,
+          1.1176e-08,  4.2841e-08]], device='cuda:0')
+Epoch 424, bias, value: tensor([-0.0153, -0.0222, -0.0108, -0.0196,  0.0039, -0.0005,  0.0086,  0.0231,
+         0.0129, -0.0109], device='cuda:0'), grad: tensor([ 5.5879e-09,  1.3039e-07,  9.1270e-08,  3.9861e-07, -1.7136e-07,
+        -2.7753e-07,  1.3784e-07, -4.8243e-07,  3.1665e-08,  1.3784e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 423, time 214.86, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4554 re_mapping 0.0029 re_causal 0.0106 /// teacc 99.12 lr 0.00001000
+Epoch 425, weight, value: tensor([[-3.2087e-01,  8.6757e-02, -2.1272e-01,  ..., -1.1368e-01,
+         -2.9139e-01, -1.7628e-01],
+        [-8.4127e-03,  1.0587e-01, -1.2933e-01,  ..., -1.4256e-01,
+         -8.4511e-02,  1.3197e-01],
+        [ 5.0326e-02, -1.5772e-01, -1.9197e-01,  ..., -3.3272e-04,
+         -6.2950e-02, -1.2287e-01],
+        ...,
+        [ 1.1579e-01, -1.0953e-01,  1.4812e-01,  ...,  7.7099e-02,
+          2.2627e-01, -2.4719e-02],
+        [ 1.4404e-01, -2.6575e-01, -1.8273e-01,  ..., -3.7338e-01,
+         -1.2297e-01,  2.3678e-01],
+        [-2.1766e-01,  9.4357e-02,  7.5512e-02,  ..., -3.6126e-01,
+         -1.6947e-01, -1.0938e-01]], device='cuda:0'), grad: tensor([[ 1.8626e-09, -5.5879e-09,  0.0000e+00,  ...,  1.8626e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 3.7253e-09,  1.8626e-09,  1.8626e-09,  ...,  3.7253e-09,
+          3.7253e-09,  1.8626e-09],
+        [ 1.4901e-08,  1.8626e-09,  2.0489e-08,  ..., -5.5879e-09,
+          6.3330e-08,  0.0000e+00],
+        ...,
+        [-4.6566e-08,  1.8626e-09, -2.0489e-08,  ..., -1.1176e-08,
+         -8.3819e-08,  0.0000e+00],
+        [ 1.1176e-08,  0.0000e+00,  1.8626e-09,  ...,  7.4506e-09,
+          1.8626e-09,  1.8626e-09],
+        [ 1.8626e-09,  5.5879e-09, -3.1665e-08,  ...,  0.0000e+00,
+          1.8626e-09,  1.8626e-08]], device='cuda:0')
+Epoch 425, bias, value: tensor([-0.0153, -0.0222, -0.0108, -0.0197,  0.0039, -0.0005,  0.0086,  0.0231,
+         0.0128, -0.0109], device='cuda:0'), grad: tensor([-9.3132e-09,  1.8626e-08, -2.4214e-08,  2.4214e-08, -1.4529e-07,
+        -3.7253e-09,  1.1176e-08, -4.0978e-08,  3.5390e-08,  1.2852e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 424, time 214.87, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.3997 re_mapping 0.0030 re_causal 0.0098 /// teacc 99.12 lr 0.00001000
+Epoch 426, weight, value: tensor([[-3.2089e-01,  8.6754e-02, -2.1279e-01,  ..., -1.1369e-01,
+         -2.9140e-01, -1.7630e-01],
+        [-8.4204e-03,  1.0584e-01, -1.2934e-01,  ..., -1.4266e-01,
+         -8.4519e-02,  1.3198e-01],
+        [ 5.0313e-02, -1.5785e-01, -1.9208e-01,  ..., -3.4245e-04,
+         -6.2970e-02, -1.2291e-01],
+        ...,
+        [ 1.1581e-01, -1.0957e-01,  1.4815e-01,  ...,  7.7127e-02,
+          2.2630e-01, -2.4730e-02],
+        [ 1.4406e-01, -2.6583e-01, -1.8277e-01,  ..., -3.7344e-01,
+         -1.2301e-01,  2.3683e-01],
+        [-2.1774e-01,  9.4384e-02,  7.5529e-02,  ..., -3.6132e-01,
+         -1.6948e-01, -1.0952e-01]], device='cuda:0'), grad: tensor([[ 1.8626e-08,  1.8626e-09,  1.8626e-09,  ...,  3.7253e-09,
+          1.8626e-09,  2.4214e-08],
+        [ 1.8626e-08,  0.0000e+00,  7.4506e-09,  ...,  7.4506e-09,
+          1.3039e-08, -3.7253e-09],
+        [ 5.9605e-08,  1.8626e-09,  5.5879e-09,  ..., -1.4901e-08,
+         -1.1176e-08,  1.1362e-07],
+        ...,
+        [-5.5879e-09,  3.7253e-09, -9.3132e-09,  ...,  1.3039e-08,
+         -7.4506e-09,  3.7253e-09],
+        [-1.1921e-07,  2.2352e-08, -1.8626e-09,  ..., -1.8626e-09,
+          0.0000e+00, -1.7695e-07],
+        [ 1.8626e-09,  2.7940e-08,  5.5879e-09,  ...,  1.3039e-08,
+          1.8626e-09,  1.8626e-09]], device='cuda:0')
+Epoch 426, bias, value: tensor([-0.0153, -0.0222, -0.0108, -0.0197,  0.0040, -0.0004,  0.0086,  0.0231,
+         0.0128, -0.0109], device='cuda:0'), grad: tensor([ 7.2643e-08,  4.8429e-08,  2.1048e-07,  4.2394e-06,  1.8626e-09,
+        -4.6566e-06,  1.5460e-07,  2.9802e-08, -2.8312e-07,  1.8254e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 425, time 214.51, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4471 re_mapping 0.0030 re_causal 0.0103 /// teacc 99.14 lr 0.00001000
+Epoch 427, weight, value: tensor([[-3.2092e-01,  8.6757e-02, -2.1297e-01,  ..., -1.1370e-01,
+         -2.9141e-01, -1.7631e-01],
+        [-8.4149e-03,  1.0589e-01, -1.2934e-01,  ..., -1.4270e-01,
+         -8.4519e-02,  1.3202e-01],
+        [ 5.0312e-02, -1.5791e-01, -1.9211e-01,  ..., -3.3915e-04,
+         -6.2971e-02, -1.2293e-01],
+        ...,
+        [ 1.1581e-01, -1.0969e-01,  1.4816e-01,  ...,  7.7133e-02,
+          2.2630e-01, -2.4753e-02],
+        [ 1.4402e-01, -2.6593e-01, -1.8283e-01,  ..., -3.7348e-01,
+         -1.2309e-01,  2.3680e-01],
+        [-2.1778e-01,  9.4414e-02,  7.5567e-02,  ..., -3.6141e-01,
+         -1.6950e-01, -1.0956e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  3.5390e-08,  9.3132e-09,  ...,  0.0000e+00,
+          1.8626e-09, -1.1176e-08],
+        [ 2.4214e-08,  1.8626e-08,  2.2352e-08,  ...,  7.4506e-09,
+          1.4901e-08, -3.7253e-09],
+        [-0.0000e+00,  1.8626e-09,  1.8626e-09,  ..., -1.8626e-09,
+         -1.8626e-09,  0.0000e+00],
+        ...,
+        [-3.1665e-08,  9.3132e-09, -2.7940e-08,  ..., -7.4506e-09,
+         -1.8626e-08,  9.3132e-09],
+        [ 0.0000e+00,  7.4506e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  1.6764e-08, -1.3039e-08,  ...,  0.0000e+00,
+         -0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 427, bias, value: tensor([-0.0153, -0.0222, -0.0108, -0.0198,  0.0040, -0.0004,  0.0086,  0.0231,
+         0.0127, -0.0109], device='cuda:0'), grad: tensor([ 4.1723e-07,  9.1270e-08, -1.8626e-09,  5.5879e-09,  3.5949e-07,
+         1.5087e-07, -1.2573e-06, -1.8626e-08,  5.4017e-08,  1.8626e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 426, time 214.30, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4207 re_mapping 0.0030 re_causal 0.0101 /// teacc 99.15 lr 0.00001000
+Epoch 428, weight, value: tensor([[-3.2095e-01,  8.6758e-02, -2.1298e-01,  ..., -1.1372e-01,
+         -2.9142e-01, -1.7631e-01],
+        [-8.4134e-03,  1.0588e-01, -1.2935e-01,  ..., -1.4274e-01,
+         -8.4519e-02,  1.3204e-01],
+        [ 5.0317e-02, -1.5798e-01, -1.9214e-01,  ..., -3.3103e-04,
+         -6.2964e-02, -1.2293e-01],
+        ...,
+        [ 1.1581e-01, -1.0978e-01,  1.4817e-01,  ...,  7.7135e-02,
+          2.2630e-01, -2.4768e-02],
+        [ 1.4400e-01, -2.6600e-01, -1.8288e-01,  ..., -3.7354e-01,
+         -1.2316e-01,  2.3680e-01],
+        [-2.1780e-01,  9.4457e-02,  7.5581e-02,  ..., -3.6148e-01,
+         -1.6951e-01, -1.0960e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09, -3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -0.0000e+00, -3.7253e-09],
+        [ 3.7253e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [-5.0291e-08,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [-3.7253e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -3.7253e-09],
+        [ 0.0000e+00, -9.3132e-09, -9.3132e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 428, bias, value: tensor([-0.0153, -0.0222, -0.0108, -0.0198,  0.0040, -0.0004,  0.0086,  0.0231,
+         0.0127, -0.0109], device='cuda:0'), grad: tensor([ 5.5879e-09, -5.5879e-09,  1.6764e-08,  7.4506e-09,  1.7136e-07,
+         1.1176e-08,  1.8626e-09, -1.7695e-07, -7.4506e-09, -2.6077e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 427, time 214.58, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4539 re_mapping 0.0030 re_causal 0.0103 /// teacc 99.15 lr 0.00001000
+Epoch 429, weight, value: tensor([[-3.2096e-01,  8.6777e-02, -2.1298e-01,  ..., -1.1373e-01,
+         -2.9143e-01, -1.7632e-01],
+        [-8.4292e-03,  1.0591e-01, -1.2938e-01,  ..., -1.4277e-01,
+         -8.4549e-02,  1.3207e-01],
+        [ 5.0317e-02, -1.5802e-01, -1.9218e-01,  ..., -3.2489e-04,
+         -6.2966e-02, -1.2295e-01],
+        ...,
+        [ 1.1583e-01, -1.0990e-01,  1.4820e-01,  ...,  7.7134e-02,
+          2.2634e-01, -2.4780e-02],
+        [ 1.4393e-01, -2.6611e-01, -1.8295e-01,  ..., -3.7361e-01,
+         -1.2322e-01,  2.3674e-01],
+        [-2.1785e-01,  9.4441e-02,  7.5592e-02,  ..., -3.6155e-01,
+         -1.6952e-01, -1.0968e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  1.8626e-09,  1.8626e-09,  ...,  1.8626e-09,
+          1.8626e-09,  0.0000e+00],
+        [-1.8626e-09,  0.0000e+00,  5.5879e-09,  ..., -1.8626e-09,
+          3.7253e-09,  0.0000e+00],
+        ...,
+        [-5.5879e-09,  1.8626e-09, -9.3132e-09,  ..., -1.8626e-09,
+         -7.4506e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.6764e-08,  0.0000e+00,  ...,  3.7253e-09,
+          0.0000e+00, -1.8626e-09],
+        [ 0.0000e+00,  7.4506e-09, -9.3132e-09,  ...,  7.4506e-09,
+          3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 429, bias, value: tensor([-0.0153, -0.0222, -0.0108, -0.0198,  0.0041, -0.0004,  0.0086,  0.0231,
+         0.0125, -0.0109], device='cuda:0'), grad: tensor([ 9.3132e-09,  1.8626e-08, -1.8626e-09,  1.9018e-06,  3.3528e-08,
+        -2.2631e-06,  1.2107e-07, -3.7253e-09,  8.3819e-08,  1.0990e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 428, time 214.80, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4492 re_mapping 0.0028 re_causal 0.0101 /// teacc 99.11 lr 0.00001000
+Epoch 430, weight, value: tensor([[-3.2098e-01,  8.6787e-02, -2.1299e-01,  ..., -1.1374e-01,
+         -2.9144e-01, -1.7632e-01],
+        [-8.4141e-03,  1.0597e-01, -1.2937e-01,  ..., -1.4278e-01,
+         -8.4529e-02,  1.3213e-01],
+        [ 5.0311e-02, -1.5804e-01, -1.9224e-01,  ..., -3.2547e-04,
+         -6.2976e-02, -1.2296e-01],
+        ...,
+        [ 1.1583e-01, -1.1010e-01,  1.4822e-01,  ...,  7.7158e-02,
+          2.2634e-01, -2.4825e-02],
+        [ 1.4396e-01, -2.6618e-01, -1.8299e-01,  ..., -3.7369e-01,
+         -1.2326e-01,  2.3678e-01],
+        [-2.1787e-01,  9.4426e-02,  7.5609e-02,  ..., -3.6162e-01,
+         -1.6953e-01, -1.0974e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 8.5682e-08, -5.5879e-09,  5.0291e-08,  ...,  2.4214e-08,
+          6.5193e-08,  1.8626e-09],
+        [ 5.5879e-09,  0.0000e+00,  3.7253e-09,  ...,  1.8626e-09,
+          3.7253e-09,  1.8626e-09],
+        ...,
+        [-1.0245e-07,  1.8626e-09, -6.5193e-08,  ..., -2.7940e-08,
+         -8.3819e-08, -9.3132e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 7.4506e-09,  0.0000e+00,  7.4506e-09,  ...,  1.8626e-09,
+          1.1176e-08,  1.8626e-09]], device='cuda:0')
+Epoch 430, bias, value: tensor([-0.0153, -0.0221, -0.0108, -0.0198,  0.0041, -0.0005,  0.0086,  0.0231,
+         0.0125, -0.0110], device='cuda:0'), grad: tensor([ 5.0291e-08,  1.6391e-07,  1.4901e-08,  0.0000e+00,  3.7253e-09,
+         1.1176e-08, -9.1270e-08, -2.2165e-07,  2.9802e-08,  2.9802e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 429, time 214.88, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4358 re_mapping 0.0029 re_causal 0.0102 /// teacc 99.11 lr 0.00001000
+Epoch 431, weight, value: tensor([[-3.2102e-01,  8.6801e-02, -2.1305e-01,  ..., -1.1376e-01,
+         -2.9146e-01, -1.7633e-01],
+        [-8.4268e-03,  1.0599e-01, -1.2938e-01,  ..., -1.4287e-01,
+         -8.4548e-02,  1.3215e-01],
+        [ 5.0307e-02, -1.5812e-01, -1.9231e-01,  ..., -3.2491e-04,
+         -6.2986e-02, -1.2298e-01],
+        ...,
+        [ 1.1585e-01, -1.1020e-01,  1.4825e-01,  ...,  7.7182e-02,
+          2.2637e-01, -2.4840e-02],
+        [ 1.4399e-01, -2.6625e-01, -1.8305e-01,  ..., -3.7375e-01,
+         -1.2330e-01,  2.3681e-01],
+        [-2.1793e-01,  9.4417e-02,  7.5613e-02,  ..., -3.6177e-01,
+         -1.6955e-01, -1.0983e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 431, bias, value: tensor([-0.0152, -0.0222, -0.0108, -0.0198,  0.0041, -0.0005,  0.0086,  0.0231,
+         0.0125, -0.0110], device='cuda:0'), grad: tensor([-3.7253e-09,  0.0000e+00,  0.0000e+00,  1.8626e-09, -3.7253e-09,
+        -3.1665e-08,  1.4901e-08,  1.8626e-09,  1.8626e-09,  1.4901e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 430, time 214.80, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4436 re_mapping 0.0029 re_causal 0.0104 /// teacc 99.11 lr 0.00001000
+Epoch 432, weight, value: tensor([[-3.2105e-01,  8.6822e-02, -2.1306e-01,  ..., -1.1379e-01,
+         -2.9147e-01, -1.7633e-01],
+        [-8.4455e-03,  1.0598e-01, -1.2941e-01,  ..., -1.4278e-01,
+         -8.4576e-02,  1.3216e-01],
+        [ 5.0307e-02, -1.5822e-01, -1.9236e-01,  ..., -3.1784e-04,
+         -6.2990e-02, -1.2300e-01],
+        ...,
+        [ 1.1588e-01, -1.1026e-01,  1.4829e-01,  ...,  7.7173e-02,
+          2.2641e-01, -2.4840e-02],
+        [ 1.4401e-01, -2.6632e-01, -1.8314e-01,  ..., -3.7384e-01,
+         -1.2338e-01,  2.3689e-01],
+        [-2.1799e-01,  9.4395e-02,  7.5620e-02,  ..., -3.6187e-01,
+         -1.6957e-01, -1.0995e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -4.0978e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -3.9116e-08],
+        [ 1.8626e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [-1.8626e-09,  2.2352e-08, -1.8626e-09,  ..., -0.0000e+00,
+         -1.8626e-09,  1.4901e-08],
+        [ 0.0000e+00,  3.7253e-09,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  2.2352e-08, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.4214e-08]], device='cuda:0')
+Epoch 432, bias, value: tensor([-0.0152, -0.0222, -0.0108, -0.0199,  0.0042, -0.0005,  0.0086,  0.0231,
+         0.0125, -0.0111], device='cuda:0'), grad: tensor([-9.3132e-09, -1.6764e-07,  9.3132e-09,  6.1467e-08, -2.6077e-08,
+        -9.4995e-08,  2.6077e-08,  8.3819e-08,  1.3039e-08,  8.7544e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 431, time 214.49, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4271 re_mapping 0.0029 re_causal 0.0099 /// teacc 99.13 lr 0.00001000
+Epoch 433, weight, value: tensor([[-3.2105e-01,  8.6849e-02, -2.1308e-01,  ..., -1.1381e-01,
+         -2.9148e-01, -1.7633e-01],
+        [-8.4702e-03,  1.0600e-01, -1.2946e-01,  ..., -1.4287e-01,
+         -8.4614e-02,  1.3216e-01],
+        [ 5.0311e-02, -1.5827e-01, -1.9249e-01,  ..., -3.0153e-04,
+         -6.2998e-02, -1.2301e-01],
+        ...,
+        [ 1.1590e-01, -1.1034e-01,  1.4836e-01,  ...,  7.7177e-02,
+          2.2646e-01, -2.4838e-02],
+        [ 1.4402e-01, -2.6639e-01, -1.8321e-01,  ..., -3.7394e-01,
+         -1.2344e-01,  2.3694e-01],
+        [-2.1804e-01,  9.4350e-02,  7.5619e-02,  ..., -3.6197e-01,
+         -1.6960e-01, -1.1002e-01]], device='cuda:0'), grad: tensor([[ 3.7253e-09,  1.8626e-09,  1.8626e-09,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 3.9116e-08, -5.5879e-09,  3.3528e-08,  ...,  3.7253e-09,
+          4.0978e-08,  7.4506e-09],
+        [ 2.0489e-08,  1.8626e-09,  1.4901e-08,  ...,  1.8626e-09,
+          1.8626e-08,  9.3132e-09],
+        ...,
+        [-1.1548e-07, -1.8626e-09, -8.7544e-08,  ..., -1.3039e-08,
+         -1.0617e-07, -3.9116e-08],
+        [ 1.3039e-08,  7.4506e-09,  1.1176e-08,  ...,  0.0000e+00,
+          1.4901e-08,  9.3132e-09],
+        [ 2.4214e-08,  1.8626e-09,  1.4901e-08,  ...,  3.7253e-09,
+          1.8626e-08,  7.4506e-09]], device='cuda:0')
+Epoch 433, bias, value: tensor([-0.0152, -0.0222, -0.0108, -0.0199,  0.0042, -0.0005,  0.0087,  0.0231,
+         0.0124, -0.0111], device='cuda:0'), grad: tensor([ 2.9802e-08,  8.1956e-08,  5.2154e-08,  9.8720e-08,  1.6764e-08,
+        -8.1956e-07,  4.8615e-07, -1.8254e-07,  1.7695e-07,  5.2154e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 432, time 214.70, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4637 re_mapping 0.0029 re_causal 0.0100 /// teacc 99.11 lr 0.00001000
+Epoch 434, weight, value: tensor([[-3.2109e-01,  8.6872e-02, -2.1308e-01,  ..., -1.1383e-01,
+         -2.9149e-01, -1.7633e-01],
+        [-8.5038e-03,  1.0603e-01, -1.2951e-01,  ..., -1.4300e-01,
+         -8.4663e-02,  1.3217e-01],
+        [ 5.0309e-02, -1.5834e-01, -1.9262e-01,  ..., -2.9112e-04,
+         -6.3007e-02, -1.2303e-01],
+        ...,
+        [ 1.1594e-01, -1.1041e-01,  1.4843e-01,  ...,  7.7194e-02,
+          2.2652e-01, -2.4838e-02],
+        [ 1.4404e-01, -2.6652e-01, -1.8329e-01,  ..., -3.7403e-01,
+         -1.2354e-01,  2.3701e-01],
+        [-2.1813e-01,  9.4302e-02,  7.5609e-02,  ..., -3.6215e-01,
+         -1.6963e-01, -1.1013e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  3.7253e-09,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 3.7253e-09,  1.8626e-09,  5.5879e-09,  ...,  0.0000e+00,
+          3.7253e-09, -1.8626e-09],
+        [-0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.8626e-09,
+         -0.0000e+00,  0.0000e+00],
+        ...,
+        [-1.1176e-08,  1.8626e-09, -1.1176e-08,  ..., -0.0000e+00,
+         -7.4506e-09,  1.8626e-09],
+        [ 0.0000e+00,  7.4506e-09,  5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 7.4506e-09, -1.4901e-07, -8.3819e-08,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00]], device='cuda:0')
+Epoch 434, bias, value: tensor([-0.0152, -0.0222, -0.0108, -0.0200,  0.0042, -0.0004,  0.0086,  0.0231,
+         0.0124, -0.0112], device='cuda:0'), grad: tensor([ 7.4506e-09,  1.1176e-08, -1.8626e-09,  2.0489e-08,  3.5763e-07,
+         1.1176e-08,  0.0000e+00, -1.4901e-08,  2.4214e-08, -4.2282e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 433, time 214.44, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4153 re_mapping 0.0028 re_causal 0.0098 /// teacc 99.10 lr 0.00001000
+Epoch 435, weight, value: tensor([[-3.2112e-01,  8.6913e-02, -2.1309e-01,  ..., -1.1383e-01,
+         -2.9150e-01, -1.7634e-01],
+        [-8.5018e-03,  1.0608e-01, -1.2951e-01,  ..., -1.4308e-01,
+         -8.4675e-02,  1.3222e-01],
+        [ 5.0300e-02, -1.5839e-01, -1.9272e-01,  ..., -2.8777e-04,
+         -6.3024e-02, -1.2305e-01],
+        ...,
+        [ 1.1595e-01, -1.1059e-01,  1.4845e-01,  ...,  7.7212e-02,
+          2.2655e-01, -2.4865e-02],
+        [ 1.4403e-01, -2.6666e-01, -1.8337e-01,  ..., -3.7413e-01,
+         -1.2362e-01,  2.3702e-01],
+        [-2.1817e-01,  9.4274e-02,  7.5640e-02,  ..., -3.6227e-01,
+         -1.6965e-01, -1.1019e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09, -3.5390e-08,  0.0000e+00,  ...,  1.8626e-09,
+          1.8626e-09, -6.7055e-08],
+        [-8.3819e-08,  7.4506e-09, -9.3132e-09,  ..., -2.7940e-08,
+         -6.1467e-08,  1.3039e-08],
+        ...,
+        [ 7.2643e-08,  2.4214e-08,  7.4506e-09,  ...,  2.4214e-08,
+          5.7742e-08,  4.2841e-08],
+        [ 7.4506e-09,  5.5879e-09,  0.0000e+00,  ...,  1.8626e-09,
+          1.8626e-09,  1.8626e-09],
+        [ 0.0000e+00,  1.1176e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-09]], device='cuda:0')
+Epoch 435, bias, value: tensor([-0.0151, -0.0222, -0.0108, -0.0200,  0.0042, -0.0004,  0.0086,  0.0231,
+         0.0123, -0.0113], device='cuda:0'), grad: tensor([-9.3132e-09, -2.7753e-07, -1.2666e-07,  1.2480e-07,  1.8626e-09,
+        -1.6019e-07,  2.0489e-08,  3.2410e-07,  6.1467e-08,  4.8429e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 434, time 214.85, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4355 re_mapping 0.0029 re_causal 0.0100 /// teacc 99.08 lr 0.00001000
+Epoch 436, weight, value: tensor([[-3.2114e-01,  8.6931e-02, -2.1318e-01,  ..., -1.1385e-01,
+         -2.9151e-01, -1.7634e-01],
+        [-8.5252e-03,  1.0610e-01, -1.2955e-01,  ..., -1.4320e-01,
+         -8.4710e-02,  1.3224e-01],
+        [ 5.0292e-02, -1.5845e-01, -1.9280e-01,  ..., -2.8520e-04,
+         -6.3042e-02, -1.2307e-01],
+        ...,
+        [ 1.1598e-01, -1.1070e-01,  1.4850e-01,  ...,  7.7231e-02,
+          2.2660e-01, -2.4866e-02],
+        [ 1.4409e-01, -2.6676e-01, -1.8344e-01,  ..., -3.7420e-01,
+         -1.2366e-01,  2.3707e-01],
+        [-2.1824e-01,  9.4278e-02,  7.5658e-02,  ..., -3.6241e-01,
+         -1.6968e-01, -1.1031e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  1.8626e-09,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [-3.7253e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -5.5879e-09],
+        [ 0.0000e+00,  3.9116e-08,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-08]], device='cuda:0')
+Epoch 436, bias, value: tensor([-0.0151, -0.0222, -0.0108, -0.0200,  0.0042, -0.0004,  0.0086,  0.0232,
+         0.0123, -0.0113], device='cuda:0'), grad: tensor([-1.1176e-08,  7.4506e-09,  3.7253e-09,  5.4017e-08, -1.3784e-07,
+        -6.1467e-08,  5.5879e-09,  3.7253e-09, -9.3132e-09,  1.4901e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 435, time 215.04, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4310 re_mapping 0.0029 re_causal 0.0099 /// teacc 99.11 lr 0.00001000
+Epoch 437, weight, value: tensor([[-3.2116e-01,  8.6951e-02, -2.1320e-01,  ..., -1.1387e-01,
+         -2.9152e-01, -1.7635e-01],
+        [-8.5403e-03,  1.0609e-01, -1.2958e-01,  ..., -1.4331e-01,
+         -8.4730e-02,  1.3225e-01],
+        [ 5.0301e-02, -1.5850e-01, -1.9283e-01,  ..., -2.6481e-04,
+         -6.3025e-02, -1.2307e-01],
+        ...,
+        [ 1.1600e-01, -1.1081e-01,  1.4854e-01,  ...,  7.7236e-02,
+          2.2662e-01, -2.4871e-02],
+        [ 1.4412e-01, -2.6686e-01, -1.8352e-01,  ..., -3.7433e-01,
+         -1.2375e-01,  2.3714e-01],
+        [-2.1827e-01,  9.4284e-02,  7.5693e-02,  ..., -3.6249e-01,
+         -1.6969e-01, -1.1038e-01]], device='cuda:0'), grad: tensor([[ 3.7253e-09, -2.0489e-08,  1.8626e-09,  ...,  0.0000e+00,
+          1.8626e-09,  1.8626e-09],
+        [ 5.5879e-08, -1.8626e-09,  6.3330e-08,  ...,  2.4214e-08,
+          5.2154e-08, -7.4506e-09],
+        [ 2.7753e-07,  0.0000e+00,  3.2783e-07,  ...,  1.2293e-07,
+          2.6450e-07,  1.1176e-08],
+        ...,
+        [-3.7067e-07,  1.8626e-09, -4.6194e-07,  ..., -1.7509e-07,
+         -3.7439e-07,  1.3039e-08],
+        [-5.0291e-08,  1.8626e-09,  5.5879e-09,  ...,  1.8626e-09,
+          3.7253e-09, -5.9605e-08],
+        [ 5.4017e-08, -7.4506e-09,  3.7253e-08,  ...,  2.2352e-08,
+          4.8429e-08,  7.4506e-09]], device='cuda:0')
+Epoch 437, bias, value: tensor([-0.0151, -0.0222, -0.0108, -0.0200,  0.0042, -0.0004,  0.0086,  0.0232,
+         0.0122, -0.0113], device='cuda:0'), grad: tensor([-4.2841e-08,  1.1362e-07,  6.9290e-07,  4.6566e-08,  4.0978e-08,
+         3.3528e-08,  4.2841e-08, -8.9966e-07, -1.3597e-07,  1.0803e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 436, time 215.19, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4881 re_mapping 0.0029 re_causal 0.0105 /// teacc 99.10 lr 0.00001000
+Epoch 438, weight, value: tensor([[-3.2120e-01,  8.6944e-02, -2.1322e-01,  ..., -1.1390e-01,
+         -2.9153e-01, -1.7636e-01],
+        [-8.5154e-03,  1.0622e-01, -1.2956e-01,  ..., -1.4337e-01,
+         -8.4708e-02,  1.3233e-01],
+        [ 5.0314e-02, -1.5860e-01, -1.9291e-01,  ..., -2.2675e-04,
+         -6.3017e-02, -1.2310e-01],
+        ...,
+        [ 1.1598e-01, -1.1109e-01,  1.4854e-01,  ...,  7.7212e-02,
+          2.2661e-01, -2.4935e-02],
+        [ 1.4412e-01, -2.6699e-01, -1.8360e-01,  ..., -3.7443e-01,
+         -1.2381e-01,  2.3715e-01],
+        [-2.1834e-01,  9.4309e-02,  7.5709e-02,  ..., -3.6261e-01,
+         -1.6970e-01, -1.1054e-01]], device='cuda:0'), grad: tensor([[ 1.8626e-09, -1.8626e-09,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 2.4959e-07,  1.6764e-08,  3.1851e-07,  ...,  3.7253e-09,
+          1.8626e-07,  4.4703e-08],
+        [-5.5879e-09,  1.8626e-09,  1.8626e-09,  ..., -9.3132e-09,
+         -1.8626e-09,  0.0000e+00],
+        ...,
+        [-2.5518e-07, -1.3039e-08, -3.1851e-07,  ...,  9.3132e-09,
+         -1.8999e-07, -3.9116e-08],
+        [-1.4901e-08,  0.0000e+00,  3.7253e-09,  ...,  1.8626e-09,
+          1.8626e-09, -3.1665e-08],
+        [ 1.3039e-08,  1.8626e-09,  3.7253e-09,  ...,  0.0000e+00,
+          1.8626e-09,  1.4901e-08]], device='cuda:0')
+Epoch 438, bias, value: tensor([-0.0151, -0.0222, -0.0107, -0.0200,  0.0042, -0.0004,  0.0086,  0.0231,
+         0.0121, -0.0113], device='cuda:0'), grad: tensor([ 1.4901e-08,  5.6624e-07, -2.7940e-08, -7.4506e-09,  3.5390e-08,
+         1.0990e-07, -1.6391e-07, -5.3085e-07, -4.8429e-08,  4.6566e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 437, time 215.00, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4585 re_mapping 0.0028 re_causal 0.0101 /// teacc 99.08 lr 0.00001000
+Epoch 439, weight, value: tensor([[-3.2123e-01,  8.6959e-02, -2.1324e-01,  ..., -1.1392e-01,
+         -2.9155e-01, -1.7637e-01],
+        [-8.4822e-03,  1.0631e-01, -1.2954e-01,  ..., -1.4347e-01,
+         -8.4682e-02,  1.3241e-01],
+        [ 5.0318e-02, -1.5866e-01, -1.9296e-01,  ..., -2.2024e-04,
+         -6.3013e-02, -1.2310e-01],
+        ...,
+        [ 1.1596e-01, -1.1132e-01,  1.4854e-01,  ...,  7.7233e-02,
+          2.2659e-01, -2.5004e-02],
+        [ 1.4411e-01, -2.6708e-01, -1.8369e-01,  ..., -3.7454e-01,
+         -1.2388e-01,  2.3715e-01],
+        [-2.1843e-01,  9.4271e-02,  7.5718e-02,  ..., -3.6276e-01,
+         -1.6973e-01, -1.1073e-01]], device='cuda:0'), grad: tensor([[ 3.7253e-09, -0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+          5.5879e-09,  0.0000e+00],
+        [ 5.5879e-09, -1.8626e-09,  1.8626e-09,  ...,  3.7253e-09,
+          3.7253e-09,  5.5879e-09],
+        [-1.1176e-08,  0.0000e+00, -3.7253e-09,  ..., -1.6764e-08,
+         -2.0489e-08,  1.8626e-09],
+        ...,
+        [ 3.7253e-09,  1.8626e-09,  0.0000e+00,  ...,  5.5879e-09,
+          9.3132e-09,  1.8626e-09],
+        [-7.4506e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -3.5390e-08],
+        [ 5.5879e-09, -3.7253e-09, -5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.4214e-08]], device='cuda:0')
+Epoch 439, bias, value: tensor([-0.0151, -0.0221, -0.0107, -0.0200,  0.0042, -0.0004,  0.0087,  0.0231,
+         0.0120, -0.0114], device='cuda:0'), grad: tensor([ 1.1176e-08,  1.6764e-08, -6.5193e-08,  1.8626e-09,  9.3132e-09,
+         1.8626e-09,  1.8626e-09,  3.1665e-08, -5.5879e-08,  2.9802e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 438, time 215.09, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4169 re_mapping 0.0029 re_causal 0.0097 /// teacc 99.12 lr 0.00001000
+Epoch 440, weight, value: tensor([[-3.2126e-01,  8.6995e-02, -2.1324e-01,  ..., -1.1392e-01,
+         -2.9156e-01, -1.7637e-01],
+        [-8.4846e-03,  1.0633e-01, -1.2955e-01,  ..., -1.4359e-01,
+         -8.4692e-02,  1.3246e-01],
+        [ 5.0342e-02, -1.5872e-01, -1.9303e-01,  ..., -1.8446e-04,
+         -6.3002e-02, -1.2312e-01],
+        ...,
+        [ 1.1596e-01, -1.1147e-01,  1.4857e-01,  ...,  7.7222e-02,
+          2.2661e-01, -2.5057e-02],
+        [ 1.4413e-01, -2.6717e-01, -1.8377e-01,  ..., -3.7465e-01,
+         -1.2393e-01,  2.3723e-01],
+        [-2.1850e-01,  9.4170e-02,  7.5685e-02,  ..., -3.6282e-01,
+         -1.6976e-01, -1.1085e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -3.3528e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-09, -1.6764e-08,  9.3132e-09,  ...,  7.4506e-09,
+          0.0000e+00, -5.9605e-08],
+        [-0.0000e+00,  1.8626e-09,  0.0000e+00,  ..., -1.8626e-09,
+         -0.0000e+00,  3.7253e-09],
+        ...,
+        [-9.3132e-09,  1.8626e-08, -1.3039e-08,  ..., -9.3132e-09,
+         -1.8626e-09,  4.4703e-08],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  1.5832e-07,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  7.4506e-09]], device='cuda:0')
+Epoch 440, bias, value: tensor([-0.0151, -0.0221, -0.0107, -0.0200,  0.0044, -0.0005,  0.0087,  0.0231,
+         0.0120, -0.0116], device='cuda:0'), grad: tensor([-3.7253e-09,  7.2643e-08,  1.3039e-07,  7.4506e-09, -3.3919e-06,
+         5.5879e-09, -9.5554e-07,  2.2911e-07,  6.5193e-08,  3.8520e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 439, time 215.00, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4557 re_mapping 0.0028 re_causal 0.0101 /// teacc 99.11 lr 0.00001000
+Epoch 441, weight, value: tensor([[-3.2128e-01,  8.7023e-02, -2.1334e-01,  ..., -1.1395e-01,
+         -2.9158e-01, -1.7637e-01],
+        [-8.5103e-03,  1.0631e-01, -1.2957e-01,  ..., -1.4371e-01,
+         -8.4718e-02,  1.3248e-01],
+        [ 5.0348e-02, -1.5880e-01, -1.9312e-01,  ..., -1.6774e-04,
+         -6.2995e-02, -1.2310e-01],
+        ...,
+        [ 1.1598e-01, -1.1157e-01,  1.4861e-01,  ...,  7.7229e-02,
+          2.2664e-01, -2.5085e-02],
+        [ 1.4416e-01, -2.6724e-01, -1.8384e-01,  ..., -3.7477e-01,
+         -1.2405e-01,  2.3728e-01],
+        [-2.1856e-01,  9.4148e-02,  7.5694e-02,  ..., -3.6289e-01,
+         -1.6978e-01, -1.1091e-01]], device='cuda:0'), grad: tensor([[ 9.3132e-10, -2.7940e-09,  0.0000e+00,  ...,  9.3132e-10,
+          9.3132e-10,  9.3132e-10],
+        [ 1.8626e-09,  6.5193e-09,  9.3132e-09,  ...,  7.4506e-09,
+          9.3132e-10,  3.7253e-09],
+        [-9.3132e-10,  0.0000e+00,  0.0000e+00,  ..., -2.7940e-09,
+         -1.8626e-09,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  2.7940e-09,  9.3132e-10,  ...,  1.8626e-09,
+          9.3132e-10,  4.6566e-09],
+        [-1.5739e-07,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -1.2759e-07],
+        [ 0.0000e+00,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 441, bias, value: tensor([-0.0150, -0.0221, -0.0107, -0.0200,  0.0045, -0.0005,  0.0087,  0.0231,
+         0.0120, -0.0116], device='cuda:0'), grad: tensor([-2.7940e-09,  2.7008e-08, -5.5879e-09, -1.3039e-08, -2.1420e-08,
+         2.4401e-07,  1.2852e-07,  1.6764e-08, -3.7253e-07,  8.3819e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 440, time 214.97, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4085 re_mapping 0.0028 re_causal 0.0095 /// teacc 99.11 lr 0.00001000
+Epoch 442, weight, value: tensor([[-3.2132e-01,  8.7040e-02, -2.1338e-01,  ..., -1.1401e-01,
+         -2.9160e-01, -1.7638e-01],
+        [-8.5171e-03,  1.0634e-01, -1.2959e-01,  ..., -1.4384e-01,
+         -8.4727e-02,  1.3253e-01],
+        [ 5.0392e-02, -1.5889e-01, -1.9317e-01,  ..., -9.0360e-05,
+         -6.2929e-02, -1.2314e-01],
+        ...,
+        [ 1.1597e-01, -1.1166e-01,  1.4864e-01,  ...,  7.7187e-02,
+          2.2664e-01, -2.5119e-02],
+        [ 1.4422e-01, -2.6740e-01, -1.8397e-01,  ..., -3.7487e-01,
+         -1.2410e-01,  2.3732e-01],
+        [-2.1861e-01,  9.4118e-02,  7.5716e-02,  ..., -3.6302e-01,
+         -1.6980e-01, -1.1103e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.5832e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  1.8626e-09,  2.7940e-09,  ...,  1.8626e-09,
+          9.3132e-10,  0.0000e+00],
+        [-9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+         -1.8626e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [-1.8626e-09,  9.3132e-10,  9.3132e-10,  ...,  9.3132e-10,
+          0.0000e+00, -3.7253e-09],
+        [ 9.3132e-10,  4.6566e-09, -4.6566e-09,  ...,  9.3132e-10,
+          0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 442, bias, value: tensor([-0.0150, -0.0221, -0.0106, -0.0200,  0.0045, -0.0005,  0.0087,  0.0230,
+         0.0119, -0.0117], device='cuda:0'), grad: tensor([-3.9116e-08,  9.3132e-09,  0.0000e+00, -1.4901e-08,  1.8626e-08,
+         0.0000e+00,  3.7253e-09,  4.6566e-09, -2.7940e-09,  1.7695e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 441, time 215.02, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4399 re_mapping 0.0028 re_causal 0.0099 /// teacc 99.12 lr 0.00001000
+Epoch 443, weight, value: tensor([[-3.2135e-01,  8.7073e-02, -2.1341e-01,  ..., -1.1405e-01,
+         -2.9162e-01, -1.7637e-01],
+        [-8.5098e-03,  1.0639e-01, -1.2956e-01,  ..., -1.4392e-01,
+         -8.4727e-02,  1.3257e-01],
+        [ 5.0422e-02, -1.5897e-01, -1.9324e-01,  ..., -5.0995e-05,
+         -6.2897e-02, -1.2316e-01],
+        ...,
+        [ 1.1595e-01, -1.1178e-01,  1.4863e-01,  ...,  7.7149e-02,
+          2.2663e-01, -2.5162e-02],
+        [ 1.4425e-01, -2.6749e-01, -1.8403e-01,  ..., -3.7495e-01,
+         -1.2415e-01,  2.3740e-01],
+        [-2.1866e-01,  9.4076e-02,  7.5737e-02,  ..., -3.6310e-01,
+         -1.6980e-01, -1.1113e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.5832e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  3.7253e-09,  1.8626e-09,  ...,  0.0000e+00,
+          9.3132e-10, -2.7940e-09],
+        [ 9.3132e-10,  9.3132e-10,  9.3132e-10,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [-5.5879e-09,  4.6566e-09, -6.5193e-09,  ..., -1.8626e-09,
+         -4.6566e-09,  8.3819e-09],
+        [-4.6566e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -7.4506e-09],
+        [ 1.8626e-09,  1.0245e-08,  1.8626e-09,  ...,  0.0000e+00,
+          9.3132e-10,  8.3819e-09]], device='cuda:0')
+Epoch 443, bias, value: tensor([-0.0150, -0.0221, -0.0106, -0.0200,  0.0045, -0.0005,  0.0087,  0.0230,
+         0.0119, -0.0118], device='cuda:0'), grad: tensor([-4.0978e-08,  1.2107e-08,  4.6566e-09,  5.5879e-09, -4.6566e-08,
+         1.2107e-08,  2.7008e-08,  8.3819e-09, -1.8626e-08,  4.0978e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 442, time 215.04, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4153 re_mapping 0.0029 re_causal 0.0098 /// teacc 99.12 lr 0.00001000
+Epoch 444, weight, value: tensor([[-3.2142e-01,  8.7069e-02, -2.1351e-01,  ..., -1.1409e-01,
+         -2.9167e-01, -1.7639e-01],
+        [-8.5239e-03,  1.0641e-01, -1.2958e-01,  ..., -1.4411e-01,
+         -8.4745e-02,  1.3260e-01],
+        [ 5.0447e-02, -1.5901e-01, -1.9330e-01,  ..., -1.0292e-05,
+         -6.2870e-02, -1.2312e-01],
+        ...,
+        [ 1.1596e-01, -1.1183e-01,  1.4866e-01,  ...,  7.7153e-02,
+          2.2665e-01, -2.5185e-02],
+        [ 1.4430e-01, -2.6762e-01, -1.8410e-01,  ..., -3.7512e-01,
+         -1.2427e-01,  2.3748e-01],
+        [-2.1873e-01,  9.4106e-02,  7.5769e-02,  ..., -3.6324e-01,
+         -1.6982e-01, -1.1122e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -8.6613e-08,  9.3132e-10,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 5.0291e-08,  1.6764e-08,  6.5193e-08,  ...,  6.5193e-09,
+          4.0978e-08, -2.7940e-09],
+        [ 5.5879e-09,  9.3132e-09,  1.4901e-08,  ...,  1.1176e-08,
+          1.8626e-09,  9.3132e-10],
+        ...,
+        [-1.1362e-07, -2.6077e-08, -1.3132e-07,  ...,  9.3132e-10,
+         -9.7789e-08,  4.6566e-09],
+        [ 1.8626e-09,  1.8626e-09,  3.7253e-09,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 4.7497e-08,  5.8673e-08,  5.2154e-08,  ...,  0.0000e+00,
+          4.0978e-08,  1.3970e-08]], device='cuda:0')
+Epoch 444, bias, value: tensor([-0.0150, -0.0221, -0.0105, -0.0200,  0.0046, -0.0005,  0.0087,  0.0230,
+         0.0118, -0.0118], device='cuda:0'), grad: tensor([-1.7788e-07,  1.3504e-07,  3.6322e-08, -8.8476e-08, -9.8720e-08,
+         6.2399e-08,  1.0617e-07, -2.6356e-07,  9.3132e-09,  2.9150e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 443, time 214.68, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4373 re_mapping 0.0028 re_causal 0.0099 /// teacc 99.10 lr 0.00001000
+Epoch 445, weight, value: tensor([[-3.2143e-01,  8.7107e-02, -2.1358e-01,  ..., -1.1409e-01,
+         -2.9170e-01, -1.7639e-01],
+        [-8.4982e-03,  1.0651e-01, -1.2955e-01,  ..., -1.4422e-01,
+         -8.4736e-02,  1.3267e-01],
+        [ 5.0517e-02, -1.5909e-01, -1.9340e-01,  ...,  8.7677e-05,
+         -6.2789e-02, -1.2309e-01],
+        ...,
+        [ 1.1590e-01, -1.1202e-01,  1.4864e-01,  ...,  7.7074e-02,
+          2.2661e-01, -2.5257e-02],
+        [ 1.4436e-01, -2.6775e-01, -1.8416e-01,  ..., -3.7520e-01,
+         -1.2431e-01,  2.3752e-01],
+        [-2.1876e-01,  9.4091e-02,  7.5816e-02,  ..., -3.6331e-01,
+         -1.6984e-01, -1.1125e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 5.5879e-09,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          9.3132e-10, -5.5879e-09],
+        [ 0.0000e+00,  9.3132e-10,  9.3132e-10,  ..., -0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        ...,
+        [-9.3132e-10,  4.6566e-09, -1.8626e-09,  ..., -0.0000e+00,
+         -9.3132e-10,  6.5193e-09],
+        [-4.6566e-08,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -6.4261e-08],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 445, bias, value: tensor([-0.0150, -0.0220, -0.0104, -0.0200,  0.0046, -0.0005,  0.0087,  0.0229,
+         0.0118, -0.0118], device='cuda:0'), grad: tensor([ 6.5193e-09, -9.3132e-10,  2.7940e-09, -9.3132e-09, -1.7695e-08,
+        -3.7253e-09,  8.6613e-08,  1.6764e-08, -8.3819e-08,  3.7253e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 444, time 214.72, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4291 re_mapping 0.0028 re_causal 0.0098 /// teacc 99.10 lr 0.00001000
+Epoch 446, weight, value: tensor([[-3.2147e-01,  8.7118e-02, -2.1366e-01,  ..., -1.1412e-01,
+         -2.9171e-01, -1.7640e-01],
+        [-8.4646e-03,  1.0663e-01, -1.2951e-01,  ..., -1.4440e-01,
+         -8.4726e-02,  1.3277e-01],
+        [ 5.0585e-02, -1.5913e-01, -1.9348e-01,  ...,  1.8265e-04,
+         -6.2715e-02, -1.2306e-01],
+        ...,
+        [ 1.1585e-01, -1.1227e-01,  1.4863e-01,  ...,  7.7017e-02,
+          2.2659e-01, -2.5363e-02],
+        [ 1.4439e-01, -2.6784e-01, -1.8423e-01,  ..., -3.7530e-01,
+         -1.2439e-01,  2.3759e-01],
+        [-2.1881e-01,  9.4123e-02,  7.5860e-02,  ..., -3.6338e-01,
+         -1.6986e-01, -1.1131e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.1176e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  9.3132e-10,  1.8626e-09,  ...,  9.3132e-10,
+          9.3132e-10,  9.3132e-10],
+        [ 4.6566e-09,  1.8626e-09,  2.7940e-09,  ...,  1.8626e-09,
+          3.7253e-09,  9.3132e-10],
+        ...,
+        [-4.6566e-09,  0.0000e+00, -1.8626e-09,  ..., -1.8626e-09,
+         -3.7253e-09,  0.0000e+00],
+        [-3.7253e-09,  2.0489e-08,  9.3132e-10,  ...,  0.0000e+00,
+          9.3132e-10,  9.3132e-10],
+        [ 3.7253e-09, -3.4459e-08, -1.1176e-08,  ...,  0.0000e+00,
+          0.0000e+00, -3.7253e-09]], device='cuda:0')
+Epoch 446, bias, value: tensor([-0.0150, -0.0220, -0.0103, -0.0201,  0.0045, -0.0005,  0.0087,  0.0228,
+         0.0117, -0.0118], device='cuda:0'), grad: tensor([-3.0734e-08,  9.3132e-09,  1.4901e-08,  1.7695e-08,  1.6764e-08,
+         1.6764e-08,  1.1176e-08, -5.5879e-09,  6.0536e-08, -1.0990e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 445, time 214.81, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4334 re_mapping 0.0028 re_causal 0.0101 /// teacc 99.08 lr 0.00001000
+Epoch 447, weight, value: tensor([[-3.2152e-01,  8.7139e-02, -2.1369e-01,  ..., -1.1419e-01,
+         -2.9175e-01, -1.7642e-01],
+        [-8.4503e-03,  1.0674e-01, -1.2949e-01,  ..., -1.4453e-01,
+         -8.4714e-02,  1.3286e-01],
+        [ 5.0608e-02, -1.5921e-01, -1.9357e-01,  ...,  2.1627e-04,
+         -6.2683e-02, -1.2304e-01],
+        ...,
+        [ 1.1583e-01, -1.1246e-01,  1.4865e-01,  ...,  7.7019e-02,
+          2.2658e-01, -2.5442e-02],
+        [ 1.4438e-01, -2.6795e-01, -1.8429e-01,  ..., -3.7538e-01,
+         -1.2447e-01,  2.3762e-01],
+        [-2.1887e-01,  9.4146e-02,  7.5888e-02,  ..., -3.6346e-01,
+         -1.6989e-01, -1.1138e-01]], device='cuda:0'), grad: tensor([[ 3.7253e-09, -1.8626e-09,  0.0000e+00,  ...,  3.7253e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [-8.3819e-09,  0.0000e+00,  0.0000e+00,  ..., -8.3819e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 447, bias, value: tensor([-0.0150, -0.0219, -0.0103, -0.0201,  0.0045, -0.0005,  0.0087,  0.0228,
+         0.0116, -0.0118], device='cuda:0'), grad: tensor([ 1.1176e-08,  1.0245e-08, -4.4703e-08,  8.3819e-09,  1.8626e-09,
+        -2.7940e-09,  1.3039e-08,  4.6566e-09,  3.7253e-09,  9.3132e-10],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 446, time 214.66, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4485 re_mapping 0.0029 re_causal 0.0102 /// teacc 99.11 lr 0.00001000
+Epoch 448, weight, value: tensor([[-3.2156e-01,  8.7184e-02, -2.1371e-01,  ..., -1.1422e-01,
+         -2.9177e-01, -1.7642e-01],
+        [-8.4533e-03,  1.0676e-01, -1.2948e-01,  ..., -1.4471e-01,
+         -8.4728e-02,  1.3291e-01],
+        [ 5.0642e-02, -1.5927e-01, -1.9366e-01,  ...,  2.5576e-04,
+         -6.2654e-02, -1.2298e-01],
+        ...,
+        [ 1.1583e-01, -1.1257e-01,  1.4864e-01,  ...,  7.7020e-02,
+          2.2659e-01, -2.5492e-02],
+        [ 1.4437e-01, -2.6807e-01, -1.8441e-01,  ..., -3.7546e-01,
+         -1.2454e-01,  2.3766e-01],
+        [-2.1890e-01,  9.4147e-02,  7.5973e-02,  ..., -3.6352e-01,
+         -1.6991e-01, -1.1143e-01]], device='cuda:0'), grad: tensor([[ 1.1176e-08,  0.0000e+00,  0.0000e+00,  ...,  7.4506e-09,
+          2.7940e-09,  1.8626e-09],
+        [ 3.7253e-09, -1.8626e-09,  1.8626e-09,  ...,  9.3132e-10,
+          1.8626e-09, -9.3132e-10],
+        [-1.9558e-08,  0.0000e+00,  9.3132e-10,  ..., -1.5832e-08,
+         -4.6566e-09,  1.8626e-09],
+        ...,
+        [-2.7940e-09,  9.3132e-10, -1.8626e-09,  ..., -1.8626e-09,
+         -4.6566e-09,  1.8626e-09],
+        [-9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  8.3819e-09,
+          2.7940e-09, -1.6764e-08],
+        [ 2.7940e-09, -1.8626e-09, -3.7253e-09,  ...,  0.0000e+00,
+          9.3132e-10,  3.7253e-09]], device='cuda:0')
+Epoch 448, bias, value: tensor([-0.0149, -0.0219, -0.0102, -0.0201,  0.0045, -0.0005,  0.0087,  0.0227,
+         0.0115, -0.0118], device='cuda:0'), grad: tensor([ 5.2154e-08,  2.7940e-09, -1.0617e-07,  4.2841e-08,  1.3039e-08,
+        -4.3772e-08,  9.3132e-09,  1.8626e-09,  2.7940e-08,  0.0000e+00],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 447, time 214.70, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4007 re_mapping 0.0028 re_causal 0.0096 /// teacc 99.12 lr 0.00001000
+Epoch 449, weight, value: tensor([[-3.2163e-01,  8.7166e-02, -2.1381e-01,  ..., -1.1426e-01,
+         -2.9181e-01, -1.7644e-01],
+        [-8.4302e-03,  1.0681e-01, -1.2947e-01,  ..., -1.4482e-01,
+         -8.4709e-02,  1.3299e-01],
+        [ 5.0651e-02, -1.5932e-01, -1.9373e-01,  ...,  2.8155e-04,
+         -6.2646e-02, -1.2299e-01],
+        ...,
+        [ 1.1582e-01, -1.1272e-01,  1.4864e-01,  ...,  7.7034e-02,
+          2.2659e-01, -2.5557e-02],
+        [ 1.4429e-01, -2.6820e-01, -1.8456e-01,  ..., -3.7560e-01,
+         -1.2467e-01,  2.3763e-01],
+        [-2.1892e-01,  9.4267e-02,  7.6056e-02,  ..., -3.6358e-01,
+         -1.6993e-01, -1.1145e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.6566e-09,  5.5879e-09,  ...,  2.7940e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-09, -4.6566e-09,  8.3819e-09,  ...,  4.6566e-09,
+          5.5879e-09, -7.1712e-08],
+        [ 1.3970e-08,  1.8626e-09,  1.3039e-08,  ...,  8.3819e-09,
+          1.0245e-08,  8.3819e-09],
+        ...,
+        [-2.7008e-08,  4.6566e-09, -2.1420e-08,  ..., -1.2107e-08,
+         -2.2352e-08,  5.1223e-08],
+        [ 0.0000e+00,  9.3132e-10,  9.3132e-10,  ...,  9.3132e-10,
+          0.0000e+00,  5.5879e-09],
+        [ 2.7940e-09,  1.1176e-08,  1.5832e-08,  ...,  7.4506e-09,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 449, bias, value: tensor([-0.0150, -0.0219, -0.0102, -0.0201,  0.0045, -0.0005,  0.0087,  0.0227,
+         0.0114, -0.0117], device='cuda:0'), grad: tensor([ 1.2107e-08, -7.6368e-08,  3.8184e-08, -9.4064e-08,  7.4506e-09,
+         5.0291e-08,  9.3132e-10,  1.7695e-08,  9.3132e-09,  3.4459e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 448, time 214.83, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4423 re_mapping 0.0028 re_causal 0.0100 /// teacc 99.11 lr 0.00001000
+Epoch 450, weight, value: tensor([[-3.2167e-01,  8.7179e-02, -2.1386e-01,  ..., -1.1428e-01,
+         -2.9183e-01, -1.7645e-01],
+        [-8.4034e-03,  1.0692e-01, -1.2941e-01,  ..., -1.4490e-01,
+         -8.4705e-02,  1.3310e-01],
+        [ 5.0666e-02, -1.5939e-01, -1.9379e-01,  ...,  2.9645e-04,
+         -6.2621e-02, -1.2302e-01],
+        ...,
+        [ 1.1580e-01, -1.1292e-01,  1.4860e-01,  ...,  7.7028e-02,
+          2.2658e-01, -2.5653e-02],
+        [ 1.4433e-01, -2.6828e-01, -1.8463e-01,  ..., -3.7566e-01,
+         -1.2472e-01,  2.3772e-01],
+        [-2.1900e-01,  9.4276e-02,  7.6106e-02,  ..., -3.6365e-01,
+         -1.6996e-01, -1.1158e-01]], device='cuda:0'), grad: tensor([[ 5.5879e-09, -1.8626e-09,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  2.4214e-08],
+        [-2.5146e-08, -3.1665e-08,  3.7253e-09,  ...,  1.8626e-09,
+          9.3132e-10, -1.4063e-07],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ..., -9.3132e-10,
+         -9.3132e-10,  5.5879e-09],
+        ...,
+        [ 2.5146e-08,  3.2596e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -0.0000e+00,  1.3132e-07],
+        [-1.6764e-08, -3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -7.3574e-08],
+        [-9.3132e-10, -2.1420e-08, -3.2596e-08,  ...,  0.0000e+00,
+          0.0000e+00,  2.8871e-08]], device='cuda:0')
+Epoch 450, bias, value: tensor([-0.0150, -0.0218, -0.0101, -0.0201,  0.0045, -0.0005,  0.0087,  0.0226,
+         0.0114, -0.0118], device='cuda:0'), grad: tensor([ 5.7742e-08, -3.3155e-07,  1.2107e-08,  1.4901e-08,  6.1467e-08,
+         1.3039e-08,  4.3772e-08,  3.2876e-07, -2.0303e-07,  4.6566e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 449, time 214.87, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4176 re_mapping 0.0028 re_causal 0.0098 /// teacc 99.10 lr 0.00001000
+Epoch 451, weight, value: tensor([[-3.2173e-01,  8.7190e-02, -2.1395e-01,  ..., -1.1432e-01,
+         -2.9185e-01, -1.7647e-01],
+        [-8.3951e-03,  1.0708e-01, -1.2943e-01,  ..., -1.4502e-01,
+         -8.4713e-02,  1.3321e-01],
+        [ 5.0699e-02, -1.5950e-01, -1.9387e-01,  ...,  3.4302e-04,
+         -6.2581e-02, -1.2301e-01],
+        ...,
+        [ 1.1578e-01, -1.1314e-01,  1.4862e-01,  ...,  7.7003e-02,
+          2.2659e-01, -2.5740e-02],
+        [ 1.4433e-01, -2.6843e-01, -1.8478e-01,  ..., -3.7580e-01,
+         -1.2485e-01,  2.3778e-01],
+        [-2.1906e-01,  9.4314e-02,  7.6228e-02,  ..., -3.6374e-01,
+         -1.6998e-01, -1.1168e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [-1.8626e-09,  0.0000e+00,  0.0000e+00,  ..., -2.7940e-09,
+         -9.3132e-10,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -3.1665e-08, -3.8184e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 451, bias, value: tensor([-0.0150, -0.0218, -0.0101, -0.0201,  0.0045, -0.0006,  0.0087,  0.0226,
+         0.0113, -0.0118], device='cuda:0'), grad: tensor([ 9.3132e-10,  3.7253e-09, -1.0245e-08,  1.8626e-09,  6.9849e-08,
+         9.3132e-10,  0.0000e+00,  2.7940e-09,  3.7253e-09, -6.8918e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 450, time 215.30, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4185 re_mapping 0.0028 re_causal 0.0096 /// teacc 99.12 lr 0.00001000
+Epoch 452, weight, value: tensor([[-0.3218,  0.0872, -0.2141,  ..., -0.1144, -0.2919, -0.1765],
+        [-0.0084,  0.1072, -0.1294,  ..., -0.1452, -0.0847,  0.1333],
+        [ 0.0507, -0.1596, -0.1939,  ...,  0.0004, -0.0625, -0.1230],
+        ...,
+        [ 0.1158, -0.1133,  0.1486,  ...,  0.0770,  0.2266, -0.0258],
+        [ 0.1444, -0.2685, -0.1849,  ..., -0.3760, -0.1250,  0.2379],
+        [-0.2191,  0.0943,  0.0763,  ..., -0.3638, -0.1700, -0.1117]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.3970e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 2.7940e-09, -3.7253e-09,  3.7253e-09,  ...,  9.3132e-10,
+          2.7940e-09, -1.5832e-08],
+        [ 3.7253e-09,  9.3132e-10,  2.7940e-09,  ...,  1.8626e-09,
+          2.7940e-09,  0.0000e+00],
+        ...,
+        [-8.3819e-09,  3.7253e-09, -8.3819e-09,  ..., -3.7253e-09,
+         -7.4506e-09,  1.2107e-08],
+        [-0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -9.3132e-10],
+        [ 1.3970e-08,  3.8184e-08,  2.9802e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-08]], device='cuda:0')
+Epoch 452, bias, value: tensor([-0.0150, -0.0218, -0.0100, -0.0201,  0.0044, -0.0007,  0.0087,  0.0225,
+         0.0112, -0.0118], device='cuda:0'), grad: tensor([-3.2596e-08, -2.4214e-08,  1.0245e-08,  5.5879e-09, -1.5646e-07,
+         1.8626e-09,  1.3970e-08,  1.3970e-08,  0.0000e+00,  1.6578e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 451, time 214.98, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4444 re_mapping 0.0027 re_causal 0.0099 /// teacc 99.16 lr 0.00001000
+Epoch 453, weight, value: tensor([[-0.3219,  0.0872, -0.2143,  ..., -0.1145, -0.2919, -0.1765],
+        [-0.0084,  0.1073, -0.1294,  ..., -0.1454, -0.0847,  0.1334],
+        [ 0.0507, -0.1596, -0.1940,  ...,  0.0004, -0.0625, -0.1230],
+        ...,
+        [ 0.1158, -0.1135,  0.1487,  ...,  0.0770,  0.2266, -0.0259],
+        [ 0.1444, -0.2686, -0.1850,  ..., -0.3761, -0.1251,  0.2380],
+        [-0.2191,  0.0944,  0.0765,  ..., -0.3639, -0.1700, -0.1117]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -9.3132e-10,  3.7253e-09,  ...,  2.7940e-09,
+          9.3132e-10, -7.4506e-09],
+        [-9.3132e-10,  9.3132e-10,  1.8626e-09,  ..., -0.0000e+00,
+         -0.0000e+00,  0.0000e+00],
+        ...,
+        [-1.8626e-09,  1.8626e-09, -1.8626e-09,  ...,  0.0000e+00,
+         -9.3132e-10,  4.6566e-09],
+        [ 0.0000e+00,  9.3132e-10,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 9.3132e-10, -9.3132e-10, -3.7253e-09,  ...,  9.3132e-10,
+          9.3132e-10,  9.3132e-10]], device='cuda:0')
+Epoch 453, bias, value: tensor([-0.0150, -0.0217, -0.0100, -0.0201,  0.0044, -0.0007,  0.0087,  0.0225,
+         0.0112, -0.0117], device='cuda:0'), grad: tensor([ 9.3132e-10, -4.6566e-09, -1.8626e-09, -8.0094e-08,  9.3132e-09,
+         6.0536e-08,  9.3132e-09,  6.5193e-09,  6.5193e-09, -4.6566e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 452, time 214.83, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4656 re_mapping 0.0027 re_causal 0.0099 /// teacc 99.12 lr 0.00001000
+Epoch 454, weight, value: tensor([[-0.3219,  0.0872, -0.2143,  ..., -0.1145, -0.2920, -0.1765],
+        [-0.0084,  0.1073, -0.1295,  ..., -0.1457, -0.0848,  0.1334],
+        [ 0.0507, -0.1597, -0.1941,  ...,  0.0004, -0.0625, -0.1231],
+        ...,
+        [ 0.1158, -0.1135,  0.1487,  ...,  0.0771,  0.2266, -0.0259],
+        [ 0.1445, -0.2688, -0.1851,  ..., -0.3763, -0.1252,  0.2381],
+        [-0.2193,  0.0944,  0.0765,  ..., -0.3640, -0.1701, -0.1119]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -2.1514e-07,  0.0000e+00,  ..., -6.4261e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-08,  2.7940e-09,  0.0000e+00,  ...,  9.0338e-08,
+          1.4901e-08,  4.7497e-08],
+        [-1.0710e-07,  2.7940e-09,  0.0000e+00,  ..., -1.0058e-07,
+         -1.7695e-08, -5.5879e-08],
+        ...,
+        [ 1.0245e-08,  1.8626e-09,  9.3132e-10,  ...,  1.0245e-08,
+          1.8626e-09,  7.4506e-09],
+        [ 0.0000e+00,  1.4901e-08,  9.3132e-10,  ...,  4.6566e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10, -5.5879e-09,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 454, bias, value: tensor([-0.0149, -0.0217, -0.0100, -0.0201,  0.0044, -0.0007,  0.0087,  0.0225,
+         0.0113, -0.0118], device='cuda:0'), grad: tensor([-5.0850e-07,  5.2433e-07, -5.8115e-07,  4.5169e-07,  7.4506e-09,
+         3.7253e-09,  7.4506e-09,  6.1467e-08,  3.7253e-08, -9.3132e-10],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 453, time 214.61, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4228 re_mapping 0.0027 re_causal 0.0098 /// teacc 99.14 lr 0.00001000
+Epoch 455, weight, value: tensor([[-0.3220,  0.0873, -0.2143,  ..., -0.1145, -0.2920, -0.1765],
+        [-0.0084,  0.1073, -0.1295,  ..., -0.1459, -0.0848,  0.1334],
+        [ 0.0507, -0.1599, -0.1942,  ...,  0.0005, -0.0625, -0.1231],
+        ...,
+        [ 0.1159, -0.1135,  0.1488,  ...,  0.0771,  0.2268, -0.0259],
+        [ 0.1445, -0.2689, -0.1852,  ..., -0.3764, -0.1253,  0.2382],
+        [-0.2194,  0.0944,  0.0765,  ..., -0.3642, -0.1701, -0.1120]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  9.3132e-10,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10,  1.3039e-08,  1.2107e-08,  ...,  4.6566e-09,
+          2.7940e-09,  2.7940e-09],
+        [ 0.0000e+00,  9.3132e-10, -5.5879e-09,  ..., -5.5879e-09,
+         -4.6566e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  9.3132e-09,  5.5879e-09,  ...,  1.8626e-09,
+          9.3132e-10,  4.6566e-09],
+        [ 0.0000e+00,  1.8626e-09,  1.8626e-09,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.5635e-08,  1.1176e-08,  ...,  9.3132e-10,
+          1.8626e-09,  2.0489e-08]], device='cuda:0')
+Epoch 455, bias, value: tensor([-0.0149, -0.0218, -0.0100, -0.0202,  0.0045, -0.0008,  0.0087,  0.0226,
+         0.0112, -0.0119], device='cuda:0'), grad: tensor([ 1.0245e-08,  7.0781e-08, -7.9162e-08,  0.0000e+00, -1.8999e-07,
+        -1.9558e-08,  1.8626e-08,  3.9116e-08,  7.4506e-09,  1.5367e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 454, time 214.78, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4406 re_mapping 0.0027 re_causal 0.0099 /// teacc 99.14 lr 0.00001000
+Epoch 456, weight, value: tensor([[-0.3220,  0.0873, -0.2143,  ..., -0.1146, -0.2920, -0.1765],
+        [-0.0085,  0.1073, -0.1296,  ..., -0.1460, -0.0849,  0.1335],
+        [ 0.0507, -0.1600, -0.1943,  ...,  0.0005, -0.0625, -0.1232],
+        ...,
+        [ 0.1159, -0.1136,  0.1489,  ...,  0.0771,  0.2268, -0.0260],
+        [ 0.1445, -0.2690, -0.1853,  ..., -0.3765, -0.1253,  0.2383],
+        [-0.2194,  0.0944,  0.0765,  ..., -0.3643, -0.1702, -0.1121]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -6.7055e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -0.0000e+00],
+        [-8.3819e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -7.7300e-08],
+        [ 2.7940e-09,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.9558e-08],
+        ...,
+        [ 1.8626e-09,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.4901e-08],
+        [ 9.3132e-10, -9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  3.2596e-08],
+        [ 0.0000e+00,  2.7008e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 456, bias, value: tensor([-0.0149, -0.0218, -0.0100, -0.0202,  0.0045, -0.0009,  0.0088,  0.0226,
+         0.0112, -0.0119], device='cuda:0'), grad: tensor([-1.3784e-07, -9.4064e-08,  2.7008e-08,  2.7940e-09,  2.7940e-09,
+         1.0245e-08,  8.3819e-08,  1.9558e-08,  3.7253e-08,  5.8673e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 455, time 214.57, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4282 re_mapping 0.0027 re_causal 0.0097 /// teacc 99.12 lr 0.00001000
+Epoch 457, weight, value: tensor([[-0.3220,  0.0874, -0.2144,  ..., -0.1146, -0.2920, -0.1766],
+        [-0.0085,  0.1075, -0.1296,  ..., -0.1462, -0.0849,  0.1336],
+        [ 0.0508, -0.1602, -0.1944,  ...,  0.0005, -0.0625, -0.1232],
+        ...,
+        [ 0.1159, -0.1138,  0.1490,  ...,  0.0772,  0.2269, -0.0260],
+        [ 0.1446, -0.2691, -0.1854,  ..., -0.3766, -0.1254,  0.2384],
+        [-0.2196,  0.0944,  0.0766,  ..., -0.3644, -0.1702, -0.1123]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 2.6077e-08,  9.3132e-10,  2.0489e-08,  ...,  2.7940e-08,
+          2.4214e-08,  0.0000e+00],
+        [-3.2596e-08,  0.0000e+00,  1.0245e-08,  ..., -3.5390e-08,
+         -2.7940e-09,  9.3132e-10],
+        ...,
+        [-1.5832e-08,  0.0000e+00, -4.6566e-08,  ..., -6.5193e-09,
+         -4.3772e-08,  9.3132e-10],
+        [ 2.7940e-09,  9.3132e-10,  5.5879e-09,  ...,  2.7940e-09,
+          6.5193e-09, -2.7940e-09],
+        [ 3.7253e-09, -0.0000e+00,  2.7940e-09,  ...,  1.8626e-09,
+          4.6566e-09,  0.0000e+00]], device='cuda:0')
+Epoch 457, bias, value: tensor([-0.0148, -0.0218, -0.0100, -0.0201,  0.0044, -0.0009,  0.0088,  0.0226,
+         0.0112, -0.0120], device='cuda:0'), grad: tensor([ 6.5193e-09,  1.6578e-07, -2.1420e-07,  8.1956e-08,  2.5146e-08,
+        -5.0291e-08,  5.5879e-09, -3.5390e-08,  7.4506e-09,  9.3132e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 456, time 215.10, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4305 re_mapping 0.0027 re_causal 0.0096 /// teacc 99.13 lr 0.00001000
+Epoch 458, weight, value: tensor([[-0.3221,  0.0874, -0.2144,  ..., -0.1146, -0.2921, -0.1766],
+        [-0.0085,  0.1075, -0.1296,  ..., -0.1463, -0.0849,  0.1336],
+        [ 0.0508, -0.1603, -0.1945,  ...,  0.0006, -0.0624, -0.1232],
+        ...,
+        [ 0.1159, -0.1138,  0.1490,  ...,  0.0771,  0.2268, -0.0261],
+        [ 0.1447, -0.2692, -0.1855,  ..., -0.3767, -0.1255,  0.2385],
+        [-0.2196,  0.0943,  0.0767,  ..., -0.3645, -0.1702, -0.1124]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.1176e-08, -1.8626e-09,  6.5193e-09,  ...,  2.7940e-09,
+          3.7253e-09, -7.4506e-09],
+        [-5.5879e-08,  9.3132e-10,  9.3132e-10,  ..., -3.7253e-09,
+          9.3132e-10,  9.3132e-10],
+        ...,
+        [-4.6566e-09,  3.7253e-09, -6.5193e-09,  ..., -1.8626e-09,
+         -4.6566e-09,  5.5879e-09],
+        [ 3.3528e-08,  0.0000e+00,  9.3132e-10,  ...,  3.7253e-09,
+          0.0000e+00, -1.5832e-08],
+        [ 3.7253e-09,  5.5879e-09,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 458, bias, value: tensor([-0.0148, -0.0218, -0.0099, -0.0201,  0.0044, -0.0009,  0.0088,  0.0225,
+         0.0112, -0.0121], device='cuda:0'), grad: tensor([ 0.0000e+00,  2.1420e-08, -1.7881e-07, -1.3970e-08, -1.7695e-08,
+         2.1420e-08,  3.4459e-08,  1.0245e-08,  1.0617e-07,  2.4214e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 457, time 214.68, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4558 re_mapping 0.0027 re_causal 0.0099 /// teacc 99.10 lr 0.00001000
+Epoch 459, weight, value: tensor([[-0.3221,  0.0875, -0.2145,  ..., -0.1147, -0.2921, -0.1766],
+        [-0.0085,  0.1075, -0.1297,  ..., -0.1464, -0.0849,  0.1337],
+        [ 0.0508, -0.1604, -0.1948,  ...,  0.0006, -0.0625, -0.1233],
+        ...,
+        [ 0.1159, -0.1139,  0.1491,  ...,  0.0772,  0.2269, -0.0261],
+        [ 0.1448, -0.2693, -0.1856,  ..., -0.3768, -0.1255,  0.2387],
+        [-0.2197,  0.0943,  0.0768,  ..., -0.3646, -0.1702, -0.1125]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  5.5879e-09,  7.4506e-09,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 9.3132e-09,  3.7253e-09,  9.3132e-10,  ...,  0.0000e+00,
+          9.3132e-10,  1.8626e-08],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        ...,
+        [-1.8626e-09,  9.3132e-10, -9.3132e-10,  ..., -0.0000e+00,
+         -1.8626e-09,  1.8626e-09],
+        [-1.5926e-07,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00, -2.1607e-07],
+        [ 9.3132e-10, -1.4901e-08, -1.9558e-08,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 459, bias, value: tensor([-0.0147, -0.0218, -0.0100, -0.0202,  0.0045, -0.0009,  0.0088,  0.0226,
+         0.0111, -0.0121], device='cuda:0'), grad: tensor([ 1.7695e-08,  6.2399e-08,  5.5879e-09,  4.2841e-08,  7.4506e-09,
+        -9.3132e-10,  7.3854e-07,  1.8626e-09, -8.3540e-07, -3.5390e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 458, time 215.19, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4086 re_mapping 0.0026 re_causal 0.0094 /// teacc 99.09 lr 0.00001000
+Epoch 460, weight, value: tensor([[-0.3221,  0.0875, -0.2145,  ..., -0.1147, -0.2921, -0.1766],
+        [-0.0086,  0.1075, -0.1297,  ..., -0.1466, -0.0850,  0.1337],
+        [ 0.0508, -0.1605, -0.1949,  ...,  0.0006, -0.0625, -0.1233],
+        ...,
+        [ 0.1160, -0.1140,  0.1492,  ...,  0.0772,  0.2270, -0.0261],
+        [ 0.1449, -0.2695, -0.1857,  ..., -0.3769, -0.1256,  0.2388],
+        [-0.2198,  0.0943,  0.0768,  ..., -0.3647, -0.1703, -0.1126]],
+       device='cuda:0'), grad: tensor([[-1.8626e-09, -8.3819e-09,  9.3132e-10,  ...,  9.3132e-10,
+          0.0000e+00, -2.7940e-09],
+        [ 9.3132e-10, -0.0000e+00,  1.8626e-08,  ...,  1.3970e-08,
+          1.8626e-09, -1.8626e-08],
+        [-8.3819e-09,  1.8626e-09,  4.6566e-09,  ..., -3.7253e-09,
+         -4.6566e-09,  9.3132e-10],
+        ...,
+        [ 4.6566e-09,  5.5879e-09,  9.3132e-10,  ...,  6.5193e-09,
+          9.3132e-10,  9.3132e-09],
+        [ 1.8626e-09,  4.6566e-09,  2.7940e-09,  ...,  1.8626e-09,
+          0.0000e+00,  8.3819e-09],
+        [ 9.3132e-10, -9.3132e-10, -4.6566e-09,  ...,  9.3132e-10,
+          0.0000e+00,  2.7940e-09]], device='cuda:0')
+Epoch 460, bias, value: tensor([-0.0147, -0.0218, -0.0099, -0.0203,  0.0045, -0.0009,  0.0088,  0.0226,
+         0.0112, -0.0122], device='cuda:0'), grad: tensor([-1.4901e-08,  1.4901e-08, -1.3039e-08, -6.7987e-08,  8.3819e-09,
+         7.4506e-09, -1.8626e-09,  4.3772e-08,  2.6077e-08,  9.3132e-10],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 459, time 215.51, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4545 re_mapping 0.0026 re_causal 0.0100 /// teacc 99.12 lr 0.00001000
+Epoch 461, weight, value: tensor([[-0.3222,  0.0875, -0.2145,  ..., -0.1148, -0.2922, -0.1766],
+        [-0.0086,  0.1076, -0.1298,  ..., -0.1466, -0.0851,  0.1338],
+        [ 0.0508, -0.1606, -0.1951,  ...,  0.0006, -0.0625, -0.1233],
+        ...,
+        [ 0.1160, -0.1141,  0.1493,  ...,  0.0772,  0.2271, -0.0261],
+        [ 0.1449, -0.2696, -0.1858,  ..., -0.3769, -0.1257,  0.2389],
+        [-0.2200,  0.0944,  0.0768,  ..., -0.3648, -0.1704, -0.1128]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  4.0978e-08,  0.0000e+00,  ...,  2.7940e-09,
+          3.7253e-09,  6.2399e-08],
+        [ 2.5146e-08, -9.0804e-08,  1.2107e-08,  ...,  1.6764e-08,
+          2.5611e-08, -1.3644e-07],
+        [-5.8673e-08,  2.3283e-09,  1.4435e-08,  ..., -4.6566e-08,
+         -5.2154e-08,  5.5879e-09],
+        ...,
+        [ 1.2573e-08,  2.1886e-08, -3.3062e-08,  ...,  1.4901e-08,
+          5.1223e-09,  2.7940e-08],
+        [ 4.1910e-09,  9.7789e-09,  0.0000e+00,  ...,  2.7940e-09,
+          4.1910e-09,  1.4901e-08],
+        [ 3.2596e-09,  3.2596e-09,  1.8626e-09,  ...,  1.8626e-09,
+          3.2596e-09,  5.1223e-09]], device='cuda:0')
+Epoch 461, bias, value: tensor([-0.0147, -0.0218, -0.0099, -0.0203,  0.0046, -0.0008,  0.0087,  0.0226,
+         0.0111, -0.0122], device='cuda:0'), grad: tensor([ 1.8487e-07, -2.9150e-07, -2.5425e-07,  1.6298e-08,  1.4901e-08,
+         2.8871e-08,  4.5169e-08,  1.9278e-07,  5.5414e-08,  2.3283e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 460, time 215.11, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4339 re_mapping 0.0027 re_causal 0.0100 /// teacc 99.14 lr 0.00001000
+Epoch 462, weight, value: tensor([[-0.3223,  0.0875, -0.2146,  ..., -0.1148, -0.2922, -0.1766],
+        [-0.0085,  0.1078, -0.1298,  ..., -0.1467, -0.0850,  0.1339],
+        [ 0.0508, -0.1607, -0.1952,  ...,  0.0007, -0.0625, -0.1234],
+        ...,
+        [ 0.1160, -0.1143,  0.1493,  ...,  0.0772,  0.2270, -0.0262],
+        [ 0.1448, -0.2698, -0.1859,  ..., -0.3770, -0.1258,  0.2388],
+        [-0.2201,  0.0944,  0.0769,  ..., -0.3649, -0.1704, -0.1129]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  9.3132e-10,  1.3970e-09,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 1.8626e-09, -8.3819e-09, -4.6566e-10,  ...,  1.3970e-09,
+          1.8626e-09, -2.0489e-08],
+        [-0.0000e+00,  4.6566e-10,  2.3283e-09,  ..., -2.7940e-09,
+         -2.7940e-09,  4.1910e-09],
+        ...,
+        [ 2.7940e-09,  1.1642e-08,  2.3283e-09,  ...,  2.7940e-09,
+          4.6566e-10,  2.1420e-08],
+        [-3.3528e-08,  1.8626e-09,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00, -6.1933e-08],
+        [-1.3970e-09, -2.3283e-09, -1.4435e-08,  ...,  0.0000e+00,
+         -0.0000e+00,  5.1223e-09]], device='cuda:0')
+Epoch 462, bias, value: tensor([-0.0147, -0.0217, -0.0099, -0.0203,  0.0046, -0.0008,  0.0087,  0.0225,
+         0.0109, -0.0123], device='cuda:0'), grad: tensor([ 4.6566e-09, -3.6787e-08,  0.0000e+00,  6.9384e-08, -1.2573e-08,
+        -6.5193e-08,  7.0781e-08,  6.1467e-08, -8.2888e-08,  4.6566e-10],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 461, time 214.54, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4392 re_mapping 0.0027 re_causal 0.0097 /// teacc 99.14 lr 0.00001000
+Epoch 463, weight, value: tensor([[-0.3223,  0.0876, -0.2146,  ..., -0.1149, -0.2922, -0.1767],
+        [-0.0086,  0.1078, -0.1299,  ..., -0.1469, -0.0851,  0.1339],
+        [ 0.0508, -0.1608, -0.1953,  ...,  0.0007, -0.0624, -0.1234],
+        ...,
+        [ 0.1161, -0.1143,  0.1494,  ...,  0.0772,  0.2271, -0.0262],
+        [ 0.1448, -0.2698, -0.1860,  ..., -0.3771, -0.1259,  0.2388],
+        [-0.2201,  0.0943,  0.0769,  ..., -0.3651, -0.1705, -0.1130]],
+       device='cuda:0'), grad: tensor([[-0.0000e+00, -9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.3970e-09,  1.3970e-09,  ...,  9.3132e-10,
+          0.0000e+00, -1.3970e-09],
+        [ 4.6566e-09,  4.6566e-10,  9.3132e-10,  ...,  2.7940e-09,
+          0.0000e+00,  3.7253e-09],
+        ...,
+        [ 0.0000e+00,  1.8626e-09,  9.3132e-10,  ...,  4.6566e-10,
+          0.0000e+00,  2.3283e-09],
+        [-6.5193e-09,  4.6566e-10,  4.6566e-10,  ..., -2.7940e-09,
+          0.0000e+00, -4.6566e-09],
+        [ 0.0000e+00,  1.1642e-08,  3.2596e-09,  ...,  0.0000e+00,
+         -0.0000e+00,  3.2596e-09]], device='cuda:0')
+Epoch 463, bias, value: tensor([-0.0147, -0.0217, -0.0098, -0.0202,  0.0046, -0.0009,  0.0087,  0.0226,
+         0.0109, -0.0124], device='cuda:0'), grad: tensor([-3.2596e-09,  4.6566e-09,  1.4901e-08, -3.2596e-09, -3.5390e-08,
+         1.5832e-08, -5.1223e-08,  7.9162e-09,  2.4680e-08,  3.4459e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 462, time 214.91, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4106 re_mapping 0.0027 re_causal 0.0095 /// teacc 99.16 lr 0.00001000
+Epoch 464, weight, value: tensor([[-0.3223,  0.0876, -0.2146,  ..., -0.1149, -0.2922, -0.1767],
+        [-0.0086,  0.1080, -0.1300,  ..., -0.1471, -0.0852,  0.1341],
+        [ 0.0509, -0.1609, -0.1954,  ...,  0.0008, -0.0624, -0.1234],
+        ...,
+        [ 0.1161, -0.1145,  0.1495,  ...,  0.0771,  0.2272, -0.0263],
+        [ 0.1448, -0.2700, -0.1862,  ..., -0.3772, -0.1260,  0.2389],
+        [-0.2203,  0.0943,  0.0770,  ..., -0.3652, -0.1705, -0.1132]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  3.0734e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  7.9162e-08],
+        [ 8.3819e-08, -1.0151e-07,  3.9116e-08,  ...,  9.3132e-09,
+          5.1223e-08, -1.2759e-07],
+        [-9.3132e-10,  2.7940e-09,  0.0000e+00,  ..., -9.3132e-10,
+         -9.3132e-10,  5.5879e-09],
+        ...,
+        [-9.8720e-08,  2.5146e-08, -4.6566e-08,  ..., -1.0245e-08,
+         -5.9605e-08, -9.3132e-10],
+        [ 4.6566e-09,  7.4506e-09,  2.7940e-09,  ...,  9.3132e-10,
+          3.7253e-09,  8.3819e-09],
+        [ 8.3819e-09,  3.0734e-08,  5.5879e-09,  ...,  9.3132e-10,
+          4.6566e-09,  1.5832e-08]], device='cuda:0')
+Epoch 464, bias, value: tensor([-0.0147, -0.0217, -0.0098, -0.0203,  0.0047, -0.0009,  0.0087,  0.0225,
+         0.0108, -0.0125], device='cuda:0'), grad: tensor([ 1.7416e-07, -2.8312e-07,  1.3039e-08,  3.7253e-09, -1.9558e-08,
+         2.7940e-09,  3.1665e-08, -7.1712e-08,  4.7497e-08,  9.9652e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 463, time 214.89, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4100 re_mapping 0.0027 re_causal 0.0098 /// teacc 99.13 lr 0.00001000
+Epoch 465, weight, value: tensor([[-0.3223,  0.0876, -0.2147,  ..., -0.1149, -0.2923, -0.1767],
+        [-0.0087,  0.1081, -0.1300,  ..., -0.1471, -0.0852,  0.1342],
+        [ 0.0509, -0.1610, -0.1954,  ...,  0.0008, -0.0624, -0.1235],
+        ...,
+        [ 0.1161, -0.1146,  0.1496,  ...,  0.0771,  0.2272, -0.0263],
+        [ 0.1447, -0.2702, -0.1863,  ..., -0.3773, -0.1261,  0.2389],
+        [-0.2204,  0.0943,  0.0770,  ..., -0.3653, -0.1706, -0.1133]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -6.5193e-09,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [-3.3528e-08, -1.3970e-08,  5.5879e-09,  ...,  2.7940e-09,
+          5.5879e-09, -8.1025e-08],
+        [ 9.3132e-09,  3.7253e-09,  3.7253e-09,  ...,  2.7940e-09,
+          9.3132e-10,  1.8626e-08],
+        ...,
+        [-2.7940e-09,  2.7940e-09, -7.4506e-09,  ..., -2.7940e-09,
+         -9.3132e-09,  1.3970e-08],
+        [ 1.4901e-08,  9.3132e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  3.5390e-08],
+        [ 1.8626e-09,  1.8626e-09, -2.7940e-09,  ...,  9.3132e-10,
+          1.8626e-09,  1.8626e-09]], device='cuda:0')
+Epoch 465, bias, value: tensor([-0.0147, -0.0217, -0.0098, -0.0203,  0.0047, -0.0009,  0.0087,  0.0225,
+         0.0106, -0.0125], device='cuda:0'), grad: tensor([-1.3039e-08, -2.2724e-07,  5.9605e-08, -9.3132e-09,  6.5193e-09,
+         9.3132e-09,  3.2596e-08,  2.6077e-08,  1.1269e-07,  1.0245e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 464, time 214.63, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4240 re_mapping 0.0027 re_causal 0.0097 /// teacc 99.13 lr 0.00001000
+Epoch 466, weight, value: tensor([[-0.3223,  0.0877, -0.2147,  ..., -0.1150, -0.2923, -0.1767],
+        [-0.0087,  0.1081, -0.1301,  ..., -0.1472, -0.0853,  0.1342],
+        [ 0.0509, -0.1612, -0.1955,  ...,  0.0008, -0.0624, -0.1235],
+        ...,
+        [ 0.1162, -0.1147,  0.1497,  ...,  0.0772,  0.2273, -0.0263],
+        [ 0.1448, -0.2703, -0.1864,  ..., -0.3774, -0.1262,  0.2389],
+        [-0.2205,  0.0943,  0.0771,  ..., -0.3653, -0.1706, -0.1134]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -3.7253e-09,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 5.5879e-09, -1.6764e-08,  7.4506e-09,  ...,  3.7253e-09,
+          5.5879e-09, -2.7940e-09],
+        [-1.8626e-08,  9.3132e-10,  4.6566e-09,  ..., -1.2107e-08,
+         -1.3039e-08,  0.0000e+00],
+        ...,
+        [-3.7253e-09,  1.2107e-08, -3.3528e-08,  ..., -9.3132e-09,
+         -4.6566e-09,  2.7940e-09],
+        [ 9.3132e-10,  0.0000e+00,  1.8626e-09,  ...,  1.8626e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 1.8626e-09, -2.7940e-09, -1.2107e-08,  ...,  1.8626e-09,
+          1.8626e-09,  9.3132e-10]], device='cuda:0')
+Epoch 466, bias, value: tensor([-0.0146, -0.0217, -0.0098, -0.0203,  0.0047, -0.0009,  0.0087,  0.0226,
+         0.0106, -0.0126], device='cuda:0'), grad: tensor([-3.7253e-09, -5.1223e-08, -3.7253e-08,  3.7253e-08,  3.6322e-08,
+         6.9849e-08, -7.0781e-08,  2.4214e-08,  6.5193e-09, -9.3132e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 465, time 214.65, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4345 re_mapping 0.0027 re_causal 0.0098 /// teacc 99.17 lr 0.00001000
+Epoch 467, weight, value: tensor([[-0.3224,  0.0876, -0.2149,  ..., -0.1150, -0.2923, -0.1767],
+        [-0.0087,  0.1082, -0.1301,  ..., -0.1473, -0.0853,  0.1342],
+        [ 0.0510, -0.1613, -0.1956,  ...,  0.0009, -0.0623, -0.1235],
+        ...,
+        [ 0.1162, -0.1148,  0.1497,  ...,  0.0771,  0.2274, -0.0264],
+        [ 0.1448, -0.2705, -0.1865,  ..., -0.3774, -0.1262,  0.2390],
+        [-0.2206,  0.0944,  0.0771,  ..., -0.3654, -0.1707, -0.1135]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 3.7253e-09, -9.3132e-10,  5.5879e-09,  ...,  3.7253e-09,
+          5.5879e-09, -5.5879e-09],
+        [ 1.0245e-08,  0.0000e+00,  1.4901e-08,  ...,  3.7253e-09,
+          1.3039e-08,  9.3132e-10],
+        ...,
+        [-1.8626e-08,  6.5193e-09, -1.7695e-08,  ..., -1.2107e-08,
+         -2.3283e-08,  7.4506e-09],
+        [ 9.3132e-10,  3.7253e-09,  6.5193e-09,  ...,  9.3132e-10,
+          9.3132e-10,  9.3132e-10],
+        [ 0.0000e+00, -5.1223e-08, -7.9162e-08,  ...,  0.0000e+00,
+          0.0000e+00, -9.3132e-09]], device='cuda:0')
+Epoch 467, bias, value: tensor([-0.0146, -0.0217, -0.0097, -0.0203,  0.0047, -0.0009,  0.0087,  0.0226,
+         0.0105, -0.0126], device='cuda:0'), grad: tensor([ 2.7940e-09,  5.5879e-09,  1.0245e-08,  1.2107e-08,  1.7043e-07,
+         2.7940e-09, -3.7253e-09, -5.5879e-09,  2.0489e-08, -2.1141e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 466, time 215.11, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4220 re_mapping 0.0026 re_causal 0.0096 /// teacc 99.12 lr 0.00001000
+Epoch 468, weight, value: tensor([[-0.3224,  0.0877, -0.2150,  ..., -0.1150, -0.2923, -0.1767],
+        [-0.0086,  0.1084, -0.1300,  ..., -0.1475, -0.0852,  0.1345],
+        [ 0.0510, -0.1613, -0.1957,  ...,  0.0010, -0.0623, -0.1235],
+        ...,
+        [ 0.1161, -0.1151,  0.1496,  ...,  0.0772,  0.2273, -0.0267],
+        [ 0.1449, -0.2706, -0.1866,  ..., -0.3775, -0.1263,  0.2391],
+        [-0.2207,  0.0944,  0.0772,  ..., -0.3655, -0.1708, -0.1135]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09, -9.3132e-10,  9.3132e-10,  ...,  3.7253e-09,
+          2.7940e-09,  0.0000e+00],
+        [ 1.5832e-08,  9.3132e-10,  1.3039e-08,  ...,  1.1176e-08,
+          1.5832e-08,  9.3132e-10],
+        [ 2.3283e-08,  0.0000e+00,  4.7497e-08,  ..., -1.4901e-08,
+          2.5146e-08,  9.3132e-10],
+        ...,
+        [-5.8673e-08,  2.7940e-09, -6.7987e-08,  ..., -1.5832e-08,
+         -6.1467e-08,  1.8626e-09],
+        [-9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          1.8626e-09, -2.7940e-09],
+        [ 8.3819e-09,  6.5193e-09,  3.7253e-09,  ...,  4.6566e-09,
+          9.3132e-09,  3.7253e-09]], device='cuda:0')
+Epoch 468, bias, value: tensor([-0.0146, -0.0215, -0.0096, -0.0203,  0.0047, -0.0009,  0.0087,  0.0224,
+         0.0105, -0.0127], device='cuda:0'), grad: tensor([ 9.3132e-09,  4.4703e-08,  5.5879e-09,  2.1420e-08, -2.7940e-08,
+         9.3132e-10,  2.7940e-09, -9.3132e-08, -9.3132e-10,  4.1910e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 467, time 215.20, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4285 re_mapping 0.0026 re_causal 0.0098 /// teacc 99.13 lr 0.00001000
+Epoch 469, weight, value: tensor([[-0.3224,  0.0877, -0.2150,  ..., -0.1150, -0.2924, -0.1767],
+        [-0.0085,  0.1085, -0.1299,  ..., -0.1477, -0.0851,  0.1347],
+        [ 0.0510, -0.1614, -0.1960,  ...,  0.0010, -0.0623, -0.1235],
+        ...,
+        [ 0.1161, -0.1153,  0.1497,  ...,  0.0773,  0.2273, -0.0268],
+        [ 0.1450, -0.2707, -0.1867,  ..., -0.3776, -0.1263,  0.2392],
+        [-0.2209,  0.0944,  0.0772,  ..., -0.3657, -0.1709, -0.1136]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -1.3970e-08,  9.3132e-10,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 4.6566e-09, -3.7253e-09,  4.6566e-09,  ...,  2.7940e-09,
+          4.6566e-09, -1.7695e-08],
+        [-3.7253e-09,  0.0000e+00,  7.4506e-09,  ..., -1.4901e-08,
+         -1.2107e-08,  9.3132e-10],
+        ...,
+        [-1.2107e-08,  1.8626e-09, -2.8871e-08,  ...,  3.7253e-09,
+         -4.6566e-09,  1.0245e-08],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 6.5193e-09,  1.8626e-09,  7.4506e-09,  ...,  2.7940e-09,
+          6.5193e-09,  0.0000e+00]], device='cuda:0')
+Epoch 469, bias, value: tensor([-0.0146, -0.0214, -0.0096, -0.0205,  0.0047, -0.0008,  0.0086,  0.0223,
+         0.0105, -0.0127], device='cuda:0'), grad: tensor([-3.1665e-08, -2.4214e-08, -2.8871e-08,  1.1176e-08,  1.4901e-08,
+         1.6764e-08, -1.8626e-09,  1.1176e-08,  8.3819e-09,  1.8626e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 468, time 215.25, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4227 re_mapping 0.0026 re_causal 0.0096 /// teacc 99.11 lr 0.00001000
+Epoch 470, weight, value: tensor([[-0.3225,  0.0878, -0.2150,  ..., -0.1151, -0.2924, -0.1767],
+        [-0.0086,  0.1085, -0.1299,  ..., -0.1479, -0.0852,  0.1347],
+        [ 0.0510, -0.1615, -0.1961,  ...,  0.0010, -0.0623, -0.1235],
+        ...,
+        [ 0.1161, -0.1154,  0.1497,  ...,  0.0774,  0.2274, -0.0269],
+        [ 0.1451, -0.2708, -0.1868,  ..., -0.3777, -0.1264,  0.2393],
+        [-0.2210,  0.0944,  0.0773,  ..., -0.3658, -0.1710, -0.1137]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  9.3132e-10,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 2.7940e-09,  0.0000e+00,  8.3819e-09,  ...,  3.7253e-09,
+          3.7253e-09, -3.7253e-09],
+        [ 2.7940e-09,  0.0000e+00,  5.5879e-09,  ...,  2.7940e-09,
+          3.7253e-09,  0.0000e+00],
+        ...,
+        [-9.3132e-09,  1.8626e-09, -1.7695e-08,  ..., -9.3132e-09,
+         -1.2107e-08,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10, -5.5879e-09, -6.5193e-09,  ...,  2.7940e-09,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 470, bias, value: tensor([-0.0146, -0.0214, -0.0096, -0.0206,  0.0047, -0.0009,  0.0086,  0.0223,
+         0.0105, -0.0127], device='cuda:0'), grad: tensor([ 2.7940e-09,  6.5193e-09,  9.3132e-09, -1.4901e-08,  2.4214e-08,
+         3.7253e-09,  9.3132e-10, -2.1420e-08,  1.8626e-09, -1.6764e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 469, time 214.93, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4278 re_mapping 0.0027 re_causal 0.0096 /// teacc 99.11 lr 0.00001000
+Epoch 471, weight, value: tensor([[-0.3225,  0.0878, -0.2150,  ..., -0.1151, -0.2924, -0.1768],
+        [-0.0086,  0.1085, -0.1300,  ..., -0.1481, -0.0852,  0.1348],
+        [ 0.0510, -0.1615, -0.1962,  ...,  0.0010, -0.0623, -0.1236],
+        ...,
+        [ 0.1162, -0.1154,  0.1498,  ...,  0.0774,  0.2275, -0.0269],
+        [ 0.1453, -0.2708, -0.1868,  ..., -0.3777, -0.1263,  0.2396],
+        [-0.2211,  0.0944,  0.0772,  ..., -0.3659, -0.1711, -0.1137]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -2.7940e-09,  9.3132e-10,  ..., -0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 2.7940e-09, -2.7940e-09,  9.3132e-10,  ...,  0.0000e+00,
+          1.8626e-09, -5.5879e-09],
+        [-9.3132e-09,  0.0000e+00, -9.3132e-10,  ..., -9.3132e-10,
+         -5.5879e-09, -7.4506e-09],
+        ...,
+        [ 4.6566e-09,  1.3970e-08,  2.0489e-08,  ...,  0.0000e+00,
+          5.5879e-09,  8.3819e-09],
+        [ 5.5879e-09,  7.4506e-09,  9.3132e-10,  ...,  0.0000e+00,
+          9.3132e-10,  1.8626e-09],
+        [-0.0000e+00, -9.3132e-09, -4.4703e-08,  ...,  0.0000e+00,
+         -5.5879e-09,  3.7253e-09]], device='cuda:0')
+Epoch 471, bias, value: tensor([-0.0146, -0.0215, -0.0095, -0.0206,  0.0047, -0.0010,  0.0087,  0.0224,
+         0.0107, -0.0127], device='cuda:0'), grad: tensor([-1.8626e-09, -5.5879e-09, -2.6077e-08,  8.3819e-09,  6.1467e-08,
+        -8.9407e-08,  1.1176e-08,  7.4506e-08,  4.5635e-08, -6.7987e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 470, time 215.20, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4095 re_mapping 0.0027 re_causal 0.0096 /// teacc 99.10 lr 0.00001000
+Epoch 472, weight, value: tensor([[-0.3226,  0.0878, -0.2150,  ..., -0.1151, -0.2925, -0.1768],
+        [-0.0086,  0.1086, -0.1300,  ..., -0.1483, -0.0852,  0.1349],
+        [ 0.0511, -0.1617, -0.1962,  ...,  0.0013, -0.0621, -0.1237],
+        ...,
+        [ 0.1161, -0.1155,  0.1499,  ...,  0.0772,  0.2274, -0.0270],
+        [ 0.1456, -0.2709, -0.1868,  ..., -0.3778, -0.1263,  0.2399],
+        [-0.2212,  0.0945,  0.0773,  ..., -0.3660, -0.1711, -0.1138]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 5.1223e-08,  5.5879e-09,  6.3330e-08,  ...,  2.7940e-09,
+          5.6811e-08,  1.3970e-08],
+        [-4.6566e-09,  0.0000e+00,  0.0000e+00,  ..., -9.3132e-09,
+         -9.3132e-10,  0.0000e+00],
+        ...,
+        [-6.7055e-08,  1.8626e-09, -8.2888e-08,  ..., -0.0000e+00,
+         -7.4506e-08, -1.0245e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.3970e-08, -1.8626e-09,  1.3039e-08,  ...,  0.0000e+00,
+          1.6764e-08,  4.6566e-09]], device='cuda:0')
+Epoch 472, bias, value: tensor([-0.0146, -0.0215, -0.0094, -0.0206,  0.0046, -0.0010,  0.0087,  0.0223,
+         0.0109, -0.0127], device='cuda:0'), grad: tensor([ 2.8871e-08,  1.2200e-07, -5.5879e-08,  1.6764e-08, -1.5832e-08,
+         0.0000e+00,  9.3132e-10, -1.2759e-07,  9.3132e-10,  2.4214e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 471, time 214.85, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4433 re_mapping 0.0027 re_causal 0.0098 /// teacc 99.13 lr 0.00001000
+Epoch 473, weight, value: tensor([[-0.3226,  0.0878, -0.2151,  ..., -0.1151, -0.2925, -0.1768],
+        [-0.0086,  0.1086, -0.1301,  ..., -0.1484, -0.0853,  0.1350],
+        [ 0.0511, -0.1618, -0.1964,  ...,  0.0013, -0.0621, -0.1238],
+        ...,
+        [ 0.1162, -0.1156,  0.1500,  ...,  0.0772,  0.2274, -0.0271],
+        [ 0.1458, -0.2711, -0.1869,  ..., -0.3779, -0.1263,  0.2400],
+        [-0.2213,  0.0946,  0.0774,  ..., -0.3661, -0.1712, -0.1138]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -2.2352e-08,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  9.3132e-10,  4.6566e-09,  ...,  1.8626e-09,
+          1.8626e-09, -1.8626e-09],
+        [-2.7008e-08,  0.0000e+00,  2.7940e-09,  ..., -1.3970e-08,
+         -2.1420e-08,  0.0000e+00],
+        ...,
+        [ 2.4214e-08,  9.3132e-10, -2.7940e-09,  ...,  1.3970e-08,
+          1.8626e-08,  1.8626e-09],
+        [-9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00, -1.8626e-09],
+        [ 9.3132e-10,  2.4214e-08,  1.8626e-09,  ...,  9.3132e-10,
+          0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 473, bias, value: tensor([-0.0146, -0.0215, -0.0094, -0.0206,  0.0045, -0.0010,  0.0088,  0.0223,
+         0.0110, -0.0127], device='cuda:0'), grad: tensor([-4.7497e-08,  5.5879e-09, -4.3772e-08, -1.3970e-08, -3.7253e-09,
+         4.6566e-09,  4.6566e-09,  4.5635e-08, -2.7940e-09,  5.5879e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 472, time 214.89, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4316 re_mapping 0.0027 re_causal 0.0097 /// teacc 99.12 lr 0.00001000
+Epoch 474, weight, value: tensor([[-0.3226,  0.0878, -0.2152,  ..., -0.1152, -0.2925, -0.1768],
+        [-0.0087,  0.1087, -0.1302,  ..., -0.1486, -0.0854,  0.1350],
+        [ 0.0512, -0.1619, -0.1964,  ...,  0.0014, -0.0620, -0.1238],
+        ...,
+        [ 0.1162, -0.1157,  0.1501,  ...,  0.0771,  0.2275, -0.0271],
+        [ 0.1458, -0.2712, -0.1870,  ..., -0.3780, -0.1264,  0.2402],
+        [-0.2215,  0.0946,  0.0773,  ..., -0.3661, -0.1714, -0.1139]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -0.0000e+00],
+        [ 2.7940e-09,  0.0000e+00,  1.0245e-08,  ...,  1.3039e-08,
+          9.3132e-10,  9.3132e-10],
+        [ 9.3132e-10,  0.0000e+00,  5.5879e-09,  ...,  5.5879e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  7.4506e-09,  ...,  9.3132e-09,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  2.7940e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 474, bias, value: tensor([-0.0146, -0.0215, -0.0093, -0.0205,  0.0046, -0.0011,  0.0088,  0.0223,
+         0.0110, -0.0128], device='cuda:0'), grad: tensor([-1.4901e-08,  2.6077e-08,  8.3819e-09, -5.4948e-08,  1.8626e-09,
+         0.0000e+00,  6.5193e-09,  1.9558e-08,  6.5193e-09,  1.4901e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 473, time 215.25, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4442 re_mapping 0.0026 re_causal 0.0096 /// teacc 99.12 lr 0.00001000
+Epoch 475, weight, value: tensor([[-0.3227,  0.0879, -0.2153,  ..., -0.1153, -0.2926, -0.1769],
+        [-0.0087,  0.1087, -0.1301,  ..., -0.1487, -0.0854,  0.1351],
+        [ 0.0513, -0.1619, -0.1964,  ...,  0.0016, -0.0618, -0.1239],
+        ...,
+        [ 0.1162, -0.1158,  0.1501,  ...,  0.0770,  0.2275, -0.0272],
+        [ 0.1459, -0.2713, -0.1872,  ..., -0.3781, -0.1265,  0.2402],
+        [-0.2215,  0.0945,  0.0774,  ..., -0.3662, -0.1714, -0.1141]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -2.0489e-08,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [-1.8626e-09,  0.0000e+00, -9.3132e-10,  ..., -1.8626e-09,
+         -1.8626e-09,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.6077e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 475, bias, value: tensor([-0.0145, -0.0215, -0.0091, -0.0205,  0.0046, -0.0012,  0.0088,  0.0222,
+         0.0109, -0.0129], device='cuda:0'), grad: tensor([-3.4459e-08,  3.7253e-09, -7.4506e-09,  6.7987e-08, -2.3283e-08,
+        -7.3574e-08,  7.4506e-09,  5.5879e-09,  1.8626e-09,  5.4948e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 474, time 215.01, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4096 re_mapping 0.0026 re_causal 0.0093 /// teacc 99.11 lr 0.00001000
+Epoch 476, weight, value: tensor([[-0.3228,  0.0880, -0.2153,  ..., -0.1154, -0.2927, -0.1769],
+        [-0.0086,  0.1088, -0.1300,  ..., -0.1489, -0.0854,  0.1353],
+        [ 0.0513, -0.1621, -0.1965,  ...,  0.0016, -0.0618, -0.1239],
+        ...,
+        [ 0.1161, -0.1159,  0.1500,  ...,  0.0770,  0.2274, -0.0274],
+        [ 0.1460, -0.2714, -0.1873,  ..., -0.3783, -0.1265,  0.2404],
+        [-0.2216,  0.0945,  0.0775,  ..., -0.3663, -0.1714, -0.1143]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  1.8626e-09,  2.7940e-09,  ...,  1.8626e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  9.3132e-10,  ...,  1.8626e-09,
+          9.3132e-10,  0.0000e+00],
+        [-1.8626e-09,  0.0000e+00,  9.3132e-10,  ..., -1.8626e-09,
+         -1.8626e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10, -7.4506e-09, -9.3132e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 476, bias, value: tensor([-0.0145, -0.0214, -0.0090, -0.0205,  0.0046, -0.0012,  0.0088,  0.0220,
+         0.0109, -0.0129], device='cuda:0'), grad: tensor([ 1.2107e-08,  6.5193e-09, -1.2107e-08,  2.7940e-09,  1.4901e-08,
+         9.3132e-10, -4.6566e-09,  3.7253e-09,  4.6566e-09, -1.9558e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 475, time 214.76, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4095 re_mapping 0.0025 re_causal 0.0092 /// teacc 99.13 lr 0.00001000
+Epoch 477, weight, value: tensor([[-0.3229,  0.0881, -0.2153,  ..., -0.1155, -0.2928, -0.1769],
+        [-0.0087,  0.1088, -0.1301,  ..., -0.1491, -0.0854,  0.1354],
+        [ 0.0513, -0.1621, -0.1966,  ...,  0.0017, -0.0618, -0.1240],
+        ...,
+        [ 0.1161, -0.1160,  0.1501,  ...,  0.0770,  0.2275, -0.0274],
+        [ 0.1460, -0.2716, -0.1874,  ..., -0.3785, -0.1267,  0.2405],
+        [-0.2218,  0.0945,  0.0775,  ..., -0.3665, -0.1715, -0.1145]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.3039e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -9.3132e-10],
+        [ 4.1723e-07, -5.5879e-09,  3.7346e-07,  ...,  9.3132e-10,
+          4.3586e-07,  2.3935e-07],
+        [ 2.7940e-09,  1.8626e-09,  1.8626e-09,  ...,  0.0000e+00,
+          2.7940e-09,  2.7940e-09],
+        ...,
+        [-4.4145e-07,  4.6566e-09, -3.9954e-07,  ...,  0.0000e+00,
+         -4.6846e-07, -2.6636e-07],
+        [-7.4506e-09,  4.6566e-09,  1.8626e-09,  ...,  0.0000e+00,
+          9.3132e-10, -1.3970e-08],
+        [ 2.3283e-08,  6.7987e-08,  1.3039e-08,  ...,  0.0000e+00,
+          2.4214e-08,  1.8626e-08]], device='cuda:0')
+Epoch 477, bias, value: tensor([-0.0144, -0.0214, -0.0089, -0.0206,  0.0046, -0.0011,  0.0087,  0.0220,
+         0.0108, -0.0130], device='cuda:0'), grad: tensor([-4.0047e-08,  7.2923e-07,  2.1420e-08, -9.3132e-10, -1.3607e-06,
+         6.5193e-09,  9.4064e-08, -7.1991e-07,  2.7940e-09,  1.2834e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 476, time 214.92, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4290 re_mapping 0.0025 re_causal 0.0094 /// teacc 99.13 lr 0.00001000
+Epoch 478, weight, value: tensor([[-0.3229,  0.0881, -0.2155,  ..., -0.1156, -0.2929, -0.1769],
+        [-0.0087,  0.1090, -0.1302,  ..., -0.1493, -0.0855,  0.1355],
+        [ 0.0514, -0.1623, -0.1967,  ...,  0.0018, -0.0617, -0.1240],
+        ...,
+        [ 0.1162, -0.1162,  0.1503,  ...,  0.0770,  0.2276, -0.0275],
+        [ 0.1460, -0.2717, -0.1875,  ..., -0.3785, -0.1268,  0.2405],
+        [-0.2220,  0.0945,  0.0775,  ..., -0.3666, -0.1717, -0.1145]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09, -1.8626e-09, -0.0000e+00,  ...,  2.7940e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 1.0245e-08, -4.6566e-09,  0.0000e+00,  ...,  9.3132e-09,
+          7.4506e-09, -4.2841e-08],
+        [-1.3039e-07,  0.0000e+00, -0.0000e+00,  ..., -9.1270e-08,
+         -1.0058e-07,  0.0000e+00],
+        ...,
+        [ 1.1455e-07,  9.3132e-10,  9.3132e-10,  ...,  7.5437e-08,
+          8.9407e-08,  1.8626e-09],
+        [ 1.8626e-09,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 478, bias, value: tensor([-0.0144, -0.0214, -0.0088, -0.0207,  0.0046, -0.0011,  0.0087,  0.0221,
+         0.0107, -0.0131], device='cuda:0'), grad: tensor([ 6.5193e-09, -4.4703e-08, -3.4273e-07,  2.7940e-09,  6.5193e-09,
+        -1.8626e-08,  9.4995e-08,  2.8498e-07,  8.3819e-09,  3.7253e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 477, time 214.97, cls_loss 0.0006 cls_loss_mapping 0.0003 cls_loss_causal 0.4339 re_mapping 0.0026 re_causal 0.0094 /// teacc 99.13 lr 0.00001000
+Epoch 479, weight, value: tensor([[-0.3230,  0.0882, -0.2155,  ..., -0.1156, -0.2929, -0.1770],
+        [-0.0088,  0.1092, -0.1303,  ..., -0.1494, -0.0856,  0.1356],
+        [ 0.0514, -0.1624, -0.1968,  ...,  0.0019, -0.0617, -0.1241],
+        ...,
+        [ 0.1163, -0.1164,  0.1505,  ...,  0.0771,  0.2278, -0.0276],
+        [ 0.1460, -0.2719, -0.1877,  ..., -0.3787, -0.1268,  0.2406],
+        [-0.2221,  0.0945,  0.0776,  ..., -0.3667, -0.1718, -0.1147]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 6.5193e-09,  2.7940e-08,  2.7940e-09,  ...,  9.3132e-10,
+          9.3132e-10,  3.8184e-08],
+        [ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          9.3132e-10,  9.3132e-10],
+        ...,
+        [ 3.0734e-08,  3.7253e-09,  1.2107e-08,  ...,  0.0000e+00,
+          0.0000e+00,  3.5390e-08],
+        [-5.7742e-08, -9.3132e-10, -1.8626e-08,  ..., -9.3132e-10,
+          0.0000e+00, -6.6124e-08],
+        [ 9.3132e-10,  1.8626e-09, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09]], device='cuda:0')
+Epoch 479, bias, value: tensor([-0.0144, -0.0213, -0.0088, -0.0207,  0.0046, -0.0011,  0.0086,  0.0220,
+         0.0106, -0.0132], device='cuda:0'), grad: tensor([ 4.6566e-09,  1.0896e-07,  3.7253e-09,  3.7253e-09, -9.1270e-08,
+         5.5879e-08,  1.0245e-08,  1.1642e-07, -2.0303e-07,  8.3819e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 478, time 214.79, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.3908 re_mapping 0.0026 re_causal 0.0092 /// teacc 99.12 lr 0.00001000
+Epoch 480, weight, value: tensor([[-0.3231,  0.0882, -0.2156,  ..., -0.1157, -0.2929, -0.1770],
+        [-0.0088,  0.1092, -0.1304,  ..., -0.1495, -0.0857,  0.1357],
+        [ 0.0515, -0.1624, -0.1970,  ...,  0.0020, -0.0616, -0.1242],
+        ...,
+        [ 0.1163, -0.1165,  0.1506,  ...,  0.0770,  0.2278, -0.0276],
+        [ 0.1461, -0.2722, -0.1878,  ..., -0.3788, -0.1269,  0.2407],
+        [-0.2223,  0.0945,  0.0777,  ..., -0.3668, -0.1718, -0.1148]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-1.2498e-06, -3.8743e-07, -2.3842e-06,  ...,  0.0000e+00,
+         -2.2724e-07, -1.4836e-06],
+        [ 9.3132e-10,  1.8626e-09,  2.7940e-09,  ...,  0.0000e+00,
+          9.3132e-10,  9.3132e-10],
+        ...,
+        [ 1.2275e-06,  3.8277e-07,  2.3395e-06,  ..., -2.7940e-09,
+          2.1979e-07,  1.4585e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 8.3819e-09,  5.5879e-09,  1.0245e-08,  ...,  9.3132e-10,
+          2.7940e-09,  1.1176e-08]], device='cuda:0')
+Epoch 480, bias, value: tensor([-0.0144, -0.0213, -0.0087, -0.0207,  0.0047, -0.0011,  0.0086,  0.0220,
+         0.0105, -0.0133], device='cuda:0'), grad: tensor([-6.5193e-09, -6.1207e-06,  1.0245e-08,  8.1956e-08,  1.2107e-08,
+        -3.3528e-08,  7.4506e-09,  6.0126e-06,  9.3132e-10,  4.5635e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 479, time 214.79, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4137 re_mapping 0.0026 re_causal 0.0094 /// teacc 99.13 lr 0.00001000
+Epoch 481, weight, value: tensor([[-0.3231,  0.0883, -0.2156,  ..., -0.1157, -0.2930, -0.1769],
+        [-0.0088,  0.1093, -0.1304,  ..., -0.1497, -0.0857,  0.1358],
+        [ 0.0515, -0.1626, -0.1971,  ...,  0.0020, -0.0616, -0.1242],
+        ...,
+        [ 0.1163, -0.1166,  0.1506,  ...,  0.0770,  0.2278, -0.0277],
+        [ 0.1461, -0.2724, -0.1880,  ..., -0.3789, -0.1270,  0.2407],
+        [-0.2224,  0.0945,  0.0778,  ..., -0.3670, -0.1719, -0.1149]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.0245e-08,  2.7940e-09,  5.5879e-09,  ...,  3.7253e-09,
+          5.5879e-09,  3.7253e-09],
+        [ 2.1420e-08,  0.0000e+00,  9.3132e-10,  ..., -9.3132e-10,
+          0.0000e+00,  3.0734e-08],
+        ...,
+        [-3.7253e-09,  9.3132e-10, -6.5193e-09,  ..., -3.7253e-09,
+         -6.5193e-09,  5.5879e-09],
+        [-4.0047e-08,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          9.3132e-10, -5.5879e-08],
+        [ 0.0000e+00, -2.7940e-09, -3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 481, bias, value: tensor([-0.0143, -0.0212, -0.0087, -0.0207,  0.0046, -0.0011,  0.0085,  0.0219,
+         0.0104, -0.0133], device='cuda:0'), grad: tensor([ 0.0000e+00,  2.9802e-08,  2.7008e-08,  4.6566e-09,  2.7940e-09,
+        -5.5879e-09,  1.6764e-08, -5.5879e-09, -6.1467e-08, -6.5193e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 480, time 215.00, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4177 re_mapping 0.0026 re_causal 0.0094 /// teacc 99.12 lr 0.00001000
+Epoch 482, weight, value: tensor([[-0.3232,  0.0884, -0.2157,  ..., -0.1158, -0.2930, -0.1770],
+        [-0.0088,  0.1093, -0.1305,  ..., -0.1500, -0.0858,  0.1358],
+        [ 0.0515, -0.1627, -0.1973,  ...,  0.0020, -0.0616, -0.1243],
+        ...,
+        [ 0.1164, -0.1166,  0.1507,  ...,  0.0771,  0.2279, -0.0277],
+        [ 0.1461, -0.2725, -0.1881,  ..., -0.3790, -0.1270,  0.2408],
+        [-0.2225,  0.0946,  0.0779,  ..., -0.3670, -0.1719, -0.1150]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09, -1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10, -0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [-6.0536e-08,  0.0000e+00,  0.0000e+00,  ..., -1.8626e-08,
+         -2.7940e-08, -5.5879e-09],
+        ...,
+        [ 2.3283e-08,  0.0000e+00,  0.0000e+00,  ...,  8.3819e-09,
+          1.1176e-08,  2.7940e-09],
+        [ 2.2352e-08,  9.3132e-10,  0.0000e+00,  ...,  6.5193e-09,
+          9.3132e-09,  1.8626e-09],
+        [ 1.3039e-08,  9.3132e-10,  0.0000e+00,  ...,  3.7253e-09,
+          5.5879e-09,  9.3132e-10]], device='cuda:0')
+Epoch 482, bias, value: tensor([-0.0143, -0.0212, -0.0087, -0.0206,  0.0045, -0.0009,  0.0084,  0.0220,
+         0.0102, -0.0133], device='cuda:0'), grad: tensor([ 2.5146e-08,  5.5879e-09, -1.3504e-07, -4.6566e-09, -6.2399e-08,
+        -1.7695e-08,  2.0489e-08,  5.8673e-08,  5.8673e-08,  4.8429e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 481, time 214.78, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4061 re_mapping 0.0026 re_causal 0.0093 /// teacc 99.12 lr 0.00001000
+Epoch 483, weight, value: tensor([[-0.3233,  0.0884, -0.2157,  ..., -0.1158, -0.2931, -0.1770],
+        [-0.0090,  0.1094, -0.1308,  ..., -0.1501, -0.0861,  0.1357],
+        [ 0.0515, -0.1628, -0.1974,  ...,  0.0021, -0.0616, -0.1244],
+        ...,
+        [ 0.1166, -0.1167,  0.1510,  ...,  0.0771,  0.2283, -0.0276],
+        [ 0.1460, -0.2726, -0.1882,  ..., -0.3791, -0.1271,  0.2408],
+        [-0.2227,  0.0947,  0.0780,  ..., -0.3671, -0.1721, -0.1151]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  1.8626e-09,  2.7940e-09,  ...,  1.8626e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10,  1.8626e-09,  4.6566e-09,  ...,  1.8626e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  9.3132e-10,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [-8.3819e-09, -4.6566e-09, -1.7695e-08,  ..., -1.1176e-08,
+         -8.3819e-09,  9.3132e-10],
+        [-0.0000e+00,  1.8626e-09,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00, -1.8626e-09],
+        [ 2.7940e-09, -3.7253e-09, -1.8626e-09,  ...,  3.7253e-09,
+          2.7940e-09,  9.3132e-10]], device='cuda:0')
+Epoch 483, bias, value: tensor([-0.0143, -0.0214, -0.0086, -0.0206,  0.0044, -0.0010,  0.0085,  0.0222,
+         0.0101, -0.0132], device='cuda:0'), grad: tensor([ 8.3819e-09,  8.3819e-09,  1.8626e-09,  1.8626e-09,  1.9558e-08,
+        -1.6764e-08,  1.3970e-08, -2.7940e-08,  3.7253e-09, -3.7253e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 482, time 214.82, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4221 re_mapping 0.0026 re_causal 0.0094 /// teacc 99.10 lr 0.00001000
+Epoch 484, weight, value: tensor([[-0.3233,  0.0885, -0.2158,  ..., -0.1159, -0.2931, -0.1770],
+        [-0.0090,  0.1095, -0.1308,  ..., -0.1502, -0.0861,  0.1359],
+        [ 0.0515, -0.1630, -0.1975,  ...,  0.0021, -0.0616, -0.1245],
+        ...,
+        [ 0.1166, -0.1169,  0.1511,  ...,  0.0771,  0.2283, -0.0277],
+        [ 0.1460, -0.2728, -0.1885,  ..., -0.3792, -0.1272,  0.2408],
+        [-0.2228,  0.0947,  0.0781,  ..., -0.3672, -0.1722, -0.1152]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  4.6566e-09,  ...,  0.0000e+00,
+          0.0000e+00, -0.0000e+00],
+        [ 0.0000e+00, -0.0000e+00,  6.0536e-09,  ...,  4.6566e-10,
+          0.0000e+00, -1.6764e-08],
+        [ 4.6566e-10,  9.3132e-10,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-09],
+        ...,
+        [ 4.6566e-10,  1.4901e-08,  1.6298e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.0710e-08],
+        [-1.3690e-07,  6.0536e-09,  7.4506e-09,  ...,  0.0000e+00,
+          0.0000e+00, -1.4715e-07],
+        [ 0.0000e+00, -6.9849e-08, -8.7544e-08,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 484, bias, value: tensor([-0.0142, -0.0214, -0.0086, -0.0205,  0.0043, -0.0010,  0.0085,  0.0221,
+         0.0100, -0.0133], device='cuda:0'), grad: tensor([ 7.9162e-09, -1.2107e-08,  7.4506e-09,  4.3772e-08,  6.5658e-08,
+         2.7893e-07,  1.3504e-07,  7.4506e-08, -3.1665e-07, -2.6124e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 483, time 214.71, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4298 re_mapping 0.0026 re_causal 0.0095 /// teacc 99.07 lr 0.00001000
+Epoch 485, weight, value: tensor([[-0.3234,  0.0886, -0.2159,  ..., -0.1160, -0.2931, -0.1771],
+        [-0.0091,  0.1095, -0.1308,  ..., -0.1505, -0.0862,  0.1360],
+        [ 0.0515, -0.1631, -0.1977,  ...,  0.0021, -0.0616, -0.1245],
+        ...,
+        [ 0.1167, -0.1170,  0.1512,  ...,  0.0771,  0.2284, -0.0278],
+        [ 0.1461, -0.2729, -0.1886,  ..., -0.3793, -0.1272,  0.2409],
+        [-0.2230,  0.0948,  0.0782,  ..., -0.3673, -0.1723, -0.1155]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-09,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 3.2596e-09,  2.6543e-08,  1.8626e-09,  ...,  1.8626e-09,
+          1.3970e-09,  9.3132e-10],
+        [-1.3039e-08,  0.0000e+00,  5.1223e-09,  ..., -6.0536e-09,
+          4.1910e-09,  0.0000e+00],
+        ...,
+        [-3.7253e-09,  1.3970e-09, -8.8476e-09,  ..., -2.3283e-09,
+         -7.4506e-09,  0.0000e+00],
+        [ 2.3283e-09,  4.6566e-10,  0.0000e+00,  ...,  1.3970e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -1.3504e-08, -1.3039e-08,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 485, bias, value: tensor([-0.0142, -0.0214, -0.0086, -0.0206,  0.0044, -0.0011,  0.0086,  0.0221,
+         0.0100, -0.0133], device='cuda:0'), grad: tensor([ 6.5193e-09,  7.9628e-08, -3.9116e-08,  2.2352e-08, -5.2620e-08,
+        -7.4506e-09,  2.2817e-08,  5.1223e-09,  7.4506e-09, -3.6322e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 484, time 214.53, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4032 re_mapping 0.0026 re_causal 0.0093 /// teacc 99.10 lr 0.00001000
+Epoch 486, weight, value: tensor([[-0.3234,  0.0886, -0.2159,  ..., -0.1160, -0.2932, -0.1771],
+        [-0.0091,  0.1096, -0.1308,  ..., -0.1507, -0.0862,  0.1361],
+        [ 0.0515, -0.1632, -0.1978,  ...,  0.0022, -0.0615, -0.1245],
+        ...,
+        [ 0.1167, -0.1171,  0.1512,  ...,  0.0772,  0.2284, -0.0279],
+        [ 0.1463, -0.2730, -0.1887,  ..., -0.3794, -0.1273,  0.2412],
+        [-0.2232,  0.0948,  0.0781,  ..., -0.3674, -0.1725, -0.1156]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -7.4506e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [ 1.3970e-09,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09],
+        [ 9.3132e-10,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        ...,
+        [ 4.6566e-10,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09],
+        [-9.3132e-09,  9.3132e-10, -0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -1.9558e-08],
+        [ 5.1223e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.1176e-08]], device='cuda:0')
+Epoch 486, bias, value: tensor([-0.0142, -0.0213, -0.0086, -0.0206,  0.0045, -0.0011,  0.0086,  0.0220,
+         0.0101, -0.0134], device='cuda:0'), grad: tensor([-2.0955e-08,  6.9849e-09,  4.6566e-09,  1.3970e-08, -1.8626e-09,
+         3.7253e-09,  1.0245e-08,  6.0536e-09, -3.3993e-08,  2.5611e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 485, time 214.70, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4503 re_mapping 0.0026 re_causal 0.0097 /// teacc 99.13 lr 0.00001000
+Epoch 487, weight, value: tensor([[-0.3234,  0.0884, -0.2160,  ..., -0.1160, -0.2932, -0.1771],
+        [-0.0090,  0.1097, -0.1308,  ..., -0.1508, -0.0862,  0.1362],
+        [ 0.0515, -0.1633, -0.1979,  ...,  0.0022, -0.0616, -0.1246],
+        ...,
+        [ 0.1167, -0.1173,  0.1512,  ...,  0.0772,  0.2285, -0.0280],
+        [ 0.1464, -0.2732, -0.1888,  ..., -0.3794, -0.1273,  0.2413],
+        [-0.2233,  0.0951,  0.0782,  ..., -0.3675, -0.1725, -0.1157]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -3.2596e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [-1.9092e-08, -5.1223e-09, -3.3528e-08,  ...,  2.3283e-09,
+         -1.2107e-08, -5.9605e-08],
+        [-1.0710e-08,  9.3132e-10, -3.2596e-09,  ..., -1.3504e-08,
+         -7.9162e-09,  2.3283e-09],
+        ...,
+        [ 2.7474e-08,  1.6764e-08,  3.1199e-08,  ...,  1.2573e-08,
+          1.6764e-08,  6.6590e-08],
+        [ 2.3283e-09,  1.4435e-08,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00, -1.3970e-09],
+        [ 5.1223e-09,  3.7253e-09,  7.4506e-09,  ...,  4.6566e-10,
+          3.2596e-09,  7.9162e-09]], device='cuda:0')
+Epoch 487, bias, value: tensor([-0.0144, -0.0212, -0.0086, -0.0207,  0.0045, -0.0011,  0.0086,  0.0219,
+         0.0101, -0.0132], device='cuda:0'), grad: tensor([-5.5879e-09, -1.3178e-07, -2.6077e-08, -4.6566e-10, -3.7253e-08,
+        -3.9767e-07,  2.7101e-07,  2.0117e-07,  1.1176e-07,  3.2596e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 486, time 214.82, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4232 re_mapping 0.0026 re_causal 0.0095 /// teacc 99.10 lr 0.00001000
+Epoch 488, weight, value: tensor([[-0.3235,  0.0885, -0.2160,  ..., -0.1160, -0.2932, -0.1771],
+        [-0.0091,  0.1097, -0.1309,  ..., -0.1511, -0.0863,  0.1362],
+        [ 0.0515, -0.1634, -0.1981,  ...,  0.0022, -0.0616, -0.1247],
+        ...,
+        [ 0.1168, -0.1173,  0.1513,  ...,  0.0773,  0.2286, -0.0280],
+        [ 0.1465, -0.2733, -0.1889,  ..., -0.3795, -0.1274,  0.2415],
+        [-0.2235,  0.0951,  0.0782,  ..., -0.3676, -0.1727, -0.1157]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.0431e-07,  1.8626e-09,  ...,  4.6566e-10,
+          0.0000e+00, -8.7544e-08],
+        [ 2.3283e-09,  8.8476e-09,  7.4506e-09,  ...,  5.1223e-09,
+          7.4506e-09,  1.8626e-09],
+        [-3.2596e-09,  5.1223e-09,  5.1223e-09,  ..., -4.1910e-09,
+         -1.0710e-08,  0.0000e+00],
+        ...,
+        [-4.6566e-10,  2.7940e-09,  6.5193e-09,  ...,  9.3132e-10,
+          1.8626e-09,  9.3132e-10],
+        [-9.3132e-10,  2.7940e-09,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00, -1.8626e-09],
+        [ 4.6566e-10, -2.4680e-08, -3.2596e-08,  ...,  0.0000e+00,
+         -1.8626e-09,  3.7253e-09]], device='cuda:0')
+Epoch 488, bias, value: tensor([-0.0144, -0.0213, -0.0085, -0.0208,  0.0046, -0.0012,  0.0086,  0.0220,
+         0.0100, -0.0133], device='cuda:0'), grad: tensor([-3.8836e-07,  4.5635e-08, -1.4435e-08,  6.0536e-09,  8.8476e-09,
+         6.6124e-08,  3.2037e-07,  2.1886e-08,  4.1910e-09, -6.6124e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 487, time 214.74, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4124 re_mapping 0.0026 re_causal 0.0094 /// teacc 99.11 lr 0.00001000
+Epoch 489, weight, value: tensor([[-0.3235,  0.0886, -0.2161,  ..., -0.1161, -0.2933, -0.1771],
+        [-0.0094,  0.1098, -0.1313,  ..., -0.1512, -0.0867,  0.1360],
+        [ 0.0515, -0.1635, -0.1983,  ...,  0.0023, -0.0616, -0.1248],
+        ...,
+        [ 0.1171, -0.1174,  0.1518,  ...,  0.0773,  0.2290, -0.0278],
+        [ 0.1466, -0.2734, -0.1889,  ..., -0.3796, -0.1274,  0.2416],
+        [-0.2237,  0.0950,  0.0781,  ..., -0.3677, -0.1730, -0.1160]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  0.0000e+00,  4.6566e-10,  ...,  1.3970e-09,
+          1.3970e-09,  1.3970e-09],
+        [ 1.7136e-07, -1.3970e-09,  3.5856e-08,  ...,  1.2061e-07,
+          1.5367e-07,  1.8813e-07],
+        [-2.1141e-07,  0.0000e+00, -3.5390e-08,  ..., -1.5460e-07,
+         -1.8254e-07, -2.5844e-07],
+        ...,
+        [ 2.4680e-08,  2.3283e-09, -3.2596e-09,  ...,  2.2817e-08,
+          1.4435e-08,  5.8208e-08],
+        [ 2.3283e-09,  4.6566e-10,  4.6566e-10,  ...,  1.8626e-09,
+          1.8626e-09,  2.3283e-09],
+        [ 7.4506e-09,  2.3283e-09, -0.0000e+00,  ...,  5.1223e-09,
+          6.5193e-09,  8.3819e-09]], device='cuda:0')
+Epoch 489, bias, value: tensor([-0.0143, -0.0215, -0.0086, -0.0208,  0.0045, -0.0012,  0.0086,  0.0223,
+         0.0101, -0.0134], device='cuda:0'), grad: tensor([ 7.4506e-09,  6.2538e-07, -8.1724e-07,  6.5193e-09, -4.6566e-10,
+        -1.4901e-08,  9.3132e-09,  1.4110e-07,  1.0245e-08,  3.2131e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 488, time 215.28, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4284 re_mapping 0.0025 re_causal 0.0094 /// teacc 99.09 lr 0.00001000
+Epoch 490, weight, value: tensor([[-0.3236,  0.0887, -0.2161,  ..., -0.1161, -0.2933, -0.1771],
+        [-0.0094,  0.1099, -0.1312,  ..., -0.1513, -0.0867,  0.1361],
+        [ 0.0516, -0.1636, -0.1984,  ...,  0.0024, -0.0615, -0.1248],
+        ...,
+        [ 0.1171, -0.1175,  0.1518,  ...,  0.0773,  0.2290, -0.0278],
+        [ 0.1467, -0.2736, -0.1890,  ..., -0.3797, -0.1275,  0.2418],
+        [-0.2239,  0.0950,  0.0780,  ..., -0.3678, -0.1731, -0.1161]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -6.9849e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.5367e-08, -1.3970e-09,  1.9558e-08,  ...,  0.0000e+00,
+          1.5367e-08, -3.2596e-09],
+        [ 4.6566e-10,  4.6566e-10,  9.3132e-10,  ...,  0.0000e+00,
+          4.6566e-10,  4.6566e-10],
+        ...,
+        [-1.9092e-08,  1.8626e-09, -2.4214e-08,  ...,  0.0000e+00,
+         -2.0023e-08,  2.3283e-09],
+        [ 4.6566e-10,  9.3132e-10,  9.3132e-10,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 3.7253e-09,  2.3283e-09,  2.3283e-09,  ...,  0.0000e+00,
+          3.2596e-09,  9.3132e-10]], device='cuda:0')
+Epoch 490, bias, value: tensor([-0.0142, -0.0214, -0.0084, -0.0208,  0.0044, -0.0012,  0.0086,  0.0222,
+         0.0101, -0.0135], device='cuda:0'), grad: tensor([-2.9011e-07,  2.7008e-08,  4.1910e-09,  1.0245e-08,  3.2596e-09,
+         4.1444e-08,  2.2026e-07, -3.2596e-08,  5.5879e-09,  1.8626e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 489, time 215.10, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4150 re_mapping 0.0025 re_causal 0.0092 /// teacc 99.12 lr 0.00001000
+Epoch 491, weight, value: tensor([[-0.3236,  0.0888, -0.2162,  ..., -0.1161, -0.2934, -0.1772],
+        [-0.0094,  0.1098, -0.1313,  ..., -0.1515, -0.0868,  0.1362],
+        [ 0.0515, -0.1638, -0.1987,  ...,  0.0023, -0.0616, -0.1249],
+        ...,
+        [ 0.1172, -0.1175,  0.1519,  ...,  0.0775,  0.2291, -0.0279],
+        [ 0.1468, -0.2738, -0.1891,  ..., -0.3798, -0.1275,  0.2420],
+        [-0.2241,  0.0951,  0.0782,  ..., -0.3679, -0.1732, -0.1163]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -9.3132e-09,  0.0000e+00,  ...,  4.6566e-10,
+          9.3132e-10, -0.0000e+00],
+        [ 4.6566e-09,  4.6566e-10,  1.3970e-09,  ...,  2.7940e-09,
+          3.7253e-09,  0.0000e+00],
+        [-4.3306e-08,  0.0000e+00,  0.0000e+00,  ..., -2.5146e-08,
+         -3.3993e-08,  0.0000e+00],
+        ...,
+        [ 3.7719e-08,  9.3132e-10,  9.3132e-10,  ...,  2.1886e-08,
+          2.9802e-08,  4.6566e-10],
+        [ 9.3132e-10,  1.3970e-09,  1.3970e-09,  ...,  4.6566e-10,
+          4.6566e-10,  4.6566e-10],
+        [ 9.3132e-10,  2.3283e-09, -2.7940e-09,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00]], device='cuda:0')
+Epoch 491, bias, value: tensor([-0.0142, -0.0215, -0.0086, -0.0210,  0.0043, -0.0012,  0.0087,  0.0223,
+         0.0101, -0.0136], device='cuda:0'), grad: tensor([-1.9092e-08,  1.3504e-08, -1.0431e-07,  6.9849e-09,  4.6566e-09,
+        -1.0245e-08,  1.2107e-08,  9.4529e-08,  8.8476e-09,  9.3132e-10],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 490, time 214.97, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4210 re_mapping 0.0026 re_causal 0.0094 /// teacc 99.09 lr 0.00001000
+Epoch 492, weight, value: tensor([[-0.3237,  0.0888, -0.2163,  ..., -0.1161, -0.2934, -0.1772],
+        [-0.0094,  0.1098, -0.1313,  ..., -0.1516, -0.0868,  0.1362],
+        [ 0.0514, -0.1639, -0.1990,  ...,  0.0023, -0.0617, -0.1250],
+        ...,
+        [ 0.1172, -0.1175,  0.1520,  ...,  0.0775,  0.2292, -0.0279],
+        [ 0.1469, -0.2739, -0.1893,  ..., -0.3798, -0.1276,  0.2421],
+        [-0.2242,  0.0952,  0.0783,  ..., -0.3680, -0.1733, -0.1164]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -2.7940e-09,  4.6566e-10,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 3.2596e-09,  8.1025e-08,  1.2806e-07,  ...,  7.1246e-08,
+          3.7253e-09,  1.3970e-09],
+        [ 4.6566e-10,  3.2596e-09,  5.1223e-09,  ...,  3.7253e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [-2.7940e-09,  1.4901e-08,  1.0245e-08,  ...,  3.7253e-09,
+         -4.1910e-09,  1.2107e-08],
+        [ 0.0000e+00,  2.3283e-09,  1.3970e-09,  ...,  9.3132e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 1.8626e-09,  3.7253e-08,  4.9360e-08,  ...,  3.2596e-08,
+          1.8626e-09,  1.3970e-09]], device='cuda:0')
+Epoch 492, bias, value: tensor([-0.0142, -0.0214, -0.0086, -0.0211,  0.0043, -0.0013,  0.0086,  0.0223,
+         0.0101, -0.0135], device='cuda:0'), grad: tensor([-4.6566e-09,  2.3842e-07,  1.0245e-08, -2.6869e-07, -2.5611e-08,
+        -9.2201e-08, -2.3283e-09,  4.1444e-08,  7.9162e-09,  1.0803e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 491, time 214.86, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4149 re_mapping 0.0026 re_causal 0.0093 /// teacc 99.07 lr 0.00001000
+Epoch 493, weight, value: tensor([[-0.3238,  0.0889, -0.2164,  ..., -0.1162, -0.2934, -0.1772],
+        [-0.0095,  0.1098, -0.1314,  ..., -0.1518, -0.0868,  0.1363],
+        [ 0.0514, -0.1640, -0.1992,  ...,  0.0023, -0.0617, -0.1251],
+        ...,
+        [ 0.1173, -0.1176,  0.1521,  ...,  0.0776,  0.2293, -0.0279],
+        [ 0.1470, -0.2741, -0.1894,  ..., -0.3799, -0.1276,  0.2422],
+        [-0.2243,  0.0952,  0.0783,  ..., -0.3681, -0.1734, -0.1165]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [ 2.3283e-09, -2.3283e-09,  4.6566e-10,  ...,  4.6566e-10,
+          4.6566e-10, -3.7253e-09],
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ..., -9.3132e-10,
+         -9.3132e-10,  2.7940e-09],
+        ...,
+        [ 9.3132e-10,  1.3970e-09,  0.0000e+00,  ...,  4.6566e-10,
+          4.6566e-10,  2.3283e-09],
+        [-1.2107e-08,  4.6566e-10, -4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00, -2.5146e-08],
+        [ 6.5193e-09,  9.3132e-10,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  1.3504e-08]], device='cuda:0')
+Epoch 493, bias, value: tensor([-0.0141, -0.0215, -0.0087, -0.0211,  0.0043, -0.0013,  0.0086,  0.0223,
+         0.0100, -0.0135], device='cuda:0'), grad: tensor([ 2.7940e-09, -2.3283e-09,  2.3283e-09,  6.9849e-09,  2.3283e-09,
+        -2.5146e-08,  1.9092e-08,  1.0710e-08, -4.4703e-08,  2.8405e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 492, time 214.88, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4163 re_mapping 0.0026 re_causal 0.0094 /// teacc 99.08 lr 0.00001000
+Epoch 494, weight, value: tensor([[-0.3238,  0.0890, -0.2164,  ..., -0.1162, -0.2935, -0.1772],
+        [-0.0095,  0.1099, -0.1314,  ..., -0.1521, -0.0869,  0.1364],
+        [ 0.0514, -0.1642, -0.1993,  ...,  0.0023, -0.0618, -0.1251],
+        ...,
+        [ 0.1174, -0.1178,  0.1521,  ...,  0.0777,  0.2294, -0.0281],
+        [ 0.1472, -0.2741, -0.1895,  ..., -0.3800, -0.1277,  0.2424],
+        [-0.2244,  0.0952,  0.0784,  ..., -0.3682, -0.1735, -0.1167]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00, -1.8626e-09,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00, -3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -1.0245e-08, -1.0245e-08,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 494, bias, value: tensor([-0.0140, -0.0215, -0.0087, -0.0212,  0.0042, -0.0013,  0.0085,  0.0223,
+         0.0101, -0.0136], device='cuda:0'), grad: tensor([ 3.7253e-09, -8.8476e-09,  9.3132e-10,  0.0000e+00,  2.6543e-08,
+         2.7940e-09,  1.8626e-09,  5.1223e-09,  9.3132e-10, -2.6077e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 493, time 214.86, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4189 re_mapping 0.0026 re_causal 0.0093 /// teacc 99.10 lr 0.00001000
+Epoch 495, weight, value: tensor([[-0.3239,  0.0891, -0.2164,  ..., -0.1163, -0.2935, -0.1772],
+        [-0.0096,  0.1098, -0.1315,  ..., -0.1522, -0.0870,  0.1365],
+        [ 0.0514, -0.1643, -0.1994,  ...,  0.0023, -0.0618, -0.1252],
+        ...,
+        [ 0.1175, -0.1178,  0.1522,  ...,  0.0778,  0.2295, -0.0281],
+        [ 0.1473, -0.2743, -0.1896,  ..., -0.3800, -0.1277,  0.2425],
+        [-0.2245,  0.0953,  0.0786,  ..., -0.3683, -0.1735, -0.1168]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -2.7940e-09,  1.3970e-09,  ...,  0.0000e+00,
+          0.0000e+00, -9.3598e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-09],
+        ...,
+        [ 0.0000e+00,  4.1910e-09,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  7.9162e-08],
+        [-5.5879e-09,  4.6566e-10, -1.3970e-09,  ...,  0.0000e+00,
+          0.0000e+00, -1.0710e-08],
+        [ 4.6566e-09, -7.9162e-09, -7.4506e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.0245e-08]], device='cuda:0')
+Epoch 495, bias, value: tensor([-0.0140, -0.0215, -0.0087, -0.0211,  0.0041, -0.0015,  0.0086,  0.0223,
+         0.0100, -0.0135], device='cuda:0'), grad: tensor([ 1.3970e-09, -1.2992e-07,  6.9849e-09,  1.3970e-09,  3.2131e-08,
+         1.8626e-09,  2.7940e-09,  1.1502e-07, -2.5146e-08,  3.2596e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 494, time 214.56, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4229 re_mapping 0.0026 re_causal 0.0094 /// teacc 99.10 lr 0.00001000
+Epoch 496, weight, value: tensor([[-0.3239,  0.0892, -0.2165,  ..., -0.1163, -0.2935, -0.1772],
+        [-0.0095,  0.1099, -0.1314,  ..., -0.1523, -0.0870,  0.1366],
+        [ 0.0513, -0.1644, -0.1996,  ...,  0.0023, -0.0618, -0.1253],
+        ...,
+        [ 0.1175, -0.1180,  0.1522,  ...,  0.0778,  0.2295, -0.0282],
+        [ 0.1474, -0.2745, -0.1898,  ..., -0.3801, -0.1278,  0.2426],
+        [-0.2246,  0.0952,  0.0787,  ..., -0.3684, -0.1736, -0.1169]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09, -0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 2.2352e-08,  4.6566e-10,  6.5193e-09,  ...,  9.7789e-09,
+          1.2107e-08,  4.6566e-10],
+        [ 5.5972e-07,  1.8626e-09,  1.8487e-07,  ...,  2.4308e-07,
+          3.0361e-07,  4.6566e-09],
+        ...,
+        [-6.3283e-07,  0.0000e+00, -1.9977e-07,  ..., -2.7195e-07,
+         -3.4133e-07, -6.9849e-09],
+        [ 2.0955e-08,  2.7940e-09,  2.7940e-09,  ...,  7.9162e-09,
+          1.0245e-08,  1.3970e-09],
+        [ 9.7789e-09,  4.6566e-10,  0.0000e+00,  ...,  3.2596e-09,
+          4.1910e-09,  9.3132e-10]], device='cuda:0')
+Epoch 496, bias, value: tensor([-0.0139, -0.0214, -0.0087, -0.0209,  0.0040, -0.0016,  0.0087,  0.0223,
+         0.0100, -0.0135], device='cuda:0'), grad: tensor([ 1.7695e-08,  3.5390e-08,  6.8359e-07,  2.8871e-08,  4.4703e-08,
+        -9.9186e-08,  0.0000e+00, -7.9861e-07,  6.9849e-08,  2.7008e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 495, time 214.77, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4213 re_mapping 0.0025 re_causal 0.0091 /// teacc 99.10 lr 0.00001000
+Epoch 497, weight, value: tensor([[-0.3239,  0.0892, -0.2166,  ..., -0.1164, -0.2935, -0.1771],
+        [-0.0096,  0.1099, -0.1315,  ..., -0.1525, -0.0870,  0.1367],
+        [ 0.0512, -0.1645, -0.1999,  ...,  0.0023, -0.0620, -0.1254],
+        ...,
+        [ 0.1176, -0.1181,  0.1523,  ...,  0.0780,  0.2296, -0.0283],
+        [ 0.1474, -0.2746, -0.1899,  ..., -0.3802, -0.1278,  0.2428],
+        [-0.2248,  0.0954,  0.0788,  ..., -0.3685, -0.1737, -0.1170]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10, -4.6566e-10,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [ 4.6566e-10, -4.6566e-10,  1.3970e-09,  ...,  9.3132e-10,
+          0.0000e+00, -1.8626e-09],
+        [-9.3132e-10,  9.3132e-10,  9.3132e-10,  ...,  9.3132e-10,
+          0.0000e+00,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  1.8626e-09,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [-9.3132e-10,  4.6566e-10,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00, -1.8626e-09],
+        [ 4.6566e-10, -4.6566e-09, -7.9162e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.3970e-09]], device='cuda:0')
+Epoch 497, bias, value: tensor([-0.0139, -0.0215, -0.0089, -0.0210,  0.0038, -0.0016,  0.0087,  0.0223,
+         0.0100, -0.0135], device='cuda:0'), grad: tensor([ 4.6566e-10, -2.7940e-09, -2.7940e-09, -4.1910e-09,  1.4901e-08,
+         4.6566e-09,  0.0000e+00,  7.4506e-09,  0.0000e+00, -1.2573e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 496, time 214.80, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4248 re_mapping 0.0025 re_causal 0.0093 /// teacc 99.09 lr 0.00001000
+Epoch 498, weight, value: tensor([[-0.3240,  0.0892, -0.2166,  ..., -0.1164, -0.2936, -0.1771],
+        [-0.0097,  0.1098, -0.1316,  ..., -0.1528, -0.0871,  0.1367],
+        [ 0.0512, -0.1647, -0.2000,  ...,  0.0023, -0.0620, -0.1254],
+        ...,
+        [ 0.1177, -0.1181,  0.1525,  ...,  0.0781,  0.2298, -0.0283],
+        [ 0.1476, -0.2747, -0.1900,  ..., -0.3803, -0.1279,  0.2430],
+        [-0.2249,  0.0955,  0.0789,  ..., -0.3686, -0.1738, -0.1171]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10, -1.7695e-08,  2.3283e-09,  ...,  2.7940e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 8.8476e-09,  1.3970e-09,  1.0245e-08,  ...,  6.0536e-09,
+          6.5193e-09,  1.3970e-09],
+        [ 5.5879e-09,  9.3132e-10,  1.2573e-08,  ...,  1.2107e-08,
+          2.3283e-09,  9.3132e-10],
+        ...,
+        [-9.7789e-09,  9.3132e-10,  4.6566e-10,  ...,  9.3132e-09,
+         -1.0245e-08, -1.8626e-09],
+        [ 2.3283e-09,  1.3970e-09,  5.1223e-09,  ...,  4.1910e-09,
+          1.3970e-09,  4.6566e-10],
+        [ 4.6566e-10,  9.7789e-09,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 498, bias, value: tensor([-0.0139, -0.0216, -0.0088, -0.0210,  0.0037, -0.0016,  0.0087,  0.0224,
+         0.0100, -0.0133], device='cuda:0'), grad: tensor([-3.5856e-08,  2.9802e-08,  4.3306e-08, -7.1712e-08,  0.0000e+00,
+        -3.5390e-08,  1.0245e-08,  1.9558e-08,  1.8161e-08,  2.5611e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 497, time 214.81, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.3965 re_mapping 0.0026 re_causal 0.0091 /// teacc 99.08 lr 0.00001000
+Epoch 499, weight, value: tensor([[-0.3242,  0.0893, -0.2167,  ..., -0.1165, -0.2937, -0.1770],
+        [-0.0099,  0.1098, -0.1319,  ..., -0.1531, -0.0874,  0.1366],
+        [ 0.0512, -0.1648, -0.2002,  ...,  0.0023, -0.0620, -0.1253],
+        ...,
+        [ 0.1180, -0.1181,  0.1528,  ...,  0.0783,  0.2300, -0.0282],
+        [ 0.1476, -0.2749, -0.1901,  ..., -0.3804, -0.1280,  0.2430],
+        [-0.2251,  0.0956,  0.0789,  ..., -0.3688, -0.1740, -0.1173]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10, -9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.3970e-09],
+        [-1.1642e-08, -3.6322e-08,  5.5879e-09,  ...,  3.2596e-09,
+          7.9162e-09, -7.8231e-08],
+        [-9.3132e-10,  9.3132e-10,  4.6566e-10,  ..., -2.3283e-09,
+         -9.3132e-10,  2.3283e-09],
+        ...,
+        [ 7.9162e-09,  2.8871e-08, -7.4506e-09,  ..., -2.7940e-09,
+         -8.8476e-09,  6.3330e-08],
+        [-4.6566e-10,  1.8626e-09,  0.0000e+00,  ...,  4.6566e-10,
+          4.6566e-10,  9.3132e-10],
+        [ 1.8626e-09,  4.6566e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  6.9849e-09]], device='cuda:0')
+Epoch 499, bias, value: tensor([-0.0138, -0.0218, -0.0087, -0.0211,  0.0036, -0.0016,  0.0086,  0.0226,
+         0.0099, -0.0134], device='cuda:0'), grad: tensor([ 4.6566e-10, -1.8906e-07, -3.7253e-09,  9.3132e-10,  4.6566e-09,
+        -2.6543e-08,  3.4925e-08,  1.5181e-07,  7.9162e-09,  2.1886e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 498, time 214.82, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4403 re_mapping 0.0025 re_causal 0.0096 /// teacc 99.10 lr 0.00001000
+Epoch 500, weight, value: tensor([[-0.3242,  0.0894, -0.2167,  ..., -0.1165, -0.2938, -0.1770],
+        [-0.0100,  0.1099, -0.1319,  ..., -0.1533, -0.0874,  0.1367],
+        [ 0.0511, -0.1649, -0.2006,  ...,  0.0023, -0.0621, -0.1255],
+        ...,
+        [ 0.1181, -0.1182,  0.1529,  ...,  0.0785,  0.2302, -0.0283],
+        [ 0.1477, -0.2750, -0.1902,  ..., -0.3805, -0.1280,  0.2432],
+        [-0.2254,  0.0956,  0.0790,  ..., -0.3689, -0.1741, -0.1175]],
+       device='cuda:0'), grad: tensor([[-2.7940e-09, -1.1176e-08,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00, -3.2596e-09],
+        [ 3.2596e-09,  3.2596e-09,  1.3970e-09,  ...,  2.3283e-09,
+          9.3132e-10,  4.6566e-09],
+        [-9.3132e-10,  4.6566e-10,  0.0000e+00,  ..., -3.7253e-09,
+         -1.3970e-09,  2.7940e-09],
+        ...,
+        [ 1.8626e-09,  1.8626e-09,  9.3132e-10,  ...,  1.3970e-09,
+          4.6566e-10,  1.3970e-09],
+        [-7.9162e-09,  1.8626e-09,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00, -1.2573e-08],
+        [ 4.1910e-09, -3.2596e-09, -1.4901e-08,  ...,  4.6566e-10,
+          0.0000e+00,  1.3504e-08]], device='cuda:0')
+Epoch 500, bias, value: tensor([-0.0138, -0.0218, -0.0089, -0.0211,  0.0034, -0.0016,  0.0087,  0.0227,
+         0.0099, -0.0135], device='cuda:0'), grad: tensor([-2.4680e-08,  2.0955e-08, -9.3132e-09,  4.6566e-10,  1.2107e-08,
+         1.8626e-09,  4.1910e-09,  1.0710e-08, -1.6298e-08,  8.8476e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 499, time 214.93, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4227 re_mapping 0.0025 re_causal 0.0095 /// teacc 99.05 lr 0.00001000
+---------------------saving last model at epoch 499----------------------------------------------------
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 500, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 3
+--------------------------CA_multiple--------------------------
+---------------------------14 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+Epoch 1, weight, value: tensor([[-0.0100, -0.0114, -0.0008,  ..., -0.0300,  0.0253,  0.0120],
+        [ 0.0002,  0.0172, -0.0180,  ...,  0.0283,  0.0296, -0.0199],
+        [ 0.0140,  0.0142,  0.0171,  ...,  0.0041,  0.0127,  0.0219],
+        ...,
+        [-0.0155, -0.0106,  0.0301,  ..., -0.0249, -0.0211, -0.0042],
+        [-0.0038,  0.0173, -0.0014,  ..., -0.0064, -0.0125, -0.0106],
+        [ 0.0016,  0.0114,  0.0042,  ..., -0.0289, -0.0007,  0.0232]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([ 0.0146, -0.0216, -0.0005,  0.0296, -0.0112,  0.0282,  0.0049,  0.0115,
+         0.0094, -0.0021], device='cuda:0'), grad: None
+100
+0.0001
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 231.85, cls_loss 1.3938 cls_loss_mapping 1.8860 cls_loss_causal 2.2245 re_mapping 0.1345 re_causal 0.1397 /// teacc 85.45 lr 0.00010000
+Epoch 2, weight, value: tensor([[-0.0093, -0.0118, -0.0030,  ..., -0.0260,  0.0210,  0.0120],
+        [ 0.0008,  0.0176, -0.0176,  ...,  0.0259,  0.0305, -0.0199],
+        [ 0.0131,  0.0155,  0.0158,  ...,  0.0021,  0.0173,  0.0219],
+        ...,
+        [-0.0163, -0.0116,  0.0276,  ..., -0.0288, -0.0281, -0.0042],
+        [-0.0041,  0.0172, -0.0042,  ..., -0.0102, -0.0097, -0.0106],
+        [ 0.0007,  0.0102,  0.0018,  ..., -0.0340, -0.0060,  0.0232]],
+       device='cuda:0'), grad: tensor([[ 0.0000,  0.0000,  0.0000,  ...,  0.0107,  0.0344,  0.0000],
+        [ 0.0000,  0.0000,  0.0000,  ...,  0.0045, -0.0017,  0.0000],
+        [ 0.0000,  0.0000,  0.0000,  ...,  0.0224, -0.0208,  0.0000],
+        ...,
+        [ 0.0000,  0.0000,  0.0000,  ...,  0.0038,  0.0081,  0.0000],
+        [ 0.0000,  0.0000,  0.0000,  ...,  0.0157,  0.0263,  0.0000],
+        [ 0.0000,  0.0000,  0.0000,  ...,  0.0050,  0.0150,  0.0000]],
+       device='cuda:0')
+Epoch 2, bias, value: tensor([ 0.0124, -0.0185, -0.0008,  0.0294, -0.0118,  0.0289,  0.0053,  0.0118,
+         0.0082, -0.0029], device='cuda:0'), grad: tensor([ 0.0261,  0.0023, -0.0052, -0.0114,  0.0083, -0.0551, -0.0673, -0.0037,
+         0.0613,  0.0446], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 231.40, cls_loss 0.4578 cls_loss_mapping 0.7867 cls_loss_causal 1.9281 re_mapping 0.2059 re_causal 0.2627 /// teacc 92.16 lr 0.00010000
+Epoch 3, weight, value: tensor([[-9.2938e-03, -1.1764e-02, -3.0247e-03,  ..., -2.3329e-02,
+          1.9973e-02,  1.1960e-02],
+        [ 8.7744e-04,  1.7649e-02, -1.7532e-02,  ...,  2.5183e-02,
+          2.9312e-02, -1.9872e-02],
+        [ 1.3047e-02,  1.5507e-02,  1.5782e-02,  ..., -1.7187e-05,
+          1.9124e-02,  2.1870e-02],
+        ...,
+        [-1.6276e-02, -1.1638e-02,  2.7572e-02,  ..., -3.1240e-02,
+         -2.9613e-02, -4.2206e-03],
+        [-4.3214e-03,  1.7225e-02, -4.1866e-03,  ..., -1.3714e-02,
+         -7.7291e-03, -1.0556e-02],
+        [ 7.1773e-04,  1.0208e-02,  1.7482e-03,  ..., -3.5895e-02,
+         -9.1795e-03,  2.3166e-02]], device='cuda:0'), grad: tensor([[ 0.0000,  0.0000,  0.0000,  ...,  0.0271,  0.0068,  0.0000],
+        [ 0.0000,  0.0000,  0.0000,  ..., -0.0011,  0.0105,  0.0000],
+        [ 0.0000,  0.0000,  0.0000,  ...,  0.0045,  0.0060,  0.0000],
+        ...,
+        [ 0.0000,  0.0000,  0.0000,  ...,  0.0009,  0.0037,  0.0000],
+        [ 0.0000,  0.0000,  0.0000,  ...,  0.0041, -0.0287,  0.0000],
+        [ 0.0000,  0.0000,  0.0000,  ...,  0.0044,  0.0039,  0.0000]],
+       device='cuda:0')
+Epoch 3, bias, value: tensor([ 0.0119, -0.0182, -0.0007,  0.0295, -0.0117,  0.0299,  0.0050,  0.0113,
+         0.0077, -0.0028], device='cuda:0'), grad: tensor([ 0.0381,  0.0062,  0.0194,  0.0093, -0.0139, -0.0243, -0.0286,  0.0022,
+        -0.0200,  0.0116], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 231.11, cls_loss 0.2856 cls_loss_mapping 0.4688 cls_loss_causal 1.7267 re_mapping 0.1550 re_causal 0.2505 /// teacc 93.81 lr 0.00010000
+Epoch 4, weight, value: tensor([[-0.0093, -0.0128, -0.0030,  ..., -0.0220,  0.0196,  0.0120],
+        [ 0.0009,  0.0173, -0.0175,  ...,  0.0256,  0.0289, -0.0199],
+        [ 0.0130,  0.0186,  0.0158,  ..., -0.0018,  0.0201,  0.0219],
+        ...,
+        [-0.0163, -0.0126,  0.0276,  ..., -0.0327, -0.0304, -0.0042],
+        [-0.0043,  0.0149, -0.0042,  ..., -0.0160, -0.0058, -0.0106],
+        [ 0.0007,  0.0098,  0.0017,  ..., -0.0372, -0.0114,  0.0232]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.2532e-05,  0.0000e+00,  ...,  5.3024e-04,
+          1.9407e-03,  0.0000e+00],
+        [ 0.0000e+00,  1.2681e-05,  0.0000e+00,  ...,  6.7711e-04,
+          1.2560e-03,  0.0000e+00],
+        [ 0.0000e+00,  7.0953e-03,  0.0000e+00,  ...,  7.2708e-03,
+          5.3497e-02,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -7.3242e-03,  0.0000e+00,  ..., -4.5929e-03,
+         -4.4159e-02,  0.0000e+00],
+        [ 0.0000e+00,  2.4602e-05,  0.0000e+00,  ...,  1.2825e-02,
+          3.9795e-02,  0.0000e+00],
+        [ 0.0000e+00,  2.2147e-06,  0.0000e+00,  ...,  5.0497e-04,
+         -1.8873e-03,  0.0000e+00]], device='cuda:0')
+Epoch 4, bias, value: tensor([ 0.0117, -0.0178, -0.0004,  0.0294, -0.0120,  0.0301,  0.0047,  0.0113,
+         0.0080, -0.0031], device='cuda:0'), grad: tensor([ 0.0018, -0.0016,  0.0365, -0.0023,  0.0026, -0.0017, -0.0288, -0.0201,
+         0.0322, -0.0188], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 231.39, cls_loss 0.2267 cls_loss_mapping 0.3438 cls_loss_causal 1.5339 re_mapping 0.1193 re_causal 0.2169 /// teacc 95.53 lr 0.00010000
+Epoch 5, weight, value: tensor([[-0.0093, -0.0134, -0.0030,  ..., -0.0209,  0.0196,  0.0120],
+        [ 0.0009,  0.0170, -0.0175,  ...,  0.0259,  0.0284, -0.0199],
+        [ 0.0130,  0.0178,  0.0158,  ..., -0.0030,  0.0208,  0.0219],
+        ...,
+        [-0.0163, -0.0112,  0.0276,  ..., -0.0341, -0.0316, -0.0042],
+        [-0.0043,  0.0129, -0.0042,  ..., -0.0181, -0.0045, -0.0106],
+        [ 0.0007,  0.0095,  0.0017,  ..., -0.0379, -0.0128,  0.0232]],
+       device='cuda:0'), grad: tensor([[ 0.0000,  0.0000,  0.0000,  ..., -0.0019,  0.0194,  0.0000],
+        [ 0.0000,  0.0000,  0.0000,  ...,  0.0052,  0.0103,  0.0000],
+        [ 0.0000,  0.0000,  0.0000,  ...,  0.0043, -0.0147,  0.0000],
+        ...,
+        [ 0.0000,  0.0000,  0.0000,  ...,  0.0006,  0.0041,  0.0000],
+        [ 0.0000,  0.0000,  0.0000,  ...,  0.0022,  0.0119,  0.0000],
+        [ 0.0000,  0.0000,  0.0000,  ...,  0.0009, -0.0220,  0.0000]],
+       device='cuda:0')
+Epoch 5, bias, value: tensor([ 0.0121, -0.0173, -0.0003,  0.0291, -0.0116,  0.0298,  0.0046,  0.0111,
+         0.0078, -0.0031], device='cuda:0'), grad: tensor([ 0.0193,  0.0073, -0.0134,  0.0260, -0.0079, -0.0156, -0.0226,  0.0017,
+         0.0151, -0.0099], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 231.05, cls_loss 0.1704 cls_loss_mapping 0.2512 cls_loss_causal 1.4027 re_mapping 0.1000 re_causal 0.2003 /// teacc 95.83 lr 0.00010000
+Epoch 6, weight, value: tensor([[-0.0093, -0.0134, -0.0030,  ..., -0.0199,  0.0197,  0.0120],
+        [ 0.0009,  0.0170, -0.0175,  ...,  0.0268,  0.0285, -0.0199],
+        [ 0.0130,  0.0178,  0.0158,  ..., -0.0044,  0.0214,  0.0219],
+        ...,
+        [-0.0163, -0.0112,  0.0276,  ..., -0.0352, -0.0331, -0.0042],
+        [-0.0043,  0.0129, -0.0042,  ..., -0.0194, -0.0029, -0.0106],
+        [ 0.0007,  0.0095,  0.0017,  ..., -0.0394, -0.0143,  0.0232]],
+       device='cuda:0'), grad: tensor([[ 0.0000,  0.0000,  0.0000,  ..., -0.0091, -0.0091,  0.0000],
+        [ 0.0000,  0.0000,  0.0000,  ...,  0.0023,  0.0042,  0.0000],
+        [ 0.0000,  0.0000,  0.0000,  ..., -0.0006, -0.0194,  0.0000],
+        ...,
+        [ 0.0000,  0.0000,  0.0000,  ...,  0.0006,  0.0017,  0.0000],
+        [ 0.0000,  0.0000,  0.0000,  ...,  0.0075,  0.0224,  0.0000],
+        [ 0.0000,  0.0000,  0.0000,  ...,  0.0022,  0.0031,  0.0000]],
+       device='cuda:0')
+Epoch 6, bias, value: tensor([ 0.0123, -0.0167, -0.0004,  0.0290, -0.0117,  0.0294,  0.0044,  0.0109,
+         0.0080, -0.0031], device='cuda:0'), grad: tensor([-0.0095,  0.0058, -0.0125, -0.0062,  0.0070, -0.0328,  0.0072,  0.0090,
+         0.0296,  0.0024], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 5----------------------------------------------------
+epoch 5, time 232.19, cls_loss 0.1403 cls_loss_mapping 0.2009 cls_loss_causal 1.2733 re_mapping 0.0831 re_causal 0.1784 /// teacc 96.87 lr 0.00010000
+Epoch 7, weight, value: tensor([[-0.0093, -0.0136, -0.0030,  ..., -0.0197,  0.0192,  0.0120],
+        [ 0.0009,  0.0170, -0.0175,  ...,  0.0262,  0.0275, -0.0199],
+        [ 0.0130,  0.0179,  0.0158,  ..., -0.0053,  0.0223,  0.0219],
+        ...,
+        [-0.0163, -0.0112,  0.0276,  ..., -0.0362, -0.0343, -0.0042],
+        [-0.0042,  0.0127, -0.0042,  ..., -0.0206, -0.0015, -0.0106],
+        [ 0.0007,  0.0094,  0.0017,  ..., -0.0400, -0.0157,  0.0232]],
+       device='cuda:0'), grad: tensor([[ 0.0000,  0.0000,  0.0000,  ...,  0.0017, -0.0036,  0.0000],
+        [ 0.0000,  0.0000,  0.0000,  ...,  0.0003,  0.0010,  0.0000],
+        [ 0.0000,  0.0000,  0.0000,  ...,  0.0015,  0.0025,  0.0000],
+        ...,
+        [ 0.0000,  0.0000,  0.0000,  ...,  0.0009,  0.0027,  0.0000],
+        [ 0.0000,  0.0000,  0.0000,  ...,  0.0030, -0.0009,  0.0000],
+        [ 0.0000,  0.0000,  0.0000,  ...,  0.0012,  0.0028,  0.0000]],
+       device='cuda:0')
+Epoch 7, bias, value: tensor([ 0.0123, -0.0168, -0.0003,  0.0288, -0.0116,  0.0292,  0.0043,  0.0110,
+         0.0082, -0.0030], device='cuda:0'), grad: tensor([-0.0120,  0.0004,  0.0056, -0.0004, -0.0185,  0.0036,  0.0042,  0.0066,
+         0.0020,  0.0084], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 6----------------------------------------------------
+epoch 6, time 230.80, cls_loss 0.1203 cls_loss_mapping 0.1726 cls_loss_causal 1.2307 re_mapping 0.0705 re_causal 0.1611 /// teacc 97.13 lr 0.00010000
+Epoch 8, weight, value: tensor([[-0.0096, -0.0137, -0.0030,  ..., -0.0192,  0.0188,  0.0120],
+        [ 0.0008,  0.0168, -0.0175,  ...,  0.0262,  0.0267, -0.0199],
+        [ 0.0128,  0.0175,  0.0158,  ..., -0.0064,  0.0228,  0.0219],
+        ...,
+        [-0.0163, -0.0113,  0.0276,  ..., -0.0370, -0.0348, -0.0042],
+        [-0.0058,  0.0124, -0.0042,  ..., -0.0213, -0.0007, -0.0106],
+        [ 0.0004,  0.0092,  0.0017,  ..., -0.0414, -0.0169,  0.0232]],
+       device='cuda:0'), grad: tensor([[ 0.0000,  0.0000,  0.0000,  ...,  0.0011,  0.0014,  0.0000],
+        [ 0.0000,  0.0000,  0.0000,  ...,  0.0022,  0.0009,  0.0000],
+        [ 0.0000,  0.0000,  0.0000,  ...,  0.0007, -0.0015,  0.0000],
+        ...,
+        [ 0.0000,  0.0000,  0.0000,  ...,  0.0002,  0.0015,  0.0000],
+        [ 0.0000,  0.0000,  0.0000,  ...,  0.0027,  0.0021,  0.0000],
+        [ 0.0000,  0.0000,  0.0000,  ...,  0.0005,  0.0008,  0.0000]],
+       device='cuda:0')
+Epoch 8, bias, value: tensor([ 0.0124, -0.0168, -0.0003,  0.0288, -0.0113,  0.0291,  0.0041,  0.0110,
+         0.0081, -0.0030], device='cuda:0'), grad: tensor([ 0.0021,  0.0057,  0.0009,  0.0005, -0.0181, -0.0112,  0.0013,  0.0044,
+         0.0089,  0.0056], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 7----------------------------------------------------
+epoch 7, time 230.55, cls_loss 0.1114 cls_loss_mapping 0.1632 cls_loss_causal 1.2534 re_mapping 0.0612 re_causal 0.1490 /// teacc 97.19 lr 0.00010000
+Epoch 9, weight, value: tensor([[-0.0149, -0.0137, -0.0030,  ..., -0.0183,  0.0184,  0.0170],
+        [ 0.0049,  0.0168, -0.0175,  ...,  0.0262,  0.0259, -0.0219],
+        [ 0.0073,  0.0175,  0.0158,  ..., -0.0075,  0.0233,  0.0159],
+        ...,
+        [-0.0237, -0.0113,  0.0276,  ..., -0.0374, -0.0353, -0.0039],
+        [-0.0072,  0.0124, -0.0042,  ..., -0.0228,  0.0006, -0.0187],
+        [-0.0051,  0.0092,  0.0017,  ..., -0.0423, -0.0177,  0.0145]],
+       device='cuda:0'), grad: tensor([[ 0.0000,  0.0000,  0.0000,  ...,  0.0011,  0.0022,  0.0000],
+        [ 0.0000,  0.0000,  0.0000,  ...,  0.0055,  0.0025,  0.0000],
+        [ 0.0000,  0.0000,  0.0000,  ...,  0.0028,  0.0036,  0.0000],
+        ...,
+        [ 0.0000,  0.0000,  0.0000,  ...,  0.0003,  0.0018,  0.0000],
+        [ 0.0000,  0.0000,  0.0000,  ...,  0.0016, -0.0039,  0.0000],
+        [ 0.0000,  0.0000,  0.0000,  ...,  0.0005,  0.0033,  0.0000]],
+       device='cuda:0')
+Epoch 9, bias, value: tensor([ 1.2328e-02, -1.6829e-02, -5.0162e-05,  2.8744e-02, -1.1248e-02,
+         2.8744e-02,  4.0316e-03,  1.1183e-02,  8.4184e-03, -3.2370e-03],
+       device='cuda:0'), grad: tensor([ 0.0042, -0.0015,  0.0082,  0.0193, -0.0048, -0.0291, -0.0100,  0.0054,
+        -0.0002,  0.0085], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 8----------------------------------------------------
+epoch 8, time 232.00, cls_loss 0.1004 cls_loss_mapping 0.1419 cls_loss_causal 1.1903 re_mapping 0.0560 re_causal 0.1379 /// teacc 97.23 lr 0.00010000
+Epoch 10, weight, value: tensor([[-0.0149, -0.0137, -0.0030,  ..., -0.0175,  0.0180,  0.0174],
+        [ 0.0049,  0.0168, -0.0175,  ...,  0.0260,  0.0251, -0.0219],
+        [ 0.0073,  0.0175,  0.0158,  ..., -0.0083,  0.0239,  0.0155],
+        ...,
+        [-0.0237, -0.0113,  0.0276,  ..., -0.0383, -0.0365, -0.0040],
+        [-0.0072,  0.0124, -0.0042,  ..., -0.0232,  0.0016, -0.0194],
+        [-0.0051,  0.0092,  0.0017,  ..., -0.0439, -0.0188,  0.0140]],
+       device='cuda:0'), grad: tensor([[ 0.0000,  0.0000,  0.0000,  ...,  0.0096,  0.0079,  0.0000],
+        [ 0.0000,  0.0000,  0.0000,  ..., -0.0002,  0.0002,  0.0000],
+        [ 0.0000,  0.0000,  0.0000,  ...,  0.0007, -0.0005,  0.0000],
+        ...,
+        [ 0.0000,  0.0000,  0.0000,  ...,  0.0004,  0.0006,  0.0000],
+        [ 0.0000,  0.0000,  0.0000,  ...,  0.0006, -0.0003,  0.0000],
+        [ 0.0000,  0.0000,  0.0000,  ..., -0.0100, -0.0075,  0.0000]],
+       device='cuda:0')
+Epoch 10, bias, value: tensor([ 0.0123, -0.0170,  0.0004,  0.0291, -0.0111,  0.0287,  0.0038,  0.0108,
+         0.0085, -0.0033], device='cuda:0'), grad: tensor([ 0.0214, -0.0003, -0.0020,  0.0076,  0.0012, -0.0104,  0.0014,  0.0019,
+         0.0011, -0.0219], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 9----------------------------------------------------
+epoch 9, time 230.65, cls_loss 0.0951 cls_loss_mapping 0.1368 cls_loss_causal 1.1031 re_mapping 0.0531 re_causal 0.1253 /// teacc 97.40 lr 0.00010000
+Epoch 11, weight, value: tensor([[-0.0150, -0.0140, -0.0030,  ..., -0.0168,  0.0176,  0.0131],
+        [ 0.0049,  0.0166, -0.0175,  ...,  0.0265,  0.0244, -0.0321],
+        [ 0.0073,  0.0177,  0.0158,  ..., -0.0095,  0.0243,  0.0079],
+        ...,
+        [-0.0237, -0.0113,  0.0276,  ..., -0.0391, -0.0372,  0.0032],
+        [-0.0072,  0.0123, -0.0042,  ..., -0.0241,  0.0027, -0.0333],
+        [-0.0051,  0.0092,  0.0017,  ..., -0.0450, -0.0197,  0.0091]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.8158e-03,
+         -7.8964e-04, -3.3259e-04],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -8.2731e-05,
+          2.9397e-04,  8.9929e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  8.5735e-04,
+          4.5586e-04,  6.1631e-05],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.6463e-04,
+          8.9347e-05,  7.0147e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.2043e-03,
+          2.1801e-03,  2.3991e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.0640e-04,
+          3.2663e-04,  3.4243e-05]], device='cuda:0')
+Epoch 11, bias, value: tensor([ 0.0121, -0.0168,  0.0003,  0.0294, -0.0109,  0.0285,  0.0034,  0.0108,
+         0.0088, -0.0036], device='cuda:0'), grad: tensor([-0.0008,  0.0261, -0.0030,  0.0094,  0.0074,  0.0049, -0.0079, -0.0114,
+         0.0078, -0.0325], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 10----------------------------------------------------
+epoch 10, time 230.64, cls_loss 0.0825 cls_loss_mapping 0.1230 cls_loss_causal 1.0997 re_mapping 0.0469 re_causal 0.1231 /// teacc 97.57 lr 0.00010000
+Epoch 12, weight, value: tensor([[-0.0152, -0.0143, -0.0030,  ..., -0.0165,  0.0168,  0.0107],
+        [ 0.0049,  0.0165, -0.0175,  ...,  0.0258,  0.0235, -0.0470],
+        [ 0.0072,  0.0178,  0.0158,  ..., -0.0103,  0.0246,  0.0043],
+        ...,
+        [-0.0225, -0.0113,  0.0276,  ..., -0.0395, -0.0379,  0.0064],
+        [-0.0073,  0.0121, -0.0042,  ..., -0.0248,  0.0034, -0.0384],
+        [-0.0058,  0.0091,  0.0017,  ..., -0.0466, -0.0204,  0.0024]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.8204e-02,
+         -5.3787e-03,  1.9092e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.1319e-04,
+          1.3006e-04,  6.3516e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.7861e-04,
+         -6.9857e-04,  3.1712e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.7202e-04,
+          3.9220e-04,  7.2550e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.1387e-03,
+          4.3607e-04,  1.2433e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  7.2908e-04,
+          3.3855e-04,  4.4703e-07]], device='cuda:0')
+Epoch 12, bias, value: tensor([ 0.0121, -0.0174,  0.0004,  0.0294, -0.0111,  0.0285,  0.0036,  0.0109,
+         0.0090, -0.0036], device='cuda:0'), grad: tensor([-0.0137,  0.0009,  0.0013,  0.0034, -0.0055,  0.0028,  0.0064,  0.0062,
+         0.0020, -0.0038], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 11----------------------------------------------------
+epoch 11, time 230.26, cls_loss 0.0615 cls_loss_mapping 0.0927 cls_loss_causal 1.0239 re_mapping 0.0452 re_causal 0.1190 /// teacc 97.78 lr 0.00010000
+Epoch 13, weight, value: tensor([[-0.0145, -0.0146, -0.0030,  ..., -0.0158,  0.0164,  0.0100],
+        [ 0.0051,  0.0164, -0.0175,  ...,  0.0255,  0.0227, -0.0515],
+        [ 0.0070,  0.0180,  0.0158,  ..., -0.0108,  0.0252,  0.0054],
+        ...,
+        [-0.0224, -0.0114,  0.0276,  ..., -0.0398, -0.0386,  0.0070],
+        [-0.0074,  0.0117, -0.0042,  ..., -0.0254,  0.0043, -0.0394],
+        [-0.0060,  0.0089,  0.0017,  ..., -0.0476, -0.0213, -0.0005]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -8.7261e-04,
+         -4.3154e-04,  9.2201e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -5.9414e-04,
+         -8.1539e-04,  2.4568e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.0366e-03,
+         -2.7485e-03,  1.7695e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.1016e-05,
+         -9.9659e-04,  2.3078e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7800e-04,
+          3.0537e-03,  3.8603e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.6560e-05,
+          2.4188e-04,  4.7721e-06]], device='cuda:0')
+Epoch 13, bias, value: tensor([ 0.0121, -0.0175,  0.0008,  0.0293, -0.0113,  0.0284,  0.0036,  0.0110,
+         0.0093, -0.0038], device='cuda:0'), grad: tensor([-0.0006, -0.0059,  0.0042, -0.0104, -0.0002,  0.0028,  0.0028, -0.0044,
+         0.0102,  0.0017], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 12----------------------------------------------------
+epoch 12, time 230.74, cls_loss 0.0686 cls_loss_mapping 0.1031 cls_loss_causal 1.0073 re_mapping 0.0424 re_causal 0.1082 /// teacc 97.85 lr 0.00010000
+Epoch 14, weight, value: tensor([[-0.0148, -0.0146, -0.0030,  ..., -0.0152,  0.0160,  0.0095],
+        [ 0.0059,  0.0163, -0.0175,  ...,  0.0255,  0.0225, -0.0550],
+        [ 0.0038,  0.0181,  0.0158,  ..., -0.0114,  0.0256,  0.0038],
+        ...,
+        [-0.0152, -0.0114,  0.0276,  ..., -0.0403, -0.0393,  0.0106],
+        [-0.0099,  0.0117, -0.0042,  ..., -0.0262,  0.0050, -0.0397],
+        [-0.0131,  0.0089,  0.0017,  ..., -0.0484, -0.0215, -0.0025]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.0826e-02,
+         -7.7782e-03,  1.4298e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -4.6454e-06,
+          6.1512e-04,  5.3346e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  8.4925e-04,
+         -3.9577e-04,  1.0669e-04],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.8079e-04,
+          6.5708e-04,  7.2212e-03],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.0926e-03,
+          4.6844e-03,  4.2796e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.0265e-04,
+          6.3801e-04,  3.1209e-04]], device='cuda:0')
+Epoch 14, bias, value: tensor([ 0.0119, -0.0175,  0.0007,  0.0294, -0.0112,  0.0282,  0.0034,  0.0113,
+         0.0090, -0.0036], device='cuda:0'), grad: tensor([-1.3512e-02, -1.9684e-03,  9.2602e-04,  3.2139e-03, -1.0506e-02,
+         3.3170e-05,  4.4942e-04,  1.2093e-02,  6.9580e-03,  2.3136e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 13----------------------------------------------------
+epoch 13, time 230.57, cls_loss 0.0578 cls_loss_mapping 0.0852 cls_loss_causal 1.0313 re_mapping 0.0390 re_causal 0.1042 /// teacc 98.07 lr 0.00010000
+Epoch 15, weight, value: tensor([[-0.0148, -0.0146, -0.0030,  ..., -0.0142,  0.0158,  0.0082],
+        [ 0.0059,  0.0163, -0.0175,  ...,  0.0256,  0.0219, -0.0609],
+        [ 0.0038,  0.0181,  0.0158,  ..., -0.0122,  0.0260,  0.0017],
+        ...,
+        [-0.0152, -0.0114,  0.0276,  ..., -0.0409, -0.0401,  0.0116],
+        [-0.0099,  0.0116, -0.0042,  ..., -0.0270,  0.0054, -0.0407],
+        [-0.0132,  0.0089,  0.0017,  ..., -0.0493, -0.0218, -0.0043]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.4402e-04,
+          4.0054e-04,  3.0470e-04],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.0452e-03,
+          2.4738e-03,  1.8096e-04],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.4169e-04,
+         -1.4760e-05,  6.0052e-05],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.9778e-05,
+          2.2471e-04, -8.1158e-04],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.6060e-03,
+         -3.9101e-03,  9.1732e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.7297e-04,
+          2.4331e-04,  7.6389e-04]], device='cuda:0')
+Epoch 15, bias, value: tensor([ 0.0119, -0.0175,  0.0006,  0.0296, -0.0110,  0.0285,  0.0035,  0.0113,
+         0.0089, -0.0039], device='cuda:0'), grad: tensor([ 0.0025,  0.0056,  0.0004,  0.0017,  0.0025,  0.0006,  0.0002, -0.0039,
+        -0.0037, -0.0058], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 14, time 214.62, cls_loss 0.0541 cls_loss_mapping 0.0854 cls_loss_causal 0.9871 re_mapping 0.0361 re_causal 0.1006 /// teacc 97.99 lr 0.00010000
+Epoch 16, weight, value: tensor([[-1.4800e-02, -1.4654e-02, -2.5723e-03,  ..., -1.3739e-02,
+          1.5383e-02,  7.1815e-03],
+        [ 5.8514e-03,  1.6344e-02, -1.7533e-02,  ...,  2.5465e-02,
+          2.1403e-02, -6.8740e-02],
+        [ 3.7659e-03,  1.8055e-02,  1.5764e-02,  ..., -1.2773e-02,
+          2.6297e-02,  1.5657e-05],
+        ...,
+        [-1.5164e-02, -1.1371e-02,  2.7566e-02,  ..., -4.1242e-02,
+         -4.0861e-02,  1.2808e-02],
+        [-9.8966e-03,  1.1638e-02, -4.2019e-03,  ..., -2.7897e-02,
+          6.1218e-03, -4.2522e-02],
+        [-1.3214e-02,  8.9298e-03,  1.7273e-03,  ..., -5.0079e-02,
+         -2.2540e-02, -7.0787e-03]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -6.8130e-03,
+         -1.4706e-03,  4.6417e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  7.4923e-05,
+          3.3569e-04,  2.9221e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.2602e-04,
+          7.8058e-04,  1.1578e-05],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.9898e-04,
+          4.7731e-04, -1.6183e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  8.3590e-04,
+         -1.1940e-03,  2.1651e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.8920e-04,
+          1.8609e-04,  1.7262e-04]], device='cuda:0')
+Epoch 16, bias, value: tensor([ 0.0116, -0.0173,  0.0004,  0.0295, -0.0107,  0.0280,  0.0037,  0.0114,
+         0.0093, -0.0041], device='cuda:0'), grad: tensor([-8.1329e-03, -7.8201e-05,  5.3253e-03, -5.2376e-03,  8.2397e-04,
+         2.2011e-03,  3.3875e-03, -6.5088e-04,  1.2894e-03,  1.0595e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 15----------------------------------------------------
+epoch 15, time 230.66, cls_loss 0.0487 cls_loss_mapping 0.0756 cls_loss_causal 0.9825 re_mapping 0.0351 re_causal 0.0983 /// teacc 98.23 lr 0.00010000
+Epoch 17, weight, value: tensor([[-0.0148, -0.0147, -0.0026,  ..., -0.0132,  0.0151,  0.0056],
+        [ 0.0059,  0.0163, -0.0175,  ...,  0.0253,  0.0210, -0.0787],
+        [ 0.0038,  0.0181,  0.0158,  ..., -0.0132,  0.0268, -0.0010],
+        ...,
+        [-0.0152, -0.0114,  0.0276,  ..., -0.0416, -0.0417,  0.0141],
+        [-0.0099,  0.0116, -0.0042,  ..., -0.0283,  0.0066, -0.0446],
+        [-0.0132,  0.0089,  0.0017,  ..., -0.0508, -0.0226, -0.0104]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -3.3408e-05,
+          1.0014e-04,  3.0845e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -2.0134e-04,
+         -6.1214e-05,  1.3518e-04],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3065e-04,
+         -4.8733e-04,  4.7565e-05],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8433e-05,
+          1.0643e-03, -5.9754e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.5882e-04,
+          8.5163e-04,  1.2374e-04],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.9594e-05,
+          2.7633e-04,  1.4906e-03]], device='cuda:0')
+Epoch 17, bias, value: tensor([ 0.0117, -0.0176,  0.0009,  0.0301, -0.0109,  0.0279,  0.0036,  0.0113,
+         0.0093, -0.0045], device='cuda:0'), grad: tensor([ 0.0003,  0.0006, -0.0201, -0.0054, -0.0043,  0.0015, -0.0002,  0.0190,
+         0.0055,  0.0030], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 16, time 214.19, cls_loss 0.0481 cls_loss_mapping 0.0727 cls_loss_causal 0.9366 re_mapping 0.0328 re_causal 0.0910 /// teacc 98.08 lr 0.00010000
+Epoch 18, weight, value: tensor([[-0.0153, -0.0147, -0.0026,  ..., -0.0126,  0.0149,  0.0041],
+        [ 0.0057,  0.0163, -0.0175,  ...,  0.0250,  0.0204, -0.0875],
+        [ 0.0032,  0.0181,  0.0158,  ..., -0.0136,  0.0272, -0.0025],
+        ...,
+        [-0.0153, -0.0114,  0.0276,  ..., -0.0420, -0.0422,  0.0147],
+        [-0.0105,  0.0116, -0.0042,  ..., -0.0291,  0.0074, -0.0473],
+        [-0.0141,  0.0089,  0.0017,  ..., -0.0510, -0.0231, -0.0134]],
+       device='cuda:0'), grad: tensor([[ 1.2228e-06,  0.0000e+00,  0.0000e+00,  ...,  8.4114e-04,
+          7.8201e-04,  8.5905e-06],
+        [ 2.6394e-06,  0.0000e+00,  0.0000e+00,  ..., -2.0429e-05,
+          1.6928e-04,  5.3167e-05],
+        [ 1.0274e-05,  0.0000e+00,  0.0000e+00,  ...,  2.4414e-04,
+         -7.9155e-04,  4.0442e-05],
+        ...,
+        [ 1.0006e-05,  0.0000e+00,  0.0000e+00,  ...,  8.4758e-05,
+          1.9610e-04,  7.1406e-05],
+        [ 3.0845e-06,  0.0000e+00,  0.0000e+00,  ...,  4.5776e-03,
+          5.8937e-03,  5.5522e-05],
+        [ 4.4741e-06,  0.0000e+00,  0.0000e+00,  ...,  5.0402e-04,
+          6.7949e-04, -5.5462e-05]], device='cuda:0')
+Epoch 18, bias, value: tensor([ 0.0118, -0.0179,  0.0010,  0.0300, -0.0110,  0.0282,  0.0034,  0.0113,
+         0.0093, -0.0043], device='cuda:0'), grad: tensor([ 0.0003,  0.0031,  0.0005, -0.0010,  0.0003, -0.0134,  0.0054, -0.0045,
+         0.0085,  0.0008], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 17, time 214.40, cls_loss 0.0520 cls_loss_mapping 0.0774 cls_loss_causal 0.9198 re_mapping 0.0313 re_causal 0.0860 /// teacc 98.12 lr 0.00010000
+Epoch 19, weight, value: tensor([[-0.0181, -0.0147, -0.0026,  ..., -0.0120,  0.0143,  0.0019],
+        [ 0.0057,  0.0163, -0.0175,  ...,  0.0252,  0.0199, -0.0981],
+        [ 0.0009,  0.0181,  0.0158,  ..., -0.0142,  0.0278, -0.0041],
+        ...,
+        [-0.0155, -0.0114,  0.0276,  ..., -0.0423, -0.0431,  0.0135],
+        [-0.0083,  0.0116, -0.0042,  ..., -0.0297,  0.0080, -0.0503],
+        [-0.0158,  0.0089,  0.0017,  ..., -0.0518, -0.0236, -0.0152]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.2798e-03,
+          6.4707e-04,  2.9281e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.8919e-04,
+          2.7776e-04,  3.0041e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.8729e-04,
+         -9.0256e-03,  3.8557e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6372e-05,
+          9.8705e-04,  9.8765e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.1212e-04,
+          3.9177e-03,  3.7074e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.3479e-05,
+          4.3035e-04, -8.4019e-04]], device='cuda:0')
+Epoch 19, bias, value: tensor([ 0.0114, -0.0181,  0.0014,  0.0301, -0.0108,  0.0282,  0.0033,  0.0113,
+         0.0095, -0.0046], device='cuda:0'), grad: tensor([ 0.0026,  0.0003, -0.0143,  0.0010,  0.0064,  0.0028,  0.0012,  0.0022,
+         0.0096, -0.0118], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 18----------------------------------------------------
+epoch 18, time 230.67, cls_loss 0.0371 cls_loss_mapping 0.0563 cls_loss_causal 0.8916 re_mapping 0.0310 re_causal 0.0903 /// teacc 98.28 lr 0.00010000
+Epoch 20, weight, value: tensor([[-0.0181, -0.0147, -0.0026,  ..., -0.0115,  0.0141,  0.0022],
+        [ 0.0059,  0.0163, -0.0175,  ...,  0.0256,  0.0196, -0.1037],
+        [-0.0004,  0.0181,  0.0158,  ..., -0.0148,  0.0281, -0.0025],
+        ...,
+        [-0.0144, -0.0114,  0.0276,  ..., -0.0426, -0.0435,  0.0127],
+        [-0.0085,  0.0116, -0.0042,  ..., -0.0302,  0.0087, -0.0530],
+        [-0.0168,  0.0089,  0.0017,  ..., -0.0521, -0.0238, -0.0153]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.8944e-04,
+          5.4073e-04,  2.0042e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.2953e-06,
+          8.1897e-05,  2.0519e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.2525e-05,
+          2.0885e-04,  1.7583e-05],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.5661e-05,
+          6.3956e-05,  1.9819e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.8253e-04,
+         -5.5504e-04,  1.0565e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.5267e-05,
+          1.6761e-04,  1.5736e-05]], device='cuda:0')
+Epoch 20, bias, value: tensor([ 0.0117, -0.0179,  0.0013,  0.0300, -0.0109,  0.0280,  0.0031,  0.0115,
+         0.0095, -0.0046], device='cuda:0'), grad: tensor([ 6.0558e-04, -4.3839e-05,  2.4462e-04,  3.6192e-04,  3.1567e-04,
+         5.4312e-04, -1.0729e-03,  2.1935e-04, -6.9237e-04, -4.8065e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 19----------------------------------------------------
+epoch 19, time 230.99, cls_loss 0.0412 cls_loss_mapping 0.0590 cls_loss_causal 0.9101 re_mapping 0.0303 re_causal 0.0833 /// teacc 98.36 lr 0.00010000
+Epoch 21, weight, value: tensor([[-0.0180, -0.0147, -0.0026,  ..., -0.0108,  0.0138,  0.0023],
+        [ 0.0059,  0.0163, -0.0175,  ...,  0.0256,  0.0192, -0.1072],
+        [-0.0013,  0.0181,  0.0158,  ..., -0.0154,  0.0284, -0.0055],
+        ...,
+        [-0.0126, -0.0114,  0.0276,  ..., -0.0429, -0.0437,  0.0133],
+        [-0.0086,  0.0116, -0.0042,  ..., -0.0309,  0.0090, -0.0558],
+        [-0.0172,  0.0089,  0.0017,  ..., -0.0527, -0.0240, -0.0173]],
+       device='cuda:0'), grad: tensor([[ 8.8662e-07,  0.0000e+00,  0.0000e+00,  ..., -1.8525e-04,
+          8.6355e-04,  1.0170e-05],
+        [-4.0978e-08,  0.0000e+00,  0.0000e+00,  ..., -8.8692e-04,
+          3.9488e-05,  2.8417e-05],
+        [ 4.4219e-06,  0.0000e+00,  0.0000e+00,  ...,  2.1553e-04,
+          6.7770e-05,  3.2037e-05],
+        ...,
+        [-2.0236e-05,  0.0000e+00,  0.0000e+00,  ...,  8.9705e-05,
+          5.6028e-05,  4.8220e-05],
+        [ 3.2261e-06,  0.0000e+00,  0.0000e+00,  ..., -8.3847e-03,
+         -2.0218e-02,  1.1645e-05],
+        [ 6.2622e-06,  0.0000e+00,  0.0000e+00,  ...,  4.5872e-04,
+          7.5293e-04,  3.5667e-04]], device='cuda:0')
+Epoch 21, bias, value: tensor([ 0.0121, -0.0179,  0.0012,  0.0302, -0.0111,  0.0281,  0.0031,  0.0117,
+         0.0091, -0.0047], device='cuda:0'), grad: tensor([ 7.8726e-04, -2.0885e-03,  9.2077e-04,  1.6678e-02,  9.8038e-04,
+         5.8708e-03,  9.3174e-04,  6.3658e-05, -2.6581e-02,  2.4242e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 20, time 214.38, cls_loss 0.0477 cls_loss_mapping 0.0689 cls_loss_causal 0.9220 re_mapping 0.0285 re_causal 0.0796 /// teacc 98.32 lr 0.00010000
+Epoch 22, weight, value: tensor([[-0.0177, -0.0147, -0.0026,  ..., -0.0108,  0.0133,  0.0011],
+        [ 0.0062,  0.0163, -0.0175,  ...,  0.0258,  0.0187, -0.1115],
+        [-0.0020,  0.0181,  0.0158,  ..., -0.0158,  0.0288, -0.0074],
+        ...,
+        [-0.0125, -0.0114,  0.0276,  ..., -0.0432, -0.0446,  0.0142],
+        [-0.0086,  0.0116, -0.0042,  ..., -0.0312,  0.0097, -0.0591],
+        [-0.0178,  0.0089,  0.0017,  ..., -0.0522, -0.0246, -0.0192]],
+       device='cuda:0'), grad: tensor([[ 9.9000e-07,  0.0000e+00,  0.0000e+00,  ...,  2.9030e-03,
+          2.4738e-03,  1.5028e-05],
+        [-2.8126e-06,  0.0000e+00,  0.0000e+00,  ...,  1.2457e-04,
+          5.1022e-04,  4.9382e-05],
+        [ 1.6419e-06,  0.0000e+00,  0.0000e+00,  ...,  7.2098e-04,
+          2.2221e-03,  9.8586e-05],
+        ...,
+        [-6.4857e-06,  0.0000e+00,  0.0000e+00,  ...,  7.7128e-05,
+          6.8426e-04,  7.7772e-04],
+        [ 9.9186e-07,  0.0000e+00,  0.0000e+00,  ...,  1.5700e-04,
+         -7.1526e-03,  2.1785e-05],
+        [ 2.4047e-06,  0.0000e+00,  0.0000e+00,  ...,  5.9891e-04,
+          1.4353e-03,  3.0327e-04]], device='cuda:0')
+Epoch 22, bias, value: tensor([ 0.0113, -0.0178,  0.0014,  0.0302, -0.0112,  0.0282,  0.0031,  0.0116,
+         0.0094, -0.0046], device='cuda:0'), grad: tensor([ 0.0087,  0.0009,  0.0059, -0.0170, -0.0002,  0.0022,  0.0070,  0.0010,
+        -0.0114,  0.0029], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 21----------------------------------------------------
+epoch 21, time 230.78, cls_loss 0.0349 cls_loss_mapping 0.0525 cls_loss_causal 0.8437 re_mapping 0.0280 re_causal 0.0774 /// teacc 98.43 lr 0.00010000
+Epoch 23, weight, value: tensor([[-0.0177, -0.0147, -0.0026,  ..., -0.0104,  0.0128,  0.0008],
+        [ 0.0064,  0.0163, -0.0175,  ...,  0.0258,  0.0184, -0.1137],
+        [-0.0012,  0.0181,  0.0158,  ..., -0.0163,  0.0291, -0.0078],
+        ...,
+        [-0.0124, -0.0114,  0.0276,  ..., -0.0434, -0.0455,  0.0141],
+        [-0.0087,  0.0116, -0.0042,  ..., -0.0321,  0.0102, -0.0600],
+        [-0.0180,  0.0089,  0.0017,  ..., -0.0528, -0.0255, -0.0204]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -5.6839e-04,
+         -1.9157e-04,  1.8962e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3708e-05,
+          1.1772e-04,  4.4219e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.7834e-04,
+         -3.9597e-03, -2.7537e-05],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.4909e-05,
+          8.5640e-04,  7.3276e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.0933e-04,
+          2.2087e-03,  2.6673e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.4094e-05,
+          6.5982e-05,  7.2360e-05]], device='cuda:0')
+Epoch 23, bias, value: tensor([ 0.0109, -0.0178,  0.0013,  0.0303, -0.0107,  0.0283,  0.0033,  0.0117,
+         0.0092, -0.0049], device='cuda:0'), grad: tensor([-6.4039e-04,  9.0742e-04, -4.2763e-03,  2.2522e-02,  5.5838e-04,
+        -2.7508e-05, -4.0627e-04, -2.5940e-02,  4.3526e-03,  2.9659e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 22----------------------------------------------------
+epoch 22, time 231.05, cls_loss 0.0335 cls_loss_mapping 0.0572 cls_loss_causal 0.8764 re_mapping 0.0265 re_causal 0.0784 /// teacc 98.45 lr 0.00010000
+Epoch 24, weight, value: tensor([[-1.7729e-02, -1.4681e-02, -2.5723e-03,  ..., -9.6231e-03,
+          1.2939e-02,  1.8176e-03],
+        [ 6.1973e-03,  1.6330e-02, -1.7533e-02,  ...,  2.5636e-02,
+          1.7671e-02, -1.1878e-01],
+        [-1.1816e-04,  1.8066e-02,  1.5764e-02,  ..., -1.6775e-02,
+          2.9279e-02, -8.5139e-03],
+        ...,
+        [-1.2394e-02, -1.1373e-02,  2.7566e-02,  ..., -4.3673e-02,
+         -4.6214e-02,  1.3608e-02],
+        [-8.7420e-03,  1.1618e-02, -4.2019e-03,  ..., -3.2935e-02,
+          1.0413e-02, -6.1694e-02],
+        [-1.8145e-02,  8.9221e-03,  1.7273e-03,  ..., -5.3003e-02,
+         -2.5866e-02, -2.2892e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -3.8290e-04,
+         -1.4572e-03,  7.3109e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -3.5632e-06,
+          7.9513e-05,  4.1164e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.7059e-04,
+         -1.6654e-04,  7.1973e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  7.9945e-06,
+          2.1958e-04,  5.9381e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.6654e-04,
+          1.0519e-03,  1.4855e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -4.9561e-05,
+         -1.5879e-03,  1.6168e-05]], device='cuda:0')
+Epoch 24, bias, value: tensor([ 0.0114, -0.0182,  0.0012,  0.0301, -0.0105,  0.0288,  0.0031,  0.0118,
+         0.0091, -0.0051], device='cuda:0'), grad: tensor([-1.8387e-03,  6.2346e-05, -3.7265e-04,  6.0177e-04,  2.2554e-04,
+         3.4237e-03, -1.8239e-05,  4.1008e-04,  2.1820e-03, -4.6768e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 23, time 214.54, cls_loss 0.0327 cls_loss_mapping 0.0481 cls_loss_causal 0.8450 re_mapping 0.0254 re_causal 0.0711 /// teacc 98.33 lr 0.00010000
+Epoch 25, weight, value: tensor([[-0.0181, -0.0147, -0.0026,  ..., -0.0093,  0.0125,  0.0003],
+        [ 0.0065,  0.0163, -0.0175,  ...,  0.0258,  0.0173, -0.1198],
+        [-0.0007,  0.0181,  0.0158,  ..., -0.0172,  0.0295, -0.0094],
+        ...,
+        [-0.0119, -0.0114,  0.0276,  ..., -0.0438, -0.0470,  0.0152],
+        [-0.0089,  0.0116, -0.0042,  ..., -0.0333,  0.0110, -0.0635],
+        [-0.0188,  0.0089,  0.0017,  ..., -0.0532, -0.0260, -0.0247]],
+       device='cuda:0'), grad: tensor([[ 2.0862e-07,  0.0000e+00,  0.0000e+00,  ..., -2.6464e-04,
+          7.4911e-04,  9.2208e-05],
+        [-6.6422e-06,  0.0000e+00,  0.0000e+00,  ..., -2.0489e-05,
+          4.2868e-04,  8.4519e-05],
+        [ 4.6194e-07,  0.0000e+00,  0.0000e+00,  ...,  3.9518e-05,
+         -3.8929e-03,  1.9503e-04],
+        ...,
+        [ 2.2091e-06,  0.0000e+00,  0.0000e+00,  ...,  1.6168e-05,
+          1.8244e-03,  1.9407e-04],
+        [ 1.3560e-06,  0.0000e+00,  0.0000e+00,  ...,  7.4625e-05,
+          8.6367e-05,  8.1837e-05],
+        [ 5.8208e-07,  0.0000e+00,  0.0000e+00,  ...,  5.0992e-05,
+          1.6654e-04,  1.0500e-03]], device='cuda:0')
+Epoch 25, bias, value: tensor([ 0.0112, -0.0180,  0.0008,  0.0300, -0.0108,  0.0287,  0.0034,  0.0122,
+         0.0090, -0.0047], device='cuda:0'), grad: tensor([ 0.0009,  0.0008, -0.0030,  0.0014, -0.0045,  0.0008,  0.0021, -0.0019,
+         0.0006,  0.0028], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 24----------------------------------------------------
+epoch 24, time 230.84, cls_loss 0.0232 cls_loss_mapping 0.0399 cls_loss_causal 0.8480 re_mapping 0.0257 re_causal 0.0771 /// teacc 98.48 lr 0.00010000
+Epoch 26, weight, value: tensor([[-0.0193, -0.0147, -0.0026,  ..., -0.0090,  0.0120, -0.0004],
+        [ 0.0080,  0.0163, -0.0175,  ...,  0.0265,  0.0172, -0.1201],
+        [-0.0026,  0.0181,  0.0158,  ..., -0.0179,  0.0298, -0.0093],
+        ...,
+        [-0.0118, -0.0114,  0.0276,  ..., -0.0439, -0.0479,  0.0160],
+        [-0.0073,  0.0116, -0.0042,  ..., -0.0340,  0.0113, -0.0654],
+        [-0.0191,  0.0089,  0.0017,  ..., -0.0539, -0.0265, -0.0269]],
+       device='cuda:0'), grad: tensor([[-5.6118e-05,  0.0000e+00,  0.0000e+00,  ...,  4.7035e-03,
+          4.8294e-03,  8.7246e-06],
+        [-4.7445e-05,  0.0000e+00,  0.0000e+00,  ...,  9.3520e-05,
+          5.4777e-05,  2.2620e-05],
+        [ 5.2482e-05,  0.0000e+00,  0.0000e+00,  ...,  2.9802e-04,
+          3.5095e-04,  1.9625e-05],
+        ...,
+        [ 9.5516e-06,  0.0000e+00,  0.0000e+00,  ...,  6.6519e-05,
+          5.8711e-05,  5.9247e-05],
+        [ 2.8223e-05,  0.0000e+00,  0.0000e+00,  ...,  2.9516e-04,
+         -2.7871e-04,  4.1366e-05],
+        [ 2.7809e-06,  0.0000e+00,  0.0000e+00,  ...,  1.2505e-04,
+          7.7009e-05,  4.1693e-05]], device='cuda:0')
+Epoch 26, bias, value: tensor([ 0.0113, -0.0178,  0.0010,  0.0301, -0.0107,  0.0286,  0.0032,  0.0127,
+         0.0087, -0.0053], device='cuda:0'), grad: tensor([ 6.4087e-03,  2.5535e-04,  1.0805e-03,  2.1725e-03, -2.3675e-04,
+        -1.0967e-03, -8.3923e-03,  7.6592e-05,  8.3733e-04, -1.1005e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 25, time 214.53, cls_loss 0.0337 cls_loss_mapping 0.0495 cls_loss_causal 0.8459 re_mapping 0.0244 re_causal 0.0703 /// teacc 98.22 lr 0.00010000
+Epoch 27, weight, value: tensor([[-0.0182, -0.0147, -0.0026,  ..., -0.0085,  0.0117,  0.0016],
+        [ 0.0107,  0.0163, -0.0175,  ...,  0.0264,  0.0167, -0.1221],
+        [-0.0045,  0.0181,  0.0158,  ..., -0.0183,  0.0306, -0.0108],
+        ...,
+        [-0.0114, -0.0114,  0.0276,  ..., -0.0442, -0.0490,  0.0152],
+        [-0.0080,  0.0116, -0.0042,  ..., -0.0348,  0.0114, -0.0674],
+        [-0.0225,  0.0089,  0.0017,  ..., -0.0539, -0.0271, -0.0282]],
+       device='cuda:0'), grad: tensor([[ 1.6764e-08,  0.0000e+00,  0.0000e+00,  ..., -1.3142e-03,
+         -6.8712e-04,  9.2462e-06],
+        [-1.1977e-06,  0.0000e+00,  0.0000e+00,  ..., -5.3376e-05,
+          1.5008e-04,  2.9504e-05],
+        [ 8.8476e-08,  0.0000e+00,  0.0000e+00,  ...,  1.0347e-04,
+          5.8413e-04,  4.9829e-05],
+        ...,
+        [ 2.2445e-07,  0.0000e+00,  0.0000e+00,  ...,  2.6256e-05,
+         -4.1500e-06,  1.7035e-04],
+        [ 2.2072e-07,  0.0000e+00,  0.0000e+00,  ...,  1.7190e-04,
+         -2.0351e-03,  3.1859e-05],
+        [ 4.0047e-08,  0.0000e+00,  0.0000e+00,  ...,  8.9598e-04,
+          7.5769e-04,  5.0211e-04]], device='cuda:0')
+Epoch 27, bias, value: tensor([ 0.0115, -0.0180,  0.0010,  0.0311, -0.0104,  0.0284,  0.0031,  0.0122,
+         0.0083, -0.0054], device='cuda:0'), grad: tensor([-2.1648e-03,  9.5129e-05,  3.2234e-03,  1.1438e-04, -2.7800e-04,
+         1.6861e-03, -7.7724e-05, -5.2986e-03, -1.6890e-03,  4.3907e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 26, time 214.57, cls_loss 0.0309 cls_loss_mapping 0.0514 cls_loss_causal 0.8547 re_mapping 0.0235 re_causal 0.0698 /// teacc 98.46 lr 0.00010000
+Epoch 28, weight, value: tensor([[-0.0175, -0.0147, -0.0026,  ..., -0.0081,  0.0110,  0.0016],
+        [ 0.0116,  0.0163, -0.0175,  ...,  0.0269,  0.0161, -0.1246],
+        [-0.0078,  0.0181,  0.0158,  ..., -0.0188,  0.0314, -0.0114],
+        ...,
+        [-0.0097, -0.0114,  0.0276,  ..., -0.0446, -0.0495,  0.0148],
+        [-0.0085,  0.0116, -0.0042,  ..., -0.0354,  0.0118, -0.0691],
+        [-0.0245,  0.0089,  0.0017,  ..., -0.0542, -0.0268, -0.0294]],
+       device='cuda:0'), grad: tensor([[-7.8738e-05,  0.0000e+00,  0.0000e+00,  ..., -3.7789e-04,
+          2.0313e-04,  8.2981e-07],
+        [ 5.1856e-06,  0.0000e+00,  0.0000e+00,  ...,  4.3005e-05,
+          1.2922e-04,  3.7123e-06],
+        [ 7.1190e-06,  0.0000e+00,  0.0000e+00,  ...,  8.2254e-05,
+         -7.0000e-04,  2.2389e-06],
+        ...,
+        [ 3.1628e-06,  0.0000e+00,  0.0000e+00,  ...,  1.9833e-05,
+          1.5318e-04, -3.0175e-05],
+        [ 4.2543e-06,  0.0000e+00,  0.0000e+00,  ...,  5.0724e-05,
+         -2.3575e-03,  9.7789e-07],
+        [ 3.0145e-05,  0.0000e+00,  0.0000e+00,  ...,  1.5533e-04,
+          1.5421e-03,  1.2390e-05]], device='cuda:0')
+Epoch 28, bias, value: tensor([ 0.0111, -0.0173,  0.0013,  0.0311, -0.0105,  0.0283,  0.0030,  0.0122,
+         0.0082, -0.0055], device='cuda:0'), grad: tensor([-6.8712e-04,  3.4833e-04, -9.3603e-04,  7.9393e-04,  2.2125e-04,
+         4.5228e-04,  1.9240e-04, -4.6909e-05, -2.8343e-03,  2.4967e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 27, time 214.47, cls_loss 0.0317 cls_loss_mapping 0.0504 cls_loss_causal 0.8206 re_mapping 0.0229 re_causal 0.0671 /// teacc 98.47 lr 0.00010000
+Epoch 29, weight, value: tensor([[-0.0174, -0.0147, -0.0026,  ..., -0.0077,  0.0109,  0.0006],
+        [ 0.0119,  0.0163, -0.0175,  ...,  0.0270,  0.0155, -0.1283],
+        [-0.0107,  0.0181,  0.0158,  ..., -0.0193,  0.0316, -0.0125],
+        ...,
+        [-0.0061, -0.0114,  0.0276,  ..., -0.0448, -0.0499,  0.0159],
+        [-0.0087,  0.0116, -0.0042,  ..., -0.0359,  0.0126, -0.0708],
+        [-0.0253,  0.0089,  0.0017,  ..., -0.0546, -0.0276, -0.0297]],
+       device='cuda:0'), grad: tensor([[ 1.1856e-06,  0.0000e+00,  0.0000e+00,  ...,  1.3262e-05,
+          5.5885e-04,  1.4365e-05],
+        [-2.3663e-05,  0.0000e+00,  0.0000e+00,  ...,  2.8625e-05,
+          2.3329e-04,  3.4422e-05],
+        [ 3.4142e-06,  0.0000e+00,  0.0000e+00,  ...,  2.2560e-05,
+         -5.3215e-03,  5.4985e-05],
+        ...,
+        [ 5.8562e-06,  0.0000e+00,  0.0000e+00,  ...,  1.7345e-05,
+          5.8556e-04,  7.1168e-05],
+        [ 3.7383e-06,  0.0000e+00,  0.0000e+00,  ...,  1.8120e-04,
+         -1.5812e-03, -6.0081e-04],
+        [ 1.4910e-06,  0.0000e+00,  0.0000e+00,  ...,  2.2694e-05,
+          9.1887e-04,  2.8777e-04]], device='cuda:0')
+Epoch 29, bias, value: tensor([ 0.0113, -0.0174,  0.0010,  0.0309, -0.0106,  0.0284,  0.0028,  0.0127,
+         0.0086, -0.0058], device='cuda:0'), grad: tensor([ 0.0009,  0.0003, -0.0076,  0.0050,  0.0013,  0.0037, -0.0008,  0.0017,
+        -0.0067,  0.0021], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 28----------------------------------------------------
+epoch 28, time 230.56, cls_loss 0.0244 cls_loss_mapping 0.0386 cls_loss_causal 0.8062 re_mapping 0.0232 re_causal 0.0684 /// teacc 98.62 lr 0.00010000
+Epoch 30, weight, value: tensor([[-0.0169, -0.0147, -0.0026,  ..., -0.0072,  0.0108, -0.0005],
+        [ 0.0133,  0.0163, -0.0175,  ...,  0.0268,  0.0152, -0.1302],
+        [-0.0119,  0.0181,  0.0158,  ..., -0.0196,  0.0320, -0.0131],
+        ...,
+        [-0.0059, -0.0114,  0.0276,  ..., -0.0450, -0.0508,  0.0167],
+        [-0.0091,  0.0116, -0.0042,  ..., -0.0363,  0.0130, -0.0732],
+        [-0.0262,  0.0089,  0.0017,  ..., -0.0549, -0.0278, -0.0312]],
+       device='cuda:0'), grad: tensor([[ 7.0408e-07,  0.0000e+00,  0.0000e+00,  ...,  1.0878e-04,
+          1.6844e-04,  1.5542e-05],
+        [-7.3165e-06,  0.0000e+00,  0.0000e+00,  ..., -1.5807e-04,
+          6.6161e-05,  7.4387e-05],
+        [ 4.2189e-07,  0.0000e+00,  0.0000e+00,  ...,  1.2210e-06,
+         -4.3607e-04,  1.5453e-05],
+        ...,
+        [ 1.4408e-06,  0.0000e+00,  0.0000e+00,  ...,  4.9025e-05,
+          4.7177e-05,  2.6524e-06],
+        [ 8.5775e-07,  0.0000e+00,  0.0000e+00,  ...,  1.8263e-04,
+          3.3474e-04,  3.5465e-05],
+        [ 5.6997e-07,  0.0000e+00,  0.0000e+00,  ...,  8.6784e-05,
+          8.8513e-05,  7.2956e-04]], device='cuda:0')
+Epoch 30, bias, value: tensor([ 0.0114, -0.0178,  0.0008,  0.0313, -0.0105,  0.0285,  0.0025,  0.0125,
+         0.0085, -0.0055], device='cuda:0'), grad: tensor([ 0.0003, -0.0003, -0.0004,  0.0003, -0.0015, -0.0008,  0.0005, -0.0001,
+         0.0007,  0.0012], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 29, time 214.80, cls_loss 0.0233 cls_loss_mapping 0.0403 cls_loss_causal 0.8009 re_mapping 0.0230 re_causal 0.0651 /// teacc 98.52 lr 0.00010000
+Epoch 31, weight, value: tensor([[-0.0168, -0.0147, -0.0026,  ..., -0.0070,  0.0105, -0.0004],
+        [ 0.0147,  0.0163, -0.0175,  ...,  0.0264,  0.0144, -0.1324],
+        [-0.0139,  0.0181,  0.0158,  ..., -0.0199,  0.0322, -0.0137],
+        ...,
+        [-0.0051, -0.0114,  0.0276,  ..., -0.0452, -0.0511,  0.0173],
+        [-0.0093,  0.0116, -0.0042,  ..., -0.0364,  0.0137, -0.0744],
+        [-0.0270,  0.0089,  0.0017,  ..., -0.0553, -0.0283, -0.0324]],
+       device='cuda:0'), grad: tensor([[-5.9791e-07,  0.0000e+00,  0.0000e+00,  ...,  2.1141e-06,
+          1.1855e-04,  4.6752e-06],
+        [ 1.1176e-08,  0.0000e+00,  0.0000e+00,  ..., -2.6032e-05,
+          1.6975e-04,  9.5516e-06],
+        [ 5.1223e-08,  0.0000e+00,  0.0000e+00,  ...,  1.1034e-05,
+         -1.5229e-05,  2.1383e-05],
+        ...,
+        [ 1.2107e-08,  0.0000e+00,  0.0000e+00,  ...,  1.4886e-05,
+          2.5826e-03,  1.8641e-05],
+        [ 3.9116e-08,  0.0000e+00,  0.0000e+00,  ...,  1.2720e-04,
+         -4.2839e-03,  1.3441e-05],
+        [ 3.1665e-08,  0.0000e+00,  0.0000e+00,  ...,  1.6361e-05,
+          3.3140e-04,  6.1893e-04]], device='cuda:0')
+Epoch 31, bias, value: tensor([ 0.0113, -0.0181,  0.0010,  0.0311, -0.0103,  0.0281,  0.0030,  0.0130,
+         0.0085, -0.0058], device='cuda:0'), grad: tensor([ 0.0004,  0.0002,  0.0003,  0.0100, -0.0010,  0.0023,  0.0006,  0.0103,
+        -0.0162, -0.0069], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 30, time 215.20, cls_loss 0.0236 cls_loss_mapping 0.0428 cls_loss_causal 0.8644 re_mapping 0.0202 re_causal 0.0655 /// teacc 98.48 lr 0.00010000
+Epoch 32, weight, value: tensor([[-0.0170, -0.0147, -0.0026,  ..., -0.0068,  0.0101, -0.0016],
+        [ 0.0140,  0.0163, -0.0175,  ...,  0.0265,  0.0139, -0.1338],
+        [-0.0121,  0.0181,  0.0158,  ..., -0.0204,  0.0328, -0.0148],
+        ...,
+        [-0.0052, -0.0114,  0.0276,  ..., -0.0454, -0.0517,  0.0167],
+        [-0.0092,  0.0116, -0.0042,  ..., -0.0365,  0.0143, -0.0764],
+        [-0.0272,  0.0089,  0.0017,  ..., -0.0557, -0.0290, -0.0325]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.4891e-04,
+          4.5991e-04,  1.9714e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.9011e-05,
+          1.5485e-04,  9.2089e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.8323e-05,
+         -1.5526e-03,  3.9548e-05],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.6345e-05,
+          1.0452e-03,  1.0097e-04],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.9014e-04,
+         -9.6035e-04,  5.7995e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.8862e-05,
+          5.8174e-04,  9.0182e-05]], device='cuda:0')
+Epoch 32, bias, value: tensor([ 0.0111, -0.0183,  0.0013,  0.0306, -0.0100,  0.0285,  0.0024,  0.0129,
+         0.0087, -0.0057], device='cuda:0'), grad: tensor([ 0.0009,  0.0004, -0.0029,  0.0004, -0.0004,  0.0005, -0.0009,  0.0029,
+         0.0006, -0.0016], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 31, time 214.77, cls_loss 0.0225 cls_loss_mapping 0.0373 cls_loss_causal 0.7768 re_mapping 0.0213 re_causal 0.0622 /// teacc 98.59 lr 0.00010000
+Epoch 33, weight, value: tensor([[-0.0167, -0.0147, -0.0026,  ..., -0.0062,  0.0100, -0.0010],
+        [ 0.0140,  0.0163, -0.0175,  ...,  0.0264,  0.0132, -0.1350],
+        [-0.0111,  0.0181,  0.0158,  ..., -0.0208,  0.0333, -0.0155],
+        ...,
+        [-0.0052, -0.0114,  0.0276,  ..., -0.0457, -0.0518,  0.0161],
+        [-0.0095,  0.0116, -0.0042,  ..., -0.0368,  0.0147, -0.0782],
+        [-0.0280,  0.0089,  0.0017,  ..., -0.0558, -0.0295, -0.0344]],
+       device='cuda:0'), grad: tensor([[ 5.1409e-07,  0.0000e+00,  0.0000e+00,  ...,  1.8823e-04,
+          2.1338e-04,  1.9655e-05],
+        [-1.7509e-05,  0.0000e+00,  0.0000e+00,  ...,  8.9109e-06,
+          5.0366e-05,  2.2531e-05],
+        [ 1.8692e-06,  0.0000e+00,  0.0000e+00,  ...,  2.2978e-05,
+         -4.0382e-05,  1.8924e-05],
+        ...,
+        [ 2.5369e-06,  0.0000e+00,  0.0000e+00,  ...,  7.4469e-06,
+          6.5207e-05,  7.1339e-06],
+        [ 7.4692e-06,  0.0000e+00,  0.0000e+00,  ...,  1.0586e-04,
+         -6.6221e-05,  7.7784e-06],
+        [ 4.3120e-07,  0.0000e+00,  0.0000e+00,  ...,  3.0130e-05,
+          6.3598e-05,  5.1916e-05]], device='cuda:0')
+Epoch 33, bias, value: tensor([ 0.0111, -0.0187,  0.0014,  0.0306, -0.0096,  0.0285,  0.0025,  0.0130,
+         0.0084, -0.0056], device='cuda:0'), grad: tensor([ 3.2163e-04,  6.1512e-05,  2.7156e-04, -6.8951e-04, -4.6563e-04,
+         2.7418e-04, -4.9067e-04,  3.4094e-04,  1.0163e-04,  2.7394e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 32, time 214.66, cls_loss 0.0201 cls_loss_mapping 0.0359 cls_loss_causal 0.7668 re_mapping 0.0206 re_causal 0.0623 /// teacc 98.57 lr 0.00010000
+Epoch 34, weight, value: tensor([[-0.0167, -0.0147, -0.0026,  ..., -0.0063,  0.0094, -0.0013],
+        [ 0.0143,  0.0163, -0.0175,  ...,  0.0266,  0.0129, -0.1367],
+        [-0.0111,  0.0181,  0.0158,  ..., -0.0212,  0.0334, -0.0156],
+        ...,
+        [-0.0052, -0.0114,  0.0276,  ..., -0.0459, -0.0524,  0.0159],
+        [-0.0096,  0.0116, -0.0042,  ..., -0.0373,  0.0148, -0.0792],
+        [-0.0284,  0.0089,  0.0017,  ..., -0.0556, -0.0300, -0.0342]],
+       device='cuda:0'), grad: tensor([[-3.6005e-06,  0.0000e+00,  0.0000e+00,  ..., -2.2411e-03,
+         -1.1320e-03,  6.2212e-06],
+        [-5.0478e-06,  0.0000e+00,  0.0000e+00,  ...,  1.0198e-04,
+          8.6963e-05,  8.4579e-05],
+        [ 3.3416e-06,  0.0000e+00,  0.0000e+00,  ...,  3.2991e-05,
+          1.1158e-04,  3.8177e-05],
+        ...,
+        [ 7.3481e-07,  0.0000e+00,  0.0000e+00,  ...,  8.7395e-06,
+          2.5541e-05,  5.6595e-05],
+        [ 1.8170e-06,  0.0000e+00,  0.0000e+00,  ...,  1.7011e-04,
+         -9.3162e-05,  5.6684e-05],
+        [ 9.9931e-07,  0.0000e+00,  0.0000e+00,  ...,  4.0025e-05,
+          2.7728e-04,  3.7026e-04]], device='cuda:0')
+Epoch 34, bias, value: tensor([ 0.0104, -0.0185,  0.0017,  0.0308, -0.0099,  0.0287,  0.0030,  0.0126,
+         0.0082, -0.0054], device='cuda:0'), grad: tensor([-2.0905e-03,  4.2939e-04,  2.8014e-04, -3.1624e-03, -1.2884e-03,
+         2.4319e-03,  2.1572e-03,  9.9540e-05,  1.2600e-04,  1.0176e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 33----------------------------------------------------
+epoch 33, time 230.82, cls_loss 0.0192 cls_loss_mapping 0.0362 cls_loss_causal 0.8033 re_mapping 0.0204 re_causal 0.0595 /// teacc 98.71 lr 0.00010000
+Epoch 35, weight, value: tensor([[-0.0158, -0.0147, -0.0026,  ..., -0.0060,  0.0091, -0.0002],
+        [ 0.0154,  0.0163, -0.0175,  ...,  0.0270,  0.0123, -0.1384],
+        [-0.0127,  0.0181,  0.0158,  ..., -0.0218,  0.0338, -0.0175],
+        ...,
+        [-0.0048, -0.0114,  0.0276,  ..., -0.0461, -0.0527,  0.0156],
+        [-0.0102,  0.0116, -0.0042,  ..., -0.0381,  0.0151, -0.0793],
+        [-0.0302,  0.0089,  0.0017,  ..., -0.0563, -0.0303, -0.0345]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -5.0545e-04,
+         -6.0654e-04,  3.0082e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.4052e-07,
+          4.8041e-05,  4.9949e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.0204e-04,
+          2.8276e-04,  1.3351e-05],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.0756e-05,
+          5.5403e-05,  4.4972e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.2331e-03,
+         -1.8978e-03,  2.1741e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.9683e-04,
+          3.9816e-04,  1.3196e-04]], device='cuda:0')
+Epoch 35, bias, value: tensor([ 0.0107, -0.0188,  0.0016,  0.0309, -0.0096,  0.0286,  0.0028,  0.0129,
+         0.0082, -0.0056], device='cuda:0'), grad: tensor([-3.2444e-03, -5.7364e-04,  1.1730e-03,  1.9655e-05, -5.4479e-05,
+         1.7986e-03,  6.2084e-04,  3.9244e-04, -2.1267e-03,  1.9913e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 34, time 214.78, cls_loss 0.0223 cls_loss_mapping 0.0392 cls_loss_causal 0.7438 re_mapping 0.0190 re_causal 0.0526 /// teacc 98.68 lr 0.00010000
+Epoch 36, weight, value: tensor([[-0.0158, -0.0147, -0.0026,  ..., -0.0055,  0.0088, -0.0007],
+        [ 0.0156,  0.0163, -0.0175,  ...,  0.0268,  0.0116, -0.1388],
+        [-0.0127,  0.0181,  0.0158,  ..., -0.0224,  0.0344, -0.0184],
+        ...,
+        [-0.0048, -0.0114,  0.0276,  ..., -0.0463, -0.0536,  0.0157],
+        [-0.0100,  0.0116, -0.0042,  ..., -0.0377,  0.0162, -0.0799],
+        [-0.0304,  0.0089,  0.0017,  ..., -0.0568, -0.0309, -0.0358]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -9.9838e-05,
+          9.5129e-05,  4.2561e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -7.2978e-06,
+         -4.2076e-03,  3.0268e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.3826e-05,
+          3.2520e-03,  2.3097e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.2436e-06,
+          2.6584e-04,  1.0170e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.2395e-05,
+         -1.9991e-04,  1.5572e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.4633e-05,
+         -3.3498e-05,  2.7269e-05]], device='cuda:0')
+Epoch 36, bias, value: tensor([ 0.0107, -0.0190,  0.0016,  0.0309, -0.0097,  0.0280,  0.0025,  0.0133,
+         0.0090, -0.0059], device='cuda:0'), grad: tensor([ 0.0001, -0.0078,  0.0061,  0.0006,  0.0003,  0.0004,  0.0003,  0.0006,
+         0.0004, -0.0011], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 35, time 215.24, cls_loss 0.0198 cls_loss_mapping 0.0357 cls_loss_causal 0.7668 re_mapping 0.0182 re_causal 0.0573 /// teacc 98.65 lr 0.00010000
+Epoch 37, weight, value: tensor([[-0.0166, -0.0147, -0.0026,  ..., -0.0055,  0.0084, -0.0009],
+        [ 0.0163,  0.0163, -0.0175,  ...,  0.0269,  0.0115, -0.1397],
+        [-0.0139,  0.0181,  0.0158,  ..., -0.0232,  0.0343, -0.0183],
+        ...,
+        [-0.0043, -0.0114,  0.0276,  ..., -0.0464, -0.0544,  0.0156],
+        [-0.0094,  0.0116, -0.0042,  ..., -0.0381,  0.0168, -0.0805],
+        [-0.0311,  0.0089,  0.0017,  ..., -0.0568, -0.0314, -0.0365]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ..., -3.9029e-04,
+         -1.7226e-04,  3.8184e-06],
+        [ 9.2201e-08,  0.0000e+00,  0.0000e+00,  ...,  1.7321e-04,
+          1.5295e-04,  2.3693e-05],
+        [ 2.6077e-08,  0.0000e+00,  0.0000e+00,  ...,  7.5459e-05,
+         -6.8069e-05,  1.4327e-05],
+        ...,
+        [-3.0641e-07,  0.0000e+00,  0.0000e+00,  ...,  1.2420e-05,
+          3.9667e-05,  1.8477e-05],
+        [ 3.6322e-08,  0.0000e+00,  0.0000e+00,  ...,  7.3957e-04,
+          6.2847e-04,  9.2834e-06],
+        [ 6.2399e-08,  0.0000e+00,  0.0000e+00,  ...,  2.3305e-04,
+          1.0568e-04,  1.0335e-04]], device='cuda:0')
+Epoch 37, bias, value: tensor([ 0.0100, -0.0186,  0.0015,  0.0306, -0.0092,  0.0283,  0.0027,  0.0132,
+         0.0089, -0.0059], device='cuda:0'), grad: tensor([-6.4993e-04,  3.8958e-04,  6.8247e-05, -3.3903e-04, -1.4031e-04,
+         7.3957e-04, -1.7347e-03, -1.3566e-04,  1.2007e-03,  6.0225e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 36, time 214.82, cls_loss 0.0172 cls_loss_mapping 0.0316 cls_loss_causal 0.7487 re_mapping 0.0187 re_causal 0.0568 /// teacc 98.54 lr 0.00010000
+Epoch 38, weight, value: tensor([[-0.0167, -0.0147, -0.0026,  ..., -0.0049,  0.0084, -0.0024],
+        [ 0.0164,  0.0163, -0.0175,  ...,  0.0269,  0.0108, -0.1410],
+        [-0.0144,  0.0181,  0.0158,  ..., -0.0237,  0.0350, -0.0187],
+        ...,
+        [-0.0040, -0.0114,  0.0276,  ..., -0.0469, -0.0548,  0.0156],
+        [-0.0094,  0.0116, -0.0042,  ..., -0.0386,  0.0170, -0.0813],
+        [-0.0319,  0.0089,  0.0017,  ..., -0.0573, -0.0322, -0.0376]],
+       device='cuda:0'), grad: tensor([[-1.1712e-05,  0.0000e+00,  0.0000e+00,  ..., -2.3823e-03,
+          8.2672e-05,  5.8636e-06],
+        [ 3.1386e-06,  0.0000e+00,  0.0000e+00,  ...,  6.8092e-04,
+          1.0138e-03,  2.0936e-05],
+        [-7.7295e-04,  0.0000e+00,  0.0000e+00,  ...,  3.3259e-04,
+         -2.0103e-03,  5.9843e-05],
+        ...,
+        [ 7.5436e-04,  0.0000e+00,  0.0000e+00,  ...,  1.4968e-05,
+          2.4815e-03,  6.3255e-06],
+        [ 6.8210e-06,  0.0000e+00,  0.0000e+00,  ..., -2.1315e-04,
+         -4.0779e-03,  5.7407e-06],
+        [ 1.2498e-06,  0.0000e+00,  0.0000e+00,  ...,  1.1301e-04,
+          8.6880e-04,  1.6615e-05]], device='cuda:0')
+Epoch 38, bias, value: tensor([ 0.0103, -0.0186,  0.0015,  0.0309, -0.0093,  0.0282,  0.0028,  0.0134,
+         0.0085, -0.0061], device='cuda:0'), grad: tensor([-0.0022,  0.0022, -0.0013,  0.0014,  0.0021,  0.0006,  0.0012,  0.0026,
+        -0.0078,  0.0012], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 37----------------------------------------------------
+epoch 37, time 230.79, cls_loss 0.0154 cls_loss_mapping 0.0268 cls_loss_causal 0.7396 re_mapping 0.0177 re_causal 0.0550 /// teacc 98.78 lr 0.00010000
+Epoch 39, weight, value: tensor([[-0.0170, -0.0147, -0.0026,  ..., -0.0045,  0.0081, -0.0027],
+        [ 0.0162,  0.0163, -0.0175,  ...,  0.0272,  0.0100, -0.1436],
+        [-0.0143,  0.0181,  0.0158,  ..., -0.0241,  0.0359, -0.0191],
+        ...,
+        [-0.0035, -0.0114,  0.0276,  ..., -0.0471, -0.0555,  0.0156],
+        [-0.0095,  0.0116, -0.0042,  ..., -0.0386,  0.0174, -0.0834],
+        [-0.0334,  0.0089,  0.0017,  ..., -0.0577, -0.0327, -0.0377]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.3256e-04,
+          2.7597e-05,  2.4065e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -4.4107e-06,
+          8.5905e-06,  8.1003e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.1336e-05,
+          1.5244e-05,  8.6784e-05],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3314e-05,
+          7.5102e-06,  1.1647e-04],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.0171e-05,
+          2.7090e-05,  1.4752e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.9439e-05,
+          3.4899e-05,  2.1386e-04]], device='cuda:0')
+Epoch 39, bias, value: tensor([ 0.0104, -0.0189,  0.0019,  0.0307, -0.0090,  0.0287,  0.0024,  0.0135,
+         0.0084, -0.0065], device='cuda:0'), grad: tensor([-3.9983e-04,  8.6486e-05,  3.2544e-04, -6.9714e-04, -9.5987e-04,
+         4.1103e-04, -1.0848e-04,  3.8695e-04,  2.3746e-04,  7.1859e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 38, time 214.28, cls_loss 0.0195 cls_loss_mapping 0.0328 cls_loss_causal 0.7374 re_mapping 0.0171 re_causal 0.0493 /// teacc 98.66 lr 0.00010000
+Epoch 40, weight, value: tensor([[-0.0171, -0.0147, -0.0026,  ..., -0.0042,  0.0076, -0.0035],
+        [ 0.0160,  0.0163, -0.0175,  ...,  0.0273,  0.0095, -0.1455],
+        [-0.0148,  0.0181,  0.0158,  ..., -0.0246,  0.0368, -0.0196],
+        ...,
+        [-0.0030, -0.0114,  0.0276,  ..., -0.0472, -0.0563,  0.0144],
+        [-0.0096,  0.0116, -0.0042,  ..., -0.0389,  0.0175, -0.0850],
+        [-0.0340,  0.0089,  0.0017,  ..., -0.0580, -0.0334, -0.0380]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -3.6359e-05,
+          2.7820e-05,  8.7544e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.9744e-05,
+          2.0400e-05,  5.8953e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.4393e-05,
+         -4.5449e-05,  1.0040e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.4964e-06,
+          1.7658e-05,  6.7428e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.4481e-05,
+          4.8786e-05,  6.7055e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.2457e-05,
+         -9.4235e-05,  4.7032e-07]], device='cuda:0')
+Epoch 40, bias, value: tensor([ 0.0103, -0.0187,  0.0022,  0.0308, -0.0090,  0.0288,  0.0023,  0.0134,
+         0.0080, -0.0065], device='cuda:0'), grad: tensor([ 1.2755e-04,  8.7404e-04,  8.3160e-04,  4.3130e-04,  2.4009e-04,
+         9.4295e-05,  2.3320e-05,  2.6108e-02,  6.1560e-04, -2.9343e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 39, time 214.56, cls_loss 0.0145 cls_loss_mapping 0.0238 cls_loss_causal 0.7078 re_mapping 0.0176 re_causal 0.0496 /// teacc 98.60 lr 0.00010000
+Epoch 41, weight, value: tensor([[-0.0169, -0.0147, -0.0026,  ..., -0.0040,  0.0074, -0.0039],
+        [ 0.0172,  0.0163, -0.0175,  ...,  0.0274,  0.0091, -0.1470],
+        [-0.0153,  0.0181,  0.0158,  ..., -0.0249,  0.0372, -0.0200],
+        ...,
+        [-0.0033, -0.0114,  0.0276,  ..., -0.0472, -0.0566,  0.0144],
+        [-0.0098,  0.0116, -0.0042,  ..., -0.0398,  0.0178, -0.0853],
+        [-0.0356,  0.0089,  0.0017,  ..., -0.0584, -0.0340, -0.0387]],
+       device='cuda:0'), grad: tensor([[ 6.5379e-07,  0.0000e+00,  0.0000e+00,  ..., -4.7274e-06,
+          1.3791e-05,  9.7137e-07],
+        [-4.0412e-05,  0.0000e+00,  0.0000e+00,  ..., -4.4182e-06,
+          5.6416e-05,  5.7928e-07],
+        [ 6.1579e-06,  0.0000e+00,  0.0000e+00,  ...,  3.5185e-06,
+         -9.0718e-05,  4.6268e-06],
+        ...,
+        [ 1.1519e-05,  0.0000e+00,  0.0000e+00,  ...,  1.2526e-06,
+          4.0650e-05,  8.0019e-06],
+        [ 4.6566e-06,  0.0000e+00,  0.0000e+00,  ...,  4.1351e-06,
+         -3.5405e-05,  3.1684e-06],
+        [ 4.3735e-06,  0.0000e+00,  0.0000e+00,  ...,  2.5071e-06,
+          1.6376e-05,  1.9923e-05]], device='cuda:0')
+Epoch 41, bias, value: tensor([ 0.0100, -0.0189,  0.0017,  0.0309, -0.0089,  0.0286,  0.0029,  0.0138,
+         0.0078, -0.0064], device='cuda:0'), grad: tensor([ 3.9726e-05,  5.6171e-04,  5.0020e-04, -1.2960e-03,  7.1287e-04,
+         1.1581e-04,  2.7373e-05,  7.7486e-04,  1.2070e-04, -1.5574e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 40, time 214.33, cls_loss 0.0160 cls_loss_mapping 0.0296 cls_loss_causal 0.7057 re_mapping 0.0170 re_causal 0.0513 /// teacc 98.52 lr 0.00010000
+Epoch 42, weight, value: tensor([[-0.0168, -0.0147, -0.0026,  ..., -0.0032,  0.0077, -0.0044],
+        [ 0.0173,  0.0163, -0.0175,  ...,  0.0273,  0.0089, -0.1488],
+        [-0.0154,  0.0181,  0.0158,  ..., -0.0253,  0.0376, -0.0208],
+        ...,
+        [-0.0028, -0.0114,  0.0276,  ..., -0.0476, -0.0575,  0.0153],
+        [-0.0099,  0.0116, -0.0042,  ..., -0.0401,  0.0182, -0.0871],
+        [-0.0359,  0.0089,  0.0017,  ..., -0.0586, -0.0345, -0.0390]],
+       device='cuda:0'), grad: tensor([[ 6.5658e-08,  0.0000e+00,  0.0000e+00,  ..., -4.4078e-05,
+          3.3379e-05,  3.2280e-06],
+        [ 4.6939e-07,  0.0000e+00,  0.0000e+00,  ..., -9.2760e-06,
+          3.5558e-06,  1.3612e-05],
+        [ 8.8383e-07,  0.0000e+00,  0.0000e+00,  ...,  1.0952e-05,
+         -1.7738e-04,  1.2934e-05],
+        ...,
+        [ 9.4809e-07,  0.0000e+00,  0.0000e+00,  ...,  8.1286e-06,
+          9.3102e-05,  9.5487e-05],
+        [ 7.5903e-08,  0.0000e+00,  0.0000e+00,  ...,  5.8979e-05,
+          1.2207e-04,  9.3505e-06],
+        [ 4.3772e-07,  0.0000e+00,  0.0000e+00,  ...,  3.4690e-05,
+          2.1845e-05,  8.1658e-06]], device='cuda:0')
+Epoch 42, bias, value: tensor([ 0.0104, -0.0187,  0.0013,  0.0312, -0.0095,  0.0284,  0.0027,  0.0142,
+         0.0078, -0.0064], device='cuda:0'), grad: tensor([-7.9870e-06, -3.6287e-04,  8.4713e-06,  1.6677e-04, -1.6797e-04,
+        -7.2908e-04,  2.6631e-04,  7.0763e-04,  3.0470e-04, -1.8537e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 41, time 214.66, cls_loss 0.0161 cls_loss_mapping 0.0258 cls_loss_causal 0.7043 re_mapping 0.0172 re_causal 0.0500 /// teacc 98.62 lr 0.00010000
+Epoch 43, weight, value: tensor([[-0.0167, -0.0147, -0.0026,  ..., -0.0029,  0.0074, -0.0048],
+        [ 0.0180,  0.0163, -0.0175,  ...,  0.0273,  0.0086, -0.1496],
+        [-0.0154,  0.0181,  0.0158,  ..., -0.0257,  0.0376, -0.0215],
+        ...,
+        [-0.0018, -0.0114,  0.0276,  ..., -0.0478, -0.0579,  0.0150],
+        [-0.0103,  0.0116, -0.0042,  ..., -0.0404,  0.0190, -0.0890],
+        [-0.0373,  0.0089,  0.0017,  ..., -0.0592, -0.0355, -0.0408]],
+       device='cuda:0'), grad: tensor([[ 1.9232e-07,  0.0000e+00,  0.0000e+00,  ...,  5.3525e-05,
+          1.5569e-04,  2.1365e-06],
+        [ 4.2329e-07,  0.0000e+00,  0.0000e+00,  ...,  3.6713e-06,
+          2.2128e-05,  9.3803e-06],
+        [ 4.2003e-07,  0.0000e+00,  0.0000e+00,  ...,  2.6487e-06,
+         -4.1890e-04,  7.9945e-06],
+        ...,
+        [ 1.0058e-07,  0.0000e+00,  0.0000e+00,  ...,  5.2527e-06,
+          5.7787e-05,  1.9088e-05],
+        [ 2.6496e-07,  0.0000e+00,  0.0000e+00,  ...,  5.0396e-05,
+          2.0492e-04,  3.5558e-06],
+        [ 1.6112e-06,  0.0000e+00,  0.0000e+00,  ..., -2.7633e-04,
+         -2.6107e-04,  2.4259e-05]], device='cuda:0')
+Epoch 43, bias, value: tensor([ 0.0104, -0.0184,  0.0009,  0.0310, -0.0094,  0.0288,  0.0026,  0.0141,
+         0.0079, -0.0064], device='cuda:0'), grad: tensor([ 0.0003,  0.0001, -0.0004, -0.0011,  0.0004,  0.0008,  0.0001, -0.0003,
+         0.0006, -0.0005], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 42, time 214.53, cls_loss 0.0172 cls_loss_mapping 0.0278 cls_loss_causal 0.7190 re_mapping 0.0171 re_causal 0.0510 /// teacc 98.50 lr 0.00010000
+Epoch 44, weight, value: tensor([[-0.0169, -0.0147, -0.0026,  ..., -0.0025,  0.0071, -0.0056],
+        [ 0.0186,  0.0163, -0.0175,  ...,  0.0272,  0.0079, -0.1500],
+        [-0.0146,  0.0181,  0.0158,  ..., -0.0260,  0.0384, -0.0227],
+        ...,
+        [-0.0012, -0.0114,  0.0276,  ..., -0.0480, -0.0581,  0.0169],
+        [-0.0106,  0.0116, -0.0042,  ..., -0.0411,  0.0186, -0.0899],
+        [-0.0382,  0.0089,  0.0017,  ..., -0.0596, -0.0358, -0.0421]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3030e-04,
+          4.3535e-04,  1.7788e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.3006e-06,
+          8.1778e-05,  1.2405e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.9754e-06,
+         -1.2159e-03,  7.1013e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.4650e-06,
+          1.3857e-03,  3.3025e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.8907e-04,
+         -1.1396e-03,  4.1397e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.2338e-05,
+          2.2161e-04,  9.1195e-06]], device='cuda:0')
+Epoch 44, bias, value: tensor([ 0.0104, -0.0178,  0.0017,  0.0303, -0.0095,  0.0295,  0.0027,  0.0142,
+         0.0072, -0.0068], device='cuda:0'), grad: tensor([ 5.4455e-04, -1.4648e-05, -2.8763e-03,  6.4313e-05,  1.1981e-04,
+         1.5032e-04,  7.7903e-05,  3.2520e-03, -1.6375e-03,  3.1662e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 43, time 214.61, cls_loss 0.0167 cls_loss_mapping 0.0320 cls_loss_causal 0.6996 re_mapping 0.0165 re_causal 0.0486 /// teacc 98.67 lr 0.00010000
+Epoch 45, weight, value: tensor([[-0.0158, -0.0147, -0.0026,  ..., -0.0026,  0.0060, -0.0045],
+        [ 0.0186,  0.0163, -0.0175,  ...,  0.0270,  0.0073, -0.1509],
+        [-0.0130,  0.0181,  0.0158,  ..., -0.0264,  0.0388, -0.0238],
+        ...,
+        [-0.0019, -0.0114,  0.0276,  ..., -0.0483, -0.0588,  0.0159],
+        [-0.0109,  0.0116, -0.0042,  ..., -0.0417,  0.0186, -0.0910],
+        [-0.0396,  0.0089,  0.0017,  ..., -0.0598, -0.0360, -0.0420]],
+       device='cuda:0'), grad: tensor([[ 2.0172e-06,  0.0000e+00,  0.0000e+00,  ..., -1.0735e-02,
+         -4.7989e-03,  2.8079e-07],
+        [ 8.1286e-06,  0.0000e+00,  0.0000e+00,  ...,  5.1260e-06,
+          2.1160e-05,  1.2433e-07],
+        [ 5.8934e-06,  0.0000e+00,  0.0000e+00,  ...,  7.5661e-06,
+         -2.5344e-04,  1.7975e-07],
+        ...,
+        [-6.2108e-05,  0.0000e+00,  0.0000e+00,  ...,  1.3299e-06,
+          6.2346e-05,  7.8231e-08],
+        [ 1.1459e-05,  0.0000e+00,  0.0000e+00,  ...,  2.5705e-05,
+          1.4377e-04,  5.2620e-08],
+        [ 2.1905e-05,  0.0000e+00,  0.0000e+00,  ...,  1.4208e-05,
+          8.7693e-06,  3.3341e-07]], device='cuda:0')
+Epoch 45, bias, value: tensor([ 0.0100, -0.0181,  0.0014,  0.0313, -0.0093,  0.0293,  0.0033,  0.0137,
+         0.0067, -0.0065], device='cuda:0'), grad: tensor([-9.7809e-03,  1.0949e-04, -2.4986e-04,  1.3940e-05,  1.0097e-04,
+         1.4269e-04,  9.6588e-03, -5.0926e-04,  3.0828e-04,  2.0289e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 44, time 214.71, cls_loss 0.0136 cls_loss_mapping 0.0248 cls_loss_causal 0.7131 re_mapping 0.0156 re_causal 0.0492 /// teacc 98.69 lr 0.00010000
+Epoch 46, weight, value: tensor([[-0.0150, -0.0147, -0.0026,  ..., -0.0022,  0.0056, -0.0047],
+        [ 0.0183,  0.0163, -0.0175,  ...,  0.0275,  0.0068, -0.1516],
+        [-0.0132,  0.0181,  0.0158,  ..., -0.0269,  0.0395, -0.0240],
+        ...,
+        [-0.0013, -0.0114,  0.0276,  ..., -0.0486, -0.0591,  0.0160],
+        [-0.0112,  0.0116, -0.0042,  ..., -0.0423,  0.0188, -0.0914],
+        [-0.0408,  0.0089,  0.0017,  ..., -0.0598, -0.0362, -0.0430]],
+       device='cuda:0'), grad: tensor([[-5.0990e-07,  0.0000e+00,  0.0000e+00,  ..., -1.6734e-05,
+          8.8615e-07, -1.6298e-03],
+        [ 6.1933e-08,  0.0000e+00,  0.0000e+00,  ..., -1.9163e-05,
+          6.5006e-06,  1.0714e-05],
+        [ 5.0897e-07,  0.0000e+00,  0.0000e+00,  ...,  7.8142e-05,
+          1.4532e-04,  2.0027e-04],
+        ...,
+        [-5.2620e-07,  0.0000e+00,  0.0000e+00,  ...,  3.5409e-06,
+          5.5209e-06,  1.8001e-05],
+        [ 3.5390e-08,  0.0000e+00,  0.0000e+00,  ..., -6.3300e-05,
+         -3.3450e-04,  3.1620e-05],
+        [ 5.9605e-08,  0.0000e+00,  0.0000e+00,  ...,  5.7109e-06,
+          1.2323e-05,  2.1732e-04]], device='cuda:0')
+Epoch 46, bias, value: tensor([ 0.0102, -0.0180,  0.0014,  0.0308, -0.0090,  0.0299,  0.0024,  0.0138,
+         0.0068, -0.0067], device='cuda:0'), grad: tensor([-4.2915e-03, -7.2598e-05,  6.8855e-04,  3.2234e-04,  2.2144e-03,
+         2.6846e-04,  2.8944e-04,  2.1011e-05, -3.4600e-05,  5.9652e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 45, time 214.77, cls_loss 0.0131 cls_loss_mapping 0.0234 cls_loss_causal 0.7104 re_mapping 0.0164 re_causal 0.0479 /// teacc 98.74 lr 0.00010000
+Epoch 47, weight, value: tensor([[-0.0150, -0.0147, -0.0026,  ..., -0.0022,  0.0055, -0.0045],
+        [ 0.0179,  0.0163, -0.0175,  ...,  0.0275,  0.0063, -0.1531],
+        [-0.0129,  0.0181,  0.0158,  ..., -0.0273,  0.0400, -0.0246],
+        ...,
+        [-0.0008, -0.0114,  0.0276,  ..., -0.0488, -0.0597,  0.0170],
+        [-0.0112,  0.0116, -0.0042,  ..., -0.0426,  0.0191, -0.0926],
+        [-0.0412,  0.0089,  0.0017,  ..., -0.0597, -0.0368, -0.0433]],
+       device='cuda:0'), grad: tensor([[ 6.8452e-08,  0.0000e+00,  0.0000e+00,  ..., -1.2898e-04,
+         -2.5809e-05,  2.0452e-06],
+        [ 1.7509e-07,  0.0000e+00,  0.0000e+00,  ...,  4.0159e-06,
+          3.1638e-04,  3.8370e-06],
+        [ 8.9407e-08,  0.0000e+00,  0.0000e+00,  ...,  1.0923e-05,
+         -1.4400e-03, -3.9563e-06],
+        ...,
+        [-1.8608e-06,  0.0000e+00,  0.0000e+00,  ...,  3.2745e-06,
+          3.6788e-04,  7.5763e-07],
+        [ 2.7008e-07,  0.0000e+00,  0.0000e+00,  ...,  1.1995e-05,
+          3.6657e-05,  2.1998e-06],
+        [ 9.0711e-07,  0.0000e+00,  0.0000e+00,  ...,  5.2154e-05,
+          2.7955e-05,  2.0230e-04]], device='cuda:0')
+Epoch 47, bias, value: tensor([ 0.0101, -0.0178,  0.0010,  0.0307, -0.0093,  0.0297,  0.0025,  0.0144,
+         0.0067, -0.0065], device='cuda:0'), grad: tensor([-0.0004,  0.0006, -0.0026,  0.0009, -0.0005,  0.0003,  0.0002,  0.0005,
+         0.0001,  0.0008], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 46, time 214.44, cls_loss 0.0165 cls_loss_mapping 0.0267 cls_loss_causal 0.6946 re_mapping 0.0150 re_causal 0.0441 /// teacc 98.55 lr 0.00010000
+Epoch 48, weight, value: tensor([[-0.0160, -0.0147, -0.0026,  ..., -0.0018,  0.0056, -0.0048],
+        [ 0.0192,  0.0163, -0.0175,  ...,  0.0275,  0.0063, -0.1545],
+        [-0.0131,  0.0181,  0.0158,  ..., -0.0276,  0.0402, -0.0250],
+        ...,
+        [-0.0009, -0.0114,  0.0276,  ..., -0.0489, -0.0603,  0.0170],
+        [-0.0106,  0.0116, -0.0042,  ..., -0.0435,  0.0190, -0.0926],
+        [-0.0423,  0.0089,  0.0017,  ..., -0.0600, -0.0378, -0.0440]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ..., -2.0313e-04,
+          1.1355e-04,  8.9547e-07],
+        [ 4.5169e-08,  0.0000e+00,  0.0000e+00,  ...,  6.1750e-05,
+          8.4639e-05,  6.2212e-06],
+        [ 3.3993e-08,  0.0000e+00,  0.0000e+00,  ...,  3.5465e-05,
+          1.3006e-04,  3.4347e-06],
+        ...,
+        [ 1.6810e-07,  0.0000e+00,  0.0000e+00,  ...,  1.2606e-05,
+          9.4116e-05,  4.4554e-05],
+        [ 4.6566e-09,  0.0000e+00,  0.0000e+00,  ...,  5.5313e-05,
+         -9.3222e-04,  1.8906e-06],
+        [ 2.0023e-08,  0.0000e+00,  0.0000e+00,  ...,  4.2059e-06,
+          2.7871e-04,  2.2173e-05]], device='cuda:0')
+Epoch 48, bias, value: tensor([ 0.0102, -0.0175,  0.0007,  0.0311, -0.0085,  0.0291,  0.0029,  0.0146,
+         0.0064, -0.0071], device='cuda:0'), grad: tensor([-0.0001,  0.0003,  0.0002,  0.0002,  0.0002,  0.0001,  0.0001,  0.0012,
+        -0.0015, -0.0007], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 47, time 214.85, cls_loss 0.0145 cls_loss_mapping 0.0280 cls_loss_causal 0.6932 re_mapping 0.0152 re_causal 0.0441 /// teacc 98.76 lr 0.00010000
+Epoch 49, weight, value: tensor([[-0.0161, -0.0146, -0.0026,  ..., -0.0013,  0.0048, -0.0051],
+        [ 0.0199,  0.0163, -0.0175,  ...,  0.0278,  0.0058, -0.1559],
+        [-0.0125,  0.0181,  0.0158,  ..., -0.0280,  0.0406, -0.0254],
+        ...,
+        [-0.0011, -0.0114,  0.0276,  ..., -0.0491, -0.0610,  0.0164],
+        [-0.0109,  0.0116, -0.0042,  ..., -0.0439,  0.0196, -0.0932],
+        [-0.0431,  0.0088,  0.0017,  ..., -0.0602, -0.0380, -0.0441]],
+       device='cuda:0'), grad: tensor([[-1.1269e-07,  0.0000e+00,  0.0000e+00,  ...,  1.0407e-04,
+          1.4997e-04,  1.7639e-06],
+        [ 7.3835e-06,  0.0000e+00,  0.0000e+00,  ...,  6.7353e-05,
+          1.4365e-04,  2.4185e-05],
+        [-9.7156e-06,  0.0000e+00,  0.0000e+00,  ...,  1.8513e-04,
+          5.1886e-05,  1.4409e-05],
+        ...,
+        [ 2.0750e-06,  0.0000e+00,  0.0000e+00,  ...,  7.1973e-06,
+          5.1677e-05,  7.2829e-06],
+        [ 1.0906e-06,  0.0000e+00,  0.0000e+00,  ...,  1.4961e-04,
+          2.1768e-04,  2.6021e-06],
+        [ 4.2934e-07,  0.0000e+00,  0.0000e+00,  ...,  2.3052e-05,
+          3.3110e-05,  1.4544e-05]], device='cuda:0')
+Epoch 49, bias, value: tensor([ 0.0102, -0.0180,  0.0007,  0.0314, -0.0084,  0.0288,  0.0028,  0.0144,
+         0.0065, -0.0068], device='cuda:0'), grad: tensor([ 0.0002,  0.0002,  0.0001, -0.0002,  0.0001, -0.0004, -0.0009,  0.0001,
+         0.0005,  0.0003], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 48, time 214.93, cls_loss 0.0119 cls_loss_mapping 0.0219 cls_loss_causal 0.6532 re_mapping 0.0153 re_causal 0.0476 /// teacc 98.75 lr 0.00010000
+Epoch 50, weight, value: tensor([[-0.0153,  0.0003, -0.0026,  ..., -0.0012,  0.0041, -0.0054],
+        [ 0.0198,  0.0156, -0.0175,  ...,  0.0275,  0.0051, -0.1569],
+        [-0.0124,  0.0180,  0.0159,  ..., -0.0281,  0.0409, -0.0252],
+        ...,
+        [-0.0004, -0.0114,  0.0275,  ..., -0.0492, -0.0618,  0.0161],
+        [-0.0112,  0.0104, -0.0042,  ..., -0.0442,  0.0202, -0.0933],
+        [-0.0434, -0.0008,  0.0017,  ..., -0.0604, -0.0380, -0.0451]],
+       device='cuda:0'), grad: tensor([[ 1.2107e-07, -9.9465e-07,  0.0000e+00,  ..., -1.7826e-06,
+          1.6704e-05,  2.1514e-07],
+        [ 1.0710e-07,  1.2107e-08,  0.0000e+00,  ...,  2.1979e-06,
+          1.4864e-05,  6.8359e-07],
+        [-1.6317e-06,  8.7544e-08,  0.0000e+00,  ...,  2.7381e-06,
+         -4.6313e-05,  4.7963e-07],
+        ...,
+        [-1.3690e-07,  2.4214e-08,  0.0000e+00,  ...,  3.6880e-07,
+          1.4201e-05, -4.0606e-07],
+        [ 3.6974e-07,  3.0734e-08,  0.0000e+00,  ...,  3.3583e-06,
+         -5.2571e-05,  4.9360e-07],
+        [ 1.5926e-07,  4.9733e-07,  0.0000e+00,  ...,  5.0440e-06,
+          1.2361e-05,  6.3360e-05]], device='cuda:0')
+Epoch 50, bias, value: tensor([ 0.0099, -0.0184,  0.0005,  0.0319, -0.0080,  0.0285,  0.0027,  0.0144,
+         0.0069, -0.0068], device='cuda:0'), grad: tensor([ 3.8505e-05,  2.0579e-05,  4.5508e-05, -1.3423e-04, -3.8266e-05,
+         4.3720e-05,  3.2298e-06, -6.6638e-05, -4.4465e-05,  1.3185e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 49, time 214.82, cls_loss 0.0128 cls_loss_mapping 0.0227 cls_loss_causal 0.7097 re_mapping 0.0144 re_causal 0.0449 /// teacc 98.74 lr 0.00010000
+Epoch 51, weight, value: tensor([[-0.0156, -0.0019, -0.0026,  ..., -0.0010,  0.0037, -0.0058],
+        [ 0.0203,  0.0153, -0.0175,  ...,  0.0268,  0.0044, -0.1563],
+        [-0.0100,  0.0179,  0.0159,  ..., -0.0283,  0.0413, -0.0259],
+        ...,
+        [-0.0019, -0.0115,  0.0275,  ..., -0.0494, -0.0622,  0.0160],
+        [-0.0120,  0.0101, -0.0042,  ..., -0.0442,  0.0206, -0.0951],
+        [-0.0459,  0.0004,  0.0017,  ..., -0.0603, -0.0380, -0.0463]],
+       device='cuda:0'), grad: tensor([[ 3.3528e-08,  0.0000e+00,  0.0000e+00,  ..., -1.3292e-04,
+         -2.4110e-05,  8.1863e-07],
+        [-6.6124e-07,  0.0000e+00,  0.0000e+00,  ...,  6.1616e-06,
+          5.4240e-06,  6.2644e-05],
+        [ 2.4214e-07,  0.0000e+00,  0.0000e+00,  ...,  1.9148e-05,
+          8.7768e-06,  2.4587e-06],
+        ...,
+        [ 1.5739e-07,  0.0000e+00,  0.0000e+00,  ...,  2.8517e-06,
+          2.8722e-06,  9.6112e-06],
+        [ 2.2445e-07,  0.0000e+00,  0.0000e+00,  ...,  3.2157e-05,
+          2.7880e-05,  1.1072e-05],
+        [ 1.3225e-07,  0.0000e+00,  0.0000e+00,  ...,  9.8050e-05,
+          3.1382e-05,  5.8985e-04]], device='cuda:0')
+Epoch 51, bias, value: tensor([ 0.0092, -0.0179,  0.0008,  0.0319, -0.0078,  0.0283,  0.0027,  0.0139,
+         0.0067, -0.0065], device='cuda:0'), grad: tensor([-2.0766e-04,  1.3101e-04,  3.7849e-05,  7.9274e-06, -1.4982e-03,
+         3.0294e-05, -1.1522e-04,  1.8075e-05,  9.1374e-05,  1.5039e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 50, time 214.73, cls_loss 0.0102 cls_loss_mapping 0.0173 cls_loss_causal 0.6816 re_mapping 0.0142 re_causal 0.0440 /// teacc 98.65 lr 0.00010000
+Epoch 52, weight, value: tensor([[-1.5604e-02, -1.7682e-03, -2.6036e-03,  ..., -1.3666e-04,
+          3.8299e-03, -5.8003e-03],
+        [ 2.0632e-02,  1.5280e-02, -1.7541e-02,  ...,  2.6685e-02,
+          3.7885e-03, -1.5824e-01],
+        [-8.6888e-03,  1.7895e-02,  1.5938e-02,  ..., -2.8979e-02,
+          4.1930e-02, -2.5700e-02],
+        ...,
+        [-2.5019e-03, -1.1479e-02,  2.7466e-02,  ..., -4.9577e-02,
+         -6.2743e-02,  1.6270e-02],
+        [-1.2240e-02,  1.0001e-02, -4.2081e-03,  ..., -4.4389e-02,
+          2.0932e-02, -9.4686e-02],
+        [-4.6414e-02,  2.6877e-04,  1.7246e-03,  ..., -6.0675e-02,
+         -3.8472e-02, -4.6642e-02]], device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ..., -3.9840e-04,
+         -7.3731e-05, -1.6198e-05],
+        [ 2.9802e-08,  0.0000e+00,  0.0000e+00,  ...,  1.1744e-06,
+          2.8670e-05,  3.1423e-06],
+        [ 5.8673e-08,  0.0000e+00,  0.0000e+00,  ...,  4.8429e-05,
+          5.2422e-05,  1.9014e-05],
+        ...,
+        [ 1.0338e-07,  0.0000e+00,  0.0000e+00,  ...,  3.4682e-06,
+          1.5235e-04,  5.2191e-06],
+        [ 1.5832e-08,  0.0000e+00,  0.0000e+00,  ...,  5.6684e-05,
+         -2.9206e-04,  1.1370e-05],
+        [ 9.3132e-09,  0.0000e+00,  0.0000e+00,  ...,  2.1982e-04,
+          8.8811e-05,  5.1670e-06]], device='cuda:0')
+Epoch 52, bias, value: tensor([ 0.0099, -0.0178,  0.0011,  0.0315, -0.0086,  0.0286,  0.0024,  0.0140,
+         0.0066, -0.0064], device='cuda:0'), grad: tensor([-5.2166e-04,  1.7822e-04,  8.4496e-04, -1.1120e-03, -7.9334e-05,
+         4.4316e-05,  1.1754e-04,  7.2145e-04, -7.5531e-04,  5.6171e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 51, time 214.91, cls_loss 0.0123 cls_loss_mapping 0.0209 cls_loss_causal 0.6756 re_mapping 0.0142 re_causal 0.0441 /// teacc 98.76 lr 0.00010000
+Epoch 53, weight, value: tensor([[-1.5591e-02, -1.8932e-03, -2.6036e-03,  ...,  5.4966e-05,
+          3.7565e-03, -6.2338e-03],
+        [ 2.0548e-02,  1.5252e-02, -1.7541e-02,  ...,  2.6717e-02,
+          3.6637e-03, -1.6061e-01],
+        [-8.2082e-03,  1.7889e-02,  1.5938e-02,  ..., -2.9483e-02,
+          4.3062e-02, -2.6643e-02],
+        ...,
+        [-1.9734e-03, -1.1480e-02,  2.7466e-02,  ..., -4.9709e-02,
+         -6.3530e-02,  1.6824e-02],
+        [-1.2314e-02,  8.5633e-03, -4.2081e-03,  ..., -4.4756e-02,
+          2.0514e-02, -9.6491e-02],
+        [-4.6583e-02,  2.6242e-04,  1.7246e-03,  ..., -6.0903e-02,
+         -3.8885e-02, -4.8476e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -2.1601e-04,
+         -3.9577e-04,  9.1922e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.3772e-07,
+          3.7760e-05,  1.0297e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.7688e-05,
+          2.3961e-04,  9.7811e-05],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3066e-06,
+          3.7044e-05,  9.2909e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.6499e-04,
+          9.9540e-05,  4.2357e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3648e-05,
+          1.0341e-04,  3.1255e-06]], device='cuda:0')
+Epoch 53, bias, value: tensor([ 0.0096, -0.0181,  0.0012,  0.0315, -0.0069,  0.0290,  0.0022,  0.0144,
+         0.0060, -0.0075], device='cuda:0'), grad: tensor([-5.3453e-04,  1.5545e-04,  4.5943e-04, -7.9203e-04, -3.3855e-04,
+         5.0455e-05,  6.4731e-05,  7.3051e-04,  1.3804e-04,  6.5982e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 52, time 214.86, cls_loss 0.0113 cls_loss_mapping 0.0197 cls_loss_causal 0.6856 re_mapping 0.0140 re_causal 0.0426 /// teacc 98.77 lr 0.00010000
+Epoch 54, weight, value: tensor([[-0.0157, -0.0019, -0.0026,  ...,  0.0002,  0.0032, -0.0066],
+        [ 0.0205,  0.0152, -0.0175,  ...,  0.0267,  0.0034, -0.1622],
+        [-0.0084,  0.0179,  0.0159,  ..., -0.0300,  0.0435, -0.0274],
+        ...,
+        [-0.0017, -0.0115,  0.0275,  ..., -0.0499, -0.0648,  0.0166],
+        [-0.0124,  0.0085, -0.0042,  ..., -0.0451,  0.0209, -0.0975],
+        [-0.0470,  0.0003,  0.0017,  ..., -0.0611, -0.0393, -0.0489]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -3.7253e-08,
+          1.1727e-05,  7.6368e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.1548e-06,
+          2.1681e-05,  2.9616e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.2755e-05,
+          7.5474e-06, -1.5637e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.5646e-06,
+          5.5641e-05,  3.4552e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8522e-05,
+         -7.8440e-04,  2.9057e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  7.2867e-06,
+          6.5088e-04,  6.1691e-06]], device='cuda:0')
+Epoch 54, bias, value: tensor([ 0.0094, -0.0178,  0.0009,  0.0309, -0.0073,  0.0299,  0.0023,  0.0142,
+         0.0060, -0.0070], device='cuda:0'), grad: tensor([ 1.9699e-05,  9.0778e-05,  1.2529e-04, -9.0933e-04,  3.2640e-04,
+         1.3685e-03, -3.6860e-04,  3.5810e-04, -4.5166e-03,  3.5076e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 53----------------------------------------------------
+epoch 53, time 230.77, cls_loss 0.0094 cls_loss_mapping 0.0181 cls_loss_causal 0.6865 re_mapping 0.0135 re_causal 0.0416 /// teacc 98.81 lr 0.00010000
+Epoch 55, weight, value: tensor([[-0.0158, -0.0019, -0.0026,  ...,  0.0007,  0.0029, -0.0066],
+        [ 0.0208,  0.0152, -0.0175,  ...,  0.0266,  0.0026, -0.1636],
+        [-0.0084,  0.0179,  0.0159,  ..., -0.0304,  0.0440, -0.0280],
+        ...,
+        [-0.0016, -0.0115,  0.0275,  ..., -0.0499, -0.0654,  0.0165],
+        [-0.0125,  0.0085, -0.0042,  ..., -0.0455,  0.0214, -0.0984],
+        [-0.0479,  0.0003,  0.0017,  ..., -0.0618, -0.0398, -0.0492]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09,  0.0000e+00,  0.0000e+00,  ...,  3.4459e-07,
+          3.3408e-05,  5.6773e-06],
+        [-8.1956e-08,  0.0000e+00,  0.0000e+00,  ..., -3.0361e-06,
+          1.0170e-05,  9.5144e-06],
+        [ 1.9558e-08,  0.0000e+00,  0.0000e+00,  ...,  1.5333e-05,
+          2.1592e-05,  1.3411e-05],
+        ...,
+        [ 6.5193e-09,  0.0000e+00,  0.0000e+00,  ...,  6.5900e-06,
+          2.6584e-05,  1.5557e-05],
+        [ 1.6764e-08,  0.0000e+00,  0.0000e+00,  ...,  1.6555e-05,
+         -1.3404e-05,  1.3016e-05],
+        [ 4.6566e-09,  0.0000e+00,  0.0000e+00,  ...,  2.4259e-05,
+          3.5286e-05,  3.3557e-05]], device='cuda:0')
+Epoch 55, bias, value: tensor([ 0.0095, -0.0176,  0.0012,  0.0308, -0.0078,  0.0299,  0.0024,  0.0140,
+         0.0060, -0.0069], device='cuda:0'), grad: tensor([ 4.7326e-05, -6.0499e-05,  1.6332e-04, -2.3508e-04, -1.1063e-04,
+        -7.4923e-05,  1.0645e-04,  1.0455e-04,  1.0890e-04, -4.9621e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 54----------------------------------------------------
+epoch 54, time 230.29, cls_loss 0.0092 cls_loss_mapping 0.0180 cls_loss_causal 0.6663 re_mapping 0.0132 re_causal 0.0411 /// teacc 98.82 lr 0.00010000
+Epoch 56, weight, value: tensor([[-0.0156, -0.0019, -0.0026,  ...,  0.0014,  0.0025, -0.0068],
+        [ 0.0208,  0.0152, -0.0175,  ...,  0.0266,  0.0023, -0.1638],
+        [-0.0087,  0.0179,  0.0159,  ..., -0.0307,  0.0444, -0.0280],
+        ...,
+        [-0.0008, -0.0115,  0.0275,  ..., -0.0501, -0.0656,  0.0178],
+        [-0.0129,  0.0085, -0.0042,  ..., -0.0460,  0.0216, -0.0996],
+        [-0.0483,  0.0003,  0.0017,  ..., -0.0627, -0.0402, -0.0497]],
+       device='cuda:0'), grad: tensor([[-1.8962e-06,  0.0000e+00,  0.0000e+00,  ..., -2.9609e-05,
+          4.7505e-05, -2.3283e-08],
+        [ 1.0245e-07,  0.0000e+00,  0.0000e+00,  ..., -2.9244e-07,
+          3.9554e-04,  1.9774e-05],
+        [ 1.6764e-07,  0.0000e+00,  0.0000e+00,  ...,  7.9647e-06,
+         -1.3094e-03,  1.2545e-06],
+        ...,
+        [ 8.9407e-08,  0.0000e+00,  0.0000e+00,  ...,  3.4217e-06,
+          3.7503e-04,  6.9141e-05],
+        [ 9.9652e-08,  0.0000e+00,  0.0000e+00,  ...,  1.9461e-05,
+          3.8648e-04, -1.5485e-04],
+        [ 2.7381e-07,  0.0000e+00,  0.0000e+00,  ...,  8.6129e-06,
+          2.4676e-05,  3.1918e-05]], device='cuda:0')
+Epoch 56, bias, value: tensor([ 0.0100, -0.0179,  0.0010,  0.0308, -0.0083,  0.0299,  0.0024,  0.0148,
+         0.0059, -0.0071], device='cuda:0'), grad: tensor([ 1.4037e-05,  8.4352e-04, -1.9970e-03,  1.0860e-04,  2.8300e-04,
+        -7.2360e-05,  1.3161e-04,  1.1282e-03, -6.0797e-04,  1.6749e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 55, time 214.82, cls_loss 0.0106 cls_loss_mapping 0.0208 cls_loss_causal 0.6701 re_mapping 0.0135 re_causal 0.0410 /// teacc 98.77 lr 0.00010000
+Epoch 57, weight, value: tensor([[-0.0156, -0.0019, -0.0026,  ...,  0.0014,  0.0018, -0.0069],
+        [ 0.0210,  0.0152, -0.0175,  ...,  0.0270,  0.0020, -0.1660],
+        [-0.0087,  0.0179,  0.0159,  ..., -0.0313,  0.0447, -0.0281],
+        ...,
+        [-0.0008, -0.0115,  0.0275,  ..., -0.0504, -0.0657,  0.0175],
+        [-0.0130,  0.0085, -0.0042,  ..., -0.0463,  0.0221, -0.1011],
+        [-0.0485,  0.0003,  0.0017,  ..., -0.0630, -0.0406, -0.0501]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3202e-05,
+          3.5375e-05,  1.6326e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.1791e-06,
+          4.2677e-05,  2.5053e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.0975e-05,
+         -1.3900e-04,  1.2945e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.1202e-06,
+          3.5197e-05,  1.1101e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3344e-05,
+          2.9832e-05,  2.1718e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  7.7784e-06,
+         -4.6730e-05, -2.7359e-05]], device='cuda:0')
+Epoch 57, bias, value: tensor([ 0.0093, -0.0177,  0.0004,  0.0307, -0.0086,  0.0300,  0.0027,  0.0160,
+         0.0058, -0.0075], device='cuda:0'), grad: tensor([ 5.0627e-06,  4.1276e-05, -9.1553e-05, -3.9077e-04,  7.6354e-05,
+        -5.7268e-04,  8.6451e-04,  1.5783e-04,  5.5790e-04, -6.4850e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 56, time 214.20, cls_loss 0.0112 cls_loss_mapping 0.0199 cls_loss_causal 0.6509 re_mapping 0.0140 re_causal 0.0403 /// teacc 98.53 lr 0.00010000
+Epoch 58, weight, value: tensor([[-0.0155, -0.0019, -0.0026,  ...,  0.0020,  0.0010, -0.0058],
+        [ 0.0210,  0.0152, -0.0175,  ...,  0.0267,  0.0014, -0.1669],
+        [-0.0088,  0.0179,  0.0159,  ..., -0.0317,  0.0453, -0.0283],
+        ...,
+        [-0.0008, -0.0115,  0.0275,  ..., -0.0506, -0.0666,  0.0171],
+        [-0.0130,  0.0080, -0.0042,  ..., -0.0459,  0.0232, -0.1024],
+        [-0.0487,  0.0003,  0.0017,  ..., -0.0635, -0.0409, -0.0508]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.4597e-06,
+          2.2367e-05,  2.5276e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.0641e-06,
+          1.0237e-05,  3.9898e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3786e-06,
+         -1.8752e-04, -4.1574e-05],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.5554e-07,
+          5.6252e-06, -3.5409e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3135e-05,
+          2.1875e-05,  2.7381e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.8573e-06,
+          5.5805e-06,  1.4156e-05]], device='cuda:0')
+Epoch 58, bias, value: tensor([ 0.0096, -0.0177,  0.0004,  0.0304, -0.0081,  0.0298,  0.0022,  0.0162,
+         0.0062, -0.0079], device='cuda:0'), grad: tensor([ 4.4852e-05, -2.3305e-05, -5.4646e-04,  4.7350e-04,  4.6074e-05,
+         8.9884e-05, -1.7118e-04, -8.7768e-06,  5.3704e-05,  4.1246e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 57, time 214.31, cls_loss 0.0078 cls_loss_mapping 0.0157 cls_loss_causal 0.6950 re_mapping 0.0130 re_causal 0.0409 /// teacc 98.75 lr 0.00010000
+Epoch 59, weight, value: tensor([[-0.0156, -0.0019, -0.0026,  ...,  0.0024,  0.0010, -0.0063],
+        [ 0.0210,  0.0152, -0.0175,  ...,  0.0264,  0.0004, -0.1685],
+        [-0.0088,  0.0179,  0.0159,  ..., -0.0321,  0.0461, -0.0285],
+        ...,
+        [-0.0007, -0.0115,  0.0275,  ..., -0.0507, -0.0674,  0.0174],
+        [-0.0131,  0.0080, -0.0042,  ..., -0.0463,  0.0232, -0.1038],
+        [-0.0488,  0.0003,  0.0017,  ..., -0.0639, -0.0414, -0.0513]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.0647e-05,
+          4.1425e-06,  4.7609e-06],
+        [ 7.4506e-09,  0.0000e+00,  0.0000e+00,  ..., -1.2554e-06,
+          5.8532e-05,  3.2168e-06],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  3.5744e-06,
+          1.4573e-05,  3.4682e-06],
+        ...,
+        [-2.1420e-08,  0.0000e+00,  0.0000e+00,  ...,  1.4314e-06,
+          1.3202e-05,  6.5677e-06],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ..., -5.2899e-06,
+         -3.2473e-04,  3.2559e-06],
+        [ 3.7253e-09,  0.0000e+00,  0.0000e+00,  ...,  2.1961e-06,
+          1.1611e-04,  1.5211e-04]], device='cuda:0')
+Epoch 59, bias, value: tensor([ 0.0101, -0.0179,  0.0007,  0.0306, -0.0084,  0.0297,  0.0027,  0.0162,
+         0.0057, -0.0079], device='cuda:0'), grad: tensor([ 3.8370e-06,  6.4254e-05,  7.6532e-05, -7.6108e-06, -2.6703e-04,
+         1.1069e-04,  3.3379e-05,  7.8022e-05, -5.3024e-04,  4.3797e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 58, time 214.38, cls_loss 0.0085 cls_loss_mapping 0.0153 cls_loss_causal 0.6456 re_mapping 0.0130 re_causal 0.0394 /// teacc 98.79 lr 0.00010000
+Epoch 60, weight, value: tensor([[-1.5569e-02, -1.9140e-03, -1.1108e-02,  ...,  2.6590e-03,
+          6.1448e-04, -6.8986e-03],
+        [ 2.1066e-02,  1.5187e-02, -1.8161e-02,  ...,  2.6644e-02,
+         -1.0456e-04, -1.7079e-01],
+        [-8.7496e-03,  1.7886e-02,  1.8631e-02,  ..., -3.2501e-02,
+          4.7178e-02, -2.8823e-02],
+        ...,
+        [-7.1947e-04, -1.1485e-02,  1.9661e-02,  ..., -5.0877e-02,
+         -6.8379e-02,  1.8281e-02],
+        [-1.3076e-02,  8.0391e-03, -8.1184e-03,  ..., -4.6442e-02,
+          2.3376e-02, -1.0460e-01],
+        [-4.8779e-02,  2.5053e-04,  1.6376e-03,  ..., -6.4115e-02,
+         -4.1854e-02, -5.1713e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.9856e-06,
+          8.6874e-06,  2.4214e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3197e-06,
+          1.3027e-03,  8.3167e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.8722e-06,
+         -1.5697e-03,  1.0720e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.9523e-07,
+          8.2433e-05,  1.5246e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.3474e-06,
+          3.5614e-05,  5.3830e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.8953e-07,
+          1.3731e-05,  3.9637e-06]], device='cuda:0')
+Epoch 60, bias, value: tensor([ 0.0101, -0.0180,  0.0014,  0.0309, -0.0086,  0.0295,  0.0025,  0.0160,
+         0.0055, -0.0079], device='cuda:0'), grad: tensor([ 1.2331e-05,  2.1782e-03, -2.6588e-03,  1.5354e-04,  8.0645e-05,
+         8.2374e-05, -8.3089e-05,  1.3280e-04,  8.2076e-05,  1.8418e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 59, time 214.23, cls_loss 0.0082 cls_loss_mapping 0.0154 cls_loss_causal 0.6605 re_mapping 0.0127 re_causal 0.0379 /// teacc 98.66 lr 0.00010000
+Epoch 61, weight, value: tensor([[-0.0164, -0.0019, -0.0131,  ...,  0.0028,  0.0004, -0.0073],
+        [ 0.0210,  0.0152, -0.0186,  ...,  0.0267, -0.0007, -0.1718],
+        [-0.0088,  0.0179,  0.0183,  ..., -0.0328,  0.0478, -0.0310],
+        ...,
+        [-0.0007, -0.0115,  0.0213,  ..., -0.0510, -0.0694,  0.0183],
+        [-0.0120,  0.0080, -0.0082,  ..., -0.0468,  0.0236, -0.1054],
+        [-0.0490,  0.0002,  0.0014,  ..., -0.0644, -0.0421, -0.0527]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  8.1897e-05,
+          8.4996e-05, -2.3190e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.3048e-06,
+          4.9844e-06,  1.7583e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  8.5607e-06,
+          1.2651e-05,  2.8387e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.6152e-06,
+          2.0433e-06,  1.0096e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7761e-05,
+          4.3474e-06, -2.9486e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  8.0988e-06,
+          5.1670e-06,  7.6145e-06]], device='cuda:0')
+Epoch 61, bias, value: tensor([ 0.0097, -0.0179,  0.0009,  0.0311, -0.0084,  0.0295,  0.0026,  0.0165,
+         0.0052, -0.0079], device='cuda:0'), grad: tensor([ 6.3777e-05,  3.5942e-05,  3.1233e-05,  3.9577e-04,  1.1787e-05,
+        -1.2374e-04, -1.1510e-04, -6.9189e-04,  8.1182e-05,  3.1114e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 60, time 214.22, cls_loss 0.0107 cls_loss_mapping 0.0181 cls_loss_causal 0.6738 re_mapping 0.0129 re_causal 0.0364 /// teacc 98.80 lr 0.00010000
+Epoch 62, weight, value: tensor([[-1.5928e-02, -1.9056e-03, -1.3076e-02,  ...,  3.0189e-03,
+          7.8417e-05, -4.5376e-03],
+        [ 2.1049e-02,  1.5181e-02, -1.8643e-02,  ...,  2.6420e-02,
+         -1.8745e-03, -1.7288e-01],
+        [-8.7342e-03,  1.7886e-02,  1.8267e-02,  ..., -3.3239e-02,
+          4.8803e-02, -3.2231e-02],
+        ...,
+        [-1.4462e-05, -1.1486e-02,  2.1325e-02,  ..., -5.1294e-02,
+         -7.0027e-02,  1.9072e-02],
+        [-1.2270e-02,  8.0165e-03, -8.2102e-03,  ..., -4.7296e-02,
+          2.3842e-02, -1.0756e-01],
+        [-5.0247e-02,  2.4880e-04,  1.4279e-03,  ..., -6.4406e-02,
+         -4.2770e-02, -5.3086e-02]], device='cuda:0'), grad: tensor([[ 3.7253e-09,  0.0000e+00,  0.0000e+00,  ..., -1.9372e-05,
+          1.1683e-05, -2.9355e-06],
+        [ 2.7008e-08,  0.0000e+00,  0.0000e+00,  ...,  1.1614e-06,
+          8.2031e-06,  6.4969e-06],
+        [ 1.1176e-08,  0.0000e+00,  0.0000e+00,  ...,  7.6592e-06,
+         -1.7810e-04, -8.7172e-06],
+        ...,
+        [-1.3225e-07,  0.0000e+00,  0.0000e+00,  ...,  7.3574e-07,
+          2.1964e-05,  1.8716e-05],
+        [ 7.4506e-09,  0.0000e+00,  0.0000e+00,  ..., -1.0216e-04,
+         -2.3890e-04,  2.7522e-05],
+        [ 5.0291e-08,  0.0000e+00,  0.0000e+00,  ...,  8.6352e-06,
+          2.1279e-05,  5.8651e-05]], device='cuda:0')
+Epoch 62, bias, value: tensor([ 0.0100, -0.0184,  0.0013,  0.0310, -0.0092,  0.0302,  0.0024,  0.0158,
+         0.0052, -0.0071], device='cuda:0'), grad: tensor([-1.4767e-05,  1.3849e-06, -2.7394e-04,  2.1458e-04, -7.7188e-05,
+        -8.3160e-04,  1.1168e-03,  6.3419e-05, -1.3614e-04, -6.3002e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 61, time 214.42, cls_loss 0.0069 cls_loss_mapping 0.0137 cls_loss_causal 0.6144 re_mapping 0.0126 re_causal 0.0386 /// teacc 98.82 lr 0.00010000
+Epoch 63, weight, value: tensor([[-1.5847e-02, -1.9056e-03, -1.3076e-02,  ...,  3.0183e-03,
+         -5.2993e-04, -4.4439e-03],
+        [ 2.1025e-02,  1.5181e-02, -1.8643e-02,  ...,  2.6407e-02,
+         -2.6354e-03, -1.7319e-01],
+        [-8.5288e-03,  1.7886e-02,  1.8267e-02,  ..., -3.3514e-02,
+          4.9340e-02, -3.2394e-02],
+        ...,
+        [-7.6745e-05, -1.1486e-02,  2.1325e-02,  ..., -5.1409e-02,
+         -7.0417e-02,  1.9167e-02],
+        [-1.1997e-02,  8.0165e-03, -8.2102e-03,  ..., -4.7746e-02,
+          2.4225e-02, -1.0810e-01],
+        [-5.1168e-02,  2.4880e-04,  1.4279e-03,  ..., -6.4660e-02,
+         -4.3769e-02, -5.4183e-02]], device='cuda:0'), grad: tensor([[ 1.7695e-08,  0.0000e+00,  0.0000e+00,  ..., -8.7595e-04,
+         -1.1140e-04,  1.2424e-06],
+        [ 1.8626e-08,  0.0000e+00,  0.0000e+00,  ...,  3.6620e-06,
+          3.4664e-06,  1.3784e-06],
+        [ 1.3970e-08,  0.0000e+00,  0.0000e+00,  ...,  1.9222e-05,
+          2.2855e-06,  1.2117e-06],
+        ...,
+        [-2.3562e-07,  0.0000e+00,  0.0000e+00,  ...,  5.3383e-06,
+          5.3570e-06,  4.9882e-06],
+        [ 1.3970e-08,  0.0000e+00,  0.0000e+00,  ...,  1.4715e-05,
+         -1.2182e-05, -3.2336e-06],
+        [ 9.4064e-08,  0.0000e+00,  0.0000e+00,  ...,  6.3419e-05,
+          1.8239e-05,  6.5863e-05]], device='cuda:0')
+Epoch 63, bias, value: tensor([ 0.0097, -0.0182,  0.0010,  0.0311, -0.0091,  0.0303,  0.0027,  0.0156,
+         0.0053, -0.0072], device='cuda:0'), grad: tensor([-5.2948e-03, -9.4175e-05,  1.3673e-04,  7.2598e-05,  7.8142e-05,
+         3.5992e-03,  8.4496e-04,  3.9369e-05,  8.3327e-05,  5.3358e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 62, time 214.98, cls_loss 0.0067 cls_loss_mapping 0.0132 cls_loss_causal 0.6132 re_mapping 0.0120 re_causal 0.0386 /// teacc 98.78 lr 0.00010000
+Epoch 64, weight, value: tensor([[-0.0166, -0.0019, -0.0131,  ...,  0.0034, -0.0010, -0.0046],
+        [ 0.0210,  0.0152, -0.0186,  ...,  0.0260, -0.0028, -0.1742],
+        [-0.0088,  0.0179,  0.0183,  ..., -0.0338,  0.0499, -0.0317],
+        ...,
+        [ 0.0007, -0.0115,  0.0213,  ..., -0.0515, -0.0712,  0.0191],
+        [-0.0117,  0.0080, -0.0082,  ..., -0.0479,  0.0245, -0.1084],
+        [-0.0516,  0.0002,  0.0014,  ..., -0.0649, -0.0443, -0.0556]],
+       device='cuda:0'), grad: tensor([[ 4.0978e-08,  0.0000e+00,  0.0000e+00,  ...,  3.0577e-05,
+          5.3555e-05,  4.1351e-06],
+        [ 1.1362e-07,  0.0000e+00,  0.0000e+00,  ...,  6.0350e-07,
+          3.7942e-06,  1.0796e-05],
+        [ 6.0536e-08,  0.0000e+00,  0.0000e+00,  ...,  2.6654e-06,
+         -3.7670e-05,  8.8066e-06],
+        ...,
+        [-5.7928e-07,  0.0000e+00,  0.0000e+00,  ...,  3.6694e-07,
+          2.6017e-05,  1.2666e-05],
+        [ 9.4995e-08,  0.0000e+00,  0.0000e+00,  ...,  5.4352e-06,
+          1.1569e-04,  1.0557e-05],
+        [ 1.0058e-07,  0.0000e+00,  0.0000e+00,  ...,  2.8238e-06,
+          1.0091e-04, -1.1724e-04]], device='cuda:0')
+Epoch 64, bias, value: tensor([ 0.0098, -0.0178,  0.0008,  0.0312, -0.0083,  0.0300,  0.0029,  0.0156,
+         0.0055, -0.0081], device='cuda:0'), grad: tensor([ 7.2837e-05,  3.1739e-05, -3.0503e-05,  1.1945e-04,  4.2224e-04,
+        -5.8794e-04, -3.3021e-05,  1.9300e-04,  4.5753e-04, -6.4564e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 63, time 214.81, cls_loss 0.0087 cls_loss_mapping 0.0161 cls_loss_causal 0.6450 re_mapping 0.0121 re_causal 0.0380 /// teacc 98.64 lr 0.00010000
+Epoch 65, weight, value: tensor([[-0.0166, -0.0019, -0.0131,  ...,  0.0037, -0.0011, -0.0040],
+        [ 0.0210,  0.0152, -0.0186,  ...,  0.0259, -0.0035, -0.1759],
+        [-0.0088,  0.0179,  0.0183,  ..., -0.0340,  0.0506, -0.0317],
+        ...,
+        [ 0.0009, -0.0115,  0.0213,  ..., -0.0516, -0.0719,  0.0190],
+        [-0.0118,  0.0080, -0.0082,  ..., -0.0481,  0.0247, -0.1086],
+        [-0.0517,  0.0002,  0.0014,  ..., -0.0647, -0.0445, -0.0557]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  8.7544e-06,
+          1.1779e-05,  6.2678e-07],
+        [ 6.1467e-08,  0.0000e+00,  0.0000e+00,  ...,  1.2862e-06,
+          5.6103e-06,  8.0839e-07],
+        [ 7.4506e-09,  0.0000e+00,  0.0000e+00,  ...,  2.5984e-06,
+         -6.4485e-06,  1.1288e-06],
+        ...,
+        [-1.4249e-07,  0.0000e+00,  0.0000e+00,  ...,  1.3486e-06,
+          6.5155e-06,  3.7458e-06],
+        [ 7.4506e-09,  0.0000e+00,  0.0000e+00,  ...,  8.2925e-06,
+          1.2740e-05,  5.5041e-07],
+        [ 3.4459e-08,  0.0000e+00,  0.0000e+00,  ...,  2.7455e-06,
+          8.8662e-06,  1.7136e-05]], device='cuda:0')
+Epoch 65, bias, value: tensor([ 0.0097, -0.0175,  0.0011,  0.0313, -0.0079,  0.0301,  0.0028,  0.0153,
+         0.0052, -0.0084], device='cuda:0'), grad: tensor([ 2.2292e-05, -1.6078e-05, -1.3625e-06,  3.4869e-05, -3.6955e-05,
+        -1.2565e-04,  3.2276e-05,  5.4725e-06,  3.0637e-05,  5.4181e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 64, time 214.33, cls_loss 0.0097 cls_loss_mapping 0.0168 cls_loss_causal 0.6550 re_mapping 0.0125 re_causal 0.0360 /// teacc 98.76 lr 0.00010000
+Epoch 66, weight, value: tensor([[-0.0169, -0.0019, -0.0131,  ...,  0.0036, -0.0015, -0.0039],
+        [ 0.0210,  0.0152, -0.0186,  ...,  0.0258, -0.0043, -0.1765],
+        [-0.0087,  0.0179,  0.0183,  ..., -0.0345,  0.0510, -0.0325],
+        ...,
+        [ 0.0009, -0.0115,  0.0213,  ..., -0.0518, -0.0731,  0.0183],
+        [-0.0116,  0.0080, -0.0082,  ..., -0.0483,  0.0254, -0.1089],
+        [-0.0519,  0.0002,  0.0014,  ..., -0.0650, -0.0453, -0.0566]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.1906e-05,
+          2.3589e-05,  3.3211e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.8720e-07,
+          2.9691e-06, -8.3804e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.6392e-07,
+          4.3400e-06,  2.6897e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.5914e-07,
+          4.8354e-06,  4.3720e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.4373e-06,
+         -1.6320e-04,  1.7285e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7772e-06,
+          4.6045e-05, -2.9787e-05]], device='cuda:0')
+Epoch 66, bias, value: tensor([ 0.0096, -0.0179,  0.0008,  0.0317, -0.0076,  0.0295,  0.0037,  0.0155,
+         0.0052, -0.0085], device='cuda:0'), grad: tensor([ 6.4075e-05,  6.1417e-03,  2.1124e-04,  3.9482e-04,  2.1291e-04,
+        -3.6389e-05, -7.7367e-05, -6.7406e-03, -6.6161e-05, -1.0014e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 65, time 214.52, cls_loss 0.0085 cls_loss_mapping 0.0138 cls_loss_causal 0.6618 re_mapping 0.0119 re_causal 0.0374 /// teacc 98.66 lr 0.00010000
+Epoch 67, weight, value: tensor([[-0.0170, -0.0019, -0.0132,  ...,  0.0043, -0.0016, -0.0036],
+        [ 0.0221,  0.0152, -0.0186,  ...,  0.0260, -0.0040, -0.1767],
+        [-0.0087,  0.0179,  0.0183,  ..., -0.0348,  0.0511, -0.0319],
+        ...,
+        [ 0.0003, -0.0115,  0.0213,  ..., -0.0520, -0.0742,  0.0184],
+        [-0.0118,  0.0080, -0.0082,  ..., -0.0490,  0.0256, -0.1107],
+        [-0.0549,  0.0002,  0.0014,  ..., -0.0654, -0.0459, -0.0563]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.0973e-04,
+          1.4089e-05,  5.7276e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  8.2627e-06,
+          5.9567e-06,  1.2880e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.7896e-05,
+          4.9397e-06,  8.0559e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.3882e-06,
+          3.1758e-06, -7.2159e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.7819e-05,
+         -1.6421e-05,  5.3458e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.0759e-05,
+          8.7768e-06,  5.7161e-05]], device='cuda:0')
+Epoch 67, bias, value: tensor([ 0.0097, -0.0166,  0.0001,  0.0318, -0.0082,  0.0292,  0.0040,  0.0157,
+         0.0048, -0.0087], device='cuda:0'), grad: tensor([ 5.8126e-04,  4.6402e-05,  8.3923e-05, -9.0599e-04, -2.1413e-05,
+        -1.2740e-05,  2.4691e-05,  2.1383e-05,  1.6344e-04,  2.0131e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 66, time 214.37, cls_loss 0.0113 cls_loss_mapping 0.0179 cls_loss_causal 0.6203 re_mapping 0.0124 re_causal 0.0347 /// teacc 98.64 lr 0.00010000
+Epoch 68, weight, value: tensor([[-0.0173, -0.0019, -0.0138,  ...,  0.0040, -0.0025, -0.0039],
+        [ 0.0232,  0.0152, -0.0189,  ...,  0.0257, -0.0047, -0.1768],
+        [-0.0094,  0.0179,  0.0183,  ..., -0.0353,  0.0517, -0.0322],
+        ...,
+        [ 0.0010, -0.0115,  0.0208,  ..., -0.0523, -0.0755,  0.0191],
+        [-0.0128,  0.0080, -0.0084,  ..., -0.0494,  0.0258, -0.1123],
+        [-0.0565,  0.0002,  0.0014,  ..., -0.0648, -0.0466, -0.0583]],
+       device='cuda:0'), grad: tensor([[ 5.2154e-08,  0.0000e+00,  0.0000e+00,  ..., -6.9812e-06,
+          1.9297e-05,  1.0833e-05],
+        [ 2.3097e-06,  0.0000e+00,  0.0000e+00,  ...,  2.0284e-06,
+          3.1501e-05,  3.0369e-05],
+        [ 1.9278e-07,  0.0000e+00,  0.0000e+00,  ...,  1.2219e-06,
+          1.5073e-05,  1.9521e-05],
+        ...,
+        [-3.9898e-06,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-07,
+          2.1532e-05,  4.3623e-06],
+        [ 5.6438e-07,  0.0000e+00,  0.0000e+00,  ...,  4.5188e-06,
+          3.5465e-05,  2.6405e-05],
+        [ 2.4121e-07,  0.0000e+00,  0.0000e+00,  ...,  1.5702e-06,
+          7.1764e-04,  5.2071e-04]], device='cuda:0')
+Epoch 68, bias, value: tensor([ 0.0085, -0.0171,  0.0002,  0.0326, -0.0077,  0.0302,  0.0033,  0.0159,
+         0.0047, -0.0092], device='cuda:0'), grad: tensor([ 1.1826e-04,  2.5702e-04,  2.3556e-04, -7.1526e-03,  3.8290e-04,
+         3.7491e-05,  1.9312e-05, -7.7859e-06,  3.3593e-04,  5.7716e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 67, time 214.15, cls_loss 0.0079 cls_loss_mapping 0.0164 cls_loss_causal 0.6224 re_mapping 0.0115 re_causal 0.0349 /// teacc 98.71 lr 0.00010000
+Epoch 69, weight, value: tensor([[-1.7238e-02, -1.9006e-03, -1.4748e-02,  ...,  4.7513e-03,
+         -2.5865e-03, -3.9697e-03],
+        [ 2.4412e-02,  1.5174e-02, -1.8955e-02,  ...,  2.5404e-02,
+         -5.6061e-03, -1.7799e-01],
+        [-9.5482e-03,  1.7884e-02,  1.8164e-02,  ..., -3.6062e-02,
+          5.2127e-02, -3.2323e-02],
+        ...,
+        [-1.1510e-04, -1.1487e-02,  1.9757e-02,  ..., -5.2650e-02,
+         -7.6401e-02,  2.0071e-02],
+        [-1.2333e-02,  8.0033e-03, -8.5257e-03,  ..., -4.9144e-02,
+          2.6646e-02, -1.1298e-01],
+        [-5.7329e-02,  2.4841e-04,  1.3499e-03,  ..., -6.4649e-02,
+         -4.6971e-02, -5.8469e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  7.2861e-04,
+          4.7016e-04,  9.5926e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.8077e-06,
+          8.3447e-06,  1.8859e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.9087e-05,
+          1.1668e-05,  3.9674e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.2936e-06,
+          4.5076e-06, -2.4159e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.1322e-05,
+          2.5883e-05,  1.6484e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.5049e-05,
+          1.7300e-05,  2.4326e-06]], device='cuda:0')
+Epoch 69, bias, value: tensor([ 0.0086, -0.0168,  0.0002,  0.0327, -0.0079,  0.0305,  0.0025,  0.0153,
+         0.0055, -0.0092], device='cuda:0'), grad: tensor([ 7.4959e-04,  6.4075e-05,  4.2707e-05, -8.2314e-05,  5.7489e-05,
+         2.1458e-03, -3.0479e-03, -7.9393e-05,  9.0659e-05,  5.9545e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 68----------------------------------------------------
+epoch 68, time 230.60, cls_loss 0.0070 cls_loss_mapping 0.0136 cls_loss_causal 0.6409 re_mapping 0.0110 re_causal 0.0334 /// teacc 98.83 lr 0.00010000
+Epoch 70, weight, value: tensor([[-1.7206e-02, -1.9006e-03, -1.4760e-02,  ...,  5.4426e-03,
+         -3.0568e-03, -3.9407e-03],
+        [ 2.5376e-02,  1.5174e-02, -1.8956e-02,  ...,  2.5440e-02,
+         -5.9514e-03, -1.7985e-01],
+        [-9.5825e-03,  1.7884e-02,  1.8163e-02,  ..., -3.6424e-02,
+          5.2919e-02, -3.2722e-02],
+        ...,
+        [-1.7789e-04, -1.1487e-02,  1.9754e-02,  ..., -5.2725e-02,
+         -7.7182e-02,  1.9831e-02],
+        [-1.2731e-02,  8.0033e-03, -8.5261e-03,  ..., -4.9374e-02,
+          2.6793e-02, -1.1333e-01],
+        [-5.8321e-02,  2.4841e-04,  1.3470e-03,  ..., -6.5284e-02,
+         -4.7594e-02, -5.8522e-02]], device='cuda:0'), grad: tensor([[ 1.7574e-06,  0.0000e+00,  0.0000e+00,  ..., -4.3884e-06,
+          2.6494e-05,  9.6858e-08],
+        [-3.9339e-05,  0.0000e+00,  0.0000e+00,  ..., -7.4469e-06,
+          3.4928e-04,  3.9814e-07],
+        [-2.4855e-05,  0.0000e+00,  0.0000e+00,  ...,  1.1045e-06,
+         -3.3498e-04,  3.5670e-07],
+        ...,
+        [ 1.8299e-05,  0.0000e+00,  0.0000e+00,  ...,  1.6419e-06,
+          5.5462e-05,  3.3434e-07],
+        [ 5.3905e-06,  0.0000e+00,  0.0000e+00,  ...,  7.6666e-06,
+         -3.3617e-04,  3.0035e-07],
+        [ 2.8498e-06,  0.0000e+00,  0.0000e+00,  ...,  2.4773e-06,
+          4.8786e-05,  1.4938e-06]], device='cuda:0')
+Epoch 70, bias, value: tensor([ 0.0091, -0.0169,  0.0005,  0.0322, -0.0080,  0.0307,  0.0026,  0.0153,
+         0.0055, -0.0092], device='cuda:0'), grad: tensor([ 5.4955e-05, -4.9710e-05, -3.9625e-04,  3.2377e-04,  3.1734e-04,
+         7.3910e-05,  5.0366e-05,  1.7250e-04, -6.4516e-04,  9.9421e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 69, time 214.62, cls_loss 0.0067 cls_loss_mapping 0.0120 cls_loss_causal 0.6414 re_mapping 0.0110 re_causal 0.0353 /// teacc 98.79 lr 0.00010000
+Epoch 71, weight, value: tensor([[-0.0187, -0.0019, -0.0154,  ...,  0.0064, -0.0040, -0.0042],
+        [ 0.0257,  0.0152, -0.0194,  ...,  0.0253, -0.0063, -0.1812],
+        [-0.0098,  0.0179,  0.0179,  ..., -0.0366,  0.0535, -0.0331],
+        ...,
+        [ 0.0007, -0.0115,  0.0196,  ..., -0.0529, -0.0779,  0.0201],
+        [-0.0127,  0.0080, -0.0076,  ..., -0.0496,  0.0273, -0.1131],
+        [-0.0589,  0.0002,  0.0013,  ..., -0.0656, -0.0479, -0.0591]],
+       device='cuda:0'), grad: tensor([[ 1.1176e-08,  0.0000e+00,  0.0000e+00,  ..., -5.3123e-06,
+          2.2560e-05,  1.4175e-06],
+        [-3.9395e-07,  0.0000e+00,  0.0000e+00,  ...,  1.2228e-06,
+         -1.7300e-05,  1.1781e-06],
+        [ 1.8626e-08,  0.0000e+00,  0.0000e+00,  ...,  6.7763e-06,
+         -8.1599e-05,  3.0100e-06],
+        ...,
+        [ 5.4948e-08,  0.0000e+00,  0.0000e+00,  ...,  1.1586e-06,
+          6.8486e-05,  2.7213e-06],
+        [ 1.1921e-07,  0.0000e+00,  0.0000e+00,  ...,  5.8003e-06,
+          2.6479e-05,  6.3218e-06],
+        [ 5.2154e-08,  0.0000e+00,  0.0000e+00,  ...,  7.2680e-06,
+          1.6376e-05, -1.0920e-04]], device='cuda:0')
+Epoch 71, bias, value: tensor([ 0.0093, -0.0167,  0.0005,  0.0318, -0.0076,  0.0304,  0.0022,  0.0155,
+         0.0055, -0.0093], device='cuda:0'), grad: tensor([ 8.6486e-05, -3.0971e-04, -5.1796e-05,  3.5357e-04,  4.9829e-04,
+        -2.9826e-04,  9.1612e-05,  5.0217e-05,  2.4152e-04, -6.6280e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 70, time 214.50, cls_loss 0.0079 cls_loss_mapping 0.0144 cls_loss_causal 0.6221 re_mapping 0.0113 re_causal 0.0331 /// teacc 98.65 lr 0.00010000
+Epoch 72, weight, value: tensor([[-0.0173, -0.0019, -0.0156,  ...,  0.0063, -0.0054, -0.0041],
+        [ 0.0270,  0.0152, -0.0186,  ...,  0.0249, -0.0069, -0.1826],
+        [-0.0103,  0.0179,  0.0178,  ..., -0.0374,  0.0536, -0.0335],
+        ...,
+        [ 0.0004, -0.0115,  0.0194,  ..., -0.0532, -0.0786,  0.0209],
+        [-0.0133,  0.0080, -0.0076,  ..., -0.0497,  0.0284, -0.1141],
+        [-0.0596,  0.0002,  0.0013,  ..., -0.0662, -0.0490, -0.0585]],
+       device='cuda:0'), grad: tensor([[ 5.4482e-07,  0.0000e+00,  0.0000e+00,  ..., -4.2230e-05,
+          6.3851e-06,  5.9418e-06],
+        [-5.3085e-06,  0.0000e+00,  0.0000e+00,  ..., -4.5709e-06,
+          1.2562e-05,  1.3754e-05],
+        [ 7.8045e-07,  0.0000e+00,  0.0000e+00,  ...,  5.9307e-06,
+         -2.1458e-05,  4.4480e-06],
+        ...,
+        [ 1.2331e-06,  0.0000e+00,  0.0000e+00,  ...,  5.5544e-06,
+          1.5102e-05, -1.2018e-05],
+        [ 1.0431e-06,  0.0000e+00,  0.0000e+00,  ...,  1.4871e-05,
+         -8.2180e-06,  3.0119e-06],
+        [ 1.7043e-07,  0.0000e+00,  0.0000e+00,  ...,  6.5006e-06,
+          5.5134e-06,  3.4779e-05]], device='cuda:0')
+Epoch 72, bias, value: tensor([ 0.0082, -0.0170,  0.0002,  0.0322, -0.0079,  0.0305,  0.0030,  0.0153,
+         0.0062, -0.0092], device='cuda:0'), grad: tensor([-4.7863e-05,  1.4153e-03,  1.9908e-04,  1.8072e-04, -1.3018e-04,
+        -1.7341e-06,  4.1693e-05, -2.5635e-03,  1.0681e-04,  7.9918e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 71, time 214.60, cls_loss 0.0065 cls_loss_mapping 0.0113 cls_loss_causal 0.6243 re_mapping 0.0111 re_causal 0.0334 /// teacc 98.80 lr 0.00010000
+Epoch 73, weight, value: tensor([[-0.0187, -0.0019, -0.0163,  ...,  0.0064, -0.0060, -0.0041],
+        [ 0.0274,  0.0152, -0.0193,  ...,  0.0246, -0.0080, -0.1835],
+        [-0.0106,  0.0179,  0.0177,  ..., -0.0379,  0.0539, -0.0336],
+        ...,
+        [ 0.0008, -0.0115,  0.0192,  ..., -0.0534, -0.0791,  0.0210],
+        [-0.0125,  0.0080, -0.0067,  ..., -0.0499,  0.0290, -0.1140],
+        [-0.0604,  0.0002,  0.0012,  ..., -0.0665, -0.0497, -0.0587]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.6418e-05,
+          3.3230e-05,  4.6985e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.5241e-06,
+          4.5039e-06,  1.1390e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.6981e-06,
+         -3.9965e-05,  2.4345e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.4005e-07,
+          1.5348e-05,  4.7088e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.5526e-05,
+          1.9446e-05,  1.5888e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.4755e-06,
+          7.5884e-06, -4.2282e-06]], device='cuda:0')
+Epoch 73, bias, value: tensor([ 0.0081, -0.0177,  0.0002,  0.0321, -0.0078,  0.0304,  0.0031,  0.0149,
+         0.0068, -0.0088], device='cuda:0'), grad: tensor([ 7.2479e-05,  1.4782e-05, -4.5508e-05,  5.0992e-05,  2.9057e-05,
+         2.0206e-04, -1.8179e-04, -1.6546e-04,  1.4806e-04, -1.2469e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 72, time 214.54, cls_loss 0.0077 cls_loss_mapping 0.0128 cls_loss_causal 0.6603 re_mapping 0.0108 re_causal 0.0328 /// teacc 98.82 lr 0.00010000
+Epoch 74, weight, value: tensor([[-0.0191, -0.0019, -0.0165,  ...,  0.0067, -0.0062, -0.0026],
+        [ 0.0295,  0.0152, -0.0194,  ...,  0.0253, -0.0088, -0.1845],
+        [-0.0113,  0.0179,  0.0178,  ..., -0.0381,  0.0551, -0.0341],
+        ...,
+        [ 0.0005, -0.0115,  0.0192,  ..., -0.0536, -0.0789,  0.0203],
+        [-0.0136,  0.0080, -0.0067,  ..., -0.0504,  0.0287, -0.1143],
+        [-0.0614,  0.0002,  0.0012,  ..., -0.0670, -0.0501, -0.0588]],
+       device='cuda:0'), grad: tensor([[-2.2817e-08,  0.0000e+00,  0.0000e+00,  ..., -8.9705e-06,
+          4.0941e-06,  5.7137e-07],
+        [-2.7893e-07,  0.0000e+00,  0.0000e+00,  ..., -1.2871e-06,
+          8.8476e-07,  2.4438e-06],
+        [ 2.8405e-08,  0.0000e+00,  0.0000e+00,  ...,  2.6580e-06,
+          1.7760e-06,  3.1432e-07],
+        ...,
+        [ 3.7719e-08,  0.0000e+00,  0.0000e+00,  ...,  6.7195e-07,
+          1.2703e-06,  3.1721e-06],
+        [ 1.3877e-07,  0.0000e+00,  0.0000e+00,  ...,  4.1425e-06,
+         -2.8824e-07,  2.1681e-06],
+        [ 2.5146e-08,  0.0000e+00,  0.0000e+00,  ...,  3.2056e-06,
+         -4.2766e-06, -3.0342e-06]], device='cuda:0')
+Epoch 74, bias, value: tensor([ 0.0088, -0.0173,  0.0006,  0.0323, -0.0084,  0.0297,  0.0039,  0.0154,
+         0.0053, -0.0087], device='cuda:0'), grad: tensor([ 1.6302e-05, -1.5814e-06,  2.2352e-05,  9.6083e-05,  8.4877e-05,
+        -2.6658e-05,  5.5701e-05,  1.0394e-05,  2.6584e-04, -5.2357e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 73----------------------------------------------------
+epoch 73, time 231.86, cls_loss 0.0098 cls_loss_mapping 0.0185 cls_loss_causal 0.6327 re_mapping 0.0107 re_causal 0.0314 /// teacc 98.92 lr 0.00010000
+Epoch 75, weight, value: tensor([[-0.0202, -0.0019, -0.0172,  ...,  0.0063, -0.0060, -0.0027],
+        [ 0.0326,  0.0152, -0.0176,  ...,  0.0250, -0.0092, -0.1850],
+        [-0.0116,  0.0179,  0.0178,  ..., -0.0386,  0.0557, -0.0345],
+        ...,
+        [-0.0007, -0.0115,  0.0186,  ..., -0.0540, -0.0792,  0.0200],
+        [-0.0162,  0.0080, -0.0068,  ..., -0.0510,  0.0284, -0.1149],
+        [-0.0652,  0.0002,  0.0012,  ..., -0.0675, -0.0506, -0.0594]],
+       device='cuda:0'), grad: tensor([[-2.9569e-07,  0.0000e+00,  0.0000e+00,  ..., -3.3919e-06,
+          5.0843e-05,  9.3319e-07],
+        [ 4.4927e-06,  0.0000e+00,  0.0000e+00,  ...,  7.3612e-06,
+          1.0389e-04,  2.9504e-06],
+        [ 1.6782e-06,  0.0000e+00,  0.0000e+00,  ...,  3.6024e-06,
+          2.5630e-06,  1.4110e-06],
+        ...,
+        [ 7.9395e-07,  0.0000e+00,  0.0000e+00,  ...,  1.3821e-06,
+          2.5913e-05,  3.1646e-06],
+        [ 4.2235e-07,  0.0000e+00,  0.0000e+00,  ..., -4.4179e-04,
+         -4.4937e-03,  1.3299e-05],
+        [ 1.3849e-06,  0.0000e+00,  0.0000e+00,  ...,  3.7774e-06,
+          4.4674e-05,  2.7752e-04]], device='cuda:0')
+Epoch 75, bias, value: tensor([ 0.0079, -0.0177,  0.0002,  0.0327, -0.0087,  0.0295,  0.0050,  0.0162,
+         0.0042, -0.0083], device='cuda:0'), grad: tensor([ 0.0001,  0.0004, -0.0004,  0.0013, -0.0007,  0.0007,  0.0049,  0.0002,
+        -0.0072,  0.0006], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 74, time 214.23, cls_loss 0.0096 cls_loss_mapping 0.0169 cls_loss_causal 0.6218 re_mapping 0.0111 re_causal 0.0320 /// teacc 98.68 lr 0.00010000
+Epoch 76, weight, value: tensor([[-0.0207, -0.0019, -0.0172,  ...,  0.0070, -0.0059, -0.0028],
+        [ 0.0312,  0.0152, -0.0176,  ...,  0.0252, -0.0105, -0.1831],
+        [-0.0099,  0.0179,  0.0178,  ..., -0.0395,  0.0564, -0.0362],
+        ...,
+        [-0.0009, -0.0115,  0.0185,  ..., -0.0542, -0.0800,  0.0201],
+        [-0.0167,  0.0080, -0.0068,  ..., -0.0512,  0.0295, -0.1147],
+        [-0.0668,  0.0002,  0.0012,  ..., -0.0665, -0.0511, -0.0602]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.5870e-05,
+          2.9102e-05,  5.6982e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.2750e-05,
+          5.6028e-04,  2.1175e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.9651e-05,
+          2.6792e-05,  8.9169e-05],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.0446e-04,
+          1.9515e-04,  6.8665e-04],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -9.1940e-06,
+         -7.6723e-04,  9.0659e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  7.5936e-05,
+          8.0347e-05,  1.4997e-04]], device='cuda:0')
+Epoch 76, bias, value: tensor([ 0.0079, -0.0172,  0.0003,  0.0322, -0.0077,  0.0298,  0.0038,  0.0159,
+         0.0048, -0.0086], device='cuda:0'), grad: tensor([ 0.0005,  0.0015,  0.0008,  0.0013,  0.0008, -0.0123,  0.0003,  0.0065,
+        -0.0009,  0.0014], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 75, time 214.30, cls_loss 0.0062 cls_loss_mapping 0.0110 cls_loss_causal 0.6040 re_mapping 0.0106 re_causal 0.0333 /// teacc 98.76 lr 0.00010000
+Epoch 77, weight, value: tensor([[-0.0214, -0.0019, -0.0173,  ...,  0.0070, -0.0065, -0.0030],
+        [ 0.0314,  0.0152, -0.0177,  ...,  0.0247, -0.0113, -0.1842],
+        [-0.0100,  0.0179,  0.0178,  ..., -0.0398,  0.0565, -0.0366],
+        ...,
+        [-0.0009, -0.0115,  0.0185,  ..., -0.0547, -0.0806,  0.0213],
+        [-0.0160,  0.0080, -0.0068,  ..., -0.0516,  0.0300, -0.1163],
+        [-0.0673,  0.0002,  0.0012,  ..., -0.0667, -0.0515, -0.0610]],
+       device='cuda:0'), grad: tensor([[ 5.0291e-08,  0.0000e+00,  0.0000e+00,  ..., -3.5930e-06,
+          8.2776e-06,  2.7800e-07],
+        [-8.4331e-07,  0.0000e+00,  0.0000e+00,  ...,  5.8673e-08,
+          2.1428e-05,  5.0012e-07],
+        [ 1.7323e-07,  0.0000e+00,  0.0000e+00,  ...,  6.0117e-07,
+         -1.2536e-06,  1.1034e-05],
+        ...,
+        [ 1.2293e-07,  0.0000e+00,  0.0000e+00,  ...,  1.3132e-07,
+          2.2680e-05,  3.1991e-07],
+        [ 1.8487e-07,  0.0000e+00,  0.0000e+00,  ...,  5.4343e-07,
+         -1.5926e-04, -1.6198e-05],
+        [ 5.2154e-08,  0.0000e+00,  0.0000e+00,  ...,  6.5984e-07,
+          1.4015e-05,  1.5637e-06]], device='cuda:0')
+Epoch 77, bias, value: tensor([ 0.0076, -0.0174,  0.0001,  0.0319, -0.0077,  0.0309,  0.0042,  0.0159,
+         0.0048, -0.0091], device='cuda:0'), grad: tensor([ 7.4625e-05,  3.5465e-05,  2.0111e-04,  2.8276e-04,  2.3112e-05,
+         2.4438e-05,  5.5790e-05, -5.0592e-04, -2.5320e-04,  6.2466e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 76, time 214.29, cls_loss 0.0068 cls_loss_mapping 0.0114 cls_loss_causal 0.5680 re_mapping 0.0109 re_causal 0.0317 /// teacc 98.76 lr 0.00010000
+Epoch 78, weight, value: tensor([[-0.0215, -0.0019, -0.0180,  ...,  0.0082, -0.0069, -0.0031],
+        [ 0.0313,  0.0152, -0.0185,  ...,  0.0237, -0.0122, -0.1852],
+        [-0.0103,  0.0179,  0.0176,  ..., -0.0405,  0.0567, -0.0364],
+        ...,
+        [ 0.0004, -0.0115,  0.0181,  ..., -0.0544, -0.0809,  0.0209],
+        [-0.0167,  0.0080, -0.0056,  ..., -0.0516,  0.0306, -0.1165],
+        [-0.0698,  0.0002,  0.0011,  ..., -0.0669, -0.0519, -0.0605]],
+       device='cuda:0'), grad: tensor([[ 3.4459e-08,  0.0000e+00,  0.0000e+00,  ...,  1.4715e-05,
+          9.7230e-06,  5.5367e-07],
+        [-6.4913e-07,  0.0000e+00,  0.0000e+00,  ..., -2.0593e-05,
+          2.5667e-06,  3.4226e-07],
+        [ 2.5192e-07,  0.0000e+00,  0.0000e+00,  ...,  7.2382e-06,
+          1.3895e-06,  3.6042e-07],
+        ...,
+        [ 1.1129e-07,  0.0000e+00,  0.0000e+00,  ...,  2.3544e-06,
+          4.8382e-07,  1.0347e-06],
+        [ 1.2014e-07,  0.0000e+00,  0.0000e+00,  ...,  1.7017e-05,
+         -6.7241e-06,  6.2259e-07],
+        [ 4.3306e-08,  0.0000e+00,  0.0000e+00,  ...,  3.2242e-06,
+          1.5935e-06,  3.4213e-05]], device='cuda:0')
+Epoch 78, bias, value: tensor([ 0.0084, -0.0181, -0.0002,  0.0318, -0.0077,  0.0306,  0.0037,  0.0165,
+         0.0049, -0.0088], device='cuda:0'), grad: tensor([ 5.8591e-05, -1.5962e-04,  3.9369e-05,  3.4750e-05,  2.2575e-06,
+        -1.2413e-05, -2.6315e-05,  1.3947e-05,  3.8862e-05,  1.0744e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 77, time 214.63, cls_loss 0.0065 cls_loss_mapping 0.0098 cls_loss_causal 0.6058 re_mapping 0.0105 re_causal 0.0323 /// teacc 98.83 lr 0.00010000
+Epoch 79, weight, value: tensor([[-0.0226, -0.0019, -0.0189,  ...,  0.0081, -0.0075, -0.0033],
+        [ 0.0315,  0.0152, -0.0188,  ...,  0.0238, -0.0131, -0.1856],
+        [-0.0098,  0.0179,  0.0178,  ..., -0.0410,  0.0576, -0.0366],
+        ...,
+        [-0.0010, -0.0115,  0.0177,  ..., -0.0547, -0.0819,  0.0203],
+        [-0.0173,  0.0080, -0.0050,  ..., -0.0523,  0.0308, -0.1177],
+        [-0.0718,  0.0002,  0.0011,  ..., -0.0672, -0.0524, -0.0603]],
+       device='cuda:0'), grad: tensor([[ 2.1413e-05,  0.0000e+00,  0.0000e+00,  ..., -1.4551e-05,
+          3.7014e-05,  3.6180e-05],
+        [ 9.4920e-06,  0.0000e+00,  0.0000e+00,  ..., -1.6754e-06,
+          8.6129e-06,  1.8910e-05],
+        [ 6.0983e-06,  0.0000e+00,  0.0000e+00,  ..., -5.4687e-06,
+         -2.0194e-04,  6.4634e-06],
+        ...,
+        [-5.5462e-05,  0.0000e+00,  0.0000e+00,  ..., -2.8498e-06,
+          3.8326e-05, -9.9599e-05],
+        [ 2.4270e-06,  0.0000e+00,  0.0000e+00,  ...,  6.8955e-06,
+          6.4731e-05,  6.8396e-06],
+        [ 3.5651e-06,  0.0000e+00,  0.0000e+00,  ...,  6.0052e-06,
+          2.4084e-06,  7.8306e-06]], device='cuda:0')
+Epoch 79, bias, value: tensor([ 7.5956e-03, -1.7898e-02, -8.5355e-05,  3.1815e-02, -7.6049e-03,
+         3.0820e-02,  3.8487e-03,  1.5939e-02,  4.2507e-03, -7.9647e-03],
+       device='cuda:0'), grad: tensor([ 1.3864e-04,  5.8383e-05, -2.2185e-04,  1.5140e-04,  6.2525e-05,
+         3.6538e-05,  4.2707e-05, -4.9639e-04,  1.1688e-04,  1.1140e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 78, time 214.13, cls_loss 0.0071 cls_loss_mapping 0.0143 cls_loss_causal 0.6171 re_mapping 0.0113 re_causal 0.0327 /// teacc 98.74 lr 0.00010000
+Epoch 80, weight, value: tensor([[-0.0231, -0.0019, -0.0250,  ...,  0.0081, -0.0079, -0.0031],
+        [ 0.0321,  0.0152, -0.0194,  ...,  0.0260, -0.0134, -0.1861],
+        [-0.0098,  0.0179,  0.0162,  ..., -0.0416,  0.0583, -0.0368],
+        ...,
+        [-0.0013, -0.0115,  0.0123,  ..., -0.0551, -0.0831,  0.0203],
+        [-0.0182,  0.0080, -0.0077,  ..., -0.0539,  0.0307, -0.1187],
+        [-0.0731,  0.0002,  0.0023,  ..., -0.0678, -0.0531, -0.0605]],
+       device='cuda:0'), grad: tensor([[-5.6252e-07,  0.0000e+00,  0.0000e+00,  ..., -8.2403e-06,
+          4.8757e-05,  2.5630e-05],
+        [ 6.4727e-08,  0.0000e+00,  0.0000e+00,  ...,  1.2862e-06,
+          1.0881e-03,  9.3207e-06],
+        [ 9.7323e-08,  0.0000e+00,  0.0000e+00,  ...,  2.2165e-06,
+         -3.2520e-04, -3.1972e-04],
+        ...,
+        [ 2.6543e-08,  0.0000e+00,  0.0000e+00,  ...,  3.9600e-06,
+          1.3411e-04,  1.1015e-04],
+        [ 2.1420e-08,  0.0000e+00,  0.0000e+00,  ...,  4.9733e-06,
+         -1.9817e-03,  1.6376e-05],
+        [ 6.3330e-08,  0.0000e+00,  0.0000e+00,  ...,  5.5023e-06,
+          7.1955e-04,  8.7991e-06]], device='cuda:0')
+Epoch 80, bias, value: tensor([ 0.0074, -0.0175,  0.0005,  0.0316, -0.0071,  0.0314,  0.0033,  0.0157,
+         0.0036, -0.0083], device='cuda:0'), grad: tensor([ 1.2815e-04,  4.7760e-03, -6.1750e-04,  2.6077e-05,  3.0684e-04,
+         1.8227e-04,  2.1207e-04,  9.0361e-05, -7.1449e-03,  2.0409e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 79, time 214.27, cls_loss 0.0061 cls_loss_mapping 0.0119 cls_loss_causal 0.6139 re_mapping 0.0106 re_causal 0.0329 /// teacc 98.81 lr 0.00010000
+Epoch 81, weight, value: tensor([[-0.0232, -0.0019, -0.0266,  ...,  0.0083, -0.0083, -0.0032],
+        [ 0.0326,  0.0152, -0.0219,  ...,  0.0255, -0.0142, -0.1862],
+        [-0.0098,  0.0179,  0.0153,  ..., -0.0419,  0.0590, -0.0368],
+        ...,
+        [-0.0014, -0.0115,  0.0096,  ..., -0.0554, -0.0843,  0.0203],
+        [-0.0188,  0.0079, -0.0086,  ..., -0.0545,  0.0323, -0.1210],
+        [-0.0747,  0.0002,  0.0020,  ..., -0.0684, -0.0539, -0.0606]],
+       device='cuda:0'), grad: tensor([[-6.6590e-08,  0.0000e+00,  0.0000e+00,  ..., -3.0845e-06,
+          4.1313e-06,  1.8952e-07],
+        [-2.7474e-08,  0.0000e+00,  0.0000e+00,  ...,  1.2377e-06,
+          3.6228e-06,  6.4261e-08],
+        [ 2.0489e-08,  0.0000e+00,  0.0000e+00,  ...,  1.1241e-06,
+         -2.1055e-05, -1.3812e-06],
+        ...,
+        [ 1.2107e-08,  0.0000e+00,  0.0000e+00,  ...,  1.5693e-07,
+          1.3774e-06,  2.7288e-07],
+        [ 1.2107e-08,  0.0000e+00,  0.0000e+00,  ...,  2.0087e-05,
+          6.1989e-05,  4.3064e-06],
+        [ 6.9849e-09,  0.0000e+00,  0.0000e+00,  ...,  9.7509e-07,
+          2.7455e-06, -9.0199e-07]], device='cuda:0')
+Epoch 81, bias, value: tensor([ 0.0072, -0.0171,  0.0008,  0.0316, -0.0075,  0.0315,  0.0036,  0.0152,
+         0.0044, -0.0086], device='cuda:0'), grad: tensor([ 2.6934e-06,  1.5289e-05, -9.3430e-06,  8.7738e-05,  1.7211e-05,
+        -3.6180e-05, -8.6308e-05, -5.8293e-05,  1.1563e-04, -4.8637e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 80, time 214.52, cls_loss 0.0065 cls_loss_mapping 0.0126 cls_loss_causal 0.5807 re_mapping 0.0107 re_causal 0.0314 /// teacc 98.74 lr 0.00010000
+Epoch 82, weight, value: tensor([[-0.0232, -0.0019, -0.0285,  ...,  0.0085, -0.0087, -0.0029],
+        [ 0.0326,  0.0152, -0.0248,  ...,  0.0262, -0.0130, -0.1866],
+        [-0.0098,  0.0179,  0.0146,  ..., -0.0427,  0.0595, -0.0368],
+        ...,
+        [-0.0013, -0.0115,  0.0085,  ..., -0.0557, -0.0863,  0.0203],
+        [-0.0188,  0.0079, -0.0078,  ..., -0.0547,  0.0323, -0.1214],
+        [-0.0749,  0.0002,  0.0020,  ..., -0.0686, -0.0547, -0.0604]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-09,  0.0000e+00,  0.0000e+00,  ..., -1.4566e-05,
+         -2.5079e-05,  5.8673e-08],
+        [ 3.7253e-09,  0.0000e+00,  0.0000e+00,  ..., -2.0266e-05,
+         -1.8075e-05,  1.7835e-07],
+        [ 9.3132e-09,  0.0000e+00,  0.0000e+00,  ...,  1.7256e-05,
+          2.7731e-05,  1.4110e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.6876e-06,
+          2.3004e-06,  1.4435e-07],
+        [ 1.0245e-08,  0.0000e+00,  0.0000e+00,  ...,  4.3549e-06,
+          6.3144e-06,  5.9605e-08],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  2.4047e-06,
+          3.4571e-06,  2.4065e-06]], device='cuda:0')
+Epoch 82, bias, value: tensor([ 0.0073, -0.0162,  0.0010,  0.0315, -0.0072,  0.0311,  0.0041,  0.0152,
+         0.0034, -0.0090], device='cuda:0'), grad: tensor([-1.1420e-04, -2.1100e-04,  8.2874e-04,  6.2132e-04,  1.3518e-04,
+         3.2365e-05,  6.1989e-05, -1.4362e-03,  7.0572e-05,  1.1928e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 81, time 214.36, cls_loss 0.0067 cls_loss_mapping 0.0123 cls_loss_causal 0.6098 re_mapping 0.0106 re_causal 0.0306 /// teacc 98.84 lr 0.00010000
+Epoch 83, weight, value: tensor([[-0.0237, -0.0019, -0.0314,  ...,  0.0088, -0.0088, -0.0031],
+        [ 0.0325,  0.0151, -0.0251,  ...,  0.0262, -0.0135, -0.1881],
+        [-0.0100,  0.0179,  0.0141,  ..., -0.0431,  0.0600, -0.0371],
+        ...,
+        [-0.0014, -0.0115,  0.0070,  ..., -0.0561, -0.0872,  0.0209],
+        [-0.0174,  0.0079, -0.0086,  ..., -0.0556,  0.0322, -0.1211],
+        [-0.0751,  0.0002,  0.0013,  ..., -0.0686, -0.0553, -0.0607]],
+       device='cuda:0'), grad: tensor([[ 9.7323e-08,  0.0000e+00,  4.6566e-09,  ..., -9.5665e-05,
+          9.8813e-07,  7.2690e-07],
+        [ 2.4354e-07,  0.0000e+00,  1.5832e-08,  ...,  1.4603e-04,
+          5.0592e-04,  2.3618e-06],
+        [ 2.3376e-06,  0.0000e+00,  4.1910e-09,  ..., -4.2245e-06,
+         -1.0449e-04, -1.3113e-06],
+        ...,
+        [ 3.1246e-07,  0.0000e+00,  5.4482e-08,  ...,  5.3383e-06,
+          1.6943e-05,  1.9781e-06],
+        [ 9.2201e-08,  0.0000e+00,  7.3109e-08,  ...,  2.5272e-03,
+          8.8120e-03,  1.9064e-06],
+        [ 1.4435e-07,  0.0000e+00, -2.6310e-07,  ...,  6.3002e-05,
+          4.1544e-05,  8.3566e-05]], device='cuda:0')
+Epoch 83, bias, value: tensor([ 0.0072, -0.0165,  0.0007,  0.0322, -0.0076,  0.0311,  0.0041,  0.0158,
+         0.0028, -0.0089], device='cuda:0'), grad: tensor([-1.8215e-04,  7.2670e-04, -1.6189e-04,  6.3062e-05, -2.5794e-05,
+        -1.5282e-02,  1.8253e-03, -1.0467e-04,  1.2741e-02,  3.9482e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 82, time 214.46, cls_loss 0.0065 cls_loss_mapping 0.0105 cls_loss_causal 0.5919 re_mapping 0.0096 re_causal 0.0287 /// teacc 98.91 lr 0.00010000
+Epoch 84, weight, value: tensor([[-0.0238, -0.0019, -0.0336,  ...,  0.0099, -0.0094, -0.0032],
+        [ 0.0325,  0.0151, -0.0227,  ...,  0.0244, -0.0138, -0.1888],
+        [-0.0103,  0.0179,  0.0137,  ..., -0.0435,  0.0606, -0.0366],
+        ...,
+        [-0.0009, -0.0115,  0.0052,  ..., -0.0564, -0.0875,  0.0223],
+        [-0.0176,  0.0079, -0.0094,  ..., -0.0563,  0.0318, -0.1217],
+        [-0.0754,  0.0002,  0.0018,  ..., -0.0690, -0.0560, -0.0617]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.8818e-06,
+          7.2755e-06,  2.8089e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -4.3726e-07,
+          4.1649e-06,  5.6485e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.0356e-06,
+          2.7925e-05,  2.1601e-04],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.7323e-08,
+          6.9797e-05,  4.6846e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.9840e-06,
+          1.0356e-05,  1.7118e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.6822e-07,
+          9.1344e-06,  1.2867e-05]], device='cuda:0')
+Epoch 84, bias, value: tensor([ 0.0079, -0.0168,  0.0007,  0.0320, -0.0067,  0.0315,  0.0041,  0.0155,
+         0.0026, -0.0096], device='cuda:0'), grad: tensor([ 2.4438e-05, -1.2410e-04,  2.7037e-04,  4.6921e-04, -5.5695e-04,
+        -4.5395e-04,  1.7717e-05,  2.7752e-04,  9.5129e-05, -1.8597e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 83, time 214.30, cls_loss 0.0053 cls_loss_mapping 0.0099 cls_loss_causal 0.5955 re_mapping 0.0099 re_causal 0.0298 /// teacc 98.90 lr 0.00010000
+Epoch 85, weight, value: tensor([[-0.0240, -0.0018, -0.0365,  ...,  0.0104, -0.0098, -0.0026],
+        [ 0.0325,  0.0151, -0.0188,  ...,  0.0242, -0.0140, -0.1892],
+        [-0.0103,  0.0179,  0.0135,  ..., -0.0439,  0.0614, -0.0371],
+        ...,
+        [-0.0009, -0.0115,  0.0024,  ..., -0.0566, -0.0885,  0.0230],
+        [-0.0176,  0.0076, -0.0117,  ..., -0.0561,  0.0319, -0.1230],
+        [-0.0756,  0.0002,  0.0018,  ..., -0.0694, -0.0565, -0.0617]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -4.7907e-06,
+         -3.9399e-05, -3.3116e-04],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -2.6310e-07,
+          2.7660e-06,  2.1718e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.8406e-07,
+          1.1519e-05,  3.7640e-05],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -5.3272e-07,
+          3.5409e-06,  1.3638e-04],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.1383e-06,
+         -2.3317e-04,  4.9204e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.5274e-06,
+          2.2471e-04, -9.0897e-05]], device='cuda:0')
+Epoch 85, bias, value: tensor([ 0.0083, -0.0175,  0.0008,  0.0326, -0.0071,  0.0313,  0.0038,  0.0159,
+         0.0025, -0.0094], device='cuda:0'), grad: tensor([-6.7472e-04,  1.3679e-05,  1.1408e-04,  6.3360e-05,  2.2423e-04,
+         4.0382e-05,  1.8847e-04,  1.3132e-03, -6.9571e-04, -5.8746e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 84, time 214.44, cls_loss 0.0045 cls_loss_mapping 0.0092 cls_loss_causal 0.5685 re_mapping 0.0098 re_causal 0.0296 /// teacc 98.85 lr 0.00010000
+Epoch 86, weight, value: tensor([[-0.0240, -0.0018, -0.0380,  ...,  0.0104, -0.0101, -0.0020],
+        [ 0.0325,  0.0150, -0.0179,  ...,  0.0241, -0.0143, -0.1895],
+        [-0.0104,  0.0179,  0.0143,  ..., -0.0444,  0.0618, -0.0376],
+        ...,
+        [-0.0004, -0.0115,  0.0016,  ..., -0.0568, -0.0890,  0.0230],
+        [-0.0177,  0.0075, -0.0125,  ..., -0.0565,  0.0321, -0.1237],
+        [-0.0756,  0.0002,  0.0015,  ..., -0.0697, -0.0574, -0.0621]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.0505e-05,
+          9.5833e-07,  1.4901e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.2526e-07,
+          9.4436e-07,  1.1269e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.7707e-07,
+          2.0210e-06,  9.8720e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.6391e-07,
+          7.1526e-07,  2.2864e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.0199e-07,
+         -1.0329e-04,  3.6787e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3581e-06,
+          1.2495e-05,  6.5845e-07]], device='cuda:0')
+Epoch 86, bias, value: tensor([ 0.0083, -0.0176,  0.0010,  0.0327, -0.0072,  0.0315,  0.0041,  0.0158,
+         0.0025, -0.0097], device='cuda:0'), grad: tensor([-2.1607e-05,  6.1691e-06,  6.4559e-06,  1.2600e-04,  1.5117e-05,
+         1.2815e-05,  3.8177e-05, -8.3596e-06, -1.6272e-04, -1.1981e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 85----------------------------------------------------
+epoch 85, time 230.99, cls_loss 0.0048 cls_loss_mapping 0.0106 cls_loss_causal 0.6130 re_mapping 0.0100 re_causal 0.0307 /// teacc 98.98 lr 0.00010000
+Epoch 87, weight, value: tensor([[-0.0240, -0.0018, -0.0381,  ...,  0.0106, -0.0102, -0.0021],
+        [ 0.0325,  0.0150, -0.0175,  ...,  0.0239, -0.0149, -0.1899],
+        [-0.0104,  0.0179,  0.0142,  ..., -0.0448,  0.0623, -0.0377],
+        ...,
+        [-0.0005, -0.0115,  0.0015,  ..., -0.0570, -0.0896,  0.0229],
+        [-0.0177,  0.0074, -0.0127,  ..., -0.0563,  0.0324, -0.1240],
+        [-0.0756,  0.0002,  0.0015,  ..., -0.0699, -0.0580, -0.0625]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ..., -2.3339e-06,
+          2.8059e-05,  1.7695e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.8161e-08,  ...,  1.1727e-05,
+          1.9193e-05,  3.5297e-07],
+        [ 0.0000e+00,  0.0000e+00,  5.1223e-09,  ...,  5.6922e-06,
+          1.9714e-05,  4.0559e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  7.7952e-07,  ...,  5.5274e-07,
+          2.8405e-06,  2.5192e-07],
+        [ 0.0000e+00,  0.0000e+00,  5.1223e-08,  ...,  3.8356e-05,
+         -7.3254e-05,  2.0908e-07],
+        [ 0.0000e+00,  0.0000e+00, -9.7603e-07,  ...,  4.8541e-06,
+          1.0990e-05,  9.7416e-07]], device='cuda:0')
+Epoch 87, bias, value: tensor([ 0.0083, -0.0182,  0.0010,  0.0325, -0.0070,  0.0318,  0.0043,  0.0162,
+         0.0026, -0.0100], device='cuda:0'), grad: tensor([ 2.6494e-05,  9.2447e-05,  1.0347e-04, -8.8215e-04, -1.4998e-05,
+         2.1482e-04, -1.7250e-04,  5.1498e-04,  1.8224e-05,  9.8765e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 86, time 214.63, cls_loss 0.0050 cls_loss_mapping 0.0096 cls_loss_causal 0.5969 re_mapping 0.0094 re_causal 0.0293 /// teacc 98.93 lr 0.00010000
+Epoch 88, weight, value: tensor([[-2.4045e-02,  6.0286e-05, -3.8161e-02,  ...,  1.0878e-02,
+         -1.0894e-02, -2.1233e-03],
+        [ 3.2484e-02,  1.3429e-02, -1.7501e-02,  ...,  2.4416e-02,
+         -1.5517e-02, -1.9029e-01],
+        [-1.0455e-02,  1.7681e-02,  1.4187e-02,  ..., -4.5611e-02,
+          6.2936e-02, -3.6689e-02],
+        ...,
+        [-1.0260e-04, -1.1694e-02,  1.4155e-03,  ..., -5.7610e-02,
+         -9.0238e-02,  2.2545e-02],
+        [-1.7547e-02,  4.5833e-03, -1.2814e-02,  ..., -5.6170e-02,
+          3.3264e-02, -1.2426e-01],
+        [-7.5678e-02, -6.5520e-04,  1.5733e-03,  ..., -7.0434e-02,
+         -5.8796e-02, -6.2800e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.0736e-05,
+          2.7381e-06,  1.3504e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -7.5949e-07,
+          6.6683e-07,  1.5507e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.1194e-06,
+          1.0274e-05,  8.9873e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.0932e-07,
+          1.2822e-05,  1.8254e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.9384e-07,
+         -2.8223e-05,  1.3504e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.1090e-06,
+          1.0226e-06,  1.9046e-06]], device='cuda:0')
+Epoch 88, bias, value: tensor([ 0.0083, -0.0192,  0.0009,  0.0325, -0.0072,  0.0319,  0.0041,  0.0167,
+         0.0032, -0.0098], device='cuda:0'), grad: tensor([-1.0781e-05, -9.4902e-07,  1.9267e-05,  3.5893e-06,  2.0489e-06,
+        -3.1088e-06,  1.0513e-05,  2.3603e-05, -3.1352e-05, -1.2837e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 87, time 214.50, cls_loss 0.0069 cls_loss_mapping 0.0123 cls_loss_causal 0.5881 re_mapping 0.0095 re_causal 0.0287 /// teacc 98.80 lr 0.00010000
+Epoch 89, weight, value: tensor([[-2.6043e-02,  3.7143e-04, -3.8220e-02,  ...,  1.1324e-02,
+         -1.1646e-02, -2.1896e-03],
+        [ 3.2594e-02,  1.2937e-02, -1.7353e-02,  ...,  2.4447e-02,
+         -1.6228e-02, -1.9058e-01],
+        [-1.0277e-02,  1.7776e-02,  1.4158e-02,  ..., -4.6358e-02,
+          6.3708e-02, -3.6303e-02],
+        ...,
+        [-1.6251e-04, -1.1774e-02,  1.3448e-03,  ..., -5.7997e-02,
+         -9.0856e-02,  2.2416e-02],
+        [-1.5837e-02,  3.1783e-03, -1.2859e-02,  ..., -5.6959e-02,
+          3.4906e-02, -1.2475e-01],
+        [-7.5843e-02, -7.7885e-04,  1.5771e-03,  ..., -7.1726e-02,
+         -6.0967e-02, -6.2492e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.4982e-03,
+          9.5558e-04,  1.0272e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  8.8587e-06,
+          2.9907e-05,  6.5519e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.2724e-05,
+         -2.2367e-05,  6.6683e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.9488e-06,
+          1.3532e-06, -2.0657e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.1439e-05,
+          2.8964e-06,  2.3679e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.5187e-04,
+          6.7830e-05,  2.0936e-06]], device='cuda:0')
+Epoch 89, bias, value: tensor([ 0.0085, -0.0187,  0.0014,  0.0325, -0.0077,  0.0307,  0.0044,  0.0161,
+         0.0055, -0.0107], device='cuda:0'), grad: tensor([ 2.7504e-03, -4.0150e-04,  1.6916e-04,  2.9206e-04,  2.2197e-04,
+         8.1778e-05, -3.4676e-03, -2.9191e-05,  6.8843e-05,  3.1090e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 88, time 214.34, cls_loss 0.0048 cls_loss_mapping 0.0110 cls_loss_causal 0.5940 re_mapping 0.0098 re_causal 0.0306 /// teacc 98.91 lr 0.00010000
+Epoch 90, weight, value: tensor([[-2.5820e-02,  3.8353e-04, -3.8229e-02,  ...,  1.2556e-02,
+         -1.2130e-02, -1.8754e-03],
+        [ 3.2646e-02,  1.2911e-02, -1.7361e-02,  ...,  2.6358e-02,
+         -1.5865e-02, -1.9105e-01],
+        [-1.0334e-02,  1.7818e-02,  1.4152e-02,  ..., -4.6718e-02,
+          6.4342e-02, -3.6447e-02],
+        ...,
+        [-8.8909e-05, -1.1808e-02,  1.3427e-03,  ..., -5.8261e-02,
+         -9.1204e-02,  2.2884e-02],
+        [-1.5873e-02,  3.0592e-03, -1.2856e-02,  ..., -5.8163e-02,
+          3.4494e-02, -1.2520e-01],
+        [-7.5976e-02, -7.8098e-04,  1.5904e-03,  ..., -7.2031e-02,
+         -6.1460e-02, -6.2914e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.2806e-07,  ..., -5.1633e-06,
+          4.5657e-05,  1.1059e-07],
+        [ 0.0000e+00,  0.0000e+00,  2.5146e-06,  ...,  1.4454e-06,
+          1.7896e-05,  5.4948e-06],
+        [ 0.0000e+00,  0.0000e+00,  2.1998e-06,  ...,  1.6978e-06,
+         -3.9196e-04,  2.4564e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.2678e-07,  ...,  4.6287e-07,
+          1.2793e-05,  3.9376e-06],
+        [ 0.0000e+00,  0.0000e+00, -1.2167e-05,  ...,  1.3493e-05,
+          6.6340e-05,  4.3996e-06],
+        [ 0.0000e+00,  0.0000e+00,  6.0163e-07,  ...,  1.8328e-06,
+          6.7987e-06,  4.1537e-06]], device='cuda:0')
+Epoch 90, bias, value: tensor([ 0.0094, -0.0179,  0.0016,  0.0322, -0.0077,  0.0311,  0.0033,  0.0163,
+         0.0046, -0.0108], device='cuda:0'), grad: tensor([ 7.2539e-05,  6.0976e-05, -7.7248e-04,  4.1509e-04, -1.0175e-04,
+         1.1718e-04, -4.6045e-05,  5.6684e-05,  1.7238e-04,  2.4617e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 89----------------------------------------------------
+epoch 89, time 230.47, cls_loss 0.0040 cls_loss_mapping 0.0085 cls_loss_causal 0.6025 re_mapping 0.0089 re_causal 0.0291 /// teacc 98.99 lr 0.00010000
+Epoch 91, weight, value: tensor([[-0.0256,  0.0004, -0.0384,  ...,  0.0127, -0.0126, -0.0008],
+        [ 0.0327,  0.0129, -0.0175,  ...,  0.0261, -0.0169, -0.1915],
+        [-0.0104,  0.0178,  0.0140,  ..., -0.0473,  0.0647, -0.0363],
+        ...,
+        [ 0.0003, -0.0118,  0.0013,  ..., -0.0583, -0.0916,  0.0227],
+        [-0.0160,  0.0030, -0.0124,  ..., -0.0583,  0.0349, -0.1262],
+        [-0.0764, -0.0008,  0.0015,  ..., -0.0722, -0.0617, -0.0628]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.0841e-06,
+          1.4268e-06,  4.5612e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.5111e-07,
+         -2.4751e-05,  2.2158e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.3889e-07,
+         -3.0082e-06,  1.6401e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  8.0094e-08,
+          3.6284e-06,  6.6720e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.9381e-06,
+          5.0306e-05,  7.5512e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.9116e-07,
+          2.8238e-06,  1.9193e-05]], device='cuda:0')
+Epoch 91, bias, value: tensor([ 0.0096, -0.0178,  0.0013,  0.0319, -0.0077,  0.0314,  0.0026,  0.0162,
+         0.0046, -0.0102], device='cuda:0'), grad: tensor([ 1.1049e-05, -9.5591e-06,  3.5167e-05,  3.4451e-04, -2.4486e-04,
+        -3.7044e-05,  1.0476e-05, -8.2827e-04,  2.0218e-04,  5.1641e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 90, time 214.47, cls_loss 0.0048 cls_loss_mapping 0.0091 cls_loss_causal 0.5793 re_mapping 0.0088 re_causal 0.0258 /// teacc 98.99 lr 0.00010000
+Epoch 92, weight, value: tensor([[-0.0256,  0.0004, -0.0384,  ...,  0.0126, -0.0132, -0.0009],
+        [ 0.0327,  0.0128, -0.0175,  ...,  0.0259, -0.0174, -0.1919],
+        [-0.0104,  0.0179,  0.0140,  ..., -0.0483,  0.0652, -0.0368],
+        ...,
+        [ 0.0002, -0.0118,  0.0013,  ..., -0.0587, -0.0923,  0.0234],
+        [-0.0160,  0.0029, -0.0124,  ..., -0.0587,  0.0351, -0.1267],
+        [-0.0765, -0.0008,  0.0015,  ..., -0.0725, -0.0621, -0.0633]],
+       device='cuda:0'), grad: tensor([[ 3.6554e-08,  0.0000e+00,  0.0000e+00,  ...,  2.4080e-05,
+          1.9386e-05,  2.2585e-08],
+        [-7.1293e-07,  0.0000e+00,  0.0000e+00,  ...,  4.9779e-07,
+          5.0012e-07,  1.0966e-07],
+        [ 1.5250e-07,  0.0000e+00,  0.0000e+00,  ...,  5.8766e-07,
+         -1.4435e-07,  5.7276e-08],
+        ...,
+        [ 2.3260e-07,  0.0000e+00,  0.0000e+00,  ...,  1.4110e-07,
+          1.4529e-07,  2.1351e-07],
+        [ 1.0082e-07,  0.0000e+00,  0.0000e+00,  ...,  1.4104e-05,
+          1.2830e-05,  5.2853e-08],
+        [ 3.0501e-08,  0.0000e+00,  0.0000e+00,  ...,  1.4147e-06,
+          1.0561e-06,  5.4063e-07]], device='cuda:0')
+Epoch 92, bias, value: tensor([ 0.0094, -0.0179,  0.0013,  0.0319, -0.0076,  0.0317,  0.0027,  0.0166,
+         0.0041, -0.0105], device='cuda:0'), grad: tensor([ 3.1084e-05, -4.2111e-05,  1.1362e-05, -3.1982e-06,  1.4842e-05,
+         1.5676e-05, -6.9559e-05, -4.5672e-06,  4.7535e-05, -1.1884e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 91, time 214.10, cls_loss 0.0044 cls_loss_mapping 0.0092 cls_loss_causal 0.5948 re_mapping 0.0092 re_causal 0.0285 /// teacc 98.85 lr 0.00010000
+Epoch 93, weight, value: tensor([[-0.0254,  0.0004, -0.0388,  ...,  0.0127, -0.0142, -0.0010],
+        [ 0.0326,  0.0128, -0.0175,  ...,  0.0255, -0.0179, -0.1923],
+        [-0.0100,  0.0179,  0.0139,  ..., -0.0490,  0.0657, -0.0364],
+        ...,
+        [-0.0002, -0.0118,  0.0009,  ..., -0.0591, -0.0945,  0.0233],
+        [-0.0165,  0.0029, -0.0131,  ..., -0.0598,  0.0352, -0.1276],
+        [-0.0771, -0.0008,  0.0014,  ..., -0.0728, -0.0625, -0.0652]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3458e-06,
+          4.1910e-06,  4.0559e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.6287e-07,
+          2.9765e-06,  2.9872e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.2305e-07,
+          8.5458e-06,  9.5554e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  8.1491e-09,
+          2.6859e-06, -2.8163e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.4557e-06,
+         -6.2585e-06,  3.6391e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.3796e-08,
+          1.5497e-06,  1.0347e-06]], device='cuda:0')
+Epoch 93, bias, value: tensor([ 0.0094, -0.0179,  0.0012,  0.0317, -0.0067,  0.0315,  0.0041,  0.0157,
+         0.0041, -0.0109], device='cuda:0'), grad: tensor([ 1.6779e-05,  1.9774e-05,  6.0856e-05, -4.5061e-04,  2.0996e-05,
+         3.4451e-04, -1.6894e-06, -2.7969e-05,  9.8944e-06,  6.9141e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 92, time 214.49, cls_loss 0.0046 cls_loss_mapping 0.0083 cls_loss_causal 0.5993 re_mapping 0.0088 re_causal 0.0282 /// teacc 98.88 lr 0.00010000
+Epoch 94, weight, value: tensor([[-2.5531e-02,  3.7669e-04, -3.8857e-02,  ...,  1.2643e-02,
+         -1.4657e-02, -1.1499e-03],
+        [ 3.2577e-02,  1.2690e-02, -1.7246e-02,  ...,  2.5422e-02,
+         -1.8753e-02, -1.9236e-01],
+        [-1.0200e-02,  1.7993e-02,  1.3831e-02,  ..., -4.9359e-02,
+          6.6858e-02, -3.6859e-02],
+        ...,
+        [ 5.0469e-05, -1.1882e-02,  7.6131e-04,  ..., -5.9456e-02,
+         -9.4878e-02,  2.5345e-02],
+        [-1.6533e-02,  2.7472e-03, -1.3100e-02,  ..., -6.0227e-02,
+          3.5041e-02, -1.2816e-01],
+        [-7.7844e-02, -7.8318e-04,  1.4251e-03,  ..., -7.1927e-02,
+         -6.2247e-02, -6.5308e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -2.4661e-05,
+          3.2708e-06,  1.2228e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.3889e-07,
+          3.5763e-06,  5.6438e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.5560e-06,
+         -7.3433e-05,  5.8254e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.0117e-06,
+          7.1600e-06,  4.9034e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.8855e-06,
+          5.0180e-06,  2.0470e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.0997e-05,
+          7.0810e-05,  3.6597e-04]], device='cuda:0')
+Epoch 94, bias, value: tensor([ 0.0094, -0.0178,  0.0009,  0.0315, -0.0075,  0.0316,  0.0041,  0.0167,
+         0.0037, -0.0106], device='cuda:0'), grad: tensor([-4.1544e-05,  1.4879e-05, -1.2082e-04,  3.8177e-05, -1.5125e-03,
+         2.5943e-05,  1.3649e-05, -1.0997e-04,  4.6253e-05,  1.6451e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 93, time 214.43, cls_loss 0.0055 cls_loss_mapping 0.0096 cls_loss_causal 0.5908 re_mapping 0.0085 re_causal 0.0256 /// teacc 98.97 lr 0.00010000
+Epoch 95, weight, value: tensor([[-0.0266,  0.0004, -0.0389,  ...,  0.0127, -0.0153, -0.0010],
+        [ 0.0327,  0.0122, -0.0172,  ...,  0.0258, -0.0189, -0.1928],
+        [-0.0105,  0.0181,  0.0138,  ..., -0.0499,  0.0675, -0.0376],
+        ...,
+        [-0.0003, -0.0120,  0.0008,  ..., -0.0596, -0.0954,  0.0256],
+        [-0.0154,  0.0013, -0.0131,  ..., -0.0610,  0.0345, -0.1295],
+        [-0.0786, -0.0008,  0.0014,  ..., -0.0721, -0.0626, -0.0662]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.1064e-06,
+          1.0818e-05,  5.3905e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.0775e-06,
+          1.0245e-05,  2.0102e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3066e-06,
+          5.0187e-05,  2.8729e-05],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  8.6846e-08,
+          2.6152e-06, -7.1466e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.0536e-06,
+         -1.4031e-04,  3.6005e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  8.1863e-07,
+          1.5795e-05,  4.1723e-05]], device='cuda:0')
+Epoch 95, bias, value: tensor([ 0.0089, -0.0173,  0.0008,  0.0318, -0.0072,  0.0316,  0.0043,  0.0165,
+         0.0031, -0.0107], device='cuda:0'), grad: tensor([ 6.2525e-05,  1.5593e-04,  2.2459e-04,  7.9095e-05, -6.2466e-05,
+         2.1720e-04, -2.2322e-05, -5.0020e-04, -2.6083e-04,  1.0705e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 94, time 214.54, cls_loss 0.0041 cls_loss_mapping 0.0084 cls_loss_causal 0.6257 re_mapping 0.0089 re_causal 0.0278 /// teacc 98.91 lr 0.00010000
+Epoch 96, weight, value: tensor([[-0.0263,  0.0004, -0.0389,  ...,  0.0129, -0.0151, -0.0008],
+        [ 0.0327,  0.0120, -0.0172,  ...,  0.0256, -0.0193, -0.1927],
+        [-0.0105,  0.0184,  0.0138,  ..., -0.0502,  0.0683, -0.0381],
+        ...,
+        [-0.0004, -0.0121,  0.0008,  ..., -0.0599, -0.0958,  0.0259],
+        [-0.0154,  0.0004, -0.0131,  ..., -0.0613,  0.0344, -0.1301],
+        [-0.0787, -0.0008,  0.0014,  ..., -0.0724, -0.0639, -0.0664]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.9912e-06,
+          4.1313e-06,  2.3306e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.4389e-07,
+          2.8554e-06,  3.9139e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -3.0012e-07,
+         -5.7340e-05,  3.2783e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8603e-07,
+          3.3498e-05,  1.3029e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3916e-06,
+          8.0541e-06,  9.3831e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  7.1945e-07,
+          3.7570e-06,  2.8294e-06]], device='cuda:0')
+Epoch 96, bias, value: tensor([ 0.0093, -0.0170,  0.0009,  0.0321, -0.0074,  0.0314,  0.0047,  0.0164,
+         0.0026, -0.0107], device='cuda:0'), grad: tensor([ 3.4180e-06,  1.3765e-06, -5.4449e-05, -4.7207e-05, -4.3772e-06,
+         1.7971e-05,  1.4482e-06,  3.3379e-05,  1.8477e-05,  2.9966e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 95, time 214.28, cls_loss 0.0048 cls_loss_mapping 0.0107 cls_loss_causal 0.6157 re_mapping 0.0088 re_causal 0.0275 /// teacc 98.96 lr 0.00010000
+Epoch 97, weight, value: tensor([[-2.6379e-02,  3.7092e-04, -3.8925e-02,  ...,  1.2854e-02,
+         -1.5872e-02, -1.1195e-03],
+        [ 3.2735e-02,  1.2013e-02, -1.7248e-02,  ...,  2.5669e-02,
+         -1.9368e-02, -1.9303e-01],
+        [-1.0594e-02,  1.8418e-02,  1.3818e-02,  ..., -5.0999e-02,
+          6.8655e-02, -3.8432e-02],
+        ...,
+        [-1.1431e-04, -1.2071e-02,  7.5122e-04,  ..., -6.0458e-02,
+         -9.5947e-02,  2.5837e-02],
+        [-1.5513e-02,  3.2639e-04, -1.3118e-02,  ..., -6.1755e-02,
+          3.4323e-02, -1.3221e-01],
+        [-7.8796e-02, -7.9271e-04,  1.3922e-03,  ..., -7.2737e-02,
+         -6.4374e-02, -6.4827e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.0924e-06,
+          2.0210e-06,  2.8638e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.3232e-05,
+          3.1870e-06,  2.1420e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.4273e-06,
+         -1.1468e-04,  6.7521e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.4680e-07,
+          9.0480e-05,  8.8476e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.0375e-06,
+         -2.3004e-06,  1.7462e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  7.8836e-07,
+          1.1986e-06, -7.3062e-07]], device='cuda:0')
+Epoch 97, bias, value: tensor([ 0.0087, -0.0167,  0.0002,  0.0314, -0.0080,  0.0322,  0.0052,  0.0164,
+         0.0017, -0.0097], device='cuda:0'), grad: tensor([ 8.2552e-06, -2.0847e-05, -2.1350e-04,  4.6641e-05,  1.3486e-05,
+         6.2399e-06,  1.3329e-05,  1.3590e-04, -3.9265e-06,  1.4082e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 96, time 214.44, cls_loss 0.0043 cls_loss_mapping 0.0077 cls_loss_causal 0.5913 re_mapping 0.0087 re_causal 0.0264 /// teacc 98.91 lr 0.00010000
+Epoch 98, weight, value: tensor([[-2.6397e-02,  3.8426e-04, -3.8951e-02,  ...,  1.2849e-02,
+         -1.6458e-02, -1.2790e-03],
+        [ 3.2766e-02,  1.1911e-02, -1.7105e-02,  ...,  2.5664e-02,
+         -2.0407e-02, -1.9286e-01],
+        [-1.0606e-02,  1.8494e-02,  1.3802e-02,  ..., -5.1515e-02,
+          6.8232e-02, -4.0259e-02],
+        ...,
+        [-1.0498e-04, -1.2086e-02,  6.9432e-04,  ..., -6.1278e-02,
+         -9.6316e-02,  2.5541e-02],
+        [-1.5532e-02,  1.4026e-04, -1.3128e-02,  ..., -6.1373e-02,
+          3.5862e-02, -1.3175e-01],
+        [-7.8917e-02, -7.9638e-04,  1.3444e-03,  ..., -7.2830e-02,
+         -6.4986e-02, -6.5550e-02]], device='cuda:0'), grad: tensor([[ 1.3970e-09,  0.0000e+00,  0.0000e+00,  ..., -5.4240e-06,
+          9.4846e-06,  4.2585e-07],
+        [-3.3062e-08,  0.0000e+00,  0.0000e+00,  ...,  3.8631e-06,
+          1.3143e-05,  3.3807e-06],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  2.2817e-06,
+         -3.5763e-05,  4.0978e-06],
+        ...,
+        [ 7.6834e-09,  0.0000e+00,  0.0000e+00,  ...,  6.6496e-07,
+          7.5102e-06, -2.5511e-05],
+        [ 6.7521e-09,  0.0000e+00,  0.0000e+00,  ..., -4.3549e-06,
+         -3.0205e-05, -5.5768e-06],
+        [ 1.1642e-09,  0.0000e+00,  0.0000e+00,  ...,  2.1830e-06,
+          3.3993e-06,  9.7230e-06]], device='cuda:0')
+Epoch 98, bias, value: tensor([ 0.0079, -0.0160, -0.0007,  0.0313, -0.0074,  0.0322,  0.0049,  0.0153,
+         0.0031, -0.0097], device='cuda:0'), grad: tensor([ 3.9600e-06,  4.5270e-05,  3.3408e-05, -5.2881e-04,  1.9610e-05,
+         5.4419e-05, -1.7090e-06,  3.3975e-04, -8.9109e-06,  4.2677e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 97, time 214.49, cls_loss 0.0041 cls_loss_mapping 0.0080 cls_loss_causal 0.5886 re_mapping 0.0084 re_causal 0.0267 /// teacc 98.91 lr 0.00010000
+Epoch 99, weight, value: tensor([[-2.6402e-02,  4.0008e-04, -4.0351e-02,  ...,  1.3207e-02,
+         -1.6888e-02, -1.3616e-03],
+        [ 3.2800e-02,  1.1888e-02, -1.7244e-02,  ...,  2.5518e-02,
+         -2.0885e-02, -1.9345e-01],
+        [-1.0613e-02,  1.8486e-02,  1.3137e-02,  ..., -5.2154e-02,
+          6.8454e-02, -4.0836e-02],
+        ...,
+        [-1.0977e-04, -1.2088e-02,  2.3358e-04,  ..., -6.1502e-02,
+         -9.6831e-02,  2.5934e-02],
+        [-1.5576e-02,  9.5116e-05, -1.3085e-02,  ..., -6.1595e-02,
+          3.6393e-02, -1.3070e-01],
+        [-7.8929e-02, -7.9806e-04,  1.1398e-03,  ..., -7.3033e-02,
+         -6.4873e-02, -6.6700e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.3919e-06,
+          1.0446e-05,  2.8638e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.4249e-07,
+         -1.5080e-05,  3.5623e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  8.9314e-07,
+          7.8976e-06,  1.3504e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.9884e-08,
+          2.1160e-06, -1.0943e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.1686e-06,
+          6.1020e-06,  5.0757e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7604e-06,
+          2.5891e-06, -1.6969e-06]], device='cuda:0')
+Epoch 99, bias, value: tensor([ 0.0084, -0.0156, -0.0009,  0.0313, -0.0067,  0.0317,  0.0048,  0.0157,
+         0.0030, -0.0105], device='cuda:0'), grad: tensor([ 9.3520e-05, -8.3733e-04,  5.2023e-04,  1.9383e-04,  7.6950e-05,
+        -9.2387e-05,  3.7670e-05,  8.7857e-05,  8.7619e-05, -1.6892e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 98----------------------------------------------------
+epoch 98, time 230.54, cls_loss 0.0047 cls_loss_mapping 0.0097 cls_loss_causal 0.5927 re_mapping 0.0083 re_causal 0.0254 /// teacc 99.01 lr 0.00010000
+Epoch 100, weight, value: tensor([[-2.6388e-02,  4.2707e-04, -4.0352e-02,  ...,  1.3332e-02,
+         -1.7394e-02, -1.1085e-03],
+        [ 3.2792e-02,  1.1559e-02, -1.7243e-02,  ...,  2.5655e-02,
+         -2.1047e-02, -1.9408e-01],
+        [-1.0621e-02,  1.8473e-02,  1.3136e-02,  ..., -5.3293e-02,
+          6.8738e-02, -4.0730e-02],
+        ...,
+        [-1.3178e-04, -1.2143e-02,  2.3299e-04,  ..., -6.1695e-02,
+         -9.7114e-02,  2.5818e-02],
+        [-1.5587e-02,  2.0205e-03, -1.3082e-02,  ..., -6.2121e-02,
+          3.6567e-02, -1.3099e-01],
+        [-7.9046e-02, -8.6052e-04,  1.1395e-03,  ..., -7.3249e-02,
+         -6.5678e-02, -6.7092e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.8348e-06,
+          3.9130e-05,  7.4739e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.8124e-06,
+          4.0841e-04,  2.5146e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.4482e-07,
+         -3.2455e-05,  2.0815e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3108e-07,
+         -4.2820e-04,  1.0142e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.9208e-05,
+         -1.1161e-05,  2.2654e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.0990e-06,
+          3.1501e-05, -2.6766e-06]], device='cuda:0')
+Epoch 100, bias, value: tensor([ 0.0083, -0.0148, -0.0017,  0.0308, -0.0060,  0.0318,  0.0041,  0.0159,
+         0.0030, -0.0107], device='cuda:0'), grad: tensor([ 6.0827e-05,  8.1024e-03,  1.5712e-04,  1.0347e-04,  2.1949e-05,
+         2.3007e-04, -2.5153e-04, -8.5831e-03,  1.0532e-04,  4.7922e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 99----------------------------------------------------
+epoch 99, time 230.73, cls_loss 0.0043 cls_loss_mapping 0.0096 cls_loss_causal 0.5791 re_mapping 0.0089 re_causal 0.0260 /// teacc 99.02 lr 0.00010000
+Epoch 101, weight, value: tensor([[-0.0263,  0.0004, -0.0404,  ...,  0.0135, -0.0179, -0.0008],
+        [ 0.0331,  0.0115, -0.0172,  ...,  0.0257, -0.0216, -0.1945],
+        [-0.0107,  0.0185,  0.0131,  ..., -0.0534,  0.0697, -0.0408],
+        ...,
+        [-0.0003, -0.0122,  0.0002,  ..., -0.0619, -0.0980,  0.0256],
+        [-0.0158,  0.0024, -0.0131,  ..., -0.0627,  0.0365, -0.1311],
+        [-0.0794, -0.0009,  0.0011,  ..., -0.0723, -0.0656, -0.0673]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.0863e-05,
+          5.9372e-07,  3.4599e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.5637e-06,
+          4.1872e-06,  2.0638e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.2582e-06,
+         -3.1367e-06,  5.1036e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.6973e-07,
+          1.2470e-06,  2.2322e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.6412e-06,
+         -7.0669e-06,  1.2675e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.4445e-06,
+          1.6680e-06, -5.1081e-05]], device='cuda:0')
+Epoch 101, bias, value: tensor([ 0.0085, -0.0159, -0.0011,  0.0308, -0.0063,  0.0317,  0.0035,  0.0168,
+         0.0026, -0.0100], device='cuda:0'), grad: tensor([-3.3975e-05,  3.3259e-05,  1.2346e-05,  3.5584e-05,  1.8597e-04,
+         1.4879e-05, -5.1893e-06,  1.5211e-04, -2.7329e-05, -3.6740e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 100, time 214.82, cls_loss 0.0041 cls_loss_mapping 0.0085 cls_loss_causal 0.5466 re_mapping 0.0093 re_causal 0.0260 /// teacc 98.84 lr 0.00010000
+Epoch 102, weight, value: tensor([[-2.6309e-02,  4.2359e-04, -4.0785e-02,  ...,  1.3267e-02,
+         -1.9116e-02, -8.9251e-04],
+        [ 3.3348e-02,  1.1521e-02, -1.7255e-02,  ...,  2.5214e-02,
+         -2.2571e-02, -1.9499e-01],
+        [-1.0648e-02,  1.8491e-02,  1.3106e-02,  ..., -5.3552e-02,
+          7.1194e-02, -4.0439e-02],
+        ...,
+        [-2.6704e-04, -1.2165e-02, -5.4076e-05,  ..., -6.2110e-02,
+         -9.8864e-02,  2.5528e-02],
+        [-1.6081e-02,  2.4466e-03, -1.3277e-02,  ..., -6.3302e-02,
+          3.6582e-02, -1.3212e-01],
+        [-7.9658e-02, -8.7668e-04,  9.5353e-04,  ..., -7.2517e-02,
+         -6.7374e-02, -6.7209e-02]], device='cuda:0'), grad: tensor([[ 5.7742e-08,  0.0000e+00,  0.0000e+00,  ..., -1.0123e-06,
+          6.2548e-06,  7.3528e-07],
+        [-1.3681e-06,  0.0000e+00,  0.0000e+00,  ...,  3.4692e-08,
+          3.4980e-06, -2.1560e-07],
+        [ 4.6124e-07,  0.0000e+00,  0.0000e+00,  ...,  1.1483e-06,
+         -1.7369e-04,  1.2713e-06],
+        ...,
+        [ 1.5087e-07,  0.0000e+00,  0.0000e+00,  ...,  2.6869e-07,
+          3.6597e-04, -1.7677e-06],
+        [ 5.5600e-07,  0.0000e+00,  0.0000e+00,  ...,  1.2508e-06,
+          1.0677e-05,  2.3525e-06],
+        [ 8.6147e-09,  0.0000e+00,  0.0000e+00,  ...,  8.2422e-07,
+          2.8178e-05,  1.7434e-05]], device='cuda:0')
+Epoch 102, bias, value: tensor([ 0.0080, -0.0159, -0.0003,  0.0313, -0.0064,  0.0315,  0.0038,  0.0169,
+         0.0023, -0.0102], device='cuda:0'), grad: tensor([ 4.9882e-06, -4.7870e-06,  1.2779e-03, -2.2182e-03, -3.8534e-05,
+        -8.9645e-05,  1.0066e-05,  9.1743e-04,  5.0068e-05,  9.1076e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 101, time 214.67, cls_loss 0.0043 cls_loss_mapping 0.0092 cls_loss_causal 0.5705 re_mapping 0.0089 re_causal 0.0268 /// teacc 98.92 lr 0.00010000
+Epoch 103, weight, value: tensor([[-2.5175e-02,  4.2347e-04, -4.0793e-02,  ...,  1.3201e-02,
+         -1.9744e-02, -9.5481e-04],
+        [ 3.3280e-02,  1.1520e-02, -1.7255e-02,  ...,  2.5228e-02,
+         -2.3098e-02, -1.9377e-01],
+        [-1.0462e-02,  1.8493e-02,  1.3105e-02,  ..., -5.3766e-02,
+          7.2100e-02, -4.0374e-02],
+        ...,
+        [-7.1211e-04, -1.2165e-02, -5.9020e-05,  ..., -6.2323e-02,
+         -1.0024e-01,  2.5066e-02],
+        [-1.5839e-02,  2.4413e-03, -1.3280e-02,  ..., -6.3879e-02,
+          3.6644e-02, -1.3338e-01],
+        [-8.0247e-02, -8.7671e-04,  9.5004e-04,  ..., -7.2652e-02,
+         -6.8075e-02, -7.0035e-02]], device='cuda:0'), grad: tensor([[ 1.9115e-07,  0.0000e+00,  0.0000e+00,  ..., -2.4363e-06,
+         -8.6753e-07,  1.0780e-07],
+        [ 1.5013e-05,  0.0000e+00,  0.0000e+00,  ...,  4.2375e-08,
+          2.2620e-05,  1.1344e-06],
+        [ 2.0936e-06,  0.0000e+00,  0.0000e+00,  ...,  8.4518e-08,
+         -1.6615e-05, -1.1228e-05],
+        ...,
+        [ 1.0198e-06,  0.0000e+00,  0.0000e+00,  ...,  2.5146e-08,
+          1.8664e-06,  1.9986e-06],
+        [-2.6688e-05,  0.0000e+00,  0.0000e+00,  ...,  3.9977e-07,
+         -3.5733e-05,  1.8720e-07],
+        [ 6.1886e-07,  0.0000e+00,  0.0000e+00,  ...,  4.8755e-07,
+          3.5334e-06,  1.1260e-06]], device='cuda:0')
+Epoch 103, bias, value: tensor([ 0.0074, -0.0152, -0.0001,  0.0314, -0.0049,  0.0320,  0.0038,  0.0165,
+         0.0019, -0.0120], device='cuda:0'), grad: tensor([-4.2021e-06,  5.6028e-05, -1.0006e-05,  2.9281e-06,  1.4558e-05,
+         8.5756e-06,  1.5944e-05,  1.1146e-05, -1.0180e-04,  6.7838e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 102, time 214.77, cls_loss 0.0047 cls_loss_mapping 0.0083 cls_loss_causal 0.5855 re_mapping 0.0082 re_causal 0.0251 /// teacc 98.92 lr 0.00010000
+Epoch 104, weight, value: tensor([[-0.0252,  0.0004, -0.0412,  ...,  0.0129, -0.0209, -0.0011],
+        [ 0.0336,  0.0115, -0.0173,  ...,  0.0250, -0.0237, -0.1949],
+        [-0.0105,  0.0186,  0.0127,  ..., -0.0542,  0.0726, -0.0397],
+        ...,
+        [-0.0008, -0.0122, -0.0011,  ..., -0.0625, -0.1011,  0.0231],
+        [-0.0160,  0.0021, -0.0139,  ..., -0.0638,  0.0376, -0.1332],
+        [-0.0804, -0.0009,  0.0008,  ..., -0.0729, -0.0685, -0.0694]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.5523e-06,
+          1.0379e-05,  6.1328e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.9652e-07,
+          3.5409e-06,  1.1986e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-06,
+          3.7272e-06,  1.1502e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  8.2888e-08,
+          1.1094e-05,  9.0897e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.8275e-06,
+         -2.2039e-05,  2.6654e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.0606e-07,
+          1.1124e-05, -2.4557e-05]], device='cuda:0')
+Epoch 104, bias, value: tensor([ 0.0066, -0.0158, -0.0008,  0.0313, -0.0052,  0.0318,  0.0040,  0.0162,
+         0.0025, -0.0108], device='cuda:0'), grad: tensor([ 2.8074e-05,  2.0325e-05,  8.0109e-05, -8.2433e-05,  1.0937e-04,
+         3.0965e-05, -9.6858e-05,  1.7032e-05, -1.1003e-04,  3.5800e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 103, time 214.61, cls_loss 0.0041 cls_loss_mapping 0.0082 cls_loss_causal 0.5757 re_mapping 0.0090 re_causal 0.0262 /// teacc 98.93 lr 0.00010000
+Epoch 105, weight, value: tensor([[-2.5252e-02,  4.4206e-04, -4.1214e-02,  ...,  1.3731e-02,
+         -2.1497e-02, -1.5622e-03],
+        [ 3.3872e-02,  1.1480e-02, -1.7279e-02,  ...,  2.4055e-02,
+         -2.4620e-02, -1.9610e-01],
+        [-1.0746e-02,  1.8579e-02,  1.2720e-02,  ..., -5.4612e-02,
+          7.3308e-02, -4.1202e-02],
+        ...,
+        [-9.7954e-05, -1.2181e-02, -1.0788e-03,  ..., -6.2654e-02,
+         -1.0159e-01,  2.3523e-02],
+        [-1.6004e-02,  2.0461e-03, -1.3936e-02,  ..., -6.4151e-02,
+          3.7887e-02, -1.3433e-01],
+        [-8.0779e-02, -8.8479e-04,  8.1276e-04,  ..., -7.3101e-02,
+         -6.9073e-02, -6.9520e-02]], device='cuda:0'), grad: tensor([[ 3.5856e-08,  0.0000e+00,  0.0000e+00,  ..., -5.5507e-07,
+          3.0756e-05,  8.8662e-06],
+        [-8.8988e-07,  0.0000e+00,  0.0000e+00,  ..., -2.6785e-06,
+          2.3562e-06,  1.4175e-06],
+        [ 7.9628e-08,  0.0000e+00,  0.0000e+00,  ...,  5.2573e-07,
+         -1.1659e-04, -2.5973e-05],
+        ...,
+        [ 9.1735e-08,  0.0000e+00,  0.0000e+00,  ...,  3.9488e-07,
+          6.3293e-06,  1.9241e-06],
+        [ 1.3877e-07,  0.0000e+00,  0.0000e+00,  ...,  2.1905e-06,
+          5.8323e-05,  1.4611e-05],
+        [ 1.8161e-08,  0.0000e+00,  0.0000e+00,  ...,  7.9814e-07,
+          1.4521e-05,  1.5318e-05]], device='cuda:0')
+Epoch 105, bias, value: tensor([ 0.0077, -0.0159, -0.0009,  0.0311, -0.0050,  0.0317,  0.0041,  0.0167,
+         0.0022, -0.0113], device='cuda:0'), grad: tensor([ 4.7565e-05,  2.4766e-05, -1.7190e-04,  2.4930e-05, -2.2143e-05,
+        -2.3991e-05,  2.2277e-05, -1.0693e-04,  9.6619e-05,  1.0860e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 104, time 214.31, cls_loss 0.0040 cls_loss_mapping 0.0064 cls_loss_causal 0.5788 re_mapping 0.0090 re_causal 0.0268 /// teacc 98.64 lr 0.00010000
+Epoch 106, weight, value: tensor([[-2.5079e-02,  5.5103e-04, -4.2571e-02,  ...,  1.4015e-02,
+         -2.2079e-02, -1.5906e-03],
+        [ 3.3907e-02,  1.1277e-02, -1.7400e-02,  ...,  2.3865e-02,
+         -2.5469e-02, -1.9664e-01],
+        [-1.0604e-02,  1.8600e-02,  1.2314e-02,  ..., -5.5951e-02,
+          7.3833e-02, -4.1283e-02],
+        ...,
+        [-1.4211e-04, -1.2197e-02, -1.2024e-03,  ..., -6.2836e-02,
+         -1.0222e-01,  2.4059e-02],
+        [-1.5984e-02,  1.5456e-03, -1.5684e-02,  ..., -6.4458e-02,
+          3.8411e-02, -1.3534e-01],
+        [-8.1021e-02, -9.0084e-04,  4.4046e-03,  ..., -7.3310e-02,
+         -6.9933e-02, -6.9465e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -8.3819e-09,  0.0000e+00,  ..., -8.4713e-06,
+          3.5223e-06,  1.9651e-07],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  4.5635e-08,
+          8.5160e-06,  4.7637e-07],
+        [ 0.0000e+00,  1.3970e-09,  0.0000e+00,  ...,  3.1991e-07,
+          4.1699e-04,  1.1943e-05],
+        ...,
+        [-1.3970e-09,  0.0000e+00,  0.0000e+00,  ...,  4.1910e-09,
+          6.0908e-06,  3.2037e-07],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  3.3015e-07,
+          3.4451e-04, -5.9865e-06],
+        [ 4.6566e-10,  9.3132e-10,  0.0000e+00,  ...,  1.1874e-07,
+          1.0878e-05, -4.9509e-06]], device='cuda:0')
+Epoch 106, bias, value: tensor([ 0.0079, -0.0162, -0.0014,  0.0307, -0.0056,  0.0318,  0.0041,  0.0172,
+         0.0024, -0.0110], device='cuda:0'), grad: tensor([ 3.6210e-05,  2.6166e-05,  1.3266e-03, -1.2665e-03,  3.3522e-04,
+        -7.8011e-03,  7.4005e-03,  2.6822e-05,  4.2844e-04, -5.0879e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 105, time 214.52, cls_loss 0.0054 cls_loss_mapping 0.0087 cls_loss_causal 0.5805 re_mapping 0.0090 re_causal 0.0266 /// teacc 98.89 lr 0.00010000
+Epoch 107, weight, value: tensor([[-0.0251,  0.0007, -0.0448,  ...,  0.0135, -0.0251, -0.0017],
+        [ 0.0342,  0.0110, -0.0185,  ...,  0.0220, -0.0252, -0.1974],
+        [-0.0107,  0.0169,  0.0103,  ..., -0.0566,  0.0742, -0.0426],
+        ...,
+        [-0.0003, -0.0123, -0.0020,  ..., -0.0628, -0.1038,  0.0245],
+        [-0.0161,  0.0005, -0.0149,  ..., -0.0646,  0.0386, -0.1360],
+        [-0.0812, -0.0009,  0.0041,  ..., -0.0735, -0.0708, -0.0695]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -2.3270e-04,
+          1.7798e-06,  5.4017e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.2519e-06,
+          2.0236e-05,  2.6040e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.0682e-06,
+         -4.5180e-05,  3.3528e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.1269e-07,
+          9.6038e-06,  1.2383e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.6550e-06,
+         -1.9118e-05, -1.4400e-04],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.5640e-06,
+          2.1040e-05,  1.3161e-04]], device='cuda:0')
+Epoch 107, bias, value: tensor([ 0.0072, -0.0160, -0.0023,  0.0327, -0.0057,  0.0331,  0.0030,  0.0168,
+         0.0016, -0.0106], device='cuda:0'), grad: tensor([-4.9448e-04,  3.3438e-05, -6.7294e-05,  3.5703e-05,  6.5565e-06,
+         7.7263e-06,  4.6253e-04,  5.6535e-05, -5.5933e-04,  5.1785e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 106, time 214.70, cls_loss 0.0033 cls_loss_mapping 0.0068 cls_loss_causal 0.5594 re_mapping 0.0088 re_causal 0.0267 /// teacc 98.87 lr 0.00010000
+Epoch 108, weight, value: tensor([[-2.5069e-02,  6.7492e-04, -4.4982e-02,  ...,  1.2651e-02,
+         -2.7238e-02, -1.8463e-03],
+        [ 3.3570e-02,  1.0880e-02, -1.8550e-02,  ...,  2.1666e-02,
+         -2.5546e-02, -1.9796e-01],
+        [-1.0710e-02,  1.7071e-02,  1.0493e-02,  ..., -5.6933e-02,
+          7.4878e-02, -4.2716e-02],
+        ...,
+        [-4.2557e-04, -1.2446e-02, -2.2267e-03,  ..., -6.2856e-02,
+         -1.0518e-01,  2.4449e-02],
+        [-1.4771e-02,  1.0695e-04, -1.4874e-02,  ..., -6.5176e-02,
+          3.8106e-02, -1.3612e-01],
+        [-8.1334e-02, -9.2197e-04,  4.0446e-03,  ..., -7.3927e-02,
+         -7.1795e-02, -6.9576e-02]], device='cuda:0'), grad: tensor([[ 5.1223e-09,  0.0000e+00,  1.8626e-09,  ..., -7.9572e-06,
+         -3.5530e-07,  4.5635e-08],
+        [-1.2061e-07,  0.0000e+00,  2.3283e-09,  ...,  1.0431e-07,
+          1.3877e-06, -2.2352e-08],
+        [ 1.6764e-08,  0.0000e+00, -5.2620e-08,  ...,  3.4180e-07,
+         -1.0289e-05,  1.0058e-07],
+        ...,
+        [ 1.1176e-08,  0.0000e+00,  8.8476e-09,  ...,  1.0896e-07,
+          5.8524e-06,  5.3458e-07],
+        [ 2.0489e-08,  0.0000e+00,  9.3132e-09,  ...,  1.3132e-06,
+          3.3081e-05,  5.3179e-07],
+        [ 4.6566e-09,  0.0000e+00,  4.6566e-10,  ...,  6.5565e-07,
+         -3.8624e-05,  1.5795e-06]], device='cuda:0')
+Epoch 108, bias, value: tensor([ 0.0069, -0.0162, -0.0018,  0.0315, -0.0056,  0.0343,  0.0035,  0.0168,
+         0.0013, -0.0112], device='cuda:0'), grad: tensor([-8.1360e-06, -6.9812e-06, -1.0073e-05,  2.4617e-05,  4.1425e-06,
+         9.6262e-06,  9.7528e-06, -6.5006e-06,  1.6391e-04, -1.8013e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 107, time 214.63, cls_loss 0.0040 cls_loss_mapping 0.0090 cls_loss_causal 0.5833 re_mapping 0.0082 re_causal 0.0254 /// teacc 98.91 lr 0.00010000
+Epoch 109, weight, value: tensor([[-2.5073e-02,  7.4129e-04, -4.5403e-02,  ...,  1.3788e-02,
+         -2.7527e-02, -1.8825e-03],
+        [ 3.3599e-02,  1.0822e-02, -1.7457e-02,  ...,  2.1449e-02,
+         -2.5714e-02, -1.9908e-01],
+        [-1.0718e-02,  1.7069e-02,  1.0269e-02,  ..., -5.7128e-02,
+          7.5361e-02, -4.2705e-02],
+        ...,
+        [-4.4699e-04, -1.2452e-02, -2.4399e-03,  ..., -6.3208e-02,
+         -1.0603e-01,  2.6023e-02],
+        [-1.4842e-02,  1.1402e-05, -1.4924e-02,  ..., -6.6743e-02,
+          3.7627e-02, -1.3680e-01],
+        [-8.1438e-02, -9.2831e-04,  3.6368e-03,  ..., -7.5008e-02,
+         -7.2738e-02, -6.9386e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -7.0892e-06,
+         -3.7719e-06,  6.3796e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.1204e-06,
+          8.1398e-07, -6.7018e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  7.1898e-07,
+         -3.1322e-05,  8.3912e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.4948e-07,
+          7.9796e-06,  5.4110e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.7696e-07,
+          1.1154e-05,  6.5658e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.1409e-06,
+          4.1798e-06,  2.2352e-07]], device='cuda:0')
+Epoch 109, bias, value: tensor([ 0.0077, -0.0156, -0.0016,  0.0307, -0.0062,  0.0342,  0.0040,  0.0168,
+         0.0003, -0.0108], device='cuda:0'), grad: tensor([-1.6332e-05, -7.3254e-05, -2.8506e-05,  1.7822e-05,  5.1588e-05,
+         5.5619e-06,  7.8008e-06, -1.0133e-05,  2.6941e-05,  1.8537e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 108, time 214.66, cls_loss 0.0044 cls_loss_mapping 0.0092 cls_loss_causal 0.5710 re_mapping 0.0083 re_causal 0.0249 /// teacc 98.90 lr 0.00010000
+Epoch 110, weight, value: tensor([[-2.5049e-02,  8.3833e-04, -4.5989e-02,  ...,  1.3796e-02,
+         -2.8239e-02, -2.1544e-03],
+        [ 3.3710e-02,  1.0774e-02, -1.8599e-02,  ...,  2.1232e-02,
+         -2.6346e-02, -2.0078e-01],
+        [-1.0807e-02,  1.7056e-02,  1.2040e-02,  ..., -5.7559e-02,
+          7.5872e-02, -4.2708e-02],
+        ...,
+        [-5.2193e-04, -1.2455e-02, -2.6422e-03,  ..., -6.3510e-02,
+         -1.0695e-01,  2.5565e-02],
+        [-1.4706e-02, -1.2762e-04, -1.5102e-02,  ..., -6.7118e-02,
+          3.8047e-02, -1.3674e-01],
+        [-8.1574e-02, -9.3937e-04,  3.9050e-03,  ..., -7.5589e-02,
+         -7.3453e-02, -6.9350e-02]], device='cuda:0'), grad: tensor([[ 2.5192e-07,  0.0000e+00,  0.0000e+00,  ..., -1.9949e-06,
+          5.9279e-07,  5.0478e-07],
+        [-4.1388e-06,  0.0000e+00,  0.0000e+00,  ...,  6.4727e-08,
+          7.6042e-07, -7.1675e-06],
+        [ 2.2501e-06,  0.0000e+00,  0.0000e+00,  ...,  2.1048e-07,
+         -4.0829e-06,  3.9935e-06],
+        ...,
+        [ 5.4995e-07,  0.0000e+00,  0.0000e+00,  ...,  2.7474e-08,
+          2.7996e-06,  1.0645e-06],
+        [ 3.0966e-07,  0.0000e+00,  0.0000e+00,  ...,  3.7020e-07,
+         -1.0565e-05,  7.0687e-07],
+        [ 1.5367e-08,  0.0000e+00,  0.0000e+00,  ...,  5.1688e-07,
+          4.2953e-06,  5.9092e-07]], device='cuda:0')
+Epoch 110, bias, value: tensor([ 0.0069, -0.0164, -0.0016,  0.0300, -0.0058,  0.0344,  0.0040,  0.0174,
+         0.0004, -0.0106], device='cuda:0'), grad: tensor([-1.0459e-06, -2.4796e-05,  7.4394e-06,  5.2787e-06,  1.3195e-05,
+         4.0829e-06,  8.0168e-06,  4.7684e-06, -2.0519e-05,  3.5875e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 109, time 214.86, cls_loss 0.0034 cls_loss_mapping 0.0062 cls_loss_causal 0.5652 re_mapping 0.0082 re_causal 0.0245 /// teacc 98.85 lr 0.00010000
+Epoch 111, weight, value: tensor([[-0.0251,  0.0012, -0.0464,  ...,  0.0139, -0.0290, -0.0023],
+        [ 0.0337,  0.0106, -0.0189,  ...,  0.0211, -0.0266, -0.2010],
+        [-0.0108,  0.0171,  0.0118,  ..., -0.0579,  0.0770, -0.0420],
+        ...,
+        [-0.0006, -0.0125, -0.0029,  ..., -0.0636, -0.1091,  0.0252],
+        [-0.0147, -0.0007, -0.0141,  ..., -0.0671,  0.0383, -0.1371],
+        [-0.0816, -0.0010,  0.0038,  ..., -0.0760, -0.0739, -0.0696]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8375e-06,  ..., -1.3880e-05,
+         -2.8573e-06, -2.3749e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.8743e-06,  ...,  1.1493e-06,
+          1.4655e-05,  3.9535e-07],
+        [ 0.0000e+00,  0.0000e+00,  4.1090e-06,  ...,  7.1973e-06,
+         -2.8059e-05,  1.8766e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.6570e-05,  ...,  3.7961e-06,
+          6.0707e-05,  3.6415e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.3113e-05,  ...,  3.9302e-06,
+          3.4243e-05,  5.6811e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.0944e-07,  ...,  2.9579e-06,
+          1.0118e-05,  9.9279e-07]], device='cuda:0')
+Epoch 111, bias, value: tensor([ 0.0068, -0.0162, -0.0009,  0.0299, -0.0053,  0.0338,  0.0042,  0.0166,
+         0.0003, -0.0107], device='cuda:0'), grad: tensor([-1.0699e-04,  3.8534e-05, -3.9577e-05, -1.8158e-03,  1.4029e-05,
+         1.5745e-03,  5.3167e-05,  1.4198e-04,  7.8559e-05,  6.1005e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 110, time 214.54, cls_loss 0.0046 cls_loss_mapping 0.0073 cls_loss_causal 0.5659 re_mapping 0.0081 re_causal 0.0246 /// teacc 99.01 lr 0.00010000
+Epoch 112, weight, value: tensor([[-0.0243,  0.0016, -0.0517,  ...,  0.0144, -0.0296, -0.0022],
+        [ 0.0342,  0.0103, -0.0185,  ...,  0.0210, -0.0284, -0.2016],
+        [-0.0109,  0.0170,  0.0103,  ..., -0.0585,  0.0784, -0.0424],
+        ...,
+        [-0.0011, -0.0128, -0.0055,  ..., -0.0641, -0.1099,  0.0252],
+        [-0.0149, -0.0021, -0.0156,  ..., -0.0676,  0.0386, -0.1373],
+        [-0.0822, -0.0010,  0.0027,  ..., -0.0764, -0.0746, -0.0697]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09, -6.1002e-08,  0.0000e+00,  ...,  5.8394e-07,
+          3.1851e-06,  1.3970e-09],
+        [-1.3551e-07,  1.3970e-09,  0.0000e+00,  ...,  5.8208e-07,
+          2.4494e-06,  3.7253e-09],
+        [ 1.3970e-08,  1.0245e-08,  0.0000e+00,  ...,  3.7011e-06,
+         -2.1998e-06,  5.5879e-09],
+        ...,
+        [ 2.6077e-08,  4.6566e-10,  0.0000e+00,  ...,  6.3796e-08,
+          2.5425e-06,  3.7253e-08],
+        [ 4.2375e-08,  7.9162e-09,  0.0000e+00,  ...,  1.2368e-06,
+          9.8813e-07,  4.1910e-09],
+        [ 3.2596e-09,  8.8476e-09,  0.0000e+00,  ...,  3.9348e-07,
+          1.2014e-06,  2.3749e-08]], device='cuda:0')
+Epoch 112, bias, value: tensor([ 0.0067, -0.0163, -0.0004,  0.0302, -0.0053,  0.0339,  0.0039,  0.0160,
+         0.0014, -0.0110], device='cuda:0'), grad: tensor([ 4.3893e-04, -1.2379e-03,  1.1230e-04,  8.2552e-05,  8.8334e-05,
+         1.9324e-04,  6.1035e-05,  1.1814e-04,  5.4598e-04, -4.0197e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 111, time 214.56, cls_loss 0.0034 cls_loss_mapping 0.0054 cls_loss_causal 0.5623 re_mapping 0.0080 re_causal 0.0245 /// teacc 98.92 lr 0.00010000
+Epoch 113, weight, value: tensor([[-0.0256,  0.0034, -0.0529,  ...,  0.0142, -0.0306, -0.0023],
+        [ 0.0357,  0.0086, -0.0199,  ...,  0.0209, -0.0286, -0.2018],
+        [-0.0111,  0.0177,  0.0115,  ..., -0.0592,  0.0787, -0.0423],
+        ...,
+        [-0.0021, -0.0141, -0.0057,  ..., -0.0646, -0.1107,  0.0251],
+        [-0.0137, -0.0071, -0.0148,  ..., -0.0679,  0.0391, -0.1378],
+        [-0.0839, -0.0014,  0.0020,  ..., -0.0766, -0.0757, -0.0697]],
+       device='cuda:0'), grad: tensor([[ 1.7602e-07,  0.0000e+00,  9.3132e-10,  ...,  1.3290e-06,
+          2.2911e-06,  3.4459e-08],
+        [ 1.9044e-05,  0.0000e+00,  4.6566e-10,  ...,  3.6806e-06,
+          9.3728e-06,  2.5705e-07],
+        [ 9.7975e-07,  0.0000e+00,  0.0000e+00,  ...,  2.7776e-05,
+          3.2306e-05,  6.0536e-08],
+        ...,
+        [-2.5526e-05,  0.0000e+00,  4.6566e-10,  ...,  1.2619e-07,
+          5.6252e-06,  7.9907e-07],
+        [ 2.1067e-06,  0.0000e+00,  2.7940e-09,  ...,  4.6119e-06,
+          4.8727e-06,  1.0617e-07],
+        [ 1.3318e-06,  0.0000e+00,  2.3283e-09,  ...,  6.0024e-07,
+          1.3411e-06,  9.6783e-06]], device='cuda:0')
+Epoch 113, bias, value: tensor([ 0.0062, -0.0161, -0.0007,  0.0311, -0.0053,  0.0332,  0.0039,  0.0161,
+         0.0014, -0.0110], device='cuda:0'), grad: tensor([ 9.0376e-06,  3.5620e-04,  6.4909e-05,  2.8461e-05,  8.8215e-05,
+         1.3661e-04, -3.0351e-04, -4.1509e-04,  4.9293e-05, -1.3962e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 112, time 214.32, cls_loss 0.0030 cls_loss_mapping 0.0065 cls_loss_causal 0.5427 re_mapping 0.0081 re_causal 0.0240 /// teacc 98.89 lr 0.00010000
+Epoch 114, weight, value: tensor([[-0.0257,  0.0041, -0.0554,  ...,  0.0142, -0.0311, -0.0023],
+        [ 0.0360,  0.0079, -0.0197,  ...,  0.0207, -0.0286, -0.2020],
+        [-0.0111,  0.0180,  0.0108,  ..., -0.0598,  0.0789, -0.0427],
+        ...,
+        [-0.0019, -0.0143, -0.0091,  ..., -0.0647, -0.1115,  0.0255],
+        [-0.0138, -0.0085, -0.0167,  ..., -0.0683,  0.0391, -0.1379],
+        [-0.0851, -0.0016,  0.0009,  ..., -0.0767, -0.0762, -0.0697]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09,  0.0000e+00,  0.0000e+00,  ..., -1.6168e-06,
+          7.5717e-07,  3.9581e-08],
+        [ 6.6590e-08,  0.0000e+00,  0.0000e+00,  ...,  8.7637e-07,
+          1.7602e-06,  2.9849e-07],
+        [ 3.5390e-08,  0.0000e+00,  0.0000e+00,  ...,  2.6263e-07,
+         -1.0394e-06,  1.1176e-07],
+        ...,
+        [ 7.6834e-08,  0.0000e+00,  0.0000e+00,  ...,  4.9826e-08,
+          4.3400e-07,  2.5379e-07],
+        [ 2.8405e-08,  0.0000e+00,  0.0000e+00,  ...,  2.9784e-06,
+         -2.5164e-06,  1.6345e-07],
+        [ 9.5461e-08,  0.0000e+00,  0.0000e+00,  ...,  1.1809e-06,
+          2.7157e-06,  1.1409e-06]], device='cuda:0')
+Epoch 114, bias, value: tensor([ 0.0059, -0.0156, -0.0010,  0.0316, -0.0055,  0.0332,  0.0040,  0.0161,
+         0.0010, -0.0110], device='cuda:0'), grad: tensor([ 1.5152e-04,  3.7923e-06,  2.4930e-05,  3.1255e-06,  6.1810e-05,
+         7.1712e-07, -3.3230e-06,  1.0699e-05, -3.0585e-06, -2.5010e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 113, time 214.38, cls_loss 0.0036 cls_loss_mapping 0.0075 cls_loss_causal 0.5540 re_mapping 0.0073 re_causal 0.0225 /// teacc 98.84 lr 0.00010000
+Epoch 115, weight, value: tensor([[-2.5900e-02,  4.0682e-03, -5.6205e-02,  ...,  1.4995e-02,
+         -3.0818e-02, -2.4174e-03],
+        [ 3.7785e-02,  7.2656e-03, -1.9819e-02,  ...,  2.0514e-02,
+         -2.9193e-02, -2.0231e-01],
+        [-1.1750e-02,  1.9344e-02,  1.0618e-02,  ..., -6.0270e-02,
+          7.9521e-02, -4.2877e-02],
+        ...,
+        [-1.5224e-03, -1.5982e-02, -9.0951e-03,  ..., -6.6428e-02,
+         -1.1237e-01,  2.5568e-02],
+        [-1.5179e-02, -9.6954e-03, -1.7284e-02,  ..., -6.8071e-02,
+          3.9919e-02, -1.3824e-01],
+        [-8.7812e-02, -1.6461e-03, -8.8172e-05,  ..., -7.6994e-02,
+         -7.6684e-02, -6.9680e-02]], device='cuda:0'), grad: tensor([[ 4.0978e-08,  6.1048e-07,  1.5832e-08,  ..., -1.0714e-05,
+          1.0483e-05,  8.8941e-08],
+        [-1.5553e-06,  6.2864e-08,  1.0245e-08,  ...,  5.6205e-07,
+          1.9282e-05,  1.6997e-07],
+        [ 2.0070e-07, -4.1015e-06,  3.7253e-09,  ...,  6.6450e-07,
+         -3.4523e-04,  4.7497e-08],
+        ...,
+        [ 3.1106e-07,  2.6673e-06,  1.3504e-08,  ...,  3.5390e-07,
+          2.6202e-04,  5.3737e-07],
+        [ 2.4121e-07,  3.4878e-07,  3.3528e-08,  ...,  9.1316e-07,
+          1.0572e-05,  1.2852e-07],
+        [ 1.1222e-07,  3.1199e-08,  6.2399e-08,  ...,  3.2503e-06,
+          8.4713e-06, -2.6617e-06]], device='cuda:0')
+Epoch 115, bias, value: tensor([ 0.0065, -0.0161, -0.0010,  0.0310, -0.0056,  0.0327,  0.0040,  0.0166,
+         0.0015, -0.0108], device='cuda:0'), grad: tensor([ 1.1064e-05,  4.6134e-05, -1.0090e-03,  6.3479e-05,  3.6299e-05,
+         9.3654e-06,  1.4737e-05,  7.7963e-04,  3.0577e-05,  1.6555e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 114, time 214.27, cls_loss 0.0029 cls_loss_mapping 0.0052 cls_loss_causal 0.5182 re_mapping 0.0073 re_causal 0.0226 /// teacc 98.85 lr 0.00010000
+Epoch 116, weight, value: tensor([[-0.0257,  0.0047, -0.0569,  ...,  0.0169, -0.0309, -0.0026],
+        [ 0.0389,  0.0049, -0.0195,  ...,  0.0200, -0.0295, -0.2026],
+        [-0.0118,  0.0172,  0.0105,  ..., -0.0609,  0.0798, -0.0433],
+        ...,
+        [-0.0020, -0.0201, -0.0091,  ..., -0.0669, -0.1132,  0.0254],
+        [-0.0153, -0.0134, -0.0149,  ..., -0.0682,  0.0403, -0.1389],
+        [-0.0899, -0.0018, -0.0008,  ..., -0.0779, -0.0771, -0.0699]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  7.2690e-07,
+          3.6173e-06,  1.5646e-07],
+        [-1.9092e-08,  0.0000e+00,  0.0000e+00,  ...,  5.1828e-07,
+          1.4557e-06,  8.1351e-07],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  7.7439e-07,
+         -5.2080e-06,  6.3609e-07],
+        ...,
+        [ 5.5879e-09,  0.0000e+00,  0.0000e+00,  ...,  1.4761e-07,
+          6.2250e-06,  7.6042e-07],
+        [ 6.0536e-09,  0.0000e+00,  0.0000e+00,  ...,  1.0774e-05,
+          1.9461e-05,  2.7288e-07],
+        [ 9.3132e-10,  0.0000e+00,  4.6566e-10,  ...,  3.5111e-06,
+          7.3984e-06,  3.2764e-06]], device='cuda:0')
+Epoch 116, bias, value: tensor([ 0.0081, -0.0160, -0.0015,  0.0317, -0.0056,  0.0325,  0.0035,  0.0164,
+         0.0015, -0.0109], device='cuda:0'), grad: tensor([ 5.7444e-06,  5.5917e-06, -3.5446e-06,  2.8467e-04, -5.8487e-06,
+        -1.6093e-04, -1.7917e-04, -4.2878e-06,  3.9428e-05,  1.7807e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 115, time 214.36, cls_loss 0.0041 cls_loss_mapping 0.0063 cls_loss_causal 0.5766 re_mapping 0.0074 re_causal 0.0238 /// teacc 99.02 lr 0.00010000
+Epoch 117, weight, value: tensor([[-0.0259,  0.0048, -0.0573,  ...,  0.0167, -0.0321, -0.0028],
+        [ 0.0395,  0.0048, -0.0193,  ...,  0.0198, -0.0299, -0.2051],
+        [-0.0121,  0.0171,  0.0105,  ..., -0.0622,  0.0804, -0.0436],
+        ...,
+        [-0.0025, -0.0201, -0.0091,  ..., -0.0671, -0.1144,  0.0256],
+        [-0.0152, -0.0136, -0.0150,  ..., -0.0683,  0.0407, -0.1410],
+        [-0.0919, -0.0018, -0.0015,  ..., -0.0781, -0.0763, -0.0699]],
+       device='cuda:0'), grad: tensor([[ 1.1176e-08,  0.0000e+00,  0.0000e+00,  ..., -3.9442e-07,
+          8.1677e-07,  1.2945e-07],
+        [-1.1129e-07,  0.0000e+00,  0.0000e+00,  ..., -9.3132e-09,
+          1.7900e-06,  5.0524e-07],
+        [ 2.5611e-08,  0.0000e+00,  0.0000e+00,  ...,  6.3330e-08,
+         -5.7518e-06,  8.7079e-08],
+        ...,
+        [ 2.6077e-08,  0.0000e+00,  0.0000e+00,  ...,  1.1176e-08,
+          1.2768e-06,  8.0420e-07],
+        [ 1.7229e-08,  0.0000e+00,  0.0000e+00,  ...,  1.0198e-07,
+          5.0999e-06,  2.0582e-07],
+        [ 2.4214e-08,  0.0000e+00,  0.0000e+00,  ...,  9.2201e-08,
+          1.4216e-05, -1.5691e-05]], device='cuda:0')
+Epoch 117, bias, value: tensor([ 0.0072, -0.0165, -0.0003,  0.0300, -0.0055,  0.0323,  0.0035,  0.0162,
+         0.0006, -0.0093], device='cuda:0'), grad: tensor([ 2.0750e-06,  2.0728e-05, -3.9302e-07,  3.1263e-05,  9.9957e-05,
+        -6.7770e-05,  1.0423e-05, -2.8640e-05,  1.2375e-05, -7.9930e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 116----------------------------------------------------
+epoch 116, time 230.55, cls_loss 0.0025 cls_loss_mapping 0.0053 cls_loss_causal 0.5874 re_mapping 0.0077 re_causal 0.0243 /// teacc 99.07 lr 0.00010000
+Epoch 118, weight, value: tensor([[-0.0260,  0.0048, -0.0576,  ...,  0.0171, -0.0322, -0.0025],
+        [ 0.0391,  0.0048, -0.0200,  ...,  0.0197, -0.0301, -0.2060],
+        [-0.0109,  0.0171,  0.0101,  ..., -0.0626,  0.0812, -0.0438],
+        ...,
+        [-0.0028, -0.0201, -0.0092,  ..., -0.0673, -0.1153,  0.0255],
+        [-0.0156, -0.0136, -0.0143,  ..., -0.0682,  0.0411, -0.1421],
+        [-0.0939, -0.0018, -0.0020,  ..., -0.0783, -0.0770, -0.0703]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ..., -5.2661e-05,
+         -1.6168e-05,  1.8626e-08],
+        [-9.3132e-09,  0.0000e+00,  0.0000e+00,  ...,  1.1595e-07,
+          1.6345e-07,  3.8650e-08],
+        [ 4.6566e-10, -1.3970e-09,  0.0000e+00,  ...,  1.6004e-05,
+          2.5239e-06,  1.7695e-08],
+        ...,
+        [ 1.3970e-09,  0.0000e+00,  0.0000e+00,  ...,  1.1167e-06,
+          2.8824e-07,  7.7300e-08],
+        [ 2.3283e-09,  0.0000e+00,  0.0000e+00,  ...,  2.8815e-06,
+          7.1060e-07,  2.1886e-08],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  6.8918e-06,
+          2.0787e-06,  6.1840e-07]], device='cuda:0')
+Epoch 118, bias, value: tensor([ 0.0074, -0.0171, -0.0002,  0.0301, -0.0049,  0.0319,  0.0035,  0.0170,
+         0.0007, -0.0099], device='cuda:0'), grad: tensor([-1.0800e-04, -5.0664e-07,  3.6120e-05,  8.5160e-06,  1.1511e-06,
+         1.5989e-05,  3.2127e-05, -7.6056e-05,  8.5458e-06,  8.2076e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 117, time 214.11, cls_loss 0.0029 cls_loss_mapping 0.0061 cls_loss_causal 0.5667 re_mapping 0.0073 re_causal 0.0234 /// teacc 98.97 lr 0.00010000
+Epoch 119, weight, value: tensor([[-0.0261,  0.0048, -0.0577,  ...,  0.0171, -0.0327, -0.0026],
+        [ 0.0388,  0.0047, -0.0198,  ...,  0.0194, -0.0308, -0.2065],
+        [-0.0108,  0.0171,  0.0100,  ..., -0.0631,  0.0819, -0.0437],
+        ...,
+        [-0.0029, -0.0201, -0.0092,  ..., -0.0676, -0.1154,  0.0255],
+        [-0.0152, -0.0137, -0.0143,  ..., -0.0685,  0.0412, -0.1423],
+        [-0.0951, -0.0018, -0.0022,  ..., -0.0785, -0.0773, -0.0705]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ..., -4.9695e-06,
+          5.6587e-06,  3.2652e-06],
+        [-2.0955e-08,  0.0000e+00,  0.0000e+00,  ...,  1.6866e-06,
+          1.0477e-06,  7.7114e-06],
+        [ 3.7253e-09,  0.0000e+00,  0.0000e+00,  ...,  1.3802e-06,
+         -4.0494e-06,  8.6194e-07],
+        ...,
+        [ 4.6566e-09,  0.0000e+00,  0.0000e+00,  ...,  5.9139e-07,
+          2.8834e-06, -2.1338e-05],
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  3.2596e-06,
+          7.6890e-06,  2.0536e-07],
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  6.2445e-07,
+          1.1183e-05,  1.4059e-05]], device='cuda:0')
+Epoch 119, bias, value: tensor([ 0.0072, -0.0170,  0.0001,  0.0297, -0.0048,  0.0317,  0.0038,  0.0171,
+         0.0005, -0.0102], device='cuda:0'), grad: tensor([ 3.2693e-05,  1.1086e-04,  8.1807e-06, -2.8819e-05, -5.1200e-05,
+         5.2750e-05, -1.2562e-05, -2.9111e-04,  5.9277e-05,  1.1992e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 118, time 214.49, cls_loss 0.0029 cls_loss_mapping 0.0055 cls_loss_causal 0.5789 re_mapping 0.0077 re_causal 0.0238 /// teacc 98.92 lr 0.00010000
+Epoch 120, weight, value: tensor([[-0.0262,  0.0048, -0.0579,  ...,  0.0180, -0.0326, -0.0027],
+        [ 0.0389,  0.0047, -0.0196,  ...,  0.0188, -0.0313, -0.2071],
+        [-0.0108,  0.0171,  0.0098,  ..., -0.0642,  0.0822, -0.0436],
+        ...,
+        [-0.0031, -0.0202, -0.0091,  ..., -0.0680, -0.1160,  0.0255],
+        [-0.0154, -0.0139, -0.0145,  ..., -0.0694,  0.0413, -0.1428],
+        [-0.0952, -0.0019, -0.0016,  ..., -0.0789, -0.0782, -0.0713]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.3283e-08,  ...,  4.7207e-04,
+          3.3951e-04,  2.1094e-07],
+        [ 0.0000e+00,  0.0000e+00,  5.1223e-09,  ..., -6.3609e-07,
+          3.2336e-06,  1.6792e-06],
+        [ 0.0000e+00,  0.0000e+00,  5.1223e-09,  ...,  8.1807e-06,
+          3.0864e-06,  2.4959e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.9558e-08,  ...,  7.8231e-07,
+          1.7043e-06,  2.1961e-06],
+        [ 0.0000e+00,  0.0000e+00,  3.3528e-08,  ...,  1.0595e-05,
+          8.0317e-06,  2.5146e-07],
+        [ 0.0000e+00,  0.0000e+00,  8.9873e-08,  ...,  3.7793e-06,
+          3.3546e-06,  1.4141e-05]], device='cuda:0')
+Epoch 120, bias, value: tensor([ 0.0080, -0.0171,  0.0003,  0.0291, -0.0035,  0.0319,  0.0033,  0.0173,
+         0.0002, -0.0111], device='cuda:0'), grad: tensor([ 5.2214e-04, -3.6210e-06,  1.3359e-05, -9.3997e-05,  5.8919e-05,
+         4.0627e-04, -1.0681e-03,  2.5332e-05,  2.8938e-05,  1.0985e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 119, time 214.38, cls_loss 0.0032 cls_loss_mapping 0.0072 cls_loss_causal 0.5833 re_mapping 0.0077 re_causal 0.0234 /// teacc 98.82 lr 0.00010000
+Epoch 121, weight, value: tensor([[-0.0260,  0.0048, -0.0580,  ...,  0.0173, -0.0341, -0.0030],
+        [ 0.0392,  0.0046, -0.0196,  ...,  0.0186, -0.0316, -0.2076],
+        [-0.0108,  0.0172,  0.0097,  ..., -0.0652,  0.0826, -0.0437],
+        ...,
+        [-0.0032, -0.0202, -0.0091,  ..., -0.0684, -0.1165,  0.0253],
+        [-0.0155, -0.0139, -0.0145,  ..., -0.0701,  0.0417, -0.1432],
+        [-0.0955, -0.0019, -0.0021,  ..., -0.0791, -0.0788, -0.0714]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  5.8673e-08,  0.0000e+00,  ...,  7.1190e-06,
+          7.1004e-06,  3.6322e-08],
+        [ 0.0000e+00,  1.0105e-07,  0.0000e+00,  ...,  5.8860e-07,
+          1.1595e-06,  1.8906e-07],
+        [ 0.0000e+00, -9.6206e-07,  0.0000e+00,  ...,  1.6410e-06,
+         -3.3733e-06,  6.9384e-08],
+        ...,
+        [ 0.0000e+00,  2.9849e-07,  0.0000e+00,  ...,  1.1735e-07,
+          1.6736e-06,  3.0594e-07],
+        [ 0.0000e+00,  1.2340e-07,  0.0000e+00,  ...,  1.2945e-06,
+          2.2762e-06,  9.9186e-08],
+        [ 0.0000e+00,  2.6543e-08,  0.0000e+00,  ...,  6.7009e-07,
+          1.5777e-06,  8.7544e-07]], device='cuda:0')
+Epoch 121, bias, value: tensor([ 0.0074, -0.0172,  0.0003,  0.0292, -0.0035,  0.0316,  0.0039,  0.0172,
+         0.0003, -0.0111], device='cuda:0'), grad: tensor([ 1.0736e-05, -2.5444e-06, -6.3442e-06,  1.2629e-05,  8.6203e-06,
+        -2.1696e-05, -1.8954e-05,  5.1670e-06,  7.2978e-06,  5.0366e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 120, time 214.22, cls_loss 0.0031 cls_loss_mapping 0.0060 cls_loss_causal 0.5597 re_mapping 0.0079 re_causal 0.0238 /// teacc 99.06 lr 0.00010000
+Epoch 122, weight, value: tensor([[-0.0258,  0.0049, -0.0582,  ...,  0.0167, -0.0349, -0.0032],
+        [ 0.0392,  0.0043, -0.0197,  ...,  0.0186, -0.0320, -0.2080],
+        [-0.0107,  0.0172,  0.0095,  ..., -0.0651,  0.0832, -0.0433],
+        ...,
+        [-0.0033, -0.0202, -0.0093,  ..., -0.0684, -0.1168,  0.0254],
+        [-0.0155, -0.0140, -0.0150,  ..., -0.0705,  0.0426, -0.1432],
+        [-0.0957, -0.0019, -0.0020,  ..., -0.0796, -0.0806, -0.0714]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.7032e-08,  0.0000e+00,  ...,  1.2553e-04,
+          3.8743e-05,  5.0142e-06],
+        [ 0.0000e+00,  2.7940e-09,  0.0000e+00,  ...,  7.8045e-07,
+          1.2917e-06,  4.5635e-08],
+        [ 0.0000e+00, -7.5437e-08,  0.0000e+00,  ...,  2.3004e-07,
+         -3.7774e-06, -1.7323e-07],
+        ...,
+        [ 0.0000e+00,  6.0536e-09,  0.0000e+00,  ...,  6.0536e-08,
+          1.1371e-06,  1.2433e-07],
+        [ 0.0000e+00,  1.1642e-08,  0.0000e+00,  ...,  3.5223e-06,
+          5.6028e-06,  8.0559e-08],
+        [ 0.0000e+00,  1.3970e-09,  0.0000e+00,  ...,  1.5385e-06,
+          2.0973e-06,  1.8720e-07]], device='cuda:0')
+Epoch 122, bias, value: tensor([ 0.0065, -0.0167,  0.0002,  0.0299, -0.0042,  0.0317,  0.0043,  0.0167,
+         0.0011, -0.0114], device='cuda:0'), grad: tensor([ 2.3592e-04,  4.2915e-06, -6.6869e-06,  4.1947e-06,  5.2392e-05,
+        -8.1658e-05, -2.4045e-04,  2.0880e-06,  2.9489e-05,  2.2585e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 121, time 214.15, cls_loss 0.0036 cls_loss_mapping 0.0063 cls_loss_causal 0.5443 re_mapping 0.0079 re_causal 0.0224 /// teacc 99.03 lr 0.00010000
+Epoch 123, weight, value: tensor([[-0.0259,  0.0039, -0.0583,  ...,  0.0163, -0.0362, -0.0032],
+        [ 0.0395,  0.0035, -0.0197,  ...,  0.0184, -0.0324, -0.2089],
+        [-0.0099,  0.0173,  0.0095,  ..., -0.0644,  0.0825, -0.0430],
+        ...,
+        [-0.0035, -0.0203, -0.0093,  ..., -0.0693, -0.1177,  0.0253],
+        [-0.0158, -0.0158, -0.0150,  ..., -0.0727,  0.0437, -0.1437],
+        [-0.0959, -0.0019, -0.0023,  ..., -0.0796, -0.0813, -0.0715]],
+       device='cuda:0'), grad: tensor([[ 2.2212e-07,  0.0000e+00,  0.0000e+00,  ...,  1.3433e-05,
+          1.6436e-05,  4.0792e-06],
+        [-2.3395e-05,  0.0000e+00,  0.0000e+00,  ...,  8.0019e-06,
+          3.2112e-06, -6.2995e-06],
+        [ 1.2383e-05,  0.0000e+00,  0.0000e+00,  ...,  1.4149e-05,
+          5.6356e-05,  9.4324e-06],
+        ...,
+        [ 3.8743e-07,  0.0000e+00,  0.0000e+00,  ...,  1.4566e-06,
+          4.9062e-06,  1.5507e-07],
+        [ 6.9439e-06,  0.0000e+00,  0.0000e+00,  ..., -1.1408e-04,
+         -3.7432e-04, -3.4332e-05],
+        [ 4.9826e-08,  0.0000e+00,  0.0000e+00,  ...,  2.1197e-06,
+          3.1125e-06,  1.1548e-06]], device='cuda:0')
+Epoch 123, bias, value: tensor([ 0.0056, -0.0160, -0.0009,  0.0295, -0.0042,  0.0324,  0.0049,  0.0170,
+         0.0010, -0.0116], device='cuda:0'), grad: tensor([ 3.3647e-05, -1.5843e-04,  1.8728e-04,  4.9062e-06,  6.3539e-05,
+         3.5286e-04,  6.2466e-05,  2.9523e-07, -5.5885e-04,  1.1683e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 122, time 214.19, cls_loss 0.0049 cls_loss_mapping 0.0085 cls_loss_causal 0.5761 re_mapping 0.0083 re_causal 0.0234 /// teacc 98.88 lr 0.00010000
+Epoch 124, weight, value: tensor([[-0.0258,  0.0039, -0.0587,  ...,  0.0169, -0.0342, -0.0028],
+        [ 0.0403,  0.0032, -0.0197,  ...,  0.0181, -0.0326, -0.2102],
+        [-0.0095,  0.0174,  0.0093,  ..., -0.0666,  0.0833, -0.0437],
+        ...,
+        [-0.0042, -0.0204, -0.0094,  ..., -0.0701, -0.1198,  0.0269],
+        [-0.0162, -0.0160, -0.0145,  ..., -0.0737,  0.0435, -0.1439],
+        [-0.0973, -0.0019, -0.0026,  ..., -0.0774, -0.0824, -0.0715]],
+       device='cuda:0'), grad: tensor([[ 8.7311e-08,  2.3283e-09,  2.3283e-08,  ..., -1.8150e-05,
+          1.0058e-06, -1.6242e-05],
+        [-6.4773e-07,  5.5879e-09,  5.0990e-08,  ...,  1.1437e-06,
+          1.4631e-06,  6.6422e-06],
+        [ 7.0548e-08, -3.3062e-08,  2.3982e-08,  ...,  1.2629e-06,
+          4.3819e-07,  2.3488e-06],
+        ...,
+        [ 2.9523e-07,  3.9581e-09,  6.9849e-09,  ...,  3.0338e-07,
+          2.9965e-07,  2.8647e-06],
+        [ 1.6601e-07,  7.2177e-09,  3.6485e-07,  ...,  9.1866e-06,
+          6.2399e-06,  1.0133e-05],
+        [ 1.8487e-07,  6.9849e-10,  4.8894e-08,  ...,  5.3979e-06,
+          2.4997e-06,  3.3647e-05]], device='cuda:0')
+Epoch 124, bias, value: tensor([ 0.0054, -0.0162, -0.0007,  0.0299, -0.0051,  0.0323,  0.0041,  0.0176,
+         0.0002, -0.0104], device='cuda:0'), grad: tensor([-6.5744e-05,  2.6494e-05,  1.4573e-05,  2.4170e-05, -9.9421e-05,
+         1.8775e-05, -4.1187e-05, -4.1306e-05,  5.3287e-05,  1.1009e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 123, time 214.18, cls_loss 0.0048 cls_loss_mapping 0.0080 cls_loss_causal 0.5402 re_mapping 0.0083 re_causal 0.0226 /// teacc 98.92 lr 0.00010000
+Epoch 125, weight, value: tensor([[-0.0261,  0.0035, -0.0590,  ...,  0.0168, -0.0352, -0.0029],
+        [ 0.0420,  0.0003, -0.0200,  ...,  0.0168, -0.0330, -0.2115],
+        [-0.0089,  0.0159,  0.0089,  ..., -0.0669,  0.0842, -0.0411],
+        ...,
+        [-0.0022, -0.0208, -0.0095,  ..., -0.0715, -0.1214,  0.0270],
+        [-0.0175, -0.0182, -0.0142,  ..., -0.0746,  0.0435, -0.1444],
+        [-0.1003, -0.0020, -0.0029,  ..., -0.0776, -0.0837, -0.0710]],
+       device='cuda:0'), grad: tensor([[ 3.6089e-08,  0.0000e+00,  0.0000e+00,  ...,  1.4454e-05,
+          1.3024e-05,  1.1665e-07],
+        [-1.6959e-06,  0.0000e+00,  0.0000e+00,  ..., -4.7572e-06,
+          6.0424e-06, -5.5097e-06],
+        [ 7.1479e-08,  0.0000e+00,  0.0000e+00,  ...,  1.2917e-06,
+         -1.9109e-04,  1.4743e-06],
+        ...,
+        [ 5.7183e-07,  0.0000e+00,  0.0000e+00,  ...,  2.3888e-07,
+          2.6450e-06,  1.6997e-07],
+        [ 6.3330e-08,  0.0000e+00,  0.0000e+00,  ...,  5.3365e-07,
+          1.7452e-04,  1.1688e-07],
+        [ 1.7346e-07,  0.0000e+00,  0.0000e+00,  ...,  4.3027e-06,
+          3.3388e-07,  4.7055e-07]], device='cuda:0')
+Epoch 125, bias, value: tensor([ 0.0055, -0.0157, -0.0004,  0.0305, -0.0061,  0.0321,  0.0048,  0.0173,
+        -0.0004, -0.0110], device='cuda:0'), grad: tensor([ 1.4938e-05, -5.9694e-05, -2.6798e-04,  1.0811e-05,  2.2218e-05,
+         6.5714e-06, -5.8822e-06,  3.9265e-06,  2.6274e-04,  1.2212e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 124, time 214.21, cls_loss 0.0033 cls_loss_mapping 0.0057 cls_loss_causal 0.5346 re_mapping 0.0076 re_causal 0.0232 /// teacc 99.02 lr 0.00010000
+Epoch 126, weight, value: tensor([[-0.0260,  0.0032, -0.0598,  ...,  0.0170, -0.0354, -0.0030],
+        [ 0.0428, -0.0014, -0.0198,  ...,  0.0169, -0.0331, -0.2134],
+        [-0.0090,  0.0163,  0.0083,  ..., -0.0667,  0.0845, -0.0410],
+        ...,
+        [-0.0022, -0.0217, -0.0097,  ..., -0.0722, -0.1223,  0.0265],
+        [-0.0169, -0.0212, -0.0142,  ..., -0.0748,  0.0440, -0.1444],
+        [-0.1021, -0.0034, -0.0036,  ..., -0.0778, -0.0850, -0.0714]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.6196e-06,
+         -7.8231e-08,  2.3283e-09],
+        [-2.3283e-09,  0.0000e+00,  0.0000e+00,  ...,  5.3085e-08,
+          5.8673e-08,  3.0268e-08],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  1.5181e-07,
+          7.4971e-08,  5.5879e-09],
+        ...,
+        [ 2.3283e-09,  0.0000e+00,  0.0000e+00,  ...,  3.3528e-08,
+          7.1712e-08,  2.3749e-08],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  1.2480e-07,
+          2.6869e-07,  3.0268e-08],
+        [ 4.1910e-09,  0.0000e+00,  0.0000e+00,  ...,  6.8313e-07,
+          1.0431e-07,  8.7544e-08]], device='cuda:0')
+Epoch 126, bias, value: tensor([ 0.0055, -0.0147, -0.0013,  0.0301, -0.0056,  0.0319,  0.0048,  0.0170,
+        -0.0002, -0.0112], device='cuda:0'), grad: tensor([-1.1455e-06,  5.2489e-06,  4.3847e-06, -3.4213e-05,  9.4716e-07,
+         3.0369e-05,  8.0932e-07, -2.0131e-05,  7.6443e-06,  6.0610e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 125, time 214.50, cls_loss 0.0044 cls_loss_mapping 0.0067 cls_loss_causal 0.5498 re_mapping 0.0074 re_causal 0.0210 /// teacc 98.99 lr 0.00010000
+Epoch 127, weight, value: tensor([[-0.0263,  0.0032, -0.0613,  ...,  0.0172, -0.0360, -0.0033],
+        [ 0.0415, -0.0016, -0.0205,  ...,  0.0164, -0.0335, -0.2144],
+        [-0.0090,  0.0163,  0.0072,  ..., -0.0672,  0.0849, -0.0411],
+        ...,
+        [-0.0025, -0.0219, -0.0098,  ..., -0.0725, -0.1234,  0.0262],
+        [-0.0147, -0.0216, -0.0132,  ..., -0.0749,  0.0443, -0.1448],
+        [-0.1044, -0.0035, -0.0033,  ..., -0.0780, -0.0835, -0.0711]],
+       device='cuda:0'), grad: tensor([[ 6.0536e-09,  1.3039e-08,  3.7253e-08,  ..., -4.7795e-06,
+          1.9427e-06, -1.0975e-05],
+        [-9.3132e-08,  1.1642e-08, -3.1050e-06,  ...,  1.9372e-07,
+          4.3735e-06,  5.8813e-07],
+        [ 1.6764e-08, -1.7090e-07,  1.5972e-07,  ...,  3.7765e-07,
+         -5.2415e-06, -1.3746e-05],
+        ...,
+        [ 4.0513e-08,  4.4238e-08,  9.3412e-07,  ...,  1.3039e-07,
+          1.4499e-05,  9.0748e-06],
+        [ 1.2573e-08,  2.9337e-08,  1.3784e-07,  ...,  3.3583e-06,
+         -3.6597e-05,  1.3802e-06],
+        [ 1.0245e-08,  3.7253e-09,  7.6834e-07,  ...,  7.8827e-06,
+          2.0355e-05,  6.1989e-06]], device='cuda:0')
+Epoch 127, bias, value: tensor([ 0.0053, -0.0147, -0.0013,  0.0301, -0.0066,  0.0320,  0.0036,  0.0171,
+        -0.0006, -0.0093], device='cuda:0'), grad: tensor([-2.5138e-05, -6.7912e-06, -3.6713e-06,  1.2234e-05,  1.0461e-05,
+        -7.2181e-05,  5.4657e-05,  3.4511e-05, -6.7174e-05,  6.2943e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 126, time 214.37, cls_loss 0.0026 cls_loss_mapping 0.0053 cls_loss_causal 0.5637 re_mapping 0.0075 re_causal 0.0235 /// teacc 98.92 lr 0.00010000
+Epoch 128, weight, value: tensor([[-0.0264,  0.0028, -0.0622,  ...,  0.0173, -0.0366, -0.0032],
+        [ 0.0424, -0.0020, -0.0204,  ...,  0.0162, -0.0338, -0.2150],
+        [-0.0090,  0.0164,  0.0071,  ..., -0.0675,  0.0851, -0.0415],
+        ...,
+        [-0.0036, -0.0220, -0.0099,  ..., -0.0727, -0.1239,  0.0263],
+        [-0.0147, -0.0221, -0.0137,  ..., -0.0752,  0.0444, -0.1451],
+        [-0.1071, -0.0035, -0.0036,  ..., -0.0782, -0.0840, -0.0723]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  8.1882e-06,
+          1.2785e-05,  5.6550e-06],
+        [ 0.0000e+00,  1.3970e-09,  0.0000e+00,  ...,  1.6764e-07,
+          8.9174e-07,  8.4750e-07],
+        [ 0.0000e+00, -6.0536e-09,  0.0000e+00,  ...,  2.0117e-06,
+         -1.4111e-05,  1.3094e-06],
+        ...,
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  9.7789e-09,
+          1.6121e-06, -3.9581e-08],
+        [ 0.0000e+00,  4.6566e-10,  4.6566e-10,  ...,  2.0508e-06,
+          1.6004e-05,  1.5618e-06],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  3.3388e-07,
+          5.3411e-07, -5.9092e-07]], device='cuda:0')
+Epoch 128, bias, value: tensor([ 0.0053, -0.0145, -0.0012,  0.0303, -0.0047,  0.0318,  0.0038,  0.0168,
+        -0.0007, -0.0109], device='cuda:0'), grad: tensor([ 2.5272e-05,  1.3757e-04, -1.8492e-05, -5.7854e-06,  2.6762e-05,
+         7.6219e-06, -4.7714e-05,  4.8876e-06,  5.2929e-05, -1.8299e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 127, time 214.65, cls_loss 0.0038 cls_loss_mapping 0.0070 cls_loss_causal 0.5325 re_mapping 0.0074 re_causal 0.0209 /// teacc 98.99 lr 0.00010000
+Epoch 129, weight, value: tensor([[-0.0273,  0.0028, -0.0660,  ...,  0.0175, -0.0371, -0.0034],
+        [ 0.0424, -0.0025, -0.0179,  ...,  0.0161, -0.0341, -0.2164],
+        [-0.0094,  0.0165,  0.0047,  ..., -0.0683,  0.0851, -0.0437],
+        ...,
+        [-0.0016, -0.0221, -0.0103,  ..., -0.0729, -0.1244,  0.0267],
+        [-0.0144, -0.0222, -0.0157,  ..., -0.0756,  0.0446, -0.1458],
+        [-0.1093, -0.0035, -0.0069,  ..., -0.0784, -0.0844, -0.0724]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  6.2864e-08,  2.1886e-08,  ..., -5.8822e-06,
+          1.0412e-06,  4.6566e-09],
+        [ 0.0000e+00,  9.0804e-08,  2.4904e-06,  ...,  5.3085e-08,
+          9.4622e-06,  3.5390e-08],
+        [ 0.0000e+00, -6.0014e-06, -2.9709e-06,  ...,  1.5041e-07,
+         -3.3408e-05,  1.4435e-08],
+        ...,
+        [ 4.6566e-10,  1.0617e-07,  1.7416e-07,  ...,  4.7497e-08,
+          1.4817e-06, -1.0813e-06],
+        [ 0.0000e+00,  5.7276e-08,  3.3062e-08,  ...,  2.5984e-07,
+         -2.7288e-07,  8.8476e-09],
+        [ 4.6566e-10,  8.4285e-08,  5.8673e-08,  ...,  4.2841e-06,
+          4.8243e-07,  1.3364e-07]], device='cuda:0')
+Epoch 129, bias, value: tensor([ 0.0055, -0.0146, -0.0018,  0.0300, -0.0038,  0.0320,  0.0041,  0.0178,
+        -0.0008, -0.0119], device='cuda:0'), grad: tensor([-8.3670e-06,  3.0145e-05, -1.0550e-04,  6.6996e-05,  5.0440e-06,
+         9.8161e-07,  1.5795e-06, -1.8673e-07, -2.3888e-07,  9.6411e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 128----------------------------------------------------
+epoch 128, time 230.51, cls_loss 0.0021 cls_loss_mapping 0.0039 cls_loss_causal 0.5381 re_mapping 0.0075 re_causal 0.0224 /// teacc 99.10 lr 0.00010000
+Epoch 130, weight, value: tensor([[-0.0273,  0.0025, -0.0672,  ...,  0.0175, -0.0377, -0.0036],
+        [ 0.0424, -0.0029, -0.0179,  ...,  0.0160, -0.0342, -0.2168],
+        [-0.0094,  0.0166,  0.0049,  ..., -0.0686,  0.0856, -0.0434],
+        ...,
+        [-0.0015, -0.0222, -0.0101,  ..., -0.0730, -0.1256,  0.0266],
+        [-0.0143, -0.0229, -0.0164,  ..., -0.0759,  0.0444, -0.1462],
+        [-0.1094, -0.0035, -0.0071,  ..., -0.0785, -0.0847, -0.0723]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-08, -4.3772e-08,  1.8626e-09,  ...,  3.0408e-07,
+          3.3043e-06,  6.1002e-08],
+        [-4.0606e-07,  4.6566e-10,  4.6566e-10,  ...,  2.4363e-06,
+          5.0254e-06,  1.7509e-07],
+        [-5.8673e-08,  3.7253e-09,  1.3970e-09,  ...,  4.9531e-05,
+          8.0705e-05,  1.0896e-07],
+        ...,
+        [ 2.4587e-07,  9.3132e-10,  0.0000e+00,  ...,  7.5437e-08,
+          6.4122e-07,  5.5367e-07],
+        [ 4.3306e-08,  9.3132e-10,  9.3132e-10,  ...,  6.2995e-06,
+         -1.1869e-05,  4.5169e-08],
+        [ 1.2573e-08,  2.7008e-08,  0.0000e+00,  ...,  5.9605e-07,
+          2.6599e-06,  4.4517e-06]], device='cuda:0')
+Epoch 130, bias, value: tensor([ 0.0054, -0.0149, -0.0016,  0.0300, -0.0041,  0.0320,  0.0043,  0.0182,
+        -0.0007, -0.0120], device='cuda:0'), grad: tensor([ 3.6843e-06,  8.0094e-06,  1.8907e-04,  1.3791e-05,  9.7826e-06,
+         6.5416e-06, -1.3936e-04, -8.9228e-05, -2.1756e-05,  1.9416e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 129, time 214.32, cls_loss 0.0028 cls_loss_mapping 0.0068 cls_loss_causal 0.5137 re_mapping 0.0073 re_causal 0.0209 /// teacc 99.04 lr 0.00010000
+Epoch 131, weight, value: tensor([[-0.0274,  0.0030, -0.0683,  ...,  0.0197, -0.0365, -0.0037],
+        [ 0.0416, -0.0035, -0.0181,  ...,  0.0155, -0.0343, -0.2175],
+        [-0.0096,  0.0166,  0.0062,  ..., -0.0704,  0.0858, -0.0435],
+        ...,
+        [-0.0016, -0.0221, -0.0101,  ..., -0.0735, -0.1269,  0.0256],
+        [-0.0129, -0.0233, -0.0172,  ..., -0.0763,  0.0431, -0.1437],
+        [-0.1100, -0.0040, -0.0075,  ..., -0.0793, -0.0853, -0.0724]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-09,  0.0000e+00,  1.3970e-08,  ..., -1.5525e-06,
+          5.9791e-07, -6.4261e-08],
+        [-9.5926e-08,  1.8626e-09,  1.8626e-09,  ...,  2.6450e-07,
+          1.8533e-07,  1.3411e-07],
+        [ 1.2107e-08, -4.6566e-09,  9.3132e-10,  ...,  1.8161e-07,
+         -3.6135e-07,  3.3528e-08],
+        ...,
+        [ 4.1910e-08,  9.3132e-10,  0.0000e+00,  ...,  8.1025e-08,
+          1.7881e-07,  3.6415e-07],
+        [ 9.3132e-09,  0.0000e+00,  8.3819e-09,  ...,  2.5705e-07,
+          2.1048e-07,  7.1712e-08],
+        [ 2.7940e-09,  0.0000e+00,  9.3132e-10,  ...,  1.0440e-06,
+          1.4063e-07, -4.4703e-07]], device='cuda:0')
+Epoch 131, bias, value: tensor([ 0.0071, -0.0146, -0.0018,  0.0301, -0.0039,  0.0320,  0.0045,  0.0179,
+        -0.0020, -0.0124], device='cuda:0'), grad: tensor([-6.1058e-06,  9.9838e-07,  2.1514e-07,  1.6233e-06,  7.6741e-07,
+         1.1632e-06, -1.6196e-06, -1.2498e-06,  3.1106e-06,  1.0654e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 130, time 214.29, cls_loss 0.0027 cls_loss_mapping 0.0046 cls_loss_causal 0.5347 re_mapping 0.0073 re_causal 0.0220 /// teacc 98.93 lr 0.00010000
+Epoch 132, weight, value: tensor([[-0.0274,  0.0030, -0.0686,  ...,  0.0198, -0.0366, -0.0036],
+        [ 0.0420, -0.0037, -0.0179,  ...,  0.0152, -0.0346, -0.2181],
+        [-0.0098,  0.0165,  0.0057,  ..., -0.0707,  0.0866, -0.0431],
+        ...,
+        [-0.0019, -0.0222, -0.0099,  ..., -0.0737, -0.1291,  0.0258],
+        [-0.0129, -0.0235, -0.0175,  ..., -0.0767,  0.0432, -0.1439],
+        [-0.1103, -0.0040, -0.0076,  ..., -0.0791, -0.0859, -0.0725]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.0489e-08,  0.0000e+00,  ...,  1.9595e-06,
+          1.2275e-06,  3.4273e-07],
+        [-1.8626e-09,  6.5193e-09,  0.0000e+00,  ...,  7.9162e-08,
+          5.0385e-07,  2.7567e-07],
+        [ 9.3132e-10, -4.4610e-07,  0.0000e+00,  ...,  2.8871e-08,
+         -4.8988e-06, -3.6322e-08],
+        ...,
+        [-5.5879e-09,  1.2852e-07,  0.0000e+00,  ...,  4.6566e-09,
+          2.0731e-06, -1.0960e-05],
+        [ 1.8626e-09,  1.2852e-07,  0.0000e+00,  ...,  1.3728e-06,
+          4.9584e-06,  1.2666e-07],
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  2.1141e-07,
+          3.8650e-07,  3.4515e-06]], device='cuda:0')
+Epoch 132, bias, value: tensor([ 0.0069, -0.0146, -0.0014,  0.0300, -0.0057,  0.0319,  0.0046,  0.0177,
+        -0.0021, -0.0109], device='cuda:0'), grad: tensor([ 6.3851e-06,  1.6108e-05, -1.6261e-06,  2.8536e-05,  2.4382e-06,
+         1.3694e-05, -9.8124e-06, -1.3399e-04,  2.0698e-05,  5.7578e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 131, time 214.43, cls_loss 0.0033 cls_loss_mapping 0.0065 cls_loss_causal 0.5632 re_mapping 0.0070 re_causal 0.0209 /// teacc 98.96 lr 0.00010000
+Epoch 133, weight, value: tensor([[-0.0277,  0.0030, -0.0692,  ...,  0.0205, -0.0372, -0.0038],
+        [ 0.0419, -0.0046, -0.0179,  ...,  0.0122, -0.0346, -0.2187],
+        [-0.0098,  0.0166,  0.0051,  ..., -0.0715,  0.0882, -0.0419],
+        ...,
+        [-0.0016, -0.0222, -0.0101,  ..., -0.0740, -0.1302,  0.0258],
+        [-0.0128, -0.0248, -0.0177,  ..., -0.0770,  0.0420, -0.1460],
+        [-0.1108, -0.0043, -0.0076,  ..., -0.0792, -0.0866, -0.0733]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  6.6310e-07,
+          1.3327e-06,  1.3970e-08],
+        [-1.4901e-08,  0.0000e+00,  0.0000e+00,  ...,  3.6322e-08,
+          2.8033e-07,  3.3528e-08],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  1.4622e-07,
+         -1.8608e-06,  7.4506e-09],
+        ...,
+        [ 5.5879e-09,  0.0000e+00,  0.0000e+00,  ...,  1.1176e-08,
+          5.3365e-07,  6.6124e-08],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ..., -4.9453e-07,
+         -3.2838e-06,  3.4459e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.1420e-07,
+          1.6633e-06, -1.2778e-05]], device='cuda:0')
+Epoch 133, bias, value: tensor([ 0.0080, -0.0148, -0.0010,  0.0308, -0.0054,  0.0316,  0.0046,  0.0178,
+        -0.0034, -0.0116], device='cuda:0'), grad: tensor([ 4.9561e-05, -6.5193e-07,  2.1964e-05,  1.8761e-05,  1.1161e-05,
+         7.3493e-05,  1.1697e-06,  7.4953e-06, -1.0625e-05, -1.7262e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 132, time 214.05, cls_loss 0.0026 cls_loss_mapping 0.0055 cls_loss_causal 0.5338 re_mapping 0.0074 re_causal 0.0216 /// teacc 98.81 lr 0.00010000
+Epoch 134, weight, value: tensor([[-0.0278,  0.0031, -0.0697,  ...,  0.0202, -0.0382, -0.0040],
+        [ 0.0420, -0.0048, -0.0179,  ...,  0.0116, -0.0348, -0.2194],
+        [-0.0097,  0.0166,  0.0050,  ..., -0.0731,  0.0884, -0.0416],
+        ...,
+        [-0.0019, -0.0222, -0.0104,  ..., -0.0746, -0.1313,  0.0250],
+        [-0.0127, -0.0249, -0.0179,  ..., -0.0766,  0.0425, -0.1458],
+        [-0.1110, -0.0043, -0.0077,  ..., -0.0792, -0.0867, -0.0734]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  7.2643e-08,
+          4.3679e-07,  1.0757e-06],
+        [ 9.3132e-10,  7.4506e-09,  0.0000e+00,  ...,  2.6077e-08,
+          1.6578e-07,  6.5658e-07],
+        [ 9.3132e-10, -1.5832e-08,  0.0000e+00,  ..., -1.8440e-07,
+         -3.2410e-06,  3.5856e-07],
+        ...,
+        [ 9.3132e-10,  2.7940e-09,  0.0000e+00,  ...,  1.7881e-07,
+          2.4419e-06,  4.3865e-07],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  7.9162e-08,
+          3.5204e-07,  2.1793e-07],
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  1.0990e-07,
+          1.7788e-07,  7.0371e-06]], device='cuda:0')
+Epoch 134, bias, value: tensor([ 0.0075, -0.0146, -0.0010,  0.0294, -0.0048,  0.0318,  0.0045,  0.0183,
+        -0.0034, -0.0115], device='cuda:0'), grad: tensor([ 2.8461e-06,  2.8480e-06, -5.4389e-06, -1.7956e-06, -1.9938e-05,
+        -1.4193e-06,  2.2855e-06,  7.7039e-06,  3.9488e-06,  8.9183e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 133, time 214.16, cls_loss 0.0026 cls_loss_mapping 0.0048 cls_loss_causal 0.5719 re_mapping 0.0068 re_causal 0.0214 /// teacc 98.89 lr 0.00010000
+Epoch 135, weight, value: tensor([[-0.0279,  0.0027, -0.0704,  ...,  0.0203, -0.0391, -0.0045],
+        [ 0.0418, -0.0060, -0.0179,  ...,  0.0112, -0.0349, -0.2228],
+        [-0.0098,  0.0168,  0.0046,  ..., -0.0736,  0.0887, -0.0415],
+        ...,
+        [-0.0019, -0.0224, -0.0106,  ..., -0.0753, -0.1323,  0.0253],
+        [-0.0134, -0.0257, -0.0176,  ..., -0.0774,  0.0427, -0.1448],
+        [-0.1113, -0.0045, -0.0078,  ..., -0.0797, -0.0876, -0.0733]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09, -8.5682e-08,  0.0000e+00,  ...,  3.8091e-07,
+          2.2165e-06,  2.6263e-07],
+        [ 2.2352e-08,  9.3132e-10,  0.0000e+00,  ..., -1.9744e-07,
+          2.4959e-06,  2.7288e-07],
+        [ 5.5879e-09,  2.7940e-09,  0.0000e+00,  ...,  5.4762e-07,
+         -3.6806e-05,  9.8720e-08],
+        ...,
+        [ 8.3819e-09,  9.3132e-10,  0.0000e+00,  ...,  1.1548e-07,
+          2.1346e-06,  2.4401e-07],
+        [ 9.3132e-10,  8.3819e-09,  0.0000e+00,  ...,  2.8647e-06,
+         -1.1265e-05, -2.7101e-06],
+        [ 1.4901e-08,  1.0245e-08,  0.0000e+00,  ...,  1.9372e-07,
+          3.6776e-05,  1.9670e-06]], device='cuda:0')
+Epoch 135, bias, value: tensor([ 0.0073, -0.0147, -0.0010,  0.0295, -0.0048,  0.0318,  0.0049,  0.0181,
+        -0.0034, -0.0115], device='cuda:0'), grad: tensor([ 1.0096e-05,  1.0133e-05, -9.7811e-05,  2.8446e-05,  1.2726e-05,
+         1.9774e-05, -2.4706e-05, -5.6326e-05, -1.4670e-05,  1.1241e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 134, time 214.53, cls_loss 0.0029 cls_loss_mapping 0.0058 cls_loss_causal 0.5158 re_mapping 0.0070 re_causal 0.0212 /// teacc 98.99 lr 0.00010000
+Epoch 136, weight, value: tensor([[-0.0283,  0.0023, -0.0708,  ...,  0.0203, -0.0400, -0.0064],
+        [ 0.0439, -0.0065, -0.0180,  ...,  0.0111, -0.0353, -0.2219],
+        [-0.0100,  0.0169,  0.0044,  ..., -0.0741,  0.0890, -0.0416],
+        ...,
+        [-0.0013, -0.0225, -0.0107,  ..., -0.0752, -0.1317,  0.0262],
+        [-0.0158, -0.0267, -0.0173,  ..., -0.0779,  0.0427, -0.1458],
+        [-0.1117, -0.0046, -0.0078,  ..., -0.0792, -0.0870, -0.0740]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ..., -8.5980e-06,
+          1.6205e-07,  1.5832e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  4.5635e-08,
+          2.2445e-06,  1.1548e-07],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  4.0978e-08,
+         -2.5909e-06, -1.0803e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  7.4506e-09,
+          4.1630e-07,  7.5717e-07],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  6.1467e-08,
+          7.9162e-08,  2.7940e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.4901e-08,  ...,  1.6298e-07,
+          2.1886e-07,  9.6858e-08]], device='cuda:0')
+Epoch 136, bias, value: tensor([ 0.0068, -0.0149, -0.0011,  0.0296, -0.0047,  0.0313,  0.0051,  0.0189,
+        -0.0043, -0.0112], device='cuda:0'), grad: tensor([-1.7315e-05,  1.0139e-04,  2.1718e-06,  7.8306e-06, -2.0806e-06,
+        -3.0994e-06,  1.7166e-05, -1.1039e-04,  1.8133e-06,  2.3730e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 135, time 214.22, cls_loss 0.0030 cls_loss_mapping 0.0065 cls_loss_causal 0.5390 re_mapping 0.0071 re_causal 0.0210 /// teacc 98.89 lr 0.00010000
+Epoch 137, weight, value: tensor([[-0.0284,  0.0024, -0.0716,  ...,  0.0215, -0.0394, -0.0080],
+        [ 0.0442, -0.0069, -0.0186,  ...,  0.0108, -0.0355, -0.2222],
+        [-0.0102,  0.0169,  0.0030,  ..., -0.0742,  0.0895, -0.0418],
+        ...,
+        [-0.0014, -0.0226, -0.0109,  ..., -0.0762, -0.1325,  0.0260],
+        [-0.0158, -0.0278, -0.0149,  ..., -0.0781,  0.0433, -0.1460],
+        [-0.1123, -0.0047, -0.0080,  ..., -0.0801, -0.0868, -0.0744]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  6.5751e-06,
+          5.0515e-06,  5.8766e-07],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  1.6578e-07,
+          3.6415e-07,  2.6915e-07],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  8.9873e-07,
+         -1.6848e-06,  1.9185e-07],
+        ...,
+        [-9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-08,
+          1.5777e-06,  7.7300e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  4.2189e-07,
+         -1.7695e-08,  3.9209e-07],
+        [ 3.7253e-09,  0.0000e+00,  0.0000e+00,  ...,  3.2410e-07,
+          9.5926e-07,  3.6545e-06]], device='cuda:0')
+Epoch 137, bias, value: tensor([ 0.0078, -0.0155, -0.0009,  0.0302, -0.0060,  0.0303,  0.0047,  0.0196,
+        -0.0043, -0.0101], device='cuda:0'), grad: tensor([ 1.5825e-05,  1.0030e-06,  1.7677e-06, -5.0336e-05,  1.7703e-05,
+         8.4750e-08, -3.0935e-05, -3.6545e-06,  2.5965e-06,  4.5925e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 136, time 214.38, cls_loss 0.0029 cls_loss_mapping 0.0060 cls_loss_causal 0.5327 re_mapping 0.0072 re_causal 0.0204 /// teacc 98.80 lr 0.00010000
+Epoch 138, weight, value: tensor([[-0.0286,  0.0022, -0.0719,  ...,  0.0216, -0.0397, -0.0083],
+        [ 0.0439, -0.0071, -0.0187,  ...,  0.0101, -0.0359, -0.2228],
+        [-0.0106,  0.0170,  0.0027,  ..., -0.0749,  0.0901, -0.0417],
+        ...,
+        [-0.0014, -0.0227, -0.0117,  ..., -0.0763, -0.1338,  0.0260],
+        [-0.0161, -0.0284, -0.0147,  ..., -0.0787,  0.0436, -0.1460],
+        [-0.1131, -0.0047, -0.0080,  ..., -0.0802, -0.0875, -0.0750]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -7.1526e-07,
+          1.3106e-05,  4.9286e-06],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  1.0654e-05,
+          8.1539e-05,  2.4810e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.3736e-05,
+          2.5773e-04,  7.7486e-05],
+        ...,
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  2.2929e-06,
+          1.9073e-05,  6.2250e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.5938e-04,
+         -1.2264e-03, -3.6502e-04],
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  1.8859e-06,
+          7.4580e-06, -2.4676e-05]], device='cuda:0')
+Epoch 138, bias, value: tensor([ 0.0080, -0.0158, -0.0005,  0.0300, -0.0061,  0.0306,  0.0048,  0.0209,
+        -0.0041, -0.0113], device='cuda:0'), grad: tensor([ 2.0891e-05,  1.4663e-04,  4.5872e-04,  5.2929e-05,  1.8597e-04,
+         1.0643e-03,  3.6335e-04,  4.9204e-05, -2.1420e-03, -2.0027e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 137, time 214.76, cls_loss 0.0029 cls_loss_mapping 0.0052 cls_loss_causal 0.5549 re_mapping 0.0066 re_causal 0.0204 /// teacc 98.93 lr 0.00010000
+Epoch 139, weight, value: tensor([[-0.0288,  0.0020, -0.0731,  ...,  0.0213, -0.0411, -0.0087],
+        [ 0.0442, -0.0077, -0.0188,  ...,  0.0096, -0.0362, -0.2236],
+        [-0.0107,  0.0172,  0.0029,  ..., -0.0751,  0.0904, -0.0421],
+        ...,
+        [-0.0016, -0.0231, -0.0128,  ..., -0.0770, -0.1344,  0.0258],
+        [-0.0171, -0.0288, -0.0148,  ..., -0.0765,  0.0470, -0.1449],
+        [-0.1168, -0.0048, -0.0083,  ..., -0.0811, -0.0889, -0.0739]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.1064e-04,
+          5.4955e-05,  1.6764e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.2201e-07,
+         -1.5274e-07,  3.1944e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8664e-06,
+          3.7253e-09,  2.6077e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.2666e-07,
+          1.8533e-07,  4.4703e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  8.6054e-07,
+         -5.7407e-06,  5.1223e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.0489e-06,
+          7.2345e-06,  4.9993e-06]], device='cuda:0')
+Epoch 139, bias, value: tensor([ 0.0074, -0.0160, -0.0004,  0.0299, -0.0066,  0.0286,  0.0047,  0.0206,
+        -0.0012, -0.0111], device='cuda:0'), grad: tensor([ 2.5630e-04, -1.9863e-05,  9.4622e-06,  7.1861e-06, -1.7554e-05,
+        -9.1270e-06, -2.7132e-04, -4.4443e-06,  2.9281e-06,  4.6462e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 138, time 214.25, cls_loss 0.0022 cls_loss_mapping 0.0045 cls_loss_causal 0.5412 re_mapping 0.0067 re_causal 0.0206 /// teacc 98.84 lr 0.00010000
+Epoch 140, weight, value: tensor([[-0.0289, -0.0006, -0.0732,  ...,  0.0211, -0.0421, -0.0089],
+        [ 0.0442, -0.0110, -0.0188,  ...,  0.0095, -0.0363, -0.2238],
+        [-0.0091,  0.0179,  0.0029,  ..., -0.0757,  0.0908, -0.0418],
+        ...,
+        [-0.0020, -0.0243, -0.0129,  ..., -0.0773, -0.1366,  0.0258],
+        [-0.0177, -0.0312, -0.0147,  ..., -0.0767,  0.0470, -0.1451],
+        [-0.1179, -0.0050, -0.0084,  ..., -0.0814, -0.0894, -0.0747]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-09,  0.0000e+00,  0.0000e+00,  ..., -1.2897e-05,
+          4.1444e-07,  7.8231e-08],
+        [ 8.3819e-09,  0.0000e+00,  0.0000e+00,  ...,  2.4680e-07,
+          6.7987e-07,  2.2631e-07],
+        [ 3.3528e-08,  0.0000e+00,  0.0000e+00,  ...,  4.0140e-07,
+          2.2631e-07,  1.2200e-07],
+        ...,
+        [ 2.7940e-08,  0.0000e+00,  0.0000e+00,  ...,  2.1420e-07,
+          1.2852e-07,  7.4599e-07],
+        [ 1.9558e-08,  0.0000e+00,  0.0000e+00,  ...,  2.4289e-06,
+         -1.1727e-05,  1.2387e-07],
+        [ 5.0291e-08,  0.0000e+00,  0.0000e+00,  ...,  5.2005e-06,
+         -8.7917e-07,  3.7532e-06]], device='cuda:0')
+Epoch 140, bias, value: tensor([ 0.0071, -0.0158, -0.0002,  0.0301, -0.0062,  0.0289,  0.0048,  0.0200,
+        -0.0012, -0.0115], device='cuda:0'), grad: tensor([-2.1607e-05,  7.5810e-07,  2.5816e-06,  5.7258e-06,  3.7160e-07,
+         4.2021e-05, -4.5300e-06,  4.6343e-06, -2.1413e-05, -8.6054e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 139, time 214.20, cls_loss 0.0024 cls_loss_mapping 0.0055 cls_loss_causal 0.5458 re_mapping 0.0066 re_causal 0.0202 /// teacc 98.90 lr 0.00010000
+Epoch 141, weight, value: tensor([[-0.0293, -0.0008, -0.0732,  ...,  0.0212, -0.0425, -0.0089],
+        [ 0.0445, -0.0118, -0.0188,  ...,  0.0091, -0.0365, -0.2240],
+        [-0.0078,  0.0181,  0.0030,  ..., -0.0761,  0.0911, -0.0417],
+        ...,
+        [-0.0025, -0.0245, -0.0129,  ..., -0.0775, -0.1374,  0.0256],
+        [-0.0185, -0.0319, -0.0147,  ..., -0.0762,  0.0478, -0.1456],
+        [-0.1200, -0.0053, -0.0084,  ..., -0.0816, -0.0899, -0.0745]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  2.7940e-09,  0.0000e+00,  ...,  7.5996e-07,
+          1.8794e-06,  2.2054e-06],
+        [ 4.2841e-08,  6.5193e-09,  0.0000e+00,  ...,  2.1979e-07,
+          1.0971e-06,  9.3412e-07],
+        [ 1.8626e-08, -1.3039e-08,  0.0000e+00,  ..., -1.2582e-06,
+         -4.2468e-06,  6.9104e-07],
+        ...,
+        [ 1.9558e-08,  7.4506e-08,  0.0000e+00,  ...,  2.6915e-07,
+          1.0086e-06,  6.2678e-07],
+        [ 4.6566e-09,  2.3283e-08,  0.0000e+00,  ...,  8.4750e-07,
+         -5.2527e-06,  1.5553e-07],
+        [ 1.3970e-08,  1.6764e-08,  0.0000e+00,  ...,  1.9185e-07,
+          1.2098e-06,  2.8927e-06]], device='cuda:0')
+Epoch 141, bias, value: tensor([ 0.0070, -0.0157, -0.0002,  0.0301, -0.0066,  0.0283,  0.0048,  0.0196,
+        -0.0007, -0.0110], device='cuda:0'), grad: tensor([ 1.1824e-05,  5.7109e-06, -2.9877e-06, -2.4125e-05, -2.0951e-05,
+         1.4290e-05, -2.8238e-06,  2.2091e-06, -9.0972e-06,  2.5943e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 140, time 214.46, cls_loss 0.0022 cls_loss_mapping 0.0039 cls_loss_causal 0.5299 re_mapping 0.0065 re_causal 0.0202 /// teacc 99.02 lr 0.00010000
+Epoch 142, weight, value: tensor([[-0.0296, -0.0018, -0.0732,  ...,  0.0210, -0.0433, -0.0090],
+        [ 0.0443, -0.0139, -0.0188,  ...,  0.0088, -0.0375, -0.2243],
+        [-0.0076,  0.0185,  0.0030,  ..., -0.0762,  0.0923, -0.0416],
+        ...,
+        [-0.0021, -0.0252, -0.0129,  ..., -0.0779, -0.1383,  0.0254],
+        [-0.0184, -0.0337, -0.0147,  ..., -0.0765,  0.0479, -0.1459],
+        [-0.1214, -0.0055, -0.0084,  ..., -0.0816, -0.0907, -0.0746]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -5.5991e-06,
+         -3.7253e-08,  1.0245e-08],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  4.8149e-07,
+          2.1532e-06,  2.7940e-08],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  7.3947e-07,
+         -1.1601e-05,  2.4214e-08],
+        ...,
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  1.5460e-07,
+          5.8375e-06,  3.6322e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  8.6054e-07,
+          5.2489e-06,  1.5832e-08],
+        [ 7.4506e-09,  0.0000e+00,  0.0000e+00,  ...,  1.7639e-06,
+          1.1381e-06,  3.3528e-07]], device='cuda:0')
+Epoch 142, bias, value: tensor([ 0.0068, -0.0163,  0.0004,  0.0298, -0.0064,  0.0285,  0.0047,  0.0198,
+        -0.0006, -0.0113], device='cuda:0'), grad: tensor([-7.1898e-06,  6.2771e-06, -3.2693e-05,  7.2122e-06,  6.0409e-05,
+        -5.9232e-06, -6.5386e-05,  1.6823e-05,  1.5102e-05,  5.2713e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 141, time 214.13, cls_loss 0.0027 cls_loss_mapping 0.0051 cls_loss_causal 0.5361 re_mapping 0.0068 re_causal 0.0206 /// teacc 98.97 lr 0.00010000
+Epoch 143, weight, value: tensor([[-0.0297, -0.0022, -0.0732,  ...,  0.0210, -0.0440, -0.0101],
+        [ 0.0444, -0.0172, -0.0188,  ...,  0.0086, -0.0378, -0.2245],
+        [-0.0076,  0.0192,  0.0029,  ..., -0.0767,  0.0925, -0.0417],
+        ...,
+        [-0.0022, -0.0272, -0.0129,  ..., -0.0783, -0.1390,  0.0250],
+        [-0.0184, -0.0368, -0.0147,  ..., -0.0781,  0.0478, -0.1456],
+        [-0.1221, -0.0059, -0.0084,  ..., -0.0817, -0.0913, -0.0748]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-08,  0.0000e+00,  0.0000e+00,  ..., -3.0771e-06,
+          1.5376e-06, -6.2212e-07],
+        [ 5.6066e-07,  0.0000e+00,  0.0000e+00,  ...,  1.3877e-07,
+          4.9919e-07,  1.2191e-06],
+        [ 3.1665e-08,  0.0000e+00,  0.0000e+00,  ...,  6.0163e-07,
+          1.1101e-06,  9.3598e-07],
+        ...,
+        [ 8.6613e-08,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-08,
+          7.5158e-07,  1.0394e-06],
+        [ 3.7253e-08,  0.0000e+00,  0.0000e+00,  ...,  2.9802e-06,
+          4.1015e-06,  5.5693e-07],
+        [ 8.7544e-08,  0.0000e+00,  0.0000e+00,  ...,  1.8068e-07,
+          2.7455e-06,  5.0753e-05]], device='cuda:0')
+Epoch 143, bias, value: tensor([ 0.0064, -0.0161,  0.0003,  0.0298, -0.0061,  0.0289,  0.0048,  0.0196,
+        -0.0007, -0.0116], device='cuda:0'), grad: tensor([ 3.0659e-06,  1.9908e-05,  1.1988e-05,  3.0965e-05, -2.0325e-04,
+        -9.2387e-06, -2.0228e-06,  1.9684e-05,  7.2420e-05,  5.6416e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 142, time 214.24, cls_loss 0.0019 cls_loss_mapping 0.0036 cls_loss_causal 0.5601 re_mapping 0.0066 re_causal 0.0213 /// teacc 99.01 lr 0.00010000
+Epoch 144, weight, value: tensor([[-0.0297, -0.0021, -0.0732,  ...,  0.0210, -0.0448, -0.0097],
+        [ 0.0444, -0.0182, -0.0188,  ...,  0.0085, -0.0380, -0.2248],
+        [-0.0073,  0.0195,  0.0030,  ..., -0.0766,  0.0934, -0.0416],
+        ...,
+        [-0.0023, -0.0277, -0.0129,  ..., -0.0789, -0.1412,  0.0251],
+        [-0.0184, -0.0379, -0.0147,  ..., -0.0787,  0.0477, -0.1456],
+        [-0.1223, -0.0062, -0.0084,  ..., -0.0818, -0.0921, -0.0749]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  3.9116e-08,  0.0000e+00,  ..., -4.7795e-06,
+          8.7544e-07,  7.9721e-07],
+        [-0.0000e+00,  2.2352e-08,  0.0000e+00,  ...,  1.3411e-07,
+          2.2873e-06,  1.1399e-05],
+        [ 0.0000e+00, -1.5013e-06,  0.0000e+00,  ...,  4.6380e-07,
+         -3.1888e-05,  1.3970e-07],
+        ...,
+        [ 0.0000e+00,  1.3281e-06,  0.0000e+00,  ...,  7.2643e-08,
+          2.0221e-05,  2.7232e-06],
+        [ 0.0000e+00,  3.7253e-08,  0.0000e+00,  ...,  1.8626e-07,
+          6.9365e-06,  1.4137e-06],
+        [ 1.8626e-09,  1.8626e-09,  0.0000e+00,  ...,  8.1398e-07,
+          2.8685e-07,  1.0125e-05]], device='cuda:0')
+Epoch 144, bias, value: tensor([ 0.0063, -0.0163,  0.0009,  0.0299, -0.0062,  0.0288,  0.0052,  0.0195,
+        -0.0006, -0.0119], device='cuda:0'), grad: tensor([-6.3255e-06,  2.8819e-05, -6.2764e-05,  1.7554e-05, -5.1767e-05,
+        -1.1437e-05,  1.1384e-05,  3.1054e-05,  2.0280e-05,  2.3246e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 143, time 214.21, cls_loss 0.0023 cls_loss_mapping 0.0059 cls_loss_causal 0.5612 re_mapping 0.0064 re_causal 0.0206 /// teacc 98.87 lr 0.00010000
+Epoch 145, weight, value: tensor([[-0.0298, -0.0019, -0.0732,  ...,  0.0215, -0.0452, -0.0100],
+        [ 0.0439, -0.0188, -0.0188,  ...,  0.0083, -0.0385, -0.2253],
+        [-0.0068,  0.0196,  0.0030,  ..., -0.0772,  0.0941, -0.0415],
+        ...,
+        [-0.0020, -0.0283, -0.0129,  ..., -0.0793, -0.1430,  0.0251],
+        [-0.0185, -0.0381, -0.0147,  ..., -0.0787,  0.0481, -0.1458],
+        [-0.1228, -0.0063, -0.0084,  ..., -0.0822, -0.0930, -0.0751]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  5.0291e-08,  0.0000e+00,  ...,  7.4506e-09,
+          5.0105e-07,  7.2829e-07],
+        [ 3.7253e-09,  6.1467e-08,  0.0000e+00,  ...,  1.3039e-08,
+          5.0291e-07,  3.3900e-07],
+        [ 5.5879e-09, -1.2238e-06,  0.0000e+00,  ...,  4.8429e-08,
+         -9.2089e-06, -1.1846e-06],
+        ...,
+        [ 1.8626e-09,  3.7812e-07,  0.0000e+00,  ...,  1.8626e-09,
+          2.8796e-06,  6.9477e-07],
+        [ 0.0000e+00,  2.0303e-07,  0.0000e+00,  ...,  1.8999e-07,
+          2.5537e-06,  4.6007e-07],
+        [ 3.7253e-09,  4.8429e-08,  0.0000e+00,  ...,  1.8626e-08,
+          4.9174e-07,  2.4214e-07]], device='cuda:0')
+Epoch 145, bias, value: tensor([ 0.0066, -0.0168,  0.0012,  0.0287, -0.0053,  0.0294,  0.0051,  0.0186,
+        -0.0001, -0.0124], device='cuda:0'), grad: tensor([ 6.4038e-06,  2.1774e-06, -2.3171e-05,  4.8205e-06, -2.3082e-05,
+        -2.8871e-07,  1.8761e-05,  7.2718e-06,  9.3430e-06, -2.2389e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 144, time 214.04, cls_loss 0.0024 cls_loss_mapping 0.0051 cls_loss_causal 0.5355 re_mapping 0.0065 re_causal 0.0200 /// teacc 98.91 lr 0.00010000
+Epoch 146, weight, value: tensor([[-2.9972e-02, -1.6859e-03, -7.3313e-02,  ...,  2.2002e-02,
+         -4.5504e-02, -1.0078e-02],
+        [ 4.3854e-02, -1.9340e-02, -1.8838e-02,  ...,  8.2824e-03,
+         -3.8671e-02, -2.2606e-01],
+        [-8.2891e-03,  1.9488e-02,  2.9622e-03,  ..., -7.7830e-02,
+          9.4235e-02, -4.1875e-02],
+        ...,
+        [ 1.7593e-04, -2.9214e-02, -1.3004e-02,  ..., -7.9702e-02,
+         -1.4291e-01,  2.5086e-02],
+        [-1.8966e-02, -3.8517e-02, -1.4766e-02,  ..., -7.9359e-02,
+          4.8101e-02, -1.4603e-01],
+        [-1.2302e-01, -6.4641e-03, -8.3773e-03,  ..., -8.2751e-02,
+         -9.3163e-02, -7.5578e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -2.1234e-07,
+          4.7125e-07,  5.8115e-07],
+        [ 3.7253e-09,  0.0000e+00,  0.0000e+00,  ...,  1.3039e-08,
+          3.0734e-07,  7.7859e-07],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  9.6858e-08,
+         -6.3702e-06,  1.2740e-06],
+        ...,
+        [ 1.4901e-08,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          5.6066e-07, -1.3459e-04],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-07,
+         -1.1645e-05,  1.1250e-06],
+        [ 5.5879e-09,  0.0000e+00,  0.0000e+00,  ...,  3.9116e-08,
+          1.4275e-05,  3.5223e-06]], device='cuda:0')
+Epoch 146, bias, value: tensor([ 0.0071, -0.0168,  0.0003,  0.0288, -0.0049,  0.0297,  0.0052,  0.0194,
+        -0.0006, -0.0127], device='cuda:0'), grad: tensor([ 7.1302e-06,  1.6093e-05, -7.4863e-05,  1.3721e-04,  1.9705e-04,
+         1.5366e-04, -9.3132e-09, -6.3801e-04, -2.7806e-05,  2.2888e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 145, time 214.30, cls_loss 0.0019 cls_loss_mapping 0.0039 cls_loss_causal 0.5207 re_mapping 0.0065 re_causal 0.0200 /// teacc 98.99 lr 0.00010000
+Epoch 147, weight, value: tensor([[-0.0300, -0.0016, -0.0733,  ...,  0.0226, -0.0451, -0.0106],
+        [ 0.0439, -0.0199, -0.0188,  ...,  0.0081, -0.0386, -0.2264],
+        [-0.0085,  0.0196,  0.0030,  ..., -0.0782,  0.0948, -0.0419],
+        ...,
+        [ 0.0007, -0.0294, -0.0130,  ..., -0.0801, -0.1447,  0.0255],
+        [-0.0193, -0.0390, -0.0148,  ..., -0.0796,  0.0481, -0.1463],
+        [-0.1232, -0.0066, -0.0084,  ..., -0.0828, -0.0934, -0.0752]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.1418e-06,
+          1.6652e-06,  7.5065e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.5087e-07,
+          2.7008e-07,  9.1270e-08],
+        [ 0.0000e+00, -1.8626e-09,  0.0000e+00,  ...,  4.8243e-07,
+          2.7008e-07,  2.9057e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-08,
+          4.3958e-07,  2.8778e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.9057e-07,
+          6.3330e-08,  1.5460e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.6858e-08,
+          1.3411e-07,  3.1665e-08]], device='cuda:0')
+Epoch 147, bias, value: tensor([ 0.0075, -0.0164,  0.0002,  0.0289, -0.0054,  0.0296,  0.0053,  0.0194,
+        -0.0008, -0.0125], device='cuda:0'), grad: tensor([ 4.8280e-06,  3.7942e-06,  4.4197e-05, -6.1333e-05,  6.5342e-06,
+         4.9993e-06, -2.0459e-05,  5.2750e-06,  1.1206e-05,  9.4064e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 146, time 214.31, cls_loss 0.0027 cls_loss_mapping 0.0065 cls_loss_causal 0.5587 re_mapping 0.0066 re_causal 0.0206 /// teacc 98.99 lr 0.00010000
+Epoch 148, weight, value: tensor([[-0.0301, -0.0020, -0.0733,  ...,  0.0225, -0.0460, -0.0111],
+        [ 0.0439, -0.0226, -0.0188,  ...,  0.0080, -0.0390, -0.2269],
+        [-0.0085,  0.0207,  0.0030,  ..., -0.0785,  0.0954, -0.0414],
+        ...,
+        [ 0.0008, -0.0317, -0.0130,  ..., -0.0805, -0.1453,  0.0249],
+        [-0.0192, -0.0416, -0.0148,  ..., -0.0800,  0.0479, -0.1467],
+        [-0.1236, -0.0078, -0.0084,  ..., -0.0829, -0.0939, -0.0766]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ..., -5.4017e-08,
+          5.2527e-07,  4.4703e-08],
+        [ 3.9116e-08,  0.0000e+00,  0.0000e+00,  ...,  1.2107e-07,
+          5.0105e-07,  4.3027e-07],
+        [ 7.4506e-09, -0.0000e+00,  0.0000e+00,  ...,  1.0245e-07,
+         -6.7614e-07,  8.7544e-08],
+        ...,
+        [-2.4028e-07,  0.0000e+00,  0.0000e+00,  ...,  1.4901e-08,
+          2.6636e-07, -2.4457e-06],
+        [ 3.7253e-09,  0.0000e+00,  0.0000e+00,  ..., -1.8477e-06,
+         -2.8133e-05,  9.1270e-08],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  2.6263e-07,
+          4.6194e-07, -5.4762e-07]], device='cuda:0')
+Epoch 148, bias, value: tensor([ 0.0069, -0.0161,  0.0007,  0.0291, -0.0045,  0.0296,  0.0058,  0.0187,
+        -0.0012, -0.0131], device='cuda:0'), grad: tensor([ 9.6858e-07,  1.0274e-05, -6.3330e-08,  1.3828e-05,  1.8775e-05,
+         7.8231e-06,  3.2514e-05, -2.8849e-05, -4.9740e-05, -5.6103e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 147, time 214.61, cls_loss 0.0028 cls_loss_mapping 0.0053 cls_loss_causal 0.5317 re_mapping 0.0067 re_causal 0.0204 /// teacc 98.92 lr 0.00010000
+Epoch 149, weight, value: tensor([[-0.0311, -0.0041, -0.0733,  ...,  0.0233, -0.0467, -0.0107],
+        [ 0.0436, -0.0243, -0.0189,  ...,  0.0061, -0.0392, -0.2272],
+        [-0.0085,  0.0221,  0.0029,  ..., -0.0800,  0.0962, -0.0412],
+        ...,
+        [ 0.0008, -0.0336, -0.0130,  ..., -0.0811, -0.1468,  0.0247],
+        [-0.0191, -0.0460, -0.0147,  ..., -0.0803,  0.0479, -0.1470],
+        [-0.1248, -0.0080, -0.0084,  ..., -0.0823, -0.0948, -0.0760]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  7.3388e-07,
+          9.4064e-07,  8.5682e-08],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  6.7055e-08,
+         -1.4529e-06,  3.6135e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  7.0781e-08,
+          3.9302e-07,  3.1479e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.5879e-09,
+          3.5577e-07,  1.3784e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.9744e-07,
+         -5.0336e-05,  1.6950e-07],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  5.5879e-08,
+          5.1171e-05,  1.3579e-06]], device='cuda:0')
+Epoch 149, bias, value: tensor([ 0.0079, -0.0165,  0.0010,  0.0295, -0.0056,  0.0295,  0.0051,  0.0180,
+        -0.0013, -0.0117], device='cuda:0'), grad: tensor([ 2.8163e-06, -6.2063e-06,  5.0217e-06, -7.2271e-07, -6.3702e-06,
+        -1.6373e-06,  1.6298e-06, -3.7625e-07, -3.9983e-04,  4.0579e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 148, time 214.19, cls_loss 0.0019 cls_loss_mapping 0.0050 cls_loss_causal 0.5470 re_mapping 0.0066 re_causal 0.0208 /// teacc 99.00 lr 0.00010000
+Epoch 150, weight, value: tensor([[-0.0313, -0.0050, -0.0733,  ...,  0.0226, -0.0485, -0.0118],
+        [ 0.0431, -0.0250, -0.0189,  ...,  0.0059, -0.0399, -0.2276],
+        [-0.0083,  0.0222,  0.0029,  ..., -0.0808,  0.0964, -0.0412],
+        ...,
+        [ 0.0008, -0.0335, -0.0130,  ..., -0.0815, -0.1470,  0.0247],
+        [-0.0194, -0.0463, -0.0146,  ..., -0.0807,  0.0480, -0.1473],
+        [-0.1264, -0.0061, -0.0084,  ..., -0.0824, -0.0961, -0.0766]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -5.3681e-06,
+         -1.6484e-06,  2.2352e-08],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  1.6950e-07,
+          1.6950e-07,  1.6578e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.0361e-07,
+          2.4214e-07,  3.7253e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.0489e-08,
+          2.0489e-08,  9.8720e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.5491e-06,
+          1.3642e-05,  2.3656e-07],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  9.8720e-08,
+         -5.8860e-07, -1.4603e-06]], device='cuda:0')
+Epoch 150, bias, value: tensor([ 0.0073, -0.0166,  0.0007,  0.0294, -0.0052,  0.0296,  0.0062,  0.0182,
+        -0.0012, -0.0123], device='cuda:0'), grad: tensor([-1.1437e-05,  3.0193e-06,  3.7588e-06,  3.9265e-06,  2.6137e-05,
+         4.9919e-05, -6.4015e-05, -5.0440e-06,  2.9504e-05, -3.5852e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 149, time 214.29, cls_loss 0.0024 cls_loss_mapping 0.0044 cls_loss_causal 0.5414 re_mapping 0.0067 re_causal 0.0205 /// teacc 98.95 lr 0.00010000
+Epoch 151, weight, value: tensor([[-0.0315, -0.0051, -0.0733,  ...,  0.0228, -0.0489, -0.0123],
+        [ 0.0431, -0.0279, -0.0189,  ...,  0.0061, -0.0399, -0.2280],
+        [-0.0058,  0.0225,  0.0029,  ..., -0.0810,  0.0974, -0.0397],
+        ...,
+        [ 0.0006, -0.0326, -0.0130,  ..., -0.0817, -0.1480,  0.0251],
+        [-0.0220, -0.0468, -0.0146,  ..., -0.0807,  0.0478, -0.1495],
+        [-0.1267, -0.0062, -0.0084,  ..., -0.0826, -0.0967, -0.0768]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.1176e-08,  0.0000e+00,  ..., -3.1628e-06,
+          1.3933e-06,  7.4506e-09],
+        [ 1.8626e-09,  7.4506e-09,  0.0000e+00,  ...,  1.2107e-07,
+          6.5044e-06,  1.6764e-08],
+        [ 0.0000e+00, -1.6950e-07,  0.0000e+00,  ...,  1.0245e-07,
+          1.2770e-05,  1.1176e-08],
+        ...,
+        [ 1.8626e-09,  7.4506e-09,  0.0000e+00,  ...,  1.6764e-08,
+          1.1958e-06,  1.1176e-08],
+        [ 0.0000e+00,  6.7055e-08,  0.0000e+00,  ...,  1.3225e-07,
+         -1.1110e-04,  1.1176e-08],
+        [ 1.8626e-09,  7.4506e-09,  0.0000e+00,  ...,  1.3225e-07,
+          1.4082e-06,  2.0489e-07]], device='cuda:0')
+Epoch 151, bias, value: tensor([ 0.0073, -0.0167,  0.0007,  0.0310, -0.0051,  0.0296,  0.0057,  0.0173,
+        -0.0015, -0.0123], device='cuda:0'), grad: tensor([-4.0680e-06,  7.9423e-06,  2.5377e-05,  7.9274e-06,  2.1756e-06,
+         1.2589e-04,  3.0726e-05,  3.1441e-06, -2.0468e-04,  5.3756e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 150, time 214.27, cls_loss 0.0025 cls_loss_mapping 0.0051 cls_loss_causal 0.5644 re_mapping 0.0063 re_causal 0.0195 /// teacc 98.93 lr 0.00010000
+Epoch 152, weight, value: tensor([[-0.0316, -0.0058, -0.0734,  ...,  0.0224, -0.0503, -0.0125],
+        [ 0.0431, -0.0288, -0.0190,  ...,  0.0059, -0.0400, -0.2282],
+        [-0.0055,  0.0229,  0.0030,  ..., -0.0818,  0.0984, -0.0395],
+        ...,
+        [ 0.0007, -0.0329, -0.0131,  ..., -0.0818, -0.1486,  0.0256],
+        [-0.0223, -0.0481, -0.0143,  ..., -0.0809,  0.0475, -0.1499],
+        [-0.1280, -0.0062, -0.0084,  ..., -0.0822, -0.0971, -0.0772]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+          3.9302e-07,  3.1665e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.3958e-07,  5.0850e-07],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+         -7.0147e-06,  8.3819e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.6782e-06,  1.5087e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.1176e-08,
+          3.3118e-06,  5.1409e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+          3.6694e-07,  1.1630e-05]], device='cuda:0')
+Epoch 152, bias, value: tensor([ 0.0062, -0.0162,  0.0011,  0.0311, -0.0049,  0.0300,  0.0054,  0.0171,
+        -0.0023, -0.0124], device='cuda:0'), grad: tensor([ 1.9614e-06,  3.8557e-06, -5.5879e-08,  1.0216e-04, -3.4481e-05,
+         8.9779e-07,  1.5516e-06, -1.2851e-04,  1.3530e-05,  3.8803e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 151, time 214.28, cls_loss 0.0019 cls_loss_mapping 0.0041 cls_loss_causal 0.5370 re_mapping 0.0060 re_causal 0.0197 /// teacc 98.98 lr 0.00010000
+Epoch 153, weight, value: tensor([[-0.0316, -0.0058, -0.0740,  ...,  0.0218, -0.0513, -0.0120],
+        [ 0.0432, -0.0292, -0.0189,  ...,  0.0058, -0.0402, -0.2283],
+        [-0.0056,  0.0230,  0.0027,  ..., -0.0824,  0.0986, -0.0395],
+        ...,
+        [ 0.0007, -0.0330, -0.0136,  ..., -0.0822, -0.1488,  0.0256],
+        [-0.0223, -0.0482, -0.0144,  ..., -0.0811,  0.0475, -0.1500],
+        [-0.1289, -0.0063, -0.0085,  ..., -0.0817, -0.0967, -0.0774]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.2852e-07,  0.0000e+00,  ..., -2.6971e-05,
+         -7.8306e-06,  2.9802e-08],
+        [ 0.0000e+00,  2.0489e-08,  0.0000e+00,  ...,  1.4883e-06,
+          1.4212e-06,  2.0452e-06],
+        [-1.8626e-09, -9.3132e-09,  0.0000e+00,  ...,  6.9365e-06,
+          8.6427e-07,  1.6578e-07],
+        ...,
+        [ 0.0000e+00,  2.2352e-08,  0.0000e+00,  ...,  9.6858e-07,
+          2.2445e-06,  1.8440e-07],
+        [ 0.0000e+00,  3.5390e-08,  0.0000e+00,  ...,  4.6253e-05,
+          5.2214e-05,  1.0990e-07],
+        [ 0.0000e+00,  3.5390e-08,  0.0000e+00,  ...,  1.0528e-05,
+          6.3963e-06,  2.4233e-06]], device='cuda:0')
+Epoch 153, bias, value: tensor([ 0.0055, -0.0153,  0.0009,  0.0308, -0.0045,  0.0299,  0.0049,  0.0166,
+        -0.0024, -0.0120], device='cuda:0'), grad: tensor([-8.2016e-05,  1.9938e-05,  2.6599e-05,  1.7598e-05, -2.2829e-05,
+         4.9448e-04, -6.0034e-04, -9.7156e-06,  1.1307e-04,  4.2826e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 152, time 214.72, cls_loss 0.0021 cls_loss_mapping 0.0038 cls_loss_causal 0.5333 re_mapping 0.0060 re_causal 0.0188 /// teacc 98.99 lr 0.00010000
+Epoch 154, weight, value: tensor([[-0.0319, -0.0022, -0.0741,  ...,  0.0226, -0.0515, -0.0119],
+        [ 0.0431, -0.0370, -0.0189,  ...,  0.0051, -0.0405, -0.2287],
+        [-0.0056,  0.0237,  0.0026,  ..., -0.0831,  0.0990, -0.0397],
+        ...,
+        [ 0.0009, -0.0346, -0.0136,  ..., -0.0825, -0.1492,  0.0244],
+        [-0.0223, -0.0490, -0.0144,  ..., -0.0816,  0.0476, -0.1500],
+        [-0.1299, -0.0074, -0.0085,  ..., -0.0822, -0.0976, -0.0775]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -0.0000e+00,  0.0000e+00,  ...,  4.9733e-07,
+          6.7987e-07,  5.9605e-08],
+        [ 0.0000e+00,  7.4506e-09,  0.0000e+00,  ...,  2.6077e-08,
+          1.2666e-07,  3.5018e-07],
+        [ 0.0000e+00, -2.6077e-08,  0.0000e+00,  ...,  7.0781e-08,
+          8.8662e-07,  1.3597e-07],
+        ...,
+        [ 0.0000e+00, -8.1956e-08,  0.0000e+00,  ...,  0.0000e+00,
+          1.1735e-07,  1.4342e-07],
+        [ 0.0000e+00,  9.3132e-09,  0.0000e+00,  ...,  2.5891e-07,
+          1.3672e-06,  3.7067e-07],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  2.4214e-08,
+          4.4331e-07,  2.6785e-06]], device='cuda:0')
+Epoch 154, bias, value: tensor([ 0.0064, -0.0154,  0.0007,  0.0310, -0.0044,  0.0294,  0.0053,  0.0164,
+        -0.0025, -0.0118], device='cuda:0'), grad: tensor([ 1.4808e-06,  9.5740e-07,  2.3171e-06,  7.3761e-06, -1.5795e-05,
+        -1.3538e-05,  1.8049e-06, -1.1176e-07,  6.0201e-06,  9.4846e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 153, time 214.79, cls_loss 0.0022 cls_loss_mapping 0.0043 cls_loss_causal 0.5464 re_mapping 0.0063 re_causal 0.0206 /// teacc 99.00 lr 0.00010000
+Epoch 155, weight, value: tensor([[-0.0322, -0.0021, -0.0745,  ...,  0.0224, -0.0517, -0.0126],
+        [ 0.0432, -0.0390, -0.0190,  ...,  0.0046, -0.0406, -0.2290],
+        [-0.0056,  0.0239,  0.0019,  ..., -0.0838,  0.0993, -0.0397],
+        ...,
+        [ 0.0032, -0.0342, -0.0139,  ..., -0.0827, -0.1495,  0.0264],
+        [-0.0223, -0.0493, -0.0139,  ..., -0.0830,  0.0474, -0.1501],
+        [-0.1319, -0.0077, -0.0086,  ..., -0.0824, -0.0983, -0.0775]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.4640e-06,
+          7.5437e-07,  9.3132e-09],
+        [ 1.1176e-08,  3.7253e-09,  0.0000e+00,  ...,  1.6764e-08,
+          1.0818e-05,  3.5390e-08],
+        [ 3.7253e-09, -1.1176e-08,  0.0000e+00,  ...,  1.4901e-08,
+          1.1265e-04,  5.5879e-08],
+        ...,
+        [ 4.4703e-08, -1.1176e-08,  0.0000e+00,  ...,  9.3132e-09,
+          3.3081e-06,  9.4995e-08],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ..., -1.0058e-07,
+         -2.9707e-04,  1.5087e-07],
+        [ 1.8626e-09,  3.7253e-09,  0.0000e+00,  ...,  6.5193e-08,
+          8.2254e-06,  2.7753e-07]], device='cuda:0')
+Epoch 155, bias, value: tensor([ 0.0062, -0.0157,  0.0008,  0.0301, -0.0039,  0.0301,  0.0052,  0.0167,
+        -0.0031, -0.0118], device='cuda:0'), grad: tensor([ 4.6901e-06,  1.7196e-05,  1.6797e-04,  6.0081e-04,  2.2396e-05,
+        -4.1747e-04,  4.2677e-05,  1.5855e-05, -5.0402e-04,  5.0724e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 154, time 214.62, cls_loss 0.0022 cls_loss_mapping 0.0046 cls_loss_causal 0.5244 re_mapping 0.0063 re_causal 0.0191 /// teacc 98.99 lr 0.00010000
+Epoch 156, weight, value: tensor([[-0.0327, -0.0023, -0.0746,  ...,  0.0224, -0.0527, -0.0128],
+        [ 0.0462, -0.0447, -0.0188,  ...,  0.0039, -0.0411, -0.2292],
+        [-0.0072,  0.0244,  0.0016,  ..., -0.0865,  0.0994, -0.0397],
+        ...,
+        [ 0.0030, -0.0345, -0.0140,  ..., -0.0830, -0.1500,  0.0264],
+        [-0.0226, -0.0499, -0.0140,  ..., -0.0850,  0.0459, -0.1501],
+        [-0.1334, -0.0067, -0.0086,  ..., -0.0822, -0.0987, -0.0775]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ..., -1.6242e-05,
+          3.1665e-08,  2.0489e-08],
+        [ 9.3132e-08,  0.0000e+00,  0.0000e+00,  ...,  5.2154e-07,
+          1.0803e-07,  5.7742e-08],
+        [ 5.9605e-08,  3.7253e-09,  0.0000e+00,  ...,  5.0664e-07,
+          7.6368e-08,  2.6077e-08],
+        ...,
+        [ 4.2841e-08,  0.0000e+00,  0.0000e+00,  ...,  3.9861e-07,
+          5.2154e-08,  3.1665e-08],
+        [ 3.7253e-09, -1.6764e-08,  0.0000e+00,  ...,  1.2740e-06,
+         -2.7940e-07,  2.7940e-08],
+        [ 2.4214e-08,  0.0000e+00,  0.0000e+00,  ...,  4.7609e-06,
+          2.2538e-07,  9.1344e-06]], device='cuda:0')
+Epoch 156, bias, value: tensor([ 0.0059, -0.0160,  0.0004,  0.0298, -0.0032,  0.0317,  0.0034,  0.0168,
+        -0.0042, -0.0115], device='cuda:0'), grad: tensor([-3.0696e-05, -1.8626e-09,  3.4627e-06, -7.2084e-06, -1.2434e-04,
+         2.8554e-06,  2.1800e-05,  2.3358e-06,  4.9956e-06,  1.2672e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 155, time 214.90, cls_loss 0.0025 cls_loss_mapping 0.0041 cls_loss_causal 0.5232 re_mapping 0.0065 re_causal 0.0190 /// teacc 98.90 lr 0.00010000
+Epoch 157, weight, value: tensor([[-0.0330, -0.0022, -0.0753,  ...,  0.0207, -0.0534, -0.0121],
+        [ 0.0467, -0.0497, -0.0188,  ...,  0.0033, -0.0412, -0.2293],
+        [-0.0069,  0.0262,  0.0018,  ..., -0.0867,  0.1005, -0.0393],
+        ...,
+        [ 0.0030, -0.0374, -0.0142,  ..., -0.0837, -0.1507,  0.0263],
+        [-0.0226, -0.0508, -0.0140,  ..., -0.0851,  0.0460, -0.1502],
+        [-0.1344, -0.0075, -0.0087,  ..., -0.0830, -0.0992, -0.0777]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -6.2585e-07,
+          4.9174e-07, -1.1921e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  7.0781e-08,
+          9.1270e-08,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  9.3691e-07,
+          1.0505e-06, -1.8626e-09],
+        ...,
+        [-0.0000e+00, -3.7253e-09,  0.0000e+00,  ...,  1.8626e-08,
+          4.2841e-08,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.0547e-07,
+          3.5204e-07,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.5949e-07,
+          1.1548e-07,  3.5390e-08]], device='cuda:0')
+Epoch 157, bias, value: tensor([ 0.0043, -0.0164,  0.0010,  0.0293, -0.0030,  0.0316,  0.0052,  0.0178,
+        -0.0042, -0.0124], device='cuda:0'), grad: tensor([-5.3085e-07,  8.2701e-06,  3.7014e-05, -2.6971e-06, -5.0724e-05,
+         1.1809e-06, -4.8354e-06,  8.8960e-06,  4.4703e-06, -1.0375e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 156, time 214.54, cls_loss 0.0024 cls_loss_mapping 0.0040 cls_loss_causal 0.5499 re_mapping 0.0062 re_causal 0.0196 /// teacc 98.93 lr 0.00010000
+Epoch 158, weight, value: tensor([[-0.0333, -0.0024, -0.0756,  ...,  0.0208, -0.0536, -0.0122],
+        [ 0.0469, -0.0537, -0.0189,  ...,  0.0033, -0.0415, -0.2294],
+        [-0.0070,  0.0287,  0.0039,  ..., -0.0875,  0.1007, -0.0393],
+        ...,
+        [ 0.0032, -0.0374, -0.0147,  ..., -0.0845, -0.1526,  0.0264],
+        [-0.0227, -0.0512, -0.0140,  ..., -0.0853,  0.0464, -0.1502],
+        [-0.1352, -0.0079, -0.0087,  ..., -0.0832, -0.0997, -0.0778]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ..., -1.5702e-06,
+         -5.4948e-07,  9.3132e-09],
+        [ 0.0000e+00,  1.8626e-09, -6.3330e-07,  ...,  1.3039e-08,
+          2.4214e-08,  3.3528e-08],
+        [ 0.0000e+00, -1.3597e-07,  3.0734e-07,  ...,  9.3132e-09,
+         -9.4995e-07, -1.1362e-07],
+        ...,
+        [ 0.0000e+00,  3.1665e-08,  1.8254e-07,  ...,  9.3132e-09,
+          2.2352e-07,  1.0990e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.1176e-08,  ...,  1.0058e-07,
+          1.8254e-07,  3.7253e-08],
+        [ 0.0000e+00, -1.8626e-09,  8.0094e-08,  ...,  2.1979e-07,
+          1.1176e-07,  2.5705e-07]], device='cuda:0')
+Epoch 158, bias, value: tensor([ 0.0043, -0.0169,  0.0007,  0.0291, -0.0009,  0.0314,  0.0057,  0.0182,
+        -0.0036, -0.0144], device='cuda:0'), grad: tensor([-2.3134e-06,  2.1148e-04,  3.9816e-05,  5.1618e-05, -2.2531e-05,
+         1.3299e-06,  5.0589e-06, -2.9898e-04,  3.5260e-06,  1.0565e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 157, time 214.63, cls_loss 0.0018 cls_loss_mapping 0.0052 cls_loss_causal 0.5475 re_mapping 0.0063 re_causal 0.0192 /// teacc 99.09 lr 0.00010000
+Epoch 159, weight, value: tensor([[-0.0340, -0.0023, -0.0766,  ...,  0.0212, -0.0542, -0.0122],
+        [ 0.0468, -0.0545, -0.0188,  ...,  0.0030, -0.0417, -0.2296],
+        [-0.0068,  0.0299,  0.0011,  ..., -0.0884,  0.1014, -0.0392],
+        ...,
+        [ 0.0035, -0.0379, -0.0137,  ..., -0.0851, -0.1532,  0.0264],
+        [-0.0226, -0.0515, -0.0126,  ..., -0.0857,  0.0465, -0.1503],
+        [-0.1359, -0.0083, -0.0085,  ..., -0.0827, -0.0999, -0.0779]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -2.3730e-06,
+          1.3039e-07, -2.4643e-06],
+        [ 1.6764e-08,  0.0000e+00,  0.0000e+00,  ..., -1.0118e-05,
+         -4.0494e-06,  5.7742e-08],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  5.8487e-07,
+         -1.2144e-06,  1.3039e-07],
+        ...,
+        [ 3.7253e-09,  0.0000e+00,  0.0000e+00,  ...,  1.4156e-07,
+          4.2841e-07,  6.1467e-08],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  2.5779e-06,
+         -2.2724e-07,  2.6450e-07],
+        [ 1.4901e-08,  0.0000e+00,  0.0000e+00,  ...,  9.1642e-07,
+          2.0862e-07,  5.4762e-07]], device='cuda:0')
+Epoch 159, bias, value: tensor([ 0.0042, -0.0169,  0.0010,  0.0288, -0.0010,  0.0313,  0.0054,  0.0184,
+        -0.0034, -0.0144], device='cuda:0'), grad: tensor([-2.2680e-05, -1.3137e-04,  2.8554e-06,  2.5276e-06,  8.7768e-06,
+         7.8306e-06,  9.0659e-05,  2.2203e-06,  2.9266e-05,  9.8944e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 158, time 214.79, cls_loss 0.0019 cls_loss_mapping 0.0036 cls_loss_causal 0.5177 re_mapping 0.0057 re_causal 0.0183 /// teacc 98.91 lr 0.00010000
+Epoch 160, weight, value: tensor([[-0.0349, -0.0023, -0.0767,  ...,  0.0216, -0.0543, -0.0116],
+        [ 0.0466, -0.0552, -0.0188,  ...,  0.0028, -0.0419, -0.2299],
+        [-0.0071,  0.0303,  0.0012,  ..., -0.0896,  0.1015, -0.0394],
+        ...,
+        [ 0.0041, -0.0379, -0.0138,  ..., -0.0858, -0.1536,  0.0271],
+        [-0.0211, -0.0517, -0.0126,  ..., -0.0858,  0.0467, -0.1499],
+        [-0.1389, -0.0086, -0.0085,  ..., -0.0828, -0.1003, -0.0777]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -5.5879e-09,  0.0000e+00,  ..., -0.0000e+00,
+          7.4990e-06,  3.9116e-08],
+        [ 3.7253e-09,  0.0000e+00,  0.0000e+00,  ...,  2.2352e-08,
+          1.9241e-06,  1.5274e-07],
+        [-1.5646e-07,  0.0000e+00,  0.0000e+00,  ..., -0.0000e+00,
+          6.7800e-06, -3.6694e-07],
+        ...,
+        [-3.7253e-09, -0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+          1.6019e-07,  1.5087e-07],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  3.8557e-07,
+         -2.6479e-05,  2.7381e-07],
+        [ 1.8626e-09,  1.8626e-09,  0.0000e+00,  ...,  8.9407e-08,
+          1.9781e-06, -7.2159e-06]], device='cuda:0')
+Epoch 160, bias, value: tensor([ 0.0046, -0.0169,  0.0007,  0.0290, -0.0019,  0.0312,  0.0064,  0.0186,
+        -0.0032, -0.0142], device='cuda:0'), grad: tensor([ 1.4320e-05,  4.9639e-04,  5.1320e-05,  1.6123e-05,  1.1164e-04,
+         4.5449e-06,  1.3426e-05, -6.4325e-04, -1.7837e-05, -4.6283e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 159, time 214.83, cls_loss 0.0019 cls_loss_mapping 0.0030 cls_loss_causal 0.5154 re_mapping 0.0057 re_causal 0.0190 /// teacc 98.91 lr 0.00010000
+Epoch 161, weight, value: tensor([[-0.0355, -0.0024, -0.0768,  ...,  0.0217, -0.0545, -0.0114],
+        [ 0.0466, -0.0562, -0.0188,  ...,  0.0026, -0.0421, -0.2304],
+        [-0.0074,  0.0305,  0.0013,  ..., -0.0898,  0.1015, -0.0395],
+        ...,
+        [ 0.0050, -0.0371, -0.0139,  ..., -0.0864, -0.1553,  0.0269],
+        [-0.0210, -0.0518, -0.0126,  ..., -0.0858,  0.0469, -0.1501],
+        [-0.1412, -0.0098, -0.0085,  ..., -0.0826, -0.1010, -0.0763]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.8626e-09,  0.0000e+00,  ..., -1.3597e-07,
+          3.2596e-07,  2.7940e-08],
+        [ 0.0000e+00,  5.5879e-09,  0.0000e+00,  ...,  1.8626e-08,
+          1.9316e-06,  6.3330e-08],
+        [ 0.0000e+00,  1.4342e-07,  0.0000e+00,  ...,  2.6077e-08,
+         -7.6666e-06, -4.7311e-07],
+        ...,
+        [ 0.0000e+00, -1.6205e-07,  0.0000e+00,  ...,  0.0000e+00,
+          8.0839e-07,  1.1548e-07],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  6.8918e-08,
+          7.7672e-07,  6.5193e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.0489e-08,
+          1.1548e-07, -1.1362e-07]], device='cuda:0')
+Epoch 161, bias, value: tensor([ 0.0045, -0.0169, -0.0003,  0.0294, -0.0028,  0.0320,  0.0060,  0.0185,
+        -0.0031, -0.0134], device='cuda:0'), grad: tensor([ 2.9430e-06,  2.9862e-05,  8.9183e-06,  8.7321e-06,  8.0243e-06,
+         1.8924e-06,  2.1327e-06, -1.1617e-04,  6.1542e-06,  4.7714e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 160, time 214.69, cls_loss 0.0018 cls_loss_mapping 0.0028 cls_loss_causal 0.5208 re_mapping 0.0065 re_causal 0.0188 /// teacc 98.91 lr 0.00010000
+Epoch 162, weight, value: tensor([[-0.0359, -0.0038, -0.0769,  ...,  0.0217, -0.0547, -0.0116],
+        [ 0.0466, -0.0590, -0.0183,  ...,  0.0021, -0.0421, -0.2309],
+        [-0.0077,  0.0317,  0.0012,  ..., -0.0900,  0.1020, -0.0396],
+        ...,
+        [ 0.0058, -0.0342, -0.0142,  ..., -0.0870, -0.1558,  0.0270],
+        [-0.0210, -0.0548, -0.0126,  ..., -0.0861,  0.0468, -0.1502],
+        [-0.1431, -0.0102, -0.0087,  ..., -0.0828, -0.1016, -0.0766]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  7.4506e-08,
+          4.1537e-07,  5.5879e-09],
+        [ 3.7253e-09,  0.0000e+00,  0.0000e+00,  ...,  1.0990e-07,
+          5.9418e-07,  2.6077e-08],
+        [ 5.5879e-09, -1.8626e-09,  0.0000e+00,  ...,  5.2154e-08,
+         -1.2498e-06,  3.7253e-08],
+        ...,
+        [ 2.2352e-08,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-09,
+          1.2740e-06,  1.1362e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.4715e-07,
+         -1.5013e-05,  7.4506e-09],
+        [ 5.5879e-09,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-08,
+          1.1638e-05, -1.6764e-08]], device='cuda:0')
+Epoch 162, bias, value: tensor([ 0.0045, -0.0167, -0.0004,  0.0290, -0.0025,  0.0318,  0.0063,  0.0190,
+        -0.0033, -0.0139], device='cuda:0'), grad: tensor([ 1.0282e-06,  1.2647e-06, -1.9185e-06,  1.1791e-06,  5.1819e-06,
+         2.9020e-06, -2.3674e-06,  3.6545e-06, -3.3081e-05,  2.2098e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 161, time 214.48, cls_loss 0.0018 cls_loss_mapping 0.0029 cls_loss_causal 0.5143 re_mapping 0.0056 re_causal 0.0187 /// teacc 98.96 lr 0.00010000
+Epoch 163, weight, value: tensor([[-3.6175e-02, -4.2249e-03, -7.7493e-02,  ...,  2.1844e-02,
+         -5.5218e-02, -1.2040e-02],
+        [ 4.5909e-02, -5.9068e-02, -1.8211e-02,  ..., -3.1705e-04,
+         -4.3087e-02, -2.3168e-01],
+        [-7.7440e-03,  3.2182e-02,  8.4007e-05,  ..., -8.7916e-02,
+          1.0384e-01, -3.9890e-02],
+        ...,
+        [ 5.8335e-03, -3.4449e-02, -1.6251e-02,  ..., -8.7635e-02,
+         -1.5711e-01,  2.6894e-02],
+        [-2.0657e-02, -5.5914e-02, -1.2688e-02,  ..., -8.6360e-02,
+          4.7059e-02, -1.5017e-01],
+        [-1.4551e-01, -1.0856e-02, -8.7226e-03,  ..., -8.2605e-02,
+         -1.0214e-01, -7.6828e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.4587e-07,
+          3.1423e-06,  7.8231e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.2841e-08,
+          1.6857e-06,  4.0047e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3597e-07,
+         -1.0319e-06,  6.4448e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.5879e-09,
+          2.7195e-06,  7.4506e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.0361e-07,
+          1.7357e-04,  3.2410e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-08,
+          4.4331e-06,  8.6799e-07]], device='cuda:0')
+Epoch 163, bias, value: tensor([ 0.0045, -0.0171,  0.0005,  0.0293, -0.0023,  0.0317,  0.0058,  0.0185,
+        -0.0029, -0.0140], device='cuda:0'), grad: tensor([ 8.4937e-06,  4.8764e-06,  5.5805e-06,  1.7095e-04, -5.5492e-05,
+        -6.8140e-04,  5.6833e-05,  1.4909e-05,  4.5347e-04,  2.1085e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 162, time 214.38, cls_loss 0.0021 cls_loss_mapping 0.0033 cls_loss_causal 0.5394 re_mapping 0.0059 re_causal 0.0187 /// teacc 98.97 lr 0.00010000
+Epoch 164, weight, value: tensor([[-3.6239e-02, -4.2950e-03, -7.7639e-02,  ...,  2.1355e-02,
+         -5.6479e-02, -1.2102e-02],
+        [ 4.6074e-02, -5.9127e-02, -1.8193e-02,  ..., -7.4355e-04,
+         -4.3711e-02, -2.3206e-01],
+        [-7.8192e-03,  3.2255e-02, -2.2185e-04,  ..., -8.8292e-02,
+          1.0390e-01, -4.0020e-02],
+        ...,
+        [ 5.7885e-03, -3.4404e-02, -1.6731e-02,  ..., -8.8033e-02,
+         -1.5773e-01,  2.6760e-02],
+        [-2.0701e-02, -5.6200e-02, -1.2584e-02,  ..., -8.6329e-02,
+          4.8093e-02, -1.5018e-01],
+        [-1.4594e-01, -1.0719e-02, -8.7326e-03,  ..., -8.2350e-02,
+         -1.0287e-01, -7.7015e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.4703e-07,
+          6.6683e-07,  8.3819e-09],
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  1.2480e-07,
+          1.5181e-06,  2.6077e-08],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  1.8440e-07,
+          2.5332e-07, -3.9116e-08],
+        ...,
+        [-3.7253e-09,  0.0000e+00,  0.0000e+00,  ...,  8.3819e-09,
+          1.1548e-07,  2.8871e-08],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  2.8592e-07,
+          8.2925e-06,  7.4506e-09],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  6.0536e-08,
+          8.6520e-07,  8.1956e-08]], device='cuda:0')
+Epoch 164, bias, value: tensor([ 3.2093e-03, -1.6165e-02, -2.8765e-05,  2.9432e-02, -2.1408e-03,
+         3.1646e-02,  5.7994e-03,  1.7964e-02, -2.8449e-03, -1.3877e-02],
+       device='cuda:0'), grad: tensor([ 1.6848e-06, -3.2663e-05,  1.0151e-06,  1.3053e-05,  6.6683e-06,
+        -4.2737e-05,  7.5251e-06,  1.1288e-06,  4.1485e-05,  2.8349e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 163----------------------------------------------------
+epoch 163, time 230.81, cls_loss 0.0023 cls_loss_mapping 0.0043 cls_loss_causal 0.5119 re_mapping 0.0058 re_causal 0.0177 /// teacc 99.13 lr 0.00010000
+Epoch 165, weight, value: tensor([[-0.0377, -0.0043, -0.0777,  ...,  0.0225, -0.0562, -0.0123],
+        [ 0.0461, -0.0593, -0.0181,  ..., -0.0018, -0.0442, -0.2327],
+        [-0.0079,  0.0323, -0.0004,  ..., -0.0910,  0.1039, -0.0403],
+        ...,
+        [ 0.0060, -0.0342, -0.0169,  ..., -0.0881, -0.1577,  0.0262],
+        [-0.0207, -0.0566, -0.0126,  ..., -0.0868,  0.0481, -0.1502],
+        [-0.1474, -0.0109, -0.0087,  ..., -0.0833, -0.1036, -0.0773]],
+       device='cuda:0'), grad: tensor([[ 1.0524e-07,  9.3132e-10,  0.0000e+00,  ..., -4.4424e-07,
+          1.8040e-06,  1.4808e-07],
+        [ 1.1455e-07,  9.3132e-09,  0.0000e+00,  ...,  3.3528e-08,
+          1.4091e-06,  1.6671e-07],
+        [-1.8522e-05,  5.5879e-09,  0.0000e+00,  ...,  5.7742e-08,
+         -3.9250e-05, -2.5287e-05],
+        ...,
+        [ 1.4836e-06, -6.7055e-08,  0.0000e+00,  ...,  4.6566e-09,
+          3.7607e-06,  2.0936e-06],
+        [ 1.2547e-05,  3.7253e-09,  0.0000e+00,  ...,  9.4064e-08,
+          4.7421e-04,  1.7151e-05],
+        [ 2.7940e-09,  3.8184e-08,  0.0000e+00,  ...,  3.0454e-07,
+         -5.7173e-04,  1.0245e-08]], device='cuda:0')
+Epoch 165, bias, value: tensor([ 0.0040, -0.0154, -0.0006,  0.0292, -0.0023,  0.0321,  0.0061,  0.0151,
+        -0.0008, -0.0138], device='cuda:0'), grad: tensor([ 6.1840e-06,  5.4464e-06, -2.8834e-05,  4.0196e-06,  3.9911e-04,
+         4.3225e-04,  7.9274e-06,  6.0052e-06,  1.8330e-03, -2.6665e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 164, time 214.59, cls_loss 0.0017 cls_loss_mapping 0.0041 cls_loss_causal 0.5276 re_mapping 0.0059 re_causal 0.0179 /// teacc 99.10 lr 0.00010000
+Epoch 166, weight, value: tensor([[-0.0380, -0.0043, -0.0782,  ...,  0.0234, -0.0563, -0.0123],
+        [ 0.0461, -0.0594, -0.0178,  ..., -0.0023, -0.0447, -0.2332],
+        [-0.0075,  0.0324, -0.0004,  ..., -0.0914,  0.1043, -0.0401],
+        ...,
+        [ 0.0061, -0.0342, -0.0171,  ..., -0.0880, -0.1580,  0.0262],
+        [-0.0211, -0.0571, -0.0129,  ..., -0.0870,  0.0479, -0.1505],
+        [-0.1478, -0.0110, -0.0088,  ..., -0.0836, -0.1022, -0.0778]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -5.8394e-07,
+          7.8231e-08,  1.8626e-09],
+        [-3.7253e-09,  0.0000e+00,  0.0000e+00,  ...,  1.4901e-08,
+          2.7008e-06,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.0489e-08,
+         -2.8964e-06,  2.7940e-09],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-09,
+          1.0803e-07,  3.7253e-09],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  2.5146e-08,
+          6.6124e-07,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.8918e-08,
+         -6.7241e-07,  7.2643e-08]], device='cuda:0')
+Epoch 166, bias, value: tensor([ 0.0045, -0.0147, -0.0007,  0.0290, -0.0028,  0.0321,  0.0061,  0.0148,
+        -0.0014, -0.0127], device='cuda:0'), grad: tensor([-6.9849e-08,  3.6508e-06,  2.0787e-05, -3.0175e-05,  1.5981e-06,
+         2.3730e-06,  5.8208e-07,  5.1185e-06,  9.9614e-06, -1.3925e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 165, time 214.44, cls_loss 0.0019 cls_loss_mapping 0.0044 cls_loss_causal 0.5231 re_mapping 0.0061 re_causal 0.0183 /// teacc 99.08 lr 0.00010000
+Epoch 167, weight, value: tensor([[-0.0384, -0.0043, -0.0782,  ...,  0.0235, -0.0569, -0.0127],
+        [ 0.0461, -0.0594, -0.0173,  ..., -0.0033, -0.0451, -0.2339],
+        [-0.0075,  0.0324, -0.0006,  ..., -0.0915,  0.1049, -0.0404],
+        ...,
+        [ 0.0062, -0.0341, -0.0171,  ..., -0.0882, -0.1586,  0.0259],
+        [-0.0210, -0.0571, -0.0129,  ..., -0.0871,  0.0480, -0.1505],
+        [-0.1486, -0.0110, -0.0089,  ..., -0.0833, -0.1027, -0.0785]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  8.7265e-07,
+          2.7958e-06,  2.7940e-09],
+        [ 0.0000e+00,  3.7253e-09,  0.0000e+00,  ...,  3.9116e-08,
+          1.1455e-07,  3.7253e-09],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ..., -1.6820e-06,
+         -5.1782e-06,  1.7695e-08],
+        ...,
+        [ 0.0000e+00, -2.6077e-08,  0.0000e+00,  ...,  1.3970e-08,
+          3.3155e-07,  1.8626e-08],
+        [ 0.0000e+00,  1.6764e-08,  0.0000e+00,  ...,  5.9605e-08,
+          2.5798e-07,  6.5193e-09],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  4.6566e-08,
+          7.8231e-08, -4.5635e-08]], device='cuda:0')
+Epoch 167, bias, value: tensor([ 0.0043, -0.0154, -0.0006,  0.0290, -0.0022,  0.0319,  0.0062,  0.0148,
+        -0.0015, -0.0123], device='cuda:0'), grad: tensor([ 7.7188e-06, -4.2655e-07, -1.4022e-05,  7.8306e-06,  1.3737e-06,
+        -3.7737e-06,  7.5251e-07,  6.3609e-07,  1.2172e-06, -1.3104e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 166, time 214.54, cls_loss 0.0019 cls_loss_mapping 0.0037 cls_loss_causal 0.4984 re_mapping 0.0058 re_causal 0.0181 /// teacc 99.08 lr 0.00010000
+Epoch 168, weight, value: tensor([[-0.0385, -0.0043, -0.0793,  ...,  0.0250, -0.0562, -0.0122],
+        [ 0.0462, -0.0594, -0.0168,  ..., -0.0038, -0.0453, -0.2347],
+        [-0.0074,  0.0324, -0.0011,  ..., -0.0924,  0.1053, -0.0408],
+        ...,
+        [ 0.0063, -0.0342, -0.0176,  ..., -0.0895, -0.1601,  0.0258],
+        [-0.0208, -0.0573, -0.0145,  ..., -0.0864,  0.0487, -0.1499],
+        [-0.1493, -0.0110, -0.0091,  ..., -0.0841, -0.1032, -0.0785]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.4100e-06,
+          2.9802e-08,  1.8626e-09],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  2.1420e-08,
+          1.2573e-07,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.8871e-08,
+         -1.2396e-06, -1.6764e-08],
+        ...,
+        [-6.5193e-09,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-09,
+          5.2713e-07,  9.3132e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.2072e-07,
+         -2.4401e-07,  6.5193e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  8.0094e-08,
+          3.2969e-07, -3.8184e-08]], device='cuda:0')
+Epoch 168, bias, value: tensor([ 0.0054, -0.0150, -0.0006,  0.0288, -0.0023,  0.0318,  0.0055,  0.0144,
+        -0.0014, -0.0122], device='cuda:0'), grad: tensor([-1.3886e-06,  4.4145e-07, -1.8841e-06, -3.2634e-05,  8.6706e-07,
+         5.1558e-06,  2.1532e-06,  1.4165e-06,  2.2441e-05,  3.3937e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 167, time 214.60, cls_loss 0.0024 cls_loss_mapping 0.0045 cls_loss_causal 0.5148 re_mapping 0.0054 re_causal 0.0168 /// teacc 98.89 lr 0.00010000
+Epoch 169, weight, value: tensor([[-0.0389, -0.0043, -0.0824,  ...,  0.0271, -0.0568, -0.0119],
+        [ 0.0460, -0.0594, -0.0189,  ..., -0.0044, -0.0461, -0.2377],
+        [-0.0075,  0.0325, -0.0042,  ..., -0.0930,  0.1062, -0.0407],
+        ...,
+        [ 0.0070, -0.0342, -0.0147,  ..., -0.0902, -0.1613,  0.0258],
+        [-0.0209, -0.0574, -0.0175,  ..., -0.0869,  0.0487, -0.1499],
+        [-0.1505, -0.0110, -0.0106,  ..., -0.0882, -0.1046, -0.0780]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  9.3132e-10,  0.0000e+00,  ...,  4.5262e-07,
+          1.1427e-06,  1.9744e-07],
+        [ 1.3970e-08,  9.3132e-10,  0.0000e+00,  ...,  5.0887e-06,
+          1.3195e-05,  2.8778e-07],
+        [ 6.5193e-09,  1.8626e-09,  0.0000e+00,  ..., -6.6042e-05,
+         -1.7333e-04,  2.8871e-07],
+        ...,
+        [ 1.2107e-08, -8.3819e-09,  0.0000e+00,  ...,  9.8720e-08,
+          2.1271e-06,  1.4994e-07],
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  3.9209e-07,
+          9.3319e-07,  7.2177e-07],
+        [ 2.7008e-08,  9.3132e-10,  0.0000e+00,  ...,  8.4750e-08,
+          1.8720e-07,  1.4889e-04]], device='cuda:0')
+Epoch 169, bias, value: tensor([ 0.0072, -0.0157, -0.0004,  0.0283, -0.0029,  0.0322,  0.0056,  0.0152,
+        -0.0014, -0.0126], device='cuda:0'), grad: tensor([ 2.6524e-06,  1.9863e-05, -3.2854e-04,  1.1921e-06, -4.0936e-04,
+        -9.6858e-08,  2.9421e-04,  4.2468e-06,  4.4294e-06,  4.1032e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 168, time 214.68, cls_loss 0.0018 cls_loss_mapping 0.0036 cls_loss_causal 0.5260 re_mapping 0.0058 re_causal 0.0181 /// teacc 99.05 lr 0.00010000
+Epoch 170, weight, value: tensor([[-0.0391, -0.0045, -0.0825,  ...,  0.0255, -0.0596, -0.0120],
+        [ 0.0462, -0.0594, -0.0188,  ..., -0.0039, -0.0466, -0.2388],
+        [-0.0075,  0.0325, -0.0041,  ..., -0.0926,  0.1072, -0.0407],
+        ...,
+        [ 0.0071, -0.0341, -0.0147,  ..., -0.0905, -0.1625,  0.0276],
+        [-0.0210, -0.0575, -0.0178,  ..., -0.0879,  0.0486, -0.1500],
+        [-0.1515, -0.0111, -0.0107,  ..., -0.0885, -0.1051, -0.0782]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.4261e-08,
+          1.8161e-07,  1.3039e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.2154e-08,
+          8.7544e-08,  1.6764e-08],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  3.1665e-08,
+          8.3819e-09,  2.8871e-08],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          4.0978e-08,  2.3283e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.2399e-07,
+         -3.1386e-07,  6.5193e-09],
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  2.7008e-08,
+          1.7788e-07,  9.5926e-08]], device='cuda:0')
+Epoch 170, bias, value: tensor([ 0.0054, -0.0152,  0.0003,  0.0283, -0.0026,  0.0318,  0.0057,  0.0155,
+        -0.0020, -0.0127], device='cuda:0'), grad: tensor([ 9.8441e-07,  1.1019e-05,  4.0680e-06,  1.7256e-05,  6.2212e-07,
+         4.0978e-06, -2.3413e-06, -7.3671e-05,  1.6823e-05,  2.1085e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 169, time 214.61, cls_loss 0.0023 cls_loss_mapping 0.0046 cls_loss_causal 0.5360 re_mapping 0.0055 re_causal 0.0168 /// teacc 99.05 lr 0.00010000
+Epoch 171, weight, value: tensor([[-0.0392, -0.0047, -0.0825,  ...,  0.0251, -0.0607, -0.0116],
+        [ 0.0459, -0.0595, -0.0188,  ..., -0.0051, -0.0474, -0.2392],
+        [-0.0075,  0.0331, -0.0042,  ..., -0.0927,  0.1080, -0.0409],
+        ...,
+        [ 0.0076, -0.0344, -0.0146,  ..., -0.0909, -0.1628,  0.0276],
+        [-0.0211, -0.0593, -0.0178,  ..., -0.0861,  0.0491, -0.1502],
+        [-0.1531, -0.0112, -0.0107,  ..., -0.0890, -0.1064, -0.0788]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ..., -8.0094e-08,
+          4.5635e-08,  2.7940e-09],
+        [ 1.3132e-07,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+          2.6822e-07,  1.9558e-07],
+        [ 2.6077e-08,  0.0000e+00,  0.0000e+00,  ...,  7.4506e-09,
+         -1.3039e-07,  4.0978e-08],
+        ...,
+        [ 8.3819e-09,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          1.2014e-07,  1.3970e-08],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  6.5193e-09,
+         -2.5574e-06, -2.8871e-08],
+        [ 1.0245e-08,  0.0000e+00,  0.0000e+00,  ...,  2.4214e-08,
+          1.0012e-06,  4.0978e-08]], device='cuda:0')
+Epoch 171, bias, value: tensor([ 0.0048, -0.0149,  0.0002,  0.0285, -0.0025,  0.0318,  0.0060,  0.0161,
+        -0.0023, -0.0134], device='cuda:0'), grad: tensor([ 6.3330e-08,  1.2647e-06,  1.4137e-06, -2.9318e-06, -1.6512e-06,
+         1.0449e-06,  8.5030e-07,  1.7546e-06, -4.4145e-06,  2.5891e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 170, time 214.54, cls_loss 0.0022 cls_loss_mapping 0.0040 cls_loss_causal 0.5321 re_mapping 0.0054 re_causal 0.0175 /// teacc 99.02 lr 0.00010000
+Epoch 172, weight, value: tensor([[-0.0397, -0.0048, -0.0827,  ...,  0.0251, -0.0614, -0.0111],
+        [ 0.0465, -0.0596, -0.0188,  ..., -0.0081, -0.0484, -0.2398],
+        [-0.0077,  0.0333, -0.0023,  ..., -0.0941,  0.1091, -0.0413],
+        ...,
+        [ 0.0076, -0.0345, -0.0154,  ..., -0.0921, -0.1639,  0.0276],
+        [-0.0214, -0.0599, -0.0179,  ..., -0.0862,  0.0489, -0.1503],
+        [-0.1542, -0.0112, -0.0107,  ..., -0.0891, -0.1055, -0.0793]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  0.0000e+00,  0.0000e+00,  ...,  1.5832e-07,
+          9.7416e-07,  1.8626e-09],
+        [-3.0268e-07,  0.0000e+00,  0.0000e+00,  ...,  5.7649e-07,
+          4.2580e-06,  1.1083e-07],
+        [ 5.5879e-09,  0.0000e+00,  0.0000e+00,  ...,  2.4568e-06,
+          9.7528e-06,  1.0245e-08],
+        ...,
+        [ 1.0245e-08,  0.0000e+00,  0.0000e+00,  ...,  2.8312e-07,
+          1.2387e-06,  1.2107e-08],
+        [ 3.3528e-08,  0.0000e+00,  0.0000e+00,  ..., -2.9951e-05,
+         -1.3101e-04,  6.5193e-09],
+        [ 3.7253e-09,  0.0000e+00,  0.0000e+00,  ...,  1.1548e-07,
+          2.6543e-07,  5.2154e-08]], device='cuda:0')
+Epoch 172, bias, value: tensor([ 0.0046, -0.0147,  0.0006,  0.0295, -0.0023,  0.0300,  0.0069,  0.0158,
+        -0.0032, -0.0124], device='cuda:0'), grad: tensor([ 1.5758e-06,  4.2543e-06,  1.8179e-05, -6.3777e-06,  3.0454e-06,
+         1.7893e-04,  2.7508e-05,  5.4836e-06, -2.3234e-04, -2.3749e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 171, time 214.83, cls_loss 0.0020 cls_loss_mapping 0.0030 cls_loss_causal 0.5325 re_mapping 0.0054 re_causal 0.0180 /// teacc 98.92 lr 0.00010000
+Epoch 173, weight, value: tensor([[-0.0400, -0.0048, -0.0827,  ...,  0.0244, -0.0622, -0.0098],
+        [ 0.0465, -0.0596, -0.0188,  ..., -0.0085, -0.0489, -0.2400],
+        [-0.0077,  0.0333, -0.0024,  ..., -0.0942,  0.1069, -0.0407],
+        ...,
+        [ 0.0077, -0.0345, -0.0153,  ..., -0.0925, -0.1614,  0.0276],
+        [-0.0214, -0.0600, -0.0179,  ..., -0.0858,  0.0490, -0.1504],
+        [-0.1548, -0.0112, -0.0108,  ..., -0.0894, -0.1057, -0.0795]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  5.5879e-09,
+          8.7544e-08,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  2.2352e-08,
+          1.3690e-07,  2.3283e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.5146e-08,  ...,  2.1420e-08,
+         -3.6787e-07,  4.6566e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.2107e-08,  ...,  9.3132e-10,
+          1.5739e-07,  1.7695e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.1665e-08,  ...,  3.9116e-08,
+          6.1095e-07,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  1.1176e-08,
+          5.5600e-07,  2.0489e-07]], device='cuda:0')
+Epoch 173, bias, value: tensor([ 0.0039, -0.0149, -0.0019,  0.0293, -0.0025,  0.0301,  0.0073,  0.0181,
+        -0.0033, -0.0120], device='cuda:0'), grad: tensor([ 3.2876e-07, -9.5516e-06,  2.0638e-06,  3.8445e-06, -1.8165e-05,
+        -3.6377e-06,  1.2852e-07,  1.2301e-05,  2.0321e-06,  1.0610e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 172, time 214.55, cls_loss 0.0032 cls_loss_mapping 0.0049 cls_loss_causal 0.5043 re_mapping 0.0057 re_causal 0.0163 /// teacc 98.98 lr 0.00010000
+Epoch 174, weight, value: tensor([[-0.0425, -0.0048, -0.0828,  ...,  0.0247, -0.0624, -0.0100],
+        [ 0.0461, -0.0597, -0.0188,  ..., -0.0110, -0.0519, -0.2403],
+        [-0.0059,  0.0334, -0.0040,  ..., -0.0943,  0.1080, -0.0402],
+        ...,
+        [ 0.0077, -0.0345, -0.0143,  ..., -0.0937, -0.1615,  0.0276],
+        [-0.0215, -0.0601, -0.0179,  ..., -0.0844,  0.0505, -0.1505],
+        [-0.1591, -0.0113, -0.0108,  ..., -0.0890, -0.1060, -0.0797]],
+       device='cuda:0'), grad: tensor([[ 9.8720e-08,  0.0000e+00,  0.0000e+00,  ...,  1.2536e-06,
+          2.1793e-06,  3.7253e-09],
+        [ 4.6566e-09,  0.0000e+00,  0.0000e+00,  ...,  6.7987e-08,
+          2.1327e-07,  2.0489e-08],
+        [ 1.8626e-08,  0.0000e+00,  0.0000e+00,  ...,  1.4435e-07,
+         -4.9360e-07, -2.3283e-08],
+        ...,
+        [ 1.6764e-08,  0.0000e+00,  0.0000e+00,  ...,  1.1176e-08,
+          3.7160e-07,  1.6764e-08],
+        [ 7.4506e-09,  0.0000e+00,  0.0000e+00,  ...,  5.0291e-08,
+         -4.1761e-06,  2.7940e-09],
+        [ 1.0058e-07,  0.0000e+00,  0.0000e+00,  ...,  9.2201e-08,
+          3.5837e-06,  9.2201e-08]], device='cuda:0')
+Epoch 174, bias, value: tensor([ 0.0039, -0.0168, -0.0011,  0.0308, -0.0048,  0.0276,  0.0057,  0.0181,
+        -0.0022, -0.0091], device='cuda:0'), grad: tensor([ 6.4336e-06,  5.1502e-07, -4.9919e-07,  1.2684e-04,  1.9744e-06,
+        -1.2982e-04, -1.1072e-05,  1.6494e-06, -8.7172e-06,  1.2584e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 173, time 214.64, cls_loss 0.0026 cls_loss_mapping 0.0051 cls_loss_causal 0.4920 re_mapping 0.0058 re_causal 0.0167 /// teacc 98.89 lr 0.00010000
+Epoch 175, weight, value: tensor([[-0.0440, -0.0049, -0.0829,  ...,  0.0242, -0.0635, -0.0098],
+        [ 0.0459, -0.0597, -0.0189,  ..., -0.0112, -0.0533, -0.2406],
+        [-0.0056,  0.0334, -0.0059,  ..., -0.0945,  0.1089, -0.0399],
+        ...,
+        [ 0.0076, -0.0344, -0.0130,  ..., -0.0954, -0.1616,  0.0274],
+        [-0.0215, -0.0603, -0.0181,  ..., -0.0847,  0.0506, -0.1508],
+        [-0.1616, -0.0116, -0.0108,  ..., -0.0898, -0.1068, -0.0828]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ..., -5.5581e-05,
+         -3.2127e-05,  1.5832e-08],
+        [-7.4506e-09,  2.7940e-09,  0.0000e+00,  ...,  7.5437e-08,
+          1.1735e-07,  1.7881e-07],
+        [ 1.8626e-09, -4.3027e-07,  0.0000e+00,  ...,  2.9895e-07,
+         -1.3057e-06,  8.1025e-08],
+        ...,
+        [ 9.3132e-10,  3.4738e-07,  0.0000e+00,  ...,  5.8673e-08,
+          1.2834e-06,  3.1106e-07],
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  1.1763e-06,
+          6.7521e-07,  3.6322e-08],
+        [ 8.3819e-09,  0.0000e+00,  0.0000e+00,  ...,  6.6496e-07,
+          3.9395e-07,  9.7509e-07]], device='cuda:0')
+Epoch 175, bias, value: tensor([ 0.0032, -0.0177, -0.0005,  0.0310, -0.0007,  0.0280,  0.0059,  0.0180,
+        -0.0025, -0.0129], device='cuda:0'), grad: tensor([-9.9480e-05,  3.9302e-06, -4.1053e-06, -4.0233e-06,  1.7196e-05,
+         5.1081e-05,  9.0897e-05, -1.5432e-06,  8.5980e-06, -6.2704e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 174, time 214.61, cls_loss 0.0026 cls_loss_mapping 0.0047 cls_loss_causal 0.5372 re_mapping 0.0057 re_causal 0.0180 /// teacc 99.05 lr 0.00010000
+Epoch 176, weight, value: tensor([[-0.0437, -0.0049, -0.0829,  ...,  0.0243, -0.0640, -0.0099],
+        [ 0.0461, -0.0597, -0.0187,  ..., -0.0114, -0.0537, -0.2407],
+        [-0.0057,  0.0335, -0.0058,  ..., -0.0946,  0.1093, -0.0400],
+        ...,
+        [ 0.0075, -0.0344, -0.0131,  ..., -0.0963, -0.1617,  0.0274],
+        [-0.0215, -0.0603, -0.0180,  ..., -0.0852,  0.0506, -0.1509],
+        [-0.1625, -0.0116, -0.0108,  ..., -0.0900, -0.1073, -0.0822]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.7695e-08,
+          1.3439e-06,  1.8626e-09],
+        [ 4.6566e-09,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          1.3132e-07,  2.3283e-08],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+         -8.1025e-08,  6.5193e-09],
+        ...,
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          3.6042e-07,  1.6764e-08],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  4.5635e-08,
+         -5.2154e-08,  1.2107e-08],
+        [ 6.5193e-09,  0.0000e+00,  0.0000e+00,  ...,  8.3819e-09,
+          9.3691e-07,  4.1910e-08]], device='cuda:0')
+Epoch 176, bias, value: tensor([ 0.0030, -0.0180, -0.0012,  0.0313, -0.0022,  0.0281,  0.0052,  0.0184,
+        -0.0027, -0.0108], device='cuda:0'), grad: tensor([ 8.7470e-06,  6.2305e-07,  9.3691e-07,  1.7628e-05,  9.6187e-06,
+        -2.4647e-05,  2.5742e-06,  4.5687e-05,  2.6412e-06, -6.3717e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 175, time 214.15, cls_loss 0.0022 cls_loss_mapping 0.0037 cls_loss_causal 0.5475 re_mapping 0.0052 re_causal 0.0172 /// teacc 98.93 lr 0.00010000
+Epoch 177, weight, value: tensor([[-0.0460, -0.0050, -0.0829,  ...,  0.0245, -0.0646, -0.0104],
+        [ 0.0457, -0.0602, -0.0188,  ..., -0.0119, -0.0539, -0.2412],
+        [-0.0057,  0.0334, -0.0062,  ..., -0.0950,  0.1095, -0.0401],
+        ...,
+        [ 0.0109, -0.0338, -0.0130,  ..., -0.0964, -0.1618,  0.0278],
+        [-0.0216, -0.0605, -0.0180,  ..., -0.0856,  0.0506, -0.1510],
+        [-0.1660, -0.0117, -0.0109,  ..., -0.0902, -0.1080, -0.0825]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -5.0757e-07,
+          6.0536e-08,  1.8626e-09],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  1.0245e-08,
+          2.3842e-07,  8.3819e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.9558e-08,
+         -5.5544e-06, -2.9802e-08],
+        ...,
+        [ 0.0000e+00, -2.7940e-09,  0.0000e+00,  ...,  3.7253e-09,
+          5.1148e-06,  1.7695e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.8673e-08,
+          1.5274e-07,  7.4506e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.2154e-08,
+          1.1548e-07, -4.8429e-08]], device='cuda:0')
+Epoch 177, bias, value: tensor([ 0.0029, -0.0183, -0.0013,  0.0315, -0.0023,  0.0281,  0.0051,  0.0195,
+        -0.0028, -0.0115], device='cuda:0'), grad: tensor([-1.4501e-06,  1.9148e-06, -2.6733e-05,  1.2862e-06,  1.6280e-06,
+        -1.7677e-06,  4.5355e-07,  2.5243e-05,  7.6182e-07, -1.3085e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 176, time 214.34, cls_loss 0.0027 cls_loss_mapping 0.0037 cls_loss_causal 0.5293 re_mapping 0.0054 re_causal 0.0158 /// teacc 99.00 lr 0.00010000
+Epoch 178, weight, value: tensor([[-0.0486, -0.0050, -0.0830,  ...,  0.0247, -0.0663, -0.0106],
+        [ 0.0449, -0.0602, -0.0188,  ..., -0.0124, -0.0543, -0.2421],
+        [-0.0043,  0.0335, -0.0071,  ..., -0.0957,  0.1100, -0.0390],
+        ...,
+        [ 0.0129, -0.0337, -0.0133,  ..., -0.0970, -0.1622,  0.0291],
+        [-0.0214, -0.0608, -0.0181,  ..., -0.0862,  0.0511, -0.1512],
+        [-0.1689, -0.0120, -0.0109,  ..., -0.0904, -0.1089, -0.0830]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  1.7229e-07,
+          1.7323e-07,  3.3528e-08],
+        [ 1.5832e-08,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          1.4529e-07,  3.5297e-07],
+        [ 8.3819e-09,  0.0000e+00,  0.0000e+00,  ...,  1.2107e-07,
+          5.2154e-08,  4.3772e-08],
+        ...,
+        [ 9.4995e-08,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          1.2573e-07,  4.7125e-07],
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ..., -1.5367e-07,
+         -5.2247e-07,  1.0245e-07],
+        [ 1.1176e-08,  0.0000e+00,  0.0000e+00,  ...,  6.5193e-09,
+          6.3237e-07, -9.5740e-07]], device='cuda:0')
+Epoch 178, bias, value: tensor([ 0.0025, -0.0181, -0.0008,  0.0310, -0.0026,  0.0283,  0.0055,  0.0195,
+        -0.0025, -0.0117], device='cuda:0'), grad: tensor([ 2.6021e-06,  1.1884e-05,  2.2594e-06, -5.2974e-06,  3.9116e-06,
+        -5.0776e-06,  6.8434e-06, -9.4026e-06,  1.7807e-06, -9.5814e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 177, time 214.21, cls_loss 0.0019 cls_loss_mapping 0.0026 cls_loss_causal 0.5177 re_mapping 0.0056 re_causal 0.0179 /// teacc 99.03 lr 0.00010000
+Epoch 179, weight, value: tensor([[-0.0495, -0.0052, -0.0832,  ...,  0.0246, -0.0670, -0.0113],
+        [ 0.0448, -0.0612, -0.0187,  ..., -0.0127, -0.0545, -0.2427],
+        [-0.0044,  0.0336, -0.0062,  ..., -0.0959,  0.1103, -0.0389],
+        ...,
+        [ 0.0129, -0.0332, -0.0136,  ..., -0.0972, -0.1623,  0.0290],
+        [-0.0214, -0.0612, -0.0182,  ..., -0.0866,  0.0511, -0.1512],
+        [-0.1695, -0.0113, -0.0109,  ..., -0.0902, -0.1093, -0.0832]],
+       device='cuda:0'), grad: tensor([[0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 1.0431e-07, 1.6484e-07,
+         3.8184e-08],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 9.4064e-08, 1.3225e-07,
+         1.1791e-06],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 2.9802e-08, 1.4901e-08,
+         8.4750e-08],
+        ...,
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 2.7940e-09, 1.2107e-08,
+         3.8370e-07],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 1.7975e-07, 2.3376e-07,
+         8.2888e-08],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 2.7940e-08, 3.5390e-08,
+         3.5577e-07]], device='cuda:0')
+Epoch 179, bias, value: tensor([ 0.0017, -0.0189, -0.0008,  0.0308, -0.0027,  0.0289,  0.0054,  0.0203,
+        -0.0030, -0.0117], device='cuda:0'), grad: tensor([ 4.4703e-07,  5.6364e-06,  5.6252e-07,  1.8068e-07, -1.1139e-05,
+         1.8105e-06, -1.9968e-06,  1.2172e-06,  9.3132e-07,  2.3469e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 178, time 214.37, cls_loss 0.0021 cls_loss_mapping 0.0037 cls_loss_causal 0.5079 re_mapping 0.0054 re_causal 0.0165 /// teacc 98.91 lr 0.00010000
+Epoch 180, weight, value: tensor([[-0.0495, -0.0052, -0.0833,  ...,  0.0245, -0.0678, -0.0115],
+        [ 0.0449, -0.0614, -0.0187,  ..., -0.0131, -0.0547, -0.2432],
+        [-0.0044,  0.0336, -0.0062,  ..., -0.0961,  0.1129, -0.0391],
+        ...,
+        [ 0.0129, -0.0327, -0.0139,  ..., -0.0980, -0.1650,  0.0289],
+        [-0.0214, -0.0613, -0.0182,  ..., -0.0864,  0.0513, -0.1513],
+        [-0.1697, -0.0114, -0.0110,  ..., -0.0904, -0.1097, -0.0837]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.9092e-07,
+          6.3330e-08,  1.8626e-09],
+        [ 3.7253e-09,  0.0000e+00,  0.0000e+00,  ...,  5.5879e-09,
+          3.2596e-08,  2.2352e-08],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  1.1176e-08,
+         -1.2480e-07,  3.7253e-09],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+          6.5193e-08,  1.3039e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.6764e-08,
+          2.5425e-07,  1.1176e-08],
+        [ 2.3283e-08,  0.0000e+00,  0.0000e+00,  ...,  5.6811e-08,
+         -1.0459e-06,  1.3039e-08]], device='cuda:0')
+Epoch 180, bias, value: tensor([ 0.0012, -0.0187,  0.0013,  0.0310, -0.0027,  0.0289,  0.0050,  0.0184,
+        -0.0028, -0.0116], device='cuda:0'), grad: tensor([ 1.4622e-06, -1.3523e-06,  1.0496e-06, -1.7695e-08,  5.2378e-06,
+         1.7166e-05,  7.3388e-07,  1.2172e-06,  8.9854e-06, -3.4511e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 179, time 214.02, cls_loss 0.0023 cls_loss_mapping 0.0034 cls_loss_causal 0.5163 re_mapping 0.0055 re_causal 0.0167 /// teacc 99.01 lr 0.00010000
+Epoch 181, weight, value: tensor([[-0.0496, -0.0053, -0.0834,  ...,  0.0246, -0.0681, -0.0117],
+        [ 0.0447, -0.0615, -0.0187,  ..., -0.0136, -0.0552, -0.2466],
+        [-0.0044,  0.0345, -0.0060,  ..., -0.0960,  0.1133, -0.0393],
+        ...,
+        [ 0.0129, -0.0333, -0.0136,  ..., -0.0985, -0.1650,  0.0302],
+        [-0.0215, -0.0616, -0.0182,  ..., -0.0865,  0.0515, -0.1516],
+        [-0.1709, -0.0115, -0.0110,  ..., -0.0905, -0.1120, -0.0838]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.6077e-08,
+          8.3223e-06,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.4214e-08,
+          2.1979e-07,  1.6764e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-08,
+          3.1199e-07,  6.5193e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  8.3819e-09,
+          9.0338e-08,  1.3039e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -5.9325e-07,
+         -1.6004e-05,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3842e-07,
+          5.3830e-06,  3.3528e-08]], device='cuda:0')
+Epoch 181, bias, value: tensor([ 0.0011, -0.0189,  0.0014,  0.0311, -0.0025,  0.0294,  0.0049,  0.0192,
+        -0.0024, -0.0132], device='cuda:0'), grad: tensor([ 2.6837e-05, -8.0243e-06,  1.9297e-06,  4.0047e-07, -6.4634e-06,
+         2.9281e-06,  4.2766e-06,  2.0992e-06, -4.3780e-05,  1.9833e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 180, time 214.11, cls_loss 0.0018 cls_loss_mapping 0.0032 cls_loss_causal 0.5222 re_mapping 0.0053 re_causal 0.0163 /// teacc 98.98 lr 0.00010000
+Epoch 182, weight, value: tensor([[-0.0496, -0.0055, -0.0834,  ...,  0.0247, -0.0688, -0.0114],
+        [ 0.0445, -0.0615, -0.0187,  ..., -0.0148, -0.0558, -0.2468],
+        [-0.0043,  0.0347, -0.0061,  ..., -0.0963,  0.1134, -0.0394],
+        ...,
+        [ 0.0129, -0.0335, -0.0136,  ..., -0.0989, -0.1651,  0.0302],
+        [-0.0215, -0.0618, -0.0182,  ..., -0.0869,  0.0519, -0.1516],
+        [-0.1716, -0.0116, -0.0110,  ..., -0.0909, -0.1125, -0.0843]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  1.0245e-08,
+          2.0489e-07,  1.8626e-09],
+        [ 1.4901e-08,  0.0000e+00,  0.0000e+00,  ...,  1.0245e-08,
+          2.9802e-07,  2.0489e-08],
+        [ 4.6566e-09, -9.3132e-10,  0.0000e+00,  ...,  1.6764e-08,
+          3.6322e-08,  4.6566e-09],
+        ...,
+        [ 6.5193e-09,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          1.2536e-06,  8.3819e-09],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  5.3085e-08,
+          2.8592e-07,  1.8626e-09],
+        [ 6.4261e-08,  0.0000e+00,  0.0000e+00,  ...,  1.3039e-08,
+          2.0210e-07,  7.8231e-08]], device='cuda:0')
+Epoch 182, bias, value: tensor([ 0.0010, -0.0191,  0.0015,  0.0311, -0.0024,  0.0293,  0.0054,  0.0193,
+        -0.0023, -0.0134], device='cuda:0'), grad: tensor([ 2.7493e-06,  7.4022e-06,  1.1414e-05, -4.6670e-05, -7.5245e-04,
+         1.9833e-05,  2.2352e-06,  9.1314e-05,  1.1474e-05,  6.5184e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 181, time 214.73, cls_loss 0.0017 cls_loss_mapping 0.0029 cls_loss_causal 0.4966 re_mapping 0.0055 re_causal 0.0162 /// teacc 98.92 lr 0.00010000
+Epoch 183, weight, value: tensor([[-0.0497, -0.0055, -0.0839,  ...,  0.0249, -0.0696, -0.0114],
+        [ 0.0445, -0.0616, -0.0188,  ..., -0.0153, -0.0563, -0.2469],
+        [-0.0050,  0.0347, -0.0061,  ..., -0.0963,  0.1139, -0.0393],
+        ...,
+        [ 0.0137, -0.0335, -0.0147,  ..., -0.0989, -0.1653,  0.0301],
+        [-0.0216, -0.0618, -0.0184,  ..., -0.0877,  0.0523, -0.1518],
+        [-0.1722, -0.0116, -0.0111,  ..., -0.0912, -0.1133, -0.0844]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-08,
+          1.5181e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.1420e-08,
+          2.1420e-08,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.0978e-08,
+          6.1467e-08,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-09,
+          8.3819e-09,  1.3039e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  7.9162e-08,
+          1.4249e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  8.1025e-08,
+         -1.5646e-07,  1.3970e-08]], device='cuda:0')
+Epoch 183, bias, value: tensor([ 0.0005, -0.0192,  0.0017,  0.0312, -0.0023,  0.0288,  0.0060,  0.0194,
+        -0.0022, -0.0137], device='cuda:0'), grad: tensor([ 5.6066e-06, -4.8995e-05,  1.2726e-05,  4.7609e-06,  3.8815e-04,
+         1.6674e-05,  1.9982e-05,  1.0386e-05,  7.7665e-05, -4.8661e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 182, time 214.21, cls_loss 0.0017 cls_loss_mapping 0.0040 cls_loss_causal 0.5260 re_mapping 0.0054 re_causal 0.0172 /// teacc 98.93 lr 0.00010000
+Epoch 184, weight, value: tensor([[-0.0498, -0.0055, -0.0839,  ...,  0.0249, -0.0702, -0.0104],
+        [ 0.0445, -0.0616, -0.0189,  ..., -0.0154, -0.0555, -0.2470],
+        [-0.0050,  0.0349, -0.0062,  ..., -0.0964,  0.1137, -0.0393],
+        ...,
+        [ 0.0137, -0.0336, -0.0147,  ..., -0.0992, -0.1653,  0.0300],
+        [-0.0216, -0.0619, -0.0182,  ..., -0.0878,  0.0526, -0.1519],
+        [-0.1723, -0.0116, -0.0111,  ..., -0.0917, -0.1147, -0.0849]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  8.1025e-08,  0.0000e+00,  ..., -2.4736e-06,
+         -1.1614e-06,  0.0000e+00],
+        [ 0.0000e+00,  1.1502e-07,  0.0000e+00,  ...,  6.1467e-08,
+          3.0920e-07,  4.6566e-10],
+        [ 0.0000e+00, -5.6997e-06,  0.0000e+00,  ...,  3.6601e-07,
+         -8.7023e-06,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  2.6263e-06,  0.0000e+00,  ...,  1.1176e-07,
+          4.0904e-06,  9.3132e-10],
+        [ 0.0000e+00,  1.0850e-07,  0.0000e+00,  ...,  1.5907e-06,
+          5.7295e-06,  4.6566e-10],
+        [ 0.0000e+00,  1.5367e-08,  0.0000e+00,  ...,  1.6019e-07,
+          3.3621e-07,  4.6566e-10]], device='cuda:0')
+Epoch 184, bias, value: tensor([ 0.0004, -0.0184,  0.0012,  0.0321, -0.0021,  0.0289,  0.0059,  0.0193,
+        -0.0023, -0.0140], device='cuda:0'), grad: tensor([-7.1377e-06,  7.4459e-07, -2.8968e-05,  1.8790e-05,  7.7719e-07,
+        -1.3612e-05,  1.5516e-06,  1.3568e-05,  1.3806e-05,  5.0757e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 183, time 214.68, cls_loss 0.0019 cls_loss_mapping 0.0034 cls_loss_causal 0.5428 re_mapping 0.0052 re_causal 0.0168 /// teacc 98.99 lr 0.00010000
+Epoch 185, weight, value: tensor([[-0.0499, -0.0055, -0.0840,  ...,  0.0245, -0.0711, -0.0101],
+        [ 0.0434, -0.0616, -0.0189,  ..., -0.0157, -0.0558, -0.2471],
+        [-0.0056,  0.0352, -0.0063,  ..., -0.0972,  0.1137, -0.0394],
+        ...,
+        [ 0.0141, -0.0338, -0.0148,  ..., -0.0997, -0.1653,  0.0300],
+        [-0.0204, -0.0620, -0.0182,  ..., -0.0899,  0.0522, -0.1520],
+        [-0.1727, -0.0116, -0.0111,  ..., -0.0917, -0.1152, -0.0848]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -4.3446e-07,
+          5.1688e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.9558e-08,
+          3.1991e-07,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.2399e-08,
+          5.1223e-09,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.1176e-08,
+          1.2852e-07,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.6077e-08,
+         -1.5264e-06,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.2154e-07,
+          1.4296e-07,  8.8476e-09]], device='cuda:0')
+Epoch 185, bias, value: tensor([ 5.3367e-05, -1.9743e-02,  9.6193e-04,  3.1588e-02, -2.1789e-03,
+         2.9116e-02,  7.1058e-03,  2.0214e-02, -2.5643e-03, -1.3988e-02],
+       device='cuda:0'), grad: tensor([-3.1153e-07,  3.6247e-06,  5.5647e-07,  8.0839e-06,  3.6135e-07,
+         2.7157e-06,  1.0002e-06,  1.5553e-06, -1.9670e-05,  2.0768e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 184, time 214.42, cls_loss 0.0017 cls_loss_mapping 0.0038 cls_loss_causal 0.5424 re_mapping 0.0055 re_causal 0.0167 /// teacc 98.97 lr 0.00010000
+Epoch 186, weight, value: tensor([[-0.0499, -0.0055, -0.0840,  ...,  0.0250, -0.0714, -0.0102],
+        [ 0.0432, -0.0616, -0.0189,  ..., -0.0156, -0.0559, -0.2473],
+        [-0.0051,  0.0353, -0.0063,  ..., -0.0973,  0.1139, -0.0389],
+        ...,
+        [ 0.0140, -0.0339, -0.0149,  ..., -0.1002, -0.1655,  0.0294],
+        [-0.0206, -0.0621, -0.0183,  ..., -0.0900,  0.0519, -0.1527],
+        [-0.1730, -0.0116, -0.0111,  ..., -0.0919, -0.1147, -0.0850]],
+       device='cuda:0'), grad: tensor([[ 1.3085e-07,  0.0000e+00,  0.0000e+00,  ..., -3.9954e-07,
+          9.3132e-08,  4.5262e-07],
+        [ 1.2293e-07,  0.0000e+00,  0.0000e+00,  ...,  3.5390e-08,
+          5.3830e-07,  4.9360e-07],
+        [ 2.9337e-07,  0.0000e+00,  0.0000e+00,  ...,  2.4680e-08,
+         -6.1877e-06,  4.6939e-07],
+        ...,
+        [ 1.2107e-07,  0.0000e+00,  0.0000e+00,  ...,  1.4901e-08,
+          4.5970e-06,  8.4145e-07],
+        [ 4.3306e-08,  0.0000e+00,  0.0000e+00,  ...,  1.0477e-07,
+          2.4401e-07,  2.2771e-07],
+        [ 3.2131e-08,  0.0000e+00,  0.0000e+00,  ...,  1.0105e-07,
+          7.6834e-08,  4.8289e-07]], device='cuda:0')
+Epoch 186, bias, value: tensor([ 0.0002, -0.0193,  0.0010,  0.0314, -0.0020,  0.0294,  0.0071,  0.0200,
+        -0.0033, -0.0138], device='cuda:0'), grad: tensor([ 5.8394e-07, -2.8964e-06, -2.4050e-05, -1.0297e-05, -1.6555e-05,
+         4.3809e-06,  1.5683e-06,  2.7940e-05,  6.9290e-06,  1.2331e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 185, time 214.33, cls_loss 0.0018 cls_loss_mapping 0.0032 cls_loss_causal 0.5018 re_mapping 0.0056 re_causal 0.0164 /// teacc 98.95 lr 0.00010000
+Epoch 187, weight, value: tensor([[-0.0502, -0.0055, -0.0840,  ...,  0.0254, -0.0717, -0.0073],
+        [ 0.0439, -0.0617, -0.0189,  ..., -0.0161, -0.0563, -0.2475],
+        [-0.0052,  0.0353, -0.0063,  ..., -0.0972,  0.1141, -0.0395],
+        ...,
+        [ 0.0138, -0.0339, -0.0149,  ..., -0.1002, -0.1656,  0.0298],
+        [-0.0206, -0.0622, -0.0183,  ..., -0.0918,  0.0512, -0.1525],
+        [-0.1735, -0.0116, -0.0111,  ..., -0.0919, -0.1152, -0.0854]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -5.8394e-07,
+         -4.2841e-08,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.0245e-08,
+          6.6124e-08,  3.2596e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.9849e-09,
+         -5.8534e-07,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+          7.4971e-08,  3.2596e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.0268e-08,
+         -8.9360e-07,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.5553e-07,
+          1.1874e-06,  1.0757e-07]], device='cuda:0')
+Epoch 187, bias, value: tensor([ 0.0005, -0.0194,  0.0011,  0.0314, -0.0019,  0.0291,  0.0075,  0.0196,
+        -0.0032, -0.0136], device='cuda:0'), grad: tensor([-1.1763e-06,  3.2503e-07, -8.9826e-07,  4.8289e-07,  8.6008e-07,
+         4.0559e-07,  4.9500e-07, -3.3304e-06, -1.2498e-06,  4.0792e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 186, time 214.29, cls_loss 0.0016 cls_loss_mapping 0.0031 cls_loss_causal 0.5159 re_mapping 0.0055 re_causal 0.0167 /// teacc 98.90 lr 0.00010000
+Epoch 188, weight, value: tensor([[-0.0502, -0.0055, -0.0840,  ...,  0.0255, -0.0725, -0.0074],
+        [ 0.0442, -0.0617, -0.0189,  ..., -0.0165, -0.0573, -0.2477],
+        [-0.0052,  0.0354, -0.0063,  ..., -0.0977,  0.1148, -0.0394],
+        ...,
+        [ 0.0137, -0.0339, -0.0149,  ..., -0.1013, -0.1657,  0.0299],
+        [-0.0206, -0.0622, -0.0183,  ..., -0.0914,  0.0519, -0.1525],
+        [-0.1738, -0.0116, -0.0111,  ..., -0.0931, -0.1163, -0.0855]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -5.3160e-06,
+         -3.6061e-06,  1.3039e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3877e-07,
+          2.3982e-07,  4.9826e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  7.1572e-07,
+          1.1353e-06,  2.4214e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.8429e-08,
+          1.0710e-07,  5.4017e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.1609e-06,
+          3.1352e-05,  9.6392e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.9281e-06,
+          2.8200e-06, -7.4506e-09]], device='cuda:0')
+Epoch 188, bias, value: tensor([ 0.0003, -0.0198,  0.0016,  0.0313, -0.0018,  0.0292,  0.0067,  0.0195,
+        -0.0026, -0.0138], device='cuda:0'), grad: tensor([-1.1230e-04,  2.6762e-05,  5.9828e-06,  2.2560e-05, -6.9916e-05,
+        -4.4316e-05, -1.9357e-05,  8.3596e-06,  9.6500e-05,  8.5652e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 187, time 214.09, cls_loss 0.0020 cls_loss_mapping 0.0033 cls_loss_causal 0.5275 re_mapping 0.0057 re_causal 0.0169 /// teacc 98.85 lr 0.00010000
+Epoch 189, weight, value: tensor([[-0.0503, -0.0056, -0.0840,  ...,  0.0242, -0.0751, -0.0074],
+        [ 0.0442, -0.0617, -0.0189,  ..., -0.0172, -0.0577, -0.2478],
+        [-0.0050,  0.0356, -0.0063,  ..., -0.0982,  0.1149, -0.0389],
+        ...,
+        [ 0.0137, -0.0340, -0.0149,  ..., -0.1017, -0.1658,  0.0306],
+        [-0.0209, -0.0625, -0.0183,  ..., -0.0919,  0.0515, -0.1532],
+        [-0.1739, -0.0120, -0.0111,  ..., -0.0930, -0.1169, -0.0862]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -6.8452e-08,
+          1.8487e-07,  1.5832e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          1.2919e-05,  6.3796e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.1910e-09,
+         -5.1945e-05,  8.0559e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          3.3993e-07,  2.3749e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.0536e-09,
+          3.1805e-07,  1.2573e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  8.8476e-09,
+          6.7055e-08,  4.0978e-08]], device='cuda:0')
+Epoch 189, bias, value: tensor([-0.0016, -0.0199,  0.0016,  0.0322, -0.0012,  0.0294,  0.0069,  0.0197,
+        -0.0031, -0.0144], device='cuda:0'), grad: tensor([ 2.5565e-07,  2.0206e-05, -7.1406e-05, -1.6332e-05,  4.3176e-06,
+         8.3372e-06,  5.3525e-05,  1.9446e-06,  9.3179e-07, -1.6708e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 188, time 214.19, cls_loss 0.0017 cls_loss_mapping 0.0028 cls_loss_causal 0.5340 re_mapping 0.0056 re_causal 0.0171 /// teacc 99.07 lr 0.00010000
+Epoch 190, weight, value: tensor([[-0.0503, -0.0057, -0.0844,  ...,  0.0250, -0.0749, -0.0080],
+        [ 0.0443, -0.0617, -0.0190,  ..., -0.0176, -0.0584, -0.2480],
+        [-0.0050,  0.0356, -0.0070,  ..., -0.0983,  0.1155, -0.0390],
+        ...,
+        [ 0.0136, -0.0339, -0.0161,  ..., -0.1023, -0.1662,  0.0283],
+        [-0.0209, -0.0626, -0.0193,  ..., -0.0920,  0.0514, -0.1533],
+        [-0.1740, -0.0120, -0.0113,  ..., -0.0932, -0.1173, -0.0864]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.7807e-06,
+         -4.8429e-08,  2.3283e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  7.5996e-07,
+         -2.3376e-07,  6.0536e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.1548e-07,
+          6.0769e-07,  3.3993e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  8.3819e-09,
+         -3.9814e-07,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.1781e-07,
+         -5.5227e-07,  5.1223e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.0559e-07,
+          3.1153e-07,  3.2596e-09]], device='cuda:0')
+Epoch 190, bias, value: tensor([-0.0015, -0.0197,  0.0019,  0.0326, -0.0010,  0.0298,  0.0065,  0.0189,
+        -0.0034, -0.0142], device='cuda:0'), grad: tensor([-4.8205e-06,  1.7229e-07,  7.1637e-06, -2.2221e-06,  6.7288e-07,
+         1.6540e-06,  1.1064e-06, -6.5565e-06,  5.8999e-07,  2.2240e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 189, time 214.16, cls_loss 0.0015 cls_loss_mapping 0.0030 cls_loss_causal 0.5309 re_mapping 0.0055 re_causal 0.0172 /// teacc 98.94 lr 0.00010000
+Epoch 191, weight, value: tensor([[-0.0505, -0.0057, -0.0846,  ...,  0.0243, -0.0760, -0.0084],
+        [ 0.0445, -0.0618, -0.0190,  ..., -0.0177, -0.0585, -0.2487],
+        [-0.0050,  0.0355, -0.0073,  ..., -0.0986,  0.1156, -0.0392],
+        ...,
+        [ 0.0136, -0.0335, -0.0165,  ..., -0.1025, -0.1662,  0.0283],
+        [-0.0210, -0.0629, -0.0196,  ..., -0.0920,  0.0516, -0.1534],
+        [-0.1741, -0.0124, -0.0114,  ..., -0.0934, -0.1181, -0.0863]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -7.8697e-08,
+          5.6811e-08,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  8.3819e-09,
+          4.1444e-08,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.1223e-09,
+         -1.4603e-06,  4.1910e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.2596e-09,
+          5.7928e-07,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.9337e-08,
+          7.0548e-07,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.4435e-08,
+          3.0873e-07,  2.4680e-08]], device='cuda:0')
+Epoch 191, bias, value: tensor([-0.0021, -0.0196,  0.0019,  0.0323, -0.0011,  0.0299,  0.0068,  0.0199,
+        -0.0033, -0.0151], device='cuda:0'), grad: tensor([-5.2620e-08, -8.6380e-07, -4.6119e-06,  1.3597e-06,  3.4971e-07,
+        -1.6969e-06,  6.3144e-07,  2.0564e-06,  1.4892e-06,  1.3299e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 190, time 214.21, cls_loss 0.0016 cls_loss_mapping 0.0035 cls_loss_causal 0.5182 re_mapping 0.0051 re_causal 0.0162 /// teacc 99.08 lr 0.00010000
+Epoch 192, weight, value: tensor([[-0.0509, -0.0056, -0.0846,  ...,  0.0255, -0.0758, -0.0084],
+        [ 0.0445, -0.0618, -0.0191,  ..., -0.0176, -0.0587, -0.2489],
+        [-0.0050,  0.0355, -0.0068,  ..., -0.0988,  0.1158, -0.0398],
+        ...,
+        [ 0.0137, -0.0336, -0.0140,  ..., -0.1032, -0.1662,  0.0286],
+        [-0.0210, -0.0630, -0.0195,  ..., -0.0930,  0.0509, -0.1536],
+        [-0.1743, -0.0126, -0.0114,  ..., -0.0939, -0.1194, -0.0865]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  3.4925e-08,
+         -9.4855e-07,  6.3051e-07],
+        [ 0.0000e+00,  0.0000e+00,  2.1420e-08,  ...,  2.0722e-07,
+          1.8161e-07,  2.1048e-07],
+        [ 0.0000e+00,  0.0000e+00, -4.6100e-08,  ...,  8.8476e-08,
+         -5.4250e-07,  4.8382e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  4.0513e-08,
+          2.2259e-07,  2.0210e-07],
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  6.4541e-07,
+          5.8766e-07,  4.1910e-08],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  2.8079e-07,
+          1.6158e-07,  4.4098e-07]], device='cuda:0')
+Epoch 192, bias, value: tensor([-0.0012, -0.0187,  0.0018,  0.0316, -0.0008,  0.0299,  0.0074,  0.0198,
+        -0.0039, -0.0157], device='cuda:0'), grad: tensor([ 1.1697e-06,  1.1493e-06,  3.9376e-06,  1.0170e-06, -1.5609e-06,
+         8.0094e-08, -5.7817e-06, -4.2915e-06,  2.7604e-06,  1.4752e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 191, time 214.45, cls_loss 0.0014 cls_loss_mapping 0.0026 cls_loss_causal 0.4971 re_mapping 0.0050 re_causal 0.0157 /// teacc 98.92 lr 0.00010000
+Epoch 193, weight, value: tensor([[-0.0510, -0.0056, -0.0846,  ...,  0.0255, -0.0758, -0.0086],
+        [ 0.0446, -0.0618, -0.0191,  ..., -0.0175, -0.0586, -0.2491],
+        [-0.0050,  0.0355, -0.0068,  ..., -0.0990,  0.1159, -0.0412],
+        ...,
+        [ 0.0137, -0.0336, -0.0139,  ..., -0.1036, -0.1663,  0.0285],
+        [-0.0210, -0.0630, -0.0195,  ..., -0.0933,  0.0509, -0.1537],
+        [-0.1745, -0.0126, -0.0114,  ..., -0.0929, -0.1199, -0.0868]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.3271e-07,
+         -1.9558e-08,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.1910e-09,
+         -7.1153e-07,  2.3283e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  8.3819e-09,
+          2.6915e-07,  2.7940e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          3.7253e-08,  4.1910e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.7695e-08,
+          1.6950e-07,  6.0536e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-09,
+          9.3598e-08, -4.5169e-08]], device='cuda:0')
+Epoch 193, bias, value: tensor([-0.0019, -0.0180,  0.0017,  0.0315, -0.0007,  0.0301,  0.0072,  0.0197,
+        -0.0041, -0.0157], device='cuda:0'), grad: tensor([-9.4529e-08, -5.2676e-06,  4.8354e-06,  1.8459e-06,  6.4820e-06,
+        -6.5193e-07,  1.7388e-06,  1.2569e-05,  1.1839e-05, -3.3289e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 192, time 214.55, cls_loss 0.0016 cls_loss_mapping 0.0035 cls_loss_causal 0.5178 re_mapping 0.0051 re_causal 0.0162 /// teacc 99.12 lr 0.00010000
+Epoch 194, weight, value: tensor([[-0.0510, -0.0057, -0.0846,  ...,  0.0253, -0.0764, -0.0088],
+        [ 0.0447, -0.0618, -0.0189,  ..., -0.0176, -0.0587, -0.2492],
+        [-0.0051,  0.0355, -0.0068,  ..., -0.0992,  0.1161, -0.0414],
+        ...,
+        [ 0.0137, -0.0336, -0.0139,  ..., -0.1039, -0.1664,  0.0289],
+        [-0.0210, -0.0631, -0.0194,  ..., -0.0936,  0.0509, -0.1536],
+        [-0.1745, -0.0126, -0.0114,  ..., -0.0929, -0.1209, -0.0865]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.6699e-06,
+          5.5879e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.6298e-07,
+          1.1036e-07,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.1036e-07,
+          1.5832e-08,  1.3970e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.9092e-08,
+          7.1246e-08, -1.0710e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.2340e-07,
+         -2.6543e-07,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8720e-07,
+          8.0327e-07,  5.6345e-08]], device='cuda:0')
+Epoch 194, bias, value: tensor([-0.0022, -0.0177,  0.0015,  0.0334, -0.0015,  0.0301,  0.0074,  0.0190,
+        -0.0044, -0.0150], device='cuda:0'), grad: tensor([-5.7369e-06,  2.3078e-06,  4.2357e-06,  1.6138e-05,  8.4285e-07,
+        -3.8743e-06,  3.4887e-06, -2.2978e-05,  5.1223e-07,  5.0366e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 193, time 214.23, cls_loss 0.0024 cls_loss_mapping 0.0040 cls_loss_causal 0.5253 re_mapping 0.0059 re_causal 0.0162 /// teacc 99.01 lr 0.00010000
+Epoch 195, weight, value: tensor([[-0.0512, -0.0057, -0.0847,  ...,  0.0255, -0.0770, -0.0094],
+        [ 0.0446, -0.0619, -0.0189,  ..., -0.0179, -0.0588, -0.2494],
+        [-0.0052,  0.0355, -0.0069,  ..., -0.1008,  0.1168, -0.0408],
+        ...,
+        [ 0.0137, -0.0336, -0.0139,  ..., -0.1044, -0.1667,  0.0304],
+        [-0.0210, -0.0631, -0.0195,  ..., -0.0941,  0.0507, -0.1537],
+        [-0.1750, -0.0126, -0.0115,  ..., -0.0932, -0.1216, -0.0874]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -2.4680e-08,
+          3.6322e-08,  2.3283e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.9849e-09,
+          9.0338e-08,  1.4901e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.6298e-08,
+         -1.1791e-06,  1.2573e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          1.2117e-06,  1.6764e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  7.0781e-08,
+          2.6263e-07,  6.5193e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  7.9162e-09,
+          1.1176e-07,  2.7940e-07]], device='cuda:0')
+Epoch 195, bias, value: tensor([-0.0024, -0.0158,  0.0038,  0.0327, -0.0017,  0.0297,  0.0084,  0.0166,
+        -0.0030, -0.0162], device='cuda:0'), grad: tensor([ 1.0151e-07,  7.6322e-07, -2.5295e-06, -1.2696e-05,  8.5756e-06,
+        -4.2096e-06, -5.3411e-07,  1.0230e-05,  1.0163e-05, -9.8422e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 194, time 214.26, cls_loss 0.0016 cls_loss_mapping 0.0027 cls_loss_causal 0.4979 re_mapping 0.0056 re_causal 0.0163 /// teacc 98.98 lr 0.00010000
+Epoch 196, weight, value: tensor([[-0.0512, -0.0057, -0.0847,  ...,  0.0254, -0.0776, -0.0095],
+        [ 0.0447, -0.0619, -0.0189,  ..., -0.0180, -0.0597, -0.2498],
+        [-0.0053,  0.0355, -0.0070,  ..., -0.1013,  0.1175, -0.0414],
+        ...,
+        [ 0.0137, -0.0336, -0.0140,  ..., -0.1065, -0.1669,  0.0304],
+        [-0.0211, -0.0631, -0.0195,  ..., -0.0943,  0.0505, -0.1538],
+        [-0.1751, -0.0126, -0.0115,  ..., -0.0931, -0.1223, -0.0873]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ..., -5.6438e-06,
+         -1.8859e-07,  3.4459e-08],
+        [ 2.8405e-08,  0.0000e+00,  0.0000e+00,  ...,  1.9139e-07,
+          4.2329e-07,  2.0023e-08],
+        [ 6.2399e-08,  0.0000e+00,  0.0000e+00,  ...,  3.3202e-07,
+         -6.2631e-07,  7.8231e-08],
+        ...,
+        [-1.7136e-07,  0.0000e+00,  0.0000e+00,  ...,  2.2817e-08,
+          2.2817e-07,  9.7789e-09],
+        [ 2.5611e-08,  0.0000e+00,  0.0000e+00,  ...,  1.5311e-06,
+          2.8610e-05,  9.3132e-09],
+        [ 1.3504e-08,  0.0000e+00,  0.0000e+00,  ...,  1.7229e-07,
+          1.5264e-06,  2.7241e-07]], device='cuda:0')
+Epoch 196, bias, value: tensor([-0.0028, -0.0162,  0.0039,  0.0327, -0.0020,  0.0299,  0.0088,  0.0167,
+        -0.0028, -0.0161], device='cuda:0'), grad: tensor([-2.2531e-05,  8.2562e-07,  5.9456e-06, -1.3039e-07,  2.7940e-09,
+        -1.3387e-04,  9.4295e-05, -7.4226e-07,  5.1260e-05,  4.7088e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 195, time 214.49, cls_loss 0.0020 cls_loss_mapping 0.0030 cls_loss_causal 0.5079 re_mapping 0.0052 re_causal 0.0158 /// teacc 99.02 lr 0.00010000
+Epoch 197, weight, value: tensor([[-0.0515, -0.0057, -0.0847,  ...,  0.0260, -0.0773, -0.0097],
+        [ 0.0446, -0.0619, -0.0189,  ..., -0.0183, -0.0566, -0.2505],
+        [-0.0054,  0.0355, -0.0070,  ..., -0.1016,  0.1172, -0.0420],
+        ...,
+        [ 0.0139, -0.0336, -0.0140,  ..., -0.1069, -0.1673,  0.0303],
+        [-0.0212, -0.0631, -0.0195,  ..., -0.0955,  0.0472, -0.1552],
+        [-0.1757, -0.0126, -0.0115,  ..., -0.0935, -0.1230, -0.0870]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.8161e-08,
+          4.1910e-09,  6.5193e-09],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          1.0757e-07,  1.9558e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          1.5274e-07,  1.9558e-08],
+        ...,
+        [-1.3970e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-08,  3.2596e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+         -2.1309e-06,  1.8626e-09],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  4.1910e-09,
+          1.3057e-06,  4.2608e-07]], device='cuda:0')
+Epoch 197, bias, value: tensor([-0.0022, -0.0134,  0.0031,  0.0321, -0.0022,  0.0301,  0.0093,  0.0165,
+        -0.0053, -0.0158], device='cuda:0'), grad: tensor([ 2.8405e-08,  6.5565e-07,  7.3295e-07,  1.5898e-06, -1.8580e-06,
+         2.0256e-07,  4.2329e-07, -1.6652e-06, -6.2101e-06,  6.1020e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 196, time 214.14, cls_loss 0.0017 cls_loss_mapping 0.0033 cls_loss_causal 0.5284 re_mapping 0.0052 re_causal 0.0158 /// teacc 99.00 lr 0.00010000
+Epoch 198, weight, value: tensor([[-0.0518, -0.0057, -0.0848,  ...,  0.0269, -0.0764, -0.0097],
+        [ 0.0446, -0.0619, -0.0189,  ..., -0.0184, -0.0570, -0.2511],
+        [-0.0069,  0.0355, -0.0079,  ..., -0.1020,  0.1178, -0.0423],
+        ...,
+        [ 0.0154, -0.0336, -0.0141,  ..., -0.1076, -0.1674,  0.0298],
+        [-0.0215, -0.0632, -0.0200,  ..., -0.0969,  0.0461, -0.1554],
+        [-0.1764, -0.0126, -0.0116,  ..., -0.0935, -0.1237, -0.0871]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.4296e-07,
+          9.5461e-07,  0.0000e+00],
+        [ 4.1910e-09,  0.0000e+00,  0.0000e+00,  ...,  1.2107e-08,
+          1.9521e-06,  5.1223e-09],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  8.8476e-09,
+          6.8694e-06,  1.3970e-09],
+        ...,
+        [-1.7695e-08,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          4.7311e-06,  9.3132e-09],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  4.7963e-08,
+          2.7999e-05,  2.7940e-09],
+        [ 8.3819e-09,  0.0000e+00,  0.0000e+00,  ...,  2.5146e-08,
+          1.6475e-06,  1.4855e-07]], device='cuda:0')
+Epoch 198, bias, value: tensor([-0.0016, -0.0136,  0.0033,  0.0319, -0.0020,  0.0307,  0.0094,  0.0164,
+        -0.0063, -0.0157], device='cuda:0'), grad: tensor([ 7.3351e-06,  1.5587e-05,  6.6102e-05, -4.1747e-04,  1.6298e-06,
+         4.2975e-05, -7.4506e-08,  3.6418e-05,  2.3377e-04,  1.3731e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 197, time 214.23, cls_loss 0.0013 cls_loss_mapping 0.0022 cls_loss_causal 0.5238 re_mapping 0.0050 re_causal 0.0161 /// teacc 99.06 lr 0.00010000
+Epoch 199, weight, value: tensor([[-0.0521, -0.0057, -0.0851,  ...,  0.0275, -0.0762, -0.0097],
+        [ 0.0437, -0.0619, -0.0190,  ..., -0.0187, -0.0573, -0.2513],
+        [-0.0073,  0.0355, -0.0090,  ..., -0.1024,  0.1182, -0.0425],
+        ...,
+        [ 0.0158, -0.0336, -0.0139,  ..., -0.1084, -0.1676,  0.0298],
+        [-0.0210, -0.0632, -0.0205,  ..., -0.0971,  0.0459, -0.1555],
+        [-0.1786, -0.0126, -0.0117,  ..., -0.0927, -0.1241, -0.0875]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ..., -3.5856e-08,
+          5.2713e-07,  1.8626e-09],
+        [ 3.3993e-08,  0.0000e+00,  0.0000e+00,  ...,  8.3353e-08,
+         -5.1968e-06,  6.5193e-09],
+        [ 6.0536e-09,  0.0000e+00,  0.0000e+00,  ...,  3.8184e-08,
+          6.5602e-06,  2.1420e-08],
+        ...,
+        [-5.4948e-08,  0.0000e+00,  0.0000e+00,  ...,  1.5832e-08,
+          1.3765e-06,  6.0536e-09],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ..., -2.3171e-06,
+         -1.8179e-05,  2.3283e-09],
+        [ 1.8626e-08,  0.0000e+00,  0.0000e+00,  ...,  3.4412e-07,
+          9.1344e-06,  1.7229e-08]], device='cuda:0')
+Epoch 199, bias, value: tensor([-0.0012, -0.0135,  0.0036,  0.0321, -0.0017,  0.0308,  0.0089,  0.0161,
+        -0.0067, -0.0154], device='cuda:0'), grad: tensor([ 1.5311e-06, -5.4538e-05,  4.8608e-05,  3.6787e-06,  1.4231e-06,
+         2.5958e-05, -9.2015e-06, -9.1910e-05, -4.8369e-05,  1.2290e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 198, time 214.39, cls_loss 0.0017 cls_loss_mapping 0.0024 cls_loss_causal 0.5140 re_mapping 0.0051 re_causal 0.0154 /// teacc 99.02 lr 0.00010000
+Epoch 200, weight, value: tensor([[-0.0521, -0.0057, -0.0851,  ...,  0.0261, -0.0767, -0.0097],
+        [ 0.0437, -0.0619, -0.0190,  ..., -0.0191, -0.0574, -0.2514],
+        [-0.0072,  0.0356, -0.0090,  ..., -0.1023,  0.1185, -0.0426],
+        ...,
+        [ 0.0158, -0.0336, -0.0139,  ..., -0.1093, -0.1681,  0.0299],
+        [-0.0210, -0.0632, -0.0206,  ..., -0.0972,  0.0463, -0.1555],
+        [-0.1791, -0.0127, -0.0117,  ..., -0.0904, -0.1253, -0.0877]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -3.5837e-06,
+         -2.1309e-06,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.1176e-08,
+          4.1444e-08,  1.0710e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  8.8476e-09,
+         -5.6345e-08, -2.4214e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          3.1199e-08,  2.8871e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.9558e-08,
+         -1.4249e-07,  9.7789e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.9581e-08,
+          2.1001e-07, -2.5705e-07]], device='cuda:0')
+Epoch 200, bias, value: tensor([-0.0031, -0.0135,  0.0037,  0.0323, -0.0016,  0.0303,  0.0092,  0.0159,
+        -0.0066, -0.0152], device='cuda:0'), grad: tensor([-7.3612e-06,  1.2014e-06,  2.4447e-07,  1.2629e-05,  3.6955e-06,
+        -7.4431e-06,  7.6666e-06,  9.7603e-07,  8.2841e-07, -1.2450e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 199, time 214.33, cls_loss 0.0019 cls_loss_mapping 0.0029 cls_loss_causal 0.5327 re_mapping 0.0053 re_causal 0.0158 /// teacc 98.92 lr 0.00010000
+Epoch 201, weight, value: tensor([[-0.0522, -0.0057, -0.0853,  ...,  0.0266, -0.0767, -0.0098],
+        [ 0.0416, -0.0639, -0.0193,  ..., -0.0193, -0.0575, -0.2526],
+        [-0.0074,  0.0347, -0.0104,  ..., -0.1031,  0.1189, -0.0431],
+        ...,
+        [ 0.0173, -0.0310, -0.0131,  ..., -0.1097, -0.1686,  0.0306],
+        [-0.0210, -0.0640, -0.0212,  ..., -0.0973,  0.0462, -0.1561],
+        [-0.1801, -0.0129, -0.0119,  ..., -0.0905, -0.1258, -0.0863]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.0338e-07,
+          2.5611e-08,  1.3970e-09],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          2.2678e-07,  1.1921e-07],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-09,
+         -2.2240e-06,  7.9162e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          5.0850e-07,  2.6077e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8161e-08,
+          9.5367e-07,  1.4435e-08],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+          1.4901e-08,  1.0263e-06]], device='cuda:0')
+Epoch 201, bias, value: tensor([-0.0025, -0.0137,  0.0038,  0.0317, -0.0025,  0.0300,  0.0085,  0.0162,
+        -0.0065, -0.0142], device='cuda:0'), grad: tensor([ 2.5379e-07, -2.6375e-06,  1.0990e-06,  2.2464e-06, -4.5113e-06,
+         3.0790e-06,  4.8522e-07, -1.0572e-05,  2.9672e-06,  7.5698e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 200, time 214.29, cls_loss 0.0016 cls_loss_mapping 0.0028 cls_loss_causal 0.4973 re_mapping 0.0048 re_causal 0.0151 /// teacc 98.99 lr 0.00010000
+Epoch 202, weight, value: tensor([[-0.0522, -0.0057, -0.0856,  ...,  0.0265, -0.0778, -0.0099],
+        [ 0.0415, -0.0646, -0.0194,  ..., -0.0194, -0.0575, -0.2531],
+        [-0.0073,  0.0345, -0.0131,  ..., -0.1032,  0.1190, -0.0431],
+        ...,
+        [ 0.0173, -0.0303, -0.0103,  ..., -0.1100, -0.1687,  0.0305],
+        [-0.0211, -0.0645, -0.0214,  ..., -0.0976,  0.0462, -0.1564],
+        [-0.1803, -0.0128, -0.0120,  ..., -0.0905, -0.1262, -0.0864]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -5.9977e-06,
+         -2.4736e-06,  4.1910e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.4901e-07,
+          2.0936e-06,  6.3796e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.7136e-07,
+         -2.1517e-05,  1.6298e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.1316e-07,
+          1.4171e-05,  6.5193e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.9525e-06,
+          2.4773e-06,  8.3819e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.9663e-07,
+          5.9977e-07,  6.3004e-07]], device='cuda:0')
+Epoch 202, bias, value: tensor([-0.0029, -0.0137,  0.0034,  0.0317, -0.0022,  0.0296,  0.0086,  0.0168,
+        -0.0066, -0.0144], device='cuda:0'), grad: tensor([-2.5094e-05,  1.0140e-05, -7.2598e-05,  1.3486e-05, -1.0459e-06,
+         1.7062e-06,  4.7311e-06,  3.8832e-05,  2.0131e-05,  9.7454e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 201, time 214.21, cls_loss 0.0018 cls_loss_mapping 0.0044 cls_loss_causal 0.5354 re_mapping 0.0052 re_causal 0.0164 /// teacc 98.98 lr 0.00010000
+Epoch 203, weight, value: tensor([[-0.0525, -0.0058, -0.0865,  ...,  0.0268, -0.0778, -0.0099],
+        [ 0.0436, -0.0646, -0.0197,  ..., -0.0196, -0.0574, -0.2534],
+        [-0.0068,  0.0346, -0.0141,  ..., -0.1031,  0.1190, -0.0436],
+        ...,
+        [ 0.0161, -0.0303, -0.0103,  ..., -0.1110, -0.1689,  0.0322],
+        [-0.0216, -0.0647, -0.0230,  ..., -0.0978,  0.0468, -0.1554],
+        [-0.1821, -0.0127, -0.0125,  ..., -0.0906, -0.1266, -0.0862]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  2.2352e-08,  ..., -5.5879e-09,
+          7.3481e-07,  2.4214e-08],
+        [ 3.7253e-09,  0.0000e+00,  8.6613e-08,  ...,  2.7940e-09,
+         -7.7579e-07,  1.0617e-07],
+        [ 6.5193e-09,  0.0000e+00,  5.4948e-08,  ...,  3.7253e-09,
+         -1.7239e-06,  3.1665e-08],
+        ...,
+        [ 9.3132e-10,  0.0000e+00, -1.4249e-06,  ...,  0.0000e+00,
+          2.1234e-07, -1.2051e-06],
+        [ 4.6566e-09,  0.0000e+00,  3.0734e-08,  ...,  4.6566e-09,
+          1.1036e-06,  2.9802e-08],
+        [ 9.3132e-09,  0.0000e+00,  8.8755e-07,  ...,  3.7253e-09,
+          1.8906e-07,  7.8045e-07]], device='cuda:0')
+Epoch 203, bias, value: tensor([-0.0025, -0.0132,  0.0031,  0.0308, -0.0027,  0.0303,  0.0079,  0.0169,
+        -0.0065, -0.0140], device='cuda:0'), grad: tensor([ 1.6103e-06, -2.3153e-06, -2.9895e-07,  1.0375e-06,  3.6471e-06,
+         1.9297e-06,  1.5646e-07, -1.4707e-05,  2.8126e-06,  6.0722e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 202, time 214.48, cls_loss 0.0019 cls_loss_mapping 0.0033 cls_loss_causal 0.5163 re_mapping 0.0053 re_causal 0.0159 /// teacc 99.07 lr 0.00010000
+Epoch 204, weight, value: tensor([[-0.0533, -0.0063, -0.0866,  ...,  0.0246, -0.0781, -0.0101],
+        [ 0.0400, -0.0647, -0.0198,  ..., -0.0220, -0.0587, -0.2568],
+        [-0.0075,  0.0351, -0.0142,  ..., -0.1037,  0.1197, -0.0412],
+        ...,
+        [ 0.0186, -0.0304, -0.0105,  ..., -0.1122, -0.1691,  0.0322],
+        [-0.0238, -0.0651, -0.0230,  ..., -0.0980,  0.0468, -0.1562],
+        [-0.1862, -0.0127, -0.0129,  ..., -0.0878, -0.1265, -0.0857]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ..., -5.5879e-09,
+          1.0245e-08,  9.3132e-10],
+        [-1.9558e-08,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          1.3039e-08,  5.5879e-09],
+        [-6.2399e-08,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          4.1816e-07,  4.6566e-09],
+        ...,
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -6.1002e-07,  2.7940e-09],
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-08,
+         -6.9849e-08,  0.0000e+00],
+        [ 4.6566e-09,  0.0000e+00,  0.0000e+00,  ...,  6.5193e-09,
+          8.6613e-08,  6.7987e-07]], device='cuda:0')
+Epoch 204, bias, value: tensor([-0.0050, -0.0143,  0.0036,  0.0303, -0.0030,  0.0320,  0.0066,  0.0172,
+        -0.0068, -0.0128], device='cuda:0'), grad: tensor([ 5.7742e-08,  2.2259e-07,  4.0203e-05,  1.1921e-07, -9.8255e-07,
+         1.4622e-07,  9.0338e-08, -4.2737e-05,  1.0915e-06,  1.8431e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 203, time 214.48, cls_loss 0.0018 cls_loss_mapping 0.0024 cls_loss_causal 0.4798 re_mapping 0.0053 re_causal 0.0150 /// teacc 99.09 lr 0.00010000
+Epoch 205, weight, value: tensor([[-0.0536, -0.0082, -0.0872,  ...,  0.0250, -0.0782, -0.0098],
+        [ 0.0400, -0.0648, -0.0198,  ..., -0.0226, -0.0587, -0.2571],
+        [-0.0082,  0.0363, -0.0146,  ..., -0.1041,  0.1198, -0.0416],
+        ...,
+        [ 0.0195, -0.0304, -0.0106,  ..., -0.1125, -0.1694,  0.0326],
+        [-0.0236, -0.0662, -0.0235,  ..., -0.0981,  0.0471, -0.1567],
+        [-0.1898, -0.0156, -0.0130,  ..., -0.0881, -0.1275, -0.0881]],
+       device='cuda:0'), grad: tensor([[ 1.7788e-07,  0.0000e+00,  0.0000e+00,  ..., -1.2107e-08,
+          4.3772e-08,  1.0710e-07],
+        [ 1.9651e-07,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          5.3085e-08,  1.4808e-07],
+        [ 7.7859e-06,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.0291e-06,  4.5076e-06],
+        ...,
+        [-1.6317e-05,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -2.1961e-06, -9.0003e-06],
+        [ 2.0955e-07,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          2.0117e-07,  8.8383e-07],
+        [ 1.2107e-07,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          1.0803e-07, -1.2247e-06]], device='cuda:0')
+Epoch 205, bias, value: tensor([-0.0046, -0.0131,  0.0035,  0.0305, -0.0007,  0.0318,  0.0063,  0.0167,
+        -0.0067, -0.0151], device='cuda:0'), grad: tensor([ 8.0001e-07,  7.1004e-06,  3.5912e-05,  6.0573e-06,  8.4043e-06,
+         2.1860e-05,  7.5065e-07, -8.1062e-05,  9.9987e-06, -9.9763e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 204, time 214.02, cls_loss 0.0018 cls_loss_mapping 0.0030 cls_loss_causal 0.5108 re_mapping 0.0050 re_causal 0.0149 /// teacc 99.03 lr 0.00010000
+Epoch 206, weight, value: tensor([[-0.0545, -0.0084, -0.0872,  ...,  0.0249, -0.0793, -0.0100],
+        [ 0.0407, -0.0648, -0.0198,  ..., -0.0239, -0.0590, -0.2572],
+        [-0.0077,  0.0365, -0.0146,  ..., -0.1021,  0.1202, -0.0418],
+        ...,
+        [ 0.0194, -0.0300, -0.0106,  ..., -0.1130, -0.1699,  0.0327],
+        [-0.0239, -0.0664, -0.0235,  ..., -0.0986,  0.0471, -0.1569],
+        [-0.1913, -0.0171, -0.0130,  ..., -0.0881, -0.1284, -0.0882]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  0.0000e+00,  0.0000e+00,  ..., -2.7940e-09,
+          2.1514e-07,  6.1467e-08],
+        [-1.1083e-07,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          2.2817e-07,  4.5635e-08],
+        [ 1.6764e-08,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+         -1.3513e-06,  9.8720e-08],
+        ...,
+        [ 1.0245e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          3.5763e-07,  5.7742e-08],
+        [ 3.7253e-08,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          4.6380e-07,  7.9162e-08],
+        [ 5.5879e-09,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          4.0978e-08,  5.4725e-06]], device='cuda:0')
+Epoch 206, bias, value: tensor([-0.0047, -0.0132,  0.0040,  0.0300, -0.0007,  0.0323,  0.0062,  0.0167,
+        -0.0069, -0.0153], device='cuda:0'), grad: tensor([ 5.5879e-07, -1.0431e-07, -8.8848e-07, -6.8471e-06, -1.0327e-05,
+        -3.6322e-08,  7.9349e-07,  3.1125e-06,  3.8818e-06,  9.8050e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 205, time 214.35, cls_loss 0.0013 cls_loss_mapping 0.0017 cls_loss_causal 0.4974 re_mapping 0.0049 re_causal 0.0156 /// teacc 99.10 lr 0.00010000
+Epoch 207, weight, value: tensor([[-0.0566, -0.0084, -0.0874,  ...,  0.0250, -0.0796, -0.0101],
+        [ 0.0412, -0.0648, -0.0200,  ..., -0.0242, -0.0591, -0.2573],
+        [-0.0081,  0.0366, -0.0147,  ..., -0.1022,  0.1202, -0.0420],
+        ...,
+        [ 0.0192, -0.0299, -0.0106,  ..., -0.1131, -0.1699,  0.0331],
+        [-0.0237, -0.0665, -0.0233,  ..., -0.0987,  0.0469, -0.1565],
+        [-0.1935, -0.0175, -0.0131,  ..., -0.0882, -0.1288, -0.0882]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.3132e-06,
+          1.7695e-08, -1.4016e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-08,
+          2.0489e-08,  2.3283e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.6811e-08,
+         -2.7940e-09,  1.7229e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.0245e-08,
+          2.7940e-09,  9.3132e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.7497e-08,
+         -6.4261e-08,  1.2945e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.8348e-07,
+          2.8871e-08,  3.5856e-07]], device='cuda:0')
+Epoch 207, bias, value: tensor([-0.0048, -0.0134,  0.0034,  0.0305, -0.0005,  0.0327,  0.0053,  0.0174,
+        -0.0072, -0.0154], device='cuda:0'), grad: tensor([-9.8497e-06,  2.0072e-05,  3.8184e-06,  2.1365e-06,  1.4920e-06,
+         4.1537e-07,  1.1595e-06, -2.4557e-05,  6.4448e-07,  4.6268e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 206, time 214.18, cls_loss 0.0017 cls_loss_mapping 0.0034 cls_loss_causal 0.5093 re_mapping 0.0050 re_causal 0.0150 /// teacc 98.99 lr 0.00010000
+Epoch 208, weight, value: tensor([[-0.0569, -0.0086, -0.0874,  ...,  0.0248, -0.0806, -0.0101],
+        [ 0.0417, -0.0649, -0.0200,  ..., -0.0266, -0.0598, -0.2590],
+        [-0.0082,  0.0370, -0.0148,  ..., -0.1022,  0.1206, -0.0403],
+        ...,
+        [ 0.0192, -0.0301, -0.0107,  ..., -0.1144, -0.1700,  0.0331],
+        [-0.0238, -0.0666, -0.0233,  ..., -0.0978,  0.0489, -0.1567],
+        [-0.1940, -0.0175, -0.0131,  ..., -0.0882, -0.1293, -0.0883]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.2107e-08,
+          2.9802e-08,  1.8626e-09],
+        [-9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          9.3132e-09,  9.4995e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.0245e-08,
+          5.2154e-08,  5.5879e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-09,  1.1176e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.0245e-08,
+         -1.7136e-07,  8.3819e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          1.4156e-07,  3.3714e-07]], device='cuda:0')
+Epoch 208, bias, value: tensor([-0.0052, -0.0142,  0.0038,  0.0305, -0.0009,  0.0317,  0.0059,  0.0173,
+        -0.0062, -0.0149], device='cuda:0'), grad: tensor([ 1.4529e-07, -1.8897e-06,  6.6217e-07, -1.9539e-06, -7.7672e-07,
+        -9.1270e-07,  3.6880e-07,  4.4145e-07,  2.1979e-06,  1.7174e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 207, time 214.49, cls_loss 0.0017 cls_loss_mapping 0.0036 cls_loss_causal 0.4927 re_mapping 0.0051 re_causal 0.0159 /// teacc 98.86 lr 0.00010000
+Epoch 209, weight, value: tensor([[-0.0570, -0.0087, -0.0875,  ...,  0.0249, -0.0820, -0.0103],
+        [ 0.0421, -0.0650, -0.0203,  ..., -0.0268, -0.0597, -0.2591],
+        [-0.0083,  0.0378, -0.0150,  ..., -0.1025,  0.1207, -0.0403],
+        ...,
+        [ 0.0191, -0.0305, -0.0108,  ..., -0.1146, -0.1699,  0.0328],
+        [-0.0241, -0.0663, -0.0227,  ..., -0.0983,  0.0485, -0.1573],
+        [-0.1943, -0.0181, -0.0132,  ..., -0.0885, -0.1302, -0.0880]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -2.3283e-07,
+          6.9849e-08,  2.4214e-08],
+        [-0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.4214e-08,
+          1.1176e-07,  2.9150e-07],
+        [ 0.0000e+00, -1.8626e-09,  0.0000e+00,  ...,  1.6764e-08,
+          4.9639e-07,  6.5193e-08],
+        ...,
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  4.6566e-09,
+          2.8964e-07,  1.2387e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.2596e-08,
+          1.1034e-05,  5.9884e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.8184e-08,
+          1.5367e-07,  7.8976e-07]], device='cuda:0')
+Epoch 209, bias, value: tensor([-0.0057, -0.0139,  0.0037,  0.0300, -0.0012,  0.0331,  0.0066,  0.0171,
+        -0.0069, -0.0147], device='cuda:0'), grad: tensor([-2.9989e-07,  3.0011e-05,  2.9523e-06, -9.2936e-04, -6.2734e-06,
+         8.6784e-04,  2.0377e-06, -2.9996e-05,  6.7651e-05, -3.8520e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 208, time 214.07, cls_loss 0.0013 cls_loss_mapping 0.0026 cls_loss_causal 0.5079 re_mapping 0.0052 re_causal 0.0158 /// teacc 99.01 lr 0.00010000
+Epoch 210, weight, value: tensor([[-0.0571, -0.0088, -0.0875,  ...,  0.0249, -0.0824, -0.0109],
+        [ 0.0423, -0.0650, -0.0203,  ..., -0.0269, -0.0608, -0.2596],
+        [-0.0082,  0.0381, -0.0150,  ..., -0.1028,  0.1210, -0.0393],
+        ...,
+        [ 0.0191, -0.0307, -0.0108,  ..., -0.1149, -0.1700,  0.0327],
+        [-0.0243, -0.0665, -0.0228,  ..., -0.0985,  0.0495, -0.1579],
+        [-0.1945, -0.0182, -0.0132,  ..., -0.0886, -0.1308, -0.0889]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  0.0000e+00,  0.0000e+00,  ..., -8.8476e-08,
+          3.7253e-09,  2.6077e-08],
+        [-1.0151e-07,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+         -4.1910e-08,  1.5087e-07],
+        [ 1.7695e-08,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-09,
+         -2.1048e-07,  4.0978e-08],
+        ...,
+        [ 5.5879e-09,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          1.3039e-07,  4.4517e-07],
+        [ 1.3970e-08,  0.0000e+00,  0.0000e+00,  ...,  1.7695e-08,
+          5.0291e-08,  1.5460e-07],
+        [ 1.2107e-08,  0.0000e+00,  0.0000e+00,  ...,  5.5879e-09,
+          1.3039e-08,  2.4792e-06]], device='cuda:0')
+Epoch 210, bias, value: tensor([-0.0058, -0.0145,  0.0038,  0.0306, -0.0007,  0.0326,  0.0066,  0.0170,
+        -0.0062, -0.0152], device='cuda:0'), grad: tensor([-1.1083e-07, -6.9197e-07,  1.7788e-07, -7.1712e-08, -8.9332e-06,
+         4.2375e-07,  4.9546e-07,  1.7565e-06,  9.1270e-07,  6.0722e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 209, time 214.60, cls_loss 0.0016 cls_loss_mapping 0.0028 cls_loss_causal 0.5093 re_mapping 0.0047 re_causal 0.0149 /// teacc 99.00 lr 0.00010000
+Epoch 211, weight, value: tensor([[-0.0576, -0.0088, -0.0875,  ...,  0.0248, -0.0830, -0.0110],
+        [ 0.0424, -0.0650, -0.0203,  ..., -0.0271, -0.0609, -0.2600],
+        [-0.0079,  0.0383, -0.0150,  ..., -0.1029,  0.1212, -0.0397],
+        ...,
+        [ 0.0193, -0.0308, -0.0108,  ..., -0.1152, -0.1702,  0.0337],
+        [-0.0243, -0.0666, -0.0228,  ..., -0.0988,  0.0494, -0.1583],
+        [-0.1955, -0.0182, -0.0132,  ..., -0.0887, -0.1316, -0.0895]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.2107e-08,  0.0000e+00,  ..., -1.3765e-06,
+          3.2596e-08,  2.7940e-09],
+        [ 0.0000e+00,  1.4901e-08,  0.0000e+00,  ...,  5.7742e-08,
+          5.5879e-08,  3.7253e-08],
+        [ 0.0000e+00, -5.1316e-07,  0.0000e+00,  ...,  3.0454e-07,
+         -3.2663e-05, -5.8264e-06],
+        ...,
+        [ 0.0000e+00,  3.4273e-07,  0.0000e+00,  ...,  1.6764e-08,
+          3.2127e-05,  5.8711e-06],
+        [ 0.0000e+00,  2.8871e-08,  0.0000e+00,  ...,  1.3225e-07,
+          5.9605e-08,  6.5193e-09],
+        [ 0.0000e+00,  3.7253e-09,  0.0000e+00,  ...,  5.7276e-07,
+          1.5832e-08,  9.8720e-08]], device='cuda:0')
+Epoch 211, bias, value: tensor([-0.0062, -0.0146,  0.0039,  0.0303, -0.0001,  0.0329,  0.0068,  0.0176,
+        -0.0063, -0.0160], device='cuda:0'), grad: tensor([-1.1280e-05,  4.5039e-06, -1.2827e-04,  1.8775e-06,  7.2643e-07,
+         4.1444e-07,  1.2824e-06,  1.2136e-04,  2.4959e-06,  7.0147e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 210, time 214.22, cls_loss 0.0018 cls_loss_mapping 0.0036 cls_loss_causal 0.5147 re_mapping 0.0051 re_causal 0.0156 /// teacc 98.84 lr 0.00010000
+Epoch 212, weight, value: tensor([[-0.0580, -0.0078, -0.0875,  ...,  0.0259, -0.0826, -0.0111],
+        [ 0.0430, -0.0654, -0.0203,  ..., -0.0288, -0.0610, -0.2601],
+        [-0.0079,  0.0387, -0.0150,  ..., -0.1031,  0.1241, -0.0399],
+        ...,
+        [ 0.0192, -0.0309, -0.0108,  ..., -0.1158, -0.1705,  0.0351],
+        [-0.0246, -0.0669, -0.0228,  ..., -0.0990,  0.0469, -0.1559],
+        [-0.1959, -0.0183, -0.0132,  ..., -0.0890, -0.1322, -0.0895]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09,  0.0000e+00,  0.0000e+00,  ..., -9.3132e-10,
+          1.0431e-07,  3.7253e-09],
+        [ 1.8813e-07,  0.0000e+00,  0.0000e+00,  ..., -0.0000e+00,
+         -7.0967e-06,  1.0245e-08],
+        [ 1.4901e-07,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          6.3051e-07, -2.5146e-08],
+        ...,
+        [ 9.3132e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          3.4645e-07,  1.3039e-08],
+        [ 4.6566e-08,  0.0000e+00,  0.0000e+00,  ...,  1.1176e-08,
+          6.0350e-07,  2.7940e-09],
+        [ 6.5193e-09,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          9.5926e-08,  1.2107e-08]], device='cuda:0')
+Epoch 212, bias, value: tensor([-0.0053, -0.0156,  0.0065,  0.0301, -0.0008,  0.0330,  0.0059,  0.0191,
+        -0.0087, -0.0160], device='cuda:0'), grad: tensor([ 9.2573e-07, -8.2552e-05,  7.5623e-06, -2.2631e-07,  1.6272e-05,
+         1.1893e-06,  5.8144e-05,  7.4804e-05,  6.3814e-06, -8.2374e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 211, time 214.17, cls_loss 0.0017 cls_loss_mapping 0.0031 cls_loss_causal 0.5163 re_mapping 0.0053 re_causal 0.0153 /// teacc 98.99 lr 0.00010000
+Epoch 213, weight, value: tensor([[-0.0580, -0.0077, -0.0878,  ...,  0.0266, -0.0833, -0.0104],
+        [ 0.0429, -0.0664, -0.0222,  ..., -0.0291, -0.0612, -0.2602],
+        [-0.0075,  0.0392, -0.0161,  ..., -0.1031,  0.1233, -0.0393],
+        ...,
+        [ 0.0191, -0.0313, -0.0111,  ..., -0.1176, -0.1707,  0.0352],
+        [-0.0251, -0.0643, -0.0204,  ..., -0.0989,  0.0479, -0.1570],
+        [-0.1960, -0.0185, -0.0134,  ..., -0.0891, -0.1342, -0.0895]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -5.8673e-08,
+          8.0094e-08,  1.9651e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.5832e-08,
+          6.7614e-07,  2.4121e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.8871e-08,
+         -6.9849e-07,  1.1455e-07],
+        ...,
+        [ 0.0000e+00, -9.3132e-10,  0.0000e+00,  ...,  2.7940e-09,
+          1.1362e-07,  2.9523e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+         -6.3051e-07,  4.5449e-06],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  8.8476e-08,
+          4.0885e-07, -3.3975e-05]], device='cuda:0')
+Epoch 213, bias, value: tensor([-0.0052, -0.0159,  0.0059,  0.0301, -0.0009,  0.0334,  0.0050,  0.0193,
+        -0.0079, -0.0161], device='cuda:0'), grad: tensor([ 1.0310e-06,  2.1346e-06, -4.7125e-07,  1.6242e-06,  1.4949e-04,
+         2.5481e-06,  1.5907e-06,  1.8803e-06,  2.2948e-05, -1.8251e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 212, time 214.40, cls_loss 0.0014 cls_loss_mapping 0.0030 cls_loss_causal 0.4856 re_mapping 0.0051 re_causal 0.0149 /// teacc 98.97 lr 0.00010000
+Epoch 214, weight, value: tensor([[-0.0581, -0.0077, -0.0888,  ...,  0.0261, -0.0844, -0.0104],
+        [ 0.0430, -0.0668, -0.0222,  ..., -0.0294, -0.0620, -0.2603],
+        [-0.0073,  0.0399, -0.0164,  ..., -0.1034,  0.1233, -0.0394],
+        ...,
+        [ 0.0191, -0.0312, -0.0114,  ..., -0.1181, -0.1709,  0.0351],
+        [-0.0251, -0.0649, -0.0208,  ..., -0.1003,  0.0479, -0.1579],
+        [-0.1963, -0.0174, -0.0136,  ..., -0.0891, -0.1354, -0.0896]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -4.7404e-07,
+          5.5879e-09,  0.0000e+00],
+        [-9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  1.8626e-08,
+          2.6077e-08,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.2201e-08,
+          3.2596e-08,  1.8626e-09],
+        ...,
+        [ 9.3132e-10, -5.5879e-09,  0.0000e+00,  ...,  6.5193e-09,
+          2.7940e-09,  1.8626e-09],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  5.8673e-08,
+         -4.3772e-08,  9.3132e-10],
+        [ 0.0000e+00, -9.3132e-10,  0.0000e+00,  ...,  2.2072e-07,
+          2.2352e-08,  1.4901e-08]], device='cuda:0')
+Epoch 214, bias, value: tensor([-0.0056, -0.0161,  0.0059,  0.0304, -0.0010,  0.0333,  0.0061,  0.0193,
+        -0.0078, -0.0162], device='cuda:0'), grad: tensor([-1.5646e-06,  4.7311e-07,  8.0094e-07, -9.7416e-07,  5.4017e-08,
+         9.6858e-08, -7.6368e-08, -2.0899e-06,  9.9000e-07,  2.2724e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 213, time 214.19, cls_loss 0.0012 cls_loss_mapping 0.0026 cls_loss_causal 0.4950 re_mapping 0.0049 re_causal 0.0152 /// teacc 99.03 lr 0.00010000
+Epoch 215, weight, value: tensor([[-0.0582, -0.0098, -0.0889,  ...,  0.0267, -0.0853, -0.0104],
+        [ 0.0443, -0.0670, -0.0222,  ..., -0.0295, -0.0620, -0.2604],
+        [-0.0073,  0.0442, -0.0154,  ..., -0.1040,  0.1233, -0.0393],
+        ...,
+        [ 0.0190, -0.0335, -0.0116,  ..., -0.1216, -0.1711,  0.0351],
+        [-0.0264, -0.0658, -0.0208,  ..., -0.0996,  0.0480, -0.1583],
+        [-0.1967, -0.0169, -0.0136,  ..., -0.0892, -0.1363, -0.0896]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -2.7940e-08,
+          5.8673e-08,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  3.0734e-08,
+          9.1270e-08,  9.3132e-10],
+        [ 9.3132e-10, -9.3132e-10,  0.0000e+00,  ...,  2.7940e-08,
+          1.7695e-08,  9.3132e-10],
+        ...,
+        [ 1.8626e-09,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+          5.3085e-08,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.0210e-07,
+          1.8813e-07,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  3.2596e-08,
+          9.6858e-08,  0.0000e+00]], device='cuda:0')
+Epoch 215, bias, value: tensor([-0.0053, -0.0160,  0.0059,  0.0302, -0.0013,  0.0331,  0.0062,  0.0193,
+        -0.0078, -0.0161], device='cuda:0'), grad: tensor([ 4.6566e-09,  9.5740e-07,  1.6019e-07,  7.1712e-08,  2.1279e-05,
+         2.0266e-06, -3.0212e-06, -2.2113e-05,  3.4552e-07,  3.3993e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 214, time 214.37, cls_loss 0.0016 cls_loss_mapping 0.0036 cls_loss_causal 0.5251 re_mapping 0.0053 re_causal 0.0154 /// teacc 99.01 lr 0.00010000
+Epoch 216, weight, value: tensor([[-0.0583, -0.0099, -0.0907,  ...,  0.0252, -0.0883, -0.0103],
+        [ 0.0443, -0.0671, -0.0222,  ..., -0.0297, -0.0619, -0.2605],
+        [-0.0073,  0.0457, -0.0176,  ..., -0.1017,  0.1234, -0.0394],
+        ...,
+        [ 0.0189, -0.0348, -0.0122,  ..., -0.1224, -0.1717,  0.0346],
+        [-0.0265, -0.0660, -0.0228,  ..., -0.0998,  0.0481, -0.1584],
+        [-0.1970, -0.0170, -0.0137,  ..., -0.0893, -0.1391, -0.0898]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.0489e-08,
+          2.3283e-08,  1.6764e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.6077e-08,
+          1.4901e-08,  1.2666e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.0862e-07,
+          0.0000e+00,  7.0781e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8533e-07,
+          7.0781e-08,  1.4938e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.0803e-07,
+         -9.8720e-08,  9.1270e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-08,
+          1.0710e-07,  3.9525e-06]], device='cuda:0')
+Epoch 216, bias, value: tensor([-0.0078, -0.0158,  0.0059,  0.0320, -0.0014,  0.0331,  0.0063,  0.0190,
+        -0.0075, -0.0164], device='cuda:0'), grad: tensor([ 2.9895e-07,  9.8906e-07,  2.5537e-06, -6.0238e-06, -3.3587e-05,
+         1.2107e-06,  1.9092e-07,  1.0699e-05,  1.2536e-06,  2.2441e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 215, time 214.60, cls_loss 0.0014 cls_loss_mapping 0.0028 cls_loss_causal 0.5039 re_mapping 0.0051 re_causal 0.0150 /// teacc 98.96 lr 0.00010000
+Epoch 217, weight, value: tensor([[-0.0585, -0.0099, -0.0908,  ...,  0.0258, -0.0884, -0.0103],
+        [ 0.0440, -0.0672, -0.0223,  ..., -0.0310, -0.0622, -0.2607],
+        [-0.0070,  0.0471, -0.0177,  ..., -0.1019,  0.1235, -0.0396],
+        ...,
+        [ 0.0188, -0.0360, -0.0124,  ..., -0.1233, -0.1723,  0.0344],
+        [-0.0258, -0.0663, -0.0229,  ..., -0.0992,  0.0482, -0.1587],
+        [-0.1972, -0.0170, -0.0137,  ..., -0.0894, -0.1408, -0.0899]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -0.0000e+00,  0.0000e+00,  ..., -5.1223e-08,
+          1.0990e-07,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-08,
+          7.0874e-07,  1.1362e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.0151e-07,
+         -5.6624e-07, -1.5553e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          2.1886e-07,  1.3970e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.0536e-08,
+          9.6019e-07,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.0489e-08,
+          2.5872e-06, -6.5193e-09]], device='cuda:0')
+Epoch 217, bias, value: tensor([-0.0073, -0.0158,  0.0058,  0.0320, -0.0013,  0.0330,  0.0055,  0.0191,
+        -0.0074, -0.0166], device='cuda:0'), grad: tensor([ 2.5984e-07, -1.1581e-04, -1.4435e-07,  3.1203e-05,  7.2867e-06,
+        -3.6895e-05, -6.2473e-06,  1.0562e-04,  3.1963e-06,  1.1712e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 216, time 214.17, cls_loss 0.0016 cls_loss_mapping 0.0023 cls_loss_causal 0.4589 re_mapping 0.0050 re_causal 0.0138 /// teacc 98.91 lr 0.00010000
+Epoch 218, weight, value: tensor([[-0.0588, -0.0130, -0.0909,  ...,  0.0263, -0.0887, -0.0101],
+        [ 0.0441, -0.0674, -0.0224,  ..., -0.0314, -0.0621, -0.2614],
+        [-0.0071,  0.0504, -0.0177,  ..., -0.1005,  0.1235, -0.0399],
+        ...,
+        [ 0.0187, -0.0380, -0.0125,  ..., -0.1266, -0.1728,  0.0337],
+        [-0.0256, -0.0668, -0.0229,  ..., -0.0997,  0.0483, -0.1565],
+        [-0.1975, -0.0175, -0.0138,  ..., -0.0896, -0.1427, -0.0899]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.7008e-08,  0.0000e+00,  ..., -5.4948e-08,
+          2.7101e-07,  1.2107e-08],
+        [ 0.0000e+00,  1.1176e-08,  0.0000e+00,  ...,  1.1176e-08,
+          3.7905e-07,  3.7253e-08],
+        [ 0.0000e+00, -4.2934e-07,  0.0000e+00,  ...,  1.4901e-08,
+         -2.8927e-06,  6.6124e-08],
+        ...,
+        [ 0.0000e+00,  3.1851e-07,  0.0000e+00,  ...,  9.3132e-10,
+          2.7008e-06,  8.9407e-08],
+        [ 0.0000e+00,  4.8429e-08,  0.0000e+00,  ...,  8.1025e-08,
+         -4.9800e-05,  8.4750e-08],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  5.4948e-08,
+          3.5405e-05,  3.4757e-06]], device='cuda:0')
+Epoch 218, bias, value: tensor([-0.0070, -0.0155,  0.0056,  0.0325, -0.0011,  0.0329,  0.0054,  0.0190,
+        -0.0075, -0.0165], device='cuda:0'), grad: tensor([ 5.2899e-07,  6.8452e-07, -6.1318e-06,  2.4214e-06, -1.1556e-05,
+         1.9997e-05,  8.5607e-06,  6.3144e-06, -1.0818e-04,  8.7321e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 217, time 214.40, cls_loss 0.0015 cls_loss_mapping 0.0031 cls_loss_causal 0.5078 re_mapping 0.0047 re_causal 0.0145 /// teacc 98.96 lr 0.00010000
+Epoch 219, weight, value: tensor([[-0.0591, -0.0131, -0.0912,  ...,  0.0266, -0.0894, -0.0102],
+        [ 0.0436, -0.0678, -0.0224,  ..., -0.0317, -0.0629, -0.2639],
+        [-0.0072,  0.0508, -0.0180,  ..., -0.1010,  0.1237, -0.0377],
+        ...,
+        [ 0.0189, -0.0370, -0.0136,  ..., -0.1269, -0.1734,  0.0339],
+        [-0.0246, -0.0688, -0.0233,  ..., -0.1001,  0.0484, -0.1566],
+        [-0.1982, -0.0176, -0.0138,  ..., -0.0900, -0.1444, -0.0902]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.8312e-07,  0.0000e+00,  ..., -5.5879e-09,
+          8.3819e-09,  9.3132e-10],
+        [ 0.0000e+00,  6.0536e-08,  0.0000e+00,  ...,  3.7253e-09,
+          3.5390e-08,  1.0245e-08],
+        [ 0.0000e+00,  3.5297e-07,  0.0000e+00,  ...,  4.6566e-09,
+         -7.8231e-08,  8.3819e-09],
+        ...,
+        [ 0.0000e+00, -1.6652e-06,  0.0000e+00,  ...,  9.3132e-10,
+          2.4214e-08,  1.5832e-08],
+        [ 0.0000e+00,  1.5087e-07,  0.0000e+00,  ..., -1.5832e-08,
+         -3.0920e-07,  1.3970e-08],
+        [ 0.0000e+00,  4.0606e-07,  0.0000e+00,  ...,  3.7253e-09,
+          1.1176e-08,  9.0338e-08]], device='cuda:0')
+Epoch 219, bias, value: tensor([-0.0068, -0.0156,  0.0056,  0.0324, -0.0009,  0.0325,  0.0057,  0.0188,
+        -0.0073, -0.0169], device='cuda:0'), grad: tensor([ 5.1185e-06, -2.8554e-06,  6.5416e-06,  3.2894e-06,  4.9733e-07,
+         3.6620e-06,  4.3493e-07, -2.6584e-05,  2.1458e-06,  7.7188e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 218, time 214.44, cls_loss 0.0017 cls_loss_mapping 0.0029 cls_loss_causal 0.4754 re_mapping 0.0050 re_causal 0.0145 /// teacc 99.00 lr 0.00010000
+Epoch 220, weight, value: tensor([[-0.0596, -0.0131, -0.0915,  ...,  0.0268, -0.0899, -0.0100],
+        [ 0.0439, -0.0672, -0.0215,  ..., -0.0318, -0.0626, -0.2639],
+        [-0.0068,  0.0509, -0.0184,  ..., -0.1013,  0.1251, -0.0378],
+        ...,
+        [ 0.0188, -0.0364, -0.0144,  ..., -0.1258, -0.1764,  0.0338],
+        [-0.0246, -0.0697, -0.0239,  ..., -0.0996,  0.0485, -0.1567],
+        [-0.1995, -0.0178, -0.0139,  ..., -0.0902, -0.1475, -0.0903]],
+       device='cuda:0'), grad: tensor([[ 1.0245e-07,  0.0000e+00,  0.0000e+00,  ..., -1.8701e-06,
+         -2.0675e-07,  0.0000e+00],
+        [ 7.6368e-08,  0.0000e+00,  0.0000e+00,  ...,  4.0326e-07,
+          2.7008e-08,  1.8626e-09],
+        [ 1.3784e-07,  0.0000e+00,  0.0000e+00,  ...,  4.0792e-07,
+          2.8871e-08,  9.3132e-10],
+        ...,
+        [-4.7963e-07,  0.0000e+00,  0.0000e+00,  ...,  2.0489e-08,
+          2.0489e-08,  1.8626e-09],
+        [ 4.4703e-08,  0.0000e+00,  0.0000e+00,  ...,  2.9057e-07,
+          2.9337e-07,  2.8871e-08],
+        [ 4.7497e-08,  0.0000e+00,  0.0000e+00,  ...,  4.0885e-07,
+          5.0571e-07, -1.5106e-06]], device='cuda:0')
+Epoch 220, bias, value: tensor([-0.0069, -0.0137,  0.0069,  0.0321, -0.0008,  0.0327,  0.0052,  0.0164,
+        -0.0073, -0.0184], device='cuda:0'), grad: tensor([-5.7518e-06,  2.6748e-06,  3.4999e-06,  1.1157e-06,  1.5840e-05,
+        -3.7812e-06,  3.3937e-06, -6.4783e-06,  2.4736e-06, -1.3039e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 219, time 214.29, cls_loss 0.0015 cls_loss_mapping 0.0025 cls_loss_causal 0.4923 re_mapping 0.0052 re_causal 0.0149 /// teacc 99.00 lr 0.00010000
+Epoch 221, weight, value: tensor([[-0.0598, -0.0131, -0.0915,  ...,  0.0279, -0.0901, -0.0100],
+        [ 0.0431, -0.0683, -0.0217,  ..., -0.0327, -0.0634, -0.2640],
+        [-0.0069,  0.0508, -0.0185,  ..., -0.1018,  0.1252, -0.0378],
+        ...,
+        [ 0.0189, -0.0356, -0.0144,  ..., -0.1249, -0.1764,  0.0337],
+        [-0.0236, -0.0700, -0.0237,  ..., -0.1004,  0.0485, -0.1568],
+        [-0.2000, -0.0183, -0.0139,  ..., -0.0910, -0.1480, -0.0906]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -2.7940e-07,
+          1.0617e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.6019e-07,
+          2.2445e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.6322e-08,
+         -4.6473e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+          1.3597e-07,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8440e-07,
+          3.0454e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.9092e-07,
+          1.1176e-08,  3.7253e-09]], device='cuda:0')
+Epoch 221, bias, value: tensor([-0.0055, -0.0140,  0.0069,  0.0321, -0.0005,  0.0323,  0.0054,  0.0166,
+        -0.0073, -0.0188], device='cuda:0'), grad: tensor([-5.6438e-07,  1.7464e-05,  2.3860e-06,  5.8860e-07,  2.1532e-06,
+         1.1483e-06, -1.1250e-06,  2.0117e-05,  2.3246e-06, -4.4465e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 220, time 214.47, cls_loss 0.0012 cls_loss_mapping 0.0024 cls_loss_causal 0.4978 re_mapping 0.0044 re_causal 0.0143 /// teacc 98.92 lr 0.00010000
+Epoch 222, weight, value: tensor([[-0.0599, -0.0130, -0.0915,  ...,  0.0283, -0.0901, -0.0099],
+        [ 0.0430, -0.0683, -0.0218,  ..., -0.0333, -0.0639, -0.2646],
+        [-0.0069,  0.0508, -0.0185,  ..., -0.1019,  0.1252, -0.0375],
+        ...,
+        [ 0.0190, -0.0354, -0.0144,  ..., -0.1251, -0.1765,  0.0336],
+        [-0.0234, -0.0701, -0.0236,  ..., -0.1035,  0.0483, -0.1568],
+        [-0.2003, -0.0185, -0.0139,  ..., -0.0912, -0.1483, -0.0906]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  1.6764e-07,  0.0000e+00,  ...,  2.5537e-06,
+          3.1628e-06,  0.0000e+00],
+        [-2.1420e-08,  2.7940e-09,  0.0000e+00,  ...,  8.1025e-08,
+          1.0524e-07,  9.3132e-10],
+        [ 9.3132e-09, -4.3772e-07,  0.0000e+00,  ..., -6.5230e-06,
+         -7.9796e-06,  1.8626e-09],
+        ...,
+        [ 2.7940e-09,  1.0151e-07,  0.0000e+00,  ...,  1.5227e-06,
+          1.8841e-06, -1.1176e-08],
+        [ 1.8626e-09,  3.4459e-08,  0.0000e+00,  ...,  1.2238e-06,
+          1.5227e-06,  9.3132e-10],
+        [ 1.8626e-09,  1.3039e-08,  0.0000e+00,  ...,  2.1048e-07,
+          2.6636e-07,  5.5879e-09]], device='cuda:0')
+Epoch 222, bias, value: tensor([-0.0052, -0.0140,  0.0069,  0.0319, -0.0006,  0.0324,  0.0073,  0.0165,
+        -0.0077, -0.0186], device='cuda:0'), grad: tensor([ 8.2925e-06,  3.7588e-06, -1.9133e-05,  3.4980e-06,  2.4319e-05,
+         2.3060e-06, -1.4156e-06,  1.8636e-06,  3.0145e-05, -5.3674e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 221, time 214.52, cls_loss 0.0013 cls_loss_mapping 0.0026 cls_loss_causal 0.5200 re_mapping 0.0047 re_causal 0.0151 /// teacc 98.98 lr 0.00010000
+Epoch 223, weight, value: tensor([[-0.0605, -0.0130, -0.0915,  ...,  0.0292, -0.0898, -0.0103],
+        [ 0.0428, -0.0684, -0.0218,  ..., -0.0354, -0.0640, -0.2648],
+        [-0.0074,  0.0509, -0.0185,  ..., -0.1020,  0.1253, -0.0377],
+        ...,
+        [ 0.0190, -0.0354, -0.0144,  ..., -0.1252, -0.1766,  0.0334],
+        [-0.0234, -0.0701, -0.0236,  ..., -0.1036,  0.0483, -0.1567],
+        [-0.2006, -0.0186, -0.0139,  ..., -0.0914, -0.1487, -0.0907]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -0.0000e+00,  0.0000e+00,  ..., -6.0536e-09,
+          1.1642e-08,  0.0000e+00],
+        [-5.1223e-09,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          8.1025e-08,  1.7695e-08],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-09,
+         -2.4447e-07,  9.3132e-10],
+        ...,
+        [ 5.1223e-09,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          7.8697e-08,  9.3132e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-09,
+          7.9628e-08,  7.4506e-09],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          5.0757e-08,  1.2573e-08]], device='cuda:0')
+Epoch 223, bias, value: tensor([-0.0047, -0.0143,  0.0069,  0.0333,  0.0001,  0.0312,  0.0071,  0.0167,
+        -0.0078, -0.0190], device='cuda:0'), grad: tensor([ 2.5146e-08,  6.3982e-07, -1.9930e-07,  5.8534e-07, -1.9800e-06,
+        -7.7346e-07,  2.7847e-07,  2.3935e-07,  9.2108e-07,  2.8266e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 222, time 214.26, cls_loss 0.0018 cls_loss_mapping 0.0029 cls_loss_causal 0.5053 re_mapping 0.0047 re_causal 0.0137 /// teacc 99.03 lr 0.00010000
+Epoch 224, weight, value: tensor([[-0.0610, -0.0131, -0.0915,  ...,  0.0272, -0.0901, -0.0108],
+        [ 0.0434, -0.0685, -0.0218,  ..., -0.0364, -0.0647, -0.2650],
+        [-0.0090,  0.0510, -0.0185,  ..., -0.1027,  0.1253, -0.0384],
+        ...,
+        [ 0.0187, -0.0353, -0.0144,  ..., -0.1256, -0.1765,  0.0341],
+        [-0.0215, -0.0703, -0.0236,  ..., -0.1046,  0.0483, -0.1565],
+        [-0.2012, -0.0190, -0.0139,  ..., -0.0888, -0.1492, -0.0909]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ..., -1.0245e-08,
+          4.2375e-08,  1.8626e-09],
+        [-2.2352e-08,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          8.5682e-08,  7.2177e-08],
+        [ 1.3504e-08,  0.0000e+00,  0.0000e+00,  ..., -0.0000e+00,
+         -2.7148e-07,  1.3039e-08],
+        ...,
+        [ 6.0536e-09,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          1.1781e-07,  3.2131e-08],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  3.2596e-09,
+          1.5739e-07,  2.6543e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  8.3819e-09,
+          1.5134e-07,  9.8255e-08]], device='cuda:0')
+Epoch 224, bias, value: tensor([-0.0070, -0.0141,  0.0065,  0.0330,  0.0001,  0.0305,  0.0083,  0.0171,
+        -0.0079, -0.0178], device='cuda:0'), grad: tensor([ 3.9209e-07,  5.2759e-07,  7.1302e-06,  3.1609e-06, -5.7593e-06,
+         1.0077e-06,  1.1753e-06, -1.2860e-05,  3.0566e-06,  2.1663e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 223, time 214.69, cls_loss 0.0015 cls_loss_mapping 0.0025 cls_loss_causal 0.5359 re_mapping 0.0045 re_causal 0.0141 /// teacc 98.99 lr 0.00010000
+Epoch 225, weight, value: tensor([[-0.0624, -0.0131, -0.0915,  ...,  0.0272, -0.0904, -0.0110],
+        [ 0.0431, -0.0686, -0.0218,  ..., -0.0380, -0.0653, -0.2652],
+        [-0.0100,  0.0511, -0.0185,  ..., -0.1029,  0.1254, -0.0386],
+        ...,
+        [ 0.0188, -0.0353, -0.0144,  ..., -0.1265, -0.1766,  0.0341],
+        [-0.0210, -0.0703, -0.0236,  ..., -0.1017,  0.0500, -0.1558],
+        [-0.2028, -0.0191, -0.0139,  ..., -0.0888, -0.1499, -0.0910]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -2.3097e-06,
+          2.9337e-08,  0.0000e+00],
+        [ 6.0536e-09,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-08,
+          2.8405e-08,  9.3132e-10],
+        [ 9.3132e-10, -0.0000e+00,  0.0000e+00,  ...,  1.1409e-07,
+         -7.6788e-07,  4.6566e-10],
+        ...,
+        [-1.2107e-08,  0.0000e+00,  0.0000e+00,  ...,  5.5740e-07,
+          1.1781e-07,  2.3283e-09],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  3.3667e-07,
+          1.1595e-07,  2.3283e-09],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  5.5833e-07,
+          1.5832e-08, -1.6391e-07]], device='cuda:0')
+Epoch 225, bias, value: tensor([-0.0070, -0.0142,  0.0064,  0.0331,  0.0001,  0.0295,  0.0054,  0.0172,
+        -0.0062, -0.0179], device='cuda:0'), grad: tensor([-5.3644e-06,  9.5926e-08, -9.0664e-07,  2.1979e-06,  1.5879e-06,
+         6.0583e-07, -2.4633e-07,  1.5376e-06,  1.0617e-06, -5.6205e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 224, time 214.29, cls_loss 0.0014 cls_loss_mapping 0.0033 cls_loss_causal 0.5375 re_mapping 0.0045 re_causal 0.0145 /// teacc 98.94 lr 0.00010000
+Epoch 226, weight, value: tensor([[-0.0627, -0.0131, -0.0915,  ...,  0.0274, -0.0906, -0.0111],
+        [ 0.0429, -0.0686, -0.0218,  ..., -0.0398, -0.0661, -0.2654],
+        [-0.0104,  0.0511, -0.0185,  ..., -0.1068,  0.1249, -0.0386],
+        ...,
+        [ 0.0189, -0.0353, -0.0144,  ..., -0.1271, -0.1767,  0.0341],
+        [-0.0200, -0.0704, -0.0236,  ..., -0.1010,  0.0506, -0.1556],
+        [-0.2036, -0.0190, -0.0139,  ..., -0.0889, -0.1509, -0.0911]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.2247e-06,
+         -2.5192e-07, -2.3935e-07],
+        [-9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  1.0245e-08,
+          8.5682e-08,  2.3283e-09],
+        [ 0.0000e+00, -1.1176e-08,  0.0000e+00,  ...,  1.4575e-07,
+         -5.0254e-06, -1.0710e-08],
+        ...,
+        [ 4.6566e-10,  9.3132e-09,  0.0000e+00,  ...,  6.9849e-09,
+          5.9120e-06,  3.1199e-08],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  2.8545e-07,
+         -1.1809e-06,  5.7276e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.0210e-07,
+          4.8708e-07,  1.1548e-07]], device='cuda:0')
+Epoch 226, bias, value: tensor([-0.0070, -0.0141,  0.0059,  0.0322, -0.0001,  0.0296,  0.0056,  0.0173,
+        -0.0056, -0.0179], device='cuda:0'), grad: tensor([-7.1228e-06,  2.3935e-07, -8.9332e-06,  5.1828e-07,  3.8557e-07,
+        -6.6636e-07,  9.3458e-07,  1.1496e-05, -1.0096e-06,  4.1388e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 225, time 214.32, cls_loss 0.0013 cls_loss_mapping 0.0023 cls_loss_causal 0.5035 re_mapping 0.0047 re_causal 0.0141 /// teacc 99.05 lr 0.00010000
+Epoch 227, weight, value: tensor([[-0.0628, -0.0149, -0.0923,  ...,  0.0274, -0.0910, -0.0112],
+        [ 0.0428, -0.0693, -0.0218,  ..., -0.0421, -0.0668, -0.2654],
+        [-0.0107,  0.0513, -0.0201,  ..., -0.1070,  0.1249, -0.0387],
+        ...,
+        [ 0.0192, -0.0347, -0.0153,  ..., -0.1277, -0.1767,  0.0341],
+        [-0.0200, -0.0710, -0.0245,  ..., -0.1011,  0.0506, -0.1557],
+        [-0.2041, -0.0164, -0.0140,  ..., -0.0886, -0.1518, -0.0911]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ..., -1.5730e-06,
+         -4.9779e-07,  3.0268e-08],
+        [-3.3854e-07,  9.3132e-10,  0.0000e+00,  ..., -8.8708e-07,
+         -5.4808e-07,  1.6624e-07],
+        [ 9.5461e-08,  9.3132e-10,  0.0000e+00,  ...,  1.1511e-06,
+          6.7893e-07,  5.1968e-07],
+        ...,
+        [ 1.0710e-08, -8.8476e-09,  0.0000e+00,  ...,  3.5390e-08,
+          9.7789e-08,  2.8405e-08],
+        [ 2.2817e-08,  9.3132e-10,  0.0000e+00,  ...,  1.5367e-07,
+          3.5763e-07,  1.2945e-07],
+        [ 2.3283e-09,  1.8626e-09,  0.0000e+00,  ...,  1.1921e-07,
+          1.2293e-07,  1.2899e-07]], device='cuda:0')
+Epoch 227, bias, value: tensor([-7.2020e-03, -1.4230e-02,  5.3840e-03,  3.2020e-02, -6.8047e-05,
+         3.1221e-02,  5.3288e-03,  1.7816e-02, -5.6898e-03, -1.7882e-02],
+       device='cuda:0'), grad: tensor([-3.0622e-06, -2.1365e-06,  5.3085e-06, -6.8769e-06,  5.6811e-08,
+         1.2955e-06,  2.5444e-06,  4.5169e-07,  1.5683e-06,  8.5216e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 226, time 214.41, cls_loss 0.0012 cls_loss_mapping 0.0022 cls_loss_causal 0.5043 re_mapping 0.0046 re_causal 0.0146 /// teacc 98.98 lr 0.00010000
+Epoch 228, weight, value: tensor([[-0.0629, -0.0201, -0.0923,  ...,  0.0273, -0.0909, -0.0088],
+        [ 0.0426, -0.0718, -0.0218,  ..., -0.0419, -0.0667, -0.2656],
+        [-0.0110,  0.0547, -0.0201,  ..., -0.1071,  0.1249, -0.0393],
+        ...,
+        [ 0.0192, -0.0373, -0.0153,  ..., -0.1280, -0.1767,  0.0332],
+        [-0.0193, -0.0732, -0.0245,  ..., -0.1012,  0.0507, -0.1558],
+        [-0.2043, -0.0115, -0.0140,  ..., -0.0882, -0.1545, -0.0912]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.0245e-08,  0.0000e+00,  ..., -2.7716e-06,
+         -6.3889e-07,  0.0000e+00],
+        [-9.3132e-10,  6.0536e-09,  0.0000e+00,  ...,  1.2433e-07,
+          4.5635e-08,  9.3132e-10],
+        [ 0.0000e+00,  5.1223e-09,  0.0000e+00,  ...,  3.9116e-07,
+          9.3598e-08,  4.6566e-10],
+        ...,
+        [ 4.6566e-10,  6.3330e-08,  0.0000e+00,  ...,  4.7963e-08,
+          6.3796e-08,  1.8626e-09],
+        [ 0.0000e+00,  1.7695e-08,  0.0000e+00,  ...,  1.1129e-07,
+         -4.4703e-07,  4.6566e-10],
+        [ 0.0000e+00, -1.5832e-07,  0.0000e+00,  ...,  1.2713e-06,
+          5.6904e-07, -1.1176e-08]], device='cuda:0')
+Epoch 228, bias, value: tensor([-7.2335e-03, -1.4186e-02,  5.3442e-03,  2.9328e-02,  1.8841e-05,
+         3.3840e-02,  5.3064e-03,  1.7720e-02, -5.5352e-03, -1.8148e-02],
+       device='cuda:0'), grad: tensor([-7.7337e-06,  5.5647e-07,  1.7490e-06,  3.0966e-07,  3.5554e-05,
+         1.0021e-06,  8.6986e-07,  5.4576e-07, -2.9989e-07, -3.2544e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 227, time 214.25, cls_loss 0.0015 cls_loss_mapping 0.0020 cls_loss_causal 0.5340 re_mapping 0.0045 re_causal 0.0143 /// teacc 99.05 lr 0.00010000
+Epoch 229, weight, value: tensor([[-0.0632, -0.0204, -0.0951,  ...,  0.0273, -0.0911, -0.0091],
+        [ 0.0430, -0.0752, -0.0222,  ..., -0.0421, -0.0669, -0.2658],
+        [-0.0115,  0.0550, -0.0223,  ..., -0.1071,  0.1249, -0.0387],
+        ...,
+        [ 0.0193, -0.0359, -0.0177,  ..., -0.1282, -0.1768,  0.0331],
+        [-0.0193, -0.0741, -0.0274,  ..., -0.1012,  0.0507, -0.1560],
+        [-0.2052, -0.0110, -0.0148,  ..., -0.0882, -0.1551, -0.0917]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.5832e-08,
+         -3.7253e-09,  1.8626e-09],
+        [ 1.3970e-09,  4.6566e-10,  0.0000e+00,  ...,  9.3132e-10,
+          5.1223e-09,  1.3039e-08],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          2.8871e-08,  5.1223e-09],
+        ...,
+        [ 2.7940e-09,  1.3970e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  2.4214e-08],
+        [ 0.0000e+00,  2.7940e-09,  0.0000e+00,  ...,  1.3970e-09,
+         -4.3772e-08,  4.1910e-09],
+        [ 9.3132e-10, -1.2107e-08,  0.0000e+00,  ...,  5.5879e-09,
+          6.0536e-09, -1.1642e-08]], device='cuda:0')
+Epoch 229, bias, value: tensor([-0.0072, -0.0143,  0.0053,  0.0307,  0.0006,  0.0333,  0.0053,  0.0174,
+        -0.0055, -0.0180], device='cuda:0'), grad: tensor([ 1.6764e-08,  4.2059e-06,  1.2055e-05, -9.9186e-07,  8.9966e-07,
+         4.2235e-07,  5.7276e-08, -1.8254e-05,  3.1255e-06, -1.5246e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 228, time 214.35, cls_loss 0.0011 cls_loss_mapping 0.0014 cls_loss_causal 0.5010 re_mapping 0.0045 re_causal 0.0137 /// teacc 99.02 lr 0.00010000
+Epoch 230, weight, value: tensor([[-0.0632, -0.0214, -0.0952,  ...,  0.0274, -0.0913, -0.0082],
+        [ 0.0430, -0.0768, -0.0224,  ..., -0.0418, -0.0671, -0.2662],
+        [-0.0116,  0.0549, -0.0226,  ..., -0.1073,  0.1250, -0.0388],
+        ...,
+        [ 0.0193, -0.0331, -0.0182,  ..., -0.1283, -0.1768,  0.0331],
+        [-0.0194, -0.0756, -0.0278,  ..., -0.1011,  0.0509, -0.1560],
+        [-0.2053, -0.0115, -0.0149,  ..., -0.0883, -0.1559, -0.0919]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -6.5193e-08,  0.0000e+00,  ..., -1.8440e-07,
+          6.3796e-08,  1.3504e-08],
+        [-3.1199e-08,  1.8626e-09,  0.0000e+00,  ...,  7.8231e-08,
+          9.6392e-08,  1.3039e-07],
+        [ 1.8161e-08,  5.5879e-09,  0.0000e+00,  ...,  6.3190e-07,
+          6.8359e-07,  2.9383e-07],
+        ...,
+        [ 6.5193e-09,  4.6566e-10,  0.0000e+00,  ...,  2.0489e-08,
+          3.8184e-08,  6.4727e-08],
+        [ 4.6566e-09,  1.8626e-09,  0.0000e+00,  ...,  1.0338e-07,
+          3.0734e-08,  2.9337e-07],
+        [ 0.0000e+00,  4.2375e-08,  0.0000e+00,  ...,  1.8859e-07,
+          5.3551e-08,  5.8673e-07]], device='cuda:0')
+Epoch 230, bias, value: tensor([-0.0072, -0.0143,  0.0052,  0.0308,  0.0009,  0.0326,  0.0053,  0.0175,
+        -0.0055, -0.0182], device='cuda:0'), grad: tensor([-4.6156e-06,  7.9861e-07,  4.3698e-06,  5.4482e-07,  8.8066e-06,
+         1.3448e-06, -1.9789e-05, -1.6578e-07,  2.2743e-06,  6.3814e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 229, time 214.39, cls_loss 0.0016 cls_loss_mapping 0.0026 cls_loss_causal 0.5202 re_mapping 0.0045 re_causal 0.0140 /// teacc 98.92 lr 0.00010000
+Epoch 231, weight, value: tensor([[-0.0647, -0.0215, -0.0952,  ...,  0.0276, -0.0913, -0.0084],
+        [ 0.0436, -0.0773, -0.0224,  ..., -0.0427, -0.0673, -0.2664],
+        [-0.0111,  0.0568, -0.0226,  ..., -0.1073,  0.1251, -0.0387],
+        ...,
+        [ 0.0189, -0.0342, -0.0182,  ..., -0.1286, -0.1770,  0.0330],
+        [-0.0198, -0.0773, -0.0278,  ..., -0.1012,  0.0509, -0.1562],
+        [-0.2062, -0.0112, -0.0149,  ..., -0.0884, -0.1569, -0.0920]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  1.4435e-08,  0.0000e+00,  ...,  2.2026e-07,
+          2.9523e-07,  2.3283e-09],
+        [-2.0303e-07,  4.1910e-09,  0.0000e+00,  ..., -4.0047e-08,
+          4.5588e-07,  4.6566e-10],
+        [ 4.3306e-08,  1.3970e-09,  0.0000e+00,  ...,  1.4668e-07,
+          1.6391e-06,  0.0000e+00],
+        ...,
+        [ 1.5832e-08, -8.3819e-09,  0.0000e+00,  ...,  2.0489e-08,
+          1.9427e-06,  1.3970e-09],
+        [ 5.6811e-08,  6.9849e-09,  0.0000e+00,  ...,  1.2573e-07,
+         -5.5730e-06,  4.6566e-10],
+        [ 8.8476e-09, -3.5856e-08,  0.0000e+00,  ...,  4.6566e-09,
+          2.0768e-07, -2.7940e-09]], device='cuda:0')
+Epoch 231, bias, value: tensor([-0.0072, -0.0135,  0.0053,  0.0307,  0.0007,  0.0321,  0.0055,  0.0169,
+        -0.0055, -0.0183], device='cuda:0'), grad: tensor([ 9.6671e-07,  1.8198e-06,  5.2229e-06,  3.2410e-06,  1.7891e-06,
+         8.8215e-06, -7.7412e-06,  1.3418e-05, -2.6926e-05, -6.3283e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 230, time 214.17, cls_loss 0.0019 cls_loss_mapping 0.0037 cls_loss_causal 0.5263 re_mapping 0.0047 re_causal 0.0142 /// teacc 98.94 lr 0.00010000
+Epoch 232, weight, value: tensor([[-0.0655, -0.0216, -0.0952,  ...,  0.0255, -0.0945, -0.0087],
+        [ 0.0442, -0.0775, -0.0224,  ..., -0.0440, -0.0699, -0.2666],
+        [-0.0117,  0.0571, -0.0230,  ..., -0.1074,  0.1252, -0.0388],
+        ...,
+        [ 0.0198, -0.0342, -0.0180,  ..., -0.1287, -0.1772,  0.0331],
+        [-0.0201, -0.0779, -0.0279,  ..., -0.1013,  0.0513, -0.1562],
+        [-0.2120, -0.0113, -0.0149,  ..., -0.0884, -0.1581, -0.0920]],
+       device='cuda:0'), grad: tensor([[ 7.3109e-08,  0.0000e+00,  0.0000e+00,  ..., -1.0729e-06,
+         -2.7940e-09,  4.1910e-09],
+        [ 1.2573e-08,  0.0000e+00,  0.0000e+00,  ...,  7.9162e-09,
+          1.7416e-07,  1.3039e-08],
+        [ 8.0559e-08,  0.0000e+00,  0.0000e+00,  ...,  1.0896e-07,
+          2.3186e-05,  4.6566e-09],
+        ...,
+        [ 1.8626e-08,  0.0000e+00,  0.0000e+00,  ...,  5.5879e-09,
+          1.4808e-07,  7.9162e-09],
+        [-2.6682e-07,  0.0000e+00,  0.0000e+00,  ...,  8.5216e-08,
+         -2.5034e-05,  1.1176e-08],
+        [ 3.2596e-09,  0.0000e+00,  0.0000e+00,  ...,  4.9919e-07,
+          5.3504e-07, -6.9384e-08]], device='cuda:0')
+Epoch 232, bias, value: tensor([-0.0087, -0.0126,  0.0052,  0.0306, -0.0009,  0.0311,  0.0068,  0.0159,
+        -0.0051, -0.0176], device='cuda:0'), grad: tensor([-2.7642e-06,  6.9756e-07,  5.6207e-05,  1.3653e-06,  2.1160e-06,
+         8.2515e-07,  1.7267e-06,  5.7276e-07, -5.9485e-05, -1.1930e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 231, time 214.17, cls_loss 0.0011 cls_loss_mapping 0.0021 cls_loss_causal 0.4880 re_mapping 0.0046 re_causal 0.0146 /// teacc 98.98 lr 0.00010000
+Epoch 233, weight, value: tensor([[-0.0660, -0.0216, -0.0952,  ...,  0.0255, -0.0947, -0.0088],
+        [ 0.0447, -0.0780, -0.0225,  ..., -0.0448, -0.0699, -0.2667],
+        [-0.0121,  0.0571, -0.0230,  ..., -0.1076,  0.1252, -0.0389],
+        ...,
+        [ 0.0199, -0.0337, -0.0180,  ..., -0.1294, -0.1772,  0.0331],
+        [-0.0203, -0.0780, -0.0279,  ..., -0.1013,  0.0513, -0.1563],
+        [-0.2134, -0.0117, -0.0151,  ..., -0.0882, -0.1589, -0.0925]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -5.3085e-08,
+          1.2573e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-09,
+          1.9092e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.1910e-09,
+         -9.6392e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.2596e-09,
+          1.0012e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.0536e-09,
+         -3.7299e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.2573e-08,
+          1.6438e-07,  3.2596e-09]], device='cuda:0')
+Epoch 233, bias, value: tensor([-0.0087, -0.0127,  0.0051,  0.0304, -0.0004,  0.0313,  0.0068,  0.0161,
+        -0.0050, -0.0183], device='cuda:0'), grad: tensor([-1.0105e-07,  1.4668e-07, -3.2131e-08,  1.5413e-07,  4.4238e-08,
+         1.8068e-07,  2.0349e-07, -2.1886e-07, -8.7637e-07,  4.8429e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 232, time 214.31, cls_loss 0.0017 cls_loss_mapping 0.0039 cls_loss_causal 0.4971 re_mapping 0.0047 re_causal 0.0143 /// teacc 98.93 lr 0.00010000
+Epoch 234, weight, value: tensor([[-0.0660, -0.0216, -0.0967,  ...,  0.0258, -0.0948, -0.0091],
+        [ 0.0449, -0.0805, -0.0230,  ..., -0.0449, -0.0701, -0.2669],
+        [-0.0124,  0.0572, -0.0243,  ..., -0.1077,  0.1252, -0.0387],
+        ...,
+        [ 0.0199, -0.0329, -0.0182,  ..., -0.1297, -0.1773,  0.0335],
+        [-0.0203, -0.0782, -0.0283,  ..., -0.0999,  0.0529, -0.1565],
+        [-0.2138, -0.0117, -0.0160,  ..., -0.0883, -0.1600, -0.0926]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ..., -9.3132e-10,
+          8.6147e-08,  4.6566e-10],
+        [-9.7789e-09,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          4.0047e-08,  9.7789e-09],
+        [ 5.5879e-09,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+         -2.8824e-07,  2.4680e-08],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.2352e-08,  2.7940e-09],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+          4.7032e-08,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          1.8161e-08,  1.4435e-08]], device='cuda:0')
+Epoch 234, bias, value: tensor([-0.0086, -0.0127,  0.0050,  0.0312, -0.0005,  0.0304,  0.0047,  0.0163,
+        -0.0036, -0.0183], device='cuda:0'), grad: tensor([ 1.8859e-07,  1.7518e-06,  1.3877e-07,  5.4240e-06, -2.0443e-07,
+        -5.2620e-07,  1.1781e-07, -8.9034e-06,  1.6093e-06,  3.7719e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 233, time 214.22, cls_loss 0.0013 cls_loss_mapping 0.0023 cls_loss_causal 0.5276 re_mapping 0.0044 re_causal 0.0140 /// teacc 99.01 lr 0.00010000
+Epoch 235, weight, value: tensor([[-0.0655, -0.0216, -0.0968,  ...,  0.0259, -0.0950, -0.0069],
+        [ 0.0449, -0.0808, -0.0230,  ..., -0.0450, -0.0702, -0.2669],
+        [-0.0122,  0.0572, -0.0243,  ..., -0.1078,  0.1258, -0.0386],
+        ...,
+        [ 0.0207, -0.0327, -0.0182,  ..., -0.1303, -0.1784,  0.0335],
+        [-0.0207, -0.0783, -0.0283,  ..., -0.1004,  0.0527, -0.1566],
+        [-0.2144, -0.0119, -0.0161,  ..., -0.0884, -0.1607, -0.0927]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -7.1246e-08,
+          2.7381e-07,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  2.1420e-08,
+          5.6345e-08,  4.6566e-10],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  4.0047e-08,
+          7.7486e-07,  0.0000e+00],
+        ...,
+        [-1.3970e-09,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-09,
+          2.5611e-08,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ..., -1.3411e-07,
+         -1.0328e-06,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  3.7719e-08,
+          7.5437e-08,  2.3283e-09]], device='cuda:0')
+Epoch 235, bias, value: tensor([-0.0083, -0.0129,  0.0057,  0.0312, -0.0006,  0.0302,  0.0051,  0.0160,
+        -0.0039, -0.0186], device='cuda:0'), grad: tensor([-4.7171e-07,  1.8850e-06,  2.5909e-06, -1.0431e-06, -6.5088e-05,
+         2.0526e-06,  1.3188e-06,  4.0270e-06, -2.5369e-06,  5.7250e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 234, time 214.17, cls_loss 0.0010 cls_loss_mapping 0.0022 cls_loss_causal 0.5052 re_mapping 0.0046 re_causal 0.0146 /// teacc 98.88 lr 0.00010000
+Epoch 236, weight, value: tensor([[-0.0681, -0.0216, -0.0968,  ...,  0.0262, -0.0949, -0.0079],
+        [ 0.0457, -0.0808, -0.0231,  ..., -0.0451, -0.0704, -0.2671],
+        [-0.0138,  0.0572, -0.0244,  ..., -0.1078,  0.1259, -0.0386],
+        ...,
+        [ 0.0217, -0.0327, -0.0183,  ..., -0.1305, -0.1785,  0.0336],
+        [-0.0212, -0.0783, -0.0283,  ..., -0.1006,  0.0527, -0.1567],
+        [-0.2157, -0.0119, -0.0161,  ..., -0.0883, -0.1612, -0.0928]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  0.0000e+00,  0.0000e+00,  ..., -3.7719e-08,
+          8.3819e-09,  0.0000e+00],
+        [-1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  6.9849e-09,
+          4.7963e-08,  0.0000e+00],
+        [-2.3749e-08,  0.0000e+00,  0.0000e+00,  ...,  5.1223e-09,
+         -4.0280e-07,  0.0000e+00],
+        ...,
+        [ 7.4506e-09,  0.0000e+00,  0.0000e+00,  ...,  6.5658e-08,
+          1.9278e-07,  0.0000e+00],
+        [ 8.8476e-09,  0.0000e+00,  0.0000e+00,  ...,  3.4459e-07,
+          1.1176e-08,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ..., -4.7171e-07,
+          1.7229e-08,  0.0000e+00]], device='cuda:0')
+Epoch 236, bias, value: tensor([-0.0081, -0.0130,  0.0057,  0.0314, -0.0002,  0.0302,  0.0050,  0.0160,
+        -0.0040, -0.0190], device='cuda:0'), grad: tensor([ 6.4867e-07,  6.8592e-07, -4.9965e-07,  1.9763e-06, -1.5013e-06,
+         3.1060e-07,  1.3690e-07,  2.4904e-06,  1.0669e-05, -1.4916e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 235, time 214.22, cls_loss 0.0017 cls_loss_mapping 0.0021 cls_loss_causal 0.4881 re_mapping 0.0046 re_causal 0.0134 /// teacc 99.05 lr 0.00010000
+Epoch 237, weight, value: tensor([[-0.0673, -0.0216, -0.0968,  ...,  0.0275, -0.0937, -0.0083],
+        [ 0.0405, -0.0808, -0.0232,  ..., -0.0455, -0.0715, -0.2674],
+        [-0.0131,  0.0572, -0.0245,  ..., -0.1094,  0.1258, -0.0390],
+        ...,
+        [ 0.0238, -0.0327, -0.0184,  ..., -0.1310, -0.1786,  0.0334],
+        [-0.0197, -0.0783, -0.0286,  ..., -0.1006,  0.0527, -0.1561],
+        [-0.2192, -0.0118, -0.0161,  ..., -0.0885, -0.1617, -0.0928]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.3411e-07,
+         -1.1595e-07,  9.3132e-10],
+        [ 4.6566e-09,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          4.7032e-08,  6.0536e-09],
+        [ 2.3283e-09,  0.0000e+00,  0.0000e+00,  ...,  4.1910e-09,
+         -7.3016e-07,  1.8626e-09],
+        ...,
+        [-1.2107e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          7.2177e-08,  6.5193e-09],
+        [ 1.3970e-09,  0.0000e+00,  0.0000e+00,  ...,  4.9360e-08,
+          5.3551e-07,  9.3132e-10],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+          1.1642e-08,  2.0955e-08]], device='cuda:0')
+Epoch 237, bias, value: tensor([-0.0066, -0.0133,  0.0053,  0.0316, -0.0011,  0.0302,  0.0049,  0.0162,
+        -0.0040, -0.0180], device='cuda:0'), grad: tensor([-2.7847e-07, -1.2629e-06, -6.9384e-07,  3.5809e-07,  9.3132e-10,
+        -2.3330e-07,  2.3283e-07,  2.0443e-07,  9.4064e-07,  7.3202e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 236, time 214.27, cls_loss 0.0013 cls_loss_mapping 0.0018 cls_loss_causal 0.4963 re_mapping 0.0045 re_causal 0.0138 /// teacc 99.07 lr 0.00010000
+Epoch 238, weight, value: tensor([[-0.0668, -0.0216, -0.0968,  ...,  0.0283, -0.0937, -0.0085],
+        [ 0.0408, -0.0813, -0.0232,  ..., -0.0460, -0.0709, -0.2676],
+        [-0.0138,  0.0571, -0.0245,  ..., -0.1096,  0.1258, -0.0412],
+        ...,
+        [ 0.0244, -0.0322, -0.0184,  ..., -0.1313, -0.1787,  0.0327],
+        [-0.0198, -0.0783, -0.0286,  ..., -0.1007,  0.0527, -0.1564],
+        [-0.2201, -0.0123, -0.0161,  ..., -0.0893, -0.1630, -0.0929]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.6186e-06,
+         -1.3085e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.7206e-07,
+          3.3211e-06,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.4482e-08,
+         -3.7644e-06, -1.5367e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  7.1246e-08,
+          1.7742e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  7.1479e-07,
+          3.6461e-07,  4.6566e-10],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  1.2387e-07,
+          4.9826e-08,  2.3283e-09]], device='cuda:0')
+Epoch 238, bias, value: tensor([-0.0056, -0.0125,  0.0051,  0.0316, -0.0006,  0.0302,  0.0049,  0.0163,
+        -0.0048, -0.0185], device='cuda:0'), grad: tensor([-5.3048e-06,  1.7002e-05, -5.8971e-06, -6.9803e-07,  1.2359e-06,
+         1.6615e-06, -3.4133e-07, -1.0572e-05,  3.0231e-06, -1.0477e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 237, time 214.24, cls_loss 0.0012 cls_loss_mapping 0.0020 cls_loss_causal 0.5074 re_mapping 0.0044 re_causal 0.0137 /// teacc 98.92 lr 0.00010000
+Epoch 239, weight, value: tensor([[-0.0670, -0.0217, -0.0969,  ...,  0.0292, -0.0934, -0.0097],
+        [ 0.0407, -0.0815, -0.0233,  ..., -0.0462, -0.0711, -0.2678],
+        [-0.0140,  0.0571, -0.0246,  ..., -0.1097,  0.1258, -0.0417],
+        ...,
+        [ 0.0246, -0.0320, -0.0187,  ..., -0.1323, -0.1786,  0.0327],
+        [-0.0197, -0.0783, -0.0289,  ..., -0.1006,  0.0528, -0.1562],
+        [-0.2216, -0.0124, -0.0162,  ..., -0.0895, -0.1650, -0.0935]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ..., -2.4680e-08,
+          6.1933e-08,  0.0000e+00],
+        [ 2.6543e-08,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-09,
+          9.7323e-08,  1.8626e-09],
+        [ 8.8476e-09,  0.0000e+00,  0.0000e+00,  ..., -5.7276e-08,
+         -8.8802e-07,  0.0000e+00],
+        ...,
+        [-8.4285e-08,  0.0000e+00,  0.0000e+00,  ...,  1.3039e-08,
+          3.6089e-07,  0.0000e+00],
+        [ 1.3504e-08,  0.0000e+00,  0.0000e+00,  ...,  1.3504e-08,
+         -1.3411e-06,  0.0000e+00],
+        [ 2.0955e-08,  0.0000e+00,  0.0000e+00,  ...,  2.2817e-08,
+          1.4212e-06,  9.3132e-10]], device='cuda:0')
+Epoch 239, bias, value: tensor([-0.0049, -0.0126,  0.0047,  0.0315,  0.0002,  0.0303,  0.0045,  0.0167,
+        -0.0046, -0.0191], device='cuda:0'), grad: tensor([ 8.8941e-08,  4.1584e-07, -1.0021e-06,  1.0338e-06,  4.5588e-07,
+        -1.3234e-06,  6.7055e-07,  7.0967e-07, -3.0622e-06,  2.0023e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 238, time 214.50, cls_loss 0.0013 cls_loss_mapping 0.0016 cls_loss_causal 0.4912 re_mapping 0.0044 re_causal 0.0136 /// teacc 98.98 lr 0.00010000
+Epoch 240, weight, value: tensor([[-0.0672, -0.0217, -0.0969,  ...,  0.0298, -0.0933, -0.0093],
+        [ 0.0395, -0.0815, -0.0233,  ..., -0.0464, -0.0703, -0.2679],
+        [-0.0124,  0.0571, -0.0246,  ..., -0.1097,  0.1256, -0.0417],
+        ...,
+        [ 0.0247, -0.0320, -0.0187,  ..., -0.1334, -0.1787,  0.0326],
+        [-0.0197, -0.0783, -0.0289,  ..., -0.1007,  0.0529, -0.1562],
+        [-0.2227, -0.0124, -0.0162,  ..., -0.0906, -0.1666, -0.0936]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  0.0000e+00,  0.0000e+00,  ..., -3.8277e-07,
+          1.7313e-06,  4.6566e-10],
+        [ 1.3970e-09,  0.0000e+00,  0.0000e+00,  ...,  4.3400e-07,
+          1.3066e-06,  9.3132e-10],
+        [-1.5832e-08,  0.0000e+00,  0.0000e+00,  ...,  4.4657e-07,
+         -1.9697e-07, -7.4506e-09],
+        ...,
+        [ 6.0536e-09,  0.0000e+00,  0.0000e+00,  ...,  1.0198e-07,
+          4.3446e-07,  5.1223e-09],
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ..., -3.0939e-06,
+         -8.3521e-06,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  8.7218e-07,
+          1.2852e-06,  2.3283e-09]], device='cuda:0')
+Epoch 240, bias, value: tensor([-4.4404e-03, -1.2073e-02,  4.1750e-03,  3.1554e-02,  4.0330e-05,
+         3.0267e-02,  4.5086e-03,  1.6711e-02, -4.4796e-03, -1.9461e-02],
+       device='cuda:0'), grad: tensor([ 2.5928e-06,  3.7104e-06,  2.7791e-06,  3.0249e-06,  1.0552e-06,
+         4.7423e-06,  3.3490e-06, -2.7958e-06, -2.3648e-05,  5.1931e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 239, time 214.48, cls_loss 0.0012 cls_loss_mapping 0.0019 cls_loss_causal 0.4738 re_mapping 0.0044 re_causal 0.0135 /// teacc 99.00 lr 0.00010000
+Epoch 241, weight, value: tensor([[-0.0668, -0.0217, -0.0969,  ...,  0.0301, -0.0934, -0.0093],
+        [ 0.0378, -0.0815, -0.0233,  ..., -0.0441, -0.0706, -0.2681],
+        [-0.0147,  0.0571, -0.0246,  ..., -0.1098,  0.1256, -0.0416],
+        ...,
+        [ 0.0272, -0.0320, -0.0187,  ..., -0.1343, -0.1787,  0.0325],
+        [-0.0172, -0.0783, -0.0289,  ..., -0.1006,  0.0530, -0.1563],
+        [-0.2237, -0.0124, -0.0162,  ..., -0.0910, -0.1675, -0.0936]],
+       device='cuda:0'), grad: tensor([[ 8.8476e-09,  0.0000e+00,  0.0000e+00,  ..., -5.8208e-08,
+         -1.7229e-08,  2.7940e-09],
+        [ 6.7055e-08,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          3.4925e-08,  2.1420e-08],
+        [ 2.9802e-08,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+         -1.7788e-07,  1.8626e-08],
+        ...,
+        [ 4.2375e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          6.0070e-08,  2.0955e-08],
+        [ 1.1176e-08,  0.0000e+00,  0.0000e+00,  ...,  6.9849e-09,
+          1.7695e-08,  3.7253e-09],
+        [ 1.2200e-07,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          3.2596e-09,  4.4703e-08]], device='cuda:0')
+Epoch 241, bias, value: tensor([-0.0043, -0.0119,  0.0038,  0.0317, -0.0008,  0.0302,  0.0042,  0.0170,
+        -0.0044, -0.0187], device='cuda:0'), grad: tensor([-6.7521e-08,  1.4529e-06,  2.2464e-06,  1.1437e-06, -5.3551e-07,
+         5.4482e-08,  3.7486e-07, -5.3607e-06,  1.3364e-07,  5.4995e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 240, time 214.83, cls_loss 0.0018 cls_loss_mapping 0.0024 cls_loss_causal 0.5257 re_mapping 0.0044 re_causal 0.0134 /// teacc 99.00 lr 0.00010000
+Epoch 242, weight, value: tensor([[-0.0672, -0.0217, -0.0969,  ...,  0.0302, -0.0937, -0.0093],
+        [ 0.0379, -0.0815, -0.0233,  ..., -0.0442, -0.0709, -0.2682],
+        [-0.0150,  0.0571, -0.0246,  ..., -0.1099,  0.1257, -0.0419],
+        ...,
+        [ 0.0275, -0.0320, -0.0187,  ..., -0.1342, -0.1788,  0.0322],
+        [-0.0172, -0.0783, -0.0289,  ..., -0.1007,  0.0531, -0.1558],
+        [-0.2256, -0.0124, -0.0163,  ..., -0.0914, -0.1689, -0.0936]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -3.0641e-07,
+          1.7323e-07,  2.7008e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.9802e-08,
+          1.2247e-07,  2.1886e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.8184e-08,
+         -4.0559e-07, -1.4994e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.7229e-08,
+          3.1479e-07,  4.8894e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.0803e-07,
+         -4.9267e-07, -5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.4948e-07,
+         -2.0117e-07,  1.8626e-09]], device='cuda:0')
+Epoch 242, bias, value: tensor([-0.0040, -0.0123,  0.0036,  0.0333, -0.0007,  0.0284,  0.0042,  0.0177,
+        -0.0044, -0.0192], device='cuda:0'), grad: tensor([-5.4622e-07,  2.8033e-07, -6.0583e-07,  5.1558e-06,  5.3970e-07,
+         2.4270e-06, -8.3260e-07,  9.0711e-07, -1.8906e-07, -7.1637e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 241, time 214.65, cls_loss 0.0011 cls_loss_mapping 0.0023 cls_loss_causal 0.5003 re_mapping 0.0043 re_causal 0.0138 /// teacc 99.03 lr 0.00010000
+Epoch 243, weight, value: tensor([[-0.0674, -0.0217, -0.0969,  ...,  0.0307, -0.0941, -0.0095],
+        [ 0.0378, -0.0815, -0.0233,  ..., -0.0449, -0.0710, -0.2687],
+        [-0.0150,  0.0574, -0.0246,  ..., -0.1102,  0.1258, -0.0427],
+        ...,
+        [ 0.0280, -0.0322, -0.0187,  ..., -0.1345, -0.1789,  0.0316],
+        [-0.0173, -0.0785, -0.0289,  ..., -0.1007,  0.0531, -0.1561],
+        [-0.2284, -0.0124, -0.0163,  ..., -0.0914, -0.1696, -0.0937]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.5367e-08,
+          8.8476e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          7.9162e-09,  2.3283e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+         -9.3132e-09,  2.7940e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          1.6298e-08,  2.3283e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ..., -1.1548e-07,
+         -1.4408e-06,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-09,
+          2.8871e-08,  1.7229e-08]], device='cuda:0')
+Epoch 243, bias, value: tensor([-0.0035, -0.0124,  0.0036,  0.0346,  0.0001,  0.0271,  0.0042,  0.0176,
+        -0.0044, -0.0196], device='cuda:0'), grad: tensor([ 1.4994e-07, -4.4294e-06,  3.5875e-06,  2.0750e-06, -2.1607e-07,
+         8.3586e-07,  2.6487e-06, -2.0005e-06, -2.8983e-06,  2.2026e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 242, time 214.88, cls_loss 0.0014 cls_loss_mapping 0.0023 cls_loss_causal 0.4919 re_mapping 0.0045 re_causal 0.0136 /// teacc 99.02 lr 0.00010000
+Epoch 244, weight, value: tensor([[-0.0676, -0.0217, -0.0969,  ...,  0.0308, -0.0942, -0.0096],
+        [ 0.0375, -0.0815, -0.0233,  ..., -0.0450, -0.0711, -0.2688],
+        [-0.0146,  0.0574, -0.0247,  ..., -0.1102,  0.1259, -0.0427],
+        ...,
+        [ 0.0282, -0.0322, -0.0189,  ..., -0.1346, -0.1791,  0.0315],
+        [-0.0174, -0.0786, -0.0289,  ..., -0.1008,  0.0531, -0.1562],
+        [-0.2302, -0.0124, -0.0163,  ..., -0.0915, -0.1704, -0.0939]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -6.9384e-08,
+          9.7789e-09,  1.3970e-09],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  1.2573e-08,
+          9.0804e-08,  2.1420e-08],
+        [ 1.2107e-08,  0.0000e+00,  0.0000e+00,  ...,  2.6077e-07,
+          2.2706e-06,  2.1420e-08],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  4.1910e-09,
+          2.4214e-08,  6.9849e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -2.5239e-07,
+         -2.4755e-06,  4.6566e-09],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  1.3504e-08,
+          1.3504e-08,  2.3283e-08]], device='cuda:0')
+Epoch 244, bias, value: tensor([-0.0035, -0.0127,  0.0034,  0.0344,  0.0005,  0.0272,  0.0042,  0.0176,
+        -0.0040, -0.0195], device='cuda:0'), grad: tensor([-1.7835e-07,  1.0664e-07,  4.2208e-06,  1.2619e-07, -2.4214e-07,
+        -1.2619e-07,  1.2247e-07,  2.4680e-08, -4.2282e-06,  1.9092e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 243, time 214.88, cls_loss 0.0012 cls_loss_mapping 0.0018 cls_loss_causal 0.4654 re_mapping 0.0046 re_causal 0.0140 /// teacc 98.94 lr 0.00010000
+Epoch 245, weight, value: tensor([[-0.0714, -0.0217, -0.0969,  ...,  0.0304, -0.0961, -0.0097],
+        [ 0.0375, -0.0816, -0.0233,  ..., -0.0452, -0.0717, -0.2689],
+        [-0.0147,  0.0589, -0.0247,  ..., -0.1102,  0.1261, -0.0428],
+        ...,
+        [ 0.0288, -0.0337, -0.0189,  ..., -0.1348, -0.1793,  0.0315],
+        [-0.0176, -0.0790, -0.0289,  ..., -0.1008,  0.0534, -0.1562],
+        [-0.2338, -0.0124, -0.0163,  ..., -0.0918, -0.1722, -0.0940]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.0245e-08,
+          5.8208e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          8.3819e-09,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.2573e-08,
+         -4.0047e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-09,
+          2.8871e-07,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3749e-08,
+          9.2201e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          2.7940e-09,  2.7940e-09]], device='cuda:0')
+Epoch 245, bias, value: tensor([-0.0050, -0.0128,  0.0035,  0.0344,  0.0005,  0.0273,  0.0042,  0.0177,
+        -0.0034, -0.0201], device='cuda:0'), grad: tensor([ 1.8347e-07, -4.1723e-06,  8.0559e-08,  3.4040e-07,  3.3062e-07,
+        -1.2573e-08, -1.0664e-07,  3.0231e-06,  2.8405e-07,  5.6811e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 244, time 214.62, cls_loss 0.0014 cls_loss_mapping 0.0026 cls_loss_causal 0.4923 re_mapping 0.0048 re_causal 0.0138 /// teacc 98.97 lr 0.00010000
+Epoch 246, weight, value: tensor([[-0.0716, -0.0217, -0.0970,  ...,  0.0300, -0.0967, -0.0098],
+        [ 0.0375, -0.0816, -0.0250,  ..., -0.0453, -0.0734, -0.2692],
+        [-0.0136,  0.0593, -0.0266,  ..., -0.1104,  0.1265, -0.0421],
+        ...,
+        [ 0.0282, -0.0340, -0.0190,  ..., -0.1350, -0.1795,  0.0306],
+        [-0.0178, -0.0791, -0.0270,  ..., -0.1009,  0.0534, -0.1572],
+        [-0.2341, -0.0124, -0.0167,  ..., -0.0920, -0.1729, -0.0942]],
+       device='cuda:0'), grad: tensor([[6.0536e-09, 0.0000e+00, 0.0000e+00,  ..., 2.2817e-08, 1.7509e-07,
+         2.7940e-09],
+        [9.9186e-08, 0.0000e+00, 0.0000e+00,  ..., 9.7323e-08, 2.3236e-07,
+         4.9360e-08],
+        [9.3132e-09, 0.0000e+00, 0.0000e+00,  ..., 6.2399e-08, 1.7229e-07,
+         4.6566e-09],
+        ...,
+        [1.7509e-07, 0.0000e+00, 0.0000e+00,  ..., 1.2107e-08, 1.3364e-07,
+         8.7079e-08],
+        [1.0710e-08, 0.0000e+00, 0.0000e+00,  ..., 2.6356e-07, 2.5313e-06,
+         5.5879e-09],
+        [8.1025e-08, 0.0000e+00, 0.0000e+00,  ..., 3.4925e-08, 3.7393e-07,
+         4.0047e-08]], device='cuda:0')
+Epoch 246, bias, value: tensor([-0.0051, -0.0131,  0.0038,  0.0343,  0.0012,  0.0273,  0.0043,  0.0177,
+        -0.0036, -0.0199], device='cuda:0'), grad: tensor([ 6.5332e-07,  2.8275e-06,  1.0859e-06,  2.7772e-06, -1.1306e-06,
+        -1.3970e-05,  3.1032e-06, -2.2575e-06,  8.0615e-06, -1.1381e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 245, time 214.82, cls_loss 0.0012 cls_loss_mapping 0.0024 cls_loss_causal 0.4712 re_mapping 0.0047 re_causal 0.0139 /// teacc 98.97 lr 0.00010000
+Epoch 247, weight, value: tensor([[-0.0716, -0.0217, -0.0970,  ...,  0.0310, -0.0960, -0.0095],
+        [ 0.0375, -0.0818, -0.0251,  ..., -0.0454, -0.0736, -0.2695],
+        [-0.0132,  0.0592, -0.0262,  ..., -0.1106,  0.1266, -0.0417],
+        ...,
+        [ 0.0280, -0.0338, -0.0193,  ..., -0.1353, -0.1796,  0.0305],
+        [-0.0179, -0.0794, -0.0270,  ..., -0.1010,  0.0534, -0.1578],
+        [-0.2349, -0.0124, -0.0169,  ..., -0.0932, -0.1754, -0.0943]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.2387e-07,
+          7.4506e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3039e-08,
+          2.7791e-06,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.8836e-07,
+          2.3246e-06, -6.5193e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.2107e-08,
+          1.1083e-07,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.3306e-08,
+         -3.6918e-06,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.0664e-07,
+          4.6706e-07,  0.0000e+00]], device='cuda:0')
+Epoch 247, bias, value: tensor([-0.0038, -0.0132,  0.0038,  0.0342,  0.0011,  0.0274,  0.0043,  0.0178,
+        -0.0038, -0.0203], device='cuda:0'), grad: tensor([-3.4645e-07,  1.2681e-05,  6.5304e-06,  2.0787e-06,  1.0626e-06,
+         7.5763e-07, -5.6811e-06, -4.3362e-05,  2.3350e-05,  2.8424e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 246, time 214.69, cls_loss 0.0017 cls_loss_mapping 0.0021 cls_loss_causal 0.5021 re_mapping 0.0044 re_causal 0.0134 /// teacc 98.97 lr 0.00010000
+Epoch 248, weight, value: tensor([[-0.0718, -0.0217, -0.0970,  ...,  0.0313, -0.0963, -0.0096],
+        [ 0.0376, -0.0818, -0.0252,  ..., -0.0458, -0.0737, -0.2697],
+        [-0.0134,  0.0592, -0.0262,  ..., -0.1108,  0.1267, -0.0407],
+        ...,
+        [ 0.0279, -0.0338, -0.0194,  ..., -0.1355, -0.1799,  0.0297],
+        [-0.0177, -0.0794, -0.0270,  ..., -0.1010,  0.0534, -0.1578],
+        [-0.2355, -0.0124, -0.0169,  ..., -0.0930, -0.1764, -0.0949]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  7.6834e-08,
+          1.0943e-07,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7008e-08,
+          7.6368e-08,  1.5832e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.9558e-08,
+         -1.5879e-07, -8.6147e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          4.1444e-08,  2.3283e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.5681e-07,
+          5.8301e-07,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.9849e-09,
+          1.0571e-07,  9.2853e-07]], device='cuda:0')
+Epoch 248, bias, value: tensor([-0.0036, -0.0152,  0.0029,  0.0341,  0.0017,  0.0275,  0.0042,  0.0205,
+        -0.0041, -0.0211], device='cuda:0'), grad: tensor([ 3.3062e-07, -7.4226e-07, -4.6566e-08,  1.5721e-06, -2.0713e-06,
+        -1.1455e-06, -2.7288e-06,  1.4305e-06,  1.5832e-06,  1.8179e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 247, time 214.73, cls_loss 0.0011 cls_loss_mapping 0.0019 cls_loss_causal 0.4905 re_mapping 0.0041 re_causal 0.0133 /// teacc 98.99 lr 0.00010000
+Epoch 249, weight, value: tensor([[-0.0718, -0.0217, -0.0970,  ...,  0.0317, -0.0963, -0.0078],
+        [ 0.0376, -0.0819, -0.0252,  ..., -0.0460, -0.0743, -0.2709],
+        [-0.0103,  0.0609, -0.0262,  ..., -0.1106,  0.1274, -0.0401],
+        ...,
+        [ 0.0248, -0.0356, -0.0194,  ..., -0.1372, -0.1811,  0.0297],
+        [-0.0177, -0.0796, -0.0270,  ..., -0.1011,  0.0533, -0.1581],
+        [-0.2356, -0.0123, -0.0169,  ..., -0.0931, -0.1771, -0.0957]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ..., -1.9558e-08,
+          1.3970e-09,  1.8626e-09],
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  9.3132e-10,
+          2.7940e-09,  4.6566e-09],
+        [-1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  4.1910e-09,
+         -7.9162e-09,  9.3132e-10],
+        ...,
+        [-4.6566e-10,  9.3132e-10,  0.0000e+00,  ...,  4.6566e-10,
+          5.5879e-09,  1.1176e-08],
+        [ 4.6566e-10,  9.3132e-10,  0.0000e+00,  ...,  8.8476e-09,
+          1.5367e-08,  5.5879e-09],
+        [ 0.0000e+00, -4.6566e-09,  0.0000e+00,  ...,  1.3970e-09,
+          1.3970e-09, -6.0070e-08]], device='cuda:0')
+Epoch 249, bias, value: tensor([-0.0032, -0.0152,  0.0038,  0.0341,  0.0020,  0.0275,  0.0042,  0.0200,
+        -0.0042, -0.0213], device='cuda:0'), grad: tensor([-7.4506e-09, -1.2226e-05,  4.0121e-06,  4.3167e-07,  5.2853e-07,
+         6.8452e-08,  1.8626e-08,  7.6964e-06,  1.9418e-07, -7.3062e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 248, time 214.44, cls_loss 0.0011 cls_loss_mapping 0.0016 cls_loss_causal 0.4999 re_mapping 0.0045 re_causal 0.0138 /// teacc 98.94 lr 0.00010000
+Epoch 250, weight, value: tensor([[-0.0722, -0.0217, -0.0970,  ...,  0.0317, -0.0964, -0.0079],
+        [ 0.0376, -0.0819, -0.0252,  ..., -0.0460, -0.0745, -0.2719],
+        [-0.0103,  0.0609, -0.0262,  ..., -0.1106,  0.1276, -0.0396],
+        ...,
+        [ 0.0249, -0.0356, -0.0194,  ..., -0.1382, -0.1812,  0.0296],
+        [-0.0177, -0.0797, -0.0271,  ..., -0.1012,  0.0533, -0.1584],
+        [-0.2364, -0.0122, -0.0170,  ..., -0.0928, -0.1779, -0.0957]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+          8.3819e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          5.6205e-07,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          4.8429e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.1886e-08,  6.0536e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.9849e-09,
+         -7.1200e-07,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          1.1176e-08, -6.5193e-09]], device='cuda:0')
+Epoch 250, bias, value: tensor([-0.0034, -0.0150,  0.0038,  0.0341,  0.0017,  0.0276,  0.0041,  0.0199,
+        -0.0043, -0.0210], device='cuda:0'), grad: tensor([ 5.8208e-08,  7.3649e-06,  8.2282e-07,  3.0641e-07,  3.7812e-07,
+         8.3819e-09,  1.9418e-07, -5.6103e-06, -2.0172e-06, -1.4827e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 249, time 214.49, cls_loss 0.0011 cls_loss_mapping 0.0018 cls_loss_causal 0.5072 re_mapping 0.0043 re_causal 0.0136 /// teacc 98.99 lr 0.00010000
+Epoch 251, weight, value: tensor([[-0.0724, -0.0217, -0.0970,  ...,  0.0313, -0.0969, -0.0080],
+        [ 0.0374, -0.0819, -0.0252,  ..., -0.0465, -0.0750, -0.2720],
+        [-0.0103,  0.0609, -0.0263,  ..., -0.1105,  0.1276, -0.0396],
+        ...,
+        [ 0.0249, -0.0356, -0.0194,  ..., -0.1402, -0.1813,  0.0296],
+        [-0.0174, -0.0797, -0.0271,  ..., -0.1013,  0.0533, -0.1585],
+        [-0.2366, -0.0122, -0.0170,  ..., -0.0927, -0.1788, -0.0959]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.3970e-09,  0.0000e+00,  ...,  7.9162e-09,
+          1.5367e-08,  0.0000e+00],
+        [ 0.0000e+00,  7.9162e-09,  0.0000e+00,  ...,  4.6566e-10,
+          4.6566e-09,  2.3283e-09],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  1.3970e-09,
+         -7.7300e-08, -9.3132e-10],
+        ...,
+        [ 0.0000e+00,  1.0896e-07,  0.0000e+00,  ...,  0.0000e+00,
+          2.0023e-08,  1.3970e-09],
+        [ 0.0000e+00,  1.2573e-08,  0.0000e+00,  ...,  1.8161e-08,
+          2.3749e-08,  1.8626e-09],
+        [ 0.0000e+00, -1.7090e-07,  0.0000e+00,  ...,  9.3132e-10,
+          1.3970e-09,  1.1176e-08]], device='cuda:0')
+Epoch 251, bias, value: tensor([-0.0036, -0.0152,  0.0036,  0.0340,  0.0019,  0.0277,  0.0043,  0.0199,
+        -0.0042, -0.0209], device='cuda:0'), grad: tensor([ 1.1222e-07,  1.4491e-06,  1.4529e-05, -1.2247e-07,  5.3504e-07,
+         1.6345e-07, -3.3062e-08, -1.6257e-05,  2.0284e-06, -2.4065e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 250, time 214.41, cls_loss 0.0019 cls_loss_mapping 0.0031 cls_loss_causal 0.5016 re_mapping 0.0046 re_causal 0.0134 /// teacc 98.99 lr 0.00010000
+Epoch 252, weight, value: tensor([[-0.0726, -0.0218, -0.0972,  ...,  0.0314, -0.0976, -0.0077],
+        [ 0.0371, -0.0826, -0.0259,  ..., -0.0474, -0.0783, -0.2751],
+        [-0.0104,  0.0612, -0.0293,  ..., -0.1091,  0.1279, -0.0398],
+        ...,
+        [ 0.0252, -0.0355, -0.0166,  ..., -0.1418, -0.1815,  0.0313],
+        [-0.0175, -0.0798, -0.0275,  ..., -0.1015,  0.0563, -0.1556],
+        [-0.2370, -0.0123, -0.0174,  ..., -0.0927, -0.1798, -0.0970]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -5.2061e-07,
+         -1.1874e-07,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  2.9337e-08,
+          1.9558e-08,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.1665e-08,
+         -9.1502e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  7.4506e-09,
+          9.1689e-07,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.3958e-07,
+          3.0082e-07,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  1.9139e-07,
+          9.4064e-08,  3.2596e-09]], device='cuda:0')
+Epoch 252, bias, value: tensor([-0.0039, -0.0182,  0.0042,  0.0339,  0.0023,  0.0278,  0.0036,  0.0198,
+        -0.0011, -0.0210], device='cuda:0'), grad: tensor([-1.6941e-06, -3.2317e-07, -1.5125e-06,  1.9092e-08,  9.3132e-09,
+        -8.4471e-07,  4.6706e-07,  1.7844e-06,  1.4445e-06,  6.5332e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 251, time 214.18, cls_loss 0.0017 cls_loss_mapping 0.0028 cls_loss_causal 0.5023 re_mapping 0.0047 re_causal 0.0140 /// teacc 98.99 lr 0.00010000
+Epoch 253, weight, value: tensor([[-0.0727, -0.0218, -0.0973,  ...,  0.0298, -0.1003, -0.0073],
+        [ 0.0372, -0.0828, -0.0261,  ..., -0.0496, -0.0784, -0.2754],
+        [-0.0103,  0.0620, -0.0294,  ..., -0.1095,  0.1281, -0.0396],
+        ...,
+        [ 0.0251, -0.0362, -0.0165,  ..., -0.1422, -0.1820,  0.0308],
+        [-0.0180, -0.0802, -0.0275,  ..., -0.1017,  0.0563, -0.1556],
+        [-0.2372, -0.0122, -0.0177,  ..., -0.0929, -0.1810, -0.0964]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  0.0000e+00,  1.3970e-09,  ..., -5.5879e-09,
+          6.1002e-08,  0.0000e+00],
+        [-1.8999e-07,  0.0000e+00,  3.7253e-09,  ...,  1.3970e-09,
+          1.1642e-08,  0.0000e+00],
+        [ 2.0489e-08,  0.0000e+00,  1.2806e-07,  ...,  8.8476e-09,
+          7.0781e-08, -4.1910e-09],
+        ...,
+        [ 1.8626e-08,  0.0000e+00,  2.4680e-08,  ...,  4.6566e-10,
+          1.3970e-09,  0.0000e+00],
+        [ 6.7055e-08,  0.0000e+00,  2.9756e-07,  ...,  2.6543e-08,
+         -3.1479e-07,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  4.6566e-10,  ...,  2.3283e-09,
+          2.5146e-08, -1.3970e-09]], device='cuda:0')
+Epoch 253, bias, value: tensor([-0.0066, -0.0183,  0.0046,  0.0339,  0.0025,  0.0281,  0.0041,  0.0192,
+        -0.0011, -0.0195], device='cuda:0'), grad: tensor([ 2.1141e-07, -3.8091e-06,  1.3076e-06, -1.5507e-06,  1.4938e-06,
+         3.6834e-07,  5.3272e-07, -9.6858e-07,  2.2072e-06,  1.9232e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 252, time 214.23, cls_loss 0.0013 cls_loss_mapping 0.0015 cls_loss_causal 0.4952 re_mapping 0.0043 re_causal 0.0132 /// teacc 99.04 lr 0.00010000
+Epoch 254, weight, value: tensor([[-0.0728, -0.0218, -0.0974,  ...,  0.0304, -0.1000, -0.0064],
+        [ 0.0377, -0.0828, -0.0261,  ..., -0.0507, -0.0784, -0.2754],
+        [-0.0103,  0.0620, -0.0294,  ..., -0.1122,  0.1272, -0.0394],
+        ...,
+        [ 0.0251, -0.0362, -0.0165,  ..., -0.1425, -0.1821,  0.0308],
+        [-0.0181, -0.0802, -0.0279,  ..., -0.1019,  0.0563, -0.1557],
+        [-0.2377, -0.0122, -0.0178,  ..., -0.0935, -0.1814, -0.0966]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.6345e-07,
+          4.4703e-08,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  8.3819e-09,
+          1.7416e-07,  4.6566e-10],
+        [-1.0710e-08,  0.0000e+00,  0.0000e+00,  ...,  8.3819e-09,
+         -1.6093e-06,  0.0000e+00],
+        ...,
+        [ 9.3132e-09,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+          8.0327e-07,  4.6566e-10],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  4.2375e-08,
+          1.3271e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.7695e-08,
+          3.7253e-08, -8.3819e-09]], device='cuda:0')
+Epoch 254, bias, value: tensor([-0.0057, -0.0183,  0.0037,  0.0339,  0.0018,  0.0280,  0.0061,  0.0191,
+        -0.0011, -0.0196], device='cuda:0'), grad: tensor([ 1.5367e-08, -6.5342e-06, -2.9914e-06,  6.5472e-07,  1.1623e-06,
+         5.9651e-07,  5.8673e-07, -1.0468e-06,  3.1460e-06,  4.4145e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 253, time 214.32, cls_loss 0.0015 cls_loss_mapping 0.0025 cls_loss_causal 0.4795 re_mapping 0.0043 re_causal 0.0129 /// teacc 99.03 lr 0.00010000
+Epoch 255, weight, value: tensor([[-0.0728, -0.0221, -0.0975,  ...,  0.0308, -0.1002, -0.0065],
+        [ 0.0378, -0.0828, -0.0262,  ..., -0.0508, -0.0784, -0.2757],
+        [-0.0103,  0.0639, -0.0295,  ..., -0.1123,  0.1274, -0.0384],
+        ...,
+        [ 0.0251, -0.0375, -0.0166,  ..., -0.1432, -0.1824,  0.0305],
+        [-0.0182, -0.0812, -0.0281,  ..., -0.1020,  0.0563, -0.1558],
+        [-0.2379, -0.0129, -0.0178,  ..., -0.0939, -0.1824, -0.0966]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  8.3819e-09,
+          4.4703e-08,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.9116e-08,  ...,  3.7253e-09,
+          1.3830e-07,  7.9162e-09],
+        [-3.7253e-09, -7.9162e-09,  8.9873e-08,  ...,  6.0536e-09,
+         -5.8021e-07,  7.9162e-09],
+        ...,
+        [ 2.7940e-09,  5.5879e-09,  2.6077e-08,  ...,  0.0000e+00,
+          1.1735e-07, -2.3283e-09],
+        [ 0.0000e+00,  4.6566e-10, -3.1060e-07,  ...,  3.4459e-08,
+         -3.0594e-07,  6.5193e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  1.3970e-09,
+          1.8161e-08, -4.6566e-09]], device='cuda:0')
+Epoch 255, bias, value: tensor([-0.0055, -0.0180,  0.0035,  0.0349,  0.0011,  0.0271,  0.0061,  0.0188,
+        -0.0011, -0.0197], device='cuda:0'), grad: tensor([ 1.3039e-07, -3.5390e-08, -8.6147e-07,  2.2128e-06,  5.0291e-08,
+        -1.0505e-06, -1.3039e-08,  2.3982e-07, -6.5658e-07, -2.7008e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 254, time 214.47, cls_loss 0.0011 cls_loss_mapping 0.0022 cls_loss_causal 0.5109 re_mapping 0.0044 re_causal 0.0137 /// teacc 99.07 lr 0.00010000
+Epoch 256, weight, value: tensor([[-0.0728, -0.0221, -0.0975,  ...,  0.0309, -0.1004, -0.0067],
+        [ 0.0382, -0.0829, -0.0263,  ..., -0.0504, -0.0784, -0.2758],
+        [-0.0103,  0.0641, -0.0296,  ..., -0.1122,  0.1277, -0.0384],
+        ...,
+        [ 0.0250, -0.0376, -0.0166,  ..., -0.1436, -0.1828,  0.0303],
+        [-0.0183, -0.0814, -0.0280,  ..., -0.1023,  0.0563, -0.1559],
+        [-0.2380, -0.0129, -0.0179,  ..., -0.0939, -0.1833, -0.0972]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  8.3819e-08,
+          8.8476e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.1223e-09,
+          1.5367e-08,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.5193e-09,
+         -4.9360e-08,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          5.3085e-08,  3.2596e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.1828e-07,
+          1.9465e-07,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.0617e-07,
+          2.3283e-09,  1.8626e-08]], device='cuda:0')
+Epoch 256, bias, value: tensor([-0.0053, -0.0177,  0.0036,  0.0350,  0.0008,  0.0271,  0.0061,  0.0184,
+        -0.0012, -0.0204], device='cuda:0'), grad: tensor([ 9.3412e-07, -8.2999e-06,  6.1840e-07, -1.6600e-05,  1.8114e-07,
+         2.4345e-06, -5.8860e-07, -3.7579e-07,  1.0796e-05,  1.0923e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 255, time 214.41, cls_loss 0.0012 cls_loss_mapping 0.0021 cls_loss_causal 0.4939 re_mapping 0.0044 re_causal 0.0135 /// teacc 99.00 lr 0.00010000
+Epoch 257, weight, value: tensor([[-0.0728, -0.0222, -0.0975,  ...,  0.0313, -0.1005, -0.0052],
+        [ 0.0384, -0.0832, -0.0263,  ..., -0.0505, -0.0784, -0.2759],
+        [-0.0103,  0.0647, -0.0296,  ..., -0.1122,  0.1279, -0.0383],
+        ...,
+        [ 0.0250, -0.0381, -0.0166,  ..., -0.1438, -0.1830,  0.0316],
+        [-0.0183, -0.0816, -0.0280,  ..., -0.1024,  0.0563, -0.1561],
+        [-0.2380, -0.0129, -0.0179,  ..., -0.0943, -0.1844, -0.0965]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.1223e-09,
+          1.3504e-08,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+          4.7032e-08,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+         -1.2033e-06,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.0403e-06,  3.8650e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-09,
+         -1.4063e-07,  3.0734e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          1.0710e-08, -8.7079e-08]], device='cuda:0')
+Epoch 257, bias, value: tensor([-0.0048, -0.0177,  0.0037,  0.0350, -0.0008,  0.0272,  0.0064,  0.0183,
+        -0.0013, -0.0201], device='cuda:0'), grad: tensor([ 5.8208e-08, -3.6554e-07, -3.0845e-06,  1.5693e-07,  7.7533e-07,
+         2.8871e-08, -2.3143e-07,  2.9560e-06,  2.7940e-09, -2.7288e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 256, time 214.26, cls_loss 0.0010 cls_loss_mapping 0.0021 cls_loss_causal 0.4914 re_mapping 0.0045 re_causal 0.0138 /// teacc 99.00 lr 0.00010000
+Epoch 258, weight, value: tensor([[-0.0728, -0.0228, -0.0976,  ...,  0.0318, -0.1008, -0.0053],
+        [ 0.0383, -0.0848, -0.0264,  ..., -0.0510, -0.0784, -0.2759],
+        [-0.0103,  0.0655, -0.0296,  ..., -0.1122,  0.1280, -0.0380],
+        ...,
+        [ 0.0251, -0.0379, -0.0166,  ..., -0.1439, -0.1830,  0.0328],
+        [-0.0182, -0.0829, -0.0282,  ..., -0.1025,  0.0562, -0.1561],
+        [-0.2381, -0.0130, -0.0179,  ..., -0.0948, -0.1829, -0.0967]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -8.8476e-09,
+          1.0757e-07,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -2.3656e-07,
+         -2.8741e-06,  1.7695e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+         -1.4240e-06,  3.7253e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          9.0804e-07,  2.3749e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3516e-07,
+          3.0864e-06,  2.3283e-09],
+        [ 0.0000e+00, -4.6566e-10,  0.0000e+00,  ...,  5.1223e-09,
+          3.9581e-08,  3.7719e-08]], device='cuda:0')
+Epoch 258, bias, value: tensor([-0.0046, -0.0176,  0.0036,  0.0349, -0.0020,  0.0272,  0.0068,  0.0186,
+        -0.0014, -0.0200], device='cuda:0'), grad: tensor([ 6.1467e-07, -2.7135e-05, -3.6582e-06,  5.9279e-07, -1.0431e-07,
+        -3.3528e-08,  1.3830e-07,  2.8424e-06,  2.6792e-05, -7.1712e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 257, time 214.39, cls_loss 0.0012 cls_loss_mapping 0.0021 cls_loss_causal 0.4607 re_mapping 0.0043 re_causal 0.0128 /// teacc 99.08 lr 0.00010000
+Epoch 259, weight, value: tensor([[-0.0728, -0.0229, -0.0976,  ...,  0.0320, -0.1010, -0.0063],
+        [ 0.0383, -0.0850, -0.0264,  ..., -0.0514, -0.0784, -0.2761],
+        [-0.0102,  0.0655, -0.0296,  ..., -0.1122,  0.1281, -0.0381],
+        ...,
+        [ 0.0251, -0.0381, -0.0166,  ..., -0.1442, -0.1831,  0.0315],
+        [-0.0183, -0.0823, -0.0282,  ..., -0.1026,  0.0563, -0.1562],
+        [-0.2381, -0.0126, -0.0179,  ..., -0.0947, -0.1834, -0.0937]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -5.5879e-09,
+          5.0291e-08,  3.2596e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          3.3062e-08,  3.2596e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+         -6.5705e-07,  1.3039e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.2480e-07, -4.4703e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.5832e-08,
+          3.3714e-07,  5.1223e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+          5.1223e-09,  1.6717e-07]], device='cuda:0')
+Epoch 259, bias, value: tensor([-0.0041, -0.0176,  0.0035,  0.0349, -0.0043,  0.0272,  0.0065,  0.0186,
+        -0.0014, -0.0175], device='cuda:0'), grad: tensor([ 1.2806e-07,  1.9353e-06, -4.7125e-07,  3.2410e-07, -1.6391e-07,
+         1.7136e-07,  5.0291e-08, -3.8967e-06,  8.3493e-07,  1.0785e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 258, time 214.54, cls_loss 0.0010 cls_loss_mapping 0.0020 cls_loss_causal 0.4899 re_mapping 0.0041 re_causal 0.0131 /// teacc 99.05 lr 0.00010000
+Epoch 260, weight, value: tensor([[-0.0728, -0.0229, -0.0976,  ...,  0.0319, -0.1021, -0.0077],
+        [ 0.0387, -0.0850, -0.0264,  ..., -0.0515, -0.0785, -0.2763],
+        [-0.0102,  0.0655, -0.0296,  ..., -0.1123,  0.1284, -0.0383],
+        ...,
+        [ 0.0250, -0.0381, -0.0167,  ..., -0.1444, -0.1833,  0.0318],
+        [-0.0184, -0.0822, -0.0283,  ..., -0.1027,  0.0562, -0.1563],
+        [-0.2383, -0.0125, -0.0179,  ..., -0.0947, -0.1843, -0.0934]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -2.3283e-09,
+          5.4017e-08,  4.1910e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.2596e-09,
+          1.4901e-08,  2.6543e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.2596e-09,
+          5.5879e-09,  6.9849e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-09,
+          7.4506e-09,  3.5390e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.5157e-07,
+          5.5274e-07,  1.6764e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.2573e-07,
+          2.1374e-07,  1.3383e-06]], device='cuda:0')
+Epoch 260, bias, value: tensor([-0.0047, -0.0177,  0.0033,  0.0349, -0.0046,  0.0273,  0.0065,  0.0190,
+        -0.0015, -0.0172], device='cuda:0'), grad: tensor([ 2.9709e-07, -1.3039e-05,  6.8499e-07,  7.9256e-07, -4.2617e-05,
+        -5.2303e-06,  2.9616e-06,  8.4192e-06,  2.1048e-06,  4.5717e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 259, time 214.47, cls_loss 0.0012 cls_loss_mapping 0.0018 cls_loss_causal 0.4920 re_mapping 0.0042 re_causal 0.0127 /// teacc 99.08 lr 0.00010000
+Epoch 261, weight, value: tensor([[-0.0728, -0.0229, -0.0976,  ...,  0.0321, -0.1023, -0.0076],
+        [ 0.0387, -0.0851, -0.0264,  ..., -0.0516, -0.0785, -0.2763],
+        [-0.0102,  0.0655, -0.0296,  ..., -0.1123,  0.1284, -0.0382],
+        ...,
+        [ 0.0250, -0.0381, -0.0167,  ..., -0.1460, -0.1837,  0.0318],
+        [-0.0184, -0.0822, -0.0282,  ..., -0.1024,  0.0565, -0.1564],
+        [-0.2384, -0.0125, -0.0179,  ..., -0.0949, -0.1868, -0.0935]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.9558e-08,
+          3.7532e-07,  1.7229e-08],
+        [-9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  3.6787e-08,
+          7.6834e-07,  1.0757e-07],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ..., -9.7789e-08,
+         -2.1774e-06,  4.6566e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.1642e-08,
+          1.9092e-07,  2.3749e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.5635e-08,
+         -1.2526e-07,  5.2620e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  7.7765e-08,
+          9.7789e-08,  9.7044e-07]], device='cuda:0')
+Epoch 261, bias, value: tensor([-0.0046, -0.0175,  0.0031,  0.0348, -0.0045,  0.0272,  0.0066,  0.0188,
+        -0.0013, -0.0176], device='cuda:0'), grad: tensor([ 6.6124e-07,  2.0117e-06, -3.4403e-06,  9.2015e-07, -9.0525e-06,
+         3.1292e-07,  6.8080e-07,  1.4994e-06, -1.0198e-07,  6.4820e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 260, time 214.41, cls_loss 0.0010 cls_loss_mapping 0.0016 cls_loss_causal 0.4759 re_mapping 0.0043 re_causal 0.0132 /// teacc 99.07 lr 0.00010000
+Epoch 262, weight, value: tensor([[-0.0729, -0.0229, -0.0976,  ...,  0.0323, -0.1027, -0.0077],
+        [ 0.0385, -0.0851, -0.0264,  ..., -0.0525, -0.0785, -0.2764],
+        [-0.0102,  0.0656, -0.0296,  ..., -0.1123,  0.1286, -0.0381],
+        ...,
+        [ 0.0250, -0.0381, -0.0167,  ..., -0.1464, -0.1839,  0.0319],
+        [-0.0186, -0.0823, -0.0283,  ..., -0.1027,  0.0564, -0.1564],
+        [-0.2384, -0.0126, -0.0179,  ..., -0.0953, -0.1883, -0.0935]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.0023e-08,
+          2.4214e-08,  6.9849e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+          2.7940e-09,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-09,
+         -3.7253e-09,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          2.7940e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.3528e-08,
+          1.4435e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          2.7940e-09,  8.8941e-08]], device='cuda:0')
+Epoch 262, bias, value: tensor([-0.0047, -0.0175,  0.0031,  0.0351, -0.0046,  0.0270,  0.0067,  0.0189,
+        -0.0013, -0.0178], device='cuda:0'), grad: tensor([ 1.2806e-07,  1.4994e-07,  2.6729e-07, -7.1619e-07, -9.8068e-07,
+         4.8429e-08,  2.0023e-08,  1.1176e-08,  1.7602e-07,  8.9314e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 261, time 214.30, cls_loss 0.0011 cls_loss_mapping 0.0025 cls_loss_causal 0.5034 re_mapping 0.0040 re_causal 0.0130 /// teacc 99.00 lr 0.00010000
+Epoch 263, weight, value: tensor([[-0.0729, -0.0230, -0.0977,  ...,  0.0321, -0.1034, -0.0079],
+        [ 0.0387, -0.0852, -0.0264,  ..., -0.0535, -0.0785, -0.2770],
+        [-0.0102,  0.0656, -0.0296,  ..., -0.1124,  0.1287, -0.0380],
+        ...,
+        [ 0.0250, -0.0381, -0.0167,  ..., -0.1466, -0.1839,  0.0320],
+        [-0.0187, -0.0823, -0.0283,  ..., -0.1031,  0.0564, -0.1565],
+        [-0.2385, -0.0124, -0.0180,  ..., -0.0954, -0.1893, -0.0962]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.0245e-08,
+          3.4925e-09,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+          3.7253e-09,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-09,
+         -1.5367e-08,  6.9849e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          4.4238e-09,  3.9581e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3271e-08,
+         -2.6310e-08,  1.6298e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.6298e-09,
+          3.0268e-09,  1.5064e-07]], device='cuda:0')
+Epoch 263, bias, value: tensor([-0.0052, -0.0176,  0.0030,  0.0352, -0.0020,  0.0270,  0.0070,  0.0190,
+        -0.0014, -0.0203], device='cuda:0'), grad: tensor([ 3.2131e-08, -2.4572e-05,  1.8394e-07,  1.3225e-07,  1.5181e-07,
+         2.3097e-07,  6.2631e-08,  2.1622e-05,  7.2364e-07,  1.4603e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 262, time 214.56, cls_loss 0.0015 cls_loss_mapping 0.0035 cls_loss_causal 0.5160 re_mapping 0.0041 re_causal 0.0124 /// teacc 99.08 lr 0.00010000
+Epoch 264, weight, value: tensor([[-0.0729, -0.0230, -0.0977,  ...,  0.0291, -0.1057, -0.0081],
+        [ 0.0389, -0.0856, -0.0264,  ..., -0.0535, -0.0785, -0.2772],
+        [-0.0102,  0.0659, -0.0296,  ..., -0.1125,  0.1289, -0.0383],
+        ...,
+        [ 0.0250, -0.0379, -0.0167,  ..., -0.1472, -0.1843,  0.0317],
+        [-0.0189, -0.0839, -0.0283,  ..., -0.1032,  0.0564, -0.1567],
+        [-0.2386, -0.0113, -0.0180,  ..., -0.0931, -0.1897, -0.0952]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  1.2340e-08,
+          3.3993e-08,  9.7789e-09],
+        [-2.3283e-10,  3.0268e-09,  0.0000e+00,  ...,  6.5193e-09,
+          1.7695e-08,  1.2200e-07],
+        [ 0.0000e+00,  2.3283e-09,  0.0000e+00,  ...,  7.4506e-09,
+          1.8789e-07,  3.3528e-08],
+        ...,
+        [ 0.0000e+00, -1.1874e-08,  0.0000e+00,  ...,  2.3283e-10,
+          3.6089e-08, -7.9721e-07],
+        [ 0.0000e+00,  3.4925e-09,  0.0000e+00,  ...,  1.0454e-07,
+         -1.8231e-07,  2.4913e-08],
+        [ 0.0000e+00,  1.1642e-09,  0.0000e+00,  ...,  1.1642e-09,
+          5.6112e-08,  4.3656e-07]], device='cuda:0')
+Epoch 264, bias, value: tensor([-0.0072, -0.0173,  0.0030,  0.0354, -0.0034,  0.0267,  0.0071,  0.0189,
+        -0.0015, -0.0188], device='cuda:0'), grad: tensor([ 1.6857e-07,  1.5041e-06,  9.6671e-07,  9.7603e-07,  1.6252e-06,
+         5.2620e-08, -2.1793e-07, -8.6203e-06, -9.7323e-08,  3.6359e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 263, time 214.77, cls_loss 0.0013 cls_loss_mapping 0.0019 cls_loss_causal 0.4683 re_mapping 0.0042 re_causal 0.0124 /// teacc 99.11 lr 0.00010000
+Epoch 265, weight, value: tensor([[-0.0730, -0.0246, -0.0977,  ...,  0.0279, -0.1063, -0.0083],
+        [ 0.0402, -0.0886, -0.0265,  ..., -0.0538, -0.0785, -0.2773],
+        [-0.0102,  0.0667, -0.0296,  ..., -0.1124,  0.1293, -0.0391],
+        ...,
+        [ 0.0249, -0.0364, -0.0167,  ..., -0.1472, -0.1845,  0.0319],
+        [-0.0193, -0.0861, -0.0284,  ..., -0.1033,  0.0563, -0.1567],
+        [-0.2396, -0.0115, -0.0180,  ..., -0.0921, -0.1908, -0.0952]],
+       device='cuda:0'), grad: tensor([[ 1.6298e-08,  0.0000e+00,  0.0000e+00,  ...,  1.9092e-08,
+          4.9360e-08,  1.6298e-09],
+        [-7.6788e-07,  1.1642e-09,  0.0000e+00,  ...,  6.2864e-09,
+          6.8685e-08,  3.4692e-08],
+        [ 4.1211e-08, -2.3283e-09,  0.0000e+00,  ..., -1.6089e-07,
+         -2.2002e-07,  2.0023e-08],
+        ...,
+        [ 2.6310e-08,  9.3132e-10,  0.0000e+00,  ...,  8.1724e-08,
+          1.4692e-07, -8.4052e-08],
+        [ 2.0489e-08,  0.0000e+00,  0.0000e+00,  ...,  4.6100e-08,
+         -1.5497e-06,  4.4238e-09],
+        [ 1.2573e-08,  0.0000e+00,  0.0000e+00,  ...,  1.2573e-08,
+          3.4226e-08,  1.5832e-08]], device='cuda:0')
+Epoch 265, bias, value: tensor([-0.0088, -0.0170,  0.0033,  0.0354, -0.0035,  0.0270,  0.0072,  0.0182,
+        -0.0016, -0.0186], device='cuda:0'), grad: tensor([ 2.5122e-07, -4.1835e-06, -1.6787e-07,  2.0470e-06,  1.6596e-06,
+         3.6787e-06,  1.6987e-06, -2.6054e-07, -5.1185e-06,  3.7951e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 264, time 214.76, cls_loss 0.0016 cls_loss_mapping 0.0022 cls_loss_causal 0.5048 re_mapping 0.0044 re_causal 0.0132 /// teacc 99.06 lr 0.00010000
+Epoch 266, weight, value: tensor([[-0.0731, -0.0248, -0.0977,  ...,  0.0290, -0.1082, -0.0084],
+        [ 0.0427, -0.0893, -0.0265,  ..., -0.0539, -0.0786, -0.2774],
+        [-0.0103,  0.0670, -0.0296,  ..., -0.1117,  0.1296, -0.0389],
+        ...,
+        [ 0.0248, -0.0361, -0.0167,  ..., -0.1508, -0.1848,  0.0316],
+        [-0.0204, -0.0870, -0.0284,  ..., -0.1039,  0.0575, -0.1568],
+        [-0.2416, -0.0117, -0.0180,  ..., -0.0927, -0.1916, -0.0952]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -2.8173e-08,
+          7.4506e-09,  4.6566e-10],
+        [ 0.0000e+00,  7.4506e-09,  0.0000e+00,  ...,  1.6065e-08,
+          1.9325e-08,  7.4506e-09],
+        [ 0.0000e+00,  1.1642e-09,  0.0000e+00,  ..., -2.1886e-08,
+         -5.0524e-08,  5.5879e-09],
+        ...,
+        [ 0.0000e+00, -1.0245e-08,  0.0000e+00,  ...,  6.7521e-09,
+          1.5367e-08,  7.2177e-09],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  1.1642e-08,
+          6.3330e-08,  2.0955e-09],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  9.0804e-09,
+          3.7253e-09,  8.3819e-09]], device='cuda:0')
+Epoch 266, bias, value: tensor([-0.0108, -0.0166,  0.0034,  0.0351, -0.0037,  0.0265,  0.0085,  0.0177,
+        -0.0011, -0.0186], device='cuda:0'), grad: tensor([-5.7509e-08,  1.0873e-07,  5.7742e-08,  9.9186e-08, -8.4192e-07,
+        -2.0047e-07,  7.6601e-08, -2.2422e-07,  2.6356e-07,  7.2038e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 265, time 214.56, cls_loss 0.0013 cls_loss_mapping 0.0022 cls_loss_causal 0.4663 re_mapping 0.0044 re_causal 0.0134 /// teacc 98.94 lr 0.00010000
+Epoch 267, weight, value: tensor([[-0.0731, -0.0248, -0.0977,  ...,  0.0294, -0.1087, -0.0088],
+        [ 0.0428, -0.0894, -0.0265,  ..., -0.0546, -0.0786, -0.2775],
+        [-0.0103,  0.0671, -0.0296,  ..., -0.1117,  0.1301, -0.0389],
+        ...,
+        [ 0.0248, -0.0360, -0.0167,  ..., -0.1509, -0.1852,  0.0315],
+        [-0.0204, -0.0871, -0.0284,  ..., -0.1040,  0.0574, -0.1569],
+        [-0.2417, -0.0117, -0.0180,  ..., -0.0927, -0.1919, -0.0953]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  6.9849e-10,  0.0000e+00,  ...,  4.3772e-08,
+          7.2876e-08,  4.4238e-09],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  6.1933e-08,
+          6.5891e-08,  9.8906e-07],
+        [ 0.0000e+00, -1.7928e-08,  0.0000e+00,  ...,  1.2806e-08,
+         -1.5367e-08,  2.4680e-08],
+        ...,
+        [ 0.0000e+00,  4.6566e-09,  0.0000e+00,  ..., -4.8894e-09,
+          3.4226e-08,  2.5006e-07],
+        [ 0.0000e+00,  8.8476e-09,  0.0000e+00,  ...,  6.7241e-06,
+          5.3979e-06,  1.9092e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.0978e-08,
+          5.8673e-08, -1.4435e-06]], device='cuda:0')
+Epoch 267, bias, value: tensor([-0.0115, -0.0138,  0.0036,  0.0347, -0.0038,  0.0270,  0.0083,  0.0147,
+        -0.0012, -0.0185], device='cuda:0'), grad: tensor([ 2.1025e-07,  8.2850e-06,  4.1747e-07,  4.7777e-07,  1.2927e-06,
+        -1.0245e-07, -1.9372e-05,  1.4603e-06,  1.8716e-05, -1.1377e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 266, time 214.52, cls_loss 0.0011 cls_loss_mapping 0.0020 cls_loss_causal 0.4889 re_mapping 0.0041 re_causal 0.0129 /// teacc 99.00 lr 0.00010000
+Epoch 268, weight, value: tensor([[-0.0731, -0.0249, -0.0977,  ...,  0.0292, -0.1089, -0.0090],
+        [ 0.0428, -0.0926, -0.0265,  ..., -0.0544, -0.0786, -0.2776],
+        [-0.0102,  0.0666, -0.0296,  ..., -0.1119,  0.1307, -0.0388],
+        ...,
+        [ 0.0248, -0.0329, -0.0167,  ..., -0.1510, -0.1853,  0.0320],
+        [-0.0205, -0.0874, -0.0284,  ..., -0.1033,  0.0575, -0.1571],
+        [-0.2418, -0.0147, -0.0180,  ..., -0.0927, -0.1934, -0.0953]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -8.0559e-08,
+         -3.2596e-09,  1.8626e-09],
+        [ 0.0000e+00,  3.2596e-09,  0.0000e+00,  ...,  3.7253e-09,
+          1.0431e-07,  3.3993e-08],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  1.5832e-08,
+          7.1013e-07,  4.6566e-10],
+        ...,
+        [ 0.0000e+00, -6.5193e-09,  0.0000e+00,  ...,  2.3283e-09,
+         -1.0300e-06,  9.3132e-10],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  4.8894e-08,
+          1.5786e-07,  9.3132e-10],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  6.0536e-09,
+          4.8894e-08, -4.8894e-08]], device='cuda:0')
+Epoch 268, bias, value: tensor([-0.0117, -0.0138,  0.0038,  0.0346, -0.0038,  0.0272,  0.0074,  0.0149,
+        -0.0011, -0.0189], device='cuda:0'), grad: tensor([ 1.4100e-06,  8.5652e-05,  1.0973e-04,  1.3091e-05,  4.8056e-07,
+         8.5589e-07, -1.4668e-07, -2.3675e-04,  5.8115e-06,  1.9968e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 267, time 214.19, cls_loss 0.0013 cls_loss_mapping 0.0026 cls_loss_causal 0.5017 re_mapping 0.0043 re_causal 0.0128 /// teacc 99.06 lr 0.00010000
+Epoch 269, weight, value: tensor([[-0.0731, -0.0251, -0.0977,  ...,  0.0291, -0.1093, -0.0093],
+        [ 0.0430, -0.0930, -0.0265,  ..., -0.0545, -0.0787, -0.2778],
+        [-0.0102,  0.0686, -0.0297,  ..., -0.1120,  0.1309, -0.0420],
+        ...,
+        [ 0.0248, -0.0334, -0.0168,  ..., -0.1512, -0.1855,  0.0318],
+        [-0.0203, -0.0901, -0.0285,  ..., -0.1035,  0.0574, -0.1574],
+        [-0.2419, -0.0147, -0.0180,  ..., -0.0929, -0.1956, -0.0953]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.6566e-09,  0.0000e+00,  ...,  1.1520e-06,
+          1.2051e-06,  0.0000e+00],
+        [ 0.0000e+00,  1.3970e-09,  0.0000e+00,  ...,  1.6764e-08,
+          3.7253e-08,  3.2596e-09],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  1.2107e-08,
+         -1.1781e-07,  4.6566e-10],
+        ...,
+        [ 0.0000e+00, -2.2817e-08,  0.0000e+00,  ...,  1.3970e-09,
+          6.7055e-08,  9.3132e-10],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  6.0815e-07,
+          7.9582e-07,  9.3132e-10],
+        [ 0.0000e+00,  2.7940e-09,  0.0000e+00,  ...,  7.6834e-08,
+          8.1956e-08,  1.7276e-07]], device='cuda:0')
+Epoch 269, bias, value: tensor([-0.0118, -0.0141,  0.0035,  0.0345, -0.0037,  0.0275,  0.0076,  0.0153,
+        -0.0012, -0.0196], device='cuda:0'), grad: tensor([ 2.8089e-06, -9.7789e-09, -7.7300e-08, -1.1548e-07, -5.6485e-07,
+         1.6857e-06, -6.1169e-06, -3.0734e-08,  1.6056e-06,  8.1398e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 268, time 214.53, cls_loss 0.0009 cls_loss_mapping 0.0015 cls_loss_causal 0.4621 re_mapping 0.0041 re_causal 0.0129 /// teacc 99.05 lr 0.00010000
+Epoch 270, weight, value: tensor([[-0.0731, -0.0252, -0.0977,  ...,  0.0291, -0.1097, -0.0096],
+        [ 0.0430, -0.0934, -0.0265,  ..., -0.0545, -0.0787, -0.2779],
+        [-0.0102,  0.0694, -0.0297,  ..., -0.1120,  0.1310, -0.0424],
+        ...,
+        [ 0.0248, -0.0334, -0.0168,  ..., -0.1513, -0.1858,  0.0320],
+        [-0.0202, -0.0910, -0.0285,  ..., -0.1033,  0.0575, -0.1577],
+        [-0.2419, -0.0146, -0.0181,  ..., -0.0932, -0.1966, -0.0953]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.3993e-08,
+          1.4296e-07,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.3993e-08,
+         -2.5049e-05,  1.4901e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.7789e-09,
+          3.5077e-05,  3.7253e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          1.0850e-06,  7.9628e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.9858e-06,
+         -2.0057e-05,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          1.3597e-06,  7.9628e-08]], device='cuda:0')
+Epoch 270, bias, value: tensor([-0.0119, -0.0141,  0.0034,  0.0344, -0.0038,  0.0276,  0.0075,  0.0153,
+        -0.0011, -0.0196], device='cuda:0'), grad: tensor([ 1.3504e-07, -1.4710e-04,  1.6761e-04,  7.2978e-06, -6.8452e-08,
+         7.1675e-06,  2.2575e-06,  4.7944e-06, -4.5329e-05,  3.4422e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 269, time 214.43, cls_loss 0.0010 cls_loss_mapping 0.0015 cls_loss_causal 0.4958 re_mapping 0.0039 re_causal 0.0131 /// teacc 99.10 lr 0.00010000
+Epoch 271, weight, value: tensor([[-0.0731, -0.0252, -0.0977,  ...,  0.0289, -0.1102, -0.0091],
+        [ 0.0434, -0.0935, -0.0266,  ..., -0.0547, -0.0787, -0.2780],
+        [-0.0104,  0.0699, -0.0297,  ..., -0.1122,  0.1312, -0.0427],
+        ...,
+        [ 0.0248, -0.0335, -0.0168,  ..., -0.1519, -0.1862,  0.0351],
+        [-0.0202, -0.0912, -0.0285,  ..., -0.1038,  0.0576, -0.1579],
+        [-0.2420, -0.0146, -0.0181,  ..., -0.0931, -0.1979, -0.0954]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  8.8476e-09,
+          5.8208e-08,  6.5193e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.6764e-08,
+          3.5390e-08,  6.0536e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.1910e-09,
+         -2.9244e-07, -2.9337e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.6764e-08,
+          2.8871e-08,  6.5193e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.2667e-08,
+          2.6729e-07,  2.2352e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-09,
+          4.6566e-09,  2.1886e-08]], device='cuda:0')
+Epoch 271, bias, value: tensor([-0.0122, -0.0141,  0.0033,  0.0344, -0.0060,  0.0275,  0.0078,  0.0158,
+        -0.0011, -0.0197], device='cuda:0'), grad: tensor([ 1.2480e-07,  5.9092e-07, -4.5029e-07,  1.0896e-07, -2.7753e-07,
+         1.0896e-07, -2.2305e-07, -5.9325e-07,  5.8115e-07,  3.9116e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 270, time 214.43, cls_loss 0.0010 cls_loss_mapping 0.0019 cls_loss_causal 0.5114 re_mapping 0.0040 re_causal 0.0132 /// teacc 99.04 lr 0.00010000
+Epoch 272, weight, value: tensor([[-0.0731, -0.0253, -0.0978,  ...,  0.0289, -0.1103, -0.0096],
+        [ 0.0434, -0.0935, -0.0266,  ..., -0.0547, -0.0787, -0.2781],
+        [-0.0104,  0.0700, -0.0298,  ..., -0.1122,  0.1313, -0.0442],
+        ...,
+        [ 0.0249, -0.0335, -0.0168,  ..., -0.1522, -0.1864,  0.0351],
+        [-0.0202, -0.0914, -0.0285,  ..., -0.1039,  0.0576, -0.1579],
+        [-0.2422, -0.0146, -0.0181,  ..., -0.0931, -0.1982, -0.0954]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-08,
+          1.9511e-07,  3.1712e-07],
+        [-1.5367e-08,  0.0000e+00,  0.0000e+00,  ...,  1.3039e-08,
+          3.5856e-08,  3.7719e-08],
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  9.4064e-08,
+          2.5705e-07,  2.1607e-07],
+        ...,
+        [ 6.5193e-09,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+          8.8476e-09,  6.0536e-09],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  5.8208e-08,
+          1.1036e-07,  9.0804e-08],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  6.0536e-09,
+          4.3772e-08,  3.6787e-08]], device='cuda:0')
+Epoch 272, bias, value: tensor([-0.0124, -0.0143,  0.0031,  0.0344, -0.0059,  0.0276,  0.0079,  0.0159,
+        -0.0011, -0.0193], device='cuda:0'), grad: tensor([ 1.0906e-06,  1.3672e-06,  9.9987e-06, -1.0766e-05,  3.5930e-06,
+         1.6242e-06, -7.3835e-06, -1.4063e-06,  1.4342e-06,  4.6100e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 271, time 214.37, cls_loss 0.0013 cls_loss_mapping 0.0024 cls_loss_causal 0.4933 re_mapping 0.0041 re_causal 0.0122 /// teacc 99.06 lr 0.00010000
+Epoch 273, weight, value: tensor([[-0.0732, -0.0254, -0.0978,  ...,  0.0287, -0.1106, -0.0104],
+        [ 0.0433, -0.0935, -0.0266,  ..., -0.0548, -0.0787, -0.2782],
+        [-0.0106,  0.0703, -0.0298,  ..., -0.1122,  0.1319, -0.0425],
+        ...,
+        [ 0.0249, -0.0335, -0.0168,  ..., -0.1526, -0.1866,  0.0354],
+        [-0.0203, -0.0920, -0.0285,  ..., -0.1043,  0.0575, -0.1580],
+        [-0.2424, -0.0146, -0.0181,  ..., -0.0925, -0.1986, -0.0955]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -4.6566e-09,
+          1.0245e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          7.4506e-09,  4.6566e-10],
+        [ 0.0000e+00, -1.3970e-09,  0.0000e+00,  ...,  9.3132e-10,
+         -8.3819e-08,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          1.1269e-07,  2.7940e-09],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  5.5879e-09,
+         -8.8476e-08,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          6.0536e-09,  4.6566e-10]], device='cuda:0')
+Epoch 273, bias, value: tensor([-0.0131, -0.0143,  0.0032,  0.0341, -0.0060,  0.0281,  0.0078,  0.0160,
+        -0.0013, -0.0191], device='cuda:0'), grad: tensor([ 4.6100e-08, -1.8582e-05,  9.2201e-08,  7.4096e-06,  1.8766e-07,
+         3.0361e-07,  5.5879e-09,  1.7881e-05,  3.5157e-07, -7.6517e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 272, time 214.55, cls_loss 0.0013 cls_loss_mapping 0.0023 cls_loss_causal 0.4684 re_mapping 0.0043 re_causal 0.0122 /// teacc 99.11 lr 0.00010000
+Epoch 274, weight, value: tensor([[-0.0733, -0.0257, -0.0978,  ...,  0.0294, -0.1107, -0.0106],
+        [ 0.0461, -0.0936, -0.0266,  ..., -0.0553, -0.0788, -0.2787],
+        [-0.0106,  0.0704, -0.0298,  ..., -0.1124,  0.1325, -0.0397],
+        ...,
+        [ 0.0248, -0.0335, -0.0168,  ..., -0.1529, -0.1868,  0.0361],
+        [-0.0232, -0.0902, -0.0285,  ..., -0.1047,  0.0575, -0.1601],
+        [-0.2427, -0.0150, -0.0181,  ..., -0.0923, -0.1996, -0.0955]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.9558e-08,
+          4.8894e-08,  6.5193e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.6298e-08,
+          2.7008e-08,  1.5413e-07],
+        [ 0.0000e+00, -0.0000e+00,  0.0000e+00,  ...,  3.2596e-08,
+         -1.2899e-07, -7.4040e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+          1.2200e-07,  5.4529e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.1130e-07,
+          4.5262e-07,  9.7789e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.1642e-08,
+          9.7789e-09, -7.4739e-07]], device='cuda:0')
+Epoch 274, bias, value: tensor([-0.0129, -0.0143,  0.0035,  0.0339, -0.0061,  0.0282,  0.0075,  0.0161,
+        -0.0015, -0.0192], device='cuda:0'), grad: tensor([ 4.4703e-08,  1.0449e-06, -3.2596e-09,  2.5192e-07,  1.3560e-06,
+         3.7393e-07, -1.4696e-06,  6.2063e-06,  1.1120e-06, -8.9407e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 273, time 214.48, cls_loss 0.0012 cls_loss_mapping 0.0019 cls_loss_causal 0.4863 re_mapping 0.0043 re_causal 0.0128 /// teacc 99.00 lr 0.00010000
+Epoch 275, weight, value: tensor([[-0.0734, -0.0265, -0.0978,  ...,  0.0292, -0.1110, -0.0107],
+        [ 0.0482, -0.0950, -0.0266,  ..., -0.0554, -0.0788, -0.2790],
+        [-0.0113,  0.0708, -0.0298,  ..., -0.1124,  0.1327, -0.0403],
+        ...,
+        [ 0.0253, -0.0325, -0.0168,  ..., -0.1541, -0.1870,  0.0361],
+        [-0.0252, -0.0902, -0.0285,  ..., -0.1054,  0.0573, -0.1602],
+        [-0.2430, -0.0152, -0.0181,  ..., -0.0920, -0.2003, -0.0953]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -2.7940e-09,
+          1.5367e-08,  9.3132e-10],
+        [ 6.5193e-09,  0.0000e+00,  0.0000e+00,  ...,  4.8894e-08,
+          2.6962e-07,  1.5832e-08],
+        [ 3.7253e-09,  0.0000e+00,  0.0000e+00,  ...,  2.7474e-08,
+          1.3737e-07,  6.9849e-09],
+        ...,
+        [ 1.3970e-09, -4.6566e-10,  0.0000e+00,  ...,  1.0710e-08,
+          6.4727e-08, -8.6147e-08],
+        [-1.6764e-08,  0.0000e+00,  0.0000e+00,  ..., -9.4995e-08,
+         -3.4971e-07,  6.9849e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.2596e-09,
+          2.7474e-08,  3.0268e-08]], device='cuda:0')
+Epoch 275, bias, value: tensor([-0.0133, -0.0143,  0.0034,  0.0338, -0.0070,  0.0284,  0.0076,  0.0162,
+        -0.0018, -0.0177], device='cuda:0'), grad: tensor([-1.0245e-08,  9.7882e-07,  5.2340e-07,  7.8464e-07,  3.6322e-08,
+        -1.2787e-06,  4.5775e-07, -6.9151e-07, -1.1977e-06,  4.0000e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 274, time 214.54, cls_loss 0.0012 cls_loss_mapping 0.0018 cls_loss_causal 0.4849 re_mapping 0.0041 re_causal 0.0126 /// teacc 99.08 lr 0.00010000
+Epoch 276, weight, value: tensor([[-0.0734, -0.0268, -0.0978,  ...,  0.0288, -0.1114, -0.0107],
+        [ 0.0490, -0.0974, -0.0266,  ..., -0.0555, -0.0788, -0.2792],
+        [-0.0114,  0.0705, -0.0298,  ..., -0.1126,  0.1318, -0.0403],
+        ...,
+        [ 0.0252, -0.0305, -0.0168,  ..., -0.1547, -0.1875,  0.0362],
+        [-0.0258, -0.0895, -0.0285,  ..., -0.1056,  0.0577, -0.1604],
+        [-0.2431, -0.0159, -0.0181,  ..., -0.0925, -0.2018, -0.0953]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          6.9849e-09,  4.1910e-09],
+        [-1.3970e-09,  1.8626e-09,  0.0000e+00,  ...,  4.6566e-10,
+          1.8626e-08,  2.8405e-08],
+        [ 0.0000e+00, -7.4506e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -6.1933e-08,  6.5193e-09],
+        ...,
+        [ 1.3970e-09,  4.1910e-09,  0.0000e+00,  ...,  4.6566e-10,
+          6.5193e-08,  2.2352e-08],
+        [ 0.0000e+00,  1.3970e-09,  0.0000e+00,  ...,  9.3132e-09,
+          2.5472e-07,  4.1910e-09],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+          1.1781e-07,  1.3821e-06]], device='cuda:0')
+Epoch 276, bias, value: tensor([-0.0138, -0.0143,  0.0018,  0.0340, -0.0070,  0.0282,  0.0082,  0.0163,
+        -0.0015, -0.0178], device='cuda:0'), grad: tensor([ 3.1665e-08,  1.9325e-07,  5.5879e-09,  4.3679e-07, -4.7386e-06,
+        -1.6037e-06,  1.8440e-07,  7.8231e-08,  6.3889e-07,  4.7721e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 275, time 214.52, cls_loss 0.0013 cls_loss_mapping 0.0020 cls_loss_causal 0.4610 re_mapping 0.0040 re_causal 0.0118 /// teacc 99.11 lr 0.00010000
+Epoch 277, weight, value: tensor([[-0.0735, -0.0271, -0.0978,  ...,  0.0276, -0.1130, -0.0109],
+        [ 0.0491, -0.0975, -0.0267,  ..., -0.0552, -0.0797, -0.2818],
+        [-0.0114,  0.0706, -0.0298,  ..., -0.1126,  0.1341, -0.0377],
+        ...,
+        [ 0.0252, -0.0301, -0.0168,  ..., -0.1558, -0.1880,  0.0362],
+        [-0.0258, -0.0892, -0.0285,  ..., -0.1058,  0.0577, -0.1605],
+        [-0.2442, -0.0167, -0.0181,  ..., -0.0926, -0.2026, -0.0954]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  1.3504e-08,
+          2.0117e-07,  4.6566e-10],
+        [-2.1886e-08,  4.5169e-08,  0.0000e+00,  ..., -1.9278e-07,
+          2.8592e-07,  1.5832e-08],
+        [ 4.6566e-09,  4.6566e-10,  0.0000e+00,  ...,  6.0536e-09,
+         -5.0180e-06,  3.2596e-09],
+        ...,
+        [ 1.0710e-08, -6.0070e-08,  0.0000e+00,  ...,  1.4901e-08,
+          2.5779e-06,  4.1910e-09],
+        [ 6.0536e-09,  2.7940e-09,  0.0000e+00,  ...,  1.0943e-07,
+          9.4622e-07,  2.3283e-09],
+        [ 2.7940e-09,  7.9162e-09,  0.0000e+00,  ...,  4.1910e-09,
+          1.1129e-07,  5.0291e-08]], device='cuda:0')
+Epoch 277, bias, value: tensor([-0.0145, -0.0147,  0.0045,  0.0338, -0.0071,  0.0284,  0.0085,  0.0162,
+        -0.0016, -0.0179], device='cuda:0'), grad: tensor([ 8.7731e-07, -3.0994e-05, -1.4082e-05, -7.2494e-06,  1.7527e-06,
+         5.8301e-06,  8.8429e-07,  2.2486e-05,  6.5751e-06,  1.3947e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 276, time 214.45, cls_loss 0.0016 cls_loss_mapping 0.0020 cls_loss_causal 0.4938 re_mapping 0.0039 re_causal 0.0118 /// teacc 99.08 lr 0.00010000
+Epoch 278, weight, value: tensor([[-0.0736, -0.0272, -0.0978,  ...,  0.0304, -0.1132, -0.0077],
+        [ 0.0489, -0.0976, -0.0267,  ..., -0.0541, -0.0797, -0.2820],
+        [-0.0112,  0.0706, -0.0298,  ..., -0.1125,  0.1349, -0.0381],
+        ...,
+        [ 0.0253, -0.0296, -0.0168,  ..., -0.1564, -0.1886,  0.0362],
+        [-0.0261, -0.0917, -0.0285,  ..., -0.1064,  0.0575, -0.1606],
+        [-0.2452, -0.0168, -0.0181,  ..., -0.0955, -0.2061, -0.0956]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  0.0000e+00,  0.0000e+00,  ..., -1.3458e-07,
+          1.9092e-08, -6.4708e-06],
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  1.1176e-08,
+          1.4547e-06,  1.2107e-08],
+        [-4.3772e-08,  0.0000e+00,  0.0000e+00,  ...,  1.2107e-08,
+         -1.8002e-06,  9.2713e-07],
+        ...,
+        [ 2.8405e-08,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          2.0536e-07,  8.3819e-09],
+        [ 6.0536e-09,  0.0000e+00,  0.0000e+00,  ...,  1.5041e-07,
+          1.5227e-07,  2.9663e-07],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  6.5193e-09,
+          5.5879e-09,  4.3819e-07]], device='cuda:0')
+Epoch 278, bias, value: tensor([-0.0127, -0.0140,  0.0047,  0.0337, -0.0077,  0.0286,  0.0075,  0.0158,
+        -0.0019, -0.0189], device='cuda:0'), grad: tensor([-1.1206e-05,  3.0939e-06, -1.7425e-06,  1.0477e-06,  6.1281e-06,
+         4.3772e-08,  5.8673e-07, -1.5926e-07,  1.4333e-06,  7.7533e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 277, time 214.39, cls_loss 0.0011 cls_loss_mapping 0.0017 cls_loss_causal 0.4793 re_mapping 0.0042 re_causal 0.0124 /// teacc 99.08 lr 0.00010000
+Epoch 279, weight, value: tensor([[-0.0737, -0.0272, -0.0978,  ...,  0.0315, -0.1130, -0.0067],
+        [ 0.0476, -0.0981, -0.0267,  ..., -0.0542, -0.0798, -0.2821],
+        [-0.0107,  0.0727, -0.0298,  ..., -0.1127,  0.1357, -0.0381],
+        ...,
+        [ 0.0257, -0.0287, -0.0168,  ..., -0.1566, -0.1904,  0.0358],
+        [-0.0262, -0.0952, -0.0285,  ..., -0.1069,  0.0574, -0.1606],
+        [-0.2484, -0.0169, -0.0181,  ..., -0.0956, -0.2080, -0.0958]],
+       device='cuda:0'), grad: tensor([[0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 1.2945e-07, 1.2219e-06,
+         4.6566e-09],
+        [4.6566e-10, 0.0000e+00, 0.0000e+00,  ..., 1.5832e-08, 1.3318e-07,
+         2.8871e-08],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 3.7951e-07, 2.9318e-06,
+         3.7253e-09],
+        ...,
+        [4.6566e-10, 0.0000e+00, 0.0000e+00,  ..., 2.6077e-08, 4.4052e-07,
+         5.2154e-08],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 1.5646e-07, 4.0652e-07,
+         2.3283e-09],
+        [4.6566e-10, 0.0000e+00, 0.0000e+00,  ..., 1.8161e-08, 3.1246e-07,
+         9.5554e-07]], device='cuda:0')
+Epoch 279, bias, value: tensor([-0.0121, -0.0140,  0.0055,  0.0337, -0.0075,  0.0289,  0.0068,  0.0157,
+        -0.0021, -0.0193], device='cuda:0'), grad: tensor([ 2.6245e-06, -2.8405e-07,  6.4895e-06,  1.9893e-06, -2.7120e-06,
+        -1.7047e-05,  3.7812e-06,  1.2908e-06,  5.4203e-07,  3.3230e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 278, time 214.38, cls_loss 0.0012 cls_loss_mapping 0.0020 cls_loss_causal 0.4491 re_mapping 0.0042 re_causal 0.0121 /// teacc 99.11 lr 0.00010000
+Epoch 280, weight, value: tensor([[-0.0738, -0.0273, -0.0978,  ...,  0.0302, -0.1133, -0.0070],
+        [ 0.0472, -0.0986, -0.0267,  ..., -0.0542, -0.0798, -0.2822],
+        [-0.0110,  0.0719, -0.0298,  ..., -0.1129,  0.1355, -0.0381],
+        ...,
+        [ 0.0264, -0.0278, -0.0168,  ..., -0.1574, -0.1905,  0.0357],
+        [-0.0262, -0.0953, -0.0285,  ..., -0.1071,  0.0576, -0.1607],
+        [-0.2493, -0.0169, -0.0181,  ..., -0.0936, -0.2088, -0.0956]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -3.5856e-08,
+          3.7253e-09,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          6.9849e-09,  2.3283e-09],
+        [-1.3970e-09,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+         -7.4506e-09,  9.3132e-10],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          5.1223e-09,  4.6566e-10],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  1.2107e-08,
+         -2.8871e-08,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.1642e-08,
+          2.0955e-08,  1.4808e-07]], device='cuda:0')
+Epoch 280, bias, value: tensor([-0.0139, -0.0141,  0.0049,  0.0338, -0.0080,  0.0288,  0.0066,  0.0159,
+        -0.0020, -0.0178], device='cuda:0'), grad: tensor([-1.5227e-07,  1.9977e-07,  3.4459e-08,  1.5181e-07, -3.4552e-07,
+        -7.5437e-08,  7.5903e-08, -4.4471e-07,  1.5832e-08,  5.4622e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 279, time 214.38, cls_loss 0.0011 cls_loss_mapping 0.0017 cls_loss_causal 0.4847 re_mapping 0.0038 re_causal 0.0120 /// teacc 99.04 lr 0.00010000
+Epoch 281, weight, value: tensor([[-0.0738, -0.0273, -0.0978,  ...,  0.0297, -0.1135, -0.0073],
+        [ 0.0476, -0.0987, -0.0268,  ..., -0.0544, -0.0799, -0.2824],
+        [-0.0109,  0.0719, -0.0298,  ..., -0.1129,  0.1351, -0.0379],
+        ...,
+        [ 0.0262, -0.0278, -0.0172,  ..., -0.1580, -0.1908,  0.0358],
+        [-0.0261, -0.0952, -0.0286,  ..., -0.1072,  0.0580, -0.1611],
+        [-0.2499, -0.0170, -0.0182,  ..., -0.0929, -0.2103, -0.0957]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.8161e-08,
+          1.8626e-08,  0.0000e+00],
+        [-4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          3.5856e-08,  2.3283e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+          3.2596e-08,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          3.7253e-09, -5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.7229e-08,
+         -7.2177e-08,  9.3132e-10],
+        [ 0.0000e+00, -9.3132e-10,  0.0000e+00,  ...,  1.8626e-09,
+          3.2596e-09,  2.3283e-08]], device='cuda:0')
+Epoch 281, bias, value: tensor([-0.0145, -0.0142,  0.0045,  0.0337, -0.0079,  0.0289,  0.0064,  0.0160,
+        -0.0017, -0.0178], device='cuda:0'), grad: tensor([ 5.6345e-08,  2.7232e-06,  1.3877e-07, -2.7474e-08, -1.7881e-07,
+        -1.5786e-07,  3.4459e-08, -3.1423e-06, -7.2177e-08,  6.2445e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 280, time 214.65, cls_loss 0.0009 cls_loss_mapping 0.0018 cls_loss_causal 0.4904 re_mapping 0.0039 re_causal 0.0125 /// teacc 99.07 lr 0.00010000
+Epoch 282, weight, value: tensor([[-0.0739, -0.0273, -0.0978,  ...,  0.0299, -0.1136, -0.0074],
+        [ 0.0475, -0.0991, -0.0268,  ..., -0.0544, -0.0799, -0.2826],
+        [-0.0109,  0.0719, -0.0298,  ..., -0.1129,  0.1353, -0.0375],
+        ...,
+        [ 0.0262, -0.0275, -0.0173,  ..., -0.1585, -0.1912,  0.0360],
+        [-0.0255, -0.0953, -0.0287,  ..., -0.1073,  0.0581, -0.1611],
+        [-0.2500, -0.0170, -0.0182,  ..., -0.0929, -0.2107, -0.0958]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -2.0955e-08,
+          3.1665e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          9.9652e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+          2.3562e-06,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          4.5635e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.9849e-09,
+         -2.4457e-06,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.9849e-09,
+          8.9873e-08,  4.6566e-10]], device='cuda:0')
+Epoch 282, bias, value: tensor([-0.0144, -0.0141,  0.0042,  0.0336, -0.0078,  0.0290,  0.0063,  0.0161,
+        -0.0017, -0.0181], device='cuda:0'), grad: tensor([-1.1642e-08,  2.6496e-07,  5.7407e-06,  1.2862e-06,  4.6566e-08,
+        -2.2948e-06,  3.9628e-07,  8.6147e-08, -5.8413e-06,  3.0454e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 281, time 214.56, cls_loss 0.0012 cls_loss_mapping 0.0024 cls_loss_causal 0.4950 re_mapping 0.0040 re_causal 0.0125 /// teacc 99.05 lr 0.00010000
+Epoch 283, weight, value: tensor([[-0.0739, -0.0274, -0.0978,  ...,  0.0298, -0.1139, -0.0073],
+        [ 0.0479, -0.0991, -0.0272,  ..., -0.0545, -0.0829, -0.2826],
+        [-0.0113,  0.0721, -0.0300,  ..., -0.1130,  0.1391, -0.0370],
+        ...,
+        [ 0.0263, -0.0276, -0.0176,  ..., -0.1589, -0.1916,  0.0362],
+        [-0.0254, -0.0954, -0.0283,  ..., -0.1074,  0.0580, -0.1612],
+        [-0.2500, -0.0170, -0.0183,  ..., -0.0929, -0.2113, -0.0960]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.6298e-08,
+          5.1223e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8161e-08,
+          4.3772e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.5879e-09,
+          1.2573e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.1910e-09,
+          1.1176e-08, -4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.1548e-07,
+         -2.8871e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 283, bias, value: tensor([-0.0145, -0.0160,  0.0075,  0.0340, -0.0077,  0.0287,  0.0062,  0.0163,
+        -0.0017, -0.0185], device='cuda:0'), grad: tensor([-1.4901e-08,  2.3702e-07,  3.8324e-07,  1.2219e-06,  7.8697e-08,
+        -1.2526e-07,  4.4238e-08, -6.2166e-07, -1.1511e-06, -7.4040e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 282, time 214.68, cls_loss 0.0011 cls_loss_mapping 0.0015 cls_loss_causal 0.5055 re_mapping 0.0038 re_causal 0.0123 /// teacc 98.94 lr 0.00010000
+Epoch 284, weight, value: tensor([[-0.0740, -0.0274, -0.0978,  ...,  0.0299, -0.1144, -0.0073],
+        [ 0.0481, -0.0991, -0.0274,  ..., -0.0547, -0.0829, -0.2828],
+        [-0.0115,  0.0721, -0.0300,  ..., -0.1131,  0.1391, -0.0366],
+        ...,
+        [ 0.0262, -0.0275, -0.0181,  ..., -0.1592, -0.1919,  0.0362],
+        [-0.0254, -0.0954, -0.0285,  ..., -0.1077,  0.0580, -0.1614],
+        [-0.2501, -0.0170, -0.0185,  ..., -0.0929, -0.2117, -0.0972]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -9.3132e-09,
+          1.1176e-08,  0.0000e+00],
+        [-4.6566e-09,  0.0000e+00,  0.0000e+00,  ..., -1.8626e-09,
+          1.9558e-08,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-08,
+         -7.9162e-08, -4.6566e-09],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          7.2643e-08,  8.3819e-09],
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  6.2399e-08,
+          9.8720e-08,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          4.6566e-09,  7.4506e-09]], device='cuda:0')
+Epoch 284, bias, value: tensor([-0.0145, -0.0160,  0.0073,  0.0337, -0.0045,  0.0288,  0.0064,  0.0165,
+        -0.0018, -0.0222], device='cuda:0'), grad: tensor([-2.7940e-09,  3.9581e-07,  2.5146e-08,  1.4514e-05, -4.4703e-08,
+         9.4995e-08, -3.2224e-07, -1.5378e-05,  4.7125e-07,  2.2072e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 283, time 214.73, cls_loss 0.0012 cls_loss_mapping 0.0016 cls_loss_causal 0.4791 re_mapping 0.0040 re_causal 0.0126 /// teacc 99.01 lr 0.00010000
+Epoch 285, weight, value: tensor([[-0.0741, -0.0274, -0.0979,  ...,  0.0298, -0.1147, -0.0075],
+        [ 0.0499, -0.0992, -0.0309,  ..., -0.0549, -0.0830, -0.2830],
+        [-0.0117,  0.0721, -0.0297,  ..., -0.1135,  0.1392, -0.0387],
+        ...,
+        [ 0.0259, -0.0275, -0.0179,  ..., -0.1611, -0.1929,  0.0361],
+        [-0.0261, -0.0954, -0.0286,  ..., -0.1082,  0.0580, -0.1618],
+        [-0.2502, -0.0167, -0.0186,  ..., -0.0929, -0.2112, -0.0980]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -0.0000e+00,
+          6.5193e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          8.3819e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+         -2.5239e-07,  0.0000e+00],
+        ...,
+        [-0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          1.2573e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -9.3132e-10,
+          2.2352e-08,  0.0000e+00],
+        [ 0.0000e+00, -0.0000e+00,  0.0000e+00,  ..., -8.3819e-09,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 285, bias, value: tensor([-0.0146, -0.0162,  0.0072,  0.0336, -0.0028,  0.0290,  0.0062,  0.0167,
+        -0.0021, -0.0231], device='cuda:0'), grad: tensor([ 1.9558e-08,  1.4901e-07, -6.2305e-07,  1.2759e-07,  6.0536e-08,
+        -1.1362e-07,  1.6764e-08,  3.2503e-07,  9.8720e-08, -5.8673e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 284, time 214.93, cls_loss 0.0008 cls_loss_mapping 0.0014 cls_loss_causal 0.4970 re_mapping 0.0040 re_causal 0.0132 /// teacc 98.92 lr 0.00010000
+Epoch 286, weight, value: tensor([[-0.0741, -0.0274, -0.0979,  ...,  0.0299, -0.1150, -0.0075],
+        [ 0.0499, -0.0992, -0.0301,  ..., -0.0548, -0.0830, -0.2831],
+        [-0.0116,  0.0722, -0.0297,  ..., -0.1134,  0.1394, -0.0390],
+        ...,
+        [ 0.0258, -0.0275, -0.0184,  ..., -0.1622, -0.1934,  0.0364],
+        [-0.0262, -0.0955, -0.0292,  ..., -0.1086,  0.0578, -0.1618],
+        [-0.2502, -0.0166, -0.0188,  ..., -0.0929, -0.2120, -0.0981]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  7.4506e-09,
+          9.3132e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          6.5193e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+         -1.2387e-07,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.1362e-07,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.9116e-08,
+          2.9802e-08,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          2.7940e-09,  1.8626e-09]], device='cuda:0')
+Epoch 286, bias, value: tensor([-0.0147, -0.0161,  0.0073,  0.0335, -0.0029,  0.0292,  0.0062,  0.0166,
+        -0.0023, -0.0233], device='cuda:0'), grad: tensor([ 2.7008e-08,  1.1409e-06,  9.0338e-08, -3.5390e-08,  6.6031e-07,
+         2.7195e-07, -2.7195e-07, -2.7400e-06,  5.6811e-07,  2.7101e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 285, time 214.74, cls_loss 0.0013 cls_loss_mapping 0.0017 cls_loss_causal 0.4736 re_mapping 0.0040 re_causal 0.0120 /// teacc 99.03 lr 0.00010000
+Epoch 287, weight, value: tensor([[-0.0741, -0.0274, -0.0980,  ...,  0.0302, -0.1152, -0.0068],
+        [ 0.0498, -0.0992, -0.0299,  ..., -0.0565, -0.0831, -0.2832],
+        [-0.0117,  0.0722, -0.0297,  ..., -0.1139,  0.1395, -0.0398],
+        ...,
+        [ 0.0259, -0.0275, -0.0190,  ..., -0.1627, -0.1938,  0.0365],
+        [-0.0255, -0.0955, -0.0294,  ..., -0.1088,  0.0580, -0.1619],
+        [-0.2504, -0.0166, -0.0193,  ..., -0.0930, -0.2137, -0.0981]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.9092e-07,
+          1.2293e-07,  0.0000e+00],
+        [-0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-08,
+          4.9081e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7008e-08,
+         -9.2667e-07, -1.8626e-09],
+        ...,
+        [-9.3132e-10, -9.3132e-10,  0.0000e+00,  ...,  2.7940e-09,
+          2.1141e-07,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.6601e-07,
+          1.6298e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.5367e-07,
+          6.5193e-08,  1.0245e-08]], device='cuda:0')
+Epoch 287, bias, value: tensor([-0.0146, -0.0163,  0.0072,  0.0334, -0.0030,  0.0292,  0.0064,  0.0168,
+        -0.0021, -0.0231], device='cuda:0'), grad: tensor([ 5.6252e-07,  2.6748e-06, -4.7311e-06,  9.4064e-07,  6.8732e-07,
+         2.8592e-07, -2.5220e-06,  7.9162e-07,  8.9314e-07,  3.9581e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 286, time 214.56, cls_loss 0.0015 cls_loss_mapping 0.0020 cls_loss_causal 0.4974 re_mapping 0.0041 re_causal 0.0124 /// teacc 98.99 lr 0.00010000
+Epoch 288, weight, value: tensor([[-0.0742, -0.0275, -0.0980,  ...,  0.0349, -0.1155, -0.0064],
+        [ 0.0499, -0.0995, -0.0332,  ..., -0.0543, -0.0831, -0.2833],
+        [-0.0117,  0.0725, -0.0295,  ..., -0.1145,  0.1397, -0.0393],
+        ...,
+        [ 0.0261, -0.0273, -0.0183,  ..., -0.1636, -0.1945,  0.0366],
+        [-0.0256, -0.0956, -0.0294,  ..., -0.1095,  0.0578, -0.1624],
+        [-0.2522, -0.0168, -0.0214,  ..., -0.0941, -0.2146, -0.0989]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -2.7940e-08,
+          7.4506e-09,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-09,  ...,  9.3132e-10,
+          9.3132e-10,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ...,  1.8626e-09,
+         -1.3039e-08,  7.4506e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.6508e-07,  ...,  0.0000e+00,
+          3.7253e-09,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  4.6566e-09,
+          1.3039e-08,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  1.8626e-08,
+          0.0000e+00,  4.0978e-08]], device='cuda:0')
+Epoch 288, bias, value: tensor([-0.0101, -0.0165,  0.0073,  0.0337, -0.0026,  0.0290,  0.0032,  0.0171,
+        -0.0023, -0.0254], device='cuda:0'), grad: tensor([-4.1910e-08,  1.5926e-07,  1.8161e-07, -7.5325e-06, -1.7416e-07,
+         6.0536e-08,  1.7695e-08,  6.9290e-06,  1.6298e-07,  2.3097e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 287, time 214.87, cls_loss 0.0013 cls_loss_mapping 0.0018 cls_loss_causal 0.4850 re_mapping 0.0042 re_causal 0.0125 /// teacc 99.06 lr 0.00010000
+Epoch 289, weight, value: tensor([[-0.0742, -0.0275, -0.0980,  ...,  0.0354, -0.1157, -0.0072],
+        [ 0.0502, -0.0995, -0.0328,  ..., -0.0542, -0.0830, -0.2834],
+        [-0.0117,  0.0725, -0.0295,  ..., -0.1147,  0.1396, -0.0391],
+        ...,
+        [ 0.0260, -0.0273, -0.0185,  ..., -0.1644, -0.1957,  0.0367],
+        [-0.0257, -0.0957, -0.0294,  ..., -0.1100,  0.0579, -0.1625],
+        [-0.2523, -0.0168, -0.0217,  ..., -0.0945, -0.2155, -0.0991]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -2.7940e-09,
+          8.2888e-08,  6.6124e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  7.6368e-08,
+          1.5367e-07,  2.5146e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.1420e-07,
+          2.4587e-07,  1.2107e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.2945e-07,  1.0245e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  8.9407e-08,
+          3.3248e-07,  2.6077e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          1.3039e-08, -7.0669e-06]], device='cuda:0')
+Epoch 289, bias, value: tensor([-0.0096, -0.0165,  0.0069,  0.0335, -0.0018,  0.0295,  0.0027,  0.0174,
+        -0.0023, -0.0263], device='cuda:0'), grad: tensor([ 5.5134e-07,  1.4186e-05,  5.2713e-07,  9.3784e-07,  2.6256e-05,
+        -6.2957e-07, -4.1761e-06,  3.9302e-07,  8.8383e-07, -3.8981e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 288, time 214.55, cls_loss 0.0009 cls_loss_mapping 0.0017 cls_loss_causal 0.4786 re_mapping 0.0040 re_causal 0.0125 /// teacc 99.06 lr 0.00010000
+Epoch 290, weight, value: tensor([[-0.0743, -0.0275, -0.0980,  ...,  0.0356, -0.1155, -0.0075],
+        [ 0.0503, -0.0996, -0.0331,  ..., -0.0548, -0.0830, -0.2836],
+        [-0.0119,  0.0725, -0.0295,  ..., -0.1161,  0.1396, -0.0392],
+        ...,
+        [ 0.0261, -0.0273, -0.0184,  ..., -0.1655, -0.1962,  0.0367],
+        [-0.0256, -0.0957, -0.0294,  ..., -0.1115,  0.0577, -0.1625],
+        [-0.2524, -0.0168, -0.0218,  ..., -0.0946, -0.2160, -0.0992]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          1.1176e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          1.7295e-06,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  7.4506e-09,
+         -2.6822e-06,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.4809e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.0978e-08,
+         -1.4994e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          1.8626e-09,  1.8626e-09]], device='cuda:0')
+Epoch 290, bias, value: tensor([-0.0095, -0.0164,  0.0067,  0.0336, -0.0017,  0.0296,  0.0030,  0.0174,
+        -0.0026, -0.0263], device='cuda:0'), grad: tensor([ 2.3283e-08,  1.1325e-06, -5.8971e-06,  9.1270e-08,  8.8476e-08,
+         2.5891e-07,  2.7940e-09,  4.4852e-06, -2.8312e-07,  6.5193e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 289, time 214.22, cls_loss 0.0009 cls_loss_mapping 0.0016 cls_loss_causal 0.4615 re_mapping 0.0038 re_causal 0.0116 /// teacc 99.06 lr 0.00010000
+Epoch 291, weight, value: tensor([[-0.0743, -0.0275, -0.0983,  ...,  0.0356, -0.1156, -0.0079],
+        [ 0.0503, -0.0996, -0.0343,  ..., -0.0549, -0.0830, -0.2837],
+        [-0.0119,  0.0725, -0.0294,  ..., -0.1165,  0.1395, -0.0393],
+        ...,
+        [ 0.0261, -0.0273, -0.0188,  ..., -0.1657, -0.1971,  0.0367],
+        [-0.0255, -0.0957, -0.0296,  ..., -0.1123,  0.0580, -0.1625],
+        [-0.2525, -0.0168, -0.0224,  ..., -0.0946, -0.2167, -0.0992]],
+       device='cuda:0'), grad: tensor([[ 1.7695e-08,  0.0000e+00,  0.0000e+00,  ...,  2.2445e-07,
+          3.5949e-07,  6.6124e-08],
+        [-1.4994e-07,  0.0000e+00,  0.0000e+00,  ...,  2.5146e-08,
+          6.5193e-08,  0.0000e+00],
+        [ 7.7300e-08,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-08,
+         -5.5879e-09,  1.5832e-08],
+        ...,
+        [ 8.3819e-09,  0.0000e+00, -0.0000e+00,  ...,  9.3132e-10,
+          2.8871e-08,  0.0000e+00],
+        [ 4.0047e-08,  0.0000e+00,  0.0000e+00,  ...,  1.2675e-06,
+          1.6084e-06,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-08,
+          3.8184e-08,  9.3132e-10]], device='cuda:0')
+Epoch 291, bias, value: tensor([-0.0094, -0.0164,  0.0065,  0.0337, -0.0018,  0.0295,  0.0030,  0.0174,
+        -0.0024, -0.0262], device='cuda:0'), grad: tensor([ 7.9349e-07,  1.6633e-06,  2.9895e-07,  3.1292e-07,  1.0431e-07,
+        -8.7172e-07, -3.8184e-06, -2.4512e-06,  3.5688e-06,  4.1071e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 290, time 214.49, cls_loss 0.0008 cls_loss_mapping 0.0014 cls_loss_causal 0.4817 re_mapping 0.0038 re_causal 0.0122 /// teacc 99.08 lr 0.00010000
+Epoch 292, weight, value: tensor([[-0.0745, -0.0275, -0.0984,  ...,  0.0356, -0.1160, -0.0082],
+        [ 0.0508, -0.0996, -0.0381,  ..., -0.0549, -0.0832, -0.2839],
+        [-0.0120,  0.0725, -0.0288,  ..., -0.1168,  0.1397, -0.0393],
+        ...,
+        [ 0.0261, -0.0273, -0.0181,  ..., -0.1660, -0.1973,  0.0363],
+        [-0.0259, -0.0957, -0.0272,  ..., -0.1129,  0.0579, -0.1625],
+        [-0.2528, -0.0168, -0.0250,  ..., -0.0945, -0.2171, -0.0990]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -8.3819e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-09,
+          1.0245e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-09,
+         -5.1223e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.7695e-08,
+          1.2107e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.5635e-08,  0.0000e+00]], device='cuda:0')
+Epoch 292, bias, value: tensor([-0.0095, -0.0164,  0.0065,  0.0337, -0.0018,  0.0296,  0.0031,  0.0173,
+        -0.0024, -0.0259], device='cuda:0'), grad: tensor([-1.5832e-08, -5.5227e-07, -8.5682e-08,  0.0000e+00,  1.1176e-07,
+         8.1956e-08, -1.7695e-07,  5.4948e-08,  4.6194e-07,  1.2014e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 291, time 214.94, cls_loss 0.0009 cls_loss_mapping 0.0019 cls_loss_causal 0.4692 re_mapping 0.0037 re_causal 0.0120 /// teacc 99.02 lr 0.00010000
+Epoch 293, weight, value: tensor([[-0.0745, -0.0275, -0.0984,  ...,  0.0356, -0.1162, -0.0083],
+        [ 0.0505, -0.0997, -0.0413,  ..., -0.0556, -0.0832, -0.2839],
+        [-0.0120,  0.0724, -0.0282,  ..., -0.1167,  0.1398, -0.0400],
+        ...,
+        [ 0.0264, -0.0271, -0.0169,  ..., -0.1665, -0.1976,  0.0363],
+        [-0.0260, -0.0957, -0.0271,  ..., -0.1134,  0.0578, -0.1626],
+        [-0.2530, -0.0168, -0.0254,  ..., -0.0945, -0.2173, -0.0990]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.1420e-08,
+          3.7253e-09,  0.0000e+00],
+        [ 5.5879e-08,  0.0000e+00,  0.0000e+00,  ..., -1.1455e-07,
+          2.6356e-07,  0.0000e+00],
+        [ 3.2596e-08,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-08,
+          5.4017e-08,  0.0000e+00],
+        ...,
+        [-1.0990e-07,  0.0000e+00,  0.0000e+00,  ...,  7.4506e-09,
+          7.4506e-09,  2.7940e-09],
+        [ 5.5879e-09,  0.0000e+00,  0.0000e+00,  ...,  3.8184e-08,
+         -1.8999e-07,  0.0000e+00],
+        [ 8.3819e-09,  0.0000e+00,  0.0000e+00,  ...,  4.5635e-08,
+          9.3132e-09, -8.3819e-09]], device='cuda:0')
+Epoch 293, bias, value: tensor([-0.0095, -0.0165,  0.0064,  0.0334, -0.0018,  0.0302,  0.0027,  0.0176,
+        -0.0026, -0.0261], device='cuda:0'), grad: tensor([ 2.9616e-07,  3.6545e-06,  2.8741e-06,  2.9430e-07,  5.4482e-07,
+        -2.6263e-07,  9.3132e-10, -8.5458e-06, -5.0291e-08,  1.2042e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 292, time 214.96, cls_loss 0.0009 cls_loss_mapping 0.0017 cls_loss_causal 0.4835 re_mapping 0.0038 re_causal 0.0122 /// teacc 99.01 lr 0.00010000
+Epoch 294, weight, value: tensor([[-0.0745, -0.0275, -0.0984,  ...,  0.0356, -0.1169, -0.0083],
+        [ 0.0506, -0.0997, -0.0412,  ..., -0.0560, -0.0832, -0.2841],
+        [-0.0118,  0.0725, -0.0284,  ..., -0.1162,  0.1399, -0.0398],
+        ...,
+        [ 0.0262, -0.0271, -0.0168,  ..., -0.1679, -0.1985,  0.0364],
+        [-0.0261, -0.0957, -0.0270,  ..., -0.1135,  0.0580, -0.1626],
+        [-0.2532, -0.0168, -0.0256,  ..., -0.0945, -0.2178, -0.0991]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -9.3132e-10,
+          4.6566e-09,  9.3132e-10],
+        [ 0.0000e+00,  9.3132e-10, -1.2387e-07,  ...,  1.8626e-09,
+          4.6566e-09,  1.2107e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.1176e-08,  ...,  2.7940e-09,
+         -5.5879e-09,  8.3819e-09],
+        ...,
+        [ 0.0000e+00,  3.7253e-09,  8.1025e-08,  ...,  0.0000e+00,
+          1.1176e-08, -5.6811e-08],
+        [ 0.0000e+00,  9.3132e-10,  9.3132e-10,  ...,  1.8626e-08,
+          1.0803e-07,  2.3283e-08],
+        [ 0.0000e+00, -1.0245e-08,  5.5879e-09,  ...,  1.8626e-09,
+          7.4506e-09, -1.8626e-09]], device='cuda:0')
+Epoch 294, bias, value: tensor([-0.0096, -0.0165,  0.0064,  0.0333, -0.0018,  0.0303,  0.0028,  0.0176,
+        -0.0024, -0.0261], device='cuda:0'), grad: tensor([ 2.2352e-08, -9.6112e-07,  2.0955e-07, -1.6950e-07,  1.7881e-07,
+        -2.4121e-07,  4.1537e-07,  1.9558e-08,  5.4576e-07, -2.8871e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 293, time 214.91, cls_loss 0.0010 cls_loss_mapping 0.0019 cls_loss_causal 0.4873 re_mapping 0.0037 re_causal 0.0123 /// teacc 99.11 lr 0.00010000
+Epoch 295, weight, value: tensor([[-0.0746, -0.0275, -0.0984,  ...,  0.0357, -0.1174, -0.0084],
+        [ 0.0507, -0.0998, -0.0411,  ..., -0.0564, -0.0832, -0.2843],
+        [-0.0120,  0.0724, -0.0285,  ..., -0.1162,  0.1395, -0.0397],
+        ...,
+        [ 0.0262, -0.0271, -0.0169,  ..., -0.1689, -0.1991,  0.0363],
+        [-0.0261, -0.0958, -0.0270,  ..., -0.1143,  0.0588, -0.1626],
+        [-0.2535, -0.0167, -0.0258,  ..., -0.0947, -0.2194, -0.0993]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.9744e-07,
+          9.3225e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.4342e-07,
+          6.7893e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  7.9162e-08,
+          3.6880e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.2107e-08,
+          6.3330e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -6.2678e-07,
+         -2.9653e-06,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.7695e-08,
+          8.5682e-08, -0.0000e+00]], device='cuda:0')
+Epoch 295, bias, value: tensor([-0.0093, -0.0165,  0.0061,  0.0330, -0.0017,  0.0305,  0.0031,  0.0175,
+        -0.0017, -0.0266], device='cuda:0'), grad: tensor([ 3.6284e-06, -4.3988e-05,  1.5190e-06,  1.7807e-06,  4.4703e-08,
+         4.6846e-07,  1.0021e-06,  4.6492e-05, -1.1414e-05,  4.4797e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 294, time 214.67, cls_loss 0.0011 cls_loss_mapping 0.0016 cls_loss_causal 0.4773 re_mapping 0.0038 re_causal 0.0119 /// teacc 99.11 lr 0.00010000
diff --git a/Meta-causal/code-withStyleAttack/66524.error b/Meta-causal/code-withStyleAttack/66524.error
new file mode 100644
index 0000000000000000000000000000000000000000..aa2c7d390039dd22ff394c4ca54b97e4505a2c80
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/66524.error
@@ -0,0 +1,4 @@
+run_my_joint_test.sh: line 28: actor_num}fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_RA: command not found
+slurmstepd: error: *** STEP 66524.0 ON gcp-us-0 CANCELLED AT 2024-07-21T15:23:20 DUE TO TIME LIMIT ***
+slurmstepd: error: *** JOB 66524 ON gcp-us-0 CANCELLED AT 2024-07-21T15:23:20 DUE TO TIME LIMIT ***
+srun: Job step aborted: Waiting up to 32 seconds for job step to finish.
diff --git a/Meta-causal/code-withStyleAttack/66524.log b/Meta-causal/code-withStyleAttack/66524.log
new file mode 100644
index 0000000000000000000000000000000000000000..49e2766242b2515ca4a26112f48804dd69ce2a39
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/66524.log
@@ -0,0 +1,21785 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 500, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_RA', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 3
+--------------------------CA_multiple--------------------------
+---------------------------14 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+Epoch 1, weight, value: tensor([[-0.0052,  0.0130, -0.0176,  ...,  0.0223,  0.0266, -0.0208],
+        [-0.0176, -0.0280,  0.0186,  ...,  0.0191, -0.0301,  0.0311],
+        [ 0.0254, -0.0046,  0.0059,  ...,  0.0028, -0.0158,  0.0082],
+        ...,
+        [ 0.0110, -0.0042,  0.0268,  ...,  0.0126,  0.0060, -0.0196],
+        [ 0.0099,  0.0191, -0.0010,  ..., -0.0097, -0.0281, -0.0062],
+        [-0.0233,  0.0243,  0.0245,  ..., -0.0151,  0.0074, -0.0035]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([-0.0078,  0.0122, -0.0029, -0.0130,  0.0187, -0.0291,  0.0140, -0.0049,
+         0.0100, -0.0102], device='cuda:0'), grad: None
+100
+0.0001
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 231.48, cls_loss 2.2991 cls_loss_mapping 2.2972 cls_loss_causal 2.3020 re_mapping 0.0018 re_causal 0.0018 /// teacc 51.05 lr 0.00010000
+Epoch 2, weight, value: tensor([[-0.0057,  0.0138, -0.0174,  ...,  0.0207,  0.0243, -0.0223],
+        [-0.0171, -0.0256,  0.0198,  ...,  0.0240, -0.0312,  0.0361],
+        [ 0.0257, -0.0039,  0.0054,  ...,  0.0023, -0.0149,  0.0072],
+        ...,
+        [ 0.0108, -0.0039,  0.0281,  ...,  0.0136,  0.0058, -0.0165],
+        [ 0.0086,  0.0168, -0.0015,  ..., -0.0120, -0.0299, -0.0087],
+        [-0.0234,  0.0253,  0.0256,  ..., -0.0143,  0.0068, -0.0027]],
+       device='cuda:0'), grad: tensor([[ 2.0131e-05, -4.5509e-03, -3.9043e-03,  ..., -3.8662e-03,
+          0.0000e+00, -5.1994e-03],
+        [ 2.1353e-05, -3.3188e-03, -2.7256e-03,  ..., -3.5000e-03,
+          0.0000e+00, -8.1558e-03],
+        [ 2.0415e-05,  4.5815e-03,  4.3068e-03,  ...,  4.3297e-03,
+          0.0000e+00,  8.0948e-03],
+        ...,
+        [ 2.0906e-05, -1.2436e-03, -3.0708e-03,  ..., -4.7803e-04,
+          0.0000e+00, -4.5052e-03],
+        [ 2.0370e-05, -1.9798e-03, -5.7125e-04,  ...,  8.0884e-05,
+          0.0000e+00, -2.6474e-03],
+        [ 2.0131e-05,  4.6387e-03,  3.8185e-03,  ...,  3.9520e-03,
+          0.0000e+00,  7.1259e-03]], device='cuda:0')
+Epoch 2, bias, value: tensor([-0.0085,  0.0149, -0.0026, -0.0132,  0.0174, -0.0308,  0.0131, -0.0040,
+         0.0083, -0.0096], device='cuda:0'), grad: tensor([-0.0554, -0.0491,  0.0742,  0.0446, -0.0300,  0.0557, -0.0311, -0.0500,
+        -0.0261,  0.0673], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 231.13, cls_loss 2.2235 cls_loss_mapping 1.8040 cls_loss_causal 2.1830 re_mapping 0.0486 re_causal 0.0262 /// teacc 70.41 lr 0.00010000
+Epoch 3, weight, value: tensor([[-0.0057,  0.0134, -0.0203,  ...,  0.0168,  0.0210, -0.0283],
+        [-0.0170, -0.0229,  0.0160,  ...,  0.0305, -0.0278,  0.0433],
+        [ 0.0257, -0.0042,  0.0025,  ...,  0.0016, -0.0156,  0.0025],
+        ...,
+        [ 0.0108, -0.0039,  0.0327,  ...,  0.0135,  0.0005, -0.0107],
+        [ 0.0085,  0.0171, -0.0018,  ..., -0.0124, -0.0313, -0.0093],
+        [-0.0234,  0.0231,  0.0270,  ..., -0.0171,  0.0069, -0.0036]],
+       device='cuda:0'), grad: tensor([[ 0.0000, -0.0002,  0.0002,  ..., -0.0026, -0.0003, -0.0005],
+        [ 0.0000,  0.0095,  0.0058,  ...,  0.0019,  0.0033,  0.0050],
+        [ 0.0000,  0.0026,  0.0005,  ...,  0.0007,  0.0013,  0.0014],
+        ...,
+        [ 0.0000, -0.0065, -0.0026,  ...,  0.0020,  0.0046, -0.0061],
+        [ 0.0000, -0.0006, -0.0065,  ..., -0.0021, -0.0051, -0.0043],
+        [ 0.0000,  0.0024, -0.0024,  ...,  0.0006, -0.0031, -0.0012]],
+       device='cuda:0')
+Epoch 3, bias, value: tensor([-0.0083,  0.0164, -0.0031, -0.0141,  0.0177, -0.0318,  0.0141, -0.0039,
+         0.0079, -0.0107], device='cuda:0'), grad: tensor([-0.1131,  0.1017,  0.0032, -0.0595,  0.0090,  0.0259, -0.0312, -0.0031,
+         0.0331,  0.0340], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 230.77, cls_loss 2.0055 cls_loss_mapping 0.9298 cls_loss_causal 1.8686 re_mapping 0.1309 re_causal 0.1116 /// teacc 82.97 lr 0.00010000
+Epoch 4, weight, value: tensor([[-0.0057,  0.0108, -0.0246,  ...,  0.0131,  0.0245, -0.0328],
+        [-0.0170, -0.0256,  0.0107,  ...,  0.0358, -0.0283,  0.0501],
+        [ 0.0257, -0.0046, -0.0009,  ...,  0.0018, -0.0145, -0.0048],
+        ...,
+        [ 0.0108, -0.0064,  0.0380,  ...,  0.0102, -0.0014, -0.0064],
+        [ 0.0085,  0.0187, -0.0044,  ..., -0.0124, -0.0324, -0.0098],
+        [-0.0234,  0.0227,  0.0314,  ..., -0.0204,  0.0048, -0.0017]],
+       device='cuda:0'), grad: tensor([[ 0.0000,  0.0023, -0.0015,  ...,  0.0057,  0.0006, -0.0002],
+        [ 0.0000,  0.0026,  0.0052,  ..., -0.0006,  0.0002, -0.0010],
+        [ 0.0000,  0.0002, -0.0013,  ...,  0.0012, -0.0009,  0.0003],
+        ...,
+        [ 0.0000,  0.0013, -0.0043,  ..., -0.0007, -0.0028,  0.0030],
+        [ 0.0000, -0.0004,  0.0012,  ..., -0.0003,  0.0006, -0.0058],
+        [ 0.0000,  0.0017,  0.0057,  ...,  0.0017,  0.0006,  0.0050]],
+       device='cuda:0')
+Epoch 4, bias, value: tensor([-0.0082,  0.0170, -0.0044, -0.0138,  0.0166, -0.0314,  0.0139, -0.0038,
+         0.0083, -0.0098], device='cuda:0'), grad: tensor([ 0.0600,  0.0519,  0.0250,  0.0266, -0.0198, -0.0127,  0.0191, -0.1173,
+        -0.0431,  0.0104], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 230.30, cls_loss 1.7935 cls_loss_mapping 0.5301 cls_loss_causal 1.6149 re_mapping 0.1324 re_causal 0.1553 /// teacc 87.69 lr 0.00010000
+Epoch 5, weight, value: tensor([[-5.6976e-03,  6.1139e-03, -2.8751e-02,  ...,  8.1039e-03,
+          2.8980e-02, -3.6270e-02],
+        [-1.7020e-02, -2.9472e-02,  6.6490e-03,  ...,  4.3678e-02,
+         -3.0254e-02,  5.7222e-02],
+        [ 2.5681e-02, -6.2469e-03,  9.9714e-06,  ..., -2.0465e-03,
+         -1.4558e-02, -1.1056e-02],
+        ...,
+        [ 1.0841e-02, -1.0236e-02,  4.3665e-02,  ...,  7.8569e-03,
+         -3.1083e-03, -2.3670e-03],
+        [ 8.4641e-03,  2.2885e-02, -7.8319e-03,  ..., -1.3490e-02,
+         -3.3058e-02, -1.1133e-02],
+        [-2.3407e-02,  2.3156e-02,  3.1968e-02,  ..., -2.2863e-02,
+         -2.9661e-04, -2.2200e-03]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.6041e-03, -2.8348e-04,  ..., -5.1117e-03,
+          7.3166e-03,  3.3016e-03],
+        [ 0.0000e+00, -6.5565e-04, -1.3733e-04,  ..., -9.2621e-03,
+          3.2196e-03, -8.3466e-03],
+        [ 0.0000e+00,  1.2693e-03,  4.9210e-03,  ...,  1.3763e-02,
+         -6.2108e-05,  3.8967e-03],
+        ...,
+        [ 0.0000e+00, -2.7218e-03, -1.1337e-02,  ..., -1.0216e-02,
+         -6.6853e-04, -2.3590e-02],
+        [ 0.0000e+00,  1.1978e-02,  5.9509e-03,  ...,  1.5991e-02,
+          4.9973e-03,  1.1780e-02],
+        [ 0.0000e+00, -5.0020e-04, -9.7275e-04,  ..., -7.8049e-03,
+          4.7302e-03,  9.9335e-03]], device='cuda:0')
+Epoch 5, bias, value: tensor([-0.0096,  0.0179, -0.0054, -0.0133,  0.0172, -0.0323,  0.0138, -0.0028,
+         0.0084, -0.0098], device='cuda:0'), grad: tensor([ 0.0082,  0.0043,  0.0320,  0.0408,  0.0610, -0.0357, -0.0361, -0.1022,
+         0.0490, -0.0213], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 230.85, cls_loss 1.6301 cls_loss_mapping 0.3783 cls_loss_causal 1.4143 re_mapping 0.1115 re_causal 0.1606 /// teacc 91.28 lr 0.00010000
+Epoch 6, weight, value: tensor([[-0.0057,  0.0019, -0.0315,  ...,  0.0045,  0.0333, -0.0413],
+        [-0.0170, -0.0331,  0.0023,  ...,  0.0490, -0.0319,  0.0636],
+        [ 0.0257, -0.0082,  0.0010,  ..., -0.0025, -0.0134, -0.0130],
+        ...,
+        [ 0.0108, -0.0146,  0.0499,  ...,  0.0067, -0.0061,  0.0004],
+        [ 0.0085,  0.0252, -0.0136,  ..., -0.0162, -0.0331, -0.0149],
+        [-0.0234,  0.0241,  0.0327,  ..., -0.0250, -0.0071, -0.0007]],
+       device='cuda:0'), grad: tensor([[ 0.0000,  0.0007,  0.0009,  ...,  0.0052, -0.0066,  0.0089],
+        [ 0.0000,  0.0091,  0.0186,  ...,  0.0093,  0.0028,  0.0051],
+        [ 0.0000,  0.0049,  0.0037,  ..., -0.0011,  0.0065, -0.0066],
+        ...,
+        [ 0.0000,  0.0086, -0.0149,  ..., -0.0098,  0.0006, -0.0166],
+        [ 0.0000, -0.0359, -0.0265,  ..., -0.0090,  0.0027, -0.0201],
+        [ 0.0000,  0.0060,  0.0044,  ...,  0.0035, -0.0018,  0.0087]],
+       device='cuda:0')
+Epoch 6, bias, value: tensor([-0.0101,  0.0178, -0.0046, -0.0132,  0.0171, -0.0323,  0.0143, -0.0033,
+         0.0076, -0.0092], device='cuda:0'), grad: tensor([ 0.0208,  0.0356, -0.0256, -0.0134, -0.0276,  0.0387,  0.0295,  0.0223,
+        -0.0927,  0.0123], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 5----------------------------------------------------
+epoch 5, time 230.59, cls_loss 1.5362 cls_loss_mapping 0.2963 cls_loss_causal 1.3447 re_mapping 0.0951 re_causal 0.1638 /// teacc 91.60 lr 0.00010000
+Epoch 7, weight, value: tensor([[-5.6976e-03, -1.3057e-03, -3.3664e-02,  ...,  1.4445e-03,
+          3.5436e-02, -4.2144e-02],
+        [-1.7020e-02, -3.5231e-02,  1.2087e-05,  ...,  5.3517e-02,
+         -3.3874e-02,  6.8826e-02],
+        [ 2.5681e-02, -9.4805e-03,  1.5294e-03,  ..., -2.3634e-03,
+         -1.3073e-02, -1.6458e-02],
+        ...,
+        [ 1.0841e-02, -1.8503e-02,  5.4470e-02,  ...,  4.9900e-03,
+         -6.5514e-03,  2.6829e-03],
+        [ 8.4641e-03,  2.6405e-02, -1.8146e-02,  ..., -1.7512e-02,
+         -3.1838e-02, -1.6849e-02],
+        [-2.3407e-02,  2.4911e-02,  3.3542e-02,  ..., -2.6230e-02,
+         -8.8147e-03, -4.4122e-04]], device='cuda:0'), grad: tensor([[ 0.0000, -0.0097,  0.0028,  ..., -0.0003, -0.0027,  0.0009],
+        [ 0.0000, -0.0025, -0.0077,  ...,  0.0042,  0.0006, -0.0096],
+        [ 0.0000, -0.0136, -0.0192,  ...,  0.0147, -0.0019,  0.0023],
+        ...,
+        [ 0.0000,  0.0026, -0.0014,  ...,  0.0043,  0.0004, -0.0055],
+        [ 0.0000,  0.0216,  0.0242,  ..., -0.0037,  0.0005,  0.0202],
+        [ 0.0000,  0.0005,  0.0087,  ...,  0.0090,  0.0006,  0.0055]],
+       device='cuda:0')
+Epoch 7, bias, value: tensor([-0.0097,  0.0184, -0.0047, -0.0136,  0.0160, -0.0319,  0.0143, -0.0028,
+         0.0067, -0.0088], device='cuda:0'), grad: tensor([-0.0353, -0.0064, -0.0164,  0.0045,  0.0006, -0.0163, -0.0499,  0.0174,
+         0.0787,  0.0231], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 6----------------------------------------------------
+epoch 6, time 230.55, cls_loss 1.4292 cls_loss_mapping 0.2519 cls_loss_causal 1.2321 re_mapping 0.0855 re_causal 0.1583 /// teacc 94.39 lr 0.00010000
+Epoch 8, weight, value: tensor([[-5.7063e-03, -4.2141e-03, -3.4838e-02,  ..., -4.4554e-06,
+          3.6260e-02, -4.2675e-02],
+        [-1.7024e-02, -3.9776e-02, -3.1388e-03,  ...,  5.6652e-02,
+         -3.5487e-02,  7.2111e-02],
+        [ 2.5821e-02, -9.4525e-03,  1.0607e-03,  ..., -4.5522e-03,
+         -1.1909e-02, -2.0593e-02],
+        ...,
+        [ 1.0823e-02, -2.1375e-02,  5.7177e-02,  ...,  4.1580e-03,
+         -7.7836e-03,  5.6238e-03],
+        [ 8.4577e-03,  2.8233e-02, -2.1511e-02,  ..., -1.7527e-02,
+         -3.1161e-02, -1.8683e-02],
+        [-2.3411e-02,  2.5982e-02,  3.5122e-02,  ..., -2.8937e-02,
+         -1.0780e-02, -5.7312e-04]], device='cuda:0'), grad: tensor([[ 0.0000,  0.0054, -0.0019,  ..., -0.0006,  0.0081,  0.0052],
+        [ 0.0000, -0.0052,  0.0056,  ..., -0.0134,  0.0007, -0.0234],
+        [ 0.0000,  0.0087,  0.0022,  ...,  0.0008,  0.0017,  0.0071],
+        ...,
+        [ 0.0000,  0.0027, -0.0172,  ...,  0.0022, -0.0006,  0.0037],
+        [ 0.0000,  0.0408,  0.0140,  ...,  0.0141, -0.0161,  0.0293],
+        [ 0.0000, -0.0354, -0.0096,  ..., -0.0059,  0.0006, -0.0403]],
+       device='cuda:0')
+Epoch 8, bias, value: tensor([-0.0094,  0.0180, -0.0048, -0.0121,  0.0155, -0.0324,  0.0143, -0.0031,
+         0.0063, -0.0084], device='cuda:0'), grad: tensor([-0.0265, -0.0152,  0.0107, -0.0571,  0.0038,  0.0730, -0.0297,  0.0327,
+         0.0764, -0.0680], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 7, time 214.16, cls_loss 1.3617 cls_loss_mapping 0.2373 cls_loss_causal 1.1436 re_mapping 0.0755 re_causal 0.1420 /// teacc 94.14 lr 0.00010000
+Epoch 9, weight, value: tensor([[-0.0057, -0.0069, -0.0361,  ..., -0.0004,  0.0379, -0.0449],
+        [-0.0170, -0.0426, -0.0061,  ...,  0.0594, -0.0368,  0.0751],
+        [ 0.0258, -0.0093,  0.0014,  ..., -0.0063, -0.0099, -0.0228],
+        ...,
+        [ 0.0108, -0.0231,  0.0598,  ...,  0.0040, -0.0073,  0.0077],
+        [ 0.0085,  0.0279, -0.0245,  ..., -0.0187, -0.0310, -0.0200],
+        [-0.0234,  0.0290,  0.0370,  ..., -0.0294, -0.0122, -0.0004]],
+       device='cuda:0'), grad: tensor([[ 0.0000,  0.0095,  0.0045,  ...,  0.0101, -0.0065, -0.0095],
+        [ 0.0000,  0.0068,  0.0005,  ..., -0.0016,  0.0022, -0.0028],
+        [ 0.0000,  0.0129,  0.0077,  ...,  0.0043,  0.0029,  0.0068],
+        ...,
+        [ 0.0000,  0.0034,  0.0057,  ..., -0.0059,  0.0024,  0.0022],
+        [ 0.0000,  0.0078,  0.0044,  ...,  0.0035,  0.0037,  0.0053],
+        [ 0.0000, -0.0394, -0.0240,  ..., -0.0087, -0.0117, -0.0271]],
+       device='cuda:0')
+Epoch 9, bias, value: tensor([-0.0094,  0.0181, -0.0042, -0.0121,  0.0149, -0.0325,  0.0148, -0.0026,
+         0.0050, -0.0081], device='cuda:0'), grad: tensor([ 0.0015,  0.0416,  0.0329, -0.0115,  0.0080, -0.0279,  0.0376, -0.0254,
+         0.0072, -0.0640], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 8----------------------------------------------------
+epoch 8, time 230.28, cls_loss 1.3292 cls_loss_mapping 0.2062 cls_loss_causal 1.1216 re_mapping 0.0680 re_causal 0.1325 /// teacc 95.28 lr 0.00010000
+Epoch 10, weight, value: tensor([[-5.7063e-03, -8.2545e-03, -3.7036e-02,  ..., -1.3193e-03,
+          3.7539e-02, -4.7933e-02],
+        [-1.7024e-02, -4.4170e-02, -7.0778e-03,  ...,  6.1542e-02,
+         -3.6655e-02,  7.8375e-02],
+        [ 2.5821e-02, -1.0798e-02,  1.8739e-03,  ..., -6.4659e-03,
+         -9.6074e-03, -2.4274e-02],
+        ...,
+        [ 1.0823e-02, -2.6266e-02,  6.1551e-02,  ...,  4.3617e-03,
+         -8.3729e-03,  9.8277e-03],
+        [ 8.4577e-03,  2.7872e-02, -2.7418e-02,  ..., -1.9583e-02,
+         -3.2037e-02, -2.1523e-02],
+        [-2.3411e-02,  3.0944e-02,  3.8484e-02,  ..., -3.2093e-02,
+         -1.1417e-02,  8.9331e-05]], device='cuda:0'), grad: tensor([[ 0.0000, -0.0504, -0.0321,  ..., -0.0421, -0.0050, -0.0135],
+        [ 0.0000,  0.0081,  0.0075,  ...,  0.0014,  0.0003, -0.0011],
+        [ 0.0000,  0.0166,  0.0157,  ...,  0.0053,  0.0010,  0.0043],
+        ...,
+        [ 0.0000, -0.0191, -0.0439,  ..., -0.0104,  0.0009, -0.0150],
+        [ 0.0000, -0.0040,  0.0118,  ...,  0.0146, -0.0019,  0.0102],
+        [ 0.0000, -0.0053,  0.0004,  ...,  0.0002,  0.0008, -0.0031]],
+       device='cuda:0')
+Epoch 10, bias, value: tensor([-0.0095,  0.0181, -0.0042, -0.0114,  0.0148, -0.0323,  0.0143, -0.0021,
+         0.0048, -0.0084], device='cuda:0'), grad: tensor([-0.1255,  0.0139,  0.0131,  0.0331,  0.0308,  0.0127,  0.0201, -0.0258,
+         0.0405, -0.0129], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 9, time 214.28, cls_loss 1.2755 cls_loss_mapping 0.1872 cls_loss_causal 1.0805 re_mapping 0.0634 re_causal 0.1248 /// teacc 95.16 lr 0.00010000
+Epoch 11, weight, value: tensor([[-0.0057, -0.0093, -0.0371,  ..., -0.0008,  0.0370, -0.0489],
+        [-0.0170, -0.0447, -0.0082,  ...,  0.0632, -0.0366,  0.0801],
+        [ 0.0258, -0.0121,  0.0004,  ..., -0.0077, -0.0086, -0.0264],
+        ...,
+        [ 0.0108, -0.0282,  0.0630,  ...,  0.0029, -0.0088,  0.0114],
+        [ 0.0085,  0.0290, -0.0282,  ..., -0.0199, -0.0320, -0.0226],
+        [-0.0234,  0.0314,  0.0386,  ..., -0.0328, -0.0118,  0.0001]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.2154e-02,  1.1292e-02,  ...,  1.3756e-02,
+          3.3379e-03,  1.3878e-02],
+        [ 0.0000e+00, -7.3090e-03, -5.6952e-05,  ..., -1.3878e-02,
+         -1.3943e-03, -1.5961e-02],
+        [ 0.0000e+00, -1.2596e-02, -6.9580e-03,  ...,  7.9060e-04,
+         -1.4992e-02, -1.3374e-02],
+        ...,
+        [ 0.0000e+00,  1.2138e-02,  9.0179e-03,  ...,  1.0658e-02,
+          1.7605e-03,  7.7477e-03],
+        [ 0.0000e+00,  2.4048e-02,  1.2833e-02,  ...,  1.8066e-02,
+          1.9608e-02,  2.7283e-02],
+        [ 0.0000e+00,  6.2218e-03,  6.2752e-03,  ...,  1.3855e-02,
+          2.1381e-03,  9.5596e-03]], device='cuda:0')
+Epoch 11, bias, value: tensor([-0.0088,  0.0184, -0.0046, -0.0107,  0.0157, -0.0324,  0.0136, -0.0027,
+         0.0047, -0.0090], device='cuda:0'), grad: tensor([ 0.0291, -0.0144, -0.0583, -0.0068, -0.0561,  0.0073, -0.0119,  0.0357,
+         0.0603,  0.0152], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 10, time 214.45, cls_loss 1.2490 cls_loss_mapping 0.1857 cls_loss_causal 1.0529 re_mapping 0.0588 re_causal 0.1205 /// teacc 95.15 lr 0.00010000
+Epoch 12, weight, value: tensor([[-0.0057, -0.0115, -0.0390,  ..., -0.0027,  0.0383, -0.0507],
+        [-0.0170, -0.0458, -0.0089,  ...,  0.0651, -0.0361,  0.0820],
+        [ 0.0258, -0.0134,  0.0001,  ..., -0.0081, -0.0109, -0.0275],
+        ...,
+        [ 0.0108, -0.0293,  0.0650,  ...,  0.0024, -0.0091,  0.0114],
+        [ 0.0085,  0.0303, -0.0309,  ..., -0.0206, -0.0304, -0.0225],
+        [-0.0234,  0.0323,  0.0402,  ..., -0.0338, -0.0132,  0.0004]],
+       device='cuda:0'), grad: tensor([[ 1.2573e-08,  7.8506e-03,  1.2169e-02,  ...,  1.0902e-02,
+          1.3313e-03,  1.3725e-02],
+        [ 3.4459e-08,  7.7515e-03,  9.5367e-03,  ..., -1.4992e-03,
+          8.0204e-04,  1.4496e-03],
+        [ 1.2200e-07,  7.7629e-03,  1.3344e-02,  ...,  9.8953e-03,
+         -1.5001e-03,  1.0300e-02],
+        ...,
+        [ 2.2957e-07,  5.7983e-03,  5.1079e-03,  ...,  6.0616e-03,
+          7.7772e-04,  1.0544e-02],
+        [ 1.8626e-08,  4.6005e-03,  1.1604e-02,  ...,  8.9722e-03,
+          3.9177e-03, -2.4319e-03],
+        [ 3.5446e-06,  6.3400e-03,  2.8095e-03,  ...,  3.8433e-03,
+          2.1019e-03,  2.3270e-02]], device='cuda:0')
+Epoch 12, bias, value: tensor([-0.0088,  0.0186, -0.0045, -0.0105,  0.0156, -0.0327,  0.0134, -0.0026,
+         0.0045, -0.0091], device='cuda:0'), grad: tensor([ 0.0159,  0.0198,  0.0463, -0.0345, -0.0121,  0.0160, -0.0397, -0.0027,
+        -0.0250,  0.0160], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 11----------------------------------------------------
+epoch 11, time 230.58, cls_loss 1.2282 cls_loss_mapping 0.1739 cls_loss_causal 1.0582 re_mapping 0.0539 re_causal 0.1088 /// teacc 95.63 lr 0.00010000
+Epoch 13, weight, value: tensor([[-0.0057, -0.0129, -0.0408,  ..., -0.0041,  0.0390, -0.0515],
+        [-0.0170, -0.0458, -0.0095,  ...,  0.0659, -0.0375,  0.0833],
+        [ 0.0258, -0.0141, -0.0004,  ..., -0.0081, -0.0100, -0.0288],
+        ...,
+        [ 0.0108, -0.0304,  0.0665,  ...,  0.0019, -0.0101,  0.0122],
+        [ 0.0085,  0.0306, -0.0331,  ..., -0.0210, -0.0285, -0.0234],
+        [-0.0234,  0.0333,  0.0402,  ..., -0.0335, -0.0142, -0.0002]],
+       device='cuda:0'), grad: tensor([[ 0.0000, -0.0033,  0.0039,  ..., -0.0014, -0.0049, -0.0007],
+        [ 0.0000,  0.0078,  0.0257,  ...,  0.0158,  0.0012,  0.0152],
+        [ 0.0000,  0.0077,  0.0300,  ...,  0.0060,  0.0025,  0.0079],
+        ...,
+        [ 0.0000, -0.0022, -0.0633,  ..., -0.0396, -0.0046, -0.0187],
+        [ 0.0000,  0.0030,  0.0149,  ...,  0.0127,  0.0014,  0.0171],
+        [ 0.0000, -0.0025, -0.0137,  ...,  0.0024,  0.0015, -0.0148]],
+       device='cuda:0')
+Epoch 13, bias, value: tensor([-0.0088,  0.0184, -0.0041, -0.0111,  0.0161, -0.0322,  0.0133, -0.0025,
+         0.0044, -0.0093], device='cuda:0'), grad: tensor([-0.0602,  0.0477,  0.0446,  0.0307,  0.0518, -0.0677,  0.0133, -0.0789,
+         0.0342, -0.0156], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 12----------------------------------------------------
+epoch 12, time 230.53, cls_loss 1.1920 cls_loss_mapping 0.1679 cls_loss_causal 1.0173 re_mapping 0.0519 re_causal 0.1088 /// teacc 96.06 lr 0.00010000
+Epoch 14, weight, value: tensor([[-0.0057, -0.0138, -0.0416,  ..., -0.0056,  0.0381, -0.0526],
+        [-0.0170, -0.0460, -0.0109,  ...,  0.0668, -0.0372,  0.0850],
+        [ 0.0258, -0.0144, -0.0007,  ..., -0.0082, -0.0096, -0.0303],
+        ...,
+        [ 0.0108, -0.0328,  0.0678,  ...,  0.0019, -0.0110,  0.0136],
+        [ 0.0085,  0.0313, -0.0343,  ..., -0.0217, -0.0274, -0.0247],
+        [-0.0234,  0.0348,  0.0406,  ..., -0.0343, -0.0148, -0.0010]],
+       device='cuda:0'), grad: tensor([[ 0.0000,  0.0042,  0.0042,  ..., -0.0118,  0.0015, -0.0078],
+        [ 0.0000,  0.0026,  0.0036,  ...,  0.0144,  0.0029,  0.0218],
+        [ 0.0000,  0.0082,  0.0061,  ...,  0.0040,  0.0016,  0.0087],
+        ...,
+        [ 0.0000, -0.0115, -0.0224,  ..., -0.0204,  0.0011, -0.0213],
+        [ 0.0000, -0.0094, -0.0034,  ..., -0.0094, -0.0033,  0.0101],
+        [ 0.0000,  0.0012, -0.0025,  ...,  0.0078,  0.0017, -0.0030]],
+       device='cuda:0')
+Epoch 14, bias, value: tensor([-0.0095,  0.0185, -0.0039, -0.0108,  0.0162, -0.0323,  0.0142, -0.0030,
+         0.0044, -0.0098], device='cuda:0'), grad: tensor([-0.0181,  0.0347,  0.0071,  0.0473, -0.0150, -0.0280,  0.0194, -0.0493,
+         0.0052, -0.0033], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 13----------------------------------------------------
+epoch 13, time 230.63, cls_loss 1.1858 cls_loss_mapping 0.1477 cls_loss_causal 1.0152 re_mapping 0.0511 re_causal 0.1113 /// teacc 96.25 lr 0.00010000
+Epoch 15, weight, value: tensor([[-0.0057, -0.0155, -0.0430,  ..., -0.0066,  0.0385, -0.0534],
+        [-0.0170, -0.0459, -0.0108,  ...,  0.0676, -0.0366,  0.0863],
+        [ 0.0258, -0.0156, -0.0010,  ..., -0.0085, -0.0096, -0.0312],
+        ...,
+        [ 0.0108, -0.0330,  0.0696,  ...,  0.0022, -0.0112,  0.0150],
+        [ 0.0085,  0.0314, -0.0368,  ..., -0.0222, -0.0269, -0.0263],
+        [-0.0234,  0.0360,  0.0413,  ..., -0.0347, -0.0149, -0.0010]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -6.5727e-03, -1.9043e-02,  ..., -1.8387e-02,
+         -2.7065e-03, -2.5467e-02],
+        [ 0.0000e+00, -2.5833e-02, -3.7048e-02,  ..., -2.6443e-02,
+          1.2922e-03, -1.9821e-02],
+        [ 0.0000e+00, -4.6577e-03, -1.8711e-03,  ..., -6.5804e-03,
+          4.2439e-04, -1.4397e-02],
+        ...,
+        [ 0.0000e+00, -3.8681e-03,  2.8992e-03,  ...,  3.1616e-02,
+          5.3167e-04,  1.9501e-02],
+        [ 0.0000e+00,  1.0986e-02,  2.5925e-02,  ...,  2.3300e-02,
+          1.7667e-04,  2.0370e-02],
+        [ 0.0000e+00,  2.9640e-03,  1.1894e-02,  ...,  7.7095e-03,
+          8.2433e-05,  1.8091e-03]], device='cuda:0')
+Epoch 15, bias, value: tensor([-0.0094,  0.0183, -0.0040, -0.0110,  0.0161, -0.0323,  0.0146, -0.0031,
+         0.0047, -0.0099], device='cuda:0'), grad: tensor([-0.0427, -0.0552, -0.0231, -0.0127,  0.0011,  0.0015,  0.0099,  0.0356,
+         0.0691,  0.0164], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 14, time 214.51, cls_loss 1.1437 cls_loss_mapping 0.1443 cls_loss_causal 0.9690 re_mapping 0.0482 re_causal 0.0995 /// teacc 95.87 lr 0.00010000
+Epoch 16, weight, value: tensor([[-0.0057, -0.0166, -0.0445,  ..., -0.0059,  0.0382, -0.0527],
+        [-0.0170, -0.0460, -0.0104,  ...,  0.0684, -0.0368,  0.0880],
+        [ 0.0258, -0.0156, -0.0003,  ..., -0.0087, -0.0087, -0.0315],
+        ...,
+        [ 0.0108, -0.0350,  0.0702,  ...,  0.0021, -0.0116,  0.0152],
+        [ 0.0085,  0.0316, -0.0387,  ..., -0.0227, -0.0274, -0.0276],
+        [-0.0234,  0.0376,  0.0421,  ..., -0.0365, -0.0150, -0.0019]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  7.4120e-03,  5.3749e-03,  ...,  5.5981e-04,
+          9.0551e-04, -1.1273e-05],
+        [ 0.0000e+00, -9.0456e-04, -3.5858e-03,  ..., -4.3716e-03,
+          1.2474e-03,  7.6256e-03],
+        [ 0.0000e+00,  1.6785e-02,  2.5543e-02,  ...,  1.3115e-02,
+          4.5662e-03,  1.0201e-02],
+        ...,
+        [ 0.0000e+00, -8.8274e-05, -2.0072e-05,  ..., -1.6464e-02,
+          1.8263e-03, -4.7836e-03],
+        [ 0.0000e+00, -2.5635e-02, -3.0624e-02,  ..., -1.7853e-02,
+         -4.3221e-03, -2.0847e-03],
+        [ 0.0000e+00,  1.1971e-02,  8.2169e-03,  ...,  6.9389e-03,
+          1.3828e-03,  4.3526e-03]], device='cuda:0')
+Epoch 16, bias, value: tensor([-0.0098,  0.0189, -0.0036, -0.0106,  0.0163, -0.0324,  0.0145, -0.0034,
+         0.0043, -0.0102], device='cuda:0'), grad: tensor([ 0.0199,  0.0127,  0.0422,  0.0016,  0.0079, -0.0252,  0.0194, -0.0428,
+        -0.0649,  0.0292], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 15----------------------------------------------------
+epoch 15, time 230.86, cls_loss 1.0933 cls_loss_mapping 0.1370 cls_loss_causal 0.9343 re_mapping 0.0453 re_causal 0.0968 /// teacc 96.33 lr 0.00010000
+Epoch 17, weight, value: tensor([[-0.0057, -0.0175, -0.0456,  ..., -0.0074,  0.0383, -0.0527],
+        [-0.0170, -0.0457, -0.0113,  ...,  0.0692, -0.0375,  0.0893],
+        [ 0.0258, -0.0159, -0.0008,  ..., -0.0096, -0.0079, -0.0328],
+        ...,
+        [ 0.0108, -0.0371,  0.0709,  ...,  0.0021, -0.0132,  0.0162],
+        [ 0.0085,  0.0316, -0.0405,  ..., -0.0228, -0.0274, -0.0289],
+        [-0.0234,  0.0388,  0.0421,  ..., -0.0369, -0.0138, -0.0026]],
+       device='cuda:0'), grad: tensor([[ 0.0000,  0.0085,  0.0079,  ...,  0.0090, -0.0102,  0.0067],
+        [ 0.0000,  0.0074,  0.0085,  ...,  0.0076,  0.0026,  0.0045],
+        [ 0.0000,  0.0162,  0.0376,  ...,  0.0025,  0.0021,  0.0046],
+        ...,
+        [ 0.0000, -0.0462, -0.1125,  ..., -0.0179, -0.0059,  0.0003],
+        [ 0.0000,  0.0057, -0.0008,  ...,  0.0112, -0.0086, -0.0024],
+        [ 0.0000,  0.0005,  0.0062,  ..., -0.0068,  0.0044, -0.0423]],
+       device='cuda:0')
+Epoch 17, bias, value: tensor([-0.0098,  0.0189, -0.0037, -0.0098,  0.0165, -0.0326,  0.0142, -0.0038,
+         0.0041, -0.0100], device='cuda:0'), grad: tensor([ 0.0194,  0.0386,  0.0330, -0.0646,  0.0542,  0.0101,  0.0228, -0.0846,
+         0.0230, -0.0520], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 16, time 214.63, cls_loss 1.0821 cls_loss_mapping 0.1310 cls_loss_causal 0.9099 re_mapping 0.0450 re_causal 0.0989 /// teacc 96.17 lr 0.00010000
+Epoch 18, weight, value: tensor([[-0.0057, -0.0190, -0.0462,  ..., -0.0079,  0.0392, -0.0534],
+        [-0.0170, -0.0461, -0.0110,  ...,  0.0694, -0.0382,  0.0905],
+        [ 0.0258, -0.0165, -0.0017,  ..., -0.0089, -0.0077, -0.0332],
+        ...,
+        [ 0.0108, -0.0370,  0.0720,  ...,  0.0032, -0.0132,  0.0168],
+        [ 0.0085,  0.0322, -0.0408,  ..., -0.0226, -0.0282, -0.0296],
+        [-0.0234,  0.0386,  0.0421,  ..., -0.0376, -0.0144, -0.0027]],
+       device='cuda:0'), grad: tensor([[ 0.0000,  0.0029,  0.0007,  ..., -0.0165,  0.0024,  0.0107],
+        [ 0.0000,  0.0082,  0.0187,  ...,  0.0074,  0.0010,  0.0063],
+        [ 0.0000, -0.0102, -0.0046,  ..., -0.0076, -0.0107, -0.0089],
+        ...,
+        [ 0.0000, -0.0078, -0.0259,  ..., -0.0158,  0.0003, -0.0314],
+        [ 0.0000,  0.0151,  0.0052,  ...,  0.0062,  0.0057,  0.0047],
+        [ 0.0000,  0.0112, -0.0048,  ...,  0.0020,  0.0008,  0.0064]],
+       device='cuda:0')
+Epoch 18, bias, value: tensor([-0.0101,  0.0190, -0.0040, -0.0098,  0.0165, -0.0323,  0.0143, -0.0038,
+         0.0043, -0.0101], device='cuda:0'), grad: tensor([-0.0100,  0.0122, -0.0394, -0.0069,  0.0207,  0.0092,  0.0261, -0.0874,
+         0.0461,  0.0295], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 17----------------------------------------------------
+epoch 17, time 230.64, cls_loss 1.0623 cls_loss_mapping 0.1226 cls_loss_causal 0.9100 re_mapping 0.0436 re_causal 0.0967 /// teacc 96.38 lr 0.00010000
+Epoch 19, weight, value: tensor([[-0.0062, -0.0209, -0.0462,  ..., -0.0081,  0.0395, -0.0536],
+        [-0.0182, -0.0464, -0.0110,  ...,  0.0698, -0.0375,  0.0915],
+        [ 0.0274, -0.0155, -0.0006,  ..., -0.0096, -0.0070, -0.0336],
+        ...,
+        [ 0.0112, -0.0378,  0.0727,  ...,  0.0043, -0.0146,  0.0181],
+        [ 0.0074,  0.0322, -0.0423,  ..., -0.0235, -0.0272, -0.0309],
+        [-0.0239,  0.0394,  0.0419,  ..., -0.0380, -0.0142, -0.0032]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -3.5343e-03, -5.5008e-03,  ..., -9.9869e-03,
+          2.7447e-03,  5.4693e-04],
+        [ 0.0000e+00,  1.3298e-02,  7.5188e-03,  ...,  5.1498e-03,
+          1.0850e-07, -3.5334e-04],
+        [ 0.0000e+00,  3.6316e-03,  1.0252e-03,  ...,  3.5114e-03,
+          7.2177e-08,  3.8204e-03],
+        ...,
+        [ 0.0000e+00,  4.3869e-03,  8.7070e-04,  ...,  8.8196e-03,
+          1.8626e-09,  1.6876e-02],
+        [ 0.0000e+00,  4.7607e-03, -6.4325e-04,  ...,  1.8148e-03,
+          6.9580e-03, -3.2349e-03],
+        [ 0.0000e+00,  1.3054e-02,  2.0004e-02,  ...,  5.4703e-03,
+          4.0792e-06, -1.2764e-02]], device='cuda:0')
+Epoch 19, bias, value: tensor([-0.0100,  0.0188, -0.0035, -0.0103,  0.0163, -0.0321,  0.0137, -0.0030,
+         0.0045, -0.0104], device='cuda:0'), grad: tensor([-0.0400,  0.0367,  0.0092,  0.0061, -0.0376,  0.0064,  0.0059,  0.0210,
+        -0.0187,  0.0112], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 18----------------------------------------------------
+epoch 18, time 230.69, cls_loss 1.0420 cls_loss_mapping 0.1086 cls_loss_causal 0.8787 re_mapping 0.0426 re_causal 0.0909 /// teacc 96.77 lr 0.00010000
+Epoch 20, weight, value: tensor([[-0.0088, -0.0225, -0.0456,  ..., -0.0079,  0.0388, -0.0535],
+        [-0.0195, -0.0476, -0.0122,  ...,  0.0712, -0.0369,  0.0927],
+        [ 0.0291, -0.0159, -0.0015,  ..., -0.0107, -0.0078, -0.0344],
+        ...,
+        [ 0.0118, -0.0388,  0.0747,  ...,  0.0049, -0.0148,  0.0190],
+        [ 0.0052,  0.0329, -0.0426,  ..., -0.0252, -0.0270, -0.0314],
+        [-0.0235,  0.0399,  0.0411,  ..., -0.0374, -0.0132, -0.0037]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -6.4325e-04, -3.8671e-04,  ..., -1.1082e-03,
+          1.7858e-04,  1.0538e-03],
+        [ 0.0000e+00, -1.3847e-02, -9.8190e-03,  ..., -1.5945e-02,
+          2.0385e-05, -8.1711e-03],
+        [ 0.0000e+00, -1.8555e-02, -1.5583e-03,  ...,  6.3095e-03,
+         -4.2707e-05,  2.5063e-03],
+        ...,
+        [ 0.0000e+00, -9.4528e-03, -1.6235e-02,  ...,  2.6264e-03,
+         -3.6597e-04,  1.9102e-03],
+        [ 0.0000e+00,  1.4061e-02,  1.5316e-03,  ...,  7.0152e-03,
+         -7.3147e-04,  4.2725e-03],
+        [ 0.0000e+00,  7.2060e-03, -1.3485e-03,  ...,  1.1053e-03,
+          7.0333e-05,  4.8180e-03]], device='cuda:0')
+Epoch 20, bias, value: tensor([-0.0104,  0.0189, -0.0034, -0.0098,  0.0160, -0.0315,  0.0133, -0.0026,
+         0.0043, -0.0108], device='cuda:0'), grad: tensor([-0.0082, -0.0535,  0.0033,  0.0564,  0.0372, -0.0007, -0.0421, -0.0018,
+        -0.0070,  0.0166], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 19----------------------------------------------------
+epoch 19, time 230.74, cls_loss 1.0194 cls_loss_mapping 0.1015 cls_loss_causal 0.8567 re_mapping 0.0432 re_causal 0.0896 /// teacc 97.10 lr 0.00010000
+Epoch 21, weight, value: tensor([[-0.0094, -0.0237, -0.0466,  ..., -0.0081,  0.0378, -0.0540],
+        [-0.0200, -0.0471, -0.0128,  ...,  0.0715, -0.0363,  0.0935],
+        [ 0.0284, -0.0169, -0.0014,  ..., -0.0108, -0.0076, -0.0347],
+        ...,
+        [ 0.0110, -0.0395,  0.0752,  ...,  0.0051, -0.0159,  0.0188],
+        [ 0.0053,  0.0333, -0.0436,  ..., -0.0259, -0.0258, -0.0316],
+        [-0.0246,  0.0416,  0.0414,  ..., -0.0381, -0.0122, -0.0035]],
+       device='cuda:0'), grad: tensor([[ 0.0000, -0.0097, -0.0069,  ..., -0.0188, -0.0145,  0.0012],
+        [ 0.0000,  0.0280,  0.0170,  ...,  0.0364,  0.0003,  0.0051],
+        [ 0.0000,  0.0032,  0.0022,  ..., -0.0003,  0.0002,  0.0007],
+        ...,
+        [ 0.0000, -0.0147, -0.0228,  ..., -0.0197, -0.0029, -0.0023],
+        [ 0.0000,  0.0015,  0.0004,  ...,  0.0051,  0.0008,  0.0020],
+        [ 0.0000,  0.0178,  0.0230,  ...,  0.0195,  0.0012,  0.0032]],
+       device='cuda:0')
+Epoch 21, bias, value: tensor([-0.0105,  0.0191, -0.0038, -0.0098,  0.0168, -0.0312,  0.0135, -0.0026,
+         0.0038, -0.0112], device='cuda:0'), grad: tensor([-0.0828,  0.0558,  0.0151,  0.0014, -0.0040,  0.0023, -0.0119, -0.0461,
+         0.0113,  0.0590], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 20, time 214.59, cls_loss 1.0290 cls_loss_mapping 0.1070 cls_loss_causal 0.8829 re_mapping 0.0406 re_causal 0.0875 /// teacc 96.63 lr 0.00010000
+Epoch 22, weight, value: tensor([[-0.0103, -0.0236, -0.0462,  ..., -0.0069,  0.0383, -0.0528],
+        [-0.0197, -0.0470, -0.0131,  ...,  0.0723, -0.0357,  0.0946],
+        [ 0.0265, -0.0165, -0.0020,  ..., -0.0110, -0.0074, -0.0355],
+        ...,
+        [ 0.0069, -0.0404,  0.0750,  ...,  0.0043, -0.0159,  0.0187],
+        [ 0.0037,  0.0346, -0.0435,  ..., -0.0268, -0.0253, -0.0320],
+        [-0.0240,  0.0414,  0.0420,  ..., -0.0386, -0.0150, -0.0037]],
+       device='cuda:0'), grad: tensor([[ 0.0000,  0.0089,  0.0079,  ...,  0.0039,  0.0263,  0.0096],
+        [ 0.0000, -0.0002, -0.0003,  ..., -0.0027,  0.0025,  0.0010],
+        [ 0.0000, -0.0006, -0.0010,  ..., -0.0009, -0.0009, -0.0001],
+        ...,
+        [ 0.0000, -0.0136, -0.0176,  ..., -0.0044, -0.0296, -0.0146],
+        [ 0.0000, -0.0081, -0.0061,  ..., -0.0002, -0.0052, -0.0060],
+        [ 0.0000,  0.0163,  0.0134,  ...,  0.0033,  0.0091,  0.0064]],
+       device='cuda:0')
+Epoch 22, bias, value: tensor([-0.0098,  0.0195, -0.0036, -0.0094,  0.0165, -0.0313,  0.0126, -0.0033,
+         0.0035, -0.0108], device='cuda:0'), grad: tensor([ 0.0441, -0.0061, -0.0102, -0.0086,  0.0300,  0.0080,  0.0011, -0.0500,
+        -0.0302,  0.0219], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 21, time 214.43, cls_loss 0.9815 cls_loss_mapping 0.0940 cls_loss_causal 0.8416 re_mapping 0.0407 re_causal 0.0898 /// teacc 96.77 lr 0.00010000
+Epoch 23, weight, value: tensor([[-0.0111, -0.0248, -0.0471,  ..., -0.0072,  0.0382, -0.0530],
+        [-0.0194, -0.0476, -0.0141,  ...,  0.0722, -0.0358,  0.0946],
+        [ 0.0249, -0.0171, -0.0028,  ..., -0.0103, -0.0082, -0.0359],
+        ...,
+        [ 0.0081, -0.0398,  0.0752,  ...,  0.0044, -0.0165,  0.0197],
+        [ 0.0013,  0.0350, -0.0447,  ..., -0.0273, -0.0252, -0.0324],
+        [-0.0256,  0.0412,  0.0427,  ..., -0.0393, -0.0148, -0.0042]],
+       device='cuda:0'), grad: tensor([[ 1.1809e-05,  4.4554e-05,  2.0004e-02,  ...,  1.1124e-02,
+          1.0506e-02,  1.3714e-03],
+        [ 5.4315e-06,  2.6608e-03,  8.5144e-03,  ...,  9.2773e-03,
+          3.6297e-03,  7.7515e-03],
+        [ 3.1859e-05, -7.5760e-03, -1.9531e-02,  ..., -1.0475e-02,
+          1.7792e-02, -5.7526e-03],
+        ...,
+        [-2.3127e-04,  1.9665e-03, -4.6234e-03,  ...,  2.4910e-03,
+          1.8568e-03, -2.3327e-03],
+        [ 2.6926e-05,  8.2588e-04,  5.3101e-03,  ...,  2.5654e-03,
+         -7.1564e-03,  3.8376e-03],
+        [ 1.1361e-04,  3.3321e-03,  1.8311e-02,  ...,  1.1139e-02,
+          3.1815e-03,  6.0844e-03]], device='cuda:0')
+Epoch 23, bias, value: tensor([-0.0098,  0.0193, -0.0028, -0.0092,  0.0165, -0.0310,  0.0127, -0.0034,
+         0.0031, -0.0113], device='cuda:0'), grad: tensor([ 0.0338,  0.0195, -0.0182,  0.0045, -0.0589, -0.0193, -0.0021,  0.0158,
+        -0.0052,  0.0301], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 22, time 214.11, cls_loss 0.9876 cls_loss_mapping 0.0873 cls_loss_causal 0.8426 re_mapping 0.0389 re_causal 0.0871 /// teacc 97.00 lr 0.00010000
+Epoch 24, weight, value: tensor([[-0.0128, -0.0252, -0.0478,  ..., -0.0073,  0.0380, -0.0538],
+        [-0.0204, -0.0483, -0.0143,  ...,  0.0728, -0.0356,  0.0957],
+        [ 0.0205, -0.0175, -0.0032,  ..., -0.0096, -0.0072, -0.0362],
+        ...,
+        [ 0.0105, -0.0406,  0.0764,  ...,  0.0045, -0.0171,  0.0201],
+        [ 0.0021,  0.0350, -0.0465,  ..., -0.0277, -0.0249, -0.0335],
+        [-0.0266,  0.0416,  0.0425,  ..., -0.0391, -0.0146, -0.0043]],
+       device='cuda:0'), grad: tensor([[ 0.0000,  0.0057,  0.0129,  ..., -0.0012, -0.0036,  0.0022],
+        [ 0.0000, -0.0018, -0.0063,  ..., -0.0128, -0.0008, -0.0021],
+        [ 0.0000,  0.0104,  0.0149,  ...,  0.0092,  0.0043,  0.0062],
+        ...,
+        [ 0.0000,  0.0009,  0.0012,  ...,  0.0077,  0.0004,  0.0057],
+        [ 0.0000,  0.0155,  0.0144,  ...,  0.0105,  0.0013,  0.0058],
+        [ 0.0000,  0.0011, -0.0094,  ...,  0.0015, -0.0017, -0.0030]],
+       device='cuda:0')
+Epoch 24, bias, value: tensor([-0.0102,  0.0195, -0.0025, -0.0089,  0.0160, -0.0307,  0.0122, -0.0030,
+         0.0027, -0.0111], device='cuda:0'), grad: tensor([ 0.0138, -0.0347,  0.0408, -0.0825,  0.0094,  0.0108,  0.0262,  0.0062,
+         0.0193, -0.0093], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 23, time 214.21, cls_loss 0.9664 cls_loss_mapping 0.0840 cls_loss_causal 0.8152 re_mapping 0.0386 re_causal 0.0818 /// teacc 96.81 lr 0.00010000
+Epoch 25, weight, value: tensor([[-0.0125, -0.0258, -0.0487,  ..., -0.0075,  0.0382, -0.0546],
+        [-0.0192, -0.0492, -0.0147,  ...,  0.0734, -0.0366,  0.0971],
+        [ 0.0207, -0.0187, -0.0035,  ..., -0.0095, -0.0074, -0.0374],
+        ...,
+        [ 0.0102, -0.0408,  0.0771,  ...,  0.0044, -0.0170,  0.0204],
+        [ 0.0020,  0.0352, -0.0467,  ..., -0.0278, -0.0248, -0.0334],
+        [-0.0270,  0.0424,  0.0427,  ..., -0.0394, -0.0145, -0.0043]],
+       device='cuda:0'), grad: tensor([[ 0.0000,  0.0036,  0.0054,  ...,  0.0078,  0.0008,  0.0013],
+        [ 0.0000,  0.0062, -0.0013,  ...,  0.0048,  0.0004,  0.0017],
+        [ 0.0000,  0.0063,  0.0092,  ...,  0.0187, -0.0002,  0.0025],
+        ...,
+        [ 0.0000,  0.0107,  0.0070,  ...,  0.0115, -0.0070,  0.0020],
+        [ 0.0000, -0.0223, -0.0242,  ..., -0.0467,  0.0014, -0.0077],
+        [ 0.0000, -0.0095, -0.0074,  ...,  0.0117,  0.0013,  0.0013]],
+       device='cuda:0')
+Epoch 25, bias, value: tensor([-0.0106,  0.0193, -0.0025, -0.0087,  0.0162, -0.0308,  0.0121, -0.0029,
+         0.0032, -0.0115], device='cuda:0'), grad: tensor([-0.0025,  0.0294,  0.0336,  0.0500, -0.0493, -0.0283,  0.0104,  0.0058,
+        -0.0548,  0.0058], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 24----------------------------------------------------
+epoch 24, time 230.49, cls_loss 0.9551 cls_loss_mapping 0.0811 cls_loss_causal 0.8176 re_mapping 0.0376 re_causal 0.0824 /// teacc 97.27 lr 0.00010000
+Epoch 26, weight, value: tensor([[-0.0135, -0.0259, -0.0490,  ..., -0.0086,  0.0394, -0.0538],
+        [-0.0195, -0.0493, -0.0151,  ...,  0.0735, -0.0366,  0.0975],
+        [ 0.0216, -0.0185, -0.0039,  ..., -0.0092, -0.0052, -0.0372],
+        ...,
+        [ 0.0106, -0.0423,  0.0774,  ...,  0.0040, -0.0182,  0.0211],
+        [ 0.0014,  0.0363, -0.0477,  ..., -0.0277, -0.0251, -0.0349],
+        [-0.0273,  0.0431,  0.0440,  ..., -0.0383, -0.0152, -0.0041]],
+       device='cuda:0'), grad: tensor([[ 0.0000, -0.0109, -0.0156,  ..., -0.0074, -0.0019,  0.0018],
+        [ 0.0000, -0.0055, -0.0195,  ..., -0.0180,  0.0010, -0.0117],
+        [ 0.0000,  0.0020,  0.0095,  ...,  0.0056, -0.0117,  0.0025],
+        ...,
+        [ 0.0000, -0.0006,  0.0079,  ...,  0.0131, -0.0071, -0.0054],
+        [ 0.0000,  0.0091,  0.0055,  ..., -0.0089,  0.0030,  0.0025],
+        [ 0.0000,  0.0074,  0.0182,  ...,  0.0065,  0.0089,  0.0090]],
+       device='cuda:0')
+Epoch 26, bias, value: tensor([-0.0108,  0.0193, -0.0024, -0.0092,  0.0165, -0.0310,  0.0124, -0.0028,
+         0.0032, -0.0111], device='cuda:0'), grad: tensor([-0.0511, -0.0464,  0.0230,  0.0404, -0.0549,  0.0044,  0.0345,  0.0228,
+        -0.0020,  0.0293], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 25----------------------------------------------------
+epoch 25, time 230.98, cls_loss 0.9691 cls_loss_mapping 0.0824 cls_loss_causal 0.8262 re_mapping 0.0366 re_causal 0.0807 /// teacc 97.41 lr 0.00010000
+Epoch 27, weight, value: tensor([[-0.0138, -0.0268, -0.0492,  ..., -0.0089,  0.0395, -0.0531],
+        [-0.0221, -0.0488, -0.0151,  ...,  0.0742, -0.0374,  0.0985],
+        [ 0.0192, -0.0191, -0.0037,  ..., -0.0085, -0.0069, -0.0369],
+        ...,
+        [ 0.0075, -0.0433,  0.0773,  ...,  0.0030, -0.0186,  0.0209],
+        [ 0.0019,  0.0366, -0.0469,  ..., -0.0285, -0.0236, -0.0352],
+        [-0.0290,  0.0439,  0.0442,  ..., -0.0383, -0.0156, -0.0046]],
+       device='cuda:0'), grad: tensor([[ 8.4543e-04,  1.4610e-03, -8.3923e-03,  ..., -6.9313e-03,
+          5.7487e-03, -7.3624e-04],
+        [ 1.0437e-04,  1.1818e-02, -2.7714e-03,  ...,  3.0243e-02,
+          4.5204e-04,  7.5340e-03],
+        [-3.1796e-03, -2.3407e-02, -5.7907e-03,  ..., -3.7659e-02,
+         -1.0120e-01,  1.0395e-03],
+        ...,
+        [ 1.4496e-04,  5.3215e-04, -7.8659e-03,  ..., -6.7673e-03,
+          9.4652e-05, -1.0729e-03],
+        [ 2.8872e-04,  2.0477e-02,  7.7896e-03,  ..., -3.1490e-03,
+         -2.9068e-03, -1.0712e-02],
+        [ 1.3089e-04, -1.6968e-02, -1.0582e-02,  ..., -2.0866e-03,
+          2.9469e-03, -3.0613e-03]], device='cuda:0')
+Epoch 27, bias, value: tensor([-0.0106,  0.0193, -0.0019, -0.0088,  0.0168, -0.0307,  0.0114, -0.0031,
+         0.0030, -0.0114], device='cuda:0'), grad: tensor([-0.0053, -0.0015, -0.0857,  0.0587,  0.0111,  0.0262,  0.0207, -0.0121,
+        -0.0034, -0.0087], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 26, time 214.49, cls_loss 0.9388 cls_loss_mapping 0.0804 cls_loss_causal 0.8093 re_mapping 0.0360 re_causal 0.0814 /// teacc 96.99 lr 0.00010000
+Epoch 28, weight, value: tensor([[-0.0120, -0.0272, -0.0486,  ..., -0.0088,  0.0386, -0.0528],
+        [-0.0232, -0.0489, -0.0150,  ...,  0.0744, -0.0373,  0.0995],
+        [ 0.0182, -0.0191, -0.0045,  ..., -0.0090, -0.0063, -0.0376],
+        ...,
+        [ 0.0059, -0.0443,  0.0777,  ...,  0.0035, -0.0185,  0.0218],
+        [-0.0003,  0.0360, -0.0481,  ..., -0.0285, -0.0216, -0.0356],
+        [-0.0291,  0.0448,  0.0448,  ..., -0.0387, -0.0166, -0.0042]],
+       device='cuda:0'), grad: tensor([[ 3.8892e-05, -4.3654e-04, -1.0918e-02,  ..., -1.8234e-02,
+         -8.0643e-03, -1.1902e-02],
+        [ 2.7150e-05,  4.4632e-03,  1.0307e-02,  ...,  1.4847e-02,
+         -2.0428e-03, -2.9392e-03],
+        [-4.9782e-04,  2.3174e-03,  4.5090e-03,  ...,  3.7308e-03,
+         -4.1122e-03,  6.1378e-03],
+        ...,
+        [-5.3883e-04,  1.2331e-03,  3.6983e-03,  ...,  1.4854e-02,
+          7.9727e-03,  3.9215e-03],
+        [ 2.3139e-04, -3.4733e-03, -1.6388e-02,  ..., -1.6174e-02,
+         -6.5918e-03, -1.0490e-02],
+        [ 1.0127e-04,  4.6616e-03, -2.7275e-03,  ..., -6.8512e-03,
+          1.9894e-03,  3.7746e-03]], device='cuda:0')
+Epoch 28, bias, value: tensor([-0.0104,  0.0194, -0.0026, -0.0089,  0.0170, -0.0305,  0.0117, -0.0027,
+         0.0026, -0.0115], device='cuda:0'), grad: tensor([-0.0611,  0.0518,  0.0084,  0.0106,  0.0463,  0.0008,  0.0115,  0.0267,
+        -0.0682, -0.0268], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 27, time 214.45, cls_loss 0.9572 cls_loss_mapping 0.0949 cls_loss_causal 0.8101 re_mapping 0.0345 re_causal 0.0707 /// teacc 96.91 lr 0.00010000
+Epoch 29, weight, value: tensor([[-0.0130, -0.0281, -0.0485,  ..., -0.0091,  0.0388, -0.0527],
+        [-0.0237, -0.0496, -0.0159,  ...,  0.0742, -0.0398,  0.1004],
+        [ 0.0183, -0.0196, -0.0050,  ..., -0.0090, -0.0064, -0.0387],
+        ...,
+        [ 0.0039, -0.0440,  0.0783,  ...,  0.0039, -0.0201,  0.0217],
+        [-0.0022,  0.0364, -0.0490,  ..., -0.0286, -0.0202, -0.0362],
+        [-0.0309,  0.0450,  0.0442,  ..., -0.0384, -0.0159, -0.0045]],
+       device='cuda:0'), grad: tensor([[ 2.2464e-06,  1.1988e-03, -1.1492e-03,  ..., -3.0918e-03,
+          5.3650e-02, -8.2254e-05],
+        [ 2.5868e-04,  3.5248e-03,  4.2000e-03,  ...,  1.2131e-02,
+          2.2984e-03,  1.1978e-02],
+        [-2.6751e-04,  2.2068e-03,  2.7752e-03,  ...,  3.3016e-03,
+         -1.3428e-02,  2.5120e-03],
+        ...,
+        [-5.2166e-04,  3.1300e-03,  2.6817e-03,  ..., -1.2817e-03,
+          2.2186e-02, -5.1079e-03],
+        [ 6.2466e-05,  2.5024e-02,  1.6571e-02,  ...,  6.2485e-03,
+          2.8610e-02,  4.6005e-03],
+        [ 2.1446e-04, -4.6204e-02, -5.7983e-02,  ..., -2.7847e-02,
+         -5.5115e-02, -2.4673e-02]], device='cuda:0')
+Epoch 29, bias, value: tensor([-0.0099,  0.0187, -0.0022, -0.0087,  0.0177, -0.0309,  0.0112, -0.0033,
+         0.0027, -0.0113], device='cuda:0'), grad: tensor([ 0.0046,  0.0255, -0.0058,  0.0426,  0.0173, -0.0009, -0.0399,  0.0182,
+         0.0657, -0.1273], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 28----------------------------------------------------
+epoch 28, time 230.65, cls_loss 0.9483 cls_loss_mapping 0.0837 cls_loss_causal 0.8046 re_mapping 0.0352 re_causal 0.0739 /// teacc 97.43 lr 0.00010000
+Epoch 30, weight, value: tensor([[-0.0156, -0.0292, -0.0495,  ..., -0.0102,  0.0387, -0.0537],
+        [-0.0220, -0.0501, -0.0152,  ...,  0.0749, -0.0393,  0.1017],
+        [ 0.0187, -0.0202, -0.0059,  ..., -0.0094, -0.0055, -0.0399],
+        ...,
+        [ 0.0012, -0.0446,  0.0790,  ...,  0.0042, -0.0205,  0.0221],
+        [-0.0029,  0.0366, -0.0498,  ..., -0.0290, -0.0215, -0.0363],
+        [-0.0344,  0.0452,  0.0450,  ..., -0.0385, -0.0174, -0.0043]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.2278e-03, -1.3008e-03,  ..., -1.6146e-03,
+          4.8846e-05,  1.7300e-03],
+        [ 0.0000e+00,  2.1992e-03, -3.6373e-03,  ..., -1.1569e-04,
+         -4.0531e-06,  4.4212e-03],
+        [ 0.0000e+00,  1.3590e-03,  1.9634e-04,  ...,  3.4428e-04,
+          6.7465e-06, -1.2840e-02],
+        ...,
+        [ 0.0000e+00,  2.2430e-03,  1.7014e-03,  ...,  4.1084e-03,
+          7.9051e-06,  2.7809e-03],
+        [ 0.0000e+00, -4.2648e-03,  3.0022e-03,  ...,  2.1286e-03,
+          2.2721e-04,  5.1270e-03],
+        [ 0.0000e+00,  4.3602e-03,  3.1433e-03,  ..., -2.2297e-03,
+          3.5912e-05,  6.7444e-03]], device='cuda:0')
+Epoch 30, bias, value: tensor([-0.0102,  0.0186, -0.0017, -0.0083,  0.0172, -0.0303,  0.0114, -0.0034,
+         0.0022, -0.0113], device='cuda:0'), grad: tensor([-0.0360,  0.0242, -0.0216, -0.0219,  0.0151, -0.0102,  0.0446, -0.0141,
+        -0.0143,  0.0341], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 29----------------------------------------------------
+epoch 29, time 230.37, cls_loss 0.9240 cls_loss_mapping 0.0825 cls_loss_causal 0.7768 re_mapping 0.0336 re_causal 0.0721 /// teacc 97.51 lr 0.00010000
+Epoch 31, weight, value: tensor([[-0.0176, -0.0295, -0.0493,  ..., -0.0102,  0.0394, -0.0544],
+        [-0.0230, -0.0508, -0.0158,  ...,  0.0746, -0.0389,  0.1014],
+        [ 0.0176, -0.0209, -0.0071,  ..., -0.0094, -0.0059, -0.0396],
+        ...,
+        [ 0.0020, -0.0451,  0.0801,  ...,  0.0034, -0.0198,  0.0235],
+        [-0.0033,  0.0368, -0.0509,  ..., -0.0286, -0.0217, -0.0381],
+        [-0.0318,  0.0456,  0.0459,  ..., -0.0377, -0.0182, -0.0042]],
+       device='cuda:0'), grad: tensor([[ 1.3396e-05,  4.5395e-03,  4.1618e-03,  ...,  5.3177e-03,
+          1.4114e-03,  1.8158e-03],
+        [ 3.3677e-06,  7.4310e-03,  9.7580e-03,  ...,  1.3855e-02,
+          2.4300e-03,  6.7596e-03],
+        [ 1.7226e-05, -3.7136e-03, -8.7357e-03,  ..., -1.3023e-02,
+         -1.4496e-03, -8.0032e-03],
+        ...,
+        [ 4.6231e-06, -1.2032e-02, -2.1118e-02,  ..., -2.0432e-02,
+         -3.5343e-03, -4.3297e-03],
+        [-4.6325e-04,  3.2082e-03,  1.8044e-03,  ..., -2.8629e-03,
+          3.4809e-03,  1.7157e-03],
+        [ 2.3019e-04,  2.2690e-02,  2.5589e-02,  ...,  1.7487e-02,
+          6.7139e-03,  1.4244e-02]], device='cuda:0')
+Epoch 31, bias, value: tensor([-0.0103,  0.0186, -0.0022, -0.0081,  0.0168, -0.0307,  0.0114, -0.0036,
+         0.0029, -0.0108], device='cuda:0'), grad: tensor([ 0.0209,  0.0385, -0.0432,  0.0525,  0.0174, -0.0623, -0.0567, -0.0388,
+        -0.0026,  0.0744], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 30----------------------------------------------------
+epoch 30, time 230.43, cls_loss 0.9209 cls_loss_mapping 0.0861 cls_loss_causal 0.7888 re_mapping 0.0324 re_causal 0.0695 /// teacc 97.55 lr 0.00010000
+Epoch 32, weight, value: tensor([[-0.0196, -0.0298, -0.0501,  ..., -0.0092,  0.0398, -0.0551],
+        [-0.0212, -0.0508, -0.0156,  ...,  0.0752, -0.0384,  0.1018],
+        [ 0.0176, -0.0222, -0.0063,  ..., -0.0101, -0.0060, -0.0398],
+        ...,
+        [ 0.0017, -0.0454,  0.0795,  ...,  0.0021, -0.0213,  0.0228],
+        [-0.0044,  0.0375, -0.0509,  ..., -0.0286, -0.0216, -0.0377],
+        [-0.0340,  0.0459,  0.0465,  ..., -0.0367, -0.0186, -0.0038]],
+       device='cuda:0'), grad: tensor([[ 8.0094e-08, -2.4853e-03,  2.7008e-03,  ..., -8.0795e-03,
+          3.4618e-03,  1.3933e-03],
+        [ 1.2107e-07, -1.0399e-02, -4.7951e-03,  ..., -2.4796e-02,
+         -2.0630e-02, -1.8219e-02],
+        [-8.8476e-07,  6.8378e-04,  6.1722e-03,  ...,  7.1030e-03,
+          5.0697e-03,  1.3618e-03],
+        ...,
+        [ 1.2733e-05,  6.2866e-03, -8.1329e-03,  ...,  9.3031e-04,
+          7.2861e-04,  5.4245e-03],
+        [ 4.6100e-07,  2.9526e-03,  2.3937e-03,  ...,  1.2894e-03,
+          1.9550e-03, -4.8218e-03],
+        [ 1.8673e-06,  3.1638e-04,  8.4763e-03,  ...,  1.6434e-02,
+         -4.4417e-04,  1.0506e-02]], device='cuda:0')
+Epoch 32, bias, value: tensor([-0.0098,  0.0187, -0.0019, -0.0084,  0.0165, -0.0303,  0.0113, -0.0041,
+         0.0030, -0.0110], device='cuda:0'), grad: tensor([-0.0110, -0.0691,  0.0233, -0.0019,  0.0732, -0.0158, -0.0031,  0.0237,
+         0.0036, -0.0229], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 31, time 214.29, cls_loss 0.8799 cls_loss_mapping 0.0645 cls_loss_causal 0.7468 re_mapping 0.0331 re_causal 0.0723 /// teacc 97.42 lr 0.00010000
+Epoch 33, weight, value: tensor([[-0.0191, -0.0307, -0.0506,  ..., -0.0097,  0.0387, -0.0554],
+        [-0.0206, -0.0505, -0.0158,  ...,  0.0754, -0.0371,  0.1025],
+        [ 0.0174, -0.0219, -0.0062,  ..., -0.0101, -0.0058, -0.0394],
+        ...,
+        [ 0.0021, -0.0448,  0.0790,  ...,  0.0023, -0.0224,  0.0225],
+        [-0.0042,  0.0379, -0.0507,  ..., -0.0287, -0.0226, -0.0376],
+        [-0.0346,  0.0463,  0.0469,  ..., -0.0370, -0.0169, -0.0041]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-08,  2.8305e-03,  3.9864e-03,  ...,  6.4964e-03,
+          8.0585e-04,  1.3905e-03],
+        [ 3.3434e-07,  1.5187e-04,  8.9931e-04,  ...,  9.6560e-04,
+          6.8283e-04, -2.9392e-03],
+        [ 2.4475e-06,  5.0497e-04, -7.8087e-03,  ...,  2.5158e-03,
+          4.9543e-04,  1.4973e-03],
+        ...,
+        [-2.3201e-05,  1.8568e-03, -7.4768e-03,  ...,  5.4300e-05,
+          4.6968e-05,  4.5633e-04],
+        [ 3.1181e-06, -2.5139e-03, -9.5901e-03,  ..., -9.0256e-03,
+          2.1133e-03,  4.0092e-03],
+        [ 4.2468e-06,  4.7913e-03,  9.3613e-03,  ...,  9.8190e-03,
+          2.6226e-04,  1.0118e-03]], device='cuda:0')
+Epoch 33, bias, value: tensor([-0.0101,  0.0186, -0.0021, -0.0080,  0.0168, -0.0302,  0.0115, -0.0043,
+         0.0028, -0.0110], device='cuda:0'), grad: tensor([ 0.0227,  0.0072,  0.0034,  0.0209, -0.0114,  0.0382, -0.0957, -0.0016,
+        -0.0165,  0.0329], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 32, time 214.22, cls_loss 0.8847 cls_loss_mapping 0.0652 cls_loss_causal 0.7558 re_mapping 0.0327 re_causal 0.0737 /// teacc 97.47 lr 0.00010000
+Epoch 34, weight, value: tensor([[-0.0193, -0.0317, -0.0502,  ..., -0.0098,  0.0387, -0.0561],
+        [-0.0208, -0.0504, -0.0157,  ...,  0.0771, -0.0347,  0.1038],
+        [ 0.0173, -0.0223, -0.0066,  ..., -0.0108, -0.0082, -0.0396],
+        ...,
+        [ 0.0019, -0.0447,  0.0801,  ...,  0.0014, -0.0238,  0.0232],
+        [-0.0041,  0.0389, -0.0505,  ..., -0.0283, -0.0217, -0.0380],
+        [-0.0346,  0.0459,  0.0450,  ..., -0.0382, -0.0175, -0.0053]],
+       device='cuda:0'), grad: tensor([[ 0.0000,  0.0032,  0.0069,  ...,  0.0065, -0.0008,  0.0112],
+        [ 0.0000,  0.0042, -0.0024,  ...,  0.0110, -0.0016, -0.0075],
+        [ 0.0000,  0.0050,  0.0073,  ...,  0.0034,  0.0020,  0.0024],
+        ...,
+        [ 0.0000,  0.0036, -0.0076,  ...,  0.0025, -0.0120,  0.0016],
+        [ 0.0000,  0.0132,  0.0122,  ...,  0.0072,  0.0031,  0.0023],
+        [ 0.0000, -0.0276, -0.0126,  ..., -0.0014,  0.0026,  0.0002]],
+       device='cuda:0')
+Epoch 34, bias, value: tensor([-0.0097,  0.0192, -0.0026, -0.0074,  0.0170, -0.0301,  0.0115, -0.0048,
+         0.0027, -0.0118], device='cuda:0'), grad: tensor([ 0.0225,  0.0112,  0.0286,  0.0406, -0.0466,  0.0123, -0.0445, -0.0400,
+         0.0551, -0.0393], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 33, time 214.50, cls_loss 0.8869 cls_loss_mapping 0.0616 cls_loss_causal 0.7513 re_mapping 0.0318 re_causal 0.0704 /// teacc 97.37 lr 0.00010000
+Epoch 35, weight, value: tensor([[-0.0197, -0.0324, -0.0503,  ..., -0.0098,  0.0383, -0.0551],
+        [-0.0212, -0.0505, -0.0157,  ...,  0.0774, -0.0356,  0.1055],
+        [ 0.0161, -0.0223, -0.0066,  ..., -0.0107, -0.0075, -0.0404],
+        ...,
+        [ 0.0024, -0.0452,  0.0808,  ...,  0.0018, -0.0240,  0.0240],
+        [-0.0041,  0.0385, -0.0509,  ..., -0.0285, -0.0222, -0.0389],
+        [-0.0349,  0.0475,  0.0457,  ..., -0.0389, -0.0164, -0.0063]],
+       device='cuda:0'), grad: tensor([[ 0.0000,  0.0017,  0.0076,  ...,  0.0055,  0.0009,  0.0026],
+        [ 0.0000, -0.0055, -0.0098,  ..., -0.0089, -0.0004, -0.0075],
+        [ 0.0000, -0.0033, -0.0153,  ..., -0.0137,  0.0001, -0.0041],
+        ...,
+        [ 0.0000,  0.0030, -0.0046,  ...,  0.0032,  0.0118,  0.0028],
+        [ 0.0000,  0.0045,  0.0049,  ...,  0.0004,  0.0015,  0.0036],
+        [ 0.0000,  0.0011,  0.0063,  ...,  0.0089,  0.0009,  0.0033]],
+       device='cuda:0')
+Epoch 35, bias, value: tensor([-0.0101,  0.0189, -0.0027, -0.0071,  0.0165, -0.0306,  0.0115, -0.0038,
+         0.0027, -0.0113], device='cuda:0'), grad: tensor([ 0.0250, -0.0105, -0.0544, -0.0125, -0.0432,  0.0295,  0.0173, -0.0130,
+         0.0077,  0.0541], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 34----------------------------------------------------
+epoch 34, time 231.00, cls_loss 0.8966 cls_loss_mapping 0.0667 cls_loss_causal 0.7646 re_mapping 0.0308 re_causal 0.0685 /// teacc 97.62 lr 0.00010000
+Epoch 36, weight, value: tensor([[-0.0203, -0.0330, -0.0513,  ..., -0.0109,  0.0384, -0.0551],
+        [-0.0212, -0.0495, -0.0154,  ...,  0.0778, -0.0356,  0.1061],
+        [ 0.0163, -0.0224, -0.0066,  ..., -0.0114, -0.0068, -0.0408],
+        ...,
+        [ 0.0022, -0.0470,  0.0811,  ...,  0.0024, -0.0239,  0.0238],
+        [-0.0035,  0.0379, -0.0517,  ..., -0.0285, -0.0219, -0.0397],
+        [-0.0347,  0.0487,  0.0459,  ..., -0.0389, -0.0169, -0.0063]],
+       device='cuda:0'), grad: tensor([[ 9.2983e-06, -1.7883e-02, -3.5439e-03,  ..., -2.6321e-02,
+         -9.7809e-03, -5.3940e-03],
+        [ 1.7270e-05,  2.8248e-03, -2.8114e-03,  ..., -1.0338e-02,
+          2.1420e-03, -1.6403e-03],
+        [-8.8310e-04,  7.2975e-03, -1.8559e-03,  ..., -7.8506e-03,
+          1.0628e-02,  2.7523e-03],
+        ...,
+        [ 3.0017e-04,  8.6746e-03,  1.1230e-02,  ...,  9.0485e-03,
+          1.3285e-03,  7.3738e-03],
+        [ 1.1104e-04,  1.1368e-02,  5.6343e-03,  ...,  1.7746e-02,
+          4.1084e-03,  1.9646e-03],
+        [ 7.5214e-06, -1.2123e-02, -1.2764e-02,  ..., -5.2910e-03,
+          3.0308e-03, -8.0948e-03]], device='cuda:0')
+Epoch 36, bias, value: tensor([-0.0113,  0.0192, -0.0025, -0.0070,  0.0166, -0.0303,  0.0115, -0.0031,
+         0.0024, -0.0116], device='cuda:0'), grad: tensor([-0.0520, -0.0199, -0.0167, -0.0229,  0.0099,  0.0288,  0.0127,  0.0289,
+         0.0496, -0.0183], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 35----------------------------------------------------
+epoch 35, time 230.67, cls_loss 0.8979 cls_loss_mapping 0.0703 cls_loss_causal 0.7711 re_mapping 0.0299 re_causal 0.0665 /// teacc 97.81 lr 0.00010000
+Epoch 37, weight, value: tensor([[-0.0214, -0.0338, -0.0509,  ..., -0.0100,  0.0382, -0.0546],
+        [-0.0210, -0.0489, -0.0156,  ...,  0.0780, -0.0358,  0.1064],
+        [ 0.0173, -0.0221, -0.0072,  ..., -0.0121, -0.0071, -0.0422],
+        ...,
+        [ 0.0021, -0.0475,  0.0819,  ...,  0.0027, -0.0233,  0.0242],
+        [-0.0048,  0.0377, -0.0518,  ..., -0.0294, -0.0221, -0.0393],
+        [-0.0347,  0.0491,  0.0450,  ..., -0.0389, -0.0174, -0.0066]],
+       device='cuda:0'), grad: tensor([[ 1.5271e-04,  5.3139e-03,  7.6218e-03,  ..., -5.7793e-03,
+         -1.8711e-03, -7.7477e-03],
+        [ 7.6592e-05,  2.6016e-03,  3.0613e-03,  ...,  1.9775e-02,
+          3.8981e-04,  9.1171e-03],
+        [ 1.2791e-04,  8.2111e-04,  1.7631e-04,  ..., -3.5591e-03,
+          1.0738e-03, -1.0691e-03],
+        ...,
+        [ 4.5329e-05,  6.9427e-04,  3.5400e-03,  ...,  8.4839e-03,
+          9.2888e-04,  1.3390e-03],
+        [-8.8978e-04, -7.7858e-03, -5.1727e-03,  ...,  6.6566e-03,
+         -1.3218e-03,  1.8654e-03],
+        [ 2.1398e-04,  1.3638e-03, -1.0689e-02,  ..., -6.5079e-03,
+         -1.3494e-04,  3.9711e-03]], device='cuda:0')
+Epoch 37, bias, value: tensor([-0.0105,  0.0188, -0.0022, -0.0072,  0.0167, -0.0302,  0.0107, -0.0033,
+         0.0027, -0.0115], device='cuda:0'), grad: tensor([-0.0070,  0.0391,  0.0070,  0.0205, -0.0211,  0.0307, -0.0658,  0.0286,
+        -0.0067, -0.0253], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 36, time 214.49, cls_loss 0.8868 cls_loss_mapping 0.0695 cls_loss_causal 0.7595 re_mapping 0.0309 re_causal 0.0675 /// teacc 97.49 lr 0.00010000
+Epoch 38, weight, value: tensor([[-0.0213, -0.0335, -0.0510,  ..., -0.0104,  0.0389, -0.0557],
+        [-0.0212, -0.0497, -0.0159,  ...,  0.0778, -0.0366,  0.1074],
+        [ 0.0173, -0.0210, -0.0071,  ..., -0.0124, -0.0076, -0.0430],
+        ...,
+        [ 0.0027, -0.0479,  0.0827,  ...,  0.0046, -0.0233,  0.0248],
+        [-0.0032,  0.0376, -0.0528,  ..., -0.0293, -0.0211, -0.0387],
+        [-0.0371,  0.0498,  0.0457,  ..., -0.0397, -0.0177, -0.0068]],
+       device='cuda:0'), grad: tensor([[ 1.0962e-06,  3.0880e-03,  6.4049e-03,  ...,  2.0355e-02,
+          3.8204e-03,  2.0790e-03],
+        [ 4.8764e-06, -8.3771e-03, -3.3073e-03,  ...,  8.1329e-03,
+         -2.2507e-02, -7.1030e-03],
+        [ 2.4962e-04,  7.9727e-04, -4.1046e-03,  ..., -3.8376e-03,
+          1.2743e-04,  1.2770e-03],
+        ...,
+        [ 2.4572e-05,  6.3248e-03,  5.5008e-03,  ...,  3.1414e-03,
+          1.2192e-02,  3.6049e-03],
+        [ 2.7746e-05,  6.3133e-04,  3.9558e-03,  ...,  8.9188e-03,
+          1.6069e-03,  1.8940e-03],
+        [ 5.8375e-06, -5.1355e-04,  7.9651e-03,  ...,  1.2093e-02,
+          3.8700e-03,  2.0294e-03]], device='cuda:0')
+Epoch 38, bias, value: tensor([-0.0103,  0.0187, -0.0022, -0.0069,  0.0166, -0.0309,  0.0103, -0.0027,
+         0.0028, -0.0115], device='cuda:0'), grad: tensor([ 0.0613, -0.0061, -0.0187, -0.0197, -0.0136, -0.0352, -0.0471,  0.0176,
+         0.0265,  0.0349], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 37, time 214.46, cls_loss 0.8399 cls_loss_mapping 0.0594 cls_loss_causal 0.7121 re_mapping 0.0301 re_causal 0.0660 /// teacc 97.61 lr 0.00010000
+Epoch 39, weight, value: tensor([[-0.0219, -0.0344, -0.0514,  ..., -0.0116,  0.0396, -0.0573],
+        [-0.0215, -0.0502, -0.0160,  ...,  0.0779, -0.0361,  0.1080],
+        [ 0.0160, -0.0210, -0.0059,  ..., -0.0117, -0.0078, -0.0440],
+        ...,
+        [ 0.0035, -0.0483,  0.0821,  ...,  0.0039, -0.0239,  0.0252],
+        [-0.0027,  0.0390, -0.0539,  ..., -0.0303, -0.0204, -0.0393],
+        [-0.0375,  0.0494,  0.0466,  ..., -0.0392, -0.0182, -0.0070]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.2888e-03, -3.5629e-03,  ...,  4.6082e-03,
+          8.1110e-04, -1.0605e-03],
+        [ 3.5390e-08,  2.4567e-03,  7.3776e-03,  ...,  2.8515e-03,
+         -6.3479e-05, -9.7885e-03],
+        [ 1.8068e-07,  2.7905e-03, -2.2945e-03,  ..., -2.3773e-02,
+         -3.3474e-04,  7.0381e-04],
+        ...,
+        [ 1.7695e-08, -3.2330e-03, -1.2138e-02,  ..., -4.0092e-03,
+         -1.8191e-04, -3.2330e-03],
+        [ 2.4438e-06, -3.5906e-04,  1.5373e-03,  ...,  2.6016e-03,
+          7.1716e-04, -4.3793e-03],
+        [ 5.5879e-09,  7.1983e-03,  4.2572e-03,  ...,  9.1410e-04,
+          4.2176e-04,  1.1940e-02]], device='cuda:0')
+Epoch 39, bias, value: tensor([-0.0104,  0.0192, -0.0010, -0.0069,  0.0156, -0.0309,  0.0107, -0.0033,
+         0.0021, -0.0110], device='cuda:0'), grad: tensor([-0.0080,  0.0214, -0.0464,  0.0231,  0.0078, -0.0651,  0.0531, -0.0052,
+         0.0060,  0.0133], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 38----------------------------------------------------
+epoch 38, time 232.24, cls_loss 0.8235 cls_loss_mapping 0.0562 cls_loss_causal 0.6951 re_mapping 0.0313 re_causal 0.0668 /// teacc 97.86 lr 0.00010000
+Epoch 40, weight, value: tensor([[-0.0232, -0.0353, -0.0522,  ..., -0.0119,  0.0396, -0.0579],
+        [-0.0223, -0.0513, -0.0173,  ...,  0.0778, -0.0347,  0.1081],
+        [ 0.0162, -0.0213, -0.0054,  ..., -0.0124, -0.0080, -0.0447],
+        ...,
+        [ 0.0035, -0.0474,  0.0828,  ...,  0.0043, -0.0255,  0.0265],
+        [-0.0036,  0.0396, -0.0541,  ..., -0.0300, -0.0202, -0.0385],
+        [-0.0388,  0.0498,  0.0466,  ..., -0.0393, -0.0182, -0.0076]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -6.8893e-03,  4.6164e-05,  ..., -4.1924e-03,
+         -3.8552e-04, -1.7309e-03],
+        [ 0.0000e+00,  2.0826e-04,  1.2989e-03,  ..., -6.9275e-03,
+          8.7500e-04, -1.0010e-02],
+        [ 0.0000e+00, -2.1195e-04,  7.0763e-03,  ...,  1.3145e-02,
+         -4.4479e-03,  1.5831e-03],
+        ...,
+        [ 3.7253e-07,  5.7697e-04,  6.4812e-03,  ...,  1.2619e-02,
+          4.1008e-04,  1.6708e-03],
+        [ 1.9651e-07, -2.8629e-03, -3.3531e-03,  ...,  9.7198e-03,
+          2.9945e-03,  2.7122e-03],
+        [-7.8231e-07, -2.3289e-03, -1.4664e-02,  ..., -1.4641e-02,
+         -6.2103e-03,  3.3855e-03]], device='cuda:0')
+Epoch 40, bias, value: tensor([-0.0107,  0.0186, -0.0012, -0.0070,  0.0165, -0.0311,  0.0110, -0.0034,
+         0.0019, -0.0107], device='cuda:0'), grad: tensor([-0.0117, -0.0254,  0.0353,  0.0096, -0.1215,  0.0702,  0.0079,  0.0341,
+         0.0174, -0.0159], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 39, time 214.37, cls_loss 0.8404 cls_loss_mapping 0.0599 cls_loss_causal 0.7230 re_mapping 0.0281 re_causal 0.0608 /// teacc 97.67 lr 0.00010000
+Epoch 41, weight, value: tensor([[-0.0242, -0.0349, -0.0527,  ..., -0.0125,  0.0394, -0.0578],
+        [-0.0215, -0.0518, -0.0172,  ...,  0.0781, -0.0361,  0.1100],
+        [ 0.0154, -0.0219, -0.0056,  ..., -0.0122, -0.0069, -0.0449],
+        ...,
+        [ 0.0030, -0.0476,  0.0833,  ...,  0.0050, -0.0263,  0.0256],
+        [-0.0042,  0.0402, -0.0543,  ..., -0.0298, -0.0202, -0.0383],
+        [-0.0385,  0.0500,  0.0467,  ..., -0.0391, -0.0177, -0.0080]],
+       device='cuda:0'), grad: tensor([[ 3.9376e-06, -3.7918e-03, -4.1122e-03,  ..., -3.0785e-03,
+          2.0351e-03,  2.2621e-03],
+        [ 1.5320e-06,  1.2569e-03,  1.0624e-03,  ..., -9.4128e-04,
+          6.5327e-04, -2.0142e-03],
+        [ 5.2527e-07,  7.3481e-04, -3.4084e-03,  ..., -9.0256e-03,
+         -2.0599e-03,  6.9857e-04],
+        ...,
+        [ 3.4887e-06,  4.3869e-03,  5.2376e-03,  ...,  5.4665e-03,
+          2.1572e-03,  3.5992e-03],
+        [-2.6494e-05, -3.9337e-02, -1.6846e-02,  ...,  2.0542e-03,
+         -3.4607e-02,  2.0542e-03],
+        [ 2.2240e-06,  2.6733e-02,  7.9269e-03,  ..., -8.3542e-03,
+          2.3590e-02, -1.2383e-02]], device='cuda:0')
+Epoch 41, bias, value: tensor([-0.0107,  0.0192, -0.0012, -0.0070,  0.0164, -0.0315,  0.0106, -0.0034,
+         0.0022, -0.0107], device='cuda:0'), grad: tensor([-0.0532,  0.0065, -0.0217,  0.0141,  0.0393,  0.0370, -0.0051,  0.0211,
+        -0.0089, -0.0292], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 40----------------------------------------------------
+epoch 40, time 230.61, cls_loss 0.8366 cls_loss_mapping 0.0535 cls_loss_causal 0.7018 re_mapping 0.0299 re_causal 0.0630 /// teacc 98.00 lr 0.00010000
+Epoch 42, weight, value: tensor([[-0.0247, -0.0359, -0.0540,  ..., -0.0134,  0.0387, -0.0594],
+        [-0.0214, -0.0534, -0.0181,  ...,  0.0777, -0.0359,  0.1100],
+        [ 0.0154, -0.0225, -0.0056,  ..., -0.0117, -0.0067, -0.0444],
+        ...,
+        [ 0.0017, -0.0487,  0.0838,  ...,  0.0053, -0.0268,  0.0265],
+        [-0.0057,  0.0392, -0.0554,  ..., -0.0297, -0.0203, -0.0385],
+        [-0.0379,  0.0497,  0.0467,  ..., -0.0386, -0.0191, -0.0089]],
+       device='cuda:0'), grad: tensor([[ 2.4587e-05,  7.0095e-05,  2.5406e-03,  ...,  6.4888e-03,
+          8.6117e-04,  2.3022e-03],
+        [ 3.7905e-06,  2.1350e-04, -5.5695e-03,  ..., -4.8447e-03,
+          5.2643e-03, -7.2098e-03],
+        [-9.7580e-03, -8.0719e-03, -7.3792e-02,  ..., -2.8397e-02,
+         -2.1912e-02, -2.8961e-02],
+        ...,
+        [ 6.9847e-03,  7.0610e-03,  3.2990e-02,  ...,  2.2400e-02,
+          1.0139e-02,  2.0859e-02],
+        [-3.2158e-03,  2.5201e-04,  4.3716e-03,  ...,  5.4359e-03,
+          1.1997e-03,  2.3441e-03],
+        [ 4.0948e-05, -4.3526e-03, -2.2144e-03,  ...,  1.7796e-03,
+         -1.9312e-03,  7.9966e-04]], device='cuda:0')
+Epoch 42, bias, value: tensor([-0.0112,  0.0189, -0.0012, -0.0072,  0.0172, -0.0308,  0.0105, -0.0036,
+         0.0027, -0.0113], device='cuda:0'), grad: tensor([ 2.6901e-02,  7.4911e-04, -1.1530e-01,  5.2155e-02, -5.7012e-05,
+        -2.2003e-02, -9.4223e-03,  6.0272e-02,  8.9798e-03, -2.2106e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 41, time 214.46, cls_loss 0.8315 cls_loss_mapping 0.0527 cls_loss_causal 0.7021 re_mapping 0.0285 re_causal 0.0613 /// teacc 97.82 lr 0.00010000
+Epoch 43, weight, value: tensor([[-0.0258, -0.0356, -0.0537,  ..., -0.0131,  0.0393, -0.0585],
+        [-0.0229, -0.0541, -0.0179,  ...,  0.0780, -0.0367,  0.1108],
+        [ 0.0163, -0.0231, -0.0052,  ..., -0.0122, -0.0064, -0.0452],
+        ...,
+        [ 0.0010, -0.0485,  0.0835,  ...,  0.0052, -0.0281,  0.0275],
+        [-0.0056,  0.0395, -0.0567,  ..., -0.0292, -0.0200, -0.0392],
+        [-0.0376,  0.0507,  0.0472,  ..., -0.0396, -0.0181, -0.0104]],
+       device='cuda:0'), grad: tensor([[ 8.6352e-06, -8.6021e-04,  1.6575e-03,  ...,  1.9789e-04,
+          6.4468e-03, -2.5082e-03],
+        [ 1.4426e-06, -3.9792e-04, -7.7629e-03,  ..., -5.9929e-03,
+         -5.9662e-03, -7.4348e-03],
+        [ 2.0824e-06,  1.4639e-03,  1.8492e-03,  ...,  4.7760e-03,
+          1.4191e-03,  2.4548e-03],
+        ...,
+        [ 8.9109e-06,  7.3814e-04, -1.7061e-03,  ..., -4.4479e-03,
+         -8.2855e-03, -5.9090e-03],
+        [ 3.3110e-05,  9.6436e-03,  5.7526e-03,  ...,  8.7051e-03,
+         -1.0338e-02,  4.0550e-03],
+        [ 2.0951e-05,  1.7033e-03,  3.3531e-03,  ...,  4.6730e-03,
+          6.4812e-03,  4.9553e-03]], device='cuda:0')
+Epoch 43, bias, value: tensor([-0.0111,  0.0189, -0.0016, -0.0065,  0.0169, -0.0315,  0.0103, -0.0037,
+         0.0030, -0.0110], device='cuda:0'), grad: tensor([ 0.0116, -0.0250,  0.0182, -0.0217,  0.0144, -0.0065,  0.0105, -0.0472,
+         0.0113,  0.0345], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 42, time 214.13, cls_loss 0.8412 cls_loss_mapping 0.0525 cls_loss_causal 0.7236 re_mapping 0.0277 re_causal 0.0601 /// teacc 97.83 lr 0.00010000
+Epoch 44, weight, value: tensor([[-0.0266, -0.0364, -0.0533,  ..., -0.0139,  0.0397, -0.0579],
+        [-0.0228, -0.0546, -0.0179,  ...,  0.0775, -0.0369,  0.1109],
+        [ 0.0169, -0.0229, -0.0058,  ..., -0.0121, -0.0070, -0.0470],
+        ...,
+        [ 0.0010, -0.0499,  0.0838,  ...,  0.0056, -0.0290,  0.0279],
+        [-0.0068,  0.0392, -0.0563,  ..., -0.0286, -0.0204, -0.0395],
+        [-0.0386,  0.0511,  0.0463,  ..., -0.0400, -0.0173, -0.0105]],
+       device='cuda:0'), grad: tensor([[ 2.2545e-05,  3.1929e-03,  2.9945e-03,  ..., -4.0054e-03,
+         -1.1391e-02, -9.6512e-03],
+        [ 4.6206e-04,  1.9331e-03,  2.5883e-03,  ...,  5.8441e-03,
+          5.9242e-03,  7.4844e-03],
+        [ 2.7359e-05,  5.6458e-04,  9.0714e-03,  ...,  7.5865e-04,
+          2.2602e-03,  1.0052e-03],
+        ...,
+        [-1.2302e-03,  2.4533e-04,  4.7684e-03,  ...,  9.0790e-04,
+          1.0262e-02, -8.8272e-03],
+        [ 4.4394e-04,  6.4278e-03,  6.1684e-03,  ...,  4.4060e-03,
+          4.0741e-03,  6.6528e-03],
+        [ 8.2612e-05, -8.5449e-03, -2.5635e-02,  ...,  1.9855e-03,
+         -1.9180e-02, -1.7929e-03]], device='cuda:0')
+Epoch 44, bias, value: tensor([-0.0118,  0.0184, -0.0016, -0.0068,  0.0172, -0.0310,  0.0108, -0.0042,
+         0.0037, -0.0111], device='cuda:0'), grad: tensor([-0.0061,  0.0322,  0.0255,  0.0339,  0.0120, -0.0120, -0.0852, -0.0016,
+         0.0267, -0.0255], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 43, time 214.28, cls_loss 0.8535 cls_loss_mapping 0.0513 cls_loss_causal 0.7193 re_mapping 0.0275 re_causal 0.0591 /// teacc 97.80 lr 0.00010000
+Epoch 45, weight, value: tensor([[-0.0269, -0.0368, -0.0535,  ..., -0.0133,  0.0403, -0.0577],
+        [-0.0232, -0.0534, -0.0171,  ...,  0.0778, -0.0359,  0.1114],
+        [ 0.0170, -0.0240, -0.0063,  ..., -0.0116, -0.0078, -0.0469],
+        ...,
+        [ 0.0019, -0.0497,  0.0852,  ...,  0.0055, -0.0287,  0.0278],
+        [-0.0083,  0.0391, -0.0571,  ..., -0.0287, -0.0193, -0.0408],
+        [-0.0386,  0.0511,  0.0475,  ..., -0.0404, -0.0181, -0.0099]],
+       device='cuda:0'), grad: tensor([[ 0.0000,  0.0035,  0.0029,  ...,  0.0034, -0.0003,  0.0030],
+        [ 0.0000, -0.0058,  0.0009,  ..., -0.0060,  0.0005, -0.0031],
+        [ 0.0000,  0.0058,  0.0068,  ...,  0.0003, -0.0017,  0.0025],
+        ...,
+        [ 0.0000, -0.0235, -0.0384,  ...,  0.0007, -0.0003, -0.0023],
+        [ 0.0000,  0.0278,  0.0376,  ...,  0.0070,  0.0064,  0.0043],
+        [ 0.0000, -0.0258,  0.0038,  ...,  0.0023,  0.0011,  0.0009]],
+       device='cuda:0')
+Epoch 45, bias, value: tensor([-0.0112,  0.0187, -0.0015, -0.0073,  0.0166, -0.0308,  0.0110, -0.0043,
+         0.0042, -0.0115], device='cuda:0'), grad: tensor([ 0.0165, -0.0094,  0.0056,  0.0151,  0.0002, -0.0140, -0.0166, -0.0218,
+         0.0394, -0.0150], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 44, time 214.16, cls_loss 0.7860 cls_loss_mapping 0.0463 cls_loss_causal 0.6671 re_mapping 0.0279 re_causal 0.0599 /// teacc 97.91 lr 0.00010000
+Epoch 46, weight, value: tensor([[-0.0265, -0.0362, -0.0530,  ..., -0.0141,  0.0403, -0.0572],
+        [-0.0233, -0.0544, -0.0175,  ...,  0.0787, -0.0359,  0.1127],
+        [ 0.0172, -0.0239, -0.0063,  ..., -0.0117, -0.0078, -0.0469],
+        ...,
+        [ 0.0008, -0.0494,  0.0853,  ...,  0.0055, -0.0285,  0.0283],
+        [-0.0064,  0.0384, -0.0582,  ..., -0.0291, -0.0187, -0.0421],
+        [-0.0400,  0.0522,  0.0479,  ..., -0.0413, -0.0173, -0.0098]],
+       device='cuda:0'), grad: tensor([[ 2.3842e-06,  2.9011e-03,  7.9803e-03,  ...,  1.0704e-02,
+          0.0000e+00,  3.8757e-03],
+        [ 5.5954e-06, -7.1907e-03, -6.5613e-03,  ..., -1.4473e-02,
+          3.7253e-09, -5.2109e-03],
+        [ 1.7256e-05, -1.6289e-03, -8.6288e-03,  ...,  9.3231e-03,
+         -1.5691e-05,  4.6158e-03],
+        ...,
+        [-1.2803e-04,  1.6356e-03,  7.8735e-03,  ...,  1.2817e-02,
+          5.7630e-06,  8.8577e-03],
+        [ 3.5673e-05,  2.8172e-03,  7.3128e-03,  ...,  9.1629e-03,
+          5.0385e-07,  6.5079e-03],
+        [ 1.0127e-04, -3.5667e-03, -6.1188e-03,  ..., -1.1826e-02,
+          0.0000e+00, -8.1406e-03]], device='cuda:0')
+Epoch 46, bias, value: tensor([-0.0118,  0.0187, -0.0010, -0.0075,  0.0171, -0.0307,  0.0106, -0.0039,
+         0.0035, -0.0112], device='cuda:0'), grad: tensor([ 0.0303, -0.0233,  0.0107, -0.0123, -0.0010,  0.0173, -0.0536,  0.0394,
+         0.0294, -0.0369], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 45, time 214.15, cls_loss 0.8077 cls_loss_mapping 0.0431 cls_loss_causal 0.6804 re_mapping 0.0275 re_causal 0.0606 /// teacc 97.75 lr 0.00010000
+Epoch 47, weight, value: tensor([[-0.0266, -0.0369, -0.0545,  ..., -0.0157,  0.0402, -0.0584],
+        [-0.0245, -0.0549, -0.0185,  ...,  0.0784, -0.0354,  0.1143],
+        [ 0.0178, -0.0237, -0.0060,  ..., -0.0128, -0.0078, -0.0451],
+        ...,
+        [ 0.0006, -0.0493,  0.0860,  ...,  0.0066, -0.0288,  0.0279],
+        [-0.0064,  0.0391, -0.0579,  ..., -0.0291, -0.0190, -0.0424],
+        [-0.0396,  0.0510,  0.0470,  ..., -0.0416, -0.0171, -0.0110]],
+       device='cuda:0'), grad: tensor([[ 8.8394e-05, -2.6360e-03,  2.5177e-03,  ...,  3.4523e-03,
+         -9.5062e-03,  7.6818e-04],
+        [ 3.8922e-05,  6.7616e-04,  6.0892e-04,  ..., -8.0566e-03,
+          5.8889e-04,  1.2195e-04],
+        [-1.1063e-04, -1.4893e-02,  3.1021e-02,  ...,  1.4191e-02,
+         -5.3823e-05,  3.0766e-03],
+        ...,
+        [-2.4624e-03, -4.1389e-04, -5.9204e-02,  ..., -3.5675e-02,
+          5.2786e-04, -3.4599e-03],
+        [-2.1072e-02, -1.1787e-02,  1.5574e-03,  ...,  8.1635e-03,
+          2.4452e-03, -2.6464e-05],
+        [ 2.0645e-02,  1.3275e-02, -1.0099e-03,  ...,  6.5422e-03,
+          9.8133e-04, -1.7529e-03]], device='cuda:0')
+Epoch 47, bias, value: tensor([-0.0122,  0.0188, -0.0008, -0.0070,  0.0179, -0.0313,  0.0108, -0.0037,
+         0.0032, -0.0118], device='cuda:0'), grad: tensor([-0.0014, -0.0146,  0.0055,  0.0422, -0.0097,  0.0379, -0.0322, -0.0515,
+        -0.0092,  0.0328], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 46, time 214.19, cls_loss 0.7863 cls_loss_mapping 0.0411 cls_loss_causal 0.6665 re_mapping 0.0271 re_causal 0.0585 /// teacc 97.63 lr 0.00010000
+Epoch 48, weight, value: tensor([[-0.0253, -0.0380, -0.0553,  ..., -0.0157,  0.0411, -0.0588],
+        [-0.0249, -0.0556, -0.0182,  ...,  0.0796, -0.0358,  0.1152],
+        [ 0.0178, -0.0237, -0.0064,  ..., -0.0136, -0.0072, -0.0459],
+        ...,
+        [ 0.0003, -0.0495,  0.0873,  ...,  0.0066, -0.0283,  0.0281],
+        [-0.0044,  0.0392, -0.0587,  ..., -0.0287, -0.0194, -0.0431],
+        [-0.0416,  0.0516,  0.0463,  ..., -0.0425, -0.0181, -0.0108]],
+       device='cuda:0'), grad: tensor([[ 0.0000, -0.0014, -0.0050,  ..., -0.0029,  0.0008, -0.0017],
+        [ 0.0000,  0.0085,  0.0052,  ...,  0.0086,  0.0043,  0.0013],
+        [ 0.0000,  0.0004, -0.0135,  ..., -0.0191, -0.0093, -0.0071],
+        ...,
+        [ 0.0000,  0.0024,  0.0115,  ...,  0.0154,  0.0011,  0.0073],
+        [ 0.0000, -0.0082, -0.0032,  ..., -0.0034, -0.0106, -0.0022],
+        [ 0.0000, -0.0030,  0.0038,  ...,  0.0057,  0.0009,  0.0024]],
+       device='cuda:0')
+Epoch 48, bias, value: tensor([-0.0125,  0.0200, -0.0012, -0.0066,  0.0175, -0.0311,  0.0102, -0.0040,
+         0.0037, -0.0121], device='cuda:0'), grad: tensor([-0.0083,  0.0297, -0.0665, -0.0049,  0.0281, -0.0093,  0.0003,  0.0418,
+        -0.0057, -0.0051], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 47, time 214.51, cls_loss 0.8393 cls_loss_mapping 0.0487 cls_loss_causal 0.7269 re_mapping 0.0271 re_causal 0.0585 /// teacc 97.90 lr 0.00010000
+Epoch 49, weight, value: tensor([[-0.0266, -0.0391, -0.0557,  ..., -0.0162,  0.0411, -0.0594],
+        [-0.0249, -0.0560, -0.0191,  ...,  0.0792, -0.0370,  0.1154],
+        [ 0.0175, -0.0236, -0.0069,  ..., -0.0134, -0.0065, -0.0461],
+        ...,
+        [ 0.0002, -0.0500,  0.0877,  ...,  0.0076, -0.0297,  0.0286],
+        [-0.0049,  0.0392, -0.0581,  ..., -0.0300, -0.0193, -0.0435],
+        [-0.0412,  0.0524,  0.0463,  ..., -0.0431, -0.0174, -0.0112]],
+       device='cuda:0'), grad: tensor([[ 0.0000, -0.0019, -0.0104,  ..., -0.0130,  0.0040, -0.0121],
+        [ 0.0000,  0.0019,  0.0043,  ...,  0.0066,  0.0036,  0.0040],
+        [ 0.0000,  0.0015,  0.0037,  ...,  0.0072,  0.0028,  0.0037],
+        ...,
+        [ 0.0000,  0.0019, -0.0011,  ...,  0.0106,  0.0035, -0.0009],
+        [ 0.0000,  0.0031,  0.0024,  ...,  0.0076,  0.0053,  0.0077],
+        [ 0.0000, -0.0044, -0.0052,  ..., -0.0353, -0.0100, -0.0035]],
+       device='cuda:0')
+Epoch 49, bias, value: tensor([-0.0130,  0.0194, -0.0012, -0.0069,  0.0181, -0.0308,  0.0110, -0.0039,
+         0.0034, -0.0123], device='cuda:0'), grad: tensor([-0.0370,  0.0163,  0.0215,  0.0089, -0.0383,  0.0341, -0.0009,  0.0178,
+         0.0581, -0.0804], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 48, time 214.35, cls_loss 0.8274 cls_loss_mapping 0.0519 cls_loss_causal 0.7216 re_mapping 0.0261 re_causal 0.0562 /// teacc 97.90 lr 0.00010000
+Epoch 50, weight, value: tensor([[-0.0273, -0.0390, -0.0560,  ..., -0.0154,  0.0410, -0.0593],
+        [-0.0251, -0.0572, -0.0198,  ...,  0.0793, -0.0365,  0.1161],
+        [ 0.0178, -0.0234, -0.0062,  ..., -0.0134, -0.0071, -0.0453],
+        ...,
+        [ 0.0007, -0.0503,  0.0878,  ...,  0.0075, -0.0297,  0.0291],
+        [-0.0055,  0.0393, -0.0576,  ..., -0.0303, -0.0191, -0.0456],
+        [-0.0407,  0.0527,  0.0462,  ..., -0.0429, -0.0175, -0.0120]],
+       device='cuda:0'), grad: tensor([[ 4.6082e-06,  3.2663e-04,  4.4465e-04,  ..., -1.6022e-04,
+          9.1171e-04,  9.1410e-04],
+        [ 1.0714e-05,  1.8692e-03,  1.5697e-03,  ...,  7.6981e-03,
+          5.7640e-03,  1.9932e-03],
+        [-5.0402e-04,  1.1301e-03, -1.5518e-02,  ..., -6.5231e-03,
+          1.2665e-03, -1.7633e-03],
+        ...,
+        [ 3.8004e-04,  7.6437e-04,  9.4528e-03,  ..., -9.5129e-04,
+         -2.4170e-02,  1.9093e-03],
+        [ 1.0267e-05, -1.7975e-02, -6.0797e-04,  ..., -2.1343e-03,
+          3.9406e-03, -1.1225e-03],
+        [ 9.0227e-06,  1.7691e-03,  4.9057e-03,  ...,  9.3231e-03,
+          6.0310e-03,  4.9400e-03]], device='cuda:0')
+Epoch 50, bias, value: tensor([-0.0127,  0.0189, -0.0014, -0.0070,  0.0179, -0.0315,  0.0110, -0.0039,
+         0.0040, -0.0116], device='cuda:0'), grad: tensor([-0.0119,  0.0499, -0.0160,  0.0387, -0.0546,  0.0052,  0.0005, -0.0764,
+         0.0156,  0.0490], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 49, time 214.61, cls_loss 0.7766 cls_loss_mapping 0.0506 cls_loss_causal 0.6567 re_mapping 0.0265 re_causal 0.0555 /// teacc 97.78 lr 0.00010000
+Epoch 51, weight, value: tensor([[-0.0280, -0.0398, -0.0561,  ..., -0.0159,  0.0412, -0.0589],
+        [-0.0236, -0.0579, -0.0202,  ...,  0.0794, -0.0367,  0.1173],
+        [ 0.0189, -0.0229, -0.0056,  ..., -0.0130, -0.0065, -0.0448],
+        ...,
+        [ 0.0014, -0.0511,  0.0877,  ...,  0.0074, -0.0297,  0.0287],
+        [-0.0054,  0.0405, -0.0583,  ..., -0.0307, -0.0194, -0.0465],
+        [-0.0424,  0.0530,  0.0462,  ..., -0.0429, -0.0191, -0.0122]],
+       device='cuda:0'), grad: tensor([[ 6.1393e-06,  3.2330e-04,  1.0433e-03,  ...,  5.2185e-03,
+          1.5116e-03,  3.6850e-03],
+        [-3.0088e-04, -9.0885e-04, -6.3324e-03,  ..., -1.8402e-02,
+         -8.2321e-03, -1.6571e-02],
+        [ 2.5541e-05,  7.1239e-04, -1.2581e-02,  ..., -1.9684e-02,
+         -1.2159e-03, -9.7046e-03],
+        ...,
+        [ 4.7469e-04,  4.2200e-04,  2.8992e-02,  ...,  1.7029e-02,
+          1.2379e-03,  2.0401e-02],
+        [ 1.1081e-04, -4.3373e-03, -3.7594e-03,  ..., -8.1635e-03,
+          4.6730e-04, -4.9591e-03],
+        [ 9.7561e-04,  2.9125e-03, -1.5869e-02,  ...,  4.5624e-03,
+          9.5129e-05, -3.1338e-03]], device='cuda:0')
+Epoch 51, bias, value: tensor([-0.0128,  0.0190, -0.0006, -0.0072,  0.0179, -0.0310,  0.0118, -0.0039,
+         0.0030, -0.0121], device='cuda:0'), grad: tensor([ 0.0217, -0.0477, -0.0093,  0.0204, -0.0313,  0.0171,  0.0219,  0.0746,
+        -0.0645, -0.0030], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 50----------------------------------------------------
+epoch 50, time 231.21, cls_loss 0.7822 cls_loss_mapping 0.0408 cls_loss_causal 0.6600 re_mapping 0.0263 re_causal 0.0578 /// teacc 98.04 lr 0.00010000
+Epoch 52, weight, value: tensor([[-0.0297, -0.0397, -0.0564,  ..., -0.0170,  0.0408, -0.0593],
+        [-0.0215, -0.0588, -0.0217,  ...,  0.0805, -0.0365,  0.1182],
+        [ 0.0194, -0.0240, -0.0057,  ..., -0.0130, -0.0063, -0.0445],
+        ...,
+        [-0.0006, -0.0517,  0.0879,  ...,  0.0069, -0.0306,  0.0294],
+        [-0.0053,  0.0405, -0.0587,  ..., -0.0307, -0.0185, -0.0477],
+        [-0.0434,  0.0540,  0.0470,  ..., -0.0432, -0.0197, -0.0127]],
+       device='cuda:0'), grad: tensor([[ 1.3923e-07,  7.1049e-04,  7.1955e-04,  ..., -1.3535e-02,
+          1.7548e-02, -1.3336e-02],
+        [ 3.4738e-07, -8.0776e-04, -1.0624e-03,  ..., -2.0161e-03,
+         -2.7878e-02, -3.7041e-03],
+        [ 2.0787e-06,  1.5688e-03, -7.2956e-04,  ..., -6.3477e-03,
+          3.5439e-03, -5.0211e-04],
+        ...,
+        [ 2.8452e-07,  6.3133e-03,  6.3553e-03,  ...,  4.1733e-03,
+         -4.0550e-03,  1.7151e-02],
+        [-4.8243e-06, -4.5419e-04,  8.8577e-03,  ...,  1.0109e-02,
+         -1.5736e-03,  5.9624e-03],
+        [ 3.0873e-07, -1.2032e-02, -1.7151e-02,  ...,  3.1548e-03,
+          1.7567e-03, -1.4557e-02]], device='cuda:0')
+Epoch 52, bias, value: tensor([-0.0132,  0.0192, -0.0005, -0.0067,  0.0181, -0.0316,  0.0113, -0.0039,
+         0.0035, -0.0124], device='cuda:0'), grad: tensor([-0.0156, -0.0148, -0.0235,  0.0211, -0.0049,  0.0145, -0.0173,  0.0565,
+         0.0051, -0.0214], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 51, time 214.54, cls_loss 0.7783 cls_loss_mapping 0.0382 cls_loss_causal 0.6703 re_mapping 0.0244 re_causal 0.0536 /// teacc 97.94 lr 0.00010000
+Epoch 53, weight, value: tensor([[-0.0277, -0.0394, -0.0567,  ..., -0.0176,  0.0394, -0.0594],
+        [-0.0216, -0.0584, -0.0228,  ...,  0.0801, -0.0360,  0.1187],
+        [ 0.0196, -0.0261, -0.0066,  ..., -0.0140, -0.0063, -0.0454],
+        ...,
+        [-0.0010, -0.0527,  0.0885,  ...,  0.0074, -0.0300,  0.0288],
+        [-0.0058,  0.0413, -0.0588,  ..., -0.0311, -0.0185, -0.0478],
+        [-0.0436,  0.0536,  0.0475,  ..., -0.0426, -0.0213, -0.0120]],
+       device='cuda:0'), grad: tensor([[ 1.0366e-06,  2.3997e-04,  8.7738e-04,  ..., -4.0512e-03,
+         -5.0278e-03, -2.8496e-03],
+        [ 2.0210e-06,  1.7464e-05, -1.7538e-03,  ...,  3.3131e-03,
+          1.1883e-03, -8.7214e-04],
+        [ 1.0341e-05,  8.1599e-05,  4.2076e-03,  ...,  8.3847e-03,
+          5.9271e-04,  1.4267e-03],
+        ...,
+        [ 5.9642e-06,  6.2943e-04,  3.0785e-03,  ...,  4.0894e-03,
+          7.3433e-04,  1.8616e-03],
+        [ 7.4208e-05,  1.3466e-03,  4.1389e-03,  ...,  7.3166e-03,
+          8.9979e-04,  2.6627e-03],
+        [ 3.3453e-06, -2.6131e-03, -6.2132e-04,  ...,  2.2354e-03,
+          5.2023e-04,  7.2575e-04]], device='cuda:0')
+Epoch 53, bias, value: tensor([-0.0131,  0.0187, -0.0014, -0.0058,  0.0180, -0.0322,  0.0117, -0.0038,
+         0.0037, -0.0121], device='cuda:0'), grad: tensor([-0.0162,  0.0025,  0.0170, -0.0415, -0.0117, -0.0176,  0.0053,  0.0078,
+         0.0278,  0.0266], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 52----------------------------------------------------
+epoch 52, time 225.86, cls_loss 0.8073 cls_loss_mapping 0.0421 cls_loss_causal 0.6886 re_mapping 0.0252 re_causal 0.0560 /// teacc 98.05 lr 0.00010000
+Epoch 54, weight, value: tensor([[-0.0281, -0.0392, -0.0567,  ..., -0.0176,  0.0395, -0.0594],
+        [-0.0218, -0.0575, -0.0233,  ...,  0.0798, -0.0356,  0.1201],
+        [ 0.0196, -0.0264, -0.0068,  ..., -0.0138, -0.0056, -0.0445],
+        ...,
+        [-0.0014, -0.0528,  0.0890,  ...,  0.0077, -0.0312,  0.0297],
+        [-0.0065,  0.0426, -0.0597,  ..., -0.0308, -0.0177, -0.0493],
+        [-0.0434,  0.0544,  0.0477,  ..., -0.0433, -0.0213, -0.0119]],
+       device='cuda:0'), grad: tensor([[ 7.4133e-06,  3.2365e-05, -3.4027e-03,  ..., -2.8114e-03,
+          2.4033e-03,  1.1330e-03],
+        [ 8.7768e-06, -4.8065e-04, -1.9341e-03,  ..., -7.5684e-03,
+          7.3910e-04, -2.7275e-03],
+        [ 1.1295e-05,  8.2374e-05, -1.5516e-03,  ..., -3.3207e-03,
+          4.0913e-04, -6.9008e-03],
+        ...,
+        [ 8.3894e-06, -3.4124e-05, -9.5901e-03,  ...,  2.9984e-03,
+         -1.9577e-02, -3.8338e-03],
+        [-1.8616e-03, -9.6416e-04,  3.0651e-03,  ..., -4.7150e-03,
+          1.4715e-03, -3.3817e-03],
+        [ 1.2696e-05,  5.8591e-05,  2.7275e-03,  ..., -6.1646e-03,
+          1.5574e-03,  2.0199e-03]], device='cuda:0')
+Epoch 54, bias, value: tensor([-0.0135,  0.0190, -0.0014, -0.0054,  0.0179, -0.0318,  0.0111, -0.0035,
+         0.0034, -0.0123], device='cuda:0'), grad: tensor([-0.0037, -0.0090, -0.0682,  0.0423,  0.0419,  0.0076,  0.0186, -0.0336,
+         0.0029,  0.0012], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 53, time 214.44, cls_loss 0.8212 cls_loss_mapping 0.0434 cls_loss_causal 0.7036 re_mapping 0.0250 re_causal 0.0556 /// teacc 98.01 lr 0.00010000
+Epoch 55, weight, value: tensor([[-0.0287, -0.0406, -0.0567,  ..., -0.0183,  0.0381, -0.0600],
+        [-0.0223, -0.0577, -0.0231,  ...,  0.0804, -0.0359,  0.1208],
+        [ 0.0194, -0.0270, -0.0077,  ..., -0.0143, -0.0064, -0.0449],
+        ...,
+        [-0.0018, -0.0532,  0.0891,  ...,  0.0069, -0.0310,  0.0296],
+        [-0.0063,  0.0417, -0.0602,  ..., -0.0312, -0.0167, -0.0481],
+        [-0.0431,  0.0542,  0.0482,  ..., -0.0409, -0.0214, -0.0112]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -3.1948e-04, -2.6631e-04,  ..., -5.7144e-03,
+         -1.9722e-03, -8.1396e-04],
+        [ 0.0000e+00,  1.2815e-04,  1.4429e-03,  ...,  1.8921e-02,
+          5.6297e-05,  2.9316e-03],
+        [ 0.0000e+00,  6.8245e-03,  1.6890e-03,  ...,  4.2458e-03,
+          8.3208e-05,  4.3273e-04],
+        ...,
+        [ 0.0000e+00,  2.6913e-03, -6.9313e-03,  ..., -4.3068e-03,
+          1.6570e-05, -3.6926e-03],
+        [ 0.0000e+00,  2.9736e-03,  1.3962e-03,  ..., -3.3779e-03,
+          1.0920e-03,  6.6328e-04],
+        [ 0.0000e+00, -3.1223e-03,  8.0204e-04,  ...,  5.0507e-03,
+          6.8843e-05,  1.8816e-03]], device='cuda:0')
+Epoch 55, bias, value: tensor([-0.0132,  0.0183, -0.0014, -0.0057,  0.0177, -0.0321,  0.0108, -0.0041,
+         0.0038, -0.0106], device='cuda:0'), grad: tensor([-0.0047,  0.0443, -0.0064, -0.0505,  0.0266,  0.0004, -0.0220, -0.0387,
+         0.0181,  0.0328], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 54----------------------------------------------------
+epoch 54, time 225.54, cls_loss 0.7806 cls_loss_mapping 0.0391 cls_loss_causal 0.6577 re_mapping 0.0252 re_causal 0.0520 /// teacc 98.07 lr 0.00010000
+Epoch 56, weight, value: tensor([[-0.0294, -0.0408, -0.0560,  ..., -0.0185,  0.0391, -0.0595],
+        [-0.0217, -0.0582, -0.0228,  ...,  0.0811, -0.0338,  0.1209],
+        [ 0.0205, -0.0273, -0.0082,  ..., -0.0143, -0.0068, -0.0450],
+        ...,
+        [-0.0016, -0.0535,  0.0899,  ...,  0.0068, -0.0320,  0.0296],
+        [-0.0073,  0.0405, -0.0613,  ..., -0.0312, -0.0173, -0.0482],
+        [-0.0430,  0.0554,  0.0482,  ..., -0.0415, -0.0213, -0.0120]],
+       device='cuda:0'), grad: tensor([[ 0.0000,  0.0028,  0.0024,  ...,  0.0088,  0.0022,  0.0006],
+        [ 0.0000,  0.0012, -0.0077,  ...,  0.0049,  0.0007, -0.0081],
+        [ 0.0000, -0.0104, -0.0026,  ..., -0.0283, -0.0184,  0.0015],
+        ...,
+        [ 0.0000,  0.0023,  0.0058,  ..., -0.0049,  0.0012,  0.0017],
+        [ 0.0000,  0.0058, -0.0004,  ...,  0.0025,  0.0016,  0.0010],
+        [ 0.0000, -0.0023, -0.0026,  ..., -0.0049,  0.0012,  0.0023]],
+       device='cuda:0')
+Epoch 56, bias, value: tensor([-0.0128,  0.0191, -0.0011, -0.0063,  0.0173, -0.0320,  0.0117, -0.0046,
+         0.0032, -0.0109], device='cuda:0'), grad: tensor([ 0.0180, -0.0137, -0.0435,  0.0233,  0.0139, -0.0347,  0.0319,  0.0141,
+        -0.0040, -0.0053], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 55----------------------------------------------------
+epoch 55, time 230.52, cls_loss 0.7956 cls_loss_mapping 0.0358 cls_loss_causal 0.6772 re_mapping 0.0240 re_causal 0.0522 /// teacc 98.14 lr 0.00010000
+Epoch 57, weight, value: tensor([[-0.0287, -0.0414, -0.0566,  ..., -0.0188,  0.0385, -0.0596],
+        [-0.0225, -0.0580, -0.0231,  ...,  0.0812, -0.0343,  0.1225],
+        [ 0.0199, -0.0282, -0.0085,  ..., -0.0151, -0.0064, -0.0457],
+        ...,
+        [-0.0019, -0.0535,  0.0900,  ...,  0.0075, -0.0339,  0.0300],
+        [-0.0079,  0.0407, -0.0614,  ..., -0.0307, -0.0167, -0.0481],
+        [-0.0424,  0.0553,  0.0477,  ..., -0.0428, -0.0199, -0.0134]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.7285e-06, -3.2532e-02,  ..., -5.9700e-03,
+         -1.4107e-02, -3.7622e-04],
+        [ 0.0000e+00, -2.8872e-04, -8.3008e-03,  ..., -1.1055e-02,
+          2.3632e-03, -8.0585e-04],
+        [ 0.0000e+00,  1.4944e-03,  6.0005e-03,  ...,  3.7861e-03,
+          3.6678e-03,  9.0647e-04],
+        ...,
+        [ 0.0000e+00,  4.1103e-04,  1.7120e-02,  ..., -3.1700e-03,
+          6.7978e-03, -1.6479e-02],
+        [ 0.0000e+00, -6.2103e-03,  9.0408e-04,  ..., -1.0384e-02,
+         -1.3420e-02, -3.3264e-03],
+        [ 0.0000e+00,  2.3117e-03,  4.7646e-03,  ...,  1.5459e-03,
+          4.7607e-03,  3.7270e-03]], device='cuda:0')
+Epoch 57, bias, value: tensor([-0.0127,  0.0192, -0.0008, -0.0067,  0.0177, -0.0309,  0.0109, -0.0048,
+         0.0034, -0.0115], device='cuda:0'), grad: tensor([-0.0558, -0.0441,  0.0076,  0.0169,  0.0490, -0.0013,  0.0370,  0.0051,
+        -0.0312,  0.0169], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 56, time 214.70, cls_loss 0.7937 cls_loss_mapping 0.0359 cls_loss_causal 0.6811 re_mapping 0.0238 re_causal 0.0520 /// teacc 97.78 lr 0.00010000
+Epoch 58, weight, value: tensor([[-0.0274, -0.0410, -0.0570,  ..., -0.0190,  0.0396, -0.0601],
+        [-0.0225, -0.0583, -0.0235,  ...,  0.0818, -0.0351,  0.1233],
+        [ 0.0200, -0.0282, -0.0090,  ..., -0.0149, -0.0065, -0.0461],
+        ...,
+        [-0.0019, -0.0543,  0.0905,  ...,  0.0070, -0.0338,  0.0298],
+        [-0.0086,  0.0411, -0.0628,  ..., -0.0318, -0.0161, -0.0481],
+        [-0.0424,  0.0542,  0.0480,  ..., -0.0424, -0.0206, -0.0133]],
+       device='cuda:0'), grad: tensor([[ 6.7614e-06, -2.1577e-04,  3.1395e-03,  ...,  7.5607e-03,
+         -4.6272e-03,  1.2121e-03],
+        [ 9.0152e-06,  5.4359e-05,  3.2692e-03,  ...,  1.8723e-02,
+          3.4447e-03,  6.3229e-04],
+        [ 2.6369e-04,  9.8038e-04, -1.4343e-03,  ..., -1.3405e-02,
+          2.4128e-03,  1.4963e-03],
+        ...,
+        [-5.3692e-04,  1.5345e-03, -8.4381e-03,  ..., -6.0387e-03,
+          3.2425e-03,  1.6775e-03],
+        [ 9.3207e-06,  8.1599e-05,  2.5406e-03,  ..., -9.1095e-03,
+         -2.4071e-03, -6.6817e-05],
+        [ 1.9953e-05, -2.5158e-03,  4.8399e-04,  ...,  9.0637e-03,
+          1.9264e-03, -2.2106e-03]], device='cuda:0')
+Epoch 58, bias, value: tensor([-0.0125,  0.0190, -0.0008, -0.0062,  0.0171, -0.0302,  0.0113, -0.0053,
+         0.0025, -0.0109], device='cuda:0'), grad: tensor([ 0.0277,  0.0346, -0.0205,  0.0072, -0.0176, -0.0400,  0.0084, -0.0038,
+        -0.0107,  0.0147], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 57, time 214.58, cls_loss 0.7865 cls_loss_mapping 0.0434 cls_loss_causal 0.6664 re_mapping 0.0235 re_causal 0.0518 /// teacc 97.83 lr 0.00010000
+Epoch 59, weight, value: tensor([[-0.0280, -0.0411, -0.0578,  ..., -0.0205,  0.0392, -0.0620],
+        [-0.0227, -0.0586, -0.0253,  ...,  0.0817, -0.0333,  0.1234],
+        [ 0.0205, -0.0285, -0.0089,  ..., -0.0151, -0.0071, -0.0470],
+        ...,
+        [-0.0006, -0.0542,  0.0918,  ...,  0.0077, -0.0357,  0.0295],
+        [-0.0074,  0.0412, -0.0629,  ..., -0.0312, -0.0159, -0.0484],
+        [-0.0448,  0.0547,  0.0471,  ..., -0.0434, -0.0196, -0.0135]],
+       device='cuda:0'), grad: tensor([[ 5.2601e-06,  2.4796e-03, -2.1291e-04,  ...,  1.4076e-03,
+          1.9646e-03,  4.1068e-05],
+        [ 2.7493e-06,  8.6355e-04, -9.3079e-03,  ..., -2.1057e-02,
+         -2.1863e-04, -7.4100e-04],
+        [-5.3681e-06,  4.0550e-03,  6.1655e-04,  ...,  8.0299e-04,
+          3.8376e-03,  6.7115e-05],
+        ...,
+        [ 7.4618e-06,  1.1139e-02, -2.5558e-03,  ...,  7.1106e-03,
+         -5.7650e-04, -3.4833e-04],
+        [ 2.3901e-05, -1.0681e-03,  1.1223e-02,  ...,  1.2222e-02,
+          6.2408e-03,  9.2268e-05],
+        [ 7.5810e-06,  1.4664e-02,  2.7817e-02,  ...,  1.2016e-02,
+          6.0730e-03,  2.6894e-04]], device='cuda:0')
+Epoch 59, bias, value: tensor([-0.0133,  0.0187, -0.0007, -0.0060,  0.0178, -0.0307,  0.0117, -0.0051,
+         0.0030, -0.0117], device='cuda:0'), grad: tensor([ 0.0029, -0.0468,  0.0190, -0.0065, -0.0021, -0.0289, -0.0163,  0.0143,
+         0.0153,  0.0491], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 58, time 214.87, cls_loss 0.7794 cls_loss_mapping 0.0452 cls_loss_causal 0.6511 re_mapping 0.0243 re_causal 0.0499 /// teacc 98.04 lr 0.00010000
+Epoch 60, weight, value: tensor([[-2.8222e-02, -4.2292e-02, -5.7959e-02,  ..., -1.9913e-02,
+          3.9309e-02, -6.2043e-02],
+        [-2.1760e-02, -5.8907e-02, -2.5017e-02,  ...,  8.2219e-02,
+         -3.3826e-02,  1.2416e-01],
+        [ 1.9955e-02, -2.8185e-02, -8.8367e-03,  ..., -1.4431e-02,
+         -7.0914e-03, -4.7690e-02],
+        ...,
+        [-1.7030e-05, -5.5246e-02,  9.2046e-02,  ...,  7.7005e-03,
+         -3.6705e-02,  2.9819e-02],
+        [-7.8637e-03,  4.1395e-02, -6.3567e-02,  ..., -3.2979e-02,
+         -1.6744e-02, -4.8675e-02],
+        [-4.6252e-02,  5.4961e-02,  4.8190e-02,  ..., -4.2455e-02,
+         -1.8769e-02, -1.3074e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.3804e-04,  2.0580e-03,  ...,  1.0277e-02,
+         -3.0022e-03,  5.0592e-04],
+        [ 0.0000e+00,  2.2469e-03,  1.9503e-03,  ..., -1.2650e-02,
+         -7.1259e-03, -1.7643e-03],
+        [ 0.0000e+00,  3.9291e-04, -8.6136e-03,  ..., -7.4806e-03,
+          1.6880e-03,  7.6342e-04],
+        ...,
+        [ 0.0000e+00, -8.2970e-04,  9.5291e-03,  ..., -3.5934e-03,
+          5.0478e-06, -2.0180e-03],
+        [ 0.0000e+00,  2.0790e-03, -1.4658e-03,  ...,  1.1091e-03,
+          5.5599e-04,  1.7147e-03],
+        [ 0.0000e+00, -2.4834e-03, -2.0370e-03,  ..., -2.8717e-02,
+          4.3106e-04, -1.0042e-03]], device='cuda:0')
+Epoch 60, bias, value: tensor([-0.0131,  0.0192, -0.0005, -0.0060,  0.0171, -0.0305,  0.0116, -0.0053,
+         0.0022, -0.0111], device='cuda:0'), grad: tensor([ 0.0210, -0.0219, -0.0134,  0.0221,  0.0072, -0.0016,  0.0487,  0.0094,
+        -0.0053, -0.0661], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 59, time 214.61, cls_loss 0.7733 cls_loss_mapping 0.0368 cls_loss_causal 0.6547 re_mapping 0.0247 re_causal 0.0509 /// teacc 97.97 lr 0.00010000
+Epoch 61, weight, value: tensor([[-0.0295, -0.0430, -0.0592,  ..., -0.0191,  0.0398, -0.0631],
+        [-0.0226, -0.0584, -0.0250,  ...,  0.0823, -0.0348,  0.1254],
+        [ 0.0179, -0.0287, -0.0090,  ..., -0.0141, -0.0063, -0.0483],
+        ...,
+        [-0.0005, -0.0557,  0.0929,  ...,  0.0078, -0.0376,  0.0291],
+        [-0.0080,  0.0413, -0.0632,  ..., -0.0337, -0.0167, -0.0483],
+        [-0.0467,  0.0550,  0.0483,  ..., -0.0429, -0.0183, -0.0127]],
+       device='cuda:0'), grad: tensor([[ 2.2594e-06, -9.8133e-04, -1.9608e-03,  ..., -8.5449e-03,
+         -8.3466e-03, -4.6110e-04],
+        [ 7.6815e-06, -7.4615e-03,  4.2305e-03,  ...,  1.4324e-03,
+          1.8680e-04, -4.1428e-03],
+        [ 7.8529e-06, -1.3489e-02, -1.1612e-02,  ..., -1.6724e-02,
+          1.8587e-03, -4.8561e-03],
+        ...,
+        [ 3.5707e-06, -8.3017e-04, -3.4618e-03,  ..., -4.7455e-03,
+          2.3758e-04, -7.1030e-03],
+        [-1.8135e-05,  5.5656e-03,  5.0125e-03,  ...,  1.2085e-02,
+         -8.2850e-05,  4.9324e-03],
+        [ 1.2353e-05,  4.0092e-03, -1.1444e-03,  ..., -3.1185e-03,
+          5.5790e-04,  9.6273e-04]], device='cuda:0')
+Epoch 61, bias, value: tensor([-0.0132,  0.0194, -0.0007, -0.0061,  0.0170, -0.0307,  0.0124, -0.0050,
+         0.0021, -0.0112], device='cuda:0'), grad: tensor([-0.0207,  0.0097, -0.0433, -0.0087, -0.0021,  0.0204,  0.0264, -0.0080,
+         0.0335, -0.0072], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 60, time 214.27, cls_loss 0.8048 cls_loss_mapping 0.0422 cls_loss_causal 0.6955 re_mapping 0.0233 re_causal 0.0530 /// teacc 98.07 lr 0.00010000
+Epoch 62, weight, value: tensor([[-2.9973e-02, -4.3493e-02, -5.9757e-02,  ..., -1.9587e-02,
+          3.9180e-02, -6.2672e-02],
+        [-2.3133e-02, -5.8316e-02, -2.5087e-02,  ...,  8.2396e-02,
+         -3.4091e-02,  1.2474e-01],
+        [ 1.9940e-02, -2.7896e-02, -9.1051e-03,  ..., -1.3478e-02,
+         -5.6789e-03, -4.8153e-02],
+        ...,
+        [-1.1881e-04, -5.6700e-02,  9.3152e-02,  ...,  8.2287e-03,
+         -3.6931e-02,  2.8929e-02],
+        [-9.3391e-03,  4.2025e-02, -6.3434e-02,  ..., -3.2429e-02,
+         -1.5159e-02, -4.8453e-02],
+        [-4.6007e-02,  5.4671e-02,  4.8128e-02,  ..., -4.2771e-02,
+         -1.8978e-02, -1.2381e-02]], device='cuda:0'), grad: tensor([[ 9.9745e-07,  7.1001e-04,  2.6588e-03,  ..., -3.6392e-03,
+          3.1700e-03,  9.7752e-04],
+        [ 1.6379e-04,  5.4693e-04,  3.5057e-03,  ..., -6.7043e-04,
+         -3.6831e-03,  3.7408e-04],
+        [ 1.1817e-05,  5.5923e-03,  9.0790e-03,  ...,  2.0828e-02,
+          3.3684e-03,  3.2024e-03],
+        ...,
+        [ 2.5257e-06, -8.8196e-03, -1.1375e-02,  ..., -9.3079e-03,
+          6.8331e-04,  3.5458e-03],
+        [-2.1708e-04,  8.4915e-03,  9.8648e-03,  ...,  1.3138e-02,
+          1.8120e-03,  2.5387e-03],
+        [ 1.5423e-05,  2.9182e-03,  7.6294e-04,  ..., -1.4832e-02,
+          1.1921e-03,  1.5345e-03]], device='cuda:0')
+Epoch 62, bias, value: tensor([-1.3690e-02,  1.8916e-02,  6.9420e-05, -6.1791e-03,  1.7115e-02,
+        -3.1179e-02,  1.2333e-02, -5.3703e-03,  2.9190e-03, -1.1188e-02],
+       device='cuda:0'), grad: tensor([-0.0018,  0.0013,  0.0528,  0.0201,  0.0096, -0.0649,  0.0056, -0.0304,
+         0.0374, -0.0298], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 61----------------------------------------------------
+epoch 61, time 230.86, cls_loss 0.7794 cls_loss_mapping 0.0370 cls_loss_causal 0.6688 re_mapping 0.0229 re_causal 0.0494 /// teacc 98.21 lr 0.00010000
+Epoch 63, weight, value: tensor([[-0.0306, -0.0429, -0.0598,  ..., -0.0199,  0.0400, -0.0637],
+        [-0.0237, -0.0591, -0.0257,  ...,  0.0822, -0.0341,  0.1263],
+        [ 0.0189, -0.0276, -0.0105,  ..., -0.0144, -0.0048, -0.0481],
+        ...,
+        [ 0.0009, -0.0571,  0.0941,  ...,  0.0098, -0.0384,  0.0288],
+        [-0.0102,  0.0431, -0.0630,  ..., -0.0326, -0.0153, -0.0489],
+        [-0.0470,  0.0550,  0.0481,  ..., -0.0430, -0.0194, -0.0124]],
+       device='cuda:0'), grad: tensor([[ 1.6745e-06,  1.6606e-04,  1.4896e-03,  ...,  5.7831e-03,
+         -1.3514e-03,  7.6866e-04],
+        [ 6.3324e-04,  9.5844e-04, -3.8662e-03,  ..., -9.5444e-03,
+          1.6749e-04,  2.6283e-03],
+        [ 2.1350e-04,  2.4128e-03, -1.5869e-02,  ...,  1.3237e-02,
+          9.1410e-04, -2.2247e-02],
+        ...,
+        [ 1.4293e-04,  3.7994e-03,  1.8265e-02,  ..., -3.3245e-03,
+          1.0771e-04,  2.3544e-02],
+        [-1.5526e-03, -1.6113e-02, -2.0981e-03,  ..., -2.9800e-02,
+         -4.9019e-03,  2.9969e-04],
+        [ 1.4830e-04, -2.9049e-03, -3.0537e-03,  ..., -5.4359e-03,
+          9.3031e-04, -6.5918e-03]], device='cuda:0')
+Epoch 63, bias, value: tensor([-0.0140,  0.0186, -0.0003, -0.0063,  0.0182, -0.0308,  0.0124, -0.0050,
+         0.0027, -0.0117], device='cuda:0'), grad: tensor([ 0.0152, -0.0266,  0.0030,  0.0113, -0.0172,  0.0199,  0.0359,  0.0392,
+        -0.0588, -0.0219], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 62, time 214.68, cls_loss 0.7705 cls_loss_mapping 0.0356 cls_loss_causal 0.6557 re_mapping 0.0230 re_causal 0.0515 /// teacc 98.09 lr 0.00010000
+Epoch 64, weight, value: tensor([[-0.0307, -0.0440, -0.0601,  ..., -0.0199,  0.0393, -0.0639],
+        [-0.0239, -0.0598, -0.0267,  ...,  0.0826, -0.0345,  0.1269],
+        [ 0.0181, -0.0283, -0.0098,  ..., -0.0143, -0.0049, -0.0472],
+        ...,
+        [-0.0003, -0.0567,  0.0939,  ...,  0.0091, -0.0388,  0.0282],
+        [-0.0091,  0.0426, -0.0630,  ..., -0.0327, -0.0155, -0.0478],
+        [-0.0466,  0.0547,  0.0480,  ..., -0.0428, -0.0189, -0.0120]],
+       device='cuda:0'), grad: tensor([[ 2.6673e-06, -1.7529e-03, -5.4264e-04,  ..., -1.7071e-03,
+          4.7064e-04,  1.6320e-04],
+        [ 5.7705e-06,  7.3957e-04,  3.2425e-03,  ...,  6.0005e-03,
+          5.0116e-04,  6.4039e-04],
+        [ 1.0222e-04,  9.0551e-04,  3.0098e-03,  ...,  3.3379e-03,
+          9.6512e-04,  1.6677e-04],
+        ...,
+        [-3.0117e-03, -1.7365e-02, -9.9487e-03,  ..., -7.9012e-04,
+          9.9659e-04, -3.5076e-03],
+        [ 8.6451e-04,  5.0020e-04,  3.5820e-03,  ..., -1.3208e-03,
+         -1.3435e-02,  1.6317e-03],
+        [ 2.0373e-04, -4.4937e-03, -3.9902e-03,  ...,  1.3695e-03,
+         -3.7537e-03, -1.3443e-02]], device='cuda:0')
+Epoch 64, bias, value: tensor([-0.0142,  0.0186, -0.0005, -0.0051,  0.0183, -0.0309,  0.0116, -0.0053,
+         0.0030, -0.0119], device='cuda:0'), grad: tensor([-0.0104,  0.0216,  0.0129, -0.0236,  0.0143,  0.0364,  0.0154, -0.0318,
+        -0.0057, -0.0292], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 63----------------------------------------------------
+epoch 63, time 230.83, cls_loss 0.7837 cls_loss_mapping 0.0378 cls_loss_causal 0.6728 re_mapping 0.0227 re_causal 0.0491 /// teacc 98.27 lr 0.00010000
+Epoch 65, weight, value: tensor([[-0.0326, -0.0453, -0.0611,  ..., -0.0192,  0.0391, -0.0640],
+        [-0.0230, -0.0587, -0.0270,  ...,  0.0826, -0.0354,  0.1274],
+        [ 0.0170, -0.0268, -0.0098,  ..., -0.0138, -0.0057, -0.0483],
+        ...,
+        [-0.0009, -0.0574,  0.0942,  ...,  0.0080, -0.0408,  0.0287],
+        [-0.0091,  0.0419, -0.0634,  ..., -0.0326, -0.0146, -0.0484],
+        [-0.0448,  0.0554,  0.0484,  ..., -0.0424, -0.0174, -0.0113]],
+       device='cuda:0'), grad: tensor([[ 4.3912e-07,  1.4811e-03,  2.3937e-03,  ...,  8.1253e-03,
+          2.9400e-05,  9.4128e-04],
+        [ 4.7199e-06,  1.0109e-03, -1.5612e-03,  ..., -8.7814e-03,
+          6.8685e-07,  4.5705e-04],
+        [ 1.0282e-06,  2.6016e-03,  3.0613e-03,  ...,  9.9030e-03,
+          5.4240e-05,  1.4029e-03],
+        ...,
+        [ 2.6217e-07,  1.5478e-03, -1.1444e-03,  ...,  6.8779e-03,
+          1.1949e-06, -9.5081e-04],
+        [-1.1124e-05,  1.3397e-02,  6.6681e-03,  ..., -8.6136e-03,
+          2.8476e-05, -1.5984e-03],
+        [ 3.6368e-07,  2.7275e-03,  7.0038e-03,  ...,  4.1351e-03,
+          7.7263e-06, -4.7994e-04]], device='cuda:0')
+Epoch 65, bias, value: tensor([-0.0139,  0.0188, -0.0002, -0.0055,  0.0183, -0.0315,  0.0111, -0.0058,
+         0.0030, -0.0106], device='cuda:0'), grad: tensor([ 0.0195, -0.0193,  0.0237, -0.0790,  0.0264,  0.0042,  0.0154,  0.0081,
+        -0.0133,  0.0142], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 64, time 214.88, cls_loss 0.7728 cls_loss_mapping 0.0391 cls_loss_causal 0.6462 re_mapping 0.0222 re_causal 0.0479 /// teacc 97.98 lr 0.00010000
+Epoch 66, weight, value: tensor([[-0.0344, -0.0472, -0.0617,  ..., -0.0193,  0.0401, -0.0652],
+        [-0.0217, -0.0594, -0.0277,  ...,  0.0833, -0.0355,  0.1281],
+        [ 0.0155, -0.0271, -0.0095,  ..., -0.0139, -0.0054, -0.0483],
+        ...,
+        [-0.0014, -0.0578,  0.0946,  ...,  0.0081, -0.0403,  0.0296],
+        [-0.0095,  0.0419, -0.0644,  ..., -0.0323, -0.0147, -0.0486],
+        [-0.0451,  0.0566,  0.0486,  ..., -0.0433, -0.0183, -0.0119]],
+       device='cuda:0'), grad: tensor([[ 1.6677e-04, -4.5433e-03, -8.5068e-03,  ...,  3.1967e-03,
+          1.6190e-02,  6.0940e-04],
+        [ 1.1854e-03,  4.2498e-05, -1.0643e-03,  ..., -1.1740e-03,
+          3.9339e-04,  1.8749e-03],
+        [ 3.7241e-04,  6.5470e-04,  4.0855e-03,  ...,  3.0403e-03,
+          7.3280e-03,  5.0157e-05],
+        ...,
+        [ 1.7130e-04,  1.5440e-03, -4.8709e-04,  ...,  8.1003e-05,
+          6.8550e-03,  1.7166e-03],
+        [ 7.4244e-04,  2.2936e-04,  2.4891e-03,  ...,  7.2670e-03,
+          8.3466e-03,  1.8167e-03],
+        [-8.8577e-03, -2.0111e-02, -2.2583e-02,  ..., -1.7807e-02,
+         -5.4016e-02, -6.9122e-03]], device='cuda:0')
+Epoch 66, bias, value: tensor([-0.0139,  0.0191, -0.0003, -0.0053,  0.0183, -0.0308,  0.0105, -0.0057,
+         0.0027, -0.0110], device='cuda:0'), grad: tensor([-0.0168, -0.0016,  0.0166,  0.0699,  0.0384, -0.0055, -0.0444,  0.0156,
+         0.0272, -0.0992], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 65----------------------------------------------------
+epoch 65, time 232.11, cls_loss 0.7753 cls_loss_mapping 0.0314 cls_loss_causal 0.6593 re_mapping 0.0221 re_causal 0.0490 /// teacc 98.29 lr 0.00010000
+Epoch 67, weight, value: tensor([[-0.0355, -0.0474, -0.0616,  ..., -0.0192,  0.0389, -0.0653],
+        [-0.0225, -0.0593, -0.0276,  ...,  0.0830, -0.0346,  0.1294],
+        [ 0.0157, -0.0263, -0.0092,  ..., -0.0141, -0.0050, -0.0467],
+        ...,
+        [-0.0007, -0.0582,  0.0955,  ...,  0.0091, -0.0400,  0.0288],
+        [-0.0113,  0.0424, -0.0649,  ..., -0.0326, -0.0143, -0.0493],
+        [-0.0434,  0.0561,  0.0489,  ..., -0.0430, -0.0177, -0.0123]],
+       device='cuda:0'), grad: tensor([[ 9.2611e-06,  8.1003e-05, -1.5717e-03,  ..., -4.5929e-03,
+         -2.4700e-03,  1.6861e-03],
+        [ 8.3596e-06,  8.6737e-04, -4.8780e-04,  ...,  2.8439e-03,
+          4.3321e-04,  1.6193e-03],
+        [-7.5638e-05,  2.4199e-04, -2.0847e-03,  ..., -1.1909e-02,
+          4.4136e-03, -3.3975e-04],
+        ...,
+        [ 1.3068e-05, -2.9030e-03,  6.7997e-04,  ...,  2.2163e-03,
+          1.1883e-03,  8.9979e-04],
+        [ 9.9745e-07, -1.2178e-03, -1.9341e-03,  ...,  2.4071e-03,
+         -1.0475e-02, -2.4662e-03],
+        [ 3.2276e-05,  6.7596e-03, -5.2166e-04,  ...,  2.5272e-03,
+         -2.4738e-03, -2.0046e-03]], device='cuda:0')
+Epoch 67, bias, value: tensor([-0.0135,  0.0191, -0.0001, -0.0059,  0.0181, -0.0304,  0.0099, -0.0052,
+         0.0026, -0.0108], device='cuda:0'), grad: tensor([-0.0199, -0.0025, -0.0133,  0.0071,  0.0314,  0.0170, -0.0057,  0.0226,
+        -0.0180, -0.0188], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 66, time 214.16, cls_loss 0.7631 cls_loss_mapping 0.0317 cls_loss_causal 0.6550 re_mapping 0.0221 re_causal 0.0480 /// teacc 98.26 lr 0.00010000
+Epoch 68, weight, value: tensor([[-0.0370, -0.0488, -0.0625,  ..., -0.0198,  0.0393, -0.0666],
+        [-0.0237, -0.0591, -0.0289,  ...,  0.0828, -0.0340,  0.1305],
+        [ 0.0175, -0.0263, -0.0096,  ..., -0.0140, -0.0050, -0.0478],
+        ...,
+        [-0.0009, -0.0578,  0.0963,  ...,  0.0099, -0.0402,  0.0301],
+        [-0.0094,  0.0427, -0.0651,  ..., -0.0329, -0.0143, -0.0486],
+        [-0.0449,  0.0568,  0.0498,  ..., -0.0435, -0.0176, -0.0139]],
+       device='cuda:0'), grad: tensor([[ 3.9814e-08,  7.4720e-04,  1.2674e-03,  ...,  3.8013e-03,
+          1.8063e-03, -6.5267e-05],
+        [ 4.0513e-08,  4.4680e-04,  7.0906e-04,  ...,  1.9102e-03,
+          5.2881e-04, -1.4588e-05],
+        [-9.9558e-07,  1.8463e-03,  9.9850e-04,  ..., -8.0185e-03,
+         -1.4658e-03,  6.7949e-05],
+        ...,
+        [ 3.9600e-06,  2.0771e-03, -3.0003e-03,  ...,  3.6201e-03,
+          2.7752e-03,  6.9439e-05],
+        [ 1.1539e-06, -5.8594e-03, -5.6343e-03,  ..., -1.8158e-02,
+         -1.3412e-02,  2.2755e-03],
+        [-5.5134e-06, -1.6724e-02, -5.6763e-03,  ..., -3.6564e-03,
+         -7.8888e-03, -4.2114e-03]], device='cuda:0')
+Epoch 68, bias, value: tensor([-1.4135e-02,  1.9191e-02, -8.1638e-05, -5.9446e-03,  1.8357e-02,
+        -3.0554e-02,  9.8137e-03, -4.4962e-03,  2.6353e-03, -1.1173e-02],
+       device='cuda:0'), grad: tensor([-0.0096,  0.0060, -0.0197,  0.0282,  0.0213,  0.0330, -0.0038,  0.0100,
+        -0.0257, -0.0398], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 67, time 214.45, cls_loss 0.7545 cls_loss_mapping 0.0340 cls_loss_causal 0.6415 re_mapping 0.0215 re_causal 0.0458 /// teacc 98.15 lr 0.00010000
+Epoch 69, weight, value: tensor([[-0.0382, -0.0507, -0.0631,  ..., -0.0204,  0.0395, -0.0672],
+        [-0.0236, -0.0589, -0.0285,  ...,  0.0831, -0.0355,  0.1321],
+        [ 0.0170, -0.0256, -0.0092,  ..., -0.0131, -0.0042, -0.0481],
+        ...,
+        [ 0.0018, -0.0601,  0.0967,  ...,  0.0095, -0.0413,  0.0300],
+        [-0.0115,  0.0424, -0.0655,  ..., -0.0331, -0.0132, -0.0492],
+        [-0.0474,  0.0582,  0.0494,  ..., -0.0444, -0.0164, -0.0135]],
+       device='cuda:0'), grad: tensor([[ 1.3001e-06, -9.3079e-04,  7.4768e-04,  ...,  1.9894e-03,
+         -4.0627e-03,  1.2627e-03],
+        [ 1.2413e-05,  2.6035e-04,  1.2035e-03,  ..., -4.9639e-04,
+          8.6355e-04,  1.2512e-03],
+        [ 7.5661e-06, -1.8768e-03,  1.5240e-03,  ..., -2.8381e-03,
+         -5.9967e-03,  1.1606e-03],
+        ...,
+        [ 8.4257e-04,  1.0033e-03, -7.0095e-04,  ...,  4.4365e-03,
+          4.0126e-04,  2.7637e-03],
+        [ 3.0369e-05,  1.2465e-03,  2.1286e-03,  ...,  4.9057e-03,
+          1.6603e-03,  2.9831e-03],
+        [-9.8133e-04,  7.2956e-05, -1.4508e-04,  ...,  5.0240e-03,
+          1.3380e-03, -4.1351e-03]], device='cuda:0')
+Epoch 69, bias, value: tensor([-0.0140,  0.0200,  0.0008, -0.0058,  0.0184, -0.0304,  0.0098, -0.0049,
+         0.0020, -0.0120], device='cuda:0'), grad: tensor([ 0.0073, -0.0008,  0.0006,  0.0038, -0.0111, -0.0410,  0.0114,  0.0206,
+         0.0278, -0.0186], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 68----------------------------------------------------
+epoch 68, time 231.11, cls_loss 0.7596 cls_loss_mapping 0.0393 cls_loss_causal 0.6566 re_mapping 0.0215 re_causal 0.0465 /// teacc 98.34 lr 0.00010000
+Epoch 70, weight, value: tensor([[-0.0387, -0.0513, -0.0632,  ..., -0.0212,  0.0392, -0.0667],
+        [-0.0227, -0.0596, -0.0282,  ...,  0.0829, -0.0359,  0.1326],
+        [ 0.0165, -0.0255, -0.0092,  ..., -0.0124, -0.0042, -0.0482],
+        ...,
+        [ 0.0024, -0.0595,  0.0977,  ...,  0.0102, -0.0397,  0.0302],
+        [-0.0111,  0.0430, -0.0656,  ..., -0.0341, -0.0128, -0.0498],
+        [-0.0482,  0.0571,  0.0490,  ..., -0.0434, -0.0184, -0.0141]],
+       device='cuda:0'), grad: tensor([[ 1.7812e-07,  2.5058e-04,  1.9197e-03,  ..., -9.7427e-03,
+          4.6945e-04,  1.2751e-03],
+        [ 3.1502e-07,  4.9114e-04, -3.2978e-03,  ..., -1.8585e-02,
+         -2.6989e-03, -1.4404e-02],
+        [ 5.7183e-06,  2.2113e-04,  6.9237e-04,  ...,  3.5973e-03,
+          1.5049e-03,  6.8331e-04],
+        ...,
+        [ 5.6624e-07,  5.2404e-04, -1.0323e-02,  ..., -5.0545e-03,
+         -3.5524e-04, -1.0700e-03],
+        [-1.8790e-05, -1.5488e-03,  2.6474e-03,  ...,  5.9128e-03,
+         -4.5240e-05,  1.1377e-03],
+        [ 1.8273e-06,  8.4400e-04, -7.8964e-03,  ..., -5.5122e-03,
+          1.1225e-03,  1.2789e-03]], device='cuda:0')
+Epoch 70, bias, value: tensor([-0.0141,  0.0200,  0.0006, -0.0059,  0.0189, -0.0293,  0.0095, -0.0045,
+         0.0007, -0.0120], device='cuda:0'), grad: tensor([-0.0359, -0.0536,  0.0173,  0.0609,  0.0135, -0.0020,  0.0056, -0.0097,
+         0.0153, -0.0113], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 69, time 214.81, cls_loss 0.7298 cls_loss_mapping 0.0259 cls_loss_causal 0.6206 re_mapping 0.0213 re_causal 0.0466 /// teacc 98.22 lr 0.00010000
+Epoch 71, weight, value: tensor([[-0.0387, -0.0529, -0.0630,  ..., -0.0210,  0.0387, -0.0673],
+        [-0.0227, -0.0585, -0.0291,  ...,  0.0827, -0.0351,  0.1338],
+        [ 0.0168, -0.0251, -0.0088,  ..., -0.0118, -0.0045, -0.0469],
+        ...,
+        [ 0.0023, -0.0604,  0.0975,  ...,  0.0097, -0.0414,  0.0299],
+        [-0.0109,  0.0418, -0.0665,  ..., -0.0339, -0.0138, -0.0492],
+        [-0.0480,  0.0564,  0.0491,  ..., -0.0439, -0.0184, -0.0145]],
+       device='cuda:0'), grad: tensor([[ 1.8984e-05, -6.7596e-03,  1.3733e-03,  ...,  2.1553e-03,
+         -1.1292e-02, -3.6072e-02],
+        [ 1.0364e-05,  1.9054e-03, -3.5673e-05,  ...,  1.5554e-03,
+          2.5597e-03,  1.9623e-02],
+        [ 5.0116e-04,  5.1384e-03,  4.1618e-03,  ...,  6.6605e-03,
+          3.6454e-04,  3.0670e-03],
+        ...,
+        [ 1.4603e-04,  2.5768e-03,  2.0695e-03,  ...,  9.5215e-03,
+          2.2144e-03,  1.9531e-03],
+        [ 2.2471e-05,  7.8125e-03, -6.0234e-03,  ..., -7.0534e-03,
+          1.0567e-02,  2.5158e-03],
+        [ 4.9204e-05,  4.9019e-03,  3.5038e-03,  ...,  1.0025e-02,
+          3.0479e-03,  3.5610e-03]], device='cuda:0')
+Epoch 71, bias, value: tensor([-0.0138,  0.0199,  0.0015, -0.0056,  0.0190, -0.0303,  0.0099, -0.0056,
+         0.0007, -0.0119], device='cuda:0'), grad: tensor([-0.0588, -0.0026,  0.0392, -0.0612, -0.0289,  0.0340,  0.0022,  0.0341,
+        -0.0041,  0.0461], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 70, time 214.67, cls_loss 0.7333 cls_loss_mapping 0.0246 cls_loss_causal 0.6204 re_mapping 0.0207 re_causal 0.0462 /// teacc 98.19 lr 0.00010000
+Epoch 72, weight, value: tensor([[-0.0396, -0.0548, -0.0628,  ..., -0.0207,  0.0388, -0.0675],
+        [-0.0229, -0.0586, -0.0292,  ...,  0.0828, -0.0355,  0.1342],
+        [ 0.0162, -0.0225, -0.0080,  ..., -0.0118, -0.0037, -0.0474],
+        ...,
+        [ 0.0031, -0.0605,  0.0979,  ...,  0.0103, -0.0411,  0.0302],
+        [-0.0112,  0.0413, -0.0666,  ..., -0.0337, -0.0139, -0.0483],
+        [-0.0478,  0.0558,  0.0486,  ..., -0.0448, -0.0185, -0.0151]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.0996e-03, -1.1139e-02,  ...,  2.9964e-03,
+          1.1757e-02, -5.5647e-04],
+        [ 2.5611e-09,  3.4595e-04,  2.7084e-03,  ...,  7.3314e-06,
+         -1.6006e-02,  7.6962e-04],
+        [ 1.2945e-07,  1.6069e-03,  1.5068e-03,  ..., -3.8414e-03,
+         -2.3413e-04, -1.4067e-03],
+        ...,
+        [ 4.8429e-08,  6.7949e-04,  1.0963e-02,  ..., -4.9438e-03,
+          1.9658e-04, -1.9531e-03],
+        [ 7.7998e-08,  9.8610e-04,  2.7065e-03,  ...,  1.0231e-02,
+          5.2166e-04,  3.7155e-03],
+        [ 9.3132e-10, -2.9869e-03, -4.7493e-03,  ..., -6.9847e-03,
+          9.4712e-05, -2.7466e-03]], device='cuda:0')
+Epoch 72, bias, value: tensor([-0.0132,  0.0198,  0.0019, -0.0067,  0.0180, -0.0307,  0.0115, -0.0049,
+         0.0006, -0.0123], device='cuda:0'), grad: tensor([-6.2485e-03,  1.3493e-05, -9.1705e-03, -2.8381e-03, -1.4420e-02,
+         6.3820e-03,  2.0615e-02, -2.2352e-07,  2.0615e-02, -1.4954e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 71, time 214.65, cls_loss 0.7500 cls_loss_mapping 0.0294 cls_loss_causal 0.6426 re_mapping 0.0207 re_causal 0.0457 /// teacc 98.27 lr 0.00010000
+Epoch 73, weight, value: tensor([[-0.0404, -0.0552, -0.0627,  ..., -0.0207,  0.0399, -0.0676],
+        [-0.0233, -0.0594, -0.0299,  ...,  0.0829, -0.0352,  0.1347],
+        [ 0.0159, -0.0227, -0.0082,  ..., -0.0115, -0.0052, -0.0473],
+        ...,
+        [ 0.0040, -0.0605,  0.0977,  ...,  0.0108, -0.0415,  0.0315],
+        [-0.0112,  0.0434, -0.0660,  ..., -0.0342, -0.0119, -0.0495],
+        [-0.0474,  0.0549,  0.0495,  ..., -0.0450, -0.0194, -0.0159]],
+       device='cuda:0'), grad: tensor([[ 3.9348e-07,  1.4868e-03, -4.0512e-03,  ..., -6.4163e-03,
+          6.1417e-03, -2.2907e-03],
+        [ 1.8068e-06,  1.5652e-04,  3.1548e-03,  ...,  1.8982e-02,
+          3.1090e-04,  7.9269e-03],
+        [ 2.7083e-06,  6.1035e-04,  3.1261e-03,  ...,  1.4297e-02,
+          1.3409e-03,  4.5395e-03],
+        ...,
+        [ 9.3281e-06,  6.8426e-05, -1.0681e-02,  ..., -6.9656e-03,
+          6.6102e-05, -8.5144e-03],
+        [-1.1988e-05, -1.4282e-02, -1.3733e-03,  ..., -2.1942e-02,
+         -5.2277e-02, -9.9869e-03],
+        [-5.4419e-05,  5.9366e-04,  4.1270e-04,  ...,  2.5082e-03,
+          4.4560e-04,  1.2455e-03]], device='cuda:0')
+Epoch 73, bias, value: tensor([-0.0131,  0.0196,  0.0016, -0.0070,  0.0187, -0.0303,  0.0106, -0.0046,
+         0.0006, -0.0121], device='cuda:0'), grad: tensor([-0.0124,  0.0369,  0.0306,  0.0413,  0.0770, -0.0125, -0.0566, -0.0253,
+        -0.0781, -0.0008], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 72, time 214.69, cls_loss 0.7289 cls_loss_mapping 0.0266 cls_loss_causal 0.6123 re_mapping 0.0213 re_causal 0.0458 /// teacc 98.08 lr 0.00010000
+Epoch 74, weight, value: tensor([[-0.0409, -0.0567, -0.0632,  ..., -0.0215,  0.0397, -0.0678],
+        [-0.0232, -0.0598, -0.0301,  ...,  0.0834, -0.0358,  0.1352],
+        [ 0.0155, -0.0227, -0.0084,  ..., -0.0120, -0.0056, -0.0483],
+        ...,
+        [ 0.0046, -0.0608,  0.0989,  ...,  0.0113, -0.0414,  0.0327],
+        [-0.0113,  0.0425, -0.0673,  ..., -0.0338, -0.0114, -0.0492],
+        [-0.0475,  0.0549,  0.0493,  ..., -0.0448, -0.0194, -0.0167]],
+       device='cuda:0'), grad: tensor([[ 2.3972e-06,  4.1151e-04,  6.4421e-04,  ...,  5.3520e-03,
+         -3.7270e-03,  1.5326e-03],
+        [ 9.8571e-06,  2.0230e-04,  1.8082e-03,  ...,  3.4351e-03,
+          2.0218e-03, -3.0956e-03],
+        [ 2.6875e-03,  1.9255e-03,  1.3435e-04,  ...,  5.3711e-03,
+          2.7599e-03, -5.6148e-05],
+        ...,
+        [ 2.6464e-04,  5.4436e-03, -5.8289e-03,  ..., -2.2869e-03,
+         -2.5406e-03,  6.9580e-03],
+        [ 9.4414e-05,  3.6896e-02,  2.5272e-03,  ...,  2.0935e-02,
+          9.0256e-03,  3.1586e-03],
+        [ 5.2392e-05, -3.8033e-03,  1.1360e-02,  ...,  1.3924e-02,
+          4.1504e-03,  1.6260e-03]], device='cuda:0')
+Epoch 74, bias, value: tensor([-0.0137,  0.0202,  0.0017, -0.0076,  0.0181, -0.0302,  0.0112, -0.0043,
+         0.0012, -0.0126], device='cuda:0'), grad: tensor([ 0.0058,  0.0084,  0.0143, -0.0567, -0.0392,  0.0264, -0.0383, -0.0016,
+         0.0536,  0.0274], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 73, time 214.84, cls_loss 0.7446 cls_loss_mapping 0.0360 cls_loss_causal 0.6316 re_mapping 0.0200 re_causal 0.0447 /// teacc 98.16 lr 0.00010000
+Epoch 75, weight, value: tensor([[-0.0413, -0.0580, -0.0633,  ..., -0.0205,  0.0394, -0.0662],
+        [-0.0243, -0.0593, -0.0299,  ...,  0.0839, -0.0334,  0.1357],
+        [ 0.0150, -0.0226, -0.0086,  ..., -0.0116, -0.0049, -0.0477],
+        ...,
+        [ 0.0048, -0.0611,  0.0984,  ...,  0.0113, -0.0411,  0.0308],
+        [-0.0102,  0.0423, -0.0674,  ..., -0.0332, -0.0110, -0.0497],
+        [-0.0474,  0.0556,  0.0501,  ..., -0.0450, -0.0202, -0.0153]],
+       device='cuda:0'), grad: tensor([[ 7.1805e-07, -1.3342e-03, -2.5139e-03,  ..., -1.4526e-02,
+         -1.3847e-02, -2.3899e-03],
+        [ 2.1422e-04,  2.1133e-03,  2.5201e-04,  ..., -4.2953e-03,
+          3.5725e-03,  8.9824e-05],
+        [ 5.3868e-06, -5.6854e-02,  1.3790e-03,  ..., -1.0767e-03,
+         -1.4696e-03, -4.1656e-03],
+        ...,
+        [ 3.0327e-04,  4.4594e-03, -1.7967e-03,  ...,  5.5351e-03,
+         -2.1515e-02,  3.0384e-03],
+        [ 2.7135e-05,  5.6953e-03,  4.0603e-04,  ..., -2.2659e-03,
+         -1.1368e-03,  1.5860e-03],
+        [-7.7629e-04,  4.1580e-03,  4.7135e-04,  ..., -1.5213e-02,
+          2.9640e-03, -1.0841e-02]], device='cuda:0')
+Epoch 75, bias, value: tensor([-0.0127,  0.0207,  0.0017, -0.0079,  0.0177, -0.0309,  0.0102, -0.0045,
+         0.0018, -0.0121], device='cuda:0'), grad: tensor([-0.0404, -0.0019, -0.0294,  0.0311,  0.0255,  0.0341,  0.0291, -0.0131,
+         0.0048, -0.0398], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 74, time 214.34, cls_loss 0.7553 cls_loss_mapping 0.0307 cls_loss_causal 0.6321 re_mapping 0.0198 re_causal 0.0435 /// teacc 98.16 lr 0.00010000
+Epoch 76, weight, value: tensor([[-0.0427, -0.0578, -0.0639,  ..., -0.0209,  0.0396, -0.0642],
+        [-0.0252, -0.0588, -0.0298,  ...,  0.0842, -0.0326,  0.1370],
+        [ 0.0147, -0.0221, -0.0086,  ..., -0.0114, -0.0044, -0.0481],
+        ...,
+        [ 0.0072, -0.0615,  0.0995,  ...,  0.0113, -0.0419,  0.0319],
+        [-0.0100,  0.0421, -0.0676,  ..., -0.0331, -0.0107, -0.0502],
+        [-0.0469,  0.0557,  0.0490,  ..., -0.0464, -0.0209, -0.0169]],
+       device='cuda:0'), grad: tensor([[ 9.7677e-06,  1.6317e-03,  8.9741e-04,  ...,  1.2993e-02,
+          1.5488e-03,  6.4926e-03],
+        [ 3.4750e-05,  4.3526e-03,  2.5425e-03,  ...,  1.2001e-02,
+          1.8816e-03,  2.5692e-03],
+        [ 4.2468e-05, -5.0011e-03,  2.3727e-03,  ...,  9.6817e-03,
+         -1.1765e-02,  6.7940e-03],
+        ...,
+        [-5.7268e-04,  2.5253e-03, -5.4665e-03,  ..., -1.1299e-02,
+          1.2197e-03, -3.1328e-04],
+        [ 9.5844e-05,  9.9945e-03,  6.6490e-03,  ...,  1.7319e-02,
+          4.5013e-03,  1.7366e-03],
+        [ 1.9932e-04,  1.1921e-03,  2.3232e-03,  ...,  8.4457e-03,
+          1.1730e-03,  4.3259e-03]], device='cuda:0')
+Epoch 76, bias, value: tensor([-0.0128,  0.0205,  0.0024, -0.0083,  0.0176, -0.0314,  0.0111, -0.0044,
+         0.0023, -0.0130], device='cuda:0'), grad: tensor([ 0.0309,  0.0181,  0.0038, -0.0706, -0.0091,  0.0090, -0.0172, -0.0278,
+         0.0403,  0.0225], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 75, time 214.44, cls_loss 0.7261 cls_loss_mapping 0.0275 cls_loss_causal 0.6276 re_mapping 0.0201 re_causal 0.0451 /// teacc 98.22 lr 0.00010000
+Epoch 77, weight, value: tensor([[-0.0423, -0.0584, -0.0645,  ..., -0.0221,  0.0404, -0.0659],
+        [-0.0254, -0.0599, -0.0298,  ...,  0.0836, -0.0331,  0.1357],
+        [ 0.0150, -0.0216, -0.0075,  ..., -0.0109, -0.0039, -0.0475],
+        ...,
+        [ 0.0067, -0.0620,  0.0989,  ...,  0.0114, -0.0426,  0.0321],
+        [-0.0102,  0.0421, -0.0692,  ..., -0.0329, -0.0108, -0.0497],
+        [-0.0466,  0.0557,  0.0493,  ..., -0.0468, -0.0213, -0.0174]],
+       device='cuda:0'), grad: tensor([[ 8.9686e-07,  4.3225e-04,  1.6451e-04,  ..., -1.9913e-02,
+         -1.0986e-02, -1.1950e-03],
+        [ 3.5744e-06,  3.3689e-04,  7.0667e-04,  ...,  3.9215e-03,
+          8.7595e-04, -8.0185e-03],
+        [ 6.8247e-05,  1.0994e-02,  7.0286e-04,  ...,  1.9318e-02,
+          2.2324e-02,  3.5667e-03],
+        ...,
+        [ 3.4302e-05,  5.1641e-04,  1.0214e-03,  ..., -3.1223e-03,
+          2.4414e-03,  4.2319e-04],
+        [ 9.7036e-05, -2.9556e-02,  1.3056e-03,  ...,  1.1200e-02,
+         -4.4220e-02,  9.4299e-03],
+        [ 4.7386e-06,  5.5075e-04,  1.4734e-03,  ...,  6.3782e-03,
+          1.9150e-03,  2.2697e-03]], device='cuda:0')
+Epoch 77, bias, value: tensor([-0.0128,  0.0192,  0.0035, -0.0079,  0.0185, -0.0311,  0.0105, -0.0047,
+         0.0021, -0.0133], device='cuda:0'), grad: tensor([-0.0467,  0.0068,  0.0537, -0.0875,  0.0252,  0.0047,  0.0100, -0.0129,
+         0.0226,  0.0241], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 76, time 214.18, cls_loss 0.7315 cls_loss_mapping 0.0290 cls_loss_causal 0.6198 re_mapping 0.0196 re_causal 0.0433 /// teacc 98.16 lr 0.00010000
+Epoch 78, weight, value: tensor([[-0.0438, -0.0580, -0.0643,  ..., -0.0222,  0.0408, -0.0651],
+        [-0.0264, -0.0610, -0.0301,  ...,  0.0837, -0.0332,  0.1366],
+        [ 0.0157, -0.0204, -0.0082,  ..., -0.0114, -0.0041, -0.0482],
+        ...,
+        [ 0.0060, -0.0622,  0.0993,  ...,  0.0116, -0.0434,  0.0313],
+        [-0.0107,  0.0412, -0.0698,  ..., -0.0332, -0.0107, -0.0504],
+        [-0.0472,  0.0570,  0.0496,  ..., -0.0468, -0.0213, -0.0169]],
+       device='cuda:0'), grad: tensor([[ 3.8624e-04, -3.2902e-03, -1.3816e-04,  ..., -8.7662e-03,
+         -3.5691e-04, -1.7405e-03],
+        [-1.7633e-03,  2.0370e-03,  1.0004e-03,  ..., -3.0212e-03,
+          9.1457e-04, -2.2411e-03],
+        [ 2.3365e-03,  1.2960e-03,  1.4067e-03,  ..., -3.0937e-03,
+          5.2357e-04,  1.8501e-03],
+        ...,
+        [ 1.1520e-03,  6.6137e-04,  5.7364e-04,  ...,  3.6449e-03,
+          2.0659e-04,  2.7256e-03],
+        [-4.2953e-03, -4.7493e-03, -1.3018e-03,  ..., -6.8665e-03,
+         -3.4504e-03, -7.4615e-03],
+        [ 9.6202e-05,  6.5422e-04,  6.8665e-04,  ...,  3.8509e-03,
+          2.2995e-04,  1.7843e-03]], device='cuda:0')
+Epoch 78, bias, value: tensor([-0.0123,  0.0194,  0.0022, -0.0072,  0.0185, -0.0316,  0.0102, -0.0046,
+         0.0028, -0.0135], device='cuda:0'), grad: tensor([-0.0218, -0.0436, -0.0061,  0.0522, -0.0095,  0.0045,  0.0126,  0.0147,
+        -0.0184,  0.0155], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 77----------------------------------------------------
+epoch 77, time 230.68, cls_loss 0.7053 cls_loss_mapping 0.0269 cls_loss_causal 0.5878 re_mapping 0.0199 re_causal 0.0439 /// teacc 98.47 lr 0.00010000
+Epoch 79, weight, value: tensor([[-0.0446, -0.0581, -0.0653,  ..., -0.0223,  0.0411, -0.0657],
+        [-0.0272, -0.0609, -0.0303,  ...,  0.0836, -0.0333,  0.1370],
+        [ 0.0164, -0.0210, -0.0086,  ..., -0.0117, -0.0038, -0.0477],
+        ...,
+        [ 0.0065, -0.0627,  0.0998,  ...,  0.0122, -0.0433,  0.0318],
+        [-0.0105,  0.0412, -0.0710,  ..., -0.0340, -0.0114, -0.0526],
+        [-0.0477,  0.0564,  0.0489,  ..., -0.0469, -0.0211, -0.0174]],
+       device='cuda:0'), grad: tensor([[ 7.2643e-08,  7.2527e-04,  1.3275e-03,  ..., -7.3433e-03,
+          2.2430e-03,  1.2082e-04],
+        [-4.4227e-05, -1.5736e-03, -5.0116e-04,  ..., -3.1281e-03,
+         -1.7273e-02, -1.7426e-02],
+        [ 7.1041e-06,  2.4366e-04,  1.6260e-03,  ..., -2.5864e-03,
+          3.9978e-03,  5.3215e-03],
+        ...,
+        [ 2.1961e-06, -5.8098e-03, -4.4174e-03,  ...,  2.0542e-03,
+          4.0889e-04, -7.1907e-04],
+        [ 1.8835e-05,  4.6158e-03,  9.3222e-04,  ...,  3.2959e-03,
+          4.5242e-03,  3.4599e-03],
+        [ 1.8207e-06,  2.0847e-03,  2.4967e-03,  ...,  4.8103e-03,
+          1.5984e-03,  4.7302e-03]], device='cuda:0')
+Epoch 79, bias, value: tensor([-0.0126,  0.0196,  0.0021, -0.0069,  0.0188, -0.0317,  0.0108, -0.0042,
+         0.0016, -0.0134], device='cuda:0'), grad: tensor([-0.0130, -0.0419,  0.0103, -0.0080,  0.0265, -0.0212, -0.0053,  0.0064,
+         0.0287,  0.0176], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 78, time 214.18, cls_loss 0.7602 cls_loss_mapping 0.0275 cls_loss_causal 0.6495 re_mapping 0.0194 re_causal 0.0444 /// teacc 98.12 lr 0.00010000
+Epoch 80, weight, value: tensor([[-0.0446, -0.0590, -0.0658,  ..., -0.0215,  0.0409, -0.0649],
+        [-0.0262, -0.0611, -0.0303,  ...,  0.0845, -0.0326,  0.1382],
+        [ 0.0167, -0.0212, -0.0097,  ..., -0.0111, -0.0041, -0.0486],
+        ...,
+        [ 0.0074, -0.0632,  0.1001,  ...,  0.0114, -0.0444,  0.0312],
+        [-0.0114,  0.0416, -0.0714,  ..., -0.0348, -0.0111, -0.0527],
+        [-0.0483,  0.0578,  0.0495,  ..., -0.0473, -0.0200, -0.0174]],
+       device='cuda:0'), grad: tensor([[ 1.8422e-06, -2.7714e-03, -6.5956e-03,  ..., -6.0730e-03,
+         -2.3060e-03, -4.9896e-03],
+        [ 2.7633e-04,  1.1559e-03,  1.6937e-03,  ...,  1.0681e-02,
+          1.3132e-03,  3.0441e-03],
+        [ 5.5075e-05,  8.9598e-04,  1.9531e-03,  ...,  6.1913e-03,
+          7.2718e-04,  2.0332e-03],
+        ...,
+        [ 3.1531e-05,  5.7373e-03,  8.8959e-03,  ...,  7.4463e-03,
+          1.6232e-03,  8.8425e-03],
+        [-4.1246e-04,  1.5659e-03, -7.7343e-04,  ...,  1.7061e-03,
+          3.5496e-03, -2.7580e-03],
+        [ 1.6540e-05, -4.9362e-03, -3.9864e-03,  ..., -2.1915e-03,
+          1.1429e-02, -7.1640e-03]], device='cuda:0')
+Epoch 80, bias, value: tensor([-0.0126,  0.0198,  0.0019, -0.0067,  0.0186, -0.0312,  0.0107, -0.0045,
+         0.0012, -0.0132], device='cuda:0'), grad: tensor([-0.0165,  0.0303,  0.0198, -0.0184, -0.0507,  0.0205, -0.0080,  0.0316,
+         0.0025, -0.0111], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 79, time 214.39, cls_loss 0.7230 cls_loss_mapping 0.0254 cls_loss_causal 0.6186 re_mapping 0.0194 re_causal 0.0438 /// teacc 98.31 lr 0.00010000
+Epoch 81, weight, value: tensor([[-0.0458, -0.0603, -0.0659,  ..., -0.0225,  0.0405, -0.0649],
+        [-0.0276, -0.0600, -0.0304,  ...,  0.0843, -0.0309,  0.1386],
+        [ 0.0159, -0.0208, -0.0105,  ..., -0.0110, -0.0045, -0.0496],
+        ...,
+        [ 0.0080, -0.0630,  0.1004,  ...,  0.0119, -0.0446,  0.0318],
+        [-0.0111,  0.0415, -0.0712,  ..., -0.0350, -0.0109, -0.0528],
+        [-0.0488,  0.0575,  0.0497,  ..., -0.0469, -0.0203, -0.0176]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.3113e-03,  7.7784e-05,  ...,  2.9545e-03,
+          4.6730e-04,  5.7077e-04],
+        [ 0.0000e+00,  1.1093e-02,  6.6071e-03,  ...,  5.3749e-03,
+          2.3098e-03,  3.8147e-03],
+        [ 0.0000e+00,  3.9253e-03,  8.8882e-04,  ...,  1.0368e-02,
+          9.4604e-04,  9.6416e-04],
+        ...,
+        [ 3.2596e-09, -5.0049e-03, -1.5114e-02,  ..., -1.1925e-02,
+         -1.1383e-02,  4.8971e-04],
+        [ 1.5832e-07,  9.2316e-03,  7.6752e-03,  ...,  1.3397e-02,
+          4.6692e-03,  5.3329e-03],
+        [-9.1270e-07, -1.4175e-02, -6.3133e-03,  ..., -6.1569e-03,
+          1.6346e-03, -1.3313e-02]], device='cuda:0')
+Epoch 81, bias, value: tensor([-0.0138,  0.0191,  0.0023, -0.0066,  0.0191, -0.0308,  0.0112, -0.0043,
+         0.0012, -0.0134], device='cuda:0'), grad: tensor([ 0.0145,  0.0214,  0.0332,  0.0003, -0.0131,  0.0251, -0.0114, -0.0977,
+         0.0464, -0.0185], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 80, time 214.35, cls_loss 0.7162 cls_loss_mapping 0.0221 cls_loss_causal 0.6147 re_mapping 0.0191 re_causal 0.0417 /// teacc 98.27 lr 0.00010000
+Epoch 82, weight, value: tensor([[-0.0454, -0.0601, -0.0667,  ..., -0.0224,  0.0411, -0.0646],
+        [-0.0291, -0.0605, -0.0316,  ...,  0.0847, -0.0314,  0.1385],
+        [ 0.0163, -0.0202, -0.0098,  ..., -0.0100, -0.0041, -0.0489],
+        ...,
+        [ 0.0085, -0.0647,  0.1013,  ...,  0.0112, -0.0451,  0.0326],
+        [-0.0114,  0.0422, -0.0715,  ..., -0.0361, -0.0103, -0.0534],
+        [-0.0490,  0.0571,  0.0499,  ..., -0.0460, -0.0202, -0.0176]],
+       device='cuda:0'), grad: tensor([[ 9.6299e-07, -4.2496e-03, -1.5521e-04,  ..., -8.4610e-03,
+         -1.2779e-03, -2.9736e-03],
+        [ 8.4490e-06,  7.2250e-03,  1.1986e-02,  ...,  3.9978e-02,
+          9.1248e-03,  2.6108e-02],
+        [-7.1764e-05, -1.5106e-03, -4.8561e-03,  ..., -4.7731e-04,
+          1.2326e-04, -1.7309e-03],
+        ...,
+        [ 6.5714e-06,  2.7733e-03,  4.3259e-03,  ...,  1.2932e-02,
+          1.0371e-04,  7.0915e-03],
+        [ 2.9877e-05,  3.0613e-03,  1.8082e-03,  ...,  6.5422e-04,
+          6.2370e-04,  3.5000e-03],
+        [ 1.8654e-06,  2.6970e-03, -4.5586e-03,  ..., -7.4806e-03,
+          3.3593e-04, -8.8654e-03]], device='cuda:0')
+Epoch 82, bias, value: tensor([-0.0133,  0.0196,  0.0033, -0.0075,  0.0188, -0.0307,  0.0104, -0.0049,
+         0.0011, -0.0127], device='cuda:0'), grad: tensor([-0.0240,  0.0909, -0.0295, -0.0858, -0.0014,  0.0192,  0.0246,  0.0409,
+         0.0118, -0.0466], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 81, time 214.51, cls_loss 0.6804 cls_loss_mapping 0.0220 cls_loss_causal 0.5738 re_mapping 0.0189 re_causal 0.0397 /// teacc 98.37 lr 0.00010000
+Epoch 83, weight, value: tensor([[-0.0440, -0.0597, -0.0668,  ..., -0.0223,  0.0409, -0.0640],
+        [-0.0309, -0.0634, -0.0327,  ...,  0.0843, -0.0327,  0.1379],
+        [ 0.0143, -0.0196, -0.0104,  ..., -0.0103, -0.0026, -0.0484],
+        ...,
+        [ 0.0085, -0.0645,  0.1022,  ...,  0.0115, -0.0442,  0.0323],
+        [-0.0122,  0.0417, -0.0719,  ..., -0.0368, -0.0100, -0.0528],
+        [-0.0486,  0.0569,  0.0499,  ..., -0.0456, -0.0210, -0.0166]],
+       device='cuda:0'), grad: tensor([[ 1.1921e-07,  5.0850e-03,  5.8556e-04,  ...,  5.2376e-03,
+          1.3382e-02,  6.5498e-03],
+        [ 3.4459e-08, -8.8501e-03,  8.2445e-04,  ..., -1.0132e-02,
+          1.5030e-03, -2.2376e-04],
+        [ 1.3318e-07,  4.6234e-03, -2.7561e-03,  ..., -7.8964e-03,
+         -2.6035e-03,  1.6379e-04],
+        ...,
+        [ 1.2040e-05,  9.7847e-04,  1.5032e-04,  ..., -1.3895e-03,
+         -1.2207e-03, -6.0730e-03],
+        [ 4.6268e-06,  9.7656e-03,  6.3086e-04,  ...,  1.6296e-02,
+         -6.4354e-03, -8.4686e-03],
+        [-2.7820e-05,  3.5439e-03,  2.9469e-03,  ..., -1.1703e-02,
+          1.5516e-03,  9.9792e-03]], device='cuda:0')
+Epoch 83, bias, value: tensor([-0.0133,  0.0186,  0.0031, -0.0076,  0.0184, -0.0304,  0.0107, -0.0050,
+         0.0014, -0.0120], device='cuda:0'), grad: tensor([ 0.0234, -0.0043, -0.0282, -0.0134,  0.0163,  0.0126,  0.0014,  0.0162,
+         0.0238, -0.0477], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 82, time 214.62, cls_loss 0.7092 cls_loss_mapping 0.0244 cls_loss_causal 0.6076 re_mapping 0.0195 re_causal 0.0412 /// teacc 98.22 lr 0.00010000
+Epoch 84, weight, value: tensor([[-0.0511, -0.0622, -0.0680,  ..., -0.0228,  0.0395, -0.0647],
+        [-0.0305, -0.0617, -0.0318,  ...,  0.0847, -0.0323,  0.1391],
+        [ 0.0144, -0.0201, -0.0097,  ..., -0.0102, -0.0020, -0.0485],
+        ...,
+        [ 0.0094, -0.0648,  0.1034,  ...,  0.0116, -0.0444,  0.0333],
+        [-0.0143,  0.0421, -0.0731,  ..., -0.0369, -0.0093, -0.0530],
+        [-0.0476,  0.0571,  0.0492,  ..., -0.0462, -0.0214, -0.0182]],
+       device='cuda:0'), grad: tensor([[-5.4970e-03,  3.7223e-05, -2.0142e-03,  ..., -1.8021e-02,
+         -2.3289e-03, -1.0080e-03],
+        [ 5.7077e-04, -1.0233e-03, -2.9588e-04,  ..., -2.4853e-03,
+          2.6846e-04, -4.8561e-03],
+        [ 3.3970e-03,  7.9498e-03,  8.1015e-04,  ...,  1.2268e-02,
+          4.1542e-03,  1.2970e-03],
+        ...,
+        [ 6.4468e-04, -5.9814e-03, -5.3635e-03,  ..., -6.1264e-03,
+          3.6907e-04, -3.2215e-03],
+        [ 7.7248e-04, -2.0142e-02,  1.1263e-03,  ..., -4.3068e-03,
+         -1.1940e-02,  2.7752e-03],
+        [ 1.0862e-03,  3.2940e-03,  6.5088e-04,  ..., -2.1420e-03,
+          3.3212e-04, -1.7376e-03]], device='cuda:0')
+Epoch 84, bias, value: tensor([-0.0133,  0.0187,  0.0030, -0.0076,  0.0187, -0.0308,  0.0109, -0.0043,
+         0.0018, -0.0131], device='cuda:0'), grad: tensor([-0.0670,  0.0031,  0.0473, -0.0142,  0.0094, -0.0138,  0.0230, -0.0069,
+         0.0165,  0.0026], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 83, time 214.18, cls_loss 0.6981 cls_loss_mapping 0.0195 cls_loss_causal 0.5917 re_mapping 0.0202 re_causal 0.0436 /// teacc 98.25 lr 0.00010000
+Epoch 85, weight, value: tensor([[-0.0526, -0.0616, -0.0686,  ..., -0.0222,  0.0395, -0.0647],
+        [-0.0306, -0.0618, -0.0321,  ...,  0.0845, -0.0334,  0.1403],
+        [ 0.0121, -0.0200, -0.0107,  ..., -0.0097, -0.0025, -0.0487],
+        ...,
+        [ 0.0091, -0.0657,  0.1042,  ...,  0.0111, -0.0450,  0.0330],
+        [-0.0133,  0.0422, -0.0728,  ..., -0.0372, -0.0075, -0.0542],
+        [-0.0490,  0.0577,  0.0489,  ..., -0.0466, -0.0222, -0.0181]],
+       device='cuda:0'), grad: tensor([[ 1.0625e-05,  1.2264e-03,  5.1355e-04,  ...,  4.7607e-03,
+          5.6744e-04,  2.7809e-03],
+        [ 6.8583e-06,  5.1117e-04,  5.9223e-04,  ...,  4.8866e-03,
+          5.3740e-04,  2.2087e-03],
+        [ 8.5294e-05,  5.0783e-04, -3.4218e-03,  ..., -7.8125e-03,
+         -6.4430e-03,  5.8842e-04],
+        ...,
+        [ 2.9355e-05,  3.6469e-03,  5.6877e-03,  ...,  6.0940e-04,
+          4.0894e-03,  4.3640e-03],
+        [-7.6115e-05,  2.7374e-02,  2.0599e-03,  ...,  3.2387e-03,
+          4.0375e-02,  1.1044e-03],
+        [ 4.9084e-05, -3.1395e-03, -6.2981e-03,  ..., -4.9210e-03,
+          2.0943e-03, -5.2643e-03]], device='cuda:0')
+Epoch 85, bias, value: tensor([-0.0132,  0.0193,  0.0031, -0.0073,  0.0188, -0.0303,  0.0102, -0.0050,
+         0.0017, -0.0132], device='cuda:0'), grad: tensor([ 0.0177,  0.0154, -0.0143, -0.0387,  0.0206, -0.0255,  0.0406, -0.0046,
+        -0.0044, -0.0068], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 84, time 214.15, cls_loss 0.6978 cls_loss_mapping 0.0237 cls_loss_causal 0.5955 re_mapping 0.0191 re_causal 0.0410 /// teacc 98.20 lr 0.00010000
+Epoch 86, weight, value: tensor([[-0.0550, -0.0622, -0.0679,  ..., -0.0219,  0.0402, -0.0657],
+        [-0.0304, -0.0627, -0.0328,  ...,  0.0842, -0.0331,  0.1408],
+        [ 0.0116, -0.0194, -0.0112,  ..., -0.0097, -0.0042, -0.0497],
+        ...,
+        [ 0.0082, -0.0665,  0.1048,  ...,  0.0106, -0.0450,  0.0332],
+        [-0.0144,  0.0430, -0.0726,  ..., -0.0370, -0.0080, -0.0540],
+        [-0.0495,  0.0567,  0.0487,  ..., -0.0466, -0.0213, -0.0187]],
+       device='cuda:0'), grad: tensor([[ 0.0001,  0.0013,  0.0011,  ...,  0.0126,  0.0006,  0.0035],
+        [ 0.0011,  0.0051,  0.0038,  ...,  0.0018,  0.0007,  0.0078],
+        [ 0.0006,  0.0014,  0.0017,  ...,  0.0082,  0.0008,  0.0030],
+        ...,
+        [ 0.0032,  0.0129,  0.0196,  ...,  0.0275,  0.0008,  0.0280],
+        [-0.0042, -0.0091, -0.0061,  ..., -0.0163, -0.0030, -0.0088],
+        [-0.0041, -0.0007, -0.0078,  ..., -0.0063,  0.0015, -0.0071]],
+       device='cuda:0')
+Epoch 86, bias, value: tensor([-0.0130,  0.0190,  0.0030, -0.0074,  0.0186, -0.0306,  0.0109, -0.0052,
+         0.0020, -0.0132], device='cuda:0'), grad: tensor([ 0.0358,  0.0248,  0.0213, -0.0330, -0.0149, -0.0277, -0.0162,  0.0671,
+        -0.0508, -0.0064], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 85, time 214.48, cls_loss 0.7108 cls_loss_mapping 0.0221 cls_loss_causal 0.6040 re_mapping 0.0188 re_causal 0.0399 /// teacc 98.25 lr 0.00010000
+Epoch 87, weight, value: tensor([[-0.0550, -0.0621, -0.0682,  ..., -0.0223,  0.0392, -0.0658],
+        [-0.0308, -0.0622, -0.0343,  ...,  0.0844, -0.0336,  0.1410],
+        [ 0.0119, -0.0193, -0.0109,  ..., -0.0094, -0.0040, -0.0499],
+        ...,
+        [ 0.0073, -0.0668,  0.1051,  ...,  0.0102, -0.0448,  0.0326],
+        [-0.0142,  0.0418, -0.0729,  ..., -0.0375, -0.0072, -0.0539],
+        [-0.0482,  0.0567,  0.0479,  ..., -0.0466, -0.0214, -0.0181]],
+       device='cuda:0'), grad: tensor([[ 2.2456e-05, -5.8842e-04,  4.1342e-04,  ...,  9.2554e-04,
+         -1.3905e-03,  2.1732e-04],
+        [-3.3712e-04, -1.0508e-04,  1.7309e-04,  ..., -9.1248e-03,
+          5.3167e-05, -1.7004e-03],
+        [-3.9053e-04,  5.5218e-04,  7.8487e-04,  ...,  1.2646e-03,
+         -6.5684e-05,  4.1723e-04],
+        ...,
+        [ 1.0997e-04, -4.3030e-03, -1.0574e-02,  ..., -6.9389e-03,
+          7.9095e-05, -6.1569e-03],
+        [ 1.0246e-04, -4.5586e-03, -9.6917e-05,  ..., -4.5013e-03,
+          4.3321e-04,  1.4915e-03],
+        [ 1.8105e-05,  8.8882e-03,  7.3471e-03,  ...,  7.5264e-03,
+          1.5755e-03,  5.9891e-03]], device='cuda:0')
+Epoch 87, bias, value: tensor([-0.0136,  0.0192,  0.0036, -0.0075,  0.0186, -0.0306,  0.0107, -0.0049,
+         0.0018, -0.0134], device='cuda:0'), grad: tensor([ 0.0024, -0.0148,  0.0079,  0.0001, -0.0187,  0.0253, -0.0047, -0.0134,
+        -0.0170,  0.0327], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 86, time 214.96, cls_loss 0.7184 cls_loss_mapping 0.0240 cls_loss_causal 0.6118 re_mapping 0.0182 re_causal 0.0395 /// teacc 98.25 lr 0.00010000
+Epoch 88, weight, value: tensor([[-0.0558, -0.0616, -0.0691,  ..., -0.0236,  0.0395, -0.0664],
+        [-0.0311, -0.0636, -0.0355,  ...,  0.0853, -0.0325,  0.1411],
+        [ 0.0108, -0.0182, -0.0106,  ..., -0.0090, -0.0039, -0.0501],
+        ...,
+        [ 0.0076, -0.0669,  0.1052,  ...,  0.0088, -0.0453,  0.0338],
+        [-0.0146,  0.0424, -0.0745,  ..., -0.0374, -0.0068, -0.0546],
+        [-0.0486,  0.0570,  0.0482,  ..., -0.0463, -0.0220, -0.0185]],
+       device='cuda:0'), grad: tensor([[ 7.0870e-05, -8.5220e-03,  1.1784e-04,  ...,  2.2542e-04,
+         -1.1383e-02,  1.6463e-04],
+        [ 1.1129e-06, -7.7152e-04,  6.5863e-05,  ..., -7.3509e-03,
+          2.0428e-03, -3.2520e-03],
+        [ 3.4988e-05,  5.4264e-04, -1.1082e-03,  ..., -5.5809e-03,
+         -1.2608e-03,  1.4365e-04],
+        ...,
+        [ 9.1344e-06, -6.3133e-04, -1.9741e-03,  ...,  1.3056e-03,
+          1.8559e-03, -1.4753e-03],
+        [ 1.8656e-05,  1.3023e-02,  2.1601e-04,  ...,  3.4313e-03,
+          1.5612e-03,  9.4509e-04],
+        [-9.4116e-05,  1.7989e-04,  1.5306e-03,  ...,  3.0937e-03,
+          3.0155e-03,  1.2379e-03]], device='cuda:0')
+Epoch 88, bias, value: tensor([-0.0137,  0.0196,  0.0043, -0.0079,  0.0191, -0.0308,  0.0101, -0.0059,
+         0.0021, -0.0130], device='cuda:0'), grad: tensor([-0.0209, -0.0217, -0.0169,  0.0271, -0.0033,  0.0277, -0.0364,  0.0102,
+         0.0205,  0.0136], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 87, time 214.88, cls_loss 0.7241 cls_loss_mapping 0.0221 cls_loss_causal 0.6280 re_mapping 0.0190 re_causal 0.0420 /// teacc 98.22 lr 0.00010000
+Epoch 89, weight, value: tensor([[-0.0567, -0.0619, -0.0694,  ..., -0.0237,  0.0400, -0.0656],
+        [-0.0316, -0.0639, -0.0361,  ...,  0.0846, -0.0317,  0.1425],
+        [ 0.0138, -0.0190, -0.0100,  ..., -0.0093, -0.0045, -0.0503],
+        ...,
+        [ 0.0062, -0.0663,  0.1059,  ...,  0.0099, -0.0468,  0.0345],
+        [-0.0164,  0.0422, -0.0754,  ..., -0.0376, -0.0065, -0.0557],
+        [-0.0500,  0.0579,  0.0486,  ..., -0.0460, -0.0214, -0.0191]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-08,  1.7481e-03,  4.5371e-04,  ...,  8.3771e-03,
+          1.1569e-04,  5.7077e-04],
+        [ 1.8626e-08,  1.9112e-03,  1.1301e-03,  ...,  9.7885e-03,
+          9.5606e-05, -6.2132e-04],
+        [ 4.0233e-07,  6.4888e-03,  2.8992e-03,  ...,  9.2316e-03,
+          6.2828e-03,  1.1253e-03],
+        ...,
+        [ 3.0734e-08,  2.7256e-03,  4.5471e-03,  ..., -8.0566e-03,
+          4.6849e-05,  3.4275e-03],
+        [ 1.3903e-05,  4.9629e-03,  1.1187e-03,  ...,  1.3611e-02,
+          4.9019e-04,  1.9665e-03],
+        [ 2.4252e-06, -3.6278e-03,  6.8808e-04,  ..., -3.9368e-03,
+          3.9673e-04,  7.4530e-04]], device='cuda:0')
+Epoch 89, bias, value: tensor([-0.0141,  0.0193,  0.0041, -0.0072,  0.0185, -0.0303,  0.0099, -0.0050,
+         0.0012, -0.0124], device='cuda:0'), grad: tensor([ 0.0228,  0.0318,  0.0291, -0.0038,  0.0032, -0.0437, -0.0395, -0.0028,
+         0.0376, -0.0347], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 88, time 214.71, cls_loss 0.7223 cls_loss_mapping 0.0180 cls_loss_causal 0.6036 re_mapping 0.0181 re_causal 0.0409 /// teacc 98.20 lr 0.00010000
+Epoch 90, weight, value: tensor([[-0.0554, -0.0621, -0.0688,  ..., -0.0234,  0.0408, -0.0654],
+        [-0.0321, -0.0646, -0.0359,  ...,  0.0847, -0.0315,  0.1424],
+        [ 0.0134, -0.0184, -0.0105,  ..., -0.0099, -0.0031, -0.0495],
+        ...,
+        [ 0.0070, -0.0665,  0.1066,  ...,  0.0106, -0.0469,  0.0344],
+        [-0.0163,  0.0418, -0.0764,  ..., -0.0376, -0.0072, -0.0555],
+        [-0.0508,  0.0592,  0.0488,  ..., -0.0454, -0.0216, -0.0194]],
+       device='cuda:0'), grad: tensor([[ 2.6092e-05,  6.7215e-03,  2.5940e-03,  ...,  1.0689e-02,
+          7.3128e-03,  1.1797e-03],
+        [ 6.1095e-05, -1.2884e-03,  1.4954e-03,  ...,  7.8888e-03,
+          9.5272e-04,  2.0920e-02],
+        [-1.1005e-03, -2.7695e-03, -1.3037e-03,  ..., -5.2567e-03,
+          4.0016e-03,  4.3988e-04],
+        ...,
+        [ 7.0870e-05,  3.9864e-03,  4.0932e-03,  ...,  6.5575e-03,
+          2.3708e-03,  1.4353e-03],
+        [ 5.2547e-04, -3.9864e-03, -5.9204e-03,  ..., -4.9362e-03,
+         -3.0518e-03,  1.0948e-03],
+        [ 1.5545e-04,  6.9351e-03,  2.3067e-04,  ...,  5.2109e-03,
+          4.3640e-03, -2.4843e-04]], device='cuda:0')
+Epoch 90, bias, value: tensor([-0.0136,  0.0189,  0.0034, -0.0081,  0.0187, -0.0294,  0.0101, -0.0056,
+         0.0012, -0.0118], device='cuda:0'), grad: tensor([ 0.0402,  0.0054, -0.0067,  0.0273,  0.0073, -0.0865,  0.0045,  0.0257,
+        -0.0325,  0.0154], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 89, time 214.92, cls_loss 0.7175 cls_loss_mapping 0.0242 cls_loss_causal 0.6094 re_mapping 0.0177 re_causal 0.0395 /// teacc 98.30 lr 0.00010000
+Epoch 91, weight, value: tensor([[-0.0560, -0.0627, -0.0701,  ..., -0.0241,  0.0405, -0.0661],
+        [-0.0326, -0.0636, -0.0368,  ...,  0.0846, -0.0320,  0.1433],
+        [ 0.0125, -0.0179, -0.0110,  ..., -0.0107, -0.0029, -0.0494],
+        ...,
+        [ 0.0083, -0.0680,  0.1064,  ...,  0.0115, -0.0472,  0.0339],
+        [-0.0158,  0.0420, -0.0769,  ..., -0.0381, -0.0069, -0.0562],
+        [-0.0522,  0.0592,  0.0483,  ..., -0.0451, -0.0228, -0.0190]],
+       device='cuda:0'), grad: tensor([[ 0.0006, -0.0063, -0.0035,  ..., -0.0109, -0.0096, -0.0038],
+        [-0.0033, -0.0006,  0.0004,  ..., -0.0264,  0.0014, -0.0114],
+        [ 0.0002,  0.0020,  0.0009,  ..., -0.0062, -0.0210,  0.0012],
+        ...,
+        [ 0.0006,  0.0050,  0.0008,  ...,  0.0116,  0.0144,  0.0017],
+        [ 0.0009,  0.0064,  0.0013,  ...,  0.0267,  0.0018,  0.0108],
+        [ 0.0002,  0.0027,  0.0008,  ...,  0.0086,  0.0043,  0.0011]],
+       device='cuda:0')
+Epoch 91, bias, value: tensor([-0.0145,  0.0191,  0.0030, -0.0073,  0.0186, -0.0296,  0.0100, -0.0049,
+         0.0017, -0.0122], device='cuda:0'), grad: tensor([-0.0341, -0.0588, -0.0352,  0.0253, -0.0040, -0.0306, -0.0205,  0.0293,
+         0.0837,  0.0450], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 90, time 214.94, cls_loss 0.6774 cls_loss_mapping 0.0213 cls_loss_causal 0.5704 re_mapping 0.0179 re_causal 0.0384 /// teacc 98.28 lr 0.00010000
+Epoch 92, weight, value: tensor([[-0.0569, -0.0637, -0.0702,  ..., -0.0239,  0.0407, -0.0660],
+        [-0.0326, -0.0622, -0.0367,  ...,  0.0852, -0.0320,  0.1437],
+        [ 0.0115, -0.0194, -0.0109,  ..., -0.0119, -0.0044, -0.0496],
+        ...,
+        [ 0.0084, -0.0673,  0.1065,  ...,  0.0136, -0.0468,  0.0342],
+        [-0.0151,  0.0422, -0.0762,  ..., -0.0391, -0.0069, -0.0568],
+        [-0.0515,  0.0592,  0.0480,  ..., -0.0456, -0.0227, -0.0195]],
+       device='cuda:0'), grad: tensor([[ 1.0230e-05, -9.5701e-04,  1.7262e-04,  ..., -1.7868e-02,
+          2.1076e-04,  1.2003e-05],
+        [ 2.0146e-05,  5.3444e-03,  9.4473e-05,  ...,  2.6154e-02,
+          6.5565e-05,  5.5313e-05],
+        [ 1.8299e-05, -7.8735e-03,  2.4199e-04,  ..., -9.0103e-03,
+          4.0627e-04,  2.2024e-05],
+        ...,
+        [-6.3121e-05, -2.3613e-03,  2.4128e-03,  ..., -1.5030e-02,
+          1.4067e-04,  1.2130e-04],
+        [ 1.8060e-05,  2.2507e-03,  7.5579e-04,  ...,  1.0124e-02,
+          9.0456e-04,  1.5211e-04],
+        [ 3.3170e-05,  1.4791e-03, -2.6035e-03,  ...,  8.9569e-03,
+          5.1880e-04, -3.9816e-04]], device='cuda:0')
+Epoch 92, bias, value: tensor([-0.0146,  0.0191,  0.0023, -0.0071,  0.0187, -0.0295,  0.0103, -0.0040,
+         0.0012, -0.0125], device='cuda:0'), grad: tensor([-0.0435,  0.0421, -0.0288,  0.0143,  0.0229,  0.0064, -0.0333,  0.0187,
+         0.0050, -0.0038], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 91, time 214.79, cls_loss 0.7244 cls_loss_mapping 0.0244 cls_loss_causal 0.6202 re_mapping 0.0176 re_causal 0.0388 /// teacc 98.17 lr 0.00010000
+Epoch 93, weight, value: tensor([[-0.0547, -0.0639, -0.0705,  ..., -0.0234,  0.0419, -0.0663],
+        [-0.0338, -0.0618, -0.0381,  ...,  0.0850, -0.0317,  0.1438],
+        [ 0.0120, -0.0187, -0.0099,  ..., -0.0117, -0.0053, -0.0493],
+        ...,
+        [ 0.0103, -0.0685,  0.1068,  ...,  0.0149, -0.0471,  0.0358],
+        [-0.0158,  0.0421, -0.0766,  ..., -0.0404, -0.0053, -0.0574],
+        [-0.0527,  0.0604,  0.0487,  ..., -0.0451, -0.0242, -0.0198]],
+       device='cuda:0'), grad: tensor([[ 2.8089e-05, -1.2398e-02,  6.5327e-04,  ..., -4.9667e-03,
+         -1.4366e-02,  1.3125e-04],
+        [ 6.0499e-05,  1.1597e-03,  4.6325e-04,  ...,  3.1662e-03,
+          1.1139e-03,  2.4307e-04],
+        [ 1.3857e-03,  7.5989e-03,  1.5917e-03,  ...,  5.0049e-03,
+         -4.7035e-03,  6.7377e-04],
+        ...,
+        [ 1.3208e-04, -7.0877e-03,  2.7905e-03,  ..., -9.9869e-03,
+          1.3008e-03,  1.9588e-03],
+        [ 3.7336e-04,  1.6724e-02,  1.6918e-03,  ..., -3.1986e-03,
+          7.2594e-03,  2.7523e-03],
+        [-1.2417e-03, -3.5248e-03, -8.1635e-03,  ..., -1.0422e-02,
+         -4.0245e-03, -9.2773e-03]], device='cuda:0')
+Epoch 93, bias, value: tensor([-0.0144,  0.0189,  0.0025, -0.0072,  0.0177, -0.0297,  0.0104, -0.0035,
+         0.0006, -0.0115], device='cuda:0'), grad: tensor([-0.0583,  0.0129,  0.0244,  0.0215, -0.0200,  0.0444,  0.0383, -0.0414,
+         0.0150, -0.0367], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 92, time 214.92, cls_loss 0.7294 cls_loss_mapping 0.0224 cls_loss_causal 0.6338 re_mapping 0.0182 re_causal 0.0408 /// teacc 98.12 lr 0.00010000
+Epoch 94, weight, value: tensor([[-0.0527, -0.0648, -0.0717,  ..., -0.0242,  0.0426, -0.0673],
+        [-0.0328, -0.0630, -0.0381,  ...,  0.0851, -0.0317,  0.1440],
+        [ 0.0122, -0.0192, -0.0103,  ..., -0.0124, -0.0048, -0.0503],
+        ...,
+        [ 0.0095, -0.0669,  0.1077,  ...,  0.0149, -0.0465,  0.0359],
+        [-0.0156,  0.0422, -0.0769,  ..., -0.0403, -0.0055, -0.0576],
+        [-0.0527,  0.0600,  0.0482,  ..., -0.0450, -0.0243, -0.0185]],
+       device='cuda:0'), grad: tensor([[ 0.0005,  0.0003,  0.0006,  ...,  0.0097,  0.0013,  0.0005],
+        [-0.0018, -0.0001, -0.0033,  ..., -0.0219,  0.0004, -0.0046],
+        [ 0.0018,  0.0003,  0.0015,  ...,  0.0139,  0.0051,  0.0017],
+        ...,
+        [ 0.0004, -0.0162, -0.0017,  ...,  0.0073,  0.0006, -0.0024],
+        [ 0.0007,  0.0055,  0.0005,  ..., -0.0043,  0.0009,  0.0011],
+        [-0.0037,  0.0061,  0.0039,  ..., -0.0062, -0.0040,  0.0009]],
+       device='cuda:0')
+Epoch 94, bias, value: tensor([-0.0151,  0.0191,  0.0016, -0.0068,  0.0180, -0.0295,  0.0105, -0.0029,
+         0.0005, -0.0117], device='cuda:0'), grad: tensor([ 0.0388, -0.0574,  0.0411, -0.0054, -0.0684,  0.0256,  0.0176,  0.0193,
+        -0.0167,  0.0056], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 93, time 215.00, cls_loss 0.7074 cls_loss_mapping 0.0173 cls_loss_causal 0.6167 re_mapping 0.0179 re_causal 0.0423 /// teacc 98.03 lr 0.00010000
+Epoch 95, weight, value: tensor([[-0.0538, -0.0651, -0.0718,  ..., -0.0246,  0.0420, -0.0671],
+        [-0.0331, -0.0631, -0.0398,  ...,  0.0847, -0.0315,  0.1449],
+        [ 0.0129, -0.0197, -0.0099,  ..., -0.0118, -0.0049, -0.0499],
+        ...,
+        [ 0.0091, -0.0665,  0.1091,  ...,  0.0149, -0.0467,  0.0354],
+        [-0.0145,  0.0417, -0.0776,  ..., -0.0401, -0.0062, -0.0570],
+        [-0.0540,  0.0601,  0.0476,  ..., -0.0455, -0.0249, -0.0194]],
+       device='cuda:0'), grad: tensor([[ 5.2261e-04,  6.7759e-04,  4.9782e-04,  ...,  2.5272e-03,
+          6.4802e-04,  2.5463e-03],
+        [ 5.9456e-05, -2.4261e-03,  1.9729e-04,  ..., -9.6817e-03,
+         -2.5845e-03, -2.1763e-03],
+        [ 2.8324e-04,  3.5667e-03, -5.9319e-04,  ...,  2.1000e-03,
+          6.0081e-04,  7.9298e-04],
+        ...,
+        [ 4.9639e-04,  4.0092e-03,  2.6054e-03,  ...,  3.3150e-03,
+          1.0080e-03,  4.1389e-03],
+        [ 1.9550e-04,  3.0689e-03,  1.8806e-03,  ...,  2.9316e-03,
+          1.1244e-03, -3.6335e-03],
+        [-1.5898e-03,  1.4677e-03, -4.3144e-03,  ..., -9.1324e-03,
+          7.9823e-04, -3.5667e-03]], device='cuda:0')
+Epoch 95, bias, value: tensor([-0.0150,  0.0179,  0.0027, -0.0061,  0.0182, -0.0295,  0.0102, -0.0034,
+         0.0012, -0.0124], device='cuda:0'), grad: tensor([ 0.0296, -0.0254,  0.0225, -0.0404,  0.0130, -0.0270,  0.0191,  0.0267,
+         0.0191, -0.0374], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 94, time 214.48, cls_loss 0.7119 cls_loss_mapping 0.0227 cls_loss_causal 0.6049 re_mapping 0.0177 re_causal 0.0384 /// teacc 98.26 lr 0.00010000
+Epoch 96, weight, value: tensor([[-0.0530, -0.0648, -0.0707,  ..., -0.0233,  0.0420, -0.0664],
+        [-0.0324, -0.0639, -0.0409,  ...,  0.0849, -0.0309,  0.1465],
+        [ 0.0136, -0.0200, -0.0110,  ..., -0.0114, -0.0050, -0.0496],
+        ...,
+        [ 0.0078, -0.0673,  0.1093,  ...,  0.0156, -0.0472,  0.0345],
+        [-0.0143,  0.0412, -0.0778,  ..., -0.0402, -0.0061, -0.0584],
+        [-0.0502,  0.0614,  0.0485,  ..., -0.0461, -0.0255, -0.0191]],
+       device='cuda:0'), grad: tensor([[ 0.0004,  0.0006, -0.0018,  ..., -0.0100,  0.0002, -0.0050],
+        [ 0.0002, -0.0162, -0.0141,  ..., -0.0132,  0.0004, -0.0091],
+        [ 0.0018, -0.0116, -0.0058,  ..., -0.0200, -0.0041, -0.0028],
+        ...,
+        [ 0.0009,  0.0020,  0.0018,  ...,  0.0068,  0.0003, -0.0003],
+        [-0.0015,  0.0074,  0.0066,  ...,  0.0070,  0.0007,  0.0029],
+        [ 0.0002,  0.0056,  0.0061,  ...,  0.0094,  0.0010,  0.0051]],
+       device='cuda:0')
+Epoch 96, bias, value: tensor([-0.0142,  0.0189,  0.0024, -0.0065,  0.0180, -0.0300,  0.0100, -0.0030,
+         0.0006, -0.0125], device='cuda:0'), grad: tensor([-0.0113, -0.0378, -0.0428, -0.0018,  0.0170,  0.0272, -0.0091,  0.0219,
+         0.0006,  0.0360], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 95, time 214.47, cls_loss 0.6691 cls_loss_mapping 0.0170 cls_loss_causal 0.5616 re_mapping 0.0173 re_causal 0.0393 /// teacc 98.24 lr 0.00010000
+Epoch 97, weight, value: tensor([[-0.0538, -0.0651, -0.0709,  ..., -0.0237,  0.0428, -0.0675],
+        [-0.0327, -0.0640, -0.0405,  ...,  0.0853, -0.0309,  0.1484],
+        [ 0.0131, -0.0200, -0.0114,  ..., -0.0107, -0.0051, -0.0505],
+        ...,
+        [ 0.0080, -0.0668,  0.1095,  ...,  0.0146, -0.0469,  0.0348],
+        [-0.0149,  0.0419, -0.0785,  ..., -0.0398, -0.0063, -0.0589],
+        [-0.0495,  0.0615,  0.0491,  ..., -0.0470, -0.0265, -0.0187]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  1.8930e-04, -6.5374e-04,  ..., -3.1872e-03,
+          4.7565e-04,  3.9673e-04],
+        [ 4.3586e-07, -1.8328e-05, -4.8399e-04,  ..., -3.9749e-03,
+          7.3433e-05, -1.7490e-03],
+        [ 6.3777e-06, -1.7004e-03,  4.4346e-04,  ..., -1.4236e-02,
+         -2.5606e-04, -5.5027e-04],
+        ...,
+        [-5.7407e-06,  4.6134e-05,  1.4424e-04,  ...,  2.9621e-03,
+          1.6391e-04, -5.9319e-03],
+        [ 7.2364e-07, -1.5306e-03,  2.8872e-04,  ...,  5.0316e-03,
+         -7.9422e-03,  1.5602e-03],
+        [-2.5760e-06,  9.1076e-04, -6.7592e-05,  ...,  2.1229e-03,
+          4.1428e-03,  3.4599e-03]], device='cuda:0')
+Epoch 97, bias, value: tensor([-0.0144,  0.0196,  0.0032, -0.0066,  0.0184, -0.0301,  0.0094, -0.0037,
+         0.0009, -0.0131], device='cuda:0'), grad: tensor([-0.0143, -0.0032, -0.0343, -0.0144,  0.0230,  0.0084,  0.0076,  0.0008,
+         0.0042,  0.0223], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 96, time 214.75, cls_loss 0.6912 cls_loss_mapping 0.0195 cls_loss_causal 0.6044 re_mapping 0.0169 re_causal 0.0373 /// teacc 98.19 lr 0.00010000
+Epoch 98, weight, value: tensor([[-0.0541, -0.0651, -0.0704,  ..., -0.0239,  0.0419, -0.0684],
+        [-0.0338, -0.0640, -0.0412,  ...,  0.0857, -0.0317,  0.1498],
+        [ 0.0123, -0.0206, -0.0117,  ..., -0.0106, -0.0053, -0.0514],
+        ...,
+        [ 0.0098, -0.0660,  0.1092,  ...,  0.0147, -0.0472,  0.0363],
+        [-0.0153,  0.0420, -0.0771,  ..., -0.0398, -0.0058, -0.0604],
+        [-0.0511,  0.0612,  0.0504,  ..., -0.0469, -0.0253, -0.0195]],
+       device='cuda:0'), grad: tensor([[ 1.1641e-04,  8.4152e-03, -5.7220e-04,  ..., -3.5286e-03,
+          2.2659e-03, -2.3708e-03],
+        [ 1.2481e-04, -9.7573e-05,  7.0906e-04,  ..., -7.3509e-03,
+          1.4770e-04, -3.7823e-03],
+        [ 7.2956e-04,  1.7563e-02,  1.1482e-03,  ...,  3.1605e-03,
+          4.4289e-03,  1.9665e-03],
+        ...,
+        [ 2.0516e-04,  6.8045e-04, -5.5542e-03,  ..., -4.4899e-03,
+          1.3790e-03, -2.8019e-03],
+        [ 2.5606e-04, -1.0633e-03, -2.5501e-03,  ..., -2.5959e-03,
+         -4.8332e-03, -4.4556e-03],
+        [-8.0566e-03,  3.3169e-03,  6.5384e-03,  ...,  1.7583e-04,
+          2.7256e-03,  4.8141e-03]], device='cuda:0')
+Epoch 98, bias, value: tensor([-0.0154,  0.0200,  0.0033, -0.0075,  0.0183, -0.0304,  0.0101, -0.0031,
+         0.0005, -0.0123], device='cuda:0'), grad: tensor([-0.0095, -0.0190,  0.0275, -0.0154,  0.0339, -0.0072,  0.0234, -0.0282,
+        -0.0113,  0.0059], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 97, time 214.71, cls_loss 0.6714 cls_loss_mapping 0.0201 cls_loss_causal 0.5691 re_mapping 0.0166 re_causal 0.0360 /// teacc 98.36 lr 0.00010000
+Epoch 99, weight, value: tensor([[-0.0548, -0.0643, -0.0715,  ..., -0.0237,  0.0422, -0.0684],
+        [-0.0327, -0.0649, -0.0428,  ...,  0.0857, -0.0318,  0.1500],
+        [ 0.0117, -0.0198, -0.0114,  ..., -0.0103, -0.0052, -0.0520],
+        ...,
+        [ 0.0091, -0.0661,  0.1106,  ...,  0.0149, -0.0471,  0.0368],
+        [-0.0162,  0.0425, -0.0769,  ..., -0.0392, -0.0051, -0.0595],
+        [-0.0502,  0.0610,  0.0494,  ..., -0.0474, -0.0262, -0.0202]],
+       device='cuda:0'), grad: tensor([[ 2.8029e-05,  2.4796e-05,  1.9443e-04,  ...,  2.7695e-03,
+         -1.5678e-03,  6.8855e-04],
+        [ 6.3241e-05,  2.7609e-04,  1.0090e-03,  ..., -4.6349e-03,
+          1.1511e-03,  1.2026e-03],
+        [ 9.4223e-04,  6.5327e-05,  6.0558e-04,  ...,  1.3794e-02,
+          7.3862e-04,  2.3041e-03],
+        ...,
+        [ 1.1790e-04,  4.2558e-04,  1.1406e-03,  ...,  3.9215e-03,
+          1.0061e-03,  2.5921e-03],
+        [ 3.5119e-04,  3.1185e-03,  3.5553e-03,  ...,  3.3932e-03,
+          3.4599e-03,  1.9665e-03],
+        [-9.8991e-04, -4.3640e-03, -1.2657e-02,  ..., -1.6174e-02,
+         -1.2123e-02, -1.9806e-02]], device='cuda:0')
+Epoch 99, bias, value: tensor([-0.0155,  0.0194,  0.0046, -0.0078,  0.0180, -0.0299,  0.0093, -0.0030,
+         0.0016, -0.0132], device='cuda:0'), grad: tensor([ 0.0065, -0.0177,  0.0357, -0.0200, -0.0095,  0.0267,  0.0072,  0.0144,
+         0.0156, -0.0589], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 98, time 214.72, cls_loss 0.6958 cls_loss_mapping 0.0179 cls_loss_causal 0.5973 re_mapping 0.0169 re_causal 0.0388 /// teacc 98.23 lr 0.00010000
+Epoch 100, weight, value: tensor([[-0.0546, -0.0646, -0.0722,  ..., -0.0236,  0.0422, -0.0688],
+        [-0.0326, -0.0653, -0.0434,  ...,  0.0850, -0.0317,  0.1495],
+        [ 0.0108, -0.0196, -0.0103,  ..., -0.0102, -0.0048, -0.0516],
+        ...,
+        [ 0.0089, -0.0669,  0.1100,  ...,  0.0143, -0.0469,  0.0367],
+        [-0.0164,  0.0424, -0.0779,  ..., -0.0389, -0.0054, -0.0592],
+        [-0.0499,  0.0610,  0.0513,  ..., -0.0458, -0.0266, -0.0189]],
+       device='cuda:0'), grad: tensor([[ 1.4231e-05,  3.4690e-04,  1.9264e-03,  ...,  5.2261e-03,
+          4.9591e-04,  3.2139e-03],
+        [ 1.8520e-03,  3.1319e-03,  5.7888e-04,  ...,  2.3556e-03,
+          9.4748e-04,  3.3855e-03],
+        [ 7.6485e-04, -2.4490e-03,  1.5936e-03,  ...,  9.5901e-03,
+          3.7217e-04,  5.7449e-03],
+        ...,
+        [ 5.5981e-04,  1.1330e-03, -6.9351e-03,  ...,  8.5211e-04,
+          4.0150e-04, -9.8267e-03],
+        [ 1.4770e-04,  4.0507e-04,  1.0624e-03,  ..., -4.7646e-03,
+         -6.6757e-03, -8.5068e-03],
+        [-2.6531e-03, -3.6602e-03, -4.9248e-03,  ..., -1.1017e-02,
+          7.9632e-04, -2.2621e-03]], device='cuda:0')
+Epoch 100, bias, value: tensor([-0.0154,  0.0192,  0.0048, -0.0082,  0.0183, -0.0305,  0.0097, -0.0039,
+         0.0009, -0.0113], device='cuda:0'), grad: tensor([ 2.3102e-02, -1.5732e-02,  5.9634e-05,  1.8494e-02,  1.4145e-02,
+         8.7433e-03, -6.3744e-03, -7.1220e-03, -1.8082e-02, -1.7242e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 99, time 214.38, cls_loss 0.6968 cls_loss_mapping 0.0184 cls_loss_causal 0.5988 re_mapping 0.0170 re_causal 0.0377 /// teacc 98.13 lr 0.00010000
+Epoch 101, weight, value: tensor([[-0.0546, -0.0650, -0.0727,  ..., -0.0236,  0.0419, -0.0691],
+        [-0.0333, -0.0652, -0.0437,  ...,  0.0847, -0.0315,  0.1495],
+        [ 0.0110, -0.0195, -0.0100,  ..., -0.0093, -0.0047, -0.0527],
+        ...,
+        [ 0.0089, -0.0670,  0.1104,  ...,  0.0141, -0.0475,  0.0362],
+        [-0.0173,  0.0429, -0.0799,  ..., -0.0380, -0.0054, -0.0576],
+        [-0.0510,  0.0605,  0.0516,  ..., -0.0462, -0.0271, -0.0182]],
+       device='cuda:0'), grad: tensor([[ 0.0010,  0.0011,  0.0002,  ...,  0.0023,  0.0011,  0.0001],
+        [ 0.0005,  0.0004,  0.0003,  ..., -0.0070,  0.0007, -0.0001],
+        [ 0.0010,  0.0102,  0.0003,  ..., -0.0025,  0.0023,  0.0001],
+        ...,
+        [ 0.0015,  0.0006,  0.0011,  ...,  0.0023,  0.0012,  0.0003],
+        [ 0.0018, -0.0135, -0.0047,  ..., -0.0041, -0.0157, -0.0006],
+        [ 0.0024,  0.0019,  0.0013,  ...,  0.0049,  0.0030,  0.0002]],
+       device='cuda:0')
+Epoch 101, bias, value: tensor([-0.0162,  0.0195,  0.0054, -0.0078,  0.0179, -0.0309,  0.0099, -0.0041,
+         0.0018, -0.0120], device='cuda:0'), grad: tensor([ 0.0178, -0.0387,  0.0031,  0.0343,  0.0168, -0.0199, -0.0162,  0.0194,
+        -0.0452,  0.0287], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 100, time 214.57, cls_loss 0.6910 cls_loss_mapping 0.0218 cls_loss_causal 0.5988 re_mapping 0.0171 re_causal 0.0372 /// teacc 98.23 lr 0.00010000
+Epoch 102, weight, value: tensor([[-0.0546, -0.0657, -0.0725,  ..., -0.0230,  0.0412, -0.0691],
+        [-0.0340, -0.0639, -0.0421,  ...,  0.0857, -0.0307,  0.1502],
+        [ 0.0095, -0.0205, -0.0110,  ..., -0.0089, -0.0051, -0.0525],
+        ...,
+        [ 0.0087, -0.0672,  0.1097,  ...,  0.0138, -0.0483,  0.0367],
+        [-0.0171,  0.0434, -0.0813,  ..., -0.0381, -0.0048, -0.0580],
+        [-0.0510,  0.0614,  0.0523,  ..., -0.0458, -0.0270, -0.0181]],
+       device='cuda:0'), grad: tensor([[ 1.0775e-06,  6.0415e-04,  2.4915e-04,  ...,  8.8882e-04,
+         -1.0233e-03,  7.9727e-04],
+        [ 1.2733e-05, -2.6751e-04,  6.9475e-04,  ..., -3.4103e-03,
+          7.1716e-04, -1.5335e-03],
+        [ 3.3474e-04,  2.8877e-03,  6.3210e-03,  ...,  5.5695e-03,
+          1.6165e-03,  4.4479e-03],
+        ...,
+        [-4.3082e-04, -1.8585e-02, -4.9248e-03,  ..., -1.9608e-03,
+          3.8910e-04, -2.1606e-02],
+        [ 1.4476e-05,  1.8129e-03,  2.3174e-04,  ...,  2.1133e-03,
+          9.7656e-04,  1.3037e-03],
+        [ 8.7172e-06,  1.0887e-02, -4.6730e-03,  ..., -5.8746e-03,
+          2.6822e-04,  1.3916e-02]], device='cuda:0')
+Epoch 102, bias, value: tensor([-0.0159,  0.0196,  0.0056, -0.0078,  0.0178, -0.0302,  0.0093, -0.0040,
+         0.0014, -0.0122], device='cuda:0'), grad: tensor([ 0.0073, -0.0026,  0.0153, -0.0031,  0.0271, -0.0270,  0.0089, -0.0222,
+        -0.0083,  0.0047], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 101, time 214.31, cls_loss 0.6757 cls_loss_mapping 0.0189 cls_loss_causal 0.5726 re_mapping 0.0182 re_causal 0.0390 /// teacc 98.03 lr 0.00010000
+Epoch 103, weight, value: tensor([[-0.0543, -0.0655, -0.0731,  ..., -0.0226,  0.0412, -0.0697],
+        [-0.0358, -0.0630, -0.0408,  ...,  0.0855, -0.0291,  0.1514],
+        [ 0.0089, -0.0217, -0.0108,  ..., -0.0091, -0.0063, -0.0521],
+        ...,
+        [ 0.0108, -0.0667,  0.1096,  ...,  0.0137, -0.0479,  0.0365],
+        [-0.0177,  0.0427, -0.0824,  ..., -0.0386, -0.0043, -0.0582],
+        [-0.0520,  0.0612,  0.0532,  ..., -0.0458, -0.0265, -0.0179]],
+       device='cuda:0'), grad: tensor([[ 6.8918e-08,  2.1839e-04, -3.9458e-04,  ...,  2.8968e-04,
+          1.5497e-04,  5.4884e-04],
+        [ 1.0291e-07,  1.7241e-05,  8.6355e-04,  ...,  2.4033e-04,
+          1.6546e-04,  3.6564e-03],
+        [ 5.4017e-07,  2.1648e-03,  9.5081e-04,  ...,  2.0771e-03,
+          1.5771e-04,  3.5648e-03],
+        ...,
+        [ 3.8706e-06, -1.9550e-03, -1.4102e-04,  ..., -4.1656e-03,
+         -1.3227e-03, -6.0272e-03],
+        [ 3.7774e-06,  1.6756e-03, -2.8276e-04,  ...,  3.1071e-03,
+          1.2314e-04,  1.1787e-03],
+        [-6.3591e-06,  3.4466e-03,  9.6178e-04,  ...,  7.7019e-03,
+          9.2089e-05,  1.1276e-02]], device='cuda:0')
+Epoch 103, bias, value: tensor([-0.0156,  0.0198,  0.0048, -0.0076,  0.0179, -0.0305,  0.0100, -0.0036,
+         0.0009, -0.0124], device='cuda:0'), grad: tensor([-0.0006,  0.0117, -0.0004,  0.0293, -0.0522, -0.0675,  0.0420, -0.0060,
+         0.0097,  0.0340], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 102, time 214.84, cls_loss 0.6613 cls_loss_mapping 0.0201 cls_loss_causal 0.5661 re_mapping 0.0167 re_causal 0.0376 /// teacc 98.19 lr 0.00010000
+Epoch 104, weight, value: tensor([[-0.0546, -0.0658, -0.0733,  ..., -0.0225,  0.0409, -0.0699],
+        [-0.0359, -0.0631, -0.0395,  ...,  0.0855, -0.0290,  0.1524],
+        [ 0.0084, -0.0220, -0.0117,  ..., -0.0081, -0.0069, -0.0531],
+        ...,
+        [ 0.0108, -0.0661,  0.1103,  ...,  0.0131, -0.0486,  0.0360],
+        [-0.0174,  0.0432, -0.0826,  ..., -0.0390, -0.0040, -0.0592],
+        [-0.0521,  0.0606,  0.0530,  ..., -0.0460, -0.0265, -0.0173]],
+       device='cuda:0'), grad: tensor([[ 1.1243e-05, -3.1257e-04,  3.8290e-04,  ...,  7.6628e-04,
+         -2.5597e-03, -1.3769e-04],
+        [ 1.2346e-05,  9.9087e-04,  1.1759e-03,  ..., -8.5449e-03,
+         -4.0531e-04, -1.9236e-03],
+        [ 3.3498e-05, -8.7204e-03, -3.7193e-03,  ...,  1.2306e-02,
+          1.1635e-03,  2.5024e-03],
+        ...,
+        [ 1.1718e-04, -8.8348e-03, -1.1467e-02,  ..., -1.2047e-02,
+         -3.5648e-03,  2.3899e-03],
+        [ 3.7104e-05,  5.6725e-03,  2.3632e-03,  ...,  2.3746e-03,
+          1.0815e-03,  2.2507e-03],
+        [-4.2629e-04, -2.8931e-02, -8.8043e-03,  ..., -2.1454e-02,
+         -4.2419e-03, -6.0158e-03]], device='cuda:0')
+Epoch 104, bias, value: tensor([-0.0161,  0.0198,  0.0054, -0.0076,  0.0175, -0.0299,  0.0095, -0.0038,
+         0.0009, -0.0123], device='cuda:0'), grad: tensor([ 0.0018, -0.0016,  0.0105,  0.0735, -0.0173,  0.0293,  0.0138, -0.0338,
+         0.0020, -0.0782], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 103, time 214.94, cls_loss 0.6783 cls_loss_mapping 0.0171 cls_loss_causal 0.5742 re_mapping 0.0171 re_causal 0.0375 /// teacc 98.47 lr 0.00010000
+Epoch 105, weight, value: tensor([[-0.0552, -0.0668, -0.0730,  ..., -0.0228,  0.0408, -0.0692],
+        [-0.0343, -0.0629, -0.0396,  ...,  0.0853, -0.0295,  0.1538],
+        [ 0.0080, -0.0216, -0.0117,  ..., -0.0083, -0.0064, -0.0535],
+        ...,
+        [ 0.0105, -0.0666,  0.1102,  ...,  0.0131, -0.0488,  0.0346],
+        [-0.0177,  0.0443, -0.0831,  ..., -0.0386, -0.0051, -0.0605],
+        [-0.0520,  0.0610,  0.0533,  ..., -0.0455, -0.0268, -0.0162]],
+       device='cuda:0'), grad: tensor([[ 3.4925e-08,  1.0996e-03,  5.2929e-04,  ...,  3.8319e-03,
+          2.6345e-04,  7.7903e-05],
+        [ 7.0781e-08,  5.5170e-04,  1.8644e-04,  ...,  1.9331e-03,
+          1.5664e-04, -7.3016e-05],
+        [-2.5537e-06,  3.3779e-03,  1.0872e-03,  ..., -1.7328e-03,
+         -1.7834e-03,  2.5678e-04],
+        ...,
+        [ 2.0396e-07,  1.8044e-03, -5.6343e-03,  ..., -2.2011e-03,
+         -1.7996e-03,  3.9577e-05],
+        [ 1.2415e-06,  1.5503e-02,  1.9312e-03,  ...,  1.5640e-03,
+          6.8617e-04, -7.2098e-04],
+        [ 3.4878e-07,  3.0251e-03,  1.5755e-03,  ...,  6.8474e-03,
+          7.1621e-04,  1.6346e-03]], device='cuda:0')
+Epoch 105, bias, value: tensor([-1.5807e-02,  1.9879e-02,  5.4242e-03, -7.1421e-03,  1.7674e-02,
+        -2.9805e-02,  9.5737e-03, -4.2043e-03,  1.9889e-05, -1.1983e-02],
+       device='cuda:0'), grad: tensor([ 0.0144,  0.0075,  0.0028, -0.0922,  0.0170,  0.0244,  0.0184, -0.0105,
+        -0.0089,  0.0270], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 104, time 214.69, cls_loss 0.6877 cls_loss_mapping 0.0148 cls_loss_causal 0.5926 re_mapping 0.0165 re_causal 0.0375 /// teacc 98.28 lr 0.00010000
+Epoch 106, weight, value: tensor([[-0.0556, -0.0677, -0.0727,  ..., -0.0236,  0.0411, -0.0693],
+        [-0.0349, -0.0611, -0.0389,  ...,  0.0861, -0.0300,  0.1546],
+        [ 0.0073, -0.0205, -0.0115,  ..., -0.0081, -0.0059, -0.0538],
+        ...,
+        [ 0.0109, -0.0672,  0.1114,  ...,  0.0138, -0.0499,  0.0347],
+        [-0.0174,  0.0444, -0.0838,  ..., -0.0388, -0.0046, -0.0611],
+        [-0.0515,  0.0606,  0.0513,  ..., -0.0463, -0.0256, -0.0163]],
+       device='cuda:0'), grad: tensor([[ 6.3330e-08,  9.3460e-04,  4.0078e-04,  ...,  6.0730e-03,
+          4.0894e-03,  6.7253e-03],
+        [ 2.1327e-07,  1.3885e-03,  5.8794e-04,  ...,  6.5002e-03,
+          1.4057e-03,  4.9706e-03],
+        [ 4.2748e-07,  7.1478e-04,  1.3027e-03,  ...,  2.1305e-03,
+          3.3989e-03,  7.1030e-03],
+        ...,
+        [ 1.4994e-07,  3.6931e-04,  7.5960e-04,  ..., -3.3321e-03,
+          7.0667e-04,  1.4791e-03],
+        [-3.9153e-06,  1.6966e-03, -3.1853e-04,  ..., -5.3787e-03,
+         -1.9852e-02, -1.3107e-02],
+        [ 1.6838e-06,  4.0197e-04, -1.7385e-03,  ...,  4.6730e-03,
+          2.5196e-03, -1.5318e-04]], device='cuda:0')
+Epoch 106, bias, value: tensor([-0.0170,  0.0205,  0.0058, -0.0073,  0.0183, -0.0299,  0.0097, -0.0035,
+        -0.0001, -0.0129], device='cuda:0'), grad: tensor([ 0.0049,  0.0275, -0.0005, -0.0051,  0.0411, -0.0818,  0.0229, -0.0031,
+        -0.0079,  0.0021], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 105, time 214.79, cls_loss 0.6213 cls_loss_mapping 0.0150 cls_loss_causal 0.5284 re_mapping 0.0170 re_causal 0.0369 /// teacc 98.43 lr 0.00010000
+Epoch 107, weight, value: tensor([[-0.0553, -0.0685, -0.0725,  ..., -0.0237,  0.0402, -0.0700],
+        [-0.0350, -0.0617, -0.0390,  ...,  0.0866, -0.0294,  0.1550],
+        [ 0.0072, -0.0199, -0.0129,  ..., -0.0080, -0.0052, -0.0550],
+        ...,
+        [ 0.0110, -0.0684,  0.1116,  ...,  0.0143, -0.0500,  0.0353],
+        [-0.0196,  0.0438, -0.0849,  ..., -0.0388, -0.0044, -0.0601],
+        [-0.0502,  0.0616,  0.0515,  ..., -0.0467, -0.0262, -0.0165]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  8.1778e-05,  1.1183e-05,  ..., -1.5732e-02,
+          1.3180e-03, -4.9438e-03],
+        [ 0.0000e+00, -6.7520e-04,  3.5667e-04,  ...,  8.1301e-04,
+          3.8028e-04, -7.5417e-03],
+        [ 0.0000e+00,  1.4181e-03,  4.9859e-05,  ..., -4.2801e-03,
+         -2.0580e-03,  3.0651e-03],
+        ...,
+        [ 0.0000e+00,  9.6226e-04,  8.4043e-05,  ...,  6.7863e-03,
+          1.0271e-03,  6.4812e-03],
+        [ 0.0000e+00,  3.3989e-03,  1.0288e-04,  ...,  1.5402e-03,
+         -8.6746e-03,  4.6730e-03],
+        [ 0.0000e+00, -9.3689e-03,  2.8992e-04,  ...,  9.0561e-03,
+          1.4448e-03,  8.6136e-03]], device='cuda:0')
+Epoch 107, bias, value: tensor([-1.7105e-02,  2.0296e-02,  5.6789e-03, -7.4903e-03,  1.8478e-02,
+        -2.9656e-02,  9.3917e-03, -3.1784e-03, -2.1515e-05, -1.2826e-02],
+       device='cuda:0'), grad: tensor([-0.0399, -0.0222, -0.0042, -0.0082,  0.0499, -0.0350, -0.0115,  0.0347,
+         0.0187,  0.0179], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 106, time 214.95, cls_loss 0.7025 cls_loss_mapping 0.0184 cls_loss_causal 0.6107 re_mapping 0.0167 re_causal 0.0373 /// teacc 98.42 lr 0.00010000
+Epoch 108, weight, value: tensor([[-0.0556, -0.0695, -0.0731,  ..., -0.0238,  0.0406, -0.0702],
+        [-0.0350, -0.0625, -0.0384,  ...,  0.0862, -0.0290,  0.1548],
+        [ 0.0075, -0.0209, -0.0138,  ..., -0.0084, -0.0063, -0.0554],
+        ...,
+        [ 0.0107, -0.0692,  0.1120,  ...,  0.0148, -0.0530,  0.0354],
+        [-0.0197,  0.0439, -0.0854,  ..., -0.0390, -0.0035, -0.0613],
+        [-0.0498,  0.0623,  0.0512,  ..., -0.0466, -0.0262, -0.0163]],
+       device='cuda:0'), grad: tensor([[ 2.0433e-06,  4.8971e-04,  6.8784e-05,  ...,  2.3232e-03,
+          8.5020e-04,  2.2836e-06],
+        [ 1.6224e-06,  5.6654e-05,  5.1355e-04,  ...,  3.9597e-03,
+          1.6842e-03,  3.0566e-06],
+        [ 6.2864e-07,  1.9714e-02, -2.0361e-04,  ...,  1.7410e-02,
+          3.4943e-02,  6.2525e-05],
+        ...,
+        [ 5.4622e-07,  1.9157e-04, -2.1636e-04,  ..., -3.8052e-03,
+         -1.8215e-03, -1.4758e-04],
+        [ 3.7439e-06,  6.4011e-03,  2.6965e-04,  ..., -1.4572e-03,
+          1.9255e-03,  7.7635e-06],
+        [ 2.7586e-06, -4.8488e-05,  9.2387e-05,  ..., -8.1711e-03,
+         -3.1128e-03,  3.5111e-06]], device='cuda:0')
+Epoch 108, bias, value: tensor([-0.0170,  0.0203,  0.0051, -0.0076,  0.0189, -0.0296,  0.0096, -0.0037,
+         0.0001, -0.0126], device='cuda:0'), grad: tensor([ 0.0127,  0.0148,  0.0244, -0.0311,  0.0247, -0.0108,  0.0223, -0.0191,
+        -0.0066, -0.0314], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 107, time 214.89, cls_loss 0.6554 cls_loss_mapping 0.0183 cls_loss_causal 0.5746 re_mapping 0.0161 re_causal 0.0348 /// teacc 98.41 lr 0.00010000
+Epoch 109, weight, value: tensor([[-0.0558, -0.0690, -0.0746,  ..., -0.0239,  0.0427, -0.0689],
+        [-0.0357, -0.0616, -0.0395,  ...,  0.0859, -0.0303,  0.1550],
+        [ 0.0081, -0.0221, -0.0146,  ..., -0.0088, -0.0064, -0.0557],
+        ...,
+        [ 0.0097, -0.0695,  0.1133,  ...,  0.0140, -0.0530,  0.0351],
+        [-0.0197,  0.0443, -0.0853,  ..., -0.0396, -0.0015, -0.0620],
+        [-0.0503,  0.0617,  0.0506,  ..., -0.0459, -0.0281, -0.0174]],
+       device='cuda:0'), grad: tensor([[ 7.1432e-07, -4.6883e-03, -1.1911e-03,  ..., -1.0521e-02,
+          7.8506e-03,  1.1673e-02],
+        [ 9.6112e-07,  1.8084e-04,  3.4404e-04,  ..., -1.5488e-02,
+         -1.4099e-02, -1.3100e-02],
+        [-8.4543e-04,  5.7030e-04, -1.6718e-03,  ...,  1.1887e-02,
+          7.7171e-03,  1.6108e-03],
+        ...,
+        [ 3.4004e-05,  3.8862e-04, -1.0484e-04,  ..., -4.6959e-03,
+         -2.7943e-04,  1.4057e-03],
+        [ 5.7173e-04,  1.3094e-03,  6.8617e-04,  ..., -3.3264e-03,
+         -3.6469e-03, -4.2305e-03],
+        [ 1.2323e-05,  6.5088e-04,  6.1893e-04,  ...,  5.1804e-03,
+          2.4853e-03,  1.5869e-03]], device='cuda:0')
+Epoch 109, bias, value: tensor([-0.0173,  0.0194,  0.0044, -0.0068,  0.0191, -0.0297,  0.0094, -0.0034,
+         0.0003, -0.0118], device='cuda:0'), grad: tensor([ 0.0087, -0.0741,  0.0279,  0.0338,  0.0131, -0.0327,  0.0285, -0.0044,
+        -0.0254,  0.0246], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 108----------------------------------------------------
+epoch 108, time 230.94, cls_loss 0.6631 cls_loss_mapping 0.0174 cls_loss_causal 0.5759 re_mapping 0.0167 re_causal 0.0371 /// teacc 98.48 lr 0.00010000
+Epoch 110, weight, value: tensor([[-0.0558, -0.0680, -0.0749,  ..., -0.0235,  0.0424, -0.0689],
+        [-0.0362, -0.0620, -0.0401,  ...,  0.0860, -0.0286,  0.1555],
+        [ 0.0080, -0.0228, -0.0151,  ..., -0.0089, -0.0092, -0.0562],
+        ...,
+        [ 0.0092, -0.0691,  0.1138,  ...,  0.0146, -0.0517,  0.0362],
+        [-0.0205,  0.0445, -0.0857,  ..., -0.0400, -0.0006, -0.0616],
+        [-0.0497,  0.0613,  0.0524,  ..., -0.0457, -0.0283, -0.0181]],
+       device='cuda:0'), grad: tensor([[ 6.9523e-04,  7.1526e-05,  7.1096e-04,  ...,  3.1986e-03,
+          5.2691e-04,  1.3437e-03],
+        [ 3.7837e-04,  2.0885e-03,  1.6713e-04,  ..., -9.7656e-04,
+         -5.2595e-04, -2.0237e-03],
+        [ 3.5620e-04,  5.7399e-05, -3.3617e-04,  ...,  3.4180e-03,
+          5.6219e-04,  1.3695e-03],
+        ...,
+        [ 4.1389e-04,  1.7233e-03, -6.3562e-04,  ...,  1.3647e-03,
+          2.1851e-04,  1.2312e-03],
+        [ 5.3215e-04,  1.4641e-02,  1.8511e-03,  ..., -8.6823e-03,
+          9.2850e-03,  2.5539e-03],
+        [ 7.7724e-04, -5.4131e-03, -2.3994e-03,  ..., -4.6921e-03,
+          3.2723e-05, -3.2177e-03]], device='cuda:0')
+Epoch 110, bias, value: tensor([-0.0169,  0.0198,  0.0039, -0.0075,  0.0196, -0.0296,  0.0087, -0.0035,
+         0.0007, -0.0117], device='cuda:0'), grad: tensor([ 0.0231, -0.0198,  0.0182, -0.0550,  0.0197,  0.0297, -0.0097,  0.0168,
+         0.0021, -0.0250], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 109, time 214.79, cls_loss 0.6736 cls_loss_mapping 0.0133 cls_loss_causal 0.5793 re_mapping 0.0166 re_causal 0.0372 /// teacc 98.35 lr 0.00010000
+Epoch 111, weight, value: tensor([[-0.0558, -0.0680, -0.0741,  ..., -0.0234,  0.0429, -0.0682],
+        [-0.0365, -0.0617, -0.0394,  ...,  0.0859, -0.0294,  0.1556],
+        [ 0.0073, -0.0231, -0.0154,  ..., -0.0095, -0.0101, -0.0555],
+        ...,
+        [ 0.0096, -0.0689,  0.1150,  ...,  0.0153, -0.0511,  0.0360],
+        [-0.0202,  0.0436, -0.0873,  ..., -0.0409, -0.0012, -0.0616],
+        [-0.0500,  0.0615,  0.0509,  ..., -0.0455, -0.0290, -0.0188]],
+       device='cuda:0'), grad: tensor([[ 6.7241e-06,  1.2865e-03,  7.3910e-05,  ...,  4.7913e-03,
+          3.2336e-05,  3.8886e-04],
+        [ 2.8744e-05,  7.5531e-04, -4.7827e-04,  ..., -1.5205e-02,
+         -1.0535e-05, -1.1463e-03],
+        [ 4.7356e-05,  4.1046e-03,  1.9760e-03,  ...,  2.2629e-02,
+          3.2872e-05,  1.4868e-03],
+        ...,
+        [-2.0194e-04, -1.0857e-02, -3.3245e-03,  ..., -2.1423e-02,
+          5.1036e-06, -8.1253e-03],
+        [ 9.5144e-06,  3.1891e-02,  2.0909e-04,  ..., -2.9850e-03,
+         -1.4913e-04,  4.5204e-03],
+        [ 2.0787e-05, -5.1697e-02, -5.1975e-05,  ...,  2.8839e-03,
+          1.0490e-05, -1.7042e-03]], device='cuda:0')
+Epoch 111, bias, value: tensor([-1.7131e-02,  2.0179e-02,  4.1354e-03, -6.8802e-03,  1.8627e-02,
+        -2.9886e-02,  9.6293e-03, -3.6894e-03,  9.0893e-05, -1.1622e-02],
+       device='cuda:0'), grad: tensor([ 0.0164, -0.0503,  0.0421,  0.0308,  0.0161, -0.0165,  0.0166, -0.0582,
+         0.0222, -0.0192], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 110, time 214.82, cls_loss 0.6663 cls_loss_mapping 0.0164 cls_loss_causal 0.5709 re_mapping 0.0153 re_causal 0.0351 /// teacc 98.31 lr 0.00010000
+Epoch 112, weight, value: tensor([[-0.0559, -0.0667, -0.0734,  ..., -0.0240,  0.0428, -0.0682],
+        [-0.0368, -0.0616, -0.0391,  ...,  0.0862, -0.0292,  0.1553],
+        [ 0.0077, -0.0230, -0.0151,  ..., -0.0094, -0.0108, -0.0555],
+        ...,
+        [ 0.0094, -0.0680,  0.1154,  ...,  0.0164, -0.0510,  0.0356],
+        [-0.0208,  0.0438, -0.0877,  ..., -0.0419, -0.0009, -0.0614],
+        [-0.0501,  0.0611,  0.0508,  ..., -0.0455, -0.0296, -0.0183]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.0146e-05,  5.2005e-05,  ..., -7.1602e-03,
+          1.2712e-03, -1.0223e-03],
+        [ 0.0000e+00,  8.4221e-05,  2.4128e-04,  ...,  6.6032e-03,
+          1.9300e-04,  1.8606e-03],
+        [ 0.0000e+00,  4.1885e-03,  1.4629e-03,  ...,  1.1353e-02,
+          4.6005e-03,  2.5730e-03],
+        ...,
+        [ 0.0000e+00, -1.9970e-03, -3.0003e-03,  ..., -2.0809e-03,
+         -4.8141e-03, -5.5847e-03],
+        [ 0.0000e+00, -1.2993e-02,  3.1071e-03,  ..., -1.6842e-03,
+         -8.9874e-03,  3.1528e-03],
+        [ 0.0000e+00,  1.0824e-03, -4.5514e-04,  ..., -7.6065e-03,
+          2.4738e-03, -2.4433e-03]], device='cuda:0')
+Epoch 112, bias, value: tensor([-0.0171,  0.0202,  0.0048, -0.0071,  0.0193, -0.0295,  0.0088, -0.0036,
+        -0.0005, -0.0118], device='cuda:0'), grad: tensor([-0.0292,  0.0335,  0.0439, -0.0127,  0.0146, -0.0106,  0.0211,  0.0047,
+         0.0025, -0.0678], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 111, time 214.65, cls_loss 0.6733 cls_loss_mapping 0.0192 cls_loss_causal 0.5739 re_mapping 0.0159 re_causal 0.0347 /// teacc 98.48 lr 0.00010000
+Epoch 113, weight, value: tensor([[-0.0562, -0.0680, -0.0741,  ..., -0.0238,  0.0427, -0.0692],
+        [-0.0369, -0.0624, -0.0397,  ...,  0.0866, -0.0282,  0.1552],
+        [ 0.0067, -0.0227, -0.0154,  ..., -0.0104, -0.0104, -0.0556],
+        ...,
+        [ 0.0110, -0.0684,  0.1168,  ...,  0.0174, -0.0510,  0.0355],
+        [-0.0207,  0.0446, -0.0890,  ..., -0.0419, -0.0016, -0.0604],
+        [-0.0505,  0.0618,  0.0504,  ..., -0.0464, -0.0279, -0.0182]],
+       device='cuda:0'), grad: tensor([[ 6.7521e-08,  2.9683e-04,  4.3607e-04,  ...,  7.2899e-03,
+          1.8501e-03,  2.3117e-03],
+        [ 5.9884e-07,  7.2861e-04,  5.1117e-04,  ..., -1.5015e-02,
+          1.2388e-03, -6.8398e-03],
+        [-2.7977e-06,  1.8682e-03,  8.4162e-04,  ...,  3.2177e-03,
+          3.2539e-03,  2.9182e-03],
+        ...,
+        [ 1.7602e-06,  1.7428e-04, -3.0861e-03,  ...,  9.2392e-03,
+          3.9177e-03, -1.0118e-03],
+        [-1.5497e-06, -3.0426e-02,  8.0585e-04,  ..., -1.0178e-02,
+         -2.1420e-03, -1.1129e-03],
+        [ 8.3540e-07,  2.6459e-02,  5.5771e-03,  ...,  9.3155e-03,
+          8.5144e-03,  5.2338e-03]], device='cuda:0')
+Epoch 113, bias, value: tensor([-0.0174,  0.0199,  0.0053, -0.0083,  0.0198, -0.0293,  0.0097, -0.0039,
+        -0.0006, -0.0116], device='cuda:0'), grad: tensor([ 0.0304, -0.0311,  0.0283, -0.0158, -0.0546, -0.0037, -0.0117,  0.0060,
+        -0.0236,  0.0759], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 112----------------------------------------------------
+epoch 112, time 230.90, cls_loss 0.6772 cls_loss_mapping 0.0181 cls_loss_causal 0.5860 re_mapping 0.0162 re_causal 0.0365 /// teacc 98.49 lr 0.00010000
+Epoch 114, weight, value: tensor([[-0.0565, -0.0674, -0.0746,  ..., -0.0256,  0.0437, -0.0704],
+        [-0.0372, -0.0632, -0.0408,  ...,  0.0866, -0.0282,  0.1564],
+        [ 0.0067, -0.0211, -0.0146,  ..., -0.0093, -0.0117, -0.0560],
+        ...,
+        [ 0.0111, -0.0693,  0.1168,  ...,  0.0190, -0.0541,  0.0353],
+        [-0.0202,  0.0452, -0.0886,  ..., -0.0416, -0.0007, -0.0596],
+        [-0.0512,  0.0613,  0.0511,  ..., -0.0463, -0.0266, -0.0173]],
+       device='cuda:0'), grad: tensor([[ 1.5367e-07, -1.8044e-03,  5.3978e-04,  ...,  8.2874e-04,
+         -5.3253e-03,  4.1127e-04],
+        [ 6.1514e-07,  9.3079e-04,  1.7548e-03,  ...,  1.3695e-02,
+          1.1152e-04,  5.2595e-04],
+        [-3.1851e-06,  1.4315e-03,  2.3136e-03,  ..., -2.3327e-03,
+          1.6584e-03,  4.3297e-04],
+        ...,
+        [ 5.5321e-06,  2.4486e-04, -4.3106e-03,  ..., -8.3084e-03,
+          9.5427e-05, -4.8866e-03],
+        [-8.2608e-07, -1.8663e-03, -7.9269e-03,  ..., -2.5578e-03,
+          2.6855e-03,  2.6875e-03],
+        [-8.0913e-06,  9.9480e-05,  3.2043e-03,  ..., -1.1894e-02,
+          3.6907e-04,  5.1880e-04]], device='cuda:0')
+Epoch 114, bias, value: tensor([-0.0189,  0.0202,  0.0052, -0.0082,  0.0200, -0.0292,  0.0094, -0.0026,
+        -0.0004, -0.0120], device='cuda:0'), grad: tensor([ 0.0034,  0.0343, -0.0029,  0.0478, -0.0086, -0.0281,  0.0005, -0.0319,
+         0.0150, -0.0294], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 113, time 214.52, cls_loss 0.6698 cls_loss_mapping 0.0130 cls_loss_causal 0.5678 re_mapping 0.0160 re_causal 0.0360 /// teacc 98.41 lr 0.00010000
+Epoch 115, weight, value: tensor([[-0.0571, -0.0688, -0.0745,  ..., -0.0266,  0.0431, -0.0701],
+        [-0.0374, -0.0634, -0.0416,  ...,  0.0870, -0.0288,  0.1567],
+        [ 0.0061, -0.0212, -0.0143,  ..., -0.0085, -0.0122, -0.0563],
+        ...,
+        [ 0.0118, -0.0694,  0.1175,  ...,  0.0179, -0.0537,  0.0357],
+        [-0.0199,  0.0450, -0.0895,  ..., -0.0408,  0.0017, -0.0588],
+        [-0.0517,  0.0619,  0.0501,  ..., -0.0464, -0.0271, -0.0174]],
+       device='cuda:0'), grad: tensor([[ 2.6505e-06,  5.8830e-05,  6.4731e-05,  ...,  8.5526e-03,
+         -2.6264e-03,  1.1835e-03],
+        [ 1.0677e-05,  1.4687e-04,  1.7095e-04,  ...,  1.6663e-02,
+          2.4006e-05, -3.7193e-05],
+        [ 1.4484e-05,  1.4675e-04, -8.3260e-07,  ...,  5.3520e-03,
+          6.3848e-04,  9.0456e-04],
+        ...,
+        [ 1.6232e-03,  1.3590e-03,  3.3236e-04,  ..., -1.4191e-02,
+          1.0061e-04,  5.6190e-03],
+        [-2.0838e-04,  7.6389e-04,  2.8157e-04,  ...,  1.0277e-02,
+          4.3654e-04,  1.7958e-03],
+        [-1.5211e-03, -1.0195e-03,  3.8266e-04,  ...,  7.0992e-03,
+          1.8919e-04, -7.8812e-03]], device='cuda:0')
+Epoch 115, bias, value: tensor([-0.0199,  0.0201,  0.0060, -0.0083,  0.0202, -0.0284,  0.0089, -0.0027,
+        -0.0005, -0.0121], device='cuda:0'), grad: tensor([ 0.0246,  0.0320,  0.0071,  0.0306, -0.0676,  0.0351, -0.0634, -0.0377,
+         0.0331,  0.0060], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 114, time 214.84, cls_loss 0.6693 cls_loss_mapping 0.0166 cls_loss_causal 0.5774 re_mapping 0.0159 re_causal 0.0363 /// teacc 98.36 lr 0.00010000
+Epoch 116, weight, value: tensor([[-0.0577, -0.0684, -0.0755,  ..., -0.0277,  0.0435, -0.0699],
+        [-0.0352, -0.0627, -0.0431,  ...,  0.0871, -0.0286,  0.1561],
+        [ 0.0056, -0.0216, -0.0144,  ..., -0.0091, -0.0116, -0.0569],
+        ...,
+        [ 0.0116, -0.0704,  0.1174,  ...,  0.0171, -0.0546,  0.0357],
+        [-0.0199,  0.0452, -0.0914,  ..., -0.0409,  0.0019, -0.0581],
+        [-0.0534,  0.0619,  0.0507,  ..., -0.0456, -0.0270, -0.0172]],
+       device='cuda:0'), grad: tensor([[ 1.7062e-05,  7.7057e-04,  1.8191e-04,  ...,  4.9934e-03,
+          5.8889e-04,  1.4620e-03],
+        [ 1.0335e-04, -1.3809e-02,  6.4945e-04,  ..., -1.4076e-02,
+          1.7434e-05, -9.9411e-03],
+        [-7.8499e-05, -1.0723e-04, -5.7077e-04,  ...,  4.0550e-03,
+         -7.9989e-05,  7.9107e-04],
+        ...,
+        [-3.5834e-04,  5.8746e-04, -3.2654e-03,  ..., -7.3547e-03,
+          1.1578e-05,  1.3065e-03],
+        [ 4.6849e-05,  4.9591e-03,  3.8934e-04,  ...,  1.5030e-03,
+          1.2469e-04, -1.0843e-03],
+        [ 3.4153e-05,  1.3142e-03,  2.8801e-04,  ...,  7.5836e-03,
+          3.3975e-05,  1.8282e-03]], device='cuda:0')
+Epoch 116, bias, value: tensor([-0.0212,  0.0201,  0.0059, -0.0088,  0.0214, -0.0278,  0.0093, -0.0039,
+        -0.0004, -0.0112], device='cuda:0'), grad: tensor([ 0.0159, -0.0298,  0.0149,  0.0319,  0.0228, -0.0360, -0.0292, -0.0202,
+        -0.0003,  0.0300], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 115----------------------------------------------------
+epoch 115, time 231.17, cls_loss 0.6448 cls_loss_mapping 0.0100 cls_loss_causal 0.5449 re_mapping 0.0160 re_causal 0.0373 /// teacc 98.50 lr 0.00010000
+Epoch 117, weight, value: tensor([[-0.0581, -0.0689, -0.0750,  ..., -0.0269,  0.0435, -0.0701],
+        [-0.0367, -0.0629, -0.0430,  ...,  0.0872, -0.0274,  0.1577],
+        [ 0.0064, -0.0228, -0.0157,  ..., -0.0099, -0.0111, -0.0569],
+        ...,
+        [ 0.0105, -0.0714,  0.1177,  ...,  0.0169, -0.0546,  0.0354],
+        [-0.0208,  0.0454, -0.0921,  ..., -0.0411,  0.0016, -0.0585],
+        [-0.0535,  0.0619,  0.0524,  ..., -0.0456, -0.0266, -0.0182]],
+       device='cuda:0'), grad: tensor([[ 3.0752e-06,  1.4174e-04,  2.3282e-04,  ...,  2.1820e-03,
+         -1.2569e-05,  8.8978e-04],
+        [ 1.8656e-05,  3.0732e-04,  8.9073e-04,  ..., -9.4223e-03,
+          8.8103e-07, -1.9855e-03],
+        [ 1.3165e-05, -3.5572e-03, -4.3602e-03,  ..., -4.2381e-03,
+         -4.6641e-06, -3.6640e-03],
+        ...,
+        [ 1.5646e-05,  1.8024e-03,  1.8778e-03,  ...,  5.4703e-03,
+          1.2461e-06,  3.1891e-03],
+        [ 2.0280e-05,  5.9814e-03,  1.2951e-03,  ...,  5.0049e-03,
+          2.7809e-06,  2.2793e-03],
+        [ 5.3607e-06, -8.4076e-03,  1.3075e-03,  ...,  4.4403e-03,
+          9.0431e-07,  4.1885e-03]], device='cuda:0')
+Epoch 117, bias, value: tensor([-0.0217,  0.0207,  0.0056, -0.0085,  0.0205, -0.0267,  0.0087, -0.0039,
+        -0.0004, -0.0110], device='cuda:0'), grad: tensor([ 0.0312, -0.0386, -0.0126,  0.0030, -0.0291,  0.0076, -0.0149,  0.0222,
+         0.0278,  0.0035], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 116, time 214.27, cls_loss 0.6873 cls_loss_mapping 0.0164 cls_loss_causal 0.5862 re_mapping 0.0151 re_causal 0.0330 /// teacc 98.33 lr 0.00010000
+Epoch 118, weight, value: tensor([[-0.0586, -0.0692, -0.0761,  ..., -0.0264,  0.0442, -0.0698],
+        [-0.0366, -0.0620, -0.0415,  ...,  0.0878, -0.0266,  0.1586],
+        [ 0.0062, -0.0230, -0.0167,  ..., -0.0106, -0.0114, -0.0572],
+        ...,
+        [ 0.0109, -0.0720,  0.1180,  ...,  0.0165, -0.0549,  0.0363],
+        [-0.0215,  0.0461, -0.0928,  ..., -0.0412,  0.0019, -0.0583],
+        [-0.0538,  0.0612,  0.0529,  ..., -0.0457, -0.0269, -0.0188]],
+       device='cuda:0'), grad: tensor([[ 2.4402e-04,  6.4774e-03,  2.0962e-03,  ...,  4.0779e-03,
+          4.5929e-03,  9.1171e-04],
+        [ 1.4104e-05,  1.8778e-03, -1.7197e-02,  ...,  8.3160e-03,
+         -3.3600e-02,  1.6279e-03],
+        [ 1.0133e-04,  4.1924e-03,  4.8714e-03,  ...,  7.1449e-03,
+          8.1558e-03,  8.8501e-04],
+        ...,
+        [ 1.0014e-05, -1.7532e-02, -1.1339e-03,  ...,  8.7128e-03,
+          1.8244e-03, -1.2531e-03],
+        [ 4.6182e-04,  7.8583e-03,  7.7400e-03,  ..., -4.8981e-03,
+          1.4214e-02,  1.6193e-03],
+        [ 9.2536e-06, -1.7807e-05, -3.5343e-03,  ..., -2.8706e-03,
+          9.6703e-04, -6.2332e-03]], device='cuda:0')
+Epoch 118, bias, value: tensor([-0.0208,  0.0216,  0.0043, -0.0089,  0.0203, -0.0270,  0.0090, -0.0039,
+        -0.0002, -0.0111], device='cuda:0'), grad: tensor([ 0.0355,  0.0001,  0.0386, -0.0031, -0.0111, -0.0138, -0.0309, -0.0211,
+         0.0197, -0.0141], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 117, time 214.23, cls_loss 0.6480 cls_loss_mapping 0.0132 cls_loss_causal 0.5558 re_mapping 0.0153 re_causal 0.0345 /// teacc 98.34 lr 0.00010000
+Epoch 119, weight, value: tensor([[-0.0596, -0.0692, -0.0749,  ..., -0.0260,  0.0446, -0.0692],
+        [-0.0370, -0.0629, -0.0417,  ...,  0.0874, -0.0254,  0.1583],
+        [ 0.0063, -0.0225, -0.0175,  ..., -0.0103, -0.0122, -0.0564],
+        ...,
+        [ 0.0119, -0.0704,  0.1188,  ...,  0.0178, -0.0559,  0.0366],
+        [-0.0215,  0.0452, -0.0943,  ..., -0.0417,  0.0025, -0.0592],
+        [-0.0543,  0.0621,  0.0534,  ..., -0.0461, -0.0275, -0.0194]],
+       device='cuda:0'), grad: tensor([[ 1.1660e-05,  5.5122e-04, -2.9011e-03,  ..., -2.4891e-03,
+          1.2350e-03, -1.7881e-03],
+        [ 1.8990e-06,  7.2479e-04,  1.4238e-03,  ...,  2.5833e-02,
+          4.6182e-04,  2.5177e-02],
+        [ 1.1332e-05,  1.9989e-03,  1.3039e-02,  ...,  1.4763e-02,
+          1.5488e-03,  3.7060e-03],
+        ...,
+        [ 2.8110e-04,  1.4553e-03, -6.4201e-03,  ..., -4.5357e-03,
+          1.6260e-04, -8.6670e-03],
+        [ 7.4059e-06, -2.3060e-03,  1.7977e-03,  ...,  2.0170e-04,
+          1.4019e-03,  8.9645e-04],
+        [ 2.0180e-03, -5.4092e-03, -7.2002e-04,  ...,  1.4923e-02,
+          5.6553e-04,  1.3741e-02]], device='cuda:0')
+Epoch 119, bias, value: tensor([-0.0206,  0.0214,  0.0046, -0.0091,  0.0204, -0.0280,  0.0099, -0.0029,
+        -0.0010, -0.0112], device='cuda:0'), grad: tensor([-0.0062,  0.0181,  0.0445, -0.0038,  0.0209, -0.0723, -0.0256, -0.0215,
+         0.0059,  0.0402], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 118, time 214.35, cls_loss 0.6700 cls_loss_mapping 0.0173 cls_loss_causal 0.5746 re_mapping 0.0157 re_causal 0.0359 /// teacc 98.46 lr 0.00010000
+Epoch 120, weight, value: tensor([[-0.0591, -0.0709, -0.0751,  ..., -0.0257,  0.0450, -0.0695],
+        [-0.0379, -0.0639, -0.0423,  ...,  0.0867, -0.0245,  0.1588],
+        [ 0.0069, -0.0221, -0.0180,  ..., -0.0107, -0.0126, -0.0581],
+        ...,
+        [ 0.0090, -0.0710,  0.1183,  ...,  0.0186, -0.0564,  0.0370],
+        [-0.0222,  0.0452, -0.0950,  ..., -0.0413,  0.0020, -0.0606],
+        [-0.0541,  0.0622,  0.0540,  ..., -0.0467, -0.0280, -0.0187]],
+       device='cuda:0'), grad: tensor([[ 0.0004,  0.0027,  0.0025,  ...,  0.0060,  0.0004,  0.0065],
+        [-0.0025, -0.0004, -0.0016,  ..., -0.0122,  0.0003, -0.0113],
+        [ 0.0001,  0.0011,  0.0015,  ...,  0.0029,  0.0003,  0.0029],
+        ...,
+        [ 0.0004,  0.0026,  0.0041,  ...,  0.0090,  0.0005,  0.0076],
+        [ 0.0002,  0.0023,  0.0027,  ...,  0.0065,  0.0008,  0.0061],
+        [ 0.0004,  0.0016,  0.0003,  ...,  0.0022,  0.0006,  0.0025]],
+       device='cuda:0')
+Epoch 120, bias, value: tensor([-0.0198,  0.0212,  0.0034, -0.0086,  0.0203, -0.0275,  0.0092, -0.0025,
+        -0.0009, -0.0113], device='cuda:0'), grad: tensor([ 0.0265, -0.0368,  0.0135, -0.0378,  0.0070, -0.0322, -0.0132,  0.0374,
+         0.0278,  0.0077], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 119, time 214.81, cls_loss 0.6545 cls_loss_mapping 0.0149 cls_loss_causal 0.5676 re_mapping 0.0161 re_causal 0.0361 /// teacc 98.46 lr 0.00010000
+Epoch 121, weight, value: tensor([[-0.0551, -0.0712, -0.0750,  ..., -0.0250,  0.0452, -0.0697],
+        [-0.0396, -0.0647, -0.0437,  ...,  0.0865, -0.0272,  0.1591],
+        [ 0.0095, -0.0219, -0.0156,  ..., -0.0100, -0.0106, -0.0566],
+        ...,
+        [ 0.0097, -0.0712,  0.1181,  ...,  0.0175, -0.0570,  0.0354],
+        [-0.0236,  0.0454, -0.0949,  ..., -0.0411,  0.0012, -0.0614],
+        [-0.0529,  0.0624,  0.0531,  ..., -0.0468, -0.0277, -0.0178]],
+       device='cuda:0'), grad: tensor([[ 1.5683e-06,  1.0693e-04,  1.4555e-04,  ...,  2.1172e-03,
+          8.9467e-05,  5.5045e-05],
+        [ 1.4715e-07,  1.7452e-04,  5.9175e-04,  ...,  4.4174e-03,
+          2.0397e-04,  2.6417e-04],
+        [ 2.3037e-05,  9.3412e-04,  3.7460e-03,  ...,  1.2863e-02,
+          4.3130e-04,  3.3398e-03],
+        ...,
+        [ 1.9744e-07, -8.3780e-04, -5.4741e-03,  ..., -2.1225e-02,
+         -1.0204e-03, -4.2114e-03],
+        [ 3.0939e-06,  1.1520e-03,  1.0939e-03,  ...,  3.8700e-03,
+          2.2423e-04,  5.2071e-04],
+        [ 1.2852e-06, -5.1514e-02,  1.0004e-03,  ..., -3.3069e-04,
+         -2.6001e-02,  2.3174e-03]], device='cuda:0')
+Epoch 121, bias, value: tensor([-0.0194,  0.0214,  0.0047, -0.0089,  0.0205, -0.0285,  0.0091, -0.0035,
+        -0.0003, -0.0118], device='cuda:0'), grad: tensor([ 0.0092,  0.0230,  0.0346,  0.0089, -0.0326,  0.0040,  0.0097, -0.0600,
+        -0.0087,  0.0118], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 120, time 214.79, cls_loss 0.6545 cls_loss_mapping 0.0160 cls_loss_causal 0.5590 re_mapping 0.0154 re_causal 0.0339 /// teacc 98.46 lr 0.00010000
+Epoch 122, weight, value: tensor([[-0.0555, -0.0720, -0.0750,  ..., -0.0258,  0.0436, -0.0714],
+        [-0.0396, -0.0655, -0.0431,  ...,  0.0871, -0.0275,  0.1608],
+        [ 0.0090, -0.0239, -0.0173,  ..., -0.0111, -0.0108, -0.0568],
+        ...,
+        [ 0.0100, -0.0713,  0.1190,  ...,  0.0184, -0.0575,  0.0356],
+        [-0.0236,  0.0459, -0.0938,  ..., -0.0412,  0.0024, -0.0621],
+        [-0.0537,  0.0618,  0.0519,  ..., -0.0473, -0.0280, -0.0167]],
+       device='cuda:0'), grad: tensor([[-2.1279e-04, -1.3475e-03,  4.4513e-04,  ..., -4.7035e-03,
+          1.2851e-04, -8.3399e-04],
+        [ 1.1809e-05,  9.2164e-06,  4.1604e-04,  ...,  5.5084e-03,
+          3.0017e-04,  2.8419e-03],
+        [ 1.8110e-03, -1.5778e-02,  3.9482e-03,  ..., -4.3716e-03,
+          1.2136e-04, -1.6174e-03],
+        ...,
+        [ 1.4029e-03, -6.7902e-03, -8.9073e-04,  ..., -5.5981e-04,
+          1.7190e-04,  1.4658e-03],
+        [ 8.6963e-05,  5.8861e-03,  8.1873e-04,  ...,  5.7297e-03,
+          8.3780e-04,  4.3793e-03],
+        [ 3.3051e-05,  9.1324e-03,  7.5912e-04,  ...,  3.9330e-03,
+          2.5582e-04, -1.4067e-03]], device='cuda:0')
+Epoch 122, bias, value: tensor([-0.0200,  0.0217,  0.0042, -0.0086,  0.0213, -0.0285,  0.0089, -0.0033,
+        -0.0003, -0.0120], device='cuda:0'), grad: tensor([ 0.0044,  0.0122, -0.0046, -0.0050,  0.0244, -0.0371, -0.0015, -0.0112,
+         0.0347, -0.0163], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 121----------------------------------------------------
+epoch 121, time 231.02, cls_loss 0.6448 cls_loss_mapping 0.0115 cls_loss_causal 0.5644 re_mapping 0.0153 re_causal 0.0348 /// teacc 98.54 lr 0.00010000
+Epoch 123, weight, value: tensor([[-0.0558, -0.0721, -0.0766,  ..., -0.0265,  0.0430, -0.0718],
+        [-0.0391, -0.0659, -0.0429,  ...,  0.0871, -0.0291,  0.1599],
+        [ 0.0100, -0.0230, -0.0158,  ..., -0.0103, -0.0113, -0.0553],
+        ...,
+        [ 0.0090, -0.0710,  0.1190,  ...,  0.0176, -0.0584,  0.0360],
+        [-0.0234,  0.0460, -0.0949,  ..., -0.0409,  0.0034, -0.0630],
+        [-0.0541,  0.0612,  0.0514,  ..., -0.0472, -0.0278, -0.0178]],
+       device='cuda:0'), grad: tensor([[ 1.7476e-04, -6.4697e-03, -1.0162e-02,  ..., -3.5278e-02,
+         -1.5268e-03,  3.8218e-04],
+        [-3.8266e-04, -4.1389e-03,  8.7023e-05,  ..., -7.2784e-03,
+          1.1454e-03, -7.1869e-03],
+        [ 2.3115e-04,  3.8910e-03,  5.9052e-03,  ...,  9.9182e-03,
+          1.3647e-03,  4.4990e-04],
+        ...,
+        [ 1.3542e-04,  2.2948e-04,  3.9749e-03,  ...,  8.2703e-03,
+          7.3147e-04,  1.0033e-02],
+        [ 5.9414e-04,  5.2261e-03,  1.0767e-03,  ...,  8.5373e-03,
+         -4.4327e-03,  7.6370e-03],
+        [ 1.3053e-04,  5.7411e-04, -4.6463e-03,  ..., -1.3888e-04,
+          9.3365e-04, -1.1665e-02]], device='cuda:0')
+Epoch 123, bias, value: tensor([-0.0207,  0.0213,  0.0046, -0.0082,  0.0204, -0.0288,  0.0098, -0.0032,
+         0.0004, -0.0123], device='cuda:0'), grad: tensor([-0.0918, -0.0172, -0.0010,  0.0340, -0.0060, -0.0007,  0.0168,  0.0410,
+         0.0317, -0.0068], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 122, time 214.58, cls_loss 0.6333 cls_loss_mapping 0.0143 cls_loss_causal 0.5399 re_mapping 0.0149 re_causal 0.0333 /// teacc 98.33 lr 0.00010000
+Epoch 124, weight, value: tensor([[-0.0559, -0.0714, -0.0743,  ..., -0.0252,  0.0426, -0.0711],
+        [-0.0389, -0.0659, -0.0439,  ...,  0.0870, -0.0284,  0.1606],
+        [ 0.0101, -0.0231, -0.0182,  ..., -0.0115, -0.0116, -0.0554],
+        ...,
+        [ 0.0087, -0.0713,  0.1188,  ...,  0.0181, -0.0588,  0.0362],
+        [-0.0228,  0.0459, -0.0959,  ..., -0.0421,  0.0046, -0.0636],
+        [-0.0543,  0.0618,  0.0512,  ..., -0.0477, -0.0286, -0.0186]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  3.7336e-04, -5.1409e-05,  ..., -2.3697e-02,
+         -4.7150e-03, -1.9531e-03],
+        [ 0.0000e+00,  3.8567e-03,  3.0918e-03,  ...,  2.3026e-02,
+          2.0161e-03,  1.4282e-02],
+        [ 0.0000e+00,  1.3542e-03, -3.9368e-03,  ..., -1.7653e-03,
+         -4.0359e-03, -2.9182e-03],
+        ...,
+        [ 0.0000e+00,  6.5327e-04,  4.0512e-03,  ...,  1.1887e-02,
+          7.4768e-04,  7.4463e-03],
+        [ 0.0000e+00, -4.1008e-03,  4.5919e-04,  ..., -5.0774e-03,
+          6.2180e-04, -1.1787e-02],
+        [ 0.0000e+00,  6.4659e-04,  8.8644e-04,  ...,  5.7106e-03,
+          6.7616e-04,  3.4466e-03]], device='cuda:0')
+Epoch 124, bias, value: tensor([-0.0194,  0.0219,  0.0035, -0.0087,  0.0210, -0.0289,  0.0098, -0.0036,
+         0.0005, -0.0125], device='cuda:0'), grad: tensor([-0.0768,  0.0848,  0.0168,  0.0234, -0.0169, -0.0417, -0.0034,  0.0410,
+        -0.0537,  0.0264], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 123, time 214.49, cls_loss 0.6319 cls_loss_mapping 0.0106 cls_loss_causal 0.5370 re_mapping 0.0156 re_causal 0.0350 /// teacc 98.50 lr 0.00010000
+Epoch 125, weight, value: tensor([[-0.0569, -0.0722, -0.0734,  ..., -0.0254,  0.0438, -0.0721],
+        [-0.0399, -0.0655, -0.0434,  ...,  0.0873, -0.0283,  0.1601],
+        [ 0.0108, -0.0238, -0.0188,  ..., -0.0110, -0.0113, -0.0568],
+        ...,
+        [ 0.0088, -0.0708,  0.1196,  ...,  0.0174, -0.0591,  0.0374],
+        [-0.0220,  0.0461, -0.0966,  ..., -0.0423,  0.0047, -0.0627],
+        [-0.0543,  0.0626,  0.0515,  ..., -0.0475, -0.0289, -0.0187]],
+       device='cuda:0'), grad: tensor([[ 1.5235e-04, -5.4121e-05,  1.9217e-04,  ...,  1.0614e-03,
+          1.5030e-02,  5.0449e-04],
+        [ 2.3437e-04,  3.0398e-05,  1.8752e-04,  ...,  4.4899e-03,
+          9.4128e-04,  4.4227e-04],
+        [ 3.6049e-04, -4.4250e-03,  4.5824e-04,  ..., -2.1194e-02,
+         -1.4969e-02,  8.9312e-04],
+        ...,
+        [-1.3819e-03,  1.5402e-03, -3.1853e-03,  ..., -3.9220e-05,
+          4.6134e-04, -7.6599e-03],
+        [ 8.0538e-04,  4.7636e-04,  1.5478e-03,  ...,  5.9509e-03,
+          8.5497e-04,  1.3971e-03],
+        [ 1.4114e-03,  6.2287e-05,  1.8559e-03,  ...,  4.2381e-03,
+          3.2282e-04,  3.6430e-03]], device='cuda:0')
+Epoch 125, bias, value: tensor([-0.0195,  0.0217,  0.0034, -0.0081,  0.0210, -0.0284,  0.0094, -0.0040,
+         0.0003, -0.0125], device='cuda:0'), grad: tensor([ 0.0102,  0.0215, -0.0624,  0.0425, -0.0003, -0.0420,  0.0200, -0.0530,
+         0.0311,  0.0327], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 124, time 214.50, cls_loss 0.6436 cls_loss_mapping 0.0100 cls_loss_causal 0.5437 re_mapping 0.0151 re_causal 0.0347 /// teacc 98.36 lr 0.00010000
+Epoch 126, weight, value: tensor([[-0.0578, -0.0730, -0.0734,  ..., -0.0252,  0.0433, -0.0724],
+        [-0.0412, -0.0650, -0.0434,  ...,  0.0873, -0.0279,  0.1609],
+        [ 0.0125, -0.0242, -0.0196,  ..., -0.0104, -0.0107, -0.0577],
+        ...,
+        [ 0.0100, -0.0717,  0.1196,  ...,  0.0173, -0.0606,  0.0375],
+        [-0.0217,  0.0454, -0.0970,  ..., -0.0426,  0.0044, -0.0632],
+        [-0.0543,  0.0635,  0.0524,  ..., -0.0472, -0.0296, -0.0170]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -2.4643e-03,  2.9683e-04,  ..., -2.9793e-03,
+         -2.6989e-03, -4.5747e-05],
+        [ 0.0000e+00, -7.3051e-03,  1.7726e-04,  ..., -9.5654e-04,
+          5.3674e-05, -2.3997e-04],
+        [ 0.0000e+00, -1.2589e-03, -1.6727e-03,  ..., -5.1384e-03,
+          5.7936e-04,  5.7161e-05],
+        ...,
+        [ 0.0000e+00, -4.4739e-02, -4.0703e-03,  ..., -2.6016e-03,
+          3.2812e-05, -6.0577e-03],
+        [ 0.0000e+00,  2.0733e-03,  2.2650e-04,  ...,  2.1915e-03,
+          5.9938e-04,  1.5986e-04],
+        [ 0.0000e+00,  5.1056e-02,  4.4518e-03,  ...,  4.0398e-03,
+          1.8334e-04,  6.0043e-03]], device='cuda:0')
+Epoch 126, bias, value: tensor([-1.8590e-02,  2.1252e-02,  4.5445e-03, -7.9737e-03,  2.0034e-02,
+        -2.9461e-02,  9.0704e-03, -3.5808e-03, -4.5916e-05, -1.1839e-02],
+       device='cuda:0'), grad: tensor([-0.0197,  0.0083, -0.0076, -0.0020,  0.0154,  0.0175,  0.0012, -0.0823,
+         0.0200,  0.0493], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 125, time 214.54, cls_loss 0.6505 cls_loss_mapping 0.0134 cls_loss_causal 0.5602 re_mapping 0.0150 re_causal 0.0335 /// teacc 98.53 lr 0.00010000
+Epoch 127, weight, value: tensor([[-0.0585, -0.0738, -0.0738,  ..., -0.0262,  0.0432, -0.0746],
+        [-0.0410, -0.0644, -0.0442,  ...,  0.0869, -0.0271,  0.1617],
+        [ 0.0120, -0.0248, -0.0193,  ..., -0.0098, -0.0108, -0.0574],
+        ...,
+        [ 0.0124, -0.0702,  0.1196,  ...,  0.0185, -0.0611,  0.0375],
+        [-0.0213,  0.0464, -0.0945,  ..., -0.0424,  0.0053, -0.0624],
+        [-0.0571,  0.0621,  0.0523,  ..., -0.0483, -0.0310, -0.0169]],
+       device='cuda:0'), grad: tensor([[ 8.1025e-08,  3.2163e-04, -1.5007e-02,  ..., -1.5015e-02,
+         -5.8289e-03, -5.4131e-03],
+        [ 1.7613e-05,  5.2452e-05,  2.5749e-04,  ..., -5.5199e-03,
+          6.4278e-04, -3.2768e-03],
+        [ 3.3248e-06,  1.7481e-03,  1.1950e-03,  ...,  2.7142e-03,
+          6.0606e-04,  7.1192e-04],
+        ...,
+        [-2.8864e-05,  2.1782e-03,  9.2468e-03,  ...,  9.3536e-03,
+          1.2856e-03,  3.6793e-03],
+        [-1.1921e-06, -2.4338e-03,  4.3654e-04,  ...,  2.6455e-03,
+          1.0395e-03,  7.8535e-04],
+        [ 4.4964e-06, -2.2659e-03,  2.4948e-03,  ...,  5.0278e-03,
+          9.9754e-04,  1.6680e-03]], device='cuda:0')
+Epoch 127, bias, value: tensor([-0.0204,  0.0221,  0.0046, -0.0092,  0.0196, -0.0294,  0.0103, -0.0024,
+         0.0008, -0.0128], device='cuda:0'), grad: tensor([-0.0571, -0.0101,  0.0160,  0.0158, -0.0036,  0.0021,  0.0232,  0.0435,
+        -0.0167, -0.0131], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 126, time 214.78, cls_loss 0.6559 cls_loss_mapping 0.0111 cls_loss_causal 0.5633 re_mapping 0.0148 re_causal 0.0337 /// teacc 98.36 lr 0.00010000
+Epoch 128, weight, value: tensor([[-0.0583, -0.0748, -0.0733,  ..., -0.0244,  0.0431, -0.0742],
+        [-0.0409, -0.0647, -0.0453,  ...,  0.0868, -0.0278,  0.1622],
+        [ 0.0112, -0.0245, -0.0185,  ..., -0.0103, -0.0097, -0.0575],
+        ...,
+        [ 0.0130, -0.0711,  0.1189,  ...,  0.0183, -0.0639,  0.0362],
+        [-0.0225,  0.0459, -0.0951,  ..., -0.0426,  0.0049, -0.0624],
+        [-0.0560,  0.0623,  0.0531,  ..., -0.0487, -0.0315, -0.0160]],
+       device='cuda:0'), grad: tensor([[ 1.2137e-05,  2.0027e-03,  3.1710e-04,  ..., -3.5248e-03,
+          3.5419e-03, -3.9554e-04],
+        [ 2.4962e-04,  1.5030e-03,  7.3338e-04,  ...,  3.3932e-03,
+         -1.6678e-02,  8.8263e-04],
+        [ 1.1663e-03,  2.4662e-03,  1.7662e-03,  ..., -1.6012e-03,
+         -9.1982e-04,  2.9640e-03],
+        ...,
+        [-2.2717e-03, -6.7406e-03, -5.6229e-03,  ..., -1.8173e-02,
+         -8.3466e-03, -7.5569e-03],
+        [ 3.0994e-04, -1.0391e-02,  7.7343e-04,  ...,  3.9215e-03,
+          1.2085e-02,  8.8072e-04],
+        [ 2.3890e-04, -3.7659e-02, -4.1199e-03,  ...,  3.8414e-03,
+         -5.2986e-03,  1.2693e-03]], device='cuda:0')
+Epoch 128, bias, value: tensor([-1.8855e-02,  2.1831e-02,  5.1873e-03, -8.4500e-03,  1.9203e-02,
+        -2.9468e-02,  9.8211e-03, -3.1128e-03, -2.0713e-05, -1.2689e-02],
+       device='cuda:0'), grad: tensor([-0.0109, -0.0083, -0.0086,  0.0563,  0.0306,  0.0204, -0.0054, -0.0776,
+         0.0239, -0.0204], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 127, time 214.52, cls_loss 0.6372 cls_loss_mapping 0.0103 cls_loss_causal 0.5333 re_mapping 0.0146 re_causal 0.0333 /// teacc 98.35 lr 0.00010000
+Epoch 129, weight, value: tensor([[-0.0577, -0.0747, -0.0735,  ..., -0.0245,  0.0434, -0.0746],
+        [-0.0427, -0.0671, -0.0451,  ...,  0.0872, -0.0269,  0.1622],
+        [ 0.0113, -0.0238, -0.0190,  ..., -0.0106, -0.0102, -0.0571],
+        ...,
+        [ 0.0136, -0.0711,  0.1194,  ...,  0.0178, -0.0640,  0.0364],
+        [-0.0220,  0.0455, -0.0961,  ..., -0.0422,  0.0039, -0.0621],
+        [-0.0570,  0.0636,  0.0528,  ..., -0.0494, -0.0316, -0.0165]],
+       device='cuda:0'), grad: tensor([[ 1.9324e-04, -2.4681e-03,  6.6900e-04,  ...,  9.5797e-04,
+          2.7485e-03,  4.2686e-03],
+        [ 2.7156e-04,  2.4486e-04, -2.4891e-04,  ..., -7.7095e-03,
+          4.7569e-03, -7.1259e-03],
+        [ 1.6093e-04,  2.9488e-03,  1.4138e-04,  ..., -5.5343e-05,
+          3.8948e-03, -1.8158e-03],
+        ...,
+        [ 6.7353e-05, -1.6899e-03,  1.5278e-03,  ...,  8.6260e-04,
+          2.6798e-03, -5.9748e-04],
+        [ 2.0933e-04, -2.5539e-03,  5.4026e-04,  ...,  9.8896e-04,
+          4.6501e-03,  5.0354e-03],
+        [ 1.7905e-04,  7.5769e-04, -4.6349e-03,  ...,  3.4542e-03,
+          2.5597e-03,  1.8272e-03]], device='cuda:0')
+Epoch 129, bias, value: tensor([-0.0187,  0.0220,  0.0049, -0.0084,  0.0203, -0.0287,  0.0091, -0.0038,
+         0.0003, -0.0135], device='cuda:0'), grad: tensor([-0.0124, -0.0218,  0.0058,  0.0223, -0.0561,  0.0056,  0.0078,  0.0065,
+         0.0219,  0.0204], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 128, time 214.81, cls_loss 0.6622 cls_loss_mapping 0.0132 cls_loss_causal 0.5774 re_mapping 0.0141 re_causal 0.0318 /// teacc 98.37 lr 0.00010000
+Epoch 130, weight, value: tensor([[-0.0575, -0.0752, -0.0738,  ..., -0.0254,  0.0436, -0.0758],
+        [-0.0454, -0.0670, -0.0448,  ...,  0.0877, -0.0259,  0.1636],
+        [ 0.0115, -0.0248, -0.0201,  ..., -0.0106, -0.0114, -0.0569],
+        ...,
+        [ 0.0142, -0.0722,  0.1202,  ...,  0.0178, -0.0638,  0.0362],
+        [-0.0229,  0.0464, -0.0967,  ..., -0.0414,  0.0032, -0.0624],
+        [-0.0567,  0.0637,  0.0530,  ..., -0.0485, -0.0311, -0.0162]],
+       device='cuda:0'), grad: tensor([[-8.1301e-04, -7.4911e-04, -2.3899e-03,  ..., -7.0953e-03,
+         -1.6689e-03, -2.9755e-03],
+        [ 8.2684e-04,  1.9085e-04,  6.0196e-03,  ...,  1.0612e-02,
+          5.8289e-03, -1.0071e-02],
+        [ 4.5371e-04, -2.5082e-03, -3.7308e-03,  ..., -7.1945e-03,
+          2.6722e-03, -7.5455e-03],
+        ...,
+        [ 1.3494e-04,  5.8746e-03,  1.1986e-02,  ...,  4.0550e-03,
+         -6.1274e-05,  1.5762e-02],
+        [ 9.6560e-04,  1.5480e-02,  8.4000e-03,  ...,  1.1139e-02,
+          1.5640e-02,  6.2599e-03],
+        [ 3.5000e-04,  1.2566e-02, -8.5297e-03,  ...,  6.8283e-03,
+          4.8294e-03,  4.8447e-03]], device='cuda:0')
+Epoch 130, bias, value: tensor([-0.0188,  0.0229,  0.0048, -0.0087,  0.0207, -0.0295,  0.0085, -0.0041,
+         0.0009, -0.0132], device='cuda:0'), grad: tensor([-0.0190,  0.0321, -0.0117, -0.0955,  0.0134, -0.0087,  0.0030,  0.0190,
+         0.0475,  0.0199], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 129, time 214.45, cls_loss 0.6417 cls_loss_mapping 0.0149 cls_loss_causal 0.5528 re_mapping 0.0149 re_causal 0.0329 /// teacc 98.40 lr 0.00010000
+Epoch 131, weight, value: tensor([[-0.0575, -0.0759, -0.0730,  ..., -0.0261,  0.0437, -0.0757],
+        [-0.0441, -0.0687, -0.0459,  ...,  0.0887, -0.0277,  0.1638],
+        [ 0.0104, -0.0232, -0.0186,  ..., -0.0107, -0.0107, -0.0548],
+        ...,
+        [ 0.0136, -0.0725,  0.1194,  ...,  0.0174, -0.0632,  0.0362],
+        [-0.0215,  0.0472, -0.0982,  ..., -0.0418,  0.0028, -0.0641],
+        [-0.0573,  0.0636,  0.0536,  ..., -0.0472, -0.0296, -0.0156]],
+       device='cuda:0'), grad: tensor([[ 3.9196e-04,  2.9964e-03,  6.2609e-04,  ...,  9.8705e-04,
+          8.7509e-03,  2.0161e-03],
+        [-2.3918e-03, -3.7422e-03,  2.3544e-05,  ..., -1.2283e-02,
+         -2.0294e-03, -1.2751e-03],
+        [ 1.9159e-03,  2.1172e-03,  1.7471e-03,  ...,  2.2564e-03,
+         -1.9894e-03,  3.5725e-03],
+        ...,
+        [-2.5997e-03,  8.5020e-04, -3.7422e-03,  ...,  3.2234e-03,
+          1.2165e-04, -3.2215e-03],
+        [ 1.4162e-03,  3.1490e-03,  1.7939e-03,  ...,  8.4000e-03,
+          1.0710e-03,  1.3571e-03],
+        [ 2.5368e-03,  3.8357e-03,  4.4594e-03,  ...,  9.7656e-03,
+          4.0650e-04,  5.9509e-03]], device='cuda:0')
+Epoch 131, bias, value: tensor([-0.0194,  0.0234,  0.0050, -0.0082,  0.0194, -0.0300,  0.0090, -0.0043,
+         0.0010, -0.0125], device='cuda:0'), grad: tensor([ 0.0003, -0.0346, -0.0005,  0.0262, -0.0157,  0.0271, -0.0869,  0.0098,
+         0.0333,  0.0409], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 130, time 214.42, cls_loss 0.6261 cls_loss_mapping 0.0111 cls_loss_causal 0.5351 re_mapping 0.0151 re_causal 0.0346 /// teacc 98.30 lr 0.00010000
+Epoch 132, weight, value: tensor([[-0.0587, -0.0767, -0.0733,  ..., -0.0265,  0.0436, -0.0770],
+        [-0.0433, -0.0679, -0.0462,  ...,  0.0889, -0.0280,  0.1639],
+        [ 0.0103, -0.0218, -0.0188,  ..., -0.0106, -0.0110, -0.0551],
+        ...,
+        [ 0.0135, -0.0722,  0.1193,  ...,  0.0174, -0.0626,  0.0367],
+        [-0.0225,  0.0476, -0.0991,  ..., -0.0438,  0.0036, -0.0648],
+        [-0.0553,  0.0637,  0.0535,  ..., -0.0471, -0.0284, -0.0150]],
+       device='cuda:0'), grad: tensor([[ 7.7933e-06,  8.1825e-04,  2.7204e-04,  ...,  8.5526e-03,
+          2.1875e-04,  2.7790e-03],
+        [ 1.8835e-04,  8.8573e-05,  7.7486e-04,  ..., -9.7752e-04,
+         -6.5994e-04, -1.0881e-03],
+        [ 2.7180e-04,  3.0303e-04,  1.3247e-03,  ...,  1.5564e-02,
+          6.5565e-04,  3.9635e-03],
+        ...,
+        [ 3.2425e-04,  2.9302e-04, -5.5027e-04,  ..., -6.2027e-03,
+          5.6362e-04, -3.6469e-03],
+        [-6.0111e-05,  7.0763e-04,  4.5347e-04,  ..., -1.2505e-02,
+         -1.8520e-03, -2.8229e-03],
+        [ 2.6122e-05, -5.7518e-05,  8.5688e-04,  ..., -5.2147e-03,
+          1.1259e-04,  7.6246e-04]], device='cuda:0')
+Epoch 132, bias, value: tensor([-0.0191,  0.0240,  0.0045, -0.0087,  0.0195, -0.0307,  0.0104, -0.0044,
+        -0.0003, -0.0118], device='cuda:0'), grad: tensor([ 0.0205, -0.0033,  0.0345, -0.0237,  0.0091,  0.0029,  0.0168, -0.0257,
+        -0.0155, -0.0156], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 131, time 214.67, cls_loss 0.6577 cls_loss_mapping 0.0176 cls_loss_causal 0.5748 re_mapping 0.0144 re_causal 0.0314 /// teacc 98.38 lr 0.00010000
+Epoch 133, weight, value: tensor([[-0.0591, -0.0774, -0.0733,  ..., -0.0264,  0.0445, -0.0776],
+        [-0.0449, -0.0685, -0.0457,  ...,  0.0896, -0.0268,  0.1647],
+        [ 0.0101, -0.0223, -0.0203,  ..., -0.0119, -0.0114, -0.0574],
+        ...,
+        [ 0.0151, -0.0720,  0.1198,  ...,  0.0175, -0.0625,  0.0363],
+        [-0.0222,  0.0479, -0.0996,  ..., -0.0431,  0.0037, -0.0639],
+        [-0.0551,  0.0642,  0.0544,  ..., -0.0469, -0.0286, -0.0142]],
+       device='cuda:0'), grad: tensor([[ 5.7650e-04,  1.9207e-03,  8.2135e-05,  ..., -2.4757e-03,
+          1.3647e-03,  3.3879e-04],
+        [ 8.1539e-04,  3.0422e-04,  3.6329e-05,  ...,  1.9882e-02,
+          1.9479e-04,  1.2722e-03],
+        [ 6.7558e-03,  1.2798e-03,  1.9336e-04,  ..., -9.3231e-03,
+          4.3416e-04,  8.8978e-04],
+        ...,
+        [ 1.0567e-03,  4.3392e-04,  9.1791e-05,  ..., -1.4668e-03,
+          5.9271e-04,  1.0395e-03],
+        [-1.1772e-02, -9.5062e-03, -1.1271e-04,  ..., -1.4420e-02,
+         -6.7787e-03, -1.1906e-05],
+        [ 4.3869e-04, -6.6795e-03, -2.1114e-03,  ...,  4.0131e-03,
+         -1.1539e-03,  1.7624e-03]], device='cuda:0')
+Epoch 133, bias, value: tensor([-0.0189,  0.0239,  0.0041, -0.0091,  0.0194, -0.0297,  0.0096, -0.0047,
+         0.0004, -0.0116], device='cuda:0'), grad: tensor([-0.0056,  0.0471,  0.0191,  0.0196, -0.0171,  0.0249, -0.0070, -0.0037,
+        -0.0782,  0.0007], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 132, time 214.41, cls_loss 0.6281 cls_loss_mapping 0.0107 cls_loss_causal 0.5414 re_mapping 0.0148 re_causal 0.0331 /// teacc 98.36 lr 0.00010000
+Epoch 134, weight, value: tensor([[-0.0587, -0.0783, -0.0736,  ..., -0.0267,  0.0444, -0.0786],
+        [-0.0452, -0.0691, -0.0474,  ...,  0.0888, -0.0260,  0.1649],
+        [ 0.0085, -0.0219, -0.0198,  ..., -0.0109, -0.0130, -0.0565],
+        ...,
+        [ 0.0155, -0.0731,  0.1208,  ...,  0.0177, -0.0626,  0.0363],
+        [-0.0222,  0.0477, -0.0996,  ..., -0.0428,  0.0040, -0.0646],
+        [-0.0558,  0.0636,  0.0547,  ..., -0.0471, -0.0284, -0.0137]],
+       device='cuda:0'), grad: tensor([[ 3.1734e-04, -3.9902e-03, -8.8453e-04,  ..., -4.5395e-03,
+          4.9067e-04,  7.2861e-04],
+        [ 2.7344e-05, -2.0004e-02, -2.2605e-05,  ..., -3.1464e-02,
+         -1.0471e-03,  3.2485e-05],
+        [-4.3640e-03, -1.2032e-02,  1.6203e-03,  ...,  7.3204e-03,
+         -1.4351e-02, -8.3923e-04],
+        ...,
+        [-3.7384e-03,  7.4043e-03, -4.5662e-03,  ...,  3.8280e-03,
+          5.5885e-03, -1.5726e-03],
+        [ 1.8418e-04,  1.1833e-02,  1.4315e-03,  ...,  1.4130e-02,
+          6.5880e-03,  8.1110e-04],
+        [ 5.0888e-03,  6.2218e-03,  5.8937e-03,  ...,  2.6226e-03,
+          7.1793e-03,  5.8670e-03]], device='cuda:0')
+Epoch 134, bias, value: tensor([-0.0194,  0.0238,  0.0042, -0.0090,  0.0193, -0.0301,  0.0102, -0.0049,
+         0.0008, -0.0117], device='cuda:0'), grad: tensor([-0.0088, -0.0664,  0.0169,  0.0451, -0.0775,  0.0250, -0.0115,  0.0081,
+         0.0356,  0.0334], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 133, time 214.52, cls_loss 0.6659 cls_loss_mapping 0.0102 cls_loss_causal 0.5677 re_mapping 0.0141 re_causal 0.0318 /// teacc 98.29 lr 0.00010000
+Epoch 135, weight, value: tensor([[-0.0596, -0.0790, -0.0738,  ..., -0.0273,  0.0447, -0.0790],
+        [-0.0462, -0.0695, -0.0469,  ...,  0.0890, -0.0268,  0.1652],
+        [ 0.0090, -0.0227, -0.0190,  ..., -0.0112, -0.0123, -0.0560],
+        ...,
+        [ 0.0160, -0.0738,  0.1214,  ...,  0.0173, -0.0646,  0.0365],
+        [-0.0220,  0.0478, -0.0999,  ..., -0.0428,  0.0028, -0.0650],
+        [-0.0553,  0.0643,  0.0547,  ..., -0.0468, -0.0277, -0.0144]],
+       device='cuda:0'), grad: tensor([[ 0.0002,  0.0003,  0.0001,  ...,  0.0024,  0.0004,  0.0009],
+        [-0.0030, -0.0362,  0.0002,  ..., -0.0144, -0.0033, -0.0165],
+        [ 0.0002,  0.0009,  0.0004,  ...,  0.0020,  0.0003, -0.0092],
+        ...,
+        [ 0.0005,  0.0025,  0.0005,  ...,  0.0071,  0.0012,  0.0031],
+        [ 0.0003, -0.0032, -0.0018,  ..., -0.0071, -0.0005,  0.0006],
+        [ 0.0008,  0.0300,  0.0039,  ...,  0.0136,  0.0044,  0.0183]],
+       device='cuda:0')
+Epoch 135, bias, value: tensor([-0.0200,  0.0244,  0.0034, -0.0086,  0.0203, -0.0307,  0.0107, -0.0055,
+         0.0006, -0.0113], device='cuda:0'), grad: tensor([ 0.0040, -0.0779, -0.0180, -0.0176, -0.0074,  0.0182,  0.0170,  0.0224,
+        -0.0059,  0.0652], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 134, time 214.57, cls_loss 0.6480 cls_loss_mapping 0.0119 cls_loss_causal 0.5529 re_mapping 0.0144 re_causal 0.0313 /// teacc 98.39 lr 0.00010000
+Epoch 136, weight, value: tensor([[-0.0599, -0.0811, -0.0745,  ..., -0.0275,  0.0440, -0.0788],
+        [-0.0467, -0.0690, -0.0480,  ...,  0.0889, -0.0278,  0.1654],
+        [ 0.0086, -0.0213, -0.0192,  ..., -0.0106, -0.0126, -0.0554],
+        ...,
+        [ 0.0165, -0.0731,  0.1224,  ...,  0.0169, -0.0629,  0.0373],
+        [-0.0235,  0.0481, -0.1006,  ..., -0.0436,  0.0033, -0.0647],
+        [-0.0547,  0.0637,  0.0546,  ..., -0.0459, -0.0280, -0.0150]],
+       device='cuda:0'), grad: tensor([[ 6.2622e-06,  1.1911e-03,  2.3198e-04,  ...,  5.0774e-03,
+          1.0502e-04,  3.6430e-04],
+        [-6.9618e-05, -2.7542e-03,  2.9612e-04,  ...,  3.0708e-03,
+          6.6459e-05,  3.2082e-03],
+        [ 3.1590e-05,  3.4542e-03,  8.0013e-04,  ...,  4.0016e-03,
+          3.2473e-04,  8.4639e-04],
+        ...,
+        [ 4.8339e-05, -3.3073e-03, -1.1339e-03,  ..., -8.0872e-04,
+          7.3373e-05, -2.5558e-03],
+        [ 2.0576e-04, -2.7409e-03, -1.0292e-02,  ...,  7.0038e-03,
+          1.3876e-04,  4.5657e-04],
+        [ 1.2815e-04,  6.3591e-03,  1.1391e-02,  ...,  3.9825e-03,
+          1.3709e-04,  1.0529e-03]], device='cuda:0')
+Epoch 136, bias, value: tensor([-0.0200,  0.0242,  0.0039, -0.0086,  0.0197, -0.0302,  0.0102, -0.0055,
+         0.0002, -0.0107], device='cuda:0'), grad: tensor([ 0.0208,  0.0370,  0.0205, -0.0831,  0.0219, -0.0465,  0.0006, -0.0213,
+        -0.0015,  0.0517], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 135, time 214.34, cls_loss 0.6488 cls_loss_mapping 0.0135 cls_loss_causal 0.5572 re_mapping 0.0149 re_causal 0.0326 /// teacc 98.46 lr 0.00010000
+Epoch 137, weight, value: tensor([[-0.0606, -0.0804, -0.0753,  ..., -0.0279,  0.0440, -0.0783],
+        [-0.0491, -0.0694, -0.0492,  ...,  0.0896, -0.0281,  0.1660],
+        [ 0.0080, -0.0205, -0.0200,  ..., -0.0100, -0.0129, -0.0550],
+        ...,
+        [ 0.0188, -0.0737,  0.1238,  ...,  0.0185, -0.0629,  0.0363],
+        [-0.0230,  0.0481, -0.0993,  ..., -0.0446,  0.0032, -0.0652],
+        [-0.0554,  0.0643,  0.0535,  ..., -0.0458, -0.0279, -0.0134]],
+       device='cuda:0'), grad: tensor([[ 6.9141e-05,  1.7190e-04, -4.9829e-05,  ..., -6.7368e-03,
+          1.7598e-05, -5.2166e-04],
+        [ 6.2704e-05,  2.5730e-03,  2.6588e-03,  ...,  2.4204e-03,
+          6.4433e-05,  1.5574e-03],
+        [ 6.0368e-04,  8.9598e-04,  1.0920e-03,  ...,  2.5177e-03,
+         -1.3602e-04,  7.6771e-04],
+        ...,
+        [ 1.4935e-03, -2.9602e-03, -3.3512e-03,  ..., -7.2594e-03,
+          4.4751e-04, -1.8396e-03],
+        [ 9.0790e-04,  3.3455e-03,  2.4319e-03,  ...,  9.6512e-03,
+          5.1826e-05,  1.4610e-03],
+        [ 2.7180e-04, -4.1313e-03,  2.6155e-04,  ..., -2.8443e-04,
+          1.5461e-04, -1.0548e-03]], device='cuda:0')
+Epoch 137, bias, value: tensor([-2.0258e-02,  2.4275e-02,  3.7209e-03, -7.8909e-03,  1.9090e-02,
+        -3.0254e-02,  9.7566e-03, -4.5812e-03, -9.1325e-05, -1.0589e-02],
+       device='cuda:0'), grad: tensor([-0.0208, -0.0051,  0.0082, -0.0413,  0.0138,  0.0172,  0.0098, -0.0008,
+         0.0258, -0.0067], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 136, time 214.63, cls_loss 0.6265 cls_loss_mapping 0.0141 cls_loss_causal 0.5398 re_mapping 0.0150 re_causal 0.0331 /// teacc 98.28 lr 0.00010000
+Epoch 138, weight, value: tensor([[-0.0585, -0.0816, -0.0751,  ..., -0.0273,  0.0439, -0.0782],
+        [-0.0495, -0.0696, -0.0500,  ...,  0.0905, -0.0282,  0.1665],
+        [ 0.0079, -0.0210, -0.0215,  ..., -0.0093, -0.0135, -0.0559],
+        ...,
+        [ 0.0197, -0.0757,  0.1244,  ...,  0.0179, -0.0627,  0.0367],
+        [-0.0231,  0.0480, -0.1004,  ..., -0.0456,  0.0025, -0.0648],
+        [-0.0560,  0.0647,  0.0535,  ..., -0.0460, -0.0280, -0.0133]],
+       device='cuda:0'), grad: tensor([[ 1.8859e-04, -7.5798e-03,  8.4352e-04,  ..., -1.1322e-02,
+          4.6277e-04,  2.5797e-04],
+        [-1.4931e-02, -1.8053e-03, -2.1637e-02,  ..., -1.8311e-02,
+          7.4863e-05, -1.6586e-02],
+        [ 1.3371e-03,  6.2847e-04,  2.6207e-03,  ..., -9.3613e-03,
+          4.0936e-04,  1.1806e-03],
+        ...,
+        [ 6.1607e-03,  1.1950e-03,  8.7051e-03,  ...,  7.6904e-03,
+          5.9634e-05,  7.7744e-03],
+        [ 4.9400e-04, -4.6635e-04, -2.0027e-03,  ..., -3.0651e-03,
+         -2.1038e-03, -6.6376e-04],
+        [ 6.1989e-04,  2.8801e-03,  2.4676e-04,  ...,  9.0408e-03,
+          3.1495e-04,  1.5764e-03]], device='cuda:0')
+Epoch 138, bias, value: tensor([-0.0195,  0.0248,  0.0040, -0.0079,  0.0194, -0.0301,  0.0094, -0.0052,
+        -0.0014, -0.0101], device='cuda:0'), grad: tensor([-0.0219, -0.0665, -0.0270,  0.0667, -0.0090, -0.0097,  0.0172,  0.0374,
+        -0.0127,  0.0256], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 137, time 215.02, cls_loss 0.6287 cls_loss_mapping 0.0105 cls_loss_causal 0.5338 re_mapping 0.0144 re_causal 0.0314 /// teacc 98.32 lr 0.00010000
+Epoch 139, weight, value: tensor([[-0.0592, -0.0824, -0.0758,  ..., -0.0285,  0.0457, -0.0795],
+        [-0.0494, -0.0701, -0.0503,  ...,  0.0904, -0.0282,  0.1663],
+        [ 0.0088, -0.0214, -0.0223,  ..., -0.0092, -0.0134, -0.0560],
+        ...,
+        [ 0.0188, -0.0745,  0.1242,  ...,  0.0185, -0.0637,  0.0378],
+        [-0.0234,  0.0477, -0.0999,  ..., -0.0452,  0.0025, -0.0641],
+        [-0.0552,  0.0647,  0.0529,  ..., -0.0470, -0.0273, -0.0140]],
+       device='cuda:0'), grad: tensor([[ 3.0661e-04,  3.2520e-04,  2.0742e-04,  ..., -2.6608e-03,
+         -2.9945e-03,  1.2712e-03],
+        [ 2.7728e-04, -1.2074e-03,  7.5293e-04,  ..., -1.5182e-02,
+         -1.2141e-04, -3.7251e-03],
+        [ 2.1152e-03,  6.0844e-04,  1.1902e-03,  ...,  1.1986e-02,
+          1.1911e-03,  2.8954e-03],
+        ...,
+        [ 9.9754e-04,  3.4142e-04, -2.8763e-03,  ..., -4.0436e-03,
+          6.5756e-04,  2.3117e-03],
+        [ 1.0462e-03,  1.0595e-03,  4.0501e-05,  ...,  4.6577e-03,
+          1.5163e-03,  1.0246e-04],
+        [ 8.6784e-04, -1.7099e-03,  6.4039e-04,  ..., -2.0676e-03,
+          8.9455e-04, -2.8801e-04]], device='cuda:0')
+Epoch 139, bias, value: tensor([-0.0206,  0.0247,  0.0040, -0.0088,  0.0197, -0.0298,  0.0100, -0.0051,
+        -0.0004, -0.0107], device='cuda:0'), grad: tensor([-0.0139, -0.0360,  0.0358,  0.0254, -0.0299,  0.0327,  0.0251, -0.0224,
+         0.0171, -0.0341], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 138, time 214.63, cls_loss 0.6173 cls_loss_mapping 0.0103 cls_loss_causal 0.5352 re_mapping 0.0143 re_causal 0.0321 /// teacc 98.24 lr 0.00010000
+Epoch 140, weight, value: tensor([[-0.0591, -0.0825, -0.0746,  ..., -0.0274,  0.0455, -0.0801],
+        [-0.0490, -0.0706, -0.0483,  ...,  0.0905, -0.0268,  0.1668],
+        [ 0.0104, -0.0210, -0.0228,  ..., -0.0098, -0.0137, -0.0552],
+        ...,
+        [ 0.0178, -0.0756,  0.1252,  ...,  0.0178, -0.0635,  0.0372],
+        [-0.0236,  0.0479, -0.1019,  ..., -0.0451,  0.0029, -0.0648],
+        [-0.0553,  0.0646,  0.0524,  ..., -0.0470, -0.0278, -0.0140]],
+       device='cuda:0'), grad: tensor([[ 6.5923e-05,  4.2486e-04,  7.5722e-04,  ..., -2.8458e-03,
+          5.5838e-04,  7.7391e-04],
+        [ 1.9193e-04,  4.5133e-04,  3.3970e-03,  ...,  7.4654e-03,
+          4.8423e-04,  5.5275e-03],
+        [ 3.0637e-04,  3.4313e-03, -5.1575e-03,  ...,  7.2336e-04,
+          3.0289e-03, -1.2009e-02],
+        ...,
+        [ 1.9181e-04,  7.3004e-04,  2.1095e-03,  ...,  3.4046e-03,
+         -6.1760e-03,  4.4250e-03],
+        [-1.4668e-03, -8.0643e-03, -1.1597e-02,  ..., -1.6144e-02,
+         -5.9128e-03, -5.6534e-03],
+        [ 3.2544e-04,  7.8869e-04,  2.1343e-03,  ...,  8.6670e-03,
+          5.8556e-03,  2.8629e-03]], device='cuda:0')
+Epoch 140, bias, value: tensor([-2.0416e-02,  2.4332e-02,  4.1285e-03, -8.3246e-03,  1.9837e-02,
+        -3.0711e-02,  1.0390e-02, -5.5880e-03,  2.9677e-05, -1.0502e-02],
+       device='cuda:0'), grad: tensor([-0.0166,  0.0269,  0.0138,  0.0399, -0.0131, -0.0105, -0.0101,  0.0121,
+        -0.0728,  0.0304], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 139, time 214.61, cls_loss 0.6596 cls_loss_mapping 0.0104 cls_loss_causal 0.5693 re_mapping 0.0138 re_causal 0.0321 /// teacc 98.53 lr 0.00010000
+Epoch 141, weight, value: tensor([[-0.0594, -0.0834, -0.0729,  ..., -0.0269,  0.0453, -0.0785],
+        [-0.0498, -0.0694, -0.0486,  ...,  0.0911, -0.0273,  0.1676],
+        [ 0.0099, -0.0208, -0.0234,  ..., -0.0102, -0.0135, -0.0549],
+        ...,
+        [ 0.0182, -0.0756,  0.1256,  ...,  0.0180, -0.0636,  0.0370],
+        [-0.0237,  0.0465, -0.1025,  ..., -0.0441,  0.0030, -0.0655],
+        [-0.0554,  0.0651,  0.0519,  ..., -0.0468, -0.0264, -0.0144]],
+       device='cuda:0'), grad: tensor([[ 1.0710e-07,  4.9686e-04,  8.5545e-04,  ...,  7.8964e-03,
+         -8.2445e-04,  2.2507e-03],
+        [ 6.6077e-07,  9.5177e-04,  9.3317e-04,  ...,  3.2120e-03,
+          2.3544e-04, -7.8821e-04],
+        [ 5.6103e-06,  1.1005e-03,  1.6193e-03,  ...,  8.7662e-03,
+          7.5531e-04,  1.6327e-03],
+        ...,
+        [ 5.4985e-06,  1.7118e-03,  2.3403e-03,  ...,  9.3002e-03,
+          1.3149e-04,  1.6508e-03],
+        [-5.9605e-05, -6.9389e-03, -5.8250e-03,  ..., -3.2898e-02,
+         -4.9133e-03, -9.5444e-03],
+        [ 4.0889e-05,  5.1384e-03,  2.3174e-03,  ...,  4.9800e-05,
+          1.3781e-03,  3.2883e-03]], device='cuda:0')
+Epoch 141, bias, value: tensor([-0.0204,  0.0247,  0.0043, -0.0088,  0.0195, -0.0316,  0.0106, -0.0054,
+         0.0004, -0.0102], device='cuda:0'), grad: tensor([ 0.0182,  0.0093,  0.0216,  0.0196,  0.0052,  0.0121, -0.0216,  0.0228,
+        -0.0911,  0.0039], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 140, time 214.80, cls_loss 0.6338 cls_loss_mapping 0.0117 cls_loss_causal 0.5492 re_mapping 0.0139 re_causal 0.0308 /// teacc 98.39 lr 0.00010000
+Epoch 142, weight, value: tensor([[-0.0595, -0.0837, -0.0718,  ..., -0.0269,  0.0454, -0.0778],
+        [-0.0504, -0.0700, -0.0493,  ...,  0.0906, -0.0281,  0.1674],
+        [ 0.0102, -0.0191, -0.0232,  ..., -0.0109, -0.0124, -0.0561],
+        ...,
+        [ 0.0185, -0.0739,  0.1255,  ...,  0.0193, -0.0655,  0.0378],
+        [-0.0238,  0.0468, -0.1037,  ..., -0.0431,  0.0038, -0.0651],
+        [-0.0559,  0.0649,  0.0518,  ..., -0.0480, -0.0264, -0.0162]],
+       device='cuda:0'), grad: tensor([[ 0.0001,  0.0026,  0.0005,  ...,  0.0157,  0.0075,  0.0003],
+        [ 0.0002,  0.0004,  0.0007,  ...,  0.0108,  0.0013,  0.0003],
+        [ 0.0002,  0.0017,  0.0013,  ...,  0.0101,  0.0179,  0.0007],
+        ...,
+        [ 0.0005,  0.0034,  0.0035,  ..., -0.0111,  0.0009,  0.0021],
+        [ 0.0002,  0.0052,  0.0032,  ...,  0.0093, -0.0647,  0.0018],
+        [-0.0003, -0.0135, -0.0107,  ..., -0.0057, -0.0062, -0.0016]],
+       device='cuda:0')
+Epoch 142, bias, value: tensor([-0.0206,  0.0242,  0.0040, -0.0082,  0.0199, -0.0313,  0.0101, -0.0047,
+         0.0009, -0.0113], device='cuda:0'), grad: tensor([ 0.0510,  0.0247,  0.0488,  0.0113, -0.0088, -0.0009, -0.0357, -0.0319,
+        -0.0197, -0.0386], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 141, time 214.50, cls_loss 0.6261 cls_loss_mapping 0.0120 cls_loss_causal 0.5338 re_mapping 0.0133 re_causal 0.0288 /// teacc 98.47 lr 0.00010000
+Epoch 143, weight, value: tensor([[-0.0595, -0.0837, -0.0724,  ..., -0.0269,  0.0458, -0.0782],
+        [-0.0497, -0.0689, -0.0490,  ...,  0.0910, -0.0284,  0.1688],
+        [ 0.0112, -0.0183, -0.0229,  ..., -0.0106, -0.0114, -0.0567],
+        ...,
+        [ 0.0188, -0.0737,  0.1263,  ...,  0.0196, -0.0651,  0.0376],
+        [-0.0247,  0.0460, -0.1054,  ..., -0.0442,  0.0035, -0.0669],
+        [-0.0566,  0.0646,  0.0513,  ..., -0.0475, -0.0267, -0.0160]],
+       device='cuda:0'), grad: tensor([[ 8.4788e-06,  2.2566e-04,  2.0397e-04,  ...,  3.0575e-03,
+         -3.1084e-05,  1.6499e-03],
+        [ 7.4692e-06,  4.6039e-04,  4.1151e-04,  ...,  3.0823e-03,
+          5.1670e-06,  2.0866e-03],
+        [ 6.6161e-05,  6.0177e-04,  5.4264e-04,  ..., -8.3313e-03,
+          5.8174e-05, -3.1204e-03],
+        ...,
+        [ 8.0317e-06,  2.0256e-03, -5.3358e-04,  ...,  1.9331e-03,
+          1.9997e-05,  4.3564e-03],
+        [ 4.8757e-05,  1.2369e-03,  7.0000e-04,  ..., -6.2752e-03,
+          3.0851e-04, -2.0294e-03],
+        [ 9.7677e-06, -4.4556e-03, -3.1261e-03,  ..., -9.2411e-04,
+          3.8028e-05, -6.8741e-03]], device='cuda:0')
+Epoch 143, bias, value: tensor([-0.0197,  0.0247,  0.0037, -0.0083,  0.0195, -0.0314,  0.0102, -0.0045,
+         0.0001, -0.0113], device='cuda:0'), grad: tensor([ 0.0126,  0.0138, -0.0230,  0.0024,  0.0327,  0.0007,  0.0115, -0.0050,
+        -0.0458,  0.0002], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 142----------------------------------------------------
+epoch 142, time 231.13, cls_loss 0.6230 cls_loss_mapping 0.0147 cls_loss_causal 0.5340 re_mapping 0.0145 re_causal 0.0318 /// teacc 98.58 lr 0.00010000
+Epoch 144, weight, value: tensor([[-0.0602, -0.0847, -0.0736,  ..., -0.0279,  0.0450, -0.0806],
+        [-0.0511, -0.0687, -0.0487,  ...,  0.0917, -0.0290,  0.1696],
+        [ 0.0135, -0.0184, -0.0234,  ..., -0.0105, -0.0113, -0.0562],
+        ...,
+        [ 0.0179, -0.0739,  0.1258,  ...,  0.0195, -0.0658,  0.0362],
+        [-0.0251,  0.0464, -0.1053,  ..., -0.0452,  0.0037, -0.0671],
+        [-0.0559,  0.0645,  0.0520,  ..., -0.0468, -0.0268, -0.0141]],
+       device='cuda:0'), grad: tensor([[-2.6092e-05, -2.7122e-03,  4.4078e-05,  ...,  6.2943e-03,
+          1.9968e-06,  3.8886e-04],
+        [ 3.0696e-05, -2.0373e-04, -6.4325e-04,  ...,  4.5395e-03,
+          9.0804e-08, -3.0670e-03],
+        [ 4.9695e-06,  1.2989e-03,  1.0270e-04,  ...,  5.7411e-03,
+          1.9651e-07,  4.7660e-04],
+        ...,
+        [-2.2030e-04,  4.2915e-04,  2.9507e-03,  ...,  3.4733e-03,
+          3.0734e-08,  4.0321e-03],
+        [ 2.4468e-05, -5.9357e-03,  6.5804e-04,  ..., -5.6229e-03,
+          1.8507e-05,  5.5046e-03],
+        [ 1.8549e-04,  5.1403e-04, -3.0174e-03,  ...,  5.0011e-03,
+          5.8161e-07, -1.8120e-03]], device='cuda:0')
+Epoch 144, bias, value: tensor([-0.0209,  0.0249,  0.0045, -0.0079,  0.0196, -0.0315,  0.0105, -0.0048,
+        -0.0003, -0.0110], device='cuda:0'), grad: tensor([-0.0026,  0.0009,  0.0161, -0.0133, -0.0186, -0.0132, -0.0027,  0.0206,
+         0.0101,  0.0027], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 143, time 214.47, cls_loss 0.6241 cls_loss_mapping 0.0122 cls_loss_causal 0.5456 re_mapping 0.0135 re_causal 0.0303 /// teacc 98.51 lr 0.00010000
+Epoch 145, weight, value: tensor([[-0.0598, -0.0848, -0.0740,  ..., -0.0275,  0.0451, -0.0808],
+        [-0.0504, -0.0681, -0.0490,  ...,  0.0921, -0.0289,  0.1701],
+        [ 0.0128, -0.0186, -0.0241,  ..., -0.0108, -0.0112, -0.0555],
+        ...,
+        [ 0.0161, -0.0746,  0.1261,  ...,  0.0200, -0.0653,  0.0362],
+        [-0.0250,  0.0462, -0.1057,  ..., -0.0452,  0.0035, -0.0670],
+        [-0.0528,  0.0656,  0.0535,  ..., -0.0462, -0.0271, -0.0143]],
+       device='cuda:0'), grad: tensor([[ 1.8406e-04,  7.1430e-04, -1.3552e-03,  ...,  1.2636e-03,
+          8.7967e-03,  1.1253e-03],
+        [ 5.5599e-04,  1.2894e-03,  7.6532e-05,  ...,  3.4103e-03,
+          1.6189e-04, -2.6531e-03],
+        [ 9.0599e-04,  1.1330e-03,  3.1543e-04,  ...,  2.0676e-02,
+          1.8444e-03,  1.2253e-02],
+        ...,
+        [ 3.1257e-04, -5.7449e-03, -3.1814e-06,  ..., -3.3447e-02,
+          3.3331e-04, -9.8495e-03],
+        [-8.9884e-04,  2.6493e-03,  5.9634e-05,  ...,  8.6441e-03,
+          5.1117e-04,  6.3598e-05],
+        [ 2.5415e-04, -1.1377e-03,  3.6645e-04,  ...,  3.0880e-03,
+          8.0204e-04, -8.6451e-04]], device='cuda:0')
+Epoch 145, bias, value: tensor([-0.0208,  0.0251,  0.0039, -0.0087,  0.0198, -0.0319,  0.0109, -0.0044,
+        -0.0005, -0.0104], device='cuda:0'), grad: tensor([ 0.0163,  0.0047,  0.0134, -0.0067, -0.0034, -0.0365,  0.0147, -0.0269,
+         0.0126,  0.0118], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 144, time 214.33, cls_loss 0.6626 cls_loss_mapping 0.0088 cls_loss_causal 0.5725 re_mapping 0.0134 re_causal 0.0307 /// teacc 98.51 lr 0.00010000
+Epoch 146, weight, value: tensor([[-0.0588, -0.0857, -0.0751,  ..., -0.0262,  0.0454, -0.0813],
+        [-0.0493, -0.0694, -0.0492,  ...,  0.0916, -0.0285,  0.1705],
+        [ 0.0107, -0.0193, -0.0250,  ..., -0.0122, -0.0105, -0.0567],
+        ...,
+        [ 0.0172, -0.0748,  0.1274,  ...,  0.0200, -0.0669,  0.0364],
+        [-0.0253,  0.0459, -0.1057,  ..., -0.0452,  0.0030, -0.0671],
+        [-0.0534,  0.0662,  0.0527,  ..., -0.0454, -0.0274, -0.0145]],
+       device='cuda:0'), grad: tensor([[ 1.2204e-05, -3.2043e-03, -3.6449e-03,  ..., -1.3756e-02,
+          1.8686e-05, -5.7526e-03],
+        [ 1.9610e-05,  1.3673e-04,  1.4648e-03,  ..., -2.8820e-03,
+          5.5254e-05,  9.9087e-04],
+        [ 5.9269e-06, -7.2575e-04, -4.0507e-04,  ..., -9.8953e-03,
+         -3.9911e-04,  3.6287e-04],
+        ...,
+        [-4.2038e-03,  1.5545e-03,  5.5466e-03,  ...,  2.3804e-02,
+          7.6234e-05,  2.4246e-02],
+        [ 3.8356e-05,  7.1335e-03,  4.0817e-03,  ...,  1.1948e-02,
+          1.5306e-04,  2.6474e-03],
+        [ 3.9597e-03, -1.3046e-03,  3.5648e-03,  ..., -2.0905e-03,
+          6.6049e-06,  2.6302e-03]], device='cuda:0')
+Epoch 146, bias, value: tensor([-0.0201,  0.0243,  0.0032, -0.0078,  0.0191, -0.0311,  0.0107, -0.0045,
+        -0.0005, -0.0103], device='cuda:0'), grad: tensor([-0.0502, -0.0053, -0.0178, -0.0490,  0.0018,  0.0057, -0.0023,  0.0880,
+         0.0350, -0.0058], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 145, time 214.43, cls_loss 0.6596 cls_loss_mapping 0.0113 cls_loss_causal 0.5645 re_mapping 0.0139 re_causal 0.0297 /// teacc 98.39 lr 0.00010000
+Epoch 147, weight, value: tensor([[-0.0598, -0.0866, -0.0751,  ..., -0.0264,  0.0452, -0.0811],
+        [-0.0486, -0.0698, -0.0478,  ...,  0.0929, -0.0278,  0.1722],
+        [ 0.0108, -0.0182, -0.0258,  ..., -0.0114, -0.0103, -0.0571],
+        ...,
+        [ 0.0179, -0.0761,  0.1283,  ...,  0.0190, -0.0669,  0.0352],
+        [-0.0244,  0.0460, -0.1064,  ..., -0.0452,  0.0026, -0.0663],
+        [-0.0551,  0.0649,  0.0517,  ..., -0.0447, -0.0275, -0.0153]],
+       device='cuda:0'), grad: tensor([[ 8.7976e-05,  1.1292e-02,  9.5081e-04,  ..., -5.1727e-03,
+          3.3234e-02, -4.3654e-04],
+        [ 2.6441e-04,  1.6298e-03,  2.2564e-03,  ...,  1.5182e-02,
+          5.6982e-04,  2.1347e-02],
+        [ 4.2772e-04,  8.2779e-04,  1.7033e-03,  ...,  5.5275e-03,
+          2.0218e-03,  2.9926e-03],
+        ...,
+        [-3.3607e-03, -4.6959e-03, -2.1713e-02,  ..., -3.9215e-02,
+          8.2791e-05, -1.4099e-02],
+        [-9.1374e-05,  2.0943e-03,  1.6251e-03,  ..., -7.4425e-03,
+         -5.0259e-04, -2.5208e-02],
+        [ 1.0948e-03, -3.7670e-03,  7.1602e-03,  ...,  1.4008e-02,
+          3.0971e-04,  6.5498e-03]], device='cuda:0')
+Epoch 147, bias, value: tensor([-0.0203,  0.0247,  0.0039, -0.0082,  0.0186, -0.0302,  0.0103, -0.0051,
+        -0.0002, -0.0103], device='cuda:0'), grad: tensor([ 0.0150,  0.0502,  0.0196,  0.0342,  0.0406, -0.0718,  0.0057, -0.0895,
+        -0.0301,  0.0261], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 146----------------------------------------------------
+epoch 146, time 230.51, cls_loss 0.6111 cls_loss_mapping 0.0105 cls_loss_causal 0.5259 re_mapping 0.0140 re_causal 0.0301 /// teacc 98.66 lr 0.00010000
+Epoch 148, weight, value: tensor([[-0.0611, -0.0873, -0.0763,  ..., -0.0269,  0.0457, -0.0812],
+        [-0.0492, -0.0705, -0.0468,  ...,  0.0937, -0.0280,  0.1727],
+        [ 0.0107, -0.0171, -0.0245,  ..., -0.0115, -0.0103, -0.0571],
+        ...,
+        [ 0.0182, -0.0770,  0.1289,  ...,  0.0197, -0.0673,  0.0351],
+        [-0.0236,  0.0458, -0.1066,  ..., -0.0442,  0.0038, -0.0655],
+        [-0.0550,  0.0655,  0.0495,  ..., -0.0450, -0.0276, -0.0157]],
+       device='cuda:0'), grad: tensor([[ 8.0705e-05,  4.7994e-04,  2.9135e-04,  ...,  5.8403e-03,
+          1.8368e-03,  1.0872e-03],
+        [ 1.7238e-04,  9.8705e-04, -2.9011e-03,  ..., -4.4327e-03,
+          1.3580e-03, -2.8877e-03],
+        [-6.8045e-04,  1.3828e-03,  1.1759e-03,  ...,  4.3755e-03,
+          8.2111e-04,  1.2341e-03],
+        ...,
+        [-3.5286e-03, -8.0490e-03, -3.9062e-03,  ..., -4.6158e-03,
+          1.2159e-03, -4.9257e-04],
+        [ 1.8129e-03,  5.3101e-03,  3.6755e-03,  ..., -6.6566e-03,
+          1.9121e-03, -4.8637e-03],
+        [ 6.8712e-04, -4.9072e-02, -3.1013e-03,  ...,  5.4054e-03,
+         -9.4299e-03,  8.6670e-03]], device='cuda:0')
+Epoch 148, bias, value: tensor([-0.0202,  0.0253,  0.0038, -0.0078,  0.0188, -0.0318,  0.0097, -0.0049,
+         0.0005, -0.0104], device='cuda:0'), grad: tensor([ 0.0150, -0.0116,  0.0132,  0.0087, -0.0143, -0.0082,  0.0149, -0.0151,
+         0.0082, -0.0109], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 147, time 214.59, cls_loss 0.6284 cls_loss_mapping 0.0089 cls_loss_causal 0.5393 re_mapping 0.0141 re_causal 0.0327 /// teacc 98.48 lr 0.00010000
+Epoch 149, weight, value: tensor([[-0.0620, -0.0887, -0.0789,  ..., -0.0269,  0.0458, -0.0820],
+        [-0.0491, -0.0707, -0.0462,  ...,  0.0945, -0.0287,  0.1731],
+        [ 0.0114, -0.0177, -0.0223,  ..., -0.0111, -0.0106, -0.0567],
+        ...,
+        [ 0.0174, -0.0770,  0.1291,  ...,  0.0198, -0.0672,  0.0355],
+        [-0.0239,  0.0465, -0.1079,  ..., -0.0439,  0.0049, -0.0668],
+        [-0.0541,  0.0654,  0.0481,  ..., -0.0456, -0.0282, -0.0164]],
+       device='cuda:0'), grad: tensor([[ 7.3202e-07, -1.0061e-03, -4.0665e-03,  ..., -4.7188e-03,
+          4.5657e-05, -2.8572e-03],
+        [ 7.0110e-06,  1.0090e-03,  1.0786e-03,  ...,  6.8970e-03,
+          1.8165e-05,  4.8280e-04],
+        [ 2.5094e-05,  2.3270e-03,  1.7309e-03,  ..., -7.1716e-03,
+          3.1877e-04,  6.4325e-04],
+        ...,
+        [ 7.9393e-04,  8.7357e-03, -2.0790e-03,  ..., -3.7212e-03,
+          2.7132e-04,  1.7014e-03],
+        [ 6.6102e-05, -1.8799e-04,  2.6245e-03,  ..., -6.0806e-03,
+          5.8365e-04, -1.9569e-03],
+        [-1.0319e-03, -1.0246e-02,  1.6642e-03,  ...,  4.6310e-03,
+          3.9959e-04, -2.8825e-04]], device='cuda:0')
+Epoch 149, bias, value: tensor([-0.0206,  0.0254,  0.0049, -0.0078,  0.0186, -0.0323,  0.0087, -0.0043,
+         0.0011, -0.0108], device='cuda:0'), grad: tensor([-1.1955e-02,  2.2125e-02,  3.9637e-05,  5.3329e-03, -4.2686e-03,
+         2.5711e-02, -1.5068e-02,  2.3918e-03, -2.8900e-02,  4.6196e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 148, time 214.39, cls_loss 0.6221 cls_loss_mapping 0.0115 cls_loss_causal 0.5204 re_mapping 0.0141 re_causal 0.0302 /// teacc 98.51 lr 0.00010000
+Epoch 150, weight, value: tensor([[-0.0636, -0.0899, -0.0788,  ..., -0.0276,  0.0466, -0.0829],
+        [-0.0481, -0.0693, -0.0476,  ...,  0.0947, -0.0294,  0.1726],
+        [ 0.0120, -0.0177, -0.0223,  ..., -0.0115, -0.0109, -0.0573],
+        ...,
+        [ 0.0173, -0.0778,  0.1300,  ...,  0.0217, -0.0669,  0.0364],
+        [-0.0260,  0.0468, -0.1091,  ..., -0.0448,  0.0058, -0.0664],
+        [-0.0538,  0.0667,  0.0491,  ..., -0.0451, -0.0286, -0.0164]],
+       device='cuda:0'), grad: tensor([[ 1.1003e-04,  1.7691e-04,  1.0338e-03,  ...,  4.1389e-03,
+          9.8133e-04,  2.0170e-04],
+        [-3.3302e-03,  2.7442e-04, -3.3417e-03,  ..., -1.3901e-02,
+          3.5733e-05,  2.0361e-04],
+        [ 7.4387e-04, -8.9312e-04, -2.5501e-03,  ..., -7.3051e-03,
+         -4.4136e-03,  4.9543e-04],
+        ...,
+        [ 4.3511e-04, -8.9645e-04, -1.0462e-03,  ..., -6.7673e-03,
+          4.4465e-05, -1.8341e-02],
+        [ 3.9697e-04, -2.4292e-02,  1.1557e-04,  ...,  3.9444e-03,
+          1.4753e-03,  1.2941e-03],
+        [ 2.4283e-04, -3.3450e-04, -1.1873e-03,  ..., -6.9771e-03,
+          3.7432e-05, -1.5373e-03]], device='cuda:0')
+Epoch 150, bias, value: tensor([-0.0210,  0.0252,  0.0045, -0.0094,  0.0192, -0.0319,  0.0092, -0.0033,
+         0.0010, -0.0106], device='cuda:0'), grad: tensor([ 0.0100, -0.0409, -0.0126,  0.0282,  0.0185,  0.0207,  0.0179, -0.0195,
+        -0.0152, -0.0072], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 149, time 214.42, cls_loss 0.6181 cls_loss_mapping 0.0116 cls_loss_causal 0.5344 re_mapping 0.0140 re_causal 0.0309 /// teacc 98.65 lr 0.00010000
+Epoch 151, weight, value: tensor([[-0.0639, -0.0883, -0.0800,  ..., -0.0276,  0.0463, -0.0835],
+        [-0.0501, -0.0713, -0.0482,  ...,  0.0935, -0.0301,  0.1735],
+        [ 0.0117, -0.0174, -0.0226,  ..., -0.0115, -0.0100, -0.0568],
+        ...,
+        [ 0.0178, -0.0771,  0.1304,  ...,  0.0220, -0.0672,  0.0365],
+        [-0.0256,  0.0464, -0.1095,  ..., -0.0444,  0.0046, -0.0666],
+        [-0.0527,  0.0669,  0.0492,  ..., -0.0459, -0.0276, -0.0163]],
+       device='cuda:0'), grad: tensor([[ 3.6787e-07,  4.8327e-04, -4.5970e-06,  ..., -2.9488e-03,
+          2.8248e-03,  9.2840e-04],
+        [ 3.3583e-06,  3.1662e-04,  1.8339e-03,  ..., -1.2569e-03,
+          5.9509e-04,  9.1324e-03],
+        [-7.7546e-05,  3.2759e-04,  2.3842e-03,  ...,  2.7893e-02,
+          8.9169e-04,  4.7565e-04],
+        ...,
+        [ 1.9204e-06,  8.6212e-04,  1.4257e-03,  ...,  1.1702e-03,
+          3.9215e-03,  7.8201e-04],
+        [ 6.6698e-05,  1.0405e-03, -1.3361e-03,  ..., -3.6804e-02,
+          6.4039e-04, -1.2619e-02],
+        [-1.4529e-06,  7.3242e-04,  3.4580e-03,  ...,  5.5656e-03,
+          2.8839e-03,  4.8757e-04]], device='cuda:0')
+Epoch 151, bias, value: tensor([-0.0216,  0.0242,  0.0052, -0.0093,  0.0189, -0.0309,  0.0096, -0.0033,
+         0.0005, -0.0105], device='cuda:0'), grad: tensor([-0.0003,  0.0181,  0.0461, -0.0093, -0.0227,  0.0244, -0.0309,  0.0064,
+        -0.0590,  0.0272], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 150, time 214.44, cls_loss 0.6042 cls_loss_mapping 0.0092 cls_loss_causal 0.5135 re_mapping 0.0141 re_causal 0.0309 /// teacc 98.64 lr 0.00010000
+Epoch 152, weight, value: tensor([[-0.0646, -0.0878, -0.0790,  ..., -0.0266,  0.0465, -0.0849],
+        [-0.0507, -0.0712, -0.0484,  ...,  0.0938, -0.0313,  0.1743],
+        [ 0.0110, -0.0176, -0.0239,  ..., -0.0112, -0.0098, -0.0571],
+        ...,
+        [ 0.0177, -0.0766,  0.1321,  ...,  0.0214, -0.0670,  0.0368],
+        [-0.0239,  0.0462, -0.1106,  ..., -0.0446,  0.0042, -0.0662],
+        [-0.0528,  0.0667,  0.0494,  ..., -0.0458, -0.0281, -0.0165]],
+       device='cuda:0'), grad: tensor([[-1.1017e-02, -1.3046e-02, -2.1515e-02,  ...,  1.7347e-03,
+          1.7095e-04,  9.5367e-05],
+        [-2.3201e-05, -4.5586e-03,  9.5749e-04,  ..., -2.6035e-03,
+          5.5790e-04, -5.2490e-03],
+        [ 1.2070e-04,  1.3885e-03,  2.2278e-03,  ...,  4.8714e-03,
+          1.4782e-03,  2.9135e-04],
+        ...,
+        [ 2.9411e-06, -3.2940e-03, -7.9422e-03,  ..., -1.8356e-02,
+         -3.7518e-03,  2.2296e-06],
+        [ 1.6570e-04,  2.0275e-03,  8.7261e-04,  ...,  3.6144e-03,
+          3.0565e-04,  1.7023e-03],
+        [ 1.8671e-05,  1.0424e-03,  1.1597e-03,  ...,  3.7231e-03,
+          4.7636e-04,  4.5252e-04]], device='cuda:0')
+Epoch 152, bias, value: tensor([-0.0203,  0.0240,  0.0049, -0.0096,  0.0192, -0.0305,  0.0098, -0.0042,
+         0.0003, -0.0105], device='cuda:0'), grad: tensor([-0.0497, -0.0045,  0.0223,  0.0462, -0.0137,  0.0181,  0.0233, -0.0765,
+         0.0177,  0.0168], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 151, time 214.38, cls_loss 0.5993 cls_loss_mapping 0.0111 cls_loss_causal 0.5268 re_mapping 0.0134 re_causal 0.0293 /// teacc 98.44 lr 0.00010000
+Epoch 153, weight, value: tensor([[-0.0631, -0.0885, -0.0782,  ..., -0.0269,  0.0461, -0.0850],
+        [-0.0504, -0.0711, -0.0482,  ...,  0.0938, -0.0319,  0.1745],
+        [ 0.0112, -0.0175, -0.0248,  ..., -0.0112, -0.0099, -0.0565],
+        ...,
+        [ 0.0183, -0.0779,  0.1291,  ...,  0.0211, -0.0671,  0.0366],
+        [-0.0244,  0.0466, -0.1130,  ..., -0.0448,  0.0051, -0.0666],
+        [-0.0536,  0.0660,  0.0501,  ..., -0.0457, -0.0286, -0.0163]],
+       device='cuda:0'), grad: tensor([[-2.1992e-03, -1.7338e-03, -3.2291e-03,  ..., -4.4785e-03,
+         -4.9286e-03, -7.3195e-04],
+        [ 4.3082e-04, -4.4975e-03, -6.1655e-04,  ..., -5.6763e-03,
+         -4.8470e-04, -2.5253e-03],
+        [ 1.5297e-03,  5.8327e-03,  5.5313e-03,  ...,  9.2316e-03,
+          2.7313e-03,  1.3506e-04],
+        ...,
+        [ 6.2466e-04,  1.2827e-03,  8.4829e-04,  ..., -6.8016e-03,
+          5.9223e-04, -2.9907e-05],
+        [ 1.1425e-03,  1.0170e-02,  5.8136e-03,  ...,  9.0179e-03,
+          3.9787e-03,  7.4911e-04],
+        [ 8.4782e-04, -1.6129e-02, -1.5533e-02,  ..., -8.3008e-03,
+          6.5804e-04,  1.2445e-04]], device='cuda:0')
+Epoch 153, bias, value: tensor([-0.0207,  0.0247,  0.0048, -0.0095,  0.0190, -0.0304,  0.0101, -0.0045,
+        -0.0001, -0.0104], device='cuda:0'), grad: tensor([-0.0041, -0.0244,  0.0205, -0.0129, -0.0095,  0.0654, -0.0376, -0.0310,
+         0.0493, -0.0156], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 152, time 214.38, cls_loss 0.6190 cls_loss_mapping 0.0108 cls_loss_causal 0.5289 re_mapping 0.0130 re_causal 0.0298 /// teacc 98.58 lr 0.00010000
+Epoch 154, weight, value: tensor([[-0.0640, -0.0881, -0.0791,  ..., -0.0273,  0.0459, -0.0855],
+        [-0.0489, -0.0720, -0.0497,  ...,  0.0937, -0.0304,  0.1756],
+        [ 0.0117, -0.0179, -0.0253,  ..., -0.0111, -0.0100, -0.0562],
+        ...,
+        [ 0.0181, -0.0776,  0.1298,  ...,  0.0216, -0.0667,  0.0353],
+        [-0.0256,  0.0457, -0.1133,  ..., -0.0453,  0.0062, -0.0681],
+        [-0.0548,  0.0663,  0.0520,  ..., -0.0457, -0.0287, -0.0149]],
+       device='cuda:0'), grad: tensor([[ 9.6178e-04,  1.6069e-03,  1.9197e-03,  ...,  4.2229e-03,
+          3.1441e-05, -1.0902e-04],
+        [ 4.2939e-04, -7.0000e-04, -4.4250e-02,  ..., -1.2718e-02,
+         -2.1410e-04, -1.2306e-02],
+        [ 1.0300e-03,  9.6655e-04,  3.7766e-03,  ...,  4.6272e-03,
+          3.4928e-05,  1.6851e-03],
+        ...,
+        [ 1.3676e-03,  1.6298e-03,  3.8330e-02,  ...,  1.3298e-02,
+          1.6183e-05,  9.6817e-03],
+        [-1.2226e-03, -4.1008e-05, -5.5933e-04,  ..., -1.6708e-03,
+          2.3112e-05, -1.1978e-03],
+        [-3.1614e-04, -4.1656e-03,  2.2087e-03,  ..., -1.0620e-02,
+          4.5955e-05, -3.4103e-03]], device='cuda:0')
+Epoch 154, bias, value: tensor([-0.0212,  0.0254,  0.0046, -0.0098,  0.0198, -0.0306,  0.0105, -0.0048,
+        -0.0002, -0.0107], device='cuda:0'), grad: tensor([ 0.0115, -0.0601,  0.0181, -0.0156,  0.0337,  0.0079, -0.0107,  0.0635,
+        -0.0033, -0.0449], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 153, time 214.22, cls_loss 0.6143 cls_loss_mapping 0.0089 cls_loss_causal 0.5258 re_mapping 0.0130 re_causal 0.0283 /// teacc 98.61 lr 0.00010000
+Epoch 155, weight, value: tensor([[-0.0633, -0.0879, -0.0792,  ..., -0.0276,  0.0471, -0.0846],
+        [-0.0496, -0.0729, -0.0495,  ...,  0.0946, -0.0310,  0.1761],
+        [ 0.0114, -0.0182, -0.0246,  ..., -0.0109, -0.0104, -0.0557],
+        ...,
+        [ 0.0170, -0.0782,  0.1294,  ...,  0.0210, -0.0667,  0.0359],
+        [-0.0255,  0.0473, -0.1142,  ..., -0.0457,  0.0059, -0.0689],
+        [-0.0528,  0.0662,  0.0514,  ..., -0.0456, -0.0292, -0.0162]],
+       device='cuda:0'), grad: tensor([[ 9.3162e-05,  4.8161e-04,  4.6611e-04,  ..., -1.1833e-02,
+          5.9223e-04, -8.3256e-04],
+        [-2.9335e-03, -3.5019e-03, -7.9041e-03,  ..., -1.0101e-02,
+          2.6584e-05, -5.8250e-03],
+        [ 7.6818e-04,  2.6054e-03,  2.0599e-03,  ...,  5.6343e-03,
+          1.9395e-04,  5.0306e-04],
+        ...,
+        [ 7.7581e-04,  5.7697e-05, -5.9395e-03,  ...,  9.5272e-04,
+         -2.5201e-04,  1.6718e-03],
+        [ 5.0974e-04,  1.4925e-03,  2.8439e-03,  ..., -5.4893e-03,
+          5.2643e-04,  9.0599e-04],
+        [ 1.2026e-03,  3.7994e-02,  1.1072e-03,  ...,  1.8978e-03,
+          1.0538e-04,  1.1387e-03]], device='cuda:0')
+Epoch 155, bias, value: tensor([-0.0205,  0.0259,  0.0047, -0.0099,  0.0206, -0.0300,  0.0088, -0.0055,
+        -0.0007, -0.0104], device='cuda:0'), grad: tensor([-0.0369, -0.0377,  0.0279,  0.0250, -0.0301,  0.0221,  0.0327, -0.0116,
+        -0.0347,  0.0433], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 154, time 214.21, cls_loss 0.6219 cls_loss_mapping 0.0070 cls_loss_causal 0.5372 re_mapping 0.0130 re_causal 0.0309 /// teacc 98.56 lr 0.00010000
+Epoch 156, weight, value: tensor([[-0.0628, -0.0884, -0.0780,  ..., -0.0277,  0.0475, -0.0833],
+        [-0.0494, -0.0734, -0.0503,  ...,  0.0952, -0.0313,  0.1763],
+        [ 0.0104, -0.0179, -0.0251,  ..., -0.0104, -0.0102, -0.0558],
+        ...,
+        [ 0.0173, -0.0792,  0.1297,  ...,  0.0206, -0.0663,  0.0357],
+        [-0.0253,  0.0466, -0.1147,  ..., -0.0462,  0.0060, -0.0679],
+        [-0.0525,  0.0663,  0.0527,  ..., -0.0443, -0.0305, -0.0158]],
+       device='cuda:0'), grad: tensor([[ 2.6643e-05,  7.8011e-04,  6.5184e-04,  ...,  6.4201e-03,
+         -1.1238e-02,  5.6305e-03],
+        [ 1.1235e-05, -4.9362e-03,  1.1215e-03,  ..., -1.4862e-02,
+         -1.5144e-03, -5.2547e-04],
+        [ 5.8621e-05,  4.3793e-03,  1.1406e-03,  ...,  7.9193e-03,
+          2.7523e-03,  2.3746e-03],
+        ...,
+        [ 8.9049e-05,  6.2180e-04,  1.6317e-03,  ...,  7.8506e-03,
+          2.8181e-04, -1.4191e-02],
+        [ 4.2748e-04,  2.4624e-03, -4.7340e-03,  ..., -6.1607e-03,
+          4.6959e-03,  1.5936e-03],
+        [-1.9703e-03, -1.2732e-03, -3.5839e-03,  ...,  4.9553e-03,
+          1.7900e-03,  1.4839e-03]], device='cuda:0')
+Epoch 156, bias, value: tensor([-0.0208,  0.0270,  0.0046, -0.0101,  0.0190, -0.0302,  0.0092, -0.0055,
+        -0.0009, -0.0093], device='cuda:0'), grad: tensor([ 0.0171, -0.0280,  0.0342, -0.0280, -0.0060,  0.0141, -0.0020, -0.0106,
+        -0.0030,  0.0124], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 155, time 214.48, cls_loss 0.6112 cls_loss_mapping 0.0106 cls_loss_causal 0.5283 re_mapping 0.0127 re_causal 0.0289 /// teacc 98.59 lr 0.00010000
+Epoch 157, weight, value: tensor([[-0.0636, -0.0891, -0.0773,  ..., -0.0278,  0.0488, -0.0836],
+        [-0.0501, -0.0743, -0.0499,  ...,  0.0946, -0.0313,  0.1767],
+        [ 0.0107, -0.0165, -0.0244,  ..., -0.0104, -0.0089, -0.0560],
+        ...,
+        [ 0.0185, -0.0795,  0.1299,  ...,  0.0201, -0.0666,  0.0370],
+        [-0.0251,  0.0468, -0.1151,  ..., -0.0460,  0.0061, -0.0688],
+        [-0.0526,  0.0654,  0.0519,  ..., -0.0455, -0.0311, -0.0166]],
+       device='cuda:0'), grad: tensor([[ 6.4895e-06,  7.6294e-04,  7.2813e-04,  ...,  1.3672e-02,
+          1.2026e-03,  1.5676e-04],
+        [ 1.3813e-05,  3.5744e-03,  5.0879e-04,  ...,  3.3112e-02,
+          3.7169e-04,  1.1200e-04],
+        [ 8.4829e-04,  7.3957e-04,  7.5226e-03,  ..., -6.6681e-03,
+          5.1498e-03,  1.5821e-03],
+        ...,
+        [-9.3365e-04,  2.1133e-03,  6.6185e-03,  ..., -3.9902e-03,
+          1.1322e-02, -1.5182e-03],
+        [ 2.3112e-05, -1.3702e-02,  2.1362e-03,  ..., -2.3575e-02,
+          5.8479e-03,  2.1350e-04],
+        [-3.3587e-05,  1.8139e-03,  7.6027e-03,  ..., -3.9825e-03,
+          2.8801e-03, -7.6008e-04]], device='cuda:0')
+Epoch 157, bias, value: tensor([-0.0208,  0.0265,  0.0055, -0.0110,  0.0191, -0.0300,  0.0100, -0.0056,
+        -0.0003, -0.0102], device='cuda:0'), grad: tensor([ 0.0307,  0.0305, -0.0034, -0.0126, -0.0163,  0.0244, -0.0342,  0.0010,
+        -0.0265,  0.0064], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 156, time 214.29, cls_loss 0.6337 cls_loss_mapping 0.0116 cls_loss_causal 0.5443 re_mapping 0.0129 re_causal 0.0281 /// teacc 98.39 lr 0.00010000
+Epoch 158, weight, value: tensor([[-0.0644, -0.0909, -0.0776,  ..., -0.0283,  0.0486, -0.0831],
+        [-0.0503, -0.0736, -0.0499,  ...,  0.0947, -0.0314,  0.1776],
+        [ 0.0109, -0.0172, -0.0238,  ..., -0.0103, -0.0090, -0.0566],
+        ...,
+        [ 0.0193, -0.0805,  0.1301,  ...,  0.0194, -0.0667,  0.0368],
+        [-0.0251,  0.0485, -0.1167,  ..., -0.0453,  0.0057, -0.0693],
+        [-0.0536,  0.0645,  0.0518,  ..., -0.0465, -0.0313, -0.0163]],
+       device='cuda:0'), grad: tensor([[ 1.1735e-06,  1.3285e-03,  4.6825e-04,  ...,  6.6147e-03,
+         -2.7313e-03,  2.5558e-03],
+        [ 2.6375e-06,  3.2687e-04,  6.2883e-05,  ..., -3.1891e-02,
+          3.6168e-04, -1.4442e-02],
+        [ 2.2739e-05,  2.7895e-04, -7.0906e-04,  ...,  5.6152e-03,
+          7.9060e-04,  2.0008e-03],
+        ...,
+        [ 3.7402e-06,  4.6492e-04, -1.9968e-05,  ...,  8.4000e-03,
+          2.7132e-04,  1.2960e-03],
+        [-7.0520e-06, -2.5139e-03,  1.6565e-03,  ...,  1.0300e-02,
+          8.8263e-04,  1.6689e-03],
+        [ 2.9981e-05, -5.9052e-03,  7.7772e-04,  ...,  5.4016e-03,
+          8.9073e-04, -1.2367e-02]], device='cuda:0')
+Epoch 158, bias, value: tensor([-2.0801e-02,  2.6678e-02,  5.1584e-03, -1.0649e-02,  1.9775e-02,
+        -2.9717e-02,  9.4442e-03, -6.0179e-03,  5.5559e-05, -1.0768e-02],
+       device='cuda:0'), grad: tensor([ 0.0139, -0.0572,  0.0056, -0.0779,  0.0005,  0.0248,  0.0351,  0.0262,
+         0.0268,  0.0020], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 157, time 214.54, cls_loss 0.5840 cls_loss_mapping 0.0110 cls_loss_causal 0.4949 re_mapping 0.0128 re_causal 0.0282 /// teacc 98.53 lr 0.00010000
+Epoch 159, weight, value: tensor([[-0.0661, -0.0914, -0.0774,  ..., -0.0278,  0.0497, -0.0842],
+        [-0.0508, -0.0742, -0.0501,  ...,  0.0958, -0.0321,  0.1781],
+        [ 0.0123, -0.0174, -0.0237,  ..., -0.0112, -0.0093, -0.0573],
+        ...,
+        [ 0.0189, -0.0796,  0.1303,  ...,  0.0198, -0.0654,  0.0370],
+        [-0.0264,  0.0471, -0.1184,  ..., -0.0469,  0.0057, -0.0702],
+        [-0.0529,  0.0654,  0.0515,  ..., -0.0464, -0.0320, -0.0155]],
+       device='cuda:0'), grad: tensor([[ 1.0710e-03,  1.7633e-03,  7.7534e-04,  ..., -1.1734e-02,
+          3.2978e-03,  3.8052e-04],
+        [ 1.7071e-03,  6.6221e-05,  2.8400e-03,  ...,  4.7150e-03,
+          4.7073e-03, -1.1282e-03],
+        [ 1.2169e-03,  3.9940e-03,  4.4899e-03,  ...,  2.0828e-02,
+          2.8400e-03,  7.9155e-04],
+        ...,
+        [ 8.0252e-04, -2.2171e-02,  1.0033e-03,  ...,  9.4795e-04,
+          1.2236e-03, -4.9934e-03],
+        [ 1.8702e-03, -2.1439e-02, -1.4229e-02,  ..., -1.0498e-02,
+         -1.4458e-02, -4.8351e-04],
+        [ 1.8396e-03,  1.3145e-02,  8.3351e-04,  ...,  7.3433e-03,
+          1.0328e-03,  2.8915e-03]], device='cuda:0')
+Epoch 159, bias, value: tensor([-0.0205,  0.0270,  0.0045, -0.0107,  0.0203, -0.0294,  0.0092, -0.0056,
+        -0.0005, -0.0112], device='cuda:0'), grad: tensor([-0.0116,  0.0122,  0.0538,  0.0035, -0.0646, -0.0087,  0.0361, -0.0247,
+        -0.0195,  0.0234], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 158, time 214.21, cls_loss 0.5987 cls_loss_mapping 0.0075 cls_loss_causal 0.5201 re_mapping 0.0127 re_causal 0.0287 /// teacc 98.47 lr 0.00010000
+Epoch 160, weight, value: tensor([[-0.0651, -0.0922, -0.0767,  ..., -0.0267,  0.0489, -0.0847],
+        [-0.0504, -0.0748, -0.0512,  ...,  0.0949, -0.0329,  0.1782],
+        [ 0.0118, -0.0160, -0.0235,  ..., -0.0107, -0.0111, -0.0577],
+        ...,
+        [ 0.0185, -0.0804,  0.1308,  ...,  0.0191, -0.0662,  0.0374],
+        [-0.0273,  0.0467, -0.1182,  ..., -0.0468,  0.0067, -0.0697],
+        [-0.0526,  0.0671,  0.0511,  ..., -0.0472, -0.0321, -0.0158]],
+       device='cuda:0'), grad: tensor([[ 5.6922e-05, -1.7662e-03,  1.7357e-04,  ..., -6.5117e-03,
+         -6.1178e-04, -1.1749e-02],
+        [ 6.0022e-05,  2.2054e-04, -3.5596e-04,  ..., -8.3313e-03,
+          3.6001e-05, -4.3755e-03],
+        [ 8.5771e-05,  2.2972e-04,  5.3482e-03,  ...,  4.1161e-03,
+          3.0589e-04,  4.3755e-03],
+        ...,
+        [-1.3247e-03, -5.8937e-03, -1.3969e-02,  ...,  1.8816e-03,
+          1.9725e-06,  1.2312e-03],
+        [ 1.5056e-04,  1.1997e-03,  8.0919e-04,  ..., -1.0689e-02,
+          1.0586e-03, -2.0046e-03],
+        [ 1.3762e-03,  5.4550e-03,  6.0730e-03,  ...,  6.7062e-03,
+          4.0913e-04,  2.8267e-03]], device='cuda:0')
+Epoch 160, bias, value: tensor([-0.0200,  0.0269,  0.0037, -0.0098,  0.0211, -0.0295,  0.0084, -0.0058,
+        -0.0001, -0.0117], device='cuda:0'), grad: tensor([-0.0484, -0.0172,  0.0200, -0.0115, -0.0046,  0.0266,  0.0244, -0.0315,
+         0.0002,  0.0420], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 159----------------------------------------------------
+epoch 159, time 230.93, cls_loss 0.6082 cls_loss_mapping 0.0101 cls_loss_causal 0.5282 re_mapping 0.0128 re_causal 0.0286 /// teacc 98.68 lr 0.00010000
+Epoch 161, weight, value: tensor([[-0.0653, -0.0938, -0.0785,  ..., -0.0267,  0.0478, -0.0849],
+        [-0.0514, -0.0750, -0.0491,  ...,  0.0953, -0.0322,  0.1784],
+        [ 0.0125, -0.0167, -0.0257,  ..., -0.0111, -0.0120, -0.0574],
+        ...,
+        [ 0.0197, -0.0783,  0.1331,  ...,  0.0207, -0.0648,  0.0378],
+        [-0.0282,  0.0470, -0.1178,  ..., -0.0482,  0.0078, -0.0701],
+        [-0.0522,  0.0656,  0.0505,  ..., -0.0464, -0.0329, -0.0158]],
+       device='cuda:0'), grad: tensor([[ 3.2878e-04, -8.8310e-04,  1.3933e-05,  ...,  3.1447e-04,
+         -6.8247e-05, -7.7295e-04],
+        [ 7.4029e-05,  6.9475e-04,  6.8951e-04,  ..., -4.5319e-03,
+          7.0315e-07, -1.1510e-04],
+        [-4.6883e-03, -1.9928e-02, -1.5335e-02,  ..., -1.1375e-02,
+          1.5721e-05,  4.8375e-04],
+        ...,
+        [-1.5125e-03,  2.0275e-03,  4.4584e-04,  ...,  3.5686e-03,
+          5.4389e-07,  1.2505e-04],
+        [ 4.7159e-04,  1.1490e-02, -2.7905e-03,  ..., -1.1377e-03,
+          3.9756e-05,  9.3579e-05],
+        [ 1.2245e-03, -2.0256e-03,  5.0507e-03,  ...,  8.1015e-04,
+          5.0999e-06,  3.3355e-04]], device='cuda:0')
+Epoch 161, bias, value: tensor([-0.0208,  0.0266,  0.0044, -0.0096,  0.0205, -0.0295,  0.0084, -0.0052,
+        -0.0006, -0.0112], device='cuda:0'), grad: tensor([-0.0044, -0.0191, -0.0610,  0.0449, -0.0272,  0.0237,  0.0127,  0.0086,
+        -0.0089,  0.0308], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 160, time 214.32, cls_loss 0.5948 cls_loss_mapping 0.0084 cls_loss_causal 0.5122 re_mapping 0.0136 re_causal 0.0299 /// teacc 98.54 lr 0.00010000
+Epoch 162, weight, value: tensor([[-0.0640, -0.0911, -0.0782,  ..., -0.0272,  0.0481, -0.0856],
+        [-0.0512, -0.0743, -0.0490,  ...,  0.0956, -0.0324,  0.1792],
+        [ 0.0124, -0.0177, -0.0258,  ..., -0.0116, -0.0119, -0.0575],
+        ...,
+        [ 0.0196, -0.0786,  0.1329,  ...,  0.0207, -0.0646,  0.0379],
+        [-0.0289,  0.0478, -0.1183,  ..., -0.0482,  0.0084, -0.0715],
+        [-0.0529,  0.0653,  0.0509,  ..., -0.0464, -0.0326, -0.0155]],
+       device='cuda:0'), grad: tensor([[ 1.0180e-04,  1.5802e-03, -9.6035e-04,  ...,  4.7836e-03,
+          2.3317e-04,  2.0218e-04],
+        [ 6.7234e-05,  5.8508e-04,  3.6883e-04,  ...,  5.2910e-03,
+          2.3675e-04,  9.3102e-05],
+        [-7.8487e-04, -3.8795e-03, -4.9896e-03,  ..., -1.4206e-02,
+         -8.8692e-04,  3.7479e-04],
+        ...,
+        [ 2.2578e-04,  1.1606e-03,  1.1311e-03,  ...,  9.2163e-03,
+          5.8222e-04,  8.6403e-04],
+        [-3.2663e-04,  4.6234e-03, -2.3098e-03,  ...,  1.2108e-02,
+          1.7891e-03,  1.1911e-03],
+        [ 1.1545e-04,  2.1219e-04,  1.5640e-03,  ..., -1.3695e-02,
+         -7.4005e-04, -4.8447e-03]], device='cuda:0')
+Epoch 162, bias, value: tensor([-0.0203,  0.0269,  0.0043, -0.0102,  0.0199, -0.0301,  0.0096, -0.0051,
+        -0.0008, -0.0109], device='cuda:0'), grad: tensor([ 0.0055,  0.0172, -0.0334, -0.0037, -0.0142, -0.0329,  0.0283,  0.0288,
+         0.0383, -0.0339], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 161, time 214.11, cls_loss 0.5875 cls_loss_mapping 0.0095 cls_loss_causal 0.5011 re_mapping 0.0131 re_causal 0.0286 /// teacc 98.65 lr 0.00010000
+Epoch 163, weight, value: tensor([[-0.0633, -0.0917, -0.0780,  ..., -0.0276,  0.0466, -0.0859],
+        [-0.0514, -0.0744, -0.0490,  ...,  0.0965, -0.0325,  0.1796],
+        [ 0.0124, -0.0176, -0.0268,  ..., -0.0119, -0.0112, -0.0574],
+        ...,
+        [ 0.0202, -0.0799,  0.1336,  ...,  0.0205, -0.0650,  0.0370],
+        [-0.0288,  0.0474, -0.1180,  ..., -0.0484,  0.0088, -0.0730],
+        [-0.0532,  0.0662,  0.0506,  ..., -0.0471, -0.0327, -0.0143]],
+       device='cuda:0'), grad: tensor([[ 4.7833e-05,  2.2163e-03,  1.5032e-04,  ...,  5.1651e-03,
+         -4.2349e-05,  1.6391e-04],
+        [ 8.7619e-05,  2.8968e-04,  4.2343e-04,  ...,  3.9215e-03,
+          6.2399e-08,  5.5933e-04],
+        [-4.3654e-04,  5.9242e-03, -8.7214e-04,  ..., -4.2419e-03,
+          1.4693e-05, -1.0948e-03],
+        ...,
+        [ 1.5724e-04,  1.4725e-03, -2.6608e-04,  ...,  3.9558e-03,
+          4.7963e-07, -4.3893e-04],
+        [ 4.1902e-05,  5.2109e-03,  2.9969e-04,  ...,  7.4577e-03,
+          2.1160e-06,  1.8966e-04],
+        [ 9.4324e-06,  1.4138e-04,  4.5013e-04,  ..., -3.7022e-03,
+          3.8557e-06,  2.5892e-04]], device='cuda:0')
+Epoch 163, bias, value: tensor([-0.0207,  0.0279,  0.0038, -0.0111,  0.0209, -0.0291,  0.0095, -0.0060,
+        -0.0008, -0.0112], device='cuda:0'), grad: tensor([ 0.0193,  0.0158, -0.0186, -0.0292, -0.0089,  0.0292, -0.0253,  0.0128,
+         0.0269, -0.0219], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 162, time 214.24, cls_loss 0.6252 cls_loss_mapping 0.0091 cls_loss_causal 0.5403 re_mapping 0.0130 re_causal 0.0287 /// teacc 98.60 lr 0.00010000
+Epoch 164, weight, value: tensor([[-0.0642, -0.0921, -0.0789,  ..., -0.0285,  0.0470, -0.0858],
+        [-0.0523, -0.0740, -0.0496,  ...,  0.0961, -0.0327,  0.1791],
+        [ 0.0144, -0.0184, -0.0276,  ..., -0.0119, -0.0103, -0.0554],
+        ...,
+        [ 0.0199, -0.0800,  0.1342,  ...,  0.0203, -0.0653,  0.0368],
+        [-0.0295,  0.0477, -0.1186,  ..., -0.0481,  0.0089, -0.0737],
+        [-0.0528,  0.0665,  0.0512,  ..., -0.0467, -0.0333, -0.0144]],
+       device='cuda:0'), grad: tensor([[ 1.4954e-03,  1.1539e-03,  1.6708e-03,  ...,  5.6572e-03,
+          1.7738e-04,  8.4400e-04],
+        [ 1.4460e-04,  4.7684e-04,  1.6556e-03,  ..., -3.7708e-03,
+         -8.2970e-04,  1.4238e-03],
+        [ 6.5136e-04,  1.6727e-03,  1.7805e-03,  ...,  5.4016e-03,
+          6.2180e-04,  1.2522e-03],
+        ...,
+        [ 7.9036e-05, -5.5771e-03, -1.2810e-02,  ..., -1.2886e-02,
+         -4.3464e-04, -6.5041e-03],
+        [-4.3602e-03, -7.7534e-04, -9.8896e-04,  ..., -1.8415e-03,
+          4.2892e-04,  1.7195e-03],
+        [ 5.7268e-04, -1.7138e-03, -1.8272e-03,  ..., -1.2634e-02,
+          1.5175e-04, -1.4648e-03]], device='cuda:0')
+Epoch 164, bias, value: tensor([-0.0216,  0.0277,  0.0042, -0.0113,  0.0214, -0.0283,  0.0092, -0.0058,
+        -0.0010, -0.0111], device='cuda:0'), grad: tensor([ 0.0159, -0.0126,  0.0169,  0.0253,  0.0176, -0.0008,  0.0184, -0.0368,
+        -0.0047, -0.0391], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 163, time 214.06, cls_loss 0.6337 cls_loss_mapping 0.0084 cls_loss_causal 0.5519 re_mapping 0.0125 re_causal 0.0282 /// teacc 98.66 lr 0.00010000
+Epoch 165, weight, value: tensor([[-0.0657, -0.0936, -0.0803,  ..., -0.0290,  0.0470, -0.0876],
+        [-0.0531, -0.0739, -0.0509,  ...,  0.0967, -0.0334,  0.1796],
+        [ 0.0142, -0.0202, -0.0278,  ..., -0.0119, -0.0105, -0.0572],
+        ...,
+        [ 0.0201, -0.0785,  0.1345,  ...,  0.0207, -0.0649,  0.0368],
+        [-0.0289,  0.0479, -0.1195,  ..., -0.0488,  0.0096, -0.0724],
+        [-0.0532,  0.0667,  0.0522,  ..., -0.0467, -0.0327, -0.0136]],
+       device='cuda:0'), grad: tensor([[ 1.2074e-03,  3.9268e-04,  1.0653e-03,  ...,  6.6566e-04,
+         -1.9705e-04,  8.5926e-04],
+        [ 5.6267e-04,  7.1108e-05, -1.3895e-03,  ..., -3.7212e-03,
+          5.0449e-04, -5.5838e-04],
+        [ 1.7910e-03, -1.2035e-03, -2.0866e-03,  ..., -1.3489e-02,
+         -1.7786e-03,  1.6422e-03],
+        ...,
+        [-2.1820e-03,  3.6311e-04, -3.3131e-03,  ..., -7.3290e-04,
+         -9.5654e-04,  7.8306e-06],
+        [ 1.4973e-03, -3.3784e-04, -8.9169e-04,  ...,  2.5444e-03,
+         -1.4839e-02,  1.0567e-03],
+        [ 1.9503e-03,  7.6914e-04,  1.6546e-03,  ...,  1.0658e-02,
+          5.4665e-03,  2.0065e-03]], device='cuda:0')
+Epoch 165, bias, value: tensor([-0.0224,  0.0274,  0.0042, -0.0107,  0.0207, -0.0284,  0.0100, -0.0061,
+        -0.0005, -0.0111], device='cuda:0'), grad: tensor([-0.0090, -0.0142, -0.0334,  0.0280, -0.0081, -0.0282,  0.0143, -0.0043,
+        -0.0081,  0.0630], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 164, time 214.25, cls_loss 0.6098 cls_loss_mapping 0.0081 cls_loss_causal 0.5236 re_mapping 0.0125 re_causal 0.0278 /// teacc 98.66 lr 0.00010000
+Epoch 166, weight, value: tensor([[-0.0663, -0.0932, -0.0816,  ..., -0.0304,  0.0465, -0.0892],
+        [-0.0551, -0.0757, -0.0506,  ...,  0.0969, -0.0338,  0.1793],
+        [ 0.0138, -0.0205, -0.0283,  ..., -0.0121, -0.0105, -0.0579],
+        ...,
+        [ 0.0214, -0.0790,  0.1347,  ...,  0.0203, -0.0648,  0.0373],
+        [-0.0279,  0.0486, -0.1191,  ..., -0.0481,  0.0095, -0.0726],
+        [-0.0534,  0.0661,  0.0516,  ..., -0.0462, -0.0338, -0.0146]],
+       device='cuda:0'), grad: tensor([[ 5.7518e-06, -1.0468e-02, -1.2123e-02,  ..., -1.1383e-02,
+          2.1648e-04, -5.9128e-04],
+        [ 4.6372e-05, -1.1735e-05,  8.0156e-04,  ...,  2.9907e-03,
+          2.7919e-04, -4.9591e-03],
+        [-4.9114e-04,  1.4806e-04,  2.2435e-04,  ..., -3.8033e-03,
+          2.7132e-04,  4.1318e-04],
+        ...,
+        [ 3.0965e-05,  1.0842e-04,  1.9121e-04,  ...,  6.0425e-03,
+          2.8968e-04,  5.6887e-04],
+        [ 2.3878e-04,  1.0433e-03,  2.0618e-03,  ...,  4.0802e-02,
+          2.5368e-04,  2.1553e-03],
+        [ 6.9067e-06,  1.3125e-04, -3.1109e-03,  ..., -6.1750e-04,
+          3.6430e-04, -6.0606e-04]], device='cuda:0')
+Epoch 166, bias, value: tensor([-0.0234,  0.0277,  0.0037, -0.0098,  0.0209, -0.0288,  0.0097, -0.0063,
+         0.0003, -0.0111], device='cuda:0'), grad: tensor([-0.0220,  0.0021, -0.0091,  0.0350,  0.0222, -0.0729, -0.0136,  0.0165,
+         0.0416,  0.0002], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 165, time 213.91, cls_loss 0.6014 cls_loss_mapping 0.0072 cls_loss_causal 0.5102 re_mapping 0.0126 re_causal 0.0298 /// teacc 98.58 lr 0.00010000
+Epoch 167, weight, value: tensor([[-0.0660, -0.0931, -0.0803,  ..., -0.0289,  0.0477, -0.0897],
+        [-0.0566, -0.0754, -0.0513,  ...,  0.0956, -0.0331,  0.1813],
+        [ 0.0146, -0.0209, -0.0287,  ..., -0.0116, -0.0105, -0.0589],
+        ...,
+        [ 0.0212, -0.0786,  0.1354,  ...,  0.0204, -0.0640,  0.0368],
+        [-0.0292,  0.0483, -0.1206,  ..., -0.0486,  0.0092, -0.0729],
+        [-0.0540,  0.0658,  0.0519,  ..., -0.0463, -0.0342, -0.0144]],
+       device='cuda:0'), grad: tensor([[-0.0004, -0.0012,  0.0010,  ..., -0.0035, -0.0020,  0.0018],
+        [ 0.0002,  0.0005,  0.0056,  ...,  0.0186,  0.0019,  0.0100],
+        [-0.0010,  0.0012,  0.0029,  ...,  0.0004,  0.0018,  0.0007],
+        ...,
+        [ 0.0003,  0.0005, -0.0132,  ..., -0.0031, -0.0025, -0.0227],
+        [ 0.0004,  0.0016,  0.0016,  ...,  0.0073,  0.0021,  0.0003],
+        [ 0.0002,  0.0009,  0.0051,  ..., -0.0439,  0.0004,  0.0163]],
+       device='cuda:0')
+Epoch 167, bias, value: tensor([-0.0220,  0.0269,  0.0039, -0.0109,  0.0205, -0.0280,  0.0096, -0.0053,
+        -0.0003, -0.0114], device='cuda:0'), grad: tensor([-0.0186,  0.0483,  0.0039, -0.0298,  0.0054, -0.0036,  0.0434, -0.0222,
+         0.0219, -0.0486], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 166, time 213.82, cls_loss 0.6109 cls_loss_mapping 0.0077 cls_loss_causal 0.5288 re_mapping 0.0119 re_causal 0.0279 /// teacc 98.50 lr 0.00010000
+Epoch 168, weight, value: tensor([[-0.0660, -0.0927, -0.0807,  ..., -0.0305,  0.0491, -0.0898],
+        [-0.0567, -0.0760, -0.0514,  ...,  0.0952, -0.0315,  0.1815],
+        [ 0.0148, -0.0210, -0.0300,  ..., -0.0117, -0.0101, -0.0599],
+        ...,
+        [ 0.0209, -0.0783,  0.1370,  ...,  0.0209, -0.0651,  0.0377],
+        [-0.0305,  0.0485, -0.1224,  ..., -0.0487,  0.0087, -0.0729],
+        [-0.0534,  0.0651,  0.0512,  ..., -0.0448, -0.0339, -0.0148]],
+       device='cuda:0'), grad: tensor([[ 2.0966e-05,  8.9931e-04,  2.4548e-03,  ...,  2.7943e-03,
+          5.4016e-02,  1.6487e-04],
+        [ 4.9919e-05, -1.8656e-04, -6.9332e-04,  ..., -5.6038e-03,
+          3.3188e-04, -5.2261e-04],
+        [ 7.9155e-05,  3.3355e-04,  2.9907e-03,  ..., -7.0572e-04,
+          1.2150e-03,  1.3006e-04],
+        ...,
+        [-4.1175e-04,  1.4782e-04, -4.8485e-03,  ..., -1.2436e-02,
+         -2.5487e-04, -5.2643e-04],
+        [ 3.7760e-05, -5.7268e-04,  1.6518e-03,  ...,  6.3591e-03,
+         -5.4596e-02,  2.0802e-05],
+        [ 1.6963e-04,  4.0698e-04,  9.0742e-04,  ...,  7.4539e-03,
+          9.5654e-04, -4.4823e-04]], device='cuda:0')
+Epoch 168, bias, value: tensor([-0.0229,  0.0264,  0.0038, -0.0096,  0.0194, -0.0282,  0.0098, -0.0047,
+        -0.0007, -0.0104], device='cuda:0'), grad: tensor([ 0.0197, -0.0059, -0.0009,  0.0081, -0.0474,  0.0148,  0.0284, -0.0289,
+        -0.0112,  0.0233], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 167, time 214.24, cls_loss 0.6114 cls_loss_mapping 0.0090 cls_loss_causal 0.5300 re_mapping 0.0124 re_causal 0.0287 /// teacc 98.53 lr 0.00010000
+Epoch 169, weight, value: tensor([[-0.0670, -0.0929, -0.0808,  ..., -0.0309,  0.0500, -0.0901],
+        [-0.0574, -0.0760, -0.0512,  ...,  0.0959, -0.0288,  0.1825],
+        [ 0.0156, -0.0217, -0.0294,  ..., -0.0115, -0.0109, -0.0608],
+        ...,
+        [ 0.0207, -0.0788,  0.1360,  ...,  0.0203, -0.0670,  0.0379],
+        [-0.0305,  0.0484, -0.1221,  ..., -0.0481,  0.0097, -0.0735],
+        [-0.0522,  0.0654,  0.0523,  ..., -0.0448, -0.0358, -0.0141]],
+       device='cuda:0'), grad: tensor([[ 9.1940e-06,  1.7500e-04,  5.1212e-04,  ...,  3.8338e-03,
+          2.3651e-04,  9.7454e-05],
+        [ 1.9133e-05, -1.5545e-03, -7.7438e-04,  ..., -1.4351e-02,
+         -3.6392e-03, -1.0328e-03],
+        [ 9.0361e-05,  9.4461e-04,  4.6768e-03,  ..., -6.7329e-03,
+          1.1806e-03,  3.3641e-04],
+        ...,
+        [ 1.5771e-04,  7.7629e-04, -6.3133e-03,  ..., -5.2948e-03,
+          2.9039e-04, -6.5379e-06],
+        [-1.0195e-03, -1.6678e-02, -1.1765e-02,  ...,  3.8223e-03,
+          1.4477e-03, -1.5962e-04],
+        [ 6.3753e-04,  1.5976e-02,  1.0452e-02,  ..., -3.4733e-03,
+         -1.2360e-03,  9.0933e-04]], device='cuda:0')
+Epoch 169, bias, value: tensor([-0.0229,  0.0270,  0.0033, -0.0097,  0.0191, -0.0281,  0.0096, -0.0052,
+         0.0004, -0.0106], device='cuda:0'), grad: tensor([ 0.0104, -0.0273, -0.0358,  0.0291,  0.0105,  0.0062,  0.0138, -0.0081,
+        -0.0174,  0.0184], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 168, time 213.98, cls_loss 0.5814 cls_loss_mapping 0.0077 cls_loss_causal 0.5032 re_mapping 0.0121 re_causal 0.0280 /// teacc 98.60 lr 0.00010000
+Epoch 170, weight, value: tensor([[-0.0686, -0.0937, -0.0815,  ..., -0.0306,  0.0494, -0.0896],
+        [-0.0581, -0.0757, -0.0495,  ...,  0.0967, -0.0296,  0.1845],
+        [ 0.0147, -0.0216, -0.0305,  ..., -0.0120, -0.0117, -0.0618],
+        ...,
+        [ 0.0196, -0.0788,  0.1368,  ...,  0.0202, -0.0655,  0.0374],
+        [-0.0299,  0.0481, -0.1241,  ..., -0.0487,  0.0095, -0.0731],
+        [-0.0536,  0.0653,  0.0519,  ..., -0.0445, -0.0369, -0.0150]],
+       device='cuda:0'), grad: tensor([[ 9.6709e-06,  2.4652e-04,  6.8331e-04,  ...,  3.6354e-03,
+          1.6713e-04,  2.3246e-04],
+        [ 4.4584e-05,  4.9162e-04,  1.0462e-03,  ..., -2.7313e-03,
+          3.8171e-04, -1.4496e-03],
+        [-7.2360e-05, -1.6451e-03, -4.4365e-03,  ..., -4.7188e-03,
+         -7.1049e-04,  5.3501e-04],
+        ...,
+        [-3.9518e-05, -6.3229e-04,  5.3310e-04,  ..., -2.8973e-03,
+         -8.1062e-04, -6.5207e-05],
+        [ 5.1212e-04,  4.4703e-04, -1.8501e-03,  ...,  1.6241e-03,
+          3.1796e-03, -1.2207e-03],
+        [ 1.5652e-04,  2.0933e-04, -1.6508e-03,  ..., -8.6498e-04,
+         -2.3193e-03,  4.5538e-04]], device='cuda:0')
+Epoch 170, bias, value: tensor([-0.0225,  0.0277,  0.0029, -0.0085,  0.0194, -0.0283,  0.0089, -0.0063,
+         0.0003, -0.0108], device='cuda:0'), grad: tensor([ 0.0111, -0.0102, -0.0098,  0.0017,  0.0182, -0.0168,  0.0152, -0.0060,
+         0.0023, -0.0055], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 169, time 214.24, cls_loss 0.5749 cls_loss_mapping 0.0078 cls_loss_causal 0.4880 re_mapping 0.0125 re_causal 0.0270 /// teacc 98.61 lr 0.00010000
+Epoch 171, weight, value: tensor([[-0.0690, -0.0943, -0.0810,  ..., -0.0305,  0.0496, -0.0899],
+        [-0.0581, -0.0759, -0.0500,  ...,  0.0965, -0.0296,  0.1842],
+        [ 0.0153, -0.0196, -0.0307,  ..., -0.0123, -0.0118, -0.0618],
+        ...,
+        [ 0.0201, -0.0795,  0.1377,  ...,  0.0207, -0.0654,  0.0383],
+        [-0.0314,  0.0476, -0.1253,  ..., -0.0488,  0.0083, -0.0731],
+        [-0.0524,  0.0660,  0.0507,  ..., -0.0459, -0.0370, -0.0156]],
+       device='cuda:0'), grad: tensor([[ 2.5500e-06, -1.4753e-03, -2.2049e-03,  ..., -1.5312e-02,
+          9.8133e-04,  3.4785e-04],
+        [ 8.0988e-06,  1.6677e-04,  1.3742e-03,  ...,  3.9062e-03,
+          1.2279e-04, -1.4477e-03],
+        [ 5.8711e-05,  7.9155e-04,  2.9449e-03,  ...,  6.2447e-03,
+          5.4216e-04,  5.2357e-04],
+        ...,
+        [-5.7280e-05,  1.2455e-03,  3.1796e-03,  ...,  6.2828e-03,
+          1.7774e-04,  3.8624e-04],
+        [ 2.6226e-05,  3.7289e-03,  2.5578e-03,  ...,  3.7136e-03,
+          6.4564e-04,  4.4107e-04],
+        [ 7.4096e-06, -7.0648e-03, -1.7395e-02,  ..., -1.9257e-02,
+         -5.9891e-03,  5.6267e-04]], device='cuda:0')
+Epoch 171, bias, value: tensor([-0.0221,  0.0283,  0.0029, -0.0083,  0.0197, -0.0281,  0.0082, -0.0058,
+        -0.0002, -0.0116], device='cuda:0'), grad: tensor([-0.0429,  0.0146,  0.0209,  0.0289, -0.0174, -0.0113,  0.0257,  0.0247,
+         0.0213, -0.0645], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 170, time 214.05, cls_loss 0.6002 cls_loss_mapping 0.0081 cls_loss_causal 0.5238 re_mapping 0.0129 re_causal 0.0278 /// teacc 98.63 lr 0.00010000
+Epoch 172, weight, value: tensor([[-0.0703, -0.0945, -0.0797,  ..., -0.0316,  0.0494, -0.0887],
+        [-0.0581, -0.0764, -0.0509,  ...,  0.0963, -0.0298,  0.1846],
+        [ 0.0149, -0.0189, -0.0306,  ..., -0.0110, -0.0116, -0.0633],
+        ...,
+        [ 0.0197, -0.0799,  0.1366,  ...,  0.0208, -0.0657,  0.0387],
+        [-0.0326,  0.0482, -0.1244,  ..., -0.0489,  0.0086, -0.0733],
+        [-0.0515,  0.0659,  0.0511,  ..., -0.0457, -0.0373, -0.0167]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.3602e-04, -1.9550e-03,  ...,  6.9046e-04,
+         -4.0197e-04, -1.5497e-03],
+        [ 0.0000e+00,  2.2936e-04,  1.1454e-03,  ...,  1.0170e-02,
+          1.4315e-03,  1.5535e-03],
+        [ 2.7940e-09,  1.3332e-03,  1.8654e-03,  ..., -3.5095e-03,
+          9.6321e-04,  2.5821e-04],
+        ...,
+        [ 0.0000e+00,  3.7980e-04,  1.8101e-03,  ...,  1.0704e-02,
+          9.8896e-04,  1.6050e-03],
+        [ 3.7253e-09,  1.5129e-02,  5.2500e-04,  ..., -8.5068e-03,
+          3.7975e-03, -5.4779e-03],
+        [ 0.0000e+00,  4.9448e-04,  1.6117e-03,  ...,  1.1284e-02,
+          1.4257e-03,  2.3251e-03]], device='cuda:0')
+Epoch 172, bias, value: tensor([-0.0227,  0.0280,  0.0041, -0.0086,  0.0195, -0.0283,  0.0084, -0.0058,
+        -0.0005, -0.0112], device='cuda:0'), grad: tensor([ 0.0069,  0.0344, -0.0157,  0.0006,  0.0018,  0.0052, -0.0663,  0.0125,
+        -0.0163,  0.0368], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 171, time 214.07, cls_loss 0.5918 cls_loss_mapping 0.0100 cls_loss_causal 0.4966 re_mapping 0.0129 re_causal 0.0276 /// teacc 98.59 lr 0.00010000
+Epoch 173, weight, value: tensor([[-0.0692, -0.0940, -0.0798,  ..., -0.0313,  0.0493, -0.0898],
+        [-0.0581, -0.0764, -0.0515,  ...,  0.0967, -0.0308,  0.1843],
+        [ 0.0142, -0.0196, -0.0294,  ..., -0.0111, -0.0122, -0.0619],
+        ...,
+        [ 0.0196, -0.0800,  0.1374,  ...,  0.0224, -0.0656,  0.0395],
+        [-0.0317,  0.0477, -0.1243,  ..., -0.0496,  0.0095, -0.0733],
+        [-0.0516,  0.0659,  0.0504,  ..., -0.0450, -0.0372, -0.0160]],
+       device='cuda:0'), grad: tensor([[-5.9090e-03,  1.1247e-04,  2.1706e-03,  ..., -1.1757e-02,
+          1.1797e-03,  6.1846e-04],
+        [ 2.0103e-03,  5.0753e-05,  2.1038e-03,  ...,  1.1871e-02,
+          6.6566e-04,  1.6594e-03],
+        [ 1.4801e-03,  2.9755e-04,  1.2388e-03,  ...,  7.0152e-03,
+         -4.9896e-03,  1.7166e-03],
+        ...,
+        [-8.5413e-05, -8.4829e-04, -3.3321e-03,  ...,  4.7112e-03,
+          1.1587e-03, -2.5654e-03],
+        [-1.9324e-04,  2.2554e-04, -1.8559e-03,  ..., -5.0163e-03,
+          1.4944e-03, -7.0477e-04],
+        [ 7.3147e-04, -6.9714e-04, -4.0770e-04,  ...,  1.6222e-03,
+          7.2527e-04,  1.8339e-03]], device='cuda:0')
+Epoch 173, bias, value: tensor([-0.0224,  0.0281,  0.0036, -0.0089,  0.0192, -0.0284,  0.0081, -0.0041,
+        -0.0011, -0.0112], device='cuda:0'), grad: tensor([-0.0119,  0.0305,  0.0139, -0.0007, -0.0499,  0.0225, -0.0170,  0.0192,
+        -0.0113,  0.0046], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 172, time 214.46, cls_loss 0.5987 cls_loss_mapping 0.0086 cls_loss_causal 0.5133 re_mapping 0.0127 re_causal 0.0278 /// teacc 98.64 lr 0.00010000
+Epoch 174, weight, value: tensor([[-0.0689, -0.0946, -0.0805,  ..., -0.0299,  0.0492, -0.0895],
+        [-0.0601, -0.0773, -0.0513,  ...,  0.0964, -0.0303,  0.1838],
+        [ 0.0143, -0.0197, -0.0293,  ..., -0.0114, -0.0127, -0.0622],
+        ...,
+        [ 0.0211, -0.0797,  0.1376,  ...,  0.0228, -0.0664,  0.0396],
+        [-0.0317,  0.0480, -0.1254,  ..., -0.0501,  0.0096, -0.0725],
+        [-0.0507,  0.0654,  0.0504,  ..., -0.0454, -0.0382, -0.0168]],
+       device='cuda:0'), grad: tensor([[ 6.0469e-05,  3.0541e-04,  1.4944e-03,  ...,  4.1847e-03,
+         -8.6880e-04,  2.3887e-05],
+        [ 2.7835e-05,  3.1501e-05, -1.0567e-02,  ..., -6.0387e-03,
+         -2.2078e-04, -2.1038e-03],
+        [ 2.0771e-03,  2.6512e-03,  8.3389e-03,  ...,  5.6305e-03,
+          2.0542e-03,  9.0837e-04],
+        ...,
+        [-1.9875e-03,  1.9217e-04, -1.9064e-03,  ..., -6.4735e-03,
+          1.6856e-04, -8.3542e-04],
+        [ 7.8499e-05,  7.6580e-04,  1.0653e-03,  ..., -2.6131e-03,
+          2.3758e-04,  1.3173e-04],
+        [ 2.0540e-04,  3.1447e-04, -2.4261e-03,  ..., -3.4924e-03,
+         -6.4898e-04,  8.9550e-04]], device='cuda:0')
+Epoch 174, bias, value: tensor([-0.0218,  0.0277,  0.0039, -0.0090,  0.0199, -0.0286,  0.0083, -0.0047,
+        -0.0016, -0.0111], device='cuda:0'), grad: tensor([ 0.0125, -0.0151,  0.0239, -0.0104,  0.0075,  0.0099,  0.0169, -0.0201,
+        -0.0160, -0.0090], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 173, time 214.18, cls_loss 0.6239 cls_loss_mapping 0.0089 cls_loss_causal 0.5474 re_mapping 0.0127 re_causal 0.0287 /// teacc 98.57 lr 0.00010000
+Epoch 175, weight, value: tensor([[-0.0698, -0.0948, -0.0820,  ..., -0.0298,  0.0490, -0.0893],
+        [-0.0606, -0.0765, -0.0512,  ...,  0.0968, -0.0304,  0.1832],
+        [ 0.0160, -0.0190, -0.0293,  ..., -0.0127, -0.0119, -0.0637],
+        ...,
+        [ 0.0205, -0.0798,  0.1379,  ...,  0.0229, -0.0665,  0.0399],
+        [-0.0320,  0.0480, -0.1259,  ..., -0.0509,  0.0106, -0.0738],
+        [-0.0524,  0.0650,  0.0509,  ..., -0.0463, -0.0390, -0.0161]],
+       device='cuda:0'), grad: tensor([[ 1.3806e-05,  2.5824e-05,  1.9097e-04,  ...,  5.0697e-03,
+          1.7405e-05,  3.0994e-04],
+        [-5.6219e-04, -1.6510e-04,  1.1927e-04,  ..., -1.3397e-02,
+         -1.5512e-05, -4.1389e-03],
+        [ 2.6166e-05,  6.3241e-05,  3.0470e-04,  ...,  5.5809e-03,
+          6.5565e-05,  3.2735e-04],
+        ...,
+        [ 1.9372e-05,  8.9645e-05, -2.6340e-03,  ..., -3.9291e-03,
+          2.3946e-05,  3.2104e-02],
+        [ 3.0494e-04,  1.5306e-03,  3.6526e-04,  ...,  8.4839e-03,
+          3.4027e-03,  4.5204e-03],
+        [-2.4259e-05, -1.8477e-05,  1.2474e-03,  ..., -2.9125e-03,
+          3.8385e-05,  6.2637e-03]], device='cuda:0')
+Epoch 175, bias, value: tensor([-0.0223,  0.0284,  0.0029, -0.0079,  0.0203, -0.0284,  0.0086, -0.0052,
+        -0.0017, -0.0117], device='cuda:0'), grad: tensor([ 0.0184, -0.0220,  0.0179,  0.0106, -0.0635,  0.0084,  0.0073,  0.0008,
+         0.0231, -0.0012], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 174----------------------------------------------------
+epoch 174, time 230.55, cls_loss 0.5745 cls_loss_mapping 0.0084 cls_loss_causal 0.4976 re_mapping 0.0124 re_causal 0.0282 /// teacc 98.69 lr 0.00010000
+Epoch 176, weight, value: tensor([[-0.0709, -0.0953, -0.0832,  ..., -0.0307,  0.0490, -0.0903],
+        [-0.0611, -0.0767, -0.0515,  ...,  0.0966, -0.0306,  0.1833],
+        [ 0.0172, -0.0183, -0.0285,  ..., -0.0127, -0.0109, -0.0618],
+        ...,
+        [ 0.0202, -0.0804,  0.1377,  ...,  0.0234, -0.0674,  0.0383],
+        [-0.0323,  0.0475, -0.1272,  ..., -0.0514,  0.0106, -0.0756],
+        [-0.0529,  0.0653,  0.0519,  ..., -0.0468, -0.0392, -0.0146]],
+       device='cuda:0'), grad: tensor([[ 4.0978e-08,  1.1530e-03,  1.0052e-03,  ...,  2.8934e-03,
+          3.7122e-04,  7.4387e-04],
+        [ 8.0094e-08, -2.8491e-04,  5.3549e-04,  ...,  1.3943e-03,
+          1.6856e-04, -1.9836e-03],
+        [ 4.3865e-07,  1.4365e-04,  7.2718e-04,  ...,  2.5101e-03,
+          2.6107e-05,  3.9148e-04],
+        ...,
+        [-1.3094e-06, -1.4553e-03, -1.6373e-02,  ..., -9.9945e-04,
+          3.0184e-04, -1.0544e-02],
+        [-1.5851e-06,  1.4000e-02,  1.0662e-03,  ...,  2.5177e-03,
+          1.7440e-04,  2.1291e-04],
+        [ 8.3819e-08,  3.8548e-03,  1.7319e-02,  ...,  6.1150e-03,
+          2.1613e-04,  9.8801e-03]], device='cuda:0')
+Epoch 176, bias, value: tensor([-0.0231,  0.0288,  0.0028, -0.0076,  0.0206, -0.0292,  0.0103, -0.0047,
+        -0.0027, -0.0121], device='cuda:0'), grad: tensor([ 0.0127,  0.0045, -0.0170, -0.0107, -0.0547, -0.0070, -0.0024,  0.0125,
+         0.0329,  0.0293], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 175, time 214.51, cls_loss 0.5774 cls_loss_mapping 0.0070 cls_loss_causal 0.5013 re_mapping 0.0125 re_causal 0.0277 /// teacc 98.59 lr 0.00010000
+Epoch 177, weight, value: tensor([[-0.0713, -0.0955, -0.0830,  ..., -0.0299,  0.0485, -0.0889],
+        [-0.0605, -0.0771, -0.0525,  ...,  0.0966, -0.0295,  0.1833],
+        [ 0.0171, -0.0185, -0.0274,  ..., -0.0128, -0.0104, -0.0624],
+        ...,
+        [ 0.0199, -0.0807,  0.1376,  ...,  0.0228, -0.0680,  0.0382],
+        [-0.0327,  0.0481, -0.1273,  ..., -0.0516,  0.0108, -0.0729],
+        [-0.0541,  0.0652,  0.0517,  ..., -0.0462, -0.0391, -0.0154]],
+       device='cuda:0'), grad: tensor([[ 6.6471e-04,  4.9019e-04,  2.5425e-03,  ...,  6.3171e-03,
+          8.3256e-04,  1.6508e-03],
+        [ 8.9109e-05,  5.1856e-05, -3.3647e-05,  ..., -8.8882e-04,
+          1.8978e-04, -2.4390e-04],
+        [ 1.4806e-04,  1.3666e-03, -7.5674e-04,  ..., -1.0124e-02,
+         -2.1350e-04, -8.4972e-04],
+        ...,
+        [ 1.7715e-04,  1.5688e-04,  1.2026e-03,  ...,  5.4474e-03,
+          2.9397e-04,  5.2881e-04],
+        [ 4.8470e-04,  1.5173e-03,  7.9918e-04,  ...,  5.3978e-03,
+          6.1893e-04,  1.0128e-03],
+        [-9.1076e-04, -9.0885e-04, -2.5463e-03,  ...,  4.2229e-03,
+         -6.0129e-04, -2.8820e-03]], device='cuda:0')
+Epoch 177, bias, value: tensor([-0.0225,  0.0290,  0.0035, -0.0089,  0.0206, -0.0291,  0.0097, -0.0056,
+        -0.0028, -0.0109], device='cuda:0'), grad: tensor([ 0.0303, -0.0086, -0.0311,  0.0073, -0.0333, -0.0421,  0.0175,  0.0269,
+         0.0267,  0.0065], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 176----------------------------------------------------
+epoch 176, time 230.63, cls_loss 0.5973 cls_loss_mapping 0.0063 cls_loss_causal 0.5171 re_mapping 0.0122 re_causal 0.0276 /// teacc 98.70 lr 0.00010000
+Epoch 178, weight, value: tensor([[-0.0725, -0.0949, -0.0824,  ..., -0.0298,  0.0499, -0.0904],
+        [-0.0607, -0.0775, -0.0523,  ...,  0.0968, -0.0318,  0.1832],
+        [ 0.0168, -0.0187, -0.0279,  ..., -0.0133, -0.0099, -0.0621],
+        ...,
+        [ 0.0202, -0.0807,  0.1381,  ...,  0.0232, -0.0686,  0.0397],
+        [-0.0334,  0.0478, -0.1262,  ..., -0.0517,  0.0113, -0.0734],
+        [-0.0549,  0.0661,  0.0520,  ..., -0.0469, -0.0399, -0.0156]],
+       device='cuda:0'), grad: tensor([[ 3.1963e-06,  1.6379e-04,  4.9882e-06,  ...,  2.9716e-03,
+          2.7485e-03,  3.3788e-06],
+        [ 5.0571e-07,  5.0843e-05,  1.0721e-05,  ...,  2.7122e-03,
+          2.7294e-03, -1.4853e-04],
+        [ 4.3660e-05, -1.4007e-04,  7.6652e-05,  ..., -4.1275e-03,
+         -3.6163e-03,  2.5451e-05],
+        ...,
+        [ 3.3509e-06,  2.6941e-04,  1.4877e-04,  ..., -4.9934e-03,
+         -2.1782e-03,  1.8632e-04],
+        [ 8.8513e-05, -1.3056e-03, -1.6956e-03,  ...,  1.3676e-03,
+          3.6812e-03, -6.7115e-05],
+        [-1.1331e-04,  8.3590e-04,  5.4979e-04,  ..., -2.9049e-03,
+          1.1438e-04,  7.5877e-05]], device='cuda:0')
+Epoch 178, bias, value: tensor([-0.0219,  0.0291,  0.0026, -0.0092,  0.0215, -0.0283,  0.0094, -0.0058,
+        -0.0028, -0.0114], device='cuda:0'), grad: tensor([ 0.0219,  0.0177, -0.0103, -0.0095,  0.0220, -0.0303,  0.0185, -0.0251,
+         0.0355, -0.0404], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 177, time 214.50, cls_loss 0.6163 cls_loss_mapping 0.0062 cls_loss_causal 0.5338 re_mapping 0.0118 re_causal 0.0272 /// teacc 98.57 lr 0.00010000
+Epoch 179, weight, value: tensor([[-0.0726, -0.0941, -0.0818,  ..., -0.0301,  0.0488, -0.0890],
+        [-0.0602, -0.0780, -0.0527,  ...,  0.0957, -0.0309,  0.1831],
+        [ 0.0155, -0.0182, -0.0279,  ..., -0.0121, -0.0093, -0.0617],
+        ...,
+        [ 0.0228, -0.0813,  0.1381,  ...,  0.0235, -0.0684,  0.0390],
+        [-0.0349,  0.0476, -0.1270,  ..., -0.0523,  0.0093, -0.0732],
+        [-0.0556,  0.0666,  0.0518,  ..., -0.0474, -0.0395, -0.0157]],
+       device='cuda:0'), grad: tensor([[ 1.9073e-05,  6.8173e-07,  6.9998e-06,  ...,  2.3689e-03,
+          1.4820e-03,  1.5154e-03],
+        [ 1.1843e-04,  3.2842e-05,  1.0931e-04,  ..., -2.1019e-03,
+          4.1866e-04,  1.8435e-03],
+        [-2.1994e-04,  1.2779e-04, -1.1027e-04,  ..., -8.9569e-03,
+         -9.5224e-04,  8.7214e-04],
+        ...,
+        [ 1.5810e-05,  3.4124e-06, -2.5916e-04,  ..., -9.2621e-03,
+          6.9320e-05, -1.5930e-02],
+        [-2.6837e-05, -4.1080e-04,  3.0547e-05,  ...,  2.6474e-03,
+          1.1075e-04,  2.5139e-03],
+        [ 5.5581e-05,  9.6858e-05,  1.0186e-04,  ...,  3.1586e-03,
+          1.5283e-04,  2.1324e-03]], device='cuda:0')
+Epoch 179, bias, value: tensor([-0.0222,  0.0290,  0.0034, -0.0096,  0.0219, -0.0285,  0.0095, -0.0053,
+        -0.0038, -0.0111], device='cuda:0'), grad: tensor([ 0.0166, -0.0125, -0.0198,  0.0060, -0.0159,  0.0150,  0.0354, -0.0244,
+         0.0064, -0.0070], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 178, time 214.32, cls_loss 0.5902 cls_loss_mapping 0.0070 cls_loss_causal 0.5095 re_mapping 0.0124 re_causal 0.0283 /// teacc 98.58 lr 0.00010000
+Epoch 180, weight, value: tensor([[-0.0748, -0.0947, -0.0823,  ..., -0.0302,  0.0489, -0.0890],
+        [-0.0604, -0.0770, -0.0534,  ...,  0.0964, -0.0318,  0.1827],
+        [ 0.0157, -0.0189, -0.0291,  ..., -0.0118, -0.0104, -0.0617],
+        ...,
+        [ 0.0228, -0.0818,  0.1388,  ...,  0.0239, -0.0679,  0.0400],
+        [-0.0349,  0.0479, -0.1276,  ..., -0.0522,  0.0091, -0.0727],
+        [-0.0544,  0.0662,  0.0519,  ..., -0.0474, -0.0383, -0.0159]],
+       device='cuda:0'), grad: tensor([[ 1.7095e-04,  3.4618e-04,  2.9182e-04,  ..., -5.7030e-03,
+          2.8872e-04,  7.9679e-04],
+        [ 2.3341e-04, -2.9621e-03,  3.0112e-04,  ..., -1.0628e-02,
+         -5.2786e-04, -2.3861e-03],
+        [ 7.1621e-04, -1.0836e-04,  1.1816e-03,  ...,  5.9967e-03,
+         -4.5323e-04,  2.5883e-03],
+        ...,
+        [ 1.8158e-03,  8.3065e-04,  3.5934e-03,  ...,  8.4305e-03,
+          7.3671e-05,  3.1776e-03],
+        [ 3.0499e-03,  3.8891e-03,  3.0403e-03,  ...,  9.3994e-03,
+          4.3440e-04,  5.3253e-03],
+        [-3.2997e-03,  1.6823e-03, -8.7967e-03,  ..., -7.8201e-04,
+          7.7963e-05, -2.8000e-03]], device='cuda:0')
+Epoch 180, bias, value: tensor([-0.0227,  0.0287,  0.0042, -0.0113,  0.0205, -0.0284,  0.0102, -0.0039,
+        -0.0030, -0.0112], device='cuda:0'), grad: tensor([-0.0177, -0.0317,  0.0226, -0.0227,  0.0111,  0.0121, -0.0232,  0.0303,
+         0.0264, -0.0073], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 179----------------------------------------------------
+epoch 179, time 230.73, cls_loss 0.5837 cls_loss_mapping 0.0056 cls_loss_causal 0.5102 re_mapping 0.0119 re_causal 0.0281 /// teacc 98.73 lr 0.00010000
+Epoch 181, weight, value: tensor([[-0.0765, -0.0962, -0.0816,  ..., -0.0295,  0.0479, -0.0876],
+        [-0.0613, -0.0756, -0.0535,  ...,  0.0972, -0.0307,  0.1828],
+        [ 0.0163, -0.0199, -0.0296,  ..., -0.0128, -0.0098, -0.0627],
+        ...,
+        [ 0.0225, -0.0827,  0.1389,  ...,  0.0231, -0.0692,  0.0406],
+        [-0.0348,  0.0485, -0.1287,  ..., -0.0531,  0.0082, -0.0740],
+        [-0.0523,  0.0657,  0.0524,  ..., -0.0461, -0.0393, -0.0161]],
+       device='cuda:0'), grad: tensor([[-2.8133e-03, -2.1210e-03, -2.6093e-03,  ..., -7.0915e-03,
+          7.6115e-05, -5.5361e-04],
+        [ 1.2982e-04,  1.8525e-04,  2.8563e-04,  ...,  7.2861e-03,
+          4.1798e-06,  5.8975e-03],
+        [ 5.5599e-04,  5.7983e-04,  6.7043e-04,  ..., -1.3132e-03,
+          6.0871e-06, -8.0347e-04],
+        ...,
+        [-4.8816e-05,  4.0207e-03,  7.1716e-04,  ...,  4.2801e-03,
+          8.9034e-06,  4.2877e-03],
+        [ 2.5153e-04,  1.4458e-03,  7.3004e-04,  ..., -6.8741e-03,
+          5.9754e-05, -4.1733e-03],
+        [ 2.9850e-04, -7.7972e-03, -2.1286e-03,  ..., -2.0866e-03,
+          1.7807e-05, -6.8626e-03]], device='cuda:0')
+Epoch 181, bias, value: tensor([-0.0221,  0.0295,  0.0038, -0.0112,  0.0203, -0.0285,  0.0101, -0.0048,
+        -0.0038, -0.0101], device='cuda:0'), grad: tensor([-0.0230,  0.0051, -0.0117, -0.0127,  0.0126,  0.0120,  0.0205,  0.0180,
+        -0.0142, -0.0065], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 180, time 214.48, cls_loss 0.5651 cls_loss_mapping 0.0068 cls_loss_causal 0.4787 re_mapping 0.0121 re_causal 0.0259 /// teacc 98.71 lr 0.00010000
+Epoch 182, weight, value: tensor([[-0.0794, -0.0949, -0.0819,  ..., -0.0311,  0.0492, -0.0875],
+        [-0.0633, -0.0762, -0.0537,  ...,  0.0971, -0.0308,  0.1835],
+        [ 0.0156, -0.0195, -0.0287,  ..., -0.0135, -0.0112, -0.0628],
+        ...,
+        [ 0.0248, -0.0835,  0.1388,  ...,  0.0243, -0.0695,  0.0406],
+        [-0.0353,  0.0495, -0.1302,  ..., -0.0526,  0.0069, -0.0754],
+        [-0.0531,  0.0648,  0.0529,  ..., -0.0459, -0.0395, -0.0164]],
+       device='cuda:0'), grad: tensor([[ 0.0004,  0.0003, -0.0010,  ...,  0.0007, -0.0028, -0.0014],
+        [ 0.0004, -0.0032,  0.0004,  ..., -0.0042,  0.0002, -0.0040],
+        [-0.0059, -0.0010,  0.0017,  ..., -0.0042,  0.0007, -0.0004],
+        ...,
+        [ 0.0002,  0.0007,  0.0039,  ...,  0.0060,  0.0006,  0.0038],
+        [ 0.0007,  0.0016,  0.0015,  ...,  0.0144,  0.0003,  0.0047],
+        [ 0.0001,  0.0025, -0.0022,  ..., -0.0136, -0.0025,  0.0014]],
+       device='cuda:0')
+Epoch 182, bias, value: tensor([-0.0235,  0.0287,  0.0028, -0.0109,  0.0201, -0.0283,  0.0105, -0.0032,
+        -0.0033, -0.0101], device='cuda:0'), grad: tensor([ 0.0094, -0.0029, -0.0002,  0.0320, -0.0309,  0.0162, -0.0259,  0.0312,
+         0.0414, -0.0703], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 181, time 214.08, cls_loss 0.6250 cls_loss_mapping 0.0082 cls_loss_causal 0.5457 re_mapping 0.0115 re_causal 0.0255 /// teacc 98.64 lr 0.00010000
+Epoch 183, weight, value: tensor([[-0.0799, -0.0950, -0.0820,  ..., -0.0322,  0.0498, -0.0887],
+        [-0.0621, -0.0757, -0.0549,  ...,  0.0969, -0.0296,  0.1845],
+        [ 0.0148, -0.0193, -0.0290,  ..., -0.0135, -0.0117, -0.0633],
+        ...,
+        [ 0.0239, -0.0840,  0.1388,  ...,  0.0247, -0.0695,  0.0404],
+        [-0.0354,  0.0492, -0.1306,  ..., -0.0524,  0.0066, -0.0753],
+        [-0.0531,  0.0654,  0.0532,  ..., -0.0459, -0.0395, -0.0164]],
+       device='cuda:0'), grad: tensor([[ 2.6035e-04,  6.7091e-04,  1.2140e-03,  ...,  1.1765e-02,
+          4.9925e-04,  2.9397e-04],
+        [ 5.3024e-04, -9.4986e-04,  1.6861e-03,  ...,  7.3013e-03,
+         -6.0558e-04, -2.5436e-05],
+        [ 6.5470e-04, -1.3151e-03,  6.5079e-03,  ...,  4.8218e-03,
+         -1.3351e-03,  9.4986e-04],
+        ...,
+        [ 3.7074e-04, -2.3537e-03, -1.8524e-02,  ..., -1.5762e-02,
+         -4.4417e-04, -1.5926e-03],
+        [-1.7185e-03,  2.1591e-03,  3.0155e-03,  ...,  5.6763e-03,
+          1.0853e-03, -1.8561e-04],
+        [ 4.0078e-04, -2.8515e-03,  1.4944e-03,  ...,  9.7942e-04,
+         -2.9335e-03,  6.6376e-04]], device='cuda:0')
+Epoch 183, bias, value: tensor([-0.0244,  0.0284,  0.0026, -0.0105,  0.0194, -0.0276,  0.0104, -0.0031,
+        -0.0031, -0.0093], device='cuda:0'), grad: tensor([ 0.0335,  0.0277, -0.0092,  0.0063, -0.0063,  0.0396, -0.0715, -0.0408,
+         0.0171,  0.0035], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 182, time 214.13, cls_loss 0.5779 cls_loss_mapping 0.0060 cls_loss_causal 0.4966 re_mapping 0.0120 re_causal 0.0266 /// teacc 98.66 lr 0.00010000
+Epoch 184, weight, value: tensor([[-0.0784, -0.0950, -0.0817,  ..., -0.0314,  0.0495, -0.0883],
+        [-0.0631, -0.0752, -0.0553,  ...,  0.0954, -0.0287,  0.1850],
+        [ 0.0139, -0.0202, -0.0302,  ..., -0.0133, -0.0111, -0.0639],
+        ...,
+        [ 0.0251, -0.0847,  0.1386,  ...,  0.0257, -0.0685,  0.0411],
+        [-0.0358,  0.0489, -0.1311,  ..., -0.0529,  0.0066, -0.0766],
+        [-0.0533,  0.0659,  0.0539,  ..., -0.0453, -0.0403, -0.0168]],
+       device='cuda:0'), grad: tensor([[ 4.1425e-05,  8.4066e-04,  2.4855e-05,  ..., -2.8419e-03,
+          1.5423e-05,  5.8651e-05],
+        [ 3.3706e-05,  7.1764e-04,  1.9193e-05,  ...,  6.4163e-03,
+          6.7726e-06,  4.5076e-06],
+        [ 7.9803e-03, -1.0490e-03,  3.8958e-04,  ..., -1.8219e-02,
+          4.1437e-04, -7.0524e-04],
+        ...,
+        [ 8.0287e-05,  4.6110e-04,  1.2171e-04,  ..., -2.2697e-03,
+          8.3372e-06,  9.5725e-05],
+        [-1.0590e-02, -1.9112e-03, -1.3275e-03,  ...,  6.0730e-03,
+          6.4850e-05,  8.3566e-05],
+        [ 4.9543e-04,  1.4801e-03,  4.5514e-04,  ...,  7.6752e-03,
+          7.0155e-05,  9.3699e-05]], device='cuda:0')
+Epoch 184, bias, value: tensor([-0.0238,  0.0281,  0.0026, -0.0109,  0.0211, -0.0286,  0.0106, -0.0033,
+        -0.0036, -0.0092], device='cuda:0'), grad: tensor([-1.6602e-02,  2.5787e-02, -5.0476e-02,  7.9651e-03,  4.2023e-02,
+        -7.8726e-04, -7.5579e-05, -6.3049e-02, -3.6411e-03,  5.8838e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 183----------------------------------------------------
+epoch 183, time 231.12, cls_loss 0.6019 cls_loss_mapping 0.0071 cls_loss_causal 0.5192 re_mapping 0.0124 re_causal 0.0285 /// teacc 98.84 lr 0.00010000
+Epoch 185, weight, value: tensor([[-0.0764, -0.0957, -0.0819,  ..., -0.0318,  0.0489, -0.0890],
+        [-0.0634, -0.0762, -0.0565,  ...,  0.0956, -0.0292,  0.1856],
+        [ 0.0137, -0.0186, -0.0295,  ..., -0.0131, -0.0108, -0.0641],
+        ...,
+        [ 0.0266, -0.0860,  0.1386,  ...,  0.0259, -0.0689,  0.0400],
+        [-0.0362,  0.0500, -0.1309,  ..., -0.0528,  0.0064, -0.0761],
+        [-0.0534,  0.0653,  0.0533,  ..., -0.0462, -0.0405, -0.0168]],
+       device='cuda:0'), grad: tensor([[ 1.3745e-04,  1.2493e-04,  1.4555e-04,  ...,  2.5806e-03,
+         -6.6459e-05,  3.7718e-04],
+        [ 2.4307e-04,  2.3022e-03, -2.5826e-03,  ...,  1.2962e-02,
+          4.9807e-06, -9.6273e-04],
+        [ 2.4581e-04,  1.0815e-03,  1.2484e-03,  ...,  6.5155e-03,
+          1.2308e-05,  1.2426e-03],
+        ...,
+        [ 5.9223e-04,  9.1028e-04, -6.5804e-04,  ...,  8.4381e-03,
+          4.9956e-06, -1.3828e-04],
+        [ 1.0389e-04, -1.3573e-02,  7.0286e-04,  ..., -2.6169e-02,
+         -2.6166e-05, -5.2691e-04],
+        [ 5.2357e-04,  8.8692e-04,  3.8872e-03,  ...,  7.3767e-04,
+          8.9183e-06,  7.4310e-03]], device='cuda:0')
+Epoch 185, bias, value: tensor([-0.0239,  0.0284,  0.0044, -0.0105,  0.0205, -0.0282,  0.0095, -0.0027,
+        -0.0043, -0.0102], device='cuda:0'), grad: tensor([ 0.0058,  0.0177,  0.0137, -0.0023, -0.0010,  0.0078, -0.0195,  0.0198,
+        -0.0494,  0.0076], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 184, time 214.84, cls_loss 0.5941 cls_loss_mapping 0.0061 cls_loss_causal 0.5142 re_mapping 0.0116 re_causal 0.0280 /// teacc 98.73 lr 0.00010000
+Epoch 186, weight, value: tensor([[-0.0762, -0.0968, -0.0830,  ..., -0.0308,  0.0485, -0.0904],
+        [-0.0626, -0.0751, -0.0553,  ...,  0.0975, -0.0305,  0.1865],
+        [ 0.0135, -0.0198, -0.0304,  ..., -0.0136, -0.0106, -0.0633],
+        ...,
+        [ 0.0265, -0.0871,  0.1385,  ...,  0.0253, -0.0696,  0.0405],
+        [-0.0359,  0.0500, -0.1306,  ..., -0.0519,  0.0067, -0.0766],
+        [-0.0532,  0.0651,  0.0534,  ..., -0.0470, -0.0409, -0.0174]],
+       device='cuda:0'), grad: tensor([[ 2.6560e-04,  3.3882e-06,  2.2316e-04,  ...,  4.6844e-03,
+         -2.3305e-05,  1.3914e-03],
+        [-6.0606e-04,  4.7714e-05,  4.7237e-05,  ...,  3.1996e-04,
+          9.9182e-05,  1.2712e-03],
+        [ 1.4019e-03,  1.2960e-03,  1.4448e-03,  ..., -9.2087e-03,
+         -1.3971e-04,  2.2030e-03],
+        ...,
+        [ 4.5242e-03, -2.7428e-03,  5.5046e-03,  ...,  6.8130e-03,
+          3.4064e-05,  7.2098e-03],
+        [ 5.1595e-06, -4.5943e-04,  2.2268e-04,  ...,  4.0741e-03,
+          4.7237e-05, -1.5488e-03],
+        [ 2.1946e-04,  2.9206e-04,  8.5640e-04,  ..., -7.6065e-03,
+          1.1891e-05, -6.5880e-03]], device='cuda:0')
+Epoch 186, bias, value: tensor([-0.0238,  0.0299,  0.0040, -0.0109,  0.0207, -0.0283,  0.0085, -0.0036,
+        -0.0035, -0.0102], device='cuda:0'), grad: tensor([ 0.0157, -0.0115, -0.0131, -0.0436,  0.0119,  0.0240,  0.0146,  0.0327,
+        -0.0222, -0.0084], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 185, time 214.83, cls_loss 0.6060 cls_loss_mapping 0.0070 cls_loss_causal 0.5332 re_mapping 0.0120 re_causal 0.0271 /// teacc 98.58 lr 0.00010000
+Epoch 187, weight, value: tensor([[-0.0749, -0.0965, -0.0827,  ..., -0.0302,  0.0485, -0.0903],
+        [-0.0620, -0.0728, -0.0549,  ...,  0.0983, -0.0304,  0.1870],
+        [ 0.0130, -0.0204, -0.0308,  ..., -0.0133, -0.0108, -0.0620],
+        ...,
+        [ 0.0263, -0.0920,  0.1371,  ...,  0.0245, -0.0702,  0.0394],
+        [-0.0371,  0.0515, -0.1301,  ..., -0.0515,  0.0076, -0.0755],
+        [-0.0523,  0.0674,  0.0540,  ..., -0.0468, -0.0419, -0.0170]],
+       device='cuda:0'), grad: tensor([[ 2.9989e-07, -1.5745e-03,  2.2554e-04,  ...,  3.9330e-03,
+         -2.8515e-03,  1.1749e-03],
+        [-1.8254e-06,  1.1568e-03,  4.2844e-04,  ...,  1.1398e-02,
+          1.7770e-06,  3.3150e-03],
+        [ 4.2506e-06,  9.8419e-04,  1.0290e-03,  ...,  6.1760e-03,
+          1.1873e-04,  1.7710e-03],
+        ...,
+        [ 3.5465e-06, -2.2106e-03, -3.3760e-03,  ..., -2.1362e-03,
+          4.5872e-04, -1.9293e-03],
+        [-1.4551e-05,  1.3132e-03,  3.9840e-04,  ...,  5.1765e-03,
+          1.2994e-04,  1.2455e-03],
+        [ 1.2908e-06, -3.2768e-03,  1.2054e-03,  ..., -3.7098e-03,
+          1.8620e-04, -4.4763e-05]], device='cuda:0')
+Epoch 187, bias, value: tensor([-0.0232,  0.0310,  0.0038, -0.0113,  0.0190, -0.0279,  0.0094, -0.0044,
+        -0.0034, -0.0099], device='cuda:0'), grad: tensor([ 0.0051,  0.0322,  0.0191, -0.0137,  0.0163, -0.0195, -0.0435,  0.0018,
+         0.0160, -0.0136], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 186, time 215.19, cls_loss 0.5923 cls_loss_mapping 0.0070 cls_loss_causal 0.5163 re_mapping 0.0122 re_causal 0.0268 /// teacc 98.50 lr 0.00010000
+Epoch 188, weight, value: tensor([[-0.0757, -0.0978, -0.0833,  ..., -0.0299,  0.0487, -0.0903],
+        [-0.0621, -0.0740, -0.0563,  ...,  0.0990, -0.0306,  0.1863],
+        [ 0.0128, -0.0199, -0.0309,  ..., -0.0132, -0.0118, -0.0623],
+        ...,
+        [ 0.0262, -0.0904,  0.1379,  ...,  0.0246, -0.0702,  0.0398],
+        [-0.0374,  0.0519, -0.1291,  ..., -0.0519,  0.0077, -0.0745],
+        [-0.0513,  0.0665,  0.0527,  ..., -0.0475, -0.0420, -0.0160]],
+       device='cuda:0'), grad: tensor([[ 8.4460e-05, -6.0463e-04, -1.6966e-03,  ..., -5.6534e-03,
+          2.0135e-06, -2.8229e-03],
+        [ 7.0095e-04,  1.2875e-03,  1.2846e-03,  ...,  7.5531e-03,
+          2.2352e-07,  1.1663e-03],
+        [ 5.6362e-04,  1.8883e-03,  2.9302e-04,  ...,  3.9825e-03,
+         -1.3602e-04,  7.1716e-04],
+        ...,
+        [-1.2598e-03,  3.5362e-03, -1.0691e-03,  ..., -1.0208e-02,
+          1.1139e-06,  1.0481e-03],
+        [ 1.7319e-03, -1.1948e-02, -5.7411e-04,  ..., -1.4122e-02,
+          2.4512e-06, -2.6550e-03],
+        [ 1.6177e-04, -5.1918e-03,  5.8126e-04,  ...,  4.2381e-03,
+          5.1409e-07,  1.8203e-04]], device='cuda:0')
+Epoch 188, bias, value: tensor([-0.0230,  0.0315,  0.0034, -0.0124,  0.0189, -0.0273,  0.0087, -0.0042,
+        -0.0023, -0.0103], device='cuda:0'), grad: tensor([-0.0173,  0.0199,  0.0173, -0.0139, -0.0011, -0.0410,  0.0676, -0.0142,
+        -0.0228,  0.0055], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 187, time 214.22, cls_loss 0.6344 cls_loss_mapping 0.0087 cls_loss_causal 0.5603 re_mapping 0.0117 re_causal 0.0258 /// teacc 98.53 lr 0.00010000
+Epoch 189, weight, value: tensor([[-0.0754, -0.0983, -0.0827,  ..., -0.0294,  0.0486, -0.0906],
+        [-0.0621, -0.0742, -0.0579,  ...,  0.0999, -0.0309,  0.1877],
+        [ 0.0127, -0.0198, -0.0310,  ..., -0.0131, -0.0111, -0.0636],
+        ...,
+        [ 0.0260, -0.0907,  0.1385,  ...,  0.0234, -0.0715,  0.0401],
+        [-0.0374,  0.0513, -0.1295,  ..., -0.0519,  0.0076, -0.0755],
+        [-0.0517,  0.0669,  0.0525,  ..., -0.0479, -0.0408, -0.0160]],
+       device='cuda:0'), grad: tensor([[ 6.9022e-05,  6.4039e-04,  1.9102e-03,  ..., -4.8351e-04,
+          4.3586e-07, -2.4395e-03],
+        [ 1.0281e-03,  1.6466e-05,  1.4410e-03,  ..., -1.6220e-02,
+         -1.7986e-03,  6.1226e-03],
+        [ 2.7156e-04,  3.3641e-04, -4.9686e-04,  ...,  1.5480e-02,
+          1.7586e-03,  4.5547e-03],
+        ...,
+        [-1.5373e-03,  5.6219e-04,  9.3603e-04,  ..., -4.2915e-04,
+          3.7730e-05, -4.2000e-03],
+        [-3.4046e-04,  4.9973e-04,  9.5034e-04,  ...,  8.5373e-03,
+          1.2897e-05,  3.1700e-03],
+        [ 2.5272e-04,  2.5120e-03,  9.1095e-03,  ..., -1.0437e-02,
+          1.6317e-06, -7.3433e-04]], device='cuda:0')
+Epoch 189, bias, value: tensor([-0.0231,  0.0311,  0.0042, -0.0124,  0.0195, -0.0270,  0.0083, -0.0042,
+        -0.0027, -0.0106], device='cuda:0'), grad: tensor([-0.0373, -0.0473,  0.0389,  0.0157, -0.0068, -0.0056, -0.0161,  0.0146,
+         0.0273,  0.0168], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 188, time 214.87, cls_loss 0.5974 cls_loss_mapping 0.0081 cls_loss_causal 0.5161 re_mapping 0.0122 re_causal 0.0269 /// teacc 98.74 lr 0.00010000
+Epoch 190, weight, value: tensor([[-0.0744, -0.0975, -0.0812,  ..., -0.0294,  0.0483, -0.0909],
+        [-0.0623, -0.0746, -0.0589,  ...,  0.0985, -0.0314,  0.1869],
+        [ 0.0129, -0.0203, -0.0294,  ..., -0.0130, -0.0113, -0.0625],
+        ...,
+        [ 0.0258, -0.0902,  0.1390,  ...,  0.0241, -0.0714,  0.0419],
+        [-0.0373,  0.0516, -0.1304,  ..., -0.0516,  0.0074, -0.0763],
+        [-0.0516,  0.0680,  0.0513,  ..., -0.0471, -0.0403, -0.0166]],
+       device='cuda:0'), grad: tensor([[ 4.8652e-06,  1.6336e-03,  1.7080e-03,  ...,  6.1913e-03,
+         -3.8184e-07,  1.0443e-03],
+        [ 7.6413e-05,  3.1161e-04,  1.2894e-03,  ...,  2.1152e-03,
+          0.0000e+00, -1.9875e-03],
+        [ 2.8610e-05,  5.9557e-04,  1.3990e-03,  ...,  6.5613e-03,
+          2.5332e-07,  7.3242e-04],
+        ...,
+        [ 1.9491e-05,  1.8387e-03,  1.1120e-03,  ...,  6.9695e-03,
+          0.0000e+00,  5.8699e-04],
+        [ 1.4327e-05,  1.8120e-03,  1.6022e-03,  ...,  6.4507e-03,
+          7.4506e-09,  1.3876e-03],
+        [ 5.9068e-05, -4.1542e-03, -1.6584e-03,  ..., -4.8981e-03,
+          8.5682e-08,  1.4048e-03]], device='cuda:0')
+Epoch 190, bias, value: tensor([-0.0228,  0.0294,  0.0046, -0.0122,  0.0203, -0.0282,  0.0092, -0.0039,
+        -0.0026, -0.0106], device='cuda:0'), grad: tensor([ 0.0177,  0.0124,  0.0197, -0.0054,  0.0110, -0.0634, -0.0002,  0.0219,
+         0.0195, -0.0332], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 189, time 215.01, cls_loss 0.6058 cls_loss_mapping 0.0064 cls_loss_causal 0.5231 re_mapping 0.0121 re_causal 0.0275 /// teacc 98.69 lr 0.00010000
+Epoch 191, weight, value: tensor([[-0.0755, -0.0977, -0.0810,  ..., -0.0304,  0.0496, -0.0903],
+        [-0.0619, -0.0762, -0.0581,  ...,  0.0999, -0.0317,  0.1887],
+        [ 0.0130, -0.0199, -0.0298,  ..., -0.0146, -0.0107, -0.0627],
+        ...,
+        [ 0.0257, -0.0908,  0.1392,  ...,  0.0246, -0.0731,  0.0406],
+        [-0.0363,  0.0519, -0.1294,  ..., -0.0501,  0.0076, -0.0767],
+        [-0.0514,  0.0681,  0.0504,  ..., -0.0473, -0.0414, -0.0165]],
+       device='cuda:0'), grad: tensor([[ 3.4738e-04,  7.5769e-04,  6.7425e-04,  ...,  7.2899e-03,
+          1.8346e-04,  1.2636e-03],
+        [-2.7084e-04,  8.5592e-05, -8.0204e-04,  ..., -4.9019e-03,
+          4.8727e-05, -5.6219e-04],
+        [ 6.1560e-04, -1.3745e-04,  2.1381e-03,  ..., -2.4967e-03,
+          2.0191e-05, -2.0657e-03],
+        ...,
+        [-2.7466e-03, -6.0272e-03, -1.1749e-03,  ..., -1.9592e-02,
+          4.2804e-06, -9.3937e-04],
+        [ 1.1101e-03,  3.6001e-04,  3.4809e-04,  ..., -8.6117e-04,
+         -9.8896e-04, -2.6727e-04],
+        [ 1.0996e-03,  1.6012e-03,  2.2373e-03,  ...,  1.2199e-02,
+          4.9174e-06,  3.0041e-03]], device='cuda:0')
+Epoch 191, bias, value: tensor([-0.0237,  0.0304,  0.0033, -0.0128,  0.0212, -0.0282,  0.0097, -0.0044,
+        -0.0021, -0.0104], device='cuda:0'), grad: tensor([ 0.0265, -0.0137, -0.0111,  0.0142,  0.0386,  0.0018, -0.0340, -0.0567,
+        -0.0079,  0.0422], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 190, time 214.72, cls_loss 0.5986 cls_loss_mapping 0.0057 cls_loss_causal 0.5182 re_mapping 0.0120 re_causal 0.0271 /// teacc 98.76 lr 0.00010000
+Epoch 192, weight, value: tensor([[-0.0763, -0.0974, -0.0808,  ..., -0.0308,  0.0499, -0.0896],
+        [-0.0629, -0.0759, -0.0591,  ...,  0.0997, -0.0320,  0.1881],
+        [ 0.0136, -0.0202, -0.0319,  ..., -0.0138, -0.0114, -0.0627],
+        ...,
+        [ 0.0269, -0.0914,  0.1405,  ...,  0.0245, -0.0729,  0.0409],
+        [-0.0364,  0.0523, -0.1297,  ..., -0.0507,  0.0097, -0.0762],
+        [-0.0525,  0.0679,  0.0500,  ..., -0.0466, -0.0423, -0.0169]],
+       device='cuda:0'), grad: tensor([[ 2.5234e-03, -1.1168e-03,  1.3046e-03,  ...,  1.5541e-02,
+         -2.9049e-03,  8.3637e-04],
+        [ 1.3857e-03,  6.8210e-06,  3.8242e-04,  ...,  8.6212e-03,
+          1.7869e-04,  5.0354e-04],
+        [ 1.6670e-03,  4.2140e-05,  3.7575e-04,  ...,  1.3065e-03,
+          5.6839e-04,  3.0923e-04],
+        ...,
+        [ 1.1654e-03,  1.2271e-05,  3.8314e-04,  ...,  2.4624e-03,
+          1.9670e-04,  1.1158e-03],
+        [ 1.1206e-03,  2.3212e-03,  6.3705e-04,  ..., -8.8739e-04,
+          4.7226e-03,  1.0185e-03],
+        [ 1.1940e-03,  4.6611e-05,  5.8794e-04,  ...,  7.8583e-03,
+          8.4162e-04,  6.4135e-04]], device='cuda:0')
+Epoch 192, bias, value: tensor([-0.0235,  0.0303,  0.0032, -0.0128,  0.0210, -0.0279,  0.0091, -0.0044,
+        -0.0022, -0.0099], device='cuda:0'), grad: tensor([ 0.0451,  0.0278,  0.0157, -0.0543,  0.0185, -0.0660, -0.0187,  0.0002,
+         0.0022,  0.0294], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 191, time 214.60, cls_loss 0.5947 cls_loss_mapping 0.0047 cls_loss_causal 0.5228 re_mapping 0.0119 re_causal 0.0267 /// teacc 98.70 lr 0.00010000
+Epoch 193, weight, value: tensor([[-0.0771, -0.0985, -0.0805,  ..., -0.0313,  0.0494, -0.0902],
+        [-0.0629, -0.0764, -0.0586,  ...,  0.1000, -0.0309,  0.1878],
+        [ 0.0128, -0.0177, -0.0315,  ..., -0.0144, -0.0112, -0.0627],
+        ...,
+        [ 0.0278, -0.0917,  0.1407,  ...,  0.0248, -0.0734,  0.0410],
+        [-0.0362,  0.0522, -0.1316,  ..., -0.0507,  0.0098, -0.0768],
+        [-0.0530,  0.0679,  0.0497,  ..., -0.0465, -0.0413, -0.0171]],
+       device='cuda:0'), grad: tensor([[ 0.0011,  0.0034,  0.0127,  ...,  0.0018,  0.0109,  0.0007],
+        [ 0.0004,  0.0003, -0.0029,  ..., -0.0033,  0.0008, -0.0038],
+        [ 0.0009,  0.0014,  0.0019,  ..., -0.0071,  0.0085, -0.0017],
+        ...,
+        [ 0.0013,  0.0003,  0.0043,  ...,  0.0063,  0.0021,  0.0010],
+        [ 0.0003, -0.0002, -0.0171,  ...,  0.0063, -0.0282,  0.0011],
+        [-0.0045,  0.0016, -0.0030,  ..., -0.0167,  0.0005,  0.0013]],
+       device='cuda:0')
+Epoch 193, bias, value: tensor([-0.0245,  0.0312,  0.0030, -0.0136,  0.0217, -0.0271,  0.0085, -0.0037,
+        -0.0025, -0.0100], device='cuda:0'), grad: tensor([ 0.0062,  0.0010, -0.0162,  0.0259,  0.0101, -0.0145,  0.0149,  0.0221,
+        -0.0084, -0.0412], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 192, time 214.81, cls_loss 0.5940 cls_loss_mapping 0.0082 cls_loss_causal 0.5169 re_mapping 0.0118 re_causal 0.0262 /// teacc 98.65 lr 0.00010000
+Epoch 194, weight, value: tensor([[-0.0765, -0.0991, -0.0807,  ..., -0.0320,  0.0500, -0.0902],
+        [-0.0639, -0.0754, -0.0567,  ...,  0.1003, -0.0316,  0.1884],
+        [ 0.0130, -0.0180, -0.0320,  ..., -0.0134, -0.0108, -0.0626],
+        ...,
+        [ 0.0275, -0.0929,  0.1406,  ...,  0.0249, -0.0731,  0.0405],
+        [-0.0353,  0.0526, -0.1319,  ..., -0.0517,  0.0105, -0.0772],
+        [-0.0535,  0.0689,  0.0505,  ..., -0.0452, -0.0413, -0.0165]],
+       device='cuda:0'), grad: tensor([[ 4.0293e-05,  9.2125e-04,  5.1117e-04,  ...,  5.6992e-03,
+          8.4281e-05,  4.5013e-04],
+        [ 3.1255e-06,  9.8801e-04,  1.2529e-04,  ..., -1.1375e-02,
+          9.1970e-05, -3.5458e-03],
+        [ 4.2409e-05, -4.0207e-03,  5.1308e-04,  ..., -6.0081e-03,
+         -1.8489e-04,  1.3030e-04],
+        ...,
+        [ 1.5736e-05,  5.2166e-04,  1.5664e-04,  ...,  3.2711e-03,
+          7.9095e-05,  1.3089e-04],
+        [ 8.3029e-05,  2.4078e-02,  5.5809e-03,  ..., -2.0866e-03,
+          1.6708e-03,  5.3596e-04],
+        [ 5.3585e-05,  1.1520e-03,  4.7565e-04,  ..., -4.7386e-05,
+          2.1660e-04,  5.5695e-04]], device='cuda:0')
+Epoch 194, bias, value: tensor([-0.0249,  0.0310,  0.0036, -0.0123,  0.0211, -0.0274,  0.0081, -0.0042,
+        -0.0027, -0.0094], device='cuda:0'), grad: tensor([ 0.0174, -0.0395, -0.0147, -0.0326,  0.0148,  0.0301,  0.0200,  0.0122,
+         0.0067, -0.0144], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 193, time 214.70, cls_loss 0.6051 cls_loss_mapping 0.0073 cls_loss_causal 0.5268 re_mapping 0.0113 re_causal 0.0258 /// teacc 98.65 lr 0.00010000
+Epoch 195, weight, value: tensor([[-0.0763, -0.0992, -0.0805,  ..., -0.0323,  0.0501, -0.0898],
+        [-0.0648, -0.0758, -0.0569,  ...,  0.1006, -0.0319,  0.1880],
+        [ 0.0128, -0.0188, -0.0329,  ..., -0.0137, -0.0106, -0.0629],
+        ...,
+        [ 0.0263, -0.0927,  0.1420,  ...,  0.0253, -0.0726,  0.0403],
+        [-0.0340,  0.0532, -0.1295,  ..., -0.0509,  0.0114, -0.0755],
+        [-0.0544,  0.0683,  0.0493,  ..., -0.0464, -0.0426, -0.0166]],
+       device='cuda:0'), grad: tensor([[ 6.7234e-05,  8.7261e-05, -1.4000e-03,  ..., -2.3212e-03,
+          3.3522e-04,  1.0176e-03],
+        [ 3.7730e-05,  6.2883e-05,  1.8644e-03,  ..., -6.8970e-03,
+         -2.9907e-05,  4.7803e-04],
+        [-6.1083e-04, -1.2245e-03, -4.0550e-03,  ..., -5.9738e-03,
+          2.9540e-04,  5.0879e-04],
+        ...,
+        [ 2.4259e-05,  2.6122e-05,  8.2703e-03,  ...,  5.6801e-03,
+          1.6670e-03, -1.4973e-03],
+        [-1.6584e-03, -2.1610e-03, -8.9722e-03,  ..., -7.2250e-03,
+         -3.6983e-03,  8.5211e-04],
+        [ 5.6177e-05,  6.5565e-05, -8.4152e-03,  ..., -4.7226e-03,
+         -1.0328e-03, -6.2656e-04]], device='cuda:0')
+Epoch 195, bias, value: tensor([-0.0247,  0.0309,  0.0032, -0.0113,  0.0214, -0.0280,  0.0078, -0.0032,
+        -0.0022, -0.0110], device='cuda:0'), grad: tensor([-0.0157, -0.0148, -0.0049,  0.0463,  0.0321, -0.0129, -0.0112,  0.0315,
+        -0.0176, -0.0328], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 194, time 214.86, cls_loss 0.5630 cls_loss_mapping 0.0058 cls_loss_causal 0.4843 re_mapping 0.0121 re_causal 0.0268 /// teacc 98.70 lr 0.00010000
+Epoch 196, weight, value: tensor([[-0.0765, -0.0990, -0.0810,  ..., -0.0323,  0.0501, -0.0910],
+        [-0.0648, -0.0756, -0.0583,  ...,  0.1007, -0.0333,  0.1884],
+        [ 0.0111, -0.0184, -0.0314,  ..., -0.0135, -0.0102, -0.0633],
+        ...,
+        [ 0.0264, -0.0929,  0.1416,  ...,  0.0259, -0.0746,  0.0411],
+        [-0.0341,  0.0530, -0.1275,  ..., -0.0514,  0.0117, -0.0759],
+        [-0.0540,  0.0687,  0.0488,  ..., -0.0471, -0.0405, -0.0170]],
+       device='cuda:0'), grad: tensor([[-4.4823e-03,  4.2886e-05,  5.7077e-04,  ..., -9.0027e-03,
+          3.8333e-06, -6.3019e-03],
+        [ 3.1233e-04,  6.7838e-06,  6.1321e-04,  ...,  3.1261e-03,
+          4.0792e-06,  5.7888e-04],
+        [ 4.5705e-04,  2.3377e-04, -1.2112e-04,  ..., -5.7335e-03,
+          2.5928e-06,  7.3290e-04],
+        ...,
+        [ 1.9550e-03,  3.4642e-04,  1.5745e-03,  ...,  5.0812e-03,
+          5.3316e-05,  1.7810e-04],
+        [-6.6280e-04, -4.8339e-05,  1.0471e-03,  ...,  3.2005e-03,
+          1.3506e-04,  3.7766e-03],
+        [-1.9760e-03, -6.2418e-04, -4.4174e-03,  ..., -6.1455e-03,
+         -2.3592e-04, -5.3787e-03]], device='cuda:0')
+Epoch 196, bias, value: tensor([-0.0247,  0.0308,  0.0038, -0.0117,  0.0206, -0.0281,  0.0088, -0.0033,
+        -0.0023, -0.0109], device='cuda:0'), grad: tensor([-0.0079,  0.0103, -0.0205,  0.0092,  0.0154, -0.0033, -0.0125,  0.0180,
+         0.0389, -0.0476], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 195, time 214.72, cls_loss 0.5883 cls_loss_mapping 0.0055 cls_loss_causal 0.5160 re_mapping 0.0112 re_causal 0.0256 /// teacc 98.55 lr 0.00010000
+Epoch 197, weight, value: tensor([[-0.0781, -0.0995, -0.0820,  ..., -0.0320,  0.0511, -0.0904],
+        [-0.0656, -0.0762, -0.0568,  ...,  0.1015, -0.0336,  0.1892],
+        [ 0.0104, -0.0190, -0.0320,  ..., -0.0142, -0.0113, -0.0638],
+        ...,
+        [ 0.0254, -0.0939,  0.1408,  ...,  0.0259, -0.0756,  0.0414],
+        [-0.0332,  0.0538, -0.1283,  ..., -0.0514,  0.0111, -0.0761],
+        [-0.0545,  0.0692,  0.0477,  ..., -0.0477, -0.0413, -0.0177]],
+       device='cuda:0'), grad: tensor([[-3.0828e-04,  1.1206e-04, -3.0518e-04,  ...,  2.6722e-03,
+         -7.1831e-03,  2.2888e-04],
+        [-1.3466e-03, -8.8739e-04, -5.9280e-03,  ..., -8.0795e-03,
+         -1.5411e-03, -2.3594e-03],
+        [ 2.8992e-04,  1.1426e-04, -9.0170e-04,  ..., -1.2825e-02,
+          7.1859e-04,  5.7364e-04],
+        ...,
+        [ 5.0020e-04,  1.6141e-04,  1.8673e-03,  ...,  6.9695e-03,
+          1.0862e-03, -2.6684e-03],
+        [ 6.3598e-05,  7.4327e-05,  1.4868e-03,  ...,  5.2299e-03,
+          1.4648e-03,  1.5364e-03],
+        [ 2.0421e-04,  4.4256e-05,  1.5297e-03,  ..., -3.2158e-03,
+          9.9754e-04,  1.8129e-03]], device='cuda:0')
+Epoch 197, bias, value: tensor([-0.0240,  0.0315,  0.0029, -0.0120,  0.0206, -0.0281,  0.0089, -0.0032,
+        -0.0018, -0.0120], device='cuda:0'), grad: tensor([-0.0118, -0.0182, -0.0383,  0.0258,  0.0022, -0.0062,  0.0185,  0.0003,
+         0.0298, -0.0022], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 196, time 214.88, cls_loss 0.6026 cls_loss_mapping 0.0044 cls_loss_causal 0.5242 re_mapping 0.0119 re_causal 0.0274 /// teacc 98.58 lr 0.00010000
+Epoch 198, weight, value: tensor([[-0.0781, -0.1003, -0.0827,  ..., -0.0322,  0.0506, -0.0904],
+        [-0.0659, -0.0752, -0.0568,  ...,  0.1014, -0.0335,  0.1899],
+        [ 0.0098, -0.0192, -0.0321,  ..., -0.0139, -0.0113, -0.0646],
+        ...,
+        [ 0.0250, -0.0934,  0.1410,  ...,  0.0254, -0.0754,  0.0414],
+        [-0.0343,  0.0532, -0.1278,  ..., -0.0520,  0.0114, -0.0771],
+        [-0.0541,  0.0695,  0.0478,  ..., -0.0485, -0.0426, -0.0173]],
+       device='cuda:0'), grad: tensor([[ 8.9288e-05,  2.7001e-05,  8.6784e-04,  ..., -8.2731e-04,
+          5.9223e-04,  9.6178e-04],
+        [ 1.2708e-04, -6.1035e-04, -2.0638e-03,  ..., -5.7373e-03,
+         -9.1400e-03,  1.0166e-03],
+        [ 1.2231e-04,  4.1991e-05,  1.2398e-03,  ...,  9.3231e-03,
+          7.2021e-03,  1.1778e-03],
+        ...,
+        [ 9.2745e-05,  4.5002e-05,  7.8678e-04,  ...,  6.9351e-03,
+          3.4285e-04,  1.1034e-03],
+        [ 1.0371e-04,  2.9397e-04, -1.1435e-03,  ..., -4.8447e-03,
+          3.8099e-04,  1.4210e-04],
+        [-9.6130e-04,  4.2677e-05,  6.3753e-04,  ..., -4.5090e-03,
+          2.4414e-04,  1.0071e-03]], device='cuda:0')
+Epoch 198, bias, value: tensor([-0.0238,  0.0313,  0.0031, -0.0116,  0.0220, -0.0278,  0.0084, -0.0034,
+        -0.0018, -0.0134], device='cuda:0'), grad: tensor([-0.0056, -0.0483,  0.0606, -0.0031, -0.0047,  0.0021,  0.0328,  0.0241,
+        -0.0458, -0.0122], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 197, time 214.70, cls_loss 0.5718 cls_loss_mapping 0.0060 cls_loss_causal 0.4911 re_mapping 0.0118 re_causal 0.0263 /// teacc 98.72 lr 0.00010000
+Epoch 199, weight, value: tensor([[-0.0773, -0.1009, -0.0829,  ..., -0.0315,  0.0499, -0.0912],
+        [-0.0657, -0.0746, -0.0571,  ...,  0.1004, -0.0327,  0.1904],
+        [ 0.0092, -0.0200, -0.0322,  ..., -0.0130, -0.0118, -0.0634],
+        ...,
+        [ 0.0263, -0.0940,  0.1408,  ...,  0.0255, -0.0757,  0.0416],
+        [-0.0342,  0.0534, -0.1274,  ..., -0.0531,  0.0114, -0.0777],
+        [-0.0554,  0.0710,  0.0480,  ..., -0.0474, -0.0426, -0.0178]],
+       device='cuda:0'), grad: tensor([[ 1.7452e-04,  3.9148e-04, -3.3116e-04,  ..., -4.0436e-03,
+         -1.3323e-03,  6.7282e-04],
+        [ 1.2010e-04,  2.3472e-04,  7.0763e-04,  ...,  2.1343e-03,
+          5.0426e-05,  5.4216e-04],
+        [ 7.3791e-05,  7.5626e-04,  8.6832e-04,  ...,  2.4147e-03,
+          5.7650e-04,  3.7718e-04],
+        ...,
+        [ 3.5048e-04,  1.1730e-03, -3.4370e-03,  ..., -1.1375e-02,
+          1.0175e-04, -3.4561e-03],
+        [ 3.1567e-04, -1.6193e-03,  1.1005e-03,  ...,  2.2316e-03,
+         -1.1206e-05, -1.9989e-03],
+        [ 2.2840e-04,  6.1750e-04,  1.1120e-03,  ...,  4.9400e-03,
+         -3.4666e-04,  7.7515e-03]], device='cuda:0')
+Epoch 199, bias, value: tensor([-0.0232,  0.0304,  0.0033, -0.0115,  0.0208, -0.0270,  0.0088, -0.0033,
+        -0.0027, -0.0125], device='cuda:0'), grad: tensor([-0.0240,  0.0076,  0.0107,  0.0102, -0.0082,  0.0064,  0.0121, -0.0282,
+         0.0013,  0.0122], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 198, time 214.35, cls_loss 0.5603 cls_loss_mapping 0.0063 cls_loss_causal 0.4761 re_mapping 0.0119 re_causal 0.0268 /// teacc 98.53 lr 0.00010000
+Epoch 200, weight, value: tensor([[-0.0765, -0.1026, -0.0835,  ..., -0.0326,  0.0506, -0.0905],
+        [-0.0656, -0.0747, -0.0567,  ...,  0.1002, -0.0334,  0.1905],
+        [ 0.0078, -0.0196, -0.0313,  ..., -0.0136, -0.0116, -0.0622],
+        ...,
+        [ 0.0252, -0.0940,  0.1406,  ...,  0.0272, -0.0755,  0.0415],
+        [-0.0331,  0.0545, -0.1273,  ..., -0.0534,  0.0117, -0.0790],
+        [-0.0553,  0.0706,  0.0476,  ..., -0.0468, -0.0435, -0.0187]],
+       device='cuda:0'), grad: tensor([[ 1.0058e-07,  3.7670e-05,  5.8031e-04,  ...,  2.0771e-03,
+          1.3947e-04,  6.8760e-04],
+        [ 1.5367e-07,  1.4889e-04,  1.1425e-03,  ...,  4.1962e-03,
+          2.0862e-04,  1.1406e-03],
+        [ 7.3947e-07,  3.0708e-04,  1.3533e-03,  ...,  2.5444e-03,
+          1.5628e-04,  9.7275e-04],
+        ...,
+        [ 2.6636e-07,  9.5463e-04,  1.6403e-02,  ...,  1.1261e-02,
+          3.7074e-04,  7.3395e-03],
+        [ 6.6590e-07,  2.3117e-03,  2.0065e-03,  ...,  2.0809e-03,
+          1.2046e-04,  1.4467e-03],
+        [ 1.6494e-06, -8.6308e-04, -1.6464e-02,  ...,  2.2640e-03,
+          2.6608e-04, -3.6068e-03]], device='cuda:0')
+Epoch 200, bias, value: tensor([-0.0234,  0.0300,  0.0025, -0.0112,  0.0221, -0.0281,  0.0089, -0.0018,
+        -0.0035, -0.0125], device='cuda:0'), grad: tensor([ 0.0158,  0.0258,  0.0127, -0.0200, -0.0500,  0.0110, -0.0157,  0.0565,
+        -0.0107, -0.0255], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 199, time 214.28, cls_loss 0.5897 cls_loss_mapping 0.0053 cls_loss_causal 0.5166 re_mapping 0.0117 re_causal 0.0274 /// teacc 98.56 lr 0.00010000
+Epoch 201, weight, value: tensor([[-0.0751, -0.1030, -0.0840,  ..., -0.0318,  0.0506, -0.0899],
+        [-0.0660, -0.0758, -0.0564,  ...,  0.1008, -0.0335,  0.1908],
+        [ 0.0074, -0.0189, -0.0316,  ..., -0.0136, -0.0102, -0.0615],
+        ...,
+        [ 0.0257, -0.0942,  0.1403,  ...,  0.0270, -0.0770,  0.0422],
+        [-0.0337,  0.0547, -0.1275,  ..., -0.0547,  0.0115, -0.0785],
+        [-0.0559,  0.0700,  0.0476,  ..., -0.0471, -0.0436, -0.0192]],
+       device='cuda:0'), grad: tensor([[ 0.0001,  0.0005, -0.0004,  ...,  0.0026,  0.0008,  0.0024],
+        [ 0.0007,  0.0004, -0.0031,  ..., -0.0013,  0.0002, -0.0071],
+        [-0.0005, -0.0011, -0.0025,  ...,  0.0044, -0.0024,  0.0022],
+        ...,
+        [ 0.0024,  0.0017,  0.0064,  ...,  0.0201,  0.0007,  0.0072],
+        [ 0.0007,  0.0009,  0.0006,  ..., -0.0316,  0.0009, -0.0024],
+        [-0.0054, -0.0035, -0.0076,  ..., -0.0101, -0.0014, -0.0101]],
+       device='cuda:0')
+Epoch 201, bias, value: tensor([-0.0228,  0.0306,  0.0025, -0.0118,  0.0215, -0.0267,  0.0084, -0.0024,
+        -0.0038, -0.0123], device='cuda:0'), grad: tensor([ 0.0174, -0.0272,  0.0086,  0.0007,  0.0043,  0.0008,  0.0355,  0.0552,
+        -0.0561, -0.0392], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 200, time 213.90, cls_loss 0.5929 cls_loss_mapping 0.0074 cls_loss_causal 0.5219 re_mapping 0.0119 re_causal 0.0269 /// teacc 98.45 lr 0.00010000
+Epoch 202, weight, value: tensor([[-0.0744, -0.1027, -0.0850,  ..., -0.0322,  0.0507, -0.0903],
+        [-0.0663, -0.0767, -0.0577,  ...,  0.1013, -0.0358,  0.1913],
+        [ 0.0072, -0.0190, -0.0319,  ..., -0.0129, -0.0099, -0.0625],
+        ...,
+        [ 0.0248, -0.0940,  0.1400,  ...,  0.0264, -0.0781,  0.0414],
+        [-0.0330,  0.0547, -0.1275,  ..., -0.0540,  0.0110, -0.0777],
+        [-0.0547,  0.0702,  0.0479,  ..., -0.0475, -0.0445, -0.0195]],
+       device='cuda:0'), grad: tensor([[ 1.6214e-06, -1.7524e-04,  5.2243e-05,  ...,  3.3398e-03,
+          6.0701e-04,  6.0129e-04],
+        [ 6.0290e-05,  5.4203e-07,  2.4092e-04,  ..., -1.6479e-02,
+         -3.1376e-03, -4.2076e-03],
+        [ 1.3523e-05,  8.1539e-05,  9.5606e-05,  ...,  3.8662e-03,
+          4.2653e-04,  8.8835e-04],
+        ...,
+        [-1.1940e-03,  1.2694e-06, -4.5357e-03,  ..., -1.1040e-02,
+          4.6897e-04, -7.3776e-03],
+        [ 1.2442e-05, -5.4110e-07,  7.1347e-05,  ...,  6.7215e-03,
+          2.8057e-03,  1.4915e-03],
+        [ 8.8024e-04,  1.5676e-05,  3.3588e-03,  ...,  7.9575e-03,
+          2.3956e-03,  6.1569e-03]], device='cuda:0')
+Epoch 202, bias, value: tensor([-0.0226,  0.0311,  0.0022, -0.0109,  0.0220, -0.0271,  0.0074, -0.0030,
+        -0.0030, -0.0129], device='cuda:0'), grad: tensor([ 0.0127, -0.0362,  0.0131, -0.0207,  0.0181, -0.0076,  0.0139, -0.0471,
+         0.0220,  0.0318], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 201, time 214.42, cls_loss 0.5849 cls_loss_mapping 0.0060 cls_loss_causal 0.5129 re_mapping 0.0116 re_causal 0.0269 /// teacc 98.54 lr 0.00010000
+Epoch 203, weight, value: tensor([[-0.0742, -0.1026, -0.0845,  ..., -0.0317,  0.0505, -0.0913],
+        [-0.0669, -0.0771, -0.0582,  ...,  0.1010, -0.0367,  0.1904],
+        [ 0.0055, -0.0185, -0.0324,  ..., -0.0126, -0.0098, -0.0646],
+        ...,
+        [ 0.0266, -0.0931,  0.1420,  ...,  0.0264, -0.0758,  0.0428],
+        [-0.0333,  0.0545, -0.1272,  ..., -0.0531,  0.0109, -0.0763],
+        [-0.0554,  0.0694,  0.0471,  ..., -0.0476, -0.0439, -0.0182]],
+       device='cuda:0'), grad: tensor([[ 5.6885e-06,  4.5925e-05,  1.9467e-04,  ...,  2.4471e-03,
+          8.5592e-04,  3.5310e-04],
+        [-3.5024e-04,  1.8060e-05,  4.7264e-03,  ...,  1.3504e-03,
+          1.9062e-04, -1.7977e-03],
+        [ 3.1292e-05,  8.8871e-05,  3.2883e-03,  ...,  6.5880e-03,
+          2.1613e-04,  5.1498e-04],
+        ...,
+        [ 5.0455e-05,  1.3466e-03, -6.9008e-03,  ..., -9.8419e-03,
+          5.1451e-04,  2.3651e-03],
+        [ 2.8253e-04, -2.9099e-02,  1.2274e-03,  ..., -1.4544e-03,
+         -1.5326e-03,  1.1768e-03],
+        [ 2.5064e-05,  2.6794e-02, -6.9284e-04,  ..., -3.0842e-03,
+          5.0259e-04,  9.4891e-04]], device='cuda:0')
+Epoch 203, bias, value: tensor([-0.0229,  0.0308,  0.0027, -0.0109,  0.0215, -0.0277,  0.0069, -0.0025,
+        -0.0028, -0.0122], device='cuda:0'), grad: tensor([ 0.0183, -0.0063,  0.0189,  0.0147, -0.0334,  0.0099,  0.0068,  0.0090,
+        -0.0630,  0.0251], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 202, time 214.77, cls_loss 0.5840 cls_loss_mapping 0.0067 cls_loss_causal 0.5131 re_mapping 0.0118 re_causal 0.0267 /// teacc 98.67 lr 0.00010000
+Epoch 204, weight, value: tensor([[-0.0744, -0.1036, -0.0845,  ..., -0.0317,  0.0505, -0.0912],
+        [-0.0676, -0.0773, -0.0590,  ...,  0.1013, -0.0373,  0.1902],
+        [ 0.0061, -0.0183, -0.0316,  ..., -0.0140, -0.0088, -0.0646],
+        ...,
+        [ 0.0247, -0.0937,  0.1419,  ...,  0.0267, -0.0748,  0.0428],
+        [-0.0323,  0.0538, -0.1287,  ..., -0.0545,  0.0100, -0.0772],
+        [-0.0563,  0.0691,  0.0473,  ..., -0.0473, -0.0437, -0.0182]],
+       device='cuda:0'), grad: tensor([[-1.5039e-03,  8.5950e-05,  1.0967e-03,  ..., -8.9722e-03,
+          4.0131e-03, -1.9970e-03],
+        [ 5.4926e-05,  2.9117e-05,  8.3685e-04,  ...,  1.8940e-03,
+          1.2436e-03,  6.7294e-05],
+        [ 2.6298e-04,  1.1140e-04,  8.9359e-04,  ...,  3.2005e-03,
+          1.2083e-03,  2.8944e-04],
+        ...,
+        [ 2.5725e-04,  1.1891e-04,  1.6279e-03,  ...,  3.6278e-03,
+          2.3880e-03,  4.5705e-04],
+        [ 2.7418e-04,  1.2560e-03,  3.2120e-03,  ...,  3.8128e-03,
+          3.6888e-03,  5.8317e-04],
+        [ 3.5405e-05,  2.6846e-04, -6.5880e-03,  ...,  3.5782e-03,
+         -2.0676e-02, -3.4547e-04]], device='cuda:0')
+Epoch 204, bias, value: tensor([-0.0230,  0.0304,  0.0018, -0.0109,  0.0216, -0.0271,  0.0080, -0.0022,
+        -0.0036, -0.0121], device='cuda:0'), grad: tensor([-0.0125,  0.0167,  0.0217, -0.0207, -0.0407,  0.0055, -0.0113,  0.0238,
+         0.0274, -0.0100], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 203, time 214.45, cls_loss 0.5750 cls_loss_mapping 0.0052 cls_loss_causal 0.4986 re_mapping 0.0116 re_causal 0.0266 /// teacc 98.48 lr 0.00010000
+Epoch 205, weight, value: tensor([[-0.0734, -0.1043, -0.0832,  ..., -0.0314,  0.0496, -0.0913],
+        [-0.0673, -0.0770, -0.0589,  ...,  0.1017, -0.0361,  0.1912],
+        [ 0.0069, -0.0184, -0.0319,  ..., -0.0141, -0.0086, -0.0656],
+        ...,
+        [ 0.0247, -0.0938,  0.1411,  ...,  0.0264, -0.0736,  0.0425],
+        [-0.0325,  0.0540, -0.1291,  ..., -0.0537,  0.0099, -0.0765],
+        [-0.0570,  0.0688,  0.0482,  ..., -0.0468, -0.0427, -0.0183]],
+       device='cuda:0'), grad: tensor([[ 2.4006e-05,  4.0197e-04,  1.6737e-04,  ...,  2.2411e-03,
+          1.0455e-04,  2.3782e-05],
+        [ 1.7537e-06, -2.7466e-04,  7.0035e-05,  ..., -1.0765e-02,
+         -1.0252e-03, -2.8610e-04],
+        [ 9.6560e-05,  5.4073e-04,  5.6410e-04,  ..., -1.5402e-03,
+          7.7248e-05,  1.0175e-04],
+        ...,
+        [ 8.3297e-06,  6.4564e-04,  6.1464e-04,  ...,  3.5248e-03,
+          6.5506e-05,  6.2823e-05],
+        [ 3.0309e-05,  9.4223e-04,  7.4863e-04,  ...,  3.7212e-03,
+          2.0123e-04,  1.8585e-04],
+        [ 9.3058e-06,  3.5119e-04,  1.4334e-03,  ..., -7.2300e-05,
+         -5.6314e-04,  2.7704e-04]], device='cuda:0')
+Epoch 205, bias, value: tensor([-0.0240,  0.0306,  0.0026, -0.0110,  0.0214, -0.0279,  0.0080, -0.0026,
+        -0.0026, -0.0116], device='cuda:0'), grad: tensor([ 0.0122, -0.0504, -0.0175,  0.0094,  0.0135,  0.0145,  0.0016,  0.0192,
+        -0.0119,  0.0094], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 204, time 214.45, cls_loss 0.5822 cls_loss_mapping 0.0054 cls_loss_causal 0.5048 re_mapping 0.0114 re_causal 0.0264 /// teacc 98.57 lr 0.00010000
+Epoch 206, weight, value: tensor([[-0.0747, -0.1044, -0.0828,  ..., -0.0320,  0.0497, -0.0923],
+        [-0.0664, -0.0772, -0.0591,  ...,  0.1020, -0.0359,  0.1914],
+        [ 0.0058, -0.0181, -0.0309,  ..., -0.0139, -0.0087, -0.0667],
+        ...,
+        [ 0.0252, -0.0929,  0.1399,  ...,  0.0265, -0.0745,  0.0434],
+        [-0.0322,  0.0543, -0.1292,  ..., -0.0531,  0.0097, -0.0774],
+        [-0.0571,  0.0687,  0.0489,  ..., -0.0484, -0.0424, -0.0187]],
+       device='cuda:0'), grad: tensor([[ 2.6202e-04,  4.7423e-06,  6.1750e-04,  ...,  2.8496e-03,
+          3.6407e-04,  2.5010e-04],
+        [-3.6125e-03,  5.0478e-07, -6.8779e-03,  ..., -9.0485e-03,
+         -4.3221e-03, -2.2449e-03],
+        [ 6.1560e-04,  2.5725e-04,  9.5034e-04,  ...,  2.6302e-03,
+          4.6253e-04,  2.6250e-04],
+        ...,
+        [ 1.3647e-03,  2.4498e-05,  2.4986e-03,  ...,  4.2381e-03,
+          1.5697e-03,  1.1587e-03],
+        [ 4.4441e-03,  3.4302e-02,  2.5139e-03,  ...,  4.8523e-03,
+          2.1637e-02,  2.7390e-03],
+        [ 7.2241e-04, -3.2898e-02,  1.2960e-03,  ...,  2.7866e-03,
+         -2.0584e-02,  6.2847e-04]], device='cuda:0')
+Epoch 206, bias, value: tensor([-0.0230,  0.0315,  0.0027, -0.0106,  0.0215, -0.0289,  0.0086, -0.0039,
+        -0.0024, -0.0125], device='cuda:0'), grad: tensor([ 0.0119, -0.0352,  0.0118, -0.0016, -0.0209, -0.0333,  0.0065,  0.0182,
+         0.0556, -0.0131], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 205, time 214.31, cls_loss 0.5920 cls_loss_mapping 0.0062 cls_loss_causal 0.5251 re_mapping 0.0116 re_causal 0.0270 /// teacc 98.38 lr 0.00010000
+Epoch 207, weight, value: tensor([[-0.0740, -0.1039, -0.0827,  ..., -0.0325,  0.0494, -0.0932],
+        [-0.0650, -0.0785, -0.0581,  ...,  0.1014, -0.0329,  0.1929],
+        [ 0.0057, -0.0180, -0.0296,  ..., -0.0128, -0.0085, -0.0650],
+        ...,
+        [ 0.0259, -0.0932,  0.1398,  ...,  0.0260, -0.0751,  0.0434],
+        [-0.0320,  0.0538, -0.1305,  ..., -0.0529,  0.0102, -0.0777],
+        [-0.0581,  0.0689,  0.0488,  ..., -0.0487, -0.0425, -0.0186]],
+       device='cuda:0'), grad: tensor([[ 1.2279e-05,  5.4181e-05,  4.8317e-06,  ..., -3.4561e-03,
+         -4.1428e-03, -8.6355e-04],
+        [-4.2498e-05,  1.7986e-05, -1.5236e-05,  ..., -2.6741e-03,
+          6.1417e-04,  1.2960e-03],
+        [ 4.7505e-05,  9.2328e-05,  1.7357e-04,  ...,  1.0848e-05,
+          2.0332e-03,  5.0259e-04],
+        ...,
+        [-1.2243e-04,  3.0994e-05, -4.9925e-04,  ...,  3.0651e-03,
+          7.0143e-04, -5.4741e-03],
+        [ 2.3544e-05,  2.0850e-04,  8.4043e-05,  ...,  2.9106e-03,
+          4.7326e-04,  7.2289e-04],
+        [ 5.0575e-05,  2.1780e-04,  8.6904e-05,  ..., -2.3499e-03,
+          6.1178e-04,  1.1015e-03]], device='cuda:0')
+Epoch 207, bias, value: tensor([-0.0231,  0.0311,  0.0024, -0.0099,  0.0209, -0.0283,  0.0084, -0.0037,
+        -0.0022, -0.0127], device='cuda:0'), grad: tensor([-0.0097, -0.0114,  0.0094, -0.0426,  0.0252,  0.0376,  0.0184, -0.0074,
+         0.0177, -0.0372], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 206, time 214.72, cls_loss 0.5697 cls_loss_mapping 0.0050 cls_loss_causal 0.4924 re_mapping 0.0113 re_causal 0.0252 /// teacc 98.50 lr 0.00010000
+Epoch 208, weight, value: tensor([[-0.0744, -0.1043, -0.0822,  ..., -0.0317,  0.0491, -0.0924],
+        [-0.0648, -0.0788, -0.0570,  ...,  0.1016, -0.0334,  0.1910],
+        [ 0.0061, -0.0180, -0.0301,  ..., -0.0139, -0.0081, -0.0647],
+        ...,
+        [ 0.0270, -0.0937,  0.1406,  ...,  0.0261, -0.0761,  0.0429],
+        [-0.0339,  0.0548, -0.1310,  ..., -0.0532,  0.0096, -0.0791],
+        [-0.0577,  0.0688,  0.0494,  ..., -0.0484, -0.0428, -0.0179]],
+       device='cuda:0'), grad: tensor([[ 3.4809e-04,  1.8036e-04,  1.8663e-03,  ...,  2.1725e-03,
+         -1.1816e-03,  1.8721e-03],
+        [ 5.0306e-04,  1.3053e-04,  1.1911e-03,  ...,  3.0785e-03,
+          3.7408e-04, -7.8506e-03],
+        [-1.8110e-03,  1.1787e-02, -2.6493e-03,  ..., -2.6321e-04,
+          1.9875e-03, -8.4341e-06],
+        ...,
+        [-3.8071e-03, -1.2274e-03, -9.5901e-03,  ..., -5.5084e-03,
+         -4.3449e-03, -1.3380e-03],
+        [-7.3910e-04,  1.9043e-02,  4.6396e-04,  ...,  9.7466e-04,
+          1.2553e-04,  2.7752e-04],
+        [ 3.3150e-03,  9.8324e-04,  4.4250e-03,  ..., -7.2212e-03,
+          3.1066e-04, -1.3006e-04]], device='cuda:0')
+Epoch 208, bias, value: tensor([-0.0227,  0.0316,  0.0023, -0.0095,  0.0220, -0.0297,  0.0083, -0.0041,
+        -0.0026, -0.0126], device='cuda:0'), grad: tensor([ 0.0245,  0.0055,  0.0083, -0.0018,  0.0043,  0.0127, -0.0097, -0.0229,
+        -0.0085, -0.0123], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 207, time 214.48, cls_loss 0.5369 cls_loss_mapping 0.0058 cls_loss_causal 0.4714 re_mapping 0.0113 re_causal 0.0255 /// teacc 98.52 lr 0.00010000
+Epoch 209, weight, value: tensor([[-0.0743, -0.1049, -0.0834,  ..., -0.0322,  0.0490, -0.0934],
+        [-0.0647, -0.0793, -0.0578,  ...,  0.1010, -0.0334,  0.1918],
+        [ 0.0066, -0.0184, -0.0296,  ..., -0.0132, -0.0078, -0.0660],
+        ...,
+        [ 0.0269, -0.0932,  0.1401,  ...,  0.0266, -0.0764,  0.0440],
+        [-0.0338,  0.0545, -0.1309,  ..., -0.0532,  0.0096, -0.0795],
+        [-0.0581,  0.0690,  0.0491,  ..., -0.0496, -0.0431, -0.0187]],
+       device='cuda:0'), grad: tensor([[ 4.5896e-04,  7.6473e-05, -3.3140e-04,  ..., -6.0539e-03,
+          8.0729e-04,  9.2220e-04],
+        [-2.2221e-04,  7.2002e-05,  1.2932e-03,  ..., -7.3814e-03,
+         -1.0307e-02,  3.0155e-03],
+        [ 1.0376e-03,  1.9646e-03,  6.5041e-04,  ...,  4.6844e-03,
+          1.6899e-03,  1.0853e-03],
+        ...,
+        [-3.5000e-04,  3.3408e-05, -7.3814e-04,  ...,  1.1454e-03,
+          6.6662e-04,  1.3771e-03],
+        [ 2.8968e-04,  9.0122e-04,  1.3554e-04,  ...,  6.0387e-03,
+          1.1072e-03,  5.2214e-04],
+        [ 1.2293e-03, -3.9548e-05,  7.4291e-04,  ...,  6.5269e-03,
+          5.6505e-04,  4.9324e-03]], device='cuda:0')
+Epoch 209, bias, value: tensor([-0.0238,  0.0310,  0.0032, -0.0088,  0.0217, -0.0286,  0.0081, -0.0039,
+        -0.0025, -0.0133], device='cuda:0'), grad: tensor([-0.0382, -0.0286,  0.0015,  0.0038, -0.0443,  0.0020,  0.0435, -0.0013,
+         0.0304,  0.0311], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 208, time 214.81, cls_loss 0.5768 cls_loss_mapping 0.0072 cls_loss_causal 0.4982 re_mapping 0.0111 re_causal 0.0241 /// teacc 98.63 lr 0.00010000
+Epoch 210, weight, value: tensor([[-0.0737, -0.1051, -0.0835,  ..., -0.0328,  0.0489, -0.0930],
+        [-0.0656, -0.0790, -0.0582,  ...,  0.1012, -0.0320,  0.1915],
+        [ 0.0064, -0.0181, -0.0292,  ..., -0.0145, -0.0097, -0.0662],
+        ...,
+        [ 0.0268, -0.0928,  0.1400,  ...,  0.0265, -0.0768,  0.0438],
+        [-0.0341,  0.0545, -0.1312,  ..., -0.0529,  0.0087, -0.0793],
+        [-0.0577,  0.0697,  0.0493,  ..., -0.0495, -0.0427, -0.0190]],
+       device='cuda:0'), grad: tensor([[ 7.6115e-05,  1.9813e-04,  2.2435e-04,  ...,  2.1839e-03,
+          3.5739e-04,  6.6400e-05],
+        [ 2.7752e-04,  3.9864e-04,  5.7745e-04,  ..., -1.1110e-03,
+          5.5790e-04, -4.9973e-04],
+        [ 1.1814e-04, -2.5826e-03,  8.1444e-04,  ...,  1.8148e-03,
+          9.6283e-03,  7.1573e-04],
+        ...,
+        [ 2.2304e-04,  1.3323e-03,  7.4434e-04,  ...,  5.3329e-03,
+          2.6107e-04,  1.7309e-04],
+        [ 1.7953e-04,  1.6129e-04, -2.8706e-03,  ..., -1.2642e-02,
+         -3.8971e-02,  1.3065e-04],
+        [-2.1400e-03, -6.1035e-04, -2.2030e-03,  ..., -6.3477e-03,
+          2.0754e-04, -2.0084e-03]], device='cuda:0')
+Epoch 210, bias, value: tensor([-0.0235,  0.0308,  0.0025, -0.0092,  0.0219, -0.0273,  0.0069, -0.0043,
+        -0.0016, -0.0132], device='cuda:0'), grad: tensor([ 0.0172, -0.0247,  0.0184,  0.0362,  0.0249,  0.0246, -0.0527,  0.0337,
+        -0.0596, -0.0180], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 209, time 214.34, cls_loss 0.6107 cls_loss_mapping 0.0060 cls_loss_causal 0.5219 re_mapping 0.0114 re_causal 0.0255 /// teacc 98.54 lr 0.00010000
+Epoch 211, weight, value: tensor([[-0.0724, -0.1056, -0.0836,  ..., -0.0329,  0.0493, -0.0936],
+        [-0.0658, -0.0799, -0.0577,  ...,  0.1006, -0.0319,  0.1922],
+        [ 0.0061, -0.0176, -0.0295,  ..., -0.0150, -0.0094, -0.0669],
+        ...,
+        [ 0.0267, -0.0929,  0.1411,  ...,  0.0268, -0.0770,  0.0449],
+        [-0.0353,  0.0540, -0.1322,  ..., -0.0520,  0.0106, -0.0799],
+        [-0.0571,  0.0697,  0.0497,  ..., -0.0493, -0.0436, -0.0196]],
+       device='cuda:0'), grad: tensor([[-5.6410e-04,  2.7254e-05,  3.3617e-05,  ...,  1.1835e-03,
+          1.2834e-06,  5.1260e-05],
+        [ 4.3482e-05,  2.4170e-05,  3.6627e-05,  ..., -3.0518e-03,
+          4.3139e-06, -2.4533e-04],
+        [-4.9162e-04,  2.5916e-04,  1.0246e-04,  ..., -3.9339e-04,
+          1.0049e-04,  9.5606e-05],
+        ...,
+        [ 2.0146e-04,  9.5427e-05,  1.2083e-03,  ...,  2.1553e-03,
+          1.8626e-07,  9.0981e-04],
+        [ 1.5819e-04, -4.5967e-04,  1.4567e-04,  ..., -6.7139e-03,
+          1.7174e-06,  1.7560e-04],
+        [ 4.3273e-05, -5.9992e-05, -3.7518e-03,  ..., -9.7656e-04,
+          8.8140e-06, -3.7041e-03]], device='cuda:0')
+Epoch 211, bias, value: tensor([-0.0241,  0.0308,  0.0025, -0.0101,  0.0219, -0.0275,  0.0079, -0.0049,
+        -0.0010, -0.0127], device='cuda:0'), grad: tensor([-0.0123, -0.0259,  0.0157, -0.0126,  0.0193,  0.0190,  0.0167,  0.0147,
+        -0.0281, -0.0065], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 210, time 214.20, cls_loss 0.5693 cls_loss_mapping 0.0049 cls_loss_causal 0.4964 re_mapping 0.0112 re_causal 0.0255 /// teacc 98.57 lr 0.00010000
+Epoch 212, weight, value: tensor([[-0.0728, -0.1057, -0.0831,  ..., -0.0335,  0.0495, -0.0938],
+        [-0.0658, -0.0800, -0.0575,  ...,  0.1011, -0.0322,  0.1933],
+        [ 0.0056, -0.0182, -0.0290,  ..., -0.0144, -0.0096, -0.0671],
+        ...,
+        [ 0.0270, -0.0936,  0.1415,  ...,  0.0261, -0.0772,  0.0445],
+        [-0.0355,  0.0543, -0.1341,  ..., -0.0517,  0.0121, -0.0788],
+        [-0.0574,  0.0686,  0.0487,  ..., -0.0485, -0.0450, -0.0198]],
+       device='cuda:0'), grad: tensor([[ 1.7881e-04,  3.5381e-04,  4.0030e-04,  ..., -4.5891e-03,
+          5.9986e-04,  3.7342e-05],
+        [ 9.3281e-05,  1.2591e-05,  1.8585e-04,  ..., -2.8381e-03,
+         -2.5959e-03,  1.9398e-03],
+        [ 1.2803e-04, -8.5211e-04, -1.2903e-03,  ...,  1.8597e-03,
+         -4.0859e-05,  3.4404e-04],
+        ...,
+        [-3.1328e-04,  8.1837e-05, -4.8494e-04,  ..., -3.9825e-03,
+          2.3043e-04, -9.0256e-03],
+        [ 1.4806e-04,  1.3399e-04,  5.1832e-04,  ...,  3.1185e-03,
+          4.1866e-04,  3.8433e-03],
+        [ 2.1446e-04,  3.0503e-05,  3.0708e-04,  ...,  3.8204e-03,
+          2.3937e-04,  9.2077e-04]], device='cuda:0')
+Epoch 212, bias, value: tensor([-0.0240,  0.0324,  0.0030, -0.0108,  0.0219, -0.0285,  0.0083, -0.0062,
+        -0.0009, -0.0123], device='cuda:0'), grad: tensor([-0.0358,  0.0043,  0.0173,  0.0018, -0.0034,  0.0294, -0.0375, -0.0066,
+         0.0038,  0.0267], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 211, time 214.07, cls_loss 0.5560 cls_loss_mapping 0.0067 cls_loss_causal 0.4791 re_mapping 0.0117 re_causal 0.0258 /// teacc 98.53 lr 0.00010000
+Epoch 213, weight, value: tensor([[-0.0739, -0.1072, -0.0843,  ..., -0.0335,  0.0500, -0.0945],
+        [-0.0656, -0.0813, -0.0578,  ...,  0.1010, -0.0319,  0.1936],
+        [ 0.0053, -0.0187, -0.0276,  ..., -0.0135, -0.0100, -0.0679],
+        ...,
+        [ 0.0262, -0.0939,  0.1411,  ...,  0.0259, -0.0769,  0.0448],
+        [-0.0343,  0.0551, -0.1329,  ..., -0.0511,  0.0115, -0.0774],
+        [-0.0583,  0.0682,  0.0493,  ..., -0.0494, -0.0459, -0.0201]],
+       device='cuda:0'), grad: tensor([[ 2.8461e-06,  4.2021e-05,  4.3154e-05,  ...,  2.9469e-03,
+          4.3988e-04,  7.9918e-04],
+        [ 3.8557e-06,  7.7844e-05,  1.4055e-04,  ..., -1.3390e-02,
+         -3.4866e-03, -6.4850e-03],
+        [-4.4964e-06,  1.6022e-04,  1.3285e-03,  ...,  2.1477e-03,
+          5.3787e-04,  1.2484e-03],
+        ...,
+        [ 2.8089e-05,  3.6567e-05, -1.7338e-03,  ...,  7.6199e-04,
+          2.4378e-04, -6.9380e-04],
+        [-1.0252e-03, -2.2566e-04,  1.6749e-04,  ...,  2.8095e-03,
+         -4.5586e-04,  1.1101e-03],
+        [ 2.2531e-05,  3.5310e-04,  4.2915e-05,  ...,  1.5097e-03,
+          3.5334e-04,  2.6264e-03]], device='cuda:0')
+Epoch 213, bias, value: tensor([-0.0242,  0.0316,  0.0032, -0.0109,  0.0229, -0.0282,  0.0088, -0.0065,
+        -0.0008, -0.0128], device='cuda:0'), grad: tensor([ 0.0157, -0.0582,  0.0180,  0.0091, -0.0141,  0.0170,  0.0035, -0.0028,
+         0.0094,  0.0022], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 212, time 213.99, cls_loss 0.5731 cls_loss_mapping 0.0058 cls_loss_causal 0.4952 re_mapping 0.0111 re_causal 0.0249 /// teacc 98.55 lr 0.00010000
+Epoch 214, weight, value: tensor([[-0.0739, -0.1070, -0.0843,  ..., -0.0338,  0.0502, -0.0954],
+        [-0.0652, -0.0808, -0.0585,  ...,  0.1014, -0.0325,  0.1955],
+        [ 0.0054, -0.0191, -0.0274,  ..., -0.0133, -0.0100, -0.0684],
+        ...,
+        [ 0.0262, -0.0942,  0.1408,  ...,  0.0258, -0.0773,  0.0431],
+        [-0.0349,  0.0553, -0.1328,  ..., -0.0512,  0.0113, -0.0785],
+        [-0.0576,  0.0686,  0.0515,  ..., -0.0493, -0.0456, -0.0182]],
+       device='cuda:0'), grad: tensor([[ 0.0003,  0.0006,  0.0011,  ...,  0.0039,  0.0019,  0.0002],
+        [ 0.0004,  0.0004, -0.0003,  ..., -0.0005,  0.0004, -0.0011],
+        [ 0.0006,  0.0006,  0.0004,  ..., -0.0107, -0.0016, -0.0010],
+        ...,
+        [-0.0019, -0.0004, -0.0045,  ..., -0.0005,  0.0002,  0.0001],
+        [ 0.0007,  0.0009,  0.0017,  ...,  0.0067,  0.0009,  0.0006],
+        [ 0.0006,  0.0007,  0.0013,  ...,  0.0027,  0.0002,  0.0002]],
+       device='cuda:0')
+Epoch 214, bias, value: tensor([-0.0248,  0.0319,  0.0033, -0.0112,  0.0235, -0.0281,  0.0075, -0.0064,
+        -0.0010, -0.0118], device='cuda:0'), grad: tensor([ 0.0069, -0.0064, -0.0331,  0.0267, -0.0627,  0.0283, -0.0279,  0.0061,
+         0.0406,  0.0214], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 213, time 214.09, cls_loss 0.5702 cls_loss_mapping 0.0061 cls_loss_causal 0.4836 re_mapping 0.0113 re_causal 0.0259 /// teacc 98.59 lr 0.00010000
+Epoch 215, weight, value: tensor([[-0.0742, -0.1078, -0.0847,  ..., -0.0338,  0.0498, -0.0958],
+        [-0.0648, -0.0807, -0.0583,  ...,  0.1019, -0.0322,  0.1956],
+        [ 0.0045, -0.0200, -0.0292,  ..., -0.0139, -0.0099, -0.0679],
+        ...,
+        [ 0.0273, -0.0955,  0.1404,  ...,  0.0261, -0.0774,  0.0435],
+        [-0.0355,  0.0561, -0.1347,  ..., -0.0518,  0.0113, -0.0791],
+        [-0.0581,  0.0677,  0.0539,  ..., -0.0494, -0.0458, -0.0187]],
+       device='cuda:0'), grad: tensor([[ 1.0860e-04, -1.0872e-03, -1.4715e-03,  ...,  1.0023e-03,
+         -1.7109e-03,  1.2410e-04],
+        [ 3.2514e-05,  6.8657e-06, -1.6870e-03,  ..., -6.4583e-03,
+          7.2420e-06, -1.7004e-03],
+        [ 4.5635e-06,  8.9169e-05,  5.0259e-04,  ...,  3.0155e-03,
+          1.2553e-04,  3.6430e-04],
+        ...,
+        [-1.2612e-04,  6.8545e-05,  2.0802e-04,  ...,  2.5578e-03,
+          6.7174e-05,  9.2149e-05],
+        [ 2.4125e-05,  2.0325e-04,  4.4131e-04,  ...,  1.8349e-03,
+          1.0383e-04,  2.8801e-04],
+        [ 7.8022e-05, -3.6216e-04, -5.5164e-05,  ...,  1.7405e-03,
+          2.2709e-04,  8.7023e-05]], device='cuda:0')
+Epoch 215, bias, value: tensor([-0.0239,  0.0312,  0.0027, -0.0112,  0.0234, -0.0270,  0.0074, -0.0055,
+        -0.0013, -0.0128], device='cuda:0'), grad: tensor([ 0.0021, -0.0485,  0.0186,  0.0160, -0.0656,  0.0120,  0.0176,  0.0187,
+         0.0125,  0.0167], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 214, time 214.07, cls_loss 0.5990 cls_loss_mapping 0.0072 cls_loss_causal 0.5236 re_mapping 0.0103 re_causal 0.0235 /// teacc 98.73 lr 0.00010000
+Epoch 216, weight, value: tensor([[-0.0747, -0.1082, -0.0842,  ..., -0.0340,  0.0499, -0.0962],
+        [-0.0648, -0.0788, -0.0580,  ...,  0.1016, -0.0317,  0.1951],
+        [ 0.0048, -0.0186, -0.0306,  ..., -0.0141, -0.0099, -0.0674],
+        ...,
+        [ 0.0275, -0.0961,  0.1411,  ...,  0.0260, -0.0773,  0.0444],
+        [-0.0334,  0.0571, -0.1345,  ..., -0.0515,  0.0111, -0.0779],
+        [-0.0584,  0.0665,  0.0531,  ..., -0.0503, -0.0450, -0.0196]],
+       device='cuda:0'), grad: tensor([[-1.6766e-03, -2.1706e-03, -2.3804e-03,  ..., -8.8196e-03,
+          8.6963e-05, -5.6839e-03],
+        [ 1.8954e-04,  1.7989e-04, -4.7264e-03,  ..., -4.7913e-03,
+         -1.4114e-03,  1.5240e-03],
+        [ 1.3876e-04,  3.3379e-04,  1.0920e-03,  ..., -1.7757e-03,
+          2.8896e-04, -3.4943e-03],
+        ...,
+        [ 3.8862e-05,  4.7636e-04,  9.1553e-04,  ...,  4.9667e-03,
+          1.0306e-04,  1.6413e-03],
+        [-1.4055e-04,  9.5785e-05,  6.0511e-04,  ...,  2.2757e-04,
+          1.0997e-04,  7.9393e-04],
+        [ 9.3985e-04, -5.0873e-05,  8.7261e-04,  ..., -9.9564e-03,
+          6.9737e-05,  9.5654e-04]], device='cuda:0')
+Epoch 216, bias, value: tensor([-0.0239,  0.0308,  0.0041, -0.0113,  0.0233, -0.0277,  0.0075, -0.0055,
+        -0.0009, -0.0134], device='cuda:0'), grad: tensor([-0.0517, -0.0034, -0.0014,  0.0219,  0.0385,  0.0168,  0.0247,  0.0160,
+        -0.0020, -0.0595], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 215, time 214.16, cls_loss 0.5983 cls_loss_mapping 0.0069 cls_loss_causal 0.5249 re_mapping 0.0112 re_causal 0.0248 /// teacc 98.72 lr 0.00010000
+Epoch 217, weight, value: tensor([[-0.0756, -0.1082, -0.0847,  ..., -0.0337,  0.0499, -0.0950],
+        [-0.0666, -0.0787, -0.0587,  ...,  0.1014, -0.0321,  0.1952],
+        [ 0.0045, -0.0171, -0.0307,  ..., -0.0138, -0.0100, -0.0674],
+        ...,
+        [ 0.0270, -0.0970,  0.1413,  ...,  0.0264, -0.0778,  0.0436],
+        [-0.0322,  0.0565, -0.1333,  ..., -0.0520,  0.0118, -0.0778],
+        [-0.0577,  0.0672,  0.0535,  ..., -0.0506, -0.0452, -0.0190]],
+       device='cuda:0'), grad: tensor([[-2.2469e-03, -7.9584e-04,  9.6202e-05,  ..., -1.5839e-02,
+         -2.4819e-04, -1.3809e-03],
+        [ 1.1177e-03,  3.7718e-04,  6.3324e-04,  ...,  1.5930e-02,
+          7.2829e-07,  5.3215e-03],
+        [ 2.1815e-04,  8.2731e-05,  3.3879e-04,  ..., -8.6288e-03,
+          1.9997e-05, -5.6610e-03],
+        ...,
+        [ 4.8608e-05,  1.8585e-04, -4.1924e-03,  ..., -1.5793e-02,
+          1.8645e-06, -1.3351e-03],
+        [ 9.0480e-05,  1.9610e-04,  1.9703e-03,  ...,  5.5656e-03,
+          1.9699e-05, -2.4164e-04],
+        [ 7.8321e-05, -2.9111e-04,  4.4394e-04,  ...,  3.0766e-03,
+          6.2883e-05,  5.3644e-04]], device='cuda:0')
+Epoch 217, bias, value: tensor([-0.0233,  0.0317,  0.0043, -0.0111,  0.0224, -0.0280,  0.0065, -0.0054,
+        -0.0005, -0.0136], device='cuda:0'), grad: tensor([-0.0470,  0.0547, -0.0432,  0.0159,  0.0076,  0.0119,  0.0261, -0.0571,
+         0.0127,  0.0183], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 216, time 214.43, cls_loss 0.5651 cls_loss_mapping 0.0055 cls_loss_causal 0.4823 re_mapping 0.0119 re_causal 0.0260 /// teacc 98.69 lr 0.00010000
+Epoch 218, weight, value: tensor([[-0.0759, -0.1082, -0.0852,  ..., -0.0336,  0.0494, -0.0965],
+        [-0.0657, -0.0808, -0.0582,  ...,  0.1013, -0.0320,  0.1956],
+        [ 0.0072, -0.0174, -0.0304,  ..., -0.0137, -0.0095, -0.0670],
+        ...,
+        [ 0.0269, -0.0987,  0.1409,  ...,  0.0278, -0.0774,  0.0433],
+        [-0.0357,  0.0562, -0.1339,  ..., -0.0522,  0.0114, -0.0779],
+        [-0.0563,  0.0667,  0.0532,  ..., -0.0495, -0.0453, -0.0184]],
+       device='cuda:0'), grad: tensor([[ 3.6621e-04, -9.9945e-03,  2.0218e-04,  ..., -8.1558e-03,
+         -1.3723e-03,  2.1625e-04],
+        [ 2.6665e-03,  5.5361e-04,  1.2169e-03,  ...,  8.1863e-03,
+          1.3754e-05,  1.8330e-03],
+        [ 2.2430e-03,  1.9646e-03,  3.4103e-03,  ...,  7.9269e-03,
+          2.7466e-04,  1.3304e-03],
+        ...,
+        [-1.8768e-03, -9.1839e-04, -4.3297e-03,  ...,  5.2786e-04,
+          4.5002e-06, -1.5898e-03],
+        [-4.4098e-03,  8.9264e-03, -8.0252e-04,  ..., -2.1648e-03,
+          1.4296e-03, -3.3054e-03],
+        [ 3.5715e-04, -5.0812e-03,  2.7966e-04,  ...,  2.3766e-03,
+          3.7283e-05,  2.0742e-04]], device='cuda:0')
+Epoch 218, bias, value: tensor([-0.0230,  0.0310,  0.0051, -0.0109,  0.0212, -0.0287,  0.0066, -0.0044,
+        -0.0009, -0.0131], device='cuda:0'), grad: tensor([-0.0450,  0.0313,  0.0322, -0.0626,  0.0303,  0.0267, -0.0163,  0.0027,
+         0.0120, -0.0114], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 217, time 214.12, cls_loss 0.5768 cls_loss_mapping 0.0051 cls_loss_causal 0.5084 re_mapping 0.0115 re_causal 0.0269 /// teacc 98.68 lr 0.00010000
+Epoch 219, weight, value: tensor([[-0.0764, -0.1083, -0.0858,  ..., -0.0336,  0.0489, -0.0982],
+        [-0.0663, -0.0794, -0.0579,  ...,  0.1012, -0.0322,  0.1953],
+        [ 0.0062, -0.0179, -0.0315,  ..., -0.0142, -0.0095, -0.0670],
+        ...,
+        [ 0.0262, -0.0978,  0.1417,  ...,  0.0279, -0.0773,  0.0435],
+        [-0.0353,  0.0575, -0.1316,  ..., -0.0516,  0.0120, -0.0762],
+        [-0.0548,  0.0653,  0.0519,  ..., -0.0500, -0.0455, -0.0194]],
+       device='cuda:0'), grad: tensor([[ 3.5357e-04,  1.6719e-05,  5.6791e-04,  ...,  7.2527e-04,
+          4.7922e-05,  4.7183e-04],
+        [ 5.3644e-04,  1.7837e-05,  4.9114e-04,  ...,  9.4070e-03,
+          7.8231e-08,  3.0231e-04],
+        [ 2.9159e-04,  2.5332e-05, -9.1612e-05,  ...,  6.5269e-03,
+          6.7130e-06,  4.6182e-04],
+        ...,
+        [ 8.9836e-04,  1.4096e-05,  2.4962e-04,  ...,  6.6795e-03,
+          1.4156e-07,  5.0402e-04],
+        [-9.9564e-04,  2.5940e-04, -4.3144e-03,  ..., -1.4029e-03,
+          4.1686e-06,  7.5769e-04],
+        [ 7.6056e-04,  2.1979e-05,  9.6464e-04,  ...,  8.2092e-03,
+          1.1101e-06,  6.6137e-04]], device='cuda:0')
+Epoch 219, bias, value: tensor([-0.0230,  0.0310,  0.0048, -0.0109,  0.0211, -0.0278,  0.0064, -0.0045,
+        -0.0003, -0.0139], device='cuda:0'), grad: tensor([ 0.0064,  0.0476,  0.0331, -0.1183, -0.0215, -0.0126, -0.0029,  0.0177,
+         0.0117,  0.0390], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 218, time 214.01, cls_loss 0.6002 cls_loss_mapping 0.0049 cls_loss_causal 0.5166 re_mapping 0.0112 re_causal 0.0253 /// teacc 98.77 lr 0.00010000
+Epoch 220, weight, value: tensor([[-0.0781, -0.1081, -0.0863,  ..., -0.0330,  0.0483, -0.0990],
+        [-0.0651, -0.0794, -0.0585,  ...,  0.1023, -0.0323,  0.1960],
+        [ 0.0059, -0.0171, -0.0306,  ..., -0.0143, -0.0096, -0.0665],
+        ...,
+        [ 0.0277, -0.0982,  0.1423,  ...,  0.0288, -0.0775,  0.0443],
+        [-0.0378,  0.0586, -0.1315,  ..., -0.0525,  0.0120, -0.0762],
+        [-0.0558,  0.0649,  0.0515,  ..., -0.0502, -0.0448, -0.0199]],
+       device='cuda:0'), grad: tensor([[ 4.1962e-04,  8.2111e-04,  7.3314e-05,  ...,  6.5804e-03,
+          1.1654e-03,  1.2045e-03],
+        [ 1.4935e-03,  4.7147e-05,  1.2660e-04,  ...,  8.8196e-03,
+          9.6783e-06,  5.5084e-03],
+        [ 1.1892e-03,  5.4598e-04,  6.1095e-05,  ...,  6.2103e-03,
+          8.8811e-05,  4.5300e-04],
+        ...,
+        [ 7.2384e-04,  1.6851e-03,  2.5692e-03,  ..., -1.4515e-03,
+          1.2517e-05,  3.5973e-03],
+        [-1.5802e-03, -8.4758e-05, -3.3712e-04,  ..., -1.6327e-02,
+          7.3576e-04, -7.8354e-03],
+        [ 3.7885e-04,  4.5784e-06, -3.1605e-03,  ...,  5.3291e-03,
+          1.1110e-04, -1.1520e-03]], device='cuda:0')
+Epoch 220, bias, value: tensor([-0.0236,  0.0315,  0.0051, -0.0112,  0.0211, -0.0274,  0.0056, -0.0043,
+        -0.0012, -0.0128], device='cuda:0'), grad: tensor([ 0.0312,  0.0277,  0.0145, -0.0169, -0.0230,  0.0320, -0.0288, -0.0087,
+        -0.0453,  0.0171], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 219, time 214.35, cls_loss 0.5992 cls_loss_mapping 0.0048 cls_loss_causal 0.5243 re_mapping 0.0110 re_causal 0.0261 /// teacc 98.82 lr 0.00010000
+Epoch 221, weight, value: tensor([[-0.0754, -0.1086, -0.0858,  ..., -0.0336,  0.0482, -0.0967],
+        [-0.0686, -0.0799, -0.0592,  ...,  0.1023, -0.0326,  0.1958],
+        [ 0.0047, -0.0178, -0.0311,  ..., -0.0145, -0.0099, -0.0652],
+        ...,
+        [ 0.0285, -0.0990,  0.1421,  ...,  0.0287, -0.0779,  0.0445],
+        [-0.0369,  0.0600, -0.1317,  ..., -0.0522,  0.0116, -0.0775],
+        [-0.0551,  0.0650,  0.0514,  ..., -0.0504, -0.0432, -0.0204]],
+       device='cuda:0'), grad: tensor([[ 7.4720e-04,  5.3072e-04,  6.2704e-04,  ...,  5.0354e-03,
+          3.8207e-05,  6.2370e-04],
+        [ 8.5688e-04, -2.0862e-04, -3.9406e-03,  ..., -7.6523e-03,
+         -1.3428e-03, -1.3962e-03],
+        [-4.7302e-03, -4.4823e-03, -1.2617e-03,  ..., -2.2369e-02,
+          9.5069e-05, -2.1706e-03],
+        ...,
+        [ 8.4114e-04,  1.1663e-03,  2.1744e-03,  ...,  5.8098e-03,
+          2.2268e-04,  7.0047e-04],
+        [ 1.0900e-03,  1.4763e-03,  1.9102e-03,  ...,  2.6913e-03,
+          4.2915e-04,  1.3380e-03],
+        [ 1.1796e-04,  1.2660e-04,  1.1032e-02,  ...,  4.7569e-03,
+          4.5955e-05,  3.9506e-04]], device='cuda:0')
+Epoch 221, bias, value: tensor([-0.0240,  0.0309,  0.0052, -0.0101,  0.0222, -0.0276,  0.0051, -0.0044,
+        -0.0013, -0.0132], device='cuda:0'), grad: tensor([ 0.0250, -0.0569, -0.0581,  0.0018,  0.0286, -0.0322,  0.0130,  0.0335,
+         0.0160,  0.0293], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 220, time 214.16, cls_loss 0.5475 cls_loss_mapping 0.0048 cls_loss_causal 0.4777 re_mapping 0.0115 re_causal 0.0249 /// teacc 98.76 lr 0.00010000
+Epoch 222, weight, value: tensor([[-0.0746, -0.1093, -0.0852,  ..., -0.0337,  0.0482, -0.0965],
+        [-0.0685, -0.0799, -0.0605,  ...,  0.1022, -0.0326,  0.1962],
+        [ 0.0066, -0.0176, -0.0313,  ..., -0.0129, -0.0100, -0.0659],
+        ...,
+        [ 0.0278, -0.0997,  0.1428,  ...,  0.0289, -0.0776,  0.0448],
+        [-0.0365,  0.0598, -0.1324,  ..., -0.0533,  0.0119, -0.0779],
+        [-0.0556,  0.0656,  0.0511,  ..., -0.0501, -0.0431, -0.0203]],
+       device='cuda:0'), grad: tensor([[-2.8248e-03,  2.0850e-04,  2.3901e-04,  ..., -1.1261e-02,
+         -8.6355e-04, -9.3460e-03],
+        [ 2.6970e-03, -2.1374e-04,  5.8842e-04,  ...,  4.2191e-03,
+          8.4400e-05,  3.5286e-03],
+        [ 2.0180e-03,  1.2569e-03,  1.0595e-03,  ...,  3.3684e-03,
+          6.5684e-05,  2.2984e-03],
+        ...,
+        [-9.2468e-03, -1.9302e-03, -5.9166e-03,  ..., -1.4053e-02,
+          2.2304e-04, -5.2528e-03],
+        [ 8.0872e-04,  6.8569e-04,  2.8992e-04,  ..., -2.9964e-03,
+          9.0301e-05,  1.0881e-03],
+        [ 2.5063e-03,  6.2370e-04,  1.3590e-03,  ...,  8.4915e-03,
+          2.2161e-04,  3.2387e-03]], device='cuda:0')
+Epoch 222, bias, value: tensor([-0.0246,  0.0320,  0.0060, -0.0097,  0.0226, -0.0285,  0.0049, -0.0039,
+        -0.0028, -0.0133], device='cuda:0'), grad: tensor([-0.0427,  0.0091,  0.0032,  0.0105,  0.0315,  0.0234, -0.0151, -0.0388,
+        -0.0350,  0.0539], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 221, time 214.17, cls_loss 0.5763 cls_loss_mapping 0.0080 cls_loss_causal 0.5041 re_mapping 0.0115 re_causal 0.0249 /// teacc 98.64 lr 0.00010000
+Epoch 223, weight, value: tensor([[-0.0731, -0.1094, -0.0852,  ..., -0.0318,  0.0487, -0.0963],
+        [-0.0687, -0.0786, -0.0603,  ...,  0.1026, -0.0329,  0.1970],
+        [ 0.0056, -0.0172, -0.0314,  ..., -0.0141, -0.0096, -0.0650],
+        ...,
+        [ 0.0272, -0.0996,  0.1431,  ...,  0.0278, -0.0780,  0.0436],
+        [-0.0352,  0.0591, -0.1322,  ..., -0.0525,  0.0120, -0.0773],
+        [-0.0545,  0.0648,  0.0502,  ..., -0.0498, -0.0434, -0.0206]],
+       device='cuda:0'), grad: tensor([[ 1.0643e-03, -1.1587e-03,  7.6485e-04,  ..., -9.4604e-03,
+         -5.8508e-04, -3.4618e-03],
+        [ 7.0477e-04, -9.4700e-04,  4.5419e-04,  ...,  4.3259e-03,
+          5.0336e-05,  2.5964e-04],
+        [ 8.4209e-04,  4.1127e-04,  1.3371e-03,  ..., -3.4881e-04,
+          7.2360e-05,  1.5354e-03],
+        ...,
+        [ 6.4039e-04, -9.1648e-04, -7.8049e-03,  ...,  2.6073e-03,
+          6.5088e-05, -6.1512e-04],
+        [ 8.4448e-04,  9.6893e-04,  3.3283e-03,  ...,  8.2245e-03,
+          8.2672e-05,  2.3403e-03],
+        [ 1.0414e-03,  6.4945e-04,  1.5247e-04,  ...,  5.5656e-03,
+          5.3453e-04,  2.7370e-04]], device='cuda:0')
+Epoch 223, bias, value: tensor([-0.0224,  0.0324,  0.0054, -0.0111,  0.0216, -0.0290,  0.0048, -0.0044,
+        -0.0018, -0.0127], device='cuda:0'), grad: tensor([-0.0044,  0.0173,  0.0046,  0.0491, -0.0539, -0.0088, -0.0236, -0.0196,
+         0.0489, -0.0095], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 222, time 214.32, cls_loss 0.5663 cls_loss_mapping 0.0045 cls_loss_causal 0.4862 re_mapping 0.0116 re_causal 0.0252 /// teacc 98.54 lr 0.00010000
+Epoch 224, weight, value: tensor([[-0.0735, -0.1106, -0.0860,  ..., -0.0322,  0.0490, -0.0977],
+        [-0.0700, -0.0798, -0.0616,  ...,  0.1030, -0.0329,  0.1982],
+        [ 0.0052, -0.0171, -0.0323,  ..., -0.0141, -0.0096, -0.0650],
+        ...,
+        [ 0.0273, -0.0992,  0.1436,  ...,  0.0265, -0.0783,  0.0446],
+        [-0.0351,  0.0589, -0.1320,  ..., -0.0527,  0.0119, -0.0776],
+        [-0.0559,  0.0655,  0.0499,  ..., -0.0505, -0.0438, -0.0223]],
+       device='cuda:0'), grad: tensor([[ 0.0006,  0.0002,  0.0001,  ..., -0.0014,  0.0000,  0.0001],
+        [ 0.0066,  0.0004,  0.0003,  ...,  0.0067,  0.0000,  0.0030],
+        [ 0.0011,  0.0007,  0.0003,  ...,  0.0046,  0.0000,  0.0019],
+        ...,
+        [-0.0056, -0.0047, -0.0063,  ..., -0.0095,  0.0000, -0.0092],
+        [-0.0002, -0.0018, -0.0001,  ..., -0.0047,  0.0000,  0.0017],
+        [ 0.0016,  0.0009,  0.0011,  ...,  0.0044,  0.0000,  0.0031]],
+       device='cuda:0')
+Epoch 224, bias, value: tensor([-0.0231,  0.0330,  0.0048, -0.0104,  0.0220, -0.0287,  0.0057, -0.0047,
+        -0.0019, -0.0138], device='cuda:0'), grad: tensor([-0.0156,  0.0368,  0.0228,  0.0197,  0.0014, -0.0449,  0.0172, -0.0463,
+        -0.0126,  0.0214], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 223, time 213.97, cls_loss 0.5663 cls_loss_mapping 0.0071 cls_loss_causal 0.5022 re_mapping 0.0114 re_causal 0.0251 /// teacc 98.83 lr 0.00010000
+Epoch 225, weight, value: tensor([[-0.0731, -0.1099, -0.0862,  ..., -0.0325,  0.0493, -0.0972],
+        [-0.0709, -0.0822, -0.0620,  ...,  0.1024, -0.0332,  0.1987],
+        [ 0.0047, -0.0149, -0.0302,  ..., -0.0135, -0.0102, -0.0658],
+        ...,
+        [ 0.0278, -0.0980,  0.1438,  ...,  0.0267, -0.0784,  0.0430],
+        [-0.0345,  0.0598, -0.1324,  ..., -0.0527,  0.0114, -0.0786],
+        [-0.0553,  0.0646,  0.0494,  ..., -0.0505, -0.0437, -0.0212]],
+       device='cuda:0'), grad: tensor([[ 2.8461e-06,  2.2831e-03,  3.6508e-05,  ...,  6.0158e-03,
+          3.4809e-05,  6.7651e-05],
+        [ 1.8108e-04,  3.0541e-04, -6.8998e-04,  ..., -5.6992e-03,
+          1.3039e-06,  1.8954e-04],
+        [ 2.4176e-04, -1.1034e-03,  1.5755e-03,  ..., -1.6754e-02,
+          7.4327e-05, -6.0081e-05],
+        ...,
+        [ 7.0877e-03,  5.5695e-04,  4.9019e-03,  ...,  2.5116e-02,
+          3.5707e-06,  5.8556e-03],
+        [ 6.0081e-05, -3.9253e-03, -2.9683e-04,  ..., -4.1046e-03,
+         -5.9462e-04, -1.8370e-04],
+        [ 7.0632e-05, -7.6103e-04, -2.5978e-03,  ...,  2.3766e-03,
+          4.7684e-06, -2.7885e-03]], device='cuda:0')
+Epoch 225, bias, value: tensor([-0.0231,  0.0323,  0.0046, -0.0103,  0.0221, -0.0284,  0.0060, -0.0051,
+        -0.0020, -0.0134], device='cuda:0'), grad: tensor([ 3.7628e-02, -7.4997e-03, -3.1494e-02, -7.7248e-03,  3.2043e-02,
+        -4.3427e-02, -1.8875e-02,  5.7281e-02, -1.7914e-02, -1.9684e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 224, time 214.78, cls_loss 0.5742 cls_loss_mapping 0.0047 cls_loss_causal 0.4994 re_mapping 0.0109 re_causal 0.0249 /// teacc 98.71 lr 0.00010000
+Epoch 226, weight, value: tensor([[-0.0722, -0.1093, -0.0850,  ..., -0.0332,  0.0495, -0.0977],
+        [-0.0717, -0.0824, -0.0617,  ...,  0.1025, -0.0334,  0.1998],
+        [ 0.0031, -0.0158, -0.0301,  ..., -0.0144, -0.0100, -0.0664],
+        ...,
+        [ 0.0287, -0.0974,  0.1435,  ...,  0.0276, -0.0793,  0.0425],
+        [-0.0341,  0.0593, -0.1324,  ..., -0.0523,  0.0128, -0.0786],
+        [-0.0547,  0.0644,  0.0493,  ..., -0.0500, -0.0438, -0.0202]],
+       device='cuda:0'), grad: tensor([[ 5.2786e-04,  8.1718e-05,  4.0793e-04,  ...,  3.3360e-03,
+          3.3450e-04,  1.3947e-04],
+        [ 9.3746e-04,  4.4376e-05,  2.8014e-04,  ..., -5.2910e-03,
+          2.3520e-04, -1.7614e-03],
+        [ 1.2846e-03,  1.2589e-04,  1.0080e-03,  ...,  3.7193e-03,
+          3.9816e-04,  4.1628e-04],
+        ...,
+        [ 8.4782e-04,  8.3148e-05,  3.0208e-04,  ..., -1.9970e-03,
+          1.4424e-04, -2.3384e-03],
+        [ 8.4448e-04,  2.3890e-04,  1.0691e-03,  ...,  4.7951e-03,
+          2.8586e-04, -1.2684e-04],
+        [ 7.0572e-04,  7.4565e-05,  2.8324e-04,  ...,  3.5191e-03,
+          1.2362e-04,  6.8188e-04]], device='cuda:0')
+Epoch 226, bias, value: tensor([-0.0241,  0.0325,  0.0036, -0.0095,  0.0217, -0.0282,  0.0061, -0.0046,
+        -0.0016, -0.0132], device='cuda:0'), grad: tensor([ 0.0205, -0.0203,  0.0284, -0.0641, -0.0561,  0.0060,  0.0310, -0.0166,
+         0.0341,  0.0371], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 225, time 214.43, cls_loss 0.5869 cls_loss_mapping 0.0046 cls_loss_causal 0.5136 re_mapping 0.0115 re_causal 0.0262 /// teacc 98.68 lr 0.00010000
+Epoch 227, weight, value: tensor([[-0.0711, -0.1111, -0.0851,  ..., -0.0326,  0.0497, -0.0980],
+        [-0.0719, -0.0826, -0.0610,  ...,  0.1026, -0.0338,  0.2002],
+        [ 0.0030, -0.0158, -0.0309,  ..., -0.0148, -0.0099, -0.0671],
+        ...,
+        [ 0.0297, -0.0968,  0.1437,  ...,  0.0277, -0.0791,  0.0433],
+        [-0.0352,  0.0601, -0.1330,  ..., -0.0530,  0.0137, -0.0788],
+        [-0.0554,  0.0637,  0.0488,  ..., -0.0490, -0.0434, -0.0199]],
+       device='cuda:0'), grad: tensor([[-2.5005e-03,  1.7715e-04, -8.5831e-03,  ..., -1.4473e-02,
+         -3.4161e-03, -1.4687e-03],
+        [ 1.1892e-03,  2.4891e-04,  4.1389e-04,  ...,  3.2196e-03,
+          6.1655e-04,  5.3740e-04],
+        [-2.5520e-03,  7.3814e-04,  1.7700e-03,  ..., -3.4695e-03,
+         -9.1324e-03,  7.1144e-04],
+        ...,
+        [ 5.8460e-04,  1.7624e-03,  3.5114e-03,  ...,  5.6610e-03,
+          9.4986e-03,  1.0586e-03],
+        [ 3.5262e-04, -6.5470e-04, -1.2217e-03,  ..., -3.3951e-03,
+          4.2176e-04,  9.1121e-06],
+        [ 5.6934e-04,  1.6189e-04,  8.1205e-04,  ...,  4.4289e-03,
+          8.1015e-04,  5.3644e-04]], device='cuda:0')
+Epoch 227, bias, value: tensor([-0.0239,  0.0325,  0.0042, -0.0092,  0.0219, -0.0296,  0.0054, -0.0047,
+        -0.0013, -0.0128], device='cuda:0'), grad: tensor([-0.0480,  0.0073, -0.0360, -0.0316,  0.0310,  0.0374,  0.0148,  0.0127,
+        -0.0152,  0.0276], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 226, time 214.64, cls_loss 0.5610 cls_loss_mapping 0.0046 cls_loss_causal 0.4914 re_mapping 0.0112 re_causal 0.0247 /// teacc 98.69 lr 0.00010000
+Epoch 228, weight, value: tensor([[-0.0704, -0.1111, -0.0857,  ..., -0.0326,  0.0507, -0.0977],
+        [-0.0719, -0.0809, -0.0613,  ...,  0.1030, -0.0347,  0.2002],
+        [ 0.0016, -0.0163, -0.0322,  ..., -0.0157, -0.0102, -0.0684],
+        ...,
+        [ 0.0298, -0.0976,  0.1451,  ...,  0.0285, -0.0770,  0.0433],
+        [-0.0354,  0.0600, -0.1332,  ..., -0.0524,  0.0134, -0.0789],
+        [-0.0546,  0.0636,  0.0481,  ..., -0.0504, -0.0444, -0.0198]],
+       device='cuda:0'), grad: tensor([[-2.8553e-03, -2.4071e-03, -3.1495e-04,  ..., -5.1155e-03,
+         -3.2539e-03,  7.4387e-05],
+        [ 1.1921e-04,  1.9062e-04,  1.4997e-04,  ...,  2.4853e-03,
+          1.4198e-04,  1.5450e-04],
+        [ 6.7186e-04,  1.7548e-03,  3.6740e-04,  ...,  8.5526e-03,
+          8.2207e-04,  1.0949e-04],
+        ...,
+        [ 1.6689e-04,  5.9509e-04, -1.9741e-03,  ..., -1.3649e-02,
+          2.0218e-04, -1.7357e-03],
+        [ 2.1684e-04,  2.0084e-03,  1.1826e-04,  ..., -5.1003e-03,
+          2.7442e-04,  1.8567e-05],
+        [ 1.5056e-04,  4.7970e-04,  1.1988e-03,  ...,  1.8883e-03,
+          2.4343e-04,  1.2550e-03]], device='cuda:0')
+Epoch 228, bias, value: tensor([-0.0240,  0.0330,  0.0026, -0.0089,  0.0224, -0.0295,  0.0056, -0.0042,
+        -0.0008, -0.0136], device='cuda:0'), grad: tensor([-0.0011, -0.0101,  0.0345, -0.0046,  0.0180,  0.0070,  0.0244, -0.0599,
+        -0.0038, -0.0044], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 227, time 214.34, cls_loss 0.5399 cls_loss_mapping 0.0051 cls_loss_causal 0.4694 re_mapping 0.0108 re_causal 0.0234 /// teacc 98.65 lr 0.00010000
+Epoch 229, weight, value: tensor([[-0.0706, -0.1106, -0.0863,  ..., -0.0339,  0.0485, -0.0980],
+        [-0.0701, -0.0812, -0.0621,  ...,  0.1019, -0.0345,  0.2030],
+        [ 0.0034, -0.0164, -0.0329,  ..., -0.0146, -0.0102, -0.0684],
+        ...,
+        [ 0.0287, -0.0966,  0.1455,  ...,  0.0290, -0.0763,  0.0420],
+        [-0.0361,  0.0589, -0.1334,  ..., -0.0522,  0.0136, -0.0798],
+        [-0.0540,  0.0633,  0.0486,  ..., -0.0503, -0.0451, -0.0184]],
+       device='cuda:0'), grad: tensor([[ 5.6159e-07,  2.9802e-04,  3.5906e-04,  ...,  2.8267e-03,
+         -2.3251e-03,  2.0485e-03],
+        [ 7.1526e-07,  2.2382e-05, -2.7585e-04,  ..., -1.1169e-02,
+          1.1958e-05, -1.0422e-02],
+        [-3.3993e-06, -1.1711e-03, -9.2208e-05,  ..., -5.0011e-03,
+          1.0979e-04,  8.1539e-04],
+        ...,
+        [ 1.9938e-05,  1.1569e-04, -7.0906e-04,  ..., -2.2745e-04,
+          4.0245e-04, -2.9793e-03],
+        [ 1.5870e-05, -3.5620e-04,  1.4293e-04,  ...,  2.1343e-03,
+          2.8110e-04,  1.8787e-03],
+        [-6.1452e-05,  4.0233e-05,  1.3518e-04,  ...,  3.1624e-03,
+          1.5128e-04,  2.0161e-03]], device='cuda:0')
+Epoch 229, bias, value: tensor([-0.0243,  0.0332,  0.0024, -0.0092,  0.0227, -0.0296,  0.0059, -0.0037,
+        -0.0010, -0.0138], device='cuda:0'), grad: tensor([-0.0116, -0.0450, -0.0069,  0.0139, -0.0077,  0.0103,  0.0267, -0.0065,
+         0.0127,  0.0143], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 228, time 214.56, cls_loss 0.5712 cls_loss_mapping 0.0068 cls_loss_causal 0.5101 re_mapping 0.0107 re_causal 0.0242 /// teacc 98.61 lr 0.00010000
+Epoch 230, weight, value: tensor([[-0.0709, -0.1119, -0.0876,  ..., -0.0350,  0.0492, -0.0993],
+        [-0.0702, -0.0806, -0.0622,  ...,  0.1019, -0.0342,  0.2021],
+        [ 0.0043, -0.0158, -0.0332,  ..., -0.0147, -0.0108, -0.0697],
+        ...,
+        [ 0.0284, -0.0968,  0.1461,  ...,  0.0289, -0.0756,  0.0429],
+        [-0.0361,  0.0586, -0.1340,  ..., -0.0530,  0.0137, -0.0796],
+        [-0.0535,  0.0617,  0.0483,  ..., -0.0494, -0.0459, -0.0191]],
+       device='cuda:0'), grad: tensor([[ 2.9150e-07,  1.0672e-03,  6.2622e-06,  ..., -4.0817e-03,
+          5.4240e-05,  1.9538e-04],
+        [ 4.0047e-07,  1.9634e-04,  3.0845e-06,  ...,  4.3907e-03,
+          8.6948e-06, -6.1572e-05],
+        [ 9.0674e-06,  6.2037e-04,  3.1412e-05,  ...,  2.7390e-03,
+          1.4491e-05,  1.5473e-04],
+        ...,
+        [ 3.5495e-05,  2.6155e-04,  1.9670e-04,  ...,  3.4332e-03,
+          1.6153e-04,  5.6124e-04],
+        [ 9.9242e-06,  4.2000e-03,  6.9618e-05,  ...,  3.5801e-03,
+          1.0210e-04,  3.9744e-04],
+        [-3.2932e-05,  1.2121e-03, -4.2796e-04,  ..., -1.4172e-03,
+         -4.5228e-04, -1.1530e-03]], device='cuda:0')
+Epoch 230, bias, value: tensor([-0.0250,  0.0329,  0.0009, -0.0087,  0.0223, -0.0282,  0.0067, -0.0032,
+        -0.0013, -0.0137], device='cuda:0'), grad: tensor([-0.0169,  0.0139,  0.0095, -0.0095, -0.0542,  0.0131,  0.0189,  0.0124,
+         0.0180, -0.0053], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 229, time 214.54, cls_loss 0.5767 cls_loss_mapping 0.0053 cls_loss_causal 0.4908 re_mapping 0.0109 re_causal 0.0233 /// teacc 98.72 lr 0.00010000
+Epoch 231, weight, value: tensor([[-0.0705, -0.1122, -0.0894,  ..., -0.0346,  0.0504, -0.0989],
+        [-0.0705, -0.0804, -0.0631,  ...,  0.1005, -0.0345,  0.2028],
+        [ 0.0051, -0.0165, -0.0319,  ..., -0.0144, -0.0111, -0.0726],
+        ...,
+        [ 0.0283, -0.0967,  0.1468,  ...,  0.0290, -0.0762,  0.0430],
+        [-0.0363,  0.0577, -0.1340,  ..., -0.0528,  0.0128, -0.0800],
+        [-0.0518,  0.0632,  0.0474,  ..., -0.0494, -0.0469, -0.0197]],
+       device='cuda:0'), grad: tensor([[ 1.3900e-04,  7.6354e-05,  7.6914e-04,  ...,  1.9569e-03,
+         -9.5129e-04,  8.3971e-04],
+        [-2.3613e-03, -1.5015e-02, -5.2299e-03,  ..., -4.5593e-02,
+          3.9995e-05, -7.2708e-03],
+        [ 9.7752e-05,  4.7188e-03,  2.7313e-03,  ...,  1.2878e-02,
+          2.5034e-04, -7.3528e-04],
+        ...,
+        [ 4.4435e-05,  2.4700e-03,  2.2233e-04,  ...,  1.0353e-02,
+          2.6464e-05,  1.8654e-03],
+        [ 2.5678e-04,  2.1191e-03,  1.4353e-03,  ...,  4.0894e-03,
+          9.5129e-04,  1.4772e-03],
+        [ 4.7731e-04, -1.3447e-03,  1.3971e-03,  ...,  8.3313e-03,
+          2.9683e-04,  1.4420e-03]], device='cuda:0')
+Epoch 231, bias, value: tensor([-0.0251,  0.0317,  0.0008, -0.0093,  0.0238, -0.0279,  0.0055, -0.0022,
+        -0.0008, -0.0139], device='cuda:0'), grad: tensor([ 0.0060, -0.0731,  0.0141,  0.0069, -0.0076,  0.0104, -0.0202,  0.0261,
+         0.0183,  0.0192], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 230, time 214.63, cls_loss 0.5712 cls_loss_mapping 0.0051 cls_loss_causal 0.4958 re_mapping 0.0109 re_causal 0.0246 /// teacc 98.74 lr 0.00010000
+Epoch 232, weight, value: tensor([[-0.0701, -0.1123, -0.0887,  ..., -0.0354,  0.0504, -0.1002],
+        [-0.0707, -0.0797, -0.0628,  ...,  0.1006, -0.0355,  0.2027],
+        [ 0.0054, -0.0166, -0.0329,  ..., -0.0133, -0.0137, -0.0706],
+        ...,
+        [ 0.0291, -0.0977,  0.1482,  ...,  0.0295, -0.0770,  0.0437],
+        [-0.0363,  0.0589, -0.1311,  ..., -0.0530,  0.0147, -0.0796],
+        [-0.0522,  0.0640,  0.0473,  ..., -0.0496, -0.0464, -0.0215]],
+       device='cuda:0'), grad: tensor([[ 2.4866e-06,  2.6250e-04,  8.8036e-05,  ...,  8.2302e-04,
+          4.0627e-04,  1.4424e-04],
+        [ 5.4419e-05,  3.1996e-04,  6.2704e-04,  ...,  1.2245e-03,
+          4.5627e-05, -1.2474e-03],
+        [-5.5695e-04,  1.3208e-04, -6.8188e-04,  ..., -9.0790e-04,
+          6.5029e-05, -4.5300e-04],
+        ...,
+        [ 4.2605e-04,  1.7910e-03,  5.0240e-03,  ...,  1.9670e-04,
+          2.6211e-05,  2.3632e-03],
+        [ 8.5309e-06,  6.2828e-03,  4.8542e-04,  ...,  1.1730e-03,
+          1.1528e-02,  4.5061e-04],
+        [-3.9153e-06, -1.0872e-03, -3.6030e-03,  ...,  1.0967e-03,
+         -5.8144e-05, -2.3346e-03]], device='cuda:0')
+Epoch 232, bias, value: tensor([-0.0257,  0.0315,  0.0013, -0.0092,  0.0235, -0.0292,  0.0061, -0.0015,
+        -0.0011, -0.0133], device='cuda:0'), grad: tensor([ 0.0132,  0.0147,  0.0053,  0.0095,  0.0179,  0.0032, -0.0523, -0.0313,
+         0.0186,  0.0012], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 231, time 214.66, cls_loss 0.5765 cls_loss_mapping 0.0047 cls_loss_causal 0.5064 re_mapping 0.0111 re_causal 0.0256 /// teacc 98.73 lr 0.00010000
+Epoch 233, weight, value: tensor([[-0.0697, -0.1135, -0.0889,  ..., -0.0355,  0.0492, -0.1017],
+        [-0.0704, -0.0799, -0.0638,  ...,  0.1006, -0.0369,  0.2032],
+        [ 0.0051, -0.0167, -0.0324,  ..., -0.0127, -0.0140, -0.0709],
+        ...,
+        [ 0.0288, -0.0982,  0.1481,  ...,  0.0295, -0.0765,  0.0432],
+        [-0.0363,  0.0590, -0.1305,  ..., -0.0528,  0.0156, -0.0793],
+        [-0.0525,  0.0643,  0.0474,  ..., -0.0491, -0.0447, -0.0208]],
+       device='cuda:0'), grad: tensor([[ 2.8387e-06,  2.2042e-04,  5.7817e-06,  ..., -2.5940e-03,
+          2.5201e-04,  2.4700e-03],
+        [ 1.4806e-04,  3.3474e-04,  1.8764e-04,  ...,  3.1853e-03,
+          3.8266e-04,  3.0303e-04],
+        [ 2.4331e-04,  5.3883e-04,  3.1638e-04,  ..., -3.7918e-03,
+          5.9938e-04,  6.6853e-04],
+        ...,
+        [-2.1515e-03,  5.2691e-04, -2.8057e-03,  ..., -2.0847e-03,
+          4.8971e-04, -2.2335e-03],
+        [ 5.9307e-05,  5.3358e-04,  8.2135e-05,  ...,  2.4242e-03,
+          6.2084e-04,  2.2531e-04],
+        [ 2.7344e-05, -5.8060e-03,  1.4567e-04,  ...,  1.9608e-03,
+         -6.2447e-03,  3.3054e-03]], device='cuda:0')
+Epoch 233, bias, value: tensor([-0.0252,  0.0317,  0.0010, -0.0096,  0.0228, -0.0293,  0.0059, -0.0016,
+        -0.0008, -0.0125], device='cuda:0'), grad: tensor([-0.0121,  0.0139, -0.0163, -0.0060,  0.0126, -0.0164,  0.0141,  0.0078,
+         0.0121, -0.0096], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 232, time 214.26, cls_loss 0.5644 cls_loss_mapping 0.0045 cls_loss_causal 0.4830 re_mapping 0.0109 re_causal 0.0238 /// teacc 98.63 lr 0.00010000
+Epoch 234, weight, value: tensor([[-0.0702, -0.1138, -0.0882,  ..., -0.0352,  0.0492, -0.1022],
+        [-0.0707, -0.0792, -0.0640,  ...,  0.1016, -0.0383,  0.2039],
+        [ 0.0055, -0.0167, -0.0323,  ..., -0.0134, -0.0146, -0.0721],
+        ...,
+        [ 0.0278, -0.0979,  0.1483,  ...,  0.0298, -0.0763,  0.0428],
+        [-0.0364,  0.0588, -0.1311,  ..., -0.0533,  0.0138, -0.0805],
+        [-0.0513,  0.0642,  0.0488,  ..., -0.0489, -0.0437, -0.0198]],
+       device='cuda:0'), grad: tensor([[-1.1975e-04,  2.3153e-06,  5.5805e-06,  ..., -1.0490e-03,
+         -1.3843e-05,  3.4642e-04],
+        [ 1.7136e-06,  3.3192e-06, -3.0816e-05,  ...,  2.3289e-03,
+          1.5330e-06,  6.4774e-03],
+        [ 7.6771e-04,  8.3148e-05,  1.4350e-05,  ...,  2.8667e-03,
+          6.1281e-06,  4.8733e-04],
+        ...,
+        [ 7.6199e-04,  1.0139e-04,  3.2568e-04,  ...,  2.4014e-03,
+          2.1029e-06,  4.8065e-04],
+        [-2.1954e-03,  1.1092e-04,  7.3004e-04,  ...,  1.9588e-03,
+          3.8123e-04,  1.1520e-03],
+        [ 1.7905e-04, -2.9325e-05, -3.8743e-04,  ...,  3.3779e-03,
+          2.7288e-06,  4.2486e-04]], device='cuda:0')
+Epoch 234, bias, value: tensor([-0.0255,  0.0324,  0.0010, -0.0092,  0.0221, -0.0289,  0.0063, -0.0027,
+        -0.0010, -0.0120], device='cuda:0'), grad: tensor([-0.0234,  0.0062,  0.0137,  0.0073, -0.0247, -0.0024, -0.0121,  0.0110,
+         0.0032,  0.0209], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 233, time 214.07, cls_loss 0.5947 cls_loss_mapping 0.0067 cls_loss_causal 0.5170 re_mapping 0.0111 re_causal 0.0253 /// teacc 98.75 lr 0.00010000
+Epoch 235, weight, value: tensor([[-0.0699, -0.1143, -0.0880,  ..., -0.0348,  0.0489, -0.1033],
+        [-0.0707, -0.0783, -0.0645,  ...,  0.1018, -0.0362,  0.2055],
+        [ 0.0045, -0.0160, -0.0324,  ..., -0.0142, -0.0155, -0.0729],
+        ...,
+        [ 0.0272, -0.0984,  0.1466,  ...,  0.0303, -0.0762,  0.0422],
+        [-0.0369,  0.0583, -0.1314,  ..., -0.0531,  0.0127, -0.0808],
+        [-0.0509,  0.0649,  0.0491,  ..., -0.0487, -0.0426, -0.0187]],
+       device='cuda:0'), grad: tensor([[ 8.3074e-06,  1.1742e-04,  9.1016e-05,  ...,  6.1703e-04,
+          1.9252e-04,  6.1846e-04],
+        [ 8.8289e-07,  1.2741e-03,  2.3019e-04,  ...,  1.9932e-03,
+          1.7869e-04, -1.2608e-03],
+        [-6.3121e-05, -2.6822e-04,  1.0884e-04,  ..., -1.8063e-03,
+          1.1981e-04,  1.3602e-04],
+        ...,
+        [ 2.6092e-05,  3.2401e-04,  6.5506e-05,  ...,  1.9817e-03,
+          2.9612e-04,  1.5855e-04],
+        [ 4.4405e-05,  1.0509e-03,  2.0254e-04,  ...,  3.6297e-03,
+          1.8847e-04,  8.9943e-05],
+        [ 1.2733e-05, -3.0518e-03,  5.2124e-05,  ...,  1.2131e-03,
+          3.6049e-04,  2.8076e-03]], device='cuda:0')
+Epoch 235, bias, value: tensor([-0.0255,  0.0328,  0.0009, -0.0097,  0.0238, -0.0287,  0.0045, -0.0025,
+        -0.0013, -0.0118], device='cuda:0'), grad: tensor([ 0.0101,  0.0037, -0.0083, -0.0040, -0.0082, -0.0322, -0.0377,  0.0342,
+         0.0347,  0.0076], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 234, time 214.28, cls_loss 0.5594 cls_loss_mapping 0.0052 cls_loss_causal 0.4838 re_mapping 0.0110 re_causal 0.0245 /// teacc 98.79 lr 0.00010000
+Epoch 236, weight, value: tensor([[-0.0696, -0.1144, -0.0875,  ..., -0.0345,  0.0503, -0.1021],
+        [-0.0713, -0.0791, -0.0659,  ...,  0.1028, -0.0345,  0.2041],
+        [ 0.0049, -0.0151, -0.0322,  ..., -0.0141, -0.0157, -0.0732],
+        ...,
+        [ 0.0279, -0.0995,  0.1470,  ...,  0.0301, -0.0767,  0.0436],
+        [-0.0370,  0.0574, -0.1318,  ..., -0.0540,  0.0133, -0.0820],
+        [-0.0512,  0.0647,  0.0491,  ..., -0.0493, -0.0426, -0.0197]],
+       device='cuda:0'), grad: tensor([[ 6.6310e-07,  5.5656e-06,  3.1471e-04,  ...,  2.4071e-03,
+         -2.3469e-07,  1.2016e-04],
+        [ 1.4976e-06,  1.1861e-05,  1.5330e-04,  ...,  2.9663e-02,
+          7.8231e-08,  1.9104e-02],
+        [ 7.7412e-06,  4.3482e-05,  1.1454e-03,  ..., -1.7593e-02,
+          4.9174e-07, -1.8692e-02],
+        ...,
+        [ 6.7987e-07,  5.7071e-06,  1.5135e-03,  ...,  2.9831e-03,
+          3.7253e-08, -4.2415e-04],
+        [-1.0349e-05,  6.7800e-06,  1.1616e-03,  ...,  5.1804e-03,
+          2.7940e-08,  6.0225e-04],
+        [ 2.3749e-06, -6.0387e-03,  3.4332e-04,  ...,  1.9875e-03,
+          1.4901e-07,  2.4462e-04]], device='cuda:0')
+Epoch 236, bias, value: tensor([-0.0256,  0.0333,  0.0010, -0.0094,  0.0243, -0.0289,  0.0042, -0.0021,
+        -0.0024, -0.0120], device='cuda:0'), grad: tensor([-0.0199,  0.0538, -0.0140,  0.0453, -0.0123, -0.0746, -0.0145,  0.0121,
+         0.0191,  0.0051], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 235, time 214.52, cls_loss 0.5479 cls_loss_mapping 0.0064 cls_loss_causal 0.4875 re_mapping 0.0110 re_causal 0.0243 /// teacc 98.68 lr 0.00010000
+Epoch 237, weight, value: tensor([[-0.0702, -0.1147, -0.0879,  ..., -0.0353,  0.0512, -0.1030],
+        [-0.0718, -0.0796, -0.0668,  ...,  0.1016, -0.0350,  0.2047],
+        [ 0.0047, -0.0154, -0.0316,  ..., -0.0133, -0.0160, -0.0734],
+        ...,
+        [ 0.0276, -0.0996,  0.1481,  ...,  0.0292, -0.0773,  0.0430],
+        [-0.0358,  0.0576, -0.1326,  ..., -0.0520,  0.0143, -0.0817],
+        [-0.0511,  0.0645,  0.0472,  ..., -0.0488, -0.0427, -0.0193]],
+       device='cuda:0'), grad: tensor([[ 2.8110e-04,  7.5698e-05, -7.0419e-03,  ..., -5.1498e-03,
+          6.0380e-05, -7.2403e-03],
+        [ 2.4462e-04,  3.5435e-05,  1.6775e-03,  ...,  3.6716e-03,
+          5.1737e-05,  1.8911e-03],
+        [ 6.2275e-04,  5.4359e-04, -4.5824e-04,  ...,  2.1820e-03,
+         -2.2995e-04, -1.8797e-03],
+        ...,
+        [ 1.8370e-04,  4.8876e-05,  1.3533e-03,  ...,  5.2414e-03,
+          1.2457e-04,  2.1420e-03],
+        [ 2.5201e-04,  3.5787e-04,  1.7033e-03,  ..., -5.4779e-03,
+          3.6693e-04,  2.0828e-03],
+        [ 2.3329e-04,  1.0848e-04,  1.4591e-03,  ..., -3.0117e-03,
+          5.4836e-04,  1.9760e-03]], device='cuda:0')
+Epoch 237, bias, value: tensor([-0.0269,  0.0322,  0.0009, -0.0088,  0.0236, -0.0288,  0.0045, -0.0017,
+        -0.0008, -0.0122], device='cuda:0'), grad: tensor([-0.0104,  0.0109,  0.0174,  0.0257, -0.0159,  0.0159, -0.0121,  0.0004,
+         0.0036, -0.0355], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 236, time 213.92, cls_loss 0.5707 cls_loss_mapping 0.0036 cls_loss_causal 0.4901 re_mapping 0.0106 re_causal 0.0250 /// teacc 98.69 lr 0.00010000
+Epoch 238, weight, value: tensor([[-0.0700, -0.1144, -0.0879,  ..., -0.0344,  0.0511, -0.1041],
+        [-0.0704, -0.0802, -0.0659,  ...,  0.1016, -0.0356,  0.2056],
+        [ 0.0039, -0.0159, -0.0308,  ..., -0.0128, -0.0157, -0.0731],
+        ...,
+        [ 0.0285, -0.0999,  0.1485,  ...,  0.0290, -0.0778,  0.0429],
+        [-0.0362,  0.0585, -0.1337,  ..., -0.0522,  0.0141, -0.0815],
+        [-0.0517,  0.0645,  0.0473,  ..., -0.0487, -0.0426, -0.0198]],
+       device='cuda:0'), grad: tensor([[ 1.4894e-05,  2.0891e-05,  4.9859e-05,  ...,  2.0332e-03,
+          1.2791e-04,  1.0548e-03],
+        [ 5.3197e-06,  3.1948e-05,  1.6344e-04,  ..., -3.0899e-03,
+          2.8744e-05,  1.7939e-03],
+        [ 1.2450e-05,  1.3161e-04,  3.0541e-04,  ...,  1.9245e-03,
+         -6.1132e-06,  1.1034e-03],
+        ...,
+        [-1.0335e-04,  3.2485e-05, -1.5736e-03,  ...,  1.0071e-03,
+          2.3589e-05, -3.8099e-04],
+        [ 4.0717e-06,  3.6359e-04,  2.3174e-04,  ..., -7.8888e-03,
+          1.2007e-03, -7.0915e-03],
+        [ 6.5506e-05,  2.3976e-05,  6.7234e-04,  ...,  1.8244e-03,
+          4.2528e-05,  1.5345e-03]], device='cuda:0')
+Epoch 238, bias, value: tensor([-0.0262,  0.0319,  0.0002, -0.0089,  0.0232, -0.0298,  0.0063, -0.0013,
+        -0.0006, -0.0127], device='cuda:0'), grad: tensor([ 0.0100, -0.0126,  0.0099,  0.0061,  0.0063,  0.0071,  0.0026,  0.0060,
+        -0.0460,  0.0105], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 237, time 214.15, cls_loss 0.5794 cls_loss_mapping 0.0046 cls_loss_causal 0.5053 re_mapping 0.0105 re_causal 0.0253 /// teacc 98.65 lr 0.00010000
+Epoch 239, weight, value: tensor([[-0.0706, -0.1147, -0.0887,  ..., -0.0346,  0.0510, -0.1051],
+        [-0.0719, -0.0810, -0.0666,  ...,  0.1016, -0.0356,  0.2066],
+        [ 0.0048, -0.0157, -0.0309,  ..., -0.0126, -0.0166, -0.0738],
+        ...,
+        [ 0.0291, -0.1021,  0.1493,  ...,  0.0287, -0.0786,  0.0425],
+        [-0.0362,  0.0589, -0.1345,  ..., -0.0527,  0.0150, -0.0814],
+        [-0.0518,  0.0656,  0.0467,  ..., -0.0487, -0.0427, -0.0196]],
+       device='cuda:0'), grad: tensor([[-7.9930e-05,  1.6773e-04,  1.1188e-04,  ..., -2.7351e-03,
+          8.7440e-05,  8.8811e-05],
+        [ 1.1295e-05,  5.1641e-04,  7.1669e-04,  ...,  6.7043e-04,
+          1.2684e-04,  8.7166e-04],
+        [ 2.1294e-05,  4.6682e-04, -8.6844e-05,  ..., -3.2959e-03,
+          1.0335e-04, -3.1662e-04],
+        ...,
+        [ 6.4746e-06, -8.2350e-04, -2.0351e-03,  ...,  1.3351e-04,
+          1.2970e-04,  1.0498e-02],
+        [-3.5614e-05, -9.6130e-03,  5.6791e-04,  ..., -7.2861e-04,
+          1.2290e-04,  8.5175e-05],
+        [ 1.6391e-05,  1.6708e-03,  6.0834e-06,  ..., -2.0046e-03,
+          8.7559e-05,  5.9471e-03]], device='cuda:0')
+Epoch 239, bias, value: tensor([-0.0274,  0.0316,  0.0005, -0.0082,  0.0236, -0.0291,  0.0069, -0.0020,
+        -0.0011, -0.0124], device='cuda:0'), grad: tensor([ 0.0129, -0.0031, -0.0277,  0.0425, -0.0438,  0.0210,  0.0203,  0.0035,
+        -0.0292,  0.0035], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 238, time 214.82, cls_loss 0.6129 cls_loss_mapping 0.0051 cls_loss_causal 0.5329 re_mapping 0.0104 re_causal 0.0245 /// teacc 98.58 lr 0.00010000
+Epoch 240, weight, value: tensor([[-0.0712, -0.1159, -0.0902,  ..., -0.0359,  0.0514, -0.1059],
+        [-0.0719, -0.0820, -0.0674,  ...,  0.1003, -0.0356,  0.2055],
+        [ 0.0051, -0.0147, -0.0312,  ..., -0.0117, -0.0171, -0.0726],
+        ...,
+        [ 0.0296, -0.1006,  0.1500,  ...,  0.0284, -0.0789,  0.0430],
+        [-0.0366,  0.0591, -0.1347,  ..., -0.0516,  0.0160, -0.0821],
+        [-0.0524,  0.0662,  0.0473,  ..., -0.0492, -0.0433, -0.0201]],
+       device='cuda:0'), grad: tensor([[ 4.9859e-05,  1.5497e-04, -2.6245e-03,  ...,  1.5574e-03,
+         -1.6623e-03, -2.7332e-03],
+        [ 2.0355e-05,  9.0599e-05,  3.8624e-04,  ...,  4.4327e-03,
+          7.1943e-05,  1.9722e-03],
+        [ 2.8014e-04,  3.4595e-04,  2.2831e-03,  ...,  6.6109e-03,
+          2.8086e-04,  8.5688e-04],
+        ...,
+        [ 2.0355e-05,  2.8029e-05,  4.7255e-04,  ..., -1.1168e-03,
+          7.4387e-05,  4.0092e-03],
+        [ 2.8725e-03,  3.5515e-03,  9.8038e-04,  ...,  2.8610e-03,
+          3.3188e-04, -4.1542e-03],
+        [ 4.1938e-04,  3.8242e-03, -2.7161e-03,  ..., -1.8753e-02,
+          1.9634e-04, -2.0638e-03]], device='cuda:0')
+Epoch 240, bias, value: tensor([-0.0286,  0.0311,  0.0006, -0.0079,  0.0235, -0.0284,  0.0070, -0.0018,
+        -0.0008, -0.0126], device='cuda:0'), grad: tensor([ 0.0045,  0.0224,  0.0296, -0.0446,  0.0248,  0.0092, -0.0345,  0.0165,
+         0.0366, -0.0645], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 239, time 215.05, cls_loss 0.5754 cls_loss_mapping 0.0051 cls_loss_causal 0.4988 re_mapping 0.0109 re_causal 0.0245 /// teacc 98.74 lr 0.00010000
+Epoch 241, weight, value: tensor([[-0.0715, -0.1157, -0.0901,  ..., -0.0382,  0.0517, -0.1045],
+        [-0.0730, -0.0830, -0.0679,  ...,  0.1010, -0.0360,  0.2054],
+        [ 0.0048, -0.0149, -0.0319,  ..., -0.0120, -0.0144, -0.0727],
+        ...,
+        [ 0.0307, -0.0998,  0.1500,  ...,  0.0294, -0.0796,  0.0424],
+        [-0.0355,  0.0586, -0.1352,  ..., -0.0529,  0.0149, -0.0818],
+        [-0.0531,  0.0658,  0.0477,  ..., -0.0476, -0.0430, -0.0200]],
+       device='cuda:0'), grad: tensor([[ 4.3601e-05,  7.3493e-05,  5.2977e-04,  ..., -4.5280e-03,
+          1.2901e-02,  7.5221e-05],
+        [ 2.1672e-04, -9.5367e-03,  5.2595e-04,  ..., -3.0708e-03,
+          1.5450e-04, -1.3008e-03],
+        [ 1.0042e-03,  1.1057e-04,  1.7834e-03,  ...,  6.1226e-03,
+          5.7888e-04,  1.1292e-03],
+        ...,
+        [-5.9967e-03,  1.7703e-04,  1.2083e-03,  ...,  6.3934e-03,
+          2.2519e-04, -8.6737e-04],
+        [ 5.2977e-04,  9.6512e-03,  9.0647e-04,  ...,  7.3738e-03,
+          5.0259e-04,  8.7404e-04],
+        [ 7.6370e-03,  1.7653e-03, -1.6508e-03,  ..., -8.7738e-03,
+          9.1028e-04,  3.3340e-03]], device='cuda:0')
+Epoch 241, bias, value: tensor([-0.0296,  0.0311,  0.0017, -0.0084,  0.0230, -0.0284,  0.0069, -0.0010,
+        -0.0021, -0.0112], device='cuda:0'), grad: tensor([-0.0099, -0.0255,  0.0215, -0.0442, -0.0216,  0.0067, -0.0120,  0.0331,
+         0.0423,  0.0095], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 240, time 214.88, cls_loss 0.5958 cls_loss_mapping 0.0047 cls_loss_causal 0.5138 re_mapping 0.0110 re_causal 0.0250 /// teacc 98.69 lr 0.00010000
+Epoch 242, weight, value: tensor([[-0.0702, -0.1157, -0.0889,  ..., -0.0391,  0.0525, -0.1033],
+        [-0.0725, -0.0829, -0.0666,  ...,  0.1013, -0.0367,  0.2054],
+        [ 0.0034, -0.0159, -0.0307,  ..., -0.0122, -0.0138, -0.0711],
+        ...,
+        [ 0.0306, -0.0984,  0.1494,  ...,  0.0312, -0.0807,  0.0415],
+        [-0.0357,  0.0598, -0.1358,  ..., -0.0523,  0.0154, -0.0812],
+        [-0.0542,  0.0657,  0.0464,  ..., -0.0493, -0.0439, -0.0210]],
+       device='cuda:0'), grad: tensor([[-2.8181e-04,  1.9276e-04,  3.5256e-05,  ..., -7.6790e-03,
+          1.8060e-04,  7.4506e-09],
+        [ 9.1434e-05,  2.6867e-05,  2.5079e-05,  ...,  5.6534e-03,
+          6.5804e-05,  5.5879e-08],
+        [ 8.2588e-04,  4.9639e-04,  7.2622e-04,  ...,  1.0353e-02,
+          5.0879e-04,  2.6077e-08],
+        ...,
+        [ 8.5115e-05,  6.4909e-05,  7.4983e-05,  ..., -3.3798e-03,
+         -3.9577e-04,  1.3784e-07],
+        [-9.9373e-04,  6.6161e-05,  7.6890e-05,  ...,  7.0906e-04,
+          8.9645e-05,  9.1270e-08],
+        [ 3.7694e-04,  2.3520e-04,  2.1601e-04,  ..., -3.2673e-03,
+          1.4579e-04,  7.4506e-07]], device='cuda:0')
+Epoch 242, bias, value: tensor([-3.0170e-02,  3.1824e-02,  1.8377e-03, -9.3172e-03,  2.3220e-02,
+        -2.9180e-02,  7.8249e-03,  8.9777e-05, -1.8461e-03, -1.2339e-02],
+       device='cuda:0'), grad: tensor([-0.0230,  0.0270,  0.0348,  0.0250,  0.0120, -0.0424,  0.0211, -0.0144,
+        -0.0231, -0.0170], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 241, time 214.49, cls_loss 0.5373 cls_loss_mapping 0.0046 cls_loss_causal 0.4704 re_mapping 0.0109 re_causal 0.0243 /// teacc 98.79 lr 0.00010000
+Epoch 243, weight, value: tensor([[-0.0717, -0.1167, -0.0898,  ..., -0.0391,  0.0524, -0.1040],
+        [-0.0694, -0.0825, -0.0659,  ...,  0.1015, -0.0388,  0.2054],
+        [ 0.0045, -0.0165, -0.0297,  ..., -0.0116, -0.0124, -0.0696],
+        ...,
+        [ 0.0304, -0.0993,  0.1499,  ...,  0.0312, -0.0812,  0.0420],
+        [-0.0358,  0.0590, -0.1363,  ..., -0.0526,  0.0162, -0.0820],
+        [-0.0543,  0.0649,  0.0458,  ..., -0.0506, -0.0446, -0.0212]],
+       device='cuda:0'), grad: tensor([[ 8.2627e-06,  1.0833e-05,  2.4080e-05,  ...,  3.3131e-03,
+          2.5578e-03,  3.0689e-03],
+        [ 4.9584e-06,  1.8275e-04,  3.0756e-05,  ..., -5.4207e-03,
+         -4.6425e-03, -3.7537e-03],
+        [-9.0504e-04,  3.8719e-03, -8.6689e-04,  ...,  6.4583e-03,
+          5.7945e-03, -3.5381e-03],
+        ...,
+        [ 7.0429e-04,  2.2721e-04,  8.0347e-04,  ...,  4.0321e-03,
+          1.4286e-03,  1.2913e-03],
+        [ 3.7241e-04, -3.6297e-03,  1.7157e-03,  ..., -9.2697e-03,
+          1.5545e-03,  1.5831e-03],
+        [ 7.0512e-05,  6.6137e-04,  2.3060e-06,  ..., -5.2719e-03,
+         -7.4654e-03,  5.6028e-04]], device='cuda:0')
+Epoch 243, bias, value: tensor([-0.0299,  0.0318,  0.0018, -0.0094,  0.0230, -0.0277,  0.0066,  0.0002,
+        -0.0009, -0.0136], device='cuda:0'), grad: tensor([ 0.0132, -0.0222,  0.0095,  0.0056,  0.0196,  0.0320, -0.0234,  0.0246,
+        -0.0311, -0.0278], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 242, time 214.67, cls_loss 0.5616 cls_loss_mapping 0.0051 cls_loss_causal 0.5045 re_mapping 0.0103 re_causal 0.0239 /// teacc 98.68 lr 0.00010000
+Epoch 244, weight, value: tensor([[-0.0718, -0.1132, -0.0903,  ..., -0.0389,  0.0530, -0.1038],
+        [-0.0692, -0.0835, -0.0664,  ...,  0.1010, -0.0362,  0.2054],
+        [ 0.0048, -0.0172, -0.0303,  ..., -0.0119, -0.0124, -0.0699],
+        ...,
+        [ 0.0301, -0.0995,  0.1512,  ...,  0.0312, -0.0806,  0.0429],
+        [-0.0359,  0.0586, -0.1362,  ..., -0.0527,  0.0152, -0.0832],
+        [-0.0541,  0.0659,  0.0451,  ..., -0.0501, -0.0409, -0.0205]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-08,  3.8052e-04,  3.4504e-03,  ...,  1.3247e-03,
+          6.3360e-05, -1.2978e-02],
+        [ 8.5682e-08,  6.2132e-04,  7.6103e-04,  ...,  2.2717e-03,
+          1.8060e-04,  1.3990e-03],
+        [ 4.3027e-07,  7.0095e-04, -1.4252e-02,  ..., -6.4659e-03,
+          2.7204e-04, -3.7575e-03],
+        ...,
+        [ 6.1654e-07, -3.4475e-04,  2.1839e-03,  ...,  1.3428e-03,
+         -1.9801e-04, -3.9315e-04],
+        [ 4.4703e-07, -4.0779e-03, -9.8801e-04,  ..., -9.9869e-03,
+         -1.0023e-03,  2.4662e-03],
+        [ 8.6986e-07,  1.4267e-03,  2.6360e-03,  ...,  3.4637e-03,
+          3.9053e-04,  3.6030e-03]], device='cuda:0')
+Epoch 244, bias, value: tensor([-0.0295,  0.0323,  0.0014, -0.0097,  0.0233, -0.0288,  0.0066,  0.0010,
+        -0.0008, -0.0139], device='cuda:0'), grad: tensor([-0.0242,  0.0115, -0.0415,  0.0107, -0.0053,  0.0259,  0.0285,  0.0122,
+        -0.0367,  0.0190], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 243, time 214.57, cls_loss 0.5822 cls_loss_mapping 0.0049 cls_loss_causal 0.5070 re_mapping 0.0106 re_causal 0.0253 /// teacc 98.72 lr 0.00010000
+Epoch 245, weight, value: tensor([[-0.0708, -0.1147, -0.0911,  ..., -0.0393,  0.0526, -0.1047],
+        [-0.0685, -0.0822, -0.0662,  ...,  0.1007, -0.0345,  0.2062],
+        [ 0.0048, -0.0179, -0.0303,  ..., -0.0128, -0.0130, -0.0692],
+        ...,
+        [ 0.0304, -0.0998,  0.1513,  ...,  0.0305, -0.0804,  0.0426],
+        [-0.0371,  0.0589, -0.1364,  ..., -0.0525,  0.0138, -0.0845],
+        [-0.0548,  0.0654,  0.0454,  ..., -0.0515, -0.0405, -0.0205]],
+       device='cuda:0'), grad: tensor([[ 1.5676e-05,  1.6809e-04,  5.2547e-04,  ...,  3.1223e-03,
+          6.4707e-04,  9.2888e-04],
+        [ 4.6678e-06,  6.2084e-04,  6.1321e-04,  ..., -6.5689e-03,
+         -1.1843e-04, -6.7177e-03],
+        [ 6.2361e-06,  3.1781e-04, -2.4872e-03,  ..., -1.1505e-02,
+         -2.3384e-03,  1.2960e-03],
+        ...,
+        [ 2.1961e-06,  1.7347e-03,  3.3402e-04,  ...,  2.9850e-03,
+          2.0733e-03,  2.0313e-03],
+        [-5.9664e-05, -1.5154e-03,  6.0987e-04,  ...,  3.5038e-03,
+          4.3011e-04,  1.3494e-03],
+        [ 1.3724e-05, -4.5929e-03, -3.0346e-03,  ...,  2.6302e-03,
+          9.4056e-05, -3.5501e-04]], device='cuda:0')
+Epoch 245, bias, value: tensor([-0.0293,  0.0331,  0.0001, -0.0079,  0.0225, -0.0287,  0.0063,  0.0007,
+        -0.0004, -0.0145], device='cuda:0'), grad: tensor([ 0.0155, -0.0155, -0.0496,  0.0151,  0.0066, -0.0101, -0.0109,  0.0181,
+         0.0186,  0.0121], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 244, time 214.42, cls_loss 0.5706 cls_loss_mapping 0.0048 cls_loss_causal 0.4838 re_mapping 0.0103 re_causal 0.0229 /// teacc 98.72 lr 0.00010000
+Epoch 246, weight, value: tensor([[-0.0717, -0.1140, -0.0915,  ..., -0.0400,  0.0536, -0.1049],
+        [-0.0688, -0.0840, -0.0664,  ...,  0.1006, -0.0348,  0.2075],
+        [ 0.0049, -0.0172, -0.0308,  ..., -0.0119, -0.0118, -0.0695],
+        ...,
+        [ 0.0304, -0.1001,  0.1522,  ...,  0.0299, -0.0815,  0.0425],
+        [-0.0369,  0.0597, -0.1362,  ..., -0.0521,  0.0134, -0.0852],
+        [-0.0544,  0.0646,  0.0452,  ..., -0.0517, -0.0422, -0.0203]],
+       device='cuda:0'), grad: tensor([[ 1.6654e-04,  2.1136e-04,  3.0637e-05,  ...,  5.2185e-03,
+          4.1699e-04,  2.3580e-04],
+        [ 4.0746e-04,  1.3959e-04,  1.5080e-04,  ..., -1.4915e-02,
+          1.5423e-05,  3.3140e-05],
+        [ 3.6573e-04,  4.3941e-04,  4.0221e-04,  ...,  1.0727e-02,
+          2.2352e-04,  2.8706e-04],
+        ...,
+        [ 2.1768e-04,  3.5143e-04,  2.4939e-04,  ...,  3.9101e-03,
+          6.1572e-05,  3.4785e-04],
+        [ 2.3365e-04,  6.8378e-04,  5.8365e-04,  ..., -2.8419e-03,
+          3.5906e-04,  4.9877e-04],
+        [-1.5326e-03,  2.0332e-03,  2.9583e-03,  ..., -1.2215e-02,
+         -1.5554e-03,  2.2984e-03]], device='cuda:0')
+Epoch 246, bias, value: tensor([-3.0795e-02,  3.3426e-02,  1.6408e-03, -6.8361e-03,  2.2200e-02,
+        -2.9178e-02,  6.2983e-03, -1.6305e-05,  9.1407e-05, -1.5115e-02],
+       device='cuda:0'), grad: tensor([ 0.0163, -0.0177,  0.0255,  0.0109,  0.0010, -0.0187,  0.0160,  0.0134,
+        -0.0126, -0.0342], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 245, time 214.82, cls_loss 0.5477 cls_loss_mapping 0.0047 cls_loss_causal 0.4680 re_mapping 0.0106 re_causal 0.0226 /// teacc 98.69 lr 0.00010000
+Epoch 247, weight, value: tensor([[-0.0715, -0.1138, -0.0923,  ..., -0.0407,  0.0547, -0.1051],
+        [-0.0694, -0.0843, -0.0668,  ...,  0.0998, -0.0354,  0.2075],
+        [ 0.0059, -0.0173, -0.0309,  ..., -0.0117, -0.0118, -0.0704],
+        ...,
+        [ 0.0316, -0.0991,  0.1535,  ...,  0.0315, -0.0818,  0.0432],
+        [-0.0370,  0.0591, -0.1369,  ..., -0.0515,  0.0135, -0.0847],
+        [-0.0556,  0.0665,  0.0449,  ..., -0.0532, -0.0418, -0.0207]],
+       device='cuda:0'), grad: tensor([[ 1.6201e-04,  8.3828e-04,  1.9002e-04,  ...,  2.8515e-03,
+          5.6401e-06,  3.0613e-03],
+        [ 2.6718e-05,  9.0301e-05,  4.8757e-04,  ..., -8.9798e-03,
+          3.3155e-07, -1.3313e-03],
+        [ 1.8334e-04,  4.8280e-04,  3.0875e-04,  ..., -2.3670e-03,
+          7.8440e-05,  1.0443e-03],
+        ...,
+        [ 4.2826e-05,  2.9969e-04, -2.0905e-03,  ..., -2.0599e-03,
+          8.7619e-06,  1.8330e-03],
+        [ 2.4033e-04,  6.4135e-04,  3.4451e-04,  ...,  4.2381e-03,
+          2.3097e-05,  1.4753e-03],
+        [ 1.2326e-04, -6.6662e-04,  6.0606e-04,  ..., -8.1825e-04,
+          1.6224e-06, -8.9035e-03]], device='cuda:0')
+Epoch 247, bias, value: tensor([-0.0312,  0.0325,  0.0012, -0.0069,  0.0225, -0.0286,  0.0061,  0.0011,
+         0.0003, -0.0154], device='cuda:0'), grad: tensor([ 0.0175, -0.0448, -0.0108,  0.0078, -0.0017,  0.0206,  0.0219,  0.0025,
+         0.0219, -0.0349], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 246, time 214.98, cls_loss 0.5609 cls_loss_mapping 0.0045 cls_loss_causal 0.4780 re_mapping 0.0104 re_causal 0.0243 /// teacc 98.74 lr 0.00010000
+Epoch 248, weight, value: tensor([[-0.0706, -0.1145, -0.0934,  ..., -0.0397,  0.0546, -0.1060],
+        [-0.0695, -0.0851, -0.0671,  ...,  0.1000, -0.0360,  0.2074],
+        [ 0.0050, -0.0161, -0.0307,  ..., -0.0120, -0.0115, -0.0705],
+        ...,
+        [ 0.0337, -0.0990,  0.1544,  ...,  0.0309, -0.0831,  0.0433],
+        [-0.0375,  0.0588, -0.1374,  ..., -0.0514,  0.0126, -0.0833],
+        [-0.0567,  0.0661,  0.0447,  ..., -0.0549, -0.0414, -0.0220]],
+       device='cuda:0'), grad: tensor([[ 1.4174e-04,  1.1724e-04,  1.4372e-05,  ...,  5.1498e-03,
+          1.9133e-04,  1.3220e-04],
+        [ 7.9393e-04,  1.1265e-04,  1.3955e-05,  ...,  6.0310e-03,
+          1.4710e-04,  1.3981e-03],
+        [ 9.8896e-04,  1.8716e-04,  5.6922e-05,  ..., -1.3741e-02,
+          2.0027e-04,  4.8804e-04],
+        ...,
+        [-6.7949e-05,  1.0049e-04, -2.0504e-04,  ..., -2.9964e-03,
+         -1.6727e-03, -1.3103e-03],
+        [ 5.8508e-04,  7.0429e-04,  6.2168e-05,  ...,  6.2904e-03,
+          1.5831e-04,  6.4898e-04],
+        [ 2.3627e-04,  1.3094e-03,  3.4738e-04,  ...,  6.6719e-03,
+          1.6963e-04,  9.8515e-04]], device='cuda:0')
+Epoch 248, bias, value: tensor([-0.0314,  0.0333,  0.0011, -0.0060,  0.0232, -0.0295,  0.0056,  0.0009,
+         0.0005, -0.0161], device='cuda:0'), grad: tensor([ 0.0220,  0.0007, -0.0276, -0.0007, -0.0294,  0.0136,  0.0053, -0.0142,
+         0.0021,  0.0282], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 247, time 214.85, cls_loss 0.5726 cls_loss_mapping 0.0052 cls_loss_causal 0.5064 re_mapping 0.0101 re_causal 0.0236 /// teacc 98.73 lr 0.00010000
+Epoch 249, weight, value: tensor([[-0.0693, -0.1133, -0.0931,  ..., -0.0400,  0.0555, -0.1049],
+        [-0.0695, -0.0851, -0.0680,  ...,  0.0993, -0.0360,  0.2075],
+        [ 0.0036, -0.0171, -0.0314,  ..., -0.0111, -0.0127, -0.0703],
+        ...,
+        [ 0.0337, -0.0976,  0.1548,  ...,  0.0312, -0.0835,  0.0445],
+        [-0.0375,  0.0587, -0.1378,  ..., -0.0523,  0.0134, -0.0830],
+        [-0.0571,  0.0678,  0.0458,  ..., -0.0545, -0.0418, -0.0236]],
+       device='cuda:0'), grad: tensor([[ 2.5593e-06,  1.4591e-03,  1.6127e-03,  ...,  5.0497e-04,
+          2.9707e-04,  2.3711e-04],
+        [ 1.3039e-08,  2.6393e-04,  1.2949e-05,  ..., -2.9507e-03,
+          2.2464e-06, -2.8774e-05],
+        [ 5.2154e-08,  4.0126e-04,  1.8454e-04,  ...,  2.9259e-03,
+          4.4852e-05,  7.8261e-05],
+        ...,
+        [ 2.9802e-08, -8.7738e-03,  8.1110e-04,  ..., -3.0689e-03,
+          2.0397e-04,  2.0218e-04],
+        [ 3.5204e-07,  5.1231e-03,  1.4753e-03,  ...,  4.4746e-03,
+          4.0364e-04,  2.5511e-04],
+        [ 1.6019e-07, -2.4414e-03, -8.5602e-03,  ..., -1.2444e-02,
+         -2.0809e-03, -1.0309e-03]], device='cuda:0')
+Epoch 249, bias, value: tensor([-0.0310,  0.0329,  0.0012, -0.0062,  0.0237, -0.0293,  0.0052,  0.0005,
+         0.0008, -0.0161], device='cuda:0'), grad: tensor([-0.0041, -0.0243,  0.0176,  0.0201,  0.0203,  0.0162,  0.0075, -0.0045,
+         0.0165, -0.0653], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 248, time 214.38, cls_loss 0.5590 cls_loss_mapping 0.0037 cls_loss_causal 0.4835 re_mapping 0.0104 re_causal 0.0244 /// teacc 98.69 lr 0.00010000
+Epoch 250, weight, value: tensor([[-0.0694, -0.1139, -0.0919,  ..., -0.0394,  0.0558, -0.1044],
+        [-0.0699, -0.0855, -0.0680,  ...,  0.0993, -0.0362,  0.2069],
+        [ 0.0037, -0.0167, -0.0309,  ..., -0.0112, -0.0123, -0.0706],
+        ...,
+        [ 0.0336, -0.0974,  0.1559,  ...,  0.0303, -0.0841,  0.0449],
+        [-0.0373,  0.0578, -0.1395,  ..., -0.0521,  0.0122, -0.0817],
+        [-0.0567,  0.0675,  0.0454,  ..., -0.0534, -0.0411, -0.0235]],
+       device='cuda:0'), grad: tensor([[ 1.1809e-06,  1.7142e-04,  8.2135e-05,  ..., -9.1171e-04,
+          6.9104e-07,  2.3305e-04],
+        [ 6.0797e-05,  2.4071e-03,  4.6659e-04,  ...,  1.5656e-02,
+          1.4659e-06,  2.1610e-03],
+        [-1.3448e-06,  3.0351e-04,  3.9625e-04,  ...,  3.8319e-03,
+          2.1644e-06,  2.8372e-04],
+        ...,
+        [ 6.1318e-06,  3.3450e-04,  1.0395e-03,  ...,  4.8943e-03,
+          4.1686e-06,  1.7090e-03],
+        [ 6.8545e-05,  1.7014e-03,  5.0640e-04,  ...,  7.3385e-04,
+          1.9502e-06, -6.2561e-04],
+        [-1.0610e-04, -3.2101e-03,  2.1439e-03,  ...,  5.6877e-03,
+          1.0028e-05,  3.0079e-03]], device='cuda:0')
+Epoch 250, bias, value: tensor([-0.0301,  0.0332,  0.0009, -0.0062,  0.0237, -0.0295,  0.0045, -0.0003,
+         0.0004, -0.0149], device='cuda:0'), grad: tensor([-0.0194,  0.0559,  0.0179, -0.0793, -0.0168,  0.0098, -0.0101,  0.0236,
+        -0.0027,  0.0209], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 249, time 214.21, cls_loss 0.5649 cls_loss_mapping 0.0054 cls_loss_causal 0.4907 re_mapping 0.0101 re_causal 0.0234 /// teacc 98.57 lr 0.00010000
+Epoch 251, weight, value: tensor([[-0.0685, -0.1149, -0.0926,  ..., -0.0382,  0.0551, -0.1050],
+        [-0.0702, -0.0848, -0.0678,  ...,  0.1000, -0.0368,  0.2077],
+        [ 0.0047, -0.0179, -0.0300,  ..., -0.0113, -0.0130, -0.0705],
+        ...,
+        [ 0.0326, -0.0970,  0.1552,  ...,  0.0298, -0.0851,  0.0453],
+        [-0.0375,  0.0581, -0.1392,  ..., -0.0529,  0.0119, -0.0813],
+        [-0.0560,  0.0666,  0.0472,  ..., -0.0537, -0.0416, -0.0236]],
+       device='cuda:0'), grad: tensor([[ 3.5167e-04,  1.4651e-04,  1.4651e-04,  ...,  4.3983e-03,
+          5.1069e-04,  3.3766e-05],
+        [ 2.2292e-04,  1.1498e-04, -8.3771e-03,  ..., -4.8256e-03,
+          8.3399e-04, -5.5161e-03],
+        [ 3.5882e-04,  7.4565e-05,  3.3116e-04,  ...,  2.9240e-03,
+          2.9469e-04,  1.4699e-04],
+        ...,
+        [-4.8065e-03,  4.3583e-04,  8.9188e-03,  ...,  1.6785e-03,
+          3.6359e-04,  5.5695e-03],
+        [-2.4796e-04,  2.8086e-04, -2.5311e-03,  ...,  1.1768e-03,
+         -3.7804e-03,  1.2040e-04],
+        [ 1.7252e-03,  1.0862e-03,  3.1033e-03,  ...,  8.8501e-03,
+          1.1091e-03,  1.7824e-03]], device='cuda:0')
+Epoch 251, bias, value: tensor([-0.0296,  0.0344,  0.0007, -0.0059,  0.0242, -0.0302,  0.0049, -0.0012,
+        -0.0004, -0.0151], device='cuda:0'), grad: tensor([ 0.0144,  0.0031,  0.0057, -0.0361, -0.0151, -0.0326,  0.0427,  0.0030,
+        -0.0111,  0.0261], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 250, time 214.20, cls_loss 0.5404 cls_loss_mapping 0.0051 cls_loss_causal 0.4746 re_mapping 0.0099 re_causal 0.0232 /// teacc 98.59 lr 0.00010000
+Epoch 252, weight, value: tensor([[-0.0684, -0.1143, -0.0912,  ..., -0.0386,  0.0549, -0.1048],
+        [-0.0698, -0.0848, -0.0679,  ...,  0.1005, -0.0383,  0.2083],
+        [ 0.0046, -0.0177, -0.0317,  ..., -0.0104, -0.0137, -0.0703],
+        ...,
+        [ 0.0330, -0.0959,  0.1540,  ...,  0.0285, -0.0851,  0.0447],
+        [-0.0388,  0.0578, -0.1387,  ..., -0.0525,  0.0122, -0.0819],
+        [-0.0558,  0.0667,  0.0485,  ..., -0.0529, -0.0403, -0.0235]],
+       device='cuda:0'), grad: tensor([[ 7.6368e-08,  8.7991e-06,  1.2510e-05,  ..., -5.3711e-03,
+          8.1587e-04,  4.0263e-05],
+        [ 6.9477e-07,  6.1417e-04,  4.5228e-04,  ...,  5.6725e-03,
+          1.2052e-04,  4.9353e-04],
+        [ 1.1735e-06, -7.2384e-04, -4.6825e-04,  ..., -3.3302e-03,
+         -2.5482e-03,  1.0484e-04],
+        ...,
+        [ 1.2293e-06,  3.0175e-05,  3.4776e-06,  ...,  1.4610e-03,
+          3.7074e-04, -1.1005e-03],
+        [ 2.7940e-08,  2.2724e-05,  3.4302e-05,  ...,  1.1978e-03,
+          6.9761e-04,  1.3590e-04],
+        [ 1.7375e-05,  2.0695e-04,  3.1281e-04,  ...,  1.0509e-03,
+          1.8144e-04,  1.5392e-03]], device='cuda:0')
+Epoch 252, bias, value: tensor([-0.0294,  0.0345,  0.0012, -0.0070,  0.0238, -0.0297,  0.0052, -0.0024,
+        -0.0001, -0.0144], device='cuda:0'), grad: tensor([-0.0191,  0.0200, -0.0117,  0.0083, -0.0303,  0.0431, -0.0146,  0.0086,
+         0.0096, -0.0138], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 251, time 214.72, cls_loss 0.5577 cls_loss_mapping 0.0043 cls_loss_causal 0.4949 re_mapping 0.0100 re_causal 0.0236 /// teacc 98.73 lr 0.00010000
+Epoch 253, weight, value: tensor([[-0.0690, -0.1149, -0.0917,  ..., -0.0388,  0.0564, -0.1054],
+        [-0.0704, -0.0846, -0.0681,  ...,  0.1012, -0.0392,  0.2091],
+        [ 0.0040, -0.0177, -0.0326,  ..., -0.0107, -0.0141, -0.0708],
+        ...,
+        [ 0.0313, -0.0970,  0.1540,  ...,  0.0285, -0.0861,  0.0452],
+        [-0.0376,  0.0580, -0.1389,  ..., -0.0532,  0.0132, -0.0826],
+        [-0.0543,  0.0673,  0.0492,  ..., -0.0528, -0.0408, -0.0226]],
+       device='cuda:0'), grad: tensor([[ 7.3493e-05, -1.3220e-04, -2.5463e-03,  ...,  4.2653e-04,
+          7.3671e-05, -1.1730e-03],
+        [ 5.7966e-05,  1.2964e-06,  9.9361e-05,  ...,  1.3290e-02,
+          3.0422e-04,  1.8811e-04],
+        [ 8.9109e-05,  3.8862e-05,  9.4128e-04,  ..., -1.0582e-02,
+          1.5430e-03,  8.4829e-04],
+        ...,
+        [ 4.6635e-04,  3.7879e-05,  1.1911e-03,  ...,  3.4771e-03,
+          4.9543e-04,  7.8583e-04],
+        [ 4.8113e-04,  2.4676e-05,  5.9557e-04,  ...,  5.0888e-03,
+          8.2445e-04,  9.8515e-04],
+        [ 8.0395e-04, -2.5868e-05,  1.3628e-03,  ..., -6.9275e-03,
+          4.0531e-04,  1.3351e-03]], device='cuda:0')
+Epoch 253, bias, value: tensor([-0.0288,  0.0348,  0.0010, -0.0070,  0.0238, -0.0295,  0.0054, -0.0028,
+        -0.0010, -0.0141], device='cuda:0'), grad: tensor([ 0.0071,  0.0384, -0.0383,  0.0184, -0.0419, -0.0133, -0.0042,  0.0169,
+         0.0252, -0.0082], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 252, time 214.56, cls_loss 0.5469 cls_loss_mapping 0.0033 cls_loss_causal 0.4645 re_mapping 0.0104 re_causal 0.0233 /// teacc 98.70 lr 0.00010000
+Epoch 254, weight, value: tensor([[-0.0690, -0.1157, -0.0922,  ..., -0.0390,  0.0561, -0.1061],
+        [-0.0701, -0.0857, -0.0690,  ...,  0.1006, -0.0399,  0.2096],
+        [ 0.0039, -0.0174, -0.0332,  ..., -0.0103, -0.0132, -0.0715],
+        ...,
+        [ 0.0291, -0.0966,  0.1549,  ...,  0.0292, -0.0859,  0.0453],
+        [-0.0384,  0.0586, -0.1391,  ..., -0.0532,  0.0128, -0.0823],
+        [-0.0526,  0.0675,  0.0487,  ..., -0.0513, -0.0415, -0.0228]],
+       device='cuda:0'), grad: tensor([[-2.3746e-04,  2.4468e-05,  1.0334e-05,  ...,  9.2793e-04,
+         -8.7118e-04,  3.8862e-05],
+        [ 7.0110e-06,  9.5367e-05,  2.7347e-04,  ...,  6.9199e-03,
+          2.2459e-04,  2.9430e-03],
+        [ 4.4608e-04,  6.6853e-04,  2.1255e-04,  ...,  5.5275e-03,
+          4.8423e-04,  1.8244e-03],
+        ...,
+        [ 7.1973e-06,  9.0718e-05, -6.3229e-04,  ...,  3.1681e-03,
+          7.4327e-05, -1.0933e-02],
+        [-7.5626e-04, -5.1308e-04, -2.8133e-04,  ..., -1.2360e-03,
+          4.6992e-04,  7.6256e-03],
+        [-3.4899e-05, -4.3011e-04,  2.1517e-04,  ...,  1.2267e-04,
+         -1.7405e-04,  3.6659e-03]], device='cuda:0')
+Epoch 254, bias, value: tensor([-0.0293,  0.0339,  0.0011, -0.0069,  0.0237, -0.0297,  0.0051, -0.0028,
+        -0.0005, -0.0130], device='cuda:0'), grad: tensor([-0.0025,  0.0237,  0.0248,  0.0179, -0.0491,  0.0002,  0.0114, -0.0116,
+        -0.0092, -0.0056], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 253, time 214.35, cls_loss 0.5553 cls_loss_mapping 0.0038 cls_loss_causal 0.4791 re_mapping 0.0102 re_causal 0.0234 /// teacc 98.77 lr 0.00010000
+Epoch 255, weight, value: tensor([[-0.0695, -0.1161, -0.0941,  ..., -0.0386,  0.0555, -0.1067],
+        [-0.0699, -0.0863, -0.0694,  ...,  0.1002, -0.0403,  0.2105],
+        [ 0.0046, -0.0170, -0.0331,  ..., -0.0106, -0.0130, -0.0731],
+        ...,
+        [ 0.0299, -0.0968,  0.1548,  ...,  0.0299, -0.0867,  0.0469],
+        [-0.0395,  0.0593, -0.1388,  ..., -0.0541,  0.0137, -0.0828],
+        [-0.0526,  0.0681,  0.0499,  ..., -0.0513, -0.0408, -0.0240]],
+       device='cuda:0'), grad: tensor([[ 1.6415e-04,  1.8620e-04, -4.3297e-04,  ..., -3.1872e-03,
+          2.0707e-04, -6.9618e-04],
+        [ 4.6158e-04,  2.6417e-04,  1.1215e-03,  ...,  4.4060e-03,
+          1.4687e-04,  1.8396e-03],
+        [ 3.5133e-03, -1.6975e-04, -1.4000e-03,  ...,  7.6256e-03,
+         -2.5787e-03,  2.2602e-03],
+        ...,
+        [-4.9286e-03,  1.0319e-03,  3.5076e-03,  ..., -3.2482e-03,
+          4.1246e-04,  4.5357e-03],
+        [ 8.8692e-05, -1.4591e-04, -2.4624e-03,  ..., -4.1809e-03,
+          8.6927e-04, -4.8981e-03],
+        [-4.2096e-06,  7.6532e-05,  1.3189e-03,  ...,  4.7646e-03,
+          3.7122e-04,  2.5730e-03]], device='cuda:0')
+Epoch 255, bias, value: tensor([-0.0297,  0.0334,  0.0012, -0.0066,  0.0233, -0.0286,  0.0052, -0.0023,
+        -0.0009, -0.0133], device='cuda:0'), grad: tensor([-0.0085, -0.0064,  0.0247,  0.0304, -0.0204,  0.0009, -0.0375, -0.0121,
+        -0.0019,  0.0310], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 254, time 214.83, cls_loss 0.5811 cls_loss_mapping 0.0057 cls_loss_causal 0.5104 re_mapping 0.0100 re_causal 0.0236 /// teacc 98.80 lr 0.00010000
+Epoch 256, weight, value: tensor([[-0.0697, -0.1180, -0.0943,  ..., -0.0382,  0.0553, -0.1078],
+        [-0.0708, -0.0864, -0.0700,  ...,  0.1000, -0.0407,  0.2111],
+        [ 0.0030, -0.0174, -0.0334,  ..., -0.0113, -0.0131, -0.0729],
+        ...,
+        [ 0.0326, -0.0973,  0.1545,  ...,  0.0304, -0.0866,  0.0474],
+        [-0.0406,  0.0601, -0.1368,  ..., -0.0545,  0.0141, -0.0835],
+        [-0.0536,  0.0680,  0.0495,  ..., -0.0509, -0.0416, -0.0231]],
+       device='cuda:0'), grad: tensor([[ 5.6531e-07,  2.6729e-07,  3.8475e-05,  ...,  1.9302e-03,
+          9.1642e-07,  6.7174e-05],
+        [ 1.8878e-06,  1.0151e-06,  6.2823e-05,  ...,  2.9125e-03,
+          2.0489e-07,  8.4579e-05],
+        [-8.2329e-06,  3.0899e-04,  1.2550e-03,  ...,  2.0905e-03,
+          4.8950e-06,  5.5122e-04],
+        ...,
+        [ 5.5507e-06, -2.9826e-04, -1.4000e-03,  ...,  4.4136e-03,
+         -1.7300e-05,  1.9035e-03],
+        [-6.3423e-07,  6.2466e-05,  2.6870e-04,  ...,  2.3746e-03,
+          4.5728e-07, -3.5882e-04],
+        [ 7.4506e-07, -1.6224e-04, -1.0467e-04,  ..., -6.7978e-03,
+          5.4613e-06,  3.8052e-04]], device='cuda:0')
+Epoch 256, bias, value: tensor([-0.0303,  0.0334,  0.0019, -0.0059,  0.0234, -0.0294,  0.0054, -0.0023,
+        -0.0013, -0.0132], device='cuda:0'), grad: tensor([ 0.0161,  0.0205,  0.0183, -0.0444,  0.0166, -0.0071, -0.0076,  0.0257,
+         0.0032, -0.0414], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 255, time 214.95, cls_loss 0.5336 cls_loss_mapping 0.0043 cls_loss_causal 0.4542 re_mapping 0.0099 re_causal 0.0216 /// teacc 98.79 lr 0.00010000
+Epoch 257, weight, value: tensor([[-0.0700, -0.1179, -0.0939,  ..., -0.0391,  0.0557, -0.1077],
+        [-0.0714, -0.0859, -0.0698,  ...,  0.0991, -0.0407,  0.2112],
+        [ 0.0021, -0.0163, -0.0323,  ..., -0.0107, -0.0123, -0.0747],
+        ...,
+        [ 0.0326, -0.0986,  0.1533,  ...,  0.0302, -0.0888,  0.0476],
+        [-0.0401,  0.0602, -0.1370,  ..., -0.0554,  0.0140, -0.0841],
+        [-0.0545,  0.0677,  0.0499,  ..., -0.0514, -0.0424, -0.0222]],
+       device='cuda:0'), grad: tensor([[ 4.9956e-06,  1.2755e-04,  1.2922e-04,  ...,  1.1122e-04,
+          1.5604e-04,  3.2067e-05],
+        [-1.9569e-03, -1.3676e-03,  8.5533e-05,  ..., -4.1771e-03,
+          1.6168e-06, -4.1122e-03],
+        [ 1.5005e-05, -1.1367e-04,  3.7842e-03,  ..., -5.8174e-03,
+          6.0272e-04,  9.2447e-05],
+        ...,
+        [ 2.7370e-04,  1.8442e-04, -4.8866e-03,  ...,  4.8447e-03,
+          2.2113e-04,  7.7581e-04],
+        [ 1.3864e-04,  2.4819e-04,  2.0790e-04,  ...,  3.2253e-03,
+          1.0920e-04,  3.9291e-04],
+        [ 1.0214e-03,  1.1597e-03, -1.4420e-03,  ...,  1.7004e-03,
+          9.2268e-05,  2.1820e-03]], device='cuda:0')
+Epoch 257, bias, value: tensor([-0.0306,  0.0339,  0.0022, -0.0055,  0.0233, -0.0300,  0.0060, -0.0025,
+        -0.0020, -0.0133], device='cuda:0'), grad: tensor([-0.0139, -0.0070, -0.0050,  0.0252,  0.0223, -0.0363, -0.0256,  0.0227,
+         0.0202, -0.0025], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 256, time 214.87, cls_loss 0.5722 cls_loss_mapping 0.0056 cls_loss_causal 0.5064 re_mapping 0.0102 re_causal 0.0229 /// teacc 98.79 lr 0.00010000
+Epoch 258, weight, value: tensor([[-0.0716, -0.1182, -0.0931,  ..., -0.0401,  0.0574, -0.1072],
+        [-0.0712, -0.0854, -0.0707,  ...,  0.0993, -0.0414,  0.2117],
+        [ 0.0015, -0.0156, -0.0325,  ..., -0.0112, -0.0116, -0.0753],
+        ...,
+        [ 0.0330, -0.0982,  0.1547,  ...,  0.0306, -0.0894,  0.0478],
+        [-0.0405,  0.0603, -0.1371,  ..., -0.0544,  0.0135, -0.0845],
+        [-0.0536,  0.0667,  0.0495,  ..., -0.0514, -0.0404, -0.0218]],
+       device='cuda:0'), grad: tensor([[ 5.1588e-05,  1.1051e-04,  1.5509e-04,  ...,  1.1644e-03,
+          4.5228e-04,  1.7655e-04],
+        [ 2.2447e-04,  2.7633e-04,  6.8235e-04,  ...,  3.0670e-03,
+          5.1212e-04, -1.3599e-03],
+        [ 1.1158e-04,  1.6057e-04,  5.6934e-04,  ...,  2.2297e-03,
+          2.7418e-04,  1.7494e-05],
+        ...,
+        [ 4.1276e-05,  5.9038e-05, -3.0670e-03,  ...,  2.8038e-04,
+         -2.3708e-03,  1.9479e-04],
+        [-9.8991e-04, -2.1458e-03, -2.7313e-03,  ..., -8.3466e-03,
+         -1.2960e-03,  1.0319e-03],
+        [ 5.4806e-05,  8.9943e-05,  6.5327e-04,  ...,  6.8474e-04,
+          8.9836e-04,  1.7479e-05]], device='cuda:0')
+Epoch 258, bias, value: tensor([-0.0296,  0.0342,  0.0014, -0.0057,  0.0243, -0.0309,  0.0060, -0.0023,
+        -0.0019, -0.0139], device='cuda:0'), grad: tensor([ 0.0204, -0.0178,  0.0224,  0.0347,  0.0191,  0.0089, -0.0105, -0.0301,
+        -0.0379, -0.0092], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 257, time 214.45, cls_loss 0.5553 cls_loss_mapping 0.0043 cls_loss_causal 0.4856 re_mapping 0.0104 re_causal 0.0246 /// teacc 98.79 lr 0.00010000
+Epoch 259, weight, value: tensor([[-0.0716, -0.1184, -0.0915,  ..., -0.0395,  0.0563, -0.1059],
+        [-0.0715, -0.0854, -0.0713,  ...,  0.0985, -0.0414,  0.2118],
+        [ 0.0007, -0.0160, -0.0333,  ..., -0.0120, -0.0111, -0.0760],
+        ...,
+        [ 0.0345, -0.0980,  0.1545,  ...,  0.0307, -0.0910,  0.0481],
+        [-0.0410,  0.0603, -0.1379,  ..., -0.0531,  0.0115, -0.0842],
+        [-0.0547,  0.0668,  0.0508,  ..., -0.0508, -0.0407, -0.0219]],
+       device='cuda:0'), grad: tensor([[ 1.5795e-05,  2.4819e-04,  7.1339e-06,  ...,  3.6693e-04,
+          8.4457e-03,  4.4298e-04],
+        [ 9.0003e-06,  5.5820e-05, -2.7288e-07,  ...,  3.4142e-04,
+          7.9298e-04,  1.1696e-02],
+        [ 6.0797e-05,  4.5967e-04,  1.8075e-05,  ...,  7.1859e-04,
+          2.0657e-03, -1.5350e-02],
+        ...,
+        [ 6.1274e-05,  3.3975e-04,  3.2544e-05,  ...,  1.0357e-03,
+          5.3072e-04,  1.9970e-03],
+        [-7.6056e-04, -3.3417e-03, -1.2022e-04,  ..., -6.3019e-03,
+          1.8875e-02,  6.2346e-05],
+        [ 1.1295e-04,  2.0134e-04,  6.8963e-05,  ...,  1.3981e-03,
+          1.3962e-03,  6.2799e-04]], device='cuda:0')
+Epoch 259, bias, value: tensor([-0.0280,  0.0328, -0.0004, -0.0059,  0.0248, -0.0311,  0.0057, -0.0014,
+        -0.0011, -0.0136], device='cuda:0'), grad: tensor([-0.0523,  0.0323, -0.0156, -0.0257, -0.0167,  0.0336,  0.0339, -0.0082,
+         0.0062,  0.0125], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 258, time 214.53, cls_loss 0.5592 cls_loss_mapping 0.0043 cls_loss_causal 0.4812 re_mapping 0.0105 re_causal 0.0235 /// teacc 98.77 lr 0.00010000
+Epoch 260, weight, value: tensor([[-6.9996e-02, -1.1878e-01, -9.2139e-02,  ..., -3.9649e-02,
+          5.6356e-02, -1.0356e-01],
+        [-7.1794e-02, -8.5669e-02, -7.0546e-02,  ...,  9.9003e-02,
+         -3.9067e-02,  2.1214e-01],
+        [ 5.9977e-05, -1.6503e-02, -3.2933e-02,  ..., -1.1230e-02,
+         -1.2390e-02, -7.5796e-02],
+        ...,
+        [ 3.5977e-02, -9.7729e-02,  1.5377e-01,  ...,  2.9928e-02,
+         -9.0320e-02,  4.8165e-02],
+        [-3.9652e-02,  5.9831e-02, -1.3623e-01,  ..., -5.3923e-02,
+          1.1384e-02, -8.3473e-02],
+        [-5.4399e-02,  6.6018e-02,  5.1118e-02,  ..., -5.1551e-02,
+         -4.0772e-02, -2.1985e-02]], device='cuda:0'), grad: tensor([[ 2.9616e-07,  6.8474e-04,  1.7948e-03,  ...,  1.9989e-03,
+          1.1005e-03,  1.0371e-04],
+        [ 1.6734e-05,  7.0393e-05,  1.7309e-04,  ..., -1.2493e-03,
+          1.8585e-04, -3.4595e-04],
+        [ 3.4850e-06,  5.8632e-03,  3.6502e-04,  ...,  8.9417e-03,
+          3.7169e-04,  6.0350e-05],
+        ...,
+        [-5.6362e-04,  2.3127e-04, -3.1891e-03,  ..., -6.2990e-04,
+          5.7077e-04, -3.6640e-03],
+        [ 9.8944e-06,  1.9550e-03,  4.9896e-03,  ...,  4.9133e-03,
+          6.2180e-03,  3.8886e-04],
+        [ 9.6142e-05, -1.5440e-03,  1.5488e-03,  ...,  1.8015e-03,
+          1.0815e-03,  6.6042e-04]], device='cuda:0')
+Epoch 260, bias, value: tensor([-0.0279,  0.0326, -0.0003, -0.0052,  0.0253, -0.0311,  0.0063, -0.0016,
+        -0.0016, -0.0146], device='cuda:0'), grad: tensor([ 0.0158, -0.0185, -0.0010, -0.0432,  0.0026,  0.0161, -0.0142,  0.0015,
+         0.0435, -0.0026], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 259, time 214.75, cls_loss 0.5284 cls_loss_mapping 0.0051 cls_loss_causal 0.4593 re_mapping 0.0101 re_causal 0.0224 /// teacc 98.70 lr 0.00010000
+Epoch 261, weight, value: tensor([[-0.0696, -0.1185, -0.0920,  ..., -0.0396,  0.0571, -0.1037],
+        [-0.0722, -0.0870, -0.0703,  ...,  0.0980, -0.0403,  0.2140],
+        [ 0.0003, -0.0166, -0.0327,  ..., -0.0103, -0.0133, -0.0744],
+        ...,
+        [ 0.0379, -0.0974,  0.1535,  ...,  0.0310, -0.0902,  0.0474],
+        [-0.0408,  0.0585, -0.1356,  ..., -0.0536,  0.0119, -0.0845],
+        [-0.0552,  0.0658,  0.0503,  ..., -0.0524, -0.0414, -0.0210]],
+       device='cuda:0'), grad: tensor([[-1.9217e-03,  1.8346e-04,  3.2163e-04,  ..., -2.9411e-03,
+          8.3685e-04,  2.3067e-04],
+        [ 1.0484e-04,  3.7640e-05,  6.8784e-05,  ..., -1.0246e-02,
+          4.8733e-04, -7.0930e-05],
+        [-5.3167e-05, -5.9545e-05, -4.2033e-04,  ...,  5.0659e-03,
+          4.7541e-04,  2.7809e-06],
+        ...,
+        [ 1.8013e-04,  3.7622e-04,  7.6771e-04,  ...,  2.5482e-03,
+          1.0309e-03,  3.8719e-04],
+        [ 2.5678e-04,  1.2457e-04,  3.8886e-04,  ...,  2.6913e-03,
+          9.2363e-04,  3.2687e-04],
+        [ 8.3506e-05, -1.6298e-03, -2.8076e-03,  ..., -6.0692e-03,
+         -4.6463e-03, -2.0027e-03]], device='cuda:0')
+Epoch 261, bias, value: tensor([-0.0289,  0.0337,  0.0005, -0.0050,  0.0249, -0.0298,  0.0063, -0.0021,
+        -0.0023, -0.0154], device='cuda:0'), grad: tensor([ 0.0015, -0.0428,  0.0362,  0.0112,  0.0232,  0.0135, -0.0390,  0.0199,
+         0.0207, -0.0443], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 260, time 214.67, cls_loss 0.5555 cls_loss_mapping 0.0042 cls_loss_causal 0.4889 re_mapping 0.0105 re_causal 0.0238 /// teacc 98.75 lr 0.00010000
+Epoch 262, weight, value: tensor([[-0.0693, -0.1188, -0.0909,  ..., -0.0390,  0.0577, -0.1046],
+        [-0.0710, -0.0877, -0.0716,  ...,  0.0982, -0.0417,  0.2143],
+        [ 0.0002, -0.0167, -0.0324,  ..., -0.0107, -0.0139, -0.0748],
+        ...,
+        [ 0.0378, -0.0973,  0.1540,  ...,  0.0305, -0.0909,  0.0482],
+        [-0.0407,  0.0600, -0.1361,  ..., -0.0535,  0.0123, -0.0842],
+        [-0.0554,  0.0653,  0.0497,  ..., -0.0518, -0.0411, -0.0210]],
+       device='cuda:0'), grad: tensor([[ 3.0361e-07,  2.1145e-05,  1.7202e-04,  ..., -5.5199e-03,
+          1.9491e-04, -8.5735e-04],
+        [ 7.4878e-07,  2.9877e-05, -7.5293e-04,  ..., -2.5845e-03,
+          1.3754e-05,  3.7074e-04],
+        [ 3.4962e-06,  7.2289e-04,  3.2978e-03,  ...,  3.5915e-03,
+          2.2173e-05,  2.9259e-03],
+        ...,
+        [ 1.7881e-06,  7.8261e-05, -1.6003e-03,  ..., -2.2888e-03,
+          1.1243e-05, -2.1172e-03],
+        [-1.6347e-05,  2.1958e-04,  9.4748e-04,  ...,  1.3361e-03,
+          3.2377e-04,  6.2370e-04],
+        [ 6.2399e-07, -9.8705e-04, -4.0894e-03,  ..., -5.1880e-04,
+          9.7811e-05, -2.4204e-03]], device='cuda:0')
+Epoch 262, bias, value: tensor([-0.0291,  0.0336,  0.0003, -0.0061,  0.0238, -0.0296,  0.0069, -0.0019,
+        -0.0022, -0.0139], device='cuda:0'), grad: tensor([-0.0118, -0.0252,  0.0139,  0.0059, -0.0027,  0.0055,  0.0110,  0.0078,
+         0.0088, -0.0131], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 261, time 214.67, cls_loss 0.5388 cls_loss_mapping 0.0040 cls_loss_causal 0.4759 re_mapping 0.0106 re_causal 0.0233 /// teacc 98.63 lr 0.00010000
+Epoch 263, weight, value: tensor([[-0.0688, -0.1205, -0.0901,  ..., -0.0397,  0.0553, -0.1044],
+        [-0.0711, -0.0874, -0.0726,  ...,  0.0982, -0.0409,  0.2144],
+        [-0.0004, -0.0172, -0.0331,  ..., -0.0106, -0.0132, -0.0752],
+        ...,
+        [ 0.0370, -0.0974,  0.1541,  ...,  0.0307, -0.0923,  0.0489],
+        [-0.0399,  0.0594, -0.1362,  ..., -0.0535,  0.0126, -0.0843],
+        [-0.0558,  0.0655,  0.0500,  ..., -0.0515, -0.0405, -0.0223]],
+       device='cuda:0'), grad: tensor([[ 4.1127e-05,  8.7261e-05,  1.9491e-05,  ...,  2.5311e-03,
+          1.3232e-04,  3.3379e-04],
+        [ 4.3011e-04,  6.9328e-06, -4.3225e-04,  ..., -6.1798e-03,
+          7.2680e-06, -1.9197e-03],
+        [ 7.9691e-05,  6.6385e-06,  1.9467e-04,  ..., -3.3054e-03,
+          8.9407e-06,  1.6117e-03],
+        ...,
+        [-1.0939e-03,  5.9962e-05,  1.2684e-04,  ..., -2.2049e-03,
+          9.8199e-06, -3.1013e-03],
+        [ 1.1164e-04,  6.6042e-05,  2.0176e-05,  ...,  4.2343e-03,
+          5.2869e-05,  4.9973e-04],
+        [ 2.9445e-04,  4.2105e-04, -9.1255e-05,  ...,  3.7117e-03,
+          5.7608e-05,  1.2150e-03]], device='cuda:0')
+Epoch 263, bias, value: tensor([-0.0289,  0.0340, -0.0006, -0.0062,  0.0232, -0.0290,  0.0071, -0.0012,
+        -0.0015, -0.0149], device='cuda:0'), grad: tensor([ 0.0165, -0.0225, -0.0386,  0.0152, -0.0762,  0.0141,  0.0067,  0.0080,
+         0.0277,  0.0490], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 262, time 214.64, cls_loss 0.5624 cls_loss_mapping 0.0039 cls_loss_causal 0.5019 re_mapping 0.0100 re_causal 0.0238 /// teacc 98.63 lr 0.00010000
+Epoch 264, weight, value: tensor([[-0.0683, -0.1209, -0.0899,  ..., -0.0396,  0.0551, -0.1022],
+        [-0.0715, -0.0871, -0.0728,  ...,  0.0980, -0.0416,  0.2142],
+        [-0.0012, -0.0189, -0.0332,  ..., -0.0101, -0.0132, -0.0766],
+        ...,
+        [ 0.0368, -0.0991,  0.1542,  ...,  0.0297, -0.0938,  0.0504],
+        [-0.0395,  0.0609, -0.1368,  ..., -0.0535,  0.0124, -0.0854],
+        [-0.0561,  0.0667,  0.0502,  ..., -0.0512, -0.0407, -0.0225]],
+       device='cuda:0'), grad: tensor([[ 3.6448e-05,  2.1875e-04,  5.7697e-04,  ..., -1.7633e-03,
+          7.8857e-05,  3.0780e-04],
+        [ 5.1081e-05, -5.9891e-04, -2.1000e-03,  ..., -1.8982e-02,
+          1.5832e-06,  2.0158e-04],
+        [ 7.1824e-05,  2.2709e-04,  3.0766e-03,  ...,  1.1604e-02,
+         -8.2092e-03,  4.4656e-04],
+        ...,
+        [-7.0691e-05,  1.6606e-04, -4.4894e-04,  ...,  2.9907e-03,
+          3.6478e-04, -1.4734e-03],
+        [ 2.8342e-05,  2.2650e-04,  4.9019e-04,  ...,  4.7913e-03,
+          1.0471e-03,  3.3855e-04],
+        [ 7.0512e-05,  1.8275e-04,  5.0545e-04,  ...,  4.6730e-03,
+          5.6152e-03,  7.2527e-04]], device='cuda:0')
+Epoch 264, bias, value: tensor([-0.0291,  0.0342, -0.0002, -0.0066,  0.0238, -0.0290,  0.0060, -0.0023,
+        -0.0010, -0.0140], device='cuda:0'), grad: tensor([-0.0140, -0.0431, -0.0039, -0.0065, -0.0078, -0.0120,  0.0192,  0.0140,
+         0.0234,  0.0307], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 263, time 215.01, cls_loss 0.5374 cls_loss_mapping 0.0044 cls_loss_causal 0.4645 re_mapping 0.0107 re_causal 0.0244 /// teacc 98.79 lr 0.00010000
+Epoch 265, weight, value: tensor([[-0.0680, -0.1207, -0.0904,  ..., -0.0406,  0.0561, -0.1031],
+        [-0.0705, -0.0878, -0.0721,  ...,  0.0995, -0.0418,  0.2157],
+        [-0.0017, -0.0198, -0.0326,  ..., -0.0106, -0.0134, -0.0771],
+        ...,
+        [ 0.0372, -0.0989,  0.1551,  ...,  0.0295, -0.0944,  0.0508],
+        [-0.0402,  0.0607, -0.1369,  ..., -0.0536,  0.0120, -0.0863],
+        [-0.0570,  0.0676,  0.0480,  ..., -0.0499, -0.0415, -0.0219]],
+       device='cuda:0'), grad: tensor([[ 1.4819e-05,  6.4552e-05,  6.1810e-05,  ...,  4.0092e-03,
+          9.7275e-05,  4.0889e-04],
+        [ 4.5419e-05,  3.2932e-05,  2.7704e-04,  ...,  1.5625e-02,
+          8.5890e-05,  1.9217e-03],
+        [-2.2495e-04,  6.6996e-04,  5.2005e-05,  ..., -5.8937e-03,
+          3.5763e-05,  4.0960e-04],
+        ...,
+        [ 1.2383e-05,  1.3363e-04,  1.0270e-04,  ...,  3.1376e-03,
+          5.3048e-06,  3.7718e-04],
+        [ 4.2439e-05, -3.2210e-04,  8.2016e-05,  ...,  5.2185e-03,
+          5.2422e-05,  4.2391e-04],
+        [ 3.1233e-05,  3.8445e-05, -6.8545e-05,  ..., -1.7441e-02,
+          4.9062e-06, -3.7975e-03]], device='cuda:0')
+Epoch 265, bias, value: tensor([-0.0292,  0.0350, -0.0005, -0.0060,  0.0236, -0.0290,  0.0058, -0.0027,
+        -0.0009, -0.0144], device='cuda:0'), grad: tensor([ 0.0192,  0.0599, -0.0107, -0.0480, -0.0051, -0.0134,  0.0003,  0.0180,
+         0.0238, -0.0438], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 264, time 214.97, cls_loss 0.5086 cls_loss_mapping 0.0032 cls_loss_causal 0.4510 re_mapping 0.0102 re_causal 0.0245 /// teacc 98.69 lr 0.00010000
+Epoch 266, weight, value: tensor([[-0.0672, -0.1202, -0.0909,  ..., -0.0404,  0.0553, -0.1037],
+        [-0.0709, -0.0884, -0.0725,  ...,  0.0993, -0.0427,  0.2159],
+        [-0.0020, -0.0185, -0.0327,  ..., -0.0099, -0.0137, -0.0768],
+        ...,
+        [ 0.0373, -0.0996,  0.1550,  ...,  0.0296, -0.0950,  0.0516],
+        [-0.0397,  0.0611, -0.1367,  ..., -0.0550,  0.0120, -0.0872],
+        [-0.0570,  0.0680,  0.0472,  ..., -0.0494, -0.0412, -0.0222]],
+       device='cuda:0'), grad: tensor([[ 5.2340e-07,  1.9217e-04,  2.9492e-04,  ..., -1.4984e-02,
+         -9.2936e-04,  1.2577e-04],
+        [ 2.9616e-07,  4.1842e-04,  1.2112e-03,  ...,  5.3749e-03,
+          1.7732e-05,  6.1989e-04],
+        [ 7.4506e-08,  2.8920e-04,  3.8123e-04,  ...,  1.1530e-03,
+         -2.9373e-04,  1.8764e-04],
+        ...,
+        [ 2.7940e-08,  1.6153e-04,  1.4372e-03,  ...,  5.0402e-04,
+          9.9540e-05,  1.0176e-03],
+        [-1.6540e-06, -1.8063e-03,  4.8971e-04,  ..., -7.2002e-04,
+          2.1482e-04,  2.0766e-04],
+        [ 2.3283e-07, -3.7201e-02,  9.2387e-05,  ...,  2.4738e-03,
+          1.1021e-04,  4.3201e-04]], device='cuda:0')
+Epoch 266, bias, value: tensor([-2.9052e-02,  3.4495e-02, -3.9107e-05, -6.0491e-03,  2.3473e-02,
+        -2.8890e-02,  5.6849e-03, -1.7799e-03, -2.2408e-03, -1.3759e-02],
+       device='cuda:0'), grad: tensor([-0.0217,  0.0183,  0.0073,  0.0166,  0.0100,  0.0025,  0.0147, -0.0467,
+         0.0188, -0.0199], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 265, time 214.43, cls_loss 0.5622 cls_loss_mapping 0.0047 cls_loss_causal 0.4946 re_mapping 0.0094 re_causal 0.0230 /// teacc 98.61 lr 0.00010000
+Epoch 267, weight, value: tensor([[-0.0667, -0.1208, -0.0914,  ..., -0.0397,  0.0566, -0.1041],
+        [-0.0711, -0.0889, -0.0743,  ...,  0.0984, -0.0426,  0.2160],
+        [-0.0031, -0.0196, -0.0327,  ..., -0.0107, -0.0124, -0.0778],
+        ...,
+        [ 0.0371, -0.0995,  0.1560,  ...,  0.0301, -0.0955,  0.0529],
+        [-0.0397,  0.0614, -0.1376,  ..., -0.0543,  0.0122, -0.0866],
+        [-0.0568,  0.0692,  0.0477,  ..., -0.0502, -0.0417, -0.0231]],
+       device='cuda:0'), grad: tensor([[ 2.2724e-07, -6.1073e-03, -5.1403e-04,  ..., -4.2200e-04,
+          8.8811e-05,  1.0147e-03],
+        [ 1.4156e-07,  3.7408e-04,  2.2757e-04,  ...,  3.6449e-03,
+          7.4148e-04,  8.8835e-04],
+        [-6.6459e-06,  8.2779e-04, -1.2436e-03,  ..., -1.2367e-02,
+         -2.5826e-03, -2.5711e-03],
+        ...,
+        [ 2.1413e-05,  1.4734e-04,  8.0538e-04,  ...,  2.8706e-03,
+          1.7834e-04,  3.0565e-04],
+        [ 9.0674e-06,  2.7580e-03,  4.2462e-04,  ..., -3.5973e-03,
+          2.0218e-04, -2.5654e-03],
+        [-4.4852e-05,  1.1387e-03,  6.7949e-04,  ...,  1.2560e-03,
+          2.9135e-04,  1.6050e-03]], device='cuda:0')
+Epoch 267, bias, value: tensor([-0.0285,  0.0347, -0.0003, -0.0064,  0.0244, -0.0287,  0.0055, -0.0022,
+        -0.0029, -0.0135], device='cuda:0'), grad: tensor([-0.0375,  0.0223, -0.0444,  0.0095,  0.0216,  0.0031,  0.0225,  0.0169,
+        -0.0068, -0.0072], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 266, time 214.43, cls_loss 0.5450 cls_loss_mapping 0.0048 cls_loss_causal 0.4722 re_mapping 0.0098 re_causal 0.0230 /// teacc 98.60 lr 0.00010000
+Epoch 268, weight, value: tensor([[-0.0656, -0.1195, -0.0912,  ..., -0.0390,  0.0562, -0.1056],
+        [-0.0707, -0.0890, -0.0734,  ...,  0.0983, -0.0436,  0.2167],
+        [-0.0023, -0.0182, -0.0319,  ..., -0.0101, -0.0122, -0.0781],
+        ...,
+        [ 0.0366, -0.0996,  0.1549,  ...,  0.0300, -0.0921,  0.0522],
+        [-0.0402,  0.0603, -0.1377,  ..., -0.0552,  0.0109, -0.0872],
+        [-0.0573,  0.0691,  0.0473,  ..., -0.0521, -0.0430, -0.0223]],
+       device='cuda:0'), grad: tensor([[ 6.5789e-06,  1.1995e-05,  9.2089e-05,  ...,  2.8763e-03,
+          2.8324e-04,  2.9731e-04],
+        [ 2.4624e-06,  2.0921e-05,  5.4628e-05,  ..., -2.4567e-03,
+          1.3137e-04,  1.4648e-03],
+        [ 9.4891e-05,  1.5640e-04,  2.4772e-04,  ..., -3.8967e-03,
+          1.5759e-04,  8.6606e-05],
+        ...,
+        [ 1.0721e-05,  7.9274e-05,  7.2718e-05,  ...,  9.4986e-04,
+         -2.1267e-03, -3.2024e-03],
+        [-2.9469e-04, -1.4315e-03, -4.6015e-04,  ...,  4.8218e-03,
+          9.4473e-05,  5.1346e-03],
+        [ 9.1568e-06,  1.8997e-03,  2.4319e-03,  ...,  1.3494e-03,
+          5.6934e-04,  3.4351e-03]], device='cuda:0')
+Epoch 268, bias, value: tensor([-0.0270,  0.0349, -0.0005, -0.0063,  0.0240, -0.0292,  0.0059, -0.0021,
+        -0.0031, -0.0144], device='cuda:0'), grad: tensor([ 0.0249, -0.0052, -0.0374, -0.0087, -0.0021, -0.0244,  0.0248, -0.0316,
+         0.0141,  0.0454], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 267, time 214.48, cls_loss 0.5431 cls_loss_mapping 0.0033 cls_loss_causal 0.4823 re_mapping 0.0095 re_causal 0.0233 /// teacc 98.63 lr 0.00010000
+Epoch 269, weight, value: tensor([[-0.0656, -0.1197, -0.0918,  ..., -0.0408,  0.0563, -0.1060],
+        [-0.0708, -0.0885, -0.0730,  ...,  0.0993, -0.0428,  0.2169],
+        [-0.0027, -0.0188, -0.0324,  ..., -0.0103, -0.0131, -0.0779],
+        ...,
+        [ 0.0368, -0.1011,  0.1540,  ...,  0.0299, -0.0924,  0.0504],
+        [-0.0399,  0.0610, -0.1383,  ..., -0.0551,  0.0110, -0.0890],
+        [-0.0572,  0.0693,  0.0486,  ..., -0.0506, -0.0439, -0.0197]],
+       device='cuda:0'), grad: tensor([[-1.8196e-03,  1.4725e-03,  5.4073e-04,  ..., -4.8294e-03,
+          4.2868e-04,  7.5722e-04],
+        [ 3.2949e-04,  6.1214e-05, -4.2229e-03,  ..., -5.4016e-03,
+          1.1045e-06, -5.4932e-03],
+        [ 1.3638e-03,  3.5629e-03,  1.0815e-03,  ...,  6.1150e-03,
+          2.8774e-05,  1.2712e-03],
+        ...,
+        [ 9.6607e-04,  2.4796e-04,  3.8033e-03,  ...,  3.3302e-03,
+          1.2234e-05,  2.7370e-03],
+        [-1.4973e-03, -4.5738e-03,  6.8378e-04,  ..., -7.9956e-03,
+          9.4697e-06,  8.0824e-04],
+        [-5.2786e-04, -1.8826e-03, -4.4441e-03,  ..., -3.9291e-04,
+          2.2203e-05, -3.3627e-03]], device='cuda:0')
+Epoch 269, bias, value: tensor([-0.0284,  0.0348, -0.0004, -0.0076,  0.0252, -0.0296,  0.0063, -0.0024,
+        -0.0022, -0.0139], device='cuda:0'), grad: tensor([ 0.0112, -0.0366,  0.0327, -0.0091,  0.0284,  0.0188,  0.0182,  0.0393,
+        -0.0304, -0.0725], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 268, time 214.52, cls_loss 0.5500 cls_loss_mapping 0.0046 cls_loss_causal 0.4756 re_mapping 0.0098 re_causal 0.0233 /// teacc 98.79 lr 0.00010000
+Epoch 270, weight, value: tensor([[-0.0667, -0.1204, -0.0931,  ..., -0.0411,  0.0564, -0.1066],
+        [-0.0721, -0.0892, -0.0727,  ...,  0.0992, -0.0412,  0.2166],
+        [-0.0021, -0.0202, -0.0318,  ..., -0.0113, -0.0132, -0.0766],
+        ...,
+        [ 0.0362, -0.1010,  0.1545,  ...,  0.0290, -0.0946,  0.0501],
+        [-0.0386,  0.0610, -0.1392,  ..., -0.0547,  0.0105, -0.0869],
+        [-0.0585,  0.0696,  0.0483,  ..., -0.0510, -0.0440, -0.0197]],
+       device='cuda:0'), grad: tensor([[-2.6189e-06, -4.2820e-04, -3.4034e-05,  ..., -3.2330e-03,
+         -3.4906e-06, -1.5938e-04],
+        [ 7.0408e-07,  1.5914e-05,  7.1764e-05,  ...,  5.3453e-04,
+          4.5262e-07,  2.9206e-05],
+        [ 8.4937e-07,  8.7380e-05,  2.2471e-04,  ...,  4.6158e-03,
+          2.4792e-06,  9.6440e-05],
+        ...,
+        [-1.8962e-06, -1.3161e-04, -9.2554e-04,  ..., -1.2741e-02,
+          3.3900e-07, -3.6240e-04],
+        [ 3.0734e-07,  4.5538e-04,  2.7752e-04,  ...,  4.8518e-04,
+          3.1710e-05,  9.8467e-05],
+        [ 1.9036e-06,  2.8086e-04,  1.6677e-04,  ...,  3.1414e-03,
+          1.2871e-06,  2.0301e-04]], device='cuda:0')
+Epoch 270, bias, value: tensor([-2.8578e-02,  3.5703e-02,  2.1092e-05, -7.2605e-03,  2.4996e-02,
+        -2.9846e-02,  6.7894e-03, -3.1578e-03, -1.9086e-03, -1.4832e-02],
+       device='cuda:0'), grad: tensor([-1.3535e-02, -7.1106e-03,  2.0279e-02, -2.9697e-03,  2.2430e-02,
+        -4.9829e-05, -8.8043e-03, -1.5488e-02, -6.6757e-03,  1.1925e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 269, time 214.95, cls_loss 0.5654 cls_loss_mapping 0.0044 cls_loss_causal 0.4948 re_mapping 0.0102 re_causal 0.0239 /// teacc 98.68 lr 0.00010000
+Epoch 271, weight, value: tensor([[-0.0675, -0.1231, -0.0932,  ..., -0.0416,  0.0559, -0.1059],
+        [-0.0717, -0.0899, -0.0732,  ...,  0.0995, -0.0407,  0.2166],
+        [-0.0026, -0.0194, -0.0325,  ..., -0.0119, -0.0138, -0.0770],
+        ...,
+        [ 0.0358, -0.0977,  0.1556,  ...,  0.0303, -0.0945,  0.0506],
+        [-0.0372,  0.0594, -0.1385,  ..., -0.0541,  0.0103, -0.0864],
+        [-0.0576,  0.0699,  0.0475,  ..., -0.0508, -0.0441, -0.0203]],
+       device='cuda:0'), grad: tensor([[ 2.6356e-06,  1.7047e-04,  7.6592e-05,  ..., -2.2335e-03,
+          4.1202e-06,  4.8757e-04],
+        [ 2.7008e-07,  5.3316e-05,  2.1088e-04,  ...,  3.7212e-03,
+          1.7229e-06,  1.0529e-03],
+        [ 2.1700e-06,  2.2197e-04,  1.6809e-04,  ..., -7.6942e-03,
+         -1.2472e-05, -6.1691e-05],
+        ...,
+        [ 1.3504e-06,  1.2767e-04,  8.5831e-05,  ...,  3.4409e-03,
+          2.6021e-06,  1.1692e-03],
+        [-1.7476e-04,  6.1178e-04,  5.5647e-04,  ...,  5.2261e-03,
+          1.3202e-05,  2.7695e-03],
+        [ 1.4659e-06,  1.0643e-03,  7.9441e-04,  ...,  5.5199e-03,
+          1.7285e-05,  7.7286e-03]], device='cuda:0')
+Epoch 271, bias, value: tensor([-0.0289,  0.0357, -0.0005, -0.0076,  0.0235, -0.0292,  0.0074, -0.0018,
+        -0.0021, -0.0145], device='cuda:0'), grad: tensor([-0.0187,  0.0187, -0.0149, -0.0168, -0.0585,  0.0206, -0.0162,  0.0183,
+         0.0269,  0.0405], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 270, time 215.08, cls_loss 0.5718 cls_loss_mapping 0.0037 cls_loss_causal 0.4850 re_mapping 0.0106 re_causal 0.0238 /// teacc 98.75 lr 0.00010000
+Epoch 272, weight, value: tensor([[-0.0674, -0.1235, -0.0923,  ..., -0.0423,  0.0554, -0.1062],
+        [-0.0699, -0.0904, -0.0727,  ...,  0.0997, -0.0420,  0.2184],
+        [-0.0035, -0.0193, -0.0335,  ..., -0.0123, -0.0135, -0.0777],
+        ...,
+        [ 0.0349, -0.0966,  0.1564,  ...,  0.0297, -0.0943,  0.0510],
+        [-0.0384,  0.0601, -0.1396,  ..., -0.0530,  0.0096, -0.0876],
+        [-0.0573,  0.0697,  0.0467,  ..., -0.0510, -0.0424, -0.0206]],
+       device='cuda:0'), grad: tensor([[ 0.0003,  0.0005,  0.0002,  ..., -0.0036,  0.0009, -0.0038],
+        [ 0.0006,  0.0002,  0.0007,  ...,  0.0033,  0.0003,  0.0013],
+        [ 0.0008,  0.0010,  0.0006,  ..., -0.0014,  0.0021,  0.0006],
+        ...,
+        [ 0.0004,  0.0006,  0.0007,  ...,  0.0086,  0.0011,  0.0021],
+        [ 0.0008, -0.0122,  0.0004,  ...,  0.0040, -0.0172,  0.0025],
+        [ 0.0005,  0.0064, -0.0020,  ..., -0.0142,  0.0098, -0.0125]],
+       device='cuda:0')
+Epoch 272, bias, value: tensor([-0.0296,  0.0363, -0.0006, -0.0071,  0.0231, -0.0293,  0.0077, -0.0020,
+        -0.0017, -0.0150], device='cuda:0'), grad: tensor([-0.0038, -0.0035,  0.0215,  0.0087, -0.0066,  0.0134,  0.0084,  0.0358,
+        -0.0078, -0.0661], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 271, time 214.69, cls_loss 0.5244 cls_loss_mapping 0.0048 cls_loss_causal 0.4580 re_mapping 0.0102 re_causal 0.0232 /// teacc 98.69 lr 0.00010000
+Epoch 273, weight, value: tensor([[-0.0683, -0.1246, -0.0918,  ..., -0.0424,  0.0558, -0.1062],
+        [-0.0693, -0.0914, -0.0731,  ...,  0.0992, -0.0417,  0.2188],
+        [-0.0045, -0.0190, -0.0340,  ..., -0.0122, -0.0135, -0.0771],
+        ...,
+        [ 0.0359, -0.0971,  0.1563,  ...,  0.0310, -0.0952,  0.0513],
+        [-0.0380,  0.0599, -0.1394,  ..., -0.0530,  0.0104, -0.0875],
+        [-0.0589,  0.0709,  0.0480,  ..., -0.0510, -0.0428, -0.0207]],
+       device='cuda:0'), grad: tensor([[ 3.0589e-04,  5.8126e-04,  2.0301e-04,  ...,  2.2202e-03,
+          4.7398e-04,  3.4714e-04],
+        [ 5.0497e-04, -1.3496e-02,  3.9965e-05,  ...,  4.1428e-03,
+          1.0138e-03, -3.2444e-03],
+        [-3.0088e-04, -1.9665e-03,  2.1400e-03,  ...,  4.7112e-03,
+          3.3832e-04, -1.2541e-03],
+        ...,
+        [ 3.5906e-04,  4.5633e-04, -1.4496e-04,  ...,  2.8458e-03,
+          8.1873e-04, -1.8978e-03],
+        [ 3.5501e-04,  9.1171e-03,  2.7394e-04,  ...,  3.8128e-03,
+          8.3780e-04,  2.4834e-03],
+        [-2.6073e-03,  1.2684e-03,  1.8883e-04,  ..., -5.7335e-03,
+         -3.5496e-03,  2.1305e-03]], device='cuda:0')
+Epoch 273, bias, value: tensor([-0.0300,  0.0360, -0.0001, -0.0074,  0.0241, -0.0295,  0.0076, -0.0016,
+        -0.0019, -0.0153], device='cuda:0'), grad: tensor([ 0.0085, -0.0104,  0.0265, -0.0464,  0.0096, -0.0222,  0.0098,  0.0070,
+         0.0327, -0.0151], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 272, time 214.91, cls_loss 0.5693 cls_loss_mapping 0.0053 cls_loss_causal 0.4939 re_mapping 0.0108 re_causal 0.0237 /// teacc 98.72 lr 0.00010000
+Epoch 274, weight, value: tensor([[-0.0694, -0.1247, -0.0928,  ..., -0.0436,  0.0558, -0.1056],
+        [-0.0699, -0.0913, -0.0743,  ...,  0.0999, -0.0417,  0.2187],
+        [-0.0043, -0.0205, -0.0342,  ..., -0.0127, -0.0127, -0.0754],
+        ...,
+        [ 0.0371, -0.0962,  0.1580,  ...,  0.0314, -0.0957,  0.0513],
+        [-0.0379,  0.0600, -0.1398,  ..., -0.0529,  0.0109, -0.0873],
+        [-0.0588,  0.0731,  0.0470,  ..., -0.0503, -0.0417, -0.0213]],
+       device='cuda:0'), grad: tensor([[ 1.0915e-06,  1.8179e-05,  2.9850e-04,  ...,  1.0557e-03,
+          6.2990e-04,  5.2404e-04],
+        [ 2.6170e-06,  2.2066e-04,  4.4763e-05,  ...,  2.0046e-03,
+          1.2417e-03, -4.2140e-05],
+        [ 7.7546e-05,  1.0281e-03,  1.7080e-03,  ...,  2.9984e-03,
+          1.1234e-03,  1.1139e-03],
+        ...,
+        [-3.2276e-05,  1.4174e-04, -3.0556e-03,  ..., -6.1264e-03,
+         -5.1155e-03, -2.9240e-03],
+        [-1.5602e-03, -4.8447e-04, -1.5915e-02,  ...,  1.2207e-03,
+          5.0735e-04,  1.3304e-04],
+        [ 1.3599e-03,  8.6129e-05,  1.4664e-02,  ...,  1.1053e-03,
+          6.3133e-04,  9.3174e-04]], device='cuda:0')
+Epoch 274, bias, value: tensor([-3.0559e-02,  3.6354e-02, -6.7239e-05, -7.7747e-03,  2.3536e-02,
+        -2.9986e-02,  6.9054e-03, -4.4771e-04, -1.0688e-03, -1.5261e-02],
+       device='cuda:0'), grad: tensor([ 0.0159,  0.0217,  0.0299,  0.0120, -0.0089, -0.0410,  0.0072, -0.0390,
+        -0.0393,  0.0415], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 273, time 214.62, cls_loss 0.5341 cls_loss_mapping 0.0038 cls_loss_causal 0.4657 re_mapping 0.0104 re_causal 0.0237 /// teacc 98.66 lr 0.00010000
+Epoch 275, weight, value: tensor([[-0.0683, -0.1266, -0.0925,  ..., -0.0437,  0.0557, -0.1059],
+        [-0.0695, -0.0934, -0.0739,  ...,  0.1003, -0.0425,  0.2206],
+        [-0.0046, -0.0198, -0.0353,  ..., -0.0125, -0.0125, -0.0766],
+        ...,
+        [ 0.0372, -0.0970,  0.1571,  ...,  0.0307, -0.0923,  0.0515],
+        [-0.0382,  0.0600, -0.1401,  ..., -0.0538,  0.0112, -0.0883],
+        [-0.0596,  0.0731,  0.0476,  ..., -0.0492, -0.0434, -0.0216]],
+       device='cuda:0'), grad: tensor([[ 6.3330e-07, -1.0741e-04,  3.8832e-05,  ...,  2.3699e-04,
+         -1.0147e-03,  2.1148e-04],
+        [ 1.4305e-06,  9.3412e-04, -4.1175e-04,  ..., -1.3676e-03,
+         -1.5569e-04, -1.1139e-03],
+        [ 3.1620e-05,  2.1696e-04,  1.2434e-04,  ..., -3.2463e-03,
+         -4.6959e-03,  3.3903e-04],
+        ...,
+        [ 4.1611e-06, -1.2207e-02, -1.2112e-03,  ..., -6.7024e-03,
+          1.4234e-04, -3.9368e-03],
+        [-1.1814e-04, -2.3899e-03, -4.9019e-04,  ...,  8.0299e-04,
+          4.9162e-04,  1.2255e-03],
+        [ 2.9150e-06,  4.3221e-03,  3.0637e-04,  ...,  2.8839e-03,
+          5.4693e-04,  1.3657e-03]], device='cuda:0')
+Epoch 275, bias, value: tensor([-3.0433e-02,  3.6129e-02, -7.8578e-04, -8.1034e-03,  2.3436e-02,
+        -2.8976e-02,  7.1996e-03,  9.9257e-05, -1.6243e-03, -1.5196e-02],
+       device='cuda:0'), grad: tensor([ 0.0020,  0.0004, -0.0132,  0.0117, -0.0052,  0.0036,  0.0131, -0.0249,
+         0.0114,  0.0009], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 274, time 214.80, cls_loss 0.5424 cls_loss_mapping 0.0032 cls_loss_causal 0.4754 re_mapping 0.0098 re_causal 0.0231 /// teacc 98.52 lr 0.00010000
+Epoch 276, weight, value: tensor([[-0.0684, -0.1262, -0.0933,  ..., -0.0432,  0.0574, -0.1052],
+        [-0.0695, -0.0921, -0.0728,  ...,  0.0996, -0.0424,  0.2216],
+        [-0.0046, -0.0194, -0.0364,  ..., -0.0121, -0.0139, -0.0773],
+        ...,
+        [ 0.0374, -0.0976,  0.1571,  ...,  0.0315, -0.0927,  0.0521],
+        [-0.0384,  0.0610, -0.1404,  ..., -0.0543,  0.0116, -0.0887],
+        [-0.0600,  0.0735,  0.0477,  ..., -0.0504, -0.0428, -0.0220]],
+       device='cuda:0'), grad: tensor([[ 2.0742e-04, -2.1458e-03, -1.8320e-03,  ..., -2.8248e-03,
+          9.4986e-04, -2.5673e-03],
+        [ 2.0015e-04,  7.0477e-04,  3.7885e-04,  ...,  1.0357e-03,
+          8.9502e-04,  6.9141e-04],
+        [ 6.2823e-05,  8.1015e-04,  4.5443e-04,  ...,  2.1515e-03,
+          2.2888e-03,  9.7942e-04],
+        ...,
+        [ 1.4009e-03, -6.5899e-04, -3.6335e-04,  ...,  9.7609e-04,
+         -9.5291e-03, -1.7965e-04],
+        [-1.8177e-03,  3.2902e-04,  6.0272e-04,  ...,  3.9520e-03,
+          1.6308e-03, -1.2808e-03],
+        [-9.1028e-04,  9.1648e-04,  2.7800e-04,  ...,  1.2875e-03,
+          9.1076e-04,  1.2112e-03]], device='cuda:0')
+Epoch 276, bias, value: tensor([-0.0296,  0.0371, -0.0006, -0.0081,  0.0229, -0.0294,  0.0074,  0.0002,
+        -0.0019, -0.0162], device='cuda:0'), grad: tensor([-0.0221,  0.0129,  0.0185,  0.0323, -0.0182,  0.0176, -0.0135, -0.0391,
+         0.0218, -0.0101], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 275, time 214.36, cls_loss 0.5225 cls_loss_mapping 0.0046 cls_loss_causal 0.4499 re_mapping 0.0102 re_causal 0.0225 /// teacc 98.66 lr 0.00010000
+Epoch 277, weight, value: tensor([[-0.0694, -0.1260, -0.0930,  ..., -0.0432,  0.0579, -0.1072],
+        [-0.0720, -0.0916, -0.0735,  ...,  0.0987, -0.0424,  0.2201],
+        [-0.0039, -0.0195, -0.0358,  ..., -0.0114, -0.0143, -0.0772],
+        ...,
+        [ 0.0388, -0.0995,  0.1571,  ...,  0.0318, -0.0936,  0.0530],
+        [-0.0392,  0.0608, -0.1420,  ..., -0.0537,  0.0114, -0.0883],
+        [-0.0591,  0.0759,  0.0486,  ..., -0.0508, -0.0419, -0.0223]],
+       device='cuda:0'), grad: tensor([[ 4.3452e-05, -2.3878e-04,  1.8084e-04,  ...,  3.1948e-04,
+         -2.4319e-03,  1.2565e-04],
+        [-1.7424e-03, -2.5978e-03, -3.3417e-03,  ..., -6.1951e-03,
+         -1.5736e-03, -9.3174e-04],
+        [ 3.8815e-04,  2.1553e-03,  1.0195e-03,  ...,  2.7390e-03,
+          1.9836e-03,  2.4188e-04],
+        ...,
+        [ 1.5497e-04, -6.8283e-04, -9.7847e-04,  ...,  3.8910e-04,
+         -9.6703e-04, -7.7105e-04],
+        [ 1.3399e-04,  1.2541e-03,  3.7479e-04,  ...,  1.0014e-03,
+          1.0242e-03,  3.4976e-04],
+        [ 1.1760e-04,  1.4172e-03,  4.2105e-04,  ...,  1.2197e-03,
+          1.2007e-03,  1.8144e-04]], device='cuda:0')
+Epoch 277, bias, value: tensor([-2.9843e-02,  3.6935e-02, -2.1415e-06, -7.3384e-03,  2.2992e-02,
+        -2.9982e-02,  8.3405e-03, -3.5220e-04, -3.0945e-03, -1.5737e-02],
+       device='cuda:0'), grad: tensor([-0.0204, -0.0323,  0.0253,  0.0271, -0.0326, -0.0151,  0.0292, -0.0109,
+         0.0136,  0.0159], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 276, time 214.78, cls_loss 0.5474 cls_loss_mapping 0.0047 cls_loss_causal 0.4718 re_mapping 0.0104 re_causal 0.0235 /// teacc 98.65 lr 0.00010000
+Epoch 278, weight, value: tensor([[-0.0706, -0.1271, -0.0930,  ..., -0.0433,  0.0585, -0.1071],
+        [-0.0725, -0.0906, -0.0710,  ...,  0.0991, -0.0430,  0.2202],
+        [-0.0029, -0.0202, -0.0361,  ..., -0.0120, -0.0138, -0.0761],
+        ...,
+        [ 0.0402, -0.0977,  0.1563,  ...,  0.0326, -0.0935,  0.0537],
+        [-0.0400,  0.0621, -0.1426,  ..., -0.0539,  0.0107, -0.0891],
+        [-0.0594,  0.0740,  0.0482,  ..., -0.0504, -0.0415, -0.0231]],
+       device='cuda:0'), grad: tensor([[ 9.9599e-05,  5.5885e-04,  3.0732e-04,  ...,  2.0146e-04,
+         -2.2352e-08,  1.4651e-04],
+        [-2.1152e-03, -2.7924e-03, -1.7500e-03,  ..., -4.2648e-03,
+         -4.1294e-04, -7.2975e-03],
+        [ 4.1389e-04, -2.2268e-04, -1.1711e-03,  ..., -8.6355e-04,
+          7.4171e-06,  4.1318e-04],
+        ...,
+        [ 9.1791e-04,  3.1414e-03,  1.7042e-03,  ...,  7.0333e-04,
+          1.4417e-06,  5.1308e-04],
+        [ 5.0259e-04, -1.8105e-05,  5.1212e-04,  ...,  6.9237e-04,
+          2.4214e-05,  4.0078e-04],
+        [-3.3283e-03,  5.6496e-03,  3.3741e-03,  ...,  6.1512e-04,
+          4.6156e-06,  1.5173e-03]], device='cuda:0')
+Epoch 278, bias, value: tensor([-0.0300,  0.0371, -0.0007, -0.0079,  0.0239, -0.0290,  0.0068,  0.0003,
+        -0.0027, -0.0159], device='cuda:0'), grad: tensor([ 0.0184, -0.0141, -0.0188,  0.0061,  0.0282, -0.0235,  0.0239,  0.0033,
+        -0.0077, -0.0158], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 277, time 214.76, cls_loss 0.5395 cls_loss_mapping 0.0058 cls_loss_causal 0.4751 re_mapping 0.0101 re_causal 0.0227 /// teacc 98.56 lr 0.00010000
+Epoch 279, weight, value: tensor([[-0.0706, -0.1265, -0.0926,  ..., -0.0425,  0.0580, -0.1087],
+        [-0.0725, -0.0908, -0.0721,  ...,  0.0980, -0.0443,  0.2201],
+        [-0.0041, -0.0192, -0.0354,  ..., -0.0112, -0.0129, -0.0769],
+        ...,
+        [ 0.0415, -0.0980,  0.1562,  ...,  0.0331, -0.0938,  0.0550],
+        [-0.0385,  0.0612, -0.1433,  ..., -0.0539,  0.0115, -0.0907],
+        [-0.0603,  0.0739,  0.0476,  ..., -0.0509, -0.0418, -0.0240]],
+       device='cuda:0'), grad: tensor([[ 1.4186e-04,  3.1352e-04,  1.6141e-04,  ..., -6.9275e-03,
+         -1.5383e-03,  4.6402e-05],
+        [ 2.7910e-05,  2.2972e-04,  1.8567e-05,  ...,  1.4095e-03,
+          2.4939e-04, -8.3923e-05],
+        [-1.8568e-03, -4.6883e-03, -3.8185e-03,  ..., -4.4975e-03,
+          5.0426e-05, -1.6356e-04],
+        ...,
+        [ 3.6865e-05,  1.6761e-04, -2.8920e-04,  ...,  7.6065e-03,
+          2.3782e-04,  1.1959e-03],
+        [ 1.9336e-04,  4.2419e-03,  7.1955e-04,  ...,  1.7185e-03,
+          2.3460e-04,  4.6670e-05],
+        [ 1.1086e-04, -5.7983e-03, -2.6798e-04,  ...,  2.1076e-03,
+          2.3508e-04,  5.8699e-04]], device='cuda:0')
+Epoch 279, bias, value: tensor([-0.0287,  0.0357,  0.0004, -0.0082,  0.0238, -0.0285,  0.0075,  0.0006,
+        -0.0029, -0.0175], device='cuda:0'), grad: tensor([-0.0163,  0.0122, -0.0068, -0.0975,  0.0155,  0.0133,  0.0206,  0.0349,
+         0.0165,  0.0076], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 278, time 214.24, cls_loss 0.5724 cls_loss_mapping 0.0039 cls_loss_causal 0.5079 re_mapping 0.0100 re_causal 0.0239 /// teacc 98.78 lr 0.00010000
+Epoch 280, weight, value: tensor([[-0.0712, -0.1257, -0.0933,  ..., -0.0432,  0.0595, -0.1093],
+        [-0.0732, -0.0903, -0.0724,  ...,  0.0984, -0.0433,  0.2188],
+        [-0.0025, -0.0178, -0.0349,  ..., -0.0106, -0.0112, -0.0767],
+        ...,
+        [ 0.0407, -0.0987,  0.1566,  ...,  0.0324, -0.0939,  0.0552],
+        [-0.0392,  0.0629, -0.1431,  ..., -0.0525,  0.0108, -0.0898],
+        [-0.0591,  0.0743,  0.0479,  ..., -0.0510, -0.0407, -0.0241]],
+       device='cuda:0'), grad: tensor([[ 3.6645e-04,  6.3419e-04,  2.3880e-03,  ...,  4.0741e-03,
+          7.3195e-04,  6.2799e-04],
+        [ 7.2002e-05,  3.2759e-04,  5.2643e-04,  ...,  8.5640e-04,
+          1.4198e-04,  2.3317e-04],
+        [-8.9264e-04,  3.7689e-03, -2.0561e-03,  ..., -8.1329e-03,
+         -4.9973e-04, -1.1482e-03],
+        ...,
+        [ 4.0710e-05,  9.6512e-04,  5.2691e-04,  ...,  7.6008e-04,
+          1.6379e-04,  7.0572e-04],
+        [ 4.3005e-05,  2.4109e-03,  4.8599e-03,  ..., -4.4656e-04,
+          1.1902e-03, -2.9621e-03],
+        [ 7.4148e-05,  7.7820e-03,  7.6065e-03,  ...,  1.1797e-03,
+          1.4722e-04,  9.1095e-03]], device='cuda:0')
+Epoch 280, bias, value: tensor([-0.0292,  0.0359,  0.0002, -0.0076,  0.0232, -0.0294,  0.0071,  0.0014,
+        -0.0023, -0.0173], device='cuda:0'), grad: tensor([ 0.0211, -0.0198, -0.0155, -0.0236, -0.0075,  0.0321,  0.0089,  0.0134,
+        -0.0471,  0.0381], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 279, time 214.35, cls_loss 0.5252 cls_loss_mapping 0.0034 cls_loss_causal 0.4514 re_mapping 0.0101 re_causal 0.0230 /// teacc 98.77 lr 0.00010000
+Epoch 281, weight, value: tensor([[-0.0689, -0.1274, -0.0933,  ..., -0.0424,  0.0593, -0.1100],
+        [-0.0736, -0.0898, -0.0726,  ...,  0.0980, -0.0440,  0.2193],
+        [-0.0021, -0.0194, -0.0344,  ..., -0.0104, -0.0115, -0.0772],
+        ...,
+        [ 0.0396, -0.0979,  0.1576,  ...,  0.0325, -0.0928,  0.0561],
+        [-0.0400,  0.0618, -0.1439,  ..., -0.0529,  0.0111, -0.0906],
+        [-0.0584,  0.0745,  0.0471,  ..., -0.0508, -0.0414, -0.0251]],
+       device='cuda:0'), grad: tensor([[-3.9911e-04, -4.4614e-05,  9.9242e-06,  ...,  1.6079e-03,
+         -1.1474e-04,  1.5271e-04],
+        [ 1.1466e-05, -1.8373e-05, -9.6917e-05,  ...,  5.0926e-03,
+          1.4612e-06,  7.1831e-03],
+        [ 1.1510e-04,  3.3975e-04,  2.7433e-05,  ..., -5.8899e-03,
+          3.5971e-05,  3.2377e-04],
+        ...,
+        [ 7.2084e-06,  2.8458e-03,  1.3466e-03,  ...,  1.0109e-03,
+          6.9261e-05, -2.3785e-03],
+        [ 4.0054e-05, -1.6146e-03,  1.9357e-05,  ..., -6.4240e-03,
+          5.5432e-06, -7.1869e-03],
+        [ 1.7360e-05, -2.5311e-03, -1.4086e-03,  ...,  5.8985e-04,
+         -8.6892e-07,  1.4820e-03]], device='cuda:0')
+Epoch 281, bias, value: tensor([-0.0292,  0.0360,  0.0004, -0.0078,  0.0233, -0.0290,  0.0072,  0.0011,
+        -0.0032, -0.0168], device='cuda:0'), grad: tensor([ 0.0131,  0.0080, -0.0245,  0.0159, -0.0213,  0.0100, -0.0155,  0.0119,
+        -0.0136,  0.0159], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 280, time 214.62, cls_loss 0.5371 cls_loss_mapping 0.0053 cls_loss_causal 0.4812 re_mapping 0.0102 re_causal 0.0223 /// teacc 98.68 lr 0.00010000
+Epoch 282, weight, value: tensor([[-0.0662, -0.1301, -0.0948,  ..., -0.0426,  0.0584, -0.1104],
+        [-0.0741, -0.0895, -0.0734,  ...,  0.0969, -0.0445,  0.2194],
+        [-0.0038, -0.0196, -0.0344,  ..., -0.0100, -0.0104, -0.0757],
+        ...,
+        [ 0.0381, -0.0982,  0.1573,  ...,  0.0328, -0.0920,  0.0559],
+        [-0.0398,  0.0624, -0.1430,  ..., -0.0521,  0.0118, -0.0913],
+        [-0.0560,  0.0739,  0.0473,  ..., -0.0508, -0.0423, -0.0245]],
+       device='cuda:0'), grad: tensor([[ 3.9339e-04,  2.0778e-04,  2.8294e-06,  ...,  1.0052e-03,
+          8.0280e-07, -4.3106e-03],
+        [ 4.8876e-04,  4.2725e-04,  8.0280e-07,  ...,  5.1022e-04,
+          6.6124e-08,  4.4107e-04],
+        [ 3.4165e-04,  8.1635e-04,  2.0280e-05,  ...,  1.0862e-03,
+          4.0345e-06, -2.1229e-03],
+        ...,
+        [ 1.5807e-04,  4.5037e-04,  1.1452e-05,  ...,  6.1274e-04,
+          1.4538e-06,  9.6178e-04],
+        [ 2.6703e-04, -9.6273e-04,  1.2435e-05,  ...,  1.0042e-03,
+          1.8375e-06,  1.1597e-03],
+        [ 2.4772e-04, -2.1420e-03,  1.9455e-04,  ...,  9.5463e-04,
+          1.0030e-06,  9.5177e-04]], device='cuda:0')
+Epoch 282, bias, value: tensor([-3.0393e-02,  3.7481e-02,  5.0758e-05, -7.5064e-03,  2.4061e-02,
+        -2.9940e-02,  6.4498e-03,  1.5631e-03, -3.0915e-03, -1.6913e-02],
+       device='cuda:0'), grad: tensor([-0.0341,  0.0500, -0.0676,  0.0072,  0.0288, -0.0330,  0.0287, -0.0032,
+         0.0286, -0.0056], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 281, time 215.06, cls_loss 0.5469 cls_loss_mapping 0.0053 cls_loss_causal 0.4715 re_mapping 0.0101 re_causal 0.0231 /// teacc 98.69 lr 0.00010000
+Epoch 283, weight, value: tensor([[-0.0665, -0.1286, -0.0940,  ..., -0.0422,  0.0587, -0.1096],
+        [-0.0727, -0.0900, -0.0754,  ...,  0.0969, -0.0445,  0.2193],
+        [-0.0039, -0.0200, -0.0339,  ..., -0.0101, -0.0103, -0.0747],
+        ...,
+        [ 0.0383, -0.0984,  0.1570,  ...,  0.0332, -0.0917,  0.0538],
+        [-0.0394,  0.0622, -0.1432,  ..., -0.0526,  0.0116, -0.0926],
+        [-0.0576,  0.0748,  0.0479,  ..., -0.0507, -0.0429, -0.0232]],
+       device='cuda:0'), grad: tensor([[ 4.1509e-04, -1.9316e-06,  4.5031e-05,  ..., -5.7936e-04,
+          2.7618e-03,  5.3596e-04],
+        [ 8.7619e-05,  1.2092e-05,  8.2612e-05,  ...,  5.7173e-04,
+          2.1279e-05,  8.9765e-05],
+        [-1.3614e-04, -2.2233e-05, -6.3133e-04,  ..., -1.1003e-04,
+          2.0489e-05, -2.5725e-04],
+        ...,
+        [ 7.3791e-05,  2.7552e-05,  9.5308e-05,  ...,  6.4516e-04,
+          5.1379e-05,  1.1456e-04],
+        [-9.6512e-04,  2.7275e-03,  1.4982e-03,  ..., -2.4071e-03,
+          4.1574e-05, -1.2197e-03],
+        [ 1.1313e-04,  4.4131e-04,  9.2745e-05,  ...,  6.9952e-04,
+          3.4124e-05,  1.4818e-04]], device='cuda:0')
+Epoch 283, bias, value: tensor([-0.0294,  0.0364,  0.0007, -0.0090,  0.0241, -0.0285,  0.0061,  0.0016,
+        -0.0034, -0.0166], device='cuda:0'), grad: tensor([-0.0041,  0.0166,  0.0108, -0.0162, -0.0018,  0.0094, -0.0135, -0.0146,
+        -0.0049,  0.0183], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 282, time 214.44, cls_loss 0.5402 cls_loss_mapping 0.0043 cls_loss_causal 0.4731 re_mapping 0.0099 re_causal 0.0224 /// teacc 98.74 lr 0.00010000
+Epoch 284, weight, value: tensor([[-0.0661, -0.1295, -0.0935,  ..., -0.0418,  0.0587, -0.1098],
+        [-0.0725, -0.0899, -0.0755,  ...,  0.0968, -0.0440,  0.2190],
+        [-0.0028, -0.0206, -0.0342,  ..., -0.0104, -0.0106, -0.0746],
+        ...,
+        [ 0.0375, -0.0981,  0.1572,  ...,  0.0323, -0.0919,  0.0539],
+        [-0.0406,  0.0624, -0.1441,  ..., -0.0533,  0.0119, -0.0940],
+        [-0.0574,  0.0753,  0.0470,  ..., -0.0513, -0.0428, -0.0231]],
+       device='cuda:0'), grad: tensor([[-1.4249e-07,  2.8592e-06, -1.6127e-03,  ..., -1.2627e-03,
+          6.2943e-05, -1.7757e-03],
+        [ 1.0431e-07,  7.6648e-07,  9.7275e-04,  ...,  4.0680e-05,
+          3.1590e-05,  2.0714e-03],
+        [-4.9733e-07, -1.3089e-04,  5.2261e-04,  ...,  2.9111e-04,
+          8.1241e-05,  7.0095e-04],
+        ...,
+        [ 3.1572e-07,  1.5163e-04,  2.7943e-03,  ...,  1.9588e-03,
+          2.9278e-04,  4.5013e-03],
+        [-2.3749e-06,  3.6359e-06,  8.0013e-04,  ...,  8.4734e-04,
+          3.6269e-05,  1.2712e-03],
+        [ 1.6093e-06, -3.4899e-05, -2.7776e-04,  ...,  8.2731e-04,
+          7.5281e-05, -8.3542e-03]], device='cuda:0')
+Epoch 284, bias, value: tensor([-0.0292,  0.0353, -0.0006, -0.0065,  0.0246, -0.0291,  0.0066,  0.0019,
+        -0.0044, -0.0167], device='cuda:0'), grad: tensor([-0.0354,  0.0124,  0.0130,  0.0188, -0.0049,  0.0110, -0.0241,  0.0033,
+         0.0137, -0.0076], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 283, time 214.24, cls_loss 0.5435 cls_loss_mapping 0.0043 cls_loss_causal 0.4847 re_mapping 0.0100 re_causal 0.0232 /// teacc 98.67 lr 0.00010000
+Epoch 285, weight, value: tensor([[-0.0664, -0.1306, -0.0950,  ..., -0.0418,  0.0580, -0.1100],
+        [-0.0735, -0.0898, -0.0753,  ...,  0.0965, -0.0435,  0.2194],
+        [-0.0021, -0.0204, -0.0350,  ..., -0.0098, -0.0109, -0.0753],
+        ...,
+        [ 0.0364, -0.0985,  0.1580,  ...,  0.0321, -0.0916,  0.0527],
+        [-0.0403,  0.0617, -0.1438,  ..., -0.0536,  0.0117, -0.0938],
+        [-0.0567,  0.0753,  0.0458,  ..., -0.0509, -0.0428, -0.0221]],
+       device='cuda:0'), grad: tensor([[ 3.3712e-04,  9.9018e-06,  1.2553e-04,  ...,  9.6369e-04,
+          5.8860e-06,  4.1652e-04],
+        [ 2.7966e-04,  6.9104e-06,  1.0169e-04,  ...,  1.0796e-03,
+          7.7784e-06,  6.9094e-04],
+        [-2.6989e-03,  2.9588e-04,  2.2244e-04,  ..., -2.7409e-03,
+          6.8545e-06,  3.0732e-04],
+        ...,
+        [ 4.7040e-04,  3.2902e-04,  3.8952e-05,  ...,  1.1005e-03,
+          6.0014e-06, -1.4572e-02],
+        [-9.0504e-04,  4.8218e-03, -1.6785e-03,  ...,  1.8024e-04,
+          5.9381e-06, -4.9019e-03],
+        [ 4.2653e-04,  4.6349e-04, -2.5660e-05,  ...,  9.3746e-04,
+          5.5507e-06,  2.5272e-03]], device='cuda:0')
+Epoch 285, bias, value: tensor([-0.0296,  0.0345, -0.0005, -0.0073,  0.0243, -0.0282,  0.0069,  0.0022,
+        -0.0036, -0.0168], device='cuda:0'), grad: tensor([ 0.0172,  0.0179, -0.0085, -0.0050,  0.0059, -0.0086,  0.0419, -0.0593,
+         0.0066, -0.0081], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 284, time 214.22, cls_loss 0.5170 cls_loss_mapping 0.0039 cls_loss_causal 0.4479 re_mapping 0.0100 re_causal 0.0223 /// teacc 98.70 lr 0.00010000
+Epoch 286, weight, value: tensor([[-0.0657, -0.1296, -0.0944,  ..., -0.0423,  0.0592, -0.1122],
+        [-0.0737, -0.0900, -0.0746,  ...,  0.0965, -0.0436,  0.2197],
+        [-0.0027, -0.0196, -0.0336,  ..., -0.0084, -0.0107, -0.0749],
+        ...,
+        [ 0.0362, -0.0997,  0.1564,  ...,  0.0326, -0.0910,  0.0539],
+        [-0.0405,  0.0611, -0.1438,  ..., -0.0540,  0.0109, -0.0937],
+        [-0.0566,  0.0759,  0.0470,  ..., -0.0518, -0.0432, -0.0226]],
+       device='cuda:0'), grad: tensor([[ 1.7472e-06,  3.0041e-05,  1.9145e-04,  ...,  8.7976e-04,
+          3.5095e-04,  8.7881e-04],
+        [ 1.5028e-05, -3.7014e-05, -2.2352e-04,  ..., -1.7252e-03,
+          3.2455e-05, -2.0256e-03],
+        [ 7.8261e-05,  7.5626e-04,  1.8330e-03,  ...,  3.5172e-03,
+          2.9135e-04,  1.4124e-03],
+        ...,
+        [-2.2620e-05, -3.9029e-04, -2.7790e-03,  ...,  1.0157e-03,
+          7.8201e-05, -2.2293e-02],
+        [ 8.3894e-06,  1.6153e-04,  3.1233e-04,  ..., -4.7264e-03,
+          3.9309e-05,  6.2466e-04],
+        [ 1.5177e-05,  2.6417e-04,  3.3398e-03,  ...,  9.9468e-04,
+          1.5795e-04,  2.2659e-02]], device='cuda:0')
+Epoch 286, bias, value: tensor([-0.0301,  0.0355,  0.0007, -0.0070,  0.0233, -0.0290,  0.0067,  0.0023,
+        -0.0039, -0.0167], device='cuda:0'), grad: tensor([ 0.0100, -0.0209,  0.0260, -0.0219,  0.0133,  0.0048,  0.0130, -0.0289,
+        -0.0200,  0.0246], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 285, time 214.48, cls_loss 0.5701 cls_loss_mapping 0.0043 cls_loss_causal 0.5061 re_mapping 0.0098 re_causal 0.0232 /// teacc 98.80 lr 0.00010000
+Epoch 287, weight, value: tensor([[-0.0654, -0.1295, -0.0948,  ..., -0.0424,  0.0588, -0.1118],
+        [-0.0742, -0.0903, -0.0753,  ...,  0.0966, -0.0447,  0.2181],
+        [-0.0025, -0.0207, -0.0333,  ..., -0.0072, -0.0109, -0.0743],
+        ...,
+        [ 0.0361, -0.0983,  0.1565,  ...,  0.0323, -0.0901,  0.0559],
+        [-0.0404,  0.0606, -0.1434,  ..., -0.0546,  0.0135, -0.0937],
+        [-0.0555,  0.0748,  0.0463,  ..., -0.0512, -0.0430, -0.0227]],
+       device='cuda:0'), grad: tensor([[ 2.2337e-05,  3.8576e-04,  2.0623e-05,  ..., -1.8473e-03,
+         -4.1962e-03,  6.9439e-05],
+        [ 1.0565e-05, -1.3361e-03, -2.1801e-03,  ..., -1.2993e-02,
+          6.5804e-04, -1.1963e-02],
+        [-2.2709e-04, -4.6501e-03,  1.2512e-03,  ...,  7.4565e-05,
+         -1.0204e-03,  7.3004e-04],
+        ...,
+        [ 3.2187e-05,  7.7677e-04, -2.8706e-03,  ...,  2.2049e-03,
+          3.7837e-04, -1.9863e-05],
+        [ 2.0355e-05, -1.4160e-02,  1.4153e-03,  ...,  1.0977e-03,
+         -3.2990e-02,  1.3008e-03],
+        [ 4.9062e-06,  5.1498e-04,  3.3855e-04,  ...,  1.7757e-03,
+          5.0831e-04,  1.4973e-03]], device='cuda:0')
+Epoch 287, bias, value: tensor([-0.0309,  0.0345,  0.0002, -0.0074,  0.0234, -0.0280,  0.0068,  0.0034,
+        -0.0036, -0.0166], device='cuda:0'), grad: tensor([-0.0309, -0.0534, -0.0082,  0.0181,  0.0454,  0.0094,  0.0160, -0.0225,
+         0.0068,  0.0193], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 286, time 214.33, cls_loss 0.5146 cls_loss_mapping 0.0034 cls_loss_causal 0.4438 re_mapping 0.0104 re_causal 0.0229 /// teacc 98.81 lr 0.00010000
+Epoch 288, weight, value: tensor([[-0.0647, -0.1297, -0.0935,  ..., -0.0408,  0.0594, -0.1097],
+        [-0.0741, -0.0898, -0.0754,  ...,  0.0974, -0.0450,  0.2173],
+        [-0.0040, -0.0207, -0.0342,  ..., -0.0067, -0.0109, -0.0741],
+        ...,
+        [ 0.0375, -0.0987,  0.1572,  ...,  0.0317, -0.0903,  0.0553],
+        [-0.0393,  0.0622, -0.1428,  ..., -0.0551,  0.0145, -0.0952],
+        [-0.0551,  0.0740,  0.0465,  ..., -0.0510, -0.0434, -0.0222]],
+       device='cuda:0'), grad: tensor([[ 1.3695e-03,  1.9622e-04,  3.0082e-07,  ...,  4.4394e-04,
+          9.3132e-08,  5.7463e-07],
+        [ 1.6475e-04,  6.4015e-05,  3.8967e-06,  ...,  1.1854e-03,
+          6.9849e-08, -2.1636e-05],
+        [ 6.2275e-04,  2.8038e-03,  3.4478e-06,  ...,  2.4490e-03,
+          1.6296e-04,  4.0308e-06],
+        ...,
+        [-2.7714e-03,  3.6030e-03,  1.9836e-04,  ..., -3.5343e-03,
+          9.6858e-08,  1.9717e-04],
+        [-2.7966e-04,  9.1612e-05,  4.1068e-05,  ..., -5.5618e-03,
+          1.1466e-05, -3.0935e-05],
+        [ 1.2165e-04, -8.7051e-03,  8.8573e-05,  ...,  1.6584e-03,
+          9.1363e-07,  2.3346e-03]], device='cuda:0')
+Epoch 288, bias, value: tensor([-0.0297,  0.0351,  0.0004, -0.0069,  0.0233, -0.0279,  0.0053,  0.0038,
+        -0.0040, -0.0174], device='cuda:0'), grad: tensor([-0.0070,  0.0142,  0.0268,  0.0230,  0.0008, -0.0087, -0.0173, -0.0012,
+        -0.0420,  0.0115], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 287, time 214.41, cls_loss 0.5588 cls_loss_mapping 0.0049 cls_loss_causal 0.4882 re_mapping 0.0101 re_causal 0.0229 /// teacc 98.79 lr 0.00010000
+Epoch 289, weight, value: tensor([[-0.0647, -0.1313, -0.0939,  ..., -0.0418,  0.0588, -0.1098],
+        [-0.0760, -0.0883, -0.0759,  ...,  0.0974, -0.0446,  0.2170],
+        [-0.0043, -0.0201, -0.0342,  ..., -0.0070, -0.0110, -0.0750],
+        ...,
+        [ 0.0361, -0.1003,  0.1573,  ...,  0.0327, -0.0904,  0.0554],
+        [-0.0374,  0.0617, -0.1435,  ..., -0.0558,  0.0151, -0.0962],
+        [-0.0544,  0.0746,  0.0474,  ..., -0.0507, -0.0434, -0.0222]],
+       device='cuda:0'), grad: tensor([[ 3.1781e-04,  1.9693e-04,  2.5123e-05,  ...,  1.1549e-03,
+         -3.4630e-05,  2.7132e-04],
+        [-4.8141e-03, -1.6141e-04,  9.5224e-04,  ..., -1.4896e-03,
+          2.6077e-08,  9.5725e-05],
+        [ 1.4162e-03, -4.2176e-04, -3.0041e-03,  ..., -4.3941e-04,
+          2.4121e-07,  2.8634e-04],
+        ...,
+        [ 4.8828e-04,  4.1556e-04,  2.5463e-04,  ..., -6.1569e-03,
+          6.4820e-07,  1.9884e-04],
+        [ 5.6839e-04,  1.0223e-03,  1.1909e-04,  ...,  3.4714e-03,
+          4.5262e-06,  1.1797e-03],
+        [ 3.9697e-04,  6.1178e-04, -3.9387e-04,  ...,  1.9798e-03,
+          7.2420e-05,  2.2161e-04]], device='cuda:0')
+Epoch 289, bias, value: tensor([-0.0303,  0.0354, -0.0001, -0.0071,  0.0239, -0.0272,  0.0063,  0.0036,
+        -0.0049, -0.0175], device='cuda:0'), grad: tensor([ 0.0090, -0.0425,  0.0007,  0.0150, -0.0246, -0.0104,  0.0217, -0.0117,
+         0.0255,  0.0172], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 288, time 214.22, cls_loss 0.5497 cls_loss_mapping 0.0049 cls_loss_causal 0.4850 re_mapping 0.0098 re_causal 0.0219 /// teacc 98.70 lr 0.00010000
+Epoch 290, weight, value: tensor([[-0.0642, -0.1329, -0.0942,  ..., -0.0410,  0.0587, -0.1096],
+        [-0.0760, -0.0880, -0.0766,  ...,  0.0976, -0.0447,  0.2174],
+        [-0.0056, -0.0217, -0.0346,  ..., -0.0077, -0.0101, -0.0751],
+        ...,
+        [ 0.0356, -0.1000,  0.1583,  ...,  0.0324, -0.0904,  0.0560],
+        [-0.0366,  0.0621, -0.1422,  ..., -0.0547,  0.0154, -0.0958],
+        [-0.0528,  0.0742,  0.0470,  ..., -0.0510, -0.0436, -0.0223]],
+       device='cuda:0'), grad: tensor([[ 7.8022e-05,  2.4509e-04,  1.9383e-04,  ...,  5.7650e-04,
+         -1.5831e-03,  2.5058e-04],
+        [ 3.1781e-04,  5.4884e-04,  4.5204e-04,  ..., -2.3899e-03,
+          1.7092e-05,  7.5912e-04],
+        [ 2.0194e-04,  1.1387e-03,  4.8828e-03,  ...,  2.6398e-03,
+          6.2180e-04,  9.3174e-04],
+        ...,
+        [-1.5593e-04,  2.8419e-04,  1.5202e-03,  ..., -4.4131e-04,
+          1.7032e-05, -8.3160e-04],
+        [-5.0589e-06, -1.2865e-03,  8.1682e-04,  ...,  7.3290e-04,
+          4.8310e-05,  5.2452e-04],
+        [ 1.6081e-04,  3.4142e-04,  3.2949e-04,  ...,  7.6389e-04,
+          7.5996e-05,  5.0259e-04]], device='cuda:0')
+Epoch 290, bias, value: tensor([-0.0296,  0.0359, -0.0004, -0.0068,  0.0244, -0.0278,  0.0055,  0.0027,
+        -0.0043, -0.0176], device='cuda:0'), grad: tensor([ 0.0178, -0.0291,  0.0264, -0.0349, -0.0343, -0.0113,  0.0271, -0.0038,
+         0.0152,  0.0269], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 289, time 214.34, cls_loss 0.5731 cls_loss_mapping 0.0037 cls_loss_causal 0.4949 re_mapping 0.0096 re_causal 0.0216 /// teacc 98.81 lr 0.00010000
+Epoch 291, weight, value: tensor([[-0.0641, -0.1324, -0.0948,  ..., -0.0421,  0.0588, -0.1090],
+        [-0.0772, -0.0890, -0.0771,  ...,  0.0989, -0.0450,  0.2174],
+        [-0.0057, -0.0210, -0.0353,  ..., -0.0078, -0.0093, -0.0758],
+        ...,
+        [ 0.0356, -0.1013,  0.1585,  ...,  0.0322, -0.0916,  0.0564],
+        [-0.0349,  0.0628, -0.1433,  ..., -0.0543,  0.0154, -0.0958],
+        [-0.0532,  0.0737,  0.0468,  ..., -0.0514, -0.0445, -0.0218]],
+       device='cuda:0'), grad: tensor([[ 0.0003,  0.0004,  0.0008,  ...,  0.0010,  0.0003, -0.0001],
+        [ 0.0009,  0.0004, -0.0017,  ..., -0.0017,  0.0003, -0.0025],
+        [-0.0020,  0.0016,  0.0008,  ..., -0.0088,  0.0006,  0.0012],
+        ...,
+        [ 0.0016,  0.0007,  0.0028,  ...,  0.0044,  0.0003,  0.0043],
+        [ 0.0004,  0.0012,  0.0028,  ...,  0.0015,  0.0002, -0.0001],
+        [ 0.0005,  0.0002,  0.0010,  ...,  0.0014,  0.0001,  0.0009]],
+       device='cuda:0')
+Epoch 291, bias, value: tensor([-0.0305,  0.0371, -0.0008, -0.0078,  0.0251, -0.0277,  0.0062,  0.0024,
+        -0.0044, -0.0177], device='cuda:0'), grad: tensor([ 0.0246, -0.0260, -0.0124,  0.0007,  0.0019,  0.0068, -0.0438,  0.0209,
+         0.0119,  0.0153], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 290, time 214.36, cls_loss 0.5533 cls_loss_mapping 0.0033 cls_loss_causal 0.4761 re_mapping 0.0098 re_causal 0.0225 /// teacc 98.69 lr 0.00010000
+Epoch 292, weight, value: tensor([[-0.0642, -0.1329, -0.0961,  ..., -0.0418,  0.0595, -0.1092],
+        [-0.0768, -0.0889, -0.0778,  ...,  0.0984, -0.0448,  0.2174],
+        [-0.0050, -0.0217, -0.0363,  ..., -0.0074, -0.0093, -0.0761],
+        ...,
+        [ 0.0350, -0.1016,  0.1592,  ...,  0.0311, -0.0912,  0.0568],
+        [-0.0349,  0.0613, -0.1443,  ..., -0.0538,  0.0148, -0.0955],
+        [-0.0530,  0.0735,  0.0464,  ..., -0.0512, -0.0416, -0.0222]],
+       device='cuda:0'), grad: tensor([[-1.9608e-03,  3.1400e-04, -3.3054e-03,  ..., -1.8036e-02,
+          2.4261e-03, -7.5865e-04],
+        [ 1.3542e-04, -4.6110e-04, -2.0027e-04,  ...,  9.4986e-04,
+          1.0544e-04, -6.7472e-05],
+        [ 2.1589e-04,  1.3292e-04, -4.3464e-04,  ...,  8.9264e-04,
+          3.0537e-03,  9.5081e-04],
+        ...,
+        [ 4.9353e-04, -5.1832e-04,  7.1049e-04,  ...,  2.8706e-03,
+         -1.3039e-02, -2.9392e-03],
+        [ 5.3787e-04,  3.5334e-04,  9.8896e-04,  ...,  3.4466e-03,
+          1.0663e-04,  3.8338e-04],
+        [ 1.2779e-04,  1.8187e-03,  3.6788e-04,  ...,  1.7300e-03,
+          6.7139e-03,  1.7891e-03]], device='cuda:0')
+Epoch 292, bias, value: tensor([-0.0314,  0.0369,  0.0003, -0.0062,  0.0247, -0.0290,  0.0051,  0.0023,
+        -0.0032, -0.0178], device='cuda:0'), grad: tensor([-0.0473, -0.0231,  0.0142,  0.0179, -0.0050,  0.0066,  0.0059, -0.0104,
+         0.0018,  0.0394], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 291, time 214.58, cls_loss 0.5847 cls_loss_mapping 0.0039 cls_loss_causal 0.5144 re_mapping 0.0097 re_causal 0.0225 /// teacc 98.80 lr 0.00010000
+Epoch 293, weight, value: tensor([[-0.0653, -0.1327, -0.0948,  ..., -0.0410,  0.0586, -0.1085],
+        [-0.0771, -0.0886, -0.0782,  ...,  0.0981, -0.0447,  0.2178],
+        [-0.0064, -0.0212, -0.0369,  ..., -0.0082, -0.0097, -0.0770],
+        ...,
+        [ 0.0359, -0.1021,  0.1593,  ...,  0.0320, -0.0904,  0.0568],
+        [-0.0348,  0.0614, -0.1460,  ..., -0.0540,  0.0147, -0.0950],
+        [-0.0541,  0.0741,  0.0449,  ..., -0.0518, -0.0429, -0.0227]],
+       device='cuda:0'), grad: tensor([[ 1.4305e-03,  3.1185e-04,  1.0891e-03,  ...,  1.7738e-03,
+          1.6677e-04,  4.3869e-03],
+        [ 2.8496e-03,  1.6451e-03,  1.1759e-03,  ...,  3.2673e-03,
+          1.0896e-04,  6.9542e-03],
+        [-6.3276e-04, -2.4681e-03, -4.3869e-03,  ..., -3.2749e-03,
+          5.8353e-05, -1.3816e-04],
+        ...,
+        [ 9.0647e-04,  2.8515e-04,  1.2161e-02,  ...,  2.4796e-03,
+          9.0897e-05, -1.6403e-03],
+        [-3.4275e-03,  7.6962e-04,  8.0776e-04,  ..., -3.9864e-03,
+         -9.7513e-04, -1.4944e-03],
+        [ 2.0428e-03,  6.7091e-04,  5.2109e-03,  ...,  2.4605e-03,
+          9.1612e-05,  3.0518e-03]], device='cuda:0')
+Epoch 293, bias, value: tensor([-0.0304,  0.0366, -0.0005, -0.0060,  0.0246, -0.0289,  0.0063,  0.0019,
+        -0.0041, -0.0178], device='cuda:0'), grad: tensor([-0.0245,  0.0509,  0.0011,  0.0066, -0.0429, -0.0214, -0.0021,  0.0343,
+        -0.0344,  0.0323], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 292, time 214.37, cls_loss 0.5437 cls_loss_mapping 0.0031 cls_loss_causal 0.4769 re_mapping 0.0102 re_causal 0.0238 /// teacc 98.72 lr 0.00010000
+Epoch 294, weight, value: tensor([[-0.0666, -0.1334, -0.0956,  ..., -0.0420,  0.0584, -0.1078],
+        [-0.0779, -0.0887, -0.0782,  ...,  0.0985, -0.0450,  0.2184],
+        [-0.0066, -0.0222, -0.0358,  ..., -0.0080, -0.0109, -0.0769],
+        ...,
+        [ 0.0367, -0.1026,  0.1595,  ...,  0.0323, -0.0906,  0.0568],
+        [-0.0361,  0.0615, -0.1480,  ..., -0.0539,  0.0146, -0.0930],
+        [-0.0547,  0.0743,  0.0454,  ..., -0.0521, -0.0435, -0.0234]],
+       device='cuda:0'), grad: tensor([[ 1.3590e-04,  1.5860e-03, -3.5496e-03,  ..., -4.1237e-03,
+          1.0407e-04,  2.2297e-03],
+        [ 2.1264e-05,  5.0879e-04,  2.4986e-03,  ...,  3.4122e-03,
+          3.5465e-05,  4.9438e-03],
+        [-5.2881e-04, -1.4210e-03,  1.3180e-03,  ..., -5.7268e-04,
+          3.4809e-05,  2.2507e-03],
+        ...,
+        [ 8.0538e-04, -1.7204e-03, -3.5267e-03,  ..., -9.4604e-03,
+          1.3553e-05, -7.5340e-03],
+        [ 1.1748e-04, -4.5357e-03, -9.5444e-03,  ..., -1.7881e-03,
+         -6.8140e-04, -1.0284e-02],
+        [ 1.4439e-03, -2.6226e-03,  6.0196e-03,  ...,  4.0550e-03,
+          6.0827e-05, -1.3565e-02]], device='cuda:0')
+Epoch 294, bias, value: tensor([-0.0304,  0.0359,  0.0001, -0.0060,  0.0242, -0.0292,  0.0064,  0.0024,
+        -0.0046, -0.0171], device='cuda:0'), grad: tensor([-0.0342,  0.0324,  0.0016,  0.0157,  0.0294,  0.0392,  0.0244, -0.0449,
+        -0.0443, -0.0192], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 293, time 214.23, cls_loss 0.5758 cls_loss_mapping 0.0031 cls_loss_causal 0.5006 re_mapping 0.0101 re_causal 0.0238 /// teacc 98.74 lr 0.00010000
+Epoch 295, weight, value: tensor([[-0.0656, -0.1340, -0.0950,  ..., -0.0415,  0.0606, -0.1063],
+        [-0.0763, -0.0889, -0.0791,  ...,  0.0996, -0.0438,  0.2178],
+        [-0.0060, -0.0224, -0.0376,  ..., -0.0085, -0.0098, -0.0773],
+        ...,
+        [ 0.0370, -0.1017,  0.1582,  ...,  0.0332, -0.0925,  0.0557],
+        [-0.0373,  0.0610, -0.1467,  ..., -0.0540,  0.0134, -0.0921],
+        [-0.0538,  0.0742,  0.0475,  ..., -0.0518, -0.0438, -0.0226]],
+       device='cuda:0'), grad: tensor([[-3.8548e-03, -6.8378e-04, -1.4582e-03,  ..., -4.6883e-03,
+         -1.8835e-03, -3.6945e-03],
+        [ 3.6564e-03,  5.8740e-05,  6.8951e-04,  ...,  5.7220e-03,
+          1.0986e-03,  2.9850e-03],
+        [-1.2798e-03, -4.1695e-03, -1.8814e-02,  ..., -1.0818e-02,
+          8.2016e-05, -4.0245e-03],
+        ...,
+        [-1.8539e-03,  1.0767e-03,  1.2848e-02,  ...,  1.7128e-03,
+          4.7952e-05,  2.2106e-03],
+        [ 4.8113e-04,  1.2045e-03,  1.8301e-03,  ...,  1.8539e-03,
+          1.8275e-04,  4.9305e-04],
+        [ 6.7234e-04,  1.7433e-03,  5.3291e-03,  ...,  3.4943e-03,
+          5.1928e-04,  1.1454e-03]], device='cuda:0')
+Epoch 295, bias, value: tensor([-0.0307,  0.0352,  0.0004, -0.0071,  0.0239, -0.0286,  0.0069,  0.0021,
+        -0.0039, -0.0166], device='cuda:0'), grad: tensor([-0.0233,  0.0333, -0.0634, -0.0028,  0.0170,  0.0134, -0.0162,  0.0175,
+        -0.0104,  0.0348], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 294, time 214.20, cls_loss 0.5424 cls_loss_mapping 0.0035 cls_loss_causal 0.4673 re_mapping 0.0099 re_causal 0.0227 /// teacc 98.75 lr 0.00010000
+Epoch 296, weight, value: tensor([[-0.0661, -0.1335, -0.0954,  ..., -0.0426,  0.0611, -0.1064],
+        [-0.0763, -0.0893, -0.0797,  ...,  0.1003, -0.0435,  0.2182],
+        [-0.0067, -0.0227, -0.0377,  ..., -0.0073, -0.0109, -0.0774],
+        ...,
+        [ 0.0378, -0.1011,  0.1589,  ...,  0.0326, -0.0929,  0.0548],
+        [-0.0370,  0.0612, -0.1469,  ..., -0.0548,  0.0135, -0.0914],
+        [-0.0535,  0.0736,  0.0453,  ..., -0.0519, -0.0432, -0.0232]],
+       device='cuda:0'), grad: tensor([[ 6.1572e-05,  5.6684e-05,  4.4060e-04,  ...,  1.2579e-03,
+          3.7968e-05,  3.9363e-04],
+        [ 4.7237e-05,  9.5427e-05,  5.3406e-04,  ...,  2.4147e-03,
+          2.1905e-05,  4.9210e-04],
+        [ 1.2660e-04,  8.6665e-05,  1.4381e-03,  ..., -4.8103e-03,
+          3.0637e-05, -2.4319e-03],
+        ...,
+        [-4.1389e-03,  9.6512e-04, -7.6962e-04,  ...,  1.8692e-03,
+          5.3263e-04, -2.1038e-03],
+        [ 1.0099e-03, -2.2831e-03,  5.8222e-04,  ..., -8.0681e-04,
+         -4.0507e-04,  1.8387e-03],
+        [ 2.4834e-03, -2.4986e-03, -5.5389e-03,  ..., -8.7357e-03,
+         -1.4534e-03, -4.0102e-04]], device='cuda:0')
+Epoch 296, bias, value: tensor([-0.0314,  0.0360,  0.0005, -0.0076,  0.0234, -0.0271,  0.0073,  0.0023,
+        -0.0041, -0.0175], device='cuda:0'), grad: tensor([ 0.0147, -0.0072, -0.0110,  0.0329,  0.0171,  0.0185, -0.0432,  0.0039,
+         0.0046, -0.0304], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 295, time 214.15, cls_loss 0.5791 cls_loss_mapping 0.0037 cls_loss_causal 0.5114 re_mapping 0.0094 re_causal 0.0231 /// teacc 98.69 lr 0.00010000
+Epoch 297, weight, value: tensor([[-0.0676, -0.1347, -0.0957,  ..., -0.0434,  0.0606, -0.1049],
+        [-0.0759, -0.0895, -0.0781,  ...,  0.1001, -0.0430,  0.2188],
+        [-0.0061, -0.0222, -0.0395,  ..., -0.0048, -0.0113, -0.0772],
+        ...,
+        [ 0.0368, -0.1024,  0.1601,  ...,  0.0327, -0.0937,  0.0547],
+        [-0.0376,  0.0611, -0.1459,  ..., -0.0547,  0.0130, -0.0920],
+        [-0.0526,  0.0737,  0.0453,  ..., -0.0515, -0.0430, -0.0232]],
+       device='cuda:0'), grad: tensor([[ 1.4342e-07,  1.3065e-04,  3.8433e-04,  ...,  6.6948e-04,
+          2.4140e-04,  2.9278e-04],
+        [ 1.6950e-07,  8.0943e-05,  2.6679e-04,  ...,  5.2357e-04,
+          1.8144e-04,  1.4853e-04],
+        [ 1.7229e-06,  1.7157e-03,  1.5154e-03,  ...,  2.7227e-04,
+          3.8738e-03,  4.6277e-04],
+        ...,
+        [ 5.4203e-06,  2.1005e-04,  7.0477e-04,  ...,  9.8610e-04,
+          4.4179e-04, -2.1561e-02],
+        [ 1.3709e-06, -9.4223e-03, -5.4131e-03,  ...,  6.6471e-04,
+         -2.0676e-02,  3.5429e-04],
+        [ 3.6601e-06,  1.2445e-04, -2.1725e-03,  ..., -2.4662e-03,
+          2.6965e-04,  1.9547e-02]], device='cuda:0')
+Epoch 297, bias, value: tensor([-0.0307,  0.0370,  0.0015, -0.0076,  0.0225, -0.0277,  0.0071,  0.0014,
+        -0.0047, -0.0170], device='cuda:0'), grad: tensor([ 0.0166,  0.0206,  0.0221,  0.0360, -0.0445,  0.0189, -0.0116, -0.0388,
+        -0.0411,  0.0218], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 296, time 214.29, cls_loss 0.5360 cls_loss_mapping 0.0048 cls_loss_causal 0.4685 re_mapping 0.0099 re_causal 0.0216 /// teacc 98.65 lr 0.00010000
+Epoch 298, weight, value: tensor([[-0.0692, -0.1351, -0.0956,  ..., -0.0432,  0.0596, -0.1064],
+        [-0.0764, -0.0897, -0.0793,  ...,  0.0997, -0.0430,  0.2197],
+        [-0.0066, -0.0221, -0.0387,  ..., -0.0048, -0.0107, -0.0767],
+        ...,
+        [ 0.0373, -0.1020,  0.1615,  ...,  0.0343, -0.0948,  0.0552],
+        [-0.0370,  0.0608, -0.1465,  ..., -0.0547,  0.0142, -0.0926],
+        [-0.0529,  0.0741,  0.0443,  ..., -0.0522, -0.0429, -0.0239]],
+       device='cuda:0'), grad: tensor([[ 6.3086e-04,  3.5977e-04,  1.2617e-03,  ...,  2.6302e-03,
+          1.1981e-04,  7.8535e-04],
+        [ 5.5742e-04,  6.4087e-04,  1.4229e-03,  ...,  4.0932e-03,
+          2.7210e-05,  8.2445e-04],
+        [ 2.1744e-03,  1.4563e-03, -1.2236e-03,  ...,  5.5542e-03,
+          8.7976e-05,  2.1534e-03],
+        ...,
+        [-5.7220e-04,  6.4039e-04,  2.4872e-03,  ...,  4.2458e-03,
+          1.7333e-04,  2.9163e-03],
+        [ 7.8869e-04,  5.6648e-03,  3.1853e-03,  ...,  6.0654e-03,
+          1.3137e-04,  1.8616e-03],
+        [ 8.8196e-03,  5.4741e-04,  1.9474e-03,  ...,  2.7599e-03,
+          8.3208e-05, -7.6828e-03]], device='cuda:0')
+Epoch 298, bias, value: tensor([-0.0306,  0.0369,  0.0018, -0.0091,  0.0230, -0.0278,  0.0069,  0.0029,
+        -0.0045, -0.0175], device='cuda:0'), grad: tensor([ 0.0251,  0.0313,  0.0102, -0.0199, -0.0341, -0.0719, -0.0156,  0.0434,
+         0.0148,  0.0168], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 297, time 214.31, cls_loss 0.5190 cls_loss_mapping 0.0044 cls_loss_causal 0.4552 re_mapping 0.0098 re_causal 0.0217 /// teacc 98.76 lr 0.00010000
+Epoch 299, weight, value: tensor([[-0.0695, -0.1357, -0.0967,  ..., -0.0437,  0.0601, -0.1070],
+        [-0.0774, -0.0898, -0.0794,  ...,  0.0996, -0.0432,  0.2202],
+        [-0.0073, -0.0224, -0.0405,  ..., -0.0064, -0.0107, -0.0777],
+        ...,
+        [ 0.0380, -0.1013,  0.1628,  ...,  0.0348, -0.0957,  0.0550],
+        [-0.0364,  0.0601, -0.1465,  ..., -0.0543,  0.0148, -0.0921],
+        [-0.0524,  0.0751,  0.0448,  ..., -0.0513, -0.0423, -0.0254]],
+       device='cuda:0'), grad: tensor([[ 7.6914e-04, -5.2500e-04,  1.1826e-03,  ...,  4.0779e-03,
+          1.5318e-04,  5.9128e-04],
+        [ 2.0733e-03,  2.3559e-05,  2.0676e-03,  ...,  2.4109e-03,
+          1.9312e-04,  1.8406e-04],
+        [ 2.3460e-03,  5.2547e-04,  2.9964e-03,  ...,  3.1891e-03,
+          6.7616e-04,  1.1379e-04],
+        ...,
+        [-5.8479e-03,  9.4891e-05, -3.7098e-03,  ..., -3.3169e-03,
+          4.8518e-04,  1.2362e-04],
+        [ 1.2913e-03, -1.6613e-03,  2.7227e-04,  ...,  5.4407e-04,
+         -1.3578e-04,  2.3632e-03],
+        [-3.3283e-03,  1.2541e-04,  1.0042e-03,  ..., -5.1498e-03,
+          3.6335e-04,  4.9496e-04]], device='cuda:0')
+Epoch 299, bias, value: tensor([-0.0315,  0.0366,  0.0006, -0.0088,  0.0235, -0.0286,  0.0075,  0.0027,
+        -0.0043, -0.0159], device='cuda:0'), grad: tensor([-0.0246,  0.0220,  0.0183, -0.0324,  0.0135,  0.0132,  0.0133, -0.0393,
+         0.0180, -0.0019], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 298----------------------------------------------------
+epoch 298, time 230.97, cls_loss 0.5381 cls_loss_mapping 0.0030 cls_loss_causal 0.4792 re_mapping 0.0095 re_causal 0.0224 /// teacc 98.87 lr 0.00010000
+Epoch 300, weight, value: tensor([[-0.0704, -0.1357, -0.0968,  ..., -0.0438,  0.0610, -0.1074],
+        [-0.0774, -0.0896, -0.0789,  ...,  0.0995, -0.0435,  0.2203],
+        [-0.0085, -0.0215, -0.0402,  ..., -0.0059, -0.0104, -0.0776],
+        ...,
+        [ 0.0397, -0.1006,  0.1640,  ...,  0.0360, -0.0945,  0.0560],
+        [-0.0362,  0.0598, -0.1481,  ..., -0.0544,  0.0132, -0.0927],
+        [-0.0532,  0.0756,  0.0442,  ..., -0.0530, -0.0443, -0.0264]],
+       device='cuda:0'), grad: tensor([[-5.5432e-06,  2.4164e-04, -3.1700e-03,  ..., -8.4763e-03,
+          2.5034e-04, -4.7112e-03],
+        [ 2.2733e-04, -3.6316e-03, -4.6005e-03,  ..., -1.1040e-02,
+          3.5691e-04, -2.2678e-03],
+        [ 1.7471e-03,  1.5945e-03,  4.1580e-03,  ...,  6.9542e-03,
+          2.7847e-04,  1.3123e-03],
+        ...,
+        [ 4.5800e-04,  2.9755e-04, -2.0966e-05,  ...,  2.1038e-03,
+          1.6952e-04,  7.7820e-04],
+        [ 4.6730e-03, -1.0662e-03,  2.1660e-04,  ...,  8.3618e-03,
+         -5.1498e-04,  1.0185e-03],
+        [ 2.0826e-04,  7.4100e-04, -1.6010e-04,  ...,  8.0824e-04,
+          2.8706e-04,  1.0424e-03]], device='cuda:0')
+Epoch 300, bias, value: tensor([-0.0310,  0.0374,  0.0008, -0.0094,  0.0236, -0.0280,  0.0082,  0.0031,
+        -0.0053, -0.0175], device='cuda:0'), grad: tensor([-0.0764, -0.0228,  0.0478, -0.0054,  0.0251, -0.0125,  0.0294,  0.0100,
+         0.0160, -0.0110], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 299, time 214.49, cls_loss 0.5649 cls_loss_mapping 0.0033 cls_loss_causal 0.4883 re_mapping 0.0092 re_causal 0.0228 /// teacc 98.80 lr 0.00010000
+Epoch 301, weight, value: tensor([[-0.0713, -0.1356, -0.0978,  ..., -0.0446,  0.0604, -0.1089],
+        [-0.0780, -0.0895, -0.0797,  ...,  0.0990, -0.0439,  0.2210],
+        [-0.0065, -0.0212, -0.0405,  ..., -0.0060, -0.0102, -0.0777],
+        ...,
+        [ 0.0396, -0.1007,  0.1636,  ...,  0.0356, -0.0948,  0.0549],
+        [-0.0366,  0.0600, -0.1469,  ..., -0.0544,  0.0127, -0.0929],
+        [-0.0530,  0.0755,  0.0447,  ..., -0.0523, -0.0442, -0.0259]],
+       device='cuda:0'), grad: tensor([[ 4.5002e-05,  8.7395e-06,  6.1798e-04,  ..., -3.9330e-03,
+          1.5473e-04,  7.9012e-04],
+        [ 2.2873e-05,  1.5646e-07, -7.4863e-05,  ..., -2.1327e-04,
+         -8.4877e-04, -5.2571e-05],
+        [ 4.8786e-05,  1.4398e-06, -5.7411e-04,  ...,  9.6703e-04,
+          2.2256e-04,  1.9240e-04],
+        ...,
+        [ 1.4275e-05,  8.3819e-08, -1.8692e-03,  ..., -7.6246e-04,
+          1.0896e-04,  2.1636e-04],
+        [ 2.3559e-05, -2.1420e-03, -2.3537e-03,  ...,  3.3360e-03,
+          2.1958e-04,  5.9462e-04],
+        [ 3.0547e-05,  1.0476e-05,  7.0286e-04,  ..., -4.1656e-03,
+          1.3697e-04, -2.8057e-03]], device='cuda:0')
+Epoch 301, bias, value: tensor([-0.0309,  0.0368,  0.0008, -0.0091,  0.0233, -0.0278,  0.0073,  0.0032,
+        -0.0044, -0.0174], device='cuda:0'), grad: tensor([ 0.0010, -0.0039,  0.0189, -0.0459,  0.0221, -0.0128,  0.0434, -0.0388,
+         0.0253, -0.0093], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 300----------------------------------------------------
+epoch 300, time 230.28, cls_loss 0.5614 cls_loss_mapping 0.0030 cls_loss_causal 0.4895 re_mapping 0.0091 re_causal 0.0222 /// teacc 98.90 lr 0.00010000
+Epoch 302, weight, value: tensor([[-0.0722, -0.1370, -0.0979,  ..., -0.0448,  0.0601, -0.1097],
+        [-0.0775, -0.0891, -0.0791,  ...,  0.1001, -0.0436,  0.2210],
+        [-0.0064, -0.0219, -0.0407,  ..., -0.0076, -0.0089, -0.0779],
+        ...,
+        [ 0.0400, -0.1011,  0.1643,  ...,  0.0363, -0.0952,  0.0548],
+        [-0.0364,  0.0607, -0.1467,  ..., -0.0538,  0.0127, -0.0930],
+        [-0.0530,  0.0758,  0.0450,  ..., -0.0524, -0.0441, -0.0257]],
+       device='cuda:0'), grad: tensor([[ 1.0262e-03,  7.7534e-04,  2.5673e-03,  ...,  2.8419e-03,
+          9.8825e-05,  2.0579e-05],
+        [ 4.9973e-04,  1.5223e-04,  2.2068e-03,  ...,  2.1420e-03,
+          4.4815e-06, -1.3292e-05],
+        [-2.0580e-03,  3.4409e-03,  5.2643e-03,  ...,  6.5422e-04,
+          2.8014e-04,  1.3366e-05],
+        ...,
+        [ 2.2161e-04,  1.1307e-04, -8.0299e-04,  ..., -3.0880e-03,
+          2.4810e-06,  2.3019e-04],
+        [ 9.0170e-04,  1.6689e-04,  2.2297e-03,  ...,  2.1820e-03,
+          8.1584e-06,  3.2395e-05],
+        [ 5.4646e-04,  7.0810e-05,  1.0500e-03,  ...,  9.3269e-04,
+          4.2953e-06,  5.0688e-04]], device='cuda:0')
+Epoch 302, bias, value: tensor([-0.0308,  0.0372, -0.0005, -0.0086,  0.0226, -0.0279,  0.0072,  0.0037,
+        -0.0042, -0.0169], device='cuda:0'), grad: tensor([ 0.0181,  0.0198,  0.0106, -0.0269, -0.0126,  0.0151, -0.0123, -0.0466,
+         0.0190,  0.0157], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 301, time 214.32, cls_loss 0.5257 cls_loss_mapping 0.0032 cls_loss_causal 0.4599 re_mapping 0.0101 re_causal 0.0234 /// teacc 98.73 lr 0.00010000
+Epoch 303, weight, value: tensor([[-0.0709, -0.1369, -0.0960,  ..., -0.0463,  0.0597, -0.1101],
+        [-0.0777, -0.0895, -0.0791,  ...,  0.1001, -0.0442,  0.2217],
+        [-0.0043, -0.0219, -0.0392,  ..., -0.0074, -0.0076, -0.0780],
+        ...,
+        [ 0.0394, -0.1019,  0.1639,  ...,  0.0367, -0.0948,  0.0546],
+        [-0.0366,  0.0613, -0.1460,  ..., -0.0530,  0.0118, -0.0921],
+        [-0.0529,  0.0757,  0.0457,  ..., -0.0526, -0.0441, -0.0263]],
+       device='cuda:0'), grad: tensor([[ 9.8050e-05,  1.1086e-04,  3.7670e-05,  ..., -7.8278e-03,
+          4.9472e-05,  1.1064e-05],
+        [ 6.0022e-05,  3.2693e-05,  2.5019e-05,  ...,  5.8317e-04,
+          9.7230e-06, -2.0981e-05],
+        [ 3.0088e-04,  2.5821e-04,  7.5519e-05,  ...,  2.5101e-03,
+          4.5687e-05,  6.9514e-06],
+        ...,
+        [-8.6451e-04,  3.7551e-05,  1.1539e-04,  ..., -3.1509e-03,
+          9.9018e-06, -1.3053e-04],
+        [-2.4721e-05, -3.7079e-03, -1.3666e-03,  ..., -1.1911e-03,
+          6.2943e-05,  7.7710e-06],
+        [ 1.0026e-04,  1.0478e-04,  9.2685e-06,  ...,  6.5994e-04,
+          6.9514e-06,  1.2755e-04]], device='cuda:0')
+Epoch 303, bias, value: tensor([-0.0303,  0.0369,  0.0002, -0.0083,  0.0220, -0.0291,  0.0077,  0.0035,
+        -0.0045, -0.0165], device='cuda:0'), grad: tensor([-0.0247,  0.0104,  0.0153,  0.0104,  0.0020,  0.0077,  0.0214, -0.0269,
+        -0.0193,  0.0037], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 302, time 214.23, cls_loss 0.5430 cls_loss_mapping 0.0051 cls_loss_causal 0.4648 re_mapping 0.0100 re_causal 0.0227 /// teacc 98.75 lr 0.00010000
+Epoch 304, weight, value: tensor([[-0.0706, -0.1361, -0.0968,  ..., -0.0463,  0.0600, -0.1106],
+        [-0.0776, -0.0899, -0.0789,  ...,  0.1006, -0.0437,  0.2231],
+        [-0.0040, -0.0234, -0.0398,  ..., -0.0078, -0.0079, -0.0791],
+        ...,
+        [ 0.0381, -0.1023,  0.1644,  ...,  0.0364, -0.0961,  0.0548],
+        [-0.0366,  0.0626, -0.1455,  ..., -0.0538,  0.0125, -0.0928],
+        [-0.0514,  0.0753,  0.0461,  ..., -0.0531, -0.0448, -0.0268]],
+       device='cuda:0'), grad: tensor([[ 1.8346e-04, -6.0439e-05, -6.4468e-04,  ..., -1.1768e-03,
+          1.3590e-04, -7.2908e-04],
+        [ 7.7605e-05,  7.1339e-07,  7.1144e-04,  ...,  8.1921e-04,
+          1.4722e-04,  3.8952e-05],
+        [ 3.4952e-04,  3.7812e-06,  1.5593e-03,  ...,  1.6985e-03,
+          2.3937e-04,  6.0177e-04],
+        ...,
+        [ 2.5496e-05,  6.9141e-06, -5.5504e-03,  ...,  5.2547e-04,
+          1.2743e-04, -2.7027e-03],
+        [-8.2626e-03,  1.0997e-05, -4.0016e-03,  ..., -1.4114e-03,
+          2.3317e-04,  1.2751e-03],
+        [ 4.9978e-05,  1.5509e-04,  4.0412e-04,  ...,  8.7309e-04,
+          1.3208e-04,  3.7819e-05]], device='cuda:0')
+Epoch 304, bias, value: tensor([-0.0303,  0.0370,  0.0007, -0.0084,  0.0232, -0.0293,  0.0071,  0.0035,
+        -0.0047, -0.0172], device='cuda:0'), grad: tensor([-0.0282,  0.0161,  0.0475,  0.0076,  0.0116, -0.0019, -0.0282, -0.0215,
+        -0.0018, -0.0012], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 303, time 214.05, cls_loss 0.5533 cls_loss_mapping 0.0034 cls_loss_causal 0.4823 re_mapping 0.0095 re_causal 0.0217 /// teacc 98.78 lr 0.00010000
+Epoch 305, weight, value: tensor([[-0.0707, -0.1361, -0.0954,  ..., -0.0438,  0.0579, -0.1085],
+        [-0.0764, -0.0903, -0.0790,  ...,  0.0993, -0.0437,  0.2221],
+        [-0.0039, -0.0234, -0.0402,  ..., -0.0074, -0.0078, -0.0791],
+        ...,
+        [ 0.0367, -0.1018,  0.1655,  ...,  0.0371, -0.0968,  0.0552],
+        [-0.0363,  0.0625, -0.1455,  ..., -0.0539,  0.0114, -0.0930],
+        [-0.0511,  0.0755,  0.0462,  ..., -0.0518, -0.0453, -0.0274]],
+       device='cuda:0'), grad: tensor([[ 1.2791e-04,  1.2314e-04, -4.8409e-03,  ...,  1.9112e-03,
+          6.1631e-05, -3.1708e-02],
+        [ 4.3392e-05,  2.5311e-03, -3.4882e-02,  ..., -6.3400e-03,
+         -2.3060e-03, -1.0735e-02],
+        [-8.1587e-04,  3.5346e-05,  2.5845e-03,  ...,  1.1148e-03,
+          1.3990e-03,  1.1950e-03],
+        ...,
+        [ 2.6058e-06,  2.4872e-03,  3.6102e-02,  ...,  1.0099e-03,
+          7.3433e-05,  2.8885e-02],
+        [ 5.8937e-04,  1.8711e-03,  4.7836e-03,  ...,  2.9297e-03,
+          1.5700e-04,  1.3336e-02],
+        [ 2.2709e-05,  4.4727e-04,  2.3289e-03,  ...,  3.9940e-03,
+          2.1383e-05,  4.9734e-04]], device='cuda:0')
+Epoch 305, bias, value: tensor([-0.0299,  0.0370,  0.0004, -0.0091,  0.0244, -0.0302,  0.0071,  0.0041,
+        -0.0055, -0.0165], device='cuda:0'), grad: tensor([-0.0042, -0.0242,  0.0021, -0.0253, -0.0110, -0.0126,  0.0229,  0.0517,
+        -0.0226,  0.0234], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 304, time 214.36, cls_loss 0.5151 cls_loss_mapping 0.0036 cls_loss_causal 0.4422 re_mapping 0.0099 re_causal 0.0220 /// teacc 98.81 lr 0.00010000
+Epoch 306, weight, value: tensor([[-0.0719, -0.1359, -0.0951,  ..., -0.0438,  0.0582, -0.1070],
+        [-0.0749, -0.0902, -0.0778,  ...,  0.0992, -0.0414,  0.2223],
+        [-0.0026, -0.0239, -0.0401,  ..., -0.0073, -0.0087, -0.0795],
+        ...,
+        [ 0.0361, -0.1019,  0.1643,  ...,  0.0380, -0.0974,  0.0556],
+        [-0.0370,  0.0629, -0.1461,  ..., -0.0548,  0.0119, -0.0927],
+        [-0.0511,  0.0759,  0.0471,  ..., -0.0530, -0.0445, -0.0289]],
+       device='cuda:0'), grad: tensor([[ 2.6655e-04,  2.3308e-03,  6.8092e-04,  ...,  1.7595e-04,
+          8.4579e-05,  1.6487e-04],
+        [-1.8320e-03,  1.0419e-04,  6.2132e-04,  ..., -4.8027e-03,
+         -1.9989e-03,  1.4460e-04],
+        [ 2.2564e-03, -4.5776e-03,  3.0518e-03,  ...,  4.9744e-03,
+          1.1597e-03,  1.1247e-04],
+        ...,
+        [ 2.4629e-04,  8.9455e-04,  3.1158e-02,  ...,  5.7640e-03,
+          1.9097e-04,  1.7929e-02],
+        [ 7.6008e-04,  2.4185e-03,  1.5202e-03,  ..., -1.8444e-03,
+          3.5375e-05, -1.3857e-03],
+        [ 3.4189e-04, -1.2875e-03, -3.3447e-02,  ..., -3.6259e-03,
+          2.3568e-04, -1.7975e-02]], device='cuda:0')
+Epoch 306, bias, value: tensor([-0.0300,  0.0363, -0.0002, -0.0084,  0.0242, -0.0294,  0.0069,  0.0048,
+        -0.0052, -0.0172], device='cuda:0'), grad: tensor([ 0.0171, -0.0234,  0.0033, -0.0207,  0.0063, -0.0204,  0.0031,  0.0418,
+         0.0242, -0.0313], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 305, time 214.37, cls_loss 0.5548 cls_loss_mapping 0.0033 cls_loss_causal 0.4946 re_mapping 0.0096 re_causal 0.0224 /// teacc 98.79 lr 0.00010000
+Epoch 307, weight, value: tensor([[-0.0707, -0.1365, -0.0957,  ..., -0.0433,  0.0584, -0.1074],
+        [-0.0735, -0.0883, -0.0762,  ...,  0.0992, -0.0399,  0.2235],
+        [-0.0028, -0.0224, -0.0395,  ..., -0.0083, -0.0083, -0.0797],
+        ...,
+        [ 0.0371, -0.1025,  0.1646,  ...,  0.0383, -0.0977,  0.0553],
+        [-0.0383,  0.0622, -0.1463,  ..., -0.0556,  0.0125, -0.0943],
+        [-0.0521,  0.0760,  0.0462,  ..., -0.0540, -0.0448, -0.0280]],
+       device='cuda:0'), grad: tensor([[ 7.4841e-06,  1.7488e-04,  4.2725e-04,  ..., -1.6232e-03,
+          1.3947e-04,  9.6798e-04],
+        [ 4.8131e-06,  9.2685e-05, -1.6046e-04,  ..., -8.3771e-03,
+          1.3649e-04, -2.6512e-03],
+        [ 3.0190e-05,  3.8147e-04,  2.0638e-03,  ...,  2.4948e-03,
+          4.8256e-04,  5.1727e-03],
+        ...,
+        [ 1.6719e-05,  2.4009e-04, -5.8060e-03,  ..., -1.0557e-03,
+          2.8825e-04, -8.0948e-03],
+        [ 3.4541e-05,  5.3749e-03,  7.3290e-04,  ...,  1.8673e-03,
+          8.8882e-03,  6.2132e-04],
+        [ 4.0948e-05, -5.0621e-03,  9.0837e-04,  ...,  1.4849e-03,
+         -1.0109e-02,  6.3229e-04]], device='cuda:0')
+Epoch 307, bias, value: tensor([-0.0296,  0.0370, -0.0005, -0.0089,  0.0244, -0.0295,  0.0071,  0.0051,
+        -0.0056, -0.0177], device='cuda:0'), grad: tensor([-0.0350, -0.0245,  0.0220, -0.0031,  0.0219,  0.0394, -0.0023, -0.0230,
+         0.0312, -0.0266], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 306, time 214.46, cls_loss 0.5533 cls_loss_mapping 0.0033 cls_loss_causal 0.4785 re_mapping 0.0096 re_causal 0.0237 /// teacc 98.80 lr 0.00010000
+Epoch 308, weight, value: tensor([[-0.0716, -0.1366, -0.0967,  ..., -0.0427,  0.0587, -0.1086],
+        [-0.0720, -0.0880, -0.0768,  ...,  0.0997, -0.0390,  0.2245],
+        [-0.0029, -0.0227, -0.0395,  ..., -0.0082, -0.0083, -0.0809],
+        ...,
+        [ 0.0368, -0.1034,  0.1647,  ...,  0.0366, -0.0999,  0.0555],
+        [-0.0385,  0.0620, -0.1458,  ..., -0.0531,  0.0130, -0.0921],
+        [-0.0523,  0.0766,  0.0465,  ..., -0.0555, -0.0458, -0.0276]],
+       device='cuda:0'), grad: tensor([[-3.2592e-04, -4.1103e-04,  6.3705e-04,  ..., -6.3442e-06,
+         -8.7917e-05,  1.3952e-03],
+        [ 3.0007e-06,  3.2973e-04, -3.5572e-03,  ..., -5.1460e-03,
+          8.2731e-05, -3.3245e-03],
+        [ 1.1319e-04, -2.4986e-03, -5.3101e-03,  ..., -2.4166e-03,
+         -9.7132e-04, -3.7174e-03],
+        ...,
+        [ 1.6853e-05, -1.7154e-04, -2.5585e-05,  ..., -8.4591e-04,
+          1.0252e-04, -5.0163e-03],
+        [ 3.6269e-05,  6.8235e-04,  2.2182e-03,  ...,  3.5515e-03,
+          1.9836e-04,  1.7462e-03],
+        [ 4.9710e-05,  6.5506e-05, -7.5102e-04,  ...,  6.9809e-04,
+          1.3578e-04,  4.1122e-03]], device='cuda:0')
+Epoch 308, bias, value: tensor([-0.0289,  0.0372, -0.0022, -0.0077,  0.0236, -0.0280,  0.0075,  0.0041,
+        -0.0050, -0.0187], device='cuda:0'), grad: tensor([ 0.0031, -0.0302, -0.0126,  0.0150,  0.0094,  0.0217, -0.0030, -0.0051,
+         0.0169, -0.0153], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 307, time 214.44, cls_loss 0.5827 cls_loss_mapping 0.0042 cls_loss_causal 0.5089 re_mapping 0.0092 re_causal 0.0220 /// teacc 98.85 lr 0.00010000
+Epoch 309, weight, value: tensor([[-0.0728, -0.1374, -0.0974,  ..., -0.0410,  0.0583, -0.1101],
+        [-0.0725, -0.0879, -0.0761,  ...,  0.1001, -0.0402,  0.2252],
+        [-0.0019, -0.0229, -0.0397,  ..., -0.0078, -0.0077, -0.0814],
+        ...,
+        [ 0.0369, -0.1040,  0.1647,  ...,  0.0359, -0.1008,  0.0548],
+        [-0.0389,  0.0624, -0.1463,  ..., -0.0525,  0.0142, -0.0918],
+        [-0.0529,  0.0763,  0.0465,  ..., -0.0571, -0.0461, -0.0279]],
+       device='cuda:0'), grad: tensor([[ 6.2585e-05,  1.4037e-05,  1.3351e-04,  ...,  6.8569e-04,
+         -5.2595e-04,  8.7082e-05],
+        [ 2.2992e-05,  5.4277e-06,  5.3972e-05,  ...,  2.0466e-03,
+          1.3649e-04,  5.9158e-05],
+        [-3.7766e-04,  7.9691e-05, -6.9141e-04,  ..., -2.7771e-03,
+         -8.4579e-05,  2.7966e-04],
+        ...,
+        [ 1.7178e-04,  2.8896e-04,  4.4489e-04,  ..., -1.1349e-03,
+         -9.6283e-03, -5.4016e-03],
+        [-6.2847e-04, -2.2335e-03, -2.2106e-03,  ..., -9.8419e-04,
+          2.9707e-04, -5.0211e-04],
+        [ 4.2033e-04,  1.4086e-03,  1.4019e-03,  ...,  2.3115e-04,
+          1.9016e-03,  1.0843e-03]], device='cuda:0')
+Epoch 309, bias, value: tensor([-0.0284,  0.0375, -0.0033, -0.0078,  0.0233, -0.0286,  0.0086,  0.0038,
+        -0.0040, -0.0193], device='cuda:0'), grad: tensor([ 0.0120,  0.0165,  0.0062, -0.0152,  0.0310,  0.0173,  0.0145, -0.0760,
+         0.0041, -0.0104], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 308, time 216.03, cls_loss 0.5669 cls_loss_mapping 0.0036 cls_loss_causal 0.4994 re_mapping 0.0096 re_causal 0.0233 /// teacc 98.87 lr 0.00010000
+Epoch 310, weight, value: tensor([[-0.0730, -0.1376, -0.0976,  ..., -0.0418,  0.0565, -0.1103],
+        [-0.0730, -0.0889, -0.0771,  ...,  0.0999, -0.0409,  0.2239],
+        [-0.0022, -0.0239, -0.0405,  ..., -0.0073, -0.0074, -0.0806],
+        ...,
+        [ 0.0368, -0.1044,  0.1654,  ...,  0.0356, -0.1019,  0.0545],
+        [-0.0397,  0.0616, -0.1474,  ..., -0.0536,  0.0131, -0.0912],
+        [-0.0529,  0.0761,  0.0475,  ..., -0.0553, -0.0445, -0.0270]],
+       device='cuda:0'), grad: tensor([[ 2.7753e-06,  2.0862e-04,  7.8869e-04,  ...,  1.4353e-03,
+          1.7667e-04,  2.7919e-04],
+        [ 3.6191e-06,  1.1593e-05,  1.9002e-04,  ...,  5.5361e-04,
+          6.5565e-05,  3.2091e-04],
+        [ 5.1767e-05, -2.4092e-04, -3.0346e-03,  ..., -1.0672e-03,
+         -1.2350e-04,  2.8324e-04],
+        ...,
+        [ 1.0774e-05,  1.4305e-04, -7.5065e-06,  ...,  1.2712e-03,
+          1.0145e-04,  2.1362e-04],
+        [-1.5903e-04, -1.3056e-03,  4.5705e-04,  ...,  1.8015e-03,
+          7.9989e-05,  2.6488e-04],
+        [ 3.9078e-06,  1.3685e-04,  6.1131e-04,  ...,  1.4839e-03,
+          1.4639e-04,  3.9959e-04]], device='cuda:0')
+Epoch 310, bias, value: tensor([-0.0283,  0.0370, -0.0025, -0.0081,  0.0229, -0.0292,  0.0080,  0.0041,
+        -0.0039, -0.0181], device='cuda:0'), grad: tensor([ 0.0194, -0.0128, -0.0103, -0.0103, -0.0104, -0.0090,  0.0179, -0.0051,
+        -0.0032,  0.0238], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 309----------------------------------------------------
+epoch 309, time 233.29, cls_loss 0.5324 cls_loss_mapping 0.0058 cls_loss_causal 0.4597 re_mapping 0.0094 re_causal 0.0220 /// teacc 98.97 lr 0.00010000
+Epoch 311, weight, value: tensor([[-0.0729, -0.1373, -0.0982,  ..., -0.0423,  0.0567, -0.1102],
+        [-0.0739, -0.0906, -0.0764,  ...,  0.1011, -0.0403,  0.2242],
+        [-0.0015, -0.0234, -0.0404,  ..., -0.0078, -0.0080, -0.0804],
+        ...,
+        [ 0.0374, -0.1049,  0.1662,  ...,  0.0358, -0.1030,  0.0547],
+        [-0.0401,  0.0618, -0.1480,  ..., -0.0543,  0.0131, -0.0919],
+        [-0.0525,  0.0775,  0.0477,  ..., -0.0558, -0.0439, -0.0278]],
+       device='cuda:0'), grad: tensor([[ 1.0356e-06,  9.4771e-06,  4.8256e-04,  ...,  2.8431e-05,
+          0.0000e+00, -6.8128e-05],
+        [ 1.3039e-08, -6.6496e-07, -4.3654e-04,  ...,  1.0056e-02,
+          0.0000e+00, -4.7013e-06],
+        [ 8.4378e-07,  7.9423e-06, -7.1192e-04,  ...,  1.1082e-03,
+          3.7253e-09,  1.9157e-04],
+        ...,
+        [ 2.7381e-07,  4.2230e-05,  9.3079e-04,  ...,  9.2850e-03,
+          1.8626e-09, -1.7476e-04],
+        [ 2.3190e-06,  2.6181e-05, -6.1131e-04,  ...,  2.7027e-03,
+          1.1735e-07,  4.0919e-05],
+        [ 2.0728e-05,  1.1259e-04, -1.6327e-03,  ..., -1.9882e-02,
+          0.0000e+00, -4.5276e-04]], device='cuda:0')
+Epoch 311, bias, value: tensor([-0.0293,  0.0382, -0.0020, -0.0090,  0.0236, -0.0297,  0.0078,  0.0040,
+        -0.0040, -0.0178], device='cuda:0'), grad: tensor([ 0.0107,  0.0085, -0.0146,  0.0176, -0.0042, -0.0106,  0.0167,  0.0325,
+        -0.0095, -0.0472], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 310, time 217.34, cls_loss 0.5278 cls_loss_mapping 0.0024 cls_loss_causal 0.4609 re_mapping 0.0094 re_causal 0.0221 /// teacc 98.86 lr 0.00010000
+Epoch 312, weight, value: tensor([[-0.0716, -0.1369, -0.0983,  ..., -0.0419,  0.0576, -0.1108],
+        [-0.0726, -0.0915, -0.0767,  ...,  0.1001, -0.0391,  0.2244],
+        [-0.0028, -0.0244, -0.0404,  ..., -0.0089, -0.0079, -0.0804],
+        ...,
+        [ 0.0374, -0.1049,  0.1663,  ...,  0.0369, -0.1029,  0.0542],
+        [-0.0393,  0.0622, -0.1492,  ..., -0.0558,  0.0131, -0.0926],
+        [-0.0533,  0.0785,  0.0474,  ..., -0.0562, -0.0456, -0.0275]],
+       device='cuda:0'), grad: tensor([[ 3.2596e-07,  1.5891e-04,  2.2328e-04,  ...,  4.0359e-03,
+          4.6444e-04,  1.1349e-04],
+        [ 2.2165e-06,  6.5446e-05,  4.2748e-04,  ..., -4.7226e-03,
+          1.0127e-04, -1.4529e-07],
+        [ 3.1948e-05,  6.9022e-05, -3.2425e-03,  ...,  4.8733e-04,
+          9.6083e-05,  1.8373e-05],
+        ...,
+        [ 1.2361e-05,  1.6046e-04, -5.3329e-03,  ..., -1.0653e-03,
+          1.6129e-04, -6.4634e-07],
+        [ 1.1295e-05,  3.4828e-03,  4.4203e-04,  ...,  2.8706e-03,
+          2.0123e-04,  2.3782e-05],
+        [ 1.2480e-06, -1.8549e-04,  2.6493e-03,  ...,  2.2888e-03,
+          3.3045e-04,  5.5760e-05]], device='cuda:0')
+Epoch 312, bias, value: tensor([-0.0284,  0.0376, -0.0031, -0.0072,  0.0248, -0.0304,  0.0074,  0.0036,
+        -0.0042, -0.0183], device='cuda:0'), grad: tensor([ 0.0194, -0.0198, -0.0478,  0.0243, -0.0481,  0.0016, -0.0094,  0.0059,
+         0.0274,  0.0464], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 311, time 214.83, cls_loss 0.5729 cls_loss_mapping 0.0038 cls_loss_causal 0.5081 re_mapping 0.0088 re_causal 0.0212 /// teacc 98.88 lr 0.00010000
+Epoch 313, weight, value: tensor([[-0.0725, -0.1364, -0.0988,  ..., -0.0429,  0.0585, -0.1103],
+        [-0.0720, -0.0916, -0.0764,  ...,  0.1006, -0.0377,  0.2245],
+        [-0.0022, -0.0247, -0.0419,  ..., -0.0085, -0.0090, -0.0802],
+        ...,
+        [ 0.0365, -0.1044,  0.1675,  ...,  0.0374, -0.1036,  0.0542],
+        [-0.0403,  0.0610, -0.1494,  ..., -0.0555,  0.0120, -0.0924],
+        [-0.0527,  0.0795,  0.0472,  ..., -0.0576, -0.0454, -0.0278]],
+       device='cuda:0'), grad: tensor([[ 2.9877e-06,  3.8290e-04, -2.6131e-04,  ...,  1.2712e-03,
+          7.6408e-03,  2.6727e-04],
+        [ 4.4629e-06,  2.7791e-05,  2.6493e-03,  ...,  6.0806e-03,
+          1.4343e-03, -4.3541e-05],
+        [ 9.0659e-05,  1.8864e-03,  5.4855e-03,  ...,  5.2071e-03,
+         -9.2392e-03,  6.8140e-04],
+        ...,
+        [ 8.8140e-06,  8.8274e-05,  1.8320e-03,  ...,  2.3308e-03,
+          8.7070e-04, -1.1139e-03],
+        [-2.2144e-03, -2.0962e-03, -6.1188e-03,  ..., -1.5926e-03,
+          1.0920e-03, -7.2908e-04],
+        [ 1.2361e-05,  1.8740e-04,  1.3752e-03,  ...,  1.4210e-03,
+          2.3651e-03,  1.1206e-03]], device='cuda:0')
+Epoch 313, bias, value: tensor([-0.0292,  0.0381, -0.0024, -0.0078,  0.0249, -0.0302,  0.0065,  0.0040,
+        -0.0039, -0.0185], device='cuda:0'), grad: tensor([ 0.0036,  0.0241,  0.0246, -0.0681, -0.0493,  0.0256,  0.0402,  0.0197,
+        -0.0419,  0.0216], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 312, time 214.93, cls_loss 0.5334 cls_loss_mapping 0.0038 cls_loss_causal 0.4632 re_mapping 0.0096 re_causal 0.0225 /// teacc 98.83 lr 0.00010000
+Epoch 314, weight, value: tensor([[-0.0737, -0.1367, -0.0990,  ..., -0.0428,  0.0585, -0.1095],
+        [-0.0715, -0.0932, -0.0775,  ...,  0.1001, -0.0372,  0.2242],
+        [-0.0012, -0.0240, -0.0410,  ..., -0.0080, -0.0075, -0.0803],
+        ...,
+        [ 0.0365, -0.1052,  0.1670,  ...,  0.0368, -0.1027,  0.0543],
+        [-0.0410,  0.0611, -0.1495,  ..., -0.0550,  0.0112, -0.0925],
+        [-0.0532,  0.0788,  0.0467,  ..., -0.0562, -0.0456, -0.0280]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.4703e-08,  1.9930e-07,  ...,  9.4995e-07,
+          3.0428e-05,  3.7365e-03],
+        [ 0.0000e+00,  2.7940e-08,  1.8831e-06,  ...,  1.0140e-05,
+          3.1114e-05,  9.1362e-04],
+        [ 0.0000e+00,  5.0105e-07,  2.6263e-07,  ...,  4.4890e-07,
+          3.4511e-05,  3.4928e-04],
+        ...,
+        [ 0.0000e+00,  6.5938e-07,  6.8918e-07,  ...,  2.7400e-06,
+         -3.0828e-04, -1.3481e-02],
+        [ 0.0000e+00, -1.0379e-05,  1.7621e-06,  ...,  5.4203e-07,
+          4.2230e-05,  1.0204e-03],
+        [ 0.0000e+00, -7.4506e-06, -8.9966e-07,  ...,  1.2875e-05,
+          3.3736e-05,  1.6575e-03]], device='cuda:0')
+Epoch 314, bias, value: tensor([-0.0287,  0.0374, -0.0024, -0.0080,  0.0249, -0.0293,  0.0054,  0.0028,
+        -0.0038, -0.0167], device='cuda:0'), grad: tensor([ 0.0169,  0.0199,  0.0145, -0.0149, -0.0087, -0.0464,  0.0177, -0.0341,
+         0.0177,  0.0174], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 313, time 214.51, cls_loss 0.5423 cls_loss_mapping 0.0028 cls_loss_causal 0.4743 re_mapping 0.0093 re_causal 0.0220 /// teacc 98.87 lr 0.00010000
+Epoch 315, weight, value: tensor([[-7.3882e-02, -1.3584e-01, -9.9880e-02,  ..., -4.2358e-02,
+          5.8917e-02, -1.0793e-01],
+        [-7.2051e-02, -9.0594e-02, -7.8172e-02,  ...,  1.0080e-01,
+         -3.4654e-02,  2.2368e-01],
+        [-1.0736e-04, -2.4511e-02, -4.0650e-02,  ..., -7.5537e-03,
+         -7.2541e-03, -8.0188e-02],
+        ...,
+        [ 3.7215e-02, -1.0462e-01,  1.6823e-01,  ...,  3.6740e-02,
+         -1.0393e-01,  5.4984e-02],
+        [-4.1482e-02,  6.0425e-02, -1.5096e-01,  ..., -5.5579e-02,
+          1.2466e-02, -9.3170e-02],
+        [-5.3299e-02,  7.9450e-02,  4.6068e-02,  ..., -5.5345e-02,
+         -4.5439e-02, -2.7753e-02]], device='cuda:0'), grad: tensor([[ 4.9067e-04,  6.7282e-04,  1.6661e-03,  ...,  7.2441e-03,
+          1.0383e-04,  1.1988e-03],
+        [ 9.3222e-05,  5.0873e-05,  2.4204e-03,  ...,  1.2770e-03,
+          7.8753e-06,  8.1253e-04],
+        [-1.1045e-04,  3.1996e-04,  1.9464e-03,  ...,  3.3588e-03,
+          4.0710e-05,  1.3037e-03],
+        ...,
+        [-9.6703e-04,  5.3048e-05,  1.3990e-03,  ...,  1.2150e-03,
+          6.6496e-06,  1.0386e-03],
+        [ 4.1461e-04,  7.0381e-04,  1.5831e-03,  ...,  3.8967e-03,
+          1.0109e-04,  1.1749e-03],
+        [ 2.6727e-04, -8.7357e-04, -6.5651e-03,  ..., -8.0261e-03,
+          3.8326e-05, -1.7967e-03]], device='cuda:0')
+Epoch 315, bias, value: tensor([-0.0286,  0.0387, -0.0020, -0.0075,  0.0240, -0.0289,  0.0041,  0.0025,
+        -0.0047, -0.0161], device='cuda:0'), grad: tensor([ 0.0427, -0.0065,  0.0210, -0.0019,  0.0167, -0.0047, -0.0084, -0.0083,
+         0.0241, -0.0747], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 314, time 215.10, cls_loss 0.5412 cls_loss_mapping 0.0038 cls_loss_causal 0.4709 re_mapping 0.0093 re_causal 0.0217 /// teacc 98.93 lr 0.00010000
+Epoch 316, weight, value: tensor([[-0.0739, -0.1364, -0.1015,  ..., -0.0416,  0.0588, -0.1088],
+        [-0.0733, -0.0904, -0.0786,  ...,  0.1007, -0.0344,  0.2232],
+        [ 0.0010, -0.0241, -0.0397,  ..., -0.0081, -0.0073, -0.0802],
+        ...,
+        [ 0.0366, -0.1047,  0.1676,  ...,  0.0358, -0.1046,  0.0550],
+        [-0.0398,  0.0611, -0.1505,  ..., -0.0549,  0.0120, -0.0936],
+        [-0.0539,  0.0794,  0.0469,  ..., -0.0555, -0.0451, -0.0278]],
+       device='cuda:0'), grad: tensor([[-9.0647e-04,  6.9104e-07,  2.9296e-05,  ..., -3.0556e-03,
+          1.0282e-05,  3.4213e-05],
+        [ 4.2105e-04,  3.0398e-05,  2.3353e-04,  ..., -1.6565e-03,
+         -6.9857e-05,  8.8587e-06],
+        [ 3.2330e-04,  1.1355e-05,  2.3830e-04,  ...,  9.3555e-04,
+          2.1726e-05, -2.2769e-04],
+        ...,
+        [ 3.5119e-04,  8.3912e-07, -6.5613e-03,  ...,  1.2274e-03,
+          1.9222e-05, -1.2085e-05],
+        [ 3.6287e-04,  1.1623e-04,  1.4341e-04,  ...,  1.2245e-03,
+          1.6391e-05,  4.9084e-05],
+        [ 3.6454e-04,  3.4273e-06,  3.4409e-03,  ...,  1.7118e-03,
+          9.4950e-05,  3.3051e-05]], device='cuda:0')
+Epoch 316, bias, value: tensor([-0.0284,  0.0388, -0.0023, -0.0083,  0.0244, -0.0289,  0.0043,  0.0020,
+        -0.0041, -0.0160], device='cuda:0'), grad: tensor([-0.1007, -0.0087,  0.0252,  0.0025, -0.0083,  0.0104,  0.0166,  0.0057,
+         0.0208,  0.0366], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 315, time 214.63, cls_loss 0.5262 cls_loss_mapping 0.0034 cls_loss_causal 0.4462 re_mapping 0.0095 re_causal 0.0224 /// teacc 98.88 lr 0.00010000
+Epoch 317, weight, value: tensor([[-0.0733, -0.1368, -0.1009,  ..., -0.0415,  0.0582, -0.1093],
+        [-0.0738, -0.0899, -0.0778,  ...,  0.1004, -0.0343,  0.2230],
+        [ 0.0010, -0.0238, -0.0394,  ..., -0.0084, -0.0083, -0.0809],
+        ...,
+        [ 0.0361, -0.1052,  0.1677,  ...,  0.0351, -0.1049,  0.0550],
+        [-0.0403,  0.0604, -0.1508,  ..., -0.0545,  0.0129, -0.0942],
+        [-0.0528,  0.0799,  0.0466,  ..., -0.0557, -0.0451, -0.0282]],
+       device='cuda:0'), grad: tensor([[-3.3989e-03,  1.7360e-06,  7.1764e-05,  ..., -3.5305e-03,
+         -2.8286e-03, -1.9302e-03],
+        [ 2.1386e-04,  2.9746e-06,  1.5843e-04,  ...,  3.3836e-03,
+          1.2803e-04,  8.1599e-05],
+        [ 1.7285e-04, -3.0622e-06, -6.8760e-04,  ..., -8.2684e-04,
+          1.2207e-04, -5.9462e-04],
+        ...,
+        [ 2.5635e-03,  3.9376e-06,  9.3430e-06,  ...,  1.0319e-03,
+          7.4625e-05,  1.2445e-03],
+        [ 7.5817e-04,  1.1340e-05,  8.7142e-05,  ..., -2.1839e-03,
+          2.8086e-04,  4.1604e-04],
+        [-3.4084e-03,  6.3144e-07,  8.2076e-05,  ...,  3.3331e-04,
+          6.7472e-05, -1.3361e-03]], device='cuda:0')
+Epoch 317, bias, value: tensor([-0.0284,  0.0390, -0.0030, -0.0070,  0.0239, -0.0292,  0.0046,  0.0021,
+        -0.0041, -0.0165], device='cuda:0'), grad: tensor([-0.0054,  0.0350, -0.0134, -0.0079,  0.0022, -0.0437,  0.0271,  0.0115,
+        -0.0065,  0.0011], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 316, time 214.66, cls_loss 0.5303 cls_loss_mapping 0.0038 cls_loss_causal 0.4633 re_mapping 0.0091 re_causal 0.0205 /// teacc 98.83 lr 0.00010000
+Epoch 318, weight, value: tensor([[-0.0722, -0.1372, -0.1011,  ..., -0.0405,  0.0584, -0.1085],
+        [-0.0742, -0.0884, -0.0778,  ...,  0.1002, -0.0327,  0.2218],
+        [ 0.0007, -0.0245, -0.0401,  ..., -0.0086, -0.0088, -0.0810],
+        ...,
+        [ 0.0365, -0.1061,  0.1669,  ...,  0.0344, -0.1060,  0.0556],
+        [-0.0401,  0.0606, -0.1506,  ..., -0.0546,  0.0133, -0.0947],
+        [-0.0531,  0.0795,  0.0475,  ..., -0.0553, -0.0457, -0.0281]],
+       device='cuda:0'), grad: tensor([[ 1.9208e-05,  8.5878e-04,  9.5844e-04,  ...,  1.9646e-03,
+          5.2500e-04,  1.8431e-06],
+        [ 2.7418e-05,  3.8648e-04,  6.1655e-04,  ...,  2.5253e-03,
+          2.6464e-04,  7.8440e-05],
+        [-3.7551e-05,  4.7851e-04,  4.5943e-04,  ...,  1.0872e-03,
+          1.3220e-04,  5.7101e-05],
+        ...,
+        [ 1.9278e-06,  7.4208e-05, -3.0175e-05,  ..., -3.0575e-03,
+          3.7730e-05,  2.5496e-05],
+        [ 3.9697e-05, -6.6519e-04,  9.2554e-04,  ...,  1.3857e-03,
+          5.1689e-04,  7.7784e-06],
+        [ 2.4904e-06,  3.0518e-04, -1.5621e-03,  ...,  8.0681e-04,
+          6.8724e-05, -1.5664e-04]], device='cuda:0')
+Epoch 318, bias, value: tensor([-0.0276,  0.0388, -0.0042, -0.0067,  0.0240, -0.0299,  0.0048,  0.0032,
+        -0.0041, -0.0167], device='cuda:0'), grad: tensor([-0.0098, -0.0036,  0.0033,  0.0043,  0.0197,  0.0123, -0.0093, -0.0071,
+        -0.0181,  0.0082], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 317, time 214.66, cls_loss 0.5291 cls_loss_mapping 0.0027 cls_loss_causal 0.4678 re_mapping 0.0094 re_causal 0.0219 /// teacc 98.85 lr 0.00010000
+Epoch 319, weight, value: tensor([[-0.0723, -0.1371, -0.0998,  ..., -0.0421,  0.0581, -0.1091],
+        [-0.0739, -0.0888, -0.0787,  ...,  0.1006, -0.0335,  0.2221],
+        [ 0.0007, -0.0255, -0.0402,  ..., -0.0083, -0.0084, -0.0815],
+        ...,
+        [ 0.0362, -0.1067,  0.1670,  ...,  0.0341, -0.1076,  0.0556],
+        [-0.0401,  0.0611, -0.1507,  ..., -0.0555,  0.0140, -0.0952],
+        [-0.0530,  0.0782,  0.0478,  ..., -0.0557, -0.0463, -0.0275]],
+       device='cuda:0'), grad: tensor([[-4.9591e-04, -2.6035e-04,  1.3925e-05,  ...,  5.0850e-03,
+         -2.9430e-03,  1.2839e-04],
+        [ 1.9625e-05,  6.8605e-05,  1.4353e-04,  ...,  1.6260e-03,
+         -7.4625e-04, -3.8099e-04],
+        [ 1.7536e-04,  4.6396e-04,  9.4533e-05,  ...,  1.3218e-03,
+          1.1206e-03,  4.0740e-05],
+        ...,
+        [ 2.9668e-05,  4.8310e-05, -2.3961e-04,  ..., -9.2163e-03,
+         -7.8678e-04,  1.1402e-04],
+        [-2.2165e-07, -1.5554e-03,  8.2672e-05,  ..., -4.6349e-03,
+          5.2691e-04, -3.9563e-06],
+        [ 9.7334e-05,  1.7083e-04,  6.8903e-05,  ...,  1.2789e-03,
+          6.3848e-04,  6.7353e-05]], device='cuda:0')
+Epoch 319, bias, value: tensor([-0.0279,  0.0382, -0.0043, -0.0054,  0.0244, -0.0293,  0.0048,  0.0031,
+        -0.0046, -0.0174], device='cuda:0'), grad: tensor([ 0.0305, -0.0092,  0.0214,  0.0222,  0.0034,  0.0074, -0.0105, -0.0749,
+        -0.0273,  0.0370], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 318, time 214.67, cls_loss 0.5367 cls_loss_mapping 0.0027 cls_loss_causal 0.4680 re_mapping 0.0096 re_causal 0.0217 /// teacc 98.84 lr 0.00010000
+Epoch 320, weight, value: tensor([[-0.0713, -0.1383, -0.0995,  ..., -0.0432,  0.0578, -0.1096],
+        [-0.0745, -0.0876, -0.0796,  ...,  0.1013, -0.0346,  0.2227],
+        [ 0.0007, -0.0273, -0.0409,  ..., -0.0063, -0.0082, -0.0817],
+        ...,
+        [ 0.0367, -0.1076,  0.1668,  ...,  0.0333, -0.1094,  0.0558],
+        [-0.0404,  0.0613, -0.1510,  ..., -0.0542,  0.0136, -0.0955],
+        [-0.0531,  0.0789,  0.0485,  ..., -0.0568, -0.0460, -0.0286]],
+       device='cuda:0'), grad: tensor([[ 2.8417e-05,  1.1486e-04, -1.7405e-03,  ..., -4.1246e-04,
+         -4.5276e-04, -1.7750e-04],
+        [-2.7731e-05,  6.9499e-05,  9.2030e-04,  ...,  2.4261e-03,
+          1.3742e-03,  4.7541e-04],
+        [ 1.9634e-04,  4.7255e-04,  1.1721e-03,  ..., -7.4387e-03,
+         -1.5965e-03,  6.6662e-04],
+        ...,
+        [ 1.1422e-05,  3.8872e-03, -9.2077e-04,  ...,  2.9163e-03,
+          6.1703e-04,  4.8637e-03],
+        [-1.6356e-04, -4.2992e-03,  3.3736e-04,  ...,  1.4305e-03,
+          9.6416e-04,  4.1699e-04],
+        [ 1.3344e-05,  1.9968e-04,  5.7983e-04,  ...,  1.0595e-03,
+          8.3780e-04,  4.9305e-04]], device='cuda:0')
+Epoch 320, bias, value: tensor([-0.0292,  0.0390, -0.0035, -0.0050,  0.0235, -0.0301,  0.0053,  0.0027,
+        -0.0035, -0.0177], device='cuda:0'), grad: tensor([ 0.0073,  0.0232, -0.0161, -0.0335,  0.0197,  0.0321, -0.0373,  0.0239,
+        -0.0027, -0.0165], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 319, time 214.57, cls_loss 0.5736 cls_loss_mapping 0.0027 cls_loss_causal 0.5084 re_mapping 0.0095 re_causal 0.0220 /// teacc 98.79 lr 0.00010000
+Epoch 321, weight, value: tensor([[-0.0718, -0.1382, -0.0996,  ..., -0.0443,  0.0583, -0.1090],
+        [-0.0763, -0.0871, -0.0801,  ...,  0.1003, -0.0336,  0.2236],
+        [ 0.0017, -0.0276, -0.0397,  ..., -0.0034, -0.0083, -0.0819],
+        ...,
+        [ 0.0376, -0.1077,  0.1669,  ...,  0.0324, -0.1095,  0.0549],
+        [-0.0393,  0.0603, -0.1506,  ..., -0.0539,  0.0130, -0.0959],
+        [-0.0535,  0.0791,  0.0482,  ..., -0.0577, -0.0473, -0.0275]],
+       device='cuda:0'), grad: tensor([[ 1.6868e-05,  2.3556e-04,  2.1470e-04,  ...,  4.4250e-04,
+         -6.6109e-03,  1.5104e-04],
+        [ 1.4520e-04,  4.3344e-04,  1.8942e-04,  ...,  1.3697e-04,
+          3.7217e-04, -7.5340e-04],
+        [ 1.1313e-04,  1.0805e-03,  4.4870e-04,  ...,  3.8261e-03,
+          5.6534e-03,  1.8322e-04],
+        ...,
+        [ 2.3067e-04,  5.5170e-04, -7.5769e-04,  ..., -2.4915e-04,
+          1.9932e-04,  5.0545e-04],
+        [ 5.6839e-04,  1.5621e-03,  8.0919e-04,  ...,  1.9703e-03,
+          2.8682e-04,  3.1734e-04],
+        [-8.4686e-04, -2.3327e-03,  5.5170e-04,  ..., -4.5991e-04,
+          2.5702e-04,  1.2994e-04]], device='cuda:0')
+Epoch 321, bias, value: tensor([-0.0298,  0.0389, -0.0019, -0.0056,  0.0233, -0.0297,  0.0053,  0.0031,
+        -0.0041, -0.0182], device='cuda:0'), grad: tensor([-0.0119,  0.0091,  0.0319, -0.0358, -0.0158,  0.0162,  0.0174, -0.0199,
+         0.0150, -0.0062], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 320, time 214.25, cls_loss 0.5546 cls_loss_mapping 0.0037 cls_loss_causal 0.4972 re_mapping 0.0096 re_causal 0.0219 /// teacc 98.84 lr 0.00010000
+Epoch 322, weight, value: tensor([[-0.0714, -0.1397, -0.1003,  ..., -0.0417,  0.0588, -0.1092],
+        [-0.0760, -0.0872, -0.0806,  ...,  0.1001, -0.0341,  0.2249],
+        [ 0.0010, -0.0279, -0.0400,  ..., -0.0041, -0.0068, -0.0835],
+        ...,
+        [ 0.0384, -0.1081,  0.1680,  ...,  0.0325, -0.1083,  0.0546],
+        [-0.0384,  0.0604, -0.1501,  ..., -0.0546,  0.0121, -0.0967],
+        [-0.0550,  0.0797,  0.0478,  ..., -0.0579, -0.0471, -0.0275]],
+       device='cuda:0'), grad: tensor([[ 3.3714e-06,  9.2164e-06,  1.4983e-05,  ...,  6.6280e-04,
+          2.4214e-08,  7.9107e-04],
+        [ 1.8077e-06,  4.5039e-06,  1.0543e-05,  ..., -1.3794e-02,
+          5.5879e-09, -6.9084e-03],
+        [ 5.6207e-05,  6.2764e-05,  1.2493e-04,  ...,  1.3380e-03,
+          4.6566e-08,  1.1005e-03],
+        ...,
+        [ 3.8128e-06,  6.5006e-06, -3.6087e-03,  ...,  9.4461e-04,
+          0.0000e+00, -1.5945e-02],
+        [-2.4331e-04, -4.6968e-04, -1.8191e-04,  ...,  3.6831e-03,
+          1.7881e-07,  1.3142e-03],
+        [ 5.3942e-06,  2.0593e-05,  3.5954e-03,  ..., -8.0967e-04,
+          7.4506e-09,  1.7593e-02]], device='cuda:0')
+Epoch 322, bias, value: tensor([-0.0282,  0.0387, -0.0018, -0.0055,  0.0233, -0.0306,  0.0049,  0.0022,
+        -0.0045, -0.0171], device='cuda:0'), grad: tensor([-0.0105, -0.0434,  0.0177,  0.0166,  0.0162, -0.0153,  0.0279, -0.0116,
+         0.0242, -0.0217], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 321, time 214.87, cls_loss 0.5378 cls_loss_mapping 0.0035 cls_loss_causal 0.4724 re_mapping 0.0092 re_causal 0.0216 /// teacc 98.86 lr 0.00010000
+Epoch 323, weight, value: tensor([[-0.0703, -0.1402, -0.1006,  ..., -0.0414,  0.0593, -0.1097],
+        [-0.0756, -0.0885, -0.0819,  ...,  0.0999, -0.0364,  0.2254],
+        [ 0.0005, -0.0271, -0.0404,  ..., -0.0046, -0.0072, -0.0833],
+        ...,
+        [ 0.0385, -0.1073,  0.1689,  ...,  0.0331, -0.1071,  0.0552],
+        [-0.0385,  0.0603, -0.1504,  ..., -0.0547,  0.0126, -0.0972],
+        [-0.0558,  0.0791,  0.0478,  ..., -0.0577, -0.0477, -0.0280]],
+       device='cuda:0'), grad: tensor([[ 7.8344e-04, -3.9172e-04,  5.2643e-04,  ...,  7.9727e-04,
+          2.1191e-03,  5.0277e-05],
+        [ 6.1131e-04,  5.4855e-07,  5.1403e-04,  ...,  2.1378e-02,
+          2.0790e-04,  1.0341e-04],
+        [-5.2986e-03,  2.1711e-05,  9.5224e-04,  ..., -2.3315e-02,
+         -3.9276e-02,  3.0756e-04],
+        ...,
+        [ 3.2139e-04, -1.7047e-05,  5.2071e-04,  ...,  2.0003e-04,
+          4.0936e-04, -1.0529e-03],
+        [ 1.0328e-03,  4.2647e-05, -7.9117e-03,  ..., -4.0932e-03,
+          2.1973e-02,  8.1182e-05],
+        [ 8.2970e-04,  3.5024e-04,  1.6365e-03,  ...,  1.1187e-03,
+          1.5011e-03,  1.1320e-03]], device='cuda:0')
+Epoch 323, bias, value: tensor([-0.0277,  0.0386, -0.0022, -0.0064,  0.0230, -0.0307,  0.0057,  0.0023,
+        -0.0034, -0.0177], device='cuda:0'), grad: tensor([-0.0076,  0.0458, -0.0632, -0.0058, -0.0288,  0.0220,  0.0331,  0.0235,
+        -0.0501,  0.0313], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 322, time 214.48, cls_loss 0.5654 cls_loss_mapping 0.0034 cls_loss_causal 0.4951 re_mapping 0.0090 re_causal 0.0213 /// teacc 98.83 lr 0.00010000
+Epoch 324, weight, value: tensor([[-0.0723, -0.1364, -0.0995,  ..., -0.0400,  0.0589, -0.1095],
+        [-0.0768, -0.0869, -0.0818,  ...,  0.1000, -0.0352,  0.2258],
+        [ 0.0020, -0.0261, -0.0403,  ..., -0.0051, -0.0065, -0.0837],
+        ...,
+        [ 0.0395, -0.1086,  0.1690,  ...,  0.0337, -0.1071,  0.0554],
+        [-0.0371,  0.0593, -0.1509,  ..., -0.0551,  0.0130, -0.0980],
+        [-0.0576,  0.0786,  0.0482,  ..., -0.0584, -0.0482, -0.0276]],
+       device='cuda:0'), grad: tensor([[-3.5858e-03,  2.6112e-03,  1.1466e-05,  ...,  2.6836e-03,
+          1.5764e-03,  7.2084e-07],
+        [ 3.3474e-04,  4.6778e-04,  1.4789e-05,  ...,  7.7295e-04,
+          1.5221e-03, -2.4531e-06],
+        [-2.2163e-03, -1.6403e-03, -1.0052e-03,  ...,  3.6831e-03,
+          1.5821e-03,  4.8801e-06],
+        ...,
+        [ 1.4267e-03,  7.7772e-04,  8.7142e-05,  ...,  2.1572e-03,
+          6.4230e-04, -4.3797e-04],
+        [ 7.2622e-04,  2.8753e-04,  1.4842e-04,  ...,  6.6805e-04,
+          3.7789e-04,  8.1677e-07],
+        [ 4.8161e-04,  1.1122e-04,  7.8380e-05,  ...,  1.9729e-04,
+          9.0456e-04,  1.4961e-04]], device='cuda:0')
+Epoch 324, bias, value: tensor([-0.0273,  0.0385, -0.0022, -0.0066,  0.0227, -0.0302,  0.0056,  0.0028,
+        -0.0039, -0.0178], device='cuda:0'), grad: tensor([-0.0067,  0.0095,  0.0565, -0.0278, -0.0186, -0.0215, -0.0148,  0.0108,
+         0.0074,  0.0051], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 323, time 214.60, cls_loss 0.5348 cls_loss_mapping 0.0025 cls_loss_causal 0.4616 re_mapping 0.0095 re_causal 0.0211 /// teacc 98.80 lr 0.00010000
+Epoch 325, weight, value: tensor([[-0.0722, -0.1371, -0.0993,  ..., -0.0414,  0.0594, -0.1091],
+        [-0.0792, -0.0878, -0.0823,  ...,  0.1006, -0.0357,  0.2263],
+        [ 0.0018, -0.0257, -0.0403,  ..., -0.0052, -0.0079, -0.0831],
+        ...,
+        [ 0.0396, -0.1080,  0.1696,  ...,  0.0335, -0.1081,  0.0553],
+        [-0.0368,  0.0602, -0.1515,  ..., -0.0556,  0.0130, -0.0978],
+        [-0.0557,  0.0782,  0.0479,  ..., -0.0573, -0.0470, -0.0277]],
+       device='cuda:0'), grad: tensor([[ 1.6892e-04,  9.1970e-05,  1.6868e-04,  ...,  3.9792e-04,
+         -2.4509e-04,  3.0234e-05],
+        [ 2.9063e-04,  2.1303e-04,  4.0894e-03,  ...,  5.9843e-04,
+          3.2902e-05,  3.3021e-05],
+        [ 1.1406e-03,  1.1978e-03,  2.4757e-03,  ...,  2.1839e-03,
+          5.1826e-05,  2.8682e-04],
+        ...,
+        [ 3.6287e-04,  5.1641e-04, -5.6190e-03,  ...,  1.0471e-03,
+          2.7716e-05,  7.0453e-05],
+        [ 9.5177e-04,  6.3419e-04,  2.8210e-03,  ...,  1.2579e-03,
+          4.3243e-05,  6.7830e-05],
+        [ 1.4663e-04, -1.8701e-05,  1.6117e-04,  ...,  2.3699e-04,
+          2.4617e-05, -5.2899e-05]], device='cuda:0')
+Epoch 325, bias, value: tensor([-0.0277,  0.0386, -0.0013, -0.0064,  0.0222, -0.0304,  0.0056,  0.0014,
+        -0.0045, -0.0161], device='cuda:0'), grad: tensor([-0.0134, -0.0049,  0.0234, -0.0177,  0.0126,  0.0030,  0.0245, -0.0281,
+         0.0190, -0.0185], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 324, time 214.48, cls_loss 0.5519 cls_loss_mapping 0.0027 cls_loss_causal 0.4844 re_mapping 0.0091 re_causal 0.0213 /// teacc 98.68 lr 0.00010000
+Epoch 326, weight, value: tensor([[-0.0696, -0.1379, -0.1001,  ..., -0.0410,  0.0599, -0.1086],
+        [-0.0797, -0.0877, -0.0827,  ...,  0.0999, -0.0340,  0.2267],
+        [ 0.0013, -0.0263, -0.0424,  ..., -0.0064, -0.0083, -0.0838],
+        ...,
+        [ 0.0376, -0.1081,  0.1709,  ...,  0.0341, -0.1085,  0.0548],
+        [-0.0373,  0.0593, -0.1513,  ..., -0.0559,  0.0124, -0.0990],
+        [-0.0547,  0.0777,  0.0468,  ..., -0.0570, -0.0467, -0.0289]],
+       device='cuda:0'), grad: tensor([[ 6.0424e-06,  1.7777e-05,  6.2525e-05,  ...,  5.5027e-04,
+          3.3522e-04,  1.2195e-04],
+        [ 4.9546e-06,  2.7344e-05,  4.9174e-05,  ..., -1.6756e-03,
+         -6.1417e-04, -1.5378e-04],
+        [ 1.2219e-04,  2.2495e-04,  2.9230e-04,  ..., -1.9765e-04,
+         -2.2354e-03,  2.2018e-04],
+        ...,
+        [ 3.9172e-04,  5.3215e-04,  2.6684e-03,  ...,  1.6584e-03,
+          4.7445e-04,  3.5095e-04],
+        [-1.3609e-03, -1.6870e-03, -2.1591e-03,  ...,  3.5596e-04,
+          2.9540e-04, -3.9887e-04],
+        [ 7.2539e-05,  1.0860e-04, -1.1120e-03,  ..., -3.8643e-03,
+          3.1924e-04,  9.4748e-04]], device='cuda:0')
+Epoch 326, bias, value: tensor([-0.0269,  0.0390, -0.0023, -0.0071,  0.0211, -0.0288,  0.0054,  0.0025,
+        -0.0054, -0.0159], device='cuda:0'), grad: tensor([ 0.0275, -0.0425, -0.0341, -0.0009,  0.0162,  0.0037,  0.0127,  0.0449,
+         0.0141, -0.0416], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 325, time 214.77, cls_loss 0.5389 cls_loss_mapping 0.0029 cls_loss_causal 0.4814 re_mapping 0.0093 re_causal 0.0226 /// teacc 98.79 lr 0.00010000
+Epoch 327, weight, value: tensor([[-0.0689, -0.1384, -0.1004,  ..., -0.0395,  0.0590, -0.1086],
+        [-0.0794, -0.0876, -0.0819,  ...,  0.1009, -0.0345,  0.2271],
+        [ 0.0009, -0.0269, -0.0422,  ..., -0.0064, -0.0079, -0.0823],
+        ...,
+        [ 0.0380, -0.1092,  0.1698,  ...,  0.0329, -0.1093,  0.0552],
+        [-0.0363,  0.0590, -0.1512,  ..., -0.0548,  0.0118, -0.0986],
+        [-0.0543,  0.0782,  0.0466,  ..., -0.0570, -0.0469, -0.0303]],
+       device='cuda:0'), grad: tensor([[ 3.0065e-04,  1.6451e-04,  3.4571e-04,  ..., -7.5722e-04,
+          4.4912e-05,  8.2779e-04],
+        [ 3.1109e-03,  2.6774e-04, -3.5954e-04,  ...,  1.4000e-02,
+          2.3648e-05,  8.6927e-04],
+        [ 3.5357e-04,  6.6566e-04,  2.0905e-03,  ...,  1.1797e-03,
+          1.2529e-04,  2.5272e-03],
+        ...,
+        [ 1.4229e-03,  1.5755e-03, -3.9876e-05,  ..., -3.2735e-04,
+          7.6675e-04, -2.9540e-04],
+        [-6.2294e-03, -7.8917e-04,  6.4611e-04,  ..., -1.1406e-02,
+          9.8825e-05,  9.8896e-04],
+        [ 8.0633e-04, -2.3441e-03, -1.2341e-03,  ...,  2.3155e-03,
+          1.9681e-04, -2.6330e-05]], device='cuda:0')
+Epoch 327, bias, value: tensor([-0.0272,  0.0406, -0.0013, -0.0075,  0.0222, -0.0299,  0.0045,  0.0015,
+        -0.0055, -0.0158], device='cuda:0'), grad: tensor([-0.0079,  0.0475,  0.0215,  0.0343, -0.0223,  0.0051, -0.0388,  0.0027,
+        -0.0565,  0.0144], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 326, time 214.46, cls_loss 0.5098 cls_loss_mapping 0.0027 cls_loss_causal 0.4442 re_mapping 0.0095 re_causal 0.0218 /// teacc 98.78 lr 0.00010000
+Epoch 328, weight, value: tensor([[-0.0682, -0.1390, -0.1004,  ..., -0.0394,  0.0596, -0.1081],
+        [-0.0799, -0.0878, -0.0821,  ...,  0.1007, -0.0343,  0.2265],
+        [ 0.0013, -0.0263, -0.0423,  ..., -0.0069, -0.0081, -0.0829],
+        ...,
+        [ 0.0373, -0.1099,  0.1699,  ...,  0.0322, -0.1093,  0.0557],
+        [-0.0359,  0.0583, -0.1512,  ..., -0.0535,  0.0107, -0.0988],
+        [-0.0539,  0.0794,  0.0468,  ..., -0.0560, -0.0462, -0.0310]],
+       device='cuda:0'), grad: tensor([[ 3.2163e-04,  2.3283e-08,  3.1088e-06,  ...,  9.6464e-04,
+          8.6498e-04,  1.0389e-04],
+        [ 9.5034e-04,  3.8184e-08,  1.5207e-05,  ...,  8.1730e-04,
+          7.3481e-04,  2.8920e-04],
+        [ 3.2377e-04,  8.6334e-07,  7.0095e-05,  ...,  7.6628e-04,
+          7.6103e-04,  1.3947e-04],
+        ...,
+        [-1.0101e-02,  8.3819e-09, -2.4605e-04,  ...,  4.7302e-04,
+          5.8937e-04, -3.2959e-03],
+        [ 9.2506e-05,  7.7300e-08,  8.0541e-06,  ..., -3.0098e-03,
+         -1.9531e-03,  3.4988e-05],
+        [ 3.9940e-03,  4.7497e-08,  1.4178e-05,  ...,  1.0719e-03,
+          1.2865e-03,  1.2484e-03]], device='cuda:0')
+Epoch 328, bias, value: tensor([-0.0276,  0.0408, -0.0013, -0.0070,  0.0216, -0.0301,  0.0043,  0.0018,
+        -0.0054, -0.0159], device='cuda:0'), grad: tensor([ 0.0230, -0.0054,  0.0227, -0.0416, -0.0211, -0.0041,  0.0276,  0.0049,
+        -0.0438,  0.0379], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 327, time 214.24, cls_loss 0.5267 cls_loss_mapping 0.0026 cls_loss_causal 0.4683 re_mapping 0.0091 re_causal 0.0213 /// teacc 98.81 lr 0.00010000
+Epoch 329, weight, value: tensor([[-0.0677, -0.1397, -0.0997,  ..., -0.0389,  0.0584, -0.1093],
+        [-0.0798, -0.0883, -0.0837,  ...,  0.1006, -0.0346,  0.2261],
+        [ 0.0016, -0.0264, -0.0434,  ..., -0.0068, -0.0075, -0.0838],
+        ...,
+        [ 0.0369, -0.1101,  0.1692,  ...,  0.0324, -0.1105,  0.0565],
+        [-0.0353,  0.0582, -0.1506,  ..., -0.0531,  0.0098, -0.0993],
+        [-0.0534,  0.0797,  0.0482,  ..., -0.0547, -0.0474, -0.0295]],
+       device='cuda:0'), grad: tensor([[ 1.3387e-04,  4.8113e-04,  1.1049e-05,  ...,  8.7643e-04,
+          7.4327e-05,  2.0862e-04],
+        [-1.5221e-03, -2.3842e-03, -9.8610e-04,  ..., -8.1711e-03,
+         -6.4373e-04,  9.0897e-05],
+        [ 2.0027e-03,  3.1700e-03,  9.2840e-04,  ...,  9.4681e-03,
+          8.2159e-04,  2.5177e-04],
+        ...,
+        [ 1.6201e-04, -2.2755e-03, -8.4281e-05,  ..., -4.4861e-03,
+         -1.1432e-04, -3.2063e-03],
+        [ 3.9077e-04,  3.7432e-04,  8.5216e-07,  ...,  1.3885e-03,
+          1.3828e-04,  4.1604e-04],
+        [-4.9591e-03,  4.6206e-04,  7.1585e-05,  ..., -3.5076e-03,
+         -1.1263e-03,  7.4768e-04]], device='cuda:0')
+Epoch 329, bias, value: tensor([-0.0278,  0.0412, -0.0023, -0.0067,  0.0214, -0.0296,  0.0045,  0.0017,
+        -0.0053, -0.0159], device='cuda:0'), grad: tensor([ 0.0084, -0.0204,  0.0372,  0.0158,  0.0213, -0.0232,  0.0086, -0.0512,
+         0.0102, -0.0067], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 328, time 214.46, cls_loss 0.5344 cls_loss_mapping 0.0032 cls_loss_causal 0.4654 re_mapping 0.0091 re_causal 0.0218 /// teacc 98.81 lr 0.00010000
+Epoch 330, weight, value: tensor([[-0.0691, -0.1397, -0.1000,  ..., -0.0411,  0.0587, -0.1099],
+        [-0.0788, -0.0884, -0.0842,  ...,  0.1011, -0.0346,  0.2268],
+        [ 0.0029, -0.0260, -0.0447,  ..., -0.0055, -0.0074, -0.0843],
+        ...,
+        [ 0.0379, -0.1101,  0.1705,  ...,  0.0342, -0.1112,  0.0576],
+        [-0.0351,  0.0596, -0.1509,  ..., -0.0532,  0.0105, -0.1011],
+        [-0.0538,  0.0798,  0.0484,  ..., -0.0550, -0.0483, -0.0309]],
+       device='cuda:0'), grad: tensor([[ 4.1932e-05,  2.9016e-04,  6.2132e-04,  ...,  2.5005e-03,
+          2.0504e-04,  3.2157e-05],
+        [ 2.6971e-05,  1.3876e-04,  5.4646e-04,  ...,  1.4496e-03,
+          1.1766e-04, -6.1607e-04],
+        [-1.0319e-03, -3.9887e-04, -2.7442e-04,  ..., -3.9935e-04,
+          1.2106e-04, -5.2023e-04],
+        ...,
+        [ 1.9646e-04,  2.3103e-04, -1.2695e-02,  ...,  2.0161e-03,
+          1.8430e-04, -6.5498e-03],
+        [ 5.9366e-04, -2.9087e-03, -3.6297e-03,  ..., -1.2253e-02,
+         -1.6212e-03,  4.8447e-04],
+        [ 3.6925e-05,  3.9601e-04,  1.3367e-02,  ...,  4.1428e-03,
+          2.1935e-04,  6.7558e-03]], device='cuda:0')
+Epoch 330, bias, value: tensor([-0.0291,  0.0411, -0.0020, -0.0071,  0.0217, -0.0292,  0.0043,  0.0032,
+        -0.0051, -0.0164], device='cuda:0'), grad: tensor([ 0.0229,  0.0243,  0.0140, -0.0035, -0.0084,  0.0229, -0.0011, -0.0235,
+        -0.0911,  0.0436], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 329, time 214.44, cls_loss 0.5505 cls_loss_mapping 0.0034 cls_loss_causal 0.4836 re_mapping 0.0088 re_causal 0.0208 /// teacc 98.57 lr 0.00010000
+Epoch 331, weight, value: tensor([[-0.0699, -0.1401, -0.1006,  ..., -0.0417,  0.0586, -0.1102],
+        [-0.0790, -0.0886, -0.0841,  ...,  0.1016, -0.0346,  0.2278],
+        [ 0.0022, -0.0261, -0.0450,  ..., -0.0044, -0.0077, -0.0832],
+        ...,
+        [ 0.0377, -0.1109,  0.1709,  ...,  0.0345, -0.1122,  0.0564],
+        [-0.0349,  0.0600, -0.1514,  ..., -0.0541,  0.0116, -0.1013],
+        [-0.0534,  0.0796,  0.0473,  ..., -0.0559, -0.0488, -0.0305]],
+       device='cuda:0'), grad: tensor([[ 7.3481e-07,  4.0412e-04,  4.2248e-04,  ...,  1.3227e-03,
+          8.6367e-05,  1.7548e-04],
+        [ 1.0645e-06,  6.0368e-04,  8.0252e-04,  ..., -6.9666e-04,
+          1.8394e-04, -1.3809e-02],
+        [-1.5467e-05, -1.8473e-03, -2.4414e-03,  ...,  2.6932e-03,
+          1.8620e-04,  2.7061e-04],
+        ...,
+        [ 7.5363e-06,  1.5926e-03,  1.7891e-03,  ...,  3.0117e-03,
+          2.1780e-04,  4.6873e-04],
+        [ 3.8333e-06,  1.4868e-03,  1.5049e-03,  ...,  3.0956e-03,
+          2.3162e-04,  6.9284e-04],
+        [ 4.0047e-08, -1.2253e-02, -1.7233e-03,  ..., -5.0316e-03,
+         -1.4410e-03, -1.3762e-03]], device='cuda:0')
+Epoch 331, bias, value: tensor([-0.0284,  0.0410, -0.0023, -0.0081,  0.0218, -0.0292,  0.0044,  0.0034,
+        -0.0049, -0.0164], device='cuda:0'), grad: tensor([ 0.0084, -0.0080, -0.0023,  0.0145,  0.0205, -0.0456, -0.0004,  0.0190,
+         0.0185, -0.0246], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 330, time 214.92, cls_loss 0.5206 cls_loss_mapping 0.0031 cls_loss_causal 0.4554 re_mapping 0.0092 re_causal 0.0215 /// teacc 98.84 lr 0.00010000
+Epoch 332, weight, value: tensor([[-0.0702, -0.1402, -0.1002,  ..., -0.0422,  0.0599, -0.1098],
+        [-0.0781, -0.0890, -0.0845,  ...,  0.1021, -0.0350,  0.2289],
+        [ 0.0029, -0.0243, -0.0433,  ..., -0.0037, -0.0076, -0.0832],
+        ...,
+        [ 0.0392, -0.1117,  0.1714,  ...,  0.0365, -0.1122,  0.0561],
+        [-0.0356,  0.0599, -0.1530,  ..., -0.0553,  0.0112, -0.1010],
+        [-0.0550,  0.0819,  0.0471,  ..., -0.0592, -0.0498, -0.0306]],
+       device='cuda:0'), grad: tensor([[-4.3793e-03,  7.5960e-04, -2.7771e-03,  ..., -1.1215e-02,
+          0.0000e+00,  1.8442e-04],
+        [ 1.4842e-04,  5.2738e-04,  1.2010e-04,  ...,  2.5749e-03,
+          0.0000e+00,  7.4267e-05],
+        [ 1.1625e-03,  1.6546e-03,  8.1253e-04,  ...,  2.2202e-03,
+          0.0000e+00, -1.0786e-03],
+        ...,
+        [ 6.2037e-04, -7.3767e-04,  1.9388e-03,  ...,  1.1358e-03,
+          0.0000e+00, -1.5318e-04],
+        [ 3.3092e-04,  3.7217e-04,  5.5981e-04,  ...,  2.1839e-03,
+          0.0000e+00,  2.3520e-04],
+        [ 3.4022e-04,  5.2595e-04,  1.1482e-03,  ...,  1.8950e-03,
+          0.0000e+00,  3.5930e-04]], device='cuda:0')
+Epoch 332, bias, value: tensor([-0.0276,  0.0412, -0.0012, -0.0086,  0.0221, -0.0291,  0.0046,  0.0033,
+        -0.0063, -0.0169], device='cuda:0'), grad: tensor([-0.0450,  0.0156,  0.0101, -0.0200,  0.0176,  0.0179, -0.0099, -0.0138,
+         0.0130,  0.0146], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 331, time 214.78, cls_loss 0.5624 cls_loss_mapping 0.0033 cls_loss_causal 0.4938 re_mapping 0.0094 re_causal 0.0225 /// teacc 98.82 lr 0.00010000
+Epoch 333, weight, value: tensor([[-0.0707, -0.1414, -0.1013,  ..., -0.0435,  0.0606, -0.1093],
+        [-0.0780, -0.0880, -0.0855,  ...,  0.1014, -0.0352,  0.2295],
+        [ 0.0037, -0.0252, -0.0444,  ..., -0.0028, -0.0082, -0.0815],
+        ...,
+        [ 0.0380, -0.1118,  0.1720,  ...,  0.0365, -0.1122,  0.0558],
+        [-0.0373,  0.0588, -0.1534,  ..., -0.0552,  0.0120, -0.1038],
+        [-0.0530,  0.0831,  0.0478,  ..., -0.0594, -0.0493, -0.0308]],
+       device='cuda:0'), grad: tensor([[ 5.5600e-07,  1.0777e-03,  3.9387e-04,  ...,  4.0932e-03,
+          1.2779e-03,  1.9894e-03],
+        [ 7.8380e-06,  5.9557e-04,  1.9658e-04,  ...,  1.9474e-03,
+          2.1553e-04,  8.1587e-04],
+        [-5.7191e-05,  8.1253e-04,  2.7776e-04,  ...,  2.9583e-03,
+         -3.1173e-05,  2.8954e-03],
+        ...,
+        [ 3.9458e-05, -2.7370e-03, -1.1587e-03,  ..., -7.3509e-03,
+         -2.0079e-06, -8.9874e-03],
+        [ 3.7011e-06, -1.4229e-03,  1.0508e-04,  ..., -6.7101e-03,
+          1.3280e-04,  8.1778e-04],
+        [ 4.0326e-07,  9.7942e-04,  7.1573e-04,  ...,  2.5215e-03,
+          2.2304e-04,  1.5297e-03]], device='cuda:0')
+Epoch 333, bias, value: tensor([-0.0286,  0.0413, -0.0014, -0.0089,  0.0218, -0.0291,  0.0049,  0.0031,
+        -0.0057, -0.0162], device='cuda:0'), grad: tensor([ 0.0215,  0.0115, -0.0117,  0.0040,  0.0129,  0.0329, -0.0030, -0.0371,
+        -0.0472,  0.0162], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 332, time 214.96, cls_loss 0.5500 cls_loss_mapping 0.0031 cls_loss_causal 0.4859 re_mapping 0.0094 re_causal 0.0224 /// teacc 98.80 lr 0.00010000
+Epoch 334, weight, value: tensor([[-0.0716, -0.1432, -0.1001,  ..., -0.0421,  0.0615, -0.1093],
+        [-0.0790, -0.0881, -0.0849,  ...,  0.1019, -0.0346,  0.2303],
+        [ 0.0039, -0.0241, -0.0451,  ..., -0.0006, -0.0084, -0.0800],
+        ...,
+        [ 0.0394, -0.1130,  0.1711,  ...,  0.0355, -0.1139,  0.0555],
+        [-0.0379,  0.0586, -0.1543,  ..., -0.0554,  0.0116, -0.1052],
+        [-0.0520,  0.0845,  0.0491,  ..., -0.0597, -0.0499, -0.0303]],
+       device='cuda:0'), grad: tensor([[ 3.4153e-05,  3.4122e-03,  1.0121e-04,  ...,  5.6696e-04,
+          8.4639e-05,  4.6768e-03],
+        [ 3.8910e-03,  6.5613e-04, -1.3387e-04,  ..., -5.7793e-04,
+          1.5251e-05,  3.7327e-03],
+        [ 1.2326e-04,  1.8196e-03,  4.3344e-04,  ...,  2.3251e-03,
+          3.2687e-04,  2.0466e-03],
+        ...,
+        [ 2.7823e-04,  1.7481e-03,  7.2539e-05,  ...,  1.3742e-03,
+          3.2306e-05,  2.8362e-03],
+        [ 1.0258e-04, -5.6419e-03,  1.0449e-04,  ..., -1.2598e-03,
+          7.6950e-05, -8.0566e-03],
+        [ 5.7697e-04, -2.2278e-03,  2.2743e-06,  ..., -1.1748e-04,
+          1.3769e-04, -1.7738e-03]], device='cuda:0')
+Epoch 334, bias, value: tensor([-0.0274,  0.0418, -0.0007, -0.0090,  0.0221, -0.0293,  0.0041,  0.0032,
+        -0.0067, -0.0165], device='cuda:0'), grad: tensor([ 0.0305, -0.0086,  0.0124,  0.0070, -0.0076,  0.0071, -0.0199,  0.0193,
+        -0.0200, -0.0202], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 333, time 214.46, cls_loss 0.5674 cls_loss_mapping 0.0028 cls_loss_causal 0.5045 re_mapping 0.0094 re_causal 0.0232 /// teacc 98.71 lr 0.00010000
+Epoch 335, weight, value: tensor([[-0.0718, -0.1441, -0.0992,  ..., -0.0410,  0.0613, -0.1110],
+        [-0.0791, -0.0884, -0.0846,  ...,  0.1018, -0.0350,  0.2302],
+        [ 0.0032, -0.0260, -0.0462,  ..., -0.0025, -0.0087, -0.0817],
+        ...,
+        [ 0.0391, -0.1133,  0.1710,  ...,  0.0362, -0.1161,  0.0558],
+        [-0.0374,  0.0602, -0.1536,  ..., -0.0552,  0.0130, -0.1056],
+        [-0.0518,  0.0845,  0.0481,  ..., -0.0608, -0.0506, -0.0286]],
+       device='cuda:0'), grad: tensor([[ 2.1648e-04,  1.8322e-04,  9.6977e-05,  ...,  1.1015e-03,
+          5.0259e-04,  3.8218e-04],
+        [ 3.4714e-04,  6.0463e-04,  1.0121e-04,  ...,  2.5463e-03,
+          1.1358e-03,  6.0606e-04],
+        [ 3.5858e-04,  3.7313e-04,  2.2852e-04,  ..., -8.6823e-03,
+          1.5383e-03,  6.4373e-04],
+        ...,
+        [-2.9049e-03,  5.9414e-04, -6.8169e-03,  ..., -9.1553e-03,
+          1.1444e-03, -3.7098e-03],
+        [-1.1854e-03, -4.5776e-03,  1.9159e-03,  ...,  8.2321e-03,
+          1.1854e-03, -5.3167e-04],
+        [ 1.5650e-03, -6.3705e-04,  2.5978e-03,  ...,  2.4643e-03,
+         -1.1299e-02,  1.4515e-03]], device='cuda:0')
+Epoch 335, bias, value: tensor([-0.0275,  0.0417, -0.0024, -0.0077,  0.0223, -0.0290,  0.0041,  0.0030,
+        -0.0059, -0.0171], device='cuda:0'), grad: tensor([ 0.0100,  0.0166,  0.0082,  0.0229, -0.0256,  0.0004, -0.0060, -0.0370,
+         0.0155, -0.0051], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 334, time 214.91, cls_loss 0.5139 cls_loss_mapping 0.0028 cls_loss_causal 0.4494 re_mapping 0.0097 re_causal 0.0226 /// teacc 98.81 lr 0.00010000
+Epoch 336, weight, value: tensor([[-0.0728, -0.1446, -0.0996,  ..., -0.0408,  0.0614, -0.1121],
+        [-0.0798, -0.0868, -0.0844,  ...,  0.1026, -0.0337,  0.2311],
+        [ 0.0033, -0.0272, -0.0469,  ..., -0.0043, -0.0089, -0.0821],
+        ...,
+        [ 0.0402, -0.1147,  0.1723,  ...,  0.0350, -0.1142,  0.0558],
+        [-0.0369,  0.0598, -0.1537,  ..., -0.0544,  0.0118, -0.1061],
+        [-0.0517,  0.0840,  0.0479,  ..., -0.0597, -0.0500, -0.0273]],
+       device='cuda:0'), grad: tensor([[ 1.5326e-03, -1.2177e-04,  2.5773e-04,  ..., -9.2850e-03,
+         -1.5068e-03, -7.7896e-03],
+        [ 1.0185e-03,  2.1970e-04,  7.5531e-04,  ...,  2.6855e-03,
+         -5.1117e-03,  1.2617e-03],
+        [ 7.0715e-04,  9.1374e-05,  1.8895e-04,  ...,  2.2049e-03,
+          2.6941e-04,  3.2854e-04],
+        ...,
+        [ 5.0402e-04, -3.8576e-04, -1.3733e-03,  ...,  2.7542e-03,
+          2.6512e-04, -1.4000e-03],
+        [ 8.9788e-04, -7.1096e-04, -2.2564e-03,  ..., -1.4496e-02,
+          4.6754e-04, -8.1682e-04],
+        [ 6.9809e-04,  4.8208e-04,  1.5593e-03,  ...,  3.0937e-03,
+          5.6791e-04,  2.0504e-03]], device='cuda:0')
+Epoch 336, bias, value: tensor([-0.0273,  0.0423, -0.0038, -0.0085,  0.0223, -0.0292,  0.0047,  0.0023,
+        -0.0050, -0.0166], device='cuda:0'), grad: tensor([-0.0011, -0.0078,  0.0145, -0.0145,  0.0198, -0.0179,  0.0406, -0.0142,
+        -0.0435,  0.0241], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 335, time 214.91, cls_loss 0.5407 cls_loss_mapping 0.0037 cls_loss_causal 0.4757 re_mapping 0.0093 re_causal 0.0213 /// teacc 98.73 lr 0.00010000
+Epoch 337, weight, value: tensor([[-0.0735, -0.1435, -0.0995,  ..., -0.0393,  0.0617, -0.1120],
+        [-0.0798, -0.0873, -0.0836,  ...,  0.1023, -0.0342,  0.2305],
+        [ 0.0029, -0.0272, -0.0458,  ..., -0.0041, -0.0094, -0.0816],
+        ...,
+        [ 0.0397, -0.1144,  0.1711,  ...,  0.0343, -0.1162,  0.0561],
+        [-0.0366,  0.0597, -0.1544,  ..., -0.0543,  0.0118, -0.1061],
+        [-0.0522,  0.0826,  0.0475,  ..., -0.0603, -0.0488, -0.0281]],
+       device='cuda:0'), grad: tensor([[ 1.9205e-04,  1.0529e-03,  2.8133e-04,  ...,  1.8406e-03,
+          0.0000e+00,  1.0509e-03],
+        [-2.1038e-03, -2.9774e-03, -1.0252e-03,  ..., -4.7379e-03,
+          0.0000e+00, -7.4120e-03],
+        [ 1.6406e-05,  8.4400e-04, -1.5402e-04,  ...,  6.4230e-04,
+          0.0000e+00,  8.8310e-04],
+        ...,
+        [ 2.5988e-04,  2.6631e-04, -2.4235e-04,  ...,  1.4772e-03,
+          0.0000e+00,  3.3808e-04],
+        [ 7.1573e-04,  6.7329e-04,  4.5276e-04,  ...,  1.9693e-04,
+          0.0000e+00,  1.7481e-03],
+        [ 5.0211e-04, -4.1656e-03, -7.4625e-04,  ..., -7.4291e-04,
+          0.0000e+00,  1.1559e-03]], device='cuda:0')
+Epoch 337, bias, value: tensor([-0.0266,  0.0420, -0.0031, -0.0079,  0.0229, -0.0292,  0.0045,  0.0014,
+        -0.0050, -0.0175], device='cuda:0'), grad: tensor([ 0.0271, -0.0557,  0.0183,  0.0192,  0.0188,  0.0231, -0.0425,  0.0221,
+        -0.0057, -0.0247], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 336, time 215.02, cls_loss 0.5653 cls_loss_mapping 0.0032 cls_loss_causal 0.4932 re_mapping 0.0093 re_causal 0.0217 /// teacc 98.83 lr 0.00010000
+Epoch 338, weight, value: tensor([[-0.0737, -0.1444, -0.0995,  ..., -0.0374,  0.0610, -0.1110],
+        [-0.0804, -0.0888, -0.0838,  ...,  0.1021, -0.0340,  0.2310],
+        [ 0.0022, -0.0277, -0.0466,  ..., -0.0038, -0.0099, -0.0814],
+        ...,
+        [ 0.0397, -0.1138,  0.1706,  ...,  0.0340, -0.1173,  0.0562],
+        [-0.0354,  0.0589, -0.1547,  ..., -0.0560,  0.0130, -0.1064],
+        [-0.0534,  0.0823,  0.0488,  ..., -0.0600, -0.0483, -0.0291]],
+       device='cuda:0'), grad: tensor([[ 6.9384e-07,  5.8556e-04,  5.1141e-05,  ..., -2.9564e-03,
+         -2.8934e-03,  4.6566e-06],
+        [ 4.2655e-06,  4.2510e-04,  7.0095e-05,  ...,  8.1396e-04,
+          3.5405e-05,  1.6916e-04],
+        [ 4.1351e-06,  2.9221e-03,  4.2272e-04,  ...,  2.3460e-03,
+          4.4048e-05,  3.2753e-05],
+        ...,
+        [-5.2899e-05,  2.5225e-04, -2.2972e-04,  ...,  6.6566e-04,
+          1.2018e-05, -6.1893e-04],
+        [ 4.2170e-06,  6.7902e-04,  5.3704e-05,  ...,  9.6512e-04,
+          4.9531e-05,  1.5631e-05],
+        [ 3.2902e-05,  6.5565e-04,  1.8167e-04,  ...,  1.1969e-03,
+          8.6427e-05,  3.6097e-04]], device='cuda:0')
+Epoch 338, bias, value: tensor([-0.0256,  0.0414, -0.0035, -0.0075,  0.0235, -0.0301,  0.0046,  0.0010,
+        -0.0057, -0.0166], device='cuda:0'), grad: tensor([-0.0230,  0.0062,  0.0118,  0.0023,  0.0122, -0.0285, -0.0005,  0.0049,
+         0.0069,  0.0078], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 337, time 214.78, cls_loss 0.5079 cls_loss_mapping 0.0039 cls_loss_causal 0.4341 re_mapping 0.0097 re_causal 0.0211 /// teacc 98.84 lr 0.00010000
+Epoch 339, weight, value: tensor([[-0.0734, -0.1434, -0.1004,  ..., -0.0378,  0.0611, -0.1102],
+        [-0.0803, -0.0875, -0.0832,  ...,  0.1015, -0.0347,  0.2303],
+        [ 0.0028, -0.0275, -0.0468,  ..., -0.0038, -0.0096, -0.0825],
+        ...,
+        [ 0.0387, -0.1161,  0.1703,  ...,  0.0348, -0.1183,  0.0562],
+        [-0.0353,  0.0598, -0.1546,  ..., -0.0549,  0.0133, -0.1041],
+        [-0.0540,  0.0810,  0.0484,  ..., -0.0597, -0.0483, -0.0293]],
+       device='cuda:0'), grad: tensor([[ 6.6376e-04,  3.3545e-04, -1.9670e-04,  ..., -3.6955e-04,
+          5.6553e-04, -1.3733e-04],
+        [-2.0409e-03, -2.8419e-04,  3.0756e-04,  ..., -4.3793e-03,
+         -3.8300e-03,  2.1343e-03],
+        [-6.4316e-03,  2.1279e-04, -2.3410e-05,  ..., -9.3651e-04,
+          1.5521e-04,  2.5916e-04],
+        ...,
+        [ 1.1988e-03, -1.4067e-03, -3.3379e-03,  ..., -2.0142e-03,
+          2.4080e-04, -2.1935e-03],
+        [ 1.6041e-03,  4.7493e-03,  4.8661e-04,  ..., -2.0838e-04,
+          3.3450e-04, -3.0174e-03],
+        [ 1.2131e-03,  1.0214e-03,  9.2745e-04,  ...,  2.5654e-03,
+          8.8596e-04,  9.2363e-04]], device='cuda:0')
+Epoch 339, bias, value: tensor([-0.0254,  0.0413, -0.0035, -0.0071,  0.0235, -0.0311,  0.0051,  0.0008,
+        -0.0052, -0.0170], device='cuda:0'), grad: tensor([-0.0072, -0.0313, -0.0401,  0.0317,  0.0219,  0.0154, -0.0018, -0.0119,
+        -0.0133,  0.0367], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 338, time 214.28, cls_loss 0.5148 cls_loss_mapping 0.0028 cls_loss_causal 0.4615 re_mapping 0.0093 re_causal 0.0208 /// teacc 98.71 lr 0.00010000
+Epoch 340, weight, value: tensor([[-0.0739, -0.1426, -0.1004,  ..., -0.0370,  0.0600, -0.1093],
+        [-0.0799, -0.0880, -0.0839,  ...,  0.1009, -0.0352,  0.2298],
+        [ 0.0037, -0.0272, -0.0467,  ..., -0.0032, -0.0094, -0.0832],
+        ...,
+        [ 0.0390, -0.1165,  0.1705,  ...,  0.0360, -0.1188,  0.0563],
+        [-0.0363,  0.0600, -0.1554,  ..., -0.0552,  0.0126, -0.1051],
+        [-0.0546,  0.0815,  0.0484,  ..., -0.0600, -0.0484, -0.0289]],
+       device='cuda:0'), grad: tensor([[ 1.4687e-04,  2.5272e-04,  1.8626e-06,  ...,  9.9957e-05,
+         -9.9945e-04,  3.9840e-04],
+        [ 2.4110e-05, -3.7346e-03,  6.0529e-05,  ...,  5.7173e-04,
+          1.5259e-04, -4.2319e-04],
+        [-1.9875e-03,  8.8739e-04,  1.8910e-05,  ...,  1.0357e-03,
+          1.0026e-04, -3.2883e-03],
+        ...,
+        [ 1.3304e-03, -3.7766e-04, -3.7231e-03,  ...,  3.2854e-04,
+          1.1718e-04,  5.5552e-04],
+        [ 7.8157e-06,  3.8910e-03,  1.3292e-05,  ..., -8.9502e-04,
+          1.1039e-04, -5.7602e-04],
+        [ 3.7050e-04, -4.6387e-03,  3.3092e-03,  ..., -2.7466e-03,
+          1.1444e-04,  1.6069e-03]], device='cuda:0')
+Epoch 340, bias, value: tensor([-0.0256,  0.0405, -0.0033, -0.0062,  0.0241, -0.0311,  0.0046,  0.0011,
+        -0.0050, -0.0176], device='cuda:0'), grad: tensor([-0.0163, -0.0209, -0.0117, -0.0120,  0.0013,  0.0147,  0.0193,  0.0304,
+        -0.0041, -0.0009], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 339, time 214.98, cls_loss 0.5295 cls_loss_mapping 0.0027 cls_loss_causal 0.4647 re_mapping 0.0093 re_causal 0.0212 /// teacc 98.74 lr 0.00010000
+Epoch 341, weight, value: tensor([[-0.0749, -0.1456, -0.1015,  ..., -0.0374,  0.0605, -0.1082],
+        [-0.0799, -0.0879, -0.0852,  ...,  0.1005, -0.0350,  0.2295],
+        [ 0.0040, -0.0267, -0.0468,  ..., -0.0036, -0.0087, -0.0839],
+        ...,
+        [ 0.0394, -0.1168,  0.1718,  ...,  0.0371, -0.1184,  0.0572],
+        [-0.0376,  0.0598, -0.1560,  ..., -0.0554,  0.0119, -0.1050],
+        [-0.0546,  0.0816,  0.0485,  ..., -0.0597, -0.0479, -0.0290]],
+       device='cuda:0'), grad: tensor([[ 1.3552e-03, -1.9002e-04,  2.3139e-04,  ..., -9.0075e-04,
+          1.4210e-04, -1.2531e-03],
+        [ 4.6897e-04,  5.7650e-04,  3.6031e-05,  ...,  1.1082e-03,
+          5.3011e-06,  3.9601e-04],
+        [-3.4103e-03, -5.6152e-03,  9.6917e-05,  ..., -3.3627e-03,
+         -4.6692e-03,  3.1281e-04],
+        ...,
+        [-1.6174e-03,  4.3941e-04,  1.4746e-04,  ..., -2.1591e-03,
+          4.6015e-05,  4.6086e-04],
+        [ 2.7237e-03, -3.7932e-04,  2.2340e-04,  ...,  1.9217e-03,
+          3.3836e-03, -1.2560e-03],
+        [ 1.8244e-03,  1.1072e-03,  1.7524e-04,  ...,  2.2621e-03,
+          1.4126e-04,  2.6321e-04]], device='cuda:0')
+Epoch 341, bias, value: tensor([-0.0251,  0.0400, -0.0021, -0.0071,  0.0230, -0.0307,  0.0037,  0.0019,
+        -0.0055, -0.0168], device='cuda:0'), grad: tensor([-0.0198,  0.0145, -0.0195,  0.0180, -0.0187,  0.0183,  0.0139, -0.0192,
+        -0.0035,  0.0161], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 340, time 214.81, cls_loss 0.5180 cls_loss_mapping 0.0023 cls_loss_causal 0.4561 re_mapping 0.0094 re_causal 0.0217 /// teacc 98.78 lr 0.00010000
+Epoch 342, weight, value: tensor([[-0.0776, -0.1459, -0.1018,  ..., -0.0380,  0.0606, -0.1085],
+        [-0.0790, -0.0888, -0.0857,  ...,  0.0994, -0.0346,  0.2292],
+        [ 0.0049, -0.0260, -0.0476,  ..., -0.0038, -0.0091, -0.0849],
+        ...,
+        [ 0.0395, -0.1176,  0.1723,  ...,  0.0380, -0.1191,  0.0579],
+        [-0.0369,  0.0586, -0.1562,  ..., -0.0555,  0.0113, -0.1054],
+        [-0.0550,  0.0820,  0.0493,  ..., -0.0591, -0.0481, -0.0295]],
+       device='cuda:0'), grad: tensor([[ 6.7987e-07,  3.4356e-04,  1.1599e-04,  ...,  1.6584e-03,
+          1.3439e-06,  6.2943e-04],
+        [ 2.4736e-06,  6.5279e-04,  3.4142e-04,  ...,  1.4772e-03,
+          2.4159e-06,  4.0603e-04],
+        [ 1.9878e-05, -3.8624e-03, -3.1776e-03,  ..., -2.1000e-03,
+          1.6659e-05, -1.4172e-03],
+        ...,
+        [-2.1055e-05,  6.3562e-04,  3.5787e-04,  ...,  2.6646e-03,
+          6.0238e-06,  8.7738e-04],
+        [ 3.5111e-06, -1.1311e-03,  5.7077e-04,  ...,  2.5272e-03,
+          2.8685e-05,  9.6369e-04],
+        [ 7.4469e-06,  4.2582e-04,  1.8740e-04,  ...,  2.8439e-03,
+          2.8074e-05,  2.1000e-03]], device='cuda:0')
+Epoch 342, bias, value: tensor([-0.0258,  0.0397, -0.0017, -0.0068,  0.0231, -0.0313,  0.0043,  0.0028,
+        -0.0060, -0.0169], device='cuda:0'), grad: tensor([ 0.0127,  0.0161, -0.0118, -0.0114, -0.0429,  0.0187, -0.0069,  0.0199,
+        -0.0111,  0.0166], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 341, time 214.97, cls_loss 0.5165 cls_loss_mapping 0.0042 cls_loss_causal 0.4608 re_mapping 0.0092 re_causal 0.0207 /// teacc 98.85 lr 0.00010000
+Epoch 343, weight, value: tensor([[-0.0782, -0.1465, -0.1015,  ..., -0.0382,  0.0605, -0.1103],
+        [-0.0778, -0.0885, -0.0863,  ...,  0.1006, -0.0338,  0.2305],
+        [ 0.0035, -0.0253, -0.0481,  ..., -0.0034, -0.0079, -0.0844],
+        ...,
+        [ 0.0399, -0.1180,  0.1712,  ...,  0.0377, -0.1193,  0.0564],
+        [-0.0361,  0.0585, -0.1549,  ..., -0.0562,  0.0126, -0.1050],
+        [-0.0552,  0.0818,  0.0501,  ..., -0.0582, -0.0483, -0.0289]],
+       device='cuda:0'), grad: tensor([[ 3.3355e-04,  8.3726e-07,  1.4462e-05,  ...,  2.2068e-03,
+          3.0947e-04,  1.5378e-04],
+        [ 7.7581e-04,  2.9132e-06,  1.0538e-03,  ..., -9.2220e-04,
+          6.4325e-04,  6.4945e-04],
+        [-4.5252e-04, -4.5824e-04, -4.7684e-04,  ...,  1.6699e-03,
+          4.3082e-04, -2.7895e-04],
+        ...,
+        [ 8.2874e-04,  5.7705e-06, -8.0967e-04,  ..., -6.0129e-04,
+          4.3559e-04, -1.3266e-03],
+        [ 4.4942e-04,  6.5207e-05,  3.2604e-05,  ..., -1.0138e-03,
+          3.9339e-04,  1.0669e-04],
+        [ 5.0354e-04,  2.0079e-06,  9.7752e-05,  ..., -3.6964e-03,
+          4.8018e-04,  2.8896e-04]], device='cuda:0')
+Epoch 343, bias, value: tensor([-2.6358e-02,  4.0076e-02, -5.1674e-05, -7.1641e-03,  2.4269e-02,
+        -3.0877e-02,  2.8620e-03,  1.1799e-03, -5.6565e-03, -1.6877e-02],
+       device='cuda:0'), grad: tensor([ 0.0172, -0.0038,  0.0163,  0.0171,  0.0179,  0.0142, -0.0155, -0.0039,
+        -0.0157, -0.0439], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 342, time 215.22, cls_loss 0.5221 cls_loss_mapping 0.0037 cls_loss_causal 0.4497 re_mapping 0.0095 re_causal 0.0214 /// teacc 98.82 lr 0.00010000
+Epoch 344, weight, value: tensor([[-0.0754, -0.1475, -0.1003,  ..., -0.0369,  0.0602, -0.1095],
+        [-0.0769, -0.0889, -0.0870,  ...,  0.0998, -0.0339,  0.2302],
+        [ 0.0018, -0.0252, -0.0485,  ..., -0.0026, -0.0096, -0.0827],
+        ...,
+        [ 0.0398, -0.1179,  0.1711,  ...,  0.0375, -0.1175,  0.0561],
+        [-0.0349,  0.0590, -0.1556,  ..., -0.0570,  0.0122, -0.1058],
+        [-0.0558,  0.0820,  0.0502,  ..., -0.0587, -0.0493, -0.0294]],
+       device='cuda:0'), grad: tensor([[ 5.4568e-05,  1.5688e-04,  4.2349e-05,  ...,  3.5610e-03,
+          2.6112e-03,  1.1406e-03],
+        [ 1.8282e-03,  5.0688e-04,  8.6355e-04,  ...,  5.7793e-03,
+          4.5681e-04,  2.9964e-03],
+        [-2.6779e-03,  3.6025e-04,  5.9414e-04,  ..., -1.7807e-02,
+          1.4400e-04, -5.0163e-03],
+        ...,
+        [ 3.2783e-04,  2.8110e-04,  8.6641e-04,  ...,  5.4779e-03,
+          8.8644e-04,  2.1992e-03],
+        [-8.7857e-05,  1.6737e-03, -1.1444e-03,  ...,  4.0436e-03,
+          1.1826e-03,  7.2813e-04],
+        [ 1.7440e-04,  2.6298e-04, -1.7099e-03,  ...,  2.6321e-03,
+         -6.6223e-03, -7.4196e-04]], device='cuda:0')
+Epoch 344, bias, value: tensor([-0.0258,  0.0401,  0.0003, -0.0071,  0.0240, -0.0313,  0.0032,  0.0018,
+        -0.0060, -0.0178], device='cuda:0'), grad: tensor([ 0.0231,  0.0243, -0.0743,  0.0176, -0.0284,  0.0248, -0.0210,  0.0326,
+         0.0109, -0.0096], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 343, time 214.68, cls_loss 0.5410 cls_loss_mapping 0.0029 cls_loss_causal 0.4837 re_mapping 0.0094 re_causal 0.0215 /// teacc 98.63 lr 0.00010000
+Epoch 345, weight, value: tensor([[-0.0760, -0.1476, -0.1014,  ..., -0.0361,  0.0612, -0.1094],
+        [-0.0767, -0.0892, -0.0870,  ...,  0.1003, -0.0323,  0.2312],
+        [ 0.0020, -0.0252, -0.0485,  ..., -0.0027, -0.0111, -0.0816],
+        ...,
+        [ 0.0396, -0.1179,  0.1714,  ...,  0.0369, -0.1182,  0.0552],
+        [-0.0344,  0.0591, -0.1539,  ..., -0.0560,  0.0129, -0.1066],
+        [-0.0558,  0.0802,  0.0499,  ..., -0.0599, -0.0495, -0.0299]],
+       device='cuda:0'), grad: tensor([[ 3.3993e-06,  2.3693e-05,  4.4179e-04,  ..., -1.0004e-03,
+          2.3861e-03,  5.2681e-03],
+        [ 7.5758e-05,  2.9162e-05,  2.4068e-04,  ...,  5.1074e-06,
+         -1.7378e-06, -4.6706e-04],
+        [ 1.5235e-04,  4.4316e-05,  2.5153e-04,  ..., -4.6760e-05,
+          7.3862e-04, -1.1444e-03],
+        ...,
+        [ 5.2810e-05, -3.4761e-04, -2.4223e-03,  ..., -2.5826e-03,
+         -8.0490e-03, -1.1589e-02],
+        [-4.9770e-06,  3.4660e-05,  1.8883e-04,  ...,  8.6355e-04,
+         -2.7433e-05,  1.1778e-03],
+        [ 2.3440e-05, -1.1317e-05,  2.5535e-04,  ...,  1.1015e-03,
+          9.5987e-04,  1.5554e-03]], device='cuda:0')
+Epoch 345, bias, value: tensor([-2.6289e-02,  4.0450e-02, -4.1657e-05, -6.4780e-03,  2.4713e-02,
+        -3.1340e-02,  2.4803e-03,  8.1632e-04, -5.6647e-03, -1.7279e-02],
+       device='cuda:0'), grad: tensor([-0.0060, -0.0065, -0.0106,  0.0184,  0.0300,  0.0157,  0.0164, -0.0336,
+        -0.0457,  0.0220], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 344, time 214.98, cls_loss 0.5749 cls_loss_mapping 0.0030 cls_loss_causal 0.5074 re_mapping 0.0090 re_causal 0.0211 /// teacc 98.75 lr 0.00010000
+Epoch 346, weight, value: tensor([[-0.0757, -0.1462, -0.1025,  ..., -0.0359,  0.0586, -0.1098],
+        [-0.0771, -0.0894, -0.0867,  ...,  0.0993, -0.0323,  0.2324],
+        [ 0.0028, -0.0253, -0.0489,  ..., -0.0031, -0.0135, -0.0820],
+        ...,
+        [ 0.0397, -0.1181,  0.1720,  ...,  0.0372, -0.1198,  0.0568],
+        [-0.0351,  0.0584, -0.1550,  ..., -0.0557,  0.0129, -0.1087],
+        [-0.0558,  0.0801,  0.0482,  ..., -0.0594, -0.0495, -0.0307]],
+       device='cuda:0'), grad: tensor([[ 0.0009,  0.0008,  0.0004,  ..., -0.0016,  0.0005,  0.0003],
+        [ 0.0015, -0.0014, -0.0017,  ..., -0.0014, -0.0011, -0.0015],
+        [ 0.0013,  0.0015,  0.0006,  ...,  0.0020,  0.0008,  0.0005],
+        ...,
+        [-0.0042, -0.0001, -0.0025,  ..., -0.0074, -0.0026, -0.0021],
+        [ 0.0010, -0.0372,  0.0003,  ...,  0.0014,  0.0011,  0.0004],
+        [-0.0050,  0.0167,  0.0005,  ..., -0.0002, -0.0013,  0.0005]],
+       device='cuda:0')
+Epoch 346, bias, value: tensor([-0.0259,  0.0406, -0.0004, -0.0059,  0.0250, -0.0315,  0.0021,  0.0001,
+        -0.0059, -0.0168], device='cuda:0'), grad: tensor([-0.0168, -0.0181,  0.0196,  0.0246,  0.0189,  0.0274,  0.0097, -0.0374,
+        -0.0357,  0.0078], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 345, time 215.05, cls_loss 0.5015 cls_loss_mapping 0.0017 cls_loss_causal 0.4328 re_mapping 0.0095 re_causal 0.0222 /// teacc 98.82 lr 0.00010000
+Epoch 347, weight, value: tensor([[-0.0757, -0.1465, -0.1019,  ..., -0.0356,  0.0591, -0.1087],
+        [-0.0756, -0.0893, -0.0854,  ...,  0.0997, -0.0320,  0.2346],
+        [ 0.0016, -0.0236, -0.0500,  ..., -0.0036, -0.0140, -0.0832],
+        ...,
+        [ 0.0380, -0.1184,  0.1726,  ...,  0.0377, -0.1198,  0.0565],
+        [-0.0345,  0.0583, -0.1552,  ..., -0.0560,  0.0125, -0.1102],
+        [-0.0562,  0.0804,  0.0478,  ..., -0.0605, -0.0501, -0.0317]],
+       device='cuda:0'), grad: tensor([[ 1.2422e-04,  2.2316e-04,  1.8254e-07,  ...,  1.0233e-03,
+          1.5807e-04,  6.8331e-04],
+        [ 3.2187e-05,  5.2214e-05,  1.0425e-04,  ...,  1.8530e-03,
+          2.1189e-05,  1.5974e-03],
+        [ 1.5879e-04,  7.4005e-04,  6.0424e-06,  ...,  1.2856e-03,
+          2.1815e-04,  6.3515e-04],
+        ...,
+        [-9.1887e-04, -1.6117e-03, -2.0242e-04,  ...,  1.3285e-03,
+         -1.1663e-03,  4.9829e-04],
+        [ 8.3566e-05,  1.5891e-04,  3.8259e-06,  ...,  9.8705e-04,
+          9.7394e-05,  7.6771e-04],
+        [ 1.8513e-04,  7.1907e-03,  7.4685e-05,  ...,  8.7881e-04,
+          2.4188e-04,  2.5249e-04]], device='cuda:0')
+Epoch 347, bias, value: tensor([-0.0257,  0.0417, -0.0012, -0.0060,  0.0238, -0.0311,  0.0036, -0.0003,
+        -0.0062, -0.0170], device='cuda:0'), grad: tensor([ 0.0151, -0.0068, -0.0115, -0.0154, -0.0117, -0.0181, -0.0137,  0.0044,
+         0.0152,  0.0425], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 346, time 214.51, cls_loss 0.5516 cls_loss_mapping 0.0035 cls_loss_causal 0.4983 re_mapping 0.0089 re_causal 0.0209 /// teacc 98.88 lr 0.00010000
+Epoch 348, weight, value: tensor([[-0.0754, -0.1462, -0.1021,  ..., -0.0358,  0.0594, -0.1076],
+        [-0.0765, -0.0892, -0.0857,  ...,  0.0993, -0.0322,  0.2338],
+        [ 0.0027, -0.0228, -0.0486,  ..., -0.0041, -0.0157, -0.0833],
+        ...,
+        [ 0.0393, -0.1183,  0.1726,  ...,  0.0387, -0.1209,  0.0575],
+        [-0.0336,  0.0581, -0.1542,  ..., -0.0571,  0.0146, -0.1103],
+        [-0.0566,  0.0804,  0.0482,  ..., -0.0602, -0.0503, -0.0323]],
+       device='cuda:0'), grad: tensor([[ 1.5986e-04,  8.3633e-07,  1.8731e-05,  ...,  1.6189e-04,
+          1.9386e-05,  5.0992e-05],
+        [ 1.1230e-04,  8.9686e-07,  1.4044e-05,  ..., -7.3433e-05,
+          6.6012e-06, -3.6144e-04],
+        [ 2.5272e-04,  4.4823e-05,  8.8930e-05,  ...,  1.9169e-04,
+          1.8934e-06,  1.5008e-04],
+        ...,
+        [ 1.7822e-04,  2.9922e-04, -8.4925e-04,  ...,  7.3624e-04,
+          1.8016e-05, -3.1815e-03],
+        [-2.9507e-03,  5.2214e-05, -2.4915e-04,  ..., -1.6060e-03,
+          4.3921e-06,  9.0599e-05],
+        [ 1.8919e-04, -5.1880e-04,  9.6607e-04,  ..., -1.2360e-03,
+         -9.2387e-06,  3.1376e-03]], device='cuda:0')
+Epoch 348, bias, value: tensor([-0.0254,  0.0412, -0.0021, -0.0052,  0.0236, -0.0305,  0.0025,  0.0008,
+        -0.0061, -0.0174], device='cuda:0'), grad: tensor([ 0.0359,  0.0067,  0.0109,  0.0063, -0.0179,  0.0176,  0.0125, -0.0194,
+        -0.0234, -0.0293], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 347, time 214.64, cls_loss 0.5238 cls_loss_mapping 0.0039 cls_loss_causal 0.4550 re_mapping 0.0089 re_causal 0.0200 /// teacc 98.91 lr 0.00010000
+Epoch 349, weight, value: tensor([[-0.0745, -0.1460, -0.1033,  ..., -0.0367,  0.0567, -0.1079],
+        [-0.0772, -0.0893, -0.0863,  ...,  0.0997, -0.0320,  0.2337],
+        [ 0.0026, -0.0227, -0.0483,  ..., -0.0037, -0.0125, -0.0841],
+        ...,
+        [ 0.0402, -0.1181,  0.1728,  ...,  0.0385, -0.1200,  0.0586],
+        [-0.0344,  0.0583, -0.1541,  ..., -0.0572,  0.0142, -0.1099],
+        [-0.0566,  0.0804,  0.0481,  ..., -0.0595, -0.0505, -0.0323]],
+       device='cuda:0'), grad: tensor([[-1.2970e-03,  3.8743e-04,  4.2653e-04,  ..., -3.2578e-03,
+          1.1635e-04, -1.0166e-03],
+        [ 1.2517e-04,  2.5558e-04,  1.5557e-04,  ...,  8.3590e-04,
+          4.1798e-06,  6.4802e-04],
+        [-1.0471e-03, -1.1215e-03, -1.7366e-03,  ..., -1.6603e-03,
+         -5.1928e-04, -5.1165e-04],
+        ...,
+        [ 1.7560e-04,  2.5702e-04,  7.0453e-05,  ..., -6.8331e-04,
+          5.9903e-05, -1.6041e-03],
+        [ 8.9407e-04, -6.4945e-04,  5.7650e-04,  ...,  1.5144e-03,
+          1.3717e-05,  1.1511e-03],
+        [ 2.4021e-04, -9.2149e-05,  1.4365e-04,  ...,  7.6199e-04,
+          7.5638e-05,  7.9966e-04]], device='cuda:0')
+Epoch 349, bias, value: tensor([-0.0255,  0.0404, -0.0014, -0.0050,  0.0232, -0.0309,  0.0029, -0.0002,
+        -0.0060, -0.0162], device='cuda:0'), grad: tensor([-0.0388,  0.0069, -0.0031,  0.0048,  0.0028,  0.0052,  0.0034,  0.0038,
+         0.0098,  0.0052], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 348, time 214.61, cls_loss 0.5689 cls_loss_mapping 0.0050 cls_loss_causal 0.5020 re_mapping 0.0092 re_causal 0.0220 /// teacc 98.90 lr 0.00010000
+Epoch 350, weight, value: tensor([[-0.0739, -0.1461, -0.1028,  ..., -0.0371,  0.0571, -0.1076],
+        [-0.0774, -0.0887, -0.0858,  ...,  0.1004, -0.0324,  0.2334],
+        [ 0.0008, -0.0238, -0.0493,  ..., -0.0042, -0.0132, -0.0861],
+        ...,
+        [ 0.0399, -0.1180,  0.1740,  ...,  0.0387, -0.1191,  0.0591],
+        [-0.0340,  0.0582, -0.1555,  ..., -0.0569,  0.0145, -0.1087],
+        [-0.0569,  0.0809,  0.0481,  ..., -0.0597, -0.0506, -0.0323]],
+       device='cuda:0'), grad: tensor([[-9.5987e-04,  9.1255e-05,  2.4295e-04,  ..., -1.3351e-05,
+          2.7204e-04, -9.9599e-05],
+        [ 6.6683e-06,  2.9534e-05,  3.5954e-04,  ...,  3.6545e-03,
+          2.7680e-04,  1.0118e-03],
+        [ 2.3162e-04,  2.5344e-04,  1.8797e-03,  ...,  4.5280e-03,
+          3.8171e-04,  1.7157e-03],
+        ...,
+        [-1.4794e-04,  4.2289e-05,  1.6260e-03,  ..., -1.1200e-02,
+          2.8348e-04, -1.4277e-03],
+        [-4.1723e-05,  4.1342e-04,  6.6710e-04,  ...,  2.6569e-03,
+          2.7370e-04,  7.5388e-04],
+        [ 2.5821e-04,  1.5569e-04,  6.9284e-04,  ...,  5.8842e-04,
+          4.4703e-04,  2.1231e-04]], device='cuda:0')
+Epoch 350, bias, value: tensor([-0.0258,  0.0409, -0.0011, -0.0058,  0.0241, -0.0302,  0.0034, -0.0007,
+        -0.0068, -0.0166], device='cuda:0'), grad: tensor([-0.0124,  0.0334,  0.0285,  0.0085, -0.0039, -0.0285, -0.0031, -0.0391,
+         0.0234, -0.0067], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 349, time 214.74, cls_loss 0.5081 cls_loss_mapping 0.0031 cls_loss_causal 0.4535 re_mapping 0.0090 re_causal 0.0212 /// teacc 98.95 lr 0.00010000
+Epoch 351, weight, value: tensor([[-0.0750, -0.1465, -0.1031,  ..., -0.0388,  0.0571, -0.1095],
+        [-0.0763, -0.0882, -0.0860,  ...,  0.1018, -0.0332,  0.2328],
+        [-0.0007, -0.0246, -0.0505,  ..., -0.0050, -0.0147, -0.0854],
+        ...,
+        [ 0.0407, -0.1188,  0.1763,  ...,  0.0396, -0.1169,  0.0599],
+        [-0.0339,  0.0593, -0.1551,  ..., -0.0569,  0.0161, -0.1089],
+        [-0.0575,  0.0807,  0.0474,  ..., -0.0593, -0.0521, -0.0328]],
+       device='cuda:0'), grad: tensor([[ 5.0354e-04,  7.6473e-05,  2.0540e-04,  ...,  7.5340e-04,
+          3.3975e-06,  9.8884e-05],
+        [ 2.0103e-03,  1.3418e-03,  3.3712e-04,  ...,  4.1962e-03,
+          1.5562e-06,  2.7633e-04],
+        [ 1.5383e-03,  1.2659e-05,  3.8576e-04,  ...,  1.1759e-03,
+         -1.5950e-04,  4.5943e-04],
+        ...,
+        [-2.5272e-04,  2.4848e-06, -1.4076e-02,  ...,  1.2417e-03,
+          1.3733e-04, -3.1376e-04],
+        [-1.1200e-02, -1.8635e-03,  1.5297e-03,  ..., -3.2635e-03,
+          1.3694e-05,  1.9574e-04],
+        [ 1.4963e-03,  6.0201e-06,  1.7376e-03,  ..., -5.3520e-03,
+          2.3469e-06, -3.7408e-04]], device='cuda:0')
+Epoch 351, bias, value: tensor([-0.0266,  0.0409, -0.0019, -0.0062,  0.0243, -0.0303,  0.0028,  0.0004,
+        -0.0059, -0.0161], device='cuda:0'), grad: tensor([ 0.0072,  0.0229,  0.0084,  0.0608, -0.0155,  0.0210,  0.0130, -0.0392,
+        -0.0278, -0.0508], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 350, time 214.79, cls_loss 0.4999 cls_loss_mapping 0.0038 cls_loss_causal 0.4463 re_mapping 0.0087 re_causal 0.0197 /// teacc 98.80 lr 0.00010000
+Epoch 352, weight, value: tensor([[-0.0754, -0.1466, -0.1032,  ..., -0.0379,  0.0566, -0.1074],
+        [-0.0762, -0.0884, -0.0855,  ...,  0.1022, -0.0331,  0.2317],
+        [-0.0004, -0.0259, -0.0507,  ..., -0.0054, -0.0132, -0.0844],
+        ...,
+        [ 0.0412, -0.1205,  0.1756,  ...,  0.0389, -0.1177,  0.0609],
+        [-0.0331,  0.0597, -0.1556,  ..., -0.0570,  0.0165, -0.1096],
+        [-0.0575,  0.0811,  0.0481,  ..., -0.0594, -0.0528, -0.0334]],
+       device='cuda:0'), grad: tensor([[ 0.0002,  0.0007,  0.0010,  ...,  0.0020,  0.0004,  0.0008],
+        [ 0.0006, -0.0012, -0.0033,  ..., -0.0013,  0.0010, -0.0022],
+        [ 0.0015,  0.0072,  0.0064,  ...,  0.0102,  0.0035,  0.0043],
+        ...,
+        [ 0.0008,  0.0017, -0.0058,  ...,  0.0009,  0.0023,  0.0035],
+        [-0.0014,  0.0004,  0.0014,  ..., -0.0023,  0.0006,  0.0010],
+        [ 0.0003,  0.0013,  0.0025,  ...,  0.0032,  0.0014,  0.0021]],
+       device='cuda:0')
+Epoch 352, bias, value: tensor([-0.0266,  0.0400, -0.0009, -0.0063,  0.0233, -0.0289,  0.0018,  0.0017,
+        -0.0063, -0.0164], device='cuda:0'), grad: tensor([ 0.0157, -0.0096,  0.0570, -0.0846, -0.0362,  0.0421,  0.0139, -0.0097,
+        -0.0127,  0.0241], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 351, time 214.56, cls_loss 0.5453 cls_loss_mapping 0.0031 cls_loss_causal 0.4725 re_mapping 0.0089 re_causal 0.0204 /// teacc 98.80 lr 0.00010000
+Epoch 353, weight, value: tensor([[-0.0756, -0.1456, -0.1027,  ..., -0.0369,  0.0579, -0.1064],
+        [-0.0763, -0.0876, -0.0867,  ...,  0.1023, -0.0334,  0.2328],
+        [ 0.0008, -0.0261, -0.0518,  ..., -0.0054, -0.0142, -0.0852],
+        ...,
+        [ 0.0417, -0.1208,  0.1759,  ...,  0.0372, -0.1195,  0.0608],
+        [-0.0319,  0.0610, -0.1560,  ..., -0.0577,  0.0174, -0.1109],
+        [-0.0574,  0.0808,  0.0483,  ..., -0.0602, -0.0541, -0.0337]],
+       device='cuda:0'), grad: tensor([[ 5.3942e-05, -5.5641e-05, -4.0698e-04,  ..., -1.6296e-02,
+         -9.7132e-04, -1.9470e-02],
+        [ 1.0490e-04,  1.6257e-05, -1.5459e-03,  ...,  3.4428e-03,
+         -1.8044e-03,  9.6283e-03],
+        [ 2.8849e-05,  4.3297e-04,  3.4046e-04,  ...,  1.0614e-03,
+          3.9220e-04,  1.6212e-03],
+        ...,
+        [-4.4560e-04, -2.5368e-03,  2.8300e-04,  ...,  2.0447e-03,
+          6.4421e-04, -5.5695e-03],
+        [ 1.2481e-04,  6.8188e-05,  1.8239e-04,  ...,  8.1587e-04,
+          2.1625e-04,  8.6403e-04],
+        [ 5.1737e-05,  1.7681e-03,  4.9019e-04,  ...,  1.2426e-03,
+          3.3212e-04,  5.8289e-03]], device='cuda:0')
+Epoch 353, bias, value: tensor([-0.0259,  0.0409, -0.0012, -0.0066,  0.0224, -0.0289,  0.0027,  0.0016,
+        -0.0067, -0.0169], device='cuda:0'), grad: tensor([-0.0426, -0.0475, -0.0047,  0.0222,  0.0257,  0.0235, -0.0072, -0.0298,
+         0.0207,  0.0397], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 352, time 214.38, cls_loss 0.5440 cls_loss_mapping 0.0033 cls_loss_causal 0.4797 re_mapping 0.0086 re_causal 0.0207 /// teacc 98.93 lr 0.00010000
+Epoch 354, weight, value: tensor([[-0.0740, -0.1461, -0.1028,  ..., -0.0371,  0.0587, -0.1057],
+        [-0.0775, -0.0875, -0.0867,  ...,  0.1020, -0.0323,  0.2317],
+        [ 0.0020, -0.0254, -0.0522,  ..., -0.0049, -0.0142, -0.0830],
+        ...,
+        [ 0.0408, -0.1219,  0.1758,  ...,  0.0375, -0.1216,  0.0612],
+        [-0.0329,  0.0613, -0.1544,  ..., -0.0577,  0.0167, -0.1130],
+        [-0.0562,  0.0796,  0.0481,  ..., -0.0594, -0.0536, -0.0333]],
+       device='cuda:0'), grad: tensor([[-1.1053e-03, -1.9684e-03,  1.6853e-05,  ..., -1.6584e-03,
+          5.5122e-04, -6.8569e-04],
+        [ 3.2501e-03,  5.7727e-05,  4.9286e-06,  ..., -1.8597e-03,
+          7.7772e-04,  1.8692e-04],
+        [ 1.6375e-03,  4.7952e-05,  3.3116e-04,  ...,  4.9896e-03,
+          2.0676e-03, -2.8229e-04],
+        ...,
+        [ 4.9829e-04,  5.0116e-04, -5.5790e-04,  ...,  2.4204e-03,
+          3.9101e-04,  2.3346e-03],
+        [-7.0305e-03,  8.2970e-04,  2.8878e-05,  ..., -5.9509e-03,
+          2.9111e-04,  1.1644e-03],
+        [ 4.8137e-04, -1.0557e-03,  1.0186e-04,  ..., -2.4490e-03,
+         -6.0539e-03, -6.8092e-03]], device='cuda:0')
+Epoch 354, bias, value: tensor([-0.0266,  0.0416, -0.0010, -0.0078,  0.0225, -0.0297,  0.0033,  0.0014,
+        -0.0078, -0.0145], device='cuda:0'), grad: tensor([ 0.0016,  0.0317,  0.0341,  0.0168,  0.0184,  0.0108, -0.0134, -0.0090,
+        -0.0568, -0.0342], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 353, time 215.01, cls_loss 0.5350 cls_loss_mapping 0.0036 cls_loss_causal 0.4688 re_mapping 0.0085 re_causal 0.0205 /// teacc 98.87 lr 0.00010000
+Epoch 355, weight, value: tensor([[-0.0723, -0.1460, -0.1024,  ..., -0.0363,  0.0589, -0.1057],
+        [-0.0780, -0.0869, -0.0873,  ...,  0.1017, -0.0354,  0.2330],
+        [ 0.0027, -0.0257, -0.0523,  ..., -0.0054, -0.0132, -0.0820],
+        ...,
+        [ 0.0415, -0.1221,  0.1752,  ...,  0.0378, -0.1235,  0.0618],
+        [-0.0335,  0.0620, -0.1531,  ..., -0.0584,  0.0172, -0.1132],
+        [-0.0576,  0.0795,  0.0472,  ..., -0.0593, -0.0528, -0.0342]],
+       device='cuda:0'), grad: tensor([[ 8.3819e-08,  8.6799e-06,  2.9188e-06,  ..., -4.7569e-03,
+         -1.5221e-03, -4.3259e-03],
+        [ 1.3635e-06,  5.3346e-06,  4.9435e-06,  ...,  7.2861e-04,
+          4.2915e-04,  6.9332e-04],
+        [ 1.5553e-06, -4.8220e-05,  2.3887e-05,  ...,  1.1101e-03,
+          4.7493e-04,  1.2741e-03],
+        ...,
+        [-1.1280e-05,  7.5735e-06, -1.0654e-06,  ...,  8.1015e-04,
+          3.6192e-04,  7.9679e-04],
+        [ 1.3411e-07, -1.5132e-05,  4.6998e-05,  ...,  3.8195e-04,
+          2.1780e-04,  3.9220e-04],
+        [ 7.5586e-06,  4.8168e-06,  1.0297e-05,  ...,  3.9601e-04,
+          1.8740e-04,  4.0698e-04]], device='cuda:0')
+Epoch 355, bias, value: tensor([-0.0246,  0.0406, -0.0008, -0.0083,  0.0229, -0.0286,  0.0017,  0.0014,
+        -0.0085, -0.0144], device='cuda:0'), grad: tensor([-0.0261,  0.0041,  0.0066,  0.0019,  0.0073,  0.0021, -0.0048,  0.0044,
+         0.0022,  0.0022], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 354----------------------------------------------------
+epoch 354, time 232.28, cls_loss 0.5171 cls_loss_mapping 0.0021 cls_loss_causal 0.4497 re_mapping 0.0087 re_causal 0.0208 /// teacc 98.98 lr 0.00010000
+Epoch 356, weight, value: tensor([[-0.0722, -0.1458, -0.1033,  ..., -0.0372,  0.0590, -0.1047],
+        [-0.0774, -0.0869, -0.0873,  ...,  0.1017, -0.0358,  0.2314],
+        [ 0.0022, -0.0259, -0.0528,  ..., -0.0064, -0.0131, -0.0828],
+        ...,
+        [ 0.0413, -0.1209,  0.1753,  ...,  0.0385, -0.1232,  0.0614],
+        [-0.0321,  0.0610, -0.1533,  ..., -0.0569,  0.0166, -0.1122],
+        [-0.0585,  0.0797,  0.0468,  ..., -0.0610, -0.0519, -0.0351]],
+       device='cuda:0'), grad: tensor([[-8.8358e-04, -2.2335e-03, -1.3542e-04,  ..., -4.2953e-03,
+          3.2330e-04, -6.8436e-03],
+        [-1.8015e-03,  1.6749e-05, -1.5044e-04,  ..., -3.0861e-03,
+         -2.8877e-03,  2.1191e-03],
+        [ 2.1040e-04,  1.3340e-04,  8.7082e-05,  ..., -6.7091e-04,
+          2.7490e-04, -2.4586e-03],
+        ...,
+        [ 1.2243e-04,  2.2352e-05,  1.8373e-05,  ...,  1.6623e-03,
+          1.8489e-04,  3.1223e-03],
+        [ 3.8743e-04,  1.1368e-03,  5.0843e-05,  ..., -4.8599e-03,
+          2.3139e-04, -5.4169e-03],
+        [ 1.9014e-04,  3.4571e-04,  2.9162e-05,  ...,  2.2221e-03,
+          2.3973e-04,  3.1185e-03]], device='cuda:0')
+Epoch 356, bias, value: tensor([-0.0258,  0.0412, -0.0011, -0.0089,  0.0228, -0.0268,  0.0016,  0.0020,
+        -0.0081, -0.0152], device='cuda:0'), grad: tensor([-0.0616, -0.0110, -0.0168,  0.0440,  0.0217,  0.0033, -0.0137,  0.0194,
+        -0.0078,  0.0225], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 355, time 214.90, cls_loss 0.5472 cls_loss_mapping 0.0026 cls_loss_causal 0.4828 re_mapping 0.0087 re_causal 0.0198 /// teacc 98.84 lr 0.00010000
+Epoch 357, weight, value: tensor([[-0.0730, -0.1457, -0.1031,  ..., -0.0379,  0.0590, -0.1051],
+        [-0.0769, -0.0878, -0.0868,  ...,  0.1005, -0.0344,  0.2315],
+        [ 0.0027, -0.0260, -0.0508,  ..., -0.0072, -0.0134, -0.0824],
+        ...,
+        [ 0.0416, -0.1195,  0.1753,  ...,  0.0396, -0.1223,  0.0616],
+        [-0.0319,  0.0608, -0.1537,  ..., -0.0552,  0.0165, -0.1111],
+        [-0.0585,  0.0796,  0.0467,  ..., -0.0598, -0.0520, -0.0347]],
+       device='cuda:0'), grad: tensor([[ 8.2493e-04,  1.8757e-06,  1.1548e-05,  ...,  1.8301e-03,
+          1.1299e-02,  9.2459e-04],
+        [ 6.0701e-04,  2.1458e-06,  1.4745e-05,  ...,  3.2597e-03,
+          2.7627e-05,  1.6079e-03],
+        [-4.0436e-03,  9.4414e-05,  5.8365e-04,  ..., -8.0872e-03,
+          4.3464e-04, -9.3536e-03],
+        ...,
+        [-2.4929e-03,  7.2300e-05,  4.0340e-04,  ...,  8.6737e-04,
+          3.0279e-04, -2.7776e-04],
+        [ 2.7561e-04,  9.4175e-05,  5.7316e-04,  ...,  1.4172e-03,
+          5.2691e-04,  6.4087e-04],
+        [ 3.1052e-03, -4.4033e-06,  4.4614e-05,  ...,  1.0328e-03,
+          1.2350e-04,  1.9550e-03]], device='cuda:0')
+Epoch 357, bias, value: tensor([-0.0257,  0.0410,  0.0002, -0.0089,  0.0226, -0.0277,  0.0007,  0.0023,
+        -0.0080, -0.0150], device='cuda:0'), grad: tensor([ 0.0298,  0.0161, -0.0495,  0.0023, -0.0414,  0.0112,  0.0087,  0.0026,
+        -0.0086,  0.0288], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 356, time 215.05, cls_loss 0.5552 cls_loss_mapping 0.0025 cls_loss_causal 0.4793 re_mapping 0.0090 re_causal 0.0218 /// teacc 98.90 lr 0.00010000
+Epoch 358, weight, value: tensor([[-0.0721, -0.1463, -0.1027,  ..., -0.0372,  0.0584, -0.1057],
+        [-0.0778, -0.0885, -0.0872,  ...,  0.0996, -0.0344,  0.2312],
+        [ 0.0030, -0.0260, -0.0508,  ..., -0.0055, -0.0138, -0.0823],
+        ...,
+        [ 0.0421, -0.1191,  0.1753,  ...,  0.0397, -0.1225,  0.0618],
+        [-0.0317,  0.0610, -0.1535,  ..., -0.0549,  0.0169, -0.1101],
+        [-0.0594,  0.0800,  0.0468,  ..., -0.0607, -0.0519, -0.0360]],
+       device='cuda:0'), grad: tensor([[ 3.3092e-04,  1.2629e-06,  1.4696e-06,  ...,  1.4782e-03,
+          3.3112e-02, -2.0218e-04],
+        [ 1.3399e-04,  7.5772e-06,  4.3102e-06,  ...,  1.3447e-03,
+          1.0748e-03,  1.1690e-05],
+        [-1.4772e-03,  2.3913e-04,  1.1265e-04,  ..., -4.7455e-03,
+          2.4185e-03,  2.7016e-05],
+        ...,
+        [ 2.8086e-04,  4.0025e-05, -4.8369e-05,  ...,  9.4604e-04,
+          6.7663e-04, -6.8951e-04],
+        [ 3.2973e-04,  1.8463e-05,  5.0366e-05,  ..., -6.8207e-03,
+         -8.7357e-03,  1.0896e-04],
+        [ 2.3437e-04, -1.2672e-04, -1.1250e-05,  ...,  1.1053e-03,
+          2.6779e-03,  5.8889e-05]], device='cuda:0')
+Epoch 358, bias, value: tensor([-0.0253,  0.0408,  0.0002, -0.0089,  0.0223, -0.0280,  0.0005,  0.0026,
+        -0.0068, -0.0160], device='cuda:0'), grad: tensor([ 0.0446,  0.0153, -0.0433,  0.0170, -0.0271, -0.0161,  0.0326,  0.0075,
+        -0.0467,  0.0163], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 357, time 214.89, cls_loss 0.5153 cls_loss_mapping 0.0042 cls_loss_causal 0.4497 re_mapping 0.0086 re_causal 0.0204 /// teacc 98.77 lr 0.00010000
+Epoch 359, weight, value: tensor([[-0.0711, -0.1470, -0.1032,  ..., -0.0361,  0.0584, -0.1056],
+        [-0.0782, -0.0887, -0.0859,  ...,  0.0997, -0.0339,  0.2298],
+        [ 0.0026, -0.0254, -0.0502,  ..., -0.0061, -0.0143, -0.0804],
+        ...,
+        [ 0.0418, -0.1200,  0.1756,  ...,  0.0404, -0.1225,  0.0622],
+        [-0.0325,  0.0618, -0.1545,  ..., -0.0545,  0.0180, -0.1102],
+        [-0.0582,  0.0800,  0.0469,  ..., -0.0603, -0.0522, -0.0361]],
+       device='cuda:0'), grad: tensor([[ 1.2517e-04,  2.0075e-04,  5.0247e-05,  ...,  1.4706e-03,
+         -1.1459e-05,  4.7874e-04],
+        [ 1.7174e-06,  9.1887e-04,  3.9011e-05,  ..., -2.5768e-03,
+          9.3132e-09,  3.0136e-04],
+        [ 1.8578e-03,  1.3762e-03,  7.3767e-04,  ...,  3.9024e-03,
+          6.2771e-07, -4.0603e-04],
+        ...,
+        [ 2.8357e-05,  4.7517e-04, -1.6642e-04,  ...,  1.6422e-03,
+          7.4506e-09, -9.8825e-05],
+        [ 2.7120e-05,  1.8415e-03,  2.1279e-05,  ...,  2.6646e-03,
+          1.1958e-06,  1.3962e-03],
+        [-5.3644e-07,  3.0637e-04,  3.7640e-05,  ...,  7.7057e-04,
+          2.0992e-06,  4.7760e-03]], device='cuda:0')
+Epoch 359, bias, value: tensor([-2.5404e-02,  4.1678e-02,  6.0835e-05, -1.0551e-02,  2.1157e-02,
+        -2.7930e-02,  7.6998e-04,  2.5739e-03, -5.7277e-03, -1.5184e-02],
+       device='cuda:0'), grad: tensor([ 0.0117,  0.0091, -0.0345, -0.0109, -0.0031, -0.0370, -0.0220,  0.0204,
+         0.0464,  0.0199], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 358, time 215.04, cls_loss 0.5407 cls_loss_mapping 0.0027 cls_loss_causal 0.4708 re_mapping 0.0087 re_causal 0.0218 /// teacc 98.81 lr 0.00010000
+Epoch 360, weight, value: tensor([[-0.0723, -0.1477, -0.1046,  ..., -0.0370,  0.0584, -0.1062],
+        [-0.0789, -0.0900, -0.0868,  ...,  0.0981, -0.0347,  0.2303],
+        [ 0.0035, -0.0261, -0.0508,  ..., -0.0063, -0.0150, -0.0810],
+        ...,
+        [ 0.0411, -0.1178,  0.1764,  ...,  0.0433, -0.1220,  0.0619],
+        [-0.0337,  0.0621, -0.1534,  ..., -0.0543,  0.0175, -0.1103],
+        [-0.0568,  0.0803,  0.0462,  ..., -0.0599, -0.0526, -0.0351]],
+       device='cuda:0'), grad: tensor([[ 3.9520e-03,  2.3830e-04,  1.9646e-04,  ..., -2.6016e-03,
+          7.2360e-05, -3.7217e-04],
+        [-5.3692e-04,  2.1052e-04, -4.2498e-05,  ..., -1.1330e-02,
+          1.7118e-04, -3.0994e-03],
+        [ 1.2197e-03,  8.0252e-04,  6.7234e-04,  ...,  4.7073e-03,
+          1.7905e-04,  1.6747e-03],
+        ...,
+        [ 4.8409e-03,  3.6411e-03,  2.1458e-04,  ...,  1.1688e-02,
+          1.0616e-04,  2.5597e-03],
+        [ 1.1683e-03,  6.3610e-04,  5.1785e-04,  ...,  3.6545e-03,
+          4.1753e-05,  2.3251e-03],
+        [ 3.5706e-03,  1.6766e-03,  2.9540e-04,  ...,  3.4618e-03,
+          6.5207e-05,  3.4504e-03]], device='cuda:0')
+Epoch 360, bias, value: tensor([-0.0265,  0.0421, -0.0003, -0.0104,  0.0207, -0.0273,  0.0011,  0.0036,
+        -0.0068, -0.0149], device='cuda:0'), grad: tensor([-0.0045, -0.0057,  0.0231,  0.0044, -0.0430, -0.0277, -0.0371,  0.0424,
+         0.0203,  0.0278], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 359, time 215.05, cls_loss 0.5354 cls_loss_mapping 0.0025 cls_loss_causal 0.4849 re_mapping 0.0087 re_causal 0.0204 /// teacc 98.93 lr 0.00010000
+Epoch 361, weight, value: tensor([[-0.0741, -0.1485, -0.1055,  ..., -0.0372,  0.0584, -0.1053],
+        [-0.0791, -0.0912, -0.0866,  ...,  0.0983, -0.0348,  0.2302],
+        [ 0.0016, -0.0265, -0.0534,  ..., -0.0076, -0.0147, -0.0822],
+        ...,
+        [ 0.0420, -0.1181,  0.1781,  ...,  0.0438, -0.1226,  0.0618],
+        [-0.0328,  0.0627, -0.1538,  ..., -0.0531,  0.0157, -0.1087],
+        [-0.0568,  0.0789,  0.0447,  ..., -0.0608, -0.0530, -0.0356]],
+       device='cuda:0'), grad: tensor([[-0.0061,  0.0003,  0.0004,  ..., -0.0069, -0.0013, -0.0020],
+        [ 0.0026,  0.0006,  0.0008,  ...,  0.0025,  0.0007, -0.0006],
+        [-0.0001, -0.0047,  0.0006,  ..., -0.0003,  0.0004,  0.0014],
+        ...,
+        [ 0.0006,  0.0005, -0.0064,  ...,  0.0022,  0.0004, -0.0074],
+        [-0.0039,  0.0017,  0.0012,  ..., -0.0057, -0.0006,  0.0017],
+        [ 0.0023,  0.0006,  0.0070,  ...,  0.0026,  0.0004,  0.0032]],
+       device='cuda:0')
+Epoch 361, bias, value: tensor([-0.0268,  0.0418, -0.0017, -0.0101,  0.0223, -0.0283,  0.0012,  0.0034,
+        -0.0059, -0.0147], device='cuda:0'), grad: tensor([-0.0112,  0.0078, -0.0345,  0.0062,  0.0254,  0.0319, -0.0018, -0.0134,
+        -0.0331,  0.0227], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 360, time 214.78, cls_loss 0.5041 cls_loss_mapping 0.0024 cls_loss_causal 0.4445 re_mapping 0.0084 re_causal 0.0199 /// teacc 98.92 lr 0.00010000
+Epoch 362, weight, value: tensor([[-0.0735, -0.1487, -0.1054,  ..., -0.0371,  0.0576, -0.1058],
+        [-0.0788, -0.0911, -0.0866,  ...,  0.0983, -0.0357,  0.2301],
+        [ 0.0034, -0.0273, -0.0525,  ..., -0.0068, -0.0144, -0.0821],
+        ...,
+        [ 0.0407, -0.1191,  0.1784,  ...,  0.0442, -0.1207,  0.0631],
+        [-0.0332,  0.0636, -0.1544,  ..., -0.0540,  0.0152, -0.1097],
+        [-0.0575,  0.0793,  0.0448,  ..., -0.0605, -0.0523, -0.0349]],
+       device='cuda:0'), grad: tensor([[ 2.0489e-07,  2.6077e-07,  1.1846e-06,  ..., -4.1733e-03,
+          1.5271e-04, -1.2283e-03],
+        [ 1.4063e-06,  1.6578e-07,  3.8743e-06,  ...,  1.1883e-03,
+          2.7418e-04,  1.1766e-04],
+        [ 9.6083e-05,  4.7348e-06,  2.5988e-04,  ...,  2.2106e-03,
+          6.7902e-04,  1.4937e-04],
+        ...,
+        [ 2.8849e-04,  1.0431e-07,  4.9782e-04,  ...,  2.0180e-03,
+          6.7186e-04,  2.6560e-04],
+        [ 4.9546e-06,  3.2008e-05,  1.0043e-05,  ..., -7.7009e-04,
+          5.2166e-04,  1.0872e-04],
+        [ 7.7486e-05,  4.4517e-06,  1.5485e-04,  ...,  1.1635e-03,
+          1.0719e-03,  1.4389e-04]], device='cuda:0')
+Epoch 362, bias, value: tensor([-0.0263,  0.0425, -0.0010, -0.0112,  0.0228, -0.0296,  0.0011,  0.0044,
+        -0.0059, -0.0154], device='cuda:0'), grad: tensor([-0.0441,  0.0245, -0.0353,  0.0098,  0.0177, -0.0090, -0.0136,  0.0322,
+        -0.0056,  0.0234], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 361, time 214.94, cls_loss 0.5597 cls_loss_mapping 0.0028 cls_loss_causal 0.4838 re_mapping 0.0093 re_causal 0.0215 /// teacc 98.83 lr 0.00010000
+Epoch 363, weight, value: tensor([[-0.0738, -0.1494, -0.1058,  ..., -0.0374,  0.0574, -0.1053],
+        [-0.0794, -0.0922, -0.0862,  ...,  0.0993, -0.0361,  0.2300],
+        [ 0.0029, -0.0258, -0.0539,  ..., -0.0071, -0.0150, -0.0831],
+        ...,
+        [ 0.0405, -0.1184,  0.1777,  ...,  0.0429, -0.1220,  0.0633],
+        [-0.0326,  0.0631, -0.1531,  ..., -0.0535,  0.0156, -0.1086],
+        [-0.0571,  0.0795,  0.0446,  ..., -0.0612, -0.0515, -0.0361]],
+       device='cuda:0'), grad: tensor([[ 1.9699e-05,  4.3440e-04,  4.3958e-07,  ...,  5.4264e-04,
+          3.7886e-06,  1.1873e-04],
+        [ 3.0965e-05, -2.9583e-03,  6.3069e-06,  ..., -2.8801e-03,
+          1.7174e-06, -1.0281e-03],
+        [ 1.0985e-04,  1.0452e-03,  2.9311e-05,  ...,  1.6708e-03,
+          5.2378e-06,  2.1183e-04],
+        ...,
+        [-1.0505e-05,  5.2738e-04, -5.2780e-05,  ...,  3.7718e-04,
+          5.8681e-05,  1.0496e-04],
+        [ 3.9428e-05,  1.8291e-03,  2.4159e-06,  ...,  6.5660e-04,
+         -8.7585e-03, -5.3520e-03],
+        [ 1.5974e-05,  8.7128e-03,  1.5929e-05,  ...,  3.9768e-04,
+          6.7406e-03,  4.1847e-03]], device='cuda:0')
+Epoch 363, bias, value: tensor([-0.0261,  0.0426, -0.0010, -0.0105,  0.0234, -0.0304,  0.0005,  0.0034,
+        -0.0047, -0.0159], device='cuda:0'), grad: tensor([-0.0171, -0.0159,  0.0201, -0.0428,  0.0172,  0.0056, -0.0022, -0.0195,
+        -0.0135,  0.0683], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 362----------------------------------------------------
+epoch 362, time 231.09, cls_loss 0.5709 cls_loss_mapping 0.0042 cls_loss_causal 0.5029 re_mapping 0.0091 re_causal 0.0209 /// teacc 98.99 lr 0.00010000
+Epoch 364, weight, value: tensor([[-0.0721, -0.1493, -0.1056,  ..., -0.0373,  0.0580, -0.1053],
+        [-0.0804, -0.0924, -0.0866,  ...,  0.0982, -0.0362,  0.2305],
+        [ 0.0031, -0.0265, -0.0548,  ..., -0.0065, -0.0151, -0.0815],
+        ...,
+        [ 0.0415, -0.1189,  0.1767,  ...,  0.0423, -0.1191,  0.0631],
+        [-0.0321,  0.0633, -0.1535,  ..., -0.0529,  0.0164, -0.1092],
+        [-0.0592,  0.0800,  0.0452,  ..., -0.0619, -0.0513, -0.0354]],
+       device='cuda:0'), grad: tensor([[ 8.8882e-04,  7.4339e-04,  4.1223e-04,  ...,  2.2240e-03,
+          1.7920e-03,  7.7724e-04],
+        [ 2.3496e-04,  2.6643e-05,  1.0574e-04,  ..., -7.1144e-03,
+          4.9400e-04, -4.8256e-03],
+        [ 4.9496e-04,  1.7929e-02,  5.0087e-03,  ...,  3.9711e-03,
+         -1.0777e-03,  5.1355e-04],
+        ...,
+        [-2.6870e-04, -2.0203e-02, -7.8106e-04,  ...,  1.0526e-04,
+          7.0620e-04, -7.8964e-04],
+        [-2.3727e-03,  1.5569e-04,  3.5596e-04,  ..., -7.2145e-04,
+         -6.4735e-03, -9.9945e-04],
+        [ 6.1560e-04,  4.6110e-04,  6.6090e-04,  ...,  1.3151e-03,
+          7.4768e-04,  7.4768e-04]], device='cuda:0')
+Epoch 364, bias, value: tensor([-0.0267,  0.0407,  0.0003, -0.0111,  0.0229, -0.0300,  0.0018,  0.0034,
+        -0.0042, -0.0157], device='cuda:0'), grad: tensor([ 0.0255, -0.0139,  0.0483,  0.0106, -0.0128, -0.0466,  0.0271, -0.0119,
+        -0.0463,  0.0200], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 363, time 214.79, cls_loss 0.5515 cls_loss_mapping 0.0026 cls_loss_causal 0.4865 re_mapping 0.0087 re_causal 0.0208 /// teacc 98.91 lr 0.00010000
+Epoch 365, weight, value: tensor([[-0.0719, -0.1497, -0.1066,  ..., -0.0372,  0.0587, -0.1065],
+        [-0.0800, -0.0928, -0.0865,  ...,  0.0984, -0.0366,  0.2290],
+        [ 0.0024, -0.0276, -0.0551,  ..., -0.0082, -0.0152, -0.0802],
+        ...,
+        [ 0.0416, -0.1174,  0.1768,  ...,  0.0429, -0.1198,  0.0639],
+        [-0.0314,  0.0634, -0.1534,  ..., -0.0539,  0.0167, -0.1086],
+        [-0.0596,  0.0798,  0.0455,  ..., -0.0610, -0.0517, -0.0355]],
+       device='cuda:0'), grad: tensor([[ 1.1748e-04,  3.8818e-06,  7.0669e-06,  ...,  8.3113e-04,
+          5.4455e-04,  1.6678e-02],
+        [ 8.6486e-05,  6.7428e-07,  8.1025e-07,  ...,  2.0874e-04,
+          1.6952e-04,  3.1686e-04],
+        [ 7.8392e-04, -5.1886e-05,  2.3991e-06,  ...,  5.0497e-04,
+          2.6655e-04,  3.2272e-03],
+        ...,
+        [ 3.8195e-04,  6.6757e-06,  2.0191e-05,  ...,  1.9777e-04,
+          5.6803e-05,  1.2960e-03],
+        [ 2.5539e-03, -5.0887e-06,  8.5086e-06,  ...,  1.0080e-03,
+          2.6917e-04,  8.0776e-04],
+        [ 1.4286e-03,  5.5954e-06,  6.2138e-06,  ...,  4.9639e-04,
+          1.0878e-04,  5.2299e-03]], device='cuda:0')
+Epoch 365, bias, value: tensor([-0.0257,  0.0405, -0.0012, -0.0100,  0.0222, -0.0296,  0.0007,  0.0037,
+        -0.0044, -0.0149], device='cuda:0'), grad: tensor([ 0.0009,  0.0048,  0.0076, -0.0142, -0.0452,  0.0414, -0.0057,  0.0046,
+        -0.0203,  0.0259], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 364, time 214.82, cls_loss 0.5162 cls_loss_mapping 0.0033 cls_loss_causal 0.4604 re_mapping 0.0086 re_causal 0.0201 /// teacc 98.79 lr 0.00010000
+Epoch 366, weight, value: tensor([[-0.0698, -0.1494, -0.1057,  ..., -0.0367,  0.0592, -0.1071],
+        [-0.0799, -0.0929, -0.0866,  ...,  0.0988, -0.0370,  0.2300],
+        [ 0.0039, -0.0281, -0.0536,  ..., -0.0078, -0.0165, -0.0798],
+        ...,
+        [ 0.0411, -0.1170,  0.1764,  ...,  0.0429, -0.1195,  0.0636],
+        [-0.0328,  0.0638, -0.1522,  ..., -0.0538,  0.0180, -0.1092],
+        [-0.0598,  0.0795,  0.0452,  ..., -0.0611, -0.0522, -0.0363]],
+       device='cuda:0'), grad: tensor([[ 7.5251e-07,  1.0805e-03,  3.5787e-04,  ...,  1.2522e-03,
+         -1.1548e-05,  7.1144e-04],
+        [ 2.3339e-06,  2.1863e-04, -2.1291e-04,  ..., -1.5125e-03,
+         -3.7581e-05, -2.7866e-03],
+        [ 1.8731e-05,  7.2098e-03,  4.9820e-03,  ...,  1.1883e-03,
+          2.2011e-03,  1.2817e-03],
+        ...,
+        [-2.9355e-05,  1.2455e-03, -1.3456e-03,  ...,  9.8324e-04,
+          3.2693e-05,  9.9659e-04],
+        [ 4.5635e-07, -4.3488e-03, -4.1733e-03,  ...,  1.9894e-03,
+         -2.7351e-03,  2.1706e-03],
+        [ 5.4464e-06, -7.6752e-03, -8.0109e-04,  ..., -2.2621e-03,
+          1.4566e-05, -2.9316e-03]], device='cuda:0')
+Epoch 366, bias, value: tensor([-0.0264,  0.0395, -0.0011, -0.0109,  0.0231, -0.0299,  0.0015,  0.0044,
+        -0.0040, -0.0151], device='cuda:0'), grad: tensor([-0.0117,  0.0084,  0.0491, -0.0031, -0.0041, -0.0071, -0.0133,  0.0103,
+         0.0047, -0.0332], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 365, time 214.70, cls_loss 0.5041 cls_loss_mapping 0.0022 cls_loss_causal 0.4473 re_mapping 0.0087 re_causal 0.0208 /// teacc 98.81 lr 0.00010000
+Epoch 367, weight, value: tensor([[-0.0683, -0.1500, -0.1059,  ..., -0.0368,  0.0600, -0.1074],
+        [-0.0810, -0.0919, -0.0858,  ...,  0.0986, -0.0375,  0.2301],
+        [ 0.0035, -0.0290, -0.0536,  ..., -0.0078, -0.0168, -0.0796],
+        ...,
+        [ 0.0415, -0.1194,  0.1766,  ...,  0.0430, -0.1198,  0.0642],
+        [-0.0320,  0.0661, -0.1514,  ..., -0.0527,  0.0173, -0.1100],
+        [-0.0617,  0.0801,  0.0448,  ..., -0.0609, -0.0526, -0.0361]],
+       device='cuda:0'), grad: tensor([[ 6.2037e-04,  2.8000e-03,  2.7204e-04,  ..., -1.1307e-04,
+         -7.2060e-03,  6.8331e-04],
+        [ 8.0299e-04,  5.1916e-05,  4.1187e-05,  ...,  1.3316e-04,
+          9.4748e-04, -1.7624e-03],
+        [ 7.6532e-04,  7.0214e-05,  9.6977e-05,  ...,  1.4582e-03,
+          1.0805e-03,  8.8882e-04],
+        ...,
+        [ 6.3372e-04,  5.7578e-05,  2.6455e-03,  ...,  4.3259e-03,
+          1.5860e-03,  4.5433e-03],
+        [ 6.1131e-04,  1.9760e-03,  5.8794e-04,  ..., -2.8877e-03,
+          7.8726e-04, -2.7428e-03],
+        [ 1.0118e-03, -4.1747e-04,  8.2397e-04,  ...,  2.1114e-03,
+          1.3857e-03,  1.7653e-03]], device='cuda:0')
+Epoch 367, bias, value: tensor([-0.0268,  0.0402, -0.0016, -0.0107,  0.0235, -0.0306,  0.0017,  0.0042,
+        -0.0034, -0.0154], device='cuda:0'), grad: tensor([-0.0006,  0.0099,  0.0173,  0.0116, -0.0635, -0.0340,  0.0167,  0.0334,
+        -0.0113,  0.0204], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 366, time 214.78, cls_loss 0.5072 cls_loss_mapping 0.0022 cls_loss_causal 0.4381 re_mapping 0.0096 re_causal 0.0219 /// teacc 98.74 lr 0.00010000
+Epoch 368, weight, value: tensor([[-0.0679, -0.1515, -0.1063,  ..., -0.0375,  0.0607, -0.1081],
+        [-0.0805, -0.0923, -0.0862,  ...,  0.0988, -0.0380,  0.2311],
+        [ 0.0028, -0.0286, -0.0535,  ..., -0.0064, -0.0159, -0.0797],
+        ...,
+        [ 0.0409, -0.1204,  0.1766,  ...,  0.0434, -0.1200,  0.0638],
+        [-0.0318,  0.0654, -0.1508,  ..., -0.0531,  0.0173, -0.1105],
+        [-0.0618,  0.0799,  0.0440,  ..., -0.0612, -0.0529, -0.0366]],
+       device='cuda:0'), grad: tensor([[ 4.2391e-04,  4.0627e-04,  1.9759e-05,  ...,  6.2847e-04,
+          3.2520e-04,  9.6738e-05],
+        [ 2.9087e-04,  2.2697e-04,  1.6704e-05,  ..., -4.0855e-03,
+          1.8847e-04,  4.6343e-05],
+        [-3.2349e-03,  2.8372e-04,  1.1611e-04,  ..., -4.6062e-04,
+         -4.0865e-04,  4.0007e-04],
+        ...,
+        [ 4.2105e-04,  1.3864e-04, -2.2805e-04,  ..., -1.7130e-04,
+          1.8239e-04, -4.0970e-03],
+        [ 5.8502e-05, -5.1041e-03, -6.2823e-05,  ...,  2.2042e-04,
+         -3.1452e-03, -1.5879e-04],
+        [ 6.2609e-04,  4.6110e-04,  5.2065e-05,  ...,  1.0386e-03,
+          3.2258e-04,  3.2196e-03]], device='cuda:0')
+Epoch 368, bias, value: tensor([-0.0277,  0.0413, -0.0016, -0.0115,  0.0229, -0.0301,  0.0019,  0.0042,
+        -0.0037, -0.0146], device='cuda:0'), grad: tensor([ 0.0229, -0.0322, -0.0617, -0.0137,  0.0347,  0.0394,  0.0079,  0.0021,
+        -0.0631,  0.0638], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 367, time 214.88, cls_loss 0.5229 cls_loss_mapping 0.0030 cls_loss_causal 0.4625 re_mapping 0.0085 re_causal 0.0195 /// teacc 98.84 lr 0.00010000
+Epoch 369, weight, value: tensor([[-0.0683, -0.1515, -0.1067,  ..., -0.0370,  0.0620, -0.1087],
+        [-0.0803, -0.0932, -0.0863,  ...,  0.0983, -0.0371,  0.2317],
+        [ 0.0021, -0.0277, -0.0538,  ..., -0.0073, -0.0161, -0.0799],
+        ...,
+        [ 0.0408, -0.1199,  0.1765,  ...,  0.0433, -0.1205,  0.0641],
+        [-0.0324,  0.0664, -0.1517,  ..., -0.0534,  0.0173, -0.1121],
+        [-0.0616,  0.0788,  0.0436,  ..., -0.0616, -0.0526, -0.0357]],
+       device='cuda:0'), grad: tensor([[-2.0599e-03,  1.2434e-04,  5.8003e-06,  ..., -7.3814e-03,
+          8.3029e-05, -4.1084e-03],
+        [ 1.6248e-04,  3.4589e-06,  7.7412e-06,  ...,  1.6680e-03,
+          1.4156e-06, -6.4392e-03],
+        [ 1.8406e-03,  3.4362e-05, -8.0490e-03,  ..., -7.1411e-03,
+          4.9062e-06, -5.3291e-03],
+        ...,
+        [ 1.8749e-03,  1.1072e-05,  8.0032e-03,  ...,  8.7128e-03,
+          5.3272e-07,  4.4746e-03],
+        [ 5.8651e-04,  1.1003e-04,  4.2558e-05,  ...,  1.9016e-03,
+          4.2975e-05,  9.6941e-04],
+        [-7.3051e-04, -5.9724e-05,  3.1352e-05,  ...,  2.0618e-03,
+          1.9930e-06,  1.3132e-03]], device='cuda:0')
+Epoch 369, bias, value: tensor([-0.0272,  0.0414, -0.0023, -0.0102,  0.0229, -0.0308,  0.0015,  0.0045,
+        -0.0039, -0.0149], device='cuda:0'), grad: tensor([-0.0459, -0.0159, -0.0390,  0.0071,  0.0386, -0.0382,  0.0154,  0.0570,
+         0.0054,  0.0154], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 368----------------------------------------------------
+epoch 368, time 231.14, cls_loss 0.5215 cls_loss_mapping 0.0030 cls_loss_causal 0.4525 re_mapping 0.0090 re_causal 0.0211 /// teacc 99.01 lr 0.00010000
+Epoch 370, weight, value: tensor([[-0.0678, -0.1514, -0.1062,  ..., -0.0373,  0.0621, -0.1098],
+        [-0.0804, -0.0935, -0.0858,  ...,  0.1006, -0.0380,  0.2337],
+        [ 0.0019, -0.0275, -0.0526,  ..., -0.0071, -0.0158, -0.0798],
+        ...,
+        [ 0.0406, -0.1198,  0.1763,  ...,  0.0426, -0.1195,  0.0649],
+        [-0.0327,  0.0662, -0.1526,  ..., -0.0537,  0.0177, -0.1130],
+        [-0.0614,  0.0781,  0.0448,  ..., -0.0621, -0.0522, -0.0354]],
+       device='cuda:0'), grad: tensor([[ 1.1120e-03,  5.5879e-09,  6.6683e-07,  ..., -1.3101e-04,
+         -2.9244e-06, -1.0918e-02],
+        [ 3.7980e-04,  9.3132e-09,  3.0510e-06,  ..., -6.0892e-04,
+          6.6683e-07, -2.7299e-04],
+        [-6.1836e-03,  8.1956e-08,  7.7561e-06,  ..., -2.9221e-03,
+          2.6636e-07,  1.0997e-04],
+        ...,
+        [ 1.4830e-04,  4.4703e-08, -8.5056e-05,  ...,  1.2302e-03,
+          3.3528e-08,  3.2043e-03],
+        [ 2.1112e-04, -4.2841e-08,  5.4426e-06,  ...,  4.9263e-05,
+          3.1106e-07,  1.2426e-03],
+        [ 9.0551e-04,  1.9372e-07,  4.2886e-05,  ...,  1.6775e-03,
+          3.3900e-07,  4.6806e-03]], device='cuda:0')
+Epoch 370, bias, value: tensor([-0.0276,  0.0410, -0.0018, -0.0095,  0.0232, -0.0311,  0.0015,  0.0043,
+        -0.0039, -0.0151], device='cuda:0'), grad: tensor([ 0.0015, -0.0161, -0.0146,  0.0195, -0.0179, -0.0175,  0.0147,  0.0218,
+        -0.0159,  0.0245], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 369, time 214.69, cls_loss 0.5130 cls_loss_mapping 0.0022 cls_loss_causal 0.4464 re_mapping 0.0088 re_causal 0.0209 /// teacc 98.88 lr 0.00010000
+Epoch 371, weight, value: tensor([[-0.0675, -0.1530, -0.1048,  ..., -0.0363,  0.0622, -0.1070],
+        [-0.0814, -0.0939, -0.0861,  ...,  0.1006, -0.0380,  0.2331],
+        [ 0.0023, -0.0274, -0.0536,  ..., -0.0076, -0.0158, -0.0802],
+        ...,
+        [ 0.0398, -0.1198,  0.1769,  ...,  0.0421, -0.1197,  0.0642],
+        [-0.0319,  0.0663, -0.1535,  ..., -0.0535,  0.0187, -0.1138],
+        [-0.0614,  0.0789,  0.0452,  ..., -0.0620, -0.0518, -0.0356]],
+       device='cuda:0'), grad: tensor([[ 9.0837e-04,  1.9050e-04,  3.2115e-04,  ..., -1.6994e-03,
+          2.6774e-04,  3.0231e-04],
+        [ 9.5272e-04,  1.2624e-04,  2.8467e-04,  ...,  4.9305e-04,
+          2.4028e-07,  2.9421e-04],
+        [ 1.5268e-03,  6.2418e-04, -1.1971e-02,  ...,  2.9039e-04,
+          1.0526e-04,  8.3733e-04],
+        ...,
+        [ 8.8263e-04,  3.2330e-04,  2.4414e-03,  ...,  2.1038e-03,
+          8.7544e-08,  2.1338e-04],
+        [-3.0766e-03,  1.4086e-03,  4.2915e-04,  ..., -7.0763e-03,
+          9.1553e-03, -2.2144e-03],
+        [ 1.6174e-03, -1.9989e-03,  2.5702e-04,  ...,  1.9646e-03,
+          1.6794e-05,  3.4785e-04]], device='cuda:0')
+Epoch 371, bias, value: tensor([-0.0275,  0.0410, -0.0010, -0.0091,  0.0230, -0.0303,  0.0016,  0.0039,
+        -0.0045, -0.0158], device='cuda:0'), grad: tensor([-0.0215,  0.0120, -0.0027,  0.0064,  0.0125,  0.0117, -0.0195,  0.0161,
+        -0.0166,  0.0017], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 370, time 214.86, cls_loss 0.5178 cls_loss_mapping 0.0025 cls_loss_causal 0.4575 re_mapping 0.0090 re_causal 0.0214 /// teacc 98.91 lr 0.00010000
+Epoch 372, weight, value: tensor([[-0.0690, -0.1537, -0.1052,  ..., -0.0359,  0.0620, -0.1074],
+        [-0.0811, -0.0941, -0.0863,  ...,  0.1004, -0.0376,  0.2336],
+        [ 0.0018, -0.0287, -0.0543,  ..., -0.0065, -0.0155, -0.0805],
+        ...,
+        [ 0.0417, -0.1203,  0.1767,  ...,  0.0422, -0.1201,  0.0648],
+        [-0.0308,  0.0657, -0.1544,  ..., -0.0530,  0.0177, -0.1146],
+        [-0.0623,  0.0802,  0.0456,  ..., -0.0627, -0.0507, -0.0347]],
+       device='cuda:0'), grad: tensor([[ 3.3528e-05,  2.6751e-04,  1.8442e-04,  ..., -3.6383e-04,
+         -8.6427e-06,  9.1314e-05],
+        [ 1.1787e-03,  8.9109e-05,  6.3801e-04,  ...,  1.1589e-02,
+          1.0990e-07,  6.1874e-03],
+        [ 7.5161e-05,  8.3625e-05,  4.6806e-03,  ...,  2.7676e-03,
+          4.4890e-07,  2.6932e-03],
+        ...,
+        [-1.9083e-03,  7.4148e-05, -2.2755e-03,  ..., -5.6725e-03,
+          5.0478e-07,  4.3793e-03],
+        [ 4.4972e-05, -1.5974e-03,  1.3363e-04,  ..., -6.2943e-03,
+          4.4890e-07, -3.8853e-03],
+        [ 5.8699e-04,  1.5545e-04,  3.9148e-04,  ...,  2.0866e-03,
+          6.2026e-06, -5.7030e-03]], device='cuda:0')
+Epoch 372, bias, value: tensor([-0.0271,  0.0416, -0.0012, -0.0101,  0.0236, -0.0292,  0.0012,  0.0034,
+        -0.0055, -0.0154], device='cuda:0'), grad: tensor([-0.0026,  0.0424, -0.0493,  0.0265, -0.0138,  0.0317,  0.0496, -0.0291,
+        -0.0478, -0.0076], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 371, time 214.70, cls_loss 0.5205 cls_loss_mapping 0.0025 cls_loss_causal 0.4585 re_mapping 0.0085 re_causal 0.0211 /// teacc 98.81 lr 0.00010000
+Epoch 373, weight, value: tensor([[-0.0711, -0.1536, -0.1072,  ..., -0.0364,  0.0608, -0.1071],
+        [-0.0803, -0.0930, -0.0867,  ...,  0.0999, -0.0376,  0.2344],
+        [ 0.0028, -0.0296, -0.0533,  ..., -0.0061, -0.0144, -0.0807],
+        ...,
+        [ 0.0417, -0.1202,  0.1758,  ...,  0.0420, -0.1201,  0.0642],
+        [-0.0306,  0.0655, -0.1539,  ..., -0.0521,  0.0178, -0.1144],
+        [-0.0624,  0.0805,  0.0462,  ..., -0.0627, -0.0494, -0.0354]],
+       device='cuda:0'), grad: tensor([[ 3.2258e-04,  3.5733e-05,  6.4354e-07,  ...,  1.5459e-03,
+          8.1003e-05,  1.8775e-04],
+        [ 6.0844e-04,  3.0547e-05,  7.1339e-07,  ...,  1.8072e-03,
+          3.9071e-05,  8.4341e-05],
+        [ 4.3631e-04,  6.9916e-05,  2.3153e-06,  ...,  5.9366e-04,
+          2.4033e-04,  2.5296e-04],
+        ...,
+        [ 3.6764e-04,  9.2268e-05,  6.9700e-06,  ...,  1.9979e-04,
+          5.1588e-05, -1.0786e-03],
+        [ 1.0169e-04, -1.7614e-03,  1.1384e-05,  ...,  1.9369e-03,
+         -2.1763e-03, -4.1604e-05],
+        [-3.0613e-03, -3.5584e-05, -9.0599e-05,  ..., -2.3708e-03,
+          6.8307e-05,  1.6570e-04]], device='cuda:0')
+Epoch 373, bias, value: tensor([-0.0280,  0.0414, -0.0012, -0.0102,  0.0236, -0.0300,  0.0012,  0.0045,
+        -0.0048, -0.0154], device='cuda:0'), grad: tensor([ 0.0106,  0.0125,  0.0059, -0.0130, -0.0181,  0.0148,  0.0104,  0.0084,
+        -0.0122, -0.0191], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 372, time 214.82, cls_loss 0.4915 cls_loss_mapping 0.0015 cls_loss_causal 0.4403 re_mapping 0.0089 re_causal 0.0211 /// teacc 98.86 lr 0.00010000
+Epoch 374, weight, value: tensor([[-0.0718, -0.1529, -0.1076,  ..., -0.0361,  0.0606, -0.1076],
+        [-0.0797, -0.0925, -0.0870,  ...,  0.0992, -0.0378,  0.2343],
+        [ 0.0027, -0.0298, -0.0543,  ..., -0.0061, -0.0146, -0.0814],
+        ...,
+        [ 0.0407, -0.1208,  0.1768,  ...,  0.0418, -0.1203,  0.0651],
+        [-0.0308,  0.0659, -0.1526,  ..., -0.0526,  0.0191, -0.1139],
+        [-0.0622,  0.0805,  0.0454,  ..., -0.0624, -0.0496, -0.0365]],
+       device='cuda:0'), grad: tensor([[-1.3940e-05,  4.8816e-05,  8.5890e-05,  ...,  3.4642e-04,
+         -3.7575e-04,  7.6628e-04],
+        [-1.7989e-04,  1.7512e-04,  4.4847e-04,  ..., -9.7466e-04,
+          3.7961e-06, -2.1019e-03],
+        [ 1.1241e-04,  4.6206e-04,  8.1158e-04,  ...,  2.9049e-03,
+          1.7893e-04,  3.5715e-04],
+        ...,
+        [-2.9802e-04,  8.4019e-04,  1.1263e-03,  ...,  3.7270e-03,
+          6.7838e-06,  1.1015e-03],
+        [ 1.2374e-04,  2.9087e-05,  1.2290e-04,  ...,  9.1696e-04,
+          1.5259e-05,  2.8748e-02],
+        [-1.9252e-04,  1.6236e-04,  3.4142e-04,  ..., -3.1605e-03,
+          1.7107e-05, -3.3600e-02]], device='cuda:0')
+Epoch 374, bias, value: tensor([-0.0275,  0.0414, -0.0013, -0.0103,  0.0230, -0.0295,  0.0013,  0.0038,
+        -0.0042, -0.0156], device='cuda:0'), grad: tensor([ 0.0131, -0.0102,  0.0265,  0.0005, -0.0069, -0.0158,  0.0224, -0.0054,
+         0.0174, -0.0416], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 373, time 214.79, cls_loss 0.5109 cls_loss_mapping 0.0025 cls_loss_causal 0.4517 re_mapping 0.0084 re_causal 0.0199 /// teacc 98.89 lr 0.00010000
+Epoch 375, weight, value: tensor([[-0.0720, -0.1528, -0.1077,  ..., -0.0362,  0.0606, -0.1078],
+        [-0.0790, -0.0919, -0.0863,  ...,  0.1001, -0.0385,  0.2344],
+        [ 0.0032, -0.0297, -0.0547,  ..., -0.0059, -0.0150, -0.0811],
+        ...,
+        [ 0.0400, -0.1207,  0.1766,  ...,  0.0408, -0.1208,  0.0648],
+        [-0.0293,  0.0662, -0.1531,  ..., -0.0523,  0.0193, -0.1164],
+        [-0.0616,  0.0798,  0.0450,  ..., -0.0621, -0.0497, -0.0354]],
+       device='cuda:0'), grad: tensor([[ 0.0009,  0.0007,  0.0002,  ...,  0.0016,  0.0038,  0.0007],
+        [ 0.0015,  0.0009,  0.0003,  ...,  0.0021,  0.0004,  0.0009],
+        [ 0.0021,  0.0014,  0.0003,  ...,  0.0029,  0.0233,  0.0061],
+        ...,
+        [-0.0080, -0.0048, -0.0024,  ..., -0.0075, -0.0019, -0.0075],
+        [ 0.0045,  0.0027,  0.0001,  ...,  0.0047,  0.0029,  0.0011],
+        [ 0.0032,  0.0025,  0.0006,  ...,  0.0042,  0.0005,  0.0027]],
+       device='cuda:0')
+Epoch 375, bias, value: tensor([-0.0275,  0.0411, -0.0014, -0.0107,  0.0239, -0.0309,  0.0021,  0.0032,
+        -0.0035, -0.0152], device='cuda:0'), grad: tensor([ 0.0192,  0.0189,  0.0365,  0.0174, -0.0167,  0.0115, -0.0753, -0.0502,
+         0.0040,  0.0346], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 374, time 214.53, cls_loss 0.5199 cls_loss_mapping 0.0023 cls_loss_causal 0.4486 re_mapping 0.0086 re_causal 0.0213 /// teacc 98.76 lr 0.00010000
+Epoch 376, weight, value: tensor([[-0.0724, -0.1538, -0.1081,  ..., -0.0363,  0.0607, -0.1059],
+        [-0.0799, -0.0924, -0.0872,  ...,  0.0996, -0.0386,  0.2343],
+        [ 0.0030, -0.0298, -0.0550,  ..., -0.0053, -0.0162, -0.0818],
+        ...,
+        [ 0.0399, -0.1209,  0.1767,  ...,  0.0409, -0.1214,  0.0644],
+        [-0.0287,  0.0667, -0.1524,  ..., -0.0528,  0.0192, -0.1180],
+        [-0.0629,  0.0813,  0.0446,  ..., -0.0634, -0.0495, -0.0367]],
+       device='cuda:0'), grad: tensor([[-1.5526e-03, -5.1594e-04, -3.4285e-04,  ..., -5.3787e-04,
+         -1.5569e-04, -2.3961e-04],
+        [ 2.0117e-05,  2.1088e-04,  3.6269e-05,  ...,  5.5790e-04,
+          2.9691e-06,  3.7766e-04],
+        [ 1.7834e-04,  2.3305e-04,  1.8322e-04,  ...,  4.9305e-04,
+          4.6372e-05,  2.8777e-04],
+        ...,
+        [-2.8953e-05,  7.0035e-05, -6.0320e-04,  ...,  7.2956e-05,
+          6.1095e-06, -1.0896e-04],
+        [ 2.3246e-04,  1.5430e-03,  3.0518e-04,  ...,  3.5324e-03,
+          2.5123e-05,  2.5234e-03],
+        [ 8.5473e-05, -4.1733e-03,  7.7486e-05,  ...,  6.1846e-04,
+          1.5095e-05,  4.1747e-04]], device='cuda:0')
+Epoch 376, bias, value: tensor([-0.0278,  0.0417, -0.0012, -0.0106,  0.0230, -0.0312,  0.0032,  0.0034,
+        -0.0033, -0.0160], device='cuda:0'), grad: tensor([ 0.0006,  0.0036,  0.0173, -0.0281,  0.0215,  0.0140, -0.0131, -0.0165,
+         0.0133, -0.0127], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 375, time 214.66, cls_loss 0.5050 cls_loss_mapping 0.0046 cls_loss_causal 0.4531 re_mapping 0.0086 re_causal 0.0205 /// teacc 98.88 lr 0.00010000
+Epoch 377, weight, value: tensor([[-0.0723, -0.1537, -0.1084,  ..., -0.0364,  0.0597, -0.1055],
+        [-0.0798, -0.0917, -0.0881,  ...,  0.0998, -0.0397,  0.2336],
+        [ 0.0034, -0.0295, -0.0557,  ..., -0.0059, -0.0128, -0.0817],
+        ...,
+        [ 0.0397, -0.1208,  0.1784,  ...,  0.0413, -0.1218,  0.0646],
+        [-0.0292,  0.0663, -0.1521,  ..., -0.0527,  0.0183, -0.1187],
+        [-0.0622,  0.0814,  0.0436,  ..., -0.0639, -0.0499, -0.0358]],
+       device='cuda:0'), grad: tensor([[ 1.9586e-04,  1.1480e-04,  1.5163e-04,  ...,  1.0996e-03,
+          3.8385e-05,  4.6563e-04],
+        [ 8.7619e-05,  3.5793e-05,  4.6194e-05,  ..., -3.7041e-03,
+          4.0770e-05, -2.1782e-03],
+        [-1.2798e-03,  2.4271e-04,  1.2290e-04,  ..., -1.4048e-03,
+         -4.4584e-04,  7.1108e-05],
+        ...,
+        [ 1.0490e-04,  2.0730e-04, -7.1526e-04,  ...,  1.8911e-03,
+          2.9534e-05, -3.4642e-04],
+        [ 6.7174e-05, -4.6015e-04,  1.8859e-04,  ...,  1.4391e-03,
+          4.0121e-06,  5.0497e-04],
+        [ 2.1362e-04,  2.3186e-04,  4.7016e-04,  ...,  1.1759e-03,
+          4.0323e-05,  3.0828e-04]], device='cuda:0')
+Epoch 377, bias, value: tensor([-0.0279,  0.0425, -0.0016, -0.0104,  0.0229, -0.0307,  0.0025,  0.0041,
+        -0.0043, -0.0160], device='cuda:0'), grad: tensor([ 0.0077,  0.0046, -0.0399, -0.0366,  0.0226,  0.0217, -0.0183,  0.0157,
+         0.0092,  0.0133], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 376, time 214.64, cls_loss 0.5240 cls_loss_mapping 0.0024 cls_loss_causal 0.4583 re_mapping 0.0088 re_causal 0.0217 /// teacc 98.79 lr 0.00010000
+Epoch 378, weight, value: tensor([[-0.0728, -0.1535, -0.1098,  ..., -0.0375,  0.0587, -0.1059],
+        [-0.0810, -0.0920, -0.0899,  ...,  0.1000, -0.0405,  0.2344],
+        [ 0.0035, -0.0304, -0.0566,  ..., -0.0065, -0.0128, -0.0823],
+        ...,
+        [ 0.0395, -0.1202,  0.1782,  ...,  0.0404, -0.1215,  0.0648],
+        [-0.0292,  0.0661, -0.1527,  ..., -0.0523,  0.0193, -0.1182],
+        [-0.0625,  0.0813,  0.0432,  ..., -0.0623, -0.0501, -0.0366]],
+       device='cuda:0'), grad: tensor([[-1.5411e-03, -3.9139e-03,  2.4006e-05,  ..., -5.8899e-03,
+          5.2404e-04, -1.2482e-02],
+        [ 2.3041e-03,  3.2131e-06, -4.6760e-05,  ..., -3.4485e-03,
+          9.1732e-05,  8.2550e-03],
+        [-4.2877e-03,  9.5904e-05, -6.8665e-04,  ...,  6.9618e-03,
+          5.5701e-05, -4.5180e-04],
+        ...,
+        [ 5.7316e-04,  5.1200e-05,  4.7493e-04,  ..., -6.0501e-03,
+         -1.9398e-03,  1.0490e-03],
+        [ 2.5630e-04,  7.3195e-04, -1.2174e-05,  ...,  1.7376e-03,
+          7.2181e-05,  8.2445e-04],
+        [ 4.8470e-04,  2.9850e-03,  3.2753e-05,  ..., -5.0964e-03,
+          5.4806e-05,  2.0981e-05]], device='cuda:0')
+Epoch 378, bias, value: tensor([-0.0283,  0.0420, -0.0024, -0.0110,  0.0226, -0.0297,  0.0022,  0.0048,
+        -0.0032, -0.0159], device='cuda:0'), grad: tensor([-0.0920,  0.0159,  0.0355,  0.0162,  0.0305, -0.0076,  0.0400, -0.0852,
+         0.0317,  0.0149], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 377, time 214.75, cls_loss 0.5187 cls_loss_mapping 0.0028 cls_loss_causal 0.4612 re_mapping 0.0085 re_causal 0.0202 /// teacc 98.87 lr 0.00010000
+Epoch 379, weight, value: tensor([[-0.0722, -0.1529, -0.1113,  ..., -0.0378,  0.0593, -0.1056],
+        [-0.0809, -0.0934, -0.0911,  ...,  0.1000, -0.0411,  0.2346],
+        [ 0.0045, -0.0303, -0.0577,  ..., -0.0064, -0.0132, -0.0812],
+        ...,
+        [ 0.0398, -0.1214,  0.1790,  ...,  0.0415, -0.1226,  0.0641],
+        [-0.0291,  0.0650, -0.1515,  ..., -0.0524,  0.0191, -0.1184],
+        [-0.0630,  0.0820,  0.0422,  ..., -0.0628, -0.0503, -0.0356]],
+       device='cuda:0'), grad: tensor([[ 7.2360e-05,  2.6077e-07,  3.8184e-08,  ...,  4.5896e-04,
+         -1.5097e-03,  1.6842e-03],
+        [ 5.3024e-04, -9.6917e-05, -7.1190e-06,  ...,  3.1643e-03,
+          8.8751e-05,  1.5202e-03],
+        [ 2.4962e-04,  2.8722e-06,  4.8764e-06,  ...,  2.4567e-03,
+          9.7811e-05,  1.2064e-03],
+        ...,
+        [ 3.9649e-04,  5.5023e-06, -1.0139e-04,  ...,  3.3073e-03,
+          1.7488e-04,  1.5850e-03],
+        [-4.3259e-03,  6.5327e-05,  4.6045e-05,  ...,  1.3428e-03,
+          8.2791e-05,  1.1616e-03],
+        [ 4.6825e-04,  5.3942e-05,  8.9481e-06,  ...,  2.8133e-03,
+          2.1899e-04,  1.3990e-03]], device='cuda:0')
+Epoch 379, bias, value: tensor([-0.0289,  0.0423, -0.0020, -0.0105,  0.0218, -0.0294,  0.0022,  0.0062,
+        -0.0048, -0.0160], device='cuda:0'), grad: tensor([-0.0108,  0.0199,  0.0170, -0.0114,  0.0015, -0.0082, -0.0018,  0.0206,
+        -0.0376,  0.0108], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 378, time 214.79, cls_loss 0.5364 cls_loss_mapping 0.0031 cls_loss_causal 0.4723 re_mapping 0.0087 re_causal 0.0212 /// teacc 98.83 lr 0.00010000
+Epoch 380, weight, value: tensor([[-0.0733, -0.1540, -0.1118,  ..., -0.0391,  0.0600, -0.1057],
+        [-0.0799, -0.0930, -0.0898,  ...,  0.1000, -0.0419,  0.2344],
+        [ 0.0047, -0.0300, -0.0574,  ..., -0.0066, -0.0133, -0.0821],
+        ...,
+        [ 0.0398, -0.1222,  0.1795,  ...,  0.0413, -0.1225,  0.0643],
+        [-0.0277,  0.0654, -0.1507,  ..., -0.0511,  0.0194, -0.1188],
+        [-0.0634,  0.0814,  0.0413,  ..., -0.0624, -0.0513, -0.0353]],
+       device='cuda:0'), grad: tensor([[ 2.8229e-04,  1.7309e-04, -4.1428e-03,  ..., -4.7455e-03,
+          6.0511e-04,  4.8208e-04],
+        [-4.5013e-03,  2.3329e-04, -5.2929e-04,  ...,  3.5095e-03,
+          1.1355e-05,  4.0398e-03],
+        [ 3.8934e-04, -2.1130e-05,  6.6423e-04,  ...,  1.4296e-03,
+          2.5436e-05,  5.9986e-04],
+        ...,
+        [ 1.7033e-03,  2.3115e-04,  1.0033e-03,  ..., -2.5578e-03,
+          3.5048e-05,  5.2977e-04],
+        [ 5.8365e-04, -3.8838e-04,  5.1165e-04,  ...,  6.4516e-04,
+          4.9382e-05,  1.6749e-04],
+        [ 9.9754e-04,  2.0897e-04,  1.0900e-03,  ...,  2.0447e-03,
+          4.4155e-04,  1.2503e-03]], device='cuda:0')
+Epoch 380, bias, value: tensor([-0.0295,  0.0419, -0.0021, -0.0094,  0.0218, -0.0298,  0.0024,  0.0057,
+        -0.0040, -0.0162], device='cuda:0'), grad: tensor([ 0.0126,  0.0095,  0.0173,  0.0285, -0.0129,  0.0189, -0.0698,  0.0070,
+        -0.0043, -0.0066], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 379, time 214.58, cls_loss 0.5259 cls_loss_mapping 0.0027 cls_loss_causal 0.4594 re_mapping 0.0083 re_causal 0.0202 /// teacc 98.85 lr 0.00010000
+Epoch 381, weight, value: tensor([[-0.0733, -0.1544, -0.1123,  ..., -0.0385,  0.0604, -0.1058],
+        [-0.0805, -0.0932, -0.0908,  ...,  0.1001, -0.0421,  0.2338],
+        [ 0.0053, -0.0303, -0.0562,  ..., -0.0063, -0.0128, -0.0813],
+        ...,
+        [ 0.0391, -0.1233,  0.1793,  ...,  0.0411, -0.1224,  0.0635],
+        [-0.0280,  0.0657, -0.1498,  ..., -0.0499,  0.0195, -0.1181],
+        [-0.0616,  0.0822,  0.0396,  ..., -0.0630, -0.0512, -0.0353]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -3.4404e-04,  1.2014e-06,  ..., -2.1954e-03,
+          0.0000e+00,  3.4068e-06],
+        [ 0.0000e+00,  3.7527e-04,  2.0154e-06,  ...,  6.6233e-04,
+          0.0000e+00, -3.8385e-05],
+        [ 2.0489e-08,  5.0592e-04,  5.7891e-06,  ...,  7.1192e-04,
+          0.0000e+00,  3.3882e-06],
+        ...,
+        [ 9.3132e-10,  3.2568e-04, -6.2305e-07,  ...,  4.2295e-04,
+          0.0000e+00, -7.8604e-06],
+        [-9.4064e-08, -1.3733e-03,  2.2985e-06,  ..., -1.6661e-03,
+          0.0000e+00,  2.5313e-06],
+        [ 2.7940e-09, -2.9230e-04,  1.0924e-06,  ...,  5.6410e-04,
+          0.0000e+00,  4.8988e-06]], device='cuda:0')
+Epoch 381, bias, value: tensor([-0.0290,  0.0412, -0.0016, -0.0102,  0.0219, -0.0311,  0.0030,  0.0056,
+        -0.0032, -0.0158], device='cuda:0'), grad: tensor([-0.0596, -0.0102,  0.0238,  0.0227,  0.0220, -0.0589,  0.0340,  0.0220,
+        -0.0072,  0.0113], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 380, time 214.88, cls_loss 0.5105 cls_loss_mapping 0.0027 cls_loss_causal 0.4426 re_mapping 0.0088 re_causal 0.0210 /// teacc 98.86 lr 0.00010000
+Epoch 382, weight, value: tensor([[-0.0730, -0.1551, -0.1115,  ..., -0.0385,  0.0592, -0.1058],
+        [-0.0791, -0.0913, -0.0899,  ...,  0.1016, -0.0415,  0.2346],
+        [ 0.0048, -0.0303, -0.0570,  ..., -0.0061, -0.0129, -0.0817],
+        ...,
+        [ 0.0381, -0.1223,  0.1789,  ...,  0.0407, -0.1225,  0.0616],
+        [-0.0276,  0.0652, -0.1502,  ..., -0.0508,  0.0196, -0.1189],
+        [-0.0611,  0.0833,  0.0402,  ..., -0.0628, -0.0517, -0.0344]],
+       device='cuda:0'), grad: tensor([[ 1.0118e-03,  9.9912e-06,  1.0155e-05,  ...,  2.5959e-03,
+          9.7137e-07,  1.5283e-04],
+        [ 9.5415e-04,  5.7787e-05,  6.0052e-05,  ...,  2.5349e-03,
+          3.3528e-08,  2.8205e-04],
+        [ 1.5211e-03,  2.8517e-06,  3.0100e-05,  ...,  2.9774e-03,
+          2.3190e-07,  3.4308e-04],
+        ...,
+        [ 1.5163e-03,  1.9461e-05, -3.7730e-05,  ...,  1.4710e-04,
+          8.0094e-08, -1.4293e-04],
+        [ 8.9550e-04,  1.0132e-02,  1.5512e-05,  ...,  2.0351e-03,
+          2.4643e-06,  2.0707e-04],
+        [ 7.0429e-04,  4.3780e-05,  2.9826e-04,  ..., -8.6689e-04,
+          4.1537e-07,  8.8453e-04]], device='cuda:0')
+Epoch 382, bias, value: tensor([-0.0293,  0.0419, -0.0008, -0.0101,  0.0212, -0.0318,  0.0032,  0.0062,
+        -0.0047, -0.0149], device='cuda:0'), grad: tensor([ 0.0157,  0.0145, -0.0024, -0.0122, -0.0237,  0.0124,  0.0061, -0.0142,
+         0.0172, -0.0134], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 381, time 214.92, cls_loss 0.4762 cls_loss_mapping 0.0020 cls_loss_causal 0.4151 re_mapping 0.0085 re_causal 0.0202 /// teacc 98.83 lr 0.00010000
+Epoch 383, weight, value: tensor([[-0.0728, -0.1547, -0.1127,  ..., -0.0374,  0.0590, -0.1060],
+        [-0.0801, -0.0930, -0.0886,  ...,  0.1005, -0.0406,  0.2356],
+        [ 0.0041, -0.0282, -0.0594,  ..., -0.0065, -0.0130, -0.0828],
+        ...,
+        [ 0.0368, -0.1214,  0.1794,  ...,  0.0405, -0.1229,  0.0615],
+        [-0.0285,  0.0643, -0.1491,  ..., -0.0508,  0.0196, -0.1194],
+        [-0.0616,  0.0833,  0.0409,  ..., -0.0626, -0.0520, -0.0343]],
+       device='cuda:0'), grad: tensor([[-2.7180e-04,  3.1376e-04,  3.2131e-06,  ...,  1.3332e-03,
+          8.3148e-05,  3.9029e-04],
+        [ 2.5487e-04,  1.9431e-05, -3.3021e-05,  ..., -2.2926e-03,
+          2.3633e-05, -3.1757e-03],
+        [ 6.0892e-04,  2.5964e-04,  4.9211e-06,  ...,  2.2850e-03,
+          1.1164e-04,  1.5986e-04],
+        ...,
+        [-2.0099e-04,  2.4843e-04, -4.6939e-05,  ..., -2.9850e-03,
+         -4.1437e-04,  3.8123e-04],
+        [ 3.4428e-04,  7.8630e-04,  6.3106e-06,  ...,  2.0943e-03,
+          1.7852e-05,  4.8876e-04],
+        [ 3.5858e-04,  3.5763e-04,  3.9160e-05,  ...,  1.1425e-03,
+          2.7478e-05,  4.0340e-04]], device='cuda:0')
+Epoch 383, bias, value: tensor([-0.0287,  0.0421, -0.0013, -0.0102,  0.0217, -0.0317,  0.0029,  0.0060,
+        -0.0049, -0.0150], device='cuda:0'), grad: tensor([ 0.0200, -0.0384,  0.0301, -0.0416, -0.0053, -0.0039,  0.0294, -0.0097,
+         0.0278, -0.0084], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 382, time 214.86, cls_loss 0.5252 cls_loss_mapping 0.0023 cls_loss_causal 0.4561 re_mapping 0.0083 re_causal 0.0204 /// teacc 98.79 lr 0.00010000
+Epoch 384, weight, value: tensor([[-0.0732, -0.1555, -0.1117,  ..., -0.0381,  0.0592, -0.1061],
+        [-0.0816, -0.0943, -0.0891,  ...,  0.0993, -0.0422,  0.2355],
+        [ 0.0038, -0.0287, -0.0598,  ..., -0.0081, -0.0127, -0.0836],
+        ...,
+        [ 0.0370, -0.1214,  0.1799,  ...,  0.0407, -0.1225,  0.0619],
+        [-0.0296,  0.0640, -0.1492,  ..., -0.0512,  0.0194, -0.1195],
+        [-0.0604,  0.0836,  0.0409,  ..., -0.0609, -0.0519, -0.0343]],
+       device='cuda:0'), grad: tensor([[ 1.2589e-04,  1.9148e-05,  4.1395e-05,  ..., -1.5926e-03,
+          2.4307e-04,  8.6904e-05],
+        [ 4.6325e-04, -2.9251e-05,  2.0123e-04,  ..., -1.8597e-03,
+          8.1635e-04, -3.6836e-04],
+        [ 8.5115e-04, -2.1160e-04,  3.1739e-05,  ...,  3.0918e-03,
+          3.0947e-04,  3.8433e-04],
+        ...,
+        [ 7.6103e-04,  1.3977e-05,  5.2065e-05,  ..., -3.3302e-03,
+          1.5581e-04, -3.2997e-03],
+        [-5.4512e-03,  1.1501e-03, -9.6798e-04,  ..., -6.8588e-03,
+         -2.9316e-03,  9.3985e-04],
+        [ 4.8184e-04,  7.8455e-06,  1.6272e-04,  ...,  3.4695e-03,
+          3.4332e-04, -1.1861e-04]], device='cuda:0')
+Epoch 384, bias, value: tensor([-0.0291,  0.0418, -0.0018, -0.0101,  0.0211, -0.0317,  0.0030,  0.0071,
+        -0.0051, -0.0144], device='cuda:0'), grad: tensor([-0.0166, -0.0278,  0.0153,  0.0170,  0.0227, -0.0145,  0.0179,  0.0011,
+        -0.0304,  0.0153], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 383, time 214.54, cls_loss 0.5078 cls_loss_mapping 0.0026 cls_loss_causal 0.4481 re_mapping 0.0083 re_causal 0.0195 /// teacc 98.73 lr 0.00010000
+Epoch 385, weight, value: tensor([[-0.0734, -0.1572, -0.1121,  ..., -0.0378,  0.0599, -0.1060],
+        [-0.0819, -0.0939, -0.0889,  ...,  0.0968, -0.0422,  0.2343],
+        [ 0.0038, -0.0282, -0.0599,  ..., -0.0071, -0.0131, -0.0850],
+        ...,
+        [ 0.0370, -0.1209,  0.1813,  ...,  0.0412, -0.1222,  0.0631],
+        [-0.0292,  0.0643, -0.1511,  ..., -0.0516,  0.0194, -0.1184],
+        [-0.0613,  0.0836,  0.0410,  ..., -0.0618, -0.0523, -0.0355]],
+       device='cuda:0'), grad: tensor([[ 2.5463e-04,  2.3797e-05,  3.7730e-05,  ...,  2.9011e-03,
+          2.0218e-04,  1.9398e-03],
+        [ 1.8179e-04,  6.8665e-05,  1.0580e-04,  ...,  5.9700e-03,
+         -2.2812e-03,  5.8899e-03],
+        [ 2.8920e-04,  5.3018e-05,  8.2552e-05,  ..., -1.8988e-03,
+          5.8937e-04, -2.8286e-03],
+        ...,
+        [ 2.7442e-04,  1.1415e-03,  1.7834e-03,  ...,  3.7117e-03,
+          2.6417e-04,  5.2528e-03],
+        [-8.8120e-04,  8.0049e-05,  1.2326e-04,  ..., -1.6220e-02,
+          2.0468e-04, -9.5749e-03],
+        [ 3.0303e-04, -2.3365e-03, -3.6316e-03,  ...,  2.0180e-03,
+          3.4642e-04,  3.8815e-03]], device='cuda:0')
+Epoch 385, bias, value: tensor([-0.0298,  0.0412, -0.0012, -0.0113,  0.0217, -0.0303,  0.0029,  0.0072,
+        -0.0047, -0.0149], device='cuda:0'), grad: tensor([ 0.0171,  0.0233, -0.0124,  0.0172, -0.0085, -0.0093,  0.0331,  0.0303,
+        -0.0461, -0.0446], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 384, time 214.82, cls_loss 0.5528 cls_loss_mapping 0.0026 cls_loss_causal 0.4898 re_mapping 0.0085 re_causal 0.0208 /// teacc 98.83 lr 0.00010000
+Epoch 386, weight, value: tensor([[-0.0730, -0.1568, -0.1126,  ..., -0.0389,  0.0591, -0.1062],
+        [-0.0829, -0.0928, -0.0889,  ...,  0.0963, -0.0418,  0.2346],
+        [ 0.0033, -0.0284, -0.0597,  ..., -0.0061, -0.0141, -0.0845],
+        ...,
+        [ 0.0383, -0.1200,  0.1812,  ...,  0.0408, -0.1218,  0.0618],
+        [-0.0278,  0.0634, -0.1515,  ..., -0.0508,  0.0197, -0.1191],
+        [-0.0620,  0.0832,  0.0412,  ..., -0.0622, -0.0527, -0.0335]],
+       device='cuda:0'), grad: tensor([[ 2.9683e-04,  4.6730e-04,  5.0402e-04,  ...,  3.2139e-03,
+          5.8699e-04,  1.2751e-03],
+        [-2.5082e-03, -1.3456e-03,  6.6936e-05,  ..., -2.9716e-03,
+         -1.6642e-03, -7.6180e-03],
+        [ 2.4021e-04,  1.2711e-02, -8.8120e-03,  ..., -1.3962e-02,
+          5.6410e-04, -1.6220e-02],
+        ...,
+        [ 1.6403e-04,  1.4277e-03,  8.6899e-03,  ...,  2.2430e-02,
+          3.0351e-04,  1.7212e-02],
+        [ 9.1553e-04,  4.7455e-03,  1.5771e-04,  ...,  8.4305e-03,
+          4.4250e-03,  1.1620e-02],
+        [-4.6654e-03, -7.1945e-03, -1.8997e-03,  ..., -1.8646e-02,
+          3.6573e-04, -1.4465e-02]], device='cuda:0')
+Epoch 386, bias, value: tensor([-0.0290,  0.0411, -0.0017, -0.0118,  0.0229, -0.0307,  0.0017,  0.0076,
+        -0.0042, -0.0148], device='cuda:0'), grad: tensor([ 0.0303, -0.0287, -0.0479, -0.0113,  0.0495,  0.0281, -0.0261,  0.0388,
+         0.0815, -0.1141], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 385, time 215.05, cls_loss 0.5121 cls_loss_mapping 0.0015 cls_loss_causal 0.4435 re_mapping 0.0085 re_causal 0.0202 /// teacc 98.87 lr 0.00010000
+Epoch 387, weight, value: tensor([[-0.0721, -0.1563, -0.1133,  ..., -0.0391,  0.0606, -0.1070],
+        [-0.0818, -0.0940, -0.0893,  ...,  0.0962, -0.0422,  0.2348],
+        [ 0.0033, -0.0287, -0.0580,  ..., -0.0062, -0.0145, -0.0838],
+        ...,
+        [ 0.0379, -0.1213,  0.1809,  ...,  0.0408, -0.1216,  0.0621],
+        [-0.0280,  0.0637, -0.1518,  ..., -0.0513,  0.0201, -0.1211],
+        [-0.0618,  0.0841,  0.0408,  ..., -0.0608, -0.0523, -0.0327]],
+       device='cuda:0'), grad: tensor([[-1.3208e-03,  1.2803e-04,  3.5691e-04,  ..., -3.1109e-03,
+         -6.8724e-05, -1.7881e-07],
+        [ 2.7905e-03,  4.9543e-04,  3.4630e-05,  ...,  6.1035e-03,
+          2.5928e-06, -5.3085e-06],
+        [ 8.6737e-04,  1.9276e-04,  8.6975e-04,  ...,  1.0490e-02,
+         -1.7853e-06,  3.0965e-05],
+        ...,
+        [ 2.4486e-04,  1.0502e-04,  1.6904e-04,  ...,  2.1057e-03,
+          2.9709e-07, -2.1681e-05],
+        [ 8.2245e-03,  1.1486e-04,  1.6057e-04,  ..., -1.0399e-02,
+          6.1654e-07,  1.5562e-06],
+        [ 2.9874e-04,  1.4186e-04,  1.7047e-04,  ...,  1.8492e-03,
+          1.5059e-06, -1.0002e-04]], device='cuda:0')
+Epoch 387, bias, value: tensor([-0.0288,  0.0410, -0.0011, -0.0105,  0.0206, -0.0314,  0.0030,  0.0075,
+        -0.0046, -0.0149], device='cuda:0'), grad: tensor([-0.0127,  0.0293,  0.0232, -0.0243, -0.0408, -0.0006, -0.0126,  0.0119,
+         0.0160,  0.0105], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 386, time 214.32, cls_loss 0.5403 cls_loss_mapping 0.0026 cls_loss_causal 0.4889 re_mapping 0.0078 re_causal 0.0194 /// teacc 98.88 lr 0.00010000
+Epoch 388, weight, value: tensor([[-0.0737, -0.1569, -0.1121,  ..., -0.0403,  0.0619, -0.1073],
+        [-0.0813, -0.0937, -0.0895,  ...,  0.0973, -0.0409,  0.2347],
+        [ 0.0047, -0.0283, -0.0570,  ..., -0.0056, -0.0128, -0.0838],
+        ...,
+        [ 0.0374, -0.1217,  0.1798,  ...,  0.0395, -0.1217,  0.0613],
+        [-0.0272,  0.0650, -0.1512,  ..., -0.0493,  0.0202, -0.1204],
+        [-0.0630,  0.0834,  0.0422,  ..., -0.0619, -0.0550, -0.0320]],
+       device='cuda:0'), grad: tensor([[ 2.5487e-04,  8.0061e-04,  2.6539e-05,  ...,  2.0981e-03,
+         -1.1435e-03,  1.0717e-04],
+        [ 1.1225e-03,  2.0135e-06,  1.9044e-05,  ...,  1.2703e-03,
+          1.4508e-04, -1.5316e-03],
+        [ 4.7493e-04,  1.3277e-05,  1.1241e-04,  ...,  2.5711e-03,
+          1.3626e-04,  1.8597e-04],
+        ...,
+        [-5.2261e-03,  4.3541e-05, -4.7607e-03,  ..., -1.6876e-02,
+         -1.2884e-03, -1.2712e-03],
+        [ 5.3787e-04,  5.1212e-04,  1.3900e-04,  ...,  2.2583e-03,
+          1.8764e-04,  2.7585e-04],
+        [ 1.0042e-03,  1.5564e-03,  4.3640e-03,  ...,  2.4548e-03,
+          2.6560e-04,  1.4849e-03]], device='cuda:0')
+Epoch 388, bias, value: tensor([-2.8841e-02,  4.2452e-02, -6.8343e-05, -1.0974e-02,  1.9718e-02,
+        -3.1884e-02,  2.9449e-03,  6.6885e-03, -3.3665e-03, -1.5919e-02],
+       device='cuda:0'), grad: tensor([ 1.0574e-02,  1.4023e-02,  1.5518e-02, -4.5410e-02, -1.6968e-02,
+         3.4668e-02,  1.9180e-02, -5.1361e-02,  1.9669e-02,  7.4625e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 387, time 214.32, cls_loss 0.5148 cls_loss_mapping 0.0017 cls_loss_causal 0.4388 re_mapping 0.0082 re_causal 0.0203 /// teacc 98.84 lr 0.00010000
+Epoch 389, weight, value: tensor([[-0.0727, -0.1576, -0.1103,  ..., -0.0398,  0.0631, -0.1074],
+        [-0.0814, -0.0930, -0.0894,  ...,  0.0984, -0.0416,  0.2357],
+        [ 0.0036, -0.0289, -0.0580,  ..., -0.0065, -0.0121, -0.0854],
+        ...,
+        [ 0.0374, -0.1226,  0.1804,  ...,  0.0402, -0.1226,  0.0617],
+        [-0.0268,  0.0655, -0.1521,  ..., -0.0498,  0.0197, -0.1208],
+        [-0.0633,  0.0840,  0.0408,  ..., -0.0627, -0.0552, -0.0331]],
+       device='cuda:0'), grad: tensor([[ 2.3752e-05,  1.2884e-03,  9.7573e-05,  ...,  6.9427e-03,
+         -1.2531e-03,  2.2805e-04],
+        [ 3.6597e-05,  4.4495e-05,  2.0752e-03,  ...,  2.0733e-03,
+          1.9693e-04, -1.4048e-03],
+        [-8.2374e-05,  9.3365e-04,  3.5152e-03,  ...,  9.8877e-03,
+          7.0047e-04,  4.3678e-03],
+        ...,
+        [ 3.7104e-05,  3.6489e-06, -6.0806e-03,  ..., -1.2405e-02,
+          1.6189e-04, -5.8823e-03],
+        [ 5.7995e-05,  1.7703e-04,  1.4973e-04,  ...,  8.1730e-04,
+          2.1458e-04,  8.8930e-05],
+        [ 1.0110e-05,  4.5002e-05,  2.5272e-04,  ...,  4.7874e-04,
+          1.6117e-04,  4.6182e-04]], device='cuda:0')
+Epoch 389, bias, value: tensor([-0.0294,  0.0427, -0.0007, -0.0100,  0.0200, -0.0306,  0.0022,  0.0062,
+        -0.0028, -0.0167], device='cuda:0'), grad: tensor([-0.0064,  0.0088,  0.0182, -0.0493,  0.0061,  0.0066,  0.0082, -0.0080,
+         0.0076,  0.0082], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 388, time 214.21, cls_loss 0.5304 cls_loss_mapping 0.0043 cls_loss_causal 0.4642 re_mapping 0.0081 re_causal 0.0198 /// teacc 98.79 lr 0.00010000
+Epoch 390, weight, value: tensor([[-0.0729, -0.1578, -0.1091,  ..., -0.0390,  0.0640, -0.1069],
+        [-0.0812, -0.0939, -0.0897,  ...,  0.0985, -0.0425,  0.2366],
+        [ 0.0031, -0.0286, -0.0581,  ..., -0.0064, -0.0122, -0.0854],
+        ...,
+        [ 0.0374, -0.1224,  0.1811,  ...,  0.0395, -0.1230,  0.0607],
+        [-0.0271,  0.0641, -0.1528,  ..., -0.0503,  0.0182, -0.1209],
+        [-0.0630,  0.0846,  0.0408,  ..., -0.0630, -0.0543, -0.0326]],
+       device='cuda:0'), grad: tensor([[ 1.7767e-03,  4.1686e-06,  8.4686e-04,  ...,  4.2496e-03,
+          2.6431e-06,  4.9820e-03],
+        [ 2.5539e-03,  5.1677e-05,  7.5436e-04,  ...,  6.8054e-03,
+          1.0245e-08,  3.5629e-03],
+        [ 1.3924e-03,  8.3494e-04,  3.5248e-03,  ...,  9.5596e-03,
+          5.2154e-08,  1.0414e-03],
+        ...,
+        [-3.5381e-03,  4.7612e-04,  1.5736e-04,  ..., -1.1703e-02,
+          9.3132e-10, -1.0071e-02],
+        [ 8.9884e-04,  3.1799e-05,  5.5790e-04,  ...,  1.7319e-03,
+          5.7835e-07,  7.7343e-04],
+        [ 1.6193e-03,  1.4208e-05,  6.9618e-05,  ...,  5.5456e-04,
+          5.4017e-08,  3.7551e-04]], device='cuda:0')
+Epoch 390, bias, value: tensor([-3.0347e-02,  4.2891e-02,  4.1757e-05, -1.0039e-02,  2.0394e-02,
+        -3.1797e-02,  2.1579e-03,  6.5624e-03, -2.6145e-03, -1.6630e-02],
+       device='cuda:0'), grad: tensor([ 0.0360,  0.0287,  0.0436, -0.0231, -0.0665, -0.0083, -0.0407, -0.0272,
+         0.0313,  0.0261], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 389, time 214.26, cls_loss 0.5398 cls_loss_mapping 0.0030 cls_loss_causal 0.4760 re_mapping 0.0083 re_causal 0.0198 /// teacc 98.75 lr 0.00010000
+Epoch 391, weight, value: tensor([[-0.0725, -0.1575, -0.1101,  ..., -0.0385,  0.0645, -0.1068],
+        [-0.0805, -0.0939, -0.0888,  ...,  0.0989, -0.0415,  0.2369],
+        [ 0.0032, -0.0296, -0.0591,  ..., -0.0064, -0.0129, -0.0855],
+        ...,
+        [ 0.0369, -0.1195,  0.1821,  ...,  0.0397, -0.1226,  0.0601],
+        [-0.0283,  0.0639, -0.1529,  ..., -0.0509,  0.0196, -0.1204],
+        [-0.0630,  0.0833,  0.0409,  ..., -0.0623, -0.0560, -0.0324]],
+       device='cuda:0'), grad: tensor([[ 7.8535e-04,  1.0476e-05,  2.5487e-04,  ...,  2.6512e-03,
+          6.7377e-04,  2.4376e-03],
+        [ 7.3624e-04,  2.0847e-05,  4.3958e-05,  ..., -1.8950e-03,
+          1.6189e-04, -1.1911e-03],
+        [ 2.6417e-03,  1.3418e-05,  3.9744e-04,  ...,  5.7640e-03,
+          3.9062e-03,  2.0385e-04],
+        ...,
+        [-1.1759e-03,  1.5938e-04,  1.1005e-03,  ..., -9.3842e-03,
+         -5.4588e-03, -4.0855e-03],
+        [-6.0501e-03,  5.0583e-03,  3.0365e-03,  ..., -2.1267e-03,
+         -2.6093e-03,  3.9554e-04],
+        [-1.9741e-03,  1.1599e-04, -2.0027e-03,  ..., -7.8344e-04,
+          2.6441e-04,  1.7971e-05]], device='cuda:0')
+Epoch 391, bias, value: tensor([-3.0113e-02,  4.2971e-02, -3.3338e-05, -1.0680e-02,  2.1779e-02,
+        -3.2027e-02,  1.9074e-03,  6.7073e-03, -3.0853e-03, -1.6813e-02],
+       device='cuda:0'), grad: tensor([ 0.0139, -0.0182,  0.0246,  0.0246,  0.0182,  0.0389,  0.0191, -0.0541,
+        -0.0280, -0.0390], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 390, time 214.59, cls_loss 0.5103 cls_loss_mapping 0.0029 cls_loss_causal 0.4399 re_mapping 0.0087 re_causal 0.0198 /// teacc 98.72 lr 0.00010000
+Epoch 392, weight, value: tensor([[-0.0733, -0.1569, -0.1105,  ..., -0.0382,  0.0648, -0.1081],
+        [-0.0806, -0.0943, -0.0896,  ...,  0.0986, -0.0400,  0.2370],
+        [ 0.0028, -0.0306, -0.0596,  ..., -0.0068, -0.0137, -0.0847],
+        ...,
+        [ 0.0360, -0.1191,  0.1821,  ...,  0.0396, -0.1222,  0.0607],
+        [-0.0284,  0.0652, -0.1525,  ..., -0.0514,  0.0197, -0.1213],
+        [-0.0614,  0.0832,  0.0413,  ..., -0.0619, -0.0567, -0.0324]],
+       device='cuda:0'), grad: tensor([[ 1.2083e-03,  1.7118e-04,  8.7440e-05,  ...,  1.0834e-03,
+          2.6112e-03,  6.7711e-04],
+        [ 4.1103e-04,  3.2711e-04,  1.0855e-05,  ...,  4.8351e-04,
+          1.1224e-04, -1.3673e-04],
+        [ 1.2839e-04,  1.5235e-04,  2.6211e-05,  ..., -4.0932e-03,
+          1.2922e-04, -1.4715e-03],
+        ...,
+        [ 2.3413e-04,  2.5797e-04,  1.8358e-04,  ...,  5.3072e-04,
+          9.2924e-05,  5.5122e-04],
+        [-1.7014e-03,  2.9083e-02,  2.7299e-04,  ..., -2.2449e-03,
+          2.3091e-04, -3.1338e-03],
+        [ 1.6727e-03,  2.2173e-04,  2.5845e-03,  ...,  5.8594e-03,
+          2.4247e-04,  2.3937e-03]], device='cuda:0')
+Epoch 392, bias, value: tensor([-0.0310,  0.0420, -0.0009, -0.0109,  0.0226, -0.0316,  0.0014,  0.0077,
+        -0.0026, -0.0162], device='cuda:0'), grad: tensor([ 0.0248, -0.0138, -0.0434,  0.0195, -0.0097,  0.0142, -0.0314,  0.0166,
+        -0.0145,  0.0377], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 391, time 214.58, cls_loss 0.5168 cls_loss_mapping 0.0030 cls_loss_causal 0.4605 re_mapping 0.0085 re_causal 0.0205 /// teacc 98.84 lr 0.00010000
+Epoch 393, weight, value: tensor([[-0.0744, -0.1585, -0.1113,  ..., -0.0384,  0.0645, -0.1084],
+        [-0.0812, -0.0949, -0.0900,  ...,  0.0979, -0.0388,  0.2365],
+        [ 0.0021, -0.0303, -0.0591,  ..., -0.0069, -0.0131, -0.0858],
+        ...,
+        [ 0.0385, -0.1189,  0.1817,  ...,  0.0399, -0.1237,  0.0628],
+        [-0.0287,  0.0655, -0.1528,  ..., -0.0502,  0.0206, -0.1213],
+        [-0.0618,  0.0835,  0.0419,  ..., -0.0623, -0.0560, -0.0336]],
+       device='cuda:0'), grad: tensor([[ 5.1297e-06,  4.0203e-05,  4.6968e-05,  ...,  3.2997e-04,
+          1.3161e-03,  2.3508e-04],
+        [ 6.8620e-06,  1.0246e-04,  3.9756e-05,  ...,  4.1223e-04,
+          1.2560e-03,  2.5749e-04],
+        [-3.6269e-05,  4.3094e-05, -4.8522e-07,  ...,  4.2295e-04,
+          1.9197e-03,  3.2306e-04],
+        ...,
+        [ 5.5939e-05,  2.4462e-04,  4.1676e-04,  ..., -2.1255e-04,
+          1.1301e-03,  1.3962e-03],
+        [ 3.8743e-06,  1.1975e-04,  5.1320e-05,  ...,  4.9067e-04,
+         -1.3100e-02,  2.0885e-03],
+        [ 1.8418e-05,  3.7670e-04, -8.0299e-04,  ..., -1.4000e-03,
+          1.5068e-03, -1.7710e-03]], device='cuda:0')
+Epoch 393, bias, value: tensor([-0.0324,  0.0410, -0.0007, -0.0110,  0.0226, -0.0313,  0.0021,  0.0081,
+        -0.0029, -0.0151], device='cuda:0'), grad: tensor([ 0.0144,  0.0197,  0.0244,  0.0210, -0.0351,  0.0249,  0.0215, -0.0322,
+        -0.0299, -0.0287], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 392, time 214.49, cls_loss 0.5043 cls_loss_mapping 0.0026 cls_loss_causal 0.4454 re_mapping 0.0081 re_causal 0.0201 /// teacc 98.78 lr 0.00010000
+Epoch 394, weight, value: tensor([[-0.0754, -0.1583, -0.1127,  ..., -0.0380,  0.0641, -0.1082],
+        [-0.0814, -0.0949, -0.0905,  ...,  0.0976, -0.0386,  0.2375],
+        [ 0.0033, -0.0308, -0.0590,  ..., -0.0051, -0.0120, -0.0837],
+        ...,
+        [ 0.0398, -0.1200,  0.1823,  ...,  0.0401, -0.1222,  0.0626],
+        [-0.0286,  0.0666, -0.1533,  ..., -0.0512,  0.0205, -0.1217],
+        [-0.0630,  0.0835,  0.0421,  ..., -0.0627, -0.0566, -0.0346]],
+       device='cuda:0'), grad: tensor([[ 1.4658e-03,  1.1915e-04,  3.7050e-04,  ...,  3.5019e-03,
+          9.1362e-04,  1.3380e-03],
+        [-1.0223e-02,  2.8253e-05, -2.8992e-03,  ..., -1.3588e-02,
+         -2.0332e-03, -9.1324e-03],
+        [ 1.0891e-03,  3.8385e-04,  5.9366e-04,  ..., -3.2787e-03,
+          4.5180e-04, -2.3746e-03],
+        ...,
+        [ 2.2602e-03,  1.0949e-04,  1.0633e-03,  ...,  3.7098e-03,
+          2.4724e-04,  3.9177e-03],
+        [-4.5662e-03,  1.8322e-04,  8.7452e-04,  ...,  2.5597e-03,
+          2.6703e-04,  3.5267e-03],
+        [ 3.2654e-03,  3.0804e-04,  1.7996e-03,  ...,  3.7498e-03,
+          2.7561e-04,  5.8823e-03]], device='cuda:0')
+Epoch 394, bias, value: tensor([-0.0314,  0.0406, -0.0001, -0.0108,  0.0229, -0.0317,  0.0010,  0.0081,
+        -0.0027, -0.0154], device='cuda:0'), grad: tensor([ 0.0278, -0.0955, -0.0167,  0.0114, -0.0061,  0.0135,  0.0191,  0.0465,
+         0.0014, -0.0014], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 393, time 214.53, cls_loss 0.5105 cls_loss_mapping 0.0029 cls_loss_causal 0.4473 re_mapping 0.0083 re_causal 0.0201 /// teacc 98.83 lr 0.00010000
+Epoch 395, weight, value: tensor([[-0.0749, -0.1586, -0.1112,  ..., -0.0364,  0.0637, -0.1076],
+        [-0.0817, -0.0950, -0.0909,  ...,  0.0982, -0.0383,  0.2386],
+        [ 0.0030, -0.0313, -0.0587,  ..., -0.0061, -0.0103, -0.0832],
+        ...,
+        [ 0.0402, -0.1202,  0.1813,  ...,  0.0394, -0.1222,  0.0618],
+        [-0.0280,  0.0669, -0.1540,  ..., -0.0518,  0.0195, -0.1225],
+        [-0.0639,  0.0835,  0.0434,  ..., -0.0628, -0.0570, -0.0341]],
+       device='cuda:0'), grad: tensor([[ 5.8670e-03,  8.0967e-04, -7.1449e-03,  ...,  1.0231e-02,
+         -7.2861e-03,  8.4610e-03],
+        [-4.7607e-03,  4.8327e-04, -2.6817e-03,  ...,  3.1796e-03,
+          1.7810e-04, -3.7880e-03],
+        [ 1.6146e-03,  4.7660e-04,  8.6498e-04,  ...,  1.5236e-02,
+          2.3460e-04,  1.7920e-03],
+        ...,
+        [ 1.1206e-03,  9.3997e-05,  3.9744e-04,  ..., -9.7809e-03,
+          3.0518e-04,  1.4896e-03],
+        [ 1.5869e-03,  5.4884e-04,  9.3174e-04,  ...,  2.4185e-03,
+          4.2009e-04,  1.0519e-03],
+        [ 1.0290e-03,  1.0878e-04,  7.4005e-04,  ..., -1.8148e-03,
+          2.9159e-04, -8.1778e-04]], device='cuda:0')
+Epoch 395, bias, value: tensor([-0.0299,  0.0409, -0.0004, -0.0098,  0.0214, -0.0326,  0.0011,  0.0075,
+        -0.0027, -0.0148], device='cuda:0'), grad: tensor([ 0.0129, -0.0012,  0.0304,  0.0248, -0.0414, -0.0318,  0.0329,  0.0063,
+        -0.0159, -0.0171], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 394, time 214.41, cls_loss 0.4976 cls_loss_mapping 0.0038 cls_loss_causal 0.4470 re_mapping 0.0085 re_causal 0.0203 /// teacc 98.86 lr 0.00010000
+Epoch 396, weight, value: tensor([[-0.0748, -0.1595, -0.1103,  ..., -0.0366,  0.0631, -0.1095],
+        [-0.0821, -0.0938, -0.0924,  ...,  0.0982, -0.0390,  0.2400],
+        [ 0.0027, -0.0335, -0.0591,  ..., -0.0078, -0.0107, -0.0842],
+        ...,
+        [ 0.0401, -0.1208,  0.1819,  ...,  0.0395, -0.1234,  0.0625],
+        [-0.0281,  0.0672, -0.1532,  ..., -0.0507,  0.0203, -0.1219],
+        [-0.0644,  0.0827,  0.0437,  ..., -0.0624, -0.0565, -0.0349]],
+       device='cuda:0'), grad: tensor([[-1.4845e-06,  7.2062e-05,  3.3879e-04,  ...,  1.4877e-03,
+         -1.0282e-06,  6.2227e-04],
+        [ 2.4557e-05,  6.7234e-05,  4.2582e-04,  ...,  9.8991e-04,
+          3.5390e-08,  2.0766e-04],
+        [-1.2836e-03, -4.8828e-03, -1.9798e-03,  ..., -3.6259e-03,
+          3.0827e-07, -1.8158e-03],
+        ...,
+        [ 1.5759e-04,  9.0265e-04,  4.2009e-04,  ...,  1.0567e-03,
+          6.7614e-07,  5.4169e-04],
+        [ 6.1321e-04, -1.3893e-02,  1.3227e-03,  ...,  3.4924e-03,
+          2.3153e-06,  1.6298e-03],
+        [ 4.5925e-05,  2.9602e-02,  1.0681e-02,  ...,  6.1846e-04,
+          3.3900e-07,  3.5405e-04]], device='cuda:0')
+Epoch 396, bias, value: tensor([-0.0293,  0.0407, -0.0010, -0.0101,  0.0210, -0.0331,  0.0025,  0.0076,
+        -0.0027, -0.0150], device='cuda:0'), grad: tensor([-0.0154,  0.0187, -0.0448, -0.0229, -0.0044,  0.0232, -0.0007,  0.0171,
+         0.0068,  0.0226], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 395, time 214.33, cls_loss 0.5284 cls_loss_mapping 0.0018 cls_loss_causal 0.4681 re_mapping 0.0078 re_causal 0.0197 /// teacc 98.80 lr 0.00010000
+Epoch 397, weight, value: tensor([[-0.0753, -0.1611, -0.1110,  ..., -0.0376,  0.0643, -0.1094],
+        [-0.0830, -0.0945, -0.0912,  ...,  0.0985, -0.0394,  0.2390],
+        [ 0.0025, -0.0330, -0.0614,  ..., -0.0072, -0.0111, -0.0836],
+        ...,
+        [ 0.0394, -0.1202,  0.1832,  ...,  0.0387, -0.1230,  0.0627],
+        [-0.0286,  0.0670, -0.1529,  ..., -0.0501,  0.0183, -0.1221],
+        [-0.0642,  0.0805,  0.0424,  ..., -0.0622, -0.0540, -0.0344]],
+       device='cuda:0'), grad: tensor([[ 6.2406e-05,  3.5137e-05,  3.7289e-04,  ...,  1.7118e-03,
+          1.5891e-04,  1.2074e-03],
+        [ 8.1587e-04,  2.1231e-04,  2.8954e-03,  ...,  7.5073e-03,
+          1.0496e-04,  1.2352e-02],
+        [ 1.2121e-03,  2.3270e-03,  1.4668e-03,  ...,  3.6106e-03,
+          2.7752e-04,  1.9588e-03],
+        ...,
+        [ 9.1314e-05,  1.8072e-04,  4.8876e-04,  ..., -3.2253e-03,
+          1.7643e-04,  3.7441e-03],
+        [ 6.8045e-04,  1.1082e-03,  1.1559e-03,  ...,  3.3054e-03,
+          1.4663e-04, -1.6602e-02],
+        [ 1.0139e-04,  7.7248e-05,  4.8923e-04,  ...,  1.6899e-03,
+          1.1659e-04,  2.5940e-03]], device='cuda:0')
+Epoch 397, bias, value: tensor([-0.0304,  0.0419, -0.0013, -0.0109,  0.0213, -0.0333,  0.0034,  0.0068,
+        -0.0030, -0.0139], device='cuda:0'), grad: tensor([-0.0399,  0.0595,  0.0312, -0.0471, -0.0258,  0.0166, -0.0089, -0.0069,
+        -0.0029,  0.0242], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 396, time 214.17, cls_loss 0.5032 cls_loss_mapping 0.0017 cls_loss_causal 0.4429 re_mapping 0.0082 re_causal 0.0203 /// teacc 98.79 lr 0.00010000
+Epoch 398, weight, value: tensor([[-0.0759, -0.1623, -0.1120,  ..., -0.0380,  0.0648, -0.1102],
+        [-0.0826, -0.0952, -0.0904,  ...,  0.0997, -0.0390,  0.2393],
+        [ 0.0036, -0.0334, -0.0615,  ..., -0.0070, -0.0110, -0.0834],
+        ...,
+        [ 0.0391, -0.1194,  0.1830,  ...,  0.0384, -0.1233,  0.0622],
+        [-0.0289,  0.0684, -0.1529,  ..., -0.0493,  0.0187, -0.1212],
+        [-0.0647,  0.0809,  0.0431,  ..., -0.0631, -0.0541, -0.0345]],
+       device='cuda:0'), grad: tensor([[ 5.7316e-04,  1.8412e-06,  1.2934e-04,  ...,  1.8349e-03,
+         -2.6271e-05,  1.5032e-04],
+        [-4.9305e-04,  6.5863e-05, -1.6165e-03,  ..., -9.6664e-03,
+          3.1758e-07, -2.4915e-04],
+        [ 3.5930e-04,  2.7671e-05,  2.6608e-04,  ...,  3.1853e-03,
+          2.6505e-06,  2.0337e-04],
+        ...,
+        [ 2.7680e-04,  2.8998e-05,  2.6369e-04,  ...,  2.4681e-03,
+          3.4738e-07,  1.0526e-04],
+        [ 6.8069e-05,  3.1382e-05,  1.5104e-04,  ..., -4.7455e-03,
+          1.1893e-06,  1.2875e-04],
+        [ 3.0351e-04,  2.5168e-05,  1.9038e-04,  ...,  1.7843e-03,
+          2.5369e-06,  7.0632e-05]], device='cuda:0')
+Epoch 398, bias, value: tensor([-0.0311,  0.0408, -0.0012, -0.0101,  0.0202, -0.0344,  0.0043,  0.0076,
+        -0.0025, -0.0132], device='cuda:0'), grad: tensor([ 0.0119, -0.0140,  0.0161, -0.0161, -0.0172,  0.0129,  0.0269,  0.0148,
+        -0.0180, -0.0173], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 397, time 214.27, cls_loss 0.5143 cls_loss_mapping 0.0023 cls_loss_causal 0.4465 re_mapping 0.0082 re_causal 0.0196 /// teacc 98.88 lr 0.00010000
+Epoch 399, weight, value: tensor([[-0.0743, -0.1616, -0.1109,  ..., -0.0369,  0.0655, -0.1109],
+        [-0.0823, -0.0961, -0.0898,  ...,  0.1005, -0.0390,  0.2407],
+        [ 0.0019, -0.0330, -0.0628,  ..., -0.0073, -0.0108, -0.0844],
+        ...,
+        [ 0.0385, -0.1205,  0.1838,  ...,  0.0381, -0.1252,  0.0626],
+        [-0.0275,  0.0684, -0.1536,  ..., -0.0487,  0.0179, -0.1208],
+        [-0.0640,  0.0811,  0.0422,  ..., -0.0633, -0.0537, -0.0353]],
+       device='cuda:0'), grad: tensor([[ 5.2357e-04,  1.7881e-06,  2.7714e-03,  ...,  1.9484e-03,
+          2.6435e-05,  2.9945e-03],
+        [ 3.7527e-04,  1.6894e-06, -1.9407e-04,  ...,  7.2050e-04,
+          2.2399e-04,  3.0732e-04],
+        [ 4.9734e-04,  3.2723e-05,  9.0361e-04,  ...,  2.8419e-04,
+         -1.2045e-03,  1.4362e-03],
+        ...,
+        [ 9.1505e-04,  3.8791e-04, -6.0616e-03,  ...,  4.0588e-03,
+          1.3880e-05,  7.7477e-03],
+        [ 6.3667e-03, -3.7134e-05,  4.5323e-04,  ...,  3.9062e-03,
+          2.1443e-05,  1.5764e-03],
+        [-8.1329e-03, -4.5705e-04, -9.5320e-04,  ..., -8.7662e-03,
+          1.8869e-06, -1.2733e-02]], device='cuda:0')
+Epoch 399, bias, value: tensor([-0.0304,  0.0409, -0.0021, -0.0110,  0.0214, -0.0342,  0.0038,  0.0069,
+        -0.0014, -0.0135], device='cuda:0'), grad: tensor([ 0.0154,  0.0092,  0.0099,  0.0116, -0.0178,  0.0156, -0.0166,  0.0103,
+         0.0252, -0.0627], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 398, time 214.27, cls_loss 0.5264 cls_loss_mapping 0.0028 cls_loss_causal 0.4678 re_mapping 0.0084 re_causal 0.0207 /// teacc 98.86 lr 0.00010000
+Epoch 400, weight, value: tensor([[-0.0745, -0.1635, -0.1112,  ..., -0.0370,  0.0653, -0.1112],
+        [-0.0824, -0.0958, -0.0886,  ...,  0.1000, -0.0383,  0.2406],
+        [ 0.0005, -0.0341, -0.0626,  ..., -0.0080, -0.0092, -0.0849],
+        ...,
+        [ 0.0382, -0.1190,  0.1843,  ...,  0.0386, -0.1242,  0.0621],
+        [-0.0251,  0.0676, -0.1526,  ..., -0.0481,  0.0179, -0.1204],
+        [-0.0638,  0.0825,  0.0416,  ..., -0.0644, -0.0536, -0.0353]],
+       device='cuda:0'), grad: tensor([[ 2.9540e-04, -2.5070e-02, -2.3403e-03,  ...,  1.1110e-03,
+          3.4666e-04,  2.0802e-04],
+        [ 1.8902e-03,  2.3899e-03,  4.4513e-04,  ...,  2.9869e-03,
+          5.2071e-04,  1.0290e-03],
+        [ 4.1127e-04,  1.8234e-02,  4.2801e-03,  ...,  1.2121e-03,
+          1.7130e-04,  2.0134e-04],
+        ...,
+        [ 1.0262e-03,  1.2140e-03, -5.4207e-03,  ...,  1.9932e-03,
+          1.8466e-04,  3.7146e-04],
+        [-6.3629e-03, -3.1834e-03,  3.6502e-04,  ..., -1.1871e-02,
+         -1.3582e-05, -2.6436e-03],
+        [ 8.2970e-04,  1.6003e-03,  5.0163e-04,  ...,  1.7719e-03,
+          3.6025e-04,  4.7350e-04]], device='cuda:0')
+Epoch 400, bias, value: tensor([-0.0300,  0.0405, -0.0021, -0.0107,  0.0206, -0.0341,  0.0043,  0.0074,
+        -0.0014, -0.0139], device='cuda:0'), grad: tensor([-0.0091,  0.0196,  0.0299,  0.0313,  0.0119, -0.0767,  0.0103,  0.0092,
+        -0.0412,  0.0150], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 399, time 214.19, cls_loss 0.5172 cls_loss_mapping 0.0021 cls_loss_causal 0.4596 re_mapping 0.0083 re_causal 0.0195 /// teacc 98.88 lr 0.00001000
+Epoch 401, weight, value: tensor([[-0.0748, -0.1627, -0.1106,  ..., -0.0387,  0.0654, -0.1112],
+        [-0.0838, -0.0954, -0.0888,  ...,  0.0987, -0.0383,  0.2397],
+        [ 0.0020, -0.0323, -0.0629,  ..., -0.0071, -0.0098, -0.0825],
+        ...,
+        [ 0.0372, -0.1194,  0.1832,  ...,  0.0389, -0.1247,  0.0618],
+        [-0.0249,  0.0659, -0.1532,  ..., -0.0471,  0.0176, -0.1185],
+        [-0.0641,  0.0816,  0.0415,  ..., -0.0651, -0.0534, -0.0362]],
+       device='cuda:0'), grad: tensor([[ 2.2578e-04,  7.8297e-04,  2.3556e-04,  ...,  1.6766e-03,
+          2.9254e-04,  2.4533e-04],
+        [ 2.2278e-03, -1.4864e-05,  2.8324e-04,  ...,  8.5068e-04,
+         -1.4410e-03, -5.2595e-04],
+        [ 3.6716e-04,  2.8496e-03,  1.0252e-03,  ...,  3.4847e-03,
+          3.6836e-04,  1.1091e-03],
+        ...,
+        [-3.2940e-03,  1.6883e-05, -2.4166e-03,  ..., -1.2566e-02,
+         -1.4410e-03, -3.0136e-03],
+        [ 1.1587e-03,  1.5316e-03,  1.2655e-03,  ...,  4.4403e-03,
+          3.9458e-04,  2.3136e-03],
+        [-7.7248e-04, -3.7785e-03,  3.6335e-04,  ..., -1.0689e-02,
+          3.2663e-04, -1.5736e-03]], device='cuda:0')
+Epoch 401, bias, value: tensor([-0.0302,  0.0405, -0.0013, -0.0106,  0.0208, -0.0345,  0.0042,  0.0066,
+        -0.0001, -0.0148], device='cuda:0'), grad: tensor([ 0.0209, -0.0217,  0.0315,  0.0170,  0.0200,  0.0098,  0.0372, -0.0793,
+         0.0083, -0.0438], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 400, time 214.46, cls_loss 0.5432 cls_loss_mapping 0.0018 cls_loss_causal 0.4772 re_mapping 0.0084 re_causal 0.0202 /// teacc 98.90 lr 0.00001000
+Epoch 402, weight, value: tensor([[-0.0750, -0.1629, -0.1107,  ..., -0.0388,  0.0654, -0.1112],
+        [-0.0837, -0.0955, -0.0888,  ...,  0.0986, -0.0382,  0.2397],
+        [ 0.0023, -0.0323, -0.0629,  ..., -0.0071, -0.0099, -0.0825],
+        ...,
+        [ 0.0371, -0.1196,  0.1832,  ...,  0.0391, -0.1248,  0.0618],
+        [-0.0251,  0.0658, -0.1534,  ..., -0.0474,  0.0176, -0.1188],
+        [-0.0640,  0.0818,  0.0416,  ..., -0.0650, -0.0534, -0.0360]],
+       device='cuda:0'), grad: tensor([[ 3.0324e-05,  2.0102e-05, -3.8052e-04,  ..., -9.5062e-03,
+         -6.6698e-05, -7.5493e-03],
+        [ 5.5619e-06,  2.0728e-05,  9.4604e-04,  ...,  2.5539e-03,
+          2.3320e-05,  5.4216e-04],
+        [ 4.9353e-05,  2.3174e-04, -3.0956e-03,  ..., -1.9627e-03,
+         -9.1791e-04,  1.9855e-03],
+        ...,
+        [ 6.9022e-05,  1.5795e-04,  1.3008e-03,  ...,  5.4359e-03,
+          3.7551e-05,  3.6736e-03],
+        [ 3.0303e-04,  1.4944e-03,  1.0242e-03,  ..., -1.2264e-03,
+          2.1711e-05,  2.4242e-03],
+        [-1.4758e-04, -1.1969e-04, -2.8563e-04,  ...,  1.0538e-03,
+          2.2262e-05,  2.2924e-04]], device='cuda:0')
+Epoch 402, bias, value: tensor([-0.0303,  0.0405, -0.0013, -0.0106,  0.0210, -0.0344,  0.0042,  0.0066,
+        -0.0004, -0.0147], device='cuda:0'), grad: tensor([-0.0431,  0.0197,  0.0058,  0.0082, -0.0221, -0.0053, -0.0232,  0.0309,
+         0.0173,  0.0119], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 401, time 214.31, cls_loss 0.5123 cls_loss_mapping 0.0013 cls_loss_causal 0.4572 re_mapping 0.0079 re_causal 0.0199 /// teacc 98.89 lr 0.00001000
+Epoch 403, weight, value: tensor([[-0.0749, -0.1629, -0.1107,  ..., -0.0387,  0.0653, -0.1113],
+        [-0.0837, -0.0955, -0.0888,  ...,  0.0985, -0.0382,  0.2397],
+        [ 0.0024, -0.0323, -0.0630,  ..., -0.0070, -0.0100, -0.0826],
+        ...,
+        [ 0.0372, -0.1195,  0.1832,  ...,  0.0391, -0.1246,  0.0618],
+        [-0.0253,  0.0659, -0.1534,  ..., -0.0475,  0.0176, -0.1188],
+        [-0.0642,  0.0817,  0.0416,  ..., -0.0651, -0.0534, -0.0358]],
+       device='cuda:0'), grad: tensor([[-8.2403e-06, -6.2752e-04,  3.7163e-05,  ...,  2.8062e-04,
+          5.2154e-08,  2.5058e-04],
+        [ 1.4519e-06,  6.4754e-04,  1.6034e-04,  ...,  7.0477e-04,
+          2.1420e-08,  1.7071e-04],
+        [ 6.2957e-07,  1.4865e-04,  1.1635e-03,  ..., -1.7576e-03,
+         -2.7679e-06, -2.4986e-04],
+        ...,
+        [ 1.4836e-06,  3.9458e-04,  2.0828e-02,  ...,  1.1234e-03,
+          3.4459e-08,  1.0735e-04],
+        [ 1.1861e-05, -3.6640e-03,  8.6308e-04,  ..., -3.5610e-03,
+          1.7425e-06, -1.4296e-03],
+        [ 1.3784e-05,  8.3017e-04,  8.4066e-04,  ...,  8.5688e-04,
+          1.2759e-07,  2.2531e-04]], device='cuda:0')
+Epoch 403, bias, value: tensor([-0.0302,  0.0404, -0.0012, -0.0108,  0.0212, -0.0344,  0.0042,  0.0066,
+        -0.0006, -0.0147], device='cuda:0'), grad: tensor([-0.0379,  0.0217, -0.0343, -0.0342,  0.0237, -0.0257,  0.0313,  0.0459,
+        -0.0112,  0.0206], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 402, time 214.48, cls_loss 0.5362 cls_loss_mapping 0.0015 cls_loss_causal 0.4704 re_mapping 0.0079 re_causal 0.0200 /// teacc 98.93 lr 0.00001000
+Epoch 404, weight, value: tensor([[-0.0748, -0.1630, -0.1108,  ..., -0.0386,  0.0654, -0.1115],
+        [-0.0836, -0.0955, -0.0886,  ...,  0.0987, -0.0383,  0.2400],
+        [ 0.0024, -0.0324, -0.0630,  ..., -0.0069, -0.0100, -0.0827],
+        ...,
+        [ 0.0372, -0.1195,  0.1831,  ...,  0.0389, -0.1247,  0.0618],
+        [-0.0254,  0.0658, -0.1534,  ..., -0.0475,  0.0178, -0.1189],
+        [-0.0642,  0.0817,  0.0417,  ..., -0.0651, -0.0535, -0.0359]],
+       device='cuda:0'), grad: tensor([[ 2.6202e-04,  7.8008e-06,  1.3316e-04,  ..., -6.5079e-03,
+          2.5582e-04,  2.7418e-04],
+        [ 1.6512e-06,  3.5524e-05,  5.3883e-05,  ..., -6.2847e-04,
+          5.9128e-05, -1.0624e-03],
+        [ 4.4513e-04,  2.7752e-04,  3.4904e-04,  ...,  3.2387e-03,
+          1.4424e-04,  1.5926e-04],
+        ...,
+        [-5.7983e-03,  3.2425e-05, -1.1721e-03,  ..., -1.0536e-02,
+          3.7253e-05, -2.8839e-03],
+        [ 1.1082e-03,  2.6155e-04,  1.5850e-03,  ...,  3.9787e-03,
+          1.9538e-04,  5.0354e-04],
+        [ 2.5063e-03, -1.0443e-03,  1.0855e-05,  ...,  1.8682e-03,
+          6.8605e-05,  1.3247e-03]], device='cuda:0')
+Epoch 404, bias, value: tensor([-0.0302,  0.0405, -0.0013, -0.0107,  0.0214, -0.0344,  0.0043,  0.0065,
+        -0.0007, -0.0148], device='cuda:0'), grad: tensor([ 0.0016,  0.0130, -0.0007, -0.0182,  0.0310, -0.0019,  0.0244, -0.0168,
+         0.0072, -0.0396], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 403, time 214.93, cls_loss 0.4982 cls_loss_mapping 0.0012 cls_loss_causal 0.4382 re_mapping 0.0078 re_causal 0.0188 /// teacc 98.91 lr 0.00001000
+Epoch 405, weight, value: tensor([[-0.0748, -0.1631, -0.1108,  ..., -0.0388,  0.0656, -0.1117],
+        [-0.0835, -0.0953, -0.0887,  ...,  0.0987, -0.0383,  0.2400],
+        [ 0.0024, -0.0322, -0.0630,  ..., -0.0070, -0.0101, -0.0827],
+        ...,
+        [ 0.0373, -0.1197,  0.1830,  ...,  0.0390, -0.1248,  0.0619],
+        [-0.0255,  0.0658, -0.1535,  ..., -0.0476,  0.0179, -0.1191],
+        [-0.0643,  0.0819,  0.0417,  ..., -0.0651, -0.0535, -0.0358]],
+       device='cuda:0'), grad: tensor([[ 3.0422e-03,  4.9515e-03,  6.5279e-04,  ...,  7.2212e-03,
+          1.2362e-04,  1.7262e-03],
+        [-1.8120e-04,  1.9357e-05, -1.7042e-03,  ..., -4.4250e-03,
+          9.4712e-05, -1.3876e-03],
+        [ 8.6427e-05,  3.8028e-05,  1.5163e-04,  ...,  6.1560e-04,
+          7.8201e-05,  3.6311e-04],
+        ...,
+        [ 1.1218e-04,  2.2590e-05,  1.2350e-04,  ...,  1.0214e-03,
+          7.7724e-05,  3.8242e-04],
+        [-6.1941e-04,  1.4007e-04,  2.2912e-04,  ..., -1.5497e-03,
+         -8.8835e-04,  9.1076e-04],
+        [ 1.0401e-04,  4.3899e-05,  6.7949e-05,  ...,  4.5681e-04,
+          9.6977e-05,  5.0211e-04]], device='cuda:0')
+Epoch 405, bias, value: tensor([-0.0303,  0.0405, -0.0014, -0.0107,  0.0214, -0.0345,  0.0045,  0.0066,
+        -0.0008, -0.0148], device='cuda:0'), grad: tensor([ 0.0480,  0.0043,  0.0113,  0.0131,  0.0122, -0.0299, -0.0397, -0.0183,
+        -0.0143,  0.0132], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 404, time 214.82, cls_loss 0.4975 cls_loss_mapping 0.0010 cls_loss_causal 0.4284 re_mapping 0.0076 re_causal 0.0190 /// teacc 98.90 lr 0.00001000
+Epoch 406, weight, value: tensor([[-0.0747, -0.1632, -0.1108,  ..., -0.0387,  0.0656, -0.1118],
+        [-0.0835, -0.0950, -0.0887,  ...,  0.0988, -0.0383,  0.2401],
+        [ 0.0024, -0.0323, -0.0631,  ..., -0.0070, -0.0101, -0.0827],
+        ...,
+        [ 0.0372, -0.1195,  0.1830,  ...,  0.0389, -0.1248,  0.0618],
+        [-0.0255,  0.0657, -0.1534,  ..., -0.0477,  0.0180, -0.1189],
+        [-0.0643,  0.0820,  0.0418,  ..., -0.0652, -0.0536, -0.0358]],
+       device='cuda:0'), grad: tensor([[-6.3210e-03,  2.7323e-04, -3.2120e-03,  ..., -4.8866e-03,
+         -3.9768e-04,  6.2609e-04],
+        [ 6.8665e-04,  1.7881e-04,  4.6182e-04,  ...,  1.2865e-03,
+          4.3184e-05,  9.8515e-04],
+        [ 3.1900e-04,  1.1641e-04,  2.1386e-04,  ...,  1.1673e-03,
+          2.0087e-05,  4.8280e-04],
+        ...,
+        [ 6.1321e-04,  1.1377e-03,  5.0497e-04,  ...,  1.2856e-03,
+          3.8564e-05,  8.9931e-04],
+        [ 1.4889e-04, -2.9736e-03, -9.4128e-04,  ..., -7.8297e-04,
+          9.3654e-06, -1.5049e-03],
+        [ 2.5139e-03,  4.6005e-03,  1.7328e-03,  ...,  3.9005e-03,
+          1.5807e-04,  2.3727e-03]], device='cuda:0')
+Epoch 406, bias, value: tensor([-0.0304,  0.0404, -0.0014, -0.0107,  0.0216, -0.0345,  0.0046,  0.0066,
+        -0.0008, -0.0149], device='cuda:0'), grad: tensor([-0.0157,  0.0104,  0.0092,  0.0130, -0.0584,  0.0091, -0.0068,  0.0151,
+        -0.0216,  0.0457], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 405, time 214.71, cls_loss 0.5050 cls_loss_mapping 0.0010 cls_loss_causal 0.4480 re_mapping 0.0075 re_causal 0.0186 /// teacc 98.92 lr 0.00001000
+Epoch 407, weight, value: tensor([[-0.0747, -0.1633, -0.1107,  ..., -0.0387,  0.0656, -0.1119],
+        [-0.0835, -0.0950, -0.0886,  ...,  0.0989, -0.0382,  0.2401],
+        [ 0.0024, -0.0323, -0.0631,  ..., -0.0071, -0.0102, -0.0827],
+        ...,
+        [ 0.0371, -0.1195,  0.1830,  ...,  0.0388, -0.1249,  0.0619],
+        [-0.0255,  0.0657, -0.1534,  ..., -0.0476,  0.0180, -0.1189],
+        [-0.0643,  0.0821,  0.0418,  ..., -0.0654, -0.0537, -0.0360]],
+       device='cuda:0'), grad: tensor([[ 3.0041e-04,  2.8051e-06,  1.8403e-05,  ...,  3.1357e-03,
+          3.5620e-04,  5.6624e-06],
+        [ 1.6010e-04,  1.1949e-06, -7.8142e-05,  ...,  3.1586e-03,
+          1.4286e-03, -3.7241e-04],
+        [ 3.8934e-04,  2.0847e-05,  1.7157e-03,  ...,  1.8253e-03,
+          4.5300e-04,  3.3379e-04],
+        ...,
+        [-9.6858e-05, -2.2069e-05, -2.4092e-04,  ...,  7.1564e-03,
+          4.5624e-03,  6.8893e-03],
+        [ 1.3554e-04, -2.5997e-03,  3.2449e-04,  ..., -1.0719e-02,
+         -7.7896e-03,  1.3316e-04],
+        [ 1.1796e-04,  1.1168e-05,  5.2786e-04,  ..., -5.2376e-03,
+          2.0161e-03,  1.2360e-03]], device='cuda:0')
+Epoch 407, bias, value: tensor([-0.0305,  0.0405, -0.0014, -0.0106,  0.0216, -0.0345,  0.0045,  0.0066,
+        -0.0009, -0.0149], device='cuda:0'), grad: tensor([ 0.0120,  0.0070,  0.0090,  0.0138, -0.0227,  0.0034, -0.0094, -0.0202,
+         0.0251, -0.0181], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 406, time 214.83, cls_loss 0.4905 cls_loss_mapping 0.0010 cls_loss_causal 0.4271 re_mapping 0.0069 re_causal 0.0175 /// teacc 98.91 lr 0.00001000
+Epoch 408, weight, value: tensor([[-0.0748, -0.1632, -0.1106,  ..., -0.0388,  0.0656, -0.1120],
+        [-0.0834, -0.0950, -0.0887,  ...,  0.0990, -0.0382,  0.2402],
+        [ 0.0024, -0.0323, -0.0631,  ..., -0.0071, -0.0103, -0.0827],
+        ...,
+        [ 0.0370, -0.1195,  0.1831,  ...,  0.0388, -0.1251,  0.0619],
+        [-0.0255,  0.0658, -0.1532,  ..., -0.0475,  0.0181, -0.1188],
+        [-0.0643,  0.0822,  0.0417,  ..., -0.0655, -0.0537, -0.0359]],
+       device='cuda:0'), grad: tensor([[-6.8998e-04, -1.3409e-03,  3.2224e-07,  ...,  2.3234e-04,
+          0.0000e+00,  1.8044e-03],
+        [-1.3475e-03, -6.7689e-06, -6.2585e-05,  ..., -4.5395e-03,
+          0.0000e+00, -5.3101e-03],
+        [ 3.4547e-04,  1.3435e-04,  3.4552e-07,  ...,  3.8600e-04,
+          0.0000e+00, -5.8556e-03],
+        ...,
+        [ 6.5136e-04,  1.4842e-04,  2.5421e-05,  ...,  6.7425e-04,
+          0.0000e+00,  1.6499e-03],
+        [ 6.8235e-04, -4.1938e-04,  7.5325e-06,  ...,  2.7514e-04,
+          0.0000e+00,  1.0900e-03],
+        [-1.6241e-03,  7.5769e-04,  9.8571e-06,  ...,  7.5626e-04,
+          0.0000e+00,  1.1101e-03]], device='cuda:0')
+Epoch 408, bias, value: tensor([-0.0306,  0.0408, -0.0014, -0.0106,  0.0215, -0.0345,  0.0045,  0.0065,
+        -0.0008, -0.0149], device='cuda:0'), grad: tensor([-0.0088, -0.0051, -0.0046,  0.0213,  0.0204,  0.0207,  0.0134, -0.0079,
+        -0.0523,  0.0029], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 407, time 214.63, cls_loss 0.5277 cls_loss_mapping 0.0011 cls_loss_causal 0.4663 re_mapping 0.0071 re_causal 0.0184 /// teacc 98.90 lr 0.00001000
+Epoch 409, weight, value: tensor([[-0.0746, -0.1632, -0.1106,  ..., -0.0386,  0.0657, -0.1119],
+        [-0.0835, -0.0950, -0.0886,  ...,  0.0990, -0.0380,  0.2401],
+        [ 0.0025, -0.0324, -0.0630,  ..., -0.0070, -0.0103, -0.0827],
+        ...,
+        [ 0.0369, -0.1196,  0.1832,  ...,  0.0387, -0.1251,  0.0619],
+        [-0.0255,  0.0657, -0.1533,  ..., -0.0476,  0.0181, -0.1190],
+        [-0.0643,  0.0820,  0.0417,  ..., -0.0654, -0.0538, -0.0357]],
+       device='cuda:0'), grad: tensor([[ 7.7534e-04,  1.0997e-05,  4.6253e-05,  ...,  3.0403e-03,
+          2.6356e-07,  5.9414e-04],
+        [-3.1567e-03,  7.8201e-05, -3.1710e-04,  ..., -1.6724e-02,
+          5.5879e-09, -5.1651e-03],
+        [ 1.4105e-03,  2.8998e-05,  9.3639e-05,  ...,  2.8667e-03,
+          4.0889e-05,  7.5197e-04],
+        ...,
+        [ 7.9041e-03,  1.6761e-04,  1.2711e-02,  ...,  7.8659e-03,
+          0.0000e+00,  3.9902e-03],
+        [-5.0087e-03,  5.0217e-05,  1.8799e-04,  ...,  3.5362e-03,
+          2.5611e-07,  2.2850e-03],
+        [ 9.0265e-04,  1.7345e-04,  1.0777e-03,  ...,  3.7498e-03,
+          1.8626e-09,  3.3321e-03]], device='cuda:0')
+Epoch 409, bias, value: tensor([-0.0305,  0.0408, -0.0014, -0.0106,  0.0216, -0.0346,  0.0045,  0.0065,
+        -0.0009, -0.0150], device='cuda:0'), grad: tensor([ 0.0171, -0.0327,  0.0231, -0.0067,  0.0093,  0.0183, -0.0120,  0.0326,
+        -0.0700,  0.0211], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 408, time 214.54, cls_loss 0.4993 cls_loss_mapping 0.0010 cls_loss_causal 0.4333 re_mapping 0.0069 re_causal 0.0178 /// teacc 98.88 lr 0.00001000
+Epoch 410, weight, value: tensor([[-0.0746, -0.1632, -0.1106,  ..., -0.0386,  0.0658, -0.1120],
+        [-0.0835, -0.0950, -0.0886,  ...,  0.0992, -0.0381,  0.2402],
+        [ 0.0026, -0.0324, -0.0630,  ..., -0.0071, -0.0104, -0.0825],
+        ...,
+        [ 0.0371, -0.1196,  0.1832,  ...,  0.0387, -0.1251,  0.0620],
+        [-0.0255,  0.0658, -0.1533,  ..., -0.0477,  0.0181, -0.1192],
+        [-0.0644,  0.0820,  0.0416,  ..., -0.0654, -0.0538, -0.0358]],
+       device='cuda:0'), grad: tensor([[ 1.3560e-05,  2.9996e-05,  1.2569e-05,  ...,  5.0545e-04,
+          1.0747e-06,  2.1625e-04],
+        [-8.3017e-04, -3.6311e-04, -4.1103e-04,  ..., -1.1367e-04,
+          3.8147e-05, -1.1463e-03],
+        [-5.2080e-06,  4.7874e-04, -2.1800e-05,  ..., -2.0008e-03,
+          3.8624e-05,  1.9884e-04],
+        ...,
+        [ 3.5316e-05,  2.4867e-04,  6.2990e-04,  ..., -1.4629e-03,
+          3.2187e-06, -1.5831e-03],
+        [ 5.5504e-04, -2.5201e-04,  6.5088e-04,  ...,  7.7295e-04,
+          8.1122e-05,  1.1110e-03],
+        [ 3.2753e-05,  4.8714e-03,  8.0109e-03,  ...,  4.7565e-04,
+          2.4308e-06,  1.7824e-03]], device='cuda:0')
+Epoch 410, bias, value: tensor([-0.0306,  0.0409, -0.0014, -0.0106,  0.0216, -0.0346,  0.0046,  0.0065,
+        -0.0009, -0.0150], device='cuda:0'), grad: tensor([ 0.0164,  0.0122, -0.0442,  0.0126,  0.0115, -0.0145,  0.0071, -0.0481,
+         0.0112,  0.0357], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 409, time 215.00, cls_loss 0.4799 cls_loss_mapping 0.0010 cls_loss_causal 0.4181 re_mapping 0.0071 re_causal 0.0177 /// teacc 98.92 lr 0.00001000
+Epoch 411, weight, value: tensor([[-0.0745, -0.1633, -0.1105,  ..., -0.0386,  0.0657, -0.1121],
+        [-0.0835, -0.0950, -0.0887,  ...,  0.0992, -0.0381,  0.2400],
+        [ 0.0026, -0.0324, -0.0629,  ..., -0.0071, -0.0103, -0.0823],
+        ...,
+        [ 0.0371, -0.1195,  0.1833,  ...,  0.0388, -0.1252,  0.0620],
+        [-0.0256,  0.0657, -0.1533,  ..., -0.0478,  0.0182, -0.1192],
+        [-0.0644,  0.0820,  0.0416,  ..., -0.0653, -0.0538, -0.0358]],
+       device='cuda:0'), grad: tensor([[ 6.0463e-04,  2.7871e-04,  4.6706e-04,  ...,  6.9761e-04,
+          9.7081e-06, -8.6260e-04],
+        [ 1.4019e-03,  9.1505e-04,  1.3456e-03,  ...,  4.8981e-03,
+          8.2254e-05,  1.5373e-03],
+        [-1.5850e-03,  3.1281e-04,  4.8804e-04,  ...,  1.9464e-03,
+          1.4462e-05, -4.5815e-03],
+        ...,
+        [ 2.2602e-03,  1.0519e-03,  1.6870e-03,  ..., -9.1476e-03,
+          5.6863e-05,  3.6125e-03],
+        [ 1.2398e-03,  3.9339e-04,  8.0013e-04,  ...,  4.2763e-03,
+          9.0897e-05,  2.7046e-03],
+        [ 1.4296e-03,  3.0565e-04, -1.5354e-04,  ...,  3.5324e-03,
+          3.9220e-05,  2.2945e-03]], device='cuda:0')
+Epoch 411, bias, value: tensor([-0.0305,  0.0409, -0.0014, -0.0105,  0.0217, -0.0345,  0.0044,  0.0066,
+        -0.0011, -0.0150], device='cuda:0'), grad: tensor([-0.0446,  0.0252, -0.0442, -0.0253,  0.0051,  0.0252, -0.0169,  0.0035,
+         0.0297,  0.0424], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 410, time 214.68, cls_loss 0.5196 cls_loss_mapping 0.0011 cls_loss_causal 0.4605 re_mapping 0.0068 re_causal 0.0185 /// teacc 98.95 lr 0.00001000
+Epoch 412, weight, value: tensor([[-0.0746, -0.1634, -0.1104,  ..., -0.0387,  0.0657, -0.1122],
+        [-0.0834, -0.0949, -0.0888,  ...,  0.0992, -0.0381,  0.2400],
+        [ 0.0026, -0.0325, -0.0629,  ..., -0.0071, -0.0104, -0.0823],
+        ...,
+        [ 0.0372, -0.1197,  0.1832,  ...,  0.0388, -0.1252,  0.0621],
+        [-0.0257,  0.0657, -0.1534,  ..., -0.0478,  0.0182, -0.1193],
+        [-0.0644,  0.0820,  0.0417,  ..., -0.0652, -0.0540, -0.0358]],
+       device='cuda:0'), grad: tensor([[ 0.0004,  0.0003,  0.0002,  ...,  0.0009,  0.0001,  0.0002],
+        [ 0.0006,  0.0005,  0.0003,  ...,  0.0006,  0.0002,  0.0003],
+        [ 0.0009,  0.0002,  0.0013,  ...,  0.0003, -0.0009, -0.0002],
+        ...,
+        [ 0.0018,  0.0050,  0.0082,  ...,  0.0090,  0.0003,  0.0056],
+        [-0.0006, -0.0003,  0.0003,  ...,  0.0004,  0.0003,  0.0002],
+        [ 0.0007, -0.0051, -0.0043,  ..., -0.0013, -0.0002, -0.0037]],
+       device='cuda:0')
+Epoch 412, bias, value: tensor([-0.0306,  0.0409, -0.0014, -0.0106,  0.0217, -0.0345,  0.0047,  0.0066,
+        -0.0013, -0.0150], device='cuda:0'), grad: tensor([ 0.0101,  0.0121,  0.0076, -0.0186, -0.0197, -0.0666,  0.0116,  0.0430,
+         0.0232, -0.0027], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 411, time 214.62, cls_loss 0.5089 cls_loss_mapping 0.0010 cls_loss_causal 0.4414 re_mapping 0.0069 re_causal 0.0179 /// teacc 98.95 lr 0.00001000
+Epoch 413, weight, value: tensor([[-0.0746, -0.1635, -0.1103,  ..., -0.0388,  0.0657, -0.1122],
+        [-0.0834, -0.0950, -0.0888,  ...,  0.0993, -0.0381,  0.2400],
+        [ 0.0025, -0.0326, -0.0630,  ..., -0.0072, -0.0105, -0.0822],
+        ...,
+        [ 0.0371, -0.1197,  0.1832,  ...,  0.0387, -0.1253,  0.0621],
+        [-0.0257,  0.0657, -0.1533,  ..., -0.0478,  0.0182, -0.1195],
+        [-0.0645,  0.0819,  0.0418,  ..., -0.0651, -0.0539, -0.0358]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  5.5885e-04,  1.1456e-04,  ...,  4.3106e-04,
+          4.2617e-05,  1.4985e-04],
+        [ 0.0000e+00, -1.4102e-04,  1.0979e-04,  ..., -2.9254e-04,
+          4.4286e-05,  3.6502e-04],
+        [ 1.8626e-09, -1.3614e-04,  2.8515e-04,  ..., -2.0552e-04,
+          8.6248e-05,  2.4819e-04],
+        ...,
+        [ 0.0000e+00,  1.7080e-03,  5.5170e-04,  ...,  1.8716e-04,
+          6.7651e-05,  2.4395e-03],
+        [-9.3132e-10, -5.9853e-03,  3.7980e-04,  ...,  7.3671e-04,
+          1.1462e-04,  1.4057e-03],
+        [ 0.0000e+00,  2.4529e-03, -1.4982e-03,  ...,  1.3196e-04,
+          1.1384e-04, -5.1651e-03]], device='cuda:0')
+Epoch 413, bias, value: tensor([-0.0307,  0.0410, -0.0015, -0.0106,  0.0218, -0.0344,  0.0046,  0.0066,
+        -0.0012, -0.0150], device='cuda:0'), grad: tensor([ 0.0147, -0.0094, -0.0128,  0.0242,  0.0140,  0.0204, -0.0444,  0.0278,
+        -0.0076, -0.0269], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 412, time 214.73, cls_loss 0.5004 cls_loss_mapping 0.0011 cls_loss_causal 0.4348 re_mapping 0.0065 re_causal 0.0170 /// teacc 98.91 lr 0.00001000
+Epoch 414, weight, value: tensor([[-0.0745, -0.1635, -0.1104,  ..., -0.0388,  0.0657, -0.1121],
+        [-0.0832, -0.0951, -0.0888,  ...,  0.0994, -0.0382,  0.2400],
+        [ 0.0023, -0.0326, -0.0630,  ..., -0.0072, -0.0105, -0.0823],
+        ...,
+        [ 0.0371, -0.1199,  0.1831,  ...,  0.0387, -0.1253,  0.0621],
+        [-0.0257,  0.0657, -0.1532,  ..., -0.0480,  0.0183, -0.1196],
+        [-0.0644,  0.0819,  0.0418,  ..., -0.0651, -0.0539, -0.0358]],
+       device='cuda:0'), grad: tensor([[-4.5586e-03,  1.9908e-04,  4.2230e-05,  ..., -6.1340e-03,
+         -3.2735e-04, -8.7585e-03],
+        [ 1.7424e-03,  2.4796e-04,  2.8992e-04,  ...,  3.9711e-03,
+          1.1927e-04,  2.1839e-03],
+        [ 8.7786e-04,  1.8752e-04,  1.4102e-04,  ...,  2.4242e-03,
+         -3.2306e-04,  9.7752e-04],
+        ...,
+        [ 1.1263e-03,  1.9968e-04,  5.0926e-04,  ..., -5.2872e-03,
+          1.9097e-04, -1.1730e-03],
+        [-5.7411e-03, -7.9155e-04,  9.1612e-05,  ..., -7.2975e-03,
+          1.1063e-04,  1.2827e-03],
+        [-2.0123e-03, -1.3103e-03, -2.7695e-03,  ..., -6.2370e-03,
+         -8.9645e-04, -1.7395e-03]], device='cuda:0')
+Epoch 414, bias, value: tensor([-0.0307,  0.0410, -0.0015, -0.0104,  0.0217, -0.0345,  0.0047,  0.0065,
+        -0.0014, -0.0150], device='cuda:0'), grad: tensor([-0.0119,  0.0269,  0.0059,  0.0205,  0.0309,  0.0268,  0.0335, -0.0508,
+        -0.0382, -0.0436], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 413, time 214.83, cls_loss 0.4833 cls_loss_mapping 0.0011 cls_loss_causal 0.4192 re_mapping 0.0069 re_causal 0.0172 /// teacc 98.94 lr 0.00001000
+Epoch 415, weight, value: tensor([[-0.0745, -0.1635, -0.1104,  ..., -0.0389,  0.0656, -0.1122],
+        [-0.0831, -0.0949, -0.0889,  ...,  0.0995, -0.0381,  0.2402],
+        [ 0.0024, -0.0326, -0.0629,  ..., -0.0071, -0.0105, -0.0824],
+        ...,
+        [ 0.0368, -0.1200,  0.1830,  ...,  0.0385, -0.1253,  0.0621],
+        [-0.0258,  0.0657, -0.1533,  ..., -0.0480,  0.0183, -0.1197],
+        [-0.0643,  0.0819,  0.0418,  ..., -0.0651, -0.0541, -0.0358]],
+       device='cuda:0'), grad: tensor([[ 8.6880e-04,  6.0177e-04,  1.6820e-06,  ...,  1.0643e-03,
+          5.6267e-04, -6.6853e-04],
+        [-3.7231e-03, -1.2522e-03,  2.4274e-05,  ..., -4.1504e-03,
+          1.5366e-04,  8.7547e-04],
+        [ 9.2363e-04,  8.5211e-04,  9.1612e-05,  ...,  1.5316e-03,
+          9.1910e-05,  7.4577e-04],
+        ...,
+        [ 1.1368e-03,  1.1625e-03, -4.2462e-04,  ...,  1.4963e-03,
+          1.1802e-04,  4.1270e-04],
+        [ 1.4668e-03,  1.6375e-03,  7.3127e-06,  ...,  1.7281e-03,
+          3.4809e-04,  9.9277e-04],
+        [-1.7776e-03, -6.9046e-03,  2.7347e-04,  ..., -2.2876e-04,
+         -5.9223e-04, -3.4952e-04]], device='cuda:0')
+Epoch 415, bias, value: tensor([-0.0309,  0.0410, -0.0013, -0.0104,  0.0218, -0.0344,  0.0048,  0.0065,
+        -0.0014, -0.0152], device='cuda:0'), grad: tensor([-0.0077, -0.0605,  0.0235,  0.0261, -0.0448,  0.0210, -0.0016,  0.0253,
+         0.0289, -0.0102], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 414, time 214.43, cls_loss 0.5010 cls_loss_mapping 0.0011 cls_loss_causal 0.4382 re_mapping 0.0066 re_causal 0.0171 /// teacc 98.97 lr 0.00001000
+Epoch 416, weight, value: tensor([[-0.0744, -0.1636, -0.1104,  ..., -0.0389,  0.0656, -0.1122],
+        [-0.0831, -0.0949, -0.0890,  ...,  0.0996, -0.0382,  0.2403],
+        [ 0.0023, -0.0325, -0.0628,  ..., -0.0070, -0.0104, -0.0822],
+        ...,
+        [ 0.0368, -0.1201,  0.1828,  ...,  0.0384, -0.1254,  0.0621],
+        [-0.0257,  0.0657, -0.1532,  ..., -0.0481,  0.0183, -0.1197],
+        [-0.0640,  0.0819,  0.0421,  ..., -0.0650, -0.0540, -0.0358]],
+       device='cuda:0'), grad: tensor([[ 2.7561e-04,  2.9922e-04,  8.0228e-05,  ...,  1.3695e-03,
+         -5.9414e-04,  1.0214e-03],
+        [ 2.0027e-03, -5.6982e-04,  6.0654e-04,  ...,  6.5002e-03,
+          2.2948e-06,  6.2675e-03],
+        [ 3.4189e-04,  4.2701e-04, -4.1199e-04,  ...,  9.5797e-04,
+          2.4036e-05,  6.9580e-03],
+        ...,
+        [ 4.9543e-04,  8.9693e-04,  4.6682e-04,  ...,  2.4719e-03,
+          1.1407e-05,  1.9350e-03],
+        [ 7.3862e-04,  1.0805e-03,  2.2304e-04,  ...,  6.8741e-03,
+          2.2575e-05,  3.9368e-03],
+        [ 3.0613e-04, -7.7963e-04,  2.7370e-04,  ...,  1.4286e-03,
+          5.8889e-04,  9.0885e-04]], device='cuda:0')
+Epoch 416, bias, value: tensor([-0.0308,  0.0411, -0.0011, -0.0104,  0.0219, -0.0345,  0.0046,  0.0064,
+        -0.0014, -0.0151], device='cuda:0'), grad: tensor([-0.0174,  0.0110,  0.0215, -0.0432,  0.0019,  0.0220, -0.0504,  0.0167,
+         0.0250,  0.0129], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 415, time 214.47, cls_loss 0.5117 cls_loss_mapping 0.0009 cls_loss_causal 0.4466 re_mapping 0.0066 re_causal 0.0179 /// teacc 99.00 lr 0.00001000
+Epoch 417, weight, value: tensor([[-0.0744, -0.1634, -0.1104,  ..., -0.0388,  0.0656, -0.1123],
+        [-0.0829, -0.0950, -0.0889,  ...,  0.0997, -0.0382,  0.2404],
+        [ 0.0022, -0.0327, -0.0629,  ..., -0.0070, -0.0104, -0.0823],
+        ...,
+        [ 0.0368, -0.1202,  0.1828,  ...,  0.0384, -0.1255,  0.0621],
+        [-0.0259,  0.0658, -0.1533,  ..., -0.0481,  0.0185, -0.1199],
+        [-0.0640,  0.0820,  0.0420,  ..., -0.0650, -0.0541, -0.0358]],
+       device='cuda:0'), grad: tensor([[ 7.8869e-04,  7.5493e-03,  6.7830e-05,  ...,  2.4185e-03,
+          3.1680e-05,  1.1663e-03],
+        [ 8.8835e-04,  8.5497e-04,  4.6015e-04,  ..., -2.1160e-04,
+          1.8322e-04, -3.4504e-03],
+        [-3.5973e-03,  3.3712e-04, -7.4244e-04,  ...,  1.3638e-03,
+          2.4617e-05,  8.4925e-04],
+        ...,
+        [ 9.1457e-04,  5.6696e-04,  1.6320e-04,  ...,  2.6169e-03,
+          9.1791e-05,  1.6584e-03],
+        [ 1.9379e-03, -9.8228e-04,  8.9169e-04,  ..., -6.2466e-04,
+          3.0375e-04, -1.1272e-03],
+        [ 1.1292e-03,  3.7441e-03,  2.8744e-03,  ..., -2.8400e-03,
+          1.3714e-03, -2.5673e-03]], device='cuda:0')
+Epoch 417, bias, value: tensor([-0.0307,  0.0413, -0.0012, -0.0103,  0.0218, -0.0347,  0.0044,  0.0063,
+        -0.0013, -0.0150], device='cuda:0'), grad: tensor([ 0.0317,  0.0037, -0.0210,  0.0061, -0.0185, -0.0160, -0.0076,  0.0132,
+         0.0119, -0.0035], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 416, time 214.63, cls_loss 0.4796 cls_loss_mapping 0.0009 cls_loss_causal 0.4269 re_mapping 0.0067 re_causal 0.0175 /// teacc 98.98 lr 0.00001000
+Epoch 418, weight, value: tensor([[-0.0744, -0.1634, -0.1104,  ..., -0.0387,  0.0656, -0.1122],
+        [-0.0829, -0.0949, -0.0892,  ...,  0.0997, -0.0379,  0.2404],
+        [ 0.0023, -0.0325, -0.0628,  ..., -0.0071, -0.0102, -0.0823],
+        ...,
+        [ 0.0369, -0.1203,  0.1828,  ...,  0.0385, -0.1255,  0.0622],
+        [-0.0261,  0.0658, -0.1534,  ..., -0.0482,  0.0184, -0.1199],
+        [-0.0641,  0.0821,  0.0421,  ..., -0.0649, -0.0543, -0.0359]],
+       device='cuda:0'), grad: tensor([[-3.0861e-03, -4.6272e-03,  4.1664e-05,  ..., -7.8278e-03,
+         -1.2302e-03,  7.0190e-04],
+        [ 2.0635e-04,  2.9182e-04,  1.5759e-04,  ..., -4.6959e-03,
+         -1.4429e-03, -5.5170e-04],
+        [ 1.9145e-04,  1.9064e-03, -1.8990e-04,  ..., -2.5387e-03,
+          2.1160e-04, -2.9831e-03],
+        ...,
+        [ 5.2595e-04,  2.4462e-04,  1.1909e-04,  ...,  1.4534e-03,
+          4.3333e-05,  1.3409e-03],
+        [ 1.6823e-03,  1.5755e-03, -3.0518e-04,  ...,  7.7248e-04,
+          6.7854e-04, -1.2708e-04],
+        [ 1.0717e-04, -1.9875e-03, -8.3971e-04,  ...,  5.9557e-04,
+          1.5664e-04, -8.4229e-03]], device='cuda:0')
+Epoch 418, bias, value: tensor([-0.0305,  0.0413, -0.0011, -0.0105,  0.0218, -0.0347,  0.0044,  0.0063,
+        -0.0015, -0.0150], device='cuda:0'), grad: tensor([-0.0398, -0.0067, -0.0042, -0.0406,  0.0114,  0.0607,  0.0202,  0.0163,
+        -0.0044, -0.0131], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 417, time 215.12, cls_loss 0.5054 cls_loss_mapping 0.0010 cls_loss_causal 0.4313 re_mapping 0.0068 re_causal 0.0175 /// teacc 99.00 lr 0.00001000
+Epoch 419, weight, value: tensor([[-0.0744, -0.1635, -0.1105,  ..., -0.0387,  0.0657, -0.1123],
+        [-0.0830, -0.0949, -0.0893,  ...,  0.0996, -0.0380,  0.2404],
+        [ 0.0024, -0.0324, -0.0629,  ..., -0.0070, -0.0102, -0.0823],
+        ...,
+        [ 0.0368, -0.1205,  0.1826,  ...,  0.0384, -0.1258,  0.0620],
+        [-0.0262,  0.0658, -0.1534,  ..., -0.0484,  0.0183, -0.1200],
+        [-0.0641,  0.0823,  0.0423,  ..., -0.0649, -0.0543, -0.0358]],
+       device='cuda:0'), grad: tensor([[ 9.1267e-04,  1.1234e-03,  1.8454e-04,  ...,  1.7653e-03,
+          3.8862e-04,  2.7966e-04],
+        [ 1.8778e-03, -4.2267e-03, -6.0387e-03,  ..., -2.9678e-03,
+          4.8876e-05, -1.5755e-03],
+        [ 1.1711e-03,  1.6251e-03, -5.0783e-04,  ..., -1.6384e-03,
+          4.1342e-04,  5.7459e-04],
+        ...,
+        [ 6.5994e-03,  2.1305e-03,  3.0670e-03,  ...,  8.8120e-03,
+          1.7810e-04,  3.1967e-03],
+        [ 1.0595e-03, -2.6608e-03, -8.2397e-04,  ..., -8.6117e-04,
+          2.1732e-04, -3.1929e-03],
+        [-1.1551e-02,  1.7262e-03,  1.7805e-03,  ..., -6.5422e-03,
+         -2.5964e-04, -1.1358e-03]], device='cuda:0')
+Epoch 419, bias, value: tensor([-0.0306,  0.0412, -0.0010, -0.0105,  0.0218, -0.0346,  0.0044,  0.0063,
+        -0.0016, -0.0150], device='cuda:0'), grad: tensor([ 0.0142, -0.0114,  0.0037,  0.0420,  0.0173, -0.0139, -0.0185,  0.0164,
+        -0.0022, -0.0475], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 418, time 214.77, cls_loss 0.4977 cls_loss_mapping 0.0009 cls_loss_causal 0.4244 re_mapping 0.0070 re_causal 0.0177 /// teacc 98.96 lr 0.00001000
+Epoch 420, weight, value: tensor([[-0.0743, -0.1635, -0.1105,  ..., -0.0386,  0.0655, -0.1124],
+        [-0.0830, -0.0949, -0.0894,  ...,  0.0997, -0.0380,  0.2404],
+        [ 0.0024, -0.0326, -0.0630,  ..., -0.0071, -0.0104, -0.0823],
+        ...,
+        [ 0.0366, -0.1205,  0.1826,  ...,  0.0385, -0.1255,  0.0620],
+        [-0.0261,  0.0659, -0.1532,  ..., -0.0484,  0.0185, -0.1200],
+        [-0.0641,  0.0823,  0.0423,  ..., -0.0650, -0.0545, -0.0356]],
+       device='cuda:0'), grad: tensor([[ 0.0004, -0.0004,  0.0003,  ..., -0.0139,  0.0000,  0.0006],
+        [ 0.0002,  0.0004,  0.0003,  ...,  0.0019,  0.0000, -0.0020],
+        [-0.0048, -0.0035, -0.0014,  ..., -0.0047,  0.0000, -0.0023],
+        ...,
+        [ 0.0005,  0.0022, -0.0002,  ...,  0.0021,  0.0000,  0.0020],
+        [ 0.0012,  0.0002,  0.0002,  ..., -0.0017,  0.0000, -0.0002],
+        [ 0.0008,  0.0008,  0.0004,  ...,  0.0036,  0.0000,  0.0010]],
+       device='cuda:0')
+Epoch 420, bias, value: tensor([-0.0305,  0.0412, -0.0010, -0.0106,  0.0217, -0.0345,  0.0046,  0.0062,
+        -0.0015, -0.0149], device='cuda:0'), grad: tensor([-0.0219,  0.0174, -0.0076,  0.0338, -0.0146,  0.0215, -0.0304,  0.0240,
+        -0.0446,  0.0225], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 419, time 214.80, cls_loss 0.5004 cls_loss_mapping 0.0009 cls_loss_causal 0.4443 re_mapping 0.0067 re_causal 0.0175 /// teacc 98.96 lr 0.00001000
+Epoch 421, weight, value: tensor([[-0.0743, -0.1633, -0.1104,  ..., -0.0386,  0.0655, -0.1125],
+        [-0.0829, -0.0949, -0.0894,  ...,  0.0998, -0.0379,  0.2406],
+        [ 0.0025, -0.0327, -0.0630,  ..., -0.0071, -0.0104, -0.0821],
+        ...,
+        [ 0.0367, -0.1205,  0.1828,  ...,  0.0385, -0.1255,  0.0620],
+        [-0.0260,  0.0658, -0.1532,  ..., -0.0485,  0.0184, -0.1201],
+        [-0.0641,  0.0823,  0.0423,  ..., -0.0650, -0.0544, -0.0357]],
+       device='cuda:0'), grad: tensor([[ 7.4959e-04,  4.7946e-04,  1.5497e-05,  ...,  2.1095e-03,
+          1.9774e-05,  2.1720e-04],
+        [ 1.0939e-03,  3.3426e-04,  4.2856e-05,  ...,  2.9755e-03,
+          6.0201e-05,  2.1803e-04],
+        [ 1.3266e-03, -4.2915e-03, -2.3289e-03,  ...,  7.7295e-04,
+         -3.1433e-03,  2.4652e-04],
+        ...,
+        [ 1.1740e-03,  9.1076e-04,  5.2452e-05,  ...,  2.4223e-03,
+          6.8188e-05,  2.9993e-04],
+        [ 1.9646e-03,  6.8665e-03,  1.7500e-03,  ...,  6.3133e-03,
+          2.3518e-03,  1.8740e-04],
+        [-6.1913e-03, -9.5139e-03,  1.4758e-04,  ..., -8.0795e-03,
+          2.0504e-04,  1.6594e-04]], device='cuda:0')
+Epoch 421, bias, value: tensor([-0.0305,  0.0412, -0.0008, -0.0108,  0.0218, -0.0346,  0.0047,  0.0063,
+        -0.0017, -0.0149], device='cuda:0'), grad: tensor([ 0.0102,  0.0124, -0.0074,  0.0265,  0.0112, -0.0215, -0.0478,  0.0128,
+         0.0361, -0.0326], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 420, time 214.90, cls_loss 0.5166 cls_loss_mapping 0.0009 cls_loss_causal 0.4452 re_mapping 0.0067 re_causal 0.0181 /// teacc 98.98 lr 0.00001000
+Epoch 422, weight, value: tensor([[-0.0742, -0.1634, -0.1105,  ..., -0.0386,  0.0656, -0.1125],
+        [-0.0830, -0.0949, -0.0895,  ...,  0.0997, -0.0381,  0.2405],
+        [ 0.0024, -0.0326, -0.0632,  ..., -0.0070, -0.0104, -0.0823],
+        ...,
+        [ 0.0367, -0.1206,  0.1829,  ...,  0.0385, -0.1256,  0.0620],
+        [-0.0261,  0.0658, -0.1531,  ..., -0.0485,  0.0186, -0.1201],
+        [-0.0641,  0.0824,  0.0423,  ..., -0.0650, -0.0545, -0.0357]],
+       device='cuda:0'), grad: tensor([[ 1.3936e-04,  1.1772e-04,  5.9992e-05,  ...,  4.8280e-04,
+         -3.0007e-06,  2.4414e-04],
+        [ 1.4462e-05, -4.7183e-04,  3.7646e-04,  ...,  2.6059e-04,
+          2.8126e-07,  7.7295e-04],
+        [-8.7768e-06, -4.9019e-04,  1.5459e-03,  ...,  4.9973e-03,
+          1.0747e-06,  5.1460e-03],
+        ...,
+        [-5.2214e-05,  1.2839e-04,  7.2908e-04,  ..., -4.4174e-03,
+          3.7253e-09, -2.6188e-03],
+        [ 1.5783e-04,  1.3363e-04, -4.8180e-03,  ..., -4.5662e-03,
+          4.8019e-06, -7.2403e-03],
+        [ 7.2420e-05,  1.1963e-04,  1.3733e-03,  ...,  1.4935e-03,
+          2.9020e-06,  2.0828e-03]], device='cuda:0')
+Epoch 422, bias, value: tensor([-0.0306,  0.0412, -0.0008, -0.0106,  0.0218, -0.0345,  0.0045,  0.0062,
+        -0.0017, -0.0149], device='cuda:0'), grad: tensor([ 0.0072, -0.0224, -0.0156,  0.0084,  0.0085, -0.0218,  0.0322,  0.0121,
+        -0.0228,  0.0141], device='cuda:0')
+100
+1e-05
+changing lr
+---------------------saving model at epoch 421----------------------------------------------------
+epoch 421, time 231.11, cls_loss 0.5121 cls_loss_mapping 0.0009 cls_loss_causal 0.4512 re_mapping 0.0068 re_causal 0.0176 /// teacc 99.02 lr 0.00001000
+Epoch 423, weight, value: tensor([[-0.0742, -0.1635, -0.1105,  ..., -0.0386,  0.0657, -0.1124],
+        [-0.0831, -0.0948, -0.0895,  ...,  0.0996, -0.0382,  0.2405],
+        [ 0.0025, -0.0326, -0.0631,  ..., -0.0069, -0.0101, -0.0823],
+        ...,
+        [ 0.0366, -0.1206,  0.1828,  ...,  0.0383, -0.1257,  0.0619],
+        [-0.0261,  0.0658, -0.1531,  ..., -0.0485,  0.0186, -0.1201],
+        [-0.0642,  0.0824,  0.0424,  ..., -0.0648, -0.0545, -0.0355]],
+       device='cuda:0'), grad: tensor([[ 3.0790e-06,  1.7524e-05,  1.7333e-04,  ...,  1.0805e-03,
+          2.1577e-05,  4.6659e-04],
+        [ 1.6868e-05,  2.3082e-05,  1.7333e-04,  ...,  8.3876e-04,
+          1.2137e-05,  4.0865e-04],
+        [ 2.5719e-05,  1.4019e-04,  3.5167e-04,  ..., -1.1501e-03,
+         -1.4603e-04,  2.8968e-04],
+        ...,
+        [-1.4432e-05, -4.1164e-07, -2.3975e-03,  ..., -1.0979e-02,
+          2.7806e-05, -3.8948e-03],
+        [ 4.8250e-05,  1.7233e-03,  2.3098e-03,  ...,  4.9448e-04,
+          5.8794e-04, -1.5612e-03],
+        [-2.0921e-04, -1.8568e-03,  9.8133e-04,  ...,  2.9259e-03,
+          5.7817e-05,  1.7347e-03]], device='cuda:0')
+Epoch 423, bias, value: tensor([-0.0305,  0.0412, -0.0007, -0.0106,  0.0219, -0.0346,  0.0044,  0.0061,
+        -0.0017, -0.0148], device='cuda:0'), grad: tensor([ 0.0075,  0.0072, -0.0142,  0.0383,  0.0103, -0.0211,  0.0072, -0.0330,
+        -0.0160,  0.0138], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 422, time 214.56, cls_loss 0.4926 cls_loss_mapping 0.0009 cls_loss_causal 0.4374 re_mapping 0.0066 re_causal 0.0176 /// teacc 98.99 lr 0.00001000
+Epoch 424, weight, value: tensor([[-0.0739, -0.1634, -0.1105,  ..., -0.0386,  0.0658, -0.1125],
+        [-0.0831, -0.0947, -0.0894,  ...,  0.0997, -0.0382,  0.2405],
+        [ 0.0026, -0.0325, -0.0630,  ..., -0.0068, -0.0102, -0.0821],
+        ...,
+        [ 0.0366, -0.1205,  0.1828,  ...,  0.0383, -0.1259,  0.0618],
+        [-0.0262,  0.0658, -0.1531,  ..., -0.0486,  0.0186, -0.1202],
+        [-0.0642,  0.0826,  0.0424,  ..., -0.0648, -0.0545, -0.0356]],
+       device='cuda:0'), grad: tensor([[ 6.1005e-05,  2.1422e-04,  1.3602e-04,  ...,  9.2793e-04,
+         -1.0338e-06,  2.5582e-04],
+        [ 6.5446e-05, -4.0627e-04,  2.3103e-04,  ...,  1.3037e-03,
+          3.7253e-09,  3.7026e-04],
+        [ 1.6975e-03,  8.2397e-04,  1.4248e-03,  ...,  8.8348e-03,
+          5.9605e-08,  1.9369e-03],
+        ...,
+        [-2.3022e-03,  3.1185e-04, -1.5879e-03,  ..., -1.0750e-02,
+          4.8429e-08, -2.1725e-03],
+        [ 1.4901e-04, -8.7261e-04,  3.3283e-04,  ...,  2.0218e-03,
+          1.5832e-07,  6.0940e-04],
+        [ 1.7285e-05, -6.7234e-04,  1.5676e-04,  ...,  1.5144e-03,
+          2.6450e-07,  4.8447e-04]], device='cuda:0')
+Epoch 424, bias, value: tensor([-0.0305,  0.0411, -0.0006, -0.0106,  0.0218, -0.0345,  0.0043,  0.0060,
+        -0.0017, -0.0148], device='cuda:0'), grad: tensor([ 0.0165, -0.0154,  0.0349,  0.0219, -0.0470,  0.0219, -0.0155, -0.0072,
+         0.0050, -0.0151], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 423, time 214.85, cls_loss 0.5143 cls_loss_mapping 0.0009 cls_loss_causal 0.4456 re_mapping 0.0066 re_causal 0.0178 /// teacc 98.97 lr 0.00001000
+Epoch 425, weight, value: tensor([[-0.0740, -0.1635, -0.1106,  ..., -0.0387,  0.0658, -0.1124],
+        [-0.0830, -0.0948, -0.0894,  ...,  0.1000, -0.0382,  0.2405],
+        [ 0.0023, -0.0325, -0.0630,  ..., -0.0070, -0.0102, -0.0822],
+        ...,
+        [ 0.0367, -0.1206,  0.1830,  ...,  0.0383, -0.1259,  0.0620],
+        [-0.0260,  0.0659, -0.1530,  ..., -0.0484,  0.0185, -0.1202],
+        [-0.0644,  0.0826,  0.0422,  ..., -0.0648, -0.0544, -0.0357]],
+       device='cuda:0'), grad: tensor([[ 0.0011,  0.0003,  0.0005,  ...,  0.0032,  0.0004,  0.0020],
+        [ 0.0021, -0.0002,  0.0011,  ..., -0.0015,  0.0008, -0.0030],
+        [ 0.0013,  0.0008,  0.0030,  ...,  0.0039,  0.0259,  0.0027],
+        ...,
+        [ 0.0017,  0.0007, -0.0019,  ...,  0.0013,  0.0004, -0.0053],
+        [-0.0052, -0.0022, -0.0042,  ..., -0.0090, -0.0027, -0.0029],
+        [ 0.0004, -0.0006, -0.0013,  ...,  0.0026,  0.0003,  0.0007]],
+       device='cuda:0')
+Epoch 425, bias, value: tensor([-0.0307,  0.0413, -0.0009, -0.0106,  0.0220, -0.0346,  0.0043,  0.0061,
+        -0.0015, -0.0148], device='cuda:0'), grad: tensor([ 0.0217, -0.0266,  0.0535, -0.0322, -0.0013,  0.0198,  0.0185, -0.0043,
+        -0.0692,  0.0201], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 424, time 214.79, cls_loss 0.4620 cls_loss_mapping 0.0008 cls_loss_causal 0.3966 re_mapping 0.0067 re_causal 0.0171 /// teacc 99.01 lr 0.00001000
+Epoch 426, weight, value: tensor([[-0.0740, -0.1636, -0.1106,  ..., -0.0386,  0.0662, -0.1123],
+        [-0.0829, -0.0948, -0.0895,  ...,  0.1000, -0.0382,  0.2405],
+        [ 0.0025, -0.0325, -0.0630,  ..., -0.0069, -0.0103, -0.0821],
+        ...,
+        [ 0.0367, -0.1206,  0.1829,  ...,  0.0382, -0.1259,  0.0618],
+        [-0.0261,  0.0661, -0.1529,  ..., -0.0484,  0.0186, -0.1203],
+        [-0.0643,  0.0825,  0.0423,  ..., -0.0648, -0.0546, -0.0357]],
+       device='cuda:0'), grad: tensor([[ 3.3647e-05, -7.7486e-04,  1.2100e-05,  ...,  1.1578e-05,
+          6.2275e-04,  2.7180e-04],
+        [-3.5071e-04,  1.2871e-06, -7.3075e-05,  ..., -4.9095e-03,
+         -3.7556e-03,  9.0313e-04],
+        [ 9.4235e-05,  4.7398e-04,  2.0266e-04,  ..., -6.0043e-03,
+          8.6355e-04, -4.2992e-03],
+        ...,
+        [ 6.0439e-05,  2.2852e-04, -1.1057e-04,  ...,  5.8022e-03,
+          7.1430e-04,  3.3188e-04],
+        [ 3.3021e-05,  2.9349e-04,  1.6794e-05,  ...,  1.4734e-03,
+          7.2670e-04,  4.6182e-04],
+        [ 6.4254e-05,  2.5272e-04,  4.6402e-05,  ...,  1.5354e-03,
+          6.0701e-04,  3.9244e-04]], device='cuda:0')
+Epoch 426, bias, value: tensor([-0.0306,  0.0413, -0.0009, -0.0106,  0.0220, -0.0348,  0.0043,  0.0060,
+        -0.0015, -0.0148], device='cuda:0'), grad: tensor([-0.0165, -0.0399, -0.0094,  0.0239,  0.0221, -0.0408, -0.0125,  0.0346,
+         0.0182,  0.0203], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 425, time 214.96, cls_loss 0.4991 cls_loss_mapping 0.0008 cls_loss_causal 0.4288 re_mapping 0.0065 re_causal 0.0176 /// teacc 99.02 lr 0.00001000
+Epoch 427, weight, value: tensor([[-0.0741, -0.1636, -0.1105,  ..., -0.0386,  0.0662, -0.1124],
+        [-0.0829, -0.0949, -0.0896,  ...,  0.0998, -0.0382,  0.2404],
+        [ 0.0026, -0.0326, -0.0630,  ..., -0.0068, -0.0104, -0.0820],
+        ...,
+        [ 0.0366, -0.1207,  0.1828,  ...,  0.0382, -0.1260,  0.0617],
+        [-0.0263,  0.0660, -0.1531,  ..., -0.0484,  0.0185, -0.1204],
+        [-0.0642,  0.0825,  0.0423,  ..., -0.0648, -0.0546, -0.0357]],
+       device='cuda:0'), grad: tensor([[ 8.4448e-04,  7.4673e-04,  5.5730e-06,  ..., -1.2535e-02,
+          0.0000e+00,  1.3566e-04],
+        [-7.2517e-03,  4.3678e-04,  3.6925e-05,  ...,  2.5673e-03,
+          0.0000e+00, -1.9753e-04],
+        [ 6.0368e-04,  4.4394e-04,  5.7667e-05,  ...,  2.3670e-03,
+          0.0000e+00,  1.7405e-04],
+        ...,
+        [ 7.3624e-04,  7.0095e-04,  6.0701e-04,  ...,  6.7940e-03,
+          0.0000e+00,  2.2488e-03],
+        [ 7.3051e-04, -5.5462e-05, -2.9969e-04,  ..., -5.0316e-03,
+          0.0000e+00, -2.7599e-03],
+        [ 9.3985e-04, -2.5425e-03, -4.0779e-03,  ...,  2.6417e-03,
+          0.0000e+00, -3.7050e-04]], device='cuda:0')
+Epoch 427, bias, value: tensor([-0.0305,  0.0413, -0.0009, -0.0107,  0.0222, -0.0348,  0.0044,  0.0059,
+        -0.0016, -0.0148], device='cuda:0'), grad: tensor([-0.0060, -0.0025,  0.0245,  0.0280,  0.0357, -0.0720, -0.0078,  0.0137,
+        -0.0026, -0.0110], device='cuda:0')
+100
+1e-05
+changing lr
+---------------------saving model at epoch 426----------------------------------------------------
+epoch 426, time 231.28, cls_loss 0.4901 cls_loss_mapping 0.0008 cls_loss_causal 0.4202 re_mapping 0.0067 re_causal 0.0175 /// teacc 99.03 lr 0.00001000
+Epoch 428, weight, value: tensor([[-0.0740, -0.1636, -0.1105,  ..., -0.0384,  0.0661, -0.1123],
+        [-0.0830, -0.0947, -0.0897,  ...,  0.0999, -0.0383,  0.2404],
+        [ 0.0028, -0.0326, -0.0629,  ..., -0.0068, -0.0102, -0.0820],
+        ...,
+        [ 0.0366, -0.1209,  0.1828,  ...,  0.0382, -0.1261,  0.0618],
+        [-0.0262,  0.0661, -0.1531,  ..., -0.0482,  0.0186, -0.1204],
+        [-0.0644,  0.0826,  0.0424,  ..., -0.0649, -0.0548, -0.0357]],
+       device='cuda:0'), grad: tensor([[-1.5631e-03, -9.2268e-04,  3.7408e-04,  ...,  1.0633e-03,
+          2.1434e-04,  8.9407e-04],
+        [-6.2180e-03,  2.4557e-04, -4.9744e-03,  ..., -7.2327e-03,
+         -5.1641e-04, -6.5565e-05],
+        [ 2.3937e-03,  5.5408e-04,  6.2084e-04,  ...,  3.1929e-03,
+          9.8419e-04,  1.4124e-03],
+        ...,
+        [-5.8708e-03, -1.5564e-03,  8.0109e-04,  ..., -6.5460e-03,
+         -3.6411e-03, -2.4853e-03],
+        [ 3.6144e-03,  8.8882e-04,  3.5286e-04,  ...,  1.7576e-03,
+          1.0958e-03,  2.4929e-03],
+        [ 9.7418e-04,  4.2528e-05, -2.3818e-04,  ..., -1.5602e-03,
+          2.3580e-04, -8.5220e-03]], device='cuda:0')
+Epoch 428, bias, value: tensor([-0.0306,  0.0414, -0.0009, -0.0109,  0.0222, -0.0346,  0.0045,  0.0058,
+        -0.0016, -0.0148], device='cuda:0'), grad: tensor([ 0.0088, -0.0132,  0.0216,  0.0245,  0.0198, -0.0105, -0.0140, -0.0449,
+         0.0247, -0.0167], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 427, time 214.82, cls_loss 0.4723 cls_loss_mapping 0.0009 cls_loss_causal 0.4176 re_mapping 0.0066 re_causal 0.0174 /// teacc 99.01 lr 0.00001000
+Epoch 429, weight, value: tensor([[-0.0739, -0.1635, -0.1105,  ..., -0.0382,  0.0662, -0.1123],
+        [-0.0830, -0.0948, -0.0898,  ...,  0.0999, -0.0383,  0.2404],
+        [ 0.0027, -0.0327, -0.0628,  ..., -0.0068, -0.0102, -0.0821],
+        ...,
+        [ 0.0369, -0.1207,  0.1827,  ...,  0.0382, -0.1260,  0.0619],
+        [-0.0261,  0.0661, -0.1530,  ..., -0.0483,  0.0185, -0.1205],
+        [-0.0645,  0.0826,  0.0425,  ..., -0.0649, -0.0549, -0.0356]],
+       device='cuda:0'), grad: tensor([[ 1.8582e-05,  3.1543e-04,  4.2379e-05,  ...,  6.6376e-04,
+          5.8338e-06,  5.4836e-04],
+        [ 5.8937e-04,  1.2302e-03,  8.0109e-04,  ...,  1.0529e-03,
+          1.7309e-04,  1.7042e-03],
+        [-2.3727e-03,  7.3290e-04,  1.5211e-04,  ...,  1.4009e-03,
+          6.6385e-06,  1.5628e-04],
+        ...,
+        [ 4.1819e-04, -1.5326e-03,  7.5912e-04,  ..., -4.4365e-03,
+          1.9968e-05, -2.3403e-03],
+        [ 2.0180e-03,  1.4114e-03, -3.7456e-04,  ..., -2.1610e-03,
+          1.1466e-05,  1.4200e-03],
+        [-2.5964e-04,  3.3379e-04, -8.6260e-04,  ...,  3.1590e-04,
+          1.3316e-04, -1.6842e-03]], device='cuda:0')
+Epoch 429, bias, value: tensor([-0.0306,  0.0414, -0.0009, -0.0109,  0.0221, -0.0346,  0.0043,  0.0059,
+        -0.0016, -0.0147], device='cuda:0'), grad: tensor([ 0.0068,  0.0169,  0.0087,  0.0052,  0.0079,  0.0067, -0.0251, -0.0319,
+         0.0057, -0.0009], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 428, time 214.56, cls_loss 0.4734 cls_loss_mapping 0.0007 cls_loss_causal 0.4129 re_mapping 0.0066 re_causal 0.0174 /// teacc 99.01 lr 0.00001000
+Epoch 430, weight, value: tensor([[-0.0739, -0.1636, -0.1107,  ..., -0.0381,  0.0662, -0.1122],
+        [-0.0831, -0.0948, -0.0897,  ...,  0.0999, -0.0382,  0.2403],
+        [ 0.0028, -0.0326, -0.0628,  ..., -0.0068, -0.0103, -0.0821],
+        ...,
+        [ 0.0370, -0.1207,  0.1828,  ...,  0.0383, -0.1261,  0.0620],
+        [-0.0261,  0.0661, -0.1530,  ..., -0.0482,  0.0186, -0.1204],
+        [-0.0647,  0.0826,  0.0424,  ..., -0.0650, -0.0551, -0.0358]],
+       device='cuda:0'), grad: tensor([[ 1.6578e-07, -6.6459e-06,  5.8487e-06,  ...,  2.3949e-04,
+         -1.6773e-04,  3.7491e-05],
+        [-5.5470e-06,  1.3337e-06,  3.8171e-04,  ...,  5.6992e-03,
+          7.0781e-08,  5.5885e-03],
+        [ 2.8312e-07,  3.2391e-06,  4.1509e-04,  ...,  7.7820e-04,
+          1.1176e-07,  1.1677e-04],
+        ...,
+        [ 4.3027e-07,  7.4692e-07, -2.7447e-03,  ..., -6.4430e-03,
+          6.3330e-08, -5.8022e-03],
+        [-8.7991e-06,  1.2472e-05,  2.9778e-04,  ...,  5.6839e-04,
+          1.3057e-06,  1.0264e-04],
+        [ 4.1723e-07,  2.1383e-06,  1.6046e-04,  ...,  3.5305e-03,
+          2.2613e-06,  2.7084e-03]], device='cuda:0')
+Epoch 430, bias, value: tensor([-0.0306,  0.0415, -0.0009, -0.0111,  0.0220, -0.0344,  0.0044,  0.0059,
+        -0.0015, -0.0149], device='cuda:0'), grad: tensor([ 0.0086,  0.0157,  0.0083,  0.0055, -0.0364,  0.0101,  0.0228, -0.0352,
+         0.0057, -0.0051], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 429, time 214.81, cls_loss 0.4506 cls_loss_mapping 0.0009 cls_loss_causal 0.3870 re_mapping 0.0065 re_causal 0.0162 /// teacc 98.97 lr 0.00001000
+Epoch 431, weight, value: tensor([[-0.0740, -0.1635, -0.1107,  ..., -0.0382,  0.0661, -0.1123],
+        [-0.0830, -0.0949, -0.0897,  ...,  0.1000, -0.0383,  0.2404],
+        [ 0.0029, -0.0326, -0.0628,  ..., -0.0067, -0.0103, -0.0820],
+        ...,
+        [ 0.0371, -0.1207,  0.1829,  ...,  0.0383, -0.1259,  0.0621],
+        [-0.0262,  0.0660, -0.1530,  ..., -0.0483,  0.0187, -0.1205],
+        [-0.0648,  0.0827,  0.0425,  ..., -0.0649, -0.0550, -0.0359]],
+       device='cuda:0'), grad: tensor([[ 8.6832e-04,  3.0454e-06,  9.0152e-07,  ...,  5.0688e-04,
+          0.0000e+00,  1.2051e-06],
+        [ 1.7905e-04,  1.4007e-06,  3.9451e-06,  ...,  3.0971e-04,
+          0.0000e+00, -2.8163e-06],
+        [ 1.2970e-03,  3.6228e-06,  4.3847e-06,  ..., -4.0665e-03,
+          0.0000e+00,  4.1202e-06],
+        ...,
+        [ 2.7585e-04,  2.9989e-07, -6.4373e-05,  ...,  1.1997e-03,
+          0.0000e+00, -6.9797e-05],
+        [ 1.3990e-03,  5.6028e-05,  4.4703e-06,  ...,  6.5804e-04,
+          0.0000e+00, -6.9141e-06],
+        [-7.7400e-03,  1.6898e-05,  6.3896e-05,  ...,  5.0879e-04,
+          0.0000e+00,  6.5088e-05]], device='cuda:0')
+Epoch 431, bias, value: tensor([-0.0306,  0.0417, -0.0008, -0.0111,  0.0219, -0.0345,  0.0045,  0.0061,
+        -0.0016, -0.0150], device='cuda:0'), grad: tensor([ 0.0102, -0.0188, -0.0168,  0.0088,  0.0139, -0.0149,  0.0125,  0.0090,
+         0.0148, -0.0186], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 430, time 214.65, cls_loss 0.4913 cls_loss_mapping 0.0008 cls_loss_causal 0.4241 re_mapping 0.0064 re_causal 0.0172 /// teacc 98.96 lr 0.00001000
+Epoch 432, weight, value: tensor([[-0.0740, -0.1636, -0.1108,  ..., -0.0382,  0.0661, -0.1122],
+        [-0.0830, -0.0949, -0.0898,  ...,  0.1000, -0.0382,  0.2403],
+        [ 0.0029, -0.0325, -0.0629,  ..., -0.0068, -0.0102, -0.0821],
+        ...,
+        [ 0.0371, -0.1209,  0.1829,  ...,  0.0384, -0.1260,  0.0622],
+        [-0.0262,  0.0661, -0.1529,  ..., -0.0483,  0.0187, -0.1205],
+        [-0.0647,  0.0828,  0.0426,  ..., -0.0649, -0.0552, -0.0358]],
+       device='cuda:0'), grad: tensor([[ 8.1956e-05,  1.2589e-04,  1.7452e-04,  ...,  2.6345e-04,
+          1.1873e-04,  2.4021e-04],
+        [ 3.8952e-05,  4.7594e-05,  7.7665e-05,  ..., -2.4509e-04,
+          4.8667e-05, -7.5388e-04],
+        [-5.7650e-04,  9.1732e-05,  1.2267e-04,  ..., -1.2321e-03,
+          8.3089e-05,  4.4405e-05],
+        ...,
+        [-2.2203e-06,  3.3498e-05, -9.0711e-07,  ...,  4.1032e-04,
+          3.5048e-05, -9.9277e-04],
+        [ 1.1611e-04,  3.6001e-04,  1.7905e-04,  ...,  3.1066e-04,
+          1.2136e-04,  3.6979e-04],
+        [ 3.2902e-05,  4.0859e-05,  5.3465e-05,  ...,  1.8024e-04,
+          2.6062e-05,  5.5170e-04]], device='cuda:0')
+Epoch 432, bias, value: tensor([-0.0307,  0.0415, -0.0008, -0.0111,  0.0220, -0.0345,  0.0045,  0.0061,
+        -0.0016, -0.0149], device='cuda:0'), grad: tensor([ 0.0073, -0.0224, -0.0213, -0.0130,  0.0122,  0.0306,  0.0070, -0.0246,
+         0.0100,  0.0142], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 431, time 214.83, cls_loss 0.4837 cls_loss_mapping 0.0010 cls_loss_causal 0.4295 re_mapping 0.0065 re_causal 0.0171 /// teacc 98.94 lr 0.00001000
+Epoch 433, weight, value: tensor([[-0.0741, -0.1637, -0.1108,  ..., -0.0383,  0.0661, -0.1122],
+        [-0.0830, -0.0950, -0.0898,  ...,  0.1000, -0.0383,  0.2403],
+        [ 0.0028, -0.0327, -0.0629,  ..., -0.0068, -0.0102, -0.0821],
+        ...,
+        [ 0.0370, -0.1209,  0.1829,  ...,  0.0383, -0.1259,  0.0621],
+        [-0.0261,  0.0663, -0.1529,  ..., -0.0483,  0.0187, -0.1205],
+        [-0.0647,  0.0828,  0.0426,  ..., -0.0649, -0.0552, -0.0359]],
+       device='cuda:0'), grad: tensor([[ 7.8231e-08,  1.5879e-04,  1.2182e-06,  ...,  9.6464e-04,
+          8.2207e-04,  1.7939e-03],
+        [ 2.4065e-06,  1.4998e-05,  6.5155e-06,  ...,  1.0557e-03,
+          7.3290e-04,  8.5115e-05],
+        [ 2.6152e-05,  1.4341e-04,  5.9158e-05,  ...,  8.5592e-04,
+          5.3978e-04,  1.6224e-04],
+        ...,
+        [ 2.0582e-06,  1.9819e-05,  3.8780e-06,  ...,  6.1655e-04,
+          3.6216e-04, -5.0392e-03],
+        [ 2.4363e-06, -3.5152e-03,  6.8173e-06,  ...,  1.1559e-03,
+         -3.0289e-03,  1.2684e-04],
+        [ 1.9930e-07,  1.7333e-04, -5.9336e-05,  ...,  7.4005e-04,
+          7.1669e-04,  2.6665e-03]], device='cuda:0')
+Epoch 433, bias, value: tensor([-0.0308,  0.0414, -0.0008, -0.0109,  0.0218, -0.0345,  0.0046,  0.0061,
+        -0.0016, -0.0148], device='cuda:0'), grad: tensor([-0.0175,  0.0060,  0.0172, -0.0200,  0.0126, -0.0129,  0.0210, -0.0246,
+         0.0042,  0.0139], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 432, time 214.60, cls_loss 0.5035 cls_loss_mapping 0.0010 cls_loss_causal 0.4349 re_mapping 0.0063 re_causal 0.0169 /// teacc 98.97 lr 0.00001000
+Epoch 434, weight, value: tensor([[-0.0741, -0.1636, -0.1110,  ..., -0.0384,  0.0661, -0.1122],
+        [-0.0828, -0.0950, -0.0899,  ...,  0.1001, -0.0382,  0.2404],
+        [ 0.0027, -0.0327, -0.0629,  ..., -0.0067, -0.0102, -0.0821],
+        ...,
+        [ 0.0370, -0.1210,  0.1828,  ...,  0.0382, -0.1259,  0.0619],
+        [-0.0262,  0.0663, -0.1528,  ..., -0.0484,  0.0186, -0.1205],
+        [-0.0646,  0.0828,  0.0426,  ..., -0.0648, -0.0553, -0.0356]],
+       device='cuda:0'), grad: tensor([[ 1.2153e-04,  3.1829e-04,  1.0854e-04,  ...,  1.1148e-03,
+          8.5354e-04,  5.6601e-04],
+        [ 1.2267e-04,  2.6059e-04,  8.5711e-05,  ...,  7.8659e-03,
+          3.7909e-04,  3.3684e-03],
+        [ 7.8249e-04, -7.5226e-03, -1.1730e-03,  ..., -6.0415e-04,
+          1.2951e-03,  5.5075e-04],
+        ...,
+        [-2.7065e-03, -2.6970e-03,  3.5024e-04,  ..., -4.2648e-03,
+         -1.4992e-03,  2.6250e-04],
+        [ 2.9874e-04, -1.1787e-03,  2.5082e-04,  ...,  1.9760e-03,
+         -3.3550e-03,  7.2908e-04],
+        [ 5.5075e-04,  3.9444e-03,  1.9550e-03,  ...,  2.1477e-03,
+          9.5892e-04,  1.5125e-03]], device='cuda:0')
+Epoch 434, bias, value: tensor([-0.0309,  0.0416, -0.0008, -0.0109,  0.0218, -0.0346,  0.0045,  0.0061,
+        -0.0017, -0.0147], device='cuda:0'), grad: tensor([ 0.0175,  0.0229, -0.0153,  0.0249, -0.0296,  0.0374, -0.0242, -0.0489,
+         0.0223, -0.0071], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 433, time 214.69, cls_loss 0.4694 cls_loss_mapping 0.0010 cls_loss_causal 0.4016 re_mapping 0.0064 re_causal 0.0169 /// teacc 98.97 lr 0.00001000
+Epoch 435, weight, value: tensor([[-0.0742, -0.1637, -0.1108,  ..., -0.0384,  0.0661, -0.1123],
+        [-0.0829, -0.0951, -0.0901,  ...,  0.1000, -0.0384,  0.2404],
+        [ 0.0027, -0.0327, -0.0629,  ..., -0.0067, -0.0102, -0.0822],
+        ...,
+        [ 0.0370, -0.1209,  0.1829,  ...,  0.0382, -0.1259,  0.0619],
+        [-0.0260,  0.0662, -0.1528,  ..., -0.0483,  0.0186, -0.1207],
+        [-0.0646,  0.0828,  0.0425,  ..., -0.0649, -0.0554, -0.0356]],
+       device='cuda:0'), grad: tensor([[ 4.8256e-03,  5.1212e-04,  8.8274e-05,  ...,  5.6190e-03,
+          5.9175e-04,  7.3099e-04],
+        [ 1.2999e-03,  4.9067e-04,  7.3099e-04,  ..., -6.9962e-03,
+         -1.4668e-03,  3.5620e-04],
+        [ 5.4979e-04,  4.8876e-04,  1.1665e-04,  ...,  2.5940e-03,
+          2.2924e-04,  5.1260e-04],
+        ...,
+        [ 1.8005e-03, -1.1492e-03,  7.1335e-03,  ..., -4.9877e-04,
+          2.2948e-04,  7.2060e-03],
+        [-9.3508e-04, -1.1187e-03,  1.4389e-04,  ..., -4.0588e-03,
+          7.3552e-05, -2.3251e-03],
+        [-8.9121e-04,  3.7551e-04, -8.7051e-03,  ..., -2.1541e-04,
+          4.3917e-04, -7.7972e-03]], device='cuda:0')
+Epoch 435, bias, value: tensor([-0.0309,  0.0417, -0.0009, -0.0109,  0.0216, -0.0346,  0.0045,  0.0062,
+        -0.0017, -0.0147], device='cuda:0'), grad: tensor([ 0.0289, -0.0079,  0.0146,  0.0188,  0.0199, -0.0463, -0.0022,  0.0164,
+        -0.0036, -0.0386], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 434, time 214.09, cls_loss 0.4927 cls_loss_mapping 0.0008 cls_loss_causal 0.4379 re_mapping 0.0065 re_causal 0.0175 /// teacc 98.91 lr 0.00001000
+Epoch 436, weight, value: tensor([[-0.0744, -0.1638, -0.1109,  ..., -0.0385,  0.0660, -0.1122],
+        [-0.0828, -0.0952, -0.0900,  ...,  0.1000, -0.0384,  0.2404],
+        [ 0.0026, -0.0328, -0.0630,  ..., -0.0068, -0.0103, -0.0822],
+        ...,
+        [ 0.0371, -0.1208,  0.1829,  ...,  0.0382, -0.1259,  0.0619],
+        [-0.0260,  0.0663, -0.1529,  ..., -0.0483,  0.0187, -0.1207],
+        [-0.0646,  0.0830,  0.0425,  ..., -0.0648, -0.0554, -0.0356]],
+       device='cuda:0'), grad: tensor([[ 5.5695e-04,  2.3931e-05,  4.3321e-04,  ...,  5.4550e-04,
+          3.5286e-04,  3.8415e-05],
+        [-4.4365e-03, -2.0866e-03,  6.5956e-03,  ...,  4.2877e-03,
+         -4.2458e-03,  1.0269e-02],
+        [ 6.1989e-04,  3.5143e-04,  1.2004e-04,  ...,  1.7462e-03,
+          5.0259e-04,  1.7703e-04],
+        ...,
+        [ 4.2305e-03,  1.8883e-03,  2.6474e-03,  ..., -6.4964e-03,
+          4.6563e-04, -1.1040e-02],
+        [ 7.4482e-04,  1.6463e-04,  1.1797e-03,  ...,  2.0008e-03,
+          3.9530e-04,  1.5116e-03],
+        [ 7.2479e-04,  2.3508e-04,  6.0120e-03,  ...,  1.1597e-03,
+          5.4693e-04,  7.8487e-04]], device='cuda:0')
+Epoch 436, bias, value: tensor([-0.0309,  0.0416, -0.0010, -0.0108,  0.0218, -0.0346,  0.0044,  0.0062,
+        -0.0017, -0.0146], device='cuda:0'), grad: tensor([ 0.0269, -0.0501,  0.0117, -0.0123, -0.0022, -0.0229,  0.0115,  0.0274,
+         0.0149, -0.0050], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 435, time 214.33, cls_loss 0.4858 cls_loss_mapping 0.0010 cls_loss_causal 0.4282 re_mapping 0.0063 re_causal 0.0166 /// teacc 98.99 lr 0.00001000
+Epoch 437, weight, value: tensor([[-0.0743, -0.1638, -0.1110,  ..., -0.0385,  0.0660, -0.1121],
+        [-0.0827, -0.0952, -0.0900,  ...,  0.1000, -0.0383,  0.2403],
+        [ 0.0027, -0.0327, -0.0628,  ..., -0.0068, -0.0102, -0.0822],
+        ...,
+        [ 0.0370, -0.1210,  0.1828,  ...,  0.0382, -0.1259,  0.0619],
+        [-0.0259,  0.0665, -0.1530,  ..., -0.0483,  0.0187, -0.1206],
+        [-0.0646,  0.0830,  0.0427,  ..., -0.0648, -0.0556, -0.0357]],
+       device='cuda:0'), grad: tensor([[ 1.6904e-04, -6.0081e-04,  1.3816e-04,  ...,  8.9502e-04,
+          8.3685e-05,  4.2105e-04],
+        [ 8.0228e-05, -1.6174e-03, -1.1530e-03,  ...,  3.5400e-03,
+          1.1034e-05,  1.4172e-03],
+        [ 1.7202e-04,  4.1938e-04, -2.9404e-02,  ...,  1.5860e-03,
+          4.2409e-05,  1.0223e-03],
+        ...,
+        [ 7.9393e-04,  9.7418e-04,  2.0020e-02,  ...,  3.5057e-03,
+          1.0854e-04,  8.9264e-04],
+        [ 1.4639e-03,  5.5981e-04,  7.1907e-04,  ...,  5.8784e-03,
+          1.7241e-05,  2.0733e-03],
+        [ 6.2466e-04, -1.4706e-03, -1.0166e-03,  ...,  2.7065e-03,
+         -3.6383e-04, -3.7241e-04]], device='cuda:0')
+Epoch 437, bias, value: tensor([-0.0308,  0.0416, -0.0009, -0.0109,  0.0217, -0.0346,  0.0045,  0.0062,
+        -0.0016, -0.0147], device='cuda:0'), grad: tensor([-0.0109, -0.0518, -0.0143,  0.0308,  0.0229, -0.0108, -0.0578,  0.0412,
+         0.0341,  0.0165], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 436, time 214.33, cls_loss 0.5079 cls_loss_mapping 0.0009 cls_loss_causal 0.4379 re_mapping 0.0062 re_causal 0.0169 /// teacc 99.00 lr 0.00001000
+Epoch 438, weight, value: tensor([[-0.0744, -0.1639, -0.1111,  ..., -0.0386,  0.0659, -0.1120],
+        [-0.0828, -0.0952, -0.0900,  ...,  0.1000, -0.0382,  0.2403],
+        [ 0.0026, -0.0327, -0.0628,  ..., -0.0066, -0.0102, -0.0821],
+        ...,
+        [ 0.0370, -0.1212,  0.1828,  ...,  0.0383, -0.1260,  0.0619],
+        [-0.0259,  0.0665, -0.1531,  ..., -0.0485,  0.0188, -0.1207],
+        [-0.0646,  0.0831,  0.0427,  ..., -0.0648, -0.0557, -0.0355]],
+       device='cuda:0'), grad: tensor([[ 1.3709e-04, -4.7231e-04,  9.9480e-05,  ...,  1.7090e-03,
+          7.3016e-05,  1.8382e-04],
+        [ 5.5742e-04, -1.0386e-03,  2.5868e-04,  ...,  2.2068e-03,
+          3.9768e-04,  6.6042e-04],
+        [-2.4185e-03,  4.2677e-04,  3.9043e-03,  ...,  5.5618e-03,
+          6.6221e-05, -3.6182e-03],
+        ...,
+        [ 2.5883e-03,  7.6342e-04, -3.9330e-03,  ...,  2.1496e-03,
+          7.4208e-05,  3.8013e-03],
+        [-1.6928e-03, -1.7519e-03, -9.4986e-04,  ...,  3.8891e-03,
+          7.7784e-05, -7.9155e-04],
+        [-1.3924e-03,  2.6741e-03,  1.2360e-03,  ..., -2.7065e-03,
+         -1.5764e-03, -2.0523e-03]], device='cuda:0')
+Epoch 438, bias, value: tensor([-0.0310,  0.0416, -0.0008, -0.0109,  0.0216, -0.0347,  0.0046,  0.0063,
+        -0.0017, -0.0146], device='cuda:0'), grad: tensor([-0.0107, -0.0558,  0.0386,  0.0235,  0.0248, -0.0169, -0.0367,  0.0119,
+         0.0248, -0.0035], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 437, time 214.26, cls_loss 0.4852 cls_loss_mapping 0.0010 cls_loss_causal 0.4187 re_mapping 0.0061 re_causal 0.0165 /// teacc 98.95 lr 0.00001000
+Epoch 439, weight, value: tensor([[-0.0743, -0.1640, -0.1112,  ..., -0.0386,  0.0659, -0.1121],
+        [-0.0828, -0.0951, -0.0899,  ...,  0.1000, -0.0381,  0.2403],
+        [ 0.0026, -0.0326, -0.0627,  ..., -0.0067, -0.0102, -0.0822],
+        ...,
+        [ 0.0371, -0.1213,  0.1828,  ...,  0.0385, -0.1262,  0.0620],
+        [-0.0260,  0.0665, -0.1532,  ..., -0.0487,  0.0189, -0.1208],
+        [-0.0648,  0.0831,  0.0426,  ..., -0.0649, -0.0558, -0.0357]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  2.6393e-04,  9.8050e-05,  ...,  1.1578e-03,
+          4.9591e-04,  2.6894e-04],
+        [ 1.8626e-09, -5.3024e-04,  7.7367e-05,  ...,  4.1795e-04,
+          3.2902e-05, -1.6556e-03],
+        [ 7.5065e-07,  2.6751e-04,  7.1406e-05,  ...,  7.3528e-04,
+         -2.5196e-03,  2.1875e-04],
+        ...,
+        [ 1.3039e-08,  3.5214e-04, -8.1682e-04,  ..., -8.4152e-03,
+          2.1785e-05, -6.1274e-04],
+        [-2.8927e-06,  3.6526e-04,  8.4400e-05,  ...,  1.3695e-03,
+          3.3498e-04,  2.7442e-04],
+        [ 1.6764e-08, -2.3537e-03,  1.5604e-04,  ..., -1.9951e-03,
+          1.0157e-04,  3.4380e-04]], device='cuda:0')
+Epoch 439, bias, value: tensor([-0.0310,  0.0416, -0.0009, -0.0108,  0.0218, -0.0346,  0.0046,  0.0063,
+        -0.0018, -0.0147], device='cuda:0'), grad: tensor([ 0.0213, -0.0433, -0.0133,  0.0230,  0.0160,  0.0247,  0.0291, -0.0432,
+         0.0214, -0.0357], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 438, time 214.47, cls_loss 0.5243 cls_loss_mapping 0.0009 cls_loss_causal 0.4552 re_mapping 0.0065 re_causal 0.0177 /// teacc 98.96 lr 0.00001000
+Epoch 440, weight, value: tensor([[-0.0745, -0.1639, -0.1113,  ..., -0.0388,  0.0659, -0.1123],
+        [-0.0829, -0.0951, -0.0898,  ...,  0.1001, -0.0382,  0.2404],
+        [ 0.0027, -0.0326, -0.0626,  ..., -0.0068, -0.0101, -0.0822],
+        ...,
+        [ 0.0370, -0.1214,  0.1828,  ...,  0.0385, -0.1263,  0.0620],
+        [-0.0261,  0.0665, -0.1533,  ..., -0.0488,  0.0189, -0.1208],
+        [-0.0647,  0.0832,  0.0425,  ..., -0.0649, -0.0559, -0.0359]],
+       device='cuda:0'), grad: tensor([[-4.1237e-03, -6.2883e-05,  6.9104e-06,  ..., -3.8986e-03,
+          8.5115e-05, -1.1663e-03],
+        [ 8.5497e-04,  3.6945e-03,  3.0119e-06,  ..., -2.6627e-03,
+          9.0748e-06, -4.4250e-03],
+        [-7.8278e-03, -1.8845e-03,  3.5667e-03,  ..., -1.0597e-02,
+          8.5980e-06,  1.2312e-03],
+        ...,
+        [ 1.1139e-03, -2.5368e-04, -4.3983e-03,  ...,  1.2579e-03,
+          2.7902e-06,  5.7125e-04],
+        [-1.5430e-03, -3.0746e-03,  3.1662e-04,  ..., -1.4351e-02,
+          3.1680e-05, -4.5815e-03],
+        [ 9.9564e-04, -8.6975e-03, -5.6744e-04,  ...,  4.6425e-03,
+          1.6317e-05,  8.5878e-04]], device='cuda:0')
+Epoch 440, bias, value: tensor([-0.0310,  0.0417, -0.0009, -0.0108,  0.0219, -0.0347,  0.0047,  0.0063,
+        -0.0019, -0.0148], device='cuda:0'), grad: tensor([-0.0358,  0.0142, -0.0044,  0.0542,  0.0147, -0.0225, -0.0083,  0.0054,
+        -0.0296,  0.0122], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 439, time 214.51, cls_loss 0.4752 cls_loss_mapping 0.0009 cls_loss_causal 0.4080 re_mapping 0.0062 re_causal 0.0172 /// teacc 98.95 lr 0.00001000
+Epoch 441, weight, value: tensor([[-0.0746, -0.1639, -0.1113,  ..., -0.0387,  0.0659, -0.1122],
+        [-0.0829, -0.0949, -0.0899,  ...,  0.1002, -0.0384,  0.2402],
+        [ 0.0027, -0.0325, -0.0627,  ..., -0.0067, -0.0101, -0.0819],
+        ...,
+        [ 0.0371, -0.1214,  0.1829,  ...,  0.0384, -0.1263,  0.0620],
+        [-0.0261,  0.0664, -0.1533,  ..., -0.0490,  0.0189, -0.1208],
+        [-0.0648,  0.0833,  0.0424,  ..., -0.0651, -0.0560, -0.0359]],
+       device='cuda:0'), grad: tensor([[-4.5471e-03, -6.2714e-03, -1.9350e-03,  ..., -1.2756e-02,
+          9.2149e-05, -3.6373e-03],
+        [-1.4610e-03,  6.6853e-04,  3.0184e-04,  ...,  5.3167e-04,
+          6.6943e-06,  1.3733e-03],
+        [ 6.1703e-04,  2.5082e-04,  4.3178e-04,  ...,  3.2215e-03,
+          3.5316e-05,  2.1172e-03],
+        ...,
+        [ 4.4441e-04,  2.0587e-04,  5.4026e-04,  ...,  3.2902e-03,
+          5.8651e-05,  1.4391e-03],
+        [ 9.6798e-04,  1.6727e-03,  3.2812e-05,  ...,  2.8038e-03,
+          1.8682e-03, -8.4221e-05],
+        [ 6.2656e-04,  5.1975e-04,  1.2398e-03,  ...,  3.1509e-03,
+          2.4188e-04,  1.2941e-03]], device='cuda:0')
+Epoch 441, bias, value: tensor([-0.0309,  0.0416, -0.0008, -0.0108,  0.0220, -0.0346,  0.0047,  0.0063,
+        -0.0020, -0.0150], device='cuda:0'), grad: tensor([-0.0951,  0.0078,  0.0152,  0.0219, -0.0260,  0.0035,  0.0185,  0.0166,
+         0.0176,  0.0200], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 440, time 214.35, cls_loss 0.4906 cls_loss_mapping 0.0009 cls_loss_causal 0.4196 re_mapping 0.0064 re_causal 0.0174 /// teacc 98.99 lr 0.00001000
+Epoch 442, weight, value: tensor([[-0.0746, -0.1637, -0.1113,  ..., -0.0386,  0.0660, -0.1123],
+        [-0.0830, -0.0951, -0.0900,  ...,  0.1001, -0.0384,  0.2403],
+        [ 0.0028, -0.0322, -0.0626,  ..., -0.0067, -0.0100, -0.0819],
+        ...,
+        [ 0.0372, -0.1215,  0.1828,  ...,  0.0385, -0.1263,  0.0619],
+        [-0.0261,  0.0665, -0.1534,  ..., -0.0491,  0.0189, -0.1208],
+        [-0.0649,  0.0831,  0.0423,  ..., -0.0651, -0.0561, -0.0359]],
+       device='cuda:0'), grad: tensor([[ 9.4366e-04,  1.0514e-04,  3.5446e-06,  ...,  1.0519e-03,
+         -3.8259e-06,  8.2552e-05],
+        [ 1.0765e-04,  4.5508e-05,  7.3910e-06,  ...,  9.9659e-04,
+          0.0000e+00, -2.7400e-06],
+        [ 4.7469e-04,  1.0639e-04,  1.0681e-04,  ...,  7.3814e-04,
+          5.9698e-07,  1.4043e-04],
+        ...,
+        [ 1.0037e-04, -3.9792e-04, -1.5259e-04,  ..., -1.5087e-05,
+          0.0000e+00,  6.6757e-05],
+        [ 8.9073e-04,  1.0794e-04,  6.1877e-06,  ...,  1.4486e-03,
+          0.0000e+00,  2.5773e-04],
+        [ 2.2292e-04, -4.0889e-04,  1.1027e-05,  ...,  5.4026e-04,
+          2.8461e-06,  1.3609e-03]], device='cuda:0')
+Epoch 442, bias, value: tensor([-0.0308,  0.0417, -0.0007, -0.0109,  0.0219, -0.0346,  0.0047,  0.0062,
+        -0.0021, -0.0150], device='cuda:0'), grad: tensor([ 0.0186,  0.0195, -0.0146,  0.0188,  0.0116, -0.0354,  0.0190, -0.0471,
+         0.0196, -0.0100], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 441, time 214.32, cls_loss 0.4853 cls_loss_mapping 0.0009 cls_loss_causal 0.4109 re_mapping 0.0064 re_causal 0.0173 /// teacc 98.98 lr 0.00001000
+Epoch 443, weight, value: tensor([[-0.0746, -0.1637, -0.1114,  ..., -0.0387,  0.0661, -0.1125],
+        [-0.0830, -0.0953, -0.0900,  ...,  0.1001, -0.0384,  0.2403],
+        [ 0.0027, -0.0320, -0.0627,  ..., -0.0068, -0.0103, -0.0820],
+        ...,
+        [ 0.0373, -0.1216,  0.1829,  ...,  0.0386, -0.1263,  0.0620],
+        [-0.0261,  0.0664, -0.1531,  ..., -0.0489,  0.0191, -0.1206],
+        [-0.0650,  0.0831,  0.0423,  ..., -0.0652, -0.0559, -0.0359]],
+       device='cuda:0'), grad: tensor([[ 3.4857e-04, -1.0414e-03,  1.6177e-04,  ..., -3.5858e-04,
+          2.5005e-03,  1.5509e-04],
+        [ 2.3365e-03,  2.5487e-04,  9.4223e-04,  ...,  2.8038e-03,
+          4.6992e-04,  3.5882e-04],
+        [ 6.4421e-04,  5.9175e-04,  2.9635e-04,  ...,  7.7200e-04,
+          9.0694e-04,  2.0897e-04],
+        ...,
+        [ 2.4605e-04,  2.2173e-04, -8.7881e-04,  ..., -5.6839e-04,
+          2.5630e-04,  1.0484e-04],
+        [ 4.6802e-04, -2.5868e-05,  4.4131e-04,  ...,  1.2703e-03,
+          1.3485e-03,  1.1688e-04],
+        [ 3.7766e-04,  5.6362e-04,  4.5538e-04,  ...,  1.1663e-03,
+          7.7963e-04,  1.2267e-04]], device='cuda:0')
+Epoch 443, bias, value: tensor([-0.0310,  0.0417, -0.0007, -0.0109,  0.0220, -0.0347,  0.0048,  0.0063,
+        -0.0019, -0.0150], device='cuda:0'), grad: tensor([-0.0418,  0.0227,  0.0172, -0.0250, -0.0100, -0.0214,  0.0140,  0.0092,
+         0.0182,  0.0170], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 442, time 215.03, cls_loss 0.4797 cls_loss_mapping 0.0008 cls_loss_causal 0.4180 re_mapping 0.0063 re_causal 0.0167 /// teacc 98.97 lr 0.00001000
+Epoch 444, weight, value: tensor([[-0.0743, -0.1637, -0.1114,  ..., -0.0387,  0.0661, -0.1126],
+        [-0.0831, -0.0953, -0.0902,  ...,  0.1000, -0.0385,  0.2403],
+        [ 0.0027, -0.0320, -0.0628,  ..., -0.0067, -0.0104, -0.0819],
+        ...,
+        [ 0.0373, -0.1215,  0.1830,  ...,  0.0387, -0.1261,  0.0620],
+        [-0.0262,  0.0663, -0.1532,  ..., -0.0490,  0.0191, -0.1206],
+        [-0.0649,  0.0831,  0.0425,  ..., -0.0649, -0.0557, -0.0358]],
+       device='cuda:0'), grad: tensor([[-5.9204e-03, -7.1716e-03, -3.5744e-03,  ..., -1.0399e-02,
+         -2.1152e-03, -4.6883e-03],
+        [ 2.7504e-03, -3.0136e-04,  1.6212e-03,  ...,  1.6266e-02,
+          1.9717e-04,  2.5826e-03],
+        [ 8.3065e-04,  5.1689e-04,  4.6206e-04,  ...,  4.2953e-03,
+          1.3053e-04,  1.8044e-03],
+        ...,
+        [-1.1206e-03,  5.9652e-04,  9.8953e-03,  ...,  3.4046e-04,
+          1.4591e-04, -4.6043e-03],
+        [-6.2895e-04,  1.9608e-03,  1.3676e-03,  ...,  9.5665e-06,
+          6.0415e-04,  4.8981e-03],
+        [-3.9744e-04,  8.8167e-04, -1.3008e-02,  ..., -7.8430e-03,
+          3.2353e-04, -1.9102e-03]], device='cuda:0')
+Epoch 444, bias, value: tensor([-0.0311,  0.0416, -0.0007, -0.0110,  0.0220, -0.0348,  0.0048,  0.0064,
+        -0.0020, -0.0149], device='cuda:0'), grad: tensor([-0.0685,  0.0093,  0.0219,  0.0435, -0.0101,  0.0009, -0.0027,  0.0079,
+         0.0113, -0.0133], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 443, time 214.98, cls_loss 0.5121 cls_loss_mapping 0.0009 cls_loss_causal 0.4403 re_mapping 0.0062 re_causal 0.0171 /// teacc 99.00 lr 0.00001000
+Epoch 445, weight, value: tensor([[-0.0744, -0.1637, -0.1114,  ..., -0.0388,  0.0662, -0.1127],
+        [-0.0829, -0.0954, -0.0902,  ...,  0.1001, -0.0386,  0.2404],
+        [ 0.0026, -0.0321, -0.0630,  ..., -0.0066, -0.0104, -0.0819],
+        ...,
+        [ 0.0373, -0.1216,  0.1830,  ...,  0.0386, -0.1261,  0.0621],
+        [-0.0263,  0.0664, -0.1533,  ..., -0.0491,  0.0192, -0.1207],
+        [-0.0649,  0.0831,  0.0425,  ..., -0.0648, -0.0556, -0.0356]],
+       device='cuda:0'), grad: tensor([[ 5.4948e-07,  1.3151e-03,  3.1900e-04,  ...,  2.1667e-03,
+          2.1759e-02,  7.4148e-05],
+        [ 5.7071e-06,  2.0778e-04,  3.8218e-04,  ...,  1.5144e-03,
+          3.6657e-05, -7.0453e-05],
+        [ 5.8971e-06, -6.8665e-05, -2.1648e-03,  ..., -5.9662e-03,
+          1.9372e-04,  2.5678e-04],
+        ...,
+        [ 7.6723e-04,  8.0299e-04,  4.8375e-04,  ...,  1.4277e-03,
+          6.2406e-05, -2.2829e-04],
+        [ 1.1176e-04,  1.8454e-03,  1.0526e-04,  ...,  1.1129e-03,
+          1.1940e-03, -4.7898e-04],
+        [-1.4696e-03, -8.5163e-04,  1.6868e-04,  ...,  9.6178e-04,
+          7.5102e-05,  1.5771e-04]], device='cuda:0')
+Epoch 445, bias, value: tensor([-0.0312,  0.0418, -0.0007, -0.0109,  0.0220, -0.0348,  0.0049,  0.0064,
+        -0.0020, -0.0149], device='cuda:0'), grad: tensor([ 0.0453,  0.0239, -0.0329, -0.0362,  0.0169, -0.0063, -0.0112, -0.0085,
+        -0.0074,  0.0164], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 444, time 214.89, cls_loss 0.4655 cls_loss_mapping 0.0009 cls_loss_causal 0.4020 re_mapping 0.0061 re_causal 0.0166 /// teacc 98.99 lr 0.00001000
+Epoch 446, weight, value: tensor([[-0.0744, -0.1633, -0.1114,  ..., -0.0386,  0.0662, -0.1126],
+        [-0.0830, -0.0954, -0.0902,  ...,  0.0998, -0.0386,  0.2403],
+        [ 0.0026, -0.0321, -0.0630,  ..., -0.0066, -0.0105, -0.0819],
+        ...,
+        [ 0.0374, -0.1215,  0.1832,  ...,  0.0387, -0.1261,  0.0622],
+        [-0.0262,  0.0663, -0.1533,  ..., -0.0491,  0.0190, -0.1208],
+        [-0.0650,  0.0831,  0.0425,  ..., -0.0650, -0.0557, -0.0356]],
+       device='cuda:0'), grad: tensor([[ 8.4281e-05,  1.2171e-04,  4.5262e-06,  ...,  1.9150e-03,
+          8.1301e-05,  3.3766e-05],
+        [-1.1396e-03, -2.8968e-04,  3.1203e-05,  ..., -7.6332e-03,
+         -1.2903e-03, -3.5596e-04],
+        [ 2.8515e-04, -1.1196e-03, -9.5520e-03,  ...,  2.3937e-03,
+          3.7837e-04,  2.4244e-05],
+        ...,
+        [ 1.1832e-04, -2.6178e-04, -6.8188e-05,  ...,  1.2712e-03,
+          1.3256e-04,  6.8069e-05],
+        [ 1.8239e-04, -3.1161e-04,  2.7329e-05,  ...,  1.8578e-03,
+          1.9312e-04,  6.5565e-05],
+        [ 4.1187e-05, -8.5640e-04, -1.4982e-03,  ...,  1.5898e-03,
+          4.5925e-05,  2.7791e-05]], device='cuda:0')
+Epoch 446, bias, value: tensor([-0.0312,  0.0416, -0.0007, -0.0109,  0.0221, -0.0347,  0.0049,  0.0065,
+        -0.0020, -0.0150], device='cuda:0'), grad: tensor([ 0.0144, -0.0333,  0.0107, -0.0048,  0.0139,  0.0154,  0.0153, -0.0348,
+        -0.0135,  0.0168], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 445, time 215.03, cls_loss 0.5093 cls_loss_mapping 0.0009 cls_loss_causal 0.4464 re_mapping 0.0062 re_causal 0.0170 /// teacc 98.99 lr 0.00001000
+Epoch 447, weight, value: tensor([[-0.0743, -0.1633, -0.1112,  ..., -0.0384,  0.0663, -0.1126],
+        [-0.0830, -0.0954, -0.0902,  ...,  0.0999, -0.0384,  0.2402],
+        [ 0.0026, -0.0322, -0.0629,  ..., -0.0066, -0.0107, -0.0818],
+        ...,
+        [ 0.0374, -0.1216,  0.1831,  ...,  0.0387, -0.1262,  0.0621],
+        [-0.0261,  0.0664, -0.1534,  ..., -0.0491,  0.0189, -0.1206],
+        [-0.0649,  0.0832,  0.0426,  ..., -0.0651, -0.0557, -0.0356]],
+       device='cuda:0'), grad: tensor([[ 1.6727e-03,  2.0409e-03,  1.5593e-04,  ..., -7.1602e-03,
+         -6.4993e-04, -2.4796e-03],
+        [ 4.9019e-04,  1.9800e-06,  7.4692e-07,  ...,  2.3842e-03,
+          5.2094e-05,  2.8920e-04],
+        [ 9.0313e-04,  4.7565e-04,  4.1306e-05,  ...,  4.6692e-03,
+          2.3156e-05,  5.9223e-04],
+        ...,
+        [-4.2000e-03,  2.8744e-05,  1.2644e-05,  ..., -5.7220e-03,
+          1.7628e-05,  8.4991e-03],
+        [ 1.9875e-03,  1.8787e-03,  1.6415e-04,  ...,  7.8278e-03,
+          3.4571e-05,  4.5300e-04],
+        [-2.1992e-03, -5.2185e-03, -5.3978e-04,  ...,  1.5993e-03,
+          2.7108e-04, -8.1482e-03]], device='cuda:0')
+Epoch 447, bias, value: tensor([-0.0312,  0.0418, -0.0006, -0.0109,  0.0220, -0.0347,  0.0049,  0.0064,
+        -0.0021, -0.0150], device='cuda:0'), grad: tensor([-0.0397,  0.0136,  0.0017, -0.0181, -0.0042,  0.0177,  0.0158,  0.0056,
+         0.0301, -0.0224], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 446, time 215.23, cls_loss 0.4908 cls_loss_mapping 0.0008 cls_loss_causal 0.4181 re_mapping 0.0060 re_causal 0.0167 /// teacc 98.97 lr 0.00001000
+Epoch 448, weight, value: tensor([[-0.0743, -0.1634, -0.1112,  ..., -0.0384,  0.0665, -0.1126],
+        [-0.0831, -0.0955, -0.0901,  ...,  0.1000, -0.0384,  0.2403],
+        [ 0.0025, -0.0320, -0.0630,  ..., -0.0066, -0.0108, -0.0819],
+        ...,
+        [ 0.0374, -0.1216,  0.1830,  ...,  0.0387, -0.1262,  0.0622],
+        [-0.0263,  0.0663, -0.1535,  ..., -0.0491,  0.0188, -0.1207],
+        [-0.0649,  0.0832,  0.0426,  ..., -0.0650, -0.0556, -0.0356]],
+       device='cuda:0'), grad: tensor([[ 2.9087e-04,  3.8910e-04,  1.1673e-03,  ...,  7.4730e-03,
+          4.2081e-04,  2.9469e-03],
+        [ 7.5519e-05,  9.4795e-04,  1.2243e-04,  ...,  8.0185e-03,
+          5.3018e-05, -7.4768e-04],
+        [ 1.3411e-04,  3.0208e-04,  4.0197e-04,  ..., -4.5395e-03,
+          1.8930e-04,  9.4080e-04],
+        ...,
+        [-3.7384e-04, -2.5702e-04,  1.3552e-03,  ..., -1.4748e-02,
+         -3.2330e-04,  2.0325e-04],
+        [-5.8317e-04, -2.6093e-02, -2.7885e-03,  ..., -4.8752e-03,
+         -4.7493e-03, -5.9128e-03],
+        [ 9.3758e-05,  8.2779e-04, -1.1559e-03,  ..., -2.0027e-04,
+          2.4402e-04,  1.5364e-03]], device='cuda:0')
+Epoch 448, bias, value: tensor([-0.0312,  0.0418, -0.0007, -0.0108,  0.0219, -0.0347,  0.0049,  0.0063,
+        -0.0022, -0.0149], device='cuda:0'), grad: tensor([ 0.0328,  0.0036, -0.0091,  0.0215,  0.0084,  0.0262, -0.0115, -0.0314,
+        -0.0343, -0.0064], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 447, time 215.29, cls_loss 0.5015 cls_loss_mapping 0.0009 cls_loss_causal 0.4251 re_mapping 0.0061 re_causal 0.0167 /// teacc 99.02 lr 0.00001000
+Epoch 449, weight, value: tensor([[-0.0741, -0.1632, -0.1113,  ..., -0.0384,  0.0665, -0.1127],
+        [-0.0831, -0.0955, -0.0900,  ...,  0.1000, -0.0385,  0.2404],
+        [ 0.0024, -0.0320, -0.0629,  ..., -0.0068, -0.0106, -0.0819],
+        ...,
+        [ 0.0374, -0.1218,  0.1830,  ...,  0.0388, -0.1260,  0.0620],
+        [-0.0262,  0.0663, -0.1536,  ..., -0.0490,  0.0188, -0.1207],
+        [-0.0650,  0.0832,  0.0427,  ..., -0.0651, -0.0557, -0.0355]],
+       device='cuda:0'), grad: tensor([[ 4.2367e-04,  5.7173e-04,  2.7275e-04,  ...,  1.7509e-03,
+          5.0974e-04,  2.4390e-04],
+        [-1.5440e-03,  3.7003e-04, -3.6899e-06,  ..., -6.5880e-03,
+          9.0957e-05, -1.5144e-03],
+        [-5.3406e-03, -1.0391e-02,  1.2708e-04,  ..., -3.4161e-03,
+         -1.4435e-02,  1.0592e-04],
+        ...,
+        [-2.2202e-03,  6.1226e-04, -4.8327e-04,  ...,  1.8501e-04,
+          1.4341e-04, -1.2817e-03],
+        [ 4.4746e-03,  3.1452e-03,  1.3724e-05,  ...,  2.3575e-03,
+          6.5269e-03,  2.1362e-03],
+        [ 7.8344e-04,  1.5554e-03,  1.0443e-04,  ...,  1.2493e-03,
+          1.6081e-04,  1.6940e-04]], device='cuda:0')
+Epoch 449, bias, value: tensor([-0.0311,  0.0418, -0.0007, -0.0109,  0.0220, -0.0346,  0.0047,  0.0063,
+        -0.0020, -0.0150], device='cuda:0'), grad: tensor([ 0.0142, -0.0534, -0.0268,  0.0143,  0.0112,  0.0108, -0.0168,  0.0072,
+         0.0250,  0.0144], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 448, time 215.00, cls_loss 0.4637 cls_loss_mapping 0.0009 cls_loss_causal 0.3959 re_mapping 0.0062 re_causal 0.0165 /// teacc 98.99 lr 0.00001000
+Epoch 450, weight, value: tensor([[-0.0741, -0.1631, -0.1112,  ..., -0.0383,  0.0665, -0.1127],
+        [-0.0831, -0.0958, -0.0901,  ...,  0.1000, -0.0383,  0.2404],
+        [ 0.0025, -0.0318, -0.0630,  ..., -0.0066, -0.0106, -0.0821],
+        ...,
+        [ 0.0374, -0.1221,  0.1830,  ...,  0.0388, -0.1260,  0.0618],
+        [-0.0262,  0.0662, -0.1537,  ..., -0.0490,  0.0187, -0.1206],
+        [-0.0649,  0.0833,  0.0429,  ..., -0.0650, -0.0556, -0.0354]],
+       device='cuda:0'), grad: tensor([[ 1.0556e-04, -3.9792e-04,  1.1571e-05,  ..., -5.1451e-04,
+          1.4119e-05,  5.0306e-04],
+        [ 5.3681e-06,  9.6440e-05,  1.8507e-05,  ..., -3.4790e-03,
+          1.3802e-06,  5.0507e-03],
+        [ 1.2755e-04,  2.5773e-04, -4.0030e-04,  ...,  4.0936e-04,
+          1.2204e-05,  4.0746e-04],
+        ...,
+        [ 9.4343e-07,  1.6570e-04, -3.3689e-04,  ...,  3.5834e-04,
+          1.1213e-06,  7.3099e-04],
+        [-5.4550e-04,  1.5116e-04,  6.4552e-05,  ..., -3.1185e-04,
+          2.8276e-04, -1.4565e-02],
+        [ 1.9491e-05, -4.6223e-05,  6.1560e-04,  ...,  4.1246e-04,
+          8.6427e-06,  5.9319e-04]], device='cuda:0')
+Epoch 450, bias, value: tensor([-0.0311,  0.0418, -0.0006, -0.0109,  0.0219, -0.0346,  0.0046,  0.0063,
+        -0.0020, -0.0149], device='cuda:0'), grad: tensor([-0.0258,  0.0112,  0.0068, -0.0049,  0.0151,  0.0030,  0.0082, -0.0204,
+        -0.0254,  0.0321], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 449, time 214.86, cls_loss 0.4897 cls_loss_mapping 0.0007 cls_loss_causal 0.4290 re_mapping 0.0063 re_causal 0.0171 /// teacc 99.01 lr 0.00001000
+Epoch 451, weight, value: tensor([[-0.0740, -0.1631, -0.1111,  ..., -0.0382,  0.0663, -0.1127],
+        [-0.0833, -0.0958, -0.0899,  ...,  0.1000, -0.0383,  0.2403],
+        [ 0.0025, -0.0318, -0.0631,  ..., -0.0067, -0.0105, -0.0821],
+        ...,
+        [ 0.0375, -0.1220,  0.1831,  ...,  0.0388, -0.1260,  0.0620],
+        [-0.0262,  0.0661, -0.1538,  ..., -0.0490,  0.0186, -0.1205],
+        [-0.0650,  0.0833,  0.0428,  ..., -0.0651, -0.0557, -0.0356]],
+       device='cuda:0'), grad: tensor([[ 1.3885e-03,  4.5896e-04,  4.7374e-04,  ...,  4.8218e-03,
+          7.9691e-05,  9.2411e-04],
+        [ 8.2445e-04,  2.4402e-04,  1.2465e-03,  ...,  3.0766e-03,
+          1.5557e-05,  8.4972e-04],
+        [ 7.8201e-04,  2.7370e-04,  6.4754e-04,  ...,  2.8782e-03,
+          3.6091e-05,  5.8794e-04],
+        ...,
+        [ 5.9128e-04,  3.5000e-04, -4.2152e-04,  ..., -9.8190e-03,
+          3.8505e-05, -2.5368e-03],
+        [ 9.1743e-04,  7.2002e-04,  3.4642e-04,  ...,  3.5915e-03,
+          6.3598e-05,  6.6757e-04],
+        [ 1.8711e-03, -1.8823e-04,  5.4646e-04,  ...,  4.7798e-03,
+          1.0592e-04,  9.5797e-04]], device='cuda:0')
+Epoch 451, bias, value: tensor([-0.0311,  0.0417, -0.0007, -0.0108,  0.0220, -0.0345,  0.0047,  0.0064,
+        -0.0022, -0.0150], device='cuda:0'), grad: tensor([ 0.0304,  0.0303,  0.0237, -0.0665,  0.0098, -0.0104, -0.0063, -0.0368,
+         0.0295, -0.0037], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 450, time 214.89, cls_loss 0.4779 cls_loss_mapping 0.0008 cls_loss_causal 0.4158 re_mapping 0.0062 re_causal 0.0170 /// teacc 98.99 lr 0.00001000
+Epoch 452, weight, value: tensor([[-0.0741, -0.1631, -0.1112,  ..., -0.0381,  0.0664, -0.1128],
+        [-0.0833, -0.0959, -0.0900,  ...,  0.0998, -0.0383,  0.2403],
+        [ 0.0024, -0.0317, -0.0631,  ..., -0.0067, -0.0105, -0.0821],
+        ...,
+        [ 0.0374, -0.1221,  0.1830,  ...,  0.0389, -0.1260,  0.0620],
+        [-0.0262,  0.0660, -0.1539,  ..., -0.0492,  0.0185, -0.1206],
+        [-0.0650,  0.0833,  0.0429,  ..., -0.0651, -0.0560, -0.0355]],
+       device='cuda:0'), grad: tensor([[ 3.1519e-04,  4.7654e-05,  5.2738e-04,  ...,  1.4191e-03,
+          4.9639e-04,  3.6860e-04],
+        [ 3.7026e-04,  4.5538e-05,  5.0354e-04,  ...,  8.3256e-04,
+          2.4116e-04,  3.3045e-04],
+        [ 3.7837e-04,  5.2929e-04,  5.9986e-04,  ..., -1.8864e-03,
+         -1.2898e-04,  2.9087e-04],
+        ...,
+        [ 3.7408e-04,  1.6892e-04,  9.1410e-04,  ...,  1.3666e-03,
+          2.2686e-04,  7.1573e-04],
+        [ 1.0576e-03,  6.2866e-03,  1.1520e-03,  ...,  7.2441e-03,
+          6.8605e-05,  1.0805e-03],
+        [ 6.0225e-04,  1.0240e-04,  2.1114e-03,  ...,  2.5463e-03,
+          3.9339e-04,  1.6298e-03]], device='cuda:0')
+Epoch 452, bias, value: tensor([-0.0310,  0.0417, -0.0005, -0.0109,  0.0221, -0.0347,  0.0046,  0.0064,
+        -0.0022, -0.0150], device='cuda:0'), grad: tensor([ 0.0143,  0.0083, -0.0581,  0.0094, -0.0274,  0.0117, -0.0223,  0.0127,
+         0.0295,  0.0220], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 451, time 214.68, cls_loss 0.4959 cls_loss_mapping 0.0008 cls_loss_causal 0.4313 re_mapping 0.0062 re_causal 0.0166 /// teacc 98.98 lr 0.00001000
+Epoch 453, weight, value: tensor([[-0.0739, -0.1631, -0.1111,  ..., -0.0381,  0.0663, -0.1129],
+        [-0.0834, -0.0958, -0.0900,  ...,  0.0998, -0.0383,  0.2403],
+        [ 0.0025, -0.0317, -0.0631,  ..., -0.0068, -0.0104, -0.0819],
+        ...,
+        [ 0.0374, -0.1220,  0.1831,  ...,  0.0391, -0.1260,  0.0621],
+        [-0.0262,  0.0662, -0.1535,  ..., -0.0491,  0.0186, -0.1206],
+        [-0.0653,  0.0833,  0.0429,  ..., -0.0652, -0.0560, -0.0356]],
+       device='cuda:0'), grad: tensor([[ 1.5521e-04,  2.8515e-04,  9.9540e-05,  ..., -1.1101e-02,
+          1.6661e-06,  9.3222e-05],
+        [-1.5650e-03,  1.7488e-04,  8.7500e-05,  ..., -3.7980e-04,
+          2.7865e-06,  8.5294e-05],
+        [ 2.7061e-04,  6.5231e-04,  8.1301e-04,  ...,  3.7155e-03,
+          3.0905e-05,  3.3712e-04],
+        ...,
+        [ 5.1200e-05,  1.8251e-04,  1.7975e-02,  ...,  1.1627e-02,
+          1.4812e-05, -4.0388e-04],
+        [ 2.4724e-04,  1.0872e-03,  3.8767e-04,  ...,  2.4929e-03,
+          9.0525e-06, -1.2522e-03],
+        [ 8.6188e-05, -2.5391e-02, -1.6708e-03,  ...,  1.6575e-03,
+          6.7770e-05,  8.1110e-04]], device='cuda:0')
+Epoch 453, bias, value: tensor([-0.0310,  0.0416, -0.0006, -0.0109,  0.0221, -0.0346,  0.0046,  0.0065,
+        -0.0022, -0.0150], device='cuda:0'), grad: tensor([-0.0420, -0.0187,  0.0292, -0.0196,  0.0137,  0.0167,  0.0226, -0.0145,
+         0.0124,  0.0001], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 452, time 214.83, cls_loss 0.4911 cls_loss_mapping 0.0010 cls_loss_causal 0.4322 re_mapping 0.0061 re_causal 0.0164 /// teacc 98.99 lr 0.00001000
+Epoch 454, weight, value: tensor([[-0.0738, -0.1631, -0.1111,  ..., -0.0380,  0.0664, -0.1127],
+        [-0.0836, -0.0958, -0.0901,  ...,  0.0997, -0.0383,  0.2402],
+        [ 0.0024, -0.0318, -0.0631,  ..., -0.0069, -0.0105, -0.0821],
+        ...,
+        [ 0.0376, -0.1219,  0.1832,  ...,  0.0392, -0.1260,  0.0620],
+        [-0.0261,  0.0662, -0.1534,  ..., -0.0493,  0.0187, -0.1206],
+        [-0.0653,  0.0834,  0.0428,  ..., -0.0652, -0.0559, -0.0356]],
+       device='cuda:0'), grad: tensor([[ 8.3971e-04,  4.0364e-04,  2.1845e-05,  ...,  1.7319e-03,
+          5.4932e-04,  6.6710e-04],
+        [ 4.8351e-04,  1.4877e-04,  1.6913e-05,  ...,  1.2569e-03,
+          3.7241e-04,  3.7456e-04],
+        [ 3.3116e-04,  5.3376e-05,  4.9257e-04,  ...,  1.4563e-03,
+          2.3901e-04,  4.3941e-04],
+        ...,
+        [ 5.8842e-04,  3.5882e-05, -5.5790e-04,  ..., -6.6233e-04,
+          5.7364e-04,  1.7250e-04],
+        [ 7.8249e-04,  6.9761e-04,  5.5522e-05,  ..., -9.9373e-04,
+          3.4165e-04,  6.2180e-04],
+        [-3.3569e-03, -3.0003e-03, -2.2182e-03,  ..., -4.0970e-03,
+         -3.7117e-03, -2.1248e-03]], device='cuda:0')
+Epoch 454, bias, value: tensor([-0.0308,  0.0414, -0.0006, -0.0109,  0.0220, -0.0346,  0.0046,  0.0067,
+        -0.0023, -0.0152], device='cuda:0'), grad: tensor([ 0.0157,  0.0161,  0.0129, -0.0499, -0.0198,  0.0325,  0.0430, -0.0161,
+        -0.0144, -0.0200], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 453, time 214.71, cls_loss 0.4797 cls_loss_mapping 0.0009 cls_loss_causal 0.4175 re_mapping 0.0059 re_causal 0.0162 /// teacc 98.99 lr 0.00001000
+Epoch 455, weight, value: tensor([[-0.0738, -0.1631, -0.1110,  ..., -0.0381,  0.0665, -0.1128],
+        [-0.0836, -0.0958, -0.0899,  ...,  0.0997, -0.0383,  0.2403],
+        [ 0.0024, -0.0317, -0.0632,  ..., -0.0069, -0.0106, -0.0820],
+        ...,
+        [ 0.0376, -0.1216,  0.1834,  ...,  0.0393, -0.1260,  0.0620],
+        [-0.0261,  0.0662, -0.1534,  ..., -0.0492,  0.0188, -0.1205],
+        [-0.0653,  0.0834,  0.0427,  ..., -0.0653, -0.0561, -0.0358]],
+       device='cuda:0'), grad: tensor([[ 1.6198e-05,  9.1672e-05,  5.6531e-07,  ..., -5.1022e-04,
+         -3.7178e-06, -2.2106e-03],
+        [-6.9663e-06,  7.2643e-07, -8.9630e-06,  ..., -4.0054e-04,
+          2.2352e-08,  4.8709e-04],
+        [ 9.5740e-07,  3.0119e-06, -6.1765e-06,  ...,  8.3876e-04,
+         -3.0577e-05, -2.6321e-03],
+        ...,
+        [ 5.7146e-06,  1.0449e-06,  1.5154e-05,  ..., -1.6766e-03,
+          2.0877e-05,  3.6311e-04],
+        [ 2.2626e-04,  1.2856e-03,  5.5246e-06,  ...,  1.0796e-03,
+          1.1129e-06,  1.7319e-03],
+        [ 2.0564e-06,  6.8992e-06,  4.3586e-06,  ...,  6.8283e-04,
+          1.2666e-07,  3.2330e-04]], device='cuda:0')
+Epoch 455, bias, value: tensor([-0.0308,  0.0415, -0.0007, -0.0109,  0.0219, -0.0345,  0.0046,  0.0067,
+        -0.0022, -0.0153], device='cuda:0'), grad: tensor([-0.0098, -0.0160,  0.0106, -0.0105,  0.0050,  0.0138,  0.0127, -0.0467,
+         0.0193,  0.0216], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 454, time 214.43, cls_loss 0.4938 cls_loss_mapping 0.0010 cls_loss_causal 0.4257 re_mapping 0.0060 re_causal 0.0162 /// teacc 98.98 lr 0.00001000
+Epoch 456, weight, value: tensor([[-0.0740, -0.1632, -0.1111,  ..., -0.0382,  0.0665, -0.1128],
+        [-0.0838, -0.0958, -0.0900,  ...,  0.0997, -0.0383,  0.2401],
+        [ 0.0024, -0.0319, -0.0631,  ..., -0.0071, -0.0105, -0.0821],
+        ...,
+        [ 0.0377, -0.1217,  0.1834,  ...,  0.0393, -0.1262,  0.0621],
+        [-0.0260,  0.0662, -0.1535,  ..., -0.0490,  0.0188, -0.1204],
+        [-0.0652,  0.0834,  0.0428,  ..., -0.0653, -0.0562, -0.0359]],
+       device='cuda:0'), grad: tensor([[-2.7103e-03, -5.1231e-03,  1.9681e-04,  ..., -2.6169e-03,
+          2.3174e-04, -1.3447e-03],
+        [ 1.3218e-03,  1.9951e-03,  2.5302e-05,  ...,  1.1797e-03,
+          1.3781e-04,  5.1737e-04],
+        [ 7.4196e-04,  8.5402e-04,  1.4424e-04,  ...,  2.1591e-03,
+         -5.6953e-03,  2.2578e-04],
+        ...,
+        [ 3.2177e-03,  1.7071e-04, -1.6336e-03,  ...,  5.7297e-03,
+          1.6594e-04,  1.6630e-04],
+        [ 4.7827e-04,  4.5943e-04,  7.0512e-05,  ...,  2.1706e-03,
+          9.4354e-05,  1.2243e-04],
+        [ 1.6298e-03,  1.5116e-03,  3.0351e-04,  ..., -2.2736e-03,
+          2.8896e-04,  6.0749e-04]], device='cuda:0')
+Epoch 456, bias, value: tensor([-0.0310,  0.0415, -0.0008, -0.0108,  0.0218, -0.0343,  0.0045,  0.0068,
+        -0.0021, -0.0153], device='cuda:0'), grad: tensor([-0.0043, -0.0957, -0.0015,  0.0254,  0.0458, -0.0638,  0.0271,  0.0398,
+         0.0242,  0.0031], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 455, time 214.31, cls_loss 0.4966 cls_loss_mapping 0.0009 cls_loss_causal 0.4306 re_mapping 0.0061 re_causal 0.0164 /// teacc 98.94 lr 0.00001000
+Epoch 457, weight, value: tensor([[-0.0740, -0.1633, -0.1113,  ..., -0.0381,  0.0665, -0.1129],
+        [-0.0837, -0.0959, -0.0900,  ...,  0.0998, -0.0381,  0.2401],
+        [ 0.0023, -0.0316, -0.0630,  ..., -0.0070, -0.0105, -0.0820],
+        ...,
+        [ 0.0378, -0.1217,  0.1834,  ...,  0.0393, -0.1262,  0.0622],
+        [-0.0261,  0.0662, -0.1534,  ..., -0.0492,  0.0187, -0.1205],
+        [-0.0651,  0.0833,  0.0428,  ..., -0.0651, -0.0563, -0.0360]],
+       device='cuda:0'), grad: tensor([[ 1.0766e-05, -4.4513e-04,  4.3213e-06,  ..., -1.9503e-03,
+          8.7358e-07,  4.8018e-04],
+        [ 2.3637e-06,  2.3901e-04, -2.9936e-05,  ...,  9.0637e-03,
+         -1.1325e-05,  7.8583e-03],
+        [ 1.1362e-06,  4.0221e-04,  2.7433e-05,  ..., -1.1658e-02,
+          9.6951e-07, -1.2955e-02],
+        ...,
+        [ 5.1372e-06, -2.8110e-04,  6.3717e-05,  ...,  8.4448e-04,
+          1.1303e-05,  1.0195e-03],
+        [ 7.5519e-05,  5.4884e-04,  7.4446e-05,  ...,  2.8229e-03,
+          9.6262e-06,  1.1740e-03],
+        [ 1.8585e-04,  1.1911e-03,  1.9989e-03,  ...,  1.3123e-03,
+          3.6931e-04,  1.8549e-03]], device='cuda:0')
+Epoch 457, bias, value: tensor([-0.0310,  0.0415, -0.0007, -0.0108,  0.0218, -0.0342,  0.0045,  0.0067,
+        -0.0021, -0.0152], device='cuda:0'), grad: tensor([-0.0456,  0.0371, -0.0130, -0.0152, -0.0160,  0.0145,  0.0292, -0.0083,
+         0.0221, -0.0049], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 456, time 214.42, cls_loss 0.4948 cls_loss_mapping 0.0009 cls_loss_causal 0.4291 re_mapping 0.0062 re_causal 0.0167 /// teacc 98.95 lr 0.00001000
+Epoch 458, weight, value: tensor([[-0.0740, -0.1634, -0.1115,  ..., -0.0382,  0.0665, -0.1130],
+        [-0.0837, -0.0960, -0.0900,  ...,  0.0997, -0.0382,  0.2403],
+        [ 0.0023, -0.0316, -0.0630,  ..., -0.0068, -0.0104, -0.0819],
+        ...,
+        [ 0.0379, -0.1217,  0.1833,  ...,  0.0392, -0.1263,  0.0622],
+        [-0.0262,  0.0663, -0.1533,  ..., -0.0491,  0.0188, -0.1204],
+        [-0.0651,  0.0832,  0.0429,  ..., -0.0652, -0.0561, -0.0361]],
+       device='cuda:0'), grad: tensor([[-2.8076e-03,  5.7518e-05,  1.8525e-04,  ...,  2.5272e-04,
+          5.5015e-05,  1.1091e-03],
+        [ 2.2392e-03, -6.9571e-04, -1.9026e-03,  ..., -4.9782e-03,
+         -1.1200e-04, -1.7452e-04],
+        [ 3.9749e-03,  6.7055e-05,  4.4203e-04,  ...,  3.5839e-03,
+          1.7241e-05,  1.0099e-03],
+        ...,
+        [ 1.2703e-03,  7.5161e-05,  8.4448e-04,  ...,  4.1924e-03,
+          2.0400e-05,  1.0996e-03],
+        [ 2.5444e-03,  9.5963e-05, -1.7757e-03,  ...,  4.0436e-03,
+          8.2016e-05,  1.0309e-03],
+        [-5.6038e-03,  5.7697e-05,  1.2007e-03,  ..., -1.2665e-02,
+         -2.4176e-04, -3.2787e-03]], device='cuda:0')
+Epoch 458, bias, value: tensor([-0.0310,  0.0414, -0.0004, -0.0109,  0.0218, -0.0341,  0.0044,  0.0066,
+        -0.0022, -0.0152], device='cuda:0'), grad: tensor([-0.0003, -0.0688,  0.0280,  0.0269, -0.0064, -0.0101,  0.0327,  0.0229,
+        -0.0053, -0.0194], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 457, time 214.34, cls_loss 0.4946 cls_loss_mapping 0.0010 cls_loss_causal 0.4292 re_mapping 0.0060 re_causal 0.0165 /// teacc 98.96 lr 0.00001000
+Epoch 459, weight, value: tensor([[-0.0741, -0.1633, -0.1114,  ..., -0.0382,  0.0664, -0.1130],
+        [-0.0836, -0.0960, -0.0900,  ...,  0.0997, -0.0382,  0.2404],
+        [ 0.0023, -0.0317, -0.0630,  ..., -0.0069, -0.0104, -0.0820],
+        ...,
+        [ 0.0378, -0.1217,  0.1831,  ...,  0.0392, -0.1264,  0.0621],
+        [-0.0262,  0.0662, -0.1534,  ..., -0.0492,  0.0187, -0.1204],
+        [-0.0652,  0.0833,  0.0432,  ..., -0.0652, -0.0561, -0.0360]],
+       device='cuda:0'), grad: tensor([[ 4.0698e-04,  1.8864e-03,  3.9043e-03,  ...,  9.0694e-04,
+          5.1117e-03,  7.3612e-05],
+        [ 2.2054e-04, -8.4102e-05, -1.8668e-04,  ...,  1.3552e-03,
+          3.8743e-04, -6.0844e-04],
+        [ 4.6444e-04,  9.9003e-05,  1.5187e-04,  ...,  1.2274e-03,
+          3.5238e-04,  1.5020e-04],
+        ...,
+        [ 7.7915e-04, -4.3130e-04, -1.0090e-03,  ...,  4.0984e-04,
+          3.6478e-04, -1.0118e-03],
+        [ 8.2779e-04,  1.9634e-04,  3.1137e-04,  ...,  1.8435e-03,
+          2.7585e-04,  6.4516e-04],
+        [ 5.8794e-04,  2.3603e-04,  3.5095e-04,  ...,  1.5745e-03,
+          4.0770e-04,  3.3569e-04]], device='cuda:0')
+Epoch 459, bias, value: tensor([-0.0310,  0.0414, -0.0005, -0.0109,  0.0218, -0.0339,  0.0045,  0.0064,
+        -0.0023, -0.0151], device='cuda:0'), grad: tensor([ 0.0252,  0.0104,  0.0091, -0.0167,  0.0089, -0.0219, -0.0422,  0.0039,
+         0.0114,  0.0117], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 458, time 214.41, cls_loss 0.4704 cls_loss_mapping 0.0009 cls_loss_causal 0.4042 re_mapping 0.0058 re_causal 0.0158 /// teacc 98.96 lr 0.00001000
+Epoch 460, weight, value: tensor([[-0.0741, -0.1633, -0.1115,  ..., -0.0382,  0.0666, -0.1130],
+        [-0.0837, -0.0962, -0.0901,  ...,  0.0996, -0.0382,  0.2404],
+        [ 0.0024, -0.0316, -0.0629,  ..., -0.0068, -0.0103, -0.0819],
+        ...,
+        [ 0.0378, -0.1217,  0.1832,  ...,  0.0393, -0.1264,  0.0621],
+        [-0.0263,  0.0662, -0.1534,  ..., -0.0492,  0.0187, -0.1205],
+        [-0.0652,  0.0833,  0.0432,  ..., -0.0653, -0.0562, -0.0359]],
+       device='cuda:0'), grad: tensor([[-9.6035e-04,  2.7027e-03,  2.8563e-04,  ...,  2.0409e-03,
+          1.6031e-03,  2.3353e-04],
+        [-4.9858e-03, -4.9438e-03, -7.3738e-03,  ...,  1.7761e-02,
+          1.9580e-05, -3.1204e-03],
+        [-1.5144e-03, -1.1665e-02, -9.5558e-04,  ..., -6.3972e-03,
+         -6.9084e-03,  1.0908e-04],
+        ...,
+        [ 2.2068e-03,  2.3232e-03,  2.0275e-03,  ...,  1.6689e-03,
+          4.1425e-05,  1.8959e-03],
+        [ 4.0078e-04,  6.5857e-02,  8.3313e-03,  ...,  4.8923e-04,
+          1.8158e-03,  3.0613e-04],
+        [ 7.4005e-04,  9.2793e-04,  8.7786e-04,  ...,  1.4400e-03,
+          1.1897e-04,  6.9952e-04]], device='cuda:0')
+Epoch 460, bias, value: tensor([-0.0310,  0.0413, -0.0004, -0.0109,  0.0217, -0.0340,  0.0046,  0.0065,
+        -0.0023, -0.0151], device='cuda:0'), grad: tensor([-0.0171,  0.0193, -0.0194,  0.0096, -0.0209,  0.0154, -0.0182,  0.0157,
+         0.0019,  0.0137], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 459, time 214.92, cls_loss 0.4810 cls_loss_mapping 0.0009 cls_loss_causal 0.4272 re_mapping 0.0063 re_causal 0.0171 /// teacc 98.96 lr 0.00001000
+Epoch 461, weight, value: tensor([[-0.0741, -0.1633, -0.1115,  ..., -0.0382,  0.0665, -0.1130],
+        [-0.0838, -0.0962, -0.0901,  ...,  0.0995, -0.0383,  0.2404],
+        [ 0.0023, -0.0316, -0.0629,  ..., -0.0069, -0.0103, -0.0819],
+        ...,
+        [ 0.0377, -0.1218,  0.1832,  ...,  0.0393, -0.1265,  0.0622],
+        [-0.0263,  0.0662, -0.1535,  ..., -0.0495,  0.0187, -0.1207],
+        [-0.0651,  0.0834,  0.0432,  ..., -0.0652, -0.0562, -0.0358]],
+       device='cuda:0'), grad: tensor([[ 7.7438e-04,  4.6879e-05,  3.2592e-04,  ...,  6.1005e-05,
+          3.2520e-04,  7.6914e-04],
+        [-1.8096e-04, -4.6692e-03, -2.7156e-04,  ..., -9.2239e-03,
+          3.0828e-04, -6.0539e-03],
+        [-1.9054e-03,  2.1994e-04, -1.4257e-03,  ..., -3.5954e-03,
+         -4.7798e-03, -1.0595e-03],
+        ...,
+        [ 6.3658e-04, -7.2908e-04, -3.4733e-03,  ..., -3.3779e-03,
+          2.2709e-04, -4.9744e-03],
+        [ 6.3324e-04,  4.2229e-03,  2.3770e-04,  ...,  8.8730e-03,
+          7.3576e-04,  6.0654e-03],
+        [ 5.3215e-04,  4.6372e-04,  1.6060e-03,  ...,  3.0975e-03,
+          2.8324e-04,  9.3307e-03]], device='cuda:0')
+Epoch 461, bias, value: tensor([-0.0310,  0.0414, -0.0004, -0.0108,  0.0215, -0.0339,  0.0047,  0.0065,
+        -0.0024, -0.0150], device='cuda:0'), grad: tensor([-0.0200, -0.0600, -0.0213, -0.0085, -0.0074,  0.0200,  0.0150,  0.0010,
+         0.0437,  0.0374], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 460, time 214.71, cls_loss 0.5072 cls_loss_mapping 0.0010 cls_loss_causal 0.4433 re_mapping 0.0061 re_causal 0.0166 /// teacc 98.96 lr 0.00001000
+Epoch 462, weight, value: tensor([[-0.0742, -0.1632, -0.1115,  ..., -0.0381,  0.0665, -0.1130],
+        [-0.0836, -0.0961, -0.0901,  ...,  0.0996, -0.0383,  0.2405],
+        [ 0.0022, -0.0317, -0.0630,  ..., -0.0070, -0.0103, -0.0820],
+        ...,
+        [ 0.0376, -0.1219,  0.1832,  ...,  0.0393, -0.1266,  0.0621],
+        [-0.0263,  0.0663, -0.1535,  ..., -0.0495,  0.0187, -0.1206],
+        [-0.0648,  0.0833,  0.0433,  ..., -0.0650, -0.0561, -0.0357]],
+       device='cuda:0'), grad: tensor([[ 3.9434e-04,  1.7977e-03,  3.7283e-05,  ...,  4.2114e-03,
+          2.2912e-04,  1.8835e-03],
+        [-5.0020e-04,  8.7547e-04,  2.7013e-04,  ...,  4.6005e-03,
+          7.6342e-04,  7.6675e-03],
+        [ 9.4604e-04, -1.0986e-02, -1.6565e-03,  ..., -2.5940e-03,
+          2.5606e-04, -1.6220e-02],
+        ...,
+        [-4.7455e-03,  8.8310e-04, -6.3658e-04,  ..., -4.2458e-03,
+          1.8167e-04,  9.6226e-04],
+        [ 7.6246e-04,  7.5674e-04,  7.2181e-05,  ...,  1.2083e-03,
+          3.1567e-04,  4.7493e-04],
+        [ 1.1492e-03,  1.4057e-03,  1.1277e-04,  ...,  3.2043e-03,
+          2.4676e-04,  1.7738e-03]], device='cuda:0')
+Epoch 462, bias, value: tensor([-0.0310,  0.0415, -0.0004, -0.0109,  0.0215, -0.0340,  0.0047,  0.0064,
+        -0.0025, -0.0149], device='cuda:0'), grad: tensor([ 0.0267,  0.0179, -0.1306,  0.0014,  0.0720,  0.0232, -0.0459, -0.0035,
+         0.0112,  0.0277], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 461, time 214.73, cls_loss 0.5031 cls_loss_mapping 0.0010 cls_loss_causal 0.4264 re_mapping 0.0060 re_causal 0.0167 /// teacc 98.96 lr 0.00001000
+Epoch 463, weight, value: tensor([[-0.0742, -0.1631, -0.1115,  ..., -0.0382,  0.0666, -0.1130],
+        [-0.0837, -0.0962, -0.0901,  ...,  0.0997, -0.0383,  0.2406],
+        [ 0.0022, -0.0316, -0.0630,  ..., -0.0070, -0.0103, -0.0820],
+        ...,
+        [ 0.0375, -0.1220,  0.1831,  ...,  0.0393, -0.1266,  0.0621],
+        [-0.0261,  0.0664, -0.1535,  ..., -0.0496,  0.0188, -0.1205],
+        [-0.0647,  0.0833,  0.0434,  ..., -0.0648, -0.0560, -0.0357]],
+       device='cuda:0'), grad: tensor([[ 4.4346e-04, -3.9330e-03,  2.1592e-05,  ..., -3.5019e-03,
+          6.5231e-04,  3.3164e-04],
+        [-2.9731e-04, -1.6289e-03, -6.6519e-04,  ...,  1.0568e-04,
+          7.1466e-05, -5.6114e-03],
+        [ 2.0075e-04,  8.6498e-04,  6.2406e-05,  ..., -7.7477e-03,
+          2.6751e-04,  4.0388e-04],
+        ...,
+        [ 1.1235e-04,  1.4076e-03,  9.3579e-05,  ...,  4.5090e-03,
+          9.1970e-05,  6.8283e-04],
+        [ 1.2791e-04, -7.7844e-05,  1.4269e-04,  ..., -9.7046e-03,
+          9.4473e-05,  7.2193e-04],
+        [ 1.1069e-04,  1.9372e-05,  7.0095e-05,  ...,  3.7079e-03,
+          1.0562e-04,  1.1091e-03]], device='cuda:0')
+Epoch 463, bias, value: tensor([-0.0310,  0.0416, -0.0003, -0.0108,  0.0215, -0.0340,  0.0047,  0.0063,
+        -0.0025, -0.0149], device='cuda:0'), grad: tensor([-0.0591, -0.0398, -0.0127,  0.0114,  0.0289,  0.0344,  0.0294,  0.0339,
+        -0.0580,  0.0315], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 462, time 215.05, cls_loss 0.4848 cls_loss_mapping 0.0009 cls_loss_causal 0.4168 re_mapping 0.0062 re_causal 0.0168 /// teacc 98.95 lr 0.00001000
+Epoch 464, weight, value: tensor([[-0.0742, -0.1630, -0.1112,  ..., -0.0382,  0.0666, -0.1130],
+        [-0.0836, -0.0960, -0.0900,  ...,  0.0997, -0.0384,  0.2407],
+        [ 0.0024, -0.0318, -0.0630,  ..., -0.0071, -0.0102, -0.0821],
+        ...,
+        [ 0.0375, -0.1220,  0.1833,  ...,  0.0392, -0.1267,  0.0621],
+        [-0.0260,  0.0663, -0.1536,  ..., -0.0495,  0.0188, -0.1206],
+        [-0.0647,  0.0833,  0.0432,  ..., -0.0650, -0.0559, -0.0358]],
+       device='cuda:0'), grad: tensor([[-9.2554e-04,  1.6415e-04,  6.5136e-04,  ..., -7.8499e-05,
+          1.9045e-03,  7.9572e-05],
+        [-2.5578e-03,  1.7583e-04,  2.4319e-03,  ...,  9.4843e-04,
+          4.3144e-03,  6.2406e-05],
+        [ 2.3613e-03,  2.2554e-04,  2.5330e-03,  ...,  1.1665e-02,
+          4.2534e-03,  1.0550e-04],
+        ...,
+        [ 2.5344e-04,  1.6890e-03, -5.1308e-03,  ...,  1.3742e-03,
+          1.6844e-04, -6.0616e-03],
+        [-1.2207e-03,  1.6600e-05, -1.1063e-02,  ..., -1.4313e-02,
+         -9.3231e-03,  1.4579e-04],
+        [ 1.8489e-04, -3.1853e-03,  5.7459e-04,  ..., -1.1797e-03,
+          2.5511e-04, -1.8864e-03]], device='cuda:0')
+Epoch 464, bias, value: tensor([-0.0311,  0.0417, -0.0003, -0.0109,  0.0214, -0.0339,  0.0047,  0.0063,
+        -0.0024, -0.0150], device='cuda:0'), grad: tensor([ 0.0082,  0.0026,  0.0174,  0.0390,  0.0106, -0.0197,  0.0365, -0.0265,
+        -0.0460, -0.0221], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 463, time 214.87, cls_loss 0.4994 cls_loss_mapping 0.0009 cls_loss_causal 0.4403 re_mapping 0.0061 re_causal 0.0168 /// teacc 99.01 lr 0.00001000
+Epoch 465, weight, value: tensor([[-0.0741, -0.1630, -0.1112,  ..., -0.0383,  0.0664, -0.1130],
+        [-0.0837, -0.0961, -0.0901,  ...,  0.0997, -0.0386,  0.2408],
+        [ 0.0023, -0.0317, -0.0631,  ..., -0.0070, -0.0105, -0.0821],
+        ...,
+        [ 0.0375, -0.1221,  0.1834,  ...,  0.0392, -0.1266,  0.0622],
+        [-0.0260,  0.0663, -0.1537,  ..., -0.0495,  0.0190, -0.1206],
+        [-0.0647,  0.0833,  0.0432,  ..., -0.0649, -0.0559, -0.0358]],
+       device='cuda:0'), grad: tensor([[ 2.1446e-04,  2.1529e-04,  2.5129e-04,  ...,  1.0281e-03,
+         -7.6675e-04,  4.2033e-04],
+        [-1.4982e-03,  4.0531e-04,  6.5565e-04,  ..., -1.8940e-03,
+          3.2997e-04, -4.8065e-03],
+        [ 1.9491e-04,  2.8300e-04,  4.2248e-04,  ...,  1.1683e-03,
+          4.9877e-04,  4.2272e-04],
+        ...,
+        [ 1.9574e-04, -4.0340e-04,  6.9523e-04,  ...,  2.6971e-05,
+          2.4140e-04,  5.7650e-04],
+        [ 7.4482e-04, -1.2648e-04,  2.7132e-04,  ...,  1.7738e-03,
+          4.2081e-04,  1.2341e-03],
+        [ 1.0195e-03,  8.4543e-04, -9.5654e-04,  ...,  3.4142e-03,
+          7.8392e-04,  8.7166e-04]], device='cuda:0')
+Epoch 465, bias, value: tensor([-0.0312,  0.0415, -0.0004, -0.0109,  0.0213, -0.0339,  0.0048,  0.0064,
+        -0.0024, -0.0148], device='cuda:0'), grad: tensor([ 0.0144, -0.0085,  0.0160, -0.0103,  0.0147, -0.0118, -0.0094, -0.0429,
+         0.0184,  0.0194], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 464, time 214.93, cls_loss 0.4829 cls_loss_mapping 0.0010 cls_loss_causal 0.4080 re_mapping 0.0061 re_causal 0.0163 /// teacc 99.01 lr 0.00001000
+Epoch 466, weight, value: tensor([[-0.0741, -0.1631, -0.1113,  ..., -0.0383,  0.0665, -0.1130],
+        [-0.0837, -0.0960, -0.0902,  ...,  0.0997, -0.0386,  0.2407],
+        [ 0.0023, -0.0317, -0.0631,  ..., -0.0070, -0.0104, -0.0822],
+        ...,
+        [ 0.0375, -0.1222,  0.1835,  ...,  0.0392, -0.1265,  0.0623],
+        [-0.0259,  0.0664, -0.1536,  ..., -0.0496,  0.0190, -0.1206],
+        [-0.0648,  0.0834,  0.0432,  ..., -0.0649, -0.0561, -0.0359]],
+       device='cuda:0'), grad: tensor([[ 7.7963e-04,  3.8791e-04,  7.2050e-04,  ...,  1.5011e-03,
+          2.4259e-05,  2.1130e-05],
+        [ 1.6701e-04,  7.9012e-04,  4.1217e-05,  ..., -3.3665e-04,
+          1.8263e-06,  3.1143e-05],
+        [ 3.1853e-03,  7.3929e-03, -1.9765e-04,  ...,  4.0817e-03,
+          1.9300e-04,  1.0169e-04],
+        ...,
+        [ 2.5158e-03,  5.1422e-03, -1.7256e-05,  ...,  2.1534e-03,
+          3.6322e-06, -6.3992e-04],
+        [-1.0948e-03, -8.8882e-04, -1.5078e-03,  ..., -3.3722e-03,
+          1.8859e-06, -1.6958e-05],
+        [ 8.9264e-04,  1.7834e-03,  3.7169e-04,  ...,  1.5907e-03,
+          1.7002e-05,  2.7585e-04]], device='cuda:0')
+Epoch 466, bias, value: tensor([-0.0312,  0.0416, -0.0003, -0.0109,  0.0212, -0.0340,  0.0049,  0.0064,
+        -0.0026, -0.0148], device='cuda:0'), grad: tensor([-0.0095,  0.0090,  0.0238, -0.0100, -0.0212,  0.0129, -0.0222,  0.0186,
+        -0.0197,  0.0184], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 465, time 214.61, cls_loss 0.4920 cls_loss_mapping 0.0009 cls_loss_causal 0.4334 re_mapping 0.0062 re_causal 0.0167 /// teacc 99.01 lr 0.00001000
+Epoch 467, weight, value: tensor([[-0.0740, -0.1631, -0.1114,  ..., -0.0382,  0.0665, -0.1131],
+        [-0.0835, -0.0961, -0.0902,  ...,  0.0998, -0.0386,  0.2409],
+        [ 0.0022, -0.0317, -0.0630,  ..., -0.0068, -0.0104, -0.0823],
+        ...,
+        [ 0.0375, -0.1223,  0.1835,  ...,  0.0392, -0.1265,  0.0623],
+        [-0.0260,  0.0664, -0.1537,  ..., -0.0496,  0.0189, -0.1206],
+        [-0.0648,  0.0833,  0.0432,  ..., -0.0649, -0.0561, -0.0360]],
+       device='cuda:0'), grad: tensor([[ 2.2960e-04,  8.0466e-05,  9.9838e-06,  ...,  7.9441e-04,
+          4.0233e-05,  3.1471e-04],
+        [ 6.2132e-04,  4.0710e-05,  1.7017e-05,  ..., -1.2611e-02,
+          1.3495e-06,  6.6471e-04],
+        [ 2.4772e-04, -3.8296e-05,  5.4181e-05,  ...,  1.1988e-03,
+          6.2399e-07,  3.9744e-04],
+        ...,
+        [ 7.4625e-04,  2.5296e-04, -2.0874e-04,  ...,  1.5421e-03,
+          8.6613e-08,  3.4122e-03],
+        [-3.2558e-03,  2.8682e-04,  2.9612e-04,  ...,  6.9466e-03,
+          1.0990e-05, -2.9736e-03],
+        [ 1.8847e-04, -3.2330e-04, -5.9366e-04,  ...,  1.0252e-03,
+          1.2619e-06,  3.1471e-03]], device='cuda:0')
+Epoch 467, bias, value: tensor([-0.0311,  0.0417, -0.0002, -0.0110,  0.0213, -0.0342,  0.0049,  0.0064,
+        -0.0025, -0.0148], device='cuda:0'), grad: tensor([ 0.0110, -0.0016,  0.0117, -0.0189, -0.0022, -0.0199,  0.0148,  0.0201,
+        -0.0314,  0.0165], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 466, time 214.75, cls_loss 0.4995 cls_loss_mapping 0.0009 cls_loss_causal 0.4323 re_mapping 0.0060 re_causal 0.0165 /// teacc 98.98 lr 0.00001000
+Epoch 468, weight, value: tensor([[-0.0738, -0.1631, -0.1112,  ..., -0.0380,  0.0666, -0.1132],
+        [-0.0835, -0.0960, -0.0902,  ...,  0.0997, -0.0387,  0.2409],
+        [ 0.0021, -0.0317, -0.0630,  ..., -0.0070, -0.0103, -0.0823],
+        ...,
+        [ 0.0376, -0.1222,  0.1834,  ...,  0.0392, -0.1266,  0.0624],
+        [-0.0261,  0.0665, -0.1538,  ..., -0.0496,  0.0189, -0.1205],
+        [-0.0648,  0.0831,  0.0433,  ..., -0.0648, -0.0561, -0.0360]],
+       device='cuda:0'), grad: tensor([[ 3.7789e-04,  6.7353e-05,  1.2163e-06,  ...,  1.3418e-03,
+          3.9548e-05,  4.3750e-04],
+        [ 1.6117e-03,  9.6500e-05,  1.4448e-03,  ..., -3.6354e-03,
+          2.4366e-04,  1.1301e-03],
+        [ 3.3212e-04, -6.2513e-04,  6.7241e-06,  ..., -4.6754e-04,
+          5.4032e-05, -1.6861e-03],
+        ...,
+        [ 3.6740e-04,  1.5807e-04,  2.0182e-04,  ..., -3.0255e-04,
+          3.5584e-05, -5.9700e-04],
+        [ 6.6757e-04,  1.6603e-03,  6.4754e-04,  ...,  2.9526e-03,
+          5.3704e-05,  6.8545e-05],
+        [-5.9662e-03, -1.7128e-03, -7.2718e-04,  ..., -7.4234e-03,
+         -6.9761e-04, -3.0918e-03]], device='cuda:0')
+Epoch 468, bias, value: tensor([-0.0310,  0.0417, -0.0003, -0.0109,  0.0213, -0.0341,  0.0049,  0.0064,
+        -0.0026, -0.0149], device='cuda:0'), grad: tensor([ 0.0109, -0.0257, -0.0234,  0.0211,  0.0138, -0.0006,  0.0220,  0.0082,
+        -0.0089, -0.0173], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 467, time 214.58, cls_loss 0.4702 cls_loss_mapping 0.0008 cls_loss_causal 0.4158 re_mapping 0.0060 re_causal 0.0165 /// teacc 98.99 lr 0.00001000
+Epoch 469, weight, value: tensor([[-0.0739, -0.1630, -0.1113,  ..., -0.0381,  0.0668, -0.1131],
+        [-0.0833, -0.0960, -0.0903,  ...,  0.0997, -0.0388,  0.2409],
+        [ 0.0022, -0.0316, -0.0630,  ..., -0.0070, -0.0103, -0.0825],
+        ...,
+        [ 0.0376, -0.1223,  0.1835,  ...,  0.0393, -0.1265,  0.0625],
+        [-0.0261,  0.0664, -0.1540,  ..., -0.0496,  0.0189, -0.1206],
+        [-0.0647,  0.0832,  0.0434,  ..., -0.0647, -0.0560, -0.0360]],
+       device='cuda:0'), grad: tensor([[ 3.1509e-03, -3.6192e-04, -6.5470e-04,  ..., -7.7963e-04,
+         -9.4604e-04, -9.7942e-04],
+        [ 9.2936e-04,  3.1447e-04,  7.2308e-06,  ..., -1.5621e-03,
+          1.2946e-04, -1.7524e-04],
+        [ 6.9809e-03,  2.7905e-03,  1.0872e-04,  ...,  9.6989e-04,
+          7.6532e-04,  1.7047e-04],
+        ...,
+        [-1.4503e-02, -5.7182e-03,  3.1441e-05,  ..., -9.7322e-04,
+          1.4663e-04,  4.5717e-05],
+        [ 1.1177e-03, -5.0163e-04,  3.3200e-05,  ...,  2.7251e-04,
+          5.7507e-04,  8.0645e-05],
+        [ 5.8126e-04,  2.9802e-04,  1.8501e-04,  ...,  5.4121e-04,
+          4.9686e-04,  1.9348e-04]], device='cuda:0')
+Epoch 469, bias, value: tensor([-0.0310,  0.0417, -0.0003, -0.0109,  0.0212, -0.0341,  0.0049,  0.0064,
+        -0.0026, -0.0148], device='cuda:0'), grad: tensor([ 0.0046, -0.0155,  0.0201, -0.0391,  0.0145,  0.0068, -0.0089, -0.0075,
+         0.0109,  0.0140], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 468, time 214.74, cls_loss 0.4823 cls_loss_mapping 0.0008 cls_loss_causal 0.4159 re_mapping 0.0060 re_causal 0.0166 /// teacc 98.98 lr 0.00001000
+Epoch 470, weight, value: tensor([[-0.0739, -0.1632, -0.1113,  ..., -0.0381,  0.0667, -0.1133],
+        [-0.0833, -0.0960, -0.0903,  ...,  0.0998, -0.0387,  0.2409],
+        [ 0.0022, -0.0316, -0.0631,  ..., -0.0069, -0.0102, -0.0826],
+        ...,
+        [ 0.0375, -0.1223,  0.1834,  ...,  0.0391, -0.1265,  0.0626],
+        [-0.0262,  0.0664, -0.1541,  ..., -0.0496,  0.0191, -0.1206],
+        [-0.0646,  0.0833,  0.0435,  ..., -0.0648, -0.0558, -0.0359]],
+       device='cuda:0'), grad: tensor([[ 0.0008,  0.0008,  0.0009,  ...,  0.0037,  0.0006,  0.0016],
+        [ 0.0006,  0.0009,  0.0006,  ...,  0.0045,  0.0006,  0.0009],
+        [-0.0024, -0.0034, -0.0030,  ..., -0.0041, -0.0028, -0.0012],
+        ...,
+        [ 0.0009,  0.0010, -0.0062,  ..., -0.0175,  0.0006, -0.0029],
+        [ 0.0039,  0.0042,  0.0042,  ...,  0.0058,  0.0006,  0.0023],
+        [ 0.0023,  0.0021,  0.0026,  ...,  0.0030, -0.0002,  0.0016]],
+       device='cuda:0')
+Epoch 470, bias, value: tensor([-0.0310,  0.0418, -0.0002, -0.0109,  0.0212, -0.0341,  0.0049,  0.0063,
+        -0.0027, -0.0148], device='cuda:0'), grad: tensor([ 0.0071,  0.0159, -0.0352,  0.0031, -0.0248,  0.0206,  0.0058, -0.0277,
+         0.0327,  0.0024], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 469, time 214.55, cls_loss 0.4720 cls_loss_mapping 0.0008 cls_loss_causal 0.4059 re_mapping 0.0061 re_causal 0.0165 /// teacc 98.98 lr 0.00001000
+Epoch 471, weight, value: tensor([[-0.0739, -0.1632, -0.1113,  ..., -0.0381,  0.0666, -0.1133],
+        [-0.0832, -0.0960, -0.0903,  ...,  0.0996, -0.0386,  0.2409],
+        [ 0.0023, -0.0316, -0.0630,  ..., -0.0070, -0.0104, -0.0825],
+        ...,
+        [ 0.0374, -0.1223,  0.1835,  ...,  0.0393, -0.1266,  0.0624],
+        [-0.0261,  0.0662, -0.1541,  ..., -0.0496,  0.0191, -0.1207],
+        [-0.0646,  0.0833,  0.0434,  ..., -0.0649, -0.0559, -0.0360]],
+       device='cuda:0'), grad: tensor([[ 2.9802e-04,  2.2892e-06, -1.9140e-03,  ..., -1.7090e-02,
+          3.5310e-04, -1.5221e-03],
+        [ 3.4261e-04,  2.1771e-05,  6.7329e-04,  ..., -3.0727e-03,
+          1.5497e-04,  3.2353e-04],
+        [ 2.9421e-04, -2.3234e-04, -2.4009e-04,  ...,  2.0008e-03,
+          9.9421e-05, -5.0497e-04],
+        ...,
+        [ 3.7551e-04, -1.2189e-04, -2.9087e-04,  ...,  6.7101e-03,
+          8.7440e-05,  4.9782e-04],
+        [ 6.3658e-04,  1.8388e-05,  2.1362e-04,  ...,  4.3449e-03,
+          1.0496e-04,  1.2808e-03],
+        [ 7.8917e-04,  1.7691e-04,  1.2684e-03,  ...,  5.8823e-03,
+          7.9155e-05,  1.2083e-03]], device='cuda:0')
+Epoch 471, bias, value: tensor([-0.0311,  0.0418, -0.0002, -0.0109,  0.0212, -0.0340,  0.0050,  0.0063,
+        -0.0027, -0.0149], device='cuda:0'), grad: tensor([-0.0375, -0.0240, -0.0279,  0.0026,  0.0070, -0.0371,  0.0414,  0.0127,
+         0.0262,  0.0366], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 470, time 214.38, cls_loss 0.4676 cls_loss_mapping 0.0007 cls_loss_causal 0.4103 re_mapping 0.0061 re_causal 0.0165 /// teacc 98.99 lr 0.00001000
+Epoch 472, weight, value: tensor([[-0.0738, -0.1633, -0.1113,  ..., -0.0379,  0.0665, -0.1132],
+        [-0.0832, -0.0961, -0.0903,  ...,  0.0995, -0.0387,  0.2409],
+        [ 0.0022, -0.0315, -0.0627,  ..., -0.0070, -0.0104, -0.0826],
+        ...,
+        [ 0.0373, -0.1224,  0.1834,  ...,  0.0394, -0.1265,  0.0624],
+        [-0.0260,  0.0661, -0.1539,  ..., -0.0495,  0.0193, -0.1206],
+        [-0.0644,  0.0834,  0.0434,  ..., -0.0649, -0.0559, -0.0358]],
+       device='cuda:0'), grad: tensor([[ 3.8445e-06, -1.7047e-04,  7.0930e-05,  ...,  5.9128e-04,
+         -9.6464e-04,  3.9387e-04],
+        [-7.1585e-05,  3.6478e-05, -1.6499e-04,  ..., -5.7888e-04,
+          2.2445e-07, -6.6137e-04],
+        [-3.8773e-05,  8.6188e-05, -5.6028e-05,  ...,  2.1911e-04,
+          2.3976e-05,  3.1781e-04],
+        ...,
+        [ 7.5400e-05,  9.5510e-04, -1.2651e-05,  ...,  6.7234e-04,
+          1.5739e-07, -3.1614e-04],
+        [-3.3472e-06,  3.6659e-03,  3.5018e-05,  ...,  4.2725e-03,
+          2.7820e-05,  2.0191e-05],
+        [ 8.9929e-06, -6.6719e-03,  4.1515e-05,  ..., -7.4959e-03,
+          1.4231e-05,  1.0359e-04]], device='cuda:0')
+Epoch 472, bias, value: tensor([-0.0311,  0.0417, -0.0004, -0.0111,  0.0211, -0.0339,  0.0050,  0.0065,
+        -0.0026, -0.0148], device='cuda:0'), grad: tensor([ 0.0024,  0.0025,  0.0036,  0.0094,  0.0032, -0.0280,  0.0029,  0.0077,
+         0.0166, -0.0203], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 471, time 214.45, cls_loss 0.4893 cls_loss_mapping 0.0008 cls_loss_causal 0.4213 re_mapping 0.0061 re_causal 0.0168 /// teacc 99.00 lr 0.00001000
+Epoch 473, weight, value: tensor([[-0.0737, -0.1633, -0.1115,  ..., -0.0379,  0.0665, -0.1131],
+        [-0.0832, -0.0961, -0.0903,  ...,  0.0995, -0.0388,  0.2409],
+        [ 0.0020, -0.0315, -0.0627,  ..., -0.0069, -0.0104, -0.0827],
+        ...,
+        [ 0.0377, -0.1223,  0.1832,  ...,  0.0394, -0.1266,  0.0623],
+        [-0.0260,  0.0661, -0.1539,  ..., -0.0494,  0.0194, -0.1206],
+        [-0.0645,  0.0834,  0.0437,  ..., -0.0648, -0.0559, -0.0358]],
+       device='cuda:0'), grad: tensor([[ 8.1122e-05,  2.9609e-05,  1.2331e-05,  ...,  1.9703e-03,
+          4.5359e-05,  6.6605e-03],
+        [ 5.6219e-04,  1.4460e-04,  1.1042e-05,  ...,  4.9210e-04,
+          3.4273e-05,  1.8244e-03],
+        [-6.4278e-03, -1.2674e-03,  1.9282e-05,  ..., -3.1948e-05,
+          1.2150e-03, -8.6975e-03],
+        ...,
+        [-3.0965e-05,  2.3559e-05, -4.1056e-04,  ...,  5.2065e-05,
+          2.7016e-05, -9.9480e-05],
+        [ 5.9967e-03,  1.0071e-03,  2.6733e-05,  ...,  8.0645e-05,
+          6.7759e-04,  6.7635e-03],
+        [-1.1663e-03,  3.9177e-03,  3.8934e-04,  ...,  7.2002e-05,
+          1.5855e-05,  5.1651e-03]], device='cuda:0')
+Epoch 473, bias, value: tensor([-0.0310,  0.0417, -0.0005, -0.0111,  0.0212, -0.0340,  0.0048,  0.0064,
+        -0.0025, -0.0146], device='cuda:0'), grad: tensor([ 0.0059,  0.0034, -0.0067,  0.0021, -0.0030, -0.0275, -0.0153, -0.0002,
+         0.0268,  0.0146], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 472, time 214.85, cls_loss 0.4848 cls_loss_mapping 0.0009 cls_loss_causal 0.4227 re_mapping 0.0060 re_causal 0.0162 /// teacc 98.98 lr 0.00001000
+Epoch 474, weight, value: tensor([[-0.0737, -0.1634, -0.1115,  ..., -0.0379,  0.0664, -0.1132],
+        [-0.0832, -0.0960, -0.0904,  ...,  0.0995, -0.0388,  0.2409],
+        [ 0.0021, -0.0316, -0.0627,  ..., -0.0067, -0.0104, -0.0825],
+        ...,
+        [ 0.0377, -0.1223,  0.1833,  ...,  0.0394, -0.1266,  0.0623],
+        [-0.0263,  0.0662, -0.1537,  ..., -0.0495,  0.0196, -0.1204],
+        [-0.0646,  0.0834,  0.0436,  ..., -0.0648, -0.0557, -0.0360]],
+       device='cuda:0'), grad: tensor([[ 7.4339e-04, -2.9206e-05,  7.0691e-05,  ...,  1.7529e-03,
+          9.3341e-05,  1.3456e-03],
+        [ 7.2145e-04,  2.1234e-06,  3.4332e-05,  ...,  7.4053e-04,
+          9.3952e-06,  5.4550e-04],
+        [ 1.1034e-03,  9.4995e-06,  2.1994e-04,  ..., -6.5517e-04,
+          3.7241e-04,  1.4420e-03],
+        ...,
+        [ 1.9913e-03,  2.8405e-07, -5.3024e-04,  ...,  6.3782e-03,
+          5.7173e-04,  6.0768e-03],
+        [ 9.7609e-04,  1.2815e-04, -1.1063e-04,  ...,  2.4185e-03,
+          4.2868e-04,  9.2077e-04],
+        [ 2.1038e-03,  1.4111e-05,  1.6105e-04,  ..., -3.2921e-03,
+          4.4870e-04, -1.0483e-02]], device='cuda:0')
+Epoch 474, bias, value: tensor([-0.0309,  0.0417, -0.0004, -0.0112,  0.0213, -0.0339,  0.0048,  0.0064,
+        -0.0026, -0.0146], device='cuda:0'), grad: tensor([ 0.0136,  0.0136, -0.0125, -0.0400, -0.0091,  0.0140,  0.0098,  0.0383,
+         0.0033, -0.0310], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 473, time 214.51, cls_loss 0.4639 cls_loss_mapping 0.0008 cls_loss_causal 0.4044 re_mapping 0.0060 re_causal 0.0161 /// teacc 98.99 lr 0.00001000
+Epoch 475, weight, value: tensor([[-0.0737, -0.1635, -0.1113,  ..., -0.0379,  0.0665, -0.1134],
+        [-0.0833, -0.0961, -0.0904,  ...,  0.0994, -0.0388,  0.2410],
+        [ 0.0021, -0.0317, -0.0627,  ..., -0.0067, -0.0105, -0.0826],
+        ...,
+        [ 0.0377, -0.1222,  0.1833,  ...,  0.0395, -0.1267,  0.0624],
+        [-0.0263,  0.0663, -0.1537,  ..., -0.0496,  0.0196, -0.1205],
+        [-0.0645,  0.0836,  0.0436,  ..., -0.0648, -0.0556, -0.0359]],
+       device='cuda:0'), grad: tensor([[ 2.5253e-03, -9.0027e-04,  2.5839e-05,  ...,  6.3782e-03,
+         -2.5129e-04,  2.9716e-03],
+        [ 1.9372e-04, -3.0589e-04,  3.5819e-06,  ..., -4.6563e-04,
+          4.4632e-04,  3.0541e-04],
+        [ 4.8923e-04, -5.2392e-05,  2.5511e-04,  ...,  1.6522e-04,
+          4.5562e-04,  6.9666e-04],
+        ...,
+        [ 1.9016e-03,  3.0994e-03,  1.5306e-03,  ...,  6.7253e-03,
+          5.4407e-04,  2.8934e-03],
+        [-2.3689e-03, -3.1281e-03, -2.5196e-03,  ..., -5.7487e-03,
+          6.1798e-04, -3.9635e-03],
+        [-3.7460e-03,  9.9754e-04,  1.1951e-04,  ..., -5.4626e-03,
+         -4.5815e-03, -4.2419e-03]], device='cuda:0')
+Epoch 475, bias, value: tensor([-0.0309,  0.0417, -0.0004, -0.0113,  0.0212, -0.0339,  0.0048,  0.0064,
+        -0.0026, -0.0145], device='cuda:0'), grad: tensor([ 0.0425,  0.0009, -0.0009, -0.0331, -0.0029,  0.0056,  0.0354,  0.0452,
+        -0.0331, -0.0596], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 474, time 214.64, cls_loss 0.4544 cls_loss_mapping 0.0009 cls_loss_causal 0.3868 re_mapping 0.0061 re_causal 0.0160 /// teacc 98.98 lr 0.00001000
+Epoch 476, weight, value: tensor([[-0.0738, -0.1634, -0.1114,  ..., -0.0380,  0.0665, -0.1134],
+        [-0.0833, -0.0961, -0.0904,  ...,  0.0995, -0.0386,  0.2410],
+        [ 0.0022, -0.0317, -0.0627,  ..., -0.0066, -0.0104, -0.0828],
+        ...,
+        [ 0.0379, -0.1221,  0.1834,  ...,  0.0395, -0.1267,  0.0624],
+        [-0.0263,  0.0662, -0.1538,  ..., -0.0496,  0.0197, -0.1204],
+        [-0.0647,  0.0835,  0.0435,  ..., -0.0650, -0.0558, -0.0360]],
+       device='cuda:0'), grad: tensor([[ 6.1941e-04,  2.1338e-04,  4.6825e-04,  ...,  2.1629e-03,
+          6.4611e-05,  7.6103e-04],
+        [-1.2283e-03,  3.3641e-04,  6.0940e-04,  ..., -1.5316e-03,
+          7.6294e-05,  9.6083e-04],
+        [ 1.2751e-03,  6.4087e-04,  5.3310e-04,  ..., -2.9099e-02,
+          1.6356e-04, -1.5381e-02],
+        ...,
+        [-2.4834e-03,  1.1549e-03,  1.5097e-03,  ...,  3.0533e-02,
+         -1.7083e-04,  1.3985e-02],
+        [ 4.2458e-03, -7.5960e-04,  1.9121e-03,  ...,  6.5460e-03,
+         -4.4465e-04,  4.1122e-03],
+        [-2.5196e-03,  3.0494e-04,  5.5552e-04,  ..., -3.7384e-03,
+          4.8494e-04,  1.0366e-03]], device='cuda:0')
+Epoch 476, bias, value: tensor([-0.0310,  0.0417, -0.0003, -0.0112,  0.0211, -0.0339,  0.0047,  0.0065,
+        -0.0025, -0.0147], device='cuda:0'), grad: tensor([ 0.0105,  0.0048, -0.0211, -0.0026, -0.0217,  0.0139, -0.0238,  0.0351,
+         0.0191, -0.0141], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 475, time 215.01, cls_loss 0.4877 cls_loss_mapping 0.0008 cls_loss_causal 0.4208 re_mapping 0.0060 re_causal 0.0165 /// teacc 98.95 lr 0.00001000
+Epoch 477, weight, value: tensor([[-0.0738, -0.1633, -0.1113,  ..., -0.0379,  0.0667, -0.1134],
+        [-0.0833, -0.0961, -0.0903,  ...,  0.0996, -0.0387,  0.2411],
+        [ 0.0020, -0.0318, -0.0629,  ..., -0.0069, -0.0105, -0.0829],
+        ...,
+        [ 0.0378, -0.1220,  0.1835,  ...,  0.0395, -0.1267,  0.0623],
+        [-0.0263,  0.0662, -0.1538,  ..., -0.0496,  0.0197, -0.1204],
+        [-0.0646,  0.0834,  0.0434,  ..., -0.0650, -0.0558, -0.0360]],
+       device='cuda:0'), grad: tensor([[ 4.1127e-04, -7.4005e-04,  4.9919e-06,  ..., -1.4315e-03,
+          1.7297e-04,  3.3903e-04],
+        [-4.3602e-03,  9.9838e-05,  7.2792e-06,  ..., -1.2875e-03,
+          2.5868e-04,  4.4680e-04],
+        [ 1.2636e-03,  3.6669e-04,  3.5495e-05,  ...,  1.1873e-03,
+          1.8764e-04,  3.6430e-04],
+        ...,
+        [ 4.6825e-04,  1.0443e-04,  1.4670e-05,  ...,  9.8610e-04,
+          2.1219e-04,  4.1509e-04],
+        [ 1.8644e-03, -5.2452e-05,  1.2243e-04,  ...,  1.7891e-03,
+         -3.2711e-04,  5.5027e-04],
+        [ 4.7135e-04,  1.4496e-04,  1.1086e-05,  ...,  9.0837e-04,
+          1.8740e-04,  3.6263e-04]], device='cuda:0')
+Epoch 477, bias, value: tensor([-0.0309,  0.0417, -0.0006, -0.0113,  0.0211, -0.0338,  0.0048,  0.0066,
+        -0.0024, -0.0147], device='cuda:0'), grad: tensor([-0.0257, -0.0120,  0.0150, -0.0060, -0.0215,  0.0080,  0.0152,  0.0052,
+         0.0140,  0.0078], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 476, time 214.85, cls_loss 0.4968 cls_loss_mapping 0.0009 cls_loss_causal 0.4354 re_mapping 0.0060 re_causal 0.0165 /// teacc 98.94 lr 0.00001000
+Epoch 478, weight, value: tensor([[-0.0737, -0.1633, -0.1112,  ..., -0.0378,  0.0667, -0.1132],
+        [-0.0831, -0.0961, -0.0902,  ...,  0.0996, -0.0390,  0.2413],
+        [ 0.0019, -0.0317, -0.0629,  ..., -0.0068, -0.0105, -0.0828],
+        ...,
+        [ 0.0378, -0.1220,  0.1834,  ...,  0.0394, -0.1267,  0.0621],
+        [-0.0263,  0.0662, -0.1540,  ..., -0.0496,  0.0196, -0.1205],
+        [-0.0646,  0.0835,  0.0434,  ..., -0.0649, -0.0557, -0.0360]],
+       device='cuda:0'), grad: tensor([[ 5.2869e-05,  4.6563e-04, -3.5381e-04,  ...,  1.0195e-03,
+          3.7217e-04,  7.7295e-04],
+        [ 3.8892e-05, -6.6710e-04,  9.7096e-05,  ...,  2.1124e-04,
+          2.2426e-05,  2.0790e-04],
+        [ 4.8965e-05,  3.9220e-04,  1.9610e-04,  ...,  1.6525e-02,
+          4.4942e-05,  8.4162e-04],
+        ...,
+        [ 4.6581e-05,  3.4070e-04, -8.5533e-05,  ..., -1.1307e-02,
+          6.0126e-06, -3.8681e-03],
+        [-3.6573e-04,  8.2350e-04,  8.1968e-04,  ..., -8.1940e-03,
+          2.9862e-05, -5.0888e-03],
+        [ 2.5824e-05,  1.0538e-03,  1.6105e-04,  ...,  2.2411e-03,
+          3.4064e-05,  4.1533e-04]], device='cuda:0')
+Epoch 478, bias, value: tensor([-0.0309,  0.0417, -0.0005, -0.0113,  0.0211, -0.0338,  0.0047,  0.0064,
+        -0.0025, -0.0146], device='cuda:0'), grad: tensor([-0.0075, -0.0167,  0.0295, -0.0177,  0.0490,  0.0186, -0.0326, -0.0289,
+        -0.0139,  0.0203], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 477, time 214.65, cls_loss 0.4678 cls_loss_mapping 0.0009 cls_loss_causal 0.4048 re_mapping 0.0059 re_causal 0.0160 /// teacc 98.96 lr 0.00001000
+Epoch 479, weight, value: tensor([[-0.0738, -0.1634, -0.1111,  ..., -0.0378,  0.0667, -0.1133],
+        [-0.0830, -0.0961, -0.0901,  ...,  0.0996, -0.0390,  0.2413],
+        [ 0.0018, -0.0317, -0.0630,  ..., -0.0067, -0.0105, -0.0827],
+        ...,
+        [ 0.0378, -0.1221,  0.1835,  ...,  0.0394, -0.1268,  0.0622],
+        [-0.0264,  0.0663, -0.1540,  ..., -0.0496,  0.0197, -0.1206],
+        [-0.0647,  0.0835,  0.0434,  ..., -0.0650, -0.0556, -0.0363]],
+       device='cuda:0'), grad: tensor([[ 8.2552e-05,  2.3627e-04,  2.6751e-04,  ...,  7.1144e-04,
+          1.4938e-05,  2.1827e-04],
+        [ 5.7667e-06,  1.9054e-03,  3.2091e-04,  ...,  8.1635e-03,
+          2.0131e-05,  1.9608e-03],
+        [ 3.1620e-05,  1.1568e-03,  1.3924e-03,  ...,  2.4948e-03,
+          1.0622e-04,  3.3331e-04],
+        ...,
+        [ 2.2972e-04,  8.1682e-04,  9.7084e-04,  ..., -7.3471e-03,
+          5.7548e-05, -3.0918e-03],
+        [ 2.1601e-04, -1.5669e-03,  3.3784e-04,  ..., -2.8152e-03,
+          1.6317e-05,  8.1420e-05],
+        [-8.7786e-04, -2.0409e-04, -1.1748e-04,  ..., -2.4438e-04,
+          1.5795e-05, -5.5361e-04]], device='cuda:0')
+Epoch 479, bias, value: tensor([-0.0310,  0.0418, -0.0005, -0.0114,  0.0212, -0.0338,  0.0049,  0.0064,
+        -0.0025, -0.0147], device='cuda:0'), grad: tensor([ 0.0082,  0.0338,  0.0151, -0.0066,  0.0097,  0.0086,  0.0078, -0.0175,
+        -0.0019, -0.0572], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 478, time 214.73, cls_loss 0.4791 cls_loss_mapping 0.0008 cls_loss_causal 0.4171 re_mapping 0.0062 re_causal 0.0166 /// teacc 98.91 lr 0.00001000
+Epoch 480, weight, value: tensor([[-0.0737, -0.1635, -0.1112,  ..., -0.0378,  0.0667, -0.1133],
+        [-0.0830, -0.0961, -0.0902,  ...,  0.0997, -0.0391,  0.2412],
+        [ 0.0017, -0.0316, -0.0630,  ..., -0.0066, -0.0106, -0.0827],
+        ...,
+        [ 0.0380, -0.1220,  0.1837,  ...,  0.0393, -0.1266,  0.0624],
+        [-0.0264,  0.0663, -0.1542,  ..., -0.0498,  0.0198, -0.1207],
+        [-0.0648,  0.0834,  0.0433,  ..., -0.0650, -0.0557, -0.0363]],
+       device='cuda:0'), grad: tensor([[ 9.0957e-05,  1.9777e-04,  1.9801e-04,  ...,  7.3862e-04,
+          4.0054e-04,  2.8419e-04],
+        [ 1.3056e-03,  1.1702e-03, -6.1810e-05,  ...,  1.6918e-03,
+          3.6907e-04,  1.8358e-03],
+        [ 1.0520e-04,  3.2210e-04,  2.4366e-04,  ...,  1.1415e-03,
+          5.3120e-04,  6.1226e-04],
+        ...,
+        [ 2.0707e-04, -5.7487e-03,  1.1891e-04,  ...,  1.2255e-03,
+          2.1601e-04, -6.9695e-03],
+        [-2.9697e-03,  2.9716e-03, -1.0127e-04,  ..., -4.4594e-03,
+          4.7636e-04, -4.8332e-03],
+        [ 5.1308e-04,  2.9349e-04,  1.4591e-04,  ...,  1.6098e-03,
+         -2.8706e-03,  5.2834e-03]], device='cuda:0')
+Epoch 480, bias, value: tensor([-0.0310,  0.0418, -0.0005, -0.0113,  0.0213, -0.0338,  0.0049,  0.0065,
+        -0.0026, -0.0148], device='cuda:0'), grad: tensor([ 0.0088,  0.0124,  0.0117,  0.0125, -0.0109,  0.0438, -0.0202, -0.0135,
+        -0.0327, -0.0119], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 479, time 215.04, cls_loss 0.4659 cls_loss_mapping 0.0007 cls_loss_causal 0.4034 re_mapping 0.0061 re_causal 0.0166 /// teacc 98.96 lr 0.00001000
+Epoch 481, weight, value: tensor([[-0.0738, -0.1636, -0.1113,  ..., -0.0379,  0.0666, -0.1134],
+        [-0.0831, -0.0962, -0.0904,  ...,  0.0997, -0.0393,  0.2412],
+        [ 0.0017, -0.0316, -0.0630,  ..., -0.0067, -0.0103, -0.0828],
+        ...,
+        [ 0.0380, -0.1220,  0.1838,  ...,  0.0395, -0.1265,  0.0625],
+        [-0.0263,  0.0664, -0.1542,  ..., -0.0499,  0.0196, -0.1209],
+        [-0.0648,  0.0836,  0.0435,  ..., -0.0650, -0.0557, -0.0362]],
+       device='cuda:0'), grad: tensor([[ 3.2640e-04, -1.2743e-04,  1.2279e-04,  ...,  7.6628e-04,
+          1.0318e-04,  1.1241e-04],
+        [ 3.4022e-04,  2.6536e-04,  1.8740e-04,  ...,  1.1740e-03,
+          1.7476e-04, -8.3685e-05],
+        [ 8.3971e-04,  3.0208e-04,  1.7214e-04,  ...,  1.9026e-03,
+          4.1938e-04,  4.2886e-05],
+        ...,
+        [ 4.6730e-04,  2.7871e-04,  8.7380e-05,  ...,  1.0033e-03,
+          1.8966e-04, -3.4165e-04],
+        [ 5.1594e-04,  1.3077e-04,  9.3579e-05,  ...,  1.3084e-03,
+          2.6345e-04,  7.4446e-05],
+        [ 5.0688e-04,  4.1151e-04,  3.0112e-04,  ...,  1.2293e-03,
+          2.2602e-04,  8.7917e-06]], device='cuda:0')
+Epoch 481, bias, value: tensor([-0.0311,  0.0417, -0.0006, -0.0113,  0.0213, -0.0337,  0.0049,  0.0066,
+        -0.0026, -0.0148], device='cuda:0'), grad: tensor([ 0.0082,  0.0148,  0.0179, -0.0696,  0.0147,  0.0197, -0.0149, -0.0210,
+         0.0137,  0.0167], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 480, time 215.03, cls_loss 0.5139 cls_loss_mapping 0.0008 cls_loss_causal 0.4440 re_mapping 0.0062 re_causal 0.0170 /// teacc 98.99 lr 0.00001000
+Epoch 482, weight, value: tensor([[-0.0738, -0.1636, -0.1113,  ..., -0.0377,  0.0666, -0.1134],
+        [-0.0831, -0.0962, -0.0904,  ...,  0.0997, -0.0393,  0.2410],
+        [ 0.0018, -0.0317, -0.0630,  ..., -0.0067, -0.0103, -0.0825],
+        ...,
+        [ 0.0380, -0.1220,  0.1838,  ...,  0.0395, -0.1265,  0.0626],
+        [-0.0263,  0.0665, -0.1542,  ..., -0.0499,  0.0198, -0.1208],
+        [-0.0648,  0.0836,  0.0435,  ..., -0.0650, -0.0557, -0.0363]],
+       device='cuda:0'), grad: tensor([[ 1.1367e-04,  1.2083e-03,  4.4394e-04,  ...,  2.0733e-03,
+          1.0824e-03,  6.1369e-04],
+        [-7.7307e-05, -1.9588e-03,  3.1090e-04,  ..., -4.7073e-03,
+         -1.7433e-03,  1.3266e-03],
+        [-1.4627e-04,  7.3471e-03,  2.3186e-04,  ..., -1.2144e-05,
+          1.0231e-02,  1.7679e-04],
+        ...,
+        [ 2.9111e-04,  3.2663e-04, -5.4970e-03,  ..., -8.4763e-03,
+          7.6711e-05, -1.8549e-03],
+        [-1.8864e-03, -8.5354e-04,  2.9588e-04,  ..., -1.2484e-03,
+         -2.5070e-02,  8.8882e-04],
+        [ 4.0555e-04, -3.8195e-04,  1.7147e-03,  ...,  2.8973e-03,
+          2.3735e-04,  1.9913e-03]], device='cuda:0')
+Epoch 482, bias, value: tensor([-0.0310,  0.0417, -0.0006, -0.0113,  0.0212, -0.0338,  0.0049,  0.0066,
+        -0.0026, -0.0148], device='cuda:0'), grad: tensor([ 0.0212, -0.0109,  0.0322,  0.0036,  0.0009, -0.0031,  0.0396, -0.0795,
+        -0.0264,  0.0224], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 481, time 214.80, cls_loss 0.4861 cls_loss_mapping 0.0006 cls_loss_causal 0.4272 re_mapping 0.0062 re_causal 0.0171 /// teacc 99.02 lr 0.00001000
+Epoch 483, weight, value: tensor([[-0.0738, -0.1635, -0.1112,  ..., -0.0377,  0.0666, -0.1133],
+        [-0.0833, -0.0961, -0.0905,  ...,  0.0998, -0.0394,  0.2410],
+        [ 0.0018, -0.0317, -0.0630,  ..., -0.0067, -0.0104, -0.0825],
+        ...,
+        [ 0.0380, -0.1220,  0.1839,  ...,  0.0395, -0.1266,  0.0625],
+        [-0.0263,  0.0664, -0.1542,  ..., -0.0500,  0.0200, -0.1209],
+        [-0.0648,  0.0835,  0.0435,  ..., -0.0650, -0.0558, -0.0364]],
+       device='cuda:0'), grad: tensor([[ 6.0827e-05,  6.4969e-05,  2.7347e-04,  ...,  1.6060e-03,
+          4.1842e-05,  1.1164e-04],
+        [ 1.0794e-04, -1.9181e-04,  3.2854e-04,  ..., -1.3089e-04,
+          4.0829e-05,  1.8990e-04],
+        [ 3.0780e-04,  5.2881e-04,  6.1941e-04,  ...,  1.4925e-03,
+          3.5524e-05,  7.1239e-04],
+        ...,
+        [-1.0214e-03, -1.2102e-03, -1.9321e-03,  ..., -9.4376e-03,
+          2.7609e-04, -2.0046e-03],
+        [ 2.1064e-04,  3.0112e-04,  3.4380e-04,  ...,  9.4557e-04,
+          1.5020e-03,  3.9911e-04],
+        [ 2.0957e-04,  2.2602e-04,  8.8024e-04,  ...,  1.9989e-03,
+          1.8501e-04,  6.9714e-04]], device='cuda:0')
+Epoch 483, bias, value: tensor([-0.0309,  0.0416, -0.0006, -0.0114,  0.0213, -0.0338,  0.0050,  0.0066,
+        -0.0025, -0.0148], device='cuda:0'), grad: tensor([ 0.0084, -0.0225,  0.0082,  0.0057,  0.0061, -0.0154,  0.0240, -0.0298,
+         0.0049,  0.0105], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 482, time 214.97, cls_loss 0.5004 cls_loss_mapping 0.0008 cls_loss_causal 0.4306 re_mapping 0.0060 re_causal 0.0164 /// teacc 98.99 lr 0.00001000
+Epoch 484, weight, value: tensor([[-0.0739, -0.1636, -0.1112,  ..., -0.0379,  0.0666, -0.1133],
+        [-0.0831, -0.0962, -0.0904,  ...,  0.0998, -0.0393,  0.2410],
+        [ 0.0018, -0.0318, -0.0630,  ..., -0.0068, -0.0105, -0.0824],
+        ...,
+        [ 0.0381, -0.1220,  0.1838,  ...,  0.0395, -0.1266,  0.0623],
+        [-0.0263,  0.0664, -0.1543,  ..., -0.0498,  0.0199, -0.1208],
+        [-0.0648,  0.0835,  0.0434,  ..., -0.0650, -0.0559, -0.0365]],
+       device='cuda:0'), grad: tensor([[ 2.7428e-03, -1.9741e-03,  6.9189e-04,  ...,  6.7282e-04,
+          1.6272e-05,  2.6798e-03],
+        [ 5.0049e-03,  2.2621e-03,  2.4624e-03,  ...,  6.0654e-03,
+          2.1964e-05,  4.7340e-03],
+        [-8.0414e-03, -2.2717e-03,  4.3988e-04,  ..., -2.0981e-03,
+          3.2522e-06, -6.2370e-03],
+        ...,
+        [ 5.7983e-04,  5.5838e-04,  9.1362e-04,  ...,  3.3436e-03,
+          1.4931e-05,  4.4584e-04],
+        [ 2.1610e-03,  1.8902e-03,  1.8673e-03,  ...,  4.7417e-03,
+          1.5318e-04,  1.9264e-03],
+        [ 1.2608e-03,  1.1654e-03,  1.0309e-03,  ...,  2.5158e-03,
+          1.5056e-04,  1.1072e-03]], device='cuda:0')
+Epoch 484, bias, value: tensor([-0.0309,  0.0418, -0.0007, -0.0114,  0.0214, -0.0338,  0.0050,  0.0065,
+        -0.0025, -0.0150], device='cuda:0'), grad: tensor([-0.0094,  0.0287, -0.0115, -0.0361,  0.0179, -0.0106, -0.0214,  0.0107,
+         0.0205,  0.0111], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 483, time 214.83, cls_loss 0.4764 cls_loss_mapping 0.0007 cls_loss_causal 0.4096 re_mapping 0.0060 re_causal 0.0164 /// teacc 98.97 lr 0.00001000
+Epoch 485, weight, value: tensor([[-0.0738, -0.1637, -0.1111,  ..., -0.0380,  0.0667, -0.1132],
+        [-0.0831, -0.0962, -0.0905,  ...,  0.0998, -0.0394,  0.2412],
+        [ 0.0018, -0.0319, -0.0631,  ..., -0.0068, -0.0105, -0.0824],
+        ...,
+        [ 0.0380, -0.1222,  0.1836,  ...,  0.0393, -0.1267,  0.0621],
+        [-0.0263,  0.0665, -0.1544,  ..., -0.0498,  0.0199, -0.1208],
+        [-0.0647,  0.0836,  0.0434,  ..., -0.0650, -0.0560, -0.0365]],
+       device='cuda:0'), grad: tensor([[-0.0017, -0.0007,  0.0004,  ..., -0.0073,  0.0001,  0.0009],
+        [ 0.0005,  0.0004,  0.0006,  ...,  0.0039,  0.0002,  0.0003],
+        [-0.0016, -0.0001, -0.0029,  ..., -0.0076, -0.0011,  0.0003],
+        ...,
+        [-0.0025, -0.0003, -0.0054,  ..., -0.0022,  0.0002, -0.0055],
+        [ 0.0009,  0.0007,  0.0008,  ...,  0.0040,  0.0001,  0.0007],
+        [ 0.0014,  0.0035,  0.0037,  ...,  0.0064,  0.0002,  0.0022]],
+       device='cuda:0')
+Epoch 485, bias, value: tensor([-0.0310,  0.0419, -0.0008, -0.0114,  0.0213, -0.0338,  0.0052,  0.0065,
+        -0.0024, -0.0149], device='cuda:0'), grad: tensor([-0.0242,  0.0184, -0.0453,  0.0048, -0.0176,  0.0340, -0.0132, -0.0066,
+         0.0186,  0.0312], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 484, time 214.97, cls_loss 0.4846 cls_loss_mapping 0.0008 cls_loss_causal 0.4156 re_mapping 0.0060 re_causal 0.0162 /// teacc 98.97 lr 0.00001000
+Epoch 486, weight, value: tensor([[-0.0738, -0.1636, -0.1112,  ..., -0.0379,  0.0667, -0.1132],
+        [-0.0831, -0.0963, -0.0904,  ...,  0.0998, -0.0393,  0.2411],
+        [ 0.0019, -0.0320, -0.0633,  ..., -0.0069, -0.0106, -0.0823],
+        ...,
+        [ 0.0381, -0.1221,  0.1836,  ...,  0.0394, -0.1268,  0.0621],
+        [-0.0265,  0.0663, -0.1545,  ..., -0.0498,  0.0198, -0.1210],
+        [-0.0647,  0.0837,  0.0436,  ..., -0.0650, -0.0559, -0.0365]],
+       device='cuda:0'), grad: tensor([[ 6.8617e-04, -1.0654e-05,  5.1588e-05,  ...,  1.4114e-03,
+          2.0075e-04,  4.5156e-04],
+        [-4.5509e-03,  8.4698e-05,  4.6700e-05,  ...,  1.0290e-03,
+          1.2791e-04,  5.4789e-04],
+        [ 7.6818e-04,  1.4877e-04,  2.1095e-03,  ...,  3.6583e-03,
+          6.6757e-05,  3.0875e-04],
+        ...,
+        [ 4.8828e-04, -2.0242e-04,  5.6922e-05,  ..., -4.9973e-04,
+          3.2693e-05,  1.9383e-04],
+        [ 5.4216e-04,  3.9053e-04,  2.7037e-04,  ...,  1.7099e-03,
+          5.0211e-04,  3.7813e-04],
+        [ 6.9761e-04,  1.0985e-04,  3.0056e-05,  ...,  1.1921e-03,
+          7.0155e-05,  3.4523e-04]], device='cuda:0')
+Epoch 486, bias, value: tensor([-0.0310,  0.0418, -0.0008, -0.0114,  0.0213, -0.0340,  0.0052,  0.0066,
+        -0.0025, -0.0148], device='cuda:0'), grad: tensor([ 0.0163, -0.0113,  0.0201, -0.0191, -0.0139, -0.0264,  0.0075, -0.0129,
+         0.0201,  0.0196], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 485, time 215.08, cls_loss 0.4710 cls_loss_mapping 0.0008 cls_loss_causal 0.4079 re_mapping 0.0062 re_causal 0.0165 /// teacc 99.00 lr 0.00001000
+Epoch 487, weight, value: tensor([[-0.0737, -0.1636, -0.1112,  ..., -0.0380,  0.0667, -0.1133],
+        [-0.0832, -0.0962, -0.0903,  ...,  0.0999, -0.0393,  0.2411],
+        [ 0.0019, -0.0320, -0.0632,  ..., -0.0069, -0.0106, -0.0823],
+        ...,
+        [ 0.0382, -0.1221,  0.1836,  ...,  0.0394, -0.1267,  0.0621],
+        [-0.0264,  0.0663, -0.1546,  ..., -0.0497,  0.0197, -0.1209],
+        [-0.0648,  0.0836,  0.0435,  ..., -0.0650, -0.0560, -0.0365]],
+       device='cuda:0'), grad: tensor([[-8.1635e-04,  1.3185e-04,  8.3923e-05,  ..., -8.9417e-03,
+          5.5879e-08,  2.4259e-05],
+        [-1.6890e-03,  1.9431e-05,  1.3745e-04,  ..., -5.7983e-03,
+          1.7695e-06,  5.5343e-05],
+        [ 3.0308e-03,  2.6345e-05,  2.9397e-04,  ...,  6.2637e-03,
+          1.4249e-07,  1.6198e-05],
+        ...,
+        [ 1.5030e-03,  1.5616e-05,  5.8842e-04,  ...,  3.4294e-03,
+          7.3314e-06,  3.3426e-04],
+        [ 9.0551e-04, -6.1333e-05,  3.8356e-05,  ...,  2.7161e-03,
+          1.2387e-07, -4.7591e-07],
+        [-2.0561e-03,  1.0794e-04,  3.1322e-05,  ..., -4.9248e-03,
+          2.0102e-05,  1.0061e-03]], device='cuda:0')
+Epoch 487, bias, value: tensor([-0.0310,  0.0419, -0.0008, -0.0115,  0.0211, -0.0340,  0.0051,  0.0066,
+        -0.0023, -0.0148], device='cuda:0'), grad: tensor([-0.0449, -0.0218,  0.0348, -0.0141,  0.0063,  0.0085,  0.0137,  0.0158,
+         0.0158, -0.0141], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 486, time 214.95, cls_loss 0.4836 cls_loss_mapping 0.0008 cls_loss_causal 0.4272 re_mapping 0.0060 re_causal 0.0164 /// teacc 99.02 lr 0.00001000
+Epoch 488, weight, value: tensor([[-0.0736, -0.1637, -0.1114,  ..., -0.0380,  0.0667, -0.1133],
+        [-0.0832, -0.0962, -0.0904,  ...,  0.1000, -0.0394,  0.2412],
+        [ 0.0018, -0.0318, -0.0632,  ..., -0.0069, -0.0106, -0.0824],
+        ...,
+        [ 0.0382, -0.1221,  0.1836,  ...,  0.0395, -0.1266,  0.0622],
+        [-0.0265,  0.0664, -0.1544,  ..., -0.0497,  0.0197, -0.1209],
+        [-0.0648,  0.0836,  0.0434,  ..., -0.0649, -0.0560, -0.0367]],
+       device='cuda:0'), grad: tensor([[ 6.1750e-04,  5.3453e-04,  3.1972e-04,  ...,  1.3485e-03,
+          2.9397e-04,  2.5415e-04],
+        [ 2.6178e-04,  1.8156e-04,  4.5836e-05,  ...,  1.1835e-03,
+          3.9279e-05,  1.9944e-04],
+        [ 1.0529e-03,  1.0490e-03,  6.9237e-04,  ...,  2.5768e-03,
+          5.6744e-04,  7.3338e-04],
+        ...,
+        [ 3.6335e-04,  2.3282e-04,  8.4877e-05,  ..., -1.8129e-03,
+          7.4208e-05, -1.0672e-03],
+        [ 1.8101e-03,  3.2926e-04,  2.5392e-04,  ...,  1.3990e-03,
+          2.5177e-04,  1.9562e-04],
+        [ 2.3232e-03, -3.8586e-03,  2.5702e-04,  ...,  1.9760e-03,
+          2.0707e-04,  3.7789e-04]], device='cuda:0')
+Epoch 488, bias, value: tensor([-0.0311,  0.0418, -0.0007, -0.0113,  0.0212, -0.0341,  0.0050,  0.0066,
+        -0.0024, -0.0147], device='cuda:0'), grad: tensor([ 0.0117,  0.0131,  0.0180, -0.0495,  0.0225, -0.0069, -0.0160, -0.0190,
+         0.0164,  0.0095], device='cuda:0')
+100
+1e-05
+changing lr
+---------------------saving model at epoch 487----------------------------------------------------
+epoch 487, time 231.08, cls_loss 0.5005 cls_loss_mapping 0.0008 cls_loss_causal 0.4342 re_mapping 0.0061 re_causal 0.0168 /// teacc 99.05 lr 0.00001000
+Epoch 489, weight, value: tensor([[-0.0736, -0.1638, -0.1113,  ..., -0.0381,  0.0665, -0.1133],
+        [-0.0832, -0.0963, -0.0904,  ...,  0.0999, -0.0394,  0.2412],
+        [ 0.0018, -0.0318, -0.0632,  ..., -0.0069, -0.0105, -0.0823],
+        ...,
+        [ 0.0382, -0.1221,  0.1837,  ...,  0.0396, -0.1267,  0.0622],
+        [-0.0265,  0.0665, -0.1544,  ..., -0.0497,  0.0197, -0.1210],
+        [-0.0648,  0.0836,  0.0434,  ..., -0.0651, -0.0561, -0.0366]],
+       device='cuda:0'), grad: tensor([[ 8.2850e-05, -6.6662e-04,  9.0338e-08,  ..., -1.4467e-03,
+          6.2399e-08, -3.6340e-06],
+        [ 1.0312e-04,  3.2997e-04,  9.3970e-07,  ...,  1.8044e-03,
+          2.2352e-08, -1.7345e-05],
+        [ 1.1402e-04,  2.5392e-04, -3.1199e-06,  ...,  1.4477e-03,
+          5.9046e-07, -5.7548e-05],
+        ...,
+        [ 8.9943e-05,  3.0112e-04,  2.2545e-05,  ...,  1.7157e-03,
+          1.0245e-08,  6.9380e-05],
+        [ 2.2674e-04,  3.1495e-04,  3.5334e-06,  ...,  2.0561e-03,
+          1.4296e-06,  1.9986e-06],
+        [-1.0319e-03, -3.2806e-04, -3.7253e-05,  ...,  1.5497e-03,
+          5.8860e-07, -8.8066e-06]], device='cuda:0')
+Epoch 489, bias, value: tensor([-0.0311,  0.0418, -0.0006, -0.0114,  0.0214, -0.0341,  0.0050,  0.0067,
+        -0.0024, -0.0148], device='cuda:0'), grad: tensor([-0.0209,  0.0145,  0.0120,  0.0122,  0.0146, -0.0210, -0.0486,  0.0133,
+         0.0142,  0.0098], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 488, time 214.82, cls_loss 0.4755 cls_loss_mapping 0.0008 cls_loss_causal 0.4105 re_mapping 0.0060 re_causal 0.0161 /// teacc 99.03 lr 0.00001000
+Epoch 490, weight, value: tensor([[-0.0737, -0.1638, -0.1113,  ..., -0.0381,  0.0667, -0.1133],
+        [-0.0831, -0.0963, -0.0903,  ...,  0.0999, -0.0394,  0.2413],
+        [ 0.0017, -0.0318, -0.0631,  ..., -0.0068, -0.0105, -0.0822],
+        ...,
+        [ 0.0384, -0.1221,  0.1837,  ...,  0.0398, -0.1268,  0.0622],
+        [-0.0266,  0.0664, -0.1543,  ..., -0.0498,  0.0196, -0.1211],
+        [-0.0649,  0.0838,  0.0434,  ..., -0.0651, -0.0561, -0.0366]],
+       device='cuda:0'), grad: tensor([[ 6.9849e-08,  1.8287e-04,  2.8554e-06,  ...,  1.9665e-03,
+          3.2640e-04,  1.0431e-04],
+        [ 6.4790e-05,  5.1022e-04,  3.9482e-04,  ...,  3.1452e-03,
+          5.3495e-05,  1.0796e-03],
+        [ 4.1164e-07,  9.4593e-05,  2.2665e-05,  ...,  1.6861e-03,
+         -8.4352e-04,  1.9503e-04],
+        ...,
+        [ 1.3256e-03,  4.1652e-04,  7.8201e-03,  ...,  8.6517e-03,
+          1.7095e-04,  1.5511e-02],
+        [ 1.3374e-05,  1.6289e-03,  2.4378e-04,  ...,  5.4169e-03,
+          7.1812e-04,  1.0767e-03],
+        [-1.5316e-03,  3.8948e-03, -8.6594e-03,  ..., -1.4893e-02,
+          8.1253e-04, -1.6342e-02]], device='cuda:0')
+Epoch 490, bias, value: tensor([-0.0312,  0.0417, -0.0006, -0.0113,  0.0213, -0.0340,  0.0050,  0.0068,
+        -0.0025, -0.0148], device='cuda:0'), grad: tensor([ 0.0128,  0.0182,  0.0088, -0.0123, -0.0675,  0.0153,  0.0210,  0.0034,
+         0.0258, -0.0253], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 489, time 214.72, cls_loss 0.4683 cls_loss_mapping 0.0009 cls_loss_causal 0.4003 re_mapping 0.0060 re_causal 0.0157 /// teacc 99.01 lr 0.00001000
+Epoch 491, weight, value: tensor([[-0.0736, -0.1638, -0.1114,  ..., -0.0379,  0.0665, -0.1132],
+        [-0.0832, -0.0964, -0.0903,  ...,  0.0998, -0.0394,  0.2411],
+        [ 0.0017, -0.0319, -0.0630,  ..., -0.0068, -0.0107, -0.0822],
+        ...,
+        [ 0.0384, -0.1222,  0.1835,  ...,  0.0397, -0.1269,  0.0621],
+        [-0.0265,  0.0664, -0.1542,  ..., -0.0497,  0.0196, -0.1210],
+        [-0.0650,  0.0839,  0.0434,  ..., -0.0651, -0.0562, -0.0366]],
+       device='cuda:0'), grad: tensor([[-2.1896e-02, -3.5667e-03,  9.7975e-07,  ..., -1.2650e-02,
+         -2.0866e-03, -1.8463e-03],
+        [ 1.7910e-03,  1.8644e-04,  2.7567e-07,  ...,  3.4676e-03,
+          5.7173e-04,  1.4439e-03],
+        [ 2.4490e-03,  8.9455e-04,  4.8459e-05,  ...,  2.4452e-03,
+          2.7809e-03,  5.9843e-04],
+        ...,
+        [ 1.5326e-03,  1.6248e-04,  1.7866e-05,  ...,  3.5877e-03,
+          2.2662e-04,  1.6031e-03],
+        [ 1.4687e-03,  1.6422e-03,  5.8651e-05,  ...,  2.5387e-03,
+          1.1482e-03,  8.9550e-04],
+        [ 1.2255e-03,  1.1569e-04, -5.1379e-05,  ...,  1.7786e-03,
+          3.5954e-04,  6.8235e-04]], device='cuda:0')
+Epoch 491, bias, value: tensor([-0.0310,  0.0416, -0.0007, -0.0113,  0.0213, -0.0340,  0.0050,  0.0067,
+        -0.0025, -0.0148], device='cuda:0'), grad: tensor([-0.0361,  0.0136,  0.0181, -0.0140,  0.0085, -0.0202, -0.0037,  0.0126,
+         0.0129,  0.0084], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 490, time 214.74, cls_loss 0.4458 cls_loss_mapping 0.0007 cls_loss_causal 0.3882 re_mapping 0.0059 re_causal 0.0158 /// teacc 99.01 lr 0.00001000
+Epoch 492, weight, value: tensor([[-0.0735, -0.1637, -0.1115,  ..., -0.0380,  0.0666, -0.1131],
+        [-0.0833, -0.0963, -0.0903,  ...,  0.0998, -0.0394,  0.2411],
+        [ 0.0018, -0.0318, -0.0631,  ..., -0.0069, -0.0107, -0.0822],
+        ...,
+        [ 0.0384, -0.1221,  0.1836,  ...,  0.0398, -0.1268,  0.0623],
+        [-0.0265,  0.0664, -0.1543,  ..., -0.0497,  0.0196, -0.1211],
+        [-0.0650,  0.0840,  0.0435,  ..., -0.0649, -0.0560, -0.0366]],
+       device='cuda:0'), grad: tensor([[-1.1241e-04,  6.3241e-05,  1.1528e-04,  ...,  1.0004e-03,
+          2.3854e-04,  9.8720e-06],
+        [ 3.2768e-03,  3.6311e-04,  2.4090e-03,  ...,  4.9706e-03,
+         -2.4395e-03,  2.2030e-03],
+        [-3.5973e-03, -8.0185e-03,  3.3712e-04,  ...,  6.1941e-04,
+          3.8862e-04,  1.6522e-04],
+        ...,
+        [-2.8439e-03,  2.7990e-04, -2.2335e-03,  ..., -7.8659e-03,
+          8.7500e-05, -2.5539e-03],
+        [ 5.1975e-04,  6.9141e-04,  2.9540e-04,  ..., -1.1101e-03,
+          3.0231e-04,  1.8254e-05],
+        [-3.7117e-03,  1.7252e-03, -3.4027e-03,  ..., -9.3384e-03,
+         -3.3045e-04, -5.3329e-03]], device='cuda:0')
+Epoch 492, bias, value: tensor([-0.0311,  0.0415, -0.0006, -0.0114,  0.0212, -0.0341,  0.0050,  0.0069,
+        -0.0024, -0.0147], device='cuda:0'), grad: tensor([ 0.0061, -0.0057, -0.0138,  0.0073,  0.0358, -0.0006,  0.0100, -0.0009,
+        -0.0212, -0.0170], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 491, time 214.83, cls_loss 0.5111 cls_loss_mapping 0.0009 cls_loss_causal 0.4448 re_mapping 0.0060 re_causal 0.0166 /// teacc 99.01 lr 0.00001000
+Epoch 493, weight, value: tensor([[-0.0735, -0.1636, -0.1115,  ..., -0.0381,  0.0667, -0.1132],
+        [-0.0834, -0.0964, -0.0903,  ...,  0.0999, -0.0393,  0.2411],
+        [ 0.0018, -0.0318, -0.0632,  ..., -0.0069, -0.0107, -0.0823],
+        ...,
+        [ 0.0387, -0.1222,  0.1835,  ...,  0.0398, -0.1268,  0.0622],
+        [-0.0263,  0.0665, -0.1544,  ..., -0.0496,  0.0196, -0.1209],
+        [-0.0653,  0.0841,  0.0434,  ..., -0.0651, -0.0561, -0.0366]],
+       device='cuda:0'), grad: tensor([[ 1.6857e-07, -4.0889e-05,  2.8778e-07,  ...,  2.4395e-03,
+         -9.0170e-04,  7.9870e-04],
+        [ 1.1083e-07, -1.3285e-03,  1.6894e-06,  ..., -1.1696e-02,
+          2.7008e-08,  1.4257e-04],
+        [-4.3865e-07,  2.2399e-04,  2.1085e-05,  ..., -3.5229e-03,
+          1.7598e-05, -6.5079e-03],
+        ...,
+        [ 3.0268e-07,  2.5916e-04,  3.4589e-06,  ...,  2.4948e-03,
+          2.6803e-06,  7.3290e-04],
+        [ 5.2806e-07,  3.0875e-04,  3.4899e-05,  ...,  2.9469e-03,
+          6.7770e-05,  1.0080e-03],
+        [ 2.0582e-06,  4.2343e-04,  8.7917e-07,  ...,  2.6302e-03,
+          5.6076e-04,  9.1171e-04]], device='cuda:0')
+Epoch 493, bias, value: tensor([-0.0311,  0.0416, -0.0006, -0.0115,  0.0211, -0.0340,  0.0049,  0.0069,
+        -0.0023, -0.0147], device='cuda:0'), grad: tensor([ 0.0137, -0.0385, -0.0142, -0.0372,  0.0161,  0.0148,  0.0180,  0.0199,
+         0.0191, -0.0117], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 492, time 214.69, cls_loss 0.4722 cls_loss_mapping 0.0007 cls_loss_causal 0.4119 re_mapping 0.0061 re_causal 0.0166 /// teacc 99.01 lr 0.00001000
+Epoch 494, weight, value: tensor([[-0.0736, -0.1637, -0.1117,  ..., -0.0382,  0.0665, -0.1132],
+        [-0.0834, -0.0965, -0.0902,  ...,  0.0998, -0.0393,  0.2411],
+        [ 0.0020, -0.0318, -0.0631,  ..., -0.0067, -0.0106, -0.0823],
+        ...,
+        [ 0.0386, -0.1221,  0.1836,  ...,  0.0399, -0.1267,  0.0622],
+        [-0.0264,  0.0664, -0.1545,  ..., -0.0497,  0.0195, -0.1209],
+        [-0.0652,  0.0840,  0.0433,  ..., -0.0652, -0.0563, -0.0369]],
+       device='cuda:0'), grad: tensor([[ 6.7186e-04,  1.6665e-04,  2.2244e-04,  ...,  1.4048e-03,
+         -1.3006e-04,  6.0469e-05],
+        [ 5.6314e-04, -6.2418e-04,  2.6393e-04,  ..., -1.4877e-03,
+          9.6709e-06,  2.5415e-04],
+        [ 1.4668e-03,  1.8406e-04,  9.9754e-04,  ...,  2.4166e-03,
+          6.2168e-05,  1.8060e-04],
+        ...,
+        [-3.8534e-05,  6.4516e-04,  2.0623e-04,  ...,  1.6031e-03,
+          2.3637e-06,  1.1139e-03],
+        [ 8.1015e-04,  3.4189e-04,  1.9920e-04,  ...,  1.6184e-03,
+          1.3924e-04,  3.7408e-04],
+        [ 1.0538e-03, -4.9019e-04,  2.4283e-04,  ..., -3.5133e-03,
+          3.8058e-05,  7.7581e-04]], device='cuda:0')
+Epoch 494, bias, value: tensor([-0.0312,  0.0416, -0.0004, -0.0115,  0.0212, -0.0339,  0.0049,  0.0071,
+        -0.0025, -0.0148], device='cuda:0'), grad: tensor([ 0.0154, -0.0176,  0.0279, -0.0142, -0.0084,  0.0229,  0.0005, -0.0069,
+         0.0152, -0.0347], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 493, time 214.73, cls_loss 0.4974 cls_loss_mapping 0.0008 cls_loss_causal 0.4407 re_mapping 0.0059 re_causal 0.0168 /// teacc 99.03 lr 0.00001000
+Epoch 495, weight, value: tensor([[-0.0734, -0.1638, -0.1114,  ..., -0.0381,  0.0666, -0.1131],
+        [-0.0835, -0.0965, -0.0902,  ...,  0.0996, -0.0393,  0.2413],
+        [ 0.0020, -0.0317, -0.0631,  ..., -0.0067, -0.0105, -0.0823],
+        ...,
+        [ 0.0387, -0.1221,  0.1837,  ...,  0.0401, -0.1268,  0.0621],
+        [-0.0265,  0.0664, -0.1547,  ..., -0.0498,  0.0196, -0.1210],
+        [-0.0653,  0.0840,  0.0432,  ..., -0.0652, -0.0564, -0.0370]],
+       device='cuda:0'), grad: tensor([[ 3.0708e-03,  5.5170e-04,  1.2636e-04,  ...,  1.0887e-02,
+          4.3559e-04,  3.6983e-03],
+        [-4.0483e-04, -6.2323e-04, -1.7471e-03,  ...,  3.9148e-04,
+          3.4630e-05,  1.0929e-03],
+        [ 3.1872e-03,  1.3971e-03,  9.7752e-04,  ..., -3.5954e-03,
+          2.8157e-04, -5.9166e-03],
+        ...,
+        [-1.4143e-03, -4.5919e-04,  8.2588e-04,  ...,  3.2806e-03,
+          4.5002e-05,  2.0447e-03],
+        [ 1.3971e-03, -2.4843e-04, -1.6630e-05,  ...,  3.5286e-03,
+          2.6107e-04,  1.5295e-04],
+        [ 1.3390e-03,  1.1616e-03,  4.6206e-04,  ...,  4.4975e-03,
+          8.2552e-05,  6.2704e-04]], device='cuda:0')
+Epoch 495, bias, value: tensor([-0.0312,  0.0414, -0.0004, -0.0116,  0.0212, -0.0338,  0.0050,  0.0072,
+        -0.0025, -0.0148], device='cuda:0'), grad: tensor([ 0.0424,  0.0125, -0.0009, -0.0082, -0.0480, -0.0145, -0.0280,  0.0025,
+         0.0212,  0.0211], device='cuda:0')
+100
+1e-05
+changing lr
+---------------------saving model at epoch 494----------------------------------------------------
+epoch 494, time 231.02, cls_loss 0.4693 cls_loss_mapping 0.0007 cls_loss_causal 0.4061 re_mapping 0.0059 re_causal 0.0164 /// teacc 99.06 lr 0.00001000
+Epoch 496, weight, value: tensor([[-0.0735, -0.1639, -0.1114,  ..., -0.0384,  0.0666, -0.1132],
+        [-0.0834, -0.0964, -0.0900,  ...,  0.0997, -0.0393,  0.2414],
+        [ 0.0019, -0.0317, -0.0631,  ..., -0.0066, -0.0105, -0.0823],
+        ...,
+        [ 0.0387, -0.1220,  0.1835,  ...,  0.0401, -0.1270,  0.0620],
+        [-0.0267,  0.0663, -0.1549,  ..., -0.0498,  0.0194, -0.1210],
+        [-0.0654,  0.0840,  0.0433,  ..., -0.0653, -0.0564, -0.0370]],
+       device='cuda:0'), grad: tensor([[ 4.1270e-04, -1.2598e-03,  4.0293e-05,  ..., -3.0708e-03,
+          3.6120e-04,  1.9035e-03],
+        [ 6.8808e-04,  9.3079e-04,  2.0310e-05,  ...,  4.2038e-03,
+          7.4577e-04, -8.3466e-03],
+        [ 1.5366e-04,  1.2267e-04,  2.2307e-05,  ..., -2.1305e-03,
+          2.4056e-04, -7.8249e-04],
+        ...,
+        [ 2.4796e-04,  5.3978e-04,  1.1474e-05,  ...,  3.0270e-03,
+          4.0102e-04,  2.4939e-04],
+        [ 7.3552e-05, -1.9283e-03,  1.1921e-04,  ...,  2.9063e-04,
+          2.8610e-04,  2.1744e-03],
+        [-1.0357e-03,  6.0463e-04, -1.7204e-03,  ..., -5.7526e-03,
+          4.2534e-04, -6.3820e-03]], device='cuda:0')
+Epoch 496, bias, value: tensor([-0.0313,  0.0415, -0.0004, -0.0115,  0.0212, -0.0338,  0.0050,  0.0071,
+        -0.0026, -0.0148], device='cuda:0'), grad: tensor([-0.0184,  0.0168,  0.0070,  0.0196, -0.0113, -0.0144,  0.0221, -0.0108,
+        -0.0176,  0.0070], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 495, time 214.52, cls_loss 0.4661 cls_loss_mapping 0.0008 cls_loss_causal 0.4009 re_mapping 0.0059 re_causal 0.0159 /// teacc 99.05 lr 0.00001000
+Epoch 497, weight, value: tensor([[-0.0733, -0.1638, -0.1113,  ..., -0.0383,  0.0666, -0.1132],
+        [-0.0832, -0.0965, -0.0900,  ...,  0.0997, -0.0392,  0.2415],
+        [ 0.0019, -0.0315, -0.0630,  ..., -0.0064, -0.0104, -0.0824],
+        ...,
+        [ 0.0389, -0.1218,  0.1837,  ...,  0.0403, -0.1270,  0.0622],
+        [-0.0269,  0.0662, -0.1549,  ..., -0.0500,  0.0194, -0.1211],
+        [-0.0656,  0.0840,  0.0432,  ..., -0.0654, -0.0565, -0.0371]],
+       device='cuda:0'), grad: tensor([[-3.9011e-05, -1.0669e-04,  3.1088e-06,  ...,  2.6178e-04,
+          9.0431e-07,  2.2262e-05],
+        [ 3.1650e-05,  2.5749e-04,  1.2465e-05,  ...,  9.7370e-04,
+          1.3588e-06,  1.4286e-03],
+        [ 5.3674e-05,  1.5819e-04,  1.6063e-05,  ...,  1.2989e-03,
+          1.3318e-07,  1.2887e-04],
+        ...,
+        [-1.7869e-04, -4.6425e-03, -1.3864e-04,  ..., -7.5684e-03,
+          1.9409e-06, -3.2532e-02],
+        [ 1.8597e-05,  1.7900e-03,  2.2247e-05,  ...,  8.1158e-04,
+          2.8778e-07,  1.3275e-02],
+        [ 2.3693e-05,  7.7057e-04,  2.3946e-05,  ...,  8.5974e-04,
+          4.4703e-05,  4.1809e-03]], device='cuda:0')
+Epoch 497, bias, value: tensor([-0.0312,  0.0416, -0.0003, -0.0115,  0.0212, -0.0339,  0.0048,  0.0072,
+        -0.0027, -0.0149], device='cuda:0'), grad: tensor([ 0.0032,  0.0084,  0.0080,  0.0089,  0.0126,  0.0043,  0.0056, -0.0746,
+         0.0146,  0.0090], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 496, time 215.24, cls_loss 0.4860 cls_loss_mapping 0.0009 cls_loss_causal 0.4350 re_mapping 0.0059 re_causal 0.0163 /// teacc 99.06 lr 0.00001000
+Epoch 498, weight, value: tensor([[-0.0733, -0.1639, -0.1114,  ..., -0.0383,  0.0667, -0.1132],
+        [-0.0832, -0.0965, -0.0901,  ...,  0.0996, -0.0392,  0.2413],
+        [ 0.0019, -0.0315, -0.0629,  ..., -0.0063, -0.0106, -0.0824],
+        ...,
+        [ 0.0389, -0.1218,  0.1838,  ...,  0.0403, -0.1268,  0.0624],
+        [-0.0269,  0.0660, -0.1550,  ..., -0.0500,  0.0194, -0.1211],
+        [-0.0656,  0.0841,  0.0432,  ..., -0.0654, -0.0564, -0.0371]],
+       device='cuda:0'), grad: tensor([[ 8.3618e-03,  1.1396e-03,  1.2612e-04,  ...,  8.2779e-03,
+         -2.7940e-09,  1.4677e-03],
+        [ 6.8808e-04,  5.5408e-04,  6.3562e-04,  ...,  2.2774e-03,
+          0.0000e+00,  5.3215e-04],
+        [ 8.6308e-04,  6.5279e-04,  7.3099e-04,  ...,  2.5024e-03,
+          7.1712e-08,  7.9727e-04],
+        ...,
+        [ 8.8406e-04,  5.5265e-04,  1.1282e-03,  ...,  2.9583e-03,
+          0.0000e+00,  2.9039e-04],
+        [-3.5114e-03, -1.6623e-03, -4.6844e-03,  ..., -9.8038e-03,
+          5.5879e-09, -2.5711e-03],
+        [ 4.2534e-04, -1.8060e-04,  4.8470e-04,  ..., -1.1635e-03,
+          1.8626e-09,  1.5986e-04]], device='cuda:0')
+Epoch 498, bias, value: tensor([-0.0313,  0.0414, -0.0004, -0.0115,  0.0213, -0.0339,  0.0049,  0.0072,
+        -0.0027, -0.0148], device='cuda:0'), grad: tensor([ 0.0327,  0.0132,  0.0122,  0.0109, -0.0185,  0.0346, -0.0185,  0.0165,
+        -0.0631, -0.0201], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 497, time 214.87, cls_loss 0.4995 cls_loss_mapping 0.0010 cls_loss_causal 0.4303 re_mapping 0.0059 re_causal 0.0159 /// teacc 99.05 lr 0.00001000
+Epoch 499, weight, value: tensor([[-0.0734, -0.1639, -0.1115,  ..., -0.0383,  0.0668, -0.1134],
+        [-0.0831, -0.0965, -0.0901,  ...,  0.0996, -0.0392,  0.2415],
+        [ 0.0018, -0.0316, -0.0629,  ..., -0.0064, -0.0107, -0.0824],
+        ...,
+        [ 0.0389, -0.1219,  0.1838,  ...,  0.0403, -0.1268,  0.0624],
+        [-0.0268,  0.0659, -0.1548,  ..., -0.0498,  0.0195, -0.1210],
+        [-0.0657,  0.0842,  0.0431,  ..., -0.0655, -0.0564, -0.0372]],
+       device='cuda:0'), grad: tensor([[ 2.0526e-06,  1.1599e-04,  3.9674e-06,  ...,  8.0156e-04,
+          1.7323e-06,  1.2457e-04],
+        [ 2.1718e-06,  1.2767e-04,  4.7646e-06,  ...,  6.6090e-04,
+          4.9882e-06,  4.7326e-04],
+        [ 1.5050e-05, -1.7071e-04,  2.1607e-05,  ..., -1.9150e-03,
+          3.6713e-06,  2.8563e-04],
+        ...,
+        [-2.6107e-05,  1.5056e-04, -1.7658e-06,  ...,  9.3079e-04,
+          1.7136e-07,  3.2177e-03],
+        [ 1.1568e-03,  4.6730e-03,  1.8492e-03,  ...,  2.7008e-03,
+          1.3486e-05,  1.2293e-03],
+        [ 3.5942e-05,  2.2948e-04,  6.0320e-05,  ...,  7.8106e-04,
+          2.6822e-07, -6.7596e-03]], device='cuda:0')
+Epoch 499, bias, value: tensor([-0.0314,  0.0415, -0.0004, -0.0115,  0.0213, -0.0339,  0.0048,  0.0071,
+        -0.0025, -0.0148], device='cuda:0'), grad: tensor([ 0.0097,  0.0105, -0.0022, -0.0169, -0.0512, -0.0065,  0.0089,  0.0208,
+         0.0300, -0.0032], device='cuda:0')
+100
+1e-05
+changing lr
+---------------------saving model at epoch 498----------------------------------------------------
+epoch 498, time 230.80, cls_loss 0.4923 cls_loss_mapping 0.0010 cls_loss_causal 0.4357 re_mapping 0.0058 re_causal 0.0159 /// teacc 99.08 lr 0.00001000
+Epoch 500, weight, value: tensor([[-0.0734, -0.1639, -0.1115,  ..., -0.0385,  0.0668, -0.1135],
+        [-0.0831, -0.0966, -0.0902,  ...,  0.0995, -0.0393,  0.2414],
+        [ 0.0020, -0.0316, -0.0629,  ..., -0.0063, -0.0107, -0.0824],
+        ...,
+        [ 0.0387, -0.1219,  0.1838,  ...,  0.0402, -0.1268,  0.0623],
+        [-0.0267,  0.0662, -0.1548,  ..., -0.0497,  0.0195, -0.1210],
+        [-0.0658,  0.0839,  0.0430,  ..., -0.0656, -0.0565, -0.0373]],
+       device='cuda:0'), grad: tensor([[ 4.6196e-03,  2.1381e-03,  4.7266e-05,  ...,  2.9850e-04,
+          2.4567e-03, -4.0245e-04],
+        [ 1.4277e-03, -2.5868e-05,  3.7044e-05,  ...,  1.8721e-03,
+          5.4264e-04,  2.8030e-02],
+        [-3.7270e-03, -1.0548e-03,  1.8179e-04,  ...,  7.0906e-04,
+         -3.5362e-03,  1.0023e-03],
+        ...,
+        [ 4.8637e-04,  1.2010e-05, -6.0129e-04,  ...,  4.3917e-04,
+          5.8317e-04,  1.5450e-04],
+        [-5.5695e-03,  6.5536e-03,  3.1519e-04,  ..., -1.4067e-03,
+          7.5150e-04, -1.1492e-03],
+        [ 7.2289e-04,  4.7743e-05,  1.2660e-04,  ..., -9.4128e-04,
+          5.6744e-04,  3.6168e-04]], device='cuda:0')
+Epoch 500, bias, value: tensor([-0.0315,  0.0414, -0.0003, -0.0116,  0.0216, -0.0339,  0.0049,  0.0072,
+        -0.0025, -0.0150], device='cuda:0'), grad: tensor([-0.0128,  0.0381, -0.0125,  0.0065, -0.0036, -0.0352,  0.0231,  0.0067,
+         0.0058, -0.0160], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 499, time 214.32, cls_loss 0.4767 cls_loss_mapping 0.0009 cls_loss_causal 0.4114 re_mapping 0.0058 re_causal 0.0154 /// teacc 99.07 lr 0.00001000
+---------------------saving last model at epoch 499----------------------------------------------------
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 500, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_RA', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 3
+--------------------------CA_multiple--------------------------
+---------------------------14 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+Epoch 1, weight, value: tensor([[-0.0298,  0.0183,  0.0140,  ..., -0.0305, -0.0006,  0.0097],
+        [ 0.0207,  0.0108, -0.0263,  ..., -0.0054, -0.0157, -0.0142],
+        [ 0.0241, -0.0026,  0.0090,  ...,  0.0294, -0.0064, -0.0062],
+        ...,
+        [ 0.0203, -0.0303,  0.0013,  ...,  0.0076, -0.0020,  0.0291],
+        [ 0.0259, -0.0132, -0.0208,  ..., -0.0018,  0.0170,  0.0220],
+        [-0.0296, -0.0233,  0.0248,  ...,  0.0041,  0.0078, -0.0206]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([-0.0219, -0.0165, -0.0295,  0.0027,  0.0002,  0.0287,  0.0149, -0.0226,
+         0.0137, -0.0017], device='cuda:0'), grad: None
+100
+0.0001
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 231.12, cls_loss 1.3557 cls_loss_mapping 1.8773 cls_loss_causal 2.2124 re_mapping 0.1405 re_causal 0.1486 /// teacc 85.36 lr 0.00010000
+Epoch 2, weight, value: tensor([[-0.0261,  0.0146,  0.0117,  ..., -0.0395, -0.0012,  0.0054],
+        [ 0.0187,  0.0061, -0.0362,  ..., -0.0016, -0.0163, -0.0201],
+        [ 0.0299, -0.0099,  0.0060,  ...,  0.0290, -0.0070, -0.0025],
+        ...,
+        [ 0.0142, -0.0289, -0.0028,  ...,  0.0013, -0.0014,  0.0339],
+        [ 0.0233, -0.0159, -0.0253,  ...,  0.0008,  0.0164,  0.0185],
+        [-0.0380, -0.0188,  0.0301,  ...,  0.0066,  0.0072, -0.0158]],
+       device='cuda:0'), grad: tensor([[-0.0638, -0.0174, -0.0414,  ..., -0.0077,  0.0000, -0.0010],
+        [-0.0094,  0.0015,  0.0069,  ..., -0.0097,  0.0000,  0.0014],
+        [ 0.0204,  0.0081,  0.0418,  ...,  0.0165,  0.0000,  0.0032],
+        ...,
+        [ 0.0043, -0.0229, -0.0016,  ..., -0.0025,  0.0000, -0.0250],
+        [-0.0118,  0.0077,  0.0156,  ...,  0.0009,  0.0000,  0.0015],
+        [ 0.0181,  0.0073, -0.0224,  ..., -0.0145,  0.0000,  0.0116]],
+       device='cuda:0')
+Epoch 2, bias, value: tensor([-0.0234, -0.0160, -0.0298,  0.0025, -0.0013,  0.0293,  0.0163, -0.0233,
+         0.0133, -0.0012], device='cuda:0'), grad: tensor([-0.0615, -0.0135,  0.0319,  0.0369,  0.0296, -0.0230,  0.0191, -0.0185,
+        -0.0079,  0.0070], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 229.55, cls_loss 0.4405 cls_loss_mapping 0.8122 cls_loss_causal 1.9444 re_mapping 0.2013 re_causal 0.2671 /// teacc 91.82 lr 0.00010000
+Epoch 3, weight, value: tensor([[-0.0239,  0.0132,  0.0099,  ..., -0.0434, -0.0012,  0.0033],
+        [ 0.0189,  0.0043, -0.0411,  ..., -0.0020, -0.0163, -0.0240],
+        [ 0.0320, -0.0129,  0.0052,  ...,  0.0293, -0.0070, -0.0014],
+        ...,
+        [ 0.0124, -0.0285, -0.0051,  ..., -0.0017, -0.0014,  0.0374],
+        [ 0.0227, -0.0193, -0.0271,  ..., -0.0005,  0.0164,  0.0152],
+        [-0.0425, -0.0181,  0.0322,  ...,  0.0075,  0.0072, -0.0140]],
+       device='cuda:0'), grad: tensor([[ 0.0221,  0.0141,  0.0029,  ...,  0.0018,  0.0000,  0.0072],
+        [ 0.0323,  0.0042,  0.0040,  ...,  0.0042,  0.0000,  0.0014],
+        [-0.0214,  0.0074, -0.0037,  ..., -0.0054,  0.0000, -0.0093],
+        ...,
+        [ 0.0075,  0.0217,  0.0161,  ...,  0.0089,  0.0000,  0.0104],
+        [-0.0015,  0.0184,  0.0100,  ...,  0.0114,  0.0000,  0.0055],
+        [ 0.0095, -0.0368, -0.0193,  ..., -0.0115,  0.0000, -0.0136]],
+       device='cuda:0')
+Epoch 3, bias, value: tensor([-0.0234, -0.0166, -0.0296,  0.0026, -0.0012,  0.0303,  0.0163, -0.0239,
+         0.0132, -0.0011], device='cuda:0'), grad: tensor([ 0.0244,  0.0311, -0.0232, -0.0091,  0.0268, -0.0454, -0.0161,  0.0274,
+         0.0113, -0.0271], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 230.25, cls_loss 0.2939 cls_loss_mapping 0.4845 cls_loss_causal 1.7351 re_mapping 0.1476 re_causal 0.2378 /// teacc 93.83 lr 0.00010000
+Epoch 4, weight, value: tensor([[-0.0227,  0.0125,  0.0080,  ..., -0.0451, -0.0049,  0.0026],
+        [ 0.0192,  0.0024, -0.0440,  ..., -0.0019, -0.0213, -0.0262],
+        [ 0.0324, -0.0149,  0.0040,  ...,  0.0288, -0.0193, -0.0004],
+        ...,
+        [ 0.0105, -0.0291, -0.0068,  ..., -0.0032, -0.0007,  0.0388],
+        [ 0.0242, -0.0217, -0.0272,  ..., -0.0016,  0.0086,  0.0134],
+        [-0.0463, -0.0165,  0.0337,  ...,  0.0084,  0.0020, -0.0131]],
+       device='cuda:0'), grad: tensor([[-1.2619e-02, -1.0042e-03, -1.2321e-03,  ...,  1.0138e-03,
+          1.1414e-04,  1.4186e-04],
+        [-1.0429e-02,  8.6069e-04,  1.0233e-03,  ...,  3.0971e-04,
+          1.5545e-04,  1.4687e-04],
+        [ 5.7869e-03,  8.2254e-04,  1.1120e-03,  ...,  1.0223e-03,
+          7.3552e-05,  9.5901e-03],
+        ...,
+        [ 2.6722e-03,  1.5764e-03,  6.5079e-03,  ...,  3.7060e-03,
+          7.7128e-05, -2.9993e-04],
+        [-1.7023e-03,  3.3112e-03,  7.1411e-03,  ...,  5.9052e-03,
+          5.0497e-04, -1.4984e-02],
+        [ 3.5820e-03, -1.8415e-03, -5.1842e-03,  ..., -1.1663e-03,
+          1.5199e-04,  1.8768e-03]], device='cuda:0')
+Epoch 4, bias, value: tensor([-0.0234, -0.0165, -0.0296,  0.0025, -0.0012,  0.0309,  0.0162, -0.0248,
+         0.0133, -0.0009], device='cuda:0'), grad: tensor([-0.0110, -0.0221,  0.0187,  0.0164, -0.0054, -0.0089,  0.0042,  0.0079,
+        -0.0017,  0.0019], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 229.98, cls_loss 0.2224 cls_loss_mapping 0.3528 cls_loss_causal 1.5172 re_mapping 0.1235 re_causal 0.2194 /// teacc 95.76 lr 0.00010000
+Epoch 5, weight, value: tensor([[-2.1751e-02,  1.2036e-02,  6.7400e-03,  ..., -4.6559e-02,
+         -6.1361e-03,  2.1058e-03],
+        [ 1.9783e-02, -1.0993e-04, -4.6375e-02,  ..., -2.2998e-03,
+         -2.1551e-02, -2.8241e-02],
+        [ 3.2679e-02, -1.6947e-02,  3.4368e-03,  ...,  2.8977e-02,
+         -2.2000e-02, -8.3496e-05],
+        ...,
+        [ 1.0788e-02, -2.9527e-02, -8.5121e-03,  ..., -4.8042e-03,
+         -8.0969e-04,  4.0829e-02],
+        [ 2.4870e-02, -2.3275e-02, -2.7209e-02,  ..., -2.2898e-03,
+          6.7635e-03,  1.1713e-02],
+        [-4.9579e-02, -1.5481e-02,  3.5391e-02,  ...,  9.6285e-03,
+          1.6631e-03, -1.3594e-02]], device='cuda:0'), grad: tensor([[ 0.0008,  0.0016,  0.0005,  ...,  0.0012,  0.0000,  0.0002],
+        [ 0.0009,  0.0022,  0.0016,  ...,  0.0002,  0.0000,  0.0005],
+        [ 0.0022,  0.0021,  0.0010,  ...,  0.0014,  0.0000,  0.0015],
+        ...,
+        [-0.0014, -0.0178,  0.0004,  ...,  0.0016,  0.0000, -0.0096],
+        [-0.0079,  0.0035,  0.0039,  ...,  0.0047,  0.0000,  0.0008],
+        [ 0.0016, -0.0167, -0.0118,  ..., -0.0067,  0.0000, -0.0010]],
+       device='cuda:0')
+Epoch 5, bias, value: tensor([-0.0234, -0.0165, -0.0292,  0.0023, -0.0013,  0.0308,  0.0163, -0.0247,
+         0.0131, -0.0008], device='cuda:0'), grad: tensor([ 0.0023,  0.0007,  0.0045,  0.0472, -0.0135,  0.0151, -0.0314, -0.0096,
+        -0.0012, -0.0140], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 229.39, cls_loss 0.1693 cls_loss_mapping 0.2619 cls_loss_causal 1.3809 re_mapping 0.1012 re_causal 0.1942 /// teacc 96.28 lr 0.00010000
+Epoch 6, weight, value: tensor([[-0.0203,  0.0108,  0.0056,  ..., -0.0474, -0.0075,  0.0013],
+        [ 0.0199, -0.0015, -0.0480,  ..., -0.0026, -0.0207, -0.0296],
+        [ 0.0326, -0.0182,  0.0025,  ...,  0.0289, -0.0240,  0.0007],
+        ...,
+        [ 0.0103, -0.0300, -0.0105,  ..., -0.0061, -0.0010,  0.0420],
+        [ 0.0258, -0.0248, -0.0278,  ..., -0.0031,  0.0045,  0.0107],
+        [-0.0528, -0.0146,  0.0371,  ...,  0.0106,  0.0013, -0.0143]],
+       device='cuda:0'), grad: tensor([[-9.3079e-03, -4.4674e-05,  2.3627e-04,  ...,  1.3292e-04,
+          2.8357e-05, -9.1362e-04],
+        [ 9.8648e-03,  3.4161e-03,  5.0116e-04,  ...,  2.8563e-04,
+          6.2548e-06,  5.2643e-04],
+        [ 6.6681e-03,  2.3823e-03,  9.9087e-04,  ...,  6.3944e-04,
+          3.4943e-06,  4.5166e-03],
+        ...,
+        [-1.5869e-03,  2.6970e-03,  5.4932e-03,  ...,  2.9278e-03,
+          2.0228e-06, -7.3051e-03],
+        [-2.8172e-03,  1.6413e-03, -5.4932e-04,  ..., -9.3877e-05,
+          2.7657e-04,  4.8399e-04],
+        [ 2.7962e-03, -6.1073e-03, -1.4839e-02,  ..., -1.0231e-02,
+          2.0545e-06, -9.7370e-04]], device='cuda:0')
+Epoch 6, bias, value: tensor([-0.0233, -0.0166, -0.0294,  0.0028, -0.0009,  0.0305,  0.0161, -0.0249,
+         0.0132, -0.0009], device='cuda:0'), grad: tensor([-9.0485e-03,  1.2978e-02,  1.3687e-02, -1.6129e-02,  1.1322e-02,
+         1.0696e-02, -1.3939e-02,  7.9453e-05, -2.0046e-03, -7.6408e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 5----------------------------------------------------
+epoch 5, time 229.26, cls_loss 0.1371 cls_loss_mapping 0.2095 cls_loss_causal 1.3417 re_mapping 0.0842 re_causal 0.1816 /// teacc 96.33 lr 0.00010000
+Epoch 7, weight, value: tensor([[-0.0190,  0.0101,  0.0050,  ..., -0.0484, -0.0093,  0.0006],
+        [ 0.0194, -0.0033, -0.0493,  ..., -0.0029, -0.0233, -0.0311],
+        [ 0.0326, -0.0189,  0.0018,  ...,  0.0290, -0.0262,  0.0016],
+        ...,
+        [ 0.0110, -0.0306, -0.0121,  ..., -0.0072, -0.0007,  0.0428],
+        [ 0.0269, -0.0258, -0.0279,  ..., -0.0039,  0.0031,  0.0100],
+        [-0.0550, -0.0139,  0.0380,  ...,  0.0115,  0.0007, -0.0148]],
+       device='cuda:0'), grad: tensor([[-1.3304e-03,  4.1080e-04,  2.6417e-04,  ...,  1.5914e-04,
+          1.3542e-04,  4.3464e-04],
+        [ 2.2388e-04,  9.0933e-04,  2.8872e-04,  ...,  3.0088e-04,
+          2.3097e-07,  8.1825e-04],
+        [-1.2674e-03,  1.2207e-03,  4.2844e-04,  ...,  5.4169e-04,
+          9.9912e-06, -2.3842e-03],
+        ...,
+        [ 9.9754e-04,  6.2561e-04,  1.2989e-03,  ...,  1.0405e-03,
+          8.1420e-05,  7.0524e-04],
+        [ 1.0895e-02,  3.4733e-03,  3.8757e-03,  ...,  6.2599e-03,
+          3.4165e-04,  8.8978e-04],
+        [-4.1223e-04, -5.8517e-03, -9.8419e-03,  ..., -8.1406e-03,
+          1.7971e-05,  6.8283e-04]], device='cuda:0')
+Epoch 7, bias, value: tensor([-0.0230, -0.0171, -0.0292,  0.0029, -0.0010,  0.0302,  0.0159, -0.0250,
+         0.0135, -0.0010], device='cuda:0'), grad: tensor([-0.0002,  0.0012, -0.0019, -0.0040,  0.0019, -0.0210,  0.0172,  0.0026,
+         0.0118, -0.0076], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 6----------------------------------------------------
+epoch 6, time 227.95, cls_loss 0.1238 cls_loss_mapping 0.1801 cls_loss_causal 1.2398 re_mapping 0.0719 re_causal 0.1588 /// teacc 97.04 lr 0.00010000
+Epoch 8, weight, value: tensor([[-0.0177,  0.0093,  0.0043,  ..., -0.0494, -0.0089, -0.0008],
+        [ 0.0193, -0.0044, -0.0499,  ..., -0.0027, -0.0240, -0.0321],
+        [ 0.0330, -0.0208,  0.0012,  ...,  0.0293, -0.0275,  0.0027],
+        ...,
+        [ 0.0112, -0.0304, -0.0132,  ..., -0.0080, -0.0012,  0.0438],
+        [ 0.0273, -0.0270, -0.0282,  ..., -0.0047,  0.0028,  0.0090],
+        [-0.0575, -0.0134,  0.0390,  ...,  0.0124,  0.0003, -0.0157]],
+       device='cuda:0'), grad: tensor([[-9.5139e-03, -8.9598e-04,  5.3024e-04,  ...,  2.4915e-04,
+          6.3062e-05,  3.6597e-04],
+        [ 3.6907e-03,  1.6050e-03,  5.9843e-04,  ...,  2.2495e-04,
+          3.6061e-05,  1.1377e-03],
+        [ 1.4582e-03,  1.4229e-03,  1.4877e-03,  ...,  3.6836e-04,
+          2.1368e-05, -8.6641e-04],
+        ...,
+        [-1.0841e-02, -3.9520e-03, -1.6336e-03,  ...,  5.4538e-05,
+          2.0236e-05, -4.8332e-03],
+        [ 2.5673e-03,  1.9207e-03,  1.4076e-03,  ...,  8.5974e-04,
+          1.6618e-04,  7.6962e-04],
+        [ 3.9482e-03, -2.0203e-02, -3.1982e-02,  ..., -5.3635e-03,
+          3.4958e-05,  7.7295e-04]], device='cuda:0')
+Epoch 8, bias, value: tensor([-0.0228, -0.0169, -0.0289,  0.0029, -0.0011,  0.0300,  0.0156, -0.0250,
+         0.0136, -0.0011], device='cuda:0'), grad: tensor([-0.0052,  0.0053,  0.0026,  0.0071,  0.0268,  0.0028, -0.0016, -0.0183,
+         0.0023, -0.0217], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 7----------------------------------------------------
+epoch 7, time 226.51, cls_loss 0.1205 cls_loss_mapping 0.1655 cls_loss_causal 1.2069 re_mapping 0.0650 re_causal 0.1466 /// teacc 97.29 lr 0.00010000
+Epoch 9, weight, value: tensor([[-0.0169,  0.0085,  0.0050,  ..., -0.0497, -0.0097, -0.0020],
+        [ 0.0195, -0.0052, -0.0508,  ..., -0.0029, -0.0236, -0.0329],
+        [ 0.0326, -0.0226,  0.0002,  ...,  0.0293, -0.0283,  0.0030],
+        ...,
+        [ 0.0115, -0.0310, -0.0144,  ..., -0.0088, -0.0016,  0.0447],
+        [ 0.0279, -0.0281, -0.0284,  ..., -0.0059,  0.0019,  0.0083],
+        [-0.0588, -0.0129,  0.0396,  ...,  0.0134,  0.0002, -0.0160]],
+       device='cuda:0'), grad: tensor([[-1.2993e-02, -7.6675e-04,  2.0587e-04,  ..., -3.3054e-03,
+          7.5512e-06,  2.2948e-04],
+        [ 9.7427e-03,  2.9259e-03,  1.0710e-03,  ...,  3.1300e-03,
+          6.7614e-07,  3.3331e-04],
+        [-9.1476e-03,  8.1635e-04,  6.5565e-04,  ...,  1.2550e-03,
+          8.9034e-06,  9.5749e-04],
+        ...,
+        [ 1.1358e-03, -7.6828e-03, -4.4370e-04,  ..., -6.7024e-03,
+          2.3954e-06, -1.4977e-02],
+        [-3.4275e-03, -1.9817e-03,  3.3073e-03,  ..., -1.5068e-03,
+          2.3860e-06,  5.8699e-04],
+        [ 2.4643e-03,  5.6915e-03,  2.5845e-03,  ...,  4.0779e-03,
+          6.2259e-07,  5.4588e-03]], device='cuda:0')
+Epoch 9, bias, value: tensor([-0.0227, -0.0169, -0.0294,  0.0026, -0.0008,  0.0302,  0.0153, -0.0247,
+         0.0137, -0.0012], device='cuda:0'), grad: tensor([-0.0173,  0.0191, -0.0114,  0.0114, -0.0068,  0.0127,  0.0030, -0.0151,
+        -0.0110,  0.0153], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 8, time 214.06, cls_loss 0.0877 cls_loss_mapping 0.1275 cls_loss_causal 1.1551 re_mapping 0.0587 re_causal 0.1401 /// teacc 97.24 lr 0.00010000
+Epoch 10, weight, value: tensor([[-0.0163,  0.0073,  0.0044,  ..., -0.0507, -0.0098, -0.0030],
+        [ 0.0193, -0.0057, -0.0516,  ..., -0.0034, -0.0237, -0.0343],
+        [ 0.0330, -0.0234, -0.0004,  ...,  0.0296, -0.0285,  0.0042],
+        ...,
+        [ 0.0113, -0.0314, -0.0156,  ..., -0.0094, -0.0016,  0.0449],
+        [ 0.0287, -0.0288, -0.0290,  ..., -0.0070,  0.0019,  0.0072],
+        [-0.0600, -0.0120,  0.0406,  ...,  0.0150,  0.0001, -0.0165]],
+       device='cuda:0'), grad: tensor([[-8.5449e-04,  4.1962e-04,  1.3614e-04,  ...,  1.9026e-04,
+          5.7276e-07,  1.0288e-04],
+        [ 1.6403e-02,  2.2850e-03,  2.9016e-04,  ...,  1.6460e-03,
+          2.0722e-07,  3.2163e-04],
+        [-2.2717e-03,  3.5706e-03,  3.5787e-04,  ...,  6.5804e-04,
+          1.2433e-07,  7.1764e-05],
+        ...,
+        [-7.1907e-04,  2.7442e-04,  5.1832e-04,  ...,  5.8889e-04,
+          2.6124e-07, -9.9182e-04],
+        [-1.4778e-02,  1.6365e-03,  8.8120e-04,  ...,  3.4308e-04,
+          9.5367e-06,  6.2895e-04],
+        [ 1.8778e-03,  2.4490e-03,  3.7270e-03,  ...,  4.3182e-03,
+          4.8382e-07,  5.4979e-04]], device='cuda:0')
+Epoch 10, bias, value: tensor([-0.0227, -0.0172, -0.0287,  0.0032, -0.0011,  0.0295,  0.0154, -0.0251,
+         0.0138, -0.0009], device='cuda:0'), grad: tensor([ 0.0002,  0.0244,  0.0056, -0.0192,  0.0008, -0.0053,  0.0047,  0.0006,
+        -0.0174,  0.0056], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 9----------------------------------------------------
+epoch 9, time 228.28, cls_loss 0.0827 cls_loss_mapping 0.1256 cls_loss_causal 1.1255 re_mapping 0.0537 re_causal 0.1329 /// teacc 97.62 lr 0.00010000
+Epoch 11, weight, value: tensor([[-0.0160,  0.0066,  0.0041,  ..., -0.0514, -0.0099, -0.0038],
+        [ 0.0189, -0.0069, -0.0531,  ..., -0.0035, -0.0234, -0.0354],
+        [ 0.0332, -0.0244, -0.0014,  ...,  0.0294, -0.0294,  0.0051],
+        ...,
+        [ 0.0118, -0.0316, -0.0166,  ..., -0.0104, -0.0015,  0.0458],
+        [ 0.0292, -0.0294, -0.0292,  ..., -0.0075,  0.0016,  0.0064],
+        [-0.0617, -0.0117,  0.0415,  ...,  0.0156, -0.0003, -0.0173]],
+       device='cuda:0'), grad: tensor([[-3.2730e-03,  1.9193e-04,  2.2900e-04,  ...,  1.0026e-04,
+          9.5516e-06,  1.4171e-05],
+        [-3.3360e-03, -1.1635e-04,  3.3587e-05,  ...,  2.5779e-05,
+          4.3213e-06, -5.2154e-05],
+        [ 1.1377e-03,  4.5681e-04,  6.5851e-04,  ...,  2.4700e-04,
+          1.1269e-06, -6.7902e-04],
+        ...,
+        [ 8.3876e-04,  1.0519e-03,  1.5650e-03,  ...,  7.5197e-04,
+          4.7460e-06,  5.6362e-04],
+        [-3.8185e-03, -6.9923e-03, -1.2810e-02,  ..., -4.8752e-03,
+          4.2617e-05,  5.6475e-05],
+        [ 1.3056e-03, -2.2542e-04,  5.5075e-04,  ..., -1.4186e-04,
+          2.9933e-06, -4.8056e-07]], device='cuda:0')
+Epoch 11, bias, value: tensor([-0.0229, -0.0173, -0.0288,  0.0032, -0.0008,  0.0295,  0.0153, -0.0249,
+         0.0140, -0.0012], device='cuda:0'), grad: tensor([-0.0019, -0.0039,  0.0014,  0.0010,  0.0079,  0.0023,  0.0056,  0.0022,
+        -0.0167,  0.0022], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 10----------------------------------------------------
+epoch 10, time 228.40, cls_loss 0.0788 cls_loss_mapping 0.1163 cls_loss_causal 1.0973 re_mapping 0.0492 re_causal 0.1238 /// teacc 97.65 lr 0.00010000
+Epoch 12, weight, value: tensor([[-0.0156,  0.0062,  0.0042,  ..., -0.0520, -0.0097, -0.0042],
+        [ 0.0188, -0.0081, -0.0537,  ..., -0.0037, -0.0234, -0.0363],
+        [ 0.0332, -0.0258, -0.0019,  ...,  0.0295, -0.0300,  0.0055],
+        ...,
+        [ 0.0127, -0.0316, -0.0173,  ..., -0.0108, -0.0015,  0.0463],
+        [ 0.0296, -0.0301, -0.0295,  ..., -0.0079,  0.0015,  0.0058],
+        [-0.0631, -0.0111,  0.0422,  ...,  0.0165, -0.0004, -0.0175]],
+       device='cuda:0'), grad: tensor([[-4.7517e-04,  4.4298e-04,  4.9114e-04,  ...,  9.2328e-05,
+          1.7229e-07, -3.3426e-04],
+        [ 6.4278e-04,  3.6373e-03,  5.4550e-03,  ...,  1.7233e-03,
+          1.3188e-06,  3.3379e-04],
+        [ 2.3425e-04,  2.7847e-04,  2.7084e-04,  ...,  8.5652e-05,
+          5.9651e-07, -5.6648e-04],
+        ...,
+        [-3.1543e-04, -4.2963e-04,  1.8911e-03,  ...,  1.1129e-03,
+          2.9840e-06, -4.9305e-04],
+        [ 6.6948e-03,  4.0283e-03,  2.6016e-03,  ...,  6.8760e-04,
+          7.1432e-07, -9.7632e-05],
+        [-1.5312e-02, -6.5041e-03, -4.0779e-03,  ..., -1.9989e-03,
+          2.5127e-06,  4.4179e-04]], device='cuda:0')
+Epoch 12, bias, value: tensor([-0.0226, -0.0176, -0.0289,  0.0032, -0.0009,  0.0296,  0.0150, -0.0248,
+         0.0142, -0.0012], device='cuda:0'), grad: tensor([ 0.0010,  0.0083,  0.0003,  0.0048, -0.0098,  0.0090,  0.0021, -0.0002,
+         0.0136, -0.0291], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 11----------------------------------------------------
+epoch 11, time 230.74, cls_loss 0.0682 cls_loss_mapping 0.1035 cls_loss_causal 1.0708 re_mapping 0.0445 re_causal 0.1164 /// teacc 97.93 lr 0.00010000
+Epoch 13, weight, value: tensor([[-0.0151,  0.0054,  0.0039,  ..., -0.0525, -0.0100, -0.0051],
+        [ 0.0195, -0.0086, -0.0535,  ..., -0.0040, -0.0239, -0.0375],
+        [ 0.0332, -0.0269, -0.0026,  ...,  0.0292, -0.0313,  0.0064],
+        ...,
+        [ 0.0128, -0.0316, -0.0184,  ..., -0.0114, -0.0007,  0.0470],
+        [ 0.0297, -0.0310, -0.0300,  ..., -0.0089,  0.0008,  0.0051],
+        [-0.0639, -0.0109,  0.0428,  ...,  0.0171, -0.0007, -0.0182]],
+       device='cuda:0'), grad: tensor([[-1.7252e-03, -6.0034e-04,  1.0163e-04,  ...,  1.4281e-04,
+          7.7114e-06, -3.5620e-04],
+        [ 1.4377e-04,  4.0960e-04,  1.5879e-04,  ..., -4.3124e-05,
+          2.2471e-05,  3.4285e-04],
+        [ 9.3699e-05,  1.6999e-04,  2.0099e-04,  ...,  2.4724e-04,
+          7.6815e-06, -2.4676e-04],
+        ...,
+        [ 7.0572e-04,  1.5469e-03,  2.6016e-03,  ...,  1.2617e-03,
+          2.1368e-05,  1.2636e-03],
+        [-5.6076e-04,  5.2452e-04,  2.1005e-04,  ...,  8.7690e-04,
+          1.1392e-05,  1.2999e-03],
+        [ 9.9277e-04, -1.4696e-03, -3.0918e-03,  ..., -1.6451e-03,
+          1.8939e-05, -5.0306e-04]], device='cuda:0')
+Epoch 13, bias, value: tensor([-0.0226, -0.0171, -0.0290,  0.0033, -0.0010,  0.0292,  0.0151, -0.0247,
+         0.0140, -0.0013], device='cuda:0'), grad: tensor([-0.0019,  0.0002,  0.0007, -0.0012, -0.0008,  0.0007, -0.0001,  0.0036,
+         0.0002, -0.0012], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 12----------------------------------------------------
+epoch 12, time 225.36, cls_loss 0.0699 cls_loss_mapping 0.0996 cls_loss_causal 1.0461 re_mapping 0.0432 re_causal 0.1136 /// teacc 98.09 lr 0.00010000
+Epoch 14, weight, value: tensor([[-0.0146,  0.0052,  0.0044,  ..., -0.0521, -0.0086, -0.0057],
+        [ 0.0189, -0.0098, -0.0539,  ..., -0.0041, -0.0250, -0.0391],
+        [ 0.0330, -0.0285, -0.0030,  ...,  0.0284, -0.0379,  0.0071],
+        ...,
+        [ 0.0126, -0.0315, -0.0194,  ..., -0.0119,  0.0008,  0.0475],
+        [ 0.0305, -0.0319, -0.0309,  ..., -0.0098,  0.0006,  0.0043],
+        [-0.0645, -0.0106,  0.0436,  ...,  0.0179, -0.0025, -0.0188]],
+       device='cuda:0'), grad: tensor([[ 0.0004,  0.0007,  0.0006,  ...,  0.0002,  0.0000,  0.0003],
+        [ 0.0007,  0.0010,  0.0002,  ...,  0.0002,  0.0000,  0.0006],
+        [ 0.0002,  0.0006,  0.0002,  ..., -0.0003,  0.0000, -0.0002],
+        ...,
+        [ 0.0007,  0.0021,  0.0025,  ...,  0.0019,  0.0000, -0.0015],
+        [-0.0075, -0.0067, -0.0019,  ..., -0.0019,  0.0000, -0.0013],
+        [ 0.0014, -0.0060, -0.0070,  ..., -0.0052,  0.0000, -0.0023]],
+       device='cuda:0')
+Epoch 14, bias, value: tensor([-0.0223, -0.0178, -0.0292,  0.0036, -0.0009,  0.0296,  0.0151, -0.0249,
+         0.0141, -0.0014], device='cuda:0'), grad: tensor([ 0.0012,  0.0019,  0.0005,  0.0072,  0.0030,  0.0040,  0.0020,  0.0027,
+        -0.0172, -0.0053], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 13, time 214.36, cls_loss 0.0602 cls_loss_mapping 0.0899 cls_loss_causal 1.0118 re_mapping 0.0411 re_causal 0.1074 /// teacc 98.00 lr 0.00010000
+Epoch 15, weight, value: tensor([[-0.0140,  0.0046,  0.0045,  ..., -0.0526, -0.0088, -0.0069],
+        [ 0.0189, -0.0106, -0.0546,  ..., -0.0042, -0.0247, -0.0400],
+        [ 0.0329, -0.0292, -0.0036,  ...,  0.0280, -0.0389,  0.0077],
+        ...,
+        [ 0.0126, -0.0317, -0.0201,  ..., -0.0125,  0.0011,  0.0481],
+        [ 0.0311, -0.0327, -0.0309,  ..., -0.0105,  0.0002,  0.0036],
+        [-0.0659, -0.0103,  0.0442,  ...,  0.0185, -0.0030, -0.0197]],
+       device='cuda:0'), grad: tensor([[ 5.3644e-04,  1.4699e-04,  2.1636e-04,  ...,  6.3300e-05,
+          5.8413e-05,  1.7047e-04],
+        [ 3.4332e-03,  2.4056e-04,  1.4524e-03,  ...,  3.8886e-04,
+          5.2005e-05,  4.8113e-04],
+        [ 6.9962e-03,  2.6727e-04,  2.2831e-03,  ...,  6.8378e-04,
+          2.6673e-05,  1.8883e-03],
+        ...,
+        [-1.4429e-03,  2.2244e-04,  7.7820e-04,  ...,  3.8671e-04,
+         -1.4246e-04, -1.8263e-03],
+        [ 2.2411e-05,  2.3603e-04,  1.4811e-03,  ...,  5.6553e-04,
+          3.5733e-05, -1.1883e-03],
+        [ 9.0599e-05, -1.1272e-03, -1.7929e-03,  ..., -1.1463e-03,
+          3.4332e-05,  6.4671e-05]], device='cuda:0')
+Epoch 15, bias, value: tensor([-0.0223, -0.0181, -0.0292,  0.0037, -0.0008,  0.0298,  0.0146, -0.0246,
+         0.0144, -0.0017], device='cuda:0'), grad: tensor([ 0.0007,  0.0037,  0.0079,  0.0024, -0.0009,  0.0009, -0.0122, -0.0019,
+         0.0005, -0.0013], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 14----------------------------------------------------
+epoch 14, time 230.45, cls_loss 0.0540 cls_loss_mapping 0.0815 cls_loss_causal 0.9902 re_mapping 0.0366 re_causal 0.1008 /// teacc 98.24 lr 0.00010000
+Epoch 16, weight, value: tensor([[-0.0134,  0.0039,  0.0042,  ..., -0.0532, -0.0089, -0.0079],
+        [ 0.0187, -0.0115, -0.0547,  ..., -0.0039, -0.0243, -0.0419],
+        [ 0.0330, -0.0297, -0.0043,  ...,  0.0278, -0.0391,  0.0082],
+        ...,
+        [ 0.0124, -0.0315, -0.0208,  ..., -0.0131,  0.0005,  0.0488],
+        [ 0.0316, -0.0330, -0.0311,  ..., -0.0111, -0.0005,  0.0032],
+        [-0.0668, -0.0100,  0.0449,  ...,  0.0195, -0.0031, -0.0203]],
+       device='cuda:0'), grad: tensor([[-6.6853e-04,  4.0603e-04,  4.3249e-04,  ...,  1.3995e-04,
+          7.2131e-07,  6.6400e-05],
+        [-2.4414e-03, -3.2830e-04, -1.2226e-03,  ..., -6.6900e-04,
+         -4.3720e-05,  1.6069e-04],
+        [ 1.6129e-04,  1.7667e-04,  4.1342e-04,  ...,  1.4889e-04,
+          4.4983e-07, -1.1225e-03],
+        ...,
+        [ 2.4748e-04, -5.4091e-05,  5.5647e-04,  ...,  1.8501e-04,
+          2.2389e-06, -2.7442e-04],
+        [ 1.1072e-03,  2.8782e-03,  3.7689e-03,  ...,  1.3380e-03,
+          1.4953e-05,  2.3091e-04],
+        [ 3.0351e-04,  1.1986e-02,  1.4351e-02,  ...,  3.8776e-03,
+          7.0035e-06,  1.4853e-04]], device='cuda:0')
+Epoch 16, bias, value: tensor([-0.0221, -0.0183, -0.0291,  0.0035, -0.0008,  0.0298,  0.0144, -0.0246,
+         0.0147, -0.0017], device='cuda:0'), grad: tensor([ 0.0001, -0.0082,  0.0014, -0.0244,  0.0020,  0.0008,  0.0006,  0.0010,
+         0.0070,  0.0197], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 15, time 214.07, cls_loss 0.0537 cls_loss_mapping 0.0797 cls_loss_causal 0.9844 re_mapping 0.0358 re_causal 0.0970 /// teacc 97.98 lr 0.00010000
+Epoch 17, weight, value: tensor([[-0.0130,  0.0036,  0.0044,  ..., -0.0536, -0.0092, -0.0095],
+        [ 0.0186, -0.0123, -0.0549,  ..., -0.0038, -0.0242, -0.0436],
+        [ 0.0328, -0.0307, -0.0050,  ...,  0.0279, -0.0403,  0.0087],
+        ...,
+        [ 0.0128, -0.0313, -0.0216,  ..., -0.0137,  0.0025,  0.0496],
+        [ 0.0322, -0.0341, -0.0319,  ..., -0.0120, -0.0008,  0.0029],
+        [-0.0678, -0.0095,  0.0457,  ...,  0.0205, -0.0037, -0.0208]],
+       device='cuda:0'), grad: tensor([[ 2.5821e-04,  1.8942e-04,  7.4327e-05,  ...,  9.7096e-05,
+          0.0000e+00,  1.4806e-04],
+        [ 3.3784e-04,  2.1422e-04,  1.8132e-04,  ...,  1.1498e-04,
+          0.0000e+00,  1.9014e-04],
+        [ 1.6665e-04,  1.9026e-04,  1.1617e-04,  ...,  5.0187e-05,
+          0.0000e+00,  1.6913e-05],
+        ...,
+        [-1.5926e-04,  3.9825e-03,  1.6527e-03,  ...,  1.0881e-03,
+          0.0000e+00,  3.7251e-03],
+        [-8.9931e-04,  1.2236e-03,  5.1165e-04,  ...,  8.9025e-04,
+          0.0000e+00,  4.3154e-04],
+        [ 6.6996e-04, -9.6262e-05, -4.8714e-03,  ..., -3.4428e-03,
+          0.0000e+00,  1.6413e-03]], device='cuda:0')
+Epoch 17, bias, value: tensor([-0.0220, -0.0185, -0.0294,  0.0036, -0.0011,  0.0295,  0.0146, -0.0241,
+         0.0148, -0.0017], device='cuda:0'), grad: tensor([ 4.7207e-04,  7.0286e-04,  4.2629e-04, -1.5080e-04,  2.2449e-03,
+        -6.3515e-03, -1.9014e-04,  3.9005e-03,  1.1884e-05, -1.0662e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 16----------------------------------------------------
+epoch 16, time 229.83, cls_loss 0.0562 cls_loss_mapping 0.0891 cls_loss_causal 0.9423 re_mapping 0.0330 re_causal 0.0891 /// teacc 98.27 lr 0.00010000
+Epoch 18, weight, value: tensor([[-0.0130,  0.0031,  0.0039,  ..., -0.0546, -0.0097, -0.0105],
+        [ 0.0185, -0.0134, -0.0557,  ..., -0.0041, -0.0247, -0.0443],
+        [ 0.0331, -0.0319, -0.0057,  ...,  0.0272, -0.0412,  0.0091],
+        ...,
+        [ 0.0127, -0.0310, -0.0227,  ..., -0.0150,  0.0028,  0.0501],
+        [ 0.0327, -0.0348, -0.0318,  ..., -0.0123, -0.0019,  0.0026],
+        [-0.0690, -0.0093,  0.0465,  ...,  0.0213, -0.0041, -0.0215]],
+       device='cuda:0'), grad: tensor([[ 5.2404e-04,  2.5105e-04,  3.7241e-04,  ...,  2.2829e-04,
+          9.2667e-08,  2.3162e-04],
+        [ 6.4611e-04,  1.9813e-04,  2.2602e-04,  ...,  1.4269e-04,
+         -1.6997e-06,  4.3780e-05],
+        [-8.1062e-04,  4.8661e-04,  7.3242e-04,  ...,  5.1498e-04,
+          2.7195e-07, -6.4421e-04],
+        ...,
+        [-1.9455e-04, -2.3890e-04,  4.1723e-04,  ...,  6.8843e-05,
+          3.2829e-07, -2.7442e-04],
+        [-1.4219e-03,  3.0994e-04, -4.2319e-04,  ...,  2.1350e-04,
+          2.3609e-07,  2.3448e-04],
+        [ 6.9571e-04,  3.0851e-04, -8.2910e-05,  ..., -5.6237e-05,
+          1.2247e-07,  1.4174e-04]], device='cuda:0')
+Epoch 18, bias, value: tensor([-0.0222, -0.0188, -0.0295,  0.0036, -0.0009,  0.0301,  0.0144, -0.0241,
+         0.0150, -0.0021], device='cuda:0'), grad: tensor([ 1.0881e-03,  1.0080e-03, -1.0815e-03,  1.0185e-03, -2.9430e-03,
+        -8.8334e-05,  1.7996e-03, -3.5810e-04, -1.3514e-03,  9.1314e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 17----------------------------------------------------
+epoch 17, time 230.06, cls_loss 0.0506 cls_loss_mapping 0.0746 cls_loss_causal 0.9436 re_mapping 0.0325 re_causal 0.0885 /// teacc 98.46 lr 0.00010000
+Epoch 19, weight, value: tensor([[-0.0126,  0.0024,  0.0038,  ..., -0.0553, -0.0098, -0.0118],
+        [ 0.0180, -0.0134, -0.0556,  ..., -0.0038, -0.0247, -0.0448],
+        [ 0.0333, -0.0326, -0.0061,  ...,  0.0271, -0.0421,  0.0097],
+        ...,
+        [ 0.0127, -0.0309, -0.0237,  ..., -0.0159,  0.0034,  0.0510],
+        [ 0.0333, -0.0358, -0.0321,  ..., -0.0131, -0.0022,  0.0015],
+        [-0.0702, -0.0087,  0.0474,  ...,  0.0225, -0.0043, -0.0219]],
+       device='cuda:0'), grad: tensor([[ 4.5824e-04,  2.1720e-04,  8.6248e-05,  ...,  1.9932e-04,
+          3.4971e-07,  4.5371e-04],
+        [-6.9559e-05,  1.9479e-04, -1.3709e-04,  ...,  1.8299e-05,
+          9.0338e-07,  3.9220e-04],
+        [-1.3456e-03,  4.1986e-04,  2.6846e-04,  ...,  2.2840e-04,
+          5.0664e-07, -2.1648e-03],
+        ...,
+        [-9.9850e-04, -1.8320e-03,  1.7777e-05,  ..., -7.7724e-05,
+         -6.4112e-06, -4.0321e-03],
+        [ 1.3399e-03,  4.4155e-04,  1.2732e-04,  ...,  3.9077e-04,
+          7.0874e-07,  9.7513e-04],
+        [ 9.2316e-04,  7.4387e-04,  1.5783e-04,  ...,  3.1948e-04,
+          1.2489e-06,  8.5449e-04]], device='cuda:0')
+Epoch 19, bias, value: tensor([-0.0222, -0.0190, -0.0291,  0.0035, -0.0011,  0.0302,  0.0143, -0.0240,
+         0.0152, -0.0022], device='cuda:0'), grad: tensor([ 8.5640e-04, -4.0323e-05, -2.2717e-03,  4.0932e-03, -1.1892e-03,
+        -1.7862e-03,  7.9441e-04, -5.2185e-03,  2.3727e-03,  2.3880e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 18----------------------------------------------------
+epoch 18, time 225.04, cls_loss 0.0359 cls_loss_mapping 0.0588 cls_loss_causal 0.9127 re_mapping 0.0303 re_causal 0.0877 /// teacc 98.54 lr 0.00010000
+Epoch 20, weight, value: tensor([[-0.0120,  0.0020,  0.0036,  ..., -0.0558, -0.0098, -0.0119],
+        [ 0.0182, -0.0141, -0.0560,  ..., -0.0036, -0.0247, -0.0460],
+        [ 0.0334, -0.0335, -0.0068,  ...,  0.0269, -0.0421,  0.0104],
+        ...,
+        [ 0.0128, -0.0303, -0.0244,  ..., -0.0164,  0.0035,  0.0518],
+        [ 0.0337, -0.0364, -0.0323,  ..., -0.0132, -0.0022,  0.0003],
+        [-0.0711, -0.0085,  0.0479,  ...,  0.0230, -0.0043, -0.0226]],
+       device='cuda:0'), grad: tensor([[ 1.6582e-04,  1.2290e-04,  3.6478e-04,  ...,  1.5450e-04,
+          6.2175e-06,  1.5795e-05],
+        [ 4.2200e-05,  5.7220e-05,  4.2887e-07,  ..., -9.8348e-06,
+          1.9316e-06,  7.0393e-05],
+        [ 1.1361e-04,  6.1631e-05,  8.8334e-05,  ...,  1.5274e-05,
+          1.3597e-06, -2.4959e-05],
+        ...,
+        [-2.3437e-04,  3.9840e-04,  7.2658e-05,  ..., -1.5199e-04,
+         -1.2386e-04,  7.3242e-04],
+        [-4.7982e-05,  1.0288e-04,  3.5614e-05,  ...,  2.7180e-04,
+          3.4384e-06,  3.1173e-05],
+        [ 1.1425e-03,  6.0272e-04,  7.1526e-04,  ...,  3.8624e-04,
+          7.1824e-05,  4.1032e-04]], device='cuda:0')
+Epoch 20, bias, value: tensor([-0.0220, -0.0188, -0.0292,  0.0035, -0.0011,  0.0301,  0.0141, -0.0237,
+         0.0153, -0.0025], device='cuda:0'), grad: tensor([ 2.2018e-04,  5.4359e-05,  1.6773e-04, -2.0891e-05,  1.2589e-04,
+        -5.0430e-03,  2.3975e-03,  1.9622e-04,  8.9705e-05,  1.8187e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 19, time 213.92, cls_loss 0.0404 cls_loss_mapping 0.0628 cls_loss_causal 0.8779 re_mapping 0.0286 re_causal 0.0809 /// teacc 98.41 lr 0.00010000
+Epoch 21, weight, value: tensor([[-0.0123,  0.0014,  0.0030,  ..., -0.0564, -0.0099, -0.0126],
+        [ 0.0183, -0.0143, -0.0562,  ..., -0.0041, -0.0248, -0.0463],
+        [ 0.0332, -0.0344, -0.0072,  ...,  0.0265, -0.0421,  0.0111],
+        ...,
+        [ 0.0126, -0.0301, -0.0253,  ..., -0.0170,  0.0035,  0.0523],
+        [ 0.0341, -0.0373, -0.0324,  ..., -0.0139, -0.0024, -0.0004],
+        [-0.0718, -0.0081,  0.0487,  ...,  0.0241, -0.0044, -0.0231]],
+       device='cuda:0'), grad: tensor([[ 5.2094e-05,  9.6977e-05,  8.6069e-05,  ...,  4.5806e-05,
+          4.2887e-07,  2.2605e-05],
+        [ 1.8752e-04,  7.2241e-05, -3.1328e-04,  ...,  2.0635e-04,
+          3.0268e-08,  4.6039e-04],
+        [-4.3178e-04,  4.0859e-05,  3.8207e-05,  ..., -5.8126e-04,
+          4.6566e-09, -5.1928e-04],
+        ...,
+        [-6.2943e-05, -2.1935e-04,  4.9353e-05,  ...,  1.3185e-04,
+          5.4948e-08, -1.8489e-04],
+        [-1.0931e-04,  2.8300e-04,  4.1127e-04,  ...,  3.5191e-04,
+          3.3453e-06,  5.1647e-05],
+        [ 2.0874e-04, -2.6250e-04, -8.0204e-04,  ..., -5.0020e-04,
+          1.2759e-07,  9.2864e-05]], device='cuda:0')
+Epoch 21, bias, value: tensor([-0.0225, -0.0188, -0.0292,  0.0033, -0.0010,  0.0305,  0.0141, -0.0240,
+         0.0152, -0.0024], device='cuda:0'), grad: tensor([ 1.0568e-04,  9.1982e-04, -1.5783e-03,  2.7919e-04,  5.5504e-04,
+        -7.9679e-04,  8.3590e-04, -2.5344e-04,  5.4687e-05, -1.1921e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 20, time 213.81, cls_loss 0.0358 cls_loss_mapping 0.0563 cls_loss_causal 0.9041 re_mapping 0.0274 re_causal 0.0809 /// teacc 98.24 lr 0.00010000
+Epoch 22, weight, value: tensor([[-0.0119,  0.0009,  0.0024,  ..., -0.0567, -0.0100, -0.0139],
+        [ 0.0185, -0.0149, -0.0565,  ..., -0.0050, -0.0248, -0.0467],
+        [ 0.0331, -0.0352, -0.0078,  ...,  0.0271, -0.0422,  0.0111],
+        ...,
+        [ 0.0125, -0.0303, -0.0263,  ..., -0.0181,  0.0036,  0.0526],
+        [ 0.0341, -0.0382, -0.0328,  ..., -0.0145, -0.0026, -0.0008],
+        [-0.0722, -0.0077,  0.0498,  ...,  0.0252, -0.0045, -0.0236]],
+       device='cuda:0'), grad: tensor([[-1.3094e-03, -1.0318e-04, -4.2558e-05,  ...,  5.1260e-05,
+          2.0955e-08,  3.7909e-05],
+        [-4.1068e-05,  7.4983e-05, -1.1724e-04,  ..., -2.7642e-05,
+         -7.0734e-07,  1.1754e-04],
+        [-9.3162e-05,  1.6236e-04,  2.3678e-05,  ...,  4.2886e-05,
+          6.2864e-08, -1.4520e-04],
+        ...,
+        [-5.0724e-05,  3.7849e-05,  1.9312e-04,  ...,  2.5797e-04,
+          1.8673e-07, -2.1565e-04],
+        [ 3.5465e-05,  4.9400e-04,  2.5225e-04,  ...,  2.7871e-04,
+          1.2526e-07,  1.8609e-04],
+        [ 1.0735e-04, -1.5764e-03, -1.8425e-03,  ..., -3.3054e-03,
+          1.0151e-07,  2.3961e-04]], device='cuda:0')
+Epoch 22, bias, value: tensor([-0.0227, -0.0187, -0.0294,  0.0035, -0.0008,  0.0304,  0.0144, -0.0244,
+         0.0151, -0.0019], device='cuda:0'), grad: tensor([-1.2884e-03, -1.4067e-04, -3.4511e-05, -7.1621e-04,  2.3746e-04,
+        -1.1658e-02,  1.4793e-02,  1.6356e-04,  6.3992e-04, -1.9932e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 21, time 214.16, cls_loss 0.0321 cls_loss_mapping 0.0554 cls_loss_causal 0.8826 re_mapping 0.0266 re_causal 0.0792 /// teacc 98.34 lr 0.00010000
+Epoch 23, weight, value: tensor([[-0.0115,  0.0005,  0.0020,  ..., -0.0574, -0.0101, -0.0147],
+        [ 0.0184, -0.0151, -0.0567,  ..., -0.0050, -0.0249, -0.0475],
+        [ 0.0332, -0.0360, -0.0080,  ...,  0.0270, -0.0424,  0.0118],
+        ...,
+        [ 0.0126, -0.0301, -0.0269,  ..., -0.0190,  0.0039,  0.0531],
+        [ 0.0346, -0.0388, -0.0332,  ..., -0.0151, -0.0029, -0.0007],
+        [-0.0732, -0.0075,  0.0504,  ...,  0.0261, -0.0048, -0.0243]],
+       device='cuda:0'), grad: tensor([[-3.4618e-03, -2.9892e-05,  4.9651e-05,  ..., -8.9264e-04,
+          0.0000e+00, -1.9073e-04],
+        [ 2.6083e-04,  2.1839e-04,  5.4777e-05,  ...,  1.4925e-04,
+          0.0000e+00,  5.5647e-04],
+        [-2.2829e-04,  3.0428e-05,  4.9949e-05,  ...,  2.8074e-05,
+          0.0000e+00, -8.5735e-04],
+        ...,
+        [ 1.6344e-04,  1.0633e-03,  1.1864e-03,  ...,  1.2245e-03,
+          0.0000e+00,  8.3923e-04],
+        [ 4.3631e-04,  1.2267e-04,  8.1778e-05,  ...,  1.9896e-04,
+          0.0000e+00,  2.7251e-04],
+        [ 3.5882e-04, -1.6041e-03, -1.7691e-03,  ..., -1.7052e-03,
+          0.0000e+00, -9.8896e-04]], device='cuda:0')
+Epoch 23, bias, value: tensor([-0.0225, -0.0186, -0.0291,  0.0033, -0.0008,  0.0305,  0.0138, -0.0243,
+         0.0152, -0.0021], device='cuda:0'), grad: tensor([-4.5166e-03,  6.9952e-04, -6.4945e-04,  1.1486e-04,  1.2999e-03,
+         2.1858e-03,  8.9586e-05,  2.4357e-03,  8.3494e-04, -2.4967e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 22, time 214.09, cls_loss 0.0318 cls_loss_mapping 0.0542 cls_loss_causal 0.8527 re_mapping 0.0259 re_causal 0.0762 /// teacc 98.50 lr 0.00010000
+Epoch 24, weight, value: tensor([[-0.0115,  0.0001,  0.0014,  ..., -0.0577, -0.0101, -0.0150],
+        [ 0.0184, -0.0157, -0.0567,  ..., -0.0049, -0.0253, -0.0487],
+        [ 0.0334, -0.0363, -0.0086,  ...,  0.0267, -0.0427,  0.0132],
+        ...,
+        [ 0.0129, -0.0299, -0.0278,  ..., -0.0198,  0.0042,  0.0536],
+        [ 0.0346, -0.0394, -0.0336,  ..., -0.0158, -0.0035, -0.0019],
+        [-0.0737, -0.0072,  0.0510,  ...,  0.0266, -0.0052, -0.0245]],
+       device='cuda:0'), grad: tensor([[-1.5106e-03,  8.3160e-04,  1.8740e-04,  ...,  4.2224e-04,
+          1.8040e-06,  3.2568e-04],
+        [ 7.1526e-05,  8.7857e-05, -1.3053e-05,  ...,  5.3078e-05,
+         -6.7893e-07,  1.2684e-04],
+        [-6.2585e-05,  2.0289e-04,  4.6343e-05,  ...,  8.9586e-05,
+          7.1805e-07, -6.4564e-04],
+        ...,
+        [ 9.0718e-05,  1.0109e-03,  1.1700e-04,  ...,  3.7789e-04,
+         -8.5309e-07,  2.0256e-03],
+        [ 2.3842e-04,  5.4836e-04,  7.7307e-05,  ...,  3.6931e-04,
+          1.2293e-05,  6.3801e-04],
+        [ 1.1539e-04,  5.5504e-04, -2.0504e-05,  ...,  2.1005e-04,
+          3.8594e-06,  4.7874e-04]], device='cuda:0')
+Epoch 24, bias, value: tensor([-0.0227, -0.0186, -0.0288,  0.0033, -0.0006,  0.0301,  0.0140, -0.0243,
+         0.0149, -0.0020], device='cuda:0'), grad: tensor([-0.0005,  0.0002, -0.0003, -0.0063,  0.0002,  0.0012,  0.0017,  0.0020,
+         0.0009,  0.0009], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 23----------------------------------------------------
+epoch 23, time 230.20, cls_loss 0.0314 cls_loss_mapping 0.0542 cls_loss_causal 0.8720 re_mapping 0.0250 re_causal 0.0765 /// teacc 98.57 lr 0.00010000
+Epoch 25, weight, value: tensor([[-0.0113, -0.0005,  0.0008,  ..., -0.0591, -0.0102, -0.0156],
+        [ 0.0182, -0.0167, -0.0567,  ..., -0.0058, -0.0243, -0.0495],
+        [ 0.0337, -0.0367, -0.0092,  ...,  0.0275, -0.0434,  0.0139],
+        ...,
+        [ 0.0127, -0.0297, -0.0286,  ..., -0.0206,  0.0052,  0.0538],
+        [ 0.0349, -0.0403, -0.0339,  ..., -0.0160, -0.0038, -0.0023],
+        [-0.0743, -0.0071,  0.0517,  ...,  0.0274, -0.0069, -0.0251]],
+       device='cuda:0'), grad: tensor([[-2.4819e-04, -5.8979e-05,  2.3529e-05,  ...,  3.3140e-05,
+          6.0201e-06,  6.5565e-05],
+        [ 3.7026e-04,  2.1410e-04, -1.2241e-05,  ..., -1.2659e-05,
+          1.2768e-06,  2.7680e-04],
+        [ 8.9121e-04,  1.6201e-04,  4.5598e-05,  ...,  2.2978e-05,
+          1.5274e-07,  2.3746e-03],
+        ...,
+        [-3.3798e-03, -1.7519e-03,  1.2183e-04,  ...,  1.1247e-04,
+          7.8827e-06, -3.4676e-03],
+        [ 9.8133e-04,  5.8413e-04,  2.5058e-04,  ...,  3.0398e-04,
+          4.4674e-05,  2.9349e-04],
+        [ 2.3437e-04, -2.9516e-04, -6.6042e-04,  ..., -4.8757e-04,
+          1.1446e-06,  2.3708e-05]], device='cuda:0')
+Epoch 25, bias, value: tensor([-0.0226, -0.0187, -0.0285,  0.0035, -0.0005,  0.0298,  0.0139, -0.0244,
+         0.0151, -0.0021], device='cuda:0'), grad: tensor([-2.3723e-04,  5.9700e-04,  2.2488e-03,  4.9973e-04,  1.8702e-03,
+        -2.0824e-06,  1.5497e-04, -6.7596e-03,  1.7366e-03, -1.1307e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 24, time 214.10, cls_loss 0.0270 cls_loss_mapping 0.0493 cls_loss_causal 0.8440 re_mapping 0.0243 re_causal 0.0721 /// teacc 98.37 lr 0.00010000
+Epoch 26, weight, value: tensor([[-0.0112, -0.0008,  0.0009,  ..., -0.0602, -0.0103, -0.0164],
+        [ 0.0176, -0.0177, -0.0567,  ..., -0.0064, -0.0240, -0.0511],
+        [ 0.0342, -0.0373, -0.0097,  ...,  0.0278, -0.0440,  0.0150],
+        ...,
+        [ 0.0126, -0.0298, -0.0295,  ..., -0.0216,  0.0054,  0.0542],
+        [ 0.0353, -0.0410, -0.0346,  ..., -0.0164, -0.0042, -0.0032],
+        [-0.0750, -0.0066,  0.0522,  ...,  0.0280, -0.0073, -0.0254]],
+       device='cuda:0'), grad: tensor([[ 5.7727e-05,  4.4322e-04,  1.3793e-04,  ...,  2.8038e-04,
+          0.0000e+00,  4.9829e-04],
+        [-3.8934e-04,  3.0565e-04,  1.1700e-04,  ..., -9.4032e-04,
+          0.0000e+00,  3.1376e-04],
+        [-1.3189e-03, -4.0483e-04,  1.0961e-04,  ..., -2.0516e-04,
+          0.0000e+00, -1.5345e-03],
+        ...,
+        [-4.1962e-03, -8.7814e-03, -4.1046e-03,  ..., -7.9203e-04,
+          0.0000e+00, -7.4959e-03],
+        [ 3.5048e-04,  6.2180e-04,  1.9109e-04,  ...,  4.4942e-04,
+          0.0000e+00,  6.2084e-04],
+        [ 4.1389e-03, -2.8825e-04, -1.6617e-02,  ..., -9.6588e-03,
+          0.0000e+00,  8.6823e-03]], device='cuda:0')
+Epoch 26, bias, value: tensor([-0.0227, -0.0191, -0.0283,  0.0033, -0.0005,  0.0301,  0.0140, -0.0247,
+         0.0152, -0.0020], device='cuda:0'), grad: tensor([ 0.0008, -0.0010, -0.0029, -0.0002,  0.0139, -0.0019,  0.0013, -0.0173,
+         0.0014,  0.0060], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 25----------------------------------------------------
+epoch 25, time 229.97, cls_loss 0.0239 cls_loss_mapping 0.0413 cls_loss_causal 0.8294 re_mapping 0.0230 re_causal 0.0687 /// teacc 98.62 lr 0.00010000
+Epoch 27, weight, value: tensor([[-0.0110, -0.0012,  0.0004,  ..., -0.0606, -0.0105, -0.0171],
+        [ 0.0176, -0.0185, -0.0569,  ..., -0.0065, -0.0220, -0.0518],
+        [ 0.0346, -0.0378, -0.0102,  ...,  0.0281, -0.0454,  0.0155],
+        ...,
+        [ 0.0129, -0.0296, -0.0300,  ..., -0.0216,  0.0058,  0.0544],
+        [ 0.0352, -0.0417, -0.0352,  ..., -0.0172, -0.0050, -0.0034],
+        [-0.0759, -0.0064,  0.0529,  ...,  0.0287, -0.0087, -0.0263]],
+       device='cuda:0'), grad: tensor([[ 6.8247e-05,  2.5392e-05,  5.2303e-05,  ...,  2.3142e-05,
+          2.7753e-07,  7.0594e-06],
+        [ 4.2617e-05,  2.9698e-05,  4.5091e-05,  ...,  2.0772e-05,
+          8.4937e-07,  3.3051e-05],
+        [ 1.1724e-04,  5.2840e-05,  7.7069e-05,  ...,  2.8402e-05,
+          8.2515e-07, -1.0617e-05],
+        ...,
+        [ 2.5421e-05,  5.9977e-06,  1.9026e-04,  ...,  9.7692e-05,
+         -8.5905e-06, -8.1182e-05],
+        [-1.4658e-03,  1.4842e-04, -2.6226e-04,  ..., -5.6887e-04,
+          6.0722e-07, -2.2188e-05],
+        [ 3.6645e-04, -6.2943e-04, -1.0672e-03,  ..., -4.0627e-04,
+          2.4028e-06,  4.4465e-05]], device='cuda:0')
+Epoch 27, bias, value: tensor([-0.0228, -0.0188, -0.0283,  0.0031, -0.0006,  0.0302,  0.0142, -0.0246,
+         0.0151, -0.0020], device='cuda:0'), grad: tensor([ 1.0806e-04,  7.7844e-05,  2.0182e-04,  1.3578e-04,  6.2561e-04,
+         8.8501e-04, -7.5936e-05,  1.3232e-04, -1.6441e-03, -4.4703e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 26, time 214.14, cls_loss 0.0234 cls_loss_mapping 0.0431 cls_loss_causal 0.8243 re_mapping 0.0232 re_causal 0.0705 /// teacc 98.39 lr 0.00010000
+Epoch 28, weight, value: tensor([[-1.1142e-02, -1.3557e-03,  9.4968e-05,  ..., -6.1634e-02,
+         -1.0396e-02, -1.7993e-02],
+        [ 1.7261e-02, -1.9552e-02, -5.7030e-02,  ..., -6.8516e-03,
+         -2.2105e-02, -5.3031e-02],
+        [ 3.4955e-02, -3.8593e-02, -1.0770e-02,  ...,  2.8062e-02,
+         -4.5719e-02,  1.6113e-02],
+        ...,
+        [ 1.3258e-02, -2.9211e-02, -3.0561e-02,  ..., -2.2106e-02,
+          6.9902e-03,  5.5054e-02],
+        [ 3.5638e-02, -4.2237e-02, -3.5133e-02,  ..., -1.7420e-02,
+         -5.2915e-03, -3.8666e-03],
+        [-7.7052e-02, -6.0905e-03,  5.3500e-02,  ...,  2.9434e-02,
+         -1.0803e-02, -2.6800e-02]], device='cuda:0'), grad: tensor([[-7.5674e-04,  5.0992e-05,  1.0872e-04,  ...,  1.1042e-05,
+          6.9384e-07,  4.1395e-05],
+        [ 5.3197e-05,  4.2737e-05, -6.0707e-05,  ..., -6.7830e-05,
+          1.8068e-06,  1.3661e-04],
+        [ 5.7411e-04,  1.4234e-04,  1.3220e-04,  ...,  5.3227e-05,
+          1.9651e-07,  1.3208e-03],
+        ...,
+        [ 3.7432e-05, -4.6134e-05,  2.2650e-04,  ...,  1.1957e-04,
+         -6.5118e-06, -1.9121e-04],
+        [ 3.3140e-04,  1.0359e-04,  1.3840e-04,  ...,  6.3658e-05,
+          4.4964e-06,  4.8089e-04],
+        [ 7.0632e-05, -1.0818e-04, -4.1318e-04,  ..., -2.9469e-04,
+          3.3993e-06,  1.3161e-04]], device='cuda:0')
+Epoch 28, bias, value: tensor([-0.0230, -0.0193, -0.0279,  0.0031, -0.0008,  0.0302,  0.0143, -0.0244,
+         0.0150, -0.0020], device='cuda:0'), grad: tensor([-5.7697e-04,  4.0680e-05,  1.5526e-03, -1.7042e-03,  6.1464e-04,
+         1.9205e-04, -6.4564e-04, -1.0645e-04,  6.5756e-04, -2.3812e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 27----------------------------------------------------
+epoch 27, time 230.04, cls_loss 0.0261 cls_loss_mapping 0.0451 cls_loss_causal 0.8714 re_mapping 0.0229 re_causal 0.0678 /// teacc 98.69 lr 0.00010000
+Epoch 29, weight, value: tensor([[-0.0110, -0.0020, -0.0006,  ..., -0.0625, -0.0103, -0.0196],
+        [ 0.0172, -0.0201, -0.0572,  ..., -0.0064, -0.0222, -0.0542],
+        [ 0.0350, -0.0397, -0.0115,  ...,  0.0278, -0.0458,  0.0165],
+        ...,
+        [ 0.0133, -0.0293, -0.0313,  ..., -0.0237,  0.0070,  0.0556],
+        [ 0.0357, -0.0427, -0.0350,  ..., -0.0178, -0.0055, -0.0043],
+        [-0.0779, -0.0056,  0.0540,  ...,  0.0304, -0.0109, -0.0269]],
+       device='cuda:0'), grad: tensor([[ 2.8825e-04,  2.5243e-05,  8.1360e-05,  ...,  4.1097e-05,
+          1.5274e-07,  5.5313e-04],
+        [ 1.2732e-04,  7.6652e-05, -8.3819e-06,  ..., -5.3197e-05,
+          2.7008e-08,  1.4257e-04],
+        [-7.1669e-04,  6.0201e-05,  6.5148e-05,  ...,  2.4214e-05,
+          1.1176e-08, -9.9087e-04],
+        ...,
+        [ 2.6298e-04,  9.2924e-05,  3.5191e-04,  ...,  1.7571e-04,
+          1.6019e-07, -4.2510e-04],
+        [ 6.9976e-05,  5.2989e-05,  5.7220e-05,  ...,  4.9680e-05,
+          7.7579e-07,  1.9479e-04],
+        [ 2.2745e-04,  1.6141e-04,  1.1629e-04,  ...,  7.3552e-05,
+          8.4750e-08,  5.4032e-05]], device='cuda:0')
+Epoch 29, bias, value: tensor([-0.0233, -0.0196, -0.0281,  0.0034, -0.0006,  0.0301,  0.0143, -0.0244,
+         0.0153, -0.0020], device='cuda:0'), grad: tensor([ 8.8215e-04,  6.9678e-05, -1.6632e-03,  3.1734e-04, -9.1982e-04,
+        -1.8507e-05,  5.1022e-04,  1.2732e-04,  3.5071e-04,  3.4475e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 28, time 213.92, cls_loss 0.0217 cls_loss_mapping 0.0385 cls_loss_causal 0.7690 re_mapping 0.0222 re_causal 0.0630 /// teacc 98.44 lr 0.00010000
+Epoch 30, weight, value: tensor([[-0.0103, -0.0024, -0.0003,  ..., -0.0626, -0.0104, -0.0199],
+        [ 0.0177, -0.0206, -0.0565,  ..., -0.0058, -0.0214, -0.0546],
+        [ 0.0348, -0.0406, -0.0120,  ...,  0.0273, -0.0477,  0.0169],
+        ...,
+        [ 0.0132, -0.0292, -0.0320,  ..., -0.0244,  0.0070,  0.0560],
+        [ 0.0359, -0.0433, -0.0359,  ..., -0.0184, -0.0059, -0.0045],
+        [-0.0788, -0.0054,  0.0542,  ...,  0.0308, -0.0111, -0.0273]],
+       device='cuda:0'), grad: tensor([[ 4.4554e-05,  1.7181e-05,  5.4240e-05,  ...,  1.1928e-05,
+          5.5786e-07,  4.3243e-05],
+        [ 4.5389e-05,  2.0161e-05, -3.7879e-05,  ..., -9.0778e-05,
+         -2.2873e-06,  9.7156e-05],
+        [ 4.7833e-06,  2.6762e-05,  4.3154e-05,  ...,  1.6615e-05,
+          6.5379e-07, -3.8862e-04],
+        ...,
+        [ 3.7879e-05, -7.2047e-06,  9.0301e-05,  ...,  7.1526e-05,
+         -7.0706e-06, -5.4896e-05],
+        [-6.2799e-04, -1.0461e-04, -5.1498e-04,  ..., -2.4188e-04,
+          4.4629e-06, -1.0061e-04],
+        [ 3.6430e-04, -8.3506e-05,  2.1681e-05,  ..., -5.8919e-05,
+          3.1237e-06,  2.0516e-04]], device='cuda:0')
+Epoch 30, bias, value: tensor([-0.0229, -0.0189, -0.0283,  0.0033, -0.0005,  0.0301,  0.0144, -0.0246,
+         0.0151, -0.0022], device='cuda:0'), grad: tensor([ 8.9407e-05,  5.1111e-05, -2.3866e-04,  2.1601e-04,  2.0611e-04,
+         2.9588e-04, -8.5592e-05,  9.9897e-05, -1.2150e-03,  5.8174e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 29----------------------------------------------------
+epoch 29, time 230.24, cls_loss 0.0240 cls_loss_mapping 0.0394 cls_loss_causal 0.8085 re_mapping 0.0212 re_causal 0.0631 /// teacc 98.70 lr 0.00010000
+Epoch 31, weight, value: tensor([[-0.0101, -0.0027, -0.0009,  ..., -0.0633, -0.0105, -0.0207],
+        [ 0.0176, -0.0211, -0.0567,  ..., -0.0058, -0.0184, -0.0553],
+        [ 0.0352, -0.0413, -0.0126,  ...,  0.0272, -0.0488,  0.0173],
+        ...,
+        [ 0.0131, -0.0290, -0.0327,  ..., -0.0252,  0.0080,  0.0565],
+        [ 0.0363, -0.0443, -0.0362,  ..., -0.0190, -0.0063, -0.0052],
+        [-0.0798, -0.0050,  0.0553,  ...,  0.0318, -0.0125, -0.0279]],
+       device='cuda:0'), grad: tensor([[-2.5702e-04,  1.5900e-05, -1.4579e-04,  ...,  2.5496e-05,
+          5.1595e-07,  2.0087e-04],
+        [ 2.3568e-04,  1.4508e-04,  7.5996e-05,  ...,  6.9916e-05,
+         -8.2031e-06,  3.4881e-04],
+        [-4.6349e-03, -2.5635e-03,  2.4629e-04,  ..., -4.5180e-04,
+          8.1211e-07, -8.6517e-03],
+        ...,
+        [ 2.0390e-03,  1.0071e-03,  4.6349e-04,  ...,  5.6505e-04,
+          3.5856e-06,  3.3932e-03],
+        [ 2.2144e-03,  1.4429e-03,  1.1997e-03,  ...,  8.5068e-04,
+          5.0701e-06,  2.6245e-03],
+        [ 5.2452e-04,  2.9922e-04, -5.5027e-04,  ..., -3.3975e-04,
+          2.1271e-06,  8.9979e-04]], device='cuda:0')
+Epoch 31, bias, value: tensor([-0.0231, -0.0189, -0.0284,  0.0035, -0.0011,  0.0300,  0.0146, -0.0242,
+         0.0151, -0.0021], device='cuda:0'), grad: tensor([-0.0004,  0.0006, -0.0109,  0.0013, -0.0013,  0.0003, -0.0006,  0.0049,
+         0.0051,  0.0010], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 30, time 214.02, cls_loss 0.0189 cls_loss_mapping 0.0342 cls_loss_causal 0.7963 re_mapping 0.0204 re_causal 0.0629 /// teacc 98.54 lr 0.00010000
+Epoch 32, weight, value: tensor([[-0.0098, -0.0024, -0.0004,  ..., -0.0638, -0.0106, -0.0213],
+        [ 0.0175, -0.0214, -0.0569,  ..., -0.0057, -0.0182, -0.0554],
+        [ 0.0354, -0.0424, -0.0131,  ...,  0.0269, -0.0493,  0.0173],
+        ...,
+        [ 0.0129, -0.0287, -0.0333,  ..., -0.0261,  0.0095,  0.0573],
+        [ 0.0364, -0.0453, -0.0366,  ..., -0.0199, -0.0065, -0.0058],
+        [-0.0805, -0.0049,  0.0557,  ...,  0.0322, -0.0145, -0.0284]],
+       device='cuda:0'), grad: tensor([[-1.6153e-04,  2.3395e-05, -7.0453e-05,  ...,  3.9756e-05,
+          7.7020e-07,  3.4362e-05],
+        [ 2.0131e-05,  4.0352e-05, -1.7536e-04,  ..., -1.3435e-04,
+          5.8115e-07,  3.9816e-05],
+        [-5.0217e-05,  1.5289e-05,  7.1824e-05,  ...,  5.2124e-05,
+          4.4610e-07, -1.2863e-04],
+        ...,
+        [ 1.2182e-05,  7.0000e-04,  1.0796e-03,  ...,  7.8154e-04,
+         -9.4026e-06,  8.4400e-05],
+        [-4.2558e-04,  3.3349e-05, -3.5644e-04,  ..., -3.8385e-04,
+          4.1910e-07,  5.0873e-05],
+        [ 4.5776e-04, -6.4850e-04, -8.1873e-04,  ..., -3.3069e-04,
+          2.9076e-06, -3.6359e-05]], device='cuda:0')
+Epoch 32, bias, value: tensor([-0.0228, -0.0187, -0.0287,  0.0034, -0.0008,  0.0302,  0.0143, -0.0241,
+         0.0149, -0.0023], device='cuda:0'), grad: tensor([-1.9884e-04, -2.1458e-04,  3.2216e-05, -3.4857e-04,  2.1935e-04,
+         1.3006e-04,  1.6534e-04,  1.0920e-03, -1.0090e-03,  1.3089e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 31, time 213.93, cls_loss 0.0201 cls_loss_mapping 0.0357 cls_loss_causal 0.7376 re_mapping 0.0205 re_causal 0.0592 /// teacc 98.54 lr 0.00010000
+Epoch 33, weight, value: tensor([[-0.0096, -0.0031, -0.0008,  ..., -0.0645, -0.0113, -0.0219],
+        [ 0.0174, -0.0209, -0.0565,  ..., -0.0052, -0.0150, -0.0564],
+        [ 0.0352, -0.0433, -0.0135,  ...,  0.0261, -0.0496,  0.0174],
+        ...,
+        [ 0.0128, -0.0287, -0.0342,  ..., -0.0265,  0.0092,  0.0579],
+        [ 0.0368, -0.0456, -0.0365,  ..., -0.0203, -0.0068, -0.0062],
+        [-0.0814, -0.0047,  0.0564,  ...,  0.0329, -0.0151, -0.0291]],
+       device='cuda:0'), grad: tensor([[ 2.0191e-05,  7.8976e-05,  1.2517e-05,  ...,  9.8109e-05,
+          5.3085e-08,  7.4685e-05],
+        [ 2.4304e-05,  7.7426e-05, -3.2723e-05,  ..., -2.5123e-05,
+         -1.9390e-06,  9.3460e-05],
+        [-5.4264e-04,  9.4056e-05, -2.8324e-04,  ...,  6.1631e-05,
+          1.5274e-07,  2.4632e-05],
+        ...,
+        [-8.9312e-04, -1.3971e-03,  2.3931e-05,  ..., -2.5330e-03,
+          7.4692e-07, -1.2165e-04],
+        [ 2.8753e-04,  1.9646e-04,  3.0971e-04,  ...,  1.7917e-04,
+          2.7381e-07,  2.6393e-04],
+        [ 5.2929e-04,  6.8760e-04, -5.0336e-05,  ...,  1.1549e-03,
+          2.9244e-07,  2.2602e-04]], device='cuda:0')
+Epoch 33, bias, value: tensor([-0.0229, -0.0184, -0.0292,  0.0036, -0.0006,  0.0299,  0.0146, -0.0240,
+         0.0151, -0.0025], device='cuda:0'), grad: tensor([ 1.5366e-04,  1.9148e-05, -6.3896e-04, -8.4591e-04,  4.7660e-04,
+         1.6584e-03,  7.7724e-05, -4.3716e-03,  9.9277e-04,  2.4815e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 32, time 213.73, cls_loss 0.0162 cls_loss_mapping 0.0351 cls_loss_causal 0.7262 re_mapping 0.0207 re_causal 0.0591 /// teacc 98.56 lr 0.00010000
+Epoch 34, weight, value: tensor([[-0.0094, -0.0036, -0.0014,  ..., -0.0652, -0.0113, -0.0225],
+        [ 0.0165, -0.0214, -0.0564,  ..., -0.0051, -0.0149, -0.0577],
+        [ 0.0354, -0.0442, -0.0140,  ...,  0.0258, -0.0497,  0.0178],
+        ...,
+        [ 0.0128, -0.0280, -0.0348,  ..., -0.0268,  0.0092,  0.0586],
+        [ 0.0374, -0.0462, -0.0367,  ..., -0.0207, -0.0069, -0.0065],
+        [-0.0818, -0.0046,  0.0569,  ...,  0.0336, -0.0151, -0.0296]],
+       device='cuda:0'), grad: tensor([[-4.0665e-03, -1.3344e-02, -1.4183e-02,  ...,  1.3933e-05,
+          0.0000e+00,  4.5151e-05],
+        [ 8.7142e-05,  2.8062e-04,  4.0889e-04,  ...,  2.9397e-04,
+          0.0000e+00,  5.1171e-05],
+        [ 7.4530e-04,  1.6432e-03,  1.8578e-03,  ...,  6.8069e-05,
+          0.0000e+00, -6.2418e-04],
+        ...,
+        [ 8.6606e-05, -2.3580e-04,  2.1785e-05,  ..., -1.5628e-04,
+          0.0000e+00,  5.2869e-05],
+        [ 1.2541e-04,  2.8253e-04,  3.2663e-04,  ...,  8.6963e-05,
+          0.0000e+00,  1.1897e-04],
+        [ 1.3030e-04,  4.4179e-04,  3.1859e-05,  ..., -3.7861e-04,
+          0.0000e+00,  2.1362e-04]], device='cuda:0')
+Epoch 34, bias, value: tensor([-0.0229, -0.0192, -0.0293,  0.0035, -0.0004,  0.0300,  0.0145, -0.0236,
+         0.0154, -0.0026], device='cuda:0'), grad: tensor([-2.2766e-02,  5.3024e-04,  2.6207e-03,  5.7745e-04,  1.4488e-02,
+         7.4673e-04,  2.4929e-03, -8.0466e-05,  6.0034e-04,  7.9298e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 33, time 213.93, cls_loss 0.0193 cls_loss_mapping 0.0346 cls_loss_causal 0.7724 re_mapping 0.0191 re_causal 0.0585 /// teacc 98.47 lr 0.00010000
+Epoch 35, weight, value: tensor([[-0.0094, -0.0036, -0.0012,  ..., -0.0659, -0.0115, -0.0235],
+        [ 0.0165, -0.0220, -0.0564,  ..., -0.0045, -0.0147, -0.0586],
+        [ 0.0358, -0.0447, -0.0146,  ...,  0.0251, -0.0500,  0.0187],
+        ...,
+        [ 0.0128, -0.0282, -0.0353,  ..., -0.0274,  0.0095,  0.0585],
+        [ 0.0376, -0.0467, -0.0372,  ..., -0.0210, -0.0071, -0.0063],
+        [-0.0821, -0.0042,  0.0575,  ...,  0.0338, -0.0155, -0.0300]],
+       device='cuda:0'), grad: tensor([[-3.3188e-04,  3.6657e-05,  3.5018e-05,  ...,  2.5541e-05,
+          1.2293e-07,  3.9607e-05],
+        [ 7.7963e-05,  2.0936e-05,  2.4498e-05,  ..., -5.8055e-05,
+         -4.2804e-06,  3.1054e-05],
+        [ 1.0437e-04,  1.0437e-04,  1.0383e-04,  ...,  6.2466e-05,
+          9.0618e-07, -6.1452e-05],
+        ...,
+        [ 1.1188e-04,  3.8815e-04,  5.8889e-04,  ...,  5.2309e-04,
+          1.1623e-06,  2.9278e-04],
+        [-5.9652e-04,  7.7307e-05,  9.6500e-05,  ...,  8.3327e-05,
+          1.0179e-06, -4.5061e-04],
+        [ 3.5584e-05, -6.8855e-04, -1.5043e-05,  ..., -4.8208e-04,
+          2.0023e-07, -3.0208e-04]], device='cuda:0')
+Epoch 35, bias, value: tensor([-0.0228, -0.0192, -0.0290,  0.0031, -0.0002,  0.0301,  0.0142, -0.0238,
+         0.0155, -0.0026], device='cuda:0'), grad: tensor([-0.0004, -0.0005,  0.0004,  0.0001, -0.0009,  0.0021,  0.0002,  0.0013,
+        -0.0021, -0.0003], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 34, time 214.01, cls_loss 0.0180 cls_loss_mapping 0.0329 cls_loss_causal 0.7456 re_mapping 0.0191 re_causal 0.0553 /// teacc 98.24 lr 0.00010000
+Epoch 36, weight, value: tensor([[-0.0091, -0.0040, -0.0020,  ..., -0.0669, -0.0119, -0.0243],
+        [ 0.0167, -0.0225, -0.0568,  ..., -0.0044, -0.0142, -0.0586],
+        [ 0.0358, -0.0456, -0.0151,  ...,  0.0249, -0.0502,  0.0188],
+        ...,
+        [ 0.0127, -0.0285, -0.0361,  ..., -0.0282,  0.0097,  0.0589],
+        [ 0.0375, -0.0473, -0.0375,  ..., -0.0215, -0.0074, -0.0070],
+        [-0.0823, -0.0036,  0.0582,  ...,  0.0349, -0.0160, -0.0304]],
+       device='cuda:0'), grad: tensor([[-2.9812e-03, -8.4639e-04, -2.4885e-05,  ..., -7.7820e-04,
+          3.2596e-08,  2.0787e-05],
+        [ 9.4986e-04,  5.8383e-05,  8.6308e-05,  ...,  2.7966e-04,
+          6.1467e-08,  4.8250e-05],
+        [ 3.1805e-04,  8.4281e-05,  1.3435e-04,  ...,  1.4198e-04,
+          2.7940e-08, -1.1396e-04],
+        ...,
+        [ 9.2030e-05, -9.4235e-05,  1.3933e-05,  ...,  3.7611e-05,
+         -1.0710e-06, -2.3007e-04],
+        [-3.7837e-04, -1.3125e-04, -6.2847e-04,  ..., -3.6621e-04,
+          4.4703e-08, -1.6344e-04],
+        [ 1.1272e-03,  7.7367e-05,  1.2088e-04,  ...,  9.1791e-05,
+          6.6590e-07,  9.5725e-05]], device='cuda:0')
+Epoch 36, bias, value: tensor([-2.3136e-02, -1.9189e-02, -2.9389e-02,  3.4711e-03, -4.6271e-05,
+         2.9720e-02,  1.4597e-02, -2.3982e-02,  1.5105e-02, -1.8812e-03],
+       device='cuda:0'), grad: tensor([-7.8430e-03,  1.7233e-03,  7.1955e-04,  1.3294e-03,  5.7554e-04,
+         1.9150e-03, -4.5967e-04,  7.9870e-05, -1.0090e-03,  2.9659e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 35, time 214.11, cls_loss 0.0126 cls_loss_mapping 0.0262 cls_loss_causal 0.7348 re_mapping 0.0188 re_causal 0.0590 /// teacc 98.50 lr 0.00010000
+Epoch 37, weight, value: tensor([[-0.0086, -0.0041, -0.0022,  ..., -0.0672, -0.0120, -0.0251],
+        [ 0.0165, -0.0230, -0.0568,  ..., -0.0041, -0.0142, -0.0584],
+        [ 0.0357, -0.0457, -0.0150,  ...,  0.0254, -0.0503,  0.0192],
+        ...,
+        [ 0.0128, -0.0284, -0.0368,  ..., -0.0294,  0.0096,  0.0594],
+        [ 0.0380, -0.0477, -0.0374,  ..., -0.0217, -0.0078, -0.0075],
+        [-0.0833, -0.0037,  0.0586,  ...,  0.0353, -0.0162, -0.0313]],
+       device='cuda:0'), grad: tensor([[ 2.9415e-05,  3.1948e-05,  4.8757e-05,  ...,  1.6600e-05,
+          0.0000e+00,  1.7628e-05],
+        [ 1.3702e-05,  4.6492e-05, -4.3362e-06,  ..., -2.4348e-05,
+          0.0000e+00,  6.6400e-05],
+        [-2.8491e-05,  2.2978e-05,  2.5213e-05,  ...,  1.5393e-05,
+          0.0000e+00, -2.3186e-04],
+        ...,
+        [ 8.7321e-05,  8.7857e-05,  1.5521e-04,  ...,  1.2827e-04,
+          0.0000e+00,  1.4925e-04],
+        [-2.4319e-04,  5.4121e-05,  1.1790e-04,  ...,  1.3661e-04,
+          0.0000e+00, -1.2970e-04],
+        [ 4.2766e-05,  2.7537e-05, -1.2577e-04,  ..., -1.4055e-04,
+          0.0000e+00, -6.0201e-06]], device='cuda:0')
+Epoch 37, bias, value: tensor([-0.0226, -0.0189, -0.0292,  0.0034, -0.0004,  0.0299,  0.0146, -0.0241,
+         0.0152, -0.0024], device='cuda:0'), grad: tensor([ 1.0306e-04,  8.8692e-05, -7.5638e-05,  3.9506e-04, -1.2982e-04,
+        -5.7489e-05, -2.1970e-04,  4.0650e-04, -5.1785e-04,  6.6422e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 36, time 214.05, cls_loss 0.0198 cls_loss_mapping 0.0337 cls_loss_causal 0.7589 re_mapping 0.0182 re_causal 0.0539 /// teacc 98.70 lr 0.00010000
+Epoch 38, weight, value: tensor([[-0.0087, -0.0042, -0.0021,  ..., -0.0677, -0.0121, -0.0261],
+        [ 0.0160, -0.0232, -0.0570,  ..., -0.0042, -0.0138, -0.0588],
+        [ 0.0359, -0.0460, -0.0154,  ...,  0.0254, -0.0508,  0.0195],
+        ...,
+        [ 0.0127, -0.0286, -0.0376,  ..., -0.0305,  0.0098,  0.0601],
+        [ 0.0386, -0.0481, -0.0377,  ..., -0.0226, -0.0083, -0.0078],
+        [-0.0843, -0.0036,  0.0590,  ...,  0.0358, -0.0168, -0.0319]],
+       device='cuda:0'), grad: tensor([[ 1.8060e-04,  9.3877e-05,  3.1948e-05,  ...,  2.7061e-04,
+          5.6028e-06,  1.3900e-04],
+        [ 8.7082e-05,  1.0127e-04,  7.6532e-05,  ...,  8.1360e-05,
+          3.3062e-07,  2.0194e-04],
+        [-1.4687e-04,  7.4053e-04,  4.5925e-05,  ...,  5.6386e-05,
+          4.9546e-07,  1.1988e-03],
+        ...,
+        [-1.2386e-04, -5.8794e-04,  9.4771e-05,  ...,  2.4945e-05,
+          1.8338e-06, -6.0225e-04],
+        [ 7.8201e-04,  1.9300e-04,  2.8515e-04,  ...,  6.1321e-04,
+          1.8239e-05,  4.7708e-04],
+        [ 2.9898e-04,  1.2106e-04,  1.6534e-04,  ...,  5.4693e-04,
+          1.3404e-05,  1.7667e-04]], device='cuda:0')
+Epoch 38, bias, value: tensor([-2.2031e-02, -1.9155e-02, -2.8648e-02,  3.0503e-03,  2.1248e-06,
+         2.9922e-02,  1.4117e-02, -2.4113e-02,  1.5294e-02, -2.7980e-03],
+       device='cuda:0'), grad: tensor([ 0.0006,  0.0005,  0.0022, -0.0032, -0.0007, -0.0022,  0.0001, -0.0007,
+         0.0022,  0.0012], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 37----------------------------------------------------
+epoch 37, time 231.54, cls_loss 0.0162 cls_loss_mapping 0.0308 cls_loss_causal 0.7490 re_mapping 0.0184 re_causal 0.0547 /// teacc 98.71 lr 0.00010000
+Epoch 39, weight, value: tensor([[-0.0086, -0.0046, -0.0026,  ..., -0.0691, -0.0123, -0.0270],
+        [ 0.0156, -0.0234, -0.0571,  ..., -0.0045, -0.0136, -0.0593],
+        [ 0.0360, -0.0468, -0.0160,  ...,  0.0251, -0.0512,  0.0200],
+        ...,
+        [ 0.0130, -0.0281, -0.0381,  ..., -0.0307,  0.0106,  0.0607],
+        [ 0.0387, -0.0488, -0.0383,  ..., -0.0231, -0.0090, -0.0083],
+        [-0.0851, -0.0033,  0.0598,  ...,  0.0366, -0.0178, -0.0324]],
+       device='cuda:0'), grad: tensor([[ 9.4831e-05,  1.0818e-04,  5.4359e-05,  ...,  1.6034e-04,
+          4.9360e-08,  2.9296e-05],
+        [-6.6519e-05, -5.9843e-04,  8.8871e-05,  ..., -3.4142e-04,
+         -2.4792e-06, -1.1692e-03],
+        [ 1.0252e-04,  6.5994e-04,  6.9499e-05,  ...,  3.8671e-04,
+          2.1793e-07,  8.8549e-04],
+        ...,
+        [ 4.2915e-05,  1.3895e-03,  1.5926e-03,  ...,  9.4175e-04,
+          7.4320e-07,  7.5865e-04],
+        [-3.1710e-05,  1.4067e-04,  9.1612e-05,  ...,  1.5306e-04,
+          2.6263e-07,  6.8069e-05],
+        [ 6.6578e-05, -8.8751e-05, -2.0707e-04,  ...,  1.1578e-03,
+          1.3877e-07, -6.5374e-04]], device='cuda:0')
+Epoch 39, bias, value: tensor([-0.0223, -0.0193, -0.0287,  0.0030, -0.0001,  0.0301,  0.0142, -0.0237,
+         0.0151, -0.0028], device='cuda:0'), grad: tensor([ 4.5300e-04, -3.1300e-03,  2.6703e-03,  2.6855e-03, -1.1663e-03,
+        -4.4708e-03, -6.0573e-06,  3.0441e-03,  1.2290e-04, -2.0337e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 38, time 214.16, cls_loss 0.0159 cls_loss_mapping 0.0280 cls_loss_causal 0.7469 re_mapping 0.0171 re_causal 0.0541 /// teacc 98.65 lr 0.00010000
+Epoch 40, weight, value: tensor([[-0.0085, -0.0048, -0.0027,  ..., -0.0703, -0.0119, -0.0284],
+        [ 0.0154, -0.0242, -0.0571,  ..., -0.0044, -0.0137, -0.0605],
+        [ 0.0361, -0.0467, -0.0163,  ...,  0.0254, -0.0515,  0.0209],
+        ...,
+        [ 0.0129, -0.0283, -0.0390,  ..., -0.0320,  0.0106,  0.0610],
+        [ 0.0386, -0.0494, -0.0388,  ..., -0.0238, -0.0093, -0.0092],
+        [-0.0851, -0.0032,  0.0605,  ...,  0.0372, -0.0175, -0.0327]],
+       device='cuda:0'), grad: tensor([[-1.4476e-05,  2.7135e-05,  1.3225e-06,  ..., -2.3007e-05,
+          1.2573e-07,  5.2929e-05],
+        [ 1.7965e-04,  6.4611e-05,  4.1932e-05,  ...,  1.2118e-04,
+         -4.9472e-06,  3.7813e-04],
+        [-9.5606e-04, -4.0960e-04,  1.0926e-04,  ..., -6.5148e-05,
+          5.5414e-07, -2.4834e-03],
+        ...,
+        [ 6.5804e-04,  3.1161e-04,  5.9605e-05,  ...,  1.2681e-05,
+          2.0601e-06,  1.7309e-03],
+        [-1.0389e-04,  3.6567e-05, -1.0383e-04,  ..., -4.6641e-05,
+          3.9302e-07,  6.1929e-05],
+        [ 6.6578e-05,  4.5180e-05, -1.6883e-05,  ..., -3.4243e-05,
+          4.2841e-07,  9.5606e-05]], device='cuda:0')
+Epoch 40, bias, value: tensor([-0.0225, -0.0193, -0.0283,  0.0031, -0.0002,  0.0306,  0.0144, -0.0241,
+         0.0146, -0.0026], device='cuda:0'), grad: tensor([ 6.1810e-05,  6.3934e-03, -1.0025e-02,  1.0943e-04, -8.7690e-04,
+         6.4492e-05,  1.0653e-03,  2.9449e-03,  2.9936e-05,  2.3139e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 39, time 213.85, cls_loss 0.0136 cls_loss_mapping 0.0258 cls_loss_causal 0.7419 re_mapping 0.0171 re_causal 0.0535 /// teacc 98.66 lr 0.00010000
+Epoch 41, weight, value: tensor([[-0.0079, -0.0050, -0.0034,  ..., -0.0707, -0.0119, -0.0287],
+        [ 0.0153, -0.0252, -0.0578,  ..., -0.0047, -0.0136, -0.0610],
+        [ 0.0361, -0.0478, -0.0169,  ...,  0.0253, -0.0517,  0.0211],
+        ...,
+        [ 0.0128, -0.0278, -0.0392,  ..., -0.0322,  0.0106,  0.0613],
+        [ 0.0391, -0.0498, -0.0388,  ..., -0.0239, -0.0095, -0.0094],
+        [-0.0856, -0.0032,  0.0612,  ...,  0.0377, -0.0175, -0.0334]],
+       device='cuda:0'), grad: tensor([[ 9.5010e-05,  3.4064e-05,  2.5660e-05,  ...,  2.7239e-05,
+          0.0000e+00,  1.1988e-05],
+        [-5.0163e-04,  1.5162e-05,  6.8247e-05,  ...,  8.8990e-05,
+          0.0000e+00,  8.0392e-06],
+        [ 7.4506e-05,  3.0503e-05,  1.3866e-05,  ...,  1.2882e-05,
+          0.0000e+00,  6.9253e-06],
+        ...,
+        [-9.7752e-06,  4.8757e-05,  9.8288e-05,  ...,  1.1498e-04,
+          0.0000e+00, -1.1653e-05],
+        [ 2.1815e-04,  9.5904e-05,  7.9393e-05,  ...,  9.0599e-05,
+          0.0000e+00, -3.0249e-05],
+        [ 1.3009e-05, -1.0328e-03, -1.2617e-03,  ..., -1.7185e-03,
+          0.0000e+00,  8.3521e-06]], device='cuda:0')
+Epoch 41, bias, value: tensor([-0.0223, -0.0195, -0.0284,  0.0031, -0.0001,  0.0304,  0.0143, -0.0239,
+         0.0149, -0.0028], device='cuda:0'), grad: tensor([ 2.8729e-04, -1.6346e-03,  2.4891e-04,  2.0492e-04,  1.0166e-03,
+         2.6584e-04,  6.4194e-05,  1.3328e-04,  1.0672e-03, -1.6537e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 40, time 214.29, cls_loss 0.0153 cls_loss_mapping 0.0290 cls_loss_causal 0.6821 re_mapping 0.0179 re_causal 0.0501 /// teacc 98.64 lr 0.00010000
+Epoch 42, weight, value: tensor([[-0.0077, -0.0048, -0.0037,  ..., -0.0714, -0.0119, -0.0292],
+        [ 0.0153, -0.0259, -0.0577,  ..., -0.0042, -0.0135, -0.0613],
+        [ 0.0362, -0.0488, -0.0173,  ...,  0.0254, -0.0519,  0.0211],
+        ...,
+        [ 0.0129, -0.0273, -0.0397,  ..., -0.0327,  0.0107,  0.0619],
+        [ 0.0398, -0.0505, -0.0393,  ..., -0.0245, -0.0096, -0.0097],
+        [-0.0858, -0.0032,  0.0616,  ...,  0.0380, -0.0176, -0.0339]],
+       device='cuda:0'), grad: tensor([[-3.2455e-05,  2.2337e-05,  1.9804e-05,  ...,  1.6049e-05,
+          0.0000e+00,  7.2606e-06],
+        [ 3.9525e-06,  2.5183e-05, -9.2089e-06,  ..., -4.1425e-06,
+          0.0000e+00,  1.7852e-05],
+        [ 5.0753e-05,  4.3273e-05,  4.7028e-05,  ...,  1.6764e-05,
+          0.0000e+00,  2.5809e-05],
+        ...,
+        [-1.5795e-05,  7.2479e-05,  6.1929e-05,  ...,  3.6001e-05,
+          0.0000e+00,  2.3842e-05],
+        [ 6.1035e-04,  2.5225e-04,  1.6725e-04,  ...,  4.3988e-04,
+          0.0000e+00,  1.6677e-04],
+        [ 5.0813e-05,  5.4169e-04,  2.2049e-03,  ...,  6.0177e-04,
+          0.0000e+00,  4.6968e-05]], device='cuda:0')
+Epoch 42, bias, value: tensor([-2.2394e-02, -1.8976e-02, -2.8686e-02,  3.1184e-03, -9.4069e-05,
+         3.0615e-02,  1.3077e-02, -2.3668e-02,  1.5094e-02, -2.7784e-03],
+       device='cuda:0'), grad: tensor([-6.1810e-05, -1.3605e-05,  1.7381e-04, -6.3419e-04, -2.3460e-03,
+        -3.1233e-04, -3.5143e-04,  1.0681e-04,  1.2264e-03,  2.2125e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 41, time 214.16, cls_loss 0.0117 cls_loss_mapping 0.0244 cls_loss_causal 0.7297 re_mapping 0.0166 re_causal 0.0510 /// teacc 98.69 lr 0.00010000
+Epoch 43, weight, value: tensor([[-0.0077, -0.0051, -0.0041,  ..., -0.0722, -0.0120, -0.0296],
+        [ 0.0151, -0.0269, -0.0578,  ..., -0.0047, -0.0133, -0.0626],
+        [ 0.0358, -0.0488, -0.0179,  ...,  0.0260, -0.0522,  0.0215],
+        ...,
+        [ 0.0131, -0.0279, -0.0403,  ..., -0.0333,  0.0109,  0.0621],
+        [ 0.0395, -0.0513, -0.0401,  ..., -0.0258, -0.0098, -0.0099],
+        [-0.0859, -0.0030,  0.0621,  ...,  0.0385, -0.0181, -0.0344]],
+       device='cuda:0'), grad: tensor([[-5.6356e-05,  1.1198e-05,  2.2426e-05,  ...,  1.0706e-05,
+          4.3772e-08,  2.6315e-05],
+        [ 6.3956e-05,  1.0014e-05, -1.8820e-05,  ..., -2.1532e-05,
+          1.1269e-07,  2.1264e-05],
+        [-1.3137e-04,  1.6168e-05,  9.7007e-06,  ...,  1.1936e-05,
+          2.6077e-08, -1.1820e-04],
+        ...,
+        [ 1.0067e-04,  9.4846e-06,  3.1620e-05,  ...,  4.4078e-05,
+         -5.7649e-07,  5.4806e-05],
+        [ 2.3019e-04,  3.8207e-05,  1.2040e-04,  ...,  2.4402e-04,
+          2.9802e-08,  1.3903e-05],
+        [ 2.4274e-05, -1.8620e-04, -8.3351e-04,  ..., -4.0340e-04,
+          1.1828e-07,  7.3873e-06]], device='cuda:0')
+Epoch 43, bias, value: tensor([-0.0225, -0.0194, -0.0288,  0.0035,  0.0006,  0.0307,  0.0135, -0.0237,
+         0.0144, -0.0029], device='cuda:0'), grad: tensor([-5.0366e-05,  7.9155e-05, -1.8239e-04,  1.2469e-04,  3.2020e-04,
+        -9.2840e-04,  7.2479e-05,  2.1577e-04,  7.5817e-04, -4.0913e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 42, time 214.13, cls_loss 0.0152 cls_loss_mapping 0.0314 cls_loss_causal 0.6925 re_mapping 0.0162 re_causal 0.0483 /// teacc 98.66 lr 0.00010000
+Epoch 44, weight, value: tensor([[-0.0079, -0.0056, -0.0048,  ..., -0.0739, -0.0122, -0.0308],
+        [ 0.0147, -0.0273, -0.0574,  ..., -0.0043, -0.0131, -0.0631],
+        [ 0.0358, -0.0491, -0.0184,  ...,  0.0258, -0.0524,  0.0217],
+        ...,
+        [ 0.0137, -0.0279, -0.0415,  ..., -0.0345,  0.0111,  0.0628],
+        [ 0.0396, -0.0520, -0.0403,  ..., -0.0263, -0.0099, -0.0102],
+        [-0.0861, -0.0027,  0.0628,  ...,  0.0392, -0.0184, -0.0353]],
+       device='cuda:0'), grad: tensor([[-8.7690e-04, -7.0751e-05,  1.0008e-04,  ..., -4.5359e-05,
+          0.0000e+00,  8.0168e-05],
+        [-3.0100e-05, -3.6640e-03, -5.1594e-04,  ..., -1.1513e-02,
+          0.0000e+00, -4.8523e-03],
+        [ 7.8857e-05,  4.1634e-05,  2.5973e-05,  ...,  5.3614e-05,
+          0.0000e+00, -1.0309e-03],
+        ...,
+        [ 1.1426e-04,  3.6926e-03,  6.5231e-04,  ...,  1.1200e-02,
+          0.0000e+00,  5.3558e-03],
+        [ 1.8859e-04,  2.1827e-04,  3.4666e-04,  ...,  3.5977e-04,
+          0.0000e+00,  1.0061e-04],
+        [ 9.8825e-05, -5.3740e-04, -9.5701e-04,  ..., -9.5320e-04,
+          0.0000e+00,  6.4671e-05]], device='cuda:0')
+Epoch 44, bias, value: tensor([-0.0232, -0.0197, -0.0292,  0.0038,  0.0002,  0.0306,  0.0139, -0.0230,
+         0.0146, -0.0029], device='cuda:0'), grad: tensor([-0.0007, -0.0267, -0.0010,  0.0005,  0.0006,  0.0011, -0.0006,  0.0267,
+         0.0009, -0.0008], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 43----------------------------------------------------
+epoch 43, time 230.58, cls_loss 0.0144 cls_loss_mapping 0.0287 cls_loss_causal 0.7013 re_mapping 0.0171 re_causal 0.0477 /// teacc 98.72 lr 0.00010000
+Epoch 45, weight, value: tensor([[-0.0076, -0.0061, -0.0043,  ..., -0.0747, -0.0125, -0.0312],
+        [ 0.0143, -0.0277, -0.0579,  ..., -0.0040, -0.0130, -0.0634],
+        [ 0.0359, -0.0498, -0.0189,  ...,  0.0254, -0.0528,  0.0224],
+        ...,
+        [ 0.0140, -0.0283, -0.0423,  ..., -0.0361,  0.0113,  0.0631],
+        [ 0.0398, -0.0528, -0.0406,  ..., -0.0269, -0.0106, -0.0111],
+        [-0.0871, -0.0025,  0.0632,  ...,  0.0398, -0.0186, -0.0358]],
+       device='cuda:0'), grad: tensor([[ 2.2709e-05,  3.4813e-06,  6.6124e-06,  ...,  2.0757e-05,
+          7.9162e-09,  9.6336e-06],
+        [-1.3518e-04,  7.1786e-06, -3.6299e-05,  ..., -2.7990e-04,
+         -1.9697e-07,  3.5739e-04],
+        [-1.2636e-04,  8.3297e-06,  9.6411e-06,  ...,  7.6175e-05,
+          1.7229e-08, -4.8208e-04],
+        ...,
+        [ 9.0659e-05, -1.4842e-05,  1.1854e-05,  ...,  7.8082e-05,
+          3.9116e-08,  3.9339e-05],
+        [-3.2830e-04,  3.4869e-05,  3.2008e-05,  ..., -1.1134e-04,
+          4.2841e-08,  5.9128e-05],
+        [ 4.8041e-05,  1.2815e-04,  1.7062e-06,  ..., -4.7311e-06,
+          1.8626e-08,  1.1104e-04]], device='cuda:0')
+Epoch 45, bias, value: tensor([-0.0233, -0.0196, -0.0291,  0.0038,  0.0002,  0.0311,  0.0145, -0.0235,
+         0.0144, -0.0030], device='cuda:0'), grad: tensor([ 1.0145e-04, -3.9124e-04, -7.8869e-04, -2.1017e-04,  1.5438e-04,
+         4.9162e-04,  6.4313e-05,  4.3631e-04, -2.0707e-04,  3.4928e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 44----------------------------------------------------
+epoch 44, time 230.17, cls_loss 0.0106 cls_loss_mapping 0.0179 cls_loss_causal 0.6893 re_mapping 0.0156 re_causal 0.0468 /// teacc 98.75 lr 0.00010000
+Epoch 46, weight, value: tensor([[-0.0073, -0.0065, -0.0044,  ..., -0.0751, -0.0125, -0.0314],
+        [ 0.0144, -0.0281, -0.0576,  ..., -0.0037, -0.0128, -0.0636],
+        [ 0.0360, -0.0502, -0.0193,  ...,  0.0266, -0.0530,  0.0230],
+        ...,
+        [ 0.0141, -0.0284, -0.0429,  ..., -0.0369,  0.0113,  0.0633],
+        [ 0.0400, -0.0532, -0.0411,  ..., -0.0280, -0.0107, -0.0117],
+        [-0.0878, -0.0021,  0.0636,  ...,  0.0404, -0.0187, -0.0364]],
+       device='cuda:0'), grad: tensor([[-5.2834e-04,  3.4630e-05,  6.2823e-05,  ...,  3.6269e-05,
+          1.2040e-05, -1.2314e-04],
+        [-2.6211e-05, -1.4410e-03, -1.4553e-03,  ..., -1.9112e-03,
+         -8.9502e-04,  1.0782e-04],
+        [ 1.5569e-04,  7.1704e-05,  1.0139e-04,  ...,  2.3782e-05,
+          8.1286e-06, -4.7714e-05],
+        ...,
+        [ 1.2070e-04,  1.2553e-04,  1.8394e-04,  ...,  1.6248e-04,
+          1.3314e-05,  6.5565e-05],
+        [ 6.3992e-04,  4.0650e-05,  2.0671e-04,  ...,  5.7667e-05,
+          6.1989e-06,  2.7150e-05],
+        [ 4.5389e-05, -2.9302e-04, -3.9768e-04,  ..., -3.4046e-04,
+          7.0870e-05,  1.9148e-05]], device='cuda:0')
+Epoch 46, bias, value: tensor([-0.0233, -0.0189, -0.0290,  0.0040,  0.0002,  0.0308,  0.0143, -0.0237,
+         0.0141, -0.0031], device='cuda:0'), grad: tensor([-4.6778e-04, -6.8550e-03,  3.7909e-04,  5.9280e-03,  8.7357e-04,
+         1.1063e-03, -2.0905e-03,  2.7865e-05,  1.2207e-03, -1.1665e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 45, time 213.99, cls_loss 0.0122 cls_loss_mapping 0.0238 cls_loss_causal 0.6697 re_mapping 0.0168 re_causal 0.0460 /// teacc 98.75 lr 0.00010000
+Epoch 47, weight, value: tensor([[-0.0072, -0.0067, -0.0052,  ..., -0.0758, -0.0126, -0.0318],
+        [ 0.0144, -0.0282, -0.0571,  ..., -0.0027, -0.0123, -0.0646],
+        [ 0.0361, -0.0506, -0.0200,  ...,  0.0261, -0.0531,  0.0237],
+        ...,
+        [ 0.0139, -0.0289, -0.0435,  ..., -0.0378,  0.0113,  0.0631],
+        [ 0.0402, -0.0538, -0.0417,  ..., -0.0288, -0.0107, -0.0123],
+        [-0.0878, -0.0018,  0.0646,  ...,  0.0413, -0.0188, -0.0368]],
+       device='cuda:0'), grad: tensor([[ 9.7528e-06,  3.7253e-06,  3.7760e-05,  ...,  5.4464e-06,
+          0.0000e+00,  6.5528e-06],
+        [ 2.6274e-04,  1.0133e-04,  5.8534e-07,  ...,  9.6083e-05,
+          0.0000e+00,  1.1295e-04],
+        [ 3.7372e-05,  1.6600e-05,  1.3396e-05,  ...,  6.7502e-06,
+          0.0000e+00,  3.1948e-05],
+        ...,
+        [-1.2803e-04, -2.5988e-04,  5.5954e-06,  ..., -1.1164e-04,
+          0.0000e+00, -4.3559e-04],
+        [ 8.0168e-05,  1.8537e-05,  2.3112e-05,  ...,  4.2558e-05,
+          0.0000e+00,  2.3589e-05],
+        [ 2.8953e-05,  1.7047e-05, -1.7732e-06,  ...,  1.5207e-05,
+          0.0000e+00,  3.2693e-05]], device='cuda:0')
+Epoch 47, bias, value: tensor([-2.3800e-02, -1.8677e-02, -2.9266e-02,  4.2510e-03, -5.9817e-06,
+         3.0865e-02,  1.4344e-02, -2.3651e-02,  1.3706e-02, -2.5278e-03],
+       device='cuda:0'), grad: tensor([ 1.0431e-05,  9.7847e-04,  1.1820e-04,  2.0504e-03,  1.9050e-04,
+        -2.5692e-03,  5.2631e-05, -1.1597e-03,  2.0504e-04,  1.2350e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 46, time 214.10, cls_loss 0.0105 cls_loss_mapping 0.0225 cls_loss_causal 0.6822 re_mapping 0.0154 re_causal 0.0463 /// teacc 98.70 lr 0.00010000
+Epoch 48, weight, value: tensor([[-0.0069, -0.0069, -0.0050,  ..., -0.0763, -0.0127, -0.0317],
+        [ 0.0139, -0.0287, -0.0576,  ..., -0.0029, -0.0123, -0.0657],
+        [ 0.0361, -0.0510, -0.0204,  ...,  0.0260, -0.0531,  0.0244],
+        ...,
+        [ 0.0139, -0.0290, -0.0443,  ..., -0.0388,  0.0113,  0.0633],
+        [ 0.0410, -0.0535, -0.0401,  ..., -0.0275, -0.0113, -0.0122],
+        [-0.0887, -0.0019,  0.0644,  ...,  0.0410, -0.0188, -0.0377]],
+       device='cuda:0'), grad: tensor([[ 3.0637e-05,  3.1203e-05,  9.5963e-06,  ...,  5.7071e-06,
+          1.1455e-07,  6.5029e-05],
+        [ 2.4304e-05,  1.5807e-04, -1.6272e-05,  ..., -2.0057e-05,
+          4.7963e-08,  4.2129e-04],
+        [ 5.0306e-05,  7.6950e-05,  1.0841e-05,  ...,  6.1914e-06,
+          1.8626e-08,  1.4997e-04],
+        ...,
+        [-1.4079e-04, -3.7456e-04,  2.1443e-05,  ...,  2.2680e-05,
+          1.0245e-07, -1.0290e-03],
+        [ 5.0259e-04,  1.1623e-04,  2.0012e-05,  ...,  3.0422e-04,
+          7.7626e-07,  2.8157e-04],
+        [ 2.2963e-05,  2.6822e-05,  1.8314e-05,  ..., -1.6198e-05,
+          1.9604e-07,  9.1434e-05]], device='cuda:0')
+Epoch 48, bias, value: tensor([-0.0236, -0.0193, -0.0291,  0.0041,  0.0003,  0.0309,  0.0141, -0.0239,
+         0.0154, -0.0036], device='cuda:0'), grad: tensor([ 1.4925e-04,  8.4066e-04,  3.5715e-04,  5.6744e-05,  5.9336e-05,
+        -5.0879e-04,  2.1085e-05, -2.2564e-03,  1.0815e-03,  2.0051e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 47----------------------------------------------------
+epoch 47, time 230.32, cls_loss 0.0105 cls_loss_mapping 0.0213 cls_loss_causal 0.6823 re_mapping 0.0146 re_causal 0.0434 /// teacc 98.77 lr 0.00010000
+Epoch 49, weight, value: tensor([[-0.0072, -0.0073, -0.0051,  ..., -0.0772, -0.0127, -0.0319],
+        [ 0.0132, -0.0290, -0.0568,  ..., -0.0016, -0.0124, -0.0668],
+        [ 0.0364, -0.0515, -0.0211,  ...,  0.0257, -0.0533,  0.0254],
+        ...,
+        [ 0.0141, -0.0287, -0.0449,  ..., -0.0397,  0.0120,  0.0635],
+        [ 0.0411, -0.0539, -0.0408,  ..., -0.0288, -0.0114, -0.0126],
+        [-0.0896, -0.0021,  0.0646,  ...,  0.0412, -0.0196, -0.0381]],
+       device='cuda:0'), grad: tensor([[ 8.8364e-06,  6.6161e-06,  1.3612e-05,  ...,  1.9640e-05,
+          3.3528e-08,  1.8463e-05],
+        [ 2.6181e-05,  3.2902e-05,  6.1952e-06,  ...,  9.3877e-06,
+          2.6543e-08,  4.4554e-05],
+        [-6.2168e-05,  2.9549e-05,  1.2130e-05,  ..., -7.6652e-05,
+          2.9802e-08, -8.4341e-05],
+        ...,
+        [ 7.8678e-06,  1.2808e-05,  1.8090e-05,  ...,  3.3170e-05,
+         -6.5239e-07,  2.1368e-05],
+        [-1.1337e-04,  2.5958e-05, -9.2924e-05,  ..., -6.1929e-05,
+          2.7940e-08, -2.4736e-05],
+        [ 9.5963e-05, -1.7002e-05,  3.4124e-05,  ...,  1.3679e-05,
+          8.7544e-08,  5.5879e-05]], device='cuda:0')
+Epoch 49, bias, value: tensor([-0.0239, -0.0192, -0.0289,  0.0041,  0.0004,  0.0311,  0.0148, -0.0239,
+         0.0150, -0.0041], device='cuda:0'), grad: tensor([ 4.5329e-05,  8.3148e-05, -9.0480e-05, -8.1301e-04,  1.5903e-04,
+         7.0047e-04, -8.1599e-05,  7.3671e-05, -2.8253e-04,  2.0599e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 48----------------------------------------------------
+epoch 48, time 230.15, cls_loss 0.0099 cls_loss_mapping 0.0186 cls_loss_causal 0.6774 re_mapping 0.0141 re_causal 0.0444 /// teacc 98.78 lr 0.00010000
+Epoch 50, weight, value: tensor([[-0.0067, -0.0075, -0.0051,  ..., -0.0778, -0.0125, -0.0325],
+        [ 0.0128, -0.0295, -0.0574,  ..., -0.0020, -0.0124, -0.0673],
+        [ 0.0368, -0.0516, -0.0217,  ...,  0.0259, -0.0535,  0.0261],
+        ...,
+        [ 0.0142, -0.0285, -0.0452,  ..., -0.0401,  0.0118,  0.0640],
+        [ 0.0411, -0.0545, -0.0414,  ..., -0.0297, -0.0117, -0.0136],
+        [-0.0896, -0.0019,  0.0651,  ...,  0.0421, -0.0197, -0.0385]],
+       device='cuda:0'), grad: tensor([[ 1.0139e-04,  3.1620e-05,  3.1829e-05,  ...,  6.9141e-05,
+          7.4506e-09,  2.5198e-05],
+        [ 1.5593e-04,  3.6091e-05, -1.6987e-05,  ...,  2.4378e-05,
+          3.9581e-08,  2.7016e-05],
+        [ 5.6624e-05,  1.0812e-04,  2.6971e-05,  ...,  2.0072e-05,
+          2.4214e-08,  4.5538e-05],
+        ...,
+        [ 1.2493e-04,  1.0431e-04,  6.4731e-05,  ...,  7.3075e-05,
+         -2.3423e-07,  8.3864e-05],
+        [ 3.6030e-03,  1.0341e-04,  1.4296e-03,  ...,  2.5597e-03,
+          8.8476e-09,  2.8878e-05],
+        [ 1.2362e-04,  2.6196e-05, -9.1791e-05,  ..., -1.4257e-04,
+          9.6858e-08,  7.5400e-05]], device='cuda:0')
+Epoch 50, bias, value: tensor([-0.0235, -0.0196, -0.0286,  0.0039,  0.0005,  0.0309,  0.0149, -0.0235,
+         0.0146, -0.0040], device='cuda:0'), grad: tensor([ 0.0002,  0.0002,  0.0003, -0.0007,  0.0002, -0.0105,  0.0047,  0.0005,
+         0.0049,  0.0003], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 49----------------------------------------------------
+epoch 49, time 229.22, cls_loss 0.0111 cls_loss_mapping 0.0212 cls_loss_causal 0.7217 re_mapping 0.0143 re_causal 0.0444 /// teacc 98.85 lr 0.00010000
+Epoch 51, weight, value: tensor([[-0.0066, -0.0080, -0.0057,  ..., -0.0789, -0.0126, -0.0336],
+        [ 0.0127, -0.0295, -0.0574,  ..., -0.0015, -0.0124, -0.0664],
+        [ 0.0370, -0.0525, -0.0220,  ...,  0.0258, -0.0544,  0.0261],
+        ...,
+        [ 0.0141, -0.0284, -0.0459,  ..., -0.0413,  0.0122,  0.0647],
+        [ 0.0409, -0.0551, -0.0420,  ..., -0.0304, -0.0118, -0.0143],
+        [-0.0903, -0.0013,  0.0659,  ...,  0.0429, -0.0198, -0.0392]],
+       device='cuda:0'), grad: tensor([[ 3.1054e-05,  3.5673e-05,  1.1586e-05,  ...,  1.6108e-05,
+          0.0000e+00,  7.8440e-05],
+        [ 5.5343e-05,  1.3399e-04, -1.4000e-05,  ..., -1.6823e-05,
+          0.0000e+00,  2.4176e-04],
+        [-1.4201e-05,  1.7107e-04,  2.3380e-05,  ...,  3.7074e-05,
+          0.0000e+00, -6.0380e-05],
+        ...,
+        [-1.6868e-04, -2.0254e-04,  6.0707e-05,  ...,  6.3479e-05,
+          0.0000e+00, -4.5609e-04],
+        [ 1.9348e-04,  5.6601e-04, -2.9504e-05,  ...,  9.0837e-05,
+          0.0000e+00,  1.2894e-03],
+        [ 8.2552e-05,  9.9361e-05,  5.8442e-05,  ...,  9.1314e-05,
+          0.0000e+00,  1.1617e-04]], device='cuda:0')
+Epoch 51, bias, value: tensor([-0.0236, -0.0189, -0.0290,  0.0038,  0.0005,  0.0309,  0.0153, -0.0234,
+         0.0140, -0.0037], device='cuda:0'), grad: tensor([ 0.0002,  0.0003,  0.0002, -0.0028, -0.0002,  0.0004,  0.0002, -0.0006,
+         0.0020,  0.0004], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 50, time 214.56, cls_loss 0.0101 cls_loss_mapping 0.0195 cls_loss_causal 0.6924 re_mapping 0.0143 re_causal 0.0439 /// teacc 98.79 lr 0.00010000
+Epoch 52, weight, value: tensor([[-0.0060, -0.0083, -0.0063,  ..., -0.0805, -0.0129, -0.0341],
+        [ 0.0123, -0.0306, -0.0581,  ..., -0.0023, -0.0122, -0.0672],
+        [ 0.0370, -0.0533, -0.0226,  ...,  0.0257, -0.0553,  0.0267],
+        ...,
+        [ 0.0138, -0.0286, -0.0466,  ..., -0.0419,  0.0121,  0.0649],
+        [ 0.0411, -0.0557, -0.0425,  ..., -0.0310, -0.0122, -0.0150],
+        [-0.0907, -0.0011,  0.0665,  ...,  0.0434, -0.0203, -0.0397]],
+       device='cuda:0'), grad: tensor([[ 4.7183e-04,  1.1927e-04,  4.1151e-04,  ...,  2.6733e-05,
+          1.0006e-05,  1.3983e-04],
+        [ 3.5954e-04,  4.5866e-05,  3.9291e-04,  ..., -1.9634e-04,
+         -2.3380e-05,  1.7881e-04],
+        [ 4.0317e-04,  4.6110e-04,  4.5109e-04,  ...,  3.8236e-05,
+          6.1810e-05,  9.7084e-04],
+        ...,
+        [-1.8001e-05, -1.2884e-03,  4.1366e-05,  ...,  3.5912e-05,
+         -2.0742e-04, -2.7199e-03],
+        [-4.4614e-05, -2.0102e-05,  9.4235e-05,  ...,  8.3268e-05,
+          4.1313e-06,  3.3826e-05],
+        [ 6.9380e-05,  2.8586e-04,  2.1234e-05,  ...,  9.7752e-05,
+          4.8637e-05,  5.8079e-04]], device='cuda:0')
+Epoch 52, bias, value: tensor([-0.0236, -0.0196, -0.0289,  0.0041,  0.0011,  0.0308,  0.0151, -0.0237,
+         0.0137, -0.0033], device='cuda:0'), grad: tensor([ 9.8324e-04,  9.8419e-04,  2.4910e-03,  7.7772e-04,  4.0579e-04,
+         6.2048e-05, -3.4218e-03, -3.3455e-03,  1.2481e-04,  9.3603e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 51----------------------------------------------------
+epoch 51, time 230.52, cls_loss 0.0104 cls_loss_mapping 0.0165 cls_loss_causal 0.6852 re_mapping 0.0141 re_causal 0.0411 /// teacc 98.88 lr 0.00010000
+Epoch 53, weight, value: tensor([[-0.0061, -0.0090, -0.0071,  ..., -0.0816, -0.0132, -0.0348],
+        [ 0.0120, -0.0310, -0.0581,  ..., -0.0019, -0.0128, -0.0680],
+        [ 0.0371, -0.0537, -0.0234,  ...,  0.0258, -0.0566,  0.0273],
+        ...,
+        [ 0.0137, -0.0282, -0.0469,  ..., -0.0429,  0.0132,  0.0658],
+        [ 0.0417, -0.0564, -0.0432,  ..., -0.0318, -0.0128, -0.0158],
+        [-0.0915, -0.0010,  0.0671,  ...,  0.0437, -0.0206, -0.0404]],
+       device='cuda:0'), grad: tensor([[-3.6097e-04, -9.4414e-05,  3.7123e-06,  ...,  3.0249e-06,
+          0.0000e+00, -1.6773e-04],
+        [ 1.7211e-05, -7.1861e-06, -6.5506e-05,  ..., -7.0572e-05,
+          0.0000e+00,  1.2927e-05],
+        [ 9.2089e-05,  3.4630e-05,  1.2942e-05,  ...,  1.0446e-05,
+          0.0000e+00, -1.3420e-06],
+        ...,
+        [ 4.2111e-05,  1.8358e-05,  3.6836e-05,  ...,  3.6240e-05,
+          0.0000e+00,  2.8938e-05],
+        [ 1.7434e-05,  9.8124e-06,  2.6122e-05,  ...,  3.1233e-05,
+          0.0000e+00,  1.2510e-05],
+        [ 7.1049e-05,  2.6608e-04,  6.1798e-04,  ...,  4.4394e-04,
+          0.0000e+00,  3.6538e-05]], device='cuda:0')
+Epoch 53, bias, value: tensor([-0.0240, -0.0200, -0.0289,  0.0037,  0.0014,  0.0309,  0.0154, -0.0230,
+         0.0139, -0.0037], device='cuda:0'), grad: tensor([-5.9557e-04, -1.1724e-04,  1.4031e-04,  1.0079e-04, -6.2466e-04,
+         5.3495e-05,  6.6996e-05,  1.4436e-04,  7.0035e-05,  7.6103e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 52, time 214.05, cls_loss 0.0112 cls_loss_mapping 0.0222 cls_loss_causal 0.6638 re_mapping 0.0136 re_causal 0.0424 /// teacc 98.76 lr 0.00010000
+Epoch 54, weight, value: tensor([[-0.0062, -0.0090, -0.0079,  ..., -0.0823, -0.0133, -0.0348],
+        [ 0.0118, -0.0310, -0.0582,  ..., -0.0018, -0.0121, -0.0677],
+        [ 0.0371, -0.0542, -0.0238,  ...,  0.0257, -0.0568,  0.0278],
+        ...,
+        [ 0.0136, -0.0281, -0.0475,  ..., -0.0427,  0.0131,  0.0656],
+        [ 0.0419, -0.0569, -0.0437,  ..., -0.0327, -0.0131, -0.0158],
+        [-0.0916, -0.0008,  0.0674,  ...,  0.0438, -0.0210, -0.0408]],
+       device='cuda:0'), grad: tensor([[-3.4958e-05,  2.3931e-05,  5.8040e-06,  ...,  7.1935e-06,
+          3.0734e-08,  3.8713e-05],
+        [ 3.2842e-05,  5.8502e-05, -4.9919e-05,  ..., -6.9678e-05,
+         -2.6897e-06,  1.3340e-04],
+        [-6.5804e-05, -1.9386e-05,  1.4193e-05,  ...,  1.5087e-05,
+          3.5018e-07, -1.9753e-04],
+        ...,
+        [ 1.2361e-05, -1.7309e-04,  2.1458e-05,  ...,  2.0832e-05,
+          8.4564e-07, -2.2995e-04],
+        [ 2.2620e-05,  3.7104e-05,  1.3322e-05,  ...,  1.5974e-05,
+          2.2165e-07,  6.3181e-05],
+        [ 1.9580e-05,  1.8775e-04,  8.1837e-05,  ...,  1.6534e-04,
+          6.7428e-07,  1.3709e-04]], device='cuda:0')
+Epoch 54, bias, value: tensor([-0.0243, -0.0200, -0.0290,  0.0041,  0.0016,  0.0306,  0.0152, -0.0229,
+         0.0139, -0.0037], device='cuda:0'), grad: tensor([-1.0359e-04,  7.5758e-05, -1.4889e-04,  4.0025e-05,  1.6510e-05,
+        -1.4293e-04,  2.4468e-05, -2.8229e-04,  1.1539e-04,  4.0531e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 53, time 213.79, cls_loss 0.0089 cls_loss_mapping 0.0185 cls_loss_causal 0.6885 re_mapping 0.0144 re_causal 0.0439 /// teacc 98.77 lr 0.00010000
+Epoch 55, weight, value: tensor([[-0.0060, -0.0087, -0.0079,  ..., -0.0829, -0.0133, -0.0348],
+        [ 0.0113, -0.0310, -0.0579,  ..., -0.0014, -0.0116, -0.0682],
+        [ 0.0374, -0.0545, -0.0242,  ...,  0.0256, -0.0570,  0.0281],
+        ...,
+        [ 0.0138, -0.0278, -0.0480,  ..., -0.0432,  0.0128,  0.0663],
+        [ 0.0421, -0.0573, -0.0436,  ..., -0.0327, -0.0131, -0.0163],
+        [-0.0922, -0.0013,  0.0674,  ...,  0.0437, -0.0211, -0.0420]],
+       device='cuda:0'), grad: tensor([[-4.1723e-06,  2.6859e-06,  5.7854e-06,  ...,  2.0303e-06,
+          0.0000e+00,  3.1888e-06],
+        [-1.3553e-05, -7.6234e-05, -1.8930e-04,  ..., -1.9479e-04,
+          0.0000e+00, -2.0429e-05],
+        [ 2.8506e-05,  1.2122e-05,  2.3276e-05,  ...,  1.1660e-05,
+          0.0000e+00,  3.3844e-06],
+        ...,
+        [ 1.7164e-06,  3.2604e-05,  5.8234e-05,  ...,  6.1393e-05,
+          0.0000e+00,  8.0243e-06],
+        [-2.9698e-05,  1.7107e-05,  1.7449e-05,  ...,  1.6540e-05,
+          0.0000e+00,  1.1332e-05],
+        [ 7.0520e-06,  1.3244e-04, -1.3880e-05,  ...,  3.2991e-05,
+          0.0000e+00,  1.3971e-04]], device='cuda:0')
+Epoch 55, bias, value: tensor([-0.0239, -0.0199, -0.0290,  0.0045,  0.0018,  0.0302,  0.0154, -0.0227,
+         0.0141, -0.0045], device='cuda:0'), grad: tensor([ 1.3486e-06, -3.7694e-04,  7.8917e-05, -3.1948e-04,  4.8971e-04,
+         5.4896e-05, -3.1424e-04,  1.1718e-04,  1.1995e-05,  2.5558e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 54, time 214.22, cls_loss 0.0094 cls_loss_mapping 0.0185 cls_loss_causal 0.6649 re_mapping 0.0130 re_causal 0.0411 /// teacc 98.80 lr 0.00010000
+Epoch 56, weight, value: tensor([[-0.0055, -0.0095, -0.0080,  ..., -0.0839, -0.0134, -0.0358],
+        [ 0.0111, -0.0317, -0.0575,  ..., -0.0017, -0.0111, -0.0690],
+        [ 0.0376, -0.0544, -0.0248,  ...,  0.0262, -0.0582,  0.0291],
+        ...,
+        [ 0.0136, -0.0282, -0.0498,  ..., -0.0445,  0.0129,  0.0665],
+        [ 0.0418, -0.0582, -0.0444,  ..., -0.0337, -0.0135, -0.0173],
+        [-0.0924, -0.0003,  0.0686,  ...,  0.0451, -0.0213, -0.0419]],
+       device='cuda:0'), grad: tensor([[ 6.8665e-04,  6.3610e-04,  7.7629e-04,  ...,  6.0606e-04,
+          9.2201e-08,  7.7426e-05],
+        [-4.7863e-05,  1.8090e-05, -9.1910e-05,  ..., -5.5015e-05,
+         -3.5316e-06,  4.2319e-06],
+        [ 1.2887e-04,  5.5015e-05,  1.3006e-04,  ...,  1.0967e-04,
+          5.1036e-07,  1.2234e-05],
+        ...,
+        [ 9.7156e-05,  6.5386e-05,  6.2704e-05,  ...,  1.0538e-04,
+          8.9779e-07,  3.1237e-06],
+        [ 8.7214e-04,  1.1740e-03,  1.4534e-03,  ...,  9.0170e-04,
+          7.0734e-07,  1.4293e-04],
+        [-2.4395e-03, -3.5496e-03, -4.8141e-03,  ..., -2.4872e-03,
+          4.1770e-07, -4.6945e-04]], device='cuda:0')
+Epoch 56, bias, value: tensor([-0.0235, -0.0194, -0.0289,  0.0039,  0.0017,  0.0309,  0.0150, -0.0236,
+         0.0132, -0.0035], device='cuda:0'), grad: tensor([ 0.0016, -0.0005,  0.0004,  0.0015,  0.0003,  0.0014, -0.0006,  0.0002,
+         0.0024, -0.0068], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 55, time 214.27, cls_loss 0.0088 cls_loss_mapping 0.0170 cls_loss_causal 0.6533 re_mapping 0.0132 re_causal 0.0391 /// teacc 98.85 lr 0.00010000
+Epoch 57, weight, value: tensor([[-0.0052, -0.0099, -0.0083,  ..., -0.0846, -0.0135, -0.0367],
+        [ 0.0113, -0.0318, -0.0569,  ..., -0.0011, -0.0109, -0.0691],
+        [ 0.0376, -0.0551, -0.0255,  ...,  0.0259, -0.0592,  0.0296],
+        ...,
+        [ 0.0134, -0.0280, -0.0507,  ..., -0.0448,  0.0136,  0.0669],
+        [ 0.0422, -0.0588, -0.0444,  ..., -0.0341, -0.0141, -0.0178],
+        [-0.0929,  0.0003,  0.0694,  ...,  0.0458, -0.0223, -0.0424]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-08,  7.5437e-06,  1.0312e-05,  ...,  5.2303e-06,
+          3.0128e-07,  8.8140e-06],
+        [-6.3367e-06,  1.5244e-05, -2.5630e-04,  ..., -1.2386e-04,
+         -1.5162e-05,  3.0965e-05],
+        [-3.2306e-05,  1.1869e-05,  4.0561e-05,  ...,  2.3380e-05,
+          1.6736e-06, -9.1434e-05],
+        ...,
+        [-3.0264e-05, -1.0794e-04,  6.5625e-05,  ...,  4.4346e-05,
+          6.7055e-06, -5.4955e-05],
+        [ 1.2077e-05,  2.1160e-05,  1.2195e-04,  ...,  5.7250e-05,
+          1.4547e-06,  2.4080e-05],
+        [ 3.0786e-05,  4.6968e-05,  3.2306e-05,  ...,  1.3247e-05,
+          1.9111e-06,  5.1558e-05]], device='cuda:0')
+Epoch 57, bias, value: tensor([-0.0235, -0.0190, -0.0292,  0.0038,  0.0011,  0.0306,  0.0149, -0.0232,
+         0.0133, -0.0033], device='cuda:0'), grad: tensor([ 3.1501e-05, -5.8126e-04,  1.7751e-06, -1.7154e-04,  8.6576e-06,
+         2.5678e-04,  5.7548e-05, -1.6963e-04,  3.2401e-04,  2.4199e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 56, time 214.01, cls_loss 0.0100 cls_loss_mapping 0.0169 cls_loss_causal 0.6736 re_mapping 0.0134 re_causal 0.0392 /// teacc 98.78 lr 0.00010000
+Epoch 58, weight, value: tensor([[-0.0055, -0.0102, -0.0085,  ..., -0.0853, -0.0137, -0.0372],
+        [ 0.0112, -0.0322, -0.0569,  ..., -0.0013, -0.0106, -0.0692],
+        [ 0.0375, -0.0556, -0.0260,  ...,  0.0258, -0.0599,  0.0302],
+        ...,
+        [ 0.0137, -0.0279, -0.0515,  ..., -0.0456,  0.0137,  0.0674],
+        [ 0.0422, -0.0597, -0.0450,  ..., -0.0351, -0.0144, -0.0182],
+        [-0.0934,  0.0005,  0.0697,  ...,  0.0462, -0.0225, -0.0431]],
+       device='cuda:0'), grad: tensor([[ 1.6522e-04,  6.2659e-06,  1.5497e-04,  ...,  8.9258e-06,
+          4.1910e-09,  7.5176e-06],
+        [ 2.7582e-05,  8.2776e-06,  2.3216e-05,  ..., -6.9737e-06,
+         -2.9197e-07,  9.7752e-06],
+        [ 6.7520e-04,  1.8328e-05,  6.3038e-04,  ...,  3.5435e-05,
+          5.3085e-08,  5.7787e-05],
+        ...,
+        [ 1.2346e-05, -1.4976e-05,  2.6837e-05,  ...,  8.0317e-06,
+          1.1129e-07, -6.0380e-05],
+        [ 1.4973e-04,  1.4812e-05,  1.6701e-04,  ...,  1.4886e-05,
+          3.5390e-08,  1.3411e-05],
+        [ 6.6757e-05, -3.7163e-05, -2.0117e-05,  ..., -1.3387e-04,
+          2.3749e-08,  1.9386e-05]], device='cuda:0')
+Epoch 58, bias, value: tensor([-0.0234, -0.0190, -0.0291,  0.0039,  0.0017,  0.0308,  0.0146, -0.0234,
+         0.0129, -0.0033], device='cuda:0'), grad: tensor([ 3.4475e-04,  4.3452e-05,  1.4648e-03, -1.4555e-04,  9.8705e-05,
+         7.5388e-04, -2.9812e-03, -3.7476e-06,  3.8242e-04,  4.3571e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 57, time 213.99, cls_loss 0.0069 cls_loss_mapping 0.0158 cls_loss_causal 0.6528 re_mapping 0.0128 re_causal 0.0393 /// teacc 98.73 lr 0.00010000
+Epoch 59, weight, value: tensor([[-0.0055, -0.0106, -0.0089,  ..., -0.0859, -0.0144, -0.0379],
+        [ 0.0103, -0.0323, -0.0563,  ..., -0.0002, -0.0077, -0.0698],
+        [ 0.0381, -0.0566, -0.0267,  ...,  0.0252, -0.0630,  0.0306],
+        ...,
+        [ 0.0138, -0.0275, -0.0519,  ..., -0.0461,  0.0138,  0.0679],
+        [ 0.0426, -0.0600, -0.0450,  ..., -0.0353, -0.0154, -0.0187],
+        [-0.0943,  0.0005,  0.0700,  ...,  0.0465, -0.0236, -0.0436]],
+       device='cuda:0'), grad: tensor([[-8.6725e-06,  2.8014e-06,  1.5900e-05,  ...,  1.1146e-05,
+          2.1886e-08,  1.2321e-06],
+        [ 2.2352e-05,  9.1642e-06,  1.7196e-05,  ...,  7.3723e-06,
+         -1.8477e-06,  2.0862e-05],
+        [ 7.0706e-06,  3.6150e-05,  3.0726e-05,  ...,  2.4408e-05,
+          4.5449e-07, -1.0312e-05],
+        ...,
+        [ 1.7285e-05,  2.9206e-05,  3.8505e-05,  ...,  3.8087e-05,
+          8.4331e-07,  3.4004e-05],
+        [-3.8338e-04,  2.0921e-05, -6.4707e-04,  ..., -3.6836e-04,
+          1.2433e-07, -2.6894e-04],
+        [ 3.5453e-04, -2.9042e-05,  4.5109e-04,  ...,  2.6512e-04,
+          1.0198e-07,  2.3437e-04]], device='cuda:0')
+Epoch 59, bias, value: tensor([-0.0237, -0.0191, -0.0288,  0.0036,  0.0016,  0.0309,  0.0150, -0.0233,
+         0.0132, -0.0037], device='cuda:0'), grad: tensor([-2.1949e-05,  5.8293e-05,  9.8288e-05,  1.0568e-04, -9.5546e-05,
+         6.6102e-05, -1.4138e-04,  1.2767e-04, -1.2016e-03,  1.0023e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 58, time 213.96, cls_loss 0.0077 cls_loss_mapping 0.0130 cls_loss_causal 0.6669 re_mapping 0.0123 re_causal 0.0387 /// teacc 98.77 lr 0.00010000
+Epoch 60, weight, value: tensor([[-0.0054, -0.0109, -0.0094,  ..., -0.0866, -0.0148, -0.0385],
+        [ 0.0099, -0.0326, -0.0569,  ..., -0.0005, -0.0073, -0.0704],
+        [ 0.0385, -0.0570, -0.0272,  ...,  0.0250, -0.0643,  0.0318],
+        ...,
+        [ 0.0127, -0.0276, -0.0523,  ..., -0.0466,  0.0139,  0.0671],
+        [ 0.0427, -0.0604, -0.0453,  ..., -0.0360, -0.0156, -0.0190],
+        [-0.0948,  0.0008,  0.0705,  ...,  0.0469, -0.0237, -0.0439]],
+       device='cuda:0'), grad: tensor([[ 1.0088e-05,  1.0440e-06,  2.0042e-05,  ...,  2.5686e-06,
+          6.9849e-08,  5.2452e-06],
+        [ 9.0897e-06,  2.8741e-06, -2.9281e-05,  ..., -3.1859e-05,
+         -3.9041e-06, -1.3247e-03],
+        [ 1.4745e-05,  7.7859e-06,  1.6019e-05,  ...,  1.0453e-05,
+          2.6589e-07,  1.1139e-03],
+        ...,
+        [-3.0190e-05, -7.0818e-06,  1.8314e-05,  ...,  1.5005e-05,
+          2.1588e-06,  9.5129e-05],
+        [ 4.7207e-04,  1.0431e-05,  5.0163e-04,  ...,  4.0710e-05,
+          3.1851e-07,  1.7047e-05],
+        [ 8.8066e-06, -2.0549e-05, -6.4850e-05,  ..., -4.9531e-05,
+          4.2189e-07,  3.3155e-06]], device='cuda:0')
+Epoch 60, bias, value: tensor([-0.0239, -0.0196, -0.0284,  0.0035,  0.0018,  0.0317,  0.0151, -0.0239,
+         0.0132, -0.0036], device='cuda:0'), grad: tensor([ 3.4899e-05, -2.4948e-03,  2.0733e-03,  9.6917e-05,  9.7632e-05,
+         1.2827e-04, -1.0805e-03,  1.9670e-04,  9.8324e-04, -3.6865e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 59, time 214.11, cls_loss 0.0070 cls_loss_mapping 0.0160 cls_loss_causal 0.6448 re_mapping 0.0131 re_causal 0.0390 /// teacc 98.75 lr 0.00010000
+Epoch 61, weight, value: tensor([[-0.0049, -0.0110, -0.0091,  ..., -0.0873, -0.0149, -0.0382],
+        [ 0.0097, -0.0328, -0.0571,  ..., -0.0003, -0.0071, -0.0702],
+        [ 0.0385, -0.0577, -0.0277,  ...,  0.0250, -0.0646,  0.0315],
+        ...,
+        [ 0.0132, -0.0278, -0.0530,  ..., -0.0474,  0.0138,  0.0678],
+        [ 0.0425, -0.0605, -0.0461,  ..., -0.0366, -0.0158, -0.0193],
+        [-0.0953,  0.0012,  0.0715,  ...,  0.0478, -0.0239, -0.0450]],
+       device='cuda:0'), grad: tensor([[-2.0042e-05,  2.3600e-06,  1.8822e-06,  ...,  6.5975e-06,
+          1.0710e-08,  3.2149e-06],
+        [ 3.7141e-06,  9.5367e-06, -2.4289e-06,  ...,  1.5832e-08,
+          2.7427e-07,  1.5676e-05],
+        [ 6.4969e-06,  4.9919e-06,  7.8082e-06,  ...,  5.3421e-06,
+          4.0978e-08, -2.5988e-05],
+        ...,
+        [ 8.3894e-06, -6.7472e-05,  7.7188e-06,  ..., -5.7518e-06,
+         -1.2629e-06, -5.8711e-05],
+        [-1.0140e-05,  8.7693e-06,  5.9977e-06,  ...,  1.1988e-05,
+          1.5367e-08,  1.0252e-05],
+        [ 1.4327e-05,  3.3438e-05, -5.2691e-05,  ..., -4.1187e-05,
+          1.5134e-07,  4.2170e-05]], device='cuda:0')
+Epoch 61, bias, value: tensor([-0.0229, -0.0193, -0.0289,  0.0038,  0.0011,  0.0315,  0.0149, -0.0239,
+         0.0126, -0.0031], device='cuda:0'), grad: tensor([-2.8580e-05,  1.6749e-05,  4.0829e-06,  1.4579e-04,  7.6517e-06,
+        -1.6081e-04,  1.2457e-05, -9.5606e-05,  9.8497e-06,  8.8394e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 60, time 213.95, cls_loss 0.0087 cls_loss_mapping 0.0138 cls_loss_causal 0.6371 re_mapping 0.0126 re_causal 0.0359 /// teacc 98.68 lr 0.00010000
+Epoch 62, weight, value: tensor([[-0.0054, -0.0113, -0.0102,  ..., -0.0879, -0.0150, -0.0390],
+        [ 0.0092, -0.0331, -0.0570,  ...,  0.0003, -0.0066, -0.0706],
+        [ 0.0384, -0.0582, -0.0280,  ...,  0.0249, -0.0649,  0.0317],
+        ...,
+        [ 0.0133, -0.0281, -0.0535,  ..., -0.0480,  0.0138,  0.0680],
+        [ 0.0430, -0.0608, -0.0463,  ..., -0.0370, -0.0159, -0.0199],
+        [-0.0948,  0.0012,  0.0722,  ...,  0.0479, -0.0242, -0.0458]],
+       device='cuda:0'), grad: tensor([[ 8.1420e-05,  3.4925e-06,  5.0426e-05,  ...,  1.2606e-05,
+          3.3528e-08,  4.8566e-04],
+        [ 8.6308e-05,  1.0118e-05,  2.2858e-05,  ...,  2.9400e-05,
+         -5.1782e-07,  2.3329e-04],
+        [-7.6723e-04,  3.7104e-06,  1.6168e-05,  ...,  5.1558e-06,
+          5.6345e-08, -2.2717e-03],
+        ...,
+        [ 4.1199e-04,  2.1964e-05,  4.0293e-05,  ...,  6.5804e-05,
+          1.7090e-07,  1.0633e-03],
+        [-1.9088e-05,  3.7581e-05, -3.7942e-06,  ...,  9.1553e-05,
+          9.7789e-08,  2.0981e-04],
+        [ 9.9301e-05, -1.0324e-04, -1.2541e-04,  ..., -2.3162e-04,
+          8.1956e-08,  7.0930e-05]], device='cuda:0')
+Epoch 62, bias, value: tensor([-0.0235, -0.0193, -0.0293,  0.0044,  0.0013,  0.0314,  0.0151, -0.0241,
+         0.0127, -0.0029], device='cuda:0'), grad: tensor([ 6.2990e-04,  3.8171e-04, -3.4828e-03,  2.6965e-04, -8.8513e-06,
+         4.0054e-04, -2.7680e-04,  1.8320e-03,  2.8419e-04, -2.9355e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 61, time 214.05, cls_loss 0.0076 cls_loss_mapping 0.0142 cls_loss_causal 0.6571 re_mapping 0.0123 re_causal 0.0371 /// teacc 98.80 lr 0.00010000
+Epoch 63, weight, value: tensor([[-0.0051, -0.0115, -0.0105,  ..., -0.0886, -0.0154, -0.0397],
+        [ 0.0090, -0.0336, -0.0569,  ...,  0.0005, -0.0062, -0.0703],
+        [ 0.0387, -0.0583, -0.0285,  ...,  0.0247, -0.0662,  0.0324],
+        ...,
+        [ 0.0130, -0.0280, -0.0545,  ..., -0.0493,  0.0136,  0.0682],
+        [ 0.0435, -0.0611, -0.0466,  ..., -0.0374, -0.0161, -0.0205],
+        [-0.0955,  0.0015,  0.0728,  ...,  0.0488, -0.0243, -0.0462]],
+       device='cuda:0'), grad: tensor([[-6.0588e-05,  7.3463e-06,  2.8417e-05,  ...,  2.1160e-06,
+          4.1910e-08, -3.2604e-05],
+        [ 4.9680e-05,  7.4096e-06,  5.4911e-06,  ..., -3.9078e-06,
+         -6.5565e-07,  3.1680e-05],
+        [ 1.0848e-04,  3.5763e-05,  1.0699e-04,  ...,  1.5542e-05,
+          1.7742e-07,  8.9586e-05],
+        ...,
+        [-1.4687e-04, -9.1672e-05,  2.9176e-05,  ...,  1.7837e-05,
+         -4.0233e-07, -3.7551e-04],
+        [-3.8087e-05,  1.2711e-05,  4.9382e-05,  ...,  7.0594e-06,
+          8.8476e-08,  7.8857e-05],
+        [ 4.3422e-05, -4.2729e-06, -2.3231e-05,  ..., -7.7903e-05,
+          2.3935e-07,  8.5652e-05]], device='cuda:0')
+Epoch 63, bias, value: tensor([-0.0234, -0.0192, -0.0293,  0.0041,  0.0016,  0.0313,  0.0148, -0.0244,
+         0.0133, -0.0029], device='cuda:0'), grad: tensor([-4.2176e-04,  1.1176e-04,  4.4298e-04,  2.7370e-04, -2.2435e-04,
+         5.6356e-05,  4.3511e-05, -5.5742e-04,  4.8667e-05,  2.2626e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 62, time 214.17, cls_loss 0.0078 cls_loss_mapping 0.0149 cls_loss_causal 0.6220 re_mapping 0.0129 re_causal 0.0379 /// teacc 98.86 lr 0.00010000
+Epoch 64, weight, value: tensor([[-0.0048, -0.0116, -0.0104,  ..., -0.0891, -0.0156, -0.0400],
+        [ 0.0086, -0.0337, -0.0564,  ...,  0.0013, -0.0054, -0.0703],
+        [ 0.0391, -0.0584, -0.0289,  ...,  0.0246, -0.0669,  0.0327],
+        ...,
+        [ 0.0128, -0.0279, -0.0554,  ..., -0.0505,  0.0130,  0.0689],
+        [ 0.0442, -0.0615, -0.0468,  ..., -0.0373, -0.0163, -0.0211],
+        [-0.0962,  0.0016,  0.0729,  ...,  0.0490, -0.0246, -0.0471]],
+       device='cuda:0'), grad: tensor([[-1.7214e-04,  3.5837e-06, -5.1968e-06,  ...,  3.7998e-06,
+          0.0000e+00,  9.5367e-06],
+        [ 1.2957e-05,  1.8999e-05,  8.4750e-08,  ...,  1.0848e-05,
+          0.0000e+00,  2.7433e-05],
+        [-6.6161e-06,  1.0617e-05,  3.6918e-06,  ...,  8.0466e-06,
+          0.0000e+00, -5.4479e-05],
+        ...,
+        [ 9.0227e-06,  1.4283e-05,  3.9302e-06,  ...,  2.2367e-05,
+          0.0000e+00,  2.4721e-05],
+        [ 6.0409e-05,  3.6359e-05,  2.4617e-05,  ...,  3.8385e-05,
+          0.0000e+00,  4.8965e-05],
+        [ 5.8651e-05,  9.7975e-06, -2.8417e-05,  ..., -1.0416e-05,
+          0.0000e+00,  3.7491e-05]], device='cuda:0')
+Epoch 64, bias, value: tensor([-0.0230, -0.0189, -0.0297,  0.0031,  0.0018,  0.0322,  0.0141, -0.0241,
+         0.0135, -0.0034], device='cuda:0'), grad: tensor([-3.9101e-04,  5.9545e-05, -2.2456e-05, -1.8339e-03,  2.7329e-05,
+         1.8711e-03, -1.6928e-04,  7.2539e-05,  2.2662e-04,  1.5986e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 63, time 213.72, cls_loss 0.0082 cls_loss_mapping 0.0155 cls_loss_causal 0.6341 re_mapping 0.0123 re_causal 0.0364 /// teacc 98.84 lr 0.00010000
+Epoch 65, weight, value: tensor([[-0.0045, -0.0120, -0.0108,  ..., -0.0900, -0.0156, -0.0408],
+        [ 0.0085, -0.0345, -0.0560,  ...,  0.0018, -0.0053, -0.0713],
+        [ 0.0394, -0.0590, -0.0293,  ...,  0.0246, -0.0670,  0.0337],
+        ...,
+        [ 0.0126, -0.0274, -0.0558,  ..., -0.0508,  0.0130,  0.0692],
+        [ 0.0442, -0.0620, -0.0477,  ..., -0.0385, -0.0163, -0.0218],
+        [-0.0969,  0.0014,  0.0732,  ...,  0.0492, -0.0246, -0.0479]],
+       device='cuda:0'), grad: tensor([[-1.1876e-05,  1.8835e-05,  1.8343e-05,  ...,  1.5557e-05,
+          0.0000e+00,  2.6494e-05],
+        [ 1.7695e-06,  1.9163e-05, -5.5544e-06,  ..., -2.5004e-05,
+          0.0000e+00,  2.2143e-05],
+        [-2.2233e-05,  2.5824e-05,  3.8266e-05,  ...,  4.2856e-05,
+          0.0000e+00, -1.3709e-04],
+        ...,
+        [ 2.2072e-06, -2.4829e-06,  5.4479e-05,  ...,  5.4955e-05,
+          0.0000e+00, -2.5406e-05],
+        [-6.5006e-06,  7.4625e-05,  1.1396e-04,  ...,  1.4377e-04,
+          0.0000e+00,  6.4969e-05],
+        [ 1.2457e-05,  7.5436e-04,  1.3914e-03,  ...,  1.4553e-03,
+          0.0000e+00,  6.2346e-05]], device='cuda:0')
+Epoch 65, bias, value: tensor([-0.0229, -0.0192, -0.0292,  0.0037,  0.0017,  0.0323,  0.0145, -0.0238,
+         0.0126, -0.0038], device='cuda:0'), grad: tensor([ 3.8445e-05, -1.3456e-05, -5.4359e-05, -1.0222e-04, -3.1624e-03,
+         6.8724e-05,  2.7388e-05,  9.2924e-05,  2.8682e-04,  2.8191e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 64, time 213.98, cls_loss 0.0070 cls_loss_mapping 0.0123 cls_loss_causal 0.6522 re_mapping 0.0121 re_causal 0.0359 /// teacc 98.78 lr 0.00010000
+Epoch 66, weight, value: tensor([[-0.0040, -0.0120, -0.0105,  ..., -0.0903, -0.0157, -0.0414],
+        [ 0.0080, -0.0349, -0.0558,  ...,  0.0022, -0.0053, -0.0716],
+        [ 0.0396, -0.0597, -0.0299,  ...,  0.0245, -0.0670,  0.0339],
+        ...,
+        [ 0.0123, -0.0279, -0.0564,  ..., -0.0514,  0.0130,  0.0694],
+        [ 0.0445, -0.0626, -0.0483,  ..., -0.0394, -0.0164, -0.0219],
+        [-0.0974,  0.0023,  0.0736,  ...,  0.0497, -0.0246, -0.0476]],
+       device='cuda:0'), grad: tensor([[-1.2023e-06,  1.0254e-06,  6.8657e-06,  ...,  4.3586e-06,
+          3.0245e-07,  1.9856e-06],
+        [ 7.0445e-06, -1.4473e-06, -5.8442e-05,  ..., -9.5189e-05,
+         -8.3745e-06,  1.9027e-06],
+        [-2.3711e-06, -7.2876e-08,  7.2680e-06,  ..., -4.9965e-07,
+          2.6217e-07, -2.7150e-05],
+        ...,
+        [-2.2613e-06, -4.0047e-06,  3.3021e-05,  ...,  4.5925e-05,
+          4.6678e-06, -9.7975e-06],
+        [-2.5794e-05,  1.6168e-06, -1.0319e-05,  ...,  1.1384e-05,
+          7.2131e-07,  3.5800e-06],
+        [ 1.2897e-05, -3.3416e-06, -2.6729e-06,  ..., -3.9637e-06,
+          1.1139e-06,  3.8967e-06]], device='cuda:0')
+Epoch 66, bias, value: tensor([-0.0220, -0.0191, -0.0295,  0.0034,  0.0014,  0.0320,  0.0149, -0.0244,
+         0.0128, -0.0035], device='cuda:0'), grad: tensor([ 4.7795e-06, -1.4114e-04, -1.9461e-05,  5.9485e-05,  3.9190e-05,
+         5.5671e-05, -4.9204e-05,  6.2883e-05, -4.8578e-05,  3.6240e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 65----------------------------------------------------
+epoch 65, time 231.41, cls_loss 0.0065 cls_loss_mapping 0.0140 cls_loss_causal 0.6513 re_mapping 0.0122 re_causal 0.0371 /// teacc 98.91 lr 0.00010000
+Epoch 67, weight, value: tensor([[-0.0042, -0.0125, -0.0107,  ..., -0.0915, -0.0158, -0.0424],
+        [ 0.0078, -0.0343, -0.0552,  ...,  0.0032, -0.0053, -0.0717],
+        [ 0.0393, -0.0612, -0.0310,  ...,  0.0233, -0.0672,  0.0339],
+        ...,
+        [ 0.0123, -0.0273, -0.0573,  ..., -0.0524,  0.0131,  0.0702],
+        [ 0.0441, -0.0631, -0.0486,  ..., -0.0407, -0.0164, -0.0221],
+        [-0.0977,  0.0021,  0.0741,  ...,  0.0503, -0.0248, -0.0486]],
+       device='cuda:0'), grad: tensor([[-1.1188e-04, -1.6049e-05, -8.2731e-05,  ...,  1.9640e-05,
+          1.3015e-07,  1.3575e-05],
+        [ 1.1891e-05,  1.3150e-05,  1.1427e-06,  ...,  1.4738e-07,
+          1.1688e-07,  3.8475e-05],
+        [-7.5459e-05, -6.4969e-05,  5.2638e-06,  ..., -5.1767e-05,
+          3.8883e-08, -3.9816e-04],
+        ...,
+        [-1.2212e-05, -5.4598e-05,  1.1414e-05,  ...,  1.6645e-05,
+         -2.3190e-06,  7.2159e-06],
+        [ 2.7329e-05,  6.7294e-05,  8.2254e-05,  ...,  7.4685e-05,
+          4.1188e-07,  1.1516e-04],
+        [ 8.5652e-05, -2.8586e-04, -5.4598e-04,  ..., -4.9782e-04,
+          9.2899e-07,  2.7135e-05]], device='cuda:0')
+Epoch 67, bias, value: tensor([-0.0224, -0.0188, -0.0301,  0.0037,  0.0018,  0.0326,  0.0147, -0.0243,
+         0.0123, -0.0036], device='cuda:0'), grad: tensor([-2.8467e-04,  6.2525e-05, -6.1798e-04,  3.1066e-04,  5.4932e-04,
+         7.2837e-05,  6.6876e-05, -8.7023e-05,  2.7919e-04, -3.5143e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 66, time 214.04, cls_loss 0.0064 cls_loss_mapping 0.0132 cls_loss_causal 0.6351 re_mapping 0.0120 re_causal 0.0347 /// teacc 98.82 lr 0.00010000
+Epoch 68, weight, value: tensor([[-0.0044, -0.0127, -0.0112,  ..., -0.0917, -0.0163, -0.0429],
+        [ 0.0077, -0.0346, -0.0553,  ...,  0.0034, -0.0052, -0.0721],
+        [ 0.0391, -0.0621, -0.0312,  ...,  0.0229, -0.0673,  0.0346],
+        ...,
+        [ 0.0127, -0.0267, -0.0573,  ..., -0.0524,  0.0130,  0.0707],
+        [ 0.0442, -0.0637, -0.0487,  ..., -0.0410, -0.0168, -0.0232],
+        [-0.0977,  0.0020,  0.0745,  ...,  0.0505, -0.0250, -0.0492]],
+       device='cuda:0'), grad: tensor([[ 3.9558e-07,  7.7188e-06,  5.9754e-06,  ...,  1.9986e-06,
+          0.0000e+00,  8.6501e-06],
+        [ 1.4350e-05,  6.8694e-06,  1.6376e-05,  ..., -3.1907e-06,
+          0.0000e+00,  7.7188e-06],
+        [ 2.5347e-05,  1.1422e-05,  1.6376e-05,  ...,  2.6841e-06,
+          0.0000e+00,  1.0036e-05],
+        ...,
+        [ 1.2759e-06,  1.5888e-06,  3.9227e-06,  ...,  4.8503e-06,
+          0.0000e+00,  4.3735e-06],
+        [-3.1710e-05,  5.2750e-06,  6.0312e-06,  ...,  1.1042e-05,
+          0.0000e+00,  6.7912e-06],
+        [ 7.6294e-06,  7.2010e-06,  8.1025e-07,  ...,  6.3069e-06,
+          0.0000e+00,  8.0466e-06]], device='cuda:0')
+Epoch 68, bias, value: tensor([-0.0229, -0.0188, -0.0299,  0.0038,  0.0015,  0.0325,  0.0151, -0.0238,
+         0.0121, -0.0035], device='cuda:0'), grad: tensor([-5.7146e-06,  2.6837e-05,  8.4043e-05, -4.6670e-05,  9.9987e-06,
+        -5.1260e-05, -3.1561e-05,  2.2352e-05, -4.1425e-05,  3.3289e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 67, time 214.11, cls_loss 0.0080 cls_loss_mapping 0.0164 cls_loss_causal 0.6825 re_mapping 0.0116 re_causal 0.0348 /// teacc 98.69 lr 0.00010000
+Epoch 69, weight, value: tensor([[-0.0040, -0.0131, -0.0115,  ..., -0.0925, -0.0164, -0.0435],
+        [ 0.0075, -0.0354, -0.0547,  ...,  0.0038, -0.0052, -0.0724],
+        [ 0.0392, -0.0626, -0.0317,  ...,  0.0228, -0.0673,  0.0348],
+        ...,
+        [ 0.0128, -0.0263, -0.0582,  ..., -0.0531,  0.0130,  0.0712],
+        [ 0.0443, -0.0642, -0.0489,  ..., -0.0418, -0.0168, -0.0238],
+        [-0.0983,  0.0022,  0.0752,  ...,  0.0513, -0.0250, -0.0496]],
+       device='cuda:0'), grad: tensor([[-2.8402e-05,  3.0369e-05,  1.8403e-05,  ...,  1.9431e-05,
+          0.0000e+00,  4.5657e-05],
+        [ 2.5593e-06,  2.1353e-05, -1.2942e-05,  ..., -1.3188e-05,
+          0.0000e+00,  3.1143e-05],
+        [ 1.0051e-05,  2.3648e-05,  1.2547e-05,  ...,  1.4827e-05,
+          0.0000e+00,  3.2037e-06],
+        ...,
+        [-8.8587e-06,  2.6096e-06,  1.0669e-05,  ...,  1.2480e-05,
+          0.0000e+00,  1.0751e-05],
+        [-3.1054e-05,  2.4116e-04,  6.3777e-05,  ...,  5.3078e-05,
+          0.0000e+00,  3.4118e-04],
+        [ 1.1437e-05,  1.3329e-05, -3.8505e-05,  ..., -3.5495e-05,
+          0.0000e+00,  3.1501e-05]], device='cuda:0')
+Epoch 69, bias, value: tensor([-0.0226, -0.0187, -0.0300,  0.0031,  0.0013,  0.0331,  0.0148, -0.0236,
+         0.0119, -0.0034], device='cuda:0'), grad: tensor([ 2.7493e-05,  4.2439e-05,  1.0890e-04, -1.5688e-03,  2.1502e-05,
+         3.8338e-04,  5.5760e-05,  3.8534e-05,  8.1301e-04,  7.8797e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 68, time 213.97, cls_loss 0.0072 cls_loss_mapping 0.0149 cls_loss_causal 0.6004 re_mapping 0.0119 re_causal 0.0338 /// teacc 98.69 lr 0.00010000
+Epoch 70, weight, value: tensor([[-0.0034, -0.0133, -0.0118,  ..., -0.0932, -0.0164, -0.0440],
+        [ 0.0072, -0.0361, -0.0540,  ...,  0.0044, -0.0051, -0.0730],
+        [ 0.0397, -0.0631, -0.0321,  ...,  0.0227, -0.0674,  0.0355],
+        ...,
+        [ 0.0118, -0.0253, -0.0590,  ..., -0.0536,  0.0132,  0.0716],
+        [ 0.0453, -0.0647, -0.0493,  ..., -0.0418, -0.0168, -0.0240],
+        [-0.0988,  0.0021,  0.0757,  ...,  0.0519, -0.0254, -0.0504]],
+       device='cuda:0'), grad: tensor([[-5.1856e-05,  3.1143e-06,  1.2837e-05,  ...,  6.1207e-06,
+          0.0000e+00, -5.5181e-08],
+        [ 3.2540e-06,  9.8720e-06, -3.4153e-05,  ...,  4.9546e-06,
+          0.0000e+00, -5.9217e-05],
+        [ 9.6038e-06,  4.7013e-06,  4.0025e-05,  ...,  3.7476e-06,
+          0.0000e+00,  5.9634e-05],
+        ...,
+        [ 2.8890e-06,  5.6103e-06,  3.3855e-05,  ...,  3.6240e-05,
+          0.0000e+00, -7.4431e-06],
+        [-2.7433e-05,  2.1547e-05,  1.5823e-06,  ...,  3.0503e-05,
+          0.0000e+00,  7.2382e-06],
+        [ 3.0965e-05, -2.4557e-05, -6.4969e-05,  ..., -9.0003e-05,
+          0.0000e+00,  1.3895e-05]], device='cuda:0')
+Epoch 70, bias, value: tensor([-0.0220, -0.0190, -0.0297,  0.0041,  0.0010,  0.0316,  0.0144, -0.0239,
+         0.0131, -0.0036], device='cuda:0'), grad: tensor([-1.4234e-04, -2.6703e-04,  2.8992e-04, -7.4133e-06,  3.3468e-05,
+        -1.0872e-04,  1.5759e-04,  5.3644e-05,  1.9163e-05, -2.8953e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 69, time 214.16, cls_loss 0.0073 cls_loss_mapping 0.0139 cls_loss_causal 0.6482 re_mapping 0.0118 re_causal 0.0336 /// teacc 98.75 lr 0.00010000
+Epoch 71, weight, value: tensor([[-0.0036, -0.0140, -0.0126,  ..., -0.0946, -0.0165, -0.0449],
+        [ 0.0070, -0.0352, -0.0528,  ...,  0.0059, -0.0053, -0.0732],
+        [ 0.0398, -0.0637, -0.0327,  ...,  0.0231, -0.0675,  0.0359],
+        ...,
+        [ 0.0118, -0.0252, -0.0599,  ..., -0.0545,  0.0136,  0.0720],
+        [ 0.0456, -0.0657, -0.0495,  ..., -0.0438, -0.0169, -0.0247],
+        [-0.0995,  0.0019,  0.0759,  ...,  0.0520, -0.0255, -0.0512]],
+       device='cuda:0'), grad: tensor([[ 1.0449e-06,  1.1716e-06,  1.1191e-05,  ...,  9.5591e-06,
+          0.0000e+00,  1.7583e-06],
+        [ 6.0871e-06,  5.5842e-06, -3.7938e-05,  ..., -9.7871e-05,
+          0.0000e+00,  5.6922e-06],
+        [ 4.9062e-06,  7.9572e-06,  2.7105e-05,  ...,  3.6031e-05,
+          0.0000e+00,  1.9521e-05],
+        ...,
+        [-1.6075e-06,  6.8955e-06,  3.5971e-05,  ...,  5.5373e-05,
+          0.0000e+00, -2.4706e-05],
+        [-2.9325e-04,  5.0738e-06, -1.6764e-05,  ..., -1.0121e-04,
+          0.0000e+00,  6.2361e-06],
+        [ 6.5044e-06,  2.1443e-05,  6.0469e-05,  ...,  5.8770e-05,
+          0.0000e+00,  1.4633e-05]], device='cuda:0')
+Epoch 71, bias, value: tensor([-0.0226, -0.0186, -0.0296,  0.0037,  0.0010,  0.0326,  0.0141, -0.0235,
+         0.0128, -0.0043], device='cuda:0'), grad: tensor([ 1.3739e-05, -1.5450e-04,  9.9301e-05, -2.6762e-05, -1.7345e-04,
+         5.8937e-04, -1.8060e-04,  6.9439e-05, -3.7265e-04,  1.3602e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 70, time 214.11, cls_loss 0.0071 cls_loss_mapping 0.0138 cls_loss_causal 0.6422 re_mapping 0.0113 re_causal 0.0346 /// teacc 98.80 lr 0.00010000
+Epoch 72, weight, value: tensor([[-0.0038, -0.0142, -0.0133,  ..., -0.0954, -0.0166, -0.0453],
+        [ 0.0065, -0.0351, -0.0535,  ...,  0.0058, -0.0053, -0.0741],
+        [ 0.0398, -0.0641, -0.0331,  ...,  0.0229, -0.0677,  0.0355],
+        ...,
+        [ 0.0115, -0.0246, -0.0604,  ..., -0.0550,  0.0136,  0.0735],
+        [ 0.0460, -0.0662, -0.0498,  ..., -0.0443, -0.0170, -0.0252],
+        [-0.0995,  0.0020,  0.0773,  ...,  0.0532, -0.0255, -0.0519]],
+       device='cuda:0'), grad: tensor([[ 1.5140e-05,  1.2573e-06,  1.3769e-05,  ...,  2.2277e-06,
+          0.0000e+00,  3.5726e-06],
+        [ 1.9521e-06,  7.2410e-07,  2.6170e-06,  ...,  1.4352e-06,
+          0.0000e+00,  1.5954e-06],
+        [-4.5262e-06,  1.1446e-06,  3.7402e-06,  ..., -1.1645e-05,
+          0.0000e+00, -2.5123e-05],
+        ...,
+        [-1.8310e-06, -2.6450e-06,  1.9111e-06,  ...,  2.8349e-06,
+          0.0000e+00, -4.2915e-06],
+        [-1.2182e-05,  1.5358e-06,  5.4874e-06,  ...,  6.0014e-06,
+          0.0000e+00, -3.5693e-07],
+        [ 3.5074e-06, -2.5611e-06,  1.5497e-06,  ...,  1.5153e-06,
+          0.0000e+00,  1.6270e-06]], device='cuda:0')
+Epoch 72, bias, value: tensor([-0.0234, -0.0189, -0.0305,  0.0035,  0.0006,  0.0326,  0.0142, -0.0226,
+         0.0128, -0.0034], device='cuda:0'), grad: tensor([ 3.4243e-05,  4.3139e-06, -3.7909e-05,  2.4721e-05,  3.5018e-05,
+        -3.6545e-06, -4.7922e-05, -2.3022e-06, -1.6853e-05,  1.0319e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 71, time 213.85, cls_loss 0.0074 cls_loss_mapping 0.0130 cls_loss_causal 0.6313 re_mapping 0.0109 re_causal 0.0332 /// teacc 98.76 lr 0.00010000
+Epoch 73, weight, value: tensor([[-0.0037, -0.0145, -0.0136,  ..., -0.0962, -0.0167, -0.0461],
+        [ 0.0061, -0.0346, -0.0526,  ...,  0.0055, -0.0052, -0.0733],
+        [ 0.0409, -0.0646, -0.0334,  ...,  0.0246, -0.0679,  0.0346],
+        ...,
+        [ 0.0115, -0.0242, -0.0615,  ..., -0.0560,  0.0135,  0.0758],
+        [ 0.0461, -0.0666, -0.0501,  ..., -0.0446, -0.0171, -0.0266],
+        [-0.1003,  0.0018,  0.0772,  ...,  0.0531, -0.0256, -0.0526]],
+       device='cuda:0'), grad: tensor([[-2.6926e-05,  2.0072e-05, -1.3411e-05,  ...,  1.7852e-05,
+          9.6858e-08,  9.5248e-05],
+        [ 1.3486e-05,  3.0732e-04,  2.8820e-03,  ...,  2.0218e-03,
+         -2.5658e-07,  9.2149e-05],
+        [-9.5785e-05, -4.7475e-05,  2.9787e-05,  ...,  1.5691e-05,
+          6.0303e-08, -8.7547e-04],
+        ...,
+        [ 3.6806e-05,  5.1856e-05,  1.8191e-04,  ...,  1.2875e-04,
+          1.4086e-07,  2.8253e-04],
+        [ 1.8060e-05,  8.7500e-05,  1.0484e-04,  ...,  6.3837e-05,
+          1.1222e-07,  1.5008e-04],
+        [ 9.9242e-06, -2.8038e-04,  1.3602e-04,  ..., -5.1677e-05,
+          2.5611e-08,  3.6389e-05]], device='cuda:0')
+Epoch 73, bias, value: tensor([-0.0233, -0.0179, -0.0304,  0.0026,  0.0008,  0.0324,  0.0146, -0.0221,
+         0.0125, -0.0040], device='cuda:0'), grad: tensor([-1.1891e-04,  3.8986e-03, -1.0281e-03, -3.8296e-05, -4.4518e-03,
+         3.3545e-04,  1.9109e-04,  6.2513e-04,  4.4823e-04,  1.4150e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 72, time 214.04, cls_loss 0.0062 cls_loss_mapping 0.0121 cls_loss_causal 0.6364 re_mapping 0.0109 re_causal 0.0324 /// teacc 98.81 lr 0.00010000
+Epoch 74, weight, value: tensor([[-0.0038, -0.0148, -0.0136,  ..., -0.0971, -0.0169, -0.0464],
+        [ 0.0054, -0.0352, -0.0534,  ...,  0.0052, -0.0051, -0.0735],
+        [ 0.0408, -0.0654, -0.0339,  ...,  0.0244, -0.0682,  0.0349],
+        ...,
+        [ 0.0117, -0.0241, -0.0623,  ..., -0.0566,  0.0135,  0.0761],
+        [ 0.0467, -0.0671, -0.0503,  ..., -0.0446, -0.0173, -0.0274],
+        [-0.1008,  0.0026,  0.0780,  ...,  0.0539, -0.0256, -0.0532]],
+       device='cuda:0'), grad: tensor([[ 9.7677e-06,  1.6708e-06,  8.7321e-06,  ...,  4.3809e-06,
+          3.7439e-07,  3.9190e-06],
+        [ 6.6124e-06,  9.3356e-06, -1.2465e-05,  ..., -3.0268e-06,
+         -1.0552e-06,  1.5162e-05],
+        [ 4.5784e-06,  2.2314e-06,  4.5486e-06,  ...,  5.3048e-06,
+          1.0640e-07, -7.2658e-05],
+        ...,
+        [-4.6206e-04, -2.4652e-04, -1.3185e-04,  ..., -5.1546e-04,
+          3.7672e-07, -2.5773e-04],
+        [ 7.1898e-06,  3.1032e-06,  5.1074e-06,  ...,  1.1854e-05,
+          3.5577e-07,  9.4995e-06],
+        [ 4.3297e-04,  2.2483e-04,  1.2839e-04,  ...,  4.9067e-04,
+          4.7963e-08,  2.8300e-04]], device='cuda:0')
+Epoch 74, bias, value: tensor([-0.0234, -0.0180, -0.0307,  0.0025,  0.0008,  0.0321,  0.0147, -0.0223,
+         0.0131, -0.0037], device='cuda:0'), grad: tensor([ 2.6405e-05, -3.7104e-05, -2.9698e-05,  3.2663e-05,  2.9951e-05,
+         1.7092e-05, -1.4283e-05, -2.0828e-03,  4.9978e-05,  2.0084e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 73, time 213.91, cls_loss 0.0049 cls_loss_mapping 0.0105 cls_loss_causal 0.5973 re_mapping 0.0106 re_causal 0.0321 /// teacc 98.80 lr 0.00010000
+Epoch 75, weight, value: tensor([[-0.0037, -0.0150, -0.0139,  ..., -0.0980, -0.0170, -0.0472],
+        [ 0.0053, -0.0358, -0.0535,  ...,  0.0052, -0.0050, -0.0740],
+        [ 0.0410, -0.0653, -0.0343,  ...,  0.0246, -0.0688,  0.0360],
+        ...,
+        [ 0.0114, -0.0242, -0.0630,  ..., -0.0577,  0.0133,  0.0761],
+        [ 0.0472, -0.0676, -0.0507,  ..., -0.0452, -0.0180, -0.0278],
+        [-0.1011,  0.0031,  0.0785,  ...,  0.0545, -0.0258, -0.0535]],
+       device='cuda:0'), grad: tensor([[ 2.9281e-05,  1.1912e-06,  4.5449e-05,  ...,  3.4999e-06,
+          1.4086e-07,  2.9534e-05],
+        [ 3.1758e-06,  4.6268e-06, -7.9302e-07,  ..., -2.7958e-06,
+          4.2608e-08,  1.1966e-05],
+        [ 2.8834e-05,  9.0972e-06,  2.3738e-05,  ...,  3.5763e-06,
+          4.3074e-08, -4.6380e-06],
+        ...,
+        [ 1.5320e-06, -2.5146e-08,  8.1584e-06,  ...,  1.3381e-05,
+          1.3667e-07,  1.5646e-05],
+        [-1.5223e-04,  5.4203e-06, -1.3137e-04,  ...,  5.7042e-05,
+          5.4110e-07, -1.9228e-04],
+        [ 5.2989e-05, -2.1458e-05, -9.9093e-06,  ..., -5.5879e-05,
+          1.7532e-07,  3.8624e-05]], device='cuda:0')
+Epoch 75, bias, value: tensor([-0.0236, -0.0183, -0.0299,  0.0022,  0.0011,  0.0320,  0.0146, -0.0227,
+         0.0132, -0.0034], device='cuda:0'), grad: tensor([ 5.7369e-05,  1.5900e-05,  6.4373e-05,  2.6560e-04,  1.5095e-05,
+        -6.7949e-05,  8.1956e-05,  3.2783e-05, -5.1546e-04,  5.0128e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 74, time 214.11, cls_loss 0.0064 cls_loss_mapping 0.0122 cls_loss_causal 0.6505 re_mapping 0.0106 re_causal 0.0332 /// teacc 98.82 lr 0.00010000
+Epoch 76, weight, value: tensor([[-0.0047, -0.0152, -0.0149,  ..., -0.0992, -0.0172, -0.0479],
+        [ 0.0034, -0.0367, -0.0537,  ...,  0.0042, -0.0050, -0.0744],
+        [ 0.0415, -0.0653, -0.0348,  ...,  0.0264, -0.0692,  0.0364],
+        ...,
+        [ 0.0115, -0.0242, -0.0637,  ..., -0.0588,  0.0133,  0.0761],
+        [ 0.0479, -0.0680, -0.0508,  ..., -0.0457, -0.0183, -0.0282],
+        [-0.1007,  0.0028,  0.0784,  ...,  0.0539, -0.0260, -0.0541]],
+       device='cuda:0'), grad: tensor([[ 1.4447e-05,  2.6766e-06,  1.4983e-05,  ...,  1.3381e-05,
+          3.6322e-08,  2.6375e-06],
+        [ 8.5905e-06,  6.5304e-06, -4.2329e-07,  ..., -5.8599e-06,
+          1.0477e-08,  5.9977e-06],
+        [ 4.1544e-05,  1.1198e-05,  2.7478e-05,  ...,  1.6093e-05,
+          4.5402e-08,  1.2666e-06],
+        ...,
+        [ 4.3213e-06,  4.2208e-06,  2.2709e-05,  ...,  3.1024e-05,
+          4.4238e-09, -4.7013e-06],
+        [-9.0897e-05,  9.3058e-06, -1.8075e-05,  ...,  5.3525e-05,
+          5.7742e-08, -8.8066e-06],
+        [ 4.3124e-05, -1.8284e-05, -2.1756e-05,  ...,  4.5508e-05,
+          1.0710e-08,  1.2055e-05]], device='cuda:0')
+Epoch 76, bias, value: tensor([-0.0247, -0.0192, -0.0293,  0.0025,  0.0024,  0.0319,  0.0147, -0.0229,
+         0.0137, -0.0036], device='cuda:0'), grad: tensor([ 3.9965e-05,  4.2953e-06,  1.1629e-04,  4.5091e-05, -3.9130e-05,
+        -2.8181e-04,  1.0043e-04,  4.8548e-05, -1.4567e-04,  1.1200e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 75, time 214.26, cls_loss 0.0053 cls_loss_mapping 0.0126 cls_loss_causal 0.6224 re_mapping 0.0111 re_causal 0.0337 /// teacc 98.76 lr 0.00010000
+Epoch 77, weight, value: tensor([[-0.0045, -0.0153, -0.0153,  ..., -0.0996, -0.0174, -0.0488],
+        [ 0.0034, -0.0371, -0.0535,  ...,  0.0047, -0.0050, -0.0751],
+        [ 0.0414, -0.0657, -0.0353,  ...,  0.0263, -0.0700,  0.0365],
+        ...,
+        [ 0.0121, -0.0244, -0.0643,  ..., -0.0592,  0.0133,  0.0771],
+        [ 0.0485, -0.0686, -0.0511,  ..., -0.0459, -0.0183, -0.0291],
+        [-0.1011,  0.0031,  0.0791,  ...,  0.0542, -0.0260, -0.0546]],
+       device='cuda:0'), grad: tensor([[-2.7847e-04,  9.2620e-07, -1.3578e-04,  ..., -2.3127e-05,
+          0.0000e+00, -6.3121e-05],
+        [ 1.3068e-05,  2.7493e-06, -3.8952e-05,  ..., -6.4969e-05,
+          0.0000e+00,  1.6585e-05],
+        [ 3.7819e-05, -1.0198e-04,  8.0645e-05,  ...,  5.0873e-05,
+          0.0000e+00, -6.5184e-04],
+        ...,
+        [ 4.0457e-06,  9.1136e-05,  1.0081e-05,  ...,  9.3579e-06,
+          0.0000e+00,  5.8222e-04],
+        [ 2.5094e-05,  4.9844e-06,  3.0413e-05,  ...,  8.3074e-06,
+          0.0000e+00,  2.8715e-05],
+        [ 1.7285e-04, -8.3633e-07,  7.9155e-05,  ...,  2.7176e-06,
+          0.0000e+00,  5.4836e-05]], device='cuda:0')
+Epoch 77, bias, value: tensor([-0.0247, -0.0192, -0.0295,  0.0026,  0.0020,  0.0313,  0.0147, -0.0223,
+         0.0137, -0.0035], device='cuda:0'), grad: tensor([-1.0424e-03, -6.9857e-05, -6.6710e-04,  1.5211e-04,  8.8573e-05,
+         3.2336e-05, -1.6129e-04,  8.5878e-04,  1.3924e-04,  6.6948e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 76, time 213.78, cls_loss 0.0071 cls_loss_mapping 0.0114 cls_loss_causal 0.6075 re_mapping 0.0105 re_causal 0.0298 /// teacc 98.79 lr 0.00010000
+Epoch 78, weight, value: tensor([[-0.0041, -0.0155, -0.0162,  ..., -0.1015, -0.0175, -0.0491],
+        [ 0.0031, -0.0371, -0.0537,  ...,  0.0049, -0.0050, -0.0753],
+        [ 0.0414, -0.0661, -0.0356,  ...,  0.0261, -0.0701,  0.0369],
+        ...,
+        [ 0.0122, -0.0251, -0.0650,  ..., -0.0593,  0.0133,  0.0768],
+        [ 0.0488, -0.0688, -0.0514,  ..., -0.0468, -0.0184, -0.0296],
+        [-0.1014,  0.0034,  0.0801,  ...,  0.0554, -0.0260, -0.0549]],
+       device='cuda:0'), grad: tensor([[-3.6329e-05, -2.2631e-06, -9.1270e-06,  ...,  4.7535e-06,
+          6.0536e-09,  6.0126e-06],
+        [ 9.2685e-06,  1.5283e-06, -1.3135e-05,  ..., -1.8731e-05,
+         -2.2119e-07,  9.1568e-06],
+        [-8.2791e-05,  1.2349e-06,  5.0627e-06,  ..., -1.5870e-05,
+          1.2573e-08, -1.2034e-04],
+        ...,
+        [ 4.4741e-06,  1.7202e-06,  1.3180e-05,  ...,  1.3962e-05,
+          5.2620e-08,  1.1753e-06],
+        [ 4.6909e-05,  2.0806e-06,  1.9521e-05,  ...,  1.8314e-05,
+          4.1444e-08,  2.9698e-05],
+        [ 2.6435e-05,  5.6848e-06,  1.7390e-05,  ...,  9.1717e-06,
+          1.9092e-08,  1.7742e-06]], device='cuda:0')
+Epoch 78, bias, value: tensor([-0.0247, -0.0191, -0.0296,  0.0028,  0.0012,  0.0315,  0.0144, -0.0224,
+         0.0135, -0.0028], device='cuda:0'), grad: tensor([-5.3555e-05, -2.8595e-05, -5.5122e-04,  2.6751e-04, -1.8114e-06,
+         2.6569e-05,  1.3104e-06,  6.8009e-05,  1.9526e-04,  7.6950e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 77, time 214.34, cls_loss 0.0068 cls_loss_mapping 0.0119 cls_loss_causal 0.6067 re_mapping 0.0102 re_causal 0.0299 /// teacc 98.79 lr 0.00010000
+Epoch 79, weight, value: tensor([[-0.0041, -0.0158, -0.0172,  ..., -0.1046, -0.0177, -0.0492],
+        [ 0.0028, -0.0357, -0.0535,  ...,  0.0053, -0.0048, -0.0743],
+        [ 0.0413, -0.0668, -0.0364,  ...,  0.0259, -0.0707,  0.0368],
+        ...,
+        [ 0.0123, -0.0261, -0.0662,  ..., -0.0601,  0.0135,  0.0762],
+        [ 0.0494, -0.0692, -0.0517,  ..., -0.0475, -0.0188, -0.0301],
+        [-0.1023,  0.0037,  0.0811,  ...,  0.0565, -0.0262, -0.0552]],
+       device='cuda:0'), grad: tensor([[-1.0602e-05,  5.0478e-07, -5.3942e-06,  ...,  1.7211e-06,
+          1.2573e-08,  7.4832e-07],
+        [ 1.1865e-06,  9.1037e-07, -3.1590e-06,  ..., -6.8322e-06,
+         -5.0664e-07,  2.7530e-06],
+        [ 3.9451e-06,  2.0303e-06,  2.6412e-06,  ...,  1.9465e-06,
+          1.0338e-07,  1.1109e-05],
+        ...,
+        [ 6.5193e-09,  8.9779e-06,  2.2613e-06,  ...,  3.9674e-06,
+          1.3271e-07,  8.6939e-07],
+        [-5.8748e-06,  1.0300e-06,  4.1686e-06,  ...,  3.3397e-06,
+          4.0513e-08,  4.3362e-06],
+        [ 5.5507e-06, -1.0720e-06, -1.5954e-06,  ..., -6.3097e-07,
+          4.3306e-08,  2.5406e-06]], device='cuda:0')
+Epoch 79, bias, value: tensor([-0.0257, -0.0196, -0.0299,  0.0031,  0.0012,  0.0312,  0.0149, -0.0220,
+         0.0139, -0.0023], device='cuda:0'), grad: tensor([-6.2108e-05, -7.9945e-06,  2.6584e-05,  5.4464e-06,  7.0706e-06,
+         3.9935e-06, -2.6636e-07,  8.9854e-06,  1.5832e-08,  1.8224e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 78, time 214.07, cls_loss 0.0059 cls_loss_mapping 0.0125 cls_loss_causal 0.6306 re_mapping 0.0107 re_causal 0.0316 /// teacc 98.71 lr 0.00010000
+Epoch 80, weight, value: tensor([[-0.0029, -0.0160, -0.0169,  ..., -0.1053, -0.0179, -0.0491],
+        [ 0.0026, -0.0360, -0.0538,  ...,  0.0054, -0.0046, -0.0745],
+        [ 0.0412, -0.0676, -0.0376,  ...,  0.0256, -0.0709,  0.0371],
+        ...,
+        [ 0.0122, -0.0269, -0.0668,  ..., -0.0607,  0.0136,  0.0759],
+        [ 0.0493, -0.0696, -0.0524,  ..., -0.0488, -0.0189, -0.0306],
+        [-0.1032,  0.0034,  0.0811,  ...,  0.0565, -0.0263, -0.0560]],
+       device='cuda:0'), grad: tensor([[ 5.2974e-06,  1.0859e-06,  2.4214e-06,  ...,  2.4378e-05,
+          0.0000e+00,  3.5949e-07],
+        [ 2.6580e-06,  1.3532e-06, -6.6981e-06,  ..., -1.2200e-06,
+          0.0000e+00,  1.0598e-06],
+        [ 1.1615e-05,  8.7358e-07,  3.0920e-06,  ...,  3.2157e-05,
+          0.0000e+00, -2.5406e-06],
+        ...,
+        [ 1.9390e-06,  5.0329e-06,  1.4499e-05,  ...,  2.3559e-05,
+          0.0000e+00, -1.3281e-06],
+        [ 4.7572e-06,  1.0982e-05,  3.5197e-05,  ...,  6.2168e-05,
+          0.0000e+00,  8.1537e-07],
+        [ 6.3106e-06, -2.9430e-05, -6.4850e-05,  ..., -4.8608e-05,
+          0.0000e+00, -1.5330e-06]], device='cuda:0')
+Epoch 80, bias, value: tensor([-0.0248, -0.0196, -0.0302,  0.0037,  0.0021,  0.0312,  0.0145, -0.0223,
+         0.0131, -0.0026], device='cuda:0'), grad: tensor([ 7.9155e-05, -9.1717e-06,  1.1224e-04,  2.2912e-04,  1.5542e-05,
+        -6.8521e-04,  8.8811e-05,  6.3598e-05,  1.5545e-04, -4.9829e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 79, time 214.13, cls_loss 0.0078 cls_loss_mapping 0.0123 cls_loss_causal 0.6312 re_mapping 0.0107 re_causal 0.0313 /// teacc 98.67 lr 0.00010000
+Epoch 81, weight, value: tensor([[-0.0037, -0.0162, -0.0173,  ..., -0.1063, -0.0181, -0.0495],
+        [ 0.0024, -0.0364, -0.0535,  ...,  0.0045, -0.0038, -0.0750],
+        [ 0.0412, -0.0681, -0.0383,  ...,  0.0268, -0.0714,  0.0382],
+        ...,
+        [ 0.0123, -0.0267, -0.0674,  ..., -0.0613,  0.0136,  0.0761],
+        [ 0.0489, -0.0701, -0.0532,  ..., -0.0500, -0.0190, -0.0318],
+        [-0.1039,  0.0034,  0.0810,  ...,  0.0564, -0.0265, -0.0568]],
+       device='cuda:0'), grad: tensor([[-1.5235e-04,  2.7679e-06, -1.0192e-04,  ...,  9.5516e-06,
+          0.0000e+00,  3.6694e-06],
+        [ 6.5863e-06,  4.8615e-06,  8.7768e-06,  ...,  3.7514e-06,
+          0.0000e+00,  1.4879e-05],
+        [ 1.0163e-04,  7.6830e-05,  1.4231e-05,  ...,  9.8348e-06,
+          0.0000e+00,  2.2602e-04],
+        ...,
+        [-1.5795e-04, -3.1328e-04, -3.6812e-04,  ...,  4.2826e-05,
+          0.0000e+00, -5.5695e-04],
+        [ 3.1441e-05,  6.2026e-06,  2.7597e-05,  ...,  4.7773e-05,
+          0.0000e+00,  3.2157e-05],
+        [ 1.7881e-04,  5.9795e-04,  4.7989e-03,  ...,  3.7384e-03,
+          0.0000e+00,  2.6464e-04]], device='cuda:0')
+Epoch 81, bias, value: tensor([-0.0251, -0.0199, -0.0295,  0.0034,  0.0027,  0.0318,  0.0155, -0.0223,
+         0.0120, -0.0031], device='cuda:0'), grad: tensor([-4.0102e-04,  3.9369e-05,  3.1781e-04,  9.2149e-05, -6.5002e-03,
+        -1.1109e-05,  3.3379e-05, -1.5364e-03,  1.3912e-04,  7.8278e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 80, time 214.31, cls_loss 0.0055 cls_loss_mapping 0.0096 cls_loss_causal 0.6093 re_mapping 0.0106 re_causal 0.0313 /// teacc 98.83 lr 0.00010000
+Epoch 82, weight, value: tensor([[-0.0034, -0.0163, -0.0179,  ..., -0.1070, -0.0181, -0.0500],
+        [ 0.0022, -0.0366, -0.0534,  ...,  0.0047, -0.0037, -0.0751],
+        [ 0.0409, -0.0689, -0.0392,  ...,  0.0265, -0.0716,  0.0380],
+        ...,
+        [ 0.0118, -0.0279, -0.0685,  ..., -0.0621,  0.0136,  0.0756],
+        [ 0.0490, -0.0703, -0.0534,  ..., -0.0503, -0.0190, -0.0321],
+        [-0.1045,  0.0038,  0.0825,  ...,  0.0568, -0.0265, -0.0585]],
+       device='cuda:0'), grad: tensor([[ 4.3362e-05,  9.1493e-06,  5.3704e-05,  ...,  1.3709e-06,
+          0.0000e+00,  3.7581e-05],
+        [ 1.8373e-05,  1.4529e-05,  2.1487e-05,  ...,  6.1579e-06,
+          0.0000e+00,  4.2021e-05],
+        [ 6.8426e-05,  8.4043e-06,  1.0633e-04,  ...,  5.7183e-06,
+          0.0000e+00, -2.1577e-05],
+        ...,
+        [-3.9816e-05, -6.3121e-05,  4.0919e-05,  ...,  2.6971e-05,
+          0.0000e+00, -1.5271e-04],
+        [ 8.6725e-06,  7.1414e-06,  2.6733e-05,  ...,  1.4834e-05,
+          0.0000e+00,  1.3463e-05],
+        [ 1.0654e-05, -6.5304e-06, -3.5346e-05,  ..., -4.4018e-05,
+          0.0000e+00,  2.5406e-05]], device='cuda:0')
+Epoch 82, bias, value: tensor([-0.0251, -0.0198, -0.0301,  0.0045,  0.0029,  0.0318,  0.0160, -0.0229,
+         0.0121, -0.0031], device='cuda:0'), grad: tensor([ 1.3697e-04,  9.0957e-05,  1.7393e-04,  1.2058e-04,  7.9775e-04,
+         1.5199e-04, -1.3399e-03, -1.7691e-04,  5.3376e-05, -8.8066e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 81, time 214.16, cls_loss 0.0054 cls_loss_mapping 0.0096 cls_loss_causal 0.5908 re_mapping 0.0106 re_causal 0.0305 /// teacc 98.81 lr 0.00010000
+Epoch 83, weight, value: tensor([[-0.0044, -0.0166, -0.0174,  ..., -0.1079, -0.0181, -0.0500],
+        [ 0.0020, -0.0373, -0.0536,  ...,  0.0044, -0.0038, -0.0760],
+        [ 0.0407, -0.0694, -0.0399,  ...,  0.0265, -0.0720,  0.0375],
+        ...,
+        [ 0.0121, -0.0273, -0.0694,  ..., -0.0627,  0.0138,  0.0773],
+        [ 0.0489, -0.0707, -0.0527,  ..., -0.0503, -0.0190, -0.0327],
+        [-0.1057,  0.0041,  0.0824,  ...,  0.0571, -0.0266, -0.0592]],
+       device='cuda:0'), grad: tensor([[-1.2882e-05,  6.2399e-07,  2.1607e-06,  ...,  3.6471e-06,
+          0.0000e+00,  1.8263e-06],
+        [ 6.8620e-06,  1.3262e-06, -3.9600e-06,  ..., -8.5980e-06,
+          0.0000e+00,  6.1654e-06],
+        [ 1.8813e-06,  1.4165e-06,  2.5667e-06,  ...,  3.2112e-06,
+          0.0000e+00, -1.2569e-05],
+        ...,
+        [ 4.2096e-07,  1.5117e-05,  4.3899e-05,  ...,  1.2505e-04,
+          0.0000e+00,  5.0478e-06],
+        [ 6.7428e-06,  5.2750e-06,  7.2382e-06,  ...,  5.3197e-06,
+          0.0000e+00,  6.2808e-06],
+        [ 4.0457e-06, -3.6299e-05, -1.0151e-04,  ..., -2.8300e-04,
+          0.0000e+00, -3.0212e-06]], device='cuda:0')
+Epoch 83, bias, value: tensor([-0.0256, -0.0203, -0.0306,  0.0037,  0.0029,  0.0324,  0.0173, -0.0220,
+         0.0123, -0.0035], device='cuda:0'), grad: tensor([-2.4438e-05, -3.3993e-06, -6.0908e-06, -2.2411e-05,  6.7830e-05,
+         1.1861e-04, -2.6718e-05,  1.3804e-04,  3.4302e-05, -2.7561e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 82, time 214.28, cls_loss 0.0054 cls_loss_mapping 0.0113 cls_loss_causal 0.5978 re_mapping 0.0104 re_causal 0.0309 /// teacc 98.80 lr 0.00010000
+Epoch 84, weight, value: tensor([[-0.0040, -0.0167, -0.0177,  ..., -0.1084, -0.0182, -0.0507],
+        [ 0.0014, -0.0365, -0.0511,  ...,  0.0061, -0.0035, -0.0762],
+        [ 0.0408, -0.0699, -0.0403,  ...,  0.0266, -0.0723,  0.0378],
+        ...,
+        [ 0.0127, -0.0269, -0.0724,  ..., -0.0654,  0.0138,  0.0784],
+        [ 0.0492, -0.0715, -0.0540,  ..., -0.0508, -0.0190, -0.0338],
+        [-0.1064,  0.0043,  0.0835,  ...,  0.0585, -0.0266, -0.0607]],
+       device='cuda:0'), grad: tensor([[-2.6133e-06,  3.9823e-06,  7.6070e-06,  ...,  4.6529e-06,
+          0.0000e+00,  1.7257e-06],
+        [ 4.3288e-06,  3.2037e-05,  1.5631e-05,  ...,  1.7017e-05,
+          0.0000e+00,  1.8954e-05],
+        [ 1.6307e-06,  6.3144e-06,  5.3868e-06,  ...,  1.6112e-06,
+          0.0000e+00, -1.1705e-05],
+        ...,
+        [ 2.9318e-06, -5.5641e-05,  9.4101e-06,  ...,  1.1489e-05,
+          0.0000e+00, -4.5776e-05],
+        [ 5.9277e-05,  3.9637e-05,  5.5820e-05,  ...,  2.5406e-05,
+          0.0000e+00,  1.4238e-05],
+        [ 2.4047e-06, -4.5925e-05, -6.4671e-05,  ..., -1.0151e-04,
+          0.0000e+00, -4.2692e-06]], device='cuda:0')
+Epoch 84, bias, value: tensor([-0.0253, -0.0195, -0.0305,  0.0034,  0.0018,  0.0320,  0.0173, -0.0220,
+         0.0118, -0.0030], device='cuda:0'), grad: tensor([ 5.5740e-07,  7.3910e-05, -3.8631e-06,  9.3043e-05,  1.3389e-05,
+         3.8773e-05, -2.5320e-04, -9.1612e-05,  2.2280e-04, -9.3520e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 83, time 213.97, cls_loss 0.0062 cls_loss_mapping 0.0123 cls_loss_causal 0.6255 re_mapping 0.0098 re_causal 0.0302 /// teacc 98.84 lr 0.00010000
+Epoch 85, weight, value: tensor([[-0.0036, -0.0172, -0.0181,  ..., -0.1089, -0.0182, -0.0516],
+        [ 0.0012, -0.0372, -0.0516,  ...,  0.0056, -0.0036, -0.0764],
+        [ 0.0408, -0.0683, -0.0407,  ...,  0.0266, -0.0723,  0.0395],
+        ...,
+        [ 0.0129, -0.0274, -0.0744,  ..., -0.0663,  0.0139,  0.0776],
+        [ 0.0494, -0.0725, -0.0540,  ..., -0.0514, -0.0191, -0.0348],
+        [-0.1068,  0.0048,  0.0849,  ...,  0.0595, -0.0267, -0.0608]],
+       device='cuda:0'), grad: tensor([[ 9.5963e-06,  1.5143e-06,  1.9863e-05,  ...,  6.2864e-07,
+          3.9116e-08,  3.2447e-06],
+        [ 1.8999e-06,  7.2531e-06,  3.0035e-07,  ..., -5.1409e-06,
+          3.3993e-07,  1.8075e-05],
+        [ 8.5533e-06,  9.6336e-06,  1.3903e-05,  ...,  1.5236e-06,
+          1.1129e-07,  1.3828e-05],
+        ...,
+        [ 3.6974e-07, -2.5645e-05,  3.7830e-06,  ...,  1.9930e-06,
+         -1.2899e-06, -6.2943e-05],
+        [ 4.2878e-06,  4.3847e-06,  8.3670e-06,  ...,  3.1982e-06,
+          1.0058e-07,  1.0014e-05],
+        [ 3.9190e-06,  8.2552e-06,  1.0759e-05,  ...,  3.8557e-06,
+          1.0012e-07,  1.5222e-05]], device='cuda:0')
+Epoch 85, bias, value: tensor([-0.0255, -0.0198, -0.0289,  0.0039,  0.0018,  0.0314,  0.0167, -0.0230,
+         0.0115, -0.0023], device='cuda:0'), grad: tensor([-1.2565e-04,  3.3855e-05,  1.1003e-04,  5.1744e-06, -5.2005e-05,
+         1.5885e-05, -9.0063e-05, -8.5235e-05,  5.2452e-05,  1.3554e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 84, time 214.15, cls_loss 0.0062 cls_loss_mapping 0.0117 cls_loss_causal 0.6338 re_mapping 0.0098 re_causal 0.0290 /// teacc 98.84 lr 0.00010000
+Epoch 86, weight, value: tensor([[-0.0034, -0.0173, -0.0186,  ..., -0.1094, -0.0184, -0.0523],
+        [ 0.0007, -0.0370, -0.0517,  ...,  0.0058, -0.0037, -0.0767],
+        [ 0.0406, -0.0686, -0.0415,  ...,  0.0265, -0.0731,  0.0393],
+        ...,
+        [ 0.0127, -0.0274, -0.0748,  ..., -0.0655,  0.0143,  0.0784],
+        [ 0.0504, -0.0727, -0.0541,  ..., -0.0523, -0.0194, -0.0348],
+        [-0.1074,  0.0044,  0.0839,  ...,  0.0588, -0.0269, -0.0615]],
+       device='cuda:0'), grad: tensor([[-2.8349e-06,  6.7474e-07,  5.8375e-06,  ...,  2.0489e-06,
+          0.0000e+00,  1.5935e-06],
+        [ 8.7777e-07,  2.3581e-06,  8.4713e-06,  ...,  1.0237e-05,
+          0.0000e+00,  3.1833e-06],
+        [ 9.4697e-06,  5.5209e-06,  6.3665e-06,  ...,  3.4496e-06,
+          0.0000e+00,  5.5209e-06],
+        ...,
+        [ 5.2853e-07,  1.1344e-06,  2.1935e-05,  ...,  2.6941e-05,
+          0.0000e+00, -8.6799e-07],
+        [-4.4882e-05,  1.0438e-05,  1.4432e-05,  ...,  4.5955e-05,
+          0.0000e+00,  3.8259e-06],
+        [ 8.6799e-06, -2.2337e-05, -9.9659e-05,  ..., -1.3113e-04,
+          0.0000e+00,  2.3153e-06]], device='cuda:0')
+Epoch 86, bias, value: tensor([-0.0253, -0.0200, -0.0292,  0.0030,  0.0031,  0.0324,  0.0163, -0.0223,
+         0.0121, -0.0040], device='cuda:0'), grad: tensor([ 1.0259e-05,  2.1145e-05,  4.2945e-05,  2.7433e-05,  3.4183e-05,
+         3.8087e-05,  1.5438e-05,  3.8624e-05, -8.0764e-05, -1.4722e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 85, time 214.30, cls_loss 0.0042 cls_loss_mapping 0.0093 cls_loss_causal 0.5841 re_mapping 0.0100 re_causal 0.0294 /// teacc 98.85 lr 0.00010000
+Epoch 87, weight, value: tensor([[-0.0031, -0.0175, -0.0188,  ..., -0.1098, -0.0185, -0.0536],
+        [ 0.0003, -0.0372, -0.0514,  ...,  0.0060, -0.0037, -0.0770],
+        [ 0.0411, -0.0688, -0.0422,  ...,  0.0264, -0.0734,  0.0401],
+        ...,
+        [ 0.0128, -0.0273, -0.0754,  ..., -0.0660,  0.0143,  0.0787],
+        [ 0.0500, -0.0733, -0.0548,  ..., -0.0532, -0.0195, -0.0362],
+        [-0.1079,  0.0046,  0.0840,  ...,  0.0594, -0.0269, -0.0618]],
+       device='cuda:0'), grad: tensor([[-2.5153e-04, -2.0802e-05, -1.0216e-04,  ...,  2.2771e-07,
+          1.5367e-08, -7.2300e-05],
+        [ 1.0110e-05,  2.4270e-06, -2.4531e-06,  ..., -2.2538e-06,
+         -4.4331e-07,  3.5781e-06],
+        [ 1.3568e-05,  1.3664e-05,  6.3814e-06,  ...,  4.0466e-07,
+          5.1688e-08,  2.0698e-05],
+        ...,
+        [ 1.4842e-05, -4.4823e-05,  1.0587e-05,  ...,  2.8238e-06,
+          1.3970e-07, -6.2227e-05],
+        [-7.5847e-06, -6.2697e-06, -1.0923e-05,  ...,  7.6368e-07,
+          3.8650e-08,  9.3579e-06],
+        [ 1.2314e-04,  1.6913e-05,  6.3717e-05,  ..., -5.7779e-06,
+          8.8476e-08,  4.5389e-05]], device='cuda:0')
+Epoch 87, bias, value: tensor([-0.0251, -0.0200, -0.0287,  0.0024,  0.0030,  0.0332,  0.0163, -0.0223,
+         0.0111, -0.0041], device='cuda:0'), grad: tensor([-5.3072e-04,  1.6183e-05,  4.7505e-05,  4.5985e-05,  3.6865e-05,
+         4.5389e-05,  1.1313e-04, -3.1680e-05, -2.8417e-05,  2.8539e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 86, time 214.21, cls_loss 0.0056 cls_loss_mapping 0.0105 cls_loss_causal 0.6345 re_mapping 0.0103 re_causal 0.0303 /// teacc 98.85 lr 0.00010000
+Epoch 88, weight, value: tensor([[-0.0028, -0.0182, -0.0191,  ..., -0.1097, -0.0190, -0.0543],
+        [ 0.0001, -0.0393, -0.0516,  ...,  0.0056, -0.0038, -0.0773],
+        [ 0.0408, -0.0695, -0.0435,  ...,  0.0262, -0.0748,  0.0407],
+        ...,
+        [ 0.0118, -0.0266, -0.0756,  ..., -0.0662,  0.0169,  0.0785],
+        [ 0.0508, -0.0727, -0.0552,  ..., -0.0537, -0.0198, -0.0353],
+        [-0.1087,  0.0052,  0.0844,  ...,  0.0598, -0.0299, -0.0625]],
+       device='cuda:0'), grad: tensor([[ 8.8811e-05,  1.7639e-06,  1.2359e-06,  ...,  1.6261e-06,
+          0.0000e+00,  1.4277e-03],
+        [ 3.3956e-06,  4.1910e-06, -2.9076e-06,  ..., -4.2506e-06,
+          0.0000e+00,  4.0770e-05],
+        [-1.2469e-04,  2.1104e-06,  2.8498e-06,  ...,  4.0866e-06,
+          0.0000e+00, -1.8978e-03],
+        ...,
+        [ 7.2159e-06,  1.7241e-05,  3.6478e-05,  ...,  7.2420e-05,
+          0.0000e+00, -3.5446e-06],
+        [ 1.8328e-05,  3.6117e-06,  3.2727e-06,  ...,  6.6608e-06,
+          0.0000e+00,  2.7204e-04],
+        [ 1.7568e-05,  5.5939e-05,  5.9307e-05,  ...,  1.2600e-04,
+          0.0000e+00,  8.9347e-05]], device='cuda:0')
+Epoch 88, bias, value: tensor([-0.0248, -0.0204, -0.0290,  0.0022,  0.0029,  0.0334,  0.0162, -0.0223,
+         0.0123, -0.0042], device='cuda:0'), grad: tensor([ 2.4242e-03,  3.8370e-06, -3.1929e-03,  8.4639e-05, -3.1185e-04,
+         1.1638e-05,  2.0325e-04,  7.4744e-05,  4.6873e-04,  2.3413e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 87----------------------------------------------------
+epoch 87, time 230.48, cls_loss 0.0044 cls_loss_mapping 0.0088 cls_loss_causal 0.6012 re_mapping 0.0094 re_causal 0.0286 /// teacc 98.94 lr 0.00010000
+Epoch 89, weight, value: tensor([[-2.8128e-03, -1.8939e-02, -2.0102e-02,  ..., -1.1003e-01,
+         -1.9154e-02, -5.6805e-02],
+        [-4.8598e-05, -3.9678e-02, -5.1523e-02,  ...,  5.9077e-03,
+         -3.6896e-03, -7.7730e-02],
+        [ 4.0551e-02, -6.9865e-02, -4.4864e-02,  ...,  2.6145e-02,
+         -7.5475e-02,  4.1167e-02],
+        ...,
+        [ 1.1943e-02, -2.6143e-02, -7.6031e-02,  ..., -6.6541e-02,
+          1.7846e-02,  7.9364e-02],
+        [ 5.0706e-02, -7.3334e-02, -5.6043e-02,  ..., -5.4623e-02,
+         -2.0180e-02, -3.5804e-02],
+        [-1.0912e-01,  5.3183e-03,  8.4716e-02,  ...,  6.0002e-02,
+         -3.0892e-02, -6.3285e-02]], device='cuda:0'), grad: tensor([[-7.6771e-05,  1.6699e-06,  3.2447e-06,  ...,  2.2352e-07,
+          1.5367e-08,  1.6317e-06],
+        [ 2.3097e-06,  7.0892e-06, -1.4873e-06,  ..., -2.7586e-06,
+         -6.9384e-08,  7.1377e-06],
+        [ 3.8147e-05,  8.5458e-06,  9.3281e-06,  ...,  7.7626e-07,
+          7.9628e-08, -9.8348e-06],
+        ...,
+        [ 4.6268e-06, -2.1005e-04,  5.5954e-06,  ...,  3.0193e-06,
+         -1.8161e-07, -1.7548e-04],
+        [-7.2382e-06,  1.0550e-05,  1.7077e-05,  ...,  1.2182e-06,
+          3.6322e-08,  1.4670e-05],
+        [ 1.1757e-05,  8.6069e-05,  2.1979e-05,  ..., -3.6471e-06,
+          8.1956e-08,  7.0214e-05]], device='cuda:0')
+Epoch 89, bias, value: tensor([-0.0255, -0.0204, -0.0291,  0.0017,  0.0027,  0.0333,  0.0174, -0.0218,
+         0.0119, -0.0042], device='cuda:0'), grad: tensor([-1.7643e-04,  9.1195e-06,  8.6069e-05,  1.5640e-04, -8.4639e-05,
+         3.0518e-05,  6.2943e-05, -2.9635e-04,  3.7193e-05,  1.7524e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 88, time 213.96, cls_loss 0.0040 cls_loss_mapping 0.0095 cls_loss_causal 0.6171 re_mapping 0.0099 re_causal 0.0307 /// teacc 98.85 lr 0.00010000
+Epoch 90, weight, value: tensor([[-0.0023, -0.0187, -0.0205,  ..., -0.1102, -0.0198, -0.0572],
+        [-0.0002, -0.0395, -0.0503,  ...,  0.0064, -0.0035, -0.0774],
+        [ 0.0405, -0.0703, -0.0455,  ...,  0.0261, -0.0768,  0.0408],
+        ...,
+        [ 0.0120, -0.0261, -0.0775,  ..., -0.0674,  0.0184,  0.0802],
+        [ 0.0508, -0.0740, -0.0564,  ..., -0.0552, -0.0206, -0.0367],
+        [-0.1095,  0.0055,  0.0850,  ...,  0.0602, -0.0317, -0.0640]],
+       device='cuda:0'), grad: tensor([[-2.8431e-05, -1.4730e-05,  2.1029e-06,  ...,  3.2000e-06,
+          0.0000e+00,  9.6578e-07],
+        [ 1.2312e-06,  5.3532e-06,  1.2750e-06,  ...,  1.1241e-06,
+          0.0000e+00,  5.7071e-06],
+        [ 2.7381e-06,  7.1153e-06,  5.5507e-06,  ...,  7.8604e-06,
+          0.0000e+00,  4.7386e-06],
+        ...,
+        [-5.3504e-07,  1.2255e-04,  9.7513e-05,  ...,  7.1466e-05,
+          0.0000e+00,  8.7738e-05],
+        [-2.2594e-06,  1.0669e-05,  7.3798e-06,  ...,  1.5318e-05,
+          0.0000e+00,  6.2846e-06],
+        [ 6.3106e-06, -9.3162e-05, -1.4532e-04,  ..., -1.2815e-04,
+          0.0000e+00,  9.0292e-07]], device='cuda:0')
+Epoch 90, bias, value: tensor([-0.0253, -0.0196, -0.0296,  0.0015,  0.0027,  0.0331,  0.0170, -0.0218,
+         0.0118, -0.0041], device='cuda:0'), grad: tensor([-5.2214e-05,  1.1742e-05,  2.2337e-05, -1.2112e-04,  2.5973e-05,
+         4.5896e-06,  3.3230e-05,  2.4700e-04,  1.5616e-05, -1.8775e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 89, time 213.90, cls_loss 0.0051 cls_loss_mapping 0.0113 cls_loss_causal 0.5659 re_mapping 0.0100 re_causal 0.0280 /// teacc 98.86 lr 0.00010000
+Epoch 91, weight, value: tensor([[-0.0013, -0.0178, -0.0190,  ..., -0.1111, -0.0201, -0.0580],
+        [-0.0005, -0.0398, -0.0504,  ...,  0.0064, -0.0035, -0.0777],
+        [ 0.0408, -0.0708, -0.0462,  ...,  0.0259, -0.0773,  0.0408],
+        ...,
+        [ 0.0121, -0.0259, -0.0781,  ..., -0.0677,  0.0185,  0.0812],
+        [ 0.0507, -0.0747, -0.0569,  ..., -0.0561, -0.0208, -0.0383],
+        [-0.1101,  0.0058,  0.0855,  ...,  0.0611, -0.0320, -0.0648]],
+       device='cuda:0'), grad: tensor([[-2.4661e-05,  3.2829e-07,  2.6543e-06,  ...,  3.3714e-06,
+          7.4506e-09,  1.0710e-08],
+        [ 6.9244e-07,  2.9616e-07, -2.4796e-05,  ..., -2.5317e-05,
+         -2.4121e-07,  2.4009e-06],
+        [ 2.0936e-05,  2.5518e-06,  7.8380e-06,  ...,  6.3218e-06,
+          2.4214e-08, -1.8299e-05],
+        ...,
+        [ 6.1933e-07, -7.6964e-06,  3.8035e-06,  ...,  4.5709e-06,
+          6.6590e-08, -3.8054e-06],
+        [-5.8301e-06,  1.2498e-06,  5.0999e-06,  ...,  7.9870e-06,
+          2.4680e-08,  1.9558e-06],
+        [ 9.3132e-06,  7.0706e-06,  3.3844e-06,  ...,  1.7658e-05,
+          3.8650e-08,  6.2101e-06]], device='cuda:0')
+Epoch 91, bias, value: tensor([-0.0238, -0.0197, -0.0295,  0.0022,  0.0026,  0.0324,  0.0161, -0.0212,
+         0.0109, -0.0042], device='cuda:0'), grad: tensor([-7.6294e-05, -1.9383e-04,  7.9632e-05,  3.0428e-05,  7.6257e-06,
+        -1.7077e-05,  3.9041e-06,  1.0777e-04,  3.2894e-06,  5.4449e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 90, time 214.13, cls_loss 0.0042 cls_loss_mapping 0.0101 cls_loss_causal 0.5891 re_mapping 0.0092 re_causal 0.0283 /// teacc 98.84 lr 0.00010000
+Epoch 92, weight, value: tensor([[-0.0012, -0.0180, -0.0193,  ..., -0.1118, -0.0202, -0.0584],
+        [-0.0006, -0.0399, -0.0506,  ...,  0.0064, -0.0033, -0.0780],
+        [ 0.0407, -0.0714, -0.0467,  ...,  0.0260, -0.0779,  0.0413],
+        ...,
+        [ 0.0119, -0.0254, -0.0783,  ..., -0.0679,  0.0190,  0.0816],
+        [ 0.0510, -0.0754, -0.0574,  ..., -0.0571, -0.0210, -0.0394],
+        [-0.1106,  0.0058,  0.0860,  ...,  0.0616, -0.0326, -0.0659]],
+       device='cuda:0'), grad: tensor([[-7.2196e-06,  1.0431e-06,  5.9903e-06,  ...,  5.5209e-06,
+          1.2107e-08,  5.6028e-06],
+        [ 4.5309e-07,  9.8869e-06,  1.2207e-03,  ...,  1.0347e-03,
+         -4.2375e-07,  9.6083e-04],
+        [ 1.3700e-06,  3.7365e-06, -1.4162e-03,  ..., -1.2197e-03,
+          5.0757e-08, -1.0662e-03],
+        ...,
+        [ 4.7917e-07, -6.6578e-05,  1.2383e-05,  ...,  1.3016e-05,
+          8.1025e-08, -4.1306e-05],
+        [ 9.7044e-07,  6.9626e-06,  2.1994e-05,  ..., -1.5289e-05,
+          7.1246e-08,  1.6525e-05],
+        [ 1.2433e-06, -5.0589e-06, -1.4615e-04,  ..., -1.4818e-04,
+          4.8894e-08,  2.9236e-05]], device='cuda:0')
+Epoch 92, bias, value: tensor([-0.0239, -0.0198, -0.0291,  0.0021,  0.0024,  0.0320,  0.0164, -0.0210,
+         0.0107, -0.0044], device='cuda:0'), grad: tensor([ 1.9297e-05,  7.1106e-03, -7.8278e-03,  4.0501e-05,  3.0971e-04,
+         5.4717e-05,  5.8746e-04, -5.5879e-05, -1.3387e-04, -1.0026e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 91, time 214.08, cls_loss 0.0038 cls_loss_mapping 0.0084 cls_loss_causal 0.5794 re_mapping 0.0093 re_causal 0.0285 /// teacc 98.94 lr 0.00010000
+Epoch 93, weight, value: tensor([[-0.0007, -0.0182, -0.0195,  ..., -0.1124, -0.0203, -0.0588],
+        [-0.0008, -0.0401, -0.0502,  ...,  0.0066, -0.0033, -0.0784],
+        [ 0.0404, -0.0717, -0.0474,  ...,  0.0259, -0.0785,  0.0416],
+        ...,
+        [ 0.0115, -0.0252, -0.0787,  ..., -0.0682,  0.0192,  0.0821],
+        [ 0.0511, -0.0759, -0.0585,  ..., -0.0588, -0.0212, -0.0396],
+        [-0.1109,  0.0061,  0.0865,  ...,  0.0624, -0.0326, -0.0664]],
+       device='cuda:0'), grad: tensor([[-2.2665e-05,  1.8766e-07,  1.1608e-05,  ..., -4.2245e-06,
+          0.0000e+00,  1.9232e-07],
+        [ 1.8300e-06,  2.1625e-06, -2.0601e-06,  ..., -3.6061e-06,
+          0.0000e+00,  3.2224e-06],
+        [ 1.7760e-06,  3.5623e-07,  1.7304e-06,  ...,  6.7661e-07,
+          0.0000e+00,  3.7067e-07],
+        ...,
+        [ 2.0657e-06, -7.5623e-06,  5.6485e-07,  ...,  1.2880e-06,
+          0.0000e+00, -1.1660e-05],
+        [ 1.4715e-05,  1.0431e-06,  1.1034e-05,  ...,  2.3022e-06,
+          0.0000e+00,  5.3458e-07],
+        [ 6.7018e-06,  4.1574e-06,  5.1670e-06,  ...,  1.1073e-06,
+          0.0000e+00,  6.5155e-06]], device='cuda:0')
+Epoch 93, bias, value: tensor([-0.0234, -0.0195, -0.0294,  0.0023,  0.0020,  0.0321,  0.0159, -0.0208,
+         0.0101, -0.0040], device='cuda:0'), grad: tensor([-4.3690e-05,  1.9614e-06,  5.7109e-06,  3.1084e-05,  4.7386e-06,
+         5.5027e-04, -5.9557e-04, -1.4506e-05,  3.3408e-05,  2.7210e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 92, time 213.84, cls_loss 0.0038 cls_loss_mapping 0.0096 cls_loss_causal 0.5762 re_mapping 0.0093 re_causal 0.0290 /// teacc 98.86 lr 0.00010000
+Epoch 94, weight, value: tensor([[-0.0004, -0.0184, -0.0194,  ..., -0.1126, -0.0204, -0.0595],
+        [-0.0028, -0.0406, -0.0492,  ...,  0.0072, -0.0033, -0.0788],
+        [ 0.0421, -0.0720, -0.0483,  ...,  0.0257, -0.0786,  0.0415],
+        ...,
+        [ 0.0117, -0.0248, -0.0794,  ..., -0.0686,  0.0192,  0.0828],
+        [ 0.0513, -0.0763, -0.0582,  ..., -0.0594, -0.0212, -0.0398],
+        [-0.1116,  0.0052,  0.0860,  ...,  0.0618, -0.0326, -0.0671]],
+       device='cuda:0'), grad: tensor([[ 7.7635e-06,  5.7463e-07,  1.7598e-05,  ...,  1.7956e-05,
+          0.0000e+00,  5.3234e-06],
+        [-3.2067e-05,  1.6913e-06, -5.9277e-05,  ..., -5.7161e-05,
+          0.0000e+00,  6.5975e-06],
+        [-2.2680e-05,  1.2651e-05,  4.4554e-06,  ..., -5.7518e-06,
+          0.0000e+00, -4.8608e-05],
+        ...,
+        [ 1.2442e-05, -3.7365e-06,  8.3447e-06,  ...,  1.1250e-05,
+          0.0000e+00,  4.1336e-05],
+        [-1.7986e-05, -4.5225e-06, -1.4357e-05,  ..., -2.5347e-05,
+          0.0000e+00, -2.3330e-07],
+        [ 2.9311e-05,  1.9092e-06,  2.4080e-05,  ...,  3.3677e-05,
+          0.0000e+00,  7.1013e-07]], device='cuda:0')
+Epoch 94, bias, value: tensor([-0.0231, -0.0202, -0.0285,  0.0013,  0.0028,  0.0328,  0.0153, -0.0205,
+         0.0105, -0.0051], device='cuda:0'), grad: tensor([ 5.6237e-05, -2.1052e-04, -3.7521e-05, -1.5751e-05,  1.8790e-05,
+         3.3379e-05,  3.4809e-05,  6.3539e-05, -5.1141e-05,  1.0842e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 93, time 214.00, cls_loss 0.0033 cls_loss_mapping 0.0081 cls_loss_causal 0.5752 re_mapping 0.0088 re_causal 0.0282 /// teacc 98.94 lr 0.00010000
+Epoch 95, weight, value: tensor([[-0.0004, -0.0187, -0.0195,  ..., -0.1129, -0.0205, -0.0607],
+        [-0.0028, -0.0409, -0.0476,  ...,  0.0077, -0.0033, -0.0790],
+        [ 0.0419, -0.0725, -0.0490,  ...,  0.0257, -0.0787,  0.0410],
+        ...,
+        [ 0.0124, -0.0241, -0.0808,  ..., -0.0685,  0.0192,  0.0842],
+        [ 0.0516, -0.0767, -0.0588,  ..., -0.0605, -0.0213, -0.0400],
+        [-0.1121,  0.0051,  0.0862,  ...,  0.0617, -0.0327, -0.0680]],
+       device='cuda:0'), grad: tensor([[-1.2843e-06,  7.5344e-07,  1.7993e-06,  ...,  9.1940e-06,
+          0.0000e+00,  1.2606e-05],
+        [ 8.0978e-07,  1.0859e-06, -3.6806e-06,  ..., -3.7551e-06,
+          0.0000e+00,  4.5858e-06],
+        [-3.9876e-05, -4.4815e-06, -4.3094e-05,  ..., -1.4544e-04,
+          0.0000e+00, -1.1814e-04],
+        ...,
+        [ 4.8727e-06, -7.9647e-06,  5.4855e-07,  ...,  7.4282e-06,
+          0.0000e+00, -1.9502e-06],
+        [ 4.2431e-06,  3.6675e-06,  1.2182e-05,  ...,  1.6317e-05,
+          0.0000e+00,  1.0945e-05],
+        [ 2.9311e-05,  2.7139e-06,  8.4415e-06,  ...,  1.1182e-04,
+          0.0000e+00,  1.2636e-04]], device='cuda:0')
+Epoch 95, bias, value: tensor([-0.0232, -0.0198, -0.0289,  0.0012,  0.0030,  0.0326,  0.0152, -0.0197,
+         0.0105, -0.0056], device='cuda:0'), grad: tensor([ 1.2733e-05,  1.6680e-06, -2.9683e-04, -1.6057e-04,  2.8849e-05,
+         9.7692e-05, -2.6301e-06, -2.3972e-06,  4.0472e-05,  2.8157e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 94, time 214.09, cls_loss 0.0057 cls_loss_mapping 0.0108 cls_loss_causal 0.5485 re_mapping 0.0091 re_causal 0.0264 /// teacc 98.78 lr 0.00010000
+Epoch 96, weight, value: tensor([[-0.0006, -0.0192, -0.0200,  ..., -0.1143, -0.0209, -0.0611],
+        [-0.0027, -0.0392, -0.0482,  ...,  0.0078,  0.0017, -0.0777],
+        [ 0.0417, -0.0729, -0.0496,  ...,  0.0256, -0.0817,  0.0410],
+        ...,
+        [ 0.0127, -0.0249, -0.0796,  ..., -0.0680,  0.0145,  0.0838],
+        [ 0.0517, -0.0773, -0.0589,  ..., -0.0614, -0.0217, -0.0402],
+        [-0.1130,  0.0049,  0.0863,  ...,  0.0618, -0.0330, -0.0688]],
+       device='cuda:0'), grad: tensor([[ 4.0093e-07,  8.5821e-07,  1.2545e-06,  ...,  4.3679e-07,
+          0.0000e+00,  3.4869e-06],
+        [ 1.2154e-06,  3.7756e-06, -8.6948e-06,  ..., -5.4762e-06,
+          0.0000e+00,  6.1691e-06],
+        [-3.3289e-05, -1.1154e-05,  2.0601e-06,  ...,  1.0571e-06,
+          0.0000e+00, -1.1092e-04],
+        ...,
+        [ 2.0877e-05, -2.3603e-05,  4.2357e-06,  ...,  2.0880e-06,
+          0.0000e+00,  3.3110e-05],
+        [ 8.3297e-06,  4.8429e-06,  4.6380e-06,  ...,  2.3600e-06,
+          0.0000e+00,  2.5421e-05],
+        [ 1.2303e-06,  2.6524e-06,  6.3330e-08,  ..., -2.1840e-07,
+          0.0000e+00,  2.7139e-06]], device='cuda:0')
+Epoch 96, bias, value: tensor([-0.0237, -0.0191, -0.0293,  0.0009,  0.0024,  0.0332,  0.0151, -0.0194,
+         0.0105, -0.0061], device='cuda:0'), grad: tensor([ 6.9477e-06, -1.2398e-05, -1.9443e-04,  7.1585e-05, -4.6566e-06,
+        -1.5028e-05,  1.8954e-05,  6.2704e-05,  5.5104e-05,  1.1139e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 95, time 214.09, cls_loss 0.0050 cls_loss_mapping 0.0080 cls_loss_causal 0.6068 re_mapping 0.0091 re_causal 0.0270 /// teacc 98.78 lr 0.00010000
+Epoch 97, weight, value: tensor([[ 2.7008e-05, -1.9431e-02, -2.0019e-02,  ..., -1.1500e-01,
+         -2.1879e-02, -6.1779e-02],
+        [-3.1136e-03, -3.9202e-02, -4.7500e-02,  ...,  8.5775e-03,
+          2.0387e-03, -7.8032e-02],
+        [ 4.1612e-02, -7.3134e-02, -5.0606e-02,  ...,  2.5769e-02,
+         -8.6027e-02,  4.1686e-02],
+        ...,
+        [ 1.3096e-02, -2.4886e-02, -8.0500e-02,  ..., -6.8003e-02,
+          1.4154e-02,  8.3845e-02],
+        [ 5.2241e-02, -7.7765e-02, -5.8625e-02,  ..., -6.2104e-02,
+         -2.3918e-02, -4.0583e-02],
+        [-1.1401e-01,  4.3534e-03,  8.5946e-02,  ...,  6.1329e-02,
+         -3.3267e-02, -6.9433e-02]], device='cuda:0'), grad: tensor([[-1.0200e-05,  4.8662e-07,  1.0869e-06,  ...,  1.4855e-06,
+          6.0536e-09,  1.2340e-07],
+        [ 8.8708e-07,  1.8943e-06, -3.4627e-06,  ..., -4.5709e-06,
+         -3.0641e-07,  1.6037e-06],
+        [ 1.4603e-06,  1.0077e-06,  1.5991e-06,  ...,  1.8366e-06,
+          5.6345e-08,  9.2061e-07],
+        ...,
+        [ 6.0769e-07,  3.1292e-06,  1.0200e-05,  ...,  1.3500e-05,
+          1.2713e-07, -7.4133e-07],
+        [-4.9584e-06,  1.4529e-06,  2.7772e-06,  ...,  4.9137e-06,
+          2.3749e-08,  7.7207e-07],
+        [ 2.6096e-06, -1.7509e-05, -3.3200e-05,  ..., -4.4286e-05,
+          2.2352e-08, -1.8021e-07]], device='cuda:0')
+Epoch 97, bias, value: tensor([-0.0227, -0.0189, -0.0290,  0.0010,  0.0024,  0.0328,  0.0147, -0.0191,
+         0.0108, -0.0073], device='cuda:0'), grad: tensor([-2.0981e-05, -5.7742e-06,  8.2627e-06,  3.6024e-06,  2.1800e-05,
+         1.7524e-05,  7.2010e-06,  1.9059e-05, -6.3591e-06, -4.4495e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 96, time 214.13, cls_loss 0.0041 cls_loss_mapping 0.0087 cls_loss_causal 0.5779 re_mapping 0.0092 re_causal 0.0273 /// teacc 98.82 lr 0.00010000
+Epoch 98, weight, value: tensor([[ 0.0003, -0.0200, -0.0212,  ..., -0.1172, -0.0222, -0.0625],
+        [-0.0039, -0.0393, -0.0478,  ...,  0.0084,  0.0026, -0.0781],
+        [ 0.0415, -0.0737, -0.0513,  ...,  0.0258, -0.0867,  0.0416],
+        ...,
+        [ 0.0135, -0.0256, -0.0819,  ..., -0.0694,  0.0136,  0.0841],
+        [ 0.0529, -0.0783, -0.0590,  ..., -0.0629, -0.0240, -0.0408],
+        [-0.1144,  0.0064,  0.0873,  ...,  0.0632, -0.0333, -0.0699]],
+       device='cuda:0'), grad: tensor([[ 1.0571e-06,  2.1197e-06,  3.8054e-06,  ...,  3.6377e-06,
+          0.0000e+00,  2.1085e-06],
+        [ 1.9483e-06,  7.8753e-06, -2.1756e-06,  ...,  9.1083e-07,
+          1.1642e-09,  7.0296e-06],
+        [ 2.6096e-06,  3.3192e-06,  3.7234e-06,  ...,  3.4682e-06,
+          2.3283e-10, -4.9531e-05],
+        ...,
+        [-9.5427e-05, -1.4818e-04,  2.9821e-06,  ..., -1.8942e-04,
+         -3.7253e-09, -9.9987e-06],
+        [ 1.3737e-06,  6.6459e-06,  1.4137e-06,  ...,  1.1481e-05,
+          2.3283e-10,  1.0841e-05],
+        [ 9.9361e-05,  1.5223e-04, -2.1644e-06,  ...,  1.9944e-04,
+          9.3132e-10,  3.4779e-05]], device='cuda:0')
+Epoch 98, bias, value: tensor([-0.0231, -0.0188, -0.0297,  0.0017,  0.0022,  0.0320,  0.0145, -0.0196,
+         0.0111, -0.0058], device='cuda:0'), grad: tensor([ 8.7246e-06,  2.2322e-05, -4.8816e-05,  9.6416e-04,  5.1335e-06,
+        -1.0462e-03,  1.0826e-05, -7.1669e-04,  3.7253e-05,  7.6246e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 97, time 214.14, cls_loss 0.0037 cls_loss_mapping 0.0078 cls_loss_causal 0.5835 re_mapping 0.0091 re_causal 0.0262 /// teacc 98.83 lr 0.00010000
+Epoch 99, weight, value: tensor([[ 0.0006, -0.0202, -0.0213,  ..., -0.1173, -0.0226, -0.0629],
+        [-0.0041, -0.0396, -0.0468,  ...,  0.0097,  0.0025, -0.0783],
+        [ 0.0415, -0.0748, -0.0521,  ...,  0.0257, -0.0871,  0.0419],
+        ...,
+        [ 0.0133, -0.0257, -0.0830,  ..., -0.0704,  0.0137,  0.0842],
+        [ 0.0532, -0.0783, -0.0591,  ..., -0.0637, -0.0242, -0.0411],
+        [-0.1150,  0.0065,  0.0875,  ...,  0.0634, -0.0336, -0.0706]],
+       device='cuda:0'), grad: tensor([[-3.2842e-05,  1.1744e-06,  1.9446e-06,  ..., -7.9721e-06,
+          1.7229e-08, -3.9227e-06],
+        [ 2.9076e-06,  8.7684e-07, -1.0274e-05,  ..., -1.4357e-05,
+         -6.5146e-07,  4.6082e-06],
+        [ 1.4149e-05,  7.6508e-07,  3.6042e-06,  ...,  7.7188e-06,
+          1.4156e-07, -4.1462e-06],
+        ...,
+        [ 2.1067e-06,  4.7684e-06,  1.4365e-05,  ...,  2.8148e-05,
+          2.6636e-07,  1.4920e-06],
+        [-2.0638e-05,  2.1793e-06,  4.1984e-06,  ...,  1.3195e-05,
+          7.1712e-08,  7.5363e-06],
+        [ 2.2784e-05, -9.6738e-05, -1.4400e-04,  ..., -3.0160e-04,
+          3.6787e-08,  5.9642e-06]], device='cuda:0')
+Epoch 99, bias, value: tensor([-0.0228, -0.0184, -0.0299,  0.0018,  0.0023,  0.0326,  0.0139, -0.0203,
+         0.0118, -0.0062], device='cuda:0'), grad: tensor([-1.1879e-04, -2.3246e-05,  8.7857e-05,  1.1772e-05,  2.0897e-04,
+         9.0301e-05,  2.4259e-05,  5.1349e-05, -1.1146e-04, -2.2042e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 98, time 214.05, cls_loss 0.0037 cls_loss_mapping 0.0084 cls_loss_causal 0.5821 re_mapping 0.0084 re_causal 0.0262 /// teacc 98.85 lr 0.00010000
+Epoch 100, weight, value: tensor([[ 0.0006, -0.0208, -0.0222,  ..., -0.1184, -0.0228, -0.0644],
+        [-0.0045, -0.0397, -0.0466,  ...,  0.0102,  0.0025, -0.0786],
+        [ 0.0419, -0.0748, -0.0526,  ...,  0.0255, -0.0875,  0.0425],
+        ...,
+        [ 0.0130, -0.0258, -0.0838,  ..., -0.0713,  0.0137,  0.0842],
+        [ 0.0530, -0.0790, -0.0596,  ..., -0.0649, -0.0250, -0.0415],
+        [-0.1158,  0.0071,  0.0882,  ...,  0.0645, -0.0336, -0.0713]],
+       device='cuda:0'), grad: tensor([[ 6.7055e-06,  7.5363e-06,  7.0155e-05,  ...,  5.5134e-05,
+          1.2573e-08,  2.6543e-07],
+        [ 2.4699e-06,  6.8592e-07,  1.4281e-04,  ...,  6.9022e-05,
+         -6.0536e-08,  7.5921e-06],
+        [-1.6065e-07,  1.0515e-06,  6.1877e-06,  ...,  4.4480e-06,
+          8.9873e-08, -6.8285e-06],
+        ...,
+        [ 6.5565e-07, -9.2527e-07,  1.0967e-05,  ...,  8.0392e-06,
+         -3.1665e-07, -1.7555e-06],
+        [ 8.9109e-06,  9.3738e-07,  2.8849e-05,  ...,  1.3687e-05,
+          2.8871e-08,  3.0827e-07],
+        [ 1.9725e-06, -9.9689e-06, -5.2035e-05,  ..., -5.1200e-05,
+          5.3551e-08,  3.6461e-07]], device='cuda:0')
+Epoch 100, bias, value: tensor([-0.0234, -0.0183, -0.0297,  0.0018,  0.0020,  0.0333,  0.0130, -0.0205,
+         0.0115, -0.0055], device='cuda:0'), grad: tensor([ 1.5783e-04,  1.5676e-04,  3.8184e-08,  6.6534e-06, -1.6844e-04,
+        -4.0323e-05, -1.1243e-05,  1.6466e-05,  3.0994e-05, -1.4853e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 99, time 214.11, cls_loss 0.0047 cls_loss_mapping 0.0106 cls_loss_causal 0.5720 re_mapping 0.0089 re_causal 0.0263 /// teacc 98.92 lr 0.00010000
+Epoch 101, weight, value: tensor([[ 0.0006, -0.0211, -0.0240,  ..., -0.1188, -0.0229, -0.0651],
+        [-0.0051, -0.0399, -0.0466,  ...,  0.0106,  0.0025, -0.0787],
+        [ 0.0415, -0.0755, -0.0541,  ...,  0.0251, -0.0884,  0.0426],
+        ...,
+        [ 0.0129, -0.0256, -0.0842,  ..., -0.0717,  0.0137,  0.0845],
+        [ 0.0530, -0.0781, -0.0597,  ..., -0.0658, -0.0256, -0.0413],
+        [-0.1146,  0.0071,  0.0887,  ...,  0.0648, -0.0337, -0.0719]],
+       device='cuda:0'), grad: tensor([[ 5.5917e-06,  1.5795e-06,  6.9588e-06,  ...,  2.9337e-06,
+          7.2597e-07,  3.3118e-06],
+        [ 4.5188e-06,  5.6513e-06,  2.8685e-06,  ...,  1.7677e-06,
+          2.5574e-06,  1.5959e-05],
+        [-5.4508e-05, -4.9353e-05,  5.1595e-06,  ...,  3.1423e-06,
+          2.7493e-06, -2.8014e-04],
+        ...,
+        [ 5.1796e-05,  3.9577e-05,  7.0892e-06,  ...,  7.1637e-06,
+         -8.5607e-06,  2.3437e-04],
+        [ 1.7548e-04,  5.0926e-04,  5.0485e-05,  ...,  2.7820e-05,
+          9.2480e-07,  3.3379e-04],
+        [ 9.0823e-06,  4.3921e-06,  6.1274e-05,  ...,  6.3598e-05,
+          1.8207e-06,  5.2713e-06]], device='cuda:0')
+Epoch 101, bias, value: tensor([-0.0246, -0.0183, -0.0302,  0.0012,  0.0021,  0.0336,  0.0128, -0.0212,
+         0.0129, -0.0045], device='cuda:0'), grad: tensor([ 2.0325e-05,  3.8952e-05, -5.8603e-04, -1.6050e-03, -1.1790e-04,
+         1.1808e-04, -3.3975e-04,  5.2738e-04,  1.8167e-03,  1.2863e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 100, time 214.17, cls_loss 0.0037 cls_loss_mapping 0.0087 cls_loss_causal 0.5837 re_mapping 0.0089 re_causal 0.0260 /// teacc 98.93 lr 0.00010000
+Epoch 102, weight, value: tensor([[-0.0011, -0.0213, -0.0244,  ..., -0.1194, -0.0236, -0.0656],
+        [-0.0053, -0.0402, -0.0464,  ...,  0.0109,  0.0027, -0.0793],
+        [ 0.0414, -0.0760, -0.0549,  ...,  0.0247, -0.0900,  0.0424],
+        ...,
+        [ 0.0129, -0.0252, -0.0847,  ..., -0.0722,  0.0137,  0.0854],
+        [ 0.0524, -0.0787, -0.0607,  ..., -0.0669, -0.0265, -0.0420],
+        [-0.1153,  0.0075,  0.0892,  ...,  0.0653, -0.0342, -0.0726]],
+       device='cuda:0'), grad: tensor([[-1.7677e-06,  1.1688e-07,  5.5367e-07,  ...,  6.6217e-07,
+          2.3283e-09,  3.7719e-07],
+        [ 3.4692e-07,  3.1246e-07, -7.8324e-07,  ..., -1.0068e-06,
+          4.6566e-10,  2.4065e-06],
+        [-1.8664e-06, -8.8336e-07,  6.4541e-07,  ...,  3.8883e-07,
+          0.0000e+00, -8.6799e-06],
+        ...,
+        [ 1.7509e-07, -6.6031e-07,  6.3330e-07,  ...,  7.8278e-07,
+          1.3970e-09,  2.4848e-06],
+        [ 3.8054e-06,  2.8312e-07,  3.3975e-05,  ...,  3.9339e-05,
+          5.5879e-09,  4.1202e-06],
+        [-7.2643e-06,  1.3830e-07, -4.9740e-05,  ..., -5.7638e-05,
+          5.5879e-09, -4.4778e-06]], device='cuda:0')
+Epoch 102, bias, value: tensor([-0.0255, -0.0184, -0.0304,  0.0013,  0.0019,  0.0336,  0.0152, -0.0208,
+         0.0121, -0.0046], device='cuda:0'), grad: tensor([-2.1122e-06,  1.0114e-06, -1.2495e-05,  6.2697e-06,  1.8567e-05,
+         7.0594e-06,  3.9861e-06,  3.0044e-06,  5.0217e-05, -7.5400e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 101, time 214.43, cls_loss 0.0038 cls_loss_mapping 0.0068 cls_loss_causal 0.5816 re_mapping 0.0086 re_causal 0.0245 /// teacc 98.72 lr 0.00010000
+Epoch 103, weight, value: tensor([[-0.0004, -0.0216, -0.0246,  ..., -0.1194, -0.0243, -0.0667],
+        [-0.0056, -0.0409, -0.0463,  ...,  0.0111,  0.0028, -0.0797],
+        [ 0.0412, -0.0762, -0.0559,  ...,  0.0246, -0.0913,  0.0428],
+        ...,
+        [ 0.0126, -0.0245, -0.0847,  ..., -0.0724,  0.0137,  0.0859],
+        [ 0.0525, -0.0792, -0.0612,  ..., -0.0675, -0.0281, -0.0426],
+        [-0.1162,  0.0075,  0.0894,  ...,  0.0655, -0.0347, -0.0736]],
+       device='cuda:0'), grad: tensor([[-2.8744e-05,  3.5064e-07, -1.3337e-05,  ...,  9.5321e-07,
+          1.9092e-08,  6.4308e-07],
+        [ 3.0510e-06,  1.6997e-06,  1.4063e-07,  ..., -2.1346e-06,
+         -8.2189e-07,  3.9376e-06],
+        [ 2.9057e-06,  7.8278e-07,  2.7847e-06,  ...,  9.0105e-07,
+          9.9652e-08, -1.7524e-05],
+        ...,
+        [ 2.0768e-06,  7.6070e-06,  1.3098e-05,  ...,  9.2760e-06,
+          3.5064e-07,  8.3074e-06],
+        [ 3.0816e-05,  1.6578e-06, -9.1735e-08,  ...,  3.8564e-05,
+          1.0896e-07, -2.9877e-06],
+        [ 1.1340e-05,  1.3672e-05,  1.7062e-05,  ...,  1.3016e-05,
+          6.0536e-08,  2.2706e-06]], device='cuda:0')
+Epoch 103, bias, value: tensor([-0.0250, -0.0192, -0.0302,  0.0011,  0.0016,  0.0330,  0.0159, -0.0200,
+         0.0122, -0.0050], device='cuda:0'), grad: tensor([-1.1557e-04,  9.6634e-06, -5.9828e-06,  7.5758e-05, -5.4777e-05,
+        -1.0335e-04,  2.6003e-05,  3.9488e-05,  5.9634e-05,  6.9201e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 102, time 214.27, cls_loss 0.0039 cls_loss_mapping 0.0069 cls_loss_causal 0.5809 re_mapping 0.0086 re_causal 0.0256 /// teacc 98.76 lr 0.00010000
+Epoch 104, weight, value: tensor([[-0.0002, -0.0219, -0.0249,  ..., -0.1196, -0.0247, -0.0674],
+        [-0.0060, -0.0413, -0.0470,  ...,  0.0108,  0.0029, -0.0798],
+        [ 0.0413, -0.0767, -0.0560,  ...,  0.0249, -0.0920,  0.0429],
+        ...,
+        [ 0.0124, -0.0237, -0.0853,  ..., -0.0729,  0.0136,  0.0868],
+        [ 0.0533, -0.0795, -0.0616,  ..., -0.0680, -0.0284, -0.0430],
+        [-0.1167,  0.0074,  0.0895,  ...,  0.0652, -0.0348, -0.0744]],
+       device='cuda:0'), grad: tensor([[-1.8515e-06,  1.1828e-07,  3.1851e-07,  ...,  9.0804e-07,
+          4.1910e-09,  1.5460e-07],
+        [-1.6810e-06,  5.9791e-07, -7.1302e-06,  ..., -3.9697e-05,
+         -1.9651e-07,  8.1584e-07],
+        [ 8.4424e-07,  5.0152e-07,  7.6881e-07,  ...,  2.8461e-06,
+          5.4948e-08, -8.0513e-07],
+        ...,
+        [ 2.2771e-07,  6.3004e-07,  5.7332e-06,  ...,  1.0580e-05,
+          8.2422e-08, -2.1122e-06],
+        [ 6.0629e-07,  5.4343e-07,  1.9968e-06,  ...,  8.5160e-06,
+          7.4506e-09,  2.6682e-07],
+        [ 9.6112e-07, -1.1139e-05, -2.2650e-05,  ..., -2.8431e-05,
+          7.4506e-09,  4.1770e-07]], device='cuda:0')
+Epoch 104, bias, value: tensor([-0.0250, -0.0194, -0.0300,  0.0005,  0.0018,  0.0331,  0.0165, -0.0199,
+         0.0123, -0.0055], device='cuda:0'), grad: tensor([-3.1181e-06, -8.8811e-05,  8.3894e-06,  7.0482e-06,  4.5180e-05,
+         2.4065e-05,  9.9316e-06,  1.2964e-05,  1.9390e-06, -1.7583e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 103----------------------------------------------------
+epoch 103, time 230.17, cls_loss 0.0033 cls_loss_mapping 0.0063 cls_loss_causal 0.5784 re_mapping 0.0083 re_causal 0.0253 /// teacc 98.98 lr 0.00010000
+Epoch 105, weight, value: tensor([[-0.0002, -0.0226, -0.0253,  ..., -0.1204, -0.0253, -0.0677],
+        [-0.0061, -0.0414, -0.0465,  ...,  0.0112,  0.0033, -0.0801],
+        [ 0.0412, -0.0773, -0.0565,  ...,  0.0254, -0.0939,  0.0432],
+        ...,
+        [ 0.0124, -0.0237, -0.0861,  ..., -0.0728,  0.0135,  0.0871],
+        [ 0.0536, -0.0797, -0.0617,  ..., -0.0686, -0.0298, -0.0433],
+        [-0.1170,  0.0080,  0.0897,  ...,  0.0655, -0.0355, -0.0748]],
+       device='cuda:0'), grad: tensor([[-4.6194e-06,  1.6345e-07,  6.7800e-07,  ...,  1.8897e-06,
+          1.3970e-08,  1.7369e-07],
+        [ 1.5553e-06,  1.2675e-06, -2.4997e-06,  ..., -1.4482e-06,
+          1.0058e-07,  1.2526e-06],
+        [ 1.2591e-06,  7.6974e-07,  8.4192e-07,  ...,  2.0489e-06,
+          5.9605e-08,  2.3469e-07],
+        ...,
+        [ 9.3179e-07, -2.5611e-06,  2.2799e-06,  ...,  6.5416e-06,
+         -8.3027e-07, -2.9635e-06],
+        [ 5.0515e-06,  1.1176e-06,  1.3160e-06,  ...,  9.5889e-06,
+          1.0990e-07,  7.6508e-07],
+        [ 2.3302e-06,  3.4785e-07, -1.0831e-06,  ...,  4.2981e-07,
+          3.8370e-07,  1.2424e-06]], device='cuda:0')
+Epoch 105, bias, value: tensor([-0.0252, -0.0190, -0.0300,  0.0002,  0.0014,  0.0327,  0.0165, -0.0199,
+         0.0126, -0.0054], device='cuda:0'), grad: tensor([-5.7891e-06, -1.1459e-05,  8.3223e-06,  2.4378e-04,  7.5903e-07,
+        -7.8154e-04,  5.0020e-04,  1.4126e-05,  2.2233e-05,  9.2760e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 104, time 214.09, cls_loss 0.0031 cls_loss_mapping 0.0069 cls_loss_causal 0.5849 re_mapping 0.0083 re_causal 0.0262 /// teacc 98.88 lr 0.00010000
+Epoch 106, weight, value: tensor([[ 0.0002, -0.0228, -0.0260,  ..., -0.1208, -0.0262, -0.0682],
+        [-0.0063, -0.0414, -0.0460,  ...,  0.0117,  0.0034, -0.0802],
+        [ 0.0411, -0.0774, -0.0569,  ...,  0.0252, -0.0970,  0.0434],
+        ...,
+        [ 0.0119, -0.0237, -0.0872,  ..., -0.0740,  0.0141,  0.0873],
+        [ 0.0544, -0.0799, -0.0625,  ..., -0.0701, -0.0321, -0.0436],
+        [-0.1174,  0.0078,  0.0889,  ...,  0.0648, -0.0383, -0.0761]],
+       device='cuda:0'), grad: tensor([[ 2.0023e-07,  1.0245e-07,  1.0887e-06,  ...,  8.3121e-07,
+          3.7253e-09,  1.8021e-07],
+        [ 5.1036e-07,  1.6289e-06, -2.3600e-06,  ..., -1.8338e-06,
+         -1.9092e-08,  2.4550e-06],
+        [ 7.7765e-08,  2.9430e-07,  1.4845e-06,  ...,  9.8813e-07,
+          9.7789e-09, -9.5461e-07],
+        ...,
+        [ 6.5146e-07, -3.5204e-06,  1.9502e-06,  ...,  2.1607e-06,
+         -8.9407e-08, -4.5411e-06],
+        [ 6.3553e-06,  4.2049e-07,  4.4517e-06,  ...,  1.0826e-05,
+          1.5832e-08,  7.3761e-07],
+        [ 1.3314e-05,  6.8685e-07,  4.1537e-06,  ...,  1.9431e-05,
+          5.3551e-08,  1.9055e-06]], device='cuda:0')
+Epoch 106, bias, value: tensor([-0.0250, -0.0186, -0.0302,  0.0002,  0.0028,  0.0323,  0.0163, -0.0203,
+         0.0129, -0.0062], device='cuda:0'), grad: tensor([ 1.7518e-06, -5.9605e-06,  4.9323e-06,  1.3355e-06,  5.8934e-06,
+        -4.6819e-05, -6.8918e-06, -3.1274e-06,  1.7658e-05,  3.1203e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 105, time 214.09, cls_loss 0.0039 cls_loss_mapping 0.0062 cls_loss_causal 0.5789 re_mapping 0.0086 re_causal 0.0249 /// teacc 98.93 lr 0.00010000
+Epoch 107, weight, value: tensor([[ 0.0004, -0.0231, -0.0266,  ..., -0.1218, -0.0285, -0.0686],
+        [-0.0069, -0.0416, -0.0466,  ...,  0.0115,  0.0035, -0.0807],
+        [ 0.0412, -0.0778, -0.0574,  ...,  0.0251, -0.0999,  0.0438],
+        ...,
+        [ 0.0123, -0.0236, -0.0876,  ..., -0.0743,  0.0149,  0.0881],
+        [ 0.0543, -0.0802, -0.0633,  ..., -0.0710, -0.0330, -0.0443],
+        [-0.1177,  0.0082,  0.0900,  ...,  0.0654, -0.0401, -0.0773]],
+       device='cuda:0'), grad: tensor([[-2.1249e-05,  6.2911e-07,  5.0245e-07,  ...,  5.6066e-07,
+          2.3283e-08,  3.3434e-07],
+        [ 1.6978e-06,  8.0764e-06,  3.6862e-06,  ...,  2.8089e-06,
+          3.4459e-08,  4.1574e-06],
+        [ 1.3784e-06,  1.5609e-06,  5.8347e-07,  ...,  6.6496e-07,
+          1.2573e-08,  1.4976e-06],
+        ...,
+        [ 9.2201e-07, -3.0957e-06,  8.6054e-07,  ...,  1.1297e-06,
+          3.5390e-08, -7.1637e-06],
+        [ 7.0967e-06,  1.0140e-05,  5.7295e-06,  ...,  7.9721e-06,
+          1.6065e-07,  4.3064e-06],
+        [ 6.0312e-06,  1.7941e-05,  7.7710e-06,  ...,  5.1185e-06,
+          1.9558e-08,  8.3223e-06]], device='cuda:0')
+Epoch 107, bias, value: tensor([-0.0250, -0.0191, -0.0299,  0.0001,  0.0021,  0.0329,  0.0163, -0.0199,
+         0.0124, -0.0057], device='cuda:0'), grad: tensor([-3.9577e-05,  3.0756e-05,  7.4580e-06, -1.3208e-04,  2.0787e-06,
+         3.7085e-06,  7.6108e-06, -5.1633e-06,  4.9800e-05,  7.5459e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 106, time 214.25, cls_loss 0.0033 cls_loss_mapping 0.0072 cls_loss_causal 0.5680 re_mapping 0.0081 re_causal 0.0241 /// teacc 98.97 lr 0.00010000
+Epoch 108, weight, value: tensor([[ 0.0008, -0.0232, -0.0270,  ..., -0.1224, -0.0292, -0.0688],
+        [-0.0074, -0.0416, -0.0468,  ...,  0.0111,  0.0035, -0.0811],
+        [ 0.0414, -0.0783, -0.0579,  ...,  0.0259, -0.1003,  0.0445],
+        ...,
+        [ 0.0123, -0.0238, -0.0882,  ..., -0.0743,  0.0149,  0.0881],
+        [ 0.0541, -0.0805, -0.0641,  ..., -0.0719, -0.0336, -0.0450],
+        [-0.1178,  0.0083,  0.0905,  ...,  0.0659, -0.0403, -0.0781]],
+       device='cuda:0'), grad: tensor([[ 6.1989e-06,  1.4808e-06,  5.1968e-06,  ...,  2.2026e-07,
+          0.0000e+00,  1.5721e-06],
+        [ 7.0333e-06,  1.9148e-06,  1.3104e-06,  ..., -2.3982e-07,
+          0.0000e+00,  1.1101e-05],
+        [-1.1034e-05,  7.9349e-07,  1.1185e-06,  ...,  1.7369e-07,
+          0.0000e+00, -2.1711e-05],
+        ...,
+        [-6.3190e-07, -7.4394e-06,  1.4035e-06,  ...,  1.2536e-06,
+          0.0000e+00, -7.0892e-06],
+        [ 6.4522e-06,  8.5123e-07,  6.4932e-06,  ...,  8.9826e-07,
+          0.0000e+00,  5.2676e-06],
+        [ 2.2296e-06,  1.7323e-07, -2.5332e-07,  ..., -1.5711e-06,
+          0.0000e+00,  9.4576e-07]], device='cuda:0')
+Epoch 108, bias, value: tensor([-0.0248, -0.0192, -0.0294,  0.0007,  0.0021,  0.0324,  0.0160, -0.0199,
+         0.0119, -0.0056], device='cuda:0'), grad: tensor([ 1.2405e-05,  3.9369e-05, -6.5327e-05,  9.2462e-06, -5.7697e-05,
+         6.9439e-06,  2.8804e-05, -9.5963e-06,  2.9087e-05,  6.6645e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 107, time 213.81, cls_loss 0.0027 cls_loss_mapping 0.0065 cls_loss_causal 0.5698 re_mapping 0.0078 re_causal 0.0237 /// teacc 98.91 lr 0.00010000
+Epoch 109, weight, value: tensor([[ 0.0011, -0.0234, -0.0273,  ..., -0.1229, -0.0293, -0.0691],
+        [-0.0078, -0.0418, -0.0466,  ...,  0.0114,  0.0033, -0.0814],
+        [ 0.0412, -0.0789, -0.0584,  ...,  0.0256, -0.1005,  0.0443],
+        ...,
+        [ 0.0125, -0.0233, -0.0888,  ..., -0.0748,  0.0151,  0.0887],
+        [ 0.0541, -0.0809, -0.0652,  ..., -0.0729, -0.0341, -0.0456],
+        [-0.1182,  0.0083,  0.0909,  ...,  0.0664, -0.0403, -0.0788]],
+       device='cuda:0'), grad: tensor([[ 3.0119e-06,  6.6590e-07,  1.6153e-04,  ...,  1.1593e-04,
+          0.0000e+00,  3.9525e-06],
+        [ 2.3935e-06,  9.8273e-06,  5.3681e-06,  ..., -1.9372e-07,
+          0.0000e+00,  1.9401e-05],
+        [-1.6081e-04,  2.9476e-07,  4.0792e-06,  ...,  3.1870e-06,
+          0.0000e+00, -7.5638e-05],
+        ...,
+        [ 2.0619e-06, -9.8869e-06, -2.3711e-06,  ...,  4.0568e-06,
+          0.0000e+00, -1.7449e-05],
+        [ 1.1820e-04,  3.4180e-06,  3.3807e-07,  ...,  6.7540e-06,
+          0.0000e+00,  7.5340e-05],
+        [ 2.4773e-06,  1.1791e-06, -1.6165e-04,  ..., -1.0830e-04,
+          0.0000e+00,  3.4943e-06]], device='cuda:0')
+Epoch 109, bias, value: tensor([-0.0246, -0.0191, -0.0300,  0.0004,  0.0021,  0.0321,  0.0164, -0.0197,
+         0.0117, -0.0054], device='cuda:0'), grad: tensor([ 3.5572e-04,  5.1379e-05, -3.7527e-04,  9.5591e-06, -7.3537e-06,
+        -3.0875e-05,  6.3658e-05, -3.5971e-05,  3.1257e-04, -3.4428e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 108, time 214.10, cls_loss 0.0030 cls_loss_mapping 0.0073 cls_loss_causal 0.5551 re_mapping 0.0080 re_causal 0.0242 /// teacc 98.78 lr 0.00010000
+Epoch 110, weight, value: tensor([[ 0.0016, -0.0234, -0.0279,  ..., -0.1242, -0.0296, -0.0696],
+        [-0.0082, -0.0419, -0.0465,  ...,  0.0119,  0.0033, -0.0817],
+        [ 0.0416, -0.0790, -0.0591,  ...,  0.0251, -0.1008,  0.0448],
+        ...,
+        [ 0.0124, -0.0231, -0.0891,  ..., -0.0755,  0.0151,  0.0890],
+        [ 0.0543, -0.0810, -0.0654,  ..., -0.0734, -0.0342, -0.0460],
+        [-0.1184,  0.0081,  0.0901,  ...,  0.0656, -0.0403, -0.0795]],
+       device='cuda:0'), grad: tensor([[-2.3525e-06,  7.0641e-07,  7.2177e-07,  ...,  2.1122e-06,
+          0.0000e+00,  2.5984e-06],
+        [ 3.3015e-07,  8.4285e-07, -1.9595e-05,  ..., -2.2441e-05,
+          0.0000e+00,  1.1167e-06],
+        [ 6.4028e-07,  2.3115e-06,  5.8226e-06,  ...,  8.3074e-06,
+          0.0000e+00,  5.8636e-06],
+        ...,
+        [ 4.5775e-07,  1.8617e-06,  7.5363e-06,  ...,  1.0744e-05,
+          0.0000e+00,  6.3609e-07],
+        [ 1.8897e-06,  1.9409e-06,  2.3842e-06,  ...,  1.6227e-05,
+          0.0000e+00,  3.3360e-06],
+        [ 5.6736e-06, -1.4409e-05, -4.0144e-05,  ..., -2.5496e-05,
+          0.0000e+00,  4.5076e-06]], device='cuda:0')
+Epoch 110, bias, value: tensor([-0.0247, -0.0191, -0.0298,  0.0009,  0.0035,  0.0316,  0.0159, -0.0198,
+         0.0118, -0.0062], device='cuda:0'), grad: tensor([ 4.5914e-07, -4.5121e-05,  2.6137e-05,  2.9027e-05,  6.5267e-05,
+        -1.0717e-04,  5.8338e-06,  1.9684e-05,  2.5809e-05, -1.9908e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 109, time 213.91, cls_loss 0.0041 cls_loss_mapping 0.0080 cls_loss_causal 0.6073 re_mapping 0.0081 re_causal 0.0249 /// teacc 98.80 lr 0.00010000
+Epoch 111, weight, value: tensor([[ 0.0018, -0.0238, -0.0283,  ..., -0.1251, -0.0296, -0.0702],
+        [-0.0084, -0.0421, -0.0459,  ...,  0.0128,  0.0033, -0.0821],
+        [ 0.0413, -0.0797, -0.0601,  ...,  0.0241, -0.1008,  0.0446],
+        ...,
+        [ 0.0129, -0.0228, -0.0898,  ..., -0.0760,  0.0151,  0.0905],
+        [ 0.0542, -0.0814, -0.0655,  ..., -0.0739, -0.0342, -0.0477],
+        [-0.1190,  0.0087,  0.0903,  ...,  0.0661, -0.0403, -0.0806]],
+       device='cuda:0'), grad: tensor([[ 2.4274e-05,  3.4183e-05,  7.3433e-05,  ...,  7.3910e-06,
+          4.6566e-10,  1.1874e-06],
+        [-4.8965e-05,  7.5102e-05,  4.7207e-05,  ..., -1.7896e-05,
+          0.0000e+00,  2.9113e-06],
+        [ 6.3293e-06,  7.9647e-06,  1.0952e-05,  ...,  7.9200e-06,
+          0.0000e+00, -3.1907e-06],
+        ...,
+        [ 2.3786e-06,  3.1924e-04,  2.7013e-04,  ...,  2.7537e-04,
+          9.3132e-10,  5.0515e-06],
+        [-3.2604e-05, -3.5226e-05, -5.0783e-05,  ...,  1.2212e-05,
+          5.1223e-09, -1.2726e-05],
+        [ 1.1295e-05, -4.4298e-04, -3.7003e-04,  ..., -3.7336e-04,
+          4.6566e-10, -6.6794e-06]], device='cuda:0')
+Epoch 111, bias, value: tensor([-0.0246, -0.0186, -0.0308,  0.0008,  0.0029,  0.0319,  0.0157, -0.0191,
+         0.0115, -0.0062], device='cuda:0'), grad: tensor([ 1.3471e-04, -8.6334e-07,  3.2723e-05,  1.8048e-04,  1.1235e-04,
+         5.7101e-05, -2.1473e-05,  8.3733e-04, -2.1839e-04, -1.1139e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 110, time 214.08, cls_loss 0.0029 cls_loss_mapping 0.0058 cls_loss_causal 0.5760 re_mapping 0.0081 re_causal 0.0249 /// teacc 98.86 lr 0.00010000
+Epoch 112, weight, value: tensor([[ 0.0019, -0.0244, -0.0285,  ..., -0.1263, -0.0296, -0.0708],
+        [-0.0083, -0.0422, -0.0457,  ...,  0.0131,  0.0033, -0.0819],
+        [ 0.0414, -0.0804, -0.0607,  ...,  0.0241, -0.1008,  0.0447],
+        ...,
+        [ 0.0127, -0.0226, -0.0904,  ..., -0.0763,  0.0151,  0.0908],
+        [ 0.0542, -0.0818, -0.0654,  ..., -0.0741, -0.0342, -0.0482],
+        [-0.1198,  0.0085,  0.0901,  ...,  0.0659, -0.0403, -0.0814]],
+       device='cuda:0'), grad: tensor([[-3.8706e-06,  7.4971e-08,  8.6613e-08,  ...,  2.0163e-07,
+          5.1223e-09,  2.0489e-07],
+        [ 2.4233e-06,  2.2817e-06, -3.3453e-06,  ..., -1.6559e-06,
+          1.3970e-09,  6.3702e-06],
+        [ 1.2226e-05,  1.1466e-05,  1.5264e-06,  ...,  7.1013e-07,
+          1.3970e-09,  3.0756e-05],
+        ...,
+        [-1.4961e-05, -1.5318e-05,  8.1910e-07,  ...,  8.2888e-07,
+          5.5879e-09, -4.2468e-05],
+        [ 5.0515e-06,  1.4929e-06,  1.5348e-06,  ...,  4.5784e-06,
+          2.5146e-08,  3.7029e-06],
+        [ 1.2200e-06, -1.4789e-06, -3.6955e-06,  ..., -2.3190e-06,
+          1.7229e-08,  2.1514e-07]], device='cuda:0')
+Epoch 112, bias, value: tensor([-0.0246, -0.0182, -0.0311,  0.0011,  0.0033,  0.0316,  0.0158, -0.0191,
+         0.0115, -0.0067], device='cuda:0'), grad: tensor([-6.5267e-06, -1.7621e-06,  6.0111e-05,  2.1011e-06,  5.4315e-06,
+        -8.8885e-06,  1.8366e-06, -6.9797e-05,  1.8224e-05, -8.2096e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 111, time 214.12, cls_loss 0.0036 cls_loss_mapping 0.0070 cls_loss_causal 0.5455 re_mapping 0.0082 re_causal 0.0240 /// teacc 98.86 lr 0.00010000
+Epoch 113, weight, value: tensor([[ 0.0020, -0.0246, -0.0287,  ..., -0.1271, -0.0302, -0.0714],
+        [-0.0088, -0.0424, -0.0456,  ...,  0.0132,  0.0034, -0.0823],
+        [ 0.0415, -0.0786, -0.0593,  ...,  0.0253, -0.1012,  0.0460],
+        ...,
+        [ 0.0127, -0.0230, -0.0922,  ..., -0.0777,  0.0151,  0.0909],
+        [ 0.0546, -0.0821, -0.0654,  ..., -0.0750, -0.0344, -0.0486],
+        [-0.1207,  0.0092,  0.0911,  ...,  0.0668, -0.0403, -0.0828]],
+       device='cuda:0'), grad: tensor([[-1.1288e-06,  7.7765e-08,  1.8850e-05,  ...,  6.7465e-06,
+          0.0000e+00,  3.1991e-07],
+        [ 9.2993e-07,  2.7165e-05,  4.0419e-06,  ...,  2.7996e-06,
+          0.0000e+00,  3.2514e-05],
+        [ 5.6904e-07,  3.8603e-07,  5.9940e-06,  ...,  2.5164e-06,
+          0.0000e+00, -2.5686e-06],
+        ...,
+        [-2.8266e-07, -3.4124e-05,  4.6641e-06,  ...,  3.0063e-06,
+          0.0000e+00, -4.1068e-05],
+        [-2.2613e-06,  3.7625e-06,  2.6934e-06,  ...,  3.9265e-06,
+          0.0000e+00,  2.0154e-06],
+        [ 5.2527e-06, -1.9763e-06,  2.4527e-05,  ...,  1.2498e-06,
+          0.0000e+00,  1.7313e-06]], device='cuda:0')
+Epoch 113, bias, value: tensor([-0.0247, -0.0184, -0.0300,  0.0010,  0.0021,  0.0329,  0.0153, -0.0196,
+         0.0118, -0.0061], device='cuda:0'), grad: tensor([ 2.8417e-05,  8.4937e-05,  8.9109e-06,  1.7136e-05, -1.2231e-04,
+        -2.7101e-06,  1.8671e-05, -8.8990e-05, -1.3098e-05,  6.8784e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 112, time 214.19, cls_loss 0.0030 cls_loss_mapping 0.0062 cls_loss_causal 0.5819 re_mapping 0.0083 re_causal 0.0247 /// teacc 98.92 lr 0.00010000
+Epoch 114, weight, value: tensor([[ 0.0023, -0.0253, -0.0293,  ..., -0.1276, -0.0308, -0.0722],
+        [-0.0084, -0.0425, -0.0449,  ...,  0.0139,  0.0034, -0.0823],
+        [ 0.0412, -0.0790, -0.0598,  ...,  0.0252, -0.1013,  0.0459],
+        ...,
+        [ 0.0125, -0.0227, -0.0927,  ..., -0.0781,  0.0151,  0.0916],
+        [ 0.0544, -0.0824, -0.0659,  ..., -0.0761, -0.0345, -0.0491],
+        [-0.1213,  0.0091,  0.0909,  ...,  0.0665, -0.0403, -0.0833]],
+       device='cuda:0'), grad: tensor([[ 1.0226e-06,  2.3982e-07,  1.2610e-06,  ...,  1.2685e-06,
+          0.0000e+00,  3.1758e-07],
+        [ 7.1013e-07,  6.9570e-07,  1.6578e-07,  ..., -4.3120e-07,
+          0.0000e+00,  1.1772e-06],
+        [ 5.8822e-06,  5.3570e-06,  3.1106e-06,  ...,  2.3600e-06,
+          0.0000e+00,  1.0423e-05],
+        ...,
+        [-5.4315e-06, -1.0103e-05,  1.8775e-06,  ...,  1.7956e-06,
+          0.0000e+00, -2.0415e-05],
+        [-1.2860e-05, -1.7695e-06, -2.1219e-05,  ..., -1.8269e-05,
+          0.0000e+00,  2.1085e-06],
+        [ 8.8438e-06,  3.2037e-06,  2.3693e-05,  ...,  1.8239e-05,
+          0.0000e+00,  2.2799e-06]], device='cuda:0')
+Epoch 114, bias, value: tensor([-0.0245, -0.0181, -0.0306,  0.0006,  0.0024,  0.0338,  0.0149, -0.0193,
+         0.0115, -0.0066], device='cuda:0'), grad: tensor([ 4.7609e-06,  2.2203e-06,  2.6926e-05,  2.2665e-05, -2.8849e-05,
+         2.7314e-05,  1.2368e-05, -2.6017e-05, -1.4639e-04,  1.0520e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 113, time 214.11, cls_loss 0.0029 cls_loss_mapping 0.0064 cls_loss_causal 0.5467 re_mapping 0.0080 re_causal 0.0241 /// teacc 98.82 lr 0.00010000
+Epoch 115, weight, value: tensor([[ 0.0034, -0.0256, -0.0286,  ..., -0.1272, -0.0308, -0.0725],
+        [-0.0085, -0.0426, -0.0437,  ...,  0.0139,  0.0034, -0.0826],
+        [ 0.0422, -0.0793, -0.0605,  ...,  0.0251, -0.1014,  0.0468],
+        ...,
+        [ 0.0109, -0.0228, -0.0931,  ..., -0.0783,  0.0151,  0.0920],
+        [ 0.0547, -0.0824, -0.0661,  ..., -0.0765, -0.0346, -0.0498],
+        [-0.1220,  0.0093,  0.0908,  ...,  0.0664, -0.0404, -0.0840]],
+       device='cuda:0'), grad: tensor([[-5.6997e-07,  7.5810e-07,  5.5879e-08,  ...,  1.6615e-06,
+          0.0000e+00,  2.6897e-06],
+        [ 6.2119e-07,  7.5204e-07, -9.6206e-07,  ..., -6.2538e-07,
+          0.0000e+00,  1.2536e-06],
+        [ 7.9488e-07,  3.9600e-06,  4.6194e-07,  ...,  9.3132e-06,
+          0.0000e+00, -8.5607e-06],
+        ...,
+        [ 5.2415e-06,  5.5470e-06,  9.7789e-07,  ...,  1.3448e-05,
+          0.0000e+00,  1.2904e-05],
+        [-6.7465e-06,  1.6298e-06,  2.2398e-07,  ...,  4.4890e-06,
+          0.0000e+00,  6.2995e-06],
+        [ 1.5665e-06,  1.7472e-06,  4.1872e-06,  ...,  4.2208e-06,
+          0.0000e+00,  1.3988e-06]], device='cuda:0')
+Epoch 115, bias, value: tensor([-0.0231, -0.0177, -0.0296,  0.0007,  0.0025,  0.0339,  0.0131, -0.0194,
+         0.0111, -0.0069], device='cuda:0'), grad: tensor([ 1.4268e-06,  5.8813e-07,  6.1542e-06,  2.4939e-04,  2.1625e-04,
+        -8.6069e-04,  3.3784e-04,  3.4660e-05,  2.6878e-06,  1.1735e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 114, time 214.17, cls_loss 0.0031 cls_loss_mapping 0.0072 cls_loss_causal 0.5638 re_mapping 0.0075 re_causal 0.0235 /// teacc 98.98 lr 0.00010000
+Epoch 116, weight, value: tensor([[ 0.0034, -0.0261, -0.0296,  ..., -0.1279, -0.0312, -0.0732],
+        [-0.0083, -0.0428, -0.0436,  ...,  0.0139,  0.0034, -0.0835],
+        [ 0.0420, -0.0795, -0.0609,  ...,  0.0248, -0.1016,  0.0471],
+        ...,
+        [ 0.0107, -0.0223, -0.0932,  ..., -0.0776,  0.0153,  0.0934],
+        [ 0.0533, -0.0827, -0.0673,  ..., -0.0773, -0.0348, -0.0503],
+        [-0.1225,  0.0098,  0.0912,  ...,  0.0667, -0.0409, -0.0857]],
+       device='cuda:0'), grad: tensor([[-3.4124e-05,  4.5029e-07, -1.0151e-07,  ...,  6.0908e-07,
+          1.8626e-09,  3.9339e-06],
+        [ 1.0431e-06,  8.5775e-07, -3.1665e-08,  ..., -1.9670e-06,
+          4.6566e-10,  5.2005e-06],
+        [-2.2985e-06, -5.9605e-06,  3.8976e-07,  ...,  1.3160e-06,
+          4.6566e-10, -7.1466e-05],
+        ...,
+        [ 5.8580e-07, -5.4622e-07,  1.0654e-06,  ...,  1.8561e-06,
+          0.0000e+00,  2.2262e-05],
+        [ 3.7868e-06,  1.0608e-06,  7.2410e-07,  ...,  4.1649e-06,
+          1.3970e-09,  1.4000e-05],
+        [ 2.0359e-06,  5.4669e-07, -1.8515e-06,  ..., -1.9670e-06,
+          0.0000e+00,  2.7139e-06]], device='cuda:0')
+Epoch 116, bias, value: tensor([-0.0234, -0.0179, -0.0296, -0.0008,  0.0019,  0.0343,  0.0144, -0.0185,
+         0.0101, -0.0066], device='cuda:0'), grad: tensor([-4.7207e-05,  2.3954e-06, -8.3745e-05,  2.0313e-04,  2.4661e-06,
+        -1.9717e-04,  5.4747e-05,  2.6435e-05,  3.2157e-05,  6.9477e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 115, time 214.14, cls_loss 0.0029 cls_loss_mapping 0.0062 cls_loss_causal 0.5632 re_mapping 0.0076 re_causal 0.0230 /// teacc 98.98 lr 0.00010000
+Epoch 117, weight, value: tensor([[ 0.0037, -0.0265, -0.0300,  ..., -0.1285, -0.0314, -0.0743],
+        [-0.0086, -0.0430, -0.0436,  ...,  0.0139,  0.0034, -0.0838],
+        [ 0.0419, -0.0802, -0.0615,  ...,  0.0250, -0.1020,  0.0472],
+        ...,
+        [ 0.0105, -0.0219, -0.0934,  ..., -0.0778,  0.0154,  0.0943],
+        [ 0.0532, -0.0832, -0.0678,  ..., -0.0778, -0.0349, -0.0510],
+        [-0.1230,  0.0098,  0.0913,  ...,  0.0667, -0.0411, -0.0872]],
+       device='cuda:0'), grad: tensor([[ 3.1013e-06,  1.0710e-07,  4.3586e-06,  ...,  5.4017e-07,
+          4.6566e-10,  1.2154e-06],
+        [ 1.0151e-06,  6.3470e-07,  1.8608e-06,  ...,  8.9873e-07,
+          4.6566e-09,  2.2817e-06],
+        [ 3.1665e-07,  8.8941e-07,  2.7120e-06,  ...,  9.5088e-07,
+          3.2596e-09, -2.3916e-05],
+        ...,
+        [ 1.3411e-06,  1.9949e-06,  3.9563e-06,  ...,  4.3511e-06,
+         -2.7474e-08,  1.7375e-05],
+        [ 1.3635e-05,  1.5097e-06,  1.4715e-05,  ...,  5.7369e-06,
+          1.8626e-09,  1.7909e-06],
+        [ 9.2713e-07,  9.3728e-06,  4.9204e-05,  ...,  5.2392e-05,
+          1.0245e-08,  2.1812e-06]], device='cuda:0')
+Epoch 117, bias, value: tensor([-0.0235, -0.0177, -0.0299, -0.0028,  0.0019,  0.0361,  0.0147, -0.0182,
+         0.0097, -0.0068], device='cuda:0'), grad: tensor([ 1.1325e-05,  6.9886e-06, -1.9073e-05, -3.2168e-06, -7.9036e-05,
+         2.3935e-06, -7.7426e-05,  2.7463e-05,  4.5896e-05,  8.4639e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 116, time 214.19, cls_loss 0.0036 cls_loss_mapping 0.0067 cls_loss_causal 0.5687 re_mapping 0.0076 re_causal 0.0227 /// teacc 98.96 lr 0.00010000
+Epoch 118, weight, value: tensor([[ 0.0031, -0.0267, -0.0304,  ..., -0.1291, -0.0317, -0.0751],
+        [-0.0087, -0.0428, -0.0433,  ...,  0.0147,  0.0036, -0.0841],
+        [ 0.0419, -0.0818, -0.0616,  ...,  0.0251, -0.1025,  0.0470],
+        ...,
+        [ 0.0097, -0.0222, -0.0947,  ..., -0.0793,  0.0152,  0.0950],
+        [ 0.0538, -0.0833, -0.0681,  ..., -0.0783, -0.0350, -0.0514],
+        [-0.1234,  0.0100,  0.0914,  ...,  0.0668, -0.0412, -0.0878]],
+       device='cuda:0'), grad: tensor([[-6.6459e-06,  3.2131e-08,  2.9150e-06,  ...,  7.2131e-07,
+          9.3132e-10,  2.0675e-07],
+        [ 1.8971e-06,  1.8999e-07,  2.8219e-07,  ..., -1.6643e-06,
+         -4.1444e-08,  8.2515e-07],
+        [ 4.3660e-06,  9.8255e-08,  2.7269e-06,  ...,  1.4650e-06,
+          3.2596e-09, -2.7064e-06],
+        ...,
+        [ 1.0161e-06,  3.3528e-07,  1.7388e-06,  ...,  2.0582e-06,
+          1.0710e-08,  1.1735e-06],
+        [-3.2067e-05,  2.2631e-07, -3.1870e-06,  ..., -5.8204e-05,
+          6.0536e-09,  2.8126e-07],
+        [ 3.1263e-05, -7.5111e-07,  7.0073e-06,  ...,  4.8906e-05,
+          3.7253e-09,  2.4633e-07]], device='cuda:0')
+Epoch 118, bias, value: tensor([-0.0239, -0.0172, -0.0304, -0.0022,  0.0020,  0.0357,  0.0152, -0.0187,
+         0.0099, -0.0070], device='cuda:0'), grad: tensor([-1.5587e-05,  2.2613e-06,  1.0632e-05,  3.2596e-06, -1.1548e-05,
+         2.1920e-05, -1.2875e-05,  8.7544e-06, -1.3316e-04,  1.2612e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 117, time 214.04, cls_loss 0.0026 cls_loss_mapping 0.0054 cls_loss_causal 0.5765 re_mapping 0.0071 re_causal 0.0219 /// teacc 98.91 lr 0.00010000
+Epoch 119, weight, value: tensor([[ 0.0040, -0.0269, -0.0305,  ..., -0.1297, -0.0319, -0.0760],
+        [-0.0090, -0.0429, -0.0433,  ...,  0.0147,  0.0037, -0.0848],
+        [ 0.0418, -0.0824, -0.0621,  ...,  0.0251, -0.1033,  0.0469],
+        ...,
+        [ 0.0097, -0.0222, -0.0955,  ..., -0.0803,  0.0151,  0.0956],
+        [ 0.0536, -0.0835, -0.0682,  ..., -0.0786, -0.0355, -0.0517],
+        [-0.1241,  0.0101,  0.0915,  ...,  0.0670, -0.0411, -0.0883]],
+       device='cuda:0'), grad: tensor([[-1.5944e-05,  6.9151e-08,  2.1537e-07,  ...,  2.5034e-06,
+          0.0000e+00,  1.7490e-06],
+        [ 2.8498e-06,  1.8161e-07,  1.6461e-07,  ..., -2.7716e-06,
+          0.0000e+00,  5.2080e-06],
+        [-8.4862e-06,  8.1724e-07,  1.4864e-06,  ...,  3.9935e-06,
+          0.0000e+00, -4.0621e-05],
+        ...,
+        [ 6.0908e-06, -1.4808e-07,  1.3383e-06,  ...,  6.1542e-06,
+          0.0000e+00,  1.3314e-05],
+        [ 3.8981e-05,  7.5903e-07,  6.7847e-07,  ...,  2.7806e-05,
+          0.0000e+00,  1.5303e-05],
+        [ 8.3670e-06, -1.7695e-06, -6.7018e-06,  ...,  5.5544e-06,
+          0.0000e+00,  8.0559e-07]], device='cuda:0')
+Epoch 119, bias, value: tensor([-0.0234, -0.0175, -0.0306, -0.0017,  0.0022,  0.0352,  0.0153, -0.0186,
+         0.0099, -0.0071], device='cuda:0'), grad: tensor([-4.1813e-05, -1.4424e-05, -8.7380e-05,  9.7632e-05,  5.4948e-06,
+        -1.7166e-04,  9.3430e-06,  6.9022e-05,  1.0234e-04,  3.1382e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 118, time 213.99, cls_loss 0.0024 cls_loss_mapping 0.0055 cls_loss_causal 0.5724 re_mapping 0.0073 re_causal 0.0232 /// teacc 98.91 lr 0.00010000
+Epoch 120, weight, value: tensor([[ 0.0040, -0.0269, -0.0309,  ..., -0.1302, -0.0324, -0.0762],
+        [-0.0092, -0.0432, -0.0433,  ...,  0.0143,  0.0036, -0.0850],
+        [ 0.0418, -0.0827, -0.0628,  ...,  0.0258, -0.1042,  0.0474],
+        ...,
+        [ 0.0095, -0.0220, -0.0959,  ..., -0.0808,  0.0151,  0.0958],
+        [ 0.0538, -0.0838, -0.0688,  ..., -0.0797, -0.0358, -0.0522],
+        [-0.1242,  0.0093,  0.0915,  ...,  0.0670, -0.0411, -0.0895]],
+       device='cuda:0'), grad: tensor([[-2.4796e-07, -4.3958e-07,  9.3132e-10,  ...,  3.1060e-07,
+          0.0000e+00,  1.1232e-06],
+        [ 5.4985e-06,  1.3430e-06,  2.2966e-06,  ...,  5.2154e-06,
+          0.0000e+00,  4.0941e-06],
+        [ 1.5303e-05,  1.1921e-07,  5.3555e-05,  ...,  1.0282e-06,
+          0.0000e+00, -2.2471e-05],
+        ...,
+        [ 1.2368e-06, -4.8988e-06, -1.5907e-06,  ...,  9.0385e-07,
+          0.0000e+00, -2.3912e-07],
+        [-7.1675e-06, -9.1502e-08, -3.5744e-06,  ..., -9.0674e-06,
+          0.0000e+00,  5.7109e-06],
+        [ 4.9956e-06,  2.6263e-06,  6.9197e-07,  ..., -1.6754e-06,
+          0.0000e+00,  6.2399e-06]], device='cuda:0')
+Epoch 120, bias, value: tensor([-0.0235, -0.0176, -0.0304, -0.0011,  0.0031,  0.0347,  0.0147, -0.0186,
+         0.0096, -0.0074], device='cuda:0'), grad: tensor([-6.9104e-07,  2.6837e-05,  7.0155e-05,  5.7071e-06,  3.9458e-05,
+         3.6433e-06, -1.5116e-04,  1.9521e-06, -1.9431e-05,  2.3484e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 119, time 214.01, cls_loss 0.0024 cls_loss_mapping 0.0064 cls_loss_causal 0.5443 re_mapping 0.0079 re_causal 0.0237 /// teacc 98.77 lr 0.00010000
+Epoch 121, weight, value: tensor([[ 0.0038, -0.0271, -0.0311,  ..., -0.1306, -0.0324, -0.0768],
+        [-0.0092, -0.0433, -0.0429,  ...,  0.0153,  0.0036, -0.0853],
+        [ 0.0425, -0.0829, -0.0633,  ...,  0.0257, -0.1042,  0.0480],
+        ...,
+        [ 0.0092, -0.0219, -0.0972,  ..., -0.0824,  0.0151,  0.0960],
+        [ 0.0538, -0.0838, -0.0709,  ..., -0.0814, -0.0358, -0.0531],
+        [-0.1245,  0.0095,  0.0918,  ...,  0.0674, -0.0411, -0.0893]],
+       device='cuda:0'), grad: tensor([[ 4.8093e-06,  1.1828e-07,  1.0088e-05,  ...,  8.4788e-06,
+          0.0000e+00,  1.8254e-07],
+        [ 1.0002e-04,  9.3412e-07,  2.6655e-04,  ...,  3.0971e-04,
+          0.0000e+00,  3.2596e-07],
+        [ 2.5984e-06,  6.7055e-08,  6.2250e-06,  ...,  8.2478e-06,
+          0.0000e+00, -1.9949e-06],
+        ...,
+        [ 4.6613e-07,  4.0382e-06,  2.0072e-05,  ...,  1.8016e-05,
+          0.0000e+00,  2.2966e-06],
+        [-1.2410e-04,  1.7378e-06, -3.1972e-04,  ..., -3.7837e-04,
+          0.0000e+00,  6.5565e-07],
+        [ 2.8759e-06, -1.0341e-05, -5.0008e-05,  ..., -4.0591e-05,
+          0.0000e+00, -2.9691e-06]], device='cuda:0')
+Epoch 121, bias, value: tensor([-0.0237, -0.0174, -0.0298, -0.0002,  0.0037,  0.0334,  0.0150, -0.0190,
+         0.0086, -0.0073], device='cuda:0'), grad: tensor([ 2.6658e-05,  1.3762e-03,  3.4392e-05,  3.3677e-05,  4.0293e-05,
+         5.4777e-05,  1.6141e-04,  5.5611e-05, -1.7290e-03, -5.4210e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 120, time 213.94, cls_loss 0.0040 cls_loss_mapping 0.0072 cls_loss_causal 0.5551 re_mapping 0.0078 re_causal 0.0220 /// teacc 98.84 lr 0.00010000
+Epoch 122, weight, value: tensor([[ 0.0041, -0.0282, -0.0314,  ..., -0.1329, -0.0325, -0.0760],
+        [-0.0096, -0.0443, -0.0431,  ...,  0.0153,  0.0028, -0.0872],
+        [ 0.0424, -0.0833, -0.0644,  ...,  0.0251, -0.1044,  0.0485],
+        ...,
+        [ 0.0083, -0.0213, -0.0988,  ..., -0.0836,  0.0160,  0.0974],
+        [ 0.0543, -0.0840, -0.0705,  ..., -0.0817, -0.0360, -0.0538],
+        [-0.1255,  0.0104,  0.0930,  ...,  0.0684, -0.0412, -0.0892]],
+       device='cuda:0'), grad: tensor([[-1.0971e-06,  3.2131e-08,  1.6214e-06,  ...,  1.2890e-06,
+          0.0000e+00,  8.4750e-08],
+        [-2.5611e-06,  3.5763e-07, -7.0095e-05,  ..., -5.6297e-05,
+          0.0000e+00,  1.2992e-06],
+        [ 5.9884e-07,  6.3470e-07,  3.7532e-06,  ...,  9.4855e-07,
+          0.0000e+00,  5.6764e-07],
+        ...,
+        [ 4.2608e-07, -9.7696e-07,  5.4017e-06,  ...,  4.3623e-06,
+          0.0000e+00, -2.1402e-06],
+        [ 1.9297e-06,  2.6077e-07,  4.6253e-05,  ...,  3.7223e-05,
+          0.0000e+00,  5.8068e-07],
+        [ 5.3504e-07, -1.8999e-07, -4.1025e-07,  ..., -2.1374e-07,
+          0.0000e+00,  1.2992e-07]], device='cuda:0')
+Epoch 122, bias, value: tensor([-0.0237, -0.0184, -0.0302, -0.0005,  0.0028,  0.0350,  0.0143, -0.0185,
+         0.0090, -0.0065], device='cuda:0'), grad: tensor([ 3.5809e-07, -1.6320e-04,  7.1041e-06, -1.2644e-05, -1.2720e-04,
+         1.2226e-05,  1.6081e-04,  9.8199e-06,  1.0979e-04,  3.0268e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 121, time 213.88, cls_loss 0.0025 cls_loss_mapping 0.0051 cls_loss_causal 0.5645 re_mapping 0.0074 re_causal 0.0228 /// teacc 98.81 lr 0.00010000
+Epoch 123, weight, value: tensor([[ 0.0049, -0.0285, -0.0330,  ..., -0.1338, -0.0326, -0.0757],
+        [-0.0098, -0.0444, -0.0424,  ...,  0.0161,  0.0028, -0.0876],
+        [ 0.0423, -0.0837, -0.0646,  ...,  0.0255, -0.1044,  0.0486],
+        ...,
+        [ 0.0081, -0.0215, -0.0999,  ..., -0.0846,  0.0160,  0.0976],
+        [ 0.0550, -0.0842, -0.0706,  ..., -0.0818, -0.0362, -0.0541],
+        [-0.1254,  0.0105,  0.0934,  ...,  0.0686, -0.0412, -0.0897]],
+       device='cuda:0'), grad: tensor([[-3.5968e-06,  2.6589e-07,  1.3895e-06,  ...,  1.8766e-07,
+          0.0000e+00,  5.7090e-07],
+        [ 1.2303e-06,  3.7439e-07, -7.3714e-07,  ..., -1.3895e-06,
+          0.0000e+00,  8.7311e-07],
+        [ 1.8328e-06,  1.4547e-06,  7.3900e-07,  ...,  6.6077e-07,
+          0.0000e+00,  6.7148e-07],
+        ...,
+        [ 1.7602e-07, -1.6410e-06,  6.1840e-07,  ...,  5.5414e-07,
+          0.0000e+00, -3.8967e-06],
+        [-5.3793e-06,  3.8790e-07,  9.8627e-07,  ..., -1.4547e-06,
+          0.0000e+00,  5.9232e-07],
+        [ 5.7928e-07, -4.8056e-07, -2.1048e-06,  ..., -2.5760e-06,
+          0.0000e+00,  1.5786e-06]], device='cuda:0')
+Epoch 123, bias, value: tensor([-0.0238, -0.0181, -0.0304, -0.0003,  0.0025,  0.0346,  0.0141, -0.0187,
+         0.0093, -0.0062], device='cuda:0'), grad: tensor([-4.0941e-06, -6.2864e-08,  7.2382e-06, -2.4401e-06,  1.9018e-06,
+         2.1726e-05, -5.8189e-06, -3.2000e-06, -1.6138e-05,  8.9779e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 122, time 214.05, cls_loss 0.0025 cls_loss_mapping 0.0050 cls_loss_causal 0.5623 re_mapping 0.0070 re_causal 0.0214 /// teacc 98.85 lr 0.00010000
+Epoch 124, weight, value: tensor([[ 0.0047, -0.0290, -0.0336,  ..., -0.1343, -0.0326, -0.0763],
+        [-0.0099, -0.0446, -0.0416,  ...,  0.0170,  0.0028, -0.0880],
+        [ 0.0423, -0.0840, -0.0658,  ...,  0.0253, -0.1044,  0.0489],
+        ...,
+        [ 0.0079, -0.0212, -0.1005,  ..., -0.0851,  0.0160,  0.0982],
+        [ 0.0562, -0.0843, -0.0704,  ..., -0.0820, -0.0362, -0.0545],
+        [-0.1267,  0.0103,  0.0932,  ...,  0.0684, -0.0412, -0.0910]],
+       device='cuda:0'), grad: tensor([[ 1.3486e-06,  9.4017e-07,  7.6881e-07,  ...,  9.2946e-07,
+          2.5705e-07,  2.4512e-06],
+        [ 1.8571e-06,  1.7834e-04,  6.5826e-06,  ...,  1.3895e-06,
+          5.4855e-07,  2.6870e-04],
+        [ 3.4459e-07,  2.0847e-05,  1.5134e-07,  ...,  8.8476e-08,
+          1.3039e-08,  1.0717e-04],
+        ...,
+        [ 1.6745e-06, -1.7834e-04, -6.6198e-06,  ...,  2.5015e-06,
+          5.8860e-07, -2.5153e-04],
+        [ 1.5488e-06,  7.5325e-06,  2.4680e-07,  ...,  1.8561e-06,
+          4.9593e-07,  3.1382e-05],
+        [ 1.5246e-06,  1.9372e-06, -5.5647e-07,  ...,  8.6054e-07,
+          4.2375e-07,  3.8221e-06]], device='cuda:0')
+Epoch 124, bias, value: tensor([-0.0241, -0.0177, -0.0307, -0.0002,  0.0024,  0.0345,  0.0146, -0.0185,
+         0.0100, -0.0069], device='cuda:0'), grad: tensor([ 6.7912e-06,  7.5960e-04,  1.8704e-04, -3.1543e-04,  5.6578e-07,
+         2.4274e-05, -9.4390e-07, -7.3338e-04,  6.0052e-05,  1.1139e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 123, time 214.23, cls_loss 0.0027 cls_loss_mapping 0.0060 cls_loss_causal 0.5614 re_mapping 0.0072 re_causal 0.0216 /// teacc 98.86 lr 0.00010000
+Epoch 125, weight, value: tensor([[ 0.0053, -0.0293, -0.0332,  ..., -0.1347, -0.0326, -0.0768],
+        [-0.0101, -0.0449, -0.0414,  ...,  0.0171,  0.0028, -0.0883],
+        [ 0.0423, -0.0843, -0.0667,  ...,  0.0252, -0.1045,  0.0488],
+        ...,
+        [ 0.0076, -0.0212, -0.1022,  ..., -0.0862,  0.0160,  0.0987],
+        [ 0.0562, -0.0846, -0.0711,  ..., -0.0828, -0.0363, -0.0549],
+        [-0.1278,  0.0105,  0.0931,  ...,  0.0685, -0.0412, -0.0911]],
+       device='cuda:0'), grad: tensor([[ 5.1036e-07,  3.6275e-07,  1.8608e-06,  ...,  1.6904e-06,
+          0.0000e+00,  5.1176e-07],
+        [ 1.2619e-06,  1.0207e-06, -3.4012e-06,  ..., -2.6189e-06,
+          0.0000e+00,  2.7418e-06],
+        [ 1.0077e-06,  1.1278e-06,  1.5479e-06,  ...,  1.2154e-06,
+          0.0000e+00,  2.7847e-06],
+        ...,
+        [ 3.3621e-07, -4.2804e-06,  3.6284e-06,  ...,  2.9150e-06,
+          0.0000e+00, -9.6634e-06],
+        [-2.0474e-05,  1.0785e-06,  2.3358e-06,  ...,  9.1866e-06,
+          0.0000e+00,  1.6764e-06],
+        [ 1.1837e-06,  2.3562e-06, -1.9725e-06,  ..., -2.0087e-05,
+          0.0000e+00,  3.5334e-06]], device='cuda:0')
+Epoch 125, bias, value: tensor([-0.0229, -0.0177, -0.0312, -0.0002,  0.0025,  0.0341,  0.0151, -0.0185,
+         0.0097, -0.0075], device='cuda:0'), grad: tensor([ 6.4522e-06, -4.0531e-06,  1.1690e-05,  6.6012e-06, -1.8522e-05,
+         5.5462e-05,  1.0550e-05, -3.9116e-06, -6.5863e-05,  1.5888e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 124, time 214.23, cls_loss 0.0032 cls_loss_mapping 0.0052 cls_loss_causal 0.5463 re_mapping 0.0070 re_causal 0.0214 /// teacc 98.87 lr 0.00010000
+Epoch 126, weight, value: tensor([[ 0.0058, -0.0296, -0.0337,  ..., -0.1355, -0.0332, -0.0768],
+        [-0.0109, -0.0450, -0.0415,  ...,  0.0170,  0.0028, -0.0888],
+        [ 0.0427, -0.0846, -0.0667,  ...,  0.0249, -0.1052,  0.0498],
+        ...,
+        [ 0.0069, -0.0211, -0.1029,  ..., -0.0868,  0.0159,  0.0987],
+        [ 0.0570, -0.0848, -0.0713,  ..., -0.0833, -0.0382, -0.0555],
+        [-0.1286,  0.0102,  0.0930,  ...,  0.0684, -0.0412, -0.0921]],
+       device='cuda:0'), grad: tensor([[ 6.6962e-07,  4.4703e-08,  5.1856e-06,  ...,  1.2675e-06,
+          0.0000e+00,  3.4552e-07],
+        [ 7.4133e-07,  2.5984e-07,  3.5942e-05,  ...,  1.2554e-05,
+          0.0000e+00,  3.6489e-06],
+        [ 1.9791e-07,  1.7742e-07,  1.3091e-05,  ...,  4.6231e-06,
+          0.0000e+00, -1.0338e-07],
+        ...,
+        [ 1.9884e-07, -5.4063e-07,  5.9828e-06,  ...,  2.3041e-06,
+          0.0000e+00, -4.8149e-07],
+        [-5.8338e-06, -9.3132e-09,  5.7742e-06,  ...,  7.4087e-07,
+          2.7940e-09,  8.5775e-07],
+        [ 6.3889e-07,  1.5553e-07,  5.3570e-06,  ...,  1.9893e-06,
+          4.6566e-10,  5.5460e-07]], device='cuda:0')
+Epoch 126, bias, value: tensor([-0.0225, -0.0181, -0.0305, -0.0001,  0.0028,  0.0342,  0.0151, -0.0191,
+         0.0103, -0.0079], device='cuda:0'), grad: tensor([ 7.5623e-06,  7.0512e-05,  2.4095e-05,  1.8626e-06, -2.1636e-04,
+         1.3553e-05,  7.8261e-05,  1.0692e-05, -2.5891e-06,  1.2375e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 125, time 213.97, cls_loss 0.0033 cls_loss_mapping 0.0077 cls_loss_causal 0.5647 re_mapping 0.0075 re_causal 0.0222 /// teacc 98.95 lr 0.00010000
+Epoch 127, weight, value: tensor([[ 0.0059, -0.0298, -0.0364,  ..., -0.1371, -0.0333, -0.0774],
+        [-0.0110, -0.0448, -0.0406,  ...,  0.0179,  0.0028, -0.0888],
+        [ 0.0427, -0.0853, -0.0678,  ...,  0.0245, -0.1053,  0.0496],
+        ...,
+        [ 0.0066, -0.0216, -0.1051,  ..., -0.0883,  0.0164,  0.0986],
+        [ 0.0555, -0.0853, -0.0743,  ..., -0.0868, -0.0383, -0.0567],
+        [-0.1266,  0.0106,  0.0952,  ...,  0.0697, -0.0426, -0.0930]],
+       device='cuda:0'), grad: tensor([[ 1.7524e-05,  1.7732e-06,  1.8105e-05,  ...,  4.8578e-06,
+          4.6566e-10,  5.4650e-06],
+        [ 2.6613e-05,  4.9993e-06,  2.5406e-05,  ...,  4.2051e-05,
+          5.5879e-09,  1.3225e-05],
+        [ 1.7462e-06,  9.2015e-07,  8.7963e-07,  ...,  1.6242e-06,
+          1.3970e-09, -4.6283e-05],
+        ...,
+        [ 1.0887e-06, -5.1856e-05,  2.0005e-06,  ...,  3.3509e-06,
+         -2.5146e-08, -6.7532e-05],
+        [ 7.1704e-05,  1.0848e-05,  8.6069e-05,  ..., -3.5793e-05,
+          2.7940e-09,  3.9786e-06],
+        [ 3.5465e-06,  2.8938e-05, -1.4111e-05,  ..., -1.3597e-05,
+          1.8626e-09,  5.2691e-05]], device='cuda:0')
+Epoch 127, bias, value: tensor([-0.0243, -0.0177, -0.0309,  0.0003,  0.0032,  0.0344,  0.0151, -0.0198,
+         0.0079, -0.0056], device='cuda:0'), grad: tensor([ 9.3460e-05,  1.9336e-04, -6.7532e-05,  6.1095e-05,  6.3419e-05,
+         7.3731e-05, -7.0095e-04, -1.6499e-04,  3.2210e-04,  1.2612e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 126, time 214.17, cls_loss 0.0035 cls_loss_mapping 0.0068 cls_loss_causal 0.5348 re_mapping 0.0071 re_causal 0.0211 /// teacc 98.94 lr 0.00010000
+Epoch 128, weight, value: tensor([[ 0.0066, -0.0301, -0.0364,  ..., -0.1375, -0.0333, -0.0779],
+        [-0.0118, -0.0456, -0.0419,  ...,  0.0165,  0.0028, -0.0896],
+        [ 0.0414, -0.0854, -0.0690,  ...,  0.0240, -0.1054,  0.0498],
+        ...,
+        [ 0.0066, -0.0213, -0.1063,  ..., -0.0890,  0.0166,  0.0998],
+        [ 0.0530, -0.0858, -0.0776,  ..., -0.0895, -0.0384, -0.0571],
+        [-0.1243,  0.0111,  0.0974,  ...,  0.0713, -0.0433, -0.0949]],
+       device='cuda:0'), grad: tensor([[ 3.0845e-06,  2.4028e-07,  1.5553e-06,  ...,  6.0862e-07,
+          0.0000e+00,  5.6066e-07],
+        [ 1.4175e-06,  3.0696e-05,  2.2557e-06,  ...,  1.1986e-06,
+          0.0000e+00,  4.8846e-05],
+        [-1.8543e-06,  3.9954e-07,  1.0207e-06,  ...,  6.6869e-07,
+          0.0000e+00, -1.6928e-05],
+        ...,
+        [ 3.2652e-06, -3.3349e-05,  1.3830e-06,  ...,  1.0980e-06,
+          0.0000e+00, -3.9160e-05],
+        [ 1.4398e-06,  1.4724e-06,  3.1330e-06,  ..., -3.1199e-07,
+          0.0000e+00,  1.9092e-06],
+        [ 1.4519e-06,  1.2675e-06,  1.3700e-06,  ...,  1.4585e-06,
+          0.0000e+00,  2.7716e-06]], device='cuda:0')
+Epoch 128, bias, value: tensor([-0.0238, -0.0190, -0.0314, -0.0001,  0.0037,  0.0347,  0.0151, -0.0193,
+         0.0051, -0.0034], device='cuda:0'), grad: tensor([ 9.7081e-06,  1.7536e-04, -1.2182e-05,  6.6608e-06, -1.8433e-05,
+         1.7248e-06, -1.8224e-05, -1.6451e-04,  5.5619e-06,  1.4104e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 127, time 214.29, cls_loss 0.0022 cls_loss_mapping 0.0049 cls_loss_causal 0.5456 re_mapping 0.0074 re_causal 0.0219 /// teacc 98.87 lr 0.00010000
+Epoch 129, weight, value: tensor([[ 0.0065, -0.0304, -0.0365,  ..., -0.1380, -0.0334, -0.0788],
+        [-0.0121, -0.0459, -0.0419,  ...,  0.0166,  0.0028, -0.0899],
+        [ 0.0416, -0.0857, -0.0691,  ...,  0.0240, -0.1069,  0.0502],
+        ...,
+        [ 0.0064, -0.0212, -0.1067,  ..., -0.0895,  0.0165,  0.1000],
+        [ 0.0535, -0.0861, -0.0776,  ..., -0.0896, -0.0385, -0.0574],
+        [-0.1245,  0.0111,  0.0974,  ...,  0.0713, -0.0434, -0.0957]],
+       device='cuda:0'), grad: tensor([[-1.3178e-07,  1.9819e-06,  2.4084e-06,  ...,  3.6824e-06,
+          1.0198e-07,  7.0501e-07],
+        [ 9.5926e-08,  4.2655e-07, -3.9749e-06,  ..., -2.9787e-05,
+          3.5390e-08,  3.5856e-07],
+        [-3.2596e-08,  9.4995e-08,  1.2005e-06,  ...,  2.7008e-06,
+          9.3132e-09, -2.5798e-06],
+        ...,
+        [ 2.9150e-07,  6.2995e-06,  6.5751e-06,  ...,  1.6034e-05,
+          2.1253e-06,  2.3395e-06],
+        [ 1.9697e-07,  4.3511e-06,  6.9439e-06,  ...,  1.6734e-05,
+          5.8627e-07,  1.6578e-06],
+        [ 8.1398e-07, -8.2105e-06, -8.4490e-06,  ..., -1.0632e-05,
+          1.0608e-06,  1.6093e-06]], device='cuda:0')
+Epoch 129, bias, value: tensor([-0.0240, -0.0192, -0.0313,  0.0003,  0.0040,  0.0341,  0.0151, -0.0194,
+         0.0055, -0.0036], device='cuda:0'), grad: tensor([ 8.8736e-06, -7.4863e-05,  3.3230e-06,  3.6545e-06, -2.7269e-05,
+         2.6766e-06,  3.4794e-06,  4.9233e-05,  4.4107e-05, -1.3307e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 128, time 214.22, cls_loss 0.0027 cls_loss_mapping 0.0065 cls_loss_causal 0.5350 re_mapping 0.0078 re_causal 0.0224 /// teacc 98.96 lr 0.00010000
+Epoch 130, weight, value: tensor([[ 0.0063, -0.0306, -0.0375,  ..., -0.1418, -0.0335, -0.0799],
+        [-0.0131, -0.0460, -0.0418,  ...,  0.0169,  0.0029, -0.0892],
+        [ 0.0422, -0.0860, -0.0691,  ...,  0.0253, -0.1073,  0.0512],
+        ...,
+        [ 0.0059, -0.0209, -0.1073,  ..., -0.0904,  0.0166,  0.1000],
+        [ 0.0544, -0.0864, -0.0776,  ..., -0.0899, -0.0389, -0.0582],
+        [-0.1246,  0.0111,  0.0977,  ...,  0.0715, -0.0439, -0.0972]],
+       device='cuda:0'), grad: tensor([[-2.5015e-06,  1.3039e-08,  3.6927e-07,  ...,  1.2666e-07,
+          0.0000e+00,  2.7940e-09],
+        [ 7.9069e-07,  2.5611e-08, -7.1898e-07,  ..., -2.9616e-06,
+          0.0000e+00,  3.3062e-08],
+        [ 2.0768e-07,  1.2573e-08,  3.2643e-07,  ...,  5.8766e-07,
+          0.0000e+00, -3.4925e-08],
+        ...,
+        [ 9.1735e-08,  1.3132e-07,  7.7533e-07,  ...,  1.3262e-06,
+          0.0000e+00,  2.7474e-08],
+        [ 1.4380e-06,  9.1735e-08,  1.6363e-06,  ...,  1.1222e-06,
+          0.0000e+00,  7.9162e-09],
+        [ 7.5949e-07, -9.5041e-07, -1.7090e-06,  ..., -2.3060e-06,
+          0.0000e+00,  1.2573e-08]], device='cuda:0')
+Epoch 130, bias, value: tensor([-0.0246, -0.0187, -0.0304,  0.0001,  0.0039,  0.0338,  0.0152, -0.0200,
+         0.0059, -0.0036], device='cuda:0'), grad: tensor([-7.3798e-06, -4.2468e-06,  1.6950e-06,  8.7172e-07,  3.4682e-06,
+         3.2093e-06, -4.6827e-06,  2.6561e-06,  4.8801e-06, -4.8894e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 129----------------------------------------------------
+epoch 129, time 230.15, cls_loss 0.0027 cls_loss_mapping 0.0063 cls_loss_causal 0.5592 re_mapping 0.0072 re_causal 0.0208 /// teacc 99.02 lr 0.00010000
+Epoch 131, weight, value: tensor([[ 0.0056, -0.0309, -0.0376,  ..., -0.1420, -0.0338, -0.0803],
+        [-0.0138, -0.0461, -0.0416,  ...,  0.0172,  0.0033, -0.0898],
+        [ 0.0413, -0.0862, -0.0696,  ...,  0.0250, -0.1117,  0.0500],
+        ...,
+        [ 0.0057, -0.0214, -0.1084,  ..., -0.0922,  0.0168,  0.1014],
+        [ 0.0552, -0.0867, -0.0777,  ..., -0.0899, -0.0396, -0.0586],
+        [-0.1247,  0.0119,  0.0980,  ...,  0.0723, -0.0444, -0.0970]],
+       device='cuda:0'), grad: tensor([[ 1.0235e-06,  1.3318e-07,  1.2713e-06,  ...,  2.4214e-07,
+          1.5367e-08,  2.8033e-07],
+        [ 9.4995e-07,  3.4971e-07,  8.1733e-06,  ...,  6.4149e-06,
+         -2.8638e-07,  1.5134e-06],
+        [ 5.9977e-07,  3.5856e-07,  1.0198e-06,  ...,  9.4762e-07,
+          7.7300e-08,  1.0170e-06],
+        ...,
+        [ 8.5682e-08, -8.4098e-07,  2.6356e-06,  ...,  2.3060e-06,
+          9.3132e-09, -3.8967e-06],
+        [ 4.4703e-06,  3.7532e-07,  5.1036e-06,  ...,  1.3644e-06,
+          3.7253e-08,  1.8133e-06],
+        [ 4.9360e-07,  3.0873e-07,  2.2054e-06,  ...,  2.1495e-06,
+          8.8941e-08,  1.6699e-06]], device='cuda:0')
+Epoch 131, bias, value: tensor([-0.0250, -0.0188, -0.0323, -0.0001,  0.0034,  0.0334,  0.0161, -0.0197,
+         0.0066, -0.0034], device='cuda:0'), grad: tensor([ 4.7423e-06,  1.8641e-05,  6.0908e-06, -6.8918e-06, -2.6464e-05,
+         1.9744e-06, -2.7105e-05,  5.5693e-07,  1.9982e-05,  8.4266e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 130, time 213.94, cls_loss 0.0023 cls_loss_mapping 0.0044 cls_loss_causal 0.5660 re_mapping 0.0069 re_causal 0.0211 /// teacc 99.00 lr 0.00010000
+Epoch 132, weight, value: tensor([[ 0.0062, -0.0315, -0.0379,  ..., -0.1421, -0.0343, -0.0808],
+        [-0.0140, -0.0462, -0.0416,  ...,  0.0170,  0.0033, -0.0902],
+        [ 0.0411, -0.0864, -0.0704,  ...,  0.0256, -0.1133,  0.0505],
+        ...,
+        [ 0.0053, -0.0205, -0.1087,  ..., -0.0926,  0.0172,  0.1023],
+        [ 0.0553, -0.0870, -0.0777,  ..., -0.0901, -0.0426, -0.0591],
+        [-0.1249,  0.0115,  0.0979,  ...,  0.0719, -0.0446, -0.0979]],
+       device='cuda:0'), grad: tensor([[-5.3756e-06,  1.0952e-06,  1.0962e-06,  ...,  4.0494e-06,
+          1.2899e-07,  1.6047e-06],
+        [ 1.1232e-06,  3.2093e-06,  1.7136e-07,  ...,  7.9125e-06,
+          2.8824e-07,  6.3777e-06],
+        [ 2.1365e-06,  1.1669e-06,  5.1549e-07,  ..., -9.4697e-06,
+          4.2375e-08, -3.2961e-05],
+        ...,
+        [-9.8497e-06, -1.6108e-05,  3.8087e-05,  ...,  2.8580e-05,
+          2.6356e-06, -2.6613e-05],
+        [-2.3972e-06,  1.1967e-06,  1.7378e-06,  ...,  2.6878e-06,
+          8.9407e-08,  2.8871e-06],
+        [ 1.0632e-05,  2.0191e-06, -4.6849e-05,  ..., -6.4135e-05,
+         -4.2841e-06,  4.1544e-05]], device='cuda:0')
+Epoch 132, bias, value: tensor([-0.0246, -0.0189, -0.0322, -0.0007,  0.0037,  0.0329,  0.0167, -0.0191,
+         0.0067, -0.0038], device='cuda:0'), grad: tensor([-2.3603e-05,  2.3261e-05, -2.7239e-05,  3.9905e-05,  2.4438e-06,
+         1.7509e-05,  6.2250e-06, -5.6267e-05,  2.8778e-07,  1.7330e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 131----------------------------------------------------
+epoch 131, time 230.09, cls_loss 0.0022 cls_loss_mapping 0.0049 cls_loss_causal 0.5415 re_mapping 0.0070 re_causal 0.0211 /// teacc 99.12 lr 0.00010000
+Epoch 133, weight, value: tensor([[ 0.0064, -0.0321, -0.0381,  ..., -0.1426, -0.0349, -0.0811],
+        [-0.0142, -0.0464, -0.0415,  ...,  0.0171,  0.0032, -0.0907],
+        [ 0.0401, -0.0867, -0.0714,  ...,  0.0257, -0.1143,  0.0505],
+        ...,
+        [ 0.0054, -0.0202, -0.1094,  ..., -0.0930,  0.0173,  0.1031],
+        [ 0.0554, -0.0874, -0.0777,  ..., -0.0904, -0.0434, -0.0598],
+        [-0.1251,  0.0114,  0.0979,  ...,  0.0716, -0.0451, -0.0988]],
+       device='cuda:0'), grad: tensor([[-1.9833e-05, -6.0536e-08,  6.6590e-08,  ...,  1.0757e-07,
+          9.3132e-10, -3.1777e-06],
+        [ 5.8813e-07,  4.6752e-07, -2.9150e-07,  ..., -1.9697e-07,
+          1.3039e-08,  7.1479e-07],
+        [ 3.1590e-06,  6.5705e-07,  1.1967e-07,  ...,  5.6392e-07,
+          1.4901e-08, -4.1090e-06],
+        ...,
+        [ 1.6699e-06,  3.4785e-07,  2.2911e-07,  ...,  4.7451e-07,
+         -6.1933e-08,  3.6210e-06],
+        [ 6.0396e-07, -7.4506e-09, -1.9418e-07,  ...,  5.4808e-07,
+          6.9849e-09,  1.7872e-06],
+        [ 5.2862e-06,  1.4920e-06, -5.5879e-07,  ...,  1.1949e-06,
+         -6.5193e-09,  2.6841e-06]], device='cuda:0')
+Epoch 133, bias, value: tensor([-0.0246, -0.0190, -0.0328, -0.0005,  0.0039,  0.0330,  0.0169, -0.0187,
+         0.0066, -0.0041], device='cuda:0'), grad: tensor([-6.9499e-05,  4.3139e-06,  8.8587e-06, -3.7462e-05,  3.5223e-06,
+         4.7207e-05,  1.4402e-05,  1.0036e-05, -4.1239e-06,  2.2769e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 132, time 213.99, cls_loss 0.0023 cls_loss_mapping 0.0051 cls_loss_causal 0.5631 re_mapping 0.0064 re_causal 0.0208 /// teacc 98.99 lr 0.00010000
+Epoch 134, weight, value: tensor([[ 0.0066, -0.0326, -0.0382,  ..., -0.1431, -0.0352, -0.0818],
+        [-0.0143, -0.0464, -0.0412,  ...,  0.0173,  0.0042, -0.0913],
+        [ 0.0402, -0.0871, -0.0722,  ...,  0.0254, -0.1151,  0.0509],
+        ...,
+        [ 0.0051, -0.0201, -0.1104,  ..., -0.0938,  0.0163,  0.1036],
+        [ 0.0554, -0.0878, -0.0777,  ..., -0.0904, -0.0437, -0.0606],
+        [-0.1252,  0.0114,  0.0979,  ...,  0.0717, -0.0451, -0.0998]],
+       device='cuda:0'), grad: tensor([[-2.9337e-08,  3.4412e-07,  1.0328e-06,  ...,  1.0179e-06,
+          1.3970e-09,  1.4706e-06],
+        [ 1.9092e-07,  2.7334e-07, -9.7323e-07,  ..., -7.9069e-07,
+          2.3283e-09,  7.0501e-07],
+        [-4.9919e-07,  1.2107e-07,  1.6671e-07,  ..., -1.2806e-07,
+          3.2596e-09, -8.7321e-06],
+        ...,
+        [ 1.7695e-07,  4.3027e-07,  1.4780e-06,  ...,  1.4268e-06,
+          1.8626e-09,  5.0478e-07],
+        [ 6.0070e-08,  6.1886e-07,  1.1465e-06,  ...,  1.7462e-06,
+          3.7253e-09,  2.7474e-06],
+        [ 6.4587e-07, -2.9206e-06, -7.9125e-06,  ..., -5.9344e-06,
+          3.2596e-09,  2.5472e-07]], device='cuda:0')
+Epoch 134, bias, value: tensor([-0.0245, -0.0191, -0.0327,  0.0006,  0.0041,  0.0321,  0.0167, -0.0187,
+         0.0067, -0.0043], device='cuda:0'), grad: tensor([ 5.3085e-06, -1.7062e-06, -1.9297e-05,  2.0146e-05,  3.5278e-06,
+        -1.4961e-05,  3.7253e-06,  3.8054e-06,  8.0913e-06, -8.6948e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 133, time 214.19, cls_loss 0.0026 cls_loss_mapping 0.0051 cls_loss_causal 0.5574 re_mapping 0.0063 re_causal 0.0205 /// teacc 98.86 lr 0.00010000
+Epoch 135, weight, value: tensor([[ 0.0068, -0.0331, -0.0382,  ..., -0.1437, -0.0355, -0.0826],
+        [-0.0147, -0.0466, -0.0414,  ...,  0.0172,  0.0042, -0.0916],
+        [ 0.0401, -0.0867, -0.0730,  ...,  0.0253, -0.1155,  0.0529],
+        ...,
+        [ 0.0050, -0.0201, -0.1109,  ..., -0.0941,  0.0163,  0.1030],
+        [ 0.0561, -0.0881, -0.0773,  ..., -0.0902, -0.0444, -0.0614],
+        [-0.1254,  0.0116,  0.0980,  ...,  0.0717, -0.0452, -0.1003]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-08,  2.6077e-08,  4.0978e-08,  ...,  9.9652e-08,
+          9.3132e-10,  2.1514e-07],
+        [ 4.4983e-07,  1.9744e-07, -5.2992e-07,  ..., -3.7253e-08,
+          0.0000e+00,  1.9446e-06],
+        [-6.5099e-07,  8.1956e-08,  1.1455e-07,  ..., -1.1306e-06,
+          0.0000e+00, -5.5060e-06],
+        ...,
+        [ 4.9360e-08,  2.1514e-07,  6.9384e-07,  ...,  6.9663e-07,
+          0.0000e+00,  1.9558e-07],
+        [-5.0571e-07,  1.3877e-07,  3.2317e-07,  ...,  4.5076e-07,
+          1.8626e-09,  3.4738e-07],
+        [ 6.7987e-08, -4.2841e-08, -6.7055e-08,  ...,  4.3400e-07,
+          9.3132e-10,  2.0023e-07]], device='cuda:0')
+Epoch 135, bias, value: tensor([-2.4294e-02, -1.9520e-02, -3.1836e-02, -9.0919e-05,  3.8505e-03,
+         3.2389e-02,  1.6331e-02, -1.9080e-02,  7.6257e-03, -4.4534e-03],
+       device='cuda:0'), grad: tensor([ 4.8801e-07,  3.1069e-06, -1.0476e-05,  1.9092e-07, -7.6368e-08,
+        -1.6764e-07,  4.2953e-06,  1.7360e-06, -2.0862e-07,  1.1045e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 134, time 214.13, cls_loss 0.0024 cls_loss_mapping 0.0054 cls_loss_causal 0.5367 re_mapping 0.0065 re_causal 0.0207 /// teacc 99.02 lr 0.00010000
+Epoch 136, weight, value: tensor([[ 0.0069, -0.0338, -0.0383,  ..., -0.1446, -0.0358, -0.0840],
+        [-0.0148, -0.0467, -0.0413,  ...,  0.0173,  0.0044, -0.0918],
+        [ 0.0400, -0.0874, -0.0737,  ...,  0.0252, -0.1163,  0.0534],
+        ...,
+        [ 0.0049, -0.0198, -0.1117,  ..., -0.0948,  0.0161,  0.1033],
+        [ 0.0563, -0.0885, -0.0773,  ..., -0.0905, -0.0446, -0.0623],
+        [-0.1255,  0.0127,  0.0995,  ...,  0.0732, -0.0452, -0.1016]],
+       device='cuda:0'), grad: tensor([[ 3.0268e-07,  1.0338e-07,  2.1607e-07,  ...,  7.7300e-08,
+          0.0000e+00,  2.1793e-07],
+        [ 3.1665e-08,  2.4308e-07, -1.2377e-06,  ..., -1.1502e-06,
+          0.0000e+00,  4.3772e-07],
+        [ 8.8476e-08,  5.6811e-07,  2.4308e-07,  ...,  1.9372e-07,
+          0.0000e+00,  9.8161e-07],
+        ...,
+        [ 2.2352e-08, -4.3102e-06,  3.9116e-07,  ...,  3.7439e-07,
+          0.0000e+00, -8.1137e-06],
+        [-1.9260e-06,  8.6334e-07, -4.6473e-07,  ...,  5.0664e-07,
+          0.0000e+00,  1.8356e-06],
+        [ 1.2768e-06,  4.9733e-07,  4.9546e-07,  ...,  3.1665e-08,
+          0.0000e+00,  8.8196e-07]], device='cuda:0')
+Epoch 136, bias, value: tensor([-0.0245, -0.0194, -0.0318,  0.0002,  0.0026,  0.0327,  0.0160, -0.0191,
+         0.0077, -0.0039], device='cuda:0'), grad: tensor([ 1.4380e-06, -1.8599e-06,  2.3115e-06,  6.6683e-06, -1.5553e-07,
+        -1.7043e-07,  5.5041e-07, -1.1809e-05, -2.6450e-06,  5.6364e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 135, time 213.97, cls_loss 0.0023 cls_loss_mapping 0.0045 cls_loss_causal 0.5100 re_mapping 0.0069 re_causal 0.0191 /// teacc 98.97 lr 0.00010000
+Epoch 137, weight, value: tensor([[ 0.0073, -0.0342, -0.0383,  ..., -0.1453, -0.0360, -0.0847],
+        [-0.0150, -0.0469, -0.0411,  ...,  0.0174,  0.0044, -0.0921],
+        [ 0.0401, -0.0879, -0.0742,  ...,  0.0251, -0.1169,  0.0536],
+        ...,
+        [ 0.0050, -0.0193, -0.1126,  ..., -0.0958,  0.0164,  0.1042],
+        [ 0.0562, -0.0890, -0.0773,  ..., -0.0906, -0.0451, -0.0635],
+        [-0.1257,  0.0122,  0.0991,  ...,  0.0728, -0.0459, -0.1031]],
+       device='cuda:0'), grad: tensor([[-3.1944e-07,  2.0768e-07,  1.5087e-07,  ...,  3.3528e-08,
+          0.0000e+00,  6.0350e-07],
+        [ 1.1548e-07,  8.3074e-07, -1.6578e-07,  ..., -1.6671e-07,
+          0.0000e+00,  2.0899e-06],
+        [ 1.6671e-07,  2.1551e-06,  2.1979e-07,  ...,  6.7987e-08,
+          0.0000e+00, -5.2005e-06],
+        ...,
+        [-9.1642e-07, -7.0557e-06,  3.1572e-07,  ...,  3.9581e-07,
+          0.0000e+00, -4.0308e-06],
+        [ 1.6298e-07,  1.1707e-06,  5.3551e-07,  ...,  3.9954e-07,
+          0.0000e+00,  3.0380e-06],
+        [ 7.8231e-07,  2.5034e-06, -2.0433e-06,  ..., -2.1681e-06,
+          0.0000e+00,  3.1758e-06]], device='cuda:0')
+Epoch 137, bias, value: tensor([-0.0243, -0.0194, -0.0320,  0.0007,  0.0035,  0.0323,  0.0156, -0.0186,
+         0.0076, -0.0045], device='cuda:0'), grad: tensor([-5.9418e-07,  3.4440e-06, -8.5011e-06, -1.9614e-06,  2.6822e-06,
+         1.5935e-06, -4.1816e-07, -8.8811e-06,  6.9775e-06,  5.6475e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 136, time 214.03, cls_loss 0.0023 cls_loss_mapping 0.0050 cls_loss_causal 0.5661 re_mapping 0.0067 re_causal 0.0207 /// teacc 98.94 lr 0.00010000
+Epoch 138, weight, value: tensor([[ 0.0089, -0.0337, -0.0381,  ..., -0.1451, -0.0363, -0.0846],
+        [-0.0154, -0.0467, -0.0404,  ...,  0.0177,  0.0047, -0.0925],
+        [ 0.0401, -0.0880, -0.0749,  ...,  0.0252, -0.1172,  0.0542],
+        ...,
+        [ 0.0049, -0.0186, -0.1137,  ..., -0.0964,  0.0164,  0.1052],
+        [ 0.0562, -0.0894, -0.0774,  ..., -0.0909, -0.0447, -0.0644],
+        [-0.1264,  0.0117,  0.0990,  ...,  0.0725, -0.0469, -0.1048]],
+       device='cuda:0'), grad: tensor([[-3.5912e-05,  3.4831e-07, -5.4240e-06,  ..., -2.4457e-06,
+          9.3132e-10,  2.7269e-06],
+        [ 2.2143e-05,  4.0419e-07,  4.2729e-06,  ...,  2.2948e-06,
+          0.0000e+00,  6.8359e-07],
+        [ 2.9113e-06,  5.6904e-07,  7.8883e-07,  ...,  4.9546e-07,
+          0.0000e+00, -2.7582e-05],
+        ...,
+        [ 3.8277e-07,  2.3190e-07,  1.1474e-06,  ...,  1.3858e-06,
+          9.3132e-10,  1.4946e-05],
+        [-5.0440e-06, -7.8082e-06, -8.2329e-06,  ..., -5.3197e-06,
+          2.7940e-09,  8.6948e-06],
+        [ 2.0787e-06, -2.3432e-06, -1.1571e-05,  ..., -1.2442e-05,
+          3.7253e-09,  4.5262e-07]], device='cuda:0')
+Epoch 138, bias, value: tensor([-2.2879e-02, -1.9259e-02, -3.1616e-02,  2.9890e-05,  3.8349e-03,
+         3.2057e-02,  1.5197e-02, -1.8279e-02,  7.4792e-03, -5.1000e-03],
+       device='cuda:0'), grad: tensor([-1.0347e-04,  7.1824e-05, -3.0473e-05,  7.2241e-05,  7.9200e-06,
+         1.3821e-05,  1.8150e-05,  2.6017e-05, -7.2539e-05, -3.3714e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 137, time 214.18, cls_loss 0.0023 cls_loss_mapping 0.0049 cls_loss_causal 0.5353 re_mapping 0.0072 re_causal 0.0203 /// teacc 99.00 lr 0.00010000
+Epoch 139, weight, value: tensor([[ 0.0087, -0.0343, -0.0389,  ..., -0.1456, -0.0364, -0.0849],
+        [-0.0159, -0.0473, -0.0406,  ...,  0.0176,  0.0047, -0.0932],
+        [ 0.0397, -0.0881, -0.0765,  ...,  0.0254, -0.1175,  0.0544],
+        ...,
+        [ 0.0052, -0.0175, -0.1140,  ..., -0.0962,  0.0166,  0.1064],
+        [ 0.0564, -0.0897, -0.0775,  ..., -0.0911, -0.0450, -0.0646],
+        [-0.1264,  0.0120,  0.0992,  ...,  0.0727, -0.0473, -0.1053]],
+       device='cuda:0'), grad: tensor([[ 4.7963e-07,  2.1011e-06,  3.1125e-06,  ...,  2.2464e-06,
+          0.0000e+00,  7.0035e-07],
+        [-2.5518e-07,  4.0457e-06,  2.4661e-06,  ...,  1.5572e-06,
+          0.0000e+00,  2.3730e-06],
+        [ 1.0524e-07,  6.1654e-06,  1.7034e-06,  ...,  3.4105e-06,
+          0.0000e+00,  6.8396e-06],
+        ...,
+        [ 7.2643e-08,  1.3714e-03,  2.2602e-03,  ...,  1.6298e-03,
+          0.0000e+00, -7.0482e-06],
+        [ 9.0338e-08,  9.0823e-06,  6.4187e-06,  ...,  5.5246e-06,
+          0.0000e+00,  6.1654e-06],
+        [ 1.8720e-07, -1.4582e-03, -2.3956e-03,  ..., -1.7223e-03,
+          0.0000e+00,  8.3894e-06]], device='cuda:0')
+Epoch 139, bias, value: tensor([-2.3504e-02, -1.9865e-02, -3.2235e-02, -9.1996e-05,  3.5770e-03,
+         3.2123e-02,  1.6044e-02, -1.7537e-02,  7.6777e-03, -4.9101e-03],
+       device='cuda:0'), grad: tensor([ 8.9258e-06,  1.1906e-05,  1.9804e-05, -4.5002e-05,  2.7776e-04,
+         1.2144e-05, -1.6652e-06,  5.2032e-03,  2.9892e-05, -5.5161e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 138, time 214.04, cls_loss 0.0024 cls_loss_mapping 0.0039 cls_loss_causal 0.5259 re_mapping 0.0072 re_causal 0.0205 /// teacc 98.97 lr 0.00010000
+Epoch 140, weight, value: tensor([[ 0.0092, -0.0354, -0.0389,  ..., -0.1460, -0.0366, -0.0859],
+        [-0.0172, -0.0474, -0.0408,  ...,  0.0179,  0.0047, -0.0937],
+        [ 0.0394, -0.0887, -0.0772,  ...,  0.0253, -0.1177,  0.0543],
+        ...,
+        [ 0.0023, -0.0192, -0.1157,  ..., -0.0983,  0.0165,  0.1060],
+        [ 0.0579, -0.0879, -0.0776,  ..., -0.0913, -0.0457, -0.0627],
+        [-0.1271,  0.0128,  0.0994,  ...,  0.0730, -0.0473, -0.1077]],
+       device='cuda:0'), grad: tensor([[-2.8722e-06,  5.4482e-07,  1.0328e-06,  ...,  1.1781e-06,
+          2.9057e-07,  1.1921e-07],
+        [ 3.2689e-07, -2.2128e-06, -3.4403e-06,  ..., -1.4119e-06,
+          1.5832e-08,  7.8976e-07],
+        [ 3.3993e-07,  8.0466e-07,  5.5879e-07,  ...,  4.5821e-07,
+          6.5193e-09,  8.5868e-07],
+        ...,
+        [ 1.3784e-07, -3.3621e-07,  1.6857e-06,  ...,  1.1735e-06,
+          3.9116e-08, -3.4627e-06],
+        [ 1.0990e-07,  9.5740e-07,  1.3001e-06,  ...,  1.2862e-06,
+          1.2480e-07,  6.8825e-07],
+        [ 8.7544e-07, -1.8135e-05, -3.4213e-05,  ..., -4.2200e-05,
+          4.8429e-08,  4.6100e-07]], device='cuda:0')
+Epoch 140, bias, value: tensor([-0.0234, -0.0208, -0.0327,  0.0003,  0.0034,  0.0321,  0.0174, -0.0191,
+         0.0092, -0.0050], device='cuda:0'), grad: tensor([-7.4804e-06, -1.0699e-05,  3.8221e-06,  9.4026e-06,  8.5011e-06,
+         3.3051e-05,  6.9663e-06,  1.2442e-06,  3.6173e-06, -4.8459e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 139, time 214.08, cls_loss 0.0027 cls_loss_mapping 0.0058 cls_loss_causal 0.5564 re_mapping 0.0067 re_causal 0.0194 /// teacc 98.94 lr 0.00010000
+Epoch 141, weight, value: tensor([[ 0.0095, -0.0363, -0.0395,  ..., -0.1467, -0.0372, -0.0865],
+        [-0.0177, -0.0473, -0.0406,  ...,  0.0181,  0.0047, -0.0942],
+        [ 0.0392, -0.0890, -0.0763,  ...,  0.0252, -0.1184,  0.0531],
+        ...,
+        [ 0.0020, -0.0194, -0.1161,  ..., -0.0992,  0.0164,  0.1079],
+        [ 0.0584, -0.0882, -0.0776,  ..., -0.0917, -0.0463, -0.0630],
+        [-0.1274,  0.0131,  0.0996,  ...,  0.0734, -0.0471, -0.1081]],
+       device='cuda:0'), grad: tensor([[-7.7784e-06,  8.4750e-08,  1.7975e-07,  ...,  2.7567e-07,
+          2.6077e-08,  1.6298e-07],
+        [ 1.4557e-06,  3.7160e-07,  2.9802e-08,  ..., -5.8673e-08,
+          3.9116e-08,  1.0151e-06],
+        [ 1.0626e-06,  1.3104e-06,  1.8720e-07,  ...,  2.7474e-07,
+          1.0338e-07,  4.0494e-06],
+        ...,
+        [ 3.7160e-07, -1.1781e-06,  5.2340e-06,  ...,  4.5374e-06,
+          3.1665e-08, -5.5954e-06],
+        [-6.3144e-07,  7.8883e-07,  1.8300e-06,  ...,  2.2743e-06,
+          6.5193e-08,  1.6661e-06],
+        [ 7.0967e-07, -9.8906e-07, -7.5586e-06,  ..., -6.2846e-06,
+          3.1665e-08, -1.4482e-06]], device='cuda:0')
+Epoch 141, bias, value: tensor([-0.0235, -0.0209, -0.0337, -0.0014,  0.0032,  0.0338,  0.0168, -0.0183,
+         0.0096, -0.0050], device='cuda:0'), grad: tensor([-2.0102e-05,  4.9546e-06,  9.9018e-06,  1.5497e-06, -1.4650e-06,
+         6.4857e-06,  5.5879e-06,  4.4703e-06,  2.1569e-06, -1.3605e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 140, time 214.08, cls_loss 0.0025 cls_loss_mapping 0.0056 cls_loss_causal 0.5952 re_mapping 0.0066 re_causal 0.0210 /// teacc 98.94 lr 0.00010000
+Epoch 142, weight, value: tensor([[ 0.0094, -0.0387, -0.0398,  ..., -0.1489, -0.0376, -0.0893],
+        [-0.0176, -0.0473, -0.0401,  ...,  0.0183,  0.0047, -0.0942],
+        [ 0.0395, -0.0892, -0.0769,  ...,  0.0258, -0.1190,  0.0531],
+        ...,
+        [ 0.0019, -0.0191, -0.1163,  ..., -0.0991,  0.0184,  0.1084],
+        [ 0.0584, -0.0886, -0.0778,  ..., -0.0923, -0.0466, -0.0636],
+        [-0.1276,  0.0127,  0.0998,  ...,  0.0735, -0.0500, -0.1099]],
+       device='cuda:0'), grad: tensor([[ 6.5267e-06,  2.4401e-07,  1.2264e-05,  ...,  1.0960e-05,
+          2.9802e-08,  1.8626e-09],
+        [ 2.9579e-06,  3.7774e-06,  6.3963e-06,  ...,  4.7572e-06,
+          1.0245e-08,  4.4517e-06],
+        [ 4.1947e-06,  1.1986e-06,  7.2271e-06,  ...,  5.9158e-06,
+          4.6566e-09,  1.2601e-06],
+        ...,
+        [ 2.2240e-06, -3.0790e-06,  5.6066e-06,  ...,  4.7460e-06,
+          4.6566e-09, -5.1335e-06],
+        [ 2.1383e-05, -7.0706e-06,  2.4527e-05,  ...,  3.8683e-05,
+          3.8184e-08,  7.7114e-07],
+        [-5.3972e-05,  3.0641e-06, -1.0198e-04,  ..., -1.0931e-04,
+          1.4901e-08,  4.3958e-07]], device='cuda:0')
+Epoch 142, bias, value: tensor([-0.0243, -0.0204, -0.0339,  0.0011,  0.0031,  0.0319,  0.0170, -0.0181,
+         0.0094, -0.0052], device='cuda:0'), grad: tensor([ 2.5675e-05,  3.6061e-05,  2.3559e-05,  1.8835e-05,  1.1343e-04,
+         6.1691e-05, -9.9301e-05, -1.4588e-05,  3.2216e-05, -1.9753e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 141, time 214.14, cls_loss 0.0024 cls_loss_mapping 0.0056 cls_loss_causal 0.5682 re_mapping 0.0068 re_causal 0.0208 /// teacc 99.02 lr 0.00010000
+Epoch 143, weight, value: tensor([[ 0.0098, -0.0387, -0.0397,  ..., -0.1494, -0.0379, -0.0892],
+        [-0.0177, -0.0475, -0.0400,  ...,  0.0184,  0.0047, -0.0939],
+        [ 0.0393, -0.0889, -0.0776,  ...,  0.0255, -0.1192,  0.0536],
+        ...,
+        [ 0.0019, -0.0191, -0.1166,  ..., -0.0992,  0.0185,  0.1083],
+        [ 0.0585, -0.0886, -0.0778,  ..., -0.0926, -0.0468, -0.0639],
+        [-0.1280,  0.0123,  0.0995,  ...,  0.0731, -0.0502, -0.1107]],
+       device='cuda:0'), grad: tensor([[-1.2722e-06,  4.7591e-07,  3.1572e-07,  ...,  3.4459e-07,
+          0.0000e+00,  4.6007e-07],
+        [ 3.0082e-07,  6.6403e-07, -8.9873e-07,  ..., -6.3423e-07,
+          7.4506e-09,  1.4519e-06],
+        [-6.3360e-05, -1.2076e-04,  2.6543e-07,  ...,  2.4028e-07,
+          9.3132e-10, -2.5201e-04],
+        ...,
+        [ 4.5598e-05,  8.4996e-05,  1.8226e-06,  ...,  2.0266e-06,
+         -2.2352e-08,  1.7703e-04],
+        [ 1.5646e-05,  2.9370e-05,  6.9570e-07,  ...,  1.1520e-06,
+          5.5879e-09,  6.1214e-05],
+        [ 6.2957e-07, -7.9814e-07, -5.0887e-06,  ..., -3.6266e-06,
+          7.4506e-09,  5.3737e-07]], device='cuda:0')
+Epoch 143, bias, value: tensor([-0.0240, -0.0199, -0.0337,  0.0001,  0.0039,  0.0331,  0.0156, -0.0183,
+         0.0095, -0.0057], device='cuda:0'), grad: tensor([-2.0675e-06, -1.1250e-06, -3.5501e-04,  1.5855e-05,  3.5763e-06,
+        -2.3954e-06,  1.1297e-06,  2.5535e-04,  8.9586e-05, -5.1074e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 142, time 214.06, cls_loss 0.0021 cls_loss_mapping 0.0049 cls_loss_causal 0.5501 re_mapping 0.0068 re_causal 0.0204 /// teacc 98.93 lr 0.00010000
+Epoch 144, weight, value: tensor([[ 0.0104, -0.0388, -0.0398,  ..., -0.1495, -0.0379, -0.0887],
+        [-0.0178, -0.0472, -0.0400,  ...,  0.0184,  0.0047, -0.0938],
+        [ 0.0405, -0.0879, -0.0780,  ...,  0.0255, -0.1192,  0.0546],
+        ...,
+        [ 0.0018, -0.0191, -0.1170,  ..., -0.0990,  0.0185,  0.1085],
+        [ 0.0582, -0.0896, -0.0778,  ..., -0.0928, -0.0468, -0.0661],
+        [-0.1282,  0.0106,  0.0981,  ...,  0.0713, -0.0502, -0.1114]],
+       device='cuda:0'), grad: tensor([[-3.5390e-08,  5.2154e-08,  1.6484e-07,  ...,  1.9744e-07,
+          0.0000e+00,  1.8999e-07],
+        [ 1.2573e-07,  1.7509e-07,  8.6613e-08,  ..., -1.2107e-07,
+          0.0000e+00,  7.9349e-07],
+        [-9.1270e-08,  1.0151e-07,  1.1921e-07,  ...,  1.2014e-07,
+          0.0000e+00, -2.8759e-06],
+        ...,
+        [ 4.4703e-08, -3.1199e-07,  1.7360e-06,  ...,  1.5283e-06,
+          0.0000e+00,  1.4342e-07],
+        [-2.2352e-08,  7.0594e-07,  5.9512e-07,  ...,  1.3644e-06,
+          0.0000e+00,  8.3912e-07],
+        [ 1.2200e-07, -1.4603e-06, -5.3570e-06,  ..., -4.9844e-06,
+          0.0000e+00,  3.2596e-07]], device='cuda:0')
+Epoch 144, bias, value: tensor([-0.0237, -0.0195, -0.0328,  0.0009,  0.0059,  0.0321,  0.0153, -0.0182,
+         0.0088, -0.0074], device='cuda:0'), grad: tensor([ 6.2119e-07,  2.6077e-06, -4.7199e-06,  1.9614e-06,  3.3285e-06,
+        -6.0815e-07,  8.7824e-07,  3.2373e-06,  2.2352e-08, -7.3537e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 143, time 214.14, cls_loss 0.0026 cls_loss_mapping 0.0042 cls_loss_causal 0.5118 re_mapping 0.0066 re_causal 0.0188 /// teacc 98.94 lr 0.00010000
+Epoch 145, weight, value: tensor([[ 0.0107, -0.0392, -0.0398,  ..., -0.1502, -0.0384, -0.0894],
+        [-0.0179, -0.0482, -0.0411,  ...,  0.0174,  0.0048, -0.0945],
+        [ 0.0406, -0.0882, -0.0788,  ...,  0.0252, -0.1194,  0.0553],
+        ...,
+        [ 0.0018, -0.0190, -0.1180,  ..., -0.1000,  0.0185,  0.1088],
+        [ 0.0580, -0.0903, -0.0781,  ..., -0.0934, -0.0473, -0.0671],
+        [-0.1284,  0.0113,  0.0992,  ...,  0.0726, -0.0502, -0.1119]],
+       device='cuda:0'), grad: tensor([[-7.2271e-07,  6.8918e-08,  1.8254e-07,  ...,  1.2293e-07,
+          7.4506e-09,  1.0245e-07],
+        [ 3.3528e-08, -3.3434e-07, -3.0566e-06,  ..., -5.1111e-06,
+         -1.0347e-06,  1.1222e-06],
+        [ 2.7381e-07,  6.1281e-07,  4.1258e-07,  ...,  5.2806e-07,
+          2.6077e-08,  1.0915e-06],
+        ...,
+        [ 2.9802e-08, -4.4256e-06,  1.2675e-06,  ...,  1.8012e-06,
+          3.2689e-07, -4.1351e-06],
+        [ 2.7940e-08,  3.9395e-07,  5.9232e-07,  ...,  7.1339e-07,
+          8.6613e-08,  4.3958e-07],
+        [ 1.4901e-07,  1.3355e-06, -2.1700e-07,  ...,  1.1157e-06,
+          4.6939e-07,  7.9535e-07]], device='cuda:0')
+Epoch 145, bias, value: tensor([-0.0237, -0.0203, -0.0323,  0.0010,  0.0052,  0.0320,  0.0157, -0.0183,
+         0.0083, -0.0064], device='cuda:0'), grad: tensor([-2.1663e-06, -1.0893e-05,  3.9712e-06,  1.5602e-05,  8.1304e-07,
+        -9.9540e-06,  5.5879e-09, -5.8115e-06,  2.5425e-06,  5.8934e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 144, time 214.02, cls_loss 0.0038 cls_loss_mapping 0.0057 cls_loss_causal 0.5343 re_mapping 0.0072 re_causal 0.0188 /// teacc 98.97 lr 0.00010000
+Epoch 146, weight, value: tensor([[ 0.0125, -0.0395, -0.0368,  ..., -0.1481, -0.0384, -0.0907],
+        [-0.0183, -0.0458, -0.0402,  ...,  0.0182,  0.0048, -0.0933],
+        [ 0.0405, -0.0889, -0.0818,  ...,  0.0239, -0.1191,  0.0539],
+        ...,
+        [ 0.0019, -0.0199, -0.1186,  ..., -0.1011,  0.0185,  0.1110],
+        [ 0.0582, -0.0907, -0.0782,  ..., -0.0940, -0.0474, -0.0678],
+        [-0.1287,  0.0110,  0.0979,  ...,  0.0723, -0.0502, -0.1139]],
+       device='cuda:0'), grad: tensor([[ 8.0317e-06,  3.7085e-06,  1.4957e-06,  ...,  1.6987e-06,
+          0.0000e+00,  1.1921e-07],
+        [ 3.3025e-06,  1.4976e-06,  3.7905e-07,  ...,  4.2655e-07,
+          0.0000e+00,  1.3839e-06],
+        [ 2.3507e-06,  5.4762e-07,  3.4552e-07,  ..., -4.5486e-06,
+          0.0000e+00, -1.1407e-05],
+        ...,
+        [ 1.8347e-07, -5.5414e-07,  1.6298e-07,  ...,  1.2452e-06,
+          0.0000e+00,  1.6978e-06],
+        [ 3.6240e-05,  1.4335e-05,  4.9472e-06,  ...,  3.9339e-06,
+          0.0000e+00,  1.4761e-06],
+        [ 1.3644e-06,  6.5099e-07,  1.6987e-06,  ...,  1.9781e-06,
+          0.0000e+00,  1.0962e-06]], device='cuda:0')
+Epoch 146, bias, value: tensor([-0.0207, -0.0191, -0.0337,  0.0005,  0.0053,  0.0325,  0.0138, -0.0172,
+         0.0080, -0.0082], device='cuda:0'), grad: tensor([ 2.5302e-05,  1.2696e-05, -9.7156e-06,  9.7007e-06,  8.3074e-06,
+         4.7624e-05, -2.0516e-04,  3.1032e-06,  9.0957e-05,  1.7196e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 145, time 214.10, cls_loss 0.0019 cls_loss_mapping 0.0038 cls_loss_causal 0.5206 re_mapping 0.0069 re_causal 0.0205 /// teacc 98.92 lr 0.00010000
+Epoch 147, weight, value: tensor([[ 0.0113, -0.0421, -0.0373,  ..., -0.1487, -0.0384, -0.0912],
+        [-0.0185, -0.0457, -0.0400,  ...,  0.0185,  0.0048, -0.0936],
+        [ 0.0401, -0.0893, -0.0825,  ...,  0.0238, -0.1191,  0.0541],
+        ...,
+        [ 0.0016, -0.0202, -0.1193,  ..., -0.1018,  0.0185,  0.1110],
+        [ 0.0584, -0.0916, -0.0785,  ..., -0.0945, -0.0475, -0.0683],
+        [-0.1288,  0.0112,  0.0980,  ...,  0.0726, -0.0502, -0.1146]],
+       device='cuda:0'), grad: tensor([[ 2.0396e-07,  1.6950e-07,  9.4436e-07,  ...,  1.1008e-06,
+          0.0000e+00,  2.8778e-07],
+        [ 6.6124e-08,  1.2396e-06,  9.2834e-06,  ...,  9.7230e-06,
+          0.0000e+00,  7.7952e-07],
+        [ 4.6752e-07,  3.2689e-07,  1.8533e-06,  ...,  1.5087e-06,
+          0.0000e+00, -2.9188e-06],
+        ...,
+        [ 1.0431e-07, -6.3330e-08,  7.6741e-06,  ...,  8.0243e-06,
+          0.0000e+00, -5.9791e-07],
+        [-3.3155e-07,  5.4762e-07,  1.5991e-06,  ...,  2.0415e-06,
+          0.0000e+00,  8.9407e-07],
+        [ 4.4703e-07,  2.8443e-06,  3.1948e-05,  ...,  3.2276e-05,
+          0.0000e+00,  4.0233e-07]], device='cuda:0')
+Epoch 147, bias, value: tensor([-0.0214, -0.0187, -0.0339,  0.0005,  0.0056,  0.0327,  0.0154, -0.0177,
+         0.0078, -0.0083], device='cuda:0'), grad: tensor([ 2.9132e-06,  1.9610e-05,  3.5204e-07,  2.7195e-06, -1.3447e-04,
+         8.4341e-06,  1.9401e-05,  1.3664e-05,  3.3043e-06,  6.4194e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 146, time 214.14, cls_loss 0.0021 cls_loss_mapping 0.0049 cls_loss_causal 0.5289 re_mapping 0.0064 re_causal 0.0194 /// teacc 98.99 lr 0.00010000
+Epoch 148, weight, value: tensor([[ 0.0108, -0.0426, -0.0374,  ..., -0.1490, -0.0385, -0.0919],
+        [-0.0185, -0.0462, -0.0409,  ...,  0.0174,  0.0048, -0.0942],
+        [ 0.0398, -0.0899, -0.0839,  ...,  0.0234, -0.1191,  0.0543],
+        ...,
+        [ 0.0016, -0.0197, -0.1197,  ..., -0.1024,  0.0185,  0.1112],
+        [ 0.0585, -0.0921, -0.0787,  ..., -0.0952, -0.0476, -0.0686],
+        [-0.1290,  0.0113,  0.0984,  ...,  0.0731, -0.0502, -0.1154]],
+       device='cuda:0'), grad: tensor([[ 1.1846e-05,  7.4022e-06, -5.5879e-08,  ...,  2.0176e-05,
+          2.7940e-09,  1.1541e-05],
+        [ 3.9935e-05,  5.1707e-06, -3.7253e-09,  ...,  1.5190e-06,
+          9.3132e-10,  8.1718e-05],
+        [ 7.2978e-06,  3.2652e-06,  2.4121e-07,  ...,  1.2904e-05,
+          0.0000e+00, -1.8454e-04],
+        ...,
+        [ 4.5821e-06,  2.8778e-06,  9.8348e-07,  ...,  7.1563e-06,
+          2.7940e-09,  3.6240e-05],
+        [-8.3819e-06,  1.8284e-05,  2.8592e-07,  ...,  6.6280e-05,
+          5.5879e-09,  2.8387e-05],
+        [ 1.9930e-06,  1.2675e-06, -1.9222e-06,  ...,  3.4384e-06,
+          9.3132e-09,  6.7055e-07]], device='cuda:0')
+Epoch 148, bias, value: tensor([-0.0218, -0.0193, -0.0341,  0.0008,  0.0062,  0.0326,  0.0155, -0.0177,
+         0.0075, -0.0081], device='cuda:0'), grad: tensor([ 6.2048e-05,  3.0279e-04, -3.7241e-04,  1.2648e-04,  5.8040e-06,
+        -3.5048e-04,  4.4584e-05,  1.0467e-04,  6.7532e-05,  8.8364e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 147, time 213.82, cls_loss 0.0023 cls_loss_mapping 0.0040 cls_loss_causal 0.5555 re_mapping 0.0064 re_causal 0.0194 /// teacc 98.98 lr 0.00010000
+Epoch 149, weight, value: tensor([[ 0.0111, -0.0434, -0.0375,  ..., -0.1494, -0.0386, -0.0931],
+        [-0.0189, -0.0465, -0.0408,  ...,  0.0177,  0.0048, -0.0946],
+        [ 0.0395, -0.0901, -0.0846,  ...,  0.0233, -0.1192,  0.0547],
+        ...,
+        [ 0.0016, -0.0194, -0.1203,  ..., -0.1034,  0.0185,  0.1115],
+        [ 0.0584, -0.0926, -0.0790,  ..., -0.0958, -0.0476, -0.0691],
+        [-0.1292,  0.0113,  0.0986,  ...,  0.0733, -0.0502, -0.1162]],
+       device='cuda:0'), grad: tensor([[-2.1681e-05,  3.5390e-08,  4.2375e-07,  ...,  3.8091e-07,
+          0.0000e+00,  3.4738e-07],
+        [ 5.8115e-07,  1.9372e-07, -2.0154e-06,  ..., -2.6803e-06,
+          0.0000e+00,  4.8336e-07],
+        [ 1.6065e-06,  1.6671e-07,  4.5262e-07,  ..., -1.1688e-06,
+          0.0000e+00, -5.0887e-06],
+        ...,
+        [ 3.1851e-07,  2.6077e-07,  3.2634e-06,  ...,  2.9691e-06,
+          0.0000e+00,  2.3656e-07],
+        [ 1.3681e-06,  8.1584e-07,  1.2787e-06,  ...,  1.7155e-06,
+          0.0000e+00,  1.3737e-06],
+        [ 6.8080e-07, -2.5127e-06, -3.0082e-06,  ..., -5.0366e-06,
+          0.0000e+00,  1.8813e-07]], device='cuda:0')
+Epoch 149, bias, value: tensor([-0.0218, -0.0194, -0.0340,  0.0009,  0.0067,  0.0324,  0.0158, -0.0179,
+         0.0071, -0.0081], device='cuda:0'), grad: tensor([-5.2571e-05, -6.2250e-06, -3.5726e-06,  1.2085e-05, -1.2428e-05,
+         1.1876e-05,  2.7776e-05,  1.5125e-05,  1.0014e-05, -2.2426e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 148, time 213.65, cls_loss 0.0021 cls_loss_mapping 0.0036 cls_loss_causal 0.5311 re_mapping 0.0064 re_causal 0.0190 /// teacc 99.03 lr 0.00010000
+Epoch 150, weight, value: tensor([[ 0.0109, -0.0439, -0.0387,  ..., -0.1503, -0.0386, -0.0939],
+        [-0.0177, -0.0466, -0.0409,  ...,  0.0181,  0.0048, -0.0951],
+        [ 0.0393, -0.0904, -0.0851,  ...,  0.0230, -0.1192,  0.0549],
+        ...,
+        [ 0.0015, -0.0192, -0.1206,  ..., -0.1037,  0.0185,  0.1119],
+        [ 0.0579, -0.0929, -0.0790,  ..., -0.0970, -0.0477, -0.0694],
+        [-0.1292,  0.0121,  0.0995,  ...,  0.0739, -0.0503, -0.1167]],
+       device='cuda:0'), grad: tensor([[ 4.7125e-07,  1.2014e-07,  4.9546e-07,  ...,  3.5111e-07,
+          0.0000e+00,  1.2200e-07],
+        [ 1.0684e-05,  2.2762e-06, -7.9814e-07,  ..., -4.3735e-06,
+          0.0000e+00,  3.0361e-07],
+        [ 7.8753e-06,  1.6373e-06,  5.9418e-07,  ...,  4.0866e-06,
+          0.0000e+00,  3.4459e-08],
+        ...,
+        [ 3.1423e-06,  7.3481e-07,  1.8720e-07,  ...,  7.5530e-07,
+          0.0000e+00,  9.5926e-08],
+        [-2.8402e-05, -5.7258e-06,  4.4424e-07,  ..., -3.1199e-06,
+          0.0000e+00,  5.3085e-07],
+        [ 9.1456e-07,  1.3411e-07,  3.3248e-07,  ...,  5.0478e-07,
+          0.0000e+00,  2.9057e-07]], device='cuda:0')
+Epoch 150, bias, value: tensor([-0.0235, -0.0191, -0.0340,  0.0005,  0.0052,  0.0327,  0.0179, -0.0176,
+         0.0066, -0.0069], device='cuda:0'), grad: tensor([ 2.1961e-06,  2.0131e-05,  3.1978e-05, -1.4696e-06, -1.1362e-07,
+         5.3674e-05, -3.7879e-05,  9.7603e-06, -8.2910e-05,  4.5784e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 149, time 214.05, cls_loss 0.0019 cls_loss_mapping 0.0032 cls_loss_causal 0.5083 re_mapping 0.0061 re_causal 0.0185 /// teacc 98.93 lr 0.00010000
+Epoch 151, weight, value: tensor([[ 0.0110, -0.0440, -0.0388,  ..., -0.1505, -0.0386, -0.0946],
+        [-0.0179, -0.0463, -0.0404,  ...,  0.0187,  0.0049, -0.0954],
+        [ 0.0393, -0.0906, -0.0855,  ...,  0.0231, -0.1192,  0.0557],
+        ...,
+        [ 0.0015, -0.0194, -0.1219,  ..., -0.1052,  0.0185,  0.1118],
+        [ 0.0581, -0.0932, -0.0789,  ..., -0.0972, -0.0477, -0.0700],
+        [-0.1294,  0.0122,  0.0995,  ...,  0.0739, -0.0503, -0.1179]],
+       device='cuda:0'), grad: tensor([[ 1.1409e-06,  3.3807e-07,  1.3011e-06,  ...,  2.3227e-06,
+          4.2841e-08,  1.5246e-06],
+        [ 1.2266e-06,  4.5821e-07,  2.0154e-06,  ...,  3.8445e-06,
+          1.0245e-08,  8.7731e-07],
+        [ 4.4983e-07,  2.0862e-07,  6.0722e-07,  ...,  1.1111e-06,
+          1.5832e-08,  1.2051e-06],
+        ...,
+        [ 3.3341e-07,  9.5926e-08,  6.3889e-07,  ...,  5.7310e-05,
+          3.8184e-08, -1.7993e-06],
+        [ 5.2638e-06,  1.5134e-06,  6.6943e-06,  ...,  7.9349e-06,
+          7.9162e-08,  2.6003e-06],
+        [ 2.0713e-06, -7.1991e-07, -2.0247e-06,  ...,  6.5938e-06,
+          1.9465e-07,  4.6287e-07]], device='cuda:0')
+Epoch 151, bias, value: tensor([-0.0236, -0.0185, -0.0336,  0.0006,  0.0053,  0.0324,  0.0182, -0.0182,
+         0.0066, -0.0070], device='cuda:0'), grad: tensor([ 1.9699e-05,  1.0407e-04,  2.4185e-05,  2.2054e-05, -1.9140e-03,
+        -6.9961e-06,  5.6028e-06,  1.5411e-03,  1.0419e-04,  1.0216e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 150, time 214.00, cls_loss 0.0017 cls_loss_mapping 0.0034 cls_loss_causal 0.5472 re_mapping 0.0061 re_causal 0.0200 /// teacc 99.00 lr 0.00010000
+Epoch 152, weight, value: tensor([[ 0.0112, -0.0441, -0.0388,  ..., -0.1506, -0.0387, -0.0946],
+        [-0.0180, -0.0466, -0.0408,  ...,  0.0184,  0.0049, -0.0957],
+        [ 0.0391, -0.0905, -0.0863,  ...,  0.0231, -0.1199,  0.0561],
+        ...,
+        [ 0.0014, -0.0198, -0.1225,  ..., -0.1058,  0.0188,  0.1119],
+        [ 0.0583, -0.0928, -0.0788,  ..., -0.0972, -0.0478, -0.0701],
+        [-0.1296,  0.0127,  0.0996,  ...,  0.0740, -0.0508, -0.1187]],
+       device='cuda:0'), grad: tensor([[-3.4049e-06,  1.3439e-06,  2.3860e-06,  ...,  1.4994e-06,
+          9.3132e-10,  4.4703e-08],
+        [ 1.1642e-07,  1.6317e-06, -1.2554e-06,  ..., -3.0175e-06,
+          7.4506e-08,  2.1700e-06],
+        [ 3.2410e-07,  8.9407e-08,  1.1399e-06,  ...,  2.0694e-06,
+          9.3132e-10, -3.1665e-07],
+        ...,
+        [ 3.3528e-08, -2.2911e-06,  1.9278e-06,  ...,  1.4361e-06,
+         -1.4901e-07, -4.5039e-06],
+        [ 2.6729e-07,  1.0245e-06,  7.4413e-07,  ...,  7.1526e-07,
+          4.0047e-08,  1.1660e-06],
+        [ 8.1584e-07, -4.4294e-06, -8.4713e-06,  ..., -4.2096e-06,
+          1.8626e-09,  4.3120e-07]], device='cuda:0')
+Epoch 152, bias, value: tensor([-0.0234, -0.0191, -0.0335,  0.0002,  0.0057,  0.0325,  0.0180, -0.0188,
+         0.0072, -0.0069], device='cuda:0'), grad: tensor([-7.2680e-06, -5.9046e-06,  8.4043e-06,  3.8743e-06,  3.3379e-06,
+         1.2405e-06,  4.8988e-06, -4.6529e-06,  4.9993e-06, -8.9109e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 151, time 214.14, cls_loss 0.0021 cls_loss_mapping 0.0042 cls_loss_causal 0.5083 re_mapping 0.0061 re_causal 0.0182 /// teacc 99.00 lr 0.00010000
+Epoch 153, weight, value: tensor([[ 0.0116, -0.0443, -0.0389,  ..., -0.1508, -0.0388, -0.0951],
+        [-0.0182, -0.0468, -0.0405,  ...,  0.0188,  0.0049, -0.0969],
+        [ 0.0389, -0.0908, -0.0866,  ...,  0.0230, -0.1202,  0.0565],
+        ...,
+        [ 0.0013, -0.0195, -0.1227,  ..., -0.1060,  0.0191,  0.1127],
+        [ 0.0583, -0.0929, -0.0788,  ..., -0.0974, -0.0482, -0.0708],
+        [-0.1299,  0.0128,  0.0997,  ...,  0.0741, -0.0512, -0.1199]],
+       device='cuda:0'), grad: tensor([[-5.7090e-07,  1.5832e-08,  3.8277e-07,  ..., -4.0978e-08,
+          0.0000e+00,  4.0513e-07],
+        [ 7.9162e-08,  7.5437e-08,  1.3504e-07,  ..., -6.1840e-07,
+          4.6566e-09,  8.4378e-07],
+        [ 2.0489e-08,  7.7300e-08,  4.3958e-07,  ...,  4.0885e-07,
+          9.3132e-10, -6.8903e-05],
+        ...,
+        [ 2.4214e-08, -3.0641e-07,  4.5449e-07,  ...,  5.6718e-07,
+         -1.3970e-08,  6.1750e-05],
+        [-1.1437e-06, -1.0338e-07, -1.6108e-05,  ..., -8.8811e-06,
+          1.8626e-09,  4.4815e-06],
+        [ 4.7404e-07, -5.9605e-08,  1.2353e-05,  ...,  7.2047e-06,
+          9.3132e-10,  9.3132e-08]], device='cuda:0')
+Epoch 153, bias, value: tensor([-2.3356e-02, -1.9349e-02, -3.3384e-02, -5.8688e-05,  5.5851e-03,
+         3.1564e-02,  1.9279e-02, -1.8170e-02,  7.1672e-03, -7.1442e-03],
+       device='cuda:0'), grad: tensor([ 1.4529e-07,  4.7591e-07, -1.0240e-04,  4.9137e-06,  1.6596e-06,
+         2.3302e-06,  2.0340e-06,  9.4414e-05, -2.6986e-05,  2.3603e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 152, time 214.17, cls_loss 0.0020 cls_loss_mapping 0.0041 cls_loss_causal 0.5485 re_mapping 0.0063 re_causal 0.0196 /// teacc 98.99 lr 0.00010000
+Epoch 154, weight, value: tensor([[ 0.0126, -0.0445, -0.0387,  ..., -0.1505, -0.0390, -0.0951],
+        [-0.0187, -0.0466, -0.0403,  ...,  0.0193,  0.0059, -0.0979],
+        [ 0.0384, -0.0910, -0.0874,  ...,  0.0225, -0.1212,  0.0568],
+        ...,
+        [ 0.0012, -0.0196, -0.1235,  ..., -0.1067,  0.0185,  0.1134],
+        [ 0.0581, -0.0931, -0.0789,  ..., -0.0975, -0.0484, -0.0713],
+        [-0.1303,  0.0130,  0.0997,  ...,  0.0741, -0.0513, -0.1208]],
+       device='cuda:0'), grad: tensor([[ 7.9162e-08,  5.1223e-08,  2.1886e-07,  ...,  3.4831e-07,
+          0.0000e+00,  7.4506e-09],
+        [ 3.3528e-08,  1.5832e-08, -5.1782e-07,  ..., -6.0536e-07,
+          0.0000e+00,  1.8626e-08],
+        [ 2.6077e-08,  1.4901e-08,  1.2666e-07,  ...,  1.5832e-07,
+          0.0000e+00, -5.8673e-08],
+        ...,
+        [ 8.3819e-09,  2.5332e-07,  1.2321e-06,  ...,  2.3767e-06,
+          0.0000e+00, -1.6764e-08],
+        [ 1.0338e-07,  3.0827e-07,  1.4827e-06,  ...,  1.9893e-06,
+          1.0245e-08,  3.7253e-08],
+        [ 8.9407e-08, -4.1723e-07, -3.0734e-06,  ...,  6.1952e-06,
+          1.8626e-09,  2.7008e-08]], device='cuda:0')
+Epoch 154, bias, value: tensor([-2.2624e-02, -1.9688e-02, -3.3614e-02, -1.0908e-05,  5.4765e-03,
+         3.1340e-02,  1.9519e-02, -1.7817e-02,  6.9986e-03, -7.3701e-03],
+       device='cuda:0'), grad: tensor([ 8.1398e-07, -3.2187e-06,  5.8115e-07,  3.5428e-06,  1.9949e-06,
+        -1.7956e-05, -6.5472e-07,  5.2154e-06,  4.7162e-06,  4.9509e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 153, time 214.23, cls_loss 0.0019 cls_loss_mapping 0.0047 cls_loss_causal 0.5166 re_mapping 0.0062 re_causal 0.0183 /// teacc 98.86 lr 0.00010000
+Epoch 155, weight, value: tensor([[ 0.0127, -0.0448, -0.0388,  ..., -0.1507, -0.0392, -0.0955],
+        [-0.0189, -0.0469, -0.0403,  ...,  0.0195,  0.0059, -0.0988],
+        [ 0.0383, -0.0914, -0.0881,  ...,  0.0222, -0.1215,  0.0570],
+        ...,
+        [ 0.0008, -0.0191, -0.1238,  ..., -0.1067,  0.0187,  0.1141],
+        [ 0.0583, -0.0932, -0.0791,  ..., -0.0986, -0.0486, -0.0720],
+        [-0.1305,  0.0135,  0.1002,  ...,  0.0744, -0.0516, -0.1216]],
+       device='cuda:0'), grad: tensor([[-2.3842e-07,  2.9337e-08,  3.6275e-07,  ...,  4.9174e-07,
+          0.0000e+00,  1.2573e-08],
+        [ 4.5169e-08,  8.6613e-08, -1.1949e-06,  ..., -3.7290e-06,
+          0.0000e+00,  2.8824e-07],
+        [ 4.7497e-08,  3.5856e-08,  3.3481e-07,  ...,  7.1432e-07,
+          0.0000e+00,  5.7276e-08],
+        ...,
+        [ 2.4680e-08, -6.8918e-08,  8.6706e-07,  ...,  2.1551e-06,
+          0.0000e+00, -6.4354e-07],
+        [ 4.8662e-07,  4.8848e-07,  1.3458e-06,  ...,  5.5879e-06,
+          4.6566e-10, -1.3830e-07],
+        [ 2.6962e-07, -2.4028e-06, -9.6858e-06,  ..., -1.0937e-05,
+          0.0000e+00,  1.8440e-07]], device='cuda:0')
+Epoch 155, bias, value: tensor([-0.0226, -0.0200, -0.0337, -0.0005,  0.0050,  0.0321,  0.0195, -0.0173,
+         0.0068, -0.0072], device='cuda:0'), grad: tensor([-5.7369e-06, -8.3596e-06,  6.3404e-06,  3.7942e-06,  1.4275e-05,
+        -8.6650e-06,  3.0771e-06,  3.9265e-06,  7.2680e-06, -1.5959e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 154, time 214.41, cls_loss 0.0020 cls_loss_mapping 0.0044 cls_loss_causal 0.5239 re_mapping 0.0060 re_causal 0.0184 /// teacc 98.87 lr 0.00010000
+Epoch 156, weight, value: tensor([[ 0.0128, -0.0450, -0.0388,  ..., -0.1510, -0.0393, -0.0955],
+        [-0.0190, -0.0470, -0.0399,  ...,  0.0205,  0.0059, -0.0982],
+        [ 0.0379, -0.0918, -0.0888,  ...,  0.0216, -0.1216,  0.0566],
+        ...,
+        [ 0.0007, -0.0207, -0.1249,  ..., -0.1078,  0.0187,  0.1132],
+        [ 0.0584, -0.0935, -0.0792,  ..., -0.0995, -0.0489, -0.0721],
+        [-0.1307,  0.0145,  0.1009,  ...,  0.0753, -0.0516, -0.1216]],
+       device='cuda:0'), grad: tensor([[ 1.1101e-05,  1.5274e-05,  1.5348e-05,  ...,  1.3458e-07,
+          4.6566e-10,  4.2375e-08],
+        [ 2.5937e-07,  4.1071e-07,  3.0920e-07,  ..., -1.5786e-07,
+         -1.4435e-08,  9.3132e-08],
+        [ 2.5658e-07,  2.1327e-07,  2.5099e-07,  ...,  8.8010e-08,
+          9.3132e-10,  1.3923e-07],
+        ...,
+        [-3.0734e-08,  5.0664e-07,  1.3281e-06,  ...,  1.3327e-06,
+          2.3283e-09, -2.5425e-07],
+        [ 1.4221e-06,  2.4270e-06,  2.4177e-06,  ...,  1.8999e-07,
+          1.3970e-09,  2.7008e-08],
+        [ 1.6671e-07, -1.5972e-06, -3.6359e-06,  ..., -3.8520e-06,
+          6.0536e-09,  1.3690e-07]], device='cuda:0')
+Epoch 156, bias, value: tensor([-0.0226, -0.0189, -0.0352,  0.0006,  0.0042,  0.0320,  0.0199, -0.0182,
+         0.0067, -0.0066], device='cuda:0'), grad: tensor([ 6.3598e-05,  1.3979e-06,  1.2983e-06,  3.7979e-06,  2.1160e-06,
+         1.1936e-05, -8.9109e-05,  2.2519e-06,  9.3728e-06, -6.7428e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 155, time 214.43, cls_loss 0.0021 cls_loss_mapping 0.0040 cls_loss_causal 0.4858 re_mapping 0.0065 re_causal 0.0178 /// teacc 99.02 lr 0.00010000
+Epoch 157, weight, value: tensor([[ 0.0136, -0.0461, -0.0394,  ..., -0.1513, -0.0394, -0.0974],
+        [-0.0191, -0.0472, -0.0398,  ...,  0.0208,  0.0059, -0.0990],
+        [ 0.0379, -0.0919, -0.0893,  ...,  0.0217, -0.1218,  0.0575],
+        ...,
+        [ 0.0004, -0.0208, -0.1254,  ..., -0.1083,  0.0187,  0.1132],
+        [ 0.0584, -0.0939, -0.0790,  ..., -0.0998, -0.0491, -0.0727],
+        [-0.1310,  0.0148,  0.1014,  ...,  0.0755, -0.0516, -0.1225]],
+       device='cuda:0'), grad: tensor([[-1.4198e-04,  6.6124e-08, -2.0936e-05,  ...,  3.6787e-08,
+          5.1223e-09,  1.4342e-07],
+        [ 3.2708e-06,  3.3947e-07, -1.3318e-07,  ..., -9.0059e-07,
+         -1.8300e-07,  7.5158e-07],
+        [ 2.9895e-06,  2.1374e-07,  4.1770e-07,  ...,  9.3132e-08,
+          1.6298e-08, -7.1852e-07],
+        ...,
+        [ 2.7362e-06, -1.7285e-06,  5.0804e-07,  ...,  3.2550e-07,
+         -6.0536e-09, -2.5555e-06],
+        [ 1.2694e-06,  4.1025e-07,  5.1549e-07,  ...,  5.4156e-07,
+          4.0978e-08,  1.4082e-06],
+        [ 1.0759e-05,  3.9162e-07,  9.1502e-07,  ..., -8.3819e-08,
+          5.4482e-08,  1.0729e-06]], device='cuda:0')
+Epoch 157, bias, value: tensor([-0.0228, -0.0190, -0.0346,  0.0013,  0.0041,  0.0313,  0.0197, -0.0183,
+         0.0065, -0.0063], device='cuda:0'), grad: tensor([-3.5954e-04,  9.0078e-06,  9.2164e-06,  1.4745e-05,  3.8631e-06,
+         2.7195e-05,  2.5463e-04,  4.5002e-06,  5.7481e-06,  3.0175e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 156, time 214.16, cls_loss 0.0016 cls_loss_mapping 0.0032 cls_loss_causal 0.5248 re_mapping 0.0061 re_causal 0.0186 /// teacc 99.09 lr 0.00010000
+Epoch 158, weight, value: tensor([[ 0.0149, -0.0465, -0.0395,  ..., -0.1517, -0.0394, -0.0978],
+        [-0.0199, -0.0481, -0.0403,  ...,  0.0206,  0.0059, -0.0997],
+        [ 0.0377, -0.0924, -0.0905,  ...,  0.0215, -0.1221,  0.0579],
+        ...,
+        [ 0.0003, -0.0200, -0.1253,  ..., -0.1084,  0.0188,  0.1136],
+        [ 0.0582, -0.0945, -0.0792,  ..., -0.1003, -0.0511, -0.0732],
+        [-0.1313,  0.0149,  0.1014,  ...,  0.0755, -0.0517, -0.1231]],
+       device='cuda:0'), grad: tensor([[-1.1222e-06,  2.2817e-08,  6.7987e-08,  ...,  1.1269e-07,
+          2.7940e-09,  6.7521e-08],
+        [ 6.8452e-08, -6.0070e-08, -1.7546e-06,  ..., -2.5146e-06,
+         -5.6345e-08,  2.6310e-07],
+        [ 6.5193e-08,  4.7497e-08,  1.2433e-07,  ...,  7.7765e-08,
+          2.7940e-09, -7.4599e-07],
+        ...,
+        [ 5.0291e-08,  1.7416e-07,  1.1856e-06,  ...,  1.2144e-06,
+          1.1642e-08,  2.3283e-07],
+        [ 8.1491e-08,  2.0396e-07,  1.2554e-06,  ...,  1.0589e-06,
+          2.9802e-08,  3.0547e-07],
+        [ 5.2107e-07, -1.6345e-07, -3.0138e-06,  ..., -9.4250e-07,
+          1.7695e-08,  1.8487e-07]], device='cuda:0')
+Epoch 158, bias, value: tensor([-0.0221, -0.0201, -0.0345,  0.0008,  0.0043,  0.0315,  0.0199, -0.0175,
+         0.0059, -0.0066], device='cuda:0'), grad: tensor([-2.8815e-06, -6.8247e-06, -1.3877e-07, -2.7334e-07,  1.9353e-06,
+         4.4191e-07,  1.6876e-06,  4.9397e-06,  2.9104e-07,  8.1630e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 157, time 214.31, cls_loss 0.0024 cls_loss_mapping 0.0046 cls_loss_causal 0.5525 re_mapping 0.0061 re_causal 0.0186 /// teacc 99.03 lr 0.00010000
+Epoch 159, weight, value: tensor([[ 1.4998e-02, -4.7427e-02, -3.9757e-02,  ..., -1.5228e-01,
+         -3.9689e-02, -9.8258e-02],
+        [-2.0227e-02, -4.8230e-02, -4.0027e-02,  ...,  2.0955e-02,
+          6.0889e-03, -1.0024e-01],
+        [ 3.7767e-02, -9.3293e-02, -9.1949e-02,  ...,  2.1716e-02,
+         -1.2260e-01,  5.7279e-02],
+        ...,
+        [-7.5509e-05, -2.1655e-02, -1.2873e-01,  ..., -1.1154e-01,
+          1.8671e-02,  1.1481e-01],
+        [ 5.8247e-02, -9.4839e-02, -7.9280e-02,  ..., -1.0141e-01,
+         -5.1910e-02, -7.3777e-02],
+        [-1.3170e-01,  1.5335e-02,  1.0065e-01,  ...,  7.6024e-02,
+         -5.1766e-02, -1.2262e-01]], device='cuda:0'), grad: tensor([[ 1.4435e-07,  5.1223e-08,  2.7660e-07,  ...,  1.9185e-07,
+          1.7695e-08,  1.9558e-08],
+        [ 3.0734e-08,  1.8999e-07,  3.1572e-07,  ...,  2.4680e-07,
+         -8.3819e-09,  2.2352e-07],
+        [ 2.8871e-08,  3.8184e-08,  1.1269e-07,  ...,  1.1828e-07,
+          1.3039e-08,  6.7987e-08],
+        ...,
+        [ 1.8626e-08, -1.2107e-08,  6.1281e-07,  ...,  6.9104e-07,
+         -6.4261e-08, -6.3237e-07],
+        [ 3.6601e-07,  1.9372e-07,  3.8464e-07,  ...,  1.0338e-06,
+          1.1176e-08,  9.2201e-08],
+        [ 2.1327e-07, -1.7229e-06, -6.4671e-06,  ..., -5.9977e-06,
+          2.8871e-08,  1.7509e-07]], device='cuda:0')
+Epoch 159, bias, value: tensor([-0.0222, -0.0200, -0.0354,  0.0005,  0.0061,  0.0321,  0.0201, -0.0188,
+         0.0057, -0.0070], device='cuda:0'), grad: tensor([ 6.1933e-07,  8.2050e-07,  4.2748e-07,  1.1250e-06,  7.0743e-06,
+        -1.2852e-06, -9.6112e-07,  1.4249e-07,  1.7630e-06, -9.7081e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 158, time 214.25, cls_loss 0.0021 cls_loss_mapping 0.0041 cls_loss_causal 0.5793 re_mapping 0.0060 re_causal 0.0189 /// teacc 99.07 lr 0.00010000
+Epoch 160, weight, value: tensor([[ 0.0150, -0.0478, -0.0400,  ..., -0.1532, -0.0407, -0.0994],
+        [-0.0215, -0.0484, -0.0405,  ...,  0.0206,  0.0059, -0.1005],
+        [ 0.0384, -0.0937, -0.0926,  ...,  0.0210, -0.1235,  0.0574],
+        ...,
+        [-0.0003, -0.0216, -0.1289,  ..., -0.1117,  0.0186,  0.1151],
+        [ 0.0575, -0.0942, -0.0795,  ..., -0.1034, -0.0547, -0.0740],
+        [-0.1328,  0.0156,  0.1012,  ...,  0.0767, -0.0519, -0.1233]],
+       device='cuda:0'), grad: tensor([[-8.1956e-06,  1.7416e-07, -4.0010e-06,  ...,  1.2107e-08,
+          0.0000e+00,  2.3935e-07],
+        [ 8.2981e-07,  1.2163e-06,  1.4221e-06,  ..., -2.3935e-07,
+         -4.6566e-09,  3.2317e-06],
+        [ 1.1204e-06,  2.9951e-06,  8.3353e-07,  ...,  6.0536e-08,
+          9.3132e-10,  7.9647e-06],
+        ...,
+        [ 1.8533e-07, -6.4299e-06,  1.4622e-07,  ...,  8.4750e-08,
+          1.8626e-09, -2.1085e-05],
+        [-1.5348e-05, -3.9823e-06, -3.5912e-05,  ...,  7.0781e-08,
+          1.8626e-09,  1.0775e-06],
+        [ 7.4431e-06,  1.2806e-06,  4.6417e-06,  ...,  2.7474e-07,
+          9.3132e-10,  2.8498e-06]], device='cuda:0')
+Epoch 160, bias, value: tensor([-0.0223, -0.0206, -0.0353,  0.0002,  0.0058,  0.0348,  0.0194, -0.0187,
+         0.0042, -0.0069], device='cuda:0'), grad: tensor([-3.3140e-05,  1.2688e-05,  2.0072e-05,  6.3539e-05,  1.3314e-05,
+         1.1064e-05,  7.2420e-05, -3.3379e-05, -1.6594e-04,  3.9518e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 159, time 214.35, cls_loss 0.0016 cls_loss_mapping 0.0032 cls_loss_causal 0.4942 re_mapping 0.0059 re_causal 0.0181 /// teacc 99.05 lr 0.00010000
+Epoch 161, weight, value: tensor([[ 0.0148, -0.0488, -0.0401,  ..., -0.1546, -0.0410, -0.0999],
+        [-0.0222, -0.0487, -0.0407,  ...,  0.0205,  0.0060, -0.1009],
+        [ 0.0374, -0.0953, -0.0933,  ...,  0.0200, -0.1238,  0.0571],
+        ...,
+        [-0.0004, -0.0211, -0.1290,  ..., -0.1118,  0.0186,  0.1156],
+        [ 0.0579, -0.0944, -0.0794,  ..., -0.1031, -0.0552, -0.0743],
+        [-0.1332,  0.0156,  0.1014,  ...,  0.0768, -0.0519, -0.1243]],
+       device='cuda:0'), grad: tensor([[ 9.1270e-08,  3.2783e-07,  3.6508e-07,  ...,  2.8126e-07,
+          5.5879e-09,  3.5763e-06],
+        [ 1.4529e-07,  1.2927e-06, -3.6322e-07,  ...,  4.3865e-07,
+         -1.8626e-09,  2.2445e-06],
+        [ 1.8161e-07,  2.3730e-06,  3.1292e-07,  ...,  1.7108e-06,
+          1.8626e-09, -9.3132e-06],
+        ...,
+        [ 9.0338e-08, -6.7055e-05,  4.3493e-07,  ..., -5.2750e-05,
+          3.7253e-09, -1.0437e-04],
+        [-1.3206e-06,  6.1765e-06, -5.6773e-06,  ...,  3.5670e-06,
+          4.0978e-08,  1.1541e-05],
+        [ 1.2405e-06,  5.7966e-05,  4.5151e-06,  ...,  4.6670e-05,
+          1.4901e-08,  8.8751e-05]], device='cuda:0')
+Epoch 161, bias, value: tensor([-0.0226, -0.0210, -0.0360,  0.0005,  0.0057,  0.0348,  0.0196, -0.0183,
+         0.0047, -0.0070], device='cuda:0'), grad: tensor([ 9.5293e-06,  5.5358e-06, -1.9699e-05, -3.4064e-05,  3.7253e-06,
+         4.7356e-05, -2.3227e-06, -2.9659e-04,  2.1964e-05,  2.6441e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 160, time 214.10, cls_loss 0.0019 cls_loss_mapping 0.0036 cls_loss_causal 0.5275 re_mapping 0.0057 re_causal 0.0174 /// teacc 98.94 lr 0.00010000
+Epoch 162, weight, value: tensor([[ 0.0152, -0.0493, -0.0402,  ..., -0.1556, -0.0413, -0.1018],
+        [-0.0226, -0.0485, -0.0400,  ...,  0.0212,  0.0060, -0.1013],
+        [ 0.0382, -0.0957, -0.0941,  ...,  0.0199, -0.1243,  0.0578],
+        ...,
+        [-0.0007, -0.0205, -0.1291,  ..., -0.1115,  0.0187,  0.1164],
+        [ 0.0582, -0.0940, -0.0796,  ..., -0.1035, -0.0557, -0.0750],
+        [-0.1335,  0.0155,  0.1017,  ...,  0.0766, -0.0520, -0.1277]],
+       device='cuda:0'), grad: tensor([[ 8.9873e-07,  3.8184e-08,  8.4471e-07,  ...,  1.3132e-07,
+          0.0000e+00,  9.2201e-08],
+        [ 2.5146e-06,  1.0058e-06,  5.1707e-06,  ...,  4.7423e-06,
+          0.0000e+00,  5.7556e-07],
+        [ 8.7917e-07,  2.7474e-07,  7.4413e-07,  ...,  2.2259e-07,
+          0.0000e+00,  1.5097e-06],
+        ...,
+        [ 6.7055e-08,  9.2201e-08,  4.6846e-07,  ...,  6.6683e-07,
+          0.0000e+00, -9.1270e-08],
+        [-2.6077e-08,  2.3749e-07,  2.4587e-07,  ...,  3.0082e-07,
+          0.0000e+00,  1.1669e-06],
+        [ 1.9092e-07,  6.0536e-07,  2.0843e-06,  ...,  2.9840e-06,
+          0.0000e+00,  3.8091e-07]], device='cuda:0')
+Epoch 162, bias, value: tensor([-0.0229, -0.0203, -0.0351,  0.0001,  0.0055,  0.0349,  0.0187, -0.0177,
+         0.0048, -0.0074], device='cuda:0'), grad: tensor([ 2.6654e-06,  1.5289e-05,  5.3719e-06, -9.1195e-06, -1.4976e-05,
+        -1.7723e-06, -7.8827e-06,  1.1604e-06,  2.4661e-06,  6.7391e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 161, time 214.15, cls_loss 0.0021 cls_loss_mapping 0.0037 cls_loss_causal 0.5365 re_mapping 0.0060 re_causal 0.0182 /// teacc 98.99 lr 0.00010000
+Epoch 163, weight, value: tensor([[ 0.0157, -0.0496, -0.0403,  ..., -0.1560, -0.0416, -0.1023],
+        [-0.0232, -0.0489, -0.0398,  ...,  0.0217,  0.0060, -0.1019],
+        [ 0.0379, -0.0960, -0.0958,  ...,  0.0191, -0.1248,  0.0585],
+        ...,
+        [-0.0012, -0.0202, -0.1293,  ..., -0.1116,  0.0188,  0.1164],
+        [ 0.0591, -0.0942, -0.0800,  ..., -0.1041, -0.0560, -0.0754],
+        [-0.1338,  0.0155,  0.1028,  ...,  0.0777, -0.0522, -0.1285]],
+       device='cuda:0'), grad: tensor([[ 1.8375e-06,  7.3854e-07,  6.1467e-08,  ...,  3.2503e-06,
+          5.4017e-08,  2.0489e-08],
+        [ 3.0454e-07,  1.4994e-07, -2.7940e-09,  ..., -1.8746e-05,
+          1.9558e-08,  7.3574e-08],
+        [ 1.6674e-05,  6.7577e-06,  4.7497e-08,  ...,  3.4541e-05,
+          1.0245e-08, -1.0431e-07],
+        ...,
+        [ 4.2003e-07,  6.4261e-08,  2.4587e-07,  ...,  4.8093e-06,
+          1.4249e-07, -8.9407e-08],
+        [ 3.2753e-05,  1.3337e-05,  2.8405e-07,  ...,  4.5955e-05,
+          2.7101e-07,  5.2154e-08],
+        [ 1.6959e-06, -1.0710e-07, -7.3668e-07,  ...,  1.6224e-06,
+          5.1223e-07,  3.8184e-08]], device='cuda:0')
+Epoch 163, bias, value: tensor([-0.0228, -0.0205, -0.0351,  0.0005,  0.0047,  0.0345,  0.0186, -0.0176,
+         0.0052, -0.0069], device='cuda:0'), grad: tensor([ 6.2436e-06, -4.6670e-05,  7.0989e-05,  2.2709e-05,  3.3677e-06,
+        -1.7369e-04,  1.7777e-05,  1.1489e-05,  8.3566e-05,  4.2506e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 162, time 213.89, cls_loss 0.0029 cls_loss_mapping 0.0038 cls_loss_causal 0.5287 re_mapping 0.0067 re_causal 0.0185 /// teacc 98.98 lr 0.00010000
+Epoch 164, weight, value: tensor([[ 0.0167, -0.0502, -0.0411,  ..., -0.1570, -0.0425, -0.1028],
+        [-0.0236, -0.0490, -0.0396,  ...,  0.0219,  0.0065, -0.1022],
+        [ 0.0377, -0.0968, -0.0967,  ...,  0.0186, -0.1268,  0.0590],
+        ...,
+        [-0.0013, -0.0204, -0.1307,  ..., -0.1124,  0.0191,  0.1164],
+        [ 0.0593, -0.0949, -0.0804,  ..., -0.1048, -0.0571, -0.0758],
+        [-0.1341,  0.0174,  0.1038,  ...,  0.0789, -0.0524, -0.1290]],
+       device='cuda:0'), grad: tensor([[-3.1590e-06,  2.7008e-08,  8.7544e-08,  ...,  5.4017e-08,
+          4.6566e-09,  1.5646e-07],
+        [ 6.3330e-07,  4.9360e-08, -1.4808e-07,  ..., -4.7591e-07,
+          0.0000e+00,  1.0058e-07],
+        [ 5.3924e-07,  4.4703e-08,  1.9465e-07,  ...,  6.5193e-08,
+          0.0000e+00, -9.4902e-07],
+        ...,
+        [ 1.8626e-07, -1.3039e-08,  2.5239e-07,  ...,  2.8778e-07,
+          0.0000e+00,  3.0268e-07],
+        [ 5.5879e-07,  3.8184e-08,  1.0245e-07,  ...,  1.4529e-07,
+          0.0000e+00,  1.3597e-07],
+        [ 6.1188e-07,  3.9116e-08,  7.2084e-07,  ...,  7.5623e-07,
+          0.0000e+00,  1.1828e-07]], device='cuda:0')
+Epoch 164, bias, value: tensor([-0.0234, -0.0206, -0.0350,  0.0005,  0.0043,  0.0345,  0.0180, -0.0182,
+         0.0052, -0.0057], device='cuda:0'), grad: tensor([-7.2941e-06, -3.4552e-07,  7.7765e-07, -1.6950e-07, -2.6729e-06,
+         1.4752e-06,  1.4408e-06,  1.4221e-06,  1.9539e-06,  3.4161e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 163, time 213.78, cls_loss 0.0018 cls_loss_mapping 0.0036 cls_loss_causal 0.5553 re_mapping 0.0062 re_causal 0.0188 /// teacc 99.04 lr 0.00010000
+Epoch 165, weight, value: tensor([[ 0.0176, -0.0519, -0.0410,  ..., -0.1567, -0.0434, -0.1031],
+        [-0.0240, -0.0493, -0.0397,  ...,  0.0217,  0.0064, -0.1024],
+        [ 0.0376, -0.0988, -0.0979,  ...,  0.0185, -0.1274,  0.0588],
+        ...,
+        [-0.0013, -0.0203, -0.1315,  ..., -0.1127,  0.0197,  0.1166],
+        [ 0.0593, -0.0952, -0.0810,  ..., -0.1056, -0.0575, -0.0761],
+        [-0.1349,  0.0175,  0.1039,  ...,  0.0791, -0.0532, -0.1296]],
+       device='cuda:0'), grad: tensor([[-2.9430e-07,  4.6752e-07,  6.8732e-07,  ...,  9.9186e-07,
+          0.0000e+00,  4.1537e-07],
+        [ 4.1910e-08,  2.1532e-06,  4.1537e-07,  ...,  3.1441e-06,
+          0.0000e+00,  3.7700e-06],
+        [ 7.5437e-08,  2.9534e-05,  7.8883e-07,  ...,  5.1856e-05,
+          0.0000e+00,  5.9336e-05],
+        ...,
+        [ 2.0489e-08, -4.3839e-05,  6.9849e-07,  ..., -7.7426e-05,
+          0.0000e+00, -8.9884e-05],
+        [-2.4028e-07,  6.7726e-06,  3.2578e-06,  ...,  1.1280e-05,
+          0.0000e+00,  2.2873e-06],
+        [ 3.8464e-07, -4.8336e-07, -1.1615e-05,  ..., -1.6475e-06,
+          0.0000e+00,  1.8120e-05]], device='cuda:0')
+Epoch 165, bias, value: tensor([-0.0230, -0.0205, -0.0355,  0.0007,  0.0046,  0.0344,  0.0181, -0.0181,
+         0.0050, -0.0060], device='cuda:0'), grad: tensor([ 4.9267e-07,  1.0662e-05,  1.5199e-04, -1.4408e-06,  2.4840e-05,
+         3.2149e-06,  4.3958e-06, -2.2435e-04,  2.0966e-05,  9.4548e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 164, time 214.16, cls_loss 0.0019 cls_loss_mapping 0.0030 cls_loss_causal 0.5221 re_mapping 0.0061 re_causal 0.0176 /// teacc 98.92 lr 0.00010000
+Epoch 166, weight, value: tensor([[ 0.0178, -0.0518, -0.0419,  ..., -0.1571, -0.0441, -0.1035],
+        [-0.0243, -0.0491, -0.0394,  ...,  0.0222,  0.0064, -0.1022],
+        [ 0.0366, -0.0992, -0.0988,  ...,  0.0181, -0.1279,  0.0570],
+        ...,
+        [-0.0007, -0.0203, -0.1319,  ..., -0.1130,  0.0199,  0.1184],
+        [ 0.0594, -0.0958, -0.0812,  ..., -0.1060, -0.0577, -0.0770],
+        [-0.1352,  0.0174,  0.1043,  ...,  0.0790, -0.0533, -0.1307]],
+       device='cuda:0'), grad: tensor([[ 4.7963e-07, -7.0781e-07,  3.2503e-07,  ...,  1.9744e-07,
+          0.0000e+00,  7.2680e-06],
+        [ 2.3562e-07, -3.7104e-05, -1.9872e-04,  ..., -1.4198e-04,
+          0.0000e+00,  2.7996e-06],
+        [-4.8243e-06, -2.0023e-07,  3.4180e-07,  ..., -1.1446e-06,
+          0.0000e+00, -1.8179e-05],
+        ...,
+        [ 1.6857e-07,  5.7369e-06,  3.0696e-05,  ...,  2.2262e-05,
+          0.0000e+00,  2.4959e-07],
+        [ 2.0023e-07,  3.3807e-07,  1.1362e-06,  ...,  2.1216e-06,
+          0.0000e+00,  6.7689e-06],
+        [ 2.3358e-06,  2.9728e-05,  1.5914e-04,  ...,  1.1283e-04,
+          0.0000e+00,  6.3330e-08]], device='cuda:0')
+Epoch 166, bias, value: tensor([-0.0235, -0.0201, -0.0373,  0.0004,  0.0049,  0.0345,  0.0178, -0.0169,
+         0.0048, -0.0059], device='cuda:0'), grad: tensor([ 6.7726e-06, -3.6383e-04, -5.1320e-05,  3.5651e-06,  1.3344e-05,
+         1.6186e-06,  3.0510e-06,  5.8949e-05,  2.1607e-05,  3.0637e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 165, time 214.24, cls_loss 0.0019 cls_loss_mapping 0.0042 cls_loss_causal 0.5270 re_mapping 0.0059 re_causal 0.0178 /// teacc 98.99 lr 0.00010000
+Epoch 167, weight, value: tensor([[ 0.0180, -0.0531, -0.0422,  ..., -0.1576, -0.0446, -0.1050],
+        [-0.0252, -0.0493, -0.0391,  ...,  0.0226,  0.0064, -0.1032],
+        [ 0.0367, -0.0992, -0.0992,  ...,  0.0180, -0.1282,  0.0571],
+        ...,
+        [-0.0006, -0.0201, -0.1322,  ..., -0.1134,  0.0200,  0.1188],
+        [ 0.0596, -0.0964, -0.0813,  ..., -0.1065, -0.0577, -0.0777],
+        [-0.1355,  0.0173,  0.1045,  ...,  0.0792, -0.0534, -0.1321]],
+       device='cuda:0'), grad: tensor([[-5.2936e-06,  1.6764e-08,  5.6159e-07,  ...,  8.8569e-07,
+          0.0000e+00,  6.9849e-08],
+        [ 4.6380e-07,  9.4995e-08,  9.3691e-07,  ...,  2.0936e-06,
+          0.0000e+00,  2.5239e-07],
+        [ 3.4738e-07,  1.6298e-07,  1.7826e-06,  ...,  4.8801e-06,
+          0.0000e+00,  9.7789e-08],
+        ...,
+        [ 1.3132e-07,  1.2666e-07,  2.7996e-06,  ...,  7.6592e-06,
+          0.0000e+00,  3.3621e-07],
+        [-6.3330e-08,  1.8533e-07,  1.3495e-06,  ...,  3.4813e-06,
+          0.0000e+00,  6.9570e-07],
+        [ 8.3912e-07, -7.1712e-08,  1.9111e-06,  ...,  5.6438e-06,
+          0.0000e+00,  8.1025e-08]], device='cuda:0')
+Epoch 167, bias, value: tensor([-0.0238, -0.0205, -0.0372,  0.0010,  0.0049,  0.0346,  0.0179, -0.0164,
+         0.0045, -0.0061], device='cuda:0'), grad: tensor([-2.1175e-05,  8.7246e-06,  1.6958e-05, -4.0792e-06, -6.7830e-05,
+         6.7689e-06,  4.1388e-06,  2.4498e-05,  1.0923e-05,  2.1070e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 166, time 214.17, cls_loss 0.0022 cls_loss_mapping 0.0046 cls_loss_causal 0.5218 re_mapping 0.0059 re_causal 0.0172 /// teacc 98.89 lr 0.00010000
+Epoch 168, weight, value: tensor([[ 0.0183, -0.0539, -0.0423,  ..., -0.1582, -0.0448, -0.1069],
+        [-0.0257, -0.0506, -0.0390,  ...,  0.0229,  0.0064, -0.1043],
+        [ 0.0365, -0.0997, -0.1003,  ...,  0.0177, -0.1283,  0.0575],
+        ...,
+        [-0.0008, -0.0194, -0.1327,  ..., -0.1140,  0.0201,  0.1192],
+        [ 0.0595, -0.0966, -0.0828,  ..., -0.1080, -0.0580, -0.0780],
+        [-0.1352,  0.0173,  0.1050,  ...,  0.0797, -0.0535, -0.1332]],
+       device='cuda:0'), grad: tensor([[ 1.2219e-06,  6.5193e-09,  1.0766e-06,  ...,  9.2201e-08,
+          3.7253e-09,  1.0245e-08],
+        [ 6.3330e-08,  1.0990e-07,  4.9081e-07,  ...,  3.4086e-07,
+          9.3132e-10,  3.3993e-07],
+        [ 8.5123e-07,  1.4901e-08,  1.4519e-06,  ...,  1.3411e-07,
+          0.0000e+00,  2.0489e-08],
+        ...,
+        [ 1.2107e-08, -1.9558e-08,  7.0222e-07,  ...,  7.3668e-07,
+          1.8626e-09, -5.3924e-07],
+        [-3.5390e-08,  4.5635e-08, -9.3132e-09,  ...,  1.4901e-07,
+          1.9558e-08,  1.2666e-07],
+        [ 1.4622e-07,  5.3085e-07,  9.3728e-06,  ...,  8.2031e-06,
+          1.6764e-08,  8.7544e-08]], device='cuda:0')
+Epoch 168, bias, value: tensor([-0.0238, -0.0214, -0.0371,  0.0012,  0.0050,  0.0344,  0.0180, -0.0161,
+         0.0040, -0.0058], device='cuda:0'), grad: tensor([ 3.6657e-06, -5.1130e-07,  5.2415e-06,  1.6680e-06, -2.0131e-05,
+         1.1176e-06, -9.9093e-06,  8.4657e-07,  2.2631e-07,  1.7792e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 167, time 214.40, cls_loss 0.0037 cls_loss_mapping 0.0062 cls_loss_causal 0.5055 re_mapping 0.0061 re_causal 0.0172 /// teacc 98.92 lr 0.00010000
+Epoch 169, weight, value: tensor([[ 0.0194, -0.0543, -0.0424,  ..., -0.1585, -0.0451, -0.1079],
+        [-0.0262, -0.0540, -0.0365,  ...,  0.0222,  0.0065, -0.1071],
+        [ 0.0364, -0.1000, -0.1013,  ...,  0.0172, -0.1290,  0.0583],
+        ...,
+        [-0.0010, -0.0184, -0.1331,  ..., -0.1145,  0.0200,  0.1204],
+        [ 0.0599, -0.0971, -0.0849,  ..., -0.1110, -0.0581, -0.0786],
+        [-0.1357,  0.0173,  0.1050,  ...,  0.0795, -0.0536, -0.1341]],
+       device='cuda:0'), grad: tensor([[-1.0617e-07,  2.0489e-07,  5.5879e-08,  ...,  1.3039e-08,
+          0.0000e+00,  5.0478e-07],
+        [ 5.4948e-08,  1.1317e-05,  6.3218e-06,  ..., -5.9977e-07,
+          0.0000e+00,  1.5888e-06],
+        [-1.5944e-06,  4.7963e-07,  1.4808e-07,  ...,  4.0047e-08,
+          0.0000e+00, -7.5512e-06],
+        ...,
+        [ 1.0058e-07, -2.1026e-05, -1.2495e-05,  ...,  2.3190e-07,
+          0.0000e+00, -1.9651e-06],
+        [ 1.2470e-06,  2.0862e-07,  2.2072e-07,  ...,  6.9849e-08,
+          0.0000e+00,  6.2883e-06],
+        [ 8.4750e-08,  1.1176e-05,  1.6868e-05,  ...,  9.7603e-06,
+          0.0000e+00,  1.2685e-06]], device='cuda:0')
+Epoch 169, bias, value: tensor([-0.0235, -0.0223, -0.0367, -0.0023,  0.0052,  0.0380,  0.0176, -0.0145,
+         0.0014, -0.0062], device='cuda:0'), grad: tensor([ 3.9581e-07,  4.6134e-05, -1.4365e-05, -2.5816e-06, -1.4611e-05,
+         2.0768e-06, -2.4214e-08, -8.6546e-05,  1.3381e-05,  5.6267e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 168, time 214.21, cls_loss 0.0023 cls_loss_mapping 0.0040 cls_loss_causal 0.5158 re_mapping 0.0063 re_causal 0.0183 /// teacc 98.94 lr 0.00010000
+Epoch 170, weight, value: tensor([[ 0.0198, -0.0546, -0.0424,  ..., -0.1590, -0.0455, -0.1098],
+        [-0.0271, -0.0546, -0.0363,  ...,  0.0220,  0.0065, -0.1086],
+        [ 0.0362, -0.1007, -0.1016,  ...,  0.0172, -0.1290,  0.0576],
+        ...,
+        [-0.0012, -0.0183, -0.1339,  ..., -0.1150,  0.0200,  0.1223],
+        [ 0.0598, -0.0976, -0.0846,  ..., -0.1115, -0.0626, -0.0790],
+        [-0.1359,  0.0173,  0.1053,  ...,  0.0799, -0.0536, -0.1353]],
+       device='cuda:0'), grad: tensor([[ 5.1223e-08,  9.3132e-10,  2.5146e-08,  ...,  1.6764e-08,
+          0.0000e+00,  1.2852e-07],
+        [ 3.7253e-08,  1.5832e-08, -2.4401e-07,  ..., -4.0606e-07,
+          0.0000e+00,  1.6671e-07],
+        [-1.2713e-06,  4.0513e-07,  3.9116e-08,  ...,  1.5646e-07,
+          0.0000e+00, -1.8906e-07],
+        ...,
+        [ 2.6170e-07, -4.7777e-07,  1.6298e-07,  ..., -5.2154e-08,
+          0.0000e+00, -2.9579e-06],
+        [ 6.5099e-07,  8.3819e-09,  1.1176e-08,  ...,  5.2154e-08,
+          0.0000e+00,  2.2352e-06],
+        [ 1.3039e-08,  2.5146e-08,  9.3132e-10,  ...,  1.2852e-07,
+         -4.6566e-09,  3.1944e-07]], device='cuda:0')
+Epoch 170, bias, value: tensor([-0.0235, -0.0231, -0.0380, -0.0031,  0.0051,  0.0386,  0.0176, -0.0127,
+         0.0018, -0.0068], device='cuda:0'), grad: tensor([ 3.1665e-07, -5.9605e-07, -2.7791e-06,  2.9523e-07,  3.2876e-07,
+         8.6240e-07, -2.4494e-07, -2.6263e-06,  3.5763e-06,  8.6427e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 169, time 214.20, cls_loss 0.0023 cls_loss_mapping 0.0052 cls_loss_causal 0.5366 re_mapping 0.0062 re_causal 0.0180 /// teacc 98.99 lr 0.00010000
+Epoch 171, weight, value: tensor([[ 0.0198, -0.0550, -0.0426,  ..., -0.1601, -0.0471, -0.1106],
+        [-0.0274, -0.0546, -0.0363,  ...,  0.0220,  0.0069, -0.1085],
+        [ 0.0365, -0.1010, -0.1024,  ...,  0.0173, -0.1329,  0.0578],
+        ...,
+        [-0.0017, -0.0186, -0.1351,  ..., -0.1157,  0.0209,  0.1222],
+        [ 0.0596, -0.0981, -0.0846,  ..., -0.1119, -0.0630, -0.0803],
+        [-0.1361,  0.0178,  0.1057,  ...,  0.0805, -0.0543, -0.1358]],
+       device='cuda:0'), grad: tensor([[-8.7544e-08,  9.1568e-06,  3.8743e-07,  ...,  2.0280e-05,
+          0.0000e+00,  1.8984e-05],
+        [ 3.2596e-08,  2.6543e-06,  6.6217e-07,  ...,  5.9083e-06,
+          0.0000e+00,  4.2841e-06],
+        [ 1.0896e-07,  1.1986e-06,  1.3309e-06,  ...,  2.2352e-06,
+          0.0000e+00, -1.8537e-05],
+        ...,
+        [-1.9558e-08,  1.9083e-03,  4.2003e-07,  ...,  4.2419e-03,
+         -2.7940e-09,  2.4567e-03],
+        [-3.1665e-07,  6.9756e-07,  7.9349e-07,  ...,  1.3234e-06,
+          0.0000e+00,  7.8827e-06],
+        [ 1.2480e-07, -1.9312e-03,  3.3528e-08,  ..., -4.2915e-03,
+          9.3132e-10, -2.4853e-03]], device='cuda:0')
+Epoch 171, bias, value: tensor([-0.0236, -0.0231, -0.0381, -0.0025,  0.0048,  0.0387,  0.0179, -0.0132,
+         0.0015, -0.0063], device='cuda:0'), grad: tensor([ 6.2823e-05,  1.6809e-05, -3.1650e-05,  3.1888e-05,  5.9903e-06,
+         1.2815e-05,  7.7207e-07,  1.0109e-02,  1.7375e-05, -1.0231e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 170, time 214.07, cls_loss 0.0019 cls_loss_mapping 0.0040 cls_loss_causal 0.5417 re_mapping 0.0058 re_causal 0.0185 /// teacc 98.94 lr 0.00010000
+Epoch 172, weight, value: tensor([[ 0.0200, -0.0553, -0.0429,  ..., -0.1607, -0.0490, -0.1113],
+        [-0.0277, -0.0551, -0.0361,  ...,  0.0210,  0.0069, -0.1085],
+        [ 0.0365, -0.1013, -0.1030,  ...,  0.0167, -0.1337,  0.0579],
+        ...,
+        [-0.0018, -0.0205, -0.1350,  ..., -0.1185,  0.0218,  0.1208],
+        [ 0.0599, -0.0983, -0.0843,  ..., -0.1121, -0.0631, -0.0805],
+        [-0.1365,  0.0194,  0.1057,  ...,  0.0824, -0.0552, -0.1335]],
+       device='cuda:0'), grad: tensor([[ 9.5181e-07,  1.1176e-08,  2.0582e-07,  ...,  1.5832e-07,
+          0.0000e+00,  4.9174e-07],
+        [ 2.1793e-07,  4.7497e-08,  1.2014e-07,  ..., -3.5409e-06,
+          0.0000e+00, -4.8131e-06],
+        [ 2.2333e-06,  4.3772e-08,  2.0862e-07,  ...,  2.9206e-06,
+          0.0000e+00,  4.9882e-06],
+        ...,
+        [ 9.2946e-07, -3.9395e-07,  3.6787e-07,  ...,  7.8697e-07,
+          0.0000e+00,  3.1106e-07],
+        [-5.7667e-06,  2.2352e-08, -8.5011e-06,  ..., -6.5118e-06,
+          0.0000e+00, -2.6152e-06],
+        [ 9.1270e-08,  4.1910e-07,  5.4240e-06,  ...,  4.2915e-06,
+          9.3132e-10,  8.3074e-07]], device='cuda:0')
+Epoch 172, bias, value: tensor([-0.0236, -0.0234, -0.0383, -0.0027,  0.0049,  0.0392,  0.0175, -0.0148,
+         0.0017, -0.0050], device='cuda:0'), grad: tensor([ 6.2622e-06, -3.2801e-06,  3.0994e-05,  7.4096e-06,  2.6338e-06,
+         2.5690e-05,  5.8375e-06,  5.2378e-06, -1.4400e-04,  6.3241e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 171, time 214.01, cls_loss 0.0018 cls_loss_mapping 0.0039 cls_loss_causal 0.5290 re_mapping 0.0056 re_causal 0.0175 /// teacc 99.03 lr 0.00010000
+Epoch 173, weight, value: tensor([[ 0.0200, -0.0556, -0.0430,  ..., -0.1610, -0.0495, -0.1118],
+        [-0.0286, -0.0551, -0.0363,  ...,  0.0210,  0.0069, -0.1083],
+        [ 0.0363, -0.1016, -0.1034,  ...,  0.0167, -0.1338,  0.0578],
+        ...,
+        [-0.0019, -0.0197, -0.1337,  ..., -0.1178,  0.0230,  0.1211],
+        [ 0.0607, -0.0981, -0.0840,  ..., -0.1120, -0.0631, -0.0810],
+        [-0.1369,  0.0182,  0.1051,  ...,  0.0815, -0.0569, -0.1342]],
+       device='cuda:0'), grad: tensor([[ 1.9558e-08,  1.0245e-08,  1.7788e-07,  ...,  6.8918e-08,
+          3.7253e-09,  1.5181e-07],
+        [ 2.1420e-08,  4.0978e-08,  0.0000e+00,  ..., -7.4506e-09,
+          5.5879e-09,  1.3225e-07],
+        [-1.7416e-07,  3.7253e-08,  2.2352e-08,  ...,  1.5832e-08,
+          2.7940e-09, -7.1712e-07],
+        ...,
+        [ 1.9558e-08, -2.3469e-07,  9.5926e-08,  ...,  5.6811e-08,
+         -2.8871e-08, -5.5507e-07],
+        [ 1.6857e-07,  4.5635e-08,  5.7742e-08,  ...,  3.9954e-07,
+          3.6322e-08,  2.9244e-07],
+        [ 1.0896e-07, -3.2596e-08, -1.5488e-06,  ..., -7.9535e-07,
+          1.8626e-08,  2.9709e-07]], device='cuda:0')
+Epoch 173, bias, value: tensor([-0.0237, -0.0234, -0.0387, -0.0026,  0.0052,  0.0391,  0.0177, -0.0143,
+         0.0021, -0.0061], device='cuda:0'), grad: tensor([ 4.0419e-07,  2.9709e-07, -1.4640e-06,  1.1427e-06,  2.2408e-06,
+        -1.0887e-06,  1.8440e-07, -9.2946e-07,  1.1148e-06, -1.8971e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 172, time 213.83, cls_loss 0.0019 cls_loss_mapping 0.0037 cls_loss_causal 0.5183 re_mapping 0.0056 re_causal 0.0171 /// teacc 98.86 lr 0.00010000
+Epoch 174, weight, value: tensor([[ 0.0198, -0.0559, -0.0435,  ..., -0.1613, -0.0498, -0.1124],
+        [-0.0291, -0.0553, -0.0362,  ...,  0.0211,  0.0067, -0.1085],
+        [ 0.0366, -0.1018, -0.1038,  ...,  0.0168, -0.1337,  0.0582],
+        ...,
+        [-0.0020, -0.0192, -0.1336,  ..., -0.1177,  0.0238,  0.1214],
+        [ 0.0599, -0.0982, -0.0839,  ..., -0.1125, -0.0632, -0.0822],
+        [-0.1374,  0.0179,  0.1048,  ...,  0.0811, -0.0574, -0.1344]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-09,  2.4214e-08,  5.0012e-07,  ...,  5.6811e-07,
+          0.0000e+00,  8.0094e-08],
+        [ 1.8626e-09,  2.5146e-08,  1.3970e-08,  ...,  2.4214e-08,
+          0.0000e+00,  8.9407e-08],
+        [ 1.8626e-09,  8.3819e-09,  1.9744e-07,  ...,  2.0955e-07,
+          0.0000e+00, -1.5358e-06],
+        ...,
+        [ 9.3132e-10,  6.8918e-08,  5.9791e-07,  ...,  9.4250e-07,
+          0.0000e+00,  6.2585e-07],
+        [ 2.2352e-08,  3.8184e-08,  9.5274e-07,  ...,  1.1232e-06,
+          5.5879e-09,  2.6729e-07],
+        [ 3.7253e-09, -4.5821e-07, -3.7272e-06,  ..., -5.1111e-06,
+          9.3132e-10,  5.4948e-08]], device='cuda:0')
+Epoch 174, bias, value: tensor([-0.0241, -0.0234, -0.0380, -0.0043,  0.0056,  0.0399,  0.0175, -0.0140,
+         0.0018, -0.0066], device='cuda:0'), grad: tensor([ 1.5069e-06,  1.1362e-07, -1.3746e-06, -1.8841e-06,  2.4512e-06,
+         4.2170e-06,  1.4901e-07,  2.4363e-06,  3.1516e-06, -1.0766e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 173, time 214.19, cls_loss 0.0028 cls_loss_mapping 0.0046 cls_loss_causal 0.5263 re_mapping 0.0057 re_causal 0.0168 /// teacc 98.90 lr 0.00010000
+Epoch 175, weight, value: tensor([[ 0.0206, -0.0564, -0.0411,  ..., -0.1617, -0.0512, -0.1136],
+        [-0.0297, -0.0554, -0.0363,  ...,  0.0211,  0.0065, -0.1092],
+        [ 0.0364, -0.1043, -0.1053,  ...,  0.0171, -0.1342,  0.0589],
+        ...,
+        [-0.0021, -0.0191, -0.1340,  ..., -0.1178,  0.0241,  0.1215],
+        [ 0.0602, -0.0986, -0.0837,  ..., -0.1127, -0.0638, -0.0834],
+        [-0.1384,  0.0178,  0.1059,  ...,  0.0832, -0.0575, -0.1347]],
+       device='cuda:0'), grad: tensor([[-2.9802e-08,  3.2596e-08,  1.5087e-07,  ...,  1.7975e-07,
+          0.0000e+00,  3.7253e-09],
+        [ 1.7975e-07,  5.6997e-07,  1.9763e-06,  ...,  2.9616e-06,
+          0.0000e+00,  2.2352e-08],
+        [ 1.3970e-08,  9.3132e-09,  2.4214e-08,  ...,  3.5390e-08,
+          0.0000e+00, -2.0489e-08],
+        ...,
+        [ 1.0245e-08,  8.7544e-08,  4.7125e-07,  ...,  8.8289e-07,
+          0.0000e+00,  1.9558e-08],
+        [-7.8231e-08,  1.0245e-07,  3.3993e-07,  ...,  4.8336e-07,
+          0.0000e+00,  1.9558e-08],
+        [ 1.3225e-07, -9.9931e-07, -3.6955e-06,  ..., -5.2005e-06,
+          0.0000e+00,  1.3970e-08]], device='cuda:0')
+Epoch 175, bias, value: tensor([-0.0214, -0.0235, -0.0374, -0.0040,  0.0040,  0.0397,  0.0168, -0.0135,
+         0.0018, -0.0073], device='cuda:0'), grad: tensor([ 1.3132e-07,  5.3719e-06,  1.1828e-07,  3.9767e-07, -8.3540e-07,
+         1.3504e-07, -5.0943e-07,  2.2091e-06, -6.0536e-07, -6.4000e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 174, time 214.01, cls_loss 0.0016 cls_loss_mapping 0.0029 cls_loss_causal 0.4932 re_mapping 0.0058 re_causal 0.0173 /// teacc 99.04 lr 0.00010000
+Epoch 176, weight, value: tensor([[ 0.0202, -0.0569, -0.0412,  ..., -0.1622, -0.0513, -0.1144],
+        [-0.0301, -0.0556, -0.0363,  ...,  0.0212,  0.0064, -0.1100],
+        [ 0.0336, -0.1057, -0.1056,  ...,  0.0177, -0.1342,  0.0587],
+        ...,
+        [-0.0019, -0.0188, -0.1342,  ..., -0.1179,  0.0241,  0.1223],
+        [ 0.0630, -0.0978, -0.0836,  ..., -0.1124, -0.0640, -0.0842],
+        [-0.1390,  0.0177,  0.1059,  ...,  0.0832, -0.0576, -0.1348]],
+       device='cuda:0'), grad: tensor([[-1.5367e-07,  1.0245e-08,  2.8871e-08,  ...,  1.6857e-07,
+          0.0000e+00,  3.0734e-08],
+        [ 1.3970e-08,  5.3085e-08,  2.7269e-05,  ...,  1.7777e-05,
+          0.0000e+00,  1.3970e-07],
+        [ 5.5879e-08,  5.9605e-08,  4.3400e-07,  ...,  2.7474e-07,
+          0.0000e+00,  6.1467e-08],
+        ...,
+        [ 5.5879e-09, -2.2259e-07,  3.1814e-06,  ...,  2.1104e-06,
+          0.0000e+00, -6.9290e-07],
+        [-1.0617e-07,  9.3132e-08,  1.4286e-06,  ...,  1.0626e-06,
+          0.0000e+00,  1.9744e-07],
+        [ 1.3597e-07, -6.7987e-08,  1.7993e-06,  ...,  1.1083e-06,
+          0.0000e+00,  8.8476e-08]], device='cuda:0')
+Epoch 176, bias, value: tensor([-0.0214, -0.0237, -0.0386, -0.0038,  0.0040,  0.0395,  0.0172, -0.0131,
+         0.0028, -0.0075], device='cuda:0'), grad: tensor([-5.3924e-07,  5.3793e-05,  1.1120e-06,  3.6601e-07, -7.0333e-05,
+        -6.3609e-07,  3.8408e-06,  5.1185e-06,  2.7735e-06,  4.3809e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 175, time 214.24, cls_loss 0.0015 cls_loss_mapping 0.0030 cls_loss_causal 0.5381 re_mapping 0.0056 re_causal 0.0180 /// teacc 98.99 lr 0.00010000
+Epoch 177, weight, value: tensor([[ 0.0201, -0.0572, -0.0414,  ..., -0.1629, -0.0514, -0.1152],
+        [-0.0309, -0.0557, -0.0364,  ...,  0.0212,  0.0066, -0.1102],
+        [ 0.0335, -0.1057, -0.1056,  ...,  0.0179, -0.1344,  0.0592],
+        ...,
+        [-0.0022, -0.0190, -0.1348,  ..., -0.1180,  0.0240,  0.1223],
+        [ 0.0634, -0.0980, -0.0839,  ..., -0.1128, -0.0641, -0.0849],
+        [-0.1393,  0.0178,  0.1058,  ...,  0.0829, -0.0576, -0.1349]],
+       device='cuda:0'), grad: tensor([[ 6.0350e-07,  4.9919e-07,  1.8664e-06,  ...,  3.1665e-08,
+          0.0000e+00,  2.5798e-06],
+        [ 1.8999e-07,  1.9930e-07, -6.0536e-08,  ..., -3.3714e-07,
+          9.3132e-10,  4.0047e-07],
+        [ 1.0524e-07, -6.1929e-05, -1.1033e-04,  ...,  1.0524e-07,
+          9.3132e-10, -3.8481e-04],
+        ...,
+        [ 1.7695e-08,  8.5235e-06,  1.2945e-07,  ...,  1.3225e-07,
+          1.3504e-07,  5.2005e-06],
+        [ 8.0559e-07,  6.4261e-07,  4.8839e-06,  ...,  5.7742e-08,
+          9.3132e-10,  1.7416e-06],
+        [ 2.2631e-07,  1.1548e-07, -3.4459e-08,  ..., -5.0012e-07,
+          9.3132e-10,  7.0594e-07]], device='cuda:0')
+Epoch 177, bias, value: tensor([-0.0216, -0.0237, -0.0385, -0.0037,  0.0043,  0.0395,  0.0174, -0.0132,
+         0.0028, -0.0077], device='cuda:0'), grad: tensor([ 8.0615e-06,  7.9349e-07, -7.3719e-04, -9.9018e-06,  7.1144e-04,
+         3.4366e-06, -1.1194e-06,  1.1683e-05,  1.1094e-05,  1.5264e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 176, time 214.20, cls_loss 0.0018 cls_loss_mapping 0.0031 cls_loss_causal 0.5071 re_mapping 0.0054 re_causal 0.0163 /// teacc 98.94 lr 0.00010000
+Epoch 178, weight, value: tensor([[ 0.0201, -0.0588, -0.0415,  ..., -0.1648, -0.0536, -0.1158],
+        [-0.0316, -0.0558, -0.0365,  ...,  0.0213,  0.0093, -0.1105],
+        [ 0.0339, -0.1051, -0.1049,  ...,  0.0188, -0.1376,  0.0606],
+        ...,
+        [-0.0026, -0.0191, -0.1351,  ..., -0.1182,  0.0233,  0.1222],
+        [ 0.0635, -0.0985, -0.0838,  ..., -0.1130, -0.0651, -0.0859],
+        [-0.1398,  0.0179,  0.1058,  ...,  0.0830, -0.0577, -0.1352]],
+       device='cuda:0'), grad: tensor([[-1.1977e-06,  4.2841e-08,  1.4156e-07,  ...,  1.0431e-07,
+          0.0000e+00,  7.2643e-08],
+        [ 1.0990e-07,  1.5832e-07,  1.0710e-07,  ...,  1.0151e-07,
+          3.7253e-09,  1.8347e-07],
+        [ 5.9605e-08,  9.6858e-08,  4.7497e-08,  ...,  2.4214e-08,
+          9.3132e-09,  7.0781e-08],
+        ...,
+        [ 2.8871e-08, -9.9652e-07,  1.2014e-07,  ...,  1.3690e-07,
+         -1.9558e-08, -1.4938e-06],
+        [ 3.9116e-07,  1.4622e-07,  2.1309e-06,  ...,  4.6939e-06,
+          2.7940e-09,  1.7509e-07],
+        [ 3.7625e-07,  5.2527e-07, -5.5693e-07,  ..., -3.6415e-07,
+         -9.3132e-10,  1.1502e-06]], device='cuda:0')
+Epoch 178, bias, value: tensor([-0.0218, -0.0237, -0.0374, -0.0036,  0.0041,  0.0393,  0.0184, -0.0134,
+         0.0028, -0.0078], device='cuda:0'), grad: tensor([-4.1425e-06,  1.1427e-06,  5.1316e-07,  1.0123e-06,  8.0746e-07,
+        -4.8503e-06, -9.3877e-07, -6.0946e-06,  5.7742e-06,  6.7577e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 177, time 214.20, cls_loss 0.0017 cls_loss_mapping 0.0037 cls_loss_causal 0.5075 re_mapping 0.0056 re_causal 0.0166 /// teacc 98.97 lr 0.00010000
+Epoch 179, weight, value: tensor([[ 0.0207, -0.0608, -0.0422,  ..., -0.1662, -0.0542, -0.1164],
+        [-0.0321, -0.0560, -0.0360,  ...,  0.0216,  0.0096, -0.1108],
+        [ 0.0337, -0.1054, -0.1061,  ...,  0.0198, -0.1381,  0.0610],
+        ...,
+        [-0.0028, -0.0190, -0.1354,  ..., -0.1184,  0.0232,  0.1222],
+        [ 0.0642, -0.0996, -0.0845,  ..., -0.1133, -0.0654, -0.0869],
+        [-0.1402,  0.0181,  0.1061,  ...,  0.0830, -0.0578, -0.1352]],
+       device='cuda:0'), grad: tensor([[ 1.1176e-07,  1.5832e-08,  1.4715e-07,  ...,  2.4494e-07,
+          0.0000e+00,  3.6322e-08],
+        [ 4.7032e-08,  1.1548e-07, -6.7987e-08,  ..., -9.6858e-08,
+          0.0000e+00,  2.0815e-07],
+        [-6.2445e-07,  3.9116e-08,  6.3330e-08,  ...,  5.4017e-08,
+          0.0000e+00, -9.5833e-07],
+        ...,
+        [ 5.0291e-08,  4.0978e-08,  1.0990e-07,  ...,  1.6671e-07,
+         -0.0000e+00,  7.4506e-08],
+        [ 4.6333e-07,  2.7940e-08,  1.8906e-07,  ...,  3.2596e-07,
+          4.6566e-10,  1.0189e-06],
+        [ 8.3819e-08, -3.2596e-09,  7.7765e-08,  ...,  1.7043e-07,
+          4.6566e-10,  3.8184e-08]], device='cuda:0')
+Epoch 179, bias, value: tensor([-0.0220, -0.0236, -0.0374, -0.0031,  0.0042,  0.0392,  0.0183, -0.0135,
+         0.0027, -0.0076], device='cuda:0'), grad: tensor([ 7.5810e-07,  3.7486e-07, -1.8571e-06, -1.3001e-05, -4.1584e-07,
+         1.2495e-05, -2.0722e-07,  7.0920e-07,  1.9744e-07,  9.3039e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 178, time 214.02, cls_loss 0.0017 cls_loss_mapping 0.0033 cls_loss_causal 0.5210 re_mapping 0.0054 re_causal 0.0166 /// teacc 99.01 lr 0.00010000
+Epoch 180, weight, value: tensor([[ 0.0214, -0.0613, -0.0427,  ..., -0.1662, -0.0550, -0.1169],
+        [-0.0353, -0.0555, -0.0351,  ...,  0.0219,  0.0096, -0.1086],
+        [ 0.0336, -0.1058, -0.1067,  ...,  0.0199, -0.1382,  0.0611],
+        ...,
+        [-0.0030, -0.0196, -0.1374,  ..., -0.1190,  0.0232,  0.1207],
+        [ 0.0648, -0.0998, -0.0846,  ..., -0.1134, -0.0656, -0.0872],
+        [-0.1404,  0.0184,  0.1066,  ...,  0.0833, -0.0577, -0.1353]],
+       device='cuda:0'), grad: tensor([[ 1.0431e-07,  6.8452e-08,  9.6392e-08,  ...,  1.6810e-07,
+          0.0000e+00,  2.2165e-07],
+        [ 7.2783e-07, -1.5479e-06, -6.0163e-06,  ...,  1.0552e-06,
+          0.0000e+00, -1.1154e-05],
+        [ 7.2177e-08,  1.4808e-07,  4.5635e-08,  ...,  8.9873e-08,
+          0.0000e+00,  4.2142e-07],
+        ...,
+        [ 1.4435e-08,  1.4026e-06,  5.1633e-06,  ...,  6.0070e-08,
+          0.0000e+00,  9.4399e-06],
+        [-5.9940e-06,  2.0023e-07, -9.8534e-07,  ..., -8.7619e-06,
+          0.0000e+00,  1.0459e-06],
+        [ 3.9116e-07,  2.9337e-08,  4.3306e-08,  ...,  4.7125e-07,
+          0.0000e+00,  2.0163e-07]], device='cuda:0')
+Epoch 180, bias, value: tensor([-0.0224, -0.0227, -0.0375, -0.0028,  0.0040,  0.0390,  0.0189, -0.0152,
+         0.0029, -0.0071], device='cuda:0'), grad: tensor([ 1.6801e-06, -1.0002e-04,  1.6205e-06,  2.8089e-06,  6.8918e-08,
+         2.6509e-05,  6.7940e-07,  8.6129e-05, -2.2516e-05,  2.8759e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 179, time 214.09, cls_loss 0.0017 cls_loss_mapping 0.0029 cls_loss_causal 0.5163 re_mapping 0.0054 re_causal 0.0169 /// teacc 99.01 lr 0.00010000
+Epoch 181, weight, value: tensor([[ 0.0214, -0.0616, -0.0429,  ..., -0.1674, -0.0553, -0.1177],
+        [-0.0351, -0.0555, -0.0346,  ...,  0.0224,  0.0098, -0.1088],
+        [ 0.0338, -0.1061, -0.1072,  ...,  0.0196, -0.1385,  0.0608],
+        ...,
+        [-0.0032, -0.0197, -0.1382,  ..., -0.1192,  0.0230,  0.1212],
+        [ 0.0647, -0.1000, -0.0850,  ..., -0.1142, -0.0657, -0.0875],
+        [-0.1404,  0.0187,  0.1067,  ...,  0.0834, -0.0578, -0.1354]],
+       device='cuda:0'), grad: tensor([[ 6.0536e-09,  1.5553e-07,  6.2352e-07,  ...,  5.5367e-07,
+          0.0000e+00,  8.3819e-09],
+        [ 3.8184e-08,  2.1495e-06,  9.3207e-06,  ...,  8.9854e-06,
+          0.0000e+00,  1.3970e-08],
+        [ 2.8405e-08,  8.4285e-08,  3.5996e-07,  ...,  3.5483e-07,
+          0.0000e+00, -2.2817e-08],
+        ...,
+        [ 1.6298e-08,  2.9262e-06,  1.2137e-05,  ...,  1.1742e-05,
+          0.0000e+00,  1.2759e-07],
+        [-4.3586e-07,  8.3819e-08,  3.3341e-07,  ...,  3.2736e-07,
+          0.0000e+00,  9.7789e-09],
+        [ 1.1222e-07, -7.5661e-06, -3.5673e-05,  ..., -3.7044e-05,
+          0.0000e+00,  3.7719e-07]], device='cuda:0')
+Epoch 181, bias, value: tensor([-0.0225, -0.0224, -0.0378, -0.0027,  0.0041,  0.0391,  0.0180, -0.0153,
+         0.0027, -0.0071], device='cuda:0'), grad: tensor([ 1.1157e-06,  1.5840e-05,  7.3249e-07, -7.3109e-07,  1.7554e-05,
+         1.4398e-06,  2.4680e-08,  2.1115e-05, -1.6689e-06, -5.5522e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 180, time 213.80, cls_loss 0.0022 cls_loss_mapping 0.0029 cls_loss_causal 0.5353 re_mapping 0.0055 re_causal 0.0160 /// teacc 98.97 lr 0.00010000
+Epoch 182, weight, value: tensor([[ 0.0239, -0.0622, -0.0431,  ..., -0.1664, -0.0555, -0.1196],
+        [-0.0358, -0.0556, -0.0336,  ...,  0.0229,  0.0098, -0.1092],
+        [ 0.0338, -0.1064, -0.1079,  ...,  0.0213, -0.1388,  0.0612],
+        ...,
+        [-0.0035, -0.0196, -0.1389,  ..., -0.1195,  0.0239,  0.1217],
+        [ 0.0651, -0.1008, -0.0850,  ..., -0.1147, -0.0658, -0.0890],
+        [-0.1409,  0.0167,  0.1051,  ...,  0.0813, -0.0580, -0.1359]],
+       device='cuda:0'), grad: tensor([[ 2.5099e-07,  6.9849e-09,  2.4680e-07,  ...,  8.8941e-08,
+          0.0000e+00,  6.6124e-08],
+        [ 8.0559e-08,  4.1910e-08, -2.2398e-07,  ..., -2.1979e-07,
+         -3.7253e-09,  1.1735e-07],
+        [-1.3411e-07,  9.9186e-08,  1.2387e-07,  ..., -1.5739e-07,
+          0.0000e+00,  6.2864e-08],
+        ...,
+        [ 4.2841e-08, -3.1106e-07,  1.5646e-07,  ...,  1.6252e-07,
+          1.3970e-09, -7.9582e-07],
+        [-3.8594e-06,  6.6590e-08, -4.9314e-07,  ...,  2.8312e-07,
+          1.3970e-09,  1.2852e-07],
+        [ 2.9337e-07, -4.1910e-08, -9.9093e-07,  ..., -9.4902e-07,
+          4.6566e-10,  2.8498e-07]], device='cuda:0')
+Epoch 182, bias, value: tensor([-0.0218, -0.0223, -0.0376, -0.0017,  0.0059,  0.0390,  0.0162, -0.0153,
+         0.0026, -0.0088], device='cuda:0'), grad: tensor([ 9.5088e-07, -2.5192e-07,  1.5553e-07,  2.1607e-07,  1.7453e-06,
+         9.1968e-07,  5.1185e-06, -1.3374e-06, -7.5102e-06, -5.3085e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 181, time 213.66, cls_loss 0.0019 cls_loss_mapping 0.0036 cls_loss_causal 0.5292 re_mapping 0.0055 re_causal 0.0170 /// teacc 98.96 lr 0.00010000
+Epoch 183, weight, value: tensor([[ 0.0206, -0.0627, -0.0432,  ..., -0.1669, -0.0561, -0.1207],
+        [-0.0361, -0.0557, -0.0335,  ...,  0.0230,  0.0102, -0.1097],
+        [ 0.0338, -0.1066, -0.1085,  ...,  0.0213, -0.1393,  0.0610],
+        ...,
+        [-0.0037, -0.0194, -0.1392,  ..., -0.1195,  0.0240,  0.1225],
+        [ 0.0653, -0.1011, -0.0852,  ..., -0.1150, -0.0659, -0.0895],
+        [-0.1413,  0.0166,  0.1051,  ...,  0.0814, -0.0581, -0.1361]],
+       device='cuda:0'), grad: tensor([[ 2.8405e-07,  8.9407e-08,  8.5076e-07,  ...,  6.7707e-07,
+          0.0000e+00,  1.4668e-07],
+        [ 1.9064e-06,  1.0245e-07,  4.0196e-06,  ...,  2.6785e-06,
+          0.0000e+00,  2.1094e-07],
+        [ 9.3039e-07,  1.2480e-07,  2.5947e-06,  ...,  1.8440e-06,
+          0.0000e+00,  1.9046e-07],
+        ...,
+        [ 8.3819e-09,  1.1316e-07,  4.5542e-07,  ...,  5.7928e-07,
+          0.0000e+00, -2.0768e-07],
+        [-4.5449e-07,  2.3888e-07,  8.2189e-07,  ...,  1.0310e-06,
+          0.0000e+00,  2.3888e-07],
+        [ 6.7521e-08,  3.3388e-07,  1.4538e-06,  ...,  1.4435e-06,
+          0.0000e+00,  5.1875e-07]], device='cuda:0')
+Epoch 183, bias, value: tensor([-0.0247, -0.0223, -0.0380, -0.0017,  0.0057,  0.0390,  0.0193, -0.0150,
+         0.0025, -0.0088], device='cuda:0'), grad: tensor([ 2.3469e-06,  1.0073e-05,  6.1281e-06, -2.7893e-07,  5.1916e-05,
+         3.4720e-06, -8.0526e-05,  1.0245e-06,  7.4832e-07,  5.2378e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 182, time 213.95, cls_loss 0.0020 cls_loss_mapping 0.0035 cls_loss_causal 0.5297 re_mapping 0.0055 re_causal 0.0167 /// teacc 99.06 lr 0.00010000
+Epoch 184, weight, value: tensor([[ 0.0208, -0.0627, -0.0435,  ..., -0.1671, -0.0590, -0.1214],
+        [-0.0370, -0.0558, -0.0333,  ...,  0.0230,  0.0110, -0.1099],
+        [ 0.0334, -0.1070, -0.1098,  ...,  0.0224, -0.1410,  0.0616],
+        ...,
+        [-0.0039, -0.0195, -0.1399,  ..., -0.1197,  0.0238,  0.1228],
+        [ 0.0653, -0.1013, -0.0856,  ..., -0.1159, -0.0665, -0.0898],
+        [-0.1412,  0.0167,  0.1054,  ...,  0.0816, -0.0582, -0.1361]],
+       device='cuda:0'), grad: tensor([[-2.5425e-03,  4.7451e-07, -5.4926e-05,  ..., -1.8752e-04,
+          0.0000e+00,  3.0156e-06],
+        [ 8.2493e-04,  2.7940e-08,  1.7956e-05,  ...,  6.0856e-05,
+          0.0000e+00,  3.2177e-07],
+        [ 8.9332e-06,  3.2596e-08,  2.2072e-07,  ...,  7.0641e-07,
+          0.0000e+00, -7.9395e-07],
+        ...,
+        [ 2.0638e-06, -6.3377e-07,  8.0094e-08,  ...,  2.3795e-07,
+          0.0000e+00, -9.1493e-06],
+        [ 1.4663e-05,  5.4017e-08,  3.6927e-07,  ...,  1.2880e-06,
+          0.0000e+00,  8.9454e-07],
+        [ 1.4529e-06,  3.1851e-07,  9.1735e-08,  ...,  2.2491e-07,
+          0.0000e+00,  4.4294e-06]], device='cuda:0')
+Epoch 184, bias, value: tensor([-0.0245, -0.0223, -0.0378, -0.0022,  0.0056,  0.0391,  0.0193, -0.0151,
+         0.0023, -0.0085], device='cuda:0'), grad: tensor([-8.5220e-03,  2.7676e-03,  2.9355e-05,  1.9416e-05,  7.1600e-06,
+         5.8264e-06,  5.6381e-03, -8.6874e-06,  5.0217e-05,  1.2875e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 183, time 214.05, cls_loss 0.0023 cls_loss_mapping 0.0034 cls_loss_causal 0.4989 re_mapping 0.0053 re_causal 0.0153 /// teacc 99.05 lr 0.00010000
+Epoch 185, weight, value: tensor([[ 0.0215, -0.0634, -0.0435,  ..., -0.1661, -0.0618, -0.1250],
+        [-0.0397, -0.0552, -0.0331,  ...,  0.0233,  0.0146, -0.1088],
+        [ 0.0332, -0.1070, -0.1103,  ...,  0.0224, -0.1471,  0.0647],
+        ...,
+        [-0.0057, -0.0207, -0.1406,  ..., -0.1199,  0.0211,  0.1208],
+        [ 0.0676, -0.1012, -0.0856,  ..., -0.1165, -0.0674, -0.0901],
+        [-0.1422,  0.0169,  0.1056,  ...,  0.0818, -0.0600, -0.1365]],
+       device='cuda:0'), grad: tensor([[-8.8587e-06, -1.1055e-06,  5.8534e-07,  ...,  4.6473e-07,
+          6.9849e-09, -1.6037e-06],
+        [ 1.1446e-06,  6.3516e-07,  1.5981e-06,  ...,  1.3383e-06,
+          3.7253e-09,  5.3598e-07],
+        [ 1.7518e-06,  7.5204e-07,  6.4727e-07,  ...,  3.6601e-07,
+          1.7928e-07,  1.2992e-06],
+        ...,
+        [ 1.0645e-06,  7.1293e-07,  5.3458e-06,  ...,  4.6417e-06,
+         -3.6182e-07, -1.9837e-06],
+        [ 1.7779e-06,  3.1181e-06,  1.2159e-05,  ...,  1.0461e-05,
+          2.4214e-08,  9.1363e-07],
+        [ 1.8673e-06, -3.8177e-05, -1.8108e-04,  ..., -1.5628e-04,
+          2.1420e-08,  1.0114e-06]], device='cuda:0')
+Epoch 185, bias, value: tensor([-0.0236, -0.0220, -0.0351, -0.0021,  0.0054,  0.0391,  0.0183, -0.0172,
+         0.0029, -0.0085], device='cuda:0'), grad: tensor([-2.4542e-05,  6.3367e-06,  6.9700e-06,  4.2701e-07,  3.3832e-04,
+         4.8578e-06,  5.6066e-07,  1.0461e-05,  3.0786e-05, -3.7384e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 184, time 214.46, cls_loss 0.0018 cls_loss_mapping 0.0025 cls_loss_causal 0.4940 re_mapping 0.0058 re_causal 0.0159 /// teacc 98.87 lr 0.00010000
+Epoch 186, weight, value: tensor([[ 0.0215, -0.0636, -0.0436,  ..., -0.1663, -0.0639, -0.1257],
+        [-0.0399, -0.0553, -0.0332,  ...,  0.0234,  0.0158, -0.1087],
+        [ 0.0330, -0.1074, -0.1112,  ...,  0.0220, -0.1501,  0.0650],
+        ...,
+        [-0.0058, -0.0207, -0.1410,  ..., -0.1200,  0.0212,  0.1209],
+        [ 0.0676, -0.1019, -0.0860,  ..., -0.1175, -0.0684, -0.0909],
+        [-0.1430,  0.0170,  0.1055,  ...,  0.0816, -0.0598, -0.1369]],
+       device='cuda:0'), grad: tensor([[ 3.2689e-07,  1.6764e-08,  8.3167e-07,  ...,  6.0070e-08,
+          4.6566e-10,  3.4459e-08],
+        [ 3.0315e-07,  7.9162e-08,  6.5006e-07,  ..., -1.0245e-08,
+         -4.6566e-10,  1.6578e-07],
+        [ 5.1549e-07,  9.3132e-08,  1.1474e-06,  ...,  7.9162e-08,
+          0.0000e+00,  1.4855e-07],
+        ...,
+        [ 2.5611e-08, -1.1502e-07,  1.6950e-07,  ...,  1.3737e-07,
+          2.3283e-09, -3.9116e-07],
+        [ 1.1269e-07,  4.6566e-08,  4.5262e-07,  ...,  1.4901e-07,
+          8.8476e-09,  7.3109e-08],
+        [ 8.9873e-08, -5.2154e-08, -5.2154e-08,  ..., -7.3109e-08,
+          4.4703e-08,  7.6834e-08]], device='cuda:0')
+Epoch 186, bias, value: tensor([-0.0236, -0.0219, -0.0350, -0.0020,  0.0057,  0.0391,  0.0184, -0.0174,
+         0.0025, -0.0087], device='cuda:0'), grad: tensor([ 1.8198e-06,  1.7360e-06,  2.9542e-06, -1.7267e-06,  2.4840e-05,
+         5.0701e-06, -3.5882e-05, -2.7614e-07,  1.0012e-06,  4.8149e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 185, time 213.95, cls_loss 0.0015 cls_loss_mapping 0.0029 cls_loss_causal 0.5162 re_mapping 0.0055 re_causal 0.0170 /// teacc 98.97 lr 0.00010000
+Epoch 187, weight, value: tensor([[ 0.0215, -0.0666, -0.0442,  ..., -0.1681, -0.0644, -0.1261],
+        [-0.0400, -0.0554, -0.0333,  ...,  0.0233,  0.0158, -0.1089],
+        [ 0.0332, -0.1076, -0.1120,  ...,  0.0221, -0.1493,  0.0654],
+        ...,
+        [-0.0060, -0.0207, -0.1414,  ..., -0.1202,  0.0219,  0.1210],
+        [ 0.0675, -0.1024, -0.0863,  ..., -0.1181, -0.0690, -0.0913],
+        [-0.1430,  0.0172,  0.1056,  ...,  0.0817, -0.0598, -0.1370]],
+       device='cuda:0'), grad: tensor([[ 3.0315e-07,  2.7660e-07,  3.6089e-07,  ...,  1.9418e-07,
+          1.3970e-09,  4.7497e-08],
+        [ 1.2573e-08,  5.4017e-08,  1.9092e-08,  ..., -1.3504e-08,
+          0.0000e+00,  8.2422e-08],
+        [ 1.2573e-08,  1.1316e-07,  4.0513e-08,  ...,  4.1910e-09,
+          4.6566e-10,  1.1362e-07],
+        ...,
+        [ 2.7940e-09, -3.8184e-08,  1.5367e-08,  ...,  2.3749e-08,
+          0.0000e+00, -7.4040e-08],
+        [ 2.8405e-08,  3.0734e-08,  1.9092e-08,  ...,  7.1712e-08,
+          4.6566e-10,  7.6834e-08],
+        [ 4.8429e-08,  3.2596e-09,  3.3993e-08,  ...,  4.6566e-08,
+          0.0000e+00,  1.8161e-08]], device='cuda:0')
+Epoch 187, bias, value: tensor([-0.0237, -0.0219, -0.0351, -0.0020,  0.0059,  0.0390,  0.0185, -0.0174,
+         0.0026, -0.0087], device='cuda:0'), grad: tensor([ 1.2722e-06,  1.7649e-07,  2.1420e-07, -3.8231e-07,  1.5134e-07,
+         7.2597e-07, -2.6841e-06, -8.2422e-08,  2.7940e-07,  3.2829e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 186, time 213.97, cls_loss 0.0018 cls_loss_mapping 0.0032 cls_loss_causal 0.4896 re_mapping 0.0057 re_causal 0.0159 /// teacc 98.95 lr 0.00010000
+Epoch 188, weight, value: tensor([[ 0.0215, -0.0666, -0.0444,  ..., -0.1687, -0.0687, -0.1264],
+        [-0.0401, -0.0555, -0.0332,  ...,  0.0235,  0.0175, -0.1096],
+        [ 0.0331, -0.1083, -0.1135,  ...,  0.0223, -0.1522,  0.0652],
+        ...,
+        [-0.0061, -0.0205, -0.1429,  ..., -0.1206,  0.0215,  0.1216],
+        [ 0.0674, -0.1028, -0.0868,  ..., -0.1189, -0.0697, -0.0916],
+        [-0.1432,  0.0172,  0.1056,  ...,  0.0816, -0.0592, -0.1371]],
+       device='cuda:0'), grad: tensor([[-3.2000e-06, -1.1213e-06,  2.3283e-08,  ...,  1.9092e-08,
+          1.5832e-08,  1.6298e-07],
+        [ 1.3504e-07,  3.0687e-07,  6.3330e-08,  ...,  3.3528e-08,
+          3.8184e-08,  4.7544e-07],
+        [ 3.0827e-07,  2.3842e-07,  2.5611e-08,  ...,  1.5832e-08,
+          1.4435e-08, -4.9500e-07],
+        ...,
+        [ 6.2864e-08, -7.4692e-07,  1.0384e-07,  ...,  6.4727e-08,
+         -3.9116e-08, -1.0543e-06],
+        [ 8.9360e-07, -9.8627e-07,  1.9092e-08,  ...,  2.2445e-07,
+         -2.2771e-07, -1.5153e-06],
+        [ 4.4098e-07,  3.5670e-07,  2.0023e-07,  ...,  2.7241e-07,
+          9.0338e-08,  3.0547e-07]], device='cuda:0')
+Epoch 188, bias, value: tensor([-0.0238, -0.0219, -0.0355, -0.0020,  0.0066,  0.0389,  0.0186, -0.0176,
+         0.0023, -0.0086], device='cuda:0'), grad: tensor([-9.8050e-06,  1.6224e-06,  6.0117e-07,  5.8636e-06, -1.3504e-06,
+         5.1744e-06,  1.3579e-06, -1.6373e-06, -4.6194e-06,  2.8014e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 187, time 214.01, cls_loss 0.0021 cls_loss_mapping 0.0038 cls_loss_causal 0.5346 re_mapping 0.0055 re_causal 0.0159 /// teacc 99.09 lr 0.00010000
+Epoch 189, weight, value: tensor([[ 0.0215, -0.0678, -0.0446,  ..., -0.1691, -0.0733, -0.1272],
+        [-0.0400, -0.0556, -0.0328,  ...,  0.0237,  0.0180, -0.1101],
+        [ 0.0330, -0.1095, -0.1143,  ...,  0.0233, -0.1494,  0.0660],
+        ...,
+        [-0.0063, -0.0205, -0.1438,  ..., -0.1210,  0.0207,  0.1219],
+        [ 0.0673, -0.1043, -0.0871,  ..., -0.1197, -0.0705, -0.0934],
+        [-0.1442,  0.0172,  0.1053,  ...,  0.0813, -0.0608, -0.1374]],
+       device='cuda:0'), grad: tensor([[-5.1670e-06, -3.9265e-06, -1.5236e-06,  ...,  9.8255e-08,
+          3.2596e-09,  8.3353e-08],
+        [ 2.9430e-07,  2.4959e-07,  2.9057e-07,  ..., -7.4040e-08,
+          1.5367e-08,  1.9046e-07],
+        [ 1.7136e-07,  1.3644e-07,  2.4587e-07,  ...,  3.6322e-08,
+          1.3970e-08, -4.8196e-07],
+        ...,
+        [ 6.4727e-08,  1.5879e-07,  8.7358e-07,  ...,  6.1467e-07,
+         -3.6787e-08, -3.6322e-08],
+        [ 2.3283e-06,  1.3905e-06,  1.9409e-06,  ...,  4.5495e-07,
+          3.2596e-09,  1.0291e-07],
+        [ 2.5071e-06, -6.4634e-07, -9.3505e-06,  ..., -6.7428e-06,
+          6.5193e-09,  5.4017e-08]], device='cuda:0')
+Epoch 189, bias, value: tensor([-0.0238, -0.0219, -0.0350, -0.0027,  0.0071,  0.0393,  0.0186, -0.0175,
+         0.0018, -0.0091], device='cuda:0'), grad: tensor([-1.8805e-05,  1.3877e-06, -2.5285e-07,  1.5888e-06,  1.6883e-05,
+        -9.8627e-07, -1.1139e-06,  1.8561e-06,  8.9407e-06, -9.4846e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 188, time 214.13, cls_loss 0.0014 cls_loss_mapping 0.0019 cls_loss_causal 0.5275 re_mapping 0.0054 re_causal 0.0163 /// teacc 99.06 lr 0.00010000
+Epoch 190, weight, value: tensor([[ 0.0215, -0.0679, -0.0446,  ..., -0.1695, -0.0741, -0.1280],
+        [-0.0400, -0.0557, -0.0324,  ...,  0.0240,  0.0180, -0.1103],
+        [ 0.0330, -0.1101, -0.1151,  ...,  0.0231, -0.1493,  0.0664],
+        ...,
+        [-0.0065, -0.0208, -0.1444,  ..., -0.1212,  0.0206,  0.1220],
+        [ 0.0674, -0.1044, -0.0872,  ..., -0.1202, -0.0712, -0.0939],
+        [-0.1448,  0.0178,  0.1057,  ...,  0.0818, -0.0612, -0.1375]],
+       device='cuda:0'), grad: tensor([[ 2.0582e-07,  1.5832e-07,  5.4110e-07,  ...,  6.0070e-07,
+          1.0245e-08,  9.5926e-08],
+        [ 8.0559e-08, -4.8382e-07, -1.9148e-06,  ..., -1.6615e-06,
+          1.8813e-07,  9.3225e-07],
+        [ 7.1246e-08,  5.6997e-07,  7.4971e-08,  ...,  1.4855e-07,
+          3.1665e-08,  3.0492e-06],
+        ...,
+        [-3.0268e-08, -3.8976e-07,  1.3029e-06,  ...,  1.2880e-06,
+         -5.1502e-07, -4.6268e-06],
+        [ 5.9884e-07,  4.3726e-07,  8.3121e-07,  ...,  4.2468e-06,
+          1.7695e-08,  4.6380e-07],
+        [ 6.5193e-08,  2.9849e-07, -2.0899e-06,  ..., -1.4883e-06,
+          9.1735e-08,  1.4249e-06]], device='cuda:0')
+Epoch 190, bias, value: tensor([-0.0239, -0.0218, -0.0347, -0.0024,  0.0067,  0.0393,  0.0185, -0.0177,
+         0.0017, -0.0088], device='cuda:0'), grad: tensor([ 1.9614e-06, -3.4552e-06,  5.9716e-06,  1.8075e-05,  2.0973e-06,
+        -2.0221e-05, -8.5309e-06, -4.8913e-06,  9.4548e-06, -4.9686e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 189, time 214.04, cls_loss 0.0020 cls_loss_mapping 0.0040 cls_loss_causal 0.5079 re_mapping 0.0055 re_causal 0.0154 /// teacc 98.84 lr 0.00010000
+Epoch 191, weight, value: tensor([[ 0.0215, -0.0677, -0.0447,  ..., -0.1703, -0.0773, -0.1283],
+        [-0.0412, -0.0547, -0.0307,  ...,  0.0252,  0.0180, -0.1104],
+        [ 0.0323, -0.1106, -0.1168,  ...,  0.0225, -0.1496,  0.0663],
+        ...,
+        [-0.0066, -0.0210, -0.1467,  ..., -0.1226,  0.0214,  0.1224],
+        [ 0.0665, -0.1047, -0.0890,  ..., -0.1212, -0.0714, -0.0943],
+        [-0.1459,  0.0183,  0.1062,  ...,  0.0823, -0.0616, -0.1380]],
+       device='cuda:0'), grad: tensor([[ 6.4354e-07,  6.5193e-09,  5.4948e-07,  ...,  1.0245e-08,
+          3.8184e-08,  4.5449e-07],
+        [ 9.9652e-08,  8.6613e-08, -6.7055e-08,  ..., -1.4342e-07,
+          2.5891e-07,  1.3718e-06],
+        [ 8.9221e-07,  2.6077e-08,  7.3854e-07,  ...,  9.3132e-10,
+          7.7579e-07,  1.0887e-06],
+        ...,
+        [ 7.2643e-08, -8.0280e-07,  1.1548e-07,  ...,  8.2888e-08,
+         -1.1921e-06, -3.5297e-06],
+        [-2.9355e-06,  5.4017e-08, -2.3562e-06,  ...,  3.0734e-08,
+          4.5635e-08, -1.0217e-06],
+        [ 1.3225e-07,  6.0070e-07,  1.8626e-08,  ..., -9.2201e-08,
+          3.2596e-08,  9.0525e-07]], device='cuda:0')
+Epoch 191, bias, value: tensor([-0.0238, -0.0218, -0.0355, -0.0025,  0.0060,  0.0391,  0.0196, -0.0179,
+         0.0015, -0.0088], device='cuda:0'), grad: tensor([ 4.7646e-06,  3.3751e-06,  7.7710e-06,  3.6135e-06,  3.5837e-06,
+         4.4424e-07,  6.3237e-07, -8.6650e-06, -1.9357e-05,  3.8128e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 190, time 213.74, cls_loss 0.0016 cls_loss_mapping 0.0030 cls_loss_causal 0.5065 re_mapping 0.0055 re_causal 0.0162 /// teacc 98.98 lr 0.00010000
+Epoch 192, weight, value: tensor([[ 0.0215, -0.0678, -0.0448,  ..., -0.1708, -0.0784, -0.1296],
+        [-0.0415, -0.0541, -0.0298,  ...,  0.0261,  0.0179, -0.1104],
+        [ 0.0323, -0.1108, -0.1174,  ...,  0.0229, -0.1497,  0.0667],
+        ...,
+        [-0.0067, -0.0214, -0.1480,  ..., -0.1234,  0.0215,  0.1224],
+        [ 0.0673, -0.1048, -0.0891,  ..., -0.1215, -0.0713, -0.0951],
+        [-0.1465,  0.0184,  0.1059,  ...,  0.0817, -0.0638, -0.1382]],
+       device='cuda:0'), grad: tensor([[-2.1607e-05, -3.6601e-06,  2.4401e-07,  ...,  1.7136e-07,
+          2.8685e-07,  5.1409e-07],
+        [ 5.1502e-07,  6.9104e-07,  1.1744e-06,  ...,  7.8604e-07,
+          6.7521e-07,  7.5251e-07],
+        [ 2.3078e-06,  4.5542e-07,  2.3656e-07,  ...,  1.9372e-07,
+          2.0489e-08, -2.5854e-06],
+        ...,
+        [-9.5740e-07, -3.5241e-06,  8.7544e-08,  ..., -5.7835e-07,
+         -4.0755e-06, -3.6396e-06],
+        [ 8.4285e-07,  3.1292e-07,  2.0117e-07,  ...,  2.7474e-07,
+          1.8440e-07,  4.6380e-07],
+        [ 6.1654e-06,  3.2932e-06,  3.4180e-07,  ...,  7.8324e-07,
+          2.7213e-06,  2.4512e-06]], device='cuda:0')
+Epoch 192, bias, value: tensor([-0.0238, -0.0215, -0.0355, -0.0036,  0.0065,  0.0390,  0.0197, -0.0183,
+         0.0023, -0.0093], device='cuda:0'), grad: tensor([-5.6982e-05,  5.9493e-06,  2.6114e-06,  3.7402e-06, -6.3665e-06,
+         2.6479e-05,  9.2015e-06, -1.3612e-05,  3.8520e-06,  2.5153e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 191, time 214.20, cls_loss 0.0016 cls_loss_mapping 0.0037 cls_loss_causal 0.4969 re_mapping 0.0061 re_causal 0.0162 /// teacc 98.98 lr 0.00010000
+Epoch 193, weight, value: tensor([[ 0.0213, -0.0679, -0.0450,  ..., -0.1712, -0.0818, -0.1304],
+        [-0.0418, -0.0543, -0.0299,  ...,  0.0262,  0.0175, -0.1106],
+        [ 0.0321, -0.1109, -0.1179,  ...,  0.0228, -0.1495,  0.0680],
+        ...,
+        [-0.0067, -0.0210, -0.1482,  ..., -0.1234,  0.0240,  0.1227],
+        [ 0.0673, -0.1052, -0.0893,  ..., -0.1217, -0.0711, -0.0955],
+        [-0.1479,  0.0184,  0.1059,  ...,  0.0816, -0.0669, -0.1391]],
+       device='cuda:0'), grad: tensor([[-4.0978e-07,  1.5832e-08,  4.7404e-07,  ...,  1.6391e-07,
+          2.1420e-08,  4.7497e-08],
+        [ 1.4901e-08,  6.7055e-08, -6.4075e-07,  ..., -1.1250e-06,
+         -4.1630e-07,  1.8906e-07],
+        [ 6.8918e-08,  3.5390e-08,  2.5053e-07,  ...,  9.1270e-08,
+          1.7695e-08,  7.7300e-08],
+        ...,
+        [ 5.5879e-09, -7.8231e-08,  4.2282e-07,  ...,  6.5938e-07,
+          2.3376e-07, -1.6019e-07],
+        [ 2.7940e-08,  4.7497e-08,  1.7509e-07,  ...,  2.5146e-07,
+          5.7742e-08,  1.1642e-07],
+        [ 4.0885e-07,  7.4506e-09,  1.8440e-07,  ...,  1.4622e-07,
+          5.6811e-08,  1.1921e-07]], device='cuda:0')
+Epoch 193, bias, value: tensor([-0.0241, -0.0215, -0.0350, -0.0040,  0.0064,  0.0390,  0.0203, -0.0181,
+         0.0023, -0.0097], device='cuda:0'), grad: tensor([-7.7114e-07, -2.4568e-06,  9.2201e-07, -1.3066e-06,  2.5146e-07,
+         1.9334e-06, -3.3975e-06,  1.6131e-06,  7.7393e-07,  2.4177e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 192, time 213.82, cls_loss 0.0020 cls_loss_mapping 0.0050 cls_loss_causal 0.5192 re_mapping 0.0054 re_causal 0.0162 /// teacc 98.95 lr 0.00010000
+Epoch 194, weight, value: tensor([[ 0.0213, -0.0681, -0.0453,  ..., -0.1716, -0.0822, -0.1310],
+        [-0.0419, -0.0546, -0.0322,  ...,  0.0262,  0.0160, -0.1154],
+        [ 0.0321, -0.1115, -0.1191,  ...,  0.0226, -0.1492,  0.0682],
+        ...,
+        [-0.0067, -0.0208, -0.1459,  ..., -0.1238,  0.0257,  0.1274],
+        [ 0.0671, -0.1059, -0.0897,  ..., -0.1225, -0.0724, -0.0969],
+        [-0.1483,  0.0187,  0.1063,  ...,  0.0819, -0.0670, -0.1393]],
+       device='cuda:0'), grad: tensor([[-9.3132e-09,  3.7253e-09,  1.0710e-07,  ...,  4.0978e-08,
+          9.3132e-09,  4.6566e-08],
+        [ 1.3970e-08,  1.3039e-08, -2.3544e-06,  ..., -6.9477e-07,
+          2.1979e-07,  7.3109e-07],
+        [ 1.1176e-08,  2.4214e-08,  1.5553e-07,  ...,  6.1467e-08,
+          5.4948e-08,  2.7847e-07],
+        ...,
+        [ 1.8626e-09, -2.6077e-08,  3.1386e-07,  ...,  4.9733e-07,
+         -5.0850e-06, -1.5870e-05],
+        [ 8.3819e-09,  2.7940e-08,  5.2527e-07,  ...,  1.7229e-07,
+          1.8347e-07,  6.7800e-07],
+        [ 1.8626e-08,  9.3132e-10,  1.6950e-07,  ..., -3.5390e-08,
+          2.7940e-08,  1.3504e-07]], device='cuda:0')
+Epoch 194, bias, value: tensor([-0.0241, -0.0251, -0.0350, -0.0042,  0.0062,  0.0389,  0.0204, -0.0142,
+         0.0021, -0.0093], device='cuda:0'), grad: tensor([ 3.4086e-07, -5.4538e-06,  1.2424e-06, -9.1922e-07,  4.6015e-05,
+         1.3243e-06,  5.4948e-07, -4.7475e-05,  3.3118e-06,  1.0179e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 193, time 214.02, cls_loss 0.0013 cls_loss_mapping 0.0031 cls_loss_causal 0.4919 re_mapping 0.0053 re_causal 0.0160 /// teacc 98.95 lr 0.00010000
+Epoch 195, weight, value: tensor([[ 0.0213, -0.0684, -0.0456,  ..., -0.1721, -0.0823, -0.1317],
+        [-0.0420, -0.0547, -0.0322,  ...,  0.0263,  0.0161, -0.1155],
+        [ 0.0320, -0.1117, -0.1231,  ...,  0.0202, -0.1493,  0.0680],
+        ...,
+        [-0.0069, -0.0207, -0.1460,  ..., -0.1239,  0.0264,  0.1275],
+        [ 0.0681, -0.1062, -0.0902,  ..., -0.1227, -0.0728, -0.0974],
+        [-0.1485,  0.0190,  0.1068,  ...,  0.0822, -0.0676, -0.1396]],
+       device='cuda:0'), grad: tensor([[ 1.3039e-08,  8.3819e-09,  1.1362e-07,  ...,  2.2352e-08,
+          9.3132e-10,  1.5274e-07],
+        [ 5.5879e-09,  1.4622e-07, -4.3437e-06,  ..., -5.0291e-08,
+         -3.7253e-09,  2.3711e-06],
+        [-2.0489e-08,  4.7963e-07,  1.8347e-07,  ...,  3.8184e-08,
+          9.3132e-10,  7.6368e-06],
+        ...,
+        [ 1.3039e-08, -8.0839e-07,  2.7604e-06,  ...,  1.0151e-07,
+         -1.8626e-09, -1.3202e-05],
+        [-2.7008e-08,  8.4750e-08,  6.0815e-07,  ...,  8.3819e-08,
+          9.3132e-10,  1.5022e-06],
+        [ 1.9558e-08,  6.1467e-08,  2.5053e-07,  ..., -6.5193e-09,
+          9.3132e-10,  1.0561e-06]], device='cuda:0')
+Epoch 195, bias, value: tensor([-0.0241, -0.0251, -0.0356, -0.0040,  0.0063,  0.0387,  0.0204, -0.0141,
+         0.0022, -0.0091], device='cuda:0'), grad: tensor([ 6.0908e-07, -1.0274e-05,  1.4514e-05,  6.1933e-07,  1.4370e-06,
+         4.9453e-07,  3.8277e-07, -1.5184e-05,  4.5262e-06,  2.8349e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 194, time 214.20, cls_loss 0.0015 cls_loss_mapping 0.0025 cls_loss_causal 0.4883 re_mapping 0.0053 re_causal 0.0153 /// teacc 99.06 lr 0.00010000
+Epoch 196, weight, value: tensor([[ 0.0213, -0.0687, -0.0458,  ..., -0.1725, -0.0826, -0.1324],
+        [-0.0422, -0.0548, -0.0321,  ...,  0.0264,  0.0170, -0.1155],
+        [ 0.0323, -0.1122, -0.1241,  ...,  0.0210, -0.1500,  0.0682],
+        ...,
+        [-0.0071, -0.0223, -0.1470,  ..., -0.1247,  0.0265,  0.1276],
+        [ 0.0681, -0.1067, -0.0904,  ..., -0.1232, -0.0733, -0.0986],
+        [-0.1490,  0.0204,  0.1074,  ...,  0.0826, -0.0679, -0.1399]],
+       device='cuda:0'), grad: tensor([[-6.9477e-07,  5.7742e-07,  3.1758e-07,  ...,  5.8860e-07,
+          1.8626e-09,  1.4715e-07],
+        [ 4.5635e-08,  1.5460e-07, -1.6391e-07,  ..., -3.9767e-07,
+         -1.4249e-07,  4.1910e-08],
+        [ 1.1642e-07,  3.3528e-08,  1.8347e-07,  ...,  6.8918e-08,
+          8.3819e-09, -8.5682e-08],
+        ...,
+        [ 2.4214e-08,  5.9456e-06,  5.7407e-06,  ...,  6.0312e-06,
+          8.2888e-08,  8.3353e-07],
+        [-2.7008e-07,  1.7975e-07,  3.9395e-07,  ...,  4.8708e-07,
+          1.2107e-08,  1.2759e-07],
+        [ 2.2072e-07, -7.9721e-06, -7.1973e-06,  ..., -7.1824e-06,
+          2.0489e-08, -1.2033e-06]], device='cuda:0')
+Epoch 196, bias, value: tensor([-0.0242, -0.0250, -0.0366, -0.0032,  0.0063,  0.0385,  0.0205, -0.0146,
+         0.0019, -0.0080], device='cuda:0'), grad: tensor([-1.3653e-06, -6.9663e-07,  9.3691e-07,  4.5523e-06,  2.7288e-07,
+        -6.8452e-07,  1.6093e-06,  2.4900e-05,  4.1723e-07, -2.9922e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 195, time 213.83, cls_loss 0.0020 cls_loss_mapping 0.0039 cls_loss_causal 0.5144 re_mapping 0.0052 re_causal 0.0150 /// teacc 99.05 lr 0.00010000
+Epoch 197, weight, value: tensor([[ 0.0214, -0.0695, -0.0459,  ..., -0.1729, -0.0828, -0.1330],
+        [-0.0424, -0.0541, -0.0317,  ...,  0.0265,  0.0201, -0.1153],
+        [ 0.0321, -0.1138, -0.1260,  ...,  0.0206, -0.1501,  0.0675],
+        ...,
+        [-0.0072, -0.0227, -0.1473,  ..., -0.1248,  0.0236,  0.1277],
+        [ 0.0667, -0.1070, -0.0905,  ..., -0.1237, -0.0741, -0.0981],
+        [-0.1504,  0.0205,  0.1077,  ...,  0.0826, -0.0681, -0.1402]],
+       device='cuda:0'), grad: tensor([[ 7.3388e-06,  1.1131e-05,  1.8328e-05,  ...,  1.2107e-08,
+          5.5879e-09,  2.4494e-07],
+        [ 7.2643e-08,  1.4249e-07,  7.7300e-08,  ..., -2.7008e-08,
+          9.3132e-10,  2.1048e-07],
+        [ 4.4703e-08,  8.1956e-08,  4.2841e-08,  ..., -2.7940e-08,
+          9.3132e-10, -2.8480e-06],
+        ...,
+        [ 8.4750e-08,  1.1083e-07,  5.0291e-08,  ...,  5.4948e-08,
+         -0.0000e+00,  2.5369e-06],
+        [-1.5739e-07,  2.3283e-07,  1.9744e-07,  ...,  5.0291e-08,
+          9.3132e-10,  3.6974e-07],
+        [ 9.6858e-08,  1.0710e-07, -1.8626e-09,  ...,  9.3132e-09,
+          9.3132e-10,  1.6857e-07]], device='cuda:0')
+Epoch 197, bias, value: tensor([-0.0242, -0.0244, -0.0378, -0.0037,  0.0059,  0.0390,  0.0205, -0.0149,
+         0.0019, -0.0082], device='cuda:0'), grad: tensor([ 3.9756e-05,  7.0222e-07, -3.8594e-06, -8.4996e-05,  1.4957e-06,
+         8.3685e-05, -4.2200e-05,  4.3139e-06,  3.6508e-07,  7.3109e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 196, time 213.96, cls_loss 0.0014 cls_loss_mapping 0.0025 cls_loss_causal 0.5296 re_mapping 0.0054 re_causal 0.0164 /// teacc 99.02 lr 0.00010000
+Epoch 198, weight, value: tensor([[ 0.0211, -0.0704, -0.0464,  ..., -0.1734, -0.0835, -0.1343],
+        [-0.0425, -0.0541, -0.0317,  ...,  0.0266,  0.0202, -0.1154],
+        [ 0.0322, -0.1138, -0.1271,  ...,  0.0202, -0.1502,  0.0681],
+        ...,
+        [-0.0074, -0.0227, -0.1475,  ..., -0.1251,  0.0236,  0.1277],
+        [ 0.0672, -0.1073, -0.0908,  ..., -0.1238, -0.0743, -0.0986],
+        [-0.1506,  0.0206,  0.1083,  ...,  0.0830, -0.0682, -0.1405]],
+       device='cuda:0'), grad: tensor([[-8.3819e-08,  6.6124e-08,  3.1665e-08,  ...,  2.8871e-08,
+          4.6566e-09,  1.9185e-07],
+        [ 1.5832e-08,  2.3097e-07, -3.4552e-07,  ..., -4.3586e-07,
+         -1.3039e-07,  4.4703e-07],
+        [ 1.6764e-08,  3.7905e-07,  1.2107e-08,  ...,  1.5832e-08,
+          1.8626e-09, -6.7614e-07],
+        ...,
+        [ 1.5832e-08,  3.1386e-07,  2.3842e-07,  ...,  3.0547e-07,
+          9.8720e-08,  1.8151e-06],
+        [ 2.2538e-07,  2.4121e-07,  3.1665e-08,  ...,  4.7963e-07,
+          9.3132e-09,  5.5134e-07],
+        [ 5.5879e-08,  4.7497e-08,  2.1420e-08,  ...,  8.1025e-08,
+          6.5193e-09,  1.0617e-07]], device='cuda:0')
+Epoch 198, bias, value: tensor([-0.0245, -0.0244, -0.0375, -0.0036,  0.0054,  0.0389,  0.0207, -0.0150,
+         0.0020, -0.0079], device='cuda:0'), grad: tensor([ 1.5646e-07, -3.5577e-07, -7.1339e-07, -6.7465e-06,  6.7987e-08,
+         5.8860e-07,  2.0862e-07,  4.3735e-06,  1.9334e-06,  4.9733e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 197, time 213.95, cls_loss 0.0027 cls_loss_mapping 0.0034 cls_loss_causal 0.5373 re_mapping 0.0052 re_causal 0.0158 /// teacc 99.06 lr 0.00010000
+Epoch 199, weight, value: tensor([[ 0.0212, -0.0706, -0.0475,  ..., -0.1759, -0.0836, -0.1351],
+        [-0.0425, -0.0542, -0.0308,  ...,  0.0287,  0.0237, -0.1173],
+        [ 0.0321, -0.1137, -0.1293,  ...,  0.0177, -0.1498,  0.0682],
+        ...,
+        [-0.0075, -0.0227, -0.1486,  ..., -0.1272,  0.0204,  0.1292],
+        [ 0.0671, -0.1081, -0.0916,  ..., -0.1247, -0.0759, -0.0963],
+        [-0.1510,  0.0206,  0.1092,  ...,  0.0837, -0.0687, -0.1403]],
+       device='cuda:0'), grad: tensor([[-2.6077e-08,  6.5193e-09,  1.0431e-07,  ...,  7.3574e-08,
+          4.6566e-09,  8.6613e-08],
+        [ 5.4948e-08,  7.4506e-09, -5.0012e-07,  ..., -5.2061e-07,
+         -1.5739e-07,  4.4703e-08],
+        [ 1.4901e-08,  2.0489e-08,  2.0489e-08,  ...,  1.2107e-08,
+          1.8626e-09,  5.1223e-08],
+        ...,
+        [ 1.4901e-08, -3.9116e-08,  3.4552e-07,  ...,  4.3400e-07,
+          8.9407e-08,  1.5087e-07],
+        [-5.4669e-07,  1.0151e-07,  2.2817e-07,  ...,  5.8860e-07,
+          1.0990e-07,  1.3020e-06],
+        [ 1.2107e-07,  1.2107e-08,  2.6915e-07,  ...,  6.3796e-07,
+          2.8871e-08,  6.5193e-08]], device='cuda:0')
+Epoch 199, bias, value: tensor([-0.0246, -0.0262, -0.0380, -0.0026,  0.0052,  0.0385,  0.0206, -0.0135,
+         0.0030, -0.0070], device='cuda:0'), grad: tensor([-5.7928e-07, -1.0869e-06,  3.1013e-07, -5.0962e-06, -2.9616e-07,
+         4.2841e-07,  9.8813e-07,  1.2843e-06,  1.6680e-06,  2.3581e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 198, time 214.35, cls_loss 0.0016 cls_loss_mapping 0.0032 cls_loss_causal 0.5104 re_mapping 0.0051 re_causal 0.0151 /// teacc 99.04 lr 0.00010000
+Epoch 200, weight, value: tensor([[ 0.0213, -0.0719, -0.0479,  ..., -0.1766, -0.0836, -0.1358],
+        [-0.0426, -0.0542, -0.0306,  ...,  0.0289,  0.0245, -0.1171],
+        [ 0.0319, -0.1138, -0.1301,  ...,  0.0179, -0.1503,  0.0690],
+        ...,
+        [-0.0076, -0.0225, -0.1489,  ..., -0.1275,  0.0199,  0.1290],
+        [ 0.0673, -0.1084, -0.0921,  ..., -0.1252, -0.0767, -0.0973],
+        [-0.1517,  0.0206,  0.1093,  ...,  0.0833, -0.0696, -0.1408]],
+       device='cuda:0'), grad: tensor([[-6.5565e-07,  2.2352e-08,  3.6694e-07,  ...,  3.2317e-07,
+          1.1176e-08,  1.0151e-07],
+        [ 5.0757e-07,  5.9605e-08, -1.3132e-07,  ...,  1.5609e-06,
+          9.3132e-09,  1.0757e-06],
+        [-6.2771e-07,  2.3283e-08,  6.5006e-07,  ..., -2.2259e-06,
+          1.8626e-08, -1.4156e-06],
+        ...,
+        [ 2.7008e-08,  3.1665e-08,  1.8505e-06,  ...,  1.0794e-06,
+          3.9116e-08,  5.5879e-08],
+        [ 4.2003e-07,  1.1548e-07,  1.0990e-06,  ...,  1.2983e-06,
+          3.2596e-08,  2.3004e-07],
+        [ 1.7509e-07,  5.6811e-08, -1.0125e-05,  ..., -5.0627e-06,
+         -2.9895e-07,  9.4064e-08]], device='cuda:0')
+Epoch 200, bias, value: tensor([-0.0245, -0.0256, -0.0375, -0.0029,  0.0053,  0.0387,  0.0205, -0.0141,
+         0.0026, -0.0074], device='cuda:0'), grad: tensor([-1.4119e-06,  4.4890e-06, -5.5730e-06, -1.2387e-07,  2.7083e-06,
+        -5.3868e-06,  1.4357e-05,  4.0829e-06,  4.5188e-06, -1.7688e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 199, time 214.07, cls_loss 0.0016 cls_loss_mapping 0.0020 cls_loss_causal 0.5074 re_mapping 0.0052 re_causal 0.0154 /// teacc 99.10 lr 0.00010000
+Epoch 201, weight, value: tensor([[ 0.0215, -0.0700, -0.0480,  ..., -0.1772, -0.0837, -0.1368],
+        [-0.0427, -0.0540, -0.0303,  ...,  0.0292,  0.0246, -0.1174],
+        [ 0.0319, -0.1139, -0.1300,  ...,  0.0187, -0.1504,  0.0699],
+        ...,
+        [-0.0078, -0.0227, -0.1493,  ..., -0.1280,  0.0198,  0.1292],
+        [ 0.0675, -0.1087, -0.0925,  ..., -0.1257, -0.0771, -0.0976],
+        [-0.1520,  0.0207,  0.1095,  ...,  0.0834, -0.0702, -0.1410]],
+       device='cuda:0'), grad: tensor([[ 2.6077e-08,  3.7253e-09,  3.1665e-08,  ...,  4.3772e-08,
+          0.0000e+00,  5.2154e-08],
+        [ 6.5193e-09,  8.3819e-09, -8.1956e-08,  ..., -2.0768e-07,
+          9.3132e-10,  6.9849e-08],
+        [-7.6368e-08,  9.3132e-09,  2.5146e-08,  ...,  2.7940e-08,
+          0.0000e+00, -1.4845e-06],
+        ...,
+        [ 3.6322e-08,  1.7695e-08,  2.5705e-07,  ...,  3.4645e-07,
+         -9.3132e-10,  8.6147e-07],
+        [ 4.9360e-08,  3.4459e-08,  1.0803e-07,  ...,  1.3504e-07,
+          1.8626e-09,  3.7905e-07],
+        [ 2.4214e-08, -2.6431e-06, -2.4617e-05,  ..., -1.7554e-05,
+          3.7253e-09,  2.8871e-08]], device='cuda:0')
+Epoch 201, bias, value: tensor([-0.0242, -0.0257, -0.0370, -0.0029,  0.0053,  0.0388,  0.0201, -0.0140,
+         0.0025, -0.0074], device='cuda:0'), grad: tensor([ 1.6764e-07, -5.0943e-07, -1.7853e-06, -5.6345e-07,  2.8744e-05,
+        -2.9840e-06,  3.3602e-06,  1.8440e-06,  8.4378e-07, -2.9117e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 200, time 214.06, cls_loss 0.0018 cls_loss_mapping 0.0033 cls_loss_causal 0.5030 re_mapping 0.0054 re_causal 0.0155 /// teacc 99.06 lr 0.00010000
+Epoch 202, weight, value: tensor([[ 0.0215, -0.0706, -0.0481,  ..., -0.1777, -0.0838, -0.1379],
+        [-0.0435, -0.0541, -0.0299,  ...,  0.0295,  0.0247, -0.1176],
+        [ 0.0331, -0.1160, -0.1308,  ...,  0.0189, -0.1506,  0.0701],
+        ...,
+        [-0.0082, -0.0230, -0.1496,  ..., -0.1282,  0.0202,  0.1294],
+        [ 0.0676, -0.1095, -0.0930,  ..., -0.1264, -0.0778, -0.0983],
+        [-0.1528,  0.0208,  0.1092,  ...,  0.0831, -0.0730, -0.1416]],
+       device='cuda:0'), grad: tensor([[-4.4703e-08,  1.1176e-08,  9.6858e-08,  ...,  6.4261e-08,
+          1.8626e-09,  2.7008e-08],
+        [ 1.2107e-08,  2.1420e-08, -2.2724e-07,  ..., -3.1199e-07,
+          1.8626e-09,  2.0005e-06],
+        [-1.0245e-07,  2.3283e-08,  3.5390e-08,  ..., -1.8626e-08,
+          9.3132e-10,  1.8813e-07],
+        ...,
+        [ 8.3819e-09, -5.4017e-08,  3.6322e-07,  ...,  3.8277e-07,
+         -5.5879e-09, -2.9393e-06],
+        [ 9.0338e-08,  8.8476e-08,  5.9791e-07,  ...,  4.9919e-07,
+          3.7253e-09,  6.0257e-07],
+        [ 3.3528e-08, -1.0245e-07, -5.3924e-07,  ..., -5.5414e-07,
+          9.3132e-10,  7.3574e-08]], device='cuda:0')
+Epoch 202, bias, value: tensor([-0.0241, -0.0258, -0.0367, -0.0021,  0.0056,  0.0387,  0.0201, -0.0139,
+         0.0022, -0.0080], device='cuda:0'), grad: tensor([-9.3132e-10,  4.4331e-06,  6.1002e-07,  2.2352e-07, -3.7439e-07,
+         7.5437e-08, -6.6124e-08, -6.8508e-06,  2.5928e-06, -6.3051e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 201, time 214.23, cls_loss 0.0014 cls_loss_mapping 0.0027 cls_loss_causal 0.4941 re_mapping 0.0052 re_causal 0.0157 /// teacc 99.02 lr 0.00010000
+Epoch 203, weight, value: tensor([[ 0.0215, -0.0707, -0.0483,  ..., -0.1787, -0.0838, -0.1384],
+        [-0.0436, -0.0533, -0.0297,  ...,  0.0293,  0.0247, -0.1176],
+        [ 0.0338, -0.1165, -0.1312,  ...,  0.0214, -0.1507,  0.0711],
+        ...,
+        [-0.0084, -0.0236, -0.1498,  ..., -0.1284,  0.0202,  0.1294],
+        [ 0.0674, -0.1102, -0.0932,  ..., -0.1268, -0.0809, -0.0987],
+        [-0.1534,  0.0209,  0.1094,  ...,  0.0832, -0.0730, -0.1417]],
+       device='cuda:0'), grad: tensor([[-1.2852e-07,  2.7940e-09,  2.0489e-08,  ...,  1.8626e-08,
+          0.0000e+00,  1.8626e-09],
+        [ 5.5879e-09,  1.3970e-08, -5.1688e-07,  ..., -3.0827e-07,
+          0.0000e+00,  1.6764e-08],
+        [ 8.3819e-09,  5.5879e-09,  2.7008e-08,  ...,  4.4703e-08,
+          0.0000e+00,  6.5193e-09],
+        ...,
+        [ 3.7253e-09,  9.3132e-10,  3.9861e-07,  ...,  3.3248e-07,
+         -9.3132e-10, -3.9116e-08],
+        [ 2.2352e-08,  5.0291e-08,  2.9802e-07,  ...,  4.2096e-07,
+          0.0000e+00,  1.5832e-08],
+        [ 9.5926e-08, -9.7789e-08, -2.3842e-07,  ..., -9.9652e-08,
+          9.3132e-10,  2.1420e-08]], device='cuda:0')
+Epoch 203, bias, value: tensor([-0.0242, -0.0256, -0.0357, -0.0008,  0.0056,  0.0379,  0.0202, -0.0141,
+         0.0020, -0.0079], device='cuda:0'), grad: tensor([-3.5204e-07, -1.5656e-06,  1.5460e-07,  3.2276e-05, -9.2201e-08,
+        -3.3140e-05,  5.5414e-07,  1.0543e-06,  1.0552e-06,  3.5390e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 202, time 213.86, cls_loss 0.0016 cls_loss_mapping 0.0034 cls_loss_causal 0.5092 re_mapping 0.0051 re_causal 0.0150 /// teacc 99.02 lr 0.00010000
+Epoch 204, weight, value: tensor([[ 0.0216, -0.0709, -0.0485,  ..., -0.1791, -0.0838, -0.1390],
+        [-0.0436, -0.0534, -0.0295,  ...,  0.0297,  0.0248, -0.1177],
+        [ 0.0338, -0.1171, -0.1319,  ...,  0.0212, -0.1508,  0.0713],
+        ...,
+        [-0.0083, -0.0236, -0.1500,  ..., -0.1286,  0.0201,  0.1295],
+        [ 0.0672, -0.1113, -0.0933,  ..., -0.1274, -0.0815, -0.0992],
+        [-0.1539,  0.0208,  0.1094,  ...,  0.0831, -0.0732, -0.1420]],
+       device='cuda:0'), grad: tensor([[-3.1665e-08,  7.4506e-09,  6.0536e-08,  ...,  1.3690e-07,
+          3.7253e-09,  1.6112e-07],
+        [ 1.9930e-07,  1.0151e-07, -3.9674e-07,  ...,  5.3085e-08,
+          4.6566e-08,  4.5728e-07],
+        [ 1.3039e-08,  9.3132e-08,  6.8918e-08,  ..., -4.1444e-07,
+          9.3132e-10, -1.8058e-06],
+        ...,
+        [ 2.0489e-08, -3.9861e-07,  2.0489e-08,  ...,  4.3586e-07,
+          9.3132e-10, -8.2795e-07],
+        [ 2.3749e-07,  5.1223e-08,  1.3690e-07,  ...,  1.4845e-06,
+          6.4261e-08,  1.4715e-07],
+        [ 6.8918e-08,  1.3132e-07,  1.6671e-07,  ...,  2.5705e-07,
+          7.4506e-09,  3.6228e-07]], device='cuda:0')
+Epoch 204, bias, value: tensor([-0.0241, -0.0256, -0.0359,  0.0020,  0.0055,  0.0358,  0.0201, -0.0141,
+         0.0018, -0.0080], device='cuda:0'), grad: tensor([ 5.2620e-07,  5.9325e-07, -4.6454e-06,  2.4252e-06,  1.0794e-06,
+        -3.3900e-06,  7.9721e-07, -1.2843e-06,  2.3469e-06,  1.5395e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 203, time 214.23, cls_loss 0.0015 cls_loss_mapping 0.0025 cls_loss_causal 0.4801 re_mapping 0.0052 re_causal 0.0155 /// teacc 98.93 lr 0.00010000
+Epoch 205, weight, value: tensor([[ 0.0216, -0.0712, -0.0487,  ..., -0.1793, -0.0839, -0.1397],
+        [-0.0439, -0.0536, -0.0292,  ...,  0.0301,  0.0248, -0.1177],
+        [ 0.0339, -0.1178, -0.1332,  ...,  0.0207, -0.1508,  0.0709],
+        ...,
+        [-0.0085, -0.0235, -0.1502,  ..., -0.1289,  0.0201,  0.1296],
+        [ 0.0672, -0.1121, -0.0936,  ..., -0.1278, -0.0816, -0.0995],
+        [-0.1548,  0.0206,  0.1094,  ...,  0.0829, -0.0733, -0.1426]],
+       device='cuda:0'), grad: tensor([[ 2.9802e-08,  9.4064e-08,  1.2573e-06,  ...,  1.1502e-06,
+          0.0000e+00,  7.7300e-08],
+        [ 3.0734e-08,  5.4948e-08,  2.6636e-07,  ..., -3.7067e-07,
+          1.8626e-09,  2.8219e-07],
+        [ 3.1665e-08,  2.2352e-08,  2.4773e-07,  ...,  2.3749e-07,
+          9.3132e-10, -9.5088e-07],
+        ...,
+        [ 5.5879e-09,  5.6811e-08,  9.8627e-07,  ...,  1.1036e-06,
+         -7.4506e-09, -5.0291e-08],
+        [-3.7625e-07,  7.9162e-08,  6.9104e-07,  ...,  8.1584e-07,
+          9.3132e-10,  6.5472e-07],
+        [ 1.2945e-07, -5.0571e-07, -4.8503e-06,  ..., -5.2117e-06,
+          9.3132e-10,  9.7789e-08]], device='cuda:0')
+Epoch 205, bias, value: tensor([-0.0241, -0.0255, -0.0363,  0.0021,  0.0056,  0.0359,  0.0202, -0.0141,
+         0.0018, -0.0085], device='cuda:0'), grad: tensor([ 3.3639e-06, -8.8383e-07, -1.0105e-06,  7.6182e-07, -1.4901e-07,
+         1.2275e-06,  3.2652e-06,  3.0790e-06,  1.6671e-06, -1.1340e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 204, time 213.88, cls_loss 0.0020 cls_loss_mapping 0.0031 cls_loss_causal 0.5215 re_mapping 0.0052 re_causal 0.0148 /// teacc 99.07 lr 0.00010000
+Epoch 206, weight, value: tensor([[ 0.0218, -0.0722, -0.0493,  ..., -0.1804, -0.0839, -0.1425],
+        [-0.0445, -0.0535, -0.0291,  ...,  0.0303,  0.0248, -0.1177],
+        [ 0.0342, -0.1180, -0.1355,  ...,  0.0190, -0.1509,  0.0714],
+        ...,
+        [-0.0088, -0.0237, -0.1506,  ..., -0.1295,  0.0202,  0.1296],
+        [ 0.0677, -0.1126, -0.0937,  ..., -0.1283, -0.0818, -0.0998],
+        [-0.1554,  0.0201,  0.1092,  ...,  0.0826, -0.0733, -0.1428]],
+       device='cuda:0'), grad: tensor([[ 1.0245e-07,  2.1420e-08,  1.1735e-07,  ...,  6.0536e-08,
+          0.0000e+00,  3.0734e-08],
+        [ 1.7323e-07,  2.9802e-08, -5.2433e-07,  ..., -8.0559e-07,
+          0.0000e+00,  4.0047e-08],
+        [ 7.6368e-08,  3.4459e-08,  8.5682e-08,  ...,  3.6322e-08,
+          0.0000e+00, -2.0303e-07],
+        ...,
+        [ 2.2445e-07,  7.9162e-08,  4.4890e-07,  ...,  4.9453e-07,
+         -9.3132e-10, -3.9116e-08],
+        [-9.5274e-07,  4.6100e-07, -3.7253e-08,  ...,  2.6356e-07,
+          0.0000e+00,  1.7583e-06],
+        [ 2.1886e-07,  7.7300e-08, -2.4401e-07,  ..., -2.1420e-07,
+          0.0000e+00,  1.3039e-08]], device='cuda:0')
+Epoch 206, bias, value: tensor([-0.0241, -0.0255, -0.0366,  0.0019,  0.0068,  0.0361,  0.0199, -0.0142,
+         0.0021, -0.0089], device='cuda:0'), grad: tensor([ 8.3819e-07, -1.0831e-06,  2.7753e-07, -6.1579e-06,  6.0815e-07,
+         4.6100e-07, -1.8626e-09,  2.7306e-06,  1.1595e-06,  1.1446e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 205, time 213.79, cls_loss 0.0014 cls_loss_mapping 0.0023 cls_loss_causal 0.5117 re_mapping 0.0050 re_causal 0.0151 /// teacc 99.00 lr 0.00010000
+Epoch 207, weight, value: tensor([[ 0.0219, -0.0726, -0.0493,  ..., -0.1807, -0.0840, -0.1430],
+        [-0.0455, -0.0536, -0.0295,  ...,  0.0303,  0.0248, -0.1178],
+        [ 0.0339, -0.1182, -0.1373,  ...,  0.0189, -0.1510,  0.0712],
+        ...,
+        [-0.0090, -0.0239, -0.1510,  ..., -0.1299,  0.0203,  0.1298],
+        [ 0.0681, -0.1132, -0.0936,  ..., -0.1287, -0.0819, -0.1001],
+        [-0.1562,  0.0190,  0.1082,  ...,  0.0816, -0.0737, -0.1430]],
+       device='cuda:0'), grad: tensor([[ 4.9360e-08,  1.3039e-08,  8.0094e-08,  ...,  1.8533e-07,
+          0.0000e+00,  2.8871e-08],
+        [ 3.9414e-06,  1.3970e-08,  1.0148e-05,  ..., -1.2759e-07,
+          0.0000e+00,  4.0047e-08],
+        [ 1.9278e-07,  2.4214e-08,  2.6636e-07,  ...,  1.1642e-07,
+          0.0000e+00,  1.8813e-07],
+        ...,
+        [ 2.7940e-07,  6.6124e-08,  2.3749e-07,  ...,  4.4983e-07,
+          0.0000e+00, -6.8918e-08],
+        [-5.3570e-06,  6.3330e-08, -1.1533e-05,  ...,  4.3586e-07,
+          0.0000e+00,  2.3004e-07],
+        [ 1.8347e-07,  1.5832e-08,  2.2165e-07,  ...,  2.1234e-07,
+          0.0000e+00,  4.3772e-08]], device='cuda:0')
+Epoch 207, bias, value: tensor([-0.0240, -0.0256, -0.0375,  0.0017,  0.0070,  0.0361,  0.0221, -0.0142,
+         0.0023, -0.0105], device='cuda:0'), grad: tensor([ 1.8347e-07,  5.0306e-05,  1.8338e-06, -1.4715e-06,  1.3802e-06,
+        -3.2336e-05,  3.5048e-05,  1.4203e-06, -5.7727e-05,  1.3830e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 206, time 214.29, cls_loss 0.0021 cls_loss_mapping 0.0037 cls_loss_causal 0.4789 re_mapping 0.0055 re_causal 0.0150 /// teacc 99.03 lr 0.00010000
+Epoch 208, weight, value: tensor([[ 0.0222, -0.0730, -0.0495,  ..., -0.1812, -0.0841, -0.1435],
+        [-0.0467, -0.0508, -0.0270,  ...,  0.0312,  0.0247, -0.1169],
+        [ 0.0336, -0.1188, -0.1385,  ...,  0.0184, -0.1510,  0.0697],
+        ...,
+        [-0.0101, -0.0267, -0.1535,  ..., -0.1306,  0.0204,  0.1291],
+        [ 0.0697, -0.1136, -0.0932,  ..., -0.1290, -0.0820, -0.1001],
+        [-0.1596,  0.0193,  0.1085,  ...,  0.0818, -0.0744, -0.1438]],
+       device='cuda:0'), grad: tensor([[ 1.1176e-08,  2.7940e-09,  1.5832e-08,  ...,  2.2352e-08,
+          0.0000e+00,  7.8231e-08],
+        [ 2.3283e-08,  6.5193e-09, -3.2783e-07,  ..., -3.3341e-07,
+          0.0000e+00,  6.7987e-08],
+        [ 4.4703e-08,  9.3132e-09,  6.5193e-09,  ...,  1.1176e-08,
+          0.0000e+00, -4.0326e-07],
+        ...,
+        [ 1.0245e-08,  1.6764e-08,  1.5367e-07,  ...,  1.6391e-07,
+          0.0000e+00,  6.1467e-08],
+        [-2.1793e-07,  3.0734e-08,  6.0536e-08,  ...,  1.8347e-07,
+          0.0000e+00,  1.2759e-07],
+        [ 6.7987e-08,  9.3132e-10, -2.8871e-08,  ..., -1.3970e-08,
+          0.0000e+00,  1.9558e-08]], device='cuda:0')
+Epoch 208, bias, value: tensor([-0.0239, -0.0247, -0.0391,  0.0011,  0.0068,  0.0366,  0.0219, -0.0150,
+         0.0035, -0.0107], device='cuda:0'), grad: tensor([ 1.8999e-07, -8.4843e-07, -5.1036e-07, -9.1568e-06,  3.4180e-07,
+        -7.3910e-06,  1.6749e-05,  6.0350e-07, -1.1642e-07,  2.1234e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 207, time 214.23, cls_loss 0.0021 cls_loss_mapping 0.0034 cls_loss_causal 0.4950 re_mapping 0.0055 re_causal 0.0157 /// teacc 99.00 lr 0.00010000
+Epoch 209, weight, value: tensor([[ 0.0192, -0.0730, -0.0498,  ..., -0.1823, -0.0842, -0.1439],
+        [-0.0469, -0.0508, -0.0267,  ...,  0.0316,  0.0247, -0.1169],
+        [ 0.0306, -0.1190, -0.1399,  ...,  0.0155, -0.1511,  0.0702],
+        ...,
+        [-0.0108, -0.0267, -0.1535,  ..., -0.1307,  0.0204,  0.1291],
+        [ 0.0739, -0.1138, -0.0934,  ..., -0.1273, -0.0837, -0.0995],
+        [-0.1605,  0.0194,  0.1068,  ...,  0.0800, -0.0744, -0.1442]],
+       device='cuda:0'), grad: tensor([[-3.3714e-07,  0.0000e+00,  8.3819e-09,  ...,  4.4703e-08,
+          0.0000e+00,  2.1420e-07],
+        [ 1.1176e-08,  2.7940e-09, -7.3574e-08,  ...,  3.1292e-07,
+          0.0000e+00,  4.3865e-07],
+        [ 1.1176e-08,  1.8626e-09,  5.5879e-09,  ..., -2.3283e-08,
+          0.0000e+00, -2.7910e-05],
+        ...,
+        [ 9.3132e-09, -2.7940e-09,  2.9802e-08,  ...,  3.8277e-07,
+          0.0000e+00,  2.3633e-05],
+        [ 4.0047e-08,  2.7940e-09,  2.0489e-08,  ...,  2.3097e-07,
+          0.0000e+00,  1.1455e-06],
+        [ 1.4994e-07,  9.3132e-10, -7.4506e-09,  ...,  4.4890e-07,
+          0.0000e+00,  2.9337e-07]], device='cuda:0')
+Epoch 209, bias, value: tensor([-0.0268, -0.0246, -0.0407,  0.0034,  0.0084,  0.0347,  0.0233, -0.0150,
+         0.0064, -0.0123], device='cuda:0'), grad: tensor([-6.8825e-07,  1.7611e-06, -3.8803e-05, -1.4985e-04,  1.5460e-07,
+         1.4853e-04,  4.7684e-07,  3.3677e-05,  2.4773e-06,  2.5202e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 208, time 214.20, cls_loss 0.0017 cls_loss_mapping 0.0030 cls_loss_causal 0.4903 re_mapping 0.0053 re_causal 0.0155 /// teacc 99.05 lr 0.00010000
+Epoch 210, weight, value: tensor([[ 0.0195, -0.0737, -0.0499,  ..., -0.1830, -0.0842, -0.1449],
+        [-0.0469, -0.0508, -0.0260,  ...,  0.0327,  0.0247, -0.1177],
+        [ 0.0307, -0.1191, -0.1402,  ...,  0.0157, -0.1511,  0.0713],
+        ...,
+        [-0.0110, -0.0268, -0.1542,  ..., -0.1318,  0.0204,  0.1298],
+        [ 0.0738, -0.1141, -0.0938,  ..., -0.1282, -0.0837, -0.0999],
+        [-0.1622,  0.0194,  0.1063,  ...,  0.0795, -0.0744, -0.1448]],
+       device='cuda:0'), grad: tensor([[-2.2247e-05,  6.5193e-09,  5.1223e-08,  ...,  5.6811e-08,
+          1.8626e-09,  1.3970e-08],
+        [ 8.6240e-07,  1.3039e-08,  2.5239e-07,  ...,  2.9337e-07,
+          1.4901e-08,  4.1910e-08],
+        [ 7.8138e-07,  1.0245e-08,  1.1083e-07,  ...,  1.2759e-07,
+          0.0000e+00,  1.8626e-08],
+        ...,
+        [ 1.8161e-07,  1.1176e-08,  4.7684e-07,  ...,  5.9232e-07,
+          1.4901e-08, -4.3772e-08],
+        [ 1.8897e-06,  1.1176e-08,  3.4552e-07,  ...,  5.8766e-07,
+          7.8231e-08,  4.1910e-08],
+        [ 3.3155e-06, -5.5879e-09, -4.2692e-06,  ..., -4.9509e-06,
+          1.6764e-08,  4.7497e-08]], device='cuda:0')
+Epoch 210, bias, value: tensor([-0.0266, -0.0251, -0.0403,  0.0023,  0.0087,  0.0358,  0.0230, -0.0145,
+         0.0060, -0.0128], device='cuda:0'), grad: tensor([-7.2658e-05,  3.2596e-06,  2.8014e-06,  4.4517e-07,  5.3309e-06,
+         9.0525e-07,  4.8339e-05,  1.4370e-06,  6.7912e-06,  3.3453e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 209, time 214.17, cls_loss 0.0020 cls_loss_mapping 0.0037 cls_loss_causal 0.4852 re_mapping 0.0050 re_causal 0.0147 /// teacc 99.08 lr 0.00010000
+Epoch 211, weight, value: tensor([[ 0.0196, -0.0739, -0.0505,  ..., -0.1839, -0.0842, -0.1458],
+        [-0.0474, -0.0508, -0.0259,  ...,  0.0329,  0.0247, -0.1178],
+        [ 0.0310, -0.1194, -0.1407,  ...,  0.0158, -0.1510,  0.0716],
+        ...,
+        [-0.0116, -0.0270, -0.1552,  ..., -0.1324,  0.0204,  0.1300],
+        [ 0.0736, -0.1146, -0.0945,  ..., -0.1290, -0.0838, -0.1003],
+        [-0.1634,  0.0197,  0.1068,  ...,  0.0797, -0.0745, -0.1455]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.7940e-09,  2.1160e-06,  ...,  6.3842e-07,
+          0.0000e+00,  2.1420e-08],
+        [ 1.9558e-08,  5.1223e-09,  6.7428e-07,  ...,  1.3085e-07,
+          0.0000e+00,  5.1223e-08],
+        [-3.2596e-08,  1.3970e-09,  1.0291e-07,  ..., -7.0781e-08,
+          0.0000e+00, -3.6601e-07],
+        ...,
+        [ 2.7940e-08,  1.4901e-08,  6.9104e-07,  ...,  3.6461e-07,
+          0.0000e+00,  1.7229e-07],
+        [ 5.7975e-07,  3.2131e-08, -8.6147e-08,  ...,  2.1923e-06,
+          0.0000e+00,  7.2177e-08],
+        [ 1.2433e-07, -3.6322e-08, -2.0768e-07,  ..., -1.3132e-07,
+          0.0000e+00,  4.8894e-08]], device='cuda:0')
+Epoch 211, bias, value: tensor([-0.0265, -0.0250, -0.0399,  0.0046,  0.0086,  0.0337,  0.0229, -0.0147,
+         0.0056, -0.0124], device='cuda:0'), grad: tensor([ 6.9775e-06,  2.3134e-06, -4.2422e-07,  7.6229e-07, -1.8224e-05,
+        -4.2506e-06,  6.6645e-06,  2.5108e-06,  3.2187e-06,  4.2468e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 210, time 214.27, cls_loss 0.0011 cls_loss_mapping 0.0018 cls_loss_causal 0.5131 re_mapping 0.0049 re_causal 0.0155 /// teacc 99.09 lr 0.00010000
+Epoch 212, weight, value: tensor([[ 0.0197, -0.0740, -0.0505,  ..., -0.1842, -0.0842, -0.1462],
+        [-0.0476, -0.0508, -0.0258,  ...,  0.0330,  0.0247, -0.1178],
+        [ 0.0310, -0.1196, -0.1414,  ...,  0.0156, -0.1510,  0.0710],
+        ...,
+        [-0.0118, -0.0270, -0.1555,  ..., -0.1328,  0.0204,  0.1301],
+        [ 0.0736, -0.1149, -0.0953,  ..., -0.1298, -0.0838, -0.1006],
+        [-0.1640,  0.0197,  0.1070,  ...,  0.0799, -0.0745, -0.1458]],
+       device='cuda:0'), grad: tensor([[ 1.9884e-07,  2.3283e-09,  1.9260e-06,  ...,  2.3190e-07,
+          0.0000e+00,  1.2666e-07],
+        [ 4.3306e-08,  4.1910e-09,  4.1910e-07,  ...,  3.3062e-08,
+          0.0000e+00,  5.1223e-08],
+        [ 9.8720e-08,  5.5879e-09,  1.6009e-06,  ...,  4.0792e-07,
+          0.0000e+00, -1.1362e-07],
+        ...,
+        [ 9.7789e-09,  1.6764e-08,  3.9628e-07,  ...,  3.6415e-07,
+          0.0000e+00,  5.3551e-08],
+        [ 9.8720e-08,  1.1176e-08,  3.7113e-07,  ...,  3.9767e-07,
+          0.0000e+00,  6.0536e-08],
+        [ 5.9605e-08, -2.7008e-08,  6.3749e-07,  ...,  1.8347e-07,
+          0.0000e+00,  4.2375e-08]], device='cuda:0')
+Epoch 212, bias, value: tensor([-0.0264, -0.0250, -0.0403,  0.0046,  0.0085,  0.0338,  0.0227, -0.0147,
+         0.0053, -0.0121], device='cuda:0'), grad: tensor([ 4.6827e-06, -1.1316e-07,  3.0920e-06, -2.5537e-06, -3.4302e-05,
+         1.9670e-06,  2.2545e-05,  1.2852e-06,  1.8664e-06,  1.4622e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 211, time 214.15, cls_loss 0.0011 cls_loss_mapping 0.0026 cls_loss_causal 0.5099 re_mapping 0.0051 re_causal 0.0154 /// teacc 99.00 lr 0.00010000
+Epoch 213, weight, value: tensor([[ 0.0197, -0.0741, -0.0507,  ..., -0.1847, -0.0842, -0.1467],
+        [-0.0477, -0.0509, -0.0254,  ...,  0.0339,  0.0247, -0.1178],
+        [ 0.0312, -0.1199, -0.1426,  ...,  0.0158, -0.1510,  0.0714],
+        ...,
+        [-0.0121, -0.0270, -0.1556,  ..., -0.1331,  0.0204,  0.1302],
+        [ 0.0734, -0.1155, -0.0959,  ..., -0.1306, -0.0838, -0.1012],
+        [-0.1644,  0.0199,  0.1071,  ...,  0.0800, -0.0745, -0.1460]],
+       device='cuda:0'), grad: tensor([[-2.3283e-09,  4.1910e-09,  1.7649e-07,  ...,  4.6566e-07,
+          0.0000e+00,  2.7008e-08],
+        [ 1.4901e-08,  2.3283e-08, -5.1223e-08,  ...,  1.1362e-07,
+          0.0000e+00,  5.4482e-08],
+        [ 1.7695e-08,  3.2596e-09,  1.6764e-08,  ...,  3.0268e-08,
+          0.0000e+00, -4.7497e-07],
+        ...,
+        [ 2.1886e-08, -3.9581e-08,  1.0384e-07,  ...,  2.2445e-07,
+          0.0000e+00,  2.9476e-07],
+        [-1.9697e-07,  2.1886e-08,  9.3412e-07,  ...,  2.5406e-06,
+          0.0000e+00, -9.3132e-10],
+        [ 5.9139e-08, -2.4214e-08, -6.0648e-06,  ..., -1.7151e-05,
+          0.0000e+00,  1.5832e-08]], device='cuda:0')
+Epoch 213, bias, value: tensor([-0.0264, -0.0249, -0.0403,  0.0046,  0.0084,  0.0338,  0.0228, -0.0147,
+         0.0048, -0.0121], device='cuda:0'), grad: tensor([ 1.1977e-06, -7.1079e-06,  1.2107e-08,  6.9365e-06,  1.3728e-06,
+         1.2159e-05,  6.1560e-07,  3.0622e-06,  5.5730e-06, -2.3812e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 212, time 214.27, cls_loss 0.0015 cls_loss_mapping 0.0036 cls_loss_causal 0.5337 re_mapping 0.0050 re_causal 0.0149 /// teacc 99.02 lr 0.00010000
+Epoch 214, weight, value: tensor([[ 0.0197, -0.0743, -0.0511,  ..., -0.1861, -0.0842, -0.1474],
+        [-0.0477, -0.0510, -0.0250,  ...,  0.0347,  0.0247, -0.1179],
+        [ 0.0312, -0.1198, -0.1438,  ...,  0.0159, -0.1511,  0.0725],
+        ...,
+        [-0.0124, -0.0269, -0.1557,  ..., -0.1335,  0.0204,  0.1303],
+        [ 0.0733, -0.1171, -0.0973,  ..., -0.1319, -0.0839, -0.1018],
+        [-0.1648,  0.0200,  0.1073,  ...,  0.0802, -0.0746, -0.1468]],
+       device='cuda:0'), grad: tensor([[ 1.0403e-06,  9.3132e-09,  8.3866e-07,  ...,  3.9116e-08,
+          9.3132e-10,  1.8626e-08],
+        [ 7.4040e-08,  1.6764e-08, -8.7079e-08,  ..., -2.8405e-07,
+          5.1223e-09,  3.6787e-08],
+        [ 5.9139e-08,  2.6077e-08,  6.3330e-08,  ...,  2.4214e-08,
+          1.5832e-08,  3.4459e-08],
+        ...,
+        [ 7.4506e-09, -6.3330e-08,  1.1409e-07,  ...,  2.0443e-07,
+         -5.7742e-08, -1.9697e-07],
+        [ 5.7789e-07,  2.5611e-08,  6.1048e-07,  ...,  1.6531e-07,
+          3.2596e-09,  4.7497e-08],
+        [ 5.7742e-08, -1.7229e-08, -1.4389e-07,  ..., -2.7381e-07,
+          1.0710e-08,  6.5658e-08]], device='cuda:0')
+Epoch 214, bias, value: tensor([-0.0264, -0.0248, -0.0397,  0.0046,  0.0083,  0.0339,  0.0227, -0.0147,
+         0.0042, -0.0120], device='cuda:0'), grad: tensor([ 5.5730e-06, -1.0291e-07,  4.1351e-07,  1.1409e-07,  1.4435e-08,
+         6.4000e-06, -1.5870e-05,  1.0151e-07,  3.3900e-06, -3.7719e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 213, time 214.26, cls_loss 0.0018 cls_loss_mapping 0.0025 cls_loss_causal 0.4798 re_mapping 0.0052 re_causal 0.0148 /// teacc 98.97 lr 0.00010000
+Epoch 215, weight, value: tensor([[ 0.0198, -0.0751, -0.0516,  ..., -0.1886, -0.0843, -0.1492],
+        [-0.0479, -0.0512, -0.0249,  ...,  0.0331,  0.0248, -0.1180],
+        [ 0.0312, -0.1204, -0.1435,  ...,  0.0164, -0.1510,  0.0727],
+        ...,
+        [-0.0130, -0.0259, -0.1558,  ..., -0.1314,  0.0205,  0.1313],
+        [ 0.0737, -0.1173, -0.0977,  ..., -0.1325, -0.0843, -0.1020],
+        [-0.1660,  0.0194,  0.1073,  ...,  0.0799, -0.0752, -0.1497]],
+       device='cuda:0'), grad: tensor([[-4.4331e-06, -2.9104e-07, -1.1083e-07,  ...,  5.8673e-08,
+          0.0000e+00,  2.4680e-08],
+        [ 1.4296e-07,  8.8476e-09,  1.4110e-07,  ...,  1.5507e-07,
+          2.7940e-09,  1.0291e-07],
+        [ 2.2212e-07,  2.8405e-08,  1.2340e-07,  ...,  1.2480e-07,
+          4.6566e-10,  9.9186e-08],
+        ...,
+        [ 3.3062e-08, -1.5832e-08,  3.0501e-07,  ...,  4.3772e-07,
+          1.3970e-09,  2.1420e-08],
+        [-2.8778e-07,  1.1176e-08,  1.6717e-07,  ...,  2.0070e-07,
+          4.6566e-10, -3.5157e-07],
+        [ 1.3513e-06,  4.8429e-08,  7.0175e-07,  ...,  9.2620e-07,
+          4.6566e-09,  8.1491e-08]], device='cuda:0')
+Epoch 215, bias, value: tensor([-0.0264, -0.0251, -0.0395,  0.0041,  0.0080,  0.0345,  0.0227, -0.0141,
+         0.0043, -0.0126], device='cuda:0'), grad: tensor([-2.3320e-05,  9.8161e-07,  1.6829e-06,  8.0764e-06, -4.1351e-06,
+         4.4331e-07,  7.0743e-06,  9.3738e-07, -1.0896e-06,  9.2834e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 214, time 214.03, cls_loss 0.0016 cls_loss_mapping 0.0026 cls_loss_causal 0.4906 re_mapping 0.0051 re_causal 0.0143 /// teacc 99.01 lr 0.00010000
+Epoch 216, weight, value: tensor([[ 0.0198, -0.0752, -0.0518,  ..., -0.1895, -0.0844, -0.1499],
+        [-0.0481, -0.0508, -0.0238,  ...,  0.0344,  0.0248, -0.1180],
+        [ 0.0311, -0.1208, -0.1451,  ...,  0.0162, -0.1514,  0.0726],
+        ...,
+        [-0.0142, -0.0263, -0.1568,  ..., -0.1330,  0.0205,  0.1314],
+        [ 0.0736, -0.1181, -0.0984,  ..., -0.1335, -0.0846, -0.1019],
+        [-0.1672,  0.0195,  0.1076,  ...,  0.0804, -0.0752, -0.1501]],
+       device='cuda:0'), grad: tensor([[ 6.0024e-07,  4.8522e-07,  3.1712e-07,  ...,  6.6590e-08,
+          0.0000e+00,  1.3970e-09],
+        [ 2.3423e-07,  1.5134e-07, -1.7183e-07,  ..., -1.7323e-07,
+          9.3132e-10,  1.3039e-08],
+        [ 1.3690e-07,  7.0781e-08,  1.0850e-07,  ...,  5.3085e-08,
+          0.0000e+00,  9.3132e-09],
+        ...,
+        [ 1.5879e-07,  1.0617e-07,  3.6787e-07,  ...,  2.9802e-07,
+         -3.7253e-09, -2.4214e-08],
+        [-6.3851e-06, -4.5262e-06, -1.6894e-06,  ...,  2.9057e-07,
+          4.6566e-10,  2.9802e-08],
+        [ 4.0419e-06,  2.8666e-06,  3.0594e-07,  ..., -1.1763e-06,
+          4.6566e-10,  1.0245e-08]], device='cuda:0')
+Epoch 216, bias, value: tensor([-0.0263, -0.0249, -0.0398,  0.0038,  0.0079,  0.0347,  0.0226, -0.0144,
+         0.0042, -0.0122], device='cuda:0'), grad: tensor([ 5.4874e-06,  6.7987e-07,  1.0971e-06,  6.6832e-06,  7.5856e-07,
+         2.6543e-06,  9.8813e-07,  2.2482e-06, -5.0962e-05,  3.0428e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 215, time 214.04, cls_loss 0.0017 cls_loss_mapping 0.0030 cls_loss_causal 0.5174 re_mapping 0.0049 re_causal 0.0146 /// teacc 99.10 lr 0.00010000
+Epoch 217, weight, value: tensor([[ 0.0198, -0.0766, -0.0522,  ..., -0.1913, -0.0844, -0.1514],
+        [-0.0483, -0.0510, -0.0235,  ...,  0.0348,  0.0249, -0.1180],
+        [ 0.0311, -0.1213, -0.1462,  ...,  0.0162, -0.1514,  0.0730],
+        ...,
+        [-0.0129, -0.0261, -0.1570,  ..., -0.1329,  0.0205,  0.1317],
+        [ 0.0738, -0.1200, -0.0982,  ..., -0.1343, -0.0847, -0.1028],
+        [-0.1686,  0.0197,  0.1078,  ...,  0.0804, -0.0752, -0.1507]],
+       device='cuda:0'), grad: tensor([[-8.9407e-08,  4.3306e-08,  7.6834e-08,  ...,  1.3364e-07,
+          0.0000e+00,  2.5690e-05],
+        [ 2.8405e-08,  5.2620e-08,  1.0505e-06,  ...,  1.2983e-06,
+          0.0000e+00,  1.5674e-06],
+        [ 2.6543e-08,  5.5879e-09,  8.3819e-08,  ...,  8.4285e-08,
+          0.0000e+00, -1.9968e-04],
+        ...,
+        [ 1.7229e-08,  4.2394e-06,  2.7400e-06,  ...,  9.5963e-06,
+          0.0000e+00,  9.9540e-05],
+        [ 1.7760e-06,  5.1223e-08,  1.2025e-05,  ...,  4.0792e-06,
+          0.0000e+00,  6.4112e-06],
+        [ 7.3109e-08, -4.9807e-06, -1.5348e-06,  ..., -9.4846e-06,
+          0.0000e+00,  5.4166e-06]], device='cuda:0')
+Epoch 217, bias, value: tensor([-0.0264, -0.0248, -0.0398,  0.0037,  0.0076,  0.0349,  0.0224, -0.0142,
+         0.0042, -0.0122], device='cuda:0'), grad: tensor([ 6.0648e-05,  5.7667e-06, -4.7231e-04,  1.3077e-04, -2.4468e-05,
+        -6.4261e-07,  8.0913e-06,  2.5344e-04,  4.3839e-05, -5.5395e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 216, time 214.09, cls_loss 0.0017 cls_loss_mapping 0.0035 cls_loss_causal 0.5175 re_mapping 0.0051 re_causal 0.0156 /// teacc 99.07 lr 0.00010000
+Epoch 218, weight, value: tensor([[ 0.0199, -0.0769, -0.0522,  ..., -0.1910, -0.0844, -0.1530],
+        [-0.0490, -0.0511, -0.0234,  ...,  0.0350,  0.0249, -0.1182],
+        [ 0.0315, -0.1215, -0.1468,  ...,  0.0163, -0.1511,  0.0752],
+        ...,
+        [-0.0134, -0.0261, -0.1576,  ..., -0.1338,  0.0205,  0.1317],
+        [ 0.0742, -0.1199, -0.1011,  ..., -0.1363, -0.0850, -0.1051],
+        [-0.1698,  0.0198,  0.1097,  ...,  0.0822, -0.0752, -0.1480]],
+       device='cuda:0'), grad: tensor([[-2.7940e-09,  1.9092e-08,  2.6543e-08,  ...,  3.6322e-08,
+          0.0000e+00,  4.8894e-08],
+        [-2.2817e-07,  6.3796e-08, -6.9384e-08,  ..., -1.7043e-07,
+          0.0000e+00, -6.3237e-07],
+        [ 1.3225e-07,  2.1420e-08,  3.0734e-08,  ...,  2.9337e-08,
+          0.0000e+00,  2.6263e-07],
+        ...,
+        [ 1.5087e-07, -4.1462e-06,  6.9384e-08,  ...,  9.9652e-08,
+          0.0000e+00, -9.2248e-07],
+        [-8.6613e-08,  1.4156e-07, -3.4925e-08,  ...,  2.8452e-07,
+          0.0000e+00,  3.4925e-08],
+        [ 6.7055e-08,  3.9488e-06, -1.1642e-07,  ..., -8.6613e-08,
+          0.0000e+00,  1.2405e-06]], device='cuda:0')
+Epoch 218, bias, value: tensor([-0.0263, -0.0249, -0.0381,  0.0036,  0.0054,  0.0352,  0.0219, -0.0143,
+         0.0030, -0.0097], device='cuda:0'), grad: tensor([ 2.0908e-07, -3.9488e-06,  1.5870e-06,  2.5257e-06,  6.2073e-07,
+        -3.2596e-06,  7.5856e-07, -9.6709e-06, -2.5611e-07,  1.1444e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 217----------------------------------------------------
+epoch 217, time 230.24, cls_loss 0.0013 cls_loss_mapping 0.0021 cls_loss_causal 0.4936 re_mapping 0.0049 re_causal 0.0149 /// teacc 99.13 lr 0.00010000
+Epoch 219, weight, value: tensor([[ 0.0199, -0.0772, -0.0526,  ..., -0.1903, -0.0844, -0.1533],
+        [-0.0494, -0.0511, -0.0219,  ...,  0.0366,  0.0249, -0.1183],
+        [ 0.0317, -0.1219, -0.1473,  ...,  0.0166, -0.1511,  0.0753],
+        ...,
+        [-0.0122, -0.0259, -0.1590,  ..., -0.1348,  0.0205,  0.1321],
+        [ 0.0744, -0.1197, -0.1009,  ..., -0.1366, -0.0850, -0.1056],
+        [-0.1721,  0.0195,  0.1095,  ...,  0.0820, -0.0752, -0.1483]],
+       device='cuda:0'), grad: tensor([[ 4.8755e-07,  1.1269e-07,  3.9116e-08,  ...,  9.7789e-09,
+          0.0000e+00,  3.3639e-06],
+        [ 1.2992e-07,  1.3039e-07,  1.6298e-08,  ...,  2.0443e-07,
+          0.0000e+00,  7.6974e-07],
+        [ 1.3178e-07,  4.5169e-08,  1.2480e-07,  ...,  8.8476e-09,
+          0.0000e+00,  6.3097e-07],
+        ...,
+        [-1.9390e-06, -3.3574e-07,  2.4680e-07,  ...,  1.3132e-07,
+          0.0000e+00, -1.0781e-05],
+        [ 1.4715e-07,  9.4064e-08,  7.2177e-08,  ...,  4.3772e-08,
+          0.0000e+00,  8.4285e-07],
+        [ 6.9058e-07, -1.1642e-08,  4.1351e-06,  ...,  2.5406e-06,
+          0.0000e+00,  3.6340e-06]], device='cuda:0')
+Epoch 219, bias, value: tensor([-0.0263, -0.0245, -0.0381,  0.0037,  0.0054,  0.0352,  0.0219, -0.0144,
+         0.0030, -0.0101], device='cuda:0'), grad: tensor([ 7.7412e-06,  1.4873e-06,  2.0042e-06,  2.2817e-07, -5.4836e-06,
+         2.0415e-06,  3.3295e-07, -2.5034e-05,  2.3320e-06,  1.4357e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 218, time 214.28, cls_loss 0.0014 cls_loss_mapping 0.0029 cls_loss_causal 0.4895 re_mapping 0.0048 re_causal 0.0146 /// teacc 99.08 lr 0.00010000
+Epoch 220, weight, value: tensor([[ 0.0199, -0.0776, -0.0528,  ..., -0.1911, -0.0844, -0.1540],
+        [-0.0500, -0.0513, -0.0217,  ...,  0.0372,  0.0249, -0.1184],
+        [ 0.0321, -0.1223, -0.1479,  ...,  0.0169, -0.1511,  0.0755],
+        ...,
+        [-0.0100, -0.0252, -0.1585,  ..., -0.1341,  0.0205,  0.1327],
+        [ 0.0746, -0.1197, -0.1016,  ..., -0.1376, -0.0850, -0.1061],
+        [-0.1733,  0.0189,  0.1092,  ...,  0.0819, -0.0753, -0.1487]],
+       device='cuda:0'), grad: tensor([[-1.3690e-07,  3.1665e-08,  2.7474e-08,  ...,  5.0757e-08,
+          4.6566e-09,  8.2422e-08],
+        [ 3.5856e-08,  1.0850e-07,  3.7719e-08,  ...,  1.5367e-08,
+          1.4435e-08,  1.8487e-07],
+        [-2.5425e-07,  4.8894e-08,  4.8894e-08,  ...,  3.7719e-08,
+          8.3819e-09, -1.0757e-07],
+        ...,
+        [ 4.5169e-08,  4.7356e-05,  1.5358e-06,  ...,  2.0359e-06,
+          7.3947e-06,  6.5684e-05],
+        [-4.9360e-07,  2.4680e-07, -6.2250e-06,  ..., -1.0384e-07,
+          3.6322e-08,  3.6508e-07],
+        [ 2.8126e-07,  4.1956e-07, -1.6764e-06,  ..., -2.2184e-06,
+          4.6566e-08,  5.6345e-07]], device='cuda:0')
+Epoch 220, bias, value: tensor([-0.0263, -0.0245, -0.0380,  0.0035,  0.0053,  0.0352,  0.0220, -0.0139,
+         0.0026, -0.0105], device='cuda:0'), grad: tensor([ 2.9756e-07,  5.6345e-07, -1.5851e-06, -1.3494e-04,  2.4121e-07,
+         1.7518e-06,  1.7643e-05,  1.3745e-04, -2.0340e-05, -1.0403e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 219, time 214.00, cls_loss 0.0013 cls_loss_mapping 0.0025 cls_loss_causal 0.4987 re_mapping 0.0047 re_causal 0.0142 /// teacc 99.00 lr 0.00010000
+Epoch 221, weight, value: tensor([[ 0.0200, -0.0777, -0.0529,  ..., -0.1916, -0.0844, -0.1545],
+        [-0.0502, -0.0514, -0.0219,  ...,  0.0369,  0.0248, -0.1184],
+        [ 0.0319, -0.1227, -0.1488,  ...,  0.0167, -0.1511,  0.0756],
+        ...,
+        [-0.0097, -0.0252, -0.1585,  ..., -0.1342,  0.0205,  0.1328],
+        [ 0.0747, -0.1201, -0.1019,  ..., -0.1381, -0.0855, -0.1064],
+        [-0.1738,  0.0188,  0.1095,  ...,  0.0820, -0.0756, -0.1489]],
+       device='cuda:0'), grad: tensor([[-3.3434e-06,  6.5193e-09,  3.4925e-08,  ...,  9.2667e-08,
+          0.0000e+00,  1.0245e-08],
+        [ 2.4214e-08,  1.4435e-08,  6.7987e-08,  ...,  6.1467e-08,
+          0.0000e+00,  2.1886e-08],
+        [ 6.7521e-08,  1.8626e-08,  7.0781e-08,  ...,  1.2200e-07,
+          0.0000e+00, -1.7229e-08],
+        ...,
+        [ 5.4482e-08,  1.5367e-08,  5.1223e-08,  ...,  8.5682e-08,
+          0.0000e+00,  3.8184e-08],
+        [ 5.0757e-08,  2.5146e-08,  9.6858e-08,  ...,  2.0256e-07,
+          0.0000e+00,  3.1199e-08],
+        [ 1.1921e-07, -6.3330e-08, -4.8429e-08,  ...,  1.6298e-08,
+          0.0000e+00,  9.3132e-09]], device='cuda:0')
+Epoch 221, bias, value: tensor([-0.0262, -0.0246, -0.0383,  0.0035,  0.0053,  0.0353,  0.0220, -0.0139,
+         0.0024, -0.0105], device='cuda:0'), grad: tensor([-9.1791e-06,  7.3574e-07,  6.6683e-07,  1.8347e-07, -9.7416e-07,
+         1.3579e-06,  8.4862e-06,  5.8906e-07, -3.5595e-06,  1.6876e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 220, time 214.04, cls_loss 0.0013 cls_loss_mapping 0.0020 cls_loss_causal 0.5030 re_mapping 0.0051 re_causal 0.0146 /// teacc 99.10 lr 0.00010000
+Epoch 222, weight, value: tensor([[ 0.0200, -0.0779, -0.0533,  ..., -0.1921, -0.0845, -0.1550],
+        [-0.0504, -0.0516, -0.0218,  ...,  0.0360,  0.0248, -0.1184],
+        [ 0.0319, -0.1229, -0.1512,  ...,  0.0166, -0.1511,  0.0743],
+        ...,
+        [-0.0101, -0.0252, -0.1587,  ..., -0.1344,  0.0208,  0.1329],
+        [ 0.0747, -0.1213, -0.1021,  ..., -0.1387, -0.0856, -0.1047],
+        [-0.1745,  0.0188,  0.1094,  ...,  0.0819, -0.0770, -0.1492]],
+       device='cuda:0'), grad: tensor([[ 4.4703e-08,  4.1910e-09,  6.2399e-08,  ...,  2.1420e-08,
+          0.0000e+00,  1.5367e-08],
+        [ 1.6764e-08,  2.1188e-07, -2.0117e-07,  ...,  3.3854e-07,
+          0.0000e+00,  1.8114e-06],
+        [ 2.0023e-08,  1.7881e-07,  2.4214e-08,  ..., -8.0699e-07,
+          0.0000e+00, -7.3481e-07],
+        ...,
+        [-1.8161e-08, -5.6159e-07,  4.0838e-07,  ...,  4.4052e-07,
+          0.0000e+00, -1.8664e-06],
+        [-2.8592e-07,  1.9185e-07, -1.7416e-07,  ...,  8.3819e-08,
+          0.0000e+00,  6.5425e-07],
+        [ 7.6368e-08,  1.5786e-07,  1.8626e-07,  ...,  7.7765e-08,
+          0.0000e+00,  2.3982e-07]], device='cuda:0')
+Epoch 222, bias, value: tensor([-0.0262, -0.0247, -0.0397,  0.0036,  0.0055,  0.0354,  0.0218, -0.0139,
+         0.0031, -0.0106], device='cuda:0'), grad: tensor([ 3.1292e-07,  3.3285e-06, -2.1793e-06, -6.3237e-07, -1.4156e-06,
+         2.4913e-07,  7.4971e-07, -2.1979e-06,  4.6985e-07,  1.3132e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 221, time 214.07, cls_loss 0.0012 cls_loss_mapping 0.0020 cls_loss_causal 0.4886 re_mapping 0.0048 re_causal 0.0144 /// teacc 99.02 lr 0.00010000
+Epoch 223, weight, value: tensor([[ 0.0200, -0.0782, -0.0535,  ..., -0.1926, -0.0845, -0.1555],
+        [-0.0508, -0.0517, -0.0219,  ...,  0.0387,  0.0247, -0.1176],
+        [ 0.0318, -0.1233, -0.1521,  ...,  0.0135, -0.1511,  0.0716],
+        ...,
+        [-0.0101, -0.0253, -0.1589,  ..., -0.1346,  0.0209,  0.1329],
+        [ 0.0749, -0.1216, -0.1023,  ..., -0.1391, -0.0857, -0.1048],
+        [-0.1749,  0.0192,  0.1095,  ...,  0.0819, -0.0771, -0.1492]],
+       device='cuda:0'), grad: tensor([[ 9.6392e-08,  3.7998e-07,  3.3434e-07,  ...,  8.0653e-07,
+          0.0000e+00,  8.9966e-07],
+        [ 2.7008e-08,  1.8347e-07, -3.1758e-06,  ..., -5.6103e-06,
+          0.0000e+00,  7.7393e-07],
+        [ 1.7229e-08,  3.2503e-07,  1.1548e-07,  ..., -4.0978e-08,
+          0.0000e+00, -7.0315e-07],
+        ...,
+        [ 1.1176e-08,  3.4645e-07,  1.3700e-06,  ...,  1.8803e-06,
+          0.0000e+00,  3.6228e-07],
+        [ 3.9116e-08,  1.6810e-07,  2.8592e-07,  ...,  6.0396e-07,
+          0.0000e+00,  6.7055e-07],
+        [ 1.8161e-08, -4.9919e-07, -5.5181e-07,  ..., -2.9057e-07,
+          0.0000e+00,  1.5879e-07]], device='cuda:0')
+Epoch 223, bias, value: tensor([-0.0262, -0.0233, -0.0428,  0.0033,  0.0056,  0.0357,  0.0218, -0.0139,
+         0.0032, -0.0106], device='cuda:0'), grad: tensor([ 4.0084e-06, -1.1452e-05, -2.1104e-06, -4.6417e-06,  6.8359e-07,
+         3.6526e-06,  1.3504e-06,  4.8205e-06,  2.8890e-06,  7.4599e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 222, time 214.22, cls_loss 0.0015 cls_loss_mapping 0.0029 cls_loss_causal 0.5121 re_mapping 0.0049 re_causal 0.0147 /// teacc 99.10 lr 0.00010000
+Epoch 224, weight, value: tensor([[ 0.0200, -0.0798, -0.0541,  ..., -0.1937, -0.0845, -0.1569],
+        [-0.0516, -0.0520, -0.0208,  ...,  0.0392,  0.0247, -0.1178],
+        [ 0.0315, -0.1238, -0.1527,  ...,  0.0136, -0.1511,  0.0725],
+        ...,
+        [-0.0097, -0.0248, -0.1602,  ..., -0.1355,  0.0210,  0.1335],
+        [ 0.0761, -0.1204, -0.1012,  ..., -0.1396, -0.0857, -0.1051],
+        [-0.1775,  0.0189,  0.1093,  ...,  0.0819, -0.0771, -0.1495]],
+       device='cuda:0'), grad: tensor([[-2.1607e-07,  5.1223e-09,  7.3574e-08,  ...,  7.3574e-08,
+          0.0000e+00,  5.1223e-08],
+        [ 2.1886e-08,  2.4680e-08,  6.4727e-08,  ...,  7.6368e-08,
+          4.6566e-10,  9.4064e-08],
+        [ 8.8476e-09,  7.9162e-09, -3.2922e-07,  ...,  2.2817e-08,
+          0.0000e+00, -1.2089e-06],
+        ...,
+        [ 1.0245e-08, -1.5832e-08,  7.2923e-07,  ...,  8.6892e-07,
+         -4.6566e-10,  2.0955e-08],
+        [ 2.5611e-08,  7.9162e-09,  1.5767e-06,  ...,  2.0191e-06,
+          0.0000e+00,  1.0431e-07],
+        [ 1.4249e-07,  1.5367e-08, -3.5334e-06,  ..., -4.2319e-06,
+          0.0000e+00, -4.2375e-08]], device='cuda:0')
+Epoch 224, bias, value: tensor([-0.0264, -0.0230, -0.0425,  0.0031,  0.0057,  0.0355,  0.0218, -0.0141,
+         0.0044, -0.0110], device='cuda:0'), grad: tensor([-4.9639e-07,  5.3924e-07, -2.0862e-06, -1.0524e-06,  3.2857e-06,
+        -2.0396e-07,  2.9877e-06,  2.4326e-06,  5.4240e-06, -1.0826e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 223, time 214.08, cls_loss 0.0011 cls_loss_mapping 0.0020 cls_loss_causal 0.5000 re_mapping 0.0046 re_causal 0.0138 /// teacc 99.02 lr 0.00010000
+Epoch 225, weight, value: tensor([[ 0.0201, -0.0800, -0.0542,  ..., -0.1945, -0.0845, -0.1565],
+        [-0.0518, -0.0521, -0.0207,  ...,  0.0392,  0.0247, -0.1180],
+        [ 0.0314, -0.1242, -0.1531,  ...,  0.0136, -0.1512,  0.0725],
+        ...,
+        [-0.0102, -0.0248, -0.1604,  ..., -0.1354,  0.0210,  0.1338],
+        [ 0.0761, -0.1209, -0.1015,  ..., -0.1406, -0.0857, -0.1055],
+        [-0.1788,  0.0190,  0.1093,  ...,  0.0818, -0.0771, -0.1497]],
+       device='cuda:0'), grad: tensor([[ 6.5658e-08,  2.7940e-09,  6.5193e-08,  ...,  5.8208e-08,
+          0.0000e+00,  5.9605e-08],
+        [ 1.8161e-08,  8.2422e-08,  2.3749e-06,  ...,  1.8338e-06,
+          0.0000e+00,  2.1700e-07],
+        [-5.1875e-07,  5.5879e-09,  4.0513e-08,  ..., -1.8114e-07,
+          0.0000e+00, -6.7288e-07],
+        ...,
+        [ 1.4901e-08, -5.3551e-08,  2.0396e-07,  ...,  2.4354e-07,
+          0.0000e+00, -2.1514e-07],
+        [ 1.0096e-06,  8.1025e-08,  1.5767e-06,  ...,  4.3362e-06,
+          0.0000e+00,  5.1828e-07],
+        [ 2.0256e-07,  1.2340e-07,  8.6650e-06,  ...,  6.9737e-06,
+          0.0000e+00,  1.7136e-07]], device='cuda:0')
+Epoch 225, bias, value: tensor([-0.0262, -0.0230, -0.0426,  0.0031,  0.0057,  0.0356,  0.0217, -0.0140,
+         0.0041, -0.0111], device='cuda:0'), grad: tensor([ 3.9721e-07,  5.6364e-06, -2.3544e-06,  2.3358e-06, -2.7567e-05,
+        -9.1046e-06,  2.0722e-07,  2.7334e-07,  9.7901e-06,  2.0355e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 224, time 214.05, cls_loss 0.0014 cls_loss_mapping 0.0029 cls_loss_causal 0.4997 re_mapping 0.0047 re_causal 0.0143 /// teacc 99.02 lr 0.00010000
+Epoch 226, weight, value: tensor([[ 0.0202, -0.0803, -0.0549,  ..., -0.1945, -0.0845, -0.1565],
+        [-0.0521, -0.0521, -0.0204,  ...,  0.0395,  0.0247, -0.1181],
+        [ 0.0311, -0.1247, -0.1543,  ...,  0.0136, -0.1512,  0.0719],
+        ...,
+        [-0.0108, -0.0250, -0.1607,  ..., -0.1360,  0.0211,  0.1342],
+        [ 0.0752, -0.1212, -0.1024,  ..., -0.1432, -0.0858, -0.1057],
+        [-0.1804,  0.0194,  0.1092,  ...,  0.0817, -0.0771, -0.1501]],
+       device='cuda:0'), grad: tensor([[-1.5777e-06,  9.3132e-10,  1.8626e-09,  ...,  1.3039e-08,
+          0.0000e+00,  5.1223e-09],
+        [ 9.4064e-08,  1.3039e-08, -1.7416e-07,  ..., -2.3190e-07,
+          0.0000e+00,  7.1246e-08],
+        [ 1.3597e-07,  5.1223e-09,  8.3819e-09,  ...,  7.9162e-09,
+          0.0000e+00, -5.1223e-09],
+        ...,
+        [ 5.9139e-08,  8.9407e-08,  1.1642e-07,  ...,  2.1514e-07,
+          0.0000e+00,  5.8068e-07],
+        [-1.3039e-08,  5.0291e-08,  7.5437e-08,  ...,  7.4506e-08,
+          0.0000e+00,  3.3341e-07],
+        [ 4.0932e-07, -1.9092e-08, -7.0315e-08,  ..., -6.0070e-08,
+          0.0000e+00,  2.9802e-08]], device='cuda:0')
+Epoch 226, bias, value: tensor([-0.0261, -0.0229, -0.0427,  0.0031,  0.0056,  0.0360,  0.0218, -0.0140,
+         0.0032, -0.0114], device='cuda:0'), grad: tensor([-5.9418e-06, -2.7474e-07,  5.9605e-07, -1.6214e-06,  1.6158e-07,
+         1.1614e-06,  1.8822e-06,  1.7211e-06,  5.4110e-07,  1.7807e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 225, time 214.19, cls_loss 0.0013 cls_loss_mapping 0.0033 cls_loss_causal 0.4750 re_mapping 0.0051 re_causal 0.0147 /// teacc 99.01 lr 0.00010000
+Epoch 227, weight, value: tensor([[ 0.0204, -0.0806, -0.0551,  ..., -0.1949, -0.0849, -0.1565],
+        [-0.0524, -0.0523, -0.0206,  ...,  0.0394,  0.0247, -0.1184],
+        [ 0.0310, -0.1260, -0.1575,  ...,  0.0136, -0.1515,  0.0719],
+        ...,
+        [-0.0110, -0.0243, -0.1603,  ..., -0.1359,  0.0215,  0.1348],
+        [ 0.0749, -0.1215, -0.1026,  ..., -0.1438, -0.0863, -0.1063],
+        [-0.1815,  0.0185,  0.1095,  ...,  0.0820, -0.0788, -0.1510]],
+       device='cuda:0'), grad: tensor([[-5.5041e-07,  3.9116e-08,  3.9041e-05,  ...,  3.0547e-06,
+          0.0000e+00,  1.1176e-08],
+        [ 3.9116e-08,  3.7253e-08, -5.1782e-07,  ..., -5.3234e-06,
+          0.0000e+00,  7.0781e-08],
+        [ 7.6368e-08,  5.1223e-08,  5.0012e-07,  ...,  7.0501e-07,
+          0.0000e+00,  6.5193e-09],
+        ...,
+        [ 1.9558e-08,  8.8476e-08,  9.0338e-07,  ...,  1.5227e-06,
+          0.0000e+00,  1.5367e-07],
+        [-1.4156e-07,  9.4995e-08,  3.9209e-07,  ...,  1.8720e-06,
+          0.0000e+00,  5.4017e-08],
+        [ 4.8541e-06,  1.5587e-05, -2.6345e-05,  ...,  6.9499e-05,
+          0.0000e+00,  1.2107e-08]], device='cuda:0')
+Epoch 227, bias, value: tensor([-0.0258, -0.0230, -0.0430,  0.0031,  0.0054,  0.0361,  0.0216, -0.0136,
+         0.0028, -0.0115], device='cuda:0'), grad: tensor([ 9.2983e-05, -9.3132e-06,  2.5984e-06,  2.5973e-05,  4.5747e-06,
+        -1.1778e-04,  1.5525e-06,  4.7684e-06,  5.2154e-08, -5.6177e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 226, time 213.96, cls_loss 0.0011 cls_loss_mapping 0.0021 cls_loss_causal 0.5015 re_mapping 0.0046 re_causal 0.0143 /// teacc 99.13 lr 0.00010000
+Epoch 228, weight, value: tensor([[ 0.0205, -0.0807, -0.0556,  ..., -0.1956, -0.0849, -0.1561],
+        [-0.0530, -0.0524, -0.0207,  ...,  0.0394,  0.0247, -0.1184],
+        [ 0.0309, -0.1265, -0.1586,  ...,  0.0136, -0.1515,  0.0719],
+        ...,
+        [-0.0113, -0.0242, -0.1605,  ..., -0.1362,  0.0216,  0.1349],
+        [ 0.0748, -0.1221, -0.1030,  ..., -0.1443, -0.0864, -0.1067],
+        [-0.1821,  0.0182,  0.1096,  ...,  0.0820, -0.0791, -0.1513]],
+       device='cuda:0'), grad: tensor([[-3.4459e-08,  6.0536e-08,  3.0734e-08,  ...,  9.1270e-08,
+          0.0000e+00,  1.4342e-07],
+        [ 4.6566e-09,  4.4145e-07, -5.6438e-07,  ..., -3.7532e-07,
+          9.3132e-10,  7.0967e-07],
+        [ 1.1176e-08,  6.3330e-08,  3.4459e-08,  ...,  5.5879e-08,
+          9.3132e-10, -8.3074e-07],
+        ...,
+        [ 2.7940e-09, -6.1374e-07,  2.9150e-07,  ...,  2.7288e-07,
+         -2.7940e-09, -4.9639e-07],
+        [-3.6322e-08,  5.1502e-07,  1.3225e-07,  ...,  5.6531e-07,
+          9.3132e-10,  1.1791e-06],
+        [ 2.7940e-08,  2.1439e-06, -3.9116e-08,  ...,  3.1888e-06,
+          9.3132e-10,  4.9584e-06]], device='cuda:0')
+Epoch 228, bias, value: tensor([-0.0256, -0.0230, -0.0431,  0.0032,  0.0054,  0.0361,  0.0215, -0.0136,
+         0.0024, -0.0116], device='cuda:0'), grad: tensor([ 4.5635e-07, -2.0713e-06, -7.0874e-07, -2.1547e-05,  9.9745e-07,
+         4.0010e-06,  1.6671e-07, -4.7497e-08,  3.5688e-06,  1.5184e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 227, time 214.13, cls_loss 0.0013 cls_loss_mapping 0.0027 cls_loss_causal 0.5021 re_mapping 0.0046 re_causal 0.0141 /// teacc 99.08 lr 0.00010000
+Epoch 229, weight, value: tensor([[ 0.0206, -0.0809, -0.0556,  ..., -0.1961, -0.0849, -0.1562],
+        [-0.0538, -0.0527, -0.0202,  ...,  0.0396,  0.0247, -0.1184],
+        [ 0.0306, -0.1268, -0.1600,  ...,  0.0135, -0.1524,  0.0718],
+        ...,
+        [-0.0116, -0.0243, -0.1616,  ..., -0.1382,  0.0217,  0.1349],
+        [ 0.0745, -0.1230, -0.1040,  ..., -0.1448, -0.0865, -0.1073],
+        [-0.1827,  0.0176,  0.1096,  ...,  0.0819, -0.0791, -0.1517]],
+       device='cuda:0'), grad: tensor([[-8.3540e-07,  1.8626e-09,  3.1665e-08,  ...,  5.5879e-09,
+          0.0000e+00,  4.6566e-09],
+        [ 7.6368e-08,  7.9162e-08, -1.9558e-08,  ..., -5.0291e-08,
+          0.0000e+00,  3.3714e-07],
+        [ 7.4506e-08,  1.5832e-08,  4.0978e-08,  ...,  9.3132e-10,
+          0.0000e+00,  6.3330e-08],
+        ...,
+        [ 1.2573e-07, -8.7544e-08,  5.4017e-08,  ...,  7.7300e-08,
+          0.0000e+00, -4.2934e-07],
+        [ 2.0396e-07,  1.2107e-08,  5.5879e-08,  ...,  1.1083e-07,
+          0.0000e+00,  2.6077e-08],
+        [ 2.2538e-07, -1.0245e-08, -7.7300e-08,  ...,  4.5635e-08,
+          0.0000e+00,  4.8429e-08]], device='cuda:0')
+Epoch 229, bias, value: tensor([-0.0254, -0.0227, -0.0433,  0.0035,  0.0061,  0.0362,  0.0217, -0.0144,
+         0.0017, -0.0121], device='cuda:0'), grad: tensor([-3.3639e-06,  1.0533e-06,  5.2992e-07,  1.0300e-06,  4.1816e-07,
+        -8.0094e-07, -3.8929e-07, -4.2375e-07,  9.7975e-07,  9.5926e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 228, time 213.92, cls_loss 0.0019 cls_loss_mapping 0.0040 cls_loss_causal 0.5019 re_mapping 0.0051 re_causal 0.0142 /// teacc 99.05 lr 0.00010000
+Epoch 230, weight, value: tensor([[ 0.0206, -0.0845, -0.0565,  ..., -0.1976, -0.0849, -0.1600],
+        [-0.0547, -0.0530, -0.0206,  ...,  0.0395,  0.0247, -0.1185],
+        [ 0.0306, -0.1278, -0.1615,  ...,  0.0135, -0.1554,  0.0706],
+        ...,
+        [-0.0116, -0.0242, -0.1627,  ..., -0.1395,  0.0224,  0.1361],
+        [ 0.0745, -0.1257, -0.1049,  ..., -0.1457, -0.0870, -0.1082],
+        [-0.1829,  0.0198,  0.1099,  ...,  0.0824, -0.0795, -0.1521]],
+       device='cuda:0'), grad: tensor([[ 1.7695e-08,  2.4214e-08,  3.6322e-08,  ...,  1.6764e-08,
+          0.0000e+00,  6.4261e-08],
+        [ 2.4214e-08,  3.4459e-08,  8.3819e-09,  ...,  8.3819e-09,
+          0.0000e+00,  7.8231e-08],
+        [ 8.3819e-09,  1.1176e-08,  1.8626e-09,  ..., -4.6566e-09,
+          0.0000e+00, -4.5635e-08],
+        ...,
+        [-4.2841e-08, -1.8626e-09,  4.6566e-08,  ...,  7.4506e-08,
+          0.0000e+00, -8.1956e-08],
+        [-5.0291e-08,  2.7940e-08,  8.8476e-08,  ...,  1.4901e-07,
+          0.0000e+00,  5.6811e-08],
+        [ 1.5832e-08, -3.4459e-08, -6.6124e-07,  ..., -7.9162e-07,
+          0.0000e+00,  2.4214e-08]], device='cuda:0')
+Epoch 230, bias, value: tensor([-0.0256, -0.0228, -0.0439,  0.0036,  0.0063,  0.0360,  0.0219, -0.0141,
+         0.0010, -0.0117], device='cuda:0'), grad: tensor([ 2.6263e-07,  2.8685e-07, -4.1910e-08, -2.7008e-06,  8.2236e-07,
+         2.6189e-06,  3.4459e-08, -1.1828e-07,  9.3132e-08, -1.2666e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 229, time 214.16, cls_loss 0.0011 cls_loss_mapping 0.0025 cls_loss_causal 0.4752 re_mapping 0.0049 re_causal 0.0149 /// teacc 99.06 lr 0.00010000
+Epoch 231, weight, value: tensor([[ 0.0206, -0.0847, -0.0570,  ..., -0.1984, -0.0850, -0.1602],
+        [-0.0551, -0.0532, -0.0206,  ...,  0.0396,  0.0247, -0.1190],
+        [ 0.0306, -0.1287, -0.1631,  ...,  0.0135, -0.1554,  0.0707],
+        ...,
+        [-0.0118, -0.0243, -0.1632,  ..., -0.1404,  0.0225,  0.1365],
+        [ 0.0746, -0.1258, -0.1045,  ..., -0.1458, -0.0871, -0.1088],
+        [-0.1833,  0.0189,  0.1096,  ...,  0.0823, -0.0796, -0.1522]],
+       device='cuda:0'), grad: tensor([[-1.3970e-07,  3.6322e-08,  9.3132e-08,  ...,  7.4506e-08,
+          0.0000e+00,  6.5193e-09],
+        [ 2.2352e-08,  3.0734e-08,  2.7940e-08,  ..., -3.2596e-08,
+          0.0000e+00,  5.6811e-08],
+        [ 6.5193e-09,  2.5146e-08,  1.8626e-08,  ...,  1.5832e-08,
+          0.0000e+00, -1.4901e-08],
+        ...,
+        [ 9.3132e-09, -5.6811e-08,  6.2399e-08,  ...,  8.3819e-08,
+          0.0000e+00, -2.2724e-07],
+        [-1.8710e-06,  1.9558e-08, -2.2631e-06,  ...,  4.1630e-07,
+          0.0000e+00,  9.1270e-08],
+        [ 5.7742e-08, -2.0862e-07, -4.5355e-07,  ..., -2.4773e-07,
+          0.0000e+00,  1.6764e-08]], device='cuda:0')
+Epoch 231, bias, value: tensor([-0.0257, -0.0230, -0.0438,  0.0037,  0.0069,  0.0360,  0.0219, -0.0141,
+         0.0012, -0.0121], device='cuda:0'), grad: tensor([-2.4494e-07,  1.7229e-07,  7.0781e-08,  1.5646e-07,  4.6752e-07,
+         1.4305e-06,  9.3207e-06, -3.0641e-07, -1.0595e-05, -5.1875e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 230, time 214.00, cls_loss 0.0017 cls_loss_mapping 0.0031 cls_loss_causal 0.5040 re_mapping 0.0047 re_causal 0.0137 /// teacc 99.02 lr 0.00010000
+Epoch 232, weight, value: tensor([[ 0.0209, -0.0850, -0.0573,  ..., -0.2000, -0.0852, -0.1609],
+        [-0.0555, -0.0533, -0.0206,  ...,  0.0399,  0.0246, -0.1191],
+        [ 0.0304, -0.1305, -0.1658,  ...,  0.0135, -0.1554,  0.0709],
+        ...,
+        [-0.0119, -0.0242, -0.1636,  ..., -0.1410,  0.0226,  0.1366],
+        [ 0.0746, -0.1271, -0.1053,  ..., -0.1469, -0.0857, -0.1093],
+        [-0.1837,  0.0189,  0.1095,  ...,  0.0819, -0.0801, -0.1524]],
+       device='cuda:0'), grad: tensor([[-9.7677e-06,  3.7253e-09,  4.3772e-08,  ..., -1.2657e-06,
+          0.0000e+00,  7.4506e-09],
+        [ 1.0245e-07,  5.3085e-08,  3.8184e-08,  ...,  3.3528e-08,
+          0.0000e+00,  2.5239e-07],
+        [ 4.3493e-07,  2.1048e-07,  5.1223e-08,  ...,  7.8231e-08,
+          0.0000e+00,  1.1344e-06],
+        ...,
+        [ 2.7008e-08, -2.8405e-07,  1.0803e-07,  ...,  9.2201e-08,
+          0.0000e+00, -1.5218e-06],
+        [ 1.6671e-07,  4.7497e-08,  1.6578e-07,  ...,  1.4156e-07,
+          0.0000e+00,  1.7881e-07],
+        [ 2.6822e-07, -5.5879e-09,  4.8522e-07,  ...,  2.6170e-07,
+          0.0000e+00,  2.7008e-08]], device='cuda:0')
+Epoch 232, bias, value: tensor([-0.0253, -0.0230, -0.0438,  0.0038,  0.0074,  0.0356,  0.0219, -0.0142,
+         0.0011, -0.0125], device='cuda:0'), grad: tensor([-2.7806e-05,  7.7579e-07,  3.1497e-06, -3.2969e-07, -6.8173e-06,
+         1.4640e-06,  2.8536e-05, -2.0824e-06,  1.1390e-06,  1.9334e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 231, time 213.92, cls_loss 0.0013 cls_loss_mapping 0.0018 cls_loss_causal 0.4833 re_mapping 0.0047 re_causal 0.0139 /// teacc 99.05 lr 0.00010000
+Epoch 233, weight, value: tensor([[ 0.0211, -0.0851, -0.0576,  ..., -0.2002, -0.0855, -0.1610],
+        [-0.0559, -0.0526, -0.0204,  ...,  0.0405,  0.0246, -0.1189],
+        [ 0.0291, -0.1337, -0.1684,  ...,  0.0135, -0.1554,  0.0708],
+        ...,
+        [-0.0121, -0.0250, -0.1639,  ..., -0.1424,  0.0226,  0.1365],
+        [ 0.0750, -0.1246, -0.1054,  ..., -0.1471, -0.0858, -0.1090],
+        [-0.1843,  0.0205,  0.1109,  ...,  0.0831, -0.0802, -0.1525]],
+       device='cuda:0'), grad: tensor([[-5.4576e-07,  1.5832e-08,  1.0058e-07,  ...,  8.9407e-08,
+          0.0000e+00,  6.5193e-09],
+        [ 3.9116e-08,  1.6205e-06,  9.1195e-06,  ...,  8.8513e-06,
+          0.0000e+00,  1.2200e-07],
+        [ 2.3283e-08,  1.4901e-08,  5.8673e-08,  ...,  5.6811e-08,
+          0.0000e+00, -4.8429e-08],
+        ...,
+        [ 1.3039e-08,  1.7183e-06,  1.2055e-05,  ...,  1.1571e-05,
+         -9.3132e-10, -1.7229e-07],
+        [-1.0990e-07,  4.3772e-08,  1.6205e-07,  ...,  1.5739e-07,
+          0.0000e+00,  4.5635e-08],
+        [ 1.1176e-07, -9.5814e-06, -5.9873e-05,  ..., -5.7697e-05,
+          0.0000e+00,  2.8871e-08]], device='cuda:0')
+Epoch 233, bias, value: tensor([-0.0250, -0.0226, -0.0441,  0.0037,  0.0067,  0.0354,  0.0220, -0.0145,
+         0.0013, -0.0118], device='cuda:0'), grad: tensor([-1.6764e-06,  1.6376e-05,  1.1828e-07,  2.5705e-07,  6.6578e-05,
+         2.2445e-07,  1.4473e-06,  2.0489e-05, -3.6880e-07, -1.0353e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 232, time 213.95, cls_loss 0.0014 cls_loss_mapping 0.0030 cls_loss_causal 0.5007 re_mapping 0.0048 re_causal 0.0144 /// teacc 99.01 lr 0.00010000
+Epoch 234, weight, value: tensor([[ 0.0211, -0.0851, -0.0578,  ..., -0.2008, -0.0855, -0.1611],
+        [-0.0562, -0.0526, -0.0200,  ...,  0.0377,  0.0246, -0.1212],
+        [ 0.0294, -0.1339, -0.1716,  ...,  0.0165, -0.1555,  0.0740],
+        ...,
+        [-0.0125, -0.0249, -0.1644,  ..., -0.1432,  0.0227,  0.1369],
+        [ 0.0747, -0.1248, -0.1057,  ..., -0.1478, -0.0858, -0.1098],
+        [-0.1847,  0.0209,  0.1111,  ...,  0.0833, -0.0806, -0.1527]],
+       device='cuda:0'), grad: tensor([[-1.4715e-07,  6.5193e-08,  1.6484e-07,  ...,  1.8813e-07,
+          0.0000e+00,  5.6811e-08],
+        [ 2.0489e-08,  1.3318e-07, -2.7008e-08,  ...,  8.9407e-08,
+          9.3132e-10,  1.8347e-07],
+        [-2.7940e-09,  3.4459e-08,  4.4703e-08,  ...,  5.6811e-08,
+          9.3132e-10, -4.6473e-07],
+        ...,
+        [ 9.3132e-09,  1.7323e-07,  9.1828e-07,  ...,  9.9372e-07,
+         -9.3132e-10,  6.3330e-08],
+        [ 1.3504e-07,  9.0338e-08,  4.8243e-07,  ...,  6.7893e-07,
+          2.7940e-09,  1.1548e-07],
+        [ 3.1665e-08, -7.3500e-06, -3.7313e-05,  ..., -3.0756e-05,
+          0.0000e+00,  5.4948e-08]], device='cuda:0')
+Epoch 234, bias, value: tensor([-0.0249, -0.0252, -0.0410,  0.0036,  0.0066,  0.0359,  0.0216, -0.0145,
+         0.0010, -0.0118], device='cuda:0'), grad: tensor([-4.0047e-08, -8.8196e-07, -7.4692e-07,  1.5777e-06,  4.9293e-05,
+        -5.2433e-07, -4.7497e-08,  2.9244e-06,  2.1346e-06, -5.3793e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 233, time 214.07, cls_loss 0.0013 cls_loss_mapping 0.0025 cls_loss_causal 0.4976 re_mapping 0.0045 re_causal 0.0139 /// teacc 98.99 lr 0.00010000
+Epoch 235, weight, value: tensor([[ 0.0213, -0.0865, -0.0571,  ..., -0.2017, -0.0855, -0.1630],
+        [-0.0564, -0.0526, -0.0200,  ...,  0.0377,  0.0247, -0.1213],
+        [ 0.0297, -0.1341, -0.1719,  ...,  0.0165, -0.1551,  0.0745],
+        ...,
+        [-0.0130, -0.0250, -0.1648,  ..., -0.1437,  0.0226,  0.1367],
+        [ 0.0744, -0.1250, -0.1067,  ..., -0.1485, -0.0864, -0.1107],
+        [-0.1862,  0.0210,  0.1113,  ...,  0.0834, -0.0807, -0.1528]],
+       device='cuda:0'), grad: tensor([[-1.3616e-06,  9.3132e-10, -3.4925e-07,  ...,  1.2107e-08,
+          0.0000e+00,  5.5879e-09],
+        [ 8.2329e-07,  2.7940e-09,  2.5798e-07,  ...,  2.7940e-08,
+          0.0000e+00,  2.6077e-08],
+        [ 4.1910e-08,  1.8626e-09,  1.7695e-08,  ...,  1.8626e-09,
+          0.0000e+00, -4.6566e-09],
+        ...,
+        [ 1.3970e-08,  9.3132e-09,  2.0582e-07,  ...,  1.8626e-07,
+          0.0000e+00,  2.7008e-08],
+        [ 7.4506e-08,  1.0245e-08,  1.3504e-07,  ...,  9.9652e-08,
+          0.0000e+00,  8.6613e-08],
+        [ 5.5879e-08, -6.2399e-08, -1.7881e-06,  ..., -1.7192e-06,
+          0.0000e+00,  2.0489e-08]], device='cuda:0')
+Epoch 235, bias, value: tensor([-0.0249, -0.0252, -0.0409,  0.0046,  0.0066,  0.0353,  0.0214, -0.0148,
+         0.0002, -0.0118], device='cuda:0'), grad: tensor([-4.5635e-06,  2.8946e-06,  1.5460e-07, -7.1432e-07,  2.3711e-06,
+         6.6310e-07,  1.0086e-06,  4.7497e-07,  3.8557e-07, -2.6785e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 234, time 214.35, cls_loss 0.0011 cls_loss_mapping 0.0021 cls_loss_causal 0.5038 re_mapping 0.0044 re_causal 0.0142 /// teacc 98.99 lr 0.00010000
+Epoch 236, weight, value: tensor([[ 0.0213, -0.0867, -0.0590,  ..., -0.2022, -0.0855, -0.1633],
+        [-0.0569, -0.0505, -0.0195,  ...,  0.0378,  0.0273, -0.1208],
+        [ 0.0297, -0.1343, -0.1724,  ...,  0.0165, -0.1551,  0.0747],
+        ...,
+        [-0.0135, -0.0266, -0.1656,  ..., -0.1449,  0.0201,  0.1361],
+        [ 0.0744, -0.1253, -0.1072,  ..., -0.1488, -0.0867, -0.1110],
+        [-0.1871,  0.0208,  0.1115,  ...,  0.0835, -0.0807, -0.1532]],
+       device='cuda:0'), grad: tensor([[-2.6077e-08,  1.8626e-09,  4.1910e-08,  ...,  8.3819e-09,
+          0.0000e+00,  1.1176e-08],
+        [ 2.7940e-09,  5.0291e-08, -3.2596e-08,  ..., -6.4261e-08,
+         -7.4506e-09,  1.6019e-07],
+        [ 3.7253e-09,  1.5832e-08,  1.0245e-08,  ...,  2.7940e-09,
+          0.0000e+00,  6.7987e-08],
+        ...,
+        [ 1.8626e-09,  2.2072e-07,  6.3330e-08,  ...,  8.1025e-08,
+          4.6566e-09,  4.3772e-08],
+        [ 1.8626e-08,  1.1176e-08,  6.2399e-08,  ...,  2.3283e-08,
+          0.0000e+00,  4.3772e-08],
+        [ 2.7008e-08, -1.4901e-08,  7.8231e-08,  ...,  3.5390e-08,
+          9.3132e-10,  3.6322e-08]], device='cuda:0')
+Epoch 236, bias, value: tensor([-0.0251, -0.0247, -0.0408,  0.0045,  0.0064,  0.0353,  0.0220, -0.0158,
+        -0.0002, -0.0117], device='cuda:0'), grad: tensor([-1.5832e-08,  1.4994e-07,  1.4249e-07, -5.8580e-07, -2.4959e-07,
+        -5.2154e-08, -2.1607e-07,  3.2224e-07,  2.2724e-07,  2.7753e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 235, time 213.93, cls_loss 0.0012 cls_loss_mapping 0.0019 cls_loss_causal 0.4988 re_mapping 0.0042 re_causal 0.0133 /// teacc 99.07 lr 0.00010000
+Epoch 237, weight, value: tensor([[ 0.0213, -0.0868, -0.0590,  ..., -0.2027, -0.0855, -0.1636],
+        [-0.0572, -0.0505, -0.0191,  ...,  0.0379,  0.0274, -0.1209],
+        [ 0.0315, -0.1349, -0.1727,  ...,  0.0165, -0.1536,  0.0750],
+        ...,
+        [-0.0141, -0.0264, -0.1661,  ..., -0.1454,  0.0201,  0.1364],
+        [ 0.0739, -0.1254, -0.1074,  ..., -0.1493, -0.0891, -0.1127],
+        [-0.1887,  0.0208,  0.1114,  ...,  0.0834, -0.0808, -0.1533]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-08,  9.3132e-10,  4.6566e-08,  ...,  5.5879e-09,
+          0.0000e+00,  5.5879e-09],
+        [ 1.2107e-08,  1.4901e-08, -9.3132e-10,  ..., -6.5193e-09,
+         -0.0000e+00,  4.6566e-08],
+        [ 7.4506e-09,  3.7253e-09,  8.3819e-09,  ...,  1.8626e-09,
+          0.0000e+00, -1.5181e-07],
+        ...,
+        [ 7.4506e-09, -1.8626e-09,  7.6368e-08,  ...,  3.2596e-08,
+          0.0000e+00,  7.5437e-08],
+        [-3.4459e-08,  1.0245e-08,  5.7742e-08,  ...,  9.3132e-09,
+          0.0000e+00,  3.9116e-08],
+        [ 1.8626e-08, -1.5832e-08,  1.5832e-08,  ...,  5.5879e-08,
+          0.0000e+00,  8.3819e-09]], device='cuda:0')
+Epoch 237, bias, value: tensor([-0.0250, -0.0247, -0.0407,  0.0044,  0.0066,  0.0352,  0.0221, -0.0159,
+        -0.0009, -0.0120], device='cuda:0'), grad: tensor([ 1.1921e-07,  1.0245e-07, -1.4808e-07, -7.5437e-08, -9.3132e-08,
+         2.2724e-07, -2.7008e-07,  3.0454e-07, -4.1630e-07,  2.4308e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 236, time 214.02, cls_loss 0.0014 cls_loss_mapping 0.0024 cls_loss_causal 0.5086 re_mapping 0.0044 re_causal 0.0138 /// teacc 99.02 lr 0.00010000
+Epoch 238, weight, value: tensor([[ 0.0213, -0.0873, -0.0611,  ..., -0.2038, -0.0864, -0.1638],
+        [-0.0577, -0.0506, -0.0190,  ...,  0.0379,  0.0273, -0.1206],
+        [ 0.0313, -0.1352, -0.1730,  ...,  0.0165, -0.1536,  0.0753],
+        ...,
+        [-0.0145, -0.0264, -0.1663,  ..., -0.1456,  0.0201,  0.1359],
+        [ 0.0739, -0.1253, -0.1077,  ..., -0.1499, -0.0894, -0.1132],
+        [-0.1898,  0.0210,  0.1115,  ...,  0.0834, -0.0810, -0.1535]],
+       device='cuda:0'), grad: tensor([[ 5.0291e-08,  1.3970e-08,  4.6566e-08,  ...,  2.4214e-08,
+          2.7940e-09,  4.0047e-08],
+        [ 2.5146e-08,  2.7008e-08, -1.0068e-06,  ..., -8.4005e-07,
+          0.0000e+00,  4.6566e-08],
+        [ 5.2247e-07,  3.7253e-09,  2.0489e-08,  ..., -1.4435e-07,
+          0.0000e+00, -3.7439e-07],
+        ...,
+        [ 1.3039e-08,  6.3330e-08,  1.4063e-07,  ...,  1.4994e-07,
+          0.0000e+00,  8.4750e-08],
+        [-1.7136e-06,  6.2399e-08, -4.2841e-08,  ...,  8.1956e-08,
+          9.3132e-10,  7.4506e-08],
+        [ 1.4901e-08,  4.6566e-09,  1.1176e-08,  ...,  7.7300e-08,
+          0.0000e+00,  2.4121e-07]], device='cuda:0')
+Epoch 238, bias, value: tensor([-0.0253, -0.0245, -0.0407,  0.0044,  0.0066,  0.0357,  0.0218, -0.0163,
+        -0.0008, -0.0121], device='cuda:0'), grad: tensor([ 3.3807e-07, -1.3821e-06,  1.2545e-06, -1.8664e-06,  1.3746e-06,
+         6.3926e-06,  1.5115e-06,  5.5786e-07, -8.9034e-06,  6.8638e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 237, time 213.91, cls_loss 0.0012 cls_loss_mapping 0.0022 cls_loss_causal 0.4891 re_mapping 0.0044 re_causal 0.0134 /// teacc 99.03 lr 0.00010000
+Epoch 239, weight, value: tensor([[ 0.0213, -0.0878, -0.0619,  ..., -0.2056, -0.0866, -0.1641],
+        [-0.0583, -0.0507, -0.0191,  ...,  0.0379,  0.0273, -0.1207],
+        [ 0.0312, -0.1353, -0.1734,  ...,  0.0165, -0.1536,  0.0763],
+        ...,
+        [-0.0147, -0.0264, -0.1664,  ..., -0.1458,  0.0201,  0.1353],
+        [ 0.0739, -0.1254, -0.1077,  ..., -0.1501, -0.0896, -0.1137],
+        [-0.1906,  0.0217,  0.1119,  ...,  0.0838, -0.0810, -0.1536]],
+       device='cuda:0'), grad: tensor([[-1.0971e-06,  0.0000e+00,  6.5193e-09,  ..., -2.2911e-07,
+          0.0000e+00,  9.3132e-10],
+        [ 2.7847e-07,  4.6566e-09, -1.9595e-06,  ...,  8.6613e-08,
+          0.0000e+00,  1.1176e-08],
+        [ 6.2399e-08,  0.0000e+00,  1.5423e-06,  ...,  3.3528e-08,
+          0.0000e+00, -5.0850e-06],
+        ...,
+        [ 9.2201e-08,  9.3132e-10,  3.4925e-07,  ...,  3.0734e-08,
+          0.0000e+00,  5.0552e-06],
+        [ 1.3970e-08,  2.7940e-09,  2.6077e-08,  ...,  2.1886e-07,
+          0.0000e+00,  4.3772e-08],
+        [ 1.8254e-07, -4.6566e-09,  1.7695e-08,  ...,  6.9849e-08,
+          0.0000e+00,  3.7253e-09]], device='cuda:0')
+Epoch 239, bias, value: tensor([-0.0254, -0.0245, -0.0405,  0.0043,  0.0063,  0.0358,  0.0221, -0.0166,
+        -0.0006, -0.0119], device='cuda:0'), grad: tensor([-2.8461e-06, -2.1607e-05,  1.4015e-05,  1.2955e-06,  3.4086e-07,
+         4.3586e-07,  3.0566e-06,  1.2435e-05, -9.3132e-06,  2.2184e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 238, time 214.01, cls_loss 0.0011 cls_loss_mapping 0.0022 cls_loss_causal 0.4944 re_mapping 0.0044 re_causal 0.0134 /// teacc 99.03 lr 0.00010000
+Epoch 240, weight, value: tensor([[ 0.0214, -0.0880, -0.0629,  ..., -0.2066, -0.0866, -0.1642],
+        [-0.0585, -0.0509, -0.0202,  ...,  0.0377,  0.0273, -0.1209],
+        [ 0.0311, -0.1357, -0.1735,  ...,  0.0165, -0.1536,  0.0764],
+        ...,
+        [-0.0152, -0.0260, -0.1666,  ..., -0.1461,  0.0201,  0.1356],
+        [ 0.0737, -0.1258, -0.1086,  ..., -0.1511, -0.0896, -0.1141],
+        [-0.1914,  0.0217,  0.1124,  ...,  0.0843, -0.0810, -0.1539]],
+       device='cuda:0'), grad: tensor([[ 2.2352e-08,  0.0000e+00,  3.6322e-08,  ...,  1.5832e-08,
+          0.0000e+00,  1.2014e-07],
+        [ 3.7253e-09,  1.8626e-09, -1.1455e-07,  ..., -1.1362e-07,
+          0.0000e+00,  1.1642e-07],
+        [-9.5926e-08,  0.0000e+00,  1.8626e-09,  ..., -1.8626e-08,
+          0.0000e+00, -7.4357e-06],
+        ...,
+        [ 9.4064e-08,  0.0000e+00,  1.8626e-08,  ...,  2.4214e-08,
+          0.0000e+00,  7.0184e-06],
+        [ 1.2107e-08,  9.3132e-10,  2.9802e-08,  ...,  8.5682e-08,
+          0.0000e+00,  1.0710e-07],
+        [ 1.3970e-08, -1.8626e-08, -7.7300e-08,  ..., -8.3819e-08,
+          0.0000e+00,  9.3132e-09]], device='cuda:0')
+Epoch 240, bias, value: tensor([-0.0254, -0.0247, -0.0405,  0.0039,  0.0062,  0.0362,  0.0222, -0.0167,
+        -0.0008, -0.0114], device='cuda:0'), grad: tensor([ 3.4552e-07, -4.3772e-08, -1.4380e-05,  1.3504e-07,  9.4995e-08,
+         1.1176e-08,  6.2399e-08,  1.4946e-05, -1.1902e-06,  4.0047e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 239, time 214.28, cls_loss 0.0012 cls_loss_mapping 0.0025 cls_loss_causal 0.5017 re_mapping 0.0046 re_causal 0.0143 /// teacc 99.10 lr 0.00010000
+Epoch 241, weight, value: tensor([[ 0.0214, -0.0883, -0.0638,  ..., -0.2073, -0.0867, -0.1647],
+        [-0.0589, -0.0502, -0.0180,  ...,  0.0382,  0.0274, -0.1210],
+        [ 0.0309, -0.1367, -0.1741,  ...,  0.0165, -0.1538,  0.0767],
+        ...,
+        [-0.0156, -0.0267, -0.1690,  ..., -0.1488,  0.0201,  0.1359],
+        [ 0.0739, -0.1259, -0.1082,  ..., -0.1512, -0.0898, -0.1144],
+        [-0.1930,  0.0218,  0.1124,  ...,  0.0843, -0.0810, -0.1541]],
+       device='cuda:0'), grad: tensor([[ 1.4901e-08,  7.4506e-09,  3.4459e-08,  ...,  1.2107e-08,
+          0.0000e+00,  2.7940e-08],
+        [ 8.3819e-09,  2.6170e-07,  6.6124e-08,  ..., -6.7055e-08,
+          0.0000e+00,  6.1933e-07],
+        [ 1.8626e-09,  4.0978e-08,  3.0734e-08,  ...,  8.3819e-09,
+          0.0000e+00,  1.5292e-06],
+        ...,
+        [ 2.7940e-09, -5.0291e-07, -8.3819e-08,  ...,  1.0058e-07,
+          0.0000e+00, -3.1367e-06],
+        [-6.1467e-08,  2.5146e-08,  2.6636e-07,  ...,  2.9802e-07,
+          0.0000e+00,  6.1188e-07],
+        [ 5.5879e-09,  1.7788e-07, -1.4529e-07,  ..., -7.1712e-08,
+          0.0000e+00,  3.0361e-07]], device='cuda:0')
+Epoch 241, bias, value: tensor([-0.0256, -0.0243, -0.0404,  0.0036,  0.0063,  0.0362,  0.0223, -0.0173,
+        -0.0005, -0.0116], device='cuda:0'), grad: tensor([ 1.3318e-07,  1.4212e-06,  2.5816e-06,  6.4261e-08, -1.5022e-06,
+         4.3306e-07,  1.0571e-06, -5.8711e-06,  8.1118e-07,  8.4843e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 240, time 214.26, cls_loss 0.0016 cls_loss_mapping 0.0024 cls_loss_causal 0.4761 re_mapping 0.0044 re_causal 0.0128 /// teacc 99.01 lr 0.00010000
+Epoch 242, weight, value: tensor([[ 0.0216, -0.0891, -0.0644,  ..., -0.2088, -0.0864, -0.1652],
+        [-0.0593, -0.0502, -0.0178,  ...,  0.0382,  0.0275, -0.1211],
+        [ 0.0311, -0.1373, -0.1749,  ...,  0.0166, -0.1540,  0.0769],
+        ...,
+        [-0.0175, -0.0267, -0.1696,  ..., -0.1493,  0.0201,  0.1361],
+        [ 0.0736, -0.1250, -0.1101,  ..., -0.1521, -0.0917, -0.1149],
+        [-0.1960,  0.0219,  0.1135,  ...,  0.0853, -0.0816, -0.1544]],
+       device='cuda:0'), grad: tensor([[ 2.0396e-07,  4.6566e-09,  1.4808e-07,  ...,  2.4214e-08,
+          9.3132e-10,  1.8626e-08],
+        [ 5.7742e-08,  1.6484e-07, -2.8685e-07,  ..., -5.0198e-07,
+         -7.2643e-08,  5.7183e-07],
+        [ 2.3283e-08,  6.6124e-08,  3.3528e-08,  ...,  1.5646e-07,
+          5.5879e-09, -1.8626e-08],
+        ...,
+        [ 1.8626e-09, -4.8801e-07,  3.1292e-07,  ..., -6.0629e-07,
+          1.3970e-08, -1.8505e-06],
+        [ 1.9278e-07,  8.3819e-09,  2.5984e-07,  ...,  8.8476e-08,
+          4.6566e-09,  1.6019e-07],
+        [ 1.2107e-08,  1.4901e-07, -3.6880e-07,  ...,  3.2131e-07,
+          7.4506e-09,  1.1148e-06]], device='cuda:0')
+Epoch 242, bias, value: tensor([-0.0254, -0.0242, -0.0404,  0.0035,  0.0053,  0.0360,  0.0227, -0.0175,
+        -0.0008, -0.0107], device='cuda:0'), grad: tensor([ 5.6252e-07,  8.1956e-08,  1.7043e-07, -1.4249e-07,  5.3365e-07,
+         1.0636e-06, -2.0452e-06, -3.2187e-06,  1.1520e-06,  1.8515e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 241, time 214.21, cls_loss 0.0011 cls_loss_mapping 0.0021 cls_loss_causal 0.4993 re_mapping 0.0046 re_causal 0.0141 /// teacc 99.08 lr 0.00010000
+Epoch 243, weight, value: tensor([[ 0.0217, -0.0901, -0.0648,  ..., -0.2092, -0.0864, -0.1642],
+        [-0.0601, -0.0508, -0.0176,  ...,  0.0383,  0.0275, -0.1213],
+        [ 0.0308, -0.1380, -0.1761,  ...,  0.0165, -0.1541,  0.0767],
+        ...,
+        [-0.0177, -0.0257, -0.1695,  ..., -0.1494,  0.0201,  0.1369],
+        [ 0.0739, -0.1256, -0.1100,  ..., -0.1522, -0.0917, -0.1157],
+        [-0.1969,  0.0214,  0.1133,  ...,  0.0851, -0.0816, -0.1554]],
+       device='cuda:0'), grad: tensor([[-5.3737e-07, -5.9605e-08,  3.2037e-07,  ...,  1.5274e-07,
+          2.4214e-08,  4.8429e-08],
+        [ 3.6322e-08,  1.3039e-08, -3.8184e-07,  ..., -2.4401e-07,
+          0.0000e+00,  2.2352e-08],
+        [ 1.0179e-06,  3.8184e-08,  5.7444e-06,  ...,  5.2415e-06,
+          0.0000e+00,  1.1092e-06],
+        ...,
+        [ 1.6764e-08,  2.7940e-09,  2.1327e-07,  ...,  2.7940e-07,
+          0.0000e+00, -2.1420e-08],
+        [-5.3085e-07, -9.2201e-08,  3.0734e-08,  ...,  4.7497e-08,
+          9.3132e-10, -1.3970e-08],
+        [ 2.1700e-07,  2.2165e-07,  1.0757e-06,  ...,  8.0094e-07,
+          0.0000e+00,  2.2165e-07]], device='cuda:0')
+Epoch 243, bias, value: tensor([-0.0252, -0.0239, -0.0409,  0.0034,  0.0055,  0.0361,  0.0223, -0.0170,
+        -0.0007, -0.0111], device='cuda:0'), grad: tensor([-4.5169e-07, -1.0550e-05,  1.8567e-05,  1.7434e-06, -1.9372e-05,
+         8.5216e-07,  5.5581e-06,  1.0254e-06, -3.5018e-07,  2.9095e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 242, time 214.12, cls_loss 0.0012 cls_loss_mapping 0.0023 cls_loss_causal 0.4966 re_mapping 0.0045 re_causal 0.0135 /// teacc 98.94 lr 0.00010000
+Epoch 244, weight, value: tensor([[ 0.0217, -0.0903, -0.0655,  ..., -0.2091, -0.0858, -0.1643],
+        [-0.0612, -0.0509, -0.0174,  ...,  0.0383,  0.0274, -0.1214],
+        [ 0.0307, -0.1383, -0.1770,  ...,  0.0165, -0.1543,  0.0770],
+        ...,
+        [-0.0185, -0.0248, -0.1698,  ..., -0.1496,  0.0200,  0.1378],
+        [ 0.0738, -0.1261, -0.1106,  ..., -0.1529, -0.0947, -0.1164],
+        [-0.1981,  0.0215,  0.1134,  ...,  0.0852, -0.0818, -0.1560]],
+       device='cuda:0'), grad: tensor([[-4.6566e-09,  4.6566e-09,  3.6322e-08,  ...,  3.1665e-08,
+          2.7940e-09,  1.1362e-07],
+        [ 9.3132e-10,  2.6543e-07,  8.3819e-08,  ...,  3.0734e-08,
+          5.5879e-09,  5.6252e-07],
+        [ 9.3132e-10,  5.4948e-08,  9.3132e-09,  ...,  1.1176e-08,
+          3.0734e-08, -1.2904e-05],
+        ...,
+        [ 0.0000e+00, -6.7241e-07,  1.3504e-07,  ...,  1.8906e-07,
+         -6.1467e-08,  1.0051e-05],
+        [ 4.6566e-09,  5.4017e-08,  1.8347e-07,  ...,  2.2352e-07,
+          2.0489e-08,  1.0673e-06],
+        [ 2.7940e-09,  2.4308e-07, -4.4238e-07,  ..., -6.1002e-07,
+          9.3132e-10,  5.1223e-07]], device='cuda:0')
+Epoch 244, bias, value: tensor([-0.0250, -0.0239, -0.0409,  0.0034,  0.0053,  0.0362,  0.0223, -0.0168,
+        -0.0012, -0.0112], device='cuda:0'), grad: tensor([ 2.6450e-07,  1.5302e-06, -2.3335e-05,  9.8255e-07, -1.6391e-07,
+         2.1607e-07,  1.3597e-07,  1.7509e-05,  2.3134e-06,  5.3179e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 243, time 214.06, cls_loss 0.0016 cls_loss_mapping 0.0017 cls_loss_causal 0.5116 re_mapping 0.0047 re_causal 0.0141 /// teacc 98.97 lr 0.00010000
+Epoch 245, weight, value: tensor([[ 0.0216, -0.0904, -0.0659,  ..., -0.2098, -0.0859, -0.1649],
+        [-0.0618, -0.0510, -0.0175,  ...,  0.0383,  0.0273, -0.1216],
+        [ 0.0309, -0.1387, -0.1772,  ...,  0.0165, -0.1540,  0.0780],
+        ...,
+        [-0.0188, -0.0245, -0.1701,  ..., -0.1496,  0.0200,  0.1383],
+        [ 0.0737, -0.1265, -0.1109,  ..., -0.1536, -0.0964, -0.1186],
+        [-0.2014,  0.0226,  0.1139,  ...,  0.0856, -0.0845, -0.1574]],
+       device='cuda:0'), grad: tensor([[ 2.1607e-07,  2.7940e-09,  4.2841e-08,  ...,  6.4820e-07,
+          0.0000e+00,  2.8033e-07],
+        [ 1.0431e-07,  2.6077e-08,  1.1362e-07,  ...,  3.5670e-07,
+          0.0000e+00,  2.0023e-07],
+        [ 2.2445e-07,  6.5193e-09,  8.1956e-08,  ...,  6.7893e-07,
+          0.0000e+00,  1.2051e-06],
+        ...,
+        [ 4.9453e-07,  1.4901e-07,  8.0746e-07,  ...,  1.9949e-06,
+          0.0000e+00, -3.0827e-07],
+        [ 3.1665e-07,  1.3039e-08,  5.6811e-08,  ...,  8.7079e-07,
+          0.0000e+00,  4.0606e-07],
+        [ 3.1386e-07,  1.0617e-07,  1.8924e-05,  ...,  1.6600e-05,
+          0.0000e+00,  5.3644e-07]], device='cuda:0')
+Epoch 245, bias, value: tensor([-0.0253, -0.0241, -0.0406,  0.0032,  0.0054,  0.0361,  0.0229, -0.0164,
+        -0.0018, -0.0118], device='cuda:0'), grad: tensor([ 1.4650e-06,  9.4995e-07,  2.7418e-06,  6.7115e-05, -3.6657e-05,
+        -7.8440e-05,  1.3532e-06,  3.4459e-06,  2.0713e-06,  3.5912e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 244, time 214.22, cls_loss 0.0011 cls_loss_mapping 0.0024 cls_loss_causal 0.4967 re_mapping 0.0044 re_causal 0.0138 /// teacc 98.99 lr 0.00010000
+Epoch 246, weight, value: tensor([[ 0.0216, -0.0904, -0.0664,  ..., -0.2103, -0.0861, -0.1651],
+        [-0.0621, -0.0514, -0.0181,  ...,  0.0382,  0.0273, -0.1219],
+        [ 0.0308, -0.1390, -0.1776,  ...,  0.0165, -0.1540,  0.0778],
+        ...,
+        [-0.0190, -0.0242, -0.1703,  ..., -0.1494,  0.0200,  0.1392],
+        [ 0.0735, -0.1268, -0.1111,  ..., -0.1541, -0.0965, -0.1196],
+        [-0.2018,  0.0231,  0.1142,  ...,  0.0860, -0.0845, -0.1577]],
+       device='cuda:0'), grad: tensor([[-6.3330e-08,  1.8626e-09,  8.2888e-08,  ...,  8.0094e-08,
+          0.0000e+00,  2.7940e-09],
+        [ 2.7940e-09,  1.7695e-08, -1.0235e-06,  ..., -9.6578e-07,
+          0.0000e+00,  1.9558e-08],
+        [ 9.3132e-10,  1.0245e-08,  1.7695e-08,  ...,  1.8626e-08,
+          0.0000e+00, -9.3132e-10],
+        ...,
+        [ 9.3132e-10,  2.6077e-08,  2.0768e-07,  ...,  2.4028e-07,
+          0.0000e+00,  3.0734e-08],
+        [-6.5193e-09,  5.5879e-09,  4.8336e-07,  ...,  4.8988e-07,
+          0.0000e+00,  1.3970e-08],
+        [ 1.1176e-08,  5.8208e-07,  3.8743e-06,  ...,  3.4459e-06,
+          0.0000e+00,  1.5832e-08]], device='cuda:0')
+Epoch 246, bias, value: tensor([-0.0253, -0.0242, -0.0407,  0.0032,  0.0052,  0.0361,  0.0231, -0.0160,
+        -0.0023, -0.0116], device='cuda:0'), grad: tensor([ 4.4703e-08, -2.6934e-06,  4.2841e-08, -3.5297e-07, -6.4597e-06,
+         2.7753e-07,  6.6403e-07,  6.0722e-07,  1.2713e-06,  6.6049e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 245, time 214.15, cls_loss 0.0010 cls_loss_mapping 0.0019 cls_loss_causal 0.5008 re_mapping 0.0044 re_causal 0.0142 /// teacc 99.00 lr 0.00010000
+Epoch 247, weight, value: tensor([[ 0.0217, -0.0905, -0.0665,  ..., -0.2085, -0.0862, -0.1653],
+        [-0.0638, -0.0514, -0.0183,  ...,  0.0381,  0.0273, -0.1220],
+        [ 0.0316, -0.1395, -0.1779,  ...,  0.0165, -0.1541,  0.0780],
+        ...,
+        [-0.0211, -0.0244, -0.1705,  ..., -0.1497,  0.0201,  0.1394],
+        [ 0.0736, -0.1270, -0.1111,  ..., -0.1545, -0.0965, -0.1210],
+        [-0.2023,  0.0233,  0.1146,  ...,  0.0864, -0.0852, -0.1581]],
+       device='cuda:0'), grad: tensor([[ 1.6764e-08,  0.0000e+00,  1.3458e-07,  ...,  1.2945e-07,
+          8.8476e-09,  9.3132e-09],
+        [ 7.0594e-07,  6.9849e-09, -3.1525e-07,  ..., -3.9162e-07,
+         -5.1688e-08,  3.3062e-07],
+        [ 1.4063e-07,  3.7253e-09,  6.5193e-08,  ...,  9.4995e-08,
+          6.9849e-09, -8.7544e-08],
+        ...,
+        [ 3.8650e-08, -3.3528e-08,  2.6915e-07,  ...,  2.6776e-07,
+          9.3132e-09, -7.4646e-07],
+        [-1.2163e-06,  3.7253e-09,  1.5972e-07,  ...,  1.0710e-07,
+          1.7229e-08,  1.0850e-07],
+        [ 2.0489e-08,  2.2817e-08, -5.1362e-07,  ..., -4.4983e-07,
+         -1.0245e-08,  3.1618e-07]], device='cuda:0')
+Epoch 247, bias, value: tensor([-0.0251, -0.0243, -0.0404,  0.0030,  0.0049,  0.0363,  0.0230, -0.0161,
+        -0.0029, -0.0114], device='cuda:0'), grad: tensor([ 3.7020e-07,  1.6056e-06,  3.0873e-07,  1.2899e-07,  4.6007e-07,
+         8.0373e-07,  9.2667e-08, -1.5404e-06, -2.2016e-06, -2.9802e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 246, time 214.18, cls_loss 0.0012 cls_loss_mapping 0.0019 cls_loss_causal 0.5058 re_mapping 0.0041 re_causal 0.0134 /// teacc 98.99 lr 0.00010000
+Epoch 248, weight, value: tensor([[ 0.0216, -0.0906, -0.0680,  ..., -0.2080, -0.0868, -0.1654],
+        [-0.0649, -0.0517, -0.0183,  ...,  0.0381,  0.0273, -0.1223],
+        [ 0.0314, -0.1402, -0.1785,  ...,  0.0165, -0.1543,  0.0781],
+        ...,
+        [-0.0214, -0.0243, -0.1705,  ..., -0.1497,  0.0194,  0.1401],
+        [ 0.0737, -0.1275, -0.1116,  ..., -0.1550, -0.0971, -0.1224],
+        [-0.2028,  0.0236,  0.1153,  ...,  0.0870, -0.0855, -0.1584]],
+       device='cuda:0'), grad: tensor([[ 1.8254e-06,  0.0000e+00,  1.3253e-06,  ...,  3.2596e-09,
+          0.0000e+00,  4.6566e-09],
+        [ 1.8161e-08,  2.7940e-09,  5.1688e-08,  ..., -2.4214e-08,
+         -9.3132e-10,  7.5903e-08],
+        [ 2.1420e-08,  4.6566e-10,  4.0047e-08,  ...,  3.2596e-09,
+          4.6566e-10, -1.1222e-07],
+        ...,
+        [ 3.7253e-09,  2.3283e-09,  7.4040e-08,  ...,  4.2375e-08,
+          4.6566e-10,  2.2817e-08],
+        [-2.3860e-06,  1.3970e-09, -3.1367e-06,  ...,  5.0757e-08,
+          0.0000e+00, -4.6566e-08],
+        [ 2.7101e-07, -2.7940e-09,  1.3700e-06,  ...,  3.2131e-08,
+          0.0000e+00,  4.3772e-08]], device='cuda:0')
+Epoch 248, bias, value: tensor([-0.0252, -0.0245, -0.0404,  0.0031,  0.0042,  0.0362,  0.0235, -0.0158,
+        -0.0035, -0.0109], device='cuda:0'), grad: tensor([ 1.0513e-05,  3.3341e-07, -2.9337e-08,  1.8254e-07,  2.8731e-07,
+         3.5856e-07,  9.6485e-07,  2.3050e-07, -1.8075e-05,  5.2154e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 247, time 213.88, cls_loss 0.0013 cls_loss_mapping 0.0022 cls_loss_causal 0.5106 re_mapping 0.0043 re_causal 0.0133 /// teacc 99.12 lr 0.00010000
+Epoch 249, weight, value: tensor([[ 0.0214, -0.0908, -0.0657,  ..., -0.2088, -0.0899, -0.1656],
+        [-0.0655, -0.0518, -0.0187,  ...,  0.0381,  0.0270, -0.1225],
+        [ 0.0310, -0.1407, -0.1796,  ...,  0.0165, -0.1538,  0.0781],
+        ...,
+        [-0.0218, -0.0243, -0.1707,  ..., -0.1502,  0.0196,  0.1402],
+        [ 0.0744, -0.1279, -0.1118,  ..., -0.1556, -0.0972, -0.1224],
+        [-0.2039,  0.0233,  0.1150,  ...,  0.0868, -0.0859, -0.1588]],
+       device='cuda:0'), grad: tensor([[ 1.4435e-08,  2.0489e-08,  1.3737e-07,  ...,  8.0559e-08,
+          3.7253e-09,  1.8626e-09],
+        [ 2.3283e-09,  1.1977e-06,  5.1968e-06,  ...,  3.9786e-06,
+         -9.3132e-10,  2.1420e-08],
+        [ 7.9162e-09,  3.3993e-08,  1.3411e-07,  ...,  9.2201e-08,
+          4.6566e-10,  2.1420e-08],
+        ...,
+        [ 4.6566e-10,  4.7497e-08,  3.1944e-07,  ...,  2.3982e-07,
+         -9.3132e-10, -3.1199e-08],
+        [ 5.1223e-09,  8.8010e-08,  1.0030e-06,  ...,  3.4180e-07,
+          2.3283e-09,  1.5367e-08],
+        [ 1.8626e-09, -2.0489e-08,  2.5425e-07,  ...,  5.7975e-07,
+         -9.3132e-10,  8.8476e-09]], device='cuda:0')
+Epoch 249, bias, value: tensor([-0.0248, -0.0246, -0.0404,  0.0031,  0.0044,  0.0363,  0.0237, -0.0159,
+        -0.0027, -0.0115], device='cuda:0'), grad: tensor([ 3.2876e-07,  1.4298e-05,  4.0606e-07, -3.6322e-08, -2.2903e-05,
+         9.3132e-08,  4.6231e-06,  7.3621e-07,  1.8738e-06,  5.8627e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 248, time 214.26, cls_loss 0.0013 cls_loss_mapping 0.0021 cls_loss_causal 0.5035 re_mapping 0.0043 re_causal 0.0131 /// teacc 99.07 lr 0.00010000
+Epoch 250, weight, value: tensor([[ 0.0215, -0.0929, -0.0660,  ..., -0.2116, -0.0899, -0.1671],
+        [-0.0660, -0.0522, -0.0191,  ...,  0.0382,  0.0269, -0.1227],
+        [ 0.0303, -0.1419, -0.1805,  ...,  0.0165, -0.1540,  0.0780],
+        ...,
+        [-0.0221, -0.0244, -0.1712,  ..., -0.1510,  0.0197,  0.1404],
+        [ 0.0752, -0.1285, -0.1117,  ..., -0.1565, -0.0971, -0.1232],
+        [-0.2046,  0.0234,  0.1146,  ...,  0.0865, -0.0854, -0.1590]],
+       device='cuda:0'), grad: tensor([[-6.1002e-08,  0.0000e+00,  1.6298e-08,  ...,  1.8626e-09,
+          0.0000e+00,  1.7229e-08],
+        [ 3.5390e-08,  1.8626e-09,  5.0291e-08,  ..., -1.4901e-08,
+          0.0000e+00,  9.9186e-08],
+        [ 3.7719e-08,  4.6566e-10,  7.4506e-09,  ...,  4.6566e-10,
+          0.0000e+00, -1.0421e-06],
+        ...,
+        [ 8.3819e-09,  6.9849e-09,  5.5879e-08,  ...,  1.3039e-08,
+          0.0000e+00,  3.6322e-08],
+        [-3.5390e-08,  9.3132e-10,  3.6601e-07,  ...,  6.5193e-09,
+          0.0000e+00,  8.3912e-07],
+        [ 1.5832e-08,  9.3132e-10,  9.6392e-08,  ...,  2.1886e-08,
+          0.0000e+00,  1.2107e-08]], device='cuda:0')
+Epoch 250, bias, value: tensor([-0.0252, -0.0247, -0.0405,  0.0036,  0.0049,  0.0371,  0.0233, -0.0161,
+        -0.0026, -0.0119], device='cuda:0'), grad: tensor([-1.2293e-07,  5.1362e-07, -1.8105e-06,  1.3923e-07, -1.2992e-06,
+         3.0315e-07, -6.4867e-07,  3.6554e-07,  2.1849e-06,  3.8510e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 249, time 214.12, cls_loss 0.0012 cls_loss_mapping 0.0025 cls_loss_causal 0.5059 re_mapping 0.0043 re_causal 0.0133 /// teacc 99.04 lr 0.00010000
+Epoch 251, weight, value: tensor([[ 0.0215, -0.0938, -0.0653,  ..., -0.2089, -0.0899, -0.1673],
+        [-0.0663, -0.0526, -0.0196,  ...,  0.0381,  0.0269, -0.1229],
+        [ 0.0301, -0.1421, -0.1810,  ...,  0.0165, -0.1537,  0.0785],
+        ...,
+        [-0.0225, -0.0250, -0.1724,  ..., -0.1520,  0.0198,  0.1404],
+        [ 0.0752, -0.1287, -0.1121,  ..., -0.1572, -0.0973, -0.1238],
+        [-0.2050,  0.0246,  0.1149,  ...,  0.0867, -0.0855, -0.1592]],
+       device='cuda:0'), grad: tensor([[-6.8918e-08,  3.2596e-09,  3.7253e-08,  ...,  3.5390e-08,
+          1.3970e-09,  2.0070e-07],
+        [ 4.6100e-08,  7.2177e-08, -2.3082e-05,  ..., -7.1704e-05,
+          1.2107e-08,  4.6380e-07],
+        [-2.0489e-07,  6.0536e-09,  1.0245e-08,  ..., -1.4063e-07,
+          4.1910e-09, -1.5805e-06],
+        ...,
+        [ 6.9849e-09, -1.1129e-07,  2.1532e-05,  ...,  6.6817e-05,
+          1.8626e-09, -6.4261e-07],
+        [ 1.8813e-07,  1.0710e-08,  4.9826e-08,  ...,  3.3295e-07,
+          6.0536e-09,  1.0235e-06],
+        [ 7.5903e-08,  1.6298e-08,  1.3392e-06,  ...,  4.3213e-06,
+          3.7253e-09,  5.6671e-07]], device='cuda:0')
+Epoch 251, bias, value: tensor([-0.0247, -0.0249, -0.0404,  0.0032,  0.0049,  0.0373,  0.0235, -0.0166,
+        -0.0028, -0.0116], device='cuda:0'), grad: tensor([ 7.1852e-07, -1.8251e-04, -7.9796e-06, -2.3330e-07,  1.0980e-06,
+        -4.7963e-07,  4.2049e-07,  1.6963e-04,  5.2042e-06,  1.3836e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 250, time 213.97, cls_loss 0.0011 cls_loss_mapping 0.0019 cls_loss_causal 0.4848 re_mapping 0.0044 re_causal 0.0133 /// teacc 99.02 lr 0.00010000
+Epoch 252, weight, value: tensor([[ 0.0216, -0.0940, -0.0656,  ..., -0.2093, -0.0901, -0.1675],
+        [-0.0666, -0.0526, -0.0192,  ...,  0.0383,  0.0271, -0.1230],
+        [ 0.0299, -0.1426, -0.1816,  ...,  0.0165, -0.1538,  0.0781],
+        ...,
+        [-0.0227, -0.0250, -0.1731,  ..., -0.1534,  0.0197,  0.1409],
+        [ 0.0752, -0.1295, -0.1125,  ..., -0.1580, -0.0971, -0.1248],
+        [-0.2052,  0.0250,  0.1132,  ...,  0.0855, -0.0859, -0.1594]],
+       device='cuda:0'), grad: tensor([[ 1.3504e-08,  3.4459e-08,  2.7008e-08,  ...,  2.3283e-08,
+          2.7940e-09,  6.7055e-08],
+        [ 2.7008e-08,  2.9337e-07, -4.6566e-10,  ...,  2.5099e-07,
+         -6.5193e-08,  7.7952e-07],
+        [ 1.3970e-09,  5.7276e-08,  4.6566e-09,  ...,  9.3132e-09,
+          9.3132e-10,  7.1712e-08],
+        ...,
+        [ 2.7940e-09, -1.2619e-07,  1.2340e-07,  ..., -2.7334e-07,
+          5.2620e-08, -6.6217e-07],
+        [ 1.3970e-09,  1.5227e-07,  2.8871e-08,  ...,  2.4354e-07,
+          9.3132e-09,  2.6543e-07],
+        [ 2.3749e-08,  1.4901e-07, -4.5355e-07,  ..., -3.8743e-07,
+          9.3132e-10,  4.9500e-07]], device='cuda:0')
+Epoch 252, bias, value: tensor([-0.0247, -0.0246, -0.0405,  0.0034,  0.0068,  0.0373,  0.0234, -0.0170,
+        -0.0033, -0.0132], device='cuda:0'), grad: tensor([ 2.8079e-07,  2.5500e-06,  2.5937e-07, -4.7162e-06,  4.7125e-07,
+         2.2408e-06,  6.9384e-08, -2.2110e-06,  1.5041e-07,  9.0757e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 251, time 214.27, cls_loss 0.0013 cls_loss_mapping 0.0017 cls_loss_causal 0.4801 re_mapping 0.0044 re_causal 0.0129 /// teacc 99.03 lr 0.00010000
+Epoch 253, weight, value: tensor([[ 0.0219, -0.0938, -0.0655,  ..., -0.2096, -0.0903, -0.1677],
+        [-0.0672, -0.0529, -0.0202,  ...,  0.0381,  0.0270, -0.1232],
+        [ 0.0297, -0.1433, -0.1822,  ...,  0.0165, -0.1541,  0.0780],
+        ...,
+        [-0.0229, -0.0250, -0.1737,  ..., -0.1540,  0.0198,  0.1414],
+        [ 0.0752, -0.1302, -0.1113,  ..., -0.1577, -0.0972, -0.1254],
+        [-0.2057,  0.0251,  0.1132,  ...,  0.0860, -0.0852, -0.1598]],
+       device='cuda:0'), grad: tensor([[-3.7253e-09,  2.7940e-09,  2.8871e-08,  ...,  2.7008e-08,
+          3.7253e-09,  1.5646e-07],
+        [ 1.8626e-09,  2.0489e-08,  7.7300e-08,  ...,  4.1910e-08,
+         -1.8626e-09,  9.9652e-08],
+        [ 2.7940e-09,  6.5193e-09,  9.3132e-09,  ...,  8.3819e-09,
+         -2.9802e-08, -1.1837e-06],
+        ...,
+        [ 1.8626e-09, -1.3039e-08,  5.9605e-08,  ...,  5.7742e-08,
+          3.7253e-09, -1.8720e-07],
+        [-2.6077e-08,  9.3132e-09,  6.7987e-08,  ...,  7.3574e-08,
+          9.3132e-10,  5.3085e-08],
+        [ 1.1176e-08,  1.5832e-08,  1.2107e-07,  ...,  6.7055e-08,
+          0.0000e+00,  2.9802e-08]], device='cuda:0')
+Epoch 253, bias, value: tensor([-0.0243, -0.0250, -0.0405,  0.0033,  0.0071,  0.0368,  0.0233, -0.0170,
+        -0.0025, -0.0127], device='cuda:0'), grad: tensor([ 3.8091e-07,  3.4366e-07, -2.2687e-06,  1.5078e-06, -4.2282e-07,
+        -2.4214e-08,  2.8592e-07, -2.0210e-07, -2.4214e-08,  4.2282e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 252, time 214.30, cls_loss 0.0013 cls_loss_mapping 0.0020 cls_loss_causal 0.4771 re_mapping 0.0041 re_causal 0.0127 /// teacc 99.07 lr 0.00010000
+Epoch 254, weight, value: tensor([[ 0.0221, -0.0938, -0.0656,  ..., -0.2098, -0.0903, -0.1683],
+        [-0.0677, -0.0531, -0.0205,  ...,  0.0380,  0.0269, -0.1233],
+        [ 0.0296, -0.1436, -0.1827,  ...,  0.0165, -0.1541,  0.0800],
+        ...,
+        [-0.0232, -0.0253, -0.1743,  ..., -0.1547,  0.0198,  0.1404],
+        [ 0.0751, -0.1304, -0.1117,  ..., -0.1582, -0.0973, -0.1261],
+        [-0.2064,  0.0254,  0.1134,  ...,  0.0862, -0.0852, -0.1598]],
+       device='cuda:0'), grad: tensor([[ 2.6077e-07,  2.7940e-09,  1.1278e-06,  ...,  4.4331e-07,
+          6.8452e-07,  2.1420e-08],
+        [ 1.6764e-08,  1.0245e-08, -1.5153e-06,  ..., -1.5423e-06,
+          3.0734e-08,  1.0524e-07],
+        [ 4.3772e-08,  2.7940e-09,  1.1269e-07,  ...,  2.5146e-08,
+          8.9407e-08, -5.6811e-08],
+        ...,
+        [ 3.7253e-09,  5.5879e-09,  2.3842e-07,  ...,  1.4529e-07,
+          5.5879e-09, -1.2759e-07],
+        [-5.0291e-08,  8.3819e-09,  6.2026e-07,  ...,  5.9139e-07,
+          1.3970e-08,  5.6811e-08],
+        [ 6.5193e-09, -1.3039e-08,  1.4901e-08,  ..., -3.7253e-08,
+          7.4506e-09,  1.8161e-07]], device='cuda:0')
+Epoch 254, bias, value: tensor([-0.0241, -0.0243, -0.0410,  0.0029,  0.0072,  0.0368,  0.0234, -0.0177,
+        -0.0028, -0.0125], device='cuda:0'), grad: tensor([ 3.9414e-06, -4.3474e-06,  3.2410e-07,  2.8685e-07,  1.3843e-05,
+         8.4471e-07, -1.7256e-05,  3.0268e-07,  1.6196e-06,  3.8836e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 253, time 214.50, cls_loss 0.0011 cls_loss_mapping 0.0022 cls_loss_causal 0.4937 re_mapping 0.0042 re_causal 0.0133 /// teacc 99.03 lr 0.00010000
+Epoch 255, weight, value: tensor([[ 0.0220, -0.0956, -0.0662,  ..., -0.2099, -0.0907, -0.1688],
+        [-0.0680, -0.0528, -0.0197,  ...,  0.0384,  0.0269, -0.1235],
+        [ 0.0296, -0.1433, -0.1830,  ...,  0.0165, -0.1540,  0.0805],
+        ...,
+        [-0.0233, -0.0260, -0.1757,  ..., -0.1564,  0.0202,  0.1404],
+        [ 0.0751, -0.1308, -0.1120,  ..., -0.1587, -0.0974, -0.1266],
+        [-0.2072,  0.0262,  0.1138,  ...,  0.0866, -0.0865, -0.1600]],
+       device='cuda:0'), grad: tensor([[-4.6566e-09, -9.3132e-10,  6.5193e-09,  ...,  7.4506e-09,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  3.7253e-09, -1.7695e-08,  ..., -4.0047e-08,
+          0.0000e+00,  2.2352e-08],
+        [ 0.0000e+00,  9.3132e-10,  1.8626e-09,  ...,  2.7940e-09,
+          0.0000e+00,  4.6566e-09],
+        ...,
+        [ 0.0000e+00, -1.8626e-09,  2.5146e-08,  ...,  3.6322e-08,
+          0.0000e+00, -5.5879e-08],
+        [ 4.6566e-09,  1.8626e-09,  6.5193e-08,  ...,  7.8231e-08,
+          0.0000e+00,  4.6566e-09],
+        [ 4.6566e-09, -8.3819e-09, -1.4435e-07,  ..., -1.1083e-07,
+          0.0000e+00,  1.9558e-08]], device='cuda:0')
+Epoch 255, bias, value: tensor([-0.0244, -0.0240, -0.0409,  0.0026,  0.0070,  0.0370,  0.0235, -0.0182,
+        -0.0031, -0.0122], device='cuda:0'), grad: tensor([-1.0245e-08, -3.7253e-08,  1.9558e-08,  6.3330e-08,  1.0896e-07,
+        -7.9162e-08,  1.6764e-08, -6.6124e-08,  1.7323e-07, -1.8720e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 254, time 214.09, cls_loss 0.0011 cls_loss_mapping 0.0020 cls_loss_causal 0.5008 re_mapping 0.0044 re_causal 0.0134 /// teacc 99.09 lr 0.00010000
+Epoch 256, weight, value: tensor([[ 0.0219, -0.0960, -0.0664,  ..., -0.2106, -0.0909, -0.1694],
+        [-0.0684, -0.0527, -0.0202,  ...,  0.0384,  0.0267, -0.1236],
+        [ 0.0294, -0.1439, -0.1834,  ...,  0.0165, -0.1542,  0.0804],
+        ...,
+        [-0.0227, -0.0261, -0.1759,  ..., -0.1568,  0.0207,  0.1409],
+        [ 0.0752, -0.1311, -0.1110,  ..., -0.1591, -0.0977, -0.1273],
+        [-0.2079,  0.0261,  0.1139,  ...,  0.0866, -0.0873, -0.1608]],
+       device='cuda:0'), grad: tensor([[-9.3132e-10,  1.7695e-08,  2.4214e-08,  ...,  7.8231e-08,
+          0.0000e+00,  2.7940e-09],
+        [ 3.7253e-09,  1.1176e-08, -4.0047e-08,  ..., -4.3772e-08,
+          0.0000e+00,  3.5390e-08],
+        [ 3.7253e-09,  4.6566e-09,  7.4506e-09,  ...,  1.7695e-08,
+          0.0000e+00,  1.4901e-08],
+        ...,
+        [ 1.2107e-08,  2.4214e-08,  5.9605e-08,  ...,  1.8626e-07,
+          0.0000e+00, -9.4995e-08],
+        [ 8.3819e-09,  9.3132e-09,  2.9802e-08,  ...,  1.0058e-07,
+          0.0000e+00,  1.3970e-08],
+        [ 2.4866e-07, -2.0396e-07,  4.2561e-07,  ...,  1.6410e-06,
+          0.0000e+00,  2.2352e-08]], device='cuda:0')
+Epoch 256, bias, value: tensor([-0.0246, -0.0240, -0.0410,  0.0028,  0.0071,  0.0370,  0.0236, -0.0181,
+        -0.0026, -0.0124], device='cuda:0'), grad: tensor([ 1.1642e-07, -4.5635e-08,  7.9162e-08,  2.6226e-06, -8.5495e-07,
+        -5.5954e-06,  5.3272e-07,  1.9278e-07,  2.0396e-07,  2.7325e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 255, time 214.08, cls_loss 0.0013 cls_loss_mapping 0.0026 cls_loss_causal 0.4913 re_mapping 0.0044 re_causal 0.0128 /// teacc 99.03 lr 0.00010000
+Epoch 257, weight, value: tensor([[ 0.0220, -0.0960, -0.0666,  ..., -0.2115, -0.0909, -0.1698],
+        [-0.0687, -0.0526, -0.0199,  ...,  0.0387,  0.0266, -0.1236],
+        [ 0.0293, -0.1449, -0.1840,  ...,  0.0164, -0.1542,  0.0806],
+        ...,
+        [-0.0230, -0.0260, -0.1764,  ..., -0.1578,  0.0209,  0.1412],
+        [ 0.0752, -0.1314, -0.1111,  ..., -0.1597, -0.0978, -0.1279],
+        [-0.2085,  0.0240,  0.1129,  ...,  0.0850, -0.0909, -0.1614]],
+       device='cuda:0'), grad: tensor([[-2.2352e-08, -5.8748e-06,  1.1176e-08,  ...,  1.8626e-08,
+          0.0000e+00,  1.3039e-08],
+        [ 2.7940e-09,  1.5926e-07,  1.0151e-07,  ...,  2.0675e-07,
+          0.0000e+00,  1.4994e-07],
+        [ 3.7253e-09,  6.8080e-07,  5.5879e-09,  ...,  1.1176e-08,
+          0.0000e+00,  7.0781e-08],
+        ...,
+        [ 9.3132e-10,  1.5069e-06,  9.7416e-07,  ...,  2.1346e-06,
+          0.0000e+00,  8.3540e-07],
+        [-9.3132e-10,  8.5495e-07,  1.9558e-08,  ...,  6.2399e-08,
+          0.0000e+00,  5.9605e-08],
+        [ 7.4506e-09, -8.0280e-07, -1.2424e-06,  ..., -2.5705e-06,
+          0.0000e+00,  2.4214e-08]], device='cuda:0')
+Epoch 257, bias, value: tensor([-0.0246, -0.0236, -0.0413,  0.0027,  0.0087,  0.0373,  0.0232, -0.0184,
+        -0.0026, -0.0138], device='cuda:0'), grad: tensor([-3.5316e-05,  7.3202e-07,  4.0568e-06, -9.6764e-07,  1.8135e-05,
+         4.1164e-07,  5.9456e-06,  5.9083e-06,  5.1409e-06, -4.0717e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 256, time 214.33, cls_loss 0.0012 cls_loss_mapping 0.0017 cls_loss_causal 0.5119 re_mapping 0.0044 re_causal 0.0135 /// teacc 99.00 lr 0.00010000
+Epoch 258, weight, value: tensor([[ 0.0221, -0.0957, -0.0668,  ..., -0.2122, -0.0910, -0.1704],
+        [-0.0692, -0.0528, -0.0200,  ...,  0.0388,  0.0267, -0.1223],
+        [ 0.0290, -0.1456, -0.1845,  ...,  0.0163, -0.1543,  0.0792],
+        ...,
+        [-0.0231, -0.0259, -0.1767,  ..., -0.1585,  0.0209,  0.1415],
+        [ 0.0753, -0.1314, -0.1115,  ..., -0.1606, -0.0978, -0.1285],
+        [-0.2091,  0.0239,  0.1133,  ...,  0.0856, -0.0909, -0.1621]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  5.4017e-08,  3.4645e-07,  ...,  2.0023e-07,
+          9.3132e-09,  2.7940e-09],
+        [ 3.0734e-08,  1.1921e-07, -1.9278e-07,  ..., -5.4762e-07,
+         -1.1176e-07,  1.9558e-07],
+        [ 8.9407e-08,  1.7695e-08,  1.3597e-07,  ...,  1.1642e-07,
+          9.3132e-10,  2.7940e-08],
+        ...,
+        [ 5.5879e-09, -3.2224e-07,  2.1700e-07,  ...,  2.5611e-07,
+         -1.7695e-08, -5.0291e-07],
+        [-5.5879e-08,  5.8673e-08,  1.0161e-06,  ...,  7.8045e-07,
+          4.6566e-09,  1.6764e-08],
+        [ 2.4214e-08,  3.8184e-08, -5.1737e-05,  ..., -3.8207e-05,
+          5.5879e-09,  1.2107e-07]], device='cuda:0')
+Epoch 258, bias, value: tensor([-0.0245, -0.0227, -0.0421,  0.0026,  0.0085,  0.0373,  0.0230, -0.0185,
+        -0.0029, -0.0136], device='cuda:0'), grad: tensor([ 3.8091e-07, -1.5348e-06,  6.6031e-07,  6.5472e-07,  8.2970e-05,
+         1.4529e-07,  8.9407e-08, -3.1665e-07,  1.9297e-06, -8.4996e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 257----------------------------------------------------
+epoch 257, time 230.40, cls_loss 0.0012 cls_loss_mapping 0.0017 cls_loss_causal 0.4764 re_mapping 0.0045 re_causal 0.0132 /// teacc 99.15 lr 0.00010000
+Epoch 259, weight, value: tensor([[ 0.0220, -0.0972, -0.0672,  ..., -0.2144, -0.0910, -0.1706],
+        [-0.0694, -0.0527, -0.0202,  ...,  0.0388,  0.0266, -0.1222],
+        [ 0.0289, -0.1466, -0.1856,  ...,  0.0163, -0.1544,  0.0788],
+        ...,
+        [-0.0232, -0.0260, -0.1769,  ..., -0.1589,  0.0210,  0.1418],
+        [ 0.0753, -0.1316, -0.1130,  ..., -0.1622, -0.0985, -0.1293],
+        [-0.2089,  0.0238,  0.1165,  ...,  0.0888, -0.0901, -0.1626]],
+       device='cuda:0'), grad: tensor([[-2.2352e-08,  5.5879e-09,  4.6566e-09,  ...,  2.7940e-09,
+          9.3132e-10,  1.4901e-08],
+        [ 3.7253e-09,  3.3528e-08, -5.5879e-08,  ..., -8.2888e-08,
+          9.3132e-10,  7.6368e-08],
+        [ 2.7940e-09,  3.4459e-08,  7.4506e-09,  ...,  9.3132e-09,
+          9.3132e-10,  7.2643e-08],
+        ...,
+        [ 0.0000e+00,  3.6322e-08,  3.8184e-08,  ...,  5.2154e-08,
+          3.7253e-09,  8.4750e-08],
+        [ 8.3819e-09,  1.0151e-07,  8.3819e-09,  ...,  1.3970e-08,
+          1.8626e-09,  2.0117e-07],
+        [ 2.7940e-09,  3.7253e-09, -1.2107e-08,  ..., -1.4901e-08,
+          1.8626e-09,  4.1910e-08]], device='cuda:0')
+Epoch 259, bias, value: tensor([-0.0247, -0.0227, -0.0423,  0.0029,  0.0055,  0.0373,  0.0229, -0.0184,
+        -0.0037, -0.0105], device='cuda:0'), grad: tensor([-1.3970e-08, -7.2643e-08,  2.1793e-07, -1.1148e-06,  2.5146e-08,
+        -4.5635e-08,  1.8626e-08,  3.2224e-07,  5.7183e-07,  8.5682e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 258, time 214.49, cls_loss 0.0013 cls_loss_mapping 0.0022 cls_loss_causal 0.5049 re_mapping 0.0043 re_causal 0.0131 /// teacc 99.02 lr 0.00010000
+Epoch 260, weight, value: tensor([[ 0.0224, -0.0972, -0.0684,  ..., -0.2141, -0.0910, -0.1710],
+        [-0.0704, -0.0525, -0.0201,  ...,  0.0389,  0.0266, -0.1223],
+        [ 0.0288, -0.1475, -0.1862,  ...,  0.0164, -0.1545,  0.0791],
+        ...,
+        [-0.0235, -0.0267, -0.1772,  ..., -0.1595,  0.0209,  0.1418],
+        [ 0.0725, -0.1319, -0.1132,  ..., -0.1657, -0.0986, -0.1308],
+        [-0.2106,  0.0237,  0.1166,  ...,  0.0888, -0.0902, -0.1630]],
+       device='cuda:0'), grad: tensor([[-3.4459e-08,  2.7940e-09,  1.1269e-07,  ...,  6.0536e-08,
+          0.0000e+00,  1.3039e-08],
+        [ 5.5879e-09,  4.2841e-08,  1.0245e-08,  ...,  2.1420e-08,
+          0.0000e+00,  1.1735e-07],
+        [ 1.8626e-09,  2.6077e-08,  7.4506e-09,  ...,  6.5193e-09,
+          0.0000e+00,  1.6671e-07],
+        ...,
+        [ 1.8626e-09,  4.0047e-08,  2.2352e-08,  ...,  2.3283e-08,
+          0.0000e+00,  9.2201e-08],
+        [-8.3819e-09,  3.5390e-08,  1.1176e-08,  ...,  1.6764e-08,
+         -0.0000e+00,  8.1025e-08],
+        [ 1.8626e-08,  5.5879e-09,  4.1164e-07,  ...,  2.3004e-07,
+          0.0000e+00,  1.1176e-08]], device='cuda:0')
+Epoch 260, bias, value: tensor([-0.0248, -0.0224, -0.0425,  0.0027,  0.0056,  0.0391,  0.0225, -0.0186,
+        -0.0065, -0.0104], device='cuda:0'), grad: tensor([ 1.3411e-07,  3.8650e-07,  6.7707e-07, -6.0163e-06, -9.2573e-07,
+         4.3213e-06,  9.9652e-08,  3.1106e-07,  2.1234e-07,  8.1304e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 259, time 214.08, cls_loss 0.0014 cls_loss_mapping 0.0023 cls_loss_causal 0.4799 re_mapping 0.0046 re_causal 0.0130 /// teacc 99.05 lr 0.00010000
+Epoch 261, weight, value: tensor([[ 0.0228, -0.0972, -0.0687,  ..., -0.2134, -0.0911, -0.1715],
+        [-0.0723, -0.0527, -0.0195,  ...,  0.0392,  0.0265, -0.1226],
+        [ 0.0286, -0.1478, -0.1868,  ...,  0.0163, -0.1547,  0.0788],
+        ...,
+        [-0.0238, -0.0270, -0.1773,  ..., -0.1599,  0.0232,  0.1434],
+        [ 0.0714, -0.1334, -0.1147,  ..., -0.1666, -0.0988, -0.1334],
+        [-0.2114,  0.0224,  0.1165,  ...,  0.0885, -0.0932, -0.1666]],
+       device='cuda:0'), grad: tensor([[ 6.3330e-08,  9.3132e-09,  3.9116e-08,  ...,  1.0245e-08,
+          0.0000e+00,  1.5832e-08],
+        [ 7.4506e-09,  3.3528e-08, -2.4214e-08,  ..., -2.3283e-08,
+          0.0000e+00,  6.1467e-08],
+        [ 9.3132e-09,  6.1467e-08,  1.3039e-08,  ..., -8.3819e-09,
+          0.0000e+00,  8.5682e-08],
+        ...,
+        [ 9.3132e-10,  4.1910e-08,  1.1083e-07,  ...,  1.2666e-07,
+          0.0000e+00,  4.3772e-08],
+        [ 6.3330e-08,  1.1362e-07,  3.4459e-08,  ...,  7.7300e-08,
+          0.0000e+00,  2.3283e-07],
+        [ 7.4506e-09, -7.3574e-08, -4.6566e-07,  ..., -4.5449e-07,
+          0.0000e+00,  1.3970e-08]], device='cuda:0')
+Epoch 261, bias, value: tensor([-0.0244, -0.0223, -0.0425,  0.0066,  0.0056,  0.0365,  0.0233, -0.0177,
+        -0.0084, -0.0113], device='cuda:0'), grad: tensor([ 2.1886e-07,  1.5832e-08,  1.9651e-07, -8.2143e-07,  4.4424e-07,
+         3.3341e-07, -5.6066e-07,  3.5577e-07,  6.0163e-07, -8.0932e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 260, time 214.04, cls_loss 0.0013 cls_loss_mapping 0.0021 cls_loss_causal 0.5038 re_mapping 0.0045 re_causal 0.0138 /// teacc 99.07 lr 0.00010000
+Epoch 262, weight, value: tensor([[ 0.0231, -0.0963, -0.0690,  ..., -0.2134, -0.0910, -0.1717],
+        [-0.0767, -0.0519, -0.0192,  ...,  0.0394,  0.0266, -0.1216],
+        [ 0.0282, -0.1480, -0.1882,  ...,  0.0164, -0.1547,  0.0778],
+        ...,
+        [-0.0249, -0.0279, -0.1776,  ..., -0.1607,  0.0231,  0.1433],
+        [ 0.0709, -0.1338, -0.1149,  ..., -0.1670, -0.0988, -0.1336],
+        [-0.2124,  0.0223,  0.1164,  ...,  0.0885, -0.0932, -0.1668]],
+       device='cuda:0'), grad: tensor([[ 2.2445e-07,  0.0000e+00,  1.8347e-07,  ...,  1.0245e-08,
+          0.0000e+00,  3.7253e-09],
+        [ 3.3900e-07,  8.3819e-09, -5.3085e-08,  ..., -2.3469e-07,
+         -6.5193e-09,  9.8869e-06],
+        [ 1.2107e-07,  7.4506e-09,  1.2759e-07,  ...,  4.5635e-08,
+          0.0000e+00, -9.9167e-06],
+        ...,
+        [ 2.7940e-08, -2.0489e-08,  1.1548e-07,  ...,  1.0431e-07,
+          1.8626e-09, -5.4017e-08],
+        [ 1.5264e-06,  1.8626e-09,  8.6520e-07,  ...,  3.4459e-08,
+          9.3132e-10,  1.3970e-08],
+        [ 3.0734e-08,  9.3132e-10,  5.5879e-08,  ...,  4.1910e-08,
+          0.0000e+00,  6.5193e-09]], device='cuda:0')
+Epoch 262, bias, value: tensor([-0.0240, -0.0211, -0.0436,  0.0066,  0.0057,  0.0364,  0.0240, -0.0184,
+        -0.0085, -0.0115], device='cuda:0'), grad: tensor([ 1.1604e-06,  2.4781e-05, -2.3589e-05,  8.7731e-07, -5.6848e-06,
+         6.0797e-06, -1.2264e-05,  6.3051e-07,  7.6964e-06,  2.8498e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 261, time 214.37, cls_loss 0.0011 cls_loss_mapping 0.0015 cls_loss_causal 0.4700 re_mapping 0.0045 re_causal 0.0125 /// teacc 99.12 lr 0.00010000
+Epoch 263, weight, value: tensor([[ 0.0232, -0.0969, -0.0693,  ..., -0.2138, -0.0910, -0.1724],
+        [-0.0771, -0.0520, -0.0193,  ...,  0.0394,  0.0266, -0.1222],
+        [ 0.0280, -0.1488, -0.1894,  ...,  0.0163, -0.1547,  0.0778],
+        ...,
+        [-0.0255, -0.0277, -0.1775,  ..., -0.1601,  0.0231,  0.1448],
+        [ 0.0706, -0.1340, -0.1160,  ..., -0.1674, -0.0991, -0.1338],
+        [-0.2130,  0.0223,  0.1161,  ...,  0.0881, -0.0932, -0.1685]],
+       device='cuda:0'), grad: tensor([[-2.8871e-08,  9.3132e-10,  2.7940e-09,  ...,  2.7940e-09,
+          0.0000e+00,  9.3132e-09],
+        [ 2.7940e-09,  8.3819e-09, -1.9558e-08,  ..., -2.7008e-08,
+          4.6566e-09,  2.0489e-07],
+        [ 9.3132e-10,  1.7695e-08,  1.8626e-09,  ...,  2.7940e-09,
+          3.0734e-08,  1.3346e-06],
+        ...,
+        [ 9.3132e-10, -1.5832e-08,  1.2759e-07,  ...,  2.2911e-07,
+         -4.8429e-08, -1.7593e-06],
+        [ 6.5193e-09,  3.7253e-09,  6.5193e-09,  ...,  1.0245e-08,
+          1.8626e-09,  5.1223e-08],
+        [ 8.3819e-09,  1.8626e-09,  1.8720e-07,  ...,  3.5390e-07,
+          1.8626e-09,  5.0291e-08]], device='cuda:0')
+Epoch 263, bias, value: tensor([-0.0241, -0.0211, -0.0438,  0.0064,  0.0061,  0.0365,  0.0242, -0.0178,
+        -0.0089, -0.0120], device='cuda:0'), grad: tensor([-1.0803e-07,  1.8068e-07,  1.9064e-06, -9.6858e-08, -1.7425e-06,
+         2.6356e-07,  1.1269e-07, -1.7416e-06,  1.4342e-07,  1.0766e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 262, time 214.47, cls_loss 0.0010 cls_loss_mapping 0.0020 cls_loss_causal 0.4603 re_mapping 0.0043 re_causal 0.0126 /// teacc 99.08 lr 0.00010000
+Epoch 264, weight, value: tensor([[ 0.0236, -0.0954, -0.0692,  ..., -0.2137, -0.0910, -0.1728],
+        [-0.0780, -0.0523, -0.0180,  ...,  0.0401,  0.0267, -0.1224],
+        [ 0.0278, -0.1514, -0.1897,  ...,  0.0164, -0.1548,  0.0780],
+        ...,
+        [-0.0263, -0.0281, -0.1794,  ..., -0.1624,  0.0233,  0.1448],
+        [ 0.0711, -0.1343, -0.1158,  ..., -0.1675, -0.0994, -0.1342],
+        [-0.2146,  0.0222,  0.1161,  ...,  0.0881, -0.0935, -0.1690]],
+       device='cuda:0'), grad: tensor([[-1.6764e-08,  0.0000e+00,  1.7695e-08,  ...,  2.7940e-08,
+          2.6077e-08,  9.3132e-10],
+        [ 1.3039e-08,  1.3970e-08, -1.4817e-06,  ..., -2.4289e-06,
+         -2.5202e-06,  4.3772e-08],
+        [ 4.6566e-09,  2.7940e-09,  7.0781e-08,  ...,  1.1642e-07,
+          1.2014e-07,  1.1176e-08],
+        ...,
+        [ 2.7940e-09, -3.3528e-08,  1.4342e-07,  ...,  2.3097e-07,
+          2.1886e-07, -1.1269e-07],
+        [-6.2492e-07,  1.8626e-09,  5.6531e-07,  ...,  9.2667e-07,
+          9.6112e-07,  7.4506e-09],
+        [ 6.5193e-09,  9.3132e-09,  3.5390e-08,  ...,  7.0781e-08,
+          7.2643e-08,  2.6077e-08]], device='cuda:0')
+Epoch 264, bias, value: tensor([-0.0233, -0.0207, -0.0436,  0.0065,  0.0061,  0.0365,  0.0239, -0.0189,
+        -0.0086, -0.0122], device='cuda:0'), grad: tensor([ 5.7742e-08, -9.8124e-06,  5.2620e-07,  1.7136e-07,  3.8035e-06,
+         1.5208e-06,  2.9430e-07,  6.3144e-07,  2.3898e-06,  3.8743e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 263, time 214.46, cls_loss 0.0010 cls_loss_mapping 0.0016 cls_loss_causal 0.4884 re_mapping 0.0043 re_causal 0.0128 /// teacc 99.09 lr 0.00010000
+Epoch 265, weight, value: tensor([[ 0.0238, -0.0961, -0.0703,  ..., -0.2136, -0.0912, -0.1730],
+        [-0.0801, -0.0526, -0.0172,  ...,  0.0405,  0.0268, -0.1230],
+        [ 0.0278, -0.1516, -0.1902,  ...,  0.0164, -0.1550,  0.0782],
+        ...,
+        [-0.0247, -0.0279, -0.1802,  ..., -0.1634,  0.0234,  0.1458],
+        [ 0.0710, -0.1348, -0.1158,  ..., -0.1679, -0.0997, -0.1364],
+        [-0.2160,  0.0222,  0.1160,  ...,  0.0880, -0.0936, -0.1694]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  3.7253e-09,  ...,  6.5193e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  4.6566e-09, -2.0489e-08,  ..., -8.3819e-08,
+          1.4901e-08,  3.9116e-08],
+        [ 1.1176e-08,  9.3132e-10,  1.8626e-09,  ..., -2.7940e-09,
+          1.3039e-08,  1.0245e-08],
+        ...,
+        [ 9.3132e-10, -1.8626e-09,  4.1910e-08,  ...,  9.3132e-08,
+         -7.2643e-08, -1.3225e-07],
+        [-2.5146e-08,  0.0000e+00,  2.7940e-09,  ...,  1.6764e-08,
+          1.8626e-09,  2.7940e-09],
+        [ 1.8626e-09, -5.5879e-09, -3.4459e-08,  ..., -5.3085e-08,
+          1.8626e-09,  4.6566e-09]], device='cuda:0')
+Epoch 265, bias, value: tensor([-0.0235, -0.0208, -0.0435,  0.0064,  0.0062,  0.0364,  0.0246, -0.0185,
+        -0.0090, -0.0124], device='cuda:0'), grad: tensor([ 2.7008e-08, -2.7474e-07,  7.3574e-08,  2.4214e-08,  9.0338e-08,
+         7.6368e-08,  3.2596e-08,  1.0803e-07, -8.9407e-08, -5.8673e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 264, time 214.03, cls_loss 0.0011 cls_loss_mapping 0.0022 cls_loss_causal 0.4887 re_mapping 0.0041 re_causal 0.0128 /// teacc 99.07 lr 0.00010000
+Epoch 266, weight, value: tensor([[ 0.0240, -0.0963, -0.0705,  ..., -0.2134, -0.0913, -0.1734],
+        [-0.0831, -0.0526, -0.0168,  ...,  0.0408,  0.0270, -0.1235],
+        [ 0.0298, -0.1517, -0.1908,  ...,  0.0164, -0.1552,  0.0786],
+        ...,
+        [-0.0250, -0.0280, -0.1810,  ..., -0.1646,  0.0235,  0.1460],
+        [ 0.0706, -0.1350, -0.1156,  ..., -0.1683, -0.1000, -0.1368],
+        [-0.2167,  0.0222,  0.1151,  ...,  0.0873, -0.0937, -0.1695]],
+       device='cuda:0'), grad: tensor([[-2.1998e-06,  0.0000e+00,  1.1176e-08,  ...,  1.0245e-08,
+          0.0000e+00,  2.7940e-09],
+        [ 5.6811e-08,  0.0000e+00, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  6.5193e-09],
+        [ 6.1467e-08,  0.0000e+00,  1.8626e-09,  ...,  2.7940e-09,
+          0.0000e+00, -2.7940e-08],
+        ...,
+        [ 1.5832e-08,  0.0000e+00,  1.1176e-08,  ...,  1.3970e-08,
+          0.0000e+00,  1.5832e-08],
+        [ 3.7253e-07,  0.0000e+00,  5.4948e-08,  ...,  5.9418e-07,
+          0.0000e+00,  2.7940e-09],
+        [ 7.3574e-08,  0.0000e+00,  1.0896e-07,  ...,  1.3504e-07,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 266, bias, value: tensor([-0.0233, -0.0217, -0.0423,  0.0063,  0.0071,  0.0364,  0.0250, -0.0192,
+        -0.0092, -0.0133], device='cuda:0'), grad: tensor([-5.8264e-06,  1.4622e-07,  1.3225e-07,  2.7288e-07, -3.2689e-07,
+        -3.8669e-06,  7.5363e-06,  9.4064e-08,  1.3439e-06,  4.7963e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 265, time 213.96, cls_loss 0.0012 cls_loss_mapping 0.0018 cls_loss_causal 0.4754 re_mapping 0.0041 re_causal 0.0125 /// teacc 99.07 lr 0.00010000
+Epoch 267, weight, value: tensor([[ 0.0240, -0.0963, -0.0707,  ..., -0.2138, -0.0916, -0.1738],
+        [-0.0837, -0.0529, -0.0164,  ...,  0.0410,  0.0271, -0.1235],
+        [ 0.0300, -0.1523, -0.1917,  ...,  0.0164, -0.1556,  0.0789],
+        ...,
+        [-0.0234, -0.0276, -0.1813,  ..., -0.1650,  0.0235,  0.1462],
+        [ 0.0690, -0.1354, -0.1160,  ..., -0.1704, -0.1015, -0.1381],
+        [-0.2181,  0.0221,  0.1149,  ...,  0.0871, -0.0937, -0.1698]],
+       device='cuda:0'), grad: tensor([[ 1.0245e-08,  0.0000e+00,  1.0245e-08,  ...,  6.5193e-09,
+          0.0000e+00,  2.0489e-08],
+        [ 8.3819e-09,  6.5193e-09, -8.3819e-09,  ..., -1.3039e-08,
+          0.0000e+00,  1.8347e-07],
+        [ 1.3039e-08,  3.7253e-09,  8.3819e-09,  ...,  2.7940e-09,
+          0.0000e+00, -3.0082e-07],
+        ...,
+        [ 1.8626e-09, -9.3132e-09,  2.0489e-08,  ...,  2.6077e-08,
+          0.0000e+00, -7.1712e-08],
+        [ 4.6566e-09,  9.3132e-10,  1.8626e-08,  ...,  3.9116e-08,
+          0.0000e+00,  2.1420e-08],
+        [ 4.6566e-09, -3.7253e-09,  1.2107e-08,  ...,  1.7695e-08,
+          0.0000e+00,  7.4506e-09]], device='cuda:0')
+Epoch 267, bias, value: tensor([-0.0232, -0.0217, -0.0420,  0.0064,  0.0072,  0.0369,  0.0249, -0.0194,
+        -0.0108, -0.0136], device='cuda:0'), grad: tensor([ 1.1455e-07,  2.8592e-07, -4.3679e-07,  2.0303e-07,  8.3819e-09,
+        -5.0291e-08, -3.0734e-07,  1.3970e-08,  1.0151e-07,  7.5437e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 266, time 214.37, cls_loss 0.0009 cls_loss_mapping 0.0015 cls_loss_causal 0.4666 re_mapping 0.0043 re_causal 0.0131 /// teacc 98.97 lr 0.00010000
+Epoch 268, weight, value: tensor([[ 0.0241, -0.0963, -0.0710,  ..., -0.2141, -0.0916, -0.1741],
+        [-0.0844, -0.0530, -0.0161,  ...,  0.0412,  0.0271, -0.1237],
+        [ 0.0298, -0.1524, -0.1926,  ...,  0.0164, -0.1556,  0.0790],
+        ...,
+        [-0.0231, -0.0276, -0.1816,  ..., -0.1653,  0.0236,  0.1463],
+        [ 0.0686, -0.1356, -0.1169,  ..., -0.1706, -0.1017, -0.1391],
+        [-0.2187,  0.0221,  0.1145,  ...,  0.0866, -0.0938, -0.1706]],
+       device='cuda:0'), grad: tensor([[ 5.0291e-08,  9.3132e-10,  1.2107e-08,  ...,  4.6566e-09,
+          0.0000e+00,  1.7881e-07],
+        [ 3.9116e-08,  2.1420e-08, -2.8871e-08,  ..., -3.3528e-08,
+          0.0000e+00,  4.8894e-07],
+        [ 1.2014e-07,  2.7940e-09,  6.5193e-09,  ...,  4.6566e-09,
+          0.0000e+00,  4.8149e-07],
+        ...,
+        [-7.9442e-07, -2.5146e-08,  1.2107e-08,  ...,  1.3039e-08,
+          0.0000e+00, -2.9001e-06],
+        [ 1.1176e-07,  1.8626e-09,  1.2107e-08,  ...,  3.4459e-08,
+          0.0000e+00,  2.5611e-07],
+        [ 3.2596e-08,  9.3132e-09,  8.3819e-09,  ...,  4.6566e-09,
+          0.0000e+00,  2.1607e-07]], device='cuda:0')
+Epoch 268, bias, value: tensor([-0.0232, -0.0216, -0.0420,  0.0069,  0.0075,  0.0370,  0.0253, -0.0195,
+        -0.0115, -0.0142], device='cuda:0'), grad: tensor([ 3.7812e-07,  9.2015e-07,  9.5274e-07,  2.3749e-07,  1.0831e-06,
+         1.8440e-07,  6.5658e-07, -5.4799e-06,  5.4948e-07,  4.8988e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 267, time 214.26, cls_loss 0.0012 cls_loss_mapping 0.0014 cls_loss_causal 0.4851 re_mapping 0.0040 re_causal 0.0127 /// teacc 98.97 lr 0.00010000
+Epoch 269, weight, value: tensor([[ 0.0239, -0.0963, -0.0717,  ..., -0.2155, -0.0917, -0.1746],
+        [-0.0857, -0.0531, -0.0162,  ...,  0.0412,  0.0271, -0.1239],
+        [ 0.0296, -0.1526, -0.1936,  ...,  0.0164, -0.1556,  0.0788],
+        ...,
+        [-0.0234, -0.0276, -0.1817,  ..., -0.1654,  0.0236,  0.1469],
+        [ 0.0681, -0.1358, -0.1180,  ..., -0.1712, -0.1019, -0.1395],
+        [-0.2192,  0.0220,  0.1128,  ...,  0.0854, -0.0938, -0.1709]],
+       device='cuda:0'), grad: tensor([[-2.9802e-08,  0.0000e+00,  5.5879e-09,  ...,  1.3039e-08,
+          0.0000e+00,  2.7008e-08],
+        [ 1.9558e-08,  1.8626e-09,  5.5879e-09,  ...,  7.4506e-09,
+          0.0000e+00,  1.0245e-07],
+        [ 6.5193e-09,  0.0000e+00,  4.6566e-09,  ...,  6.5193e-09,
+          0.0000e+00, -1.9092e-07],
+        ...,
+        [ 9.3132e-09,  1.8626e-09,  2.0489e-08,  ...,  2.6077e-08,
+          0.0000e+00,  2.6077e-08],
+        [-4.6566e-09,  9.3132e-10,  5.5879e-09,  ...,  1.0524e-07,
+          0.0000e+00,  5.2154e-08],
+        [ 8.4750e-08, -1.8626e-09,  2.6636e-07,  ...,  9.1176e-07,
+          0.0000e+00,  4.9360e-08]], device='cuda:0')
+Epoch 269, bias, value: tensor([-0.0235, -0.0217, -0.0421,  0.0067,  0.0086,  0.0388,  0.0233, -0.0193,
+        -0.0120, -0.0153], device='cuda:0'), grad: tensor([-8.6613e-08,  3.2783e-07, -2.4401e-07,  4.7404e-07, -5.3644e-07,
+        -2.2538e-06,  2.0489e-07,  1.2573e-07,  1.1642e-07,  1.8710e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 268, time 214.16, cls_loss 0.0017 cls_loss_mapping 0.0034 cls_loss_causal 0.5146 re_mapping 0.0042 re_causal 0.0129 /// teacc 99.09 lr 0.00010000
+Epoch 270, weight, value: tensor([[ 0.0240, -0.0965, -0.0722,  ..., -0.2163, -0.0917, -0.1755],
+        [-0.0860, -0.0532, -0.0155,  ...,  0.0414,  0.0271, -0.1269],
+        [ 0.0295, -0.1527, -0.1966,  ...,  0.0163, -0.1558,  0.0789],
+        ...,
+        [-0.0237, -0.0275, -0.1822,  ..., -0.1658,  0.0240,  0.1500],
+        [ 0.0678, -0.1360, -0.1198,  ..., -0.1719, -0.1019, -0.1406],
+        [-0.2198,  0.0221,  0.1122,  ...,  0.0848, -0.0938, -0.1711]],
+       device='cuda:0'), grad: tensor([[ 8.2981e-07,  2.2817e-07,  6.7987e-08,  ...,  4.7032e-07,
+          0.0000e+00,  9.3132e-10],
+        [ 5.0291e-08,  1.3039e-08,  1.5832e-08,  ...,  3.7253e-08,
+          0.0000e+00,  2.7940e-09],
+        [ 7.5437e-08,  1.8626e-08,  6.5193e-09,  ...,  3.9116e-08,
+          0.0000e+00, -1.8626e-08],
+        ...,
+        [ 8.3819e-09,  2.7940e-09,  1.6764e-08,  ...,  2.0489e-08,
+          0.0000e+00,  1.1176e-08],
+        [-2.7921e-06, -7.5251e-07, -1.7695e-07,  ..., -1.5013e-06,
+          0.0000e+00,  1.8626e-09],
+        [ 7.2364e-07,  1.9372e-07, -3.9116e-08,  ...,  2.6729e-07,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 270, bias, value: tensor([-0.0236, -0.0235, -0.0421,  0.0067,  0.0094,  0.0390,  0.0229, -0.0168,
+        -0.0128, -0.0160], device='cuda:0'), grad: tensor([ 3.5875e-06,  2.4773e-07,  3.4366e-07,  8.6147e-07,  1.2573e-07,
+         2.6058e-06,  1.3076e-06,  9.3132e-08, -1.2144e-05,  2.9653e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 269, time 214.18, cls_loss 0.0010 cls_loss_mapping 0.0014 cls_loss_causal 0.4671 re_mapping 0.0043 re_causal 0.0128 /// teacc 99.03 lr 0.00010000
+Epoch 271, weight, value: tensor([[ 0.0240, -0.0972, -0.0726,  ..., -0.2174, -0.0917, -0.1768],
+        [-0.0861, -0.0538, -0.0161,  ...,  0.0413,  0.0271, -0.1270],
+        [ 0.0294, -0.1535, -0.1973,  ...,  0.0163, -0.1558,  0.0784],
+        ...,
+        [-0.0237, -0.0274, -0.1828,  ..., -0.1661,  0.0240,  0.1504],
+        [ 0.0680, -0.1362, -0.1188,  ..., -0.1720, -0.1020, -0.1414],
+        [-0.2200,  0.0226,  0.1123,  ...,  0.0849, -0.0938, -0.1707]],
+       device='cuda:0'), grad: tensor([[-2.2259e-07,  0.0000e+00,  4.0047e-08,  ...,  3.6322e-08,
+          9.3132e-10,  1.8626e-09],
+        [ 6.5193e-08,  9.3132e-10, -5.8673e-07,  ..., -5.8487e-07,
+          0.0000e+00,  1.7695e-08],
+        [ 4.9360e-08,  9.3132e-10,  2.7940e-09,  ...,  2.7940e-09,
+          0.0000e+00, -3.0734e-08],
+        ...,
+        [ 1.3970e-08, -9.3132e-10,  2.5332e-07,  ...,  2.4866e-07,
+          0.0000e+00,  9.3132e-10],
+        [-1.7695e-08,  0.0000e+00,  1.0990e-07,  ...,  1.0710e-07,
+          0.0000e+00,  6.5193e-09],
+        [ 1.4901e-08, -0.0000e+00,  6.3330e-08,  ...,  5.4948e-08,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 271, bias, value: tensor([-0.0238, -0.0235, -0.0423,  0.0067,  0.0094,  0.0390,  0.0225, -0.0168,
+        -0.0118, -0.0159], device='cuda:0'), grad: tensor([-2.3134e-06, -8.7731e-07,  4.8988e-07,  2.6543e-07,  1.2107e-08,
+         3.3528e-07,  6.0257e-07,  8.4285e-07,  3.2596e-07,  3.2689e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 270, time 214.27, cls_loss 0.0013 cls_loss_mapping 0.0014 cls_loss_causal 0.4921 re_mapping 0.0040 re_causal 0.0121 /// teacc 99.09 lr 0.00010000
+Epoch 272, weight, value: tensor([[ 0.0239, -0.0974, -0.0734,  ..., -0.2190, -0.0918, -0.1777],
+        [-0.0863, -0.0541, -0.0155,  ...,  0.0418,  0.0271, -0.1276],
+        [ 0.0292, -0.1539, -0.2002,  ...,  0.0162, -0.1559,  0.0780],
+        ...,
+        [-0.0241, -0.0271, -0.1839,  ..., -0.1674,  0.0241,  0.1512],
+        [ 0.0679, -0.1364, -0.1190,  ..., -0.1722, -0.1021, -0.1420],
+        [-0.2204,  0.0226,  0.1122,  ...,  0.0848, -0.0939, -0.1709]],
+       device='cuda:0'), grad: tensor([[-1.5832e-07,  0.0000e+00,  1.0710e-07,  ...,  2.2352e-08,
+          0.0000e+00,  3.7253e-08],
+        [ 3.1758e-07,  2.7940e-09, -2.0489e-07,  ..., -2.5332e-07,
+          0.0000e+00, -2.7660e-06],
+        [ 5.5879e-09,  0.0000e+00,  1.5832e-08,  ...,  1.5832e-08,
+          0.0000e+00, -1.1660e-06],
+        ...,
+        [ 1.2107e-08,  2.7940e-09,  1.3504e-07,  ...,  1.5646e-07,
+          0.0000e+00,  3.0305e-06],
+        [ 1.5832e-08,  0.0000e+00,  5.4017e-08,  ...,  4.3772e-08,
+          0.0000e+00,  1.3970e-08],
+        [ 9.3132e-09, -1.0245e-08, -3.5297e-07,  ..., -3.3714e-07,
+          0.0000e+00,  9.3132e-09]], device='cuda:0')
+Epoch 272, bias, value: tensor([-0.0243, -0.0234, -0.0425,  0.0068,  0.0095,  0.0396,  0.0218, -0.0169,
+        -0.0120, -0.0160], device='cuda:0'), grad: tensor([-7.3016e-07, -1.1697e-05,  4.1164e-07,  2.5220e-06,  7.6089e-07,
+         1.2787e-06, -5.9232e-07,  8.4937e-06,  2.0862e-07, -6.1560e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 271, time 214.45, cls_loss 0.0011 cls_loss_mapping 0.0018 cls_loss_causal 0.4697 re_mapping 0.0040 re_causal 0.0120 /// teacc 99.13 lr 0.00010000
+Epoch 273, weight, value: tensor([[ 0.0243, -0.0974, -0.0747,  ..., -0.2186, -0.0919, -0.1781],
+        [-0.0866, -0.0544, -0.0154,  ...,  0.0418,  0.0271, -0.1274],
+        [ 0.0291, -0.1542, -0.2007,  ...,  0.0162, -0.1559,  0.0782],
+        ...,
+        [-0.0252, -0.0269, -0.1848,  ..., -0.1681,  0.0239,  0.1511],
+        [ 0.0680, -0.1369, -0.1194,  ..., -0.1723, -0.1023, -0.1428],
+        [-0.2218,  0.0229,  0.1123,  ...,  0.0848, -0.0937, -0.1710]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.3970e-09,  5.3551e-08,  ...,  4.8894e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  6.5193e-09, -1.0766e-06,  ..., -9.3505e-07,
+          0.0000e+00,  4.3772e-08],
+        [ 1.0710e-08,  7.4506e-09,  1.2107e-08,  ...,  4.1910e-08,
+          0.0000e+00,  5.6345e-08],
+        ...,
+        [ 0.0000e+00, -1.8626e-08,  3.7719e-08,  ..., -3.6787e-08,
+          0.0000e+00, -1.4622e-07],
+        [-2.0023e-08,  9.3132e-10,  1.5367e-08,  ...,  2.0023e-08,
+          0.0000e+00,  3.7253e-09],
+        [ 4.1910e-09, -6.0536e-09, -2.4680e-08,  ..., -2.0955e-08,
+          0.0000e+00,  1.8161e-08]], device='cuda:0')
+Epoch 273, bias, value: tensor([-0.0242, -0.0233, -0.0424,  0.0068,  0.0095,  0.0394,  0.0220, -0.0173,
+        -0.0121, -0.0160], device='cuda:0'), grad: tensor([ 1.4342e-07, -2.7828e-06,  1.9604e-07,  4.8429e-08,  1.6857e-07,
+         5.0291e-08,  2.4047e-06, -1.2573e-07, -8.1025e-08, -2.4680e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 272, time 214.17, cls_loss 0.0009 cls_loss_mapping 0.0018 cls_loss_causal 0.4629 re_mapping 0.0041 re_causal 0.0124 /// teacc 99.02 lr 0.00010000
+Epoch 274, weight, value: tensor([[ 0.0234, -0.0974, -0.0772,  ..., -0.2185, -0.0920, -0.1784],
+        [-0.0872, -0.0545, -0.0152,  ...,  0.0422,  0.0271, -0.1275],
+        [ 0.0289, -0.1550, -0.2020,  ...,  0.0162, -0.1558,  0.0781],
+        ...,
+        [-0.0251, -0.0267, -0.1852,  ..., -0.1692,  0.0240,  0.1513],
+        [ 0.0682, -0.1370, -0.1196,  ..., -0.1725, -0.1024, -0.1431],
+        [-0.2222,  0.0230,  0.1123,  ...,  0.0848, -0.0937, -0.1712]],
+       device='cuda:0'), grad: tensor([[-1.2061e-07,  4.6566e-10, -1.6298e-08,  ...,  1.2107e-08,
+          0.0000e+00,  9.3132e-10],
+        [ 6.9849e-09,  1.0338e-07,  1.4901e-08,  ...,  1.1781e-07,
+          0.0000e+00,  1.8533e-07],
+        [ 4.0513e-08,  5.1223e-09,  6.1467e-08,  ...,  4.9826e-08,
+          0.0000e+00,  9.3132e-09],
+        ...,
+        [ 5.5879e-09, -1.6252e-07, -1.6764e-08,  ..., -1.8906e-07,
+          0.0000e+00, -2.8405e-07],
+        [ 2.8405e-08,  9.3132e-10,  4.6566e-09,  ...,  5.0757e-08,
+          0.0000e+00,  2.3283e-09],
+        [ 3.1199e-08,  5.6811e-08,  2.2817e-08,  ...,  9.7789e-08,
+          0.0000e+00,  1.0012e-07]], device='cuda:0')
+Epoch 274, bias, value: tensor([-0.0254, -0.0231, -0.0425,  0.0068,  0.0095,  0.0393,  0.0229, -0.0175,
+        -0.0118, -0.0160], device='cuda:0'), grad: tensor([-4.9407e-07,  7.6229e-07,  4.3819e-07,  9.4529e-08, -2.7940e-07,
+        -6.7102e-07,  5.8860e-07, -1.1213e-06,  9.5461e-08,  5.7369e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 273, time 213.83, cls_loss 0.0010 cls_loss_mapping 0.0019 cls_loss_causal 0.4897 re_mapping 0.0041 re_causal 0.0127 /// teacc 99.14 lr 0.00010000
+Epoch 275, weight, value: tensor([[ 0.0234, -0.0977, -0.0776,  ..., -0.2191, -0.0921, -0.1787],
+        [-0.0875, -0.0548, -0.0154,  ...,  0.0422,  0.0271, -0.1277],
+        [ 0.0289, -0.1552, -0.2025,  ...,  0.0163, -0.1560,  0.0790],
+        ...,
+        [-0.0253, -0.0264, -0.1855,  ..., -0.1694,  0.0239,  0.1514],
+        [ 0.0696, -0.1360, -0.1198,  ..., -0.1723, -0.1025, -0.1437],
+        [-0.2237,  0.0229,  0.1123,  ...,  0.0849, -0.0930, -0.1714]],
+       device='cuda:0'), grad: tensor([[-4.6566e-10,  0.0000e+00,  5.5879e-09,  ...,  4.6566e-10,
+          0.0000e+00,  1.7229e-08],
+        [ 4.6566e-10,  4.6566e-10, -8.3819e-09,  ..., -1.6764e-08,
+          0.0000e+00,  6.9849e-09],
+        [ 1.8626e-09,  0.0000e+00,  2.7940e-09,  ...,  4.6566e-10,
+          0.0000e+00, -1.5600e-07],
+        ...,
+        [ 0.0000e+00, -4.6566e-10,  8.8476e-09,  ...,  1.5832e-08,
+          0.0000e+00,  4.6566e-09],
+        [-1.8626e-09,  0.0000e+00,  5.1223e-09,  ...,  2.7940e-09,
+          0.0000e+00,  9.7789e-09],
+        [ 1.8626e-09,  0.0000e+00, -3.2596e-09,  ..., -1.8626e-09,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 275, bias, value: tensor([-0.0253, -0.0243, -0.0423,  0.0066,  0.0095,  0.0394,  0.0222, -0.0176,
+        -0.0086, -0.0160], device='cuda:0'), grad: tensor([ 3.3062e-08, -2.7474e-08, -2.2212e-07,  1.5888e-06,  1.6764e-08,
+        -1.3001e-06, -1.2433e-07,  4.7497e-08, -2.0023e-08,  1.1642e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 274, time 214.03, cls_loss 0.0010 cls_loss_mapping 0.0017 cls_loss_causal 0.4597 re_mapping 0.0041 re_causal 0.0124 /// teacc 99.00 lr 0.00010000
+Epoch 276, weight, value: tensor([[ 0.0233, -0.0979, -0.0782,  ..., -0.2196, -0.0923, -0.1790],
+        [-0.0876, -0.0551, -0.0151,  ...,  0.0423,  0.0271, -0.1278],
+        [ 0.0287, -0.1559, -0.2031,  ...,  0.0163, -0.1561,  0.0789],
+        ...,
+        [-0.0253, -0.0261, -0.1858,  ..., -0.1696,  0.0240,  0.1516],
+        [ 0.0697, -0.1362, -0.1196,  ..., -0.1717, -0.1021, -0.1445],
+        [-0.2241,  0.0231,  0.1124,  ...,  0.0849, -0.0930, -0.1720]],
+       device='cuda:0'), grad: tensor([[-9.3132e-09,  0.0000e+00,  1.2107e-08,  ...,  6.0536e-09,
+          0.0000e+00,  4.6566e-09],
+        [ 6.9849e-09,  1.3970e-09, -7.9162e-09,  ...,  2.2817e-08,
+          0.0000e+00,  2.1001e-07],
+        [ 7.4506e-09,  4.6566e-10,  7.4506e-09,  ..., -8.3819e-09,
+          0.0000e+00,  1.0710e-08],
+        ...,
+        [ 5.5879e-09,  3.2596e-09,  4.5169e-08,  ...,  9.3132e-09,
+          0.0000e+00, -2.8592e-07],
+        [-1.8720e-07,  9.3132e-10, -4.0000e-07,  ...,  9.3132e-09,
+          0.0000e+00, -2.7008e-08],
+        [ 1.0710e-08,  4.6566e-10, -3.3947e-07,  ..., -3.7346e-07,
+          0.0000e+00,  4.7497e-08]], device='cuda:0')
+Epoch 276, bias, value: tensor([-0.0256, -0.0242, -0.0424,  0.0066,  0.0094,  0.0392,  0.0227, -0.0176,
+        -0.0082, -0.0159], device='cuda:0'), grad: tensor([ 2.2352e-08,  4.4843e-07,  6.9384e-08,  6.4261e-08,  5.0059e-07,
+         4.5169e-07,  1.3094e-06, -5.3272e-07, -1.8077e-06, -5.2573e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 275, time 214.32, cls_loss 0.0011 cls_loss_mapping 0.0017 cls_loss_causal 0.4783 re_mapping 0.0041 re_causal 0.0122 /// teacc 99.05 lr 0.00010000
+Epoch 277, weight, value: tensor([[ 0.0234, -0.0987, -0.0787,  ..., -0.2202, -0.0923, -0.1794],
+        [-0.0877, -0.0553, -0.0145,  ...,  0.0425,  0.0271, -0.1278],
+        [ 0.0285, -0.1562, -0.2055,  ...,  0.0161, -0.1561,  0.0790],
+        ...,
+        [-0.0255, -0.0273, -0.1862,  ..., -0.1714,  0.0240,  0.1516],
+        [ 0.0695, -0.1364, -0.1203,  ..., -0.1721, -0.1023, -0.1450],
+        [-0.2248,  0.0243,  0.1123,  ...,  0.0850, -0.0930, -0.1720]],
+       device='cuda:0'), grad: tensor([[-2.8498e-07,  4.6566e-10,  2.7940e-09,  ...,  3.7253e-09,
+          0.0000e+00,  1.3970e-09],
+        [ 6.5193e-09,  7.4506e-09,  2.9802e-08,  ...,  3.5856e-08,
+          0.0000e+00,  3.0734e-08],
+        [ 4.6566e-10,  1.3970e-08,  1.8626e-09,  ...,  1.8626e-09,
+          0.0000e+00,  4.7963e-08],
+        ...,
+        [ 1.3970e-09, -2.8871e-08,  4.7963e-07,  ...,  4.4098e-07,
+          0.0000e+00,  1.1083e-07],
+        [ 6.7521e-08,  1.8626e-09,  7.4506e-09,  ...,  3.1618e-07,
+          0.0000e+00,  6.9849e-09],
+        [ 7.4506e-09,  5.5879e-09,  1.0338e-07,  ...,  9.4529e-08,
+          0.0000e+00,  6.6590e-08]], device='cuda:0')
+Epoch 277, bias, value: tensor([-0.0256, -0.0231, -0.0433,  0.0065,  0.0094,  0.0392,  0.0225, -0.0182,
+        -0.0088, -0.0159], device='cuda:0'), grad: tensor([-8.6706e-07,  1.4482e-07,  7.8697e-08,  2.3516e-07, -1.8086e-06,
+        -7.2084e-07,  8.7125e-07,  1.1837e-06,  5.2992e-07,  3.6601e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 276, time 214.02, cls_loss 0.0010 cls_loss_mapping 0.0020 cls_loss_causal 0.4769 re_mapping 0.0042 re_causal 0.0126 /// teacc 99.05 lr 0.00010000
+Epoch 278, weight, value: tensor([[ 0.0235, -0.0988, -0.0789,  ..., -0.2204, -0.0925, -0.1798],
+        [-0.0879, -0.0557, -0.0145,  ...,  0.0425,  0.0269, -0.1280],
+        [ 0.0284, -0.1566, -0.2058,  ...,  0.0161, -0.1561,  0.0796],
+        ...,
+        [-0.0256, -0.0276, -0.1871,  ..., -0.1721,  0.0241,  0.1516],
+        [ 0.0698, -0.1365, -0.1202,  ..., -0.1721, -0.1023, -0.1451],
+        [-0.2255,  0.0245,  0.1128,  ...,  0.0858, -0.0931, -0.1721]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  1.4435e-08,  5.5879e-09,  ...,  1.3970e-09,
+          1.3970e-09,  3.6787e-08],
+        [ 3.7253e-09,  1.0338e-07, -2.1886e-08,  ..., -2.7008e-08,
+          1.5367e-08,  2.3376e-07],
+        [ 3.7253e-09,  4.2375e-08,  5.1223e-09,  ...,  4.1910e-09,
+          1.3970e-09,  6.4261e-08],
+        ...,
+        [ 1.3970e-09, -2.6403e-07,  1.6764e-08,  ...,  1.7695e-08,
+         -3.3528e-08, -5.7928e-07],
+        [-5.8953e-07,  4.8429e-08, -1.3132e-06,  ..., -7.9721e-07,
+          1.3970e-09,  1.1688e-07],
+        [ 9.3132e-10,  3.6787e-08, -3.7253e-09,  ..., -6.5193e-09,
+          4.1910e-09,  8.5216e-08]], device='cuda:0')
+Epoch 278, bias, value: tensor([-0.0256, -0.0231, -0.0432,  0.0065,  0.0089,  0.0390,  0.0221, -0.0185,
+        -0.0086, -0.0152], device='cuda:0'), grad: tensor([ 1.1036e-07,  5.4203e-07,  2.4587e-07, -1.9595e-06,  1.5786e-07,
+         6.6794e-06,  1.6410e-06, -1.3877e-06, -6.2324e-06,  2.1933e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 277, time 214.15, cls_loss 0.0009 cls_loss_mapping 0.0020 cls_loss_causal 0.4932 re_mapping 0.0040 re_causal 0.0127 /// teacc 98.99 lr 0.00010000
+Epoch 279, weight, value: tensor([[ 0.0234, -0.0995, -0.0796,  ..., -0.2216, -0.0925, -0.1813],
+        [-0.0880, -0.0563, -0.0144,  ...,  0.0423,  0.0269, -0.1281],
+        [ 0.0283, -0.1572, -0.2061,  ...,  0.0161, -0.1563,  0.0796],
+        ...,
+        [-0.0252, -0.0277, -0.1876,  ..., -0.1730,  0.0242,  0.1519],
+        [ 0.0699, -0.1369, -0.1203,  ..., -0.1723, -0.1026, -0.1462],
+        [-0.2257,  0.0253,  0.1128,  ...,  0.0859, -0.0932, -0.1722]],
+       device='cuda:0'), grad: tensor([[-4.1910e-08,  1.3970e-09,  9.3132e-09,  ...,  2.3283e-09,
+          0.0000e+00,  1.4901e-08],
+        [ 5.1223e-09,  1.3039e-08, -1.5367e-08,  ..., -8.8476e-09,
+          0.0000e+00,  7.1246e-08],
+        [ 1.3970e-09,  8.3819e-09,  1.8626e-09,  ...,  2.3283e-09,
+          0.0000e+00, -8.7544e-08],
+        ...,
+        [ 1.3970e-09, -4.6100e-08,  1.9092e-08,  ...,  1.1642e-08,
+          0.0000e+00, -7.7300e-08],
+        [-0.0000e+00,  9.3132e-10,  8.8476e-09,  ...,  6.0536e-09,
+          0.0000e+00,  2.1886e-08],
+        [ 5.5879e-09,  7.4506e-09, -3.2596e-08,  ..., -4.3772e-08,
+          0.0000e+00,  3.8184e-08]], device='cuda:0')
+Epoch 279, bias, value: tensor([-0.0260, -0.0231, -0.0432,  0.0064,  0.0089,  0.0391,  0.0221, -0.0186,
+        -0.0086, -0.0152], device='cuda:0'), grad: tensor([-1.7509e-07,  1.4203e-07, -1.4389e-07, -1.7835e-07,  5.9605e-08,
+         1.3923e-07,  1.3737e-07, -9.0804e-08,  6.1467e-08,  5.0757e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 278, time 214.17, cls_loss 0.0011 cls_loss_mapping 0.0017 cls_loss_causal 0.5023 re_mapping 0.0041 re_causal 0.0128 /// teacc 98.99 lr 0.00010000
+Epoch 280, weight, value: tensor([[ 0.0234, -0.0997, -0.0800,  ..., -0.2222, -0.0931, -0.1820],
+        [-0.0881, -0.0586, -0.0162,  ...,  0.0422,  0.0268, -0.1295],
+        [ 0.0283, -0.1572, -0.2069,  ...,  0.0160, -0.1563,  0.0800],
+        ...,
+        [-0.0253, -0.0269, -0.1878,  ..., -0.1736,  0.0244,  0.1529],
+        [ 0.0699, -0.1372, -0.1204,  ..., -0.1724, -0.1026, -0.1470],
+        [-0.2259,  0.0262,  0.1128,  ...,  0.0858, -0.0932, -0.1722]],
+       device='cuda:0'), grad: tensor([[ 5.0757e-08,  5.1223e-09,  1.3970e-07,  ...,  2.7148e-07,
+          6.9849e-09,  9.3132e-09],
+        [ 1.1316e-07,  7.3574e-08, -8.9407e-05,  ..., -1.2445e-04,
+          2.4214e-08,  1.1967e-07],
+        [ 1.1176e-08,  7.6834e-08,  1.3039e-07,  ...,  1.9418e-07,
+          1.3970e-09,  1.0896e-07],
+        ...,
+        [ 5.1223e-09,  2.4680e-08,  6.4254e-05,  ...,  8.9645e-05,
+          0.0000e+00,  4.2841e-08],
+        [-4.4610e-07,  1.6298e-08,  1.1781e-07,  ...,  5.4250e-07,
+          2.9802e-08,  8.3819e-09],
+        [ 5.5879e-09, -1.9092e-08,  7.1824e-06,  ...,  1.0118e-05,
+          4.6566e-10,  8.8476e-09]], device='cuda:0')
+Epoch 280, bias, value: tensor([-0.0260, -0.0247, -0.0434,  0.0065,  0.0090,  0.0390,  0.0222, -0.0170,
+        -0.0087, -0.0152], device='cuda:0'), grad: tensor([ 9.0152e-07, -1.9717e-04,  7.5251e-07,  1.9632e-06,  3.8445e-05,
+         6.1691e-05, -6.2466e-05,  1.4329e-04, -3.8892e-06,  1.6108e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 279, time 214.26, cls_loss 0.0015 cls_loss_mapping 0.0023 cls_loss_causal 0.4671 re_mapping 0.0043 re_causal 0.0119 /// teacc 98.93 lr 0.00010000
+Epoch 281, weight, value: tensor([[ 0.0235, -0.1001, -0.0821,  ..., -0.2214, -0.0934, -0.1829],
+        [-0.0882, -0.0603, -0.0155,  ...,  0.0428,  0.0269, -0.1299],
+        [ 0.0282, -0.1560, -0.2082,  ...,  0.0160, -0.1564,  0.0826],
+        ...,
+        [-0.0254, -0.0268, -0.1908,  ..., -0.1761,  0.0244,  0.1525],
+        [ 0.0702, -0.1375, -0.1209,  ..., -0.1726, -0.1029, -0.1480],
+        [-0.2262,  0.0271,  0.1128,  ...,  0.0858, -0.0932, -0.1723]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-09,  4.6566e-10,  4.9826e-08,  ...,  6.9849e-09,
+          1.3970e-09,  2.6543e-08],
+        [ 4.1910e-09,  1.0710e-08, -1.0664e-07,  ..., -1.0943e-07,
+         -2.3283e-09,  8.4750e-08],
+        [ 2.3283e-09,  9.3132e-10,  1.3970e-08,  ...,  2.7940e-09,
+          9.3132e-10, -1.9139e-07],
+        ...,
+        [ 4.6566e-10, -7.9162e-09,  9.2201e-08,  ...,  8.9873e-08,
+         -2.3283e-09, -2.7940e-09],
+        [ 3.7253e-09,  2.7940e-09,  4.6100e-08,  ...,  1.1129e-07,
+          1.3970e-09,  3.1665e-08],
+        [ 2.3283e-09,  1.8626e-09,  3.3062e-08,  ...,  6.3330e-08,
+          9.3132e-10,  8.3819e-09]], device='cuda:0')
+Epoch 281, bias, value: tensor([-0.0258, -0.0249, -0.0429,  0.0058,  0.0091,  0.0392,  0.0222, -0.0176,
+        -0.0081, -0.0152], device='cuda:0'), grad: tensor([ 1.9372e-07, -1.7136e-07, -2.5239e-07,  2.5099e-07,  2.1420e-07,
+        -4.0606e-07, -4.7684e-07,  2.6682e-07,  2.1560e-07,  1.5972e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 280, time 214.39, cls_loss 0.0015 cls_loss_mapping 0.0024 cls_loss_causal 0.4728 re_mapping 0.0046 re_causal 0.0125 /// teacc 99.00 lr 0.00010000
+Epoch 282, weight, value: tensor([[ 0.0236, -0.1010, -0.0826,  ..., -0.2225, -0.0934, -0.1844],
+        [-0.0883, -0.0589, -0.0145,  ...,  0.0434,  0.0301, -0.1301],
+        [ 0.0281, -0.1578, -0.2105,  ...,  0.0159, -0.1563,  0.0816],
+        ...,
+        [-0.0256, -0.0278, -0.1935,  ..., -0.1784,  0.0215,  0.1532],
+        [ 0.0696, -0.1385, -0.1223,  ..., -0.1735, -0.1033, -0.1484],
+        [-0.2267,  0.0275,  0.1129,  ...,  0.0860, -0.0936, -0.1728]],
+       device='cuda:0'), grad: tensor([[-1.0803e-07,  1.7695e-08,  9.6392e-08,  ...,  2.1420e-08,
+          0.0000e+00,  9.3132e-10],
+        [ 1.0245e-08,  6.5193e-09,  1.3504e-08,  ...,  3.7253e-09,
+          0.0000e+00,  1.2107e-08],
+        [ 2.7474e-08,  2.3283e-09,  1.0245e-08,  ...,  4.6566e-09,
+          0.0000e+00, -3.6322e-08],
+        ...,
+        [ 4.6566e-09,  1.3970e-08,  5.6811e-08,  ...,  3.6322e-08,
+          0.0000e+00,  1.3039e-08],
+        [ 1.3970e-08,  1.4435e-08,  5.3085e-08,  ...,  3.2596e-08,
+          0.0000e+00,  9.7789e-09],
+        [ 1.4435e-08, -3.3947e-07, -1.7760e-06,  ..., -8.5030e-07,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 282, bias, value: tensor([-0.0258, -0.0243, -0.0433,  0.0064,  0.0090,  0.0389,  0.0223, -0.0180,
+        -0.0084, -0.0151], device='cuda:0'), grad: tensor([-4.9500e-07,  1.3039e-07,  1.6484e-07,  1.4156e-07,  2.8946e-06,
+        -3.9581e-08,  1.7183e-07,  1.7742e-07,  7.3109e-08, -3.2373e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 281, time 214.76, cls_loss 0.0011 cls_loss_mapping 0.0017 cls_loss_causal 0.4518 re_mapping 0.0046 re_causal 0.0126 /// teacc 99.11 lr 0.00010000
+Epoch 283, weight, value: tensor([[ 0.0237, -0.1015, -0.0829,  ..., -0.2235, -0.0934, -0.1853],
+        [-0.0886, -0.0593, -0.0158,  ...,  0.0430,  0.0304, -0.1301],
+        [ 0.0280, -0.1591, -0.2104,  ...,  0.0159, -0.1566,  0.0823],
+        ...,
+        [-0.0259, -0.0281, -0.1939,  ..., -0.1787,  0.0212,  0.1530],
+        [ 0.0701, -0.1408, -0.1212,  ..., -0.1735, -0.1041, -0.1497],
+        [-0.2295,  0.0308,  0.1134,  ...,  0.0866, -0.0937, -0.1732]],
+       device='cuda:0'), grad: tensor([[-5.1223e-09,  2.3283e-09,  1.3970e-09,  ...,  2.3283e-09,
+          0.0000e+00,  5.1688e-08],
+        [ 9.3132e-10,  5.2154e-07,  3.9907e-07,  ...,  1.5413e-06,
+          0.0000e+00,  1.2722e-06],
+        [ 4.6566e-10, -2.9802e-08,  5.1223e-09,  ...,  2.0955e-08,
+          0.0000e+00, -1.0915e-06],
+        ...,
+        [ 4.6566e-10, -6.6869e-07, -4.8941e-07,  ..., -1.9483e-06,
+          0.0000e+00, -1.0151e-06],
+        [ 1.3970e-08,  1.1642e-08,  4.1444e-08,  ...,  1.1269e-07,
+          0.0000e+00,  1.8394e-07],
+        [ 4.1910e-09,  1.4808e-07, -4.6194e-07,  ..., -7.0781e-08,
+          0.0000e+00,  2.6403e-07]], device='cuda:0')
+Epoch 283, bias, value: tensor([-0.0256, -0.0244, -0.0430,  0.0067,  0.0086,  0.0389,  0.0222, -0.0183,
+        -0.0081, -0.0147], device='cuda:0'), grad: tensor([ 1.7928e-07,  7.0222e-06, -4.0233e-06,  5.0478e-07,  9.4343e-07,
+        -1.4389e-07,  6.2166e-07, -6.5640e-06,  8.7451e-07,  5.8953e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 282, time 214.00, cls_loss 0.0012 cls_loss_mapping 0.0018 cls_loss_causal 0.4791 re_mapping 0.0042 re_causal 0.0120 /// teacc 99.06 lr 0.00010000
+Epoch 284, weight, value: tensor([[ 0.0236, -0.1025, -0.0852,  ..., -0.2241, -0.0936, -0.1869],
+        [-0.0887, -0.0597, -0.0160,  ...,  0.0430,  0.0305, -0.1312],
+        [ 0.0279, -0.1599, -0.2112,  ...,  0.0159, -0.1572,  0.0832],
+        ...,
+        [-0.0260, -0.0276, -0.1941,  ..., -0.1787,  0.0214,  0.1543],
+        [ 0.0703, -0.1407, -0.1233,  ..., -0.1743, -0.1051, -0.1532],
+        [-0.2302,  0.0309,  0.1136,  ...,  0.0868, -0.0943, -0.1739]],
+       device='cuda:0'), grad: tensor([[-9.1270e-08,  0.0000e+00,  2.7008e-08,  ...,  9.3132e-10,
+          0.0000e+00,  4.4703e-08],
+        [ 1.4435e-08,  2.3283e-09, -5.8208e-08,  ..., -8.4750e-08,
+          0.0000e+00,  5.2620e-08],
+        [ 5.5879e-09,  4.6566e-10,  1.8626e-09,  ...,  1.8626e-09,
+          0.0000e+00, -3.6834e-07],
+        ...,
+        [ 2.4680e-08, -0.0000e+00,  5.4948e-08,  ...,  7.2177e-08,
+          0.0000e+00,  1.4296e-07],
+        [ 1.1642e-08,  4.6566e-10,  6.5193e-09,  ...,  4.1910e-09,
+          0.0000e+00,  4.9826e-08],
+        [ 1.2107e-08,  2.7940e-09, -8.8476e-09,  ..., -1.2573e-08,
+          0.0000e+00,  1.3504e-08]], device='cuda:0')
+Epoch 284, bias, value: tensor([-0.0270, -0.0249, -0.0426,  0.0067,  0.0086,  0.0387,  0.0226, -0.0176,
+        -0.0089, -0.0145], device='cuda:0'), grad: tensor([-5.7509e-07, -7.6368e-08, -7.1619e-07,  2.2072e-07,  3.5856e-08,
+         2.0210e-07, -4.0978e-08,  6.7055e-07,  1.7975e-07,  1.1222e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 283, time 214.25, cls_loss 0.0010 cls_loss_mapping 0.0017 cls_loss_causal 0.4797 re_mapping 0.0041 re_causal 0.0120 /// teacc 99.09 lr 0.00010000
+Epoch 285, weight, value: tensor([[ 0.0236, -0.1032, -0.0856,  ..., -0.2248, -0.0936, -0.1876],
+        [-0.0889, -0.0599, -0.0158,  ...,  0.0431,  0.0306, -0.1313],
+        [ 0.0277, -0.1611, -0.2116,  ...,  0.0159, -0.1570,  0.0798],
+        ...,
+        [-0.0261, -0.0272, -0.1944,  ..., -0.1790,  0.0214,  0.1564],
+        [ 0.0713, -0.1385, -0.1230,  ..., -0.1738, -0.1053, -0.1540],
+        [-0.2316,  0.0307,  0.1136,  ...,  0.0868, -0.0944, -0.1741]],
+       device='cuda:0'), grad: tensor([[-2.6543e-08,  2.3283e-09,  5.1223e-09,  ...,  8.8476e-09,
+          0.0000e+00,  7.9162e-09],
+        [ 2.7940e-09,  2.6077e-08, -4.4238e-08,  ..., -4.1910e-09,
+          0.0000e+00,  8.2888e-08],
+        [ 1.8626e-09,  2.9337e-08,  5.3085e-08,  ...,  1.1828e-07,
+          0.0000e+00, -2.2817e-08],
+        ...,
+        [ 9.3132e-10,  2.5285e-07,  5.2201e-07,  ...,  1.1977e-06,
+          0.0000e+00, -8.7544e-08],
+        [ 5.1223e-09,  1.3178e-07,  2.4261e-07,  ...,  5.6997e-07,
+          0.0000e+00,  2.4214e-08],
+        [ 7.9162e-09, -6.2911e-07, -1.0645e-06,  ..., -2.6934e-06,
+          0.0000e+00,  1.6764e-08]], device='cuda:0')
+Epoch 285, bias, value: tensor([-0.0273, -0.0248, -0.0442,  0.0067,  0.0086,  0.0384,  0.0226, -0.0169,
+        -0.0086, -0.0145], device='cuda:0'), grad: tensor([-1.2154e-07,  5.1688e-08,  2.4401e-07,  4.0513e-08,  1.6280e-06,
+         1.0571e-07,  4.5169e-08,  2.6692e-06,  1.4100e-06, -6.0536e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 284, time 214.36, cls_loss 0.0011 cls_loss_mapping 0.0017 cls_loss_causal 0.4698 re_mapping 0.0041 re_causal 0.0123 /// teacc 99.06 lr 0.00010000
+Epoch 286, weight, value: tensor([[ 0.0238, -0.1035, -0.0877,  ..., -0.2248, -0.0936, -0.1880],
+        [-0.0892, -0.0600, -0.0156,  ...,  0.0432,  0.0306, -0.1318],
+        [ 0.0275, -0.1614, -0.2123,  ...,  0.0159, -0.1568,  0.0798],
+        ...,
+        [-0.0264, -0.0271, -0.1947,  ..., -0.1793,  0.0214,  0.1570],
+        [ 0.0713, -0.1388, -0.1235,  ..., -0.1741, -0.1071, -0.1550],
+        [-0.2319,  0.0308,  0.1137,  ...,  0.0868, -0.0944, -0.1745]],
+       device='cuda:0'), grad: tensor([[-7.4506e-09,  1.3970e-09,  2.7474e-08,  ...,  9.3132e-09,
+          0.0000e+00,  1.1642e-08],
+        [ 6.9849e-09,  6.8452e-08, -1.7043e-07,  ...,  7.1432e-07,
+          0.0000e+00,  1.6242e-06],
+        [ 3.2596e-09,  1.2992e-07,  9.7789e-09,  ..., -1.0757e-06,
+          0.0000e+00, -1.6131e-06],
+        ...,
+        [ 1.8626e-09, -1.0841e-06,  1.3597e-07,  ...,  2.8033e-07,
+          0.0000e+00, -1.6810e-06],
+        [-4.6566e-09,  3.2596e-09,  3.2131e-08,  ...,  2.4214e-08,
+          0.0000e+00,  2.0489e-08],
+        [ 3.7253e-09,  8.6986e-07, -1.2061e-07,  ..., -9.0804e-08,
+          0.0000e+00,  1.6149e-06]], device='cuda:0')
+Epoch 286, bias, value: tensor([-0.0284, -0.0250, -0.0443,  0.0066,  0.0085,  0.0384,  0.0228, -0.0167,
+        -0.0090, -0.0144], device='cuda:0'), grad: tensor([ 5.9605e-08,  5.0701e-06, -6.0499e-06, -4.2841e-08,  3.5716e-07,
+         9.2667e-08, -1.6810e-07, -3.7551e-06, -2.6543e-08,  4.4703e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 285, time 214.32, cls_loss 0.0010 cls_loss_mapping 0.0016 cls_loss_causal 0.4746 re_mapping 0.0040 re_causal 0.0122 /// teacc 99.01 lr 0.00010000
+Epoch 287, weight, value: tensor([[ 0.0240, -0.1041, -0.0880,  ..., -0.2253, -0.0936, -0.1893],
+        [-0.0894, -0.0602, -0.0152,  ...,  0.0434,  0.0306, -0.1323],
+        [ 0.0273, -0.1619, -0.2129,  ...,  0.0159, -0.1567,  0.0799],
+        ...,
+        [-0.0266, -0.0268, -0.1957,  ..., -0.1800,  0.0214,  0.1573],
+        [ 0.0718, -0.1395, -0.1237,  ..., -0.1743, -0.1071, -0.1557],
+        [-0.2323,  0.0307,  0.1137,  ...,  0.0869, -0.0944, -0.1751]],
+       device='cuda:0'), grad: tensor([[-5.2620e-08, -2.9337e-08,  8.6147e-08,  ...,  6.0536e-08,
+          2.7940e-09,  1.8626e-08],
+        [ 1.2573e-08,  1.3039e-08, -2.2026e-07,  ..., -1.7975e-07,
+          1.8626e-09,  3.6322e-08],
+        [ 1.1176e-08,  6.5193e-09,  4.8429e-08,  ..., -2.2817e-08,
+         -1.9092e-08, -1.2945e-07],
+        ...,
+        [ 2.7940e-09, -2.0489e-08,  3.2084e-07,  ...,  2.4820e-07,
+          2.7940e-09, -2.7008e-08],
+        [-9.3132e-09,  8.3819e-09,  1.0384e-07,  ...,  7.1712e-08,
+          1.3970e-09,  2.6077e-08],
+        [ 2.7940e-09, -4.1910e-09,  2.4512e-06,  ...,  1.6075e-06,
+          3.2596e-09,  2.4214e-08]], device='cuda:0')
+Epoch 287, bias, value: tensor([-0.0284, -0.0249, -0.0448,  0.0073,  0.0085,  0.0381,  0.0225, -0.0165,
+        -0.0089, -0.0144], device='cuda:0'), grad: tensor([-3.9581e-08, -4.3865e-07, -5.2620e-08,  1.6624e-07, -5.5768e-06,
+         3.3434e-07,  7.1945e-07,  9.4436e-07, -7.7439e-07,  4.7274e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 286, time 214.24, cls_loss 0.0011 cls_loss_mapping 0.0018 cls_loss_causal 0.4731 re_mapping 0.0040 re_causal 0.0120 /// teacc 98.97 lr 0.00010000
+Epoch 288, weight, value: tensor([[ 0.0242, -0.1042, -0.0884,  ..., -0.2260, -0.0936, -0.1899],
+        [-0.0897, -0.0605, -0.0150,  ...,  0.0437,  0.0306, -0.1332],
+        [ 0.0269, -0.1624, -0.2135,  ...,  0.0159, -0.1567,  0.0800],
+        ...,
+        [-0.0272, -0.0267, -0.1962,  ..., -0.1805,  0.0214,  0.1580],
+        [ 0.0720, -0.1399, -0.1254,  ..., -0.1753, -0.1072, -0.1563],
+        [-0.2326,  0.0307,  0.1139,  ...,  0.0871, -0.0944, -0.1754]],
+       device='cuda:0'), grad: tensor([[-3.2596e-09,  4.6566e-09,  5.1223e-09,  ...,  4.6566e-10,
+          0.0000e+00,  3.2596e-09],
+        [ 2.3283e-09,  3.7253e-09,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  2.4214e-08],
+        [ 3.1665e-08,  5.5879e-09,  2.3283e-09,  ...,  4.6566e-10,
+          0.0000e+00, -2.1886e-08],
+        ...,
+        [ 1.3970e-09, -1.3970e-09,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00, -8.8476e-09],
+        [-4.8429e-08,  6.0536e-09,  4.6566e-10,  ...,  9.3132e-10,
+          0.0000e+00,  2.0955e-08],
+        [ 7.9162e-09,  2.7940e-09, -4.1910e-09,  ...,  1.4435e-08,
+          0.0000e+00,  6.5193e-09]], device='cuda:0')
+Epoch 288, bias, value: tensor([-0.0284, -0.0252, -0.0447,  0.0072,  0.0084,  0.0383,  0.0217, -0.0163,
+        -0.0092, -0.0142], device='cuda:0'), grad: tensor([-1.3504e-08,  6.0536e-08,  3.3388e-07, -8.3819e-09,  1.1642e-08,
+         5.9605e-08, -3.3528e-08, -1.3970e-08, -4.5635e-07,  6.7987e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 287, time 214.50, cls_loss 0.0009 cls_loss_mapping 0.0013 cls_loss_causal 0.4728 re_mapping 0.0039 re_causal 0.0119 /// teacc 99.01 lr 0.00010000
+Epoch 289, weight, value: tensor([[ 0.0241, -0.1044, -0.0889,  ..., -0.2264, -0.0936, -0.1903],
+        [-0.0898, -0.0606, -0.0149,  ...,  0.0436,  0.0306, -0.1334],
+        [ 0.0267, -0.1636, -0.2142,  ...,  0.0160, -0.1573,  0.0799],
+        ...,
+        [-0.0274, -0.0264, -0.1964,  ..., -0.1806,  0.0214,  0.1582],
+        [ 0.0721, -0.1403, -0.1255,  ..., -0.1754, -0.1072, -0.1567],
+        [-0.2328,  0.0307,  0.1139,  ...,  0.0871, -0.0944, -0.1757]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  3.2596e-09,  8.8476e-09,  ...,  1.0710e-08,
+          0.0000e+00,  5.5879e-09],
+        [ 9.3132e-10,  2.8871e-08, -2.5379e-07,  ..., -1.8626e-09,
+          9.3132e-10,  7.4506e-08],
+        [ 4.6566e-10,  8.8476e-09,  2.2352e-08,  ...,  3.7253e-09,
+          0.0000e+00,  7.9162e-09],
+        ...,
+        [ 1.3970e-09, -1.6298e-08,  1.3551e-07,  ...,  1.4901e-08,
+         -1.3970e-09, -6.7987e-08],
+        [-9.3132e-10,  7.9162e-09,  8.4750e-08,  ...,  1.4901e-08,
+          0.0000e+00,  1.3039e-08],
+        [ 7.4506e-09,  1.3504e-08,  4.4238e-08,  ...,  3.8184e-08,
+          4.6566e-10,  3.0268e-08]], device='cuda:0')
+Epoch 289, bias, value: tensor([-0.0287, -0.0253, -0.0446,  0.0073,  0.0084,  0.0383,  0.0216, -0.0163,
+        -0.0091, -0.0142], device='cuda:0'), grad: tensor([ 8.7544e-08, -2.2836e-06,  2.1420e-07, -2.0862e-07, -1.4855e-07,
+        -3.1851e-07,  3.1292e-07,  1.1055e-06,  9.9558e-07,  2.4587e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 288, time 214.41, cls_loss 0.0010 cls_loss_mapping 0.0012 cls_loss_causal 0.4453 re_mapping 0.0039 re_causal 0.0119 /// teacc 99.01 lr 0.00010000
+Epoch 290, weight, value: tensor([[ 0.0244, -0.1049, -0.0900,  ..., -0.2269, -0.0936, -0.1908],
+        [-0.0905, -0.0612, -0.0151,  ...,  0.0437,  0.0306, -0.1335],
+        [ 0.0265, -0.1639, -0.2147,  ...,  0.0160, -0.1574,  0.0800],
+        ...,
+        [-0.0278, -0.0263, -0.1966,  ..., -0.1807,  0.0214,  0.1582],
+        [ 0.0721, -0.1409, -0.1256,  ..., -0.1758, -0.1073, -0.1571],
+        [-0.2331,  0.0306,  0.1143,  ...,  0.0875, -0.0944, -0.1760]],
+       device='cuda:0'), grad: tensor([[-4.1444e-08,  1.5367e-08,  1.1176e-08,  ...,  2.2352e-08,
+          4.6566e-10,  6.0070e-08],
+        [ 6.0536e-09,  5.2620e-08, -4.1910e-09,  ...,  6.7055e-08,
+          1.8626e-09,  1.8487e-07],
+        [ 1.8626e-09,  2.0489e-08,  5.5879e-09,  ...,  3.2131e-08,
+          0.0000e+00, -2.9337e-08],
+        ...,
+        [-1.8626e-09,  2.7474e-08,  1.1316e-07,  ...,  3.0035e-07,
+         -5.1223e-09,  9.9186e-08],
+        [ 1.1176e-08,  8.2422e-08,  1.0245e-07,  ...,  2.8918e-07,
+          0.0000e+00,  2.7148e-07],
+        [ 1.3504e-08,  5.4017e-08, -2.8312e-07,  ..., -6.1840e-07,
+          2.3283e-09,  1.8440e-07]], device='cuda:0')
+Epoch 290, bias, value: tensor([-0.0286, -0.0255, -0.0446,  0.0077,  0.0081,  0.0386,  0.0210, -0.0165,
+        -0.0085, -0.0138], device='cuda:0'), grad: tensor([-4.2841e-08,  5.6345e-07, -2.5611e-08, -8.7768e-06,  1.4231e-06,
+         6.5789e-06, -9.9838e-07,  1.0822e-06,  1.4501e-06, -1.2442e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 289, time 214.10, cls_loss 0.0011 cls_loss_mapping 0.0020 cls_loss_causal 0.4838 re_mapping 0.0039 re_causal 0.0122 /// teacc 98.77 lr 0.00010000
+Epoch 291, weight, value: tensor([[ 0.0257, -0.1046, -0.0896,  ..., -0.2275, -0.0937, -0.1912],
+        [-0.0917, -0.0613, -0.0149,  ...,  0.0438,  0.0306, -0.1336],
+        [ 0.0262, -0.1636, -0.2156,  ...,  0.0160, -0.1570,  0.0801],
+        ...,
+        [-0.0282, -0.0259, -0.1969,  ..., -0.1809,  0.0215,  0.1583],
+        [ 0.0722, -0.1412, -0.1283,  ..., -0.1779, -0.1080, -0.1578],
+        [-0.2343,  0.0304,  0.1156,  ...,  0.0892, -0.0946, -0.1764]],
+       device='cuda:0'), grad: tensor([[-1.8626e-08,  1.3970e-09,  5.5879e-09,  ...,  6.9849e-09,
+          0.0000e+00,  5.5879e-09],
+        [ 1.8626e-09,  3.4925e-08, -5.0105e-07,  ..., -2.2631e-07,
+          0.0000e+00,  7.2643e-08],
+        [ 1.8626e-09,  1.1176e-08,  1.7229e-08,  ..., -1.8720e-07,
+          0.0000e+00, -1.1781e-07],
+        ...,
+        [ 2.3283e-09, -4.4238e-08,  7.6368e-08,  ...,  4.2841e-08,
+          0.0000e+00, -9.8720e-08],
+        [ 1.8626e-08,  2.2352e-08,  2.3842e-07,  ...,  1.5507e-07,
+          0.0000e+00,  3.7253e-08],
+        [ 6.5193e-09,  7.4506e-09,  3.2596e-09,  ...,  1.8766e-07,
+          0.0000e+00,  1.4435e-07]], device='cuda:0')
+Epoch 291, bias, value: tensor([-0.0259, -0.0255, -0.0445,  0.0075,  0.0064,  0.0385,  0.0196, -0.0165,
+        -0.0095, -0.0121], device='cuda:0'), grad: tensor([-3.4459e-08, -1.4063e-06, -1.8179e-06, -1.0058e-07,  2.4727e-07,
+        -7.2177e-08,  3.0827e-07, -1.4435e-08,  9.8627e-07,  1.9073e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 290, time 214.13, cls_loss 0.0012 cls_loss_mapping 0.0023 cls_loss_causal 0.4590 re_mapping 0.0040 re_causal 0.0117 /// teacc 99.03 lr 0.00010000
+Epoch 292, weight, value: tensor([[ 0.0254, -0.1049, -0.0896,  ..., -0.2278, -0.0938, -0.1926],
+        [-0.0923, -0.0615, -0.0133,  ...,  0.0438,  0.0320, -0.1337],
+        [ 0.0257, -0.1637, -0.2160,  ...,  0.0159, -0.1563,  0.0803],
+        ...,
+        [-0.0287, -0.0262, -0.1988,  ..., -0.1810,  0.0201,  0.1584],
+        [ 0.0726, -0.1415, -0.1309,  ..., -0.1798, -0.1094, -0.1586],
+        [-0.2348,  0.0295,  0.1157,  ...,  0.0891, -0.0942, -0.1772]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  9.3132e-10,  3.2596e-09,  ...,  4.7497e-08,
+          0.0000e+00,  1.5832e-08],
+        [ 0.0000e+00,  9.3132e-10, -3.1199e-08,  ..., -1.4007e-06,
+          0.0000e+00,  6.0536e-09],
+        [ 4.6566e-10, -1.4901e-08,  2.7940e-09,  ...,  6.8918e-07,
+          0.0000e+00, -3.3202e-07],
+        ...,
+        [ 0.0000e+00,  1.3970e-09,  4.3772e-08,  ...,  6.2399e-07,
+          0.0000e+00,  7.4506e-09],
+        [-1.3970e-09,  2.7940e-09,  1.7229e-08,  ...,  1.6298e-08,
+          0.0000e+00,  4.6566e-08],
+        [ 4.6566e-10,  9.3132e-10, -3.6322e-08,  ..., -4.2375e-08,
+          0.0000e+00,  2.3283e-09]], device='cuda:0')
+Epoch 292, bias, value: tensor([-0.0262, -0.0243, -0.0443,  0.0047,  0.0065,  0.0413,  0.0192, -0.0178,
+        -0.0106, -0.0121], device='cuda:0'), grad: tensor([ 5.6904e-07, -1.4760e-05,  5.4464e-06,  1.2200e-06,  2.2817e-08,
+         5.6252e-07,  1.5367e-07,  6.3293e-06,  4.4703e-07, -5.5879e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 291, time 214.16, cls_loss 0.0010 cls_loss_mapping 0.0016 cls_loss_causal 0.4610 re_mapping 0.0041 re_causal 0.0119 /// teacc 99.08 lr 0.00010000
+Epoch 293, weight, value: tensor([[ 0.0246, -0.1051, -0.0898,  ..., -0.2281, -0.0938, -0.1932],
+        [-0.0925, -0.0617, -0.0132,  ...,  0.0439,  0.0320, -0.1338],
+        [ 0.0255, -0.1639, -0.2166,  ...,  0.0159, -0.1555,  0.0806],
+        ...,
+        [-0.0289, -0.0250, -0.1992,  ..., -0.1812,  0.0201,  0.1584],
+        [ 0.0725, -0.1418, -0.1312,  ..., -0.1801, -0.1107, -0.1607],
+        [-0.2351,  0.0279,  0.1157,  ...,  0.0891, -0.0942, -0.1781]],
+       device='cuda:0'), grad: tensor([[ 1.9395e-07,  0.0000e+00,  1.5204e-07,  ...,  8.8941e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 5.5879e-09,  8.3819e-09, -1.0384e-07,  ..., -1.2503e-07,
+          0.0000e+00,  1.2573e-08],
+        [ 6.2864e-09,  4.6566e-10,  6.7521e-09,  ...,  8.6147e-09,
+          0.0000e+00,  6.9849e-10],
+        ...,
+        [ 9.3132e-10, -1.6065e-08,  3.7486e-08,  ...,  4.0513e-08,
+          0.0000e+00, -2.8638e-08],
+        [ 5.7276e-08,  2.3283e-10,  3.8184e-08,  ...,  6.2166e-08,
+          0.0000e+00,  2.3283e-10],
+        [ 1.7462e-08,  6.9849e-09,  3.5157e-08,  ...,  3.6787e-08,
+          0.0000e+00,  1.6298e-08]], device='cuda:0')
+Epoch 293, bias, value: tensor([-0.0269, -0.0242, -0.0441,  0.0045,  0.0065,  0.0416,  0.0197, -0.0176,
+        -0.0111, -0.0122], device='cuda:0'), grad: tensor([ 1.1157e-06, -2.4284e-07,  5.7975e-08,  1.2037e-07,  1.3644e-07,
+         3.4086e-06, -5.0217e-06,  2.9569e-08, -1.0035e-07,  4.9919e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 292, time 214.24, cls_loss 0.0010 cls_loss_mapping 0.0019 cls_loss_causal 0.4860 re_mapping 0.0038 re_causal 0.0116 /// teacc 99.07 lr 0.00010000
+Epoch 294, weight, value: tensor([[ 0.0247, -0.1052, -0.0899,  ..., -0.2290, -0.0939, -0.1936],
+        [-0.0927, -0.0617, -0.0130,  ...,  0.0438,  0.0319, -0.1340],
+        [ 0.0254, -0.1640, -0.2160,  ...,  0.0159, -0.1553,  0.0808],
+        ...,
+        [-0.0292, -0.0245, -0.1993,  ..., -0.1812,  0.0202,  0.1585],
+        [ 0.0736, -0.1416, -0.1313,  ..., -0.1798, -0.1108, -0.1612],
+        [-0.2371,  0.0275,  0.1157,  ...,  0.0891, -0.0942, -0.1786]],
+       device='cuda:0'), grad: tensor([[-3.1199e-08,  0.0000e+00,  1.7928e-08,  ...,  1.3970e-09,
+          0.0000e+00,  3.7253e-09],
+        [ 4.1910e-09,  6.9849e-10, -3.9581e-08,  ..., -2.7940e-08,
+          0.0000e+00,  2.0955e-09],
+        [ 9.3132e-10,  2.3283e-10,  2.3283e-09,  ...,  1.6298e-09,
+          0.0000e+00, -3.3993e-08],
+        ...,
+        [ 1.1642e-09,  6.9849e-10,  1.2573e-08,  ...,  1.0477e-08,
+          0.0000e+00,  3.0966e-08],
+        [ 5.1223e-09,  2.3283e-10,  2.5611e-08,  ...,  1.7695e-08,
+          0.0000e+00,  1.6298e-09],
+        [ 1.3504e-08, -6.9849e-10, -3.0501e-08,  ..., -2.6310e-08,
+          0.0000e+00,  4.6566e-10]], device='cuda:0')
+Epoch 294, bias, value: tensor([-0.0268, -0.0243, -0.0438,  0.0039,  0.0065,  0.0419,  0.0199, -0.0175,
+        -0.0103, -0.0123], device='cuda:0'), grad: tensor([-1.3644e-07, -7.2177e-08, -5.5414e-08,  2.3283e-09,  3.0734e-08,
+         7.9395e-08, -3.1898e-08,  9.8487e-08,  7.3574e-08,  2.0489e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 293, time 214.36, cls_loss 0.0010 cls_loss_mapping 0.0017 cls_loss_causal 0.4713 re_mapping 0.0039 re_causal 0.0118 /// teacc 98.98 lr 0.00010000
+Epoch 295, weight, value: tensor([[ 0.0248, -0.1053, -0.0899,  ..., -0.2293, -0.0940, -0.1938],
+        [-0.0933, -0.0619, -0.0116,  ...,  0.0450,  0.0319, -0.1339],
+        [ 0.0253, -0.1646, -0.2171,  ...,  0.0158, -0.1558,  0.0808],
+        ...,
+        [-0.0293, -0.0243, -0.2003,  ..., -0.1822,  0.0202,  0.1585],
+        [ 0.0739, -0.1419, -0.1314,  ..., -0.1800, -0.1108, -0.1614],
+        [-0.2374,  0.0275,  0.1156,  ...,  0.0891, -0.0942, -0.1788]],
+       device='cuda:0'), grad: tensor([[ 2.0023e-08,  0.0000e+00,  3.1432e-08,  ...,  6.0536e-09,
+          2.4680e-08,  9.3132e-09],
+        [ 6.9849e-10,  3.4925e-09, -3.2433e-07,  ..., -3.2084e-07,
+          2.3283e-10,  1.2340e-08],
+        [ 3.2596e-09,  1.3970e-09,  3.4925e-09,  ...,  2.7940e-09,
+          4.6566e-10,  5.1223e-09],
+        ...,
+        [ 2.3283e-10, -1.1409e-08,  7.6368e-08,  ...,  7.8231e-08,
+          0.0000e+00, -4.1211e-08],
+        [-1.0710e-08,  1.1642e-09,  9.1037e-08,  ...,  1.5087e-07,
+          2.3283e-10,  4.4238e-09],
+        [ 1.1642e-09,  2.3283e-09,  2.0256e-08,  ...,  3.4692e-08,
+          0.0000e+00,  1.2573e-08]], device='cuda:0')
+Epoch 295, bias, value: tensor([-0.0263, -0.0239, -0.0439,  0.0041,  0.0065,  0.0416,  0.0199, -0.0179,
+        -0.0100, -0.0124], device='cuda:0'), grad: tensor([ 1.3155e-07, -7.0268e-07,  4.1211e-08,  3.1432e-08,  2.4447e-07,
+         4.5868e-08, -1.5204e-07,  6.7521e-08,  2.0210e-07,  1.1781e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 294, time 214.69, cls_loss 0.0010 cls_loss_mapping 0.0019 cls_loss_causal 0.4809 re_mapping 0.0041 re_causal 0.0122 /// teacc 99.06 lr 0.00010000
+Epoch 296, weight, value: tensor([[ 0.0246, -0.1053, -0.0901,  ..., -0.2323, -0.0940, -0.1942],
+        [-0.0936, -0.0619, -0.0113,  ...,  0.0453,  0.0320, -0.1339],
+        [ 0.0249, -0.1648, -0.2177,  ...,  0.0158, -0.1558,  0.0810],
+        ...,
+        [-0.0296, -0.0245, -0.2008,  ..., -0.1829,  0.0201,  0.1584],
+        [ 0.0744, -0.1421, -0.1312,  ..., -0.1798, -0.1109, -0.1617],
+        [-0.2385,  0.0277,  0.1157,  ...,  0.0891, -0.0941, -0.1790]],
+       device='cuda:0'), grad: tensor([[-5.7742e-08,  9.3132e-10, -6.6822e-08,  ..., -1.7695e-08,
+          0.0000e+00,  3.2596e-09],
+        [ 3.5856e-08,  5.3551e-09,  4.7497e-08,  ...,  1.1176e-08,
+          0.0000e+00,  2.1653e-08],
+        [ 2.5611e-09,  9.3132e-10,  4.8894e-09,  ...,  1.1642e-09,
+          0.0000e+00,  2.3283e-09],
+        ...,
+        [ 2.0955e-09,  4.4238e-09,  6.9849e-09,  ...,  4.4238e-09,
+          0.0000e+00,  1.9558e-08],
+        [ 8.4750e-08,  5.3551e-09,  1.3039e-08,  ...,  2.3074e-07,
+          0.0000e+00,  2.4680e-08],
+        [ 1.1176e-08,  3.0268e-09,  1.3737e-08,  ...,  5.5879e-09,
+          0.0000e+00,  1.0710e-08]], device='cuda:0')
+Epoch 296, bias, value: tensor([-0.0264, -0.0236, -0.0440,  0.0038,  0.0065,  0.0417,  0.0197, -0.0181,
+        -0.0094, -0.0124], device='cuda:0'), grad: tensor([-1.2787e-06,  7.0734e-07,  4.4471e-08, -3.1339e-07,  2.4680e-08,
+        -3.2294e-07,  1.7253e-07,  9.7090e-08,  6.1281e-07,  2.8219e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 295, time 214.27, cls_loss 0.0009 cls_loss_mapping 0.0018 cls_loss_causal 0.4705 re_mapping 0.0039 re_causal 0.0119 /// teacc 99.01 lr 0.00010000
+Epoch 297, weight, value: tensor([[ 0.0246, -0.1054, -0.0903,  ..., -0.2324, -0.0941, -0.1946],
+        [-0.0938, -0.0621, -0.0113,  ...,  0.0454,  0.0320, -0.1341],
+        [ 0.0251, -0.1652, -0.2190,  ...,  0.0157, -0.1535,  0.0811],
+        ...,
+        [-0.0298, -0.0244, -0.2010,  ..., -0.1830,  0.0201,  0.1585],
+        [ 0.0745, -0.1425, -0.1310,  ..., -0.1800, -0.1123, -0.1623],
+        [-0.2390,  0.0276,  0.1157,  ...,  0.0891, -0.0942, -0.1793]],
+       device='cuda:0'), grad: tensor([[-8.3819e-09,  9.3132e-10,  7.2177e-09,  ...,  3.0268e-09,
+          0.0000e+00,  6.4028e-08],
+        [ 2.5611e-09,  3.4925e-09, -9.5321e-07,  ..., -2.5169e-07,
+          0.0000e+00,  4.1211e-07],
+        [ 9.3132e-10,  3.5623e-08,  1.4203e-08,  ...,  4.6566e-09,
+          0.0000e+00, -1.7704e-06],
+        ...,
+        [ 1.8626e-09,  2.3283e-09,  5.4250e-07,  ...,  1.4831e-07,
+          0.0000e+00,  1.6205e-07],
+        [ 1.5134e-08,  6.5193e-09,  6.1467e-08,  ...,  5.4715e-08,
+          0.0000e+00,  1.3504e-08],
+        [ 2.0955e-08,  8.3819e-09,  2.3958e-07,  ...,  5.8208e-08,
+          0.0000e+00,  7.2177e-09]], device='cuda:0')
+Epoch 297, bias, value: tensor([-0.0262, -0.0236, -0.0442,  0.0037,  0.0065,  0.0418,  0.0194, -0.0180,
+        -0.0091, -0.0125], device='cuda:0'), grad: tensor([ 1.3178e-07, -2.0210e-06, -5.2489e-06,  4.4405e-06,  1.6810e-07,
+        -1.0133e-06,  3.1665e-08,  2.2203e-06,  3.0105e-07,  1.0002e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 296, time 213.89, cls_loss 0.0009 cls_loss_mapping 0.0014 cls_loss_causal 0.4815 re_mapping 0.0040 re_causal 0.0123 /// teacc 99.09 lr 0.00010000
+Epoch 298, weight, value: tensor([[ 0.0248, -0.1063, -0.0904,  ..., -0.2329, -0.0942, -0.1957],
+        [-0.0944, -0.0626, -0.0120,  ...,  0.0452,  0.0320, -0.1342],
+        [ 0.0244, -0.1662, -0.2204,  ...,  0.0156, -0.1534,  0.0813],
+        ...,
+        [-0.0300, -0.0240, -0.2011,  ..., -0.1830,  0.0201,  0.1588],
+        [ 0.0745, -0.1431, -0.1313,  ..., -0.1804, -0.1127, -0.1639],
+        [-0.2394,  0.0278,  0.1158,  ...,  0.0892, -0.0942, -0.1798]],
+       device='cuda:0'), grad: tensor([[-7.4506e-09,  0.0000e+00,  6.5193e-09,  ...,  4.6566e-09,
+          0.0000e+00,  1.8626e-09],
+        [ 1.8626e-09,  3.2596e-09, -1.5367e-08,  ..., -1.1176e-08,
+          0.0000e+00,  4.7963e-08],
+        [ 4.6566e-10,  1.8626e-09,  1.1176e-08,  ...,  5.5879e-09,
+          0.0000e+00, -6.2864e-08],
+        ...,
+        [ 1.8626e-09, -4.1910e-09,  7.3574e-08,  ...,  3.4459e-08,
+          0.0000e+00, -3.3528e-08],
+        [ 5.4017e-08,  9.3132e-10,  1.7695e-08,  ...,  1.5553e-07,
+          0.0000e+00,  3.7719e-08],
+        [ 7.9162e-09,  1.3970e-09,  4.1816e-07,  ...,  1.7416e-07,
+          0.0000e+00,  5.1223e-09]], device='cuda:0')
+Epoch 298, bias, value: tensor([-0.0261, -0.0237, -0.0441,  0.0034,  0.0065,  0.0420,  0.0194, -0.0178,
+        -0.0097, -0.0124], device='cuda:0'), grad: tensor([-3.9581e-08, -8.8476e-08,  7.4971e-08,  1.4342e-07, -9.5926e-07,
+        -4.1239e-06,  3.5688e-06,  4.5635e-08,  5.2433e-07,  8.4983e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 297, time 213.79, cls_loss 0.0010 cls_loss_mapping 0.0015 cls_loss_causal 0.4543 re_mapping 0.0041 re_causal 0.0117 /// teacc 99.01 lr 0.00010000
+Epoch 299, weight, value: tensor([[ 0.0232, -0.1066, -0.0923,  ..., -0.2335, -0.0943, -0.1966],
+        [-0.0945, -0.0628, -0.0126,  ...,  0.0447,  0.0322, -0.1343],
+        [ 0.0243, -0.1668, -0.2204,  ...,  0.0156, -0.1540,  0.0813],
+        ...,
+        [-0.0302, -0.0239, -0.2027,  ..., -0.1844,  0.0200,  0.1589],
+        [ 0.0746, -0.1434, -0.1317,  ..., -0.1809, -0.1129, -0.1647],
+        [-0.2399,  0.0280,  0.1159,  ...,  0.0894, -0.0942, -0.1802]],
+       device='cuda:0'), grad: tensor([[-4.6566e-10,  4.6566e-10,  6.5193e-09,  ...,  4.1910e-09,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  4.1910e-08,  1.5832e-08,  ...,  8.8476e-09,
+          0.0000e+00,  1.2014e-07],
+        [ 0.0000e+00,  3.2596e-09,  1.3970e-09,  ...,  2.3283e-09,
+          0.0000e+00,  1.2107e-08],
+        ...,
+        [ 0.0000e+00, -6.1002e-08,  2.0955e-08,  ...,  1.8161e-08,
+          0.0000e+00, -9.7603e-07],
+        [ 1.8626e-09,  3.2596e-09,  6.9849e-09,  ...,  4.9360e-08,
+          0.0000e+00,  9.3132e-09],
+        [ 9.3132e-10,  4.9360e-08,  3.3248e-07,  ...,  2.0722e-07,
+          0.0000e+00,  2.5099e-07]], device='cuda:0')
+Epoch 299, bias, value: tensor([-0.0283, -0.0239, -0.0441,  0.0026,  0.0065,  0.0428,  0.0205, -0.0181,
+        -0.0099, -0.0122], device='cuda:0'), grad: tensor([-4.1910e-09,  3.2410e-07,  2.9802e-08,  1.3923e-06, -1.4901e-08,
+        -1.3504e-06,  7.7765e-08, -1.8487e-06,  1.7090e-07,  1.2331e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 298, time 213.96, cls_loss 0.0007 cls_loss_mapping 0.0012 cls_loss_causal 0.4882 re_mapping 0.0039 re_causal 0.0121 /// teacc 99.09 lr 0.00010000
diff --git a/Meta-causal/code-withStyleAttack/66528.error b/Meta-causal/code-withStyleAttack/66528.error
new file mode 100644
index 0000000000000000000000000000000000000000..94d491ce2985c8bf1a4205b3f4d5587cb60cb55d
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/66528.error
@@ -0,0 +1,65 @@
+Traceback (most recent call last):
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py", line 664, in <module>
+    experiment()
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvqtxnlanqi3/lib/python3.11/site-packages/click/core.py", line 1157, in __call__
+    return self.main(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvqtxnlanqi3/lib/python3.11/site-packages/click/core.py", line 1078, in main
+    rv = self.invoke(ctx)
+         ^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvqtxnlanqi3/lib/python3.11/site-packages/click/core.py", line 1434, in invoke
+    return ctx.invoke(self.callback, **ctx.params)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvqtxnlanqi3/lib/python3.11/site-packages/click/core.py", line 783, in invoke
+    return __callback(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py", line 269, in experiment
+    adv_style_mean_block1, adv_style_std_block1, adv_style_mean_block2, adv_style_std_block2, adv_style_mean_block3, adv_style_std_block3 = adversarial_attack_Incre(cls_net, cls_criterion, x_FA, y, epsilon_list)
+                                                                                                                                            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/tool_func.py", line 111, in adversarial_attack_Incre
+    ori_loss = cls_criterion(x_ori_output, y_ori)
+               ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvqtxnlanqi3/lib/python3.11/site-packages/torch/nn/modules/module.py", line 1532, in _wrapped_call_impl
+    return self._call_impl(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvqtxnlanqi3/lib/python3.11/site-packages/torch/nn/modules/module.py", line 1541, in _call_impl
+    return forward_call(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvqtxnlanqi3/lib/python3.11/site-packages/torch/nn/modules/loss.py", line 1185, in forward
+    return F.cross_entropy(input, target, weight=self.weight,
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvqtxnlanqi3/lib/python3.11/site-packages/torch/nn/functional.py", line 3086, in cross_entropy
+    return torch._C._nn.cross_entropy_loss(input, target, weight, _Reduction.get_enum(reduction), ignore_index, label_smoothing)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+ValueError: Expected input batch_size (448) to match target batch_size (32).
+Traceback (most recent call last):
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_digit_v13.py", line 145, in <module>
+    main()
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvqtxnlanqi3/lib/python3.11/site-packages/click/core.py", line 1157, in __call__
+    return self.main(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvqtxnlanqi3/lib/python3.11/site-packages/click/core.py", line 1078, in main
+    rv = self.invoke(ctx)
+         ^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvqtxnlanqi3/lib/python3.11/site-packages/click/core.py", line 1434, in invoke
+    return ctx.invoke(self.callback, **ctx.params)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvqtxnlanqi3/lib/python3.11/site-packages/click/core.py", line 783, in invoke
+    return __callback(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_digit_v13.py", line 29, in main
+    evaluate_digit(gpu, svroot, svpath, channels, factor_num, stride,epoch, eval_mapping)
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_digit_v13.py", line 45, in evaluate_digit
+    saved_weight = torch.load(os.path.join(svroot, 'best_cls_net.pkl'))
+                   ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvqtxnlanqi3/lib/python3.11/site-packages/torch/serialization.py", line 997, in load
+    with _open_file_like(f, 'rb') as opened_file:
+         ^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvqtxnlanqi3/lib/python3.11/site-packages/torch/serialization.py", line 444, in _open_file_like
+    return _open_file(name_or_buffer, mode)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvqtxnlanqi3/lib/python3.11/site-packages/torch/serialization.py", line 425, in __init__
+    super().__init__(open(name, mode))
+                     ^^^^^^^^^^^^^^^^
+FileNotFoundError: [Errno 2] No such file or directory: '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_FA/best_cls_net.pkl'
+srun: error: gcp-us-0: task 0: Exited with exit code 1
diff --git a/Meta-causal/code-withStyleAttack/66528.log b/Meta-causal/code-withStyleAttack/66528.log
new file mode 100644
index 0000000000000000000000000000000000000000..1d96267a317e292c2fbd28d3dbca4a1ea5c414f4
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/66528.log
@@ -0,0 +1,25 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 500, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_FA', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 3
+--------------------------CA_multiple--------------------------
+---------------------------14 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+Epoch 1, weight, value: tensor([[ 0.0147,  0.0303, -0.0251,  ..., -0.0302, -0.0033, -0.0088],
+        [ 0.0007, -0.0181,  0.0010,  ..., -0.0094,  0.0037,  0.0299],
+        [ 0.0096, -0.0300,  0.0145,  ..., -0.0281, -0.0227,  0.0236],
+        ...,
+        [ 0.0306, -0.0302, -0.0116,  ...,  0.0051,  0.0029, -0.0268],
+        [-0.0200, -0.0005,  0.0098,  ...,  0.0062,  0.0308,  0.0146],
+        [ 0.0129, -0.0243, -0.0199,  ..., -0.0191,  0.0098, -0.0306]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([ 0.0234, -0.0300, -0.0249, -0.0259, -0.0306,  0.0035,  0.0253,  0.0311,
+        -0.0174,  0.0284], device='cuda:0'), grad: None
+100
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_FA', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_FA/14factor_best.csv', 'channels': 3, 'factor_num': 14, 'stride': 3, 'epoch': 'best', 'eval_mapping': True}
+loading weight of best
diff --git a/Meta-causal/code-withStyleAttack/66530.error b/Meta-causal/code-withStyleAttack/66530.error
new file mode 100644
index 0000000000000000000000000000000000000000..4f72ff7ab3202956a4b544976dc55294cc3aa260
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/66530.error
@@ -0,0 +1,65 @@
+Traceback (most recent call last):
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py", line 668, in <module>
+    experiment()
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvqtxnlanqi3/lib/python3.11/site-packages/click/core.py", line 1157, in __call__
+    return self.main(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvqtxnlanqi3/lib/python3.11/site-packages/click/core.py", line 1078, in main
+    rv = self.invoke(ctx)
+         ^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvqtxnlanqi3/lib/python3.11/site-packages/click/core.py", line 1434, in invoke
+    return ctx.invoke(self.callback, **ctx.params)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvqtxnlanqi3/lib/python3.11/site-packages/click/core.py", line 783, in invoke
+    return __callback(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py", line 271, in experiment
+    adv_style_mean_block1, adv_style_std_block1, adv_style_mean_block2, adv_style_std_block2, adv_style_mean_block3, adv_style_std_block3 = adversarial_attack_Incre(cls_net, cls_criterion, x_CA, y, epsilon_list)
+                                                                                                                                            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/tool_func.py", line 111, in adversarial_attack_Incre
+    ori_loss = cls_criterion(x_ori_output, y_ori)
+               ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvqtxnlanqi3/lib/python3.11/site-packages/torch/nn/modules/module.py", line 1532, in _wrapped_call_impl
+    return self._call_impl(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvqtxnlanqi3/lib/python3.11/site-packages/torch/nn/modules/module.py", line 1541, in _call_impl
+    return forward_call(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvqtxnlanqi3/lib/python3.11/site-packages/torch/nn/modules/loss.py", line 1185, in forward
+    return F.cross_entropy(input, target, weight=self.weight,
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvqtxnlanqi3/lib/python3.11/site-packages/torch/nn/functional.py", line 3086, in cross_entropy
+    return torch._C._nn.cross_entropy_loss(input, target, weight, _Reduction.get_enum(reduction), ignore_index, label_smoothing)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+ValueError: Expected input batch_size (4928) to match target batch_size (32).
+Traceback (most recent call last):
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_digit_v13.py", line 145, in <module>
+    main()
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvqtxnlanqi3/lib/python3.11/site-packages/click/core.py", line 1157, in __call__
+    return self.main(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvqtxnlanqi3/lib/python3.11/site-packages/click/core.py", line 1078, in main
+    rv = self.invoke(ctx)
+         ^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvqtxnlanqi3/lib/python3.11/site-packages/click/core.py", line 1434, in invoke
+    return ctx.invoke(self.callback, **ctx.params)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvqtxnlanqi3/lib/python3.11/site-packages/click/core.py", line 783, in invoke
+    return __callback(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_digit_v13.py", line 29, in main
+    evaluate_digit(gpu, svroot, svpath, channels, factor_num, stride,epoch, eval_mapping)
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_digit_v13.py", line 45, in evaluate_digit
+    saved_weight = torch.load(os.path.join(svroot, 'best_cls_net.pkl'))
+                   ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvqtxnlanqi3/lib/python3.11/site-packages/torch/serialization.py", line 997, in load
+    with _open_file_like(f, 'rb') as opened_file:
+         ^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvqtxnlanqi3/lib/python3.11/site-packages/torch/serialization.py", line 444, in _open_file_like
+    return _open_file(name_or_buffer, mode)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvqtxnlanqi3/lib/python3.11/site-packages/torch/serialization.py", line 425, in __init__
+    super().__init__(open(name, mode))
+                     ^^^^^^^^^^^^^^^^
+FileNotFoundError: [Errno 2] No such file or directory: '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_CA/best_cls_net.pkl'
+srun: error: gcp-us-0: task 0: Exited with exit code 1
diff --git a/Meta-causal/code-withStyleAttack/66530.log b/Meta-causal/code-withStyleAttack/66530.log
new file mode 100644
index 0000000000000000000000000000000000000000..03e3e5ac7e65ae1978a5d2a0bbd0fc649d8547ec
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/66530.log
@@ -0,0 +1,25 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 500, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_CA', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 3
+--------------------------CA_multiple--------------------------
+---------------------------14 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+Epoch 1, weight, value: tensor([[ 0.0277,  0.0167, -0.0013,  ...,  0.0189, -0.0297, -0.0272],
+        [-0.0239,  0.0024, -0.0033,  ..., -0.0273,  0.0171, -0.0036],
+        [-0.0175, -0.0069, -0.0023,  ...,  0.0224,  0.0170,  0.0235],
+        ...,
+        [ 0.0276,  0.0035,  0.0014,  ..., -0.0038, -0.0009, -0.0128],
+        [ 0.0178, -0.0050, -0.0292,  ..., -0.0179,  0.0209,  0.0095],
+        [ 0.0199,  0.0231, -0.0225,  ...,  0.0291, -0.0220,  0.0027]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([ 0.0288, -0.0253,  0.0215, -0.0196,  0.0060, -0.0289, -0.0188, -0.0047,
+        -0.0187, -0.0223], device='cuda:0'), grad: None
+100
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_CA', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_CA/14factor_best.csv', 'channels': 3, 'factor_num': 14, 'stride': 3, 'epoch': 'best', 'eval_mapping': True}
+loading weight of best
diff --git a/Meta-causal/code-withStyleAttack/66534.error b/Meta-causal/code-withStyleAttack/66534.error
new file mode 100644
index 0000000000000000000000000000000000000000..47c523a6371154433042b34829a97e2f15d79dc6
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/66534.error
@@ -0,0 +1,4 @@
+run_my_joint_test.sh: line 33: randn}_str3_WithStyleAttackExp1_onlyblock1: command not found
+slurmstepd: error: *** STEP 66534.0 ON gcp-us-0 CANCELLED AT 2024-07-21T15:38:51 DUE TO TIME LIMIT ***
+slurmstepd: error: *** JOB 66534 ON gcp-us-0 CANCELLED AT 2024-07-21T15:38:51 DUE TO TIME LIMIT ***
+srun: Job step aborted: Waiting up to 32 seconds for job step to finish.
diff --git a/Meta-causal/code-withStyleAttack/66534.log b/Meta-causal/code-withStyleAttack/66534.log
new file mode 100644
index 0000000000000000000000000000000000000000..3016a063f556f2647ab6f5b6de089bd1c9c8ab2d
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/66534.log
@@ -0,0 +1,22413 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 500, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_onlyblock1', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 3
+--------------------------CA_multiple--------------------------
+---------------------------14 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+Epoch 1, weight, value: tensor([[ 0.0173,  0.0306, -0.0042,  ..., -0.0188, -0.0066,  0.0181],
+        [ 0.0281,  0.0010,  0.0214,  ...,  0.0243,  0.0040,  0.0179],
+        [-0.0077, -0.0215,  0.0062,  ..., -0.0144, -0.0264, -0.0055],
+        ...,
+        [ 0.0224,  0.0166, -0.0166,  ...,  0.0290,  0.0155,  0.0165],
+        [-0.0193,  0.0286,  0.0257,  ..., -0.0082,  0.0264, -0.0109],
+        [-0.0253,  0.0006, -0.0054,  ..., -0.0236,  0.0260, -0.0084]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([-0.0255, -0.0243,  0.0124,  0.0280, -0.0300,  0.0068, -0.0089,  0.0085,
+         0.0148,  0.0024], device='cuda:0'), grad: None
+100
+0.0001
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 231.27, cls_loss 1.4751 cls_loss_mapping 1.9400 cls_loss_causal 2.2389 re_mapping 0.1137 re_causal 0.1194 /// teacc 84.13 lr 0.00010000
+Epoch 2, weight, value: tensor([[ 0.0133,  0.0299, -0.0042,  ..., -0.0238, -0.0077,  0.0233],
+        [ 0.0266,  0.0002,  0.0214,  ...,  0.0301, -0.0032,  0.0105],
+        [-0.0028, -0.0208,  0.0062,  ..., -0.0190, -0.0348, -0.0113],
+        ...,
+        [ 0.0157,  0.0158, -0.0166,  ...,  0.0328,  0.0181,  0.0169],
+        [-0.0201,  0.0293,  0.0257,  ..., -0.0133,  0.0269, -0.0149],
+        [-0.0255, -0.0002, -0.0054,  ..., -0.0239,  0.0291, -0.0084]],
+       device='cuda:0'), grad: tensor([[ 2.4967e-03,  0.0000e+00,  0.0000e+00,  ...,  4.3988e-04,
+          3.1681e-03, -1.4107e-02],
+        [ 1.6384e-03,  0.0000e+00,  0.0000e+00,  ...,  7.8440e-05,
+          2.8885e-02,  3.9787e-03],
+        [-5.4455e-04,  0.0000e+00,  0.0000e+00,  ...,  6.7253e-03,
+          5.4855e-03,  1.0399e-02],
+        ...,
+        [ 1.3294e-03,  0.0000e+00,  0.0000e+00,  ..., -8.6288e-03,
+         -8.6288e-03, -3.0060e-03],
+        [ 3.6144e-03,  0.0000e+00,  0.0000e+00,  ..., -1.3275e-03,
+          5.7125e-04, -1.9360e-03],
+        [ 2.4452e-03,  0.0000e+00,  0.0000e+00,  ..., -8.1940e-03,
+         -7.5867e-02,  4.2076e-03]], device='cuda:0')
+Epoch 2, bias, value: tensor([-0.0287, -0.0235,  0.0136,  0.0277, -0.0296,  0.0074, -0.0087,  0.0083,
+         0.0148,  0.0025], device='cuda:0'), grad: tensor([-4.5128e-03,  4.0192e-02, -9.7275e-05,  3.7476e-02,  5.2094e-02,
+        -1.0628e-02, -3.1311e-02, -3.4161e-03, -6.4468e-03, -7.3303e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 231.25, cls_loss 0.4496 cls_loss_mapping 0.7952 cls_loss_causal 1.9208 re_mapping 0.2048 re_causal 0.2571 /// teacc 91.96 lr 0.00010000
+Epoch 3, weight, value: tensor([[ 0.0113,  0.0281, -0.0042,  ..., -0.0263, -0.0091,  0.0256],
+        [ 0.0259, -0.0008,  0.0214,  ...,  0.0364, -0.0061,  0.0075],
+        [-0.0015, -0.0225,  0.0062,  ..., -0.0249, -0.0381, -0.0132],
+        ...,
+        [ 0.0135,  0.0148, -0.0166,  ...,  0.0323,  0.0188,  0.0165],
+        [-0.0231,  0.0272,  0.0257,  ..., -0.0165,  0.0278, -0.0184],
+        [-0.0304, -0.0013, -0.0054,  ..., -0.0254,  0.0302, -0.0065]],
+       device='cuda:0'), grad: tensor([[ 7.9060e-04,  6.3912e-08,  0.0000e+00,  ...,  5.9128e-04,
+          5.7411e-03,  2.6684e-03],
+        [-7.2403e-03,  1.0827e-07,  0.0000e+00,  ..., -3.5248e-02,
+         -3.4165e-04,  3.4618e-03],
+        [ 1.7529e-03,  4.5379e-07,  0.0000e+00,  ...,  4.0321e-03,
+         -2.6321e-03, -2.0218e-03],
+        ...,
+        [ 1.1425e-03,  8.0094e-08,  0.0000e+00,  ...,  1.6190e-02,
+          4.8859e-02,  3.9795e-02],
+        [ 6.6376e-03,  6.3004e-07,  0.0000e+00,  ...,  1.1307e-02,
+          2.8534e-02,  2.4780e-02],
+        [ 3.6907e-03,  2.6263e-07,  0.0000e+00,  ..., -1.3596e-02,
+         -4.4983e-02, -1.8082e-02]], device='cuda:0')
+Epoch 3, bias, value: tensor([-0.0295, -0.0240,  0.0135,  0.0274, -0.0294,  0.0087, -0.0091,  0.0080,
+         0.0149,  0.0028], device='cuda:0'), grad: tensor([ 0.0059, -0.0243, -0.0141, -0.0109,  0.0059, -0.0525,  0.0269,  0.0481,
+         0.0435, -0.0286], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 230.12, cls_loss 0.2639 cls_loss_mapping 0.4504 cls_loss_causal 1.6539 re_mapping 0.1510 re_causal 0.2428 /// teacc 94.47 lr 0.00010000
+Epoch 4, weight, value: tensor([[ 0.0107,  0.0269, -0.0137,  ..., -0.0287, -0.0102,  0.0271],
+        [ 0.0260, -0.0124,  0.0275,  ...,  0.0406, -0.0077,  0.0060],
+        [-0.0010, -0.0233,  0.0040,  ..., -0.0279, -0.0403, -0.0142],
+        ...,
+        [ 0.0119,  0.0040, -0.0148,  ...,  0.0314,  0.0189,  0.0160],
+        [-0.0251,  0.0193,  0.0213,  ..., -0.0192,  0.0280, -0.0212],
+        [-0.0337, -0.0143, -0.0120,  ..., -0.0265,  0.0303, -0.0052]],
+       device='cuda:0'), grad: tensor([[ 9.4986e-04,  1.4651e-04,  0.0000e+00,  ...,  5.0879e-04,
+          3.8013e-03,  4.7684e-03],
+        [-2.6093e-03,  4.9412e-05,  0.0000e+00,  ..., -1.5808e-02,
+          1.6994e-03,  1.7805e-03],
+        [ 3.1796e-03,  7.7724e-05,  0.0000e+00,  ...,  4.6939e-05,
+          2.7771e-03,  2.1725e-03],
+        ...,
+        [ 2.8687e-03,  1.3447e-04,  0.0000e+00,  ...,  3.2482e-03,
+         -1.3056e-03, -7.1945e-03],
+        [-4.0627e-03,  9.9421e-05,  0.0000e+00,  ...,  3.5896e-03,
+         -3.4698e-02, -1.2833e-02],
+        [ 1.5427e-02,  1.5140e-04,  0.0000e+00,  ...,  3.0346e-03,
+          4.0314e-02,  2.0691e-02]], device='cuda:0')
+Epoch 4, bias, value: tensor([-0.0295, -0.0240,  0.0138,  0.0274, -0.0291,  0.0089, -0.0095,  0.0082,
+         0.0149,  0.0025], device='cuda:0'), grad: tensor([ 0.0054, -0.0058, -0.0110, -0.0102, -0.0265,  0.0318, -0.0035,  0.0080,
+        -0.0385,  0.0503], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 230.50, cls_loss 0.1886 cls_loss_mapping 0.3218 cls_loss_causal 1.4555 re_mapping 0.1124 re_causal 0.2161 /// teacc 95.11 lr 0.00010000
+Epoch 5, weight, value: tensor([[ 0.0096,  0.0280, -0.0157,  ..., -0.0304, -0.0110,  0.0282],
+        [ 0.0265, -0.0194,  0.0267,  ...,  0.0443, -0.0090,  0.0043],
+        [-0.0012, -0.0267,  0.0054,  ..., -0.0287, -0.0421, -0.0156],
+        ...,
+        [ 0.0107, -0.0005, -0.0145,  ...,  0.0298,  0.0191,  0.0148],
+        [-0.0256,  0.0141,  0.0215,  ..., -0.0209,  0.0276, -0.0230],
+        [-0.0364, -0.0251, -0.0142,  ..., -0.0267,  0.0309, -0.0032]],
+       device='cuda:0'), grad: tensor([[ 0.0006,  0.0000,  0.0003,  ...,  0.0025,  0.0061,  0.0123],
+        [ 0.0015,  0.0000,  0.0003,  ...,  0.0003,  0.0019,  0.0022],
+        [ 0.0061,  0.0000,  0.0039,  ...,  0.0010,  0.0061, -0.0020],
+        ...,
+        [ 0.0011,  0.0000,  0.0027,  ..., -0.0009,  0.0025,  0.0093],
+        [-0.0044,  0.0000, -0.0107,  ...,  0.0017, -0.0045, -0.0048],
+        [ 0.0067,  0.0000,  0.0032,  ...,  0.0021, -0.0006, -0.0030]],
+       device='cuda:0')
+Epoch 5, bias, value: tensor([-0.0295, -0.0238,  0.0141,  0.0273, -0.0293,  0.0087, -0.0101,  0.0078,
+         0.0153,  0.0028], device='cuda:0'), grad: tensor([ 0.0132,  0.0048,  0.0251,  0.0001, -0.0099, -0.0006, -0.0026,  0.0138,
+        -0.0546,  0.0106], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 230.46, cls_loss 0.1512 cls_loss_mapping 0.2504 cls_loss_causal 1.3337 re_mapping 0.0898 re_causal 0.1937 /// teacc 96.41 lr 0.00010000
+Epoch 6, weight, value: tensor([[ 0.0094,  0.0278, -0.0200,  ..., -0.0307, -0.0122,  0.0290],
+        [ 0.0257, -0.0178,  0.0243,  ...,  0.0463, -0.0100,  0.0022],
+        [-0.0013, -0.0270,  0.0064,  ..., -0.0297, -0.0440, -0.0179],
+        ...,
+        [ 0.0095, -0.0040, -0.0122,  ...,  0.0290,  0.0196,  0.0143],
+        [-0.0264,  0.0106,  0.0217,  ..., -0.0220,  0.0274, -0.0251],
+        [-0.0382, -0.0256, -0.0164,  ..., -0.0290,  0.0314, -0.0012]],
+       device='cuda:0'), grad: tensor([[ 8.4996e-05,  2.0981e-05,  1.0990e-05,  ...,  3.5644e-04,
+          7.4673e-04, -1.8234e-03],
+        [-6.3705e-04,  5.0440e-06,  7.8082e-05,  ..., -7.6180e-03,
+          1.4734e-03,  3.2234e-04],
+        [-1.8921e-03,  3.7998e-05, -4.5252e-04,  ..., -1.3870e-02,
+         -1.2337e-02, -4.7374e-04],
+        ...,
+        [ 4.7040e-04,  2.0981e-05, -5.6982e-05,  ...,  7.6180e-03,
+          3.4447e-03,  4.6182e-04],
+        [ 3.9554e-04,  4.4763e-05,  2.2495e-04,  ...,  6.6910e-03,
+          1.4734e-03,  1.8108e-04],
+        [ 4.5085e-04,  2.5734e-05,  5.2929e-05,  ...,  9.3651e-04,
+          8.4019e-04,  5.4455e-04]], device='cuda:0')
+Epoch 6, bias, value: tensor([-0.0290, -0.0241,  0.0139,  0.0276, -0.0295,  0.0086, -0.0102,  0.0082,
+         0.0153,  0.0028], device='cuda:0'), grad: tensor([ 0.0004, -0.0020, -0.0290,  0.0102,  0.0014, -0.0007,  0.0033,  0.0100,
+         0.0041,  0.0023], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 5----------------------------------------------------
+epoch 5, time 230.74, cls_loss 0.1284 cls_loss_mapping 0.2038 cls_loss_causal 1.2811 re_mapping 0.0751 re_causal 0.1766 /// teacc 97.03 lr 0.00010000
+Epoch 7, weight, value: tensor([[ 0.0090,  0.0275, -0.0261,  ..., -0.0321, -0.0134,  0.0295],
+        [ 0.0253, -0.0169,  0.0234,  ...,  0.0491, -0.0115,  0.0009],
+        [-0.0012, -0.0286,  0.0080,  ..., -0.0310, -0.0455, -0.0200],
+        ...,
+        [ 0.0085, -0.0077, -0.0103,  ...,  0.0280,  0.0203,  0.0137],
+        [-0.0263,  0.0046,  0.0200,  ..., -0.0240,  0.0267, -0.0269],
+        [-0.0401, -0.0252, -0.0186,  ..., -0.0302,  0.0317,  0.0007]],
+       device='cuda:0'), grad: tensor([[ 1.0996e-03,  2.5809e-05, -2.8014e-04,  ...,  9.1839e-04,
+          6.6090e-04, -2.5463e-03],
+        [ 3.5706e-03,  4.2588e-05,  9.0122e-05,  ...,  8.6975e-04,
+          7.0906e-04,  3.3836e-03],
+        [ 3.6545e-03,  7.8022e-05, -9.8896e-04,  ...,  4.3144e-03,
+          3.1328e-04,  3.0785e-03],
+        ...,
+        [ 1.7281e-03,  5.5641e-05, -1.6224e-04,  ...,  1.9817e-03,
+          4.4847e-04,  7.7534e-04],
+        [ 3.1147e-03,  1.0502e-04,  2.8872e-04,  ...,  5.3978e-03,
+          1.3161e-03,  3.4294e-03],
+        [ 1.1765e-02,  2.5773e-04,  4.0269e-04,  ...,  1.0605e-02,
+          2.5043e-03,  5.0831e-04]], device='cuda:0')
+Epoch 7, bias, value: tensor([-0.0291, -0.0238,  0.0134,  0.0276, -0.0295,  0.0083, -0.0105,  0.0081,
+         0.0156,  0.0031], device='cuda:0'), grad: tensor([-0.0019,  0.0109,  0.0075, -0.0144, -0.0455,  0.0057,  0.0050,  0.0049,
+         0.0115,  0.0161], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 6----------------------------------------------------
+epoch 6, time 231.06, cls_loss 0.1087 cls_loss_mapping 0.1717 cls_loss_causal 1.1810 re_mapping 0.0637 re_causal 0.1592 /// teacc 97.37 lr 0.00010000
+Epoch 8, weight, value: tensor([[ 0.0082,  0.0254, -0.0309,  ..., -0.0326, -0.0139,  0.0307],
+        [ 0.0247, -0.0162,  0.0240,  ...,  0.0509, -0.0125, -0.0010],
+        [-0.0014, -0.0290,  0.0139,  ..., -0.0320, -0.0471, -0.0211],
+        ...,
+        [ 0.0086, -0.0152, -0.0109,  ...,  0.0273,  0.0204,  0.0127],
+        [-0.0272, -0.0032,  0.0197,  ..., -0.0259,  0.0265, -0.0291],
+        [-0.0418, -0.0235, -0.0204,  ..., -0.0312,  0.0319,  0.0027]],
+       device='cuda:0'), grad: tensor([[ 2.0659e-04,  1.3776e-05,  1.1206e-04,  ...,  2.7084e-04,
+          8.8501e-04, -1.4124e-03],
+        [ 3.8385e-04,  1.0200e-05,  7.7934e-03,  ..., -4.5319e-03,
+          1.2426e-03,  1.2283e-03],
+        [ 4.0388e-04,  9.1121e-06, -9.3079e-03,  ..., -5.7030e-03,
+          5.2071e-03,  1.1215e-03],
+        ...,
+        [ 4.0817e-04,  8.3223e-06,  2.6751e-04,  ..., -2.7351e-03,
+         -1.0582e-02, -6.1750e-04],
+        [-2.2564e-03,  8.2627e-06, -1.6813e-03,  ...,  6.9199e-03,
+         -1.2314e-02, -7.4959e-03],
+        [ 1.0405e-03,  4.9233e-05,  9.2220e-04,  ...,  9.6464e-04,
+          3.8605e-03,  2.2106e-03]], device='cuda:0')
+Epoch 8, bias, value: tensor([-0.0288, -0.0239,  0.0134,  0.0277, -0.0295,  0.0082, -0.0108,  0.0080,
+         0.0157,  0.0034], device='cuda:0'), grad: tensor([ 0.0003,  0.0056, -0.0089,  0.0345,  0.0042, -0.0150,  0.0040, -0.0097,
+        -0.0233,  0.0083], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 7, time 214.68, cls_loss 0.0823 cls_loss_mapping 0.1428 cls_loss_causal 1.1545 re_mapping 0.0577 re_causal 0.1501 /// teacc 97.34 lr 0.00010000
+Epoch 9, weight, value: tensor([[ 0.0073,  0.0247, -0.0334,  ..., -0.0337, -0.0150,  0.0312],
+        [ 0.0238, -0.0150,  0.0206,  ...,  0.0527, -0.0134, -0.0025],
+        [-0.0017, -0.0287,  0.0195,  ..., -0.0332, -0.0484, -0.0220],
+        ...,
+        [ 0.0081, -0.0187, -0.0115,  ...,  0.0265,  0.0213,  0.0123],
+        [-0.0268, -0.0070,  0.0190,  ..., -0.0272,  0.0266, -0.0306],
+        [-0.0435, -0.0242, -0.0235,  ..., -0.0326,  0.0318,  0.0035]],
+       device='cuda:0'), grad: tensor([[ 4.4137e-05,  2.3633e-05,  6.8247e-05,  ...,  1.5807e-04,
+          6.1035e-04,  2.3067e-04],
+        [ 8.1286e-06,  4.2140e-05,  4.3726e-04,  ...,  6.9618e-04,
+          2.5063e-03,  4.3488e-04],
+        [ 3.5435e-05,  4.6909e-05, -1.0433e-03,  ...,  1.8644e-04,
+          8.8501e-04,  3.9744e-04],
+        ...,
+        [ 8.0884e-05,  5.2959e-05,  3.1018e-04,  ..., -8.0156e-04,
+         -2.8038e-03,  4.3030e-03],
+        [ 5.5730e-05,  1.3793e-04, -3.6550e-04,  ..., -1.2932e-03,
+         -3.2592e-04,  1.4553e-03],
+        [ 2.0528e-04,  4.6158e-04,  1.4091e-04,  ...,  3.6788e-04,
+         -5.8327e-03, -9.0714e-03]], device='cuda:0')
+Epoch 9, bias, value: tensor([-0.0289, -0.0239,  0.0134,  0.0278, -0.0294,  0.0080, -0.0110,  0.0082,
+         0.0161,  0.0030], device='cuda:0'), grad: tensor([ 0.0009,  0.0063,  0.0006,  0.0009,  0.0051,  0.0042, -0.0014, -0.0037,
+        -0.0067, -0.0062], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 8----------------------------------------------------
+epoch 8, time 231.07, cls_loss 0.0974 cls_loss_mapping 0.1531 cls_loss_causal 1.1205 re_mapping 0.0502 re_causal 0.1329 /// teacc 97.53 lr 0.00010000
+Epoch 10, weight, value: tensor([[ 0.0072,  0.0233, -0.0351,  ..., -0.0344, -0.0160,  0.0317],
+        [ 0.0225, -0.0134,  0.0201,  ...,  0.0539, -0.0142, -0.0035],
+        [-0.0015, -0.0283,  0.0218,  ..., -0.0336, -0.0495, -0.0220],
+        ...,
+        [ 0.0079, -0.0234, -0.0112,  ...,  0.0261,  0.0215,  0.0112],
+        [-0.0272, -0.0138,  0.0204,  ..., -0.0285,  0.0262, -0.0319],
+        [-0.0449, -0.0235, -0.0250,  ..., -0.0335,  0.0321,  0.0049]],
+       device='cuda:0'), grad: tensor([[ 0.0004,  0.0003,  0.0008,  ...,  0.0004,  0.0013,  0.0034],
+        [ 0.0043,  0.0003,  0.0006,  ...,  0.0092,  0.0029,  0.0006],
+        [-0.0104,  0.0009, -0.0106,  ...,  0.0009,  0.0014,  0.0018],
+        ...,
+        [ 0.0029,  0.0015,  0.0014,  ...,  0.0009, -0.0028,  0.0022],
+        [-0.0035,  0.0021, -0.0004,  ..., -0.0122, -0.0012, -0.0011],
+        [ 0.0013,  0.0014,  0.0006,  ...,  0.0016,  0.0046,  0.0031]],
+       device='cuda:0')
+Epoch 10, bias, value: tensor([-0.0288, -0.0241,  0.0137,  0.0277, -0.0297,  0.0080, -0.0111,  0.0081,
+         0.0163,  0.0032], device='cuda:0'), grad: tensor([ 0.0056,  0.0144, -0.0101, -0.0159,  0.0124, -0.0007,  0.0043,  0.0037,
+        -0.0229,  0.0091], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 9----------------------------------------------------
+epoch 9, time 230.97, cls_loss 0.0790 cls_loss_mapping 0.1295 cls_loss_causal 1.1225 re_mapping 0.0458 re_causal 0.1269 /// teacc 97.95 lr 0.00010000
+Epoch 11, weight, value: tensor([[ 0.0065,  0.0222, -0.0369,  ..., -0.0343, -0.0169,  0.0323],
+        [ 0.0220, -0.0125,  0.0181,  ...,  0.0553, -0.0153, -0.0044],
+        [-0.0014, -0.0284,  0.0257,  ..., -0.0338, -0.0507, -0.0228],
+        ...,
+        [ 0.0071, -0.0255, -0.0116,  ...,  0.0246,  0.0224,  0.0109],
+        [-0.0276, -0.0192,  0.0203,  ..., -0.0299,  0.0260, -0.0330],
+        [-0.0466, -0.0224, -0.0260,  ..., -0.0344,  0.0321,  0.0061]],
+       device='cuda:0'), grad: tensor([[-3.1185e-04,  4.9257e-04, -2.9831e-03,  ..., -2.0015e-04,
+          1.8823e-04, -1.4885e-02],
+        [ 5.7340e-05,  1.9228e-04,  5.2500e-04,  ..., -5.2071e-04,
+          4.3750e-04,  5.1022e-04],
+        [ 4.1783e-05,  8.4877e-04,  6.0081e-03,  ...,  9.0504e-04,
+          1.7653e-03,  4.0207e-03],
+        ...,
+        [ 2.0897e-04,  2.7394e-04, -3.2539e-03,  ..., -7.1955e-04,
+         -3.2024e-03,  2.6226e-03],
+        [ 1.0622e-04,  2.7046e-03, -4.4632e-03,  ...,  6.5744e-05,
+          4.3774e-04,  3.3512e-03],
+        [ 5.2547e-04,  2.4529e-03,  9.9850e-04,  ...,  3.6693e-04,
+          2.9993e-04,  4.5090e-03]], device='cuda:0')
+Epoch 11, bias, value: tensor([-0.0289, -0.0242,  0.0135,  0.0281, -0.0295,  0.0080, -0.0113,  0.0081,
+         0.0164,  0.0031], device='cuda:0'), grad: tensor([-0.0171,  0.0017,  0.0174, -0.0117,  0.0024,  0.0072,  0.0050, -0.0046,
+        -0.0073,  0.0070], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 10----------------------------------------------------
+epoch 10, time 231.03, cls_loss 0.0718 cls_loss_mapping 0.1160 cls_loss_causal 1.1162 re_mapping 0.0435 re_causal 0.1199 /// teacc 97.97 lr 0.00010000
+Epoch 12, weight, value: tensor([[ 0.0058,  0.0214, -0.0391,  ..., -0.0350, -0.0177,  0.0331],
+        [ 0.0206, -0.0118,  0.0171,  ...,  0.0563, -0.0163, -0.0057],
+        [-0.0013, -0.0283,  0.0293,  ..., -0.0341, -0.0515, -0.0238],
+        ...,
+        [ 0.0064, -0.0279, -0.0120,  ...,  0.0241,  0.0229,  0.0107],
+        [-0.0279, -0.0214,  0.0190,  ..., -0.0311,  0.0258, -0.0338],
+        [-0.0479, -0.0231, -0.0282,  ..., -0.0351,  0.0320,  0.0072]],
+       device='cuda:0'), grad: tensor([[ 2.3913e-04,  1.4622e-06,  1.0180e-04,  ...,  2.3198e-04,
+          1.6432e-03,  4.9400e-03],
+        [ 4.5419e-04,  5.9277e-05,  1.0014e-03,  ..., -2.4378e-04,
+          6.2799e-04,  5.5742e-04],
+        [-7.3814e-04, -7.1943e-05, -2.2659e-03,  ..., -6.0177e-04,
+          1.8883e-03,  1.8740e-03],
+        ...,
+        [ 2.6894e-04,  1.0140e-05,  6.6757e-04,  ...,  7.9060e-04,
+          8.1482e-03,  2.3041e-02],
+        [ 1.7941e-04,  2.1402e-06, -7.3791e-05,  ...,  1.1390e-04,
+         -2.1229e-03,  3.7932e-04],
+        [ 6.6662e-04,  1.8030e-06,  6.2585e-05,  ...,  2.7227e-04,
+         -9.3918e-03, -2.7954e-02]], device='cuda:0')
+Epoch 12, bias, value: tensor([-0.0290, -0.0247,  0.0137,  0.0280, -0.0293,  0.0078, -0.0115,  0.0083,
+         0.0169,  0.0029], device='cuda:0'), grad: tensor([ 0.0055,  0.0035,  0.0018, -0.0109,  0.0015,  0.0068,  0.0005,  0.0245,
+        -0.0081, -0.0253], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 11----------------------------------------------------
+epoch 11, time 228.28, cls_loss 0.0624 cls_loss_mapping 0.1048 cls_loss_causal 1.0583 re_mapping 0.0395 re_causal 0.1123 /// teacc 98.06 lr 0.00010000
+Epoch 13, weight, value: tensor([[ 0.0055,  0.0208, -0.0399,  ..., -0.0355, -0.0183,  0.0335],
+        [ 0.0199, -0.0115,  0.0155,  ...,  0.0573, -0.0169, -0.0060],
+        [-0.0017, -0.0271,  0.0319,  ..., -0.0353, -0.0525, -0.0242],
+        ...,
+        [ 0.0060, -0.0299, -0.0118,  ...,  0.0239,  0.0236,  0.0101],
+        [-0.0282, -0.0227,  0.0185,  ..., -0.0321,  0.0255, -0.0352],
+        [-0.0488, -0.0242, -0.0291,  ..., -0.0363,  0.0319,  0.0085]],
+       device='cuda:0'), grad: tensor([[ 1.4067e-04,  5.7276e-07, -3.7163e-05,  ..., -4.7040e-04,
+          3.6240e-04, -2.5997e-03],
+        [ 1.8835e-04,  8.9258e-06,  2.3699e-04,  ...,  6.3086e-04,
+          1.4210e-03,  6.8903e-04],
+        [ 7.1943e-05,  2.3134e-06, -1.1176e-04,  ...,  4.1533e-04,
+          4.5896e-04,  9.1124e-04],
+        ...,
+        [ 4.7970e-04,  2.0981e-05, -3.2640e-04,  ..., -1.2999e-03,
+         -2.5940e-03, -1.6699e-03],
+        [ 1.2094e-04,  2.8554e-06,  5.8591e-05,  ...,  3.5858e-04,
+          2.3210e-04,  6.2180e-04],
+        [-5.5389e-03,  1.3225e-05,  2.5317e-05,  ..., -3.8834e-03,
+         -1.3266e-03, -5.9586e-03]], device='cuda:0')
+Epoch 13, bias, value: tensor([-0.0292, -0.0249,  0.0137,  0.0282, -0.0295,  0.0077, -0.0114,  0.0086,
+         0.0168,  0.0031], device='cuda:0'), grad: tensor([-0.0042,  0.0036,  0.0021, -0.0016,  0.0144,  0.0008,  0.0009, -0.0084,
+         0.0014, -0.0090], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 12, time 214.18, cls_loss 0.0559 cls_loss_mapping 0.0966 cls_loss_causal 1.0011 re_mapping 0.0375 re_causal 0.1037 /// teacc 97.91 lr 0.00010000
+Epoch 14, weight, value: tensor([[ 0.0050,  0.0205, -0.0415,  ..., -0.0358, -0.0191,  0.0343],
+        [ 0.0189, -0.0113,  0.0146,  ...,  0.0584, -0.0177, -0.0067],
+        [-0.0020, -0.0271,  0.0353,  ..., -0.0363, -0.0537, -0.0249],
+        ...,
+        [ 0.0051, -0.0297, -0.0129,  ...,  0.0229,  0.0247,  0.0096],
+        [-0.0284, -0.0235,  0.0166,  ..., -0.0326,  0.0257, -0.0355],
+        [-0.0498, -0.0245, -0.0286,  ..., -0.0369,  0.0316,  0.0086]],
+       device='cuda:0'), grad: tensor([[ 1.9512e-03,  3.2131e-06,  1.6785e-04,  ...,  1.1234e-03,
+          7.3576e-04,  2.2926e-03],
+        [ 1.6391e-04,  1.8077e-06,  1.5104e-04,  ..., -2.1496e-03,
+          2.0099e-04,  2.3603e-04],
+        [ 4.7326e-04,  9.2983e-06, -7.1716e-04,  ...,  4.7779e-04,
+          2.4378e-04,  4.7779e-04],
+        ...,
+        [ 2.1756e-04,  3.9898e-06,  2.2173e-04,  ...,  4.0388e-04,
+          3.7289e-04,  1.1110e-03],
+        [ 6.1560e-04,  8.0541e-06, -9.9421e-05,  ...,  1.2112e-03,
+          4.2033e-04,  6.2370e-04],
+        [ 1.7519e-03,  1.0781e-05, -5.7650e-04,  ...,  9.7466e-04,
+         -1.6632e-03, -3.2368e-03]], device='cuda:0')
+Epoch 14, bias, value: tensor([-0.0288, -0.0250,  0.0137,  0.0283, -0.0294,  0.0077, -0.0119,  0.0087,
+         0.0168,  0.0030], device='cuda:0'), grad: tensor([ 0.0060, -0.0013,  0.0011, -0.0048, -0.0099,  0.0042,  0.0033,  0.0021,
+         0.0013, -0.0020], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 13, time 214.32, cls_loss 0.0546 cls_loss_mapping 0.0968 cls_loss_causal 0.9870 re_mapping 0.0357 re_causal 0.0996 /// teacc 97.84 lr 0.00010000
+Epoch 15, weight, value: tensor([[ 0.0051,  0.0197, -0.0417,  ..., -0.0350, -0.0197,  0.0347],
+        [ 0.0186, -0.0121,  0.0125,  ...,  0.0593, -0.0179, -0.0077],
+        [-0.0024, -0.0270,  0.0389,  ..., -0.0364, -0.0544, -0.0256],
+        ...,
+        [ 0.0047, -0.0320, -0.0136,  ...,  0.0224,  0.0252,  0.0091],
+        [-0.0288, -0.0260,  0.0153,  ..., -0.0339,  0.0256, -0.0359],
+        [-0.0506, -0.0243, -0.0294,  ..., -0.0379,  0.0313,  0.0095]],
+       device='cuda:0'), grad: tensor([[ 1.3602e-04,  4.5031e-05,  3.8952e-05,  ...,  1.0127e-04,
+          8.5354e-05, -2.6751e-04],
+        [ 2.6107e-04,  8.2850e-05,  8.0228e-05,  ...,  1.0633e-04,
+          1.1951e-04,  8.7261e-05],
+        [ 5.9938e-04, -3.7122e-04, -2.0084e-03,  ...,  5.2786e-04,
+          2.1780e-04,  1.5819e-04],
+        ...,
+        [ 1.9145e-04,  1.4442e-02,  9.4473e-05,  ...,  1.9264e-04,
+          2.5421e-02,  9.4604e-03],
+        [ 8.1360e-05,  7.8261e-05, -3.4690e-05,  ...,  1.6093e-04,
+          7.4089e-05,  1.3435e-04],
+        [ 1.0151e-04,  1.4734e-04,  2.9936e-05,  ...,  1.3888e-04,
+          2.0838e-04,  1.9133e-04]], device='cuda:0')
+Epoch 15, bias, value: tensor([-0.0287, -0.0252,  0.0139,  0.0286, -0.0296,  0.0074, -0.0119,  0.0087,
+         0.0170,  0.0028], device='cuda:0'), grad: tensor([-5.5969e-05,  6.4278e-04, -5.5075e-04, -2.2446e-02, -6.3801e-04,
+         5.7554e-04, -7.2002e-04,  2.2964e-02, -4.8351e-04,  7.1621e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 14, time 214.33, cls_loss 0.0468 cls_loss_mapping 0.0861 cls_loss_causal 0.9745 re_mapping 0.0334 re_causal 0.0961 /// teacc 98.05 lr 0.00010000
+Epoch 16, weight, value: tensor([[ 0.0045,  0.0192, -0.0432,  ..., -0.0363, -0.0205,  0.0350],
+        [ 0.0178, -0.0112,  0.0113,  ...,  0.0600, -0.0188, -0.0084],
+        [-0.0025, -0.0273,  0.0420,  ..., -0.0357, -0.0551, -0.0261],
+        ...,
+        [ 0.0041, -0.0331, -0.0145,  ...,  0.0216,  0.0258,  0.0086],
+        [-0.0291, -0.0269,  0.0147,  ..., -0.0347,  0.0258, -0.0367],
+        [-0.0512, -0.0248, -0.0307,  ..., -0.0384,  0.0313,  0.0103]],
+       device='cuda:0'), grad: tensor([[ 2.6798e-04,  0.0000e+00,  1.2064e-04,  ...,  7.6413e-05,
+          2.3723e-04, -3.7212e-03],
+        [ 6.1154e-05,  0.0000e+00,  6.7770e-05,  ..., -9.0301e-06,
+          2.0134e-04,  3.4022e-04],
+        [ 1.4901e-04,  0.0000e+00, -7.6008e-04,  ...,  5.8085e-05,
+          3.2973e-04,  1.3447e-03],
+        ...,
+        [ 4.6372e-05,  0.0000e+00,  7.8619e-05,  ...,  2.8402e-05,
+         -1.1320e-03, -1.8311e-04],
+        [-2.6488e-04,  0.0000e+00, -5.3704e-05,  ...,  4.4137e-05,
+         -2.1577e-04, -1.8537e-04],
+        [ 1.3518e-04,  0.0000e+00,  8.1301e-05,  ...,  5.2691e-05,
+          7.5817e-04,  6.7806e-04]], device='cuda:0')
+Epoch 16, bias, value: tensor([-0.0292, -0.0254,  0.0145,  0.0285, -0.0296,  0.0073, -0.0120,  0.0086,
+         0.0174,  0.0028], device='cuda:0'), grad: tensor([-0.0048,  0.0009,  0.0026,  0.0020,  0.0007, -0.0001,  0.0021, -0.0007,
+        -0.0048,  0.0022], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 15----------------------------------------------------
+epoch 15, time 230.54, cls_loss 0.0490 cls_loss_mapping 0.0858 cls_loss_causal 0.9942 re_mapping 0.0306 re_causal 0.0928 /// teacc 98.42 lr 0.00010000
+Epoch 17, weight, value: tensor([[ 0.0040,  0.0188, -0.0446,  ..., -0.0367, -0.0211,  0.0354],
+        [ 0.0168, -0.0109,  0.0113,  ...,  0.0608, -0.0196, -0.0091],
+        [-0.0030, -0.0269,  0.0448,  ..., -0.0366, -0.0555, -0.0265],
+        ...,
+        [ 0.0035, -0.0334, -0.0159,  ...,  0.0214,  0.0262,  0.0075],
+        [-0.0293, -0.0278,  0.0150,  ..., -0.0356,  0.0254, -0.0380],
+        [-0.0525, -0.0254, -0.0322,  ..., -0.0399,  0.0318,  0.0116]],
+       device='cuda:0'), grad: tensor([[ 1.6057e-04,  3.1497e-06,  2.2542e-04,  ...,  1.0049e-04,
+          2.0242e-04,  2.5773e-04],
+        [ 3.0541e-04,  1.8418e-05,  2.9802e-05,  ..., -1.9045e-03,
+          1.7858e-04,  9.9480e-05],
+        [ 2.4402e-04, -3.8922e-05, -1.7452e-03,  ...,  9.5415e-04,
+          1.6773e-04,  6.7413e-05],
+        ...,
+        [ 6.3753e-04,  4.4033e-06,  2.7013e-04,  ...,  4.6277e-04,
+          2.1398e-04,  6.1131e-04],
+        [ 7.8297e-04,  3.6061e-05,  2.0945e-04,  ...,  4.7708e-04,
+          1.0347e-03,  6.9141e-04],
+        [-9.7885e-03,  6.1467e-06,  1.5152e-04,  ..., -1.2054e-03,
+         -4.0627e-03, -1.2016e-02]], device='cuda:0')
+Epoch 17, bias, value: tensor([-0.0292, -0.0256,  0.0147,  0.0286, -0.0293,  0.0073, -0.0120,  0.0083,
+         0.0173,  0.0027], device='cuda:0'), grad: tensor([ 0.0008, -0.0012, -0.0010,  0.0034,  0.0087, -0.0010,  0.0024,  0.0017,
+         0.0019, -0.0156], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 16, time 214.80, cls_loss 0.0466 cls_loss_mapping 0.0831 cls_loss_causal 0.9424 re_mapping 0.0305 re_causal 0.0863 /// teacc 98.30 lr 0.00010000
+Epoch 18, weight, value: tensor([[ 0.0037,  0.0189, -0.0435,  ..., -0.0370, -0.0216,  0.0357],
+        [ 0.0165, -0.0106,  0.0103,  ...,  0.0616, -0.0203, -0.0096],
+        [-0.0033, -0.0265,  0.0474,  ..., -0.0371, -0.0563, -0.0271],
+        ...,
+        [ 0.0035, -0.0338, -0.0156,  ...,  0.0210,  0.0266,  0.0069],
+        [-0.0298, -0.0292,  0.0147,  ..., -0.0365,  0.0257, -0.0387],
+        [-0.0535, -0.0258, -0.0333,  ..., -0.0407,  0.0315,  0.0127]],
+       device='cuda:0'), grad: tensor([[ 9.9957e-05,  0.0000e+00,  5.3436e-05,  ...,  1.6069e-04,
+          2.5725e-04,  1.3247e-05],
+        [ 2.2674e-04,  0.0000e+00, -1.9598e-04,  ..., -6.7291e-03,
+          8.9169e-05,  2.0564e-04],
+        [ 2.4390e-04,  0.0000e+00, -4.0512e-03,  ...,  3.1929e-03,
+          5.7316e-04,  3.8385e-04],
+        ...,
+        [ 4.6873e-04,  0.0000e+00,  2.4259e-05,  ...,  4.0197e-04,
+          3.0565e-04,  1.1387e-03],
+        [ 1.7416e-04,  0.0000e+00,  3.7136e-03,  ...,  1.8606e-03,
+         -7.9811e-05,  5.3835e-04],
+        [ 1.1492e-03,  0.0000e+00,  2.3708e-05,  ...,  8.1062e-04,
+          2.7537e-04, -1.0710e-03]], device='cuda:0')
+Epoch 18, bias, value: tensor([-0.0290, -0.0257,  0.0147,  0.0287, -0.0293,  0.0071, -0.0119,  0.0083,
+         0.0173,  0.0027], device='cuda:0'), grad: tensor([ 0.0006, -0.0082, -0.0008,  0.0003, -0.0039,  0.0004,  0.0028,  0.0017,
+         0.0069,  0.0004], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 17----------------------------------------------------
+epoch 17, time 230.83, cls_loss 0.0416 cls_loss_mapping 0.0765 cls_loss_causal 0.9491 re_mapping 0.0285 re_causal 0.0845 /// teacc 98.57 lr 0.00010000
+Epoch 19, weight, value: tensor([[ 0.0034,  0.0191, -0.0448,  ..., -0.0371, -0.0222,  0.0360],
+        [ 0.0153, -0.0104,  0.0090,  ...,  0.0624, -0.0208, -0.0102],
+        [-0.0034, -0.0264,  0.0500,  ..., -0.0375, -0.0573, -0.0279],
+        ...,
+        [ 0.0036, -0.0339, -0.0150,  ...,  0.0206,  0.0274,  0.0063],
+        [-0.0304, -0.0296,  0.0139,  ..., -0.0373,  0.0256, -0.0396],
+        [-0.0546, -0.0259, -0.0350,  ..., -0.0417,  0.0314,  0.0137]],
+       device='cuda:0'), grad: tensor([[ 2.6250e-04,  1.2070e-05,  1.6737e-04,  ...,  9.4414e-05,
+          1.0389e-04, -3.4308e-04],
+        [ 6.6638e-05,  1.1757e-05,  1.1915e-04,  ..., -1.3912e-04,
+          2.2101e-04,  6.7294e-05],
+        [ 1.5283e-04,  1.8090e-05, -1.0204e-03,  ...,  1.1706e-04,
+          8.3864e-05,  9.0897e-05],
+        ...,
+        [ 5.9664e-05,  5.5507e-06,  8.6606e-05,  ...,  4.8816e-05,
+          1.0586e-04,  8.7261e-05],
+        [ 9.3460e-05,  1.7107e-05, -4.7162e-06,  ...,  8.5354e-05,
+          7.4482e-04,  3.2926e-04],
+        [ 3.8832e-05,  3.3110e-05,  3.8445e-05,  ...,  2.8834e-05,
+          1.0061e-04,  1.2815e-04]], device='cuda:0')
+Epoch 19, bias, value: tensor([-0.0292, -0.0258,  0.0147,  0.0286, -0.0291,  0.0072, -0.0119,  0.0085,
+         0.0172,  0.0027], device='cuda:0'), grad: tensor([ 3.7718e-04,  6.8760e-04, -1.4963e-03, -2.4357e-03, -1.2207e-03,
+        -5.4866e-05,  9.6369e-04,  8.4400e-04,  1.8358e-03,  4.9543e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 18, time 214.25, cls_loss 0.0428 cls_loss_mapping 0.0776 cls_loss_causal 0.9661 re_mapping 0.0271 re_causal 0.0810 /// teacc 98.26 lr 0.00010000
+Epoch 20, weight, value: tensor([[ 0.0032,  0.0192, -0.0442,  ..., -0.0376, -0.0228,  0.0368],
+        [ 0.0140, -0.0103,  0.0078,  ...,  0.0630, -0.0215, -0.0111],
+        [-0.0034, -0.0263,  0.0516,  ..., -0.0377, -0.0583, -0.0285],
+        ...,
+        [ 0.0030, -0.0339, -0.0153,  ...,  0.0199,  0.0279,  0.0060],
+        [-0.0307, -0.0298,  0.0129,  ..., -0.0376,  0.0258, -0.0404],
+        [-0.0555, -0.0260, -0.0361,  ..., -0.0418,  0.0315,  0.0145]],
+       device='cuda:0'), grad: tensor([[ 3.2735e-04,  5.1921e-08,  3.9250e-05,  ...,  9.7036e-04,
+          7.1383e-04,  1.6327e-03],
+        [ 2.4533e-04,  1.1071e-07,  6.6459e-05,  ...,  1.3375e-04,
+          2.6393e-04,  1.4830e-04],
+        [ 4.9305e-04,  1.6496e-07,  1.4102e-04,  ...,  2.7895e-04,
+          4.6039e-04,  6.1989e-04],
+        ...,
+        [ 1.0967e-03,  1.4342e-07, -4.2462e-04,  ...,  5.6076e-04,
+         -1.2217e-03,  2.5809e-05],
+        [ 9.8050e-05,  2.7171e-07,  6.9082e-05,  ...,  8.2374e-05,
+          1.8132e-04,  5.0068e-04],
+        [ 3.2592e-04,  1.0757e-06,  4.0650e-05,  ...,  2.1398e-04,
+          7.0000e-04,  8.1968e-04]], device='cuda:0')
+Epoch 20, bias, value: tensor([-0.0290, -0.0262,  0.0146,  0.0287, -0.0290,  0.0071, -0.0124,  0.0083,
+         0.0176,  0.0030], device='cuda:0'), grad: tensor([ 2.5883e-03,  8.6260e-04,  2.1019e-03, -4.8294e-03, -2.7599e-03,
+         1.4362e-03, -1.0462e-03, -6.5136e-04,  6.4559e-06,  2.2926e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 19----------------------------------------------------
+epoch 19, time 231.31, cls_loss 0.0361 cls_loss_mapping 0.0672 cls_loss_causal 0.9177 re_mapping 0.0267 re_causal 0.0819 /// teacc 98.70 lr 0.00010000
+Epoch 21, weight, value: tensor([[ 0.0028,  0.0192, -0.0433,  ..., -0.0384, -0.0234,  0.0370],
+        [ 0.0135, -0.0097,  0.0074,  ...,  0.0637, -0.0223, -0.0110],
+        [-0.0038, -0.0267,  0.0537,  ..., -0.0386, -0.0589, -0.0288],
+        ...,
+        [ 0.0027, -0.0341, -0.0145,  ...,  0.0202,  0.0288,  0.0056],
+        [-0.0311, -0.0302,  0.0116,  ..., -0.0383,  0.0257, -0.0414],
+        [-0.0564, -0.0261, -0.0370,  ..., -0.0430,  0.0312,  0.0148]],
+       device='cuda:0'), grad: tensor([[ 3.1851e-06,  1.3590e-05, -1.1407e-05,  ..., -2.5511e-04,
+          7.5758e-05, -8.8549e-04],
+        [ 5.4948e-06,  6.8843e-05,  1.1587e-04,  ..., -1.7250e-04,
+          1.7118e-04,  6.3610e-04],
+        [ 1.5628e-06, -8.2016e-04, -1.4057e-03,  ...,  1.0067e-04,
+         -4.8685e-04, -6.4735e-03],
+        ...,
+        [ 1.2949e-05,  1.4389e-04,  2.6202e-04,  ...,  1.1271e-04,
+          4.7183e-04,  1.6041e-03],
+        [ 3.2604e-05,  2.5764e-05,  4.0412e-05,  ...,  3.1590e-05,
+          2.0993e-04,  5.6791e-04],
+        [-6.5613e-04,  4.8578e-05,  9.1374e-05,  ..., -3.0637e-05,
+         -2.6155e-04, -1.5955e-03]], device='cuda:0')
+Epoch 21, bias, value: tensor([-0.0292, -0.0262,  0.0145,  0.0289, -0.0289,  0.0068, -0.0122,  0.0088,
+         0.0174,  0.0027], device='cuda:0'), grad: tensor([-0.0005,  0.0022, -0.0245,  0.0069,  0.0042,  0.0068,  0.0006,  0.0054,
+         0.0012, -0.0022], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 20, time 214.82, cls_loss 0.0323 cls_loss_mapping 0.0641 cls_loss_causal 0.9011 re_mapping 0.0253 re_causal 0.0781 /// teacc 98.62 lr 0.00010000
+Epoch 22, weight, value: tensor([[ 0.0023,  0.0192, -0.0433,  ..., -0.0393, -0.0241,  0.0375],
+        [ 0.0132, -0.0089,  0.0063,  ...,  0.0646, -0.0228, -0.0117],
+        [-0.0041, -0.0270,  0.0555,  ..., -0.0389, -0.0598, -0.0293],
+        ...,
+        [ 0.0022, -0.0343, -0.0144,  ...,  0.0194,  0.0294,  0.0053],
+        [-0.0313, -0.0301,  0.0115,  ..., -0.0397,  0.0262, -0.0420],
+        [-0.0569, -0.0262, -0.0391,  ..., -0.0434,  0.0310,  0.0154]],
+       device='cuda:0'), grad: tensor([[ 6.1989e-05,  1.3828e-05,  4.1509e-04,  ...,  3.6806e-05,
+          3.7575e-04,  2.1172e-04],
+        [ 8.8573e-05,  3.4403e-06,  1.6201e-04,  ..., -3.9792e-04,
+          6.2513e-04,  5.2881e-04],
+        [-4.1008e-04, -4.0412e-05, -4.0550e-03,  ...,  1.0848e-04,
+         -1.1902e-03,  2.7037e-04],
+        ...,
+        [ 1.2994e-04,  6.5006e-07,  6.1417e-04,  ...,  8.3148e-05,
+          6.5374e-04,  7.2575e-04],
+        [ 1.4532e-04,  1.2532e-05,  9.2316e-04,  ...,  5.7727e-05,
+         -4.1084e-03, -4.1771e-03],
+        [ 1.3399e-04,  3.2643e-07,  3.6865e-05,  ...,  2.1076e-04,
+         -9.5320e-04, -1.9474e-03]], device='cuda:0')
+Epoch 22, bias, value: tensor([-0.0291, -0.0259,  0.0145,  0.0286, -0.0290,  0.0068, -0.0123,  0.0088,
+         0.0177,  0.0026], device='cuda:0'), grad: tensor([ 0.0012,  0.0015, -0.0035,  0.0009,  0.0009,  0.0082,  0.0016,  0.0017,
+        -0.0113, -0.0011], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 21, time 214.62, cls_loss 0.0252 cls_loss_mapping 0.0508 cls_loss_causal 0.8864 re_mapping 0.0240 re_causal 0.0751 /// teacc 98.64 lr 0.00010000
+Epoch 23, weight, value: tensor([[ 0.0019,  0.0196, -0.0438,  ..., -0.0393, -0.0249,  0.0379],
+        [ 0.0126, -0.0091,  0.0047,  ...,  0.0652, -0.0233, -0.0120],
+        [-0.0043, -0.0270,  0.0582,  ..., -0.0391, -0.0605, -0.0296],
+        ...,
+        [ 0.0019, -0.0345, -0.0148,  ...,  0.0188,  0.0299,  0.0048],
+        [-0.0316, -0.0304,  0.0108,  ..., -0.0405,  0.0259, -0.0428],
+        [-0.0575, -0.0263, -0.0412,  ..., -0.0439,  0.0309,  0.0160]],
+       device='cuda:0'), grad: tensor([[ 1.1081e-04,  4.3074e-08,  1.4305e-04,  ..., -6.6161e-05,
+         -5.9366e-04, -2.2659e-03],
+        [ 1.0145e-04,  1.0844e-07,  8.4221e-05,  ...,  9.5785e-05,
+          1.0097e-04,  2.5964e-04],
+        [ 5.0426e-05,  1.2142e-07, -3.1261e-03,  ...,  1.3494e-04,
+          9.6083e-05, -1.1692e-03],
+        ...,
+        [ 4.0054e-05,  1.5006e-07,  3.0875e-05,  ...,  2.2590e-04,
+         -2.7180e-04,  2.5082e-04],
+        [ 8.9645e-05,  3.0850e-07,  5.4789e-04,  ...,  2.0826e-04,
+          1.5473e-04,  4.9114e-04],
+        [ 1.0328e-03,  2.7381e-07,  3.7670e-05,  ...,  8.4305e-04,
+          8.3447e-04, -5.8985e-04]], device='cuda:0')
+Epoch 23, bias, value: tensor([-0.0293, -0.0260,  0.0147,  0.0289, -0.0290,  0.0072, -0.0125,  0.0086,
+         0.0175,  0.0026], device='cuda:0'), grad: tensor([-0.0014,  0.0005, -0.0035,  0.0033, -0.0028,  0.0009, -0.0012,  0.0001,
+         0.0012,  0.0031], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 22, time 214.69, cls_loss 0.0232 cls_loss_mapping 0.0481 cls_loss_causal 0.8837 re_mapping 0.0233 re_causal 0.0717 /// teacc 98.64 lr 0.00010000
+Epoch 24, weight, value: tensor([[ 0.0014,  0.0201, -0.0443,  ..., -0.0394, -0.0255,  0.0382],
+        [ 0.0118, -0.0090,  0.0034,  ...,  0.0660, -0.0237, -0.0128],
+        [-0.0048, -0.0271,  0.0606,  ..., -0.0397, -0.0611, -0.0301],
+        ...,
+        [ 0.0015, -0.0348, -0.0153,  ...,  0.0184,  0.0302,  0.0045],
+        [-0.0318, -0.0310,  0.0104,  ..., -0.0412,  0.0258, -0.0431],
+        [-0.0582, -0.0264, -0.0422,  ..., -0.0444,  0.0308,  0.0165]],
+       device='cuda:0'), grad: tensor([[ 1.7270e-05,  4.0000e-07,  1.3423e-04,  ..., -3.1620e-05,
+          2.4796e-04, -3.2187e-04],
+        [ 4.7892e-05,  1.5562e-06,  2.3174e-04,  ...,  1.7792e-05,
+          1.8358e-04,  9.0659e-05],
+        [ 2.6256e-05, -1.7500e-06, -2.3127e-04,  ..., -2.5749e-05,
+          1.7333e-04,  1.2445e-04],
+        ...,
+        [ 4.9323e-05,  1.1381e-06,  1.3504e-03,  ...,  4.6700e-05,
+          8.2779e-04,  5.8460e-04],
+        [ 2.3603e-05,  2.1886e-06, -3.0289e-03,  ...,  4.6343e-05,
+         -3.2539e-03, -1.5841e-03],
+        [ 1.6856e-04,  4.7102e-07,  9.6560e-04,  ...,  1.4269e-04,
+          1.3037e-03,  4.6396e-04]], device='cuda:0')
+Epoch 24, bias, value: tensor([-0.0295, -0.0260,  0.0149,  0.0291, -0.0292,  0.0074, -0.0126,  0.0084,
+         0.0176,  0.0025], device='cuda:0'), grad: tensor([ 0.0005,  0.0009,  0.0001,  0.0007, -0.0005,  0.0011,  0.0003,  0.0055,
+        -0.0135,  0.0048], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 23, time 214.82, cls_loss 0.0275 cls_loss_mapping 0.0576 cls_loss_causal 0.8671 re_mapping 0.0223 re_causal 0.0675 /// teacc 98.62 lr 0.00010000
+Epoch 25, weight, value: tensor([[ 0.0011,  0.0200, -0.0444,  ..., -0.0387, -0.0260,  0.0386],
+        [ 0.0114, -0.0088,  0.0028,  ...,  0.0668, -0.0245, -0.0133],
+        [-0.0049, -0.0275,  0.0624,  ..., -0.0405, -0.0618, -0.0304],
+        ...,
+        [ 0.0010, -0.0349, -0.0152,  ...,  0.0177,  0.0309,  0.0043],
+        [-0.0320, -0.0312,  0.0100,  ..., -0.0419,  0.0256, -0.0440],
+        [-0.0591, -0.0265, -0.0442,  ..., -0.0450,  0.0307,  0.0173]],
+       device='cuda:0'), grad: tensor([[ 1.6645e-05,  2.8580e-08,  1.7691e-04,  ...,  5.0604e-05,
+          1.0574e-04,  9.4995e-08],
+        [ 2.3171e-05,  4.6450e-08,  9.7215e-05,  ...,  2.3117e-03,
+          2.0657e-03,  2.3937e-03],
+        [ 4.6015e-05,  7.0257e-08, -1.0147e-03,  ...,  7.5996e-05,
+          8.3566e-05,  4.8667e-05],
+        ...,
+        [ 2.4259e-05,  8.6671e-08,  4.5466e-04,  ...,  6.5470e-04,
+         -3.6359e-05,  6.3372e-04],
+        [ 1.2487e-05,  1.2713e-07,  4.9174e-05,  ...,  3.9005e-04,
+          3.5715e-04,  4.0722e-04],
+        [ 6.4410e-06,  1.8219e-07,  4.4376e-05,  ..., -3.7727e-03,
+         -3.0651e-03, -3.9330e-03]], device='cuda:0')
+Epoch 25, bias, value: tensor([-0.0294, -0.0260,  0.0149,  0.0292, -0.0291,  0.0073, -0.0127,  0.0085,
+         0.0178,  0.0022], device='cuda:0'), grad: tensor([ 0.0004,  0.0079, -0.0007,  0.0007,  0.0006,  0.0006, -0.0003,  0.0019,
+         0.0013, -0.0123], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 24, time 214.53, cls_loss 0.0252 cls_loss_mapping 0.0548 cls_loss_causal 0.8652 re_mapping 0.0218 re_causal 0.0684 /// teacc 98.56 lr 0.00010000
+Epoch 26, weight, value: tensor([[ 0.0007,  0.0200, -0.0445,  ..., -0.0391, -0.0264,  0.0389],
+        [ 0.0105, -0.0088,  0.0020,  ...,  0.0675, -0.0252, -0.0139],
+        [-0.0048, -0.0275,  0.0638,  ..., -0.0412, -0.0625, -0.0309],
+        ...,
+        [ 0.0002, -0.0351, -0.0143,  ...,  0.0178,  0.0315,  0.0040],
+        [-0.0319, -0.0317,  0.0102,  ..., -0.0422,  0.0257, -0.0446],
+        [-0.0598, -0.0265, -0.0469,  ..., -0.0458,  0.0305,  0.0182]],
+       device='cuda:0'), grad: tensor([[ 9.4622e-06,  1.3243e-06,  1.0405e-03,  ..., -7.5102e-05,
+          8.0168e-05, -6.8128e-05],
+        [ 6.4075e-05, -6.1810e-05, -5.5075e-04,  ..., -2.7227e-04,
+          1.3709e-04,  4.1068e-05],
+        [ 7.8917e-05,  3.4839e-05, -4.0894e-03,  ...,  4.6921e-04,
+          1.8024e-04, -1.3227e-03],
+        ...,
+        [ 4.8019e-06,  8.6129e-06,  1.6010e-04,  ...,  5.0396e-05,
+         -3.7003e-04,  2.3806e-04],
+        [ 4.9084e-05,  2.6412e-06,  2.1286e-03,  ...,  1.6069e-04,
+          3.8624e-04,  9.8228e-04],
+        [ 6.9976e-05,  1.2498e-06,  1.8620e-04,  ...,  1.0037e-04,
+         -1.1522e-04, -4.5395e-04]], device='cuda:0')
+Epoch 26, bias, value: tensor([-0.0296, -0.0264,  0.0151,  0.0292, -0.0290,  0.0068, -0.0125,  0.0091,
+         0.0180,  0.0020], device='cuda:0'), grad: tensor([ 0.0021, -0.0079, -0.0042,  0.0030,  0.0004,  0.0006, -0.0005,  0.0009,
+         0.0054,  0.0003], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 25, time 214.72, cls_loss 0.0244 cls_loss_mapping 0.0504 cls_loss_causal 0.8138 re_mapping 0.0216 re_causal 0.0655 /// teacc 98.60 lr 0.00010000
+Epoch 27, weight, value: tensor([[ 0.0007,  0.0200, -0.0438,  ..., -0.0388, -0.0268,  0.0391],
+        [ 0.0101, -0.0085,  0.0004,  ...,  0.0680, -0.0259, -0.0142],
+        [-0.0048, -0.0277,  0.0663,  ..., -0.0421, -0.0631, -0.0311],
+        ...,
+        [ 0.0002, -0.0349, -0.0149,  ...,  0.0182,  0.0321,  0.0037],
+        [-0.0321, -0.0322,  0.0094,  ..., -0.0430,  0.0254, -0.0452],
+        [-0.0609, -0.0267, -0.0469,  ..., -0.0467,  0.0305,  0.0190]],
+       device='cuda:0'), grad: tensor([[ 2.1785e-05,  0.0000e+00, -7.0214e-05,  ..., -5.6326e-06,
+          8.1301e-05, -1.9932e-04],
+        [ 1.1331e-04,  0.0000e+00,  2.1863e-04,  ...,  9.8169e-05,
+          1.0407e-04,  3.8177e-05],
+        [ 2.4423e-05,  0.0000e+00, -7.8583e-04,  ...,  2.8372e-05,
+          2.4283e-04,  7.9334e-05],
+        ...,
+        [ 6.1512e-05,  0.0000e+00,  3.1447e-04,  ...,  5.3376e-05,
+         -7.7105e-04,  1.4722e-04],
+        [ 2.8715e-05,  0.0000e+00,  7.7307e-05,  ...,  3.9935e-05,
+          7.0930e-05, -3.0327e-04],
+        [-4.0233e-05,  0.0000e+00,  3.1531e-05,  ..., -7.2241e-05,
+          6.5804e-04, -6.8665e-04]], device='cuda:0')
+Epoch 27, bias, value: tensor([-0.0297, -0.0265,  0.0152,  0.0289, -0.0292,  0.0070, -0.0125,  0.0092,
+         0.0180,  0.0022], device='cuda:0'), grad: tensor([-3.3319e-05,  6.3133e-04,  3.1042e-04, -6.7062e-03,  1.0900e-03,
+         7.5626e-04,  9.0933e-04, -3.0637e-04,  2.6569e-03,  6.9523e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 26----------------------------------------------------
+epoch 26, time 230.31, cls_loss 0.0193 cls_loss_mapping 0.0413 cls_loss_causal 0.8155 re_mapping 0.0201 re_causal 0.0634 /// teacc 98.79 lr 0.00010000
+Epoch 28, weight, value: tensor([[ 0.0003,  0.0199, -0.0435,  ..., -0.0393, -0.0272,  0.0396],
+        [ 0.0092, -0.0080,  0.0003,  ...,  0.0687, -0.0265, -0.0145],
+        [-0.0047, -0.0277,  0.0680,  ..., -0.0428, -0.0637, -0.0314],
+        ...,
+        [-0.0001, -0.0353, -0.0155,  ...,  0.0177,  0.0326,  0.0032],
+        [-0.0324, -0.0324,  0.0091,  ..., -0.0438,  0.0255, -0.0458],
+        [-0.0616, -0.0268, -0.0476,  ..., -0.0474,  0.0303,  0.0198]],
+       device='cuda:0'), grad: tensor([[ 5.8919e-05,  0.0000e+00, -4.7594e-05,  ...,  7.1406e-05,
+          7.5340e-05, -1.7905e-04],
+        [ 1.5903e-04,  0.0000e+00,  2.5347e-05,  ..., -4.8488e-05,
+          9.4175e-05,  1.1720e-05],
+        [ 1.2076e-04,  0.0000e+00, -5.6190e-03,  ...,  9.5785e-05,
+         -1.5516e-03,  4.6462e-05],
+        ...,
+        [ 4.7892e-05,  0.0000e+00,  5.3787e-03,  ...,  4.5240e-05,
+          1.4391e-03,  1.0741e-04],
+        [-1.1482e-03,  0.0000e+00,  6.4373e-05,  ..., -4.8518e-04,
+         -2.4581e-04,  2.3639e-04],
+        [ 1.4365e-04,  0.0000e+00,  6.3181e-05,  ...,  6.1929e-05,
+          1.8269e-05, -1.9443e-04]], device='cuda:0')
+Epoch 28, bias, value: tensor([-0.0295, -0.0265,  0.0154,  0.0288, -0.0290,  0.0068, -0.0125,  0.0089,
+         0.0182,  0.0021], device='cuda:0'), grad: tensor([ 2.0280e-05,  2.1732e-04, -4.3449e-03,  6.4278e-04,  2.9325e-04,
+        -9.7990e-05,  7.3910e-04,  4.5242e-03, -2.0294e-03,  3.2872e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 27, time 214.55, cls_loss 0.0158 cls_loss_mapping 0.0356 cls_loss_causal 0.8069 re_mapping 0.0199 re_causal 0.0643 /// teacc 98.76 lr 0.00010000
+Epoch 29, weight, value: tensor([[-0.0003,  0.0198, -0.0434,  ..., -0.0396, -0.0274,  0.0400],
+        [ 0.0088, -0.0079, -0.0009,  ...,  0.0691, -0.0271, -0.0149],
+        [-0.0051, -0.0276,  0.0694,  ..., -0.0434, -0.0645, -0.0315],
+        ...,
+        [-0.0006, -0.0361, -0.0152,  ...,  0.0177,  0.0330,  0.0029],
+        [-0.0322, -0.0326,  0.0085,  ..., -0.0442,  0.0253, -0.0465],
+        [-0.0627, -0.0270, -0.0482,  ..., -0.0477,  0.0303,  0.0203]],
+       device='cuda:0'), grad: tensor([[ 1.7405e-05,  0.0000e+00, -2.3857e-05,  ...,  1.7941e-05,
+          9.9719e-05,  1.6078e-05],
+        [ 2.6539e-05,  0.0000e+00,  6.1035e-05,  ..., -1.4162e-04,
+          3.4183e-05,  5.4628e-05],
+        [ 1.8269e-05,  0.0000e+00, -1.1377e-03,  ...,  3.3379e-05,
+         -4.7088e-05,  4.3958e-05],
+        ...,
+        [ 2.1294e-05,  0.0000e+00,  5.1641e-04,  ...,  3.5137e-05,
+          1.8616e-03,  2.5520e-03],
+        [ 3.7074e-05,  0.0000e+00,  1.5354e-04,  ...,  2.5585e-05,
+          9.7394e-05,  1.4758e-04],
+        [-2.8372e-04,  0.0000e+00, -4.0233e-05,  ..., -3.2783e-05,
+         -2.3193e-03, -3.5610e-03]], device='cuda:0')
+Epoch 29, bias, value: tensor([-0.0295, -0.0268,  0.0151,  0.0293, -0.0290,  0.0066, -0.0127,  0.0092,
+         0.0182,  0.0020], device='cuda:0'), grad: tensor([ 1.0771e-04,  9.6858e-06, -1.0481e-03,  5.4741e-04,  8.3494e-04,
+         1.0329e-04, -6.0499e-05,  3.4904e-03,  4.3774e-04, -4.4289e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 28----------------------------------------------------
+epoch 28, time 231.24, cls_loss 0.0141 cls_loss_mapping 0.0330 cls_loss_causal 0.8207 re_mapping 0.0193 re_causal 0.0625 /// teacc 98.83 lr 0.00010000
+Epoch 30, weight, value: tensor([[-0.0006,  0.0199, -0.0429,  ..., -0.0393, -0.0278,  0.0402],
+        [ 0.0083, -0.0079, -0.0013,  ...,  0.0698, -0.0275, -0.0147],
+        [-0.0050, -0.0275,  0.0714,  ..., -0.0439, -0.0650, -0.0316],
+        ...,
+        [-0.0011, -0.0362, -0.0152,  ...,  0.0175,  0.0334,  0.0022],
+        [-0.0323, -0.0326,  0.0083,  ..., -0.0443,  0.0251, -0.0471],
+        [-0.0636, -0.0270, -0.0505,  ..., -0.0483,  0.0303,  0.0209]],
+       device='cuda:0'), grad: tensor([[ 1.3821e-05,  0.0000e+00,  8.7261e-05,  ...,  1.2830e-05,
+          4.4197e-05, -2.2836e-06],
+        [ 8.3148e-05,  0.0000e+00,  3.9744e-04,  ..., -6.4671e-05,
+          6.0230e-05,  3.6001e-05],
+        [ 3.8892e-05,  0.0000e+00, -5.2834e-03,  ...,  1.4722e-05,
+          3.2455e-05,  2.6733e-05],
+        ...,
+        [ 4.3958e-05,  0.0000e+00,  1.1988e-03,  ...,  2.1666e-05,
+         -1.9622e-04, -4.9314e-07],
+        [ 1.0215e-05,  0.0000e+00,  2.2793e-03,  ...,  2.1830e-05,
+         -5.5730e-05,  3.1918e-05],
+        [ 4.5896e-05,  0.0000e+00,  4.7493e-04,  ...,  3.2336e-05,
+          2.1076e-03,  3.0975e-03]], device='cuda:0')
+Epoch 30, bias, value: tensor([-0.0295, -0.0267,  0.0152,  0.0293, -0.0291,  0.0069, -0.0128,  0.0091,
+         0.0183,  0.0018], device='cuda:0'), grad: tensor([ 0.0003,  0.0009, -0.0109,  0.0016,  0.0002, -0.0035,  0.0003,  0.0025,
+         0.0036,  0.0051], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 29, time 214.59, cls_loss 0.0159 cls_loss_mapping 0.0374 cls_loss_causal 0.7784 re_mapping 0.0186 re_causal 0.0582 /// teacc 98.66 lr 0.00010000
+Epoch 31, weight, value: tensor([[-0.0009,  0.0199, -0.0413,  ..., -0.0400, -0.0282,  0.0405],
+        [ 0.0069, -0.0079, -0.0015,  ...,  0.0704, -0.0279, -0.0151],
+        [-0.0049, -0.0275,  0.0722,  ..., -0.0443, -0.0655, -0.0322],
+        ...,
+        [-0.0018, -0.0363, -0.0152,  ...,  0.0170,  0.0340,  0.0019],
+        [-0.0326, -0.0327,  0.0074,  ..., -0.0450,  0.0252, -0.0477],
+        [-0.0643, -0.0270, -0.0507,  ..., -0.0488,  0.0302,  0.0217]],
+       device='cuda:0'), grad: tensor([[ 1.8072e-04,  5.2678e-08, -6.2943e-05,  ...,  1.7846e-04,
+          3.5584e-05, -6.2943e-05],
+        [ 3.2306e-04,  1.4540e-07,  1.0061e-04,  ...,  4.3839e-05,
+          1.0967e-04,  6.4909e-05],
+        [ 2.4986e-04,  1.4994e-07, -3.9744e-04,  ...,  2.1970e-04,
+          6.0976e-05,  1.1897e-04],
+        ...,
+        [ 1.9324e-04,  2.8033e-07,  1.8942e-04,  ...,  3.0494e-04,
+         -3.4404e-04,  3.3349e-05],
+        [ 1.3506e-04,  2.2002e-07,  2.9922e-05,  ...,  1.5664e-04,
+          4.3035e-05,  1.2189e-04],
+        [ 1.0824e-03,  8.7486e-08,  1.0496e-04,  ...,  9.6703e-04,
+          2.5392e-04,  6.4731e-05]], device='cuda:0')
+Epoch 31, bias, value: tensor([-0.0293, -0.0267,  0.0151,  0.0292, -0.0291,  0.0066, -0.0127,  0.0091,
+         0.0184,  0.0020], device='cuda:0'), grad: tensor([ 0.0004,  0.0007,  0.0004,  0.0003, -0.0057, -0.0010,  0.0012,  0.0003,
+         0.0005,  0.0029], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 30, time 215.19, cls_loss 0.0149 cls_loss_mapping 0.0343 cls_loss_causal 0.7769 re_mapping 0.0188 re_causal 0.0583 /// teacc 98.72 lr 0.00010000
+Epoch 32, weight, value: tensor([[-0.0012,  0.0204, -0.0398,  ..., -0.0399, -0.0288,  0.0406],
+        [ 0.0064, -0.0080, -0.0025,  ...,  0.0706, -0.0285, -0.0154],
+        [-0.0052, -0.0275,  0.0734,  ..., -0.0454, -0.0660, -0.0325],
+        ...,
+        [-0.0023, -0.0363, -0.0155,  ...,  0.0174,  0.0345,  0.0017],
+        [-0.0326, -0.0331,  0.0076,  ..., -0.0451,  0.0250, -0.0485],
+        [-0.0650, -0.0271, -0.0517,  ..., -0.0493,  0.0302,  0.0224]],
+       device='cuda:0'), grad: tensor([[ 2.1305e-03,  0.0000e+00,  7.1168e-05,  ...,  2.8095e-03,
+          2.9874e-04,  1.7996e-03],
+        [ 3.2353e-04,  0.0000e+00,  1.2410e-04,  ..., -3.1567e-04,
+          5.7727e-05,  6.5088e-05],
+        [ 1.7190e-04,  0.0000e+00, -2.3198e-04,  ...,  3.5715e-04,
+          3.4595e-04,  1.5640e-04],
+        ...,
+        [-6.3324e-04,  0.0000e+00, -2.1935e-03,  ..., -2.0275e-03,
+         -3.7308e-03, -1.4961e-04],
+        [ 2.9755e-04,  0.0000e+00,  1.3685e-04,  ...,  4.2748e-04,
+          1.7166e-04,  3.3116e-04],
+        [ 8.0872e-04,  0.0000e+00, -3.0547e-05,  ...,  1.0996e-03,
+          8.5735e-04,  6.9714e-04]], device='cuda:0')
+Epoch 32, bias, value: tensor([-0.0293, -0.0273,  0.0150,  0.0291, -0.0291,  0.0069, -0.0125,  0.0092,
+         0.0186,  0.0020], device='cuda:0'), grad: tensor([ 0.0056,  0.0002,  0.0005, -0.0005,  0.0098,  0.0003, -0.0115, -0.0083,
+         0.0012,  0.0026], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 31, time 214.89, cls_loss 0.0165 cls_loss_mapping 0.0359 cls_loss_causal 0.7826 re_mapping 0.0178 re_causal 0.0561 /// teacc 98.58 lr 0.00010000
+Epoch 33, weight, value: tensor([[-0.0018,  0.0203, -0.0400,  ..., -0.0407, -0.0293,  0.0411],
+        [ 0.0054, -0.0080, -0.0032,  ...,  0.0712, -0.0289, -0.0157],
+        [-0.0049, -0.0273,  0.0753,  ..., -0.0451, -0.0667, -0.0326],
+        ...,
+        [-0.0027, -0.0366, -0.0156,  ...,  0.0171,  0.0348,  0.0012],
+        [-0.0329, -0.0334,  0.0067,  ..., -0.0456,  0.0249, -0.0496],
+        [-0.0658, -0.0271, -0.0523,  ..., -0.0499,  0.0300,  0.0228]],
+       device='cuda:0'), grad: tensor([[ 5.7310e-05,  4.9211e-06,  4.7755e-04,  ...,  4.3005e-05,
+          3.9387e-04,  8.0633e-04],
+        [ 1.2314e-04,  2.6543e-06,  1.3602e-04,  ...,  6.6519e-05,
+          1.7011e-04,  9.9778e-05],
+        [ 1.5402e-04, -2.2936e-04, -2.4354e-04,  ...,  1.5271e-04,
+          2.7466e-04,  3.9077e-04],
+        ...,
+        [ 1.6937e-03,  8.3372e-06,  5.1975e-04,  ...,  9.8896e-04,
+          3.0017e-04,  4.2176e-04],
+        [ 6.1929e-05,  1.9419e-04,  7.7438e-04,  ..., -1.5819e-04,
+         -1.0830e-04,  2.7871e-04],
+        [ 4.0030e-04,  2.0477e-07,  1.9884e-04,  ...,  2.4939e-04,
+          3.4523e-04, -6.5565e-04]], device='cuda:0')
+Epoch 33, bias, value: tensor([-0.0296, -0.0275,  0.0155,  0.0295, -0.0291,  0.0070, -0.0125,  0.0091,
+         0.0181,  0.0019], device='cuda:0'), grad: tensor([ 0.0015,  0.0008,  0.0006,  0.0029, -0.0044, -0.0056,  0.0005,  0.0034,
+        -0.0006,  0.0008], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 32, time 214.85, cls_loss 0.0144 cls_loss_mapping 0.0344 cls_loss_causal 0.7362 re_mapping 0.0173 re_causal 0.0536 /// teacc 98.83 lr 0.00010000
+Epoch 34, weight, value: tensor([[-0.0022,  0.0201, -0.0400,  ..., -0.0408, -0.0295,  0.0412],
+        [ 0.0048, -0.0081, -0.0044,  ...,  0.0718, -0.0291, -0.0168],
+        [-0.0053, -0.0270,  0.0766,  ..., -0.0455, -0.0672, -0.0329],
+        ...,
+        [-0.0032, -0.0366, -0.0161,  ...,  0.0166,  0.0355,  0.0009],
+        [-0.0329, -0.0337,  0.0070,  ..., -0.0460,  0.0248, -0.0503],
+        [-0.0665, -0.0272, -0.0522,  ..., -0.0503,  0.0298,  0.0237]],
+       device='cuda:0'), grad: tensor([[ 1.4737e-05,  0.0000e+00, -7.9632e-05,  ...,  4.6402e-05,
+          2.4676e-05, -1.0186e-04],
+        [ 3.5644e-05,  0.0000e+00,  6.7949e-06,  ...,  1.6451e-04,
+          1.8966e-04,  5.8889e-04],
+        [ 1.4707e-05,  0.0000e+00,  2.3559e-05,  ...,  2.8297e-05,
+          7.3195e-05,  6.5506e-05],
+        ...,
+        [ 2.9489e-05,  0.0000e+00, -2.4512e-05,  ...,  9.9182e-05,
+         -9.3579e-05,  2.0349e-04],
+        [ 1.8820e-05,  0.0000e+00,  1.3690e-06,  ...,  1.4889e-04,
+          9.9301e-05,  2.7132e-04],
+        [ 1.0306e-04,  0.0000e+00,  2.8670e-05,  ..., -5.2166e-04,
+         -2.7061e-04, -1.3466e-03]], device='cuda:0')
+Epoch 34, bias, value: tensor([-0.0300, -0.0277,  0.0153,  0.0297, -0.0291,  0.0073, -0.0128,  0.0091,
+         0.0184,  0.0021], device='cuda:0'), grad: tensor([-1.5974e-05,  1.1120e-03,  2.5940e-04, -7.8773e-04,  3.1185e-04,
+         8.2874e-04, -1.1230e-04,  2.4152e-04,  5.3120e-04, -2.3670e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 33, time 214.69, cls_loss 0.0119 cls_loss_mapping 0.0304 cls_loss_causal 0.7257 re_mapping 0.0165 re_causal 0.0524 /// teacc 98.79 lr 0.00010000
+Epoch 35, weight, value: tensor([[-0.0028,  0.0200, -0.0395,  ..., -0.0412, -0.0298,  0.0415],
+        [ 0.0044, -0.0082, -0.0052,  ...,  0.0722, -0.0293, -0.0172],
+        [-0.0055, -0.0270,  0.0780,  ..., -0.0460, -0.0675, -0.0333],
+        ...,
+        [-0.0038, -0.0365, -0.0164,  ...,  0.0168,  0.0359,  0.0005],
+        [-0.0334, -0.0337,  0.0064,  ..., -0.0462,  0.0243, -0.0512],
+        [-0.0671, -0.0273, -0.0527,  ..., -0.0508,  0.0297,  0.0243]],
+       device='cuda:0'), grad: tensor([[ 7.1600e-06,  1.1525e-08, -1.1406e-03,  ..., -1.2264e-05,
+         -8.0764e-05, -4.8304e-04],
+        [ 1.0237e-05,  4.1793e-08,  2.0623e-05,  ..., -9.2313e-06,
+          3.4451e-05,  4.2289e-05],
+        [ 6.7689e-06,  8.9232e-08,  9.1410e-04,  ...,  1.6317e-05,
+          1.3769e-04,  4.2582e-04],
+        ...,
+        [ 1.6719e-05,  3.1549e-08, -5.1260e-06,  ...,  2.5690e-05,
+         -1.5855e-04,  9.9421e-05],
+        [ 2.0042e-05,  6.5775e-08, -6.1356e-06,  ...,  5.2243e-05,
+         -1.0383e-04,  1.8966e-04],
+        [ 2.5868e-05,  1.3923e-07,  9.9957e-05,  ..., -4.1783e-05,
+          5.5820e-05, -3.7432e-04]], device='cuda:0')
+Epoch 35, bias, value: tensor([-0.0301, -0.0278,  0.0153,  0.0294, -0.0288,  0.0072, -0.0123,  0.0092,
+         0.0183,  0.0019], device='cuda:0'), grad: tensor([-1.1959e-03,  9.3460e-05,  1.0500e-03, -9.7942e-04,  4.2748e-04,
+         8.5402e-04, -2.8563e-04,  4.3184e-05,  2.5615e-05, -3.2008e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 34, time 214.74, cls_loss 0.0168 cls_loss_mapping 0.0401 cls_loss_causal 0.7513 re_mapping 0.0155 re_causal 0.0509 /// teacc 98.68 lr 0.00010000
+Epoch 36, weight, value: tensor([[-3.1189e-03,  2.0274e-02, -3.8550e-02,  ..., -4.1353e-02,
+         -2.9999e-02,  4.1864e-02],
+        [ 4.1261e-03, -8.0893e-03, -6.1065e-03,  ...,  7.2704e-02,
+         -2.9789e-02, -1.7147e-02],
+        [-5.7507e-03, -2.6828e-02,  7.9174e-02,  ..., -4.6470e-02,
+         -6.7990e-02, -3.4014e-02],
+        ...,
+        [-4.0540e-03, -3.7017e-02, -1.6908e-02,  ...,  1.6857e-02,
+          3.6527e-02, -1.8020e-05],
+        [-3.3640e-02, -3.3073e-02,  5.8164e-03,  ..., -4.6488e-02,
+          2.4486e-02, -5.1553e-02],
+        [-6.8085e-02, -2.7266e-02, -5.3921e-02,  ..., -5.1335e-02,
+          2.9475e-02,  2.5001e-02]], device='cuda:0'), grad: tensor([[ 1.0870e-05,  2.3007e-05,  1.8482e-03,  ...,  1.4007e-04,
+          3.9637e-05,  5.0783e-04],
+        [ 1.5117e-05,  1.7490e-03,  5.6458e-03,  ...,  1.9445e-03,
+          7.1108e-05,  3.1680e-05],
+        [ 1.1235e-05, -2.1782e-03, -6.5880e-03,  ..., -2.8515e-03,
+          2.4259e-05,  1.4913e-04],
+        ...,
+        [ 2.0027e-05,  1.7583e-04,  5.5885e-04,  ...,  2.9707e-04,
+         -2.2459e-04,  3.7700e-05],
+        [ 8.1182e-05,  2.1487e-05, -4.6806e-03,  ...,  1.9360e-04,
+          7.8440e-05, -1.0920e-03],
+        [-5.0843e-05,  1.2100e-05,  2.5511e-04,  ...,  5.9783e-05,
+          4.9472e-05, -4.8184e-04]], device='cuda:0')
+Epoch 36, bias, value: tensor([-0.0301, -0.0277,  0.0151,  0.0292, -0.0288,  0.0073, -0.0122,  0.0092,
+         0.0185,  0.0017], device='cuda:0'), grad: tensor([ 0.0054,  0.0108, -0.0125,  0.0036,  0.0004,  0.0010,  0.0032,  0.0010,
+        -0.0121, -0.0009], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 35----------------------------------------------------
+epoch 35, time 230.88, cls_loss 0.0119 cls_loss_mapping 0.0323 cls_loss_causal 0.7519 re_mapping 0.0153 re_causal 0.0503 /// teacc 98.86 lr 0.00010000
+Epoch 37, weight, value: tensor([[-0.0035,  0.0205, -0.0380,  ..., -0.0415, -0.0302,  0.0422],
+        [ 0.0037, -0.0085, -0.0077,  ...,  0.0732, -0.0302, -0.0175],
+        [-0.0061, -0.0265,  0.0805,  ..., -0.0467, -0.0685, -0.0343],
+        ...,
+        [-0.0046, -0.0370, -0.0164,  ...,  0.0166,  0.0369, -0.0006],
+        [-0.0342, -0.0335,  0.0055,  ..., -0.0468,  0.0246, -0.0521],
+        [-0.0691, -0.0273, -0.0554,  ..., -0.0523,  0.0296,  0.0259]],
+       device='cuda:0'), grad: tensor([[ 2.2650e-05,  0.0000e+00,  9.6858e-06,  ...,  5.9307e-05,
+          1.0274e-05, -2.3052e-05],
+        [ 2.9176e-05,  0.0000e+00, -1.1265e-04,  ..., -3.2520e-03,
+          6.7018e-06,  1.7956e-05],
+        [ 5.9247e-05,  0.0000e+00, -1.7726e-04,  ...,  2.1267e-03,
+          5.9642e-06, -5.2243e-05],
+        ...,
+        [ 1.1063e-04,  0.0000e+00,  4.7594e-05,  ...,  5.0545e-04,
+          3.0845e-05,  2.4557e-04],
+        [ 3.7044e-05,  0.0000e+00,  6.1274e-05,  ...,  2.4939e-04,
+          5.7459e-05,  4.2737e-05],
+        [ 1.4532e-04,  0.0000e+00,  2.7984e-05,  ...,  7.2479e-05,
+          4.5568e-05, -8.3017e-04]], device='cuda:0')
+Epoch 37, bias, value: tensor([-0.0302, -0.0280,  0.0151,  0.0294, -0.0283,  0.0070, -0.0124,  0.0094,
+         0.0188,  0.0016], device='cuda:0'), grad: tensor([ 5.9873e-05, -3.5458e-03,  2.1439e-03,  2.8157e-04,  5.5933e-04,
+         7.0095e-05, -1.2112e-04,  1.0300e-03,  4.2462e-04, -9.0408e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 36, time 214.27, cls_loss 0.0120 cls_loss_mapping 0.0308 cls_loss_causal 0.7554 re_mapping 0.0157 re_causal 0.0514 /// teacc 98.79 lr 0.00010000
+Epoch 38, weight, value: tensor([[-0.0039,  0.0205, -0.0375,  ..., -0.0416, -0.0305,  0.0423],
+        [ 0.0037, -0.0085, -0.0094,  ...,  0.0740, -0.0306, -0.0180],
+        [-0.0064, -0.0265,  0.0817,  ..., -0.0469, -0.0691, -0.0346],
+        ...,
+        [-0.0052, -0.0369, -0.0157,  ...,  0.0165,  0.0375, -0.0008],
+        [-0.0346, -0.0336,  0.0047,  ..., -0.0476,  0.0244, -0.0527],
+        [-0.0697, -0.0275, -0.0551,  ..., -0.0531,  0.0296,  0.0267]],
+       device='cuda:0'), grad: tensor([[ 9.7454e-06,  0.0000e+00,  2.3674e-06,  ..., -3.2258e-04,
+          4.0196e-06, -6.7759e-04],
+        [ 6.3360e-05,  0.0000e+00, -2.4517e-07,  ..., -5.8055e-05,
+          8.1584e-06,  8.3745e-06],
+        [ 2.0576e-04,  0.0000e+00, -7.4208e-05,  ...,  1.5318e-04,
+          8.0466e-06,  1.5229e-05],
+        ...,
+        [ 7.3969e-05,  0.0000e+00,  1.3061e-05,  ...,  9.0361e-05,
+         -2.4274e-05,  4.1842e-05],
+        [ 2.0504e-05,  0.0000e+00,  1.8865e-05,  ...,  4.2737e-05,
+          5.0366e-06, -3.6478e-05],
+        [ 5.4330e-05,  0.0000e+00,  7.2941e-06,  ...,  6.4433e-05,
+         -1.9953e-05,  2.8864e-05]], device='cuda:0')
+Epoch 38, bias, value: tensor([-0.0304, -0.0281,  0.0150,  0.0290, -0.0283,  0.0074, -0.0126,  0.0096,
+         0.0187,  0.0018], device='cuda:0'), grad: tensor([-6.7139e-04, -5.0336e-05,  2.0242e-04, -1.0681e-04, -4.1199e-04,
+         1.7679e-04,  5.5695e-04,  1.5664e-04, -4.3821e-04,  5.8508e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 37----------------------------------------------------
+epoch 37, time 230.22, cls_loss 0.0145 cls_loss_mapping 0.0326 cls_loss_causal 0.7395 re_mapping 0.0161 re_causal 0.0485 /// teacc 98.95 lr 0.00010000
+Epoch 39, weight, value: tensor([[-0.0042,  0.0203, -0.0363,  ..., -0.0420, -0.0309,  0.0430],
+        [ 0.0024, -0.0085, -0.0102,  ...,  0.0745, -0.0307, -0.0184],
+        [-0.0062, -0.0265,  0.0828,  ..., -0.0476, -0.0700, -0.0348],
+        ...,
+        [-0.0055, -0.0375, -0.0149,  ...,  0.0168,  0.0379, -0.0016],
+        [-0.0348, -0.0340,  0.0036,  ..., -0.0483,  0.0244, -0.0530],
+        [-0.0712, -0.0277, -0.0563,  ..., -0.0536,  0.0294,  0.0271]],
+       device='cuda:0'), grad: tensor([[ 2.3592e-04,  4.3539e-08, -9.5665e-06,  ...,  2.1327e-04,
+          2.5317e-05,  4.8816e-05],
+        [ 4.5490e-04,  1.6554e-07,  6.3598e-05,  ...,  3.2163e-04,
+          1.6212e-05, -3.2723e-05],
+        [ 2.8634e-04,  4.0280e-08,  3.2842e-05,  ...,  3.1114e-04,
+          1.3731e-05,  2.6897e-05],
+        ...,
+        [ 1.6105e-04,  2.1758e-07, -5.2750e-05,  ...,  6.8963e-05,
+         -9.7811e-05,  2.5010e-04],
+        [ 1.8024e-04,  4.8545e-08,  2.3901e-05,  ...,  1.8990e-04,
+          1.7986e-05,  9.9778e-05],
+        [ 4.8351e-04,  2.5909e-06,  1.8343e-05,  ...,  1.2517e-04,
+          1.4293e-04, -7.1096e-04]], device='cuda:0')
+Epoch 39, bias, value: tensor([-0.0301, -0.0283,  0.0151,  0.0292, -0.0282,  0.0073, -0.0122,  0.0097,
+         0.0187,  0.0013], device='cuda:0'), grad: tensor([ 0.0004,  0.0007,  0.0006,  0.0002,  0.0006,  0.0002, -0.0034,  0.0004,
+         0.0005, -0.0001], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 38, time 214.64, cls_loss 0.0111 cls_loss_mapping 0.0279 cls_loss_causal 0.7313 re_mapping 0.0151 re_causal 0.0481 /// teacc 98.69 lr 0.00010000
+Epoch 40, weight, value: tensor([[-0.0044,  0.0202, -0.0360,  ..., -0.0420, -0.0310,  0.0430],
+        [ 0.0015, -0.0087, -0.0105,  ...,  0.0752, -0.0312, -0.0187],
+        [-0.0057, -0.0260,  0.0843,  ..., -0.0483, -0.0703, -0.0352],
+        ...,
+        [-0.0061, -0.0378, -0.0152,  ...,  0.0165,  0.0386, -0.0021],
+        [-0.0349, -0.0343,  0.0029,  ..., -0.0487,  0.0244, -0.0538],
+        [-0.0717, -0.0278, -0.0561,  ..., -0.0537,  0.0292,  0.0283]],
+       device='cuda:0'), grad: tensor([[ 3.6091e-05,  1.3283e-07, -5.2035e-05,  ...,  1.4514e-05,
+          2.1026e-05, -6.3658e-05],
+        [ 5.9932e-05,  3.5297e-07,  1.7211e-05,  ...,  8.6650e-06,
+          6.3956e-05,  1.8597e-05],
+        [ 4.0555e-04,  3.3155e-07, -4.4793e-05,  ...,  1.0115e-04,
+          9.4175e-05,  2.9996e-05],
+        ...,
+        [ 1.4639e-04,  1.1306e-06, -7.7069e-05,  ...,  4.4584e-05,
+         -4.7040e-04,  7.6234e-05],
+        [ 6.5207e-05,  4.0000e-07,  2.0698e-05,  ...,  2.6822e-05,
+          8.7261e-05,  7.0870e-05],
+        [ 5.8115e-05,  6.6450e-07,  2.2039e-05,  ...,  2.0579e-05,
+          5.0449e-04,  1.9789e-04]], device='cuda:0')
+Epoch 40, bias, value: tensor([-0.0302, -0.0284,  0.0153,  0.0291, -0.0285,  0.0069, -0.0123,  0.0096,
+         0.0184,  0.0021], device='cuda:0'), grad: tensor([-4.7445e-05,  2.0039e-04,  6.5327e-04,  7.0810e-04, -1.2007e-03,
+        -8.1825e-04,  1.5187e-04, -4.7898e-04,  1.4961e-04,  6.8140e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 39, time 214.35, cls_loss 0.0118 cls_loss_mapping 0.0314 cls_loss_causal 0.7194 re_mapping 0.0149 re_causal 0.0470 /// teacc 98.88 lr 0.00010000
+Epoch 41, weight, value: tensor([[-0.0053,  0.0203, -0.0354,  ..., -0.0425, -0.0313,  0.0432],
+        [ 0.0013, -0.0087, -0.0105,  ...,  0.0767, -0.0316, -0.0191],
+        [-0.0060, -0.0259,  0.0853,  ..., -0.0494, -0.0706, -0.0356],
+        ...,
+        [-0.0071, -0.0380, -0.0150,  ...,  0.0157,  0.0394, -0.0023],
+        [-0.0352, -0.0349,  0.0023,  ..., -0.0494,  0.0242, -0.0539],
+        [-0.0724, -0.0287, -0.0570,  ..., -0.0539,  0.0290,  0.0286]],
+       device='cuda:0'), grad: tensor([[ 4.5806e-05,  3.1125e-06, -1.2115e-05,  ...,  2.7522e-05,
+          1.4819e-05,  3.8266e-05],
+        [ 3.5256e-05,  9.3505e-06,  4.7654e-05,  ..., -8.9407e-05,
+          2.3946e-05,  2.5764e-05],
+        [ 1.4770e-04,  2.1204e-05,  5.9575e-05,  ...,  3.6895e-05,
+          4.8131e-05,  2.3022e-05],
+        ...,
+        [ 1.2481e-04,  3.9816e-05,  9.0659e-05,  ...,  1.0383e-04,
+          6.0588e-05,  1.4745e-05],
+        [-2.1374e-04,  3.0160e-05,  3.9935e-05,  ...,  6.7472e-05,
+          2.5010e-04, -4.3654e-04],
+        [ 2.2340e-04,  3.5673e-05,  4.7863e-05,  ...,  1.1694e-04,
+          1.3791e-05,  2.2709e-04]], device='cuda:0')
+Epoch 41, bias, value: tensor([-0.0305, -0.0278,  0.0149,  0.0293, -0.0283,  0.0068, -0.0123,  0.0096,
+         0.0185,  0.0018], device='cuda:0'), grad: tensor([ 2.6584e-04,  7.1943e-05,  3.6883e-04,  1.2684e-04, -6.7091e-04,
+         3.9368e-03, -3.6793e-03,  5.2929e-04, -1.9474e-03,  9.9850e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 40, time 214.43, cls_loss 0.0106 cls_loss_mapping 0.0263 cls_loss_causal 0.7191 re_mapping 0.0142 re_causal 0.0464 /// teacc 98.92 lr 0.00010000
+Epoch 42, weight, value: tensor([[-0.0058,  0.0201, -0.0348,  ..., -0.0427, -0.0314,  0.0435],
+        [ 0.0009, -0.0088, -0.0119,  ...,  0.0770, -0.0320, -0.0190],
+        [-0.0063, -0.0255,  0.0869,  ..., -0.0496, -0.0710, -0.0357],
+        ...,
+        [-0.0077, -0.0383, -0.0147,  ...,  0.0161,  0.0398, -0.0026],
+        [-0.0357, -0.0362,  0.0022,  ..., -0.0501,  0.0238, -0.0542],
+        [-0.0728, -0.0286, -0.0588,  ..., -0.0545,  0.0289,  0.0288]],
+       device='cuda:0'), grad: tensor([[ 5.5172e-06,  1.0524e-06, -3.1739e-05,  ..., -2.7031e-05,
+          7.0892e-06, -5.7340e-05],
+        [ 1.2368e-05,  1.2722e-06,  1.1474e-05,  ..., -3.3192e-06,
+          1.2890e-05,  2.1487e-05],
+        [ 3.0492e-06,  1.2733e-05,  1.4845e-06,  ...,  7.2606e-06,
+          1.9252e-05,  2.7716e-05],
+        ...,
+        [ 2.8443e-06,  5.7332e-06,  1.5192e-05,  ...,  1.0900e-05,
+          7.5847e-06,  2.4796e-05],
+        [ 3.5651e-06,  4.9993e-06,  1.5318e-05,  ...,  8.5160e-06,
+          9.2909e-06,  1.6242e-05],
+        [ 1.2219e-04,  4.1793e-07,  1.1973e-05,  ...,  7.8142e-05,
+          2.6673e-05,  4.9829e-05]], device='cuda:0')
+Epoch 42, bias, value: tensor([-0.0305, -0.0279,  0.0150,  0.0293, -0.0283,  0.0070, -0.0121,  0.0101,
+         0.0184,  0.0014], device='cuda:0'), grad: tensor([-6.8545e-05,  4.0650e-05,  9.4831e-05, -1.8060e-04, -1.6820e-04,
+        -1.0055e-04,  4.1217e-05,  6.8426e-05,  6.1989e-05,  2.1029e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 41, time 214.39, cls_loss 0.0084 cls_loss_mapping 0.0233 cls_loss_causal 0.7036 re_mapping 0.0140 re_causal 0.0463 /// teacc 98.72 lr 0.00010000
+Epoch 43, weight, value: tensor([[-0.0059,  0.0201, -0.0339,  ..., -0.0428, -0.0316,  0.0438],
+        [ 0.0005, -0.0088, -0.0129,  ...,  0.0773, -0.0326, -0.0191],
+        [-0.0063, -0.0250,  0.0883,  ..., -0.0492, -0.0712, -0.0359],
+        ...,
+        [-0.0084, -0.0390, -0.0148,  ...,  0.0159,  0.0400, -0.0029],
+        [-0.0359, -0.0368,  0.0022,  ..., -0.0506,  0.0239, -0.0547],
+        [-0.0734, -0.0286, -0.0601,  ..., -0.0550,  0.0287,  0.0292]],
+       device='cuda:0'), grad: tensor([[ 2.8498e-06,  0.0000e+00, -5.1707e-06,  ...,  2.7388e-05,
+          4.3333e-05,  6.7115e-05],
+        [ 4.1127e-06,  0.0000e+00, -1.3793e-04,  ..., -2.9850e-03,
+          1.8388e-05,  1.3702e-05],
+        [ 2.4661e-06,  0.0000e+00,  1.3089e-04,  ...,  1.7395e-03,
+          2.6554e-05,  4.0233e-05],
+        ...,
+        [ 7.4692e-06,  0.0000e+00, -9.0480e-05,  ...,  3.7885e-04,
+         -1.7226e-04,  6.1691e-06],
+        [ 4.8950e-06,  0.0000e+00,  1.3769e-05,  ...,  6.0022e-05,
+          5.9694e-05,  3.6335e-04],
+        [-2.1827e-04,  0.0000e+00,  2.0400e-05,  ...,  3.4362e-05,
+          5.9903e-05, -7.4673e-04]], device='cuda:0')
+Epoch 43, bias, value: tensor([-0.0304, -0.0280,  0.0154,  0.0292, -0.0284,  0.0071, -0.0122,  0.0097,
+         0.0186,  0.0014], device='cuda:0'), grad: tensor([ 0.0002, -0.0081,  0.0050,  0.0042,  0.0013, -0.0030,  0.0002,  0.0009,
+         0.0006, -0.0014], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 42, time 214.27, cls_loss 0.0117 cls_loss_mapping 0.0308 cls_loss_causal 0.7577 re_mapping 0.0139 re_causal 0.0460 /// teacc 98.78 lr 0.00010000
+Epoch 44, weight, value: tensor([[-0.0062,  0.0200, -0.0327,  ..., -0.0436, -0.0318,  0.0438],
+        [ 0.0002, -0.0089, -0.0145,  ...,  0.0778, -0.0327, -0.0191],
+        [-0.0065, -0.0251,  0.0908,  ..., -0.0502, -0.0716, -0.0352],
+        ...,
+        [-0.0088, -0.0391, -0.0145,  ...,  0.0164,  0.0404, -0.0035],
+        [-0.0359, -0.0373,  0.0014,  ..., -0.0508,  0.0236, -0.0552],
+        [-0.0743, -0.0287, -0.0616,  ..., -0.0558,  0.0286,  0.0296]],
+       device='cuda:0'), grad: tensor([[ 5.8055e-05,  0.0000e+00, -1.4031e-04,  ...,  2.1905e-05,
+          4.7654e-05, -4.1556e-04],
+        [ 1.8156e-04,  0.0000e+00,  3.2455e-05,  ...,  5.8126e-04,
+          2.5797e-04,  1.1750e-05],
+        [ 1.9634e-04,  0.0000e+00, -6.2101e-06,  ...,  2.4962e-04,
+          1.4091e-04,  2.1294e-05],
+        ...,
+        [-1.1730e-04,  0.0000e+00, -6.4135e-04,  ..., -1.7822e-04,
+         -1.7204e-03,  1.5423e-05],
+        [ 1.1623e-04,  0.0000e+00,  2.0847e-05,  ...,  1.4853e-04,
+         -3.5822e-05,  5.0515e-05],
+        [ 1.0294e-04,  0.0000e+00,  4.4495e-05,  ...,  1.0484e-04,
+          1.2648e-04, -1.4707e-05]], device='cuda:0')
+Epoch 44, bias, value: tensor([-0.0307, -0.0283,  0.0158,  0.0294, -0.0283,  0.0073, -0.0120,  0.0100,
+         0.0183,  0.0008], device='cuda:0'), grad: tensor([-0.0004,  0.0011,  0.0007,  0.0003, -0.0056,  0.0004,  0.0062, -0.0029,
+        -0.0004,  0.0004], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 43, time 214.60, cls_loss 0.0095 cls_loss_mapping 0.0265 cls_loss_causal 0.7041 re_mapping 0.0136 re_causal 0.0429 /// teacc 98.85 lr 0.00010000
+Epoch 45, weight, value: tensor([[-0.0064,  0.0200, -0.0314,  ..., -0.0436, -0.0321,  0.0442],
+        [-0.0005, -0.0089, -0.0152,  ...,  0.0783, -0.0331, -0.0193],
+        [-0.0065, -0.0251,  0.0915,  ..., -0.0507, -0.0721, -0.0356],
+        ...,
+        [-0.0092, -0.0407, -0.0149,  ...,  0.0167,  0.0405, -0.0043],
+        [-0.0360, -0.0375,  0.0015,  ..., -0.0512,  0.0235, -0.0555],
+        [-0.0750, -0.0286, -0.0613,  ..., -0.0562,  0.0286,  0.0308]],
+       device='cuda:0'), grad: tensor([[ 1.4424e-05,  0.0000e+00, -2.5153e-05,  ...,  1.2644e-05,
+          3.7670e-05,  2.6315e-05],
+        [ 1.6809e-05,  0.0000e+00,  6.4746e-06,  ..., -4.8846e-05,
+          9.5487e-05,  1.0175e-04],
+        [ 8.4713e-06,  0.0000e+00, -3.3021e-05,  ...,  2.1771e-05,
+          1.0842e-04,  1.0347e-04],
+        ...,
+        [ 1.5222e-05,  0.0000e+00,  6.4783e-06,  ..., -1.2545e-06,
+          1.4618e-05,  2.0742e-04],
+        [ 1.0937e-05,  0.0000e+00,  1.2614e-05,  ...,  1.1563e-05,
+          6.5446e-05,  1.0121e-04],
+        [-5.0306e-04,  0.0000e+00,  1.0423e-05,  ..., -1.8048e-04,
+          8.9407e-05, -1.5888e-03]], device='cuda:0')
+Epoch 45, bias, value: tensor([-0.0305, -0.0286,  0.0155,  0.0295, -0.0283,  0.0073, -0.0123,  0.0095,
+         0.0186,  0.0015], device='cuda:0'), grad: tensor([ 8.1599e-05,  2.7990e-04,  3.4928e-04, -1.1492e-03,  2.7161e-03,
+        -2.8872e-04,  3.0011e-05,  4.6134e-04,  1.7488e-04, -2.6550e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 44----------------------------------------------------
+epoch 44, time 230.66, cls_loss 0.0082 cls_loss_mapping 0.0222 cls_loss_causal 0.7015 re_mapping 0.0133 re_causal 0.0437 /// teacc 98.97 lr 0.00010000
+Epoch 46, weight, value: tensor([[-0.0071,  0.0200, -0.0312,  ..., -0.0442, -0.0323,  0.0443],
+        [-0.0013, -0.0090, -0.0158,  ...,  0.0792, -0.0336, -0.0190],
+        [-0.0063, -0.0252,  0.0933,  ..., -0.0514, -0.0724, -0.0358],
+        ...,
+        [-0.0094, -0.0408, -0.0149,  ...,  0.0164,  0.0411, -0.0046],
+        [-0.0360, -0.0376,  0.0001,  ..., -0.0506,  0.0236, -0.0559],
+        [-0.0754, -0.0286, -0.0620,  ..., -0.0568,  0.0284,  0.0316]],
+       device='cuda:0'), grad: tensor([[-2.0247e-06,  0.0000e+00, -1.4529e-05,  ..., -2.7325e-06,
+          1.4260e-05, -6.5565e-05],
+        [ 1.3024e-05,  0.0000e+00,  3.1799e-05,  ..., -5.7399e-05,
+          3.4332e-05,  1.2472e-05],
+        [ 5.9344e-06,  0.0000e+00,  2.8014e-05,  ...,  1.9640e-05,
+          3.3110e-05,  2.2516e-05],
+        ...,
+        [ 7.7784e-06,  0.0000e+00, -1.8334e-04,  ...,  1.8580e-06,
+         -1.8239e-04, -6.5982e-05],
+        [ 6.6943e-06,  0.0000e+00,  9.5516e-06,  ...,  1.4350e-05,
+          5.1856e-06,  1.9327e-05],
+        [ 1.3739e-05,  0.0000e+00,  3.1769e-05,  ...,  1.0841e-05,
+          2.9847e-05, -1.8373e-05]], device='cuda:0')
+Epoch 46, bias, value: tensor([-0.0308, -0.0286,  0.0158,  0.0294, -0.0287,  0.0070, -0.0125,  0.0096,
+         0.0193,  0.0015], device='cuda:0'), grad: tensor([-3.2067e-05,  1.9535e-05,  1.0538e-04,  1.3721e-04, -3.9525e-06,
+         4.4465e-05,  5.0843e-05, -4.2748e-04,  4.4048e-05,  6.1750e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 45, time 214.58, cls_loss 0.0072 cls_loss_mapping 0.0225 cls_loss_causal 0.6976 re_mapping 0.0126 re_causal 0.0417 /// teacc 98.85 lr 0.00010000
+Epoch 47, weight, value: tensor([[-0.0073,  0.0200, -0.0307,  ..., -0.0441, -0.0326,  0.0449],
+        [-0.0015, -0.0091, -0.0164,  ...,  0.0801, -0.0341, -0.0199],
+        [-0.0066, -0.0251,  0.0946,  ..., -0.0522, -0.0725, -0.0363],
+        ...,
+        [-0.0098, -0.0405, -0.0144,  ...,  0.0164,  0.0417, -0.0044],
+        [-0.0363, -0.0379, -0.0014,  ..., -0.0511,  0.0234, -0.0563],
+        [-0.0758, -0.0291, -0.0628,  ..., -0.0571,  0.0282,  0.0323]],
+       device='cuda:0'), grad: tensor([[ 2.2367e-05,  2.1071e-08, -1.4029e-05,  ...,  3.0339e-05,
+          1.6809e-05,  1.9938e-05],
+        [ 5.4568e-05,  1.5285e-07,  3.1553e-06,  ..., -9.4891e-05,
+          1.5646e-05, -8.3968e-06],
+        [ 7.5459e-05,  9.4180e-08,  1.1444e-05,  ...,  3.5673e-05,
+          2.4766e-05,  2.2113e-05],
+        ...,
+        [ 2.2793e-04,  3.9651e-07,  3.0100e-06,  ...,  8.2374e-05,
+          4.0799e-05,  1.0349e-05],
+        [ 4.7237e-05,  3.9581e-08, -2.4334e-05,  ...,  5.4359e-05,
+          7.4692e-06,  3.6985e-05],
+        [ 3.6001e-04,  3.4715e-07,  1.0639e-05,  ...,  1.3232e-04,
+          3.8922e-05, -4.4048e-05]], device='cuda:0')
+Epoch 47, bias, value: tensor([-0.0307, -0.0286,  0.0159,  0.0292, -0.0289,  0.0071, -0.0127,  0.0102,
+         0.0188,  0.0016], device='cuda:0'), grad: tensor([ 8.0109e-05, -9.6440e-05,  1.6332e-04,  2.3055e-04, -1.1473e-03,
+        -9.6798e-05, -1.3328e-04,  3.1233e-04,  1.0788e-04,  5.8031e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 46, time 214.72, cls_loss 0.0075 cls_loss_mapping 0.0210 cls_loss_causal 0.7203 re_mapping 0.0127 re_causal 0.0426 /// teacc 98.88 lr 0.00010000
+Epoch 48, weight, value: tensor([[-0.0074,  0.0201, -0.0304,  ..., -0.0440, -0.0328,  0.0449],
+        [-0.0021, -0.0091, -0.0168,  ...,  0.0806, -0.0345, -0.0202],
+        [-0.0070, -0.0253,  0.0957,  ..., -0.0526, -0.0725, -0.0369],
+        ...,
+        [-0.0104, -0.0411, -0.0148,  ...,  0.0162,  0.0422, -0.0050],
+        [-0.0366, -0.0381, -0.0015,  ..., -0.0515,  0.0233, -0.0568],
+        [-0.0765, -0.0290, -0.0629,  ..., -0.0574,  0.0280,  0.0333]],
+       device='cuda:0'), grad: tensor([[ 1.7852e-05,  3.7160e-07,  5.5122e-04,  ...,  1.4193e-05,
+          1.4524e-03,  3.9482e-03],
+        [ 1.4573e-05,  1.5879e-07,  3.6843e-06,  ..., -4.6670e-05,
+          2.4587e-05,  3.6955e-05],
+        [ 1.0572e-05,  6.4168e-07,  2.4870e-05,  ...,  1.9848e-05,
+          8.4937e-05,  1.4699e-04],
+        ...,
+        [ 4.3325e-06,  9.0757e-07, -3.3706e-05,  ...,  8.1807e-06,
+         -3.1620e-05,  6.6876e-05],
+        [ 8.8438e-06,  1.2349e-06,  1.4521e-05,  ...,  2.7984e-05,
+          6.0022e-05,  9.4831e-05],
+        [ 7.0259e-06,  4.8196e-07,  4.6104e-05,  ...,  3.5167e-06,
+          1.4925e-04,  3.0208e-04]], device='cuda:0')
+Epoch 48, bias, value: tensor([-0.0307, -0.0286,  0.0156,  0.0291, -0.0288,  0.0071, -0.0126,  0.0100,
+         0.0188,  0.0019], device='cuda:0'), grad: tensor([ 5.7068e-03,  2.9564e-05,  2.9635e-04, -5.5194e-05,  7.1287e-05,
+        -7.2098e-03,  4.3035e-04,  5.6267e-05,  1.6224e-04,  5.1737e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 47, time 214.66, cls_loss 0.0075 cls_loss_mapping 0.0207 cls_loss_causal 0.6672 re_mapping 0.0131 re_causal 0.0413 /// teacc 98.85 lr 0.00010000
+Epoch 49, weight, value: tensor([[-0.0080,  0.0204, -0.0304,  ..., -0.0443, -0.0332,  0.0450],
+        [-0.0022, -0.0092, -0.0177,  ...,  0.0815, -0.0348, -0.0204],
+        [-0.0073, -0.0255,  0.0971,  ..., -0.0527, -0.0729, -0.0373],
+        ...,
+        [-0.0109, -0.0433, -0.0144,  ...,  0.0154,  0.0425, -0.0054],
+        [-0.0367, -0.0386, -0.0028,  ..., -0.0521,  0.0230, -0.0573],
+        [-0.0773, -0.0294, -0.0637,  ..., -0.0581,  0.0277,  0.0336]],
+       device='cuda:0'), grad: tensor([[ 2.4363e-05,  1.6543e-07, -1.7323e-06,  ...,  2.0280e-05,
+          1.0782e-04,  1.6141e-04],
+        [ 4.0323e-05,  4.5099e-07, -5.9128e-04,  ..., -1.0786e-03,
+          1.9938e-05, -1.3039e-05],
+        [ 8.5056e-05,  2.3499e-05,  7.7486e-04,  ...,  8.6880e-04,
+          1.0854e-04,  1.6141e-04],
+        ...,
+        [ 2.8896e-04, -3.9458e-05, -4.0221e-04,  ...,  1.5962e-04,
+         -4.4197e-05,  1.6233e-06],
+        [-1.0468e-05,  2.6799e-07, -6.1274e-05,  ...,  5.3495e-05,
+          2.2089e-04,  4.4131e-04],
+        [ 8.8425e-03,  7.1106e-07,  4.5687e-05,  ...,  2.4164e-04,
+          6.0260e-05,  3.8433e-03]], device='cuda:0')
+Epoch 49, bias, value: tensor([-0.0311, -0.0283,  0.0159,  0.0299, -0.0288,  0.0070, -0.0125,  0.0097,
+         0.0186,  0.0015], device='cuda:0'), grad: tensor([ 0.0008, -0.0019,  0.0023,  0.0008, -0.0133, -0.0037,  0.0008,  0.0003,
+         0.0015,  0.0125], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 48, time 214.72, cls_loss 0.0073 cls_loss_mapping 0.0199 cls_loss_causal 0.6514 re_mapping 0.0125 re_causal 0.0395 /// teacc 98.83 lr 0.00010000
+Epoch 50, weight, value: tensor([[-0.0084,  0.0202, -0.0296,  ..., -0.0445, -0.0335,  0.0454],
+        [-0.0023, -0.0092, -0.0182,  ...,  0.0821, -0.0353, -0.0207],
+        [-0.0074, -0.0254,  0.0982,  ..., -0.0531, -0.0735, -0.0376],
+        ...,
+        [-0.0114, -0.0433, -0.0145,  ...,  0.0153,  0.0430, -0.0056],
+        [-0.0371, -0.0387, -0.0035,  ..., -0.0526,  0.0228, -0.0579],
+        [-0.0787, -0.0290, -0.0649,  ..., -0.0583,  0.0277,  0.0341]],
+       device='cuda:0'), grad: tensor([[ 6.6936e-05,  0.0000e+00, -3.9861e-06,  ...,  9.6142e-05,
+          1.2510e-05, -4.3333e-05],
+        [ 8.0764e-05,  0.0000e+00,  7.4208e-06,  ..., -5.7268e-04,
+          7.9572e-06,  1.1727e-05],
+        [ 4.2677e-04,  0.0000e+00,  5.3227e-05,  ...,  8.7261e-04,
+          1.0639e-05,  3.0696e-05],
+        ...,
+        [ 8.2031e-06,  0.0000e+00,  3.1412e-05,  ...,  7.4804e-05,
+         -6.0916e-05,  2.1290e-06],
+        [ 6.6161e-05,  0.0000e+00,  1.1319e-04,  ...,  1.1677e-04,
+          1.2055e-05,  2.0728e-05],
+        [ 1.7688e-05,  0.0000e+00,  2.1771e-05,  ...,  3.0875e-05,
+          1.8463e-05,  2.2158e-05]], device='cuda:0')
+Epoch 50, bias, value: tensor([-0.0308, -0.0282,  0.0160,  0.0298, -0.0285,  0.0073, -0.0127,  0.0098,
+         0.0181,  0.0014], device='cuda:0'), grad: tensor([ 1.6057e-04, -5.9700e-04,  1.2722e-03,  4.8071e-05,  3.5691e-04,
+         1.2434e-04, -1.9131e-03,  1.0258e-04,  3.1757e-04,  1.2839e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 49, time 214.59, cls_loss 0.0063 cls_loss_mapping 0.0189 cls_loss_causal 0.6648 re_mapping 0.0130 re_causal 0.0395 /// teacc 98.84 lr 0.00010000
+Epoch 51, weight, value: tensor([[-0.0091,  0.0202, -0.0286,  ..., -0.0457, -0.0337,  0.0454],
+        [-0.0027, -0.0093, -0.0184,  ...,  0.0829, -0.0357, -0.0210],
+        [-0.0077, -0.0254,  0.0991,  ..., -0.0538, -0.0736, -0.0380],
+        ...,
+        [-0.0118, -0.0433, -0.0146,  ...,  0.0150,  0.0434, -0.0058],
+        [-0.0377, -0.0388, -0.0043,  ..., -0.0529,  0.0227, -0.0583],
+        [-0.0794, -0.0289, -0.0656,  ..., -0.0588,  0.0275,  0.0345]],
+       device='cuda:0'), grad: tensor([[ 1.4648e-05,  2.5658e-07, -5.6773e-05,  ..., -2.1152e-03,
+          1.1668e-05, -3.3493e-03],
+        [ 2.1830e-05,  1.2608e-07,  2.1219e-05,  ...,  8.5980e-06,
+          8.0466e-06,  2.5138e-05],
+        [ 1.6525e-05,  1.0012e-07, -3.2663e-05,  ...,  1.7211e-05,
+          4.4219e-06,  3.6031e-05],
+        ...,
+        [ 4.0412e-05,  5.2806e-07, -7.6229e-07,  ...,  1.7539e-05,
+         -1.5512e-05,  4.2647e-05],
+        [ 1.2308e-05,  2.9407e-07,  5.3570e-06,  ...,  1.8790e-05,
+          4.8190e-05,  1.0210e-04],
+        [ 3.2753e-05, -2.3600e-06,  8.1137e-06,  ...,  1.1826e-04,
+          4.7743e-05,  2.0802e-05]], device='cuda:0')
+Epoch 51, bias, value: tensor([-0.0312, -0.0281,  0.0158,  0.0299, -0.0288,  0.0075, -0.0124,  0.0096,
+         0.0184,  0.0012], device='cuda:0'), grad: tensor([-3.9978e-03,  9.4116e-05,  6.8069e-05,  2.5749e-04, -1.3554e-04,
+        -3.4094e-04,  3.8013e-03,  1.3971e-04,  1.2100e-04, -6.0573e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 50, time 214.70, cls_loss 0.0055 cls_loss_mapping 0.0192 cls_loss_causal 0.6834 re_mapping 0.0122 re_causal 0.0398 /// teacc 98.83 lr 0.00010000
+Epoch 52, weight, value: tensor([[-0.0095,  0.0202, -0.0288,  ..., -0.0459, -0.0340,  0.0454],
+        [-0.0026, -0.0093, -0.0193,  ...,  0.0839, -0.0360, -0.0213],
+        [-0.0080, -0.0254,  0.1003,  ..., -0.0542, -0.0740, -0.0383],
+        ...,
+        [-0.0121, -0.0433, -0.0144,  ...,  0.0146,  0.0439, -0.0062],
+        [-0.0382, -0.0390, -0.0044,  ..., -0.0536,  0.0226, -0.0587],
+        [-0.0798, -0.0289, -0.0663,  ..., -0.0590,  0.0275,  0.0353]],
+       device='cuda:0'), grad: tensor([[-3.8803e-05,  3.6089e-09, -9.1672e-05,  ...,  1.0908e-05,
+          4.0643e-06, -8.3864e-05],
+        [ 8.2329e-06,  1.2806e-09,  1.7524e-05,  ..., -5.1945e-05,
+          6.9439e-05,  7.5027e-06],
+        [ 1.2137e-05,  9.3132e-10,  8.2105e-06,  ...,  1.5192e-05,
+          2.7984e-05,  2.0340e-05],
+        ...,
+        [-5.4628e-05,  7.2177e-09, -1.3757e-04,  ..., -4.7028e-05,
+         -4.2033e-04, -7.6815e-06],
+        [ 1.6987e-05,  5.0059e-09,  2.7165e-05,  ...,  2.9057e-05,
+          2.0757e-05,  7.0930e-05],
+        [ 8.5235e-06, -6.6822e-08,  1.7703e-05,  ...,  9.2983e-06,
+          3.5554e-05, -1.1110e-04]], device='cuda:0')
+Epoch 52, bias, value: tensor([-0.0315, -0.0277,  0.0157,  0.0299, -0.0290,  0.0075, -0.0124,  0.0096,
+         0.0185,  0.0014], device='cuda:0'), grad: tensor([-1.0473e-04,  6.1989e-05,  9.4116e-05, -6.0111e-05,  3.0828e-04,
+         2.5272e-04,  6.0126e-06, -6.9427e-04,  1.6713e-04, -3.1710e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 51, time 214.63, cls_loss 0.0061 cls_loss_mapping 0.0173 cls_loss_causal 0.6699 re_mapping 0.0118 re_causal 0.0386 /// teacc 98.92 lr 0.00010000
+Epoch 53, weight, value: tensor([[-0.0098,  0.0201, -0.0282,  ..., -0.0459, -0.0342,  0.0456],
+        [-0.0028, -0.0093, -0.0205,  ...,  0.0841, -0.0365, -0.0217],
+        [-0.0082, -0.0255,  0.1014,  ..., -0.0542, -0.0743, -0.0387],
+        ...,
+        [-0.0118, -0.0418, -0.0140,  ...,  0.0150,  0.0445, -0.0065],
+        [-0.0384, -0.0392, -0.0048,  ..., -0.0541,  0.0223, -0.0589],
+        [-0.0805, -0.0288, -0.0667,  ..., -0.0595,  0.0272,  0.0359]],
+       device='cuda:0'), grad: tensor([[ 1.5132e-05,  0.0000e+00, -1.2979e-05,  ...,  5.4576e-06,
+          8.3670e-06, -2.1711e-05],
+        [ 1.4745e-05,  0.0000e+00,  3.7439e-06,  ..., -3.8981e-05,
+          3.0160e-04,  8.1509e-06],
+        [ 7.2494e-06,  0.0000e+00, -1.4998e-05,  ...,  8.1658e-06,
+          1.4402e-05,  1.0461e-05],
+        ...,
+        [ 3.5673e-05,  0.0000e+00, -1.3903e-05,  ...,  1.9655e-05,
+         -4.4894e-04,  8.4937e-05],
+        [ 1.2651e-05,  0.0000e+00,  1.5005e-05,  ...,  1.2912e-05,
+          6.4969e-05,  5.0843e-05],
+        [ 1.5821e-03,  0.0000e+00,  1.1578e-05,  ...,  3.9972e-06,
+         -1.9267e-05,  4.6086e-04]], device='cuda:0')
+Epoch 53, bias, value: tensor([-0.0314, -0.0280,  0.0158,  0.0300, -0.0292,  0.0078, -0.0127,  0.0101,
+         0.0185,  0.0011], device='cuda:0'), grad: tensor([ 1.9670e-05,  6.5708e-04,  5.4091e-05,  1.1110e-04, -2.8038e-03,
+         7.2479e-05, -2.8819e-05, -8.2541e-04,  2.2149e-04,  2.5234e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 52, time 214.62, cls_loss 0.0049 cls_loss_mapping 0.0141 cls_loss_causal 0.6569 re_mapping 0.0116 re_causal 0.0381 /// teacc 98.82 lr 0.00010000
+Epoch 54, weight, value: tensor([[-0.0102,  0.0201, -0.0275,  ..., -0.0461, -0.0344,  0.0459],
+        [-0.0032, -0.0094, -0.0207,  ...,  0.0848, -0.0369, -0.0218],
+        [-0.0083, -0.0255,  0.1020,  ..., -0.0547, -0.0746, -0.0390],
+        ...,
+        [-0.0125, -0.0418, -0.0140,  ...,  0.0145,  0.0448, -0.0068],
+        [-0.0387, -0.0393, -0.0053,  ..., -0.0547,  0.0222, -0.0595],
+        [-0.0812, -0.0288, -0.0672,  ..., -0.0598,  0.0270,  0.0362]],
+       device='cuda:0'), grad: tensor([[ 9.4809e-07,  0.0000e+00, -8.5309e-06,  ...,  1.9614e-06,
+          7.3127e-06,  1.0043e-05],
+        [ 2.7474e-06,  0.0000e+00,  1.4648e-05,  ..., -3.6269e-05,
+          1.3277e-05,  5.3607e-06],
+        [ 1.2629e-06,  0.0000e+00, -7.3671e-05,  ...,  6.4448e-06,
+          2.2367e-05,  2.2143e-05],
+        ...,
+        [ 2.3432e-06,  0.0000e+00,  3.0136e-04,  ...,  9.7379e-06,
+          4.7874e-04,  2.3878e-04],
+        [ 1.5926e-06,  0.0000e+00,  1.5795e-05,  ...,  9.9465e-06,
+          1.2197e-05,  2.1532e-05],
+        [ 2.7514e-04,  0.0000e+00, -4.5210e-05,  ...,  3.7968e-05,
+          3.3360e-06, -1.1820e-04]], device='cuda:0')
+Epoch 54, bias, value: tensor([-0.0312, -0.0276,  0.0154,  0.0300, -0.0288,  0.0078, -0.0129,  0.0099,
+         0.0184,  0.0009], device='cuda:0'), grad: tensor([ 1.9565e-05,  1.6182e-07,  4.3869e-05, -1.1988e-03, -3.3331e-04,
+         2.2709e-05,  2.1785e-05,  1.2245e-03,  6.3837e-05,  1.3697e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 53, time 214.37, cls_loss 0.0053 cls_loss_mapping 0.0160 cls_loss_causal 0.6427 re_mapping 0.0121 re_causal 0.0377 /// teacc 98.75 lr 0.00010000
+Epoch 55, weight, value: tensor([[-0.0104,  0.0200, -0.0272,  ..., -0.0463, -0.0345,  0.0461],
+        [-0.0038, -0.0094, -0.0216,  ...,  0.0851, -0.0372, -0.0241],
+        [-0.0085, -0.0256,  0.1034,  ..., -0.0549, -0.0750, -0.0392],
+        ...,
+        [-0.0133, -0.0420, -0.0140,  ...,  0.0141,  0.0454, -0.0068],
+        [-0.0390, -0.0394, -0.0064,  ..., -0.0556,  0.0220, -0.0598],
+        [-0.0818, -0.0288, -0.0678,  ..., -0.0588,  0.0266,  0.0370]],
+       device='cuda:0'), grad: tensor([[ 1.4976e-06,  0.0000e+00, -2.0266e-05,  ...,  3.2298e-06,
+          1.1213e-06, -1.8835e-05],
+        [ 2.2203e-06,  0.0000e+00,  6.7577e-06,  ..., -2.5168e-05,
+          3.4180e-06,  3.1404e-06],
+        [ 1.7956e-06,  0.0000e+00,  7.2658e-05,  ...,  1.0423e-05,
+          4.7684e-06,  7.4543e-06],
+        ...,
+        [ 5.7230e-07,  0.0000e+00,  3.7346e-06,  ...,  7.7784e-06,
+         -3.9935e-06,  1.3024e-05],
+        [ 9.4390e-07,  0.0000e+00, -1.3041e-04,  ...,  4.7497e-06,
+         -6.2168e-05,  5.1223e-06],
+        [ 8.2701e-06,  0.0000e+00,  3.3885e-05,  ...,  5.0589e-06,
+          1.4668e-06, -3.5197e-05]], device='cuda:0')
+Epoch 55, bias, value: tensor([-0.0312, -0.0282,  0.0158,  0.0298, -0.0284,  0.0080, -0.0128,  0.0100,
+         0.0181,  0.0010], device='cuda:0'), grad: tensor([-2.5839e-05,  4.2878e-06,  2.0993e-04,  3.4952e-04,  1.5572e-05,
+         1.7619e-04, -2.0638e-05,  3.1233e-05, -8.0299e-04,  6.2406e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 54, time 214.65, cls_loss 0.0088 cls_loss_mapping 0.0218 cls_loss_causal 0.6801 re_mapping 0.0115 re_causal 0.0362 /// teacc 98.82 lr 0.00010000
+Epoch 56, weight, value: tensor([[-0.0110,  0.0200, -0.0266,  ..., -0.0467, -0.0349,  0.0461],
+        [-0.0043, -0.0094, -0.0224,  ...,  0.0855, -0.0377, -0.0244],
+        [-0.0086, -0.0256,  0.1048,  ..., -0.0551, -0.0756, -0.0395],
+        ...,
+        [-0.0134, -0.0428, -0.0145,  ...,  0.0133,  0.0458, -0.0075],
+        [-0.0394, -0.0396, -0.0072,  ..., -0.0559,  0.0217, -0.0606],
+        [-0.0826, -0.0286, -0.0673,  ..., -0.0592,  0.0268,  0.0375]],
+       device='cuda:0'), grad: tensor([[ 4.4815e-06,  0.0000e+00, -7.6294e-06,  ...,  1.2361e-05,
+          2.6286e-05, -1.9550e-05],
+        [ 1.0878e-05,  0.0000e+00, -4.2272e-04,  ..., -1.1101e-03,
+          7.2098e-04,  2.9653e-05],
+        [ 2.8964e-06,  0.0000e+00,  1.0338e-03,  ...,  1.9569e-03,
+          1.4839e-03,  2.0608e-05],
+        ...,
+        [ 2.4468e-05,  0.0000e+00, -1.0281e-03,  ..., -1.3189e-03,
+         -3.6850e-03, -1.2897e-05],
+        [ 2.1696e-05,  0.0000e+00,  7.1347e-05,  ...,  1.6487e-04,
+          4.7135e-04,  3.5644e-05],
+        [-5.0038e-05,  0.0000e+00,  1.0663e-04,  ...,  2.9370e-05,
+          4.1866e-04, -6.9571e-04]], device='cuda:0')
+Epoch 56, bias, value: tensor([-0.0315, -0.0285,  0.0159,  0.0302, -0.0278,  0.0078, -0.0126,  0.0095,
+         0.0179,  0.0011], device='cuda:0'), grad: tensor([ 6.2346e-05,  1.5664e-04,  6.3400e-03,  1.0605e-03,  1.1158e-03,
+         3.3331e-04,  1.0043e-04, -1.0155e-02,  1.2093e-03, -2.2638e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 55, time 214.59, cls_loss 0.0066 cls_loss_mapping 0.0176 cls_loss_causal 0.6638 re_mapping 0.0117 re_causal 0.0374 /// teacc 98.80 lr 0.00010000
+Epoch 57, weight, value: tensor([[-0.0114,  0.0199, -0.0259,  ..., -0.0468, -0.0351,  0.0466],
+        [-0.0057, -0.0095, -0.0226,  ...,  0.0866, -0.0382, -0.0241],
+        [-0.0080, -0.0257,  0.1052,  ..., -0.0554, -0.0765, -0.0400],
+        ...,
+        [-0.0141, -0.0427, -0.0136,  ...,  0.0128,  0.0469, -0.0077],
+        [-0.0399, -0.0397, -0.0074,  ..., -0.0565,  0.0217, -0.0611],
+        [-0.0832, -0.0286, -0.0688,  ..., -0.0596,  0.0265,  0.0381]],
+       device='cuda:0'), grad: tensor([[ 4.1835e-06,  1.2049e-07,  4.4368e-06,  ...,  8.0392e-06,
+          2.7232e-06,  9.6671e-07],
+        [ 1.8194e-05,  2.6054e-07,  1.0008e-04,  ...,  3.3677e-05,
+          3.6657e-05,  5.6364e-06],
+        [ 1.0461e-04,  4.7730e-07, -2.5225e-04,  ..., -5.3272e-06,
+          7.7710e-06,  3.8855e-06],
+        ...,
+        [ 1.1310e-05,  9.4250e-07, -1.1154e-05,  ..., -1.2264e-05,
+         -5.0038e-05,  1.9833e-05],
+        [ 4.1015e-06,  1.2910e-07,  2.6271e-05,  ...,  1.2666e-05,
+          3.2745e-06,  2.7139e-06],
+        [ 1.7494e-05,  1.0440e-06,  7.3686e-06,  ...,  1.0826e-05,
+          1.8060e-05,  1.7166e-05]], device='cuda:0')
+Epoch 57, bias, value: tensor([-0.0315, -0.0280,  0.0154,  0.0298, -0.0276,  0.0079, -0.0130,  0.0100,
+         0.0178,  0.0011], device='cuda:0'), grad: tensor([ 5.4866e-05,  2.5678e-04, -2.0111e-04, -1.0377e-04, -2.3341e-04,
+         1.9535e-05,  9.9242e-05,  2.2650e-06, -3.8654e-05,  1.4412e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 56, time 214.82, cls_loss 0.0082 cls_loss_mapping 0.0246 cls_loss_causal 0.6794 re_mapping 0.0113 re_causal 0.0365 /// teacc 98.90 lr 0.00010000
+Epoch 58, weight, value: tensor([[-0.0119,  0.0202, -0.0251,  ..., -0.0450, -0.0353,  0.0462],
+        [-0.0064, -0.0096, -0.0239,  ...,  0.0866, -0.0388, -0.0247],
+        [-0.0084, -0.0257,  0.1061,  ..., -0.0560, -0.0768, -0.0403],
+        ...,
+        [-0.0147, -0.0429, -0.0133,  ...,  0.0124,  0.0474, -0.0080],
+        [-0.0404, -0.0404, -0.0081,  ..., -0.0577,  0.0212, -0.0621],
+        [-0.0839, -0.0280, -0.0683,  ..., -0.0602,  0.0263,  0.0393]],
+       device='cuda:0'), grad: tensor([[ 3.6621e-03,  0.0000e+00,  2.7835e-05,  ...,  3.7766e-03,
+          6.5640e-06,  4.4022e-03],
+        [ 1.1957e-04,  0.0000e+00,  1.6376e-05,  ..., -1.4772e-03,
+         -2.0278e-04,  7.6652e-05],
+        [ 6.4850e-05,  0.0000e+00, -2.4986e-04,  ...,  5.8085e-05,
+          5.1185e-06,  6.3598e-05],
+        ...,
+        [ 7.7128e-05,  0.0000e+00, -1.1818e-06,  ...,  1.5717e-03,
+          1.8334e-04,  1.1683e-04],
+        [ 1.4436e-04,  0.0000e+00,  6.6817e-05,  ...,  1.6487e-04,
+          2.1055e-05,  1.9038e-04],
+        [ 9.1028e-04,  0.0000e+00,  3.5584e-05,  ...,  4.1747e-04,
+         -1.6481e-05,  2.6011e-04]], device='cuda:0')
+Epoch 58, bias, value: tensor([-0.0315, -0.0284,  0.0153,  0.0299, -0.0273,  0.0078, -0.0132,  0.0100,
+         0.0179,  0.0014], device='cuda:0'), grad: tensor([ 0.0094, -0.0016, -0.0002,  0.0001, -0.0016,  0.0016, -0.0118,  0.0020,
+         0.0005,  0.0015], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 57, time 214.51, cls_loss 0.0059 cls_loss_mapping 0.0180 cls_loss_causal 0.6809 re_mapping 0.0110 re_causal 0.0370 /// teacc 98.93 lr 0.00010000
+Epoch 59, weight, value: tensor([[-0.0131,  0.0209, -0.0242,  ..., -0.0460, -0.0354,  0.0464],
+        [-0.0069, -0.0096, -0.0242,  ...,  0.0866, -0.0393, -0.0253],
+        [-0.0086, -0.0256,  0.1069,  ..., -0.0565, -0.0771, -0.0407],
+        ...,
+        [-0.0153, -0.0429, -0.0130,  ...,  0.0125,  0.0479, -0.0084],
+        [-0.0404, -0.0405, -0.0086,  ..., -0.0578,  0.0210, -0.0627],
+        [-0.0849, -0.0280, -0.0693,  ..., -0.0607,  0.0263,  0.0400]],
+       device='cuda:0'), grad: tensor([[-2.4378e-05,  0.0000e+00, -1.0151e-06,  ..., -2.6390e-05,
+          1.9986e-06, -1.3936e-04],
+        [ 7.4357e-06,  0.0000e+00,  9.5740e-06,  ..., -2.0981e-04,
+          8.2701e-06,  2.1443e-05],
+        [ 7.3649e-06,  0.0000e+00, -5.1641e-04,  ...,  5.3287e-05,
+          3.8017e-06,  1.6049e-05],
+        ...,
+        [ 6.3740e-06,  0.0000e+00, -9.9689e-06,  ...,  2.6882e-05,
+         -2.2888e-05,  4.8354e-06],
+        [-1.3657e-05,  0.0000e+00,  1.7023e-04,  ..., -1.8328e-05,
+          5.2080e-06, -4.3213e-05],
+        [ 2.1338e-04,  0.0000e+00,  8.9109e-06,  ...,  2.9519e-05,
+          1.1668e-05,  1.8165e-05]], device='cuda:0')
+Epoch 59, bias, value: tensor([-0.0317, -0.0290,  0.0150,  0.0293, -0.0270,  0.0076, -0.0122,  0.0102,
+         0.0185,  0.0013], device='cuda:0'), grad: tensor([-1.4329e-04,  3.8415e-05, -8.4591e-04,  9.4652e-04, -6.2920e-06,
+        -1.1992e-04,  1.1897e-04,  2.4706e-05, -3.4070e-04,  3.2735e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 58----------------------------------------------------
+epoch 58, time 230.85, cls_loss 0.0047 cls_loss_mapping 0.0146 cls_loss_causal 0.6211 re_mapping 0.0109 re_causal 0.0351 /// teacc 99.03 lr 0.00010000
+Epoch 60, weight, value: tensor([[-0.0135,  0.0209, -0.0241,  ..., -0.0463, -0.0356,  0.0465],
+        [-0.0080, -0.0096, -0.0248,  ...,  0.0874, -0.0396, -0.0259],
+        [-0.0080, -0.0256,  0.1079,  ..., -0.0568, -0.0773, -0.0410],
+        ...,
+        [-0.0156, -0.0429, -0.0128,  ...,  0.0122,  0.0482, -0.0079],
+        [-0.0407, -0.0406, -0.0087,  ..., -0.0586,  0.0209, -0.0634],
+        [-0.0854, -0.0280, -0.0707,  ..., -0.0611,  0.0260,  0.0404]],
+       device='cuda:0'), grad: tensor([[ 6.7532e-05,  2.7881e-08, -2.6003e-06,  ...,  7.9215e-05,
+          6.9253e-06,  1.0848e-05],
+        [ 5.3108e-05,  2.4389e-08,  2.5220e-06,  ...,  4.9859e-05,
+          3.0585e-06,  2.7530e-06],
+        [ 4.1455e-05,  4.7963e-08, -3.0100e-06,  ...,  5.8949e-05,
+          4.9062e-06,  9.3356e-06],
+        ...,
+        [ 1.6555e-05,  2.6496e-07, -4.8466e-06,  ...,  1.0014e-05,
+         -1.0736e-05,  5.5172e-06],
+        [ 3.0756e-05,  7.7940e-08, -2.4498e-05,  ...,  3.7283e-05,
+          1.0759e-05,  1.1541e-05],
+        [ 4.7237e-05, -3.8929e-07,  1.8165e-05,  ...,  4.1872e-05,
+          3.7476e-06,  1.3813e-05]], device='cuda:0')
+Epoch 60, bias, value: tensor([-0.0319, -0.0290,  0.0153,  0.0293, -0.0268,  0.0076, -0.0122,  0.0104,
+         0.0183,  0.0009], device='cuda:0'), grad: tensor([ 2.3842e-04,  1.5199e-04,  1.7333e-04, -3.0160e-04,  8.4352e-04,
+         2.6894e-04, -1.6394e-03,  2.4572e-05,  7.3135e-05,  1.6844e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 59, time 214.86, cls_loss 0.0066 cls_loss_mapping 0.0189 cls_loss_causal 0.6634 re_mapping 0.0108 re_causal 0.0360 /// teacc 98.99 lr 0.00010000
+Epoch 61, weight, value: tensor([[-0.0139,  0.0204, -0.0237,  ..., -0.0465, -0.0358,  0.0469],
+        [-0.0083, -0.0098, -0.0254,  ...,  0.0881, -0.0400, -0.0261],
+        [-0.0080, -0.0251,  0.1090,  ..., -0.0572, -0.0777, -0.0417],
+        ...,
+        [-0.0160, -0.0436, -0.0129,  ...,  0.0118,  0.0487, -0.0084],
+        [-0.0409, -0.0422, -0.0095,  ..., -0.0593,  0.0205, -0.0639],
+        [-0.0859, -0.0284, -0.0713,  ..., -0.0614,  0.0259,  0.0408]],
+       device='cuda:0'), grad: tensor([[ 1.3486e-05,  0.0000e+00, -1.4221e-06,  ...,  3.6657e-05,
+          1.8686e-05,  5.2124e-05],
+        [ 5.5246e-06,  0.0000e+00,  7.6890e-06,  ..., -5.0068e-05,
+          8.5384e-06,  5.9120e-06],
+        [ 3.4925e-06,  0.0000e+00,  4.0114e-05,  ...,  1.5482e-05,
+          2.3678e-05,  3.2298e-06],
+        ...,
+        [ 3.6210e-06,  0.0000e+00, -5.0694e-05,  ...,  2.1875e-05,
+         -4.5568e-05,  1.6138e-05],
+        [ 6.9998e-06,  0.0000e+00, -2.6777e-05,  ...,  1.0371e-05,
+         -1.5423e-05,  7.5996e-05],
+        [ 5.7556e-06,  0.0000e+00,  5.9046e-06,  ...,  1.0870e-05,
+          1.3202e-05, -8.1062e-05]], device='cuda:0')
+Epoch 61, bias, value: tensor([-0.0317, -0.0289,  0.0152,  0.0302, -0.0272,  0.0071, -0.0122,  0.0102,
+         0.0183,  0.0009], device='cuda:0'), grad: tensor([ 1.1271e-04, -3.9428e-05,  1.2541e-04,  1.0014e-04,  6.0230e-05,
+         1.4305e-03, -1.6127e-03, -1.3404e-05, -7.3195e-05, -9.0659e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 60, time 214.61, cls_loss 0.0050 cls_loss_mapping 0.0144 cls_loss_causal 0.6244 re_mapping 0.0106 re_causal 0.0338 /// teacc 98.76 lr 0.00010000
+Epoch 62, weight, value: tensor([[-0.0143,  0.0202, -0.0227,  ..., -0.0469, -0.0359,  0.0470],
+        [-0.0085, -0.0099, -0.0258,  ...,  0.0890, -0.0404, -0.0263],
+        [-0.0084, -0.0251,  0.1103,  ..., -0.0578, -0.0778, -0.0422],
+        ...,
+        [-0.0167, -0.0443, -0.0135,  ...,  0.0112,  0.0491, -0.0093],
+        [-0.0411, -0.0429, -0.0104,  ..., -0.0596,  0.0205, -0.0643],
+        [-0.0866, -0.0287, -0.0714,  ..., -0.0620,  0.0257,  0.0417]],
+       device='cuda:0'), grad: tensor([[ 5.6475e-05,  4.0163e-08,  7.0751e-05,  ...,  4.1462e-06,
+          1.9111e-06,  2.8586e-04],
+        [ 3.2745e-06,  7.8406e-08,  9.1866e-06,  ..., -2.2903e-05,
+          5.1372e-06,  3.0369e-05],
+        [ 7.8008e-06,  1.2270e-07,  5.8450e-06,  ...,  8.5309e-06,
+          2.0079e-06,  3.8624e-05],
+        ...,
+        [ 6.1207e-06, -7.0175e-07,  2.7046e-06,  ...,  3.5018e-07,
+         -1.4126e-05,  4.1336e-05],
+        [ 1.0028e-05,  3.5448e-08,  1.3776e-05,  ...,  1.4685e-05,
+          6.4112e-06,  5.6684e-05],
+        [-1.4687e-04, -2.7078e-07, -2.0504e-04,  ...,  1.1371e-06,
+          1.9930e-07, -7.6818e-04]], device='cuda:0')
+Epoch 62, bias, value: tensor([-0.0318, -0.0287,  0.0154,  0.0306, -0.0269,  0.0070, -0.0127,  0.0096,
+         0.0184,  0.0010], device='cuda:0'), grad: tensor([ 6.0797e-04,  5.6088e-05,  9.4593e-05, -8.8263e-04,  6.2656e-04,
+         8.4925e-04,  2.6301e-05,  6.0022e-05,  1.0520e-04, -1.5430e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 61, time 214.24, cls_loss 0.0049 cls_loss_mapping 0.0152 cls_loss_causal 0.6451 re_mapping 0.0104 re_causal 0.0338 /// teacc 98.85 lr 0.00010000
+Epoch 63, weight, value: tensor([[-0.0146,  0.0205, -0.0225,  ..., -0.0471, -0.0361,  0.0469],
+        [-0.0089, -0.0099, -0.0266,  ...,  0.0894, -0.0413, -0.0271],
+        [-0.0086, -0.0251,  0.1115,  ..., -0.0579, -0.0785, -0.0424],
+        ...,
+        [-0.0173, -0.0442, -0.0135,  ...,  0.0108,  0.0498, -0.0092],
+        [-0.0416, -0.0430, -0.0111,  ..., -0.0601,  0.0205, -0.0647],
+        [-0.0873, -0.0287, -0.0722,  ..., -0.0624,  0.0254,  0.0420]],
+       device='cuda:0'), grad: tensor([[ 8.2701e-06,  0.0000e+00, -3.6638e-06,  ...,  5.8636e-06,
+          3.2820e-06, -1.3001e-05],
+        [ 5.9903e-06,  0.0000e+00,  2.6505e-06,  ..., -3.2037e-05,
+          9.8646e-06,  2.2519e-06],
+        [ 1.1846e-05,  0.0000e+00,  1.0207e-06,  ...,  2.1920e-05,
+          4.5188e-06,  2.0470e-06],
+        ...,
+        [ 1.1742e-05,  0.0000e+00, -1.2621e-05,  ...,  1.3649e-05,
+         -3.0935e-05,  1.1347e-05],
+        [ 1.5825e-05,  0.0000e+00,  8.3633e-07,  ...,  1.1697e-05,
+          1.5721e-05,  1.9714e-05],
+        [ 1.0461e-05,  0.0000e+00,  4.1015e-06,  ...,  6.8322e-06,
+          1.3135e-05, -4.8608e-05]], device='cuda:0')
+Epoch 63, bias, value: tensor([-0.0322, -0.0291,  0.0157,  0.0305, -0.0267,  0.0073, -0.0124,  0.0098,
+         0.0185,  0.0006], device='cuda:0'), grad: tensor([ 6.0871e-06, -8.7619e-06,  4.2826e-05,  1.5691e-05, -2.8789e-05,
+        -9.7275e-05,  5.5134e-05, -2.1577e-05,  7.1466e-05, -3.4750e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 62, time 214.53, cls_loss 0.0037 cls_loss_mapping 0.0127 cls_loss_causal 0.6240 re_mapping 0.0104 re_causal 0.0334 /// teacc 98.98 lr 0.00010000
+Epoch 64, weight, value: tensor([[-0.0146,  0.0205, -0.0222,  ..., -0.0472, -0.0364,  0.0471],
+        [-0.0091, -0.0099, -0.0269,  ...,  0.0902, -0.0417, -0.0275],
+        [-0.0088, -0.0250,  0.1121,  ..., -0.0582, -0.0789, -0.0427],
+        ...,
+        [-0.0177, -0.0442, -0.0131,  ...,  0.0107,  0.0504, -0.0094],
+        [-0.0419, -0.0430, -0.0113,  ..., -0.0605,  0.0204, -0.0651],
+        [-0.0876, -0.0286, -0.0723,  ..., -0.0629,  0.0252,  0.0427]],
+       device='cuda:0'), grad: tensor([[ 3.1255e-06,  0.0000e+00,  4.5705e-07,  ...,  3.8370e-06,
+          1.8291e-06,  4.6752e-06],
+        [ 4.5747e-06,  0.0000e+00,  5.8115e-06,  ..., -2.8368e-06,
+          1.5702e-06,  3.0119e-06],
+        [ 2.8536e-06,  0.0000e+00, -4.5538e-05,  ...,  1.4221e-06,
+          1.8179e-06,  3.0492e-06],
+        ...,
+        [ 3.8855e-06,  0.0000e+00, -9.7696e-07,  ...,  1.4594e-06,
+         -2.0154e-06,  3.8028e-05],
+        [ 1.9103e-05,  0.0000e+00,  7.1675e-06,  ...,  2.5630e-06,
+         -8.0541e-06,  5.6624e-05],
+        [-1.2219e-05,  0.0000e+00,  3.8669e-06,  ...,  3.5837e-06,
+          3.7421e-06, -1.6189e-04]], device='cuda:0')
+Epoch 64, bias, value: tensor([-0.0322, -0.0289,  0.0154,  0.0305, -0.0270,  0.0072, -0.0127,  0.0101,
+         0.0186,  0.0007], device='cuda:0'), grad: tensor([ 1.8656e-05,  1.5825e-05, -4.9323e-05,  7.2122e-05,  3.6180e-05,
+         9.4175e-06,  8.3745e-06,  6.8903e-05,  1.2934e-04, -3.0947e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 63, time 214.32, cls_loss 0.0043 cls_loss_mapping 0.0131 cls_loss_causal 0.6234 re_mapping 0.0099 re_causal 0.0322 /// teacc 98.85 lr 0.00010000
+Epoch 65, weight, value: tensor([[-0.0150,  0.0205, -0.0216,  ..., -0.0472, -0.0366,  0.0473],
+        [-0.0094, -0.0099, -0.0278,  ...,  0.0909, -0.0415, -0.0281],
+        [-0.0091, -0.0250,  0.1124,  ..., -0.0583, -0.0794, -0.0431],
+        ...,
+        [-0.0183, -0.0442, -0.0119,  ...,  0.0100,  0.0507, -0.0097],
+        [-0.0424, -0.0430, -0.0120,  ..., -0.0610,  0.0203, -0.0655],
+        [-0.0884, -0.0286, -0.0730,  ..., -0.0634,  0.0250,  0.0432]],
+       device='cuda:0'), grad: tensor([[ 2.9057e-06,  2.4331e-08, -1.6004e-05,  ...,  2.1234e-05,
+          1.1496e-05, -1.5840e-05],
+        [ 1.3612e-05,  5.4133e-09, -1.5569e-04,  ..., -1.6193e-03,
+         -7.6723e-04, -5.1498e-04],
+        [ 8.6427e-05,  8.9640e-09, -4.6253e-05,  ...,  6.3717e-05,
+          4.9978e-05,  1.7539e-05],
+        ...,
+        [ 7.9811e-05,  2.6776e-08,  1.2076e-04,  ...,  1.2980e-03,
+          5.9175e-04,  4.2582e-04],
+        [ 4.6492e-06,  5.5297e-08,  1.4260e-05,  ...,  1.3284e-05,
+          2.9191e-05,  4.5002e-05],
+        [ 1.3031e-05, -3.9348e-07,  1.6898e-05,  ...,  6.6936e-05,
+          3.6657e-05, -1.0848e-04]], device='cuda:0')
+Epoch 65, bias, value: tensor([-0.0321, -0.0287,  0.0152,  0.0303, -0.0267,  0.0072, -0.0126,  0.0102,
+         0.0186,  0.0005], device='cuda:0'), grad: tensor([ 3.4660e-05, -4.9629e-03,  1.5831e-04,  7.7724e-05,  4.6682e-04,
+        -3.6985e-05,  6.4492e-05,  4.0054e-03,  1.3149e-04,  5.8115e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 64, time 214.40, cls_loss 0.0047 cls_loss_mapping 0.0131 cls_loss_causal 0.6064 re_mapping 0.0101 re_causal 0.0312 /// teacc 98.99 lr 0.00010000
+Epoch 66, weight, value: tensor([[-0.0153,  0.0204, -0.0213,  ..., -0.0473, -0.0369,  0.0476],
+        [-0.0106, -0.0100, -0.0283,  ...,  0.0918, -0.0417, -0.0288],
+        [-0.0084, -0.0249,  0.1130,  ..., -0.0594, -0.0800, -0.0433],
+        ...,
+        [-0.0187, -0.0443, -0.0111,  ...,  0.0103,  0.0515, -0.0102],
+        [-0.0428, -0.0432, -0.0126,  ..., -0.0617,  0.0200, -0.0662],
+        [-0.0891, -0.0287, -0.0737,  ..., -0.0634,  0.0248,  0.0442]],
+       device='cuda:0'), grad: tensor([[ 6.7195e-07,  0.0000e+00,  1.4894e-05,  ...,  9.1791e-06,
+          9.3784e-07,  1.0341e-05],
+        [ 3.1292e-06,  0.0000e+00,  7.9423e-06,  ..., -8.0466e-05,
+          1.6475e-06, -1.1481e-05],
+        [ 8.9221e-07,  0.0000e+00, -1.1903e-04,  ...,  3.2876e-06,
+          1.2163e-06, -8.1584e-06],
+        ...,
+        [ 3.6545e-06,  0.0000e+00,  1.9908e-05,  ...,  1.3210e-05,
+         -3.5726e-06,  8.8960e-06],
+        [ 1.4007e-06,  0.0000e+00, -1.2547e-05,  ...,  9.3728e-06,
+          2.5854e-06, -4.3288e-06],
+        [ 2.1785e-05,  0.0000e+00,  2.2739e-05,  ...,  3.7313e-05,
+          5.5991e-06, -2.7701e-05]], device='cuda:0')
+Epoch 66, bias, value: tensor([-0.0321, -0.0287,  0.0147,  0.0303, -0.0269,  0.0072, -0.0127,  0.0109,
+         0.0182,  0.0008], device='cuda:0'), grad: tensor([ 6.9082e-05, -7.7248e-05, -1.6582e-04,  4.4942e-05,  1.9342e-05,
+         5.8502e-05,  4.3847e-06,  5.9158e-05, -1.8322e-04,  1.7071e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 65, time 214.57, cls_loss 0.0048 cls_loss_mapping 0.0134 cls_loss_causal 0.6791 re_mapping 0.0093 re_causal 0.0315 /// teacc 99.00 lr 0.00010000
+Epoch 67, weight, value: tensor([[-0.0154,  0.0204, -0.0207,  ..., -0.0472, -0.0371,  0.0478],
+        [-0.0109, -0.0100, -0.0285,  ...,  0.0923, -0.0424, -0.0291],
+        [-0.0087, -0.0250,  0.1145,  ..., -0.0601, -0.0802, -0.0435],
+        ...,
+        [-0.0193, -0.0437, -0.0114,  ...,  0.0103,  0.0522, -0.0104],
+        [-0.0433, -0.0432, -0.0132,  ..., -0.0620,  0.0198, -0.0667],
+        [-0.0905, -0.0287, -0.0743,  ..., -0.0640,  0.0244,  0.0445]],
+       device='cuda:0'), grad: tensor([[ 2.0899e-06,  0.0000e+00, -3.1680e-05,  ..., -7.0408e-06,
+          5.7071e-06, -1.8334e-04],
+        [ 9.0757e-07,  0.0000e+00,  3.9846e-05,  ..., -2.1088e-04,
+          2.2635e-05,  1.3143e-05],
+        [ 1.3104e-06,  0.0000e+00, -1.0264e-04,  ...,  7.3671e-05,
+          9.0674e-06,  2.5049e-05],
+        ...,
+        [ 3.2107e-07,  0.0000e+00, -7.3075e-05,  ...,  5.9932e-05,
+         -8.5771e-05, -2.7254e-05],
+        [ 1.4380e-06,  0.0000e+00,  2.5287e-05,  ...,  1.4715e-05,
+          4.6380e-06,  3.0026e-05],
+        [ 2.1774e-06,  0.0000e+00,  3.6836e-05,  ...,  7.3425e-06,
+          3.8207e-05,  3.6478e-05]], device='cuda:0')
+Epoch 67, bias, value: tensor([-0.0318, -0.0292,  0.0150,  0.0307, -0.0262,  0.0065, -0.0125,  0.0112,
+         0.0182,  0.0001], device='cuda:0'), grad: tensor([-3.3212e-04, -1.9431e-04,  1.8954e-05, -1.5044e-04,  6.8188e-05,
+         2.3508e-04,  2.5558e-04, -1.8775e-04,  1.0860e-04,  1.7822e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 66, time 214.39, cls_loss 0.0053 cls_loss_mapping 0.0157 cls_loss_causal 0.6377 re_mapping 0.0098 re_causal 0.0313 /// teacc 98.89 lr 0.00010000
+Epoch 68, weight, value: tensor([[-0.0161,  0.0204, -0.0198,  ..., -0.0474, -0.0374,  0.0481],
+        [-0.0114, -0.0100, -0.0292,  ...,  0.0940, -0.0427, -0.0292],
+        [-0.0090, -0.0249,  0.1149,  ..., -0.0605, -0.0806, -0.0440],
+        ...,
+        [-0.0198, -0.0437, -0.0106,  ...,  0.0084,  0.0528, -0.0109],
+        [-0.0438, -0.0433, -0.0132,  ..., -0.0626,  0.0195, -0.0675],
+        [-0.0904, -0.0287, -0.0754,  ..., -0.0644,  0.0243,  0.0453]],
+       device='cuda:0'), grad: tensor([[ 2.7195e-07,  0.0000e+00, -5.2422e-05,  ...,  1.1645e-05,
+          1.1483e-06, -6.8545e-05],
+        [ 4.5309e-07,  0.0000e+00,  9.9912e-06,  ..., -1.7464e-05,
+          3.1311e-06,  3.6359e-06],
+        [ 7.4564e-08,  0.0000e+00, -4.6343e-05,  ...,  1.7527e-06,
+          2.0545e-06,  6.8992e-06],
+        ...,
+        [ 5.0664e-07,  0.0000e+00,  6.5751e-07,  ...,  9.5926e-07,
+         -9.0301e-06,  1.0669e-05],
+        [ 3.7951e-07,  0.0000e+00,  2.1830e-05,  ...,  1.0803e-05,
+          1.3057e-06,  2.4036e-05],
+        [-1.5339e-06,  0.0000e+00,  1.1604e-06,  ...,  1.3439e-06,
+          2.7777e-07, -2.6390e-05]], device='cuda:0')
+Epoch 68, bias, value: tensor([-0.0318, -0.0280,  0.0145,  0.0303, -0.0270,  0.0067, -0.0121,  0.0107,
+         0.0185,  0.0003], device='cuda:0'), grad: tensor([-1.0133e-04,  1.0759e-05, -3.1590e-05, -1.5318e-05,  2.6852e-05,
+         3.7491e-05,  9.6932e-06,  1.0364e-05,  8.6010e-05, -3.2693e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 67, time 214.56, cls_loss 0.0044 cls_loss_mapping 0.0114 cls_loss_causal 0.6227 re_mapping 0.0096 re_causal 0.0311 /// teacc 98.98 lr 0.00010000
+Epoch 69, weight, value: tensor([[-0.0165,  0.0204, -0.0190,  ..., -0.0474, -0.0376,  0.0485],
+        [-0.0119, -0.0100, -0.0295,  ...,  0.0945, -0.0433, -0.0294],
+        [-0.0092, -0.0249,  0.1159,  ..., -0.0611, -0.0812, -0.0442],
+        ...,
+        [-0.0200, -0.0437, -0.0100,  ...,  0.0081,  0.0534, -0.0112],
+        [-0.0438, -0.0433, -0.0141,  ..., -0.0630,  0.0192, -0.0681],
+        [-0.0910, -0.0287, -0.0760,  ..., -0.0651,  0.0241,  0.0457]],
+       device='cuda:0'), grad: tensor([[ 5.3018e-05,  0.0000e+00,  1.2219e-05,  ...,  7.4983e-05,
+          1.0826e-05, -1.3402e-06],
+        [-1.6868e-04,  0.0000e+00, -4.3325e-06,  ..., -4.8971e-04,
+          2.6271e-05,  1.7313e-06],
+        [ 1.3685e-04,  0.0000e+00,  2.7969e-05,  ...,  3.4595e-04,
+          5.6505e-05,  2.3227e-06],
+        ...,
+        [ 1.8060e-05,  0.0000e+00, -1.8609e-04,  ...,  4.5419e-05,
+         -2.0313e-04,  6.9961e-06],
+        [ 7.1712e-06,  0.0000e+00,  2.3767e-05,  ...,  1.4156e-05,
+          1.8716e-05,  6.6496e-06],
+        [ 6.9678e-05,  0.0000e+00,  5.2124e-05,  ...,  1.3083e-05,
+          5.1469e-05, -1.4715e-05]], device='cuda:0')
+Epoch 69, bias, value: tensor([-3.1470e-02, -2.8339e-02,  1.4176e-02,  3.0584e-02, -2.6885e-02,
+         6.6535e-03, -1.2476e-02,  1.1432e-02,  1.8322e-02, -4.2948e-05],
+       device='cuda:0'), grad: tensor([ 1.5688e-04, -5.0354e-04,  4.8923e-04,  6.9082e-05,  2.5064e-05,
+         5.0575e-05, -2.3139e-04, -4.0603e-04,  6.8963e-05,  2.8110e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 68, time 214.67, cls_loss 0.0041 cls_loss_mapping 0.0124 cls_loss_causal 0.6462 re_mapping 0.0094 re_causal 0.0303 /// teacc 98.94 lr 0.00010000
+Epoch 70, weight, value: tensor([[-0.0172,  0.0203, -0.0181,  ..., -0.0481, -0.0378,  0.0487],
+        [-0.0124, -0.0100, -0.0304,  ...,  0.0951, -0.0437, -0.0296],
+        [-0.0096, -0.0248,  0.1169,  ..., -0.0615, -0.0815, -0.0445],
+        ...,
+        [-0.0203, -0.0437, -0.0107,  ...,  0.0077,  0.0537, -0.0118],
+        [-0.0441, -0.0433, -0.0145,  ..., -0.0637,  0.0191, -0.0685],
+        [-0.0924, -0.0288, -0.0753,  ..., -0.0653,  0.0241,  0.0463]],
+       device='cuda:0'), grad: tensor([[ 1.1288e-05,  0.0000e+00, -2.1216e-06,  ...,  4.3362e-06,
+          2.6096e-06, -1.0550e-05],
+        [ 2.5690e-05,  0.0000e+00,  2.3544e-04,  ...,  3.1978e-05,
+          4.8965e-05,  1.9316e-06],
+        [ 2.3395e-05,  0.0000e+00, -6.0606e-04,  ..., -5.2422e-05,
+          8.3596e-06,  1.0081e-05],
+        ...,
+        [ 1.3089e-04,  0.0000e+00,  1.3900e-04,  ...,  2.0489e-05,
+         -1.1533e-04,  2.1830e-05],
+        [ 4.8816e-05,  0.0000e+00,  7.3016e-05,  ...,  2.5302e-05,
+          2.6852e-05,  8.0690e-06],
+        [ 5.1737e-04,  0.0000e+00,  1.3344e-05,  ...,  2.9325e-05,
+          1.7896e-05, -7.4506e-05]], device='cuda:0')
+Epoch 70, bias, value: tensor([-0.0315, -0.0284,  0.0142,  0.0305, -0.0265,  0.0068, -0.0123,  0.0107,
+         0.0181,  0.0006], device='cuda:0'), grad: tensor([ 1.4484e-05,  4.6372e-04, -6.8855e-04,  2.0742e-04, -1.1730e-03,
+        -5.0455e-05,  6.0260e-05,  1.3292e-04,  2.5463e-04,  7.8106e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 69, time 214.61, cls_loss 0.0041 cls_loss_mapping 0.0103 cls_loss_causal 0.6180 re_mapping 0.0091 re_causal 0.0296 /// teacc 98.97 lr 0.00010000
+Epoch 71, weight, value: tensor([[-0.0178,  0.0203, -0.0178,  ..., -0.0484, -0.0381,  0.0487],
+        [-0.0127, -0.0100, -0.0312,  ...,  0.0956, -0.0442, -0.0301],
+        [-0.0098, -0.0248,  0.1180,  ..., -0.0618, -0.0818, -0.0449],
+        ...,
+        [-0.0206, -0.0437, -0.0106,  ...,  0.0075,  0.0542, -0.0122],
+        [-0.0443, -0.0433, -0.0148,  ..., -0.0643,  0.0187, -0.0691],
+        [-0.0921, -0.0288, -0.0757,  ..., -0.0658,  0.0240,  0.0470]],
+       device='cuda:0'), grad: tensor([[ 8.4862e-06,  0.0000e+00,  1.5851e-06,  ...,  1.1258e-05,
+          3.0212e-06,  5.8226e-06],
+        [ 1.4849e-05,  0.0000e+00,  9.2462e-06,  ..., -8.2282e-07,
+          2.9709e-06,  1.7872e-06],
+        [ 8.2627e-06,  0.0000e+00, -2.0474e-05,  ...,  1.0632e-05,
+          2.7120e-06,  6.1505e-06],
+        ...,
+        [ 8.9929e-06,  0.0000e+00,  6.6310e-06,  ...,  7.0781e-06,
+         -2.1048e-06,  1.9953e-05],
+        [ 1.9506e-05,  0.0000e+00, -8.6986e-07,  ...,  3.1352e-05,
+          9.9614e-06,  2.0966e-05],
+        [ 1.1250e-05,  0.0000e+00, -1.4096e-05,  ...,  9.4548e-06,
+         -5.3234e-06, -8.3804e-05]], device='cuda:0')
+Epoch 71, bias, value: tensor([-0.0320, -0.0285,  0.0141,  0.0306, -0.0273,  0.0071, -0.0126,  0.0107,
+         0.0186,  0.0009], device='cuda:0'), grad: tensor([ 5.6416e-05,  3.5793e-05,  3.9101e-05, -1.4096e-05,  1.0431e-04,
+         8.9884e-05, -2.3711e-04,  6.2466e-05, -7.3433e-05, -6.3300e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 70----------------------------------------------------
+epoch 70, time 232.14, cls_loss 0.0035 cls_loss_mapping 0.0113 cls_loss_causal 0.5866 re_mapping 0.0098 re_causal 0.0303 /// teacc 99.08 lr 0.00010000
+Epoch 72, weight, value: tensor([[-0.0184,  0.0203, -0.0167,  ..., -0.0486, -0.0383,  0.0490],
+        [-0.0130, -0.0100, -0.0327,  ...,  0.0959, -0.0449, -0.0303],
+        [-0.0106, -0.0248,  0.1187,  ..., -0.0621, -0.0825, -0.0452],
+        ...,
+        [-0.0213, -0.0437, -0.0099,  ...,  0.0073,  0.0550, -0.0124],
+        [-0.0437, -0.0434, -0.0153,  ..., -0.0649,  0.0184, -0.0696],
+        [-0.0929, -0.0288, -0.0766,  ..., -0.0660,  0.0237,  0.0474]],
+       device='cuda:0'), grad: tensor([[ 1.3746e-05,  0.0000e+00, -6.1840e-06,  ...,  3.6154e-06,
+          2.8200e-06, -1.6326e-06],
+        [ 1.5236e-05,  0.0000e+00,  1.2219e-05,  ..., -5.5954e-06,
+          2.3723e-05,  8.3372e-06],
+        [ 2.3767e-05,  0.0000e+00, -2.9817e-05,  ...,  9.8944e-06,
+          6.2101e-06,  9.8348e-06],
+        ...,
+        [ 1.0982e-05,  0.0000e+00, -7.3075e-05,  ...,  5.5581e-06,
+         -2.6917e-04, -4.0829e-05],
+        [ 9.2685e-06,  0.0000e+00,  7.8380e-06,  ...,  3.2689e-06,
+          7.6815e-06,  2.2739e-05],
+        [ 2.3723e-05,  0.0000e+00,  5.3167e-05,  ...,  3.5856e-06,
+          2.0826e-04,  1.0455e-04]], device='cuda:0')
+Epoch 72, bias, value: tensor([-0.0319, -0.0289,  0.0138,  0.0309, -0.0270,  0.0071, -0.0128,  0.0111,
+         0.0185,  0.0006], device='cuda:0'), grad: tensor([ 2.6956e-05,  1.1027e-04,  8.2970e-05, -3.2616e-04,  9.9614e-06,
+         9.7528e-06,  3.5763e-05, -7.3147e-04,  8.3804e-05,  6.9809e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 71, time 214.36, cls_loss 0.0034 cls_loss_mapping 0.0097 cls_loss_causal 0.6076 re_mapping 0.0091 re_causal 0.0294 /// teacc 98.93 lr 0.00010000
+Epoch 73, weight, value: tensor([[-0.0188,  0.0203, -0.0167,  ..., -0.0489, -0.0386,  0.0492],
+        [-0.0134, -0.0100, -0.0335,  ...,  0.0969, -0.0452, -0.0300],
+        [-0.0108, -0.0247,  0.1202,  ..., -0.0628, -0.0829, -0.0455],
+        ...,
+        [-0.0228, -0.0438, -0.0100,  ...,  0.0070,  0.0554, -0.0128],
+        [-0.0442, -0.0434, -0.0160,  ..., -0.0653,  0.0182, -0.0700],
+        [-0.0936, -0.0288, -0.0773,  ..., -0.0663,  0.0235,  0.0479]],
+       device='cuda:0'), grad: tensor([[ 1.5080e-05,  0.0000e+00, -1.3220e-04,  ...,  1.1325e-05,
+          2.6673e-06, -1.1724e-04],
+        [ 3.0339e-05,  0.0000e+00,  4.9323e-06,  ...,  1.2465e-05,
+          5.0403e-06,  4.8354e-06],
+        [ 1.4074e-05,  0.0000e+00,  8.0168e-06,  ...,  7.4767e-06,
+          3.1628e-06,  8.1241e-05],
+        ...,
+        [ 1.5616e-05,  0.0000e+00,  9.1493e-06,  ...,  8.2776e-06,
+          2.6338e-06,  1.1586e-05],
+        [ 1.5169e-05,  0.0000e+00,  6.4731e-05,  ...,  9.3579e-06,
+          4.2804e-06,  1.9819e-06],
+        [ 1.4678e-05,  0.0000e+00,  1.0177e-05,  ...,  6.7241e-06,
+          2.6673e-06, -6.7502e-06]], device='cuda:0')
+Epoch 73, bias, value: tensor([-0.0320, -0.0284,  0.0140,  0.0307, -0.0264,  0.0072, -0.0129,  0.0107,
+         0.0184,  0.0005], device='cuda:0'), grad: tensor([-1.6367e-04,  5.9366e-05,  9.8884e-05, -6.5386e-05, -3.1567e-04,
+         8.9943e-05,  2.0266e-04,  5.4508e-05,  8.6725e-06,  3.0696e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 72, time 214.63, cls_loss 0.0035 cls_loss_mapping 0.0098 cls_loss_causal 0.6221 re_mapping 0.0090 re_causal 0.0301 /// teacc 98.81 lr 0.00010000
+Epoch 74, weight, value: tensor([[-0.0196,  0.0203, -0.0165,  ..., -0.0493, -0.0389,  0.0486],
+        [-0.0141, -0.0100, -0.0342,  ...,  0.0970, -0.0455, -0.0302],
+        [-0.0105, -0.0247,  0.1217,  ..., -0.0627, -0.0832, -0.0456],
+        ...,
+        [-0.0238, -0.0438, -0.0103,  ...,  0.0069,  0.0555, -0.0133],
+        [-0.0444, -0.0434, -0.0168,  ..., -0.0656,  0.0181, -0.0704],
+        [-0.0939, -0.0288, -0.0778,  ..., -0.0664,  0.0233,  0.0489]],
+       device='cuda:0'), grad: tensor([[ 4.7381e-08,  0.0000e+00,  1.9651e-06,  ...,  2.2501e-06,
+          8.7032e-07, -5.4948e-06],
+        [ 2.4680e-07,  0.0000e+00,  4.7833e-06,  ..., -6.0797e-06,
+          1.8999e-06,  3.3099e-06],
+        [ 2.2561e-07,  0.0000e+00, -1.6296e-04,  ...,  3.1106e-06,
+          7.9069e-07,  3.6340e-06],
+        ...,
+        [ 1.2666e-07,  0.0000e+00,  6.5088e-05,  ...,  1.4910e-06,
+         -8.6352e-06, -6.1514e-07],
+        [ 9.4355e-08,  0.0000e+00,  1.4700e-05,  ...,  4.3064e-06,
+          6.4038e-06,  1.4178e-05],
+        [-1.1800e-06,  0.0000e+00,  7.9125e-06,  ...,  1.1474e-06,
+          7.4208e-06, -1.8790e-05]], device='cuda:0')
+Epoch 74, bias, value: tensor([-0.0329, -0.0288,  0.0145,  0.0309, -0.0263,  0.0075, -0.0128,  0.0104,
+         0.0181,  0.0008], device='cuda:0'), grad: tensor([ 4.8093e-06,  5.6587e-06, -1.6332e-04,  9.2685e-05,  2.7955e-05,
+        -6.2704e-05, -3.3490e-06,  5.4777e-05,  4.4197e-05, -7.4925e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 73, time 214.72, cls_loss 0.0034 cls_loss_mapping 0.0100 cls_loss_causal 0.6064 re_mapping 0.0090 re_causal 0.0294 /// teacc 99.00 lr 0.00010000
+Epoch 75, weight, value: tensor([[-0.0198,  0.0203, -0.0161,  ..., -0.0498, -0.0392,  0.0487],
+        [-0.0146, -0.0100, -0.0349,  ...,  0.0972, -0.0458, -0.0305],
+        [-0.0109, -0.0247,  0.1237,  ..., -0.0635, -0.0830, -0.0458],
+        ...,
+        [-0.0241, -0.0438, -0.0112,  ...,  0.0073,  0.0558, -0.0135],
+        [-0.0445, -0.0434, -0.0174,  ..., -0.0660,  0.0180, -0.0709],
+        [-0.0944, -0.0288, -0.0785,  ..., -0.0667,  0.0230,  0.0492]],
+       device='cuda:0'), grad: tensor([[ 4.1351e-07,  0.0000e+00, -5.8353e-05,  ...,  7.1432e-07,
+         -5.3458e-06, -2.2486e-05],
+        [ 2.4177e-06,  0.0000e+00,  4.1611e-06,  ..., -1.5581e-06,
+          9.4296e-07,  2.0843e-06],
+        [ 1.0412e-06,  0.0000e+00,  6.9886e-06,  ...,  7.6415e-07,
+          2.6654e-06,  4.5337e-06],
+        ...,
+        [ 8.5533e-06,  0.0000e+00,  1.4417e-06,  ...,  3.6019e-07,
+         -1.5146e-07,  6.6273e-06],
+        [ 1.0170e-06,  0.0000e+00,  2.2441e-05,  ..., -5.5656e-06,
+          4.9844e-06,  3.5460e-07],
+        [ 2.9616e-07,  0.0000e+00,  1.2070e-05,  ...,  6.0536e-07,
+          1.1232e-06, -4.1515e-05]], device='cuda:0')
+Epoch 75, bias, value: tensor([-0.0332, -0.0293,  0.0152,  0.0307, -0.0264,  0.0075, -0.0118,  0.0103,
+         0.0179,  0.0007], device='cuda:0'), grad: tensor([-8.3447e-05,  1.2755e-05,  2.2456e-05,  4.0889e-05,  5.1081e-05,
+        -1.0319e-05,  2.2158e-05,  2.3872e-05, -1.4648e-05, -6.4909e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 74, time 214.59, cls_loss 0.0037 cls_loss_mapping 0.0104 cls_loss_causal 0.6117 re_mapping 0.0091 re_causal 0.0293 /// teacc 98.95 lr 0.00010000
+Epoch 76, weight, value: tensor([[-0.0201,  0.0203, -0.0149,  ..., -0.0501, -0.0393,  0.0497],
+        [-0.0148, -0.0100, -0.0358,  ...,  0.0977, -0.0459, -0.0307],
+        [-0.0111, -0.0247,  0.1238,  ..., -0.0637, -0.0848, -0.0461],
+        ...,
+        [-0.0244, -0.0438, -0.0098,  ...,  0.0071,  0.0565, -0.0141],
+        [-0.0447, -0.0434, -0.0183,  ..., -0.0665,  0.0178, -0.0708],
+        [-0.0949, -0.0288, -0.0795,  ..., -0.0669,  0.0230,  0.0495]],
+       device='cuda:0'), grad: tensor([[ 3.5409e-06,  0.0000e+00, -5.9567e-06,  ...,  6.0610e-06,
+          1.6401e-06, -3.9861e-06],
+        [-3.6180e-05,  0.0000e+00, -3.2573e-07,  ..., -1.4031e-04,
+         -1.7971e-05, -3.5346e-05],
+        [ 1.8524e-06,  0.0000e+00, -1.7822e-05,  ...,  1.2733e-05,
+          1.7677e-06,  1.4929e-06],
+        ...,
+        [ 6.1207e-06,  0.0000e+00,  3.8780e-06,  ...,  1.5289e-05,
+         -1.1057e-05,  6.1877e-06],
+        [ 1.4625e-05,  0.0000e+00,  1.1578e-05,  ...,  4.7415e-05,
+          1.6555e-05,  3.3557e-05],
+        [ 8.4043e-06,  0.0000e+00, -1.4566e-06,  ...,  2.1368e-05,
+          7.7337e-06, -1.3314e-05]], device='cuda:0')
+Epoch 76, bias, value: tensor([-0.0325, -0.0291,  0.0143,  0.0308, -0.0264,  0.0072, -0.0120,  0.0108,
+         0.0181,  0.0006], device='cuda:0'), grad: tensor([ 5.5842e-06, -3.3617e-04,  3.2550e-07,  9.3997e-05,  7.4208e-05,
+        -7.7903e-05,  3.0752e-06,  3.2693e-05,  1.6868e-04,  3.5226e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 75, time 214.32, cls_loss 0.0035 cls_loss_mapping 0.0108 cls_loss_causal 0.6186 re_mapping 0.0089 re_causal 0.0294 /// teacc 98.99 lr 0.00010000
+Epoch 77, weight, value: tensor([[-0.0205,  0.0203, -0.0146,  ..., -0.0504, -0.0397,  0.0500],
+        [-0.0138, -0.0100, -0.0366,  ...,  0.0988, -0.0461, -0.0309],
+        [-0.0113, -0.0247,  0.1247,  ..., -0.0638, -0.0853, -0.0465],
+        ...,
+        [-0.0251, -0.0438, -0.0095,  ...,  0.0068,  0.0573, -0.0144],
+        [-0.0451, -0.0434, -0.0190,  ..., -0.0677,  0.0179, -0.0711],
+        [-0.0954, -0.0288, -0.0799,  ..., -0.0672,  0.0226,  0.0499]],
+       device='cuda:0'), grad: tensor([[ 8.2143e-07,  0.0000e+00,  1.4305e-06,  ...,  3.9749e-06,
+          1.7723e-06, -1.6745e-06],
+        [ 1.0598e-06,  0.0000e+00,  1.1665e-04,  ...,  2.2128e-05,
+          3.5316e-06,  7.3761e-06],
+        [ 4.4797e-07,  0.0000e+00, -1.6177e-04,  ..., -4.3780e-05,
+          3.7979e-06,  1.0990e-05],
+        ...,
+        [ 2.8615e-07,  0.0000e+00,  6.6124e-06,  ...,  2.7064e-06,
+          1.8269e-05,  3.9756e-05],
+        [ 4.9639e-07,  0.0000e+00,  1.3942e-06,  ...,  6.1542e-06,
+          4.5598e-06,  6.4373e-06],
+        [ 4.0885e-07,  0.0000e+00,  5.1111e-06,  ...,  2.5593e-06,
+         -1.8418e-05, -4.3064e-05]], device='cuda:0')
+Epoch 77, bias, value: tensor([-0.0327, -0.0285,  0.0143,  0.0306, -0.0269,  0.0071, -0.0120,  0.0112,
+         0.0181,  0.0005], device='cuda:0'), grad: tensor([ 1.7405e-05,  1.4496e-04, -1.2791e-04, -2.2042e-04,  2.9981e-05,
+         8.9765e-05,  6.5565e-06,  9.4593e-05,  1.0774e-05, -4.6045e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 76, time 214.52, cls_loss 0.0033 cls_loss_mapping 0.0108 cls_loss_causal 0.5884 re_mapping 0.0089 re_causal 0.0284 /// teacc 99.01 lr 0.00010000
+Epoch 78, weight, value: tensor([[-0.0211,  0.0203, -0.0137,  ..., -0.0504, -0.0400,  0.0500],
+        [-0.0148, -0.0100, -0.0370,  ...,  0.0995, -0.0469, -0.0304],
+        [-0.0106, -0.0247,  0.1254,  ..., -0.0640, -0.0857, -0.0468],
+        ...,
+        [-0.0264, -0.0438, -0.0094,  ...,  0.0062,  0.0577, -0.0149],
+        [-0.0452, -0.0434, -0.0198,  ..., -0.0680,  0.0180, -0.0716],
+        [-0.0961, -0.0288, -0.0802,  ..., -0.0678,  0.0226,  0.0507]],
+       device='cuda:0'), grad: tensor([[ 7.7439e-07,  0.0000e+00, -1.7852e-05,  ...,  4.5933e-06,
+          8.0653e-07, -1.8048e-04],
+        [ 7.4552e-07,  0.0000e+00,  2.6803e-06,  ..., -4.8848e-07,
+          9.8646e-06,  1.0230e-05],
+        [ 8.8150e-07,  0.0000e+00,  1.5954e-06,  ...,  2.3786e-06,
+          6.1952e-06,  5.2080e-06],
+        ...,
+        [ 2.7055e-07,  0.0000e+00,  2.6897e-06,  ...,  8.3633e-07,
+         -3.1531e-05,  1.8224e-05],
+        [ 8.2850e-06,  0.0000e+00,  2.7493e-06,  ...,  2.0310e-05,
+          4.1306e-05,  3.3855e-05],
+        [ 4.5495e-07,  0.0000e+00,  2.9691e-06,  ...,  2.8331e-06,
+          1.8805e-05, -3.8594e-05]], device='cuda:0')
+Epoch 78, bias, value: tensor([-0.0326, -0.0282,  0.0144,  0.0303, -0.0269,  0.0068, -0.0116,  0.0108,
+         0.0180,  0.0007], device='cuda:0'), grad: tensor([-1.7202e-04,  3.8505e-05,  3.1173e-05,  6.6876e-05,  6.4552e-05,
+        -6.7661e-07, -9.4891e-05,  9.9372e-07,  1.0282e-04, -3.7044e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 77----------------------------------------------------
+epoch 77, time 230.46, cls_loss 0.0037 cls_loss_mapping 0.0104 cls_loss_causal 0.5952 re_mapping 0.0091 re_causal 0.0288 /// teacc 99.13 lr 0.00010000
+Epoch 79, weight, value: tensor([[-0.0217,  0.0203, -0.0123,  ..., -0.0504, -0.0401,  0.0504],
+        [-0.0153, -0.0100, -0.0375,  ...,  0.0998, -0.0476, -0.0299],
+        [-0.0108, -0.0247,  0.1258,  ..., -0.0647, -0.0859, -0.0477],
+        ...,
+        [-0.0274, -0.0438, -0.0101,  ...,  0.0062,  0.0578, -0.0167],
+        [-0.0453, -0.0434, -0.0209,  ..., -0.0674,  0.0177, -0.0723],
+        [-0.0968, -0.0288, -0.0789,  ..., -0.0682,  0.0229,  0.0514]],
+       device='cuda:0'), grad: tensor([[ 1.2740e-06,  0.0000e+00, -2.3574e-05,  ...,  8.7870e-07,
+          1.3011e-06, -1.2092e-05],
+        [ 6.8173e-06,  0.0000e+00,  1.3582e-05,  ..., -7.5474e-06,
+          1.7341e-06,  4.0233e-06],
+        [ 1.7602e-06,  0.0000e+00, -1.6570e-04,  ...,  9.9093e-07,
+          2.0079e-06,  9.5218e-06],
+        ...,
+        [ 1.8016e-05,  0.0000e+00, -6.6161e-05,  ...,  3.0212e-06,
+         -1.4865e-04, -1.6856e-04],
+        [ 3.9078e-06,  0.0000e+00,  1.8626e-05,  ...,  4.0904e-06,
+          2.0966e-07,  4.4674e-05],
+        [-3.3557e-05,  0.0000e+00,  1.2153e-04,  ...,  1.0096e-05,
+          1.5426e-04, -1.4853e-04]], device='cuda:0')
+Epoch 79, bias, value: tensor([-0.0323, -0.0283,  0.0141,  0.0311, -0.0264,  0.0064, -0.0118,  0.0099,
+         0.0181,  0.0012], device='cuda:0'), grad: tensor([-1.5080e-05,  2.4796e-05, -1.0204e-04, -6.5994e-04,  5.3453e-04,
+         4.1437e-04,  2.0221e-05, -2.3615e-04,  1.2672e-04, -1.0824e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 78, time 214.38, cls_loss 0.0025 cls_loss_mapping 0.0084 cls_loss_causal 0.6127 re_mapping 0.0088 re_causal 0.0279 /// teacc 99.03 lr 0.00010000
+Epoch 80, weight, value: tensor([[-0.0221,  0.0203, -0.0116,  ..., -0.0504, -0.0402,  0.0505],
+        [-0.0154, -0.0100, -0.0378,  ...,  0.1005, -0.0480, -0.0302],
+        [-0.0113, -0.0247,  0.1264,  ..., -0.0651, -0.0863, -0.0481],
+        ...,
+        [-0.0280, -0.0438, -0.0099,  ...,  0.0060,  0.0585, -0.0168],
+        [-0.0455, -0.0434, -0.0217,  ..., -0.0679,  0.0176, -0.0726],
+        [-0.0975, -0.0288, -0.0793,  ..., -0.0684,  0.0226,  0.0519]],
+       device='cuda:0'), grad: tensor([[ 8.9593e-07,  0.0000e+00,  4.9531e-05,  ...,  3.3691e-07,
+          9.9242e-06,  1.1705e-05],
+        [ 2.2557e-06,  0.0000e+00,  8.4937e-06,  ...,  1.3388e-08,
+          9.2089e-06,  7.3351e-06],
+        [-2.8417e-05,  0.0000e+00, -1.5128e-04,  ..., -5.5917e-06,
+          2.1055e-05, -1.3188e-06],
+        ...,
+        [ 8.4937e-06,  0.0000e+00, -6.3002e-05,  ...,  4.1933e-07,
+         -3.9607e-05,  6.9961e-06],
+        [-6.3740e-06,  0.0000e+00,  5.0291e-06,  ...,  5.1260e-06,
+          6.6280e-05,  6.2406e-05],
+        [ 1.8794e-06,  0.0000e+00,  1.5117e-05,  ...,  2.5867e-07,
+          4.8935e-05,  8.9481e-06]], device='cuda:0')
+Epoch 80, bias, value: tensor([-0.0323, -0.0281,  0.0141,  0.0308, -0.0263,  0.0062, -0.0119,  0.0103,
+         0.0180,  0.0011], device='cuda:0'), grad: tensor([ 7.9751e-05,  3.7223e-05, -1.2171e-04,  3.3641e-04,  1.2612e-04,
+        -7.6771e-04,  1.0741e-04, -5.7399e-05,  1.6928e-04,  9.0599e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 79, time 214.32, cls_loss 0.0038 cls_loss_mapping 0.0106 cls_loss_causal 0.6113 re_mapping 0.0092 re_causal 0.0280 /// teacc 98.93 lr 0.00010000
+Epoch 81, weight, value: tensor([[-0.0227,  0.0203, -0.0112,  ..., -0.0508, -0.0405,  0.0509],
+        [-0.0160, -0.0100, -0.0384,  ...,  0.1008, -0.0502, -0.0305],
+        [-0.0113, -0.0247,  0.1274,  ..., -0.0654, -0.0869, -0.0483],
+        ...,
+        [-0.0285, -0.0438, -0.0096,  ...,  0.0062,  0.0599, -0.0166],
+        [-0.0462, -0.0434, -0.0223,  ..., -0.0685,  0.0174, -0.0731],
+        [-0.0984, -0.0288, -0.0802,  ..., -0.0688,  0.0223,  0.0519]],
+       device='cuda:0'), grad: tensor([[ 3.5670e-07,  1.0472e-07, -8.0884e-05,  ...,  1.1355e-05,
+          9.1828e-07, -7.4863e-05],
+        [ 3.9116e-06,  1.3169e-06,  1.3083e-05,  ...,  2.7865e-06,
+          5.3048e-06,  7.6815e-06],
+        [ 9.3644e-07,  3.0780e-07, -4.1890e-04,  ...,  6.1579e-06,
+          2.4643e-06,  2.1592e-05],
+        ...,
+        [ 9.5088e-07,  2.8452e-07,  4.0126e-04,  ...,  2.7078e-07,
+         -7.8231e-06,  4.6730e-05],
+        [ 1.7020e-07,  4.4645e-08,  1.7300e-05,  ...,  2.4244e-05,
+          7.4320e-07,  4.5627e-05],
+        [ 1.1129e-06,  3.2759e-07,  5.7295e-06,  ...,  1.2638e-06,
+         -4.1537e-06, -3.0965e-05]], device='cuda:0')
+Epoch 81, bias, value: tensor([-0.0322, -0.0287,  0.0143,  0.0305, -0.0262,  0.0066, -0.0117,  0.0111,
+         0.0176,  0.0005], device='cuda:0'), grad: tensor([-3.4928e-05,  3.4422e-05, -3.3617e-04,  1.5363e-05,  8.5309e-06,
+         5.0604e-05, -3.1137e-04,  4.2963e-04,  1.8215e-04, -3.7730e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 80, time 214.24, cls_loss 0.0034 cls_loss_mapping 0.0112 cls_loss_causal 0.6377 re_mapping 0.0080 re_causal 0.0276 /// teacc 99.08 lr 0.00010000
+Epoch 82, weight, value: tensor([[-0.0235,  0.0203, -0.0107,  ..., -0.0511, -0.0407,  0.0510],
+        [-0.0167, -0.0100, -0.0402,  ...,  0.1009, -0.0505, -0.0308],
+        [-0.0113, -0.0246,  0.1288,  ..., -0.0649, -0.0873, -0.0488],
+        ...,
+        [-0.0287, -0.0438, -0.0095,  ...,  0.0058,  0.0605, -0.0168],
+        [-0.0468, -0.0434, -0.0226,  ..., -0.0690,  0.0174, -0.0735],
+        [-0.1000, -0.0288, -0.0807,  ..., -0.0706,  0.0221,  0.0526]],
+       device='cuda:0'), grad: tensor([[ 7.7416e-08,  0.0000e+00, -8.5905e-06,  ...,  2.5192e-07,
+          3.0897e-07, -7.4394e-06],
+        [ 3.7113e-07,  0.0000e+00,  1.6196e-06,  ..., -5.1111e-06,
+          8.9221e-07,  3.6415e-07],
+        [ 6.7346e-08,  0.0000e+00, -1.0483e-05,  ...,  5.7416e-07,
+          1.0235e-06,  1.3560e-06],
+        ...,
+        [ 2.4564e-07,  0.0000e+00,  2.1420e-06,  ...,  1.8310e-06,
+         -2.8238e-06,  1.6345e-06],
+        [ 1.4261e-07,  0.0000e+00,  5.6624e-06,  ...,  1.1092e-06,
+          1.1707e-06,  4.3325e-06],
+        [ 8.8848e-07,  0.0000e+00,  3.6173e-06,  ...,  5.2340e-07,
+         -5.7928e-07, -6.6310e-06]], device='cuda:0')
+Epoch 82, bias, value: tensor([-0.0325, -0.0291,  0.0150,  0.0303, -0.0251,  0.0064, -0.0115,  0.0111,
+         0.0176, -0.0001], device='cuda:0'), grad: tensor([-1.4409e-05, -3.5502e-06,  7.7719e-07,  1.7688e-05,  3.4831e-07,
+        -1.6034e-05,  4.5113e-06,  5.6289e-06,  1.2375e-05, -7.3500e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 81, time 214.25, cls_loss 0.0033 cls_loss_mapping 0.0101 cls_loss_causal 0.5708 re_mapping 0.0088 re_causal 0.0279 /// teacc 98.91 lr 0.00010000
+Epoch 83, weight, value: tensor([[-0.0237,  0.0202, -0.0099,  ..., -0.0513, -0.0409,  0.0512],
+        [-0.0175, -0.0101, -0.0406,  ...,  0.1015, -0.0514, -0.0334],
+        [-0.0116, -0.0246,  0.1296,  ..., -0.0654, -0.0877, -0.0490],
+        ...,
+        [-0.0292, -0.0438, -0.0087,  ...,  0.0056,  0.0614, -0.0168],
+        [-0.0471, -0.0434, -0.0232,  ..., -0.0695,  0.0174, -0.0741],
+        [-0.1003, -0.0288, -0.0820,  ..., -0.0712,  0.0215,  0.0533]],
+       device='cuda:0'), grad: tensor([[ 3.2149e-06,  0.0000e+00,  6.0834e-06,  ...,  7.5772e-06,
+          1.0394e-06,  6.0834e-06],
+        [ 3.6415e-06,  0.0000e+00, -3.3259e-05,  ..., -1.0353e-04,
+          2.4550e-06,  1.1520e-06],
+        [ 1.5656e-06,  0.0000e+00, -6.6236e-06,  ...,  4.2975e-05,
+          1.2089e-06, -1.1589e-07],
+        ...,
+        [ 4.2282e-06,  0.0000e+00,  1.2927e-05,  ...,  4.2140e-05,
+         -7.2643e-06,  9.2834e-06],
+        [ 4.7311e-06,  0.0000e+00,  1.0021e-05,  ...,  1.1206e-05,
+          2.2445e-06,  1.7360e-05],
+        [ 1.0565e-05,  0.0000e+00, -3.3956e-06,  ...,  4.0047e-06,
+         -4.9062e-06, -5.1290e-05]], device='cuda:0')
+Epoch 83, bias, value: tensor([-0.0324, -0.0295,  0.0149,  0.0304, -0.0250,  0.0070, -0.0123,  0.0115,
+         0.0175, -0.0002], device='cuda:0'), grad: tensor([ 2.7299e-05, -1.7416e-04,  6.0707e-05,  2.3603e-05, -3.5129e-06,
+         9.0599e-06, -1.5602e-05,  8.5711e-05,  5.4389e-05, -6.7353e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 82, time 214.40, cls_loss 0.0028 cls_loss_mapping 0.0086 cls_loss_causal 0.6071 re_mapping 0.0084 re_causal 0.0279 /// teacc 99.00 lr 0.00010000
+Epoch 84, weight, value: tensor([[-0.0239,  0.0202, -0.0089,  ..., -0.0502, -0.0413,  0.0515],
+        [-0.0178, -0.0101, -0.0410,  ...,  0.1017, -0.0517, -0.0345],
+        [-0.0120, -0.0246,  0.1301,  ..., -0.0658, -0.0880, -0.0494],
+        ...,
+        [-0.0299, -0.0438, -0.0087,  ...,  0.0053,  0.0618, -0.0173],
+        [-0.0474, -0.0435, -0.0234,  ..., -0.0694,  0.0172, -0.0744],
+        [-0.1014, -0.0288, -0.0824,  ..., -0.0712,  0.0210,  0.0542]],
+       device='cuda:0'), grad: tensor([[ 4.6426e-07,  5.8208e-11, -3.2056e-06,  ...,  1.2219e-06,
+          1.1250e-05,  2.4959e-06],
+        [ 3.1572e-07,  7.5670e-10,  1.9401e-05,  ..., -3.5968e-06,
+          2.4498e-05,  5.2825e-06],
+        [ 2.1444e-07,  5.8208e-11, -3.9369e-05,  ...,  1.3104e-06,
+          7.6815e-06,  4.3735e-06],
+        ...,
+        [ 1.2980e-08,  1.7462e-10, -4.6790e-06,  ...,  1.4296e-06,
+          4.0460e-04,  3.9935e-04],
+        [ 2.5402e-07,  5.8208e-11,  8.0466e-06,  ...,  2.3134e-06,
+          8.0347e-05,  6.3300e-05],
+        [ 4.5227e-08,  7.5670e-10,  3.0231e-06,  ...,  4.2259e-07,
+         -7.6675e-04, -6.4278e-04]], device='cuda:0')
+Epoch 84, bias, value: tensor([-0.0318, -0.0299,  0.0147,  0.0305, -0.0244,  0.0072, -0.0130,  0.0112,
+         0.0176, -0.0002], device='cuda:0'), grad: tensor([ 2.5809e-05,  8.4519e-05, -3.6240e-05,  6.0976e-05,  2.1636e-04,
+         3.3593e-04,  4.6939e-05,  1.2150e-03,  2.1279e-04, -2.1610e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 83, time 214.47, cls_loss 0.0028 cls_loss_mapping 0.0094 cls_loss_causal 0.5857 re_mapping 0.0085 re_causal 0.0278 /// teacc 98.98 lr 0.00010000
+Epoch 85, weight, value: tensor([[-0.0241,  0.0202, -0.0088,  ..., -0.0504, -0.0415,  0.0516],
+        [-0.0186, -0.0101, -0.0413,  ...,  0.1021, -0.0519, -0.0347],
+        [-0.0123, -0.0246,  0.1303,  ..., -0.0662, -0.0885, -0.0496],
+        ...,
+        [-0.0295, -0.0438, -0.0085,  ...,  0.0049,  0.0624, -0.0178],
+        [-0.0476, -0.0435, -0.0232,  ..., -0.0701,  0.0171, -0.0748],
+        [-0.1021, -0.0289, -0.0829,  ..., -0.0714,  0.0206,  0.0551]],
+       device='cuda:0'), grad: tensor([[ 1.4380e-06,  0.0000e+00, -1.7174e-06,  ...,  2.7698e-06,
+          1.9372e-06, -1.9427e-06],
+        [ 1.8720e-06,  0.0000e+00,  2.0787e-06,  ...,  1.7211e-06,
+          1.1502e-06,  9.0292e-07],
+        [ 9.0199e-07,  0.0000e+00, -1.5855e-05,  ...,  2.0340e-06,
+          2.0955e-06,  2.4810e-06],
+        ...,
+        [ 1.0030e-06,  0.0000e+00,  5.1446e-06,  ...,  1.2228e-06,
+          1.8096e-06,  3.0976e-06],
+        [ 1.3364e-06,  0.0000e+00,  1.9316e-06,  ...,  4.9509e-06,
+          8.7991e-06,  1.5378e-05],
+        [ 2.3078e-06,  0.0000e+00,  5.6904e-07,  ...,  1.3690e-06,
+         -3.7868e-06, -1.8865e-05]], device='cuda:0')
+Epoch 85, bias, value: tensor([-3.2018e-02, -2.9788e-02,  1.4144e-02,  3.0806e-02, -2.4935e-02,
+         6.9101e-03, -1.2462e-02,  1.1350e-02,  1.7934e-02,  1.4836e-05],
+       device='cuda:0'), grad: tensor([ 7.1302e-06,  1.1362e-05,  7.1414e-06, -6.1691e-05,  5.8003e-06,
+        -6.2166e-07, -3.1054e-05,  2.4065e-05,  6.9559e-05, -3.1710e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 84, time 214.36, cls_loss 0.0031 cls_loss_mapping 0.0093 cls_loss_causal 0.5945 re_mapping 0.0083 re_causal 0.0271 /// teacc 99.04 lr 0.00010000
+Epoch 86, weight, value: tensor([[-0.0246,  0.0202, -0.0082,  ..., -0.0505, -0.0423,  0.0518],
+        [-0.0190, -0.0101, -0.0417,  ...,  0.1024, -0.0522, -0.0349],
+        [-0.0124, -0.0246,  0.1312,  ..., -0.0664, -0.0887, -0.0499],
+        ...,
+        [-0.0291, -0.0438, -0.0087,  ...,  0.0046,  0.0630, -0.0182],
+        [-0.0476, -0.0435, -0.0236,  ..., -0.0704,  0.0164, -0.0757],
+        [-0.1028, -0.0289, -0.0831,  ..., -0.0716,  0.0206,  0.0559]],
+       device='cuda:0'), grad: tensor([[ 5.3202e-08,  2.4447e-09,  1.0449e-06,  ...,  4.8541e-06,
+          6.2212e-07,  7.4459e-07],
+        [ 3.7486e-08,  8.9640e-09,  8.2627e-06,  ..., -1.3554e-04,
+          2.5015e-06, -1.5005e-05],
+        [-1.1770e-07, -6.0187e-08, -3.1173e-05,  ...,  9.6858e-06,
+          2.7753e-06,  1.7313e-06],
+        ...,
+        [ 2.3202e-07,  1.3970e-09,  3.4254e-06,  ...,  4.3988e-05,
+         -9.7081e-06,  1.3508e-05],
+        [ 1.5553e-07,  6.9849e-10,  5.5283e-06,  ..., -7.3807e-08,
+         -5.6773e-06,  7.7635e-06],
+        [-2.6617e-06,  0.0000e+00,  1.6233e-06,  ...,  1.1884e-05,
+          3.9600e-06, -3.4153e-05]], device='cuda:0')
+Epoch 86, bias, value: tensor([-0.0324, -0.0300,  0.0143,  0.0302, -0.0252,  0.0069, -0.0116,  0.0113,
+         0.0183,  0.0003], device='cuda:0'), grad: tensor([ 1.8731e-05, -2.4414e-04,  2.1204e-05,  2.4647e-05,  1.0490e-04,
+         6.7890e-05,  3.7670e-05,  1.0747e-04, -1.2374e-04, -1.4439e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 85, time 214.18, cls_loss 0.0025 cls_loss_mapping 0.0083 cls_loss_causal 0.5765 re_mapping 0.0085 re_causal 0.0277 /// teacc 99.02 lr 0.00010000
+Epoch 87, weight, value: tensor([[-0.0249,  0.0202, -0.0078,  ..., -0.0508, -0.0428,  0.0519],
+        [-0.0197, -0.0101, -0.0415,  ...,  0.1029, -0.0524, -0.0353],
+        [-0.0128, -0.0246,  0.1318,  ..., -0.0672, -0.0890, -0.0503],
+        ...,
+        [-0.0295, -0.0438, -0.0087,  ...,  0.0042,  0.0635, -0.0184],
+        [-0.0475, -0.0435, -0.0245,  ..., -0.0706,  0.0161, -0.0760],
+        [-0.1036, -0.0289, -0.0835,  ..., -0.0720,  0.0204,  0.0562]],
+       device='cuda:0'), grad: tensor([[ 2.0373e-07,  1.7462e-08,  3.3025e-06,  ...,  4.0792e-06,
+          2.1029e-06,  3.1013e-06],
+        [ 3.6485e-07,  1.7462e-08,  5.1521e-06,  ..., -1.6056e-06,
+          3.1944e-06,  1.7239e-06],
+        [ 2.6803e-06, -3.5390e-07, -1.4372e-05,  ...,  5.1074e-06,
+          1.7226e-05,  3.2019e-06],
+        ...,
+        [ 8.9174e-08,  4.6799e-08, -5.7667e-05,  ...,  1.0114e-06,
+         -6.9737e-05,  1.5441e-06],
+        [ 2.4796e-07,  4.9127e-08,  7.2196e-06,  ...,  3.7849e-05,
+          5.6252e-06,  2.5764e-05],
+        [ 1.9418e-07,  9.7789e-09,  2.8759e-05,  ...,  1.5367e-06,
+          3.3110e-05, -1.3448e-05]], device='cuda:0')
+Epoch 87, bias, value: tensor([-3.2597e-02, -3.0042e-02,  1.3809e-02,  3.0340e-02, -2.4986e-02,
+         7.1356e-03, -1.1128e-02,  1.1158e-02,  1.8457e-02, -2.6169e-05],
+       device='cuda:0'), grad: tensor([ 2.5585e-05,  1.8731e-05,  3.3259e-05, -1.5751e-05,  1.6183e-05,
+         2.4819e-04, -4.4727e-04, -1.2517e-04,  1.9073e-04,  5.5015e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 86, time 214.34, cls_loss 0.0026 cls_loss_mapping 0.0081 cls_loss_causal 0.5831 re_mapping 0.0083 re_causal 0.0265 /// teacc 99.12 lr 0.00010000
+Epoch 88, weight, value: tensor([[-0.0252,  0.0204, -0.0073,  ..., -0.0511, -0.0429,  0.0521],
+        [-0.0200, -0.0101, -0.0421,  ...,  0.1032, -0.0527, -0.0356],
+        [-0.0131, -0.0245,  0.1326,  ..., -0.0674, -0.0893, -0.0506],
+        ...,
+        [-0.0298, -0.0438, -0.0085,  ...,  0.0040,  0.0639, -0.0190],
+        [-0.0486, -0.0435, -0.0248,  ..., -0.0711,  0.0151, -0.0781],
+        [-0.1038, -0.0289, -0.0839,  ..., -0.0723,  0.0203,  0.0570]],
+       device='cuda:0'), grad: tensor([[ 5.2825e-06,  1.1642e-10, -5.4330e-05,  ...,  4.3064e-06,
+         -3.1352e-05, -2.3872e-05],
+        [ 4.6879e-05,  1.5134e-09,  1.3717e-05,  ...,  1.9938e-05,
+          1.0200e-05,  6.8881e-06],
+        [ 2.1812e-06,  1.1642e-10,  1.7732e-05,  ...,  2.0452e-06,
+          2.2680e-05,  4.9882e-06],
+        ...,
+        [ 7.0855e-06,  4.6566e-10, -8.4102e-05,  ...,  5.4501e-06,
+         -7.1824e-05,  2.2147e-06],
+        [ 1.3299e-05,  1.1642e-10,  2.1920e-05,  ...,  9.1121e-06,
+          1.3910e-05,  5.9232e-06],
+        [ 7.8976e-05,  2.7940e-09,  3.3796e-05,  ...,  4.4018e-05,
+          2.6971e-05,  1.0885e-05]], device='cuda:0')
+Epoch 88, bias, value: tensor([-0.0327, -0.0304,  0.0138,  0.0306, -0.0251,  0.0075, -0.0106,  0.0111,
+         0.0171,  0.0006], device='cuda:0'), grad: tensor([-1.2505e-04,  9.4831e-05,  5.7161e-05,  1.7717e-05, -3.1781e-04,
+         5.1200e-05,  1.0943e-04, -1.4985e-04,  6.5565e-05,  1.9729e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 87, time 214.39, cls_loss 0.0041 cls_loss_mapping 0.0122 cls_loss_causal 0.5907 re_mapping 0.0085 re_causal 0.0262 /// teacc 98.95 lr 0.00010000
+Epoch 89, weight, value: tensor([[-0.0257,  0.0204, -0.0070,  ..., -0.0515, -0.0432,  0.0523],
+        [-0.0209, -0.0101, -0.0427,  ...,  0.1028, -0.0532, -0.0370],
+        [-0.0121, -0.0245,  0.1340,  ..., -0.0672, -0.0897, -0.0507],
+        ...,
+        [-0.0301, -0.0439, -0.0082,  ...,  0.0036,  0.0645, -0.0202],
+        [-0.0482, -0.0435, -0.0261,  ..., -0.0715,  0.0147, -0.0787],
+        [-0.1043, -0.0290, -0.0843,  ..., -0.0724,  0.0201,  0.0581]],
+       device='cuda:0'), grad: tensor([[ 5.6298e-07,  0.0000e+00, -2.7008e-08,  ...,  6.1560e-07,
+          2.6310e-07,  1.2573e-08],
+        [ 6.3051e-07,  0.0000e+00,  7.9907e-07,  ..., -2.8744e-05,
+          1.2177e-07,  1.7951e-07],
+        [ 3.3970e-07,  0.0000e+00, -4.7833e-06,  ...,  7.5111e-07,
+          1.7113e-07,  1.8766e-07],
+        ...,
+        [ 1.2144e-06,  0.0000e+00,  1.2154e-06,  ...,  2.2903e-05,
+         -3.4925e-07,  2.2631e-06],
+        [ 9.8627e-07,  0.0000e+00,  3.3458e-07,  ...,  6.9803e-07,
+          2.6636e-07,  1.0561e-06],
+        [ 9.0837e-05,  0.0000e+00, -6.5891e-08,  ...,  2.9616e-06,
+          2.3562e-07, -1.4044e-06]], device='cuda:0')
+Epoch 89, bias, value: tensor([-0.0330, -0.0314,  0.0147,  0.0309, -0.0253,  0.0077, -0.0104,  0.0105,
+         0.0167,  0.0014], device='cuda:0'), grad: tensor([ 1.9595e-06, -3.4600e-05, -1.0496e-06,  5.3421e-06, -1.4496e-04,
+         1.3858e-05, -7.0632e-06,  3.6120e-05, -3.8221e-06,  1.3411e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 88, time 214.41, cls_loss 0.0029 cls_loss_mapping 0.0096 cls_loss_causal 0.6272 re_mapping 0.0080 re_causal 0.0264 /// teacc 98.91 lr 0.00010000
+Epoch 90, weight, value: tensor([[-0.0264,  0.0203, -0.0062,  ..., -0.0519, -0.0433,  0.0526],
+        [-0.0212, -0.0101, -0.0446,  ...,  0.1024, -0.0534, -0.0384],
+        [-0.0120, -0.0243,  0.1349,  ..., -0.0669, -0.0907, -0.0510],
+        ...,
+        [-0.0306, -0.0439, -0.0073,  ...,  0.0026,  0.0655, -0.0201],
+        [-0.0484, -0.0436, -0.0264,  ..., -0.0723,  0.0149, -0.0790],
+        [-0.1048, -0.0290, -0.0851,  ..., -0.0729,  0.0196,  0.0584]],
+       device='cuda:0'), grad: tensor([[ 8.5216e-08,  0.0000e+00, -1.9800e-06,  ...,  1.1483e-06,
+          1.4063e-07, -1.6559e-06],
+        [ 1.0850e-07,  0.0000e+00,  5.0217e-06,  ..., -1.9550e-05,
+          6.3330e-07,  3.1199e-07],
+        [ 1.5413e-07,  0.0000e+00, -5.2541e-05,  ...,  2.1700e-06,
+         -8.5356e-07,  5.7463e-07],
+        ...,
+        [ 4.3400e-07,  0.0000e+00,  2.5660e-05,  ...,  2.0191e-06,
+         -1.2703e-06,  2.5965e-06],
+        [ 6.0583e-07,  0.0000e+00, -5.4063e-07,  ...,  6.8396e-06,
+          1.1129e-06,  1.6717e-06],
+        [ 1.1595e-07,  0.0000e+00,  1.2638e-06,  ...,  6.8778e-07,
+          9.9372e-07, -5.9940e-06]], device='cuda:0')
+Epoch 90, bias, value: tensor([-0.0331, -0.0321,  0.0149,  0.0307, -0.0256,  0.0084, -0.0106,  0.0111,
+         0.0170,  0.0011], device='cuda:0'), grad: tensor([-4.0466e-07, -2.8640e-05, -3.7014e-05,  1.0526e-04,  9.7454e-06,
+        -8.6904e-05,  1.4663e-05,  3.0637e-05, -2.0657e-06, -5.4650e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 89, time 213.98, cls_loss 0.0027 cls_loss_mapping 0.0081 cls_loss_causal 0.6064 re_mapping 0.0084 re_causal 0.0267 /// teacc 99.13 lr 0.00010000
+Epoch 91, weight, value: tensor([[-0.0267,  0.0207, -0.0064,  ..., -0.0521, -0.0435,  0.0523],
+        [-0.0215, -0.0101, -0.0449,  ...,  0.1030, -0.0536, -0.0385],
+        [-0.0121, -0.0243,  0.1357,  ..., -0.0673, -0.0912, -0.0513],
+        ...,
+        [-0.0315, -0.0439, -0.0072,  ...,  0.0022,  0.0659, -0.0204],
+        [-0.0485, -0.0436, -0.0270,  ..., -0.0727,  0.0148, -0.0793],
+        [-0.1066, -0.0290, -0.0854,  ..., -0.0731,  0.0195,  0.0594]],
+       device='cuda:0'), grad: tensor([[ 1.4618e-05,  0.0000e+00, -7.1190e-06,  ...,  9.7305e-06,
+          4.6343e-06, -1.5423e-05],
+        [ 6.6943e-06,  0.0000e+00,  2.0102e-05,  ..., -1.2290e-04,
+          1.8731e-05, -2.5302e-05],
+        [ 4.2021e-05,  0.0000e+00,  1.5235e-04,  ...,  2.1324e-05,
+          1.4043e-04,  6.1691e-06],
+        ...,
+        [-8.0407e-05,  0.0000e+00, -4.3678e-04,  ...,  5.0306e-05,
+         -4.0889e-04,  1.9670e-05],
+        [ 1.3113e-05,  0.0000e+00,  4.9055e-05,  ...,  7.3500e-06,
+          4.5508e-05,  2.7537e-05],
+        [ 5.2415e-06,  0.0000e+00,  4.3899e-05,  ...,  7.8753e-06,
+          3.4899e-05, -1.7655e-04]], device='cuda:0')
+Epoch 91, bias, value: tensor([-0.0332, -0.0317,  0.0148,  0.0308, -0.0246,  0.0081, -0.0108,  0.0109,
+         0.0170,  0.0005], device='cuda:0'), grad: tensor([ 1.5691e-05, -3.3140e-04,  4.5180e-04, -2.6543e-06,  1.2722e-03,
+         4.7654e-05, -4.6778e-04, -8.6117e-04,  1.9872e-04, -3.2234e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 90, time 214.25, cls_loss 0.0044 cls_loss_mapping 0.0121 cls_loss_causal 0.5896 re_mapping 0.0091 re_causal 0.0268 /// teacc 98.96 lr 0.00010000
+Epoch 92, weight, value: tensor([[-0.0273,  0.0223, -0.0052,  ..., -0.0525, -0.0437,  0.0528],
+        [-0.0217, -0.0101, -0.0453,  ...,  0.1035, -0.0539, -0.0386],
+        [-0.0122, -0.0238,  0.1375,  ..., -0.0676, -0.0908, -0.0520],
+        ...,
+        [-0.0320, -0.0442, -0.0084,  ...,  0.0019,  0.0658, -0.0208],
+        [-0.0492, -0.0436, -0.0266,  ..., -0.0733,  0.0153, -0.0787],
+        [-0.1071, -0.0294, -0.0863,  ..., -0.0732,  0.0192,  0.0598]],
+       device='cuda:0'), grad: tensor([[ 8.7777e-07,  0.0000e+00,  2.4959e-06,  ...,  1.0692e-05,
+          8.8848e-07,  4.9546e-06],
+        [ 2.7847e-06,  0.0000e+00,  1.8915e-06,  ..., -5.8487e-06,
+          5.5833e-07,  4.9686e-07],
+        [ 1.0235e-06,  0.0000e+00, -2.8744e-05,  ...,  4.4378e-07,
+          6.0722e-07,  5.6019e-07],
+        ...,
+        [ 1.3210e-05,  0.0000e+00,  4.6566e-06,  ...,  1.4473e-06,
+          1.1977e-06,  9.4855e-07],
+        [ 1.7704e-06,  0.0000e+00,  5.1819e-06,  ...,  9.9186e-07,
+          8.1258e-07,  2.0545e-06],
+        [ 1.9118e-05,  0.0000e+00,  9.2806e-07,  ...,  8.5635e-07,
+          2.6636e-06, -3.6322e-06]], device='cuda:0')
+Epoch 92, bias, value: tensor([-0.0330, -0.0317,  0.0149,  0.0331, -0.0251,  0.0079, -0.0112,  0.0101,
+         0.0163,  0.0004], device='cuda:0'), grad: tensor([ 2.2411e-05,  1.3188e-06, -2.6524e-05,  3.1888e-05, -4.4554e-05,
+        -2.1473e-05, -7.0073e-06,  2.3708e-05,  2.5667e-06,  1.7673e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 91, time 214.28, cls_loss 0.0029 cls_loss_mapping 0.0083 cls_loss_causal 0.5912 re_mapping 0.0089 re_causal 0.0267 /// teacc 98.97 lr 0.00010000
+Epoch 93, weight, value: tensor([[-0.0277,  0.0223, -0.0050,  ..., -0.0530, -0.0441,  0.0527],
+        [-0.0223, -0.0101, -0.0458,  ...,  0.1042, -0.0544, -0.0387],
+        [-0.0122, -0.0237,  0.1390,  ..., -0.0680, -0.0909, -0.0524],
+        ...,
+        [-0.0326, -0.0442, -0.0087,  ...,  0.0013,  0.0664, -0.0209],
+        [-0.0494, -0.0437, -0.0275,  ..., -0.0739,  0.0157, -0.0788],
+        [-0.1073, -0.0294, -0.0866,  ..., -0.0727,  0.0188,  0.0605]],
+       device='cuda:0'), grad: tensor([[ 1.9614e-06,  0.0000e+00, -8.4266e-06,  ...,  1.5870e-06,
+         -4.0606e-07, -4.2804e-06],
+        [ 2.1402e-06,  0.0000e+00,  5.9325e-07,  ..., -9.1314e-05,
+          1.7025e-06,  1.4771e-06],
+        [ 7.0222e-07,  0.0000e+00, -4.5169e-08,  ...,  2.1517e-05,
+          1.9046e-06,  1.4016e-06],
+        ...,
+        [ 6.9067e-06,  0.0000e+00, -9.8795e-06,  ...,  2.0742e-05,
+         -4.7058e-05,  3.2336e-06],
+        [ 1.9538e-04,  0.0000e+00,  2.8610e-06,  ...,  1.3612e-05,
+          6.5044e-06,  3.6740e-04],
+        [-2.0456e-04,  0.0000e+00,  6.4559e-06,  ...,  6.2399e-06,
+          3.1173e-05, -4.2725e-04]], device='cuda:0')
+Epoch 93, bias, value: tensor([-0.0335, -0.0314,  0.0153,  0.0328, -0.0255,  0.0078, -0.0117,  0.0101,
+         0.0166,  0.0009], device='cuda:0'), grad: tensor([-5.9456e-06, -1.7393e-04,  4.8995e-05,  2.5606e-04,  1.0610e-05,
+        -7.1764e-05,  2.0742e-05, -4.4256e-05,  1.0557e-03, -1.0967e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 92, time 214.38, cls_loss 0.0032 cls_loss_mapping 0.0102 cls_loss_causal 0.5873 re_mapping 0.0079 re_causal 0.0255 /// teacc 98.94 lr 0.00010000
+Epoch 94, weight, value: tensor([[-2.8471e-02,  2.2298e-02, -4.5561e-03,  ..., -5.3449e-02,
+         -4.4358e-02,  5.2974e-02],
+        [-2.2698e-02, -1.0099e-02, -4.6294e-02,  ...,  1.0538e-01,
+         -5.3089e-02, -3.8805e-02],
+        [-1.2412e-02, -2.3606e-02,  1.4001e-01,  ..., -6.8627e-02,
+         -9.1246e-02, -5.2659e-02],
+        ...,
+        [-3.3376e-02, -4.4267e-02, -8.4083e-03,  ..., -3.0199e-05,
+          6.6641e-02, -2.1043e-02],
+        [-4.9329e-02, -4.3721e-02, -2.8206e-02,  ..., -7.4380e-02,
+          1.5710e-02, -7.8905e-02],
+        [-1.0929e-01, -2.9342e-02, -8.7437e-02,  ..., -7.3637e-02,
+          1.8309e-02,  6.0592e-02]], device='cuda:0'), grad: tensor([[ 4.6846e-07,  0.0000e+00, -5.1688e-08,  ...,  1.2768e-06,
+          2.0079e-06,  6.2771e-07],
+        [ 1.4799e-06,  0.0000e+00,  1.2256e-05,  ...,  5.0031e-06,
+          3.8385e-05,  9.2434e-07],
+        [ 5.6624e-07,  0.0000e+00,  5.2759e-07,  ...,  9.9931e-07,
+          8.1211e-06,  4.7870e-07],
+        ...,
+        [ 6.1654e-07,  0.0000e+00, -3.4511e-05,  ..., -1.2763e-05,
+         -1.3876e-04, -5.3877e-07],
+        [ 2.5909e-06,  0.0000e+00,  8.8476e-07,  ...,  1.2806e-06,
+          6.7875e-06,  7.0892e-06],
+        [-1.6302e-05,  0.0000e+00,  1.3590e-05,  ...,  4.7907e-06,
+          4.3303e-05, -4.6343e-05]], device='cuda:0')
+Epoch 94, bias, value: tensor([-0.0334, -0.0302,  0.0153,  0.0323, -0.0244,  0.0077, -0.0123,  0.0096,
+         0.0170, -0.0005], device='cuda:0'), grad: tensor([ 6.0312e-06,  8.8096e-05,  1.8165e-05,  7.9811e-05,  7.7963e-05,
+         9.4203e-07, -2.7660e-06, -2.9254e-04,  2.2113e-05,  2.0508e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 93, time 214.40, cls_loss 0.0039 cls_loss_mapping 0.0109 cls_loss_causal 0.5587 re_mapping 0.0077 re_causal 0.0245 /// teacc 99.03 lr 0.00010000
+Epoch 95, weight, value: tensor([[-0.0285,  0.0223, -0.0050,  ..., -0.0512, -0.0446,  0.0524],
+        [-0.0229, -0.0101, -0.0485,  ...,  0.1046, -0.0536, -0.0389],
+        [-0.0126, -0.0232,  0.1415,  ..., -0.0692, -0.0922, -0.0530],
+        ...,
+        [-0.0341, -0.0444, -0.0098,  ..., -0.0003,  0.0665, -0.0211],
+        [-0.0498, -0.0438, -0.0281,  ..., -0.0728,  0.0160, -0.0800],
+        [-0.1096, -0.0294, -0.0873,  ..., -0.0740,  0.0178,  0.0616]],
+       device='cuda:0'), grad: tensor([[ 6.9709e-07,  0.0000e+00,  7.5158e-07,  ...,  1.0580e-06,
+          1.7881e-07, -1.7136e-07],
+        [ 5.7407e-06,  0.0000e+00,  4.0680e-06,  ..., -7.0743e-06,
+          9.8534e-07,  2.0061e-06],
+        [ 3.5064e-07,  0.0000e+00, -4.2886e-05,  ..., -5.2992e-07,
+          3.9628e-07,  7.0920e-07],
+        ...,
+        [ 3.2652e-06,  0.0000e+00,  1.8850e-06,  ...,  2.7567e-06,
+         -2.5518e-06,  1.3635e-06],
+        [ 6.1654e-07,  0.0000e+00,  1.6451e-05,  ...,  4.1462e-06,
+          6.8545e-07,  2.9895e-06],
+        [ 7.6294e-05,  0.0000e+00,  6.5984e-07,  ...,  3.1054e-05,
+          6.0489e-07,  1.7941e-05]], device='cuda:0')
+Epoch 95, bias, value: tensor([-3.3316e-02, -3.1589e-02,  1.4672e-02,  3.1611e-02, -2.4567e-02,
+         8.4197e-03, -1.3645e-02,  8.8930e-03,  1.9047e-02, -8.8583e-05],
+       device='cuda:0'), grad: tensor([ 4.0047e-06,  3.8669e-06, -6.3956e-05,  1.3478e-05, -1.7130e-04,
+         1.2413e-05,  8.6194e-07,  1.0163e-05,  3.6269e-05,  1.5426e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 94, time 214.09, cls_loss 0.0030 cls_loss_mapping 0.0096 cls_loss_causal 0.5918 re_mapping 0.0079 re_causal 0.0251 /// teacc 98.93 lr 0.00010000
+Epoch 96, weight, value: tensor([[-0.0291,  0.0227, -0.0049,  ..., -0.0513, -0.0450,  0.0513],
+        [-0.0226, -0.0102, -0.0487,  ...,  0.1055, -0.0538, -0.0389],
+        [-0.0130, -0.0226,  0.1418,  ..., -0.0700, -0.0930, -0.0532],
+        ...,
+        [-0.0345, -0.0445, -0.0092,  ..., -0.0005,  0.0673, -0.0213],
+        [-0.0503, -0.0441, -0.0281,  ..., -0.0738,  0.0154, -0.0804],
+        [-0.1100, -0.0295, -0.0879,  ..., -0.0745,  0.0175,  0.0633]],
+       device='cuda:0'), grad: tensor([[ 2.4233e-06,  0.0000e+00, -5.6960e-06,  ...,  3.8631e-06,
+          4.7171e-07, -3.6880e-07],
+        [ 2.7165e-05,  0.0000e+00,  1.4892e-06,  ..., -2.5019e-05,
+          8.5821e-07, -8.2925e-06],
+        [ 3.6489e-06,  0.0000e+00, -1.9707e-06,  ...,  2.0936e-06,
+          1.0217e-06,  2.1588e-06],
+        ...,
+        [ 4.0025e-05,  0.0000e+00,  3.9190e-06,  ...,  1.2711e-05,
+         -7.2308e-06,  3.1441e-06],
+        [ 1.2383e-05,  0.0000e+00, -2.9817e-05,  ...,  5.4277e-06,
+         -5.0701e-06, -1.4350e-05],
+        [ 3.9369e-05,  0.0000e+00,  1.9982e-05,  ...,  6.1803e-06,
+          6.9067e-06,  3.2354e-06]], device='cuda:0')
+Epoch 96, bias, value: tensor([-0.0346, -0.0310,  0.0141,  0.0306, -0.0250,  0.0083, -0.0133,  0.0094,
+         0.0198,  0.0004], device='cuda:0'), grad: tensor([ 1.3694e-05, -3.8683e-05,  1.2577e-05,  1.2882e-05, -1.4889e-04,
+         3.9607e-05,  2.2709e-05,  8.9586e-05, -1.3006e-04,  1.2660e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 95, time 214.58, cls_loss 0.0025 cls_loss_mapping 0.0081 cls_loss_causal 0.5397 re_mapping 0.0082 re_causal 0.0256 /// teacc 99.01 lr 0.00010000
+Epoch 97, weight, value: tensor([[-0.0295,  0.0226, -0.0043,  ..., -0.0515, -0.0454,  0.0516],
+        [-0.0236, -0.0102, -0.0492,  ...,  0.1058, -0.0540, -0.0387],
+        [-0.0119, -0.0223,  0.1429,  ..., -0.0696, -0.0931, -0.0534],
+        ...,
+        [-0.0353, -0.0452, -0.0096,  ..., -0.0007,  0.0673, -0.0223],
+        [-0.0507, -0.0443, -0.0284,  ..., -0.0739,  0.0149, -0.0815],
+        [-0.1107, -0.0296, -0.0883,  ..., -0.0751,  0.0175,  0.0637]],
+       device='cuda:0'), grad: tensor([[ 3.8324e-07,  4.1910e-09,  8.5384e-06,  ...,  6.2166e-07,
+          6.7521e-07,  6.7474e-07],
+        [ 1.1381e-06,  4.6566e-10,  7.8231e-07,  ..., -7.3239e-06,
+          4.6846e-07,  3.9069e-07],
+        [ 5.2014e-07,  4.6566e-10, -1.9595e-05,  ...,  8.2003e-07,
+          1.8384e-06,  1.5572e-06],
+        ...,
+        [ 2.0824e-06,  3.2596e-09,  2.8647e-06,  ...,  9.3179e-07,
+          1.2293e-06,  3.1050e-06],
+        [ 7.2457e-07,  1.8626e-09, -6.0111e-05,  ...,  4.6678e-06,
+         -7.6771e-05, -7.8559e-05],
+        [ 5.2005e-06,  1.5367e-08,  5.5581e-05,  ...,  1.2256e-06,
+          6.7711e-05,  6.7413e-05]], device='cuda:0')
+Epoch 97, bias, value: tensor([-0.0346, -0.0312,  0.0148,  0.0316, -0.0248,  0.0070, -0.0130,  0.0088,
+         0.0197,  0.0003], device='cuda:0'), grad: tensor([ 1.3635e-05, -9.5069e-06, -9.4920e-06,  1.1861e-05, -1.2033e-05,
+         3.2902e-05, -3.5074e-06,  1.8165e-05, -4.6444e-04,  4.2295e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 96, time 214.90, cls_loss 0.0022 cls_loss_mapping 0.0077 cls_loss_causal 0.5657 re_mapping 0.0077 re_causal 0.0247 /// teacc 99.03 lr 0.00010000
+Epoch 98, weight, value: tensor([[-0.0298,  0.0225, -0.0035,  ..., -0.0517, -0.0457,  0.0520],
+        [-0.0244, -0.0102, -0.0499,  ...,  0.1062, -0.0545, -0.0386],
+        [-0.0111, -0.0223,  0.1435,  ..., -0.0696, -0.0938, -0.0541],
+        ...,
+        [-0.0361, -0.0454, -0.0091,  ..., -0.0008,  0.0685, -0.0221],
+        [-0.0510, -0.0446, -0.0286,  ..., -0.0743,  0.0145, -0.0819],
+        [-0.1113, -0.0296, -0.0888,  ..., -0.0754,  0.0167,  0.0640]],
+       device='cuda:0'), grad: tensor([[ 2.5379e-07,  0.0000e+00, -3.2276e-05,  ...,  2.3982e-07,
+          1.3122e-06, -3.6538e-05],
+        [ 9.1828e-07,  0.0000e+00,  1.1874e-06,  ..., -3.8631e-06,
+          1.3644e-06,  1.5022e-06],
+        [ 5.7416e-07,  0.0000e+00, -3.9041e-06,  ...,  5.4715e-07,
+          1.3169e-06,  3.6787e-06],
+        ...,
+        [-7.0920e-07,  0.0000e+00,  4.4256e-06,  ...,  5.1083e-07,
+         -2.1234e-06,  1.0192e-05],
+        [ 5.5227e-07,  0.0000e+00,  8.9407e-08,  ...,  1.6280e-06,
+          2.0973e-06,  6.3442e-06],
+        [ 1.5823e-06,  0.0000e+00,  2.1994e-05,  ...,  5.2853e-07,
+         -7.6368e-06, -9.5218e-06]], device='cuda:0')
+Epoch 98, bias, value: tensor([-0.0345, -0.0311,  0.0149,  0.0315, -0.0250,  0.0069, -0.0126,  0.0093,
+         0.0195,  0.0003], device='cuda:0'), grad: tensor([-4.3988e-05, -1.1064e-06,  5.0515e-06,  2.8640e-05,  5.4628e-05,
+        -1.6487e-04,  1.3781e-04,  2.0087e-05,  2.4922e-06, -3.8803e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 97, time 214.80, cls_loss 0.0025 cls_loss_mapping 0.0077 cls_loss_causal 0.5657 re_mapping 0.0079 re_causal 0.0240 /// teacc 98.97 lr 0.00010000
+Epoch 99, weight, value: tensor([[-0.0304,  0.0225, -0.0033,  ..., -0.0516, -0.0460,  0.0524],
+        [-0.0251, -0.0102, -0.0502,  ...,  0.1067, -0.0549, -0.0386],
+        [-0.0112, -0.0222,  0.1439,  ..., -0.0700, -0.0944, -0.0544],
+        ...,
+        [-0.0370, -0.0454, -0.0086,  ..., -0.0010,  0.0695, -0.0227],
+        [-0.0510, -0.0447, -0.0289,  ..., -0.0752,  0.0138, -0.0830],
+        [-0.1119, -0.0295, -0.0890,  ..., -0.0756,  0.0165,  0.0646]],
+       device='cuda:0'), grad: tensor([[ 4.8243e-07,  2.4820e-07,  1.8582e-05,  ...,  8.1882e-06,
+          2.6487e-06,  9.6112e-06],
+        [ 6.0424e-06,  8.8476e-09,  1.9986e-06,  ..., -3.2615e-06,
+          6.2492e-07,  9.4809e-07],
+        [ 1.8906e-07, -3.5763e-07, -9.2089e-05,  ...,  1.6484e-06,
+          6.2119e-07,  8.2189e-07],
+        ...,
+        [ 4.4797e-07,  9.7323e-08,  9.1419e-06,  ...,  3.8818e-06,
+         -9.2238e-06, -2.0443e-07],
+        [ 2.7008e-06,  7.4506e-08,  4.4465e-05,  ...,  9.8944e-06,
+          2.6599e-06,  1.3441e-05],
+        [ 9.9558e-07, -9.9838e-07,  3.8221e-06,  ...,  9.6206e-07,
+          4.0233e-06, -8.4564e-06]], device='cuda:0')
+Epoch 99, bias, value: tensor([-0.0343, -0.0307,  0.0146,  0.0312, -0.0250,  0.0071, -0.0130,  0.0095,
+         0.0191,  0.0004], device='cuda:0'), grad: tensor([ 5.8770e-05,  4.6045e-06, -1.1247e-04,  2.4900e-05, -2.4065e-05,
+         3.4660e-05, -9.2089e-05,  1.1258e-05,  9.1672e-05,  2.6785e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 98, time 214.26, cls_loss 0.0028 cls_loss_mapping 0.0075 cls_loss_causal 0.5596 re_mapping 0.0077 re_causal 0.0241 /// teacc 98.99 lr 0.00010000
+Epoch 100, weight, value: tensor([[-0.0307,  0.0225, -0.0051,  ..., -0.0517, -0.0465,  0.0508],
+        [-0.0258, -0.0102, -0.0507,  ...,  0.1070, -0.0552, -0.0387],
+        [-0.0111, -0.0220,  0.1436,  ..., -0.0703, -0.0965, -0.0550],
+        ...,
+        [-0.0373, -0.0455, -0.0088,  ..., -0.0008,  0.0702, -0.0232],
+        [-0.0510, -0.0449, -0.0293,  ..., -0.0756,  0.0136, -0.0834],
+        [-0.1123, -0.0291, -0.0874,  ..., -0.0760,  0.0163,  0.0668]],
+       device='cuda:0'), grad: tensor([[ 6.6170e-07,  0.0000e+00, -3.9767e-07,  ...,  7.4226e-07,
+          3.9488e-07,  5.4389e-07],
+        [ 2.7921e-06,  0.0000e+00,  6.1886e-07,  ...,  1.1856e-06,
+          1.4501e-06,  6.2399e-07],
+        [ 1.5479e-06,  0.0000e+00, -1.6065e-06,  ...,  9.0571e-07,
+          1.0468e-06,  9.5740e-07],
+        ...,
+        [ 1.3411e-06,  0.0000e+00, -5.3048e-06,  ...,  5.8487e-07,
+         -1.7434e-05,  1.5413e-06],
+        [ 8.3493e-07,  0.0000e+00,  2.0042e-06,  ...,  6.7567e-07,
+          3.8296e-06,  6.2659e-06],
+        [ 4.3400e-06,  0.0000e+00,  1.2964e-06,  ...,  1.1427e-06,
+          2.8349e-06, -2.6710e-06]], device='cuda:0')
+Epoch 100, bias, value: tensor([-0.0361, -0.0308,  0.0140,  0.0322, -0.0251,  0.0066, -0.0129,  0.0098,
+         0.0190,  0.0017], device='cuda:0'), grad: tensor([ 6.7092e-06,  9.4771e-06,  8.0243e-06, -1.0455e-04, -1.9804e-05,
+         5.8085e-05,  6.5230e-06, -1.5274e-05,  3.6269e-05,  1.4454e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 99, time 214.68, cls_loss 0.0022 cls_loss_mapping 0.0073 cls_loss_causal 0.5828 re_mapping 0.0074 re_causal 0.0243 /// teacc 98.98 lr 0.00010000
+Epoch 101, weight, value: tensor([[-0.0309,  0.0210, -0.0039,  ..., -0.0518, -0.0474,  0.0511],
+        [-0.0262, -0.0103, -0.0510,  ...,  0.1075, -0.0554, -0.0390],
+        [-0.0112, -0.0221,  0.1428,  ..., -0.0706, -0.0977, -0.0558],
+        ...,
+        [-0.0380, -0.0447, -0.0080,  ..., -0.0013,  0.0712, -0.0232],
+        [-0.0512, -0.0451, -0.0295,  ..., -0.0759,  0.0133, -0.0839],
+        [-0.1129, -0.0294, -0.0880,  ..., -0.0762,  0.0157,  0.0667]],
+       device='cuda:0'), grad: tensor([[ 7.6229e-07,  0.0000e+00,  4.9956e-06,  ...,  7.2597e-07,
+          2.4345e-06,  5.0068e-05],
+        [ 1.6894e-06,  0.0000e+00,  1.2152e-05,  ..., -8.4639e-06,
+          1.0699e-05,  1.1012e-05],
+        [ 7.5391e-07,  0.0000e+00,  5.0217e-05,  ...,  6.9244e-07,
+          4.4316e-05,  6.6906e-06],
+        ...,
+        [ 1.9986e-06,  0.0000e+00,  7.1228e-05,  ...,  8.3772e-07,
+         -5.3048e-05,  7.1144e-04],
+        [ 1.7453e-06,  0.0000e+00,  8.4713e-06,  ...,  6.1840e-06,
+          7.3649e-06,  9.1046e-06],
+        [ 1.4916e-05,  0.0000e+00, -1.6570e-04,  ...,  2.5183e-06,
+         -1.6376e-05, -8.8263e-04]], device='cuda:0')
+Epoch 101, bias, value: tensor([-0.0360, -0.0306,  0.0130,  0.0327, -0.0249,  0.0066, -0.0131,  0.0103,
+         0.0189,  0.0012], device='cuda:0'), grad: tensor([ 8.7082e-05,  2.8670e-05,  1.0622e-04,  6.9797e-05,  5.9813e-05,
+         1.9103e-05,  1.4037e-05,  1.0824e-03,  4.5270e-05, -1.5135e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 100, time 214.48, cls_loss 0.0024 cls_loss_mapping 0.0079 cls_loss_causal 0.5651 re_mapping 0.0072 re_causal 0.0226 /// teacc 99.06 lr 0.00010000
+Epoch 102, weight, value: tensor([[-0.0319,  0.0211, -0.0036,  ..., -0.0520, -0.0478,  0.0513],
+        [-0.0267, -0.0103, -0.0515,  ...,  0.1082, -0.0557, -0.0391],
+        [-0.0107, -0.0222,  0.1431,  ..., -0.0709, -0.0979, -0.0563],
+        ...,
+        [-0.0386, -0.0447, -0.0078,  ..., -0.0017,  0.0717, -0.0241],
+        [-0.0514, -0.0452, -0.0297,  ..., -0.0768,  0.0132, -0.0844],
+        [-0.1146, -0.0293, -0.0881,  ..., -0.0764,  0.0153,  0.0671]],
+       device='cuda:0'), grad: tensor([[ 3.9767e-07,  4.6566e-10, -3.2280e-06,  ...,  6.7288e-07,
+          1.2126e-06, -2.5015e-06],
+        [ 1.2582e-06,  9.3132e-10,  3.3667e-07,  ...,  1.2107e-07,
+          1.1371e-06,  6.5891e-07],
+        [ 4.1444e-07,  2.6077e-08,  1.8254e-06,  ...,  6.0908e-07,
+          2.3805e-06,  1.4324e-06],
+        ...,
+        [ 4.6659e-07,  4.6566e-10, -4.3921e-06,  ...,  3.3993e-07,
+         -4.2319e-06, -1.5832e-06],
+        [ 8.0513e-07,  1.3970e-09,  8.8010e-07,  ...,  1.4026e-06,
+          8.8811e-06,  4.2357e-06],
+        [ 4.9695e-06,  4.6566e-10,  4.5113e-06,  ...,  2.5462e-06,
+          4.3735e-06,  1.7416e-06]], device='cuda:0')
+Epoch 102, bias, value: tensor([-0.0362, -0.0303,  0.0129,  0.0328, -0.0240,  0.0068, -0.0134,  0.0102,
+         0.0189,  0.0006], device='cuda:0'), grad: tensor([ 1.4976e-06,  4.8839e-06,  1.6004e-05,  4.2282e-06, -7.8753e-06,
+        -8.3745e-05,  3.7760e-05, -5.0887e-06,  1.4573e-05,  1.7673e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 101, time 214.56, cls_loss 0.0023 cls_loss_mapping 0.0075 cls_loss_causal 0.6185 re_mapping 0.0076 re_causal 0.0239 /// teacc 99.02 lr 0.00010000
+Epoch 103, weight, value: tensor([[-0.0323,  0.0210, -0.0030,  ..., -0.0521, -0.0481,  0.0515],
+        [-0.0261, -0.0103, -0.0519,  ...,  0.1089, -0.0560, -0.0392],
+        [-0.0109, -0.0220,  0.1434,  ..., -0.0713, -0.0981, -0.0567],
+        ...,
+        [-0.0392, -0.0447, -0.0072,  ..., -0.0019,  0.0722, -0.0246],
+        [-0.0522, -0.0453, -0.0300,  ..., -0.0777,  0.0130, -0.0850],
+        [-0.1168, -0.0292, -0.0884,  ..., -0.0769,  0.0148,  0.0671]],
+       device='cuda:0'), grad: tensor([[ 3.5204e-07, -1.5333e-05, -2.4319e-04,  ...,  1.0598e-06,
+          9.1735e-07, -2.5177e-04],
+        [ 1.5544e-06,  3.6787e-08,  1.4260e-05,  ...,  7.0408e-07,
+          2.4308e-06,  2.0880e-06],
+        [ 2.7893e-07,  7.7020e-07, -3.3617e-05,  ...,  1.8440e-07,
+          1.0477e-06,  6.5267e-05],
+        ...,
+        [ 1.0617e-06,  3.6787e-08,  5.4359e-05,  ..., -9.8534e-07,
+         -1.1288e-05,  2.0247e-06],
+        [ 1.6401e-06,  1.2545e-06,  6.7651e-05,  ...,  8.1724e-07,
+          2.3358e-06,  5.6118e-05],
+        [ 6.0610e-06,  9.1642e-06,  4.7326e-05,  ...,  1.8999e-06,
+          5.6289e-06,  6.0201e-05]], device='cuda:0')
+Epoch 103, bias, value: tensor([-0.0361, -0.0300,  0.0127,  0.0327, -0.0233,  0.0071, -0.0129,  0.0108,
+         0.0184, -0.0004], device='cuda:0'), grad: tensor([-4.6301e-04,  4.5985e-05, -8.0585e-05,  9.6560e-05,  3.1795e-06,
+        -1.1556e-05,  8.6367e-05,  1.0371e-04,  8.7261e-05,  1.3244e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 102, time 214.60, cls_loss 0.0021 cls_loss_mapping 0.0064 cls_loss_causal 0.5883 re_mapping 0.0073 re_causal 0.0238 /// teacc 99.03 lr 0.00010000
+Epoch 104, weight, value: tensor([[-0.0327,  0.0212, -0.0025,  ..., -0.0523, -0.0483,  0.0517],
+        [-0.0264, -0.0103, -0.0524,  ...,  0.1091, -0.0562, -0.0394],
+        [-0.0110, -0.0218,  0.1440,  ..., -0.0716, -0.0981, -0.0571],
+        ...,
+        [-0.0400, -0.0447, -0.0074,  ..., -0.0020,  0.0727, -0.0247],
+        [-0.0524, -0.0454, -0.0298,  ..., -0.0777,  0.0129, -0.0847],
+        [-0.1171, -0.0293, -0.0893,  ..., -0.0773,  0.0146,  0.0671]],
+       device='cuda:0'), grad: tensor([[ 1.5087e-07,  0.0000e+00,  9.3551e-07,  ...,  1.1632e-06,
+          1.3448e-06, -8.6473e-07],
+        [ 5.3085e-08,  0.0000e+00,  1.4929e-06,  ..., -1.3269e-05,
+          1.8002e-06,  3.2457e-07],
+        [ 7.9628e-08,  0.0000e+00, -3.1423e-06,  ...,  2.1905e-06,
+          3.9227e-06,  4.1537e-07],
+        ...,
+        [ 1.8626e-09,  0.0000e+00, -2.2531e-05,  ...,  3.6489e-06,
+         -3.1233e-05,  7.1190e-06],
+        [ 2.1653e-07,  0.0000e+00,  1.8086e-06,  ...,  2.9355e-06,
+          4.6417e-06,  1.7118e-06],
+        [ 1.1176e-08,  0.0000e+00,  1.6049e-05,  ...,  6.6077e-07,
+          1.7464e-05, -1.2137e-05]], device='cuda:0')
+Epoch 104, bias, value: tensor([-0.0361, -0.0303,  0.0129,  0.0325, -0.0235,  0.0070, -0.0124,  0.0109,
+         0.0191, -0.0010], device='cuda:0'), grad: tensor([ 7.3053e-06, -1.3642e-05,  1.1750e-05,  4.7415e-05,  9.4026e-06,
+        -2.3946e-05, -3.3453e-06, -5.0515e-05, -1.6317e-05,  3.1739e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 103, time 214.51, cls_loss 0.0018 cls_loss_mapping 0.0066 cls_loss_causal 0.5784 re_mapping 0.0078 re_causal 0.0238 /// teacc 99.11 lr 0.00010000
+Epoch 105, weight, value: tensor([[-0.0331,  0.0212, -0.0018,  ..., -0.0525, -0.0485,  0.0519],
+        [-0.0265, -0.0104, -0.0529,  ...,  0.1095, -0.0565, -0.0395],
+        [-0.0111, -0.0218,  0.1444,  ..., -0.0718, -0.0982, -0.0574],
+        ...,
+        [-0.0405, -0.0447, -0.0073,  ..., -0.0022,  0.0732, -0.0252],
+        [-0.0533, -0.0456, -0.0300,  ..., -0.0781,  0.0125, -0.0859],
+        [-0.1171, -0.0293, -0.0898,  ..., -0.0776,  0.0144,  0.0679]],
+       device='cuda:0'), grad: tensor([[ 1.4305e-06,  0.0000e+00, -4.4629e-06,  ..., -8.0513e-07,
+         -3.9767e-07, -1.0647e-05],
+        [ 9.9931e-07,  0.0000e+00,  1.2815e-05,  ...,  2.5809e-05,
+          4.4137e-05,  7.1600e-06],
+        [ 1.8440e-07,  0.0000e+00, -2.2277e-05,  ...,  9.2536e-06,
+          1.4283e-05,  1.6149e-06],
+        ...,
+        [ 1.8952e-07,  0.0000e+00, -1.1913e-05,  ..., -4.4197e-05,
+         -8.1658e-05,  1.7986e-05],
+        [-8.1360e-06,  0.0000e+00,  3.7272e-06,  ...,  8.5728e-07,
+         -3.5223e-06, -2.5779e-06],
+        [ 6.4299e-06,  0.0000e+00,  3.7588e-06,  ...,  2.3562e-06,
+          6.9737e-06, -4.9770e-05]], device='cuda:0')
+Epoch 105, bias, value: tensor([-0.0360, -0.0303,  0.0129,  0.0324, -0.0237,  0.0072, -0.0122,  0.0109,
+         0.0186, -0.0005], device='cuda:0'), grad: tensor([-4.2468e-06,  3.2783e-04,  8.4758e-05,  9.3639e-05,  9.3818e-05,
+         3.6150e-05, -1.8673e-06, -5.4264e-04, -2.3454e-05, -6.3956e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 104, time 214.61, cls_loss 0.0017 cls_loss_mapping 0.0058 cls_loss_causal 0.5377 re_mapping 0.0079 re_causal 0.0233 /// teacc 99.07 lr 0.00010000
+Epoch 106, weight, value: tensor([[-0.0340,  0.0212, -0.0010,  ..., -0.0530, -0.0491,  0.0522],
+        [-0.0257, -0.0104, -0.0533,  ...,  0.1101, -0.0569, -0.0396],
+        [-0.0113, -0.0218,  0.1447,  ..., -0.0721, -0.0984, -0.0577],
+        ...,
+        [-0.0410, -0.0446, -0.0071,  ..., -0.0024,  0.0741, -0.0254],
+        [-0.0541, -0.0457, -0.0301,  ..., -0.0785,  0.0123, -0.0864],
+        [-0.1177, -0.0292, -0.0906,  ..., -0.0781,  0.0141,  0.0680]],
+       device='cuda:0'), grad: tensor([[ 1.5507e-07,  3.4459e-08,  1.0021e-05,  ...,  9.4064e-08,
+          1.6354e-06,  2.2296e-06],
+        [ 1.4715e-07,  1.9558e-08,  3.2671e-06,  ..., -1.0449e-06,
+          1.6419e-06,  1.0449e-06],
+        [ 5.0291e-08, -1.1176e-07, -6.7663e-04,  ...,  7.5437e-08,
+          2.4855e-05, -8.1956e-05],
+        ...,
+        [ 7.8231e-08,  6.0536e-09,  1.0893e-05,  ...,  1.9511e-07,
+          1.8515e-06,  3.1255e-06],
+        [ 6.8452e-08,  1.5367e-08, -7.4320e-06,  ...,  4.2608e-07,
+         -4.7535e-05, -2.0519e-05],
+        [ 2.5192e-07,  4.6566e-10,  6.2656e-04,  ...,  1.3737e-07,
+          4.3996e-06,  9.0420e-05]], device='cuda:0')
+Epoch 106, bias, value: tensor([-0.0360, -0.0302,  0.0130,  0.0323, -0.0237,  0.0071, -0.0116,  0.0112,
+         0.0185, -0.0008], device='cuda:0'), grad: tensor([ 2.4170e-05,  1.5453e-05, -4.0889e-04,  2.3410e-05,  1.5825e-05,
+         9.5427e-05,  1.7107e-05,  4.8757e-05, -4.6945e-04,  6.3848e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 105, time 214.30, cls_loss 0.0025 cls_loss_mapping 0.0065 cls_loss_causal 0.5995 re_mapping 0.0074 re_causal 0.0236 /// teacc 98.91 lr 0.00010000
+Epoch 107, weight, value: tensor([[-0.0344,  0.0212, -0.0008,  ..., -0.0532, -0.0493,  0.0524],
+        [-0.0265, -0.0104, -0.0554,  ...,  0.1103, -0.0579, -0.0396],
+        [-0.0099, -0.0218,  0.1457,  ..., -0.0721, -0.0985, -0.0577],
+        ...,
+        [-0.0411, -0.0447, -0.0066,  ..., -0.0017,  0.0752, -0.0260],
+        [-0.0546, -0.0457, -0.0302,  ..., -0.0791,  0.0118, -0.0869],
+        [-0.1175, -0.0291, -0.0912,  ..., -0.0785,  0.0137,  0.0686]],
+       device='cuda:0'), grad: tensor([[ 1.1139e-06,  0.0000e+00,  3.3110e-05,  ...,  1.5544e-06,
+          4.1753e-05,  1.6034e-05],
+        [ 2.6841e-06,  0.0000e+00,  6.3255e-06,  ..., -4.6976e-06,
+          7.0520e-06,  3.1404e-06],
+        [ 9.9838e-06,  0.0000e+00,  4.2617e-05,  ...,  3.2187e-06,
+          1.0937e-05,  3.3587e-05],
+        ...,
+        [ 3.5726e-06,  0.0000e+00,  8.8573e-05,  ...,  1.3262e-06,
+         -1.3041e-04,  1.1134e-04],
+        [-1.1072e-05,  0.0000e+00,  1.1191e-05,  ...,  1.4845e-06,
+          5.4426e-06,  7.7188e-06],
+        [ 3.5800e-06,  0.0000e+00, -2.5105e-04,  ...,  6.5332e-07,
+          2.2084e-05, -2.1529e-04]], device='cuda:0')
+Epoch 107, bias, value: tensor([-0.0360, -0.0310,  0.0136,  0.0319, -0.0247,  0.0079, -0.0121,  0.0122,
+         0.0185, -0.0006], device='cuda:0'), grad: tensor([ 1.0633e-04,  1.4029e-05,  2.2495e-04,  7.5340e-05,  1.2517e-05,
+         6.3479e-05,  2.5302e-05,  3.8952e-05, -1.6856e-04, -3.9291e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 106, time 214.41, cls_loss 0.0034 cls_loss_mapping 0.0083 cls_loss_causal 0.5666 re_mapping 0.0070 re_causal 0.0231 /// teacc 99.04 lr 0.00010000
+Epoch 108, weight, value: tensor([[-0.0353,  0.0226, -0.0007,  ..., -0.0536, -0.0500,  0.0525],
+        [-0.0263, -0.0104, -0.0556,  ...,  0.1110, -0.0582, -0.0397],
+        [-0.0102, -0.0217,  0.1464,  ..., -0.0727, -0.0988, -0.0583],
+        ...,
+        [-0.0419, -0.0472, -0.0088,  ..., -0.0020,  0.0742, -0.0294],
+        [-0.0549, -0.0462, -0.0306,  ..., -0.0795,  0.0112, -0.0876],
+        [-0.1175, -0.0304, -0.0900,  ..., -0.0789,  0.0137,  0.0700]],
+       device='cuda:0'), grad: tensor([[ 1.8161e-08,  0.0000e+00,  2.7612e-05,  ...,  1.3504e-08,
+          2.6403e-07,  1.1921e-07],
+        [ 3.1199e-08,  0.0000e+00,  6.3926e-06,  ..., -1.0896e-07,
+          3.5837e-06,  1.6624e-07],
+        [ 9.4064e-08,  0.0000e+00, -1.2302e-04,  ...,  1.2992e-07,
+          1.8114e-06,  1.3039e-07],
+        ...,
+        [ 1.0710e-08,  0.0000e+00, -5.8413e-06,  ...,  1.0245e-08,
+         -1.7583e-05,  4.1677e-07],
+        [ 5.4482e-08,  0.0000e+00,  1.2249e-05,  ...,  1.2666e-07,
+          1.2733e-05,  1.3284e-05],
+        [ 1.0524e-07,  0.0000e+00,  3.1982e-06,  ...,  1.7695e-08,
+          3.5502e-06, -4.9658e-06]], device='cuda:0')
+Epoch 108, bias, value: tensor([-0.0361, -0.0307,  0.0136,  0.0336, -0.0253,  0.0077, -0.0116,  0.0098,
+         0.0182,  0.0004], device='cuda:0'), grad: tensor([ 4.6939e-05,  2.8864e-05, -1.8680e-04,  1.3196e-04,  9.5069e-06,
+        -2.0057e-05,  1.3158e-05, -8.3327e-05,  4.8995e-05,  1.0632e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 107, time 214.36, cls_loss 0.0021 cls_loss_mapping 0.0063 cls_loss_causal 0.5247 re_mapping 0.0070 re_causal 0.0218 /// teacc 99.04 lr 0.00010000
+Epoch 109, weight, value: tensor([[-0.0359,  0.0232, -0.0002,  ..., -0.0537, -0.0502,  0.0526],
+        [-0.0266, -0.0105, -0.0560,  ...,  0.1112, -0.0586, -0.0398],
+        [-0.0109, -0.0217,  0.1468,  ..., -0.0734, -0.0990, -0.0587],
+        ...,
+        [-0.0409, -0.0478, -0.0082,  ..., -0.0020,  0.0744, -0.0298],
+        [-0.0552, -0.0464, -0.0308,  ..., -0.0798,  0.0110, -0.0881],
+        [-0.1181, -0.0309, -0.0905,  ..., -0.0793,  0.0131,  0.0704]],
+       device='cuda:0'), grad: tensor([[ 4.2431e-06,  0.0000e+00,  2.2557e-06,  ...,  1.0477e-07,
+         -4.0606e-06, -1.1750e-05],
+        [ 3.6228e-07,  0.0000e+00,  8.2776e-06,  ..., -1.1297e-06,
+          1.5302e-06,  1.6317e-06],
+        [ 9.0618e-07,  0.0000e+00, -5.5581e-05,  ...,  2.3609e-07,
+          8.6008e-07,  1.4091e-06],
+        ...,
+        [ 2.6450e-07,  0.0000e+00, -6.8963e-05,  ...,  7.6834e-08,
+         -2.0936e-05, -1.6779e-05],
+        [-1.2539e-05,  0.0000e+00,  1.9088e-05,  ...,  2.5611e-07,
+          1.0226e-06, -3.8333e-06],
+        [-1.1079e-05,  0.0000e+00,  6.3241e-05,  ...,  5.7742e-08,
+          1.7613e-05, -1.6600e-05]], device='cuda:0')
+Epoch 109, bias, value: tensor([-3.6206e-02, -3.0941e-02,  1.3253e-02,  3.3824e-02, -2.6164e-02,
+         7.6395e-03, -1.1116e-02,  1.0606e-02,  1.8092e-02,  3.6727e-05],
+       device='cuda:0'), grad: tensor([ 7.9535e-07,  1.7911e-05, -7.5161e-05,  4.3571e-05,  6.3777e-05,
+         1.1355e-05,  1.9655e-05, -1.7166e-04, -2.6673e-05,  1.1623e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 108, time 214.51, cls_loss 0.0019 cls_loss_mapping 0.0062 cls_loss_causal 0.5641 re_mapping 0.0073 re_causal 0.0227 /// teacc 99.04 lr 0.00010000
+Epoch 110, weight, value: tensor([[-0.0368,  0.0230,  0.0002,  ..., -0.0537, -0.0505,  0.0527],
+        [-0.0270, -0.0105, -0.0557,  ...,  0.1119, -0.0587, -0.0401],
+        [-0.0113, -0.0217,  0.1473,  ..., -0.0740, -0.0992, -0.0590],
+        ...,
+        [-0.0422, -0.0478, -0.0083,  ..., -0.0025,  0.0745, -0.0300],
+        [-0.0547, -0.0466, -0.0309,  ..., -0.0801,  0.0111, -0.0884],
+        [-0.1189, -0.0311, -0.0907,  ..., -0.0796,  0.0127,  0.0707]],
+       device='cuda:0'), grad: tensor([[ 3.5902e-07,  6.9849e-10, -9.3831e-07,  ...,  3.4226e-07,
+          4.6380e-07,  2.6776e-07],
+        [ 2.7032e-07,  1.1642e-09,  1.3784e-06,  ..., -8.1398e-07,
+          6.3982e-07,  4.6752e-07],
+        [ 3.1944e-07,  1.1642e-09, -1.4827e-05,  ...,  3.8301e-07,
+          9.3086e-07,  1.1884e-06],
+        ...,
+        [ 2.5379e-08,  3.2596e-09,  5.3644e-06,  ...,  1.4761e-07,
+         -3.9674e-06,  6.3796e-08],
+        [ 5.0059e-08,  1.6298e-09,  1.3923e-06,  ...,  6.7288e-07,
+          5.2042e-06,  4.4070e-06],
+        [-5.9465e-07,  3.2596e-09,  1.3663e-06,  ...,  7.5204e-08,
+          1.1306e-06, -9.1940e-06]], device='cuda:0')
+Epoch 110, bias, value: tensor([-0.0363, -0.0304,  0.0132,  0.0338, -0.0257,  0.0077, -0.0112,  0.0103,
+         0.0182, -0.0003], device='cuda:0'), grad: tensor([ 2.0768e-06,  2.3358e-06, -1.0245e-05,  1.0408e-05,  4.9397e-06,
+        -1.1712e-05,  1.5702e-06,  8.6892e-07,  1.0766e-05, -1.1079e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 109, time 214.37, cls_loss 0.0021 cls_loss_mapping 0.0065 cls_loss_causal 0.5559 re_mapping 0.0074 re_causal 0.0226 /// teacc 99.03 lr 0.00010000
+Epoch 111, weight, value: tensor([[-0.0379,  0.0230,  0.0008,  ..., -0.0539, -0.0510,  0.0531],
+        [-0.0256, -0.0105, -0.0561,  ...,  0.1128, -0.0591, -0.0402],
+        [-0.0117, -0.0217,  0.1479,  ..., -0.0743, -0.0994, -0.0594],
+        ...,
+        [-0.0425, -0.0478, -0.0079,  ..., -0.0026,  0.0751, -0.0302],
+        [-0.0551, -0.0473, -0.0312,  ..., -0.0808,  0.0109, -0.0889],
+        [-0.1212, -0.0314, -0.0915,  ..., -0.0798,  0.0119,  0.0707]],
+       device='cuda:0'), grad: tensor([[ 2.1886e-07,  0.0000e+00,  5.8748e-06,  ...,  8.1444e-07,
+          2.1141e-06, -5.1921e-08],
+        [ 6.5705e-07,  0.0000e+00,  4.2796e-05,  ..., -4.0904e-06,
+          2.8387e-06,  8.9733e-07],
+        [ 5.3411e-07,  0.0000e+00, -1.1307e-04,  ...,  1.2545e-06,
+          2.0619e-06,  6.1700e-07],
+        ...,
+        [ 4.8755e-07,  0.0000e+00,  2.4170e-05,  ...,  1.4296e-06,
+         -1.1176e-05,  1.0086e-06],
+        [ 9.0338e-07,  0.0000e+00,  2.8551e-05,  ...,  3.0473e-06,
+          1.1064e-05,  4.8019e-06],
+        [-1.7630e-06,  0.0000e+00,  1.0049e-06,  ...,  4.7777e-07,
+          2.7157e-06, -9.3505e-06]], device='cuda:0')
+Epoch 111, bias, value: tensor([-0.0362, -0.0300,  0.0132,  0.0336, -0.0248,  0.0080, -0.0118,  0.0107,
+         0.0180, -0.0014], device='cuda:0'), grad: tensor([ 1.9789e-05,  8.7976e-05, -2.3341e-04,  2.8729e-05,  1.8016e-05,
+        -7.2539e-05,  2.6554e-05,  4.1544e-05,  8.7261e-05, -3.8855e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 110----------------------------------------------------
+epoch 110, time 230.57, cls_loss 0.0027 cls_loss_mapping 0.0064 cls_loss_causal 0.5615 re_mapping 0.0071 re_causal 0.0219 /// teacc 99.14 lr 0.00010000
+Epoch 112, weight, value: tensor([[-0.0384,  0.0240,  0.0022,  ..., -0.0539, -0.0497,  0.0530],
+        [-0.0271, -0.0105, -0.0570,  ...,  0.1128, -0.0595, -0.0404],
+        [-0.0118, -0.0216,  0.1486,  ..., -0.0745, -0.0996, -0.0602],
+        ...,
+        [-0.0436, -0.0478, -0.0079,  ..., -0.0028,  0.0756, -0.0307],
+        [-0.0556, -0.0475, -0.0313,  ..., -0.0813,  0.0104, -0.0894],
+        [-0.1218, -0.0317, -0.0919,  ..., -0.0800,  0.0118,  0.0725]],
+       device='cuda:0'), grad: tensor([[ 1.3737e-07,  0.0000e+00,  1.1059e-07,  ...,  1.6182e-07,
+          5.3924e-07,  2.1188e-08],
+        [ 3.3248e-07,  0.0000e+00,  1.2226e-05,  ..., -1.1232e-06,
+          1.8299e-05,  2.1188e-07],
+        [ 1.9255e-07,  0.0000e+00, -1.1828e-06,  ...,  1.9721e-07,
+          8.7777e-07,  1.9255e-07],
+        ...,
+        [ 1.0692e-06,  0.0000e+00, -1.7941e-05,  ...,  4.1886e-07,
+         -3.1322e-05, -1.1977e-06],
+        [ 1.1479e-07,  0.0000e+00,  7.4785e-07,  ...,  3.0873e-07,
+          1.6838e-06,  1.6773e-06],
+        [-4.7917e-07,  0.0000e+00,  2.5779e-06,  ...,  8.7079e-08,
+          5.4277e-06, -3.2373e-06]], device='cuda:0')
+Epoch 112, bias, value: tensor([-0.0359, -0.0304,  0.0134,  0.0333, -0.0244,  0.0072, -0.0114,  0.0107,
+         0.0179, -0.0007], device='cuda:0'), grad: tensor([ 2.3283e-06,  5.3197e-05,  1.2200e-06,  7.1637e-06,  5.2974e-06,
+        -4.6901e-06,  1.2489e-06, -7.8917e-05,  8.2254e-06,  4.8056e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 111, time 214.79, cls_loss 0.0019 cls_loss_mapping 0.0058 cls_loss_causal 0.5630 re_mapping 0.0069 re_causal 0.0214 /// teacc 98.95 lr 0.00010000
+Epoch 113, weight, value: tensor([[-0.0391,  0.0240,  0.0036,  ..., -0.0535, -0.0496,  0.0536],
+        [-0.0281, -0.0105, -0.0575,  ...,  0.1133, -0.0601, -0.0405],
+        [-0.0117, -0.0215,  0.1493,  ..., -0.0747, -0.0997, -0.0611],
+        ...,
+        [-0.0443, -0.0478, -0.0078,  ..., -0.0031,  0.0760, -0.0309],
+        [-0.0555, -0.0476, -0.0319,  ..., -0.0820,  0.0102, -0.0898],
+        [-0.1220, -0.0317, -0.0925,  ..., -0.0807,  0.0115,  0.0727]],
+       device='cuda:0'), grad: tensor([[ 1.0774e-05,  0.0000e+00,  3.6694e-06,  ...,  4.8708e-07,
+          3.5856e-07, -2.6543e-08],
+        [ 1.0701e-06,  0.0000e+00,  2.6211e-05,  ..., -8.0001e-07,
+          1.3020e-06,  3.3225e-07],
+        [ 2.9523e-06,  0.0000e+00, -3.1590e-04,  ..., -4.6305e-06,
+          1.7667e-06,  1.2200e-07],
+        ...,
+        [ 7.6322e-07,  0.0000e+00, -3.6974e-06,  ...,  2.0233e-07,
+         -6.8285e-06,  1.1153e-07],
+        [-1.9580e-05,  0.0000e+00,  2.6393e-04,  ...,  4.8243e-06,
+          9.5926e-07,  9.3319e-07],
+        [ 1.3918e-05,  0.0000e+00,  6.4075e-06,  ...,  1.3364e-07,
+          2.0806e-06, -5.5842e-06]], device='cuda:0')
+Epoch 113, bias, value: tensor([-0.0351, -0.0306,  0.0137,  0.0331, -0.0246,  0.0068, -0.0115,  0.0109,
+         0.0177, -0.0009], device='cuda:0'), grad: tensor([ 5.6446e-05,  4.4674e-05, -4.9734e-04,  2.4930e-05,  3.4943e-06,
+         2.6799e-07,  1.0759e-05, -8.5831e-06,  3.4237e-04,  2.3752e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 112, time 214.53, cls_loss 0.0018 cls_loss_mapping 0.0053 cls_loss_causal 0.5786 re_mapping 0.0068 re_causal 0.0226 /// teacc 99.09 lr 0.00010000
+Epoch 114, weight, value: tensor([[-0.0397,  0.0240,  0.0038,  ..., -0.0537, -0.0500,  0.0537],
+        [-0.0286, -0.0106, -0.0580,  ...,  0.1138, -0.0605, -0.0405],
+        [-0.0115, -0.0215,  0.1500,  ..., -0.0751, -0.0998, -0.0615],
+        ...,
+        [-0.0444, -0.0478, -0.0076,  ..., -0.0035,  0.0763, -0.0313],
+        [-0.0557, -0.0476, -0.0324,  ..., -0.0818,  0.0100, -0.0902],
+        [-0.1219, -0.0317, -0.0929,  ..., -0.0808,  0.0112,  0.0734]],
+       device='cuda:0'), grad: tensor([[ 8.6846e-07, -8.6846e-08, -1.6168e-05,  ...,  7.7486e-07,
+          5.2946e-07, -3.6448e-05],
+        [ 2.0340e-06,  2.3283e-10,  5.7742e-06,  ..., -1.3495e-06,
+          4.7544e-07,  4.4354e-07],
+        [ 1.4797e-05,  1.6298e-09, -8.6606e-05,  ...,  2.2184e-06,
+          1.8533e-07,  1.1083e-06],
+        ...,
+        [ 9.1176e-07,  4.6566e-10,  3.7193e-05,  ...,  2.2841e-07,
+         -2.0489e-05,  1.0170e-06],
+        [-2.5276e-06,  4.8894e-09,  1.9670e-05,  ...,  1.6969e-06,
+          1.1306e-06,  4.0941e-06],
+        [-7.5810e-06,  5.7509e-08,  1.3351e-05,  ...,  1.1595e-07,
+          2.1011e-06, -5.0068e-05]], device='cuda:0')
+Epoch 114, bias, value: tensor([-0.0352, -0.0305,  0.0139,  0.0330, -0.0252,  0.0066, -0.0120,  0.0110,
+         0.0180, -0.0006], device='cuda:0'), grad: tensor([-5.2482e-05,  1.1146e-05, -1.0812e-04,  5.9992e-05,  6.7949e-05,
+        -2.3134e-06,  2.2538e-06,  3.8952e-05,  1.4700e-05, -3.2157e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 113, time 214.59, cls_loss 0.0020 cls_loss_mapping 0.0058 cls_loss_causal 0.5537 re_mapping 0.0068 re_causal 0.0216 /// teacc 99.07 lr 0.00010000
+Epoch 115, weight, value: tensor([[-0.0394,  0.0239,  0.0046,  ..., -0.0536, -0.0506,  0.0538],
+        [-0.0291, -0.0106, -0.0601,  ...,  0.1141, -0.0629, -0.0406],
+        [-0.0115, -0.0215,  0.1504,  ..., -0.0754, -0.1001, -0.0619],
+        ...,
+        [-0.0448, -0.0478, -0.0068,  ..., -0.0033,  0.0774, -0.0314],
+        [-0.0560, -0.0476, -0.0327,  ..., -0.0826,  0.0090, -0.0909],
+        [-0.1224, -0.0316, -0.0932,  ..., -0.0814,  0.0110,  0.0739]],
+       device='cuda:0'), grad: tensor([[ 3.1292e-07,  0.0000e+00, -1.0252e-05,  ..., -2.0657e-06,
+          2.5402e-07, -1.2591e-05],
+        [ 1.1716e-06,  0.0000e+00,  4.9779e-07,  ..., -1.9111e-06,
+          3.2503e-07,  7.8091e-07],
+        [ 2.6450e-07,  0.0000e+00,  9.7416e-07,  ...,  2.9569e-07,
+          2.2538e-07,  2.1979e-06],
+        ...,
+        [ 3.9954e-07,  0.0000e+00,  5.7276e-08,  ...,  1.4910e-06,
+          4.1723e-07,  5.9381e-06],
+        [ 2.4145e-07,  0.0000e+00,  9.5647e-07,  ...,  3.0012e-07,
+          1.7565e-06,  3.3174e-06],
+        [ 8.0559e-07,  0.0000e+00,  2.7604e-06,  ...,  6.7288e-07,
+         -1.1362e-06, -8.9258e-06]], device='cuda:0')
+Epoch 115, bias, value: tensor([-0.0350, -0.0321,  0.0139,  0.0328, -0.0250,  0.0064, -0.0121,  0.0124,
+         0.0177, -0.0005], device='cuda:0'), grad: tensor([-2.2531e-05, -9.7230e-07,  3.7719e-06,  1.1481e-05, -1.1083e-06,
+        -1.1832e-05,  1.2249e-05,  1.3143e-05,  7.4394e-06, -1.1660e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 114, time 214.25, cls_loss 0.0018 cls_loss_mapping 0.0058 cls_loss_causal 0.5629 re_mapping 0.0066 re_causal 0.0214 /// teacc 99.12 lr 0.00010000
+Epoch 116, weight, value: tensor([[-0.0406,  0.0239,  0.0047,  ..., -0.0543, -0.0508,  0.0538],
+        [-0.0298, -0.0106, -0.0607,  ...,  0.1148, -0.0620, -0.0407],
+        [-0.0116, -0.0215,  0.1512,  ..., -0.0755, -0.1004, -0.0623],
+        ...,
+        [-0.0452, -0.0478, -0.0064,  ..., -0.0046,  0.0775, -0.0317],
+        [-0.0561, -0.0476, -0.0330,  ..., -0.0830,  0.0088, -0.0914],
+        [-0.1226, -0.0316, -0.0936,  ..., -0.0817,  0.0106,  0.0741]],
+       device='cuda:0'), grad: tensor([[ 2.2305e-07,  0.0000e+00, -1.4789e-06,  ...,  1.0207e-06,
+          2.2370e-06,  5.3272e-07],
+        [ 2.0023e-08,  0.0000e+00,  2.7865e-06,  ..., -6.0387e-06,
+          2.1551e-06,  7.2084e-07],
+        [ 3.3993e-08,  0.0000e+00,  1.5825e-05,  ...,  2.6030e-07,
+          1.8775e-05,  1.8477e-06],
+        ...,
+        [ 2.4680e-08,  0.0000e+00, -3.6627e-05,  ...,  2.3898e-06,
+         -2.2069e-05,  1.2880e-06],
+        [ 9.3132e-08,  0.0000e+00,  6.6198e-06,  ...,  7.5158e-07,
+          4.5709e-06,  7.0110e-06],
+        [ 8.6613e-08,  0.0000e+00,  3.5577e-06,  ...,  5.2620e-07,
+          1.0431e-05,  6.2250e-06]], device='cuda:0')
+Epoch 116, bias, value: tensor([-0.0354, -0.0313,  0.0143,  0.0331, -0.0250,  0.0059, -0.0118,  0.0118,
+         0.0176, -0.0006], device='cuda:0'), grad: tensor([ 5.0776e-06, -3.0436e-06,  1.5333e-05,  8.4877e-05,  6.4373e-06,
+        -1.2422e-04,  2.9672e-06, -3.0413e-05, -1.8314e-05,  6.1274e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 115, time 214.21, cls_loss 0.0021 cls_loss_mapping 0.0059 cls_loss_causal 0.5699 re_mapping 0.0064 re_causal 0.0216 /// teacc 99.02 lr 0.00010000
+Epoch 117, weight, value: tensor([[-0.0410,  0.0239,  0.0053,  ..., -0.0544, -0.0513,  0.0540],
+        [-0.0302, -0.0106, -0.0583,  ...,  0.1163, -0.0625, -0.0409],
+        [-0.0117, -0.0214,  0.1513,  ..., -0.0780, -0.1005, -0.0626],
+        ...,
+        [-0.0467, -0.0478, -0.0067,  ..., -0.0050,  0.0778, -0.0319],
+        [-0.0564, -0.0477, -0.0335,  ..., -0.0832,  0.0084, -0.0921],
+        [-0.1229, -0.0316, -0.0944,  ..., -0.0819,  0.0099,  0.0745]],
+       device='cuda:0'), grad: tensor([[ 2.0256e-07,  0.0000e+00, -1.7090e-06,  ...,  5.5414e-07,
+          4.2422e-07, -1.4035e-06],
+        [ 7.4040e-08,  0.0000e+00,  4.5411e-06,  ..., -2.6301e-06,
+          3.3844e-06,  3.1479e-07],
+        [ 5.5414e-08,  0.0000e+00, -1.1615e-05,  ...,  2.8405e-07,
+          5.6773e-06,  5.5972e-07],
+        ...,
+        [ 6.0536e-09,  0.0000e+00, -2.0176e-05,  ...,  1.2591e-06,
+         -2.0772e-05,  1.7416e-06],
+        [ 7.0734e-07,  0.0000e+00,  1.4029e-05,  ...,  1.2675e-06,
+          7.2569e-06,  2.3723e-05],
+        [-7.4552e-07,  0.0000e+00,  3.2615e-06,  ...,  6.1467e-08,
+          2.2594e-06, -2.6077e-05]], device='cuda:0')
+Epoch 117, bias, value: tensor([-0.0353, -0.0303,  0.0136,  0.0330, -0.0247,  0.0062, -0.0120,  0.0116,
+         0.0174, -0.0010], device='cuda:0'), grad: tensor([ 9.6858e-07,  3.4198e-06, -5.0999e-06,  2.0862e-06,  7.1004e-06,
+         4.5784e-06, -1.4231e-06, -3.8654e-05,  6.4194e-05, -3.7283e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 116, time 214.31, cls_loss 0.0016 cls_loss_mapping 0.0060 cls_loss_causal 0.5764 re_mapping 0.0066 re_causal 0.0220 /// teacc 99.00 lr 0.00010000
+Epoch 118, weight, value: tensor([[-0.0415,  0.0238,  0.0054,  ..., -0.0546, -0.0515,  0.0541],
+        [-0.0308, -0.0106, -0.0593,  ...,  0.1166, -0.0626, -0.0409],
+        [-0.0112, -0.0213,  0.1523,  ..., -0.0778, -0.1007, -0.0629],
+        ...,
+        [-0.0474, -0.0478, -0.0067,  ..., -0.0052,  0.0780, -0.0322],
+        [-0.0568, -0.0477, -0.0338,  ..., -0.0836,  0.0082, -0.0921],
+        [-0.1238, -0.0315, -0.0946,  ..., -0.0822,  0.0096,  0.0745]],
+       device='cuda:0'), grad: tensor([[ 1.0105e-07,  0.0000e+00,  2.4587e-07,  ...,  1.1185e-06,
+          3.4040e-07,  2.5127e-06],
+        [ 4.6147e-07,  0.0000e+00,  5.8394e-07,  ..., -1.1427e-06,
+          1.8524e-06,  3.6089e-07],
+        [ 1.3271e-07,  0.0000e+00, -2.1746e-07,  ...,  9.5647e-07,
+          5.1456e-07,  4.4284e-07],
+        ...,
+        [ 4.4797e-07,  0.0000e+00, -4.7609e-06,  ...,  5.8208e-07,
+         -1.2554e-05,  3.8091e-06],
+        [ 3.2503e-07,  0.0000e+00,  8.9314e-07,  ...,  9.8422e-06,
+          1.6559e-06,  8.6334e-07],
+        [ 2.1048e-06,  0.0000e+00,  4.5309e-07,  ...,  1.4668e-07,
+          3.1404e-06, -2.0206e-05]], device='cuda:0')
+Epoch 118, bias, value: tensor([-0.0354, -0.0306,  0.0146,  0.0330, -0.0242,  0.0065, -0.0122,  0.0114,
+         0.0175, -0.0016], device='cuda:0'), grad: tensor([ 8.7023e-06,  5.8562e-06,  3.5390e-06,  1.6809e-05,  1.8373e-05,
+         1.3173e-05, -3.6001e-05, -1.4238e-05,  2.1160e-05, -3.7432e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 117, time 214.23, cls_loss 0.0024 cls_loss_mapping 0.0081 cls_loss_causal 0.5666 re_mapping 0.0070 re_causal 0.0209 /// teacc 99.08 lr 0.00010000
+Epoch 119, weight, value: tensor([[-0.0418,  0.0242,  0.0057,  ..., -0.0544, -0.0519,  0.0542],
+        [-0.0308, -0.0106, -0.0598,  ...,  0.1172, -0.0630, -0.0411],
+        [-0.0113, -0.0213,  0.1536,  ..., -0.0780, -0.1008, -0.0638],
+        ...,
+        [-0.0481, -0.0478, -0.0071,  ..., -0.0053,  0.0784, -0.0324],
+        [-0.0570, -0.0478, -0.0341,  ..., -0.0839,  0.0079, -0.0931],
+        [-0.1242, -0.0315, -0.0949,  ..., -0.0825,  0.0095,  0.0754]],
+       device='cuda:0'), grad: tensor([[ 4.5076e-07,  0.0000e+00, -1.7751e-06,  ...,  1.0617e-06,
+          9.6206e-07, -9.1456e-07],
+        [ 6.7567e-07,  0.0000e+00,  5.8711e-06,  ..., -3.0641e-06,
+          5.4166e-06,  6.7316e-06],
+        [ 6.4075e-07,  0.0000e+00,  4.7274e-06,  ...,  1.7332e-06,
+          5.0776e-06,  2.3916e-06],
+        ...,
+        [ 1.2331e-06,  0.0000e+00, -2.0012e-05,  ...,  9.0292e-07,
+         -2.4110e-05,  1.0170e-05],
+        [ 4.1956e-07,  0.0000e+00,  3.1870e-06,  ...,  1.0300e-06,
+          1.6857e-06,  2.4121e-06],
+        [ 1.2517e-06,  0.0000e+00,  7.5670e-07,  ...,  1.3830e-07,
+          5.5917e-06, -2.4974e-05]], device='cuda:0')
+Epoch 119, bias, value: tensor([-0.0355, -0.0306,  0.0152,  0.0327, -0.0249,  0.0062, -0.0131,  0.0115,
+         0.0179, -0.0009], device='cuda:0'), grad: tensor([ 5.2378e-06,  3.6329e-05,  2.6435e-05,  2.7418e-05,  3.5334e-06,
+        -5.2713e-06, -3.1888e-06, -5.4091e-05,  1.6108e-05, -5.2482e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 118, time 214.40, cls_loss 0.0015 cls_loss_mapping 0.0048 cls_loss_causal 0.5370 re_mapping 0.0068 re_causal 0.0212 /// teacc 99.10 lr 0.00010000
+Epoch 120, weight, value: tensor([[-0.0422,  0.0242,  0.0060,  ..., -0.0545, -0.0522,  0.0543],
+        [-0.0311, -0.0106, -0.0600,  ...,  0.1175, -0.0631, -0.0411],
+        [-0.0116, -0.0213,  0.1546,  ..., -0.0783, -0.1014, -0.0624],
+        ...,
+        [-0.0488, -0.0478, -0.0064,  ..., -0.0057,  0.0789, -0.0325],
+        [-0.0573, -0.0478, -0.0342,  ..., -0.0844,  0.0076, -0.0935],
+        [-0.1245, -0.0315, -0.0971,  ..., -0.0828,  0.0092,  0.0754]],
+       device='cuda:0'), grad: tensor([[ 4.7823e-07,  0.0000e+00,  2.7958e-06,  ...,  2.3562e-07,
+          3.5241e-06,  8.6147e-08],
+        [ 3.2429e-06,  0.0000e+00,  2.3060e-06,  ...,  1.2275e-06,
+          2.6748e-06,  3.2177e-07],
+        [ 1.2750e-06,  0.0000e+00,  1.4836e-06,  ...,  7.5763e-07,
+          2.2538e-06,  5.2527e-07],
+        ...,
+        [ 1.4231e-06,  0.0000e+00, -1.5318e-05,  ...,  5.6112e-07,
+         -1.8016e-05, -6.8080e-07],
+        [ 7.2177e-07,  0.0000e+00,  8.4564e-07,  ...,  3.4226e-07,
+          9.7696e-07,  2.4354e-07],
+        [ 2.0191e-06,  0.0000e+00,  1.9856e-06,  ...,  4.7358e-07,
+          2.2165e-06,  3.1805e-07]], device='cuda:0')
+Epoch 120, bias, value: tensor([-0.0355, -0.0305,  0.0158,  0.0324, -0.0247,  0.0064, -0.0129,  0.0117,
+         0.0179, -0.0016], device='cuda:0'), grad: tensor([ 6.5938e-06,  9.4920e-06,  8.7321e-06,  2.7269e-06, -2.5854e-05,
+         1.3612e-05,  1.6615e-05, -2.5630e-05, -1.3955e-05,  7.6741e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 119, time 214.51, cls_loss 0.0018 cls_loss_mapping 0.0055 cls_loss_causal 0.5706 re_mapping 0.0067 re_causal 0.0219 /// teacc 99.03 lr 0.00010000
+Epoch 121, weight, value: tensor([[-0.0424,  0.0242,  0.0071,  ..., -0.0546, -0.0514,  0.0544],
+        [-0.0325, -0.0106, -0.0601,  ...,  0.1178, -0.0636, -0.0414],
+        [-0.0114, -0.0212,  0.1550,  ..., -0.0789, -0.1017, -0.0630],
+        ...,
+        [-0.0495, -0.0478, -0.0063,  ..., -0.0057,  0.0794, -0.0329],
+        [-0.0580, -0.0478, -0.0345,  ..., -0.0848,  0.0074, -0.0939],
+        [-0.1255, -0.0315, -0.0972,  ..., -0.0835,  0.0085,  0.0761]],
+       device='cuda:0'), grad: tensor([[ 2.7474e-08,  0.0000e+00,  1.4110e-07,  ...,  1.1595e-07,
+          3.3528e-07,  9.0152e-07],
+        [ 7.0315e-08,  0.0000e+00,  6.9290e-07,  ..., -3.3248e-06,
+          1.6335e-06,  2.4438e-06],
+        [ 3.0268e-08,  0.0000e+00, -1.3135e-05,  ...,  5.0571e-07,
+          4.5775e-07,  9.6858e-07],
+        ...,
+        [ 3.9116e-08,  0.0000e+00,  2.7250e-06,  ...,  1.0738e-06,
+         -4.6164e-05, -1.0997e-05],
+        [ 5.8673e-08,  0.0000e+00,  6.8210e-06,  ...,  5.5321e-07,
+          5.7789e-07,  2.1141e-06],
+        [ 2.5099e-07,  0.0000e+00, -4.1397e-07,  ...,  1.7602e-07,
+          3.9749e-06, -2.1115e-05]], device='cuda:0')
+Epoch 121, bias, value: tensor([-0.0353, -0.0307,  0.0157,  0.0326, -0.0243,  0.0057, -0.0128,  0.0118,
+         0.0177, -0.0016], device='cuda:0'), grad: tensor([ 2.8256e-06,  2.7139e-06, -1.2398e-05,  9.5546e-05,  3.9972e-06,
+         3.9525e-06, -4.1053e-06, -7.1943e-05,  1.2808e-05, -3.3259e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 120, time 214.69, cls_loss 0.0025 cls_loss_mapping 0.0059 cls_loss_causal 0.5991 re_mapping 0.0067 re_causal 0.0217 /// teacc 99.01 lr 0.00010000
+Epoch 122, weight, value: tensor([[-0.0430,  0.0247,  0.0072,  ..., -0.0547, -0.0521,  0.0543],
+        [-0.0336, -0.0106, -0.0603,  ...,  0.1181, -0.0638, -0.0417],
+        [-0.0118, -0.0212,  0.1554,  ..., -0.0791, -0.1020, -0.0634],
+        ...,
+        [-0.0500, -0.0478, -0.0050,  ..., -0.0059,  0.0820, -0.0301],
+        [-0.0585, -0.0480, -0.0347,  ..., -0.0852,  0.0075, -0.0943],
+        [-0.1258, -0.0315, -0.0992,  ..., -0.0839,  0.0056,  0.0740]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  0.0000e+00, -2.6096e-06,  ...,  2.4168e-07,
+          1.0384e-07, -2.8238e-06],
+        [ 1.0245e-08,  0.0000e+00,  1.2433e-07,  ..., -3.9348e-07,
+          2.0023e-07,  2.9849e-07],
+        [ 6.0536e-09,  0.0000e+00, -1.6866e-06,  ...,  8.1025e-08,
+          2.4680e-07,  1.0384e-06],
+        ...,
+        [ 1.5367e-08,  0.0000e+00, -2.2585e-07,  ...,  1.0664e-07,
+         -4.5775e-07,  5.6950e-07],
+        [ 8.3819e-09,  0.0000e+00,  2.1048e-06,  ...,  8.8336e-07,
+          9.4203e-07,  4.3213e-06],
+        [ 1.6764e-08,  0.0000e+00,  4.8103e-07,  ...,  2.9802e-08,
+          1.7462e-07, -1.4696e-06]], device='cuda:0')
+Epoch 122, bias, value: tensor([-0.0355, -0.0307,  0.0155,  0.0326, -0.0246,  0.0057, -0.0131,  0.0138,
+         0.0178, -0.0034], device='cuda:0'), grad: tensor([-2.5574e-06,  7.1526e-07,  6.2119e-07, -5.3085e-08,  1.8114e-06,
+         7.8455e-06, -6.7577e-06,  7.7672e-07, -5.1595e-07, -1.8813e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 121, time 214.62, cls_loss 0.0019 cls_loss_mapping 0.0051 cls_loss_causal 0.5472 re_mapping 0.0065 re_causal 0.0208 /// teacc 98.83 lr 0.00010000
+Epoch 123, weight, value: tensor([[-0.0433,  0.0272,  0.0080,  ..., -0.0548, -0.0519,  0.0546],
+        [-0.0342, -0.0106, -0.0610,  ...,  0.1204, -0.0614, -0.0421],
+        [-0.0119, -0.0213,  0.1560,  ..., -0.0790, -0.1027, -0.0638],
+        ...,
+        [-0.0509, -0.0478, -0.0049,  ..., -0.0087,  0.0806, -0.0304],
+        [-0.0588, -0.0485, -0.0350,  ..., -0.0859,  0.0073, -0.0947],
+        [-0.1268, -0.0320, -0.0991,  ..., -0.0835,  0.0058,  0.0743]],
+       device='cuda:0'), grad: tensor([[ 3.0035e-07,  0.0000e+00, -5.4017e-07,  ...,  3.0501e-07,
+          1.8626e-07,  3.9004e-06],
+        [ 3.0035e-07,  0.0000e+00,  4.6426e-07,  ..., -1.0431e-06,
+          1.0207e-06,  1.4119e-06],
+        [ 1.7555e-07,  0.0000e+00,  1.4203e-07,  ...,  2.3749e-07,
+          3.6927e-07,  1.2275e-06],
+        ...,
+        [ 7.9675e-07,  0.0000e+00, -1.3215e-06,  ...,  3.6787e-08,
+         -1.6550e-06,  3.8482e-06],
+        [ 7.2923e-07,  0.0000e+00,  1.1735e-07,  ...,  4.1863e-07,
+          7.8697e-07,  1.1012e-05],
+        [-4.7207e-05,  0.0000e+00,  5.9092e-07,  ...,  4.2841e-08,
+         -1.7449e-05, -9.0599e-05]], device='cuda:0')
+Epoch 123, bias, value: tensor([-0.0352, -0.0284,  0.0158,  0.0319, -0.0242,  0.0060, -0.0131,  0.0119,
+         0.0177, -0.0030], device='cuda:0'), grad: tensor([ 1.6555e-05,  7.1898e-06,  1.1444e-05, -1.4579e-04,  1.7130e-04,
+         3.3379e-05, -1.2778e-06,  9.7826e-06,  4.9710e-05, -1.5235e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 122, time 214.55, cls_loss 0.0020 cls_loss_mapping 0.0053 cls_loss_causal 0.5457 re_mapping 0.0066 re_causal 0.0207 /// teacc 99.05 lr 0.00010000
+Epoch 124, weight, value: tensor([[-0.0440,  0.0271,  0.0083,  ..., -0.0545, -0.0520,  0.0542],
+        [-0.0345, -0.0106, -0.0618,  ...,  0.1204, -0.0617, -0.0423],
+        [-0.0122, -0.0212,  0.1588,  ..., -0.0792, -0.1005, -0.0642],
+        ...,
+        [-0.0515, -0.0478, -0.0071,  ..., -0.0086,  0.0803, -0.0305],
+        [-0.0591, -0.0486, -0.0353,  ..., -0.0861,  0.0071, -0.0949],
+        [-0.1274, -0.0320, -0.0992,  ..., -0.0839,  0.0058,  0.0747]],
+       device='cuda:0'), grad: tensor([[ 1.0096e-06,  0.0000e+00, -3.5148e-06,  ...,  8.4052e-07,
+          6.2073e-07, -7.5530e-07],
+        [ 3.8929e-07,  0.0000e+00,  1.1986e-06,  ..., -7.2606e-06,
+          2.4270e-06,  7.3155e-07],
+        [ 4.3586e-07,  0.0000e+00,  1.4538e-06,  ...,  6.4261e-07,
+          3.7756e-06,  1.5683e-06],
+        ...,
+        [ 4.9546e-07,  0.0000e+00, -1.5840e-05,  ...,  1.7239e-06,
+         -3.4690e-05,  1.0598e-06],
+        [ 1.9688e-06,  0.0000e+00,  2.4661e-06,  ...,  2.0936e-06,
+          2.1309e-06,  5.0627e-06],
+        [-3.3766e-05,  0.0000e+00,  1.2331e-06,  ...,  2.2119e-07,
+          2.1905e-06, -7.1406e-05]], device='cuda:0')
+Epoch 124, bias, value: tensor([-0.0356, -0.0288,  0.0174,  0.0317, -0.0265,  0.0063, -0.0108,  0.0115,
+         0.0178, -0.0028], device='cuda:0'), grad: tensor([ 2.4214e-06, -9.2387e-06,  1.1727e-05,  4.8399e-05,  8.6069e-05,
+         1.3568e-05,  1.9014e-05, -5.2243e-05, -2.4773e-06, -1.1718e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 123, time 215.00, cls_loss 0.0017 cls_loss_mapping 0.0060 cls_loss_causal 0.5353 re_mapping 0.0061 re_causal 0.0196 /// teacc 99.12 lr 0.00010000
+Epoch 125, weight, value: tensor([[-0.0438,  0.0275,  0.0100,  ..., -0.0545, -0.0524,  0.0546],
+        [-0.0346, -0.0107, -0.0623,  ...,  0.1206, -0.0620, -0.0424],
+        [-0.0124, -0.0212,  0.1591,  ..., -0.0795, -0.1006, -0.0654],
+        ...,
+        [-0.0521, -0.0479, -0.0070,  ..., -0.0084,  0.0803, -0.0310],
+        [-0.0593, -0.0487, -0.0356,  ..., -0.0866,  0.0068, -0.0954],
+        [-0.1285, -0.0322, -0.0994,  ..., -0.0840,  0.0062,  0.0752]],
+       device='cuda:0'), grad: tensor([[ 2.7381e-07, -1.2573e-08,  1.9670e-06,  ...,  2.3143e-07,
+          2.6878e-06, -1.2154e-07],
+        [ 1.5637e-06,  4.6566e-10,  1.4089e-05,  ..., -5.9837e-07,
+          1.8522e-05,  2.8918e-07],
+        [ 3.3155e-07,  2.7940e-09, -2.5406e-06,  ...,  4.7497e-08,
+          4.1947e-06,  5.5414e-07],
+        ...,
+        [ 5.4715e-07,  0.0000e+00, -3.5554e-05,  ...,  2.9523e-07,
+         -5.2333e-05,  2.1048e-07],
+        [ 2.1886e-07,  1.8626e-09,  1.6084e-06,  ...,  1.4016e-07,
+          1.0449e-06,  7.9395e-07],
+        [ 4.1239e-06,  1.8626e-09,  4.5449e-06,  ...,  3.2224e-07,
+          5.9605e-06, -3.8277e-07]], device='cuda:0')
+Epoch 125, bias, value: tensor([-0.0351, -0.0290,  0.0175,  0.0317, -0.0262,  0.0060, -0.0110,  0.0114,
+         0.0176, -0.0025], device='cuda:0'), grad: tensor([ 9.0823e-06,  5.3376e-05,  8.5607e-06, -1.2279e-05,  1.4856e-05,
+         1.9506e-05,  3.4198e-06, -1.3125e-04,  1.1086e-05,  2.3499e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 124, time 214.21, cls_loss 0.0022 cls_loss_mapping 0.0060 cls_loss_causal 0.5636 re_mapping 0.0063 re_causal 0.0198 /// teacc 99.04 lr 0.00010000
+Epoch 126, weight, value: tensor([[-0.0454,  0.0275,  0.0114,  ..., -0.0549, -0.0531,  0.0551],
+        [-0.0348, -0.0107, -0.0624,  ...,  0.1210, -0.0619, -0.0429],
+        [-0.0129, -0.0211,  0.1594,  ..., -0.0797, -0.1010, -0.0660],
+        ...,
+        [-0.0534, -0.0479, -0.0069,  ..., -0.0088,  0.0804, -0.0312],
+        [-0.0595, -0.0488, -0.0358,  ..., -0.0869,  0.0072, -0.0964],
+        [-0.1305, -0.0322, -0.0999,  ..., -0.0843,  0.0064,  0.0756]],
+       device='cuda:0'), grad: tensor([[ 3.5763e-07,  0.0000e+00, -1.3281e-06,  ...,  1.1642e-06,
+         -4.7497e-08, -8.4098e-07],
+        [ 2.3879e-06,  0.0000e+00,  2.9057e-06,  ..., -1.1455e-06,
+          2.6217e-07,  1.1109e-05],
+        [ 2.4168e-07,  0.0000e+00, -3.2224e-06,  ...,  4.8010e-07,
+          1.1874e-07,  4.5262e-07],
+        ...,
+        [ 2.7847e-07,  0.0000e+00,  1.6950e-07,  ...,  1.4687e-06,
+         -3.6089e-07,  8.4797e-07],
+        [ 3.1712e-07,  0.0000e+00,  2.4913e-07,  ...,  2.7958e-06,
+          2.3227e-06,  3.5018e-06],
+        [-2.9095e-06,  0.0000e+00,  4.8941e-07,  ..., -9.1176e-07,
+          3.7765e-07, -1.4380e-05]], device='cuda:0')
+Epoch 126, bias, value: tensor([-0.0348, -0.0286,  0.0173,  0.0314, -0.0256,  0.0054, -0.0110,  0.0109,
+         0.0181, -0.0024], device='cuda:0'), grad: tensor([ 6.9337e-07,  2.4676e-05, -1.1735e-06, -1.7732e-06,  7.0222e-06,
+        -4.8913e-06, -1.2606e-05,  4.9695e-06,  1.5512e-05, -3.2425e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 125, time 214.34, cls_loss 0.0019 cls_loss_mapping 0.0059 cls_loss_causal 0.5715 re_mapping 0.0066 re_causal 0.0214 /// teacc 99.04 lr 0.00010000
+Epoch 127, weight, value: tensor([[-0.0463,  0.0276,  0.0120,  ..., -0.0552, -0.0535,  0.0553],
+        [-0.0353, -0.0107, -0.0629,  ...,  0.1211, -0.0621, -0.0434],
+        [-0.0133, -0.0211,  0.1596,  ..., -0.0798, -0.1016, -0.0666],
+        ...,
+        [-0.0531, -0.0479, -0.0065,  ..., -0.0088,  0.0809, -0.0312],
+        [-0.0587, -0.0489, -0.0364,  ..., -0.0870,  0.0072, -0.0968],
+        [-0.1323, -0.0323, -0.1016,  ..., -0.0846,  0.0062,  0.0757]],
+       device='cuda:0'), grad: tensor([[ 4.7963e-08,  0.0000e+00, -4.0889e-05,  ...,  1.7136e-07,
+          1.5926e-07, -5.3078e-05],
+        [ 6.4261e-08,  0.0000e+00,  1.3039e-06,  ..., -1.8785e-06,
+          7.5204e-07,  1.4864e-06],
+        [ 7.6368e-08,  0.0000e+00,  2.1197e-06,  ...,  1.1325e-06,
+          4.7544e-07,  2.7921e-06],
+        ...,
+        [ 7.5903e-08,  0.0000e+00,  9.5274e-07,  ...,  3.1665e-08,
+         -1.5600e-06,  4.7460e-06],
+        [ 4.5635e-08,  0.0000e+00,  2.9653e-06,  ...,  7.7486e-07,
+          3.2550e-07,  4.2878e-06],
+        [ 8.1956e-08,  0.0000e+00,  1.6540e-05,  ...,  3.3993e-08,
+          3.2131e-07,  1.7494e-05]], device='cuda:0')
+Epoch 127, bias, value: tensor([-0.0349, -0.0290,  0.0174,  0.0314, -0.0250,  0.0047, -0.0107,  0.0112,
+         0.0181, -0.0029], device='cuda:0'), grad: tensor([-1.5140e-04,  1.6904e-06,  1.0863e-05,  1.9118e-05,  7.9125e-06,
+         1.0259e-05,  2.7075e-05,  7.7859e-06,  1.1966e-05,  5.4777e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 126, time 214.53, cls_loss 0.0016 cls_loss_mapping 0.0049 cls_loss_causal 0.5665 re_mapping 0.0067 re_causal 0.0208 /// teacc 99.00 lr 0.00010000
+Epoch 128, weight, value: tensor([[-0.0468,  0.0276,  0.0123,  ..., -0.0555, -0.0537,  0.0555],
+        [-0.0361, -0.0107, -0.0631,  ...,  0.1213, -0.0622, -0.0437],
+        [-0.0136, -0.0211,  0.1600,  ..., -0.0802, -0.1019, -0.0670],
+        ...,
+        [-0.0544, -0.0479, -0.0065,  ..., -0.0090,  0.0811, -0.0314],
+        [-0.0592, -0.0489, -0.0364,  ..., -0.0874,  0.0074, -0.0971],
+        [-0.1330, -0.0323, -0.1017,  ..., -0.0845,  0.0061,  0.0759]],
+       device='cuda:0'), grad: tensor([[ 2.1886e-08,  0.0000e+00,  1.6764e-08,  ...,  1.3923e-07,
+          3.6322e-08,  1.5041e-07],
+        [ 8.8476e-08,  0.0000e+00,  8.8010e-08,  ..., -2.0135e-06,
+          4.8429e-08,  2.8219e-07],
+        [-7.8231e-08,  0.0000e+00, -1.9167e-06,  ...,  1.7416e-07,
+          2.0023e-08,  1.7695e-07],
+        ...,
+        [ 2.0862e-07,  0.0000e+00,  2.1514e-07,  ...,  5.3644e-07,
+         -2.9337e-08,  2.7418e-06],
+        [ 5.7276e-08,  0.0000e+00,  4.1584e-07,  ...,  5.5740e-07,
+          1.5972e-07,  2.0172e-06],
+        [-7.1153e-07,  0.0000e+00, -2.2305e-07,  ...,  2.2026e-07,
+          4.6566e-08, -1.4663e-05]], device='cuda:0')
+Epoch 128, bias, value: tensor([-0.0349, -0.0291,  0.0174,  0.0312, -0.0247,  0.0048, -0.0105,  0.0111,
+         0.0185, -0.0030], device='cuda:0'), grad: tensor([ 9.6485e-07, -3.6117e-06, -1.6838e-06,  1.1437e-05,  1.8403e-05,
+         4.3865e-07,  1.5590e-06,  6.9849e-06, -6.6496e-06, -2.7791e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 127, time 214.55, cls_loss 0.0017 cls_loss_mapping 0.0050 cls_loss_causal 0.5642 re_mapping 0.0066 re_causal 0.0209 /// teacc 99.05 lr 0.00010000
+Epoch 129, weight, value: tensor([[-0.0472,  0.0276,  0.0126,  ..., -0.0557, -0.0538,  0.0556],
+        [-0.0370, -0.0107, -0.0634,  ...,  0.1215, -0.0623, -0.0446],
+        [-0.0138, -0.0208,  0.1605,  ..., -0.0804, -0.1021, -0.0672],
+        ...,
+        [-0.0540, -0.0479, -0.0063,  ..., -0.0091,  0.0814, -0.0315],
+        [-0.0597, -0.0490, -0.0367,  ..., -0.0876,  0.0072, -0.0979],
+        [-0.1327, -0.0323, -0.1019,  ..., -0.0845,  0.0060,  0.0764]],
+       device='cuda:0'), grad: tensor([[ 3.0734e-07,  6.0536e-09, -1.5460e-06,  ...,  1.1036e-06,
+          2.1467e-07, -4.7730e-07],
+        [ 2.1001e-07,  2.7008e-08,  4.0419e-07,  ..., -4.0513e-07,
+          5.4948e-07,  4.1164e-07],
+        [ 2.2678e-07, -5.4389e-07, -3.0529e-06,  ...,  5.0198e-07,
+          1.3690e-07,  3.7719e-07],
+        ...,
+        [ 2.0349e-07,  2.6310e-07,  1.5255e-06,  ...,  3.3807e-07,
+          6.4494e-07,  2.2333e-06],
+        [ 2.9197e-07,  4.9826e-08,  1.7229e-07,  ...,  4.4936e-07,
+          5.4017e-07,  3.7998e-06],
+        [ 5.1921e-07,  2.3283e-09,  4.5775e-07,  ...,  1.0664e-07,
+          1.5190e-06, -1.0930e-05]], device='cuda:0')
+Epoch 129, bias, value: tensor([-0.0349, -0.0293,  0.0176,  0.0308, -0.0254,  0.0054, -0.0107,  0.0112,
+         0.0182, -0.0024], device='cuda:0'), grad: tensor([ 9.9465e-07,  1.5358e-06, -7.7719e-07,  2.1473e-05, -3.2596e-07,
+        -3.3110e-05,  1.2182e-05,  7.5884e-06,  7.7337e-06, -1.7330e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 128, time 214.53, cls_loss 0.0017 cls_loss_mapping 0.0050 cls_loss_causal 0.5520 re_mapping 0.0066 re_causal 0.0197 /// teacc 99.03 lr 0.00010000
+Epoch 130, weight, value: tensor([[-0.0478,  0.0276,  0.0133,  ..., -0.0560, -0.0541,  0.0558],
+        [-0.0375, -0.0107, -0.0634,  ...,  0.1224, -0.0624, -0.0448],
+        [-0.0144, -0.0202,  0.1606,  ..., -0.0818, -0.1024, -0.0678],
+        ...,
+        [-0.0544, -0.0480, -0.0062,  ..., -0.0096,  0.0815, -0.0316],
+        [-0.0602, -0.0492, -0.0369,  ..., -0.0878,  0.0069, -0.0988],
+        [-0.1330, -0.0324, -0.1020,  ..., -0.0851,  0.0060,  0.0768]],
+       device='cuda:0'), grad: tensor([[ 6.9849e-07,  1.3970e-09,  5.5181e-07,  ...,  2.8731e-07,
+          5.7789e-07,  2.0955e-08],
+        [ 1.3709e-05,  3.2596e-09,  1.2973e-06,  ...,  4.5747e-06,
+          1.4424e-05,  1.3970e-08],
+        [ 8.9873e-07,  2.1886e-08, -3.4571e-05,  ...,  2.5053e-07,
+         -4.6603e-06,  2.2352e-08],
+        ...,
+        [ 7.6033e-06,  2.2259e-07,  9.4920e-06,  ...,  1.1194e-06,
+         -3.0220e-05,  2.2678e-07],
+        [ 5.2340e-06,  1.0710e-08,  8.3372e-06,  ...,  1.2675e-06,
+          1.1874e-06,  4.8429e-08],
+        [ 7.9349e-06,  4.7963e-08,  1.2301e-05,  ...,  1.4864e-06,
+          9.7975e-06, -1.2852e-07]], device='cuda:0')
+Epoch 130, bias, value: tensor([-0.0349, -0.0291,  0.0168,  0.0313, -0.0255,  0.0051, -0.0104,  0.0110,
+         0.0180, -0.0023], device='cuda:0'), grad: tensor([ 4.2468e-06,  6.7413e-05, -5.8144e-05,  3.8654e-05, -6.4075e-05,
+         6.5565e-06,  4.8168e-06, -4.3035e-05, -1.5274e-05,  5.8681e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 129, time 214.32, cls_loss 0.0025 cls_loss_mapping 0.0073 cls_loss_causal 0.5400 re_mapping 0.0065 re_causal 0.0194 /// teacc 99.05 lr 0.00010000
+Epoch 131, weight, value: tensor([[-0.0492,  0.0276,  0.0161,  ..., -0.0559, -0.0546,  0.0574],
+        [-0.0382, -0.0108, -0.0626,  ...,  0.1237, -0.0625, -0.0453],
+        [-0.0139, -0.0177,  0.1593,  ..., -0.0836, -0.1049, -0.0683],
+        ...,
+        [-0.0553, -0.0496, -0.0050,  ..., -0.0099,  0.0819, -0.0317],
+        [-0.0610, -0.0494, -0.0371,  ..., -0.0885,  0.0066, -0.0996],
+        [-0.1343, -0.0325, -0.1037,  ..., -0.0856,  0.0059,  0.0765]],
+       device='cuda:0'), grad: tensor([[ 9.1735e-08,  0.0000e+00,  3.6031e-05,  ...,  1.1316e-07,
+          4.1872e-05,  1.1295e-04],
+        [ 8.8941e-07,  0.0000e+00,  1.5926e-06,  ..., -1.2154e-06,
+          2.0694e-06,  1.9046e-06],
+        [ 7.6275e-07,  0.0000e+00,  6.7195e-07,  ...,  3.5111e-07,
+          1.2117e-06,  3.7961e-06],
+        ...,
+        [ 4.6473e-07,  0.0000e+00, -1.7071e-06,  ...,  6.4122e-07,
+         -2.9560e-06,  4.4741e-06],
+        [ 1.2759e-07,  0.0000e+00,  4.0419e-07,  ...,  2.0675e-07,
+          3.3202e-07,  5.1036e-06],
+        [ 8.8336e-07,  0.0000e+00,  2.2054e-06,  ...,  2.2305e-07,
+          2.6282e-06, -1.6717e-06]], device='cuda:0')
+Epoch 131, bias, value: tensor([-0.0336, -0.0284,  0.0142,  0.0319, -0.0246,  0.0054, -0.0101,  0.0110,
+         0.0178, -0.0031], device='cuda:0'), grad: tensor([ 2.1493e-04,  6.9216e-06,  1.9044e-05, -7.0333e-05,  1.2778e-06,
+        -2.3639e-04,  5.9046e-06,  1.7047e-05,  3.1471e-05,  1.0051e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 130, time 214.17, cls_loss 0.0016 cls_loss_mapping 0.0051 cls_loss_causal 0.5607 re_mapping 0.0063 re_causal 0.0204 /// teacc 99.13 lr 0.00010000
+Epoch 132, weight, value: tensor([[-0.0500,  0.0276,  0.0159,  ..., -0.0561, -0.0552,  0.0565],
+        [-0.0387, -0.0108, -0.0630,  ...,  0.1237, -0.0628, -0.0457],
+        [-0.0146, -0.0176,  0.1596,  ..., -0.0838, -0.1050, -0.0686],
+        ...,
+        [-0.0555, -0.0496, -0.0048,  ..., -0.0099,  0.0822, -0.0317],
+        [-0.0614, -0.0495, -0.0372,  ..., -0.0888,  0.0064, -0.1002],
+        [-0.1344, -0.0324, -0.1035,  ..., -0.0862,  0.0058,  0.0774]],
+       device='cuda:0'), grad: tensor([[-2.1439e-06,  0.0000e+00, -1.2982e-04,  ..., -5.4911e-06,
+          1.2489e-06, -1.4675e-04],
+        [ 1.3178e-07,  0.0000e+00,  4.0740e-05,  ...,  2.4997e-06,
+          4.2915e-06,  3.2578e-06],
+        [ 1.0896e-07, -1.8626e-09, -3.3021e-05,  ..., -8.9221e-07,
+          5.7779e-06,  4.0084e-06],
+        ...,
+        [ 9.5461e-08,  0.0000e+00, -1.6496e-05,  ...,  2.7567e-07,
+         -3.0488e-05,  1.8226e-06],
+        [ 1.1465e-06,  0.0000e+00,  7.6592e-06,  ...,  8.8243e-07,
+         -4.3325e-06,  1.8194e-05],
+        [-6.1188e-07,  0.0000e+00,  1.0806e-04,  ...,  1.0803e-06,
+          9.5069e-06,  9.4116e-05]], device='cuda:0')
+Epoch 132, bias, value: tensor([-0.0344, -0.0286,  0.0140,  0.0320, -0.0249,  0.0050, -0.0098,  0.0113,
+         0.0176, -0.0026], device='cuda:0'), grad: tensor([-2.5511e-04,  6.1214e-05, -2.4259e-05,  3.0473e-05,  1.9550e-05,
+         1.0177e-05,  2.9534e-05, -5.1171e-05, -4.6402e-05,  2.2578e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 131, time 214.52, cls_loss 0.0018 cls_loss_mapping 0.0046 cls_loss_causal 0.5686 re_mapping 0.0062 re_causal 0.0199 /// teacc 99.03 lr 0.00010000
+Epoch 133, weight, value: tensor([[-0.0509,  0.0276,  0.0165,  ..., -0.0572, -0.0567,  0.0566],
+        [-0.0392, -0.0109, -0.0637,  ...,  0.1241, -0.0630, -0.0457],
+        [-0.0148, -0.0174,  0.1598,  ..., -0.0841, -0.1056, -0.0689],
+        ...,
+        [-0.0559, -0.0496, -0.0042,  ..., -0.0100,  0.0827, -0.0318],
+        [-0.0618, -0.0495, -0.0379,  ..., -0.0900,  0.0066, -0.1002],
+        [-0.1349, -0.0325, -0.1040,  ..., -0.0868,  0.0056,  0.0773]],
+       device='cuda:0'), grad: tensor([[-1.5600e-06,  0.0000e+00, -6.4187e-06,  ..., -1.8980e-06,
+          7.7765e-08, -1.2435e-05],
+        [ 5.7742e-08,  0.0000e+00,  5.5041e-07,  ..., -6.8638e-07,
+          2.1374e-07,  4.0140e-07],
+        [ 3.3528e-08,  0.0000e+00, -1.7323e-06,  ...,  1.8161e-07,
+          3.0128e-07,  3.1525e-07],
+        ...,
+        [ 9.3132e-09,  0.0000e+00, -1.0133e-06,  ...,  4.4145e-07,
+         -1.1642e-06,  2.1420e-08],
+        [ 2.8405e-08,  0.0000e+00,  6.8778e-07,  ...,  3.4133e-07,
+          1.4529e-07,  2.9150e-07],
+        [ 1.6065e-07,  0.0000e+00,  1.2415e-06,  ...,  2.3283e-07,
+          2.5192e-07,  1.8654e-06]], device='cuda:0')
+Epoch 133, bias, value: tensor([-0.0346, -0.0288,  0.0136,  0.0331, -0.0248,  0.0023, -0.0090,  0.0118,
+         0.0179, -0.0030], device='cuda:0'), grad: tensor([-2.3797e-05,  4.6426e-07, -9.4902e-07,  2.8107e-06,  1.1325e-06,
+         1.6894e-06,  1.4633e-05, -1.2703e-06,  1.1846e-06,  4.0792e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 132, time 214.28, cls_loss 0.0015 cls_loss_mapping 0.0052 cls_loss_causal 0.5114 re_mapping 0.0069 re_causal 0.0194 /// teacc 98.96 lr 0.00010000
+Epoch 134, weight, value: tensor([[-0.0514,  0.0275,  0.0175,  ..., -0.0573, -0.0571,  0.0569],
+        [-0.0398, -0.0109, -0.0646,  ...,  0.1247, -0.0631, -0.0459],
+        [-0.0153, -0.0174,  0.1607,  ..., -0.0842, -0.1060, -0.0694],
+        ...,
+        [-0.0563, -0.0496, -0.0042,  ..., -0.0100,  0.0828, -0.0319],
+        [-0.0624, -0.0496, -0.0388,  ..., -0.0916,  0.0067, -0.1007],
+        [-0.1352, -0.0325, -0.1045,  ..., -0.0875,  0.0055,  0.0775]],
+       device='cuda:0'), grad: tensor([[ 1.8114e-07,  1.3039e-08,  1.6298e-06,  ...,  1.6065e-07,
+          1.0151e-06,  4.3847e-06],
+        [ 7.6834e-07,  3.5856e-08,  5.3179e-07,  ..., -2.8824e-07,
+          3.2550e-07,  7.1665e-07],
+        [ 6.2631e-07,  6.4727e-08, -2.8312e-06,  ...,  2.9290e-07,
+          3.2643e-07,  1.0068e-06],
+        ...,
+        [ 4.3958e-07,  3.6787e-08, -8.4639e-06,  ...,  2.4913e-07,
+         -4.8690e-06, -5.9605e-06],
+        [ 3.1479e-07,  1.7229e-08,  5.8189e-06,  ...,  3.2037e-07,
+          2.3320e-06,  7.9051e-06],
+        [ 4.3027e-07,  5.7276e-08, -1.0461e-05,  ...,  2.7474e-08,
+         -6.2063e-06, -4.2617e-05]], device='cuda:0')
+Epoch 134, bias, value: tensor([-0.0340, -0.0290,  0.0142,  0.0332, -0.0246,  0.0021, -0.0090,  0.0117,
+         0.0175, -0.0032], device='cuda:0'), grad: tensor([ 7.0892e-06,  2.0377e-06,  1.2051e-06,  4.0472e-05, -2.7195e-06,
+         1.1139e-05,  6.8499e-07, -1.8880e-05,  9.4250e-06, -5.0426e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 133----------------------------------------------------
+epoch 133, time 230.75, cls_loss 0.0015 cls_loss_mapping 0.0049 cls_loss_causal 0.5189 re_mapping 0.0061 re_causal 0.0191 /// teacc 99.18 lr 0.00010000
+Epoch 135, weight, value: tensor([[-0.0517,  0.0275,  0.0178,  ..., -0.0578, -0.0584,  0.0569],
+        [-0.0401, -0.0109, -0.0650,  ...,  0.1255, -0.0633, -0.0461],
+        [-0.0170, -0.0175,  0.1611,  ..., -0.0847, -0.1062, -0.0699],
+        ...,
+        [-0.0569, -0.0497, -0.0040,  ..., -0.0102,  0.0833, -0.0319],
+        [-0.0627, -0.0498, -0.0390,  ..., -0.0922,  0.0053, -0.1019],
+        [-0.1356, -0.0327, -0.1048,  ..., -0.0878,  0.0053,  0.0777]],
+       device='cuda:0'), grad: tensor([[ 5.0142e-06,  0.0000e+00, -5.3532e-06,  ...,  8.9929e-06,
+          6.8266e-07, -1.1511e-05],
+        [ 2.3693e-06,  0.0000e+00,  6.8406e-07,  ...,  3.6284e-06,
+          8.6101e-07,  1.3085e-07],
+        [ 3.6228e-07,  0.0000e+00, -2.4643e-06,  ...,  1.3160e-06,
+          3.1944e-07,  1.8161e-07],
+        ...,
+        [ 1.4948e-07,  0.0000e+00, -1.3858e-06,  ...,  2.8638e-07,
+         -2.2743e-06,  6.5705e-07],
+        [ 1.7826e-06,  0.0000e+00,  1.0328e-06,  ...,  3.3379e-06,
+          4.3027e-07,  7.4599e-07],
+        [ 7.9023e-07,  0.0000e+00,  5.9567e-06,  ...,  1.5851e-06,
+          2.0117e-07,  8.0764e-06]], device='cuda:0')
+Epoch 135, bias, value: tensor([-0.0342, -0.0289,  0.0140,  0.0329, -0.0244,  0.0021, -0.0088,  0.0119,
+         0.0172, -0.0032], device='cuda:0'), grad: tensor([ 5.0291e-06,  1.0513e-05,  2.0638e-06,  3.4012e-06,  2.7612e-05,
+         6.0648e-06, -7.3552e-05, -3.3267e-06,  7.0706e-06,  1.5080e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 134, time 214.30, cls_loss 0.0014 cls_loss_mapping 0.0045 cls_loss_causal 0.5120 re_mapping 0.0063 re_causal 0.0193 /// teacc 99.13 lr 0.00010000
+Epoch 136, weight, value: tensor([[-0.0520,  0.0275,  0.0182,  ..., -0.0579, -0.0590,  0.0571],
+        [-0.0406, -0.0109, -0.0653,  ...,  0.1261, -0.0635, -0.0485],
+        [-0.0171, -0.0174,  0.1614,  ..., -0.0851, -0.1064, -0.0705],
+        ...,
+        [-0.0574, -0.0497, -0.0038,  ..., -0.0105,  0.0836, -0.0319],
+        [-0.0630, -0.0498, -0.0394,  ..., -0.0923,  0.0048, -0.1031],
+        [-0.1358, -0.0327, -0.1051,  ..., -0.0880,  0.0052,  0.0783]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-07,  0.0000e+00, -2.2743e-06,  ...,  5.4063e-07,
+          1.3108e-07, -2.8722e-06],
+        [ 1.1297e-06,  0.0000e+00,  1.1278e-06,  ...,  4.0443e-07,
+          6.9244e-07,  6.2911e-07],
+        [ 1.5628e-06,  0.0000e+00, -9.5647e-07,  ...,  1.1381e-06,
+          4.1886e-07,  5.0198e-07],
+        ...,
+        [ 1.3094e-06,  0.0000e+00, -2.4810e-06,  ...,  4.1444e-08,
+         -1.6522e-06,  2.8405e-08],
+        [ 8.3772e-07,  0.0000e+00,  2.9453e-07,  ...,  5.3551e-07,
+          7.1712e-07,  1.2740e-06],
+        [ 9.3412e-07,  0.0000e+00,  2.8592e-06,  ...,  5.6578e-08,
+          1.8813e-06,  3.7421e-06]], device='cuda:0')
+Epoch 136, bias, value: tensor([-0.0341, -0.0292,  0.0138,  0.0328, -0.0245,  0.0020, -0.0089,  0.0120,
+         0.0172, -0.0027], device='cuda:0'), grad: tensor([-4.6082e-06,  8.6948e-06,  1.4611e-05, -1.1235e-04,  1.9353e-06,
+         6.5625e-05, -5.9828e-06,  5.5134e-06,  9.4026e-06,  1.7121e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 135, time 214.42, cls_loss 0.0014 cls_loss_mapping 0.0050 cls_loss_causal 0.5429 re_mapping 0.0061 re_causal 0.0195 /// teacc 99.08 lr 0.00010000
+Epoch 137, weight, value: tensor([[-0.0524,  0.0275,  0.0192,  ..., -0.0574, -0.0592,  0.0575],
+        [-0.0411, -0.0109, -0.0656,  ...,  0.1265, -0.0636, -0.0486],
+        [-0.0172, -0.0172,  0.1619,  ..., -0.0853, -0.1064, -0.0709],
+        ...,
+        [-0.0580, -0.0496, -0.0039,  ..., -0.0107,  0.0838, -0.0321],
+        [-0.0633, -0.0499, -0.0401,  ..., -0.0927,  0.0047, -0.1040],
+        [-0.1363, -0.0327, -0.1053,  ..., -0.0884,  0.0052,  0.0783]],
+       device='cuda:0'), grad: tensor([[ 7.0548e-08,  0.0000e+00,  1.4445e-06,  ...,  8.6380e-08,
+          1.2042e-06, -3.8976e-07],
+        [ 4.8196e-07,  0.0000e+00,  1.2666e-05,  ..., -3.0957e-06,
+          1.0543e-05,  1.3318e-07],
+        [ 7.7998e-08,  0.0000e+00, -1.6261e-06,  ...,  1.5441e-06,
+          9.2015e-06,  1.2829e-07],
+        ...,
+        [ 7.1153e-07,  0.0000e+00, -4.9710e-05,  ...,  3.7649e-07,
+         -4.5925e-05,  1.4883e-06],
+        [ 4.7637e-07,  0.0000e+00,  8.7917e-06,  ...,  4.6194e-07,
+          2.0377e-06,  9.8627e-07],
+        [ 6.8406e-07,  0.0000e+00,  3.4329e-06,  ...,  7.2410e-08,
+          3.1516e-06, -3.7421e-06]], device='cuda:0')
+Epoch 137, bias, value: tensor([-0.0335, -0.0293,  0.0139,  0.0327, -0.0243,  0.0026, -0.0095,  0.0119,
+         0.0169, -0.0028], device='cuda:0'), grad: tensor([ 3.3919e-06,  2.7418e-05,  1.1861e-05,  2.4095e-05,  2.0400e-05,
+         1.3776e-05,  3.2987e-06, -1.2279e-04,  1.5646e-05,  2.9262e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 136, time 214.47, cls_loss 0.0016 cls_loss_mapping 0.0049 cls_loss_causal 0.5331 re_mapping 0.0060 re_causal 0.0184 /// teacc 99.13 lr 0.00010000
+Epoch 138, weight, value: tensor([[-0.0531,  0.0275,  0.0204,  ..., -0.0577, -0.0583,  0.0578],
+        [-0.0415, -0.0110, -0.0659,  ...,  0.1271, -0.0638, -0.0487],
+        [-0.0175, -0.0172,  0.1621,  ..., -0.0856, -0.1067, -0.0718],
+        ...,
+        [-0.0572, -0.0497, -0.0036,  ..., -0.0110,  0.0842, -0.0322],
+        [-0.0637, -0.0501, -0.0404,  ..., -0.0932,  0.0044, -0.1044],
+        [-0.1366, -0.0329, -0.1056,  ..., -0.0887,  0.0051,  0.0786]],
+       device='cuda:0'), grad: tensor([[ 1.6158e-07,  0.0000e+00, -2.9569e-07,  ...,  3.6298e-07,
+          2.5565e-07,  4.7637e-07],
+        [ 6.4960e-08,  0.0000e+00,  1.3309e-06,  ..., -9.0292e-07,
+          3.2573e-07,  3.2783e-07],
+        [ 7.2410e-08,  0.0000e+00, -3.1088e-06,  ...,  1.4273e-07,
+          4.1537e-07,  3.9348e-07],
+        ...,
+        [ 4.7497e-08,  0.0000e+00, -4.7944e-06,  ...,  1.0920e-07,
+         -1.2759e-07,  1.1496e-05],
+        [ 7.6648e-07,  0.0000e+00,  2.3772e-07,  ...,  3.7090e-07,
+          1.1595e-07,  1.4175e-06],
+        [ 1.3714e-07,  0.0000e+00,  3.7458e-06,  ...,  6.9151e-08,
+         -2.2445e-06, -1.5959e-05]], device='cuda:0')
+Epoch 138, bias, value: tensor([-0.0330, -0.0292,  0.0137,  0.0339, -0.0246,  0.0003, -0.0095,  0.0122,
+         0.0168, -0.0027], device='cuda:0'), grad: tensor([ 2.6040e-06,  1.1995e-06, -1.0226e-06,  5.8189e-06,  1.3094e-06,
+         1.5758e-06, -1.2740e-06,  1.3821e-05,  1.0412e-06, -2.5108e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 137, time 214.44, cls_loss 0.0015 cls_loss_mapping 0.0041 cls_loss_causal 0.5480 re_mapping 0.0055 re_causal 0.0187 /// teacc 99.16 lr 0.00010000
+Epoch 139, weight, value: tensor([[-0.0536,  0.0274,  0.0201,  ..., -0.0579, -0.0587,  0.0578],
+        [-0.0417, -0.0110, -0.0668,  ...,  0.1275, -0.0642, -0.0490],
+        [-0.0176, -0.0172,  0.1628,  ..., -0.0859, -0.1069, -0.0721],
+        ...,
+        [-0.0574, -0.0499, -0.0033,  ..., -0.0111,  0.0846, -0.0322],
+        [-0.0640, -0.0505, -0.0410,  ..., -0.0935,  0.0040, -0.1047],
+        [-0.1368, -0.0333, -0.1057,  ..., -0.0891,  0.0050,  0.0788]],
+       device='cuda:0'), grad: tensor([[ 2.0955e-09,  0.0000e+00, -1.3728e-06,  ...,  1.0431e-07,
+          5.4715e-08, -2.7250e-06],
+        [ 6.2864e-09,  0.0000e+00,  1.7747e-05,  ..., -2.0452e-06,
+          4.1607e-07,  1.1525e-07],
+        [ 2.7940e-09,  0.0000e+00, -9.3818e-05,  ...,  2.2934e-07,
+          1.4566e-06,  8.6753e-07],
+        ...,
+        [ 4.4238e-09,  0.0000e+00,  5.8830e-05,  ...,  1.0328e-06,
+         -2.7381e-06,  3.4226e-07],
+        [ 2.7940e-09,  0.0000e+00,  9.5591e-06,  ...,  2.3446e-07,
+          4.7963e-07,  5.6345e-08],
+        [ 3.9581e-09,  0.0000e+00,  3.3267e-06,  ...,  1.2293e-07,
+          1.2550e-07,  3.2922e-07]], device='cuda:0')
+Epoch 139, bias, value: tensor([-0.0333, -0.0296,  0.0140,  0.0337, -0.0246,  0.0008, -0.0097,  0.0125,
+         0.0165, -0.0027], device='cuda:0'), grad: tensor([-2.2184e-06,  1.7285e-05, -1.0651e-04,  5.9493e-06,  3.6918e-06,
+        -1.4231e-06,  1.9446e-06,  6.9201e-05,  7.4655e-06,  4.7199e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 138, time 214.25, cls_loss 0.0015 cls_loss_mapping 0.0050 cls_loss_causal 0.5341 re_mapping 0.0056 re_causal 0.0187 /// teacc 99.11 lr 0.00010000
+Epoch 140, weight, value: tensor([[-0.0541,  0.0274,  0.0203,  ..., -0.0579, -0.0592,  0.0579],
+        [-0.0424, -0.0111, -0.0675,  ...,  0.1278, -0.0644, -0.0491],
+        [-0.0180, -0.0172,  0.1635,  ..., -0.0860, -0.1072, -0.0734],
+        ...,
+        [-0.0565, -0.0498, -0.0030,  ..., -0.0111,  0.0849, -0.0322],
+        [-0.0647, -0.0507, -0.0417,  ..., -0.0939,  0.0046, -0.1060],
+        [-0.1379, -0.0334, -0.1060,  ..., -0.0893,  0.0049,  0.0790]],
+       device='cuda:0'), grad: tensor([[ 1.2573e-08,  0.0000e+00, -5.2853e-08,  ...,  3.2154e-07,
+          9.0105e-08, -1.9791e-08],
+        [ 1.7928e-08,  0.0000e+00,  6.2352e-07,  ..., -4.9360e-06,
+          4.9872e-07,  6.9384e-08],
+        [ 1.8859e-08,  0.0000e+00,  7.4320e-07,  ...,  7.1712e-07,
+          5.5414e-07,  9.5461e-08],
+        ...,
+        [ 4.0047e-08,  0.0000e+00, -2.8219e-06,  ...,  1.2750e-06,
+         -2.4512e-06,  1.9162e-07],
+        [ 1.7928e-08,  0.0000e+00,  1.2503e-07,  ...,  1.8962e-06,
+          9.6951e-07,  9.7416e-07],
+        [ 2.8405e-07,  0.0000e+00,  6.7567e-07,  ...,  2.0303e-07,
+          7.7905e-07, -3.6042e-07]], device='cuda:0')
+Epoch 140, bias, value: tensor([-0.0333, -0.0298,  0.0143,  0.0334, -0.0245,  0.0014, -0.0107,  0.0129,
+         0.0163, -0.0027], device='cuda:0'), grad: tensor([ 1.4948e-06, -1.0625e-05,  3.7849e-06,  5.0738e-06,  9.2713e-07,
+        -5.6252e-06, -4.6231e-06, -3.0976e-06,  1.0058e-05,  2.6245e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 139, time 214.22, cls_loss 0.0014 cls_loss_mapping 0.0063 cls_loss_causal 0.5208 re_mapping 0.0060 re_causal 0.0182 /// teacc 99.12 lr 0.00010000
+Epoch 141, weight, value: tensor([[-0.0562,  0.0274,  0.0207,  ..., -0.0582, -0.0594,  0.0580],
+        [-0.0427, -0.0111, -0.0674,  ...,  0.1285, -0.0644, -0.0492],
+        [-0.0183, -0.0172,  0.1637,  ..., -0.0863, -0.1073, -0.0738],
+        ...,
+        [-0.0573, -0.0498, -0.0030,  ..., -0.0115,  0.0851, -0.0323],
+        [-0.0650, -0.0508, -0.0420,  ..., -0.0945,  0.0045, -0.1066],
+        [-0.1388, -0.0334, -0.1062,  ..., -0.0897,  0.0048,  0.0792]],
+       device='cuda:0'), grad: tensor([[ 5.5600e-07,  0.0000e+00, -8.8150e-07,  ...,  2.9150e-07,
+          1.1083e-07, -2.7707e-07],
+        [ 1.0626e-06,  0.0000e+00,  1.7113e-07,  ..., -1.9628e-07,
+          1.2130e-07,  1.3085e-06],
+        [ 4.7777e-07,  0.0000e+00,  4.4331e-07,  ...,  6.8219e-08,
+          1.1222e-07,  1.4892e-06],
+        ...,
+        [ 1.5544e-06,  0.0000e+00, -5.4436e-07,  ...,  4.7032e-08,
+         -1.2396e-06,  2.7362e-06],
+        [ 4.3772e-07,  0.0000e+00,  1.0710e-07,  ...,  2.3213e-07,
+          4.2375e-08,  1.7378e-06],
+        [ 7.1153e-06,  0.0000e+00,  4.2445e-07,  ...,  9.8255e-08,
+          1.5763e-07, -4.2841e-06]], device='cuda:0')
+Epoch 141, bias, value: tensor([-0.0336, -0.0296,  0.0141,  0.0330, -0.0242,  0.0008, -0.0091,  0.0128,
+         0.0163, -0.0028], device='cuda:0'), grad: tensor([ 1.4901e-06,  6.9141e-06,  1.1355e-05, -2.9564e-05, -1.3217e-05,
+         5.1931e-06, -1.8142e-06,  5.7817e-06,  7.4580e-06,  6.3516e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 140, time 214.41, cls_loss 0.0017 cls_loss_mapping 0.0042 cls_loss_causal 0.5145 re_mapping 0.0058 re_causal 0.0176 /// teacc 99.15 lr 0.00010000
+Epoch 142, weight, value: tensor([[-0.0569,  0.0274,  0.0226,  ..., -0.0584, -0.0598,  0.0586],
+        [-0.0434, -0.0111, -0.0690,  ...,  0.1298, -0.0645, -0.0494],
+        [-0.0185, -0.0174,  0.1645,  ..., -0.0880, -0.1075, -0.0748],
+        ...,
+        [-0.0584, -0.0499, -0.0030,  ..., -0.0118,  0.0853, -0.0325],
+        [-0.0660, -0.0511, -0.0422,  ..., -0.0951,  0.0044, -0.1072],
+        [-0.1420, -0.0334, -0.1066,  ..., -0.0900,  0.0047,  0.0791]],
+       device='cuda:0'), grad: tensor([[ 2.2142e-07,  0.0000e+00,  1.4119e-06,  ...,  6.0955e-07,
+          2.1118e-07,  2.6729e-06],
+        [ 5.1828e-07,  0.0000e+00,  8.7395e-06,  ...,  7.5623e-07,
+          8.0839e-07,  2.1253e-06],
+        [ 2.0559e-07,  0.0000e+00, -1.9193e-05,  ..., -4.2133e-06,
+          1.2396e-06,  1.2424e-06],
+        ...,
+        [ 3.2294e-07,  0.0000e+00, -7.4506e-06,  ...,  4.5728e-07,
+         -8.4937e-06,  9.6411e-06],
+        [ 4.4098e-07,  0.0000e+00,  3.3770e-06,  ...,  7.3481e-07,
+          5.9744e-07,  1.8224e-05],
+        [ 1.9884e-07,  0.0000e+00, -4.4107e-06,  ...,  1.0571e-07,
+          6.6217e-07, -6.2168e-05]], device='cuda:0')
+Epoch 142, bias, value: tensor([-0.0328, -0.0294,  0.0139,  0.0328, -0.0217,  0.0012, -0.0101,  0.0127,
+         0.0161, -0.0042], device='cuda:0'), grad: tensor([ 1.0163e-05,  1.7211e-05, -2.4304e-05,  4.7088e-05,  2.7597e-05,
+         4.9137e-06, -7.9628e-08, -5.1260e-06,  3.4541e-05, -1.1206e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 141, time 214.40, cls_loss 0.0016 cls_loss_mapping 0.0052 cls_loss_causal 0.5105 re_mapping 0.0061 re_causal 0.0191 /// teacc 99.01 lr 0.00010000
+Epoch 143, weight, value: tensor([[-0.0584,  0.0273,  0.0223,  ..., -0.0588, -0.0602,  0.0570],
+        [-0.0437, -0.0112, -0.0695,  ...,  0.1302, -0.0646, -0.0491],
+        [-0.0187, -0.0174,  0.1645,  ..., -0.0882, -0.1078, -0.0751],
+        ...,
+        [-0.0591, -0.0499, -0.0021,  ..., -0.0121,  0.0856, -0.0326],
+        [-0.0664, -0.0512, -0.0431,  ..., -0.0957,  0.0042, -0.1075],
+        [-0.1422, -0.0335, -0.1061,  ..., -0.0902,  0.0046,  0.0803]],
+       device='cuda:0'), grad: tensor([[ 5.1595e-07,  0.0000e+00, -9.3222e-05,  ...,  9.0003e-06,
+          6.9337e-07, -1.1015e-04],
+        [ 8.5076e-07,  6.9849e-10,  7.2364e-07,  ...,  1.2785e-05,
+          1.0459e-06,  8.5682e-07],
+        [ 2.9267e-07,  2.3283e-10,  1.5302e-06,  ...,  5.1744e-06,
+          4.2282e-07,  1.7630e-06],
+        ...,
+        [ 2.4983e-07,  9.3132e-10,  1.3621e-07,  ...,  2.0918e-06,
+          1.5832e-08,  8.6566e-07],
+        [ 2.8387e-05,  2.3283e-10,  7.4387e-05,  ...,  6.1083e-04,
+          3.8713e-05,  8.8632e-05],
+        [ 6.6310e-07,  6.7521e-09,  8.9034e-06,  ...,  5.6550e-06,
+          5.5972e-07,  1.0543e-05]], device='cuda:0')
+Epoch 143, bias, value: tensor([-0.0346, -0.0293,  0.0137,  0.0326, -0.0218,  0.0011, -0.0098,  0.0129,
+         0.0163, -0.0035], device='cuda:0'), grad: tensor([-2.4354e-04,  5.6952e-05,  2.4885e-05,  4.7892e-05,  3.8385e-05,
+         7.8321e-05, -2.7027e-03,  9.1568e-06,  2.6455e-03,  4.8757e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 142, time 214.36, cls_loss 0.0015 cls_loss_mapping 0.0057 cls_loss_causal 0.5023 re_mapping 0.0061 re_causal 0.0190 /// teacc 99.14 lr 0.00010000
+Epoch 144, weight, value: tensor([[-0.0587,  0.0272,  0.0230,  ..., -0.0588, -0.0604,  0.0574],
+        [-0.0443, -0.0112, -0.0699,  ...,  0.1304, -0.0647, -0.0496],
+        [-0.0186, -0.0172,  0.1643,  ..., -0.0887, -0.1078, -0.0757],
+        ...,
+        [-0.0577, -0.0499, -0.0009,  ..., -0.0124,  0.0866, -0.0327],
+        [-0.0657, -0.0519, -0.0437,  ..., -0.0966,  0.0041, -0.1076],
+        [-0.1426, -0.0323, -0.1064,  ..., -0.0905,  0.0046,  0.0805]],
+       device='cuda:0'), grad: tensor([[ 6.9849e-10,  0.0000e+00, -1.2317e-07,  ...,  5.3551e-08,
+          2.1677e-07,  1.0780e-07],
+        [ 2.3283e-10,  0.0000e+00,  2.2841e-07,  ..., -1.0608e-06,
+          3.2363e-07,  1.9511e-07],
+        [ 6.9849e-10,  0.0000e+00, -2.1663e-06,  ...,  2.2375e-07,
+          3.7136e-07,  1.8068e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -1.1902e-06,  ...,  9.0338e-08,
+         -1.4314e-06,  5.5274e-07],
+        [ 4.6566e-10,  0.0000e+00,  6.3842e-07,  ...,  2.9011e-07,
+          1.1306e-06,  1.4147e-06],
+        [ 0.0000e+00,  0.0000e+00,  3.6275e-07,  ...,  3.2829e-08,
+          4.9872e-07, -7.9256e-07]], device='cuda:0')
+Epoch 144, bias, value: tensor([-0.0342, -0.0301,  0.0132,  0.0325, -0.0239,  0.0020, -0.0104,  0.0143,
+         0.0173, -0.0036], device='cuda:0'), grad: tensor([ 9.8161e-07, -7.6741e-07, -8.7777e-07,  4.0501e-05,  1.0226e-06,
+        -7.2002e-05,  2.9549e-05, -1.4640e-06,  9.9652e-07,  2.0657e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 143, time 214.25, cls_loss 0.0012 cls_loss_mapping 0.0034 cls_loss_causal 0.5289 re_mapping 0.0059 re_causal 0.0189 /// teacc 99.15 lr 0.00010000
+Epoch 145, weight, value: tensor([[-0.0593,  0.0278,  0.0230,  ..., -0.0593, -0.0611,  0.0574],
+        [-0.0447, -0.0112, -0.0701,  ...,  0.1308, -0.0648, -0.0494],
+        [-0.0189, -0.0172,  0.1643,  ..., -0.0890, -0.1081, -0.0762],
+        ...,
+        [-0.0577, -0.0500, -0.0005,  ..., -0.0124,  0.0869, -0.0328],
+        [-0.0660, -0.0525, -0.0438,  ..., -0.0970,  0.0049, -0.1084],
+        [-0.1427, -0.0316, -0.1067,  ..., -0.0907,  0.0045,  0.0807]],
+       device='cuda:0'), grad: tensor([[ 8.1491e-08,  0.0000e+00, -2.9523e-07,  ...,  8.8010e-08,
+          3.7253e-08, -4.1490e-07],
+        [ 2.0815e-07,  0.0000e+00, -3.2596e-08,  ..., -2.0117e-06,
+          2.0815e-07,  3.0734e-08],
+        [ 7.8231e-08,  0.0000e+00,  9.6858e-08,  ...,  9.2341e-07,
+          2.0070e-07,  3.1665e-08],
+        ...,
+        [ 4.5169e-07,  0.0000e+00, -1.2508e-06,  ...,  4.8662e-07,
+         -1.5711e-06,  2.1094e-07],
+        [ 1.5693e-07,  0.0000e+00,  4.4052e-07,  ...,  1.8068e-07,
+          1.4110e-07,  1.6624e-07],
+        [ 3.5204e-07,  0.0000e+00,  1.4827e-06,  ...,  7.3574e-08,
+          1.0207e-06, -8.1956e-08]], device='cuda:0')
+Epoch 145, bias, value: tensor([-0.0346, -0.0299,  0.0127,  0.0322, -0.0239,  0.0021, -0.0105,  0.0147,
+         0.0175, -0.0036], device='cuda:0'), grad: tensor([-1.9651e-07, -3.6750e-06,  3.0752e-06, -6.8806e-06, -1.7378e-06,
+         5.5460e-07,  5.7975e-07,  1.6503e-06,  3.2727e-06,  3.3155e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 144, time 214.45, cls_loss 0.0014 cls_loss_mapping 0.0060 cls_loss_causal 0.5314 re_mapping 0.0059 re_causal 0.0186 /// teacc 98.98 lr 0.00010000
+Epoch 146, weight, value: tensor([[-0.0596,  0.0277,  0.0233,  ..., -0.0594, -0.0616,  0.0576],
+        [-0.0456, -0.0113, -0.0702,  ...,  0.1314, -0.0648, -0.0495],
+        [-0.0188, -0.0171,  0.1646,  ..., -0.0892, -0.1084, -0.0769],
+        ...,
+        [-0.0580, -0.0500, -0.0004,  ..., -0.0133,  0.0873, -0.0332],
+        [-0.0664, -0.0526, -0.0439,  ..., -0.0973,  0.0048, -0.1094],
+        [-0.1432, -0.0316, -0.1071,  ..., -0.0910,  0.0045,  0.0814]],
+       device='cuda:0'), grad: tensor([[-5.8999e-07,  0.0000e+00, -1.5438e-04,  ...,  6.6124e-08,
+          2.6915e-07, -3.9607e-05],
+        [ 6.0536e-08,  0.0000e+00,  1.5423e-06,  ..., -6.7614e-07,
+          3.7672e-07,  3.5390e-07],
+        [ 6.8825e-07,  0.0000e+00,  1.2934e-04,  ...,  7.3574e-08,
+          2.1188e-07,  3.7193e-05],
+        ...,
+        [ 1.0571e-07,  0.0000e+00,  6.3144e-06,  ...,  1.3085e-07,
+         -1.1362e-07,  1.0440e-06],
+        [ 3.8650e-08,  0.0000e+00,  6.3479e-06,  ...,  2.3190e-07,
+          8.5449e-07,  1.5860e-06],
+        [ 2.6124e-07,  0.0000e+00,  7.5391e-07,  ...,  6.9849e-08,
+          1.1632e-06, -7.3714e-07]], device='cuda:0')
+Epoch 146, bias, value: tensor([-0.0345, -0.0297,  0.0126,  0.0316, -0.0239,  0.0021, -0.0105,  0.0144,
+         0.0175, -0.0030], device='cuda:0'), grad: tensor([-1.7953e-04,  2.7455e-06,  1.5211e-04, -8.6203e-06,  2.1514e-06,
+        -1.6436e-05,  1.0096e-05,  1.2308e-05,  2.2545e-05,  2.8256e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 145, time 214.31, cls_loss 0.0015 cls_loss_mapping 0.0042 cls_loss_causal 0.5495 re_mapping 0.0059 re_causal 0.0191 /// teacc 99.03 lr 0.00010000
+Epoch 147, weight, value: tensor([[-0.0599,  0.0277,  0.0238,  ..., -0.0595, -0.0619,  0.0577],
+        [-0.0463, -0.0114, -0.0709,  ...,  0.1316, -0.0650, -0.0498],
+        [-0.0192, -0.0174,  0.1651,  ..., -0.0893, -0.1087, -0.0775],
+        ...,
+        [-0.0583, -0.0500, -0.0006,  ..., -0.0133,  0.0872, -0.0335],
+        [-0.0670, -0.0530, -0.0444,  ..., -0.0976,  0.0046, -0.1101],
+        [-0.1444, -0.0316, -0.1066,  ..., -0.0912,  0.0048,  0.0817]],
+       device='cuda:0'), grad: tensor([[ 1.2526e-07,  0.0000e+00,  1.7276e-07,  ...,  2.7986e-07,
+          2.5146e-07, -2.1160e-06],
+        [ 1.3616e-06,  0.0000e+00,  5.1083e-07,  ..., -2.3711e-06,
+          2.4959e-06,  1.7462e-07],
+        [ 1.2480e-07,  0.0000e+00, -2.2035e-06,  ...,  5.6578e-07,
+          2.7940e-07,  1.1874e-07],
+        ...,
+        [-1.2420e-05,  0.0000e+00, -1.1772e-06,  ...,  2.4121e-07,
+         -2.3589e-05,  1.8626e-07],
+        [ 2.9756e-07,  0.0000e+00,  6.3702e-07,  ...,  9.2760e-07,
+          5.5926e-07,  1.7928e-07],
+        [ 7.4646e-07,  0.0000e+00,  9.5088e-07,  ...,  4.0838e-07,
+          3.4347e-06, -1.7509e-06]], device='cuda:0')
+Epoch 147, bias, value: tensor([-0.0345, -0.0301,  0.0124,  0.0319, -0.0233,  0.0021, -0.0106,  0.0130,
+         0.0173, -0.0014], device='cuda:0'), grad: tensor([-3.3854e-07,  4.3400e-06,  3.4440e-06,  9.7379e-06,  6.0558e-05,
+        -2.7083e-06,  2.0377e-06, -7.8619e-05, -6.9328e-06,  8.3670e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 146, time 214.00, cls_loss 0.0018 cls_loss_mapping 0.0049 cls_loss_causal 0.5408 re_mapping 0.0058 re_causal 0.0183 /// teacc 99.12 lr 0.00010000
+Epoch 148, weight, value: tensor([[-0.0603,  0.0277,  0.0237,  ..., -0.0595, -0.0626,  0.0574],
+        [-0.0497, -0.0114, -0.0724,  ...,  0.1312, -0.0653, -0.0507],
+        [-0.0162, -0.0174,  0.1665,  ..., -0.0877, -0.1089, -0.0780],
+        ...,
+        [-0.0585, -0.0500, -0.0003,  ..., -0.0135,  0.0879, -0.0335],
+        [-0.0691, -0.0531, -0.0454,  ..., -0.0985,  0.0044, -0.1104],
+        [-0.1446, -0.0316, -0.1069,  ..., -0.0915,  0.0044,  0.0826]],
+       device='cuda:0'), grad: tensor([[ 1.6298e-08,  2.0023e-08, -7.2643e-07,  ...,  2.3413e-06,
+          2.4214e-08, -1.0282e-06],
+        [ 8.0094e-08,  1.1642e-08,  2.5798e-07,  ..., -3.6299e-05,
+          5.0804e-07, -2.1188e-07],
+        [ 4.8289e-07, -2.5751e-07, -4.7311e-06,  ...,  1.4482e-06,
+          3.3062e-08,  2.3749e-08],
+        ...,
+        [ 2.3004e-07,  5.6811e-08, -7.6788e-07,  ...,  3.0771e-06,
+         -1.4473e-06, -1.8766e-07],
+        [ 1.1548e-07,  8.8476e-08,  3.1609e-06,  ...,  4.7572e-06,
+          2.6170e-07,  3.2131e-07],
+        [ 1.0869e-06,  2.0489e-08,  1.9539e-06,  ...,  2.2668e-06,
+          8.2888e-07,  1.1055e-06]], device='cuda:0')
+Epoch 148, bias, value: tensor([-0.0349, -0.0324,  0.0152,  0.0318, -0.0253,  0.0018, -0.0106,  0.0134,
+         0.0167, -0.0003], device='cuda:0'), grad: tensor([ 3.5707e-06, -7.1526e-05, -2.3171e-06,  4.2375e-07,  8.0988e-06,
+         5.7183e-06,  2.7403e-05,  2.7008e-06,  1.5065e-05,  1.0870e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 147, time 214.43, cls_loss 0.0026 cls_loss_mapping 0.0072 cls_loss_causal 0.5606 re_mapping 0.0059 re_causal 0.0185 /// teacc 98.99 lr 0.00010000
+Epoch 149, weight, value: tensor([[-0.0608,  0.0277,  0.0237,  ..., -0.0601, -0.0640,  0.0574],
+        [-0.0499, -0.0114, -0.0730,  ...,  0.1314, -0.0659, -0.0499],
+        [-0.0163, -0.0174,  0.1667,  ..., -0.0895, -0.1093, -0.0793],
+        ...,
+        [-0.0596, -0.0500,  0.0003,  ..., -0.0118,  0.0884, -0.0336],
+        [-0.0698, -0.0532, -0.0459,  ..., -0.0994,  0.0043, -0.1116],
+        [-0.1472, -0.0316, -0.1071,  ..., -0.0929,  0.0042,  0.0824]],
+       device='cuda:0'), grad: tensor([[ 1.0524e-07,  0.0000e+00, -2.3562e-07,  ...,  1.0943e-07,
+          1.0291e-07,  4.2375e-08],
+        [ 1.7975e-07,  0.0000e+00,  4.0606e-07,  ..., -4.2329e-07,
+          3.1898e-07,  3.2596e-07],
+        [ 4.3539e-07,  0.0000e+00,  6.2361e-06,  ...,  1.7369e-07,
+          3.8818e-06,  8.8103e-07],
+        ...,
+        [ 9.2713e-07,  0.0000e+00, -1.0006e-05,  ...,  3.4319e-07,
+         -6.1728e-06,  1.7863e-06],
+        [ 4.1630e-07,  0.0000e+00,  1.6950e-07,  ...,  3.1628e-06,
+          3.0100e-06,  2.9150e-06],
+        [ 2.7139e-06,  0.0000e+00,  5.3039e-07,  ...,  2.6356e-07,
+          3.1805e-07,  3.1535e-06]], device='cuda:0')
+Epoch 149, bias, value: tensor([-0.0353, -0.0328,  0.0146,  0.0328, -0.0227,  0.0008, -0.0099,  0.0141,
+         0.0162, -0.0026], device='cuda:0'), grad: tensor([ 7.9535e-07,  1.7658e-06,  1.6481e-05, -2.9668e-05,  1.2461e-06,
+        -1.7926e-05, -5.1670e-06, -1.0461e-05,  2.8327e-05,  1.4536e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 148, time 214.09, cls_loss 0.0015 cls_loss_mapping 0.0057 cls_loss_causal 0.5447 re_mapping 0.0061 re_causal 0.0190 /// teacc 99.05 lr 0.00010000
+Epoch 150, weight, value: tensor([[-0.0613,  0.0276,  0.0240,  ..., -0.0609, -0.0643,  0.0576],
+        [-0.0499, -0.0114, -0.0731,  ...,  0.1333, -0.0660, -0.0500],
+        [-0.0164, -0.0188,  0.1666,  ..., -0.0901, -0.1103, -0.0798],
+        ...,
+        [-0.0599, -0.0494,  0.0013,  ..., -0.0133,  0.0892, -0.0337],
+        [-0.0709, -0.0532, -0.0460,  ..., -0.1008,  0.0039, -0.1124],
+        [-0.1475, -0.0312, -0.1075,  ..., -0.0935,  0.0040,  0.0826]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00, -1.0449e-06,  ...,  1.5832e-08,
+          3.3993e-08, -1.6242e-06],
+        [ 1.3970e-09,  0.0000e+00,  4.7730e-07,  ..., -3.8650e-07,
+          2.8033e-07,  1.9837e-07],
+        [ 2.7940e-09,  0.0000e+00, -5.2154e-06,  ...,  1.1688e-07,
+          1.3504e-08,  1.8766e-07],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  3.6824e-06,  ...,  1.6158e-07,
+         -1.0515e-06,  3.3434e-07],
+        [ 3.2596e-09,  0.0000e+00, -5.9092e-07,  ...,  4.2841e-08,
+         -9.7789e-09,  6.5751e-07],
+        [ 4.6566e-10,  0.0000e+00,  1.4538e-06,  ...,  1.3504e-08,
+          4.1490e-07,  3.5949e-07]], device='cuda:0')
+Epoch 150, bias, value: tensor([-0.0354, -0.0321,  0.0143,  0.0323, -0.0229,  0.0012, -0.0096,  0.0142,
+         0.0157, -0.0026], device='cuda:0'), grad: tensor([-1.6605e-06,  1.2256e-06, -4.9584e-06, -2.1443e-05,  5.9977e-07,
+         1.9655e-05,  4.9965e-07,  4.5896e-06, -1.9781e-06,  3.4589e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 149, time 214.07, cls_loss 0.0017 cls_loss_mapping 0.0040 cls_loss_causal 0.5188 re_mapping 0.0059 re_causal 0.0178 /// teacc 99.07 lr 0.00010000
+Epoch 151, weight, value: tensor([[-0.0622,  0.0277,  0.0244,  ..., -0.0607, -0.0646,  0.0573],
+        [-0.0500, -0.0115, -0.0758,  ...,  0.1326, -0.0661, -0.0503],
+        [-0.0164, -0.0188,  0.1688,  ..., -0.0885, -0.1103, -0.0808],
+        ...,
+        [-0.0601, -0.0494,  0.0011,  ..., -0.0138,  0.0895, -0.0338],
+        [-0.0715, -0.0533, -0.0465,  ..., -0.1022,  0.0031, -0.1140],
+        [-0.1476, -0.0313, -0.1076,  ..., -0.0941,  0.0038,  0.0830]],
+       device='cuda:0'), grad: tensor([[ 3.2596e-09,  0.0000e+00,  8.1491e-08,  ...,  2.0908e-07,
+          4.6566e-09,  6.2864e-08],
+        [ 1.3970e-09,  0.0000e+00, -8.6147e-07,  ..., -9.9540e-05,
+          2.7940e-08,  7.3109e-08],
+        [ 1.8626e-09,  0.0000e+00, -3.2615e-06,  ...,  9.0063e-05,
+          4.2375e-08,  1.0012e-07],
+        ...,
+        [ 4.1910e-09,  0.0000e+00,  1.7257e-06,  ...,  1.4370e-06,
+         -1.7742e-07,  5.6578e-07],
+        [ 5.5879e-09,  0.0000e+00,  1.5460e-06,  ...,  2.5537e-06,
+          2.0955e-08,  2.8685e-07],
+        [ 4.6566e-10,  0.0000e+00,  1.2200e-07,  ...,  1.1828e-06,
+          3.9116e-08, -1.7863e-06]], device='cuda:0')
+Epoch 151, bias, value: tensor([-0.0356, -0.0332,  0.0156,  0.0322, -0.0230,  0.0016, -0.0101,  0.0141,
+         0.0151, -0.0025], device='cuda:0'), grad: tensor([ 7.7067e-07, -2.1219e-04,  1.8823e-04,  2.1420e-08,  5.0664e-06,
+         1.3085e-06,  2.9355e-06,  6.0983e-06,  8.0466e-06,  3.4459e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 150, time 214.11, cls_loss 0.0014 cls_loss_mapping 0.0039 cls_loss_causal 0.5362 re_mapping 0.0059 re_causal 0.0178 /// teacc 99.14 lr 0.00010000
+Epoch 152, weight, value: tensor([[-0.0630,  0.0277,  0.0260,  ..., -0.0611, -0.0649,  0.0584],
+        [-0.0503, -0.0115, -0.0757,  ...,  0.1334, -0.0662, -0.0508],
+        [-0.0164, -0.0188,  0.1688,  ..., -0.0892, -0.1109, -0.0826],
+        ...,
+        [-0.0602, -0.0494,  0.0014,  ..., -0.0141,  0.0899, -0.0341],
+        [-0.0720, -0.0534, -0.0467,  ..., -0.1029,  0.0028, -0.1150],
+        [-0.1477, -0.0314, -0.1079,  ..., -0.0943,  0.0038,  0.0835]],
+       device='cuda:0'), grad: tensor([[ 1.5367e-08,  0.0000e+00, -3.2596e-08,  ...,  9.1270e-08,
+          3.4459e-08,  5.1642e-07],
+        [ 2.5611e-08,  0.0000e+00,  4.6007e-07,  ..., -1.0747e-06,
+          2.3982e-07,  1.7835e-07],
+        [ 2.3283e-08,  0.0000e+00,  9.0059e-07,  ...,  6.3796e-07,
+          5.2014e-07,  2.5239e-07],
+        ...,
+        [ 5.8208e-08,  0.0000e+00, -1.9446e-06,  ...,  2.4494e-07,
+         -1.0394e-06,  2.3516e-07],
+        [ 2.1420e-08,  0.0000e+00, -7.9162e-09,  ...,  7.5437e-08,
+          1.0943e-07,  2.1029e-06],
+        [ 9.6392e-08,  0.0000e+00,  2.2398e-07,  ...,  6.7987e-08,
+          1.6717e-07, -8.6054e-06]], device='cuda:0')
+Epoch 152, bias, value: tensor([-0.0349, -0.0330,  0.0152,  0.0321, -0.0231,  0.0014, -0.0096,  0.0141,
+         0.0150, -0.0023], device='cuda:0'), grad: tensor([ 1.7826e-06, -5.3691e-07,  7.3239e-06,  1.4372e-05,  3.9488e-06,
+        -1.1586e-06,  3.1758e-07, -2.3115e-06, -3.7234e-06, -2.0102e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 151, time 214.15, cls_loss 0.0016 cls_loss_mapping 0.0062 cls_loss_causal 0.5251 re_mapping 0.0057 re_causal 0.0176 /// teacc 98.99 lr 0.00010000
+Epoch 153, weight, value: tensor([[-0.0629,  0.0277,  0.0273,  ..., -0.0603, -0.0654,  0.0589],
+        [-0.0505, -0.0115, -0.0766,  ...,  0.1341, -0.0662, -0.0509],
+        [-0.0165, -0.0187,  0.1688,  ..., -0.0896, -0.1123, -0.0834],
+        ...,
+        [-0.0605, -0.0494,  0.0024,  ..., -0.0146,  0.0906, -0.0341],
+        [-0.0722, -0.0534, -0.0470,  ..., -0.1037,  0.0020, -0.1166],
+        [-0.1480, -0.0314, -0.1085,  ..., -0.0948,  0.0035,  0.0836]],
+       device='cuda:0'), grad: tensor([[ 3.4459e-08,  1.4901e-08, -2.2855e-06,  ...,  1.5832e-07,
+          1.0198e-07, -2.4773e-06],
+        [ 2.2817e-08,  1.3970e-08,  1.3914e-06,  ..., -4.3958e-07,
+          5.8301e-07,  2.5332e-07],
+        [ 3.0268e-08,  5.5879e-09, -4.0859e-05,  ...,  2.4447e-07,
+          7.6042e-07,  5.6205e-07],
+        ...,
+        [ 1.8626e-08,  8.5169e-07, -4.4741e-06,  ...,  1.2806e-07,
+         -3.5875e-06,  9.2536e-06],
+        [ 2.0489e-08,  6.0536e-09,  3.7819e-05,  ...,  2.3935e-07,
+         -4.3353e-07,  2.2771e-07],
+        [ 1.2806e-07, -1.0896e-06,  2.4326e-06,  ...,  2.8871e-08,
+          8.9686e-07, -1.0930e-05]], device='cuda:0')
+Epoch 153, bias, value: tensor([-0.0343, -0.0329,  0.0142,  0.0320, -0.0231,  0.0016, -0.0096,  0.0151,
+         0.0144, -0.0023], device='cuda:0'), grad: tensor([-1.5777e-06,  2.9057e-06, -6.1452e-05,  9.5293e-06,  2.7977e-06,
+         6.2883e-06,  7.2159e-06,  1.0565e-05,  4.2349e-05, -1.8582e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 152, time 214.27, cls_loss 0.0015 cls_loss_mapping 0.0045 cls_loss_causal 0.5166 re_mapping 0.0058 re_causal 0.0176 /// teacc 99.13 lr 0.00010000
+Epoch 154, weight, value: tensor([[-0.0632,  0.0277,  0.0278,  ..., -0.0604, -0.0660,  0.0590],
+        [-0.0506, -0.0117, -0.0766,  ...,  0.1347, -0.0664, -0.0512],
+        [-0.0167, -0.0189,  0.1682,  ..., -0.0901, -0.1131, -0.0846],
+        ...,
+        [-0.0607, -0.0492,  0.0028,  ..., -0.0148,  0.0911, -0.0343],
+        [-0.0725, -0.0541, -0.0453,  ..., -0.1043,  0.0017, -0.1159],
+        [-0.1481, -0.0312, -0.1088,  ..., -0.0951,  0.0033,  0.0841]],
+       device='cuda:0'), grad: tensor([[ 1.3597e-07, -9.3132e-10,  6.9942e-07,  ...,  3.4459e-08,
+          1.7975e-07,  5.8208e-08],
+        [ 5.8254e-07,  0.0000e+00,  1.7788e-06,  ..., -7.0920e-07,
+          6.0583e-07,  2.3516e-07],
+        [ 1.6857e-07,  0.0000e+00, -7.7337e-06,  ...,  4.0513e-07,
+          1.7975e-07,  7.9162e-08],
+        ...,
+        [ 1.1800e-06, -0.0000e+00,  8.1025e-07,  ...,  1.0710e-07,
+          1.9968e-06,  2.6524e-06],
+        [ 1.5600e-07,  0.0000e+00,  3.4720e-06,  ...,  4.0513e-08,
+         -2.8461e-06,  6.1048e-07],
+        [ 1.7295e-06,  9.3132e-10,  1.0431e-07,  ...,  1.9558e-08,
+          5.6298e-07, -4.9062e-06]], device='cuda:0')
+Epoch 154, bias, value: tensor([-0.0343, -0.0328,  0.0132,  0.0316, -0.0233,  0.0017, -0.0093,  0.0154,
+         0.0161, -0.0022], device='cuda:0'), grad: tensor([ 1.8310e-06,  4.0941e-06, -1.0230e-05,  3.6173e-06, -7.7486e-07,
+        -5.9530e-06,  2.8405e-06,  1.3538e-05, -1.1176e-08, -9.0152e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 153, time 214.19, cls_loss 0.0015 cls_loss_mapping 0.0036 cls_loss_causal 0.5228 re_mapping 0.0055 re_causal 0.0172 /// teacc 99.10 lr 0.00010000
+Epoch 155, weight, value: tensor([[-0.0635,  0.0298,  0.0282,  ..., -0.0608, -0.0669,  0.0593],
+        [-0.0507, -0.0118, -0.0765,  ...,  0.1357, -0.0665, -0.0515],
+        [-0.0167, -0.0192,  0.1686,  ..., -0.0907, -0.1130, -0.0854],
+        ...,
+        [-0.0611, -0.0495,  0.0027,  ..., -0.0153,  0.0912, -0.0348],
+        [-0.0730, -0.0553, -0.0458,  ..., -0.1044,  0.0018, -0.1160],
+        [-0.1483, -0.0320, -0.1093,  ..., -0.0957,  0.0026,  0.0838]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-09, -1.5879e-07, -4.9500e-07,  ...,  1.9558e-08,
+          2.5798e-07,  2.9942e-07],
+        [ 9.3132e-09,  2.0023e-08,  1.2927e-06,  ..., -1.2806e-07,
+          1.2107e-06,  5.1484e-06],
+        [ 3.2596e-09,  2.4680e-08, -1.1530e-06,  ...,  3.1665e-08,
+          5.4669e-07,  9.3319e-07],
+        ...,
+        [ 5.3551e-08,  2.3283e-09, -4.5672e-06,  ...,  7.2177e-08,
+         -4.9360e-06,  7.1935e-06],
+        [ 3.2596e-09,  9.7789e-09,  6.6916e-07,  ...,  2.4680e-08,
+          2.9104e-07,  3.7216e-06],
+        [ 6.0536e-09,  4.4238e-08,  7.7626e-07,  ...,  1.0245e-08,
+          1.0645e-06, -4.5985e-05]], device='cuda:0')
+Epoch 155, bias, value: tensor([-0.0343, -0.0323,  0.0131,  0.0315, -0.0234,  0.0024, -0.0100,  0.0150,
+         0.0166, -0.0029], device='cuda:0'), grad: tensor([ 1.0040e-06,  1.3866e-05,  2.9635e-06,  1.3284e-05,  6.7428e-06,
+         2.9907e-05,  1.0822e-06,  8.5980e-06,  9.7081e-06, -8.7082e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 154, time 214.53, cls_loss 0.0014 cls_loss_mapping 0.0038 cls_loss_causal 0.5122 re_mapping 0.0056 re_causal 0.0171 /// teacc 99.09 lr 0.00010000
+Epoch 156, weight, value: tensor([[-0.0644,  0.0297,  0.0281,  ..., -0.0612, -0.0680,  0.0592],
+        [-0.0508, -0.0124, -0.0768,  ...,  0.1364, -0.0668, -0.0517],
+        [-0.0170, -0.0192,  0.1690,  ..., -0.0907, -0.1133, -0.0862],
+        ...,
+        [-0.0616, -0.0495,  0.0029,  ..., -0.0162,  0.0917, -0.0349],
+        [-0.0736, -0.0557, -0.0463,  ..., -0.1046,  0.0016, -0.1164],
+        [-0.1489, -0.0321, -0.1094,  ..., -0.0963,  0.0024,  0.0841]],
+       device='cuda:0'), grad: tensor([[ 2.0750e-06, -4.1910e-09,  1.3681e-06,  ...,  4.3362e-06,
+          7.8231e-08,  3.4273e-06],
+        [ 6.7055e-08,  0.0000e+00,  1.2387e-07,  ..., -8.8476e-09,
+          2.9569e-07,  1.3178e-07],
+        [ 5.2620e-08,  4.6566e-10, -4.8429e-07,  ...,  8.1025e-08,
+          2.4214e-08,  7.8697e-08],
+        ...,
+        [ 4.7032e-08,  0.0000e+00, -1.4715e-07,  ...,  1.5832e-08,
+         -5.8673e-07,  6.8173e-07],
+        [ 3.4645e-07,  0.0000e+00, -1.2871e-06,  ...,  6.2445e-07,
+          3.8091e-07,  1.3644e-06],
+        [ 7.6834e-08,  1.3970e-09,  1.3877e-07,  ...,  4.6100e-08,
+          1.4016e-07, -3.1926e-06]], device='cuda:0')
+Epoch 156, bias, value: tensor([-0.0349, -0.0322,  0.0132,  0.0315, -0.0232,  0.0024, -0.0102,  0.0150,
+         0.0166, -0.0030], device='cuda:0'), grad: tensor([ 2.4021e-05,  1.1530e-06,  9.5926e-08, -5.8487e-06,  4.1351e-06,
+         1.1232e-06, -2.0966e-05,  6.0908e-07, -5.4482e-08, -4.2655e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 155, time 214.54, cls_loss 0.0012 cls_loss_mapping 0.0033 cls_loss_causal 0.5003 re_mapping 0.0059 re_causal 0.0176 /// teacc 99.00 lr 0.00010000
+Epoch 157, weight, value: tensor([[-0.0644,  0.0308,  0.0280,  ..., -0.0616, -0.0686,  0.0591],
+        [-0.0509, -0.0130, -0.0770,  ...,  0.1367, -0.0672, -0.0522],
+        [-0.0171, -0.0191,  0.1696,  ..., -0.0908, -0.1133, -0.0865],
+        ...,
+        [-0.0620, -0.0495,  0.0027,  ..., -0.0165,  0.0931, -0.0350],
+        [-0.0746, -0.0561, -0.0470,  ..., -0.1049,  0.0010, -0.1172],
+        [-0.1490, -0.0322, -0.1095,  ..., -0.0965,  0.0023,  0.0847]],
+       device='cuda:0'), grad: tensor([[ 4.0978e-08,  0.0000e+00,  3.1199e-08,  ..., -4.6566e-10,
+          1.2387e-07, -8.8476e-08],
+        [ 2.2445e-07,  0.0000e+00,  9.8348e-07,  ..., -4.4703e-08,
+          5.6531e-07,  1.4901e-08],
+        [ 1.3597e-07,  0.0000e+00,  7.1293e-07,  ...,  2.7940e-08,
+          7.4413e-07,  2.0489e-08],
+        ...,
+        [ 4.9826e-07,  0.0000e+00, -1.4547e-06,  ...,  4.9360e-08,
+         -2.5518e-06,  2.0443e-07],
+        [ 5.5414e-08,  0.0000e+00,  1.0980e-06,  ...,  1.0245e-08,
+          8.1444e-07,  4.4238e-08],
+        [ 2.0023e-08,  0.0000e+00,  4.3586e-07,  ...,  5.5879e-09,
+          3.4506e-07, -2.3516e-07]], device='cuda:0')
+Epoch 157, bias, value: tensor([-0.0351, -0.0322,  0.0133,  0.0311, -0.0233,  0.0024, -0.0102,  0.0156,
+         0.0159, -0.0026], device='cuda:0'), grad: tensor([ 9.5228e-07,  2.9150e-06,  8.0168e-06, -1.5318e-05, -1.5274e-06,
+        -6.8955e-06,  2.5667e-06, -1.6624e-07,  8.4937e-06,  8.9128e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 156, time 214.57, cls_loss 0.0011 cls_loss_mapping 0.0028 cls_loss_causal 0.5258 re_mapping 0.0054 re_causal 0.0176 /// teacc 99.02 lr 0.00010000
+Epoch 158, weight, value: tensor([[-0.0648,  0.0309,  0.0285,  ..., -0.0617, -0.0690,  0.0594],
+        [-0.0511, -0.0131, -0.0772,  ...,  0.1371, -0.0674, -0.0522],
+        [-0.0171, -0.0191,  0.1697,  ..., -0.0909, -0.1134, -0.0870],
+        ...,
+        [-0.0622, -0.0494,  0.0027,  ..., -0.0170,  0.0933, -0.0352],
+        [-0.0749, -0.0561, -0.0469,  ..., -0.1050,  0.0008, -0.1175],
+        [-0.1489, -0.0322, -0.1096,  ..., -0.0967,  0.0023,  0.0855]],
+       device='cuda:0'), grad: tensor([[ 2.1663e-06,  2.3283e-09, -1.2852e-07,  ...,  9.2015e-07,
+          9.3598e-08, -2.9616e-07],
+        [ 6.3896e-04,  2.7940e-09,  1.5739e-07,  ...,  2.3985e-04,
+          7.0315e-08,  3.8184e-08],
+        [ 1.8589e-06, -1.6298e-08, -5.8068e-07,  ...,  6.9803e-07,
+          2.1188e-07,  8.5682e-08],
+        ...,
+        [ 1.4164e-05,  4.1910e-09, -3.5856e-08,  ...,  5.1036e-06,
+         -2.7055e-07,  2.3749e-08],
+        [ 2.0593e-05,  9.3132e-10,  5.7276e-08,  ...,  7.6368e-06,
+          1.6112e-07,  2.0536e-07],
+        [ 6.0946e-06,  0.0000e+00,  1.1222e-07,  ...,  1.7006e-06,
+          1.5600e-07,  1.9278e-07]], device='cuda:0')
+Epoch 158, bias, value: tensor([-0.0349, -0.0322,  0.0132,  0.0312, -0.0238,  0.0024, -0.0102,  0.0154,
+         0.0161, -0.0020], device='cuda:0'), grad: tensor([ 5.9195e-06,  1.5030e-03,  5.2415e-06, -8.9854e-06, -1.6298e-03,
+         5.9791e-06,  1.9357e-05,  3.2991e-05,  4.9919e-05,  1.5110e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 157, time 214.38, cls_loss 0.0017 cls_loss_mapping 0.0061 cls_loss_causal 0.5358 re_mapping 0.0056 re_causal 0.0174 /// teacc 99.14 lr 0.00010000
+Epoch 159, weight, value: tensor([[-0.0655,  0.0309,  0.0286,  ..., -0.0623, -0.0694,  0.0594],
+        [-0.0524, -0.0132, -0.0777,  ...,  0.1373, -0.0683, -0.0524],
+        [-0.0172, -0.0191,  0.1700,  ..., -0.0911, -0.1136, -0.0877],
+        ...,
+        [-0.0629, -0.0496,  0.0030,  ..., -0.0169,  0.0938, -0.0358],
+        [-0.0756, -0.0562, -0.0475,  ..., -0.1058,  0.0006, -0.1179],
+        [-0.1483, -0.0322, -0.1092,  ..., -0.0977,  0.0019,  0.0868]],
+       device='cuda:0'), grad: tensor([[ 2.0768e-07,  0.0000e+00,  8.5235e-06,  ...,  7.2084e-07,
+          5.1223e-09,  1.6391e-07],
+        [ 2.2352e-07,  0.0000e+00,  2.5053e-07,  ...,  3.6508e-07,
+          1.2573e-08,  5.9139e-08],
+        [ 1.7555e-07,  0.0000e+00, -2.8357e-05,  ...,  5.3551e-07,
+          2.7940e-09, -6.8918e-07],
+        ...,
+        [ 7.3574e-08,  0.0000e+00,  1.4246e-05,  ...,  1.2759e-07,
+          3.2596e-09,  3.7998e-07],
+        [ 2.5844e-07,  0.0000e+00,  2.1812e-06,  ...,  8.5961e-07,
+          1.1642e-08,  9.9186e-08],
+        [ 5.1921e-07,  0.0000e+00,  1.2452e-06,  ...,  1.5460e-07,
+          4.6566e-09, -6.5193e-08]], device='cuda:0')
+Epoch 159, bias, value: tensor([-0.0353, -0.0325,  0.0131,  0.0314, -0.0242,  0.0024, -0.0105,  0.0150,
+         0.0157, -0.0009], device='cuda:0'), grad: tensor([ 1.8060e-05,  7.1302e-06, -3.1352e-05,  4.6566e-06,  2.3209e-06,
+         1.4216e-05,  2.4885e-06,  1.9908e-05, -4.2170e-05,  4.7721e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 158, time 214.36, cls_loss 0.0019 cls_loss_mapping 0.0046 cls_loss_causal 0.5236 re_mapping 0.0054 re_causal 0.0174 /// teacc 99.05 lr 0.00010000
+Epoch 160, weight, value: tensor([[-0.0679,  0.0309,  0.0288,  ..., -0.0628, -0.0702,  0.0594],
+        [-0.0525, -0.0132, -0.0788,  ...,  0.1385, -0.0669, -0.0525],
+        [-0.0173, -0.0190,  0.1704,  ..., -0.0912, -0.1138, -0.0884],
+        ...,
+        [-0.0635, -0.0496,  0.0037,  ..., -0.0181,  0.0920, -0.0360],
+        [-0.0762, -0.0564, -0.0477,  ..., -0.1063,  0.0002, -0.1183],
+        [-0.1504, -0.0323, -0.1096,  ..., -0.0986,  0.0017,  0.0867]],
+       device='cuda:0'), grad: tensor([[ 4.5123e-07, -3.1758e-07, -6.9737e-06,  ...,  1.1455e-07,
+          7.1945e-07, -3.2634e-06],
+        [ 2.9011e-07,  5.4948e-08,  5.8450e-06,  ..., -1.7229e-08,
+          2.9951e-06,  6.1952e-06],
+        [ 3.0883e-06,  5.8673e-08,  1.1817e-05,  ...,  1.4575e-07,
+          5.3719e-06,  1.1139e-06],
+        ...,
+        [-1.6108e-05,  3.3993e-08, -7.1585e-05,  ...,  1.7695e-08,
+         -3.5524e-05,  4.3726e-07],
+        [ 6.3144e-07,  2.7940e-08,  3.0175e-06,  ...,  1.4482e-07,
+          6.5519e-07,  7.5139e-06],
+        [-2.8033e-07,  6.1467e-08,  8.5011e-06,  ...,  6.0536e-09,
+          4.3474e-06, -2.0206e-05]], device='cuda:0')
+Epoch 160, bias, value: tensor([-0.0356, -0.0306,  0.0131,  0.0314, -0.0228,  0.0023, -0.0098,  0.0129,
+         0.0159, -0.0022], device='cuda:0'), grad: tensor([-1.3679e-05,  2.7880e-05,  2.7031e-05,  7.5102e-06,  9.8825e-05,
+         6.1281e-06,  2.6589e-07, -1.5247e-04,  2.1711e-05, -2.3469e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 159, time 214.72, cls_loss 0.0015 cls_loss_mapping 0.0041 cls_loss_causal 0.5165 re_mapping 0.0057 re_causal 0.0172 /// teacc 99.03 lr 0.00010000
+Epoch 161, weight, value: tensor([[-6.8279e-02,  3.0579e-02,  2.9146e-02,  ..., -6.3350e-02,
+         -7.1427e-02,  5.9344e-02],
+        [-5.2589e-02, -1.3298e-02, -7.9189e-02,  ...,  1.3854e-01,
+         -6.6791e-02, -5.2733e-02],
+        [-1.7388e-02, -1.8905e-02,  1.7098e-01,  ..., -9.1212e-02,
+         -1.1421e-01, -8.8876e-02],
+        ...,
+        [-6.3684e-02, -4.9622e-02,  3.8739e-03,  ..., -1.8021e-02,
+          9.2139e-02, -3.5906e-02],
+        [-7.6401e-02, -5.7245e-02, -4.8480e-02,  ..., -1.0694e-01,
+         -6.7365e-05, -1.1950e-01],
+        [-1.5077e-01, -3.2491e-02, -1.1020e-01,  ..., -9.9275e-02,
+          1.1000e-03,  8.7266e-02]], device='cuda:0'), grad: tensor([[ 2.0955e-08,  0.0000e+00,  2.1886e-08,  ...,  2.4680e-08,
+          5.4482e-08,  8.7544e-08],
+        [ 1.8161e-07,  0.0000e+00,  2.8079e-07,  ..., -8.7079e-08,
+          3.4273e-07,  2.4168e-07],
+        [ 7.2643e-08,  0.0000e+00, -4.1910e-09,  ...,  5.5879e-08,
+          3.0082e-07,  7.6368e-08],
+        ...,
+        [ 3.8324e-07,  0.0000e+00, -7.4413e-07,  ...,  8.3353e-08,
+         -7.3109e-07,  2.4913e-07],
+        [ 5.1688e-08,  0.0000e+00,  1.0245e-07,  ...,  4.2375e-08,
+          2.1607e-07,  2.5937e-07],
+        [ 8.7544e-07,  0.0000e+00,  3.3993e-08,  ...,  6.0070e-08,
+          3.2177e-07, -6.0583e-07]], device='cuda:0')
+Epoch 161, bias, value: tensor([-0.0360, -0.0307,  0.0133,  0.0315, -0.0227,  0.0026, -0.0107,  0.0131,
+         0.0153, -0.0024], device='cuda:0'), grad: tensor([ 6.5705e-07,  2.4606e-06,  1.9763e-06, -1.3143e-05,  1.4622e-07,
+        -4.5486e-06,  2.3823e-06,  1.3690e-07, -3.0994e-06,  1.3031e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 160, time 214.46, cls_loss 0.0012 cls_loss_mapping 0.0044 cls_loss_causal 0.5080 re_mapping 0.0055 re_causal 0.0175 /// teacc 99.14 lr 0.00010000
+Epoch 162, weight, value: tensor([[-6.8843e-02,  3.0587e-02,  2.9510e-02,  ..., -6.3816e-02,
+         -7.1728e-02,  5.9449e-02],
+        [-5.2665e-02, -1.3302e-02, -7.9312e-02,  ...,  1.3877e-01,
+         -6.6852e-02, -5.3085e-02],
+        [-1.7459e-02, -1.8901e-02,  1.7113e-01,  ..., -9.1352e-02,
+         -1.1448e-01, -8.9509e-02],
+        ...,
+        [-6.4011e-02, -4.9622e-02,  4.0680e-03,  ..., -1.8030e-02,
+          9.2546e-02, -3.5394e-02],
+        [-7.6856e-02, -5.7283e-02, -4.8657e-02,  ..., -1.0736e-01,
+         -3.7131e-04, -1.2013e-01],
+        [-1.5100e-01, -3.2489e-02, -1.1037e-01,  ..., -9.9880e-02,
+         -1.0259e-04,  8.7237e-02]], device='cuda:0'), grad: tensor([[ 1.7229e-08,  0.0000e+00, -3.1851e-07,  ...,  6.9849e-09,
+          5.3085e-08, -2.6170e-07],
+        [ 2.6636e-07,  0.0000e+00,  1.0151e-07,  ..., -4.6566e-10,
+          6.9803e-07,  6.0536e-08],
+        [ 5.3085e-08,  0.0000e+00, -1.0058e-06,  ...,  2.4214e-08,
+          8.9873e-08,  9.6858e-08],
+        ...,
+        [-2.8173e-07,  0.0000e+00,  3.5344e-07,  ..., -2.7381e-07,
+         -2.4829e-06,  1.3644e-07],
+        [ 9.6392e-08,  0.0000e+00,  1.0198e-07,  ...,  2.4214e-08,
+          2.7008e-07,  2.6263e-07],
+        [ 3.9209e-07,  0.0000e+00,  1.7416e-07,  ...,  3.4459e-08,
+          3.9302e-07, -2.0023e-08]], device='cuda:0')
+Epoch 162, bias, value: tensor([-0.0360, -0.0308,  0.0132,  0.0314, -0.0228,  0.0028, -0.0106,  0.0138,
+         0.0151, -0.0031], device='cuda:0'), grad: tensor([-2.0955e-07,  2.5760e-06, -7.5530e-07,  1.5832e-06,  1.3486e-06,
+        -1.1474e-06,  8.3214e-07, -6.9961e-06,  1.1548e-06,  1.6149e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 161, time 214.44, cls_loss 0.0013 cls_loss_mapping 0.0038 cls_loss_causal 0.5454 re_mapping 0.0054 re_causal 0.0169 /// teacc 99.09 lr 0.00010000
+Epoch 163, weight, value: tensor([[-0.0692,  0.0307,  0.0300,  ..., -0.0643, -0.0722,  0.0596],
+        [-0.0528, -0.0133, -0.0787,  ...,  0.1398, -0.0669, -0.0535],
+        [-0.0175, -0.0189,  0.1710,  ..., -0.0924, -0.1146, -0.0900],
+        ...,
+        [-0.0643, -0.0497,  0.0039,  ..., -0.0183,  0.0927, -0.0355],
+        [-0.0767, -0.0575, -0.0490,  ..., -0.1076, -0.0008, -0.1205],
+        [-0.1512, -0.0327, -0.1104,  ..., -0.1005, -0.0003,  0.0875]],
+       device='cuda:0'), grad: tensor([[ 7.2643e-08,  0.0000e+00, -3.7719e-08,  ...,  5.7882e-07,
+          1.5274e-07,  1.6913e-06],
+        [ 1.4156e-07,  0.0000e+00,  2.0452e-06,  ..., -1.4147e-06,
+          1.0831e-06,  4.9593e-07],
+        [ 6.0070e-08,  0.0000e+00,  5.7463e-07,  ...,  8.6753e-07,
+          2.6962e-07,  4.6566e-07],
+        ...,
+        [ 1.1735e-07,  0.0000e+00, -5.5172e-06,  ...,  7.4413e-07,
+         -2.8014e-06,  4.5588e-07],
+        [ 9.3598e-08,  0.0000e+00,  4.1910e-08,  ...,  9.2713e-07,
+          1.0291e-07,  7.5810e-07],
+        [ 9.9838e-07,  0.0000e+00,  1.4147e-06,  ...,  2.3888e-07,
+          7.7207e-07, -1.1697e-05]], device='cuda:0')
+Epoch 163, bias, value: tensor([-0.0360, -0.0306,  0.0126,  0.0316, -0.0228,  0.0027, -0.0107,  0.0137,
+         0.0153, -0.0031], device='cuda:0'), grad: tensor([ 4.8578e-06,  5.2042e-06,  4.8503e-06,  7.2382e-06,  1.8235e-06,
+         1.2219e-05, -1.4603e-05, -1.0476e-05,  3.7737e-06, -1.4931e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 162, time 214.74, cls_loss 0.0012 cls_loss_mapping 0.0038 cls_loss_causal 0.5392 re_mapping 0.0056 re_causal 0.0176 /// teacc 99.06 lr 0.00010000
+Epoch 164, weight, value: tensor([[-0.0692,  0.0313,  0.0320,  ..., -0.0647, -0.0725,  0.0604],
+        [-0.0529, -0.0135, -0.0789,  ...,  0.1401, -0.0670, -0.0538],
+        [-0.0176, -0.0186,  0.1713,  ..., -0.0926, -0.1148, -0.0916],
+        ...,
+        [-0.0652, -0.0499,  0.0039,  ..., -0.0184,  0.0928, -0.0357],
+        [-0.0772, -0.0583, -0.0497,  ..., -0.1083, -0.0007, -0.1222],
+        [-0.1515, -0.0332, -0.1112,  ..., -0.1008, -0.0006,  0.0878]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00, -3.5334e-06,  ...,  5.9977e-07,
+          4.2887e-07, -1.6037e-06],
+        [ 1.8626e-09,  0.0000e+00,  1.2992e-06,  ..., -7.7439e-07,
+          1.4547e-06,  8.6147e-08],
+        [ 4.6566e-10,  0.0000e+00,  6.4913e-07,  ...,  2.0955e-07,
+          3.5111e-07,  1.9511e-07],
+        ...,
+        [ 4.1910e-09,  0.0000e+00, -4.0978e-06,  ...,  3.7253e-07,
+         -4.3735e-06,  2.1281e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.8207e-06,  ...,  8.6892e-07,
+          3.6461e-07,  1.2126e-06],
+        [ 4.1910e-09,  0.0000e+00,  1.8906e-06,  ...,  1.2387e-07,
+          5.2107e-07,  6.4773e-07]], device='cuda:0')
+Epoch 164, bias, value: tensor([-0.0349, -0.0306,  0.0126,  0.0315, -0.0226,  0.0029, -0.0108,  0.0137,
+         0.0148, -0.0033], device='cuda:0'), grad: tensor([-3.7160e-06,  2.7753e-06,  2.0117e-06,  7.2382e-06,  5.8021e-07,
+         6.7465e-06, -1.3962e-05, -1.0207e-05,  4.5300e-06,  4.0159e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 163, time 214.49, cls_loss 0.0011 cls_loss_mapping 0.0032 cls_loss_causal 0.5046 re_mapping 0.0054 re_causal 0.0166 /// teacc 99.10 lr 0.00010000
+Epoch 165, weight, value: tensor([[-0.0697,  0.0315,  0.0320,  ..., -0.0650, -0.0731,  0.0605],
+        [-0.0532, -0.0135, -0.0790,  ...,  0.1403, -0.0671, -0.0541],
+        [-0.0174, -0.0186,  0.1719,  ..., -0.0926, -0.1148, -0.0919],
+        ...,
+        [-0.0659, -0.0499,  0.0038,  ..., -0.0185,  0.0929, -0.0359],
+        [-0.0778, -0.0584, -0.0502,  ..., -0.1086, -0.0005, -0.1226],
+        [-0.1516, -0.0333, -0.1115,  ..., -0.1013, -0.0007,  0.0881]],
+       device='cuda:0'), grad: tensor([[ 2.2352e-08,  8.9407e-08, -6.5193e-07,  ...,  2.2352e-08,
+          3.3341e-07, -2.7195e-07],
+        [ 2.4587e-07,  5.0291e-08,  3.3528e-07,  ..., -1.2834e-06,
+          1.6112e-06,  4.9546e-07],
+        [ 1.4342e-07,  1.7881e-07, -1.9185e-07,  ...,  1.9558e-07,
+          3.7067e-07,  5.5134e-07],
+        ...,
+        [ 5.5507e-07,  2.2352e-07, -8.9779e-07,  ...,  9.6112e-07,
+         -5.4948e-06,  8.2515e-07],
+        [ 8.1956e-08,  7.8231e-08,  2.6822e-07,  ...,  1.6764e-07,
+          1.7677e-06,  1.1958e-06],
+        [ 2.8387e-06,  7.0781e-08,  5.4576e-07,  ...,  8.7544e-08,
+          1.4156e-06,  6.0722e-07]], device='cuda:0')
+Epoch 165, bias, value: tensor([-0.0351, -0.0306,  0.0128,  0.0314, -0.0226,  0.0031, -0.0112,  0.0135,
+         0.0146, -0.0032], device='cuda:0'), grad: tensor([ 2.1085e-06,  6.0499e-06,  5.6960e-06,  1.8924e-05, -3.3118e-06,
+        -7.5102e-05,  4.0948e-05, -3.0212e-06, -4.1574e-06,  1.1809e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 164, time 214.53, cls_loss 0.0014 cls_loss_mapping 0.0043 cls_loss_causal 0.5109 re_mapping 0.0055 re_causal 0.0165 /// teacc 98.97 lr 0.00010000
+Epoch 166, weight, value: tensor([[-0.0700,  0.0317,  0.0332,  ..., -0.0646, -0.0730,  0.0616],
+        [-0.0534, -0.0138, -0.0794,  ...,  0.1408, -0.0671, -0.0549],
+        [-0.0176, -0.0186,  0.1728,  ..., -0.0927, -0.1152, -0.0925],
+        ...,
+        [-0.0666, -0.0499,  0.0039,  ..., -0.0189,  0.0931, -0.0360],
+        [-0.0783, -0.0594, -0.0506,  ..., -0.1093, -0.0008, -0.1247],
+        [-0.1529, -0.0342, -0.1121,  ..., -0.1025, -0.0012,  0.0883]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  3.7253e-09, -1.8626e-08,  ..., -7.2643e-08,
+          2.5705e-07,  3.7067e-07],
+        [ 3.5390e-08,  3.7253e-09,  4.2841e-08,  ..., -5.4203e-07,
+          3.9861e-07,  9.7975e-07],
+        [ 1.8626e-09,  0.0000e+00, -7.6368e-08,  ...,  1.0058e-07,
+          1.7136e-07,  2.6263e-07],
+        ...,
+        [ 3.6135e-07,  9.6858e-08, -2.2352e-08,  ...,  3.0175e-07,
+          5.0291e-07,  6.1244e-06],
+        [ 9.3132e-09,  1.8626e-09,  3.7253e-09,  ...,  1.0431e-07,
+          9.9838e-07,  1.5795e-06],
+        [-6.8545e-07, -1.9558e-07,  2.2352e-08,  ...,  6.5193e-08,
+          2.7232e-06, -5.9046e-06]], device='cuda:0')
+Epoch 166, bias, value: tensor([-0.0339, -0.0306,  0.0131,  0.0315, -0.0219,  0.0032, -0.0121,  0.0134,
+         0.0137, -0.0037], device='cuda:0'), grad: tensor([ 1.0245e-06,  4.5560e-06,  1.2144e-06,  8.1509e-06,  1.7434e-05,
+        -2.8297e-05,  2.8275e-06,  2.4557e-05, -1.3430e-06, -3.0130e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 165, time 214.33, cls_loss 0.0011 cls_loss_mapping 0.0026 cls_loss_causal 0.5184 re_mapping 0.0056 re_causal 0.0175 /// teacc 98.99 lr 0.00010000
+Epoch 167, weight, value: tensor([[-0.0702,  0.0314,  0.0332,  ..., -0.0652, -0.0734,  0.0616],
+        [-0.0534, -0.0139, -0.0793,  ...,  0.1419, -0.0671, -0.0550],
+        [-0.0176, -0.0186,  0.1728,  ..., -0.0937, -0.1158, -0.0924],
+        ...,
+        [-0.0671, -0.0500,  0.0041,  ..., -0.0193,  0.0932, -0.0362],
+        [-0.0785, -0.0599, -0.0506,  ..., -0.1100, -0.0012, -0.1250],
+        [-0.1535, -0.0320, -0.1124,  ..., -0.1030, -0.0015,  0.0884]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-09,  0.0000e+00, -4.3452e-05,  ..., -3.7253e-08,
+          5.5879e-09, -2.3007e-05],
+        [ 1.6764e-08,  0.0000e+00,  2.4401e-07,  ..., -2.0489e-08,
+          4.4703e-08,  8.1956e-08],
+        [ 7.2643e-08,  0.0000e+00,  1.2871e-06,  ...,  1.8626e-08,
+         -2.6077e-08,  1.1045e-06],
+        ...,
+        [ 5.0291e-08,  0.0000e+00,  1.4715e-06,  ...,  1.1176e-08,
+         -1.6205e-07,  3.9116e-07],
+        [ 1.1176e-08,  0.0000e+00,  5.4613e-06,  ...,  1.4901e-08,
+          3.5390e-08,  2.3209e-06],
+        [ 3.5390e-08,  0.0000e+00,  2.3991e-05,  ...,  1.1176e-08,
+          3.7253e-08,  9.3430e-06]], device='cuda:0')
+Epoch 167, bias, value: tensor([-0.0344, -0.0303,  0.0128,  0.0316, -0.0215,  0.0032, -0.0119,  0.0133,
+         0.0139, -0.0042], device='cuda:0'), grad: tensor([-8.3268e-05,  6.7987e-07,  3.6713e-06,  1.8813e-06,  1.6205e-07,
+         1.7285e-05,  2.0526e-06,  2.9895e-06,  9.8348e-06,  4.4584e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 166, time 214.29, cls_loss 0.0012 cls_loss_mapping 0.0026 cls_loss_causal 0.5018 re_mapping 0.0055 re_causal 0.0167 /// teacc 98.66 lr 0.00010000
+Epoch 168, weight, value: tensor([[-0.0702,  0.0312,  0.0335,  ..., -0.0652, -0.0737,  0.0619],
+        [-0.0535, -0.0139, -0.0794,  ...,  0.1425, -0.0672, -0.0552],
+        [-0.0176, -0.0186,  0.1734,  ..., -0.0938, -0.1157, -0.0928],
+        ...,
+        [-0.0672, -0.0500,  0.0040,  ..., -0.0198,  0.0934, -0.0362],
+        [-0.0782, -0.0607, -0.0509,  ..., -0.1107, -0.0016, -0.1257],
+        [-0.1537, -0.0320, -0.1127,  ..., -0.1037, -0.0018,  0.0891]],
+       device='cuda:0'), grad: tensor([[ 5.9977e-07,  0.0000e+00,  8.5682e-08,  ...,  1.0878e-06,
+          9.3132e-09,  3.6694e-07],
+        [ 4.7684e-07,  0.0000e+00,  2.5705e-07,  ..., -4.3139e-06,
+          2.0489e-07,  2.8871e-07],
+        [ 3.2783e-07,  0.0000e+00, -1.1772e-06,  ...,  4.7311e-07,
+          2.4214e-08,  8.7544e-08],
+        ...,
+        [ 3.0845e-06,  0.0000e+00,  1.3597e-07,  ...,  3.7812e-06,
+         -2.9802e-07,  4.7572e-06],
+        [ 7.3016e-07,  0.0000e+00,  1.4715e-07,  ...,  4.8615e-07,
+          2.0489e-08,  5.8301e-07],
+        [-3.2872e-05,  0.0000e+00,  3.7253e-08,  ...,  1.5646e-07,
+          2.2352e-08, -5.0694e-05]], device='cuda:0')
+Epoch 168, bias, value: tensor([-0.0343, -0.0302,  0.0130,  0.0316, -0.0219,  0.0031, -0.0118,  0.0133,
+         0.0135, -0.0040], device='cuda:0'), grad: tensor([ 3.6620e-06, -7.2308e-06, -4.6566e-07,  2.3097e-06,  1.5235e-04,
+         3.6303e-06, -4.3958e-05,  2.0415e-05,  2.8312e-06, -1.3340e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 167, time 214.54, cls_loss 0.0018 cls_loss_mapping 0.0047 cls_loss_causal 0.5254 re_mapping 0.0053 re_causal 0.0166 /// teacc 99.12 lr 0.00010000
+Epoch 169, weight, value: tensor([[-0.0710,  0.0323,  0.0320,  ..., -0.0655, -0.0739,  0.0604],
+        [-0.0537, -0.0142, -0.0795,  ...,  0.1429, -0.0672, -0.0574],
+        [-0.0178, -0.0185,  0.1740,  ..., -0.0943, -0.1158, -0.0934],
+        ...,
+        [-0.0675, -0.0489,  0.0042,  ..., -0.0200,  0.0936, -0.0367],
+        [-0.0789, -0.0620, -0.0514,  ..., -0.1110, -0.0013, -0.1262],
+        [-0.1518, -0.0332, -0.1116,  ..., -0.1046, -0.0018,  0.0924]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  0.0000e+00, -3.9302e-07,  ...,  3.7253e-08,
+          4.6566e-08, -5.8599e-06],
+        [ 1.6764e-08,  0.0000e+00,  6.6869e-07,  ..., -1.5032e-06,
+          8.8848e-07,  4.4703e-08],
+        [ 2.7940e-08,  0.0000e+00, -3.5595e-06,  ...,  8.7544e-08,
+          2.3097e-07,  2.4214e-08],
+        ...,
+        [ 5.5879e-09,  1.8626e-09,  2.3469e-07,  ...,  6.3889e-07,
+         -6.9030e-06,  3.7253e-08],
+        [ 3.7253e-09,  0.0000e+00,  3.5949e-07,  ...,  3.2037e-07,
+          1.7509e-07,  4.6566e-08],
+        [ 2.4587e-07, -1.4901e-08,  3.8370e-07,  ...,  1.5646e-07,
+          4.0755e-06,  1.0803e-07]], device='cuda:0')
+Epoch 169, bias, value: tensor([-3.6021e-02, -3.0319e-02,  1.2927e-02,  3.1843e-02, -2.5279e-02,
+         2.8745e-03, -1.1649e-02,  1.3134e-02,  1.3757e-02,  9.2690e-05],
+       device='cuda:0'), grad: tensor([-7.4208e-06,  2.1793e-07, -4.8839e-06,  3.6918e-06,  2.3358e-06,
+         4.4703e-06,  5.1484e-06, -1.5914e-05, -4.3027e-07,  1.2755e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 168, time 214.12, cls_loss 0.0014 cls_loss_mapping 0.0039 cls_loss_causal 0.5571 re_mapping 0.0056 re_causal 0.0170 /// teacc 99.06 lr 0.00010000
+Epoch 170, weight, value: tensor([[-0.0718,  0.0323,  0.0316,  ..., -0.0636, -0.0747,  0.0600],
+        [-0.0539, -0.0144, -0.0800,  ...,  0.1434, -0.0676, -0.0575],
+        [-0.0179, -0.0184,  0.1743,  ..., -0.0945, -0.1164, -0.0943],
+        ...,
+        [-0.0677, -0.0489,  0.0052,  ..., -0.0197,  0.0942, -0.0368],
+        [-0.0793, -0.0623, -0.0519,  ..., -0.1135, -0.0021, -0.1278],
+        [-0.1516, -0.0332, -0.1114,  ..., -0.1103, -0.0021,  0.0934]],
+       device='cuda:0'), grad: tensor([[ 4.2841e-08,  0.0000e+00,  1.2740e-06,  ...,  4.4703e-08,
+          5.5879e-09, -2.3283e-07],
+        [ 2.5891e-07,  0.0000e+00,  1.0878e-06,  ..., -4.1164e-07,
+          1.3039e-08,  1.3039e-08],
+        [ 4.2841e-08,  0.0000e+00, -2.1964e-05,  ...,  6.3330e-08,
+          1.8626e-09, -1.8626e-08],
+        ...,
+        [ 2.0303e-07,  0.0000e+00,  2.1681e-06,  ...,  1.8440e-07,
+          1.3039e-08,  2.4214e-08],
+        [ 8.3819e-08,  0.0000e+00,  1.3024e-05,  ...,  1.3225e-07,
+         -6.7055e-08,  2.4214e-08],
+        [ 2.2482e-06, -1.8626e-09,  4.8243e-07,  ...,  1.3411e-07,
+          6.3330e-08,  1.8626e-07]], device='cuda:0')
+Epoch 170, bias, value: tensor([-0.0362, -0.0304,  0.0128,  0.0317, -0.0255,  0.0028, -0.0112,  0.0136,
+         0.0127,  0.0003], device='cuda:0'), grad: tensor([ 3.1367e-06,  2.6543e-06, -5.3376e-05,  3.8706e-06, -3.6955e-06,
+         4.1537e-07,  4.2170e-06,  6.0685e-06,  3.0994e-05,  5.7518e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 169, time 214.31, cls_loss 0.0012 cls_loss_mapping 0.0035 cls_loss_causal 0.5443 re_mapping 0.0057 re_causal 0.0171 /// teacc 99.06 lr 0.00010000
+Epoch 171, weight, value: tensor([[-0.0725,  0.0322,  0.0318,  ..., -0.0637, -0.0757,  0.0601],
+        [-0.0541, -0.0147, -0.0802,  ...,  0.1438, -0.0677, -0.0577],
+        [-0.0180, -0.0184,  0.1761,  ..., -0.0947, -0.1161, -0.0928],
+        ...,
+        [-0.0688, -0.0490,  0.0044,  ..., -0.0202,  0.0945, -0.0371],
+        [-0.0796, -0.0625, -0.0521,  ..., -0.1138, -0.0013, -0.1280],
+        [-0.1520, -0.0320, -0.1127,  ..., -0.1107, -0.0025,  0.0935]],
+       device='cuda:0'), grad: tensor([[ 3.3528e-08,  0.0000e+00,  8.1584e-07,  ...,  1.3076e-06,
+          2.0489e-07,  4.2841e-08],
+        [ 9.3132e-09,  0.0000e+00, -5.5939e-05,  ..., -9.1970e-05,
+          2.0843e-06,  1.6764e-08],
+        [ 1.8626e-09,  0.0000e+00,  5.3346e-06,  ...,  9.3952e-06,
+          1.7509e-07,  7.4506e-09],
+        ...,
+        [ 3.7253e-09,  3.7253e-09,  3.8922e-05,  ...,  6.3419e-05,
+         -9.0897e-07,  2.6077e-07],
+        [ 1.8626e-09,  0.0000e+00,  5.1968e-07,  ...,  1.3858e-06,
+          7.6666e-06,  3.5390e-08],
+        [ 9.4995e-08, -7.4506e-09,  4.4815e-06,  ...,  7.2010e-06,
+          4.9360e-07, -4.3586e-07]], device='cuda:0')
+Epoch 171, bias, value: tensor([-0.0362, -0.0304,  0.0134,  0.0314, -0.0254,  0.0028, -0.0106,  0.0134,
+         0.0135,  0.0001], device='cuda:0'), grad: tensor([ 4.5970e-06, -2.3186e-04,  2.5094e-05,  1.4141e-05,  8.5607e-06,
+        -9.2089e-05,  6.4611e-05,  1.6630e-04,  1.9878e-05,  2.1130e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 170, time 214.52, cls_loss 0.0011 cls_loss_mapping 0.0037 cls_loss_causal 0.5266 re_mapping 0.0056 re_causal 0.0169 /// teacc 99.17 lr 0.00010000
+Epoch 172, weight, value: tensor([[-0.0733,  0.0326,  0.0320,  ..., -0.0641, -0.0766,  0.0602],
+        [-0.0544, -0.0150, -0.0802,  ...,  0.1444, -0.0678, -0.0579],
+        [-0.0181, -0.0184,  0.1763,  ..., -0.0951, -0.1164, -0.0931],
+        ...,
+        [-0.0701, -0.0490,  0.0046,  ..., -0.0206,  0.0948, -0.0372],
+        [-0.0800, -0.0629, -0.0523,  ..., -0.1139, -0.0019, -0.1283],
+        [-0.1523, -0.0331, -0.1131,  ..., -0.1117, -0.0033,  0.0934]],
+       device='cuda:0'), grad: tensor([[ 1.4901e-08,  0.0000e+00,  5.5879e-08,  ...,  2.0489e-08,
+          8.0094e-08, -1.4901e-08],
+        [ 5.2154e-08,  5.5879e-09,  4.7311e-07,  ..., -8.4564e-07,
+          3.7253e-07,  2.0489e-08],
+        [ 3.1665e-08,  1.8626e-09,  1.3039e-08,  ...,  1.1362e-07,
+          5.9791e-07,  1.8626e-08],
+        ...,
+        [ 6.3330e-08, -3.9116e-08, -2.5239e-06,  ...,  2.9802e-07,
+         -2.7008e-06,  2.6077e-08],
+        [ 2.2352e-08,  0.0000e+00,  1.7881e-07,  ...,  1.8254e-07,
+          7.2457e-07,  8.7544e-08],
+        [ 1.4901e-07,  2.6077e-08,  1.3467e-06,  ...,  1.1176e-07,
+          1.4827e-06,  2.0489e-08]], device='cuda:0')
+Epoch 172, bias, value: tensor([-3.6108e-02, -3.0491e-02,  1.3221e-02,  3.1096e-02, -2.5314e-02,
+         3.2963e-03, -1.0604e-02,  1.3409e-02,  1.3877e-02, -5.4188e-05],
+       device='cuda:0'), grad: tensor([ 2.1644e-06,  2.6766e-06,  3.7812e-06,  4.2677e-05,  1.6019e-07,
+        -1.1623e-04,  1.1563e-05, -2.2706e-06,  4.9263e-05,  6.1207e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 171, time 214.33, cls_loss 0.0011 cls_loss_mapping 0.0035 cls_loss_causal 0.5147 re_mapping 0.0057 re_causal 0.0169 /// teacc 99.11 lr 0.00010000
+Epoch 173, weight, value: tensor([[-0.0739,  0.0330,  0.0320,  ..., -0.0655, -0.0780,  0.0603],
+        [-0.0552, -0.0152, -0.0802,  ...,  0.1454, -0.0679, -0.0581],
+        [-0.0182, -0.0183,  0.1766,  ..., -0.0958, -0.1169, -0.0934],
+        ...,
+        [-0.0713, -0.0488,  0.0053,  ..., -0.0211,  0.0952, -0.0373],
+        [-0.0803, -0.0632, -0.0526,  ..., -0.1145, -0.0037, -0.1303],
+        [-0.1527, -0.0335, -0.1135,  ..., -0.1132, -0.0037,  0.0934]],
+       device='cuda:0'), grad: tensor([[ 3.1665e-08, -3.7253e-09, -1.8626e-08,  ...,  6.7800e-07,
+          2.2911e-07,  4.8429e-08],
+        [ 2.0117e-07,  0.0000e+00,  5.4389e-07,  ..., -4.9829e-05,
+         -3.6191e-06,  8.5682e-08],
+        [ 1.0245e-07,  0.0000e+00, -2.0489e-08,  ...,  2.2314e-06,
+          2.4028e-07,  2.6077e-08],
+        ...,
+        [ 2.7008e-07,  0.0000e+00, -7.7300e-07,  ...,  3.2067e-05,
+          3.7700e-06,  2.0470e-06],
+        [ 1.0617e-07,  0.0000e+00,  1.6764e-08,  ...,  1.3962e-05,
+          4.1351e-07,  5.5879e-08],
+        [ 2.1793e-06,  3.7253e-09,  1.1921e-07,  ...,  7.6368e-07,
+         -1.3299e-06, -5.2415e-06]], device='cuda:0')
+Epoch 173, bias, value: tensor([-0.0362, -0.0303,  0.0130,  0.0311, -0.0251,  0.0037, -0.0109,  0.0135,
+         0.0127, -0.0002], device='cuda:0'), grad: tensor([ 2.6133e-06, -1.0633e-04,  6.8620e-06,  3.0417e-06, -5.2713e-07,
+         1.3717e-05, -1.4074e-05,  7.1645e-05,  2.5138e-05, -2.2147e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 172, time 214.72, cls_loss 0.0013 cls_loss_mapping 0.0040 cls_loss_causal 0.5477 re_mapping 0.0054 re_causal 0.0173 /// teacc 99.07 lr 0.00010000
+Epoch 174, weight, value: tensor([[-0.0743,  0.0370,  0.0337,  ..., -0.0678, -0.0785,  0.0597],
+        [-0.0561, -0.0155, -0.0811,  ...,  0.1458, -0.0680, -0.0589],
+        [-0.0177, -0.0182,  0.1743,  ..., -0.0959, -0.1202, -0.0935],
+        ...,
+        [-0.0723, -0.0488,  0.0085,  ..., -0.0214,  0.0973, -0.0375],
+        [-0.0795, -0.0638, -0.0524,  ..., -0.1151, -0.0038, -0.1310],
+        [-0.1530, -0.0366, -0.1142,  ..., -0.1139, -0.0040,  0.0933]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09, -2.5146e-07, -2.4661e-06,  ...,  1.6764e-08,
+          2.0489e-08, -1.8403e-06],
+        [ 1.8626e-09,  2.6077e-08,  2.9802e-07,  ..., -2.3283e-07,
+          1.3225e-07,  6.2212e-07],
+        [ 5.5879e-09,  4.4703e-08,  7.0781e-08,  ...,  7.0781e-08,
+          8.7544e-08,  4.2282e-07],
+        ...,
+        [ 1.8626e-09,  2.0489e-08,  2.5705e-07,  ...,  9.4995e-08,
+         -2.6077e-08,  9.1270e-06],
+        [ 3.7253e-09,  1.4901e-08,  2.7195e-07,  ...,  5.0291e-08,
+          2.3469e-07,  4.3772e-07],
+        [ 1.8626e-09,  5.5879e-08,  6.3144e-07,  ...,  1.6764e-08,
+          1.6578e-07, -9.5591e-06]], device='cuda:0')
+Epoch 174, bias, value: tensor([-0.0382, -0.0305,  0.0107,  0.0331, -0.0250,  0.0038, -0.0109,  0.0153,
+         0.0130, -0.0004], device='cuda:0'), grad: tensor([-7.0259e-06,  1.8030e-06,  1.3486e-06,  4.0010e-06,  9.7603e-07,
+        -4.2841e-06,  1.5423e-06,  2.7150e-05,  1.7714e-06, -2.7269e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 173, time 214.24, cls_loss 0.0014 cls_loss_mapping 0.0029 cls_loss_causal 0.5137 re_mapping 0.0057 re_causal 0.0166 /// teacc 99.04 lr 0.00010000
+Epoch 175, weight, value: tensor([[-0.0756,  0.0402,  0.0340,  ..., -0.0680, -0.0792,  0.0600],
+        [-0.0563, -0.0156, -0.0814,  ...,  0.1461, -0.0688, -0.0589],
+        [-0.0177, -0.0182,  0.1745,  ..., -0.0963, -0.1204, -0.0941],
+        ...,
+        [-0.0733, -0.0489,  0.0085,  ..., -0.0211,  0.0981, -0.0378],
+        [-0.0797, -0.0642, -0.0529,  ..., -0.1155, -0.0042, -0.1313],
+        [-0.1536, -0.0396, -0.1146,  ..., -0.1148, -0.0043,  0.0933]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-07,  0.0000e+00,  5.4017e-08,  ...,  4.7684e-07,
+          1.9185e-07,  3.2410e-07],
+        [ 1.8440e-07,  0.0000e+00,  1.8254e-07,  ..., -1.0282e-06,
+          3.5390e-07,  3.6135e-07],
+        [ 2.4401e-07,  0.0000e+00,  8.2515e-07,  ...,  5.6811e-07,
+          6.3702e-07,  2.0489e-07],
+        ...,
+        [ 1.1735e-07,  0.0000e+00, -2.0489e-06,  ...,  4.0792e-07,
+         -7.3947e-07,  1.5855e-05],
+        [ 2.1234e-07,  0.0000e+00,  1.3039e-08,  ...,  1.7695e-07,
+          1.7453e-06,  3.2969e-07],
+        [ 2.5332e-06,  0.0000e+00,  7.6555e-07,  ...,  1.5087e-07,
+          6.1654e-07, -1.8299e-05]], device='cuda:0')
+Epoch 175, bias, value: tensor([-0.0380, -0.0308,  0.0109,  0.0329, -0.0249,  0.0023, -0.0081,  0.0155,
+         0.0128, -0.0007], device='cuda:0'), grad: tensor([ 3.6638e-06,  7.6368e-07,  5.5432e-06,  2.6319e-06,  1.6436e-05,
+        -1.5378e-05, -1.6764e-05,  5.0038e-05,  1.4175e-06, -4.8310e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 174, time 213.92, cls_loss 0.0014 cls_loss_mapping 0.0037 cls_loss_causal 0.5295 re_mapping 0.0052 re_causal 0.0159 /// teacc 99.08 lr 0.00010000
+Epoch 176, weight, value: tensor([[-0.0761,  0.0418,  0.0342,  ..., -0.0681, -0.0796,  0.0603],
+        [-0.0564, -0.0157, -0.0815,  ...,  0.1474, -0.0688, -0.0592],
+        [-0.0178, -0.0184,  0.1746,  ..., -0.0965, -0.1204, -0.0946],
+        ...,
+        [-0.0738, -0.0488,  0.0085,  ..., -0.0223,  0.0983, -0.0381],
+        [-0.0797, -0.0649, -0.0524,  ..., -0.1156, -0.0046, -0.1310],
+        [-0.1540, -0.0400, -0.1150,  ..., -0.1156, -0.0048,  0.0934]],
+       device='cuda:0'), grad: tensor([[ 1.6391e-07,  0.0000e+00, -8.9407e-08,  ...,  8.1956e-08,
+          1.6578e-07,  2.2165e-07],
+        [ 8.3819e-08,  0.0000e+00,  1.9744e-07,  ..., -7.4506e-09,
+          5.0478e-07,  2.1420e-07],
+        [ 4.2841e-08,  0.0000e+00,  2.2352e-08,  ...,  7.8231e-08,
+          3.7812e-07,  1.0058e-07],
+        ...,
+        [ 4.9919e-07,  0.0000e+00, -8.3447e-07,  ...,  2.6077e-08,
+         -1.6559e-06,  1.0598e-06],
+        [ 1.5274e-07,  0.0000e+00,  8.9407e-08,  ...,  1.6205e-07,
+          5.7928e-07,  7.6927e-07],
+        [-2.8729e-05,  0.0000e+00,  2.7381e-07,  ...,  1.6764e-08,
+          4.3586e-07, -5.2392e-05]], device='cuda:0')
+Epoch 176, bias, value: tensor([-0.0378, -0.0304,  0.0109,  0.0326, -0.0248,  0.0024, -0.0090,  0.0153,
+         0.0148, -0.0009], device='cuda:0'), grad: tensor([ 1.8422e-06,  2.4363e-06,  2.0377e-06, -4.3772e-07,  1.0806e-04,
+        -6.8545e-06, -1.5590e-06, -3.3528e-08,  5.2899e-06, -1.1098e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 175, time 214.30, cls_loss 0.0012 cls_loss_mapping 0.0041 cls_loss_causal 0.5207 re_mapping 0.0054 re_causal 0.0165 /// teacc 99.08 lr 0.00010000
+Epoch 177, weight, value: tensor([[-0.0769,  0.0419,  0.0339,  ..., -0.0682, -0.0800,  0.0604],
+        [-0.0565, -0.0157, -0.0816,  ...,  0.1477, -0.0689, -0.0594],
+        [-0.0178, -0.0183,  0.1750,  ..., -0.0967, -0.1205, -0.0948],
+        ...,
+        [-0.0737, -0.0488,  0.0084,  ..., -0.0225,  0.0985, -0.0382],
+        [-0.0795, -0.0654, -0.0538,  ..., -0.1157, -0.0028, -0.1312],
+        [-0.1541, -0.0401, -0.1151,  ..., -0.1158, -0.0052,  0.0937]],
+       device='cuda:0'), grad: tensor([[ 1.5274e-07,  0.0000e+00, -1.7509e-07,  ...,  1.6950e-07,
+          6.4448e-07, -8.1956e-08],
+        [ 8.7544e-08,  0.0000e+00,  2.6636e-07,  ..., -2.1327e-06,
+          5.1595e-07, -3.1665e-08],
+        [ 4.5262e-07,  0.0000e+00,  7.4506e-07,  ...,  3.2410e-07,
+          2.3823e-06,  2.3469e-07],
+        ...,
+        [ 3.1460e-06,  0.0000e+00, -2.2892e-06,  ...,  3.6694e-07,
+          1.1496e-05,  1.5497e-06],
+        [ 3.8370e-07,  0.0000e+00,  2.7753e-07,  ...,  4.0606e-07,
+          1.7453e-06,  2.9244e-07],
+        [ 1.7881e-07,  0.0000e+00,  7.8417e-07,  ...,  3.4086e-07,
+          1.0189e-06,  7.0781e-08]], device='cuda:0')
+Epoch 177, bias, value: tensor([-0.0379, -0.0304,  0.0113,  0.0326, -0.0249,  0.0024, -0.0107,  0.0152,
+         0.0165, -0.0008], device='cuda:0'), grad: tensor([ 2.0862e-06, -3.8072e-06,  8.1658e-06,  2.0579e-05,  1.1865e-06,
+        -8.0109e-05,  4.2468e-06,  3.6001e-05,  7.3612e-06,  4.2170e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 176, time 214.45, cls_loss 0.0010 cls_loss_mapping 0.0034 cls_loss_causal 0.4854 re_mapping 0.0054 re_causal 0.0159 /// teacc 99.05 lr 0.00010000
+Epoch 178, weight, value: tensor([[-0.0773,  0.0419,  0.0340,  ..., -0.0682, -0.0807,  0.0604],
+        [-0.0566, -0.0158, -0.0818,  ...,  0.1484, -0.0690, -0.0594],
+        [-0.0180, -0.0183,  0.1752,  ..., -0.0973, -0.1205, -0.0951],
+        ...,
+        [-0.0746, -0.0489,  0.0083,  ..., -0.0227,  0.0986, -0.0383],
+        [-0.0798, -0.0655, -0.0542,  ..., -0.1184, -0.0020, -0.1328],
+        [-0.1544, -0.0401, -0.1153,  ..., -0.1173, -0.0055,  0.0938]],
+       device='cuda:0'), grad: tensor([[ 1.6950e-06, -1.1176e-08, -7.4506e-08,  ...,  7.7672e-07,
+          1.1176e-08, -3.5390e-08],
+        [ 1.5676e-05,  0.0000e+00,  4.3027e-07,  ...,  7.1488e-06,
+          1.4342e-07,  9.8720e-08],
+        [ 4.8243e-06,  0.0000e+00, -2.5295e-06,  ...,  2.2668e-06,
+          2.7940e-08,  3.5390e-08],
+        ...,
+        [ 4.8056e-06,  0.0000e+00,  1.9707e-06,  ...,  8.1211e-07,
+         -2.7381e-07,  1.3784e-07],
+        [ 1.6578e-06,  0.0000e+00,  1.1362e-07,  ...,  7.9535e-07,
+          1.5460e-07,  7.8231e-08],
+        [ 4.2349e-05,  7.4506e-09,  1.1176e-07,  ...,  1.9372e-05,
+          1.1176e-07, -7.4506e-08]], device='cuda:0')
+Epoch 178, bias, value: tensor([-0.0379, -0.0302,  0.0112,  0.0325, -0.0248,  0.0025, -0.0113,  0.0151,
+         0.0171, -0.0009], device='cuda:0'), grad: tensor([ 4.9248e-06,  4.7475e-05,  1.0937e-05,  5.4128e-06, -2.1386e-04,
+        -2.2501e-06,  5.0552e-06,  1.1578e-05,  4.7907e-06,  1.2589e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 177, time 214.44, cls_loss 0.0014 cls_loss_mapping 0.0041 cls_loss_causal 0.5411 re_mapping 0.0050 re_causal 0.0159 /// teacc 99.08 lr 0.00010000
+Epoch 179, weight, value: tensor([[-0.0783,  0.0422,  0.0342,  ..., -0.0686, -0.0817,  0.0605],
+        [-0.0569, -0.0158, -0.0820,  ...,  0.1487, -0.0690, -0.0595],
+        [-0.0181, -0.0184,  0.1754,  ..., -0.0973, -0.1205, -0.0956],
+        ...,
+        [-0.0768, -0.0489,  0.0083,  ..., -0.0230,  0.0986, -0.0385],
+        [-0.0804, -0.0659, -0.0546,  ..., -0.1189, -0.0019, -0.1338],
+        [-0.1548, -0.0402, -0.1156,  ..., -0.1194, -0.0060,  0.0941]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09, -9.3132e-09, -1.8999e-07,  ...,  1.5628e-06,
+          6.3702e-07,  1.4342e-06],
+        [ 3.7253e-08,  0.0000e+00,  1.0431e-07,  ..., -3.0044e-06,
+          1.7136e-07, -8.7544e-08],
+        [ 2.0489e-08,  0.0000e+00, -1.2666e-07,  ...,  8.3260e-07,
+          1.1548e-07,  2.7567e-07],
+        ...,
+        [ 1.4901e-08,  0.0000e+00, -2.5332e-07,  ...,  3.2596e-07,
+         -6.7614e-07,  2.3656e-07],
+        [ 3.7253e-09,  0.0000e+00,  1.4901e-07,  ...,  2.0657e-06,
+          1.0207e-06,  2.0694e-06],
+        [ 9.4995e-08,  3.7253e-09,  2.2165e-07,  ...,  9.8348e-07,
+          1.7136e-07, -4.6566e-08]], device='cuda:0')
+Epoch 179, bias, value: tensor([-0.0379, -0.0304,  0.0113,  0.0338, -0.0247,  0.0012, -0.0111,  0.0148,
+         0.0177, -0.0011], device='cuda:0'), grad: tensor([ 6.3181e-06, -5.2191e-06,  2.3171e-06,  2.5574e-06,  1.2722e-06,
+         5.4017e-06, -2.0787e-05, -2.5518e-07,  5.7593e-06,  2.6226e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 178, time 214.36, cls_loss 0.0012 cls_loss_mapping 0.0037 cls_loss_causal 0.5420 re_mapping 0.0052 re_causal 0.0165 /// teacc 99.13 lr 0.00010000
+Epoch 180, weight, value: tensor([[-0.0784,  0.0432,  0.0346,  ..., -0.0686, -0.0833,  0.0606],
+        [-0.0571, -0.0163, -0.0838,  ...,  0.1472, -0.0709, -0.0596],
+        [-0.0181, -0.0185,  0.1755,  ..., -0.0977, -0.1206, -0.0961],
+        ...,
+        [-0.0776, -0.0489,  0.0086,  ..., -0.0207,  0.1000, -0.0390],
+        [-0.0807, -0.0664, -0.0550,  ..., -0.1206, -0.0014, -0.1346],
+        [-0.1552, -0.0408, -0.1159,  ..., -0.1216, -0.0062,  0.0944]],
+       device='cuda:0'), grad: tensor([[ 1.1362e-07,  0.0000e+00,  1.0412e-06,  ...,  5.9605e-08,
+          2.1234e-07, -4.0978e-08],
+        [ 6.4448e-07,  1.1176e-08,  5.4017e-08,  ..., -2.0191e-06,
+          9.9093e-07,  3.7253e-09],
+        [ 5.0291e-07,  1.8626e-09, -4.0270e-06,  ...,  3.5763e-07,
+          1.0934e-06,  7.4506e-09],
+        ...,
+        [ 4.6566e-07, -2.4214e-08,  3.0734e-07,  ...,  1.4119e-06,
+          3.8370e-07,  2.2352e-08],
+        [-4.8913e-06,  0.0000e+00,  2.4959e-07,  ...,  1.1362e-07,
+         -2.0802e-05,  5.5879e-08],
+        [ 2.2147e-06,  3.7253e-09,  6.3330e-08,  ...,  8.3819e-08,
+          3.5949e-07,  2.6077e-08]], device='cuda:0')
+Epoch 180, bias, value: tensor([-0.0378, -0.0323,  0.0114,  0.0336, -0.0246,  0.0013, -0.0109,  0.0161,
+         0.0177, -0.0011], device='cuda:0'), grad: tensor([ 4.5970e-06,  9.2313e-06,  9.4622e-06, -3.0696e-06, -1.5646e-07,
+         2.3794e-04,  9.9689e-06,  1.1064e-05, -2.8634e-04,  6.6534e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 179, time 214.18, cls_loss 0.0010 cls_loss_mapping 0.0026 cls_loss_causal 0.5093 re_mapping 0.0053 re_causal 0.0165 /// teacc 99.14 lr 0.00010000
+Epoch 181, weight, value: tensor([[-0.0792,  0.0434,  0.0347,  ..., -0.0688, -0.0847,  0.0606],
+        [-0.0574, -0.0165, -0.0839,  ...,  0.1501, -0.0699, -0.0597],
+        [-0.0182, -0.0184,  0.1756,  ..., -0.0985, -0.1206, -0.0962],
+        ...,
+        [-0.0782, -0.0489,  0.0085,  ..., -0.0234,  0.0992, -0.0393],
+        [-0.0834, -0.0670, -0.0559,  ..., -0.1215, -0.0019, -0.1354],
+        [-0.1556, -0.0408, -0.1160,  ..., -0.1226, -0.0065,  0.0944]],
+       device='cuda:0'), grad: tensor([[ 2.2352e-08,  0.0000e+00, -9.7603e-07,  ...,  1.8626e-08,
+         -5.3644e-07, -2.5909e-06],
+        [ 8.0094e-08,  0.0000e+00,  3.9116e-08,  ..., -3.1665e-08,
+          9.6858e-08,  5.4017e-08],
+        [ 4.4703e-08,  0.0000e+00, -2.8498e-07,  ...,  1.4901e-08,
+          2.0489e-08,  2.2352e-08],
+        ...,
+        [ 1.3039e-07,  0.0000e+00, -2.0489e-08,  ...,  1.1176e-08,
+         -1.2796e-06, -4.4703e-07],
+        [ 2.0489e-08,  0.0000e+00,  6.8918e-08,  ...,  4.2841e-08,
+          1.0431e-07,  1.1176e-07],
+        [ 1.7695e-07,  0.0000e+00,  3.3155e-07,  ...,  2.7940e-08,
+          1.1269e-06,  6.0350e-07]], device='cuda:0')
+Epoch 181, bias, value: tensor([-0.0378, -0.0302,  0.0112,  0.0334, -0.0244,  0.0018, -0.0111,  0.0144,
+         0.0174, -0.0013], device='cuda:0'), grad: tensor([-4.2915e-06,  5.0105e-07, -1.5460e-07, -2.9616e-07, -4.1910e-07,
+         1.4976e-06,  1.6689e-06, -2.3562e-06,  5.6252e-07,  3.2596e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 180, time 214.42, cls_loss 0.0011 cls_loss_mapping 0.0037 cls_loss_causal 0.5382 re_mapping 0.0052 re_causal 0.0160 /// teacc 99.18 lr 0.00010000
+Epoch 182, weight, value: tensor([[-0.0805,  0.0447,  0.0349,  ..., -0.0689, -0.0851,  0.0608],
+        [-0.0578, -0.0171, -0.0840,  ...,  0.1508, -0.0698, -0.0598],
+        [-0.0183, -0.0155,  0.1758,  ..., -0.0988, -0.1206, -0.0964],
+        ...,
+        [-0.0790, -0.0499,  0.0085,  ..., -0.0240,  0.0992, -0.0395],
+        [-0.0844, -0.0683, -0.0564,  ..., -0.1221, -0.0026, -0.1372],
+        [-0.1546, -0.0424, -0.1163,  ..., -0.1233, -0.0067,  0.0953]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-08,  0.0000e+00,  3.4459e-07,  ...,  2.0489e-07,
+          8.5682e-08, -9.8161e-07],
+        [-1.6205e-07,  0.0000e+00,  1.5665e-06,  ..., -5.9865e-06,
+          3.1292e-06,  3.1292e-07],
+        [ 9.1270e-08,  0.0000e+00, -4.0717e-06,  ...,  2.4773e-07,
+          2.7940e-07,  1.1735e-07],
+        ...,
+        [ 5.4389e-07,  0.0000e+00, -2.0191e-06,  ...,  1.7993e-06,
+         -5.6997e-06,  1.1921e-07],
+        [ 5.0291e-08,  0.0000e+00,  1.6019e-07,  ...,  6.9849e-07,
+          1.6075e-06,  1.3448e-06],
+        [ 5.4576e-07,  0.0000e+00,  8.8103e-07,  ...,  3.2037e-07,
+          1.9874e-06, -1.5926e-06]], device='cuda:0')
+Epoch 182, bias, value: tensor([-0.0377, -0.0299,  0.0113,  0.0334, -0.0251,  0.0022, -0.0112,  0.0141,
+         0.0173, -0.0008], device='cuda:0'), grad: tensor([-6.9290e-07, -5.3942e-06, -4.1053e-06,  9.1046e-06,  7.4282e-06,
+        -1.3903e-05,  5.9605e-06, -9.7081e-06,  1.1824e-05, -6.3144e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 181, time 214.62, cls_loss 0.0011 cls_loss_mapping 0.0036 cls_loss_causal 0.5025 re_mapping 0.0052 re_causal 0.0154 /// teacc 98.99 lr 0.00010000
+Epoch 183, weight, value: tensor([[-0.0809,  0.0448,  0.0349,  ..., -0.0689, -0.0859,  0.0608],
+        [-0.0580, -0.0174, -0.0842,  ...,  0.1510, -0.0700, -0.0603],
+        [-0.0184, -0.0154,  0.1761,  ..., -0.0989, -0.1206, -0.0979],
+        ...,
+        [-0.0793, -0.0500,  0.0084,  ..., -0.0241,  0.0995, -0.0396],
+        [-0.0845, -0.0688, -0.0570,  ..., -0.1223, -0.0027, -0.1380],
+        [-0.1545, -0.0426, -0.1165,  ..., -0.1238, -0.0076,  0.0957]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-08, -7.8231e-08, -9.4436e-07,  ...,  1.0747e-06,
+          7.4506e-09, -6.9849e-07],
+        [ 6.5193e-08,  7.2643e-08,  3.9116e-07,  ...,  6.4969e-06,
+          7.4506e-08,  3.1292e-07],
+        [ 2.4214e-08, -2.4699e-06, -1.2085e-05,  ...,  4.5076e-07,
+          1.4901e-08,  1.5460e-07],
+        ...,
+        [ 1.2293e-07,  2.1160e-06,  1.0461e-05,  ...,  1.0617e-07,
+         -1.4715e-07,  1.1157e-06],
+        [ 7.8231e-08,  6.5193e-08,  3.4831e-07,  ..., -9.8906e-07,
+         -1.6950e-07,  3.8184e-07],
+        [-1.4529e-07,  5.0291e-08,  4.8243e-07,  ...,  8.5682e-08,
+          9.1270e-08, -1.5087e-07]], device='cuda:0')
+Epoch 183, bias, value: tensor([-0.0377, -0.0297,  0.0114,  0.0332, -0.0253,  0.0025, -0.0112,  0.0140,
+         0.0173, -0.0007], device='cuda:0'), grad: tensor([ 3.7812e-07,  2.0429e-05, -1.5497e-05, -2.6971e-05,  1.3690e-06,
+         6.7875e-06, -8.7693e-06,  2.9370e-05, -1.1742e-05,  4.5598e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 182, time 214.45, cls_loss 0.0013 cls_loss_mapping 0.0032 cls_loss_causal 0.5067 re_mapping 0.0050 re_causal 0.0154 /// teacc 99.09 lr 0.00010000
+Epoch 184, weight, value: tensor([[-0.0816,  0.0451,  0.0358,  ..., -0.0689, -0.0872,  0.0613],
+        [-0.0589, -0.0176, -0.0844,  ...,  0.1516, -0.0700, -0.0608],
+        [-0.0187, -0.0153,  0.1763,  ..., -0.0991, -0.1207, -0.0996],
+        ...,
+        [-0.0804, -0.0501,  0.0082,  ..., -0.0248,  0.0995, -0.0399],
+        [-0.0854, -0.0691, -0.0587,  ..., -0.1226, -0.0034, -0.1397],
+        [-0.1546, -0.0428, -0.1168,  ..., -0.1242, -0.0078,  0.0956]],
+       device='cuda:0'), grad: tensor([[ 6.8918e-08, -0.0000e+00, -9.3132e-08,  ...,  1.4156e-07,
+          1.4901e-08, -6.5193e-08],
+        [ 6.7428e-07,  0.0000e+00,  1.9930e-07,  ..., -3.7253e-09,
+          2.0489e-07,  9.3132e-09],
+        [ 2.9989e-07,  0.0000e+00, -3.2410e-07,  ...,  9.1270e-08,
+          5.9605e-08,  1.1176e-08],
+        ...,
+        [ 1.9595e-06,  0.0000e+00,  4.7125e-07,  ...,  3.7253e-08,
+          2.9989e-07,  5.4017e-08],
+        [ 3.9674e-07,  0.0000e+00,  1.1362e-07,  ...,  1.8440e-07,
+          8.5682e-08,  2.9802e-08],
+        [ 4.2543e-06,  0.0000e+00,  8.1770e-07,  ...,  1.8626e-08,
+          9.4250e-07, -1.0990e-07]], device='cuda:0')
+Epoch 184, bias, value: tensor([-0.0372, -0.0295,  0.0114,  0.0322, -0.0251,  0.0040, -0.0115,  0.0135,
+         0.0169, -0.0008], device='cuda:0'), grad: tensor([ 3.1851e-07,  1.3690e-06,  2.0675e-07,  1.8626e-07, -1.2040e-05,
+         3.7625e-07, -1.2126e-06,  3.3639e-06,  6.9663e-07,  6.6906e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 183, time 214.64, cls_loss 0.0010 cls_loss_mapping 0.0027 cls_loss_causal 0.5257 re_mapping 0.0049 re_causal 0.0156 /// teacc 99.15 lr 0.00010000
+Epoch 185, weight, value: tensor([[-0.0842,  0.0450,  0.0360,  ..., -0.0693, -0.0880,  0.0614],
+        [-0.0593, -0.0177, -0.0848,  ...,  0.1519, -0.0701, -0.0610],
+        [-0.0189, -0.0153,  0.1766,  ..., -0.0992, -0.1207, -0.0996],
+        ...,
+        [-0.0817, -0.0501,  0.0081,  ..., -0.0250,  0.0996, -0.0401],
+        [-0.0860, -0.0693, -0.0592,  ..., -0.1230, -0.0034, -0.1401],
+        [-0.1548, -0.0428, -0.1175,  ..., -0.1246, -0.0082,  0.0958]],
+       device='cuda:0'), grad: tensor([[ 9.4064e-08,  1.8626e-09, -2.3209e-06,  ...,  2.9802e-08,
+          1.3039e-08, -6.8396e-06],
+        [ 1.2908e-06,  0.0000e+00,  1.6838e-06,  ...,  1.8068e-07,
+          3.9116e-08,  3.3528e-08],
+        [ 1.9092e-07,  0.0000e+00, -3.3993e-06,  ...,  6.7987e-08,
+          1.2107e-07,  2.0768e-07],
+        ...,
+        [ 3.9488e-07,  3.7253e-09,  9.3132e-08,  ...,  9.7789e-08,
+         -5.7556e-07,  5.6252e-07],
+        [-3.7625e-07,  0.0000e+00,  4.1258e-07,  ...,  3.3528e-08,
+          4.0047e-08,  1.7788e-07],
+        [ 4.7404e-07, -1.4901e-08,  1.2601e-06,  ...,  9.6858e-08,
+          3.0734e-08,  2.5872e-06]], device='cuda:0')
+Epoch 185, bias, value: tensor([-0.0373, -0.0295,  0.0116,  0.0321, -0.0250,  0.0040, -0.0113,  0.0133,
+         0.0170, -0.0009], device='cuda:0'), grad: tensor([-1.0550e-05,  4.0494e-06, -3.5595e-06,  2.3879e-06, -1.8980e-06,
+         3.7663e-06,  1.8245e-06,  1.1427e-06, -2.2426e-06,  5.0589e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 184, time 214.49, cls_loss 0.0011 cls_loss_mapping 0.0031 cls_loss_causal 0.5263 re_mapping 0.0048 re_causal 0.0154 /// teacc 99.12 lr 0.00010000
+Epoch 186, weight, value: tensor([[-0.0868,  0.0450,  0.0363,  ..., -0.0697, -0.0892,  0.0615],
+        [-0.0600, -0.0180, -0.0853,  ...,  0.1527, -0.0698, -0.0614],
+        [-0.0190, -0.0154,  0.1769,  ..., -0.0994, -0.1207, -0.0999],
+        ...,
+        [-0.0833, -0.0500,  0.0081,  ..., -0.0256,  0.0995, -0.0403],
+        [-0.0872, -0.0695, -0.0603,  ..., -0.1239, -0.0038, -0.1406],
+        [-0.1555, -0.0428, -0.1178,  ..., -0.1255, -0.0086,  0.0959]],
+       device='cuda:0'), grad: tensor([[ 4.3772e-08,  3.7253e-09,  1.4901e-08,  ...,  3.4645e-07,
+          8.3819e-09,  2.4494e-07],
+        [ 4.8764e-06,  2.7940e-09,  5.7369e-07,  ...,  1.1288e-06,
+          3.5949e-07,  1.4529e-07],
+        [ 2.8778e-07,  9.3132e-10, -5.5693e-07,  ...,  2.3842e-07,
+          6.4261e-08,  5.1223e-08],
+        ...,
+        [ 3.2131e-07,  1.4901e-08, -3.6415e-07,  ...,  5.6624e-07,
+         -7.2084e-07,  3.3900e-07],
+        [ 4.1910e-08,  9.3132e-10,  9.0338e-08,  ...,  4.3958e-07,
+          1.4901e-08,  1.6391e-07],
+        [-1.4808e-07, -9.8720e-08,  4.0978e-08,  ...,  1.2852e-07,
+          6.6124e-08, -1.9893e-06]], device='cuda:0')
+Epoch 186, bias, value: tensor([-0.0373, -0.0290,  0.0118,  0.0322, -0.0247,  0.0038, -0.0113,  0.0128,
+         0.0166, -0.0010], device='cuda:0'), grad: tensor([ 1.5227e-06,  7.9796e-06,  2.5406e-06,  1.0571e-06, -5.5246e-06,
+         4.0010e-06, -7.0632e-06,  3.5018e-07, -2.8927e-06, -1.9707e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 185----------------------------------------------------
+epoch 185, time 231.16, cls_loss 0.0010 cls_loss_mapping 0.0020 cls_loss_causal 0.4823 re_mapping 0.0047 re_causal 0.0147 /// teacc 99.20 lr 0.00010000
+Epoch 187, weight, value: tensor([[-0.0876,  0.0450,  0.0367,  ..., -0.0700, -0.0904,  0.0616],
+        [-0.0605, -0.0198, -0.0855,  ...,  0.1529, -0.0699, -0.0617],
+        [-0.0192, -0.0152,  0.1769,  ..., -0.0996, -0.1208, -0.1004],
+        ...,
+        [-0.0838, -0.0499,  0.0082,  ..., -0.0257,  0.1000, -0.0404],
+        [-0.0856, -0.0697, -0.0595,  ..., -0.1246, -0.0039, -0.1409],
+        [-0.1560, -0.0428, -0.1182,  ..., -0.1259, -0.0094,  0.0960]],
+       device='cuda:0'), grad: tensor([[ 1.0245e-08, -3.7253e-09, -4.0699e-07,  ...,  3.4459e-08,
+          3.7253e-09, -4.1537e-07],
+        [ 4.9360e-08,  0.0000e+00,  2.9802e-08,  ..., -1.4901e-08,
+          9.9652e-08,  1.3970e-08],
+        [ 1.5832e-08,  9.3132e-10,  3.2596e-08,  ...,  8.1025e-08,
+          2.9802e-08,  2.4214e-08],
+        ...,
+        [ 3.6322e-08,  9.3132e-10, -2.2352e-08,  ...,  4.5635e-08,
+         -1.3597e-07,  5.0012e-07],
+        [ 2.7940e-08,  0.0000e+00, -1.8626e-08,  ...,  1.3132e-07,
+         -9.3132e-10,  1.0245e-08],
+        [ 1.8533e-07,  1.8626e-09,  3.1106e-07,  ...,  1.0245e-08,
+         -6.5193e-08, -2.9989e-07]], device='cuda:0')
+Epoch 187, bias, value: tensor([-0.0372, -0.0290,  0.0115,  0.0319, -0.0246,  0.0037, -0.0112,  0.0131,
+         0.0171, -0.0013], device='cuda:0'), grad: tensor([-9.0711e-07,  3.7625e-07,  4.5262e-07, -3.3900e-07, -6.1467e-08,
+         4.0047e-07, -8.2515e-07,  4.6100e-07,  1.5832e-07,  2.7195e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 186, time 214.51, cls_loss 0.0009 cls_loss_mapping 0.0024 cls_loss_causal 0.4959 re_mapping 0.0049 re_causal 0.0151 /// teacc 99.02 lr 0.00010000
+Epoch 188, weight, value: tensor([[-0.0883,  0.0451,  0.0369,  ..., -0.0704, -0.0908,  0.0617],
+        [-0.0610, -0.0199, -0.0858,  ...,  0.1534, -0.0699, -0.0618],
+        [-0.0193, -0.0152,  0.1771,  ..., -0.1001, -0.1208, -0.1007],
+        ...,
+        [-0.0843, -0.0499,  0.0082,  ..., -0.0259,  0.1000, -0.0406],
+        [-0.0856, -0.0700, -0.0599,  ..., -0.1257, -0.0040, -0.1413],
+        [-0.1561, -0.0427, -0.1184,  ..., -0.1266, -0.0095,  0.0962]],
+       device='cuda:0'), grad: tensor([[ 1.6205e-07, -6.0536e-08, -5.8673e-07,  ...,  3.6322e-08,
+          1.8626e-09, -2.9802e-07],
+        [ 1.5460e-07,  0.0000e+00, -4.6566e-09,  ..., -2.5667e-06,
+          5.5879e-08,  6.5193e-09],
+        [ 2.5146e-07,  2.9802e-08,  1.5181e-07,  ...,  1.6904e-06,
+          2.7008e-08,  1.4342e-07],
+        ...,
+        [ 1.3225e-07,  0.0000e+00, -4.7497e-08,  ...,  3.9581e-07,
+         -2.3004e-07,  5.3085e-08],
+        [ 5.0291e-08,  1.8626e-09,  4.7497e-08,  ...,  2.3842e-07,
+          2.7008e-08,  3.0734e-08],
+        [ 5.2620e-07,  1.9558e-08,  2.1420e-07,  ...,  4.6566e-08,
+          2.5146e-08, -1.0245e-08]], device='cuda:0')
+Epoch 188, bias, value: tensor([-0.0372, -0.0288,  0.0114,  0.0317, -0.0245,  0.0038, -0.0110,  0.0130,
+         0.0169, -0.0013], device='cuda:0'), grad: tensor([-7.4878e-07, -6.0275e-06,  5.1484e-06,  1.6391e-07, -1.2703e-06,
+         8.5030e-07, -2.3097e-07,  9.6299e-07, -3.2596e-08,  1.1567e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 187, time 214.45, cls_loss 0.0015 cls_loss_mapping 0.0038 cls_loss_causal 0.5594 re_mapping 0.0048 re_causal 0.0155 /// teacc 99.13 lr 0.00010000
+Epoch 189, weight, value: tensor([[-0.0892,  0.0453,  0.0372,  ..., -0.0704, -0.0915,  0.0618],
+        [-0.0623, -0.0207, -0.0840,  ...,  0.1567, -0.0700, -0.0621],
+        [-0.0185, -0.0153,  0.1768,  ..., -0.1044, -0.1209, -0.1011],
+        ...,
+        [-0.0856, -0.0497,  0.0081,  ..., -0.0260,  0.1002, -0.0408],
+        [-0.0868, -0.0711, -0.0610,  ..., -0.1298, -0.0042, -0.1420],
+        [-0.1565, -0.0432, -0.1186,  ..., -0.1277, -0.0098,  0.0964]],
+       device='cuda:0'), grad: tensor([[ 2.3097e-07,  0.0000e+00,  7.2643e-08,  ...,  4.1444e-07,
+          4.0047e-08,  3.7253e-08],
+        [ 8.3633e-07,  0.0000e+00,  8.5682e-08,  ...,  3.8892e-06,
+          1.3970e-07,  1.5739e-07],
+        [ 3.5390e-08,  0.0000e+00, -1.4268e-06,  ...,  1.5181e-07,
+          2.0023e-07,  4.7497e-08],
+        ...,
+        [ 9.1270e-08,  0.0000e+00,  8.9593e-07,  ...,  4.0978e-08,
+          1.6298e-07,  1.2964e-06],
+        [ 3.1665e-08,  0.0000e+00,  1.1921e-07,  ...,  9.4995e-08,
+         -9.6858e-07,  1.6112e-07],
+        [ 1.6391e-07,  0.0000e+00,  2.7008e-08,  ...,  7.6368e-08,
+          1.4808e-07, -2.1476e-06]], device='cuda:0')
+Epoch 189, bias, value: tensor([-0.0371, -0.0267,  0.0093,  0.0310, -0.0245,  0.0024, -0.0085,  0.0129,
+         0.0158, -0.0012], device='cuda:0'), grad: tensor([ 1.7649e-06,  1.0177e-05,  2.3283e-06, -5.9679e-06,  2.7008e-08,
+         2.9802e-06, -8.7842e-06,  6.2473e-06, -6.2436e-06, -2.5555e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 188, time 214.45, cls_loss 0.0009 cls_loss_mapping 0.0021 cls_loss_causal 0.4857 re_mapping 0.0050 re_causal 0.0149 /// teacc 99.03 lr 0.00010000
+Epoch 190, weight, value: tensor([[-0.0911,  0.0435,  0.0374,  ..., -0.0713, -0.0934,  0.0618],
+        [-0.0628, -0.0217, -0.0842,  ...,  0.1567, -0.0701, -0.0624],
+        [-0.0187, -0.0153,  0.1770,  ..., -0.1044, -0.1209, -0.1014],
+        ...,
+        [-0.0860, -0.0497,  0.0081,  ..., -0.0260,  0.1005, -0.0411],
+        [-0.0879, -0.0745, -0.0615,  ..., -0.1304, -0.0044, -0.1424],
+        [-0.1566, -0.0433, -0.1188,  ..., -0.1282, -0.0101,  0.0966]],
+       device='cuda:0'), grad: tensor([[ 5.4017e-08, -9.3132e-09, -4.2003e-07,  ...,  6.2399e-08,
+          1.2107e-08, -2.9150e-07],
+        [ 9.3132e-08,  1.8626e-09,  1.9167e-06,  ...,  2.5146e-08,
+          8.4750e-08,  8.3819e-09],
+        [ 5.4948e-08,  4.6566e-09, -1.0267e-05,  ...,  4.2841e-08,
+          4.9360e-08,  6.7987e-08],
+        ...,
+        [ 2.4959e-07,  2.5146e-08,  3.8594e-06,  ...,  8.3819e-09,
+         -4.4331e-07,  4.6566e-09],
+        [ 5.4017e-08,  1.8626e-09,  1.3644e-06,  ...,  1.6112e-07,
+          2.7008e-08,  4.9360e-08],
+        [ 1.7788e-07,  3.7253e-09,  4.9081e-07,  ...,  1.3970e-08,
+          1.6857e-07,  7.5437e-08]], device='cuda:0')
+Epoch 190, bias, value: tensor([-0.0373, -0.0269,  0.0093,  0.0319, -0.0246,  0.0019, -0.0085,  0.0130,
+         0.0155, -0.0012], device='cuda:0'), grad: tensor([-5.8953e-07,  2.6636e-06, -1.2949e-05,  3.3509e-06, -9.9931e-07,
+         5.5693e-07, -5.0012e-07,  4.6156e-06,  2.4214e-06,  1.4212e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 189, time 214.59, cls_loss 0.0011 cls_loss_mapping 0.0027 cls_loss_causal 0.5451 re_mapping 0.0047 re_causal 0.0147 /// teacc 99.17 lr 0.00010000
+Epoch 191, weight, value: tensor([[-0.0924,  0.0439,  0.0378,  ..., -0.0720, -0.0936,  0.0619],
+        [-0.0631, -0.0220, -0.0845,  ...,  0.1569, -0.0702, -0.0627],
+        [-0.0187, -0.0154,  0.1771,  ..., -0.1045, -0.1211, -0.1018],
+        ...,
+        [-0.0867, -0.0497,  0.0082,  ..., -0.0261,  0.1007, -0.0414],
+        [-0.0855, -0.0747, -0.0622,  ..., -0.1311, -0.0045, -0.1430],
+        [-0.1569, -0.0434, -0.1191,  ..., -0.1291, -0.0103,  0.0968]],
+       device='cuda:0'), grad: tensor([[ 6.7987e-08, -2.7940e-09, -5.8673e-08,  ...,  9.3132e-09,
+          8.1956e-08,  2.9337e-07],
+        [ 3.3062e-07,  0.0000e+00,  3.4459e-07,  ..., -2.2911e-07,
+          2.4680e-07,  1.0058e-07],
+        [ 1.1176e-07,  0.0000e+00,  3.1665e-07,  ...,  3.6322e-08,
+          1.0524e-06,  1.2293e-07],
+        ...,
+        [ 1.4715e-07,  0.0000e+00, -1.3625e-06,  ...,  2.6077e-08,
+          4.5542e-07,  3.6787e-07],
+        [ 1.0710e-07,  0.0000e+00,  2.5425e-07,  ...,  9.3132e-09,
+          6.7987e-08,  2.3004e-07],
+        [ 5.2992e-07,  1.8626e-09,  2.4680e-07,  ...,  8.3819e-09,
+          3.7067e-07, -6.2510e-06]], device='cuda:0')
+Epoch 191, bias, value: tensor([-0.0372, -0.0269,  0.0093,  0.0305, -0.0246,  0.0027, -0.0085,  0.0131,
+         0.0162, -0.0012], device='cuda:0'), grad: tensor([ 1.3383e-06,  1.8524e-06,  4.4033e-06, -2.3305e-05, -6.5099e-07,
+         1.1131e-05,  7.8790e-07,  1.4350e-05,  6.1281e-07, -1.0543e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 190, time 214.46, cls_loss 0.0011 cls_loss_mapping 0.0032 cls_loss_causal 0.5417 re_mapping 0.0046 re_causal 0.0151 /// teacc 99.08 lr 0.00010000
+Epoch 192, weight, value: tensor([[-0.0910,  0.0443,  0.0391,  ..., -0.0719, -0.0946,  0.0620],
+        [-0.0644, -0.0226, -0.0850,  ...,  0.1570, -0.0703, -0.0632],
+        [-0.0199, -0.0153,  0.1772,  ..., -0.1044, -0.1213, -0.1025],
+        ...,
+        [-0.0878, -0.0497,  0.0083,  ..., -0.0263,  0.1009, -0.0419],
+        [-0.0857, -0.0749, -0.0632,  ..., -0.1316, -0.0047, -0.1437],
+        [-0.1572, -0.0435, -0.1196,  ..., -0.1295, -0.0105,  0.0976]],
+       device='cuda:0'), grad: tensor([[ 8.0094e-08,  9.3132e-10,  7.4506e-08,  ...,  1.6764e-08,
+          3.8184e-08,  8.3819e-09],
+        [ 2.5705e-07,  3.7253e-09,  8.6520e-07,  ..., -5.0850e-07,
+          1.3150e-06,  9.3132e-09],
+        [ 1.9092e-07,  2.7940e-09, -6.6962e-07,  ...,  2.7008e-08,
+          6.6776e-07,  8.3819e-09],
+        ...,
+        [ 3.5390e-07,  5.5879e-09, -1.9316e-06,  ...,  3.8184e-07,
+         -3.6862e-06, -2.4214e-08],
+        [ 1.0245e-07,  9.3132e-10,  1.5367e-07,  ...,  3.7253e-08,
+          1.0524e-07,  2.6077e-08],
+        [ 8.3540e-07,  2.7940e-08,  3.9581e-07,  ...,  1.3970e-08,
+          6.0163e-07,  4.3772e-08]], device='cuda:0')
+Epoch 192, bias, value: tensor([-0.0370, -0.0271,  0.0092,  0.0304, -0.0244,  0.0027, -0.0084,  0.0131,
+         0.0161, -0.0010], device='cuda:0'), grad: tensor([ 3.1851e-07,  2.6152e-06,  3.4366e-07,  3.4422e-06, -3.1013e-06,
+        -1.0878e-06,  5.4389e-07, -6.2473e-06,  5.4203e-07,  2.6263e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 191, time 214.24, cls_loss 0.0010 cls_loss_mapping 0.0026 cls_loss_causal 0.5325 re_mapping 0.0048 re_causal 0.0152 /// teacc 99.15 lr 0.00010000
+Epoch 193, weight, value: tensor([[-0.0913,  0.0448,  0.0394,  ..., -0.0719, -0.0953,  0.0621],
+        [-0.0648, -0.0241, -0.0853,  ...,  0.1570, -0.0710, -0.0639],
+        [-0.0201, -0.0151,  0.1774,  ..., -0.1044, -0.1214, -0.1031],
+        ...,
+        [-0.0883, -0.0498,  0.0084,  ..., -0.0262,  0.1017, -0.0420],
+        [-0.0858, -0.0752, -0.0636,  ..., -0.1319, -0.0049, -0.1442],
+        [-0.1576, -0.0436, -0.1200,  ..., -0.1298, -0.0106,  0.0980]],
+       device='cuda:0'), grad: tensor([[ 2.1681e-06, -1.3039e-08, -1.2359e-06,  ...,  1.2210e-06,
+          1.7695e-08, -7.2643e-08],
+        [ 3.0641e-07,  0.0000e+00,  4.2841e-07,  ...,  5.0385e-07,
+          8.1025e-08,  2.7940e-09],
+        [ 1.1204e-06,  9.3132e-10,  4.5728e-07,  ...,  1.2731e-06,
+          1.1828e-07,  7.4506e-09],
+        ...,
+        [ 3.9116e-08,  0.0000e+00, -4.6566e-08,  ...,  4.1910e-08,
+         -3.4086e-07,  1.2107e-08],
+        [ 5.2620e-07,  0.0000e+00, -1.0030e-06,  ...,  6.6683e-07,
+         -1.9465e-07,  2.0489e-08],
+        [ 1.5646e-07,  4.6566e-09,  5.9512e-07,  ...,  1.0617e-07,
+          2.1420e-07,  2.2352e-08]], device='cuda:0')
+Epoch 193, bias, value: tensor([-0.0369, -0.0276,  0.0093,  0.0304, -0.0243,  0.0029, -0.0087,  0.0136,
+         0.0161, -0.0011], device='cuda:0'), grad: tensor([ 6.4597e-06,  2.9933e-06,  7.5363e-06,  3.9712e-06,  1.0066e-05,
+         4.9584e-06, -3.5286e-05, -2.0955e-07, -2.5854e-06,  2.0973e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 192, time 214.45, cls_loss 0.0009 cls_loss_mapping 0.0027 cls_loss_causal 0.5225 re_mapping 0.0050 re_causal 0.0152 /// teacc 99.15 lr 0.00010000
+Epoch 194, weight, value: tensor([[-0.0925,  0.0450,  0.0394,  ..., -0.0725, -0.0962,  0.0622],
+        [-0.0652, -0.0247, -0.0854,  ...,  0.1571, -0.0711, -0.0646],
+        [-0.0200, -0.0148,  0.1777,  ..., -0.1045, -0.1215, -0.1035],
+        ...,
+        [-0.0890, -0.0500,  0.0084,  ..., -0.0262,  0.1019, -0.0423],
+        [-0.0858, -0.0756, -0.0639,  ..., -0.1322, -0.0050, -0.1445],
+        [-0.1580, -0.0437, -0.1203,  ..., -0.1300, -0.0113,  0.0982]],
+       device='cuda:0'), grad: tensor([[-8.4285e-07, -4.6007e-07, -2.9832e-05,  ..., -7.5437e-08,
+          6.4261e-08, -1.2383e-05],
+        [ 1.7975e-07,  8.3819e-09,  6.8452e-07,  ...,  1.0151e-07,
+          1.0431e-07,  6.0443e-07],
+        [ 1.0431e-07,  3.4738e-07,  1.9372e-05,  ...,  1.3784e-07,
+          4.6566e-08,  6.8694e-06],
+        ...,
+        [ 3.8184e-08,  1.3039e-08,  1.9278e-07,  ...,  8.2888e-08,
+         -6.7055e-08,  1.3784e-07],
+        [ 1.0245e-08,  7.4506e-09,  2.5611e-07,  ...,  4.0606e-07,
+          1.6764e-07,  1.0151e-07],
+        [ 2.5891e-07,  3.9116e-08,  6.2920e-06,  ...,  1.3504e-07,
+          5.7742e-08,  3.2522e-06]], device='cuda:0')
+Epoch 194, bias, value: tensor([-0.0370, -0.0276,  0.0094,  0.0306, -0.0242,  0.0027, -0.0087,  0.0137,
+         0.0160, -0.0012], device='cuda:0'), grad: tensor([-5.0068e-05,  2.8834e-06,  2.9534e-05,  1.8794e-06,  2.3022e-06,
+         4.1127e-06, -4.9472e-06,  7.7765e-07,  1.7630e-06,  1.1772e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 193, time 214.64, cls_loss 0.0010 cls_loss_mapping 0.0023 cls_loss_causal 0.5137 re_mapping 0.0050 re_causal 0.0155 /// teacc 99.07 lr 0.00010000
+Epoch 195, weight, value: tensor([[-0.0927,  0.0450,  0.0403,  ..., -0.0725, -0.0973,  0.0627],
+        [-0.0658, -0.0252, -0.0856,  ...,  0.1577, -0.0712, -0.0645],
+        [-0.0205, -0.0146,  0.1779,  ..., -0.1046, -0.1216, -0.1041],
+        ...,
+        [-0.0906, -0.0498,  0.0086,  ..., -0.0270,  0.1024, -0.0423],
+        [-0.0859, -0.0761, -0.0644,  ..., -0.1324, -0.0051, -0.1427],
+        [-0.1593, -0.0437, -0.1217,  ..., -0.1312, -0.0122,  0.0976]],
+       device='cuda:0'), grad: tensor([[ 1.4901e-08,  0.0000e+00, -1.8813e-07,  ...,  2.9802e-08,
+          1.3970e-08, -2.4773e-07],
+        [ 8.2888e-08,  0.0000e+00,  1.0245e-07,  ..., -9.3132e-09,
+          1.0338e-07,  5.4948e-08],
+        [ 3.6322e-08,  0.0000e+00, -1.8813e-07,  ...,  2.5146e-08,
+          4.3772e-08,  2.9802e-08],
+        ...,
+        [ 8.4750e-08,  9.3132e-10, -3.0175e-07,  ...,  1.2107e-08,
+         -4.7591e-07,  3.8370e-07],
+        [ 1.6764e-08,  0.0000e+00,  4.2841e-08,  ...,  3.6322e-08,
+         -1.7229e-07,  6.6124e-08],
+        [ 5.6811e-08, -1.8626e-09,  2.6636e-07,  ...,  4.6566e-09,
+          2.4680e-07, -6.9849e-07]], device='cuda:0')
+Epoch 195, bias, value: tensor([-0.0366, -0.0271,  0.0094,  0.0303, -0.0236,  0.0027, -0.0087,  0.0132,
+         0.0172, -0.0025], device='cuda:0'), grad: tensor([-3.4831e-07,  1.0123e-06,  1.1213e-06,  6.6400e-05,  7.7300e-08,
+         1.4156e-06, -1.2200e-07,  5.6624e-07, -6.9499e-05, -5.7742e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 194, time 214.30, cls_loss 0.0010 cls_loss_mapping 0.0025 cls_loss_causal 0.4945 re_mapping 0.0048 re_causal 0.0146 /// teacc 99.02 lr 0.00010000
+Epoch 196, weight, value: tensor([[-0.0931,  0.0459,  0.0408,  ..., -0.0725, -0.1000,  0.0629],
+        [-0.0663, -0.0257, -0.0859,  ...,  0.1579, -0.0713, -0.0652],
+        [-0.0206, -0.0144,  0.1781,  ..., -0.1045, -0.1218, -0.1062],
+        ...,
+        [-0.0911, -0.0498,  0.0087,  ..., -0.0273,  0.1027, -0.0426],
+        [-0.0862, -0.0763, -0.0666,  ..., -0.1328, -0.0058, -0.1443],
+        [-0.1600, -0.0447, -0.1230,  ..., -0.1319, -0.0131,  0.0977]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00, -2.4121e-07,  ...,  1.4901e-08,
+          9.3132e-09,  2.0489e-07],
+        [ 1.2107e-08,  0.0000e+00,  6.9849e-08,  ..., -1.5460e-07,
+          8.8476e-08,  1.6671e-07],
+        [ 2.7940e-09,  0.0000e+00,  1.9465e-07,  ...,  3.4459e-08,
+          7.9162e-08,  4.2655e-07],
+        ...,
+        [ 4.6566e-09,  0.0000e+00,  7.2923e-07,  ...,  3.3528e-08,
+          6.6496e-07,  4.9826e-07],
+        [ 1.8626e-09,  0.0000e+00,  2.2724e-07,  ...,  4.2841e-08,
+          2.3283e-07,  8.5216e-07],
+        [ 2.5146e-08,  0.0000e+00,  6.9849e-08,  ...,  5.5879e-09,
+          6.5193e-08, -1.3784e-07]], device='cuda:0')
+Epoch 196, bias, value: tensor([-0.0364, -0.0271,  0.0095,  0.0297, -0.0234,  0.0034, -0.0087,  0.0132,
+         0.0169, -0.0030], device='cuda:0'), grad: tensor([ 1.3849e-06,  1.0571e-06,  2.9840e-06, -3.2723e-05,  2.5369e-06,
+         1.8161e-06,  3.8221e-06,  1.2174e-05,  6.6534e-06,  2.8219e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 195, time 214.37, cls_loss 0.0022 cls_loss_mapping 0.0058 cls_loss_causal 0.5270 re_mapping 0.0050 re_causal 0.0151 /// teacc 99.05 lr 0.00010000
+Epoch 197, weight, value: tensor([[-0.0938,  0.0460,  0.0409,  ..., -0.0731, -0.1021,  0.0629],
+        [-0.0669, -0.0262, -0.0863,  ...,  0.1581, -0.0715, -0.0655],
+        [-0.0212, -0.0143,  0.1785,  ..., -0.1047, -0.1219, -0.1069],
+        ...,
+        [-0.0918, -0.0495,  0.0068,  ..., -0.0274,  0.1000, -0.0435],
+        [-0.0867, -0.0764, -0.0679,  ..., -0.1331, -0.0032, -0.1453],
+        [-0.1604, -0.0447, -0.1233,  ..., -0.1326, -0.0137,  0.0981]],
+       device='cuda:0'), grad: tensor([[-3.0547e-07,  0.0000e+00,  2.1420e-08,  ..., -5.7742e-08,
+          1.6792e-06, -1.5954e-06],
+        [ 8.7544e-08,  0.0000e+00,  1.3104e-06,  ..., -3.1106e-07,
+          5.1372e-06,  3.5390e-08],
+        [ 4.0047e-08,  0.0000e+00, -1.8468e-06,  ...,  1.0151e-07,
+          3.8706e-06, -1.5460e-07],
+        ...,
+        [ 4.9360e-08,  0.0000e+00, -2.9698e-05,  ...,  2.7008e-08,
+         -1.2124e-04,  1.9558e-08],
+        [ 3.1665e-08,  0.0000e+00,  1.7369e-06,  ...,  8.7544e-08,
+          6.8769e-06,  1.8626e-08],
+        [ 7.8883e-07,  0.0000e+00,  1.7434e-05,  ...,  3.2596e-08,
+          6.0678e-05,  3.7346e-07]], device='cuda:0')
+Epoch 197, bias, value: tensor([-0.0366, -0.0273,  0.0095,  0.0325, -0.0229,  0.0053, -0.0090,  0.0103,
+         0.0152, -0.0031], device='cuda:0'), grad: tensor([ 1.8040e-06,  1.5065e-05,  9.1121e-06,  1.0324e-04,  2.8938e-05,
+         3.3081e-06,  4.4610e-07, -3.6407e-04,  1.5348e-05,  1.8680e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 196, time 214.22, cls_loss 0.0009 cls_loss_mapping 0.0030 cls_loss_causal 0.5045 re_mapping 0.0047 re_causal 0.0153 /// teacc 99.05 lr 0.00010000
+Epoch 198, weight, value: tensor([[-0.0947,  0.0462,  0.0411,  ..., -0.0733, -0.1031,  0.0629],
+        [-0.0672, -0.0267, -0.0867,  ...,  0.1582, -0.0716, -0.0660],
+        [-0.0213, -0.0142,  0.1789,  ..., -0.1047, -0.1219, -0.1074],
+        ...,
+        [-0.0919, -0.0496,  0.0067,  ..., -0.0274,  0.1001, -0.0443],
+        [-0.0867, -0.0766, -0.0681,  ..., -0.1339, -0.0032, -0.1462],
+        [-0.1610, -0.0472, -0.1235,  ..., -0.1330, -0.0143,  0.0987]],
+       device='cuda:0'), grad: tensor([[ 4.0978e-08,  0.0000e+00, -5.8673e-08,  ...,  5.7742e-08,
+          9.1270e-08, -3.6042e-07],
+        [ 6.7055e-08,  0.0000e+00,  1.4026e-06,  ...,  6.7987e-08,
+          9.0897e-07,  6.7987e-08],
+        [ 1.3784e-07,  0.0000e+00,  1.8980e-06,  ...,  1.7323e-07,
+          3.6135e-07,  4.4703e-08],
+        ...,
+        [ 1.5832e-08,  0.0000e+00,  3.6322e-07,  ...,  5.5879e-09,
+         -2.4103e-06,  2.5164e-06],
+        [ 5.1223e-08,  0.0000e+00,  7.8510e-07,  ...,  8.1025e-08,
+          1.0617e-07,  6.9849e-08],
+        [ 2.1141e-07,  0.0000e+00,  2.4308e-07,  ...,  2.7940e-09,
+          5.8766e-07, -3.3919e-06]], device='cuda:0')
+Epoch 198, bias, value: tensor([-0.0366, -0.0274,  0.0097,  0.0324, -0.0228,  0.0055, -0.0088,  0.0104,
+         0.0152, -0.0032], device='cuda:0'), grad: tensor([ 2.2538e-07,  6.6645e-06,  8.9705e-06, -1.9267e-05,  3.1814e-06,
+        -6.8266e-07,  3.7067e-07,  4.6939e-06,  2.9355e-06, -7.0892e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 197, time 214.32, cls_loss 0.0008 cls_loss_mapping 0.0025 cls_loss_causal 0.4984 re_mapping 0.0046 re_causal 0.0151 /// teacc 99.00 lr 0.00010000
+Epoch 199, weight, value: tensor([[-0.0951,  0.0467,  0.0414,  ..., -0.0731, -0.1034,  0.0631],
+        [-0.0673, -0.0273, -0.0871,  ...,  0.1583, -0.0717, -0.0664],
+        [-0.0214, -0.0142,  0.1792,  ..., -0.1047, -0.1220, -0.1081],
+        ...,
+        [-0.0917, -0.0496,  0.0067,  ..., -0.0274,  0.1002, -0.0448],
+        [-0.0867, -0.0767, -0.0681,  ..., -0.1341, -0.0032, -0.1465],
+        [-0.1614, -0.0475, -0.1236,  ..., -0.1339, -0.0145,  0.0994]],
+       device='cuda:0'), grad: tensor([[ 7.5437e-08,  1.4529e-07,  8.1025e-07,  ...,  1.4249e-07,
+          8.1770e-07,  1.6671e-07],
+        [ 3.1386e-07,  1.9558e-08,  1.3597e-07,  ..., -1.0664e-06,
+          1.1832e-05,  1.5460e-07],
+        [ 2.7940e-08, -4.1537e-07, -2.5388e-06,  ...,  9.7789e-08,
+          7.8976e-07,  5.9605e-08],
+        ...,
+        [-4.0419e-07,  5.4948e-08,  3.4459e-07,  ...,  5.4948e-08,
+         -1.8626e-05,  1.3625e-06],
+        [ 3.2596e-08,  1.4901e-08,  9.9652e-08,  ...,  1.6298e-07,
+          4.0606e-07,  3.4086e-07],
+        [ 4.8429e-08,  1.6764e-08,  1.2759e-07,  ...,  3.2596e-08,
+          7.2550e-07, -4.0121e-06]], device='cuda:0')
+Epoch 199, bias, value: tensor([-0.0364, -0.0276,  0.0098,  0.0323, -0.0230,  0.0055, -0.0088,  0.0104,
+         0.0152, -0.0030], device='cuda:0'), grad: tensor([ 4.3325e-06,  3.3885e-05, -1.0738e-06,  6.2361e-06,  6.6198e-06,
+         6.2361e-06, -1.0431e-07, -5.2005e-05,  2.3544e-06, -6.4149e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 198, time 214.36, cls_loss 0.0010 cls_loss_mapping 0.0027 cls_loss_causal 0.5103 re_mapping 0.0048 re_causal 0.0148 /// teacc 99.18 lr 0.00010000
+Epoch 200, weight, value: tensor([[-0.0956,  0.0466,  0.0399,  ..., -0.0730, -0.1041,  0.0607],
+        [-0.0691, -0.0270, -0.0880,  ...,  0.1581, -0.0719, -0.0670],
+        [-0.0205, -0.0140,  0.1797,  ..., -0.1042, -0.1220, -0.1086],
+        ...,
+        [-0.0921, -0.0496,  0.0067,  ..., -0.0275,  0.1003, -0.0453],
+        [-0.0868, -0.0775, -0.0681,  ..., -0.1339, -0.0032, -0.1469],
+        [-0.1620, -0.0483, -0.1220,  ..., -0.1345, -0.0149,  0.1021]],
+       device='cuda:0'), grad: tensor([[ 3.4459e-08, -8.1025e-08, -1.7900e-06,  ...,  2.7940e-09,
+          2.7008e-08, -1.6037e-06],
+        [ 1.3225e-07,  5.5879e-09,  1.5730e-06,  ..., -1.0431e-07,
+          8.1286e-06,  4.9360e-08],
+        [ 1.3411e-07,  7.4506e-09,  1.8626e-07,  ...,  9.3132e-09,
+          4.5076e-07,  1.1176e-07],
+        ...,
+        [ 2.8312e-07,  1.8626e-09, -2.6766e-06,  ...,  4.4703e-08,
+         -1.4514e-05,  9.4995e-08],
+        [ 4.8429e-08,  1.8626e-09,  2.9802e-07,  ...,  2.7008e-08,
+          1.3681e-06,  9.0338e-08],
+        [ 6.0815e-07,  4.8429e-08,  1.1642e-06,  ...,  1.2107e-08,
+          9.7603e-07,  6.9756e-07]], device='cuda:0')
+Epoch 200, bias, value: tensor([-0.0382, -0.0280,  0.0103,  0.0323, -0.0229,  0.0054, -0.0088,  0.0104,
+         0.0152, -0.0019], device='cuda:0'), grad: tensor([-3.6359e-06,  3.1680e-05,  2.4382e-06,  1.4342e-05, -1.3309e-06,
+         4.3958e-07,  1.1455e-06, -5.5492e-05,  4.1761e-06,  6.2436e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 199, time 214.30, cls_loss 0.0008 cls_loss_mapping 0.0028 cls_loss_causal 0.5012 re_mapping 0.0048 re_causal 0.0150 /// teacc 99.11 lr 0.00010000
+Epoch 201, weight, value: tensor([[-0.0926,  0.0467,  0.0418,  ..., -0.0731, -0.1048,  0.0606],
+        [-0.0699, -0.0282, -0.0884,  ...,  0.1582, -0.0721, -0.0672],
+        [-0.0207, -0.0134,  0.1799,  ..., -0.1041, -0.1221, -0.1091],
+        ...,
+        [-0.0926, -0.0496,  0.0068,  ..., -0.0276,  0.1005, -0.0457],
+        [-0.0871, -0.0779, -0.0682,  ..., -0.1341, -0.0033, -0.1476],
+        [-0.1625, -0.0485, -0.1221,  ..., -0.1362, -0.0158,  0.1025]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  2.0396e-07,  ...,  1.2107e-08,
+          5.2154e-08,  1.1176e-08],
+        [ 9.3132e-10,  0.0000e+00,  2.6636e-07,  ..., -3.6694e-07,
+          9.1270e-07,  2.8871e-08],
+        [ 1.8626e-09,  0.0000e+00, -2.3562e-06,  ...,  2.2538e-07,
+          8.7358e-07,  7.4506e-09],
+        ...,
+        [ 1.8626e-09,  0.0000e+00,  4.5635e-07,  ...,  5.4017e-08,
+         -6.0461e-06,  1.2629e-06],
+        [ 1.8626e-09,  0.0000e+00,  3.5577e-07,  ...,  4.0978e-08,
+          4.1910e-08,  1.7695e-08],
+        [ 3.7253e-09,  0.0000e+00,  1.8720e-07,  ...,  6.5193e-09,
+          3.5688e-06, -2.4177e-06]], device='cuda:0')
+Epoch 201, bias, value: tensor([-0.0373, -0.0281,  0.0103,  0.0323, -0.0231,  0.0053, -0.0091,  0.0105,
+         0.0152, -0.0020], device='cuda:0'), grad: tensor([ 5.9977e-07,  2.1048e-06, -1.4715e-06,  8.9593e-07,  1.4156e-06,
+         1.4836e-06,  1.4808e-07, -1.1213e-05,  9.5926e-07,  5.0403e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 200, time 214.41, cls_loss 0.0010 cls_loss_mapping 0.0024 cls_loss_causal 0.5247 re_mapping 0.0046 re_causal 0.0146 /// teacc 99.20 lr 0.00010000
+Epoch 202, weight, value: tensor([[-0.0927,  0.0474,  0.0420,  ..., -0.0729, -0.1061,  0.0607],
+        [-0.0702, -0.0300, -0.0886,  ...,  0.1584, -0.0723, -0.0674],
+        [-0.0209, -0.0128,  0.1802,  ..., -0.1043, -0.1221, -0.1096],
+        ...,
+        [-0.0934, -0.0499,  0.0067,  ..., -0.0277,  0.1006, -0.0464],
+        [-0.0874, -0.0784, -0.0683,  ..., -0.1345, -0.0033, -0.1488],
+        [-0.1647, -0.0497, -0.1231,  ..., -0.1371, -0.0165,  0.1028]],
+       device='cuda:0'), grad: tensor([[ 2.0210e-07,  1.6950e-07, -4.5635e-08,  ...,  1.0245e-08,
+          7.4506e-09,  1.7043e-07],
+        [ 2.5146e-08,  1.4901e-08,  5.4017e-08,  ..., -9.6485e-07,
+          9.6858e-08,  3.8184e-08],
+        [ 1.3690e-07,  1.0245e-07,  6.0536e-08,  ...,  3.0734e-08,
+          9.1270e-08,  1.2666e-07],
+        ...,
+        [ 2.8871e-08,  1.5832e-08,  1.0356e-06,  ...,  8.0839e-07,
+          1.1502e-06,  9.2201e-08],
+        [ 3.0734e-08,  2.3283e-08,  1.0338e-07,  ...,  1.5832e-08,
+          1.2293e-07,  1.0151e-07],
+        [ 2.1886e-07,  1.9558e-08,  5.6811e-08,  ...,  1.2107e-08,
+          5.3085e-08, -4.3027e-07]], device='cuda:0')
+Epoch 202, bias, value: tensor([-0.0373, -0.0282,  0.0104,  0.0324, -0.0223,  0.0051, -0.0089,  0.0105,
+         0.0152, -0.0026], device='cuda:0'), grad: tensor([ 1.2927e-06, -1.1800e-06,  1.2368e-06, -1.3590e-05,  2.4308e-07,
+         5.0366e-06,  7.9162e-08,  6.6310e-06,  7.0594e-07, -4.7497e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 201, time 214.43, cls_loss 0.0009 cls_loss_mapping 0.0022 cls_loss_causal 0.4953 re_mapping 0.0045 re_causal 0.0140 /// teacc 99.13 lr 0.00010000
+Epoch 203, weight, value: tensor([[-0.0927,  0.0475,  0.0423,  ..., -0.0724, -0.1072,  0.0608],
+        [-0.0708, -0.0304, -0.0888,  ...,  0.1586, -0.0728, -0.0683],
+        [-0.0211, -0.0125,  0.1804,  ..., -0.1045, -0.1222, -0.1103],
+        ...,
+        [-0.0942, -0.0500,  0.0068,  ..., -0.0279,  0.1008, -0.0464],
+        [-0.0877, -0.0786, -0.0683,  ..., -0.1347, -0.0033, -0.1494],
+        [-0.1651, -0.0497, -0.1234,  ..., -0.1378, -0.0173,  0.1032]],
+       device='cuda:0'), grad: tensor([[ 3.8184e-08, -2.3004e-07, -1.4575e-06,  ...,  1.8813e-07,
+          9.3132e-10, -1.6382e-06],
+        [ 1.0896e-07,  1.3970e-08,  6.0443e-07,  ..., -7.4599e-07,
+          2.1420e-08,  1.8720e-07],
+        [-1.6578e-07,  2.3283e-08, -1.2405e-06,  ...,  2.5891e-07,
+          4.3772e-08,  4.7497e-07],
+        ...,
+        [ 1.8813e-07,  4.6566e-09,  1.1083e-07,  ...,  3.0454e-07,
+         -3.4459e-08,  3.4459e-07],
+        [ 1.6484e-07,  2.2352e-08, -4.3493e-07,  ...,  4.3772e-08,
+         -7.1712e-08,  1.1772e-06],
+        [ 1.1651e-06,  9.0338e-08,  4.7591e-07,  ...,  6.5193e-08,
+          5.5879e-09, -1.1846e-05]], device='cuda:0')
+Epoch 203, bias, value: tensor([-0.0372, -0.0285,  0.0104,  0.0324, -0.0224,  0.0050, -0.0088,  0.0107,
+         0.0152, -0.0025], device='cuda:0'), grad: tensor([-2.6822e-06,  1.2750e-06,  1.2359e-06,  7.2718e-06,  2.9840e-06,
+         2.5332e-05, -3.2410e-07,  2.4550e-06, -3.2969e-06, -3.4243e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 202, time 214.65, cls_loss 0.0014 cls_loss_mapping 0.0033 cls_loss_causal 0.4769 re_mapping 0.0047 re_causal 0.0141 /// teacc 99.09 lr 0.00010000
+Epoch 204, weight, value: tensor([[-0.0930,  0.0477,  0.0425,  ..., -0.0750, -0.1087,  0.0609],
+        [-0.0726, -0.0305, -0.0883,  ...,  0.1605, -0.0732, -0.0648],
+        [-0.0199, -0.0125,  0.1804,  ..., -0.1063, -0.1225, -0.1140],
+        ...,
+        [-0.0956, -0.0500,  0.0069,  ..., -0.0283,  0.1010, -0.0472],
+        [-0.0876, -0.0787, -0.0684,  ..., -0.1319, -0.0033, -0.1512],
+        [-0.1656, -0.0498, -0.1244,  ..., -0.1430, -0.0175,  0.1035]],
+       device='cuda:0'), grad: tensor([[ 4.1910e-08, -2.7940e-09,  3.1013e-07,  ...,  1.8626e-09,
+          1.3970e-08, -1.6764e-08],
+        [ 2.0862e-07,  0.0000e+00,  3.7588e-06,  ..., -2.5146e-08,
+          9.3319e-07,  8.6334e-07],
+        [-4.4797e-07,  9.3132e-10, -1.4110e-06,  ...,  1.8626e-09,
+          3.1572e-07, -8.7544e-08],
+        ...,
+        [ 8.4750e-08,  0.0000e+00, -7.2904e-06,  ...,  1.3039e-08,
+         -1.7639e-06,  8.8662e-07],
+        [ 1.2759e-07,  0.0000e+00,  2.2613e-06,  ...,  3.0734e-08,
+          1.3597e-07,  3.7625e-07],
+        [ 3.2224e-07,  9.3132e-10,  9.4809e-07,  ...,  9.3132e-10,
+          1.4994e-07, -2.5872e-06]], device='cuda:0')
+Epoch 204, bias, value: tensor([-0.0374, -0.0276,  0.0095,  0.0323, -0.0225,  0.0047, -0.0111,  0.0108,
+         0.0160, -0.0026], device='cuda:0'), grad: tensor([ 8.4471e-07,  2.6986e-05,  1.0014e-05,  2.3395e-06,  1.6605e-06,
+        -2.0862e-07,  1.2778e-06, -4.9740e-05,  9.4175e-06, -2.6803e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 203, time 214.27, cls_loss 0.0009 cls_loss_mapping 0.0027 cls_loss_causal 0.5004 re_mapping 0.0047 re_causal 0.0143 /// teacc 99.14 lr 0.00010000
+Epoch 205, weight, value: tensor([[-0.0931,  0.0483,  0.0430,  ..., -0.0745, -0.1094,  0.0612],
+        [-0.0728, -0.0314, -0.0884,  ...,  0.1612, -0.0734, -0.0644],
+        [-0.0200, -0.0124,  0.1808,  ..., -0.1068, -0.1226, -0.1145],
+        ...,
+        [-0.0963, -0.0502,  0.0070,  ..., -0.0286,  0.1012, -0.0475],
+        [-0.0878, -0.0792, -0.0686,  ..., -0.1319, -0.0036, -0.1538],
+        [-0.1660, -0.0499, -0.1250,  ..., -0.1443, -0.0154,  0.1053]],
+       device='cuda:0'), grad: tensor([[ 1.3504e-08, -4.6566e-10,  4.7730e-07,  ...,  3.5390e-08,
+          2.4680e-08, -6.0536e-09],
+        [ 1.1781e-07,  0.0000e+00,  2.6356e-07,  ...,  1.3644e-07,
+          2.0256e-07,  9.3132e-10],
+        [ 7.1712e-08,  0.0000e+00, -3.5129e-06,  ...,  1.4761e-07,
+          1.2061e-07,  4.6566e-10],
+        ...,
+        [ 3.4645e-07,  0.0000e+00, -1.2387e-07,  ...,  1.0198e-07,
+         -7.7672e-07,  3.2596e-09],
+        [ 8.3819e-09,  0.0000e+00,  4.2841e-07,  ...,  4.8429e-07,
+          3.7253e-09,  9.3132e-10],
+        [ 2.7474e-08,  0.0000e+00,  1.3085e-07,  ...,  1.1176e-08,
+          1.2387e-07, -4.1910e-09]], device='cuda:0')
+Epoch 205, bias, value: tensor([-0.0370, -0.0273,  0.0094,  0.0323, -0.0226,  0.0037, -0.0112,  0.0109,
+         0.0156, -0.0011], device='cuda:0'), grad: tensor([ 8.2469e-07,  1.5376e-06, -3.5539e-06,  6.3702e-07, -1.5227e-07,
+         4.6007e-07, -1.2591e-06, -2.8266e-07,  1.3672e-06,  3.9814e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 204, time 214.39, cls_loss 0.0008 cls_loss_mapping 0.0029 cls_loss_causal 0.4953 re_mapping 0.0050 re_causal 0.0153 /// teacc 99.11 lr 0.00010000
+Epoch 206, weight, value: tensor([[-0.0933,  0.0495,  0.0428,  ..., -0.0727, -0.1103,  0.0612],
+        [-0.0725, -0.0348, -0.0884,  ...,  0.1617, -0.0735, -0.0645],
+        [-0.0207, -0.0122,  0.1819,  ..., -0.1074, -0.1228, -0.1147],
+        ...,
+        [-0.0970, -0.0503,  0.0065,  ..., -0.0287,  0.1012, -0.0478],
+        [-0.0882, -0.0796, -0.0688,  ..., -0.1319, -0.0036, -0.1539],
+        [-0.1660, -0.0499, -0.1251,  ..., -0.1447, -0.0154,  0.1055]],
+       device='cuda:0'), grad: tensor([[ 6.0536e-09, -0.0000e+00, -2.2352e-08,  ...,  1.8626e-09,
+          7.9162e-09, -1.2573e-08],
+        [ 3.4459e-08,  0.0000e+00,  1.6717e-07,  ..., -1.8626e-08,
+          1.1362e-07,  2.0489e-08],
+        [ 1.8626e-08,  0.0000e+00, -7.7346e-07,  ...,  5.5879e-09,
+          8.4285e-08,  6.8452e-08],
+        ...,
+        [ 3.5390e-08,  0.0000e+00, -1.2759e-07,  ...,  1.0710e-08,
+         -2.6822e-07,  2.2817e-08],
+        [ 1.7229e-08,  0.0000e+00,  5.7602e-07,  ...,  3.7253e-09,
+          4.1444e-08,  5.9139e-08],
+        [ 5.0291e-07,  0.0000e+00,  5.4017e-08,  ...,  9.3132e-10,
+          8.2422e-08,  1.8161e-08]], device='cuda:0')
+Epoch 206, bias, value: tensor([-0.0368, -0.0272,  0.0099,  0.0324, -0.0228,  0.0037, -0.0112,  0.0106,
+         0.0156, -0.0009], device='cuda:0'), grad: tensor([ 9.1270e-08,  7.9768e-07, -7.7533e-07,  6.5286e-07, -7.3900e-07,
+        -1.1213e-06,  2.9430e-07, -2.5332e-07,  5.1688e-08,  9.9838e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 205, time 214.44, cls_loss 0.0012 cls_loss_mapping 0.0026 cls_loss_causal 0.4940 re_mapping 0.0046 re_causal 0.0138 /// teacc 99.17 lr 0.00010000
+Epoch 207, weight, value: tensor([[-0.0935,  0.0498,  0.0427,  ..., -0.0734, -0.1114,  0.0595],
+        [-0.0740, -0.0350, -0.0887,  ...,  0.1623, -0.0735, -0.0645],
+        [-0.0222, -0.0119,  0.1821,  ..., -0.1080, -0.1230, -0.1149],
+        ...,
+        [-0.0963, -0.0503,  0.0065,  ..., -0.0294,  0.1014, -0.0479],
+        [-0.0889, -0.0797, -0.0690,  ..., -0.1320, -0.0036, -0.1541],
+        [-0.1695, -0.0501, -0.1257,  ..., -0.1452, -0.0171,  0.1068]],
+       device='cuda:0'), grad: tensor([[ 1.5367e-08, -4.6566e-10, -1.2387e-06,  ...,  6.3796e-08,
+          1.1642e-08, -1.5255e-06],
+        [ 8.8010e-08,  0.0000e+00,  1.6904e-06,  ...,  9.6764e-07,
+          2.8480e-06,  5.2154e-08],
+        [ 4.8429e-08,  0.0000e+00,  3.6042e-07,  ...,  2.3097e-07,
+          6.8964e-07,  3.3062e-08],
+        ...,
+        [ 2.6543e-07,  0.0000e+00, -2.6971e-06,  ..., -1.4212e-06,
+         -4.6194e-06,  6.3004e-07],
+        [ 3.7719e-08,  0.0000e+00,  7.4040e-08,  ...,  1.5367e-07,
+          1.1176e-07,  7.1246e-08],
+        [ 4.6566e-07,  0.0000e+00,  1.2442e-06,  ...,  9.6858e-08,
+          2.6077e-07,  5.7369e-07]], device='cuda:0')
+Epoch 207, bias, value: tensor([-0.0386, -0.0270,  0.0096,  0.0323, -0.0203,  0.0036, -0.0106,  0.0106,
+         0.0155, -0.0018], device='cuda:0'), grad: tensor([-3.5446e-06,  7.8455e-06,  1.9614e-06,  6.8685e-07,  1.6950e-07,
+         3.4925e-08, -8.9500e-07, -7.7114e-06,  7.4925e-07,  6.7241e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 206, time 214.35, cls_loss 0.0010 cls_loss_mapping 0.0024 cls_loss_causal 0.4958 re_mapping 0.0044 re_causal 0.0138 /// teacc 99.16 lr 0.00010000
+Epoch 208, weight, value: tensor([[-0.0936,  0.0529,  0.0437,  ..., -0.0738, -0.1117,  0.0599],
+        [-0.0744, -0.0354, -0.0892,  ...,  0.1625, -0.0739, -0.0647],
+        [-0.0224, -0.0115,  0.1830,  ..., -0.1082, -0.1227, -0.1151],
+        ...,
+        [-0.0965, -0.0504,  0.0064,  ..., -0.0297,  0.1015, -0.0483],
+        [-0.0874, -0.0812, -0.0693,  ..., -0.1321, -0.0036, -0.1542],
+        [-0.1699, -0.0516, -0.1267,  ..., -0.1457, -0.0172,  0.1068]],
+       device='cuda:0'), grad: tensor([[ 9.7416e-07,  0.0000e+00,  5.9512e-07,  ...,  9.7789e-09,
+          1.8440e-07,  8.8476e-09],
+        [ 3.8045e-07,  0.0000e+00,  1.3225e-07,  ..., -9.1270e-08,
+          8.1770e-07,  1.3970e-09],
+        [ 3.1888e-06,  0.0000e+00,  8.3260e-07,  ...,  3.8184e-08,
+          6.8406e-07,  6.5193e-09],
+        ...,
+        [ 7.4552e-07,  0.0000e+00, -8.1444e-07,  ...,  2.6543e-08,
+         -1.2934e-05,  4.6566e-09],
+        [ 1.9232e-07,  0.0000e+00, -7.4506e-07,  ...,  3.2596e-08,
+         -5.4948e-08,  4.1910e-09],
+        [ 4.2953e-06,  0.0000e+00,  3.6135e-07,  ...,  4.1910e-09,
+          1.7146e-06, -1.1642e-08]], device='cuda:0')
+Epoch 208, bias, value: tensor([-0.0381, -0.0272,  0.0100,  0.0323, -0.0207,  0.0035, -0.0103,  0.0106,
+         0.0155, -0.0020], device='cuda:0'), grad: tensor([ 4.9658e-06,  2.9262e-06,  9.5516e-06, -3.6173e-06,  3.2354e-06,
+         2.1290e-06,  2.0191e-06, -3.1441e-05, -2.2873e-06,  1.2487e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 207, time 214.83, cls_loss 0.0010 cls_loss_mapping 0.0022 cls_loss_causal 0.5285 re_mapping 0.0045 re_causal 0.0138 /// teacc 99.14 lr 0.00010000
+Epoch 209, weight, value: tensor([[-0.0937,  0.0533,  0.0442,  ..., -0.0738, -0.1131,  0.0601],
+        [-0.0749, -0.0350, -0.0894,  ...,  0.1629, -0.0741, -0.0647],
+        [-0.0227, -0.0113,  0.1832,  ..., -0.1083, -0.1230, -0.1152],
+        ...,
+        [-0.0984, -0.0508,  0.0066,  ..., -0.0301,  0.1017, -0.0487],
+        [-0.0877, -0.0818, -0.0694,  ..., -0.1322, -0.0037, -0.1543],
+        [-0.1701, -0.0519, -0.1273,  ..., -0.1462, -0.0176,  0.1069]],
+       device='cuda:0'), grad: tensor([[ 5.1688e-08,  8.3819e-09, -5.4948e-08,  ...,  1.4668e-07,
+          0.0000e+00, -5.3551e-08],
+        [ 6.8452e-08,  1.0710e-08,  1.3458e-07,  ..., -5.9530e-06,
+          0.0000e+00,  1.9046e-07],
+        [ 5.0757e-08, -8.2888e-08, -1.4752e-06,  ...,  4.4033e-06,
+         -4.6566e-10,  1.3411e-07],
+        ...,
+        [ 3.2131e-08,  3.7253e-09,  5.6997e-07,  ...,  3.2084e-07,
+          4.6566e-10,  3.5390e-08],
+        [ 9.7323e-08,  1.3039e-08,  1.3178e-07,  ...,  4.2468e-07,
+          4.6566e-10,  1.5646e-07],
+        [ 4.6100e-08,  4.6566e-10,  9.1735e-08,  ...,  5.3085e-08,
+          4.6566e-10, -1.6680e-06]], device='cuda:0')
+Epoch 209, bias, value: tensor([-0.0379, -0.0273,  0.0098,  0.0323, -0.0206,  0.0037, -0.0103,  0.0107,
+         0.0155, -0.0022], device='cuda:0'), grad: tensor([ 6.0583e-07, -1.2740e-05,  1.0014e-05, -2.1532e-06,  2.5593e-06,
+         4.9621e-06,  4.1258e-07,  1.7695e-06,  2.7195e-07, -5.7071e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 208----------------------------------------------------
+epoch 208, time 231.03, cls_loss 0.0009 cls_loss_mapping 0.0024 cls_loss_causal 0.4980 re_mapping 0.0046 re_causal 0.0142 /// teacc 99.21 lr 0.00010000
+Epoch 210, weight, value: tensor([[-0.0937,  0.0532,  0.0445,  ..., -0.0738, -0.1137,  0.0603],
+        [-0.0750, -0.0356, -0.0899,  ...,  0.1633, -0.0742, -0.0650],
+        [-0.0223, -0.0108,  0.1847,  ..., -0.1084, -0.1230, -0.1153],
+        ...,
+        [-0.0995, -0.0508,  0.0066,  ..., -0.0306,  0.1018, -0.0492],
+        [-0.0879, -0.0822, -0.0704,  ..., -0.1322, -0.0037, -0.1544],
+        [-0.1704, -0.0521, -0.1276,  ..., -0.1464, -0.0180,  0.1070]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  0.0000e+00, -8.9779e-07,  ...,  3.5856e-08,
+          7.9162e-09, -8.2562e-07],
+        [ 1.0245e-08,  0.0000e+00,  3.2876e-07,  ..., -3.0128e-07,
+          1.7881e-07,  5.0524e-07],
+        [ 9.7789e-09,  0.0000e+00, -1.6019e-06,  ...,  6.9384e-08,
+          1.3970e-09,  5.6345e-08],
+        ...,
+        [ 9.7789e-09,  0.0000e+00,  8.0699e-07,  ...,  7.8231e-08,
+          6.5193e-09,  4.6240e-07],
+        [ 4.6566e-09,  0.0000e+00,  3.2922e-07,  ...,  1.1222e-07,
+          8.5216e-08,  2.6496e-07],
+        [-5.3551e-08,  0.0000e+00,  1.8813e-07,  ...,  3.0268e-08,
+          2.5611e-08, -2.1886e-07]], device='cuda:0')
+Epoch 210, bias, value: tensor([-0.0376, -0.0274,  0.0111,  0.0322, -0.0206,  0.0036, -0.0102,  0.0107,
+         0.0152, -0.0023], device='cuda:0'), grad: tensor([-1.8757e-06,  8.2143e-07, -1.9819e-06, -8.6706e-07,  1.2489e-06,
+        -1.8198e-06,  2.2221e-06,  1.9167e-06,  4.0280e-07, -8.3353e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 209, time 214.77, cls_loss 0.0008 cls_loss_mapping 0.0026 cls_loss_causal 0.5246 re_mapping 0.0043 re_causal 0.0144 /// teacc 99.18 lr 0.00010000
+Epoch 211, weight, value: tensor([[-0.0936,  0.0554,  0.0459,  ..., -0.0731, -0.1145,  0.0608],
+        [-0.0752, -0.0358, -0.0901,  ...,  0.1634, -0.0744, -0.0651],
+        [-0.0225, -0.0114,  0.1847,  ..., -0.1086, -0.1233, -0.1154],
+        ...,
+        [-0.0995, -0.0508,  0.0066,  ..., -0.0308,  0.1018, -0.0495],
+        [-0.0879, -0.0825, -0.0705,  ..., -0.1323, -0.0037, -0.1545],
+        [-0.1705, -0.0530, -0.1282,  ..., -0.1467, -0.0182,  0.1071]],
+       device='cuda:0'), grad: tensor([[ 1.6298e-08,  0.0000e+00, -5.5172e-06,  ...,  1.8626e-08,
+          1.0245e-08, -7.4171e-06],
+        [ 2.5611e-08,  0.0000e+00,  2.3842e-07,  ...,  1.3039e-08,
+          7.8650e-07,  6.9384e-08],
+        [ 1.9372e-07,  0.0000e+00,  2.1514e-07,  ...,  3.4925e-08,
+          5.4203e-07,  4.1910e-08],
+        ...,
+        [ 1.0710e-08,  0.0000e+00, -7.5065e-07,  ...,  4.1910e-09,
+         -2.3469e-06,  3.1432e-07],
+        [ 6.6124e-07,  0.0000e+00,  1.0896e-07,  ...,  4.6566e-08,
+          1.8300e-07,  9.4529e-08],
+        [ 7.4506e-09,  0.0000e+00,  2.5798e-06,  ...,  2.3283e-09,
+          4.8382e-07,  2.4680e-06]], device='cuda:0')
+Epoch 211, bias, value: tensor([-0.0369, -0.0274,  0.0109,  0.0324, -0.0207,  0.0036, -0.0103,  0.0106,
+         0.0152, -0.0024], device='cuda:0'), grad: tensor([-1.3307e-05,  3.8296e-06,  6.4932e-06, -2.1577e-05,  1.9651e-06,
+         1.1690e-05, -1.4948e-07, -8.5384e-06,  1.3597e-05,  5.9642e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 210, time 214.26, cls_loss 0.0010 cls_loss_mapping 0.0028 cls_loss_causal 0.5213 re_mapping 0.0046 re_causal 0.0148 /// teacc 99.09 lr 0.00010000
+Epoch 212, weight, value: tensor([[-0.0937,  0.0583,  0.0469,  ..., -0.0740, -0.1165,  0.0609],
+        [-0.0764, -0.0362, -0.0911,  ...,  0.1633, -0.0746, -0.0652],
+        [-0.0218, -0.0113,  0.1848,  ..., -0.1083, -0.1239, -0.1157],
+        ...,
+        [-0.0997, -0.0509,  0.0074,  ..., -0.0309,  0.1022, -0.0491],
+        [-0.0883, -0.0845, -0.0706,  ..., -0.1323, -0.0037, -0.1549],
+        [-0.1697, -0.0555, -0.1302,  ..., -0.1477, -0.0185,  0.1081]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10, -1.7695e-07, -4.2468e-07,  ...,  9.7789e-09,
+          8.8476e-09, -3.0780e-07],
+        [ 8.8941e-08,  6.0536e-09,  2.4308e-06,  ..., -4.9872e-07,
+          4.1118e-07,  1.6298e-08],
+        [ 1.3970e-09,  1.3039e-08, -7.8306e-06,  ...,  9.5461e-08,
+         -1.1269e-06,  2.3749e-08],
+        ...,
+        [ 3.4925e-08,  2.2352e-08,  3.3397e-06,  ...,  2.7940e-07,
+          3.9255e-07,  6.9849e-08],
+        [ 1.3039e-08,  2.9337e-08,  2.4121e-07,  ...,  5.2154e-08,
+          2.7008e-08,  5.9605e-08],
+        [ 1.2899e-07,  6.2399e-08,  2.7148e-07,  ...,  1.3970e-08,
+          4.7963e-08,  8.5682e-08]], device='cuda:0')
+Epoch 212, bias, value: tensor([-0.0366, -0.0278,  0.0108,  0.0325, -0.0216,  0.0034, -0.0102,  0.0110,
+         0.0151, -0.0023], device='cuda:0'), grad: tensor([-1.2023e-06,  1.7527e-06, -8.2701e-06,  1.5646e-06, -1.2154e-07,
+         5.3272e-07,  2.6682e-07,  4.3288e-06,  3.6508e-07,  7.7207e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 211, time 214.32, cls_loss 0.0010 cls_loss_mapping 0.0031 cls_loss_causal 0.5126 re_mapping 0.0048 re_causal 0.0147 /// teacc 99.20 lr 0.00010000
+Epoch 213, weight, value: tensor([[-0.0938,  0.0583,  0.0478,  ..., -0.0762, -0.1174,  0.0609],
+        [-0.0768, -0.0377, -0.0915,  ...,  0.1638, -0.0749, -0.0676],
+        [-0.0220, -0.0101,  0.1858,  ..., -0.1085, -0.1242, -0.1157],
+        ...,
+        [-0.1000, -0.0510,  0.0071,  ..., -0.0314,  0.1023, -0.0507],
+        [-0.0884, -0.0847, -0.0706,  ..., -0.1324, -0.0038, -0.1556],
+        [-0.1699, -0.0555, -0.1308,  ..., -0.1481, -0.0184,  0.1091]],
+       device='cuda:0'), grad: tensor([[ 1.6298e-08,  2.3283e-09,  1.8813e-07,  ...,  6.9849e-09,
+          3.0082e-07, -6.8918e-08],
+        [ 1.2061e-07,  1.2573e-08,  1.3243e-06,  ..., -1.1548e-06,
+          1.5646e-06,  4.7963e-08],
+        [ 2.5611e-08, -5.4482e-08, -2.2668e-06,  ...,  9.3179e-07,
+          5.4901e-07,  1.2107e-08],
+        ...,
+        [-2.6869e-07,  6.9849e-09, -1.8012e-06,  ...,  0.0000e+00,
+         -4.1015e-06,  6.6496e-07],
+        [ 1.0245e-08,  1.1642e-08,  6.4727e-07,  ...,  1.4435e-08,
+          1.8300e-07,  2.8871e-08],
+        [ 2.4214e-08,  1.8626e-09,  3.3900e-07,  ...,  3.7253e-09,
+          2.5844e-07, -1.0198e-06]], device='cuda:0')
+Epoch 213, bias, value: tensor([-0.0365, -0.0283,  0.0113,  0.0323, -0.0207,  0.0036, -0.0108,  0.0108,
+         0.0151, -0.0017], device='cuda:0'), grad: tensor([ 1.3132e-06,  4.8466e-06, -1.1623e-06,  1.9949e-06,  1.7183e-06,
+         1.2452e-06,  4.3493e-07, -1.2614e-05,  2.4214e-06, -2.1886e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 212, time 214.45, cls_loss 0.0009 cls_loss_mapping 0.0025 cls_loss_causal 0.4916 re_mapping 0.0046 re_causal 0.0139 /// teacc 99.15 lr 0.00010000
+Epoch 214, weight, value: tensor([[-0.0938,  0.0583,  0.0482,  ..., -0.0764, -0.1180,  0.0610],
+        [-0.0769, -0.0378, -0.0919,  ...,  0.1642, -0.0753, -0.0678],
+        [-0.0221, -0.0099,  0.1864,  ..., -0.1086, -0.1243, -0.1158],
+        ...,
+        [-0.1005, -0.0511,  0.0071,  ..., -0.0316,  0.1025, -0.0519],
+        [-0.0887, -0.0848, -0.0708,  ..., -0.1325, -0.0038, -0.1557],
+        [-0.1706, -0.0555, -0.1315,  ..., -0.1486, -0.0186,  0.1094]],
+       device='cuda:0'), grad: tensor([[ 3.9581e-08,  0.0000e+00, -8.7619e-06,  ...,  7.4506e-09,
+          3.6787e-08, -7.4320e-06],
+        [ 2.2445e-07,  0.0000e+00,  1.4948e-07,  ..., -8.4983e-07,
+          4.3772e-07,  1.6810e-07],
+        [ 9.8720e-08,  0.0000e+00,  2.5649e-06,  ...,  6.7055e-08,
+          2.7940e-08,  2.5034e-06],
+        ...,
+        [ 2.6543e-07,  0.0000e+00,  1.9465e-07,  ...,  4.4331e-07,
+         -4.0559e-07,  8.5216e-08],
+        [ 1.0245e-07,  0.0000e+00,  1.2778e-06,  ...,  3.9116e-08,
+          1.2480e-07,  1.1539e-06],
+        [ 7.6294e-06,  0.0000e+00,  1.5832e-06,  ...,  1.2107e-08,
+          4.4936e-07,  1.1288e-06]], device='cuda:0')
+Epoch 214, bias, value: tensor([-0.0364, -0.0284,  0.0116,  0.0323, -0.0205,  0.0035, -0.0109,  0.0108,
+         0.0151, -0.0018], device='cuda:0'), grad: tensor([-2.0877e-05,  6.7661e-07,  7.0110e-06,  8.1733e-06, -1.2778e-05,
+        -5.6103e-06,  5.6997e-06,  3.4971e-07,  3.2019e-06,  1.4104e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 213, time 215.01, cls_loss 0.0008 cls_loss_mapping 0.0024 cls_loss_causal 0.4989 re_mapping 0.0047 re_causal 0.0145 /// teacc 99.16 lr 0.00010000
+Epoch 215, weight, value: tensor([[-0.0940,  0.0583,  0.0489,  ..., -0.0770, -0.1193,  0.0612],
+        [-0.0773, -0.0388, -0.0924,  ...,  0.1643, -0.0756, -0.0678],
+        [-0.0227, -0.0104,  0.1866,  ..., -0.1087, -0.1246, -0.1161],
+        ...,
+        [-0.1017, -0.0513,  0.0072,  ..., -0.0317,  0.1027, -0.0527],
+        [-0.0892, -0.0854, -0.0710,  ..., -0.1326, -0.0038, -0.1560],
+        [-0.1711, -0.0559, -0.1320,  ..., -0.1490, -0.0187,  0.1095]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  0.0000e+00,  3.2596e-09,  ...,  2.2817e-08,
+          1.4435e-08,  3.7253e-09],
+        [ 3.7719e-08,  0.0000e+00,  1.7509e-07,  ..., -4.5262e-07,
+          2.5658e-07, -5.6345e-08],
+        [ 3.7253e-08,  0.0000e+00,  1.7369e-07,  ...,  3.1199e-08,
+          2.5146e-07,  1.0245e-08],
+        ...,
+        [-1.0198e-07,  0.0000e+00, -1.3653e-06,  ...,  6.8918e-08,
+         -2.0210e-06,  2.1886e-08],
+        [ 5.6811e-08,  0.0000e+00,  4.5961e-07,  ...,  1.0757e-07,
+          6.9756e-07,  4.5635e-08],
+        [ 2.0070e-07,  0.0000e+00,  9.0804e-08,  ...,  1.9558e-08,
+          1.2806e-07, -4.0978e-08]], device='cuda:0')
+Epoch 215, bias, value: tensor([-0.0363, -0.0287,  0.0113,  0.0323, -0.0202,  0.0044, -0.0116,  0.0110,
+         0.0150, -0.0019], device='cuda:0'), grad: tensor([ 1.1828e-07, -2.0256e-07,  6.6450e-07, -6.5193e-07,  5.1735e-07,
+         9.3272e-07,  3.3062e-07, -3.7961e-06,  1.3774e-06,  7.0408e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 214, time 214.59, cls_loss 0.0009 cls_loss_mapping 0.0019 cls_loss_causal 0.5255 re_mapping 0.0046 re_causal 0.0146 /// teacc 99.17 lr 0.00010000
+Epoch 216, weight, value: tensor([[-0.0939,  0.0584,  0.0497,  ..., -0.0766, -0.1195,  0.0613],
+        [-0.0780, -0.0399, -0.0936,  ...,  0.1643, -0.0761, -0.0679],
+        [-0.0229, -0.0097,  0.1872,  ..., -0.1085, -0.1248, -0.1162],
+        ...,
+        [-0.1023, -0.0519,  0.0073,  ..., -0.0318,  0.1030, -0.0534],
+        [-0.0893, -0.0857, -0.0711,  ..., -0.1326, -0.0038, -0.1563],
+        [-0.1712, -0.0545, -0.1325,  ..., -0.1498, -0.0192,  0.1100]],
+       device='cuda:0'), grad: tensor([[ 3.9116e-08,  0.0000e+00, -7.1246e-08,  ...,  5.0757e-08,
+          5.8673e-08,  5.3551e-08],
+        [ 1.0943e-07,  0.0000e+00, -1.1185e-06,  ..., -6.6422e-06,
+          8.3819e-09,  1.2107e-08],
+        [ 9.8255e-08,  0.0000e+00,  6.5006e-07,  ...,  3.6713e-06,
+          5.1223e-09,  1.6764e-08],
+        ...,
+        [ 4.6846e-07,  0.0000e+00,  6.8778e-07,  ...,  1.8291e-06,
+          3.6694e-07,  1.0161e-06],
+        [ 8.3819e-09,  0.0000e+00,  5.1688e-08,  ...,  7.2643e-08,
+          7.0781e-08,  8.6147e-08],
+        [ 5.6028e-06,  0.0000e+00, -5.5041e-07,  ...,  2.4680e-08,
+         -5.5926e-07, -1.0654e-06]], device='cuda:0')
+Epoch 216, bias, value: tensor([-0.0360, -0.0292,  0.0116,  0.0322, -0.0204,  0.0042, -0.0115,  0.0112,
+         0.0150, -0.0017], device='cuda:0'), grad: tensor([ 1.8906e-07, -9.8124e-06,  5.6662e-06,  1.2433e-06, -8.4639e-06,
+         1.1660e-06, -1.9651e-07,  5.0217e-06,  2.5379e-07,  4.9174e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 215, time 214.37, cls_loss 0.0009 cls_loss_mapping 0.0023 cls_loss_causal 0.4931 re_mapping 0.0045 re_causal 0.0136 /// teacc 99.18 lr 0.00010000
+Epoch 217, weight, value: tensor([[-0.0945,  0.0584,  0.0498,  ..., -0.0782, -0.1208,  0.0613],
+        [-0.0782, -0.0399, -0.0939,  ...,  0.1646, -0.0765, -0.0680],
+        [-0.0233, -0.0092,  0.1864,  ..., -0.1086, -0.1270, -0.1163],
+        ...,
+        [-0.1029, -0.0520,  0.0084,  ..., -0.0320,  0.1037, -0.0538],
+        [-0.0886, -0.0858, -0.0713,  ..., -0.1327, -0.0038, -0.1564],
+        [-0.1719, -0.0545, -0.1327,  ..., -0.1502, -0.0199,  0.1101]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-08, -2.7940e-09, -2.4494e-07,  ...,  3.4925e-08,
+          9.3132e-10, -2.4075e-07],
+        [ 9.4995e-08,  4.6566e-10,  6.6496e-07,  ..., -4.2841e-08,
+          2.3283e-09,  7.4506e-09],
+        [-1.2945e-07,  2.3283e-09, -2.2594e-06,  ..., -5.2620e-08,
+          5.5879e-09,  1.4435e-08],
+        ...,
+        [ 1.7229e-08,  4.6566e-10,  6.5239e-07,  ...,  2.1886e-08,
+          2.6077e-08,  2.1886e-08],
+        [ 1.6764e-08,  9.3132e-10,  6.9197e-07,  ...,  4.9826e-08,
+          2.3283e-09,  4.2375e-08],
+        [ 8.2888e-08,  2.3283e-09,  1.4715e-07,  ...,  4.1910e-09,
+          1.3970e-09,  7.9628e-08]], device='cuda:0')
+Epoch 217, bias, value: tensor([-0.0363, -0.0293,  0.0108,  0.0321, -0.0201,  0.0044, -0.0115,  0.0117,
+         0.0151, -0.0019], device='cuda:0'), grad: tensor([-2.4261e-07,  1.7518e-06, -5.8450e-06, -1.3523e-06,  1.2480e-07,
+         5.2899e-07,  1.6298e-08,  2.6878e-06,  2.0303e-06,  3.0128e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 216----------------------------------------------------
+epoch 216, time 230.96, cls_loss 0.0009 cls_loss_mapping 0.0025 cls_loss_causal 0.5178 re_mapping 0.0043 re_causal 0.0136 /// teacc 99.24 lr 0.00010000
+Epoch 218, weight, value: tensor([[-0.0946,  0.0588,  0.0506,  ..., -0.0784, -0.1212,  0.0616],
+        [-0.0785, -0.0411, -0.0941,  ...,  0.1647, -0.0767, -0.0680],
+        [-0.0235, -0.0058,  0.1871,  ..., -0.1087, -0.1270, -0.1164],
+        ...,
+        [-0.1033, -0.0538,  0.0083,  ..., -0.0321,  0.1038, -0.0543],
+        [-0.0890, -0.0891, -0.0716,  ..., -0.1327, -0.0039, -0.1566],
+        [-0.1723, -0.0546, -0.1331,  ..., -0.1505, -0.0201,  0.1102]],
+       device='cuda:0'), grad: tensor([[ 9.6392e-08,  8.0559e-08, -2.4550e-06,  ...,  1.5367e-08,
+          1.3504e-08, -3.0175e-06],
+        [ 6.2399e-08,  5.1223e-08,  4.9686e-07,  ..., -1.5553e-07,
+          6.9849e-08,  1.0664e-07],
+        [-2.2817e-06, -1.9204e-06, -7.4729e-06,  ...,  2.7940e-08,
+          5.1223e-08,  3.1665e-07],
+        ...,
+        [ 2.4214e-07,  2.0303e-07,  9.9652e-07,  ...,  1.3225e-07,
+         -1.4435e-07,  2.1374e-07],
+        [ 1.3690e-07,  1.1455e-07,  9.6764e-07,  ...,  1.3504e-08,
+          6.7055e-08,  2.2724e-07],
+        [ 8.3819e-09,  5.1223e-09,  9.9186e-07,  ...,  1.8626e-09,
+          4.0513e-08,  6.0489e-07]], device='cuda:0')
+Epoch 218, bias, value: tensor([-0.0360, -0.0294,  0.0112,  0.0320, -0.0200,  0.0045, -0.0115,  0.0117,
+         0.0150, -0.0020], device='cuda:0'), grad: tensor([-8.0764e-06,  1.0151e-06, -1.0565e-05,  5.4948e-07,  5.3421e-06,
+         2.8256e-06,  3.1311e-06,  1.8002e-06,  1.4566e-06,  2.5071e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 217, time 214.45, cls_loss 0.0008 cls_loss_mapping 0.0030 cls_loss_causal 0.4959 re_mapping 0.0044 re_causal 0.0136 /// teacc 99.14 lr 0.00010000
+Epoch 219, weight, value: tensor([[-0.0948,  0.0588,  0.0511,  ..., -0.0787, -0.1226,  0.0618],
+        [-0.0793, -0.0437, -0.0952,  ...,  0.1645, -0.0773, -0.0681],
+        [-0.0237, -0.0042,  0.1874,  ..., -0.1087, -0.1274, -0.1166],
+        ...,
+        [-0.1035, -0.0543,  0.0085,  ..., -0.0321,  0.1043, -0.0545],
+        [-0.0899, -0.0897, -0.0717,  ..., -0.1328, -0.0039, -0.1568],
+        [-0.1725, -0.0544, -0.1334,  ..., -0.1508, -0.0204,  0.1104]],
+       device='cuda:0'), grad: tensor([[ 7.9162e-09,  4.6566e-10,  1.6764e-08,  ...,  2.0908e-07,
+          4.2375e-08, -9.3132e-10],
+        [ 3.6787e-08,  4.6566e-10,  1.8487e-07,  ..., -7.4971e-08,
+          1.0990e-07,  1.1642e-08],
+        [ 4.0513e-08,  1.8626e-09,  1.9930e-06,  ...,  1.7090e-07,
+          1.2135e-06,  2.6077e-08],
+        ...,
+        [ 2.3283e-08,  1.6764e-08, -3.5986e-06,  ...,  8.8941e-08,
+         -2.1867e-06,  8.5682e-08],
+        [ 6.7055e-08,  1.3970e-09,  9.6112e-07,  ...,  3.0408e-07,
+          5.6298e-07,  1.8813e-07],
+        [ 1.8952e-07,  4.6566e-10, -4.2841e-08,  ...,  2.6077e-08,
+          9.4529e-08, -3.0221e-07]], device='cuda:0')
+Epoch 219, bias, value: tensor([-0.0359, -0.0300,  0.0112,  0.0321, -0.0200,  0.0040, -0.0112,  0.0120,
+         0.0150, -0.0019], device='cuda:0'), grad: tensor([ 7.3668e-07,  3.4552e-07,  4.0531e-06,  9.6019e-07,  5.6997e-07,
+        -1.3653e-06, -3.1795e-06, -4.9025e-06,  2.8387e-06, -5.9605e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 218, time 214.54, cls_loss 0.0008 cls_loss_mapping 0.0030 cls_loss_causal 0.5143 re_mapping 0.0042 re_causal 0.0136 /// teacc 99.16 lr 0.00010000
+Epoch 220, weight, value: tensor([[-0.0949,  0.0586,  0.0516,  ..., -0.0791, -0.1231,  0.0618],
+        [-0.0799, -0.0438, -0.0954,  ...,  0.1653, -0.0774, -0.0682],
+        [-0.0242, -0.0042,  0.1875,  ..., -0.1088, -0.1275, -0.1168],
+        ...,
+        [-0.1043, -0.0543,  0.0085,  ..., -0.0336,  0.1044, -0.0549],
+        [-0.0906, -0.0899, -0.0717,  ..., -0.1330, -0.0039, -0.1571],
+        [-0.1729, -0.0545, -0.1337,  ..., -0.1511, -0.0207,  0.1106]],
+       device='cuda:0'), grad: tensor([[ 1.2293e-07,  0.0000e+00, -2.7809e-06,  ..., -2.0564e-06,
+          3.2969e-07, -1.2934e-05],
+        [ 5.9744e-07,  0.0000e+00,  3.7858e-07,  ...,  4.5169e-08,
+          1.6633e-06,  6.2957e-07],
+        [ 2.4494e-07,  0.0000e+00,  8.2422e-07,  ...,  2.8871e-08,
+          1.2387e-06,  2.6356e-07],
+        ...,
+        [-2.2370e-06,  0.0000e+00, -1.6922e-06,  ...,  8.1025e-08,
+         -6.9067e-06, -3.8138e-07],
+        [ 6.1933e-08,  0.0000e+00,  1.2945e-07,  ...,  9.0338e-08,
+          1.4342e-07,  5.2247e-07],
+        [ 3.6974e-07,  0.0000e+00,  2.0750e-06,  ...,  1.3970e-06,
+          9.3877e-07,  8.8066e-06]], device='cuda:0')
+Epoch 220, bias, value: tensor([-0.0358, -0.0296,  0.0111,  0.0321, -0.0199,  0.0040, -0.0111,  0.0118,
+         0.0149, -0.0019], device='cuda:0'), grad: tensor([-6.0648e-05,  6.1952e-06,  3.6471e-06, -6.4448e-06,  1.6745e-06,
+         1.7181e-05,  7.1004e-06, -1.5289e-05,  2.7474e-06,  4.3809e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 219, time 214.40, cls_loss 0.0007 cls_loss_mapping 0.0024 cls_loss_causal 0.5042 re_mapping 0.0044 re_causal 0.0143 /// teacc 99.17 lr 0.00010000
+Epoch 221, weight, value: tensor([[-0.0951,  0.0586,  0.0520,  ..., -0.0806, -0.1240,  0.0618],
+        [-0.0803, -0.0439, -0.0958,  ...,  0.1654, -0.0776, -0.0682],
+        [-0.0248, -0.0042,  0.1874,  ..., -0.1095, -0.1277, -0.1169],
+        ...,
+        [-0.1051, -0.0544,  0.0089,  ..., -0.0325,  0.1045, -0.0552],
+        [-0.0912, -0.0899, -0.0718,  ..., -0.1331, -0.0039, -0.1573],
+        [-0.1739, -0.0545, -0.1344,  ..., -0.1516, -0.0213,  0.1106]],
+       device='cuda:0'), grad: tensor([[ 5.5367e-07,  0.0000e+00,  4.7777e-07,  ...,  1.1176e-07,
+          4.6100e-08,  8.7405e-07],
+        [ 1.5832e-08,  0.0000e+00,  1.1316e-07,  ..., -1.3970e-09,
+          6.4727e-08,  1.4435e-08],
+        [ 1.1642e-08, -4.6566e-10, -2.6263e-07,  ...,  1.0245e-08,
+          9.9186e-08,  3.9116e-08],
+        ...,
+        [ 5.0757e-08,  0.0000e+00, -1.7695e-07,  ...,  2.3283e-09,
+          8.8476e-09,  1.3318e-07],
+        [ 4.1444e-08,  4.6566e-10,  1.6531e-07,  ...,  1.0245e-08,
+         -2.3236e-07,  4.1444e-08],
+        [ 8.0094e-08,  0.0000e+00,  3.9581e-08,  ...,  1.8626e-09,
+          4.0047e-08, -4.0047e-07]], device='cuda:0')
+Epoch 221, bias, value: tensor([-0.0359, -0.0300,  0.0098,  0.0322, -0.0195,  0.0041, -0.0108,  0.0125,
+         0.0148, -0.0023], device='cuda:0'), grad: tensor([ 4.3809e-06,  3.0408e-07, -2.0023e-08,  3.7067e-07, -7.7439e-07,
+        -5.5460e-07, -3.0156e-06,  1.5423e-06, -1.5050e-06, -7.2503e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 220, time 214.55, cls_loss 0.0007 cls_loss_mapping 0.0026 cls_loss_causal 0.5285 re_mapping 0.0043 re_causal 0.0142 /// teacc 99.19 lr 0.00010000
+Epoch 222, weight, value: tensor([[-0.0952,  0.0586,  0.0523,  ..., -0.0811, -0.1252,  0.0619],
+        [-0.0809, -0.0439, -0.0961,  ...,  0.1655, -0.0778, -0.0683],
+        [-0.0250, -0.0042,  0.1874,  ..., -0.1095, -0.1279, -0.1171],
+        ...,
+        [-0.1061, -0.0544,  0.0091,  ..., -0.0325,  0.1047, -0.0558],
+        [-0.0913, -0.0899, -0.0718,  ..., -0.1332, -0.0040, -0.1572],
+        [-0.1744, -0.0545, -0.1353,  ..., -0.1523, -0.0222,  0.1107]],
+       device='cuda:0'), grad: tensor([[ 2.1420e-08,  0.0000e+00, -5.0664e-07,  ...,  4.0978e-08,
+          8.4285e-08, -6.2818e-07],
+        [ 4.3306e-08,  0.0000e+00,  3.0082e-07,  ..., -2.0023e-08,
+          8.9407e-07,  1.1316e-07],
+        [ 4.1444e-08, -4.6566e-10,  1.2899e-07,  ...,  4.4238e-08,
+          2.3236e-07,  8.8476e-08],
+        ...,
+        [ 4.9360e-08,  0.0000e+00, -1.3262e-06,  ...,  4.7963e-08,
+          3.5437e-07,  1.0051e-05],
+        [-4.3306e-08,  0.0000e+00,  4.2841e-07,  ...,  8.8941e-08,
+          1.5311e-06,  5.2620e-07],
+        [ 9.1875e-07,  0.0000e+00,  6.1514e-07,  ...,  1.2107e-08,
+         -4.1164e-06, -1.0602e-05]], device='cuda:0')
+Epoch 222, bias, value: tensor([-0.0359, -0.0301,  0.0096,  0.0324, -0.0192,  0.0037, -0.0108,  0.0127,
+         0.0148, -0.0027], device='cuda:0'), grad: tensor([-4.5681e-07,  4.1425e-06,  1.4957e-06, -3.7923e-06,  5.9232e-07,
+         4.4927e-06, -2.1756e-06,  9.7975e-06,  7.3574e-06, -2.1458e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 221, time 214.26, cls_loss 0.0009 cls_loss_mapping 0.0023 cls_loss_causal 0.4828 re_mapping 0.0044 re_causal 0.0133 /// teacc 99.18 lr 0.00010000
+Epoch 223, weight, value: tensor([[-0.0955,  0.0586,  0.0522,  ..., -0.0816, -0.1270,  0.0619],
+        [-0.0813, -0.0442, -0.0990,  ...,  0.1645, -0.0780, -0.0683],
+        [-0.0256, -0.0041,  0.1893,  ..., -0.1081, -0.1280, -0.1172],
+        ...,
+        [-0.1073, -0.0545,  0.0090,  ..., -0.0330,  0.1049, -0.0571],
+        [-0.0915, -0.0899, -0.0718,  ..., -0.1334, -0.0039, -0.1573],
+        [-0.1755, -0.0545, -0.1358,  ..., -0.1527, -0.0224,  0.1110]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-08,  0.0000e+00, -1.3178e-07,  ...,  6.7521e-08,
+          1.3970e-08, -6.5658e-08],
+        [-3.1479e-07,  0.0000e+00, -5.7742e-08,  ..., -6.6869e-06,
+          1.5041e-07,  2.1886e-08],
+        [ 3.0734e-08,  0.0000e+00, -2.7474e-08,  ...,  1.4622e-07,
+          9.5461e-08,  3.3528e-08],
+        ...,
+        [ 1.7742e-07,  0.0000e+00, -6.0629e-07,  ...,  1.2387e-06,
+         -1.4389e-06,  6.9663e-07],
+        [ 2.5146e-08,  0.0000e+00,  2.9523e-07,  ...,  4.7348e-06,
+          5.3691e-07,  6.8452e-08],
+        [ 1.3085e-07,  0.0000e+00,  1.3970e-07,  ...,  2.9337e-08,
+          1.8999e-07, -8.8708e-07]], device='cuda:0')
+Epoch 223, bias, value: tensor([-0.0361, -0.0314,  0.0112,  0.0324, -0.0189,  0.0035, -0.0107,  0.0125,
+         0.0149, -0.0029], device='cuda:0'), grad: tensor([ 5.4017e-08, -1.5661e-05,  6.0257e-07,  1.1735e-07,  1.4603e-06,
+         9.1363e-07, -6.5658e-08,  2.0172e-06,  1.1504e-05, -9.4017e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 222, time 214.31, cls_loss 0.0007 cls_loss_mapping 0.0017 cls_loss_causal 0.4830 re_mapping 0.0043 re_causal 0.0136 /// teacc 99.14 lr 0.00010000
+Epoch 224, weight, value: tensor([[-0.0962,  0.0586,  0.0527,  ..., -0.0827, -0.1276,  0.0620],
+        [-0.0814, -0.0445, -0.0990,  ...,  0.1649, -0.0782, -0.0684],
+        [-0.0258, -0.0041,  0.1896,  ..., -0.1082, -0.1281, -0.1174],
+        ...,
+        [-0.1078, -0.0546,  0.0089,  ..., -0.0333,  0.1049, -0.0585],
+        [-0.0920, -0.0900, -0.0719,  ..., -0.1337, -0.0039, -0.1576],
+        [-0.1755, -0.0546, -0.1364,  ..., -0.1532, -0.0222,  0.1113]],
+       device='cuda:0'), grad: tensor([[-1.7369e-06,  0.0000e+00, -1.8589e-06,  ..., -2.4214e-08,
+          3.2596e-09, -2.2035e-06],
+        [ 1.0571e-07,  0.0000e+00,  1.4855e-07,  ..., -1.3877e-07,
+          3.1199e-08,  1.1967e-07],
+        [ 1.8161e-07,  0.0000e+00, -8.5216e-08,  ...,  2.9337e-08,
+          9.7789e-09,  1.9697e-07],
+        ...,
+        [ 5.3085e-08,  0.0000e+00,  1.0710e-07,  ...,  3.2596e-08,
+         -9.1270e-08,  1.7742e-07],
+        [ 5.3085e-07,  0.0000e+00,  5.3784e-07,  ...,  1.0803e-07,
+          2.4680e-08,  5.2201e-07],
+        [ 3.5623e-07,  0.0000e+00,  3.8836e-07,  ...,  1.9558e-08,
+          1.3504e-08,  1.1735e-07]], device='cuda:0')
+Epoch 224, bias, value: tensor([-0.0361, -0.0312,  0.0113,  0.0324, -0.0191,  0.0037, -0.0106,  0.0123,
+         0.0148, -0.0027], device='cuda:0'), grad: tensor([-6.6049e-06,  2.9197e-07,  5.2946e-07, -2.3730e-06,  7.3994e-07,
+         2.1160e-06,  8.9919e-07,  9.4110e-07,  2.8573e-06,  5.7835e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 223, time 214.26, cls_loss 0.0008 cls_loss_mapping 0.0026 cls_loss_causal 0.4966 re_mapping 0.0045 re_causal 0.0135 /// teacc 99.12 lr 0.00010000
+Epoch 225, weight, value: tensor([[-0.0963,  0.0586,  0.0537,  ..., -0.0829, -0.1287,  0.0622],
+        [-0.0814, -0.0446, -0.0992,  ...,  0.1656, -0.0783, -0.0685],
+        [-0.0261, -0.0040,  0.1898,  ..., -0.1083, -0.1282, -0.1177],
+        ...,
+        [-0.1088, -0.0546,  0.0089,  ..., -0.0339,  0.1049, -0.0600],
+        [-0.0920, -0.0901, -0.0720,  ..., -0.1338, -0.0040, -0.1578],
+        [-0.1757, -0.0546, -0.1370,  ..., -0.1536, -0.0224,  0.1118]],
+       device='cuda:0'), grad: tensor([[ 6.3777e-06,  0.0000e+00,  7.3109e-08,  ...,  1.7835e-07,
+          9.6392e-07,  1.4901e-07],
+        [ 2.5798e-07,  0.0000e+00,  2.6217e-07,  ..., -5.0431e-07,
+          4.7125e-07,  1.4831e-07],
+        [ 1.4924e-07,  0.0000e+00, -7.6741e-07,  ...,  2.0606e-07,
+          3.8743e-07,  3.0501e-08],
+        ...,
+        [ 3.0361e-07,  2.0955e-09, -3.0012e-07,  ...,  1.8394e-07,
+         -8.4797e-07,  7.8510e-07],
+        [ 1.2256e-06,  0.0000e+00,  3.4412e-07,  ...,  1.7090e-06,
+          2.5076e-07,  1.9907e-07],
+        [ 4.3702e-07,  0.0000e+00,  6.6822e-08,  ...,  4.1211e-08,
+         -1.8561e-06, -8.9854e-06]], device='cuda:0')
+Epoch 225, bias, value: tensor([-0.0358, -0.0311,  0.0112,  0.0325, -0.0193,  0.0038, -0.0107,  0.0121,
+         0.0148, -0.0025], device='cuda:0'), grad: tensor([ 9.4101e-06,  2.2259e-07, -4.6100e-08, -1.6000e-06, -2.3752e-05,
+         1.4640e-05,  8.2180e-06,  5.0897e-07,  5.6177e-06, -1.3247e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 224, time 214.29, cls_loss 0.0009 cls_loss_mapping 0.0028 cls_loss_causal 0.4815 re_mapping 0.0046 re_causal 0.0134 /// teacc 99.14 lr 0.00010000
+Epoch 226, weight, value: tensor([[-0.0967,  0.0584,  0.0538,  ..., -0.0839, -0.1324,  0.0622],
+        [-0.0817, -0.0454, -0.0994,  ...,  0.1660, -0.0786, -0.0685],
+        [-0.0259, -0.0035,  0.1904,  ..., -0.1085, -0.1284, -0.1179],
+        ...,
+        [-0.1092, -0.0564,  0.0092,  ..., -0.0341,  0.1053, -0.0610],
+        [-0.0923, -0.0912, -0.0723,  ..., -0.1339, -0.0041, -0.1585],
+        [-0.1766, -0.0546, -0.1376,  ..., -0.1550, -0.0233,  0.1120]],
+       device='cuda:0'), grad: tensor([[ 6.9849e-10,  1.3970e-09, -7.4226e-07,  ...,  3.4226e-08,
+          5.3551e-09, -6.4587e-07],
+        [ 2.0955e-09,  4.6566e-10,  7.4971e-08,  ..., -4.6752e-07,
+          5.4948e-08,  2.3516e-08],
+        [ 9.3132e-10,  2.3283e-10,  1.2270e-07,  ...,  1.1246e-07,
+          6.8452e-08,  6.4960e-08],
+        ...,
+        [ 1.1642e-09,  4.6566e-10, -1.9511e-07,  ...,  3.5157e-08,
+         -2.0675e-07,  6.0536e-09],
+        [ 1.1642e-09,  9.3132e-10, -2.3236e-07,  ...,  2.2422e-07,
+          2.7940e-09,  5.7509e-08],
+        [ 6.2864e-09, -1.3737e-08,  5.0059e-07,  ...,  6.7521e-09,
+          4.4238e-08,  1.2293e-07]], device='cuda:0')
+Epoch 226, bias, value: tensor([-0.0360, -0.0312,  0.0115,  0.0324, -0.0188,  0.0041, -0.0107,  0.0123,
+         0.0146, -0.0028], device='cuda:0'), grad: tensor([-1.3728e-06, -6.6496e-07,  8.2981e-07,  1.6205e-06,  3.0361e-07,
+         2.1118e-07,  1.8403e-06, -8.6613e-08, -3.7774e-06,  1.0896e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 225, time 214.31, cls_loss 0.0010 cls_loss_mapping 0.0026 cls_loss_causal 0.5020 re_mapping 0.0046 re_causal 0.0137 /// teacc 99.17 lr 0.00010000
+Epoch 227, weight, value: tensor([[-0.0969,  0.0588,  0.0546,  ..., -0.0848, -0.1326,  0.0626],
+        [-0.0829, -0.0459, -0.0996,  ...,  0.1670, -0.0788, -0.0686],
+        [-0.0267, -0.0035,  0.1905,  ..., -0.1089, -0.1286, -0.1180],
+        ...,
+        [-0.1097, -0.0566,  0.0093,  ..., -0.0348,  0.1055, -0.0614],
+        [-0.0925, -0.0914, -0.0722,  ..., -0.1332, -0.0041, -0.1587],
+        [-0.1785, -0.0547, -0.1382,  ..., -0.1558, -0.0236,  0.1123]],
+       device='cuda:0'), grad: tensor([[ 1.6484e-07,  0.0000e+00,  4.9872e-07,  ...,  1.5786e-07,
+          4.1910e-09,  2.2119e-07],
+        [ 4.1141e-07,  0.0000e+00,  2.4680e-08,  ..., -9.1502e-07,
+          1.6531e-08,  2.5611e-08],
+        [ 1.2969e-07,  0.0000e+00, -3.6648e-07,  ...,  7.1153e-07,
+          1.1874e-08,  1.9325e-08],
+        ...,
+        [ 4.1211e-08,  0.0000e+00,  1.2689e-07,  ...,  1.6787e-07,
+         -8.3819e-09,  6.9151e-08],
+        [ 5.2266e-06,  0.0000e+00, -4.3921e-06,  ...,  3.9302e-06,
+          1.1409e-07, -1.9521e-06],
+        [ 8.0559e-08,  0.0000e+00,  3.6452e-06,  ...,  6.6357e-08,
+          3.7253e-08,  1.0086e-06]], device='cuda:0')
+Epoch 227, bias, value: tensor([-0.0359, -0.0308,  0.0112,  0.0325, -0.0181,  0.0036, -0.0125,  0.0121,
+         0.0155, -0.0035], device='cuda:0'), grad: tensor([ 2.2259e-06, -1.6876e-06,  1.8887e-06,  1.2573e-06,  3.8520e-06,
+         6.2697e-06, -2.4721e-05,  9.9093e-07, -2.1737e-06,  1.2055e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 226, time 214.58, cls_loss 0.0008 cls_loss_mapping 0.0019 cls_loss_causal 0.4835 re_mapping 0.0045 re_causal 0.0136 /// teacc 99.09 lr 0.00010000
+Epoch 228, weight, value: tensor([[-0.0972,  0.0585,  0.0549,  ..., -0.0860, -0.1331,  0.0625],
+        [-0.0836, -0.0460, -0.0998,  ...,  0.1677, -0.0790, -0.0687],
+        [-0.0264, -0.0034,  0.1909,  ..., -0.1091, -0.1288, -0.1181],
+        ...,
+        [-0.1101, -0.0567,  0.0094,  ..., -0.0354,  0.1057, -0.0617],
+        [-0.0930, -0.0915, -0.0723,  ..., -0.1333, -0.0042, -0.1588],
+        [-0.1793, -0.0547, -0.1390,  ..., -0.1563, -0.0241,  0.1123]],
+       device='cuda:0'), grad: tensor([[ 4.1910e-09,  0.0000e+00, -2.8173e-08,  ...,  6.7521e-09,
+          3.2596e-09, -3.5390e-08],
+        [ 7.3342e-08,  0.0000e+00,  4.3074e-08,  ..., -8.2422e-08,
+          4.0978e-08,  2.0955e-09],
+        [ 3.9581e-08,  0.0000e+00, -7.2317e-07,  ...,  2.6077e-08,
+          1.1642e-08,  2.0955e-09],
+        ...,
+        [ 3.4925e-09,  0.0000e+00,  5.5647e-07,  ...,  5.1223e-08,
+         -1.3737e-08,  4.6566e-09],
+        [ 1.9791e-08,  0.0000e+00,  1.7695e-08,  ...,  2.9569e-08,
+          2.6776e-08,  1.1176e-08],
+        [ 3.7719e-08,  0.0000e+00,  3.1199e-08,  ...,  6.0536e-09,
+          6.9849e-09,  8.3819e-09]], device='cuda:0')
+Epoch 228, bias, value: tensor([-0.0361, -0.0306,  0.0112,  0.0325, -0.0179,  0.0036, -0.0123,  0.0122,
+         0.0155, -0.0040], device='cuda:0'), grad: tensor([ 2.8871e-08,  5.0291e-07, -1.4035e-06, -1.2200e-06,  7.6368e-08,
+         4.6683e-07,  3.7719e-07,  1.4026e-06, -4.2818e-07,  1.9465e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 227, time 214.34, cls_loss 0.0009 cls_loss_mapping 0.0022 cls_loss_causal 0.4800 re_mapping 0.0043 re_causal 0.0137 /// teacc 99.11 lr 0.00010000
+Epoch 229, weight, value: tensor([[-0.0974,  0.0585,  0.0553,  ..., -0.0867, -0.1337,  0.0626],
+        [-0.0864, -0.0463, -0.1024,  ...,  0.1667, -0.0792, -0.0688],
+        [-0.0274, -0.0033,  0.1927,  ..., -0.1079, -0.1290, -0.1183],
+        ...,
+        [-0.1119, -0.0567,  0.0093,  ..., -0.0369,  0.1057, -0.0631],
+        [-0.0935, -0.0912, -0.0723,  ..., -0.1333, -0.0042, -0.1591],
+        [-0.1818, -0.0548, -0.1392,  ..., -0.1572, -0.0242,  0.1120]],
+       device='cuda:0'), grad: tensor([[ 2.7474e-08,  0.0000e+00,  2.2352e-08,  ...,  2.1420e-08,
+          1.0710e-08,  1.1176e-08],
+        [ 2.3767e-06,  0.0000e+00,  1.0896e-07,  ...,  1.1837e-06,
+          2.4401e-07,  1.1176e-08],
+        [ 4.1910e-08,  0.0000e+00,  2.4680e-08,  ...,  3.2131e-08,
+          2.5006e-07,  1.0245e-08],
+        ...,
+        [ 6.4448e-07,  0.0000e+00, -8.6939e-07,  ...,  3.2503e-07,
+         -2.0582e-06,  8.2888e-08],
+        [ 1.4734e-06,  0.0000e+00, -5.5879e-09,  ...,  7.9488e-07,
+         -3.2270e-07, -3.3528e-08],
+        [ 8.1025e-07,  0.0000e+00,  8.7544e-08,  ...,  4.0513e-07,
+          2.0396e-07, -1.2247e-07]], device='cuda:0')
+Epoch 229, bias, value: tensor([-0.0361, -0.0326,  0.0127,  0.0326, -0.0152,  0.0036, -0.0124,  0.0117,
+         0.0155, -0.0056], device='cuda:0'), grad: tensor([ 2.1793e-07,  7.8902e-06,  8.4238e-07,  3.9861e-06, -1.6257e-05,
+         1.3039e-06,  1.0543e-06, -2.3656e-06, -8.3912e-07,  4.1649e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 228, time 214.56, cls_loss 0.0008 cls_loss_mapping 0.0017 cls_loss_causal 0.4951 re_mapping 0.0046 re_causal 0.0142 /// teacc 99.13 lr 0.00010000
+Epoch 230, weight, value: tensor([[-0.0983,  0.0587,  0.0543,  ..., -0.0879, -0.1340,  0.0627],
+        [-0.0838, -0.0469, -0.1026,  ...,  0.1680, -0.0795, -0.0679],
+        [-0.0257, -0.0014,  0.1935,  ..., -0.1079, -0.1290, -0.1184],
+        ...,
+        [-0.1125, -0.0569,  0.0092,  ..., -0.0384,  0.1059, -0.0655],
+        [-0.0945, -0.0913, -0.0724,  ..., -0.1334, -0.0042, -0.1593],
+        [-0.1819, -0.0548, -0.1393,  ..., -0.1579, -0.0246,  0.1125]],
+       device='cuda:0'), grad: tensor([[ 1.5413e-06,  0.0000e+00, -4.6846e-07,  ...,  1.0356e-06,
+          9.3132e-10, -1.3504e-07],
+        [ 2.1327e-06,  0.0000e+00,  1.3318e-07,  ...,  1.2554e-06,
+          1.5460e-07,  2.3935e-07],
+        [ 1.7639e-06,  0.0000e+00,  1.8720e-07,  ...,  2.3190e-07,
+          8.4750e-08,  1.2852e-07],
+        ...,
+        [ 6.8825e-07,  0.0000e+00, -2.2212e-07,  ..., -3.7253e-08,
+         -2.8964e-07,  1.7695e-08],
+        [ 2.1001e-07,  0.0000e+00,  5.1223e-08,  ...,  5.0897e-07,
+          5.1223e-09,  1.2014e-07],
+        [ 7.3155e-07,  0.0000e+00,  1.2713e-07,  ...,  2.4214e-07,
+          6.5193e-09,  1.1409e-07]], device='cuda:0')
+Epoch 230, bias, value: tensor([-0.0366, -0.0301,  0.0131,  0.0324, -0.0175,  0.0036, -0.0121,  0.0111,
+         0.0155, -0.0054], device='cuda:0'), grad: tensor([ 2.5444e-06,  4.7386e-06,  3.4012e-06,  2.7642e-06,  4.2021e-06,
+         4.9882e-06, -2.3842e-05,  5.0990e-07, -8.0839e-07,  1.5488e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 229, time 214.37, cls_loss 0.0009 cls_loss_mapping 0.0028 cls_loss_causal 0.4958 re_mapping 0.0045 re_causal 0.0136 /// teacc 98.99 lr 0.00010000
+Epoch 231, weight, value: tensor([[-0.0984,  0.0591,  0.0556,  ..., -0.0882, -0.1345,  0.0632],
+        [-0.0838, -0.0475, -0.1037,  ...,  0.1685, -0.0799, -0.0671],
+        [-0.0259, -0.0013,  0.1944,  ..., -0.1076, -0.1293, -0.1187],
+        ...,
+        [-0.1133, -0.0569,  0.0093,  ..., -0.0399,  0.1062, -0.0672],
+        [-0.0954, -0.0914, -0.0725,  ..., -0.1335, -0.0042, -0.1592],
+        [-0.1820, -0.0549, -0.1401,  ..., -0.1588, -0.0249,  0.1127]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -2.5053e-07, -1.4799e-06,  ..., -1.4435e-08,
+          9.3132e-09, -7.6275e-07],
+        [ 3.7253e-09,  7.9162e-09,  1.6112e-07,  ..., -1.2526e-07,
+          8.8010e-08,  4.1910e-08],
+        [ 3.7253e-09,  9.6392e-08, -1.9744e-07,  ...,  3.4925e-08,
+          4.4238e-08,  2.7474e-07],
+        ...,
+        [ 1.3970e-09,  7.9162e-09, -7.4506e-09,  ...,  1.4435e-08,
+         -1.8859e-07,  8.7544e-08],
+        [ 2.3283e-09,  4.6566e-08,  5.4622e-07,  ...,  4.9826e-08,
+          4.2142e-07,  4.0280e-07],
+        [ 1.8626e-08,  9.3132e-09,  1.1362e-07,  ...,  3.7253e-09,
+          2.4214e-08, -2.5518e-07]], device='cuda:0')
+Epoch 231, bias, value: tensor([-0.0362, -0.0302,  0.0137,  0.0328, -0.0175,  0.0016, -0.0114,  0.0106,
+         0.0155, -0.0053], device='cuda:0'), grad: tensor([-2.1998e-06,  1.8999e-07, -3.6089e-07,  1.3374e-06,  2.5425e-07,
+        -2.7884e-06,  1.5497e-06,  1.8626e-08,  2.3060e-06, -3.2643e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 230, time 214.38, cls_loss 0.0013 cls_loss_mapping 0.0032 cls_loss_causal 0.5241 re_mapping 0.0046 re_causal 0.0143 /// teacc 99.15 lr 0.00010000
+Epoch 232, weight, value: tensor([[-0.1017,  0.0561,  0.0543,  ..., -0.0894, -0.1355,  0.0608],
+        [-0.0840, -0.0490, -0.1051,  ...,  0.1671, -0.0805, -0.0673],
+        [-0.0250, -0.0015,  0.1956,  ..., -0.1064, -0.1296, -0.1195],
+        ...,
+        [-0.1135, -0.0570,  0.0095,  ..., -0.0389,  0.1065, -0.0681],
+        [-0.0975, -0.0946, -0.0730,  ..., -0.1342, -0.0045, -0.1611],
+        [-0.1822, -0.0552, -0.1407,  ..., -0.1600, -0.0252,  0.1130]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  0.0000e+00, -5.5879e-09,  ...,  1.0571e-07,
+          3.2596e-09,  8.5682e-08],
+        [ 9.3132e-10,  0.0000e+00,  1.4435e-08,  ...,  1.8626e-08,
+          2.8405e-08,  2.9802e-08],
+        [ 5.5879e-09,  0.0000e+00, -3.6415e-07,  ...,  9.3132e-09,
+         -4.3306e-08,  7.9162e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.1805e-07,  ...,  5.1223e-09,
+          4.6566e-10,  3.2596e-09],
+        [-1.8859e-07,  0.0000e+00,  1.0245e-08,  ...,  7.5903e-08,
+          3.4459e-08,  4.5169e-08],
+        [ 3.2596e-09,  0.0000e+00,  4.6566e-09,  ...,  1.9092e-08,
+          1.1642e-08,  1.7695e-08]], device='cuda:0')
+Epoch 232, bias, value: tensor([-0.0390, -0.0315,  0.0147,  0.0353, -0.0176,  0.0043, -0.0131,  0.0110,
+         0.0149, -0.0052], device='cuda:0'), grad: tensor([ 2.1793e-07,  1.7742e-07, -2.6543e-07,  1.8962e-06,  6.7987e-08,
+         3.0734e-08, -2.0601e-06,  3.5297e-07, -5.4436e-07,  1.2433e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 231, time 214.37, cls_loss 0.0010 cls_loss_mapping 0.0019 cls_loss_causal 0.5042 re_mapping 0.0041 re_causal 0.0132 /// teacc 99.09 lr 0.00010000
+Epoch 233, weight, value: tensor([[-0.1017,  0.0561,  0.0551,  ..., -0.0894, -0.1357,  0.0608],
+        [-0.0841, -0.0493, -0.1056,  ...,  0.1673, -0.0814, -0.0674],
+        [-0.0253, -0.0015,  0.1959,  ..., -0.1065, -0.1299, -0.1198],
+        ...,
+        [-0.1143, -0.0571,  0.0097,  ..., -0.0393,  0.1069, -0.0685],
+        [-0.0978, -0.0946, -0.0731,  ..., -0.1343, -0.0044, -0.1623],
+        [-0.1831, -0.0554, -0.1416,  ..., -0.1608, -0.0258,  0.1135]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09, -4.6566e-10, -1.1194e-06,  ...,  1.9558e-08,
+          7.1246e-08, -3.8138e-07],
+        [ 1.3039e-08,  0.0000e+00,  5.4529e-07,  ..., -2.5425e-07,
+          6.8359e-07,  4.3306e-08],
+        [ 1.3970e-08,  0.0000e+00,  7.9069e-07,  ...,  1.6578e-07,
+          9.6392e-07,  1.2014e-07],
+        ...,
+        [ 2.3283e-09,  0.0000e+00, -2.4792e-06,  ...,  6.7521e-08,
+         -3.6079e-06,  4.7497e-08],
+        [ 1.7229e-08,  0.0000e+00,  2.4773e-07,  ...,  6.4727e-08,
+          5.9931e-07,  2.0675e-07],
+        [ 7.4506e-09,  0.0000e+00,  5.8906e-07,  ...,  7.9162e-09,
+          7.0175e-07,  7.7765e-08]], device='cuda:0')
+Epoch 233, bias, value: tensor([-0.0389, -0.0318,  0.0147,  0.0353, -0.0174,  0.0038, -0.0128,  0.0111,
+         0.0149, -0.0054], device='cuda:0'), grad: tensor([-1.9819e-06,  2.2165e-06,  4.1313e-06,  8.7544e-06,  4.0093e-07,
+        -5.4538e-06,  3.8967e-06, -1.0677e-05, -4.3251e-06,  3.0510e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 232, time 214.20, cls_loss 0.0008 cls_loss_mapping 0.0022 cls_loss_causal 0.4760 re_mapping 0.0045 re_causal 0.0134 /// teacc 99.02 lr 0.00010000
+Epoch 234, weight, value: tensor([[-0.1017,  0.0561,  0.0555,  ..., -0.0894, -0.1360,  0.0609],
+        [-0.0841, -0.0495, -0.1058,  ...,  0.1674, -0.0828, -0.0675],
+        [-0.0258, -0.0016,  0.1959,  ..., -0.1067, -0.1302, -0.1201],
+        ...,
+        [-0.1136, -0.0574,  0.0096,  ..., -0.0394,  0.1075, -0.0694],
+        [-0.0984, -0.0946, -0.0735,  ..., -0.1344, -0.0045, -0.1627],
+        [-0.1834, -0.0555, -0.1397,  ..., -0.1616, -0.0260,  0.1140]],
+       device='cuda:0'), grad: tensor([[ 3.2596e-09,  0.0000e+00, -8.3819e-08,  ...,  1.2573e-08,
+          1.3970e-09, -1.6764e-08],
+        [ 3.7253e-09,  0.0000e+00,  2.4214e-08,  ..., -7.9162e-09,
+          2.0023e-08,  2.8871e-08],
+        [ 7.4506e-09,  0.0000e+00,  1.3970e-09,  ...,  1.3970e-08,
+          2.9337e-08,  2.4214e-08],
+        ...,
+        [ 6.0536e-09,  0.0000e+00, -4.8894e-08,  ...,  1.2107e-08,
+         -7.5437e-08,  3.3341e-07],
+        [ 5.8673e-08,  0.0000e+00,  1.7695e-08,  ...,  5.2154e-08,
+          1.6298e-08,  3.5996e-07],
+        [-1.7835e-07,  0.0000e+00,  3.1199e-08,  ...,  1.3970e-09,
+          1.1176e-08, -1.8310e-06]], device='cuda:0')
+Epoch 234, bias, value: tensor([-0.0389, -0.0324,  0.0145,  0.0353, -0.0175,  0.0039, -0.0127,  0.0115,
+         0.0146, -0.0040], device='cuda:0'), grad: tensor([-1.5367e-08,  1.4994e-07,  1.5181e-07,  1.6438e-07,  2.4848e-06,
+         6.6217e-07,  1.1781e-07,  6.5239e-07,  8.6240e-07, -5.2415e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 233, time 214.45, cls_loss 0.0008 cls_loss_mapping 0.0017 cls_loss_causal 0.4836 re_mapping 0.0045 re_causal 0.0138 /// teacc 99.12 lr 0.00010000
+Epoch 235, weight, value: tensor([[-0.1017,  0.0561,  0.0566,  ..., -0.0894, -0.1366,  0.0611],
+        [-0.0842, -0.0499, -0.1060,  ...,  0.1676, -0.0830, -0.0676],
+        [-0.0256, -0.0017,  0.1962,  ..., -0.1067, -0.1306, -0.1209],
+        ...,
+        [-0.1138, -0.0574,  0.0098,  ..., -0.0398,  0.1080, -0.0700],
+        [-0.0988, -0.0947, -0.0737,  ..., -0.1345, -0.0045, -0.1631],
+        [-0.1831, -0.0562, -0.1402,  ..., -0.1622, -0.0266,  0.1146]],
+       device='cuda:0'), grad: tensor([[ 4.1910e-09,  0.0000e+00, -3.4589e-06,  ..., -1.1828e-07,
+          2.3283e-09, -1.8300e-06],
+        [-2.1560e-07,  0.0000e+00,  4.8103e-07,  ..., -9.4064e-08,
+          1.6764e-08,  3.4273e-07],
+        [ 1.1502e-07,  0.0000e+00,  1.8580e-07,  ...,  8.7544e-08,
+          1.1176e-08,  1.1921e-07],
+        ...,
+        [ 5.5414e-08,  0.0000e+00,  9.7789e-08,  ...,  2.1141e-07,
+         -5.1223e-08,  5.0291e-08],
+        [ 6.9849e-09,  0.0000e+00,  2.4354e-07,  ...,  7.3295e-07,
+          2.4075e-07,  2.1141e-07],
+        [ 3.2131e-08,  0.0000e+00,  6.4587e-07,  ...,  4.3772e-08,
+          1.0245e-08,  3.0082e-07]], device='cuda:0')
+Epoch 235, bias, value: tensor([-0.0388, -0.0324,  0.0145,  0.0353, -0.0177,  0.0037, -0.0128,  0.0115,
+         0.0145, -0.0037], device='cuda:0'), grad: tensor([-9.3430e-06,  8.5589e-07,  9.3924e-07,  3.8147e-06,  1.6950e-06,
+         4.9956e-06, -7.6443e-06,  7.7114e-07,  2.1029e-06,  1.8468e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 234, time 214.78, cls_loss 0.0007 cls_loss_mapping 0.0018 cls_loss_causal 0.4670 re_mapping 0.0042 re_causal 0.0130 /// teacc 99.17 lr 0.00010000
+Epoch 236, weight, value: tensor([[-0.1017,  0.0561,  0.0568,  ..., -0.0894, -0.1370,  0.0612],
+        [-0.0842, -0.0503, -0.1062,  ...,  0.1676, -0.0833, -0.0676],
+        [-0.0259, -0.0015,  0.1966,  ..., -0.1068, -0.1307, -0.1211],
+        ...,
+        [-0.1140, -0.0574,  0.0096,  ..., -0.0397,  0.1082, -0.0703],
+        [-0.0991, -0.0947, -0.0738,  ..., -0.1346, -0.0045, -0.1632],
+        [-0.1834, -0.0564, -0.1405,  ..., -0.1630, -0.0271,  0.1147]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09,  9.3132e-10, -1.2107e-07,  ...,  9.3132e-10,
+          4.4703e-08, -3.6694e-07],
+        [ 1.7229e-08,  2.3283e-09,  6.1467e-07,  ..., -3.2596e-09,
+          5.1968e-07,  1.1642e-08],
+        [ 8.8476e-09,  9.3132e-10,  3.7579e-07,  ...,  6.0536e-09,
+          3.8277e-07,  8.3819e-09],
+        ...,
+        [ 8.3819e-09,  4.6566e-09, -1.7621e-06,  ...,  1.3970e-09,
+         -1.5479e-06,  3.7253e-09],
+        [ 1.0710e-08,  2.7940e-09,  6.5193e-08,  ...,  1.3039e-08,
+          2.7474e-08,  2.6543e-08],
+        [ 1.1800e-06,  5.1223e-09,  3.1805e-07,  ...,  1.3970e-09,
+          2.7753e-07,  1.0710e-08]], device='cuda:0')
+Epoch 236, bias, value: tensor([-0.0388, -0.0325,  0.0145,  0.0353, -0.0177,  0.0037, -0.0127,  0.0115,
+         0.0145, -0.0038], device='cuda:0'), grad: tensor([-6.6776e-07,  2.1588e-06,  1.4286e-06,  5.0152e-07, -2.5965e-06,
+         3.7486e-07,  6.1560e-07, -5.7369e-06,  2.0396e-07,  3.7365e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 235, time 214.59, cls_loss 0.0009 cls_loss_mapping 0.0025 cls_loss_causal 0.5152 re_mapping 0.0042 re_causal 0.0133 /// teacc 99.07 lr 0.00010000
+Epoch 237, weight, value: tensor([[-0.1017,  0.0562,  0.0587,  ..., -0.0895, -0.1371,  0.0615],
+        [-0.0843, -0.0510, -0.1064,  ...,  0.1676, -0.0837, -0.0678],
+        [-0.0266, -0.0019,  0.1970,  ..., -0.1069, -0.1316, -0.1234],
+        ...,
+        [-0.1147, -0.0565,  0.0095,  ..., -0.0399,  0.1085, -0.0708],
+        [-0.0996, -0.0948, -0.0742,  ..., -0.1347, -0.0046, -0.1634],
+        [-0.1841, -0.0590, -0.1423,  ..., -0.1637, -0.0276,  0.1144]],
+       device='cuda:0'), grad: tensor([[ 5.9232e-07,  2.1886e-08,  6.6590e-08,  ...,  8.1398e-07,
+          1.3178e-07,  8.8476e-09],
+        [ 3.7719e-08,  2.3283e-09,  1.1828e-07,  ..., -8.8941e-08,
+          1.1642e-07,  5.1223e-09],
+        [ 1.7975e-07,  1.8626e-08,  1.9502e-06,  ...,  3.1898e-07,
+          1.6000e-06,  8.8476e-09],
+        ...,
+        [ 2.3283e-09,  4.8662e-07, -9.2806e-07,  ...,  4.4238e-08,
+          4.7125e-07,  1.3039e-08],
+        [ 2.3749e-08,  5.8208e-08,  2.2724e-07,  ...,  3.7719e-08,
+          3.3434e-07,  1.4435e-08],
+        [ 1.2573e-08,  6.0536e-09,  6.8452e-08,  ...,  1.2107e-08,
+          9.7323e-08,  2.0489e-08]], device='cuda:0')
+Epoch 237, bias, value: tensor([-0.0386, -0.0327,  0.0145,  0.0352, -0.0179,  0.0042, -0.0120,  0.0116,
+         0.0144, -0.0043], device='cuda:0'), grad: tensor([ 3.6284e-06,  2.2957e-07,  4.7050e-06, -7.1563e-06,  2.2305e-07,
+        -4.7544e-07, -6.8806e-06,  4.1351e-06,  1.2172e-06,  3.4878e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 236, time 214.23, cls_loss 0.0008 cls_loss_mapping 0.0026 cls_loss_causal 0.5221 re_mapping 0.0048 re_causal 0.0148 /// teacc 99.16 lr 0.00010000
+Epoch 238, weight, value: tensor([[-0.1018,  0.0562,  0.0590,  ..., -0.0895, -0.1401,  0.0615],
+        [-0.0843, -0.0510, -0.1066,  ...,  0.1671, -0.0840, -0.0680],
+        [-0.0268, -0.0019,  0.1957,  ..., -0.1071, -0.1325, -0.1242],
+        ...,
+        [-0.1149, -0.0567,  0.0101,  ..., -0.0399,  0.1090, -0.0711],
+        [-0.0995, -0.0948, -0.0721,  ..., -0.1349, -0.0046, -0.1635],
+        [-0.1836, -0.0592, -0.1435,  ..., -0.1649, -0.0283,  0.1153]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10, -4.6566e-10, -1.1856e-06,  ..., -7.1386e-07,
+          4.1910e-09, -4.6045e-06],
+        [ 9.3132e-10,  0.0000e+00,  1.1958e-06,  ...,  6.4308e-07,
+          1.4482e-07,  3.2131e-06],
+        [ 0.0000e+00,  0.0000e+00, -3.2131e-08,  ...,  6.8918e-08,
+          2.7008e-08,  1.7229e-08],
+        ...,
+        [ 4.6566e-10,  0.0000e+00, -5.7835e-07,  ..., -3.8696e-07,
+         -3.5902e-07,  9.9558e-07],
+        [ 4.6566e-10,  0.0000e+00,  1.0896e-07,  ...,  9.3598e-08,
+          3.1199e-08,  1.3551e-07],
+        [ 3.7253e-09,  0.0000e+00,  4.3167e-07,  ...,  2.9011e-07,
+          1.4715e-07,  1.4948e-07]], device='cuda:0')
+Epoch 238, bias, value: tensor([-0.0386, -0.0332,  0.0124,  0.0351, -0.0186,  0.0047, -0.0110,  0.0119,
+         0.0157, -0.0042], device='cuda:0'), grad: tensor([-8.4266e-06,  1.0990e-05,  9.6299e-07, -3.8184e-08,  3.6508e-07,
+        -8.4750e-08, -5.0291e-08, -1.0930e-05,  1.1008e-06,  6.1169e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 237, time 214.57, cls_loss 0.0008 cls_loss_mapping 0.0020 cls_loss_causal 0.5058 re_mapping 0.0042 re_causal 0.0136 /// teacc 99.11 lr 0.00010000
+Epoch 239, weight, value: tensor([[-0.1019,  0.0562,  0.0592,  ..., -0.0896, -0.1409,  0.0616],
+        [-0.0843, -0.0512, -0.1069,  ...,  0.1673, -0.0848, -0.0683],
+        [-0.0273, -0.0016,  0.1958,  ..., -0.1075, -0.1330, -0.1243],
+        ...,
+        [-0.1150, -0.0569,  0.0108,  ..., -0.0393,  0.1095, -0.0716],
+        [-0.0998, -0.0948, -0.0723,  ..., -0.1357, -0.0047, -0.1655],
+        [-0.1837, -0.0592, -0.1441,  ..., -0.1657, -0.0288,  0.1157]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00, -1.3271e-07,  ...,  5.1223e-09,
+          2.7474e-08, -7.2643e-08],
+        [ 1.2107e-08,  0.0000e+00,  5.6345e-08,  ..., -3.1199e-07,
+          5.4017e-08,  2.1420e-08],
+        [ 5.1223e-09,  0.0000e+00, -6.6590e-08,  ...,  2.3283e-08,
+          2.4214e-08,  2.2817e-08],
+        ...,
+        [ 9.3132e-09,  0.0000e+00, -8.0047e-07,  ...,  7.6368e-08,
+         -7.9302e-07,  3.8184e-08],
+        [ 4.1910e-09,  0.0000e+00,  6.5193e-08,  ...,  9.8255e-08,
+          9.4064e-08,  1.3364e-07],
+        [ 8.0559e-08,  0.0000e+00,  7.3109e-07,  ...,  3.6322e-08,
+          8.7405e-07,  3.0454e-07]], device='cuda:0')
+Epoch 239, bias, value: tensor([-0.0386, -0.0334,  0.0121,  0.0351, -0.0188,  0.0058, -0.0114,  0.0125,
+         0.0155, -0.0042], device='cuda:0'), grad: tensor([-1.7090e-07, -4.8988e-07,  3.4459e-08,  7.1153e-07,  7.1712e-08,
+        -3.0249e-06,  9.5926e-07, -1.6838e-06,  7.2876e-07,  2.8685e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 238, time 214.52, cls_loss 0.0008 cls_loss_mapping 0.0022 cls_loss_causal 0.4823 re_mapping 0.0042 re_causal 0.0129 /// teacc 99.09 lr 0.00010000
+Epoch 240, weight, value: tensor([[-0.1020,  0.0562,  0.0592,  ..., -0.0896, -0.1426,  0.0615],
+        [-0.0844, -0.0513, -0.1069,  ...,  0.1676, -0.0851, -0.0683],
+        [-0.0282, -0.0025,  0.1958,  ..., -0.1077, -0.1334, -0.1245],
+        ...,
+        [-0.1152, -0.0576,  0.0111,  ..., -0.0398,  0.1098, -0.0720],
+        [-0.0990, -0.0948, -0.0723,  ..., -0.1358, -0.0047, -0.1657],
+        [-0.1834, -0.0593, -0.1443,  ..., -0.1667, -0.0292,  0.1163]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -1.8217e-06,  ...,  2.7940e-09,
+         -4.6566e-08, -1.1399e-06],
+        [ 2.7940e-09,  0.0000e+00,  2.7008e-08,  ..., -6.9849e-08,
+          9.3132e-09,  1.2107e-08],
+        [ 1.8626e-09,  0.0000e+00,  4.2189e-07,  ...,  1.5832e-08,
+         -2.1420e-08,  3.5204e-07],
+        ...,
+        [ 2.7940e-09,  0.0000e+00,  2.3656e-07,  ...,  2.5146e-08,
+          2.4214e-08,  8.1956e-08],
+        [ 2.7940e-09,  0.0000e+00,  1.1735e-07,  ...,  2.1420e-08,
+          9.3132e-09,  6.7055e-08],
+        [ 1.9558e-08,  0.0000e+00,  6.5099e-07,  ...,  6.5193e-09,
+          1.9558e-08,  3.7905e-07]], device='cuda:0')
+Epoch 240, bias, value: tensor([-0.0387, -0.0333,  0.0118,  0.0351, -0.0192,  0.0059, -0.0113,  0.0126,
+         0.0157, -0.0038], device='cuda:0'), grad: tensor([-3.1237e-06, -6.9849e-08,  8.9873e-07, -1.2433e-06,  4.9360e-08,
+         1.4119e-06,  2.3283e-08,  5.0664e-07,  4.2468e-07,  1.1064e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 239, time 214.81, cls_loss 0.0007 cls_loss_mapping 0.0020 cls_loss_causal 0.5118 re_mapping 0.0043 re_causal 0.0134 /// teacc 99.01 lr 0.00010000
+Epoch 241, weight, value: tensor([[-0.1021,  0.0562,  0.0594,  ..., -0.0896, -0.1429,  0.0616],
+        [-0.0844, -0.0513, -0.1070,  ...,  0.1678, -0.0853, -0.0684],
+        [-0.0293, -0.0025,  0.1960,  ..., -0.1078, -0.1336, -0.1246],
+        ...,
+        [-0.1157, -0.0576,  0.0110,  ..., -0.0399,  0.1100, -0.0726],
+        [-0.0975, -0.0948, -0.0724,  ..., -0.1360, -0.0047, -0.1659],
+        [-0.1843, -0.0593, -0.1445,  ..., -0.1673, -0.0295,  0.1166]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  0.0000e+00, -6.0257e-07,  ...,  2.5146e-08,
+          9.3132e-10, -2.1886e-07],
+        [ 4.6566e-09,  0.0000e+00,  5.1223e-08,  ..., -2.9802e-08,
+          2.6077e-08,  1.8626e-09],
+        [ 2.7940e-09,  0.0000e+00,  2.3935e-07,  ...,  2.8871e-08,
+          2.6077e-08,  5.6811e-08],
+        ...,
+        [ 5.5879e-09,  0.0000e+00, -1.4994e-07,  ...,  1.4901e-08,
+         -8.0094e-08,  1.8626e-09],
+        [ 2.7940e-09,  0.0000e+00,  2.0582e-07,  ...,  1.0245e-08,
+          9.3132e-09,  6.9849e-08],
+        [ 8.1025e-08,  0.0000e+00,  9.4995e-08,  ...,  9.3132e-10,
+          1.9558e-08,  3.1665e-08]], device='cuda:0')
+Epoch 241, bias, value: tensor([-0.0388, -0.0333,  0.0117,  0.0351, -0.0189,  0.0055, -0.0111,  0.0125,
+         0.0159, -0.0041], device='cuda:0'), grad: tensor([-9.7603e-07,  9.4064e-08,  4.7591e-07,  3.7067e-07, -8.4750e-08,
+         6.6124e-08,  9.8441e-07, -3.3528e-07, -9.0431e-07,  3.0827e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 240, time 214.81, cls_loss 0.0008 cls_loss_mapping 0.0018 cls_loss_causal 0.4934 re_mapping 0.0043 re_causal 0.0132 /// teacc 99.05 lr 0.00010000
+Epoch 242, weight, value: tensor([[-0.1021,  0.0562,  0.0606,  ..., -0.0896, -0.1435,  0.0620],
+        [-0.0844, -0.0513, -0.1071,  ...,  0.1681, -0.0857, -0.0685],
+        [-0.0295, -0.0025,  0.1961,  ..., -0.1080, -0.1338, -0.1251],
+        ...,
+        [-0.1182, -0.0577,  0.0110,  ..., -0.0402,  0.1102, -0.0736],
+        [-0.0978, -0.0948, -0.0725,  ..., -0.1361, -0.0048, -0.1660],
+        [-0.1841, -0.0593, -0.1458,  ..., -0.1679, -0.0297,  0.1168]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  0.0000e+00, -9.0059e-07,  ...,  0.0000e+00,
+          6.7987e-08, -7.5530e-07],
+        [ 1.5832e-08,  0.0000e+00,  5.1223e-08,  ..., -4.8429e-08,
+          7.9162e-08,  6.0536e-08],
+        [ 5.5879e-09,  0.0000e+00, -7.9162e-07,  ...,  8.3819e-09,
+          8.0094e-08,  8.2888e-08],
+        ...,
+        [ 1.1176e-08,  0.0000e+00,  6.2399e-08,  ...,  2.6077e-08,
+         -3.7160e-07,  9.2201e-08],
+        [ 8.3819e-09,  0.0000e+00,  4.5262e-07,  ...,  5.5879e-09,
+          1.7136e-07,  3.4552e-07],
+        [ 6.0443e-07,  0.0000e+00,  3.6787e-07,  ...,  3.7253e-09,
+          8.0839e-07,  1.5879e-06]], device='cuda:0')
+Epoch 242, bias, value: tensor([-0.0385, -0.0332,  0.0115,  0.0351, -0.0192,  0.0056, -0.0114,  0.0125,
+         0.0158, -0.0040], device='cuda:0'), grad: tensor([-2.4866e-07,  1.0282e-06,  6.5938e-07, -3.2298e-06, -7.3016e-07,
+        -7.4357e-06,  3.5111e-06, -6.8173e-07,  1.0496e-06,  6.0983e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 241, time 214.70, cls_loss 0.0009 cls_loss_mapping 0.0025 cls_loss_causal 0.5117 re_mapping 0.0043 re_causal 0.0135 /// teacc 98.85 lr 0.00010000
+Epoch 243, weight, value: tensor([[-0.1021,  0.0562,  0.0612,  ..., -0.0896, -0.1443,  0.0621],
+        [-0.0845, -0.0514, -0.1072,  ...,  0.1685, -0.0861, -0.0686],
+        [-0.0296, -0.0025,  0.1958,  ..., -0.1081, -0.1356, -0.1253],
+        ...,
+        [-0.1194, -0.0578,  0.0120,  ..., -0.0405,  0.1110, -0.0738],
+        [-0.0982, -0.0948, -0.0727,  ..., -0.1363, -0.0048, -0.1661],
+        [-0.1867, -0.0595, -0.1463,  ..., -0.1688, -0.0304,  0.1169]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  0.0000e+00, -3.6415e-07,  ..., -6.5193e-09,
+          9.3132e-09, -1.7323e-07],
+        [ 1.2107e-08,  0.0000e+00,  9.1363e-07,  ..., -8.6706e-07,
+          1.2480e-06,  1.5832e-08],
+        [ 1.4901e-08,  0.0000e+00,  2.7381e-07,  ...,  5.0291e-08,
+          3.2969e-07,  1.3970e-08],
+        ...,
+        [ 8.3819e-09,  0.0000e+00, -1.6410e-06,  ...,  7.0315e-07,
+         -2.2948e-06,  2.2352e-08],
+        [-4.6566e-09,  0.0000e+00,  1.6298e-07,  ...,  4.9360e-08,
+          2.0955e-07,  1.0245e-07],
+        [ 2.4028e-07,  0.0000e+00,  1.1642e-07,  ...,  1.8626e-08,
+          4.5635e-08,  5.9605e-08]], device='cuda:0')
+Epoch 243, bias, value: tensor([-0.0385, -0.0331,  0.0110,  0.0351, -0.0170,  0.0053, -0.0114,  0.0131,
+         0.0159, -0.0065], device='cuda:0'), grad: tensor([-2.2631e-07,  2.1271e-06,  1.9334e-06, -3.7868e-06,  1.0664e-06,
+        -2.5053e-07,  3.3248e-07, -3.9451e-06,  1.8440e-06,  8.9128e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 242, time 214.85, cls_loss 0.0008 cls_loss_mapping 0.0023 cls_loss_causal 0.5150 re_mapping 0.0044 re_causal 0.0135 /// teacc 99.18 lr 0.00010000
+Epoch 244, weight, value: tensor([[-0.1021,  0.0562,  0.0615,  ..., -0.0896, -0.1452,  0.0621],
+        [-0.0844, -0.0514, -0.1075,  ...,  0.1689, -0.0864, -0.0688],
+        [-0.0298, -0.0024,  0.1962,  ..., -0.1082, -0.1358, -0.1254],
+        ...,
+        [-0.1198, -0.0579,  0.0121,  ..., -0.0411,  0.1113, -0.0740],
+        [-0.0994, -0.0948, -0.0729,  ..., -0.1365, -0.0049, -0.1680],
+        [-0.1875, -0.0595, -0.1464,  ..., -0.1697, -0.0307,  0.1184]],
+       device='cuda:0'), grad: tensor([[ 1.7695e-08,  0.0000e+00, -2.9057e-07,  ...,  5.7742e-08,
+          2.7940e-09, -1.5274e-07],
+        [ 1.0617e-07,  0.0000e+00,  9.3132e-09,  ..., -1.6335e-06,
+          9.3132e-09,  1.3039e-08],
+        [ 4.0047e-08,  0.0000e+00,  8.3819e-09,  ...,  1.4529e-07,
+          9.3132e-09,  1.3039e-08],
+        ...,
+        [ 2.0582e-07,  0.0000e+00, -1.0245e-08,  ...,  7.6368e-07,
+         -3.1665e-08,  1.8626e-08],
+        [ 3.0734e-08,  0.0000e+00,  1.0245e-08,  ...,  1.8533e-07,
+          3.5390e-08,  6.5193e-08],
+        [ 1.7220e-06,  0.0000e+00,  2.9802e-08,  ...,  5.9605e-08,
+          1.0245e-08, -4.1816e-07]], device='cuda:0')
+Epoch 244, bias, value: tensor([-0.0385, -0.0330,  0.0110,  0.0351, -0.0164,  0.0057, -0.0117,  0.0131,
+         0.0155, -0.0070], device='cuda:0'), grad: tensor([-3.4831e-07, -4.1202e-06,  5.1409e-07,  1.0664e-06, -2.3432e-06,
+        -3.7160e-07,  3.2224e-07,  2.4289e-06,  6.2864e-07,  2.2110e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 243, time 214.36, cls_loss 0.0007 cls_loss_mapping 0.0015 cls_loss_causal 0.5120 re_mapping 0.0042 re_causal 0.0133 /// teacc 99.15 lr 0.00010000
+Epoch 245, weight, value: tensor([[-0.1021,  0.0562,  0.0623,  ..., -0.0896, -0.1462,  0.0622],
+        [-0.0845, -0.0514, -0.1077,  ...,  0.1693, -0.0868, -0.0690],
+        [-0.0299, -0.0024,  0.1966,  ..., -0.1082, -0.1357, -0.1257],
+        ...,
+        [-0.1203, -0.0579,  0.0119,  ..., -0.0418,  0.1116, -0.0745],
+        [-0.0997, -0.0948, -0.0730,  ..., -0.1367, -0.0048, -0.1682],
+        [-0.1875, -0.0595, -0.1467,  ..., -0.1705, -0.0312,  0.1188]],
+       device='cuda:0'), grad: tensor([[ 1.7695e-08,  0.0000e+00, -2.0768e-07,  ...,  9.3132e-10,
+          5.5879e-09, -1.7136e-07],
+        [ 9.4995e-08,  0.0000e+00,  4.4703e-08,  ..., -1.8626e-08,
+          1.9651e-07,  5.9605e-08],
+        [ 5.5879e-08,  0.0000e+00, -1.1269e-07,  ...,  5.5879e-09,
+          1.3970e-08,  2.3283e-08],
+        ...,
+        [ 4.3772e-08,  0.0000e+00, -1.7509e-07,  ...,  5.5879e-09,
+         -3.5483e-07,  1.3039e-08],
+        [ 5.9605e-08,  0.0000e+00,  4.0978e-08,  ...,  1.8626e-08,
+          9.7789e-08,  9.4064e-08],
+        [ 3.8221e-06,  0.0000e+00,  2.9244e-07,  ...,  2.7940e-09,
+          3.3062e-07,  9.2387e-07]], device='cuda:0')
+Epoch 245, bias, value: tensor([-0.0384, -0.0329,  0.0111,  0.0350, -0.0164,  0.0051, -0.0112,  0.0131,
+         0.0156, -0.0070], device='cuda:0'), grad: tensor([-3.6601e-07,  9.5367e-07,  4.2841e-08,  5.2564e-06, -9.6187e-06,
+        -1.3202e-05,  5.3160e-06, -7.4692e-07,  5.8487e-07,  1.1802e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 244, time 214.12, cls_loss 0.0010 cls_loss_mapping 0.0047 cls_loss_causal 0.4836 re_mapping 0.0043 re_causal 0.0131 /// teacc 99.07 lr 0.00010000
+Epoch 246, weight, value: tensor([[-0.1022,  0.0562,  0.0627,  ..., -0.0896, -0.1503,  0.0623],
+        [-0.0849, -0.0514, -0.1083,  ...,  0.1693, -0.0873, -0.0692],
+        [-0.0275, -0.0023,  0.1974,  ..., -0.1080, -0.1358, -0.1259],
+        ...,
+        [-0.1207, -0.0579,  0.0140,  ..., -0.0420,  0.1147, -0.0775],
+        [-0.1003, -0.0949, -0.0733,  ..., -0.1369, -0.0047, -0.1692],
+        [-0.1875, -0.0596, -0.1498,  ..., -0.1716, -0.0342,  0.1209]],
+       device='cuda:0'), grad: tensor([[ 1.0245e-08, -9.3132e-10, -2.8871e-08,  ...,  1.5832e-08,
+          2.7940e-09, -5.4017e-07],
+        [ 2.0489e-08,  0.0000e+00,  9.3132e-10,  ..., -2.6077e-07,
+          3.7253e-09,  2.7008e-08],
+        [ 7.0781e-08,  0.0000e+00,  3.7253e-09,  ...,  1.8626e-08,
+          9.3132e-09,  2.0489e-08],
+        ...,
+        [ 3.7253e-08,  0.0000e+00, -5.5879e-09,  ...,  3.8184e-08,
+         -1.0245e-08,  1.3411e-07],
+        [-3.3528e-08,  0.0000e+00,  3.7253e-09,  ...,  8.4750e-08,
+         -1.1921e-07,  4.1910e-08],
+        [ 9.2201e-08,  0.0000e+00,  6.5193e-09,  ...,  1.3970e-08,
+          7.4506e-09, -1.4715e-07]], device='cuda:0')
+Epoch 246, bias, value: tensor([-0.0384, -0.0333,  0.0117,  0.0348, -0.0167,  0.0047, -0.0110,  0.0155,
+         0.0154, -0.0078], device='cuda:0'), grad: tensor([-2.0768e-06, -4.4517e-07,  2.5705e-07,  1.4994e-06,  1.1362e-07,
+         3.7998e-07,  9.9093e-07,  5.9791e-07, -1.3616e-06,  4.0047e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 245, time 214.12, cls_loss 0.0008 cls_loss_mapping 0.0024 cls_loss_causal 0.5051 re_mapping 0.0044 re_causal 0.0131 /// teacc 99.06 lr 0.00010000
+Epoch 247, weight, value: tensor([[-0.1022,  0.0562,  0.0632,  ..., -0.0897, -0.1508,  0.0624],
+        [-0.0850, -0.0515, -0.1088,  ...,  0.1692, -0.0900, -0.0693],
+        [-0.0276, -0.0020,  0.1977,  ..., -0.1080, -0.1365, -0.1265],
+        ...,
+        [-0.1215, -0.0580,  0.0146,  ..., -0.0412,  0.1156, -0.0785],
+        [-0.1006, -0.0949, -0.0735,  ..., -0.1371, -0.0047, -0.1695],
+        [-0.1876, -0.0596, -0.1499,  ..., -0.1720, -0.0344,  0.1216]],
+       device='cuda:0'), grad: tensor([[ 2.0489e-08,  3.7253e-09,  7.4506e-08,  ...,  6.1467e-08,
+          3.7253e-09,  0.0000e+00],
+        [ 1.1362e-07,  9.3132e-09,  1.7881e-07,  ..., -1.7378e-06,
+          3.1665e-08,  0.0000e+00],
+        [ 4.6566e-08, -1.1176e-07, -1.9297e-06,  ...,  1.9651e-07,
+          5.2154e-08,  0.0000e+00],
+        ...,
+        [ 9.2201e-08,  4.8429e-08,  7.1432e-07,  ...,  2.1700e-07,
+         -1.1921e-07,  0.0000e+00],
+        [ 2.7008e-08,  2.3283e-08,  4.1723e-07,  ...,  8.1863e-07,
+         -1.8440e-07,  0.0000e+00],
+        [ 2.9262e-06,  9.3132e-10,  2.7008e-08,  ...,  3.6322e-08,
+          5.1223e-08,  0.0000e+00]], device='cuda:0')
+Epoch 247, bias, value: tensor([-0.0384, -0.0342,  0.0117,  0.0348, -0.0166,  0.0048, -0.0112,  0.0162,
+         0.0153, -0.0078], device='cuda:0'), grad: tensor([ 3.1386e-07, -3.3900e-06, -5.2527e-07,  2.7698e-06, -7.3761e-06,
+         2.6077e-08,  1.3104e-06,  1.6307e-06, -2.0899e-06,  7.3239e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 246, time 214.43, cls_loss 0.0007 cls_loss_mapping 0.0019 cls_loss_causal 0.4996 re_mapping 0.0044 re_causal 0.0132 /// teacc 99.11 lr 0.00010000
+Epoch 248, weight, value: tensor([[-0.1022,  0.0562,  0.0634,  ..., -0.0897, -0.1519,  0.0625],
+        [-0.0849, -0.0518, -0.1090,  ...,  0.1696, -0.0904, -0.0694],
+        [-0.0277, -0.0022,  0.1981,  ..., -0.1080, -0.1369, -0.1269],
+        ...,
+        [-0.1216, -0.0568,  0.0145,  ..., -0.0415,  0.1158, -0.0788],
+        [-0.1008, -0.0949, -0.0735,  ..., -0.1372, -0.0045, -0.1697],
+        [-0.1876, -0.0596, -0.1499,  ..., -0.1727, -0.0345,  0.1222]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-08,  0.0000e+00, -9.6709e-06,  ...,  1.9558e-08,
+          1.2107e-08, -5.3234e-06],
+        [ 2.6077e-08,  0.0000e+00,  4.3120e-07,  ..., -5.8673e-08,
+          1.9278e-07,  1.2107e-08],
+        [ 4.1910e-08,  0.0000e+00,  3.2019e-06,  ...,  4.2841e-08,
+          1.7127e-06,  2.8312e-07],
+        ...,
+        [ 2.0955e-07,  0.0000e+00, -3.8557e-06,  ...,  5.4948e-08,
+         -2.3469e-06,  1.2107e-08],
+        [-2.0489e-08,  0.0000e+00,  7.7114e-07,  ...,  3.6322e-08,
+          2.9523e-07,  3.2969e-07],
+        [ 3.4086e-07,  0.0000e+00,  2.9616e-07,  ...,  2.9802e-08,
+          5.2154e-08,  1.4063e-07]], device='cuda:0')
+Epoch 248, bias, value: tensor([-0.0384, -0.0341,  0.0118,  0.0348, -0.0167,  0.0046, -0.0113,  0.0162,
+         0.0155, -0.0077], device='cuda:0'), grad: tensor([-2.2605e-05,  1.2415e-06,  7.6257e-06,  2.0966e-05, -7.0594e-07,
+        -2.3749e-07, -1.1921e-07, -9.0674e-06,  1.5954e-06,  1.2731e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 247, time 214.35, cls_loss 0.0007 cls_loss_mapping 0.0016 cls_loss_causal 0.5066 re_mapping 0.0042 re_causal 0.0133 /// teacc 98.99 lr 0.00010000
+Epoch 249, weight, value: tensor([[-0.1022,  0.0562,  0.0637,  ..., -0.0897, -0.1531,  0.0626],
+        [-0.0849, -0.0518, -0.1092,  ...,  0.1701, -0.0905, -0.0697],
+        [-0.0278, -0.0023,  0.1987,  ..., -0.1082, -0.1371, -0.1271],
+        ...,
+        [-0.1220, -0.0573,  0.0143,  ..., -0.0421,  0.1158, -0.0793],
+        [-0.1013, -0.0949, -0.0737,  ..., -0.1376, -0.0044, -0.1699],
+        [-0.1876, -0.0596, -0.1500,  ..., -0.1734, -0.0345,  0.1230]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  1.0245e-08,  ...,  4.2096e-07,
+          9.3132e-09,  3.5390e-08],
+        [ 4.6566e-09,  0.0000e+00,  8.3819e-09,  ..., -4.2059e-06,
+          2.6077e-08,  1.8626e-08],
+        [ 4.6566e-09,  0.0000e+00, -2.0303e-07,  ...,  3.7439e-07,
+          1.9558e-08,  1.4901e-08],
+        ...,
+        [ 3.3528e-08,  0.0000e+00,  3.7253e-09,  ...,  1.8384e-06,
+         -8.9407e-08,  6.4261e-08],
+        [ 3.7253e-09,  0.0000e+00,  1.4622e-07,  ...,  2.5518e-07,
+          6.1467e-08,  5.3085e-08],
+        [ 1.3970e-08,  0.0000e+00,  4.6566e-09,  ...,  2.5891e-07,
+          5.0291e-08, -1.0338e-07]], device='cuda:0')
+Epoch 249, bias, value: tensor([-0.0384, -0.0339,  0.0119,  0.0348, -0.0168,  0.0044, -0.0114,  0.0159,
+         0.0155, -0.0076], device='cuda:0'), grad: tensor([ 1.0682e-06, -8.9481e-06,  6.8452e-07,  1.5693e-06,  3.2783e-07,
+        -6.9849e-07,  3.4831e-07,  4.4927e-06,  7.8417e-07,  3.5111e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 248, time 214.39, cls_loss 0.0008 cls_loss_mapping 0.0021 cls_loss_causal 0.5101 re_mapping 0.0043 re_causal 0.0130 /// teacc 99.08 lr 0.00010000
+Epoch 250, weight, value: tensor([[-0.1023,  0.0562,  0.0640,  ..., -0.0897, -0.1541,  0.0626],
+        [-0.0850, -0.0519, -0.1093,  ...,  0.1706, -0.0906, -0.0700],
+        [-0.0279, -0.0021,  0.1991,  ..., -0.1082, -0.1380, -0.1272],
+        ...,
+        [-0.1224, -0.0575,  0.0143,  ..., -0.0428,  0.1160, -0.0803],
+        [-0.1017, -0.0949, -0.0740,  ..., -0.1379, -0.0045, -0.1707],
+        [-0.1877, -0.0596, -0.1501,  ..., -0.1742, -0.0345,  0.1239]],
+       device='cuda:0'), grad: tensor([[ 8.3819e-09,  0.0000e+00,  2.5146e-08,  ...,  9.3132e-09,
+          1.5832e-08, -1.3039e-08],
+        [ 4.8429e-08,  0.0000e+00,  2.6170e-07,  ..., -5.5879e-09,
+          3.8184e-08,  2.7940e-09],
+        [ 4.7497e-08,  0.0000e+00, -2.7530e-06,  ...,  2.0489e-08,
+          2.2352e-08,  1.8626e-09],
+        ...,
+        [ 5.2154e-08,  0.0000e+00,  1.7323e-07,  ...,  1.3970e-08,
+         -1.6764e-07,  7.4506e-09],
+        [ 8.6613e-08,  0.0000e+00,  2.1253e-06,  ...,  5.2154e-08,
+          1.5087e-07,  7.4506e-09],
+        [ 4.1258e-07,  0.0000e+00,  2.1420e-08,  ...,  2.7940e-09,
+          9.4064e-08,  3.2596e-08]], device='cuda:0')
+Epoch 250, bias, value: tensor([-0.0384, -0.0337,  0.0120,  0.0349, -0.0169,  0.0046, -0.0118,  0.0157,
+         0.0152, -0.0075], device='cuda:0'), grad: tensor([ 1.0990e-07,  6.0443e-07, -4.7907e-06,  4.1630e-07, -9.2667e-07,
+        -1.1921e-07, -3.9861e-07,  3.2037e-07,  3.9414e-06,  8.2795e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 249, time 214.36, cls_loss 0.0008 cls_loss_mapping 0.0018 cls_loss_causal 0.4950 re_mapping 0.0041 re_causal 0.0126 /// teacc 99.10 lr 0.00010000
+Epoch 251, weight, value: tensor([[-0.1023,  0.0562,  0.0646,  ..., -0.0897, -0.1551,  0.0629],
+        [-0.0853, -0.0520, -0.1100,  ...,  0.1710, -0.0907, -0.0700],
+        [-0.0257, -0.0021,  0.2001,  ..., -0.1082, -0.1381, -0.1275],
+        ...,
+        [-0.1234, -0.0576,  0.0143,  ..., -0.0434,  0.1162, -0.0811],
+        [-0.1028, -0.0949, -0.0744,  ..., -0.1380, -0.0046, -0.1709],
+        [-0.1877, -0.0596, -0.1502,  ..., -0.1749, -0.0345,  0.1241]],
+       device='cuda:0'), grad: tensor([[ 2.0489e-08,  0.0000e+00, -3.6638e-06,  ...,  9.3132e-09,
+          1.3039e-08, -2.0117e-06],
+        [ 8.3819e-09,  0.0000e+00,  3.2689e-07,  ..., -1.5274e-07,
+          6.0536e-08,  3.0734e-08],
+        [ 4.6566e-09,  0.0000e+00,  8.9128e-07,  ...,  3.4459e-08,
+          1.8626e-08,  8.8103e-07],
+        ...,
+        [ 4.6566e-09,  0.0000e+00,  8.7544e-08,  ...,  2.7008e-08,
+         -1.1921e-07,  2.2352e-08],
+        [ 9.3132e-09,  0.0000e+00,  4.5728e-07,  ...,  5.2154e-08,
+          2.6729e-07,  2.0023e-07],
+        [ 5.6811e-08,  0.0000e+00,  4.6287e-07,  ...,  5.5879e-09,
+          3.1106e-07,  6.7707e-07]], device='cuda:0')
+Epoch 251, bias, value: tensor([-0.0383, -0.0340,  0.0127,  0.0349, -0.0168,  0.0045, -0.0120,  0.0156,
+         0.0151, -0.0075], device='cuda:0'), grad: tensor([-6.5789e-06,  4.2934e-07,  1.9185e-06,  1.4380e-06,  1.4901e-08,
+        -2.6263e-06,  1.2936e-06,  3.2596e-08,  2.0154e-06,  2.0452e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 250, time 214.51, cls_loss 0.0009 cls_loss_mapping 0.0019 cls_loss_causal 0.4754 re_mapping 0.0039 re_causal 0.0120 /// teacc 99.15 lr 0.00010000
+Epoch 252, weight, value: tensor([[-0.1023,  0.0562,  0.0646,  ..., -0.0898, -0.1558,  0.0625],
+        [-0.0854, -0.0520, -0.1102,  ...,  0.1713, -0.0912, -0.0701],
+        [-0.0255, -0.0020,  0.1999,  ..., -0.1084, -0.1397, -0.1277],
+        ...,
+        [-0.1238, -0.0576,  0.0153,  ..., -0.0436,  0.1168, -0.0816],
+        [-0.1027, -0.0949, -0.0746,  ..., -0.1381, -0.0046, -0.1710],
+        [-0.1877, -0.0596, -0.1502,  ..., -0.1753, -0.0347,  0.1257]],
+       device='cuda:0'), grad: tensor([[ 6.0257e-07,  0.0000e+00, -1.3784e-07,  ...,  6.5193e-09,
+          2.7008e-08, -5.9605e-08],
+        [ 1.5274e-07,  9.3132e-10,  1.6764e-08,  ..., -3.0175e-07,
+          3.8184e-08,  1.7695e-08],
+        [ 8.9128e-07,  0.0000e+00, -3.5390e-08,  ...,  3.7253e-08,
+          3.0734e-08,  3.9116e-08],
+        ...,
+        [ 8.0094e-08,  9.3132e-10,  0.0000e+00,  ...,  9.1270e-08,
+         -3.6322e-08,  1.6019e-07],
+        [-2.7210e-05,  1.4901e-08,  2.0489e-08,  ...,  8.8476e-08,
+          1.4529e-07, -7.8045e-07],
+        [ 1.1008e-06,  0.0000e+00,  3.4459e-08,  ...,  1.1176e-08,
+          6.0536e-08, -4.9639e-07]], device='cuda:0')
+Epoch 252, bias, value: tensor([-0.0384, -0.0341,  0.0122,  0.0349, -0.0170,  0.0046, -0.0119,  0.0163,
+         0.0151, -0.0074], device='cuda:0'), grad: tensor([ 2.0154e-06, -5.4203e-07,  3.4459e-06,  1.0771e-04,  1.9744e-06,
+        -2.2650e-05,  5.2992e-07,  1.4016e-06, -9.5725e-05,  1.7975e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 251, time 214.14, cls_loss 0.0008 cls_loss_mapping 0.0024 cls_loss_causal 0.5012 re_mapping 0.0040 re_causal 0.0127 /// teacc 99.10 lr 0.00010000
+Epoch 253, weight, value: tensor([[-0.1024,  0.0562,  0.0655,  ..., -0.0897, -0.1573,  0.0626],
+        [-0.0855, -0.0520, -0.1105,  ...,  0.1716, -0.0914, -0.0704],
+        [-0.0257, -0.0019,  0.2001,  ..., -0.1086, -0.1400, -0.1280],
+        ...,
+        [-0.1245, -0.0576,  0.0154,  ..., -0.0435,  0.1173, -0.0827],
+        [-0.1016, -0.0949, -0.0747,  ..., -0.1384, -0.0047, -0.1713],
+        [-0.1877, -0.0597, -0.1503,  ..., -0.1760, -0.0347,  0.1280]],
+       device='cuda:0'), grad: tensor([[ 2.2352e-08, -9.3132e-10, -1.1176e-08,  ...,  8.3819e-08,
+          9.3132e-10, -6.5193e-09],
+        [ 1.8626e-09,  0.0000e+00,  7.1712e-08,  ...,  2.5146e-08,
+          3.0734e-08,  9.3132e-10],
+        [ 9.3132e-10,  0.0000e+00, -1.3411e-07,  ...,  2.1420e-08,
+          5.5879e-09,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-08,  ...,  2.2352e-08,
+         -7.4506e-08,  1.6764e-08],
+        [ 1.6764e-08,  0.0000e+00,  6.5193e-09,  ...,  1.2107e-07,
+          3.7253e-09,  6.5193e-09],
+        [ 9.3132e-10,  0.0000e+00,  1.5832e-08,  ...,  8.3819e-09,
+          2.1420e-08, -4.8429e-08]], device='cuda:0')
+Epoch 253, bias, value: tensor([-0.0383, -0.0343,  0.0119,  0.0348, -0.0177,  0.0046, -0.0119,  0.0169,
+         0.0151, -0.0068], device='cuda:0'), grad: tensor([ 5.1036e-07,  4.3772e-07, -8.1956e-08, -2.4475e-06,  1.2945e-07,
+         8.3819e-07, -2.7753e-07,  7.8231e-08,  7.6927e-07,  3.8184e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 252, time 214.35, cls_loss 0.0008 cls_loss_mapping 0.0023 cls_loss_causal 0.4701 re_mapping 0.0041 re_causal 0.0122 /// teacc 99.14 lr 0.00010000
+Epoch 254, weight, value: tensor([[-0.1024,  0.0562,  0.0663,  ..., -0.0897, -0.1578,  0.0629],
+        [-0.0855, -0.0521, -0.1106,  ...,  0.1718, -0.0916, -0.0705],
+        [-0.0259, -0.0018,  0.2002,  ..., -0.1087, -0.1403, -0.1282],
+        ...,
+        [-0.1244, -0.0576,  0.0155,  ..., -0.0437,  0.1170, -0.0856],
+        [-0.1022, -0.0949, -0.0749,  ..., -0.1385, -0.0048, -0.1716],
+        [-0.1877, -0.0597, -0.1505,  ..., -0.1766, -0.0341,  0.1299]],
+       device='cuda:0'), grad: tensor([[ 5.0291e-08,  0.0000e+00,  2.4214e-08,  ...,  8.9407e-08,
+          8.3819e-08,  1.0245e-07],
+        [ 8.9407e-08,  0.0000e+00,  4.8243e-07,  ..., -5.8115e-07,
+          4.1723e-07,  4.0978e-08],
+        [ 1.0803e-07,  0.0000e+00,  1.4566e-06,  ...,  1.1362e-07,
+          1.0785e-06,  9.1270e-08],
+        ...,
+        [ 5.7742e-08,  0.0000e+00, -4.1611e-06,  ...,  1.6764e-07,
+         -4.3772e-06,  9.3132e-09],
+        [ 1.2293e-07,  0.0000e+00,  5.6438e-07,  ...,  3.3528e-07,
+          4.3213e-07,  2.0862e-07],
+        [ 5.2899e-07,  0.0000e+00,  1.0189e-06,  ...,  5.2154e-08,
+          1.5795e-06,  2.0303e-07]], device='cuda:0')
+Epoch 254, bias, value: tensor([-0.0382, -0.0342,  0.0118,  0.0349, -0.0178,  0.0043, -0.0118,  0.0159,
+         0.0152, -0.0064], device='cuda:0'), grad: tensor([ 1.0896e-06, -1.6019e-07,  4.2990e-06,  1.0114e-06, -8.4937e-07,
+         1.8775e-05, -2.1979e-05, -1.1154e-05,  3.3677e-06,  5.5581e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 253, time 214.27, cls_loss 0.0007 cls_loss_mapping 0.0017 cls_loss_causal 0.4933 re_mapping 0.0042 re_causal 0.0130 /// teacc 99.16 lr 0.00010000
+Epoch 255, weight, value: tensor([[-0.1025,  0.0562,  0.0670,  ..., -0.0897, -0.1582,  0.0630],
+        [-0.0856, -0.0551, -0.1108,  ...,  0.1720, -0.0919, -0.0707],
+        [-0.0263, -0.0011,  0.2009,  ..., -0.1090, -0.1407, -0.1284],
+        ...,
+        [-0.1259, -0.0580,  0.0153,  ..., -0.0435,  0.1175, -0.0863],
+        [-0.1029, -0.0951, -0.0747,  ..., -0.1389, -0.0048, -0.1717],
+        [-0.1878, -0.0598, -0.1509,  ..., -0.1775, -0.0343,  0.1307]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09, -2.4457e-06, -1.5721e-05,  ...,  5.5879e-09,
+         -1.1586e-06, -6.9067e-06],
+        [ 9.3132e-09,  3.7253e-09,  1.5460e-07,  ..., -1.6764e-07,
+          7.4506e-09,  9.3132e-09],
+        [ 5.5879e-09,  9.8720e-08,  3.5428e-06,  ...,  3.3528e-08,
+          9.6858e-08,  2.7567e-07],
+        ...,
+        [ 1.3039e-08,  2.6077e-08,  1.6764e-08,  ...,  2.9802e-08,
+         -1.0990e-07,  8.0094e-08],
+        [ 1.1176e-08,  1.6578e-07,  1.3281e-06,  ...,  1.1362e-07,
+          8.0094e-08,  5.0105e-07],
+        [ 3.1665e-08,  1.6876e-06,  7.6517e-06,  ...,  9.3132e-09,
+          8.3074e-07,  4.7162e-06]], device='cuda:0')
+Epoch 255, bias, value: tensor([-0.0382, -0.0344,  0.0117,  0.0349, -0.0179,  0.0042, -0.0114,  0.0160,
+         0.0152, -0.0063], device='cuda:0'), grad: tensor([-3.2544e-05, -2.4959e-07,  8.0764e-06,  3.7197e-06, -3.1665e-08,
+         3.5949e-07,  2.0675e-06,  1.2852e-07,  3.2689e-06,  1.5154e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 254, time 214.48, cls_loss 0.0010 cls_loss_mapping 0.0037 cls_loss_causal 0.4969 re_mapping 0.0041 re_causal 0.0127 /// teacc 99.13 lr 0.00010000
+Epoch 256, weight, value: tensor([[-0.1026,  0.0562,  0.0672,  ..., -0.0898, -0.1590,  0.0631],
+        [-0.0857, -0.0552, -0.1108,  ...,  0.1712, -0.0921, -0.0756],
+        [-0.0268, -0.0010,  0.2013,  ..., -0.1092, -0.1411, -0.1289],
+        ...,
+        [-0.1299, -0.0582,  0.0154,  ..., -0.0425,  0.1176, -0.0867],
+        [-0.1035, -0.0951, -0.0751,  ..., -0.1380, -0.0048, -0.1674],
+        [-0.1878, -0.0602, -0.1510,  ..., -0.1812, -0.0344,  0.1310]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  0.0000e+00, -6.3889e-07,  ...,  1.8626e-09,
+          2.7940e-08, -2.1048e-07],
+        [ 2.7940e-08,  0.0000e+00,  5.2154e-08,  ..., -7.8231e-08,
+          1.7136e-07,  5.0291e-08],
+        [ 1.6764e-08,  0.0000e+00,  3.6508e-07,  ...,  2.6077e-08,
+          2.2352e-08,  1.8440e-07],
+        ...,
+        [ 6.1430e-06,  0.0000e+00, -1.1176e-07,  ..., -3.9116e-08,
+          1.0240e-04,  1.0937e-04],
+        [ 2.7940e-08,  0.0000e+00,  8.5682e-08,  ...,  4.0978e-08,
+          9.6858e-08,  1.0245e-07],
+        [ 3.5390e-08,  0.0000e+00,  5.0291e-08,  ...,  2.2352e-08,
+         -1.0091e-04, -1.0985e-04]], device='cuda:0')
+Epoch 256, bias, value: tensor([-0.0383, -0.0358,  0.0115,  0.0336, -0.0177,  0.0059, -0.0118,  0.0161,
+         0.0168, -0.0063], device='cuda:0'), grad: tensor([-6.9663e-07,  4.4703e-07,  7.4320e-07,  7.0408e-07, -1.1563e-05,
+         1.7136e-07,  2.5891e-07,  5.4693e-04,  8.8103e-07, -5.3740e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 255, time 214.69, cls_loss 0.0007 cls_loss_mapping 0.0018 cls_loss_causal 0.4737 re_mapping 0.0040 re_causal 0.0123 /// teacc 99.11 lr 0.00010000
+Epoch 257, weight, value: tensor([[-0.1026,  0.0562,  0.0671,  ..., -0.0898, -0.1610,  0.0630],
+        [-0.0857, -0.0552, -0.1111,  ...,  0.1715, -0.0923, -0.0757],
+        [-0.0270, -0.0009,  0.2019,  ..., -0.1093, -0.1414, -0.1290],
+        ...,
+        [-0.1320, -0.0582,  0.0154,  ..., -0.0429,  0.1175, -0.0878],
+        [-0.1042, -0.0951, -0.0754,  ..., -0.1382, -0.0050, -0.1675],
+        [-0.1879, -0.0602, -0.1511,  ..., -0.1825, -0.0340,  0.1320]],
+       device='cuda:0'), grad: tensor([[ 4.4703e-08,  0.0000e+00,  1.1921e-07,  ...,  6.8918e-08,
+          6.5193e-08,  0.0000e+00],
+        [ 4.8429e-08,  0.0000e+00,  3.9116e-08,  ..., -9.7975e-07,
+          9.3132e-09,  9.3132e-09],
+        [ 3.9116e-08,  0.0000e+00, -2.0303e-07,  ...,  1.5460e-07,
+          3.8370e-07,  7.4506e-09],
+        ...,
+        [ 1.3784e-07,  0.0000e+00, -7.3761e-07,  ...,  1.4342e-07,
+         -5.5507e-07,  1.3039e-08],
+        [ 5.9605e-08,  0.0000e+00,  3.7625e-07,  ...,  4.6194e-07,
+         -2.0489e-08,  3.9302e-07],
+        [ 3.7253e-07,  0.0000e+00,  1.0803e-07,  ...,  2.0489e-08,
+          7.6368e-08, -7.6927e-07]], device='cuda:0')
+Epoch 257, bias, value: tensor([-0.0383, -0.0357,  0.0117,  0.0327, -0.0177,  0.0074, -0.0116,  0.0155,
+         0.0166, -0.0060], device='cuda:0'), grad: tensor([ 7.4506e-07, -2.1718e-06,  1.0598e-06, -4.9919e-07, -7.4878e-07,
+         8.4750e-07,  8.3074e-07, -9.5181e-07,  1.4883e-06, -6.0536e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 256, time 214.28, cls_loss 0.0009 cls_loss_mapping 0.0022 cls_loss_causal 0.5049 re_mapping 0.0042 re_causal 0.0125 /// teacc 99.16 lr 0.00010000
+Epoch 258, weight, value: tensor([[-0.1027,  0.0563,  0.0674,  ..., -0.0899, -0.1625,  0.0630],
+        [-0.0859, -0.0557, -0.1111,  ...,  0.1723, -0.0925, -0.0757],
+        [-0.0276, -0.0010,  0.2022,  ..., -0.1096, -0.1418, -0.1293],
+        ...,
+        [-0.1339, -0.0583,  0.0154,  ..., -0.0440,  0.1177, -0.0880],
+        [-0.1051, -0.0951, -0.0756,  ..., -0.1385, -0.0052, -0.1676],
+        [-0.1881, -0.0602, -0.1513,  ..., -0.1853, -0.0343,  0.1323]],
+       device='cuda:0'), grad: tensor([[ 1.3039e-08,  0.0000e+00,  6.1467e-08,  ...,  1.8626e-09,
+          4.2841e-08,  8.0094e-08],
+        [ 5.5879e-09,  0.0000e+00,  4.0978e-08,  ..., -2.4028e-07,
+          3.7253e-09,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00, -3.7998e-07,  ...,  9.3132e-09,
+          1.8626e-09,  1.8626e-09],
+        ...,
+        [ 1.8626e-09,  0.0000e+00,  1.5460e-07,  ...,  1.6578e-07,
+          3.7253e-09,  3.7253e-09],
+        [ 5.5879e-09,  0.0000e+00,  2.6077e-08,  ...,  3.3528e-08,
+          1.3970e-07,  1.5274e-07],
+        [-1.8626e-08,  0.0000e+00,  1.4901e-08,  ...,  1.8626e-09,
+          3.7253e-08, -1.3039e-08]], device='cuda:0')
+Epoch 258, bias, value: tensor([-0.0384, -0.0353,  0.0113,  0.0332, -0.0175,  0.0065, -0.0104,  0.0151,
+         0.0164, -0.0062], device='cuda:0'), grad: tensor([ 3.0734e-07, -4.1164e-07, -3.3714e-07, -2.9989e-07,  1.3970e-07,
+        -8.1025e-07,  3.5018e-07,  4.9174e-07,  5.6997e-07,  1.8626e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 257, time 214.46, cls_loss 0.0009 cls_loss_mapping 0.0025 cls_loss_causal 0.5018 re_mapping 0.0042 re_causal 0.0122 /// teacc 99.19 lr 0.00010000
+Epoch 259, weight, value: tensor([[-0.1028,  0.0563,  0.0672,  ..., -0.0899, -0.1643,  0.0625],
+        [-0.0859, -0.0557, -0.1107,  ...,  0.1740, -0.0926, -0.0757],
+        [-0.0279, -0.0010,  0.2025,  ..., -0.1114, -0.1422, -0.1299],
+        ...,
+        [-0.1345, -0.0583,  0.0126,  ..., -0.0453,  0.1166, -0.0882],
+        [-0.1058, -0.0951, -0.0731,  ..., -0.1387, -0.0031, -0.1677],
+        [-0.1881, -0.0602, -0.1512,  ..., -0.1878, -0.0344,  0.1334]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09,  0.0000e+00, -7.4506e-09,  ...,  5.5879e-09,
+          3.7253e-09, -7.4506e-09],
+        [ 2.0489e-08,  0.0000e+00,  6.7055e-08,  ..., -2.1234e-07,
+          8.9407e-08,  5.5879e-09],
+        [ 1.1176e-08,  0.0000e+00, -3.9302e-07,  ...,  6.7055e-08,
+         -7.2643e-08,  1.8626e-09],
+        ...,
+        [ 2.5146e-07,  0.0000e+00,  9.4995e-08,  ...,  9.3132e-08,
+          3.9116e-08,  1.1735e-07],
+        [ 2.7940e-08,  0.0000e+00,  2.4214e-08,  ...,  1.2666e-07,
+          8.7544e-08,  9.3132e-09],
+        [ 4.8652e-06,  0.0000e+00,  2.2352e-08,  ...,  9.3132e-09,
+          2.0526e-06, -2.9244e-07]], device='cuda:0')
+Epoch 259, bias, value: tensor([-0.0387, -0.0343,  0.0101,  0.0333, -0.0176,  0.0063, -0.0103,  0.0132,
+         0.0176, -0.0060], device='cuda:0'), grad: tensor([ 3.7253e-08, -2.3097e-07, -2.0675e-07,  1.8440e-07, -1.6600e-05,
+        -8.9966e-07,  3.8370e-07,  1.3225e-06,  7.3761e-07,  1.5303e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 258, time 214.62, cls_loss 0.0009 cls_loss_mapping 0.0029 cls_loss_causal 0.5092 re_mapping 0.0042 re_causal 0.0128 /// teacc 99.15 lr 0.00010000
+Epoch 260, weight, value: tensor([[-0.1028,  0.0563,  0.0673,  ..., -0.0900, -0.1673,  0.0623],
+        [-0.0859, -0.0557, -0.1114,  ...,  0.1750, -0.0936, -0.0756],
+        [-0.0280, -0.0009,  0.2034,  ..., -0.1118, -0.1426, -0.1302],
+        ...,
+        [-0.1350, -0.0583,  0.0131,  ..., -0.0465,  0.1188, -0.0893],
+        [-0.1061, -0.0951, -0.0732,  ..., -0.1389, -0.0033, -0.1680],
+        [-0.1882, -0.0602, -0.1525,  ..., -0.1913, -0.0368,  0.1342]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  3.2224e-07,
+          1.1176e-08,  4.1723e-07],
+        [ 9.3132e-09,  0.0000e+00,  1.8626e-09,  ..., -1.3411e-07,
+          3.7253e-09,  4.8429e-08],
+        [ 3.7253e-09,  0.0000e+00, -1.3597e-07,  ...,  3.1665e-08,
+          3.7253e-09,  1.1176e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  8.3819e-08,
+          5.5879e-09,  1.1176e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.4995e-08,  ...,  9.1270e-07,
+          1.2480e-07,  1.1884e-06],
+        [ 1.4901e-08,  0.0000e+00,  1.8626e-09,  ...,  5.4017e-08,
+          1.8626e-08,  5.2154e-08]], device='cuda:0')
+Epoch 260, bias, value: tensor([-0.0388, -0.0340,  0.0102,  0.0333, -0.0177,  0.0063, -0.0096,  0.0151,
+         0.0173, -0.0073], device='cuda:0'), grad: tensor([ 1.5348e-06, -2.1420e-07, -9.8720e-08,  1.3150e-06,  5.9605e-08,
+         6.3181e-06, -1.4156e-05,  2.4401e-07,  4.7050e-06,  2.6636e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 259, time 214.22, cls_loss 0.0007 cls_loss_mapping 0.0021 cls_loss_causal 0.4916 re_mapping 0.0042 re_causal 0.0135 /// teacc 99.07 lr 0.00010000
+Epoch 261, weight, value: tensor([[-0.1028,  0.0563,  0.0679,  ..., -0.0901, -0.1687,  0.0624],
+        [-0.0860, -0.0558, -0.1115,  ...,  0.1754, -0.0938, -0.0756],
+        [-0.0288, -0.0003,  0.2037,  ..., -0.1123, -0.1426, -0.1308],
+        ...,
+        [-0.1354, -0.0585,  0.0130,  ..., -0.0469,  0.1189, -0.0895],
+        [-0.1077, -0.0952, -0.0733,  ..., -0.1391, -0.0034, -0.1689],
+        [-0.1879, -0.0603, -0.1526,  ..., -0.1914, -0.0370,  0.1371]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -8.5682e-08,  ...,  8.5682e-08,
+          0.0000e+00, -6.1467e-08],
+        [ 1.8626e-09,  0.0000e+00,  9.3132e-09,  ...,  4.9546e-07,
+          2.4214e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.1176e-08,  ...,  1.0226e-06,
+          1.1176e-08,  5.5879e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -2.0489e-08,  ...,  3.5390e-07,
+         -1.3411e-07,  1.4901e-08],
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  2.8685e-07,
+          1.1176e-08,  1.1176e-08],
+        [ 7.4506e-09,  0.0000e+00,  3.9116e-08,  ...,  1.4901e-08,
+          5.2154e-08,  1.4901e-08]], device='cuda:0')
+Epoch 261, bias, value: tensor([-0.0388, -0.0339,  0.0100,  0.0334, -0.0187,  0.0063, -0.0092,  0.0150,
+         0.0169, -0.0063], device='cuda:0'), grad: tensor([ 4.4890e-07,  3.8445e-06,  7.7486e-06, -1.9878e-05,  3.9116e-07,
+         2.7865e-06,  2.0489e-08,  2.4587e-06,  1.8645e-06,  3.0175e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 260, time 214.66, cls_loss 0.0008 cls_loss_mapping 0.0014 cls_loss_causal 0.4879 re_mapping 0.0040 re_causal 0.0126 /// teacc 99.17 lr 0.00010000
+Epoch 262, weight, value: tensor([[-0.1028,  0.0563,  0.0691,  ..., -0.0901, -0.1692,  0.0627],
+        [-0.0861, -0.0558, -0.1121,  ...,  0.1753, -0.0950, -0.0757],
+        [-0.0294, -0.0002,  0.2049,  ..., -0.1124, -0.1428, -0.1314],
+        ...,
+        [-0.1362, -0.0585,  0.0128,  ..., -0.0462,  0.1193, -0.0896],
+        [-0.1079, -0.0952, -0.0734,  ..., -0.1393, -0.0035, -0.1689],
+        [-0.1879, -0.0603, -0.1531,  ..., -0.1917, -0.0371,  0.1373]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.4901e-08,  ...,  0.0000e+00,
+          9.1270e-08,  1.4901e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.4273e-07,  ..., -2.9802e-08,
+          2.5146e-07,  2.0489e-08],
+        [ 0.0000e+00,  0.0000e+00, -3.6694e-07,  ...,  1.1176e-08,
+          5.7369e-07,  5.5879e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -2.1048e-07,  ...,  3.7253e-09,
+          4.6194e-07,  2.6077e-08],
+        [ 0.0000e+00,  0.0000e+00,  7.0781e-08,  ...,  9.3132e-09,
+          7.4506e-07,  8.7544e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.1665e-08,  ...,  0.0000e+00,
+          1.3411e-07, -2.9616e-07]], device='cuda:0')
+Epoch 262, bias, value: tensor([-0.0387, -0.0343,  0.0105,  0.0334, -0.0188,  0.0063, -0.0091,  0.0151,
+         0.0170, -0.0063], device='cuda:0'), grad: tensor([ 7.7300e-07,  2.1979e-06,  2.8815e-06, -2.5123e-05,  3.2037e-07,
+         7.4394e-06,  2.5705e-07,  5.9009e-06,  4.9844e-06,  3.2037e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 261, time 214.28, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4872 re_mapping 0.0041 re_causal 0.0128 /// teacc 99.11 lr 0.00010000
+Epoch 263, weight, value: tensor([[-0.1029,  0.0563,  0.0705,  ..., -0.0901, -0.1696,  0.0634],
+        [-0.0862, -0.0591, -0.1129,  ...,  0.1752, -0.0955, -0.0758],
+        [-0.0294,  0.0027,  0.2056,  ..., -0.1123, -0.1432, -0.1320],
+        ...,
+        [-0.1368, -0.0585,  0.0128,  ..., -0.0459,  0.1196, -0.0901],
+        [-0.1080, -0.0952, -0.0734,  ..., -0.1395, -0.0037, -0.1692],
+        [-0.1879, -0.0604, -0.1534,  ..., -0.1920, -0.0372,  0.1375]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -8.5682e-08,  ...,  0.0000e+00,
+          5.5879e-09, -7.8231e-08],
+        [ 1.8626e-09,  0.0000e+00,  1.8626e-09,  ..., -9.1270e-08,
+          3.5390e-08,  1.8626e-09],
+        [ 1.8626e-09,  0.0000e+00,  1.8626e-09,  ...,  2.7940e-08,
+          2.4214e-08,  5.5879e-09],
+        ...,
+        [ 1.8626e-09,  0.0000e+00,  1.8626e-09,  ...,  2.4214e-08,
+         -1.3784e-07, -2.9802e-08],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  2.6077e-08,
+         -5.2340e-07,  5.5879e-09],
+        [ 1.1176e-08,  0.0000e+00,  4.2841e-08,  ...,  5.5879e-09,
+          1.7509e-07,  3.5390e-08]], device='cuda:0')
+Epoch 263, bias, value: tensor([-0.0384, -0.0346,  0.0108,  0.0334, -0.0188,  0.0065, -0.0097,  0.0151,
+         0.0169, -0.0064], device='cuda:0'), grad: tensor([-1.2666e-07, -1.8626e-09,  1.9372e-07,  8.8103e-07,  1.1176e-08,
+         1.3858e-06,  8.0094e-08, -1.2293e-07, -3.0734e-06,  7.5623e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 262, time 214.18, cls_loss 0.0008 cls_loss_mapping 0.0015 cls_loss_causal 0.5050 re_mapping 0.0042 re_causal 0.0124 /// teacc 99.14 lr 0.00010000
+Epoch 264, weight, value: tensor([[-0.1029,  0.0563,  0.0710,  ..., -0.0901, -0.1708,  0.0637],
+        [-0.0864, -0.0591, -0.1131,  ...,  0.1754, -0.0958, -0.0758],
+        [-0.0299,  0.0028,  0.2065,  ..., -0.1124, -0.1432, -0.1320],
+        ...,
+        [-0.1374, -0.0588,  0.0127,  ..., -0.0460,  0.1198, -0.0903],
+        [-0.1077, -0.0952, -0.0735,  ..., -0.1395, -0.0038, -0.1694],
+        [-0.1881, -0.0604, -0.1539,  ..., -0.1923, -0.0373,  0.1376]],
+       device='cuda:0'), grad: tensor([[ 8.3819e-08,  0.0000e+00,  1.6764e-08,  ...,  1.6950e-07,
+          3.7253e-09,  8.0094e-08],
+        [ 5.5879e-09,  0.0000e+00,  2.2352e-08,  ..., -3.5763e-07,
+          1.4901e-08,  3.7253e-09],
+        [ 7.4506e-09, -0.0000e+00,  2.0489e-08,  ...,  2.8312e-07,
+          1.1548e-07,  3.7253e-09],
+        ...,
+        [ 7.4506e-09,  0.0000e+00, -1.2107e-07,  ...,  2.0489e-08,
+         -1.7509e-07,  7.4506e-09],
+        [-2.7940e-08,  0.0000e+00,  2.4214e-08,  ...,  1.7136e-07,
+          3.5390e-08, -3.3528e-08],
+        [ 1.0990e-07,  0.0000e+00,  5.5879e-09,  ...,  5.5879e-09,
+          5.5879e-09, -1.6764e-08]], device='cuda:0')
+Epoch 264, bias, value: tensor([-0.0383, -0.0347,  0.0110,  0.0334, -0.0187,  0.0066, -0.0097,  0.0152,
+         0.0168, -0.0067], device='cuda:0'), grad: tensor([ 5.1595e-07, -3.2596e-07,  5.3085e-07, -1.6969e-06, -8.1956e-08,
+         1.9278e-06, -6.7241e-07, -2.8498e-07, -4.0792e-07,  4.7870e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 263, time 214.40, cls_loss 0.0006 cls_loss_mapping 0.0013 cls_loss_causal 0.4787 re_mapping 0.0042 re_causal 0.0127 /// teacc 99.09 lr 0.00010000
+Epoch 265, weight, value: tensor([[-0.1029,  0.0563,  0.0711,  ..., -0.0901, -0.1749,  0.0638],
+        [-0.0864, -0.0592, -0.1134,  ...,  0.1756, -0.0962, -0.0759],
+        [-0.0301,  0.0028,  0.2070,  ..., -0.1125, -0.1435, -0.1321],
+        ...,
+        [-0.1375, -0.0589,  0.0127,  ..., -0.0461,  0.1202, -0.0904],
+        [-0.1078, -0.0953, -0.0736,  ..., -0.1396, -0.0040, -0.1695],
+        [-0.1882, -0.0606, -0.1541,  ..., -0.1925, -0.0374,  0.1377]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09,  0.0000e+00, -7.2643e-08,  ...,  3.7253e-09,
+          9.3132e-09, -7.0781e-08],
+        [ 9.3132e-09,  0.0000e+00,  5.5879e-09,  ..., -3.7253e-07,
+          1.4901e-08,  0.0000e+00],
+        [ 5.5879e-09,  0.0000e+00, -2.0489e-07,  ...,  1.6391e-07,
+          1.3039e-08,  1.8626e-09],
+        ...,
+        [ 5.4017e-08,  0.0000e+00,  1.6764e-07,  ...,  4.4703e-08,
+          2.9802e-08,  2.0489e-08],
+        [ 9.3132e-09,  0.0000e+00,  1.1176e-08,  ...,  7.6368e-08,
+          1.6764e-08,  2.2352e-08],
+        [ 1.1176e-08,  0.0000e+00,  4.6566e-08,  ...,  5.5879e-09,
+          1.8626e-08, -7.4506e-09]], device='cuda:0')
+Epoch 265, bias, value: tensor([-0.0383, -0.0348,  0.0110,  0.0336, -0.0186,  0.0064, -0.0096,  0.0153,
+         0.0166, -0.0068], device='cuda:0'), grad: tensor([-6.3330e-08, -7.5437e-07,  1.6950e-07, -6.9439e-06,  1.0431e-07,
+         6.7353e-06,  5.9605e-08,  6.5193e-07, -5.5879e-09,  5.2154e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 264, time 214.31, cls_loss 0.0007 cls_loss_mapping 0.0013 cls_loss_causal 0.4606 re_mapping 0.0038 re_causal 0.0117 /// teacc 99.12 lr 0.00010000
+Epoch 266, weight, value: tensor([[-0.1030,  0.0563,  0.0722,  ..., -0.0902, -0.1760,  0.0643],
+        [-0.0866, -0.0592, -0.1136,  ...,  0.1758, -0.0967, -0.0760],
+        [-0.0305,  0.0028,  0.2080,  ..., -0.1127, -0.1438, -0.1325],
+        ...,
+        [-0.1381, -0.0589,  0.0127,  ..., -0.0463,  0.1205, -0.0905],
+        [-0.1059, -0.0953, -0.0737,  ..., -0.1397, -0.0041, -0.1696],
+        [-0.1883, -0.0613, -0.1548,  ..., -0.1927, -0.0375,  0.1376]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -5.9605e-08,  ...,  1.3039e-08,
+          1.4156e-07,  2.4959e-07],
+        [ 7.4506e-09,  0.0000e+00,  1.6764e-08,  ..., -4.8839e-06,
+          9.3132e-09,  2.0489e-08],
+        [ 1.8626e-09,  0.0000e+00, -7.4506e-08,  ...,  3.6918e-06,
+          2.2352e-08,  2.6077e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -3.7253e-09,  ...,  1.0040e-06,
+         -2.9802e-08,  7.0781e-08],
+        [-3.7253e-09,  0.0000e+00,  1.8626e-09,  ...,  5.4017e-08,
+          1.8813e-07,  4.0233e-07],
+        [ 2.0489e-08,  0.0000e+00,  2.7940e-08,  ...,  1.4901e-08,
+          1.4901e-08, -2.1607e-07]], device='cuda:0')
+Epoch 266, bias, value: tensor([-0.0381, -0.0348,  0.0114,  0.0335, -0.0186,  0.0064, -0.0100,  0.0153,
+         0.0169, -0.0070], device='cuda:0'), grad: tensor([ 1.1921e-06, -7.7486e-06,  6.7689e-06,  9.3505e-07,  2.1607e-07,
+        -4.6864e-06,  1.7174e-06,  1.9800e-06, -1.4156e-07, -2.6077e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 265, time 214.42, cls_loss 0.0010 cls_loss_mapping 0.0024 cls_loss_causal 0.4857 re_mapping 0.0040 re_causal 0.0118 /// teacc 99.07 lr 0.00010000
+Epoch 267, weight, value: tensor([[-0.1031,  0.0563,  0.0727,  ..., -0.0902, -0.1771,  0.0644],
+        [-0.0867, -0.0593, -0.1140,  ...,  0.1760, -0.0974, -0.0761],
+        [-0.0309,  0.0030,  0.2086,  ..., -0.1130, -0.1452, -0.1327],
+        ...,
+        [-0.1392, -0.0589,  0.0132,  ..., -0.0461,  0.1218, -0.0906],
+        [-0.1068, -0.0953, -0.0739,  ..., -0.1400, -0.0045, -0.1697],
+        [-0.1884, -0.0614, -0.1552,  ..., -0.1931, -0.0378,  0.1377]],
+       device='cuda:0'), grad: tensor([[ 1.4137e-06,  0.0000e+00, -3.3155e-07,  ...,  3.7625e-07,
+          1.8626e-09, -2.7008e-07],
+        [ 1.3039e-08,  0.0000e+00,  3.3528e-08,  ..., -2.9802e-08,
+          7.4506e-09,  3.5390e-08],
+        [ 8.5682e-08,  0.0000e+00,  1.0431e-07,  ...,  2.6077e-08,
+          1.1176e-08,  7.0781e-08],
+        ...,
+        [ 1.8626e-08,  0.0000e+00, -4.6566e-08,  ...,  3.7253e-09,
+         -1.0058e-07,  4.8429e-08],
+        [ 1.1362e-06,  0.0000e+00,  3.7812e-07,  ...,  2.9244e-07,
+          9.3132e-09,  4.6566e-08],
+        [ 3.1665e-08,  0.0000e+00,  9.3132e-08,  ...,  1.8626e-09,
+          5.5879e-09, -4.1723e-07]], device='cuda:0')
+Epoch 267, bias, value: tensor([-0.0382, -0.0351,  0.0112,  0.0323, -0.0186,  0.0079, -0.0094,  0.0163,
+         0.0165, -0.0071], device='cuda:0'), grad: tensor([ 2.7008e-06,  1.3039e-07,  6.1467e-07,  3.1106e-07,  1.4249e-06,
+         2.3283e-07, -8.0913e-06, -7.0781e-08,  3.4217e-06, -7.0035e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 266, time 214.43, cls_loss 0.0007 cls_loss_mapping 0.0017 cls_loss_causal 0.4789 re_mapping 0.0040 re_causal 0.0117 /// teacc 99.05 lr 0.00010000
+Epoch 268, weight, value: tensor([[-0.1032,  0.0563,  0.0735,  ..., -0.0903, -0.1773,  0.0647],
+        [-0.0868, -0.0593, -0.1142,  ...,  0.1765, -0.0975, -0.0761],
+        [-0.0305,  0.0032,  0.2089,  ..., -0.1131, -0.1453, -0.1332],
+        ...,
+        [-0.1397, -0.0589,  0.0132,  ..., -0.0464,  0.1220, -0.0907],
+        [-0.1072, -0.0954, -0.0740,  ..., -0.1402, -0.0046, -0.1699],
+        [-0.1884, -0.0614, -0.1553,  ..., -0.1935, -0.0378,  0.1382]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  0.0000e+00,  1.0058e-07,  ...,  7.4506e-09,
+          2.7940e-08,  9.6858e-08],
+        [-5.5879e-09,  0.0000e+00,  1.3039e-07,  ..., -8.5682e-08,
+          4.0978e-08,  1.3039e-08],
+        [ 9.3132e-09,  0.0000e+00, -1.8217e-06,  ...,  2.4214e-08,
+          1.7695e-07,  1.6764e-08],
+        ...,
+        [ 5.5879e-09,  0.0000e+00, -1.6764e-08,  ...,  2.6077e-08,
+         -1.8980e-06,  2.1793e-07],
+        [ 9.3132e-09,  0.0000e+00,  4.6566e-08,  ...,  2.9802e-08,
+          8.3819e-08,  5.9605e-08],
+        [ 1.8626e-09,  0.0000e+00,  2.0862e-07,  ...,  1.8626e-09,
+          2.6263e-07, -5.0291e-07]], device='cuda:0')
+Epoch 268, bias, value: tensor([-0.0381, -0.0350,  0.0112,  0.0320, -0.0187,  0.0082, -0.0095,  0.0163,
+         0.0164, -0.0069], device='cuda:0'), grad: tensor([ 7.2084e-07,  2.2538e-07, -3.4235e-06,  7.0781e-07,  2.5686e-06,
+         1.7807e-06, -1.6764e-08, -2.8815e-06,  5.4762e-07, -2.4587e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 267, time 214.49, cls_loss 0.0007 cls_loss_mapping 0.0019 cls_loss_causal 0.4727 re_mapping 0.0039 re_causal 0.0121 /// teacc 99.16 lr 0.00010000
+Epoch 269, weight, value: tensor([[-0.1034,  0.0563,  0.0740,  ..., -0.0904, -0.1778,  0.0648],
+        [-0.0868, -0.0593, -0.1143,  ...,  0.1770, -0.0977, -0.0762],
+        [-0.0308,  0.0033,  0.2091,  ..., -0.1136, -0.1457, -0.1337],
+        ...,
+        [-0.1402, -0.0589,  0.0133,  ..., -0.0468,  0.1222, -0.0907],
+        [-0.1076, -0.0954, -0.0740,  ..., -0.1404, -0.0050, -0.1703],
+        [-0.1884, -0.0614, -0.1555,  ..., -0.1927, -0.0380,  0.1393]],
+       device='cuda:0'), grad: tensor([[ 1.1921e-07,  0.0000e+00, -5.5879e-09,  ...,  8.3819e-08,
+          3.1665e-08,  1.3039e-08],
+        [ 2.4214e-07,  0.0000e+00,  0.0000e+00,  ..., -2.0489e-07,
+          3.9116e-08, -2.7940e-08],
+        [ 7.6368e-08,  0.0000e+00,  0.0000e+00,  ...,  3.3528e-08,
+          1.5087e-07,  3.7253e-09],
+        ...,
+        [ 1.9372e-07,  0.0000e+00,  0.0000e+00,  ...,  4.0978e-08,
+         -1.9576e-06,  1.4901e-08],
+        [ 2.9057e-07,  0.0000e+00,  0.0000e+00,  ...,  2.5146e-07,
+          8.7544e-08,  4.2841e-08],
+        [ 1.4663e-05,  0.0000e+00,  3.7253e-09,  ...,  9.3132e-09,
+          8.5682e-08, -1.8999e-07]], device='cuda:0')
+Epoch 269, bias, value: tensor([-0.0381, -0.0349,  0.0106,  0.0322, -0.0188,  0.0078, -0.0090,  0.0165,
+         0.0159, -0.0066], device='cuda:0'), grad: tensor([ 7.4133e-07,  6.4261e-07,  9.7044e-07,  4.5449e-06, -5.3376e-05,
+         1.1045e-06, -1.9837e-06, -5.4426e-06,  1.4529e-06,  5.1439e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 268, time 214.44, cls_loss 0.0008 cls_loss_mapping 0.0016 cls_loss_causal 0.4846 re_mapping 0.0039 re_causal 0.0117 /// teacc 99.18 lr 0.00010000
+Epoch 270, weight, value: tensor([[-0.1035,  0.0563,  0.0729,  ..., -0.0904, -0.1774,  0.0626],
+        [-0.0869, -0.0593, -0.1145,  ...,  0.1782, -0.0978, -0.0762],
+        [-0.0312,  0.0033,  0.2105,  ..., -0.1139, -0.1459, -0.1340],
+        ...,
+        [-0.1411, -0.0590,  0.0130,  ..., -0.0496,  0.1223, -0.0909],
+        [-0.1083, -0.0955, -0.0742,  ..., -0.1407, -0.0050, -0.1704],
+        [-0.1884, -0.0614, -0.1546,  ..., -0.1929, -0.0380,  0.1420]],
+       device='cuda:0'), grad: tensor([[ 4.0978e-08,  0.0000e+00,  1.8626e-09,  ...,  4.4703e-08,
+          5.5879e-09, -9.3132e-09],
+        [ 1.8626e-08,  0.0000e+00,  1.3411e-07,  ..., -2.2352e-08,
+          3.3528e-08,  0.0000e+00],
+        [ 9.3132e-09,  0.0000e+00, -3.0734e-07,  ..., -2.6077e-08,
+          8.5682e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -2.9244e-07,  ...,  2.4214e-08,
+         -6.2771e-07,  0.0000e+00],
+        [ 1.1921e-07,  0.0000e+00,  1.4156e-07,  ...,  1.4901e-07,
+          6.3330e-08,  1.8626e-09],
+        [ 1.4901e-08,  0.0000e+00,  2.3842e-07,  ...,  1.3039e-08,
+          3.7439e-07,  0.0000e+00]], device='cuda:0')
+Epoch 270, bias, value: tensor([-0.0394, -0.0345,  0.0112,  0.0322, -0.0190,  0.0078, -0.0089,  0.0159,
+         0.0159, -0.0054], device='cuda:0'), grad: tensor([ 2.8312e-07,  3.7998e-07, -1.8254e-07, -4.8801e-07,  1.0058e-07,
+         7.9535e-07, -1.1418e-06, -1.5534e-06,  5.7183e-07,  1.2349e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 269, time 214.51, cls_loss 0.0022 cls_loss_mapping 0.0042 cls_loss_causal 0.5151 re_mapping 0.0041 re_causal 0.0127 /// teacc 99.03 lr 0.00010000
+Epoch 271, weight, value: tensor([[-0.1035,  0.0563,  0.0701,  ..., -0.0902, -0.1777,  0.0598],
+        [-0.0870, -0.0593, -0.1118,  ...,  0.1821, -0.0980, -0.0765],
+        [-0.0316,  0.0033,  0.2113,  ..., -0.1150, -0.1461, -0.1351],
+        ...,
+        [-0.1420, -0.0590,  0.0128,  ..., -0.0509,  0.1224, -0.0912],
+        [-0.1087, -0.0955, -0.0769,  ..., -0.1446, -0.0050, -0.1709],
+        [-0.1885, -0.0615, -0.1518,  ..., -0.1946, -0.0381,  0.1449]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -8.7917e-07,  ...,  7.4506e-09,
+          0.0000e+00, -1.3970e-06],
+        [ 1.6764e-08,  0.0000e+00,  5.1968e-07,  ..., -2.6636e-07,
+          3.7253e-09,  3.9116e-08],
+        [-1.1176e-08,  1.8626e-09, -8.3819e-07,  ...,  9.6858e-08,
+          5.5879e-09,  2.9802e-08],
+        ...,
+        [ 1.8626e-09,  0.0000e+00,  2.6077e-08,  ...,  6.3330e-08,
+         -1.8626e-08,  5.4017e-08],
+        [ 5.5879e-09,  0.0000e+00,  1.6019e-07,  ...,  5.9605e-08,
+          1.8626e-09,  1.2666e-07],
+        [ 0.0000e+00,  0.0000e+00,  4.6380e-07,  ...,  1.8626e-09,
+          3.7253e-09,  7.2643e-08]], device='cuda:0')
+Epoch 271, bias, value: tensor([-0.0422, -0.0311,  0.0107,  0.0326, -0.0191,  0.0070, -0.0082,  0.0155,
+         0.0125, -0.0026], device='cuda:0'), grad: tensor([-3.4422e-06,  3.6508e-07, -9.2760e-07,  1.9539e-06,  4.8801e-07,
+         3.3155e-07,  1.6019e-07,  2.7940e-07,  5.9977e-07,  1.5832e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 270, time 214.41, cls_loss 0.0008 cls_loss_mapping 0.0017 cls_loss_causal 0.5245 re_mapping 0.0040 re_causal 0.0126 /// teacc 99.11 lr 0.00010000
+Epoch 272, weight, value: tensor([[-0.1036,  0.0563,  0.0701,  ..., -0.0902, -0.1782,  0.0598],
+        [-0.0873, -0.0593, -0.1119,  ...,  0.1822, -0.0984, -0.0766],
+        [-0.0326,  0.0034,  0.2091,  ..., -0.1151, -0.1502, -0.1357],
+        ...,
+        [-0.1433, -0.0590,  0.0146,  ..., -0.0518,  0.1236, -0.0915],
+        [-0.1091, -0.0955, -0.0770,  ..., -0.1446, -0.0051, -0.1710],
+        [-0.1886, -0.0621, -0.1518,  ..., -0.1950, -0.0383,  0.1450]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00, -6.5193e-08,  ...,  7.4506e-09,
+          7.4506e-09, -1.0803e-07],
+        [ 9.3132e-09,  0.0000e+00,  1.8626e-08,  ..., -9.3132e-08,
+          7.4506e-09,  7.4506e-09],
+        [ 1.8626e-09,  0.0000e+00, -1.4529e-07,  ...,  1.6764e-08,
+          1.8626e-09,  1.8626e-09],
+        ...,
+        [ 7.4506e-09,  0.0000e+00, -3.1665e-08,  ...,  2.9802e-08,
+         -3.8929e-07,  5.7742e-08],
+        [ 7.4506e-09,  0.0000e+00,  3.3528e-08,  ...,  3.3528e-08,
+          5.5879e-09,  1.6764e-08],
+        [ 4.6566e-08,  0.0000e+00,  1.0990e-07,  ...,  5.5879e-09,
+          1.8626e-07, -8.5682e-08]], device='cuda:0')
+Epoch 272, bias, value: tensor([-0.0422, -0.0311,  0.0083,  0.0329, -0.0184,  0.0070, -0.0101,  0.0164,
+         0.0125, -0.0026], device='cuda:0'), grad: tensor([-9.6858e-08,  4.8429e-08,  3.3714e-07,  4.5076e-07,  1.2480e-07,
+         1.1716e-06,  1.8813e-07, -4.1910e-07, -2.1104e-06,  2.8126e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 271, time 214.39, cls_loss 0.0007 cls_loss_mapping 0.0020 cls_loss_causal 0.4642 re_mapping 0.0041 re_causal 0.0120 /// teacc 99.15 lr 0.00010000
+Epoch 273, weight, value: tensor([[-0.1037,  0.0563,  0.0701,  ..., -0.0902, -0.1789,  0.0598],
+        [-0.0878, -0.0593, -0.1120,  ...,  0.1822, -0.0987, -0.0767],
+        [-0.0334,  0.0034,  0.2097,  ..., -0.1157, -0.1505, -0.1360],
+        ...,
+        [-0.1473, -0.0590,  0.0146,  ..., -0.0530,  0.1237, -0.0918],
+        [-0.1096, -0.0955, -0.0771,  ..., -0.1446, -0.0051, -0.1712],
+        [-0.1886, -0.0621, -0.1518,  ..., -0.1953, -0.0383,  0.1450]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.4959e-07,  ..., -5.0291e-08,
+          1.4715e-07,  4.0978e-08],
+        [ 3.7253e-09,  0.0000e+00,  4.6566e-08,  ...,  1.4342e-07,
+          1.8626e-08,  5.2154e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.2724e-07,  ...,  9.8720e-08,
+          1.1921e-07,  3.0175e-07],
+        ...,
+        [ 1.8626e-09,  0.0000e+00,  3.7253e-08,  ...,  2.6077e-08,
+          7.2643e-08,  7.2643e-08],
+        [ 0.0000e+00,  0.0000e+00,  6.1467e-08,  ...,  1.0990e-07,
+          1.2480e-07,  8.1956e-08],
+        [ 7.4506e-09,  0.0000e+00,  2.0675e-07,  ...,  4.2841e-08,
+          6.1467e-08,  2.5891e-07]], device='cuda:0')
+Epoch 273, bias, value: tensor([-0.0422, -0.0313,  0.0075,  0.0340, -0.0184,  0.0068, -0.0107,  0.0158,
+         0.0125, -0.0026], device='cuda:0'), grad: tensor([ 2.3469e-06,  6.9104e-07,  2.6282e-06, -3.7283e-05,  9.8720e-08,
+         2.8104e-05, -8.6054e-07,  1.2275e-06,  2.0079e-06,  1.0431e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 272, time 214.30, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.4886 re_mapping 0.0039 re_causal 0.0121 /// teacc 99.09 lr 0.00010000
+Epoch 274, weight, value: tensor([[-0.1038,  0.0563,  0.0701,  ..., -0.0901, -0.1797,  0.0598],
+        [-0.0880, -0.0593, -0.1120,  ...,  0.1823, -0.0990, -0.0767],
+        [-0.0336,  0.0034,  0.2098,  ..., -0.1159, -0.1509, -0.1364],
+        ...,
+        [-0.1492, -0.0590,  0.0148,  ..., -0.0532,  0.1241, -0.0919],
+        [-0.1104, -0.0955, -0.0771,  ..., -0.1447, -0.0052, -0.1710],
+        [-0.1887, -0.0621, -0.1518,  ..., -0.1957, -0.0385,  0.1450]],
+       device='cuda:0'), grad: tensor([[ 8.0746e-07,  0.0000e+00, -1.5777e-06,  ..., -6.5193e-09,
+         -4.3027e-07, -1.0356e-06],
+        [ 7.6648e-07,  0.0000e+00,  3.6322e-08,  ...,  2.7940e-09,
+          8.3819e-09,  1.3039e-08],
+        [ 2.1160e-06,  0.0000e+00,  2.9150e-07,  ...,  5.5879e-09,
+          8.8476e-08,  1.9465e-07],
+        ...,
+        [ 3.9116e-08,  0.0000e+00,  6.8918e-08,  ...,  2.1420e-08,
+          1.3970e-08,  4.8429e-08],
+        [ 1.5832e-08,  0.0000e+00,  1.4156e-07,  ...,  7.2643e-08,
+          6.0536e-08,  1.0524e-07],
+        [ 5.3272e-07,  0.0000e+00,  7.6182e-07,  ...,  1.3970e-08,
+          2.1420e-07,  4.7870e-07]], device='cuda:0')
+Epoch 274, bias, value: tensor([-0.0422, -0.0312,  0.0073,  0.0342, -0.0183,  0.0065, -0.0106,  0.0158,
+         0.0125, -0.0026], device='cuda:0'), grad: tensor([-2.5537e-06,  1.7239e-06,  3.5465e-06, -5.5209e-06, -5.6699e-06,
+         1.1371e-06,  6.8545e-07,  6.1654e-07,  3.4459e-06,  2.5854e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 273, time 214.40, cls_loss 0.0007 cls_loss_mapping 0.0021 cls_loss_causal 0.5245 re_mapping 0.0038 re_causal 0.0123 /// teacc 99.03 lr 0.00010000
+Epoch 275, weight, value: tensor([[-0.1040,  0.0563,  0.0701,  ..., -0.0905, -0.1800,  0.0598],
+        [-0.0885, -0.0594, -0.1122,  ...,  0.1824, -0.0994, -0.0767],
+        [-0.0336,  0.0041,  0.2107,  ..., -0.1169, -0.1510, -0.1367],
+        ...,
+        [-0.1511, -0.0597,  0.0148,  ..., -0.0534,  0.1244, -0.0920],
+        [-0.1109, -0.0956, -0.0773,  ..., -0.1447, -0.0053, -0.1711],
+        [-0.1888, -0.0621, -0.1518,  ..., -0.1962, -0.0387,  0.1450]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  0.0000e+00,  1.1176e-08,  ...,  9.3132e-10,
+          2.5146e-08,  4.0978e-08],
+        [ 9.0338e-08,  0.0000e+00,  4.9081e-07,  ...,  2.6450e-07,
+          6.2399e-07,  3.7253e-09],
+        [ 6.5193e-09,  0.0000e+00, -2.5891e-07,  ...,  1.3039e-08,
+          2.7008e-08,  2.3283e-08],
+        ...,
+        [ 1.9558e-08,  0.0000e+00, -5.8487e-07,  ..., -3.0641e-07,
+         -7.8417e-07,  1.8626e-08],
+        [ 2.3283e-08,  0.0000e+00,  3.4459e-08,  ...,  2.3283e-08,
+          1.8626e-08,  5.5879e-09],
+        [ 3.3714e-07,  0.0000e+00,  1.9278e-07,  ...,  1.4901e-08,
+          1.1744e-06,  2.5835e-06]], device='cuda:0')
+Epoch 275, bias, value: tensor([-0.0422, -0.0312,  0.0070,  0.0341, -0.0182,  0.0064, -0.0100,  0.0158,
+         0.0126, -0.0026], device='cuda:0'), grad: tensor([ 1.5553e-07,  2.1011e-06, -3.0361e-07, -7.1712e-08, -1.1148e-06,
+        -6.3404e-06, -1.5460e-07, -1.8682e-06,  3.4459e-07,  7.2233e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 274, time 214.36, cls_loss 0.0007 cls_loss_mapping 0.0016 cls_loss_causal 0.5090 re_mapping 0.0041 re_causal 0.0127 /// teacc 98.94 lr 0.00010000
+Epoch 276, weight, value: tensor([[-0.1044,  0.0563,  0.0701,  ..., -0.0907, -0.1811,  0.0598],
+        [-0.0887, -0.0594, -0.1125,  ...,  0.1825, -0.1008, -0.0767],
+        [-0.0340,  0.0041,  0.2111,  ..., -0.1179, -0.1511, -0.1376],
+        ...,
+        [-0.1515, -0.0597,  0.0153,  ..., -0.0527,  0.1249, -0.0921],
+        [-0.1114, -0.0956, -0.0774,  ..., -0.1447, -0.0054, -0.1711],
+        [-0.1889, -0.0622, -0.1518,  ..., -0.1969, -0.0390,  0.1449]],
+       device='cuda:0'), grad: tensor([[ 1.1176e-08,  0.0000e+00, -8.1956e-08,  ..., -0.0000e+00,
+          0.0000e+00, -1.0338e-07],
+        [ 1.7695e-08,  0.0000e+00, -8.2180e-06,  ..., -1.3016e-05,
+          1.3039e-08,  2.7940e-09],
+        [ 4.6566e-09,  0.0000e+00,  7.7039e-06,  ...,  1.2137e-05,
+          1.8626e-09,  8.3819e-09],
+        ...,
+        [ 1.3039e-08,  0.0000e+00,  4.2003e-07,  ...,  6.8825e-07,
+         -2.8871e-08,  6.9849e-08],
+        [ 2.1420e-08,  0.0000e+00,  4.0978e-08,  ...,  2.5146e-08,
+         -1.3039e-08,  7.6368e-08],
+        [ 1.3877e-07,  0.0000e+00,  1.3225e-07,  ...,  9.3132e-08,
+          1.2107e-08,  4.6566e-08]], device='cuda:0')
+Epoch 276, bias, value: tensor([-0.0422, -0.0313,  0.0065,  0.0342, -0.0182,  0.0063, -0.0097,  0.0168,
+         0.0126, -0.0027], device='cuda:0'), grad: tensor([ 1.3039e-08, -2.6211e-05,  2.4557e-05, -4.5914e-07, -2.1607e-07,
+         1.0990e-07,  8.9407e-08,  1.5935e-06, -2.0023e-07,  6.8452e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 275, time 214.58, cls_loss 0.0009 cls_loss_mapping 0.0023 cls_loss_causal 0.4829 re_mapping 0.0040 re_causal 0.0121 /// teacc 99.06 lr 0.00010000
+Epoch 277, weight, value: tensor([[-0.1049,  0.0564,  0.0702,  ..., -0.0907, -0.1814,  0.0599],
+        [-0.0893, -0.0594, -0.1125,  ...,  0.1829, -0.1019, -0.0768],
+        [-0.0353,  0.0041,  0.2114,  ..., -0.1189, -0.1513, -0.1384],
+        ...,
+        [-0.1527, -0.0598,  0.0155,  ..., -0.0553,  0.1254, -0.0923],
+        [-0.1089, -0.0957, -0.0775,  ..., -0.1443, -0.0055, -0.1713],
+        [-0.1891, -0.0623, -0.1519,  ..., -0.1979, -0.0391,  0.1450]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09, -1.2107e-08, -2.0396e-07,  ...,  0.0000e+00,
+          1.3039e-08, -2.8498e-07],
+        [ 1.1176e-08,  0.0000e+00,  5.1223e-08,  ..., -3.5390e-08,
+          3.2596e-08,  3.7253e-09],
+        [ 2.7940e-09,  0.0000e+00, -2.3004e-07,  ...,  3.7253e-09,
+          3.0734e-08,  4.6566e-09],
+        ...,
+        [ 9.3132e-09,  0.0000e+00,  6.5193e-09,  ...,  1.4901e-08,
+         -3.2503e-07,  9.3132e-09],
+        [ 3.7253e-09,  9.3132e-10,  2.7008e-08,  ...,  1.0245e-08,
+          1.0245e-08,  5.8673e-08],
+        [ 3.4831e-07,  9.3132e-09,  2.7288e-07,  ...,  1.8626e-09,
+          2.5146e-08,  9.6858e-08]], device='cuda:0')
+Epoch 277, bias, value: tensor([-0.0422, -0.0311,  0.0061,  0.0336, -0.0181,  0.0075, -0.0137,  0.0164,
+         0.0134, -0.0027], device='cuda:0'), grad: tensor([-5.4296e-07,  1.7416e-07, -1.2387e-07,  2.1327e-06, -3.7160e-07,
+        -4.3027e-07,  3.1665e-08, -2.1830e-06,  2.5425e-07,  1.0580e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 276, time 214.28, cls_loss 0.0009 cls_loss_mapping 0.0021 cls_loss_causal 0.4936 re_mapping 0.0039 re_causal 0.0119 /// teacc 99.15 lr 0.00010000
+Epoch 278, weight, value: tensor([[-0.1049,  0.0564,  0.0702,  ..., -0.0900, -0.1832,  0.0599],
+        [-0.0895, -0.0594, -0.1126,  ...,  0.1831, -0.1029, -0.0769],
+        [-0.0354,  0.0041,  0.2118,  ..., -0.1195, -0.1532, -0.1421],
+        ...,
+        [-0.1536, -0.0598,  0.0157,  ..., -0.0559,  0.1265, -0.0925],
+        [-0.1092, -0.0957, -0.0780,  ..., -0.1444, -0.0056, -0.1718],
+        [-0.1894, -0.0624, -0.1519,  ..., -0.1976, -0.0401,  0.1450]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.9092e-07,  ...,  4.4703e-08,
+          4.6566e-08, -4.1537e-07],
+        [ 6.5193e-09,  0.0000e+00,  4.3679e-07,  ..., -2.2352e-08,
+          9.1735e-07,  5.3085e-08],
+        [ 1.8626e-09,  0.0000e+00,  2.0582e-07,  ...,  1.8626e-08,
+          5.1595e-07,  6.5193e-09],
+        ...,
+        [ 5.5879e-09,  0.0000e+00, -4.1910e-06,  ...,  9.3132e-09,
+         -9.3356e-06, -5.6159e-07],
+        [ 4.6566e-09,  0.0000e+00,  1.9465e-07,  ...,  1.5274e-07,
+          2.9802e-07,  3.2596e-08],
+        [ 1.7695e-08,  0.0000e+00,  2.9691e-06,  ...,  8.3819e-09,
+          6.8545e-06,  4.7963e-07]], device='cuda:0')
+Epoch 278, bias, value: tensor([-0.0421, -0.0310,  0.0056,  0.0334, -0.0183,  0.0081, -0.0137,  0.0172,
+         0.0133, -0.0027], device='cuda:0'), grad: tensor([-6.0163e-07,  2.5518e-06,  1.8515e-06,  7.6741e-07,  1.0133e-06,
+         5.2992e-07, -4.3772e-08, -2.6122e-05,  1.2647e-06,  1.8761e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 277, time 214.44, cls_loss 0.0014 cls_loss_mapping 0.0028 cls_loss_causal 0.4883 re_mapping 0.0040 re_causal 0.0120 /// teacc 99.18 lr 0.00010000
+Epoch 279, weight, value: tensor([[-0.1050,  0.0564,  0.0702,  ..., -0.0899, -0.1839,  0.0599],
+        [-0.0899, -0.0594, -0.1128,  ...,  0.1831, -0.1038, -0.0770],
+        [-0.0380,  0.0041,  0.2132,  ..., -0.1198, -0.1537, -0.1422],
+        ...,
+        [-0.1570, -0.0600,  0.0165,  ..., -0.0560,  0.1242, -0.0959],
+        [-0.1096, -0.0957, -0.0783,  ..., -0.1444, -0.0059, -0.1722],
+        [-0.1897, -0.0625, -0.1519,  ..., -0.1967, -0.0380,  0.1464]],
+       device='cuda:0'), grad: tensor([[ 1.0245e-08, -1.5274e-07, -1.3411e-07,  ..., -1.8626e-09,
+          2.7008e-08, -2.4773e-07],
+        [ 3.9116e-08,  2.7940e-09,  1.6298e-07,  ..., -8.3819e-09,
+          2.5146e-08,  5.5879e-09],
+        [ 7.4506e-09,  3.7253e-09, -1.3812e-06,  ...,  1.2107e-08,
+          1.0058e-07,  1.3039e-08],
+        ...,
+        [ 6.5193e-09,  3.7253e-09,  1.9837e-07,  ...,  3.7253e-09,
+          3.9581e-07,  4.0047e-08],
+        [ 5.2154e-08,  2.5146e-08,  3.7905e-07,  ...,  5.6811e-08,
+          1.0617e-07,  5.4948e-08],
+        [ 1.2293e-07,  5.7742e-08,  1.5926e-07,  ...,  1.5832e-08,
+          1.2480e-07,  1.0617e-07]], device='cuda:0')
+Epoch 279, bias, value: tensor([-0.0421, -0.0311,  0.0057,  0.0329, -0.0177,  0.0077, -0.0138,  0.0150,
+         0.0133, -0.0003], device='cuda:0'), grad: tensor([-3.3714e-07,  4.6566e-07, -1.7835e-06, -4.8801e-07, -1.0151e-07,
+        -1.5525e-06,  5.4948e-08,  1.6475e-06,  1.2005e-06,  8.9128e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 278, time 214.49, cls_loss 0.0006 cls_loss_mapping 0.0022 cls_loss_causal 0.4930 re_mapping 0.0041 re_causal 0.0125 /// teacc 99.10 lr 0.00010000
+Epoch 280, weight, value: tensor([[-0.1050,  0.0564,  0.0702,  ..., -0.0909, -0.1860,  0.0599],
+        [-0.0902, -0.0595, -0.1129,  ...,  0.1831, -0.1042, -0.0797],
+        [-0.0392,  0.0044,  0.2136,  ..., -0.1201, -0.1539, -0.1424],
+        ...,
+        [-0.1567, -0.0600,  0.0166,  ..., -0.0562,  0.1243, -0.0959],
+        [-0.1098, -0.0957, -0.0784,  ..., -0.1444, -0.0060, -0.1724],
+        [-0.1897, -0.0628, -0.1520,  ..., -0.1951, -0.0380,  0.1464]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  8.3819e-09,  ...,  1.9558e-08,
+          1.8626e-08,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  8.8476e-08,  ..., -3.9581e-07,
+          8.3819e-09,  8.3819e-09],
+        [ 0.0000e+00,  0.0000e+00, -1.5041e-06,  ...,  1.0617e-07,
+          6.5193e-09,  4.6566e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.7497e-08,  ...,  5.0291e-08,
+         -3.7253e-09,  2.1886e-07],
+        [ 9.3132e-10,  0.0000e+00,  9.6485e-07,  ...,  9.2201e-08,
+          1.5832e-08,  1.2107e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.8871e-08,  ...,  1.1176e-08,
+          5.1223e-08, -1.4715e-07]], device='cuda:0')
+Epoch 280, bias, value: tensor([-0.0421, -0.0313,  0.0055,  0.0328, -0.0178,  0.0077, -0.0136,  0.0150,
+         0.0133, -0.0003], device='cuda:0'), grad: tensor([ 1.4529e-07, -6.8732e-07, -2.4848e-06,  7.0129e-07,  1.2759e-07,
+        -4.9919e-07,  1.4808e-07,  7.7393e-07,  2.1160e-06, -3.4086e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 279, time 214.34, cls_loss 0.0009 cls_loss_mapping 0.0020 cls_loss_causal 0.4854 re_mapping 0.0039 re_causal 0.0117 /// teacc 99.07 lr 0.00010000
+Epoch 281, weight, value: tensor([[-0.1051,  0.0564,  0.0703,  ..., -0.0910, -0.1863,  0.0599],
+        [-0.0905, -0.0595, -0.1130,  ...,  0.1831, -0.1051, -0.0798],
+        [-0.0396,  0.0044,  0.2146,  ..., -0.1202, -0.1541, -0.1426],
+        ...,
+        [-0.1570, -0.0601,  0.0169,  ..., -0.0561,  0.1243, -0.0959],
+        [-0.1098, -0.0958, -0.0785,  ..., -0.1445, -0.0063, -0.1727],
+        [-0.1901, -0.0628, -0.1520,  ..., -0.1950, -0.0380,  0.1465]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -6.6124e-08,  ...,  4.6566e-09,
+          1.3039e-08, -3.2596e-08],
+        [ 9.3132e-10,  0.0000e+00,  2.7008e-08,  ..., -6.9849e-08,
+          3.7253e-08,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.0047e-08,  ...,  1.8626e-08,
+          5.1223e-08,  4.6566e-09],
+        ...,
+        [ 9.3132e-10,  0.0000e+00, -2.0768e-07,  ...,  2.6077e-08,
+         -2.7753e-07,  2.2352e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.1176e-08,  ...,  1.0245e-08,
+         -8.3819e-09,  4.6566e-09],
+        [ 6.5193e-09,  0.0000e+00,  4.5635e-08,  ...,  9.3132e-10,
+          5.0291e-08, -4.4703e-08]], device='cuda:0')
+Epoch 281, bias, value: tensor([-0.0421, -0.0314,  0.0058,  0.0322, -0.0174,  0.0075, -0.0133,  0.0151,
+         0.0133, -0.0004], device='cuda:0'), grad: tensor([-7.6368e-08,  4.6566e-08,  2.7940e-07,  3.2689e-07,  3.6322e-08,
+         1.8720e-07,  7.8231e-08, -7.0687e-07, -2.9989e-07,  1.2480e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 280, time 214.21, cls_loss 0.0009 cls_loss_mapping 0.0021 cls_loss_causal 0.4856 re_mapping 0.0038 re_causal 0.0117 /// teacc 99.04 lr 0.00010000
+Epoch 282, weight, value: tensor([[-0.1051,  0.0564,  0.0703,  ..., -0.0908, -0.1856,  0.0599],
+        [-0.0908, -0.0595, -0.1153,  ...,  0.1805, -0.1085, -0.0799],
+        [-0.0412,  0.0042,  0.2148,  ..., -0.1205, -0.1544, -0.1427],
+        ...,
+        [-0.1571, -0.0610,  0.0195,  ..., -0.0531,  0.1252, -0.0959],
+        [-0.1098, -0.0959, -0.0786,  ..., -0.1445, -0.0064, -0.1730],
+        [-0.1903, -0.0632, -0.1520,  ..., -0.1953, -0.0380,  0.1465]],
+       device='cuda:0'), grad: tensor([[ 1.1548e-07,  0.0000e+00, -2.1793e-07,  ...,  1.8720e-07,
+          3.7253e-09, -1.5460e-07],
+        [ 1.2200e-07,  0.0000e+00,  6.8918e-08,  ..., -3.0156e-06,
+          6.5193e-09,  9.3132e-10],
+        [ 1.8263e-06,  0.0000e+00,  6.6031e-07,  ...,  2.2743e-06,
+          1.5832e-08,  1.7695e-08],
+        ...,
+        [ 5.5879e-09,  0.0000e+00, -3.1292e-07,  ...,  4.9267e-07,
+         -4.2282e-07,  0.0000e+00],
+        [ 1.1828e-07,  0.0000e+00,  1.5832e-08,  ...,  1.4799e-06,
+         -5.2154e-08,  1.4901e-08],
+        [ 2.6077e-08,  0.0000e+00,  5.7742e-07,  ...,  4.9360e-07,
+          3.9116e-07,  6.7055e-08]], device='cuda:0')
+Epoch 282, bias, value: tensor([-0.0421, -0.0342,  0.0050,  0.0321, -0.0172,  0.0074, -0.0136,  0.0162,
+         0.0135, -0.0004], device='cuda:0'), grad: tensor([ 1.0524e-07, -6.8732e-06,  6.6012e-06, -6.4261e-08,  7.4506e-06,
+         5.1595e-07, -1.3947e-05,  4.7684e-07,  2.7530e-06,  2.9318e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 281, time 214.29, cls_loss 0.0008 cls_loss_mapping 0.0019 cls_loss_causal 0.5131 re_mapping 0.0038 re_causal 0.0114 /// teacc 99.15 lr 0.00010000
+Epoch 283, weight, value: tensor([[-0.1051,  0.0564,  0.0703,  ..., -0.0907, -0.1860,  0.0600],
+        [-0.0911, -0.0595, -0.1155,  ...,  0.1806, -0.1086, -0.0799],
+        [-0.0415,  0.0040,  0.2146,  ..., -0.1213, -0.1547, -0.1434],
+        ...,
+        [-0.1576, -0.0614,  0.0197,  ..., -0.0532,  0.1252, -0.0959],
+        [-0.1102, -0.0960, -0.0787,  ..., -0.1445, -0.0064, -0.1736],
+        [-0.1904, -0.0636, -0.1520,  ..., -0.1964, -0.0380,  0.1465]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  0.0000e+00, -3.8464e-07,  ...,  1.0245e-08,
+          9.3132e-10, -6.6310e-07],
+        [ 2.4214e-08,  0.0000e+00, -6.7055e-08,  ..., -4.4480e-06,
+          9.3132e-09,  8.3819e-09],
+        [ 6.8918e-08,  0.0000e+00,  8.1025e-08,  ...,  3.4589e-06,
+          5.7742e-08,  8.3819e-09],
+        ...,
+        [ 1.3970e-08,  0.0000e+00, -6.0536e-08,  ...,  7.5530e-07,
+         -9.8720e-08,  7.1712e-08],
+        [ 2.6077e-08,  0.0000e+00,  5.6811e-08,  ...,  7.1712e-08,
+          1.3970e-08,  3.0734e-08],
+        [ 6.4261e-08,  0.0000e+00,  2.6263e-07,  ...,  2.2352e-08,
+          1.2107e-08,  2.1141e-07]], device='cuda:0')
+Epoch 283, bias, value: tensor([-0.0421, -0.0342,  0.0042,  0.0333, -0.0170,  0.0066, -0.0136,  0.0161,
+         0.0135, -0.0004], device='cuda:0'), grad: tensor([-1.4314e-06, -9.6336e-06,  7.8008e-06,  3.7998e-07, -2.9802e-08,
+         9.4995e-08,  2.9244e-07,  1.6773e-06,  1.0896e-07,  7.6275e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 282, time 214.45, cls_loss 0.0008 cls_loss_mapping 0.0018 cls_loss_causal 0.4744 re_mapping 0.0038 re_causal 0.0114 /// teacc 99.21 lr 0.00010000
+Epoch 284, weight, value: tensor([[-0.1052,  0.0564,  0.0704,  ..., -0.0907, -0.1862,  0.0600],
+        [-0.0914, -0.0595, -0.1155,  ...,  0.1806, -0.1086, -0.0800],
+        [-0.0420,  0.0041,  0.2158,  ..., -0.1220, -0.1550, -0.1436],
+        ...,
+        [-0.1579, -0.0616,  0.0195,  ..., -0.0532,  0.1252, -0.0959],
+        [-0.1106, -0.0961, -0.0785,  ..., -0.1446, -0.0048, -0.1738],
+        [-0.1905, -0.0643, -0.1521,  ..., -0.1967, -0.0381,  0.1464]],
+       device='cuda:0'), grad: tensor([[ 8.3819e-09, -6.8918e-08, -2.9430e-07,  ...,  0.0000e+00,
+          0.0000e+00, -1.8347e-07],
+        [ 4.6566e-09,  1.8626e-09,  1.1176e-08,  ..., -5.3272e-07,
+          0.0000e+00,  2.7008e-08],
+        [ 1.0245e-08,  1.8626e-09,  2.6077e-08,  ...,  1.6950e-07,
+          0.0000e+00,  2.7008e-08],
+        ...,
+        [ 1.8626e-09,  1.8626e-09,  5.5879e-09,  ...,  2.5425e-07,
+          0.0000e+00,  2.7008e-07],
+        [-2.3283e-08,  2.2352e-08,  5.3085e-08,  ...,  2.2352e-08,
+          1.8626e-09,  1.3784e-07],
+        [ 1.2107e-08,  3.9116e-08,  9.9652e-08,  ...,  2.7940e-09,
+          0.0000e+00, -3.9767e-07]], device='cuda:0')
+Epoch 284, bias, value: tensor([-0.0421, -0.0342,  0.0043,  0.0322, -0.0171,  0.0068, -0.0134,  0.0161,
+         0.0143, -0.0004], device='cuda:0'), grad: tensor([-5.1130e-07, -4.8149e-07,  5.7183e-07, -5.1968e-07,  4.9453e-07,
+         5.5507e-07,  1.1362e-07,  1.3569e-06, -1.9465e-07, -1.3830e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 283, time 214.43, cls_loss 0.0005 cls_loss_mapping 0.0017 cls_loss_causal 0.4795 re_mapping 0.0038 re_causal 0.0119 /// teacc 99.05 lr 0.00010000
+Epoch 285, weight, value: tensor([[-0.1053,  0.0565,  0.0704,  ..., -0.0908, -0.1863,  0.0600],
+        [-0.0916, -0.0595, -0.1155,  ...,  0.1807, -0.1086, -0.0801],
+        [-0.0422,  0.0041,  0.2160,  ..., -0.1225, -0.1552, -0.1436],
+        ...,
+        [-0.1585, -0.0617,  0.0195,  ..., -0.0533,  0.1252, -0.0959],
+        [-0.1105, -0.0962, -0.0787,  ..., -0.1446, -0.0049, -0.1740],
+        [-0.1905, -0.0645, -0.1521,  ..., -0.1968, -0.0381,  0.1464]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.6566e-09,  ...,  0.0000e+00,
+          0.0000e+00, -4.6566e-09],
+        [ 3.7253e-09,  0.0000e+00, -4.6566e-09,  ..., -5.0291e-08,
+          1.8626e-09,  9.3132e-10],
+        [ 9.3132e-10,  0.0000e+00, -3.4459e-08,  ...,  2.4214e-08,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  0.0000e+00, -1.0245e-08,  ...,  1.2107e-08,
+         -2.2352e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-09,  ...,  7.4506e-09,
+         -0.0000e+00,  5.5879e-09],
+        [ 1.2107e-08,  0.0000e+00,  1.5832e-08,  ...,  3.7253e-09,
+          1.7695e-08, -1.0245e-08]], device='cuda:0')
+Epoch 285, bias, value: tensor([-0.0421, -0.0342,  0.0039,  0.0323, -0.0170,  0.0067, -0.0133,  0.0161,
+         0.0143, -0.0004], device='cuda:0'), grad: tensor([-3.7253e-09, -8.5682e-08, -2.0489e-08, -6.6124e-08, -1.7695e-08,
+         3.6042e-07, -3.2596e-07, -8.3819e-09,  1.3225e-07,  4.2841e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 284, time 214.31, cls_loss 0.0007 cls_loss_mapping 0.0015 cls_loss_causal 0.5057 re_mapping 0.0036 re_causal 0.0116 /// teacc 99.22 lr 0.00010000
+Epoch 286, weight, value: tensor([[-0.1054,  0.0565,  0.0704,  ..., -0.0908, -0.1869,  0.0600],
+        [-0.0918, -0.0595, -0.1157,  ...,  0.1808, -0.1086, -0.0801],
+        [-0.0423,  0.0041,  0.2160,  ..., -0.1228, -0.1555, -0.1437],
+        ...,
+        [-0.1590, -0.0617,  0.0199,  ..., -0.0534,  0.1252, -0.0959],
+        [-0.1108, -0.0963, -0.0788,  ..., -0.1446, -0.0050, -0.1743],
+        [-0.1907, -0.0654, -0.1521,  ..., -0.1977, -0.0381,  0.1464]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  0.0000e+00, -4.4703e-08,  ...,  1.8626e-08,
+          4.2841e-08, -3.5390e-08],
+        [ 5.2154e-08,  0.0000e+00,  4.1910e-08,  ...,  2.5053e-07,
+          1.1548e-07,  4.7497e-08],
+        [ 1.1176e-08,  0.0000e+00,  2.7940e-09,  ...,  5.8673e-08,
+          5.5879e-09,  2.7940e-09],
+        ...,
+        [ 9.3132e-10,  0.0000e+00, -1.4901e-07,  ...,  3.7253e-09,
+         -4.0326e-07, -1.6950e-07],
+        [ 1.6764e-08,  0.0000e+00,  1.2107e-08,  ...,  1.2573e-07,
+          6.4261e-08,  1.1176e-08],
+        [ 3.7253e-08,  0.0000e+00,  1.0990e-07,  ...,  3.7253e-09,
+          1.9744e-07,  1.1642e-07]], device='cuda:0')
+Epoch 286, bias, value: tensor([-0.0420, -0.0341,  0.0036,  0.0324, -0.0167,  0.0062, -0.0125,  0.0161,
+         0.0142, -0.0005], device='cuda:0'), grad: tensor([ 3.4459e-08,  8.0932e-07,  1.6578e-07,  2.4214e-08,  4.7497e-08,
+         4.5821e-07, -1.5115e-06, -1.1921e-06,  3.8836e-07,  7.6834e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 285, time 214.15, cls_loss 0.0007 cls_loss_mapping 0.0019 cls_loss_causal 0.4711 re_mapping 0.0036 re_causal 0.0110 /// teacc 99.11 lr 0.00010000
+Epoch 287, weight, value: tensor([[-0.1055,  0.0565,  0.0704,  ..., -0.0900, -0.1860,  0.0601],
+        [-0.0919, -0.0595, -0.1158,  ...,  0.1809, -0.1086, -0.0800],
+        [-0.0423,  0.0041,  0.2164,  ..., -0.1230, -0.1557, -0.1438],
+        ...,
+        [-0.1591, -0.0618,  0.0199,  ..., -0.0534,  0.1252, -0.0960],
+        [-0.1109, -0.0963, -0.0789,  ..., -0.1447, -0.0054, -0.1753],
+        [-0.1908, -0.0655, -0.1521,  ..., -0.1989, -0.0381,  0.1465]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  0.0000e+00,  5.5879e-09,  ...,  1.4901e-08,
+          1.6764e-08, -3.7253e-09],
+        [ 1.6764e-08,  0.0000e+00,  4.8429e-08,  ...,  7.0781e-08,
+          5.5879e-08,  0.0000e+00],
+        [ 3.7253e-09,  0.0000e+00,  7.4506e-08,  ...,  2.2352e-08,
+          9.1270e-08,  0.0000e+00],
+        ...,
+        [ 3.7253e-09,  0.0000e+00, -2.5705e-07,  ...,  2.4214e-08,
+         -3.1479e-07,  3.7253e-09],
+        [ 1.8626e-09,  0.0000e+00,  6.7055e-08,  ...,  4.4703e-08,
+          9.3132e-08,  3.7253e-09],
+        [ 4.4703e-08,  0.0000e+00,  3.7253e-08,  ...,  3.7253e-09,
+          4.4703e-08, -5.5879e-09]], device='cuda:0')
+Epoch 287, bias, value: tensor([-0.0420, -0.0341,  0.0034,  0.0327, -0.0168,  0.0062, -0.0130,  0.0160,
+         0.0140, -0.0004], device='cuda:0'), grad: tensor([ 1.3970e-07,  7.6555e-07,  3.8557e-07, -1.6596e-06, -1.0245e-07,
+         1.6205e-07, -1.6764e-08, -4.5449e-07,  5.6811e-07,  1.9744e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 286, time 214.38, cls_loss 0.0007 cls_loss_mapping 0.0015 cls_loss_causal 0.4478 re_mapping 0.0036 re_causal 0.0111 /// teacc 99.12 lr 0.00010000
+Epoch 288, weight, value: tensor([[-0.1055,  0.0566,  0.0705,  ..., -0.0907, -0.1856,  0.0601],
+        [-0.0921, -0.0595, -0.1159,  ...,  0.1809, -0.1086, -0.0800],
+        [-0.0424,  0.0041,  0.2165,  ..., -0.1232, -0.1559, -0.1442],
+        ...,
+        [-0.1591, -0.0618,  0.0205,  ..., -0.0535,  0.1253, -0.0961],
+        [-0.1112, -0.0965, -0.0793,  ..., -0.1447, -0.0064, -0.1760],
+        [-0.1908, -0.0676, -0.1522,  ..., -0.1992, -0.0381,  0.1465]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.4703e-08,  ...,  3.7253e-09,
+          3.7253e-09, -5.4017e-08],
+        [ 1.8626e-09,  0.0000e+00,  1.3784e-07,  ..., -1.5832e-07,
+          3.7253e-08,  2.2352e-08],
+        [ 0.0000e+00,  0.0000e+00, -5.9605e-07,  ...,  2.0489e-08,
+         -4.2841e-08,  3.7253e-09],
+        ...,
+        [ 3.7253e-09,  0.0000e+00,  8.7544e-08,  ...,  2.9802e-08,
+         -9.3132e-08,  4.0978e-08],
+        [ 1.8626e-09,  0.0000e+00,  2.1607e-07,  ...,  5.5879e-08,
+          1.6019e-07,  6.5193e-08],
+        [-6.4448e-07,  0.0000e+00,  7.8231e-08,  ...,  9.3132e-09,
+          1.0431e-07, -2.0843e-06]], device='cuda:0')
+Epoch 288, bias, value: tensor([-0.0420, -0.0341,  0.0027,  0.0318, -0.0169,  0.0073, -0.0127,  0.0161,
+         0.0140, -0.0004], device='cuda:0'), grad: tensor([-6.1467e-08,  2.7940e-08, -9.0711e-07,  6.1840e-07,  5.6140e-06,
+        -1.2685e-06,  4.5076e-07,  1.8254e-07,  7.2643e-07, -5.3719e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 287, time 214.08, cls_loss 0.0006 cls_loss_mapping 0.0013 cls_loss_causal 0.4736 re_mapping 0.0038 re_causal 0.0117 /// teacc 99.11 lr 0.00010000
+Epoch 289, weight, value: tensor([[-0.1056,  0.0566,  0.0705,  ..., -0.0909, -0.1858,  0.0601],
+        [-0.0924, -0.0595, -0.1160,  ...,  0.1814, -0.1086, -0.0801],
+        [-0.0426,  0.0042,  0.2173,  ..., -0.1235, -0.1561, -0.1443],
+        ...,
+        [-0.1591, -0.0619,  0.0208,  ..., -0.0535,  0.1253, -0.0961],
+        [-0.1115, -0.0966, -0.0795,  ..., -0.1456, -0.0068, -0.1763],
+        [-0.1910, -0.0681, -0.1522,  ..., -0.1996, -0.0381,  0.1465]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00, -7.2271e-07,  ...,  5.5879e-09,
+         -8.9407e-08, -4.6380e-07],
+        [ 3.7253e-09,  0.0000e+00,  3.3528e-08,  ..., -1.8068e-07,
+          1.4901e-08,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00, -6.8918e-08,  ...,  1.6764e-08,
+          1.1176e-08,  1.8626e-08],
+        ...,
+        [ 1.8626e-09,  0.0000e+00,  1.1176e-08,  ...,  5.7742e-08,
+         -7.2643e-08,  2.9802e-08],
+        [ 1.8626e-09,  0.0000e+00,  1.5087e-07,  ...,  3.5390e-08,
+          2.7940e-08,  1.0058e-07],
+        [ 4.4703e-08,  0.0000e+00,  3.2224e-07,  ...,  5.5879e-09,
+          4.6566e-08,  1.6578e-07]], device='cuda:0')
+Epoch 289, bias, value: tensor([-0.0420, -0.0338,  0.0029,  0.0320, -0.0167,  0.0073, -0.0126,  0.0161,
+         0.0131, -0.0005], device='cuda:0'), grad: tensor([-1.8440e-06, -3.2224e-07,  7.4506e-09,  3.8184e-07,  1.6205e-07,
+         1.7323e-07, -2.2352e-08,  9.6858e-08,  4.9919e-07,  8.4750e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 288, time 214.12, cls_loss 0.0006 cls_loss_mapping 0.0020 cls_loss_causal 0.4895 re_mapping 0.0037 re_causal 0.0118 /// teacc 99.09 lr 0.00010000
+Epoch 290, weight, value: tensor([[-0.1056,  0.0567,  0.0706,  ..., -0.0909, -0.1862,  0.0601],
+        [-0.0926, -0.0596, -0.1160,  ...,  0.1815, -0.1087, -0.0801],
+        [-0.0426,  0.0043,  0.2179,  ..., -0.1238, -0.1561, -0.1445],
+        ...,
+        [-0.1591, -0.0620,  0.0208,  ..., -0.0535,  0.1253, -0.0961],
+        [-0.1116, -0.0966, -0.0796,  ..., -0.1457, -0.0069, -0.1766],
+        [-0.1911, -0.0694, -0.1522,  ..., -0.2008, -0.0381,  0.1465]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  0.0000e+00, -4.6566e-08,  ...,  1.8626e-09,
+          3.7253e-09, -6.1467e-08],
+        [ 9.1270e-08,  0.0000e+00,  3.1665e-08,  ...,  3.7253e-09,
+          4.2841e-08,  5.5879e-09],
+        [ 3.7253e-09,  0.0000e+00, -4.2841e-08,  ...,  1.8626e-09,
+          9.3132e-09,  1.8626e-09],
+        ...,
+        [ 4.8429e-08,  0.0000e+00, -9.3132e-08,  ...,  1.4901e-08,
+         -1.9372e-07, -1.1176e-08],
+        [ 2.7940e-08,  0.0000e+00, -9.1270e-08,  ...,  5.5879e-09,
+         -6.1467e-08, -7.4506e-09],
+        [ 3.5577e-07,  0.0000e+00,  1.7323e-07,  ...,  5.5879e-08,
+          1.8440e-07,  6.1467e-08]], device='cuda:0')
+Epoch 290, bias, value: tensor([-0.0419, -0.0337,  0.0026,  0.0316, -0.0166,  0.0075, -0.0125,  0.0161,
+         0.0133, -0.0005], device='cuda:0'), grad: tensor([-5.7742e-08,  3.0734e-07,  1.3597e-07, -1.6838e-06, -8.6613e-07,
+         1.6112e-06,  4.2841e-08,  1.0990e-07, -1.2219e-06,  1.6317e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 289, time 214.17, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4826 re_mapping 0.0034 re_causal 0.0116 /// teacc 99.05 lr 0.00010000
+Epoch 291, weight, value: tensor([[-0.1058,  0.0571,  0.0706,  ..., -0.0910, -0.1860,  0.0602],
+        [-0.0931, -0.0596, -0.1161,  ...,  0.1815, -0.1087, -0.0803],
+        [-0.0434,  0.0042,  0.2196,  ..., -0.1242, -0.1561, -0.1448],
+        ...,
+        [-0.1591, -0.0621,  0.0208,  ..., -0.0536,  0.1253, -0.0961],
+        [-0.1118, -0.0967, -0.0799,  ..., -0.1457, -0.0072, -0.1771],
+        [-0.1917, -0.0721, -0.1522,  ..., -0.2012, -0.0381,  0.1465]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -7.4506e-09,  ...,  1.8626e-09,
+          0.0000e+00, -1.1176e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ..., -2.9802e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -7.4506e-08,  ...,  3.7253e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.1176e-08,  ...,  2.4214e-08,
+          0.0000e+00,  1.8626e-09],
+        [ 1.8626e-09,  0.0000e+00,  5.5879e-08,  ..., -8.1956e-08,
+          2.0489e-08,  1.6764e-08],
+        [ 5.5879e-09,  0.0000e+00,  7.4506e-09,  ...,  1.8626e-09,
+          1.8626e-09,  3.7253e-09]], device='cuda:0')
+Epoch 291, bias, value: tensor([-0.0419, -0.0337,  0.0032,  0.0316, -0.0161,  0.0074, -0.0129,  0.0160,
+         0.0133, -0.0005], device='cuda:0'), grad: tensor([ 1.4901e-08,  1.5460e-07, -2.6077e-08, -1.4901e-08,  0.0000e+00,
+        -6.8918e-08,  1.2033e-06,  1.1548e-07, -1.4547e-06,  4.6566e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 290, time 214.36, cls_loss 0.0007 cls_loss_mapping 0.0022 cls_loss_causal 0.5091 re_mapping 0.0037 re_causal 0.0119 /// teacc 99.11 lr 0.00010000
+Epoch 292, weight, value: tensor([[-0.1059,  0.0575,  0.0708,  ..., -0.0913, -0.1868,  0.0603],
+        [-0.0934, -0.0596, -0.1164,  ...,  0.1819, -0.1087, -0.0806],
+        [-0.0437,  0.0043,  0.2205,  ..., -0.1244, -0.1563, -0.1455],
+        ...,
+        [-0.1591, -0.0623,  0.0210,  ..., -0.0540,  0.1254, -0.0961],
+        [-0.1124, -0.0972, -0.0801,  ..., -0.1457, -0.0077, -0.1777],
+        [-0.1919, -0.0746, -0.1523,  ..., -0.2020, -0.0381,  0.1464]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.6566e-08,  ...,  5.5879e-09,
+          0.0000e+00, -4.8429e-08],
+        [ 1.6764e-08,  0.0000e+00,  1.4901e-08,  ..., -4.8429e-08,
+          0.0000e+00,  1.1176e-08],
+        [ 1.8626e-09,  0.0000e+00, -3.9116e-08,  ...,  1.4901e-08,
+          0.0000e+00,  3.7253e-09],
+        ...,
+        [ 1.8626e-09,  0.0000e+00,  9.3132e-09,  ...,  2.6077e-08,
+         -1.8626e-09,  3.3528e-08],
+        [ 1.8626e-09,  0.0000e+00,  7.4506e-09,  ...,  3.5390e-08,
+         -0.0000e+00,  1.3039e-08],
+        [ 2.2724e-07,  0.0000e+00,  2.0489e-08,  ...,  9.3132e-09,
+          1.8626e-09, -8.5682e-08]], device='cuda:0')
+Epoch 292, bias, value: tensor([-0.0418, -0.0335,  0.0030,  0.0317, -0.0161,  0.0085, -0.0144,  0.0160,
+         0.0132, -0.0006], device='cuda:0'), grad: tensor([-1.0803e-07, -4.8429e-08, -2.4214e-08,  1.0058e-07, -1.8626e-07,
+         2.7567e-07, -2.6822e-07,  1.3970e-07, -6.8918e-08,  1.8254e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 291, time 214.66, cls_loss 0.0005 cls_loss_mapping 0.0014 cls_loss_causal 0.4920 re_mapping 0.0037 re_causal 0.0120 /// teacc 99.11 lr 0.00010000
+Epoch 293, weight, value: tensor([[-0.1060,  0.0575,  0.0713,  ..., -0.0882, -0.1871,  0.0609],
+        [-0.0943, -0.0596, -0.1166,  ...,  0.1820, -0.1087, -0.0809],
+        [-0.0422,  0.0045,  0.2213,  ..., -0.1240, -0.1564, -0.1459],
+        ...,
+        [-0.1592, -0.0623,  0.0211,  ..., -0.0541,  0.1254, -0.0961],
+        [-0.1131, -0.0972, -0.0803,  ..., -0.1458, -0.0078, -0.1783],
+        [-0.1922, -0.0746, -0.1525,  ..., -0.2041, -0.0381,  0.1463]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.6263e-07,  ..., -0.0000e+00,
+          1.3039e-08, -2.2724e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ..., -6.1467e-08,
+          3.7253e-09,  1.3039e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.3039e-08,  ...,  9.3132e-09,
+          3.7253e-09,  1.3039e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -6.7055e-08,  ...,  4.8429e-08,
+         -4.7497e-07,  8.9407e-08],
+        [-1.8626e-09,  0.0000e+00,  9.3132e-09,  ...,  3.7253e-09,
+          1.8626e-09,  1.3225e-07],
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-08,  ...,  0.0000e+00,
+          8.9407e-08, -5.0850e-07]], device='cuda:0')
+Epoch 293, bias, value: tensor([-0.0412, -0.0336,  0.0035,  0.0317, -0.0160,  0.0084, -0.0171,  0.0160,
+         0.0132, -0.0006], device='cuda:0'), grad: tensor([-4.5449e-07, -5.9605e-08,  5.0291e-08,  3.1665e-07,  1.1325e-06,
+         6.9290e-07,  1.1176e-08, -5.1036e-07,  4.6194e-07, -1.6391e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 292, time 214.30, cls_loss 0.0005 cls_loss_mapping 0.0011 cls_loss_causal 0.4472 re_mapping 0.0037 re_causal 0.0113 /// teacc 99.13 lr 0.00010000
+Epoch 294, weight, value: tensor([[-0.1062,  0.0576,  0.0713,  ..., -0.0881, -0.1870,  0.0609],
+        [-0.0948, -0.0596, -0.1167,  ...,  0.1820, -0.1087, -0.0809],
+        [-0.0423,  0.0046,  0.2242,  ..., -0.1241, -0.1564, -0.1460],
+        ...,
+        [-0.1594, -0.0625,  0.0210,  ..., -0.0541,  0.1254, -0.0961],
+        [-0.1141, -0.0972, -0.0817,  ..., -0.1458, -0.0079, -0.1786],
+        [-0.1923, -0.0747, -0.1525,  ..., -0.2043, -0.0381,  0.1463]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.4901e-08,  ...,  3.7253e-09,
+          0.0000e+00, -2.2352e-08],
+        [ 3.7253e-09,  0.0000e+00,  9.3132e-09,  ..., -3.1665e-08,
+          1.8626e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00, -1.9558e-07,  ...,  7.4506e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  0.0000e+00,  1.3039e-08,  ...,  2.6077e-08,
+         -1.3039e-08,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.1735e-07,  ...,  2.9802e-08,
+          3.7253e-09,  7.4506e-09],
+        [ 2.4214e-08,  0.0000e+00,  1.1176e-08,  ...,  3.7253e-09,
+          5.5879e-09, -1.3039e-08]], device='cuda:0')
+Epoch 294, bias, value: tensor([-0.0412, -0.0335,  0.0054,  0.0315, -0.0159,  0.0081, -0.0168,  0.0160,
+         0.0129, -0.0007], device='cuda:0'), grad: tensor([-3.3528e-08, -3.3528e-08, -3.3714e-07,  9.8720e-08,  7.4506e-09,
+        -9.3132e-09, -9.8720e-08,  8.5682e-08,  2.7753e-07,  1.6764e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 293, time 214.20, cls_loss 0.0008 cls_loss_mapping 0.0022 cls_loss_causal 0.5004 re_mapping 0.0036 re_causal 0.0114 /// teacc 98.97 lr 0.00010000
+Epoch 295, weight, value: tensor([[-0.1063,  0.0576,  0.0713,  ..., -0.0881, -0.1874,  0.0609],
+        [-0.0950, -0.0597, -0.1182,  ...,  0.1820, -0.1087, -0.0811],
+        [-0.0425,  0.0046,  0.2267,  ..., -0.1232, -0.1566, -0.1461],
+        ...,
+        [-0.1594, -0.0629,  0.0210,  ..., -0.0541,  0.1254, -0.0962],
+        [-0.1144, -0.0973, -0.0818,  ..., -0.1460, -0.0081, -0.1789],
+        [-0.1927, -0.0747, -0.1525,  ..., -0.2046, -0.0381,  0.1465]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  0.0000e+00,  3.7253e-08,  ...,  7.4506e-09,
+          1.8626e-09, -3.7253e-09],
+        [ 7.4506e-09,  0.0000e+00,  1.1455e-06,  ...,  3.5018e-06,
+          1.6950e-07,  5.1036e-06],
+        [ 3.7253e-09,  0.0000e+00, -3.5707e-06,  ..., -5.2527e-07,
+          8.1956e-08,  3.7253e-09],
+        ...,
+        [ 3.7253e-09,  0.0000e+00,  5.1036e-07,  ...,  7.4506e-08,
+         -5.4948e-07,  8.1956e-08],
+        [-6.2212e-07,  0.0000e+00,  1.0692e-06,  ...,  6.1467e-08,
+          3.7253e-08, -4.9546e-07],
+        [ 3.7253e-08,  0.0000e+00,  9.6858e-08,  ..., -6.0536e-06,
+          1.2107e-07, -9.8348e-06]], device='cuda:0')
+Epoch 295, bias, value: tensor([-0.0412, -0.0337,  0.0074,  0.0316, -0.0164,  0.0079, -0.0167,  0.0160,
+         0.0128, -0.0005], device='cuda:0'), grad: tensor([ 1.0617e-07,  1.9118e-05, -5.5283e-06,  1.9185e-07,  1.5691e-05,
+         3.3900e-07,  3.4217e-06,  8.1956e-08, -1.5758e-06, -3.1918e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 294, time 214.45, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4490 re_mapping 0.0037 re_causal 0.0111 /// teacc 98.94 lr 0.00010000
+Epoch 296, weight, value: tensor([[-0.1063,  0.0576,  0.0714,  ..., -0.0881, -0.1876,  0.0610],
+        [-0.0953, -0.0597, -0.1189,  ...,  0.1820, -0.1088, -0.0813],
+        [-0.0427,  0.0046,  0.2280,  ..., -0.1232, -0.1569, -0.1466],
+        ...,
+        [-0.1595, -0.0630,  0.0187,  ..., -0.0541,  0.1253, -0.0962],
+        [-0.1145, -0.0973, -0.0797,  ..., -0.1464, -0.0054, -0.1792],
+        [-0.1915, -0.0747, -0.1526,  ..., -0.2039, -0.0382,  0.1468]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -7.6368e-08,  ...,  1.8626e-09,
+          1.8626e-09, -7.6368e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ..., -2.4214e-08,
+          3.7253e-09,  1.1176e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  5.5879e-09,
+          1.8626e-09,  3.7253e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -7.4506e-09,  ...,  9.3132e-09,
+         -1.1176e-08,  1.1176e-08],
+        [ 1.8626e-09,  0.0000e+00,  3.7253e-09,  ...,  7.4506e-09,
+          9.3132e-09,  1.6764e-08],
+        [ 3.7253e-09,  0.0000e+00,  5.0291e-08,  ..., -3.7253e-09,
+          1.4901e-08,  2.0489e-08]], device='cuda:0')
+Epoch 296, bias, value: tensor([-0.0411, -0.0339,  0.0083,  0.0315, -0.0183,  0.0077, -0.0161,  0.0158,
+         0.0132, -0.0003], device='cuda:0'), grad: tensor([-1.2852e-07,  2.7940e-08,  2.4773e-07, -4.9174e-07,  2.0489e-08,
+        -1.6019e-07,  1.4529e-07,  6.8918e-08,  2.5705e-07,  1.4901e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 295, time 214.39, cls_loss 0.0008 cls_loss_mapping 0.0016 cls_loss_causal 0.5165 re_mapping 0.0034 re_causal 0.0114 /// teacc 99.12 lr 0.00010000
+Epoch 297, weight, value: tensor([[-0.1064,  0.0576,  0.0713,  ..., -0.0881, -0.1881,  0.0607],
+        [-0.0958, -0.0597, -0.1190,  ...,  0.1821, -0.1088, -0.0814],
+        [-0.0440,  0.0046,  0.2285,  ..., -0.1238, -0.1572, -0.1469],
+        ...,
+        [-0.1598, -0.0630,  0.0187,  ..., -0.0542,  0.1254, -0.0962],
+        [-0.1148, -0.0973, -0.0798,  ..., -0.1465, -0.0055, -0.1792],
+        [-0.1923, -0.0747, -0.1525,  ..., -0.2041, -0.0382,  0.1471]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -6.1467e-08, -4.8056e-07,  ...,  3.7253e-09,
+          0.0000e+00, -1.0133e-06],
+        [ 1.8626e-09,  1.8626e-09,  9.3132e-09,  ..., -6.8173e-07,
+          1.8626e-09,  1.4901e-08],
+        [ 0.0000e+00,  1.8626e-09, -2.7381e-07,  ...,  2.9989e-07,
+          1.8626e-09,  3.5390e-08],
+        ...,
+        [ 0.0000e+00,  5.5879e-09,  7.0781e-08,  ...,  3.1292e-07,
+         -5.5879e-09,  9.4995e-08],
+        [ 0.0000e+00,  3.7253e-09,  1.2666e-07,  ...,  2.9802e-08,
+          0.0000e+00,  5.9605e-08],
+        [ 9.3132e-09,  2.0489e-08,  2.8685e-07,  ...,  1.6764e-08,
+          1.8626e-09,  4.3213e-07]], device='cuda:0')
+Epoch 297, bias, value: tensor([-0.0414, -0.0339,  0.0081,  0.0318, -0.0178,  0.0076, -0.0159,  0.0158,
+         0.0130, -0.0002], device='cuda:0'), grad: tensor([-2.8759e-06, -1.6596e-06,  4.0606e-07,  1.0151e-06,  8.7544e-08,
+         1.9185e-07,  3.7253e-08,  1.1101e-06,  4.1537e-07,  1.2554e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 296, time 214.40, cls_loss 0.0007 cls_loss_mapping 0.0016 cls_loss_causal 0.4731 re_mapping 0.0037 re_causal 0.0112 /// teacc 99.07 lr 0.00010000
+Epoch 298, weight, value: tensor([[-0.1066,  0.0576,  0.0713,  ..., -0.0881, -0.1882,  0.0607],
+        [-0.0959, -0.0597, -0.1190,  ...,  0.1822, -0.1088, -0.0815],
+        [-0.0442,  0.0046,  0.2289,  ..., -0.1240, -0.1577, -0.1472],
+        ...,
+        [-0.1599, -0.0630,  0.0188,  ..., -0.0542,  0.1254, -0.0962],
+        [-0.1151, -0.0973, -0.0798,  ..., -0.1466, -0.0056, -0.1796],
+        [-0.1924, -0.0748, -0.1525,  ..., -0.2044, -0.0382,  0.1471]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.4703e-08,  ...,  0.0000e+00,
+          3.7253e-09, -4.8429e-08],
+        [ 1.8626e-09,  0.0000e+00,  2.4214e-08,  ..., -2.2352e-08,
+          2.6077e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  7.8231e-08,  ...,  3.7253e-09,
+          9.4995e-08,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -2.0862e-07,  ...,  1.1176e-08,
+         -2.0489e-07,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-08,  ...,  3.7253e-09,
+          1.1176e-08,  3.7253e-09],
+        [ 9.3132e-09,  0.0000e+00,  9.6858e-08,  ...,  0.0000e+00,
+          5.7742e-08,  3.1665e-08]], device='cuda:0')
+Epoch 298, bias, value: tensor([-0.0414, -0.0337,  0.0081,  0.0304, -0.0178,  0.0092, -0.0158,  0.0158,
+         0.0129, -0.0002], device='cuda:0'), grad: tensor([-8.9407e-08,  3.3528e-08,  1.2293e-07,  1.7881e-07,  1.3039e-08,
+         4.4703e-08,  9.3132e-09, -3.8184e-07, -1.6205e-07,  2.2538e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 297, time 214.21, cls_loss 0.0008 cls_loss_mapping 0.0020 cls_loss_causal 0.4725 re_mapping 0.0035 re_causal 0.0110 /// teacc 99.02 lr 0.00010000
+Epoch 299, weight, value: tensor([[-0.1068,  0.0576,  0.0713,  ..., -0.0887, -0.1887,  0.0606],
+        [-0.0962, -0.0597, -0.1192,  ...,  0.1826, -0.1088, -0.0817],
+        [-0.0444,  0.0046,  0.2287,  ..., -0.1251, -0.1599, -0.1474],
+        ...,
+        [-0.1600, -0.0630,  0.0193,  ..., -0.0546,  0.1255, -0.0962],
+        [-0.1155, -0.0973, -0.0799,  ..., -0.1466, -0.0057, -0.1800],
+        [-0.1925, -0.0748, -0.1526,  ..., -0.2072, -0.0382,  0.1471]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-08,  0.0000e+00, -5.2899e-07,  ...,  9.3132e-09,
+          5.5879e-09, -4.3772e-07],
+        [ 5.9605e-08,  0.0000e+00,  1.6764e-08,  ..., -1.3039e-08,
+          2.9802e-08,  5.5879e-09],
+        [ 6.1467e-08,  0.0000e+00,  7.6368e-08,  ...,  2.2352e-08,
+          2.4214e-08,  7.8231e-08],
+        ...,
+        [ 6.3330e-08,  0.0000e+00, -3.7253e-08,  ...,  1.3039e-08,
+         -3.3528e-08,  9.3132e-09],
+        [ 3.9116e-08,  0.0000e+00,  4.8429e-08,  ...,  2.9802e-08,
+          6.1467e-08,  4.0978e-08],
+        [ 1.0245e-07,  0.0000e+00,  1.8068e-07,  ...,  1.8626e-09,
+          4.4703e-08,  2.0489e-08]], device='cuda:0')
+Epoch 299, bias, value: tensor([-0.0416, -0.0335,  0.0074,  0.0316, -0.0178,  0.0082, -0.0142,  0.0157,
+         0.0129, -0.0003], device='cuda:0'), grad: tensor([-1.2945e-06,  1.3597e-07,  3.9116e-07,  1.4529e-07, -4.6939e-07,
+         3.3900e-07, -2.7381e-07,  6.1467e-08,  4.8801e-07,  4.5449e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 298, time 214.12, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.4944 re_mapping 0.0037 re_causal 0.0117 /// teacc 99.12 lr 0.00010000
+Epoch 300, weight, value: tensor([[-0.1071,  0.0576,  0.0718,  ..., -0.0886, -0.1846,  0.0612],
+        [-0.0965, -0.0597, -0.1195,  ...,  0.1826, -0.1089, -0.0819],
+        [-0.0447,  0.0046,  0.2285,  ..., -0.1254, -0.1611, -0.1476],
+        ...,
+        [-0.1601, -0.0630,  0.0200,  ..., -0.0547,  0.1256, -0.0962],
+        [-0.1157, -0.0973, -0.0797,  ..., -0.1466, -0.0054, -0.1790],
+        [-0.1926, -0.0748, -0.1531,  ..., -0.2073, -0.0386,  0.1466]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  0.0000e+00,  1.3039e-08,  ...,  2.2352e-08,
+          3.7253e-09,  2.4214e-08],
+        [ 2.2352e-08,  0.0000e+00,  2.6077e-08,  ..., -1.5907e-06,
+          1.8626e-09,  3.7253e-09],
+        [ 1.4901e-08,  0.0000e+00, -3.1292e-07,  ...,  4.6007e-07,
+          0.0000e+00,  3.7253e-09],
+        ...,
+        [ 1.8626e-09,  0.0000e+00,  1.6764e-08,  ...,  3.6508e-07,
+          1.8626e-09,  1.0431e-07],
+        [ 1.8626e-09,  0.0000e+00,  4.6566e-08,  ...,  1.9744e-07,
+          3.7253e-09,  1.8626e-08],
+        [ 3.1665e-08,  0.0000e+00,  7.4506e-09,  ...,  5.7742e-08,
+         -1.1176e-08, -1.7323e-07]], device='cuda:0')
+Epoch 300, bias, value: tensor([-0.0411, -0.0335,  0.0069,  0.0316, -0.0178,  0.0079, -0.0143,  0.0158,
+         0.0131, -0.0007], device='cuda:0'), grad: tensor([ 2.1607e-07, -3.7905e-06,  4.7684e-07, -8.7544e-08, -2.3730e-06,
+         4.4145e-07,  3.4273e-06,  1.1548e-06,  6.1467e-07, -8.3819e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 299, time 214.18, cls_loss 0.0007 cls_loss_mapping 0.0014 cls_loss_causal 0.4343 re_mapping 0.0037 re_causal 0.0112 /// teacc 99.10 lr 0.00010000
+Epoch 301, weight, value: tensor([[-0.1073,  0.0576,  0.0718,  ..., -0.0887, -0.1846,  0.0612],
+        [-0.0967, -0.0597, -0.1195,  ...,  0.1837, -0.1090, -0.0819],
+        [-0.0449,  0.0046,  0.2289,  ..., -0.1268, -0.1619, -0.1475],
+        ...,
+        [-0.1603, -0.0630,  0.0212,  ..., -0.0547,  0.1257, -0.0962],
+        [-0.1162, -0.0973, -0.0808,  ..., -0.1468, -0.0066, -0.1792],
+        [-0.1927, -0.0748, -0.1531,  ..., -0.2084, -0.0386,  0.1466]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.1176e-08,  ...,  1.8626e-09,
+          1.8626e-09, -2.1048e-07],
+        [ 7.4506e-09,  0.0000e+00,  5.5879e-09,  ...,  3.1665e-08,
+          1.6764e-08,  1.3039e-08],
+        [ 1.8626e-09,  0.0000e+00, -5.5879e-09,  ...,  1.3039e-08,
+          5.4017e-08,  4.2841e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -7.4506e-09,  ...,  0.0000e+00,
+         -1.3039e-08,  9.3132e-09],
+        [ 1.8626e-09,  0.0000e+00,  3.7253e-09,  ..., -2.5798e-06,
+          7.4506e-09,  1.8626e-08],
+        [ 4.2841e-08,  0.0000e+00,  9.3132e-09,  ...,  1.8626e-09,
+          1.3039e-08,  4.4703e-08]], device='cuda:0')
+Epoch 301, bias, value: tensor([-0.0411, -0.0328,  0.0066,  0.0316, -0.0177,  0.0081, -0.0156,  0.0159,
+         0.0126, -0.0007], device='cuda:0'), grad: tensor([-2.3469e-07,  3.2969e-07,  4.3213e-07,  3.2410e-07, -7.2643e-08,
+        -5.5134e-07,  1.2837e-05,  7.4506e-09, -1.3247e-05,  1.7881e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 300, time 214.57, cls_loss 0.0007 cls_loss_mapping 0.0021 cls_loss_causal 0.4560 re_mapping 0.0037 re_causal 0.0110 /// teacc 99.00 lr 0.00010000
+Epoch 302, weight, value: tensor([[-0.1076,  0.0576,  0.0719,  ..., -0.0888, -0.1846,  0.0612],
+        [-0.0969, -0.0597, -0.1205,  ...,  0.1838, -0.1090, -0.0823],
+        [-0.0451,  0.0046,  0.2313,  ..., -0.1275, -0.1622, -0.1479],
+        ...,
+        [-0.1604, -0.0630,  0.0204,  ..., -0.0548,  0.1258, -0.0962],
+        [-0.1165, -0.0973, -0.0808,  ..., -0.1469, -0.0065, -0.1795],
+        [-0.1930, -0.0748, -0.1532,  ..., -0.2086, -0.0387,  0.1466]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.0489e-06,  ...,  8.1956e-08,
+          0.0000e+00,  7.8976e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.1921e-07,  ..., -1.4342e-07,
+          2.7008e-07,  2.9802e-08],
+        [ 0.0000e+00,  0.0000e+00, -4.2692e-06,  ...,  1.3411e-07,
+          3.7253e-09, -1.6745e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-08,  ...,  9.3132e-09,
+         -4.7497e-07,  6.5193e-08],
+        [ 1.8626e-09,  0.0000e+00,  1.0394e-06,  ...,  1.3970e-07,
+          9.3132e-09,  4.5635e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.8999e-07,  ...,  3.7253e-09,
+          1.5460e-07,  5.5879e-09]], device='cuda:0')
+Epoch 302, bias, value: tensor([-0.0411, -0.0330,  0.0080,  0.0313, -0.0183,  0.0080, -0.0149,  0.0158,
+         0.0127, -0.0007], device='cuda:0'), grad: tensor([ 4.0755e-06,  4.6566e-08, -7.0632e-06,  1.0394e-06,  1.9372e-07,
+         4.3958e-07, -6.5751e-07, -6.3889e-07,  2.2966e-06,  2.5518e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 301, time 214.44, cls_loss 0.0007 cls_loss_mapping 0.0012 cls_loss_causal 0.4651 re_mapping 0.0036 re_causal 0.0108 /// teacc 99.07 lr 0.00010000
+Epoch 303, weight, value: tensor([[-0.1078,  0.0576,  0.0719,  ..., -0.0889, -0.1846,  0.0613],
+        [-0.0971, -0.0597, -0.1207,  ...,  0.1839, -0.1090, -0.0824],
+        [-0.0453,  0.0046,  0.2318,  ..., -0.1277, -0.1627, -0.1482],
+        ...,
+        [-0.1605, -0.0630,  0.0204,  ..., -0.0548,  0.1258, -0.0962],
+        [-0.1168, -0.0973, -0.0809,  ..., -0.1472, -0.0069, -0.1803],
+        [-0.1933, -0.0748, -0.1532,  ..., -0.2088, -0.0387,  0.1466]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -9.3132e-09,  ...,  1.3039e-08,
+          1.8626e-09, -9.3132e-09],
+        [ 1.8626e-09,  0.0000e+00,  1.3039e-08,  ..., -1.4901e-08,
+          3.3528e-08,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  3.7253e-09,
+          5.5879e-09,  1.8626e-09],
+        ...,
+        [ 1.8626e-09,  0.0000e+00, -7.0781e-08,  ...,  1.1176e-08,
+         -1.5274e-07,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.1176e-08,  ...,  1.8626e-08,
+          4.6566e-08,  3.1665e-08],
+        [ 3.5390e-08,  0.0000e+00,  4.2841e-08,  ...,  1.8626e-09,
+          9.6858e-08,  0.0000e+00]], device='cuda:0')
+Epoch 303, bias, value: tensor([-0.0410, -0.0330,  0.0081,  0.0308, -0.0182,  0.0071, -0.0136,  0.0158,
+         0.0123, -0.0007], device='cuda:0'), grad: tensor([ 6.4634e-07,  3.3341e-07,  1.1362e-07,  2.9430e-06,  1.8626e-08,
+        -6.5565e-07,  6.5379e-07, -1.9744e-07, -4.2953e-06,  4.1164e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 302, time 214.33, cls_loss 0.0007 cls_loss_mapping 0.0019 cls_loss_causal 0.4687 re_mapping 0.0036 re_causal 0.0107 /// teacc 99.07 lr 0.00010000
+Epoch 304, weight, value: tensor([[-0.1107,  0.0576,  0.0719,  ..., -0.0889, -0.1846,  0.0613],
+        [-0.0985, -0.0597, -0.1210,  ...,  0.1840, -0.1091, -0.0829],
+        [-0.0461,  0.0046,  0.2315,  ..., -0.1286, -0.1644, -0.1486],
+        ...,
+        [-0.1605, -0.0630,  0.0213,  ..., -0.0549,  0.1259, -0.0963],
+        [-0.1172, -0.0973, -0.0810,  ..., -0.1472, -0.0070, -0.1808],
+        [-0.1940, -0.0748, -0.1532,  ..., -0.2081, -0.0387,  0.1467]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.3039e-08,  ...,  3.7253e-09,
+          1.8626e-09,  5.0291e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.4214e-08,  ...,  0.0000e+00,
+          4.0978e-08,  1.3039e-08],
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  3.7253e-09,
+          7.4506e-09,  3.7253e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -4.2841e-08,  ...,  1.8626e-09,
+         -5.0291e-08,  3.5390e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.3039e-08,
+          2.6077e-08,  4.4703e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.6764e-08,  ...,  0.0000e+00,
+          4.4703e-08, -8.9407e-08]], device='cuda:0')
+Epoch 304, bias, value: tensor([-0.0411, -0.0331,  0.0075,  0.0306, -0.0180,  0.0070, -0.0135,  0.0159,
+         0.0125, -0.0007], device='cuda:0'), grad: tensor([ 3.7123e-06,  1.6205e-07,  7.2643e-08, -5.9679e-06,  2.1979e-07,
+        -1.4156e-07,  9.6858e-08,  3.7253e-09,  1.9018e-06, -6.5193e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 303, time 214.53, cls_loss 0.0007 cls_loss_mapping 0.0014 cls_loss_causal 0.4840 re_mapping 0.0035 re_causal 0.0112 /// teacc 99.07 lr 0.00010000
+Epoch 305, weight, value: tensor([[-0.1131,  0.0576,  0.0720,  ..., -0.0890, -0.1847,  0.0613],
+        [-0.1014, -0.0597, -0.1213,  ...,  0.1841, -0.1092, -0.0831],
+        [-0.0477,  0.0046,  0.2324,  ..., -0.1291, -0.1649, -0.1490],
+        ...,
+        [-0.1607, -0.0630,  0.0210,  ..., -0.0549,  0.1260, -0.0963],
+        [-0.1178, -0.0973, -0.0811,  ..., -0.1473, -0.0070, -0.1812],
+        [-0.1941, -0.0748, -0.1532,  ..., -0.2082, -0.0387,  0.1467]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  0.0000e+00, -1.2871e-06,  ...,  1.4901e-08,
+          1.3039e-08, -1.4696e-06],
+        [ 1.8626e-09,  0.0000e+00,  2.0489e-08,  ..., -5.4017e-08,
+          1.1176e-08,  1.1176e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.9802e-08,  ...,  7.4506e-09,
+          1.3039e-08,  2.0489e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -1.6764e-08,  ...,  2.0489e-08,
+         -4.4703e-08,  7.4506e-09],
+        [ 0.0000e+00,  0.0000e+00,  5.0291e-08,  ...,  1.1176e-08,
+          3.7253e-09,  5.4017e-08],
+        [ 5.5879e-09,  0.0000e+00,  4.0233e-07,  ...,  3.7253e-09,
+          1.1176e-08,  4.5821e-07]], device='cuda:0')
+Epoch 305, bias, value: tensor([-0.0411, -0.0332,  0.0077,  0.0303, -0.0176,  0.0071, -0.0134,  0.0158,
+         0.0125, -0.0007], device='cuda:0'), grad: tensor([-2.7306e-06, -2.2352e-08,  1.0990e-07,  3.0361e-07,  7.4506e-09,
+         1.8999e-07,  1.3597e-06, -2.9802e-08, -1.0803e-07,  9.1642e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 304, time 214.41, cls_loss 0.0007 cls_loss_mapping 0.0018 cls_loss_causal 0.5106 re_mapping 0.0034 re_causal 0.0109 /// teacc 99.07 lr 0.00010000
+Epoch 306, weight, value: tensor([[-0.1133,  0.0576,  0.0720,  ..., -0.0890, -0.1847,  0.0614],
+        [-0.1018, -0.0597, -0.1214,  ...,  0.1841, -0.1092, -0.0833],
+        [-0.0477,  0.0046,  0.2327,  ..., -0.1293, -0.1651, -0.1493],
+        ...,
+        [-0.1608, -0.0630,  0.0209,  ..., -0.0550,  0.1260, -0.0963],
+        [-0.1183, -0.0973, -0.0813,  ..., -0.1473, -0.0070, -0.1820],
+        [-0.1944, -0.0748, -0.1533,  ..., -0.2090, -0.0387,  0.1468]],
+       device='cuda:0'), grad: tensor([[ 1.3039e-08,  0.0000e+00, -1.1735e-07,  ...,  7.4506e-09,
+          0.0000e+00, -8.3819e-08],
+        [ 1.2852e-07,  0.0000e+00,  3.5390e-08,  ..., -2.4214e-07,
+          2.9802e-08,  3.7253e-08],
+        [ 1.8626e-08,  0.0000e+00, -3.5390e-08,  ...,  2.7940e-08,
+          2.6077e-08,  5.5879e-09],
+        ...,
+        [ 5.0291e-08,  0.0000e+00, -1.0245e-07,  ...,  9.1270e-08,
+         -1.4901e-07,  4.8429e-08],
+        [ 1.4901e-08,  0.0000e+00,  1.8626e-08,  ...,  9.3132e-08,
+          5.5879e-09,  9.8720e-08],
+        [ 1.2964e-06,  0.0000e+00,  1.4715e-07,  ...,  3.5390e-08,
+          7.2643e-08, -2.4587e-07]], device='cuda:0')
+Epoch 306, bias, value: tensor([-0.0411, -0.0332,  0.0078,  0.0303, -0.0175,  0.0069, -0.0135,  0.0158,
+         0.0125, -0.0007], device='cuda:0'), grad: tensor([-1.5646e-07, -2.0303e-07,  1.0990e-07,  1.3039e-07, -2.5071e-06,
+         2.3283e-07,  1.6205e-07,  9.6858e-08,  3.4273e-07,  1.7788e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 305, time 215.90, cls_loss 0.0007 cls_loss_mapping 0.0017 cls_loss_causal 0.4903 re_mapping 0.0037 re_causal 0.0113 /// teacc 99.03 lr 0.00010000
+Epoch 307, weight, value: tensor([[-0.1134,  0.0576,  0.0721,  ..., -0.0891, -0.1847,  0.0614],
+        [-0.1021, -0.0597, -0.1214,  ...,  0.1843, -0.1093, -0.0835],
+        [-0.0481,  0.0046,  0.2330,  ..., -0.1309, -0.1655, -0.1496],
+        ...,
+        [-0.1610, -0.0630,  0.0210,  ..., -0.0550,  0.1264, -0.0964],
+        [-0.1191, -0.0973, -0.0816,  ..., -0.1474, -0.0072, -0.1831],
+        [-0.1947, -0.0748, -0.1533,  ..., -0.2091, -0.0388,  0.1467]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.8626e-09,  2.0862e-07,  ...,  2.3283e-08,
+          8.1584e-06,  1.6123e-05],
+        [ 0.0000e+00,  0.0000e+00,  3.9861e-07,  ...,  1.8626e-09,
+          2.3283e-08,  5.1223e-08],
+        [ 0.0000e+00,  0.0000e+00, -2.3078e-06,  ..., -7.1712e-08,
+          1.0245e-08,  2.1420e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.4063e-06,  ...,  6.0536e-08,
+          6.0536e-08,  1.3318e-07],
+        [ 0.0000e+00,  0.0000e+00,  3.1944e-07,  ...,  3.1665e-08,
+          3.7253e-08,  8.1025e-08],
+        [ 9.3132e-10,  1.8626e-09,  1.0803e-07,  ...,  1.8626e-09,
+          1.0598e-06,  2.1327e-06]], device='cuda:0')
+Epoch 307, bias, value: tensor([-0.0410, -0.0331,  0.0076,  0.0302, -0.0186,  0.0071, -0.0135,  0.0161,
+         0.0125, -0.0007], device='cuda:0'), grad: tensor([ 2.4155e-05,  1.3048e-06, -6.9104e-06,  5.0291e-07,  4.1723e-07,
+        -3.0160e-05,  1.9055e-06,  4.4964e-06,  1.0366e-06,  3.2913e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 306, time 216.37, cls_loss 0.0007 cls_loss_mapping 0.0013 cls_loss_causal 0.4619 re_mapping 0.0037 re_causal 0.0111 /// teacc 99.10 lr 0.00010000
+Epoch 308, weight, value: tensor([[-0.1134,  0.0576,  0.0722,  ..., -0.0891, -0.1850,  0.0615],
+        [-0.1021, -0.0598, -0.1216,  ...,  0.1844, -0.1093, -0.0841],
+        [-0.0482,  0.0057,  0.2365,  ..., -0.1311, -0.1629, -0.1498],
+        ...,
+        [-0.1610, -0.0642,  0.0188,  ..., -0.0551,  0.1263, -0.0964],
+        [-0.1194, -0.0976, -0.0824,  ..., -0.1474, -0.0073, -0.1838],
+        [-0.1948, -0.0748, -0.1534,  ..., -0.2093, -0.0388,  0.1467]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -2.4214e-08,  ...,  6.5193e-09,
+          2.5146e-08,  1.1502e-06],
+        [ 4.6566e-09,  0.0000e+00, -2.2165e-07,  ..., -9.5181e-07,
+          9.3132e-09,  1.6764e-07],
+        [ 1.8626e-09,  0.0000e+00,  4.4703e-08,  ...,  1.9651e-07,
+          8.3819e-09,  4.0978e-08],
+        ...,
+        [ 5.5879e-09,  0.0000e+00,  1.4715e-07,  ...,  6.5472e-07,
+          9.3132e-10,  1.4259e-06],
+        [ 1.1176e-08,  0.0000e+00,  1.3970e-08,  ...,  4.0978e-08,
+          5.4948e-08,  1.1735e-07],
+        [ 8.0094e-08,  0.0000e+00,  1.7695e-08,  ...,  9.3132e-09,
+          1.1828e-07, -5.0999e-06]], device='cuda:0')
+Epoch 308, bias, value: tensor([-0.0410, -0.0331,  0.0109,  0.0301, -0.0186,  0.0076, -0.0137,  0.0159,
+         0.0121, -0.0008], device='cuda:0'), grad: tensor([ 7.9870e-06, -1.5125e-06,  6.2864e-07, -4.8690e-06,  1.1563e-05,
+        -1.8692e-06,  5.1036e-07,  7.3239e-06,  6.8638e-07, -2.0504e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 307, time 218.67, cls_loss 0.0005 cls_loss_mapping 0.0015 cls_loss_causal 0.4621 re_mapping 0.0036 re_causal 0.0117 /// teacc 99.05 lr 0.00010000
+Epoch 309, weight, value: tensor([[-0.1135,  0.0576,  0.0722,  ..., -0.0892, -0.1850,  0.0615],
+        [-0.1023, -0.0598, -0.1244,  ...,  0.1825, -0.1112, -0.0842],
+        [-0.0482,  0.0058,  0.2365,  ..., -0.1314, -0.1631, -0.1501],
+        ...,
+        [-0.1612, -0.0644,  0.0214,  ..., -0.0529,  0.1270, -0.0964],
+        [-0.1198, -0.0977, -0.0825,  ..., -0.1475, -0.0075, -0.1841],
+        [-0.1950, -0.0748, -0.1535,  ..., -0.2098, -0.0388,  0.1467]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  2.7940e-09,
+          9.3132e-10, -2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  6.3330e-08,  ..., -2.7008e-08,
+          9.3132e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  5.4389e-07,  ...,  1.0245e-08,
+          4.0513e-07,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -7.4971e-07,  ...,  8.3819e-09,
+         -4.8429e-07,  3.5390e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.8184e-08,  ...,  6.5193e-09,
+          1.9558e-08,  2.7940e-09],
+        [ 9.3132e-10,  0.0000e+00,  6.3330e-08,  ...,  1.8626e-09,
+          3.9116e-08, -6.5193e-08]], device='cuda:0')
+Epoch 309, bias, value: tensor([-0.0410, -0.0352,  0.0107,  0.0299, -0.0185,  0.0079, -0.0138,  0.0170,
+         0.0120, -0.0008], device='cuda:0'), grad: tensor([ 1.7695e-08,  9.3132e-08,  8.8569e-07, -3.5390e-08,  1.1176e-07,
+         5.1223e-08,  5.5879e-09, -1.0850e-06,  5.0291e-08, -8.6613e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 308, time 215.04, cls_loss 0.0006 cls_loss_mapping 0.0018 cls_loss_causal 0.4690 re_mapping 0.0037 re_causal 0.0113 /// teacc 99.14 lr 0.00010000
+Epoch 310, weight, value: tensor([[-0.1135,  0.0576,  0.0723,  ..., -0.0892, -0.1850,  0.0616],
+        [-0.1024, -0.0598, -0.1245,  ...,  0.1828, -0.1113, -0.0844],
+        [-0.0481,  0.0058,  0.2361,  ..., -0.1334, -0.1643, -0.1502],
+        ...,
+        [-0.1613, -0.0644,  0.0222,  ..., -0.0531,  0.1271, -0.0964],
+        [-0.1199, -0.0977, -0.0826,  ..., -0.1475, -0.0077, -0.1843],
+        [-0.1951, -0.0748, -0.1535,  ..., -0.2100, -0.0388,  0.1466]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  0.0000e+00, -1.3970e-08,  ...,  8.3819e-09,
+          1.8626e-09, -1.3039e-08],
+        [ 2.7940e-08,  0.0000e+00,  3.8184e-08,  ..., -1.8626e-09,
+          1.8626e-08,  3.7253e-09],
+        [ 2.7940e-09,  0.0000e+00, -3.1013e-07,  ...,  3.1665e-08,
+          1.8626e-09,  1.8626e-09],
+        ...,
+        [ 4.6566e-09,  0.0000e+00,  1.4715e-07,  ...,  3.7253e-09,
+         -6.2399e-08, -2.7940e-09],
+        [ 4.6566e-09,  0.0000e+00,  3.2596e-08,  ...,  1.8626e-08,
+          5.5879e-09,  1.8626e-09],
+        [ 1.2033e-06,  0.0000e+00,  6.1467e-08,  ...,  0.0000e+00,
+          7.1712e-08, -5.5879e-09]], device='cuda:0')
+Epoch 310, bias, value: tensor([-0.0409, -0.0350,  0.0098,  0.0298, -0.0185,  0.0076, -0.0138,  0.0170,
+         0.0121, -0.0009], device='cuda:0'), grad: tensor([ 6.5193e-09,  1.6205e-07, -5.4203e-07, -5.9605e-08, -2.4252e-06,
+         7.9162e-08, -1.4901e-07,  3.3993e-07,  1.4249e-07,  2.4512e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 309, time 215.27, cls_loss 0.0006 cls_loss_mapping 0.0013 cls_loss_causal 0.4654 re_mapping 0.0035 re_causal 0.0110 /// teacc 99.22 lr 0.00010000
+Epoch 311, weight, value: tensor([[-0.1136,  0.0576,  0.0725,  ..., -0.0892, -0.1851,  0.0617],
+        [-0.1028, -0.0598, -0.1246,  ...,  0.1829, -0.1113, -0.0848],
+        [-0.0483,  0.0058,  0.2363,  ..., -0.1336, -0.1643, -0.1506],
+        ...,
+        [-0.1614, -0.0644,  0.0221,  ..., -0.0532,  0.1272, -0.0964],
+        [-0.1202, -0.0977, -0.0827,  ..., -0.1476, -0.0078, -0.1849],
+        [-0.1967, -0.0748, -0.1536,  ..., -0.2104, -0.0388,  0.1466]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -8.3819e-09,  ...,  3.7253e-09,
+          0.0000e+00, -7.4506e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.3039e-08,  ..., -2.7940e-09,
+          7.4506e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00, -2.7008e-08,  ...,  9.3132e-10,
+          7.4506e-09,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -8.0094e-08,  ...,  1.8626e-09,
+         -8.7544e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.1420e-08,  ...,  2.7940e-09,
+          1.1176e-08,  3.7253e-09],
+        [ 1.8626e-09,  0.0000e+00,  6.8918e-08,  ...,  0.0000e+00,
+          5.1223e-08, -9.3132e-09]], device='cuda:0')
+Epoch 311, bias, value: tensor([-0.0408, -0.0349,  0.0098,  0.0298, -0.0178,  0.0074, -0.0138,  0.0170,
+         0.0120, -0.0010], device='cuda:0'), grad: tensor([-9.3132e-10,  3.1665e-08, -2.0489e-08,  2.1420e-08,  3.0734e-08,
+         2.9802e-08, -1.6764e-08, -2.0023e-07,  7.4506e-09,  1.0990e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 310, time 214.45, cls_loss 0.0007 cls_loss_mapping 0.0012 cls_loss_causal 0.4786 re_mapping 0.0035 re_causal 0.0106 /// teacc 99.11 lr 0.00010000
+Epoch 312, weight, value: tensor([[-0.1137,  0.0576,  0.0725,  ..., -0.0893, -0.1852,  0.0618],
+        [-0.1030, -0.0598, -0.1247,  ...,  0.1829, -0.1114, -0.0850],
+        [-0.0486,  0.0059,  0.2368,  ..., -0.1339, -0.1644, -0.1506],
+        ...,
+        [-0.1616, -0.0645,  0.0222,  ..., -0.0532,  0.1273, -0.0965],
+        [-0.1207, -0.0977, -0.0825,  ..., -0.1477, -0.0080, -0.1853],
+        [-0.1971, -0.0748, -0.1538,  ..., -0.2109, -0.0389,  0.1466]],
+       device='cuda:0'), grad: tensor([[ 4.7497e-08,  0.0000e+00, -2.8871e-08,  ...,  2.6729e-07,
+          9.3132e-10, -1.5274e-07],
+        [ 7.3947e-07,  0.0000e+00,  2.8592e-07,  ..., -4.1910e-08,
+          7.4506e-09,  2.6450e-07],
+        [ 1.1176e-08,  0.0000e+00, -2.8554e-06,  ...,  2.7008e-08,
+          1.8626e-09,  1.3039e-08],
+        ...,
+        [ 3.9116e-08,  0.0000e+00,  4.3586e-07,  ...,  9.4995e-08,
+         -2.9802e-08,  2.0489e-08],
+        [ 3.1665e-08,  0.0000e+00,  1.3774e-06,  ...,  1.5832e-07,
+          6.5193e-09,  7.0781e-08],
+        [ 2.0582e-06,  0.0000e+00,  1.3225e-07,  ...,  5.5321e-07,
+          1.4901e-08,  3.6042e-07]], device='cuda:0')
+Epoch 312, bias, value: tensor([-0.0408, -0.0350,  0.0097,  0.0295, -0.0174,  0.0075, -0.0139,  0.0170,
+         0.0122, -0.0011], device='cuda:0'), grad: tensor([ 7.6648e-07,  1.4883e-06, -5.3383e-06,  1.1548e-07, -4.9770e-06,
+         4.4517e-07, -1.5432e-06,  1.3597e-06,  3.3956e-06,  4.2468e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 311, time 214.69, cls_loss 0.0006 cls_loss_mapping 0.0015 cls_loss_causal 0.4689 re_mapping 0.0035 re_causal 0.0106 /// teacc 99.05 lr 0.00010000
+Epoch 313, weight, value: tensor([[-0.1138,  0.0576,  0.0726,  ..., -0.0893, -0.1852,  0.0618],
+        [-0.1036, -0.0598, -0.1247,  ...,  0.1830, -0.1114, -0.0853],
+        [-0.0489,  0.0059,  0.2373,  ..., -0.1342, -0.1644, -0.1511],
+        ...,
+        [-0.1619, -0.0645,  0.0223,  ..., -0.0533,  0.1274, -0.0965],
+        [-0.1213, -0.0977, -0.0828,  ..., -0.1478, -0.0081, -0.1860],
+        [-0.1973, -0.0748, -0.1538,  ..., -0.2114, -0.0389,  0.1466]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  3.0827e-07,  ...,  9.3132e-10,
+          1.0245e-08,  6.6962e-07],
+        [ 0.0000e+00,  0.0000e+00, -6.6496e-07,  ..., -1.1642e-06,
+          1.3039e-08,  2.7008e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.2165e-07,  ...,  9.9652e-08,
+          3.7253e-09,  3.4086e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  5.5786e-07,  ...,  1.0412e-06,
+         -1.3597e-07,  1.1176e-07],
+        [ 0.0000e+00,  0.0000e+00,  3.6322e-08,  ...,  5.5879e-09,
+          2.7008e-08,  1.0058e-07],
+        [ 0.0000e+00,  0.0000e+00, -6.7521e-07,  ...,  1.8626e-09,
+          1.2480e-07, -1.6009e-06]], device='cuda:0')
+Epoch 313, bias, value: tensor([-0.0408, -0.0349,  0.0099,  0.0296, -0.0173,  0.0074, -0.0139,  0.0170,
+         0.0121, -0.0012], device='cuda:0'), grad: tensor([ 1.4789e-06, -2.4680e-06,  9.8161e-07,  2.1458e-06,  6.9849e-08,
+        -1.6354e-06,  1.0896e-07,  2.3190e-06,  2.3842e-07, -3.2578e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 312, time 214.51, cls_loss 0.0006 cls_loss_mapping 0.0017 cls_loss_causal 0.4901 re_mapping 0.0037 re_causal 0.0114 /// teacc 99.18 lr 0.00010000
+Epoch 314, weight, value: tensor([[-0.1142,  0.0576,  0.0727,  ..., -0.0894, -0.1852,  0.0619],
+        [-0.1041, -0.0598, -0.1248,  ...,  0.1831, -0.1114, -0.0854],
+        [-0.0496,  0.0061,  0.2373,  ..., -0.1343, -0.1646, -0.1518],
+        ...,
+        [-0.1622, -0.0645,  0.0228,  ..., -0.0533,  0.1275, -0.0965],
+        [-0.1216, -0.0977, -0.0830,  ..., -0.1478, -0.0084, -0.1865],
+        [-0.1975, -0.0748, -0.1540,  ..., -0.2116, -0.0390,  0.1466]],
+       device='cuda:0'), grad: tensor([[ 8.6613e-08,  0.0000e+00, -2.8126e-07,  ..., -1.8626e-09,
+          5.5879e-09, -2.3004e-07],
+        [ 1.0896e-07,  0.0000e+00,  1.0962e-06,  ...,  1.0896e-07,
+          8.6986e-07,  2.8871e-08],
+        [ 4.6566e-09,  0.0000e+00,  5.5879e-08,  ...,  3.5390e-08,
+          2.0489e-08,  2.7940e-08],
+        ...,
+        [ 1.4901e-08,  0.0000e+00, -1.1595e-06,  ..., -1.8813e-07,
+         -9.6112e-07,  4.6566e-09],
+        [ 1.0245e-08,  0.0000e+00,  6.0536e-08,  ...,  2.9802e-08,
+          5.5879e-09,  3.4459e-08],
+        [ 5.2247e-07,  0.0000e+00,  1.0058e-07,  ...,  2.0489e-08,
+          1.5832e-08, -1.8626e-09]], device='cuda:0')
+Epoch 314, bias, value: tensor([-0.0407, -0.0349,  0.0090,  0.0301, -0.0174,  0.0072, -0.0137,  0.0171,
+         0.0120, -0.0012], device='cuda:0'), grad: tensor([-5.0943e-07,  3.1050e-06,  2.1886e-07,  2.5146e-08, -1.1595e-06,
+         3.1758e-07,  2.2445e-07, -3.3472e-06,  2.4401e-07,  8.6706e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 313, time 214.55, cls_loss 0.0006 cls_loss_mapping 0.0017 cls_loss_causal 0.4877 re_mapping 0.0035 re_causal 0.0111 /// teacc 99.23 lr 0.00010000
+Epoch 315, weight, value: tensor([[-0.1148,  0.0576,  0.0727,  ..., -0.0894, -0.1853,  0.0619],
+        [-0.1042, -0.0599, -0.1248,  ...,  0.1834, -0.1115, -0.0855],
+        [-0.0497,  0.0062,  0.2375,  ..., -0.1355, -0.1647, -0.1520],
+        ...,
+        [-0.1623, -0.0646,  0.0229,  ..., -0.0536,  0.1276, -0.0965],
+        [-0.1220, -0.0977, -0.0831,  ..., -0.1480, -0.0086, -0.1866],
+        [-0.1978, -0.0748, -0.1540,  ..., -0.2123, -0.0391,  0.1466]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -6.3330e-08,  ..., -1.3039e-08,
+          2.6077e-08, -8.6613e-08],
+        [ 3.2596e-08,  0.0000e+00,  4.6566e-08,  ..., -1.1176e-08,
+          9.3132e-08,  1.3039e-08],
+        [ 9.3132e-10,  0.0000e+00,  1.3970e-08,  ...,  3.7253e-09,
+          2.2352e-08,  3.7253e-09],
+        ...,
+        [ 7.4506e-09,  0.0000e+00, -9.8906e-07,  ...,  7.4506e-09,
+         -1.9632e-06,  1.5832e-08],
+        [ 2.7940e-09,  0.0000e+00,  2.9802e-08,  ...,  2.7940e-09,
+          5.2154e-08,  4.1910e-08],
+        [ 2.6077e-08,  0.0000e+00,  6.1840e-07,  ...,  1.8626e-09,
+          1.1278e-06, -3.2410e-07]], device='cuda:0')
+Epoch 315, bias, value: tensor([-0.0407, -0.0347,  0.0084,  0.0306, -0.0173,  0.0067, -0.0133,  0.0170,
+         0.0121, -0.0013], device='cuda:0'), grad: tensor([-1.7229e-07,  3.1292e-07,  8.3819e-08,  4.6007e-07,  9.7789e-08,
+         1.3085e-06,  1.2480e-07, -4.6901e-06,  2.1514e-07,  2.2482e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 314, time 214.31, cls_loss 0.0006 cls_loss_mapping 0.0017 cls_loss_causal 0.4859 re_mapping 0.0035 re_causal 0.0110 /// teacc 99.03 lr 0.00010000
+Epoch 316, weight, value: tensor([[-0.1150,  0.0576,  0.0728,  ..., -0.0892, -0.1853,  0.0620],
+        [-0.1047, -0.0599, -0.1250,  ...,  0.1835, -0.1116, -0.0884],
+        [-0.0498,  0.0063,  0.2382,  ..., -0.1357, -0.1649, -0.1523],
+        ...,
+        [-0.1626, -0.0647,  0.0236,  ..., -0.0537,  0.1280, -0.0966],
+        [-0.1221, -0.0977, -0.0835,  ..., -0.1480, -0.0089, -0.1872],
+        [-0.1979, -0.0748, -0.1543,  ..., -0.2094, -0.0393,  0.1467]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  0.0000e+00,  7.4506e-09,  ...,  5.8673e-08,
+          1.3039e-08, -2.7940e-09],
+        [ 8.3819e-09,  0.0000e+00,  1.1921e-07,  ..., -9.1270e-08,
+          8.4750e-08,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.5274e-07,  ...,  1.8626e-08,
+          1.0710e-07,  9.3132e-10],
+        ...,
+        [ 1.8626e-09,  0.0000e+00, -6.0629e-07,  ...,  3.6322e-08,
+         -4.2375e-07,  3.1665e-08],
+        [ 3.7253e-09,  0.0000e+00,  1.2293e-07,  ...,  9.3132e-08,
+          8.6613e-08,  6.5193e-09],
+        [ 1.4901e-08,  0.0000e+00,  1.2387e-07,  ...,  3.7253e-09,
+          8.0094e-08, -1.0431e-07]], device='cuda:0')
+Epoch 316, bias, value: tensor([-0.0406, -0.0349,  0.0088,  0.0305, -0.0177,  0.0057, -0.0134,  0.0173,
+         0.0119, -0.0014], device='cuda:0'), grad: tensor([ 1.8906e-07,  1.4901e-07,  4.3400e-07,  3.0734e-07,  1.9465e-07,
+         1.0803e-07, -4.5262e-07, -1.3402e-06, -1.7136e-07,  5.8673e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 315, time 214.61, cls_loss 0.0007 cls_loss_mapping 0.0020 cls_loss_causal 0.4479 re_mapping 0.0034 re_causal 0.0105 /// teacc 99.09 lr 0.00010000
+Epoch 317, weight, value: tensor([[-0.1151,  0.0576,  0.0728,  ..., -0.0893, -0.1853,  0.0620],
+        [-0.1034, -0.0599, -0.1250,  ...,  0.1838, -0.1117, -0.0887],
+        [-0.0515,  0.0064,  0.2383,  ..., -0.1368, -0.1651, -0.1527],
+        ...,
+        [-0.1635, -0.0647,  0.0236,  ..., -0.0538,  0.1281, -0.0966],
+        [-0.1227, -0.0978, -0.0836,  ..., -0.1481, -0.0090, -0.1877],
+        [-0.1984, -0.0749, -0.1544,  ..., -0.2099, -0.0393,  0.1468]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09,  0.0000e+00, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00, -1.9558e-08],
+        [ 2.1420e-08,  0.0000e+00,  2.7008e-08,  ..., -2.6077e-08,
+          6.5193e-09,  6.5193e-09],
+        [ 1.0245e-08,  0.0000e+00, -2.8126e-07,  ...,  2.7940e-09,
+          1.8626e-08,  2.5146e-08],
+        ...,
+        [ 1.4901e-08,  0.0000e+00, -3.7253e-09,  ...,  1.4901e-08,
+         -5.4948e-08,  1.8626e-09],
+        [ 1.1176e-08,  0.0000e+00,  1.0803e-07,  ...,  3.7253e-09,
+          6.5193e-09,  3.7253e-09],
+        [ 6.5193e-08,  0.0000e+00,  5.9605e-08,  ...,  0.0000e+00,
+          1.5832e-08,  4.0047e-08]], device='cuda:0')
+Epoch 317, bias, value: tensor([-0.0406, -0.0347,  0.0084,  0.0304, -0.0182,  0.0056, -0.0135,  0.0173,
+         0.0121, -0.0013], device='cuda:0'), grad: tensor([ 1.3784e-06,  1.3849e-06,  4.5672e-06, -3.4198e-06,  1.8626e-08,
+        -4.0233e-07,  2.0787e-06,  7.1712e-07, -1.3120e-05,  6.7651e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 316, time 214.52, cls_loss 0.0008 cls_loss_mapping 0.0014 cls_loss_causal 0.4643 re_mapping 0.0034 re_causal 0.0105 /// teacc 99.11 lr 0.00010000
+Epoch 318, weight, value: tensor([[-0.1152,  0.0576,  0.0729,  ..., -0.0893, -0.1853,  0.0621],
+        [-0.1036, -0.0599, -0.1252,  ...,  0.1839, -0.1117, -0.0889],
+        [-0.0516,  0.0064,  0.2389,  ..., -0.1382, -0.1652, -0.1534],
+        ...,
+        [-0.1642, -0.0648,  0.0237,  ..., -0.0538,  0.1281, -0.0968],
+        [-0.1231, -0.0979, -0.0840,  ..., -0.1481, -0.0093, -0.1890],
+        [-0.1987, -0.0751, -0.1544,  ..., -0.2101, -0.0392,  0.1469]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -3.4180e-07,  ..., -4.6566e-09,
+          9.3132e-10, -4.0885e-07],
+        [ 2.7940e-09,  0.0000e+00,  5.5879e-09,  ..., -2.7940e-08,
+          7.4506e-09,  4.6566e-09],
+        [ 9.3132e-10,  0.0000e+00,  1.2107e-08,  ...,  9.3132e-09,
+          1.8626e-09,  1.4901e-08],
+        ...,
+        [ 2.7940e-09,  0.0000e+00,  5.5879e-09,  ...,  9.3132e-09,
+          2.0489e-08,  1.3504e-07],
+        [ 9.3132e-10,  0.0000e+00,  3.7253e-09,  ...,  2.1420e-08,
+          9.3132e-09,  9.3132e-09],
+        [ 6.5193e-09,  0.0000e+00,  5.6811e-08,  ...,  1.8626e-09,
+         -1.5832e-08, -9.2201e-08]], device='cuda:0')
+Epoch 318, bias, value: tensor([-0.0406, -0.0348,  0.0086,  0.0272, -0.0181,  0.0080, -0.0132,  0.0172,
+         0.0119, -0.0013], device='cuda:0'), grad: tensor([-9.9372e-07, -5.5879e-09,  7.0781e-08, -5.8860e-07, -5.5879e-09,
+         3.3434e-07,  5.3644e-07,  6.6496e-07,  1.1921e-07, -1.2200e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 317, time 214.52, cls_loss 0.0006 cls_loss_mapping 0.0017 cls_loss_causal 0.4786 re_mapping 0.0034 re_causal 0.0108 /// teacc 99.03 lr 0.00010000
+Epoch 319, weight, value: tensor([[-0.1153,  0.0577,  0.0730,  ..., -0.0894, -0.1854,  0.0621],
+        [-0.1038, -0.0600, -0.1252,  ...,  0.1842, -0.1118, -0.0890],
+        [-0.0518,  0.0065,  0.2390,  ..., -0.1400, -0.1656, -0.1540],
+        ...,
+        [-0.1645, -0.0649,  0.0238,  ..., -0.0540,  0.1282, -0.0968],
+        [-0.1237, -0.0979, -0.0840,  ..., -0.1482, -0.0095, -0.1891],
+        [-0.1990, -0.0753, -0.1545,  ..., -0.2106, -0.0393,  0.1469]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -9.3132e-10, -7.4543e-06,  ...,  1.7695e-08,
+         -2.2165e-06, -3.8594e-06],
+        [ 9.3132e-10,  0.0000e+00,  8.5682e-08,  ...,  8.3819e-09,
+          2.6077e-08,  4.4703e-08],
+        [ 0.0000e+00, -0.0000e+00,  4.7218e-07,  ...,  1.8626e-09,
+          1.4156e-07,  2.4587e-07],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  1.9837e-06,  ...,  9.3132e-10,
+          5.8953e-07,  1.0272e-06],
+        [ 9.3132e-10,  0.0000e+00,  2.0303e-07,  ...,  9.5926e-08,
+          6.2399e-08,  1.1362e-07],
+        [ 1.1176e-08,  0.0000e+00,  2.1793e-06,  ...,  9.3132e-10,
+          6.4820e-07,  1.1297e-06]], device='cuda:0')
+Epoch 319, bias, value: tensor([-0.0406, -0.0346,  0.0079,  0.0272, -0.0180,  0.0082, -0.0131,  0.0172,
+         0.0123, -0.0013], device='cuda:0'), grad: tensor([-2.5988e-05,  3.8091e-07,  1.7285e-06,  3.3025e-06,  2.7660e-07,
+         5.0887e-06,  2.0023e-07,  6.9998e-06,  2.9337e-07,  7.7337e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 318, time 214.35, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4884 re_mapping 0.0035 re_causal 0.0111 /// teacc 99.03 lr 0.00010000
+Epoch 320, weight, value: tensor([[-0.1157,  0.0577,  0.0731,  ..., -0.0895, -0.1853,  0.0622],
+        [-0.1042, -0.0601, -0.1258,  ...,  0.1840, -0.1118, -0.0906],
+        [-0.0519,  0.0071,  0.2404,  ..., -0.1411, -0.1657, -0.1543],
+        ...,
+        [-0.1649, -0.0650,  0.0232,  ..., -0.0541,  0.1282, -0.0969],
+        [-0.1242, -0.0981, -0.0841,  ..., -0.1484, -0.0095, -0.1894],
+        [-0.2000, -0.0754, -0.1544,  ..., -0.2076, -0.0393,  0.1469]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-09,  0.0000e+00, -7.4506e-09,  ...,  3.7253e-09,
+          1.8626e-09,  9.3132e-10],
+        [ 2.4214e-08,  0.0000e+00,  5.5879e-09,  ..., -4.5635e-08,
+          6.5193e-09,  3.7253e-09],
+        [ 6.5193e-09,  0.0000e+00,  1.6764e-08,  ...,  1.1176e-08,
+          1.9558e-08,  9.3132e-10],
+        ...,
+        [ 2.9802e-08,  0.0000e+00, -6.0536e-08,  ...,  1.5832e-08,
+         -5.4948e-08,  1.2107e-08],
+        [-1.8626e-08,  0.0000e+00,  3.7253e-09,  ...,  1.3970e-08,
+          7.4506e-09,  5.5879e-09],
+        [ 2.6077e-08,  0.0000e+00,  1.5832e-08,  ...,  3.7253e-09,
+          1.6764e-08, -3.7253e-08]], device='cuda:0')
+Epoch 320, bias, value: tensor([-0.0405, -0.0351,  0.0086,  0.0272, -0.0177,  0.0081, -0.0128,  0.0170,
+         0.0120, -0.0012], device='cuda:0'), grad: tensor([ 2.8871e-08,  3.7253e-09,  9.9652e-08,  3.8184e-08, -9.2201e-08,
+        -1.3858e-06,  1.3858e-06,  2.7008e-08, -9.1270e-08, -2.7940e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 319, time 214.58, cls_loss 0.0007 cls_loss_mapping 0.0013 cls_loss_causal 0.4764 re_mapping 0.0033 re_causal 0.0105 /// teacc 99.04 lr 0.00010000
+Epoch 321, weight, value: tensor([[-0.1158,  0.0577,  0.0732,  ..., -0.0896, -0.1854,  0.0623],
+        [-0.1049, -0.0601, -0.1260,  ...,  0.1844, -0.1119, -0.0904],
+        [-0.0522,  0.0074,  0.2410,  ..., -0.1415, -0.1659, -0.1548],
+        ...,
+        [-0.1652, -0.0651,  0.0235,  ..., -0.0545,  0.1284, -0.0969],
+        [-0.1250, -0.0982, -0.0845,  ..., -0.1485, -0.0097, -0.1905],
+        [-0.2009, -0.0754, -0.1545,  ..., -0.2079, -0.0394,  0.1470]],
+       device='cuda:0'), grad: tensor([[ 3.2596e-08,  0.0000e+00, -2.8592e-07,  ...,  7.4506e-09,
+          0.0000e+00, -4.2934e-07],
+        [ 1.6484e-07,  0.0000e+00,  0.0000e+00,  ..., -1.1325e-06,
+          0.0000e+00,  9.3132e-10],
+        [ 5.7742e-08,  0.0000e+00, -3.7253e-09,  ...,  1.3411e-07,
+          0.0000e+00,  9.3132e-10],
+        ...,
+        [ 8.6613e-08,  0.0000e+00,  9.3132e-10,  ...,  8.3540e-07,
+          0.0000e+00,  2.5146e-08],
+        [ 1.8347e-07,  0.0000e+00,  1.8626e-09,  ...,  6.2399e-08,
+          9.3132e-10,  4.6566e-09],
+        [ 4.8708e-07,  0.0000e+00,  2.7567e-07,  ...,  5.8673e-08,
+          0.0000e+00,  3.8743e-07]], device='cuda:0')
+Epoch 321, bias, value: tensor([-0.0404, -0.0349,  0.0090,  0.0272, -0.0177,  0.0082, -0.0133,  0.0171,
+         0.0119, -0.0013], device='cuda:0'), grad: tensor([-1.0058e-06, -2.5406e-06,  4.5821e-07,  3.9581e-07, -1.8710e-06,
+         4.0978e-08,  3.2969e-07,  2.3171e-06, -4.4703e-08,  1.9036e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 320, time 214.35, cls_loss 0.0007 cls_loss_mapping 0.0020 cls_loss_causal 0.4844 re_mapping 0.0034 re_causal 0.0107 /// teacc 99.07 lr 0.00010000
+Epoch 322, weight, value: tensor([[-0.1159,  0.0577,  0.0733,  ..., -0.0897, -0.1854,  0.0623],
+        [-0.1051, -0.0601, -0.1261,  ...,  0.1853, -0.1119, -0.0894],
+        [-0.0524,  0.0104,  0.2434,  ..., -0.1425, -0.1646, -0.1557],
+        ...,
+        [-0.1652, -0.0655,  0.0240,  ..., -0.0549,  0.1286, -0.0969],
+        [-0.1256, -0.0982, -0.0848,  ..., -0.1487, -0.0100, -0.1912],
+        [-0.2011, -0.0755, -0.1547,  ..., -0.2093, -0.0394,  0.1470]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -9.7789e-08,  ...,  2.7940e-09,
+          9.3132e-10, -7.4506e-08],
+        [ 2.7940e-09,  0.0000e+00,  1.5832e-08,  ..., -2.9150e-07,
+          6.1467e-08,  3.8184e-08],
+        [ 9.3132e-10,  0.0000e+00, -2.6077e-08,  ...,  5.5879e-09,
+          1.3039e-08,  4.6566e-09],
+        ...,
+        [ 8.3819e-09,  0.0000e+00, -9.3132e-09,  ...,  2.1514e-07,
+         -9.4995e-08,  4.9639e-07],
+        [ 2.7940e-09,  0.0000e+00,  1.0245e-08,  ...,  9.3132e-09,
+          3.7253e-09,  6.2399e-08],
+        [ 1.1176e-08,  0.0000e+00,  9.8720e-08,  ...,  5.8673e-08,
+          1.5832e-08, -1.2368e-06]], device='cuda:0')
+Epoch 322, bias, value: tensor([-0.0404, -0.0342,  0.0106,  0.0265, -0.0180,  0.0082, -0.0133,  0.0170,
+         0.0118, -0.0014], device='cuda:0'), grad: tensor([-1.7229e-07, -2.7381e-07,  4.1910e-08,  1.0710e-07,  2.7381e-06,
+         5.4948e-08,  2.1420e-08,  2.2911e-06,  1.2759e-07, -4.9397e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 321, time 214.58, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4674 re_mapping 0.0033 re_causal 0.0106 /// teacc 99.08 lr 0.00010000
+Epoch 323, weight, value: tensor([[-0.1160,  0.0578,  0.0735,  ..., -0.0898, -0.1854,  0.0624],
+        [-0.1055, -0.0602, -0.1263,  ...,  0.1853, -0.1122, -0.0893],
+        [-0.0526,  0.0104,  0.2433,  ..., -0.1426, -0.1650, -0.1565],
+        ...,
+        [-0.1660, -0.0657,  0.0243,  ..., -0.0549,  0.1287, -0.0970],
+        [-0.1263, -0.0982, -0.0849,  ..., -0.1487, -0.0102, -0.1918],
+        [-0.2017, -0.0757, -0.1548,  ..., -0.2095, -0.0395,  0.1469]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -8.2236e-07,  ...,  7.4506e-09,
+         -9.0338e-08, -3.1572e-07],
+        [ 0.0000e+00,  0.0000e+00, -5.9605e-08,  ..., -9.6764e-07,
+         -3.2596e-08,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.7625e-07,  ...,  1.9930e-07,
+          2.8871e-08,  8.1956e-08],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  2.3562e-07,  ...,  6.8918e-07,
+          3.8184e-08,  6.4261e-08],
+        [ 0.0000e+00,  0.0000e+00, -4.2655e-07,  ...,  3.1665e-08,
+          5.5879e-09,  3.1665e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.8871e-07,  ...,  1.1176e-08,
+          2.5146e-08,  2.9802e-08]], device='cuda:0')
+Epoch 323, bias, value: tensor([-0.0403, -0.0344,  0.0103,  0.0264, -0.0178,  0.0083, -0.0133,  0.0171,
+         0.0121, -0.0015], device='cuda:0'), grad: tensor([-1.0487e-06, -1.4622e-06,  1.8403e-06,  1.7043e-07,  8.0094e-07,
+         3.3528e-07,  6.6031e-07,  2.2240e-06, -4.0829e-06,  5.4669e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 322, time 214.42, cls_loss 0.0007 cls_loss_mapping 0.0018 cls_loss_causal 0.4775 re_mapping 0.0034 re_causal 0.0107 /// teacc 99.08 lr 0.00010000
+Epoch 324, weight, value: tensor([[-0.1161,  0.0578,  0.0752,  ..., -0.0898, -0.1837,  0.0642],
+        [-0.1056, -0.0603, -0.1265,  ...,  0.1856, -0.1123, -0.0924],
+        [-0.0527,  0.0105,  0.2436,  ..., -0.1438, -0.1653, -0.1572],
+        ...,
+        [-0.1660, -0.0657,  0.0246,  ..., -0.0550,  0.1289, -0.0970],
+        [-0.1268, -0.0984, -0.0856,  ..., -0.1494, -0.0109, -0.1924],
+        [-0.2020, -0.0757, -0.1549,  ..., -0.2084, -0.0396,  0.1475]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09, -9.3132e-10,  5.5879e-09,  ...,  1.8626e-09,
+          5.5879e-09,  0.0000e+00],
+        [ 4.6566e-09,  0.0000e+00,  6.5193e-08,  ..., -1.0245e-08,
+          1.7695e-08,  1.8626e-09],
+        [-9.3132e-10, -9.3132e-10, -1.4249e-07,  ...,  9.3132e-10,
+          1.3970e-08,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  0.0000e+00, -2.8219e-07,  ...,  1.1176e-08,
+         -5.8021e-07,  7.4506e-09],
+        [ 1.8626e-09,  0.0000e+00,  5.8673e-08,  ...,  5.5879e-09,
+          4.7497e-08,  7.4506e-09],
+        [ 7.8231e-08,  9.3132e-10,  2.6729e-07,  ...,  9.3132e-10,
+          5.0385e-07, -3.4459e-08]], device='cuda:0')
+Epoch 324, bias, value: tensor([-0.0387, -0.0347,  0.0104,  0.0265, -0.0179,  0.0059, -0.0133,  0.0172,
+         0.0113, -0.0014], device='cuda:0'), grad: tensor([ 1.1362e-07,  2.3283e-07, -1.7881e-07, -1.5637e-06, -6.7055e-08,
+         1.3197e-06, -9.4064e-08, -9.7975e-07,  1.2387e-07,  1.1027e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 323, time 214.41, cls_loss 0.0007 cls_loss_mapping 0.0014 cls_loss_causal 0.4751 re_mapping 0.0034 re_causal 0.0104 /// teacc 99.17 lr 0.00010000
+Epoch 325, weight, value: tensor([[-0.1166,  0.0579,  0.0753,  ..., -0.0896, -0.1838,  0.0642],
+        [-0.1063, -0.0605, -0.1268,  ...,  0.1857, -0.1124, -0.0926],
+        [-0.0530,  0.0105,  0.2437,  ..., -0.1439, -0.1660, -0.1583],
+        ...,
+        [-0.1687, -0.0661,  0.0252,  ..., -0.0551,  0.1291, -0.0970],
+        [-0.1285, -0.0986, -0.0861,  ..., -0.1496, -0.0110, -0.1933],
+        [-0.2024, -0.0762, -0.1550,  ..., -0.2085, -0.0396,  0.1475]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.3970e-08,  ...,  9.3132e-10,
+          4.6566e-09, -2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.4459e-08,  ..., -4.2841e-08,
+          1.5832e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -2.0023e-07,  ...,  1.8626e-09,
+          8.3819e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -1.0245e-07,  ...,  3.0734e-08,
+         -2.3004e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.0896e-07,  ...,  2.7940e-09,
+          1.4901e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.0710e-07,  ...,  2.7940e-09,
+          1.6950e-07,  1.8626e-09]], device='cuda:0')
+Epoch 325, bias, value: tensor([-0.0386, -0.0348,  0.0102,  0.0267, -0.0176,  0.0058, -0.0131,  0.0172,
+         0.0112, -0.0014], device='cuda:0'), grad: tensor([ 4.7497e-08,  3.1665e-08, -2.0023e-07, -3.0454e-07,  2.5146e-08,
+         8.4750e-08,  3.1665e-08, -3.2689e-07,  2.1607e-07,  3.9581e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 324, time 214.40, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4903 re_mapping 0.0033 re_causal 0.0107 /// teacc 99.13 lr 0.00010000
+Epoch 326, weight, value: tensor([[-0.1167,  0.0580,  0.0754,  ..., -0.0897, -0.1838,  0.0643],
+        [-0.1065, -0.0605, -0.1270,  ...,  0.1858, -0.1127, -0.0927],
+        [-0.0531,  0.0106,  0.2438,  ..., -0.1441, -0.1662, -0.1588],
+        ...,
+        [-0.1688, -0.0666,  0.0254,  ..., -0.0552,  0.1293, -0.0971],
+        [-0.1288, -0.0987, -0.0863,  ..., -0.1496, -0.0111, -0.1944],
+        [-0.2027, -0.0764, -0.1551,  ..., -0.2086, -0.0397,  0.1475]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.6077e-08,  ...,  9.3132e-10,
+          0.0000e+00, -4.6566e-08],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ..., -1.1176e-08,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00, -2.1793e-07,  ...,  2.7940e-09,
+          0.0000e+00,  2.7940e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.8184e-08,  ...,  4.6566e-09,
+          9.3132e-09,  2.9802e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.4249e-07,  ...,  1.8626e-09,
+          0.0000e+00,  1.5832e-08],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  9.3132e-10,
+          0.0000e+00, -1.0803e-07]], device='cuda:0')
+Epoch 326, bias, value: tensor([-0.0386, -0.0349,  0.0102,  0.0267, -0.0176,  0.0058, -0.0131,  0.0172,
+         0.0110, -0.0015], device='cuda:0'), grad: tensor([-7.6368e-08, -1.8626e-09, -3.7160e-07,  3.7253e-08,  8.3819e-08,
+         9.9652e-08,  6.5193e-09,  2.0117e-07,  3.1479e-07, -2.8685e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 325, time 214.52, cls_loss 0.0006 cls_loss_mapping 0.0015 cls_loss_causal 0.4933 re_mapping 0.0037 re_causal 0.0115 /// teacc 98.98 lr 0.00010000
+Epoch 327, weight, value: tensor([[-0.1168,  0.0580,  0.0755,  ..., -0.0897, -0.1838,  0.0643],
+        [-0.1070, -0.0606, -0.1270,  ...,  0.1859, -0.1128, -0.0927],
+        [-0.0531,  0.0108,  0.2437,  ..., -0.1443, -0.1664, -0.1612],
+        ...,
+        [-0.1690, -0.0684,  0.0255,  ..., -0.0553,  0.1293, -0.0972],
+        [-0.1291, -0.0987, -0.0861,  ..., -0.1496, -0.0108, -0.1966],
+        [-0.2024, -0.0764, -0.1552,  ..., -0.2086, -0.0397,  0.1479]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.4901e-08,  ...,  9.3132e-10,
+          1.0245e-08,  1.4901e-08],
+        [-5.8673e-08,  0.0000e+00,  1.3318e-07,  ..., -1.6857e-07,
+          3.4459e-07,  1.9558e-08],
+        [ 9.3132e-10,  0.0000e+00, -2.0489e-08,  ...,  3.7253e-09,
+          2.3283e-08,  1.2107e-08],
+        ...,
+        [ 1.3970e-08,  0.0000e+00, -2.0675e-07,  ...,  4.5635e-08,
+         -5.2992e-07,  2.9430e-07],
+        [ 1.3039e-08,  0.0000e+00,  7.4506e-09,  ...,  3.9116e-08,
+          5.5879e-08,  3.0268e-06],
+        [ 0.0000e+00,  0.0000e+00,  1.3039e-08,  ...,  9.3132e-10,
+          3.2596e-08, -3.4459e-06]], device='cuda:0')
+Epoch 327, bias, value: tensor([-0.0385, -0.0349,  0.0100,  0.0269, -0.0199,  0.0057, -0.0131,  0.0171,
+         0.0114, -0.0010], device='cuda:0'), grad: tensor([ 1.0524e-07,  3.3062e-07,  5.5879e-08,  1.1083e-07,  5.0757e-07,
+        -9.8720e-08,  8.0094e-08,  2.8592e-07,  1.2375e-05, -1.3754e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 326, time 214.50, cls_loss 0.0010 cls_loss_mapping 0.0031 cls_loss_causal 0.4749 re_mapping 0.0038 re_causal 0.0111 /// teacc 99.05 lr 0.00010000
+Epoch 328, weight, value: tensor([[-0.1176,  0.0583,  0.0758,  ..., -0.0895, -0.1839,  0.0648],
+        [-0.1112, -0.0607, -0.1271,  ...,  0.1878, -0.1128, -0.0928],
+        [-0.0555,  0.0111,  0.2414,  ..., -0.1452, -0.1693, -0.1639],
+        ...,
+        [-0.1705, -0.0695,  0.0279,  ..., -0.0567,  0.1301, -0.0973],
+        [-0.1311, -0.0988, -0.0864,  ..., -0.1509, -0.0112, -0.1991],
+        [-0.2067, -0.0784, -0.1555,  ..., -0.2119, -0.0398,  0.1482]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -5.3551e-07,  ..., -5.2154e-08,
+          0.0000e+00, -4.6473e-07],
+        [ 0.0000e+00,  0.0000e+00,  4.2841e-08,  ..., -3.7253e-09,
+          1.8626e-09,  2.0489e-08],
+        [ 0.0000e+00,  0.0000e+00, -2.7940e-09,  ...,  8.3819e-09,
+          0.0000e+00,  2.2352e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.1420e-08,  ...,  7.4506e-09,
+         -6.5193e-09,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.2352e-08,  ..., -8.3819e-09,
+          9.3132e-10,  1.2107e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.3900e-07,  ...,  3.2596e-08,
+          2.7940e-09,  3.0734e-07]], device='cuda:0')
+Epoch 328, bias, value: tensor([-0.0381, -0.0340,  0.0071,  0.0269, -0.0165,  0.0057, -0.0134,  0.0172,
+         0.0096, -0.0036], device='cuda:0'), grad: tensor([-1.3057e-06,  1.7416e-07,  2.1234e-07, -5.7649e-07,  1.4901e-08,
+         1.6671e-07,  1.9837e-07,  2.5239e-07, -2.7940e-08,  8.7544e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 327, time 214.31, cls_loss 0.0006 cls_loss_mapping 0.0011 cls_loss_causal 0.4736 re_mapping 0.0037 re_causal 0.0114 /// teacc 99.15 lr 0.00010000
+Epoch 329, weight, value: tensor([[-0.1193,  0.0583,  0.0760,  ..., -0.0908, -0.1839,  0.0649],
+        [-0.1121, -0.0608, -0.1273,  ...,  0.1878, -0.1129, -0.0933],
+        [-0.0567,  0.0119,  0.2409,  ..., -0.1453, -0.1701, -0.1644],
+        ...,
+        [-0.1709, -0.0722,  0.0286,  ..., -0.0567,  0.1304, -0.0974],
+        [-0.1323, -0.0991, -0.0870,  ..., -0.1510, -0.0116, -0.2000],
+        [-0.2068, -0.0785, -0.1557,  ..., -0.2120, -0.0398,  0.1483]],
+       device='cuda:0'), grad: tensor([[ 3.7160e-07,  0.0000e+00, -9.3132e-10,  ...,  2.1420e-07,
+          1.8626e-09,  1.8626e-09],
+        [ 3.1665e-08,  0.0000e+00,  2.5146e-08,  ..., -4.9360e-08,
+          8.3819e-09,  3.7253e-09],
+        [ 5.4017e-08,  0.0000e+00, -6.9197e-07,  ...,  5.4948e-08,
+          2.6077e-08,  9.3132e-10],
+        ...,
+        [ 1.3970e-08,  0.0000e+00, -3.7253e-08,  ...,  2.8871e-08,
+         -1.0058e-07,  1.2107e-08],
+        [ 1.0487e-06,  0.0000e+00,  6.6496e-07,  ...,  5.9977e-07,
+          5.5879e-08,  8.7544e-08],
+        [ 1.6764e-08,  0.0000e+00,  1.5832e-08,  ...,  2.2352e-08,
+          3.7253e-09, -2.4308e-07]], device='cuda:0')
+Epoch 329, bias, value: tensor([-0.0382, -0.0341,  0.0066,  0.0279, -0.0165,  0.0056, -0.0142,  0.0174,
+         0.0092, -0.0036], device='cuda:0'), grad: tensor([ 1.3644e-06, -7.3574e-08, -1.2238e-06,  8.8476e-08,  1.4365e-05,
+         1.4091e-06, -2.1160e-05,  2.3190e-07,  5.3644e-06, -3.8464e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 328, time 214.17, cls_loss 0.0006 cls_loss_mapping 0.0018 cls_loss_causal 0.4872 re_mapping 0.0037 re_causal 0.0113 /// teacc 99.10 lr 0.00010000
+Epoch 330, weight, value: tensor([[-0.1206,  0.0583,  0.0762,  ..., -0.0909, -0.1840,  0.0650],
+        [-0.1131, -0.0608, -0.1275,  ...,  0.1879, -0.1130, -0.0934],
+        [-0.0572,  0.0120,  0.2410,  ..., -0.1454, -0.1702, -0.1657],
+        ...,
+        [-0.1692, -0.0723,  0.0287,  ..., -0.0568,  0.1309, -0.0974],
+        [-0.1340, -0.0991, -0.0874,  ..., -0.1511, -0.0119, -0.2041],
+        [-0.2069, -0.0785, -0.1559,  ..., -0.2121, -0.0398,  0.1484]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00, -3.7253e-09,  ...,  1.8626e-09,
+          3.2596e-08,  1.1176e-08],
+        [ 1.6857e-07,  5.5879e-09,  2.8871e-08,  ...,  2.7008e-08,
+          8.3819e-09,  4.6566e-09],
+        [-1.4901e-08, -7.4506e-09, -5.3085e-08,  ...,  1.8626e-09,
+          2.7940e-09,  9.3132e-10],
+        ...,
+        [ 3.7253e-09,  0.0000e+00,  9.3132e-10,  ...,  1.3039e-08,
+          2.9523e-07,  2.0768e-07],
+        [ 7.4506e-09,  0.0000e+00,  1.3970e-08,  ...,  3.7253e-09,
+          1.7695e-08,  2.0489e-08],
+        [ 2.5425e-07,  0.0000e+00,  5.5879e-09,  ...,  6.9849e-08,
+         -4.0606e-07, -2.9523e-07]], device='cuda:0')
+Epoch 330, bias, value: tensor([-0.0381, -0.0340,  0.0067,  0.0278, -0.0165,  0.0056, -0.0142,  0.0175,
+         0.0082, -0.0037], device='cuda:0'), grad: tensor([ 3.6508e-07,  3.5483e-07, -5.4017e-08, -3.2037e-07, -7.0781e-08,
+         1.2945e-07,  5.2154e-08,  3.3956e-06,  2.2911e-07, -4.0755e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 329, time 214.11, cls_loss 0.0006 cls_loss_mapping 0.0017 cls_loss_causal 0.4571 re_mapping 0.0035 re_causal 0.0105 /// teacc 99.15 lr 0.00010000
+Epoch 331, weight, value: tensor([[-0.1209,  0.0583,  0.0763,  ..., -0.0909, -0.1841,  0.0652],
+        [-0.1134, -0.0609, -0.1286,  ...,  0.1882, -0.1131, -0.0934],
+        [-0.0573,  0.0120,  0.2415,  ..., -0.1430, -0.1703, -0.1674],
+        ...,
+        [-0.1692, -0.0723,  0.0288,  ..., -0.0574,  0.1310, -0.0975],
+        [-0.1320, -0.0991, -0.0878,  ..., -0.1512, -0.0121, -0.2049],
+        [-0.2069, -0.0785, -0.1560,  ..., -0.2121, -0.0399,  0.1484]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -9.3132e-08,  ...,  1.8626e-09,
+          9.3132e-10, -1.1921e-07],
+        [ 0.0000e+00,  9.3132e-10,  1.4901e-08,  ...,  1.8626e-09,
+          0.0000e+00,  5.5879e-09],
+        [ 0.0000e+00, -2.9802e-08, -1.4529e-07,  ...,  1.8626e-09,
+          0.0000e+00,  8.3819e-09],
+        ...,
+        [ 9.3132e-10,  2.3283e-08,  9.3132e-08,  ...,  1.8626e-09,
+          6.5193e-09,  2.2352e-08],
+        [ 9.3132e-10,  1.8626e-09,  4.1910e-08,  ..., -2.6077e-08,
+          1.8626e-09,  1.8626e-08],
+        [-2.3283e-08,  0.0000e+00,  4.8429e-08,  ...,  1.8626e-09,
+         -9.3132e-10, -7.4506e-08]], device='cuda:0')
+Epoch 331, bias, value: tensor([-0.0380, -0.0342,  0.0076,  0.0271, -0.0165,  0.0061, -0.0143,  0.0174,
+         0.0085, -0.0037], device='cuda:0'), grad: tensor([-3.5577e-07,  6.7987e-08, -1.4901e-07, -1.5926e-07,  2.8033e-07,
+         1.9930e-07,  7.9162e-08,  2.3656e-07, -5.7742e-08, -1.4808e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 330, time 214.05, cls_loss 0.0006 cls_loss_mapping 0.0017 cls_loss_causal 0.4558 re_mapping 0.0034 re_causal 0.0104 /// teacc 99.14 lr 0.00010000
+Epoch 332, weight, value: tensor([[-0.1213,  0.0583,  0.0764,  ..., -0.0910, -0.1841,  0.0652],
+        [-0.1141, -0.0610, -0.1288,  ...,  0.1887, -0.1132, -0.0935],
+        [-0.0593,  0.0121,  0.2415,  ..., -0.1432, -0.1703, -0.1689],
+        ...,
+        [-0.1696, -0.0726,  0.0288,  ..., -0.0579,  0.1311, -0.0976],
+        [-0.1319, -0.0991, -0.0883,  ..., -0.1512, -0.0122, -0.2053],
+        [-0.2071, -0.0786, -0.1560,  ..., -0.2124, -0.0399,  0.1484]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.5832e-08,  ...,  1.8626e-09,
+          9.3132e-10, -1.0245e-08],
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ..., -1.7092e-05,
+          3.7253e-09,  1.3970e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.5611e-07,  ...,  7.4506e-09,
+          2.7940e-08,  4.6566e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.2014e-07,  ...,  1.6749e-05,
+         -1.9558e-08,  4.9919e-07],
+        [ 0.0000e+00,  0.0000e+00, -2.4773e-07,  ...,  5.9605e-08,
+         -2.6077e-08,  7.3574e-08],
+        [ 0.0000e+00,  0.0000e+00, -1.4529e-07,  ...,  1.6950e-07,
+          1.2107e-08, -6.6962e-07]], device='cuda:0')
+Epoch 332, bias, value: tensor([-0.0379, -0.0341,  0.0075,  0.0266, -0.0163,  0.0064, -0.0144,  0.0173,
+         0.0087, -0.0039], device='cuda:0'), grad: tensor([-4.6566e-09, -3.2872e-05,  1.3113e-06,  2.7008e-08,  2.7660e-07,
+         1.1548e-07,  4.1910e-08,  3.4302e-05, -9.5181e-07, -2.3283e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 331, time 214.06, cls_loss 0.0005 cls_loss_mapping 0.0009 cls_loss_causal 0.4618 re_mapping 0.0035 re_causal 0.0107 /// teacc 99.17 lr 0.00010000
+Epoch 333, weight, value: tensor([[-0.1222,  0.0583,  0.0764,  ..., -0.0911, -0.1842,  0.0652],
+        [-0.1146, -0.0611, -0.1289,  ...,  0.1892, -0.1133, -0.0935],
+        [-0.0607,  0.0117,  0.2416,  ..., -0.1439, -0.1703, -0.1693],
+        ...,
+        [-0.1698, -0.0728,  0.0289,  ..., -0.0584,  0.1312, -0.0977],
+        [-0.1324, -0.0992, -0.0884,  ..., -0.1508, -0.0123, -0.2059],
+        [-0.2071, -0.0789, -0.1561,  ..., -0.2125, -0.0399,  0.1486]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -9.3132e-10, -1.0245e-08,  ...,  1.8626e-09,
+          2.0489e-08,  9.3132e-10],
+        [ 3.7253e-09,  0.0000e+00,  5.5879e-09,  ..., -2.1420e-08,
+          8.3819e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00, -1.3039e-08,  ...,  9.3132e-10,
+          2.7940e-09,  2.7940e-09],
+        ...,
+        [ 3.7253e-09,  0.0000e+00, -3.5390e-08,  ...,  1.3970e-08,
+         -1.8254e-07,  1.2107e-08],
+        [ 1.8626e-09,  0.0000e+00,  4.6566e-09,  ...,  1.8626e-09,
+          1.0245e-08,  3.7253e-09],
+        [ 2.7940e-09,  9.3132e-10,  5.2154e-08,  ...,  9.3132e-10,
+          7.9162e-08,  2.1420e-08]], device='cuda:0')
+Epoch 333, bias, value: tensor([-0.0380, -0.0339,  0.0073,  0.0265, -0.0162,  0.0064, -0.0148,  0.0171,
+         0.0098, -0.0039], device='cuda:0'), grad: tensor([-1.9558e-08,  2.8871e-08, -8.3819e-09,  7.3574e-08,  1.8068e-07,
+        -1.9651e-07,  5.5879e-08, -3.0454e-07, -2.3283e-08,  2.1514e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 332, time 214.33, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4757 re_mapping 0.0035 re_causal 0.0109 /// teacc 99.12 lr 0.00010000
+Epoch 334, weight, value: tensor([[-0.1224,  0.0583,  0.0765,  ..., -0.0914, -0.1844,  0.0653],
+        [-0.1152, -0.0614, -0.1290,  ...,  0.1893, -0.1133, -0.0936],
+        [-0.0608,  0.0117,  0.2421,  ..., -0.1445, -0.1700, -0.1667],
+        ...,
+        [-0.1707, -0.0728,  0.0289,  ..., -0.0584,  0.1313, -0.0978],
+        [-0.1324, -0.0992, -0.0887,  ..., -0.1506, -0.0126, -0.2067],
+        [-0.2071, -0.0790, -0.1565,  ..., -0.2126, -0.0401,  0.1485]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -5.5879e-09,  ...,  4.6566e-09,
+          9.3132e-10, -0.0000e+00],
+        [ 6.5193e-09,  0.0000e+00,  1.5832e-08,  ..., -2.0489e-08,
+          1.7695e-08,  9.3132e-10],
+        [ 1.8626e-09,  0.0000e+00, -1.8626e-09,  ...,  2.7940e-09,
+          2.5146e-08,  0.0000e+00],
+        ...,
+        [ 2.7940e-09,  0.0000e+00, -1.1269e-07,  ...,  5.5879e-09,
+         -1.4622e-07,  3.1665e-08],
+        [ 9.3132e-10,  0.0000e+00,  5.4948e-08,  ...,  4.6566e-09,
+          5.1223e-08,  6.5193e-09],
+        [ 4.6566e-09,  0.0000e+00,  1.9558e-08,  ...,  9.3132e-10,
+          1.6764e-08, -5.9605e-08]], device='cuda:0')
+Epoch 334, bias, value: tensor([-0.0380, -0.0340,  0.0077,  0.0263, -0.0161,  0.0064, -0.0149,  0.0171,
+         0.0105, -0.0040], device='cuda:0'), grad: tensor([ 1.7695e-08,  1.6764e-08,  1.5832e-08, -2.8871e-08,  2.2352e-08,
+         5.6811e-08,  7.4506e-09, -1.7975e-07,  1.7975e-07, -1.0896e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 333, time 214.52, cls_loss 0.0006 cls_loss_mapping 0.0018 cls_loss_causal 0.4760 re_mapping 0.0033 re_causal 0.0107 /// teacc 99.13 lr 0.00010000
+Epoch 335, weight, value: tensor([[-0.1226,  0.0583,  0.0767,  ..., -0.0916, -0.1844,  0.0654],
+        [-0.1155, -0.0615, -0.1300,  ...,  0.1892, -0.1139, -0.0936],
+        [-0.0615,  0.0123,  0.2422,  ..., -0.1448, -0.1701, -0.1668],
+        ...,
+        [-0.1710, -0.0748,  0.0297,  ..., -0.0583,  0.1319, -0.0975],
+        [-0.1326, -0.0995, -0.0891,  ..., -0.1507, -0.0129, -0.2074],
+        [-0.2072, -0.0791, -0.1571,  ..., -0.2126, -0.0406,  0.1484]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -4.6566e-09,  ...,  1.4901e-08,
+          9.3132e-10, -1.8626e-09],
+        [ 2.7940e-09,  2.7940e-09,  8.3819e-09,  ...,  1.9558e-07,
+          6.5193e-09,  2.7940e-09],
+        [ 9.3132e-10, -1.8626e-09, -7.4506e-09,  ...,  1.8626e-08,
+          2.7940e-09,  9.3132e-10],
+        ...,
+        [ 9.3132e-10,  0.0000e+00, -2.7940e-09,  ...,  1.3039e-08,
+         -2.7940e-09,  4.6566e-09],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ..., -2.5705e-07,
+          6.4261e-08,  2.7008e-08],
+        [ 1.2107e-08,  0.0000e+00,  5.5879e-09,  ...,  1.2107e-08,
+          7.4506e-09, -1.2107e-08]], device='cuda:0')
+Epoch 335, bias, value: tensor([-0.0379, -0.0343,  0.0077,  0.0265, -0.0161,  0.0062, -0.0147,  0.0176,
+         0.0104, -0.0043], device='cuda:0'), grad: tensor([ 2.1886e-07,  2.9691e-06,  2.2259e-07,  2.5295e-06,  1.2107e-08,
+        -2.5425e-06,  6.3889e-07,  1.0803e-07, -4.3139e-06,  1.5553e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 334, time 214.51, cls_loss 0.0006 cls_loss_mapping 0.0010 cls_loss_causal 0.4620 re_mapping 0.0033 re_causal 0.0101 /// teacc 99.09 lr 0.00010000
+Epoch 336, weight, value: tensor([[-0.1227,  0.0583,  0.0768,  ..., -0.0917, -0.1845,  0.0656],
+        [-0.1156, -0.0616, -0.1302,  ...,  0.1893, -0.1139, -0.0937],
+        [-0.0617,  0.0123,  0.2425,  ..., -0.1451, -0.1701, -0.1668],
+        ...,
+        [-0.1712, -0.0748,  0.0298,  ..., -0.0584,  0.1320, -0.0976],
+        [-0.1327, -0.0995, -0.0893,  ..., -0.1507, -0.0130, -0.2080],
+        [-0.2072, -0.0791, -0.1573,  ..., -0.2127, -0.0406,  0.1484]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  7.6368e-08, -1.3597e-07,  ...,  5.5879e-09,
+          0.0000e+00, -3.7253e-08],
+        [ 1.8626e-09,  5.5879e-09,  2.5146e-08,  ..., -2.0489e-08,
+          5.5879e-09,  1.2107e-08],
+        [ 9.3132e-10,  2.7940e-09, -9.7789e-08,  ...,  9.3132e-09,
+          2.7940e-09,  7.4506e-09],
+        ...,
+        [ 0.0000e+00,  2.6077e-08,  1.3970e-08,  ...,  8.3819e-09,
+         -1.0245e-08,  8.0094e-08],
+        [ 1.8626e-09,  1.6764e-07,  2.4214e-08,  ..., -5.5879e-09,
+          1.8626e-09,  2.0582e-07],
+        [ 3.7253e-09,  1.0524e-07,  1.2480e-07,  ...,  1.8626e-09,
+          4.6566e-09,  6.9849e-08]], device='cuda:0')
+Epoch 336, bias, value: tensor([-0.0377, -0.0343,  0.0078,  0.0264, -0.0161,  0.0062, -0.0147,  0.0176,
+         0.0105, -0.0043], device='cuda:0'), grad: tensor([ 1.4529e-07,  7.3574e-08, -1.7323e-07, -2.2445e-06,  1.8161e-07,
+         1.5553e-07,  3.6322e-08,  3.8650e-07,  1.0058e-06,  4.1723e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 335, time 214.22, cls_loss 0.0007 cls_loss_mapping 0.0018 cls_loss_causal 0.4815 re_mapping 0.0033 re_causal 0.0104 /// teacc 99.11 lr 0.00010000
+Epoch 337, weight, value: tensor([[-0.1232,  0.0583,  0.0769,  ..., -0.0919, -0.1846,  0.0659],
+        [-0.1163, -0.0617, -0.1301,  ...,  0.1896, -0.1140, -0.0938],
+        [-0.0618,  0.0123,  0.2426,  ..., -0.1467, -0.1702, -0.1670],
+        ...,
+        [-0.1716, -0.0748,  0.0298,  ..., -0.0585,  0.1321, -0.0977],
+        [-0.1333, -0.1000, -0.0896,  ..., -0.1508, -0.0134, -0.2090],
+        [-0.2072, -0.0793, -0.1574,  ..., -0.2130, -0.0407,  0.1484]],
+       device='cuda:0'), grad: tensor([[ 1.1176e-08,  0.0000e+00, -1.8626e-08,  ...,  9.3132e-10,
+          9.3132e-10, -8.1956e-08],
+        [ 1.3039e-08,  0.0000e+00,  3.2596e-08,  ..., -1.0245e-08,
+          1.4901e-08,  5.5879e-09],
+        [ 4.6566e-09,  0.0000e+00, -3.6601e-07,  ...,  1.8626e-09,
+          8.7544e-08,  1.8626e-09],
+        ...,
+        [ 8.4750e-08,  0.0000e+00,  1.6764e-07,  ...,  7.4506e-09,
+         -1.7229e-07,  3.9116e-08],
+        [ 7.4506e-09,  0.0000e+00,  1.4901e-07,  ..., -9.3132e-10,
+          2.8871e-08,  8.3819e-09],
+        [ 1.1269e-07,  0.0000e+00,  1.6764e-08,  ...,  9.3132e-10,
+          1.2107e-08, -2.8871e-08]], device='cuda:0')
+Epoch 337, bias, value: tensor([-0.0375, -0.0342,  0.0077,  0.0247, -0.0161,  0.0074, -0.0143,  0.0175,
+         0.0103, -0.0044], device='cuda:0'), grad: tensor([-1.9278e-07,  8.8476e-08, -8.0653e-07,  1.3132e-07, -5.4482e-07,
+         2.2352e-08,  2.1514e-07,  6.4075e-07,  2.7567e-07,  1.7695e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 336, time 214.18, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4681 re_mapping 0.0035 re_causal 0.0107 /// teacc 99.05 lr 0.00010000
+Epoch 338, weight, value: tensor([[-0.1242,  0.0583,  0.0769,  ..., -0.0920, -0.1848,  0.0659],
+        [-0.1168, -0.0617, -0.1302,  ...,  0.1897, -0.1141, -0.0938],
+        [-0.0627,  0.0123,  0.2426,  ..., -0.1475, -0.1703, -0.1673],
+        ...,
+        [-0.1719, -0.0748,  0.0299,  ..., -0.0586,  0.1322, -0.0981],
+        [-0.1322, -0.1000, -0.0896,  ..., -0.1509, -0.0144, -0.2102],
+        [-0.2073, -0.0793, -0.1574,  ..., -0.2130, -0.0407,  0.1486]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -9.0338e-08,  ...,  0.0000e+00,
+          9.3132e-10, -7.5437e-08],
+        [ 2.7940e-08,  0.0000e+00,  2.7940e-09,  ..., -1.6764e-08,
+          3.7253e-09,  6.5193e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-10,
+          9.3132e-10,  9.3132e-10],
+        ...,
+        [ 9.3132e-10,  0.0000e+00, -1.4901e-08,  ...,  4.6566e-09,
+         -2.5146e-08,  2.7940e-09],
+        [ 1.8626e-09,  0.0000e+00,  3.7253e-09,  ...,  2.7940e-09,
+          2.7940e-09,  6.5193e-09],
+        [ 1.3970e-08,  0.0000e+00,  5.4948e-08,  ...,  9.3132e-10,
+          2.0489e-08,  2.9802e-08]], device='cuda:0')
+Epoch 338, bias, value: tensor([-0.0376, -0.0342,  0.0074,  0.0241, -0.0161,  0.0081, -0.0140,  0.0174,
+         0.0101, -0.0043], device='cuda:0'), grad: tensor([-1.9651e-07,  2.5146e-08,  1.1176e-08,  4.0047e-08, -3.2596e-08,
+        -1.8440e-07,  1.9372e-07, -2.2352e-08,  1.3039e-08,  1.4529e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 337, time 214.76, cls_loss 0.0007 cls_loss_mapping 0.0017 cls_loss_causal 0.4782 re_mapping 0.0034 re_causal 0.0101 /// teacc 99.11 lr 0.00010000
+Epoch 339, weight, value: tensor([[-0.1244,  0.0583,  0.0770,  ..., -0.0920, -0.1849,  0.0659],
+        [-0.1176, -0.0617, -0.1305,  ...,  0.1900, -0.1142, -0.0938],
+        [-0.0628,  0.0124,  0.2431,  ..., -0.1478, -0.1702, -0.1675],
+        ...,
+        [-0.1725, -0.0749,  0.0297,  ..., -0.0589,  0.1324, -0.0982],
+        [-0.1329, -0.1004, -0.0898,  ..., -0.1510, -0.0143, -0.2109],
+        [-0.2073, -0.0793, -0.1576,  ..., -0.2132, -0.0408,  0.1486]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -8.3819e-09,  ...,  1.0245e-08,
+          9.3132e-10, -2.7940e-09],
+        [ 1.8626e-09,  0.0000e+00,  9.3132e-09,  ..., -2.0489e-07,
+          2.7940e-09,  2.7940e-09],
+        [ 2.7940e-09,  0.0000e+00, -4.5635e-08,  ...,  8.3819e-09,
+          9.3132e-10,  9.3132e-10],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  1.4901e-08,  ...,  1.7788e-07,
+         -7.4506e-09,  5.5879e-08],
+        [ 5.5879e-09,  0.0000e+00,  1.7695e-08,  ...,  2.2352e-08,
+          2.7940e-09,  3.7253e-09],
+        [ 8.3819e-09,  0.0000e+00,  9.3132e-09,  ...,  3.7253e-09,
+          2.7940e-09, -9.4995e-08]], device='cuda:0')
+Epoch 339, bias, value: tensor([-0.0376, -0.0342,  0.0076,  0.0243, -0.0161,  0.0080, -0.0137,  0.0173,
+         0.0101, -0.0044], device='cuda:0'), grad: tensor([ 2.4214e-08, -3.0641e-07, -5.2154e-08, -2.5146e-08,  3.9116e-07,
+         3.7253e-08, -3.9954e-07,  4.9639e-07,  1.1269e-07, -2.7940e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 338, time 214.53, cls_loss 0.0006 cls_loss_mapping 0.0026 cls_loss_causal 0.4518 re_mapping 0.0034 re_causal 0.0104 /// teacc 99.13 lr 0.00010000
+Epoch 340, weight, value: tensor([[-0.1244,  0.0583,  0.0772,  ..., -0.0921, -0.1850,  0.0661],
+        [-0.1182, -0.0617, -0.1309,  ...,  0.1901, -0.1144, -0.0938],
+        [-0.0628,  0.0124,  0.2464,  ..., -0.1484, -0.1672, -0.1681],
+        ...,
+        [-0.1727, -0.0749,  0.0266,  ..., -0.0589,  0.1297, -0.0982],
+        [-0.1331, -0.1004, -0.0885,  ..., -0.1511, -0.0152, -0.2120],
+        [-0.2075, -0.0793, -0.1579,  ..., -0.2133, -0.0410,  0.1487]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  0.0000e+00, -8.4750e-08,  ...,  0.0000e+00,
+          0.0000e+00, -7.2643e-08],
+        [ 1.1176e-08,  0.0000e+00,  6.5193e-09,  ..., -3.7253e-09,
+          7.4506e-09,  6.5193e-09],
+        [ 1.8626e-09,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          3.7253e-09,  6.5193e-09],
+        ...,
+        [ 1.5832e-08,  0.0000e+00, -9.3132e-10,  ...,  2.7940e-09,
+         -2.3283e-08,  1.3411e-07],
+        [ 4.6566e-09,  0.0000e+00,  4.6566e-09,  ...,  9.3132e-10,
+          1.8626e-09,  4.6566e-09],
+        [ 5.4017e-08,  0.0000e+00,  5.4017e-08,  ...,  9.3132e-10,
+          9.3132e-09, -1.3225e-07]], device='cuda:0')
+Epoch 340, bias, value: tensor([-0.0374, -0.0343,  0.0107,  0.0242, -0.0159,  0.0080, -0.0141,  0.0146,
+         0.0104, -0.0046], device='cuda:0'), grad: tensor([-2.8592e-07,  4.9360e-08,  3.8184e-08,  7.6368e-08, -6.4261e-08,
+         1.4901e-08,  4.6566e-08,  2.6450e-07, -3.0734e-08, -1.0338e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 339, time 214.40, cls_loss 0.0005 cls_loss_mapping 0.0011 cls_loss_causal 0.4807 re_mapping 0.0035 re_causal 0.0107 /// teacc 99.15 lr 0.00010000
+Epoch 341, weight, value: tensor([[-0.1246,  0.0583,  0.0774,  ..., -0.0921, -0.1852,  0.0662],
+        [-0.1185, -0.0618, -0.1313,  ...,  0.1904, -0.1145, -0.0939],
+        [-0.0628,  0.0124,  0.2464,  ..., -0.1483, -0.1672, -0.1686],
+        ...,
+        [-0.1729, -0.0749,  0.0267,  ..., -0.0592,  0.1298, -0.0983],
+        [-0.1335, -0.1004, -0.0884,  ..., -0.1512, -0.0152, -0.2130],
+        [-0.2074, -0.0794, -0.1581,  ..., -0.2135, -0.0411,  0.1487]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.8871e-08,  ...,  0.0000e+00,
+         -0.0000e+00, -3.6322e-08],
+        [ 1.8626e-09,  0.0000e+00,  2.9802e-08,  ...,  9.3132e-10,
+          4.6566e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.5460e-07,  ...,  3.7253e-09,
+          2.3283e-08,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  0.0000e+00,  1.9558e-08,  ..., -5.5879e-09,
+         -3.3528e-08,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  5.5879e-08,  ...,  1.8626e-09,
+          3.7253e-09,  1.8626e-09],
+        [ 1.1176e-08,  0.0000e+00,  2.7008e-08,  ...,  0.0000e+00,
+          1.8626e-08,  3.6322e-08]], device='cuda:0')
+Epoch 341, bias, value: tensor([-0.0373, -0.0342,  0.0107,  0.0242, -0.0160,  0.0080, -0.0141,  0.0146,
+         0.0105, -0.0046], device='cuda:0'), grad: tensor([-6.5193e-08,  7.5437e-08, -3.3714e-07, -4.6566e-09, -1.7695e-08,
+         9.3132e-10,  3.3528e-08,  3.8184e-08,  1.3877e-07,  1.3877e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 340, time 214.45, cls_loss 0.0005 cls_loss_mapping 0.0010 cls_loss_causal 0.4379 re_mapping 0.0033 re_causal 0.0103 /// teacc 99.09 lr 0.00010000
+Epoch 342, weight, value: tensor([[-0.1247,  0.0583,  0.0775,  ..., -0.0922, -0.1851,  0.0663],
+        [-0.1188, -0.0618, -0.1315,  ...,  0.1907, -0.1146, -0.0939],
+        [-0.0627,  0.0125,  0.2463,  ..., -0.1486, -0.1674, -0.1690],
+        ...,
+        [-0.1736, -0.0749,  0.0268,  ..., -0.0595,  0.1301, -0.0984],
+        [-0.1336, -0.1004, -0.0886,  ..., -0.1515, -0.0153, -0.2137],
+        [-0.2074, -0.0794, -0.1582,  ..., -0.2136, -0.0411,  0.1489]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -1.4901e-08,  ...,  6.5193e-09,
+          0.0000e+00, -9.3132e-09],
+        [ 1.8626e-09,  0.0000e+00,  9.3132e-10,  ..., -9.2201e-08,
+          9.3132e-10,  1.8626e-09],
+        [ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  7.4506e-09,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 2.7940e-09,  0.0000e+00, -3.7253e-09,  ...,  2.3283e-08,
+         -9.3132e-10,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  1.1176e-08,
+          8.3819e-09,  0.0000e+00],
+        [ 6.5193e-09,  0.0000e+00,  1.7695e-08,  ...,  9.3132e-10,
+          3.7253e-09, -1.8626e-09]], device='cuda:0')
+Epoch 342, bias, value: tensor([-0.0372, -0.0341,  0.0105,  0.0242, -0.0161,  0.0080, -0.0139,  0.0147,
+         0.0105, -0.0045], device='cuda:0'), grad: tensor([ 1.3718e-06,  7.0781e-08,  1.1176e-07,  1.5814e-06,  1.5832e-08,
+         1.1642e-07,  2.6636e-07,  1.5926e-07, -3.8221e-06,  1.3225e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 341, time 214.20, cls_loss 0.0006 cls_loss_mapping 0.0015 cls_loss_causal 0.5045 re_mapping 0.0032 re_causal 0.0104 /// teacc 99.15 lr 0.00010000
+Epoch 343, weight, value: tensor([[-0.1248,  0.0583,  0.0777,  ..., -0.0922, -0.1851,  0.0665],
+        [-0.1191, -0.0618, -0.1316,  ...,  0.1910, -0.1147, -0.0940],
+        [-0.0629,  0.0124,  0.2463,  ..., -0.1493, -0.1674, -0.1694],
+        ...,
+        [-0.1737, -0.0748,  0.0269,  ..., -0.0597,  0.1301, -0.0986],
+        [-0.1340, -0.1005, -0.0890,  ..., -0.1515, -0.0166, -0.2144],
+        [-0.2075, -0.0795, -0.1584,  ..., -0.2137, -0.0412,  0.1489]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.8871e-08,  ..., -2.7940e-09,
+          2.7940e-09,  6.8918e-08],
+        [ 1.8626e-09,  0.0000e+00,  2.1420e-08,  ..., -1.7695e-08,
+          5.2154e-08,  7.4506e-09],
+        [ 0.0000e+00,  0.0000e+00, -2.6450e-07,  ...,  9.3132e-10,
+          5.5879e-09,  1.8626e-09],
+        ...,
+        [ 2.7940e-09,  0.0000e+00, -5.4017e-08,  ...,  4.6566e-09,
+         -1.5274e-07,  3.9116e-08],
+        [ 9.3132e-10,  0.0000e+00,  2.5518e-07,  ...,  8.3819e-09,
+          4.6566e-09,  2.4866e-07],
+        [ 1.3039e-08,  0.0000e+00,  4.0047e-08,  ...,  2.7940e-09,
+          5.6811e-08, -4.2468e-07]], device='cuda:0')
+Epoch 343, bias, value: tensor([-0.0370, -0.0340,  0.0105,  0.0243, -0.0161,  0.0082, -0.0150,  0.0147,
+         0.0101, -0.0046], device='cuda:0'), grad: tensor([ 1.1828e-07,  1.0431e-07, -5.4482e-07,  5.2154e-08,  7.9162e-08,
+         5.3085e-08,  1.5832e-08, -2.0489e-07,  1.0310e-06, -6.9849e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 342, time 214.00, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.4379 re_mapping 0.0035 re_causal 0.0103 /// teacc 99.16 lr 0.00010000
+Epoch 344, weight, value: tensor([[-0.1251,  0.0583,  0.0777,  ..., -0.0925, -0.1851,  0.0665],
+        [-0.1193, -0.0618, -0.1318,  ...,  0.1911, -0.1148, -0.0941],
+        [-0.0633,  0.0124,  0.2463,  ..., -0.1497, -0.1675, -0.1697],
+        ...,
+        [-0.1739, -0.0748,  0.0269,  ..., -0.0598,  0.1302, -0.0988],
+        [-0.1324, -0.1005, -0.0888,  ..., -0.1515, -0.0151, -0.2154],
+        [-0.2076, -0.0795, -0.1586,  ..., -0.2139, -0.0413,  0.1491]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  8.3819e-09,  ...,  4.4703e-08,
+          1.0245e-08,  2.6822e-07],
+        [ 3.7253e-09,  0.0000e+00,  4.5635e-08,  ...,  5.2992e-07,
+          5.7742e-08,  4.4256e-06],
+        [ 0.0000e+00,  0.0000e+00,  6.1467e-08,  ...,  4.5635e-08,
+          6.6124e-08,  4.0978e-08],
+        ...,
+        [ 1.8626e-09,  0.0000e+00, -2.9802e-07,  ...,  8.6706e-07,
+         -3.6508e-07,  7.2718e-06],
+        [ 0.0000e+00,  0.0000e+00,  7.5437e-08,  ...,  3.3062e-07,
+          1.2852e-07,  2.5630e-06],
+        [ 1.5832e-08,  0.0000e+00,  7.4506e-08,  ..., -1.9502e-06,
+          8.8476e-08, -1.6391e-05]], device='cuda:0')
+Epoch 344, bias, value: tensor([-0.0371, -0.0341,  0.0105,  0.0246, -0.0161,  0.0080, -0.0148,  0.0147,
+         0.0113, -0.0046], device='cuda:0'), grad: tensor([ 1.1036e-06,  1.7419e-05,  3.9767e-07,  7.3761e-07,  6.1840e-06,
+         2.6077e-08, -2.5146e-07,  2.7686e-05,  1.0408e-05, -6.3837e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 343, time 213.93, cls_loss 0.0010 cls_loss_mapping 0.0024 cls_loss_causal 0.5162 re_mapping 0.0035 re_causal 0.0112 /// teacc 99.15 lr 0.00010000
+Epoch 345, weight, value: tensor([[-0.1253,  0.0583,  0.0779,  ..., -0.0926, -0.1852,  0.0666],
+        [-0.1201, -0.0620, -0.1322,  ...,  0.1914, -0.1152, -0.0944],
+        [-0.0637,  0.0134,  0.2463,  ..., -0.1510, -0.1676, -0.1702],
+        ...,
+        [-0.1742, -0.0754,  0.0299,  ..., -0.0598,  0.1335, -0.0993],
+        [-0.1325, -0.1006, -0.0922,  ..., -0.1518, -0.0187, -0.2156],
+        [-0.2078, -0.0795, -0.1588,  ..., -0.2139, -0.0415,  0.1494]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -1.1176e-08,  ...,  9.3132e-10,
+          8.3819e-09, -1.3970e-08],
+        [ 5.1223e-08,  0.0000e+00,  1.6764e-08,  ..., -7.1712e-08,
+          5.9418e-07,  0.0000e+00],
+        [ 3.7253e-09,  0.0000e+00, -1.3784e-07,  ...,  1.0245e-08,
+          6.0536e-08,  0.0000e+00],
+        ...,
+        [ 2.7940e-09,  0.0000e+00,  1.0245e-08,  ...,  4.0978e-08,
+         -3.0808e-06,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  4.9360e-08,  ...,  1.2107e-08,
+          4.8429e-08,  0.0000e+00],
+        [ 1.5832e-08,  0.0000e+00,  1.3970e-08,  ...,  1.8626e-09,
+          1.2489e-06,  1.0245e-08]], device='cuda:0')
+Epoch 345, bias, value: tensor([-0.0370, -0.0344,  0.0104,  0.0245, -0.0158,  0.0080, -0.0148,  0.0179,
+         0.0077, -0.0048], device='cuda:0'), grad: tensor([ 2.0489e-08,  2.5891e-06,  3.3528e-08,  2.0117e-07,  4.6194e-06,
+         1.6484e-07,  1.4901e-08, -1.3605e-05,  3.3062e-07,  5.6401e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 344, time 213.90, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4611 re_mapping 0.0033 re_causal 0.0104 /// teacc 99.10 lr 0.00010000
+Epoch 346, weight, value: tensor([[-0.1255,  0.0584,  0.0781,  ..., -0.0929, -0.1853,  0.0667],
+        [-0.1207, -0.0620, -0.1325,  ...,  0.1920, -0.1154, -0.0945],
+        [-0.0638,  0.0134,  0.2461,  ..., -0.1517, -0.1678, -0.1707],
+        ...,
+        [-0.1745, -0.0754,  0.0300,  ..., -0.0604,  0.1335, -0.0994],
+        [-0.1332, -0.1006, -0.0922,  ..., -0.1522, -0.0187, -0.2164],
+        [-0.2078, -0.0796, -0.1590,  ..., -0.2140, -0.0413,  0.1495]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -1.5832e-08,  ...,  1.8626e-09,
+          9.3132e-10, -6.5193e-09],
+        [ 6.5193e-09,  0.0000e+00,  1.8626e-08,  ...,  9.3132e-10,
+          1.4901e-08,  4.6566e-09],
+        [ 9.3132e-10,  0.0000e+00,  1.2945e-07,  ...,  9.3132e-10,
+          8.1025e-08,  9.3132e-10],
+        ...,
+        [ 7.4506e-09,  0.0000e+00, -1.6205e-07,  ...,  0.0000e+00,
+         -1.0617e-07,  4.3772e-08],
+        [ 1.8626e-09,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          8.3819e-09,  2.6077e-08],
+        [ 2.7008e-08,  0.0000e+00,  1.9558e-08,  ...,  0.0000e+00,
+          1.1176e-08, -2.0117e-07]], device='cuda:0')
+Epoch 346, bias, value: tensor([-0.0369, -0.0342,  0.0101,  0.0245, -0.0158,  0.0080, -0.0142,  0.0179,
+         0.0077, -0.0046], device='cuda:0'), grad: tensor([-7.4506e-09,  7.7300e-08,  3.3993e-07, -1.4529e-07,  3.2876e-07,
+         1.8626e-09,  2.3283e-08, -2.6263e-07,  2.0303e-07, -5.5134e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 345, time 213.93, cls_loss 0.0005 cls_loss_mapping 0.0014 cls_loss_causal 0.4755 re_mapping 0.0033 re_causal 0.0106 /// teacc 99.22 lr 0.00010000
+Epoch 347, weight, value: tensor([[-0.1256,  0.0584,  0.0782,  ..., -0.0931, -0.1854,  0.0668],
+        [-0.1212, -0.0627, -0.1333,  ...,  0.1921, -0.1155, -0.0946],
+        [-0.0639,  0.0135,  0.2462,  ..., -0.1520, -0.1678, -0.1708],
+        ...,
+        [-0.1748, -0.0754,  0.0299,  ..., -0.0606,  0.1334, -0.0996],
+        [-0.1337, -0.1006, -0.0922,  ..., -0.1522, -0.0187, -0.2172],
+        [-0.2078, -0.0796, -0.1591,  ..., -0.2141, -0.0413,  0.1499]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09, -4.6566e-10,  2.4214e-08,  ...,  4.1910e-09,
+          5.3551e-08, -3.2131e-08],
+        [ 3.2596e-09,  0.0000e+00,  1.2061e-07,  ..., -2.4214e-08,
+          1.3318e-07,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.4075e-07,  ...,  5.1223e-09,
+          2.7800e-07,  4.6566e-10],
+        ...,
+        [ 1.8626e-09,  0.0000e+00, -5.2005e-06,  ...,  1.2573e-08,
+         -5.5730e-06,  1.5367e-08],
+        [ 3.5390e-08,  0.0000e+00,  2.1420e-08,  ...,  2.4680e-08,
+          2.4680e-08,  2.3283e-08],
+        [ 1.7695e-08,  4.6566e-10,  4.7386e-06,  ...,  9.3132e-10,
+          5.0142e-06, -2.1420e-08]], device='cuda:0')
+Epoch 347, bias, value: tensor([-0.0368, -0.0345,  0.0102,  0.0253, -0.0166,  0.0079, -0.0140,  0.0178,
+         0.0078, -0.0039], device='cuda:0'), grad: tensor([ 9.3132e-08,  4.4145e-07,  7.3202e-07,  7.9162e-09,  5.4948e-08,
+         1.7928e-07, -1.4575e-07, -2.5094e-05,  2.2771e-07,  2.3574e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 346, time 214.21, cls_loss 0.0006 cls_loss_mapping 0.0010 cls_loss_causal 0.4560 re_mapping 0.0032 re_causal 0.0102 /// teacc 99.13 lr 0.00010000
+Epoch 348, weight, value: tensor([[-0.1257,  0.0584,  0.0782,  ..., -0.0929, -0.1855,  0.0669],
+        [-0.1220, -0.0657, -0.1363,  ...,  0.1916, -0.1169, -0.0948],
+        [-0.0640,  0.0164,  0.2463,  ..., -0.1495, -0.1678, -0.1711],
+        ...,
+        [-0.1750, -0.0754,  0.0299,  ..., -0.0606,  0.1334, -0.0998],
+        [-0.1340, -0.1006, -0.0922,  ..., -0.1523, -0.0187, -0.2176],
+        [-0.2078, -0.0796, -0.1596,  ..., -0.2142, -0.0415,  0.1500]],
+       device='cuda:0'), grad: tensor([[ 5.1223e-09,  0.0000e+00, -1.3970e-09,  ...,  9.3132e-10,
+          5.1223e-09, -4.6566e-09],
+        [ 1.2573e-08,  0.0000e+00,  6.9849e-09,  ..., -1.3970e-08,
+          1.8626e-08,  0.0000e+00],
+        [ 3.2596e-09,  0.0000e+00, -1.9558e-08,  ...,  6.9849e-09,
+          6.0536e-09,  0.0000e+00],
+        ...,
+        [ 1.4203e-07,  0.0000e+00, -2.6543e-08,  ...,  1.1176e-08,
+          6.2864e-08,  4.6566e-10],
+        [ 1.2573e-08,  0.0000e+00,  2.3283e-09,  ..., -2.7940e-09,
+          1.2107e-08,  0.0000e+00],
+        [ 2.9337e-08,  0.0000e+00,  2.4680e-08,  ...,  9.3132e-10,
+          4.6100e-08,  5.5879e-09]], device='cuda:0')
+Epoch 348, bias, value: tensor([-0.0368, -0.0357,  0.0103,  0.0254, -0.0166,  0.0078, -0.0142,  0.0178,
+         0.0078, -0.0041], device='cuda:0'), grad: tensor([ 1.8161e-08,  7.1712e-08,  9.3132e-10,  6.0070e-08, -7.0501e-07,
+        -2.5146e-08,  1.7975e-07,  3.5018e-07, -1.0710e-07,  1.6252e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 347, time 214.29, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.4651 re_mapping 0.0033 re_causal 0.0103 /// teacc 99.07 lr 0.00010000
+Epoch 349, weight, value: tensor([[-0.1281,  0.0584,  0.0786,  ..., -0.0937, -0.1853,  0.0672],
+        [-0.1228, -0.0657, -0.1366,  ...,  0.1931, -0.1162, -0.0948],
+        [-0.0623,  0.0164,  0.2463,  ..., -0.1499, -0.1678, -0.1715],
+        ...,
+        [-0.1752, -0.0755,  0.0299,  ..., -0.0621,  0.1334, -0.0999],
+        [-0.1346, -0.1006, -0.0922,  ..., -0.1523, -0.0187, -0.2180],
+        [-0.2079, -0.0796, -0.1598,  ..., -0.2144, -0.0417,  0.1499]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.8254e-07,  ...,  1.1036e-07,
+          5.1688e-08, -2.2864e-07],
+        [ 5.5879e-09,  0.0000e+00,  4.1910e-09,  ..., -6.0070e-08,
+          9.3132e-09,  5.1223e-09],
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-09,  ...,  3.2596e-08,
+          1.6298e-08,  7.9162e-09],
+        ...,
+        [ 4.6566e-10,  0.0000e+00, -1.4901e-08,  ...,  5.5879e-08,
+         -1.4901e-08,  3.6787e-08],
+        [-1.8161e-08,  0.0000e+00,  8.8476e-09,  ...,  2.5611e-08,
+          1.9139e-07,  9.3598e-08],
+        [ 1.3970e-09,  0.0000e+00,  1.3644e-07,  ...,  2.9802e-08,
+          1.0571e-07,  1.7602e-07]], device='cuda:0')
+Epoch 349, bias, value: tensor([-0.0366, -0.0334,  0.0103,  0.0258, -0.0165,  0.0078, -0.0150,  0.0178,
+         0.0078, -0.0043], device='cuda:0'), grad: tensor([-2.0582e-07, -1.3039e-08,  1.9325e-07,  2.1104e-06,  1.3690e-07,
+        -2.9132e-06, -1.0571e-06,  2.6869e-07,  5.4110e-07,  9.4203e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 348, time 214.21, cls_loss 0.0005 cls_loss_mapping 0.0016 cls_loss_causal 0.4718 re_mapping 0.0033 re_causal 0.0109 /// teacc 99.09 lr 0.00010000
+Epoch 350, weight, value: tensor([[-0.1283,  0.0584,  0.0787,  ..., -0.0939, -0.1853,  0.0673],
+        [-0.1230, -0.0657, -0.1365,  ...,  0.1939, -0.1162, -0.0949],
+        [-0.0625,  0.0164,  0.2463,  ..., -0.1504, -0.1678, -0.1719],
+        ...,
+        [-0.1754, -0.0756,  0.0299,  ..., -0.0628,  0.1334, -0.1000],
+        [-0.1349, -0.1006, -0.0922,  ..., -0.1531, -0.0187, -0.2187],
+        [-0.2084, -0.0796, -0.1599,  ..., -0.2146, -0.0417,  0.1501]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-09,  0.0000e+00, -9.3132e-10,  ...,  4.6566e-10,
+          4.6566e-10,  1.8161e-08],
+        [ 5.8208e-08,  0.0000e+00,  2.7940e-09,  ..., -6.9849e-09,
+          9.7789e-09,  5.1223e-09],
+        [ 9.3132e-10,  0.0000e+00,  1.0710e-08,  ...,  3.2596e-09,
+          1.0245e-08,  1.3970e-09],
+        ...,
+        [ 1.0710e-08,  0.0000e+00, -2.1886e-08,  ...,  3.2596e-09,
+         -2.3283e-08,  3.5856e-08],
+        [ 1.8161e-08,  0.0000e+00,  3.2596e-09,  ...,  4.6566e-09,
+          6.9849e-09,  9.3132e-09],
+        [ 4.6892e-07,  0.0000e+00,  5.1223e-09,  ...,  1.3039e-08,
+          5.2620e-08, -1.5413e-07]], device='cuda:0')
+Epoch 350, bias, value: tensor([-0.0366, -0.0327,  0.0103,  0.0257, -0.0158,  0.0077, -0.0140,  0.0178,
+         0.0078, -0.0048], device='cuda:0'), grad: tensor([ 4.9826e-08,  1.5274e-07,  4.0978e-08,  1.7229e-08, -1.5274e-06,
+         5.8208e-08,  2.1048e-07,  5.6345e-08,  9.5926e-08,  8.4937e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 349, time 214.35, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.4702 re_mapping 0.0032 re_causal 0.0103 /// teacc 99.11 lr 0.00010000
+Epoch 351, weight, value: tensor([[-0.1288,  0.0578,  0.0788,  ..., -0.0938, -0.1854,  0.0674],
+        [-0.1246, -0.0657, -0.1390,  ...,  0.1919, -0.1190, -0.0950],
+        [-0.0628,  0.0163,  0.2464,  ..., -0.1509, -0.1679, -0.1727],
+        ...,
+        [-0.1759, -0.0757,  0.0300,  ..., -0.0606,  0.1335, -0.1002],
+        [-0.1356, -0.1008, -0.0922,  ..., -0.1535, -0.0187, -0.2194],
+        [-0.2086, -0.0798, -0.1600,  ..., -0.2148, -0.0418,  0.1501]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.6077e-08,  ...,  9.3132e-10,
+         -1.1176e-08, -3.7253e-08],
+        [ 4.6566e-10,  0.0000e+00,  2.7940e-09,  ..., -1.9092e-08,
+          4.6566e-09,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00, -1.2107e-08,  ...,  2.7940e-09,
+          9.3132e-10,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ...,  1.1642e-08,
+         -9.7789e-09,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  6.9849e-09,  ...,  1.3970e-09,
+          0.0000e+00,  1.3970e-09],
+        [ 4.1910e-09,  0.0000e+00,  3.7253e-09,  ...,  3.7253e-09,
+          3.7253e-09, -1.0245e-08]], device='cuda:0')
+Epoch 351, bias, value: tensor([-0.0364, -0.0350,  0.0103,  0.0249, -0.0156,  0.0072, -0.0141,  0.0179,
+         0.0078, -0.0051], device='cuda:0'), grad: tensor([-1.4575e-07,  7.6834e-08,  4.7497e-07,  1.3458e-07,  2.2817e-08,
+         1.9604e-07,  3.8184e-08,  9.2201e-08, -9.3132e-07,  4.4238e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 350, time 214.21, cls_loss 0.0004 cls_loss_mapping 0.0011 cls_loss_causal 0.4638 re_mapping 0.0032 re_causal 0.0105 /// teacc 99.12 lr 0.00010000
+Epoch 352, weight, value: tensor([[-0.1289,  0.0577,  0.0789,  ..., -0.0938, -0.1854,  0.0675],
+        [-0.1248, -0.0657, -0.1390,  ...,  0.1927, -0.1190, -0.0951],
+        [-0.0630,  0.0162,  0.2464,  ..., -0.1533, -0.1679, -0.1731],
+        ...,
+        [-0.1761, -0.0757,  0.0301,  ..., -0.0610,  0.1335, -0.1003],
+        [-0.1357, -0.1009, -0.0922,  ..., -0.1536, -0.0187, -0.2200],
+        [-0.2087, -0.0798, -0.1601,  ..., -0.2150, -0.0418,  0.1501]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.1910e-09,  ...,  6.9849e-09,
+          6.7521e-08,  4.1910e-09],
+        [ 4.6566e-10,  0.0000e+00,  6.0536e-09,  ..., -5.1223e-09,
+          1.8161e-08,  6.0536e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  4.6566e-09,
+          1.6764e-08,  1.8626e-09],
+        ...,
+        [ 4.6566e-10,  0.0000e+00, -1.6764e-08,  ...,  2.3283e-09,
+          6.3796e-08,  3.4925e-08],
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  9.3132e-09,
+          3.4459e-08,  3.3993e-08],
+        [ 1.8626e-09,  0.0000e+00,  5.1223e-09,  ...,  1.3970e-09,
+          1.0664e-07, -1.2852e-07]], device='cuda:0')
+Epoch 352, bias, value: tensor([-0.0363, -0.0345,  0.0102,  0.0249, -0.0156,  0.0069, -0.0138,  0.0179,
+         0.0078, -0.0051], device='cuda:0'), grad: tensor([ 3.4738e-07,  1.7649e-07,  1.0757e-07,  1.0626e-06,  3.1898e-07,
+        -2.3674e-06,  7.9116e-07,  5.9977e-07, -1.1027e-06,  6.2864e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 351, time 214.51, cls_loss 0.0006 cls_loss_mapping 0.0010 cls_loss_causal 0.4676 re_mapping 0.0031 re_causal 0.0100 /// teacc 99.08 lr 0.00010000
+Epoch 353, weight, value: tensor([[-0.1290,  0.0577,  0.0790,  ..., -0.0940, -0.1855,  0.0676],
+        [-0.1255, -0.0658, -0.1392,  ...,  0.1929, -0.1191, -0.0960],
+        [-0.0631,  0.0163,  0.2464,  ..., -0.1535, -0.1679, -0.1733],
+        ...,
+        [-0.1763, -0.0758,  0.0300,  ..., -0.0611,  0.1336, -0.1004],
+        [-0.1358, -0.1009, -0.0922,  ..., -0.1537, -0.0187, -0.2205],
+        [-0.2091, -0.0798, -0.1602,  ..., -0.2151, -0.0419,  0.1504]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  0.0000e+00,  0.0000e+00,  ..., -1.2806e-07,
+          5.5879e-09, -1.5274e-07],
+        [ 3.3993e-08,  0.0000e+00,  2.7474e-08,  ...,  6.2864e-08,
+          4.8429e-08,  7.6834e-08],
+        [ 3.2596e-09,  0.0000e+00,  2.6543e-08,  ...,  7.9162e-09,
+          4.6100e-08,  6.0536e-09],
+        ...,
+        [ 1.8626e-08,  0.0000e+00, -1.4156e-07,  ...,  1.5832e-08,
+         -2.4820e-07,  8.8476e-09],
+        [ 3.2596e-09,  0.0000e+00,  1.4901e-08,  ...,  1.0710e-08,
+          2.5611e-08,  1.8626e-09],
+        [ 3.8836e-07,  0.0000e+00,  5.9139e-08,  ...,  3.5856e-08,
+          1.0058e-07,  1.5832e-08]], device='cuda:0')
+Epoch 353, bias, value: tensor([-0.0363, -0.0346,  0.0102,  0.0251, -0.0152,  0.0069, -0.0138,  0.0179,
+         0.0078, -0.0054], device='cuda:0'), grad: tensor([-9.4064e-07,  7.0268e-07,  1.6531e-07,  1.4296e-07, -1.1455e-06,
+         7.7765e-08, -3.9116e-08, -5.1735e-07,  9.9186e-08,  1.4678e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 352, time 214.31, cls_loss 0.0006 cls_loss_mapping 0.0011 cls_loss_causal 0.4519 re_mapping 0.0032 re_causal 0.0099 /// teacc 99.14 lr 0.00010000
+Epoch 354, weight, value: tensor([[-0.1292,  0.0577,  0.0791,  ..., -0.0941, -0.1856,  0.0677],
+        [-0.1287, -0.0658, -0.1394,  ...,  0.1926, -0.1192, -0.0962],
+        [-0.0633,  0.0163,  0.2464,  ..., -0.1537, -0.1679, -0.1736],
+        ...,
+        [-0.1769, -0.0758,  0.0301,  ..., -0.0614,  0.1336, -0.1005],
+        [-0.1359, -0.1009, -0.0922,  ..., -0.1536, -0.0187, -0.2211],
+        [-0.2092, -0.0798, -0.1604,  ..., -0.2159, -0.0420,  0.1506]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.1910e-08,  ...,  4.1910e-09,
+          4.6566e-10,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ..., -6.9849e-09,
+          4.1910e-09,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.2596e-09,  ...,  1.3970e-09,
+          3.2596e-09,  4.6566e-10],
+        ...,
+        [ 1.8626e-09,  0.0000e+00, -1.5367e-08,  ...,  2.7940e-09,
+         -2.3749e-08,  2.7008e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.7789e-09,  ...,  9.3132e-09,
+          2.7940e-09,  9.3132e-10],
+        [-2.6543e-08,  0.0000e+00,  3.4459e-08,  ...,  4.6566e-10,
+          1.5367e-08, -4.1164e-07]], device='cuda:0')
+Epoch 354, bias, value: tensor([-0.0363, -0.0349,  0.0102,  0.0252, -0.0149,  0.0067, -0.0144,  0.0179,
+         0.0078, -0.0054], device='cuda:0'), grad: tensor([-2.0629e-07,  3.2131e-08,  3.4925e-08,  4.2841e-08,  3.8408e-06,
+        -1.3970e-09, -3.2131e-08,  2.1514e-07,  6.4727e-08, -3.9861e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 353, time 214.08, cls_loss 0.0006 cls_loss_mapping 0.0019 cls_loss_causal 0.4571 re_mapping 0.0032 re_causal 0.0101 /// teacc 99.17 lr 0.00010000
+Epoch 355, weight, value: tensor([[-0.1293,  0.0577,  0.0792,  ..., -0.0967, -0.1858,  0.0664],
+        [-0.1288, -0.0658, -0.1406,  ...,  0.1926, -0.1198, -0.0964],
+        [-0.0635,  0.0163,  0.2465,  ..., -0.1541, -0.1679, -0.1739],
+        ...,
+        [-0.1772, -0.0758,  0.0301,  ..., -0.0612,  0.1336, -0.1006],
+        [-0.1362, -0.1009, -0.0922,  ..., -0.1532, -0.0186, -0.2205],
+        [-0.2092, -0.0798, -0.1606,  ..., -0.2162, -0.0421,  0.1507]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  0.0000e+00, -4.6566e-10,  ...,  4.6566e-10,
+          4.6566e-10,  0.0000e+00],
+        [ 3.2596e-09,  0.0000e+00,  6.9849e-09,  ..., -7.4506e-09,
+          1.2107e-08,  4.6566e-10],
+        [ 4.6566e-10,  0.0000e+00,  3.4925e-08,  ...,  1.8626e-09,
+          5.4482e-08,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00, -6.1933e-08,  ...,  1.3970e-09,
+         -1.0617e-07,  5.5879e-09],
+        [ 4.6566e-10,  0.0000e+00,  6.9849e-09,  ...,  1.3970e-09,
+          1.0710e-08,  9.3132e-09],
+        [ 1.5367e-08,  0.0000e+00,  9.7789e-09,  ...,  1.3970e-09,
+          1.9092e-08, -1.8626e-08]], device='cuda:0')
+Epoch 355, bias, value: tensor([-0.0384, -0.0354,  0.0102,  0.0250, -0.0149,  0.0061, -0.0117,  0.0179,
+         0.0079, -0.0055], device='cuda:0'), grad: tensor([ 2.0489e-08,  2.1420e-08,  1.1502e-07, -4.9127e-07, -2.8405e-08,
+         2.2817e-08,  2.7940e-08, -1.6252e-07,  4.8755e-07,  5.5879e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 354, time 214.30, cls_loss 0.0005 cls_loss_mapping 0.0010 cls_loss_causal 0.4544 re_mapping 0.0032 re_causal 0.0100 /// teacc 99.20 lr 0.00010000
+Epoch 356, weight, value: tensor([[-0.1294,  0.0577,  0.0793,  ..., -0.0972, -0.1859,  0.0663],
+        [-0.1288, -0.0658, -0.1409,  ...,  0.1927, -0.1199, -0.0965],
+        [-0.0636,  0.0163,  0.2465,  ..., -0.1544, -0.1679, -0.1745],
+        ...,
+        [-0.1774, -0.0758,  0.0301,  ..., -0.0613,  0.1336, -0.1009],
+        [-0.1366, -0.1009, -0.0922,  ..., -0.1534, -0.0186, -0.2221],
+        [-0.2096, -0.0798, -0.1607,  ..., -0.2164, -0.0422,  0.1510]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00, -4.6566e-10,  ...,  9.3132e-10,
+          2.3283e-09,  4.6566e-10],
+        [ 2.3283e-09,  0.0000e+00,  1.6764e-08,  ...,  1.5507e-07,
+          5.8953e-07,  4.6566e-10],
+        [-2.7940e-09,  0.0000e+00, -1.5832e-08,  ...,  2.3283e-09,
+          1.9558e-08,  4.6566e-10],
+        ...,
+        [ 1.8626e-09,  0.0000e+00, -3.4925e-08,  ..., -1.9511e-07,
+         -7.5810e-07,  7.9162e-09],
+        [ 1.3970e-09,  0.0000e+00,  1.0710e-08,  ...,  1.2107e-08,
+          5.8673e-08,  9.3132e-10],
+        [ 9.3132e-10,  0.0000e+00,  6.5193e-09,  ...,  9.7789e-09,
+          4.0513e-08, -1.6764e-08]], device='cuda:0')
+Epoch 356, bias, value: tensor([-0.0388, -0.0355,  0.0102,  0.0248, -0.0146,  0.0061, -0.0113,  0.0179,
+         0.0079, -0.0056], device='cuda:0'), grad: tensor([ 9.3132e-09,  1.8170e-06, -3.3528e-08,  3.0175e-07,  3.9116e-08,
+        -1.1548e-07, -5.1223e-09, -2.2836e-06,  1.7835e-07,  9.4064e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 355, time 214.14, cls_loss 0.0006 cls_loss_mapping 0.0018 cls_loss_causal 0.4925 re_mapping 0.0033 re_causal 0.0102 /// teacc 99.16 lr 0.00010000
+Epoch 357, weight, value: tensor([[-0.1295,  0.0577,  0.0796,  ..., -0.0971, -0.1859,  0.0667],
+        [-0.1288, -0.0658, -0.1412,  ...,  0.1928, -0.1200, -0.0966],
+        [-0.0637,  0.0163,  0.2466,  ..., -0.1548, -0.1679, -0.1747],
+        ...,
+        [-0.1776, -0.0758,  0.0301,  ..., -0.0614,  0.1336, -0.1010],
+        [-0.1358, -0.1009, -0.0922,  ..., -0.1537, -0.0186, -0.2231],
+        [-0.2096, -0.0798, -0.1611,  ..., -0.2168, -0.0424,  0.1508]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  9.3132e-10,
+          0.0000e+00,  9.3132e-10],
+        [ 1.3970e-09,  0.0000e+00,  2.5425e-07,  ...,  9.2667e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -2.9337e-07,  ..., -1.0710e-07,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  3.7253e-09,  ...,  9.3132e-10,
+          0.0000e+00,  3.2596e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-09,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -4.6566e-09]], device='cuda:0')
+Epoch 357, bias, value: tensor([-0.0386, -0.0356,  0.0103,  0.0252, -0.0147,  0.0056, -0.0111,  0.0179,
+         0.0079, -0.0059], device='cuda:0'), grad: tensor([ 6.9849e-09,  6.0257e-07, -6.8406e-07,  7.9162e-09,  7.4506e-09,
+        -2.5146e-08,  7.1246e-08,  2.2817e-08,  3.2596e-09, -4.6566e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 356, time 214.10, cls_loss 0.0007 cls_loss_mapping 0.0016 cls_loss_causal 0.4765 re_mapping 0.0032 re_causal 0.0100 /// teacc 99.09 lr 0.00010000
+Epoch 358, weight, value: tensor([[-0.1296,  0.0577,  0.0798,  ..., -0.0971, -0.1861,  0.0665],
+        [-0.1289, -0.0658, -0.1415,  ...,  0.1929, -0.1201, -0.0975],
+        [-0.0635,  0.0163,  0.2466,  ..., -0.1553, -0.1680, -0.1767],
+        ...,
+        [-0.1778, -0.0759,  0.0301,  ..., -0.0614,  0.1336, -0.1013],
+        [-0.1361, -0.1010, -0.0922,  ..., -0.1541, -0.0186, -0.2205],
+        [-0.2097, -0.0798, -0.1613,  ..., -0.2170, -0.0425,  0.1511]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00, -3.0734e-08,  ..., -6.0536e-09,
+          4.6566e-10, -6.6124e-08],
+        [-5.1223e-09,  0.0000e+00,  6.9849e-09,  ..., -2.0023e-08,
+          9.3132e-10,  1.8626e-08],
+        [ 1.8626e-09,  0.0000e+00, -4.6566e-10,  ...,  8.8476e-09,
+          1.3970e-09,  6.0536e-09],
+        ...,
+        [ 1.3970e-09,  0.0000e+00, -4.1910e-09,  ...,  8.3819e-09,
+         -1.0710e-08,  1.4901e-08],
+        [ 9.3132e-10,  0.0000e+00,  4.6566e-09,  ...,  4.1910e-09,
+          9.3132e-10,  1.4435e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.9092e-08,  ...,  9.3132e-10,
+          7.4506e-09, -3.2596e-09]], device='cuda:0')
+Epoch 358, bias, value: tensor([-0.0394, -0.0359,  0.0101,  0.0247, -0.0147,  0.0088, -0.0141,  0.0179,
+         0.0080, -0.0059], device='cuda:0'), grad: tensor([-1.4622e-07,  1.3970e-09,  2.6077e-08,  2.1886e-08,  3.3062e-08,
+         1.8626e-09,  1.3970e-09,  5.3085e-08,  1.6298e-08, -1.8626e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 357, time 214.68, cls_loss 0.0005 cls_loss_mapping 0.0014 cls_loss_causal 0.4657 re_mapping 0.0033 re_causal 0.0103 /// teacc 99.14 lr 0.00010000
+Epoch 359, weight, value: tensor([[-0.1303,  0.0578,  0.0798,  ..., -0.0971, -0.1862,  0.0665],
+        [-0.1290, -0.0658, -0.1416,  ...,  0.1944, -0.1201, -0.0973],
+        [-0.0631,  0.0163,  0.2466,  ..., -0.1554, -0.1680, -0.1768],
+        ...,
+        [-0.1782, -0.0759,  0.0301,  ..., -0.0628,  0.1336, -0.1018],
+        [-0.1369, -0.1010, -0.0922,  ..., -0.1542, -0.0186, -0.2206],
+        [-0.2098, -0.0799, -0.1615,  ..., -0.2176, -0.0427,  0.1515]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -1.3970e-09,  ...,  9.3132e-10,
+          4.6566e-09,  1.1176e-08],
+        [ 7.4506e-09,  0.0000e+00,  9.3132e-10,  ...,  3.2596e-09,
+          1.8626e-09,  4.1910e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          1.8626e-09,  2.3283e-09],
+        ...,
+        [ 2.3283e-09,  0.0000e+00, -4.6566e-10,  ...,  0.0000e+00,
+          1.8626e-09,  1.4435e-08],
+        [ 1.3970e-09,  0.0000e+00,  9.3132e-10,  ..., -1.8626e-09,
+          9.3132e-10,  4.1910e-09],
+        [ 8.3819e-09,  0.0000e+00,  9.3132e-10,  ...,  4.6566e-10,
+          1.3970e-08, -1.6298e-08]], device='cuda:0')
+Epoch 359, bias, value: tensor([-0.0394, -0.0353,  0.0102,  0.0246, -0.0149,  0.0088, -0.0140,  0.0179,
+         0.0080, -0.0057], device='cuda:0'), grad: tensor([ 3.9116e-08,  4.4703e-08,  1.0245e-08,  7.9628e-08, -8.3819e-09,
+        -1.9511e-07,  2.6543e-08,  4.1444e-08, -2.2817e-08, -7.9162e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 358, time 214.39, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4869 re_mapping 0.0031 re_causal 0.0100 /// teacc 99.10 lr 0.00010000
+Epoch 360, weight, value: tensor([[-0.1305,  0.0578,  0.0800,  ..., -0.0971, -0.1864,  0.0667],
+        [-0.1293, -0.0658, -0.1417,  ...,  0.1946, -0.1202, -0.0974],
+        [-0.0632,  0.0164,  0.2467,  ..., -0.1555, -0.1680, -0.1771],
+        ...,
+        [-0.1791, -0.0759,  0.0301,  ..., -0.0631,  0.1336, -0.1027],
+        [-0.1382, -0.1010, -0.0922,  ..., -0.1545, -0.0186, -0.2208],
+        [-0.2101, -0.0799, -0.1616,  ..., -0.2177, -0.0427,  0.1520]],
+       device='cuda:0'), grad: tensor([[ 2.1886e-08,  0.0000e+00, -9.3132e-09,  ..., -4.6566e-10,
+          1.0245e-08, -5.5879e-09],
+        [ 1.5693e-07,  0.0000e+00,  3.4925e-08,  ..., -1.3504e-08,
+          1.2480e-07,  2.3283e-09],
+        [ 1.4901e-08,  0.0000e+00,  2.6077e-08,  ...,  1.8626e-09,
+          4.6566e-08,  2.3283e-09],
+        ...,
+        [ 2.1420e-07,  0.0000e+00, -1.4529e-07,  ...,  5.5879e-09,
+         -9.1456e-07,  3.4925e-08],
+        [ 4.0047e-08,  0.0000e+00,  1.1176e-08,  ...,  3.7253e-09,
+          2.4214e-08,  1.3970e-09],
+        [ 1.4137e-06,  0.0000e+00,  1.7136e-07,  ...,  9.3132e-10,
+          6.4913e-07, -6.8918e-08]], device='cuda:0')
+Epoch 360, bias, value: tensor([-0.0393, -0.0354,  0.0102,  0.0247, -0.0145,  0.0088, -0.0142,  0.0179,
+         0.0080, -0.0058], device='cuda:0'), grad: tensor([ 6.3796e-08,  8.6194e-07,  2.3190e-07,  3.6322e-08, -3.8184e-06,
+         1.0431e-07,  9.5461e-08, -3.4198e-06,  2.0768e-07,  5.6587e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 359, time 214.09, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4513 re_mapping 0.0032 re_causal 0.0100 /// teacc 99.14 lr 0.00010000
+Epoch 361, weight, value: tensor([[-0.1305,  0.0578,  0.0802,  ..., -0.0972, -0.1865,  0.0667],
+        [-0.1294, -0.0658, -0.1419,  ...,  0.1946, -0.1203, -0.0985],
+        [-0.0633,  0.0164,  0.2470,  ..., -0.1556, -0.1681, -0.1776],
+        ...,
+        [-0.1802, -0.0759,  0.0300,  ..., -0.0631,  0.1336, -0.1030],
+        [-0.1387, -0.1010, -0.0922,  ..., -0.1548, -0.0186, -0.2211],
+        [-0.2107, -0.0799, -0.1619,  ..., -0.2178, -0.0428,  0.1526]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -5.7742e-08,  ..., -5.5879e-09,
+          4.6566e-10, -7.4971e-08],
+        [ 0.0000e+00,  0.0000e+00,  7.9162e-09,  ..., -2.3283e-09,
+          9.3132e-09,  2.7940e-09],
+        [-9.3132e-10,  0.0000e+00, -1.8626e-09,  ..., -0.0000e+00,
+          3.2596e-09,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -3.1199e-08,  ...,  9.3132e-10,
+         -5.9605e-08,  9.3132e-10],
+        [ 4.6566e-10,  0.0000e+00,  8.3819e-09,  ...,  2.7940e-09,
+          2.7940e-09,  4.1910e-09],
+        [ 0.0000e+00,  0.0000e+00,  5.7742e-08,  ...,  5.1223e-09,
+          3.3993e-08,  5.2620e-08]], device='cuda:0')
+Epoch 361, bias, value: tensor([-0.0393, -0.0356,  0.0105,  0.0245, -0.0139,  0.0088, -0.0141,  0.0179,
+         0.0080, -0.0061], device='cuda:0'), grad: tensor([-2.0396e-07,  3.3528e-08,  1.0710e-08, -1.6950e-07,  1.1642e-08,
+         1.2992e-07,  2.3283e-08, -1.2154e-07,  5.8673e-08,  2.4121e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 360, time 214.30, cls_loss 0.0005 cls_loss_mapping 0.0016 cls_loss_causal 0.4797 re_mapping 0.0033 re_causal 0.0103 /// teacc 99.14 lr 0.00010000
+Epoch 362, weight, value: tensor([[-0.1309,  0.0578,  0.0805,  ..., -0.0971, -0.1865,  0.0670],
+        [-0.1294, -0.0658, -0.1420,  ...,  0.1963, -0.1203, -0.0989],
+        [-0.0633,  0.0164,  0.2471,  ..., -0.1559, -0.1681, -0.1797],
+        ...,
+        [-0.1805, -0.0759,  0.0300,  ..., -0.0648,  0.1336, -0.1033],
+        [-0.1391, -0.1010, -0.0923,  ..., -0.1551, -0.0186, -0.2214],
+        [-0.2110, -0.0799, -0.1621,  ..., -0.2185, -0.0431,  0.1529]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.3970e-09,  ..., -4.6566e-10,
+          4.6566e-10,  9.3132e-10],
+        [-0.0000e+00,  0.0000e+00,  3.6322e-08,  ..., -4.1444e-08,
+          2.3749e-08,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00, -1.1455e-07,  ...,  2.3283e-09,
+          8.3819e-09,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -4.2841e-08,  ...,  1.6298e-08,
+         -6.7055e-08,  4.7963e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.1886e-08,  ...,  6.9849e-09,
+          8.8476e-09,  1.4901e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.7719e-08,  ...,  2.3283e-09,
+          1.7229e-08, -1.2247e-07]], device='cuda:0')
+Epoch 362, bias, value: tensor([-0.0391, -0.0346,  0.0106,  0.0241, -0.0138,  0.0089, -0.0141,  0.0178,
+         0.0080, -0.0063], device='cuda:0'), grad: tensor([ 4.7032e-08,  4.2841e-08, -1.3085e-07, -1.5460e-07,  3.7299e-07,
+         8.2888e-08,  1.7229e-08,  2.0908e-07,  2.0163e-07, -6.8778e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 361, time 214.47, cls_loss 0.0006 cls_loss_mapping 0.0018 cls_loss_causal 0.4838 re_mapping 0.0031 re_causal 0.0099 /// teacc 99.18 lr 0.00010000
+Epoch 363, weight, value: tensor([[-0.1324,  0.0574,  0.0809,  ..., -0.0971, -0.1869,  0.0674],
+        [-0.1291, -0.0659, -0.1421,  ...,  0.1968, -0.1209, -0.0994],
+        [-0.0634,  0.0163,  0.2472,  ..., -0.1563, -0.1681, -0.1803],
+        ...,
+        [-0.1807, -0.0763,  0.0300,  ..., -0.0649,  0.1337, -0.1035],
+        [-0.1401, -0.1011, -0.0923,  ..., -0.1561, -0.0187, -0.2217],
+        [-0.2111, -0.0800, -0.1625,  ..., -0.2190, -0.0435,  0.1533]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00, -2.3283e-09],
+        [ 9.3132e-10,  0.0000e+00,  1.4901e-08,  ..., -1.5832e-08,
+          0.0000e+00,  4.6566e-10],
+        [ 4.6566e-10,  0.0000e+00, -1.0710e-07,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  0.0000e+00,  1.5367e-08,  ...,  1.1642e-08,
+          0.0000e+00,  1.3970e-09],
+        [-4.6566e-10,  0.0000e+00,  4.3306e-08,  ...,  4.6566e-10,
+         -0.0000e+00,  1.3970e-09],
+        [ 3.1665e-08,  0.0000e+00,  3.7253e-09,  ...,  4.6566e-10,
+          0.0000e+00, -8.8476e-09]], device='cuda:0')
+Epoch 363, bias, value: tensor([-0.0389, -0.0347,  0.0106,  0.0243, -0.0143,  0.0088, -0.0141,  0.0178,
+         0.0080, -0.0062], device='cuda:0'), grad: tensor([ 7.4506e-09,  1.0245e-08, -1.9837e-07, -6.9849e-08, -1.0710e-08,
+         5.9605e-08, -4.6566e-10,  8.5682e-08,  9.0804e-08,  4.4238e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 362, time 214.28, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4841 re_mapping 0.0031 re_causal 0.0101 /// teacc 99.15 lr 0.00010000
+Epoch 364, weight, value: tensor([[-0.1330,  0.0573,  0.0813,  ..., -0.0971, -0.1871,  0.0676],
+        [-0.1282, -0.0659, -0.1423,  ...,  0.1978, -0.1209, -0.0996],
+        [-0.0637,  0.0163,  0.2472,  ..., -0.1566, -0.1681, -0.1805],
+        ...,
+        [-0.1814, -0.0763,  0.0300,  ..., -0.0651,  0.1337, -0.1042],
+        [-0.1412, -0.1011, -0.0923,  ..., -0.1568, -0.0187, -0.2217],
+        [-0.2093, -0.0800, -0.1628,  ..., -0.2193, -0.0435,  0.1543]],
+       device='cuda:0'), grad: tensor([[ 1.5832e-08,  0.0000e+00, -1.3970e-09,  ...,  1.3970e-08,
+          1.8626e-09, -1.8626e-09],
+        [ 4.1910e-09,  0.0000e+00,  1.2573e-08,  ..., -6.0536e-09,
+          1.6764e-08,  0.0000e+00],
+        [ 4.6566e-09,  0.0000e+00,  2.0489e-08,  ...,  4.1910e-09,
+          8.3819e-09,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00, -5.4482e-08,  ...,  2.7940e-09,
+         -8.1956e-08,  9.3132e-10],
+        [ 3.0734e-08,  0.0000e+00, -2.0955e-08,  ...,  2.6543e-08,
+          5.5879e-09,  0.0000e+00],
+        [ 5.1223e-09,  0.0000e+00,  3.8184e-08,  ...,  9.3132e-10,
+          9.0338e-08, -1.8626e-09]], device='cuda:0')
+Epoch 364, bias, value: tensor([-0.0389, -0.0337,  0.0106,  0.0260, -0.0177,  0.0084, -0.0141,  0.0178,
+         0.0080, -0.0034], device='cuda:0'), grad: tensor([ 7.5437e-08,  1.1874e-07,  8.3447e-07,  1.6904e-07,  1.6065e-07,
+        -7.9628e-08, -3.0920e-07, -6.2864e-08, -1.1474e-06,  2.5099e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 363, time 214.25, cls_loss 0.0006 cls_loss_mapping 0.0010 cls_loss_causal 0.4790 re_mapping 0.0031 re_causal 0.0098 /// teacc 99.12 lr 0.00010000
+Epoch 365, weight, value: tensor([[-0.1334,  0.0573,  0.0816,  ..., -0.0972, -0.1875,  0.0677],
+        [-0.1262, -0.0659, -0.1428,  ...,  0.1990, -0.1211, -0.0997],
+        [-0.0639,  0.0163,  0.2472,  ..., -0.1564, -0.1682, -0.1812],
+        ...,
+        [-0.1818, -0.0763,  0.0300,  ..., -0.0652,  0.1337, -0.1043],
+        [-0.1399, -0.1011, -0.0923,  ..., -0.1572, -0.0187, -0.2218],
+        [-0.2094, -0.0800, -0.1631,  ..., -0.2196, -0.0437,  0.1543]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00, -4.4703e-08,  ..., -2.7008e-08,
+          4.1910e-09, -7.5437e-08],
+        [ 1.9092e-08,  0.0000e+00,  2.2724e-07,  ...,  9.3132e-10,
+          1.4575e-07,  1.8626e-09],
+        [ 1.2107e-08,  0.0000e+00,  3.6135e-07,  ...,  4.6566e-10,
+          2.7101e-07,  4.6566e-10],
+        ...,
+        [-3.2131e-08,  0.0000e+00, -1.1120e-06,  ...,  4.6566e-10,
+         -8.1770e-07,  1.3970e-09],
+        [ 5.5879e-09,  0.0000e+00,  1.0012e-07,  ...,  4.6566e-10,
+          8.0559e-08,  1.3970e-09],
+        [ 4.1444e-08,  0.0000e+00,  9.8720e-08,  ...,  1.9092e-08,
+          4.7032e-08,  5.1223e-08]], device='cuda:0')
+Epoch 365, bias, value: tensor([-0.0388, -0.0322,  0.0106,  0.0262, -0.0187,  0.0084, -0.0141,  0.0178,
+         0.0080, -0.0035], device='cuda:0'), grad: tensor([-2.3749e-07,  6.0536e-07,  1.5069e-06,  2.5425e-06,  5.2620e-07,
+         5.1223e-08,  9.5461e-08, -2.6412e-06, -2.9244e-06,  4.6659e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 364, time 214.17, cls_loss 0.0007 cls_loss_mapping 0.0014 cls_loss_causal 0.4667 re_mapping 0.0032 re_causal 0.0094 /// teacc 99.09 lr 0.00010000
+Epoch 366, weight, value: tensor([[-0.1340,  0.0573,  0.0832,  ..., -0.0970, -0.1876,  0.0697],
+        [-0.1262, -0.0659, -0.1433,  ...,  0.2009, -0.1211, -0.1003],
+        [-0.0644,  0.0163,  0.2471,  ..., -0.1569, -0.1683, -0.1823],
+        ...,
+        [-0.1821, -0.0763,  0.0301,  ..., -0.0673,  0.1337, -0.1047],
+        [-0.1414, -0.1011, -0.0923,  ..., -0.1579, -0.0187, -0.2221],
+        [-0.2095, -0.0800, -0.1647,  ..., -0.2213, -0.0437,  0.1527]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00, -9.3132e-10,  ...,  1.9092e-08,
+          2.3283e-09,  0.0000e+00],
+        [ 3.7253e-09,  0.0000e+00,  6.9849e-09,  ...,  5.5879e-09,
+          6.5193e-09,  1.3970e-09],
+        [ 4.6566e-10,  0.0000e+00,  1.3504e-08,  ...,  4.6566e-09,
+          1.2107e-08,  4.6566e-10],
+        ...,
+        [ 1.3970e-09,  0.0000e+00, -4.2841e-08,  ...,  9.3132e-10,
+         -4.0047e-08,  1.6764e-08],
+        [ 4.6566e-10,  0.0000e+00,  3.7253e-09,  ...,  1.5832e-08,
+          2.7940e-09,  3.2596e-09],
+        [ 8.2422e-08,  0.0000e+00,  1.3504e-08,  ...,  4.6566e-10,
+          1.4435e-08, -4.0513e-08]], device='cuda:0')
+Epoch 366, bias, value: tensor([-0.0378, -0.0315,  0.0105,  0.0261, -0.0188,  0.0083, -0.0140,  0.0177,
+         0.0080, -0.0039], device='cuda:0'), grad: tensor([ 1.0151e-07,  5.4482e-08,  5.7276e-08, -1.4901e-08, -8.3819e-08,
+         4.5169e-08, -2.6077e-07, -2.5611e-08,  9.5461e-08,  4.3772e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 365, time 214.31, cls_loss 0.0006 cls_loss_mapping 0.0011 cls_loss_causal 0.4943 re_mapping 0.0032 re_causal 0.0097 /// teacc 99.09 lr 0.00010000
+Epoch 367, weight, value: tensor([[-0.1363,  0.0573,  0.0838,  ..., -0.0971, -0.1877,  0.0703],
+        [-0.1262, -0.0659, -0.1436,  ...,  0.2010, -0.1213, -0.1003],
+        [-0.0646,  0.0163,  0.2472,  ..., -0.1573, -0.1683, -0.1826],
+        ...,
+        [-0.1825, -0.0763,  0.0301,  ..., -0.0674,  0.1337, -0.1048],
+        [-0.1426, -0.1011, -0.0923,  ..., -0.1582, -0.0187, -0.2223],
+        [-0.2095, -0.0800, -0.1655,  ..., -0.2215, -0.0438,  0.1523]],
+       device='cuda:0'), grad: tensor([[ 6.8545e-07,  0.0000e+00,  2.0023e-08,  ...,  7.5847e-06,
+          3.4925e-09,  2.1816e-07],
+        [ 1.6531e-08,  0.0000e+00,  2.2585e-08,  ...,  4.5635e-08,
+          5.5879e-09,  1.9558e-08],
+        [-1.3970e-08, -0.0000e+00, -1.5134e-08,  ...,  3.0966e-08,
+          5.5879e-09,  1.7462e-08],
+        ...,
+        [ 2.3283e-10,  0.0000e+00,  3.4552e-07,  ...,  3.7253e-09,
+          6.0489e-07,  1.8161e-08],
+        [ 8.3819e-09,  0.0000e+00,  2.8638e-08,  ...,  2.0606e-07,
+          3.9581e-09,  5.4715e-08],
+        [ 5.5879e-09,  0.0000e+00, -4.7497e-08,  ...,  8.0094e-08,
+          3.0268e-09, -4.7148e-07]], device='cuda:0')
+Epoch 367, bias, value: tensor([-0.0376, -0.0316,  0.0104,  0.0261, -0.0189,  0.0083, -0.0138,  0.0177,
+         0.0080, -0.0040], device='cuda:0'), grad: tensor([ 3.0965e-05,  2.9919e-07,  1.6019e-07, -4.6790e-06,  1.6475e-06,
+         8.0373e-07, -3.3855e-05,  4.4182e-06,  1.0375e-06, -7.9768e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 366, time 214.69, cls_loss 0.0005 cls_loss_mapping 0.0010 cls_loss_causal 0.4550 re_mapping 0.0031 re_causal 0.0101 /// teacc 99.12 lr 0.00010000
+Epoch 368, weight, value: tensor([[-0.1385,  0.0573,  0.0841,  ..., -0.0973, -0.1878,  0.0706],
+        [-0.1263, -0.0659, -0.1437,  ...,  0.2010, -0.1214, -0.1007],
+        [-0.0651,  0.0163,  0.2471,  ..., -0.1575, -0.1685, -0.1830],
+        ...,
+        [-0.1829, -0.0763,  0.0301,  ..., -0.0675,  0.1337, -0.1049],
+        [-0.1406, -0.1011, -0.0923,  ..., -0.1582, -0.0187, -0.2222],
+        [-0.2096, -0.0800, -0.1657,  ..., -0.2216, -0.0439,  0.1523]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -5.3551e-09,  ...,  0.0000e+00,
+          0.0000e+00, -3.9581e-09],
+        [ 2.3283e-10,  0.0000e+00,  9.5461e-09,  ...,  2.3283e-10,
+          9.3132e-09,  2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.4214e-08,  ...,  2.3283e-10,
+          2.3982e-08,  2.3283e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -4.2841e-08,  ...,  2.3283e-09,
+         -4.1910e-08,  1.1642e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.2596e-09,  ...,  6.9849e-10,
+          2.3283e-09,  6.9849e-10],
+        [ 2.3283e-09,  0.0000e+00,  6.5193e-09,  ...,  0.0000e+00,
+          5.1223e-09, -2.7940e-09]], device='cuda:0')
+Epoch 368, bias, value: tensor([-0.0376, -0.0317,  0.0104,  0.0257, -0.0188,  0.0083, -0.0167,  0.0177,
+         0.0095, -0.0041], device='cuda:0'), grad: tensor([-1.7462e-08,  2.3516e-08,  4.7497e-08,  9.3132e-09,  4.6566e-10,
+         3.7253e-09,  2.3283e-09, -7.9861e-08,  1.0012e-08,  1.2806e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 367, time 214.34, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4664 re_mapping 0.0031 re_causal 0.0102 /// teacc 99.13 lr 0.00010000
+Epoch 369, weight, value: tensor([[-0.1401,  0.0573,  0.0843,  ..., -0.0973, -0.1879,  0.0707],
+        [-0.1265, -0.0659, -0.1442,  ...,  0.2011, -0.1217, -0.1009],
+        [-0.0672,  0.0163,  0.2471,  ..., -0.1583, -0.1685, -0.1834],
+        ...,
+        [-0.1833, -0.0763,  0.0302,  ..., -0.0677,  0.1337, -0.1051],
+        [-0.1386, -0.1011, -0.0923,  ..., -0.1571, -0.0187, -0.2220],
+        [-0.2097, -0.0800, -0.1664,  ..., -0.2220, -0.0443,  0.1522]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  3.2596e-09,  ..., -1.1176e-08,
+          1.8626e-09, -1.7229e-08],
+        [ 9.3132e-10,  0.0000e+00,  1.7183e-07,  ...,  7.3109e-08,
+          2.3190e-07,  3.7253e-09],
+        [ 9.3132e-10,  0.0000e+00,  1.0850e-07,  ...,  0.0000e+00,
+          8.7544e-08,  0.0000e+00],
+        ...,
+        [-1.1642e-08,  0.0000e+00, -4.6100e-07,  ..., -6.5658e-08,
+         -5.5321e-07,  3.7253e-09],
+        [ 9.3132e-10,  0.0000e+00,  1.7695e-08,  ..., -1.1642e-08,
+          2.1886e-08,  1.3970e-09],
+        [ 7.4506e-09,  0.0000e+00,  7.8697e-08,  ...,  7.4506e-09,
+          8.2888e-08, -8.8476e-09]], device='cuda:0')
+Epoch 369, bias, value: tensor([-0.0376, -0.0319,  0.0102,  0.0260, -0.0188,  0.0082, -0.0167,  0.0178,
+         0.0096, -0.0043], device='cuda:0'), grad: tensor([-4.4238e-08,  6.6962e-07,  2.2212e-07,  2.6124e-07,  6.0536e-08,
+         2.7474e-08,  3.3528e-08, -1.4035e-06, -4.6566e-08,  2.1700e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 368, time 214.44, cls_loss 0.0025 cls_loss_mapping 0.0035 cls_loss_causal 0.4780 re_mapping 0.0029 re_causal 0.0095 /// teacc 99.14 lr 0.00010000
+Epoch 370, weight, value: tensor([[-0.1417,  0.0573,  0.0848,  ..., -0.0973, -0.1881,  0.0715],
+        [-0.1264, -0.0659, -0.1460,  ...,  0.2034, -0.1200, -0.1011],
+        [-0.0698,  0.0163,  0.2469,  ..., -0.1608, -0.1687, -0.1839],
+        ...,
+        [-0.1872, -0.0763,  0.0307,  ..., -0.0698,  0.1316, -0.1053],
+        [-0.1392, -0.1011, -0.0923,  ..., -0.1580, -0.0187, -0.2223],
+        [-0.2098, -0.0800, -0.1671,  ..., -0.2226, -0.0452,  0.1520]],
+       device='cuda:0'), grad: tensor([[ 3.2596e-09,  0.0000e+00, -1.3970e-09,  ...,  2.1886e-08,
+          2.7940e-09,  2.3283e-09],
+        [ 4.0513e-08,  0.0000e+00,  1.1176e-08,  ...,  2.3283e-09,
+          2.6543e-08,  1.3970e-09],
+        [ 1.0245e-08,  0.0000e+00,  3.2596e-09,  ...,  9.7789e-09,
+          6.9849e-09,  9.3132e-10],
+        ...,
+        [ 1.0245e-08,  0.0000e+00, -4.0047e-08,  ...,  4.6566e-10,
+         -9.5926e-08,  1.0710e-08],
+        [ 1.5832e-08,  0.0000e+00,  1.3970e-09,  ...,  1.6764e-08,
+          4.6566e-09,  2.3283e-09],
+        [ 1.8673e-07,  0.0000e+00,  2.0023e-08,  ...,  4.6566e-10,
+         -4.0978e-08, -1.9139e-07]], device='cuda:0')
+Epoch 370, bias, value: tensor([-0.0373, -0.0299,  0.0098,  0.0263, -0.0189,  0.0081, -0.0167,  0.0158,
+         0.0095, -0.0047], device='cuda:0'), grad: tensor([ 9.3132e-08,  1.6484e-07,  7.6368e-08,  1.0617e-07,  2.4680e-08,
+        -6.6590e-08, -1.4435e-07, -1.6857e-07,  9.6392e-08, -1.6950e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 369, time 214.44, cls_loss 0.0010 cls_loss_mapping 0.0025 cls_loss_causal 0.4802 re_mapping 0.0031 re_causal 0.0098 /// teacc 99.03 lr 0.00010000
+Epoch 371, weight, value: tensor([[-0.1421,  0.0573,  0.0849,  ..., -0.0973, -0.1885,  0.0716],
+        [-0.1265, -0.0659, -0.1480,  ...,  0.2018, -0.1199, -0.1013],
+        [-0.0734,  0.0164,  0.2466,  ..., -0.1645, -0.1691, -0.1842],
+        ...,
+        [-0.1885, -0.0765,  0.0316,  ..., -0.0683,  0.1317, -0.1056],
+        [-0.1408, -0.1011, -0.0923,  ..., -0.1594, -0.0187, -0.2235],
+        [-0.2099, -0.0800, -0.1673,  ..., -0.2233, -0.0455,  0.1527]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00, -3.0268e-08,  ...,  4.1910e-09,
+          0.0000e+00, -2.8405e-08],
+        [ 2.7940e-09,  0.0000e+00,  4.6566e-10,  ..., -7.7300e-08,
+          0.0000e+00,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00, -1.6764e-08,  ...,  3.3062e-08,
+          0.0000e+00,  4.6566e-09],
+        ...,
+        [ 1.8626e-09,  0.0000e+00,  1.8626e-09,  ...,  3.2131e-08,
+          4.6566e-10,  5.5879e-09],
+        [ 4.6566e-10,  0.0000e+00,  1.4435e-08,  ...,  3.7253e-09,
+         -9.3132e-10,  5.1223e-09],
+        [ 1.1642e-08,  0.0000e+00,  1.5367e-08,  ...,  1.8626e-09,
+          0.0000e+00, -1.1642e-08]], device='cuda:0')
+Epoch 371, bias, value: tensor([-0.0373, -0.0301,  0.0088,  0.0286, -0.0192,  0.0058, -0.0167,  0.0160,
+         0.0095, -0.0047], device='cuda:0'), grad: tensor([-5.3085e-08, -1.5041e-07,  3.3062e-08,  2.6077e-08,  1.9558e-08,
+         6.9849e-09,  1.1642e-08,  9.9186e-08,  3.7719e-08, -2.0023e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 370, time 214.12, cls_loss 0.0005 cls_loss_mapping 0.0011 cls_loss_causal 0.4395 re_mapping 0.0032 re_causal 0.0100 /// teacc 99.15 lr 0.00010000
+Epoch 372, weight, value: tensor([[-0.1425,  0.0573,  0.0850,  ..., -0.0974, -0.1887,  0.0716],
+        [-0.1267, -0.0659, -0.1480,  ...,  0.2018, -0.1200, -0.1013],
+        [-0.0735,  0.0164,  0.2462,  ..., -0.1648, -0.1697, -0.1845],
+        ...,
+        [-0.1890, -0.0765,  0.0318,  ..., -0.0683,  0.1317, -0.1057],
+        [-0.1410, -0.1012, -0.0923,  ..., -0.1609, -0.0187, -0.2236],
+        [-0.2100, -0.0801, -0.1675,  ..., -0.2237, -0.0457,  0.1529]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  0.0000e+00, -1.1176e-08,  ...,  1.8626e-09,
+          0.0000e+00, -1.3970e-09],
+        [ 1.5367e-08,  0.0000e+00,  3.2596e-09,  ..., -7.9162e-09,
+          1.8626e-09,  1.0245e-08],
+        [ 3.2596e-09,  0.0000e+00, -3.7253e-09,  ...,  2.7940e-09,
+          4.6566e-10,  9.3132e-10],
+        ...,
+        [ 7.9162e-09,  0.0000e+00, -3.7253e-09,  ...,  5.1223e-09,
+         -5.1223e-09,  2.3283e-08],
+        [ 9.7789e-09,  0.0000e+00,  3.2596e-09,  ...,  1.2573e-08,
+         -1.3039e-08,  7.9162e-09],
+        [ 3.5204e-07,  0.0000e+00,  4.8429e-08,  ...,  0.0000e+00,
+          1.1176e-08, -2.3609e-07]], device='cuda:0')
+Epoch 372, bias, value: tensor([-0.0374, -0.0301,  0.0083,  0.0286, -0.0191,  0.0058, -0.0167,  0.0160,
+         0.0095, -0.0048], device='cuda:0'), grad: tensor([ 2.3283e-08,  9.1270e-08,  4.5355e-07,  2.0443e-07, -2.5844e-07,
+         1.1176e-07,  2.3609e-07,  1.8254e-07, -1.0766e-06,  4.0978e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 371, time 214.55, cls_loss 0.0005 cls_loss_mapping 0.0009 cls_loss_causal 0.4662 re_mapping 0.0031 re_causal 0.0099 /// teacc 99.08 lr 0.00010000
+Epoch 373, weight, value: tensor([[-0.1427,  0.0573,  0.0850,  ..., -0.0975, -0.1888,  0.0716],
+        [-0.1268, -0.0660, -0.1481,  ...,  0.2018, -0.1200, -0.1024],
+        [-0.0736,  0.0165,  0.2464,  ..., -0.1649, -0.1697, -0.1876],
+        ...,
+        [-0.1899, -0.0765,  0.0317,  ..., -0.0683,  0.1317, -0.1061],
+        [-0.1417, -0.1012, -0.0924,  ..., -0.1616, -0.0187, -0.2240],
+        [-0.2101, -0.0801, -0.1677,  ..., -0.2233, -0.0459,  0.1534]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          9.3132e-10,  9.3132e-10],
+        [ 3.7253e-09,  0.0000e+00,  5.5879e-09,  ..., -9.3132e-10,
+          7.4506e-09,  9.3132e-10],
+        [ 2.7940e-09,  0.0000e+00, -4.6566e-09,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00, -7.4506e-09,  ...,  0.0000e+00,
+         -1.1176e-08,  1.8626e-09],
+        [ 2.7940e-09,  0.0000e+00,  2.7940e-09,  ...,  4.6566e-09,
+          4.6566e-09,  2.7940e-09],
+        [-4.1164e-07,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          2.7940e-09, -3.8184e-07]], device='cuda:0')
+Epoch 373, bias, value: tensor([-0.0375, -0.0301,  0.0084,  0.0285, -0.0191,  0.0057, -0.0167,  0.0160,
+         0.0095, -0.0045], device='cuda:0'), grad: tensor([ 1.9558e-08,  2.4214e-08,  0.0000e+00,  1.1083e-07,  1.4054e-06,
+        -1.0990e-07, -1.3039e-08, -1.3039e-08,  9.3132e-10, -1.4286e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 372----------------------------------------------------
+epoch 372, time 231.60, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4416 re_mapping 0.0031 re_causal 0.0097 /// teacc 99.26 lr 0.00010000
+Epoch 374, weight, value: tensor([[-0.1441,  0.0564,  0.0853,  ..., -0.0976, -0.1888,  0.0717],
+        [-0.1269, -0.0660, -0.1481,  ...,  0.2019, -0.1200, -0.1025],
+        [-0.0737,  0.0165,  0.2464,  ..., -0.1668, -0.1697, -0.1881],
+        ...,
+        [-0.1909, -0.0766,  0.0317,  ..., -0.0683,  0.1317, -0.1062],
+        [-0.1411, -0.1012, -0.0924,  ..., -0.1618, -0.0187, -0.2240],
+        [-0.2103, -0.0801, -0.1680,  ..., -0.2233, -0.0460,  0.1534]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.7940e-09,  ...,  9.3132e-10,
+          0.0000e+00, -2.7940e-09],
+        [-1.8626e-09,  1.8626e-09,  9.3132e-09,  ..., -2.6077e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-09, -9.3132e-10, -2.2352e-08,  ...,  1.3970e-08,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  0.0000e+00,  6.5193e-09,  ...,  1.2107e-08,
+          0.0000e+00,  9.3132e-10],
+        [ 1.8626e-09,  0.0000e+00,  6.5193e-09,  ...,  1.0245e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 1.1176e-08,  0.0000e+00,  1.8626e-09,  ...,  3.7253e-09,
+          9.3132e-10, -4.6566e-09]], device='cuda:0')
+Epoch 374, bias, value: tensor([-0.0376, -0.0301,  0.0083,  0.0286, -0.0190,  0.0057, -0.0167,  0.0160,
+         0.0095, -0.0047], device='cuda:0'), grad: tensor([-3.7253e-09, -5.6811e-08,  2.7940e-09,  2.6077e-08,  1.5553e-07,
+         4.6566e-09, -1.8720e-07,  5.4017e-08,  3.9116e-08, -1.1176e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 373, time 214.32, cls_loss 0.0005 cls_loss_mapping 0.0016 cls_loss_causal 0.4753 re_mapping 0.0032 re_causal 0.0101 /// teacc 99.17 lr 0.00010000
+Epoch 375, weight, value: tensor([[-0.1434,  0.0564,  0.0858,  ..., -0.0975, -0.1884,  0.0721],
+        [-0.1269, -0.0660, -0.1481,  ...,  0.2019, -0.1200, -0.1026],
+        [-0.0742,  0.0166,  0.2465,  ..., -0.1668, -0.1698, -0.1883],
+        ...,
+        [-0.1914, -0.0766,  0.0318,  ..., -0.0683,  0.1318, -0.1066],
+        [-0.1412, -0.1012, -0.0924,  ..., -0.1621, -0.0187, -0.2244],
+        [-0.2106, -0.0801, -0.1685,  ..., -0.2235, -0.0463,  0.1536]],
+       device='cuda:0'), grad: tensor([[ 3.5390e-08,  0.0000e+00, -1.8626e-09,  ...,  3.2596e-08,
+          9.3132e-10, -2.7940e-09],
+        [ 7.3574e-08,  0.0000e+00,  1.3039e-08,  ..., -9.3132e-10,
+          7.4506e-09,  0.0000e+00],
+        [ 2.7940e-09,  0.0000e+00, -4.1910e-08,  ...,  1.8626e-09,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 6.5193e-09,  0.0000e+00, -6.5193e-09,  ...,  4.6566e-09,
+         -1.4901e-08,  1.8626e-09],
+        [ 2.4214e-08,  0.0000e+00,  1.5832e-08,  ...,  2.0489e-08,
+          1.8626e-09,  9.3132e-10],
+        [ 6.6124e-08,  0.0000e+00,  7.4506e-09,  ...,  2.7940e-09,
+          4.6566e-09, -9.3132e-10]], device='cuda:0')
+Epoch 375, bias, value: tensor([-0.0373, -0.0301,  0.0083,  0.0286, -0.0190,  0.0058, -0.0167,  0.0160,
+         0.0095, -0.0048], device='cuda:0'), grad: tensor([ 1.3225e-07,  1.2200e-07, -1.0617e-07,  3.4459e-08,  7.8231e-08,
+         8.6613e-08, -5.9139e-07,  1.8626e-09,  1.4435e-07,  9.4064e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 374, time 214.18, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.4706 re_mapping 0.0032 re_causal 0.0101 /// teacc 99.15 lr 0.00010000
+Epoch 376, weight, value: tensor([[-0.1438,  0.0561,  0.0862,  ..., -0.0978, -0.1890,  0.0723],
+        [-0.1270, -0.0660, -0.1482,  ...,  0.2019, -0.1200, -0.1027],
+        [-0.0748,  0.0166,  0.2464,  ..., -0.1679, -0.1701, -0.1905],
+        ...,
+        [-0.1923, -0.0766,  0.0318,  ..., -0.0683,  0.1318, -0.1068],
+        [-0.1417, -0.1013, -0.0924,  ..., -0.1646, -0.0187, -0.2249],
+        [-0.2107, -0.0801, -0.1688,  ..., -0.2237, -0.0464,  0.1537]],
+       device='cuda:0'), grad: tensor([[-1.8626e-09,  0.0000e+00, -0.0000e+00,  ..., -3.7253e-09,
+          0.0000e+00, -2.7940e-09],
+        [ 1.8626e-09,  0.0000e+00,  1.4901e-08,  ..., -5.8673e-08,
+          9.3132e-10,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00, -1.5367e-07,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  1.0617e-07,  ...,  5.4948e-08,
+          0.0000e+00,  3.7253e-09],
+        [ 9.3132e-10,  0.0000e+00,  2.4214e-08,  ...,  2.7940e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00, -9.3132e-10]], device='cuda:0')
+Epoch 376, bias, value: tensor([-0.0374, -0.0301,  0.0080,  0.0286, -0.0190,  0.0058, -0.0165,  0.0160,
+         0.0094, -0.0048], device='cuda:0'), grad: tensor([-1.3970e-08, -1.8068e-07, -1.9744e-07, -9.2201e-08,  3.7253e-09,
+         4.0047e-08,  0.0000e+00,  3.8184e-07,  4.6566e-08,  2.5146e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 375, time 214.35, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4398 re_mapping 0.0032 re_causal 0.0099 /// teacc 99.22 lr 0.00010000
+Epoch 377, weight, value: tensor([[-0.1440,  0.0561,  0.0864,  ..., -0.0978, -0.1891,  0.0725],
+        [-0.1271, -0.0661, -0.1483,  ...,  0.2019, -0.1200, -0.1030],
+        [-0.0747,  0.0167,  0.2466,  ..., -0.1682, -0.1701, -0.1905],
+        ...,
+        [-0.1949, -0.0767,  0.0319,  ..., -0.0683,  0.1318, -0.1070],
+        [-0.1424, -0.1013, -0.0925,  ..., -0.1650, -0.0187, -0.2251],
+        [-0.2111, -0.0801, -0.1693,  ..., -0.2238, -0.0467,  0.1538]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  0.0000e+00, -1.3970e-07,  ...,  1.8626e-09,
+          3.7253e-09, -2.3097e-07],
+        [ 4.1910e-08,  0.0000e+00,  1.9651e-07,  ...,  7.6368e-08,
+          4.3027e-07,  2.4308e-07],
+        [ 1.8626e-09,  0.0000e+00, -1.9092e-07,  ...,  9.3132e-10,
+          3.7439e-07,  2.7940e-09],
+        ...,
+        [ 3.7253e-09,  0.0000e+00, -6.9290e-07,  ...,  3.7253e-09,
+         -2.0824e-06,  5.5879e-09],
+        [ 8.3819e-09,  0.0000e+00,  2.1420e-08,  ...,  3.7253e-09,
+          5.0291e-08,  2.7940e-09],
+        [ 1.1455e-07,  0.0000e+00,  1.8440e-07,  ...,  7.4506e-09,
+          4.4703e-08,  2.3283e-07]], device='cuda:0')
+Epoch 377, bias, value: tensor([-0.0373, -0.0301,  0.0081,  0.0286, -0.0188,  0.0058, -0.0165,  0.0160,
+         0.0094, -0.0050], device='cuda:0'), grad: tensor([-3.7998e-07,  5.6401e-06,  5.9139e-07, -7.3388e-06, -1.2387e-07,
+         6.1132e-06,  1.3039e-08, -5.9195e-06,  2.2445e-07,  1.1474e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 376, time 214.41, cls_loss 0.0007 cls_loss_mapping 0.0013 cls_loss_causal 0.4417 re_mapping 0.0032 re_causal 0.0095 /// teacc 99.07 lr 0.00010000
+Epoch 378, weight, value: tensor([[-0.1449,  0.0560,  0.0864,  ..., -0.0978, -0.1894,  0.0727],
+        [-0.1276, -0.0661, -0.1486,  ...,  0.2019, -0.1201, -0.1053],
+        [-0.0752,  0.0170,  0.2470,  ..., -0.1684, -0.1701, -0.1907],
+        ...,
+        [-0.1988, -0.0769,  0.0319,  ..., -0.0683,  0.1318, -0.1076],
+        [-0.1435, -0.1014, -0.0925,  ..., -0.1653, -0.0187, -0.2225],
+        [-0.2115, -0.0801, -0.1698,  ..., -0.2241, -0.0475,  0.1558]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.9558e-08,  ...,  1.8626e-09,
+          1.0245e-08, -4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.2666e-07,  ..., -2.3283e-08,
+          7.2643e-08, -0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  5.1130e-07,  ...,  2.7940e-09,
+          2.0117e-07,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -9.5554e-07,  ...,  1.5832e-08,
+         -4.1164e-07,  5.5879e-09],
+        [-9.3132e-10,  0.0000e+00,  1.0245e-08,  ...,  1.8626e-09,
+          8.3819e-09,  9.3132e-10],
+        [ 5.5879e-09,  0.0000e+00,  5.7742e-08,  ...,  9.3132e-10,
+          3.0734e-08,  6.5193e-09]], device='cuda:0')
+Epoch 378, bias, value: tensor([-0.0373, -0.0301,  0.0086,  0.0285, -0.0195,  0.0051, -0.0165,  0.0160,
+         0.0096, -0.0040], device='cuda:0'), grad: tensor([ 6.4261e-08,  3.2503e-07,  1.3467e-06,  4.4797e-07,  2.9802e-08,
+         1.6391e-07, -9.9652e-08, -2.4401e-06, -3.3528e-08,  2.0582e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 377, time 214.09, cls_loss 0.0006 cls_loss_mapping 0.0018 cls_loss_causal 0.4560 re_mapping 0.0033 re_causal 0.0101 /// teacc 99.17 lr 0.00010000
+Epoch 379, weight, value: tensor([[-0.1473,  0.0560,  0.0860,  ..., -0.0986, -0.1897,  0.0726],
+        [-0.1278, -0.0660, -0.1487,  ...,  0.2019, -0.1201, -0.1062],
+        [-0.0751,  0.0169,  0.2470,  ..., -0.1687, -0.1703, -0.1911],
+        ...,
+        [-0.1999, -0.0772,  0.0318,  ..., -0.0683,  0.1316, -0.1079],
+        [-0.1436, -0.1014, -0.0925,  ..., -0.1656, -0.0187, -0.2230],
+        [-0.2128, -0.0801, -0.1704,  ..., -0.2269, -0.0480,  0.1558]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  0.0000e+00,  1.0245e-08,  ...,  1.3970e-08,
+          0.0000e+00, -2.7940e-09],
+        [ 2.7940e-09,  0.0000e+00,  2.9802e-08,  ..., -7.4506e-09,
+          1.3039e-08,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00, -1.9837e-07,  ...,  4.6566e-09,
+          1.4901e-08,  0.0000e+00],
+        ...,
+        [ 3.7253e-09,  0.0000e+00,  2.8051e-06,  ...,  1.8626e-09,
+          2.2184e-06,  9.3132e-10],
+        [-9.3132e-10,  0.0000e+00,  1.0245e-07,  ...,  9.3132e-10,
+          7.4506e-09,  0.0000e+00],
+        [ 3.3528e-08,  0.0000e+00,  1.6764e-08,  ...,  0.0000e+00,
+          8.3819e-09,  2.7940e-09]], device='cuda:0')
+Epoch 379, bias, value: tensor([-0.0379, -0.0302,  0.0084,  0.0307, -0.0188,  0.0053, -0.0163,  0.0159,
+         0.0096, -0.0050], device='cuda:0'), grad: tensor([ 1.4529e-07,  1.7136e-07, -1.6009e-06, -1.1563e-05,  1.6019e-07,
+         4.1910e-08,  1.0431e-07,  1.1638e-05,  7.5717e-07,  1.2852e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 378, time 214.31, cls_loss 0.0006 cls_loss_mapping 0.0011 cls_loss_causal 0.4545 re_mapping 0.0031 re_causal 0.0095 /// teacc 99.18 lr 0.00010000
+Epoch 380, weight, value: tensor([[-0.1472,  0.0560,  0.0864,  ..., -0.0987, -0.1900,  0.0729],
+        [-0.1279, -0.0659, -0.1487,  ...,  0.2019, -0.1201, -0.1066],
+        [-0.0752,  0.0169,  0.2470,  ..., -0.1693, -0.1705, -0.1920],
+        ...,
+        [-0.2003, -0.0774,  0.0318,  ..., -0.0683,  0.1316, -0.1085],
+        [-0.1427, -0.1015, -0.0925,  ..., -0.1655, -0.0187, -0.2222],
+        [-0.2127, -0.0801, -0.1708,  ..., -0.2272, -0.0484,  0.1574]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00, -5.8673e-08,  ...,  4.8429e-08,
+          9.3132e-10, -1.5832e-08],
+        [ 9.3132e-10,  0.0000e+00,  6.5193e-09,  ..., -1.5832e-08,
+          5.5879e-09,  4.6566e-09],
+        [ 9.3132e-10,  0.0000e+00,  8.3819e-09,  ...,  4.6566e-09,
+          9.3132e-10,  5.5879e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.7008e-08,  ...,  1.7695e-08,
+         -1.0245e-08,  3.1665e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  1.9558e-08,
+          3.7253e-09,  7.4506e-09],
+        [ 6.5193e-09,  0.0000e+00,  1.1176e-08,  ...,  3.7253e-09,
+          4.6566e-09, -5.2154e-08]], device='cuda:0')
+Epoch 380, bias, value: tensor([-0.0377, -0.0302,  0.0082,  0.0306, -0.0193,  0.0053, -0.0163,  0.0159,
+         0.0096, -0.0046], device='cuda:0'), grad: tensor([ 8.9407e-08,  6.5193e-09,  6.8918e-08,  1.1269e-07,  3.2596e-08,
+         2.6077e-08, -2.6729e-07,  1.6764e-07, -1.0431e-07, -1.0990e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 379, time 214.48, cls_loss 0.0005 cls_loss_mapping 0.0016 cls_loss_causal 0.4538 re_mapping 0.0032 re_causal 0.0099 /// teacc 99.18 lr 0.00010000
+Epoch 381, weight, value: tensor([[-0.1474,  0.0560,  0.0881,  ..., -0.0987, -0.1881,  0.0743],
+        [-0.1279, -0.0659, -0.1487,  ...,  0.2019, -0.1201, -0.1067],
+        [-0.0753,  0.0170,  0.2470,  ..., -0.1694, -0.1705, -0.1926],
+        ...,
+        [-0.2011, -0.0774,  0.0319,  ..., -0.0683,  0.1316, -0.1086],
+        [-0.1420, -0.1015, -0.0925,  ..., -0.1657, -0.0187, -0.2219],
+        [-0.2128, -0.0802, -0.1722,  ..., -0.2274, -0.0492,  0.1568]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00, -6.0350e-07,  ...,  5.5879e-09,
+          1.3039e-08, -6.1002e-07],
+        [ 5.4017e-08,  0.0000e+00,  7.9162e-08,  ...,  8.0094e-08,
+          1.1921e-07,  1.6578e-07],
+        [ 9.3132e-10,  0.0000e+00,  1.4622e-07,  ...,  6.5193e-09,
+          1.7695e-08,  1.3784e-07],
+        ...,
+        [ 9.3132e-10,  0.0000e+00, -2.3749e-07,  ...,  4.6566e-09,
+         -6.4354e-07,  4.6566e-08],
+        [-7.8231e-08,  0.0000e+00,  4.3772e-08,  ..., -9.4064e-08,
+          6.8918e-08, -1.5087e-07],
+        [ 9.3132e-09,  0.0000e+00,  1.8347e-07,  ...,  1.5832e-08,
+          2.8778e-07,  1.1455e-07]], device='cuda:0')
+Epoch 381, bias, value: tensor([-0.0370, -0.0302,  0.0082,  0.0324, -0.0193,  0.0031, -0.0163,  0.0159,
+         0.0096, -0.0049], device='cuda:0'), grad: tensor([-2.3656e-06,  1.2964e-06,  6.3702e-07,  7.4226e-07,  3.4552e-07,
+        -7.2643e-08,  7.7952e-07, -1.7500e-06, -8.4098e-07,  1.2312e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 380, time 214.25, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4529 re_mapping 0.0031 re_causal 0.0097 /// teacc 99.11 lr 0.00010000
+Epoch 382, weight, value: tensor([[-0.1451,  0.0560,  0.0882,  ..., -0.0986, -0.1876,  0.0736],
+        [-0.1279, -0.0659, -0.1488,  ...,  0.2019, -0.1201, -0.1068],
+        [-0.0764,  0.0170,  0.2471,  ..., -0.1702, -0.1705, -0.1932],
+        ...,
+        [-0.2020, -0.0775,  0.0319,  ..., -0.0683,  0.1317, -0.1088],
+        [-0.1408, -0.1015, -0.0926,  ..., -0.1651, -0.0187, -0.2220],
+        [-0.2129, -0.0802, -0.1712,  ..., -0.2275, -0.0494,  0.1584]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -1.5926e-07,  ...,  9.3132e-09,
+          0.0000e+00, -2.1793e-07],
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-09,  ..., -1.2573e-07,
+          2.7940e-09,  9.3132e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-08,  ...,  1.0245e-08,
+          1.8626e-09,  1.3039e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -4.6566e-09,  ...,  9.6858e-08,
+         -1.0245e-08,  9.3132e-09],
+        [-0.0000e+00,  0.0000e+00,  6.5193e-09,  ...,  1.9558e-08,
+          9.3132e-10,  9.3132e-09],
+        [ 0.0000e+00,  0.0000e+00,  7.5437e-08,  ...,  4.6566e-09,
+          5.5879e-09,  8.9407e-08]], device='cuda:0')
+Epoch 382, bias, value: tensor([-0.0378, -0.0302,  0.0082,  0.0325, -0.0193,  0.0030, -0.0164,  0.0159,
+         0.0096, -0.0036], device='cuda:0'), grad: tensor([-4.5262e-07, -1.4342e-07,  2.1700e-06,  2.6543e-07,  6.1467e-08,
+         2.1607e-07,  4.5635e-08,  5.0943e-07, -3.1739e-06,  5.1130e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 381, time 214.53, cls_loss 0.0006 cls_loss_mapping 0.0015 cls_loss_causal 0.4569 re_mapping 0.0029 re_causal 0.0093 /// teacc 99.16 lr 0.00010000
+Epoch 383, weight, value: tensor([[-0.1454,  0.0560,  0.0872,  ..., -0.0987, -0.1878,  0.0724],
+        [-0.1280, -0.0659, -0.1488,  ...,  0.2019, -0.1201, -0.1069],
+        [-0.0765,  0.0170,  0.2471,  ..., -0.1703, -0.1706, -0.1951],
+        ...,
+        [-0.2031, -0.0775,  0.0319,  ..., -0.0683,  0.1317, -0.1093],
+        [-0.1409, -0.1015, -0.0926,  ..., -0.1655, -0.0187, -0.2221],
+        [-0.2129, -0.0802, -0.1706,  ..., -0.2276, -0.0497,  0.1596]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -8.3819e-09,  ...,  1.8626e-09,
+          9.3132e-10, -1.5832e-08],
+        [-0.0000e+00,  0.0000e+00,  1.7416e-07,  ..., -1.0245e-08,
+          1.2480e-07,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.9558e-08,  ...,  0.0000e+00,
+          2.1420e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -2.2445e-07,  ...,  8.3819e-09,
+         -1.6391e-07,  3.7253e-09],
+        [ 9.3132e-10,  0.0000e+00,  1.6764e-08,  ...,  2.7940e-09,
+          7.4506e-09,  1.8626e-09],
+        [-9.3132e-10,  0.0000e+00,  1.7695e-08,  ...,  0.0000e+00,
+          7.4506e-09, -7.4506e-09]], device='cuda:0')
+Epoch 383, bias, value: tensor([-0.0390, -0.0302,  0.0081,  0.0324, -0.0197,  0.0033, -0.0164,  0.0159,
+         0.0097, -0.0026], device='cuda:0'), grad: tensor([-2.9802e-08,  3.7719e-07,  4.1910e-08,  2.1420e-08,  3.5390e-08,
+         4.3772e-08, -4.6566e-08, -4.8522e-07,  5.2154e-08, -9.3132e-10],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 382, time 214.30, cls_loss 0.0005 cls_loss_mapping 0.0007 cls_loss_causal 0.4541 re_mapping 0.0030 re_causal 0.0097 /// teacc 99.15 lr 0.00010000
+Epoch 384, weight, value: tensor([[-0.1455,  0.0560,  0.0874,  ..., -0.0988, -0.1880,  0.0724],
+        [-0.1280, -0.0660, -0.1489,  ...,  0.2019, -0.1201, -0.1071],
+        [-0.0767,  0.0170,  0.2471,  ..., -0.1709, -0.1707, -0.1953],
+        ...,
+        [-0.2033, -0.0772,  0.0320,  ..., -0.0683,  0.1317, -0.1096],
+        [-0.1411, -0.1015, -0.0926,  ..., -0.1661, -0.0187, -0.2222],
+        [-0.2128, -0.0802, -0.1707,  ..., -0.2277, -0.0500,  0.1597]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -4.8429e-08,  ...,  0.0000e+00,
+          1.4901e-08, -1.0710e-07],
+        [ 7.4506e-09,  0.0000e+00,  1.6764e-08,  ...,  0.0000e+00,
+          7.0781e-08,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00, -1.9558e-08,  ...,  0.0000e+00,
+          4.0047e-08,  1.4901e-08],
+        ...,
+        [ 9.3132e-09,  0.0000e+00, -1.3970e-08,  ...,  9.3132e-10,
+         -1.0720e-06,  1.8626e-09],
+        [ 1.8626e-09,  0.0000e+00,  1.3039e-08,  ...,  0.0000e+00,
+          8.3819e-09,  4.6566e-09],
+        [ 2.5146e-08,  0.0000e+00,  2.0489e-08,  ...,  0.0000e+00,
+          9.8720e-08,  3.6322e-08]], device='cuda:0')
+Epoch 384, bias, value: tensor([-0.0390, -0.0302,  0.0079,  0.0321, -0.0199,  0.0036, -0.0164,  0.0159,
+         0.0096, -0.0025], device='cuda:0'), grad: tensor([-3.5111e-07,  1.6671e-07,  7.7300e-08,  5.5879e-08,  2.3283e-08,
+         1.5330e-06,  2.1420e-07, -2.1439e-06,  6.0536e-08,  3.6787e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 383, time 214.30, cls_loss 0.0004 cls_loss_mapping 0.0009 cls_loss_causal 0.4275 re_mapping 0.0034 re_causal 0.0101 /// teacc 99.18 lr 0.00010000
+Epoch 385, weight, value: tensor([[-0.1456,  0.0560,  0.0875,  ..., -0.0988, -0.1882,  0.0725],
+        [-0.1282, -0.0660, -0.1489,  ...,  0.2019, -0.1201, -0.1072],
+        [-0.0769,  0.0170,  0.2471,  ..., -0.1712, -0.1707, -0.1955],
+        ...,
+        [-0.2046, -0.0772,  0.0320,  ..., -0.0683,  0.1317, -0.1098],
+        [-0.1414, -0.1016, -0.0926,  ..., -0.1662, -0.0187, -0.2222],
+        [-0.2129, -0.0802, -0.1708,  ..., -0.2277, -0.0501,  0.1597]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  0.0000e+00, -1.1176e-08,  ...,  9.3132e-10,
+          9.3132e-10, -2.6748e-05],
+        [ 4.7497e-08,  0.0000e+00,  2.7940e-09,  ..., -1.8626e-09,
+          2.7940e-09,  7.6368e-08],
+        [ 9.3132e-10,  0.0000e+00, -9.3132e-09,  ...,  2.7940e-09,
+          9.3132e-10,  6.5193e-09],
+        ...,
+        [ 8.3819e-09,  0.0000e+00,  9.3132e-10,  ...,  2.7940e-09,
+         -5.5879e-09,  7.4506e-08],
+        [ 3.7253e-09,  0.0000e+00,  4.6566e-09,  ...,  9.3132e-10,
+          9.3132e-10,  1.0338e-07],
+        [ 7.4320e-07,  0.0000e+00,  5.5879e-09,  ...,  0.0000e+00,
+          9.3132e-10,  2.3041e-06]], device='cuda:0')
+Epoch 385, bias, value: tensor([-0.0389, -0.0302,  0.0079,  0.0321, -0.0199,  0.0035, -0.0164,  0.0159,
+         0.0097, -0.0025], device='cuda:0'), grad: tensor([-5.3436e-05,  2.4680e-07, -5.5879e-09,  1.8114e-06, -1.6475e-06,
+         4.3631e-05,  2.8778e-06,  1.8254e-07,  2.1607e-07,  6.1467e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 384, time 214.34, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4512 re_mapping 0.0032 re_causal 0.0100 /// teacc 99.07 lr 0.00010000
+Epoch 386, weight, value: tensor([[-0.1462,  0.0560,  0.0877,  ..., -0.0988, -0.1883,  0.0726],
+        [-0.1298, -0.0660, -0.1491,  ...,  0.2019, -0.1201, -0.1078],
+        [-0.0771,  0.0170,  0.2474,  ..., -0.1710, -0.1708, -0.1962],
+        ...,
+        [-0.2064, -0.0772,  0.0320,  ..., -0.0683,  0.1317, -0.1101],
+        [-0.1421, -0.1016, -0.0926,  ..., -0.1666, -0.0187, -0.2225],
+        [-0.2130, -0.0802, -0.1710,  ..., -0.2285, -0.0503,  0.1601]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -3.0827e-07,  ...,  4.1910e-08,
+          0.0000e+00, -2.6636e-07],
+        [ 1.2107e-08,  0.0000e+00,  2.0489e-08,  ...,  4.0792e-07,
+          9.3132e-09,  6.5193e-09],
+        [ 9.3132e-10,  0.0000e+00, -1.0803e-07,  ...,  4.6566e-09,
+          6.5193e-09,  9.3132e-09],
+        ...,
+        [ 4.6566e-09,  0.0000e+00,  9.8720e-08,  ...,  0.0000e+00,
+         -2.3283e-08,  2.7940e-09],
+        [-2.3283e-08,  0.0000e+00,  1.5832e-08,  ...,  1.0245e-07,
+          9.3132e-10,  1.1176e-08],
+        [ 2.7940e-09,  0.0000e+00,  2.5611e-07,  ...,  0.0000e+00,
+          2.7940e-09,  2.1514e-07]], device='cuda:0')
+Epoch 386, bias, value: tensor([-0.0388, -0.0302,  0.0079,  0.0321, -0.0193,  0.0034, -0.0164,  0.0159,
+         0.0097, -0.0023], device='cuda:0'), grad: tensor([-6.8080e-07,  1.1520e-06, -1.0710e-07,  1.4249e-07,  5.5879e-09,
+         2.2445e-07, -1.4687e-06,  2.1420e-07, -1.6578e-07,  6.7055e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 385, time 214.35, cls_loss 0.0007 cls_loss_mapping 0.0014 cls_loss_causal 0.4880 re_mapping 0.0031 re_causal 0.0096 /// teacc 99.09 lr 0.00010000
+Epoch 387, weight, value: tensor([[-0.1467,  0.0560,  0.0897,  ..., -0.0988, -0.1885,  0.0729],
+        [-0.1301, -0.0660, -0.1491,  ...,  0.2019, -0.1201, -0.1086],
+        [-0.0772,  0.0170,  0.2475,  ..., -0.1716, -0.1709, -0.1979],
+        ...,
+        [-0.2070, -0.0772,  0.0320,  ..., -0.0683,  0.1318, -0.1105],
+        [-0.1424, -0.1016, -0.0926,  ..., -0.1668, -0.0187, -0.2228],
+        [-0.2131, -0.0802, -0.1724,  ..., -0.2287, -0.0507,  0.1600]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          9.3132e-10,  9.3132e-10],
+        [ 1.8626e-09,  0.0000e+00,  1.1176e-08,  ..., -5.1595e-07,
+          1.7695e-08,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00, -5.3085e-08,  ...,  2.7940e-09,
+          3.7253e-09,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00, -5.5879e-09,  ...,  4.4424e-07,
+         -3.6322e-08,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  3.3528e-08,  ...,  2.7940e-09,
+          2.7940e-09,  9.3132e-10],
+        [ 9.0338e-08,  0.0000e+00,  5.5879e-09,  ...,  1.8626e-09,
+          9.3132e-09,  3.7253e-09]], device='cuda:0')
+Epoch 387, bias, value: tensor([-0.0383, -0.0302,  0.0079,  0.0315, -0.0193,  0.0040, -0.0164,  0.0159,
+         0.0097, -0.0025], device='cuda:0'), grad: tensor([ 7.4506e-09, -1.2852e-06, -9.4064e-08,  2.7940e-09,  4.0978e-08,
+        -1.0803e-07,  2.3283e-08,  1.1660e-06,  8.2888e-08,  1.7043e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 386, time 214.20, cls_loss 0.0005 cls_loss_mapping 0.0011 cls_loss_causal 0.4757 re_mapping 0.0031 re_causal 0.0096 /// teacc 99.15 lr 0.00010000
+Epoch 388, weight, value: tensor([[-0.1468,  0.0560,  0.0898,  ..., -0.0988, -0.1887,  0.0729],
+        [-0.1302, -0.0660, -0.1491,  ...,  0.2019, -0.1202, -0.1087],
+        [-0.0775,  0.0170,  0.2475,  ..., -0.1722, -0.1709, -0.1980],
+        ...,
+        [-0.2075, -0.0772,  0.0320,  ..., -0.0683,  0.1318, -0.1109],
+        [-0.1426, -0.1016, -0.0927,  ..., -0.1673, -0.0187, -0.2229],
+        [-0.2132, -0.0802, -0.1726,  ..., -0.2289, -0.0511,  0.1601]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  1.2107e-08],
+        [ 1.8626e-09,  0.0000e+00,  5.5879e-09,  ...,  1.6764e-08,
+          5.7742e-07,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00, -6.7055e-08,  ...,  0.0000e+00,
+          6.5193e-09,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  6.5193e-09,  ..., -4.2841e-08,
+         -1.3448e-06,  1.7695e-08],
+        [-2.7008e-08,  0.0000e+00,  4.4703e-08,  ...,  9.3132e-09,
+          3.6228e-07,  3.7253e-09],
+        [ 2.1420e-08,  0.0000e+00,  1.8626e-09,  ...,  1.0245e-08,
+          2.8685e-07, -1.0896e-07]], device='cuda:0')
+Epoch 388, bias, value: tensor([-0.0382, -0.0302,  0.0079,  0.0306, -0.0194,  0.0050, -0.0164,  0.0159,
+         0.0097, -0.0025], device='cuda:0'), grad: tensor([ 4.7497e-08,  2.1663e-06, -1.2293e-07, -2.7940e-09,  4.8708e-07,
+         8.0094e-08,  4.8429e-08, -4.9397e-06,  1.3523e-06,  8.8289e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 387, time 214.16, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4695 re_mapping 0.0033 re_causal 0.0101 /// teacc 99.12 lr 0.00010000
+Epoch 389, weight, value: tensor([[-0.1469,  0.0560,  0.0904,  ..., -0.0989, -0.1888,  0.0731],
+        [-0.1302, -0.0660, -0.1491,  ...,  0.2019, -0.1202, -0.1087],
+        [-0.0776,  0.0170,  0.2477,  ..., -0.1728, -0.1710, -0.1984],
+        ...,
+        [-0.2085, -0.0772,  0.0320,  ..., -0.0683,  0.1318, -0.1110],
+        [-0.1432, -0.1016, -0.0927,  ..., -0.1679, -0.0187, -0.2229],
+        [-0.2133, -0.0802, -0.1732,  ..., -0.2290, -0.0516,  0.1600]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.3970e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -0.0000e+00,  ...,  9.3132e-10,
+         -1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.0245e-08,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 389, bias, value: tensor([-0.0381, -0.0302,  0.0079,  0.0300, -0.0193,  0.0056, -0.0164,  0.0159,
+         0.0097, -0.0027], device='cuda:0'), grad: tensor([ 2.7940e-09,  8.3819e-09, -2.8871e-08, -1.1176e-08,  2.7940e-09,
+         5.5879e-09,  9.3132e-10,  3.7253e-09,  2.4214e-08,  1.8626e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 388, time 214.46, cls_loss 0.0005 cls_loss_mapping 0.0011 cls_loss_causal 0.4517 re_mapping 0.0032 re_causal 0.0099 /// teacc 99.15 lr 0.00010000
+Epoch 390, weight, value: tensor([[-0.1470,  0.0560,  0.0906,  ..., -0.0990, -0.1890,  0.0731],
+        [-0.1303, -0.0660, -0.1492,  ...,  0.2019, -0.1202, -0.1088],
+        [-0.0777,  0.0170,  0.2477,  ..., -0.1730, -0.1711, -0.1990],
+        ...,
+        [-0.2085, -0.0772,  0.0322,  ..., -0.0684,  0.1320, -0.1087],
+        [-0.1435, -0.1016, -0.0927,  ..., -0.1682, -0.0187, -0.2230],
+        [-0.2135, -0.0802, -0.1748,  ..., -0.2291, -0.0558,  0.1599]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -9.2201e-08,  ...,  4.6566e-09,
+          0.0000e+00, -7.3574e-08],
+        [ 9.3132e-10,  0.0000e+00,  1.7695e-08,  ..., -4.3772e-08,
+          4.9360e-08,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-08,  ...,  4.6566e-09,
+          5.5879e-09,  1.2107e-08],
+        ...,
+        [ 9.3132e-10,  0.0000e+00, -3.7253e-08,  ...,  3.2596e-08,
+         -1.1455e-07,  1.8626e-09],
+        [ 9.3132e-10,  0.0000e+00,  3.7253e-09,  ...,  1.9558e-08,
+          5.5879e-09,  2.7940e-09],
+        [ 6.5193e-09,  0.0000e+00,  4.0047e-08,  ...,  1.8626e-09,
+          2.5146e-08,  2.8871e-08]], device='cuda:0')
+Epoch 390, bias, value: tensor([-0.0380, -0.0302,  0.0079,  0.0300, -0.0194,  0.0056, -0.0164,  0.0160,
+         0.0097, -0.0037], device='cuda:0'), grad: tensor([-1.6391e-07,  4.0978e-08,  2.7474e-07, -4.1723e-07,  5.5879e-09,
+         1.7416e-07, -6.0536e-08, -4.7497e-08,  2.8871e-08,  1.6857e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 389, time 214.46, cls_loss 0.0005 cls_loss_mapping 0.0009 cls_loss_causal 0.4578 re_mapping 0.0028 re_causal 0.0092 /// teacc 99.17 lr 0.00010000
+Epoch 391, weight, value: tensor([[-0.1471,  0.0560,  0.0910,  ..., -0.0990, -0.1891,  0.0733],
+        [-0.1303, -0.0660, -0.1493,  ...,  0.2020, -0.1202, -0.1089],
+        [-0.0778,  0.0170,  0.2479,  ..., -0.1731, -0.1711, -0.1996],
+        ...,
+        [-0.2086, -0.0772,  0.0322,  ..., -0.0684,  0.1320, -0.1089],
+        [-0.1435, -0.1016, -0.0927,  ..., -0.1688, -0.0187, -0.2230],
+        [-0.2135, -0.0802, -0.1751,  ..., -0.2291, -0.0562,  0.1598]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  2.0489e-08,  ...,  0.0000e+00,
+          1.6764e-08,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.9861e-07,  ...,  0.0000e+00,
+          2.9895e-07,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.3886e-06,  ...,  0.0000e+00,
+          1.0403e-06,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00, -2.5779e-06,  ...,  9.3132e-10,
+         -1.9316e-06,  6.5193e-09],
+        [ 1.8626e-09,  0.0000e+00,  3.3807e-07,  ...,  0.0000e+00,
+          2.5332e-07,  7.4506e-09],
+        [-8.6613e-08,  0.0000e+00,  2.1607e-07,  ...,  0.0000e+00,
+          1.5926e-07, -4.3306e-07]], device='cuda:0')
+Epoch 391, bias, value: tensor([-0.0379, -0.0302,  0.0081,  0.0300, -0.0194,  0.0055, -0.0165,  0.0160,
+         0.0097, -0.0038], device='cuda:0'), grad: tensor([ 9.6858e-08,  1.4864e-06,  5.1670e-06,  5.2527e-07,  1.5358e-06,
+         4.3772e-08,  1.0245e-08, -9.5293e-06,  1.2713e-06, -5.8953e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 390, time 214.35, cls_loss 0.0004 cls_loss_mapping 0.0008 cls_loss_causal 0.4642 re_mapping 0.0030 re_causal 0.0097 /// teacc 99.19 lr 0.00010000
+Epoch 392, weight, value: tensor([[-0.1472,  0.0560,  0.0914,  ..., -0.0991, -0.1893,  0.0733],
+        [-0.1303, -0.0660, -0.1494,  ...,  0.2020, -0.1202, -0.1089],
+        [-0.0789,  0.0170,  0.2479,  ..., -0.1742, -0.1713, -0.2006],
+        ...,
+        [-0.2088, -0.0772,  0.0323,  ..., -0.0684,  0.1321, -0.1091],
+        [-0.1438, -0.1016, -0.0927,  ..., -0.1691, -0.0187, -0.2231],
+        [-0.2137, -0.0802, -0.1753,  ..., -0.2292, -0.0565,  0.1599]],
+       device='cuda:0'), grad: tensor([[ 4.4703e-08,  0.0000e+00, -3.7253e-09,  ...,  1.0245e-08,
+          9.3132e-10, -1.8626e-09],
+        [-8.7544e-08,  0.0000e+00,  0.0000e+00,  ..., -3.2689e-07,
+          0.0000e+00,  0.0000e+00],
+        [ 7.5437e-08,  0.0000e+00,  0.0000e+00,  ...,  2.1886e-07,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 2.3283e-08,  0.0000e+00,  0.0000e+00,  ...,  7.7300e-08,
+          0.0000e+00,  5.5879e-09],
+        [ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  6.5193e-09,
+          9.3132e-10,  9.3132e-10],
+        [ 5.0291e-08,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          1.8626e-09, -1.8626e-09]], device='cuda:0')
+Epoch 392, bias, value: tensor([-0.0378, -0.0302,  0.0078,  0.0300, -0.0194,  0.0055, -0.0164,  0.0160,
+         0.0097, -0.0039], device='cuda:0'), grad: tensor([ 9.3132e-08, -6.3051e-07,  4.5449e-07,  3.4459e-08, -1.3411e-07,
+        -2.2352e-08, -5.2154e-08,  1.6950e-07,  2.2352e-08,  7.1712e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 391, time 214.36, cls_loss 0.0005 cls_loss_mapping 0.0010 cls_loss_causal 0.4652 re_mapping 0.0031 re_causal 0.0097 /// teacc 99.15 lr 0.00010000
+Epoch 393, weight, value: tensor([[-0.1474,  0.0561,  0.0918,  ..., -0.0990, -0.1894,  0.0734],
+        [-0.1303, -0.0660, -0.1505,  ...,  0.2019, -0.1202, -0.1104],
+        [-0.0793,  0.0170,  0.2491,  ..., -0.1714, -0.1713, -0.2010],
+        ...,
+        [-0.2090, -0.0773,  0.0323,  ..., -0.0684,  0.1321, -0.1092],
+        [-0.1438, -0.1016, -0.0928,  ..., -0.1697, -0.0187, -0.2232],
+        [-0.2137, -0.0803, -0.1755,  ..., -0.2293, -0.0567,  0.1599]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00, -2.6077e-08,  ...,  1.8626e-09,
+          0.0000e+00, -2.6543e-08],
+        [-1.8626e-09,  0.0000e+00,  5.1223e-09,  ..., -4.0047e-08,
+          2.3283e-09,  4.6566e-10],
+        [ 1.6764e-08,  0.0000e+00,  2.0023e-08,  ...,  1.6298e-08,
+          9.7789e-09,  1.8626e-09],
+        ...,
+        [ 8.8476e-09,  0.0000e+00, -3.2131e-08,  ...,  2.6543e-08,
+         -1.0245e-08,  1.3970e-09],
+        [-4.6566e-10,  0.0000e+00,  2.3283e-09,  ..., -4.6566e-10,
+          9.3132e-10,  4.6566e-10],
+        [ 1.4110e-07,  0.0000e+00,  1.8161e-08,  ...,  9.3132e-10,
+          5.5879e-09,  1.4901e-08]], device='cuda:0')
+Epoch 393, bias, value: tensor([-0.0379, -0.0302,  0.0096,  0.0300, -0.0195,  0.0054, -0.0164,  0.0160,
+         0.0097, -0.0039], device='cuda:0'), grad: tensor([-1.2247e-07, -4.7032e-08,  8.6613e-08,  2.7474e-08, -1.6484e-07,
+         4.8894e-08,  1.4901e-08,  4.9360e-08, -1.4901e-07,  2.6636e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 392, time 214.34, cls_loss 0.0005 cls_loss_mapping 0.0011 cls_loss_causal 0.4761 re_mapping 0.0030 re_causal 0.0095 /// teacc 99.18 lr 0.00010000
+Epoch 394, weight, value: tensor([[-0.1475,  0.0561,  0.0920,  ..., -0.0991, -0.1894,  0.0736],
+        [-0.1303, -0.0660, -0.1505,  ...,  0.2020, -0.1202, -0.1105],
+        [-0.0794,  0.0170,  0.2492,  ..., -0.1715, -0.1714, -0.2012],
+        ...,
+        [-0.2100, -0.0768,  0.0323,  ..., -0.0684,  0.1321, -0.1094],
+        [-0.1433, -0.1016, -0.0928,  ..., -0.1703, -0.0187, -0.2232],
+        [-0.2138, -0.0804, -0.1757,  ..., -0.2295, -0.0569,  0.1599]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.0489e-08,  ...,  1.8626e-09,
+          0.0000e+00, -4.3772e-08],
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ..., -1.6764e-08,
+          7.4506e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.1420e-08,  ...,  9.3132e-10,
+          2.4214e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -7.2643e-08,  ...,  1.3039e-08,
+         -8.4750e-08,  1.3970e-08],
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  1.2107e-08,
+          7.4506e-09,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.5832e-08,  ...,  0.0000e+00,
+          1.2107e-08, -1.8626e-08]], device='cuda:0')
+Epoch 394, bias, value: tensor([-0.0377, -0.0302,  0.0096,  0.0300, -0.0196,  0.0054, -0.0163,  0.0160,
+         0.0097, -0.0040], device='cuda:0'), grad: tensor([-9.3132e-08, -1.8626e-08,  5.3085e-08,  7.9162e-08,  5.6811e-08,
+         5.4948e-08, -9.8720e-08, -9.8720e-08,  1.0990e-07, -3.1665e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 393, time 214.17, cls_loss 0.0004 cls_loss_mapping 0.0007 cls_loss_causal 0.4643 re_mapping 0.0031 re_causal 0.0100 /// teacc 99.14 lr 0.00010000
+Epoch 395, weight, value: tensor([[-0.1478,  0.0561,  0.0919,  ..., -0.0994, -0.1897,  0.0736],
+        [-0.1304, -0.0661, -0.1507,  ...,  0.2020, -0.1202, -0.1105],
+        [-0.0794,  0.0177,  0.2498,  ..., -0.1716, -0.1715, -0.2013],
+        ...,
+        [-0.2105, -0.0771,  0.0323,  ..., -0.0684,  0.1321, -0.1098],
+        [-0.1434, -0.1017, -0.0928,  ..., -0.1707, -0.0187, -0.2233],
+        [-0.2139, -0.0805, -0.1760,  ..., -0.2296, -0.0569,  0.1600]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.7940e-09,  ...,  2.7940e-09,
+          9.3132e-10, -8.3819e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ..., -9.3132e-10,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.5832e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [-0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  9.3132e-10,
+         -2.7940e-09,  1.7695e-08],
+        [-1.8626e-09,  0.0000e+00,  5.5879e-09,  ...,  9.3132e-10,
+          3.1665e-08, -1.2107e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          9.3132e-10, -0.0000e+00]], device='cuda:0')
+Epoch 395, bias, value: tensor([-0.0378, -0.0302,  0.0102,  0.0299, -0.0196,  0.0054, -0.0163,  0.0160,
+         0.0097, -0.0040], device='cuda:0'), grad: tensor([-1.8626e-09,  1.4901e-08, -2.6077e-08,  6.2399e-08,  1.3970e-08,
+        -1.8999e-07,  3.5390e-08,  7.4506e-08, -1.3597e-07,  1.6019e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 394, time 214.24, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4971 re_mapping 0.0030 re_causal 0.0097 /// teacc 99.07 lr 0.00010000
+Epoch 396, weight, value: tensor([[-0.1479,  0.0561,  0.0921,  ..., -0.0995, -0.1903,  0.0736],
+        [-0.1304, -0.0661, -0.1508,  ...,  0.2020, -0.1203, -0.1107],
+        [-0.0795,  0.0177,  0.2497,  ..., -0.1717, -0.1719, -0.2022],
+        ...,
+        [-0.2109, -0.0771,  0.0324,  ..., -0.0684,  0.1322, -0.1102],
+        [-0.1430, -0.1017, -0.0928,  ..., -0.1713, -0.0187, -0.2233],
+        [-0.2140, -0.0805, -0.1763,  ..., -0.2297, -0.0572,  0.1601]],
+       device='cuda:0'), grad: tensor([[ 1.4901e-08,  0.0000e+00,  0.0000e+00,  ..., -1.1176e-08,
+          8.3819e-09, -7.4506e-08],
+        [ 5.7742e-08,  0.0000e+00,  6.0163e-07,  ..., -1.5832e-08,
+          8.0932e-07,  4.6566e-09],
+        [ 2.7940e-09,  0.0000e+00,  2.4214e-08,  ...,  3.7253e-09,
+          4.0047e-08,  9.3132e-10],
+        ...,
+        [-8.1025e-08,  0.0000e+00, -9.0711e-07,  ...,  5.5879e-09,
+         -1.2275e-06,  2.2352e-08],
+        [ 4.6566e-09,  0.0000e+00,  5.5879e-08,  ...,  4.6566e-09,
+          8.0094e-08,  1.9558e-08],
+        [ 3.7532e-07,  0.0000e+00,  1.0803e-07,  ...,  0.0000e+00,
+          1.3970e-07, -4.3493e-07]], device='cuda:0')
+Epoch 396, bias, value: tensor([-0.0377, -0.0302,  0.0097,  0.0299, -0.0196,  0.0054, -0.0164,  0.0160,
+         0.0097, -0.0041], device='cuda:0'), grad: tensor([ 4.7497e-08,  3.0678e-06,  2.1327e-07, -1.5318e-04,  1.0040e-06,
+         1.5104e-04,  2.0452e-06, -4.4331e-06,  2.2259e-07, -1.9372e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 395, time 214.15, cls_loss 0.0006 cls_loss_mapping 0.0011 cls_loss_causal 0.4873 re_mapping 0.0030 re_causal 0.0093 /// teacc 99.15 lr 0.00010000
+Epoch 397, weight, value: tensor([[-0.1484,  0.0561,  0.0922,  ..., -0.1001, -0.1906,  0.0737],
+        [-0.1305, -0.0661, -0.1511,  ...,  0.2020, -0.1203, -0.1109],
+        [-0.0798,  0.0177,  0.2497,  ..., -0.1719, -0.1720, -0.2026],
+        ...,
+        [-0.2114, -0.0771,  0.0326,  ..., -0.0684,  0.1323, -0.1106],
+        [-0.1441, -0.1017, -0.0928,  ..., -0.1731, -0.0187, -0.2236],
+        [-0.2143, -0.0805, -0.1765,  ..., -0.2299, -0.0574,  0.1602]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00,  8.3819e-09,  ...,  9.3132e-10,
+          1.0245e-08, -1.3039e-08],
+        [-9.3132e-10,  0.0000e+00,  5.5879e-08,  ..., -9.3132e-09,
+          2.2352e-08,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00, -1.5087e-07,  ...,  0.0000e+00,
+          6.5193e-09,  9.3132e-10],
+        ...,
+        [ 9.3132e-10,  0.0000e+00, -1.3970e-08,  ...,  5.5879e-09,
+         -3.1665e-08,  2.7940e-09],
+        [-7.4506e-09,  0.0000e+00,  1.3039e-08,  ...,  2.7940e-09,
+          2.5146e-08,  1.0245e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.4214e-08,  ...,  9.3132e-10,
+          3.5390e-08,  1.2107e-08]], device='cuda:0')
+Epoch 397, bias, value: tensor([-0.0379, -0.0302,  0.0096,  0.0303, -0.0198,  0.0050, -0.0162,  0.0160,
+         0.0097, -0.0041], device='cuda:0'), grad: tensor([ 6.7987e-08,  1.4715e-07, -3.2783e-07,  1.0550e-05,  1.5832e-08,
+        -1.0587e-05,  7.7300e-08, -2.7940e-08,  1.8626e-09,  1.3225e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 396, time 214.15, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4369 re_mapping 0.0030 re_causal 0.0090 /// teacc 99.13 lr 0.00010000
+Epoch 398, weight, value: tensor([[-0.1490,  0.0561,  0.0925,  ..., -0.1004, -0.1908,  0.0738],
+        [-0.1306, -0.0661, -0.1512,  ...,  0.2020, -0.1203, -0.1109],
+        [-0.0800,  0.0177,  0.2499,  ..., -0.1720, -0.1721, -0.2030],
+        ...,
+        [-0.2119, -0.0771,  0.0326,  ..., -0.0684,  0.1323, -0.1109],
+        [-0.1441, -0.1017, -0.0929,  ..., -0.1736, -0.0187, -0.2238],
+        [-0.2145, -0.0805, -0.1768,  ..., -0.2301, -0.0576,  0.1602]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          2.7940e-09, -9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  6.4261e-08,  ..., -3.7253e-09,
+          8.5682e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.8626e-08,  ...,  0.0000e+00,
+          8.7544e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -1.8440e-07,  ...,  3.7253e-09,
+         -5.0105e-07, -1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  7.6368e-08,  ...,  0.0000e+00,
+          2.1886e-07,  1.8626e-09],
+        [ 2.7940e-09,  0.0000e+00,  4.7497e-08,  ...,  0.0000e+00,
+          8.7544e-08,  1.8626e-09]], device='cuda:0')
+Epoch 398, bias, value: tensor([-0.0379, -0.0302,  0.0098,  0.0304, -0.0198,  0.0049, -0.0161,  0.0160,
+         0.0096, -0.0042], device='cuda:0'), grad: tensor([ 9.3132e-09,  2.6915e-07,  1.0896e-07,  2.7940e-08,  3.5390e-08,
+         1.8626e-09,  2.7940e-09, -1.9148e-06,  1.1111e-06,  3.4180e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 397, time 214.21, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4417 re_mapping 0.0029 re_causal 0.0091 /// teacc 99.15 lr 0.00010000
+Epoch 399, weight, value: tensor([[-0.1498,  0.0561,  0.0925,  ..., -0.1008, -0.1916,  0.0737],
+        [-0.1306, -0.0661, -0.1513,  ...,  0.2020, -0.1203, -0.1110],
+        [-0.0802,  0.0177,  0.2500,  ..., -0.1722, -0.1722, -0.2034],
+        ...,
+        [-0.2130, -0.0772,  0.0327,  ..., -0.0685,  0.1323, -0.1116],
+        [-0.1445, -0.1017, -0.0929,  ..., -0.1741, -0.0187, -0.2240],
+        [-0.2148, -0.0805, -0.1771,  ..., -0.2302, -0.0581,  0.1604]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -5.5879e-09,  2.7940e-09,  ...,  0.0000e+00,
+          5.5879e-09, -5.8673e-08],
+        [ 9.3132e-10,  9.3132e-10,  2.3283e-08,  ..., -1.3039e-08,
+          5.9605e-08,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.9558e-08,  ...,  0.0000e+00,
+          1.2107e-08,  9.3132e-10],
+        ...,
+        [ 9.3132e-10,  1.8626e-09, -1.5553e-07,  ...,  8.3819e-09,
+         -4.3865e-07,  2.0489e-08],
+        [ 0.0000e+00,  9.3132e-10, -4.8429e-08,  ...,  1.8626e-09,
+          2.1420e-08,  9.3132e-09],
+        [ 9.3132e-09,  1.8626e-09,  1.3225e-07,  ...,  0.0000e+00,
+          3.1572e-07,  2.5146e-08]], device='cuda:0')
+Epoch 399, bias, value: tensor([-0.0381, -0.0302,  0.0097,  0.0304, -0.0198,  0.0049, -0.0161,  0.0160,
+         0.0096, -0.0041], device='cuda:0'), grad: tensor([ 2.0489e-08,  2.1141e-07,  1.5367e-07,  6.5565e-07, -9.3132e-10,
+        -4.8149e-07,  6.2399e-08, -1.4966e-06, -3.9767e-07,  1.2796e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 398, time 214.42, cls_loss 0.0006 cls_loss_mapping 0.0011 cls_loss_causal 0.4619 re_mapping 0.0031 re_causal 0.0093 /// teacc 99.18 lr 0.00010000
+Epoch 400, weight, value: tensor([[-0.1500,  0.0561,  0.0926,  ..., -0.1010, -0.1919,  0.0737],
+        [-0.1308, -0.0662, -0.1513,  ...,  0.2020, -0.1203, -0.1111],
+        [-0.0804,  0.0155,  0.2499,  ..., -0.1742, -0.1725, -0.2036],
+        ...,
+        [-0.2156, -0.0775,  0.0328,  ..., -0.0685,  0.1324, -0.1117],
+        [-0.1445, -0.1020, -0.0929,  ..., -0.1746, -0.0187, -0.2242],
+        [-0.2152, -0.0806, -0.1779,  ..., -0.2303, -0.0588,  0.1605]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.7940e-09,  ...,  9.3132e-10,
+          0.0000e+00, -3.7253e-09],
+        [-0.0000e+00,  0.0000e+00, -9.3132e-10,  ..., -2.8405e-07,
+          1.8626e-09, -0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ...,  2.0955e-07,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ...,  5.0291e-08,
+         -9.3132e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  7.4506e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 1.9558e-08,  0.0000e+00,  5.5879e-09,  ...,  1.8626e-09,
+          7.4506e-09,  2.7940e-09]], device='cuda:0')
+Epoch 400, bias, value: tensor([-0.0383, -0.0302,  0.0083,  0.0306, -0.0195,  0.0062, -0.0171,  0.0160,
+         0.0097, -0.0044], device='cuda:0'), grad: tensor([-1.8626e-09, -7.5530e-07,  5.6811e-07,  3.1665e-08, -1.3970e-08,
+         1.8626e-08, -3.7253e-09,  1.1548e-07, -2.7940e-09,  5.4017e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 399, time 214.20, cls_loss 0.0005 cls_loss_mapping 0.0011 cls_loss_causal 0.4853 re_mapping 0.0030 re_causal 0.0097 /// teacc 99.10 lr 0.00001000
+Epoch 401, weight, value: tensor([[-0.1502,  0.0563,  0.0928,  ..., -0.1011, -0.1920,  0.0738],
+        [-0.1312, -0.0662, -0.1514,  ...,  0.2020, -0.1204, -0.1112],
+        [-0.0805,  0.0155,  0.2503,  ..., -0.1746, -0.1726, -0.2035],
+        ...,
+        [-0.2168, -0.0775,  0.0328,  ..., -0.0685,  0.1324, -0.1119],
+        [-0.1459, -0.1020, -0.0929,  ..., -0.1747, -0.0187, -0.2244],
+        [-0.2168, -0.0808, -0.1782,  ..., -0.2307, -0.0590,  0.1605]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -2.9895e-07,  ...,  3.7253e-09,
+          9.3132e-10, -3.7998e-07],
+        [ 1.8626e-08,  0.0000e+00,  4.0047e-08,  ..., -3.1665e-08,
+          4.9360e-08,  1.1176e-08],
+        [ 2.7940e-09,  0.0000e+00,  1.1176e-08,  ...,  1.8626e-09,
+          7.4506e-09,  9.3132e-09],
+        ...,
+        [-8.8476e-08,  0.0000e+00, -1.3597e-07,  ...,  1.3039e-08,
+         -2.2165e-07,  7.4506e-09],
+        [ 1.3970e-08,  0.0000e+00,  6.2399e-08,  ...,  7.4506e-09,
+          3.2596e-08,  5.6811e-08],
+        [ 1.4901e-08,  0.0000e+00,  2.2817e-07,  ...,  9.3132e-10,
+          6.5193e-08,  1.9092e-07]], device='cuda:0')
+Epoch 401, bias, value: tensor([-0.0382, -0.0302,  0.0086,  0.0305, -0.0183,  0.0063, -0.0172,  0.0160,
+         0.0097, -0.0052], device='cuda:0'), grad: tensor([-1.1995e-06,  1.2573e-07,  6.1467e-08,  1.1455e-07,  2.9337e-07,
+         5.8673e-08,  6.8918e-08, -7.1246e-07,  3.1665e-07,  8.7917e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 400, time 214.15, cls_loss 0.0006 cls_loss_mapping 0.0011 cls_loss_causal 0.4562 re_mapping 0.0028 re_causal 0.0088 /// teacc 99.13 lr 0.00001000
+Epoch 402, weight, value: tensor([[-0.1503,  0.0563,  0.0929,  ..., -0.1011, -0.1922,  0.0738],
+        [-0.1312, -0.0662, -0.1515,  ...,  0.2020, -0.1204, -0.1112],
+        [-0.0805,  0.0155,  0.2503,  ..., -0.1746, -0.1726, -0.2036],
+        ...,
+        [-0.2169, -0.0776,  0.0328,  ..., -0.0685,  0.1324, -0.1119],
+        [-0.1460, -0.1021, -0.0930,  ..., -0.1748, -0.0187, -0.2244],
+        [-0.2167, -0.0809, -0.1783,  ..., -0.2307, -0.0591,  0.1606]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.8871e-08,  ...,  2.7008e-08,
+          4.5635e-08,  1.6764e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ..., -1.0245e-08,
+          4.7497e-08,  1.3039e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  7.4506e-09,
+          1.8626e-08,  9.3132e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -5.9605e-08,  ...,  1.3970e-08,
+         -1.0189e-06,  1.3970e-08],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  1.9558e-08,
+          1.3970e-08,  1.3039e-08],
+        [ 9.3132e-10,  0.0000e+00,  2.8871e-08,  ...,  4.0047e-08,
+          1.0617e-07,  1.0896e-07]], device='cuda:0')
+Epoch 402, bias, value: tensor([-0.0382, -0.0302,  0.0086,  0.0305, -0.0185,  0.0063, -0.0172,  0.0160,
+         0.0097, -0.0051], device='cuda:0'), grad: tensor([ 1.4249e-07,  1.1735e-07,  8.6613e-08,  3.8184e-06,  6.8918e-08,
+        -4.9472e-06,  2.0340e-06, -1.8887e-06,  1.0710e-07,  4.5914e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 401, time 214.28, cls_loss 0.0005 cls_loss_mapping 0.0008 cls_loss_causal 0.4665 re_mapping 0.0027 re_causal 0.0088 /// teacc 99.13 lr 0.00001000
+Epoch 403, weight, value: tensor([[-0.1503,  0.0563,  0.0929,  ..., -0.1011, -0.1922,  0.0739],
+        [-0.1312, -0.0662, -0.1515,  ...,  0.2020, -0.1204, -0.1112],
+        [-0.0806,  0.0155,  0.2503,  ..., -0.1746, -0.1726, -0.2036],
+        ...,
+        [-0.2169, -0.0776,  0.0328,  ..., -0.0685,  0.1324, -0.1120],
+        [-0.1460, -0.1021, -0.0930,  ..., -0.1749, -0.0187, -0.2245],
+        [-0.2167, -0.0809, -0.1783,  ..., -0.2307, -0.0591,  0.1607]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -0.0000e+00, -3.7253e-09,  ...,  9.3132e-10,
+          0.0000e+00, -3.7253e-09],
+        [-0.0000e+00,  0.0000e+00,  6.5193e-09,  ..., -2.9802e-08,
+          1.0245e-08,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00, -3.7253e-09,  ...,  4.6566e-09,
+          2.7940e-09,  0.0000e+00],
+        ...,
+        [-4.6566e-09,  0.0000e+00, -1.1176e-08,  ...,  1.5832e-08,
+         -2.8871e-08,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  3.7253e-09,  ...,  5.5879e-09,
+          4.6566e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  0.0000e+00,
+          5.5879e-09,  3.7253e-09]], device='cuda:0')
+Epoch 403, bias, value: tensor([-0.0382, -0.0302,  0.0086,  0.0305, -0.0186,  0.0063, -0.0172,  0.0160,
+         0.0097, -0.0050], device='cuda:0'), grad: tensor([-4.6566e-09, -4.9360e-08,  1.1176e-08,  3.5390e-08,  1.2107e-08,
+        -2.5146e-08,  6.5193e-09, -1.3039e-08, -1.8626e-09,  2.6077e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 402, time 214.28, cls_loss 0.0005 cls_loss_mapping 0.0007 cls_loss_causal 0.4391 re_mapping 0.0026 re_causal 0.0087 /// teacc 99.12 lr 0.00001000
+Epoch 404, weight, value: tensor([[-0.1503,  0.0563,  0.0930,  ..., -0.1011, -0.1922,  0.0739],
+        [-0.1313, -0.0662, -0.1515,  ...,  0.2020, -0.1204, -0.1112],
+        [-0.0806,  0.0155,  0.2504,  ..., -0.1746, -0.1726, -0.2036],
+        ...,
+        [-0.2169, -0.0776,  0.0328,  ..., -0.0685,  0.1324, -0.1121],
+        [-0.1461, -0.1021, -0.0930,  ..., -0.1750, -0.0187, -0.2245],
+        [-0.2167, -0.0809, -0.1784,  ..., -0.2307, -0.0591,  0.1607]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -1.8626e-09,  ...,  9.3132e-10,
+          9.3132e-10, -9.7789e-07],
+        [ 1.8626e-09,  0.0000e+00,  5.2154e-08,  ...,  3.1665e-08,
+          1.0617e-07,  9.1270e-08],
+        [ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          1.8626e-09,  1.2107e-08],
+        ...,
+        [ 3.7253e-09,  0.0000e+00, -6.1467e-08,  ..., -3.5390e-08,
+         -1.2200e-07,  6.9849e-08],
+        [ 1.8626e-09,  0.0000e+00,  1.8626e-09,  ...,  1.8626e-09,
+          2.7940e-09,  8.1025e-08],
+        [ 9.3132e-09,  0.0000e+00,  4.6566e-09,  ...,  9.3132e-10,
+          4.6566e-09,  2.3469e-07]], device='cuda:0')
+Epoch 404, bias, value: tensor([-0.0381, -0.0302,  0.0086,  0.0305, -0.0186,  0.0063, -0.0172,  0.0160,
+         0.0097, -0.0050], device='cuda:0'), grad: tensor([-2.5555e-06,  6.1188e-07,  4.3772e-08,  2.4587e-07,  4.7777e-07,
+         2.0023e-07,  5.2061e-07, -1.3784e-07,  2.6543e-07,  3.1851e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 403, time 214.21, cls_loss 0.0004 cls_loss_mapping 0.0005 cls_loss_causal 0.4024 re_mapping 0.0026 re_causal 0.0085 /// teacc 99.15 lr 0.00001000
+Epoch 405, weight, value: tensor([[-0.1503,  0.0563,  0.0930,  ..., -0.1011, -0.1922,  0.0739],
+        [-0.1313, -0.0662, -0.1515,  ...,  0.2020, -0.1204, -0.1113],
+        [-0.0806,  0.0155,  0.2504,  ..., -0.1747, -0.1726, -0.2036],
+        ...,
+        [-0.2170, -0.0776,  0.0328,  ..., -0.0685,  0.1324, -0.1121],
+        [-0.1461, -0.1021, -0.0930,  ..., -0.1750, -0.0187, -0.2245],
+        [-0.2167, -0.0809, -0.1784,  ..., -0.2307, -0.0591,  0.1607]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -1.8626e-09,  ...,  0.0000e+00,
+          9.3132e-10, -1.8626e-09],
+        [ 9.3132e-09,  0.0000e+00,  6.5193e-09,  ..., -9.3132e-09,
+          1.1176e-08,  9.3132e-10],
+        [ 9.3132e-10,  0.0000e+00, -9.3132e-10,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 3.7253e-09,  0.0000e+00, -2.9802e-08,  ...,  6.5193e-09,
+         -5.5879e-08, -3.7253e-09],
+        [ 1.8626e-09,  0.0000e+00,  2.7940e-09,  ...,  3.7253e-09,
+          4.6566e-09,  1.8626e-09],
+        [ 2.9802e-08,  0.0000e+00,  2.3283e-08,  ...,  0.0000e+00,
+          3.4459e-08,  4.6566e-09]], device='cuda:0')
+Epoch 405, bias, value: tensor([-0.0381, -0.0302,  0.0086,  0.0305, -0.0186,  0.0063, -0.0172,  0.0160,
+         0.0097, -0.0050], device='cuda:0'), grad: tensor([-9.3132e-10,  2.2352e-08,  4.6566e-09, -3.3528e-08, -8.6613e-08,
+         3.7253e-09,  1.7695e-08, -8.0094e-08,  2.7940e-08,  1.4249e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 404, time 214.29, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4724 re_mapping 0.0026 re_causal 0.0090 /// teacc 99.10 lr 0.00001000
+Epoch 406, weight, value: tensor([[-0.1503,  0.0564,  0.0931,  ..., -0.1011, -0.1922,  0.0739],
+        [-0.1313, -0.0662, -0.1515,  ...,  0.2020, -0.1204, -0.1113],
+        [-0.0806,  0.0155,  0.2504,  ..., -0.1747, -0.1726, -0.2037],
+        ...,
+        [-0.2170, -0.0776,  0.0328,  ..., -0.0685,  0.1324, -0.1121],
+        [-0.1461, -0.1021, -0.0930,  ..., -0.1751, -0.0187, -0.2246],
+        [-0.2167, -0.0809, -0.1784,  ..., -0.2307, -0.0591,  0.1607]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -2.7940e-08,  ...,  1.8626e-09,
+          1.2107e-08, -1.2107e-08],
+        [ 9.3132e-10,  0.0000e+00,  1.8626e-09,  ..., -7.4506e-08,
+          1.8626e-09,  9.3132e-10],
+        [ 9.3132e-10,  0.0000e+00, -5.5879e-09,  ...,  1.8626e-09,
+          3.7253e-09,  7.4506e-09],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  1.8626e-09,  ...,  6.6124e-08,
+         -2.7940e-09,  8.3819e-09],
+        [ 9.3132e-10,  0.0000e+00,  2.7940e-09,  ...,  5.5879e-09,
+          3.7253e-09,  7.4506e-09],
+        [ 1.8626e-09,  0.0000e+00,  1.8626e-08,  ...,  9.3132e-10,
+          1.8626e-09,  8.3819e-09]], device='cuda:0')
+Epoch 406, bias, value: tensor([-0.0381, -0.0302,  0.0086,  0.0305, -0.0186,  0.0063, -0.0172,  0.0160,
+         0.0097, -0.0050], device='cuda:0'), grad: tensor([-4.0047e-08, -2.0210e-07,  1.8626e-08,  4.2841e-08,  1.7695e-08,
+        -2.8592e-07,  1.6764e-07,  2.2538e-07, -1.8626e-09,  4.8429e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 405, time 214.30, cls_loss 0.0004 cls_loss_mapping 0.0005 cls_loss_causal 0.4506 re_mapping 0.0026 re_causal 0.0088 /// teacc 99.13 lr 0.00001000
+Epoch 407, weight, value: tensor([[-0.1504,  0.0564,  0.0931,  ..., -0.1012, -0.1923,  0.0740],
+        [-0.1313, -0.0662, -0.1515,  ...,  0.2020, -0.1204, -0.1113],
+        [-0.0806,  0.0155,  0.2504,  ..., -0.1747, -0.1727, -0.2037],
+        ...,
+        [-0.2170, -0.0776,  0.0328,  ..., -0.0685,  0.1324, -0.1122],
+        [-0.1461, -0.1021, -0.0930,  ..., -0.1751, -0.0187, -0.2246],
+        [-0.2167, -0.0810, -0.1785,  ..., -0.2307, -0.0591,  0.1607]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.3213e-07,  ...,  9.3132e-10,
+          0.0000e+00, -4.1537e-07],
+        [ 9.3132e-10,  0.0000e+00,  1.8626e-09,  ..., -1.0803e-07,
+          9.3132e-10,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  1.8626e-09,
+          0.0000e+00,  1.8626e-09],
+        ...,
+        [ 1.8626e-09,  0.0000e+00,  3.7253e-09,  ...,  9.6858e-08,
+         -2.7940e-09,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.0245e-08,  ...,  2.7940e-09,
+          0.0000e+00,  1.0245e-08],
+        [ 4.6566e-09,  0.0000e+00,  1.4715e-07,  ...,  9.3132e-10,
+          9.3132e-10,  1.3690e-07]], device='cuda:0')
+Epoch 407, bias, value: tensor([-0.0381, -0.0302,  0.0087,  0.0305, -0.0186,  0.0063, -0.0172,  0.0160,
+         0.0097, -0.0051], device='cuda:0'), grad: tensor([-1.3318e-06, -2.9150e-07,  1.6764e-08,  7.4040e-07, -1.8626e-09,
+         6.8918e-08,  2.5146e-08,  3.2131e-07, -3.2596e-08,  4.8336e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 406, time 214.54, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4528 re_mapping 0.0025 re_causal 0.0088 /// teacc 99.13 lr 0.00001000
+Epoch 408, weight, value: tensor([[-0.1504,  0.0564,  0.0932,  ..., -0.1012, -0.1923,  0.0740],
+        [-0.1313, -0.0662, -0.1515,  ...,  0.2020, -0.1204, -0.1113],
+        [-0.0806,  0.0155,  0.2504,  ..., -0.1747, -0.1727, -0.2037],
+        ...,
+        [-0.2170, -0.0777,  0.0328,  ..., -0.0685,  0.1324, -0.1122],
+        [-0.1461, -0.1021, -0.0930,  ..., -0.1752, -0.0187, -0.2246],
+        [-0.2167, -0.0810, -0.1785,  ..., -0.2307, -0.0592,  0.1607]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 9.3132e-10,  0.0000e+00,  6.5193e-09,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.9185e-07,  ...,  0.0000e+00,
+         -1.8626e-09,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  1.2573e-07,  ...,  0.0000e+00,
+         -1.7695e-08,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.5635e-08,  ...,  9.3132e-10,
+          2.7940e-09,  1.8626e-09],
+        [ 9.3132e-10,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          4.6566e-09, -1.1176e-08]], device='cuda:0')
+Epoch 408, bias, value: tensor([-0.0381, -0.0302,  0.0087,  0.0305, -0.0186,  0.0063, -0.0172,  0.0160,
+         0.0097, -0.0051], device='cuda:0'), grad: tensor([ 1.3970e-08,  2.6077e-08, -3.2689e-07, -6.7055e-08,  1.8626e-09,
+         5.3085e-08,  1.8626e-09,  2.2445e-07,  8.3819e-08, -1.0245e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 407, time 214.17, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4557 re_mapping 0.0026 re_causal 0.0087 /// teacc 99.12 lr 0.00001000
+Epoch 409, weight, value: tensor([[-0.1504,  0.0564,  0.0932,  ..., -0.1012, -0.1923,  0.0740],
+        [-0.1313, -0.0662, -0.1515,  ...,  0.2020, -0.1204, -0.1113],
+        [-0.0806,  0.0155,  0.2504,  ..., -0.1747, -0.1727, -0.2037],
+        ...,
+        [-0.2170, -0.0777,  0.0328,  ..., -0.0685,  0.1324, -0.1123],
+        [-0.1461, -0.1021, -0.0930,  ..., -0.1753, -0.0187, -0.2246],
+        [-0.2167, -0.0810, -0.1786,  ..., -0.2308, -0.0592,  0.1607]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -4.6566e-09,  ...,  2.7940e-09,
+          0.0000e+00, -2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  5.0291e-08,
+          7.4506e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  7.4506e-09,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -1.3970e-08,  ...,  5.5879e-09,
+         -1.5832e-08,  2.7940e-09],
+        [ 9.3132e-10,  0.0000e+00,  2.7940e-09,  ..., -6.3330e-08,
+          3.7253e-09,  9.3132e-10],
+        [ 2.7940e-09,  0.0000e+00,  8.3819e-09,  ...,  0.0000e+00,
+          5.5879e-09, -3.7253e-09]], device='cuda:0')
+Epoch 409, bias, value: tensor([-0.0381, -0.0302,  0.0087,  0.0305, -0.0186,  0.0063, -0.0172,  0.0160,
+         0.0097, -0.0050], device='cuda:0'), grad: tensor([ 5.5879e-09,  1.2806e-06,  1.6764e-07,  2.1420e-08,  1.7695e-08,
+         9.3132e-10, -2.6077e-08, -7.4506e-09, -1.4808e-06,  1.7695e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 408, time 214.44, cls_loss 0.0004 cls_loss_mapping 0.0005 cls_loss_causal 0.4398 re_mapping 0.0025 re_causal 0.0087 /// teacc 99.13 lr 0.00001000
+Epoch 410, weight, value: tensor([[-0.1504,  0.0564,  0.0932,  ..., -0.1012, -0.1924,  0.0740],
+        [-0.1313, -0.0661, -0.1515,  ...,  0.2020, -0.1204, -0.1113],
+        [-0.0806,  0.0155,  0.2504,  ..., -0.1747, -0.1727, -0.2037],
+        ...,
+        [-0.2171, -0.0778,  0.0328,  ..., -0.0685,  0.1324, -0.1123],
+        [-0.1462, -0.1021, -0.0930,  ..., -0.1753, -0.0187, -0.2247],
+        [-0.2167, -0.0810, -0.1786,  ..., -0.2308, -0.0592,  0.1607]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -3.2969e-07,  ..., -5.5879e-09,
+          0.0000e+00, -4.1351e-07],
+        [ 1.8626e-09,  0.0000e+00,  1.1176e-08,  ..., -6.5193e-09,
+          8.3819e-09,  1.7695e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.0245e-08,  ...,  0.0000e+00,
+          9.3132e-10,  1.2107e-08],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  4.6566e-09,  ...,  5.5879e-09,
+         -1.3970e-08,  2.0489e-08],
+        [ 0.0000e+00,  0.0000e+00,  5.4017e-08,  ...,  3.3528e-08,
+         -0.0000e+00,  9.4995e-08],
+        [ 1.2107e-08,  0.0000e+00,  1.9558e-07,  ...,  5.5879e-09,
+          3.7253e-09,  1.8720e-07]], device='cuda:0')
+Epoch 410, bias, value: tensor([-0.0381, -0.0302,  0.0087,  0.0305, -0.0186,  0.0063, -0.0172,  0.0160,
+         0.0097, -0.0050], device='cuda:0'), grad: tensor([-1.2517e-06,  6.6124e-08,  4.2841e-08,  2.4028e-07,  6.5193e-09,
+         8.8476e-08, -6.7055e-08,  3.7253e-08,  2.0582e-07,  6.3982e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 409, time 214.42, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4439 re_mapping 0.0025 re_causal 0.0089 /// teacc 99.14 lr 0.00001000
+Epoch 411, weight, value: tensor([[-0.1504,  0.0564,  0.0933,  ..., -0.1012, -0.1924,  0.0740],
+        [-0.1313, -0.0661, -0.1515,  ...,  0.2020, -0.1204, -0.1113],
+        [-0.0806,  0.0155,  0.2504,  ..., -0.1747, -0.1727, -0.2038],
+        ...,
+        [-0.2171, -0.0778,  0.0328,  ..., -0.0685,  0.1325, -0.1124],
+        [-0.1462, -0.1021, -0.0930,  ..., -0.1754, -0.0187, -0.2247],
+        [-0.2167, -0.0810, -0.1786,  ..., -0.2308, -0.0592,  0.1607]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  0.0000e+00, -4.6566e-09,  ...,  1.8626e-09,
+          3.7253e-09, -7.4506e-09],
+        [ 5.5879e-09,  0.0000e+00,  5.3085e-08,  ..., -2.7940e-09,
+          7.9162e-08,  9.3132e-10],
+        [ 2.7940e-09,  0.0000e+00,  1.2759e-07,  ...,  0.0000e+00,
+          1.5832e-07,  0.0000e+00],
+        ...,
+        [ 2.3283e-08,  0.0000e+00, -3.3807e-07,  ...,  1.8626e-09,
+         -4.7870e-07,  1.8626e-09],
+        [ 5.5879e-09,  0.0000e+00,  7.4506e-08,  ...,  3.7253e-09,
+          9.1270e-08,  1.0245e-08],
+        [ 9.3132e-09,  0.0000e+00,  5.6811e-08,  ...,  0.0000e+00,
+          1.0896e-07, -1.1176e-08]], device='cuda:0')
+Epoch 411, bias, value: tensor([-0.0380, -0.0302,  0.0087,  0.0305, -0.0186,  0.0063, -0.0172,  0.0160,
+         0.0097, -0.0050], device='cuda:0'), grad: tensor([-1.8626e-09,  2.6356e-07,  4.9453e-07,  1.1921e-07, -4.9360e-08,
+        -8.7544e-08,  8.3819e-08, -1.5162e-06,  3.3155e-07,  3.5670e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 410, time 214.46, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4052 re_mapping 0.0024 re_causal 0.0083 /// teacc 99.15 lr 0.00001000
+Epoch 412, weight, value: tensor([[-0.1504,  0.0564,  0.0933,  ..., -0.1012, -0.1924,  0.0740],
+        [-0.1313, -0.0661, -0.1515,  ...,  0.2020, -0.1204, -0.1114],
+        [-0.0806,  0.0155,  0.2505,  ..., -0.1748, -0.1727, -0.2038],
+        ...,
+        [-0.2171, -0.0778,  0.0328,  ..., -0.0685,  0.1325, -0.1124],
+        [-0.1462, -0.1021, -0.0930,  ..., -0.1755, -0.0187, -0.2247],
+        [-0.2167, -0.0810, -0.1787,  ..., -0.2308, -0.0592,  0.1607]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -9.3132e-10,  ...,  1.5832e-08,
+          0.0000e+00, -9.3132e-10],
+        [ 9.3132e-10,  0.0000e+00,  4.6566e-09,  ..., -9.3132e-10,
+          6.5193e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00, -9.3132e-09,  ...,  9.3132e-10,
+         -1.3970e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  7.4506e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 5.5879e-09,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+          3.7253e-09,  9.3132e-10]], device='cuda:0')
+Epoch 412, bias, value: tensor([-0.0380, -0.0302,  0.0087,  0.0305, -0.0186,  0.0063, -0.0172,  0.0160,
+         0.0097, -0.0050], device='cuda:0'), grad: tensor([ 6.3330e-08,  2.1420e-08,  6.5193e-09, -1.8626e-09, -5.5879e-09,
+         1.1176e-08, -1.0245e-07, -3.1665e-08,  2.2352e-08,  1.9558e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 411, time 214.25, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4574 re_mapping 0.0025 re_causal 0.0089 /// teacc 99.12 lr 0.00001000
+Epoch 413, weight, value: tensor([[-0.1505,  0.0564,  0.0933,  ..., -0.1012, -0.1925,  0.0740],
+        [-0.1313, -0.0661, -0.1515,  ...,  0.2020, -0.1204, -0.1114],
+        [-0.0806,  0.0155,  0.2505,  ..., -0.1748, -0.1727, -0.2038],
+        ...,
+        [-0.2172, -0.0778,  0.0328,  ..., -0.0685,  0.1325, -0.1124],
+        [-0.1462, -0.1021, -0.0930,  ..., -0.1756, -0.0187, -0.2248],
+        [-0.2168, -0.0810, -0.1787,  ..., -0.2308, -0.0593,  0.1607]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -9.3132e-10,  ...,  2.2352e-08,
+          0.0000e+00,  7.4506e-09],
+        [ 9.3132e-10,  0.0000e+00,  5.5879e-09,  ...,  9.3132e-10,
+          9.3132e-10,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00, -1.1921e-07,  ...,  0.0000e+00,
+         -1.8626e-09,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  9.9652e-08,  ...,  9.3132e-10,
+         -8.3819e-09,  7.4506e-09],
+        [ 9.3132e-10,  0.0000e+00,  8.3819e-09,  ...,  6.5193e-08,
+          5.5879e-09,  3.3528e-08],
+        [ 5.5879e-09,  0.0000e+00,  3.7253e-09,  ...,  9.3132e-10,
+          3.7253e-09, -1.0245e-08]], device='cuda:0')
+Epoch 413, bias, value: tensor([-0.0380, -0.0302,  0.0087,  0.0304, -0.0186,  0.0063, -0.0172,  0.0160,
+         0.0097, -0.0051], device='cuda:0'), grad: tensor([ 7.9162e-08,  1.6764e-08, -2.1141e-07,  1.3970e-08,  0.0000e+00,
+        -1.7695e-08, -3.3621e-07,  1.8813e-07,  2.6543e-07, -8.3819e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 412, time 214.42, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4779 re_mapping 0.0024 re_causal 0.0088 /// teacc 99.12 lr 0.00001000
+Epoch 414, weight, value: tensor([[-0.1505,  0.0564,  0.0933,  ..., -0.1013, -0.1925,  0.0740],
+        [-0.1314, -0.0661, -0.1515,  ...,  0.2020, -0.1204, -0.1114],
+        [-0.0807,  0.0155,  0.2505,  ..., -0.1748, -0.1727, -0.2038],
+        ...,
+        [-0.2172, -0.0778,  0.0328,  ..., -0.0685,  0.1325, -0.1125],
+        [-0.1462, -0.1021, -0.0930,  ..., -0.1756, -0.0187, -0.2248],
+        [-0.2168, -0.0810, -0.1787,  ..., -0.2309, -0.0593,  0.1607]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  0.0000e+00,  1.5832e-08,  ...,  0.0000e+00,
+          0.0000e+00, -5.1223e-09],
+        [ 2.3283e-09,  0.0000e+00,  1.8626e-09,  ..., -3.2131e-08,
+          1.3970e-09,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00, -2.8638e-07,  ...,  6.0536e-09,
+          4.6566e-10,  0.0000e+00],
+        ...,
+        [ 3.2596e-09,  0.0000e+00,  7.0781e-08,  ...,  1.8161e-08,
+          1.1642e-08,  4.6566e-10],
+        [ 1.8626e-09,  0.0000e+00,  7.9162e-09,  ...,  7.9162e-09,
+          1.3970e-09,  4.6566e-10],
+        [ 2.0582e-07,  0.0000e+00,  5.1223e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.2596e-09]], device='cuda:0')
+Epoch 414, bias, value: tensor([-0.0380, -0.0302,  0.0087,  0.0304, -0.0186,  0.0063, -0.0172,  0.0160,
+         0.0097, -0.0051], device='cuda:0'), grad: tensor([ 3.4925e-08, -4.7032e-08, -5.4063e-07,  3.4133e-07, -3.9162e-07,
+         1.2107e-08,  3.6322e-08,  2.9337e-07, -1.4156e-07,  4.1118e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 413, time 214.51, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4180 re_mapping 0.0024 re_causal 0.0083 /// teacc 99.17 lr 0.00001000
+Epoch 415, weight, value: tensor([[-0.1505,  0.0564,  0.0934,  ..., -0.1013, -0.1925,  0.0741],
+        [-0.1314, -0.0661, -0.1515,  ...,  0.2020, -0.1204, -0.1114],
+        [-0.0807,  0.0155,  0.2505,  ..., -0.1748, -0.1728, -0.2038],
+        ...,
+        [-0.2172, -0.0778,  0.0328,  ..., -0.0685,  0.1325, -0.1125],
+        [-0.1462, -0.1021, -0.0930,  ..., -0.1757, -0.0187, -0.2248],
+        [-0.2168, -0.0810, -0.1788,  ..., -0.2309, -0.0593,  0.1607]],
+       device='cuda:0'), grad: tensor([[ 1.3039e-08, -0.0000e+00, -9.3132e-10,  ...,  3.2596e-09,
+          0.0000e+00,  2.3283e-09],
+        [ 1.4110e-07,  0.0000e+00,  8.3819e-09,  ...,  3.1199e-08,
+          7.9162e-09,  1.8626e-09],
+        [ 4.6566e-09,  0.0000e+00,  5.3551e-08,  ...,  1.8626e-09,
+          4.3772e-08,  0.0000e+00],
+        ...,
+        [ 1.6298e-08,  0.0000e+00, -7.3109e-08,  ...,  6.5193e-09,
+         -6.1002e-08,  1.8626e-09],
+        [ 2.3283e-09,  0.0000e+00,  2.3283e-09,  ...,  1.8626e-09,
+          2.3283e-09,  4.6566e-10],
+        [ 3.9581e-08,  0.0000e+00,  3.2596e-09,  ...,  8.3819e-09,
+          1.8626e-09, -6.8452e-08]], device='cuda:0')
+Epoch 415, bias, value: tensor([-0.0380, -0.0302,  0.0087,  0.0304, -0.0186,  0.0064, -0.0172,  0.0160,
+         0.0097, -0.0051], device='cuda:0'), grad: tensor([ 4.2375e-08,  2.4633e-07,  1.7509e-07,  2.5611e-07, -3.7206e-07,
+         2.7474e-08,  1.7602e-07, -1.0990e-07, -3.9907e-07, -4.7497e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 414, time 214.66, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4421 re_mapping 0.0023 re_causal 0.0084 /// teacc 99.18 lr 0.00001000
+Epoch 416, weight, value: tensor([[-0.1506,  0.0564,  0.0934,  ..., -0.1013, -0.1925,  0.0741],
+        [-0.1314, -0.0661, -0.1516,  ...,  0.2021, -0.1204, -0.1115],
+        [-0.0807,  0.0155,  0.2505,  ..., -0.1748, -0.1728, -0.2039],
+        ...,
+        [-0.2172, -0.0778,  0.0329,  ..., -0.0685,  0.1325, -0.1126],
+        [-0.1463, -0.1021, -0.0930,  ..., -0.1758, -0.0187, -0.2249],
+        [-0.2168, -0.0810, -0.1788,  ..., -0.2309, -0.0594,  0.1607]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -9.3132e-10,  ...,  0.0000e+00,
+          4.6566e-10,  4.6566e-10],
+        [ 4.6566e-10,  0.0000e+00,  4.1910e-09,  ..., -1.4435e-08,
+          9.3132e-09,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  3.2596e-09,  ...,  4.6566e-10,
+          7.4506e-09,  4.6566e-10],
+        ...,
+        [ 1.3970e-09,  0.0000e+00, -1.6298e-08,  ...,  1.3504e-08,
+         -3.4925e-08,  7.4506e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  2.3283e-09,
+          2.7940e-09,  2.3283e-09],
+        [ 6.0536e-09,  0.0000e+00,  6.5193e-09,  ...,  0.0000e+00,
+          1.0710e-08, -1.4901e-08]], device='cuda:0')
+Epoch 416, bias, value: tensor([-0.0380, -0.0302,  0.0087,  0.0304, -0.0186,  0.0064, -0.0172,  0.0160,
+         0.0097, -0.0051], device='cuda:0'), grad: tensor([ 2.7940e-09, -1.2573e-08,  2.0023e-08,  3.8184e-08,  6.5193e-09,
+        -6.2399e-08,  2.5611e-08, -2.6543e-08,  2.0023e-08, -1.3970e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 415, time 214.33, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4264 re_mapping 0.0024 re_causal 0.0083 /// teacc 99.18 lr 0.00001000
+Epoch 417, weight, value: tensor([[-0.1506,  0.0565,  0.0934,  ..., -0.1013, -0.1926,  0.0741],
+        [-0.1314, -0.0661, -0.1516,  ...,  0.2021, -0.1204, -0.1115],
+        [-0.0807,  0.0155,  0.2505,  ..., -0.1749, -0.1728, -0.2039],
+        ...,
+        [-0.2173, -0.0778,  0.0329,  ..., -0.0685,  0.1325, -0.1126],
+        [-0.1463, -0.1021, -0.0930,  ..., -0.1758, -0.0187, -0.2249],
+        [-0.2169, -0.0810, -0.1789,  ..., -0.2309, -0.0594,  0.1607]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  4.6566e-10,  ...,  2.7940e-09,
+          4.6566e-10,  1.3970e-09],
+        [ 4.6566e-10,  0.0000e+00,  5.1223e-09,  ..., -6.0536e-09,
+          5.5879e-09,  0.0000e+00],
+        [ 1.3970e-09,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          4.1910e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -2.3749e-08,  ...,  5.5879e-09,
+         -2.9802e-08,  4.1910e-09],
+        [ 2.3283e-09,  0.0000e+00,  4.1910e-09,  ...,  7.6368e-08,
+          2.3283e-09,  2.4680e-08],
+        [ 6.0536e-09,  0.0000e+00,  1.1642e-08,  ...,  9.3132e-10,
+          1.3970e-08, -2.5611e-08]], device='cuda:0')
+Epoch 417, bias, value: tensor([-0.0380, -0.0302,  0.0087,  0.0304, -0.0186,  0.0064, -0.0172,  0.0160,
+         0.0097, -0.0051], device='cuda:0'), grad: tensor([ 1.3504e-08, -4.6566e-10,  5.1223e-09,  4.6566e-09, -3.6787e-08,
+         1.2107e-08, -2.2352e-07, -3.9581e-08,  2.8964e-07, -1.3504e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 416, time 214.15, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4251 re_mapping 0.0023 re_causal 0.0083 /// teacc 99.17 lr 0.00001000
+Epoch 418, weight, value: tensor([[-0.1506,  0.0565,  0.0935,  ..., -0.1014, -0.1926,  0.0741],
+        [-0.1314, -0.0661, -0.1516,  ...,  0.2021, -0.1204, -0.1115],
+        [-0.0807,  0.0155,  0.2505,  ..., -0.1749, -0.1728, -0.2039],
+        ...,
+        [-0.2173, -0.0778,  0.0329,  ..., -0.0685,  0.1325, -0.1127],
+        [-0.1463, -0.1021, -0.0930,  ..., -0.1759, -0.0187, -0.2249],
+        [-0.2169, -0.0811, -0.1790,  ..., -0.2309, -0.0594,  0.1607]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  9.3132e-10,  ...,  2.3283e-09,
+          9.3132e-10, -7.4506e-08],
+        [ 1.3970e-09,  0.0000e+00,  6.0536e-09,  ...,  4.6566e-10,
+          4.1910e-09,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00, -6.2864e-08,  ...,  4.6566e-10,
+          2.3283e-09,  1.8626e-09],
+        ...,
+        [ 2.7940e-09,  0.0000e+00, -4.6566e-10,  ...,  4.6566e-10,
+         -1.0710e-08,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-09,  ...,  4.8429e-08,
+          2.7940e-09,  1.0245e-08],
+        [ 8.3819e-09,  0.0000e+00,  2.1886e-08,  ...,  4.6566e-10,
+          3.7253e-09,  4.0978e-08]], device='cuda:0')
+Epoch 418, bias, value: tensor([-0.0380, -0.0302,  0.0087,  0.0304, -0.0186,  0.0063, -0.0172,  0.0160,
+         0.0097, -0.0051], device='cuda:0'), grad: tensor([-1.1455e-07,  2.8871e-08, -9.3598e-08, -1.7695e-08, -1.3970e-08,
+        -2.1420e-08, -8.3819e-08,  1.5832e-08,  1.8626e-07,  1.2293e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 417, time 214.20, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4581 re_mapping 0.0023 re_causal 0.0085 /// teacc 99.19 lr 0.00001000
+Epoch 419, weight, value: tensor([[-0.1506,  0.0565,  0.0935,  ..., -0.1014, -0.1926,  0.0741],
+        [-0.1314, -0.0661, -0.1516,  ...,  0.2021, -0.1204, -0.1116],
+        [-0.0807,  0.0155,  0.2505,  ..., -0.1749, -0.1728, -0.2039],
+        ...,
+        [-0.2173, -0.0778,  0.0329,  ..., -0.0685,  0.1325, -0.1128],
+        [-0.1463, -0.1021, -0.0930,  ..., -0.1760, -0.0187, -0.2250],
+        [-0.2169, -0.0811, -0.1790,  ..., -0.2309, -0.0594,  0.1608]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.3039e-08,  ...,  0.0000e+00,
+          9.3132e-10, -1.6298e-08],
+        [ 0.0000e+00,  0.0000e+00,  7.9162e-09,  ..., -1.8626e-09,
+          1.8626e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00, -3.4738e-07,  ...,  0.0000e+00,
+          4.6566e-10,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.0291e-07,  ...,  1.3970e-09,
+         -1.8626e-09,  4.1910e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.1234e-07,  ...,  4.6566e-10,
+          4.4284e-07,  4.8429e-08],
+        [ 4.6566e-10,  0.0000e+00,  8.3819e-09,  ...,  0.0000e+00,
+          1.3970e-09, -4.6566e-10]], device='cuda:0')
+Epoch 419, bias, value: tensor([-0.0379, -0.0302,  0.0086,  0.0304, -0.0186,  0.0063, -0.0172,  0.0160,
+         0.0097, -0.0051], device='cuda:0'), grad: tensor([-3.3993e-08,  2.0023e-08, -6.7102e-07,  8.4285e-08,  1.1176e-08,
+        -1.1716e-06,  1.1921e-07,  2.2398e-07,  1.4128e-06,  6.0536e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 418, time 214.23, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4037 re_mapping 0.0023 re_causal 0.0081 /// teacc 99.20 lr 0.00001000
+Epoch 420, weight, value: tensor([[-0.1506,  0.0565,  0.0935,  ..., -0.1014, -0.1926,  0.0741],
+        [-0.1314, -0.0661, -0.1516,  ...,  0.2021, -0.1204, -0.1116],
+        [-0.0807,  0.0155,  0.2505,  ..., -0.1749, -0.1729, -0.2039],
+        ...,
+        [-0.2174, -0.0778,  0.0329,  ..., -0.0685,  0.1325, -0.1129],
+        [-0.1464, -0.1021, -0.0930,  ..., -0.1761, -0.0187, -0.2250],
+        [-0.2169, -0.0811, -0.1791,  ..., -0.2310, -0.0595,  0.1608]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.1910e-09,  ...,  8.8476e-09,
+          0.0000e+00, -4.6566e-09],
+        [ 4.6566e-10,  0.0000e+00,  1.2573e-08,  ..., -4.6566e-10,
+          1.1176e-08,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  6.0536e-09,  ...,  4.6566e-10,
+          6.9849e-09,  4.6566e-10],
+        ...,
+        [ 9.3132e-10,  0.0000e+00, -2.6543e-08,  ...,  3.2596e-09,
+         -2.6543e-08,  2.5146e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.2596e-09,  ...,  1.0245e-08,
+          2.7940e-09,  2.7940e-09],
+        [ 3.2596e-09,  0.0000e+00,  6.0536e-09,  ...,  9.3132e-10,
+          2.7940e-09, -4.2375e-08]], device='cuda:0')
+Epoch 420, bias, value: tensor([-0.0379, -0.0302,  0.0086,  0.0304, -0.0186,  0.0063, -0.0172,  0.0160,
+         0.0097, -0.0051], device='cuda:0'), grad: tensor([ 2.6077e-08,  4.4238e-08,  2.0023e-08,  2.4214e-08,  6.7055e-08,
+         5.0757e-08, -1.3411e-07,  2.6543e-08,  1.7695e-08, -1.2852e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 419, time 214.40, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4039 re_mapping 0.0023 re_causal 0.0080 /// teacc 99.17 lr 0.00001000
+Epoch 421, weight, value: tensor([[-0.1507,  0.0565,  0.0936,  ..., -0.1014, -0.1927,  0.0742],
+        [-0.1314, -0.0661, -0.1516,  ...,  0.2021, -0.1204, -0.1116],
+        [-0.0808,  0.0155,  0.2505,  ..., -0.1749, -0.1729, -0.2040],
+        ...,
+        [-0.2174, -0.0778,  0.0329,  ..., -0.0685,  0.1325, -0.1129],
+        [-0.1464, -0.1021, -0.0930,  ..., -0.1762, -0.0187, -0.2250],
+        [-0.2169, -0.0811, -0.1791,  ..., -0.2310, -0.0595,  0.1608]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  1.6298e-08,
+          0.0000e+00, -9.7789e-09],
+        [ 9.3132e-10,  0.0000e+00,  4.6566e-09,  ..., -2.7474e-08,
+          3.7253e-09,  2.7940e-09],
+        [-0.0000e+00,  0.0000e+00, -2.1420e-08,  ...,  6.0536e-09,
+          2.7940e-09,  4.6566e-10],
+        ...,
+        [ 1.3970e-09,  0.0000e+00,  1.1176e-08,  ...,  1.7695e-08,
+         -1.4435e-08,  6.9849e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.1910e-09,  ...,  1.2107e-08,
+          1.3970e-09,  1.0245e-08],
+        [ 7.4506e-09,  0.0000e+00, -4.1910e-09,  ...,  1.3970e-09,
+          4.1910e-09, -4.8429e-08]], device='cuda:0')
+Epoch 421, bias, value: tensor([-0.0379, -0.0302,  0.0086,  0.0304, -0.0186,  0.0064, -0.0172,  0.0160,
+         0.0097, -0.0051], device='cuda:0'), grad: tensor([ 7.4040e-08, -5.1688e-08,  4.6566e-09,  1.4435e-08,  5.8208e-08,
+         1.6298e-08, -1.3411e-07,  5.4948e-08,  8.1956e-08, -1.0943e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 420, time 214.37, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4245 re_mapping 0.0023 re_causal 0.0083 /// teacc 99.19 lr 0.00001000
+Epoch 422, weight, value: tensor([[-0.1507,  0.0565,  0.0936,  ..., -0.1014, -0.1927,  0.0742],
+        [-0.1314, -0.0661, -0.1516,  ...,  0.2021, -0.1204, -0.1116],
+        [-0.0808,  0.0155,  0.2506,  ..., -0.1749, -0.1729, -0.2040],
+        ...,
+        [-0.2175, -0.0778,  0.0329,  ..., -0.0685,  0.1325, -0.1130],
+        [-0.1464, -0.1021, -0.0930,  ..., -0.1763, -0.0188, -0.2251],
+        [-0.2170, -0.0811, -0.1792,  ..., -0.2310, -0.0596,  0.1608]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -0.0000e+00, -2.7940e-09,  ...,  9.3132e-10,
+          0.0000e+00, -9.3132e-10],
+        [ 4.6566e-10,  0.0000e+00,  1.3970e-09,  ..., -3.7253e-09,
+          0.0000e+00,  2.3283e-09],
+        [ 0.0000e+00,  0.0000e+00, -5.5879e-09,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  4.1910e-09,  ...,  3.2596e-09,
+          0.0000e+00,  5.5879e-09],
+        [ 4.6566e-10,  0.0000e+00,  4.6566e-10,  ...,  2.7940e-09,
+          0.0000e+00,  1.3970e-09],
+        [ 2.3283e-09,  0.0000e+00,  1.3970e-09,  ...,  0.0000e+00,
+          0.0000e+00, -1.7229e-08]], device='cuda:0')
+Epoch 422, bias, value: tensor([-0.0379, -0.0302,  0.0087,  0.0304, -0.0186,  0.0064, -0.0172,  0.0160,
+         0.0097, -0.0051], device='cuda:0'), grad: tensor([ 2.2817e-08,  5.1223e-09, -9.3132e-10, -5.5879e-07,  2.1420e-08,
+         4.9826e-07, -1.7229e-08,  5.4017e-08,  2.1886e-08, -3.6322e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 421, time 214.20, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4209 re_mapping 0.0023 re_causal 0.0083 /// teacc 99.17 lr 0.00001000
+Epoch 423, weight, value: tensor([[-0.1507,  0.0565,  0.0936,  ..., -0.1014, -0.1927,  0.0742],
+        [-0.1314, -0.0661, -0.1516,  ...,  0.2021, -0.1204, -0.1117],
+        [-0.0808,  0.0155,  0.2506,  ..., -0.1750, -0.1729, -0.2040],
+        ...,
+        [-0.2175, -0.0778,  0.0329,  ..., -0.0685,  0.1325, -0.1130],
+        [-0.1464, -0.1021, -0.0930,  ..., -0.1764, -0.0188, -0.2251],
+        [-0.2170, -0.0811, -0.1792,  ..., -0.2310, -0.0596,  0.1608]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  0.0000e+00, -1.6298e-08,  ...,  6.0536e-09,
+          0.0000e+00, -7.9162e-09],
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-09,  ..., -7.4506e-09,
+          8.3819e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  5.1223e-09,  ...,  9.3132e-10,
+          4.6566e-09,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  0.0000e+00, -5.5879e-09,  ...,  7.4506e-09,
+          4.6566e-10,  3.7253e-09],
+        [ 3.2596e-09,  0.0000e+00,  3.7253e-09,  ...,  4.6566e-09,
+          6.9849e-09,  2.3749e-08],
+        [-6.5193e-09,  0.0000e+00,  1.3970e-08,  ...,  0.0000e+00,
+          1.0245e-08, -3.7253e-08]], device='cuda:0')
+Epoch 423, bias, value: tensor([-0.0379, -0.0302,  0.0087,  0.0304, -0.0186,  0.0064, -0.0172,  0.0160,
+         0.0097, -0.0052], device='cuda:0'), grad: tensor([-2.7940e-09,  1.5367e-08,  2.1886e-08, -1.3923e-07,  2.7474e-08,
+        -1.3970e-09, -9.7789e-09,  1.6065e-07, -2.9337e-08, -4.1444e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 422, time 214.25, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4482 re_mapping 0.0023 re_causal 0.0085 /// teacc 99.18 lr 0.00001000
+Epoch 424, weight, value: tensor([[-0.1507,  0.0565,  0.0937,  ..., -0.1015, -0.1927,  0.0742],
+        [-0.1315, -0.0661, -0.1516,  ...,  0.2021, -0.1204, -0.1117],
+        [-0.0808,  0.0155,  0.2506,  ..., -0.1750, -0.1730, -0.2040],
+        ...,
+        [-0.2176, -0.0778,  0.0329,  ..., -0.0685,  0.1325, -0.1131],
+        [-0.1465, -0.1021, -0.0930,  ..., -0.1765, -0.0188, -0.2251],
+        [-0.2170, -0.0811, -0.1792,  ..., -0.2311, -0.0596,  0.1608]],
+       device='cuda:0'), grad: tensor([[ 3.8184e-08,  0.0000e+00, -1.8626e-09,  ...,  2.4214e-08,
+          0.0000e+00,  9.3132e-10],
+        [ 4.3772e-08,  0.0000e+00,  3.3528e-08,  ...,  1.1176e-08,
+          3.6322e-08,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  3.7253e-09,  ...,  9.3132e-10,
+          3.7253e-09,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00, -5.0291e-08,  ...,  1.2107e-08,
+         -5.4017e-08,  3.7253e-09],
+        [ 2.4214e-08,  0.0000e+00,  1.8626e-09,  ...,  1.6764e-08,
+          1.8626e-09,  9.3132e-10],
+        [ 8.3819e-09,  0.0000e+00,  1.2107e-08,  ...,  2.7940e-09,
+          1.1176e-08, -2.8871e-08]], device='cuda:0')
+Epoch 424, bias, value: tensor([-0.0379, -0.0302,  0.0087,  0.0304, -0.0186,  0.0064, -0.0172,  0.0160,
+         0.0097, -0.0052], device='cuda:0'), grad: tensor([ 1.1735e-07,  2.0862e-07,  2.8871e-08,  5.3085e-08,  6.0536e-07,
+         2.4401e-07, -1.1446e-06, -1.3225e-07,  1.1176e-08, -6.5193e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 423, time 214.50, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4251 re_mapping 0.0022 re_causal 0.0082 /// teacc 99.20 lr 0.00001000
+Epoch 425, weight, value: tensor([[-0.1508,  0.0566,  0.0937,  ..., -0.1015, -0.1927,  0.0742],
+        [-0.1315, -0.0661, -0.1517,  ...,  0.2021, -0.1204, -0.1117],
+        [-0.0808,  0.0155,  0.2506,  ..., -0.1750, -0.1730, -0.2040],
+        ...,
+        [-0.2176, -0.0778,  0.0329,  ..., -0.0685,  0.1325, -0.1132],
+        [-0.1465, -0.1021, -0.0930,  ..., -0.1766, -0.0188, -0.2251],
+        [-0.2170, -0.0811, -0.1793,  ..., -0.2311, -0.0597,  0.1608]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  0.0000e+00, -5.5879e-09,  ...,  9.3132e-09,
+          9.3132e-10,  9.3132e-10],
+        [ 2.3283e-08,  0.0000e+00,  1.6764e-08,  ..., -1.3039e-08,
+          2.7940e-08,  3.7253e-09],
+        [ 4.6566e-09,  0.0000e+00,  5.5879e-09,  ...,  1.8626e-09,
+          9.3132e-09,  9.3132e-10],
+        ...,
+        [ 1.3039e-08,  0.0000e+00, -3.9116e-08,  ...,  8.3819e-09,
+         -6.3330e-08,  1.6764e-08],
+        [ 1.8626e-09,  0.0000e+00,  3.7253e-09,  ...,  9.3132e-09,
+          5.5879e-09,  3.7253e-09],
+        [ 3.0734e-08,  0.0000e+00,  1.3039e-08,  ...,  9.3132e-10,
+          1.5832e-08, -5.1223e-08]], device='cuda:0')
+Epoch 425, bias, value: tensor([-0.0379, -0.0302,  0.0087,  0.0304, -0.0186,  0.0064, -0.0172,  0.0160,
+         0.0097, -0.0052], device='cuda:0'), grad: tensor([ 3.1665e-08,  9.1270e-08,  4.0978e-08,  2.6077e-08, -7.3574e-08,
+        -3.7253e-08, -1.2107e-08, -9.3132e-08,  5.3085e-08, -1.3970e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 424, time 214.47, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4216 re_mapping 0.0022 re_causal 0.0081 /// teacc 99.19 lr 0.00001000
+Epoch 426, weight, value: tensor([[-0.1508,  0.0566,  0.0938,  ..., -0.1015, -0.1927,  0.0742],
+        [-0.1315, -0.0661, -0.1517,  ...,  0.2021, -0.1204, -0.1117],
+        [-0.0808,  0.0155,  0.2506,  ..., -0.1751, -0.1730, -0.2041],
+        ...,
+        [-0.2177, -0.0778,  0.0329,  ..., -0.0685,  0.1325, -0.1132],
+        [-0.1465, -0.1021, -0.0930,  ..., -0.1767, -0.0188, -0.2252],
+        [-0.2170, -0.0812, -0.1794,  ..., -0.2311, -0.0597,  0.1608]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  1.8626e-09,
+          0.0000e+00, -9.3132e-10],
+        [ 1.8626e-09,  0.0000e+00,  9.3132e-10,  ...,  5.5879e-09,
+          9.3132e-10,  1.8626e-09],
+        [-1.8626e-09,  0.0000e+00, -1.6764e-08,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 2.7940e-09,  0.0000e+00,  2.7940e-09,  ...,  9.3132e-10,
+          0.0000e+00,  2.7940e-08],
+        [ 9.3132e-10,  0.0000e+00,  3.7253e-09,  ..., -4.6566e-09,
+          0.0000e+00,  9.3132e-10],
+        [ 1.5460e-07,  0.0000e+00, -9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00, -7.4506e-09]], device='cuda:0')
+Epoch 426, bias, value: tensor([-0.0379, -0.0302,  0.0087,  0.0304, -0.0186,  0.0064, -0.0172,  0.0160,
+         0.0097, -0.0052], device='cuda:0'), grad: tensor([ 3.0734e-08,  1.2014e-07, -2.7940e-08, -6.2399e-08, -2.2911e-07,
+         7.5437e-08, -1.3970e-08,  1.0803e-07, -1.3970e-07,  1.5274e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 425, time 214.49, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4086 re_mapping 0.0023 re_causal 0.0080 /// teacc 99.19 lr 0.00001000
+Epoch 427, weight, value: tensor([[-0.1508,  0.0566,  0.0939,  ..., -0.1015, -0.1928,  0.0743],
+        [-0.1315, -0.0661, -0.1517,  ...,  0.2021, -0.1204, -0.1118],
+        [-0.0809,  0.0155,  0.2506,  ..., -0.1751, -0.1730, -0.2041],
+        ...,
+        [-0.2177, -0.0779,  0.0329,  ..., -0.0685,  0.1325, -0.1133],
+        [-0.1465, -0.1021, -0.0931,  ..., -0.1768, -0.0188, -0.2252],
+        [-0.2171, -0.0812, -0.1795,  ..., -0.2312, -0.0597,  0.1607]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.9802e-08,  ...,  0.0000e+00,
+         -3.7253e-09, -5.0291e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ..., -5.5879e-09,
+          1.8626e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -2.7940e-09,  ...,  2.7940e-09,
+         -4.6566e-09,  2.1420e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+         -2.7940e-09,  1.8626e-09],
+        [ 1.8626e-09,  0.0000e+00,  5.5879e-09,  ...,  0.0000e+00,
+          1.8626e-09, -3.3528e-08]], device='cuda:0')
+Epoch 427, bias, value: tensor([-0.0378, -0.0302,  0.0087,  0.0304, -0.0185,  0.0064, -0.0172,  0.0160,
+         0.0097, -0.0052], device='cuda:0'), grad: tensor([-8.3819e-08,  9.3132e-10,  1.5832e-08,  7.3574e-08,  3.3528e-08,
+         1.0896e-07,  3.8184e-08,  7.9162e-08, -1.7695e-07, -8.3819e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 426, time 214.30, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4395 re_mapping 0.0023 re_causal 0.0083 /// teacc 99.19 lr 0.00001000
+Epoch 428, weight, value: tensor([[-0.1509,  0.0566,  0.0941,  ..., -0.1016, -0.1928,  0.0744],
+        [-0.1315, -0.0661, -0.1517,  ...,  0.2021, -0.1204, -0.1119],
+        [-0.0809,  0.0155,  0.2506,  ..., -0.1752, -0.1730, -0.2042],
+        ...,
+        [-0.2178, -0.0779,  0.0329,  ..., -0.0685,  0.1325, -0.1134],
+        [-0.1465, -0.1021, -0.0931,  ..., -0.1769, -0.0188, -0.2253],
+        [-0.2171, -0.0812, -0.1797,  ..., -0.2312, -0.0598,  0.1607]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -3.5390e-08,  ...,  9.3132e-10,
+          9.3132e-10, -4.6566e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-07,  ..., -2.4214e-08,
+          1.0245e-07,  9.3132e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.3970e-08,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -2.3283e-07,  ...,  2.2352e-08,
+         -2.1048e-07,  3.3621e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-08,  ...,  9.3132e-10,
+          5.5879e-09,  7.4506e-09],
+        [ 9.3132e-10,  0.0000e+00, -5.5879e-09,  ...,  0.0000e+00,
+          9.3132e-09, -3.5577e-07]], device='cuda:0')
+Epoch 428, bias, value: tensor([-0.0377, -0.0302,  0.0086,  0.0304, -0.0185,  0.0064, -0.0172,  0.0160,
+         0.0097, -0.0053], device='cuda:0'), grad: tensor([-1.2107e-07,  5.6904e-07,  3.3528e-08,  3.9116e-08,  2.7195e-07,
+         5.5879e-09,  1.3039e-08, -5.6811e-08,  2.4214e-08, -7.7486e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 427, time 214.31, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4230 re_mapping 0.0021 re_causal 0.0079 /// teacc 99.20 lr 0.00001000
+Epoch 429, weight, value: tensor([[-0.1509,  0.0566,  0.0942,  ..., -0.1016, -0.1928,  0.0744],
+        [-0.1315, -0.0661, -0.1517,  ...,  0.2021, -0.1204, -0.1119],
+        [-0.0809,  0.0155,  0.2507,  ..., -0.1752, -0.1731, -0.2042],
+        ...,
+        [-0.2179, -0.0779,  0.0330,  ..., -0.0685,  0.1325, -0.1136],
+        [-0.1466, -0.1021, -0.0931,  ..., -0.1771, -0.0188, -0.2254],
+        [-0.2172, -0.0812, -0.1798,  ..., -0.2312, -0.0598,  0.1607]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.6566e-09,  ...,  1.3970e-08,
+          0.0000e+00, -6.5193e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ..., -2.6077e-08,
+          4.6566e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00, -0.0000e+00,  ...,  5.5879e-09,
+          2.7940e-09,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -6.5193e-09,  ...,  1.6764e-08,
+         -1.3039e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.7695e-08,
+          2.7940e-09,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  9.3132e-10,
+          2.7940e-09,  7.4506e-09]], device='cuda:0')
+Epoch 429, bias, value: tensor([-0.0377, -0.0302,  0.0087,  0.0304, -0.0185,  0.0064, -0.0172,  0.0160,
+         0.0097, -0.0053], device='cuda:0'), grad: tensor([ 4.9360e-08, -5.1223e-08,  1.9558e-08,  8.3819e-09,  7.4506e-09,
+         6.3330e-08, -2.1234e-07,  1.1176e-08,  7.8231e-08,  2.6077e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 428, time 214.35, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4236 re_mapping 0.0022 re_causal 0.0082 /// teacc 99.19 lr 0.00001000
+Epoch 430, weight, value: tensor([[-0.1510,  0.0566,  0.0943,  ..., -0.1016, -0.1928,  0.0744],
+        [-0.1316, -0.0661, -0.1517,  ...,  0.2021, -0.1204, -0.1119],
+        [-0.0810,  0.0155,  0.2507,  ..., -0.1752, -0.1731, -0.2042],
+        ...,
+        [-0.2180, -0.0779,  0.0330,  ..., -0.0685,  0.1325, -0.1137],
+        [-0.1467, -0.1021, -0.0931,  ..., -0.1772, -0.0188, -0.2254],
+        [-0.2172, -0.0812, -0.1799,  ..., -0.2312, -0.0599,  0.1607]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  1.8626e-09],
+        [ 9.3132e-10,  0.0000e+00,  1.7695e-08,  ..., -3.7253e-09,
+          3.2596e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -3.0734e-08,  ...,  2.7940e-09,
+         -5.3085e-08,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  3.7253e-09,
+          1.8626e-09,  2.7940e-09],
+        [ 2.7940e-09,  0.0000e+00,  6.5193e-09,  ...,  9.3132e-10,
+          1.1176e-08, -9.3132e-09]], device='cuda:0')
+Epoch 430, bias, value: tensor([-0.0377, -0.0302,  0.0087,  0.0304, -0.0185,  0.0064, -0.0172,  0.0160,
+         0.0097, -0.0053], device='cuda:0'), grad: tensor([ 8.3819e-09,  6.5193e-08,  1.2107e-08,  1.4901e-08,  9.3132e-09,
+         1.3039e-08, -2.4214e-08, -9.5926e-08, -6.5193e-09,  9.3132e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 429, time 214.44, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4420 re_mapping 0.0022 re_causal 0.0082 /// teacc 99.19 lr 0.00001000
+Epoch 431, weight, value: tensor([[-0.1510,  0.0566,  0.0944,  ..., -0.1017, -0.1929,  0.0745],
+        [-0.1316, -0.0661, -0.1517,  ...,  0.2021, -0.1204, -0.1120],
+        [-0.0810,  0.0155,  0.2507,  ..., -0.1753, -0.1731, -0.2043],
+        ...,
+        [-0.2180, -0.0779,  0.0330,  ..., -0.0685,  0.1326, -0.1138],
+        [-0.1468, -0.1021, -0.0931,  ..., -0.1774, -0.0188, -0.2255],
+        [-0.2173, -0.0812, -0.1800,  ..., -0.2313, -0.0599,  0.1607]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00, -9.3132e-10,  ...,  7.4506e-09,
+          1.8626e-09,  1.8626e-09],
+        [ 1.8626e-09,  0.0000e+00,  2.7940e-09,  ..., -8.3819e-09,
+          3.7253e-09,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00, -9.3132e-10,  ...,  9.3132e-10,
+          4.6566e-09,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  0.0000e+00, -1.3970e-08,  ...,  7.4506e-09,
+         -1.9558e-08,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  1.0245e-08,  ...,  4.6566e-09,
+          1.0245e-08,  6.5193e-09],
+        [ 7.4506e-09,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+          2.7940e-09,  3.7253e-09]], device='cuda:0')
+Epoch 431, bias, value: tensor([-0.0376, -0.0302,  0.0086,  0.0303, -0.0185,  0.0064, -0.0172,  0.0160,
+         0.0097, -0.0053], device='cuda:0'), grad: tensor([ 6.6124e-08,  4.6566e-09,  5.5879e-09, -4.6566e-08, -1.5832e-08,
+        -1.3877e-07,  5.4017e-08, -1.3039e-08,  6.9849e-08,  2.7008e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 430, time 214.45, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4368 re_mapping 0.0021 re_causal 0.0081 /// teacc 99.23 lr 0.00001000
+Epoch 432, weight, value: tensor([[-0.1511,  0.0566,  0.0945,  ..., -0.1017, -0.1929,  0.0745],
+        [-0.1316, -0.0661, -0.1518,  ...,  0.2021, -0.1204, -0.1120],
+        [-0.0810,  0.0155,  0.2507,  ..., -0.1753, -0.1731, -0.2043],
+        ...,
+        [-0.2181, -0.0779,  0.0330,  ..., -0.0685,  0.1326, -0.1140],
+        [-0.1468, -0.1021, -0.0931,  ..., -0.1775, -0.0188, -0.2256],
+        [-0.2173, -0.0812, -0.1800,  ..., -0.2313, -0.0599,  0.1607]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00, -1.1176e-08,  ...,  9.3132e-10,
+          0.0000e+00, -1.3039e-08],
+        [ 1.4901e-08,  0.0000e+00,  0.0000e+00,  ..., -1.5832e-08,
+          9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.0245e-08,  0.0000e+00,  0.0000e+00,  ...,  1.0245e-08,
+          0.0000e+00,  9.3132e-10],
+        [ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  2.7940e-09,
+         -0.0000e+00,  2.7940e-09],
+        [ 7.1712e-08,  0.0000e+00,  4.6566e-09,  ...,  0.0000e+00,
+          0.0000e+00,  8.3819e-09]], device='cuda:0')
+Epoch 432, bias, value: tensor([-0.0376, -0.0302,  0.0086,  0.0303, -0.0185,  0.0064, -0.0172,  0.0160,
+         0.0097, -0.0054], device='cuda:0'), grad: tensor([-2.0489e-08, -1.3970e-08,  7.4506e-09, -2.5146e-08, -1.8533e-07,
+         1.6764e-08,  1.6764e-08,  5.3085e-08,  1.4901e-08,  1.5460e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 431, time 214.30, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4083 re_mapping 0.0021 re_causal 0.0080 /// teacc 99.21 lr 0.00001000
+Epoch 433, weight, value: tensor([[-0.1511,  0.0566,  0.0945,  ..., -0.1018, -0.1929,  0.0745],
+        [-0.1316, -0.0661, -0.1518,  ...,  0.2021, -0.1204, -0.1120],
+        [-0.0810,  0.0155,  0.2507,  ..., -0.1753, -0.1732, -0.2044],
+        ...,
+        [-0.2182, -0.0779,  0.0330,  ..., -0.0685,  0.1326, -0.1141],
+        [-0.1468, -0.1021, -0.0931,  ..., -0.1777, -0.0188, -0.2256],
+        [-0.2174, -0.0812, -0.1801,  ..., -0.2314, -0.0600,  0.1608]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  2.7940e-09,
+          0.0000e+00,  6.5193e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ..., -4.6566e-09,
+          9.3132e-10,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00, -1.4901e-08,  ...,  2.7940e-09,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  2.7940e-09,
+          9.3132e-10,  1.0245e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  3.7253e-09,
+          0.0000e+00,  6.5193e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00, -3.9116e-08]], device='cuda:0')
+Epoch 433, bias, value: tensor([-0.0376, -0.0302,  0.0086,  0.0303, -0.0185,  0.0064, -0.0171,  0.0160,
+         0.0097, -0.0054], device='cuda:0'), grad: tensor([ 3.6322e-08,  1.3039e-08, -1.8626e-09,  1.0245e-08,  1.7695e-08,
+         6.5193e-09, -2.7008e-08,  8.4750e-08, -4.0047e-08, -9.4064e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 432, time 214.28, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4193 re_mapping 0.0022 re_causal 0.0080 /// teacc 99.19 lr 0.00001000
+Epoch 434, weight, value: tensor([[-0.1512,  0.0566,  0.0946,  ..., -0.1018, -0.1930,  0.0745],
+        [-0.1317, -0.0661, -0.1518,  ...,  0.2021, -0.1204, -0.1121],
+        [-0.0810,  0.0155,  0.2508,  ..., -0.1754, -0.1732, -0.2044],
+        ...,
+        [-0.2183, -0.0779,  0.0330,  ..., -0.0685,  0.1326, -0.1143],
+        [-0.1469, -0.1021, -0.0931,  ..., -0.1778, -0.0188, -0.2256],
+        [-0.2174, -0.0812, -0.1802,  ..., -0.2314, -0.0600,  0.1608]],
+       device='cuda:0'), grad: tensor([[ 1.6764e-08,  0.0000e+00,  2.9802e-08,  ...,  9.3132e-09,
+          0.0000e+00,  9.3132e-10],
+        [ 4.6566e-09,  0.0000e+00,  3.7253e-09,  ..., -9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00, -7.5437e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  0.0000e+00,  2.0489e-08,  ...,  1.8626e-09,
+          0.0000e+00,  4.6566e-09],
+        [ 9.3132e-10,  0.0000e+00,  3.7253e-09,  ...,  5.5879e-09,
+         -0.0000e+00,  9.3132e-10],
+        [ 4.2282e-07,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00, -8.3819e-09]], device='cuda:0')
+Epoch 434, bias, value: tensor([-0.0376, -0.0302,  0.0086,  0.0303, -0.0185,  0.0064, -0.0171,  0.0160,
+         0.0097, -0.0054], device='cuda:0'), grad: tensor([ 1.0058e-07,  1.7695e-08, -1.1642e-07,  1.3039e-08, -5.9418e-07,
+         6.5193e-08, -7.1712e-08,  6.7055e-08, -8.3819e-09,  5.3924e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 433, time 214.36, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4527 re_mapping 0.0022 re_causal 0.0083 /// teacc 99.17 lr 0.00001000
+Epoch 435, weight, value: tensor([[-0.1512,  0.0566,  0.0946,  ..., -0.1018, -0.1930,  0.0746],
+        [-0.1317, -0.0661, -0.1518,  ...,  0.2021, -0.1204, -0.1121],
+        [-0.0811,  0.0155,  0.2508,  ..., -0.1754, -0.1732, -0.2044],
+        ...,
+        [-0.2183, -0.0779,  0.0330,  ..., -0.0685,  0.1326, -0.1144],
+        [-0.1469, -0.1021, -0.0931,  ..., -0.1779, -0.0188, -0.2257],
+        [-0.2175, -0.0812, -0.1802,  ..., -0.2314, -0.0601,  0.1608]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.9802e-08,  ...,  8.3819e-09,
+          0.0000e+00, -9.3132e-08],
+        [ 7.4506e-09,  0.0000e+00,  3.7253e-09,  ..., -1.0245e-07,
+          9.3132e-10,  9.3132e-09],
+        [ 0.0000e+00,  0.0000e+00, -8.5682e-08,  ...,  1.8626e-09,
+          9.3132e-10,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-08,  ...,  2.5146e-08,
+         -0.0000e+00,  6.1467e-08],
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ...,  4.0047e-08,
+          0.0000e+00,  1.1176e-08],
+        [ 1.3039e-08,  0.0000e+00,  2.9802e-08,  ...,  1.8626e-09,
+         -9.3132e-10,  2.7940e-09]], device='cuda:0')
+Epoch 435, bias, value: tensor([-0.0375, -0.0302,  0.0086,  0.0303, -0.0184,  0.0064, -0.0171,  0.0160,
+         0.0097, -0.0054], device='cuda:0'), grad: tensor([-1.4715e-07, -1.6484e-07, -1.5367e-07,  9.6858e-08, -1.6764e-08,
+         1.0990e-07, -6.7987e-08,  2.1700e-07,  9.2201e-08,  4.7497e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 434, time 214.46, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4365 re_mapping 0.0022 re_causal 0.0082 /// teacc 99.17 lr 0.00001000
+Epoch 436, weight, value: tensor([[-0.1512,  0.0567,  0.0947,  ..., -0.1019, -0.1930,  0.0746],
+        [-0.1317, -0.0661, -0.1519,  ...,  0.2021, -0.1204, -0.1122],
+        [-0.0811,  0.0155,  0.2508,  ..., -0.1754, -0.1733, -0.2044],
+        ...,
+        [-0.2184, -0.0779,  0.0330,  ..., -0.0685,  0.1326, -0.1146],
+        [-0.1469, -0.1021, -0.0931,  ..., -0.1781, -0.0188, -0.2257],
+        [-0.2176, -0.0812, -0.1803,  ..., -0.2314, -0.0601,  0.1608]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  1.8626e-09,  ...,  2.7940e-09,
+          0.0000e+00,  6.5193e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.0245e-08,  ..., -9.3132e-10,
+          1.1176e-08,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00, -2.6077e-08,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00, -9.3132e-09,  ...,  1.8626e-09,
+         -3.0734e-08,  1.0245e-08],
+        [ 9.3132e-10,  0.0000e+00,  4.6566e-09,  ...,  1.8626e-09,
+          2.7940e-09,  7.4506e-09],
+        [ 1.8626e-09,  0.0000e+00,  7.4506e-09,  ...,  0.0000e+00,
+          9.3132e-09, -4.2841e-08]], device='cuda:0')
+Epoch 436, bias, value: tensor([-0.0375, -0.0302,  0.0086,  0.0303, -0.0184,  0.0064, -0.0171,  0.0160,
+         0.0097, -0.0054], device='cuda:0'), grad: tensor([ 4.5635e-08,  5.2154e-08, -2.7940e-08,  2.8871e-08,  4.0047e-08,
+         6.7987e-08, -1.0245e-08, -1.8626e-09, -1.4715e-07, -5.8673e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 435, time 214.28, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4038 re_mapping 0.0022 re_causal 0.0079 /// teacc 99.19 lr 0.00001000
+Epoch 437, weight, value: tensor([[-0.1513,  0.0567,  0.0948,  ..., -0.1019, -0.1930,  0.0746],
+        [-0.1317, -0.0661, -0.1519,  ...,  0.2021, -0.1204, -0.1122],
+        [-0.0811,  0.0155,  0.2509,  ..., -0.1755, -0.1733, -0.2044],
+        ...,
+        [-0.2186, -0.0779,  0.0330,  ..., -0.0685,  0.1326, -0.1147],
+        [-0.1470, -0.1021, -0.0931,  ..., -0.1782, -0.0188, -0.2258],
+        [-0.2176, -0.0812, -0.1804,  ..., -0.2314, -0.0602,  0.1608]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -2.7940e-09,  ...,  7.4506e-09,
+          0.0000e+00, -8.3819e-09],
+        [ 1.6764e-08,  0.0000e+00,  1.7695e-08,  ...,  6.5193e-09,
+          9.3132e-10,  9.3132e-10],
+        [ 9.3132e-10,  0.0000e+00, -4.4703e-08,  ...,  9.3132e-10,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 2.1420e-08,  0.0000e+00,  5.5879e-09,  ...,  5.5879e-09,
+         -4.6566e-09,  3.7253e-09],
+        [ 2.7940e-09,  0.0000e+00,  1.0245e-08,  ...,  2.7940e-09,
+          4.6566e-09,  1.8626e-09],
+        [ 1.6764e-08,  0.0000e+00,  5.5879e-09,  ...,  1.8626e-09,
+          9.3132e-10, -3.7253e-09]], device='cuda:0')
+Epoch 437, bias, value: tensor([-0.0375, -0.0302,  0.0086,  0.0303, -0.0184,  0.0063, -0.0171,  0.0160,
+         0.0097, -0.0055], device='cuda:0'), grad: tensor([ 1.2107e-08,  7.7300e-08, -7.4506e-08,  3.0734e-08, -7.9162e-08,
+         1.6019e-07, -2.3562e-07,  5.7742e-08,  4.6566e-08,  1.7695e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 436, time 214.25, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4324 re_mapping 0.0022 re_causal 0.0083 /// teacc 99.19 lr 0.00001000
+Epoch 438, weight, value: tensor([[-0.1513,  0.0567,  0.0948,  ..., -0.1020, -0.1930,  0.0747],
+        [-0.1318, -0.0661, -0.1519,  ...,  0.2021, -0.1205, -0.1122],
+        [-0.0811,  0.0155,  0.2509,  ..., -0.1755, -0.1733, -0.2045],
+        ...,
+        [-0.2186, -0.0779,  0.0330,  ..., -0.0685,  0.1326, -0.1149],
+        [-0.1470, -0.1021, -0.0931,  ..., -0.1784, -0.0188, -0.2258],
+        [-0.2177, -0.0812, -0.1804,  ..., -0.2315, -0.0603,  0.1608]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  0.0000e+00, -1.8626e-09,  ...,  4.6566e-09,
+          9.3132e-10, -9.3132e-10],
+        [ 2.8871e-08,  0.0000e+00,  3.7253e-09,  ..., -5.5879e-09,
+          1.2107e-08,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00, -4.6566e-09,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 8.3726e-07,  0.0000e+00, -1.8626e-09,  ...,  4.6566e-09,
+          1.5274e-07,  1.5832e-08],
+        [ 7.4506e-09,  0.0000e+00,  9.3132e-10,  ...,  7.4506e-09,
+          3.7253e-09,  1.8626e-09],
+        [ 6.5845e-07,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+          1.3132e-07,  5.5879e-09]], device='cuda:0')
+Epoch 438, bias, value: tensor([-0.0375, -0.0302,  0.0086,  0.0303, -0.0184,  0.0064, -0.0171,  0.0160,
+         0.0097, -0.0055], device='cuda:0'), grad: tensor([ 2.0489e-08,  5.7742e-08, -6.5193e-09,  2.9802e-08, -2.8685e-06,
+        -5.5879e-09, -3.5390e-08,  1.5786e-06,  2.7940e-09,  1.2247e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 437, time 214.37, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4058 re_mapping 0.0022 re_causal 0.0079 /// teacc 99.18 lr 0.00001000
+Epoch 439, weight, value: tensor([[-0.1514,  0.0567,  0.0949,  ..., -0.1020, -0.1931,  0.0747],
+        [-0.1318, -0.0661, -0.1519,  ...,  0.2021, -0.1205, -0.1123],
+        [-0.0811,  0.0155,  0.2509,  ..., -0.1755, -0.1734, -0.2045],
+        ...,
+        [-0.2188, -0.0779,  0.0331,  ..., -0.0685,  0.1326, -0.1150],
+        [-0.1471, -0.1021, -0.0931,  ..., -0.1785, -0.0188, -0.2259],
+        [-0.2178, -0.0812, -0.1805,  ..., -0.2315, -0.0603,  0.1608]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  0.0000e+00, -8.6613e-08,  ...,  1.1176e-08,
+          0.0000e+00, -1.5646e-07],
+        [ 1.0245e-08,  0.0000e+00,  7.4506e-09,  ..., -2.7940e-09,
+          9.3132e-10,  2.7940e-09],
+        [ 2.0489e-08,  0.0000e+00,  1.3039e-08,  ...,  6.0536e-08,
+          9.3132e-10,  2.7940e-09],
+        ...,
+        [ 3.7253e-09,  0.0000e+00, -0.0000e+00,  ...,  6.5193e-09,
+         -1.8626e-09,  1.2107e-08],
+        [ 5.5879e-09,  0.0000e+00,  1.7695e-08,  ...,  1.8626e-08,
+          0.0000e+00,  2.0489e-08],
+        [ 3.9116e-08,  0.0000e+00,  5.8673e-08,  ...,  9.3132e-10,
+         -9.3132e-10,  8.5682e-08]], device='cuda:0')
+Epoch 439, bias, value: tensor([-0.0375, -0.0302,  0.0086,  0.0302, -0.0183,  0.0064, -0.0171,  0.0160,
+         0.0097, -0.0055], device='cuda:0'), grad: tensor([-4.4238e-07,  1.8626e-08,  1.6484e-07,  4.4703e-08, -1.0245e-08,
+         5.4948e-08, -3.0920e-07,  4.8429e-08,  9.4995e-08,  3.4273e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 438, time 214.16, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4427 re_mapping 0.0022 re_causal 0.0082 /// teacc 99.21 lr 0.00001000
+Epoch 440, weight, value: tensor([[-0.1514,  0.0567,  0.0949,  ..., -0.1020, -0.1931,  0.0747],
+        [-0.1318, -0.0661, -0.1520,  ...,  0.2021, -0.1205, -0.1123],
+        [-0.0812,  0.0155,  0.2510,  ..., -0.1755, -0.1734, -0.2045],
+        ...,
+        [-0.2188, -0.0779,  0.0331,  ..., -0.0685,  0.1326, -0.1151],
+        [-0.1471, -0.1021, -0.0931,  ..., -0.1786, -0.0188, -0.2259],
+        [-0.2178, -0.0812, -0.1806,  ..., -0.2316, -0.0604,  0.1609]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.3970e-08,  ...,  0.0000e+00,
+          0.0000e+00, -2.1420e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ..., -2.9802e-08,
+          4.6566e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -9.3132e-10,  ...,  2.7940e-08,
+         -9.3132e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  1.8626e-09,
+          9.3132e-10,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.2107e-08,  ...,  9.3132e-10,
+          2.7940e-09, -2.2352e-08]], device='cuda:0')
+Epoch 440, bias, value: tensor([-0.0375, -0.0302,  0.0087,  0.0302, -0.0183,  0.0064, -0.0171,  0.0160,
+         0.0097, -0.0055], device='cuda:0'), grad: tensor([-5.0291e-08, -4.2841e-08,  4.6566e-09,  1.8626e-08,  1.4901e-08,
+         6.1467e-08,  6.5193e-09,  3.3528e-08,  1.0245e-08, -3.6322e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 439, time 214.26, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4465 re_mapping 0.0021 re_causal 0.0083 /// teacc 99.20 lr 0.00001000
+Epoch 441, weight, value: tensor([[-0.1515,  0.0567,  0.0950,  ..., -0.1021, -0.1932,  0.0747],
+        [-0.1318, -0.0661, -0.1520,  ...,  0.2021, -0.1205, -0.1124],
+        [-0.0812,  0.0155,  0.2510,  ..., -0.1756, -0.1734, -0.2045],
+        ...,
+        [-0.2189, -0.0779,  0.0331,  ..., -0.0685,  0.1326, -0.1153],
+        [-0.1472, -0.1021, -0.0931,  ..., -0.1788, -0.0188, -0.2260],
+        [-0.2179, -0.0812, -0.1807,  ..., -0.2316, -0.0605,  0.1609]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -2.7940e-09,  ...,  2.7940e-09,
+          0.0000e+00, -1.8626e-09],
+        [ 1.8626e-09,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          5.5879e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  1.8626e-09,
+          4.6566e-09,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  0.0000e+00, -6.5193e-09,  ...,  9.3132e-10,
+         -1.3039e-08,  8.3819e-09],
+        [ 1.8626e-09,  0.0000e+00,  9.3132e-10,  ...,  5.5879e-09,
+          9.3132e-10,  3.7253e-09],
+        [ 2.9802e-08,  0.0000e+00,  3.7253e-09,  ...,  9.3132e-10,
+          1.8626e-09, -2.9802e-08]], device='cuda:0')
+Epoch 441, bias, value: tensor([-0.0375, -0.0302,  0.0087,  0.0302, -0.0183,  0.0064, -0.0171,  0.0160,
+         0.0097, -0.0055], device='cuda:0'), grad: tensor([ 3.7253e-09,  3.2596e-08,  1.2107e-08,  5.5879e-09,  2.1420e-08,
+         2.7847e-07, -2.9895e-07,  1.4901e-08,  1.8626e-09, -6.1467e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 440, time 214.36, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4025 re_mapping 0.0022 re_causal 0.0080 /// teacc 99.18 lr 0.00001000
+Epoch 442, weight, value: tensor([[-0.1515,  0.0567,  0.0951,  ..., -0.1021, -0.1932,  0.0748],
+        [-0.1319, -0.0661, -0.1520,  ...,  0.2021, -0.1205, -0.1124],
+        [-0.0812,  0.0155,  0.2510,  ..., -0.1756, -0.1735, -0.2045],
+        ...,
+        [-0.2190, -0.0779,  0.0331,  ..., -0.0685,  0.1327, -0.1154],
+        [-0.1472, -0.1021, -0.0931,  ..., -0.1789, -0.0188, -0.2261],
+        [-0.2179, -0.0812, -0.1808,  ..., -0.2316, -0.0606,  0.1609]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -1.4901e-08,  ...,  1.8626e-09,
+          0.0000e+00, -4.5635e-08],
+        [-1.8626e-08,  0.0000e+00,  9.3132e-09,  ..., -1.1269e-07,
+          2.0489e-08,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-10,
+          2.7940e-09,  9.3132e-10],
+        ...,
+        [ 4.1910e-08,  0.0000e+00, -1.6764e-08,  ...,  2.4214e-08,
+         -3.2596e-08,  8.3819e-09],
+        [ 1.4901e-08,  0.0000e+00,  8.3819e-09,  ...,  7.0781e-08,
+          8.3819e-09,  9.3132e-09],
+        [ 6.7055e-08,  0.0000e+00,  1.0245e-08,  ...,  3.7253e-09,
+          2.7940e-09,  1.8626e-09]], device='cuda:0')
+Epoch 442, bias, value: tensor([-0.0374, -0.0302,  0.0087,  0.0302, -0.0183,  0.0064, -0.0171,  0.0160,
+         0.0096, -0.0055], device='cuda:0'), grad: tensor([-8.0094e-08, -2.5518e-07,  1.1176e-08,  7.4506e-09, -1.2014e-07,
+         1.0245e-08,  5.5879e-09,  5.4948e-08,  2.3935e-07,  1.1362e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 441, time 214.21, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4300 re_mapping 0.0022 re_causal 0.0083 /// teacc 99.20 lr 0.00001000
+Epoch 443, weight, value: tensor([[-0.1516,  0.0567,  0.0952,  ..., -0.1022, -0.1932,  0.0748],
+        [-0.1319, -0.0661, -0.1520,  ...,  0.2021, -0.1205, -0.1124],
+        [-0.0812,  0.0155,  0.2511,  ..., -0.1756, -0.1735, -0.2046],
+        ...,
+        [-0.2190, -0.0779,  0.0331,  ..., -0.0685,  0.1327, -0.1155],
+        [-0.1473, -0.1021, -0.0932,  ..., -0.1791, -0.0188, -0.2262],
+        [-0.2179, -0.0813, -0.1810,  ..., -0.2317, -0.0607,  0.1609]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00, -2.7940e-09,  ...,  2.7940e-09,
+          1.8626e-09, -3.7253e-08],
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-09,  ..., -7.4506e-09,
+          1.4901e-08,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+          4.6566e-09,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -4.5635e-08,  ...,  8.3819e-09,
+         -9.2201e-08,  5.5879e-09],
+        [ 9.3132e-10,  0.0000e+00,  4.6566e-09,  ...,  3.7253e-09,
+          1.1176e-08,  6.5193e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ...,  0.0000e+00,
+          1.3970e-08,  5.5879e-09]], device='cuda:0')
+Epoch 443, bias, value: tensor([-0.0374, -0.0302,  0.0087,  0.0302, -0.0184,  0.0064, -0.0171,  0.0160,
+         0.0096, -0.0056], device='cuda:0'), grad: tensor([-4.4703e-08,  3.5390e-08,  1.4901e-08,  5.2620e-07,  9.8720e-08,
+        -6.0163e-07,  4.5635e-08, -1.6112e-07,  5.2154e-08,  4.7497e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 442, time 213.85, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4211 re_mapping 0.0021 re_causal 0.0081 /// teacc 99.17 lr 0.00001000
+Epoch 444, weight, value: tensor([[-0.1517,  0.0567,  0.0953,  ..., -0.1023, -0.1933,  0.0748],
+        [-0.1319, -0.0661, -0.1521,  ...,  0.2021, -0.1205, -0.1124],
+        [-0.0812,  0.0155,  0.2511,  ..., -0.1757, -0.1736, -0.2046],
+        ...,
+        [-0.2191, -0.0779,  0.0332,  ..., -0.0685,  0.1327, -0.1156],
+        [-0.1473, -0.1021, -0.0932,  ..., -0.1793, -0.0188, -0.2263],
+        [-0.2180, -0.0813, -0.1811,  ..., -0.2317, -0.0608,  0.1609]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  9.3132e-10,  ...,  1.3970e-09,
+          2.3283e-09, -4.6566e-10],
+        [ 1.8626e-09,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+          2.7940e-09,  4.6566e-10],
+        [-9.3132e-10,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          6.0536e-09,  0.0000e+00],
+        ...,
+        [ 5.5879e-09,  0.0000e+00, -5.5879e-09,  ...,  9.3132e-10,
+         -1.1642e-08,  9.3132e-10],
+        [ 9.3132e-10,  0.0000e+00, -2.1420e-08,  ...,  3.7253e-09,
+          1.9558e-08,  2.3283e-08],
+        [ 1.2107e-08,  0.0000e+00,  1.5367e-08,  ...,  0.0000e+00,
+          1.1642e-08,  4.6566e-09]], device='cuda:0')
+Epoch 444, bias, value: tensor([-0.0374, -0.0302,  0.0087,  0.0302, -0.0184,  0.0064, -0.0170,  0.0160,
+         0.0096, -0.0056], device='cuda:0'), grad: tensor([ 1.6764e-08,  1.6298e-08,  8.8476e-09,  5.5414e-08, -3.4459e-08,
+        -1.8161e-07,  1.6764e-08,  1.5367e-08, -2.7940e-09,  9.5926e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 443, time 214.15, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4438 re_mapping 0.0021 re_causal 0.0080 /// teacc 99.18 lr 0.00001000
+Epoch 445, weight, value: tensor([[-0.1517,  0.0567,  0.0954,  ..., -0.1023, -0.1933,  0.0749],
+        [-0.1320, -0.0661, -0.1521,  ...,  0.2021, -0.1205, -0.1124],
+        [-0.0813,  0.0155,  0.2511,  ..., -0.1757, -0.1737, -0.2046],
+        ...,
+        [-0.2193, -0.0779,  0.0332,  ..., -0.0685,  0.1327, -0.1158],
+        [-0.1474, -0.1021, -0.0932,  ..., -0.1795, -0.0188, -0.2263],
+        [-0.2181, -0.0813, -0.1813,  ..., -0.2318, -0.0609,  0.1609]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -3.2596e-09,  ...,  9.3132e-10,
+          9.3132e-10, -9.7789e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.0023e-08,  ..., -1.6764e-08,
+          3.2596e-09,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00, -1.6112e-07,  ..., -1.7229e-08,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  1.5832e-08,  ...,  9.3132e-09,
+         -6.5193e-09,  4.1910e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.2667e-08,  ...,  1.8161e-08,
+          2.7940e-09,  1.3970e-09],
+        [ 1.3970e-09,  0.0000e+00,  4.1910e-09,  ...,  0.0000e+00,
+          9.3132e-10, -9.3132e-10]], device='cuda:0')
+Epoch 445, bias, value: tensor([-0.0374, -0.0302,  0.0086,  0.0301, -0.0183,  0.0065, -0.0170,  0.0160,
+         0.0096, -0.0057], device='cuda:0'), grad: tensor([-1.2573e-08,  4.6566e-09, -3.3667e-07,  2.3982e-07,  4.0978e-08,
+        -2.2352e-07,  2.3749e-08,  5.2154e-08,  2.2072e-07,  6.5193e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 444, time 214.32, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4214 re_mapping 0.0021 re_causal 0.0079 /// teacc 99.20 lr 0.00001000
+Epoch 446, weight, value: tensor([[-0.1518,  0.0567,  0.0955,  ..., -0.1024, -0.1934,  0.0749],
+        [-0.1320, -0.0661, -0.1522,  ...,  0.2021, -0.1205, -0.1125],
+        [-0.0813,  0.0155,  0.2511,  ..., -0.1757, -0.1738, -0.2047],
+        ...,
+        [-0.2193, -0.0779,  0.0332,  ..., -0.0685,  0.1327, -0.1159],
+        [-0.1474, -0.1021, -0.0932,  ..., -0.1797, -0.0188, -0.2264],
+        [-0.2181, -0.0813, -0.1814,  ..., -0.2318, -0.0610,  0.1609]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.2107e-08,  ...,  0.0000e+00,
+          4.6566e-10, -1.7695e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.4901e-08,  ..., -1.3970e-09,
+          2.1420e-08,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-09,  ...,  0.0000e+00,
+          1.2573e-08,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -4.7497e-08,  ...,  9.3132e-10,
+         -7.4506e-08,  6.9849e-09],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  0.0000e+00,
+          6.5193e-09,  1.0710e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.9092e-08,  ...,  0.0000e+00,
+          2.0489e-08, -2.2352e-08]], device='cuda:0')
+Epoch 446, bias, value: tensor([-0.0373, -0.0302,  0.0086,  0.0301, -0.0183,  0.0065, -0.0170,  0.0160,
+         0.0096, -0.0057], device='cuda:0'), grad: tensor([-4.7032e-08,  6.1002e-08,  2.5611e-08, -1.3039e-08,  4.0047e-08,
+         4.6566e-08,  2.0955e-08, -1.7229e-07,  5.3085e-08, -1.2573e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 445, time 214.27, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4284 re_mapping 0.0020 re_causal 0.0080 /// teacc 99.19 lr 0.00001000
+Epoch 447, weight, value: tensor([[-0.1519,  0.0567,  0.0956,  ..., -0.1024, -0.1936,  0.0750],
+        [-0.1320, -0.0661, -0.1522,  ...,  0.2022, -0.1205, -0.1125],
+        [-0.0813,  0.0155,  0.2511,  ..., -0.1758, -0.1738, -0.2047],
+        ...,
+        [-0.2194, -0.0779,  0.0333,  ..., -0.0686,  0.1328, -0.1160],
+        [-0.1475, -0.1021, -0.0932,  ..., -0.1799, -0.0188, -0.2265],
+        [-0.2182, -0.0813, -0.1816,  ..., -0.2319, -0.0612,  0.1609]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -9.7789e-09,  ...,  0.0000e+00,
+          4.6566e-10, -1.6764e-08],
+        [ 0.0000e+00,  0.0000e+00,  8.8476e-09,  ..., -1.0664e-07,
+          3.3062e-08,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00, -6.1002e-08,  ...,  3.2596e-09,
+          6.0536e-09,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.5832e-08,  ...,  9.2201e-08,
+         -7.3109e-08,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.7695e-08,  ...,  5.5879e-09,
+          5.1223e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  8.8476e-09,  ...,  2.3283e-09,
+          2.2817e-08,  4.6566e-09]], device='cuda:0')
+Epoch 447, bias, value: tensor([-0.0373, -0.0302,  0.0085,  0.0301, -0.0183,  0.0065, -0.0170,  0.0160,
+         0.0096, -0.0057], device='cuda:0'), grad: tensor([-3.3993e-08, -2.4680e-07, -8.0094e-08, -9.3132e-09,  1.0710e-08,
+         9.3132e-09,  1.6298e-08,  1.9930e-07,  6.4727e-08,  7.5437e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 446, time 214.39, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4156 re_mapping 0.0021 re_causal 0.0080 /// teacc 99.18 lr 0.00001000
+Epoch 448, weight, value: tensor([[-0.1519,  0.0567,  0.0957,  ..., -0.1025, -0.1937,  0.0750],
+        [-0.1321, -0.0661, -0.1523,  ...,  0.2022, -0.1206, -0.1126],
+        [-0.0814,  0.0155,  0.2511,  ..., -0.1759, -0.1739, -0.2048],
+        ...,
+        [-0.2194, -0.0779,  0.0333,  ..., -0.0686,  0.1328, -0.1162],
+        [-0.1475, -0.1021, -0.0932,  ..., -0.1801, -0.0188, -0.2267],
+        [-0.2182, -0.0813, -0.1818,  ..., -0.2319, -0.0613,  0.1610]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  9.3132e-10,  ...,  5.1223e-09,
+          0.0000e+00,  9.3132e-10],
+        [ 9.3132e-10,  0.0000e+00,  1.0245e-08,  ..., -7.4506e-09,
+          2.5611e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  4.6566e-10,
+          3.7253e-09,  0.0000e+00],
+        ...,
+        [ 1.3970e-09,  0.0000e+00, -1.4435e-08,  ...,  6.0536e-09,
+         -4.1910e-08,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00, -3.7253e-09,  ...,  9.7789e-09,
+          2.7940e-09,  1.3970e-09],
+        [ 2.7940e-08,  0.0000e+00,  4.1910e-09,  ...,  0.0000e+00,
+          7.4506e-09,  9.3132e-10]], device='cuda:0')
+Epoch 448, bias, value: tensor([-0.0372, -0.0302,  0.0085,  0.0301, -0.0183,  0.0065, -0.0170,  0.0160,
+         0.0096, -0.0058], device='cuda:0'), grad: tensor([ 2.4214e-08,  7.9162e-08,  2.5146e-08,  2.7474e-08, -3.1199e-08,
+         2.5146e-08, -4.8429e-08, -1.1362e-07, -3.3993e-08,  7.0315e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 447, time 214.43, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.3940 re_mapping 0.0021 re_causal 0.0078 /// teacc 99.18 lr 0.00001000
+Epoch 449, weight, value: tensor([[-0.1519,  0.0567,  0.0959,  ..., -0.1025, -0.1938,  0.0751],
+        [-0.1321, -0.0661, -0.1523,  ...,  0.2022, -0.1206, -0.1126],
+        [-0.0814,  0.0155,  0.2511,  ..., -0.1759, -0.1740, -0.2049],
+        ...,
+        [-0.2195, -0.0779,  0.0334,  ..., -0.0686,  0.1328, -0.1164],
+        [-0.1475, -0.1021, -0.0932,  ..., -0.1802, -0.0188, -0.2267],
+        [-0.2183, -0.0813, -0.1819,  ..., -0.2320, -0.0615,  0.1610]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -5.1223e-09,  ...,  0.0000e+00,
+          0.0000e+00, -3.7253e-09],
+        [ 8.3819e-09,  0.0000e+00,  1.2573e-08,  ..., -6.0536e-09,
+          1.3504e-08,  1.3970e-09],
+        [ 2.3283e-09,  0.0000e+00,  7.4506e-09,  ...,  4.6566e-10,
+          5.5879e-09,  0.0000e+00],
+        ...,
+        [-3.0734e-08,  0.0000e+00, -6.1467e-08,  ...,  4.1910e-09,
+         -7.0315e-08,  1.8626e-08],
+        [ 4.1910e-09,  0.0000e+00,  1.0245e-08,  ...,  9.3132e-10,
+          9.7789e-09,  5.1223e-09],
+        [ 6.0536e-09,  0.0000e+00,  4.1910e-09,  ...,  0.0000e+00,
+          4.6566e-10, -3.8184e-08]], device='cuda:0')
+Epoch 449, bias, value: tensor([-0.0372, -0.0302,  0.0085,  0.0300, -0.0183,  0.0065, -0.0170,  0.0160,
+         0.0096, -0.0058], device='cuda:0'), grad: tensor([-1.0710e-08,  3.6787e-08,  2.7474e-08,  9.3132e-10,  1.0291e-07,
+         1.0245e-08,  3.7253e-09, -1.1642e-07,  1.7229e-08, -6.9849e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 448, time 214.12, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4496 re_mapping 0.0021 re_causal 0.0085 /// teacc 99.18 lr 0.00001000
+Epoch 450, weight, value: tensor([[-0.1520,  0.0567,  0.0960,  ..., -0.1025, -0.1939,  0.0751],
+        [-0.1321, -0.0661, -0.1523,  ...,  0.2022, -0.1206, -0.1127],
+        [-0.0814,  0.0155,  0.2511,  ..., -0.1760, -0.1740, -0.2049],
+        ...,
+        [-0.2195, -0.0779,  0.0334,  ..., -0.0686,  0.1328, -0.1166],
+        [-0.1475, -0.1021, -0.0932,  ..., -0.1803, -0.0188, -0.2268],
+        [-0.2183, -0.0813, -0.1821,  ..., -0.2320, -0.0616,  0.1610]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.7229e-08,  ...,  4.6566e-10,
+          4.6566e-10, -2.4214e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-09,  ..., -3.1665e-08,
+          2.7940e-09, -6.0536e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  9.3132e-09,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -6.5193e-09,  ...,  1.3970e-08,
+         -9.3132e-09,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  4.6566e-09,
+          1.8626e-09,  2.3283e-09],
+        [ 4.6566e-10,  0.0000e+00,  1.8161e-08,  ...,  9.3132e-10,
+          2.7940e-09,  2.3283e-08]], device='cuda:0')
+Epoch 450, bias, value: tensor([-0.0371, -0.0302,  0.0084,  0.0300, -0.0184,  0.0065, -0.0170,  0.0160,
+         0.0096, -0.0058], device='cuda:0'), grad: tensor([-4.8894e-08, -1.0105e-07,  4.2375e-08, -3.0734e-08,  4.6566e-09,
+        -1.1548e-07,  6.1002e-08,  8.5216e-08,  4.5635e-08,  7.0315e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 449, time 214.39, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.3814 re_mapping 0.0020 re_causal 0.0075 /// teacc 99.19 lr 0.00001000
+Epoch 451, weight, value: tensor([[-0.1520,  0.0568,  0.0962,  ..., -0.1026, -0.1939,  0.0752],
+        [-0.1321, -0.0661, -0.1524,  ...,  0.2022, -0.1206, -0.1127],
+        [-0.0814,  0.0155,  0.2512,  ..., -0.1760, -0.1741, -0.2049],
+        ...,
+        [-0.2196, -0.0779,  0.0334,  ..., -0.0686,  0.1329, -0.1167],
+        [-0.1475, -0.1021, -0.0932,  ..., -0.1805, -0.0188, -0.2269],
+        [-0.2184, -0.0813, -0.1823,  ..., -0.2321, -0.0618,  0.1610]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  0.0000e+00, -1.3970e-09,  ...,  5.4017e-08,
+          9.3132e-10,  6.5193e-09],
+        [ 2.7940e-09,  0.0000e+00,  3.7253e-09,  ..., -6.0070e-07,
+          7.9162e-09, -6.3330e-08],
+        [ 4.6566e-10,  0.0000e+00,  9.3132e-10,  ...,  3.2596e-09,
+          2.3283e-09,  4.6566e-10],
+        ...,
+        [ 2.3283e-09,  0.0000e+00, -1.2573e-08,  ...,  5.5786e-07,
+         -2.7008e-08,  7.5903e-08],
+        [ 4.6566e-10,  0.0000e+00,  9.3132e-10,  ...,  4.5635e-08,
+          2.7940e-09,  8.8476e-09],
+        [ 1.8626e-08,  0.0000e+00,  6.9849e-09,  ...,  3.6787e-08,
+          1.2573e-08, -7.1712e-08]], device='cuda:0')
+Epoch 451, bias, value: tensor([-0.0371, -0.0302,  0.0085,  0.0299, -0.0184,  0.0066, -0.0170,  0.0160,
+         0.0096, -0.0059], device='cuda:0'), grad: tensor([ 1.4948e-07, -1.0990e-06,  1.6764e-08,  8.1258e-07,  1.4668e-07,
+        -8.2236e-07, -3.1246e-07,  1.0356e-06,  1.3458e-07, -6.4727e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 450, time 214.54, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4062 re_mapping 0.0021 re_causal 0.0078 /// teacc 99.17 lr 0.00001000
+Epoch 452, weight, value: tensor([[-0.1521,  0.0568,  0.0963,  ..., -0.1026, -0.1940,  0.0752],
+        [-0.1321, -0.0661, -0.1524,  ...,  0.2022, -0.1206, -0.1128],
+        [-0.0815,  0.0155,  0.2513,  ..., -0.1761, -0.1741, -0.2050],
+        ...,
+        [-0.2196, -0.0779,  0.0334,  ..., -0.0686,  0.1329, -0.1169],
+        [-0.1475, -0.1021, -0.0933,  ..., -0.1806, -0.0188, -0.2270],
+        [-0.2184, -0.0813, -0.1824,  ..., -0.2321, -0.0619,  0.1610]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -5.5879e-09,  ...,  2.7940e-09,
+          9.3132e-10, -1.1176e-08],
+        [-4.6566e-10,  0.0000e+00,  5.1223e-09,  ..., -6.5193e-09,
+          6.9849e-09,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00, -5.1223e-09,  ...,  9.3132e-10,
+          6.5193e-09,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00, -1.1642e-08,  ...,  5.1223e-09,
+         -2.9802e-08,  6.0536e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-09,  ...,  6.0536e-09,
+          2.3283e-09,  9.3132e-10],
+        [ 2.7940e-09,  0.0000e+00,  1.3504e-08,  ...,  4.6566e-10,
+          1.0710e-08,  2.3283e-09]], device='cuda:0')
+Epoch 452, bias, value: tensor([-0.0370, -0.0302,  0.0084,  0.0299, -0.0184,  0.0066, -0.0170,  0.0160,
+         0.0096, -0.0059], device='cuda:0'), grad: tensor([-1.3039e-08,  4.1910e-09,  5.5879e-09,  3.6787e-08,  6.0536e-09,
+        -1.8626e-09, -5.7276e-08, -3.9116e-08,  3.0268e-08,  4.0513e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 451, time 214.31, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4136 re_mapping 0.0021 re_causal 0.0080 /// teacc 99.21 lr 0.00001000
+Epoch 453, weight, value: tensor([[-0.1521,  0.0568,  0.0963,  ..., -0.1027, -0.1941,  0.0752],
+        [-0.1322, -0.0661, -0.1525,  ...,  0.2022, -0.1206, -0.1128],
+        [-0.0815,  0.0155,  0.2513,  ..., -0.1761, -0.1742, -0.2050],
+        ...,
+        [-0.2197, -0.0779,  0.0335,  ..., -0.0686,  0.1329, -0.1172],
+        [-0.1475, -0.1021, -0.0933,  ..., -0.1806, -0.0188, -0.2270],
+        [-0.2184, -0.0813, -0.1825,  ..., -0.2321, -0.0620,  0.1610]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-09,  0.0000e+00, -9.3132e-10,  ...,  4.6566e-10,
+          4.6566e-10, -1.3970e-09],
+        [ 1.9558e-08,  0.0000e+00,  6.5193e-09,  ...,  4.6566e-10,
+          1.0710e-08,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00, -2.3283e-09,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        ...,
+        [ 4.7963e-07,  0.0000e+00, -1.7695e-08,  ...,  0.0000e+00,
+          2.8871e-08,  1.3970e-09],
+        [ 5.1223e-09,  0.0000e+00,  5.1223e-09,  ...,  6.0536e-09,
+          4.1910e-09,  0.0000e+00],
+        [ 3.7672e-07,  0.0000e+00,  6.0536e-09,  ...,  0.0000e+00,
+          5.0291e-08, -0.0000e+00]], device='cuda:0')
+Epoch 453, bias, value: tensor([-0.0371, -0.0302,  0.0084,  0.0299, -0.0184,  0.0067, -0.0170,  0.0160,
+         0.0096, -0.0059], device='cuda:0'), grad: tensor([ 2.7940e-09,  6.1467e-08,  3.7253e-09,  1.7229e-08, -1.6391e-06,
+         6.0536e-09, -1.2573e-08,  8.1398e-07,  3.9116e-08,  7.1153e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 452, time 214.24, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4523 re_mapping 0.0020 re_causal 0.0082 /// teacc 99.17 lr 0.00001000
+Epoch 454, weight, value: tensor([[-0.1522,  0.0568,  0.0964,  ..., -0.1027, -0.1941,  0.0753],
+        [-0.1322, -0.0661, -0.1525,  ...,  0.2022, -0.1206, -0.1129],
+        [-0.0815,  0.0155,  0.2514,  ..., -0.1761, -0.1743, -0.2050],
+        ...,
+        [-0.2199, -0.0779,  0.0335,  ..., -0.0686,  0.1329, -0.1174],
+        [-0.1475, -0.1021, -0.0933,  ..., -0.1807, -0.0188, -0.2271],
+        [-0.2185, -0.0813, -0.1826,  ..., -0.2322, -0.0621,  0.1611]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.5367e-08,  ...,  9.3132e-10,
+          0.0000e+00, -2.7008e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ..., -5.5879e-09,
+          2.7940e-09,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -5.1223e-09,  ...,  4.6566e-09,
+         -6.0536e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          5.1223e-09,  9.3132e-10],
+        [ 4.6566e-10,  0.0000e+00,  1.5367e-08,  ...,  0.0000e+00,
+          3.2596e-09,  2.1420e-08]], device='cuda:0')
+Epoch 454, bias, value: tensor([-0.0370, -0.0302,  0.0085,  0.0299, -0.0183,  0.0067, -0.0170,  0.0160,
+         0.0096, -0.0059], device='cuda:0'), grad: tensor([-5.7742e-08, -2.3283e-09,  7.4506e-09,  1.7695e-08,  6.9849e-09,
+        -2.5611e-08,  3.7253e-09,  4.6566e-09, -1.1176e-08,  6.5193e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 453, time 214.07, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4166 re_mapping 0.0020 re_causal 0.0079 /// teacc 99.19 lr 0.00001000
+Epoch 455, weight, value: tensor([[-0.1522,  0.0568,  0.0965,  ..., -0.1027, -0.1941,  0.0753],
+        [-0.1323, -0.0661, -0.1525,  ...,  0.2022, -0.1206, -0.1129],
+        [-0.0815,  0.0155,  0.2515,  ..., -0.1762, -0.1743, -0.2051],
+        ...,
+        [-0.2200, -0.0779,  0.0335,  ..., -0.0686,  0.1329, -0.1175],
+        [-0.1475, -0.1021, -0.0933,  ..., -0.1809, -0.0188, -0.2272],
+        [-0.2186, -0.0813, -0.1829,  ..., -0.2322, -0.0622,  0.1611]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.3283e-09,  ...,  4.6566e-10,
+          4.6566e-10, -9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ..., -6.6590e-08,
+          3.1199e-08,  9.3132e-09],
+        [ 0.0000e+00,  0.0000e+00, -4.6566e-09,  ...,  6.5193e-09,
+          3.7253e-09,  4.6566e-10],
+        ...,
+        [ 9.3132e-10,  0.0000e+00, -1.0245e-08,  ...,  4.7497e-08,
+         -6.1933e-08, -1.1176e-08],
+        [ 4.6566e-10,  0.0000e+00,  3.7253e-09,  ...,  7.9162e-09,
+          2.7940e-09,  5.5879e-09],
+        [-2.7940e-09,  0.0000e+00,  6.0536e-09,  ...,  4.6566e-10,
+          1.9092e-08, -4.0978e-08]], device='cuda:0')
+Epoch 455, bias, value: tensor([-0.0370, -0.0302,  0.0086,  0.0299, -0.0183,  0.0067, -0.0170,  0.0160,
+         0.0096, -0.0060], device='cuda:0'), grad: tensor([-9.3132e-10, -9.0804e-08,  1.4435e-08,  1.6298e-08,  7.0781e-08,
+         2.7940e-08,  4.6566e-09, -3.3528e-08,  4.7497e-08, -4.0978e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 454, time 214.33, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4118 re_mapping 0.0020 re_causal 0.0078 /// teacc 99.15 lr 0.00001000
+Epoch 456, weight, value: tensor([[-0.1523,  0.0568,  0.0966,  ..., -0.1028, -0.1942,  0.0754],
+        [-0.1323, -0.0661, -0.1526,  ...,  0.2022, -0.1206, -0.1129],
+        [-0.0815,  0.0155,  0.2516,  ..., -0.1762, -0.1744, -0.2051],
+        ...,
+        [-0.2201, -0.0779,  0.0335,  ..., -0.0686,  0.1329, -0.1177],
+        [-0.1475, -0.1021, -0.0933,  ..., -0.1811, -0.0189, -0.2272],
+        [-0.2187, -0.0813, -0.1830,  ..., -0.2323, -0.0623,  0.1611]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  9.3132e-10,
+          9.3132e-10,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.1642e-08,  ..., -1.2945e-07,
+          1.6298e-08,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  7.6368e-08,
+          7.9162e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -2.3749e-08,  ...,  4.4238e-08,
+         -4.5169e-08,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  2.7940e-09,
+          7.9162e-09,  3.2596e-09],
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ...,  9.3132e-10,
+          1.3970e-08, -4.6566e-09]], device='cuda:0')
+Epoch 456, bias, value: tensor([-0.0370, -0.0302,  0.0086,  0.0298, -0.0183,  0.0067, -0.0170,  0.0160,
+         0.0096, -0.0061], device='cuda:0'), grad: tensor([ 1.0710e-08, -2.3749e-07,  1.7090e-07,  1.2573e-08,  1.5367e-08,
+        -5.2154e-08,  3.1665e-08, -9.3132e-10,  3.6322e-08,  3.4925e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 455, time 214.40, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4023 re_mapping 0.0021 re_causal 0.0079 /// teacc 99.18 lr 0.00001000
+Epoch 457, weight, value: tensor([[-0.1523,  0.0568,  0.0967,  ..., -0.1029, -0.1943,  0.0754],
+        [-0.1323, -0.0661, -0.1526,  ...,  0.2022, -0.1206, -0.1130],
+        [-0.0815,  0.0155,  0.2517,  ..., -0.1762, -0.1744, -0.2051],
+        ...,
+        [-0.2201, -0.0779,  0.0335,  ..., -0.0686,  0.1330, -0.1179],
+        [-0.1475, -0.1021, -0.0933,  ..., -0.1813, -0.0189, -0.2273],
+        [-0.2188, -0.0813, -0.1831,  ..., -0.2323, -0.0624,  0.1611]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -4.1910e-09,  ...,  4.6566e-10,
+          0.0000e+00, -7.4506e-09],
+        [ 4.1910e-09,  0.0000e+00,  1.3039e-08,  ..., -2.7940e-09,
+          3.2596e-09,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00, -3.4925e-08,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        ...,
+        [ 4.1910e-09,  0.0000e+00,  2.7940e-09,  ...,  1.3970e-09,
+         -8.8476e-09,  1.3970e-09],
+        [ 1.3970e-09,  0.0000e+00,  1.3970e-08,  ...,  9.3132e-10,
+          1.3970e-09,  0.0000e+00],
+        [ 7.4971e-08,  0.0000e+00,  4.1910e-09,  ...,  0.0000e+00,
+          3.2596e-09,  3.2596e-09]], device='cuda:0')
+Epoch 457, bias, value: tensor([-0.0370, -0.0302,  0.0087,  0.0298, -0.0183,  0.0068, -0.0171,  0.0160,
+         0.0096, -0.0061], device='cuda:0'), grad: tensor([-1.0710e-08,  3.3528e-08, -6.2399e-08, -3.6135e-07, -1.8440e-07,
+         3.2317e-07,  2.7474e-08,  2.0489e-08,  4.3306e-08,  1.7695e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 456, time 214.22, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4221 re_mapping 0.0020 re_causal 0.0079 /// teacc 99.15 lr 0.00001000
+Epoch 458, weight, value: tensor([[-0.1523,  0.0568,  0.0968,  ..., -0.1030, -0.1944,  0.0754],
+        [-0.1324, -0.0661, -0.1527,  ...,  0.2022, -0.1206, -0.1130],
+        [-0.0815,  0.0155,  0.2517,  ..., -0.1763, -0.1745, -0.2051],
+        ...,
+        [-0.2202, -0.0779,  0.0335,  ..., -0.0686,  0.1330, -0.1181],
+        [-0.1475, -0.1021, -0.0933,  ..., -0.1815, -0.0189, -0.2274],
+        [-0.2188, -0.0813, -0.1833,  ..., -0.2323, -0.0626,  0.1611]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-09,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  9.3132e-10],
+        [ 9.3132e-09,  0.0000e+00,  8.8476e-09,  ..., -2.3283e-09,
+          1.5367e-08,  5.5879e-09],
+        [ 9.3132e-10,  0.0000e+00,  2.3283e-09,  ...,  4.6566e-10,
+          3.2596e-09,  0.0000e+00],
+        ...,
+        [ 4.1910e-09,  0.0000e+00, -2.3283e-08,  ...,  2.3283e-09,
+         -3.4459e-08,  8.8476e-09],
+        [ 2.7940e-09,  0.0000e+00,  3.2596e-09,  ...,  9.3132e-09,
+          4.6566e-09,  6.5193e-09],
+        [ 9.2201e-08,  0.0000e+00,  6.9849e-09,  ...,  0.0000e+00,
+          1.0245e-08, -2.9337e-08]], device='cuda:0')
+Epoch 458, bias, value: tensor([-0.0370, -0.0302,  0.0087,  0.0298, -0.0183,  0.0068, -0.0171,  0.0160,
+         0.0096, -0.0061], device='cuda:0'), grad: tensor([ 2.0489e-08,  6.8452e-08,  1.3970e-08, -3.3993e-08, -2.1420e-07,
+         6.0536e-08, -6.9849e-08, -4.0978e-08,  9.7323e-08,  1.0757e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 457, time 214.12, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4394 re_mapping 0.0020 re_causal 0.0082 /// teacc 99.16 lr 0.00001000
+Epoch 459, weight, value: tensor([[-0.1524,  0.0568,  0.0969,  ..., -0.1030, -0.1944,  0.0755],
+        [-0.1324, -0.0661, -0.1527,  ...,  0.2022, -0.1207, -0.1131],
+        [-0.0816,  0.0155,  0.2518,  ..., -0.1763, -0.1746, -0.2052],
+        ...,
+        [-0.2202, -0.0779,  0.0335,  ..., -0.0686,  0.1330, -0.1183],
+        [-0.1475, -0.1021, -0.0933,  ..., -0.1817, -0.0189, -0.2275],
+        [-0.2190, -0.0813, -0.1834,  ..., -0.2324, -0.0627,  0.1612]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.7695e-08,  0.0000e+00,  9.7789e-09,  ...,  2.3283e-09,
+          8.3819e-09,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00, -1.5367e-08,  ...,  0.0000e+00,
+          2.3283e-09,  0.0000e+00],
+        ...,
+        [ 3.0873e-07,  0.0000e+00,  9.3132e-10,  ...,  4.6566e-10,
+          1.0710e-08,  0.0000e+00],
+        [ 4.6566e-09,  0.0000e+00,  2.7940e-09,  ..., -1.8626e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 3.7812e-07,  0.0000e+00,  4.1910e-09,  ...,  0.0000e+00,
+          4.3772e-08,  0.0000e+00]], device='cuda:0')
+Epoch 459, bias, value: tensor([-0.0369, -0.0302,  0.0087,  0.0298, -0.0183,  0.0068, -0.0171,  0.0160,
+         0.0096, -0.0062], device='cuda:0'), grad: tensor([ 6.0536e-09,  1.0291e-07, -2.1886e-08, -3.2596e-09, -1.3085e-06,
+         1.5832e-08,  8.8476e-09,  5.4156e-07, -3.0268e-08,  7.0455e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 458, time 214.28, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4442 re_mapping 0.0020 re_causal 0.0081 /// teacc 99.18 lr 0.00001000
+Epoch 460, weight, value: tensor([[-0.1524,  0.0568,  0.0970,  ..., -0.1031, -0.1945,  0.0756],
+        [-0.1324, -0.0661, -0.1528,  ...,  0.2022, -0.1207, -0.1131],
+        [-0.0816,  0.0155,  0.2518,  ..., -0.1763, -0.1746, -0.2052],
+        ...,
+        [-0.2204, -0.0779,  0.0336,  ..., -0.0686,  0.1330, -0.1184],
+        [-0.1475, -0.1021, -0.0934,  ..., -0.1819, -0.0189, -0.2276],
+        [-0.2191, -0.0813, -0.1835,  ..., -0.2324, -0.0629,  0.1612]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00, -8.3819e-09,  ...,  5.5879e-09,
+          0.0000e+00, -1.1176e-08],
+        [ 9.3132e-10,  0.0000e+00,  1.3970e-09,  ..., -2.3283e-09,
+          2.7940e-09,  4.6566e-10],
+        [ 4.6566e-10,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          3.2596e-09,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00, -2.1420e-08,  ...,  1.8626e-09,
+         -3.6787e-08,  3.2596e-09],
+        [ 4.6566e-10,  0.0000e+00,  9.7789e-09,  ...,  4.1910e-09,
+          1.4435e-08,  2.7940e-09],
+        [ 2.3283e-09,  0.0000e+00,  8.8476e-09,  ...,  0.0000e+00,
+          6.5193e-09, -2.3283e-09]], device='cuda:0')
+Epoch 460, bias, value: tensor([-0.0369, -0.0302,  0.0087,  0.0298, -0.0182,  0.0068, -0.0171,  0.0160,
+         0.0096, -0.0062], device='cuda:0'), grad: tensor([-1.3970e-08,  2.3283e-09,  1.2573e-08, -7.5437e-08,  6.9849e-09,
+         4.9360e-08, -3.2596e-08, -2.6077e-08,  5.5879e-08,  2.9337e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 459, time 214.45, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4037 re_mapping 0.0020 re_causal 0.0078 /// teacc 99.19 lr 0.00001000
+Epoch 461, weight, value: tensor([[-0.1524,  0.0568,  0.0972,  ..., -0.1031, -0.1946,  0.0756],
+        [-0.1325, -0.0661, -0.1528,  ...,  0.2022, -0.1207, -0.1132],
+        [-0.0816,  0.0155,  0.2519,  ..., -0.1764, -0.1747, -0.2052],
+        ...,
+        [-0.2205, -0.0780,  0.0336,  ..., -0.0686,  0.1331, -0.1186],
+        [-0.1475, -0.1021, -0.0934,  ..., -0.1822, -0.0189, -0.2277],
+        [-0.2192, -0.0813, -0.1838,  ..., -0.2325, -0.0631,  0.1612]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-09,  0.0000e+00, -1.3039e-08,  ...,  9.3132e-10,
+          0.0000e+00, -1.0245e-08],
+        [ 3.7253e-09,  0.0000e+00, -2.3283e-09,  ..., -3.3993e-08,
+          0.0000e+00,  2.3283e-09],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 9.3132e-09,  0.0000e+00,  2.7940e-09,  ...,  2.8871e-08,
+          0.0000e+00,  2.1886e-08],
+        [ 3.2596e-09,  0.0000e+00,  0.0000e+00,  ...,  3.2596e-09,
+          0.0000e+00,  8.3819e-09],
+        [ 1.2573e-08,  0.0000e+00,  9.3132e-09,  ...,  0.0000e+00,
+          0.0000e+00, -2.0070e-07]], device='cuda:0')
+Epoch 461, bias, value: tensor([-0.0368, -0.0302,  0.0087,  0.0298, -0.0182,  0.0068, -0.0171,  0.0160,
+         0.0096, -0.0064], device='cuda:0'), grad: tensor([-9.7789e-09, -6.1002e-08,  1.0245e-08, -2.1560e-07,  3.4133e-07,
+         2.3143e-07, -4.1910e-09,  1.4063e-07,  2.6543e-08, -4.5216e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 460, time 214.27, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4448 re_mapping 0.0021 re_causal 0.0082 /// teacc 99.18 lr 0.00001000
+Epoch 462, weight, value: tensor([[-0.1525,  0.0568,  0.0974,  ..., -0.1032, -0.1947,  0.0757],
+        [-0.1325, -0.0661, -0.1529,  ...,  0.2023, -0.1207, -0.1132],
+        [-0.0816,  0.0155,  0.2520,  ..., -0.1764, -0.1748, -0.2052],
+        ...,
+        [-0.2205, -0.0780,  0.0337,  ..., -0.0686,  0.1331, -0.1188],
+        [-0.1475, -0.1021, -0.0934,  ..., -0.1824, -0.0189, -0.2278],
+        [-0.2192, -0.0813, -0.1841,  ..., -0.2325, -0.0633,  0.1612]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.4342e-07,  ...,  1.3970e-09,
+          9.3132e-10, -2.2817e-07],
+        [-4.6566e-10,  0.0000e+00,  2.7940e-09,  ..., -2.7940e-09,
+          9.3132e-10,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  3.2596e-09,
+          4.6566e-10,  4.1910e-09],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  8.8476e-09,  ...,  1.4435e-08,
+          4.6566e-10,  1.8626e-08],
+        [ 0.0000e+00,  0.0000e+00,  6.0536e-09,  ..., -1.3039e-08,
+          9.3132e-10,  1.1176e-08],
+        [ 5.5879e-09,  0.0000e+00,  4.7032e-08,  ...,  0.0000e+00,
+          4.6566e-10,  6.5658e-08]], device='cuda:0')
+Epoch 462, bias, value: tensor([-0.0367, -0.0302,  0.0088,  0.0298, -0.0182,  0.0068, -0.0171,  0.0160,
+         0.0096, -0.0064], device='cuda:0'), grad: tensor([-7.8278e-07,  2.8592e-07,  8.7544e-08,  1.6252e-07,  9.3132e-10,
+         1.8300e-07,  8.5216e-08,  1.0058e-07, -3.5809e-07,  2.4633e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 461, time 214.24, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4075 re_mapping 0.0020 re_causal 0.0078 /// teacc 99.17 lr 0.00001000
+Epoch 463, weight, value: tensor([[-0.1525,  0.0568,  0.0974,  ..., -0.1033, -0.1947,  0.0758],
+        [-0.1325, -0.0661, -0.1530,  ...,  0.2023, -0.1207, -0.1133],
+        [-0.0816,  0.0155,  0.2521,  ..., -0.1765, -0.1749, -0.2053],
+        ...,
+        [-0.2205, -0.0780,  0.0337,  ..., -0.0686,  0.1331, -0.1190],
+        [-0.1476, -0.1021, -0.0935,  ..., -0.1826, -0.0189, -0.2279],
+        [-0.2193, -0.0813, -0.1842,  ..., -0.2325, -0.0635,  0.1612]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00, -1.8626e-09,  ...,  0.0000e+00,
+          4.6566e-10, -4.1910e-09],
+        [ 4.6566e-10,  0.0000e+00,  5.5879e-09,  ..., -1.8626e-09,
+          6.0536e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -9.3132e-09,  ...,  4.6566e-10,
+          3.7253e-09,  0.0000e+00],
+        ...,
+        [ 1.3970e-09,  0.0000e+00, -6.0536e-09,  ...,  2.7940e-09,
+         -1.3504e-08,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  6.9849e-09,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [ 2.6543e-08,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+          2.3283e-09,  2.7940e-09]], device='cuda:0')
+Epoch 463, bias, value: tensor([-0.0367, -0.0302,  0.0088,  0.0298, -0.0182,  0.0068, -0.0170,  0.0160,
+         0.0096, -0.0064], device='cuda:0'), grad: tensor([ 2.3283e-09,  2.4680e-08, -1.4435e-08, -1.9185e-07, -3.4925e-08,
+         2.5146e-08,  1.3039e-08,  6.8452e-08,  6.4727e-08,  5.4948e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 462, time 214.22, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4494 re_mapping 0.0020 re_causal 0.0082 /// teacc 99.18 lr 0.00001000
+Epoch 464, weight, value: tensor([[-0.1525,  0.0568,  0.0975,  ..., -0.1034, -0.1948,  0.0759],
+        [-0.1326, -0.0661, -0.1531,  ...,  0.2023, -0.1207, -0.1134],
+        [-0.0817,  0.0155,  0.2522,  ..., -0.1766, -0.1750, -0.2053],
+        ...,
+        [-0.2206, -0.0780,  0.0338,  ..., -0.0686,  0.1332, -0.1193],
+        [-0.1476, -0.1021, -0.0935,  ..., -0.1829, -0.0189, -0.2280],
+        [-0.2194, -0.0813, -0.1844,  ..., -0.2326, -0.0636,  0.1613]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  0.0000e+00, -4.6566e-10,  ...,  9.3132e-10,
+          6.9849e-10, -9.3132e-10],
+        [ 7.6834e-09,  0.0000e+00,  2.3516e-08,  ..., -3.2363e-08,
+          7.4506e-09,  9.3132e-10],
+        [ 6.9849e-10,  0.0000e+00, -1.4203e-08,  ...,  3.4925e-09,
+          1.0710e-08,  0.0000e+00],
+        ...,
+        [ 6.7521e-09,  0.0000e+00, -1.5134e-08,  ...,  2.5146e-08,
+         -2.7707e-08,  3.7253e-09],
+        [ 6.9849e-09,  0.0000e+00,  5.1223e-09,  ...,  2.7940e-09,
+          6.9849e-09,  1.3970e-09],
+        [ 6.9849e-10,  0.0000e+00,  2.3283e-09,  ...,  1.8626e-09,
+          2.5611e-09, -6.7521e-09]], device='cuda:0')
+Epoch 464, bias, value: tensor([-0.0367, -0.0302,  0.0088,  0.0298, -0.0183,  0.0068, -0.0170,  0.0160,
+         0.0095, -0.0064], device='cuda:0'), grad: tensor([ 6.5193e-09, -1.9092e-08,  0.0000e+00,  2.2817e-08, -4.1211e-08,
+        -3.9348e-08,  2.4214e-08,  2.2585e-08,  4.5402e-08, -5.1223e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 463, time 214.70, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4140 re_mapping 0.0020 re_causal 0.0078 /// teacc 99.22 lr 0.00001000
+Epoch 465, weight, value: tensor([[-0.1526,  0.0568,  0.0976,  ..., -0.1035, -0.1949,  0.0759],
+        [-0.1326, -0.0661, -0.1531,  ...,  0.2023, -0.1208, -0.1134],
+        [-0.0817,  0.0155,  0.2522,  ..., -0.1766, -0.1751, -0.2053],
+        ...,
+        [-0.2206, -0.0780,  0.0338,  ..., -0.0686,  0.1332, -0.1196],
+        [-0.1477, -0.1021, -0.0935,  ..., -0.1831, -0.0189, -0.2283],
+        [-0.2195, -0.0813, -0.1845,  ..., -0.2326, -0.0638,  0.1613]],
+       device='cuda:0'), grad: tensor([[ 6.9849e-10, -1.1642e-09, -1.1176e-08,  ...,  2.3283e-10,
+          1.6298e-09, -1.1874e-08],
+        [ 1.1642e-09,  0.0000e+00,  6.9849e-09,  ..., -4.6566e-09,
+          4.8894e-09,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00, -2.5611e-09,  ...,  4.6566e-10,
+          7.4506e-09,  6.9849e-10],
+        ...,
+        [-6.9849e-10,  0.0000e+00, -2.4680e-08,  ...,  4.6566e-09,
+         -2.7474e-08,  9.3132e-10],
+        [ 9.3132e-10,  0.0000e+00,  2.7940e-09,  ...,  1.3970e-09,
+          1.1642e-09,  6.9849e-10],
+        [ 3.9581e-09,  6.9849e-10,  1.6065e-08,  ...,  0.0000e+00,
+          5.5879e-09,  9.3132e-09]], device='cuda:0')
+Epoch 465, bias, value: tensor([-0.0367, -0.0302,  0.0088,  0.0298, -0.0183,  0.0069, -0.0170,  0.0160,
+         0.0095, -0.0064], device='cuda:0'), grad: tensor([-5.4948e-08,  1.9791e-08,  1.3970e-08,  2.4633e-07,  4.4238e-09,
+        -2.4377e-07,  1.3271e-08, -5.6578e-08, -3.7253e-09,  8.7311e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 464, time 214.35, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4222 re_mapping 0.0020 re_causal 0.0077 /// teacc 99.21 lr 0.00001000
+Epoch 466, weight, value: tensor([[-0.1526,  0.0568,  0.0977,  ..., -0.1036, -0.1949,  0.0759],
+        [-0.1327, -0.0661, -0.1532,  ...,  0.2023, -0.1208, -0.1135],
+        [-0.0818,  0.0155,  0.2523,  ..., -0.1767, -0.1752, -0.2053],
+        ...,
+        [-0.2208, -0.0780,  0.0339,  ..., -0.0687,  0.1333, -0.1197],
+        [-0.1478, -0.1021, -0.0936,  ..., -0.1835, -0.0189, -0.2284],
+        [-0.2197, -0.0813, -0.1848,  ..., -0.2327, -0.0640,  0.1614]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          2.3283e-10,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ..., -1.8626e-08,
+          0.0000e+00,  6.9849e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.9849e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  1.4668e-08,
+          0.0000e+00,  1.1176e-08],
+        [ 0.0000e+00,  0.0000e+00,  6.9849e-10,  ...,  1.3970e-09,
+          4.6566e-10,  9.3132e-10],
+        [ 4.6566e-10,  0.0000e+00,  4.6566e-10,  ...,  2.3283e-10,
+          2.3283e-10, -2.3050e-08]], device='cuda:0')
+Epoch 466, bias, value: tensor([-0.0367, -0.0302,  0.0088,  0.0298, -0.0182,  0.0069, -0.0170,  0.0160,
+         0.0095, -0.0065], device='cuda:0'), grad: tensor([ 7.2177e-09, -3.6787e-08,  5.1223e-09, -3.2596e-09,  3.6554e-08,
+        -3.9348e-08,  7.4506e-09,  8.8708e-08,  1.6531e-08, -6.1700e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 465, time 214.16, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4284 re_mapping 0.0020 re_causal 0.0079 /// teacc 99.17 lr 0.00001000
+Epoch 467, weight, value: tensor([[-0.1527,  0.0568,  0.0979,  ..., -0.1037, -0.1950,  0.0760],
+        [-0.1328, -0.0661, -0.1533,  ...,  0.2023, -0.1208, -0.1136],
+        [-0.0818,  0.0155,  0.2524,  ..., -0.1768, -0.1754, -0.2054],
+        ...,
+        [-0.2209, -0.0780,  0.0339,  ..., -0.0687,  0.1333, -0.1199],
+        [-0.1478, -0.1021, -0.0936,  ..., -0.1838, -0.0189, -0.2286],
+        [-0.2198, -0.0813, -0.1849,  ..., -0.2328, -0.0641,  0.1614]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.8894e-09,  ...,  2.3283e-10,
+          2.3283e-10, -8.6147e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.4925e-09,  ..., -1.4203e-08,
+          5.8208e-09,  2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.1642e-09,  ...,  6.9849e-10,
+          4.6566e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -1.0012e-08,  ...,  1.0710e-08,
+         -1.9092e-08,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.0268e-09,  ...,  3.9581e-09,
+          3.4925e-09,  9.3132e-10],
+        [ 2.3283e-10,  0.0000e+00,  2.3283e-09,  ...,  6.9849e-10,
+          5.3551e-09, -2.3283e-10]], device='cuda:0')
+Epoch 467, bias, value: tensor([-0.0367, -0.0302,  0.0088,  0.0296, -0.0182,  0.0071, -0.0170,  0.0160,
+         0.0095, -0.0066], device='cuda:0'), grad: tensor([-2.0256e-08, -1.6997e-08,  1.1176e-08,  1.0710e-08,  5.8208e-09,
+         1.2806e-08,  2.5379e-08,  5.5879e-09, -3.8650e-08,  1.5600e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 466, time 214.23, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4434 re_mapping 0.0019 re_causal 0.0078 /// teacc 99.21 lr 0.00001000
+Epoch 468, weight, value: tensor([[-0.1528,  0.0569,  0.0980,  ..., -0.1040, -0.1951,  0.0761],
+        [-0.1328, -0.0661, -0.1534,  ...,  0.2023, -0.1208, -0.1137],
+        [-0.0818,  0.0155,  0.2525,  ..., -0.1768, -0.1755, -0.2054],
+        ...,
+        [-0.2210, -0.0780,  0.0340,  ..., -0.0687,  0.1333, -0.1202],
+        [-0.1479, -0.1021, -0.0936,  ..., -0.1841, -0.0190, -0.2287],
+        [-0.2200, -0.0813, -0.1851,  ..., -0.2328, -0.0643,  0.1614]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  0.0000e+00, -3.9581e-09,  ...,  2.3283e-10,
+          1.1642e-09, -8.6147e-09],
+        [ 9.3132e-10,  0.0000e+00,  3.7253e-09,  ..., -7.2177e-09,
+          7.4506e-09,  1.1642e-09],
+        [ 0.0000e+00,  0.0000e+00, -4.6566e-09,  ...,  4.6566e-10,
+          2.0955e-09,  2.3283e-10],
+        ...,
+        [ 2.7940e-09,  0.0000e+00,  4.6566e-10,  ...,  6.2864e-09,
+         -8.3819e-09,  1.1176e-08],
+        [ 2.3283e-10,  0.0000e+00,  1.3970e-09,  ...,  2.5611e-09,
+         -1.2806e-08,  9.3132e-10],
+        [ 3.4925e-09,  0.0000e+00,  3.9581e-09,  ...,  2.3283e-10,
+          4.1910e-09, -8.8476e-09]], device='cuda:0')
+Epoch 468, bias, value: tensor([-0.0367, -0.0302,  0.0089,  0.0296, -0.0182,  0.0071, -0.0169,  0.0160,
+         0.0094, -0.0067], device='cuda:0'), grad: tensor([ 2.3283e-10,  3.3295e-08,  8.8476e-09,  1.0268e-07,  2.1886e-08,
+         3.1665e-08,  1.2573e-08,  1.0291e-07, -2.6822e-07, -2.1653e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 467, time 214.09, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4311 re_mapping 0.0019 re_causal 0.0078 /// teacc 99.20 lr 0.00001000
+Epoch 469, weight, value: tensor([[-0.1528,  0.0569,  0.0981,  ..., -0.1042, -0.1951,  0.0761],
+        [-0.1329, -0.0661, -0.1535,  ...,  0.2023, -0.1209, -0.1138],
+        [-0.0818,  0.0155,  0.2526,  ..., -0.1768, -0.1756, -0.2054],
+        ...,
+        [-0.2211, -0.0780,  0.0340,  ..., -0.0687,  0.1334, -0.1204],
+        [-0.1479, -0.1021, -0.0936,  ..., -0.1844, -0.0190, -0.2289],
+        [-0.2201, -0.0814, -0.1853,  ..., -0.2329, -0.0645,  0.1615]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  2.3283e-10,
+          1.3970e-09, -1.1642e-09],
+        [ 4.6566e-10,  0.0000e+00,  2.3050e-08,  ..., -3.2131e-08,
+          3.6787e-08,  2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00, -9.3132e-09,  ...,  2.7940e-09,
+          1.6298e-09,  0.0000e+00],
+        ...,
+        [ 6.9849e-10,  0.0000e+00, -1.3504e-08,  ...,  2.2119e-08,
+         -3.4459e-08,  1.6298e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.5611e-09,  ...,  1.1642e-09,
+          4.6566e-09,  1.8626e-09],
+        [ 9.3132e-10,  0.0000e+00,  2.7940e-09,  ...,  3.0268e-09,
+          4.8894e-09, -3.2596e-09]], device='cuda:0')
+Epoch 469, bias, value: tensor([-0.0367, -0.0302,  0.0089,  0.0295, -0.0182,  0.0071, -0.0168,  0.0160,
+         0.0094, -0.0067], device='cuda:0'), grad: tensor([ 3.7253e-09,  3.3062e-08, -7.9162e-09, -2.7707e-08,  1.4668e-08,
+        -4.6566e-08,  1.2107e-08, -2.3283e-10,  2.1420e-08,  1.5832e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 468, time 214.35, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4306 re_mapping 0.0020 re_causal 0.0080 /// teacc 99.18 lr 0.00001000
+Epoch 470, weight, value: tensor([[-0.1529,  0.0569,  0.0983,  ..., -0.1043, -0.1952,  0.0762],
+        [-0.1329, -0.0661, -0.1536,  ...,  0.2024, -0.1209, -0.1139],
+        [-0.0819,  0.0155,  0.2527,  ..., -0.1769, -0.1757, -0.2055],
+        ...,
+        [-0.2212, -0.0780,  0.0341,  ..., -0.0687,  0.1334, -0.1207],
+        [-0.1479, -0.1021, -0.0937,  ..., -0.1847, -0.0190, -0.2290],
+        [-0.2202, -0.0814, -0.1856,  ..., -0.2330, -0.0646,  0.1615]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  9.3132e-10,
+          2.3283e-10,  7.2177e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.1642e-09,  ..., -5.5879e-09,
+          4.6566e-10,  1.6298e-09],
+        [ 0.0000e+00,  0.0000e+00, -2.2817e-08,  ...,  6.9849e-10,
+          2.3283e-10,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.9558e-08,  ...,  5.3551e-09,
+          2.3283e-10,  1.8161e-08],
+        [ 0.0000e+00,  0.0000e+00, -1.3970e-09,  ...,  3.2596e-09,
+          1.3970e-09,  7.6834e-09],
+        [ 0.0000e+00,  0.0000e+00,  6.9849e-10,  ...,  2.3283e-10,
+          2.3283e-10, -5.2387e-08]], device='cuda:0')
+Epoch 470, bias, value: tensor([-0.0366, -0.0302,  0.0089,  0.0294, -0.0182,  0.0071, -0.0168,  0.0160,
+         0.0094, -0.0068], device='cuda:0'), grad: tensor([ 2.6077e-08,  1.6065e-08, -3.7253e-09,  5.0291e-08,  4.5635e-08,
+         4.7963e-08, -3.3528e-08,  1.1316e-07, -1.1409e-07, -1.2922e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 469, time 214.44, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4433 re_mapping 0.0020 re_causal 0.0080 /// teacc 99.18 lr 0.00001000
+Epoch 471, weight, value: tensor([[-0.1529,  0.0569,  0.0985,  ..., -0.1045, -0.1953,  0.0763],
+        [-0.1330, -0.0661, -0.1537,  ...,  0.2024, -0.1209, -0.1139],
+        [-0.0819,  0.0155,  0.2528,  ..., -0.1770, -0.1758, -0.2056],
+        ...,
+        [-0.2213, -0.0780,  0.0342,  ..., -0.0687,  0.1335, -0.1209],
+        [-0.1480, -0.1021, -0.0937,  ..., -0.1850, -0.0190, -0.2291],
+        [-0.2203, -0.0814, -0.1858,  ..., -0.2331, -0.0648,  0.1615]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  0.0000e+00, -9.3132e-10,  ...,  1.6298e-09,
+          2.3283e-10,  2.3283e-10],
+        [ 1.1642e-09,  0.0000e+00,  1.6531e-08,  ..., -2.7940e-09,
+          1.4901e-08,  2.5611e-09],
+        [ 2.3283e-10,  0.0000e+00,  1.3504e-08,  ...,  2.3283e-10,
+          1.1874e-08,  2.3283e-10],
+        ...,
+        [ 9.3132e-10,  0.0000e+00, -5.6112e-08,  ...,  1.6298e-09,
+         -5.1688e-08,  1.6065e-08],
+        [ 1.1642e-09,  0.0000e+00,  1.0012e-08,  ...,  3.7253e-09,
+          6.7521e-09,  5.1223e-09],
+        [ 1.9558e-08,  0.0000e+00,  1.1409e-08,  ...,  0.0000e+00,
+          1.1176e-08, -1.8859e-08]], device='cuda:0')
+Epoch 471, bias, value: tensor([-0.0366, -0.0302,  0.0089,  0.0294, -0.0182,  0.0071, -0.0167,  0.0160,
+         0.0094, -0.0069], device='cuda:0'), grad: tensor([ 1.0245e-08,  4.6799e-08,  3.7020e-08,  1.7462e-08, -2.0256e-08,
+         3.7253e-09, -3.7719e-08, -8.6613e-08,  4.0978e-08, -2.5611e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 470, time 214.27, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4368 re_mapping 0.0020 re_causal 0.0079 /// teacc 99.17 lr 0.00001000
+Epoch 472, weight, value: tensor([[-0.1531,  0.0569,  0.0986,  ..., -0.1046, -0.1953,  0.0764],
+        [-0.1331, -0.0661, -0.1538,  ...,  0.2024, -0.1209, -0.1140],
+        [-0.0819,  0.0155,  0.2528,  ..., -0.1770, -0.1759, -0.2056],
+        ...,
+        [-0.2214, -0.0780,  0.0342,  ..., -0.0687,  0.1335, -0.1211],
+        [-0.1481, -0.1021, -0.0937,  ..., -0.1852, -0.0190, -0.2292],
+        [-0.2204, -0.0814, -0.1860,  ..., -0.2331, -0.0650,  0.1616]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  0.0000e+00, -1.8626e-09,  ...,  3.4925e-09,
+          0.0000e+00, -1.3039e-08],
+        [ 1.1642e-09,  0.0000e+00,  1.0943e-08,  ..., -1.1642e-09,
+          4.8894e-09,  9.3132e-10],
+        [ 2.3283e-10,  0.0000e+00, -9.0804e-09,  ...,  1.8626e-09,
+          4.6566e-10,  2.3283e-10],
+        ...,
+        [ 1.1642e-09,  0.0000e+00, -2.0955e-09,  ...,  3.0268e-09,
+         -5.8208e-09,  2.8871e-08],
+        [ 2.3283e-10,  0.0000e+00,  4.6566e-10,  ...,  3.0268e-09,
+          4.6566e-10,  6.9849e-10],
+        [ 7.6834e-09,  0.0000e+00,  2.3283e-09,  ...,  4.6566e-10,
+          2.3283e-09, -3.4692e-08]], device='cuda:0')
+Epoch 472, bias, value: tensor([-0.0365, -0.0302,  0.0089,  0.0294, -0.0182,  0.0072, -0.0167,  0.0160,
+         0.0094, -0.0069], device='cuda:0'), grad: tensor([-9.7789e-09,  3.1199e-08, -5.3551e-09,  5.1223e-09,  5.3551e-09,
+         1.7462e-08, -4.0745e-08,  5.4948e-08,  1.2573e-08, -4.4471e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 471, time 214.38, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4017 re_mapping 0.0019 re_causal 0.0075 /// teacc 99.17 lr 0.00001000
+Epoch 473, weight, value: tensor([[-0.1532,  0.0569,  0.0987,  ..., -0.1047, -0.1954,  0.0764],
+        [-0.1332, -0.0661, -0.1539,  ...,  0.2024, -0.1209, -0.1141],
+        [-0.0819,  0.0155,  0.2529,  ..., -0.1770, -0.1760, -0.2056],
+        ...,
+        [-0.2216, -0.0780,  0.0343,  ..., -0.0687,  0.1335, -0.1214],
+        [-0.1481, -0.1021, -0.0938,  ..., -0.1853, -0.0190, -0.2293],
+        [-0.2206, -0.0814, -0.1861,  ..., -0.2332, -0.0652,  0.1617]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.9558e-08,  ...,  1.3970e-09,
+         -9.3132e-10, -3.4459e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ..., -8.3819e-09,
+          4.6566e-10,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00, -7.4506e-09,  ...,  2.3283e-09,
+          2.3283e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.4238e-09,  ...,  1.6298e-09,
+          2.3283e-10,  9.3132e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  3.0268e-09,
+          2.3283e-10,  3.0268e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.2340e-08,  ...,  0.0000e+00,
+          4.6566e-10, -2.5611e-09]], device='cuda:0')
+Epoch 473, bias, value: tensor([-0.0365, -0.0302,  0.0090,  0.0292, -0.0182,  0.0072, -0.0166,  0.0160,
+         0.0094, -0.0070], device='cuda:0'), grad: tensor([-7.7533e-08, -1.1409e-08, -8.6147e-09,  8.1491e-09,  2.2585e-08,
+         1.2806e-08,  2.3982e-08,  3.7486e-08,  1.3271e-08, -1.0245e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 472, time 214.19, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4359 re_mapping 0.0020 re_causal 0.0078 /// teacc 99.19 lr 0.00001000
+Epoch 474, weight, value: tensor([[-0.1533,  0.0569,  0.0989,  ..., -0.1049, -0.1954,  0.0765],
+        [-0.1334, -0.0661, -0.1540,  ...,  0.2024, -0.1210, -0.1142],
+        [-0.0820,  0.0155,  0.2531,  ..., -0.1771, -0.1761, -0.2057],
+        ...,
+        [-0.2218, -0.0780,  0.0343,  ..., -0.0687,  0.1336, -0.1216],
+        [-0.1482, -0.1021, -0.0938,  ..., -0.1856, -0.0190, -0.2294],
+        [-0.2208, -0.0814, -0.1863,  ..., -0.2333, -0.0654,  0.1617]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  9.3132e-10,
+          0.0000e+00, -6.9849e-10],
+        [ 7.4506e-09,  0.0000e+00,  1.8626e-09,  ..., -8.6147e-09,
+          3.4925e-09,  6.9849e-10],
+        [ 0.0000e+00,  0.0000e+00,  7.6834e-09,  ...,  6.9849e-10,
+          6.9849e-10,  0.0000e+00],
+        ...,
+        [ 2.7940e-09,  0.0000e+00,  1.2573e-08,  ...,  6.2864e-09,
+         -5.1223e-09,  9.0804e-09],
+        [ 1.8626e-09,  0.0000e+00, -2.5611e-08,  ...,  3.2596e-09,
+          4.6566e-10,  9.3132e-10],
+        [ 9.0804e-09,  0.0000e+00,  1.3970e-09,  ...,  4.6566e-10,
+          2.0955e-09, -1.8394e-08]], device='cuda:0')
+Epoch 474, bias, value: tensor([-0.0365, -0.0302,  0.0090,  0.0292, -0.0181,  0.0072, -0.0165,  0.0160,
+         0.0094, -0.0071], device='cuda:0'), grad: tensor([ 1.6298e-09, -2.3283e-10,  5.7509e-08,  1.5367e-08, -5.3551e-09,
+         6.5193e-09,  1.3970e-09,  1.0501e-07, -1.4110e-07, -2.3050e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 473, time 214.17, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.3927 re_mapping 0.0020 re_causal 0.0075 /// teacc 99.20 lr 0.00001000
+Epoch 475, weight, value: tensor([[-0.1534,  0.0569,  0.0990,  ..., -0.1050, -0.1955,  0.0765],
+        [-0.1334, -0.0661, -0.1542,  ...,  0.2024, -0.1210, -0.1142],
+        [-0.0820,  0.0155,  0.2532,  ..., -0.1772, -0.1763, -0.2057],
+        ...,
+        [-0.2219, -0.0780,  0.0344,  ..., -0.0687,  0.1337, -0.1219],
+        [-0.1482, -0.1021, -0.0938,  ..., -0.1858, -0.0190, -0.2296],
+        [-0.2209, -0.0814, -0.1865,  ..., -0.2333, -0.0656,  0.1618]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.1642e-09,  ...,  4.6566e-10,
+          3.9581e-09,  3.9581e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.6298e-08,  ..., -1.1642e-09,
+          3.4925e-08,  1.1642e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.1874e-08,  ...,  2.3283e-10,
+          2.4447e-08,  2.3283e-10],
+        ...,
+        [ 2.3283e-10,  0.0000e+00, -9.6625e-08,  ...,  6.9849e-10,
+         -1.8859e-07,  9.3132e-09],
+        [ 2.3283e-10,  0.0000e+00,  6.2864e-09,  ...,  2.3283e-09,
+          1.4435e-08,  1.8626e-09],
+        [ 2.5146e-08,  0.0000e+00,  5.0524e-08,  ...,  0.0000e+00,
+          9.9884e-08, -2.0023e-08]], device='cuda:0')
+Epoch 475, bias, value: tensor([-0.0365, -0.0302,  0.0090,  0.0292, -0.0181,  0.0072, -0.0165,  0.0160,
+         0.0094, -0.0071], device='cuda:0'), grad: tensor([ 2.3749e-08,  1.0314e-07,  7.9628e-08,  7.5437e-08, -8.8476e-09,
+        -8.3447e-07,  8.0001e-07, -5.4389e-07,  4.9593e-08,  2.6892e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 474, time 214.75, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4387 re_mapping 0.0020 re_causal 0.0081 /// teacc 99.19 lr 0.00001000
+Epoch 476, weight, value: tensor([[-0.1534,  0.0569,  0.0991,  ..., -0.1053, -0.1956,  0.0766],
+        [-0.1335, -0.0661, -0.1543,  ...,  0.2024, -0.1211, -0.1143],
+        [-0.0820,  0.0155,  0.2533,  ..., -0.1772, -0.1765, -0.2057],
+        ...,
+        [-0.2220, -0.0780,  0.0345,  ..., -0.0688,  0.1337, -0.1221],
+        [-0.1483, -0.1021, -0.0939,  ..., -0.1860, -0.0190, -0.2297],
+        [-0.2212, -0.0814, -0.1867,  ..., -0.2334, -0.0659,  0.1618]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00, -1.8626e-08,  ...,  4.6566e-10,
+          2.3283e-10, -2.8871e-08],
+        [ 5.5879e-09,  0.0000e+00,  1.1409e-08,  ..., -3.0268e-09,
+          2.2119e-08,  9.3132e-10],
+        [ 4.6566e-10,  0.0000e+00,  2.7940e-09,  ...,  9.3132e-10,
+          5.1223e-09,  2.3283e-10],
+        ...,
+        [ 7.4506e-09,  0.0000e+00, -2.0256e-08,  ...,  2.3283e-10,
+         -4.1444e-08,  4.6566e-09],
+        [ 6.9849e-10,  0.0000e+00,  5.8208e-09,  ...,  2.7940e-09,
+          6.2864e-09,  4.4238e-09],
+        [ 1.0105e-07,  0.0000e+00,  8.6147e-09,  ...,  9.3132e-10,
+          5.5879e-09,  2.0955e-09]], device='cuda:0')
+Epoch 476, bias, value: tensor([-0.0365, -0.0303,  0.0091,  0.0292, -0.0180,  0.0072, -0.0165,  0.0161,
+         0.0093, -0.0073], device='cuda:0'), grad: tensor([-5.8208e-08,  5.7509e-08,  1.7229e-08,  3.9348e-08, -1.9604e-07,
+         2.9569e-08,  3.3295e-08, -6.4727e-08, -4.9360e-08,  2.0582e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 475, time 214.52, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4228 re_mapping 0.0019 re_causal 0.0078 /// teacc 99.18 lr 0.00001000
+Epoch 477, weight, value: tensor([[-0.1535,  0.0569,  0.0993,  ..., -0.1055, -0.1956,  0.0767],
+        [-0.1336, -0.0662, -0.1545,  ...,  0.2024, -0.1211, -0.1144],
+        [-0.0821,  0.0155,  0.2534,  ..., -0.1773, -0.1766, -0.2058],
+        ...,
+        [-0.2221, -0.0780,  0.0346,  ..., -0.0688,  0.1338, -0.1224],
+        [-0.1483, -0.1021, -0.0940,  ..., -0.1863, -0.0191, -0.2299],
+        [-0.2214, -0.0814, -0.1870,  ..., -0.2334, -0.0662,  0.1619]],
+       device='cuda:0'), grad: tensor([[ 6.9849e-10,  0.0000e+00, -3.0268e-09,  ...,  0.0000e+00,
+          4.6566e-10, -1.3970e-09],
+        [ 1.6298e-09,  0.0000e+00,  6.7521e-09,  ..., -7.6834e-09,
+          9.5461e-09,  2.0955e-09],
+        [ 2.3283e-10,  0.0000e+00, -9.3132e-09,  ...,  4.6566e-10,
+          6.0536e-09,  4.6566e-10],
+        ...,
+        [ 4.6566e-09,  0.0000e+00, -1.3970e-08,  ...,  6.0536e-09,
+         -2.4680e-08,  3.2363e-08],
+        [ 2.3283e-10,  0.0000e+00,  8.3819e-09,  ...,  1.1642e-09,
+          2.3283e-09,  2.7940e-09],
+        [ 7.4506e-09,  0.0000e+00,  4.8894e-09,  ...,  2.3283e-10,
+          6.5193e-09, -5.1688e-08]], device='cuda:0')
+Epoch 477, bias, value: tensor([-0.0365, -0.0303,  0.0091,  0.0290, -0.0179,  0.0074, -0.0164,  0.0161,
+         0.0093, -0.0074], device='cuda:0'), grad: tensor([-1.1642e-09,  1.5134e-08, -1.1874e-08,  2.3050e-08,  1.3970e-08,
+        -1.2340e-08,  1.4203e-08,  5.5414e-08,  2.9104e-08, -1.1711e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 476, time 214.25, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4266 re_mapping 0.0020 re_causal 0.0079 /// teacc 99.18 lr 0.00001000
+Epoch 478, weight, value: tensor([[-0.1535,  0.0569,  0.0994,  ..., -0.1056, -0.1957,  0.0768],
+        [-0.1337, -0.0662, -0.1546,  ...,  0.2024, -0.1211, -0.1144],
+        [-0.0821,  0.0155,  0.2536,  ..., -0.1773, -0.1767, -0.2058],
+        ...,
+        [-0.2222, -0.0780,  0.0347,  ..., -0.0688,  0.1339, -0.1227],
+        [-0.1484, -0.1021, -0.0940,  ..., -0.1866, -0.0191, -0.2301],
+        [-0.2216, -0.0814, -0.1871,  ..., -0.2335, -0.0664,  0.1620]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  0.0000e+00, -1.4668e-08,  ..., -4.6566e-10,
+          4.6566e-10, -2.3749e-08],
+        [ 1.1642e-09,  0.0000e+00,  2.0955e-09,  ..., -5.2620e-08,
+          2.7940e-09,  1.1642e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.1642e-09,  ...,  4.6566e-10,
+          1.6298e-09,  2.3283e-10],
+        ...,
+        [ 6.9849e-10,  0.0000e+00, -8.1491e-09,  ...,  4.7265e-08,
+         -9.7789e-09,  2.1420e-08],
+        [ 2.3283e-10,  0.0000e+00,  2.0955e-09,  ...,  3.9581e-09,
+          3.0268e-09,  2.7940e-09],
+        [ 2.8638e-08,  0.0000e+00,  1.1642e-08,  ...,  9.3132e-10,
+         -2.3283e-09, -1.9791e-08]], device='cuda:0')
+Epoch 478, bias, value: tensor([-0.0365, -0.0303,  0.0092,  0.0290, -0.0179,  0.0074, -0.0164,  0.0161,
+         0.0093, -0.0075], device='cuda:0'), grad: tensor([-4.8429e-08, -1.3318e-07,  7.2177e-09,  1.3504e-08, -6.5193e-09,
+         1.7928e-08,  1.3504e-08,  2.0280e-07,  2.3749e-08, -8.1258e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 477, time 214.38, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4171 re_mapping 0.0019 re_causal 0.0077 /// teacc 99.18 lr 0.00001000
+Epoch 479, weight, value: tensor([[-0.1536,  0.0569,  0.0996,  ..., -0.1058, -0.1958,  0.0769],
+        [-0.1339, -0.0662, -0.1547,  ...,  0.2025, -0.1212, -0.1145],
+        [-0.0822,  0.0155,  0.2537,  ..., -0.1774, -0.1769, -0.2058],
+        ...,
+        [-0.2223, -0.0780,  0.0348,  ..., -0.0688,  0.1339, -0.1230],
+        [-0.1485, -0.1021, -0.0940,  ..., -0.1868, -0.0191, -0.2302],
+        [-0.2220, -0.0814, -0.1874,  ..., -0.2336, -0.0667,  0.1620]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  0.0000e+00, -4.6566e-10,  ...,  2.3283e-10,
+          0.0000e+00, -3.7253e-09],
+        [ 6.2864e-09,  0.0000e+00, -9.3132e-10,  ..., -2.3912e-07,
+         -2.4680e-08,  0.0000e+00],
+        [ 2.3283e-10,  0.0000e+00,  2.3283e-10,  ...,  9.3132e-10,
+          4.6566e-10,  0.0000e+00],
+        ...,
+        [ 1.0012e-08,  0.0000e+00,  0.0000e+00,  ...,  2.3679e-07,
+          2.2585e-08,  2.3283e-10],
+        [ 4.6566e-10,  0.0000e+00,  2.3283e-10,  ...,  1.8626e-09,
+          6.9849e-10,  0.0000e+00],
+        [ 1.3970e-08,  0.0000e+00,  1.1642e-09,  ...,  1.1642e-09,
+          6.9849e-10,  2.3283e-09]], device='cuda:0')
+Epoch 479, bias, value: tensor([-0.0365, -0.0303,  0.0092,  0.0289, -0.0177,  0.0074, -0.0163,  0.0161,
+         0.0092, -0.0076], device='cuda:0'), grad: tensor([-3.0268e-09, -5.3365e-07,  8.6147e-09,  3.2131e-08, -4.3772e-08,
+         1.4226e-07, -9.1735e-08,  5.6811e-07, -1.0151e-07,  3.1665e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 478, time 214.33, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4075 re_mapping 0.0019 re_causal 0.0077 /// teacc 99.16 lr 0.00001000
+Epoch 480, weight, value: tensor([[-0.1536,  0.0569,  0.0999,  ..., -0.1058, -0.1958,  0.0770],
+        [-0.1340, -0.0662, -0.1548,  ...,  0.2025, -0.1212, -0.1146],
+        [-0.0822,  0.0155,  0.2539,  ..., -0.1775, -0.1770, -0.2059],
+        ...,
+        [-0.2225, -0.0780,  0.0348,  ..., -0.0688,  0.1340, -0.1232],
+        [-0.1485, -0.1021, -0.0941,  ..., -0.1870, -0.0191, -0.2303],
+        [-0.2222, -0.0814, -0.1877,  ..., -0.2337, -0.0668,  0.1621]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.7229e-08,  ...,  1.6298e-09,
+          6.9849e-10, -2.4447e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.6065e-08,  ..., -1.8859e-08,
+          3.0966e-08,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  4.6566e-10,
+          2.3283e-09,  2.3283e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -2.2817e-08,  ...,  1.5600e-08,
+         -5.5879e-08,  6.7521e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.6298e-09,  ...,  3.2596e-09,
+          2.7940e-09,  8.1491e-09],
+        [ 4.6566e-10,  0.0000e+00,  1.4668e-08,  ...,  4.6566e-10,
+          1.4203e-08, -2.3283e-09]], device='cuda:0')
+Epoch 480, bias, value: tensor([-0.0364, -0.0303,  0.0093,  0.0290, -0.0176,  0.0074, -0.0163,  0.0161,
+         0.0092, -0.0078], device='cuda:0'), grad: tensor([-4.7497e-08,  5.8440e-08,  8.3819e-09,  2.3283e-08,  2.9802e-08,
+        -8.7544e-08,  6.3097e-08, -9.3598e-08,  5.0291e-08, -7.4506e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 479, time 214.43, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4120 re_mapping 0.0020 re_causal 0.0076 /// teacc 99.17 lr 0.00001000
+Epoch 481, weight, value: tensor([[-0.1537,  0.0569,  0.1001,  ..., -0.1059, -0.1959,  0.0772],
+        [-0.1340, -0.0662, -0.1550,  ...,  0.2025, -0.1212, -0.1147],
+        [-0.0822,  0.0155,  0.2541,  ..., -0.1776, -0.1772, -0.2059],
+        ...,
+        [-0.2226, -0.0780,  0.0348,  ..., -0.0688,  0.1340, -0.1235],
+        [-0.1485, -0.1021, -0.0942,  ..., -0.1872, -0.0191, -0.2305],
+        [-0.2224, -0.0814, -0.1881,  ..., -0.2338, -0.0671,  0.1621]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09, -2.5611e-09,  0.0000e+00,  ...,  4.6566e-10,
+          3.9581e-09, -4.1910e-09],
+        [ 8.3819e-09,  1.3970e-09,  0.0000e+00,  ..., -2.4424e-07,
+          6.9849e-10,  6.0536e-09],
+        [ 8.3819e-09,  0.0000e+00,  0.0000e+00,  ...,  6.9849e-10,
+          2.3283e-10,  2.3283e-10],
+        ...,
+        [ 1.8626e-09,  0.0000e+00,  2.3283e-10,  ...,  2.2491e-07,
+          2.3283e-09,  3.9581e-09],
+        [ 6.9849e-10,  0.0000e+00,  0.0000e+00,  ...,  2.5611e-09,
+          1.1642e-09,  1.1642e-09],
+        [ 6.1002e-08,  6.9849e-10,  0.0000e+00,  ...,  6.2864e-09,
+          1.6298e-09, -1.6764e-08]], device='cuda:0')
+Epoch 481, bias, value: tensor([-0.0362, -0.0303,  0.0095,  0.0289, -0.0176,  0.0074, -0.0164,  0.0161,
+         0.0092, -0.0080], device='cuda:0'), grad: tensor([ 3.4925e-09, -9.6392e-07,  2.1653e-08,  5.7044e-08, -9.5228e-08,
+        -1.1339e-07,  6.8452e-08,  9.6858e-07, -4.2608e-08,  9.1968e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 480, time 214.21, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4119 re_mapping 0.0019 re_causal 0.0076 /// teacc 99.16 lr 0.00001000
+Epoch 482, weight, value: tensor([[-0.1538,  0.0569,  0.1006,  ..., -0.1060, -0.1959,  0.0775],
+        [-0.1341, -0.0662, -0.1551,  ...,  0.2025, -0.1213, -0.1148],
+        [-0.0823,  0.0155,  0.2542,  ..., -0.1776, -0.1773, -0.2060],
+        ...,
+        [-0.2228, -0.0780,  0.0349,  ..., -0.0688,  0.1341, -0.1238],
+        [-0.1486, -0.1021, -0.0942,  ..., -0.1875, -0.0191, -0.2306],
+        [-0.2226, -0.0814, -0.1884,  ..., -0.2339, -0.0673,  0.1620]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  4.6566e-10],
+        [ 9.3132e-10,  0.0000e+00,  9.7789e-09,  ..., -1.9558e-08,
+          1.0245e-08,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.5367e-08,  ...,  4.6566e-10,
+          1.4435e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -3.2131e-08,  ...,  3.7253e-09,
+         -3.1199e-08,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.1910e-09,  ...,  3.7253e-09,
+          4.1910e-09,  0.0000e+00],
+        [ 2.3283e-09,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          4.1910e-09, -5.5879e-09]], device='cuda:0')
+Epoch 482, bias, value: tensor([-0.0359, -0.0303,  0.0095,  0.0289, -0.0175,  0.0075, -0.0164,  0.0161,
+         0.0092, -0.0082], device='cuda:0'), grad: tensor([ 5.5879e-09,  6.5658e-08,  5.3551e-08,  6.9849e-09,  5.5879e-09,
+         3.7253e-09,  3.1199e-08, -8.3819e-08, -6.8452e-08,  4.6566e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 481, time 214.33, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4424 re_mapping 0.0019 re_causal 0.0081 /// teacc 99.20 lr 0.00001000
+Epoch 483, weight, value: tensor([[-0.1538,  0.0569,  0.1008,  ..., -0.1061, -0.1961,  0.0776],
+        [-0.1342, -0.0662, -0.1553,  ...,  0.2025, -0.1213, -0.1150],
+        [-0.0823,  0.0155,  0.2543,  ..., -0.1777, -0.1774, -0.2060],
+        ...,
+        [-0.2230, -0.0780,  0.0349,  ..., -0.0688,  0.1342, -0.1240],
+        [-0.1486, -0.1021, -0.0942,  ..., -0.1876, -0.0191, -0.2309],
+        [-0.2229, -0.0814, -0.1887,  ..., -0.2339, -0.0676,  0.1621]],
+       device='cuda:0'), grad: tensor([[-1.8626e-09, -4.6566e-09, -1.3039e-08,  ...,  4.6566e-10,
+          9.3132e-10, -1.8161e-08],
+        [ 1.8626e-09,  0.0000e+00,  1.4435e-08,  ...,  0.0000e+00,
+          2.6543e-08,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  3.2596e-09,  ...,  0.0000e+00,
+          5.1223e-09,  0.0000e+00],
+        ...,
+        [-6.9849e-09,  0.0000e+00, -1.3411e-07,  ...,  9.3132e-10,
+         -2.2445e-07,  4.6566e-10],
+        [ 1.3970e-09,  9.3132e-10,  9.3132e-09,  ...,  1.8626e-09,
+          1.2573e-08,  2.7940e-09],
+        [-8.8476e-09,  1.3970e-09,  1.0477e-07,  ...,  0.0000e+00,
+          1.5972e-07, -1.6764e-08]], device='cuda:0')
+Epoch 483, bias, value: tensor([-0.0359, -0.0303,  0.0095,  0.0288, -0.0174,  0.0076, -0.0164,  0.0161,
+         0.0092, -0.0083], device='cuda:0'), grad: tensor([-5.0757e-08,  8.3819e-08,  1.8161e-08,  1.9558e-08,  1.2061e-07,
+         1.6764e-08,  1.8626e-09, -5.4296e-07,  4.7497e-08,  2.9011e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 482, time 214.52, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4079 re_mapping 0.0019 re_causal 0.0075 /// teacc 99.19 lr 0.00001000
+Epoch 484, weight, value: tensor([[-0.1538,  0.0569,  0.1011,  ..., -0.1063, -0.1962,  0.0778],
+        [-0.1343, -0.0662, -0.1555,  ...,  0.2026, -0.1214, -0.1150],
+        [-0.0823,  0.0155,  0.2545,  ..., -0.1778, -0.1776, -0.2060],
+        ...,
+        [-0.2231, -0.0780,  0.0351,  ..., -0.0688,  0.1343, -0.1243],
+        [-0.1487, -0.1021, -0.0943,  ..., -0.1878, -0.0192, -0.2310],
+        [-0.2231, -0.0814, -0.1890,  ..., -0.2340, -0.0678,  0.1622]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00, -2.3283e-09,  ...,  4.6566e-10,
+          9.3132e-10, -2.3283e-09],
+        [ 1.3970e-09,  0.0000e+00,  2.1886e-08,  ..., -6.0536e-09,
+          3.5856e-08,  9.3132e-10],
+        [ 4.6566e-10,  0.0000e+00,  6.0536e-09,  ...,  4.6566e-10,
+          9.3132e-09,  0.0000e+00],
+        ...,
+        [ 4.6566e-09,  0.0000e+00, -5.1223e-08,  ...,  4.1910e-09,
+         -8.3353e-08,  5.1223e-09],
+        [ 9.3132e-10,  0.0000e+00,  3.2596e-09,  ...,  1.8626e-09,
+          5.5879e-09,  3.7253e-09],
+        [ 6.5193e-09,  0.0000e+00,  1.4901e-08,  ...,  0.0000e+00,
+          2.2817e-08, -4.1910e-08]], device='cuda:0')
+Epoch 484, bias, value: tensor([-0.0358, -0.0303,  0.0095,  0.0287, -0.0174,  0.0078, -0.0165,  0.0161,
+         0.0092, -0.0084], device='cuda:0'), grad: tensor([ 9.3132e-10,  1.3364e-07,  3.8184e-08,  6.3330e-08, -3.7253e-09,
+         1.5832e-08,  4.6566e-09, -2.8498e-07,  2.2352e-08,  1.5832e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 483, time 214.61, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4204 re_mapping 0.0019 re_causal 0.0078 /// teacc 99.18 lr 0.00001000
+Epoch 485, weight, value: tensor([[-0.1539,  0.0569,  0.1013,  ..., -0.1064, -0.1963,  0.0780],
+        [-0.1344, -0.0662, -0.1557,  ...,  0.2026, -0.1214, -0.1151],
+        [-0.0824,  0.0155,  0.2545,  ..., -0.1778, -0.1778, -0.2061],
+        ...,
+        [-0.2233, -0.0780,  0.0352,  ..., -0.0689,  0.1343, -0.1245],
+        [-0.1487, -0.1021, -0.0943,  ..., -0.1880, -0.0192, -0.2312],
+        [-0.2234, -0.0814, -0.1893,  ..., -0.2340, -0.0680,  0.1622]],
+       device='cuda:0'), grad: tensor([[ 3.2596e-09,  0.0000e+00,  9.3132e-10,  ...,  6.9849e-09,
+          1.8626e-09,  1.8626e-09],
+        [ 6.2864e-08,  0.0000e+00,  5.3551e-08,  ..., -2.9337e-08,
+          1.0617e-07,  0.0000e+00],
+        [ 3.7253e-09,  0.0000e+00,  1.3970e-08,  ...,  2.7940e-09,
+          2.2817e-08,  0.0000e+00],
+        ...,
+        [ 5.5879e-08,  0.0000e+00, -1.4342e-07,  ...,  1.5367e-08,
+         -2.5425e-07,  0.0000e+00],
+        [ 3.6322e-08,  0.0000e+00,  6.1933e-08,  ...,  2.0955e-08,
+          1.0105e-07,  1.3970e-09],
+        [ 1.1502e-07,  0.0000e+00,  7.4506e-09,  ...,  4.6566e-10,
+          1.2573e-08,  0.0000e+00]], device='cuda:0')
+Epoch 485, bias, value: tensor([-0.0357, -0.0303,  0.0094,  0.0287, -0.0173,  0.0079, -0.0165,  0.0161,
+         0.0091, -0.0086], device='cuda:0'), grad: tensor([ 3.4459e-08,  3.4412e-07,  9.5461e-08,  5.5879e-08, -4.4517e-07,
+        -4.0513e-08, -5.7742e-08, -7.2457e-07,  4.9081e-07,  2.5565e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 484, time 214.59, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4155 re_mapping 0.0019 re_causal 0.0077 /// teacc 99.18 lr 0.00001000
+Epoch 486, weight, value: tensor([[-0.1539,  0.0569,  0.1015,  ..., -0.1065, -0.1964,  0.0781],
+        [-0.1344, -0.0662, -0.1559,  ...,  0.2026, -0.1215, -0.1152],
+        [-0.0824,  0.0155,  0.2546,  ..., -0.1780, -0.1780, -0.2061],
+        ...,
+        [-0.2233, -0.0780,  0.0354,  ..., -0.0689,  0.1344, -0.1247],
+        [-0.1488, -0.1021, -0.0944,  ..., -0.1883, -0.0192, -0.2314],
+        [-0.2236, -0.0814, -0.1896,  ..., -0.2341, -0.0683,  0.1623]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  1.8626e-09,
+          4.6566e-10,  4.6566e-10],
+        [ 4.6566e-10,  0.0000e+00,  5.5879e-09,  ..., -7.5437e-08,
+          1.0245e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -3.2596e-09,  ...,  3.1199e-08,
+          4.6566e-10,  0.0000e+00],
+        ...,
+        [ 1.3970e-09,  0.0000e+00, -4.6566e-09,  ...,  2.7008e-08,
+         -2.2352e-08,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00, -6.5193e-09,  ...,  6.0536e-09,
+         -3.2596e-09,  4.6566e-10],
+        [ 2.3283e-09,  0.0000e+00,  5.1223e-09,  ...,  1.3970e-09,
+          6.9849e-09, -2.3283e-09]], device='cuda:0')
+Epoch 486, bias, value: tensor([-0.0356, -0.0303,  0.0094,  0.0287, -0.0173,  0.0079, -0.0165,  0.0161,
+         0.0091, -0.0087], device='cuda:0'), grad: tensor([ 8.8476e-09, -2.0443e-07,  7.0781e-08,  2.1886e-08,  2.0489e-08,
+         3.2596e-09, -1.3970e-09,  7.3574e-08,  6.0536e-09,  1.8626e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 485, time 214.96, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4219 re_mapping 0.0019 re_causal 0.0078 /// teacc 99.20 lr 0.00001000
+Epoch 487, weight, value: tensor([[-0.1541,  0.0569,  0.1017,  ..., -0.1067, -0.1965,  0.0782],
+        [-0.1346, -0.0662, -0.1561,  ...,  0.2027, -0.1215, -0.1153],
+        [-0.0825,  0.0155,  0.2547,  ..., -0.1781, -0.1781, -0.2061],
+        ...,
+        [-0.2236, -0.0780,  0.0355,  ..., -0.0689,  0.1345, -0.1250],
+        [-0.1489, -0.1021, -0.0944,  ..., -0.1885, -0.0192, -0.2315],
+        [-0.2239, -0.0814, -0.1898,  ..., -0.2342, -0.0685,  0.1624]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00, -2.7940e-09,  ...,  4.6566e-09,
+          2.3283e-09, -1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ..., -1.2107e-08,
+          3.2596e-09,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  1.3970e-09,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00, -2.7940e-09,  ...,  7.4506e-09,
+         -4.1910e-09,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  2.8405e-08,
+          2.7940e-09,  5.1223e-09],
+        [ 1.8626e-09,  0.0000e+00,  2.7940e-09,  ...,  4.6566e-10,
+          1.3970e-09, -4.6566e-09]], device='cuda:0')
+Epoch 487, bias, value: tensor([-0.0356, -0.0303,  0.0093,  0.0287, -0.0171,  0.0078, -0.0164,  0.0161,
+         0.0091, -0.0089], device='cuda:0'), grad: tensor([ 1.6764e-08, -1.7229e-08,  7.4506e-09,  1.6298e-08,  2.7940e-09,
+         2.9569e-07, -4.4843e-07,  2.1420e-08,  1.1083e-07, -4.6566e-10],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 486, time 214.48, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4218 re_mapping 0.0019 re_causal 0.0078 /// teacc 99.18 lr 0.00001000
+Epoch 488, weight, value: tensor([[-0.1542,  0.0569,  0.1018,  ..., -0.1068, -0.1965,  0.0783],
+        [-0.1348, -0.0662, -0.1562,  ...,  0.2027, -0.1216, -0.1154],
+        [-0.0825,  0.0155,  0.2548,  ..., -0.1782, -0.1782, -0.2062],
+        ...,
+        [-0.2237, -0.0780,  0.0356,  ..., -0.0689,  0.1346, -0.1252],
+        [-0.1490, -0.1021, -0.0945,  ..., -0.1888, -0.0192, -0.2317],
+        [-0.2241, -0.0814, -0.1900,  ..., -0.2343, -0.0688,  0.1625]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.8429e-08,  ..., -2.3283e-09,
+          4.6566e-10, -1.5367e-07],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ..., -5.5879e-09,
+          4.6566e-10,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00, -1.0291e-07,  ...,  4.6566e-10,
+         -3.2596e-09,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  8.8010e-08,  ...,  5.5879e-09,
+          3.7253e-09,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ...,  3.2596e-09,
+          9.3132e-10,  6.5193e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.3993e-08,  ...,  1.8626e-09,
+         -4.6566e-10,  9.3132e-08]], device='cuda:0')
+Epoch 488, bias, value: tensor([-0.0356, -0.0303,  0.0093,  0.0286, -0.0171,  0.0079, -0.0164,  0.0161,
+         0.0090, -0.0090], device='cuda:0'), grad: tensor([-3.9209e-07,  9.3132e-09, -2.1840e-07,  2.7940e-08,  1.1176e-08,
+         1.2107e-08,  5.4017e-08,  2.1094e-07,  4.3772e-08,  2.4773e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 487, time 214.45, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4111 re_mapping 0.0019 re_causal 0.0076 /// teacc 99.20 lr 0.00001000
+Epoch 489, weight, value: tensor([[-0.1543,  0.0569,  0.1019,  ..., -0.1070, -0.1966,  0.0784],
+        [-0.1349, -0.0662, -0.1564,  ...,  0.2027, -0.1216, -0.1154],
+        [-0.0826,  0.0155,  0.2549,  ..., -0.1782, -0.1784, -0.2062],
+        ...,
+        [-0.2238, -0.0780,  0.0357,  ..., -0.0690,  0.1347, -0.1255],
+        [-0.1490, -0.1021, -0.0946,  ..., -0.1890, -0.0193, -0.2318],
+        [-0.2243, -0.0814, -0.1903,  ..., -0.2344, -0.0691,  0.1626]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.0245e-08,  ...,  4.6566e-10,
+          4.6566e-10, -9.3132e-09],
+        [ 4.6566e-10,  0.0000e+00,  1.1176e-08,  ..., -2.3749e-08,
+          9.7789e-09,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.0245e-08,  ...,  4.6566e-09,
+          9.7789e-09,  9.3132e-10],
+        ...,
+        [ 4.1910e-09,  0.0000e+00, -3.3062e-08,  ...,  1.4901e-08,
+         -3.0734e-08,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  7.9162e-09,  ...,  4.1910e-09,
+          5.5879e-09,  1.3970e-09],
+        [ 9.3132e-10,  0.0000e+00,  8.8476e-09,  ...,  0.0000e+00,
+          4.6566e-09,  5.5879e-09]], device='cuda:0')
+Epoch 489, bias, value: tensor([-0.0356, -0.0303,  0.0093,  0.0286, -0.0171,  0.0079, -0.0163,  0.0161,
+         0.0090, -0.0091], device='cuda:0'), grad: tensor([-2.7008e-08, -3.1665e-08,  3.9116e-08,  5.6811e-08, -9.3132e-10,
+        -5.6345e-08,  1.1642e-08, -3.6322e-08,  2.7940e-08,  2.7940e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 488, time 214.55, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4249 re_mapping 0.0019 re_causal 0.0076 /// teacc 99.18 lr 0.00001000
+Epoch 490, weight, value: tensor([[-0.1543,  0.0569,  0.1021,  ..., -0.1072, -0.1967,  0.0785],
+        [-0.1350, -0.0662, -0.1565,  ...,  0.2027, -0.1217, -0.1156],
+        [-0.0826,  0.0155,  0.2549,  ..., -0.1783, -0.1786, -0.2063],
+        ...,
+        [-0.2239, -0.0780,  0.0359,  ..., -0.0690,  0.1348, -0.1258],
+        [-0.1490, -0.1021, -0.0946,  ..., -0.1894, -0.0193, -0.2320],
+        [-0.2245, -0.0814, -0.1905,  ..., -0.2344, -0.0693,  0.1628]],
+       device='cuda:0'), grad: tensor([[ 4.1910e-09,  0.0000e+00, -4.1910e-09,  ...,  4.6566e-09,
+          0.0000e+00, -9.3132e-10],
+        [ 1.3970e-09,  0.0000e+00,  9.3132e-10,  ..., -2.0862e-07,
+          2.3283e-09,  4.6566e-10],
+        [ 3.7253e-09,  0.0000e+00,  4.6566e-10,  ...,  5.1223e-09,
+          4.6566e-10,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  0.0000e+00, -1.3970e-09,  ...,  1.6764e-07,
+         -2.7940e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  1.2573e-08,
+          9.3132e-10,  1.3970e-09],
+        [ 4.6566e-09,  0.0000e+00,  3.7253e-09,  ...,  8.3819e-09,
+          1.3970e-09, -3.2596e-09]], device='cuda:0')
+Epoch 490, bias, value: tensor([-0.0355, -0.0303,  0.0092,  0.0286, -0.0171,  0.0079, -0.0162,  0.0161,
+         0.0090, -0.0092], device='cuda:0'), grad: tensor([ 3.7719e-08, -8.6473e-07,  2.0023e-08, -7.9162e-09,  2.9802e-08,
+         3.4459e-08, -3.8184e-08,  7.1526e-07,  5.0757e-08,  3.0734e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 489, time 214.42, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4155 re_mapping 0.0020 re_causal 0.0076 /// teacc 99.17 lr 0.00001000
+Epoch 491, weight, value: tensor([[-0.1544,  0.0569,  0.1023,  ..., -0.1073, -0.1968,  0.0786],
+        [-0.1351, -0.0662, -0.1567,  ...,  0.2028, -0.1218, -0.1157],
+        [-0.0826,  0.0155,  0.2550,  ..., -0.1784, -0.1787, -0.2064],
+        ...,
+        [-0.2240, -0.0780,  0.0360,  ..., -0.0690,  0.1349, -0.1260],
+        [-0.1491, -0.1021, -0.0947,  ..., -0.1896, -0.0193, -0.2322],
+        [-0.2248, -0.0814, -0.1906,  ..., -0.2345, -0.0695,  0.1629]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 9.3132e-10,  0.0000e+00,  1.3970e-09,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00, -1.0710e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.3970e-09,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  6.0536e-09],
+        [ 4.6566e-10,  0.0000e+00,  1.3970e-09,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-09,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00, -9.3132e-09]], device='cuda:0')
+Epoch 491, bias, value: tensor([-0.0355, -0.0303,  0.0091,  0.0285, -0.0171,  0.0080, -0.0162,  0.0161,
+         0.0090, -0.0092], device='cuda:0'), grad: tensor([ 3.7253e-09,  6.5193e-09, -1.7695e-08, -1.8626e-08, -1.8626e-09,
+         6.5193e-09,  3.2596e-09,  3.6787e-08,  9.3132e-09, -2.3749e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 490, time 214.52, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4319 re_mapping 0.0019 re_causal 0.0077 /// teacc 99.21 lr 0.00001000
+Epoch 492, weight, value: tensor([[-0.1545,  0.0569,  0.1023,  ..., -0.1075, -0.1968,  0.0786],
+        [-0.1352, -0.0662, -0.1569,  ...,  0.2028, -0.1218, -0.1158],
+        [-0.0827,  0.0155,  0.2553,  ..., -0.1786, -0.1789, -0.2064],
+        ...,
+        [-0.2242, -0.0780,  0.0361,  ..., -0.0691,  0.1350, -0.1264],
+        [-0.1491, -0.1021, -0.0948,  ..., -0.1898, -0.0193, -0.2324],
+        [-0.2250, -0.0814, -0.1908,  ..., -0.2345, -0.0696,  0.1632]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.7229e-08,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 4.1910e-09,  0.0000e+00,  1.8626e-09,  ..., -2.7008e-08,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -2.6450e-07,  ...,  9.3132e-10,
+          4.6566e-10,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  4.6566e-10,  ...,  1.9092e-08,
+         -4.6566e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.3190e-07,  ...,  2.3283e-09,
+          1.3970e-09,  4.6566e-10],
+        [ 1.3039e-08,  0.0000e+00,  4.1910e-09,  ...,  0.0000e+00,
+          1.3970e-09,  4.6566e-10]], device='cuda:0')
+Epoch 492, bias, value: tensor([-0.0356, -0.0303,  0.0093,  0.0284, -0.0171,  0.0080, -0.0161,  0.0161,
+         0.0089, -0.0092], device='cuda:0'), grad: tensor([ 4.0513e-08, -9.8720e-08, -4.3120e-07,  2.1420e-08,  4.1910e-09,
+         1.3504e-08,  3.9581e-08,  1.1455e-07,  2.3376e-07,  7.1712e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 491, time 214.38, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4171 re_mapping 0.0019 re_causal 0.0076 /// teacc 99.23 lr 0.00001000
+Epoch 493, weight, value: tensor([[-0.1545,  0.0569,  0.1023,  ..., -0.1077, -0.1970,  0.0787],
+        [-0.1353, -0.0662, -0.1572,  ...,  0.2029, -0.1219, -0.1159],
+        [-0.0827,  0.0155,  0.2554,  ..., -0.1788, -0.1790, -0.2064],
+        ...,
+        [-0.2242, -0.0780,  0.0363,  ..., -0.0691,  0.1352, -0.1266],
+        [-0.1492, -0.1021, -0.0949,  ..., -0.1902, -0.0193, -0.2325],
+        [-0.2251, -0.0814, -0.1912,  ..., -0.2346, -0.0701,  0.1633]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ..., -2.0489e-08,
+          1.3504e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ...,  0.0000e+00,
+          8.8476e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -4.5635e-08,  ...,  2.0023e-08,
+         -6.6590e-08,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.7789e-09,  ...,  4.6566e-10,
+          1.3970e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.3504e-08,  ...,  0.0000e+00,
+          1.8626e-08, -3.2596e-09]], device='cuda:0')
+Epoch 493, bias, value: tensor([-0.0357, -0.0303,  0.0093,  0.0284, -0.0171,  0.0080, -0.0160,  0.0161,
+         0.0089, -0.0094], device='cuda:0'), grad: tensor([ 9.3132e-10, -6.0536e-09,  2.3283e-08,  1.0245e-08,  2.0023e-08,
+         2.7940e-09,  1.8626e-09, -1.2992e-07,  3.8184e-08,  4.0047e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 492, time 214.53, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4412 re_mapping 0.0019 re_causal 0.0079 /// teacc 99.20 lr 0.00001000
+Epoch 494, weight, value: tensor([[-0.1546,  0.0569,  0.1024,  ..., -0.1079, -0.1970,  0.0787],
+        [-0.1353, -0.0662, -0.1575,  ...,  0.2029, -0.1220, -0.1160],
+        [-0.0827,  0.0155,  0.2555,  ..., -0.1789, -0.1792, -0.2065],
+        ...,
+        [-0.2243, -0.0780,  0.0365,  ..., -0.0691,  0.1353, -0.1268],
+        [-0.1493, -0.1021, -0.0949,  ..., -0.1906, -0.0194, -0.2327],
+        [-0.2253, -0.0814, -0.1914,  ..., -0.2347, -0.0703,  0.1635]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.1910e-09,  ...,  0.0000e+00,
+          4.6566e-10, -4.1910e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ..., -1.3970e-09,
+          2.3283e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  0.0000e+00, -9.3132e-10,  ...,  1.3970e-09,
+         -3.7253e-09,  2.3283e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          1.3970e-09,  9.3132e-10],
+        [ 4.6566e-10,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          1.8626e-09, -0.0000e+00]], device='cuda:0')
+Epoch 494, bias, value: tensor([-0.0358, -0.0303,  0.0092,  0.0284, -0.0172,  0.0080, -0.0158,  0.0162,
+         0.0088, -0.0094], device='cuda:0'), grad: tensor([-8.8476e-09,  1.3970e-09,  1.8626e-09,  6.0536e-09,  3.7253e-09,
+        -9.7789e-09,  3.2596e-09,  2.7940e-09,  2.3283e-09,  2.7940e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 493, time 214.39, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4086 re_mapping 0.0019 re_causal 0.0072 /// teacc 99.19 lr 0.00001000
+Epoch 495, weight, value: tensor([[-0.1547,  0.0569,  0.1026,  ..., -0.1081, -0.1970,  0.0788],
+        [-0.1353, -0.0662, -0.1578,  ...,  0.2030, -0.1221, -0.1160],
+        [-0.0828,  0.0155,  0.2556,  ..., -0.1792, -0.1794, -0.2065],
+        ...,
+        [-0.2244, -0.0780,  0.0367,  ..., -0.0692,  0.1355, -0.1270],
+        [-0.1493, -0.1021, -0.0950,  ..., -0.1909, -0.0194, -0.2329],
+        [-0.2255, -0.0814, -0.1916,  ..., -0.2347, -0.0705,  0.1637]],
+       device='cuda:0'), grad: tensor([[-0.0000e+00, -4.6566e-10, -1.0245e-08,  ...,  1.8626e-09,
+          0.0000e+00, -9.7789e-09],
+        [-3.2596e-09,  0.0000e+00,  4.6566e-10,  ..., -6.0536e-09,
+          4.6566e-10,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [ 1.8626e-09,  0.0000e+00,  4.6566e-10,  ...,  4.1910e-09,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-09,  ...,  3.7253e-09,
+          4.6566e-10,  3.2596e-09],
+        [ 4.6566e-10,  4.6566e-10,  5.1223e-09,  ...,  4.6566e-10,
+          4.6566e-10,  5.5879e-09]], device='cuda:0')
+Epoch 495, bias, value: tensor([-0.0359, -0.0303,  0.0091,  0.0284, -0.0173,  0.0079, -0.0157,  0.0162,
+         0.0087, -0.0094], device='cuda:0'), grad: tensor([-2.0023e-08, -1.8161e-08,  3.2596e-09,  4.0978e-08,  8.8476e-09,
+         5.6811e-08, -8.0094e-08,  2.3749e-08, -3.4459e-08,  2.0489e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 494, time 215.17, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4234 re_mapping 0.0018 re_causal 0.0074 /// teacc 99.19 lr 0.00001000
+Epoch 496, weight, value: tensor([[-0.1547,  0.0569,  0.1028,  ..., -0.1082, -0.1971,  0.0789],
+        [-0.1355, -0.0662, -0.1580,  ...,  0.2031, -0.1222, -0.1161],
+        [-0.0828,  0.0155,  0.2558,  ..., -0.1793, -0.1796, -0.2065],
+        ...,
+        [-0.2245, -0.0780,  0.0369,  ..., -0.0693,  0.1357, -0.1273],
+        [-0.1493, -0.1021, -0.0952,  ..., -0.1912, -0.0195, -0.2330],
+        [-0.2258, -0.0814, -0.1919,  ..., -0.2348, -0.0708,  0.1639]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 2.7940e-09,  0.0000e+00,  1.7229e-08,  ..., -4.0513e-08,
+          2.5146e-08, -2.7940e-09],
+        [-0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  9.3132e-10,
+          1.1176e-08,  0.0000e+00],
+        ...,
+        [ 3.7253e-09,  0.0000e+00, -7.9162e-08,  ...,  2.5146e-08,
+         -1.2340e-07,  1.3970e-09],
+        [ 4.6566e-10,  0.0000e+00,  1.6298e-08,  ...,  6.0536e-09,
+          2.3283e-08,  4.6566e-10],
+        [ 1.1642e-08,  0.0000e+00,  2.9802e-08,  ...,  9.3132e-10,
+          4.9826e-08,  4.6566e-10]], device='cuda:0')
+Epoch 496, bias, value: tensor([-0.0359, -0.0303,  0.0091,  0.0284, -0.0174,  0.0079, -0.0156,  0.0162,
+         0.0087, -0.0095], device='cuda:0'), grad: tensor([ 4.9360e-08, -3.1665e-08,  4.7497e-08, -3.4552e-07,  2.3749e-08,
+         1.7695e-07,  1.9092e-08, -2.1700e-07,  1.0245e-07,  1.8440e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 495, time 214.53, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4060 re_mapping 0.0019 re_causal 0.0075 /// teacc 99.21 lr 0.00001000
+Epoch 497, weight, value: tensor([[-0.1548,  0.0569,  0.1030,  ..., -0.1084, -0.1972,  0.0790],
+        [-0.1356, -0.0662, -0.1582,  ...,  0.2032, -0.1223, -0.1161],
+        [-0.0829,  0.0155,  0.2559,  ..., -0.1794, -0.1798, -0.2065],
+        ...,
+        [-0.2246, -0.0780,  0.0371,  ..., -0.0693,  0.1358, -0.1275],
+        [-0.1493, -0.1021, -0.0952,  ..., -0.1916, -0.0195, -0.2332],
+        [-0.2261, -0.0814, -0.1922,  ..., -0.2349, -0.0711,  0.1640]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -1.8626e-09,  ...,  9.7789e-09,
+          9.3132e-10, -1.8626e-09],
+        [ 1.0710e-08,  0.0000e+00,  1.4435e-08,  ...,  6.0536e-09,
+          1.8161e-08,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  2.0489e-08,  ...,  7.4506e-09,
+          2.3283e-08,  0.0000e+00],
+        ...,
+        [ 6.0536e-09,  0.0000e+00, -7.5437e-08,  ...,  1.8626e-09,
+         -9.9652e-08,  1.3970e-09],
+        [ 9.3132e-10,  0.0000e+00,  9.7789e-09,  ...,  9.3132e-09,
+          1.0710e-08,  4.6566e-10],
+        [ 4.6100e-08,  0.0000e+00,  2.1420e-08,  ...,  4.6566e-10,
+          3.3993e-08,  1.3970e-09]], device='cuda:0')
+Epoch 497, bias, value: tensor([-0.0359, -0.0303,  0.0091,  0.0284, -0.0173,  0.0078, -0.0155,  0.0162,
+         0.0086, -0.0098], device='cuda:0'), grad: tensor([ 3.9581e-08,  9.9652e-08,  1.0524e-07,  3.6787e-08, -8.1956e-08,
+         1.3970e-09, -1.3784e-07, -2.6450e-07,  5.0757e-08,  1.6298e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 496, time 214.58, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4089 re_mapping 0.0019 re_causal 0.0074 /// teacc 99.15 lr 0.00001000
+Epoch 498, weight, value: tensor([[-0.1548,  0.0569,  0.1032,  ..., -0.1086, -0.1973,  0.0792],
+        [-0.1357, -0.0662, -0.1584,  ...,  0.2033, -0.1224, -0.1162],
+        [-0.0829,  0.0155,  0.2560,  ..., -0.1795, -0.1800, -0.2066],
+        ...,
+        [-0.2248, -0.0780,  0.0373,  ..., -0.0694,  0.1359, -0.1277],
+        [-0.1493, -0.1021, -0.0953,  ..., -0.1918, -0.0195, -0.2334],
+        [-0.2263, -0.0814, -0.1925,  ..., -0.2350, -0.0713,  0.1641]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ...,  4.6566e-10,
+          4.6566e-10, -1.3970e-09],
+        [ 4.6566e-10,  0.0000e+00,  2.3283e-09,  ..., -1.3970e-09,
+          4.1910e-09,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          4.6566e-10,  0.0000e+00],
+        ...,
+        [ 1.3970e-09,  0.0000e+00, -2.3283e-09,  ...,  2.3283e-09,
+         -4.6566e-09,  1.0710e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  1.3970e-09,
+          2.3283e-09,  1.3970e-09],
+        [ 4.6566e-10,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          2.7940e-09, -1.1176e-08]], device='cuda:0')
+Epoch 498, bias, value: tensor([-0.0358, -0.0303,  0.0090,  0.0286, -0.0173,  0.0077, -0.0155,  0.0162,
+         0.0086, -0.0099], device='cuda:0'), grad: tensor([ 2.3283e-09,  1.1642e-08,  5.1223e-09, -1.6298e-08,  6.9849e-09,
+        -4.0978e-08,  1.2573e-08,  3.6322e-08,  2.2352e-08, -2.0955e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 497, time 214.57, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4205 re_mapping 0.0018 re_causal 0.0076 /// teacc 99.18 lr 0.00001000
+Epoch 499, weight, value: tensor([[-0.1549,  0.0569,  0.1033,  ..., -0.1087, -0.1973,  0.0793],
+        [-0.1357, -0.0662, -0.1587,  ...,  0.2033, -0.1225, -0.1163],
+        [-0.0829,  0.0155,  0.2562,  ..., -0.1796, -0.1801, -0.2066],
+        ...,
+        [-0.2249, -0.0781,  0.0374,  ..., -0.0694,  0.1360, -0.1279],
+        [-0.1493, -0.1021, -0.0954,  ..., -0.1920, -0.0195, -0.2335],
+        [-0.2265, -0.0814, -0.1927,  ..., -0.2350, -0.0714,  0.1643]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  3.2596e-09,  ...,  4.6566e-10,
+          5.5879e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  3.5390e-08,  ..., -1.3970e-09,
+          6.7521e-08,  2.3283e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ...,  0.0000e+00,
+          1.7229e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -1.0477e-07,  ...,  1.3970e-09,
+         -2.0768e-07, -6.5193e-09],
+        [ 0.0000e+00,  0.0000e+00,  6.9849e-09,  ...,  3.2596e-09,
+          1.3970e-08,  9.3132e-10],
+        [ 4.6566e-10,  0.0000e+00,  4.5169e-08,  ...,  0.0000e+00,
+          8.7079e-08,  2.7940e-09]], device='cuda:0')
+Epoch 499, bias, value: tensor([-0.0359, -0.0303,  0.0091,  0.0286, -0.0173,  0.0078, -0.0155,  0.0162,
+         0.0086, -0.0099], device='cuda:0'), grad: tensor([ 2.2352e-08,  2.2585e-07,  5.4482e-08,  4.0978e-08,  1.7695e-08,
+         2.2817e-08, -1.8161e-08, -6.8126e-07,  5.4482e-08,  2.8964e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 498, time 215.01, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4121 re_mapping 0.0019 re_causal 0.0074 /// teacc 99.18 lr 0.00001000
+Epoch 500, weight, value: tensor([[-0.1549,  0.0569,  0.1035,  ..., -0.1088, -0.1974,  0.0794],
+        [-0.1358, -0.0662, -0.1590,  ...,  0.2034, -0.1226, -0.1164],
+        [-0.0830,  0.0155,  0.2561,  ..., -0.1797, -0.1806, -0.2066],
+        ...,
+        [-0.2250, -0.0781,  0.0378,  ..., -0.0694,  0.1363, -0.1282],
+        [-0.1494, -0.1022, -0.0955,  ..., -0.1922, -0.0196, -0.2337],
+        [-0.2266, -0.0814, -0.1930,  ..., -0.2350, -0.0717,  0.1644]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -3.1665e-08,  ..., -1.3970e-08,
+          4.6566e-10, -9.3132e-08],
+        [ 4.6566e-10,  0.0000e+00,  2.7940e-08,  ...,  9.7789e-09,
+          1.1642e-08,  5.8208e-08],
+        [ 0.0000e+00,  0.0000e+00, -5.5879e-09,  ...,  0.0000e+00,
+          6.0536e-09,  4.6566e-10],
+        ...,
+        [ 9.3132e-10,  0.0000e+00, -2.1886e-08,  ...,  9.3132e-10,
+         -3.4925e-08,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  1.3970e-09,
+          4.6566e-09,  1.8626e-09],
+        [ 2.3283e-09,  0.0000e+00,  9.3132e-09,  ...,  1.8626e-09,
+          6.0536e-09,  1.1176e-08]], device='cuda:0')
+Epoch 500, bias, value: tensor([-0.0358, -0.0303,  0.0088,  0.0286, -0.0174,  0.0077, -0.0155,  0.0162,
+         0.0085, -0.0100], device='cuda:0'), grad: tensor([-3.0361e-07,  2.4354e-07,  9.3132e-10,  1.3039e-08,  1.5367e-08,
+         9.7789e-09,  5.4482e-08, -9.9186e-08,  2.7474e-08,  5.5414e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 499, time 214.41, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4155 re_mapping 0.0019 re_causal 0.0076 /// teacc 99.20 lr 0.00001000
+---------------------saving last model at epoch 499----------------------------------------------------
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 500, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_onlyblock1', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 3
+--------------------------CA_multiple--------------------------
+---------------------------14 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+Epoch 1, weight, value: tensor([[ 0.0283,  0.0057, -0.0019,  ..., -0.0274, -0.0022,  0.0037],
+        [ 0.0120,  0.0231, -0.0203,  ...,  0.0132, -0.0086,  0.0019],
+        [ 0.0071,  0.0276, -0.0189,  ...,  0.0208, -0.0272,  0.0256],
+        ...,
+        [-0.0037,  0.0258,  0.0140,  ..., -0.0099,  0.0187,  0.0058],
+        [-0.0209,  0.0135,  0.0214,  ...,  0.0033, -0.0044, -0.0090],
+        [ 0.0023, -0.0041, -0.0280,  ...,  0.0172,  0.0045, -0.0192]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([ 0.0060, -0.0184, -0.0143,  0.0292, -0.0303,  0.0218, -0.0259, -0.0152,
+         0.0269, -0.0212], device='cuda:0'), grad: None
+100
+0.0001
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 231.99, cls_loss 1.2937 cls_loss_mapping 1.8333 cls_loss_causal 2.2064 re_mapping 0.1579 re_causal 0.1671 /// teacc 86.98 lr 0.00010000
+Epoch 2, weight, value: tensor([[ 0.0195, -0.0011, -0.0099,  ..., -0.0329,  0.0003,  0.0100],
+        [ 0.0168,  0.0274, -0.0152,  ...,  0.0081, -0.0159, -0.0059],
+        [ 0.0113,  0.0264, -0.0222,  ...,  0.0159, -0.0319,  0.0208],
+        ...,
+        [-0.0086,  0.0230,  0.0178,  ..., -0.0082,  0.0152,  0.0093],
+        [-0.0183,  0.0173,  0.0235,  ..., -0.0021, -0.0087, -0.0125],
+        [-0.0050, -0.0019, -0.0277,  ...,  0.0171,  0.0072, -0.0164]],
+       device='cuda:0'), grad: tensor([[ 1.1139e-02,  4.3640e-03,  3.0651e-03,  ...,  6.8724e-05,
+          4.3259e-03, -1.6613e-03],
+        [ 5.9998e-02,  2.7451e-02,  2.7939e-02,  ...,  2.6512e-04,
+          3.8929e-03,  2.0065e-03],
+        [-3.1982e-02,  2.0313e-03,  4.4632e-03,  ...,  3.1328e-04,
+          2.0065e-02,  5.4703e-03],
+        ...,
+        [-1.0094e-02,  6.6643e-03, -8.4229e-03,  ...,  4.8637e-04,
+          1.2207e-02,  1.7365e-02],
+        [-1.4168e-02, -4.0833e-02, -3.7201e-02,  ...,  1.4133e-03,
+         -1.1932e-02, -1.1238e-02],
+        [ 3.8204e-03,  1.4664e-02,  1.7899e-02,  ...,  3.3798e-03,
+         -7.8659e-03, -2.0279e-02]], device='cuda:0')
+Epoch 2, bias, value: tensor([ 0.0043, -0.0173, -0.0152,  0.0291, -0.0306,  0.0230, -0.0267, -0.0152,
+         0.0266, -0.0203], device='cuda:0'), grad: tensor([ 0.0111,  0.0471,  0.0069, -0.0267, -0.0258,  0.0181,  0.0187,  0.0158,
+        -0.0539, -0.0115], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 231.99, cls_loss 0.4344 cls_loss_mapping 0.7874 cls_loss_causal 1.8913 re_mapping 0.2053 re_causal 0.2645 /// teacc 91.77 lr 0.00010000
+Epoch 3, weight, value: tensor([[ 0.0158, -0.0029, -0.0120,  ..., -0.0389,  0.0002,  0.0142],
+        [ 0.0179,  0.0290, -0.0131,  ...,  0.0030, -0.0194, -0.0084],
+        [ 0.0129,  0.0268, -0.0217,  ...,  0.0154, -0.0347,  0.0196],
+        ...,
+        [-0.0099,  0.0199,  0.0186,  ..., -0.0096,  0.0136,  0.0105],
+        [-0.0168,  0.0210,  0.0265,  ..., -0.0091, -0.0121, -0.0159],
+        [-0.0092, -0.0010, -0.0307,  ...,  0.0140,  0.0047, -0.0143]],
+       device='cuda:0'), grad: tensor([[ 0.0018,  0.0004,  0.0010,  ...,  0.0005,  0.0015, -0.0047],
+        [ 0.0047,  0.0016,  0.0022,  ...,  0.0007,  0.0019,  0.0005],
+        [-0.0011, -0.0251, -0.0250,  ..., -0.0050, -0.0090, -0.0049],
+        ...,
+        [ 0.0037, -0.0069, -0.0083,  ...,  0.0024,  0.0034, -0.0180],
+        [ 0.0114,  0.0285,  0.0298,  ...,  0.0047,  0.0155,  0.0140],
+        [-0.0162,  0.0347,  0.0147,  ...,  0.0229,  0.0208,  0.0150]],
+       device='cuda:0')
+Epoch 3, bias, value: tensor([ 0.0042, -0.0173, -0.0154,  0.0290, -0.0305,  0.0239, -0.0272, -0.0162,
+         0.0264, -0.0195], device='cuda:0'), grad: tensor([ 0.0022,  0.0080, -0.0358, -0.0238, -0.0003, -0.0328,  0.0172, -0.0135,
+         0.0502,  0.0287], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 230.89, cls_loss 0.3076 cls_loss_mapping 0.4906 cls_loss_causal 1.6779 re_mapping 0.1548 re_causal 0.2422 /// teacc 94.04 lr 0.00010000
+Epoch 4, weight, value: tensor([[ 0.0142, -0.0037, -0.0140,  ..., -0.0465,  0.0010,  0.0166],
+        [ 0.0191,  0.0310, -0.0108,  ...,  0.0085, -0.0221, -0.0105],
+        [ 0.0142,  0.0265, -0.0212,  ...,  0.0152, -0.0376,  0.0193],
+        ...,
+        [-0.0103,  0.0186,  0.0200,  ..., -0.0103,  0.0129,  0.0114],
+        [-0.0162,  0.0236,  0.0287,  ..., -0.0110, -0.0127, -0.0176],
+        [-0.0115, -0.0013, -0.0345,  ...,  0.0108,  0.0021, -0.0130]],
+       device='cuda:0'), grad: tensor([[ 7.3624e-03,  2.4147e-03,  2.1534e-03,  ...,  1.0662e-03,
+          2.3308e-03,  5.8860e-06],
+        [ 1.1559e-02,  3.3340e-03,  4.0359e-03,  ...,  1.1997e-03,
+          2.5444e-03,  2.9039e-04],
+        [-9.6863e-02, -1.4381e-02, -1.4992e-02,  ..., -8.7280e-03,
+         -4.8141e-03,  5.6076e-04],
+        ...,
+        [ 8.5754e-03,  3.0384e-03,  5.6953e-03,  ..., -8.4763e-03,
+         -7.2556e-03, -4.9591e-04],
+        [ 2.7679e-02, -7.7248e-03,  1.0376e-02,  ..., -3.3245e-03,
+         -9.3613e-03,  1.6985e-03],
+        [ 5.0049e-03, -1.3931e-02,  4.0627e-03,  ..., -1.6800e-02,
+         -4.6310e-03, -8.2703e-03]], device='cuda:0')
+Epoch 4, bias, value: tensor([ 0.0047, -0.0169, -0.0156,  0.0288, -0.0310,  0.0241, -0.0278, -0.0163,
+         0.0267, -0.0193], device='cuda:0'), grad: tensor([ 0.0080,  0.0088, -0.0566, -0.0040,  0.0675,  0.0193, -0.0138, -0.0052,
+        -0.0022, -0.0216], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 230.82, cls_loss 0.1945 cls_loss_mapping 0.3135 cls_loss_causal 1.5133 re_mapping 0.1276 re_causal 0.2317 /// teacc 95.09 lr 0.00010000
+Epoch 5, weight, value: tensor([[ 0.0127, -0.0040, -0.0156,  ..., -0.0509,  0.0015,  0.0189],
+        [ 0.0196,  0.0322, -0.0096,  ...,  0.0149, -0.0240, -0.0130],
+        [ 0.0151,  0.0263, -0.0206,  ...,  0.0143, -0.0399,  0.0183],
+        ...,
+        [-0.0100,  0.0169,  0.0209,  ..., -0.0120,  0.0115,  0.0113],
+        [-0.0156,  0.0257,  0.0306,  ..., -0.0139, -0.0139, -0.0199],
+        [-0.0135, -0.0015, -0.0374,  ...,  0.0084,  0.0004, -0.0112]],
+       device='cuda:0'), grad: tensor([[ 0.0005,  0.0007,  0.0011,  ...,  0.0002, -0.0038, -0.0168],
+        [-0.0022, -0.0039, -0.0023,  ..., -0.0018,  0.0001,  0.0009],
+        [-0.0004, -0.0060, -0.0090,  ..., -0.0016,  0.0004, -0.0004],
+        ...,
+        [-0.0010,  0.0049, -0.0049,  ...,  0.0023,  0.0004,  0.0019],
+        [ 0.0055,  0.0012,  0.0018,  ...,  0.0014,  0.0016,  0.0039],
+        [ 0.0088,  0.0002,  0.0041,  ...,  0.0014,  0.0010, -0.0010]],
+       device='cuda:0')
+Epoch 5, bias, value: tensor([ 0.0050, -0.0169, -0.0156,  0.0289, -0.0311,  0.0242, -0.0282, -0.0165,
+         0.0266, -0.0191], device='cuda:0'), grad: tensor([-0.0098, -0.0013, -0.0026, -0.0139,  0.0045,  0.0018,  0.0060,  0.0021,
+         0.0070,  0.0062], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 229.97, cls_loss 0.1757 cls_loss_mapping 0.2546 cls_loss_causal 1.3651 re_mapping 0.1016 re_causal 0.1965 /// teacc 96.59 lr 0.00010000
+Epoch 6, weight, value: tensor([[ 0.0113, -0.0053, -0.0164,  ..., -0.0576,  0.0009,  0.0211],
+        [ 0.0204,  0.0336, -0.0081,  ...,  0.0198, -0.0259, -0.0149],
+        [ 0.0159,  0.0265, -0.0204,  ...,  0.0145, -0.0417,  0.0168],
+        ...,
+        [-0.0102,  0.0151,  0.0212,  ..., -0.0132,  0.0108,  0.0115],
+        [-0.0149,  0.0278,  0.0332,  ..., -0.0150, -0.0148, -0.0218],
+        [-0.0157, -0.0016, -0.0411,  ...,  0.0058, -0.0011, -0.0093]],
+       device='cuda:0'), grad: tensor([[ 7.1669e-04, -9.8228e-04,  4.6039e-04,  ...,  4.1962e-04,
+         -5.6190e-03, -6.1760e-03],
+        [-1.1383e-02, -2.2659e-02, -7.9880e-03,  ...,  3.7581e-05,
+          3.4981e-03,  5.7793e-04],
+        [ 7.3967e-03,  4.3411e-03,  4.0741e-03,  ...,  1.1892e-03,
+          1.7633e-03,  8.8358e-04],
+        ...,
+        [ 2.4395e-03,  3.4904e-03,  1.9026e-03,  ...,  2.0676e-03,
+          3.5534e-03,  2.1248e-03],
+        [ 3.4119e-02,  3.0869e-02,  1.8158e-02,  ...,  6.8169e-03,
+          1.0918e-02,  2.0428e-03],
+        [ 7.1640e-03,  8.7204e-03,  3.9864e-03,  ...,  4.5509e-03,
+          1.0605e-02,  1.1234e-03]], device='cuda:0')
+Epoch 6, bias, value: tensor([ 0.0052, -0.0166, -0.0160,  0.0288, -0.0313,  0.0239, -0.0280, -0.0165,
+         0.0270, -0.0190], device='cuda:0'), grad: tensor([-0.0066, -0.0114,  0.0071, -0.0211, -0.0257, -0.0105,  0.0057,  0.0066,
+         0.0380,  0.0178], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 5----------------------------------------------------
+epoch 5, time 228.69, cls_loss 0.1227 cls_loss_mapping 0.1963 cls_loss_causal 1.3091 re_mapping 0.0877 re_causal 0.1888 /// teacc 96.97 lr 0.00010000
+Epoch 7, weight, value: tensor([[ 0.0099, -0.0063, -0.0176,  ..., -0.0597,  0.0017,  0.0229],
+        [ 0.0216,  0.0348, -0.0071,  ...,  0.0255, -0.0275, -0.0157],
+        [ 0.0165,  0.0272, -0.0205,  ...,  0.0139, -0.0431,  0.0164],
+        ...,
+        [-0.0108,  0.0134,  0.0216,  ..., -0.0152,  0.0098,  0.0113],
+        [-0.0143,  0.0294,  0.0356,  ..., -0.0172, -0.0158, -0.0239],
+        [-0.0183, -0.0022, -0.0437,  ...,  0.0035, -0.0026, -0.0079]],
+       device='cuda:0'), grad: tensor([[ 5.2547e-04,  1.7238e-04,  5.6076e-04,  ...,  8.1301e-04,
+          1.9608e-02,  7.3700e-03],
+        [ 2.6764e-02,  8.1558e-03,  2.4536e-02,  ...,  4.0245e-03,
+          4.0698e-04,  7.1812e-04],
+        [ 9.5215e-03,  2.5463e-03,  7.8659e-03,  ..., -4.7386e-05,
+          3.1710e-04,  1.7176e-03],
+        ...,
+        [-2.2869e-03, -1.3161e-03, -1.0071e-02,  ..., -4.3793e-03,
+          3.5048e-04, -9.9945e-03],
+        [-7.6981e-03, -9.5978e-03, -1.2505e-02,  ..., -3.7742e-04,
+          9.8324e-04,  2.5902e-03],
+        [ 3.4218e-03, -7.9956e-03,  4.2114e-03,  ..., -8.4915e-03,
+         -3.1738e-03,  3.2715e-02]], device='cuda:0')
+Epoch 7, bias, value: tensor([ 0.0058, -0.0161, -0.0161,  0.0288, -0.0313,  0.0239, -0.0283, -0.0167,
+         0.0271, -0.0195], device='cuda:0'), grad: tensor([ 0.0134,  0.0200,  0.0075, -0.0239, -0.0157,  0.0022, -0.0143, -0.0118,
+        -0.0039,  0.0265], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 6----------------------------------------------------
+epoch 6, time 231.00, cls_loss 0.1235 cls_loss_mapping 0.1809 cls_loss_causal 1.2598 re_mapping 0.0725 re_causal 0.1606 /// teacc 97.22 lr 0.00010000
+Epoch 8, weight, value: tensor([[ 0.0087, -0.0077, -0.0190,  ..., -0.0631,  0.0012,  0.0243],
+        [ 0.0221,  0.0360, -0.0062,  ...,  0.0289, -0.0290, -0.0173],
+        [ 0.0169,  0.0272, -0.0208,  ...,  0.0133, -0.0445,  0.0154],
+        ...,
+        [-0.0114,  0.0119,  0.0216,  ..., -0.0166,  0.0089,  0.0115],
+        [-0.0134,  0.0313,  0.0377,  ..., -0.0196, -0.0167, -0.0255],
+        [-0.0199, -0.0026, -0.0460,  ...,  0.0018, -0.0041, -0.0062]],
+       device='cuda:0'), grad: tensor([[ 1.5819e-04, -1.9140e-03,  9.8288e-05,  ...,  8.1718e-05,
+         -1.2047e-02, -1.0170e-02],
+        [-9.6560e-04, -1.1635e-03, -1.5917e-03,  ..., -1.5030e-03,
+          1.3500e-05,  5.3453e-04],
+        [ 1.1978e-03,  6.4230e-04,  1.0929e-03,  ...,  1.6069e-04,
+          8.1682e-04,  9.5844e-04],
+        ...,
+        [-8.7690e-04,  5.4312e-04, -1.5545e-03,  ...,  1.8406e-04,
+          3.1519e-04,  9.2030e-04],
+        [ 1.1740e-03,  2.9507e-03,  4.9740e-05,  ...,  6.7854e-04,
+          1.1415e-03,  3.4370e-03],
+        [-2.5082e-04, -6.4659e-03, -6.6757e-04,  ...,  3.1638e-04,
+          6.9475e-04, -7.2060e-03]], device='cuda:0')
+Epoch 8, bias, value: tensor([ 0.0056, -0.0161, -0.0163,  0.0290, -0.0312,  0.0235, -0.0285, -0.0167,
+         0.0275, -0.0192], device='cuda:0'), grad: tensor([-0.0138, -0.0006,  0.0022, -0.0002,  0.0040,  0.0033,  0.0089,  0.0007,
+         0.0064, -0.0108], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 7----------------------------------------------------
+epoch 7, time 228.21, cls_loss 0.1154 cls_loss_mapping 0.1719 cls_loss_causal 1.1922 re_mapping 0.0663 re_causal 0.1498 /// teacc 97.30 lr 0.00010000
+Epoch 9, weight, value: tensor([[ 0.0076, -0.0087, -0.0198,  ..., -0.0631,  0.0014,  0.0252],
+        [ 0.0220,  0.0362, -0.0058,  ...,  0.0305, -0.0305, -0.0192],
+        [ 0.0177,  0.0274, -0.0216,  ...,  0.0136, -0.0462,  0.0157],
+        ...,
+        [-0.0115,  0.0108,  0.0224,  ..., -0.0181,  0.0087,  0.0117],
+        [-0.0127,  0.0326,  0.0393,  ..., -0.0205, -0.0182, -0.0272],
+        [-0.0218, -0.0026, -0.0476,  ...,  0.0004, -0.0057, -0.0047]],
+       device='cuda:0'), grad: tensor([[ 4.3631e-04,  2.1422e-04,  1.2326e-04,  ...,  1.8859e-04,
+          1.6940e-04, -4.0221e-04],
+        [ 3.6449e-03, -6.8617e-04,  1.6804e-03,  ..., -2.6274e-04,
+          1.4114e-04,  1.3554e-04],
+        [-8.5220e-03, -1.2598e-03, -5.0735e-03,  ..., -1.1053e-03,
+          1.4949e-04,  1.7297e-04],
+        ...,
+        [ 2.5349e-03,  1.1787e-03,  2.8634e-04,  ...,  8.5497e-04,
+          6.2585e-05,  2.7347e-04],
+        [-2.0123e-03, -4.9934e-03, -7.0915e-03,  ...,  5.4073e-04,
+          5.9700e-04, -2.7676e-03],
+        [ 5.3139e-03,  2.2449e-03,  5.5046e-03,  ..., -1.0061e-03,
+          7.7295e-04, -2.2507e-04]], device='cuda:0')
+Epoch 9, bias, value: tensor([ 0.0058, -0.0165, -0.0160,  0.0292, -0.0313,  0.0231, -0.0286, -0.0165,
+         0.0276, -0.0192], device='cuda:0'), grad: tensor([ 0.0003,  0.0023, -0.0044, -0.0017,  0.0037,  0.0019, -0.0011,  0.0018,
+        -0.0073,  0.0044], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 8----------------------------------------------------
+epoch 8, time 228.98, cls_loss 0.0898 cls_loss_mapping 0.1338 cls_loss_causal 1.1258 re_mapping 0.0587 re_causal 0.1372 /// teacc 97.71 lr 0.00010000
+Epoch 10, weight, value: tensor([[ 0.0065, -0.0102, -0.0210,  ..., -0.0642,  0.0015,  0.0265],
+        [ 0.0222,  0.0369, -0.0056,  ...,  0.0331, -0.0313, -0.0203],
+        [ 0.0182,  0.0274, -0.0222,  ...,  0.0134, -0.0471,  0.0149],
+        ...,
+        [-0.0116,  0.0101,  0.0229,  ..., -0.0191,  0.0082,  0.0123],
+        [-0.0121,  0.0343,  0.0417,  ..., -0.0216, -0.0192, -0.0281],
+        [-0.0234, -0.0028, -0.0499,  ..., -0.0009, -0.0066, -0.0036]],
+       device='cuda:0'), grad: tensor([[ 6.4898e-04,  5.1928e-04,  4.2367e-04,  ...,  2.3460e-04,
+          4.7135e-04, -8.6188e-05],
+        [ 3.5114e-03,  4.6577e-03,  4.2229e-03,  ..., -1.1616e-03,
+          1.7347e-03,  7.9441e-04],
+        [ 1.3895e-03,  9.8324e-04,  1.4963e-03,  ...,  4.5466e-04,
+          3.9053e-04,  1.7548e-04],
+        ...,
+        [-2.8658e-04,  1.5049e-03, -6.1369e-04,  ...,  5.9652e-04,
+          8.0490e-04,  9.3746e-04],
+        [-7.4539e-03, -1.0101e-02, -8.0795e-03,  ...,  8.0729e-04,
+          2.3365e-04,  1.0242e-03],
+        [ 9.8038e-04, -2.5940e-03,  7.8964e-04,  ..., -1.0643e-03,
+         -9.5367e-04, -3.1643e-03]], device='cuda:0')
+Epoch 10, bias, value: tensor([ 0.0060, -0.0165, -0.0161,  0.0294, -0.0318,  0.0229, -0.0288, -0.0162,
+         0.0281, -0.0195], device='cuda:0'), grad: tensor([ 0.0013,  0.0081,  0.0019, -0.0064,  0.0051,  0.0051,  0.0007,  0.0024,
+        -0.0098, -0.0084], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 9, time 214.92, cls_loss 0.0777 cls_loss_mapping 0.1180 cls_loss_causal 1.0594 re_mapping 0.0545 re_causal 0.1298 /// teacc 97.57 lr 0.00010000
+Epoch 11, weight, value: tensor([[ 0.0058, -0.0112, -0.0219,  ..., -0.0652,  0.0016,  0.0273],
+        [ 0.0225,  0.0369, -0.0052,  ...,  0.0347, -0.0328, -0.0216],
+        [ 0.0187,  0.0275, -0.0221,  ...,  0.0125, -0.0483,  0.0140],
+        ...,
+        [-0.0120,  0.0087,  0.0229,  ..., -0.0201,  0.0083,  0.0124],
+        [-0.0119,  0.0354,  0.0432,  ..., -0.0228, -0.0202, -0.0290],
+        [-0.0243, -0.0027, -0.0512,  ..., -0.0020, -0.0078, -0.0020]],
+       device='cuda:0'), grad: tensor([[ 2.6727e-04,  1.6725e-04,  1.4603e-04,  ...,  2.0564e-04,
+          1.9717e-04, -1.4753e-03],
+        [ 7.7629e-04, -4.0591e-05,  7.5176e-06,  ..., -4.4107e-04,
+          3.3355e-04,  2.8539e-04],
+        [-1.0757e-03, -1.2201e-04,  2.1994e-05,  ...,  3.1996e-04,
+          2.1851e-04,  5.7697e-04],
+        ...,
+        [ 1.0729e-03, -1.0002e-04, -1.6432e-03,  ..., -1.0138e-03,
+          9.4235e-05, -8.3542e-04],
+        [ 1.7977e-03, -5.2959e-05, -4.4441e-04,  ...,  5.9128e-04,
+          1.1911e-03,  1.2751e-03],
+        [ 1.2703e-03,  3.2973e-04,  1.2531e-03,  ...,  5.2500e-04,
+          3.1829e-04, -5.1785e-04]], device='cuda:0')
+Epoch 11, bias, value: tensor([ 0.0060, -0.0168, -0.0160,  0.0292, -0.0316,  0.0232, -0.0292, -0.0163,
+         0.0280, -0.0191], device='cuda:0'), grad: tensor([-6.4278e-04,  1.0014e-03, -6.0737e-05, -1.2226e-03,  1.1005e-03,
+        -3.6278e-03, -1.4198e-04, -4.6611e-04,  3.1166e-03,  9.4461e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 10----------------------------------------------------
+epoch 10, time 226.90, cls_loss 0.0687 cls_loss_mapping 0.1066 cls_loss_causal 1.0942 re_mapping 0.0480 re_causal 0.1214 /// teacc 97.76 lr 0.00010000
+Epoch 12, weight, value: tensor([[ 0.0047, -0.0118, -0.0222,  ..., -0.0654,  0.0013,  0.0285],
+        [ 0.0225,  0.0372, -0.0048,  ...,  0.0361, -0.0343, -0.0224],
+        [ 0.0194,  0.0278, -0.0227,  ...,  0.0122, -0.0493,  0.0129],
+        ...,
+        [-0.0123,  0.0077,  0.0234,  ..., -0.0213,  0.0078,  0.0124],
+        [-0.0114,  0.0362,  0.0445,  ..., -0.0241, -0.0215, -0.0305],
+        [-0.0257, -0.0028, -0.0523,  ..., -0.0031, -0.0087, -0.0012]],
+       device='cuda:0'), grad: tensor([[ 3.2926e-04,  5.4026e-04,  8.6451e-04,  ...,  1.0991e-04,
+         -2.7919e-04, -2.1577e-04],
+        [-1.2421e-02,  1.3878e-02,  1.3016e-02,  ..., -8.5144e-03,
+          5.3263e-04,  1.2140e-03],
+        [ 2.1240e-02,  3.9978e-03,  5.5580e-03,  ...,  6.3820e-03,
+          1.7965e-04, -1.1784e-04],
+        ...,
+        [ 4.0779e-03,  6.8398e-03,  4.7264e-03,  ...,  6.7091e-04,
+         -1.2312e-03,  2.6588e-03],
+        [-2.0782e-02, -3.1036e-02, -3.0350e-02,  ..., -1.1019e-05,
+          3.1567e-04,  1.4315e-03],
+        [ 2.3067e-04, -1.7395e-03,  1.0681e-03,  ..., -3.7479e-04,
+          2.7728e-04, -1.0612e-02]], device='cuda:0')
+Epoch 12, bias, value: tensor([ 0.0061, -0.0169, -0.0160,  0.0295, -0.0317,  0.0234, -0.0291, -0.0164,
+         0.0279, -0.0194], device='cuda:0'), grad: tensor([ 0.0004,  0.0002,  0.0153,  0.0083,  0.0033,  0.0011,  0.0017,  0.0161,
+        -0.0257, -0.0208], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 11----------------------------------------------------
+epoch 11, time 231.33, cls_loss 0.0671 cls_loss_mapping 0.1050 cls_loss_causal 1.0557 re_mapping 0.0455 re_causal 0.1133 /// teacc 97.85 lr 0.00010000
+Epoch 13, weight, value: tensor([[ 0.0036, -0.0132, -0.0229,  ..., -0.0657,  0.0017,  0.0297],
+        [ 0.0226,  0.0373, -0.0044,  ...,  0.0368, -0.0356, -0.0230],
+        [ 0.0197,  0.0280, -0.0231,  ...,  0.0118, -0.0501,  0.0123],
+        ...,
+        [-0.0124,  0.0065,  0.0238,  ..., -0.0209,  0.0084,  0.0126],
+        [-0.0108,  0.0374,  0.0463,  ..., -0.0251, -0.0228, -0.0320],
+        [-0.0269, -0.0026, -0.0539,  ..., -0.0043, -0.0098,  0.0002]],
+       device='cuda:0'), grad: tensor([[ 3.8147e-04,  8.7738e-04,  9.3937e-04,  ...,  4.2605e-04,
+          9.2506e-05,  3.4690e-05],
+        [-1.4696e-03, -8.5306e-04, -3.2592e-04,  ..., -8.4877e-04,
+          1.3880e-05,  7.1239e-04],
+        [ 1.2350e-03,  1.4381e-03,  1.4677e-03,  ...,  6.7329e-04,
+          1.3065e-04,  7.8773e-04],
+        ...,
+        [ 4.0531e-04,  1.9779e-03,  1.1644e-03,  ...,  1.0471e-03,
+          2.3699e-04,  1.4505e-03],
+        [-4.0855e-03, -7.9269e-03, -9.6893e-03,  ..., -2.6054e-03,
+          1.9484e-03, -5.1003e-03],
+        [ 1.3075e-03,  2.9812e-03,  2.2297e-03,  ...,  1.3323e-03,
+          8.3494e-04,  2.0313e-03]], device='cuda:0')
+Epoch 13, bias, value: tensor([ 0.0060, -0.0173, -0.0161,  0.0293, -0.0317,  0.0232, -0.0291, -0.0161,
+         0.0282, -0.0193], device='cuda:0'), grad: tensor([ 0.0012, -0.0005,  0.0024,  0.0032, -0.0014, -0.0036,  0.0024,  0.0025,
+        -0.0115,  0.0053], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 12, time 215.23, cls_loss 0.0634 cls_loss_mapping 0.0970 cls_loss_causal 1.0147 re_mapping 0.0415 re_causal 0.1077 /// teacc 97.65 lr 0.00010000
+Epoch 14, weight, value: tensor([[ 0.0029, -0.0142, -0.0232,  ..., -0.0666,  0.0016,  0.0305],
+        [ 0.0227,  0.0372, -0.0036,  ...,  0.0376, -0.0365, -0.0242],
+        [ 0.0203,  0.0284, -0.0236,  ...,  0.0123, -0.0508,  0.0116],
+        ...,
+        [-0.0122,  0.0062,  0.0249,  ..., -0.0218,  0.0080,  0.0128],
+        [-0.0103,  0.0385,  0.0474,  ..., -0.0259, -0.0230, -0.0329],
+        [-0.0280, -0.0026, -0.0550,  ..., -0.0054, -0.0110,  0.0013]],
+       device='cuda:0'), grad: tensor([[ 1.3447e-03,  7.3767e-04,  5.6267e-04,  ...,  2.0659e-04,
+          7.5674e-04,  7.1347e-05],
+        [-5.8508e-04, -1.1187e-03, -4.1389e-04,  ..., -1.5078e-03,
+          1.1104e-04,  8.0407e-05],
+        [ 6.5460e-03,  3.5801e-03,  3.0880e-03,  ...,  1.3819e-03,
+          8.0538e-04,  1.6582e-04],
+        ...,
+        [ 1.3008e-03,  1.9445e-03,  2.3305e-04,  ...,  3.3798e-03,
+          4.3716e-03,  6.6662e-04],
+        [-4.9820e-03, -3.5076e-03, -2.2850e-03,  ...,  5.4693e-04,
+          4.7607e-03,  7.7677e-04],
+        [ 1.7738e-03,  1.0406e-02,  5.7840e-04,  ...,  8.9188e-03,
+          1.5099e-02,  5.3253e-03]], device='cuda:0')
+Epoch 14, bias, value: tensor([ 0.0061, -0.0175, -0.0161,  0.0292, -0.0320,  0.0231, -0.0290, -0.0158,
+         0.0286, -0.0194], device='cuda:0'), grad: tensor([ 0.0024, -0.0004,  0.0093, -0.0086, -0.0267, -0.0250,  0.0245,  0.0065,
+        -0.0014,  0.0194], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 13----------------------------------------------------
+epoch 13, time 231.46, cls_loss 0.0508 cls_loss_mapping 0.0822 cls_loss_causal 0.9909 re_mapping 0.0390 re_causal 0.1015 /// teacc 98.03 lr 0.00010000
+Epoch 15, weight, value: tensor([[ 0.0022, -0.0154, -0.0236,  ..., -0.0678,  0.0018,  0.0315],
+        [ 0.0228,  0.0379, -0.0032,  ...,  0.0382, -0.0372, -0.0253],
+        [ 0.0206,  0.0284, -0.0246,  ...,  0.0126, -0.0518,  0.0118],
+        ...,
+        [-0.0123,  0.0055,  0.0258,  ..., -0.0222,  0.0067,  0.0127],
+        [-0.0099,  0.0390,  0.0486,  ..., -0.0265, -0.0240, -0.0338],
+        [-0.0291, -0.0025, -0.0563,  ..., -0.0061, -0.0113,  0.0020]],
+       device='cuda:0'), grad: tensor([[ 1.1826e-03,  1.0786e-03,  4.8190e-05,  ...,  1.9515e-04,
+          2.0385e-05, -4.6825e-04],
+        [-1.6415e-04, -1.2236e-03, -1.4362e-03,  ..., -1.7853e-03,
+         -6.5756e-04, -2.8804e-05],
+        [-5.0621e-03, -3.8280e-03, -1.8573e-04,  ..., -1.0939e-03,
+          1.6332e-04,  2.6250e-04],
+        ...,
+        [ 7.9346e-04,  1.0300e-03,  4.6015e-04,  ...,  6.6423e-04,
+          1.4973e-04,  9.1934e-04],
+        [ 4.2009e-04,  3.7003e-04, -5.3453e-04,  ...,  7.2002e-04,
+          6.1512e-04,  2.6655e-04],
+        [ 3.3402e-04, -6.1703e-04,  2.8419e-04,  ..., -6.6280e-05,
+          9.9277e-04, -3.5992e-03]], device='cuda:0')
+Epoch 15, bias, value: tensor([ 0.0063, -0.0176, -0.0159,  0.0294, -0.0321,  0.0232, -0.0290, -0.0159,
+         0.0286, -0.0195], device='cuda:0'), grad: tensor([ 0.0012, -0.0010, -0.0054,  0.0013,  0.0019,  0.0011,  0.0006,  0.0020,
+         0.0011, -0.0029], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 14----------------------------------------------------
+epoch 14, time 231.06, cls_loss 0.0531 cls_loss_mapping 0.0789 cls_loss_causal 0.9585 re_mapping 0.0372 re_causal 0.0959 /// teacc 98.13 lr 0.00010000
+Epoch 16, weight, value: tensor([[ 0.0017, -0.0163, -0.0240,  ..., -0.0697,  0.0019,  0.0326],
+        [ 0.0230,  0.0386, -0.0029,  ...,  0.0393, -0.0382, -0.0246],
+        [ 0.0212,  0.0283, -0.0248,  ...,  0.0122, -0.0527,  0.0108],
+        ...,
+        [-0.0127,  0.0046,  0.0261,  ..., -0.0222,  0.0068,  0.0128],
+        [-0.0096,  0.0397,  0.0494,  ..., -0.0271, -0.0245, -0.0352],
+        [-0.0298, -0.0027, -0.0570,  ..., -0.0073, -0.0125,  0.0030]],
+       device='cuda:0'), grad: tensor([[ 5.3835e-04,  8.8453e-04,  4.8566e-04,  ...,  3.9029e-04,
+          1.2894e-03,  9.9897e-05],
+        [-1.5678e-03, -5.1117e-03, -2.0676e-03,  ..., -3.2654e-03,
+         -1.6332e-04,  1.0079e-04],
+        [ 8.1024e-03,  5.0468e-03,  6.8932e-03,  ..., -9.8705e-05,
+          5.3674e-05,  2.1589e-04],
+        ...,
+        [ 5.5161e-03,  2.0905e-03,  3.2120e-03,  ...,  2.8563e-04,
+          3.1561e-05, -8.8692e-04],
+        [-2.9507e-03, -7.5989e-03, -6.4392e-03,  ...,  1.5297e-03,
+         -2.0552e-04,  7.0669e-06],
+        [ 1.9245e-03,  7.5960e-04,  3.9911e-04,  ...,  1.3947e-04,
+          7.0095e-05,  1.7681e-03]], device='cuda:0')
+Epoch 16, bias, value: tensor([ 0.0066, -0.0174, -0.0159,  0.0293, -0.0322,  0.0231, -0.0290, -0.0161,
+         0.0286, -0.0196], device='cuda:0'), grad: tensor([ 0.0015, -0.0034,  0.0091, -0.0182,  0.0008,  0.0014,  0.0060,  0.0046,
+        -0.0062,  0.0044], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 15, time 215.12, cls_loss 0.0525 cls_loss_mapping 0.0857 cls_loss_causal 0.9667 re_mapping 0.0353 re_causal 0.0921 /// teacc 98.09 lr 0.00010000
+Epoch 17, weight, value: tensor([[ 0.0011, -0.0177, -0.0244,  ..., -0.0704,  0.0016,  0.0336],
+        [ 0.0233,  0.0389, -0.0022,  ...,  0.0402, -0.0393, -0.0249],
+        [ 0.0216,  0.0290, -0.0251,  ...,  0.0121, -0.0535,  0.0097],
+        ...,
+        [-0.0132,  0.0027,  0.0260,  ..., -0.0235,  0.0068,  0.0127],
+        [-0.0090,  0.0409,  0.0505,  ..., -0.0283, -0.0258, -0.0362],
+        [-0.0307, -0.0023, -0.0578,  ..., -0.0076, -0.0131,  0.0038]],
+       device='cuda:0'), grad: tensor([[ 5.5701e-05,  2.3961e-04,  1.0751e-05,  ...,  2.5123e-05,
+          4.2707e-05,  3.4475e-04],
+        [-1.7881e-04, -3.8475e-05, -1.9240e-04,  ..., -1.2481e-04,
+          1.4341e-04,  7.2718e-05],
+        [ 3.7169e-04,  3.2997e-04,  2.1982e-04,  ...,  1.5676e-04,
+          7.1645e-05,  2.8896e-04],
+        ...,
+        [ 7.4565e-05,  1.8740e-04, -1.8525e-04,  ...,  1.0735e-04,
+          8.8394e-05,  2.2340e-04],
+        [ 2.2602e-04,  1.5574e-03,  5.0701e-06,  ...,  2.3878e-04,
+          5.2881e-04,  2.3689e-03],
+        [-1.9515e-04, -3.1433e-03,  3.8445e-05,  ...,  6.7091e-04,
+          1.0738e-03, -4.5891e-03]], device='cuda:0')
+Epoch 17, bias, value: tensor([ 0.0067, -0.0174, -0.0161,  0.0294, -0.0318,  0.0229, -0.0292, -0.0165,
+         0.0289, -0.0195], device='cuda:0'), grad: tensor([ 9.1124e-04,  7.7069e-05,  1.1501e-03,  7.0620e-04,  2.1439e-03,
+        -7.5912e-04,  9.4831e-05,  3.5644e-04,  5.6686e-03, -1.0353e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 16----------------------------------------------------
+epoch 16, time 224.71, cls_loss 0.0459 cls_loss_mapping 0.0742 cls_loss_causal 0.9690 re_mapping 0.0325 re_causal 0.0910 /// teacc 98.17 lr 0.00010000
+Epoch 18, weight, value: tensor([[ 0.0002, -0.0183, -0.0247,  ..., -0.0705,  0.0015,  0.0343],
+        [ 0.0235,  0.0391, -0.0017,  ...,  0.0409, -0.0397, -0.0252],
+        [ 0.0220,  0.0290, -0.0254,  ...,  0.0114, -0.0544,  0.0100],
+        ...,
+        [-0.0136,  0.0018,  0.0262,  ..., -0.0237,  0.0064,  0.0130],
+        [-0.0084,  0.0417,  0.0516,  ..., -0.0288, -0.0266, -0.0371],
+        [-0.0314, -0.0023, -0.0583,  ..., -0.0089, -0.0136,  0.0046]],
+       device='cuda:0'), grad: tensor([[-8.8692e-04, -2.2984e-03,  4.0889e-05,  ...,  3.0190e-05,
+          1.5903e-04, -7.0801e-03],
+        [-3.3020e-02, -1.4282e-02, -1.3641e-02,  ..., -3.4213e-05,
+          9.1493e-05, -3.7937e-03],
+        [ 3.1952e-02,  1.4763e-02,  1.3283e-02,  ...,  3.4779e-05,
+          1.7500e-04,  7.2212e-03],
+        ...,
+        [ 9.7847e-04,  5.8365e-04,  1.4889e-04,  ...,  3.2008e-05,
+          9.0122e-05,  6.5804e-04],
+        [ 2.8248e-03, -7.0715e-04, -3.1924e-04,  ...,  7.9095e-05,
+          6.9857e-04,  1.4400e-03],
+        [ 1.0185e-03,  5.2929e-04,  1.3721e-04,  ...,  9.1732e-05,
+          5.4646e-04,  5.4693e-04]], device='cuda:0')
+Epoch 18, bias, value: tensor([ 0.0068, -0.0175, -0.0160,  0.0291, -0.0318,  0.0231, -0.0296, -0.0163,
+         0.0289, -0.0194], device='cuda:0'), grad: tensor([-0.0062, -0.0246,  0.0258, -0.0078,  0.0003,  0.0048,  0.0011,  0.0017,
+         0.0029,  0.0019], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 17----------------------------------------------------
+epoch 17, time 231.18, cls_loss 0.0493 cls_loss_mapping 0.0760 cls_loss_causal 0.9548 re_mapping 0.0332 re_causal 0.0872 /// teacc 98.38 lr 0.00010000
+Epoch 19, weight, value: tensor([[-0.0003, -0.0189, -0.0247,  ..., -0.0708,  0.0011,  0.0351],
+        [ 0.0234,  0.0392, -0.0016,  ...,  0.0414, -0.0404, -0.0255],
+        [ 0.0223,  0.0287, -0.0259,  ...,  0.0111, -0.0552,  0.0091],
+        ...,
+        [-0.0136,  0.0011,  0.0270,  ..., -0.0241,  0.0062,  0.0127],
+        [-0.0079,  0.0427,  0.0528,  ..., -0.0296, -0.0273, -0.0384],
+        [-0.0324, -0.0022, -0.0594,  ..., -0.0098, -0.0141,  0.0053]],
+       device='cuda:0'), grad: tensor([[ 9.3758e-05, -8.0013e-04, -3.6788e-04,  ...,  6.9499e-05,
+         -1.0424e-03, -5.0812e-03],
+        [ 9.8169e-05,  6.8784e-05,  1.0657e-04,  ..., -9.1910e-05,
+          1.2219e-04,  1.4889e-04],
+        [ 7.2956e-04,  5.8603e-04,  9.2983e-04,  ...,  1.5342e-04,
+          1.8096e-04,  5.5218e-04],
+        ...,
+        [-1.1854e-03, -1.2369e-03, -1.9293e-03,  ...,  1.0896e-04,
+          1.2434e-04, -6.9571e-04],
+        [ 4.9353e-04,  1.5421e-03,  6.5374e-04,  ...,  5.1451e-04,
+          2.4548e-03,  4.8141e-03],
+        [ 4.0102e-04,  2.7599e-03,  4.0936e-04,  ...,  2.8343e-03,
+          1.6794e-03,  1.4997e-04]], device='cuda:0')
+Epoch 19, bias, value: tensor([ 0.0067, -0.0177, -0.0161,  0.0291, -0.0317,  0.0232, -0.0292, -0.0163,
+         0.0289, -0.0195], device='cuda:0'), grad: tensor([-0.0047,  0.0004,  0.0018, -0.0004, -0.0017,  0.0001, -0.0018, -0.0026,
+         0.0062,  0.0026], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 18, time 215.06, cls_loss 0.0409 cls_loss_mapping 0.0697 cls_loss_causal 0.8914 re_mapping 0.0304 re_causal 0.0880 /// teacc 98.36 lr 0.00010000
+Epoch 20, weight, value: tensor([[-0.0007, -0.0197, -0.0250,  ..., -0.0724,  0.0009,  0.0354],
+        [ 0.0234,  0.0395, -0.0014,  ...,  0.0425, -0.0402, -0.0263],
+        [ 0.0225,  0.0294, -0.0263,  ...,  0.0107, -0.0559,  0.0088],
+        ...,
+        [-0.0139,  0.0007,  0.0275,  ..., -0.0250,  0.0058,  0.0130],
+        [-0.0077,  0.0430,  0.0534,  ..., -0.0303, -0.0276, -0.0383],
+        [-0.0331, -0.0024, -0.0601,  ..., -0.0102, -0.0150,  0.0063]],
+       device='cuda:0'), grad: tensor([[ 8.7023e-04,  4.3273e-05,  8.1778e-05,  ...,  3.0184e-04,
+         -1.2033e-06,  3.4285e-04],
+        [ 3.3021e-04, -2.0373e-04, -2.6870e-04,  ..., -1.8418e-04,
+          3.2306e-05,  4.4727e-04],
+        [-1.0864e-02,  2.9182e-04, -9.2936e-04,  ..., -1.8158e-03,
+          1.5438e-05, -4.9973e-03],
+        ...,
+        [ 1.2007e-03,  2.5773e-04, -1.0568e-04,  ...,  4.6945e-04,
+          1.8969e-05,  6.5041e-04],
+        [ 2.9297e-03,  4.5967e-04,  3.1918e-05,  ...,  2.5725e-04,
+          4.6819e-05,  3.8719e-04],
+        [ 4.8423e-04,  8.1599e-05,  1.6391e-04,  ...,  3.3736e-04,
+          1.3840e-04,  3.9250e-05]], device='cuda:0')
+Epoch 20, bias, value: tensor([ 0.0063, -0.0177, -0.0164,  0.0294, -0.0317,  0.0233, -0.0295, -0.0163,
+         0.0291, -0.0194], device='cuda:0'), grad: tensor([ 0.0020,  0.0010, -0.0245,  0.0107,  0.0004,  0.0024,  0.0007,  0.0026,
+         0.0039,  0.0008], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 19----------------------------------------------------
+epoch 19, time 230.92, cls_loss 0.0366 cls_loss_mapping 0.0600 cls_loss_causal 0.8907 re_mapping 0.0295 re_causal 0.0805 /// teacc 98.56 lr 0.00010000
+Epoch 21, weight, value: tensor([[-0.0012, -0.0203, -0.0253,  ..., -0.0728,  0.0009,  0.0360],
+        [ 0.0234,  0.0395, -0.0014,  ...,  0.0427, -0.0412, -0.0274],
+        [ 0.0228,  0.0295, -0.0266,  ...,  0.0112, -0.0561,  0.0087],
+        ...,
+        [-0.0143, -0.0004,  0.0277,  ..., -0.0249,  0.0062,  0.0130],
+        [-0.0074,  0.0438,  0.0543,  ..., -0.0310, -0.0284, -0.0388],
+        [-0.0339, -0.0019, -0.0606,  ..., -0.0111, -0.0158,  0.0074]],
+       device='cuda:0'), grad: tensor([[ 5.4646e-04,  1.3399e-04,  5.8204e-05,  ...,  8.6069e-04,
+          1.0862e-03, -3.8713e-05],
+        [-3.3875e-03, -2.5845e-03, -5.9557e-04,  ..., -1.5802e-03,
+         -1.5726e-03,  5.9456e-05],
+        [ 1.1665e-02,  6.4433e-05,  7.8797e-05,  ...,  1.6603e-03,
+          2.1572e-03,  7.4100e-04],
+        ...,
+        [ 4.9639e-04,  1.0461e-04, -8.8215e-05,  ...,  1.7965e-04,
+          2.1565e-04, -1.1429e-05],
+        [ 3.2673e-03,  2.4986e-04, -1.8513e-04,  ...,  4.9067e-04,
+          5.7268e-04,  2.0254e-04],
+        [ 3.0470e-04,  2.3413e-04,  8.2254e-05,  ...,  3.9768e-04,
+          4.3058e-04, -1.9956e-04]], device='cuda:0')
+Epoch 21, bias, value: tensor([ 0.0063, -0.0182, -0.0163,  0.0294, -0.0322,  0.0235, -0.0297, -0.0160,
+         0.0293, -0.0192], device='cuda:0'), grad: tensor([ 0.0018, -0.0043,  0.0197,  0.0069,  0.0056, -0.0284, -0.0077,  0.0007,
+         0.0049,  0.0007], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 20, time 214.83, cls_loss 0.0401 cls_loss_mapping 0.0592 cls_loss_causal 0.8446 re_mapping 0.0291 re_causal 0.0799 /// teacc 98.37 lr 0.00010000
+Epoch 22, weight, value: tensor([[-0.0016, -0.0212, -0.0256,  ..., -0.0731,  0.0007,  0.0362],
+        [ 0.0240,  0.0400, -0.0005,  ...,  0.0436, -0.0421, -0.0276],
+        [ 0.0227,  0.0291, -0.0275,  ...,  0.0103, -0.0570,  0.0079],
+        ...,
+        [-0.0143, -0.0006,  0.0283,  ..., -0.0248,  0.0059,  0.0132],
+        [-0.0074,  0.0444,  0.0546,  ..., -0.0315, -0.0287, -0.0397],
+        [-0.0349, -0.0017, -0.0616,  ..., -0.0122, -0.0162,  0.0090]],
+       device='cuda:0'), grad: tensor([[-2.0005e-06, -2.9564e-03,  1.8865e-05,  ..., -8.0824e-04,
+         -1.0977e-03, -5.6648e-03],
+        [-6.8732e-06, -1.4740e-02, -1.6418e-02,  ..., -1.9592e-02,
+          1.9741e-04, -1.3535e-02],
+        [ 2.1529e-04,  4.9067e-04,  7.7903e-05,  ...,  1.3316e-04,
+          5.7364e-04,  8.5926e-04],
+        ...,
+        [ 1.7536e-04,  1.3176e-02,  1.4229e-02,  ...,  1.7181e-02,
+          2.1052e-04,  1.2131e-02],
+        [ 5.8222e-04,  6.3610e-04,  1.0544e-04,  ...,  4.9639e-04,
+          8.5163e-04,  7.8249e-04],
+        [ 1.2010e-04,  1.9951e-03,  1.5574e-03,  ...,  2.1553e-03,
+          4.8709e-04,  2.8820e-03]], device='cuda:0')
+Epoch 22, bias, value: tensor([ 0.0060, -0.0182, -0.0165,  0.0292, -0.0325,  0.0236, -0.0295, -0.0153,
+         0.0293, -0.0192], device='cuda:0'), grad: tensor([-0.0053, -0.0250,  0.0015, -0.0002,  0.0004, -0.0008,  0.0004,  0.0226,
+         0.0023,  0.0040], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 21, time 214.91, cls_loss 0.0364 cls_loss_mapping 0.0639 cls_loss_causal 0.8884 re_mapping 0.0279 re_causal 0.0794 /// teacc 98.46 lr 0.00010000
+Epoch 23, weight, value: tensor([[-0.0021, -0.0223, -0.0260,  ..., -0.0741,  0.0005,  0.0369],
+        [ 0.0241,  0.0403, -0.0002,  ...,  0.0444, -0.0430, -0.0277],
+        [ 0.0233,  0.0293, -0.0276,  ...,  0.0100, -0.0577,  0.0078],
+        ...,
+        [-0.0150, -0.0017,  0.0281,  ..., -0.0254,  0.0054,  0.0131],
+        [-0.0072,  0.0449,  0.0556,  ..., -0.0325, -0.0289, -0.0408],
+        [-0.0356, -0.0015, -0.0626,  ..., -0.0138, -0.0170,  0.0097]],
+       device='cuda:0'), grad: tensor([[ 7.0691e-05, -1.1325e-05,  1.6049e-05,  ...,  2.6375e-05,
+         -1.0481e-03, -2.1782e-03],
+        [-3.4308e-04, -5.4026e-04, -2.6584e-04,  ..., -8.2970e-04,
+          1.1675e-05,  2.4229e-05],
+        [ 9.4414e-05,  1.0532e-04,  1.5438e-04,  ...,  2.0075e-04,
+          3.4720e-05,  8.7619e-05],
+        ...,
+        [ 1.5104e-04,  1.1742e-04, -4.5866e-05,  ...,  1.2362e-04,
+          2.3440e-05,  5.9083e-06],
+        [ 1.7393e-04,  2.8163e-05,  3.2425e-05,  ...,  4.1038e-05,
+          1.6737e-04,  2.9874e-04],
+        [ 6.6662e-04, -2.3341e-04,  6.0368e-04,  ...,  2.0415e-05,
+          8.6188e-05,  7.2241e-05]], device='cuda:0')
+Epoch 23, bias, value: tensor([ 0.0058, -0.0182, -0.0162,  0.0295, -0.0322,  0.0233, -0.0288, -0.0161,
+         0.0292, -0.0194], device='cuda:0'), grad: tensor([-0.0021, -0.0007,  0.0003, -0.0016,  0.0007, -0.0004,  0.0019,  0.0002,
+         0.0006,  0.0011], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 22----------------------------------------------------
+epoch 22, time 230.67, cls_loss 0.0305 cls_loss_mapping 0.0520 cls_loss_causal 0.8605 re_mapping 0.0272 re_causal 0.0787 /// teacc 98.66 lr 0.00010000
+Epoch 24, weight, value: tensor([[-0.0027, -0.0223, -0.0267,  ..., -0.0744,  0.0006,  0.0374],
+        [ 0.0245,  0.0405,  0.0006,  ...,  0.0451, -0.0434, -0.0287],
+        [ 0.0235,  0.0298, -0.0284,  ...,  0.0104, -0.0582,  0.0074],
+        ...,
+        [-0.0151, -0.0024,  0.0285,  ..., -0.0255,  0.0051,  0.0134],
+        [-0.0070,  0.0451,  0.0563,  ..., -0.0334, -0.0293, -0.0416],
+        [-0.0364, -0.0015, -0.0642,  ..., -0.0148, -0.0175,  0.0102]],
+       device='cuda:0'), grad: tensor([[ 4.3660e-05,  6.6876e-05,  3.6389e-05,  ...,  5.9187e-05,
+          1.7121e-05, -2.0385e-04],
+        [-1.8001e-05, -1.2112e-04, -1.4782e-04,  ..., -2.5845e-04,
+          4.1515e-05,  1.5095e-05],
+        [-4.6444e-04, -1.1975e-04, -7.8082e-05,  ...,  1.3244e-04,
+          1.0961e-04,  5.8144e-05],
+        ...,
+        [ 1.6797e-04,  2.5654e-04, -5.9545e-05,  ...,  2.0015e-04,
+          9.5248e-05, -3.2514e-05],
+        [-6.0749e-04, -3.1781e-04, -3.7289e-04,  ...,  8.1301e-05,
+          7.0286e-04,  3.9673e-04],
+        [ 1.2290e-04,  3.8929e-03,  9.5904e-05,  ...,  3.3684e-03,
+          1.9350e-03,  2.9564e-04]], device='cuda:0')
+Epoch 24, bias, value: tensor([ 0.0059, -0.0181, -0.0160,  0.0295, -0.0322,  0.0239, -0.0296, -0.0159,
+         0.0290, -0.0196], device='cuda:0'), grad: tensor([-4.5985e-05, -1.3602e-04, -2.2340e-04,  8.0156e-04, -3.8166e-03,
+        -1.3971e-03,  4.4751e-04,  1.2708e-04,  2.2686e-04,  4.0169e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 23----------------------------------------------------
+epoch 23, time 230.52, cls_loss 0.0282 cls_loss_mapping 0.0484 cls_loss_causal 0.8106 re_mapping 0.0256 re_causal 0.0735 /// teacc 98.73 lr 0.00010000
+Epoch 25, weight, value: tensor([[-0.0031, -0.0230, -0.0272,  ..., -0.0752,  0.0006,  0.0382],
+        [ 0.0249,  0.0407,  0.0016,  ...,  0.0456, -0.0445, -0.0294],
+        [ 0.0234,  0.0295, -0.0296,  ...,  0.0102, -0.0587,  0.0073],
+        ...,
+        [-0.0153, -0.0029,  0.0290,  ..., -0.0264,  0.0048,  0.0133],
+        [-0.0066,  0.0457,  0.0569,  ..., -0.0337, -0.0301, -0.0419],
+        [-0.0372, -0.0015, -0.0655,  ..., -0.0158, -0.0182,  0.0108]],
+       device='cuda:0'), grad: tensor([[-1.3389e-05, -1.3292e-04,  4.2409e-05,  ...,  3.0845e-05,
+          7.4625e-05, -1.0700e-03],
+        [-6.0797e-04, -5.0974e-04, -5.0163e-04,  ..., -6.5994e-04,
+         -2.1085e-05,  6.6698e-05],
+        [ 2.6673e-05,  1.9169e-04,  1.4102e-04,  ...,  5.4359e-05,
+          3.2604e-05,  9.3222e-04],
+        ...,
+        [-3.0383e-05,  9.5010e-05, -3.6478e-04,  ...,  1.1754e-04,
+          5.1618e-05, -5.8556e-04],
+        [-2.0294e-03, -4.4136e-03, -2.3499e-03,  ...,  1.4389e-04,
+         -1.4114e-03,  9.5367e-05],
+        [ 1.5378e-04,  1.4949e-04,  3.1757e-04,  ...,  4.9055e-05,
+          7.1883e-05,  2.6226e-04]], device='cuda:0')
+Epoch 25, bias, value: tensor([ 0.0061, -0.0180, -0.0166,  0.0296, -0.0321,  0.0236, -0.0291, -0.0157,
+         0.0293, -0.0200], device='cuda:0'), grad: tensor([-0.0009, -0.0009,  0.0010,  0.0025,  0.0003,  0.0018,  0.0014, -0.0007,
+        -0.0051,  0.0006], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 24, time 214.82, cls_loss 0.0240 cls_loss_mapping 0.0469 cls_loss_causal 0.8217 re_mapping 0.0250 re_causal 0.0730 /// teacc 98.59 lr 0.00010000
+Epoch 26, weight, value: tensor([[-0.0033, -0.0235, -0.0273,  ..., -0.0755,  0.0005,  0.0383],
+        [ 0.0248,  0.0410,  0.0019,  ...,  0.0461, -0.0453, -0.0293],
+        [ 0.0239,  0.0295, -0.0296,  ...,  0.0104, -0.0589,  0.0064],
+        ...,
+        [-0.0155, -0.0034,  0.0299,  ..., -0.0275,  0.0045,  0.0132],
+        [-0.0065,  0.0463,  0.0574,  ..., -0.0339, -0.0306, -0.0426],
+        [-0.0382, -0.0014, -0.0665,  ..., -0.0169, -0.0187,  0.0119]],
+       device='cuda:0'), grad: tensor([[ 8.8692e-05,  2.4819e-04,  1.1170e-04,  ...,  3.7074e-05,
+          3.5614e-05, -6.2063e-06],
+        [-1.1903e-04, -1.9062e-04, -2.5582e-04,  ..., -4.1771e-04,
+          3.0641e-06,  5.7556e-06],
+        [ 2.9063e-04,  9.4533e-05,  2.2972e-04,  ...,  6.5327e-05,
+          1.2636e-05,  6.6012e-06],
+        ...,
+        [-1.1778e-04,  9.1851e-05, -2.8849e-04,  ...,  1.1230e-04,
+          3.1143e-05,  5.0627e-06],
+        [-7.9215e-05, -6.2132e-04, -3.2711e-04,  ...,  3.6716e-05,
+          1.5140e-04,  1.7440e-04],
+        [ 2.7204e-04,  1.9503e-04,  1.2255e-04,  ...,  1.1432e-04,
+          1.4114e-04, -2.3514e-05]], device='cuda:0')
+Epoch 26, bias, value: tensor([ 0.0061, -0.0182, -0.0164,  0.0296, -0.0321,  0.0235, -0.0293, -0.0155,
+         0.0293, -0.0198], device='cuda:0'), grad: tensor([ 2.8181e-04, -2.7990e-04,  4.7016e-04, -6.6805e-04, -4.9710e-05,
+        -1.5187e-04,  1.7297e-04, -2.0444e-04, -1.1271e-04,  5.4169e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 25, time 215.18, cls_loss 0.0294 cls_loss_mapping 0.0497 cls_loss_causal 0.8256 re_mapping 0.0228 re_causal 0.0675 /// teacc 98.58 lr 0.00010000
+Epoch 27, weight, value: tensor([[-0.0038, -0.0240, -0.0275,  ..., -0.0755,  0.0003,  0.0389],
+        [ 0.0247,  0.0410,  0.0020,  ...,  0.0466, -0.0455, -0.0301],
+        [ 0.0243,  0.0296, -0.0302,  ...,  0.0108, -0.0594,  0.0064],
+        ...,
+        [-0.0154, -0.0038,  0.0305,  ..., -0.0280,  0.0042,  0.0135],
+        [-0.0059,  0.0469,  0.0585,  ..., -0.0342, -0.0313, -0.0434],
+        [-0.0390, -0.0013, -0.0667,  ..., -0.0177, -0.0194,  0.0122]],
+       device='cuda:0'), grad: tensor([[ 7.3314e-05,  7.9870e-05,  6.1035e-05,  ...,  1.4201e-05,
+         -8.0943e-05, -2.1446e-04],
+        [-1.7679e-04, -2.0385e-04, -2.1327e-04,  ..., -4.1056e-04,
+         -2.8946e-06,  2.4065e-05],
+        [ 2.0349e-04,  1.9765e-04,  2.0874e-04,  ...,  5.4777e-05,
+          1.5162e-05,  8.0585e-05],
+        ...,
+        [ 4.0889e-04,  4.4632e-04,  2.6417e-04,  ...,  1.9968e-04,
+          1.2733e-05,  3.3927e-04],
+        [-3.0975e-03, -4.1580e-03, -3.4409e-03,  ..., -2.7761e-05,
+         -1.3420e-06, -7.6103e-04],
+        [ 1.8139e-03,  2.4090e-03,  2.1343e-03,  ...,  4.5717e-05,
+          1.9908e-05, -7.0035e-06]], device='cuda:0')
+Epoch 27, bias, value: tensor([ 0.0062, -0.0187, -0.0162,  0.0293, -0.0320,  0.0235, -0.0298, -0.0151,
+         0.0297, -0.0200], device='cuda:0'), grad: tensor([-4.5627e-05, -1.7953e-04,  4.6706e-04, -4.2009e-04,  4.0603e-04,
+         2.0409e-03,  8.2016e-05,  1.0691e-03, -6.9847e-03,  3.5706e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 26, time 214.68, cls_loss 0.0243 cls_loss_mapping 0.0449 cls_loss_causal 0.8386 re_mapping 0.0224 re_causal 0.0679 /// teacc 98.68 lr 0.00010000
+Epoch 28, weight, value: tensor([[-4.3355e-03, -2.4791e-02, -2.7566e-02,  ..., -7.6454e-02,
+         -3.7999e-05,  3.9317e-02],
+        [ 2.5029e-02,  4.1094e-02,  2.8390e-03,  ...,  4.6810e-02,
+         -4.6100e-02, -3.0793e-02],
+        [ 2.4820e-02,  3.0031e-02, -3.0453e-02,  ...,  1.0935e-02,
+         -6.0216e-02,  6.0827e-03],
+        ...,
+        [-1.5795e-02, -4.6244e-03,  3.0911e-02,  ..., -2.8623e-02,
+          3.8748e-03,  1.3631e-02],
+        [-6.0238e-03,  4.7136e-02,  5.8948e-02,  ..., -3.4919e-02,
+         -3.1793e-02, -4.3988e-02],
+        [-3.9808e-02, -1.0863e-03, -6.7694e-02,  ..., -1.8067e-02,
+         -2.0181e-02,  1.2714e-02]], device='cuda:0'), grad: tensor([[ 3.5226e-05,  1.7509e-05,  2.2456e-05,  ...,  9.0227e-06,
+         -8.3089e-05, -5.6028e-04],
+        [-1.6499e-04, -3.1042e-04, -1.6117e-04,  ..., -2.7108e-04,
+         -2.2590e-05,  3.3855e-05],
+        [ 9.5749e-04,  1.5736e-04,  8.7070e-04,  ...,  5.7995e-05,
+          5.1409e-05,  1.7929e-04],
+        ...,
+        [-1.5478e-03, -7.2658e-05, -1.4200e-03,  ...,  1.1158e-04,
+          7.7546e-05, -4.8168e-06],
+        [-1.8165e-05, -8.6188e-05,  4.3303e-05,  ...,  5.9277e-05,
+          1.1945e-04,  1.4627e-04],
+        [-2.9516e-04, -4.3130e-04,  1.2982e-04,  ...,  2.0111e-04,
+          2.4962e-04, -3.8767e-04]], device='cuda:0')
+Epoch 28, bias, value: tensor([ 0.0061, -0.0187, -0.0159,  0.0297, -0.0322,  0.0237, -0.0296, -0.0151,
+         0.0292, -0.0202], device='cuda:0'), grad: tensor([-0.0006, -0.0003,  0.0016,  0.0028, -0.0001, -0.0014,  0.0004, -0.0020,
+         0.0005, -0.0009], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 27, time 214.94, cls_loss 0.0235 cls_loss_mapping 0.0425 cls_loss_causal 0.7796 re_mapping 0.0227 re_causal 0.0684 /// teacc 98.57 lr 0.00010000
+Epoch 29, weight, value: tensor([[-0.0048, -0.0256, -0.0280,  ..., -0.0769,  0.0006,  0.0400],
+        [ 0.0254,  0.0412,  0.0035,  ...,  0.0475, -0.0468, -0.0314],
+        [ 0.0247,  0.0302, -0.0312,  ...,  0.0105, -0.0606,  0.0058],
+        ...,
+        [-0.0160, -0.0054,  0.0310,  ..., -0.0292,  0.0038,  0.0134],
+        [-0.0058,  0.0480,  0.0598,  ..., -0.0356, -0.0322, -0.0443],
+        [-0.0406, -0.0014, -0.0687,  ..., -0.0189, -0.0204,  0.0134]],
+       device='cuda:0'), grad: tensor([[ 3.7313e-05,  6.6698e-05,  2.0877e-05,  ...,  4.9531e-05,
+         -7.5102e-05, -2.1398e-04],
+        [-3.6806e-05, -3.4034e-05, -5.0962e-05,  ..., -7.8082e-05,
+          3.6061e-05,  1.6227e-05],
+        [-2.1820e-03, -5.9605e-05, -1.2083e-03,  ...,  3.7432e-05,
+          3.1650e-05,  1.8641e-05],
+        ...,
+        [ 1.9388e-03,  1.0294e-04,  9.0265e-04,  ...,  4.6343e-05,
+          2.4900e-05, -2.6631e-04],
+        [-4.3869e-04, -6.7091e-04, -3.8242e-04,  ..., -4.7636e-04,
+         -2.3043e-04,  5.2780e-05],
+        [ 6.4611e-05, -5.9791e-06,  1.4567e-04,  ...,  2.9755e-04,
+          5.1022e-04,  3.5071e-04]], device='cuda:0')
+Epoch 29, bias, value: tensor([ 0.0062, -0.0186, -0.0162,  0.0299, -0.0322,  0.0235, -0.0295, -0.0154,
+         0.0294, -0.0201], device='cuda:0'), grad: tensor([-2.3514e-05,  6.0014e-06, -4.6082e-03,  2.6751e-04,  1.5783e-04,
+        -2.1017e-04,  2.1338e-04,  3.7594e-03, -3.9124e-04,  8.2970e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 28, time 214.69, cls_loss 0.0241 cls_loss_mapping 0.0435 cls_loss_causal 0.7899 re_mapping 0.0215 re_causal 0.0635 /// teacc 98.52 lr 0.00010000
+Epoch 30, weight, value: tensor([[-0.0056, -0.0258, -0.0285,  ..., -0.0778,  0.0004,  0.0411],
+        [ 0.0253,  0.0412,  0.0039,  ...,  0.0475, -0.0473, -0.0318],
+        [ 0.0251,  0.0306, -0.0317,  ...,  0.0109, -0.0610,  0.0055],
+        ...,
+        [-0.0163, -0.0062,  0.0313,  ..., -0.0299,  0.0035,  0.0135],
+        [-0.0055,  0.0483,  0.0604,  ..., -0.0361, -0.0329, -0.0453],
+        [-0.0415, -0.0015, -0.0698,  ..., -0.0196, -0.0210,  0.0139]],
+       device='cuda:0'), grad: tensor([[ 5.3346e-05,  4.3988e-05,  5.5879e-05,  ...,  3.2544e-05,
+          2.5809e-05, -4.8399e-05],
+        [-5.6148e-05, -1.5903e-04, -6.0737e-05,  ..., -4.5848e-04,
+          2.5973e-05,  1.7717e-05],
+        [ 1.4699e-04,  1.0145e-04,  1.9836e-04,  ...,  5.5224e-05,
+          1.2413e-05,  2.8491e-05],
+        ...,
+        [-3.2616e-03, -1.3571e-03, -4.5624e-03,  ...,  1.5414e-04,
+          7.3314e-05,  3.1859e-05],
+        [ 1.8656e-04,  3.1535e-06,  3.1209e-04,  ...,  8.7261e-05,
+          9.1791e-05,  2.2650e-04],
+        [ 1.5678e-03,  4.4894e-04,  1.6584e-03,  ...,  4.6706e-04,
+          2.6250e-04, -5.5075e-04]], device='cuda:0')
+Epoch 30, bias, value: tensor([ 0.0064, -0.0189, -0.0159,  0.0302, -0.0321,  0.0239, -0.0295, -0.0160,
+         0.0290, -0.0203], device='cuda:0'), grad: tensor([ 9.4533e-05,  7.7486e-05,  3.5715e-04,  2.7523e-03, -5.4121e-04,
+         4.0507e-04,  3.9268e-04, -7.1640e-03,  8.5831e-04,  2.7733e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 29, time 215.02, cls_loss 0.0240 cls_loss_mapping 0.0412 cls_loss_causal 0.7836 re_mapping 0.0216 re_causal 0.0641 /// teacc 98.54 lr 0.00010000
+Epoch 31, weight, value: tensor([[-0.0062, -0.0265, -0.0289,  ..., -0.0778,  0.0006,  0.0414],
+        [ 0.0255,  0.0417,  0.0043,  ...,  0.0480, -0.0480, -0.0321],
+        [ 0.0254,  0.0305, -0.0323,  ...,  0.0107, -0.0616,  0.0056],
+        ...,
+        [-0.0155, -0.0068,  0.0326,  ..., -0.0302,  0.0032,  0.0140],
+        [-0.0053,  0.0487,  0.0608,  ..., -0.0361, -0.0331, -0.0461],
+        [-0.0424, -0.0014, -0.0709,  ..., -0.0205, -0.0216,  0.0144]],
+       device='cuda:0'), grad: tensor([[ 5.5164e-05,  5.2154e-05,  3.6210e-05,  ..., -6.9797e-05,
+          2.8467e-04, -5.7369e-05],
+        [ 1.2141e-04,  7.6473e-05,  7.3195e-05,  ...,  6.7413e-05,
+          1.0455e-04,  4.2021e-05],
+        [ 5.0974e-04,  2.6727e-04,  3.5667e-04,  ...,  2.4056e-04,
+          7.6890e-05,  5.4359e-05],
+        ...,
+        [ 1.9944e-04,  5.2512e-05,  8.9228e-05,  ...,  8.4460e-05,
+          1.9282e-05,  6.4135e-05],
+        [-1.1244e-03, -6.2084e-04, -8.8215e-04,  ..., -1.3328e-04,
+          2.7204e-04,  1.6022e-04],
+        [ 1.0125e-05, -1.6413e-03,  1.0800e-04,  ...,  6.8188e-05,
+         -4.6849e-05, -4.4708e-03]], device='cuda:0')
+Epoch 31, bias, value: tensor([ 0.0065, -0.0186, -0.0156,  0.0299, -0.0322,  0.0241, -0.0298, -0.0156,
+         0.0289, -0.0205], device='cuda:0'), grad: tensor([ 4.8190e-05,  3.2139e-04,  8.9025e-04,  5.3558e-03,  4.7612e-04,
+         5.9032e-04, -1.1225e-03,  5.3883e-04, -8.6069e-04, -6.2370e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 30, time 214.88, cls_loss 0.0188 cls_loss_mapping 0.0343 cls_loss_causal 0.7565 re_mapping 0.0203 re_causal 0.0621 /// teacc 98.66 lr 0.00010000
+Epoch 32, weight, value: tensor([[-0.0066, -0.0270, -0.0291,  ..., -0.0785,  0.0002,  0.0416],
+        [ 0.0257,  0.0420,  0.0047,  ...,  0.0483, -0.0482, -0.0324],
+        [ 0.0253,  0.0305, -0.0328,  ...,  0.0106, -0.0621,  0.0049],
+        ...,
+        [-0.0156, -0.0077,  0.0330,  ..., -0.0305,  0.0032,  0.0140],
+        [-0.0050,  0.0489,  0.0613,  ..., -0.0366, -0.0337, -0.0470],
+        [-0.0431, -0.0012, -0.0718,  ..., -0.0212, -0.0222,  0.0153]],
+       device='cuda:0'), grad: tensor([[ 8.1122e-05,  3.4499e-04,  9.3043e-05,  ...,  6.4945e-04,
+          1.5318e-04, -1.0061e-03],
+        [-2.1756e-04, -1.6880e-04, -2.0671e-04,  ..., -2.0933e-04,
+          1.5581e-04,  3.5137e-05],
+        [-1.0719e-03,  1.0145e-04, -5.4264e-04,  ...,  1.0753e-04,
+          1.3578e-04,  5.9754e-05],
+        ...,
+        [ 1.0500e-03,  1.5604e-04,  2.7204e-04,  ...,  1.2219e-04,
+          1.1784e-04, -2.6274e-04],
+        [-6.1560e-04, -5.8174e-04, -1.1950e-03,  ...,  2.2531e-04,
+          8.7842e-06,  5.5432e-05],
+        [ 1.6320e-04,  3.0684e-04,  3.6263e-04,  ...,  3.3736e-04,
+          6.5041e-04,  6.2037e-04]], device='cuda:0')
+Epoch 32, bias, value: tensor([ 0.0063, -0.0185, -0.0162,  0.0301, -0.0323,  0.0246, -0.0297, -0.0154,
+         0.0287, -0.0205], device='cuda:0'), grad: tensor([-0.0005, -0.0002, -0.0011,  0.0003,  0.0007,  0.0012, -0.0020,  0.0011,
+        -0.0012,  0.0016], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 31, time 214.69, cls_loss 0.0244 cls_loss_mapping 0.0459 cls_loss_causal 0.7624 re_mapping 0.0191 re_causal 0.0585 /// teacc 98.65 lr 0.00010000
+Epoch 33, weight, value: tensor([[-0.0073, -0.0282, -0.0297,  ..., -0.0793, -0.0001,  0.0420],
+        [ 0.0254,  0.0418,  0.0045,  ...,  0.0483, -0.0486, -0.0327],
+        [ 0.0255,  0.0308, -0.0334,  ...,  0.0104, -0.0626,  0.0048],
+        ...,
+        [-0.0155, -0.0082,  0.0337,  ..., -0.0314,  0.0026,  0.0140],
+        [-0.0046,  0.0496,  0.0624,  ..., -0.0368, -0.0345, -0.0481],
+        [-0.0436, -0.0007, -0.0725,  ..., -0.0217, -0.0226,  0.0162]],
+       device='cuda:0'), grad: tensor([[ 3.7700e-05,  3.1590e-04,  1.4178e-05,  ...,  1.5898e-03,
+          2.7618e-03,  1.9395e-04],
+        [-3.6430e-04, -3.0494e-04, -3.6287e-04,  ..., -1.8144e-04,
+          2.0647e-04,  5.6662e-06],
+        [-4.6827e-06,  1.5640e-04,  6.0946e-05,  ...,  2.3377e-04,
+          1.7142e-04,  3.7730e-05],
+        ...,
+        [ 9.9123e-05,  1.6296e-04,  8.4877e-05,  ...,  1.3256e-04,
+          5.0128e-05,  9.6917e-05],
+        [-2.8268e-05,  6.9976e-05, -4.7535e-05,  ...,  1.7524e-04,
+          1.0592e-04,  3.0085e-05],
+        [ 3.7044e-05, -3.7718e-04,  2.9877e-05,  ..., -2.3395e-05,
+         -9.3699e-05, -5.4836e-04]], device='cuda:0')
+Epoch 33, bias, value: tensor([ 0.0060, -0.0189, -0.0163,  0.0301, -0.0323,  0.0245, -0.0294, -0.0153,
+         0.0286, -0.0200], device='cuda:0'), grad: tensor([ 0.0025, -0.0002,  0.0003,  0.0004,  0.0021,  0.0005, -0.0052,  0.0003,
+         0.0002, -0.0008], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 32, time 215.04, cls_loss 0.0163 cls_loss_mapping 0.0285 cls_loss_causal 0.7549 re_mapping 0.0193 re_causal 0.0575 /// teacc 98.34 lr 0.00010000
+Epoch 34, weight, value: tensor([[-0.0078, -0.0288, -0.0300,  ..., -0.0799, -0.0005,  0.0423],
+        [ 0.0257,  0.0423,  0.0053,  ...,  0.0490, -0.0493, -0.0327],
+        [ 0.0258,  0.0309, -0.0343,  ...,  0.0108, -0.0632,  0.0045],
+        ...,
+        [-0.0159, -0.0091,  0.0341,  ..., -0.0323,  0.0023,  0.0142],
+        [-0.0042,  0.0503,  0.0634,  ..., -0.0377, -0.0353, -0.0486],
+        [-0.0445, -0.0005, -0.0734,  ..., -0.0224, -0.0231,  0.0166]],
+       device='cuda:0'), grad: tensor([[ 4.2766e-06, -2.0657e-03,  1.3061e-05,  ..., -8.7118e-04,
+         -2.4033e-03, -2.7466e-03],
+        [ 5.1290e-05,  1.8609e-04,  2.1368e-05,  ...,  1.0151e-04,
+          1.1832e-04,  6.2108e-05],
+        [-2.4170e-05,  3.9786e-05,  2.1636e-05,  ...,  3.9965e-05,
+          5.6058e-05,  2.4295e-04],
+        ...,
+        [ 3.8773e-05,  5.9187e-05,  4.0606e-06,  ...,  3.7372e-05,
+          4.8757e-05,  9.8944e-05],
+        [ 5.6803e-05,  4.8161e-04,  1.0035e-07,  ...,  1.3328e-04,
+          3.7789e-04,  2.4247e-04],
+        [ 3.4142e-04,  3.2496e-04,  5.5462e-05,  ...,  2.0373e-04,
+          3.4404e-04,  2.4891e-04]], device='cuda:0')
+Epoch 34, bias, value: tensor([ 0.0058, -0.0187, -0.0164,  0.0302, -0.0324,  0.0242, -0.0292, -0.0151,
+         0.0288, -0.0203], device='cuda:0'), grad: tensor([-4.9095e-03,  2.4652e-04,  3.2854e-04, -4.9591e-04, -4.3750e-05,
+         1.1742e-04,  2.8095e-03,  2.1756e-04,  7.5817e-04,  9.7036e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 33----------------------------------------------------
+epoch 33, time 231.18, cls_loss 0.0168 cls_loss_mapping 0.0328 cls_loss_causal 0.7739 re_mapping 0.0186 re_causal 0.0582 /// teacc 98.74 lr 0.00010000
+Epoch 35, weight, value: tensor([[-0.0083, -0.0293, -0.0305,  ..., -0.0803, -0.0009,  0.0429],
+        [ 0.0261,  0.0426,  0.0060,  ...,  0.0496, -0.0500, -0.0332],
+        [ 0.0260,  0.0309, -0.0346,  ...,  0.0107, -0.0636,  0.0042],
+        ...,
+        [-0.0163, -0.0099,  0.0343,  ..., -0.0330,  0.0022,  0.0142],
+        [-0.0040,  0.0509,  0.0639,  ..., -0.0384, -0.0356, -0.0484],
+        [-0.0451, -0.0003, -0.0742,  ..., -0.0225, -0.0236,  0.0165]],
+       device='cuda:0'), grad: tensor([[ 5.2303e-05,  7.4804e-05,  1.5765e-05,  ...,  6.2466e-05,
+          7.8321e-05, -2.1052e-04],
+        [ 1.4246e-04,  5.9319e-04,  3.0726e-05,  ...,  7.4387e-04,
+          3.8028e-04,  8.3804e-05],
+        [ 7.0047e-04,  1.3614e-04,  8.2791e-05,  ...,  7.4744e-05,
+          5.9694e-05,  5.0575e-05],
+        ...,
+        [ 6.2799e-04,  6.2883e-05, -5.7220e-05,  ...,  5.4479e-05,
+          1.3851e-05, -2.8446e-05],
+        [-6.5899e-04, -6.6566e-04, -4.1080e-04,  ..., -1.3614e-04,
+          1.0514e-04,  8.5294e-05],
+        [ 1.6451e-04,  1.0462e-03,  7.0632e-05,  ...,  1.3847e-03,
+          6.8092e-04,  1.8227e-04]], device='cuda:0')
+Epoch 35, bias, value: tensor([ 0.0059, -0.0184, -0.0163,  0.0303, -0.0322,  0.0239, -0.0292, -0.0155,
+         0.0292, -0.0207], device='cuda:0'), grad: tensor([-4.6313e-05,  1.1234e-03,  1.0090e-03, -1.4944e-03, -2.6169e-03,
+         1.4269e-04, -5.4866e-05,  6.2704e-04, -6.8235e-04,  1.9894e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 34, time 214.52, cls_loss 0.0177 cls_loss_mapping 0.0322 cls_loss_causal 0.7633 re_mapping 0.0190 re_causal 0.0573 /// teacc 98.47 lr 0.00010000
+Epoch 36, weight, value: tensor([[-0.0090, -0.0298, -0.0306,  ..., -0.0799, -0.0004,  0.0437],
+        [ 0.0264,  0.0428,  0.0068,  ...,  0.0505, -0.0505, -0.0338],
+        [ 0.0267,  0.0309, -0.0349,  ...,  0.0105, -0.0641,  0.0037],
+        ...,
+        [-0.0161, -0.0104,  0.0346,  ..., -0.0335,  0.0020,  0.0144],
+        [-0.0037,  0.0518,  0.0645,  ..., -0.0383, -0.0360, -0.0488],
+        [-0.0459, -0.0003, -0.0749,  ..., -0.0232, -0.0241,  0.0169]],
+       device='cuda:0'), grad: tensor([[ 8.1122e-05,  7.1526e-05,  3.9250e-05,  ...,  1.3411e-04,
+          1.0860e-04, -1.5116e-04],
+        [-1.5011e-03, -7.3099e-04, -8.3113e-04,  ..., -1.5106e-03,
+          6.4731e-05,  2.5734e-05],
+        [ 7.7009e-04,  5.4502e-04,  9.3031e-04,  ...,  5.9414e-04,
+          9.8050e-05,  1.2469e-04],
+        ...,
+        [-1.5664e-04,  1.0705e-04, -7.0429e-04,  ...,  2.7108e-04,
+          4.6343e-05, -5.3257e-05],
+        [-3.3975e-04, -2.6083e-04, -1.7774e-04,  ...,  5.6839e-04,
+          9.0778e-05,  6.7532e-05],
+        [ 3.0804e-04,  2.2805e-04,  1.8287e-04,  ...,  2.8086e-04,
+          2.1601e-04,  7.0155e-05]], device='cuda:0')
+Epoch 36, bias, value: tensor([ 0.0063, -0.0182, -0.0160,  0.0299, -0.0324,  0.0242, -0.0299, -0.0155,
+         0.0295, -0.0209], device='cuda:0'), grad: tensor([ 9.7156e-05, -1.5726e-03,  1.6537e-03,  1.5717e-03,  2.3127e-04,
+        -7.3576e-04, -8.2541e-04, -6.2180e-04, -7.1001e-04,  9.1124e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 35, time 214.87, cls_loss 0.0200 cls_loss_mapping 0.0363 cls_loss_causal 0.7911 re_mapping 0.0184 re_causal 0.0553 /// teacc 98.74 lr 0.00010000
+Epoch 37, weight, value: tensor([[-9.5998e-03, -3.1228e-02, -3.1322e-02,  ..., -8.0318e-02,
+         -2.4818e-05,  4.3616e-02],
+        [ 2.6448e-02,  4.2757e-02,  6.7754e-03,  ...,  5.0934e-02,
+         -5.1067e-02, -3.3524e-02],
+        [ 2.6664e-02,  3.0788e-02, -3.5675e-02,  ...,  1.0049e-02,
+         -6.4840e-02,  2.8858e-03],
+        ...,
+        [-1.6137e-02, -1.0560e-02,  3.5503e-02,  ..., -3.4136e-02,
+          2.0247e-03,  1.4273e-02],
+        [-3.4047e-03,  5.2185e-02,  6.5332e-02,  ..., -3.8659e-02,
+         -3.6651e-02, -5.0084e-02],
+        [-4.6303e-02,  1.9000e-05, -7.5602e-02,  ..., -2.3930e-02,
+         -2.4843e-02,  1.8312e-02]], device='cuda:0'), grad: tensor([[ 7.7188e-05,  3.4243e-05,  7.0035e-05,  ...,  2.4468e-05,
+          1.8314e-05, -3.4779e-05],
+        [-1.5408e-05, -2.1100e-04, -5.7817e-05,  ..., -3.0375e-04,
+          1.0923e-05,  7.1041e-06],
+        [ 1.3649e-04,  2.3198e-04,  1.0719e-03,  ...,  4.1723e-05,
+          2.0042e-05,  3.8803e-05],
+        ...,
+        [ 1.0178e-02, -4.7660e-04,  1.0986e-02,  ...,  6.8188e-05,
+          2.1264e-05, -1.0473e-04],
+        [ 6.9094e-04,  1.8764e-04,  9.2506e-04,  ...,  2.6464e-04,
+          3.0947e-04,  3.1650e-05],
+        [ 1.3697e-04,  1.2584e-05,  1.3149e-04,  ...,  3.8296e-05,
+          2.7239e-05, -7.2122e-05]], device='cuda:0')
+Epoch 37, bias, value: tensor([ 0.0060, -0.0185, -0.0164,  0.0301, -0.0324,  0.0246, -0.0300, -0.0153,
+         0.0293, -0.0206], device='cuda:0'), grad: tensor([ 1.4198e-04,  1.2837e-05,  7.8678e-04, -2.7466e-02,  3.0828e-04,
+        -8.2970e-04,  1.6975e-04,  2.4887e-02,  1.8702e-03,  1.3423e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 36, time 215.16, cls_loss 0.0184 cls_loss_mapping 0.0312 cls_loss_causal 0.7204 re_mapping 0.0181 re_causal 0.0518 /// teacc 98.74 lr 0.00010000
+Epoch 38, weight, value: tensor([[-1.0111e-02, -3.2068e-02, -3.2052e-02,  ..., -8.1040e-02,
+         -1.8171e-04,  4.4021e-02],
+        [ 2.6635e-02,  4.2824e-02,  7.2321e-03,  ...,  5.1268e-02,
+         -5.2195e-02, -3.3956e-02],
+        [ 2.7244e-02,  3.1234e-02, -3.6081e-02,  ...,  9.9591e-03,
+         -6.5384e-02,  2.3150e-03],
+        ...,
+        [-1.6545e-02, -1.1047e-02,  3.5818e-02,  ..., -3.5005e-02,
+          1.6204e-03,  1.4801e-02],
+        [-3.5565e-03,  5.2415e-02,  6.5866e-02,  ..., -3.9234e-02,
+         -3.6967e-02, -5.0758e-02],
+        [-4.6745e-02, -3.0989e-05, -7.6173e-02,  ..., -2.4561e-02,
+         -2.5270e-02,  1.8507e-02]], device='cuda:0'), grad: tensor([[ 6.4075e-05,  7.6890e-05,  8.5592e-05,  ...,  8.6606e-05,
+         -5.9837e-07, -2.5243e-05],
+        [-1.9226e-03, -1.9588e-03, -2.4624e-03,  ..., -3.2120e-03,
+         -2.6375e-05,  2.4348e-05],
+        [ 7.2122e-05,  1.4305e-04,  2.3997e-04,  ...,  3.3283e-04,
+          7.8976e-06,  4.0233e-05],
+        ...,
+        [ 6.0588e-05,  1.3864e-04, -1.1021e-04,  ...,  9.9778e-05,
+          1.7241e-05, -2.0540e-04],
+        [ 8.6260e-04,  8.9931e-04,  1.0433e-03,  ...,  1.8082e-03,
+          1.4775e-05,  6.1154e-05],
+        [ 1.0371e-04, -1.0004e-03,  2.2495e-04,  ..., -7.4863e-04,
+         -7.0751e-05, -1.4696e-03]], device='cuda:0')
+Epoch 38, bias, value: tensor([ 0.0058, -0.0185, -0.0161,  0.0300, -0.0323,  0.0243, -0.0296, -0.0150,
+         0.0291, -0.0208], device='cuda:0'), grad: tensor([ 0.0001, -0.0034,  0.0003,  0.0004,  0.0026,  0.0005,  0.0005, -0.0002,
+         0.0013, -0.0021], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 37, time 215.28, cls_loss 0.0183 cls_loss_mapping 0.0345 cls_loss_causal 0.7599 re_mapping 0.0179 re_causal 0.0532 /// teacc 98.70 lr 0.00010000
+Epoch 39, weight, value: tensor([[-0.0107, -0.0330, -0.0322,  ..., -0.0815, -0.0002,  0.0443],
+        [ 0.0269,  0.0427,  0.0078,  ...,  0.0514, -0.0530, -0.0357],
+        [ 0.0277,  0.0313, -0.0367,  ...,  0.0095, -0.0658,  0.0018],
+        ...,
+        [-0.0171, -0.0117,  0.0363,  ..., -0.0351,  0.0013,  0.0151],
+        [-0.0034,  0.0527,  0.0666,  ..., -0.0400, -0.0374, -0.0519],
+        [-0.0471,  0.0006, -0.0771,  ..., -0.0245, -0.0258,  0.0195]],
+       device='cuda:0'), grad: tensor([[ 4.1872e-05,  3.2306e-05, -1.6227e-05,  ...,  1.8150e-05,
+          2.5064e-05, -1.5509e-04],
+        [ 1.0595e-03,  1.7762e-04, -7.3195e-05,  ...,  1.4162e-04,
+          1.9178e-05,  5.3740e-04],
+        [-1.4191e-03,  5.2124e-05,  9.5665e-05,  ..., -1.0532e-04,
+          5.3167e-05, -7.4148e-04],
+        ...,
+        [ 1.0180e-04,  1.0383e-04, -5.3024e-04,  ...,  7.0155e-05,
+          3.1948e-05,  1.4162e-04],
+        [ 1.8811e-04, -1.6129e-04,  4.2692e-06,  ...,  1.3936e-04,
+          5.6982e-04,  2.4486e-04],
+        [ 1.3471e-04,  2.1648e-04,  9.2268e-05,  ...,  2.5749e-04,
+          1.2946e-04, -1.5736e-04]], device='cuda:0')
+Epoch 39, bias, value: tensor([ 0.0057, -0.0189, -0.0158,  0.0299, -0.0319,  0.0245, -0.0298, -0.0150,
+         0.0288, -0.0206], device='cuda:0'), grad: tensor([-6.0767e-05,  1.0004e-03, -7.8964e-04,  1.1263e-03, -8.6546e-04,
+        -1.5783e-03,  2.8586e-04, -3.7813e-04,  8.6784e-04,  3.9196e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 38----------------------------------------------------
+epoch 38, time 232.66, cls_loss 0.0199 cls_loss_mapping 0.0351 cls_loss_causal 0.7496 re_mapping 0.0177 re_causal 0.0536 /// teacc 98.76 lr 0.00010000
+Epoch 40, weight, value: tensor([[-0.0110, -0.0338, -0.0320,  ..., -0.0824, -0.0002,  0.0449],
+        [ 0.0269,  0.0424,  0.0081,  ...,  0.0509, -0.0535, -0.0374],
+        [ 0.0280,  0.0317, -0.0373,  ...,  0.0093, -0.0662,  0.0017],
+        ...,
+        [-0.0169, -0.0117,  0.0366,  ..., -0.0358,  0.0008,  0.0152],
+        [-0.0034,  0.0527,  0.0676,  ..., -0.0401, -0.0380, -0.0519],
+        [-0.0477,  0.0013, -0.0783,  ..., -0.0239, -0.0261,  0.0204]],
+       device='cuda:0'), grad: tensor([[ 7.8297e-04,  1.9932e-03,  3.6865e-05,  ...,  7.0810e-04,
+          9.4473e-05, -8.1211e-06],
+        [-2.4605e-04, -8.9765e-05, -2.4772e-04,  ..., -2.5630e-04,
+          1.2137e-05, -3.1083e-07],
+        [ 1.2302e-04,  1.7965e-04,  1.6797e-04,  ...,  1.2922e-04,
+          2.6047e-05,  8.9034e-06],
+        ...,
+        [ 1.2541e-04,  9.7096e-05,  3.9250e-05,  ...,  7.9572e-05,
+          1.6615e-05,  9.4697e-06],
+        [-1.0338e-03, -2.5215e-03, -1.1855e-04,  ..., -8.4734e-04,
+          1.9789e-04,  7.4387e-05],
+        [ 4.2170e-05,  6.6817e-05,  2.5138e-05,  ...,  5.8204e-05,
+          7.6771e-05,  5.0843e-05]], device='cuda:0')
+Epoch 40, bias, value: tensor([ 0.0057, -0.0194, -0.0160,  0.0304, -0.0317,  0.0241, -0.0301, -0.0148,
+         0.0289, -0.0204], device='cuda:0'), grad: tensor([ 0.0036, -0.0003,  0.0002,  0.0002,  0.0001, -0.0003,  0.0002,  0.0003,
+        -0.0043,  0.0002], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 39----------------------------------------------------
+epoch 39, time 231.60, cls_loss 0.0163 cls_loss_mapping 0.0324 cls_loss_causal 0.7365 re_mapping 0.0172 re_causal 0.0531 /// teacc 98.79 lr 0.00010000
+Epoch 41, weight, value: tensor([[-0.0109, -0.0339, -0.0323,  ..., -0.0822, -0.0006,  0.0456],
+        [ 0.0269,  0.0424,  0.0085,  ...,  0.0511, -0.0544, -0.0370],
+        [ 0.0283,  0.0317, -0.0378,  ...,  0.0092, -0.0666,  0.0015],
+        ...,
+        [-0.0168, -0.0122,  0.0372,  ..., -0.0360,  0.0006,  0.0151],
+        [-0.0030,  0.0533,  0.0683,  ..., -0.0403, -0.0385, -0.0530],
+        [-0.0489,  0.0010, -0.0797,  ..., -0.0246, -0.0267,  0.0206]],
+       device='cuda:0'), grad: tensor([[ 2.0294e-03,  1.0920e-03,  1.2971e-05,  ...,  5.7995e-05,
+          2.0182e-04,  9.9850e-04],
+        [-8.2397e-04, -5.1498e-03, -5.5695e-03,  ..., -5.7335e-03,
+         -2.3499e-05, -2.6131e-03],
+        [-2.7122e-03, -2.5868e-04,  4.6134e-05,  ...,  6.8367e-05,
+          3.9935e-05, -3.7241e-04],
+        ...,
+        [ 2.5940e-04,  1.3399e-03,  7.3862e-04,  ...,  1.5011e-03,
+          4.7624e-05, -8.0729e-04],
+        [-6.8009e-05, -7.8964e-04,  2.3472e-04,  ...,  2.6155e-04,
+         -9.9778e-05, -6.9094e-04],
+        [ 5.1546e-04,  3.1452e-03,  3.6430e-03,  ...,  3.7804e-03,
+          1.0147e-03,  3.6812e-03]], device='cuda:0')
+Epoch 41, bias, value: tensor([ 0.0063, -0.0193, -0.0162,  0.0302, -0.0318,  0.0244, -0.0297, -0.0148,
+         0.0289, -0.0210], device='cuda:0'), grad: tensor([ 0.0055, -0.0098, -0.0040,  0.0006, -0.0006,  0.0002,  0.0002,  0.0006,
+        -0.0023,  0.0097], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 40, time 215.13, cls_loss 0.0169 cls_loss_mapping 0.0307 cls_loss_causal 0.7116 re_mapping 0.0174 re_causal 0.0520 /// teacc 98.77 lr 0.00010000
+Epoch 42, weight, value: tensor([[-0.0116, -0.0346, -0.0328,  ..., -0.0826, -0.0010,  0.0460],
+        [ 0.0269,  0.0426,  0.0088,  ...,  0.0516, -0.0550, -0.0372],
+        [ 0.0286,  0.0316, -0.0382,  ...,  0.0087, -0.0672,  0.0012],
+        ...,
+        [-0.0171, -0.0126,  0.0380,  ..., -0.0368,  0.0002,  0.0164],
+        [-0.0027,  0.0537,  0.0689,  ..., -0.0410, -0.0390, -0.0544],
+        [-0.0488,  0.0015, -0.0809,  ..., -0.0254, -0.0268,  0.0206]],
+       device='cuda:0'), grad: tensor([[ 2.3887e-05,  2.4334e-05,  2.1830e-05,  ..., -2.1219e-05,
+         -8.0526e-05, -1.2207e-04],
+        [-3.5787e-04, -4.5466e-04, -7.6866e-04,  ..., -5.9843e-04,
+         -4.0280e-08,  3.2224e-06],
+        [-1.6022e-03, -8.1491e-04, -1.1158e-03,  ...,  9.9897e-05,
+          2.0221e-05,  1.7226e-05],
+        ...,
+        [ 1.6994e-03,  1.0672e-03,  1.5249e-03,  ...,  3.5405e-04,
+          5.2527e-06,  1.2077e-05],
+        [ 1.6689e-05,  3.6098e-06,  2.6494e-05,  ...,  5.1975e-05,
+          4.1366e-05, -4.5747e-05],
+        [ 5.2363e-05,  3.4004e-05,  5.2631e-05,  ...,  2.0519e-05,
+          1.8299e-05,  1.6406e-05]], device='cuda:0')
+Epoch 42, bias, value: tensor([ 0.0060, -0.0193, -0.0161,  0.0298, -0.0317,  0.0243, -0.0297, -0.0141,
+         0.0289, -0.0211], device='cuda:0'), grad: tensor([-1.3828e-04, -1.0519e-03, -2.2163e-03,  1.2410e-04,  1.2422e-04,
+         3.8099e-04, -6.1810e-05,  2.6569e-03,  3.8356e-05,  1.4389e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 41----------------------------------------------------
+epoch 41, time 231.37, cls_loss 0.0153 cls_loss_mapping 0.0282 cls_loss_causal 0.6977 re_mapping 0.0163 re_causal 0.0505 /// teacc 98.86 lr 0.00010000
+Epoch 43, weight, value: tensor([[-0.0120, -0.0356, -0.0334,  ..., -0.0834, -0.0008,  0.0462],
+        [ 0.0271,  0.0433,  0.0099,  ...,  0.0518, -0.0557, -0.0374],
+        [ 0.0291,  0.0321, -0.0382,  ...,  0.0095, -0.0678,  0.0011],
+        ...,
+        [-0.0178, -0.0134,  0.0380,  ..., -0.0377, -0.0001,  0.0162],
+        [-0.0024,  0.0538,  0.0691,  ..., -0.0418, -0.0393, -0.0545],
+        [-0.0494,  0.0018, -0.0817,  ..., -0.0260, -0.0274,  0.0210]],
+       device='cuda:0'), grad: tensor([[ 2.6345e-05,  6.5446e-05,  3.3170e-05,  ...,  1.1492e-04,
+          7.8976e-05, -6.8426e-05],
+        [-2.7442e-04, -1.8942e-04, -3.4308e-04,  ..., -6.1941e-04,
+          1.1124e-05,  1.1124e-05],
+        [ 2.5630e-04,  4.5037e-04,  2.7823e-04,  ...,  4.7469e-04,
+          2.6870e-04,  3.4690e-05],
+        ...,
+        [ 7.4267e-05,  9.3162e-05, -4.7255e-04,  ..., -2.1136e-04,
+         -1.8191e-04, -5.4717e-05],
+        [-6.5851e-04, -1.2369e-03, -5.4646e-04,  ...,  7.7128e-05,
+         -2.8729e-04,  4.6253e-05],
+        [ 5.7906e-05,  9.7156e-05,  1.8322e-04,  ...,  1.3447e-04,
+          1.0335e-04,  5.1439e-05]], device='cuda:0')
+Epoch 43, bias, value: tensor([ 0.0060, -0.0191, -0.0157,  0.0304, -0.0322,  0.0239, -0.0295, -0.0145,
+         0.0289, -0.0213], device='cuda:0'), grad: tensor([ 1.1224e-04, -5.7077e-04,  1.0548e-03,  4.7112e-04,  6.8617e-04,
+         3.5584e-05,  5.6314e-04, -8.5831e-04, -1.9627e-03,  4.6897e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 42, time 214.76, cls_loss 0.0154 cls_loss_mapping 0.0299 cls_loss_causal 0.6804 re_mapping 0.0163 re_causal 0.0474 /// teacc 98.85 lr 0.00010000
+Epoch 44, weight, value: tensor([[-1.2396e-02, -3.6518e-02, -3.3394e-02,  ..., -8.3373e-02,
+         -1.3638e-03,  4.5714e-02],
+        [ 2.6665e-02,  4.2753e-02,  9.6181e-03,  ...,  5.2228e-02,
+         -5.6279e-02, -3.7944e-02],
+        [ 2.9197e-02,  3.2610e-02, -3.8158e-02,  ...,  9.7132e-03,
+         -6.8514e-02,  4.8080e-04],
+        ...,
+        [-1.7907e-02, -1.3572e-02,  3.8605e-02,  ..., -3.8024e-02,
+         -4.6799e-05,  1.6866e-02],
+        [-1.8463e-03,  5.4187e-02,  6.9907e-02,  ..., -4.2407e-02,
+         -3.9806e-02, -5.5476e-02],
+        [-5.0160e-02,  2.3720e-03, -8.2402e-02,  ..., -2.6779e-02,
+         -2.7807e-02,  2.2074e-02]], device='cuda:0'), grad: tensor([[ 1.5482e-05,  8.3506e-05,  1.9386e-05,  ...,  1.5631e-05,
+          1.4913e-04, -2.8920e-04],
+        [-5.3215e-04, -4.2295e-04, -1.0023e-03,  ..., -8.9502e-04,
+          1.9446e-05,  6.8173e-06],
+        [-1.4877e-04,  5.9247e-05,  1.4186e-04,  ...,  2.0802e-04,
+          1.3307e-05,  1.6820e-04],
+        ...,
+        [ 5.1785e-04,  3.6645e-04,  5.7220e-04,  ...,  5.9319e-04,
+          5.5164e-05,  2.1458e-05],
+        [ 2.9892e-05, -5.5507e-07,  1.4473e-06,  ...,  6.8367e-05,
+          6.2644e-05,  5.5850e-05],
+        [ 6.7115e-05,  1.6248e-04,  5.0753e-05,  ...,  3.2401e-04,
+          2.5058e-04,  6.1989e-06]], device='cuda:0')
+Epoch 44, bias, value: tensor([ 0.0054, -0.0196, -0.0158,  0.0305, -0.0325,  0.0241, -0.0295, -0.0141,
+         0.0290, -0.0209], device='cuda:0'), grad: tensor([-1.5390e-04, -1.3065e-03,  2.5702e-04,  1.3804e-04, -5.1594e-04,
+        -1.9252e-04,  2.5500e-06,  1.0881e-03,  1.8573e-04,  4.9686e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 43, time 214.86, cls_loss 0.0187 cls_loss_mapping 0.0324 cls_loss_causal 0.7650 re_mapping 0.0166 re_causal 0.0485 /// teacc 98.86 lr 0.00010000
+Epoch 45, weight, value: tensor([[-0.0136, -0.0380, -0.0341,  ..., -0.0840, -0.0016,  0.0461],
+        [ 0.0266,  0.0426,  0.0097,  ...,  0.0527, -0.0571, -0.0382],
+        [ 0.0298,  0.0327, -0.0388,  ...,  0.0100, -0.0690,  0.0009],
+        ...,
+        [-0.0182, -0.0137,  0.0391,  ..., -0.0388, -0.0005,  0.0169],
+        [-0.0016,  0.0548,  0.0710,  ..., -0.0430, -0.0409, -0.0564],
+        [-0.0510,  0.0018, -0.0834,  ..., -0.0280, -0.0286,  0.0222]],
+       device='cuda:0'), grad: tensor([[ 9.9018e-06,  7.2047e-06,  1.4529e-05,  ...,  2.2016e-06,
+         -1.8291e-06, -4.6158e-04],
+        [ 3.6461e-07,  3.9756e-05,  4.8429e-05,  ..., -3.6001e-05,
+          1.7598e-05,  9.0718e-05],
+        [ 1.6010e-04,  1.5831e-04,  5.6553e-04,  ...,  1.5348e-05,
+          1.0893e-05,  3.9190e-05],
+        ...,
+        [-3.3903e-04, -1.7893e-04, -1.2026e-03,  ...,  3.0443e-05,
+          1.8388e-05,  4.6313e-05],
+        [ 1.0151e-04,  2.2864e-04,  3.9053e-04,  ...,  3.9190e-05,
+          4.4525e-05,  2.4843e-04],
+        [-1.5593e-04, -6.8092e-04,  1.1295e-04,  ...,  2.3580e-04,
+          2.2399e-04, -1.3599e-03]], device='cuda:0')
+Epoch 45, bias, value: tensor([ 0.0048, -0.0198, -0.0153,  0.0306, -0.0322,  0.0245, -0.0294, -0.0140,
+         0.0287, -0.0215], device='cuda:0'), grad: tensor([-0.0006,  0.0002,  0.0006,  0.0018, -0.0007,  0.0003,  0.0001, -0.0011,
+         0.0009, -0.0015], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 44, time 215.12, cls_loss 0.0159 cls_loss_mapping 0.0289 cls_loss_causal 0.7095 re_mapping 0.0163 re_causal 0.0465 /// teacc 98.80 lr 0.00010000
+Epoch 46, weight, value: tensor([[-0.0139, -0.0386, -0.0347,  ..., -0.0845, -0.0016,  0.0466],
+        [ 0.0270,  0.0425,  0.0101,  ...,  0.0529, -0.0575, -0.0390],
+        [ 0.0297,  0.0321, -0.0403,  ...,  0.0102, -0.0695,  0.0007],
+        ...,
+        [-0.0181, -0.0137,  0.0402,  ..., -0.0390, -0.0009,  0.0166],
+        [-0.0014,  0.0553,  0.0714,  ..., -0.0437, -0.0413, -0.0571],
+        [-0.0515,  0.0019, -0.0836,  ..., -0.0287, -0.0292,  0.0229]],
+       device='cuda:0'), grad: tensor([[ 3.8773e-05,  3.1531e-05,  3.2187e-06,  ...,  2.5317e-05,
+         -5.9032e-04, -1.1950e-03],
+        [ 8.3596e-06,  9.1717e-06, -2.7940e-05,  ..., -3.9190e-06,
+          2.7031e-05,  2.9027e-05],
+        [ 9.2387e-05,  5.3674e-05,  3.0503e-05,  ...,  1.0067e-04,
+          1.8072e-04,  2.9349e-04],
+        ...,
+        [ 5.4628e-05,  9.1076e-05,  2.7776e-05,  ...,  9.8944e-05,
+          9.0420e-05,  1.3709e-04],
+        [-5.1677e-05, -2.6032e-05, -1.8573e-04,  ...,  5.2541e-05,
+          1.4901e-04,  3.9315e-04],
+        [ 6.9082e-05,  6.8784e-05,  1.3225e-05,  ...,  1.1885e-04,
+          2.9063e-04, -3.2043e-04]], device='cuda:0')
+Epoch 46, bias, value: tensor([ 0.0048, -0.0200, -0.0158,  0.0303, -0.0319,  0.0251, -0.0297, -0.0136,
+         0.0285, -0.0213], device='cuda:0'), grad: tensor([-2.0370e-03,  1.1426e-04,  9.5510e-04, -9.6703e-04, -2.6631e-04,
+         6.5041e-04,  4.7898e-04,  4.8089e-04,  6.5231e-04, -6.5982e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 45, time 215.21, cls_loss 0.0128 cls_loss_mapping 0.0251 cls_loss_causal 0.6841 re_mapping 0.0161 re_causal 0.0475 /// teacc 98.71 lr 0.00010000
+Epoch 47, weight, value: tensor([[-1.4242e-02, -3.9043e-02, -3.4831e-02,  ..., -8.4665e-02,
+         -1.3678e-03,  4.7049e-02],
+        [ 2.7770e-02,  4.3270e-02,  1.1276e-02,  ...,  5.4427e-02,
+         -5.7738e-02, -3.9174e-02],
+        [ 3.0257e-02,  3.2167e-02, -4.0397e-02,  ...,  9.3126e-03,
+         -7.0274e-02, -8.2971e-06],
+        ...,
+        [-1.8472e-02, -1.4219e-02,  4.0401e-02,  ..., -3.9918e-02,
+         -8.9771e-04,  1.6664e-02],
+        [-2.1364e-03,  5.5181e-02,  7.1218e-02,  ..., -4.4232e-02,
+         -4.2041e-02, -5.8093e-02],
+        [-5.2141e-02,  1.7271e-03, -8.4349e-02,  ..., -2.9315e-02,
+         -2.9778e-02,  2.3907e-02]], device='cuda:0'), grad: tensor([[ 1.7703e-05,  1.6138e-05,  9.5144e-06,  ...,  4.7758e-06,
+          1.9357e-05, -6.3896e-05],
+        [ 2.7823e-04,  8.1003e-05,  2.3365e-05,  ...,  8.9645e-05,
+          1.2882e-05,  6.0678e-05],
+        [-4.0364e-04, -1.1694e-04,  2.8178e-05,  ..., -1.0228e-04,
+          1.2137e-05, -4.4048e-05],
+        ...,
+        [ 8.5413e-05,  7.5161e-05, -5.0664e-05,  ...,  5.0992e-05,
+          3.5167e-05,  2.3708e-05],
+        [-3.2902e-04, -2.4939e-04, -4.7684e-04,  ...,  5.2340e-06,
+         -6.6400e-05,  7.7605e-05],
+        [ 2.6926e-05, -1.2124e-04,  7.4878e-06,  ...,  3.3736e-05,
+          3.1084e-05, -1.6356e-04]], device='cuda:0')
+Epoch 47, bias, value: tensor([ 0.0049, -0.0192, -0.0159,  0.0304, -0.0322,  0.0249, -0.0291, -0.0138,
+         0.0277, -0.0212], device='cuda:0'), grad: tensor([-2.8446e-05,  3.0065e-04, -3.2759e-04,  2.4390e-04,  1.8731e-05,
+         1.9357e-05,  4.3893e-04,  1.0550e-04, -5.4646e-04, -2.2423e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 46, time 215.21, cls_loss 0.0150 cls_loss_mapping 0.0249 cls_loss_causal 0.6937 re_mapping 0.0156 re_causal 0.0448 /// teacc 98.85 lr 0.00010000
+Epoch 48, weight, value: tensor([[-0.0149, -0.0403, -0.0355,  ..., -0.0855, -0.0012,  0.0479],
+        [ 0.0280,  0.0432,  0.0119,  ...,  0.0547, -0.0580, -0.0401],
+        [ 0.0312,  0.0327, -0.0403,  ...,  0.0093, -0.0708, -0.0006],
+        ...,
+        [-0.0191, -0.0149,  0.0404,  ..., -0.0409, -0.0013,  0.0168],
+        [-0.0023,  0.0557,  0.0717,  ..., -0.0444, -0.0423, -0.0584],
+        [-0.0529,  0.0019, -0.0854,  ..., -0.0298, -0.0306,  0.0245]],
+       device='cuda:0'), grad: tensor([[ 1.6615e-05,  5.4359e-05,  9.7305e-06,  ...,  6.7651e-05,
+          1.9765e-04,  8.2135e-05],
+        [-6.8009e-05,  1.6764e-05, -6.9082e-05,  ...,  2.8208e-05,
+          1.4997e-04,  4.6521e-05],
+        [-9.5248e-05,  7.4916e-06,  9.7990e-05,  ...,  5.0724e-05,
+          1.6987e-04,  4.0144e-05],
+        ...,
+        [ 5.1320e-05,  9.1314e-05,  3.6567e-05,  ...,  1.0699e-04,
+          1.0538e-04,  5.7280e-05],
+        [ 2.0683e-05,  5.9366e-05, -2.3589e-05,  ...,  1.2350e-04,
+          3.2306e-04,  2.5272e-04],
+        [ 2.8536e-05,  4.2945e-05,  5.8740e-05,  ...,  1.0622e-04,
+          2.2876e-04,  2.9147e-05]], device='cuda:0')
+Epoch 48, bias, value: tensor([ 0.0049, -0.0191, -0.0152,  0.0305, -0.0319,  0.0247, -0.0293, -0.0144,
+         0.0279, -0.0213], device='cuda:0'), grad: tensor([ 0.0003,  0.0001, -0.0002,  0.0006,  0.0004, -0.0018, -0.0006,  0.0003,
+         0.0007,  0.0003], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 47----------------------------------------------------
+epoch 47, time 230.24, cls_loss 0.0102 cls_loss_mapping 0.0188 cls_loss_causal 0.6851 re_mapping 0.0150 re_causal 0.0473 /// teacc 98.91 lr 0.00010000
+Epoch 49, weight, value: tensor([[-0.0151, -0.0409, -0.0357,  ..., -0.0858, -0.0009,  0.0486],
+        [ 0.0282,  0.0432,  0.0120,  ...,  0.0550, -0.0585, -0.0407],
+        [ 0.0310,  0.0325, -0.0409,  ...,  0.0089, -0.0714, -0.0013],
+        ...,
+        [-0.0191, -0.0153,  0.0408,  ..., -0.0416, -0.0022,  0.0167],
+        [-0.0019,  0.0564,  0.0725,  ..., -0.0445, -0.0429, -0.0587],
+        [-0.0539,  0.0021, -0.0865,  ..., -0.0302, -0.0298,  0.0253]],
+       device='cuda:0'), grad: tensor([[ 8.1360e-06,  2.2963e-05,  7.3463e-06,  ...,  2.7671e-05,
+          6.6698e-05,  9.4622e-06],
+        [-1.5765e-05, -2.0340e-05, -3.6031e-05,  ..., -2.9206e-05,
+          2.3097e-05,  1.4305e-05],
+        [ 3.7760e-05,  1.6451e-05,  1.7852e-05,  ...,  2.9176e-05,
+          2.3276e-05,  6.9663e-06],
+        ...,
+        [ 3.3855e-05,  2.9683e-05, -2.0186e-07,  ...,  2.0310e-05,
+          1.8492e-05,  1.5628e-06],
+        [-1.1790e-04,  5.6505e-05, -2.1899e-04,  ...,  3.9428e-05,
+          1.5032e-04,  1.8513e-04],
+        [ 4.5657e-05, -1.6308e-04,  3.7640e-05,  ...,  3.2306e-05,
+          6.2466e-05, -1.2052e-04]], device='cuda:0')
+Epoch 49, bias, value: tensor([ 0.0054, -0.0192, -0.0159,  0.0306, -0.0320,  0.0251, -0.0299, -0.0146,
+         0.0281, -0.0210], device='cuda:0'), grad: tensor([ 9.1136e-05,  1.5259e-05,  9.7215e-05,  5.7966e-05,  8.4162e-05,
+        -2.8777e-04, -1.3089e-04,  6.2287e-05,  1.1367e-04, -1.0341e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 48----------------------------------------------------
+epoch 48, time 231.47, cls_loss 0.0120 cls_loss_mapping 0.0224 cls_loss_causal 0.6668 re_mapping 0.0151 re_causal 0.0438 /// teacc 98.96 lr 0.00010000
+Epoch 50, weight, value: tensor([[-0.0156, -0.0417, -0.0361,  ..., -0.0861, -0.0016,  0.0485],
+        [ 0.0281,  0.0429,  0.0121,  ...,  0.0546, -0.0590, -0.0420],
+        [ 0.0312,  0.0324, -0.0411,  ...,  0.0087, -0.0719, -0.0018],
+        ...,
+        [-0.0196, -0.0158,  0.0411,  ..., -0.0416, -0.0021,  0.0171],
+        [-0.0013,  0.0572,  0.0733,  ..., -0.0442, -0.0434, -0.0589],
+        [-0.0540,  0.0026, -0.0876,  ..., -0.0305, -0.0305,  0.0256]],
+       device='cuda:0'), grad: tensor([[ 4.2804e-06,  7.8529e-06,  3.0659e-06,  ...,  4.8690e-06,
+          6.4299e-06, -4.1723e-05],
+        [-5.1171e-05, -7.0274e-05, -1.1063e-04,  ..., -1.0401e-04,
+         -6.9067e-06,  3.0790e-06],
+        [ 1.2450e-05,  8.3447e-06,  6.0499e-06,  ...,  1.4409e-05,
+          1.2651e-05,  4.8615e-06],
+        ...,
+        [ 1.9476e-05,  2.9534e-05,  2.1651e-05,  ...,  3.9160e-05,
+          4.1157e-05,  1.4395e-05],
+        [ 2.1458e-05,  3.7402e-05,  2.1175e-05,  ...,  2.3931e-05,
+          6.5267e-05,  3.9965e-05],
+        [ 3.9607e-05, -2.6894e-04,  1.3337e-05,  ...,  1.7956e-05,
+         -1.9479e-04, -3.1114e-04]], device='cuda:0')
+Epoch 50, bias, value: tensor([ 0.0046, -0.0199, -0.0159,  0.0302, -0.0322,  0.0257, -0.0295, -0.0142,
+         0.0286, -0.0211], device='cuda:0'), grad: tensor([-1.3560e-05, -1.4305e-04,  4.1217e-05, -3.4034e-05,  7.5769e-04,
+        -1.8072e-04,  2.8580e-05,  1.0383e-04,  1.5950e-04, -7.1955e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 49, time 214.73, cls_loss 0.0110 cls_loss_mapping 0.0231 cls_loss_causal 0.6769 re_mapping 0.0144 re_causal 0.0438 /// teacc 98.85 lr 0.00010000
+Epoch 51, weight, value: tensor([[-0.0161, -0.0422, -0.0361,  ..., -0.0863, -0.0013,  0.0494],
+        [ 0.0285,  0.0435,  0.0130,  ...,  0.0557, -0.0594, -0.0423],
+        [ 0.0316,  0.0328, -0.0414,  ...,  0.0087, -0.0724, -0.0021],
+        ...,
+        [-0.0202, -0.0169,  0.0406,  ..., -0.0435, -0.0024,  0.0171],
+        [-0.0012,  0.0575,  0.0737,  ..., -0.0448, -0.0439, -0.0593],
+        [-0.0549,  0.0026, -0.0888,  ..., -0.0311, -0.0310,  0.0258]],
+       device='cuda:0'), grad: tensor([[ 4.1217e-05,  8.1718e-05,  1.5900e-05,  ...,  1.5080e-04,
+          1.6713e-04, -3.3736e-04],
+        [ 1.2028e-04,  7.5102e-05,  1.0151e-04,  ...,  1.5192e-05,
+          2.4438e-05,  1.3582e-05],
+        [-3.1614e-04, -2.3913e-04, -7.9930e-05,  ...,  3.4422e-05,
+          3.1322e-05,  7.0930e-05],
+        ...,
+        [ 1.7023e-04,  1.0014e-04,  3.4496e-06,  ...,  1.7375e-05,
+          5.3376e-05,  6.7055e-05],
+        [-5.1051e-05, -5.5879e-05, -2.5296e-04,  ..., -8.8453e-05,
+          1.0139e-04,  1.1641e-04],
+        [ 5.1737e-05,  9.3281e-06,  2.8327e-05,  ...,  1.2405e-05,
+          2.5010e-04,  1.9014e-04]], device='cuda:0')
+Epoch 51, bias, value: tensor([ 0.0052, -0.0193, -0.0158,  0.0308, -0.0321,  0.0255, -0.0297, -0.0149,
+         0.0286, -0.0214], device='cuda:0'), grad: tensor([ 4.8205e-06,  2.3007e-04, -8.8120e-04, -5.4598e-05,  2.8658e-04,
+        -8.1539e-04, -9.4235e-05,  4.3917e-04,  4.4107e-04,  4.4489e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 50, time 215.03, cls_loss 0.0099 cls_loss_mapping 0.0207 cls_loss_causal 0.6505 re_mapping 0.0143 re_causal 0.0424 /// teacc 98.86 lr 0.00010000
+Epoch 52, weight, value: tensor([[-0.0165, -0.0428, -0.0363,  ..., -0.0870, -0.0013,  0.0503],
+        [ 0.0286,  0.0435,  0.0129,  ...,  0.0559, -0.0599, -0.0426],
+        [ 0.0317,  0.0326, -0.0420,  ...,  0.0088, -0.0730, -0.0022],
+        ...,
+        [-0.0197, -0.0169,  0.0419,  ..., -0.0431, -0.0021,  0.0169],
+        [-0.0009,  0.0580,  0.0742,  ..., -0.0450, -0.0446, -0.0604],
+        [-0.0561,  0.0026, -0.0899,  ..., -0.0317, -0.0313,  0.0265]],
+       device='cuda:0'), grad: tensor([[ 2.0301e-04,  1.4746e-04,  2.9832e-05,  ...,  2.1875e-05,
+          8.2374e-05,  6.5744e-05],
+        [-1.5162e-06, -1.2286e-05, -5.8293e-05,  ..., -7.1406e-05,
+          4.0263e-05,  2.0757e-05],
+        [-2.5082e-03, -9.1076e-04, -1.5986e-04,  ...,  9.8825e-05,
+          6.5744e-05,  1.9506e-05],
+        ...,
+        [ 8.5211e-04,  1.1975e-04, -1.3375e-04,  ...,  1.7273e-04,
+          8.2433e-05, -4.7255e-04],
+        [ 4.7255e-04,  2.1529e-04, -9.3579e-05,  ...,  3.3230e-05,
+          6.5625e-05,  4.9710e-05],
+        [ 1.1152e-04,  8.9467e-05,  2.6011e-04,  ...,  5.9158e-05,
+          7.4685e-05,  3.4070e-04]], device='cuda:0')
+Epoch 52, bias, value: tensor([ 0.0055, -0.0195, -0.0159,  0.0308, -0.0328,  0.0251, -0.0296, -0.0140,
+         0.0284, -0.0213], device='cuda:0'), grad: tensor([ 4.6229e-04,  5.5104e-05, -3.4904e-03,  1.3523e-03, -3.1495e-04,
+        -9.9301e-05,  1.6456e-06,  5.6458e-04,  8.2397e-04,  6.4611e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 51, time 215.07, cls_loss 0.0090 cls_loss_mapping 0.0197 cls_loss_causal 0.6784 re_mapping 0.0137 re_causal 0.0434 /// teacc 98.95 lr 0.00010000
+Epoch 53, weight, value: tensor([[-0.0170, -0.0432, -0.0368,  ..., -0.0875, -0.0009,  0.0508],
+        [ 0.0289,  0.0437,  0.0133,  ...,  0.0563, -0.0602, -0.0425],
+        [ 0.0319,  0.0327, -0.0426,  ...,  0.0090, -0.0734, -0.0026],
+        ...,
+        [-0.0201, -0.0171,  0.0422,  ..., -0.0440, -0.0025,  0.0169],
+        [-0.0008,  0.0582,  0.0747,  ..., -0.0456, -0.0451, -0.0612],
+        [-0.0568,  0.0030, -0.0911,  ..., -0.0319, -0.0312,  0.0272]],
+       device='cuda:0'), grad: tensor([[ 1.5989e-05,  1.5962e-04,  8.0585e-05,  ...,  9.1642e-06,
+          5.6811e-06,  1.6665e-04],
+        [-2.5058e-04, -1.3435e-04, -1.9765e-04,  ..., -2.0564e-04,
+          8.6576e-06,  2.6822e-05],
+        [-5.9158e-06,  1.5652e-04,  1.5283e-04,  ...,  4.0174e-04,
+          1.9121e-04, -4.0472e-05],
+        ...,
+        [ 1.3721e-04,  1.3757e-04, -2.0772e-05,  ...,  4.4286e-05,
+         -2.9159e-04, -4.6253e-04],
+        [ 3.5971e-05, -1.0977e-03, -7.4053e-04,  ...,  2.3022e-05,
+          1.3791e-05, -1.1263e-03],
+        [ 9.5904e-05,  5.0688e-04,  4.8923e-04,  ..., -3.6098e-06,
+          5.5999e-05,  6.2227e-04]], device='cuda:0')
+Epoch 53, bias, value: tensor([ 0.0056, -0.0193, -0.0158,  0.0310, -0.0328,  0.0251, -0.0302, -0.0140,
+         0.0281, -0.0211], device='cuda:0'), grad: tensor([ 4.1008e-04, -2.6584e-04,  2.3115e-04, -2.0218e-04,  9.5272e-04,
+         5.2023e-04,  3.5375e-05, -7.9489e-04, -2.4509e-03,  1.5640e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 52, time 215.01, cls_loss 0.0088 cls_loss_mapping 0.0171 cls_loss_causal 0.6465 re_mapping 0.0139 re_causal 0.0410 /// teacc 98.94 lr 0.00010000
+Epoch 54, weight, value: tensor([[-0.0175, -0.0439, -0.0372,  ..., -0.0879, -0.0012,  0.0510],
+        [ 0.0301,  0.0448,  0.0141,  ...,  0.0572, -0.0606, -0.0428],
+        [ 0.0313,  0.0316, -0.0437,  ...,  0.0080, -0.0740, -0.0028],
+        ...,
+        [-0.0202, -0.0177,  0.0427,  ..., -0.0448, -0.0026,  0.0170],
+        [-0.0006,  0.0586,  0.0752,  ..., -0.0463, -0.0453, -0.0614],
+        [-0.0575,  0.0029, -0.0921,  ..., -0.0327, -0.0315,  0.0277]],
+       device='cuda:0'), grad: tensor([[ 1.0421e-06,  4.6156e-06,  4.9099e-06,  ...,  2.2538e-06,
+         -1.6326e-06, -8.9779e-06],
+        [-5.5842e-06,  1.9550e-05, -4.2212e-07,  ..., -1.4380e-05,
+          6.9365e-06,  3.9428e-05],
+        [-2.6124e-07,  4.5709e-06,  1.3866e-05,  ...,  4.6939e-06,
+          3.5204e-06,  9.9987e-06],
+        ...,
+        [ 1.1772e-06,  2.4378e-05, -1.0920e-04,  ...,  1.0200e-05,
+          3.8892e-06, -9.9003e-05],
+        [-2.3794e-04, -3.9315e-04, -5.7554e-04,  ..., -3.3188e-04,
+         -2.0492e-04,  7.3969e-05],
+        [ 4.9211e-06, -9.4414e-05,  5.5432e-05,  ...,  1.0625e-05,
+          8.4341e-06, -9.0301e-05]], device='cuda:0')
+Epoch 54, bias, value: tensor([ 0.0053, -0.0182, -0.0169,  0.0310, -0.0328,  0.0249, -0.0297, -0.0139,
+         0.0281, -0.0213], device='cuda:0'), grad: tensor([ 5.9558e-07,  3.0756e-05,  2.2307e-05,  3.0965e-05,  5.0604e-05,
+         6.8843e-05,  3.5977e-04, -1.4400e-04, -3.5071e-04, -6.8486e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 53, time 215.09, cls_loss 0.0095 cls_loss_mapping 0.0203 cls_loss_causal 0.6717 re_mapping 0.0141 re_causal 0.0407 /// teacc 98.88 lr 0.00010000
+Epoch 55, weight, value: tensor([[-0.0177, -0.0441, -0.0373,  ..., -0.0880, -0.0017,  0.0512],
+        [ 0.0298,  0.0445,  0.0141,  ...,  0.0568, -0.0611, -0.0430],
+        [ 0.0318,  0.0323, -0.0439,  ...,  0.0090, -0.0744, -0.0029],
+        ...,
+        [-0.0202, -0.0181,  0.0432,  ..., -0.0453, -0.0028,  0.0166],
+        [-0.0005,  0.0588,  0.0755,  ..., -0.0468, -0.0459, -0.0625],
+        [-0.0581,  0.0032, -0.0925,  ..., -0.0332, -0.0318,  0.0285]],
+       device='cuda:0'), grad: tensor([[ 5.5730e-06,  1.3947e-05,  4.8839e-06,  ...,  7.9349e-06,
+          3.7979e-06, -1.9133e-05],
+        [-1.3128e-05,  2.6263e-06, -1.9297e-05,  ..., -8.2105e-06,
+          2.0117e-05,  5.7071e-06],
+        [ 2.0146e-05,  3.3915e-05,  5.8591e-05,  ...,  2.2978e-05,
+          1.6093e-05,  6.1333e-05],
+        ...,
+        [-7.2792e-06,  3.1650e-05, -9.9361e-05,  ...,  3.4273e-05,
+          2.3782e-05, -1.2147e-04],
+        [-9.1851e-05, -1.3900e-04, -5.8532e-05,  ...,  1.2055e-05,
+          2.7865e-05,  8.0094e-06],
+        [ 5.0783e-05,  7.3671e-05,  5.5194e-05,  ...,  1.8924e-05,
+          2.3231e-05,  4.3094e-05]], device='cuda:0')
+Epoch 55, bias, value: tensor([ 0.0053, -0.0189, -0.0162,  0.0310, -0.0327,  0.0250, -0.0297, -0.0139,
+         0.0276, -0.0211], device='cuda:0'), grad: tensor([ 2.6766e-06,  4.1425e-06,  1.7011e-04, -1.7852e-05, -9.8825e-05,
+        -3.1114e-05,  8.5533e-05, -1.9777e-04, -9.8884e-05,  1.8144e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 54, time 215.40, cls_loss 0.0094 cls_loss_mapping 0.0190 cls_loss_causal 0.6525 re_mapping 0.0140 re_causal 0.0430 /// teacc 98.83 lr 0.00010000
+Epoch 56, weight, value: tensor([[-0.0180, -0.0446, -0.0375,  ..., -0.0881, -0.0017,  0.0514],
+        [ 0.0299,  0.0442,  0.0146,  ...,  0.0565, -0.0619, -0.0441],
+        [ 0.0317,  0.0320, -0.0448,  ...,  0.0087, -0.0748, -0.0033],
+        ...,
+        [-0.0202, -0.0186,  0.0436,  ..., -0.0458, -0.0032,  0.0163],
+        [-0.0006,  0.0589,  0.0758,  ..., -0.0471, -0.0464, -0.0633],
+        [-0.0584,  0.0033, -0.0931,  ..., -0.0331, -0.0321,  0.0290]],
+       device='cuda:0'), grad: tensor([[ 1.7658e-05,  4.4294e-06,  2.4825e-05,  ...,  6.5565e-06,
+         -4.6223e-05, -1.5330e-04],
+        [ 1.3113e-03, -1.1258e-05,  3.9558e-03,  ..., -1.7032e-05,
+          1.2398e-05,  8.3828e-04],
+        [-9.7811e-05,  8.1733e-06, -2.4345e-06,  ...,  1.0654e-05,
+          1.1079e-05, -2.8402e-05],
+        ...,
+        [-1.4963e-03,  2.5705e-05, -4.8370e-03,  ...,  3.4958e-05,
+          3.2544e-05, -1.0433e-03],
+        [ 7.0035e-05,  1.6332e-05,  1.6093e-04,  ...,  1.1444e-05,
+          3.6985e-05,  1.0997e-04],
+        [ 4.6283e-05,  1.9148e-05,  2.8896e-04,  ...,  1.0115e-04,
+          1.4746e-04,  2.7597e-05]], device='cuda:0')
+Epoch 56, bias, value: tensor([ 0.0052, -0.0192, -0.0169,  0.0311, -0.0318,  0.0258, -0.0296, -0.0138,
+         0.0272, -0.0212], device='cuda:0'), grad: tensor([-1.1939e-04,  4.7112e-03, -1.2684e-04,  5.5647e-04, -2.2113e-04,
+         2.7800e-07,  3.0413e-05, -5.8022e-03,  3.3665e-04,  6.3467e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 55, time 215.01, cls_loss 0.0095 cls_loss_mapping 0.0207 cls_loss_causal 0.6416 re_mapping 0.0134 re_causal 0.0387 /// teacc 98.95 lr 0.00010000
+Epoch 57, weight, value: tensor([[-1.8379e-02, -4.5490e-02, -3.7972e-02,  ..., -8.8597e-02,
+         -1.7580e-03,  5.1718e-02],
+        [ 3.0103e-02,  4.4690e-02,  1.4979e-02,  ...,  5.7536e-02,
+         -6.2475e-02, -4.4123e-02],
+        [ 3.1884e-02,  3.2076e-02, -4.5331e-02,  ...,  8.2651e-03,
+         -7.5247e-02, -3.5751e-03],
+        ...,
+        [-2.0220e-02, -1.9835e-02,  4.3834e-02,  ..., -4.6941e-02,
+         -3.3882e-03,  1.6225e-02],
+        [-8.5864e-05,  5.9917e-02,  7.7632e-02,  ..., -4.7578e-02,
+         -4.6818e-02, -6.3885e-02],
+        [-5.9354e-02,  3.4117e-03, -9.5307e-02,  ..., -3.4152e-02,
+         -3.2611e-02,  2.9759e-02]], device='cuda:0'), grad: tensor([[ 2.0713e-05,  2.6330e-05,  1.9252e-05,  ...,  1.9595e-05,
+          2.1666e-05, -4.4107e-05],
+        [-4.0817e-04, -2.5463e-04, -4.1270e-04,  ..., -4.0603e-04,
+          1.7226e-05,  7.7546e-05],
+        [ 1.4529e-05,  2.2009e-05,  1.0943e-04,  ...,  2.0337e-04,
+          5.7787e-05,  3.5256e-05],
+        ...,
+        [ 1.9741e-04,  2.0361e-04,  1.6689e-04,  ...,  1.7309e-04,
+          3.1382e-05,  3.5596e-04],
+        [ 9.3699e-05,  5.5981e-04,  1.8227e-04,  ...,  4.6939e-05,
+          1.1009e-04,  5.9414e-04],
+        [ 2.3365e-05, -6.5231e-04, -1.5998e-04,  ...,  2.4974e-05,
+          4.6760e-05, -1.1072e-03]], device='cuda:0')
+Epoch 57, bias, value: tensor([ 0.0051, -0.0190, -0.0172,  0.0310, -0.0320,  0.0253, -0.0295, -0.0138,
+         0.0280, -0.0214], device='cuda:0'), grad: tensor([ 3.1918e-05, -4.5896e-04,  7.9453e-05,  1.1885e-04,  1.7273e-04,
+        -6.0606e-04,  3.1090e-04,  9.8324e-04,  1.1129e-03, -1.7471e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 56----------------------------------------------------
+epoch 56, time 231.81, cls_loss 0.0073 cls_loss_mapping 0.0154 cls_loss_causal 0.6423 re_mapping 0.0132 re_causal 0.0395 /// teacc 98.99 lr 0.00010000
+Epoch 58, weight, value: tensor([[-0.0186, -0.0459, -0.0382,  ..., -0.0889, -0.0017,  0.0521],
+        [ 0.0303,  0.0448,  0.0153,  ...,  0.0580, -0.0629, -0.0446],
+        [ 0.0323,  0.0321, -0.0453,  ...,  0.0079, -0.0757, -0.0037],
+        ...,
+        [-0.0208, -0.0205,  0.0439,  ..., -0.0474, -0.0036,  0.0161],
+        [ 0.0001,  0.0601,  0.0780,  ..., -0.0478, -0.0477, -0.0649],
+        [-0.0596,  0.0040, -0.0959,  ..., -0.0346, -0.0329,  0.0304]],
+       device='cuda:0'), grad: tensor([[-7.1168e-05, -1.5473e-04, -3.7372e-05,  ...,  6.7167e-06,
+          1.6227e-05, -3.7050e-04],
+        [ 1.1422e-05, -1.6347e-05, -2.4512e-05,  ..., -3.3140e-05,
+          9.9614e-06,  3.2902e-05],
+        [ 1.0616e-04,  1.1081e-04,  5.3376e-05,  ...,  1.3053e-05,
+          1.6734e-05,  1.2207e-04],
+        ...,
+        [ 4.2588e-05,  1.1481e-05, -6.4731e-05,  ...,  9.5740e-06,
+          6.8545e-06,  3.3706e-05],
+        [-5.3227e-05, -1.4916e-05, -4.6164e-05,  ...,  1.6555e-05,
+          5.3525e-05,  1.2207e-04],
+        [ 4.7833e-05, -2.4438e-04,  6.1750e-05,  ...,  7.7784e-06,
+         -4.3839e-05, -2.5606e-04]], device='cuda:0')
+Epoch 58, bias, value: tensor([ 0.0054, -0.0191, -0.0168,  0.0310, -0.0320,  0.0256, -0.0297, -0.0143,
+         0.0277, -0.0211], device='cuda:0'), grad: tensor([-5.0020e-04,  1.2147e-04,  4.1151e-04, -8.3399e-04,  3.9387e-04,
+         3.7050e-04, -1.7002e-05,  1.5700e-04,  2.8896e-04, -3.9196e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 57, time 215.21, cls_loss 0.0107 cls_loss_mapping 0.0213 cls_loss_causal 0.6895 re_mapping 0.0129 re_causal 0.0401 /// teacc 98.89 lr 0.00010000
+Epoch 59, weight, value: tensor([[-1.9487e-02, -4.7681e-02, -3.8944e-02,  ..., -9.0730e-02,
+         -2.3453e-03,  5.2544e-02],
+        [ 3.0224e-02,  4.5037e-02,  1.5254e-02,  ...,  5.8157e-02,
+         -6.3600e-02, -4.4661e-02],
+        [ 3.3061e-02,  3.2428e-02, -4.5605e-02,  ...,  8.2104e-03,
+         -7.6339e-02, -4.1266e-03],
+        ...,
+        [-2.0608e-02, -1.9524e-02,  4.5335e-02,  ..., -4.7856e-02,
+         -3.8880e-03,  1.6375e-02],
+        [ 9.5812e-05,  5.9923e-02,  7.8367e-02,  ..., -4.8292e-02,
+         -4.8293e-02, -6.5755e-02],
+        [-6.0527e-02,  3.9531e-03, -9.7806e-02,  ..., -3.5054e-02,
+         -3.3623e-02,  3.0858e-02]], device='cuda:0'), grad: tensor([[ 9.3207e-06,  1.8016e-05,  1.0006e-05,  ...,  1.0647e-05,
+          3.6180e-05, -2.4006e-05],
+        [ 5.3704e-05,  1.0931e-04,  1.9777e-04,  ...,  1.9044e-05,
+          3.5882e-05,  2.7612e-05],
+        [ 5.2482e-05,  3.1471e-05,  5.8144e-05,  ...,  3.9369e-05,
+          5.8770e-05,  3.6985e-05],
+        ...,
+        [-1.7866e-05, -6.4254e-05, -2.8872e-04,  ...,  8.0615e-06,
+          4.1932e-05, -2.5600e-05],
+        [-1.0204e-04, -6.8188e-05, -1.9038e-04,  ...,  1.1349e-04,
+          4.8184e-04,  3.0756e-04],
+        [ 7.0035e-05,  8.4460e-05,  9.3341e-05,  ...,  8.5294e-05,
+          2.7919e-04,  1.9169e-04]], device='cuda:0')
+Epoch 59, bias, value: tensor([ 0.0050, -0.0191, -0.0159,  0.0308, -0.0321,  0.0255, -0.0295, -0.0139,
+         0.0273, -0.0214], device='cuda:0'), grad: tensor([ 4.1634e-05,  3.3689e-04,  1.9610e-04,  3.8910e-04,  3.5572e-04,
+        -3.0289e-03,  9.4652e-04, -3.0661e-04,  4.6134e-04,  6.0463e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 58, time 214.59, cls_loss 0.0089 cls_loss_mapping 0.0195 cls_loss_causal 0.6592 re_mapping 0.0126 re_causal 0.0395 /// teacc 98.89 lr 0.00010000
+Epoch 60, weight, value: tensor([[-0.0204, -0.0484, -0.0397,  ..., -0.0920, -0.0028,  0.0531],
+        [ 0.0310,  0.0456,  0.0166,  ...,  0.0584, -0.0643, -0.0449],
+        [ 0.0331,  0.0324, -0.0463,  ...,  0.0080, -0.0772, -0.0047],
+        ...,
+        [-0.0213, -0.0204,  0.0451,  ..., -0.0482, -0.0043,  0.0162],
+        [ 0.0001,  0.0602,  0.0789,  ..., -0.0491, -0.0494, -0.0667],
+        [-0.0617,  0.0041, -0.0994,  ..., -0.0353, -0.0345,  0.0313]],
+       device='cuda:0'), grad: tensor([[ 1.8273e-06,  1.3247e-05,  5.6811e-06,  ...,  1.1273e-05,
+          2.4781e-05,  4.0121e-06],
+        [-5.6736e-06, -2.1178e-06,  3.0976e-06,  ..., -5.8040e-06,
+          7.5847e-06,  9.2015e-06],
+        [-4.3027e-06,  2.6867e-05,  8.9630e-06,  ...,  4.4517e-07,
+          9.6336e-06,  3.8743e-05],
+        ...,
+        [ 3.8017e-06,  5.6960e-06, -6.7234e-05,  ...,  6.1430e-06,
+          6.9365e-06, -7.0930e-05],
+        [ 1.1340e-05,  1.4400e-04,  4.0621e-05,  ...,  9.7096e-05,
+          3.8123e-04,  2.9778e-04],
+        [-5.3160e-06, -2.0385e-04,  2.3022e-05,  ..., -2.6941e-05,
+         -4.7415e-05, -1.9753e-04]], device='cuda:0')
+Epoch 60, bias, value: tensor([ 0.0048, -0.0183, -0.0161,  0.0310, -0.0323,  0.0267, -0.0300, -0.0145,
+         0.0268, -0.0216], device='cuda:0'), grad: tensor([ 2.6330e-05,  1.1817e-05,  4.7922e-05, -2.7463e-05,  2.4509e-04,
+        -9.6416e-04,  5.7793e-04, -7.4148e-05,  4.4417e-04, -2.8682e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 59, time 215.11, cls_loss 0.0069 cls_loss_mapping 0.0150 cls_loss_causal 0.6185 re_mapping 0.0123 re_causal 0.0392 /// teacc 98.91 lr 0.00010000
+Epoch 61, weight, value: tensor([[-0.0206, -0.0488, -0.0400,  ..., -0.0922, -0.0027,  0.0537],
+        [ 0.0309,  0.0453,  0.0167,  ...,  0.0581, -0.0648, -0.0455],
+        [ 0.0333,  0.0322, -0.0469,  ...,  0.0081, -0.0778, -0.0048],
+        ...,
+        [-0.0214, -0.0203,  0.0451,  ..., -0.0488, -0.0044,  0.0157],
+        [ 0.0003,  0.0604,  0.0791,  ..., -0.0497, -0.0500, -0.0678],
+        [-0.0621,  0.0044, -0.0999,  ..., -0.0355, -0.0348,  0.0320]],
+       device='cuda:0'), grad: tensor([[ 3.0603e-06,  9.4697e-06,  3.2578e-06,  ...,  4.9695e-06,
+          5.4613e-06, -8.0019e-06],
+        [-3.0577e-05, -4.8161e-05, -6.9439e-05,  ..., -5.2691e-05,
+          3.6117e-06,  3.0585e-06],
+        [ 3.6322e-06, -2.5090e-06,  1.2964e-05,  ...,  5.3421e-06,
+          3.9227e-06,  3.7048e-06],
+        ...,
+        [ 4.9919e-06,  1.9148e-05, -3.4779e-05,  ...,  5.4054e-06,
+          2.2929e-06,  3.7253e-06],
+        [-6.4969e-06,  2.8443e-04,  5.3823e-05,  ...,  1.9953e-05,
+          3.9697e-05,  1.6904e-04],
+        [ 1.7926e-05, -3.4118e-04, -4.7356e-05,  ...,  4.1053e-06,
+          4.8131e-06, -1.6785e-04]], device='cuda:0')
+Epoch 61, bias, value: tensor([ 0.0050, -0.0188, -0.0161,  0.0318, -0.0324,  0.0268, -0.0297, -0.0150,
+         0.0265, -0.0215], device='cuda:0'), grad: tensor([ 2.4661e-06, -5.8591e-05,  2.1383e-05, -1.0066e-05,  5.8234e-05,
+        -1.4782e-04,  1.4961e-04, -3.8743e-06,  5.6791e-04, -5.7840e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 60, time 214.90, cls_loss 0.0097 cls_loss_mapping 0.0215 cls_loss_causal 0.6051 re_mapping 0.0127 re_causal 0.0363 /// teacc 98.72 lr 0.00010000
+Epoch 62, weight, value: tensor([[-0.0214, -0.0497, -0.0405,  ..., -0.0941, -0.0035,  0.0532],
+        [ 0.0316,  0.0457,  0.0176,  ...,  0.0589, -0.0650, -0.0460],
+        [ 0.0334,  0.0321, -0.0482,  ...,  0.0078, -0.0783, -0.0058],
+        ...,
+        [-0.0218, -0.0202,  0.0455,  ..., -0.0490, -0.0048,  0.0160],
+        [ 0.0011,  0.0611,  0.0801,  ..., -0.0508, -0.0503, -0.0681],
+        [-0.0631,  0.0041, -0.1014,  ..., -0.0358, -0.0352,  0.0329]],
+       device='cuda:0'), grad: tensor([[ 5.7705e-06,  8.0764e-06,  4.8801e-06,  ...,  2.5332e-06,
+         -3.3388e-07, -2.2560e-05],
+        [-4.9882e-06, -9.2899e-07, -2.2382e-05,  ..., -3.6627e-05,
+          5.6848e-06,  5.4762e-07],
+        [ 6.3300e-05,  5.9158e-05,  1.0937e-04,  ...,  1.0081e-05,
+          1.8790e-05,  1.9446e-06],
+        ...,
+        [ 9.3505e-06,  2.0063e-04,  3.4451e-05,  ...,  1.7083e-04,
+          1.3340e-04,  1.2498e-06],
+        [-9.9659e-05, -6.4194e-05, -1.0860e-04,  ...,  2.6166e-05,
+          6.7055e-05,  2.9728e-06],
+        [ 1.3359e-05,  6.5744e-05,  3.8236e-05,  ...,  5.0753e-05,
+          4.4912e-05,  1.2152e-05]], device='cuda:0')
+Epoch 62, bias, value: tensor([ 0.0040, -0.0187, -0.0164,  0.0314, -0.0325,  0.0273, -0.0299, -0.0145,
+         0.0272, -0.0217], device='cuda:0'), grad: tensor([-3.2131e-06, -1.0498e-05,  1.4985e-04,  1.8537e-04, -5.3406e-04,
+        -4.2224e-04,  2.1672e-04,  3.2091e-04, -4.4823e-05,  1.4150e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 61, time 214.95, cls_loss 0.0127 cls_loss_mapping 0.0220 cls_loss_causal 0.6529 re_mapping 0.0139 re_causal 0.0366 /// teacc 98.75 lr 0.00010000
+Epoch 63, weight, value: tensor([[-0.0224, -0.0508, -0.0415,  ..., -0.0945, -0.0040,  0.0526],
+        [ 0.0310,  0.0454,  0.0175,  ...,  0.0590, -0.0653, -0.0467],
+        [ 0.0338,  0.0322, -0.0488,  ...,  0.0077, -0.0793, -0.0065],
+        ...,
+        [-0.0221, -0.0203,  0.0465,  ..., -0.0496, -0.0050,  0.0167],
+        [ 0.0020,  0.0620,  0.0810,  ..., -0.0512, -0.0513, -0.0692],
+        [-0.0645,  0.0040, -0.1032,  ..., -0.0364, -0.0352,  0.0341]],
+       device='cuda:0'), grad: tensor([[-3.4213e-05, -8.6248e-05, -2.4751e-05,  ...,  4.7088e-06,
+          1.1148e-06, -2.0540e-04],
+        [-3.0845e-05, -1.8761e-05, -2.7359e-05,  ..., -4.8369e-05,
+          7.3612e-06,  2.7090e-05],
+        [ 6.8486e-05,  6.7890e-05,  8.1420e-05,  ...,  9.7379e-06,
+          1.3329e-05,  1.2124e-04],
+        ...,
+        [-2.5177e-04,  1.5378e-05, -5.7602e-04,  ...,  1.3843e-05,
+          5.2676e-06, -9.8407e-05],
+        [ 1.6257e-05,  2.4587e-06, -3.5781e-06,  ...,  1.1258e-05,
+          1.3947e-04,  1.7035e-04],
+        [ 4.3988e-05,  1.9342e-05,  6.7651e-05,  ...,  5.4948e-06,
+          1.8626e-05,  5.1320e-05]], device='cuda:0')
+Epoch 63, bias, value: tensor([ 0.0029, -0.0194, -0.0167,  0.0328, -0.0325,  0.0276, -0.0303, -0.0142,
+         0.0273, -0.0219], device='cuda:0'), grad: tensor([-2.4509e-04,  1.0081e-05,  2.8372e-04,  7.6914e-04,  6.6340e-05,
+        -9.1493e-05, -2.0242e-04, -1.1425e-03,  3.5810e-04,  1.9324e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 62, time 214.98, cls_loss 0.0088 cls_loss_mapping 0.0179 cls_loss_causal 0.6209 re_mapping 0.0132 re_causal 0.0372 /// teacc 98.97 lr 0.00010000
+Epoch 64, weight, value: tensor([[-0.0227, -0.0526, -0.0405,  ..., -0.0941, -0.0042,  0.0519],
+        [ 0.0315,  0.0455,  0.0179,  ...,  0.0594, -0.0664, -0.0470],
+        [ 0.0337,  0.0318, -0.0498,  ...,  0.0069, -0.0799, -0.0067],
+        ...,
+        [-0.0222, -0.0207,  0.0472,  ..., -0.0507, -0.0056,  0.0179],
+        [ 0.0022,  0.0624,  0.0815,  ..., -0.0515, -0.0516, -0.0699],
+        [-0.0646,  0.0043, -0.1049,  ..., -0.0370, -0.0356,  0.0350]],
+       device='cuda:0'), grad: tensor([[ 1.4067e-05,  4.8205e-06,  7.6964e-06,  ...,  3.8370e-06,
+         -2.7850e-05, -1.8609e-04],
+        [-1.5378e-04, -8.3923e-05, -2.3675e-04,  ..., -2.0361e-04,
+          3.1851e-06,  8.6576e-06],
+        [ 4.9531e-05,  6.4038e-06, -1.4037e-05,  ...,  3.3677e-05,
+          4.6417e-06,  4.7117e-05],
+        ...,
+        [ 3.5191e-04,  1.2177e-04,  1.0920e-04,  ...,  9.7513e-05,
+          1.6317e-05,  9.0003e-05],
+        [ 1.8084e-04,  6.6519e-05,  6.5088e-05,  ...,  4.0859e-05,
+          9.2238e-06,  4.1008e-05],
+        [-1.6928e-05, -3.5453e-04,  1.2204e-05,  ..., -5.3674e-05,
+         -8.1062e-05, -3.3498e-04]], device='cuda:0')
+Epoch 64, bias, value: tensor([ 0.0025, -0.0193, -0.0170,  0.0323, -0.0326,  0.0274, -0.0298, -0.0135,
+         0.0274, -0.0219], device='cuda:0'), grad: tensor([-1.9133e-04, -2.4891e-04,  2.1958e-04, -5.4502e-04,  5.2309e-04,
+         1.2100e-04,  5.5641e-05,  6.5613e-04,  3.1805e-04, -9.0933e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 63, time 215.14, cls_loss 0.0062 cls_loss_mapping 0.0130 cls_loss_causal 0.6330 re_mapping 0.0121 re_causal 0.0380 /// teacc 98.95 lr 0.00010000
+Epoch 65, weight, value: tensor([[-0.0226, -0.0527, -0.0407,  ..., -0.0930, -0.0033,  0.0529],
+        [ 0.0321,  0.0459,  0.0186,  ...,  0.0603, -0.0668, -0.0474],
+        [ 0.0338,  0.0318, -0.0501,  ...,  0.0065, -0.0804, -0.0074],
+        ...,
+        [-0.0226, -0.0212,  0.0474,  ..., -0.0512, -0.0058,  0.0177],
+        [ 0.0023,  0.0627,  0.0817,  ..., -0.0519, -0.0517, -0.0705],
+        [-0.0649,  0.0047, -0.1052,  ..., -0.0375, -0.0361,  0.0355]],
+       device='cuda:0'), grad: tensor([[ 9.8124e-06,  1.4611e-05,  7.7710e-06,  ...,  1.7777e-05,
+          1.8388e-05, -3.2689e-07],
+        [-2.1562e-05,  5.3458e-07, -2.1517e-05,  ...,  3.9972e-06,
+          3.5018e-05,  1.2554e-05],
+        [ 1.3016e-05,  4.3571e-05,  5.8681e-05,  ...,  2.6360e-05,
+          1.5333e-05,  9.2462e-06],
+        ...,
+        [-8.6725e-05,  5.3495e-05, -1.9503e-04,  ...,  6.9439e-05,
+          4.9263e-05, -6.7316e-06],
+        [-7.2420e-05, -9.4235e-05, -9.2745e-05,  ...,  4.2439e-05,
+          2.2158e-05,  5.9791e-06],
+        [ 6.1214e-05,  6.3848e-04,  6.9618e-05,  ...,  1.0576e-03,
+          7.8630e-04,  2.9063e-04]], device='cuda:0')
+Epoch 65, bias, value: tensor([ 0.0039, -0.0189, -0.0173,  0.0319, -0.0329,  0.0268, -0.0298, -0.0137,
+         0.0273, -0.0215], device='cuda:0'), grad: tensor([ 4.9680e-05,  6.3598e-05,  1.4746e-04,  1.6820e-04, -1.8950e-03,
+         1.0175e-04, -1.1873e-04, -3.0851e-04, -8.3566e-05,  1.8740e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 64----------------------------------------------------
+epoch 64, time 231.92, cls_loss 0.0089 cls_loss_mapping 0.0174 cls_loss_causal 0.6318 re_mapping 0.0115 re_causal 0.0345 /// teacc 99.01 lr 0.00010000
+Epoch 66, weight, value: tensor([[-0.0228, -0.0529, -0.0407,  ..., -0.0928, -0.0035,  0.0531],
+        [ 0.0323,  0.0457,  0.0195,  ...,  0.0601, -0.0673, -0.0483],
+        [ 0.0358,  0.0331, -0.0498,  ...,  0.0068, -0.0812, -0.0085],
+        ...,
+        [-0.0231, -0.0218,  0.0473,  ..., -0.0527, -0.0064,  0.0174],
+        [ 0.0007,  0.0625,  0.0816,  ..., -0.0521, -0.0521, -0.0709],
+        [-0.0650,  0.0041, -0.1057,  ..., -0.0382, -0.0365,  0.0368]],
+       device='cuda:0'), grad: tensor([[ 4.0740e-05,  2.6301e-05,  4.9546e-06,  ...,  2.4170e-05,
+          2.5108e-05, -8.7202e-05],
+        [-2.2892e-06,  2.6356e-06, -1.6525e-05,  ...,  6.8545e-05,
+          3.5346e-05, -1.0207e-06],
+        [ 4.7827e-04,  1.0633e-03,  9.5892e-04,  ...,  2.0206e-05,
+          1.0118e-05, -4.6730e-05],
+        ...,
+        [ 1.5223e-04,  9.7871e-05,  4.9621e-05,  ...,  1.7738e-04,
+          6.2108e-05,  6.1616e-06],
+        [-7.3242e-04, -1.1358e-03, -1.0481e-03,  ...,  1.9282e-05,
+          2.5988e-05,  6.6698e-05],
+        [ 3.3557e-05, -6.5081e-06,  2.4810e-05,  ...,  8.7380e-05,
+          3.6448e-05,  1.3500e-05]], device='cuda:0')
+Epoch 66, bias, value: tensor([ 0.0041, -0.0189, -0.0165,  0.0316, -0.0321,  0.0269, -0.0299, -0.0142,
+         0.0265, -0.0213], device='cuda:0'), grad: tensor([ 2.9311e-05,  1.5390e-04,  1.5202e-03,  4.8690e-06, -6.2609e-04,
+         1.1754e-04, -6.2466e-05,  6.2656e-04, -1.9817e-03,  2.1744e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 65, time 214.96, cls_loss 0.0062 cls_loss_mapping 0.0109 cls_loss_causal 0.6301 re_mapping 0.0119 re_causal 0.0361 /// teacc 98.98 lr 0.00010000
+Epoch 67, weight, value: tensor([[-0.0231, -0.0531, -0.0411,  ..., -0.0932, -0.0031,  0.0538],
+        [ 0.0324,  0.0458,  0.0196,  ...,  0.0605, -0.0676, -0.0485],
+        [ 0.0361,  0.0330, -0.0508,  ...,  0.0066, -0.0818, -0.0086],
+        ...,
+        [-0.0229, -0.0218,  0.0480,  ..., -0.0532, -0.0067,  0.0173],
+        [ 0.0008,  0.0627,  0.0821,  ..., -0.0526, -0.0527, -0.0718],
+        [-0.0655,  0.0039, -0.1067,  ..., -0.0393, -0.0376,  0.0370]],
+       device='cuda:0'), grad: tensor([[ 6.6049e-06,  4.2953e-06,  4.1239e-06,  ...,  1.8515e-06,
+          2.1160e-06,  6.0303e-07],
+        [ 1.9968e-06,  3.9488e-06, -3.2019e-06,  ..., -2.4904e-06,
+          9.1642e-06,  2.0135e-06],
+        [ 5.6237e-05,  3.3379e-05,  2.6971e-05,  ...,  3.1423e-06,
+          2.2016e-06,  4.4890e-06],
+        ...,
+        [ 6.9797e-05,  3.5167e-05, -1.9684e-05,  ...,  3.5822e-05,
+          2.3365e-05, -1.1936e-05],
+        [-6.5625e-05, -7.5758e-05, -2.9996e-05,  ...,  5.3942e-06,
+          1.1221e-05,  1.3495e-06],
+        [ 1.7121e-05,  9.0957e-05,  3.0905e-05,  ...,  1.5688e-04,
+          1.6701e-04,  1.9073e-05]], device='cuda:0')
+Epoch 67, bias, value: tensor([ 0.0049, -0.0190, -0.0167,  0.0312, -0.0321,  0.0270, -0.0298, -0.0138,
+         0.0262, -0.0217], device='cuda:0'), grad: tensor([ 1.5065e-05,  2.6539e-05,  8.1420e-05, -1.9002e-04, -4.9353e-04,
+         3.4034e-05,  4.3929e-05,  1.1617e-04, -3.6716e-05,  4.0364e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 66, time 214.95, cls_loss 0.0092 cls_loss_mapping 0.0173 cls_loss_causal 0.6648 re_mapping 0.0120 re_causal 0.0357 /// teacc 98.93 lr 0.00010000
+Epoch 68, weight, value: tensor([[-0.0239, -0.0538, -0.0418,  ..., -0.0935, -0.0035,  0.0536],
+        [ 0.0322,  0.0457,  0.0198,  ...,  0.0598, -0.0693, -0.0485],
+        [ 0.0361,  0.0324, -0.0522,  ...,  0.0066, -0.0827, -0.0091],
+        ...,
+        [-0.0232, -0.0224,  0.0484,  ..., -0.0540, -0.0072,  0.0174],
+        [ 0.0018,  0.0640,  0.0834,  ..., -0.0525, -0.0532, -0.0726],
+        [-0.0666,  0.0046, -0.1077,  ..., -0.0395, -0.0371,  0.0382]],
+       device='cuda:0'), grad: tensor([[ 1.1669e-06,  3.9823e-06,  4.1537e-06,  ...,  2.8927e-06,
+         -1.8477e-06, -1.8701e-05],
+        [-8.0690e-06, -3.5595e-06, -1.0937e-05,  ..., -9.0823e-06,
+          4.9993e-06,  5.6326e-06],
+        [-9.1270e-06,  3.4031e-06,  2.1178e-06,  ...,  9.2164e-06,
+          6.9402e-06,  3.0603e-06],
+        ...,
+        [ 8.6948e-06,  7.5139e-06,  8.8289e-06,  ...,  7.3761e-06,
+          4.5970e-06,  2.0429e-05],
+        [ 4.0270e-06,  5.9068e-05,  2.8744e-05,  ...,  5.3458e-06,
+          1.4472e-04,  2.7990e-04],
+        [ 2.6207e-06,  5.4277e-06, -1.3411e-07,  ...,  1.6645e-05,
+          4.2856e-05,  2.9892e-05]], device='cuda:0')
+Epoch 68, bias, value: tensor([ 0.0045, -0.0196, -0.0172,  0.0314, -0.0322,  0.0265, -0.0293, -0.0136,
+         0.0270, -0.0213], device='cuda:0'), grad: tensor([-1.6242e-06,  1.2834e-06,  4.4107e-06,  1.4615e-04, -3.9011e-05,
+        -9.0313e-04,  4.3511e-05,  8.8394e-05,  6.0034e-04,  6.0230e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 67, time 214.94, cls_loss 0.0062 cls_loss_mapping 0.0141 cls_loss_causal 0.6216 re_mapping 0.0122 re_causal 0.0367 /// teacc 98.91 lr 0.00010000
+Epoch 69, weight, value: tensor([[-0.0245, -0.0543, -0.0424,  ..., -0.0939, -0.0034,  0.0539],
+        [ 0.0327,  0.0463,  0.0208,  ...,  0.0603, -0.0694, -0.0480],
+        [ 0.0363,  0.0325, -0.0525,  ...,  0.0065, -0.0830, -0.0094],
+        ...,
+        [-0.0236, -0.0228,  0.0485,  ..., -0.0544, -0.0074,  0.0175],
+        [ 0.0018,  0.0642,  0.0834,  ..., -0.0532, -0.0535, -0.0737],
+        [-0.0670,  0.0040, -0.1087,  ..., -0.0407, -0.0376,  0.0386]],
+       device='cuda:0'), grad: tensor([[-6.3479e-05, -2.1851e-04,  1.3202e-05,  ...,  2.9728e-06,
+         -2.8387e-05, -8.8978e-04],
+        [-1.5855e-04, -7.5638e-05, -1.7071e-04,  ..., -3.3528e-05,
+          3.2131e-06,  7.7337e-06],
+        [ 6.5506e-05,  2.0123e-04,  9.8646e-06,  ...,  3.0994e-06,
+          3.3528e-06,  7.3051e-04],
+        ...,
+        [ 9.7528e-06,  6.7316e-06, -6.8963e-05,  ..., -6.9365e-06,
+         -2.0824e-06, -5.1618e-05],
+        [ 2.7969e-05,  1.4208e-05,  2.4393e-05,  ...,  5.8003e-06,
+          1.9044e-05,  3.5018e-05],
+        [ 1.2472e-05,  6.4336e-06,  4.4346e-05,  ...,  3.8967e-06,
+          1.8626e-05,  1.0943e-04]], device='cuda:0')
+Epoch 69, bias, value: tensor([ 0.0046, -0.0190, -0.0171,  0.0307, -0.0313,  0.0269, -0.0296, -0.0137,
+         0.0267, -0.0218], device='cuda:0'), grad: tensor([-1.0576e-03, -3.3927e-04,  9.1267e-04,  2.3127e-04,  7.6175e-05,
+        -1.2898e-04,  1.3638e-04, -9.0420e-05,  1.0294e-04,  1.5724e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 68, time 215.15, cls_loss 0.0087 cls_loss_mapping 0.0177 cls_loss_causal 0.6360 re_mapping 0.0121 re_causal 0.0365 /// teacc 98.83 lr 0.00010000
+Epoch 70, weight, value: tensor([[-0.0250, -0.0549, -0.0430,  ..., -0.0943, -0.0038,  0.0544],
+        [ 0.0330,  0.0471,  0.0220,  ...,  0.0618, -0.0704, -0.0466],
+        [ 0.0362,  0.0325, -0.0532,  ...,  0.0063, -0.0838, -0.0111],
+        ...,
+        [-0.0241, -0.0243,  0.0479,  ..., -0.0574, -0.0077,  0.0165],
+        [ 0.0020,  0.0645,  0.0837,  ..., -0.0534, -0.0547, -0.0749],
+        [-0.0670,  0.0046, -0.1085,  ..., -0.0409, -0.0373,  0.0394]],
+       device='cuda:0'), grad: tensor([[ 1.0437e-04,  8.7857e-05,  1.1498e-04,  ...,  1.5453e-05,
+          1.6121e-06, -2.5749e-05],
+        [-7.6485e-04, -7.6962e-04, -9.3937e-04,  ..., -1.4353e-04,
+          7.3053e-06, -5.0163e-04],
+        [ 6.1274e-05,  6.1333e-05,  5.9873e-05,  ...,  2.0668e-05,
+          4.1649e-06,  4.4078e-05],
+        ...,
+        [ 3.1322e-05,  5.1916e-05,  3.0786e-05,  ...,  2.9802e-05,
+          8.5682e-06,  1.5482e-05],
+        [ 1.6046e-04,  2.6989e-04,  2.1613e-04,  ...,  1.1235e-04,
+          5.8472e-05,  1.4436e-04],
+        [ 3.8475e-05,  9.2268e-05,  5.9217e-05,  ...,  6.2883e-05,
+          3.2753e-05,  2.5705e-05]], device='cuda:0')
+Epoch 70, bias, value: tensor([ 0.0045, -0.0179, -0.0176,  0.0307, -0.0315,  0.0271, -0.0293, -0.0150,
+         0.0262, -0.0209], device='cuda:0'), grad: tensor([ 2.1851e-04, -2.5120e-03,  2.0111e-04,  2.5406e-05, -1.9109e-04,
+         2.7919e-04,  9.1648e-04,  1.1659e-04,  7.4244e-04,  2.0361e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 69, time 215.21, cls_loss 0.0086 cls_loss_mapping 0.0159 cls_loss_causal 0.6207 re_mapping 0.0117 re_causal 0.0357 /// teacc 98.91 lr 0.00010000
+Epoch 71, weight, value: tensor([[-0.0257, -0.0556, -0.0434,  ..., -0.0940, -0.0035,  0.0547],
+        [ 0.0334,  0.0471,  0.0222,  ...,  0.0620, -0.0715, -0.0466],
+        [ 0.0359,  0.0324, -0.0537,  ...,  0.0062, -0.0842, -0.0117],
+        ...,
+        [-0.0244, -0.0243,  0.0484,  ..., -0.0572, -0.0078,  0.0172],
+        [ 0.0022,  0.0649,  0.0842,  ..., -0.0538, -0.0554, -0.0757],
+        [-0.0678,  0.0047, -0.1093,  ..., -0.0413, -0.0380,  0.0393]],
+       device='cuda:0'), grad: tensor([[ 1.8962e-06,  2.2247e-05,  4.3549e-06,  ...,  8.6427e-06,
+         -3.7421e-06,  2.0228e-06],
+        [ 6.3837e-05,  3.8671e-04,  2.4915e-04,  ...,  3.0732e-04,
+          2.6488e-04,  9.6299e-07],
+        [-2.1920e-05, -4.9137e-06,  6.0014e-06,  ...,  7.9796e-06,
+          4.1798e-06,  4.7050e-06],
+        ...,
+        [ 8.1956e-06,  6.8508e-06,  3.7774e-06,  ...,  4.6082e-06,
+          9.8161e-07,  3.6638e-06],
+        [-1.2350e-04, -6.0320e-04, -4.7398e-04,  ..., -5.0068e-04,
+         -4.0889e-04,  1.6153e-04],
+        [ 7.1079e-06, -5.6177e-05,  1.9625e-05,  ...,  2.2694e-05,
+          1.7956e-05, -2.0993e-04]], device='cuda:0')
+Epoch 71, bias, value: tensor([ 0.0043, -0.0176, -0.0183,  0.0318, -0.0319,  0.0276, -0.0299, -0.0145,
+         0.0260, -0.0215], device='cuda:0'), grad: tensor([-8.8196e-07,  6.8760e-04, -8.6203e-06,  3.8177e-05,  7.7248e-05,
+         9.1434e-05,  2.4772e-04,  1.8030e-05, -9.7561e-04, -1.7500e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 70----------------------------------------------------
+epoch 70, time 231.16, cls_loss 0.0074 cls_loss_mapping 0.0155 cls_loss_causal 0.6133 re_mapping 0.0116 re_causal 0.0345 /// teacc 99.04 lr 0.00010000
+Epoch 72, weight, value: tensor([[-0.0260, -0.0561, -0.0437,  ..., -0.0948, -0.0039,  0.0550],
+        [ 0.0332,  0.0467,  0.0217,  ...,  0.0618, -0.0728, -0.0469],
+        [ 0.0362,  0.0328, -0.0543,  ...,  0.0064, -0.0849, -0.0122],
+        ...,
+        [-0.0241, -0.0245,  0.0495,  ..., -0.0578, -0.0081,  0.0164],
+        [ 0.0022,  0.0652,  0.0844,  ..., -0.0544, -0.0562, -0.0766],
+        [-0.0682,  0.0053, -0.1100,  ..., -0.0416, -0.0381,  0.0405]],
+       device='cuda:0'), grad: tensor([[ 1.5395e-06, -2.3423e-07,  2.9746e-06,  ..., -3.1083e-07,
+         -3.5226e-05, -5.7042e-05],
+        [-1.6004e-05, -9.4920e-06, -9.8050e-06,  ..., -1.0557e-05,
+          2.9635e-06,  5.3234e-06],
+        [ 6.2352e-07,  6.9439e-06,  6.0014e-06,  ...,  1.0110e-05,
+          3.1777e-06,  4.2878e-06],
+        ...,
+        [ 7.7412e-06,  2.0385e-05, -6.4433e-05,  ...,  2.7001e-05,
+          5.7556e-06, -2.4885e-05],
+        [ 5.1875e-07, -7.0827e-07, -4.9034e-07,  ...,  4.8243e-06,
+          2.5705e-06,  4.9546e-06],
+        [ 6.0759e-06,  2.5213e-05,  4.9025e-05,  ...,  5.2452e-05,
+          2.4915e-05,  3.1382e-05]], device='cuda:0')
+Epoch 72, bias, value: tensor([ 0.0041, -0.0185, -0.0181,  0.0317, -0.0323,  0.0279, -0.0300, -0.0144,
+         0.0256, -0.0207], device='cuda:0'), grad: tensor([-6.7115e-05, -3.6806e-06,  1.8433e-05,  8.9360e-07, -1.1277e-04,
+         1.1869e-05,  4.2886e-05, -5.1409e-05,  1.3009e-05,  1.4782e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 71, time 214.79, cls_loss 0.0059 cls_loss_mapping 0.0111 cls_loss_causal 0.5999 re_mapping 0.0112 re_causal 0.0344 /// teacc 98.97 lr 0.00010000
+Epoch 73, weight, value: tensor([[-0.0264, -0.0562, -0.0443,  ..., -0.0952, -0.0037,  0.0554],
+        [ 0.0334,  0.0467,  0.0223,  ...,  0.0620, -0.0735, -0.0463],
+        [ 0.0367,  0.0332, -0.0549,  ...,  0.0066, -0.0853, -0.0123],
+        ...,
+        [-0.0244, -0.0248,  0.0498,  ..., -0.0586, -0.0083,  0.0164],
+        [ 0.0023,  0.0655,  0.0850,  ..., -0.0549, -0.0566, -0.0770],
+        [-0.0688,  0.0051, -0.1112,  ..., -0.0422, -0.0386,  0.0406]],
+       device='cuda:0'), grad: tensor([[ 1.8543e-06,  1.0580e-05,  4.4107e-06,  ...,  8.1435e-06,
+          1.2033e-05, -8.0885e-07],
+        [ 4.1366e-05,  1.2183e-04,  1.4555e-04,  ...,  1.0109e-04,
+          1.1128e-04,  1.1502e-06],
+        [-4.7833e-06,  7.3714e-07,  4.0174e-05,  ...,  1.5013e-05,
+          5.4948e-06, -1.5739e-07],
+        ...,
+        [-1.6674e-05,  2.3991e-06, -6.8784e-05,  ..., -1.7375e-05,
+          1.0543e-06, -2.7269e-06],
+        [-8.0407e-05, -3.8052e-04, -4.3011e-04,  ..., -3.1495e-04,
+         -3.5048e-04,  2.8573e-06],
+        [ 7.7114e-06,  1.7583e-05,  2.7567e-05,  ...,  1.9878e-05,
+          2.0802e-05, -6.0238e-06]], device='cuda:0')
+Epoch 73, bias, value: tensor([ 0.0043, -0.0183, -0.0176,  0.0318, -0.0322,  0.0273, -0.0293, -0.0147,
+         0.0257, -0.0210], device='cuda:0'), grad: tensor([ 1.9595e-05,  2.7394e-04,  5.6654e-05,  5.2378e-06,  1.2505e-04,
+         8.7142e-05,  2.4581e-04, -1.2058e-04, -7.3719e-04,  4.4405e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 72, time 214.87, cls_loss 0.0058 cls_loss_mapping 0.0128 cls_loss_causal 0.6079 re_mapping 0.0108 re_causal 0.0321 /// teacc 99.02 lr 0.00010000
+Epoch 74, weight, value: tensor([[-0.0269, -0.0566, -0.0441,  ..., -0.0948, -0.0038,  0.0557],
+        [ 0.0335,  0.0469,  0.0225,  ...,  0.0626, -0.0743, -0.0466],
+        [ 0.0366,  0.0330, -0.0561,  ...,  0.0061, -0.0857, -0.0130],
+        ...,
+        [-0.0244, -0.0252,  0.0505,  ..., -0.0591, -0.0090,  0.0166],
+        [ 0.0026,  0.0659,  0.0857,  ..., -0.0552, -0.0573, -0.0778],
+        [-0.0695,  0.0048, -0.1121,  ..., -0.0432, -0.0392,  0.0407]],
+       device='cuda:0'), grad: tensor([[-1.0589e-06, -1.7703e-05,  3.8110e-06,  ...,  1.0438e-05,
+         -7.2606e-06, -7.9989e-05],
+        [-8.4797e-07,  2.6122e-05, -9.0674e-06,  ..., -6.0163e-07,
+          5.1856e-06,  9.7007e-06],
+        [ 5.3793e-05,  1.8656e-04,  6.2525e-05,  ...,  1.2529e-04,
+          1.6883e-05,  2.4199e-05],
+        ...,
+        [ 7.2345e-06,  7.4506e-06,  5.4725e-06,  ...,  7.1339e-06,
+          1.2666e-06, -6.4492e-05],
+        [-1.6451e-04,  5.2929e-05, -7.7367e-05,  ...,  4.4972e-05,
+          1.0109e-04,  1.0923e-05],
+        [ 2.9072e-05,  3.2425e-05,  1.4558e-05,  ...,  7.7710e-06,
+          1.1079e-05,  8.0764e-05]], device='cuda:0')
+Epoch 74, bias, value: tensor([ 0.0044, -0.0184, -0.0183,  0.0321, -0.0321,  0.0275, -0.0291, -0.0143,
+         0.0256, -0.0215], device='cuda:0'), grad: tensor([-8.1778e-05,  2.9013e-05,  2.7299e-04,  1.1146e-04,  9.1553e-05,
+         9.8467e-05, -6.0129e-04, -4.8697e-05, -4.5300e-06,  1.3268e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 73, time 214.76, cls_loss 0.0055 cls_loss_mapping 0.0131 cls_loss_causal 0.6123 re_mapping 0.0110 re_causal 0.0331 /// teacc 98.87 lr 0.00010000
+Epoch 75, weight, value: tensor([[-0.0273, -0.0580, -0.0445,  ..., -0.0950, -0.0036,  0.0552],
+        [ 0.0333,  0.0461,  0.0222,  ...,  0.0617, -0.0766, -0.0471],
+        [ 0.0370,  0.0334, -0.0562,  ...,  0.0062, -0.0863, -0.0133],
+        ...,
+        [-0.0248, -0.0255,  0.0508,  ..., -0.0592, -0.0086,  0.0166],
+        [ 0.0027,  0.0662,  0.0864,  ..., -0.0554, -0.0580, -0.0788],
+        [-0.0705,  0.0051, -0.1130,  ..., -0.0436, -0.0399,  0.0417]],
+       device='cuda:0'), grad: tensor([[ 2.7828e-06,  4.5933e-06,  4.7609e-06,  ...,  4.9397e-06,
+          1.7462e-08, -5.1409e-06],
+        [-1.8373e-05, -1.1587e-04, -1.3912e-04,  ..., -1.5748e-04,
+         -8.5235e-05,  2.7567e-07],
+        [-3.1024e-05, -6.0946e-06,  1.0297e-05,  ..., -4.7460e-06,
+          2.7996e-06,  6.1328e-07],
+        ...,
+        [ 4.9509e-06,  1.0796e-05, -3.3140e-05,  ...,  1.0706e-05,
+          5.7518e-06,  2.8661e-07],
+        [-2.3451e-06,  2.7381e-06,  3.6461e-07,  ...,  1.2405e-05,
+          5.2825e-06,  4.2133e-06],
+        [ 6.1020e-06,  7.3500e-06,  1.4678e-05,  ...,  1.8254e-05,
+          1.3143e-05, -7.1302e-06]], device='cuda:0')
+Epoch 75, bias, value: tensor([ 0.0037, -0.0194, -0.0179,  0.0325, -0.0322,  0.0277, -0.0284, -0.0142,
+         0.0254, -0.0214], device='cuda:0'), grad: tensor([ 5.0478e-06, -2.1553e-04, -3.8296e-05,  5.1349e-05,  6.3002e-05,
+         8.6129e-06,  1.1951e-04, -4.0472e-05,  1.6168e-05,  3.0607e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 74, time 214.49, cls_loss 0.0072 cls_loss_mapping 0.0156 cls_loss_causal 0.6171 re_mapping 0.0112 re_causal 0.0330 /// teacc 98.85 lr 0.00010000
+Epoch 76, weight, value: tensor([[-0.0278, -0.0583, -0.0448,  ..., -0.0954, -0.0035,  0.0560],
+        [ 0.0346,  0.0470,  0.0244,  ...,  0.0619, -0.0771, -0.0469],
+        [ 0.0374,  0.0332, -0.0577,  ...,  0.0061, -0.0883, -0.0137],
+        ...,
+        [-0.0261, -0.0265,  0.0506,  ..., -0.0601, -0.0091,  0.0166],
+        [ 0.0029,  0.0666,  0.0870,  ..., -0.0557, -0.0584, -0.0798],
+        [-0.0713,  0.0049, -0.1145,  ..., -0.0442, -0.0407,  0.0418]],
+       device='cuda:0'), grad: tensor([[ 2.2408e-06,  3.0603e-06,  2.1290e-06,  ...,  1.7611e-06,
+          9.6578e-07, -1.4521e-05],
+        [-6.6757e-05, -7.2718e-05, -1.0532e-04,  ..., -9.4771e-05,
+         -2.2873e-05,  1.0384e-06],
+        [ 1.6659e-05,  6.8806e-06,  6.1169e-06,  ...,  3.6564e-06,
+          2.3730e-06,  2.6487e-06],
+        ...,
+        [ 6.1020e-06,  3.7495e-06,  3.5157e-07,  ...,  2.3507e-06,
+          3.0138e-06,  2.8573e-06],
+        [ 2.6792e-05,  1.5132e-05,  9.4250e-06,  ...,  1.0207e-05,
+          2.2992e-05,  5.4762e-06],
+        [ 6.3814e-06, -2.3935e-06,  3.2280e-06,  ...,  1.1548e-06,
+          7.8678e-06,  2.8070e-06]], device='cuda:0')
+Epoch 76, bias, value: tensor([ 0.0043, -0.0179, -0.0181,  0.0320, -0.0321,  0.0278, -0.0281, -0.0149,
+         0.0254, -0.0220], device='cuda:0'), grad: tensor([-5.8562e-06, -1.3757e-04,  2.5481e-05, -4.9025e-05,  1.6719e-05,
+        -3.1322e-05,  9.1612e-05,  1.1444e-05,  6.5744e-05,  1.2569e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 75, time 214.72, cls_loss 0.0066 cls_loss_mapping 0.0141 cls_loss_causal 0.5959 re_mapping 0.0110 re_causal 0.0320 /// teacc 98.86 lr 0.00010000
+Epoch 77, weight, value: tensor([[-0.0285, -0.0586, -0.0448,  ..., -0.0954, -0.0034,  0.0565],
+        [ 0.0354,  0.0470,  0.0254,  ...,  0.0620, -0.0776, -0.0477],
+        [ 0.0366,  0.0324, -0.0592,  ...,  0.0058, -0.0886, -0.0139],
+        ...,
+        [-0.0266, -0.0267,  0.0509,  ..., -0.0607, -0.0097,  0.0169],
+        [ 0.0042,  0.0685,  0.0880,  ..., -0.0561, -0.0569, -0.0793],
+        [-0.0720,  0.0060, -0.1155,  ..., -0.0443, -0.0412,  0.0421]],
+       device='cuda:0'), grad: tensor([[ 2.3618e-06,  2.1551e-06,  4.8161e-05,  ...,  2.2594e-06,
+          4.6045e-06,  1.6540e-05],
+        [-7.6413e-05, -6.6102e-05, -7.8440e-05,  ..., -8.2135e-05,
+         -5.3197e-06,  4.1686e-06],
+        [-1.2659e-05, -8.7321e-06,  2.8268e-05,  ...,  6.3144e-06,
+          9.0599e-06,  1.9774e-05],
+        ...,
+        [ 8.9630e-06,  7.6294e-06, -1.0598e-04,  ...,  7.2457e-06,
+         -1.4752e-05, -6.9559e-05],
+        [ 3.5793e-05,  3.1173e-05,  3.1918e-05,  ...,  3.2067e-05,
+          2.4542e-05,  1.6600e-05],
+        [ 6.0871e-06,  1.0073e-05,  1.6496e-05,  ...,  1.5140e-05,
+          2.3559e-05,  2.4840e-05]], device='cuda:0')
+Epoch 77, bias, value: tensor([ 0.0047, -0.0174, -0.0188,  0.0325, -0.0326,  0.0265, -0.0291, -0.0146,
+         0.0271, -0.0218], device='cuda:0'), grad: tensor([ 7.3075e-05, -1.1867e-04,  2.8297e-05,  2.0809e-03, -3.6061e-06,
+        -2.1095e-03,  3.7491e-05, -1.7846e-04,  1.1241e-04,  7.9870e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 76, time 215.06, cls_loss 0.0054 cls_loss_mapping 0.0117 cls_loss_causal 0.6320 re_mapping 0.0107 re_causal 0.0338 /// teacc 98.81 lr 0.00010000
+Epoch 78, weight, value: tensor([[-0.0290, -0.0593, -0.0455,  ..., -0.0958, -0.0035,  0.0566],
+        [ 0.0358,  0.0469,  0.0260,  ...,  0.0623, -0.0780, -0.0481],
+        [ 0.0373,  0.0330, -0.0593,  ...,  0.0056, -0.0890, -0.0143],
+        ...,
+        [-0.0271, -0.0270,  0.0511,  ..., -0.0611, -0.0099,  0.0171],
+        [ 0.0040,  0.0684,  0.0882,  ..., -0.0565, -0.0573, -0.0800],
+        [-0.0724,  0.0072, -0.1157,  ..., -0.0441, -0.0422,  0.0426]],
+       device='cuda:0'), grad: tensor([[ 2.7549e-06,  2.3246e-05,  5.9605e-06,  ...,  8.1584e-07,
+          3.8520e-06,  2.1562e-05],
+        [-1.5736e-05, -2.7511e-06, -1.5795e-05,  ..., -7.0147e-06,
+          4.8950e-06, -1.0123e-06],
+        [ 3.2961e-05,  2.3991e-05,  2.0757e-05,  ...,  8.0094e-06,
+          1.7416e-06,  8.9481e-06],
+        ...,
+        [ 4.8019e-06,  3.9749e-06,  3.6899e-06,  ...,  1.8161e-06,
+          1.1278e-06,  2.5183e-06],
+        [-2.6003e-05, -8.5890e-05, -1.6820e-04,  ..., -1.3700e-06,
+         -1.1837e-04,  2.9579e-05],
+        [ 1.6168e-05, -2.9996e-05,  1.4327e-05,  ...,  2.1663e-06,
+          4.9807e-06, -6.8247e-05]], device='cuda:0')
+Epoch 78, bias, value: tensor([ 0.0045, -0.0172, -0.0180,  0.0319, -0.0332,  0.0269, -0.0293, -0.0148,
+         0.0266, -0.0213], device='cuda:0'), grad: tensor([ 3.6985e-05, -1.5929e-05,  5.4300e-05, -4.8965e-05, -1.4203e-06,
+         8.8274e-05,  1.3101e-04,  1.1161e-05, -2.0492e-04, -5.0575e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 77, time 214.78, cls_loss 0.0061 cls_loss_mapping 0.0134 cls_loss_causal 0.6168 re_mapping 0.0103 re_causal 0.0312 /// teacc 99.00 lr 0.00010000
+Epoch 79, weight, value: tensor([[-0.0294, -0.0597, -0.0461,  ..., -0.0965, -0.0039,  0.0570],
+        [ 0.0355,  0.0471,  0.0259,  ...,  0.0628, -0.0788, -0.0479],
+        [ 0.0374,  0.0332, -0.0605,  ...,  0.0057, -0.0896, -0.0144],
+        ...,
+        [-0.0264, -0.0275,  0.0525,  ..., -0.0620, -0.0097,  0.0175],
+        [ 0.0042,  0.0686,  0.0887,  ..., -0.0570, -0.0579, -0.0807],
+        [-0.0730,  0.0069, -0.1171,  ..., -0.0450, -0.0433,  0.0424]],
+       device='cuda:0'), grad: tensor([[ 1.6615e-05,  6.1765e-06,  2.1365e-06,  ...,  6.3796e-07,
+         -2.9162e-05, -2.1029e-04],
+        [ 3.7223e-05,  1.5102e-05,  1.7202e-04,  ..., -1.0848e-05,
+          2.3097e-06,  3.5942e-05],
+        [-7.4990e-06, -1.2472e-05,  3.2872e-05,  ...,  1.7080e-06,
+          1.1791e-06,  1.5974e-05],
+        ...,
+        [-3.2276e-05, -2.2039e-05, -3.2020e-04,  ...,  5.0999e-06,
+          1.6103e-06, -4.7207e-05],
+        [ 1.4961e-05,  5.4613e-06,  2.3887e-05,  ...,  1.6103e-06,
+          1.6112e-06,  1.9014e-05],
+        [ 2.2769e-05, -1.3746e-05,  4.5300e-05,  ...,  5.7258e-06,
+          2.7463e-05,  1.3936e-04]], device='cuda:0')
+Epoch 79, bias, value: tensor([ 0.0044, -0.0175, -0.0185,  0.0319, -0.0329,  0.0270, -0.0288, -0.0136,
+         0.0264, -0.0221], device='cuda:0'), grad: tensor([-1.0026e-04,  3.1042e-04, -2.1353e-05, -2.9826e-04,  3.5733e-05,
+         2.2247e-05,  5.6982e-05, -3.2616e-04,  1.1379e-04,  2.0695e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 78, time 214.83, cls_loss 0.0061 cls_loss_mapping 0.0133 cls_loss_causal 0.6032 re_mapping 0.0108 re_causal 0.0309 /// teacc 98.94 lr 0.00010000
+Epoch 80, weight, value: tensor([[-0.0298, -0.0606, -0.0467,  ..., -0.0967, -0.0035,  0.0573],
+        [ 0.0360,  0.0471,  0.0266,  ...,  0.0629, -0.0793, -0.0488],
+        [ 0.0377,  0.0333, -0.0610,  ...,  0.0054, -0.0900, -0.0147],
+        ...,
+        [-0.0272, -0.0278,  0.0523,  ..., -0.0619, -0.0097,  0.0174],
+        [ 0.0045,  0.0690,  0.0897,  ..., -0.0579, -0.0587, -0.0824],
+        [-0.0735,  0.0068, -0.1178,  ..., -0.0460, -0.0441,  0.0432]],
+       device='cuda:0'), grad: tensor([[ 2.7921e-06,  1.6764e-06,  2.4494e-06,  ...,  5.6848e-06,
+         -1.0565e-05, -2.1994e-04],
+        [-6.5279e-04, -1.6438e-06, -6.7091e-04,  ..., -5.0735e-04,
+          1.6624e-06,  8.8513e-06],
+        [ 2.2674e-04,  2.0098e-06,  2.5463e-04,  ...,  1.8716e-04,
+          3.2075e-06,  2.9281e-05],
+        ...,
+        [ 3.5310e-04,  1.9372e-05,  3.3736e-04,  ...,  2.6822e-04,
+          1.3057e-06, -1.7206e-07],
+        [ 3.5111e-06,  2.6468e-06,  1.4994e-06,  ...,  4.7721e-06,
+          5.0753e-05,  9.5725e-05],
+        [ 8.3894e-06, -3.1769e-05,  1.0706e-05,  ...,  5.9679e-06,
+          2.3738e-05,  1.3638e-04]], device='cuda:0')
+Epoch 80, bias, value: tensor([ 0.0046, -0.0171, -0.0183,  0.0320, -0.0329,  0.0268, -0.0288, -0.0142,
+         0.0262, -0.0219], device='cuda:0'), grad: tensor([-2.0146e-04, -1.0939e-03,  4.2558e-04,  2.7493e-05,  4.4078e-05,
+        -5.8264e-05, -1.7611e-06,  5.9557e-04,  1.2875e-04,  1.3316e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 79, time 214.98, cls_loss 0.0052 cls_loss_mapping 0.0097 cls_loss_causal 0.5764 re_mapping 0.0101 re_causal 0.0301 /// teacc 98.90 lr 0.00010000
+Epoch 81, weight, value: tensor([[-0.0304, -0.0606, -0.0473,  ..., -0.0974, -0.0030,  0.0585],
+        [ 0.0361,  0.0473,  0.0268,  ...,  0.0633, -0.0799, -0.0491],
+        [ 0.0378,  0.0332, -0.0616,  ...,  0.0049, -0.0907, -0.0148],
+        ...,
+        [-0.0276, -0.0278,  0.0527,  ..., -0.0625, -0.0102,  0.0178],
+        [ 0.0047,  0.0696,  0.0904,  ..., -0.0583, -0.0591, -0.0833],
+        [-0.0744,  0.0067, -0.1189,  ..., -0.0466, -0.0446,  0.0429]],
+       device='cuda:0'), grad: tensor([[ 8.3521e-06,  9.0003e-06, -1.9670e-05,  ...,  4.4405e-06,
+          2.8145e-06, -8.7976e-05],
+        [ 3.2149e-06,  1.6699e-06,  1.8487e-06,  ..., -8.1025e-07,
+          2.0657e-06,  1.2733e-05],
+        [ 1.6674e-05,  3.3230e-05,  3.3945e-05,  ...,  1.3709e-06,
+          5.1893e-06,  4.6343e-06],
+        ...,
+        [ 7.2718e-06,  9.5293e-06,  3.5223e-06,  ...,  5.9195e-06,
+          6.3777e-06,  1.7777e-05],
+        [ 9.7081e-06, -1.9479e-04, -1.5640e-04,  ...,  5.4128e-06,
+         -1.6451e-05,  2.9549e-05],
+        [ 1.1578e-05, -1.6003e-03,  1.9655e-05,  ..., -9.3842e-04,
+         -1.0347e-03, -1.6088e-03]], device='cuda:0')
+Epoch 81, bias, value: tensor([ 0.0054, -0.0171, -0.0185,  0.0323, -0.0326,  0.0269, -0.0291, -0.0142,
+         0.0261, -0.0225], device='cuda:0'), grad: tensor([-5.7012e-05,  2.2113e-05,  3.1561e-05, -8.6367e-05,  3.6774e-03,
+         1.9222e-05,  1.9360e-04,  4.9919e-05, -1.8251e-04, -3.6716e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 80, time 214.87, cls_loss 0.0051 cls_loss_mapping 0.0105 cls_loss_causal 0.5879 re_mapping 0.0098 re_causal 0.0293 /// teacc 98.93 lr 0.00010000
+Epoch 82, weight, value: tensor([[-0.0310, -0.0608, -0.0480,  ..., -0.0979, -0.0030,  0.0589],
+        [ 0.0361,  0.0473,  0.0267,  ...,  0.0635, -0.0804, -0.0494],
+        [ 0.0382,  0.0334, -0.0617,  ...,  0.0047, -0.0911, -0.0151],
+        ...,
+        [-0.0277, -0.0277,  0.0537,  ..., -0.0629, -0.0108,  0.0185],
+        [ 0.0046,  0.0697,  0.0906,  ..., -0.0587, -0.0597, -0.0845],
+        [-0.0750,  0.0070, -0.1207,  ..., -0.0466, -0.0448,  0.0432]],
+       device='cuda:0'), grad: tensor([[ 6.0834e-06,  2.8275e-06,  2.5202e-06,  ...,  1.0459e-06,
+          2.8331e-06, -8.2999e-06],
+        [-1.9714e-05, -4.8459e-05, -7.8738e-05,  ..., -3.7670e-05,
+          1.3895e-06, -3.1352e-05],
+        [ 8.3506e-05,  1.5497e-05,  8.5011e-06,  ...,  4.3064e-06,
+          3.2168e-06,  5.9120e-06],
+        ...,
+        [ 4.3809e-05,  3.5137e-05,  4.5091e-05,  ...,  1.9386e-05,
+          1.4836e-06,  1.8209e-05],
+        [ 4.3124e-05,  9.4235e-05,  3.8296e-05,  ...,  5.9791e-06,
+          6.5714e-06,  7.2896e-05],
+        [ 8.6650e-06, -1.0502e-04, -1.2644e-05,  ...,  1.0610e-05,
+          6.1952e-06, -8.0705e-05]], device='cuda:0')
+Epoch 82, bias, value: tensor([ 0.0054, -0.0174, -0.0183,  0.0324, -0.0329,  0.0273, -0.0292, -0.0135,
+         0.0255, -0.0229], device='cuda:0'), grad: tensor([ 1.7881e-05, -7.9751e-05,  2.1327e-04, -4.4918e-04,  4.5449e-05,
+         7.4267e-05,  6.9626e-06,  9.4473e-05,  2.2519e-04, -1.4830e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 81, time 215.08, cls_loss 0.0044 cls_loss_mapping 0.0097 cls_loss_causal 0.5968 re_mapping 0.0099 re_causal 0.0311 /// teacc 98.88 lr 0.00010000
+Epoch 83, weight, value: tensor([[-0.0313, -0.0604, -0.0469,  ..., -0.0973, -0.0033,  0.0593],
+        [ 0.0363,  0.0473,  0.0270,  ...,  0.0630, -0.0816, -0.0494],
+        [ 0.0383,  0.0333, -0.0619,  ...,  0.0046, -0.0912, -0.0154],
+        ...,
+        [-0.0281, -0.0282,  0.0538,  ..., -0.0634, -0.0113,  0.0183],
+        [ 0.0045,  0.0698,  0.0906,  ..., -0.0593, -0.0600, -0.0853],
+        [-0.0754,  0.0068, -0.1215,  ..., -0.0473, -0.0454,  0.0433]],
+       device='cuda:0'), grad: tensor([[ 6.6962e-07,  2.1036e-07,  3.9511e-07,  ...,  9.4948e-07,
+          1.7770e-06, -6.2212e-06],
+        [-2.5127e-06, -2.0470e-06, -5.8226e-06,  ..., -3.8054e-06,
+          2.0880e-06,  1.7351e-06],
+        [ 8.3772e-07, -5.2061e-07,  1.0673e-06,  ...,  9.9465e-07,
+          1.6764e-06,  2.3153e-06],
+        ...,
+        [ 1.6131e-06,  1.5171e-06,  9.1642e-07,  ...,  1.4808e-06,
+          2.6487e-06,  2.1569e-06],
+        [ 1.4845e-06,  1.1707e-06,  1.8545e-07,  ...,  1.6950e-06,
+          1.9357e-05,  1.7703e-05],
+        [ 1.8533e-06,  4.8988e-06,  9.4762e-07,  ...,  1.0632e-05,
+          1.2800e-05,  3.0529e-06]], device='cuda:0')
+Epoch 83, bias, value: tensor([ 0.0059, -0.0175, -0.0183,  0.0324, -0.0330,  0.0276, -0.0281, -0.0138,
+         0.0250, -0.0233], device='cuda:0'), grad: tensor([-3.0734e-06, -6.5193e-07,  8.3521e-06, -6.4671e-06, -1.2010e-05,
+        -6.9320e-05,  1.0751e-05,  8.0615e-06,  3.8296e-05,  2.6017e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 82, time 214.92, cls_loss 0.0045 cls_loss_mapping 0.0081 cls_loss_causal 0.6120 re_mapping 0.0099 re_causal 0.0305 /// teacc 98.91 lr 0.00010000
+Epoch 84, weight, value: tensor([[-0.0317, -0.0607, -0.0473,  ..., -0.0977, -0.0036,  0.0595],
+        [ 0.0363,  0.0472,  0.0271,  ...,  0.0629, -0.0820, -0.0496],
+        [ 0.0387,  0.0335, -0.0619,  ...,  0.0047, -0.0917, -0.0162],
+        ...,
+        [-0.0285, -0.0288,  0.0541,  ..., -0.0635, -0.0118,  0.0188],
+        [ 0.0047,  0.0702,  0.0909,  ..., -0.0600, -0.0608, -0.0865],
+        [-0.0759,  0.0070, -0.1223,  ..., -0.0478, -0.0457,  0.0439]],
+       device='cuda:0'), grad: tensor([[ 1.6034e-05,  1.1705e-05,  3.8818e-06,  ...,  1.1427e-06,
+         -1.4557e-06, -3.9637e-05],
+        [ 6.5081e-06,  5.4277e-06,  5.1372e-06,  ...,  1.3225e-06,
+          2.3637e-06,  4.2096e-06],
+        [-3.6329e-05, -3.4630e-05, -1.6227e-05,  ..., -2.0228e-06,
+          1.2424e-06, -2.0619e-06],
+        ...,
+        [ 2.0906e-05,  8.0094e-06, -5.7779e-06,  ...,  4.1239e-06,
+          1.8664e-06, -1.2591e-05],
+        [-2.8923e-05, -3.2425e-05, -5.9962e-05,  ...,  4.1164e-06,
+          1.9018e-06,  9.3803e-06],
+        [ 1.2785e-05,  1.6212e-05,  1.4052e-05,  ...,  2.1294e-05,
+          1.1526e-05,  1.5900e-05]], device='cuda:0')
+Epoch 84, bias, value: tensor([ 0.0059, -0.0178, -0.0182,  0.0323, -0.0321,  0.0275, -0.0286, -0.0136,
+         0.0247, -0.0233], device='cuda:0'), grad: tensor([-5.7399e-05,  2.5928e-05, -8.6784e-05,  9.2834e-06, -2.5779e-06,
+         1.8746e-05,  2.2322e-05,  2.8387e-05, -4.0084e-05,  8.1837e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 83, time 214.48, cls_loss 0.0056 cls_loss_mapping 0.0103 cls_loss_causal 0.5978 re_mapping 0.0104 re_causal 0.0307 /// teacc 98.76 lr 0.00010000
+Epoch 85, weight, value: tensor([[-0.0324, -0.0615, -0.0477,  ..., -0.0984, -0.0038,  0.0597],
+        [ 0.0362,  0.0478,  0.0283,  ...,  0.0643, -0.0823, -0.0492],
+        [ 0.0392,  0.0338, -0.0618,  ...,  0.0048, -0.0923, -0.0162],
+        ...,
+        [-0.0291, -0.0305,  0.0532,  ..., -0.0657, -0.0117,  0.0183],
+        [ 0.0048,  0.0708,  0.0918,  ..., -0.0602, -0.0612, -0.0871],
+        [-0.0764,  0.0072, -0.1230,  ..., -0.0480, -0.0459,  0.0446]],
+       device='cuda:0'), grad: tensor([[ 3.0864e-06,  1.6978e-06,  7.0371e-06,  ...,  7.2837e-05,
+          1.2326e-04,  1.3122e-06],
+        [-4.2878e-06, -1.1392e-05, -1.2048e-05,  ..., -2.3544e-05,
+          2.2985e-06,  2.7511e-06],
+        [-6.5148e-05,  1.2582e-06, -9.3654e-06,  ...,  5.5395e-06,
+          2.4009e-06,  6.1579e-06],
+        ...,
+        [ 2.1353e-05,  6.3032e-06, -2.6584e-04,  ..., -3.4332e-05,
+          2.9597e-06, -8.8513e-05],
+        [ 8.6473e-07, -3.8832e-05, -2.2754e-05,  ...,  4.9211e-06,
+         -4.1462e-06,  5.7705e-06],
+        [ 1.0818e-05,  3.1948e-05,  1.0622e-04,  ...,  2.6554e-05,
+          4.3541e-05,  6.2048e-05]], device='cuda:0')
+Epoch 85, bias, value: tensor([ 0.0056, -0.0172, -0.0177,  0.0331, -0.0329,  0.0272, -0.0283, -0.0147,
+         0.0247, -0.0232], device='cuda:0'), grad: tensor([ 1.4329e-04, -6.3553e-06, -1.1277e-04,  2.1315e-04,  5.8413e-05,
+        -4.2558e-05, -3.7462e-05, -4.5371e-04, -4.4376e-05,  2.8229e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 84, time 214.99, cls_loss 0.0054 cls_loss_mapping 0.0099 cls_loss_causal 0.5800 re_mapping 0.0101 re_causal 0.0298 /// teacc 98.89 lr 0.00010000
+Epoch 86, weight, value: tensor([[-0.0329, -0.0616, -0.0483,  ..., -0.0988, -0.0038,  0.0600],
+        [ 0.0363,  0.0477,  0.0284,  ...,  0.0642, -0.0831, -0.0496],
+        [ 0.0393,  0.0344, -0.0630,  ...,  0.0066, -0.0910, -0.0167],
+        ...,
+        [-0.0293, -0.0308,  0.0537,  ..., -0.0658, -0.0123,  0.0184],
+        [ 0.0055,  0.0719,  0.0931,  ..., -0.0602, -0.0615, -0.0875],
+        [-0.0769,  0.0075, -0.1240,  ..., -0.0480, -0.0450,  0.0458]],
+       device='cuda:0'), grad: tensor([[ 1.0021e-06,  8.0049e-05,  1.6009e-06,  ...,  1.5013e-05,
+          1.7357e-04,  3.3808e-04],
+        [ 2.3711e-06,  5.7667e-06,  6.6869e-06,  ...,  6.9477e-07,
+          2.1867e-06,  3.0473e-06],
+        [-1.7369e-06,  1.3657e-05,  6.7577e-06,  ...,  2.5388e-06,
+          2.6792e-05,  5.2094e-05],
+        ...,
+        [ 2.1774e-06,  4.9770e-06, -8.2403e-06,  ...,  8.0280e-07,
+          3.5334e-06,  2.3991e-06],
+        [-2.5570e-05, -5.9813e-05, -6.3598e-05,  ...,  7.1852e-07,
+          1.0706e-05,  1.9699e-05],
+        [ 1.2778e-05, -9.2328e-05,  3.4958e-05,  ..., -1.9312e-05,
+         -2.6584e-04, -5.3263e-04]], device='cuda:0')
+Epoch 86, bias, value: tensor([ 0.0056, -0.0174, -0.0168,  0.0331, -0.0345,  0.0270, -0.0286, -0.0145,
+         0.0255, -0.0226], device='cuda:0'), grad: tensor([ 5.7793e-04,  1.6928e-05,  8.9705e-05,  3.0011e-05,  1.4663e-04,
+         2.7865e-05,  1.7509e-05,  6.4857e-06, -7.8321e-05, -8.3494e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 85, time 214.83, cls_loss 0.0051 cls_loss_mapping 0.0101 cls_loss_causal 0.5906 re_mapping 0.0101 re_causal 0.0308 /// teacc 98.86 lr 0.00010000
+Epoch 87, weight, value: tensor([[-0.0335, -0.0616, -0.0480,  ..., -0.0983, -0.0038,  0.0601],
+        [ 0.0366,  0.0477,  0.0284,  ...,  0.0641, -0.0848, -0.0499],
+        [ 0.0393,  0.0341, -0.0639,  ...,  0.0063, -0.0918, -0.0170],
+        ...,
+        [-0.0293, -0.0313,  0.0546,  ..., -0.0664, -0.0133,  0.0187],
+        [ 0.0056,  0.0719,  0.0932,  ..., -0.0624, -0.0624, -0.0883],
+        [-0.0774,  0.0079, -0.1248,  ..., -0.0481, -0.0447,  0.0466]],
+       device='cuda:0'), grad: tensor([[ 1.2256e-06,  3.9250e-05,  3.8370e-06,  ...,  3.0436e-06,
+          1.6809e-04,  7.1228e-05],
+        [-2.0433e-06,  4.0904e-06,  2.2829e-05,  ...,  9.4026e-06,
+          1.4290e-05,  2.2128e-05],
+        [-1.2135e-06,  1.3802e-06,  2.3052e-05,  ...,  3.6061e-06,
+          3.8892e-06,  2.0295e-05],
+        ...,
+        [ 9.9279e-07,  3.3099e-06, -8.9931e-04,  ...,  6.7130e-06,
+          6.1132e-06, -7.4291e-04],
+        [-9.9838e-06,  3.1833e-06,  1.1556e-05,  ...,  1.6406e-05,
+          2.2590e-05,  2.5690e-05],
+        [ 2.5127e-06,  1.9744e-05,  7.1907e-04,  ...,  3.7432e-05,
+          3.4094e-05,  5.8126e-04]], device='cuda:0')
+Epoch 87, bias, value: tensor([ 0.0059, -0.0177, -0.0172,  0.0327, -0.0346,  0.0274, -0.0285, -0.0141,
+         0.0251, -0.0223], device='cuda:0'), grad: tensor([ 2.2864e-04,  8.2731e-05,  6.4313e-05,  5.1528e-05,  3.8773e-05,
+         9.3818e-05, -2.0421e-04, -2.4395e-03,  7.9393e-05,  2.0027e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 86, time 215.23, cls_loss 0.0053 cls_loss_mapping 0.0101 cls_loss_causal 0.6068 re_mapping 0.0103 re_causal 0.0304 /// teacc 98.83 lr 0.00010000
+Epoch 88, weight, value: tensor([[-0.0342, -0.0622, -0.0488,  ..., -0.0990, -0.0039,  0.0605],
+        [ 0.0356,  0.0473,  0.0272,  ...,  0.0640, -0.0851, -0.0506],
+        [ 0.0403,  0.0354, -0.0626,  ...,  0.0070, -0.0923, -0.0168],
+        ...,
+        [-0.0283, -0.0313,  0.0565,  ..., -0.0669, -0.0135,  0.0191],
+        [ 0.0052,  0.0715,  0.0930,  ..., -0.0635, -0.0631, -0.0893],
+        [-0.0780,  0.0075, -0.1266,  ..., -0.0499, -0.0470,  0.0465]],
+       device='cuda:0'), grad: tensor([[ 3.1758e-06,  5.4166e-06,  9.9689e-06,  ...,  2.6952e-06,
+         -4.1686e-06, -1.9997e-05],
+        [ 5.9642e-06,  4.5709e-06,  3.3885e-05,  ...,  1.4510e-06,
+          3.3528e-06,  2.6263e-06],
+        [-3.0566e-06,  7.7300e-07,  1.3947e-04,  ...,  1.8282e-06,
+          3.1460e-06,  5.3123e-06],
+        ...,
+        [-8.0645e-05,  1.4296e-06, -4.6706e-04,  ...,  4.2841e-07,
+          7.6229e-07,  7.6890e-06],
+        [ 1.1407e-05,  5.3436e-05,  1.9938e-05,  ...,  2.7373e-05,
+          3.3975e-05,  5.8152e-06],
+        [ 9.7305e-06, -1.5115e-06,  4.7177e-05,  ...,  1.1902e-06,
+          1.5404e-06, -1.5914e-05]], device='cuda:0')
+Epoch 88, bias, value: tensor([ 0.0057, -0.0192, -0.0159,  0.0329, -0.0329,  0.0272, -0.0288, -0.0128,
+         0.0240, -0.0237], device='cuda:0'), grad: tensor([ 6.0387e-06,  9.9719e-05,  3.5310e-04,  4.8518e-04,  8.2135e-05,
+         6.9559e-05, -9.8586e-05, -1.2579e-03,  1.4639e-04,  1.1313e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 87, time 215.11, cls_loss 0.0041 cls_loss_mapping 0.0100 cls_loss_causal 0.6003 re_mapping 0.0094 re_causal 0.0289 /// teacc 98.88 lr 0.00010000
+Epoch 89, weight, value: tensor([[-0.0346, -0.0630, -0.0490,  ..., -0.0995, -0.0044,  0.0611],
+        [ 0.0355,  0.0471,  0.0273,  ...,  0.0639, -0.0856, -0.0513],
+        [ 0.0406,  0.0354, -0.0627,  ...,  0.0071, -0.0929, -0.0174],
+        ...,
+        [-0.0286, -0.0319,  0.0565,  ..., -0.0671, -0.0138,  0.0186],
+        [ 0.0056,  0.0723,  0.0938,  ..., -0.0639, -0.0632, -0.0898],
+        [-0.0785,  0.0075, -0.1271,  ..., -0.0504, -0.0479,  0.0469]],
+       device='cuda:0'), grad: tensor([[ 2.4196e-06,  4.0680e-06,  5.8413e-06,  ...,  1.0775e-06,
+          9.6262e-06,  9.1195e-06],
+        [-3.0518e-05, -2.3708e-05, -3.9250e-05,  ..., -3.0637e-05,
+          8.1351e-07,  2.0955e-06],
+        [ 8.4192e-06,  6.5304e-06,  1.2264e-05,  ...,  5.9269e-06,
+          1.2480e-06,  3.2429e-06],
+        ...,
+        [ 7.1526e-06,  1.4827e-05,  3.8594e-06,  ...,  6.5342e-06,
+          2.1216e-06,  1.7928e-07],
+        [-1.7631e-04, -5.1117e-04, -5.9891e-04,  ...,  4.8093e-06,
+          8.7842e-06, -2.7776e-04],
+        [ 1.7178e-04,  4.8161e-04,  5.7745e-04,  ...,  4.2543e-06,
+          1.3979e-06,  2.5201e-04]], device='cuda:0')
+Epoch 89, bias, value: tensor([ 0.0058, -0.0194, -0.0159,  0.0320, -0.0329,  0.0280, -0.0281, -0.0131,
+         0.0242, -0.0239], device='cuda:0'), grad: tensor([ 2.3663e-05, -5.7220e-05,  2.2978e-05,  5.3287e-05,  1.6659e-05,
+        -8.9824e-05,  7.5996e-05,  1.7643e-05, -1.2541e-03,  1.1902e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 88, time 214.95, cls_loss 0.0044 cls_loss_mapping 0.0105 cls_loss_causal 0.5636 re_mapping 0.0097 re_causal 0.0278 /// teacc 98.97 lr 0.00010000
+Epoch 90, weight, value: tensor([[-0.0353, -0.0635, -0.0497,  ..., -0.0996, -0.0044,  0.0613],
+        [ 0.0358,  0.0471,  0.0275,  ...,  0.0640, -0.0861, -0.0514],
+        [ 0.0404,  0.0351, -0.0637,  ...,  0.0068, -0.0936, -0.0179],
+        ...,
+        [-0.0286, -0.0319,  0.0574,  ..., -0.0673, -0.0145,  0.0187],
+        [ 0.0057,  0.0723,  0.0942,  ..., -0.0645, -0.0637, -0.0907],
+        [-0.0786,  0.0076, -0.1283,  ..., -0.0513, -0.0483,  0.0476]],
+       device='cuda:0'), grad: tensor([[ 2.3246e-06,  3.7681e-06,  2.8238e-06,  ...,  4.0531e-06,
+          8.2850e-06,  1.8617e-06],
+        [-6.2510e-06, -3.3341e-06, -8.3521e-06,  ..., -9.8869e-06,
+          4.6976e-06,  1.0189e-06],
+        [-2.4483e-05,  1.4836e-06,  4.5337e-06,  ...,  3.2391e-06,
+          2.7958e-06,  6.7521e-09],
+        ...,
+        [ 3.0205e-05,  9.8944e-06,  2.9132e-06,  ...,  6.0350e-06,
+          4.3437e-06, -3.8221e-06],
+        [-4.8548e-05, -5.2392e-05, -6.8486e-05,  ...,  7.3910e-06,
+         -1.5631e-05,  5.4128e-06],
+        [ 1.3836e-05,  2.1353e-05,  1.9714e-05,  ...,  1.7822e-05,
+          1.7554e-05, -1.0356e-06]], device='cuda:0')
+Epoch 90, bias, value: tensor([ 0.0059, -0.0193, -0.0164,  0.0320, -0.0327,  0.0276, -0.0277, -0.0127,
+         0.0239, -0.0239], device='cuda:0'), grad: tensor([ 1.4536e-05, -6.9290e-07, -8.1897e-05,  5.0128e-05,  7.8529e-06,
+         7.5586e-06, -1.9781e-06,  9.4056e-05, -1.6081e-04,  7.1108e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 89, time 215.00, cls_loss 0.0050 cls_loss_mapping 0.0083 cls_loss_causal 0.5832 re_mapping 0.0097 re_causal 0.0287 /// teacc 98.84 lr 0.00010000
+Epoch 91, weight, value: tensor([[-0.0358, -0.0640, -0.0501,  ..., -0.0999, -0.0064,  0.0599],
+        [ 0.0371,  0.0479,  0.0286,  ...,  0.0645, -0.0865, -0.0507],
+        [ 0.0399,  0.0345, -0.0649,  ...,  0.0066, -0.0942, -0.0183],
+        ...,
+        [-0.0294, -0.0330,  0.0576,  ..., -0.0674, -0.0129,  0.0181],
+        [ 0.0058,  0.0726,  0.0949,  ..., -0.0650, -0.0644, -0.0912],
+        [-0.0792,  0.0067, -0.1292,  ..., -0.0523, -0.0493,  0.0481]],
+       device='cuda:0'), grad: tensor([[ 3.1721e-06,  8.0645e-05,  7.4040e-07,  ...,  1.1260e-06,
+          3.0428e-05,  1.6296e-04],
+        [ 2.1495e-06,  3.4962e-06,  2.6543e-06,  ..., -8.8941e-07,
+          2.3991e-06,  4.1164e-06],
+        [ 7.4729e-06,  4.5955e-05,  6.5938e-06,  ...,  2.0396e-07,
+          2.2370e-06,  8.6486e-05],
+        ...,
+        [ 9.2387e-06,  1.0751e-05, -1.0341e-05,  ...,  6.9477e-07,
+          2.3302e-06,  7.8008e-06],
+        [ 2.6655e-04,  9.8324e-04,  7.0810e-05,  ...,  1.6382e-06,
+          3.7813e-04,  5.5885e-04],
+        [-3.1281e-04, -1.3075e-03, -8.5413e-05,  ...,  1.3309e-06,
+         -4.1294e-04, -9.7179e-04]], device='cuda:0')
+Epoch 91, bias, value: tensor([ 0.0042, -0.0183, -0.0170,  0.0318, -0.0326,  0.0289, -0.0274, -0.0128,
+         0.0237, -0.0245], device='cuda:0'), grad: tensor([ 1.9920e-04,  1.7613e-05,  1.4114e-04, -7.9572e-05,  1.1599e-04,
+         6.0415e-04, -4.3988e-04,  3.0443e-05,  1.6136e-03, -2.2011e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 90, time 215.02, cls_loss 0.0048 cls_loss_mapping 0.0089 cls_loss_causal 0.5938 re_mapping 0.0095 re_causal 0.0292 /// teacc 98.84 lr 0.00010000
+Epoch 92, weight, value: tensor([[-0.0363, -0.0646, -0.0501,  ..., -0.1002, -0.0065,  0.0603],
+        [ 0.0379,  0.0486,  0.0295,  ...,  0.0645, -0.0870, -0.0519],
+        [ 0.0398,  0.0342, -0.0661,  ...,  0.0065, -0.0950, -0.0190],
+        ...,
+        [-0.0292, -0.0331,  0.0582,  ..., -0.0672, -0.0136,  0.0171],
+        [ 0.0052,  0.0713,  0.0942,  ..., -0.0653, -0.0658, -0.0937],
+        [-0.0796,  0.0073, -0.1292,  ..., -0.0533, -0.0490,  0.0503]],
+       device='cuda:0'), grad: tensor([[ 2.5798e-06,  3.1497e-06,  2.1607e-06,  ...,  8.4331e-07,
+          5.7817e-06,  1.5488e-06],
+        [ 9.5926e-07,  9.1037e-07,  3.8624e-05,  ...,  5.0804e-07,
+          2.4177e-06,  2.5824e-05],
+        [-8.7842e-06, -4.5262e-06,  5.3383e-06,  ...,  5.6019e-07,
+          2.3246e-06,  1.6624e-06],
+        ...,
+        [ 3.9488e-07,  4.0187e-07, -6.3419e-05,  ...,  2.6426e-07,
+          8.9221e-07, -3.9726e-05],
+        [ 7.3500e-06,  9.0301e-06,  2.2035e-06,  ...,  7.7561e-06,
+          1.5303e-05,  6.6869e-06],
+        [ 2.7195e-06,  1.1013e-07,  1.0811e-05,  ...,  1.5981e-06,
+          7.5512e-06,  8.9854e-06]], device='cuda:0')
+Epoch 92, bias, value: tensor([ 0.0043, -0.0179, -0.0175,  0.0313, -0.0325,  0.0292, -0.0273, -0.0127,
+         0.0216, -0.0232], device='cuda:0'), grad: tensor([ 1.3776e-05,  9.2208e-05,  2.5611e-06,  1.1384e-05,  3.3658e-06,
+         1.3900e-04, -2.0003e-04, -1.3649e-04,  4.0650e-05,  3.3289e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 91, time 215.11, cls_loss 0.0050 cls_loss_mapping 0.0115 cls_loss_causal 0.5966 re_mapping 0.0094 re_causal 0.0283 /// teacc 98.79 lr 0.00010000
+Epoch 93, weight, value: tensor([[-0.0373, -0.0649, -0.0508,  ..., -0.1015, -0.0066,  0.0606],
+        [ 0.0379,  0.0494,  0.0296,  ...,  0.0647, -0.0866, -0.0516],
+        [ 0.0406,  0.0343, -0.0664,  ...,  0.0065, -0.0962, -0.0198],
+        ...,
+        [-0.0293, -0.0338,  0.0589,  ..., -0.0677, -0.0143,  0.0179],
+        [ 0.0049,  0.0715,  0.0944,  ..., -0.0656, -0.0659, -0.0949],
+        [-0.0809,  0.0071, -0.1300,  ..., -0.0541, -0.0494,  0.0503]],
+       device='cuda:0'), grad: tensor([[ 1.2191e-06,  5.7463e-07,  8.9500e-07,  ...,  3.0361e-07,
+         -5.0217e-06, -3.8922e-05],
+        [ 6.2538e-07,  9.3319e-07,  2.0061e-06,  ..., -6.9663e-07,
+          7.3668e-07,  1.1157e-06],
+        [-7.0810e-05, -2.7101e-07, -3.5822e-05,  ...,  6.7987e-07,
+          9.5367e-07,  2.7176e-06],
+        ...,
+        [ 1.1381e-06,  2.9039e-06, -2.4334e-05,  ...,  4.2887e-07,
+          4.0582e-07,  1.8897e-06],
+        [ 3.5971e-05, -5.2124e-05, -2.6658e-05,  ..., -1.4924e-05,
+         -1.1642e-06,  3.9451e-06],
+        [ 5.5227e-07, -3.7700e-06,  4.4852e-06,  ...,  2.1909e-07,
+          1.8915e-06,  2.6282e-06]], device='cuda:0')
+Epoch 93, bias, value: tensor([ 0.0042, -0.0177, -0.0172,  0.0319, -0.0324,  0.0284, -0.0271, -0.0123,
+         0.0210, -0.0237], device='cuda:0'), grad: tensor([-4.2677e-05,  5.9344e-06, -7.9751e-05,  7.2002e-05,  1.7643e-05,
+        -1.9276e-04,  2.4748e-04, -3.3468e-05, -6.8322e-06,  1.1988e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 92, time 215.06, cls_loss 0.0049 cls_loss_mapping 0.0103 cls_loss_causal 0.5732 re_mapping 0.0097 re_causal 0.0280 /// teacc 98.96 lr 0.00010000
+Epoch 94, weight, value: tensor([[-0.0383, -0.0653, -0.0515,  ..., -0.1016, -0.0064,  0.0609],
+        [ 0.0383,  0.0499,  0.0302,  ...,  0.0653, -0.0869, -0.0522],
+        [ 0.0403,  0.0344, -0.0664,  ...,  0.0063, -0.0966, -0.0196],
+        ...,
+        [-0.0306, -0.0357,  0.0586,  ..., -0.0687, -0.0147,  0.0169],
+        [ 0.0055,  0.0721,  0.0952,  ..., -0.0659, -0.0660, -0.0933],
+        [-0.0832,  0.0075, -0.1306,  ..., -0.0543, -0.0498,  0.0508]],
+       device='cuda:0'), grad: tensor([[ 1.5311e-06,  1.5069e-06,  1.5810e-05,  ...,  1.3188e-06,
+          4.9323e-06,  8.1286e-06],
+        [ 6.6357e-07,  6.3842e-07,  1.3910e-05,  ..., -4.8801e-06,
+          2.3786e-06,  1.1504e-05],
+        [-2.8964e-06,  1.7695e-06,  1.3314e-05,  ...,  1.0682e-06,
+          3.3956e-06,  7.6666e-06],
+        ...,
+        [-5.1335e-06,  1.6866e-06, -1.9193e-04,  ..., -1.5758e-06,
+         -4.8339e-05, -1.4997e-04],
+        [-1.2435e-05, -1.1660e-05, -1.1787e-05,  ...,  9.5461e-07,
+          2.0396e-07,  5.5805e-06],
+        [ 1.0155e-05,  2.8536e-06,  6.2108e-05,  ...,  1.6345e-06,
+          1.3292e-05,  4.0621e-05]], device='cuda:0')
+Epoch 94, bias, value: tensor([ 0.0042, -0.0174, -0.0175,  0.0329, -0.0324,  0.0288, -0.0277, -0.0136,
+         0.0225, -0.0240], device='cuda:0'), grad: tensor([ 3.4869e-05,  2.9311e-05,  1.8910e-05,  1.7691e-04,  2.0698e-05,
+         5.0068e-05, -4.4256e-06, -4.5490e-04, -1.2018e-05,  1.4102e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 93, time 214.97, cls_loss 0.0041 cls_loss_mapping 0.0105 cls_loss_causal 0.5656 re_mapping 0.0095 re_causal 0.0271 /// teacc 98.79 lr 0.00010000
+Epoch 95, weight, value: tensor([[-0.0389, -0.0659, -0.0525,  ..., -0.1018, -0.0055,  0.0616],
+        [ 0.0389,  0.0498,  0.0308,  ...,  0.0657, -0.0873, -0.0520],
+        [ 0.0398,  0.0341, -0.0675,  ...,  0.0063, -0.0972, -0.0204],
+        ...,
+        [-0.0315, -0.0361,  0.0586,  ..., -0.0692, -0.0149,  0.0173],
+        [ 0.0065,  0.0729,  0.0968,  ..., -0.0660, -0.0665, -0.0929],
+        [-0.0840,  0.0074, -0.1319,  ..., -0.0548, -0.0504,  0.0506]],
+       device='cuda:0'), grad: tensor([[ 1.8002e-06,  2.4568e-06,  2.6748e-06,  ...,  1.0198e-06,
+          6.3051e-07,  1.3821e-06],
+        [ 3.1090e-04,  1.1688e-04,  5.8174e-04,  ...,  1.2234e-05,
+          1.8366e-06,  3.0436e-06],
+        [ 2.1935e-05,  3.5226e-05,  4.8786e-05,  ...,  1.4059e-05,
+          1.1409e-06,  9.8571e-06],
+        ...,
+        [-3.7122e-04, -7.6234e-05, -7.3910e-04,  ...,  9.3356e-06,
+          2.5574e-06, -1.1377e-05],
+        [-5.4874e-06, -6.2883e-05,  3.3319e-05,  ..., -3.9935e-05,
+          9.0003e-06,  4.1753e-05],
+        [ 1.3798e-05, -1.1426e-04, -7.3537e-06,  ...,  2.6226e-06,
+         -2.9624e-05, -1.4842e-04]], device='cuda:0')
+Epoch 95, bias, value: tensor([ 0.0046, -0.0171, -0.0183,  0.0330, -0.0323,  0.0290, -0.0279, -0.0136,
+         0.0233, -0.0247], device='cuda:0'), grad: tensor([ 7.6890e-06,  6.1178e-04,  7.0274e-05,  2.1204e-05,  1.9562e-04,
+         3.3140e-05,  8.2096e-07, -7.2336e-04,  5.4508e-05, -2.7156e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 94, time 215.14, cls_loss 0.0039 cls_loss_mapping 0.0079 cls_loss_causal 0.6011 re_mapping 0.0095 re_causal 0.0289 /// teacc 98.78 lr 0.00010000
+Epoch 96, weight, value: tensor([[-0.0393, -0.0662, -0.0529,  ..., -0.1026, -0.0055,  0.0619],
+        [ 0.0388,  0.0495,  0.0306,  ...,  0.0657, -0.0878, -0.0520],
+        [ 0.0396,  0.0337, -0.0690,  ...,  0.0058, -0.0986, -0.0207],
+        ...,
+        [-0.0313, -0.0363,  0.0594,  ..., -0.0691, -0.0143,  0.0174],
+        [ 0.0078,  0.0740,  0.0987,  ..., -0.0652, -0.0665, -0.0933],
+        [-0.0844,  0.0074, -0.1325,  ..., -0.0553, -0.0510,  0.0510]],
+       device='cuda:0'), grad: tensor([[ 2.3171e-06,  2.6822e-06,  3.2801e-06,  ...,  4.6529e-06,
+          3.6154e-06, -7.6830e-05],
+        [-1.1325e-04, -8.6427e-05, -1.0693e-04,  ..., -1.1456e-04,
+          5.1223e-07,  1.5631e-05],
+        [ 1.4615e-04,  4.0948e-05,  8.2254e-05,  ...,  4.2319e-05,
+          1.7919e-06,  6.4552e-05],
+        ...,
+        [-2.9728e-05, -6.7353e-05, -1.2898e-04,  ...,  5.1968e-06,
+          3.2922e-07, -5.2154e-05],
+        [ 7.7784e-05,  4.7237e-05,  6.9499e-05,  ...,  4.8935e-05,
+          2.5928e-06,  5.9716e-06],
+        [ 2.7105e-05,  3.5703e-05,  7.2360e-05,  ...,  1.2908e-06,
+          1.9046e-07,  2.4751e-05]], device='cuda:0')
+Epoch 96, bias, value: tensor([ 0.0047, -0.0176, -0.0188,  0.0323, -0.0324,  0.0290, -0.0278, -0.0128,
+         0.0244, -0.0247], device='cuda:0'), grad: tensor([-1.0043e-04, -1.1122e-04,  3.4857e-04, -2.3329e-04,  2.9564e-05,
+         2.6315e-05,  2.1756e-06, -2.4581e-04,  1.3840e-04,  1.4555e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 95, time 214.71, cls_loss 0.0037 cls_loss_mapping 0.0089 cls_loss_causal 0.5976 re_mapping 0.0089 re_causal 0.0275 /// teacc 98.86 lr 0.00010000
+Epoch 97, weight, value: tensor([[-0.0399, -0.0667, -0.0533,  ..., -0.1030, -0.0056,  0.0622],
+        [ 0.0389,  0.0495,  0.0310,  ...,  0.0664, -0.0868, -0.0503],
+        [ 0.0401,  0.0337, -0.0692,  ...,  0.0056, -0.0991, -0.0211],
+        ...,
+        [-0.0315, -0.0364,  0.0597,  ..., -0.0697, -0.0149,  0.0171],
+        [ 0.0078,  0.0742,  0.0988,  ..., -0.0652, -0.0671, -0.0938],
+        [-0.0849,  0.0076, -0.1336,  ..., -0.0557, -0.0515,  0.0511]],
+       device='cuda:0'), grad: tensor([[ 6.4867e-07,  1.0310e-06,  1.0720e-06,  ...,  2.7139e-06,
+          4.8317e-06, -6.8033e-07],
+        [ 3.6601e-06,  4.1835e-06,  6.4485e-06,  ...,  1.7490e-06,
+          1.1921e-06,  4.9407e-07],
+        [-1.4910e-06,  1.7798e-06,  2.7586e-06,  ...,  8.6008e-07,
+          1.0449e-06,  6.2445e-07],
+        ...,
+        [ 1.8068e-06,  2.1830e-06, -1.0477e-07,  ...,  6.5099e-07,
+          4.3213e-07,  1.7844e-06],
+        [-2.6822e-05, -2.1875e-05, -3.0816e-05,  ..., -1.2452e-06,
+         -2.6263e-06, -4.5635e-07],
+        [ 2.8647e-06, -1.7146e-06,  3.2261e-06,  ...,  1.4538e-06,
+          1.9427e-06, -8.2031e-06]], device='cuda:0')
+Epoch 97, bias, value: tensor([ 0.0046, -0.0168, -0.0185,  0.0326, -0.0325,  0.0288, -0.0279, -0.0132,
+         0.0241, -0.0251], device='cuda:0'), grad: tensor([ 6.1467e-06,  9.6262e-06, -2.4028e-07,  3.0503e-05,  1.7602e-06,
+         1.2003e-05, -8.2925e-06,  4.5970e-06, -5.3495e-05, -2.5965e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 96, time 214.98, cls_loss 0.0039 cls_loss_mapping 0.0083 cls_loss_causal 0.5718 re_mapping 0.0088 re_causal 0.0266 /// teacc 98.94 lr 0.00010000
+Epoch 98, weight, value: tensor([[-0.0402, -0.0672, -0.0535,  ..., -0.1049, -0.0064,  0.0629],
+        [ 0.0387,  0.0490,  0.0310,  ...,  0.0663, -0.0873, -0.0513],
+        [ 0.0402,  0.0336, -0.0697,  ...,  0.0056, -0.0996, -0.0222],
+        ...,
+        [-0.0317, -0.0370,  0.0599,  ..., -0.0700, -0.0151,  0.0169],
+        [ 0.0085,  0.0748,  0.0996,  ..., -0.0653, -0.0672, -0.0941],
+        [-0.0852,  0.0088, -0.1342,  ..., -0.0559, -0.0518,  0.0522]],
+       device='cuda:0'), grad: tensor([[ 1.3262e-06,  2.1867e-06,  4.1863e-07,  ...,  1.7956e-06,
+         -6.8367e-05, -2.7585e-04],
+        [-5.4985e-06, -2.9132e-06, -1.7630e-06,  ..., -3.7178e-06,
+          7.6219e-06,  5.6662e-06],
+        [-1.2301e-05, -6.1095e-06,  1.1614e-06,  ...,  3.0808e-06,
+          1.5765e-05,  4.6462e-05],
+        ...,
+        [ 2.3618e-06,  3.3639e-06, -8.6948e-06,  ...,  6.3740e-06,
+          4.5635e-06,  2.4047e-06],
+        [ 7.0073e-06,  4.3921e-06, -6.7567e-07,  ...,  1.5460e-06,
+          3.1918e-05,  7.1645e-05],
+        [ 2.4289e-06,  3.3844e-06,  5.6475e-06,  ...,  4.4033e-06,
+          2.5973e-05,  7.6115e-05]], device='cuda:0')
+Epoch 98, bias, value: tensor([ 0.0046, -0.0174, -0.0187,  0.0327, -0.0329,  0.0280, -0.0271, -0.0132,
+         0.0244, -0.0243], device='cuda:0'), grad: tensor([-3.1638e-04,  8.9630e-06,  3.8087e-05, -1.1645e-05, -8.3447e-06,
+        -1.3018e-04,  1.9765e-04,  4.4927e-06,  1.1128e-04,  1.0610e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 97, time 215.13, cls_loss 0.0039 cls_loss_mapping 0.0091 cls_loss_causal 0.5324 re_mapping 0.0091 re_causal 0.0253 /// teacc 98.88 lr 0.00010000
+Epoch 99, weight, value: tensor([[-0.0406, -0.0673, -0.0530,  ..., -0.1052, -0.0060,  0.0634],
+        [ 0.0386,  0.0488,  0.0309,  ...,  0.0667, -0.0876, -0.0517],
+        [ 0.0405,  0.0337, -0.0699,  ...,  0.0054, -0.1002, -0.0226],
+        ...,
+        [-0.0314, -0.0369,  0.0605,  ..., -0.0701, -0.0153,  0.0171],
+        [ 0.0089,  0.0765,  0.1001,  ..., -0.0656, -0.0668, -0.0946],
+        [-0.0858,  0.0085, -0.1351,  ..., -0.0568, -0.0522,  0.0526]],
+       device='cuda:0'), grad: tensor([[ 2.4974e-05,  1.4976e-05,  1.2256e-05,  ...,  8.4564e-07,
+         -1.8319e-06, -6.6608e-06],
+        [ 1.4178e-05,  9.3803e-06,  1.3992e-05,  ...,  1.7611e-06,
+          1.8282e-06,  7.5996e-06],
+        [-5.6744e-05,  2.5909e-06,  8.7172e-06,  ...,  1.6876e-06,
+          2.8014e-06, -8.8587e-06],
+        ...,
+        [ 2.7284e-05,  6.6608e-06, -2.2858e-05,  ...,  4.5076e-06,
+          2.2948e-06, -1.3933e-05],
+        [-1.1855e-04, -8.8394e-05, -8.2374e-05,  ..., -9.6206e-07,
+          3.8184e-07,  1.8310e-06],
+        [ 2.1622e-05,  2.2441e-05,  2.1368e-05,  ...,  1.3225e-05,
+          7.2829e-06,  1.0096e-05]], device='cuda:0')
+Epoch 99, bias, value: tensor([ 0.0053, -0.0179, -0.0185,  0.0322, -0.0325,  0.0282, -0.0284, -0.0127,
+         0.0252, -0.0246], device='cuda:0'), grad: tensor([ 6.5863e-05,  6.3181e-05, -6.4552e-05,  2.1851e-04, -2.1532e-05,
+        -1.7107e-05,  2.6077e-05,  5.0617e-07, -3.8314e-04,  1.1182e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 98, time 214.67, cls_loss 0.0039 cls_loss_mapping 0.0085 cls_loss_causal 0.5938 re_mapping 0.0086 re_causal 0.0269 /// teacc 98.96 lr 0.00010000
+Epoch 100, weight, value: tensor([[-0.0415, -0.0676, -0.0539,  ..., -0.1059, -0.0061,  0.0633],
+        [ 0.0390,  0.0490,  0.0312,  ...,  0.0672, -0.0881, -0.0517],
+        [ 0.0409,  0.0338, -0.0701,  ...,  0.0050, -0.1006, -0.0238],
+        ...,
+        [-0.0319, -0.0373,  0.0606,  ..., -0.0707, -0.0154,  0.0171],
+        [ 0.0088,  0.0766,  0.1006,  ..., -0.0657, -0.0675, -0.0951],
+        [-0.0865,  0.0086, -0.1361,  ..., -0.0571, -0.0527,  0.0531]],
+       device='cuda:0'), grad: tensor([[ 5.0031e-06,  3.4198e-06,  3.1153e-07,  ...,  2.9430e-07,
+         -9.5554e-07,  2.3422e-03],
+        [ 1.8245e-06,  4.8894e-07, -2.9802e-06,  ..., -5.0366e-06,
+          2.0489e-07,  2.9709e-06],
+        [-6.5088e-05, -2.2233e-05, -3.1088e-06,  ...,  9.4436e-07,
+          3.2503e-07,  3.0726e-05],
+        ...,
+        [ 2.4810e-05,  4.3437e-06,  6.1840e-07,  ...,  2.3916e-06,
+          2.2678e-07,  8.1956e-06],
+        [ 2.2694e-05,  1.2323e-05,  1.3765e-06,  ...,  7.7253e-07,
+          5.2201e-07,  1.9163e-05],
+        [ 1.2470e-06, -1.1824e-05,  1.1632e-06,  ...,  3.8603e-07,
+          7.2503e-07, -2.4872e-03]], device='cuda:0')
+Epoch 100, bias, value: tensor([ 0.0051, -0.0177, -0.0184,  0.0320, -0.0327,  0.0289, -0.0281, -0.0130,
+         0.0249, -0.0247], device='cuda:0'), grad: tensor([ 2.4681e-03,  7.9870e-06, -1.2118e-04,  1.1593e-05,  6.7174e-05,
+         1.7628e-05,  2.5243e-05,  6.6280e-05,  6.9380e-05, -2.6131e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 99, time 214.82, cls_loss 0.0044 cls_loss_mapping 0.0091 cls_loss_causal 0.5661 re_mapping 0.0090 re_causal 0.0263 /// teacc 98.88 lr 0.00010000
+Epoch 101, weight, value: tensor([[-0.0425, -0.0682, -0.0553,  ..., -0.1066, -0.0062,  0.0629],
+        [ 0.0391,  0.0489,  0.0311,  ...,  0.0669, -0.0888, -0.0518],
+        [ 0.0413,  0.0342, -0.0701,  ...,  0.0053, -0.1010, -0.0248],
+        ...,
+        [-0.0322, -0.0382,  0.0611,  ..., -0.0707, -0.0155,  0.0166],
+        [ 0.0090,  0.0773,  0.1015,  ..., -0.0664, -0.0678, -0.0955],
+        [-0.0867,  0.0083, -0.1375,  ..., -0.0581, -0.0534,  0.0542]],
+       device='cuda:0'), grad: tensor([[ 1.6009e-06,  3.3770e-06,  1.5721e-06,  ...,  2.6301e-06,
+          2.6133e-06, -1.7527e-06],
+        [-1.0379e-05, -9.4920e-06, -1.4611e-05,  ..., -8.0615e-06,
+          1.9278e-06,  1.5441e-06],
+        [ 7.7635e-06,  1.1198e-05,  7.2531e-06,  ...,  7.9498e-06,
+          4.3288e-06,  3.8855e-06],
+        ...,
+        [ 7.2718e-06,  2.9840e-06,  3.2987e-06,  ...,  2.7679e-06,
+          4.2543e-06,  8.1435e-06],
+        [ 1.9178e-05,  5.2117e-06,  1.0818e-05,  ...,  5.2825e-06,
+          1.1317e-05,  1.7822e-05],
+        [ 1.7747e-05,  2.4308e-06,  8.6129e-06,  ...,  2.1253e-06,
+          9.1791e-06,  2.1681e-05]], device='cuda:0')
+Epoch 101, bias, value: tensor([ 0.0042, -0.0181, -0.0181,  0.0315, -0.0319,  0.0294, -0.0288, -0.0132,
+         0.0253, -0.0244], device='cuda:0'), grad: tensor([ 1.0043e-05, -1.0714e-05,  3.8356e-05, -2.9516e-04,  5.9791e-06,
+         3.9399e-05, -3.3528e-05,  3.4899e-05,  1.0884e-04,  1.0192e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 100, time 214.89, cls_loss 0.0041 cls_loss_mapping 0.0098 cls_loss_causal 0.5628 re_mapping 0.0088 re_causal 0.0258 /// teacc 99.02 lr 0.00010000
+Epoch 102, weight, value: tensor([[-0.0431, -0.0704, -0.0559,  ..., -0.1072, -0.0063,  0.0605],
+        [ 0.0397,  0.0490,  0.0314,  ...,  0.0674, -0.0895, -0.0523],
+        [ 0.0412,  0.0341, -0.0711,  ...,  0.0047, -0.1016, -0.0256],
+        ...,
+        [-0.0323, -0.0385,  0.0618,  ..., -0.0710, -0.0156,  0.0168],
+        [ 0.0087,  0.0771,  0.1013,  ..., -0.0674, -0.0687, -0.0964],
+        [-0.0870,  0.0086, -0.1384,  ..., -0.0585, -0.0537,  0.0569]],
+       device='cuda:0'), grad: tensor([[ 5.2154e-07,  1.6272e-05,  4.7917e-07,  ...,  3.0510e-06,
+          1.9625e-05, -1.1164e-04],
+        [-2.0146e-05, -1.2547e-05, -1.9506e-05,  ..., -2.0102e-05,
+          1.5674e-06,  1.9670e-06],
+        [ 1.0572e-05,  1.1466e-05,  1.4760e-05,  ...,  1.3396e-05,
+          3.0678e-06,  4.7117e-05],
+        ...,
+        [ 4.9584e-06,  1.1101e-05, -1.0759e-05,  ...,  1.8865e-05,
+          9.5665e-06, -3.7160e-06],
+        [-9.9745e-07,  8.0885e-07, -1.9334e-06,  ...,  2.0042e-06,
+          6.8545e-06,  9.1940e-06],
+        [ 1.0300e-06, -7.8417e-07,  2.1495e-06,  ...,  1.5013e-06,
+          3.2634e-06,  2.7969e-05]], device='cuda:0')
+Epoch 102, bias, value: tensor([ 0.0018, -0.0179, -0.0188,  0.0317, -0.0320,  0.0295, -0.0280, -0.0127,
+         0.0241, -0.0230], device='cuda:0'), grad: tensor([-1.4460e-04, -3.1650e-05,  1.0139e-04,  1.4976e-05, -8.0094e-06,
+         7.5221e-05, -8.6844e-05,  5.2415e-06,  2.2292e-05,  5.2035e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 101, time 214.98, cls_loss 0.0033 cls_loss_mapping 0.0070 cls_loss_causal 0.5860 re_mapping 0.0085 re_causal 0.0259 /// teacc 98.88 lr 0.00010000
+Epoch 103, weight, value: tensor([[-0.0437, -0.0707, -0.0562,  ..., -0.1072, -0.0048,  0.0612],
+        [ 0.0399,  0.0490,  0.0315,  ...,  0.0676, -0.0901, -0.0523],
+        [ 0.0414,  0.0341, -0.0714,  ...,  0.0044, -0.1021, -0.0258],
+        ...,
+        [-0.0326, -0.0390,  0.0619,  ..., -0.0715, -0.0160,  0.0167],
+        [ 0.0086,  0.0772,  0.1017,  ..., -0.0681, -0.0692, -0.0969],
+        [-0.0874,  0.0079, -0.1390,  ..., -0.0599, -0.0551,  0.0568]],
+       device='cuda:0'), grad: tensor([[ 6.8545e-07,  6.9663e-07,  7.0315e-08,  ..., -7.5158e-07,
+         -3.1739e-06, -5.7369e-06],
+        [-1.1083e-07,  2.3190e-07, -3.9954e-07,  ..., -2.9569e-07,
+          2.4447e-07,  8.2701e-07],
+        [-6.1430e-06, -4.9435e-06,  2.8405e-06,  ...,  5.9046e-07,
+          5.7463e-07,  7.5344e-07],
+        ...,
+        [-5.1446e-06,  2.1141e-06, -1.0855e-05,  ...,  1.0803e-06,
+          6.2026e-07,  3.5278e-06],
+        [ 9.4399e-06,  8.1584e-06,  5.6112e-07,  ...,  8.1817e-07,
+          1.3784e-06,  5.9009e-06],
+        [ 7.1013e-07, -9.9763e-06,  4.8010e-07,  ...,  9.8441e-07,
+          1.0012e-06, -1.7911e-05]], device='cuda:0')
+Epoch 103, bias, value: tensor([ 0.0028, -0.0179, -0.0186,  0.0319, -0.0307,  0.0293, -0.0285, -0.0130,
+         0.0237, -0.0238], device='cuda:0'), grad: tensor([-6.7167e-06,  2.4997e-06, -3.2075e-06,  8.2403e-06,  1.6078e-05,
+         5.4538e-06,  2.1905e-06, -9.3728e-06,  3.1441e-05, -4.6641e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 102, time 215.23, cls_loss 0.0038 cls_loss_mapping 0.0073 cls_loss_causal 0.5548 re_mapping 0.0090 re_causal 0.0262 /// teacc 98.94 lr 0.00010000
+Epoch 104, weight, value: tensor([[-0.0441, -0.0710, -0.0567,  ..., -0.1075, -0.0047,  0.0614],
+        [ 0.0405,  0.0490,  0.0317,  ...,  0.0680, -0.0911, -0.0530],
+        [ 0.0412,  0.0339, -0.0719,  ...,  0.0039, -0.1026, -0.0264],
+        ...,
+        [-0.0332, -0.0392,  0.0618,  ..., -0.0720, -0.0163,  0.0168],
+        [ 0.0088,  0.0775,  0.1022,  ..., -0.0684, -0.0698, -0.0971],
+        [-0.0880,  0.0081, -0.1398,  ..., -0.0602, -0.0551,  0.0571]],
+       device='cuda:0'), grad: tensor([[ 2.0817e-05,  6.1607e-07,  1.3299e-06,  ...,  1.4780e-06,
+         -1.9297e-06, -8.6948e-06],
+        [ 6.0275e-06,  1.0729e-06,  1.4782e-05,  ...,  3.5558e-06,
+          4.0010e-06,  7.4180e-07],
+        [ 9.7454e-06,  1.2899e-06,  7.6294e-05,  ...,  3.4831e-06,
+          1.7937e-06, -6.5118e-06],
+        ...,
+        [-7.1943e-05,  1.5562e-06, -1.6701e-04,  ...,  4.2766e-06,
+          1.8394e-06, -1.0645e-06],
+        [ 9.6187e-06,  4.5681e-07,  1.6242e-05,  ...,  4.6343e-06,
+          5.9009e-06,  2.2147e-06],
+        [ 1.5110e-05,  3.9667e-05,  3.0190e-05,  ...,  1.1355e-04,
+          5.4181e-05,  5.0291e-06]], device='cuda:0')
+Epoch 104, bias, value: tensor([ 0.0032, -0.0180, -0.0192,  0.0326, -0.0310,  0.0302, -0.0287, -0.0140,
+         0.0236, -0.0236], device='cuda:0'), grad: tensor([ 1.0604e-04,  5.4628e-05,  1.5870e-05,  4.9740e-05, -2.4676e-04,
+         1.2860e-05,  1.4350e-05, -3.5858e-04,  5.7966e-05,  2.9349e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 103, time 215.32, cls_loss 0.0038 cls_loss_mapping 0.0088 cls_loss_causal 0.5732 re_mapping 0.0085 re_causal 0.0252 /// teacc 98.85 lr 0.00010000
+Epoch 105, weight, value: tensor([[-0.0450, -0.0713, -0.0564,  ..., -0.1078, -0.0048,  0.0616],
+        [ 0.0405,  0.0492,  0.0318,  ...,  0.0686, -0.0915, -0.0532],
+        [ 0.0413,  0.0337, -0.0725,  ...,  0.0035, -0.1033, -0.0267],
+        ...,
+        [-0.0327, -0.0395,  0.0626,  ..., -0.0721, -0.0164,  0.0170],
+        [ 0.0089,  0.0776,  0.1026,  ..., -0.0688, -0.0704, -0.0976],
+        [-0.0887,  0.0069, -0.1410,  ..., -0.0620, -0.0564,  0.0573]],
+       device='cuda:0'), grad: tensor([[ 3.5986e-06,  5.6103e-06,  8.6203e-06,  ...,  2.4997e-06,
+         -2.5928e-06, -1.0155e-05],
+        [-6.8665e-05, -5.7220e-05, -1.7476e-04,  ..., -9.7454e-05,
+         -9.3207e-06,  6.3442e-06],
+        [-1.4156e-07,  3.0082e-06,  6.9849e-06,  ...,  3.3360e-06,
+          9.3039e-07,  9.1922e-07],
+        ...,
+        [ 2.7139e-06,  1.7956e-06, -1.8090e-05,  ...,  2.4494e-06,
+         -6.6962e-07, -5.1335e-06],
+        [ 9.4771e-06,  2.4159e-06,  2.8029e-05,  ...,  1.8865e-05,
+          1.6525e-05,  9.3132e-06],
+        [ 1.6289e-06,  1.2685e-06,  8.4043e-06,  ...,  1.3085e-06,
+          6.2644e-05,  6.7949e-05]], device='cuda:0')
+Epoch 105, bias, value: tensor([ 0.0035, -0.0182, -0.0192,  0.0328, -0.0293,  0.0301, -0.0290, -0.0135,
+         0.0232, -0.0248], device='cuda:0'), grad: tensor([ 2.6803e-06, -2.4652e-04,  8.5533e-06,  1.0544e-04,  3.3438e-05,
+        -3.3021e-04,  2.5320e-04, -2.8059e-05,  6.1631e-05,  1.3983e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 104, time 215.08, cls_loss 0.0038 cls_loss_mapping 0.0084 cls_loss_causal 0.5827 re_mapping 0.0081 re_causal 0.0252 /// teacc 98.93 lr 0.00010000
+Epoch 106, weight, value: tensor([[-0.0459, -0.0721, -0.0571,  ..., -0.1082, -0.0062,  0.0613],
+        [ 0.0401,  0.0486,  0.0317,  ...,  0.0692, -0.0917, -0.0534],
+        [ 0.0416,  0.0340, -0.0727,  ...,  0.0034, -0.1037, -0.0267],
+        ...,
+        [-0.0331, -0.0397,  0.0628,  ..., -0.0724, -0.0166,  0.0169],
+        [ 0.0102,  0.0779,  0.1040,  ..., -0.0693, -0.0721, -0.0983],
+        [-0.0890,  0.0070, -0.1413,  ..., -0.0625, -0.0571,  0.0576]],
+       device='cuda:0'), grad: tensor([[ 3.5437e-07,  5.9698e-07,  2.3609e-07,  ...,  4.3958e-07,
+         -5.4482e-07, -7.6257e-06],
+        [-6.2361e-06, -1.7677e-06, -7.7188e-06,  ..., -2.2110e-06,
+          7.1013e-07, -3.0976e-06],
+        [-8.6799e-07,  1.1642e-07,  1.2955e-06,  ...,  8.8802e-07,
+          8.7731e-07,  7.7905e-07],
+        ...,
+        [ 1.9707e-06,  8.4797e-07, -2.7148e-07,  ...,  1.2964e-06,
+          8.8103e-07,  5.2294e-07],
+        [ 5.1633e-06,  3.0734e-06,  2.2482e-06,  ...,  2.3432e-06,
+          3.1404e-06,  1.9614e-06],
+        [ 2.3153e-06,  1.3057e-06,  3.6061e-06,  ...,  1.5376e-06,
+          1.2619e-06,  3.7737e-06]], device='cuda:0')
+Epoch 106, bias, value: tensor([ 0.0027, -0.0191, -0.0186,  0.0329, -0.0291,  0.0303, -0.0285, -0.0136,
+         0.0235, -0.0248], device='cuda:0'), grad: tensor([-7.7263e-06, -9.2462e-06,  1.9632e-06, -4.7088e-06,  9.3598e-07,
+        -2.5239e-06, -7.1265e-06,  2.5779e-06,  1.6421e-05,  9.3579e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 105, time 215.22, cls_loss 0.0034 cls_loss_mapping 0.0066 cls_loss_causal 0.5553 re_mapping 0.0084 re_causal 0.0244 /// teacc 98.92 lr 0.00010000
+Epoch 107, weight, value: tensor([[-0.0463, -0.0726, -0.0575,  ..., -0.1085, -0.0056,  0.0618],
+        [ 0.0402,  0.0486,  0.0319,  ...,  0.0695, -0.0922, -0.0535],
+        [ 0.0420,  0.0343, -0.0731,  ...,  0.0033, -0.1044, -0.0273],
+        ...,
+        [-0.0331, -0.0400,  0.0636,  ..., -0.0725, -0.0166,  0.0170],
+        [ 0.0098,  0.0778,  0.1039,  ..., -0.0698, -0.0729, -0.0989],
+        [-0.0897,  0.0070, -0.1426,  ..., -0.0630, -0.0576,  0.0578]],
+       device='cuda:0'), grad: tensor([[ 2.0918e-06, -2.9698e-05,  4.1500e-06,  ...,  1.4277e-06,
+         -9.5069e-05, -1.5354e-04],
+        [ 6.1691e-06, -4.4480e-06,  2.0683e-05,  ..., -5.6550e-06,
+          1.1940e-06,  2.4168e-07],
+        [ 2.9981e-05,  2.3618e-06,  6.3062e-05,  ...,  1.0952e-06,
+          2.4550e-06,  3.8296e-06],
+        ...,
+        [-1.6510e-04,  2.1141e-06, -3.4356e-04,  ...,  1.9390e-06,
+          6.3423e-07,  2.2314e-06],
+        [ 4.9889e-05,  1.9148e-05,  1.0151e-04,  ...,  1.2023e-06,
+          1.6272e-05,  3.6150e-05],
+        [ 7.3351e-06, -2.6613e-05,  1.2584e-05,  ...,  1.1725e-06,
+          1.5527e-05, -9.1791e-06]], device='cuda:0')
+Epoch 107, bias, value: tensor([ 0.0034, -0.0192, -0.0186,  0.0333, -0.0296,  0.0298, -0.0280, -0.0129,
+         0.0227, -0.0250], device='cuda:0'), grad: tensor([-3.5930e-04,  3.0816e-05,  9.7990e-05,  2.5630e-04,  7.1108e-05,
+         6.2704e-05,  8.5175e-05, -4.8089e-04,  2.3127e-04,  4.4703e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 106, time 215.04, cls_loss 0.0031 cls_loss_mapping 0.0074 cls_loss_causal 0.5595 re_mapping 0.0082 re_causal 0.0253 /// teacc 98.90 lr 0.00010000
+Epoch 108, weight, value: tensor([[-0.0468, -0.0731, -0.0580,  ..., -0.1088, -0.0056,  0.0618],
+        [ 0.0410,  0.0491,  0.0328,  ...,  0.0703, -0.0924, -0.0535],
+        [ 0.0421,  0.0344, -0.0736,  ...,  0.0031, -0.1047, -0.0273],
+        ...,
+        [-0.0333, -0.0405,  0.0638,  ..., -0.0731, -0.0169,  0.0168],
+        [ 0.0097,  0.0774,  0.1036,  ..., -0.0708, -0.0735, -0.0993],
+        [-0.0899,  0.0075, -0.1439,  ..., -0.0632, -0.0577,  0.0585]],
+       device='cuda:0'), grad: tensor([[ 6.1141e-07,  1.3486e-06,  4.9779e-07,  ...,  7.4552e-07,
+          2.3879e-06, -2.0722e-07],
+        [-4.3027e-06, -1.9781e-06, -5.4091e-06,  ..., -3.6377e-06,
+          8.0513e-07,  1.0412e-06],
+        [-3.8370e-06, -1.0813e-06,  4.9807e-06,  ...,  1.2023e-06,
+          4.0932e-07,  4.0652e-07],
+        ...,
+        [-2.4606e-06,  6.7009e-07, -1.4238e-05,  ...,  6.5379e-07,
+          2.4214e-07, -8.9332e-06],
+        [-7.2233e-06, -2.1338e-05, -1.1623e-05,  ...,  9.8646e-06,
+          4.7922e-05,  1.2480e-06],
+        [ 2.1160e-05,  2.8059e-05,  2.1964e-05,  ...,  3.9581e-07,
+          1.4231e-06,  1.4216e-05]], device='cuda:0')
+Epoch 108, bias, value: tensor([ 0.0033, -0.0184, -0.0183,  0.0337, -0.0301,  0.0297, -0.0278, -0.0135,
+         0.0218, -0.0246], device='cuda:0'), grad: tensor([ 4.9882e-06, -1.2247e-06,  3.0473e-06, -7.6443e-06,  9.2238e-06,
+        -1.2350e-04,  3.5614e-05, -2.4438e-05,  3.0160e-05,  7.3910e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 107, time 215.16, cls_loss 0.0042 cls_loss_mapping 0.0085 cls_loss_causal 0.5949 re_mapping 0.0085 re_causal 0.0260 /// teacc 98.89 lr 0.00010000
+Epoch 109, weight, value: tensor([[-0.0477, -0.0748, -0.0585,  ..., -0.1083, -0.0051,  0.0620],
+        [ 0.0422,  0.0493,  0.0334,  ...,  0.0706, -0.0929, -0.0537],
+        [ 0.0412,  0.0340, -0.0749,  ...,  0.0029, -0.1051, -0.0277],
+        ...,
+        [-0.0336, -0.0408,  0.0643,  ..., -0.0734, -0.0171,  0.0169],
+        [ 0.0116,  0.0803,  0.1050,  ..., -0.0710, -0.0728, -0.1001],
+        [-0.0908,  0.0074, -0.1451,  ..., -0.0634, -0.0581,  0.0590]],
+       device='cuda:0'), grad: tensor([[ 5.0396e-05,  7.7933e-06,  1.7323e-07,  ...,  1.9912e-06,
+          3.6936e-06,  3.8324e-07],
+        [-1.5153e-06,  1.5534e-06, -4.2580e-06,  ..., -7.8790e-07,
+          1.8226e-06,  4.8475e-07],
+        [ 7.8827e-06,  7.7933e-06,  1.2666e-06,  ...,  3.3528e-06,
+          4.6790e-06,  9.4995e-07],
+        ...,
+        [ 2.1011e-06,  8.4005e-07, -1.1781e-06,  ...,  1.2964e-06,
+          1.6103e-06,  2.1234e-06],
+        [ 1.8012e-06,  1.1206e-05, -1.9744e-07,  ...,  5.5097e-06,
+          9.2760e-06,  3.6601e-06],
+        [ 9.5926e-07,  5.9884e-07,  1.1716e-06,  ...,  6.4215e-07,
+          3.2019e-06,  3.9786e-06]], device='cuda:0')
+Epoch 109, bias, value: tensor([ 0.0032, -0.0180, -0.0193,  0.0337, -0.0301,  0.0277, -0.0287, -0.0134,
+         0.0245, -0.0247], device='cuda:0'), grad: tensor([ 1.7095e-04,  1.2182e-06,  3.8475e-05, -1.8716e-04,  1.4797e-05,
+        -2.8282e-05, -5.7966e-05,  4.5002e-06,  3.2932e-05,  1.0572e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 108, time 214.96, cls_loss 0.0037 cls_loss_mapping 0.0095 cls_loss_causal 0.5665 re_mapping 0.0081 re_causal 0.0240 /// teacc 98.87 lr 0.00010000
+Epoch 110, weight, value: tensor([[-0.0486, -0.0754, -0.0591,  ..., -0.1086, -0.0049,  0.0623],
+        [ 0.0424,  0.0494,  0.0336,  ...,  0.0709, -0.0932, -0.0542],
+        [ 0.0416,  0.0350, -0.0761,  ...,  0.0028, -0.1055, -0.0280],
+        ...,
+        [-0.0335, -0.0414,  0.0650,  ..., -0.0736, -0.0172,  0.0172],
+        [ 0.0110,  0.0801,  0.1053,  ..., -0.0715, -0.0730, -0.1008],
+        [-0.0915,  0.0074, -0.1460,  ..., -0.0637, -0.0583,  0.0593]],
+       device='cuda:0'), grad: tensor([[ 1.4575e-06,  3.6240e-05,  2.2650e-06,  ...,  1.2800e-05,
+          5.3823e-05,  7.6830e-05],
+        [ 5.0999e-06,  8.4415e-06,  9.8497e-06,  ..., -1.3113e-06,
+          1.7472e-06,  2.6692e-06],
+        [ 4.0326e-07,  6.4448e-06,  3.2596e-06,  ...,  1.8161e-06,
+          7.8231e-06,  1.1891e-05],
+        ...,
+        [ 2.8014e-06,  4.7535e-06,  2.0172e-06,  ...,  8.9314e-07,
+          2.8610e-06,  3.7346e-06],
+        [-2.1845e-05, -6.0648e-06, -3.8922e-05,  ...,  8.7321e-06,
+          3.9637e-05,  5.7995e-05],
+        [ 1.0841e-06, -1.5247e-04,  2.2762e-06,  ..., -5.6207e-05,
+         -2.5368e-04, -3.7527e-04]], device='cuda:0')
+Epoch 110, bias, value: tensor([ 0.0035, -0.0183, -0.0191,  0.0337, -0.0302,  0.0273, -0.0286, -0.0126,
+         0.0238, -0.0246], device='cuda:0'), grad: tensor([ 1.7273e-04,  1.7464e-05,  2.7314e-05,  4.0233e-05,  1.6117e-04,
+         2.3782e-04,  5.6207e-05,  1.2033e-05,  7.2479e-05, -7.9823e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 109, time 214.96, cls_loss 0.0036 cls_loss_mapping 0.0091 cls_loss_causal 0.5630 re_mapping 0.0082 re_causal 0.0247 /// teacc 98.90 lr 0.00010000
+Epoch 111, weight, value: tensor([[-0.0496, -0.0747, -0.0600,  ..., -0.1104, -0.0037,  0.0632],
+        [ 0.0427,  0.0494,  0.0336,  ...,  0.0712, -0.0940, -0.0548],
+        [ 0.0423,  0.0359, -0.0768,  ...,  0.0023, -0.1062, -0.0289],
+        ...,
+        [-0.0337, -0.0416,  0.0656,  ..., -0.0734, -0.0172,  0.0175],
+        [ 0.0106,  0.0804,  0.1062,  ..., -0.0709, -0.0733, -0.1015],
+        [-0.0920,  0.0078, -0.1472,  ..., -0.0637, -0.0588,  0.0596]],
+       device='cuda:0'), grad: tensor([[ 4.6333e-07,  5.7835e-07,  4.8755e-07,  ...,  2.4354e-07,
+          8.6147e-07, -1.3886e-06],
+        [ 1.0349e-05,  1.2301e-05,  1.3568e-05,  ...,  2.2491e-07,
+          5.3970e-07,  4.7404e-07],
+        [-7.8529e-06, -4.0270e-06,  1.1371e-06,  ...,  8.0653e-07,
+          7.0920e-07,  4.3446e-07],
+        ...,
+        [ 2.1271e-06,  2.2426e-06, -6.7912e-06,  ...,  8.2003e-07,
+          8.6008e-07, -7.4878e-07],
+        [-8.6352e-06, -2.6062e-05, -3.7909e-05,  ...,  9.3877e-07,
+          6.2883e-06,  3.1721e-06],
+        [ 6.3377e-07,  7.7812e-07,  3.0361e-06,  ...,  9.7789e-07,
+          2.8163e-06,  2.6450e-06]], device='cuda:0')
+Epoch 111, bias, value: tensor([ 0.0046, -0.0185, -0.0185,  0.0331, -0.0309,  0.0277, -0.0294, -0.0121,
+         0.0238, -0.0246], device='cuda:0'), grad: tensor([-1.0990e-06,  2.6286e-05, -7.5586e-06,  3.8028e-05, -5.3495e-06,
+        -1.4499e-05,  1.2726e-05, -2.0325e-05, -4.2886e-05,  1.4693e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 110, time 215.30, cls_loss 0.0057 cls_loss_mapping 0.0110 cls_loss_causal 0.5656 re_mapping 0.0087 re_causal 0.0240 /// teacc 99.04 lr 0.00010000
+Epoch 112, weight, value: tensor([[-0.0510, -0.0774, -0.0608,  ..., -0.1133, -0.0049,  0.0634],
+        [ 0.0433,  0.0507,  0.0339,  ...,  0.0728, -0.0951, -0.0542],
+        [ 0.0423,  0.0372, -0.0784,  ...,  0.0003, -0.1071, -0.0299],
+        ...,
+        [-0.0327, -0.0418,  0.0671,  ..., -0.0729, -0.0176,  0.0174],
+        [ 0.0098,  0.0791,  0.1060,  ..., -0.0714, -0.0746, -0.1042],
+        [-0.0926,  0.0085, -0.1483,  ..., -0.0642, -0.0585,  0.0607]],
+       device='cuda:0'), grad: tensor([[ 1.4342e-06,  5.9977e-07,  2.4512e-06,  ...,  8.4564e-07,
+          4.7497e-07,  1.8537e-04],
+        [-2.5053e-07, -9.2387e-06,  5.6773e-05,  ..., -2.0832e-05,
+          1.2517e-06,  5.6863e-05],
+        [ 1.2636e-04,  2.0526e-06,  2.2376e-04,  ...,  4.9472e-06,
+          9.2015e-07,  3.2365e-05],
+        ...,
+        [-1.7810e-04,  3.2242e-06, -4.2963e-04,  ..., -2.1070e-05,
+         -1.9997e-05, -1.3018e-04],
+        [ 1.3955e-05,  1.8859e-06,  1.9982e-05,  ...,  3.0641e-06,
+          1.7611e-06,  1.0625e-05],
+        [ 1.2219e-05, -4.4741e-06,  5.0038e-05,  ...,  7.9349e-06,
+          6.2846e-06, -2.5153e-04]], device='cuda:0')
+Epoch 112, bias, value: tensor([ 0.0044, -0.0177, -0.0188,  0.0327, -0.0314,  0.0284, -0.0299, -0.0109,
+         0.0222, -0.0241], device='cuda:0'), grad: tensor([ 2.3878e-04,  2.8968e-04,  4.7612e-04,  7.7963e-05,  1.7107e-04,
+         8.8736e-06,  4.2468e-06, -1.1635e-03,  5.7459e-05, -1.6105e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 111, time 214.89, cls_loss 0.0039 cls_loss_mapping 0.0069 cls_loss_causal 0.5394 re_mapping 0.0085 re_causal 0.0245 /// teacc 98.88 lr 0.00010000
+Epoch 113, weight, value: tensor([[-5.1787e-02, -7.7825e-02, -6.1426e-02,  ..., -1.1396e-01,
+         -5.2823e-03,  6.3526e-02],
+        [ 4.3733e-02,  5.1056e-02,  3.5040e-02,  ...,  7.3322e-02,
+         -9.5601e-02, -5.4597e-02],
+        [ 4.2485e-02,  3.7121e-02, -7.9012e-02,  ...,  1.1022e-04,
+         -1.0772e-01, -3.0432e-02],
+        ...,
+        [-3.3911e-02, -4.2557e-02,  6.6904e-02,  ..., -7.2592e-02,
+         -1.7735e-02,  1.7373e-02],
+        [ 9.4391e-03,  7.8871e-02,  1.0631e-01,  ..., -7.2099e-02,
+         -7.5467e-02, -1.0526e-01],
+        [-9.2680e-02,  9.2090e-03, -1.5009e-01,  ..., -6.4699e-02,
+         -5.8391e-02,  6.1145e-02]], device='cuda:0'), grad: tensor([[ 5.3551e-07,  4.0280e-07, -2.8079e-07,  ..., -8.0559e-08,
+          6.9618e-05, -4.1276e-06],
+        [-5.8711e-06, -3.4589e-06, -5.1521e-06,  ..., -5.8524e-06,
+          4.4890e-06,  9.3207e-06],
+        [-5.2676e-06,  3.5157e-07,  8.5169e-07,  ...,  1.0543e-06,
+          7.6294e-06,  6.9551e-06],
+        ...,
+        [ 1.2675e-06,  1.6131e-06, -6.5938e-07,  ...,  1.1437e-06,
+          2.7474e-06,  9.3579e-06],
+        [ 2.1942e-06,  1.1306e-06,  8.1398e-07,  ...,  8.6287e-07,
+          1.6123e-05,  2.3812e-05],
+        [ 3.4692e-07, -9.7677e-06, -1.2210e-06,  ...,  9.9465e-07,
+          1.0155e-05, -3.1739e-05]], device='cuda:0')
+Epoch 113, bias, value: tensor([ 0.0042, -0.0174, -0.0189,  0.0331, -0.0314,  0.0295, -0.0310, -0.0110,
+         0.0214, -0.0240], device='cuda:0'), grad: tensor([ 1.4387e-05,  9.4920e-06,  6.6273e-06,  4.1795e-04,  5.7787e-05,
+         2.1191e-03, -2.6455e-03,  2.2858e-05,  5.7936e-05, -6.2704e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 112, time 214.60, cls_loss 0.0036 cls_loss_mapping 0.0071 cls_loss_causal 0.5872 re_mapping 0.0080 re_causal 0.0246 /// teacc 99.01 lr 0.00010000
+Epoch 114, weight, value: tensor([[-0.0524, -0.0782, -0.0616,  ..., -0.1147, -0.0045,  0.0640],
+        [ 0.0434,  0.0506,  0.0346,  ...,  0.0730, -0.0962, -0.0555],
+        [ 0.0429,  0.0375, -0.0791,  ...,  0.0003, -0.1084, -0.0306],
+        ...,
+        [-0.0340, -0.0431,  0.0674,  ..., -0.0737, -0.0187,  0.0174],
+        [ 0.0097,  0.0793,  0.1071,  ..., -0.0724, -0.0757, -0.1053],
+        [-0.0930,  0.0082, -0.1508,  ..., -0.0654, -0.0590,  0.0614]],
+       device='cuda:0'), grad: tensor([[ 4.1239e-06,  6.2352e-07,  6.2585e-07,  ...,  7.0594e-07,
+          6.3702e-07, -7.1200e-07],
+        [ 1.4469e-05,  2.3423e-07, -2.5914e-07,  ..., -1.5497e-06,
+          5.0571e-07,  2.6845e-07],
+        [ 2.0161e-05,  3.2540e-06,  5.5768e-06,  ...,  2.5108e-06,
+          1.6708e-06,  4.8336e-07],
+        ...,
+        [ 3.3140e-05,  8.5356e-07, -8.5354e-05,  ..., -1.0121e-04,
+         -8.8453e-05, -6.2108e-05],
+        [ 2.4676e-04,  8.1360e-06,  2.3812e-05,  ...,  7.2690e-07,
+          1.5171e-06,  1.3700e-06],
+        [ 7.6368e-06,  1.0608e-06,  3.7979e-06,  ...,  2.8666e-06,
+          3.5167e-06,  4.2208e-06]], device='cuda:0')
+Epoch 114, bias, value: tensor([ 0.0046, -0.0181, -0.0184,  0.0326, -0.0294,  0.0291, -0.0307, -0.0111,
+         0.0219, -0.0251], device='cuda:0'), grad: tensor([ 8.9258e-06,  3.0443e-05, -2.4199e-05, -6.1989e-04,  3.7527e-04,
+         2.1890e-05, -8.6427e-06, -2.6226e-04,  4.4823e-04,  2.9340e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 113, time 215.12, cls_loss 0.0033 cls_loss_mapping 0.0066 cls_loss_causal 0.5626 re_mapping 0.0076 re_causal 0.0234 /// teacc 98.93 lr 0.00010000
+Epoch 115, weight, value: tensor([[-5.3061e-02, -7.8882e-02, -6.2168e-02,  ..., -1.1525e-01,
+         -4.6398e-03,  6.4190e-02],
+        [ 4.3721e-02,  5.0802e-02,  3.5325e-02,  ...,  7.4097e-02,
+         -9.6614e-02, -5.5407e-02],
+        [ 4.2918e-02,  3.7386e-02, -7.9829e-02,  ...,  2.4241e-05,
+         -1.0887e-01, -3.1259e-02],
+        ...,
+        [-3.4388e-02, -4.3693e-02,  6.7664e-02,  ..., -7.4840e-02,
+         -1.8598e-02,  1.7805e-02],
+        [ 1.0271e-02,  8.0415e-02,  1.0868e-01,  ..., -7.1779e-02,
+         -7.5909e-02, -1.0610e-01],
+        [-9.3884e-02,  8.4570e-03, -1.5292e-01,  ..., -6.5949e-02,
+         -5.9305e-02,  6.1568e-02]], device='cuda:0'), grad: tensor([[ 2.9430e-07,  1.7717e-05,  2.7916e-07,  ...,  1.7462e-06,
+          1.1754e-04,  7.9334e-05],
+        [ 3.2806e-07,  8.1444e-07, -1.4505e-07,  ...,  2.7893e-07,
+          9.7603e-07,  9.6392e-07],
+        [-1.8231e-07,  1.2936e-06,  5.7695e-07,  ...,  8.1491e-07,
+          1.6484e-06,  7.7998e-07],
+        ...,
+        [ 4.3004e-07,  9.4203e-07,  3.0920e-07,  ...,  1.2349e-06,
+          7.5623e-07,  1.7136e-07],
+        [-1.3784e-06, -1.7118e-06, -1.8608e-06,  ...,  5.2340e-07,
+          4.1723e-06,  2.9076e-06],
+        [ 1.2815e-06,  3.5074e-06,  3.2876e-07,  ...,  3.5930e-06,
+          5.5693e-06,  2.8051e-06]], device='cuda:0')
+Epoch 115, bias, value: tensor([ 0.0045, -0.0176, -0.0186,  0.0330, -0.0299,  0.0286, -0.0311, -0.0111,
+         0.0226, -0.0255], device='cuda:0'), grad: tensor([ 1.4329e-04,  4.3996e-06,  3.0715e-06, -4.8876e-06, -2.4110e-05,
+         5.2974e-06, -1.4961e-04,  3.5986e-06,  2.0433e-06,  1.7121e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 114, time 215.33, cls_loss 0.0038 cls_loss_mapping 0.0077 cls_loss_causal 0.5406 re_mapping 0.0079 re_causal 0.0230 /// teacc 98.81 lr 0.00010000
+Epoch 116, weight, value: tensor([[-5.2841e-02, -7.9164e-02, -6.2563e-02,  ..., -1.1506e-01,
+         -3.5961e-03,  6.3209e-02],
+        [ 4.3692e-02,  5.0865e-02,  3.5259e-02,  ...,  7.4509e-02,
+         -9.7065e-02, -5.5508e-02],
+        [ 4.2961e-02,  3.7401e-02, -8.0385e-02,  ..., -4.0967e-05,
+         -1.0948e-01, -3.2223e-02],
+        ...,
+        [-3.4191e-02, -4.4112e-02,  6.8397e-02,  ..., -7.5396e-02,
+         -1.8862e-02,  1.7854e-02],
+        [ 9.7838e-03,  8.0252e-02,  1.0902e-01,  ..., -7.2082e-02,
+         -7.6545e-02, -1.0778e-01],
+        [-9.4056e-02,  8.9261e-03, -1.5377e-01,  ..., -6.6156e-02,
+         -5.8473e-02,  6.3807e-02]], device='cuda:0'), grad: tensor([[ 3.4296e-07,  2.0619e-06,  2.7777e-07,  ...,  4.2655e-07,
+          1.5199e-06, -8.6054e-06],
+        [-2.1588e-06,  1.0598e-06, -3.8780e-06,  ..., -4.8010e-07,
+          2.4699e-06,  5.5879e-07],
+        [-1.2428e-05, -1.3094e-06, -7.9069e-07,  ...,  1.4575e-06,
+          2.0172e-06,  1.9260e-06],
+        ...,
+        [-1.6272e-05,  2.1830e-06, -6.5029e-05,  ...,  2.8275e-06,
+          1.4156e-06, -1.9819e-05],
+        [-1.9237e-05,  4.6313e-05, -7.7933e-06,  ...,  6.0499e-06,
+          2.8387e-05,  2.7586e-06],
+        [ 1.3039e-06,  1.9534e-07,  2.3264e-06,  ...,  2.4885e-06,
+          7.1265e-06,  1.2867e-05]], device='cuda:0')
+Epoch 116, bias, value: tensor([ 0.0037, -0.0177, -0.0187,  0.0332, -0.0301,  0.0284, -0.0319, -0.0108,
+         0.0218, -0.0238], device='cuda:0'), grad: tensor([-5.7556e-06,  4.5784e-06, -1.0550e-05,  2.0719e-04, -6.6310e-06,
+        -1.4072e-06, -1.2052e-04, -1.5140e-04,  6.1333e-05,  2.3291e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 115, time 215.01, cls_loss 0.0035 cls_loss_mapping 0.0076 cls_loss_causal 0.5774 re_mapping 0.0079 re_causal 0.0246 /// teacc 98.95 lr 0.00010000
+Epoch 117, weight, value: tensor([[-0.0516, -0.0792, -0.0630,  ..., -0.1151, -0.0025,  0.0641],
+        [ 0.0441,  0.0506,  0.0366,  ...,  0.0745, -0.0976, -0.0544],
+        [ 0.0430,  0.0371, -0.0807,  ..., -0.0003, -0.1104, -0.0337],
+        ...,
+        [-0.0361, -0.0450,  0.0672,  ..., -0.0757, -0.0191,  0.0165],
+        [ 0.0105,  0.0802,  0.1100,  ..., -0.0725, -0.0774, -0.1090],
+        [-0.0945,  0.0098, -0.1535,  ..., -0.0666, -0.0592,  0.0640]],
+       device='cuda:0'), grad: tensor([[ 1.7183e-07,  5.6112e-08,  1.0966e-07,  ...,  3.9227e-06,
+          6.0759e-06, -2.5574e-06],
+        [ 4.4936e-07,  2.4773e-07,  6.2631e-08,  ..., -1.5460e-07,
+          4.6566e-07,  8.2050e-07],
+        [-2.2333e-06, -3.8766e-07,  2.5169e-07,  ...,  2.9448e-06,
+          4.3288e-06,  4.9733e-07],
+        ...,
+        [ 2.3399e-07,  1.6345e-07, -4.2990e-06,  ...,  1.7462e-07,
+          6.1234e-08, -2.6673e-06],
+        [ 3.1432e-08,  2.7474e-08, -6.5053e-07,  ...,  1.9791e-07,
+          3.0641e-07,  8.2795e-07],
+        [ 1.5832e-07, -5.3737e-07,  3.3192e-06,  ...,  1.2498e-06,
+          6.6822e-07,  1.8743e-07]], device='cuda:0')
+Epoch 117, bias, value: tensor([ 0.0049, -0.0172, -0.0190,  0.0329, -0.0301,  0.0280, -0.0313, -0.0117,
+         0.0212, -0.0235], device='cuda:0'), grad: tensor([ 9.8795e-06,  3.0566e-06,  6.2138e-06,  2.6338e-06,  2.5973e-05,
+         7.1116e-06, -5.5224e-05, -5.7667e-06,  1.9986e-06,  4.2394e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 116, time 214.82, cls_loss 0.0030 cls_loss_mapping 0.0053 cls_loss_causal 0.5355 re_mapping 0.0076 re_causal 0.0230 /// teacc 98.93 lr 0.00010000
+Epoch 118, weight, value: tensor([[-0.0519, -0.0790, -0.0632,  ..., -0.1151, -0.0022,  0.0644],
+        [ 0.0436,  0.0505,  0.0358,  ...,  0.0747, -0.0983, -0.0538],
+        [ 0.0432,  0.0372, -0.0810,  ..., -0.0003, -0.1109, -0.0340],
+        ...,
+        [-0.0352, -0.0455,  0.0680,  ..., -0.0761, -0.0193,  0.0163],
+        [ 0.0106,  0.0801,  0.1102,  ..., -0.0738, -0.0781, -0.1094],
+        [-0.0950,  0.0095, -0.1548,  ..., -0.0672, -0.0596,  0.0640]],
+       device='cuda:0'), grad: tensor([[ 1.9185e-07,  9.8161e-07,  1.4738e-07,  ...,  5.8394e-07,
+          1.6140e-06, -2.4009e-06],
+        [ 1.1995e-06,  2.6077e-08,  3.3132e-07,  ..., -1.8789e-07,
+          1.8571e-06,  1.8235e-06],
+        [-3.8999e-07,  6.4960e-07,  2.1956e-07,  ...,  4.4145e-07,
+          1.9595e-06,  1.5423e-06],
+        ...,
+        [ 1.1753e-06,  3.9209e-07,  4.0978e-07,  ...,  4.8941e-07,
+          1.3569e-06,  1.3830e-06],
+        [ 3.1409e-07,  7.1106e-07, -4.0513e-08,  ...,  4.3283e-07,
+          2.9895e-06,  2.8852e-06],
+        [ 9.3924e-07,  3.2806e-07,  6.8871e-07,  ...,  9.4995e-07,
+          2.3767e-05,  2.3738e-05]], device='cuda:0')
+Epoch 118, bias, value: tensor([ 0.0054, -0.0177, -0.0189,  0.0325, -0.0296,  0.0280, -0.0313, -0.0111,
+         0.0211, -0.0239], device='cuda:0'), grad: tensor([ 1.4175e-06,  1.0692e-05,  5.6550e-06,  6.4430e-03,  5.8189e-06,
+        -6.5651e-03, -8.7321e-06,  7.6108e-06,  1.0908e-05,  8.7798e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 117, time 215.19, cls_loss 0.0032 cls_loss_mapping 0.0073 cls_loss_causal 0.5806 re_mapping 0.0072 re_causal 0.0222 /// teacc 98.92 lr 0.00010000
+Epoch 119, weight, value: tensor([[-0.0526, -0.0799, -0.0643,  ..., -0.1157, -0.0021,  0.0646],
+        [ 0.0434,  0.0507,  0.0348,  ...,  0.0751, -0.0997, -0.0540],
+        [ 0.0433,  0.0372, -0.0815,  ..., -0.0006, -0.1113, -0.0346],
+        ...,
+        [-0.0345, -0.0459,  0.0689,  ..., -0.0763, -0.0191,  0.0164],
+        [ 0.0105,  0.0800,  0.1106,  ..., -0.0741, -0.0785, -0.1100],
+        [-0.0956,  0.0095, -0.1555,  ..., -0.0676, -0.0600,  0.0642]],
+       device='cuda:0'), grad: tensor([[ 5.8487e-06,  4.1388e-06,  6.4485e-06,  ...,  3.1181e-06,
+         -8.1258e-08, -1.5190e-06],
+        [-2.2554e-04, -2.5129e-04, -3.9649e-04,  ..., -1.9586e-04,
+          1.6997e-07, -1.2957e-05],
+        [ 2.3544e-05,  1.5318e-05,  1.6540e-05,  ...,  1.8403e-05,
+          1.8626e-07,  9.4920e-06],
+        ...,
+        [ 1.6347e-05,  1.7062e-05,  2.3142e-05,  ...,  1.2599e-05,
+          2.1956e-07,  3.9954e-07],
+        [ 4.9978e-05,  6.2287e-05,  1.0020e-04,  ...,  4.5955e-05,
+          2.4354e-07,  1.9725e-06],
+        [ 6.5938e-06,  2.5984e-06,  1.2308e-05,  ...,  6.5379e-06,
+          3.1516e-06, -7.4059e-06]], device='cuda:0')
+Epoch 119, bias, value: tensor([ 0.0054, -0.0183, -0.0190,  0.0318, -0.0298,  0.0287, -0.0309, -0.0105,
+         0.0211, -0.0241], device='cuda:0'), grad: tensor([ 2.2575e-05, -8.8501e-04,  3.3557e-05,  1.4886e-05,  1.7560e-04,
+         6.2525e-05,  2.6941e-04,  6.5386e-05,  2.2256e-04,  1.8060e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 118, time 215.35, cls_loss 0.0035 cls_loss_mapping 0.0065 cls_loss_causal 0.5305 re_mapping 0.0073 re_causal 0.0223 /// teacc 98.93 lr 0.00010000
+Epoch 120, weight, value: tensor([[-0.0525, -0.0806, -0.0645,  ..., -0.1156, -0.0018,  0.0649],
+        [ 0.0434,  0.0505,  0.0349,  ...,  0.0754, -0.1003, -0.0543],
+        [ 0.0432,  0.0367, -0.0822,  ..., -0.0008, -0.1120, -0.0354],
+        ...,
+        [-0.0347, -0.0461,  0.0690,  ..., -0.0765, -0.0197,  0.0160],
+        [ 0.0111,  0.0831,  0.1114,  ..., -0.0745, -0.0763, -0.1080],
+        [-0.0962,  0.0100, -0.1562,  ..., -0.0680, -0.0604,  0.0645]],
+       device='cuda:0'), grad: tensor([[ 1.2806e-07, -2.1905e-05, -3.0011e-05,  ...,  5.7044e-08,
+         -7.4552e-07, -5.7429e-05],
+        [ 4.7684e-07,  4.1686e-06,  3.8520e-06,  ...,  1.8557e-07,
+          5.5134e-07,  6.5006e-06],
+        [-1.0030e-06,  6.8918e-06,  7.3127e-06,  ...,  2.1025e-07,
+          5.8720e-07,  9.4697e-06],
+        ...,
+        [ 2.4051e-07,  1.6587e-06,  8.1304e-07,  ...,  1.9628e-07,
+          4.3330e-07,  2.0061e-06],
+        [-2.2724e-06, -1.5005e-05, -5.7928e-06,  ..., -6.8173e-07,
+          2.8685e-07,  2.8878e-05],
+        [ 6.5193e-07, -4.0591e-05,  3.5353e-06,  ..., -2.3283e-06,
+         -1.1511e-05, -7.0870e-05]], device='cuda:0')
+Epoch 120, bias, value: tensor([ 0.0058, -0.0185, -0.0193,  0.0322, -0.0302,  0.0273, -0.0322, -0.0106,
+         0.0231, -0.0239], device='cuda:0'), grad: tensor([-1.1826e-04,  1.6943e-05,  2.7686e-05,  3.8929e-06,  1.5092e-04,
+         8.8522e-07,  5.2214e-05,  6.1095e-06, -6.0946e-06, -1.3471e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 119, time 215.06, cls_loss 0.0035 cls_loss_mapping 0.0077 cls_loss_causal 0.5666 re_mapping 0.0077 re_causal 0.0226 /// teacc 98.82 lr 0.00010000
+Epoch 121, weight, value: tensor([[-0.0537, -0.0813, -0.0647,  ..., -0.1156, -0.0017,  0.0651],
+        [ 0.0438,  0.0509,  0.0355,  ...,  0.0760, -0.1008, -0.0544],
+        [ 0.0432,  0.0365, -0.0830,  ..., -0.0013, -0.1131, -0.0360],
+        ...,
+        [-0.0349, -0.0465,  0.0691,  ..., -0.0765, -0.0199,  0.0161],
+        [ 0.0109,  0.0836,  0.1115,  ..., -0.0750, -0.0762, -0.1082],
+        [-0.0972,  0.0100, -0.1570,  ..., -0.0685, -0.0611,  0.0645]],
+       device='cuda:0'), grad: tensor([[ 8.0109e-05,  1.4126e-05,  2.5705e-07,  ...,  7.1265e-06,
+          1.7405e-05,  3.2991e-05],
+        [ 4.7730e-07,  7.3900e-07,  1.4110e-07,  ..., -2.7963e-07,
+          1.0720e-06,  9.5088e-07],
+        [ 3.7570e-06,  1.2247e-06,  1.6550e-06,  ...,  4.3982e-07,
+          1.3206e-06,  1.9260e-06],
+        ...,
+        [ 1.6810e-07,  1.7397e-06, -3.2745e-06,  ...,  1.8626e-07,
+          1.4603e-06,  1.6605e-06],
+        [ 8.5756e-06,  2.9746e-06, -4.2375e-07,  ...,  1.1269e-06,
+          5.9046e-06,  6.3553e-06],
+        [ 3.2987e-06, -5.3197e-05,  8.0327e-07,  ...,  3.9861e-07,
+         -3.2634e-05, -6.2168e-05]], device='cuda:0')
+Epoch 121, bias, value: tensor([ 0.0061, -0.0181, -0.0194,  0.0318, -0.0311,  0.0282, -0.0324, -0.0106,
+         0.0231, -0.0241], device='cuda:0'), grad: tensor([ 3.0375e-04,  4.7237e-06,  1.5706e-05, -3.5906e-04,  1.5426e-04,
+        -5.3823e-05,  3.4958e-05,  2.9858e-06,  4.3273e-05, -1.4663e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 120, time 214.96, cls_loss 0.0029 cls_loss_mapping 0.0071 cls_loss_causal 0.5658 re_mapping 0.0078 re_causal 0.0236 /// teacc 98.94 lr 0.00010000
+Epoch 122, weight, value: tensor([[-0.0550, -0.0828, -0.0654,  ..., -0.1167, -0.0022,  0.0652],
+        [ 0.0440,  0.0507,  0.0357,  ...,  0.0767, -0.1019, -0.0546],
+        [ 0.0437,  0.0370, -0.0833,  ..., -0.0018, -0.1137, -0.0356],
+        ...,
+        [-0.0354, -0.0466,  0.0691,  ..., -0.0770, -0.0200,  0.0155],
+        [ 0.0113,  0.0838,  0.1118,  ..., -0.0756, -0.0766, -0.1086],
+        [-0.0998,  0.0099, -0.1579,  ..., -0.0691, -0.0614,  0.0649]],
+       device='cuda:0'), grad: tensor([[ 8.9547e-07,  5.3924e-07,  3.5833e-07,  ...,  3.7788e-07,
+          3.1921e-07,  1.0943e-07],
+        [-5.5045e-05, -5.0604e-05, -7.6890e-05,  ..., -6.0558e-05,
+          2.7427e-07, -6.2704e-05],
+        [ 9.8944e-06,  5.2899e-07,  5.0152e-07,  ...,  3.6322e-07,
+          1.2456e-07,  2.6403e-07],
+        ...,
+        [ 3.4899e-05,  2.2128e-05,  3.2455e-05,  ...,  2.5764e-05,
+          1.3411e-07,  2.8968e-05],
+        [ 1.1019e-05, -9.8124e-06, -3.7011e-06,  ...,  1.7388e-06,
+         -1.1034e-05,  1.6121e-06],
+        [ 3.1382e-05,  2.5421e-05,  3.8236e-05,  ...,  3.0443e-05,
+          5.6112e-07,  2.7120e-05]], device='cuda:0')
+Epoch 122, bias, value: tensor([ 0.0058, -0.0181, -0.0189,  0.0319, -0.0315,  0.0283, -0.0321, -0.0110,
+         0.0231, -0.0241], device='cuda:0'), grad: tensor([ 2.6319e-06, -1.5688e-04,  2.3559e-05, -8.5473e-05,  8.0690e-06,
+         2.1815e-05,  9.5218e-06,  9.7871e-05, -4.8093e-06,  8.3625e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 121, time 215.16, cls_loss 0.0035 cls_loss_mapping 0.0068 cls_loss_causal 0.5677 re_mapping 0.0071 re_causal 0.0229 /// teacc 98.92 lr 0.00010000
+Epoch 123, weight, value: tensor([[-0.0555, -0.0840, -0.0658,  ..., -0.1175, -0.0025,  0.0654],
+        [ 0.0441,  0.0507,  0.0359,  ...,  0.0773, -0.1022, -0.0553],
+        [ 0.0437,  0.0376, -0.0844,  ..., -0.0018, -0.1140, -0.0373],
+        ...,
+        [-0.0348, -0.0473,  0.0695,  ..., -0.0775, -0.0204,  0.0164],
+        [ 0.0111,  0.0854,  0.1117,  ..., -0.0780, -0.0752, -0.1091],
+        [-0.1005,  0.0097, -0.1595,  ..., -0.0698, -0.0622,  0.0650]],
+       device='cuda:0'), grad: tensor([[ 2.1979e-05,  1.2573e-06,  1.7583e-05,  ...,  1.9395e-07,
+          6.4112e-06,  1.3120e-05],
+        [ 7.6108e-06,  1.4901e-06,  9.7007e-06,  ..., -5.1269e-07,
+          4.0345e-06,  7.5996e-06],
+        [-2.4700e-04,  1.3538e-05, -7.7009e-05,  ...,  2.5090e-06,
+          2.3078e-06, -4.8578e-05],
+        ...,
+        [ 8.8096e-05,  1.7919e-06, -2.2262e-05,  ...,  4.6869e-07,
+         -2.2680e-05, -2.0057e-05],
+        [ 2.3544e-05, -3.3170e-05, -2.6673e-06,  ...,  4.2981e-07,
+          3.1330e-06,  1.0498e-05],
+        [ 8.5890e-05, -5.2117e-06,  3.5644e-05,  ...,  1.2387e-06,
+         -4.3958e-06,  4.6170e-07]], device='cuda:0')
+Epoch 123, bias, value: tensor([ 0.0058, -0.0182, -0.0192,  0.0320, -0.0320,  0.0283, -0.0333, -0.0103,
+         0.0241, -0.0244], device='cuda:0'), grad: tensor([ 8.4996e-05,  4.3631e-05, -5.1975e-04,  5.6803e-05,  1.5236e-05,
+         6.0499e-05,  1.1213e-05,  3.0994e-05,  3.3259e-05,  1.8275e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 122, time 215.28, cls_loss 0.0028 cls_loss_mapping 0.0068 cls_loss_causal 0.5474 re_mapping 0.0073 re_causal 0.0224 /// teacc 99.01 lr 0.00010000
+Epoch 124, weight, value: tensor([[-0.0562, -0.0853, -0.0665,  ..., -0.1183, -0.0029,  0.0657],
+        [ 0.0443,  0.0510,  0.0366,  ...,  0.0779, -0.1004, -0.0530],
+        [ 0.0438,  0.0375, -0.0853,  ..., -0.0021, -0.1148, -0.0372],
+        ...,
+        [-0.0349, -0.0476,  0.0695,  ..., -0.0779, -0.0221,  0.0156],
+        [ 0.0110,  0.0853,  0.1118,  ..., -0.0784, -0.0754, -0.1097],
+        [-0.1018,  0.0093, -0.1623,  ..., -0.0706, -0.0630,  0.0649]],
+       device='cuda:0'), grad: tensor([[ 1.3295e-07,  1.5954e-06,  6.2399e-08,  ...,  1.2387e-07,
+          1.6354e-06, -6.0443e-07],
+        [-1.3853e-07,  1.3765e-06, -2.6543e-08,  ...,  4.8056e-07,
+          1.4575e-06,  4.9360e-07],
+        [-1.2685e-06,  1.8161e-08,  1.3877e-07,  ...,  3.6275e-07,
+          7.2969e-07,  1.1064e-06],
+        ...,
+        [ 9.7416e-07,  1.7155e-06, -3.7206e-07,  ...,  5.7137e-07,
+          5.0943e-07,  9.0897e-06],
+        [ 6.2445e-07,  1.0297e-05,  2.2352e-08,  ...,  3.4319e-07,
+          1.0453e-05,  4.0680e-06],
+        [ 4.1444e-08, -2.5984e-07, -5.8068e-07,  ...,  1.6633e-06,
+          2.7362e-06, -2.6196e-05]], device='cuda:0')
+Epoch 124, bias, value: tensor([ 0.0057, -0.0171, -0.0193,  0.0324, -0.0319,  0.0284, -0.0331, -0.0107,
+         0.0239, -0.0253], device='cuda:0'), grad: tensor([ 2.8182e-06,  3.6992e-06,  1.9241e-06,  2.0236e-05,  4.5709e-06,
+         7.2382e-06, -3.7283e-05,  2.2575e-05,  2.6584e-05, -5.2422e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 123----------------------------------------------------
+epoch 123, time 231.23, cls_loss 0.0024 cls_loss_mapping 0.0056 cls_loss_causal 0.5703 re_mapping 0.0077 re_causal 0.0238 /// teacc 99.05 lr 0.00010000
+Epoch 125, weight, value: tensor([[-0.0566, -0.0858, -0.0667,  ..., -0.1183, -0.0028,  0.0658],
+        [ 0.0446,  0.0509,  0.0367,  ...,  0.0782, -0.1010, -0.0532],
+        [ 0.0438,  0.0374, -0.0857,  ..., -0.0025, -0.1156, -0.0375],
+        ...,
+        [-0.0350, -0.0480,  0.0698,  ..., -0.0779, -0.0221,  0.0156],
+        [ 0.0103,  0.0850,  0.1118,  ..., -0.0789, -0.0756, -0.1104],
+        [-0.1022,  0.0098, -0.1629,  ..., -0.0711, -0.0630,  0.0652]],
+       device='cuda:0'), grad: tensor([[ 8.4750e-08,  1.3381e-05, -2.5973e-05,  ...,  1.0664e-07,
+          9.2462e-06, -6.4433e-05],
+        [ 6.6496e-07,  1.3495e-06,  1.3001e-06,  ...,  3.8650e-08,
+          6.3423e-07,  2.7101e-06],
+        [-1.1148e-06,  2.0061e-06,  1.4585e-06,  ...,  1.7160e-07,
+          1.6568e-06,  3.6228e-06],
+        ...,
+        [-5.3830e-07,  3.1409e-07,  1.3851e-05,  ...,  2.1118e-07,
+          1.0757e-07,  3.7193e-05],
+        [-5.1456e-07,  3.1799e-05,  1.3299e-06,  ...,  6.3377e-07,
+          2.0728e-05,  7.7039e-06],
+        [ 4.5565e-07,  3.0585e-06,  2.9895e-06,  ...,  7.9442e-07,
+          1.9222e-06,  7.8306e-06]], device='cuda:0')
+Epoch 125, bias, value: tensor([ 0.0058, -0.0171, -0.0195,  0.0329, -0.0321,  0.0294, -0.0337, -0.0105,
+         0.0233, -0.0251], device='cuda:0'), grad: tensor([-7.9632e-05,  9.2685e-06,  9.0301e-06,  1.2264e-05,  3.5651e-06,
+         1.0878e-05, -1.3173e-04,  5.7518e-05,  8.7798e-05,  2.0802e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 124, time 215.13, cls_loss 0.0027 cls_loss_mapping 0.0061 cls_loss_causal 0.5583 re_mapping 0.0077 re_causal 0.0231 /// teacc 98.86 lr 0.00010000
+Epoch 126, weight, value: tensor([[-0.0574, -0.0873, -0.0670,  ..., -0.1193, -0.0029,  0.0660],
+        [ 0.0443,  0.0489,  0.0364,  ...,  0.0761, -0.1030, -0.0533],
+        [ 0.0441,  0.0383, -0.0857,  ..., -0.0011, -0.1162, -0.0379],
+        ...,
+        [-0.0351, -0.0485,  0.0699,  ..., -0.0781, -0.0224,  0.0154],
+        [ 0.0104,  0.0848,  0.1120,  ..., -0.0795, -0.0759, -0.1111],
+        [-0.1021,  0.0111, -0.1633,  ..., -0.0705, -0.0624,  0.0657]],
+       device='cuda:0'), grad: tensor([[ 4.8988e-07,  5.2946e-07,  3.2037e-07,  ...,  3.5902e-07,
+         -1.7717e-05, -2.4438e-05],
+        [ 1.2126e-06,  1.1707e-06,  4.9807e-06,  ...,  5.1875e-07,
+          6.5472e-07,  4.1425e-06],
+        [-2.6282e-06,  4.2352e-07,  3.7223e-05,  ...,  1.1921e-06,
+          6.8313e-07,  2.7061e-05],
+        ...,
+        [-8.8066e-06,  9.9000e-07, -8.0824e-05,  ...,  7.6927e-07,
+          5.2061e-07, -5.7131e-05],
+        [ 1.0179e-06, -1.1278e-06, -1.3858e-06,  ...,  1.4873e-06,
+          9.4343e-07,  2.5257e-06],
+        [ 3.6452e-06,  3.4142e-04,  2.7031e-05,  ...,  2.9707e-04,
+          1.9884e-04,  1.2255e-04]], device='cuda:0')
+Epoch 126, bias, value: tensor([ 0.0058, -0.0182, -0.0188,  0.0329, -0.0330,  0.0296, -0.0334, -0.0105,
+         0.0231, -0.0243], device='cuda:0'), grad: tensor([-2.6748e-05,  1.8537e-05,  8.4758e-05,  5.8413e-06, -7.0906e-04,
+         1.5177e-05,  2.1875e-05, -2.1183e-04,  1.0423e-05,  7.8964e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 125, time 215.00, cls_loss 0.0024 cls_loss_mapping 0.0052 cls_loss_causal 0.5332 re_mapping 0.0077 re_causal 0.0225 /// teacc 99.05 lr 0.00010000
+Epoch 127, weight, value: tensor([[-0.0577, -0.0880, -0.0671,  ..., -0.1203, -0.0030,  0.0662],
+        [ 0.0442,  0.0489,  0.0361,  ...,  0.0763, -0.1034, -0.0535],
+        [ 0.0441,  0.0381, -0.0867,  ..., -0.0015, -0.1166, -0.0385],
+        ...,
+        [-0.0348, -0.0488,  0.0705,  ..., -0.0785, -0.0223,  0.0153],
+        [ 0.0106,  0.0849,  0.1121,  ..., -0.0802, -0.0761, -0.1115],
+        [-0.1027,  0.0112, -0.1639,  ..., -0.0707, -0.0626,  0.0662]],
+       device='cuda:0'), grad: tensor([[ 2.8429e-07,  6.9477e-07,  4.1607e-07,  ...,  1.9418e-07,
+         -1.4249e-07, -2.6859e-06],
+        [-1.9241e-06,  4.0233e-06,  2.8848e-07,  ...,  4.5300e-06,
+          2.1961e-06,  1.7299e-07],
+        [ 1.0114e-06,  2.4866e-06,  1.7406e-06,  ...,  1.3169e-06,
+          6.1467e-07,  5.9931e-07],
+        ...,
+        [ 1.2005e-06,  1.8803e-06,  2.2016e-06,  ...,  4.1015e-06,
+          1.3039e-06,  2.1653e-07],
+        [-5.0887e-06, -1.1817e-05, -6.1691e-06,  ...,  1.8217e-06,
+          1.9856e-06,  1.1576e-06],
+        [ 4.1611e-06,  1.9297e-05,  6.4336e-06,  ...,  2.1145e-05,
+          1.4730e-05,  2.3507e-06]], device='cuda:0')
+Epoch 127, bias, value: tensor([ 0.0059, -0.0186, -0.0189,  0.0331, -0.0334,  0.0296, -0.0334, -0.0100,
+         0.0230, -0.0242], device='cuda:0'), grad: tensor([-2.9523e-06,  6.9998e-06,  6.7465e-06,  2.5213e-05, -6.4433e-05,
+        -3.3915e-05,  3.3081e-06,  7.8753e-06, -1.4655e-05,  6.5744e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 126----------------------------------------------------
+epoch 126, time 231.36, cls_loss 0.0031 cls_loss_mapping 0.0062 cls_loss_causal 0.5484 re_mapping 0.0075 re_causal 0.0213 /// teacc 99.08 lr 0.00010000
+Epoch 128, weight, value: tensor([[-0.0583, -0.0907, -0.0675,  ..., -0.1207, -0.0044,  0.0659],
+        [ 0.0450,  0.0507,  0.0377,  ...,  0.0771, -0.1036, -0.0534],
+        [ 0.0443,  0.0375, -0.0874,  ..., -0.0018, -0.1173, -0.0390],
+        ...,
+        [-0.0349, -0.0497,  0.0706,  ..., -0.0790, -0.0225,  0.0151],
+        [ 0.0100,  0.0845,  0.1113,  ..., -0.0814, -0.0763, -0.1118],
+        [-0.1048,  0.0114, -0.1652,  ..., -0.0710, -0.0629,  0.0663]],
+       device='cuda:0'), grad: tensor([[ 9.0078e-06,  4.7218e-07,  2.5751e-07,  ...,  2.0792e-07,
+         -2.3879e-06, -2.2233e-04],
+        [ 1.4462e-05, -1.9488e-07, -7.2876e-07,  ...,  2.5798e-06,
+          7.2643e-07,  2.7157e-06],
+        [ 8.8811e-05, -1.1558e-06,  2.5108e-06,  ..., -4.3437e-06,
+          7.9628e-07,  1.8954e-05],
+        ...,
+        [ 4.1798e-06,  5.5926e-07, -9.2462e-06,  ...,  5.5647e-07,
+          1.2740e-06,  1.9580e-05],
+        [ 9.3877e-07,  2.4531e-06, -8.9407e-08,  ...,  5.1130e-07,
+          2.9635e-06,  2.4304e-05],
+        [ 3.2783e-06, -3.4813e-06,  3.3304e-06,  ...,  2.2049e-07,
+          2.3767e-06,  1.1581e-04]], device='cuda:0')
+Epoch 128, bias, value: tensor([ 0.0047, -0.0176, -0.0188,  0.0329, -0.0339,  0.0298, -0.0326, -0.0101,
+         0.0224, -0.0244], device='cuda:0'), grad: tensor([-3.4952e-04,  3.4422e-05,  2.6035e-04, -3.0875e-04,  1.5616e-05,
+         3.3081e-05,  3.9160e-05,  1.6138e-05,  4.4703e-05,  2.1505e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 127, time 214.84, cls_loss 0.0022 cls_loss_mapping 0.0052 cls_loss_causal 0.5277 re_mapping 0.0074 re_causal 0.0220 /// teacc 98.89 lr 0.00010000
+Epoch 129, weight, value: tensor([[-0.0589, -0.0918, -0.0679,  ..., -0.1215, -0.0049,  0.0661],
+        [ 0.0450,  0.0509,  0.0379,  ...,  0.0776, -0.1039, -0.0535],
+        [ 0.0447,  0.0375, -0.0880,  ..., -0.0019, -0.1178, -0.0395],
+        ...,
+        [-0.0349, -0.0502,  0.0710,  ..., -0.0789, -0.0217,  0.0150],
+        [ 0.0099,  0.0844,  0.1113,  ..., -0.0824, -0.0766, -0.1124],
+        [-0.1054,  0.0107, -0.1662,  ..., -0.0722, -0.0639,  0.0663]],
+       device='cuda:0'), grad: tensor([[ 1.1805e-07,  2.8864e-05,  3.9162e-07,  ...,  1.7905e-07,
+          1.5661e-05,  7.4767e-06],
+        [ 1.1045e-06,  2.5835e-06,  4.2617e-06,  ..., -3.0268e-08,
+          1.1623e-06,  4.3139e-06],
+        [ 1.9725e-06,  1.1623e-06,  6.8508e-06,  ...,  1.4529e-07,
+          7.5717e-07,  2.1700e-06],
+        ...,
+        [-5.7891e-06,  1.0975e-05, -2.1785e-05,  ...,  9.5228e-08,
+          7.7486e-07,  2.8312e-05],
+        [ 1.7718e-07,  3.2157e-05,  4.7567e-07,  ...,  3.6065e-07,
+          1.9461e-05,  1.9342e-05],
+        [ 1.6741e-07, -2.8059e-05,  6.1048e-07,  ...,  9.1270e-08,
+         -2.7614e-07, -7.6830e-05]], device='cuda:0')
+Epoch 129, bias, value: tensor([ 0.0047, -0.0175, -0.0186,  0.0328, -0.0336,  0.0298, -0.0322, -0.0099,
+         0.0221, -0.0250], device='cuda:0'), grad: tensor([ 5.5015e-05,  1.6063e-05,  1.4737e-05,  4.3333e-05,  2.7403e-05,
+         2.8357e-05, -1.4293e-04,  2.3782e-05,  7.7248e-05, -1.4317e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 128, time 215.04, cls_loss 0.0027 cls_loss_mapping 0.0063 cls_loss_causal 0.5542 re_mapping 0.0071 re_causal 0.0215 /// teacc 98.99 lr 0.00010000
+Epoch 130, weight, value: tensor([[-0.0594, -0.0922, -0.0683,  ..., -0.1217, -0.0050,  0.0664],
+        [ 0.0452,  0.0510,  0.0382,  ...,  0.0778, -0.1038, -0.0531],
+        [ 0.0449,  0.0374, -0.0881,  ..., -0.0021, -0.1188, -0.0403],
+        ...,
+        [-0.0351, -0.0508,  0.0711,  ..., -0.0793, -0.0221,  0.0153],
+        [ 0.0101,  0.0842,  0.1114,  ..., -0.0831, -0.0770, -0.1133],
+        [-0.1061,  0.0119, -0.1671,  ..., -0.0739, -0.0645,  0.0666]],
+       device='cuda:0'), grad: tensor([[ 5.0440e-06,  8.6427e-06,  3.7365e-06,  ...,  5.0198e-07,
+          3.7178e-06,  5.1875e-07],
+        [ 4.8093e-06,  7.7337e-06,  1.2793e-05,  ...,  2.2389e-06,
+          8.0140e-07,  2.3213e-07],
+        [ 4.8429e-06,  4.7982e-06,  2.9225e-06,  ...,  5.1130e-07,
+          6.3656e-07,  8.2189e-08],
+        ...,
+        [ 9.3365e-07,  1.4389e-06,  6.8871e-07,  ...,  4.1560e-07,
+          1.7206e-07,  1.3532e-06],
+        [-2.8104e-05, -2.6658e-05, -3.0637e-05,  ..., -3.8780e-06,
+          2.7828e-06,  1.2517e-06],
+        [ 1.5749e-06,  1.1344e-06,  1.2694e-06,  ...,  1.2238e-06,
+          1.4836e-06, -2.8852e-06]], device='cuda:0')
+Epoch 130, bias, value: tensor([ 0.0049, -0.0173, -0.0185,  0.0326, -0.0333,  0.0296, -0.0320, -0.0099,
+         0.0219, -0.0251], device='cuda:0'), grad: tensor([ 2.6822e-05,  1.8030e-05,  9.9763e-06,  1.8939e-05, -5.3411e-07,
+         6.4187e-06, -1.3046e-05,  4.2245e-06, -7.4804e-05,  3.9823e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 129, time 214.72, cls_loss 0.0030 cls_loss_mapping 0.0062 cls_loss_causal 0.5275 re_mapping 0.0075 re_causal 0.0217 /// teacc 98.92 lr 0.00010000
+Epoch 131, weight, value: tensor([[-0.0610, -0.0929, -0.0698,  ..., -0.1224, -0.0052,  0.0673],
+        [ 0.0437,  0.0511,  0.0365,  ...,  0.0788, -0.1034, -0.0532],
+        [ 0.0448,  0.0370, -0.0887,  ..., -0.0025, -0.1201, -0.0415],
+        ...,
+        [-0.0329, -0.0513,  0.0734,  ..., -0.0800, -0.0219,  0.0172],
+        [ 0.0107,  0.0844,  0.1119,  ..., -0.0833, -0.0776, -0.1143],
+        [-0.1062,  0.0115, -0.1702,  ..., -0.0747, -0.0650,  0.0656]],
+       device='cuda:0'), grad: tensor([[ 1.6415e-07,  7.2364e-07,  7.7765e-07,  ...,  2.0955e-08,
+          6.3563e-08, -8.8429e-07],
+        [ 5.9931e-07, -6.8732e-07,  2.1271e-06,  ..., -1.5162e-06,
+          1.8859e-08,  5.4482e-07],
+        [ 4.9593e-07, -2.0652e-07,  3.9525e-06,  ...,  2.4727e-07,
+          1.1595e-07,  6.6729e-07],
+        ...,
+        [-4.5486e-06,  9.1130e-07, -1.0759e-05,  ...,  3.0198e-07,
+          2.2119e-08, -9.8720e-07],
+        [ 8.4192e-07, -8.0466e-07, -1.4007e-06,  ...,  7.0548e-07,
+          2.7590e-07,  4.2049e-07],
+        [ 3.7835e-07, -4.9593e-07,  1.3774e-06,  ...,  8.5682e-08,
+          7.2177e-08, -1.1297e-06]], device='cuda:0')
+Epoch 131, bias, value: tensor([ 0.0055, -0.0185, -0.0189,  0.0327, -0.0332,  0.0288, -0.0317, -0.0075,
+         0.0219, -0.0266], device='cuda:0'), grad: tensor([ 4.3050e-07,  3.9041e-06,  3.8743e-06,  5.1782e-06,  1.4929e-06,
+         1.2480e-06, -1.1092e-06, -1.4678e-05, -1.9767e-07, -2.0792e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 130, time 215.09, cls_loss 0.0027 cls_loss_mapping 0.0060 cls_loss_causal 0.5368 re_mapping 0.0071 re_causal 0.0206 /// teacc 99.00 lr 0.00010000
+Epoch 132, weight, value: tensor([[-0.0617, -0.0947, -0.0701,  ..., -0.1248, -0.0071,  0.0667],
+        [ 0.0439,  0.0513,  0.0368,  ...,  0.0795, -0.1037, -0.0531],
+        [ 0.0451,  0.0370, -0.0887,  ..., -0.0028, -0.1217, -0.0430],
+        ...,
+        [-0.0333, -0.0525,  0.0732,  ..., -0.0812, -0.0224,  0.0168],
+        [ 0.0109,  0.0844,  0.1121,  ..., -0.0839, -0.0777, -0.1148],
+        [-0.1066,  0.0116, -0.1707,  ..., -0.0752, -0.0656,  0.0663]],
+       device='cuda:0'), grad: tensor([[ 4.7311e-07,  5.3179e-07,  3.0943e-07,  ...,  2.8894e-07,
+          4.1653e-07, -2.2724e-06],
+        [ 3.3472e-06,  1.0300e-06,  1.8636e-06,  ...,  2.2678e-07,
+          5.0664e-07,  4.1118e-07],
+        [-3.8683e-05,  1.1250e-06,  1.9055e-06,  ...,  6.2585e-07,
+          5.4110e-07,  3.5134e-07],
+        ...,
+        [ 4.1217e-05,  7.2177e-07, -1.1154e-05,  ...,  4.0978e-07,
+          1.2340e-07, -1.5087e-06],
+        [ 1.3970e-06,  2.9281e-06,  1.3998e-06,  ...,  1.2089e-06,
+          2.0806e-06,  1.6438e-06],
+        [ 5.0105e-07, -1.0617e-06,  1.7518e-06,  ...,  3.9511e-07,
+          3.9442e-07, -1.3364e-06]], device='cuda:0')
+Epoch 132, bias, value: tensor([ 0.0036, -0.0183, -0.0191,  0.0326, -0.0333,  0.0290, -0.0305, -0.0078,
+         0.0218, -0.0263], device='cuda:0'), grad: tensor([-1.3122e-06,  1.0043e-05, -1.4746e-04, -6.5379e-06,  2.8517e-06,
+         6.0424e-06, -9.3430e-06,  1.3304e-04,  1.1101e-05,  1.4938e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 131, time 215.20, cls_loss 0.0025 cls_loss_mapping 0.0050 cls_loss_causal 0.5509 re_mapping 0.0066 re_causal 0.0206 /// teacc 98.93 lr 0.00010000
+Epoch 133, weight, value: tensor([[-0.0624, -0.0951, -0.0703,  ..., -0.1250, -0.0071,  0.0673],
+        [ 0.0444,  0.0512,  0.0370,  ...,  0.0803, -0.1040, -0.0538],
+        [ 0.0447,  0.0370, -0.0896,  ..., -0.0034, -0.1224, -0.0436],
+        ...,
+        [-0.0336, -0.0541,  0.0731,  ..., -0.0821, -0.0231,  0.0160],
+        [ 0.0111,  0.0844,  0.1123,  ..., -0.0844, -0.0781, -0.1162],
+        [-0.1065,  0.0106, -0.1710,  ..., -0.0767, -0.0668,  0.0666]],
+       device='cuda:0'), grad: tensor([[ 2.0699e-07,  9.0199e-07,  7.5204e-08,  ...,  3.4906e-06,
+          6.8769e-06, -1.7835e-06],
+        [-6.4597e-06, -3.3434e-06, -8.8662e-06,  ...,  5.2564e-06,
+          1.6049e-05,  1.5576e-07],
+        [-8.5775e-07,  1.3178e-06,  9.8255e-07,  ...,  6.6757e-06,
+          1.0610e-05,  2.4261e-07],
+        ...,
+        [ 5.0925e-06,  3.6769e-06,  6.3665e-06,  ...,  1.4031e-04,
+          2.0444e-04,  7.8045e-07],
+        [ 1.4808e-07,  5.5879e-06,  3.9651e-07,  ...,  8.6650e-06,
+          1.7390e-05,  9.7323e-07],
+        [ 4.5495e-07,  1.1316e-06,  4.6496e-07,  ...,  5.9634e-05,
+          9.0003e-05,  1.1204e-06]], device='cuda:0')
+Epoch 133, bias, value: tensor([ 0.0040, -0.0182, -0.0194,  0.0327, -0.0320,  0.0289, -0.0303, -0.0082,
+         0.0215, -0.0268], device='cuda:0'), grad: tensor([ 1.4871e-05,  2.0906e-05,  2.3067e-05,  1.7196e-05, -8.3256e-04,
+         5.0116e-04, -4.1294e-04,  4.3631e-04,  4.0799e-05,  1.8930e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 132, time 215.03, cls_loss 0.0027 cls_loss_mapping 0.0057 cls_loss_causal 0.5555 re_mapping 0.0075 re_causal 0.0210 /// teacc 99.06 lr 0.00010000
+Epoch 134, weight, value: tensor([[-0.0630, -0.0953, -0.0709,  ..., -0.1252, -0.0070,  0.0674],
+        [ 0.0445,  0.0512,  0.0371,  ...,  0.0806, -0.1049, -0.0541],
+        [ 0.0452,  0.0367, -0.0901,  ..., -0.0037, -0.1231, -0.0440],
+        ...,
+        [-0.0339, -0.0553,  0.0732,  ..., -0.0832, -0.0243,  0.0159],
+        [ 0.0115,  0.0846,  0.1126,  ..., -0.0846, -0.0783, -0.1170],
+        [-0.1069,  0.0101, -0.1716,  ..., -0.0783, -0.0688,  0.0671]],
+       device='cuda:0'), grad: tensor([[ 5.6718e-07,  2.1942e-06,  4.4564e-07,  ...,  3.9255e-07,
+          1.6941e-06, -1.6484e-06],
+        [-1.7419e-05, -7.6070e-06, -6.8992e-06,  ...,  1.0036e-05,
+          8.9481e-06,  4.2655e-07],
+        [ 6.1840e-06,  7.1935e-06,  5.9195e-06,  ...,  3.9451e-06,
+          1.9670e-06,  2.4843e-07],
+        ...,
+        [ 7.1572e-07,  2.6934e-06,  4.9593e-07,  ...,  4.4629e-06,
+          2.0862e-06, -1.5441e-06],
+        [ 1.2495e-05,  1.6272e-05,  7.2569e-06,  ...,  4.5784e-06,
+          1.6958e-05,  1.5777e-06],
+        [ 4.4913e-07,  1.5022e-06,  1.9446e-06,  ...,  1.8319e-06,
+          1.8748e-06,  1.2871e-06]], device='cuda:0')
+Epoch 134, bias, value: tensor([ 0.0041, -0.0183, -0.0192,  0.0323, -0.0306,  0.0290, -0.0303, -0.0084,
+         0.0215, -0.0274], device='cuda:0'), grad: tensor([ 4.9993e-06, -7.4878e-06,  1.9550e-05,  9.7901e-06, -3.6031e-05,
+        -9.1493e-05, -1.6779e-05,  5.4315e-06,  1.0329e-04,  8.6799e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 133, time 214.86, cls_loss 0.0032 cls_loss_mapping 0.0073 cls_loss_causal 0.5532 re_mapping 0.0070 re_causal 0.0207 /// teacc 98.91 lr 0.00010000
+Epoch 135, weight, value: tensor([[-0.0638, -0.0956, -0.0719,  ..., -0.1253, -0.0068,  0.0678],
+        [ 0.0446,  0.0512,  0.0375,  ...,  0.0811, -0.1056, -0.0544],
+        [ 0.0454,  0.0366, -0.0912,  ..., -0.0044, -0.1240, -0.0447],
+        ...,
+        [-0.0344, -0.0577,  0.0731,  ..., -0.0833, -0.0243,  0.0145],
+        [ 0.0119,  0.0850,  0.1131,  ..., -0.0850, -0.0784, -0.1174],
+        [-0.1058,  0.0107, -0.1720,  ..., -0.0785, -0.0691,  0.0684]],
+       device='cuda:0'), grad: tensor([[ 3.8487e-07,  1.5032e-06,  6.1933e-07,  ...,  2.7311e-07,
+          1.8431e-06,  4.9509e-06],
+        [ 1.9372e-06,  2.4494e-06,  4.0457e-06,  ...,  3.9604e-07,
+          3.0547e-07,  2.4177e-06],
+        [-3.1069e-06,  3.3919e-06, -2.2678e-07,  ...,  6.6869e-07,
+          3.6228e-07,  2.3767e-06],
+        ...,
+        [ 2.6986e-05,  3.0771e-06,  2.0653e-05,  ...,  6.8685e-07,
+          5.2527e-07, -1.5181e-07],
+        [-4.4465e-05, -3.3551e-07, -5.7220e-05,  ..., -2.2515e-07,
+          3.3993e-07,  3.2894e-06],
+        [ 5.0776e-06, -3.6621e-03,  1.2115e-05,  ..., -5.9462e-04,
+          6.8307e-05, -1.4019e-03]], device='cuda:0')
+Epoch 135, bias, value: tensor([ 0.0044, -0.0187, -0.0190,  0.0315, -0.0312,  0.0296, -0.0304, -0.0086,
+         0.0217, -0.0266], device='cuda:0'), grad: tensor([ 1.0766e-05,  1.3277e-05,  3.5539e-06,  3.0145e-05,  7.5951e-03,
+        -2.8825e-04,  5.0813e-06,  4.6223e-05, -8.4221e-05, -7.3280e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 134, time 214.99, cls_loss 0.0024 cls_loss_mapping 0.0061 cls_loss_causal 0.5915 re_mapping 0.0072 re_causal 0.0219 /// teacc 98.99 lr 0.00010000
+Epoch 136, weight, value: tensor([[-0.0645, -0.0966, -0.0726,  ..., -0.1256, -0.0072,  0.0678],
+        [ 0.0447,  0.0513,  0.0376,  ...,  0.0817, -0.1058, -0.0546],
+        [ 0.0455,  0.0363, -0.0920,  ..., -0.0047, -0.1251, -0.0458],
+        ...,
+        [-0.0346, -0.0585,  0.0734,  ..., -0.0842, -0.0241,  0.0151],
+        [ 0.0126,  0.0852,  0.1137,  ..., -0.0853, -0.0786, -0.1179],
+        [-0.1065,  0.0118, -0.1738,  ..., -0.0788, -0.0704,  0.0685]],
+       device='cuda:0'), grad: tensor([[ 3.0594e-07,  7.9069e-07,  9.0972e-06,  ...,  5.6028e-06,
+          9.7416e-07,  2.6878e-06],
+        [-3.6880e-06, -1.4469e-05, -3.6955e-04,  ..., -2.2626e-04,
+         -3.2097e-05, -1.2624e-04],
+        [ 1.6214e-06,  2.2016e-06,  9.5293e-06,  ...,  5.7369e-06,
+          9.5554e-07,  2.7306e-06],
+        ...,
+        [ 2.0172e-06,  1.1563e-05,  2.8896e-04,  ...,  1.7643e-04,
+          2.5958e-05,  1.0061e-04],
+        [-3.8408e-06, -3.7830e-06,  3.3546e-06,  ...,  5.1409e-06,
+          1.6820e-06,  4.0159e-06],
+        [ 8.5728e-07, -4.5262e-07,  1.5557e-05,  ...,  1.0356e-05,
+          2.3209e-06,  1.9148e-06]], device='cuda:0')
+Epoch 136, bias, value: tensor([ 0.0042, -0.0187, -0.0193,  0.0314, -0.0319,  0.0297, -0.0303, -0.0082,
+         0.0218, -0.0264], device='cuda:0'), grad: tensor([ 2.0444e-05, -8.2493e-04,  2.1651e-05,  1.1977e-06,  7.5161e-05,
+         7.6741e-06,  6.6869e-06,  6.5041e-04,  8.1882e-06,  3.3140e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 135, time 214.86, cls_loss 0.0023 cls_loss_mapping 0.0044 cls_loss_causal 0.5580 re_mapping 0.0073 re_causal 0.0219 /// teacc 98.93 lr 0.00010000
+Epoch 137, weight, value: tensor([[-0.0649, -0.0977, -0.0738,  ..., -0.1258, -0.0072,  0.0678],
+        [ 0.0448,  0.0516,  0.0381,  ...,  0.0830, -0.1062, -0.0548],
+        [ 0.0456,  0.0362, -0.0922,  ..., -0.0048, -0.1257, -0.0464],
+        ...,
+        [-0.0347, -0.0604,  0.0731,  ..., -0.0865, -0.0243,  0.0136],
+        [ 0.0127,  0.0850,  0.1138,  ..., -0.0862, -0.0791, -0.1187],
+        [-0.1070,  0.0114, -0.1735,  ..., -0.0797, -0.0713,  0.0703]],
+       device='cuda:0'), grad: tensor([[ 1.0175e-07,  2.0023e-08,  1.7695e-07,  ...,  2.4447e-08,
+         -1.0291e-07, -2.0012e-05],
+        [-2.8126e-07,  1.6298e-08,  5.3346e-06,  ...,  3.0398e-06,
+          7.4040e-07,  2.8759e-06],
+        [ 5.9837e-07,  7.7998e-08,  5.8450e-06,  ...,  1.1548e-07,
+          7.1246e-08,  1.3366e-05],
+        ...,
+        [-1.9725e-06, -3.2154e-07, -4.3452e-05,  ..., -5.6773e-06,
+         -1.2722e-06, -4.4852e-05],
+        [ 5.8720e-07,  9.6019e-07,  9.7603e-07,  ...,  5.7416e-07,
+          1.8589e-06,  3.5968e-06],
+        [ 1.6661e-06,  1.3923e-07,  2.2277e-05,  ...,  1.5888e-06,
+          7.4180e-07,  3.3081e-05]], device='cuda:0')
+Epoch 137, bias, value: tensor([ 0.0040, -0.0185, -0.0193,  0.0314, -0.0312,  0.0297, -0.0300, -0.0096,
+         0.0216, -0.0257], device='cuda:0'), grad: tensor([-3.7491e-05,  1.3568e-05,  3.8207e-05,  9.9652e-07,  3.0786e-05,
+        -6.0815e-07,  3.4459e-06, -1.6880e-04,  1.1295e-05,  1.0860e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 136, time 215.13, cls_loss 0.0030 cls_loss_mapping 0.0065 cls_loss_causal 0.5213 re_mapping 0.0071 re_causal 0.0206 /// teacc 98.93 lr 0.00010000
+Epoch 138, weight, value: tensor([[-0.0659, -0.0993, -0.0745,  ..., -0.1269, -0.0075,  0.0681],
+        [ 0.0448,  0.0514,  0.0380,  ...,  0.0832, -0.1068, -0.0550],
+        [ 0.0451,  0.0357, -0.0930,  ..., -0.0050, -0.1264, -0.0469],
+        ...,
+        [-0.0347, -0.0624,  0.0722,  ..., -0.0867, -0.0255,  0.0123],
+        [ 0.0133,  0.0853,  0.1142,  ..., -0.0868, -0.0793, -0.1196],
+        [-0.1072,  0.0121, -0.1712,  ..., -0.0799, -0.0709,  0.0716]],
+       device='cuda:0'), grad: tensor([[ 6.4727e-07,  1.9856e-06,  1.3807e-07,  ...,  8.9640e-08,
+          6.8685e-07, -7.6413e-05],
+        [-1.1595e-07,  3.9511e-07, -1.0822e-06,  ..., -3.9022e-07,
+          2.1793e-06,  1.3541e-06],
+        [-9.3132e-06, -3.9972e-06,  5.3132e-07,  ...,  2.8475e-07,
+          4.0256e-07,  9.5293e-06],
+        ...,
+        [ 6.0024e-07,  5.1502e-07, -6.1793e-07,  ...,  2.3935e-07,
+          4.6054e-07,  4.7404e-07],
+        [ 5.1558e-06, -1.2673e-05, -1.3756e-06,  ...,  6.0443e-07,
+          5.1856e-06,  6.8918e-06],
+        [ 9.7137e-07,  1.5408e-05,  1.6084e-06,  ...,  4.9220e-07,
+          1.8673e-06,  3.4004e-05]], device='cuda:0')
+Epoch 138, bias, value: tensor([ 0.0039, -0.0187, -0.0201,  0.0336, -0.0317,  0.0292, -0.0296, -0.0118,
+         0.0216, -0.0238], device='cuda:0'), grad: tensor([-1.1647e-04,  6.0238e-06, -2.9933e-06,  7.5474e-06,  6.1560e-07,
+        -4.0829e-05,  6.0678e-05,  1.7108e-06, -9.6112e-06,  9.3281e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 137, time 215.28, cls_loss 0.0028 cls_loss_mapping 0.0063 cls_loss_causal 0.5700 re_mapping 0.0073 re_causal 0.0213 /// teacc 98.92 lr 0.00010000
+Epoch 139, weight, value: tensor([[-0.0664, -0.1003, -0.0748,  ..., -0.1276, -0.0077,  0.0683],
+        [ 0.0456,  0.0518,  0.0386,  ...,  0.0834, -0.1073, -0.0558],
+        [ 0.0453,  0.0356, -0.0938,  ..., -0.0054, -0.1278, -0.0474],
+        ...,
+        [-0.0352, -0.0634,  0.0720,  ..., -0.0866, -0.0255,  0.0122],
+        [ 0.0125,  0.0845,  0.1141,  ..., -0.0884, -0.0800, -0.1208],
+        [-0.1073,  0.0119, -0.1716,  ..., -0.0817, -0.0726,  0.0721]],
+       device='cuda:0'), grad: tensor([[ 5.7137e-07,  8.4704e-07,  3.5367e-07,  ...,  7.9954e-07,
+          6.6236e-06,  6.8061e-06],
+        [-2.5164e-06, -1.8580e-06, -2.0396e-06,  ...,  3.2317e-07,
+          4.4294e-06,  1.2983e-06],
+        [ 5.2713e-07,  1.2470e-06,  9.2527e-07,  ...,  1.3448e-06,
+          2.0694e-06,  5.4808e-07],
+        ...,
+        [ 1.3383e-06,  2.3581e-06, -4.3988e-05,  ..., -1.4627e-04,
+         -2.5678e-04, -2.1420e-06],
+        [-3.2429e-06, -1.2992e-06, -1.5153e-06,  ...,  1.8459e-06,
+          3.8445e-06,  2.4140e-06],
+        [ 1.3467e-06, -6.6683e-06,  6.6794e-06,  ...,  1.0550e-05,
+          1.4313e-05, -8.5533e-06]], device='cuda:0')
+Epoch 139, bias, value: tensor([ 0.0038, -0.0184, -0.0204,  0.0333, -0.0308,  0.0290, -0.0287, -0.0119,
+         0.0205, -0.0239], device='cuda:0'), grad: tensor([ 1.4029e-05,  4.7944e-06,  6.6720e-06,  3.3617e-05,  4.8876e-04,
+        -3.8445e-05, -4.5635e-06, -5.4026e-04,  4.1053e-06,  3.1322e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 138, time 215.15, cls_loss 0.0031 cls_loss_mapping 0.0056 cls_loss_causal 0.5699 re_mapping 0.0075 re_causal 0.0211 /// teacc 98.98 lr 0.00010000
+Epoch 140, weight, value: tensor([[-0.0681, -0.1010, -0.0757,  ..., -0.1275, -0.0066,  0.0692],
+        [ 0.0452,  0.0515,  0.0378,  ...,  0.0837, -0.1078, -0.0568],
+        [ 0.0461,  0.0374, -0.0945,  ..., -0.0054, -0.1286, -0.0471],
+        ...,
+        [-0.0354, -0.0639,  0.0728,  ..., -0.0862, -0.0245,  0.0130],
+        [ 0.0123,  0.0845,  0.1151,  ..., -0.0885, -0.0803, -0.1214],
+        [-0.1092,  0.0116, -0.1733,  ..., -0.0828, -0.0735,  0.0717]],
+       device='cuda:0'), grad: tensor([[ 4.1793e-07,  7.8278e-07,  9.0571e-08,  ...,  3.1781e-07,
+          5.2713e-07, -5.6392e-07],
+        [-1.4585e-06, -3.2205e-06, -4.5374e-06,  ..., -2.6710e-06,
+          5.5693e-07,  1.8557e-07],
+        [-1.3255e-05, -7.7719e-07,  5.8440e-07,  ...,  5.2620e-07,
+          3.3015e-07,  1.4366e-07],
+        ...,
+        [ 2.1141e-06,  1.1539e-06, -2.5635e-07,  ...,  3.4529e-07,
+          1.3108e-07,  4.4424e-07],
+        [ 5.9530e-06,  4.7237e-06,  2.8107e-06,  ...,  2.0918e-06,
+          1.5544e-06,  2.6487e-06],
+        [-1.7928e-07, -2.2538e-06,  4.7311e-07,  ...,  5.6764e-07,
+          3.8673e-07, -8.7693e-06]], device='cuda:0')
+Epoch 140, bias, value: tensor([ 0.0043, -0.0192, -0.0199,  0.0341, -0.0307,  0.0290, -0.0291, -0.0111,
+         0.0205, -0.0249], device='cuda:0'), grad: tensor([ 1.2182e-06, -9.7882e-07, -2.3380e-05,  7.3500e-06,  4.3884e-06,
+         1.3337e-05, -8.6427e-06,  4.8280e-06,  1.7449e-05, -1.5587e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 139, time 214.80, cls_loss 0.0023 cls_loss_mapping 0.0045 cls_loss_causal 0.5434 re_mapping 0.0076 re_causal 0.0215 /// teacc 99.01 lr 0.00010000
+Epoch 141, weight, value: tensor([[-0.0692, -0.1013, -0.0759,  ..., -0.1274, -0.0064,  0.0694],
+        [ 0.0453,  0.0514,  0.0378,  ...,  0.0841, -0.1084, -0.0569],
+        [ 0.0470,  0.0386, -0.0935,  ..., -0.0051, -0.1306, -0.0479],
+        ...,
+        [-0.0357, -0.0648,  0.0730,  ..., -0.0867, -0.0248,  0.0137],
+        [ 0.0120,  0.0846,  0.1151,  ..., -0.0897, -0.0804, -0.1218],
+        [-0.1098,  0.0115, -0.1742,  ..., -0.0834, -0.0738,  0.0714]],
+       device='cuda:0'), grad: tensor([[ 1.6764e-06,  7.2829e-07,  2.0023e-06,  ...,  8.7451e-07,
+         -1.3062e-07,  7.6741e-07],
+        [-8.4400e-05, -3.2514e-05, -1.0312e-04,  ..., -4.6760e-05,
+          1.0850e-07, -8.4698e-05],
+        [ 8.6799e-06,  3.8892e-06,  9.7230e-06,  ...,  4.0382e-06,
+          9.1502e-08,  6.6385e-06],
+        ...,
+        [ 6.1274e-05,  2.3693e-05,  7.3254e-05,  ...,  3.3617e-05,
+          7.7533e-08,  6.2108e-05],
+        [-1.4631e-06, -9.4855e-07, -8.6613e-08,  ...,  1.0626e-06,
+          6.0350e-07,  2.0452e-06],
+        [ 1.0125e-05,  3.5539e-06,  1.2979e-05,  ...,  5.9195e-06,
+          7.1432e-07,  9.1195e-06]], device='cuda:0')
+Epoch 141, bias, value: tensor([ 0.0044, -0.0193, -0.0190,  0.0339, -0.0306,  0.0288, -0.0290, -0.0107,
+         0.0204, -0.0256], device='cuda:0'), grad: tensor([ 3.4198e-06, -2.1315e-04,  2.0862e-05,  4.8727e-06,  2.6375e-06,
+        -4.0117e-07,  2.1104e-06,  1.5438e-04,  1.0920e-07,  2.5198e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 140, time 215.29, cls_loss 0.0026 cls_loss_mapping 0.0057 cls_loss_causal 0.5399 re_mapping 0.0067 re_causal 0.0206 /// teacc 98.92 lr 0.00010000
+Epoch 142, weight, value: tensor([[-0.0699, -0.1018, -0.0766,  ..., -0.1277, -0.0065,  0.0696],
+        [ 0.0462,  0.0515,  0.0394,  ...,  0.0871, -0.1087, -0.0542],
+        [ 0.0470,  0.0385, -0.0939,  ..., -0.0054, -0.1325, -0.0484],
+        ...,
+        [-0.0367, -0.0656,  0.0720,  ..., -0.0892, -0.0218,  0.0123],
+        [ 0.0118,  0.0848,  0.1155,  ..., -0.0900, -0.0806, -0.1216],
+        [-0.1103,  0.0121, -0.1748,  ..., -0.0834, -0.0743,  0.0718]],
+       device='cuda:0'), grad: tensor([[ 3.1665e-07,  5.8562e-06,  1.8273e-06,  ...,  1.6391e-07,
+          9.6336e-06,  2.8647e-06],
+        [-9.7044e-07,  6.0583e-07, -8.6194e-07,  ..., -1.3877e-06,
+          9.9838e-07,  5.2014e-07],
+        [-1.7677e-06,  1.5702e-06,  9.0897e-07,  ...,  7.4366e-07,
+          1.5125e-06,  5.5181e-07],
+        ...,
+        [ 1.0636e-06,  5.0804e-07, -1.9395e-07,  ...,  4.2724e-07,
+          2.1420e-07,  7.0920e-07],
+        [-8.0690e-06, -1.1820e-04, -6.6698e-05,  ...,  3.6811e-07,
+         -4.3929e-05, -3.0603e-06],
+        [ 3.3202e-07,  2.3842e-06,  8.4564e-07,  ...,  3.1348e-06,
+          2.0452e-06, -4.2617e-06]], device='cuda:0')
+Epoch 142, bias, value: tensor([ 0.0044, -0.0171, -0.0193,  0.0348, -0.0315,  0.0279, -0.0290, -0.0121,
+         0.0203, -0.0254], device='cuda:0'), grad: tensor([ 2.3380e-05,  2.1812e-06, -5.9344e-06,  4.2319e-06, -2.8405e-06,
+         8.8871e-05,  1.5473e-04,  5.5283e-06, -2.7490e-04,  4.4294e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 141, time 215.11, cls_loss 0.0024 cls_loss_mapping 0.0050 cls_loss_causal 0.5474 re_mapping 0.0068 re_causal 0.0205 /// teacc 99.07 lr 0.00010000
+Epoch 143, weight, value: tensor([[-0.0706, -0.1019, -0.0770,  ..., -0.1283, -0.0066,  0.0703],
+        [ 0.0466,  0.0519,  0.0398,  ...,  0.0880, -0.1090, -0.0539],
+        [ 0.0468,  0.0380, -0.0946,  ..., -0.0061, -0.1347, -0.0520],
+        ...,
+        [-0.0368, -0.0665,  0.0721,  ..., -0.0896, -0.0223,  0.0121],
+        [ 0.0120,  0.0847,  0.1158,  ..., -0.0908, -0.0811, -0.1229],
+        [-0.1102,  0.0115, -0.1752,  ..., -0.0862, -0.0760,  0.0720]],
+       device='cuda:0'), grad: tensor([[ 1.6298e-08,  1.9535e-05,  1.4831e-07,  ...,  2.0433e-06,
+          1.7166e-05,  3.1531e-05],
+        [-2.0908e-07,  6.1747e-07,  5.0990e-08,  ...,  1.5507e-07,
+          8.8476e-07,  2.6706e-07],
+        [ 7.1479e-08,  2.1569e-06,  9.1502e-08,  ...,  7.2876e-07,
+          9.3970e-07,  4.8764e-06],
+        ...,
+        [ 7.3342e-08,  2.9709e-07,  8.1258e-08,  ...,  6.3796e-08,
+          2.9081e-07,  6.7335e-07],
+        [-4.9174e-07,  6.5006e-06,  9.5461e-08,  ...,  1.6643e-06,
+          5.4017e-06,  1.2554e-06],
+        [ 3.2899e-07, -9.2834e-06,  5.1409e-07,  ...,  1.4179e-07,
+          5.6485e-07, -3.2991e-05]], device='cuda:0')
+Epoch 143, bias, value: tensor([ 0.0049, -0.0167, -0.0200,  0.0345, -0.0307,  0.0277, -0.0285, -0.0123,
+         0.0199, -0.0258], device='cuda:0'), grad: tensor([ 6.7294e-05,  1.9064e-06,  7.3314e-06,  8.1584e-06,  6.4299e-06,
+        -8.5682e-06, -6.4611e-05,  1.2703e-06,  1.4335e-05, -3.3557e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 142, time 215.12, cls_loss 0.0017 cls_loss_mapping 0.0045 cls_loss_causal 0.5469 re_mapping 0.0065 re_causal 0.0208 /// teacc 99.01 lr 0.00010000
+Epoch 144, weight, value: tensor([[-0.0717, -0.1024, -0.0775,  ..., -0.1282, -0.0063,  0.0708],
+        [ 0.0469,  0.0521,  0.0399,  ...,  0.0882, -0.1097, -0.0540],
+        [ 0.0464,  0.0374, -0.0954,  ..., -0.0068, -0.1360, -0.0527],
+        ...,
+        [-0.0368, -0.0668,  0.0723,  ..., -0.0897, -0.0223,  0.0122],
+        [ 0.0123,  0.0849,  0.1161,  ..., -0.0911, -0.0812, -0.1234],
+        [-0.1104,  0.0116, -0.1758,  ..., -0.0864, -0.0764,  0.0720]],
+       device='cuda:0'), grad: tensor([[ 1.3830e-07,  1.9511e-07,  1.1525e-07,  ...,  6.1234e-08,
+          1.9348e-07,  7.7300e-08],
+        [ 2.5146e-07, -4.3493e-07, -7.4971e-08,  ..., -8.8988e-07,
+          8.1258e-08,  9.7509e-07],
+        [-2.4326e-06, -5.4715e-08,  4.3679e-07,  ...,  8.1956e-08,
+          6.4261e-08,  2.1094e-07],
+        ...,
+        [ 1.6186e-06,  2.8801e-07, -2.7735e-06,  ...,  3.6252e-07,
+          4.0745e-08, -2.3767e-06],
+        [ 1.2144e-06,  2.3395e-06,  4.7241e-07,  ...,  6.0862e-07,
+          3.0752e-06,  1.4501e-06],
+        [ 3.1269e-07,  3.6624e-07,  6.6962e-07,  ...,  6.6636e-07,
+          4.6729e-07,  1.5413e-07]], device='cuda:0')
+Epoch 144, bias, value: tensor([ 0.0052, -0.0166, -0.0207,  0.0343, -0.0308,  0.0277, -0.0286, -0.0121,
+         0.0200, -0.0259], device='cuda:0'), grad: tensor([ 8.1770e-07,  2.6152e-06, -2.7120e-06, -1.5665e-06,  1.9185e-07,
+         6.7987e-07, -7.2159e-06, -4.4443e-06,  9.1270e-06,  2.4773e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 143, time 214.90, cls_loss 0.0023 cls_loss_mapping 0.0060 cls_loss_causal 0.5673 re_mapping 0.0063 re_causal 0.0211 /// teacc 98.95 lr 0.00010000
+Epoch 145, weight, value: tensor([[-0.0725, -0.1029, -0.0778,  ..., -0.1285, -0.0064,  0.0709],
+        [ 0.0472,  0.0522,  0.0402,  ...,  0.0883, -0.1103, -0.0538],
+        [ 0.0467,  0.0373, -0.0955,  ..., -0.0069, -0.1368, -0.0524],
+        ...,
+        [-0.0373, -0.0676,  0.0720,  ..., -0.0897, -0.0224,  0.0121],
+        [ 0.0128,  0.0850,  0.1169,  ..., -0.0916, -0.0815, -0.1239],
+        [-0.1121,  0.0086, -0.1767,  ..., -0.0866, -0.0770,  0.0712]],
+       device='cuda:0'), grad: tensor([[ 1.0408e-07,  3.8953e-07,  1.5949e-07,  ...,  2.7288e-07,
+          2.6473e-07, -1.3011e-06],
+        [ 1.5437e-07,  4.4227e-05,  2.0087e-05,  ...,  5.4061e-05,
+          5.9038e-05,  5.8161e-07],
+        [ 4.4634e-07,  4.7521e-07,  8.4704e-07,  ...,  1.1851e-07,
+          1.4179e-07,  3.3132e-07],
+        ...,
+        [ 1.9977e-07,  2.4587e-07, -1.2666e-06,  ...,  2.4913e-08,
+          7.1712e-08,  1.0421e-06],
+        [-1.4305e-06,  1.2189e-05,  4.3362e-06,  ...,  1.5691e-05,
+          1.7568e-05,  1.0189e-06],
+        [ 1.5181e-07, -2.2613e-06,  2.3399e-07,  ...,  9.4762e-08,
+         -8.6846e-08, -9.9391e-06]], device='cuda:0')
+Epoch 145, bias, value: tensor([ 0.0051, -0.0165, -0.0203,  0.0337, -0.0283,  0.0284, -0.0282, -0.0124,
+         0.0202, -0.0281], device='cuda:0'), grad: tensor([-1.5199e-06,  1.1158e-04,  1.6280e-06, -1.3970e-08,  9.8646e-06,
+         1.4305e-05, -1.5724e-04,  1.2247e-07,  3.1799e-05, -1.0423e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 144, time 215.27, cls_loss 0.0019 cls_loss_mapping 0.0040 cls_loss_causal 0.5317 re_mapping 0.0063 re_causal 0.0202 /// teacc 99.03 lr 0.00010000
+Epoch 146, weight, value: tensor([[-0.0731, -0.1033, -0.0783,  ..., -0.1286, -0.0065,  0.0702],
+        [ 0.0472,  0.0519,  0.0401,  ...,  0.0883, -0.1114, -0.0539],
+        [ 0.0471,  0.0373, -0.0957,  ..., -0.0070, -0.1373, -0.0529],
+        ...,
+        [-0.0375, -0.0682,  0.0719,  ..., -0.0898, -0.0225,  0.0118],
+        [ 0.0131,  0.0860,  0.1182,  ..., -0.0916, -0.0807, -0.1246],
+        [-0.1131,  0.0086, -0.1769,  ..., -0.0868, -0.0772,  0.0722]],
+       device='cuda:0'), grad: tensor([[ 6.8452e-08,  1.8533e-07,  9.3132e-08,  ...,  6.9151e-08,
+          2.9337e-08, -1.4715e-06],
+        [ 3.0734e-08, -1.1642e-08,  4.7730e-07,  ..., -1.0664e-07,
+          4.4703e-08,  2.5216e-07],
+        [-1.3048e-06,  3.4156e-07,  2.3772e-07,  ...,  2.1746e-07,
+          4.0699e-07,  2.8173e-08],
+        ...,
+        [ 1.8557e-07,  7.4971e-08, -2.1514e-06,  ...,  3.9814e-08,
+          2.0023e-08, -6.7288e-07],
+        [ 4.7311e-07,  6.6869e-07,  1.5600e-08,  ...,  2.1700e-07,
+          6.2492e-07,  8.4983e-07],
+        [ 2.8685e-07, -6.8359e-07,  7.5018e-07,  ...,  1.8394e-08,
+          2.3283e-09,  4.6566e-08]], device='cuda:0')
+Epoch 146, bias, value: tensor([ 0.0044, -0.0167, -0.0201,  0.0337, -0.0282,  0.0288, -0.0293, -0.0127,
+         0.0212, -0.0276], device='cuda:0'), grad: tensor([-1.3253e-06,  1.4510e-06,  1.0012e-08,  7.6182e-07,  1.1949e-06,
+         5.5414e-07, -3.0175e-06, -4.1872e-06,  3.0380e-06,  1.5199e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 145, time 214.86, cls_loss 0.0028 cls_loss_mapping 0.0058 cls_loss_causal 0.5218 re_mapping 0.0065 re_causal 0.0191 /// teacc 98.98 lr 0.00010000
+Epoch 147, weight, value: tensor([[-0.0754, -0.1039, -0.0794,  ..., -0.1285, -0.0064,  0.0717],
+        [ 0.0475,  0.0516,  0.0402,  ...,  0.0877, -0.1122, -0.0536],
+        [ 0.0466,  0.0372, -0.0966,  ..., -0.0071, -0.1387, -0.0566],
+        ...,
+        [-0.0381, -0.0693,  0.0718,  ..., -0.0899, -0.0226,  0.0117],
+        [ 0.0135,  0.0864,  0.1188,  ..., -0.0922, -0.0808, -0.1254],
+        [-0.1136,  0.0087, -0.1775,  ..., -0.0871, -0.0771,  0.0721]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-07,  4.4331e-07,  2.4680e-07,  ...,  1.0012e-08,
+          8.3353e-08,  2.1537e-07],
+        [ 3.3574e-07,  5.6950e-07,  6.7614e-06,  ...,  6.3330e-08,
+          6.7055e-08,  7.8231e-06],
+        [-4.8382e-07,  3.3365e-07,  3.3085e-07,  ...,  1.9441e-07,
+          1.2713e-07,  3.5716e-07],
+        ...,
+        [ 2.4703e-07,  1.4133e-07, -1.9714e-05,  ...,  6.3563e-08,
+          3.1898e-08, -2.0370e-05],
+        [ 4.8801e-07,  2.2035e-06,  5.3318e-07,  ...,  8.4285e-08,
+          1.5344e-07,  3.0287e-06],
+        [-2.0973e-06, -1.3389e-05,  1.0267e-05,  ...,  4.6752e-06,
+          1.8673e-06, -7.3537e-06]], device='cuda:0')
+Epoch 147, bias, value: tensor([ 0.0055, -0.0169, -0.0213,  0.0337, -0.0284,  0.0290, -0.0291, -0.0129,
+         0.0215, -0.0278], device='cuda:0'), grad: tensor([ 1.3039e-06,  1.8671e-05,  6.4820e-07,  1.6823e-05, -1.7062e-06,
+         8.8140e-06, -1.1940e-06, -4.7624e-05,  7.5214e-06, -3.2522e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 146, time 215.10, cls_loss 0.0017 cls_loss_mapping 0.0039 cls_loss_causal 0.5269 re_mapping 0.0066 re_causal 0.0204 /// teacc 99.00 lr 0.00010000
+Epoch 148, weight, value: tensor([[-0.0769, -0.1043, -0.0808,  ..., -0.1285, -0.0063,  0.0725],
+        [ 0.0466,  0.0494,  0.0390,  ...,  0.0858, -0.1133, -0.0536],
+        [ 0.0471,  0.0376, -0.0970,  ..., -0.0070, -0.1391, -0.0573],
+        ...,
+        [-0.0382, -0.0696,  0.0722,  ..., -0.0898, -0.0226,  0.0117],
+        [ 0.0138,  0.0864,  0.1191,  ..., -0.0928, -0.0811, -0.1262],
+        [-0.1150,  0.0087, -0.1780,  ..., -0.0875, -0.0775,  0.0718]],
+       device='cuda:0'), grad: tensor([[ 3.0007e-06,  1.6401e-06,  3.2037e-07,  ...,  4.4797e-07,
+          1.9670e-06,  1.5413e-06],
+        [ 4.6417e-06,  9.1549e-07, -3.6228e-07,  ..., -1.6950e-07,
+          2.7753e-07,  8.1025e-08],
+        [-7.3910e-05, -1.4365e-05,  3.9209e-07,  ...,  2.0862e-07,
+          1.2480e-07, -1.8086e-06],
+        ...,
+        [ 7.1898e-06,  8.2981e-07, -6.3237e-07,  ...,  1.1176e-07,
+          3.5390e-08,  1.2945e-07],
+        [ 2.1011e-05,  3.7495e-06, -3.1441e-06,  ...,  4.3586e-07,
+          1.2508e-06,  1.4678e-06],
+        [ 1.3700e-06,  1.6578e-07,  5.4203e-07,  ...,  3.7998e-07,
+          3.3062e-07, -5.6345e-07]], device='cuda:0')
+Epoch 148, bias, value: tensor([ 0.0060, -0.0184, -0.0210,  0.0335, -0.0286,  0.0293, -0.0275, -0.0127,
+         0.0214, -0.0282], device='cuda:0'), grad: tensor([ 1.2934e-05,  1.1079e-05, -1.5223e-04,  6.3479e-05,  2.6803e-06,
+         5.1446e-06, -6.9030e-06,  1.4916e-05,  4.5806e-05,  3.0976e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 147, time 214.77, cls_loss 0.0029 cls_loss_mapping 0.0051 cls_loss_causal 0.5006 re_mapping 0.0067 re_causal 0.0195 /// teacc 99.01 lr 0.00010000
+Epoch 149, weight, value: tensor([[-0.0796, -0.1048, -0.0841,  ..., -0.1288, -0.0066,  0.0725],
+        [ 0.0465,  0.0497,  0.0387,  ...,  0.0863, -0.1137, -0.0536],
+        [ 0.0471,  0.0374, -0.0977,  ..., -0.0075, -0.1399, -0.0575],
+        ...,
+        [-0.0378, -0.0705,  0.0729,  ..., -0.0901, -0.0230,  0.0115],
+        [ 0.0161,  0.0864,  0.1213,  ..., -0.0939, -0.0813, -0.1273],
+        [-0.1153,  0.0085, -0.1788,  ..., -0.0885, -0.0782,  0.0721]],
+       device='cuda:0'), grad: tensor([[ 2.1793e-07,  1.1083e-07,  1.3504e-07,  ...,  9.4995e-08,
+         -2.4959e-07, -1.6419e-06],
+        [-5.1819e-06, -3.6806e-06, -6.7391e-06,  ..., -4.2729e-06,
+          3.1665e-08,  1.3225e-07],
+        [-5.4464e-06,  1.0431e-07,  1.3784e-07,  ...,  1.1828e-07,
+          1.3970e-08,  7.8231e-08],
+        ...,
+        [ 4.2766e-06,  4.7032e-07, -3.1590e-06,  ...,  5.6997e-07,
+          1.2107e-08, -1.1120e-06],
+        [ 2.7809e-06,  2.8834e-06,  3.3174e-06,  ...,  2.0117e-06,
+          1.9446e-06,  1.3132e-06],
+        [ 1.1548e-06,  3.5204e-07,  2.1234e-06,  ...,  4.3493e-07,
+          9.6858e-08,  7.9256e-07]], device='cuda:0')
+Epoch 149, bias, value: tensor([ 0.0056, -0.0184, -0.0210,  0.0328, -0.0283,  0.0284, -0.0276, -0.0126,
+         0.0228, -0.0283], device='cuda:0'), grad: tensor([-2.9057e-06, -8.6948e-06, -6.7577e-06,  3.3807e-07,  4.4983e-07,
+         1.1828e-06, -2.5332e-07, -1.0626e-06,  1.2398e-05,  5.2415e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 148, time 215.10, cls_loss 0.0025 cls_loss_mapping 0.0052 cls_loss_causal 0.5751 re_mapping 0.0068 re_causal 0.0204 /// teacc 99.03 lr 0.00010000
+Epoch 150, weight, value: tensor([[-0.0808, -0.1053, -0.0851,  ..., -0.1292, -0.0068,  0.0725],
+        [ 0.0469,  0.0498,  0.0389,  ...,  0.0866, -0.1145, -0.0537],
+        [ 0.0474,  0.0372, -0.0981,  ..., -0.0081, -0.1407, -0.0580],
+        ...,
+        [-0.0383, -0.0710,  0.0733,  ..., -0.0903, -0.0231,  0.0117],
+        [ 0.0159,  0.0864,  0.1214,  ..., -0.0949, -0.0816, -0.1283],
+        [-0.1156,  0.0087, -0.1796,  ..., -0.0889, -0.0785,  0.0724]],
+       device='cuda:0'), grad: tensor([[ 1.7788e-07,  3.4738e-07, -1.2107e-08,  ...,  2.7660e-07,
+         -3.9339e-06, -5.8822e-06],
+        [ 2.0023e-07,  3.5297e-07,  9.3505e-07,  ...,  2.4959e-07,
+          7.7207e-07,  1.1073e-06],
+        [-8.1863e-07,  5.3365e-07,  2.0303e-07,  ...,  4.6846e-07,
+          9.2294e-07,  5.1036e-07],
+        ...,
+        [ 6.0070e-07,  2.5518e-07, -4.1239e-06,  ...,  2.4028e-07,
+          5.7556e-07, -9.6485e-07],
+        [ 2.6170e-07,  1.6866e-06, -1.1828e-07,  ...,  1.4761e-06,
+          2.3507e-06,  5.1595e-07],
+        [ 6.9477e-07,  1.4022e-05,  1.0962e-06,  ...,  1.1906e-05,
+          1.1265e-05, -2.9746e-06]], device='cuda:0')
+Epoch 150, bias, value: tensor([ 0.0054, -0.0183, -0.0212,  0.0323, -0.0283,  0.0289, -0.0275, -0.0123,
+         0.0225, -0.0283], device='cuda:0'), grad: tensor([-1.3627e-05,  4.5896e-06,  1.9558e-06, -1.5117e-05, -5.3287e-05,
+         1.7166e-05,  1.9804e-05, -3.2671e-06,  7.4208e-06,  3.4273e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 149, time 214.70, cls_loss 0.0028 cls_loss_mapping 0.0055 cls_loss_causal 0.5183 re_mapping 0.0072 re_causal 0.0197 /// teacc 98.90 lr 0.00010000
+Epoch 151, weight, value: tensor([[-0.0821, -0.1056, -0.0861,  ..., -0.1293, -0.0064,  0.0738],
+        [ 0.0474,  0.0498,  0.0398,  ...,  0.0871, -0.1153, -0.0519],
+        [ 0.0480,  0.0368, -0.0988,  ..., -0.0087, -0.1436, -0.0592],
+        ...,
+        [-0.0388, -0.0717,  0.0732,  ..., -0.0908, -0.0232,  0.0110],
+        [ 0.0160,  0.0864,  0.1214,  ..., -0.0958, -0.0821, -0.1291],
+        [-0.1166,  0.0088, -0.1812,  ..., -0.0897, -0.0795,  0.0718]],
+       device='cuda:0'), grad: tensor([[ 3.6508e-07,  7.6555e-07,  5.0571e-07,  ...,  3.4180e-07,
+         -9.3132e-09, -9.9838e-07],
+        [ 2.8778e-07,  2.9877e-06,  1.8161e-06,  ...,  5.1484e-06,
+          4.4033e-06,  1.5058e-05],
+        [ 2.9579e-06,  7.2736e-07,  2.2762e-06,  ...,  5.5134e-07,
+          8.3540e-07,  1.9949e-06],
+        ...,
+        [ 6.8266e-07,  2.2557e-06, -3.0976e-06,  ...,  9.6951e-07,
+          2.5984e-06,  3.2592e-04],
+        [-4.1723e-05, -4.9442e-05, -4.7475e-05,  ...,  4.1351e-07,
+         -5.0366e-05,  1.8505e-06],
+        [ 1.7202e-06, -7.3761e-06,  3.0734e-06,  ...,  4.3660e-06,
+         -1.8515e-06, -4.1533e-04]], device='cuda:0')
+Epoch 151, bias, value: tensor([ 0.0064, -0.0172, -0.0208,  0.0321, -0.0280,  0.0290, -0.0275, -0.0131,
+         0.0222, -0.0293], device='cuda:0'), grad: tensor([ 1.6065e-06,  3.1024e-05,  9.0301e-06,  3.6150e-05,  6.2883e-05,
+         2.5213e-05,  1.4234e-04,  3.9196e-04, -1.9133e-04, -5.1022e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 150, time 214.93, cls_loss 0.0025 cls_loss_mapping 0.0058 cls_loss_causal 0.5231 re_mapping 0.0069 re_causal 0.0196 /// teacc 98.99 lr 0.00010000
+Epoch 152, weight, value: tensor([[-0.0839, -0.1063, -0.0888,  ..., -0.1295, -0.0065,  0.0740],
+        [ 0.0475,  0.0505,  0.0399,  ...,  0.0878, -0.1147, -0.0522],
+        [ 0.0478,  0.0361, -0.1000,  ..., -0.0093, -0.1457, -0.0598],
+        ...,
+        [-0.0385, -0.0721,  0.0740,  ..., -0.0907, -0.0226,  0.0110],
+        [ 0.0169,  0.0866,  0.1219,  ..., -0.0970, -0.0826, -0.1298],
+        [-0.1177,  0.0088, -0.1820,  ..., -0.0899, -0.0801,  0.0722]],
+       device='cuda:0'), grad: tensor([[ 1.6298e-07,  1.2843e-06,  3.9395e-07,  ...,  5.5600e-07,
+         -4.3306e-07, -4.6529e-06],
+        [-7.8604e-06, -9.8441e-07, -1.1176e-05,  ..., -5.9009e-06,
+          2.4028e-07, -1.6624e-06],
+        [ 1.3970e-07,  2.3283e-07,  1.9744e-06,  ...,  9.3225e-07,
+          2.3190e-07,  7.0594e-07],
+        ...,
+        [ 3.6731e-06,  3.9302e-07, -8.7768e-06,  ...,  2.3413e-06,
+          1.1455e-07, -1.1861e-05],
+        [ 8.9873e-07,  1.6121e-06,  1.4631e-06,  ...,  9.2108e-07,
+          2.5406e-06,  1.4063e-06],
+        [ 4.5728e-07,  1.4994e-07,  1.1273e-05,  ...,  4.2655e-07,
+          1.9893e-06,  1.4149e-05]], device='cuda:0')
+Epoch 152, bias, value: tensor([ 0.0061, -0.0171, -0.0214,  0.0322, -0.0281,  0.0293, -0.0283, -0.0127,
+         0.0225, -0.0293], device='cuda:0'), grad: tensor([-3.2634e-06, -1.3307e-05,  1.1623e-06, -1.2219e-06, -2.3283e-07,
+         9.0599e-06, -1.1653e-05, -1.4856e-05,  8.2776e-06,  2.5973e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 151, time 215.14, cls_loss 0.0022 cls_loss_mapping 0.0046 cls_loss_causal 0.5462 re_mapping 0.0063 re_causal 0.0194 /// teacc 99.00 lr 0.00010000
+Epoch 153, weight, value: tensor([[-0.0843, -0.1069, -0.0874,  ..., -0.1286, -0.0060,  0.0746],
+        [ 0.0476,  0.0506,  0.0401,  ...,  0.0881, -0.1154, -0.0524],
+        [ 0.0481,  0.0361, -0.1008,  ..., -0.0095, -0.1472, -0.0603],
+        ...,
+        [-0.0385, -0.0726,  0.0744,  ..., -0.0907, -0.0217,  0.0110],
+        [ 0.0167,  0.0865,  0.1218,  ..., -0.0983, -0.0829, -0.1312],
+        [-0.1181,  0.0090, -0.1825,  ..., -0.0902, -0.0809,  0.0725]],
+       device='cuda:0'), grad: tensor([[ 2.7753e-07,  1.3784e-07,  1.2526e-06,  ...,  1.4715e-07,
+          9.1828e-07, -9.8720e-08],
+        [-7.2084e-07, -6.4261e-07,  5.9418e-06,  ...,  2.7940e-08,
+          6.6794e-06,  4.4629e-06],
+        [ 1.5385e-06,  4.7870e-07,  1.6484e-06,  ...,  5.1875e-07,
+          3.6601e-07,  2.7288e-07],
+        ...,
+        [ 1.5106e-06,  1.3895e-06, -1.2502e-05,  ...,  2.5705e-07,
+         -1.1481e-05, -8.2478e-06],
+        [ 5.9009e-06,  1.4156e-07,  4.5188e-06,  ...,  3.3621e-07,
+          4.7404e-07,  4.4517e-07],
+        [ 9.7137e-07,  1.8440e-07,  1.2554e-06,  ...,  7.6927e-07,
+          1.0962e-06, -8.5402e-07]], device='cuda:0')
+Epoch 153, bias, value: tensor([ 0.0068, -0.0172, -0.0213,  0.0320, -0.0285,  0.0297, -0.0284, -0.0125,
+         0.0221, -0.0293], device='cuda:0'), grad: tensor([ 3.8184e-06,  2.5824e-05,  5.0515e-06, -4.6730e-05,  5.1819e-06,
+         2.2382e-05,  3.5670e-07, -4.1008e-05,  2.0176e-05,  4.9546e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 152, time 215.30, cls_loss 0.0018 cls_loss_mapping 0.0041 cls_loss_causal 0.5383 re_mapping 0.0063 re_causal 0.0197 /// teacc 99.03 lr 0.00010000
+Epoch 154, weight, value: tensor([[-0.0851, -0.1072, -0.0864,  ..., -0.1285, -0.0055,  0.0753],
+        [ 0.0478,  0.0506,  0.0402,  ...,  0.0881, -0.1159, -0.0525],
+        [ 0.0481,  0.0357, -0.1013,  ..., -0.0096, -0.1480, -0.0614],
+        ...,
+        [-0.0389, -0.0732,  0.0742,  ..., -0.0908, -0.0214,  0.0109],
+        [ 0.0168,  0.0866,  0.1219,  ..., -0.0987, -0.0833, -0.1323],
+        [-0.1186,  0.0093, -0.1828,  ..., -0.0904, -0.0806,  0.0729]],
+       device='cuda:0'), grad: tensor([[ 6.6310e-07,  2.2911e-07,  2.4214e-08,  ...,  7.0781e-08,
+          3.8184e-08, -2.5053e-07],
+        [ 7.4133e-07,  5.6252e-07, -3.9674e-07,  ..., -1.4529e-07,
+          1.9372e-07,  8.9407e-08],
+        [-1.0751e-05, -5.0142e-06,  1.0524e-07,  ...,  4.9453e-07,
+          4.7591e-07,  3.6322e-08],
+        ...,
+        [ 6.0815e-07,  1.9465e-07, -7.7300e-08,  ...,  7.7300e-08,
+          4.8429e-08, -7.5437e-08],
+        [ 7.9721e-06,  5.4948e-06,  1.6484e-07,  ...,  1.2852e-06,
+          4.8876e-06,  1.0561e-06],
+        [ 5.2899e-07,  1.4808e-07,  9.2201e-08,  ...,  1.4529e-07,
+          2.4494e-07, -2.0396e-07]], device='cuda:0')
+Epoch 154, bias, value: tensor([ 0.0073, -0.0172, -0.0216,  0.0323, -0.0288,  0.0295, -0.0283, -0.0127,
+         0.0219, -0.0291], device='cuda:0'), grad: tensor([ 1.3048e-06,  2.1625e-06, -2.1324e-05, -1.8943e-06,  1.9856e-06,
+        -5.3532e-06, -4.4182e-06,  1.1846e-06,  2.5064e-05,  1.3188e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 153, time 215.27, cls_loss 0.0028 cls_loss_mapping 0.0051 cls_loss_causal 0.5502 re_mapping 0.0061 re_causal 0.0183 /// teacc 98.95 lr 0.00010000
+Epoch 155, weight, value: tensor([[-0.0852, -0.1075, -0.0847,  ..., -0.1280, -0.0053,  0.0758],
+        [ 0.0492,  0.0514,  0.0406,  ...,  0.0887, -0.1166, -0.0521],
+        [ 0.0466,  0.0335, -0.1032,  ..., -0.0112, -0.1499, -0.0639],
+        ...,
+        [-0.0391, -0.0749,  0.0744,  ..., -0.0915, -0.0214,  0.0111],
+        [ 0.0167,  0.0866,  0.1219,  ..., -0.1002, -0.0840, -0.1336],
+        [-0.1188,  0.0089, -0.1839,  ..., -0.0908, -0.0819,  0.0728]],
+       device='cuda:0'), grad: tensor([[ 1.5460e-07,  2.7381e-06,  1.7118e-06,  ...,  2.8126e-07,
+         -9.6858e-08, -4.4703e-06],
+        [ 5.3272e-07,  1.2154e-06,  1.1176e-07,  ...,  1.1288e-06,
+          9.3505e-07,  1.2303e-06],
+        [-4.8205e-06,  6.0722e-07,  6.3330e-08,  ...,  5.2527e-07,
+          4.6659e-07,  3.7439e-07],
+        ...,
+        [ 1.4631e-06,  2.4773e-06,  6.3330e-08,  ...,  1.1148e-06,
+          9.0618e-07,  8.7917e-06],
+        [-2.2352e-06, -1.3761e-05, -2.0236e-05,  ..., -6.9514e-06,
+         -5.2117e-06,  8.4098e-07],
+        [ 1.1828e-07, -2.6841e-06,  2.8554e-06,  ...,  1.8030e-06,
+          2.4084e-06, -5.9128e-05]], device='cuda:0')
+Epoch 155, bias, value: tensor([ 0.0079, -0.0164, -0.0240,  0.0324, -0.0282,  0.0301, -0.0285, -0.0127,
+         0.0214, -0.0297], device='cuda:0'), grad: tensor([ 5.0217e-06,  7.8529e-06, -1.5676e-05,  2.8964e-06,  8.4281e-05,
+         1.7494e-05,  4.9323e-06,  2.8133e-05, -2.9162e-05, -1.0592e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 154, time 215.08, cls_loss 0.0025 cls_loss_mapping 0.0051 cls_loss_causal 0.5260 re_mapping 0.0063 re_causal 0.0197 /// teacc 98.91 lr 0.00010000
+Epoch 156, weight, value: tensor([[-0.0860, -0.1086, -0.0852,  ..., -0.1283, -0.0060,  0.0751],
+        [ 0.0502,  0.0522,  0.0410,  ...,  0.0891, -0.1166, -0.0518],
+        [ 0.0457,  0.0317, -0.1055,  ..., -0.0120, -0.1506, -0.0654],
+        ...,
+        [-0.0393, -0.0751,  0.0748,  ..., -0.0916, -0.0214,  0.0112],
+        [ 0.0169,  0.0865,  0.1222,  ..., -0.1006, -0.0846, -0.1346],
+        [-0.1198,  0.0086, -0.1845,  ..., -0.0918, -0.0830,  0.0732]],
+       device='cuda:0'), grad: tensor([[ 2.8126e-07,  1.5460e-07,  1.6578e-07,  ...,  4.0978e-08,
+          1.3411e-07,  1.0524e-07],
+        [ 3.1292e-06, -9.5926e-08, -1.9092e-07,  ..., -3.1758e-07,
+          1.2293e-07,  3.4273e-07],
+        [-5.9083e-06, -3.1106e-07,  2.1514e-07,  ...,  4.5635e-08,
+          4.0978e-08,  6.1467e-08],
+        ...,
+        [ 1.5870e-06,  3.5297e-07,  2.0210e-07,  ...,  1.9651e-07,
+          2.5705e-07,  6.2678e-07],
+        [-3.8557e-06, -3.7737e-06, -3.8780e-06,  ...,  1.5646e-07,
+          2.9802e-07,  5.7183e-07],
+        [ 1.7649e-06,  8.5682e-08,  1.0738e-06,  ...,  1.1269e-07,
+          3.8370e-07, -2.1253e-06]], device='cuda:0')
+Epoch 156, bias, value: tensor([ 0.0071, -0.0159, -0.0256,  0.0324, -0.0281,  0.0301, -0.0282, -0.0123,
+         0.0211, -0.0300], device='cuda:0'), grad: tensor([ 7.7672e-07,  8.7991e-06, -1.4462e-05,  2.3171e-06,  4.3958e-06,
+        -2.1327e-07,  1.5758e-06,  4.1127e-06, -7.3463e-06, -3.7253e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 155, time 215.24, cls_loss 0.0020 cls_loss_mapping 0.0037 cls_loss_causal 0.5165 re_mapping 0.0060 re_causal 0.0182 /// teacc 98.99 lr 0.00010000
+Epoch 157, weight, value: tensor([[-0.0862, -0.1091, -0.0845,  ..., -0.1272, -0.0065,  0.0747],
+        [ 0.0499,  0.0521,  0.0408,  ...,  0.0891, -0.1170, -0.0519],
+        [ 0.0463,  0.0317, -0.1054,  ..., -0.0122, -0.1519, -0.0655],
+        ...,
+        [-0.0395, -0.0757,  0.0753,  ..., -0.0917, -0.0214,  0.0115],
+        [ 0.0171,  0.0865,  0.1223,  ..., -0.1015, -0.0850, -0.1351],
+        [-0.1204,  0.0104, -0.1853,  ..., -0.0904, -0.0813,  0.0739]],
+       device='cuda:0'), grad: tensor([[ 1.0431e-07,  3.6322e-07, -1.8114e-06,  ...,  1.7788e-07,
+         -3.8669e-06, -7.6368e-06],
+        [ 1.0133e-06, -3.0734e-08,  4.4294e-06,  ..., -3.3062e-07,
+          7.9162e-08,  3.6601e-07],
+        [-1.7742e-06, -1.3877e-07,  8.1025e-08,  ...,  5.9605e-08,
+          1.8254e-07,  1.3877e-07],
+        ...,
+        [-7.5437e-08,  1.3318e-07, -5.4054e-06,  ...,  1.4529e-07,
+          2.1327e-07,  2.0321e-06],
+        [ 1.1548e-07,  2.0582e-07,  1.3420e-06,  ...,  1.4249e-07,
+          4.1276e-06,  5.6587e-06],
+        [ 1.6112e-07,  7.8231e-07,  5.1968e-07,  ...,  4.5542e-07,
+          1.9874e-06, -1.4650e-06]], device='cuda:0')
+Epoch 157, bias, value: tensor([ 0.0067, -0.0162, -0.0250,  0.0324, -0.0301,  0.0301, -0.0280, -0.0119,
+         0.0209, -0.0285], device='cuda:0'), grad: tensor([-1.2770e-05,  6.2175e-06, -3.6769e-06,  1.7416e-06, -5.6326e-06,
+        -1.7546e-06,  4.2189e-07, -9.4064e-07,  1.3158e-05,  3.2689e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 156, time 215.17, cls_loss 0.0020 cls_loss_mapping 0.0038 cls_loss_causal 0.5072 re_mapping 0.0062 re_causal 0.0182 /// teacc 98.97 lr 0.00010000
+Epoch 158, weight, value: tensor([[-0.0870, -0.1094, -0.0846,  ..., -0.1274, -0.0066,  0.0749],
+        [ 0.0505,  0.0523,  0.0418,  ...,  0.0895, -0.1171, -0.0517],
+        [ 0.0467,  0.0318, -0.1054,  ..., -0.0122, -0.1529, -0.0654],
+        ...,
+        [-0.0403, -0.0770,  0.0747,  ..., -0.0921, -0.0220,  0.0111],
+        [ 0.0174,  0.0866,  0.1226,  ..., -0.1025, -0.0853, -0.1355],
+        [-0.1213,  0.0105, -0.1861,  ..., -0.0907, -0.0822,  0.0740]],
+       device='cuda:0'), grad: tensor([[ 3.8184e-08,  4.7497e-08,  5.0291e-08,  ...,  3.6322e-08,
+         -4.8988e-07, -1.4706e-06],
+        [-5.6252e-07, -4.3400e-07, -6.9197e-07,  ..., -3.9209e-07,
+          2.4587e-07, -3.7253e-08],
+        [ 8.3819e-08,  9.3132e-08,  1.5739e-07,  ...,  1.1176e-07,
+          7.7300e-08,  9.8720e-08],
+        ...,
+        [ 1.2014e-07,  2.5332e-07, -1.2014e-07,  ...,  8.0187e-07,
+          1.0235e-06, -1.0617e-07],
+        [-3.8333e-06, -5.0999e-06, -6.6981e-06,  ..., -2.2296e-06,
+         -2.2333e-06,  8.7358e-07],
+        [ 1.1716e-06,  1.0710e-06,  1.1334e-06,  ...,  3.6322e-07,
+          6.3609e-07,  3.1758e-07]], device='cuda:0')
+Epoch 158, bias, value: tensor([ 0.0067, -0.0158, -0.0244,  0.0323, -0.0300,  0.0301, -0.0281, -0.0123,
+         0.0209, -0.0287], device='cuda:0'), grad: tensor([-2.0154e-06, -8.6520e-07,  4.8336e-07,  2.4792e-06, -2.9020e-06,
+         1.9297e-06,  5.3905e-06,  1.8887e-06, -1.2696e-05,  6.3069e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 157, time 215.08, cls_loss 0.0019 cls_loss_mapping 0.0047 cls_loss_causal 0.5500 re_mapping 0.0060 re_causal 0.0189 /// teacc 98.87 lr 0.00010000
+Epoch 159, weight, value: tensor([[-0.0876, -0.1094, -0.0849,  ..., -0.1275, -0.0065,  0.0754],
+        [ 0.0504,  0.0522,  0.0416,  ...,  0.0895, -0.1177, -0.0517],
+        [ 0.0468,  0.0315, -0.1059,  ..., -0.0125, -0.1546, -0.0656],
+        ...,
+        [-0.0404, -0.0776,  0.0752,  ..., -0.0922, -0.0215,  0.0114],
+        [ 0.0168,  0.0861,  0.1227,  ..., -0.1031, -0.0856, -0.1358],
+        [-0.1219,  0.0102, -0.1875,  ..., -0.0916, -0.0841,  0.0737]],
+       device='cuda:0'), grad: tensor([[ 4.8522e-07,  3.8087e-05,  7.8604e-07,  ...,  5.6811e-08,
+          7.6056e-05,  3.9488e-05],
+        [ 7.0408e-07,  3.5670e-06,  1.4333e-06,  ...,  2.6915e-07,
+          5.8487e-06,  3.5949e-06],
+        [ 4.8317e-06,  3.2745e-06,  9.7901e-06,  ...,  1.1362e-07,
+          3.7067e-06,  2.0012e-05],
+        ...,
+        [ 5.3644e-07,  1.2349e-06, -5.8673e-08,  ...,  8.9407e-07,
+          2.3972e-06,  2.1886e-06],
+        [-2.9467e-06,  4.9412e-05, -1.9558e-06,  ...,  6.4168e-07,
+          1.0186e-04,  5.3942e-05],
+        [ 2.3469e-07,  6.5304e-06,  4.1071e-07,  ...,  5.9139e-07,
+          1.2964e-05,  6.5565e-06]], device='cuda:0')
+Epoch 159, bias, value: tensor([ 0.0070, -0.0160, -0.0245,  0.0325, -0.0295,  0.0301, -0.0277, -0.0119,
+         0.0203, -0.0295], device='cuda:0'), grad: tensor([ 1.5378e-04,  1.5408e-05,  6.5446e-05,  1.2994e-04,  2.2687e-06,
+         2.6798e-04, -8.7929e-04,  9.9093e-06,  2.0778e-04,  2.7075e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 158, time 214.82, cls_loss 0.0016 cls_loss_mapping 0.0037 cls_loss_causal 0.5001 re_mapping 0.0059 re_causal 0.0184 /// teacc 98.97 lr 0.00010000
+Epoch 160, weight, value: tensor([[-0.0880, -0.1093, -0.0847,  ..., -0.1279, -0.0065,  0.0760],
+        [ 0.0504,  0.0522,  0.0417,  ...,  0.0895, -0.1181, -0.0518],
+        [ 0.0476,  0.0313, -0.1048,  ..., -0.0126, -0.1554, -0.0658],
+        ...,
+        [-0.0413, -0.0784,  0.0748,  ..., -0.0924, -0.0211,  0.0114],
+        [ 0.0170,  0.0846,  0.1216,  ..., -0.1059, -0.0870, -0.1364],
+        [-0.1220,  0.0105, -0.1878,  ..., -0.0917, -0.0841,  0.0740]],
+       device='cuda:0'), grad: tensor([[ 1.9092e-07,  7.5437e-07,  1.1455e-07,  ...,  3.5390e-08,
+         -1.4808e-07,  1.1306e-06],
+        [-2.8033e-07, -4.6566e-09, -3.5297e-07,  ..., -2.5984e-07,
+          1.1269e-07,  3.8836e-07],
+        [-1.5832e-07,  1.0431e-07,  2.4773e-07,  ...,  7.2643e-08,
+          4.4703e-08,  1.6298e-07],
+        ...,
+        [ 5.4855e-07,  1.8226e-06,  1.2107e-08,  ...,  2.0117e-07,
+          6.6124e-08,  4.2021e-06],
+        [-1.5823e-06, -3.3434e-07, -1.9670e-06,  ...,  2.0117e-07,
+          2.1514e-07,  5.4669e-07],
+        [-2.4959e-07, -3.7439e-06,  2.1048e-07,  ...,  2.4959e-07,
+          2.5518e-07, -9.7975e-06]], device='cuda:0')
+Epoch 160, bias, value: tensor([ 0.0074, -0.0160, -0.0234,  0.0324, -0.0299,  0.0301, -0.0263, -0.0125,
+         0.0191, -0.0294], device='cuda:0'), grad: tensor([ 1.7406e-06,  2.1793e-07,  1.1548e-07,  1.4845e-06,  2.4959e-06,
+         1.2685e-06,  1.0813e-06,  6.4969e-06, -2.0750e-06, -1.2837e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 159, time 214.94, cls_loss 0.0020 cls_loss_mapping 0.0039 cls_loss_causal 0.5524 re_mapping 0.0063 re_causal 0.0196 /// teacc 99.04 lr 0.00010000
+Epoch 161, weight, value: tensor([[-0.0885, -0.1129, -0.0850,  ..., -0.1282, -0.0092,  0.0737],
+        [ 0.0511,  0.0524,  0.0426,  ...,  0.0896, -0.1185, -0.0515],
+        [ 0.0479,  0.0312, -0.1051,  ..., -0.0127, -0.1569, -0.0661],
+        ...,
+        [-0.0426, -0.0804,  0.0742,  ..., -0.0924, -0.0203,  0.0113],
+        [ 0.0172,  0.0841,  0.1220,  ..., -0.1060, -0.0877, -0.1388],
+        [-0.1220,  0.0111, -0.1887,  ..., -0.0919, -0.0841,  0.0743]],
+       device='cuda:0'), grad: tensor([[ 1.4529e-07,  2.0489e-07,  1.2387e-07,  ...,  2.6077e-08,
+          1.0431e-07, -1.0524e-07],
+        [-1.9986e-06, -1.1651e-06, -2.0470e-06,  ..., -1.0701e-06,
+          2.7567e-07,  3.6135e-07],
+        [ 6.0070e-07,  9.0897e-07,  7.9907e-07,  ...,  1.2480e-07,
+          6.7055e-08,  1.1735e-07],
+        ...,
+        [ 1.2526e-06,  7.5158e-07, -1.6829e-06,  ...,  2.5798e-07,
+         -6.2678e-07, -2.2966e-06],
+        [-9.8627e-07, -3.3509e-06, -1.9539e-06,  ...,  1.9837e-07,
+         -1.9465e-07,  5.1968e-07],
+        [ 1.6792e-06,  6.2957e-07,  2.7139e-06,  ...,  2.3004e-07,
+          5.5972e-07,  5.8394e-07]], device='cuda:0')
+Epoch 161, bias, value: tensor([ 0.0050, -0.0157, -0.0233,  0.0326, -0.0302,  0.0300, -0.0247, -0.0129,
+         0.0188, -0.0293], device='cuda:0'), grad: tensor([ 3.4552e-07, -2.6524e-06,  1.8850e-06, -4.9919e-06,  3.2969e-06,
+         4.8801e-07,  1.5451e-06, -3.6750e-06, -4.1761e-06,  7.9572e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 160, time 214.97, cls_loss 0.0023 cls_loss_mapping 0.0046 cls_loss_causal 0.5244 re_mapping 0.0058 re_causal 0.0174 /// teacc 98.96 lr 0.00010000
+Epoch 162, weight, value: tensor([[-0.0894, -0.1126, -0.0853,  ..., -0.1284, -0.0077,  0.0750],
+        [ 0.0508,  0.0524,  0.0424,  ...,  0.0897, -0.1187, -0.0515],
+        [ 0.0485,  0.0315, -0.1050,  ..., -0.0124, -0.1579, -0.0665],
+        ...,
+        [-0.0425, -0.0812,  0.0745,  ..., -0.0925, -0.0204,  0.0109],
+        [ 0.0175,  0.0846,  0.1225,  ..., -0.1061, -0.0881, -0.1399],
+        [-0.1225,  0.0108, -0.1894,  ..., -0.0925, -0.0856,  0.0744]],
+       device='cuda:0'), grad: tensor([[ 5.1595e-07,  1.6792e-06,  2.4680e-07,  ...,  1.5832e-08,
+          3.5297e-06,  1.3597e-06],
+        [ 2.6450e-07,  1.0245e-07,  1.2666e-07,  ..., -1.0990e-07,
+          3.5111e-07,  4.5449e-07],
+        [-2.3562e-07,  1.8626e-07,  1.6205e-07,  ...,  1.3039e-08,
+          4.3213e-07,  3.6787e-07],
+        ...,
+        [ 5.8301e-07,  6.7055e-08, -5.5041e-07,  ...,  1.2107e-08,
+          1.8720e-07,  4.1910e-08],
+        [ 4.5355e-07, -1.5683e-06, -1.6866e-06,  ...,  2.0489e-08,
+          2.7400e-06,  1.2359e-06],
+        [ 8.0094e-07,  7.9907e-07,  8.4750e-07,  ...,  3.0734e-08,
+          2.7101e-07,  4.0326e-07]], device='cuda:0')
+Epoch 162, bias, value: tensor([ 0.0060, -0.0159, -0.0229,  0.0326, -0.0301,  0.0283, -0.0229, -0.0129,
+         0.0190, -0.0297], device='cuda:0'), grad: tensor([ 7.3612e-06,  2.5146e-06,  1.4286e-06, -7.8738e-05,  4.7218e-07,
+         6.7294e-05, -8.5533e-06,  1.7071e-06,  1.5208e-06,  4.9472e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 161, time 215.09, cls_loss 0.0026 cls_loss_mapping 0.0043 cls_loss_causal 0.5123 re_mapping 0.0059 re_causal 0.0172 /// teacc 98.94 lr 0.00010000
+Epoch 163, weight, value: tensor([[-0.0910, -0.1129, -0.0857,  ..., -0.1285, -0.0077,  0.0751],
+        [ 0.0508,  0.0527,  0.0421,  ...,  0.0899, -0.1193, -0.0515],
+        [ 0.0489,  0.0313, -0.1065,  ..., -0.0127, -0.1587, -0.0664],
+        ...,
+        [-0.0425, -0.0820,  0.0755,  ..., -0.0926, -0.0207,  0.0117],
+        [ 0.0180,  0.0847,  0.1233,  ..., -0.1062, -0.0885, -0.1407],
+        [-0.1244,  0.0127, -0.1912,  ..., -0.0912, -0.0840,  0.0752]],
+       device='cuda:0'), grad: tensor([[ 2.4103e-06,  2.0154e-06,  5.0142e-06,  ...,  6.7428e-07,
+         -8.3260e-07,  1.2284e-06],
+        [-1.5247e-04, -1.0467e-04, -1.5545e-04,  ..., -3.6865e-05,
+          2.0023e-07, -3.0011e-05],
+        [ 3.4571e-06,  1.6112e-06,  3.2485e-06,  ...,  9.2387e-07,
+          1.6205e-07,  2.3246e-06],
+        ...,
+        [ 1.0669e-05,  4.2915e-06, -6.7800e-07,  ...,  1.7975e-06,
+          1.4249e-07, -2.5511e-05],
+        [ 1.2136e-04,  9.0241e-05,  1.2577e-04,  ...,  3.1352e-05,
+          4.0513e-07,  2.8789e-05],
+        [ 3.5539e-06, -8.5216e-07,  8.5756e-06,  ...,  1.5944e-06,
+         -6.4448e-07,  5.5805e-06]], device='cuda:0')
+Epoch 163, bias, value: tensor([ 0.0059, -0.0162, -0.0228,  0.0326, -0.0319,  0.0284, -0.0231, -0.0122,
+         0.0191, -0.0283], device='cuda:0'), grad: tensor([ 1.8269e-05, -3.3951e-04,  1.1906e-05,  1.6198e-05,  1.2338e-05,
+         2.3186e-05,  4.1425e-06, -7.1824e-05,  2.8968e-04,  3.5346e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 162, time 214.92, cls_loss 0.0021 cls_loss_mapping 0.0045 cls_loss_causal 0.5357 re_mapping 0.0059 re_causal 0.0182 /// teacc 98.89 lr 0.00010000
+Epoch 164, weight, value: tensor([[-0.0891, -0.1134, -0.0863,  ..., -0.1311, -0.0087,  0.0755],
+        [ 0.0510,  0.0526,  0.0419,  ...,  0.0895, -0.1211, -0.0519],
+        [ 0.0496,  0.0313, -0.1069,  ..., -0.0129, -0.1597, -0.0664],
+        ...,
+        [-0.0426, -0.0834,  0.0757,  ..., -0.0930, -0.0215,  0.0116],
+        [ 0.0180,  0.0847,  0.1234,  ..., -0.1065, -0.0890, -0.1416],
+        [-0.1276,  0.0133, -0.1918,  ..., -0.0914, -0.0838,  0.0758]],
+       device='cuda:0'), grad: tensor([[ 1.1599e-04,  2.0730e-04,  8.2888e-08,  ...,  1.5926e-07,
+          5.5134e-07,  9.2363e-04],
+        [ 1.5363e-05,  1.0267e-05,  1.6108e-05,  ..., -7.4506e-08,
+          1.3784e-07,  1.4417e-06],
+        [ 2.3976e-05,  3.3170e-05,  9.9838e-06,  ...,  7.9162e-08,
+          6.0536e-08,  1.2141e-04],
+        ...,
+        [ 1.1763e-06,  1.3513e-06,  6.5193e-08,  ...,  3.2596e-08,
+          1.3039e-08,  4.0978e-06],
+        [-2.7016e-05, -1.8597e-05, -3.1263e-05,  ...,  7.2829e-07,
+          2.0638e-06,  2.2221e-06],
+        [-1.3363e-04, -2.3890e-04,  3.2317e-07,  ...,  1.3132e-07,
+          2.0582e-07, -1.0662e-03]], device='cuda:0')
+Epoch 164, bias, value: tensor([ 0.0057, -0.0167, -0.0225,  0.0326, -0.0321,  0.0285, -0.0230, -0.0123,
+         0.0189, -0.0279], device='cuda:0'), grad: tensor([ 1.1873e-03,  2.8849e-05,  1.7095e-04,  4.5858e-06,  1.3195e-05,
+         6.4299e-06, -2.8759e-06,  6.1058e-06, -4.6164e-05, -1.3695e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 163, time 214.72, cls_loss 0.0021 cls_loss_mapping 0.0042 cls_loss_causal 0.5118 re_mapping 0.0064 re_causal 0.0186 /// teacc 98.86 lr 0.00010000
+Epoch 165, weight, value: tensor([[-0.0895, -0.1139, -0.0860,  ..., -0.1303, -0.0089,  0.0750],
+        [ 0.0504,  0.0522,  0.0410,  ...,  0.0892, -0.1224, -0.0527],
+        [ 0.0497,  0.0311, -0.1077,  ..., -0.0131, -0.1609, -0.0669],
+        ...,
+        [-0.0420, -0.0844,  0.0770,  ..., -0.0930, -0.0215,  0.0117],
+        [ 0.0183,  0.0845,  0.1239,  ..., -0.1067, -0.0901, -0.1433],
+        [-0.1272,  0.0134, -0.1925,  ..., -0.0924, -0.0841,  0.0767]],
+       device='cuda:0'), grad: tensor([[ 5.4017e-08,  2.3283e-08,  3.7253e-09,  ...,  1.2107e-08,
+          1.6764e-08, -1.2200e-07],
+        [-9.3132e-09,  7.4506e-09, -1.2107e-08,  ..., -6.1467e-08,
+          5.8673e-08,  1.2759e-07],
+        [-6.6124e-07, -1.3039e-08,  1.8626e-08,  ...,  4.6566e-09,
+          9.3132e-09,  3.2596e-08],
+        ...,
+        [ 8.2888e-08,  1.6019e-07, -2.0396e-07,  ...,  2.1420e-08,
+          2.4214e-08,  4.5728e-07],
+        [ 2.5425e-07,  2.3283e-08,  3.4459e-08,  ...,  2.6077e-08,
+          2.4959e-07,  3.9395e-07],
+        [ 3.4459e-08, -1.0151e-07,  5.2154e-08,  ...,  3.0175e-07,
+          2.0023e-07, -9.1176e-07]], device='cuda:0')
+Epoch 165, bias, value: tensor([ 0.0054, -0.0180, -0.0227,  0.0325, -0.0319,  0.0290, -0.0232, -0.0111,
+         0.0185, -0.0278], device='cuda:0'), grad: tensor([-4.0047e-08,  3.2317e-07, -1.3048e-06,  6.1933e-07, -7.3574e-08,
+        -2.0452e-06,  1.0217e-06,  6.2026e-07,  1.5171e-06, -6.2957e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 164, time 214.97, cls_loss 0.0021 cls_loss_mapping 0.0041 cls_loss_causal 0.4995 re_mapping 0.0062 re_causal 0.0182 /// teacc 99.04 lr 0.00010000
+Epoch 166, weight, value: tensor([[-0.0901, -0.1141, -0.0864,  ..., -0.1303, -0.0091,  0.0741],
+        [ 0.0505,  0.0523,  0.0410,  ...,  0.0892, -0.1229, -0.0533],
+        [ 0.0485,  0.0304, -0.1080,  ..., -0.0138, -0.1619, -0.0696],
+        ...,
+        [-0.0424, -0.0852,  0.0771,  ..., -0.0931, -0.0216,  0.0109],
+        [ 0.0186,  0.0847,  0.1243,  ..., -0.1069, -0.0905, -0.1440],
+        [-0.1263,  0.0131, -0.1930,  ..., -0.0933, -0.0844,  0.0784]],
+       device='cuda:0'), grad: tensor([[ 1.2480e-07,  4.8056e-07,  4.8429e-08,  ...,  8.4750e-08,
+          8.3447e-07,  4.3027e-07],
+        [ 3.5390e-08,  1.1083e-07,  1.8906e-07,  ...,  4.3772e-08,
+          4.9733e-07,  8.0373e-07],
+        [-1.3718e-06,  3.8184e-08,  9.1270e-08,  ...,  1.8068e-07,
+          4.2096e-07,  2.3842e-07],
+        ...,
+        [ 1.3504e-07,  8.0094e-08, -1.4398e-06,  ...,  1.4342e-07,
+          4.7591e-07, -3.2224e-07],
+        [-1.2573e-06,  5.9325e-07, -2.4904e-06,  ..., -1.1083e-07,
+          3.7085e-06,  3.9712e-06],
+        [ 1.3132e-07,  2.8219e-07,  1.0086e-06,  ...,  2.4121e-07,
+          9.5181e-07,  2.4345e-06]], device='cuda:0')
+Epoch 166, bias, value: tensor([ 0.0046, -0.0182, -0.0246,  0.0324, -0.0314,  0.0295, -0.0231, -0.0116,
+         0.0186, -0.0276], device='cuda:0'), grad: tensor([ 3.4049e-06,  3.3360e-06, -1.5376e-06,  9.2834e-06, -6.3330e-08,
+        -3.4183e-05, -2.0079e-06, -1.9092e-07,  1.3396e-05,  8.5160e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 165, time 214.69, cls_loss 0.0020 cls_loss_mapping 0.0044 cls_loss_causal 0.5251 re_mapping 0.0058 re_causal 0.0176 /// teacc 98.95 lr 0.00010000
+Epoch 167, weight, value: tensor([[-0.0910, -0.1143, -0.0868,  ..., -0.1304, -0.0090,  0.0744],
+        [ 0.0511,  0.0529,  0.0414,  ...,  0.0896, -0.1236, -0.0532],
+        [ 0.0500,  0.0310, -0.1082,  ..., -0.0141, -0.1630, -0.0695],
+        ...,
+        [-0.0434, -0.0861,  0.0773,  ..., -0.0933, -0.0219,  0.0107],
+        [ 0.0177,  0.0840,  0.1242,  ..., -0.1075, -0.0909, -0.1455],
+        [-0.1268,  0.0131, -0.1936,  ..., -0.0938, -0.0845,  0.0788]],
+       device='cuda:0'), grad: tensor([[ 9.7789e-08,  1.4342e-07,  2.3283e-08,  ..., -4.3772e-07,
+         -3.5167e-06, -6.5938e-06],
+        [-2.1979e-07, -2.6915e-07, -4.7963e-07,  ..., -6.5751e-07,
+          1.1362e-07,  5.4203e-07],
+        [-1.7881e-07,  1.2945e-07,  1.3690e-07,  ...,  8.2888e-08,
+          6.7055e-08,  8.5682e-08],
+        ...,
+        [ 4.8243e-07,  2.0023e-07, -5.2154e-08,  ...,  1.8161e-07,
+          5.1223e-08,  5.1316e-07],
+        [-6.7987e-08,  2.1048e-07, -2.8964e-07,  ...,  2.2911e-07,
+          6.7428e-07,  1.4901e-06],
+        [-1.4985e-06, -2.1569e-06,  1.2759e-07,  ...,  2.0117e-07,
+          2.2259e-07, -8.7097e-06]], device='cuda:0')
+Epoch 167, bias, value: tensor([ 0.0046, -0.0179, -0.0234,  0.0327, -0.0313,  0.0293, -0.0231, -0.0121,
+         0.0179, -0.0276], device='cuda:0'), grad: tensor([-9.3356e-06,  2.3283e-07,  1.3411e-07,  1.6401e-06,  1.9055e-06,
+         4.8578e-06,  9.0301e-06,  1.5311e-06,  2.5313e-06, -1.2510e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 166, time 214.67, cls_loss 0.0013 cls_loss_mapping 0.0029 cls_loss_causal 0.5137 re_mapping 0.0060 re_causal 0.0185 /// teacc 98.92 lr 0.00010000
+Epoch 168, weight, value: tensor([[-0.0914, -0.1143, -0.0869,  ..., -0.1305, -0.0088,  0.0745],
+        [ 0.0511,  0.0529,  0.0414,  ...,  0.0897, -0.1239, -0.0533],
+        [ 0.0502,  0.0310, -0.1085,  ..., -0.0145, -0.1639, -0.0696],
+        ...,
+        [-0.0437, -0.0866,  0.0775,  ..., -0.0935, -0.0219,  0.0105],
+        [ 0.0181,  0.0842,  0.1245,  ..., -0.1076, -0.0912, -0.1460],
+        [-0.1274,  0.0131, -0.1944,  ..., -0.0940, -0.0846,  0.0793]],
+       device='cuda:0'), grad: tensor([[ 3.7113e-07,  4.6333e-07,  5.8813e-07,  ...,  2.4540e-07,
+          2.5332e-07, -2.6217e-07],
+        [-1.4752e-05, -1.0446e-05, -1.9222e-05,  ..., -1.4484e-05,
+         -4.2096e-07,  4.9360e-08],
+        [ 1.8086e-06,  1.0487e-06,  1.9521e-06,  ...,  8.5216e-07,
+          5.0757e-07,  2.4680e-08],
+        ...,
+        [ 1.0855e-05,  6.7577e-06,  1.3076e-05,  ...,  8.9109e-06,
+          4.9081e-07,  2.1700e-07],
+        [-9.8720e-06, -5.8860e-06, -1.7419e-05,  ..., -4.2059e-06,
+         -1.7518e-06,  1.1967e-07],
+        [ 1.0403e-06,  1.8077e-06,  1.3765e-06,  ...,  2.1625e-06,
+          1.5143e-06, -1.0617e-06]], device='cuda:0')
+Epoch 168, bias, value: tensor([ 0.0047, -0.0180, -0.0233,  0.0327, -0.0313,  0.0292, -0.0232, -0.0123,
+         0.0180, -0.0275], device='cuda:0'), grad: tensor([ 1.3672e-06, -3.7044e-05,  6.1020e-06, -2.1346e-06, -1.2144e-06,
+         3.3975e-05,  2.9355e-06,  2.6897e-05, -3.4481e-05,  3.6117e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 167, time 215.12, cls_loss 0.0018 cls_loss_mapping 0.0040 cls_loss_causal 0.5291 re_mapping 0.0059 re_causal 0.0189 /// teacc 98.96 lr 0.00010000
+Epoch 169, weight, value: tensor([[-0.0921, -0.1145, -0.0872,  ..., -0.1307, -0.0089,  0.0747],
+        [ 0.0546,  0.0539,  0.0426,  ...,  0.0906, -0.1243, -0.0522],
+        [ 0.0476,  0.0300, -0.1100,  ..., -0.0145, -0.1636, -0.0696],
+        ...,
+        [-0.0450, -0.0884,  0.0768,  ..., -0.0947, -0.0221,  0.0095],
+        [ 0.0185,  0.0844,  0.1250,  ..., -0.1076, -0.0915, -0.1467],
+        [-0.1272,  0.0133, -0.1951,  ..., -0.0938, -0.0847,  0.0799]],
+       device='cuda:0'), grad: tensor([[ 7.3994e-07,  1.4296e-07,  2.4820e-07,  ...,  1.9558e-07,
+          7.3574e-08,  1.8068e-07],
+        [-6.0014e-06, -3.1963e-06, -6.9775e-06,  ..., -7.4282e-06,
+          1.7695e-08,  5.3551e-07],
+        [-8.5384e-06,  3.2596e-08,  1.5786e-06,  ...,  8.3121e-07,
+          1.0710e-08, -8.9081e-07],
+        ...,
+        [ 2.0210e-07,  2.3423e-07, -8.5086e-06,  ...,  3.5716e-07,
+          9.3132e-10, -2.9206e-06],
+        [ 3.1758e-06,  1.1073e-06,  1.3914e-06,  ...,  2.7549e-06,
+          5.2620e-08,  8.4424e-07],
+        [ 1.7500e-06, -4.0513e-07,  1.7053e-06,  ...,  1.7090e-07,
+          6.9849e-09,  8.8243e-07]], device='cuda:0')
+Epoch 169, bias, value: tensor([ 0.0047, -0.0158, -0.0252,  0.0326, -0.0315,  0.0290, -0.0231, -0.0133,
+         0.0182, -0.0272], device='cuda:0'), grad: tensor([ 2.1346e-06, -7.7486e-06, -2.2158e-05,  9.1791e-06,  7.0408e-06,
+         8.6427e-06,  6.1281e-06, -1.3985e-05,  5.1968e-06,  5.5581e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 168, time 214.69, cls_loss 0.0020 cls_loss_mapping 0.0046 cls_loss_causal 0.5386 re_mapping 0.0059 re_causal 0.0176 /// teacc 98.90 lr 0.00010000
+Epoch 170, weight, value: tensor([[-0.0922, -0.1146, -0.0872,  ..., -0.1305, -0.0087,  0.0750],
+        [ 0.0544,  0.0544,  0.0429,  ...,  0.0917, -0.1245, -0.0511],
+        [ 0.0478,  0.0301, -0.1107,  ..., -0.0148, -0.1646, -0.0700],
+        ...,
+        [-0.0446, -0.0904,  0.0773,  ..., -0.0963, -0.0227,  0.0088],
+        [ 0.0187,  0.0847,  0.1253,  ..., -0.1077, -0.0919, -0.1475],
+        [-0.1280,  0.0132, -0.1965,  ..., -0.0943, -0.0851,  0.0800]],
+       device='cuda:0'), grad: tensor([[ 1.4389e-07,  8.9267e-07,  2.6124e-07,  ...,  4.0745e-07,
+          9.7789e-07, -3.6648e-07],
+        [ 8.0559e-07,  3.8976e-07,  6.7009e-07,  ...,  1.5274e-07,
+          2.9569e-07,  2.2259e-07],
+        [ 7.6648e-07,  5.3132e-07,  1.0971e-06,  ...,  5.6345e-08,
+          1.4622e-07,  7.2643e-08],
+        ...,
+        [ 2.1216e-06,  9.4296e-07, -7.5018e-07,  ...,  2.8359e-07,
+          1.9465e-07, -3.5902e-07],
+        [-6.6422e-06, -2.3656e-06, -6.8322e-06,  ...,  3.3714e-07,
+          7.6368e-07,  4.2142e-07],
+        [ 5.2899e-07,  4.9686e-07,  1.5479e-06,  ...,  7.7765e-07,
+          6.7614e-07, -1.2992e-07]], device='cuda:0')
+Epoch 170, bias, value: tensor([ 0.0051, -0.0153, -0.0254,  0.0320, -0.0312,  0.0296, -0.0234, -0.0135,
+         0.0182, -0.0276], device='cuda:0'), grad: tensor([ 1.9837e-06,  3.6992e-06,  2.2091e-06,  3.1441e-06, -3.0883e-06,
+         4.2021e-06, -4.1872e-06, -4.6007e-07, -1.4126e-05,  6.5453e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 169, time 214.83, cls_loss 0.0017 cls_loss_mapping 0.0035 cls_loss_causal 0.5314 re_mapping 0.0057 re_causal 0.0178 /// teacc 99.05 lr 0.00010000
+Epoch 171, weight, value: tensor([[-0.0920, -0.1147, -0.0873,  ..., -0.1309, -0.0090,  0.0754],
+        [ 0.0541,  0.0543,  0.0423,  ...,  0.0918, -0.1251, -0.0512],
+        [ 0.0481,  0.0302, -0.1110,  ..., -0.0152, -0.1658, -0.0704],
+        ...,
+        [-0.0442, -0.0907,  0.0780,  ..., -0.0964, -0.0230,  0.0088],
+        [ 0.0187,  0.0857,  0.1256,  ..., -0.1079, -0.0917, -0.1482],
+        [-0.1285,  0.0132, -0.1973,  ..., -0.0944, -0.0852,  0.0800]],
+       device='cuda:0'), grad: tensor([[ 8.4378e-07,  6.2399e-08,  3.7719e-08,  ..., -6.3796e-07,
+         -2.6654e-06, -3.9563e-06],
+        [ 8.9779e-07, -6.6077e-07,  5.2107e-07,  ..., -2.7400e-06,
+          1.9977e-07, -8.9826e-07],
+        [-6.4149e-06, -1.8049e-06, -1.0077e-06,  ...,  1.1874e-07,
+          6.7521e-08,  3.5297e-07],
+        ...,
+        [ 1.3290e-06,  2.7753e-07, -1.8226e-06,  ...,  6.0396e-07,
+          2.4354e-07,  1.4296e-07],
+        [ 8.7246e-06,  1.8077e-06,  1.4668e-06,  ...,  1.5693e-07,
+          2.1653e-07,  8.7405e-07],
+        [ 1.3784e-06,  3.8557e-07,  5.8021e-07,  ...,  1.4585e-06,
+          6.3283e-07, -3.0100e-06]], device='cuda:0')
+Epoch 171, bias, value: tensor([ 0.0054, -0.0158, -0.0253,  0.0320, -0.0312,  0.0297, -0.0238, -0.0132,
+         0.0188, -0.0277], device='cuda:0'), grad: tensor([-4.7013e-06, -1.2722e-06, -6.7092e-06, -1.8358e-05,  2.4354e-07,
+         1.3700e-06,  9.1046e-06,  2.2277e-06,  1.6153e-05,  1.8459e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 170, time 215.09, cls_loss 0.0016 cls_loss_mapping 0.0038 cls_loss_causal 0.5300 re_mapping 0.0059 re_causal 0.0182 /// teacc 99.06 lr 0.00010000
+Epoch 172, weight, value: tensor([[-0.0924, -0.1148, -0.0875,  ..., -0.1308, -0.0090,  0.0756],
+        [ 0.0545,  0.0547,  0.0427,  ...,  0.0923, -0.1257, -0.0510],
+        [ 0.0484,  0.0300, -0.1114,  ..., -0.0158, -0.1664, -0.0703],
+        ...,
+        [-0.0450, -0.0919,  0.0779,  ..., -0.0969, -0.0232,  0.0085],
+        [ 0.0187,  0.0857,  0.1257,  ..., -0.1080, -0.0920, -0.1490],
+        [-0.1303,  0.0130, -0.1979,  ..., -0.0956, -0.0858,  0.0800]],
+       device='cuda:0'), grad: tensor([[ 3.0780e-07,  1.1856e-06,  3.3574e-07,  ...,  5.8440e-07,
+          5.1036e-07,  7.0781e-08],
+        [ 1.3812e-06,  3.4142e-06,  3.1665e-06,  ...,  2.2836e-06,
+          1.6820e-06,  3.1758e-07],
+        [ 1.1576e-06,  3.3267e-06,  1.8068e-06,  ...,  1.6335e-06,
+          1.3411e-06,  1.7090e-07],
+        ...,
+        [ 5.9512e-07,  7.0548e-07,  7.9162e-08,  ...,  3.2503e-07,
+          1.2154e-07, -3.9442e-07],
+        [-9.9093e-06, -1.4119e-05, -7.6741e-06,  ...,  1.4743e-06,
+          3.1311e-06, -8.6520e-07],
+        [ 1.1986e-06,  2.2054e-06,  9.3598e-07,  ...,  4.9174e-07,
+          2.0731e-06,  4.6268e-06]], device='cuda:0')
+Epoch 172, bias, value: tensor([ 0.0055, -0.0156, -0.0250,  0.0324, -0.0309,  0.0295, -0.0238, -0.0135,
+         0.0186, -0.0282], device='cuda:0'), grad: tensor([ 2.6897e-06,  9.6112e-06,  7.6964e-06,  2.9057e-06,  4.4182e-06,
+        -3.0398e-06, -9.5293e-06,  5.2387e-07, -2.5302e-05,  9.9540e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 171, time 215.24, cls_loss 0.0018 cls_loss_mapping 0.0051 cls_loss_causal 0.5476 re_mapping 0.0056 re_causal 0.0172 /// teacc 99.07 lr 0.00010000
+Epoch 173, weight, value: tensor([[-0.0929, -0.1149, -0.0873,  ..., -0.1306, -0.0086,  0.0766],
+        [ 0.0552,  0.0551,  0.0438,  ...,  0.0922, -0.1267, -0.0511],
+        [ 0.0486,  0.0303, -0.1123,  ..., -0.0160, -0.1660, -0.0705],
+        ...,
+        [-0.0466, -0.0938,  0.0769,  ..., -0.0968, -0.0232,  0.0085],
+        [ 0.0190,  0.0857,  0.1261,  ..., -0.1081, -0.0929, -0.1505],
+        [-0.1311,  0.0129, -0.1990,  ..., -0.0961, -0.0864,  0.0794]],
+       device='cuda:0'), grad: tensor([[ 3.5763e-07, -1.0803e-07,  2.0349e-07,  ...,  2.7148e-07,
+         -9.5554e-07, -1.3344e-05],
+        [-2.0210e-06, -2.0657e-06, -2.4531e-06,  ..., -3.1069e-06,
+         -1.5646e-07, -1.5786e-07],
+        [-2.1979e-06, -2.1141e-07, -1.7602e-07,  ..., -1.8254e-07,
+          2.4587e-07,  1.5944e-06],
+        ...,
+        [ 1.1129e-06,  5.2107e-07, -7.8417e-07,  ...,  7.4087e-07,
+          8.0932e-07, -1.0384e-07],
+        [ 7.4925e-07,  8.8476e-07,  2.2026e-07,  ...,  6.7940e-07,
+          3.9935e-06,  4.5635e-06],
+        [ 9.5740e-07,  8.7591e-07,  1.5674e-06,  ...,  9.3877e-07,
+          1.1995e-06,  7.3835e-06]], device='cuda:0')
+Epoch 173, bias, value: tensor([ 0.0062, -0.0153, -0.0250,  0.0326, -0.0309,  0.0297, -0.0237, -0.0141,
+         0.0184, -0.0287], device='cuda:0'), grad: tensor([-2.3752e-05, -3.0305e-06, -1.8328e-06,  1.5043e-05,  7.7486e-07,
+        -2.6494e-05,  7.5251e-06,  1.8198e-06,  1.3307e-05,  1.6570e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 172, time 214.99, cls_loss 0.0021 cls_loss_mapping 0.0038 cls_loss_causal 0.5287 re_mapping 0.0060 re_causal 0.0169 /// teacc 99.02 lr 0.00010000
+Epoch 174, weight, value: tensor([[-0.0936, -0.1150, -0.0880,  ..., -0.1306, -0.0081,  0.0775],
+        [ 0.0551,  0.0554,  0.0436,  ...,  0.0929, -0.1277, -0.0512],
+        [ 0.0495,  0.0297, -0.1119,  ..., -0.0178, -0.1673, -0.0695],
+        ...,
+        [-0.0467, -0.0944,  0.0775,  ..., -0.0973, -0.0237,  0.0087],
+        [ 0.0193,  0.0858,  0.1262,  ..., -0.1083, -0.0934, -0.1515],
+        [-0.1336,  0.0128, -0.2007,  ..., -0.0972, -0.0870,  0.0786]],
+       device='cuda:0'), grad: tensor([[ 3.3341e-07,  4.5169e-08,  3.2363e-07,  ..., -8.1630e-07,
+         -1.8990e-06, -4.2506e-06],
+        [ 1.5451e-06,  1.6764e-08,  1.5192e-05,  ...,  1.2191e-06,
+          7.2643e-08,  4.8429e-08],
+        [-7.1526e-06,  1.0617e-07,  2.1923e-06,  ...,  3.6974e-07,
+          7.4506e-08,  3.4459e-08],
+        ...,
+        [-1.2051e-06, -5.9465e-07, -3.8832e-05,  ..., -4.3511e-06,
+          1.8161e-08,  8.2888e-08],
+        [ 2.2929e-06,  2.9011e-07,  7.4320e-06,  ...,  1.0468e-06,
+          2.1188e-07,  3.2457e-07],
+        [ 6.1886e-07,  4.7497e-08,  5.7220e-06,  ...,  9.7975e-07,
+          2.3702e-07, -5.3132e-07]], device='cuda:0')
+Epoch 174, bias, value: tensor([ 0.0069, -0.0157, -0.0236,  0.0325, -0.0306,  0.0297, -0.0237, -0.0140,
+         0.0181, -0.0295], device='cuda:0'), grad: tensor([-5.4277e-06,  2.7657e-05, -8.9332e-06,  4.6119e-06,  9.8869e-06,
+         6.6124e-06,  1.9893e-06, -6.2943e-05,  1.6674e-05,  9.8497e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 173, time 215.09, cls_loss 0.0020 cls_loss_mapping 0.0032 cls_loss_causal 0.5392 re_mapping 0.0065 re_causal 0.0186 /// teacc 98.99 lr 0.00010000
+Epoch 175, weight, value: tensor([[-0.0949, -0.1152, -0.0890,  ..., -0.1307, -0.0081,  0.0775],
+        [ 0.0554,  0.0557,  0.0439,  ...,  0.0936, -0.1282, -0.0510],
+        [ 0.0496,  0.0289, -0.1142,  ..., -0.0204, -0.1677, -0.0697],
+        ...,
+        [-0.0469, -0.0950,  0.0783,  ..., -0.0976, -0.0239,  0.0102],
+        [ 0.0199,  0.0865,  0.1275,  ..., -0.1070, -0.0937, -0.1525],
+        [-0.1345,  0.0128, -0.2033,  ..., -0.0978, -0.0872,  0.0777]],
+       device='cuda:0'), grad: tensor([[ 1.5320e-07,  6.5658e-08,  1.0990e-07,  ..., -8.1956e-08,
+         -1.5683e-06, -2.9933e-06],
+        [-3.1851e-07,  1.5991e-06, -3.1013e-07,  ...,  1.5227e-06,
+          9.3551e-07,  3.0734e-07],
+        [ 1.0524e-06,  5.7276e-08,  7.5530e-07,  ...,  8.8010e-08,
+          5.9139e-08,  1.4342e-07],
+        ...,
+        [ 3.9581e-07,  5.6112e-07,  2.7055e-07,  ...,  5.9791e-07,
+          1.8673e-07,  4.3539e-07],
+        [-7.3388e-06,  7.4366e-07, -4.5858e-06,  ...,  8.5682e-07,
+          6.4122e-07,  8.4843e-07],
+        [ 9.7789e-08,  3.2466e-06,  6.3470e-07,  ...,  4.2133e-06,
+          1.9595e-06, -1.6894e-06]], device='cuda:0')
+Epoch 175, bias, value: tensor([ 0.0067, -0.0156, -0.0241,  0.0327, -0.0304,  0.0287, -0.0229, -0.0130,
+         0.0188, -0.0302], device='cuda:0'), grad: tensor([-5.1744e-06,  4.4331e-06,  2.2091e-06,  9.4995e-06, -1.7807e-05,
+         3.1926e-06,  3.3174e-06,  2.4475e-06, -9.0376e-06,  6.9328e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 174, time 215.07, cls_loss 0.0018 cls_loss_mapping 0.0035 cls_loss_causal 0.5435 re_mapping 0.0059 re_causal 0.0183 /// teacc 99.07 lr 0.00010000
+Epoch 176, weight, value: tensor([[-0.0958, -0.1153, -0.0896,  ..., -0.1310, -0.0083,  0.0772],
+        [ 0.0554,  0.0558,  0.0436,  ...,  0.0936, -0.1290, -0.0511],
+        [ 0.0494,  0.0288, -0.1149,  ..., -0.0206, -0.1687, -0.0700],
+        ...,
+        [-0.0468, -0.0955,  0.0789,  ..., -0.0977, -0.0239,  0.0103],
+        [ 0.0197,  0.0865,  0.1277,  ..., -0.1072, -0.0941, -0.1541],
+        [-0.1349,  0.0126, -0.2040,  ..., -0.0986, -0.0876,  0.0780]],
+       device='cuda:0'), grad: tensor([[ 1.5460e-07,  4.2245e-06,  1.1362e-07,  ...,  1.8887e-06,
+          2.6971e-06,  3.7719e-08],
+        [ 2.0349e-07, -9.7789e-09,  1.5665e-06,  ..., -2.3236e-07,
+          1.1269e-07,  2.9383e-07],
+        [-4.5123e-07,  1.5153e-06,  3.9302e-07,  ...,  7.2410e-07,
+          9.3272e-07,  1.2433e-07],
+        ...,
+        [-2.7986e-07,  3.5390e-08, -6.7353e-06,  ...,  6.6590e-08,
+          1.8626e-08, -8.0606e-07],
+        [ 8.3074e-07,  1.9427e-06,  2.3767e-06,  ...,  9.4157e-07,
+          1.2321e-06,  1.6997e-07],
+        [ 5.3924e-07,  1.5320e-07,  8.5589e-07,  ...,  2.0908e-07,
+          1.4529e-07,  1.6252e-07]], device='cuda:0')
+Epoch 176, bias, value: tensor([ 0.0062, -0.0160, -0.0246,  0.0329, -0.0300,  0.0291, -0.0229, -0.0126,
+         0.0180, -0.0304], device='cuda:0'), grad: tensor([ 1.1742e-05,  3.3267e-06,  3.6377e-06, -3.1032e-06,  1.0483e-05,
+         3.4478e-06, -3.3140e-05, -9.2089e-06,  9.8273e-06,  2.9579e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 175, time 215.15, cls_loss 0.0014 cls_loss_mapping 0.0028 cls_loss_causal 0.5226 re_mapping 0.0059 re_causal 0.0178 /// teacc 99.01 lr 0.00010000
+Epoch 177, weight, value: tensor([[-0.0965, -0.1156, -0.0900,  ..., -0.1312, -0.0085,  0.0770],
+        [ 0.0553,  0.0559,  0.0437,  ...,  0.0937, -0.1298, -0.0512],
+        [ 0.0492,  0.0289, -0.1166,  ..., -0.0209, -0.1696, -0.0701],
+        ...,
+        [-0.0463, -0.0957,  0.0797,  ..., -0.0977, -0.0236,  0.0103],
+        [ 0.0193,  0.0864,  0.1276,  ..., -0.1074, -0.0944, -0.1552],
+        [-0.1350,  0.0126, -0.2043,  ..., -0.0991, -0.0879,  0.0784]],
+       device='cuda:0'), grad: tensor([[-3.1851e-07, -6.4261e-08,  2.2817e-08,  ..., -7.3109e-08,
+         -7.7393e-07, -2.4475e-06],
+        [-4.1956e-07, -2.8312e-07, -6.1886e-07,  ..., -5.0105e-07,
+         -2.4680e-08,  3.4925e-08],
+        [-5.9279e-07,  5.6345e-08,  6.1467e-08,  ...,  8.4750e-08,
+          2.2817e-08,  4.9360e-08],
+        ...,
+        [ 2.7381e-07,  6.3330e-08,  9.2201e-08,  ...,  1.0291e-07,
+          2.5611e-08,  2.0955e-08],
+        [ 4.0838e-07,  5.5414e-08,  4.8894e-08,  ...,  8.5216e-08,
+          6.8219e-07,  8.5821e-07],
+        [ 1.5879e-07,  1.7695e-08,  4.2841e-08,  ...,  1.2666e-07,
+          5.1316e-07,  1.7118e-06]], device='cuda:0')
+Epoch 177, bias, value: tensor([ 0.0058, -0.0162, -0.0255,  0.0331, -0.0299,  0.0292, -0.0229, -0.0118,
+         0.0177, -0.0304], device='cuda:0'), grad: tensor([-3.4124e-06, -1.0766e-06, -8.3027e-07,  5.0571e-07,  1.6298e-07,
+        -1.3048e-06,  7.3714e-07,  5.1130e-07,  2.2836e-06,  2.4214e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 176, time 214.89, cls_loss 0.0019 cls_loss_mapping 0.0032 cls_loss_causal 0.5360 re_mapping 0.0057 re_causal 0.0173 /// teacc 99.04 lr 0.00010000
+Epoch 178, weight, value: tensor([[-0.0971, -0.1157, -0.0899,  ..., -0.1313, -0.0084,  0.0773],
+        [ 0.0543,  0.0556,  0.0430,  ...,  0.0938, -0.1302, -0.0515],
+        [ 0.0500,  0.0292, -0.1164,  ..., -0.0211, -0.1701, -0.0702],
+        ...,
+        [-0.0465, -0.0960,  0.0804,  ..., -0.0978, -0.0240,  0.0100],
+        [ 0.0195,  0.0863,  0.1279,  ..., -0.1074, -0.0948, -0.1560],
+        [-0.1351,  0.0127, -0.2047,  ..., -0.0991, -0.0879,  0.0790]],
+       device='cuda:0'), grad: tensor([[ 3.1199e-08,  8.1491e-08,  1.7229e-08,  ...,  1.1316e-07,
+          4.0652e-07,  3.7719e-08],
+        [-5.2666e-07, -1.7975e-07, -6.7661e-07,  ..., -2.3935e-07,
+          3.6322e-07,  9.6392e-08],
+        [-5.4017e-08,  6.6590e-08,  3.5856e-08,  ...,  1.1735e-07,
+          2.9011e-07,  4.3306e-08],
+        ...,
+        [ 1.4389e-07,  1.9511e-07,  5.4017e-08,  ...,  3.4971e-07,
+          8.1956e-07,  6.6962e-07],
+        [ 1.7136e-07,  2.2771e-07,  1.3178e-07,  ...,  3.2084e-07,
+          1.3327e-06,  9.2341e-07],
+        [ 1.6298e-07, -2.1188e-07,  1.9977e-07,  ...,  1.0356e-06,
+          1.6615e-06, -1.0878e-06]], device='cuda:0')
+Epoch 178, bias, value: tensor([ 0.0060, -0.0174, -0.0244,  0.0337, -0.0300,  0.0294, -0.0234, -0.0120,
+         0.0174, -0.0302], device='cuda:0'), grad: tensor([ 1.2256e-06,  4.7032e-08,  9.7603e-07,  3.2783e-06, -1.1727e-05,
+        -4.4964e-06, -9.7603e-07,  4.2543e-06,  4.6305e-06,  2.7977e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 177, time 214.96, cls_loss 0.0017 cls_loss_mapping 0.0033 cls_loss_causal 0.5322 re_mapping 0.0059 re_causal 0.0178 /// teacc 99.06 lr 0.00010000
+Epoch 179, weight, value: tensor([[-0.0969, -0.1158, -0.0888,  ..., -0.1312, -0.0084,  0.0776],
+        [ 0.0548,  0.0557,  0.0431,  ...,  0.0942, -0.1315, -0.0515],
+        [ 0.0506,  0.0291, -0.1155,  ..., -0.0222, -0.1709, -0.0689],
+        ...,
+        [-0.0474, -0.0961,  0.0805,  ..., -0.0980, -0.0240,  0.0098],
+        [ 0.0194,  0.0861,  0.1279,  ..., -0.1077, -0.0951, -0.1568],
+        [-0.1355,  0.0129, -0.2058,  ..., -0.0992, -0.0881,  0.0790]],
+       device='cuda:0'), grad: tensor([[ 4.3306e-08,  1.2014e-07,  6.1002e-08,  ...,  1.5507e-07,
+          1.5227e-07,  3.3062e-08],
+        [-8.0839e-07, -2.5332e-07, -1.0049e-06,  ..., -5.4576e-07,
+          2.9383e-07,  9.9652e-08],
+        [ 6.1467e-08,  8.4285e-08,  2.3888e-07,  ...,  1.7416e-07,
+          1.0990e-07,  9.5461e-08],
+        ...,
+        [ 1.8440e-07,  2.0349e-07, -4.1584e-07,  ...,  3.0315e-07,
+          6.0070e-08,  1.1828e-07],
+        [ 9.0804e-08,  1.4305e-06,  3.4645e-07,  ...,  2.6077e-07,
+          1.6717e-07,  3.4031e-06],
+        [ 1.1083e-07, -1.7453e-06,  1.4063e-07,  ...,  2.5751e-07,
+          9.5926e-08, -4.6305e-06]], device='cuda:0')
+Epoch 179, bias, value: tensor([ 0.0064, -0.0172, -0.0237,  0.0336, -0.0302,  0.0297, -0.0236, -0.0123,
+         0.0170, -0.0303], device='cuda:0'), grad: tensor([ 5.4669e-07, -1.5367e-06,  7.8836e-07,  5.5181e-07, -1.0105e-07,
+         4.2561e-07,  2.6729e-07,  3.5344e-07,  9.1493e-06, -1.0431e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 178, time 214.95, cls_loss 0.0016 cls_loss_mapping 0.0030 cls_loss_causal 0.5465 re_mapping 0.0059 re_causal 0.0178 /// teacc 98.96 lr 0.00010000
+Epoch 180, weight, value: tensor([[-0.0977, -0.1160, -0.0899,  ..., -0.1316, -0.0083,  0.0776],
+        [ 0.0550,  0.0555,  0.0432,  ...,  0.0944, -0.1326, -0.0516],
+        [ 0.0502,  0.0289, -0.1171,  ..., -0.0226, -0.1716, -0.0691],
+        ...,
+        [-0.0470, -0.0965,  0.0813,  ..., -0.0982, -0.0247,  0.0101],
+        [ 0.0200,  0.0868,  0.1288,  ..., -0.1077, -0.0951, -0.1573],
+        [-0.1359,  0.0129, -0.2068,  ..., -0.0998, -0.0886,  0.0789]],
+       device='cuda:0'), grad: tensor([[ 7.5437e-08,  1.9791e-07,  9.6392e-08,  ...,  2.1933e-07,
+          3.4785e-07, -3.6322e-08],
+        [ 3.1060e-07,  2.3823e-06,  1.6587e-06,  ...,  3.8054e-06,
+          1.3979e-06,  1.6578e-07],
+        [ 1.7229e-07,  3.1758e-07,  2.0396e-07,  ...,  3.3155e-07,
+          2.1467e-07,  6.4261e-08],
+        ...,
+        [ 1.4389e-07,  8.7218e-07, -6.0536e-08,  ...,  1.0170e-06,
+          6.1188e-07,  1.6764e-07],
+        [-1.5814e-06, -2.7940e-09, -2.0135e-06,  ...,  1.3225e-06,
+          2.9597e-06,  2.1197e-06],
+        [ 3.0175e-07,  4.4852e-06,  9.1270e-07,  ...,  5.5544e-06,
+          2.6133e-06,  3.2457e-07]], device='cuda:0')
+Epoch 180, bias, value: tensor([ 0.0062, -0.0172, -0.0246,  0.0332, -0.0299,  0.0298, -0.0237, -0.0115,
+         0.0176, -0.0307], device='cuda:0'), grad: tensor([ 1.0906e-06,  8.9779e-06,  1.7257e-06,  4.3213e-06, -3.5644e-05,
+        -1.8165e-05,  1.0170e-05,  3.7104e-06,  4.8131e-06,  1.8984e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 179----------------------------------------------------
+epoch 179, time 231.17, cls_loss 0.0018 cls_loss_mapping 0.0034 cls_loss_causal 0.5439 re_mapping 0.0052 re_causal 0.0166 /// teacc 99.12 lr 0.00010000
+Epoch 181, weight, value: tensor([[-0.0980, -0.1162, -0.0903,  ..., -0.1318, -0.0081,  0.0781],
+        [ 0.0528,  0.0557,  0.0405,  ...,  0.0949, -0.1327, -0.0517],
+        [ 0.0503,  0.0289, -0.1174,  ..., -0.0228, -0.1723, -0.0692],
+        ...,
+        [-0.0444, -0.0968,  0.0843,  ..., -0.0984, -0.0250,  0.0096],
+        [ 0.0198,  0.0868,  0.1284,  ..., -0.1082, -0.0956, -0.1584],
+        [-0.1359,  0.0128, -0.2069,  ..., -0.1001, -0.0889,  0.0795]],
+       device='cuda:0'), grad: tensor([[ 6.0955e-07,  3.6787e-08,  3.9116e-07,  ..., -6.5826e-06,
+         -1.2778e-05, -4.5508e-05],
+        [-4.2200e-05, -6.1607e-07, -4.4793e-05,  ..., -4.4078e-05,
+          1.6289e-06, -1.2986e-05],
+        [-4.7721e-06,  1.0710e-07,  2.2948e-06,  ...,  4.1723e-06,
+          1.1502e-07,  3.0417e-06],
+        ...,
+        [ 1.7345e-05,  3.8836e-07,  1.6332e-05,  ...,  1.6391e-05,
+          1.9418e-07,  7.2829e-06],
+        [ 7.0259e-06,  7.7300e-08,  2.8070e-06,  ...,  2.2557e-06,
+          7.6322e-07,  3.1646e-06],
+        [ 3.0734e-06,  1.0980e-06,  3.0771e-06,  ...,  4.1723e-06,
+          1.8990e-06,  1.2284e-06]], device='cuda:0')
+Epoch 181, bias, value: tensor([ 0.0065, -0.0195, -0.0247,  0.0331, -0.0297,  0.0300, -0.0239, -0.0091,
+         0.0169, -0.0306], device='cuda:0'), grad: tensor([-1.0949e-04, -1.1688e-04, -2.0303e-06,  2.4915e-05, -6.4299e-06,
+         4.5270e-05,  7.3075e-05,  5.2392e-05,  2.1741e-05,  1.7345e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 180, time 214.78, cls_loss 0.0020 cls_loss_mapping 0.0035 cls_loss_causal 0.5121 re_mapping 0.0057 re_causal 0.0168 /// teacc 99.07 lr 0.00010000
+Epoch 182, weight, value: tensor([[-0.0998, -0.1175, -0.0910,  ..., -0.1341, -0.0096,  0.0777],
+        [ 0.0533,  0.0570,  0.0409,  ...,  0.0962, -0.1334, -0.0514],
+        [ 0.0507,  0.0281, -0.1177,  ..., -0.0238, -0.1756, -0.0695],
+        ...,
+        [-0.0449, -0.0990,  0.0841,  ..., -0.0999, -0.0255,  0.0092],
+        [ 0.0198,  0.0865,  0.1285,  ..., -0.1087, -0.0961, -0.1602],
+        [-0.1366,  0.0131, -0.2072,  ..., -0.1008, -0.0892,  0.0804]],
+       device='cuda:0'), grad: tensor([[ 1.6531e-07,  2.4354e-07,  1.8161e-08,  ...,  3.4459e-08,
+          1.3737e-07,  8.7637e-07],
+        [ 2.7474e-07,  2.9290e-07, -3.5902e-07,  ..., -2.6124e-07,
+          1.8440e-07,  1.8515e-06],
+        [-1.4529e-06,  1.1595e-07, -3.2363e-07,  ...,  2.9337e-08,
+          7.1712e-08,  5.4436e-07],
+        ...,
+        [ 1.2461e-06,  3.4180e-07,  4.1490e-07,  ...,  1.3225e-07,
+          1.0058e-07,  1.0170e-06],
+        [ 1.3672e-06,  6.8471e-06, -2.9337e-08,  ...,  2.4103e-06,
+          3.6936e-06,  9.3058e-06],
+        [-8.8289e-06, -1.2927e-05,  4.2375e-08,  ...,  7.7765e-08,
+         -2.2072e-06, -5.4687e-05]], device='cuda:0')
+Epoch 182, bias, value: tensor([ 0.0055, -0.0190, -0.0249,  0.0333, -0.0296,  0.0299, -0.0235, -0.0096,
+         0.0163, -0.0303], device='cuda:0'), grad: tensor([ 2.1085e-06,  3.9525e-06, -3.8147e-06,  3.0160e-05,  4.8019e-06,
+         5.3942e-05, -9.0897e-06,  5.8152e-06,  3.0339e-05, -1.1808e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 181, time 214.83, cls_loss 0.0021 cls_loss_mapping 0.0052 cls_loss_causal 0.5175 re_mapping 0.0059 re_causal 0.0167 /// teacc 99.04 lr 0.00010000
+Epoch 183, weight, value: tensor([[-0.1005, -0.1177, -0.0915,  ..., -0.1341, -0.0092,  0.0761],
+        [ 0.0539,  0.0582,  0.0416,  ...,  0.0969, -0.1336, -0.0517],
+        [ 0.0511,  0.0280, -0.1183,  ..., -0.0244, -0.1760, -0.0699],
+        ...,
+        [-0.0452, -0.1006,  0.0838,  ..., -0.1002, -0.0258,  0.0101],
+        [ 0.0200,  0.0869,  0.1287,  ..., -0.1089, -0.0963, -0.1613],
+        [-0.1381,  0.0131, -0.2088,  ..., -0.1011, -0.0894,  0.0828]],
+       device='cuda:0'), grad: tensor([[ 9.7882e-07,  1.0142e-06,  1.1045e-06,  ...,  1.7416e-07,
+          3.5856e-08, -8.0839e-07],
+        [-2.4378e-05, -1.5065e-05, -2.6196e-05,  ..., -5.7817e-06,
+          1.2061e-07,  8.4285e-08],
+        [ 9.7156e-06,  6.5193e-06,  1.0341e-05,  ...,  2.1737e-06,
+          4.2841e-08,  5.1688e-08],
+        ...,
+        [ 7.7039e-06,  4.6641e-06,  7.7188e-06,  ...,  1.6997e-06,
+          9.8720e-08,  3.9116e-08],
+        [-4.4778e-06, -5.8770e-05, -3.5465e-05,  ...,  1.0924e-06,
+          1.7462e-07,  1.7229e-07],
+        [ 3.2764e-06,  2.4792e-06,  1.9204e-06,  ...,  9.5228e-07,
+          1.1809e-06,  3.1665e-07]], device='cuda:0')
+Epoch 183, bias, value: tensor([ 0.0040, -0.0184, -0.0247,  0.0333, -0.0297,  0.0295, -0.0239, -0.0096,
+         0.0165, -0.0293], device='cuda:0'), grad: tensor([ 2.5295e-06, -4.8220e-05,  2.0713e-05,  3.3733e-06, -5.0068e-06,
+         4.2439e-05,  1.2553e-04,  1.6019e-05, -1.6999e-04,  1.2688e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 182, time 214.92, cls_loss 0.0020 cls_loss_mapping 0.0033 cls_loss_causal 0.5225 re_mapping 0.0056 re_causal 0.0165 /// teacc 99.08 lr 0.00010000
+Epoch 184, weight, value: tensor([[-0.1012, -0.1177, -0.0919,  ..., -0.1340, -0.0087,  0.0768],
+        [ 0.0550,  0.0583,  0.0418,  ...,  0.0969, -0.1344, -0.0520],
+        [ 0.0496,  0.0268, -0.1191,  ..., -0.0252, -0.1763, -0.0702],
+        ...,
+        [-0.0455, -0.1019,  0.0838,  ..., -0.1003, -0.0262,  0.0090],
+        [ 0.0209,  0.0884,  0.1295,  ..., -0.1090, -0.0967, -0.1597],
+        [-0.1384,  0.0130, -0.2100,  ..., -0.1014, -0.0897,  0.0831]],
+       device='cuda:0'), grad: tensor([[ 3.9972e-06,  2.5090e-06,  1.4622e-06,  ...,  1.2526e-07,
+          2.8592e-07,  1.4761e-06],
+        [ 7.6881e-07,  4.0187e-07,  4.0419e-07,  ...,  1.0710e-08,
+          2.9337e-08,  2.1141e-07],
+        [ 1.2621e-05,  7.3314e-06,  4.7460e-06,  ...,  4.1910e-08,
+          7.5437e-08,  9.0338e-08],
+        ...,
+        [ 8.6473e-07,  4.8475e-07, -1.2154e-07,  ...,  3.7253e-09,
+          6.5193e-09, -3.3947e-07],
+        [-3.8058e-05, -2.1324e-05, -1.3977e-05,  ...,  9.5461e-08,
+          1.8300e-07,  1.5553e-07],
+        [ 6.2101e-06,  3.2745e-06,  2.4680e-06,  ...,  8.3819e-09,
+         -5.2620e-08, -2.0191e-06]], device='cuda:0')
+Epoch 184, bias, value: tensor([ 0.0048, -0.0179, -0.0262,  0.0334, -0.0302,  0.0295, -0.0242, -0.0100,
+         0.0182, -0.0294], device='cuda:0'), grad: tensor([ 1.1817e-05,  2.2985e-06,  3.1233e-05,  1.7732e-05,  1.5534e-06,
+         3.9935e-06,  9.1195e-06,  1.1791e-06, -9.1910e-05,  1.3024e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 183, time 214.83, cls_loss 0.0015 cls_loss_mapping 0.0036 cls_loss_causal 0.5219 re_mapping 0.0053 re_causal 0.0165 /// teacc 99.11 lr 0.00010000
+Epoch 185, weight, value: tensor([[-0.1018, -0.1178, -0.0923,  ..., -0.1342, -0.0087,  0.0770],
+        [ 0.0553,  0.0585,  0.0419,  ...,  0.0973, -0.1350, -0.0519],
+        [ 0.0497,  0.0266, -0.1194,  ..., -0.0256, -0.1764, -0.0702],
+        ...,
+        [-0.0458, -0.1025,  0.0838,  ..., -0.1007, -0.0265,  0.0087],
+        [ 0.0214,  0.0883,  0.1301,  ..., -0.1095, -0.0978, -0.1607],
+        [-0.1388,  0.0130, -0.2106,  ..., -0.1018, -0.0902,  0.0832]],
+       device='cuda:0'), grad: tensor([[ 2.3749e-07,  6.1141e-07,  7.6368e-08,  ...,  1.9139e-07,
+          1.5832e-08, -1.1865e-06],
+        [-4.0699e-07,  1.4929e-06,  1.3243e-06,  ...,  2.8685e-06,
+          2.0284e-06,  6.0536e-08],
+        [-2.6748e-06,  1.0571e-07,  2.0489e-07,  ...,  2.8592e-07,
+          3.8929e-07,  1.4156e-07],
+        ...,
+        [ 3.6042e-07,  5.6718e-07,  5.5041e-07,  ...,  8.8429e-07,
+          5.2759e-07,  1.5460e-07],
+        [ 1.4324e-06,  1.3942e-06,  1.1204e-06,  ...,  2.2724e-06,
+          5.7966e-06,  3.4776e-06],
+        [ 2.6403e-07,  6.6450e-07,  5.1502e-07,  ...,  7.6694e-07,
+          9.3691e-07,  2.4354e-07]], device='cuda:0')
+Epoch 185, bias, value: tensor([ 0.0049, -0.0178, -0.0261,  0.0333, -0.0301,  0.0297, -0.0241, -0.0101,
+         0.0181, -0.0296], device='cuda:0'), grad: tensor([-3.5949e-07,  5.6773e-06, -3.0026e-06,  1.0103e-05, -1.1735e-05,
+        -3.2306e-05,  9.3952e-06,  2.4457e-06,  1.6242e-05,  3.4831e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 184, time 214.89, cls_loss 0.0018 cls_loss_mapping 0.0033 cls_loss_causal 0.4814 re_mapping 0.0055 re_causal 0.0158 /// teacc 99.11 lr 0.00010000
+Epoch 186, weight, value: tensor([[-0.1029, -0.1207, -0.0929,  ..., -0.1369, -0.0114,  0.0748],
+        [ 0.0556,  0.0587,  0.0420,  ...,  0.0980, -0.1353, -0.0517],
+        [ 0.0501,  0.0267, -0.1195,  ..., -0.0261, -0.1770, -0.0700],
+        ...,
+        [-0.0460, -0.1029,  0.0838,  ..., -0.1011, -0.0267,  0.0085],
+        [ 0.0207,  0.0880,  0.1301,  ..., -0.1100, -0.0986, -0.1620],
+        [-0.1395,  0.0131, -0.2112,  ..., -0.1022, -0.0905,  0.0835]],
+       device='cuda:0'), grad: tensor([[ 7.0296e-06,  9.7677e-06,  4.1816e-07,  ..., -2.7008e-08,
+         -2.6030e-07, -7.8836e-07],
+        [-5.2527e-07,  4.1910e-09, -6.1700e-07,  ..., -1.1548e-06,
+          6.2399e-08,  2.0070e-07],
+        [ 4.6901e-06,  4.5784e-06,  4.4145e-06,  ...,  1.3830e-07,
+          2.5611e-08,  6.3330e-08],
+        ...,
+        [ 8.5169e-07,  4.9965e-07,  2.8359e-07,  ...,  6.1654e-07,
+          9.3132e-09, -3.8138e-07],
+        [-2.5779e-05, -8.6576e-06, -5.1558e-05,  ...,  1.3644e-07,
+          1.8766e-07,  3.2317e-07],
+        [ 3.2224e-07,  3.1572e-07,  8.9267e-07,  ...,  5.7276e-08,
+          3.3993e-08, -2.7474e-08]], device='cuda:0')
+Epoch 186, bias, value: tensor([ 0.0022, -0.0176, -0.0258,  0.0335, -0.0303,  0.0298, -0.0218, -0.0103,
+         0.0174, -0.0295], device='cuda:0'), grad: tensor([ 6.0380e-05,  2.0787e-06,  4.1246e-05, -1.5378e-04,  1.8878e-06,
+         2.0432e-04,  1.0747e-04,  1.7975e-06, -2.6751e-04,  2.5257e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 185, time 214.86, cls_loss 0.0017 cls_loss_mapping 0.0031 cls_loss_causal 0.5030 re_mapping 0.0052 re_causal 0.0159 /// teacc 99.02 lr 0.00010000
+Epoch 187, weight, value: tensor([[-0.1031, -0.1212, -0.0918,  ..., -0.1372, -0.0113,  0.0751],
+        [ 0.0561,  0.0593,  0.0424,  ...,  0.0985, -0.1361, -0.0515],
+        [ 0.0503,  0.0263, -0.1195,  ..., -0.0265, -0.1773, -0.0701],
+        ...,
+        [-0.0465, -0.1037,  0.0837,  ..., -0.1017, -0.0271,  0.0083],
+        [ 0.0201,  0.0881,  0.1302,  ..., -0.1104, -0.0993, -0.1638],
+        [-0.1388,  0.0133, -0.2121,  ..., -0.1026, -0.0908,  0.0839]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-08,  2.7195e-07,  8.8476e-09,  ...,  2.0489e-07,
+          2.4494e-07, -6.1002e-08],
+        [-3.8482e-06, -2.1746e-07, -2.1756e-06,  ..., -8.5542e-07,
+          5.9605e-08,  6.7987e-08],
+        [ 8.1072e-07,  1.6531e-07,  5.1595e-07,  ...,  2.5285e-07,
+          7.2643e-08,  1.7695e-08],
+        ...,
+        [ 2.3805e-06,  2.1234e-07,  1.2182e-06,  ...,  5.4855e-07,
+          1.6810e-07,  9.9763e-06],
+        [ 3.3062e-08,  1.0999e-06,  2.3283e-09,  ...,  9.7509e-07,
+          1.1418e-06,  5.0291e-08],
+        [ 3.3062e-08, -4.1444e-08,  8.2888e-08,  ...,  1.0710e-08,
+         -1.5786e-07, -1.0401e-05]], device='cuda:0')
+Epoch 187, bias, value: tensor([ 0.0024, -0.0173, -0.0258,  0.0337, -0.0301,  0.0296, -0.0221, -0.0105,
+         0.0170, -0.0294], device='cuda:0'), grad: tensor([ 5.0105e-07, -5.2154e-06,  1.3588e-06,  8.4518e-07,  5.0385e-07,
+         1.4696e-06, -4.8652e-06,  1.5467e-05,  2.5313e-06, -1.2599e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 186, time 214.92, cls_loss 0.0013 cls_loss_mapping 0.0026 cls_loss_causal 0.4855 re_mapping 0.0053 re_causal 0.0162 /// teacc 99.11 lr 0.00010000
+Epoch 188, weight, value: tensor([[-0.1041, -0.1213, -0.0915,  ..., -0.1372, -0.0113,  0.0752],
+        [ 0.0562,  0.0593,  0.0424,  ...,  0.0986, -0.1367, -0.0516],
+        [ 0.0505,  0.0261, -0.1196,  ..., -0.0267, -0.1775, -0.0703],
+        ...,
+        [-0.0469, -0.1041,  0.0834,  ..., -0.1020, -0.0278,  0.0080],
+        [ 0.0207,  0.0882,  0.1318,  ..., -0.1105, -0.0997, -0.1642],
+        [-0.1382,  0.0134, -0.2125,  ..., -0.1030, -0.0911,  0.0842]],
+       device='cuda:0'), grad: tensor([[ 1.5530e-07,  2.0396e-07,  1.8138e-07,  ...,  8.2189e-08,
+         -1.1027e-06, -3.7085e-06],
+        [ 4.4424e-07,  1.5367e-08,  4.8429e-07,  ..., -3.0966e-08,
+          1.1828e-07,  5.0524e-08],
+        [-4.4219e-06,  1.1199e-07, -2.5034e-06,  ...,  1.0524e-07,
+          8.6846e-08,  3.5856e-08],
+        ...,
+        [ 2.9057e-06,  3.7020e-08, -4.7917e-07,  ...,  6.0303e-08,
+          2.6776e-08,  2.3982e-08],
+        [ 2.3562e-07,  9.0199e-07,  5.4436e-07,  ...,  6.4261e-07,
+          9.1363e-07,  2.4354e-07],
+        [-2.4005e-07,  2.2026e-07,  2.0070e-07,  ...,  6.7102e-07,
+          6.3702e-07, -5.8906e-07]], device='cuda:0')
+Epoch 188, bias, value: tensor([ 0.0024, -0.0173, -0.0257,  0.0335, -0.0300,  0.0301, -0.0223, -0.0110,
+         0.0175, -0.0293], device='cuda:0'), grad: tensor([-6.1058e-06,  1.9064e-06, -8.4266e-06,  7.1377e-06, -2.9653e-06,
+         1.2834e-06,  1.3988e-06,  5.8068e-07,  3.3583e-06,  1.7807e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 187, time 215.13, cls_loss 0.0015 cls_loss_mapping 0.0039 cls_loss_causal 0.5109 re_mapping 0.0055 re_causal 0.0170 /// teacc 99.00 lr 0.00010000
+Epoch 189, weight, value: tensor([[-0.1050, -0.1214, -0.0921,  ..., -0.1372, -0.0113,  0.0753],
+        [ 0.0565,  0.0590,  0.0425,  ...,  0.0993, -0.1372, -0.0515],
+        [ 0.0511,  0.0258, -0.1201,  ..., -0.0270, -0.1779, -0.0704],
+        ...,
+        [-0.0470, -0.1045,  0.0835,  ..., -0.1022, -0.0278,  0.0079],
+        [ 0.0206,  0.0888,  0.1326,  ..., -0.1110, -0.1004, -0.1653],
+        [-0.1387,  0.0133, -0.2133,  ..., -0.1034, -0.0913,  0.0843]],
+       device='cuda:0'), grad: tensor([[ 3.8184e-08,  2.1420e-08,  3.6787e-08,  ...,  3.8184e-08,
+          1.8161e-08, -8.8476e-09],
+        [-1.5199e-06, -7.9302e-07, -1.7304e-06,  ..., -1.4743e-06,
+          4.5635e-08, -1.0710e-08],
+        [ 6.6962e-07,  2.4354e-07,  9.2108e-07,  ...,  4.1258e-07,
+          2.7940e-08,  1.1176e-08],
+        ...,
+        [-2.9281e-06,  1.7090e-07, -8.8960e-06,  ...,  3.0547e-07,
+          8.3353e-08,  8.0559e-08],
+        [ 1.0170e-06,  2.9895e-07,  1.0626e-06,  ...,  5.1409e-07,
+          2.0163e-07,  4.1956e-07],
+        [ 2.0256e-07,  1.6810e-07,  3.3714e-07,  ...,  4.8196e-07,
+          3.6089e-07, -3.3993e-08]], device='cuda:0')
+Epoch 189, bias, value: tensor([ 0.0025, -0.0172, -0.0258,  0.0332, -0.0298,  0.0306, -0.0224, -0.0108,
+         0.0172, -0.0296], device='cuda:0'), grad: tensor([ 1.1316e-07, -3.0901e-06,  1.9297e-06,  1.1377e-05, -1.8058e-06,
+        -5.3924e-07,  1.0133e-06, -1.4022e-05,  3.2205e-06,  1.8179e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 188, time 214.90, cls_loss 0.0016 cls_loss_mapping 0.0032 cls_loss_causal 0.5258 re_mapping 0.0053 re_causal 0.0162 /// teacc 99.09 lr 0.00010000
+Epoch 190, weight, value: tensor([[-0.1068, -0.1217, -0.0922,  ..., -0.1386, -0.0115,  0.0754],
+        [ 0.0574,  0.0598,  0.0428,  ...,  0.1001, -0.1377, -0.0520],
+        [ 0.0511,  0.0257, -0.1207,  ..., -0.0273, -0.1783, -0.0705],
+        ...,
+        [-0.0473, -0.1051,  0.0836,  ..., -0.1027, -0.0281,  0.0076],
+        [ 0.0201,  0.0887,  0.1328,  ..., -0.1117, -0.1008, -0.1661],
+        [-0.1393,  0.0130, -0.2152,  ..., -0.1049, -0.0919,  0.0845]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09,  4.6566e-09,  5.1223e-09,  ..., -6.0536e-09,
+         -8.8476e-09, -8.4750e-08],
+        [-8.2608e-07, -2.3888e-07, -9.7789e-07,  ..., -1.2498e-06,
+          1.3970e-08, -1.0710e-08],
+        [-3.8603e-07,  1.3970e-09,  9.2667e-08,  ...,  9.8255e-08,
+          6.9849e-09,  1.1642e-08],
+        ...,
+        [ 3.2550e-07,  9.2667e-08,  4.2841e-08,  ...,  3.4459e-07,
+          1.1176e-08,  9.3132e-09],
+        [ 1.8161e-08,  7.9162e-09,  1.7695e-08,  ...,  9.1270e-08,
+          1.1083e-07,  1.3923e-07],
+        [ 5.0291e-08,  1.1642e-07,  7.5903e-08,  ...,  2.0489e-07,
+          6.7987e-08,  1.4901e-08]], device='cuda:0')
+Epoch 190, bias, value: tensor([ 0.0023, -0.0169, -0.0259,  0.0334, -0.0292,  0.0305, -0.0224, -0.0109,
+         0.0169, -0.0299], device='cuda:0'), grad: tensor([-8.6613e-08, -1.7369e-06, -3.5437e-07,  4.9733e-07,  6.4448e-07,
+        -3.8184e-07,  1.3784e-07,  4.1723e-07,  3.6415e-07,  4.9593e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 189, time 215.22, cls_loss 0.0018 cls_loss_mapping 0.0042 cls_loss_causal 0.5323 re_mapping 0.0057 re_causal 0.0171 /// teacc 98.86 lr 0.00010000
+Epoch 191, weight, value: tensor([[-0.1075, -0.1218, -0.0924,  ..., -0.1386, -0.0114,  0.0755],
+        [ 0.0578,  0.0597,  0.0430,  ...,  0.1003, -0.1391, -0.0522],
+        [ 0.0510,  0.0255, -0.1209,  ..., -0.0277, -0.1785, -0.0709],
+        ...,
+        [-0.0476, -0.1053,  0.0836,  ..., -0.1030, -0.0280,  0.0074],
+        [ 0.0206,  0.0890,  0.1333,  ..., -0.1121, -0.1019, -0.1662],
+        [-0.1408,  0.0125, -0.2164,  ..., -0.1073, -0.0928,  0.0841]],
+       device='cuda:0'), grad: tensor([[ 3.5577e-06,  1.1967e-07,  1.1967e-07,  ...,  6.6590e-08,
+          2.2352e-08,  2.0135e-06],
+        [ 1.2154e-06,  1.3039e-08, -5.0059e-07,  ..., -6.8406e-07,
+          3.7253e-08,  8.4285e-07],
+        [ 6.9094e-04,  1.6555e-05,  5.6997e-06,  ...,  8.0327e-07,
+          1.9558e-08,  4.1294e-04],
+        ...,
+        [ 7.5847e-06,  2.5518e-07,  2.6124e-07,  ...,  2.4121e-07,
+          8.0559e-08,  4.5747e-06],
+        [ 2.5854e-05, -2.0191e-05, -7.5661e-06,  ..., -7.2550e-07,
+          1.7760e-06,  2.5049e-05],
+        [ 1.0729e-06,  2.2072e-07,  1.2759e-07,  ...,  2.6962e-07,
+          1.5786e-07, -2.1886e-07]], device='cuda:0')
+Epoch 191, bias, value: tensor([ 0.0023, -0.0168, -0.0262,  0.0338, -0.0284,  0.0303, -0.0223, -0.0110,
+         0.0172, -0.0308], device='cuda:0'), grad: tensor([ 1.4827e-05,  6.1393e-06,  2.8305e-03,  3.7694e-04,  2.6301e-06,
+        -3.4370e-03,  2.2218e-05,  3.2008e-05,  1.4913e-04,  3.6526e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 190, time 214.79, cls_loss 0.0016 cls_loss_mapping 0.0037 cls_loss_causal 0.5242 re_mapping 0.0056 re_causal 0.0168 /// teacc 98.90 lr 0.00010000
+Epoch 192, weight, value: tensor([[-0.1081, -0.1218, -0.0927,  ..., -0.1387, -0.0114,  0.0755],
+        [ 0.0573,  0.0570,  0.0429,  ...,  0.0981, -0.1398, -0.0556],
+        [ 0.0503,  0.0255, -0.1212,  ..., -0.0280, -0.1791, -0.0727],
+        ...,
+        [-0.0478, -0.1057,  0.0837,  ..., -0.1033, -0.0287,  0.0080],
+        [ 0.0206,  0.0888,  0.1336,  ..., -0.1128, -0.1048, -0.1676],
+        [-0.1388,  0.0141, -0.2167,  ..., -0.1053, -0.0933,  0.0862]],
+       device='cuda:0'), grad: tensor([[ 7.7300e-08, -1.1027e-05,  6.2864e-08,  ...,  1.1176e-08,
+         -1.9565e-05, -5.8621e-05],
+        [-6.0070e-07, -2.1886e-07, -6.1933e-07,  ..., -5.4017e-07,
+          4.2375e-08, -2.2352e-08],
+        [ 1.4855e-07,  3.3295e-07,  1.8021e-07,  ...,  6.1002e-08,
+          4.4936e-07,  1.4259e-06],
+        ...,
+        [ 2.8312e-07,  2.8871e-07, -3.1898e-07,  ...,  1.2852e-07,
+          1.7276e-07,  7.3947e-07],
+        [-2.0918e-06,  5.5088e-07, -1.4976e-06,  ...,  2.3702e-07,
+          2.7940e-06,  7.7635e-06],
+        [ 5.0897e-07,  9.1270e-07,  6.8266e-07,  ...,  2.9802e-08,
+          2.5872e-06,  6.0759e-06]], device='cuda:0')
+Epoch 192, bias, value: tensor([ 0.0023, -0.0187, -0.0277,  0.0331, -0.0283,  0.0325, -0.0224, -0.0109,
+         0.0159, -0.0291], device='cuda:0'), grad: tensor([-8.7976e-05, -9.6671e-07,  2.4959e-06,  8.4490e-06,  3.1590e-06,
+        -3.8855e-06,  5.9992e-05,  6.1840e-07,  8.0466e-06,  1.0036e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 191, time 215.01, cls_loss 0.0014 cls_loss_mapping 0.0033 cls_loss_causal 0.5111 re_mapping 0.0054 re_causal 0.0163 /// teacc 99.06 lr 0.00010000
+Epoch 193, weight, value: tensor([[-0.1085, -0.1219, -0.0928,  ..., -0.1389, -0.0116,  0.0756],
+        [ 0.0575,  0.0571,  0.0430,  ...,  0.0982, -0.1402, -0.0557],
+        [ 0.0510,  0.0269, -0.1207,  ..., -0.0275, -0.1795, -0.0729],
+        ...,
+        [-0.0480, -0.1060,  0.0839,  ..., -0.1034, -0.0283,  0.0083],
+        [ 0.0201,  0.0881,  0.1334,  ..., -0.1134, -0.1055, -0.1684],
+        [-0.1387,  0.0143, -0.2178,  ..., -0.1054, -0.0930,  0.0866]],
+       device='cuda:0'), grad: tensor([[ 9.1782e-07,  4.8801e-07,  1.3970e-08,  ...,  4.1910e-09,
+          2.0862e-07,  1.9185e-07],
+        [-1.1083e-07, -3.2596e-08, -1.7742e-07,  ..., -1.2899e-07,
+          2.9337e-08, -8.8476e-09],
+        [-2.0657e-06, -6.8638e-07,  6.1002e-08,  ...,  1.9092e-08,
+          4.5635e-08, -6.4773e-07],
+        ...,
+        [ 2.4363e-06,  1.1316e-07,  6.4149e-06,  ...,  7.2177e-08,
+          8.3819e-09,  2.6878e-06],
+        [ 4.4191e-07,  4.8196e-07, -3.9348e-07,  ...,  1.9092e-08,
+          6.5146e-07,  4.3586e-07],
+        [ 2.2212e-07,  1.6624e-07,  1.9418e-07,  ...,  4.3772e-08,
+          4.9360e-08,  2.4214e-08]], device='cuda:0')
+Epoch 193, bias, value: tensor([ 0.0023, -0.0187, -0.0271,  0.0329, -0.0285,  0.0326, -0.0224, -0.0106,
+         0.0151, -0.0289], device='cuda:0'), grad: tensor([ 3.0808e-06, -1.9372e-07, -5.6773e-06, -1.5184e-05,  2.4028e-07,
+         1.4575e-06, -3.3602e-06,  1.5378e-05,  3.4086e-06,  8.1724e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 192, time 214.76, cls_loss 0.0016 cls_loss_mapping 0.0036 cls_loss_causal 0.5408 re_mapping 0.0056 re_causal 0.0168 /// teacc 98.84 lr 0.00010000
+Epoch 194, weight, value: tensor([[-0.1095, -0.1217, -0.0925,  ..., -0.1390, -0.0112,  0.0759],
+        [ 0.0578,  0.0572,  0.0433,  ...,  0.0986, -0.1402, -0.0556],
+        [ 0.0504,  0.0267, -0.1200,  ..., -0.0277, -0.1798, -0.0729],
+        ...,
+        [-0.0485, -0.1055,  0.0839,  ..., -0.1037, -0.0289,  0.0085],
+        [ 0.0199,  0.0886,  0.1329,  ..., -0.1136, -0.1059, -0.1690],
+        [-0.1396,  0.0141, -0.2202,  ..., -0.1057, -0.0925,  0.0868]],
+       device='cuda:0'), grad: tensor([[-9.1363e-07,  5.4017e-07, -2.5611e-06,  ...,  7.9162e-09,
+         -1.3737e-07, -9.5442e-06],
+        [-8.5086e-06, -4.5039e-06, -5.0031e-06,  ..., -2.1476e-06,
+          3.3295e-07,  4.7833e-06],
+        [ 1.9372e-07,  1.1148e-06,  1.9204e-06,  ...,  1.3970e-07,
+          2.6077e-08,  4.9500e-07],
+        ...,
+        [ 8.5607e-06,  4.3511e-06,  6.0983e-06,  ...,  1.7481e-06,
+          8.7544e-08,  2.6394e-06],
+        [-2.4755e-06, -1.8803e-06, -2.7660e-06,  ...,  5.6345e-08,
+          7.3435e-07,  1.0105e-06],
+        [ 1.1455e-06, -4.8801e-06,  9.9652e-07,  ...,  8.9407e-08,
+         -1.0468e-06, -1.0453e-05]], device='cuda:0')
+Epoch 194, bias, value: tensor([ 0.0026, -0.0185, -0.0271,  0.0340, -0.0291,  0.0325, -0.0228, -0.0110,
+         0.0150, -0.0289], device='cuda:0'), grad: tensor([-1.2413e-05, -1.0870e-05,  3.1926e-06,  1.1697e-06,  2.2963e-05,
+         8.2329e-06, -8.1211e-06,  2.0295e-05, -6.8545e-06, -1.7643e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 193, time 214.77, cls_loss 0.0013 cls_loss_mapping 0.0025 cls_loss_causal 0.5221 re_mapping 0.0056 re_causal 0.0165 /// teacc 99.04 lr 0.00010000
+Epoch 195, weight, value: tensor([[-0.1101, -0.1218, -0.0927,  ..., -0.1390, -0.0112,  0.0760],
+        [ 0.0579,  0.0571,  0.0433,  ...,  0.0986, -0.1413, -0.0557],
+        [ 0.0505,  0.0265, -0.1202,  ..., -0.0283, -0.1803, -0.0731],
+        ...,
+        [-0.0487, -0.1056,  0.0841,  ..., -0.1040, -0.0293,  0.0087],
+        [ 0.0198,  0.0883,  0.1328,  ..., -0.1137, -0.1066, -0.1702],
+        [-0.1394,  0.0143, -0.2213,  ..., -0.1060, -0.0926,  0.0871]],
+       device='cuda:0'), grad: tensor([[ 6.6590e-08,  1.0245e-07,  8.4285e-08,  ...,  2.3749e-08,
+          2.8163e-06,  2.4021e-05],
+        [-1.4575e-07, -8.9873e-08, -4.7451e-07,  ..., -4.3493e-07,
+          7.6368e-08,  2.3423e-07],
+        [ 8.3819e-08,  1.3877e-07,  2.1746e-07,  ...,  8.1956e-08,
+          9.6858e-08,  7.2410e-07],
+        ...,
+        [ 1.4482e-07,  2.7986e-07,  8.4750e-08,  ...,  1.3644e-07,
+          6.4261e-08,  7.9023e-07],
+        [-2.4168e-07,  5.9744e-07, -4.5076e-07,  ...,  7.9162e-08,
+          5.8534e-07,  1.9185e-06],
+        [ 1.1036e-07, -1.4408e-06,  9.3598e-08,  ...,  1.8161e-08,
+         -3.1758e-06, -3.0324e-05]], device='cuda:0')
+Epoch 195, bias, value: tensor([ 0.0026, -0.0186, -0.0271,  0.0342, -0.0290,  0.0324, -0.0228, -0.0109,
+         0.0145, -0.0288], device='cuda:0'), grad: tensor([ 3.7193e-05, -8.3819e-08,  1.4501e-06, -7.6182e-07,  4.8429e-06,
+        -1.5516e-06,  7.4459e-07,  1.5870e-06,  3.8892e-06, -4.7326e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 194, time 215.26, cls_loss 0.0017 cls_loss_mapping 0.0036 cls_loss_causal 0.5500 re_mapping 0.0052 re_causal 0.0165 /// teacc 99.09 lr 0.00010000
+Epoch 196, weight, value: tensor([[-0.1109, -0.1220, -0.0930,  ..., -0.1391, -0.0111,  0.0763],
+        [ 0.0577,  0.0571,  0.0433,  ...,  0.0986, -0.1422, -0.0559],
+        [ 0.0517,  0.0266, -0.1207,  ..., -0.0283, -0.1810, -0.0731],
+        ...,
+        [-0.0488, -0.1060,  0.0845,  ..., -0.1045, -0.0309,  0.0091],
+        [ 0.0199,  0.0887,  0.1330,  ..., -0.1140, -0.1072, -0.1711],
+        [-0.1415,  0.0140, -0.2255,  ..., -0.1068, -0.0923,  0.0870]],
+       device='cuda:0'), grad: tensor([[ 1.7202e-06,  1.2526e-06,  8.1491e-08,  ...,  9.0618e-07,
+         -3.7532e-07, -3.0315e-07],
+        [ 1.6963e-04,  1.2493e-04, -1.2163e-06,  ...,  9.0122e-05,
+          3.2097e-05,  1.2541e-04],
+        [-1.9264e-04, -1.4162e-04,  7.1106e-07,  ..., -1.0234e-04,
+         -3.6329e-05, -1.4198e-04],
+        ...,
+        [ 8.0001e-07,  5.2294e-07,  4.6566e-10,  ...,  4.5169e-07,
+          1.1083e-07,  1.6252e-07],
+        [ 9.8441e-07,  4.0187e-07, -1.3066e-06,  ...,  6.1886e-07,
+          3.0315e-07,  1.2927e-06],
+        [ 1.7444e-06,  1.2880e-06,  2.8824e-07,  ...,  9.4762e-07,
+          3.7486e-07,  1.4240e-06]], device='cuda:0')
+Epoch 196, bias, value: tensor([ 0.0027, -0.0189, -0.0265,  0.0343, -0.0281,  0.0323, -0.0230, -0.0105,
+         0.0144, -0.0297], device='cuda:0'), grad: tensor([ 6.1393e-06,  8.2302e-04, -9.3269e-04,  8.7395e-06,  3.6448e-05,
+         2.1473e-05,  1.9789e-05,  2.7139e-06,  5.5991e-06,  8.8215e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 195, time 215.06, cls_loss 0.0015 cls_loss_mapping 0.0029 cls_loss_causal 0.4920 re_mapping 0.0051 re_causal 0.0158 /// teacc 99.08 lr 0.00010000
+Epoch 197, weight, value: tensor([[-0.1115, -0.1222, -0.0937,  ..., -0.1392, -0.0112,  0.0762],
+        [ 0.0578,  0.0573,  0.0443,  ...,  0.0986, -0.1417, -0.0550],
+        [ 0.0523,  0.0271, -0.1212,  ..., -0.0278, -0.1807, -0.0724],
+        ...,
+        [-0.0492, -0.1076,  0.0839,  ..., -0.1048, -0.0330,  0.0079],
+        [ 0.0203,  0.0886,  0.1334,  ..., -0.1141, -0.1080, -0.1723],
+        [-0.1421,  0.0143, -0.2266,  ..., -0.1071, -0.0921,  0.0876]],
+       device='cuda:0'), grad: tensor([[ 1.4761e-07,  8.3353e-08,  9.2201e-08,  ...,  4.6100e-08,
+         -2.6543e-08, -4.2049e-07],
+        [-2.2352e-08,  2.9802e-07,  7.2177e-08,  ...,  1.4482e-07,
+          2.0210e-07,  6.0070e-08],
+        [-7.0315e-08,  7.4506e-08,  5.4948e-08,  ...,  7.4506e-08,
+          4.2375e-08,  2.0955e-08],
+        ...,
+        [ 6.2818e-07,  5.6298e-07,  1.2703e-06,  ...,  2.0768e-07,
+          8.8476e-08,  2.0489e-08],
+        [-3.4384e-06, -1.0328e-06, -8.1956e-06,  ...,  1.1222e-06,
+          7.6508e-07,  3.8277e-07],
+        [ 6.4261e-08,  1.8813e-06,  9.5926e-08,  ...,  3.9935e-06,
+          2.7958e-06, -1.9651e-06]], device='cuda:0')
+Epoch 197, bias, value: tensor([ 0.0027, -0.0179, -0.0259,  0.0343, -0.0288,  0.0336, -0.0238, -0.0117,
+         0.0144, -0.0294], device='cuda:0'), grad: tensor([ 4.3772e-08,  1.0710e-06,  1.0338e-07,  4.8429e-08, -1.1668e-05,
+         1.0073e-05,  1.3206e-06,  2.5686e-06, -9.3728e-06,  5.8375e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 196, time 214.86, cls_loss 0.0013 cls_loss_mapping 0.0029 cls_loss_causal 0.5239 re_mapping 0.0054 re_causal 0.0168 /// teacc 99.02 lr 0.00010000
+Epoch 198, weight, value: tensor([[-0.1123, -0.1225, -0.0941,  ..., -0.1393, -0.0112,  0.0762],
+        [ 0.0580,  0.0576,  0.0445,  ...,  0.0987, -0.1423, -0.0548],
+        [ 0.0520,  0.0268, -0.1218,  ..., -0.0281, -0.1811, -0.0726],
+        ...,
+        [-0.0494, -0.1081,  0.0839,  ..., -0.1051, -0.0333,  0.0074],
+        [ 0.0209,  0.0888,  0.1339,  ..., -0.1145, -0.1084, -0.1733],
+        [-0.1422,  0.0143, -0.2270,  ..., -0.1075, -0.0924,  0.0881]],
+       device='cuda:0'), grad: tensor([[ 3.5390e-08,  2.2817e-08,  1.2573e-08,  ...,  1.8626e-08,
+         -8.1491e-08, -2.6636e-07],
+        [ 1.2852e-07,  3.1013e-07,  2.2817e-07,  ...,  4.7404e-07,
+          4.5262e-07,  3.6787e-08],
+        [ 6.4448e-07,  5.3551e-08,  3.9581e-08,  ...,  3.5390e-08,
+          3.1199e-08,  1.3970e-08],
+        ...,
+        [ 3.5483e-07,  1.3551e-07, -4.1677e-07,  ...,  1.6205e-07,
+          1.3970e-07,  4.0978e-08],
+        [ 2.0536e-07,  2.9197e-07,  2.8126e-07,  ...,  5.7742e-07,
+          5.4203e-07,  1.0477e-07],
+        [ 4.1910e-08,  3.2764e-06,  1.4426e-06,  ...,  5.5619e-06,
+          5.0627e-06, -1.2107e-07]], device='cuda:0')
+Epoch 198, bias, value: tensor([ 0.0026, -0.0177, -0.0261,  0.0343, -0.0288,  0.0335, -0.0238, -0.0120,
+         0.0145, -0.0293], device='cuda:0'), grad: tensor([-2.6310e-07,  1.6531e-06,  1.6615e-06, -5.7667e-06, -1.6153e-05,
+         2.7735e-06,  6.8592e-07,  6.2492e-07,  2.2240e-06,  1.2554e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 197, time 214.72, cls_loss 0.0015 cls_loss_mapping 0.0029 cls_loss_causal 0.4986 re_mapping 0.0056 re_causal 0.0161 /// teacc 99.06 lr 0.00010000
+Epoch 199, weight, value: tensor([[-0.1127, -0.1225, -0.0945,  ..., -0.1393, -0.0108,  0.0767],
+        [ 0.0583,  0.0576,  0.0447,  ...,  0.0988, -0.1429, -0.0549],
+        [ 0.0519,  0.0266, -0.1225,  ..., -0.0287, -0.1826, -0.0731],
+        ...,
+        [-0.0495, -0.1084,  0.0840,  ..., -0.1052, -0.0332,  0.0073],
+        [ 0.0210,  0.0890,  0.1342,  ..., -0.1148, -0.1091, -0.1745],
+        [-0.1423,  0.0140, -0.2277,  ..., -0.1081, -0.0934,  0.0881]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-08,  3.9116e-08,  3.8650e-08,  ...,  2.7008e-08,
+          2.6543e-08, -3.7719e-08],
+        [ 1.6699e-06,  1.1921e-07,  6.0201e-06,  ...,  2.2678e-07,
+          1.7229e-07,  2.1905e-06],
+        [ 2.6450e-07,  1.2992e-07,  5.4250e-07,  ...,  1.2619e-07,
+          8.4750e-08,  7.7300e-08],
+        ...,
+        [-3.8035e-06,  8.8476e-09, -1.4648e-05,  ...,  5.5879e-09,
+          2.6543e-08,  1.6717e-06],
+        [ 1.1120e-06, -1.0151e-07,  4.2357e-06,  ...,  4.6566e-08,
+          1.6857e-07,  3.2224e-07],
+        [ 6.5798e-07,  1.0710e-07,  1.7984e-06,  ...,  1.3737e-07,
+          1.0617e-07, -7.0259e-06]], device='cuda:0')
+Epoch 199, bias, value: tensor([ 0.0029, -0.0176, -0.0265,  0.0347, -0.0281,  0.0346, -0.0249, -0.0120,
+         0.0142, -0.0297], device='cuda:0'), grad: tensor([ 2.9569e-07,  1.4260e-05,  1.6149e-06,  2.0042e-06,  4.5635e-06,
+        -2.2091e-06,  5.6904e-07, -1.9833e-05,  7.6294e-06, -8.9332e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 198, time 215.26, cls_loss 0.0016 cls_loss_mapping 0.0029 cls_loss_causal 0.5050 re_mapping 0.0054 re_causal 0.0162 /// teacc 99.11 lr 0.00010000
+Epoch 200, weight, value: tensor([[-0.1105, -0.1227, -0.0923,  ..., -0.1395, -0.0105,  0.0771],
+        [ 0.0582,  0.0574,  0.0445,  ...,  0.0985, -0.1439, -0.0551],
+        [ 0.0518,  0.0259, -0.1232,  ..., -0.0303, -0.1839, -0.0733],
+        ...,
+        [-0.0494, -0.1088,  0.0844,  ..., -0.1052, -0.0331,  0.0077],
+        [ 0.0212,  0.0889,  0.1343,  ..., -0.1150, -0.1098, -0.1753],
+        [-0.1426,  0.0137, -0.2286,  ..., -0.1088, -0.0946,  0.0882]],
+       device='cuda:0'), grad: tensor([[ 2.2538e-07,  4.7963e-08,  7.3109e-08,  ...,  2.3283e-08,
+         -9.8720e-08, -3.0780e-07],
+        [-1.4126e-05, -3.5852e-05, -7.3612e-05,  ..., -1.4193e-05,
+          2.1420e-08, -1.9461e-05],
+        [-7.6462e-07,  9.9186e-08,  1.5553e-07,  ...,  5.6811e-08,
+          3.4925e-08,  2.3749e-08],
+        ...,
+        [ 9.9093e-06,  2.5079e-05,  5.1439e-05,  ...,  9.9316e-06,
+          2.5611e-08,  1.3575e-05],
+        [ 7.0315e-08,  6.8266e-07,  1.4743e-06,  ...,  4.2981e-07,
+          3.4925e-08,  6.0303e-07],
+        [ 3.0845e-06,  7.7933e-06,  1.5974e-05,  ...,  3.1516e-06,
+          1.0990e-07,  4.2394e-06]], device='cuda:0')
+Epoch 200, bias, value: tensor([ 0.0034, -0.0181, -0.0271,  0.0347, -0.0272,  0.0341, -0.0246, -0.0115,
+         0.0140, -0.0304], device='cuda:0'), grad: tensor([ 3.0501e-07, -1.1569e-04, -2.3972e-06,  2.2668e-06,  4.9211e-06,
+         1.3206e-06,  5.8161e-07,  8.1062e-05,  2.5164e-06,  2.5392e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 199, time 215.09, cls_loss 0.0016 cls_loss_mapping 0.0028 cls_loss_causal 0.5235 re_mapping 0.0055 re_causal 0.0165 /// teacc 99.10 lr 0.00010000
+Epoch 201, weight, value: tensor([[-0.1111, -0.1229, -0.0927,  ..., -0.1396, -0.0104,  0.0773],
+        [ 0.0578,  0.0582,  0.0439,  ...,  0.0988, -0.1445, -0.0552],
+        [ 0.0532,  0.0257, -0.1235,  ..., -0.0306, -0.1842, -0.0723],
+        ...,
+        [-0.0484, -0.1097,  0.0855,  ..., -0.1056, -0.0332,  0.0079],
+        [ 0.0200,  0.0880,  0.1334,  ..., -0.1158, -0.1105, -0.1763],
+        [-0.1449,  0.0127, -0.2293,  ..., -0.1107, -0.0957,  0.0876]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-08,  5.4017e-08,  9.3598e-08,  ...,  4.8894e-08,
+          2.5146e-08,  1.6857e-07],
+        [ 5.5414e-08,  1.2061e-07,  1.3346e-06,  ...,  1.4156e-07,
+          5.2620e-08,  2.5295e-06],
+        [ 2.8964e-07,  6.4727e-08,  1.3132e-07,  ...,  4.7963e-08,
+          1.8626e-08,  1.3970e-07],
+        ...,
+        [ 3.1432e-07,  1.2433e-07, -6.3032e-06,  ...,  7.2177e-08,
+          3.1199e-08, -1.2219e-05],
+        [-2.5984e-07, -3.7253e-08, -1.8440e-07,  ...,  1.1222e-07,
+          5.2154e-08,  2.5984e-07],
+        [ 4.7032e-08,  2.4959e-06,  2.2482e-06,  ...,  3.3807e-06,
+          1.1697e-06,  3.8221e-06]], device='cuda:0')
+Epoch 201, bias, value: tensor([ 0.0035, -0.0185, -0.0261,  0.0349, -0.0255,  0.0338, -0.0246, -0.0106,
+         0.0126, -0.0320], device='cuda:0'), grad: tensor([ 5.2666e-07,  5.4464e-06,  9.8441e-07,  2.8051e-06, -9.7603e-06,
+         5.5656e-06,  1.3653e-06, -2.3067e-05,  1.7649e-07,  1.5959e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 200, time 215.10, cls_loss 0.0015 cls_loss_mapping 0.0027 cls_loss_causal 0.4936 re_mapping 0.0053 re_causal 0.0161 /// teacc 99.05 lr 0.00010000
+Epoch 202, weight, value: tensor([[-0.1119, -0.1230, -0.0929,  ..., -0.1397, -0.0104,  0.0773],
+        [ 0.0568,  0.0572,  0.0434,  ...,  0.0988, -0.1457, -0.0566],
+        [ 0.0541,  0.0269, -0.1241,  ..., -0.0307, -0.1835, -0.0721],
+        ...,
+        [-0.0478, -0.1102,  0.0864,  ..., -0.1058, -0.0337,  0.0087],
+        [ 0.0203,  0.0882,  0.1336,  ..., -0.1160, -0.1109, -0.1771],
+        [-0.1450,  0.0128, -0.2305,  ..., -0.1111, -0.0961,  0.0881]],
+       device='cuda:0'), grad: tensor([[ 2.1420e-08,  2.6077e-08,  2.0023e-08,  ...,  2.8405e-08,
+         -5.0664e-07, -1.5358e-06],
+        [-6.7847e-07, -4.6100e-08, -4.3446e-07,  ..., -1.3877e-07,
+          6.1002e-08, -1.8114e-07],
+        [-2.0489e-08,  4.8429e-08,  9.3598e-08,  ...,  8.2888e-08,
+          1.9046e-07,  5.1502e-07],
+        ...,
+        [ 4.9733e-07,  2.9011e-07,  3.9814e-07,  ...,  3.0268e-07,
+          1.5693e-07,  1.3364e-07],
+        [-6.5193e-09,  1.3318e-07,  8.7544e-08,  ...,  1.7928e-07,
+          1.6438e-07,  9.7323e-08],
+        [ 5.8673e-08,  7.0920e-07,  4.2981e-07,  ...,  8.7544e-07,
+          7.9395e-07,  7.7998e-07]], device='cuda:0')
+Epoch 202, bias, value: tensor([ 0.0034, -0.0196, -0.0255,  0.0357, -0.0252,  0.0328, -0.0243, -0.0096,
+         0.0124, -0.0320], device='cuda:0'), grad: tensor([-3.7290e-06, -7.5717e-07,  1.2051e-06,  7.2410e-07, -3.7439e-06,
+        -5.2527e-07,  4.4657e-07,  1.4538e-06,  7.0082e-07,  4.2170e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 201, time 214.90, cls_loss 0.0012 cls_loss_mapping 0.0027 cls_loss_causal 0.4848 re_mapping 0.0055 re_causal 0.0159 /// teacc 99.04 lr 0.00010000
+Epoch 203, weight, value: tensor([[-0.1122, -0.1235, -0.0932,  ..., -0.1402, -0.0106,  0.0774],
+        [ 0.0570,  0.0573,  0.0436,  ...,  0.0989, -0.1467, -0.0567],
+        [ 0.0544,  0.0267, -0.1240,  ..., -0.0309, -0.1840, -0.0722],
+        ...,
+        [-0.0482, -0.1108,  0.0863,  ..., -0.1063, -0.0341,  0.0086],
+        [ 0.0200,  0.0882,  0.1336,  ..., -0.1168, -0.1119, -0.1776],
+        [-0.1440,  0.0128, -0.2307,  ..., -0.1116, -0.0964,  0.0884]],
+       device='cuda:0'), grad: tensor([[ 3.2596e-09,  5.4017e-08,  8.3819e-09,  ...,  1.7602e-07,
+          1.0105e-07, -9.1717e-06],
+        [-7.3574e-08,  1.9977e-07, -1.4435e-08,  ...,  2.8405e-08,
+          6.5193e-08,  2.1048e-07],
+        [ 1.9325e-07,  1.0477e-07,  1.2014e-07,  ...,  7.3109e-08,
+          3.2131e-08,  1.1353e-06],
+        ...,
+        [ 5.0291e-08,  3.4226e-07,  5.4482e-08,  ...,  1.9092e-08,
+          1.4901e-08,  6.2492e-07],
+        [-6.2259e-07,  5.0943e-07, -2.4354e-07,  ...,  3.0454e-07,
+          7.8790e-07,  1.6559e-06],
+        [ 1.2573e-08, -3.8743e-06, -9.5833e-07,  ...,  1.1036e-07,
+          1.1083e-07, -4.4927e-06]], device='cuda:0')
+Epoch 203, bias, value: tensor([ 0.0034, -0.0196, -0.0254,  0.0355, -0.0248,  0.0324, -0.0240, -0.0098,
+         0.0120, -0.0318], device='cuda:0'), grad: tensor([-1.6749e-05,  5.1642e-07,  2.6599e-06,  2.4401e-06,  1.7405e-05,
+        -3.9302e-06,  1.3076e-06,  1.2945e-06,  3.4906e-06, -8.4788e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 202, time 214.94, cls_loss 0.0014 cls_loss_mapping 0.0036 cls_loss_causal 0.4930 re_mapping 0.0055 re_causal 0.0155 /// teacc 99.02 lr 0.00010000
+Epoch 204, weight, value: tensor([[-0.1123, -0.1236, -0.0934,  ..., -0.1403, -0.0106,  0.0777],
+        [ 0.0570,  0.0574,  0.0436,  ...,  0.0995, -0.1470, -0.0568],
+        [ 0.0544,  0.0264, -0.1246,  ..., -0.0315, -0.1842, -0.0724],
+        ...,
+        [-0.0480, -0.1112,  0.0865,  ..., -0.1068, -0.0344,  0.0090],
+        [ 0.0206,  0.0890,  0.1344,  ..., -0.1170, -0.1127, -0.1792],
+        [-0.1436,  0.0128, -0.2312,  ..., -0.1119, -0.0964,  0.0886]],
+       device='cuda:0'), grad: tensor([[ 1.1781e-07,  1.2713e-07,  7.2643e-08,  ..., -4.1910e-09,
+         -5.6345e-08, -3.3015e-07],
+        [-1.6531e-07,  3.9581e-08, -3.0873e-07,  ..., -3.8929e-07,
+          1.0245e-08,  7.4506e-08],
+        [-5.1223e-09,  3.3434e-07,  2.1514e-07,  ...,  3.3062e-08,
+          5.5879e-09,  1.1642e-08],
+        ...,
+        [ 4.0326e-07,  1.2945e-07, -4.2375e-08,  ...,  2.6543e-07,
+          9.7789e-09, -4.7823e-07],
+        [-1.7574e-06, -1.8859e-06, -1.2126e-06,  ...,  3.1665e-08,
+          2.5611e-08,  2.6543e-08],
+        [ 1.9185e-07,  3.3574e-07,  4.3120e-07,  ...,  5.4017e-07,
+          1.2061e-07,  3.8045e-07]], device='cuda:0')
+Epoch 204, bias, value: tensor([ 0.0035, -0.0196, -0.0256,  0.0348, -0.0250,  0.0327, -0.0242, -0.0095,
+         0.0122, -0.0318], device='cuda:0'), grad: tensor([-3.5856e-08, -4.3772e-08,  3.8091e-07,  3.5651e-06, -8.9267e-07,
+        -1.2163e-06,  1.7043e-06,  8.0094e-08, -5.9195e-06,  2.3618e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 203, time 214.94, cls_loss 0.0015 cls_loss_mapping 0.0029 cls_loss_causal 0.5382 re_mapping 0.0053 re_causal 0.0159 /// teacc 99.04 lr 0.00010000
+Epoch 205, weight, value: tensor([[-0.1134, -0.1238, -0.0941,  ..., -0.1404, -0.0107,  0.0771],
+        [ 0.0570,  0.0574,  0.0435,  ...,  0.0995, -0.1484, -0.0572],
+        [ 0.0536,  0.0263, -0.1251,  ..., -0.0317, -0.1844, -0.0728],
+        ...,
+        [-0.0479, -0.1118,  0.0867,  ..., -0.1070, -0.0348,  0.0089],
+        [ 0.0216,  0.0904,  0.1356,  ..., -0.1171, -0.1130, -0.1793],
+        [-0.1435,  0.0131, -0.2316,  ..., -0.1121, -0.0967,  0.0901]],
+       device='cuda:0'), grad: tensor([[ 9.2667e-08,  1.5413e-07,  3.0734e-08,  ...,  2.5611e-07,
+          2.3516e-07,  2.2072e-07],
+        [-7.2643e-08,  8.9407e-08, -1.4715e-07,  ...,  2.0117e-07,
+          1.4575e-07,  6.6590e-08],
+        [-3.6322e-08,  8.8010e-08,  3.1199e-08,  ...,  2.8312e-07,
+          1.1548e-07,  2.6543e-08],
+        ...,
+        [ 9.3132e-08,  8.0559e-08, -1.7183e-07,  ...,  7.9162e-09,
+          5.9605e-08,  6.2399e-08],
+        [-1.8952e-07,  3.8184e-08, -2.9569e-07,  ...,  1.5320e-07,
+          1.1548e-07,  7.2643e-08],
+        [-7.4971e-08,  2.7847e-06,  5.4017e-08,  ...,  3.8128e-06,
+          9.1176e-07,  5.3737e-07]], device='cuda:0')
+Epoch 205, bias, value: tensor([ 0.0031, -0.0200, -0.0261,  0.0348, -0.0260,  0.0332, -0.0242, -0.0092,
+         0.0130, -0.0310], device='cuda:0'), grad: tensor([ 8.1910e-07,  4.3772e-07,  4.4657e-07,  4.3884e-06, -9.8944e-06,
+        -4.1090e-06, -8.8243e-07, -1.5227e-07, -3.0082e-07,  9.2387e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 204, time 214.80, cls_loss 0.0013 cls_loss_mapping 0.0021 cls_loss_causal 0.5135 re_mapping 0.0050 re_causal 0.0155 /// teacc 99.09 lr 0.00010000
+Epoch 206, weight, value: tensor([[-0.1139, -0.1241, -0.0942,  ..., -0.1404, -0.0107,  0.0772],
+        [ 0.0569,  0.0575,  0.0437,  ...,  0.0998, -0.1493, -0.0572],
+        [ 0.0535,  0.0263, -0.1260,  ..., -0.0318, -0.1847, -0.0728],
+        ...,
+        [-0.0481, -0.1128,  0.0868,  ..., -0.1079, -0.0351,  0.0088],
+        [ 0.0227,  0.0905,  0.1364,  ..., -0.1173, -0.1133, -0.1800],
+        [-0.1439,  0.0130, -0.2319,  ..., -0.1123, -0.0970,  0.0904]],
+       device='cuda:0'), grad: tensor([[ 1.3551e-07,  1.8533e-07,  7.8231e-08,  ...,  2.3283e-08,
+          1.2480e-07, -6.8545e-07],
+        [ 3.7998e-06,  8.4285e-08,  1.0282e-05,  ...,  8.5775e-07,
+          8.9407e-08,  8.5682e-08],
+        [ 2.3469e-07,  2.2352e-08,  2.0005e-06,  ...,  1.7602e-07,
+          2.7008e-08,  4.2375e-08],
+        ...,
+        [-6.4932e-06,  2.0023e-08, -1.8030e-05,  ..., -1.4780e-06,
+          1.7229e-08, -1.4901e-08],
+        [ 1.8878e-06,  3.5623e-07,  4.3511e-06,  ...,  3.9535e-07,
+          5.6578e-07,  2.9523e-07],
+        [ 1.1409e-07,  1.9837e-07,  1.8533e-07,  ...,  5.0291e-08,
+          3.5157e-07,  2.2491e-07]], device='cuda:0')
+Epoch 206, bias, value: tensor([ 0.0031, -0.0201, -0.0261,  0.0349, -0.0263,  0.0332, -0.0240, -0.0093,
+         0.0135, -0.0311], device='cuda:0'), grad: tensor([-1.6438e-07,  2.0444e-05,  2.9746e-06,  6.1747e-07,  1.4221e-06,
+         2.2314e-06, -4.2804e-06, -3.5018e-05,  1.0535e-05,  1.2498e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 205, time 214.61, cls_loss 0.0014 cls_loss_mapping 0.0036 cls_loss_causal 0.5177 re_mapping 0.0050 re_causal 0.0153 /// teacc 99.02 lr 0.00010000
+Epoch 207, weight, value: tensor([[-0.1120, -0.1245, -0.0920,  ..., -0.1413, -0.0111,  0.0773],
+        [ 0.0574,  0.0578,  0.0440,  ...,  0.1004, -0.1499, -0.0571],
+        [ 0.0539,  0.0261, -0.1263,  ..., -0.0321, -0.1850, -0.0729],
+        ...,
+        [-0.0487, -0.1133,  0.0866,  ..., -0.1084, -0.0354,  0.0087],
+        [ 0.0225,  0.0913,  0.1369,  ..., -0.1178, -0.1139, -0.1808],
+        [-0.1442,  0.0134, -0.2323,  ..., -0.1124, -0.0973,  0.0909]],
+       device='cuda:0'), grad: tensor([[ 2.9448e-06,  3.3136e-06,  3.6322e-08,  ...,  1.8161e-08,
+         -5.9605e-08,  1.7750e-04],
+        [-6.7102e-07, -1.9418e-07, -9.5647e-07,  ..., -5.4901e-07,
+          6.0536e-09,  1.4249e-07],
+        [-1.2882e-05, -1.4178e-05,  8.5682e-08,  ...,  4.9360e-08,
+          3.7253e-09,  1.8347e-06],
+        ...,
+        [ 6.4354e-07,  1.2619e-07,  6.2166e-07,  ...,  3.4273e-07,
+          3.7253e-09,  1.0934e-06],
+        [ 8.5384e-06,  9.4473e-06, -4.6566e-10,  ...,  3.5856e-08,
+          4.6566e-09,  1.5507e-07],
+        [ 1.0822e-06,  1.1036e-06,  7.2643e-08,  ...,  9.3598e-08,
+          2.8405e-08, -1.8370e-04]], device='cuda:0')
+Epoch 207, bias, value: tensor([ 0.0034, -0.0199, -0.0260,  0.0346, -0.0273,  0.0336, -0.0242, -0.0096,
+         0.0135, -0.0306], device='cuda:0'), grad: tensor([ 2.4652e-04, -1.3728e-06, -6.9857e-05, -7.9768e-07,  3.1609e-06,
+         1.5823e-06,  8.7218e-07,  3.2187e-06,  4.8250e-05, -2.3198e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 206, time 215.30, cls_loss 0.0015 cls_loss_mapping 0.0030 cls_loss_causal 0.5227 re_mapping 0.0051 re_causal 0.0153 /// teacc 98.99 lr 0.00010000
+Epoch 208, weight, value: tensor([[-0.1128, -0.1248, -0.0924,  ..., -0.1415, -0.0112,  0.0771],
+        [ 0.0574,  0.0581,  0.0440,  ...,  0.1010, -0.1504, -0.0570],
+        [ 0.0543,  0.0263, -0.1270,  ..., -0.0324, -0.1855, -0.0730],
+        ...,
+        [-0.0486, -0.1140,  0.0870,  ..., -0.1088, -0.0346,  0.0090],
+        [ 0.0226,  0.0916,  0.1372,  ..., -0.1179, -0.1141, -0.1816],
+        [-0.1446,  0.0136, -0.2333,  ..., -0.1127, -0.0976,  0.0913]],
+       device='cuda:0'), grad: tensor([[ 2.8405e-07,  3.6322e-08,  1.2107e-07,  ...,  3.8184e-08,
+         -1.5832e-08, -5.0757e-08],
+        [-9.3132e-09, -2.4075e-07, -6.3377e-07,  ..., -4.8103e-07,
+          1.9092e-08,  2.1746e-07],
+        [-3.5912e-06, -6.5705e-07,  1.2144e-06,  ..., -1.0394e-06,
+          3.8184e-08,  2.3516e-07],
+        ...,
+        [ 1.6019e-07,  1.6717e-07, -1.2470e-06,  ...,  1.9930e-07,
+         -4.6566e-09, -6.6916e-07],
+        [ 1.7723e-06,  9.7044e-07, -8.1118e-07,  ...,  1.1222e-06,
+          3.1199e-08,  7.1013e-07],
+        [ 1.1735e-07, -4.0280e-07,  1.5553e-07,  ...,  1.0757e-07,
+          7.7765e-08, -7.7114e-07]], device='cuda:0')
+Epoch 208, bias, value: tensor([ 0.0032, -0.0198, -0.0257,  0.0347, -0.0275,  0.0333, -0.0242, -0.0091,
+         0.0134, -0.0306], device='cuda:0'), grad: tensor([ 5.5879e-07,  3.3993e-07, -1.0811e-05,  1.9204e-06,  8.6380e-07,
+         9.1642e-07,  4.2003e-07, -3.3993e-06,  1.0177e-05, -9.7975e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 207, time 215.12, cls_loss 0.0014 cls_loss_mapping 0.0028 cls_loss_causal 0.5247 re_mapping 0.0052 re_causal 0.0159 /// teacc 98.93 lr 0.00010000
+Epoch 209, weight, value: tensor([[-0.1116, -0.1248, -0.0908,  ..., -0.1409, -0.0110,  0.0774],
+        [ 0.0571,  0.0582,  0.0438,  ...,  0.1008, -0.1519, -0.0572],
+        [ 0.0545,  0.0262, -0.1275,  ..., -0.0325, -0.1859, -0.0732],
+        ...,
+        [-0.0481, -0.1143,  0.0876,  ..., -0.1088, -0.0348,  0.0092],
+        [ 0.0228,  0.0914,  0.1374,  ..., -0.1183, -0.1150, -0.1823],
+        [-0.1453,  0.0139, -0.2340,  ..., -0.1130, -0.0967,  0.0917]],
+       device='cuda:0'), grad: tensor([[ 1.2619e-07,  8.5449e-08,  8.7311e-08,  ...,  8.5449e-08,
+         -3.2294e-07, -5.5926e-07],
+        [-3.4762e-07,  2.1583e-07, -3.3737e-07,  ...,  4.2538e-07,
+          4.2142e-07,  1.0151e-07],
+        [ 1.8487e-07,  2.1840e-07,  1.4435e-07,  ...,  2.6729e-07,
+          1.9814e-07,  1.9418e-07],
+        ...,
+        [ 2.4587e-07,  2.7288e-07,  1.8184e-07,  ...,  3.5716e-07,
+          2.0792e-07,  1.6764e-08],
+        [-5.2387e-07,  4.7963e-08, -7.8790e-07,  ...,  3.8673e-07,
+          1.0775e-06,  3.9348e-07],
+        [-2.3451e-06, -3.3830e-07,  7.7533e-08,  ...,  4.9174e-07,
+          3.7462e-07, -4.8503e-06]], device='cuda:0')
+Epoch 209, bias, value: tensor([ 0.0037, -0.0203, -0.0258,  0.0349, -0.0277,  0.0331, -0.0245, -0.0084,
+         0.0129, -0.0304], device='cuda:0'), grad: tensor([-4.4052e-07,  1.3206e-06,  1.6456e-06,  9.7603e-06, -7.1526e-06,
+        -5.3681e-06,  9.0003e-06,  1.4696e-06,  1.7909e-06, -1.2048e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 208, time 215.01, cls_loss 0.0016 cls_loss_mapping 0.0023 cls_loss_causal 0.5124 re_mapping 0.0054 re_causal 0.0158 /// teacc 98.97 lr 0.00010000
+Epoch 210, weight, value: tensor([[-0.1126, -0.1250, -0.0913,  ..., -0.1410, -0.0110,  0.0771],
+        [ 0.0594,  0.0602,  0.0461,  ...,  0.1019, -0.1525, -0.0562],
+        [ 0.0540,  0.0254, -0.1288,  ..., -0.0326, -0.1863, -0.0738],
+        ...,
+        [-0.0486, -0.1156,  0.0862,  ..., -0.1107, -0.0350,  0.0071],
+        [ 0.0210,  0.0895,  0.1367,  ..., -0.1184, -0.1156, -0.1839],
+        [-0.1452,  0.0139, -0.2346,  ..., -0.1135, -0.0971,  0.0927]],
+       device='cuda:0'), grad: tensor([[ 1.5739e-07,  5.7742e-08,  7.1712e-08,  ...,  5.4482e-08,
+         -6.2631e-07, -2.6822e-06],
+        [-2.4289e-06, -6.7009e-07,  6.5528e-06,  ..., -1.9185e-06,
+          6.0070e-08,  1.2303e-06],
+        [-1.7993e-06,  4.1584e-07,  1.3132e-06,  ...,  9.4203e-07,
+          7.4971e-08,  1.0440e-06],
+        ...,
+        [ 5.5553e-07,  3.6880e-07, -4.5091e-05,  ...,  5.6764e-07,
+          1.2992e-07, -1.3530e-05],
+        [ 2.9756e-07,  9.7789e-08,  6.5379e-07,  ...,  1.4948e-07,
+          1.1222e-07,  1.2228e-06],
+        [ 1.7928e-07,  9.4483e-07,  3.0756e-05,  ...,  7.0455e-07,
+          6.1886e-07,  9.5069e-06]], device='cuda:0')
+Epoch 210, bias, value: tensor([ 0.0034, -0.0175, -0.0264,  0.0346, -0.0274,  0.0333, -0.0245, -0.0105,
+         0.0110, -0.0301], device='cuda:0'), grad: tensor([-4.6864e-06,  1.7181e-05,  1.3579e-06,  1.2316e-05, -4.6566e-06,
+         6.1058e-06,  1.6047e-06, -1.2517e-04,  4.9211e-06,  9.0837e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 209, time 215.01, cls_loss 0.0013 cls_loss_mapping 0.0038 cls_loss_causal 0.5043 re_mapping 0.0055 re_causal 0.0157 /// teacc 99.02 lr 0.00010000
+Epoch 211, weight, value: tensor([[-0.1130, -0.1252, -0.0914,  ..., -0.1411, -0.0112,  0.0764],
+        [ 0.0603,  0.0608,  0.0462,  ...,  0.1025, -0.1534, -0.0563],
+        [ 0.0535,  0.0248, -0.1297,  ..., -0.0335, -0.1869, -0.0741],
+        ...,
+        [-0.0484, -0.1158,  0.0874,  ..., -0.1110, -0.0357,  0.0079],
+        [ 0.0209,  0.0892,  0.1348,  ..., -0.1188, -0.1163, -0.1872],
+        [-0.1454,  0.0138, -0.2357,  ..., -0.1138, -0.0972,  0.0937]],
+       device='cuda:0'), grad: tensor([[ 5.3085e-08,  1.9558e-08,  3.2596e-08,  ...,  1.2107e-08,
+          0.0000e+00,  6.3330e-08],
+        [-7.3202e-07, -2.4028e-07, -3.0641e-07,  ..., -1.9185e-07,
+          4.8429e-08,  5.1316e-07],
+        [ 4.3679e-07,  1.5367e-07,  2.6077e-07,  ...,  1.1455e-07,
+          1.5739e-07,  1.2442e-06],
+        ...,
+        [ 5.7090e-07,  8.6613e-08, -7.7784e-06,  ...,  4.4703e-08,
+          1.2731e-06, -8.6799e-06],
+        [-4.4145e-07, -4.1164e-07, -5.1595e-07,  ...,  2.0489e-08,
+          7.9162e-08,  5.2340e-07],
+        [ 1.7323e-07, -8.8476e-08,  8.0243e-06,  ...,  5.5879e-08,
+         -2.3097e-07,  1.8358e-05]], device='cuda:0')
+Epoch 211, bias, value: tensor([ 0.0029, -0.0172, -0.0269,  0.0346, -0.0275,  0.0330, -0.0243, -0.0091,
+         0.0093, -0.0298], device='cuda:0'), grad: tensor([ 1.1884e-06,  4.0419e-07,  5.1744e-06,  1.0200e-05,  1.3281e-06,
+        -6.1631e-05,  3.5651e-06,  4.2431e-06,  8.0559e-07,  3.4690e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 210, time 215.25, cls_loss 0.0012 cls_loss_mapping 0.0023 cls_loss_causal 0.4927 re_mapping 0.0055 re_causal 0.0153 /// teacc 99.09 lr 0.00010000
+Epoch 212, weight, value: tensor([[-0.1132, -0.1253, -0.0915,  ..., -0.1411, -0.0110,  0.0768],
+        [ 0.0605,  0.0609,  0.0462,  ...,  0.1028, -0.1539, -0.0565],
+        [ 0.0538,  0.0243, -0.1300,  ..., -0.0351, -0.1888, -0.0744],
+        ...,
+        [-0.0486, -0.1160,  0.0876,  ..., -0.1110, -0.0362,  0.0081],
+        [ 0.0210,  0.0900,  0.1349,  ..., -0.1190, -0.1162, -0.1876],
+        [-0.1458,  0.0136, -0.2363,  ..., -0.1141, -0.0975,  0.0937]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-08,  6.0536e-08,  1.3039e-08,  ...,  7.3574e-08,
+          8.4750e-08, -2.7940e-09],
+        [-1.4901e-07, -2.4214e-08, -1.8626e-09,  ..., -2.6450e-07,
+          1.1548e-07,  1.7602e-07],
+        [-8.4750e-08,  3.6322e-08,  5.0291e-08,  ...,  5.8673e-08,
+          4.2841e-08,  4.2841e-08],
+        ...,
+        [ 2.7008e-08,  6.0536e-08, -5.4017e-07,  ...,  6.3330e-08,
+         -0.0000e+00, -3.5949e-07],
+        [ 2.6077e-08,  4.5635e-08,  1.1176e-08,  ...,  5.4017e-08,
+          9.2201e-08,  3.5390e-08],
+        [ 3.3528e-08, -3.1851e-07,  2.6729e-07,  ...,  8.6613e-08,
+          2.7008e-08, -3.3155e-07]], device='cuda:0')
+Epoch 212, bias, value: tensor([ 0.0032, -0.0172, -0.0271,  0.0353, -0.0275,  0.0322, -0.0242, -0.0090,
+         0.0098, -0.0302], device='cuda:0'), grad: tensor([ 2.1700e-07,  1.6950e-07,  5.0291e-08,  3.1758e-07,  1.5358e-06,
+         3.0827e-07, -1.5879e-06, -1.0943e-06,  2.6356e-07, -1.9372e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 211, time 214.91, cls_loss 0.0014 cls_loss_mapping 0.0034 cls_loss_causal 0.5270 re_mapping 0.0049 re_causal 0.0155 /// teacc 98.97 lr 0.00010000
+Epoch 213, weight, value: tensor([[-0.1135, -0.1255, -0.0916,  ..., -0.1411, -0.0110,  0.0771],
+        [ 0.0605,  0.0613,  0.0463,  ...,  0.1036, -0.1538, -0.0566],
+        [ 0.0547,  0.0247, -0.1301,  ..., -0.0356, -0.1892, -0.0746],
+        ...,
+        [-0.0491, -0.1169,  0.0877,  ..., -0.1113, -0.0350,  0.0085],
+        [ 0.0209,  0.0905,  0.1355,  ..., -0.1193, -0.1165, -0.1880],
+        [-0.1461,  0.0157, -0.2376,  ..., -0.1146, -0.0957,  0.0953]],
+       device='cuda:0'), grad: tensor([[ 1.0803e-07,  1.1642e-07,  1.3970e-08,  ...,  6.9849e-08,
+          1.8626e-07, -1.8906e-07],
+        [ 4.9360e-08, -6.6124e-08, -1.4715e-07,  ..., -1.4156e-07,
+          1.0431e-07,  6.4261e-08],
+        [ 1.0002e-06,  2.9802e-08,  6.2864e-07,  ...,  1.6764e-08,
+          2.5146e-08,  9.7416e-07],
+        ...,
+        [ 2.6636e-07,  6.7055e-08, -8.5030e-07,  ...,  8.3819e-08,
+          2.7008e-08, -1.5143e-06],
+        [ 1.8626e-09,  4.1723e-07, -1.9185e-07,  ...,  4.9360e-08,
+          4.1462e-06,  6.1933e-07],
+        [ 1.8440e-07,  2.8871e-08,  2.3376e-07,  ...,  3.9116e-08,
+          5.4017e-08,  3.6974e-07]], device='cuda:0')
+Epoch 213, bias, value: tensor([ 0.0033, -0.0171, -0.0265,  0.0356, -0.0300,  0.0320, -0.0245, -0.0090,
+         0.0101, -0.0282], device='cuda:0'), grad: tensor([ 2.8498e-07,  3.8184e-07,  4.1015e-06, -1.2562e-05,  7.1712e-08,
+        -1.4985e-06,  2.6710e-06, -2.5816e-06,  7.8827e-06,  1.2135e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 212, time 214.93, cls_loss 0.0016 cls_loss_mapping 0.0035 cls_loss_causal 0.5342 re_mapping 0.0053 re_causal 0.0152 /// teacc 99.02 lr 0.00010000
+Epoch 214, weight, value: tensor([[-0.1140, -0.1258, -0.0918,  ..., -0.1412, -0.0109,  0.0786],
+        [ 0.0607,  0.0611,  0.0465,  ...,  0.1036, -0.1551, -0.0568],
+        [ 0.0551,  0.0248, -0.1308,  ..., -0.0372, -0.1921, -0.0749],
+        ...,
+        [-0.0494, -0.1177,  0.0878,  ..., -0.1116, -0.0353,  0.0088],
+        [ 0.0219,  0.0922,  0.1372,  ..., -0.1198, -0.1159, -0.1885],
+        [-0.1468,  0.0149, -0.2404,  ..., -0.1167, -0.0969,  0.0943]],
+       device='cuda:0'), grad: tensor([[ 2.0396e-07,  6.9849e-08,  5.4017e-08,  ...,  4.1910e-08,
+          1.5739e-07,  6.6124e-08],
+        [ 1.4799e-06,  3.5483e-07,  9.4995e-07,  ..., -1.6950e-07,
+          2.8871e-08,  3.6415e-07],
+        [-4.9211e-06, -1.3262e-06, -2.7232e-06,  ...,  5.1223e-08,
+          4.0978e-08, -7.4413e-07],
+        ...,
+        [ 1.9763e-06,  5.8673e-07, -2.3749e-07,  ...,  3.8184e-08,
+          2.0489e-08,  1.9465e-07],
+        [ 7.3388e-07,  2.7567e-07,  4.1910e-07,  ...,  7.8231e-08,
+          1.1921e-07,  1.3318e-07],
+        [ 2.8405e-07,  8.1956e-08,  2.4959e-07,  ...,  6.3330e-08,
+          4.7497e-08,  7.3574e-08]], device='cuda:0')
+Epoch 214, bias, value: tensor([ 0.0043, -0.0172, -0.0268,  0.0359, -0.0290,  0.0314, -0.0252, -0.0090,
+         0.0119, -0.0297], device='cuda:0'), grad: tensor([ 7.7486e-07,  5.3979e-06, -1.4707e-05,  3.6135e-07,  1.5616e-05,
+        -2.8871e-07, -6.5099e-07, -1.0356e-05,  2.6170e-06,  1.1986e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 213, time 215.26, cls_loss 0.0018 cls_loss_mapping 0.0041 cls_loss_causal 0.5341 re_mapping 0.0049 re_causal 0.0148 /// teacc 99.04 lr 0.00010000
+Epoch 215, weight, value: tensor([[-0.1152, -0.1265, -0.0934,  ..., -0.1413, -0.0120,  0.0780],
+        [ 0.0612,  0.0613,  0.0466,  ...,  0.1040, -0.1565, -0.0570],
+        [ 0.0547,  0.0239, -0.1318,  ..., -0.0382, -0.1926, -0.0752],
+        ...,
+        [-0.0498, -0.1180,  0.0879,  ..., -0.1118, -0.0359,  0.0088],
+        [ 0.0231,  0.0926,  0.1381,  ..., -0.1204, -0.1175, -0.1897],
+        [-0.1472,  0.0148, -0.2408,  ..., -0.1173, -0.0975,  0.0945]],
+       device='cuda:0'), grad: tensor([[ 7.2643e-08,  2.6077e-08,  1.5832e-08,  ...,  1.4901e-08,
+         -1.0896e-07, -9.6578e-07],
+        [-9.3132e-10, -3.6322e-08, -1.5553e-07,  ..., -1.1642e-07,
+          4.2841e-08,  4.1910e-08],
+        [-9.7789e-08,  4.1910e-08,  3.5390e-08,  ...,  3.7253e-08,
+          2.3283e-08,  2.6077e-08],
+        ...,
+        [ 1.0310e-06,  9.8720e-08,  1.7695e-07,  ...,  9.3132e-08,
+          3.2596e-08,  8.8476e-08],
+        [ 4.6287e-07,  7.9162e-08,  9.8720e-08,  ...,  4.6566e-08,
+          9.4064e-08,  8.4750e-08],
+        [ 2.6077e-07,  3.3915e-05,  8.4750e-08,  ...,  2.5526e-05,
+          2.1711e-05,  7.8380e-06]], device='cuda:0')
+Epoch 215, bias, value: tensor([ 0.0035, -0.0171, -0.0275,  0.0353, -0.0290,  0.0318, -0.0246, -0.0087,
+         0.0127, -0.0299], device='cuda:0'), grad: tensor([-1.0421e-06,  5.5041e-07, -4.3679e-07, -9.9838e-06, -1.2946e-04,
+         3.9302e-06,  1.0086e-06,  3.9376e-06,  1.9372e-06,  1.2946e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 214, time 214.93, cls_loss 0.0012 cls_loss_mapping 0.0019 cls_loss_causal 0.4790 re_mapping 0.0051 re_causal 0.0150 /// teacc 99.03 lr 0.00010000
+Epoch 216, weight, value: tensor([[-0.1155, -0.1267, -0.0933,  ..., -0.1414, -0.0119,  0.0785],
+        [ 0.0601,  0.0608,  0.0456,  ...,  0.1038, -0.1578, -0.0571],
+        [ 0.0550,  0.0235, -0.1323,  ..., -0.0385, -0.1929, -0.0756],
+        ...,
+        [-0.0485, -0.1171,  0.0889,  ..., -0.1118, -0.0369,  0.0088],
+        [ 0.0235,  0.0927,  0.1383,  ..., -0.1211, -0.1181, -0.1907],
+        [-0.1472,  0.0146, -0.2410,  ..., -0.1179, -0.0981,  0.0946]],
+       device='cuda:0'), grad: tensor([[ 2.7008e-08,  9.3132e-09,  1.3970e-08,  ...,  7.4506e-09,
+          7.4506e-09, -9.3132e-10],
+        [-6.1467e-08, -6.0536e-08, -1.0896e-07,  ..., -6.5193e-08,
+          6.5193e-09, -1.3970e-08],
+        [-7.4506e-09,  8.3819e-09,  2.7940e-08,  ...,  2.2352e-08,
+          9.3132e-09, -1.8626e-08],
+        ...,
+        [ 5.3085e-08,  2.8871e-08,  1.8626e-08,  ...,  3.5390e-08,
+          9.3132e-10,  1.7695e-08],
+        [-2.9895e-07, -6.0536e-08, -3.5577e-07,  ...,  1.1176e-08,
+          3.7253e-09,  1.1176e-08],
+        [ 5.4017e-08,  2.9802e-08,  4.0978e-08,  ...,  6.2399e-08,
+          2.1420e-08, -1.4901e-08]], device='cuda:0')
+Epoch 216, bias, value: tensor([ 0.0037, -0.0181, -0.0274,  0.0347, -0.0286,  0.0317, -0.0247, -0.0076,
+         0.0127, -0.0301], device='cuda:0'), grad: tensor([ 6.6124e-08, -1.0617e-07,  4.2841e-08, -9.3132e-10, -3.4831e-07,
+         4.3400e-07,  2.4121e-07,  5.9605e-08, -6.0070e-07,  2.2165e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 215, time 215.17, cls_loss 0.0014 cls_loss_mapping 0.0035 cls_loss_causal 0.5162 re_mapping 0.0055 re_causal 0.0160 /// teacc 98.96 lr 0.00010000
+Epoch 217, weight, value: tensor([[-0.1163, -0.1272, -0.0946,  ..., -0.1420, -0.0120,  0.0786],
+        [ 0.0604,  0.0606,  0.0453,  ...,  0.1028, -0.1595, -0.0572],
+        [ 0.0552,  0.0232, -0.1327,  ..., -0.0398, -0.1940, -0.0759],
+        ...,
+        [-0.0486, -0.1173,  0.0895,  ..., -0.1102, -0.0369,  0.0088],
+        [ 0.0238,  0.0932,  0.1392,  ..., -0.1211, -0.1183, -0.1912],
+        [-0.1476,  0.0154, -0.2420,  ..., -0.1175, -0.0977,  0.0956]],
+       device='cuda:0'), grad: tensor([[ 1.0524e-07,  2.6263e-07,  1.3039e-08,  ...,  7.4506e-09,
+          2.9095e-06, -3.0454e-06],
+        [ 2.1700e-07,  3.3528e-08,  1.2266e-06,  ...,  3.8184e-08,
+          6.6124e-08,  7.3016e-07],
+        [-3.7868e-06, -4.4610e-07,  6.3330e-08,  ...,  2.8871e-08,
+          2.0489e-08,  9.3132e-10],
+        ...,
+        [ 1.0962e-06,  1.0431e-07, -2.2650e-06,  ...,  7.5437e-08,
+          2.0489e-08, -1.0710e-07],
+        [ 1.5600e-06,  2.4587e-07,  9.3132e-09,  ...,  2.7008e-08,
+          2.2445e-07,  4.7591e-07],
+        [ 5.9605e-08,  1.8626e-07,  6.2585e-07,  ...,  6.2678e-07,
+          3.0268e-07,  3.6787e-07]], device='cuda:0')
+Epoch 217, bias, value: tensor([ 0.0036, -0.0185, -0.0275,  0.0352, -0.0294,  0.0308, -0.0242, -0.0071,
+         0.0135, -0.0297], device='cuda:0'), grad: tensor([ 4.9248e-06,  3.5614e-06, -7.4394e-06,  1.5292e-06, -1.6456e-06,
+         3.0696e-06, -1.0401e-05, -1.1791e-06,  4.5635e-06,  3.0287e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 216, time 214.82, cls_loss 0.0012 cls_loss_mapping 0.0023 cls_loss_causal 0.4455 re_mapping 0.0050 re_causal 0.0147 /// teacc 98.97 lr 0.00010000
+Epoch 218, weight, value: tensor([[-0.1169, -0.1286, -0.0951,  ..., -0.1422, -0.0137,  0.0762],
+        [ 0.0600,  0.0609,  0.0457,  ...,  0.1030, -0.1599, -0.0570],
+        [ 0.0564,  0.0232, -0.1327,  ..., -0.0400, -0.1943, -0.0761],
+        ...,
+        [-0.0491, -0.1176,  0.0894,  ..., -0.1105, -0.0371,  0.0088],
+        [ 0.0239,  0.0931,  0.1396,  ..., -0.1213, -0.1188, -0.1921],
+        [-0.1475,  0.0152, -0.2422,  ..., -0.1196, -0.0986,  0.0969]],
+       device='cuda:0'), grad: tensor([[ 1.2107e-08,  3.7160e-07,  1.4901e-08,  ...,  1.5460e-07,
+          2.6543e-07, -3.1292e-07],
+        [-4.4610e-07, -2.8964e-07, -3.4552e-07,  ..., -5.2247e-07,
+          5.0291e-08,  1.8626e-08],
+        [ 2.0117e-07,  4.8988e-07,  2.1514e-07,  ...,  4.0978e-07,
+          2.4214e-07,  5.8673e-08],
+        ...,
+        [ 1.4249e-07,  9.5926e-08,  9.3132e-08,  ...,  1.1083e-07,
+          3.7253e-09,  1.8626e-07],
+        [-2.5053e-07,  7.5903e-07, -4.7870e-07,  ...,  3.6601e-07,
+          6.4820e-07,  4.9360e-08],
+        [ 2.1420e-08,  1.7695e-08,  1.9558e-08,  ...,  5.7742e-08,
+          4.0978e-08, -1.9930e-07]], device='cuda:0')
+Epoch 218, bias, value: tensor([ 0.0016, -0.0185, -0.0267,  0.0354, -0.0289,  0.0304, -0.0230, -0.0074,
+         0.0134, -0.0296], device='cuda:0'), grad: tensor([ 3.4086e-07, -1.0962e-06,  1.3718e-06,  3.1665e-07,  3.7737e-06,
+         1.0654e-06, -7.3984e-06,  6.1281e-07,  1.1222e-06, -1.0710e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 217, time 214.94, cls_loss 0.0013 cls_loss_mapping 0.0024 cls_loss_causal 0.5051 re_mapping 0.0050 re_causal 0.0148 /// teacc 98.95 lr 0.00010000
+Epoch 219, weight, value: tensor([[-0.1171, -0.1288, -0.0951,  ..., -0.1423, -0.0135,  0.0767],
+        [ 0.0587,  0.0595,  0.0458,  ...,  0.1022, -0.1611, -0.0570],
+        [ 0.0578,  0.0235, -0.1337,  ..., -0.0377, -0.1946, -0.0765],
+        ...,
+        [-0.0494, -0.1179,  0.0893,  ..., -0.1109, -0.0376,  0.0084],
+        [ 0.0250,  0.0944,  0.1406,  ..., -0.1215, -0.1196, -0.1928],
+        [-0.1475,  0.0158, -0.2422,  ..., -0.1199, -0.0986,  0.0975]],
+       device='cuda:0'), grad: tensor([[ 1.7695e-08,  5.7742e-08,  1.5832e-08,  ...,  3.6322e-08,
+          6.6124e-08,  3.3528e-08],
+        [ 4.0978e-08,  7.5903e-07,  1.1176e-08,  ...,  5.0385e-07,
+          4.5076e-07,  1.6484e-07],
+        [ 9.8720e-08,  3.1386e-07,  7.8231e-08,  ...,  2.0862e-07,
+          1.8161e-07,  9.3132e-09],
+        ...,
+        [ 4.5635e-08,  1.6671e-07,  2.3283e-08,  ...,  9.3132e-08,
+          1.7975e-07,  2.8033e-07],
+        [-3.2224e-07, -1.3784e-07, -3.3248e-07,  ...,  5.4948e-08,
+          1.3318e-07,  2.8126e-07],
+        [ 1.3225e-07, -2.3656e-07,  9.9652e-08,  ...,  1.8161e-07,
+          2.1048e-07, -7.4971e-07]], device='cuda:0')
+Epoch 219, bias, value: tensor([ 0.0019, -0.0192, -0.0260,  0.0354, -0.0294,  0.0304, -0.0231, -0.0077,
+         0.0142, -0.0292], device='cuda:0'), grad: tensor([ 2.2352e-07,  1.9912e-06,  8.2236e-07, -1.1269e-07,  3.3714e-07,
+        -8.7451e-07, -2.2762e-06,  1.3923e-06,  3.0361e-07, -1.7975e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 218, time 215.15, cls_loss 0.0014 cls_loss_mapping 0.0034 cls_loss_causal 0.4952 re_mapping 0.0051 re_causal 0.0150 /// teacc 99.01 lr 0.00010000
+Epoch 220, weight, value: tensor([[-0.1173, -0.1292, -0.0952,  ..., -0.1426, -0.0137,  0.0768],
+        [ 0.0585,  0.0589,  0.0459,  ...,  0.1019, -0.1628, -0.0574],
+        [ 0.0585,  0.0237, -0.1342,  ..., -0.0371, -0.1951, -0.0770],
+        ...,
+        [-0.0503, -0.1190,  0.0888,  ..., -0.1112, -0.0388,  0.0065],
+        [ 0.0254,  0.0946,  0.1413,  ..., -0.1220, -0.1217, -0.1947],
+        [-0.1473,  0.0159, -0.2418,  ..., -0.1211, -0.0993,  0.0986]],
+       device='cuda:0'), grad: tensor([[ 2.4214e-08,  3.8184e-08,  1.3039e-07,  ...,  6.5193e-09,
+          3.7253e-08,  5.4017e-08],
+        [-4.8801e-07, -2.4773e-07, -2.6822e-07,  ..., -2.1979e-07,
+          2.7008e-08,  6.5193e-08],
+        [ 1.2852e-07,  9.2201e-08,  6.1467e-07,  ...,  5.2154e-08,
+          1.3039e-08,  1.6298e-07],
+        ...,
+        [ 2.7679e-06,  3.6377e-06,  2.9683e-04,  ...,  6.7055e-08,
+          2.9802e-08,  9.7513e-05],
+        [-3.9153e-06, -4.6752e-06, -3.4738e-04,  ...,  2.2352e-08,
+         -8.6613e-08, -1.1349e-04],
+        [ 4.5355e-07,  6.3330e-07,  4.3690e-05,  ...,  1.2573e-07,
+          2.2631e-07,  1.4350e-05]], device='cuda:0')
+Epoch 220, bias, value: tensor([ 0.0019, -0.0196, -0.0254,  0.0361, -0.0291,  0.0305, -0.0231, -0.0090,
+         0.0140, -0.0287], device='cuda:0'), grad: tensor([ 3.1386e-07, -6.6124e-07,  9.9372e-07, -1.2629e-06,  3.6322e-07,
+         5.6028e-06,  2.6673e-06,  3.8075e-04, -4.4584e-04,  5.6624e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 219, time 215.35, cls_loss 0.0012 cls_loss_mapping 0.0023 cls_loss_causal 0.4735 re_mapping 0.0051 re_causal 0.0149 /// teacc 99.07 lr 0.00010000
+Epoch 221, weight, value: tensor([[-0.1176, -0.1295, -0.0953,  ..., -0.1429, -0.0140,  0.0766],
+        [ 0.0597,  0.0590,  0.0468,  ...,  0.1019, -0.1638, -0.0574],
+        [ 0.0580,  0.0235, -0.1361,  ..., -0.0369, -0.1959, -0.0789],
+        ...,
+        [-0.0519, -0.1197,  0.0878,  ..., -0.1115, -0.0393,  0.0055],
+        [ 0.0250,  0.0945,  0.1422,  ..., -0.1226, -0.1224, -0.1946],
+        [-0.1477,  0.0157, -0.2423,  ..., -0.1217, -0.0997,  0.0993]],
+       device='cuda:0'), grad: tensor([[ 4.8243e-07,  2.0489e-08,  4.3772e-08,  ...,  9.3132e-09,
+          1.5367e-06,  1.9064e-06],
+        [-1.2107e-08, -5.8673e-08, -2.3562e-07,  ..., -1.4249e-07,
+          2.3283e-08,  7.2643e-08],
+        [-7.5214e-06,  1.3039e-08,  8.4750e-08,  ...,  9.3132e-09,
+          3.8184e-08,  5.0291e-08],
+        ...,
+        [ 7.0315e-07,  1.2014e-07, -7.2923e-07,  ...,  9.0338e-08,
+          2.9802e-08,  1.0664e-06],
+        [ 1.7798e-06,  4.0419e-07,  5.4296e-07,  ...,  2.3283e-08,
+          6.5193e-08,  1.2144e-06],
+        [ 2.5984e-07, -2.0713e-06, -2.6096e-06,  ...,  3.4459e-08,
+          2.2072e-07, -8.1584e-06]], device='cuda:0')
+Epoch 221, bias, value: tensor([ 0.0016, -0.0189, -0.0264,  0.0361, -0.0289,  0.0315, -0.0230, -0.0102,
+         0.0139, -0.0286], device='cuda:0'), grad: tensor([ 5.2750e-06,  4.7125e-07, -3.1590e-05,  1.6734e-05,  1.3590e-05,
+        -2.8051e-06,  8.5495e-07,  2.6673e-06,  9.7156e-06, -1.4916e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 220, time 214.63, cls_loss 0.0017 cls_loss_mapping 0.0023 cls_loss_causal 0.4931 re_mapping 0.0049 re_causal 0.0145 /// teacc 99.00 lr 0.00010000
+Epoch 222, weight, value: tensor([[-0.1181, -0.1299, -0.0954,  ..., -0.1430, -0.0135,  0.0771],
+        [ 0.0627,  0.0587,  0.0471,  ...,  0.1019, -0.1645, -0.0570],
+        [ 0.0535,  0.0234, -0.1390,  ..., -0.0368, -0.1968, -0.0824],
+        ...,
+        [-0.0497, -0.1199,  0.0885,  ..., -0.1113, -0.0382,  0.0059],
+        [ 0.0246,  0.0934,  0.1420,  ..., -0.1229, -0.1231, -0.1983],
+        [-0.1477,  0.0164, -0.2423,  ..., -0.1222, -0.1004,  0.1004]],
+       device='cuda:0'), grad: tensor([[ 1.3039e-08,  3.2410e-07,  1.8626e-09,  ...,  1.8626e-09,
+          1.0617e-06,  2.8498e-07],
+        [-3.0734e-08, -1.5832e-08, -4.3772e-08,  ..., -2.5146e-08,
+          9.0338e-08,  1.3970e-07],
+        [-1.5832e-08,  6.5193e-09,  9.3132e-09,  ...,  5.5879e-09,
+          1.6764e-08,  1.6764e-08],
+        ...,
+        [ 8.6613e-08,  3.1665e-08, -7.1712e-08,  ...,  3.0734e-08,
+          3.7253e-08, -5.5879e-08],
+        [ 2.8871e-08,  2.7940e-08, -1.8626e-09,  ...,  6.5193e-09,
+          1.6298e-07,  1.1083e-07],
+        [ 6.7055e-08,  2.7288e-07,  8.0094e-08,  ...,  2.2445e-07,
+          2.8219e-07,  1.4715e-07]], device='cuda:0')
+Epoch 222, bias, value: tensor([ 0.0019, -0.0164, -0.0318,  0.0358, -0.0289,  0.0314, -0.0232, -0.0076,
+         0.0125, -0.0281], device='cuda:0'), grad: tensor([ 1.6866e-06,  2.3935e-07,  7.4506e-09,  2.2799e-05, -8.1863e-07,
+        -2.3574e-05, -1.9819e-06, -1.6764e-08,  3.6974e-07,  1.2731e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 221, time 214.82, cls_loss 0.0010 cls_loss_mapping 0.0023 cls_loss_causal 0.4803 re_mapping 0.0049 re_causal 0.0147 /// teacc 99.07 lr 0.00010000
+Epoch 223, weight, value: tensor([[-0.1186, -0.1304, -0.0957,  ..., -0.1432, -0.0136,  0.0772],
+        [ 0.0628,  0.0586,  0.0472,  ...,  0.1018, -0.1659, -0.0573],
+        [ 0.0535,  0.0232, -0.1395,  ..., -0.0371, -0.1977, -0.0826],
+        ...,
+        [-0.0498, -0.1203,  0.0885,  ..., -0.1117, -0.0388,  0.0059],
+        [ 0.0246,  0.0935,  0.1424,  ..., -0.1231, -0.1232, -0.1986],
+        [-0.1478,  0.0168, -0.2423,  ..., -0.1227, -0.1006,  0.1009]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  3.9116e-08,  1.0245e-08,  ...,  8.3819e-09,
+         -2.0582e-07, -7.7859e-07],
+        [ 1.1176e-08,  2.7381e-07,  1.1828e-07,  ...,  9.2201e-08,
+          2.3097e-07,  6.7055e-08],
+        [ 8.3819e-09,  1.7695e-08,  1.0245e-08,  ...,  4.6566e-09,
+          2.0489e-08,  2.1420e-08],
+        ...,
+        [ 8.3819e-09,  1.2107e-08, -1.9558e-08,  ...,  6.5193e-09,
+          2.5146e-08,  3.6322e-08],
+        [-1.8626e-08, -2.1514e-07, -4.2189e-07,  ...,  1.2014e-07,
+          3.6974e-07,  1.4994e-07],
+        [ 1.2107e-08, -2.7940e-09,  4.0978e-08,  ...,  8.8476e-08,
+          7.8045e-07,  1.0766e-06]], device='cuda:0')
+Epoch 223, bias, value: tensor([ 0.0017, -0.0164, -0.0319,  0.0358, -0.0292,  0.0316, -0.0232, -0.0075,
+         0.0126, -0.0277], device='cuda:0'), grad: tensor([-8.9500e-07,  7.8510e-07,  1.0338e-07,  5.1316e-07,  2.9244e-07,
+        -5.2713e-07, -2.0675e-06,  8.0094e-08, -1.8161e-07,  1.8831e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 222, time 215.17, cls_loss 0.0012 cls_loss_mapping 0.0020 cls_loss_causal 0.4843 re_mapping 0.0047 re_causal 0.0138 /// teacc 99.12 lr 0.00010000
+Epoch 224, weight, value: tensor([[-0.1190, -0.1309, -0.0960,  ..., -0.1434, -0.0137,  0.0773],
+        [ 0.0627,  0.0579,  0.0468,  ...,  0.1007, -0.1673, -0.0574],
+        [ 0.0536,  0.0229, -0.1397,  ..., -0.0370, -0.1982, -0.0828],
+        ...,
+        [-0.0497, -0.1205,  0.0890,  ..., -0.1121, -0.0394,  0.0060],
+        [ 0.0246,  0.0935,  0.1425,  ..., -0.1235, -0.1237, -0.1989],
+        [-0.1481,  0.0174, -0.2428,  ..., -0.1233, -0.1009,  0.1015]],
+       device='cuda:0'), grad: tensor([[ 3.1851e-07,  5.4017e-08,  6.0536e-08,  ...,  1.2107e-08,
+         -5.5879e-09, -1.4063e-07],
+        [-5.5768e-06, -1.1995e-06, -9.1568e-06,  ..., -1.1176e-08,
+          4.0885e-07, -2.8275e-06],
+        [-1.2033e-05,  4.1910e-08,  8.4750e-08,  ...,  1.3039e-08,
+          1.5832e-08, -4.8894e-07],
+        ...,
+        [ 2.1644e-06,  6.0257e-07,  3.4068e-06,  ...,  4.0047e-08,
+          8.3819e-09,  1.1157e-06],
+        [ 1.4566e-06,  6.0350e-07,  1.4855e-06,  ...,  6.7055e-08,
+          2.8126e-07,  9.3505e-07],
+        [ 1.9781e-06, -2.0489e-08,  3.0231e-06,  ...,  7.3574e-08,
+          7.0781e-08, -6.5193e-08]], device='cuda:0')
+Epoch 224, bias, value: tensor([ 0.0016, -0.0167, -0.0319,  0.0365, -0.0296,  0.0311, -0.0230, -0.0072,
+         0.0125, -0.0272], device='cuda:0'), grad: tensor([ 5.6531e-07, -1.2614e-05, -2.3335e-05,  2.2247e-05,  1.6056e-06,
+         2.9616e-06, -4.1761e-06,  5.8152e-06,  4.2692e-06,  2.6003e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 223----------------------------------------------------
+epoch 223, time 231.54, cls_loss 0.0014 cls_loss_mapping 0.0029 cls_loss_causal 0.5027 re_mapping 0.0048 re_causal 0.0145 /// teacc 99.13 lr 0.00010000
+Epoch 225, weight, value: tensor([[-0.1195, -0.1311, -0.0963,  ..., -0.1435, -0.0136,  0.0775],
+        [ 0.0627,  0.0569,  0.0469,  ...,  0.1006, -0.1678, -0.0575],
+        [ 0.0536,  0.0240, -0.1401,  ..., -0.0363, -0.1984, -0.0824],
+        ...,
+        [-0.0499, -0.1211,  0.0887,  ..., -0.1124, -0.0395,  0.0055],
+        [ 0.0257,  0.0949,  0.1435,  ..., -0.1238, -0.1239, -0.1988],
+        [-0.1486,  0.0174, -0.2434,  ..., -0.1238, -0.1013,  0.1017]],
+       device='cuda:0'), grad: tensor([[ 1.5832e-08,  6.5193e-09,  3.7253e-09,  ...,  8.3819e-09,
+         -1.0906e-06, -3.5185e-06],
+        [ 1.8626e-08,  2.3842e-07,  2.2165e-07,  ...,  4.3027e-07,
+          1.0990e-07,  7.9162e-08],
+        [-1.6857e-07,  5.6811e-07,  3.7253e-08,  ...,  1.2433e-06,
+          2.9597e-06,  9.2201e-08],
+        ...,
+        [ 6.6124e-08,  1.8068e-07,  9.8720e-08,  ...,  3.2596e-07,
+          7.0781e-08,  7.9162e-08],
+        [ 1.3132e-07,  2.2352e-08,  1.3970e-08,  ...,  7.2643e-08,
+          3.0734e-08,  6.9849e-08],
+        [ 4.1910e-08,  1.2945e-07,  1.4063e-07,  ...,  2.3562e-07,
+          1.2852e-07, -8.0187e-07]], device='cuda:0')
+Epoch 225, bias, value: tensor([ 0.0017, -0.0168, -0.0318,  0.0371, -0.0295,  0.0305, -0.0236, -0.0076,
+         0.0136, -0.0272], device='cuda:0'), grad: tensor([-5.5656e-06,  1.1986e-06,  4.7237e-06, -5.8860e-07, -6.7130e-06,
+        -8.6240e-07,  6.6720e-06,  8.9128e-07,  5.8673e-07, -3.4738e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 224, time 214.87, cls_loss 0.0014 cls_loss_mapping 0.0022 cls_loss_causal 0.4935 re_mapping 0.0048 re_causal 0.0144 /// teacc 99.11 lr 0.00010000
+Epoch 226, weight, value: tensor([[-0.1201, -0.1316, -0.0967,  ..., -0.1436, -0.0126,  0.0798],
+        [ 0.0627,  0.0566,  0.0472,  ...,  0.1011, -0.1683, -0.0576],
+        [ 0.0536,  0.0244, -0.1405,  ..., -0.0362, -0.1990, -0.0822],
+        ...,
+        [-0.0502, -0.1216,  0.0886,  ..., -0.1127, -0.0392,  0.0054],
+        [ 0.0252,  0.0955,  0.1441,  ..., -0.1240, -0.1243, -0.1991],
+        [-0.1489,  0.0175, -0.2440,  ..., -0.1240, -0.1032,  0.1000]],
+       device='cuda:0'), grad: tensor([[ 5.2154e-08,  9.1270e-08,  1.0524e-07,  ...,  4.7497e-08,
+          8.3819e-09,  7.4506e-08],
+        [-1.5780e-05, -2.6554e-05, -3.2067e-05,  ..., -1.3962e-05,
+          4.6566e-09, -2.2694e-05],
+        [ 5.8673e-08,  9.8720e-08,  1.2014e-07,  ...,  5.3085e-08,
+          9.3132e-10,  8.4750e-08],
+        ...,
+        [ 3.1833e-06,  5.3570e-06,  6.3889e-06,  ...,  2.8182e-06,
+          6.5193e-09,  4.5411e-06],
+        [ 7.0594e-07,  1.2526e-06,  1.4463e-06,  ...,  6.5658e-07,
+          1.7602e-07,  1.1120e-06],
+        [ 1.0952e-05,  1.8448e-05,  2.2322e-05,  ...,  9.7081e-06,
+          1.1176e-08,  1.5795e-05]], device='cuda:0')
+Epoch 226, bias, value: tensor([ 0.0032, -0.0168, -0.0318,  0.0376, -0.0295,  0.0305, -0.0239, -0.0077,
+         0.0136, -0.0283], device='cuda:0'), grad: tensor([ 2.6543e-07, -7.6532e-05,  2.8964e-07,  3.1106e-07,  3.3639e-06,
+        -3.5651e-06,  3.4906e-06,  1.5289e-05,  3.8091e-06,  5.3287e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 225, time 215.06, cls_loss 0.0015 cls_loss_mapping 0.0032 cls_loss_causal 0.5292 re_mapping 0.0045 re_causal 0.0146 /// teacc 98.97 lr 0.00010000
+Epoch 227, weight, value: tensor([[-0.1203, -0.1320, -0.0969,  ..., -0.1437, -0.0131,  0.0794],
+        [ 0.0631,  0.0585,  0.0477,  ...,  0.1026, -0.1664, -0.0566],
+        [ 0.0535,  0.0220, -0.1417,  ..., -0.0383, -0.2020, -0.0837],
+        ...,
+        [-0.0505, -0.1224,  0.0885,  ..., -0.1130, -0.0396,  0.0042],
+        [ 0.0250,  0.0957,  0.1445,  ..., -0.1247, -0.1248, -0.1999],
+        [-0.1493,  0.0180, -0.2445,  ..., -0.1244, -0.1028,  0.1013]],
+       device='cuda:0'), grad: tensor([[ 2.4214e-08,  1.2293e-07,  5.3085e-08,  ...,  7.4506e-09,
+         -2.3358e-06, -3.9712e-06],
+        [-2.4494e-07, -5.5879e-09, -2.6543e-07,  ..., -2.1793e-07,
+          1.2573e-07,  2.6263e-07],
+        [ 6.7987e-08,  4.0978e-08,  4.9360e-08,  ...,  1.4901e-08,
+          4.4703e-08,  7.6368e-08],
+        ...,
+        [ 1.0431e-07,  3.8184e-08, -3.5670e-07,  ...,  4.9360e-08,
+          1.2480e-07, -1.7602e-07],
+        [-6.1560e-07, -2.2743e-06, -1.7025e-06,  ...,  5.6811e-08,
+          5.1316e-07,  2.8219e-07],
+        [ 8.1677e-07,  2.1346e-06,  1.8496e-06,  ...,  1.5832e-08,
+          1.2107e-07,  8.5495e-07]], device='cuda:0')
+Epoch 227, bias, value: tensor([ 0.0029, -0.0162, -0.0321,  0.0376, -0.0301,  0.0298, -0.0227, -0.0083,
+         0.0133, -0.0277], device='cuda:0'), grad: tensor([-8.2329e-06, -1.5832e-07,  5.3644e-07, -1.6168e-05,  3.9302e-07,
+         1.9833e-05, -6.5193e-08, -5.4017e-08, -2.8200e-06,  6.7651e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 226, time 215.12, cls_loss 0.0019 cls_loss_mapping 0.0041 cls_loss_causal 0.5330 re_mapping 0.0050 re_causal 0.0148 /// teacc 99.04 lr 0.00010000
+Epoch 228, weight, value: tensor([[-0.1205, -0.1323, -0.0970,  ..., -0.1439, -0.0130,  0.0797],
+        [ 0.0628,  0.0575,  0.0474,  ...,  0.1007, -0.1696, -0.0556],
+        [ 0.0537,  0.0220, -0.1413,  ..., -0.0386, -0.2023, -0.0834],
+        ...,
+        [-0.0503, -0.1231,  0.0890,  ..., -0.1134, -0.0401,  0.0023],
+        [ 0.0251,  0.0960,  0.1451,  ..., -0.1254, -0.1275, -0.2012],
+        [-0.1497,  0.0172, -0.2451,  ..., -0.1257, -0.1040,  0.1011]],
+       device='cuda:0'), grad: tensor([[ 4.9267e-07,  6.8918e-08,  5.7742e-08,  ...,  6.6124e-08,
+          3.4459e-08,  1.7509e-07],
+        [ 2.7940e-08,  1.8030e-06,  1.7341e-06,  ...,  2.2370e-06,
+          7.0967e-07,  1.2899e-06],
+        [-1.6009e-06,  1.2945e-07,  4.3679e-07,  ...,  1.4901e-07,
+          5.0291e-08,  6.6683e-07],
+        ...,
+        [ 2.8685e-07,  1.6950e-07, -4.1239e-06,  ...,  2.0210e-07,
+         -3.1665e-08, -8.4192e-06],
+        [ 3.2410e-07,  4.9639e-07,  2.1048e-07,  ...,  7.3481e-07,
+          2.6822e-07,  2.1420e-07],
+        [ 5.6811e-08,  8.3540e-07,  2.8666e-06,  ...,  1.2880e-06,
+          4.5728e-07,  4.8168e-06]], device='cuda:0')
+Epoch 228, bias, value: tensor([ 0.0031, -0.0174, -0.0310,  0.0362, -0.0289,  0.0262, -0.0182, -0.0095,
+         0.0127, -0.0288], device='cuda:0'), grad: tensor([ 2.6915e-06,  9.3356e-06, -4.5374e-06,  1.0747e-06, -1.3441e-05,
+         2.0042e-06,  3.6750e-06, -1.9357e-05,  3.6564e-06,  1.4856e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 227, time 215.08, cls_loss 0.0016 cls_loss_mapping 0.0025 cls_loss_causal 0.4976 re_mapping 0.0050 re_causal 0.0140 /// teacc 99.02 lr 0.00010000
+Epoch 229, weight, value: tensor([[-0.1211, -0.1326, -0.0972,  ..., -0.1439, -0.0124,  0.0796],
+        [ 0.0628,  0.0577,  0.0476,  ...,  0.1011, -0.1699, -0.0558],
+        [ 0.0541,  0.0220, -0.1408,  ..., -0.0387, -0.2027, -0.0830],
+        ...,
+        [-0.0507, -0.1248,  0.0887,  ..., -0.1147, -0.0411,  0.0018],
+        [ 0.0253,  0.0967,  0.1457,  ..., -0.1257, -0.1278, -0.2021],
+        [-0.1504,  0.0172, -0.2453,  ..., -0.1267, -0.1045,  0.1025]],
+       device='cuda:0'), grad: tensor([[ 4.4703e-08,  9.0245e-07,  8.6613e-08,  ...,  1.8440e-07,
+          7.3649e-06,  4.4927e-06],
+        [-7.1712e-08,  3.5856e-07, -1.3784e-07,  ...,  2.5798e-07,
+          6.9756e-07,  2.6170e-07],
+        [-1.2312e-06,  1.1865e-06,  1.2480e-07,  ...,  3.7253e-07,
+          1.0198e-06,  4.3772e-08],
+        ...,
+        [ 1.0803e-07,  8.2701e-07,  4.0978e-08,  ...,  4.5914e-07,
+          1.3532e-06,  5.8021e-07],
+        [ 8.6613e-08, -7.4029e-05, -6.6496e-06,  ...,  3.1944e-07,
+         -4.3541e-05,  6.0126e-06],
+        [ 5.9605e-08,  8.5980e-06,  1.7975e-07,  ...,  1.0863e-05,
+          1.0170e-05, -2.8685e-07]], device='cuda:0')
+Epoch 229, bias, value: tensor([ 0.0030, -0.0174, -0.0301,  0.0358, -0.0289,  0.0265, -0.0186, -0.0105,
+         0.0128, -0.0284], device='cuda:0'), grad: tensor([ 1.8701e-05,  3.0976e-06,  2.3767e-06,  2.7224e-05, -7.2539e-05,
+         9.9540e-06,  1.5903e-04,  6.1281e-06, -2.2149e-04,  6.7651e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 228, time 214.88, cls_loss 0.0015 cls_loss_mapping 0.0034 cls_loss_causal 0.5013 re_mapping 0.0051 re_causal 0.0142 /// teacc 99.07 lr 0.00010000
+Epoch 230, weight, value: tensor([[-0.1218, -0.1331, -0.0978,  ..., -0.1442, -0.0124,  0.0797],
+        [ 0.0627,  0.0577,  0.0476,  ...,  0.1015, -0.1700, -0.0564],
+        [ 0.0539,  0.0219, -0.1419,  ..., -0.0392, -0.2031, -0.0835],
+        ...,
+        [-0.0497, -0.1253,  0.0895,  ..., -0.1151, -0.0417,  0.0029],
+        [ 0.0254,  0.0974,  0.1464,  ..., -0.1262, -0.1276, -0.2034],
+        [-0.1506,  0.0173, -0.2477,  ..., -0.1272, -0.1047,  0.1026]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09,  2.4214e-08,  3.7253e-09,  ...,  4.6566e-09,
+         -1.2107e-08, -1.4529e-07],
+        [-7.7300e-08, -3.3528e-08, -9.8720e-08,  ..., -3.6322e-08,
+          1.7695e-08,  5.6811e-08],
+        [-2.3581e-06,  1.7695e-08, -8.7637e-07,  ...,  6.5193e-09,
+          1.3039e-08,  4.1910e-08],
+        ...,
+        [ 9.7789e-08,  4.8429e-08, -2.6077e-08,  ...,  1.6764e-08,
+          1.5832e-08,  1.8226e-06],
+        [ 2.2575e-06,  1.5274e-07,  8.7358e-07,  ...,  2.9802e-08,
+          1.4808e-07,  2.5705e-07],
+        [ 1.3970e-08, -3.5670e-07,  4.2841e-08,  ...,  4.6566e-09,
+          8.0094e-08, -2.4810e-06]], device='cuda:0')
+Epoch 230, bias, value: tensor([ 0.0029, -0.0177, -0.0306,  0.0352, -0.0290,  0.0268, -0.0188, -0.0091,
+         0.0135, -0.0285], device='cuda:0'), grad: tensor([-2.1327e-07, -7.4506e-09, -3.8035e-06,  3.9861e-07,  6.7893e-07,
+        -4.3120e-07, -6.6124e-08,  3.2037e-06,  4.4294e-06, -4.1723e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 229, time 215.06, cls_loss 0.0014 cls_loss_mapping 0.0025 cls_loss_causal 0.4926 re_mapping 0.0048 re_causal 0.0144 /// teacc 99.02 lr 0.00010000
+Epoch 231, weight, value: tensor([[-0.1219, -0.1340, -0.0979,  ..., -0.1445, -0.0126,  0.0798],
+        [ 0.0623,  0.0571,  0.0471,  ...,  0.1015, -0.1702, -0.0568],
+        [ 0.0545,  0.0228, -0.1421,  ..., -0.0392, -0.2034, -0.0830],
+        ...,
+        [-0.0497, -0.1260,  0.0904,  ..., -0.1154, -0.0419,  0.0034],
+        [ 0.0256,  0.0973,  0.1469,  ..., -0.1269, -0.1284, -0.2040],
+        [-0.1508,  0.0175, -0.2498,  ..., -0.1274, -0.1047,  0.1028]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-09,  3.2596e-08,  1.8626e-09,  ...,  1.3970e-08,
+          2.8405e-08, -2.5006e-07],
+        [-3.2596e-08,  1.2061e-07, -7.1246e-08,  ..., -2.4214e-08,
+          2.0862e-07,  2.7008e-08],
+        [ 9.3132e-10,  6.5193e-09,  9.7789e-09,  ...,  3.3993e-08,
+          9.0804e-08,  3.5390e-08],
+        ...,
+        [ 8.1956e-08,  2.7474e-08,  5.7742e-08,  ...,  4.8894e-08,
+          2.2259e-07,  2.4214e-08],
+        [-1.9092e-08,  1.7043e-07, -1.4435e-07,  ...,  1.7695e-08,
+          5.9465e-07,  4.3027e-07],
+        [ 3.7253e-08,  2.7474e-08,  6.8452e-08,  ...,  3.5390e-08,
+          1.0496e-06,  6.2678e-07]], device='cuda:0')
+Epoch 231, bias, value: tensor([ 0.0028, -0.0184, -0.0301,  0.0359, -0.0291,  0.0266, -0.0188, -0.0088,
+         0.0135, -0.0287], device='cuda:0'), grad: tensor([-3.6834e-07,  5.3644e-07,  4.0093e-07,  7.5903e-08, -3.6806e-06,
+        -1.2880e-06, -2.2762e-06,  1.0189e-06,  1.6689e-06,  3.9153e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 230, time 215.08, cls_loss 0.0018 cls_loss_mapping 0.0023 cls_loss_causal 0.4869 re_mapping 0.0045 re_causal 0.0133 /// teacc 99.11 lr 0.00010000
+Epoch 232, weight, value: tensor([[-0.1224, -0.1344, -0.0982,  ..., -0.1447, -0.0138,  0.0777],
+        [ 0.0627,  0.0576,  0.0498,  ...,  0.1016, -0.1704, -0.0546],
+        [ 0.0552,  0.0236, -0.1424,  ..., -0.0394, -0.2036, -0.0825],
+        ...,
+        [-0.0518, -0.1290,  0.0877,  ..., -0.1168, -0.0447,  0.0009],
+        [ 0.0252,  0.0967,  0.1470,  ..., -0.1271, -0.1321, -0.2058],
+        [-0.1532,  0.0178, -0.2504,  ..., -0.1272, -0.1035,  0.1050]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-08,  1.8626e-09,  1.8626e-09,  ...,  1.3970e-09,
+         -1.2945e-06, -4.6268e-06],
+        [-6.6124e-08, -4.2841e-08, -8.5216e-08,  ..., -5.2154e-08,
+          4.2375e-08,  1.4482e-07],
+        [-9.3132e-10,  2.0489e-08,  5.2620e-08,  ...,  2.4214e-08,
+          1.4808e-07,  5.1595e-07],
+        ...,
+        [ 6.7987e-08,  2.2817e-08, -1.8626e-09,  ...,  3.9581e-08,
+          1.8999e-07,  6.2818e-07],
+        [ 1.4529e-07,  3.5856e-08,  4.1910e-08,  ...,  6.2399e-08,
+          1.2666e-07,  3.7951e-07],
+        [ 5.6345e-08,  2.4680e-08,  2.0023e-08,  ...,  9.0338e-08,
+          1.1455e-07,  3.1013e-07]], device='cuda:0')
+Epoch 232, bias, value: tensor([ 0.0005, -0.0170, -0.0296,  0.0368, -0.0297,  0.0273, -0.0191, -0.0113,
+         0.0112, -0.0269], device='cuda:0'), grad: tensor([-9.6336e-06,  2.0675e-07,  1.1213e-06, -9.7323e-08, -4.0652e-07,
+         1.6103e-06,  3.4980e-06,  1.4864e-06,  1.2470e-06,  9.6858e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 231, time 214.55, cls_loss 0.0014 cls_loss_mapping 0.0021 cls_loss_causal 0.5008 re_mapping 0.0048 re_causal 0.0142 /// teacc 99.12 lr 0.00010000
+Epoch 233, weight, value: tensor([[-0.1231, -0.1349, -0.0984,  ..., -0.1450, -0.0138,  0.0778],
+        [ 0.0627,  0.0563,  0.0497,  ...,  0.1007, -0.1712, -0.0548],
+        [ 0.0551,  0.0234, -0.1429,  ..., -0.0397, -0.2043, -0.0825],
+        ...,
+        [-0.0518, -0.1291,  0.0879,  ..., -0.1169, -0.0451,  0.0011],
+        [ 0.0253,  0.0963,  0.1476,  ..., -0.1276, -0.1345, -0.2068],
+        [-0.1537,  0.0179, -0.2510,  ..., -0.1273, -0.1036,  0.1052]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-09,  9.1735e-08,  7.9162e-09,  ...,  9.3132e-09,
+          3.2131e-08,  4.4052e-07],
+        [-9.2201e-08,  7.8697e-08, -1.2480e-07,  ..., -1.8161e-08,
+          1.0384e-07,  3.7253e-09],
+        [ 1.6764e-08,  6.1002e-08,  6.0536e-08,  ...,  1.3504e-08,
+          2.0023e-08,  8.4285e-08],
+        ...,
+        [ 5.7742e-08,  3.3062e-08, -2.9663e-07,  ...,  1.7229e-08,
+          2.3283e-09,  2.2817e-08],
+        [-3.4552e-06, -2.8461e-06, -4.7199e-06,  ...,  6.9849e-08,
+          2.2957e-07, -2.9709e-07],
+        [ 3.3546e-06,  2.9858e-06,  4.6864e-06,  ...,  2.2817e-08,
+          4.0978e-08, -2.5192e-07]], device='cuda:0')
+Epoch 233, bias, value: tensor([ 0.0005, -0.0175, -0.0298,  0.0369, -0.0301,  0.0272, -0.0186, -0.0111,
+         0.0106, -0.0268], device='cuda:0'), grad: tensor([ 6.3190e-07,  2.3330e-07,  2.4727e-07,  1.0245e-06,  5.8720e-07,
+        -9.2061e-07, -1.4314e-06, -6.1234e-07, -9.4920e-06,  9.7305e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 232, time 214.60, cls_loss 0.0010 cls_loss_mapping 0.0029 cls_loss_causal 0.4767 re_mapping 0.0048 re_causal 0.0144 /// teacc 99.07 lr 0.00010000
+Epoch 234, weight, value: tensor([[-0.1233, -0.1367, -0.0985,  ..., -0.1451, -0.0147,  0.0773],
+        [ 0.0629,  0.0566,  0.0499,  ...,  0.1008, -0.1713, -0.0547],
+        [ 0.0549,  0.0228, -0.1440,  ..., -0.0400, -0.2044, -0.0826],
+        ...,
+        [-0.0521, -0.1294,  0.0875,  ..., -0.1171, -0.0454,  0.0009],
+        [ 0.0253,  0.0962,  0.1493,  ..., -0.1277, -0.1353, -0.2073],
+        [-0.1541,  0.0177, -0.2513,  ..., -0.1279, -0.1039,  0.1055]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-09, -3.0361e-07,  2.0489e-08,  ...,  1.8626e-09,
+         -2.5257e-06, -5.1931e-06],
+        [ 2.1886e-07,  1.1735e-07,  2.1402e-06,  ..., -1.9558e-08,
+          1.6764e-08,  6.7148e-07],
+        [ 2.9150e-07,  2.1979e-07,  2.8852e-06,  ...,  7.4506e-09,
+          1.2107e-08,  8.5123e-07],
+        ...,
+        [-6.9812e-06, -3.9116e-06, -6.1154e-05,  ...,  7.4506e-09,
+          4.0978e-08, -1.8045e-05],
+        [ 3.3583e-06,  1.7118e-06,  3.0696e-05,  ..., -3.9116e-08,
+          1.2014e-07,  9.4324e-06],
+        [ 2.7698e-06,  1.5432e-06,  2.3887e-05,  ...,  6.5193e-09,
+          2.9895e-07,  7.4208e-06]], device='cuda:0')
+Epoch 234, bias, value: tensor([-0.0002, -0.0173, -0.0299,  0.0370, -0.0299,  0.0274, -0.0186, -0.0116,
+         0.0110, -0.0268], device='cuda:0'), grad: tensor([-8.4117e-06,  2.9374e-06,  3.8557e-06,  9.1083e-07,  1.8766e-06,
+        -1.6661e-06,  8.6054e-06, -8.2493e-05,  4.1425e-05,  3.3021e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 233, time 214.95, cls_loss 0.0013 cls_loss_mapping 0.0023 cls_loss_causal 0.4994 re_mapping 0.0050 re_causal 0.0145 /// teacc 99.05 lr 0.00010000
+Epoch 235, weight, value: tensor([[-0.1237, -0.1371, -0.0989,  ..., -0.1455, -0.0148,  0.0772],
+        [ 0.0637,  0.0565,  0.0498,  ...,  0.1009, -0.1714, -0.0550],
+        [ 0.0543,  0.0229, -0.1457,  ..., -0.0403, -0.2047, -0.0833],
+        ...,
+        [-0.0522, -0.1296,  0.0877,  ..., -0.1174, -0.0457,  0.0012],
+        [ 0.0247,  0.0952,  0.1491,  ..., -0.1284, -0.1365, -0.2083],
+        [-0.1542,  0.0178, -0.2513,  ..., -0.1285, -0.1040,  0.1058]],
+       device='cuda:0'), grad: tensor([[-4.5635e-08,  3.3528e-08,  1.4901e-08,  ...,  2.6077e-08,
+         -3.5949e-07, -1.5208e-06],
+        [-4.6566e-08,  1.7695e-08,  1.7509e-06,  ..., -7.4506e-09,
+          1.8254e-07,  1.0338e-06],
+        [ 2.2352e-08,  8.6613e-08,  1.6484e-07,  ...,  6.7987e-08,
+          8.2888e-08,  1.6391e-07],
+        ...,
+        [ 1.4156e-07,  1.5832e-08, -9.7379e-06,  ...,  1.8626e-08,
+          9.3132e-09, -4.8913e-06],
+        [ 6.4820e-07,  4.1910e-08,  1.2442e-06,  ...,  4.8429e-08,
+          9.4343e-07,  1.5786e-06],
+        [ 3.2596e-08,  2.2259e-07,  7.0967e-06,  ...,  2.3097e-07,
+          9.2201e-08,  3.6061e-06]], device='cuda:0')
+Epoch 235, bias, value: tensor([-0.0004, -0.0168, -0.0306,  0.0372, -0.0295,  0.0275, -0.0186, -0.0115,
+         0.0099, -0.0267], device='cuda:0'), grad: tensor([-2.7716e-06,  3.7923e-06,  7.4226e-07, -4.1053e-06, -3.5577e-07,
+        -5.1968e-06,  3.7141e-06, -1.6481e-05,  7.5176e-06,  1.3165e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 234, time 214.95, cls_loss 0.0012 cls_loss_mapping 0.0021 cls_loss_causal 0.4940 re_mapping 0.0045 re_causal 0.0141 /// teacc 99.04 lr 0.00010000
+Epoch 236, weight, value: tensor([[-0.1229, -0.1394, -0.0983,  ..., -0.1480, -0.0160,  0.0773],
+        [ 0.0639,  0.0565,  0.0499,  ...,  0.1008, -0.1715, -0.0551],
+        [ 0.0543,  0.0227, -0.1471,  ..., -0.0409, -0.2053, -0.0835],
+        ...,
+        [-0.0527, -0.1299,  0.0878,  ..., -0.1177, -0.0461,  0.0012],
+        [ 0.0251,  0.0954,  0.1497,  ..., -0.1277, -0.1368, -0.2089],
+        [-0.1543,  0.0177, -0.2520,  ..., -0.1292, -0.1045,  0.1060]],
+       device='cuda:0'), grad: tensor([[ 6.7055e-08,  1.1176e-08,  1.3039e-08,  ...,  2.7940e-09,
+         -9.3132e-10,  1.2107e-08],
+        [-2.7008e-08, -9.9652e-08, -2.2631e-07,  ..., -9.9652e-08,
+          2.7940e-09,  1.0245e-08],
+        [-9.7509e-07, -9.3132e-09,  9.4064e-08,  ...,  2.4214e-08,
+          4.6566e-09,  1.6764e-08],
+        ...,
+        [ 2.8498e-07,  3.2596e-08, -1.2107e-08,  ...,  2.3283e-08,
+          9.3132e-10,  1.8626e-09],
+        [ 9.6858e-08, -2.8871e-08, -8.4750e-08,  ...,  3.2596e-08,
+          5.5879e-09,  2.2352e-08],
+        [ 3.9116e-08,  4.6566e-09,  4.6566e-08,  ...,  1.6764e-08,
+          7.4506e-09, -1.9930e-07]], device='cuda:0')
+Epoch 236, bias, value: tensor([-0.0009, -0.0168, -0.0305,  0.0374, -0.0293,  0.0274, -0.0185, -0.0118,
+         0.0101, -0.0269], device='cuda:0'), grad: tensor([ 2.0768e-07,  1.5646e-07, -2.8722e-06,  9.5367e-07,  1.9651e-07,
+         2.1234e-07,  2.1141e-07,  7.0315e-07,  3.9954e-07, -1.5367e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 235, time 214.91, cls_loss 0.0013 cls_loss_mapping 0.0021 cls_loss_causal 0.4842 re_mapping 0.0046 re_causal 0.0139 /// teacc 98.99 lr 0.00010000
+Epoch 237, weight, value: tensor([[-0.1234, -0.1397, -0.0985,  ..., -0.1481, -0.0160,  0.0775],
+        [ 0.0614,  0.0568,  0.0472,  ...,  0.1009, -0.1717, -0.0552],
+        [ 0.0542,  0.0224, -0.1482,  ..., -0.0411, -0.2058, -0.0838],
+        ...,
+        [-0.0496, -0.1301,  0.0907,  ..., -0.1178, -0.0463,  0.0013],
+        [ 0.0241,  0.0952,  0.1496,  ..., -0.1284, -0.1375, -0.2092],
+        [-0.1546,  0.0176, -0.2527,  ..., -0.1293, -0.1047,  0.1062]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09,  5.5879e-09,  5.5879e-09,  ...,  5.5879e-09,
+          3.4366e-07,  4.4890e-07],
+        [-5.1409e-07, -2.5611e-07, -7.2829e-07,  ..., -4.7777e-07,
+          9.3132e-09,  1.1176e-08],
+        [ 5.8673e-08,  4.0978e-08,  8.1956e-08,  ...,  5.5879e-08,
+          2.7940e-08,  2.6077e-08],
+        ...,
+        [ 3.0920e-07,  1.4342e-07,  3.7905e-07,  ...,  2.6729e-07,
+          5.5879e-09,  2.3283e-08],
+        [ 8.5682e-08,  5.2154e-08,  7.1712e-08,  ...,  6.1467e-08,
+          2.9802e-08,  2.8871e-08],
+        [ 2.7940e-08,  5.6811e-08,  3.5390e-08,  ...,  1.4715e-07,
+          2.1327e-07,  1.4622e-07]], device='cuda:0')
+Epoch 237, bias, value: tensor([-0.0008, -0.0194, -0.0307,  0.0377, -0.0295,  0.0274, -0.0184, -0.0087,
+         0.0094, -0.0269], device='cuda:0'), grad: tensor([ 7.8604e-07, -1.1623e-06,  2.1048e-07, -1.4715e-07, -1.9092e-07,
+        -1.4063e-06,  1.5832e-07,  7.8510e-07,  3.2503e-07,  6.4354e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 236, time 214.94, cls_loss 0.0012 cls_loss_mapping 0.0031 cls_loss_causal 0.4981 re_mapping 0.0048 re_causal 0.0147 /// teacc 98.96 lr 0.00010000
+Epoch 238, weight, value: tensor([[-0.1237, -0.1398, -0.0987,  ..., -0.1481, -0.0158,  0.0779],
+        [ 0.0614,  0.0568,  0.0472,  ...,  0.1009, -0.1721, -0.0552],
+        [ 0.0557,  0.0225, -0.1444,  ..., -0.0414, -0.2061, -0.0835],
+        ...,
+        [-0.0504, -0.1310,  0.0905,  ..., -0.1183, -0.0467,  0.0008],
+        [ 0.0245,  0.0953,  0.1503,  ..., -0.1291, -0.1376, -0.2099],
+        [-0.1549,  0.0173, -0.2531,  ..., -0.1301, -0.1053,  0.1063]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09,  3.7253e-09,  2.7940e-09,  ...,  1.8626e-09,
+         -9.3132e-10, -3.7253e-08],
+        [-1.0710e-07, -1.1642e-07, -1.6205e-07,  ..., -9.6858e-08,
+          3.7253e-09,  2.7940e-09],
+        [ 1.8626e-09,  2.7008e-08,  2.8871e-08,  ...,  1.4901e-08,
+          6.5193e-09, -0.0000e+00],
+        ...,
+        [ 3.9116e-08,  2.7940e-08,  4.0978e-08,  ...,  2.6077e-08,
+          1.8626e-09, -9.3132e-10],
+        [-2.0489e-08,  6.1467e-08, -3.1665e-08,  ...,  2.8871e-08,
+          5.0291e-08,  3.6322e-08],
+        [ 1.1176e-08,  1.0245e-08,  1.5832e-08,  ...,  3.0734e-08,
+          2.1420e-08,  5.5879e-09]], device='cuda:0')
+Epoch 238, bias, value: tensor([-0.0005, -0.0194, -0.0276,  0.0376, -0.0288,  0.0274, -0.0184, -0.0103,
+         0.0094, -0.0272], device='cuda:0'), grad: tensor([-3.1665e-08, -2.5611e-07,  2.6077e-08,  2.3190e-07, -3.1665e-08,
+        -5.3737e-07,  2.8871e-07,  9.0338e-08,  1.3318e-07,  7.9162e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 237, time 215.00, cls_loss 0.0013 cls_loss_mapping 0.0025 cls_loss_causal 0.4743 re_mapping 0.0047 re_causal 0.0141 /// teacc 99.04 lr 0.00010000
+Epoch 239, weight, value: tensor([[-0.1219, -0.1394, -0.0989,  ..., -0.1482, -0.0158,  0.0779],
+        [ 0.0614,  0.0566,  0.0472,  ...,  0.1013, -0.1721, -0.0550],
+        [ 0.0554,  0.0227, -0.1452,  ..., -0.0423, -0.2071, -0.0847],
+        ...,
+        [-0.0504, -0.1313,  0.0905,  ..., -0.1194, -0.0485,  0.0008],
+        [ 0.0242,  0.0953,  0.1505,  ..., -0.1292, -0.1379, -0.2103],
+        [-0.1554,  0.0174, -0.2534,  ..., -0.1306, -0.1055,  0.1066]],
+       device='cuda:0'), grad: tensor([[ 2.6077e-08,  1.5832e-08,  1.2107e-08,  ...,  2.1420e-08,
+          2.7008e-08,  1.9558e-08],
+        [ 2.2352e-08,  5.4017e-08,  9.1176e-07,  ...,  9.4995e-08,
+          1.3597e-07,  3.5670e-07],
+        [ 1.6671e-07,  4.8429e-08,  1.7788e-07,  ...,  2.9802e-08,
+          3.9116e-08,  4.3772e-08],
+        ...,
+        [ 1.7136e-07,  8.5682e-08, -1.9670e-06,  ...,  8.6613e-08,
+          8.7544e-08, -4.1816e-07],
+        [-1.1083e-07, -8.3819e-09,  5.6811e-08,  ...,  2.4773e-07,
+          3.5577e-07,  4.4145e-07],
+        [ 5.8673e-08, -2.6298e-04,  2.8033e-07,  ..., -3.0899e-04,
+         -4.9782e-04, -4.8637e-04]], device='cuda:0')
+Epoch 239, bias, value: tensor([-0.0001, -0.0195, -0.0279,  0.0377, -0.0289,  0.0273, -0.0183, -0.0103,
+         0.0092, -0.0270], device='cuda:0'), grad: tensor([ 1.7602e-07,  2.3246e-06,  7.0408e-07, -7.2271e-07,  1.9970e-03,
+         1.3523e-06,  1.0338e-06, -2.7716e-06,  1.8934e-06, -2.0027e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 238, time 214.53, cls_loss 0.0015 cls_loss_mapping 0.0036 cls_loss_causal 0.4815 re_mapping 0.0044 re_causal 0.0130 /// teacc 99.03 lr 0.00010000
+Epoch 240, weight, value: tensor([[-0.1224, -0.1397, -0.0995,  ..., -0.1484, -0.0139,  0.0796],
+        [ 0.0615,  0.0566,  0.0473,  ...,  0.1020, -0.1723, -0.0562],
+        [ 0.0557,  0.0226, -0.1455,  ..., -0.0427, -0.2081, -0.0853],
+        ...,
+        [-0.0505, -0.1320,  0.0905,  ..., -0.1201, -0.0489,  0.0011],
+        [ 0.0240,  0.0957,  0.1504,  ..., -0.1306, -0.1390, -0.2117],
+        [-0.1549,  0.0186, -0.2536,  ..., -0.1292, -0.1038,  0.1080]],
+       device='cuda:0'), grad: tensor([[ 3.1013e-07,  7.2643e-08,  1.7229e-07,  ...,  4.0047e-08,
+          4.5635e-08, -1.8720e-07],
+        [ 1.7695e-08, -1.0617e-07, -5.7463e-07,  ..., -2.5798e-07,
+          1.6941e-06,  1.4957e-06],
+        [-1.5739e-06,  3.3528e-08,  1.1455e-07,  ...,  3.5390e-08,
+          3.8184e-08,  4.4703e-08],
+        ...,
+        [ 4.4703e-07,  1.2852e-07,  6.2734e-06,  ...,  2.7288e-07,
+          5.8673e-08,  1.9167e-06],
+        [-5.7090e-07, -2.2911e-07, -3.3062e-07,  ...,  2.7940e-08,
+          2.2165e-07,  2.9709e-07],
+        [ 1.2852e-07,  4.5635e-08,  9.8720e-08,  ...,  2.1700e-07,
+          1.8440e-07,  5.1223e-08]], device='cuda:0')
+Epoch 240, bias, value: tensor([ 0.0013, -0.0196, -0.0277,  0.0340, -0.0307,  0.0291, -0.0188, -0.0103,
+         0.0087, -0.0254], device='cuda:0'), grad: tensor([ 7.6648e-07,  5.3979e-06, -2.9299e-06, -1.3605e-05, -5.5321e-07,
+        -9.4101e-06,  1.1586e-06,  1.8209e-05, -3.1665e-08,  1.0030e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 239, time 214.96, cls_loss 0.0011 cls_loss_mapping 0.0017 cls_loss_causal 0.4990 re_mapping 0.0046 re_causal 0.0143 /// teacc 98.98 lr 0.00010000
+Epoch 241, weight, value: tensor([[-0.1227, -0.1397, -0.0997,  ..., -0.1483, -0.0133,  0.0801],
+        [ 0.0616,  0.0567,  0.0474,  ...,  0.1021, -0.1731, -0.0563],
+        [ 0.0555,  0.0225, -0.1458,  ..., -0.0435, -0.2087, -0.0857],
+        ...,
+        [-0.0506, -0.1329,  0.0905,  ..., -0.1222, -0.0506,  0.0012],
+        [ 0.0237,  0.0954,  0.1504,  ..., -0.1324, -0.1403, -0.2122],
+        [-0.1552,  0.0183, -0.2539,  ..., -0.1303, -0.1044,  0.1080]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  3.7253e-09,  9.3132e-10,  ..., -3.7253e-09,
+         -1.1083e-06, -2.1961e-06],
+        [-1.2107e-08, -7.4506e-09, -9.3132e-09,  ..., -9.3132e-10,
+          1.9558e-08,  2.0489e-08],
+        [-2.7940e-09,  4.6566e-09,  1.3039e-08,  ...,  8.3819e-09,
+          9.3132e-09,  1.4901e-08],
+        ...,
+        [ 9.3132e-09,  1.3970e-08, -2.7940e-08,  ...,  1.0245e-08,
+          2.7940e-09,  7.4506e-09],
+        [ 2.7940e-09,  1.3039e-08,  2.7940e-09,  ...,  6.5193e-09,
+          1.3039e-08,  2.7940e-08],
+        [ 9.3132e-10, -3.1665e-08,  9.3132e-09,  ...,  4.9360e-08,
+          6.3330e-08, -2.4214e-08]], device='cuda:0')
+Epoch 241, bias, value: tensor([ 0.0016, -0.0196, -0.0279,  0.0336, -0.0301,  0.0294, -0.0188, -0.0103,
+         0.0082, -0.0258], device='cuda:0'), grad: tensor([-3.5502e-06,  3.7253e-08,  4.7497e-08,  1.8626e-09, -9.0338e-08,
+         2.0396e-07,  3.2671e-06,  2.7940e-09,  7.8231e-08,  2.6077e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 240, time 215.02, cls_loss 0.0012 cls_loss_mapping 0.0023 cls_loss_causal 0.4997 re_mapping 0.0044 re_causal 0.0141 /// teacc 99.05 lr 0.00010000
+Epoch 242, weight, value: tensor([[-0.1235, -0.1399, -0.1001,  ..., -0.1484, -0.0132,  0.0802],
+        [ 0.0622,  0.0580,  0.0475,  ...,  0.1022, -0.1732, -0.0561],
+        [ 0.0545,  0.0205, -0.1475,  ..., -0.0436, -0.2090, -0.0868],
+        ...,
+        [-0.0506, -0.1333,  0.0906,  ..., -0.1224, -0.0503,  0.0010],
+        [ 0.0239,  0.0970,  0.1507,  ..., -0.1328, -0.1392, -0.2123],
+        [-0.1557,  0.0179, -0.2543,  ..., -0.1309, -0.1048,  0.1085]],
+       device='cuda:0'), grad: tensor([[ 2.8871e-08,  8.3819e-09,  1.8626e-08,  ...,  3.7253e-09,
+         -2.0210e-07, -6.6590e-07],
+        [ 1.3504e-07, -1.3039e-08,  1.6224e-06,  ..., -3.2596e-08,
+          1.7695e-08,  1.9278e-06],
+        [ 1.2107e-07,  8.3819e-09,  2.4680e-07,  ...,  1.8626e-09,
+          1.3039e-08,  2.7660e-07],
+        ...,
+        [-3.2596e-08,  8.3819e-09, -3.7085e-06,  ...,  9.3132e-09,
+          1.3039e-08, -4.1723e-06],
+        [ 1.2293e-07,  4.6566e-09,  6.9849e-08,  ...,  3.7253e-09,
+          3.0734e-08,  1.4994e-07],
+        [ 1.4622e-07,  3.7253e-09,  1.5488e-06,  ...,  3.7253e-09,
+          5.8673e-08,  1.9595e-06]], device='cuda:0')
+Epoch 242, bias, value: tensor([ 0.0016, -0.0192, -0.0288,  0.0338, -0.0300,  0.0294, -0.0190, -0.0103,
+         0.0088, -0.0258], device='cuda:0'), grad: tensor([-1.4957e-06,  5.1931e-06,  9.9372e-07, -4.4107e-06,  3.9488e-07,
+        -6.1467e-06,  9.8422e-06, -1.0453e-05,  7.1339e-07,  5.3383e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 241, time 214.84, cls_loss 0.0015 cls_loss_mapping 0.0039 cls_loss_causal 0.4975 re_mapping 0.0046 re_causal 0.0132 /// teacc 99.03 lr 0.00010000
+Epoch 243, weight, value: tensor([[-0.1244, -0.1411, -0.1010,  ..., -0.1496, -0.0135,  0.0805],
+        [ 0.0624,  0.0590,  0.0476,  ...,  0.1031, -0.1733, -0.0561],
+        [ 0.0548,  0.0210, -0.1475,  ..., -0.0438, -0.2093, -0.0848],
+        ...,
+        [-0.0508, -0.1361,  0.0906,  ..., -0.1252, -0.0514,  0.0014],
+        [ 0.0231,  0.0968,  0.1506,  ..., -0.1334, -0.1397, -0.2139],
+        [-0.1575,  0.0169, -0.2572,  ..., -0.1335, -0.1055,  0.1075]],
+       device='cuda:0'), grad: tensor([[ 4.4890e-07,  3.8836e-07,  3.4459e-08,  ...,  7.7300e-08,
+          2.5146e-08, -4.9360e-08],
+        [ 4.3493e-07,  2.2594e-06,  6.7800e-07,  ...,  1.3569e-06,
+          4.4610e-07,  1.8347e-07],
+        [-4.4331e-07,  2.1514e-07,  1.8533e-07,  ...,  8.1025e-08,
+          2.6077e-08,  1.0524e-07],
+        ...,
+        [-2.5146e-07,  7.6368e-08, -2.0713e-06,  ...,  4.6566e-09,
+          2.7940e-09, -1.2033e-06],
+        [ 7.8604e-07,  5.1316e-07,  7.7300e-08,  ...,  3.2596e-08,
+          1.5832e-08,  2.2724e-07],
+        [ 2.7474e-07, -2.1514e-07,  9.3970e-07,  ...,  6.5193e-09,
+         -4.0978e-08, -3.8370e-07]], device='cuda:0')
+Epoch 243, bias, value: tensor([ 0.0015, -0.0190, -0.0284,  0.0339, -0.0293,  0.0295, -0.0191, -0.0104,
+         0.0080, -0.0270], device='cuda:0'), grad: tensor([ 1.3579e-06,  5.5432e-06, -4.5076e-07, -4.4554e-06,  1.4361e-06,
+         1.5069e-06, -4.1462e-06, -4.8243e-06,  2.8946e-06,  1.1250e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 242, time 215.01, cls_loss 0.0012 cls_loss_mapping 0.0022 cls_loss_causal 0.5128 re_mapping 0.0042 re_causal 0.0134 /// teacc 98.92 lr 0.00010000
+Epoch 244, weight, value: tensor([[-0.1248, -0.1413, -0.1012,  ..., -0.1492, -0.0129,  0.0810],
+        [ 0.0625,  0.0590,  0.0476,  ...,  0.1034, -0.1734, -0.0563],
+        [ 0.0549,  0.0207, -0.1478,  ..., -0.0442, -0.2094, -0.0848],
+        ...,
+        [-0.0508, -0.1366,  0.0906,  ..., -0.1256, -0.0517,  0.0015],
+        [ 0.0228,  0.0963,  0.1507,  ..., -0.1337, -0.1427, -0.2169],
+        [-0.1573,  0.0170, -0.2576,  ..., -0.1339, -0.1058,  0.1076]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-08,  1.6764e-08,  9.3132e-09,  ...,  6.5193e-09,
+          1.8626e-09, -1.7695e-08],
+        [-2.2538e-07, -1.8347e-07, -4.0419e-07,  ..., -1.5832e-07,
+          4.6566e-09,  8.3819e-09],
+        [-5.3085e-08,  5.1223e-08,  5.0291e-08,  ...,  2.2352e-08,
+          3.7253e-09,  2.2352e-08],
+        ...,
+        [ 1.3597e-07,  7.9162e-08,  1.9278e-07,  ...,  7.6368e-08,
+          9.3132e-10, -1.8626e-09],
+        [ 4.9360e-08,  6.5193e-08,  6.0536e-08,  ...,  3.0734e-08,
+          1.7695e-08,  3.6322e-08],
+        [ 1.5832e-08, -5.5134e-07,  2.2352e-08,  ...,  2.3283e-08,
+          1.5832e-08, -8.0373e-07]], device='cuda:0')
+Epoch 244, bias, value: tensor([ 0.0019, -0.0190, -0.0285,  0.0339, -0.0293,  0.0299, -0.0192, -0.0103,
+         0.0060, -0.0271], device='cuda:0'), grad: tensor([ 3.7253e-08, -5.9605e-07, -9.0338e-08,  2.2352e-07,  1.3225e-07,
+         2.0433e-06,  2.0489e-08,  4.1258e-07,  2.8219e-07, -2.4457e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 243, time 214.65, cls_loss 0.0012 cls_loss_mapping 0.0018 cls_loss_causal 0.4906 re_mapping 0.0045 re_causal 0.0135 /// teacc 99.00 lr 0.00010000
+Epoch 245, weight, value: tensor([[-0.1250, -0.1415, -0.1015,  ..., -0.1492, -0.0129,  0.0812],
+        [ 0.0632,  0.0605,  0.0475,  ...,  0.1032, -0.1738, -0.0565],
+        [ 0.0538,  0.0182, -0.1480,  ..., -0.0443, -0.2098, -0.0859],
+        ...,
+        [-0.0507, -0.1349,  0.0910,  ..., -0.1257, -0.0525,  0.0032],
+        [ 0.0223,  0.0964,  0.1510,  ..., -0.1333, -0.1431, -0.2174],
+        [-0.1580,  0.0180, -0.2602,  ..., -0.1342, -0.1059,  0.1075]],
+       device='cuda:0'), grad: tensor([[ 3.5390e-08, -4.9360e-08,  8.3819e-09,  ...,  0.0000e+00,
+         -4.1258e-07, -1.1083e-06],
+        [-3.9488e-07, -1.7416e-07, -7.2643e-08,  ..., -1.1176e-08,
+          9.3132e-09,  7.5437e-08],
+        [ 6.6031e-07,  2.2911e-07,  2.7195e-07,  ...,  9.3132e-10,
+          2.7940e-09,  7.2643e-08],
+        ...,
+        [ 9.4995e-08,  1.6764e-08, -1.0151e-07,  ...,  1.1176e-08,
+          2.3283e-08, -1.2480e-07],
+        [-1.3746e-06, -4.7125e-07, -7.5996e-07,  ...,  1.8626e-09,
+          3.7253e-08,  2.2352e-08],
+        [ 7.8231e-08,  3.0734e-08,  5.4017e-08,  ...,  1.3411e-07,
+          4.0419e-07,  1.4901e-07]], device='cuda:0')
+Epoch 245, bias, value: tensor([ 0.0019, -0.0187, -0.0294,  0.0339, -0.0298,  0.0299, -0.0192, -0.0099,
+         0.0057, -0.0272], device='cuda:0'), grad: tensor([-1.3420e-06, -4.0140e-07,  1.1949e-06, -1.2703e-05, -7.4506e-07,
+         1.3553e-05,  1.2452e-06,  2.5146e-08, -2.0117e-06,  1.1707e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 244, time 214.99, cls_loss 0.0013 cls_loss_mapping 0.0024 cls_loss_causal 0.5169 re_mapping 0.0044 re_causal 0.0137 /// teacc 99.02 lr 0.00010000
+Epoch 246, weight, value: tensor([[-0.1257, -0.1414, -0.1024,  ..., -0.1492, -0.0151,  0.0781],
+        [ 0.0633,  0.0609,  0.0475,  ...,  0.1037, -0.1738, -0.0564],
+        [ 0.0540,  0.0180, -0.1481,  ..., -0.0447, -0.2101, -0.0862],
+        ...,
+        [-0.0508, -0.1356,  0.0910,  ..., -0.1264, -0.0527,  0.0033],
+        [ 0.0228,  0.0989,  0.1528,  ..., -0.1335, -0.1426, -0.2175],
+        [-0.1589,  0.0177, -0.2610,  ..., -0.1345, -0.1039,  0.1107]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  2.3283e-08,  1.8626e-09,  ...,  3.7253e-08,
+          2.5146e-08, -4.3772e-08],
+        [-3.8184e-08, -1.2107e-08, -5.7742e-08,  ..., -1.3039e-08,
+          1.6764e-08,  1.8626e-08],
+        [-1.8626e-09,  1.7323e-07,  3.7253e-09,  ...,  6.7428e-07,
+          3.0454e-07,  4.6566e-09],
+        ...,
+        [ 1.4901e-08,  1.1735e-07,  5.1223e-08,  ...,  2.6077e-08,
+          1.4901e-08,  1.7323e-07],
+        [ 8.3819e-09,  8.7544e-08,  2.1420e-08,  ...,  2.6077e-08,
+          7.6368e-08,  5.4948e-08],
+        [ 6.5193e-09, -2.0396e-07, -1.1083e-07,  ...,  1.8720e-07,
+          1.1362e-07, -5.0478e-07]], device='cuda:0')
+Epoch 246, bias, value: tensor([-0.0012, -0.0185, -0.0294,  0.0341, -0.0299,  0.0298, -0.0194, -0.0099,
+         0.0068, -0.0242], device='cuda:0'), grad: tensor([ 5.2154e-08, -1.1176e-08,  1.3066e-06, -5.4948e-08, -1.4352e-06,
+        -9.0338e-08, -1.1362e-07,  4.2561e-07,  3.2224e-07, -4.0606e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 245, time 215.06, cls_loss 0.0015 cls_loss_mapping 0.0022 cls_loss_causal 0.5192 re_mapping 0.0043 re_causal 0.0133 /// teacc 99.02 lr 0.00010000
+Epoch 247, weight, value: tensor([[-0.1258, -0.1415, -0.1011,  ..., -0.1494, -0.0150,  0.0781],
+        [ 0.0644,  0.0615,  0.0490,  ...,  0.1046, -0.1742, -0.0544],
+        [ 0.0539,  0.0179, -0.1489,  ..., -0.0451, -0.2106, -0.0864],
+        ...,
+        [-0.0519, -0.1374,  0.0897,  ..., -0.1278, -0.0523,  0.0016],
+        [ 0.0227,  0.0986,  0.1531,  ..., -0.1338, -0.1434, -0.2190],
+        [-0.1585,  0.0180, -0.2614,  ..., -0.1350, -0.1042,  0.1107]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-09,  5.5879e-09,  1.7695e-08,  ...,  2.7940e-09,
+          1.8626e-09,  9.3132e-10],
+        [-2.1979e-07,  4.8336e-07,  9.3430e-06,  ...,  1.7136e-07,
+          9.3132e-10,  2.4587e-06],
+        [ 2.7940e-09,  1.1176e-08,  5.2154e-08,  ...,  6.5193e-09,
+          9.3132e-10,  1.3970e-08],
+        ...,
+        [ 1.0431e-07, -6.3144e-07, -1.0684e-05,  ..., -2.5798e-07,
+          9.3132e-10, -2.7884e-06],
+        [ 1.6764e-08,  9.3132e-09,  5.3085e-08,  ...,  6.5193e-09,
+          9.3132e-09,  1.8626e-08],
+        [ 5.2154e-08,  8.9407e-08,  9.6858e-07,  ...,  5.7742e-08,
+          7.4506e-09,  2.3097e-07]], device='cuda:0')
+Epoch 247, bias, value: tensor([-0.0011, -0.0170, -0.0296,  0.0347, -0.0298,  0.0294, -0.0194, -0.0113,
+         0.0063, -0.0242], device='cuda:0'), grad: tensor([ 4.5635e-08,  2.1964e-05,  1.0524e-07,  1.5646e-07,  2.9523e-07,
+         3.5390e-08,  5.7742e-08, -2.5064e-05,  1.5553e-07,  2.2836e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 246, time 214.87, cls_loss 0.0013 cls_loss_mapping 0.0020 cls_loss_causal 0.4651 re_mapping 0.0042 re_causal 0.0127 /// teacc 99.04 lr 0.00010000
+Epoch 248, weight, value: tensor([[-0.1276, -0.1428, -0.1026,  ..., -0.1497, -0.0150,  0.0781],
+        [ 0.0646,  0.0616,  0.0491,  ...,  0.1048, -0.1745, -0.0546],
+        [ 0.0538,  0.0177, -0.1493,  ..., -0.0455, -0.2108, -0.0865],
+        ...,
+        [-0.0520, -0.1381,  0.0897,  ..., -0.1279, -0.0526,  0.0015],
+        [ 0.0232,  0.0987,  0.1538,  ..., -0.1341, -0.1438, -0.2197],
+        [-0.1583,  0.0178, -0.2613,  ..., -0.1357, -0.1039,  0.1109]],
+       device='cuda:0'), grad: tensor([[ 5.4017e-08,  3.8184e-08,  4.5635e-08,  ...,  2.5146e-08,
+         -8.6613e-08, -3.2503e-07],
+        [-1.2573e-07, -6.6124e-08,  4.6752e-07,  ..., -4.0978e-08,
+          6.1467e-08,  3.9022e-07],
+        [-1.2489e-06,  8.4750e-08,  1.3970e-07,  ...,  1.9558e-08,
+          1.1176e-08,  2.7940e-08],
+        ...,
+        [ 1.2200e-06,  7.5437e-08, -8.3540e-07,  ...,  5.2154e-08,
+          3.3528e-08, -5.0757e-07],
+        [-5.5321e-07, -2.7567e-06, -5.8152e-06,  ...,  1.9558e-08,
+          2.3283e-08,  2.8871e-08],
+        [ 3.2596e-08,  6.0908e-07,  3.1572e-07,  ...,  6.4727e-07,
+          4.3958e-07,  1.8440e-07]], device='cuda:0')
+Epoch 248, bias, value: tensor([-0.0012, -0.0169, -0.0297,  0.0347, -0.0302,  0.0294, -0.0194, -0.0114,
+         0.0066, -0.0241], device='cuda:0'), grad: tensor([-2.9989e-07,  1.7220e-06, -6.5565e-06,  1.0014e-05, -2.7046e-06,
+         1.5991e-06,  1.8226e-06,  3.9525e-06, -1.2904e-05,  3.2894e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 247, time 214.87, cls_loss 0.0012 cls_loss_mapping 0.0026 cls_loss_causal 0.5128 re_mapping 0.0044 re_causal 0.0135 /// teacc 99.00 lr 0.00010000
+Epoch 249, weight, value: tensor([[-0.1278, -0.1430, -0.1029,  ..., -0.1499, -0.0147,  0.0782],
+        [ 0.0647,  0.0615,  0.0491,  ...,  0.1045, -0.1750, -0.0547],
+        [ 0.0538,  0.0177, -0.1506,  ..., -0.0461, -0.2112, -0.0867],
+        ...,
+        [-0.0520, -0.1383,  0.0898,  ..., -0.1284, -0.0544,  0.0015],
+        [ 0.0235,  0.0994,  0.1542,  ..., -0.1343, -0.1437, -0.2200],
+        [-0.1588,  0.0176, -0.2617,  ..., -0.1369, -0.1043,  0.1109]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-08,  2.6077e-08,  9.3132e-10,  ...,  2.4214e-08,
+          4.0978e-08,  6.5193e-09],
+        [-1.1176e-08,  2.8498e-07, -3.5390e-08,  ...,  2.5425e-07,
+          4.8243e-07,  1.3039e-08],
+        [-2.0768e-07, -3.0734e-08,  8.3819e-09,  ...,  1.0245e-08,
+          1.1176e-08, -2.8871e-08],
+        ...,
+        [ 4.7497e-08,  6.5193e-09,  9.3132e-10,  ...,  7.4506e-09,
+          0.0000e+00,  2.5146e-08],
+        [ 3.3155e-07,  4.2841e-08,  5.4948e-08,  ...,  1.3039e-08,
+          1.7695e-08,  1.6764e-08],
+        [ 1.0245e-08, -1.7695e-08,  6.5193e-09,  ...,  4.6566e-09,
+          2.7940e-09, -1.6578e-07]], device='cuda:0')
+Epoch 249, bias, value: tensor([-0.0011, -0.0170, -0.0302,  0.0345, -0.0297,  0.0295, -0.0196, -0.0111,
+         0.0069, -0.0242], device='cuda:0'), grad: tensor([ 1.3039e-07,  1.1064e-06, -4.1164e-07, -9.0711e-07,  2.1700e-07,
+         3.8650e-07, -1.3569e-06,  1.2759e-07,  9.0618e-07, -1.9372e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 248, time 215.18, cls_loss 0.0015 cls_loss_mapping 0.0027 cls_loss_causal 0.5035 re_mapping 0.0045 re_causal 0.0134 /// teacc 98.96 lr 0.00010000
+Epoch 250, weight, value: tensor([[-0.1292, -0.1445, -0.1040,  ..., -0.1499, -0.0144,  0.0784],
+        [ 0.0647,  0.0613,  0.0491,  ...,  0.1045, -0.1751, -0.0556],
+        [ 0.0537,  0.0178, -0.1507,  ..., -0.0464, -0.2118, -0.0866],
+        ...,
+        [-0.0521, -0.1385,  0.0898,  ..., -0.1287, -0.0557,  0.0014],
+        [ 0.0231,  0.1008,  0.1546,  ..., -0.1348, -0.1435, -0.2204],
+        [-0.1594,  0.0189, -0.2623,  ..., -0.1371, -0.1044,  0.1113]],
+       device='cuda:0'), grad: tensor([[ 6.0629e-07,  1.9558e-08,  1.8626e-09,  ...,  1.1176e-08,
+         -1.1176e-08, -1.5087e-07],
+        [ 7.3276e-06,  3.7253e-09, -6.0536e-08,  ..., -3.5390e-08,
+          3.9116e-08,  4.6566e-09],
+        [ 4.0859e-05, -5.5879e-09,  1.5832e-08,  ...,  1.6764e-08,
+          7.4506e-09,  9.3132e-09],
+        ...,
+        [ 3.4701e-06,  1.3039e-08,  1.1176e-08,  ...,  2.1420e-08,
+          8.3819e-09,  1.1176e-08],
+        [ 4.2003e-07, -8.1956e-08, -6.6124e-08,  ...,  2.2352e-08,
+          2.6077e-08,  7.4506e-09],
+        [ 2.5164e-06,  1.1828e-07,  5.0291e-08,  ...,  4.3027e-07,
+          4.3958e-07,  9.0338e-08]], device='cuda:0')
+Epoch 250, bias, value: tensor([-0.0011, -0.0172, -0.0304,  0.0356, -0.0307,  0.0286, -0.0191, -0.0111,
+         0.0075, -0.0239], device='cuda:0'), grad: tensor([ 9.2853e-07,  1.3188e-05,  7.3195e-05, -1.1092e-04, -8.6706e-07,
+         1.1936e-05, -3.7160e-07,  6.2585e-06,  5.9325e-07,  6.1356e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 249, time 215.39, cls_loss 0.0012 cls_loss_mapping 0.0025 cls_loss_causal 0.5153 re_mapping 0.0044 re_causal 0.0134 /// teacc 99.08 lr 0.00010000
+Epoch 251, weight, value: tensor([[-0.1296, -0.1463, -0.1044,  ..., -0.1501, -0.0152,  0.0783],
+        [ 0.0647,  0.0622,  0.0493,  ...,  0.1053, -0.1748, -0.0552],
+        [ 0.0537,  0.0179, -0.1512,  ..., -0.0468, -0.2119, -0.0867],
+        ...,
+        [-0.0522, -0.1387,  0.0899,  ..., -0.1280, -0.0545,  0.0016],
+        [ 0.0233,  0.1010,  0.1554,  ..., -0.1355, -0.1440, -0.2207],
+        [-0.1604,  0.0186, -0.2633,  ..., -0.1375, -0.1049,  0.1113]],
+       device='cuda:0'), grad: tensor([[ 1.4901e-08,  1.8626e-08,  1.0245e-08,  ...,  0.0000e+00,
+          8.3819e-09,  2.7940e-09],
+        [ 1.4156e-07,  7.3574e-08,  0.0000e+00,  ..., -1.6764e-08,
+          1.1176e-08,  1.7695e-08],
+        [-2.9989e-07, -1.0803e-07,  2.6077e-08,  ...,  1.8626e-09,
+          2.7940e-09,  4.6566e-09],
+        ...,
+        [ 4.3772e-08,  3.0734e-08, -1.8626e-09,  ...,  9.3132e-09,
+          2.7940e-09,  1.1176e-08],
+        [-1.2666e-07,  1.1083e-07, -3.1479e-07,  ...,  8.3819e-09,
+          1.7416e-07,  1.3690e-07],
+        [ 1.1455e-07, -1.5739e-07,  1.7881e-07,  ...,  1.0245e-07,
+          8.1956e-08, -7.2923e-07]], device='cuda:0')
+Epoch 251, bias, value: tensor([-0.0013, -0.0170, -0.0304,  0.0360, -0.0307,  0.0285, -0.0190, -0.0111,
+         0.0076, -0.0240], device='cuda:0'), grad: tensor([ 7.0781e-08,  3.7905e-07, -5.5134e-07,  3.2596e-07,  8.9221e-07,
+         1.3132e-07, -5.4855e-07,  1.1362e-07, -1.1642e-07, -7.0222e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 250, time 215.35, cls_loss 0.0011 cls_loss_mapping 0.0025 cls_loss_causal 0.4737 re_mapping 0.0044 re_causal 0.0133 /// teacc 98.96 lr 0.00010000
+Epoch 252, weight, value: tensor([[-0.1298, -0.1476, -0.1045,  ..., -0.1502, -0.0157,  0.0783],
+        [ 0.0648,  0.0623,  0.0492,  ...,  0.1056, -0.1749, -0.0555],
+        [ 0.0542,  0.0192, -0.1520,  ..., -0.0468, -0.2121, -0.0867],
+        ...,
+        [-0.0522, -0.1389,  0.0901,  ..., -0.1281, -0.0539,  0.0024],
+        [ 0.0220,  0.1001,  0.1556,  ..., -0.1358, -0.1443, -0.2211],
+        [-0.1616,  0.0182, -0.2648,  ..., -0.1381, -0.1051,  0.1112]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -2.4214e-08, -3.4459e-08],
+        [ 2.7940e-09,  9.3132e-10,  2.2538e-07,  ...,  0.0000e+00,
+          1.8626e-09,  1.2107e-08],
+        [-1.1176e-08,  2.7940e-09,  1.8626e-09,  ...,  0.0000e+00,
+          1.8626e-09,  2.9802e-08],
+        ...,
+        [ 4.6566e-09,  9.3132e-09, -2.4773e-07,  ...,  1.8626e-09,
+         -0.0000e+00,  2.6263e-07],
+        [ 9.3132e-10,  9.3132e-10,  1.3970e-08,  ...,  0.0000e+00,
+          7.4506e-09,  1.2107e-08],
+        [ 0.0000e+00, -3.5390e-08,  4.6566e-09,  ...,  7.4506e-09,
+          1.4901e-08, -4.0233e-07]], device='cuda:0')
+Epoch 252, bias, value: tensor([-0.0014, -0.0171, -0.0299,  0.0361, -0.0300,  0.0284, -0.0189, -0.0106,
+         0.0065, -0.0244], device='cuda:0'), grad: tensor([-5.4017e-08,  2.7753e-07,  2.6077e-08,  3.1665e-08,  1.2387e-07,
+        -5.9605e-08,  6.8918e-08,  9.5926e-08,  4.1910e-08, -5.4762e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 251, time 215.02, cls_loss 0.0013 cls_loss_mapping 0.0025 cls_loss_causal 0.4742 re_mapping 0.0048 re_causal 0.0138 /// teacc 99.07 lr 0.00010000
+Epoch 253, weight, value: tensor([[-0.1261, -0.1474, -0.1021,  ..., -0.1503, -0.0154,  0.0787],
+        [ 0.0647,  0.0623,  0.0493,  ...,  0.1059, -0.1751, -0.0558],
+        [ 0.0545,  0.0193, -0.1523,  ..., -0.0470, -0.2131, -0.0875],
+        ...,
+        [-0.0522, -0.1391,  0.0901,  ..., -0.1283, -0.0543,  0.0027],
+        [ 0.0207,  0.1006,  0.1556,  ..., -0.1365, -0.1446, -0.2243],
+        [-0.1627,  0.0181, -0.2656,  ..., -0.1384, -0.1054,  0.1113]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  8.3819e-09,  9.3132e-10,  ...,  3.7253e-09,
+          1.0245e-08, -3.8184e-08],
+        [-1.0245e-08,  2.7940e-08, -9.3132e-09,  ...,  2.7940e-08,
+          1.5646e-07,  1.1176e-08],
+        [ 9.3132e-10,  6.5193e-09,  5.5879e-09,  ...,  6.5193e-09,
+          1.0245e-08,  4.6566e-09],
+        ...,
+        [ 5.5879e-09,  3.0734e-08,  5.5879e-09,  ...,  1.1176e-08,
+          2.7008e-08,  4.9360e-08],
+        [-1.6764e-08,  3.8836e-07, -3.6322e-08,  ...,  4.9453e-07,
+          2.2538e-06,  4.6566e-08],
+        [ 1.1176e-08, -2.5984e-07, -2.5146e-08,  ...,  3.9488e-07,
+          2.6077e-08, -7.8883e-07]], device='cuda:0')
+Epoch 253, bias, value: tensor([-0.0007, -0.0172, -0.0298,  0.0360, -0.0300,  0.0286, -0.0194, -0.0104,
+         0.0048, -0.0245], device='cuda:0'), grad: tensor([-1.1176e-08,  3.4645e-07,  5.2154e-08,  4.5747e-06, -5.2806e-07,
+        -1.1533e-05,  2.8331e-06,  1.5087e-07,  4.8056e-06, -7.1898e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 252, time 215.16, cls_loss 0.0008 cls_loss_mapping 0.0021 cls_loss_causal 0.4999 re_mapping 0.0043 re_causal 0.0141 /// teacc 98.95 lr 0.00010000
+Epoch 254, weight, value: tensor([[-0.1262, -0.1476, -0.1021,  ..., -0.1504, -0.0154,  0.0787],
+        [ 0.0648,  0.0623,  0.0493,  ...,  0.1061, -0.1752, -0.0558],
+        [ 0.0545,  0.0193, -0.1524,  ..., -0.0474, -0.2137, -0.0875],
+        ...,
+        [-0.0523, -0.1393,  0.0901,  ..., -0.1286, -0.0543,  0.0027],
+        [ 0.0207,  0.1006,  0.1560,  ..., -0.1372, -0.1451, -0.2245],
+        [-0.1629,  0.0178, -0.2662,  ..., -0.1393, -0.1058,  0.1113]],
+       device='cuda:0'), grad: tensor([[ 6.9849e-09,  1.6158e-07,  7.7765e-08,  ...,  1.0524e-07,
+          9.4995e-08, -1.2107e-08],
+        [-4.6100e-08,  2.4680e-08, -3.2596e-08,  ..., -2.9337e-08,
+          4.1910e-08,  1.0245e-08],
+        [ 2.0489e-08,  8.8941e-08,  5.1223e-08,  ...,  6.4261e-08,
+          5.0291e-08,  3.7253e-09],
+        ...,
+        [ 3.0268e-08,  2.8871e-08,  1.9092e-08,  ...,  2.4680e-08,
+          6.5193e-09,  5.6811e-08],
+        [ 1.7229e-08,  2.3469e-06,  1.1008e-06,  ...,  1.5600e-06,
+          1.4342e-06,  3.3528e-08],
+        [ 2.7008e-08, -2.7008e-08,  2.2352e-08,  ...,  1.3504e-08,
+          8.8476e-09, -1.3737e-07]], device='cuda:0')
+Epoch 254, bias, value: tensor([-0.0007, -0.0171, -0.0297,  0.0361, -0.0295,  0.0285, -0.0195, -0.0106,
+         0.0048, -0.0246], device='cuda:0'), grad: tensor([ 4.9407e-07,  9.4064e-08,  3.2457e-07, -1.9092e-08,  5.4017e-07,
+         3.9535e-07, -9.3207e-06,  2.0163e-07,  7.4394e-06, -1.1828e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 253, time 214.86, cls_loss 0.0012 cls_loss_mapping 0.0028 cls_loss_causal 0.4712 re_mapping 0.0045 re_causal 0.0135 /// teacc 98.98 lr 0.00010000
+Epoch 255, weight, value: tensor([[-0.1262, -0.1478, -0.1022,  ..., -0.1505, -0.0154,  0.0788],
+        [ 0.0648,  0.0623,  0.0492,  ...,  0.1064, -0.1753, -0.0562],
+        [ 0.0579,  0.0193, -0.1481,  ..., -0.0475, -0.2139, -0.0872],
+        ...,
+        [-0.0550, -0.1395,  0.0878,  ..., -0.1289, -0.0543,  0.0027],
+        [ 0.0209,  0.1032,  0.1584,  ..., -0.1376, -0.1451, -0.2250],
+        [-0.1644,  0.0166, -0.2690,  ..., -0.1404, -0.1066,  0.1113]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  8.3819e-09,  7.4506e-09,  ...,  9.3132e-10,
+          1.6764e-08,  3.2596e-09],
+        [-2.5611e-08, -2.2352e-08, -4.6566e-08,  ..., -3.0734e-08,
+          2.7940e-09,  1.2107e-08],
+        [ 4.6566e-09,  5.1223e-09,  1.2573e-08,  ...,  4.6566e-09,
+          4.6566e-10,  2.3283e-09],
+        ...,
+        [ 1.3039e-08,  1.6764e-08,  2.7940e-09,  ...,  1.3039e-08,
+          9.3132e-10,  2.7940e-08],
+        [-1.8626e-08, -1.0245e-08, -1.4901e-08,  ...,  5.1223e-09,
+          1.3970e-08,  4.9360e-08],
+        [ 9.3132e-09, -3.3528e-08,  9.3132e-09,  ...,  1.7229e-08,
+          1.0710e-08, -4.3912e-07]], device='cuda:0')
+Epoch 255, bias, value: tensor([-0.0006, -0.0174, -0.0257,  0.0358, -0.0291,  0.0287, -0.0197, -0.0141,
+         0.0067, -0.0252], device='cuda:0'), grad: tensor([ 5.3085e-08, -6.7521e-08,  3.7719e-08,  1.0664e-07,  7.1153e-07,
+         1.0245e-07, -5.9139e-08,  7.7300e-08, -7.6834e-08, -8.7311e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 254, time 214.53, cls_loss 0.0011 cls_loss_mapping 0.0020 cls_loss_causal 0.5074 re_mapping 0.0043 re_causal 0.0130 /// teacc 98.97 lr 0.00010000
+Epoch 256, weight, value: tensor([[-0.1263, -0.1478, -0.1023,  ..., -0.1506, -0.0154,  0.0788],
+        [ 0.0647,  0.0624,  0.0492,  ...,  0.1066, -0.1756, -0.0565],
+        [ 0.0581,  0.0193, -0.1480,  ..., -0.0477, -0.2143, -0.0874],
+        ...,
+        [-0.0551, -0.1399,  0.0878,  ..., -0.1288, -0.0544,  0.0027],
+        [ 0.0208,  0.1032,  0.1590,  ..., -0.1379, -0.1457, -0.2256],
+        [-0.1647,  0.0167, -0.2693,  ..., -0.1406, -0.1067,  0.1114]],
+       device='cuda:0'), grad: tensor([[ 8.3819e-09,  1.2107e-08,  6.5193e-09,  ...,  2.7940e-09,
+          4.4983e-07, -8.9593e-07],
+        [-3.2596e-08, -6.0536e-09,  1.5367e-08,  ..., -4.1910e-08,
+          3.1199e-07,  5.5600e-07],
+        [-1.3448e-06,  1.1642e-08, -3.2131e-08,  ...,  1.3504e-08,
+          6.9384e-08,  3.1292e-07],
+        ...,
+        [ 3.7719e-08,  1.7229e-08, -3.0128e-07,  ...,  2.7008e-08,
+          1.4203e-07,  2.4540e-07],
+        [ 1.1967e-06, -2.0210e-07, -1.2573e-08,  ..., -5.0291e-08,
+          7.2969e-07,  8.8243e-07],
+        [ 9.7789e-09,  7.9628e-08,  4.9360e-08,  ...,  2.0582e-07,
+          1.5208e-06,  2.1271e-06]], device='cuda:0')
+Epoch 256, bias, value: tensor([-0.0006, -0.0175, -0.0256,  0.0356, -0.0292,  0.0292, -0.0200, -0.0141,
+         0.0066, -0.0252], device='cuda:0'), grad: tensor([-5.5274e-07,  1.7453e-06, -1.5683e-06,  7.0715e-04, -3.7532e-07,
+        -7.2384e-04,  4.8988e-06,  1.7835e-07,  4.9472e-06,  7.3910e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 255, time 215.10, cls_loss 0.0009 cls_loss_mapping 0.0019 cls_loss_causal 0.4510 re_mapping 0.0043 re_causal 0.0131 /// teacc 98.96 lr 0.00010000
+Epoch 257, weight, value: tensor([[-0.1260, -0.1479, -0.1019,  ..., -0.1504, -0.0152,  0.0789],
+        [ 0.0648,  0.0624,  0.0492,  ...,  0.1064, -0.1759, -0.0567],
+        [ 0.0581,  0.0194, -0.1482,  ..., -0.0474, -0.2146, -0.0878],
+        ...,
+        [-0.0550, -0.1401,  0.0880,  ..., -0.1290, -0.0545,  0.0028],
+        [ 0.0207,  0.1029,  0.1592,  ..., -0.1385, -0.1464, -0.2261],
+        [-0.1648,  0.0166, -0.2695,  ..., -0.1409, -0.1069,  0.1114]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  7.9162e-09,  4.6566e-09,  ...,  9.3132e-10,
+          9.7789e-09,  9.3132e-09],
+        [-6.9849e-09,  2.5611e-08,  4.1910e-08,  ..., -2.0955e-08,
+          1.6298e-08,  1.4435e-08],
+        [-2.8871e-08,  2.3283e-09,  8.4285e-08,  ...,  4.1910e-09,
+          3.2596e-09,  6.5193e-09],
+        ...,
+        [ 6.9849e-09,  6.5193e-09, -2.0862e-07,  ...,  6.9849e-09,
+          1.8626e-09, -3.7719e-08],
+        [-2.2817e-08, -5.0757e-08, -3.4925e-08,  ...,  5.1223e-09,
+          4.7963e-08,  1.3039e-08],
+        [ 5.1223e-09, -5.5879e-09,  4.8894e-08,  ...,  2.7940e-09,
+          9.3132e-09, -2.8405e-08]], device='cuda:0')
+Epoch 257, bias, value: tensor([-0.0005, -0.0176, -0.0256,  0.0346, -0.0291,  0.0297, -0.0201, -0.0141,
+         0.0062, -0.0252], device='cuda:0'), grad: tensor([ 4.9360e-08,  1.4296e-07,  6.3796e-08,  1.0310e-06,  1.0245e-07,
+        -4.8848e-07, -5.2573e-07, -3.9255e-07, -2.6077e-08,  6.5658e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 256, time 215.30, cls_loss 0.0012 cls_loss_mapping 0.0029 cls_loss_causal 0.5078 re_mapping 0.0042 re_causal 0.0130 /// teacc 98.96 lr 0.00010000
+Epoch 258, weight, value: tensor([[-0.1262, -0.1481, -0.1021,  ..., -0.1510, -0.0152,  0.0790],
+        [ 0.0646,  0.0621,  0.0491,  ...,  0.1059, -0.1763, -0.0572],
+        [ 0.0582,  0.0199, -0.1482,  ..., -0.0464, -0.2150, -0.0877],
+        ...,
+        [-0.0547, -0.1384,  0.0886,  ..., -0.1293, -0.0542,  0.0030],
+        [ 0.0190,  0.1014,  0.1561,  ..., -0.1392, -0.1479, -0.2272],
+        [-0.1653,  0.0164, -0.2700,  ..., -0.1415, -0.1076,  0.1112]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-09,  1.3970e-09,  4.6566e-10,  ...,  9.3132e-10,
+          1.7695e-08,  1.1642e-08],
+        [-2.0489e-08, -9.7789e-09,  5.7276e-08,  ..., -2.2352e-08,
+          7.9162e-09,  5.1223e-09],
+        [-2.5611e-08,  3.7253e-09,  1.4435e-08,  ...,  6.0536e-09,
+          2.3283e-09,  9.3132e-10],
+        ...,
+        [ 9.7789e-09,  4.1910e-09, -8.8941e-08,  ...,  7.9162e-09,
+          1.4435e-08,  1.1176e-08],
+        [-5.1223e-08, -2.6077e-08, -6.1467e-08,  ...,  2.3283e-09,
+          6.2864e-08,  5.0291e-08],
+        [ 4.1910e-09, -1.8626e-09,  1.1176e-08,  ...,  1.1642e-08,
+          1.2573e-08, -7.4506e-09]], device='cuda:0')
+Epoch 258, bias, value: tensor([-0.0004, -0.0179, -0.0256,  0.0350, -0.0289,  0.0298, -0.0198, -0.0137,
+         0.0034, -0.0255], device='cuda:0'), grad: tensor([ 5.1223e-08,  1.9884e-07, -1.6298e-08,  2.9290e-07, -2.7940e-09,
+        -5.3458e-07,  1.8394e-07, -2.1327e-07, -2.2817e-08,  5.2620e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 257, time 215.00, cls_loss 0.0015 cls_loss_mapping 0.0025 cls_loss_causal 0.4720 re_mapping 0.0044 re_causal 0.0125 /// teacc 99.03 lr 0.00010000
+Epoch 259, weight, value: tensor([[-0.1265, -0.1495, -0.1023,  ..., -0.1531, -0.0176,  0.0787],
+        [ 0.0648,  0.0618,  0.0490,  ...,  0.1068, -0.1767, -0.0581],
+        [ 0.0577,  0.0200, -0.1486,  ..., -0.0473, -0.2155, -0.0882],
+        ...,
+        [-0.0544, -0.1381,  0.0890,  ..., -0.1308, -0.0544,  0.0037],
+        [ 0.0199,  0.1033,  0.1570,  ..., -0.1367, -0.1487, -0.2275],
+        [-0.1658,  0.0164, -0.2706,  ..., -0.1419, -0.1077,  0.1113]],
+       device='cuda:0'), grad: tensor([[ 1.1176e-08,  1.4435e-08,  2.3749e-08,  ...,  8.8476e-09,
+          6.0536e-09,  1.2107e-08],
+        [-6.7521e-08, -2.5611e-08,  7.6834e-08,  ...,  3.5390e-07,
+          6.0210e-07,  3.1758e-07],
+        [-5.9605e-08,  2.0023e-08,  3.7719e-08,  ...,  2.5611e-08,
+          3.7253e-09,  6.5193e-09],
+        ...,
+        [ 1.1874e-07,  4.9826e-08,  2.9802e-08,  ...,  7.4971e-08,
+          1.0245e-08,  1.3039e-08],
+        [-4.1910e-09, -2.4401e-07, -4.8941e-07,  ...,  9.8720e-08,
+          1.0850e-07, -1.5274e-07],
+        [ 1.8161e-08,  1.2657e-06,  3.8557e-07,  ...,  1.5749e-06,
+          4.5495e-07,  1.4249e-07]], device='cuda:0')
+Epoch 259, bias, value: tensor([-0.0009, -0.0181, -0.0259,  0.0326, -0.0290,  0.0316, -0.0199, -0.0134,
+         0.0041, -0.0255], device='cuda:0'), grad: tensor([ 1.0151e-07,  1.2917e-06, -8.1956e-08, -1.8906e-07, -6.2138e-06,
+        -2.9802e-06,  1.7760e-06,  3.5204e-07, -8.2701e-07,  6.7949e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 258, time 215.11, cls_loss 0.0013 cls_loss_mapping 0.0032 cls_loss_causal 0.4673 re_mapping 0.0043 re_causal 0.0123 /// teacc 99.09 lr 0.00010000
+Epoch 260, weight, value: tensor([[-0.1269, -0.1496, -0.1026,  ..., -0.1533, -0.0175,  0.0788],
+        [ 0.0645,  0.0625,  0.0493,  ...,  0.1063, -0.1776, -0.0586],
+        [ 0.0588,  0.0204, -0.1486,  ..., -0.0451, -0.2169, -0.0885],
+        ...,
+        [-0.0547, -0.1391,  0.0889,  ..., -0.1313, -0.0490,  0.0048],
+        [ 0.0187,  0.1031,  0.1568,  ..., -0.1374, -0.1491, -0.2279],
+        [-0.1662,  0.0160, -0.2730,  ..., -0.1424, -0.1086,  0.1112]],
+       device='cuda:0'), grad: tensor([[ 5.1223e-09,  5.4110e-07,  1.8626e-09,  ...,  9.2667e-08,
+          6.6729e-07, -2.7474e-08],
+        [-4.4703e-08,  3.2596e-09, -3.7253e-08,  ..., -3.9581e-08,
+          3.3528e-08,  1.3830e-07],
+        [ 1.3970e-09,  1.7695e-08,  2.7474e-08,  ..., -2.7940e-08,
+          2.5611e-08,  1.4901e-08],
+        ...,
+        [ 5.0291e-08,  3.3993e-08, -1.3271e-07,  ...,  3.3993e-08,
+          8.8476e-09, -4.4703e-08],
+        [-6.8452e-08,  5.7463e-07, -8.1956e-08,  ...,  1.0571e-07,
+          7.6462e-07,  2.6077e-08],
+        [ 1.6764e-08, -1.1642e-08,  9.2201e-08,  ...,  1.8626e-08,
+          6.8918e-08, -5.1642e-07]], device='cuda:0')
+Epoch 260, bias, value: tensor([-0.0009, -0.0183, -0.0257,  0.0329, -0.0290,  0.0314, -0.0199, -0.0133,
+         0.0035, -0.0259], device='cuda:0'), grad: tensor([ 2.2110e-06,  3.2689e-07,  1.5134e-07, -1.9595e-06,  9.4343e-07,
+         6.2361e-06, -9.4771e-06, -1.8999e-07,  2.2985e-06, -5.6718e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 259, time 215.07, cls_loss 0.0011 cls_loss_mapping 0.0022 cls_loss_causal 0.4846 re_mapping 0.0042 re_causal 0.0127 /// teacc 99.10 lr 0.00010000
+Epoch 261, weight, value: tensor([[-0.1270, -0.1497, -0.1027,  ..., -0.1537, -0.0177,  0.0787],
+        [ 0.0648,  0.0632,  0.0495,  ...,  0.1074, -0.1778, -0.0588],
+        [ 0.0586,  0.0201, -0.1487,  ..., -0.0457, -0.2186, -0.0892],
+        ...,
+        [-0.0549, -0.1403,  0.0888,  ..., -0.1340, -0.0495,  0.0044],
+        [ 0.0186,  0.1030,  0.1571,  ..., -0.1377, -0.1500, -0.2287],
+        [-0.1663,  0.0158, -0.2735,  ..., -0.1437, -0.1090,  0.1114]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  1.3970e-09,  4.6566e-10,  ...,  9.3132e-10,
+         -1.9614e-06, -3.2578e-06],
+        [-2.2352e-08, -1.9092e-08, -4.0978e-08,  ..., -2.0489e-08,
+          6.5658e-08,  1.0850e-07],
+        [-1.2014e-07,  2.3283e-09,  2.7940e-09,  ...,  2.7940e-09,
+          5.7742e-08,  9.4529e-08],
+        ...,
+        [ 1.0896e-07,  1.0710e-08,  2.0955e-08,  ...,  1.2573e-08,
+          3.6322e-08,  6.2399e-08],
+        [ 5.1223e-09,  1.2573e-08,  1.8626e-09,  ...,  8.8476e-09,
+          9.8255e-08,  1.4948e-07],
+        [ 4.1910e-09, -1.3970e-09,  4.6566e-09,  ...,  1.4435e-08,
+          6.6310e-07,  1.0878e-06]], device='cuda:0')
+Epoch 261, bias, value: tensor([-0.0009, -0.0181, -0.0258,  0.0329, -0.0288,  0.0319, -0.0201, -0.0134,
+         0.0032, -0.0259], device='cuda:0'), grad: tensor([-1.0714e-05,  2.9989e-07,  6.4261e-08,  5.2061e-07,  7.5903e-08,
+         1.4780e-06,  3.6955e-06,  4.1071e-07,  5.2759e-07,  3.6433e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 260, time 215.07, cls_loss 0.0013 cls_loss_mapping 0.0024 cls_loss_causal 0.4797 re_mapping 0.0042 re_causal 0.0126 /// teacc 98.95 lr 0.00010000
+Epoch 262, weight, value: tensor([[-0.1273, -0.1504, -0.1029,  ..., -0.1546, -0.0181,  0.0787],
+        [ 0.0650,  0.0634,  0.0499,  ...,  0.1078, -0.1787, -0.0592],
+        [ 0.0586,  0.0197, -0.1488,  ..., -0.0466, -0.2205, -0.0894],
+        ...,
+        [-0.0551, -0.1407,  0.0887,  ..., -0.1346, -0.0497,  0.0042],
+        [ 0.0198,  0.1061,  0.1579,  ..., -0.1377, -0.1474, -0.2258],
+        [-0.1666,  0.0158, -0.2737,  ..., -0.1442, -0.1091,  0.1116]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  7.9162e-09,  2.8871e-08,  ...,  9.4064e-08,
+         -1.0431e-07, -3.7206e-07],
+        [-4.1910e-09,  1.3504e-08,  9.6858e-07,  ...,  3.3323e-06,
+          2.8163e-06,  6.3470e-07],
+        [-1.3970e-09,  2.4214e-08,  9.9652e-08,  ...,  1.6158e-07,
+          2.1746e-07,  4.4657e-07],
+        ...,
+        [ 1.8626e-09,  2.6543e-08, -4.1444e-08,  ...,  2.9476e-07,
+          9.8869e-06,  4.9889e-05],
+        [-1.2107e-08, -3.5129e-06, -5.3979e-06,  ...,  1.1651e-06,
+          9.7603e-07,  1.5460e-07],
+        [ 3.7253e-09, -6.4308e-07,  5.0338e-07,  ...,  1.2303e-06,
+         -9.2238e-06, -5.4806e-05]], device='cuda:0')
+Epoch 262, bias, value: tensor([-0.0010, -0.0179, -0.0258,  0.0323, -0.0288,  0.0304, -0.0204, -0.0135,
+         0.0063, -0.0258], device='cuda:0'), grad: tensor([-3.0082e-07,  7.4431e-06,  1.4640e-06,  3.1013e-06, -9.5889e-06,
+         1.5855e-05,  1.1846e-06,  1.2314e-04, -1.1228e-05, -1.3149e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 261, time 214.77, cls_loss 0.0012 cls_loss_mapping 0.0021 cls_loss_causal 0.4742 re_mapping 0.0041 re_causal 0.0126 /// teacc 99.06 lr 0.00010000
+Epoch 263, weight, value: tensor([[-0.1274, -0.1536, -0.1031,  ..., -0.1563, -0.0210,  0.0784],
+        [ 0.0651,  0.0633,  0.0499,  ...,  0.1081, -0.1790, -0.0596],
+        [ 0.0587,  0.0196, -0.1488,  ..., -0.0472, -0.2226, -0.0898],
+        ...,
+        [-0.0552, -0.1410,  0.0887,  ..., -0.1354, -0.0507,  0.0037],
+        [ 0.0201,  0.1061,  0.1582,  ..., -0.1378, -0.1478, -0.2260],
+        [-0.1668,  0.0157, -0.2742,  ..., -0.1450, -0.1093,  0.1117]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-08,  9.3132e-09,  6.0536e-09,  ...,  4.6566e-09,
+         -4.2049e-07, -7.7114e-07],
+        [-7.4506e-09, -6.2864e-08, -1.7043e-07,  ..., -4.4238e-08,
+          2.7940e-08, -3.6787e-08],
+        [-4.2748e-07,  1.7229e-08,  2.3749e-08,  ...,  5.5879e-09,
+          3.3528e-08,  5.4482e-08],
+        ...,
+        [ 3.7299e-07,  3.3062e-08, -1.4901e-08,  ...,  2.3283e-08,
+          1.8626e-08,  3.3993e-08],
+        [-1.5367e-08, -1.4901e-08, -1.5367e-08,  ...,  1.4901e-08,
+          7.0315e-08,  9.4995e-08],
+        [ 2.1886e-08,  8.7544e-08,  1.3178e-07,  ...,  1.1874e-07,
+          6.9849e-08,  7.9628e-08]], device='cuda:0')
+Epoch 263, bias, value: tensor([-0.0021, -0.0179, -0.0259,  0.0312, -0.0296,  0.0315, -0.0192, -0.0135,
+         0.0063, -0.0257], device='cuda:0'), grad: tensor([-1.3532e-06, -2.0629e-07, -1.4305e-06,  7.3109e-07, -2.2631e-07,
+        -1.7956e-06,  2.0470e-06,  1.3728e-06,  2.3935e-07,  6.2445e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 262, time 215.23, cls_loss 0.0010 cls_loss_mapping 0.0019 cls_loss_causal 0.4849 re_mapping 0.0040 re_causal 0.0125 /// teacc 99.03 lr 0.00010000
+Epoch 264, weight, value: tensor([[-0.1275, -0.1537, -0.1032,  ..., -0.1563, -0.0210,  0.0785],
+        [ 0.0653,  0.0640,  0.0500,  ...,  0.1093, -0.1794, -0.0599],
+        [ 0.0586,  0.0195, -0.1489,  ..., -0.0480, -0.2231, -0.0901],
+        ...,
+        [-0.0553, -0.1419,  0.0887,  ..., -0.1369, -0.0510,  0.0039],
+        [ 0.0198,  0.1060,  0.1581,  ..., -0.1384, -0.1481, -0.2261],
+        [-0.1670,  0.0156, -0.2748,  ..., -0.1456, -0.1096,  0.1117]],
+       device='cuda:0'), grad: tensor([[ 2.6543e-08,  5.7276e-08,  1.7229e-08,  ...,  1.1642e-08,
+          2.7008e-08, -6.8918e-08],
+        [-1.9651e-06, -1.0040e-06, -1.9576e-06,  ..., -6.6310e-07,
+          3.5390e-08,  1.4901e-08],
+        [ 1.7239e-06,  6.8126e-07,  1.3653e-06,  ...,  3.6042e-07,
+          1.3039e-08,  1.3504e-08],
+        ...,
+        [ 5.4063e-07,  2.5611e-07, -6.0536e-09,  ...,  1.9465e-07,
+          9.3132e-10, -5.0291e-08],
+        [ 9.1270e-08,  1.1921e-07,  5.2620e-08,  ...,  6.5193e-08,
+          9.7789e-08,  1.9558e-08],
+        [ 4.1444e-08,  2.7008e-08,  1.7043e-07,  ...,  1.3039e-08,
+          1.0245e-08,  3.9116e-08]], device='cuda:0')
+Epoch 264, bias, value: tensor([-0.0020, -0.0178, -0.0259,  0.0301, -0.0296,  0.0322, -0.0192, -0.0136,
+         0.0061, -0.0258], device='cuda:0'), grad: tensor([ 8.8941e-08, -3.7886e-06,  4.4890e-06, -2.5388e-06,  1.2573e-07,
+         1.2061e-06, -8.4471e-07,  2.5146e-07,  5.7509e-07,  4.3679e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 263, time 215.24, cls_loss 0.0013 cls_loss_mapping 0.0030 cls_loss_causal 0.4891 re_mapping 0.0042 re_causal 0.0128 /// teacc 99.08 lr 0.00010000
+Epoch 265, weight, value: tensor([[-0.1274, -0.1536, -0.1034,  ..., -0.1563, -0.0209,  0.0788],
+        [ 0.0660,  0.0658,  0.0505,  ...,  0.1126, -0.1796, -0.0599],
+        [ 0.0587,  0.0194, -0.1489,  ..., -0.0489, -0.2237, -0.0903],
+        ...,
+        [-0.0554, -0.1430,  0.0887,  ..., -0.1384, -0.0511,  0.0038],
+        [ 0.0196,  0.1060,  0.1580,  ..., -0.1397, -0.1483, -0.2262],
+        [-0.1677,  0.0134, -0.2755,  ..., -0.1507, -0.1110,  0.1116]],
+       device='cuda:0'), grad: tensor([[ 1.8720e-07,  3.4785e-07,  1.4808e-07,  ...,  2.4447e-07,
+          6.0955e-07,  5.4017e-08],
+        [-9.2667e-08,  1.1921e-07, -6.7754e-07,  ..., -1.7323e-07,
+          3.3993e-08,  1.0245e-08],
+        [-9.6411e-06, -1.0267e-05,  9.1735e-08,  ...,  2.5574e-06,
+          9.1866e-06,  1.1642e-08],
+        ...,
+        [ 2.0536e-07,  2.2911e-07,  1.0710e-07,  ...,  7.9162e-08,
+          1.3970e-08,  3.7253e-09],
+        [ 7.5102e-06,  1.0483e-05, -6.4727e-08,  ...,  1.3178e-06,
+          9.5926e-08,  5.1223e-09],
+        [ 2.2771e-07,  4.9872e-07,  1.8766e-07,  ...,  4.5868e-07,
+          9.5740e-07,  1.1036e-07]], device='cuda:0')
+Epoch 265, bias, value: tensor([-0.0017, -0.0172, -0.0259,  0.0301, -0.0261,  0.0320, -0.0194, -0.0136,
+         0.0060, -0.0277], device='cuda:0'), grad: tensor([ 1.7146e-06, -2.3190e-07, -7.6517e-06,  3.0566e-06, -2.0742e-05,
+         6.9514e-06, -5.7332e-06,  5.7789e-07,  1.9357e-05,  2.7530e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 264, time 215.07, cls_loss 0.0013 cls_loss_mapping 0.0026 cls_loss_causal 0.4814 re_mapping 0.0042 re_causal 0.0125 /// teacc 99.08 lr 0.00010000
+Epoch 266, weight, value: tensor([[-0.1278, -0.1542, -0.1036,  ..., -0.1577, -0.0217,  0.0788],
+        [ 0.0660,  0.0655,  0.0505,  ...,  0.1126, -0.1798, -0.0602],
+        [ 0.0589,  0.0193, -0.1490,  ..., -0.0493, -0.2256, -0.0922],
+        ...,
+        [-0.0555, -0.1435,  0.0887,  ..., -0.1389, -0.0512,  0.0036],
+        [ 0.0205,  0.1066,  0.1591,  ..., -0.1391, -0.1484, -0.2266],
+        [-0.1676,  0.0154, -0.2750,  ..., -0.1512, -0.1110,  0.1123]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  2.7008e-08,  1.0710e-08,  ...,  1.4435e-08,
+          2.7474e-08, -1.3178e-07],
+        [-1.0990e-07,  1.9092e-08,  2.1867e-06,  ...,  5.7137e-07,
+          3.3062e-08,  1.6764e-08],
+        [ 3.7253e-08,  2.5146e-08,  8.7544e-08,  ...,  3.0734e-08,
+          2.0489e-08,  1.3504e-08],
+        ...,
+        [ 7.3109e-08, -7.0315e-08, -3.7253e-06,  ..., -1.0589e-06,
+          2.7940e-09, -1.6298e-08],
+        [ 7.8697e-08,  1.7276e-07,  1.0021e-06,  ...,  3.9907e-07,
+          2.4727e-07,  3.4925e-08],
+        [ 8.8476e-09,  2.3749e-08,  1.8068e-07,  ...,  3.2131e-08,
+          1.8626e-08,  6.9849e-08]], device='cuda:0')
+Epoch 266, bias, value: tensor([-0.0022, -0.0174, -0.0259,  0.0303, -0.0265,  0.0313, -0.0188, -0.0136,
+         0.0062, -0.0269], device='cuda:0'), grad: tensor([-1.4342e-07,  3.6620e-06,  2.4075e-07, -1.7975e-07,  5.4529e-07,
+        -1.6056e-06,  7.8604e-07, -6.0834e-06,  2.3320e-06,  4.2329e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 265, time 215.48, cls_loss 0.0011 cls_loss_mapping 0.0022 cls_loss_causal 0.4837 re_mapping 0.0041 re_causal 0.0124 /// teacc 99.04 lr 0.00010000
+Epoch 267, weight, value: tensor([[-0.1279, -0.1544, -0.1036,  ..., -0.1578, -0.0220,  0.0787],
+        [ 0.0656,  0.0656,  0.0500,  ...,  0.1126, -0.1801, -0.0606],
+        [ 0.0587,  0.0191, -0.1490,  ..., -0.0503, -0.2271, -0.0924],
+        ...,
+        [-0.0550, -0.1437,  0.0893,  ..., -0.1382, -0.0513,  0.0040],
+        [ 0.0207,  0.1062,  0.1591,  ..., -0.1404, -0.1495, -0.2268],
+        [-0.1680,  0.0154, -0.2776,  ..., -0.1538, -0.1132,  0.1123]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  2.4680e-08,  3.7253e-08,  ...,  3.5856e-08,
+         -9.1735e-07, -3.8482e-06],
+        [-2.3423e-07, -3.5390e-08, -8.3353e-08,  ..., -1.0012e-07,
+          2.8405e-08,  9.2201e-08],
+        [ 4.9826e-08,  2.0489e-08,  9.5461e-08,  ...,  4.9826e-08,
+          2.9337e-08,  4.8429e-08],
+        ...,
+        [ 1.2293e-07,  2.4214e-08, -2.7986e-07,  ...,  6.2399e-08,
+          1.1642e-08,  3.8650e-08],
+        [ 1.3970e-08,  2.3609e-07,  9.1270e-08,  ...,  1.3271e-07,
+          1.5926e-07,  9.7323e-08],
+        [ 1.0245e-08,  4.1910e-09,  7.8231e-08,  ...,  2.2352e-08,
+          1.2107e-07,  3.7905e-07]], device='cuda:0')
+Epoch 267, bias, value: tensor([-0.0024, -0.0183, -0.0260,  0.0304, -0.0253,  0.0312, -0.0181, -0.0132,
+         0.0058, -0.0278], device='cuda:0'), grad: tensor([-5.6624e-06,  4.1910e-08,  3.2317e-07,  2.1234e-07, -2.0722e-07,
+         3.9227e-06,  3.7253e-08, -4.5262e-07,  1.0412e-06,  7.4040e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 266, time 215.44, cls_loss 0.0011 cls_loss_mapping 0.0018 cls_loss_causal 0.4880 re_mapping 0.0039 re_causal 0.0121 /// teacc 99.02 lr 0.00010000
+Epoch 268, weight, value: tensor([[-0.1278, -0.1544, -0.1038,  ..., -0.1578, -0.0220,  0.0789],
+        [ 0.0657,  0.0658,  0.0500,  ...,  0.1131, -0.1803, -0.0612],
+        [ 0.0588,  0.0189, -0.1491,  ..., -0.0509, -0.2286, -0.0933],
+        ...,
+        [-0.0551, -0.1440,  0.0894,  ..., -0.1389, -0.0514,  0.0038],
+        [ 0.0209,  0.1061,  0.1593,  ..., -0.1406, -0.1502, -0.2270],
+        [-0.1684,  0.0149, -0.2780,  ..., -0.1541, -0.1136,  0.1124]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -1.6764e-08,  1.8626e-09,  ...,  4.6566e-10,
+         -2.9337e-08, -1.8720e-06],
+        [-7.3574e-08, -3.1199e-08, -6.0536e-09,  ..., -6.1933e-08,
+          4.6566e-09,  1.8300e-07],
+        [ 9.3132e-09,  5.5879e-09,  1.6112e-07,  ...,  5.5879e-09,
+          3.7253e-09,  1.0338e-06],
+        ...,
+        [ 3.0734e-08,  2.1420e-08, -3.3388e-07,  ...,  3.4459e-08,
+          2.7940e-09, -9.5926e-08],
+        [ 1.0710e-08,  4.6566e-09,  3.6787e-08,  ...,  1.0245e-08,
+          2.0955e-08,  8.5216e-08],
+        [ 4.6566e-09,  6.5193e-09,  8.9873e-08,  ...,  1.8626e-09,
+          1.7229e-08,  4.2794e-07]], device='cuda:0')
+Epoch 268, bias, value: tensor([-0.0023, -0.0184, -0.0260,  0.0303, -0.0250,  0.0311, -0.0180, -0.0131,
+         0.0057, -0.0280], device='cuda:0'), grad: tensor([-3.9414e-06,  2.8312e-07,  2.4848e-06,  1.0096e-06,  7.3574e-08,
+        -7.8976e-07,  2.2678e-07, -5.5693e-07,  2.2259e-07,  9.8720e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 267, time 214.86, cls_loss 0.0009 cls_loss_mapping 0.0018 cls_loss_causal 0.5120 re_mapping 0.0040 re_causal 0.0131 /// teacc 99.06 lr 0.00010000
+Epoch 269, weight, value: tensor([[-0.1275, -0.1544, -0.1038,  ..., -0.1578, -0.0219,  0.0790],
+        [ 0.0662,  0.0659,  0.0508,  ...,  0.1144, -0.1798, -0.0604],
+        [ 0.0589,  0.0191, -0.1491,  ..., -0.0511, -0.2293, -0.0932],
+        ...,
+        [-0.0555, -0.1443,  0.0889,  ..., -0.1411, -0.0522,  0.0034],
+        [ 0.0206,  0.1058,  0.1593,  ..., -0.1409, -0.1509, -0.2273],
+        [-0.1689,  0.0149, -0.2787,  ..., -0.1543, -0.1140,  0.1123]],
+       device='cuda:0'), grad: tensor([[-1.2666e-07,  3.6322e-08,  3.2596e-09,  ...,  6.0536e-09,
+         -1.9418e-07, -6.8964e-07],
+        [-6.9849e-09,  1.2107e-08,  1.3225e-07,  ...,  2.4214e-08,
+          8.5216e-08,  6.7521e-08],
+        [-6.3796e-08,  2.0023e-08,  1.8161e-08,  ..., -1.8626e-08,
+          2.1886e-08,  5.4482e-08],
+        ...,
+        [ 1.7695e-08,  1.1642e-08, -3.6228e-07,  ..., -8.1025e-08,
+         -1.6112e-07, -8.1491e-08],
+        [-2.4866e-06, -6.6906e-06,  3.7253e-09,  ...,  7.4506e-09,
+         -1.8571e-06, -1.6931e-06],
+        [ 9.6858e-08, -1.2573e-08,  7.5437e-08,  ...,  3.7253e-08,
+          1.8347e-07, -5.4017e-08]], device='cuda:0')
+Epoch 269, bias, value: tensor([-0.0021, -0.0175, -0.0260,  0.0303, -0.0248,  0.0311, -0.0179, -0.0133,
+         0.0054, -0.0283], device='cuda:0'), grad: tensor([-1.4678e-06,  7.9488e-07,  9.3132e-08,  3.5297e-07,  1.4585e-06,
+         2.2218e-05,  9.5740e-07, -1.5479e-06, -2.3067e-05,  2.4773e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 268, time 215.49, cls_loss 0.0010 cls_loss_mapping 0.0021 cls_loss_causal 0.4848 re_mapping 0.0039 re_causal 0.0125 /// teacc 98.98 lr 0.00010000
+Epoch 270, weight, value: tensor([[-0.1275, -0.1544, -0.1041,  ..., -0.1578, -0.0219,  0.0791],
+        [ 0.0667,  0.0665,  0.0513,  ...,  0.1158, -0.1801, -0.0599],
+        [ 0.0588,  0.0191, -0.1493,  ..., -0.0518, -0.2299, -0.0934],
+        ...,
+        [-0.0558, -0.1452,  0.0887,  ..., -0.1425, -0.0521,  0.0032],
+        [ 0.0212,  0.1060,  0.1597,  ..., -0.1420, -0.1512, -0.2274],
+        [-0.1704,  0.0141, -0.2804,  ..., -0.1552, -0.1146,  0.1122]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.7940e-09,  8.8476e-09,  ...,  6.9849e-09,
+          1.8626e-09, -1.2573e-08],
+        [-2.6589e-07, -1.1828e-07, -2.3702e-07,  ..., -1.5926e-07,
+          3.2596e-08,  2.3749e-08],
+        [ 5.9605e-08,  2.5146e-08,  1.6624e-07,  ...,  8.3819e-08,
+          2.8871e-08,  2.8871e-08],
+        ...,
+        [ 8.8941e-08,  4.1444e-08, -1.7695e-07,  ...,  2.3143e-07,
+          1.3551e-07, -7.9628e-08],
+        [ 3.9116e-08,  1.8161e-08,  5.8673e-08,  ...,  2.8405e-08,
+          1.3970e-09,  8.8476e-09],
+        [ 1.8626e-08,  4.1910e-09,  7.4506e-08,  ...,  6.6590e-08,
+          4.2841e-08,  1.1176e-08]], device='cuda:0')
+Epoch 270, bias, value: tensor([-0.0020, -0.0171, -0.0261,  0.0309, -0.0243,  0.0309, -0.0179, -0.0135,
+         0.0055, -0.0287], device='cuda:0'), grad: tensor([-8.3819e-09, -3.4552e-07,  4.7311e-07,  3.4459e-08, -6.5146e-07,
+         7.1712e-08,  7.9162e-08, -7.6834e-08,  1.4063e-07,  2.9569e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 269, time 215.14, cls_loss 0.0012 cls_loss_mapping 0.0021 cls_loss_causal 0.4851 re_mapping 0.0040 re_causal 0.0120 /// teacc 99.00 lr 0.00010000
+Epoch 271, weight, value: tensor([[-0.1267, -0.1546, -0.1033,  ..., -0.1576, -0.0217,  0.0793],
+        [ 0.0670,  0.0675,  0.0514,  ...,  0.1166, -0.1806, -0.0600],
+        [ 0.0579,  0.0187, -0.1495,  ..., -0.0532, -0.2330, -0.0941],
+        ...,
+        [-0.0553, -0.1441,  0.0896,  ..., -0.1431, -0.0523,  0.0033],
+        [ 0.0192,  0.1056,  0.1575,  ..., -0.1414, -0.1509, -0.2276],
+        [-0.1708,  0.0142, -0.2807,  ..., -0.1554, -0.1149,  0.1123]],
+       device='cuda:0'), grad: tensor([[ 1.7695e-08,  1.0710e-08,  9.3132e-09,  ...,  1.0245e-08,
+          9.3132e-09, -3.1199e-08],
+        [-1.3458e-07, -7.5437e-08, -1.5646e-07,  ..., -1.2480e-07,
+          1.0245e-08,  6.9849e-09],
+        [-2.7614e-07,  1.6764e-08,  2.7940e-08,  ...,  3.6322e-08,
+          1.1642e-08,  5.1223e-09],
+        ...,
+        [ 2.9616e-07,  3.0734e-08,  2.2352e-08,  ...,  5.3551e-08,
+          3.2596e-09, -1.6298e-08],
+        [ 1.6298e-08, -5.5879e-09, -2.5146e-08,  ...,  1.1642e-08,
+          2.8405e-08,  2.3283e-09],
+        [ 2.0955e-08,  2.5611e-08,  2.9337e-08,  ...,  9.8720e-08,
+          4.0978e-08,  1.8626e-08]], device='cuda:0')
+Epoch 271, bias, value: tensor([-0.0017, -0.0169, -0.0265,  0.0315, -0.0244,  0.0310, -0.0183, -0.0129,
+         0.0042, -0.0287], device='cuda:0'), grad: tensor([ 8.5682e-08, -2.2538e-07, -6.0024e-07, -3.9348e-07, -1.5087e-07,
+         8.8755e-07, -7.3714e-07,  7.1991e-07,  1.4948e-07,  2.7660e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 270, time 214.88, cls_loss 0.0011 cls_loss_mapping 0.0019 cls_loss_causal 0.5156 re_mapping 0.0040 re_causal 0.0127 /// teacc 98.98 lr 0.00010000
+Epoch 272, weight, value: tensor([[-0.1269, -0.1546, -0.1035,  ..., -0.1576, -0.0217,  0.0794],
+        [ 0.0669,  0.0676,  0.0514,  ...,  0.1170, -0.1807, -0.0602],
+        [ 0.0587,  0.0195, -0.1494,  ..., -0.0521, -0.2333, -0.0943],
+        ...,
+        [-0.0554, -0.1444,  0.0897,  ..., -0.1438, -0.0525,  0.0036],
+        [ 0.0177,  0.1057,  0.1573,  ..., -0.1425, -0.1509, -0.2277],
+        [-0.1710,  0.0144, -0.2811,  ..., -0.1554, -0.1149,  0.1124]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  4.6566e-09,  2.3283e-09,  ...,  2.3283e-09,
+         -1.1828e-07, -4.3167e-07],
+        [ 3.7253e-08,  2.0955e-08,  2.7940e-08,  ...,  1.3504e-08,
+          4.0513e-08,  6.3796e-08],
+        [-2.7008e-08,  9.3132e-10,  4.1910e-09,  ..., -3.2596e-09,
+          7.4506e-09,  1.6764e-08],
+        ...,
+        [ 7.4506e-09,  9.3132e-10, -2.3283e-09,  ...,  9.3132e-10,
+          8.8476e-09,  1.9092e-08],
+        [-1.3504e-08,  1.8626e-09, -2.2817e-08,  ...,  6.9849e-09,
+          3.3528e-08,  2.7008e-08],
+        [ 1.0245e-08,  3.7253e-09,  9.7789e-09,  ...,  1.8626e-09,
+          5.8208e-08,  1.6065e-07]], device='cuda:0')
+Epoch 272, bias, value: tensor([-0.0016, -0.0170, -0.0263,  0.0309, -0.0246,  0.0310, -0.0184, -0.0128,
+         0.0042, -0.0287], device='cuda:0'), grad: tensor([-6.9849e-07,  2.6356e-07, -9.3132e-10, -4.1910e-08,  1.9092e-08,
+        -9.9838e-07,  1.0505e-06,  5.4017e-08,  4.7963e-08,  3.1991e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 271, time 215.13, cls_loss 0.0010 cls_loss_mapping 0.0017 cls_loss_causal 0.5041 re_mapping 0.0040 re_causal 0.0131 /// teacc 99.00 lr 0.00010000
+Epoch 273, weight, value: tensor([[-0.1289, -0.1552, -0.1037,  ..., -0.1576, -0.0220,  0.0791],
+        [ 0.0668,  0.0673,  0.0513,  ...,  0.1172, -0.1811, -0.0610],
+        [ 0.0589,  0.0197, -0.1494,  ..., -0.0520, -0.2334, -0.0949],
+        ...,
+        [-0.0554, -0.1445,  0.0899,  ..., -0.1434, -0.0526,  0.0039],
+        [ 0.0180,  0.1062,  0.1576,  ..., -0.1425, -0.1512, -0.2279],
+        [-0.1690,  0.0153, -0.2819,  ..., -0.1554, -0.1150,  0.1132]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-09,  9.3132e-10,  1.3970e-09,  ...,  1.3970e-09,
+         -6.3330e-06, -1.6242e-05],
+        [-8.8476e-08, -6.6590e-08, -1.4342e-07,  ..., -1.1548e-07,
+          9.3598e-08,  2.4913e-07],
+        [-7.9162e-09,  6.0536e-09,  1.0710e-08,  ...,  1.1176e-08,
+          3.3062e-08,  8.1025e-08],
+        ...,
+        [ 3.8650e-08,  2.9337e-08,  4.9826e-08,  ...,  4.9360e-08,
+          1.4901e-08,  3.1665e-08],
+        [-9.7789e-09, -1.2107e-08, -1.3970e-08,  ...,  9.3132e-09,
+          3.6787e-08,  1.0012e-07],
+        [ 5.1223e-09, -8.3819e-09,  9.3132e-09,  ...,  9.7789e-09,
+          1.9744e-07,  4.7637e-07]], device='cuda:0')
+Epoch 273, bias, value: tensor([-0.0021, -0.0173, -0.0263,  0.0305, -0.0247,  0.0306, -0.0181, -0.0128,
+         0.0045, -0.0281], device='cuda:0'), grad: tensor([-3.3200e-05,  2.6356e-07,  1.6810e-07,  1.2480e-07,  1.1642e-07,
+         4.1723e-07,  3.0756e-05,  1.6857e-07,  1.6764e-07,  9.9652e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 272, time 215.09, cls_loss 0.0013 cls_loss_mapping 0.0018 cls_loss_causal 0.4959 re_mapping 0.0042 re_causal 0.0129 /// teacc 98.97 lr 0.00010000
+Epoch 274, weight, value: tensor([[-0.1295, -0.1552, -0.1040,  ..., -0.1576, -0.0219,  0.0794],
+        [ 0.0667,  0.0680,  0.0514,  ...,  0.1179, -0.1837, -0.0630],
+        [ 0.0587,  0.0189, -0.1495,  ..., -0.0532, -0.2338, -0.0956],
+        ...,
+        [-0.0555, -0.1459,  0.0900,  ..., -0.1465, -0.0535,  0.0043],
+        [ 0.0185,  0.1066,  0.1578,  ..., -0.1429, -0.1514, -0.2280],
+        [-0.1691,  0.0131, -0.2842,  ..., -0.1577, -0.1154,  0.1124]],
+       device='cuda:0'), grad: tensor([[ 3.0268e-07,  1.4110e-07,  1.5879e-07,  ...,  6.1234e-08,
+          1.8626e-09, -8.5449e-08],
+        [-2.5854e-06, -1.3160e-06, -1.5246e-06,  ..., -5.2992e-07,
+          2.5611e-09,  1.6997e-08],
+        [-8.9919e-07,  9.7323e-08,  1.2526e-07,  ...,  5.1688e-08,
+          1.8626e-09,  1.6997e-08],
+        ...,
+        [ 6.7148e-07,  3.1665e-08, -1.9558e-08,  ...,  3.1432e-08,
+          1.6298e-09, -6.3097e-08],
+        [ 2.5542e-07,  7.9628e-08,  8.8243e-08,  ...,  3.7951e-08,
+          2.0955e-09,  1.9325e-08],
+        [ 4.5868e-08,  2.8801e-07,  3.7719e-08,  ...,  1.2498e-06,
+          2.0955e-07,  5.5227e-07]], device='cuda:0')
+Epoch 274, bias, value: tensor([-0.0019, -0.0177, -0.0264,  0.0295, -0.0222,  0.0314, -0.0183, -0.0127,
+         0.0047, -0.0298], device='cuda:0'), grad: tensor([ 5.9186e-07, -6.0275e-06, -2.1663e-06,  4.0140e-07, -2.7306e-06,
+         2.7264e-07,  4.6380e-06,  1.4966e-06,  6.6496e-07,  2.8666e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 273, time 215.15, cls_loss 0.0011 cls_loss_mapping 0.0022 cls_loss_causal 0.4867 re_mapping 0.0042 re_causal 0.0128 /// teacc 98.96 lr 0.00010000
+Epoch 275, weight, value: tensor([[-0.1298, -0.1553, -0.1042,  ..., -0.1577, -0.0220,  0.0795],
+        [ 0.0673,  0.0684,  0.0515,  ...,  0.1195, -0.1838, -0.0639],
+        [ 0.0585,  0.0181, -0.1497,  ..., -0.0564, -0.2341, -0.0977],
+        ...,
+        [-0.0557, -0.1463,  0.0901,  ..., -0.1474, -0.0539,  0.0056],
+        [ 0.0185,  0.1066,  0.1580,  ..., -0.1433, -0.1518, -0.2283],
+        [-0.1694,  0.0121, -0.2847,  ..., -0.1587, -0.1158,  0.1120]],
+       device='cuda:0'), grad: tensor([[ 5.3504e-07,  2.9448e-06,  3.6694e-07,  ...,  2.6310e-08,
+          2.5351e-06,  3.4366e-06],
+        [ 1.1339e-07,  1.6927e-07,  1.3574e-07,  ..., -6.5193e-09,
+          7.3342e-08,  1.0524e-07],
+        [-4.8196e-08,  1.3970e-08,  3.2829e-08,  ...,  1.8626e-09,
+          8.8476e-09,  2.5844e-08],
+        ...,
+        [ 1.6764e-08,  7.2177e-09, -1.4179e-07,  ...,  5.1223e-09,
+          3.2596e-09, -8.9407e-08],
+        [-1.1325e-06,  2.7474e-06, -8.9966e-07,  ...,  1.0477e-08,
+          2.9523e-06,  3.8743e-06],
+        [ 2.9593e-07,  4.9174e-07,  2.6519e-07,  ...,  2.0955e-09,
+          3.6461e-07,  5.2620e-07]], device='cuda:0')
+Epoch 275, bias, value: tensor([-0.0019, -0.0176, -0.0265,  0.0280, -0.0212,  0.0322, -0.0182, -0.0126,
+         0.0045, -0.0305], device='cuda:0'), grad: tensor([ 1.1817e-05,  7.3528e-07, -3.4925e-09,  3.0175e-07,  2.0117e-07,
+         5.1819e-06, -2.7299e-05, -3.3877e-07,  6.7316e-06,  2.6803e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 274, time 214.83, cls_loss 0.0009 cls_loss_mapping 0.0022 cls_loss_causal 0.4844 re_mapping 0.0040 re_causal 0.0126 /// teacc 99.01 lr 0.00010000
+Epoch 276, weight, value: tensor([[-0.1304, -0.1552, -0.1046,  ..., -0.1579, -0.0220,  0.0798],
+        [ 0.0673,  0.0680,  0.0515,  ...,  0.1196, -0.1842, -0.0646],
+        [ 0.0590,  0.0188, -0.1497,  ..., -0.0555, -0.2337, -0.0963],
+        ...,
+        [-0.0560, -0.1465,  0.0901,  ..., -0.1483, -0.0540,  0.0052],
+        [ 0.0187,  0.1063,  0.1580,  ..., -0.1439, -0.1527, -0.2287],
+        [-0.1695,  0.0123, -0.2850,  ..., -0.1587, -0.1159,  0.1120]],
+       device='cuda:0'), grad: tensor([[-1.3458e-07, -1.9791e-08,  3.2363e-08,  ..., -3.2829e-08,
+         -2.1746e-07, -1.8626e-06],
+        [-4.9826e-08, -2.7707e-08, -7.5204e-08,  ..., -7.5670e-08,
+          1.8394e-08,  4.0513e-08],
+        [-7.4040e-08,  9.0804e-09,  1.0151e-07,  ...,  1.5134e-08,
+          1.2806e-08,  6.8685e-08],
+        ...,
+        [ 8.5216e-08,  1.1409e-08,  1.1339e-07,  ...,  1.3737e-08,
+          9.3132e-09,  2.5379e-08],
+        [-6.5425e-08,  1.9232e-07, -2.8359e-07,  ...,  1.1642e-08,
+          3.9325e-07,  5.3039e-07],
+        [ 1.0780e-07,  2.1118e-07,  2.5379e-08,  ...,  3.0035e-08,
+          4.5612e-07,  1.4547e-06]], device='cuda:0')
+Epoch 276, bias, value: tensor([-0.0017, -0.0177, -0.0264,  0.0280, -0.0214,  0.0323, -0.0181, -0.0127,
+         0.0042, -0.0305], device='cuda:0'), grad: tensor([-2.9430e-06, -4.9127e-08,  1.1944e-07,  1.7765e-07,  8.9407e-08,
+        -3.8445e-06,  2.6673e-06,  3.4645e-07,  6.6496e-07,  2.7735e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 275, time 215.37, cls_loss 0.0010 cls_loss_mapping 0.0017 cls_loss_causal 0.5021 re_mapping 0.0041 re_causal 0.0126 /// teacc 98.96 lr 0.00010000
+Epoch 277, weight, value: tensor([[-0.1308, -0.1553, -0.1049,  ..., -0.1568, -0.0206,  0.0803],
+        [ 0.0675,  0.0685,  0.0516,  ...,  0.1210, -0.1846, -0.0650],
+        [ 0.0589,  0.0186, -0.1498,  ..., -0.0561, -0.2339, -0.0968],
+        ...,
+        [-0.0560, -0.1468,  0.0902,  ..., -0.1494, -0.0539,  0.0019],
+        [ 0.0186,  0.1063,  0.1581,  ..., -0.1445, -0.1530, -0.2289],
+        [-0.1697,  0.0123, -0.2852,  ..., -0.1588, -0.1160,  0.1129]],
+       device='cuda:0'), grad: tensor([[ 2.3795e-07,  4.0513e-08,  3.8184e-08,  ...,  2.3749e-08,
+         -4.6566e-10, -2.8871e-08],
+        [ 1.3066e-06,  3.5856e-07,  3.8277e-07,  ...,  2.3656e-07,
+          9.3132e-10,  2.3283e-09],
+        [-4.3102e-06,  2.4075e-07,  4.7637e-07,  ...,  3.1106e-07,
+          4.6566e-10,  5.1223e-09],
+        ...,
+        [ 1.9092e-07,  2.9337e-08,  1.3970e-08,  ...,  2.4680e-08,
+          4.6566e-10, -2.3283e-09],
+        [ 5.5842e-06,  3.6275e-07,  2.1188e-07,  ...,  1.7555e-07,
+          5.5879e-09,  8.8476e-09],
+        [ 2.1085e-06,  2.5611e-08,  3.1199e-08,  ...,  1.0245e-08,
+          1.8626e-09,  3.1758e-07]], device='cuda:0')
+Epoch 277, bias, value: tensor([-0.0003, -0.0176, -0.0264,  0.0283, -0.0216,  0.0323, -0.0198, -0.0130,
+         0.0041, -0.0298], device='cuda:0'), grad: tensor([ 6.4541e-07,  3.3733e-06, -1.2957e-05, -2.6047e-05,  3.4273e-07,
+         4.8093e-06,  2.3190e-07,  5.0897e-07,  1.6019e-05,  1.3039e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 276, time 214.87, cls_loss 0.0011 cls_loss_mapping 0.0021 cls_loss_causal 0.4744 re_mapping 0.0041 re_causal 0.0125 /// teacc 99.10 lr 0.00010000
+Epoch 278, weight, value: tensor([[-0.1302, -0.1553, -0.1038,  ..., -0.1568, -0.0204,  0.0807],
+        [ 0.0676,  0.0686,  0.0516,  ...,  0.1212, -0.1853, -0.0653],
+        [ 0.0590,  0.0184, -0.1499,  ..., -0.0564, -0.2344, -0.0971],
+        ...,
+        [-0.0561, -0.1470,  0.0902,  ..., -0.1494, -0.0540,  0.0015],
+        [ 0.0181,  0.1057,  0.1579,  ..., -0.1458, -0.1542, -0.2293],
+        [-0.1700,  0.0124, -0.2854,  ..., -0.1590, -0.1162,  0.1128]],
+       device='cuda:0'), grad: tensor([[ 2.6543e-08,  2.9337e-08,  1.3039e-08,  ...,  3.7253e-09,
+          2.7474e-08, -2.7008e-08],
+        [ 4.0047e-08,  1.3458e-07,  1.0896e-07,  ...,  2.7474e-08,
+          1.3411e-07,  4.3306e-08],
+        [-4.8894e-07, -1.4901e-08,  1.1967e-07,  ...,  6.0536e-09,
+          3.7253e-09,  4.6566e-09],
+        ...,
+        [ 9.4064e-08,  1.3970e-08, -3.3574e-07,  ...,  6.6124e-08,
+          2.6543e-08, -3.2596e-09],
+        [ 1.8580e-07,  2.8638e-07,  1.1548e-07,  ...,  7.5903e-08,
+          2.3702e-07,  7.5437e-08],
+        [ 5.5879e-09,  1.9558e-08,  2.5146e-08,  ...,  2.5611e-07,
+          8.6147e-08,  1.5367e-08]], device='cuda:0')
+Epoch 278, bias, value: tensor([ 0.0003, -0.0179, -0.0265,  0.0291, -0.0217,  0.0323, -0.0198, -0.0131,
+         0.0034, -0.0299], device='cuda:0'), grad: tensor([ 8.1491e-08,  5.6392e-07, -7.6089e-07,  1.2014e-07, -1.3700e-06,
+         2.6263e-06, -3.4980e-06, -6.8918e-08,  1.2834e-06,  1.0096e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 277, time 214.92, cls_loss 0.0011 cls_loss_mapping 0.0017 cls_loss_causal 0.5003 re_mapping 0.0042 re_causal 0.0129 /// teacc 99.02 lr 0.00010000
+Epoch 279, weight, value: tensor([[-0.1308, -0.1554, -0.1036,  ..., -0.1569, -0.0204,  0.0808],
+        [ 0.0686,  0.0686,  0.0520,  ...,  0.1240, -0.1856, -0.0651],
+        [ 0.0583,  0.0189, -0.1501,  ..., -0.0599, -0.2347, -0.0974],
+        ...,
+        [-0.0562, -0.1475,  0.0902,  ..., -0.1498, -0.0541,  0.0015],
+        [ 0.0182,  0.1058,  0.1581,  ..., -0.1460, -0.1546, -0.2297],
+        [-0.1706,  0.0095, -0.2858,  ..., -0.1594, -0.1164,  0.1126]],
+       device='cuda:0'), grad: tensor([[ 6.0536e-09,  2.4773e-07,  3.2596e-09,  ...,  2.8796e-06,
+          2.0355e-05,  1.4223e-05],
+        [-1.2573e-08, -2.7940e-09, -1.9092e-08,  ..., -5.1223e-09,
+          1.3551e-07,  1.2945e-07],
+        [-3.6322e-08,  6.0536e-09,  1.1176e-08,  ...,  1.0245e-08,
+          6.8452e-08,  1.2107e-07],
+        ...,
+        [ 1.1642e-08,  5.1223e-09, -1.5832e-08,  ...,  6.0536e-09,
+          3.3993e-08,  1.6671e-07],
+        [-1.8626e-08, -9.2015e-07, -3.5297e-07,  ..., -5.9139e-08,
+          3.8836e-07,  3.2783e-07],
+        [ 4.6566e-09,  1.4435e-08,  2.1886e-08,  ...,  2.4214e-08,
+          1.8813e-07,  2.5984e-07]], device='cuda:0')
+Epoch 279, bias, value: tensor([ 0.0005, -0.0173, -0.0266,  0.0293, -0.0192,  0.0323, -0.0200, -0.0131,
+         0.0032, -0.0322], device='cuda:0'), grad: tensor([ 6.6280e-05,  4.7451e-07,  2.2724e-07,  1.2061e-07,  9.0664e-07,
+         8.8140e-06, -7.7128e-05,  2.8359e-07, -7.9907e-07,  7.3202e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 278, time 214.99, cls_loss 0.0012 cls_loss_mapping 0.0022 cls_loss_causal 0.4940 re_mapping 0.0040 re_causal 0.0119 /// teacc 99.06 lr 0.00010000
+Epoch 280, weight, value: tensor([[-0.1312, -0.1552, -0.1024,  ..., -0.1566, -0.0204,  0.0815],
+        [ 0.0688,  0.0703,  0.0521,  ...,  0.1268, -0.1858, -0.0656],
+        [ 0.0581,  0.0186, -0.1503,  ..., -0.0610, -0.2351, -0.0986],
+        ...,
+        [-0.0559, -0.1480,  0.0906,  ..., -0.1490, -0.0541,  0.0018],
+        [ 0.0183,  0.1058,  0.1582,  ..., -0.1463, -0.1550, -0.2304],
+        [-0.1710,  0.0094, -0.2868,  ..., -0.1597, -0.1166,  0.1127]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  6.2864e-08,  2.5611e-08,  ...,  1.0245e-08,
+          8.7544e-08,  9.3132e-09],
+        [ 5.6671e-07,  2.1793e-07,  3.7104e-05,  ...,  7.4506e-09,
+          9.3132e-09,  6.0536e-09],
+        [-4.6566e-10,  8.3819e-09,  1.1930e-06,  ...,  3.2596e-09,
+          3.7253e-09,  4.6566e-10],
+        ...,
+        [-5.8673e-07, -2.1793e-07, -3.9011e-05,  ...,  2.0489e-08,
+          1.0245e-08,  1.1176e-08],
+        [ 5.1223e-09,  1.1642e-08,  2.0256e-07,  ...,  7.4506e-09,
+          1.4901e-08,  1.2107e-08],
+        [ 4.1910e-09,  5.1223e-09,  2.5705e-07,  ...,  3.9581e-08,
+          2.3749e-08, -1.9558e-08]], device='cuda:0')
+Epoch 280, bias, value: tensor([ 0.0014, -0.0174, -0.0268,  0.0291, -0.0195,  0.0318, -0.0203, -0.0127,
+         0.0030, -0.0322], device='cuda:0'), grad: tensor([ 2.9849e-07,  5.4181e-05,  1.7127e-06,  1.4156e-07,  4.6100e-08,
+         2.2352e-07, -5.3598e-07, -5.6833e-05,  3.6694e-07,  4.4284e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 279, time 214.72, cls_loss 0.0010 cls_loss_mapping 0.0016 cls_loss_causal 0.4998 re_mapping 0.0040 re_causal 0.0129 /// teacc 98.99 lr 0.00010000
+Epoch 281, weight, value: tensor([[-0.1316, -0.1551, -0.1025,  ..., -0.1567, -0.0204,  0.0818],
+        [ 0.0683,  0.0701,  0.0520,  ...,  0.1275, -0.1866, -0.0679],
+        [ 0.0591,  0.0180, -0.1504,  ..., -0.0613, -0.2355, -0.0974],
+        ...,
+        [-0.0563, -0.1487,  0.0907,  ..., -0.1502, -0.0546,  0.0017],
+        [ 0.0192,  0.1065,  0.1586,  ..., -0.1469, -0.1556, -0.2301],
+        [-0.1737,  0.0093, -0.2873,  ..., -0.1599, -0.1168,  0.1125]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  2.3283e-08,  9.3132e-10,  ...,  4.6566e-10,
+          2.8871e-08, -1.1781e-07],
+        [-1.9558e-08, -4.6566e-09, -1.4435e-08,  ..., -2.0955e-08,
+          6.0536e-09,  6.9849e-09],
+        [-2.9337e-08,  3.2596e-09,  5.3085e-08,  ...,  8.8476e-09,
+          1.3970e-09,  1.4435e-08],
+        ...,
+        [ 2.9802e-08,  3.2596e-09, -7.5437e-08,  ...,  4.1910e-09,
+          1.8626e-09,  8.8476e-09],
+        [-3.2596e-08, -2.2212e-07, -3.4878e-07,  ..., -1.8394e-07,
+         -6.3330e-08,  2.4680e-08],
+        [ 2.3283e-09,  9.3132e-10,  2.3749e-08,  ...,  2.7940e-09,
+          4.1910e-09,  6.9849e-08]], device='cuda:0')
+Epoch 281, bias, value: tensor([ 0.0016, -0.0184, -0.0265,  0.0287, -0.0195,  0.0307, -0.0186, -0.0127,
+         0.0034, -0.0325], device='cuda:0'), grad: tensor([-1.1828e-07, -2.3283e-09,  4.0047e-08,  5.3085e-08,  4.7963e-08,
+         1.4855e-07,  1.4063e-07, -9.4529e-08, -3.6415e-07,  1.6252e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 280, time 214.67, cls_loss 0.0012 cls_loss_mapping 0.0019 cls_loss_causal 0.4965 re_mapping 0.0041 re_causal 0.0123 /// teacc 99.03 lr 0.00010000
+Epoch 282, weight, value: tensor([[-0.1317, -0.1553, -0.1025,  ..., -0.1569, -0.0198,  0.0824],
+        [ 0.0688,  0.0696,  0.0523,  ...,  0.1280, -0.1873, -0.0682],
+        [ 0.0595,  0.0171, -0.1507,  ..., -0.0618, -0.2362, -0.0985],
+        ...,
+        [-0.0564, -0.1490,  0.0909,  ..., -0.1507, -0.0550,  0.0018],
+        [ 0.0207,  0.1076,  0.1594,  ..., -0.1474, -0.1561, -0.2294],
+        [-0.1739,  0.0092, -0.2882,  ..., -0.1603, -0.1175,  0.1124]],
+       device='cuda:0'), grad: tensor([[-2.3283e-09,  7.9162e-09,  4.1910e-09,  ...,  6.9849e-09,
+          5.1223e-09, -2.1420e-08],
+        [-3.9581e-08, -2.7008e-08, -3.6322e-08,  ..., -2.1420e-08,
+          1.3970e-09,  3.2596e-09],
+        [ 4.1910e-09,  5.1223e-09,  1.7695e-08,  ...,  1.0710e-08,
+          1.8626e-09,  9.3132e-09],
+        ...,
+        [ 8.3819e-09,  9.7789e-09, -4.0513e-08,  ...,  2.6077e-08,
+          4.6566e-10,  2.7940e-09],
+        [-7.4506e-08, -8.5682e-08, -1.5646e-07,  ...,  1.5367e-08,
+         -7.0781e-08,  1.1176e-08],
+        [ 6.9849e-09, -6.9849e-09,  1.2573e-08,  ...,  6.0024e-07,
+          3.2596e-09,  9.9186e-08]], device='cuda:0')
+Epoch 282, bias, value: tensor([ 0.0021, -0.0182, -0.0264,  0.0274, -0.0195,  0.0302, -0.0188, -0.0127,
+         0.0042, -0.0327], device='cuda:0'), grad: tensor([ 1.3504e-08, -3.7253e-08,  7.6834e-08,  4.6473e-07, -3.6173e-06,
+         1.2154e-07,  8.2422e-08,  8.8941e-08, -5.2806e-07,  3.3639e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 281, time 215.14, cls_loss 0.0012 cls_loss_mapping 0.0020 cls_loss_causal 0.5086 re_mapping 0.0038 re_causal 0.0123 /// teacc 98.98 lr 0.00010000
+Epoch 283, weight, value: tensor([[-0.1309, -0.1553, -0.1027,  ..., -0.1566, -0.0195,  0.0825],
+        [ 0.0689,  0.0708,  0.0524,  ...,  0.1286, -0.1880, -0.0680],
+        [ 0.0596,  0.0163, -0.1511,  ..., -0.0622, -0.2371, -0.0991],
+        ...,
+        [-0.0564, -0.1509,  0.0912,  ..., -0.1517, -0.0553,  0.0018],
+        [ 0.0207,  0.1078,  0.1595,  ..., -0.1479, -0.1563, -0.2297],
+        [-0.1738,  0.0094, -0.2889,  ..., -0.1606, -0.1176,  0.1127]],
+       device='cuda:0'), grad: tensor([[ 4.1910e-08,  8.3819e-09,  2.1886e-08,  ...,  6.5193e-09,
+          3.2596e-09, -2.1327e-07],
+        [-2.4214e-08, -1.3784e-07, -2.3609e-07,  ..., -2.0768e-07,
+          3.7253e-09,  8.3819e-09],
+        [ 2.5518e-07,  1.8440e-07,  9.1270e-08,  ...,  1.3504e-08,
+          4.6566e-09, -9.3132e-10],
+        ...,
+        [ 1.0151e-07,  7.4506e-08,  6.3330e-08,  ...,  9.8720e-08,
+          3.1199e-08,  2.7474e-08],
+        [-3.2596e-09, -1.2713e-07, -1.3039e-07,  ...,  2.8871e-08,
+          8.3819e-09,  2.6077e-08],
+        [ 4.4238e-08,  1.6764e-08,  3.5856e-08,  ...,  3.3993e-08,
+          1.4435e-08,  6.5193e-08]], device='cuda:0')
+Epoch 283, bias, value: tensor([ 0.0024, -0.0181, -0.0265,  0.0283, -0.0196,  0.0290, -0.0189, -0.0125,
+         0.0041, -0.0325], device='cuda:0'), grad: tensor([-1.7555e-07, -1.7090e-07,  9.0804e-07, -2.4922e-06, -4.0187e-07,
+         7.4599e-07,  4.2189e-07,  6.8964e-07,  9.4529e-08,  3.9116e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 282, time 214.61, cls_loss 0.0011 cls_loss_mapping 0.0020 cls_loss_causal 0.4728 re_mapping 0.0040 re_causal 0.0124 /// teacc 99.08 lr 0.00010000
+Epoch 284, weight, value: tensor([[-0.1316, -0.1559, -0.1029,  ..., -0.1566, -0.0201,  0.0824],
+        [ 0.0707,  0.0737,  0.0554,  ...,  0.1288, -0.1883, -0.0654],
+        [ 0.0598,  0.0166, -0.1512,  ..., -0.0626, -0.2377, -0.0994],
+        ...,
+        [-0.0581, -0.1541,  0.0884,  ..., -0.1514, -0.0552, -0.0008],
+        [ 0.0205,  0.1079,  0.1595,  ..., -0.1481, -0.1567, -0.2300],
+        [-0.1736,  0.0098, -0.2894,  ..., -0.1605, -0.1178,  0.1132]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  7.9162e-09,  9.3132e-10,  ...,  1.8626e-09,
+         -6.9849e-09, -8.8010e-08],
+        [-1.1642e-08, -9.7789e-09, -2.7940e-08,  ..., -2.1886e-08,
+          4.1910e-09,  1.7229e-08],
+        [-2.3283e-09,  3.7253e-09,  4.6566e-09,  ...,  3.2596e-09,
+          2.3283e-09,  3.2596e-08],
+        ...,
+        [ 1.2107e-08,  9.3132e-09,  1.3504e-08,  ...,  1.2107e-08,
+          9.3132e-10,  7.7765e-08],
+        [ 2.3283e-09,  9.8720e-08, -4.6566e-10,  ...,  1.5367e-08,
+          7.9628e-08,  1.7229e-08],
+        [ 4.6566e-09,  8.3819e-09,  4.6566e-09,  ...,  2.1420e-08,
+          9.3132e-09, -3.3434e-07]], device='cuda:0')
+Epoch 284, bias, value: tensor([ 0.0021, -0.0152, -0.0264,  0.0300, -0.0201,  0.0280, -0.0189, -0.0149,
+         0.0038, -0.0322], device='cuda:0'), grad: tensor([-1.8859e-07,  0.0000e+00,  1.0338e-07, -1.0245e-08,  2.5798e-07,
+         1.3364e-07, -2.8685e-07,  1.5367e-07,  2.5285e-07, -4.0000e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 283, time 214.91, cls_loss 0.0010 cls_loss_mapping 0.0016 cls_loss_causal 0.4537 re_mapping 0.0041 re_causal 0.0124 /// teacc 98.93 lr 0.00010000
+Epoch 285, weight, value: tensor([[-0.1323, -0.1561, -0.1036,  ..., -0.1567, -0.0201,  0.0810],
+        [ 0.0684,  0.0738,  0.0551,  ...,  0.1294, -0.1894, -0.0655],
+        [ 0.0591,  0.0157, -0.1516,  ..., -0.0635, -0.2372, -0.0988],
+        ...,
+        [-0.0556, -0.1542,  0.0888,  ..., -0.1516, -0.0552, -0.0008],
+        [ 0.0208,  0.1078,  0.1597,  ..., -0.1490, -0.1574, -0.2303],
+        [-0.1737,  0.0099, -0.2901,  ..., -0.1609, -0.1181,  0.1148]],
+       device='cuda:0'), grad: tensor([[ 3.2596e-08,  7.9162e-09,  2.8405e-08,  ..., -6.1700e-07,
+         -1.9465e-06, -5.7705e-06],
+        [-1.1727e-05, -1.7015e-06, -1.0006e-05,  ..., -5.4128e-06,
+          2.6077e-08,  6.4261e-08],
+        [ 4.4294e-06,  6.7381e-07,  3.7756e-06,  ...,  2.2352e-06,
+          2.6682e-07,  1.1642e-08],
+        ...,
+        [ 6.3255e-06,  9.2015e-07,  5.3756e-06,  ...,  2.9225e-06,
+          5.5879e-09, -1.3504e-08],
+        [ 2.3283e-08,  6.7055e-08,  1.2107e-08,  ...,  1.8626e-08,
+          2.1420e-08,  1.4249e-07],
+        [ 2.5146e-08, -7.4971e-08,  2.7008e-08,  ...,  9.4529e-08,
+          1.7323e-07,  2.2631e-07]], device='cuda:0')
+Epoch 285, bias, value: tensor([ 0.0011, -0.0160, -0.0267,  0.0299, -0.0203,  0.0280, -0.0187, -0.0141,
+         0.0038, -0.0315], device='cuda:0'), grad: tensor([-9.7901e-06, -2.8759e-05,  1.1414e-05,  2.0191e-06, -4.5821e-07,
+         9.6392e-08,  9.1046e-06,  1.5527e-05,  4.2235e-07,  4.1211e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 284, time 215.28, cls_loss 0.0009 cls_loss_mapping 0.0019 cls_loss_causal 0.4786 re_mapping 0.0039 re_causal 0.0119 /// teacc 98.94 lr 0.00010000
+Epoch 286, weight, value: tensor([[-0.1326, -0.1561, -0.1038,  ..., -0.1567, -0.0199,  0.0814],
+        [ 0.0684,  0.0738,  0.0551,  ...,  0.1297, -0.1899, -0.0658],
+        [ 0.0589,  0.0151, -0.1520,  ..., -0.0638, -0.2375, -0.0988],
+        ...,
+        [-0.0554, -0.1543,  0.0889,  ..., -0.1524, -0.0555, -0.0007],
+        [ 0.0214,  0.1081,  0.1601,  ..., -0.1492, -0.1581, -0.2305],
+        [-0.1742,  0.0099, -0.2909,  ..., -0.1610, -0.1185,  0.1147]],
+       device='cuda:0'), grad: tensor([[-1.4435e-08, -2.2631e-07,  1.8626e-09,  ..., -1.1176e-08,
+         -5.7090e-07, -1.7732e-06],
+        [-7.9162e-09,  2.3283e-09, -4.6566e-09,  ..., -9.7789e-09,
+          2.2352e-08,  1.2573e-08],
+        [-1.2061e-07,  6.5193e-09, -2.0862e-07,  ...,  9.3132e-10,
+          1.0710e-08,  2.0023e-08],
+        ...,
+        [ 1.0710e-08,  5.1223e-09,  3.7253e-09,  ...,  4.1910e-09,
+          1.4901e-08,  3.7253e-09],
+        [ 1.1036e-07,  4.7823e-07,  2.2957e-07,  ...,  2.7940e-09,
+          4.6939e-07,  8.9873e-08],
+        [ 1.0710e-08,  1.4529e-07,  3.7253e-09,  ...,  1.1176e-08,
+          3.8650e-07,  1.0934e-06]], device='cuda:0')
+Epoch 286, bias, value: tensor([ 0.0015, -0.0160, -0.0268,  0.0297, -0.0204,  0.0281, -0.0188, -0.0140,
+         0.0039, -0.0316], device='cuda:0'), grad: tensor([-1.9632e-06,  5.3551e-08, -9.2760e-07,  2.1467e-07,  8.5682e-08,
+        -2.8592e-07, -5.7882e-07,  8.2422e-08,  2.0675e-06,  1.2591e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 285, time 215.05, cls_loss 0.0011 cls_loss_mapping 0.0019 cls_loss_causal 0.4881 re_mapping 0.0040 re_causal 0.0120 /// teacc 99.05 lr 0.00010000
+Epoch 287, weight, value: tensor([[-0.1333, -0.1561, -0.1037,  ..., -0.1569, -0.0197,  0.0816],
+        [ 0.0686,  0.0740,  0.0552,  ...,  0.1316, -0.1903, -0.0660],
+        [ 0.0590,  0.0147, -0.1522,  ..., -0.0648, -0.2384, -0.0988],
+        ...,
+        [-0.0555, -0.1545,  0.0889,  ..., -0.1538, -0.0561, -0.0010],
+        [ 0.0213,  0.1082,  0.1600,  ..., -0.1515, -0.1584, -0.2307],
+        [-0.1744,  0.0105, -0.2911,  ..., -0.1611, -0.1189,  0.1153]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  1.3970e-09,  8.8476e-09,  ...,  1.3970e-09,
+         -9.7789e-09, -6.5658e-08],
+        [-1.7695e-08, -2.1886e-08, -3.1199e-08,  ..., -2.5611e-08,
+         -0.0000e+00,  4.1910e-09],
+        [ 7.4506e-09,  5.5879e-09,  1.4901e-08,  ...,  1.8626e-09,
+          1.8626e-09,  6.5193e-09],
+        ...,
+        [ 8.3819e-09,  8.8476e-09, -2.8405e-08,  ...,  9.7789e-09,
+         -1.6298e-08, -4.2375e-08],
+        [-1.4901e-08, -1.5832e-08, -2.0489e-08,  ...,  3.2596e-09,
+          9.3132e-10, -0.0000e+00],
+        [ 8.3819e-09,  1.0710e-08,  1.5832e-08,  ...,  5.5879e-09,
+          1.1176e-08,  4.5169e-08]], device='cuda:0')
+Epoch 287, bias, value: tensor([ 0.0016, -0.0159, -0.0268,  0.0305, -0.0211,  0.0274, -0.0188, -0.0140,
+         0.0037, -0.0311], device='cuda:0'), grad: tensor([-6.7987e-08, -5.4482e-08,  3.8184e-08, -2.1420e-08,  1.5832e-08,
+         9.8720e-08,  4.8894e-08, -9.5461e-08, -4.5169e-08,  1.0012e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 286----------------------------------------------------
+epoch 286, time 231.55, cls_loss 0.0010 cls_loss_mapping 0.0015 cls_loss_causal 0.4769 re_mapping 0.0039 re_causal 0.0121 /// teacc 99.15 lr 0.00010000
+Epoch 288, weight, value: tensor([[-0.1336, -0.1563, -0.1038,  ..., -0.1571, -0.0199,  0.0815],
+        [ 0.0686,  0.0742,  0.0552,  ...,  0.1322, -0.1903, -0.0662],
+        [ 0.0596,  0.0146, -0.1522,  ..., -0.0645, -0.2391, -0.0986],
+        ...,
+        [-0.0557, -0.1546,  0.0890,  ..., -0.1549, -0.0573, -0.0004],
+        [ 0.0214,  0.1083,  0.1603,  ..., -0.1522, -0.1588, -0.2308],
+        [-0.1749,  0.0106, -0.2928,  ..., -0.1614, -0.1191,  0.1156]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  1.0006e-05,  1.3970e-09,  ...,  3.2596e-09,
+          3.9577e-05,  2.9653e-05],
+        [ 4.6566e-09,  1.3970e-08, -4.6566e-09,  ...,  5.8673e-08,
+          5.8208e-08,  4.7963e-08],
+        [-7.2177e-08, -4.2841e-08,  4.5635e-08,  ..., -3.4133e-07,
+          1.7695e-08,  1.6298e-08],
+        ...,
+        [ 1.3970e-08,  6.5193e-09, -1.0524e-07,  ...,  3.7253e-09,
+          2.7940e-09, -2.9337e-08],
+        [ 2.8871e-08,  2.5146e-08,  2.5611e-08,  ...,  5.1223e-09,
+          1.0571e-07,  8.3819e-08],
+        [ 4.1910e-09,  9.7789e-09,  2.4214e-08,  ...,  6.1467e-08,
+          8.0094e-08,  4.5169e-08]], device='cuda:0')
+Epoch 288, bias, value: tensor([ 0.0015, -0.0160, -0.0265,  0.0307, -0.0213,  0.0273, -0.0187, -0.0140,
+         0.0038, -0.0312], device='cuda:0'), grad: tensor([ 1.1677e-04,  4.0280e-07, -9.0245e-07, -1.0896e-07,  4.3260e-07,
+         7.2271e-06, -1.2445e-04, -1.7323e-07,  4.2282e-07,  2.7567e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 287, time 214.66, cls_loss 0.0012 cls_loss_mapping 0.0032 cls_loss_causal 0.4992 re_mapping 0.0040 re_causal 0.0121 /// teacc 99.09 lr 0.00010000
+Epoch 289, weight, value: tensor([[-0.1339, -0.1565, -0.1042,  ..., -0.1572, -0.0193,  0.0827],
+        [ 0.0687,  0.0742,  0.0553,  ...,  0.1328, -0.1906, -0.0663],
+        [ 0.0596,  0.0125, -0.1523,  ..., -0.0664, -0.2422, -0.0992],
+        ...,
+        [-0.0559, -0.1564,  0.0877,  ..., -0.1553, -0.0574, -0.0004],
+        [ 0.0217,  0.1099,  0.1635,  ..., -0.1525, -0.1616, -0.2313],
+        [-0.1751,  0.0106, -0.2939,  ..., -0.1615, -0.1199,  0.1154]],
+       device='cuda:0'), grad: tensor([[ 1.4901e-08,  1.3039e-08,  2.1420e-08,  ...,  2.1420e-08,
+         -8.4117e-06, -2.2069e-05],
+        [-3.2037e-07, -2.3097e-07, -4.9546e-07,  ..., -4.7404e-07,
+          5.7742e-08,  1.3318e-07],
+        [ 8.2888e-08,  5.0291e-08,  1.0617e-07,  ...,  9.8720e-08,
+          2.0489e-08,  7.4506e-08],
+        ...,
+        [ 1.3597e-07,  9.4995e-08,  1.8533e-07,  ...,  1.9185e-07,
+          8.3819e-08,  2.2165e-07],
+        [ 4.4703e-08,  1.4901e-08,  3.7253e-09,  ...,  4.6566e-08,
+          6.0536e-08,  8.4750e-08],
+        [ 2.2352e-08,  1.7695e-08,  3.2596e-08,  ...,  6.4261e-08,
+          4.3958e-07,  1.0710e-06]], device='cuda:0')
+Epoch 289, bias, value: tensor([ 0.0026, -0.0160, -0.0266,  0.0307, -0.0215,  0.0259, -0.0170, -0.0152,
+         0.0063, -0.0314], device='cuda:0'), grad: tensor([-3.0845e-05, -1.1027e-06,  4.3213e-07, -9.4995e-08,  1.2293e-07,
+         2.7567e-05,  1.0915e-06,  8.3819e-07,  2.9895e-07,  1.6717e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 288, time 214.74, cls_loss 0.0012 cls_loss_mapping 0.0020 cls_loss_causal 0.5031 re_mapping 0.0041 re_causal 0.0119 /// teacc 99.02 lr 0.00010000
+Epoch 290, weight, value: tensor([[-1.3443e-01, -1.5672e-01, -1.0448e-01,  ..., -1.5753e-01,
+         -1.9234e-02,  8.3040e-02],
+        [ 6.9241e-02,  7.3948e-02,  5.5257e-02,  ...,  1.3274e-01,
+         -1.9202e-01, -6.6994e-02],
+        [ 5.9453e-02,  1.3777e-02, -1.5242e-01,  ..., -6.5674e-02,
+         -2.4154e-01, -9.8993e-02],
+        ...,
+        [-5.6366e-02, -1.5647e-01,  8.7792e-02,  ..., -1.5595e-01,
+         -5.7150e-02,  1.4807e-04],
+        [ 2.1640e-02,  1.0983e-01,  1.6347e-01,  ..., -1.5362e-01,
+         -1.6274e-01, -2.3175e-01],
+        [-1.7536e-01,  1.0526e-02, -2.9553e-01,  ..., -1.6216e-01,
+         -1.2109e-01,  1.1529e-01]], device='cuda:0'), grad: tensor([[ 4.6566e-09,  1.5832e-08,  4.6566e-09,  ...,  8.3819e-09,
+         -1.1707e-06, -1.1131e-05],
+        [ 8.3819e-08,  6.2399e-08,  7.1246e-07,  ...,  4.2841e-08,
+          4.1910e-08,  6.7055e-08],
+        [-3.2876e-07,  3.9116e-08,  2.4866e-07,  ...,  6.5193e-09,
+          1.0245e-08,  6.4261e-08],
+        ...,
+        [-6.9849e-08,  2.3283e-08, -1.4789e-06,  ...,  1.5832e-08,
+          8.3819e-09,  6.7055e-08],
+        [ 1.3318e-07, -1.8161e-07, -1.3132e-07,  ...,  1.4901e-08,
+          3.2596e-08,  1.9185e-07],
+        [ 1.0245e-08,  1.9558e-08,  1.0524e-07,  ...,  1.2200e-07,
+          1.1269e-07,  3.2317e-07]], device='cuda:0')
+Epoch 290, bias, value: tensor([ 0.0027, -0.0161, -0.0267,  0.0307, -0.0214,  0.0264, -0.0173, -0.0151,
+         0.0062, -0.0317], device='cuda:0'), grad: tensor([-2.3097e-05,  2.2314e-06,  1.9092e-07,  1.9461e-05, -6.4075e-07,
+        -1.7524e-05,  2.1234e-05, -3.8929e-06,  7.3668e-07,  1.3113e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 289, time 214.99, cls_loss 0.0010 cls_loss_mapping 0.0017 cls_loss_causal 0.4878 re_mapping 0.0040 re_causal 0.0122 /// teacc 99.07 lr 0.00010000
+Epoch 291, weight, value: tensor([[-1.3515e-01, -1.5674e-01, -1.0474e-01,  ..., -1.5767e-01,
+         -1.8932e-02,  8.3604e-02],
+        [ 6.8428e-02,  7.1924e-02,  5.4388e-02,  ...,  1.3270e-01,
+         -1.9291e-01, -6.7345e-02],
+        [ 5.9822e-02,  1.4390e-02, -1.5252e-01,  ..., -6.5321e-02,
+         -2.4136e-01, -9.8587e-02],
+        ...,
+        [-5.5715e-02, -1.5471e-01,  8.8623e-02,  ..., -1.5641e-01,
+         -5.7351e-02,  1.6924e-04],
+        [ 2.1442e-02,  1.0967e-01,  1.6345e-01,  ..., -1.5411e-01,
+         -1.6336e-01, -2.3223e-01],
+        [-1.7552e-01,  1.0634e-02, -2.9585e-01,  ..., -1.6250e-01,
+         -1.2187e-01,  1.1524e-01]], device='cuda:0'), grad: tensor([[ 5.5879e-09,  1.9558e-08,  1.8626e-09,  ...,  2.7940e-09,
+          8.3819e-09,  3.2596e-08],
+        [ 7.4971e-07,  1.3486e-06,  4.6194e-07,  ...,  1.2293e-07,
+          1.8626e-09,  2.5611e-07],
+        [-4.0978e-08,  6.3330e-08,  2.2352e-08,  ...,  9.3132e-09,
+          3.7253e-09,  1.5832e-08],
+        ...,
+        [ 6.6124e-08,  7.4506e-09,  1.0245e-08,  ...,  1.0245e-08,
+          9.3132e-10,  9.3132e-10],
+        [-7.8976e-07, -1.5069e-06, -5.3924e-07,  ..., -1.5646e-07,
+          3.7253e-09, -2.5239e-07],
+        [ 2.5146e-08, -2.7940e-08,  3.7253e-09,  ...,  1.7695e-08,
+          9.3132e-10, -1.1921e-07]], device='cuda:0')
+Epoch 291, bias, value: tensor([ 0.0033, -0.0171, -0.0266,  0.0308, -0.0216,  0.0265, -0.0175, -0.0143,
+         0.0060, -0.0317], device='cuda:0'), grad: tensor([ 7.7300e-08,  2.5891e-06, -9.4995e-08, -5.9605e-07,  1.5832e-08,
+         4.2748e-07,  6.9849e-08,  2.1607e-07, -2.6729e-06, -1.6764e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 290, time 214.79, cls_loss 0.0009 cls_loss_mapping 0.0016 cls_loss_causal 0.4710 re_mapping 0.0040 re_causal 0.0123 /// teacc 99.04 lr 0.00010000
+Epoch 292, weight, value: tensor([[-1.3559e-01, -1.5682e-01, -1.0495e-01,  ..., -1.5799e-01,
+         -1.9032e-02,  8.3450e-02],
+        [ 6.8657e-02,  7.2140e-02,  5.4298e-02,  ...,  1.3281e-01,
+         -1.9338e-01, -6.6961e-02],
+        [ 5.9897e-02,  1.4317e-02, -1.5270e-01,  ..., -6.5466e-02,
+         -2.4169e-01, -9.8813e-02],
+        ...,
+        [-5.5905e-02, -1.5489e-01,  8.8811e-02,  ..., -1.5641e-01,
+         -5.6047e-02, -7.9418e-05],
+        [ 2.1276e-02,  1.0959e-01,  1.6343e-01,  ..., -1.5443e-01,
+         -1.6410e-01, -2.3310e-01],
+        [-1.7561e-01,  1.0689e-02, -2.9705e-01,  ..., -1.6274e-01,
+         -1.2237e-01,  1.1554e-01]], device='cuda:0'), grad: tensor([[-1.8254e-07,  2.4214e-08,  3.5390e-08,  ...,  2.7940e-09,
+          2.0489e-08, -1.5609e-06],
+        [ 5.6103e-06,  2.9262e-06,  5.9418e-07,  ...,  3.5111e-07,
+          1.5590e-06,  1.1109e-05],
+        [-5.9698e-07, -2.7008e-08,  8.7544e-08,  ...,  5.5879e-09,
+          9.3132e-09,  9.2760e-07],
+        ...,
+        [ 2.5798e-07,  6.8918e-08, -2.7008e-07,  ...,  1.5181e-07,
+          3.7253e-09,  6.8918e-08],
+        [ 7.3109e-07,  4.3772e-07,  2.1048e-07,  ...,  2.1700e-07,
+          2.2259e-07,  1.4687e-06],
+        [ 4.4797e-07,  3.1106e-07,  2.2724e-07,  ...,  2.6450e-07,
+          1.5646e-07,  1.0831e-06]], device='cuda:0')
+Epoch 292, bias, value: tensor([ 0.0031, -0.0172, -0.0266,  0.0313, -0.0217,  0.0262, -0.0176, -0.0141,
+         0.0058, -0.0317], device='cuda:0'), grad: tensor([-2.5388e-06,  2.5019e-05,  5.5693e-07,  5.9158e-06, -1.6158e-06,
+        -3.3349e-05, -2.3004e-07, -2.9709e-07,  3.7197e-06,  2.8573e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 291, time 214.81, cls_loss 0.0015 cls_loss_mapping 0.0017 cls_loss_causal 0.4640 re_mapping 0.0042 re_causal 0.0117 /// teacc 99.05 lr 0.00010000
+Epoch 293, weight, value: tensor([[-1.3632e-01, -1.5712e-01, -1.0567e-01,  ..., -1.5847e-01,
+         -1.9248e-02,  8.3247e-02],
+        [ 6.8751e-02,  7.2107e-02,  5.4228e-02,  ...,  1.3315e-01,
+         -1.9393e-01, -6.7348e-02],
+        [ 6.0101e-02,  1.3927e-02, -1.5285e-01,  ..., -6.5706e-02,
+         -2.4231e-01, -1.0004e-01],
+        ...,
+        [-5.5976e-02, -1.5490e-01,  8.8984e-02,  ..., -1.5608e-01,
+         -5.6295e-02,  1.2639e-04],
+        [ 2.1577e-02,  1.0883e-01,  1.6343e-01,  ..., -1.5673e-01,
+         -1.6627e-01, -2.3445e-01],
+        [-1.7575e-01,  1.0570e-02, -2.9813e-01,  ..., -1.6323e-01,
+         -1.2357e-01,  1.1591e-01]], device='cuda:0'), grad: tensor([[ 2.7940e-09,  2.7940e-08,  1.3039e-08,  ...,  1.3970e-08,
+         -1.4110e-06, -4.4592e-06],
+        [-6.9011e-07, -1.1055e-06, -1.0235e-06,  ..., -1.6773e-06,
+          2.7940e-09,  2.0489e-08],
+        [ 1.2573e-07,  2.8498e-07,  3.6228e-07,  ...,  4.0326e-07,
+          3.7253e-09,  1.1176e-08],
+        ...,
+        [ 2.3283e-08,  1.0245e-08, -2.5611e-07,  ...,  1.3039e-08,
+          0.0000e+00,  1.3970e-08],
+        [ 1.3970e-08, -3.6322e-08,  3.2596e-08,  ...,  2.0489e-08,
+          3.7253e-09,  9.3132e-09],
+        [ 1.8626e-09,  1.8626e-08,  3.8184e-08,  ...,  2.7940e-09,
+          2.7008e-08, -2.7940e-08]], device='cuda:0')
+Epoch 293, bias, value: tensor([ 0.0029, -0.0173, -0.0267,  0.0315, -0.0216,  0.0237, -0.0148, -0.0140,
+         0.0054, -0.0318], device='cuda:0'), grad: tensor([-9.0003e-06, -2.4065e-06,  9.6019e-07,  7.3574e-08,  2.3376e-07,
+         1.5739e-07,  1.0632e-05, -5.3365e-07, -2.9616e-07,  2.1141e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 292, time 214.80, cls_loss 0.0010 cls_loss_mapping 0.0017 cls_loss_causal 0.4917 re_mapping 0.0042 re_causal 0.0124 /// teacc 99.01 lr 0.00010000
+Epoch 294, weight, value: tensor([[-1.3660e-01, -1.5720e-01, -1.0594e-01,  ..., -1.5865e-01,
+         -1.9034e-02,  8.0817e-02],
+        [ 6.8832e-02,  7.2308e-02,  5.4293e-02,  ...,  1.3454e-01,
+         -1.9389e-01, -6.7257e-02],
+        [ 6.0198e-02,  1.3472e-02, -1.5313e-01,  ..., -6.6301e-02,
+         -2.4295e-01, -1.0051e-01],
+        ...,
+        [-5.6034e-02, -1.5495e-01,  8.9089e-02,  ..., -1.5631e-01,
+         -5.6435e-02,  1.5250e-04],
+        [ 2.1636e-02,  1.0864e-01,  1.6340e-01,  ..., -1.5763e-01,
+         -1.6701e-01, -2.3481e-01],
+        [-1.7586e-01,  1.0716e-02, -2.9873e-01,  ..., -1.6336e-01,
+         -1.2378e-01,  1.1865e-01]], device='cuda:0'), grad: tensor([[ 3.7253e-09,  9.3132e-09,  3.3528e-08,  ...,  1.3970e-08,
+          9.3132e-09, -1.9558e-08],
+        [-3.1665e-08, -2.5705e-07,  3.3230e-06,  ..., -1.6950e-07,
+          5.9232e-07,  1.1483e-06],
+        [-3.7253e-08,  9.3132e-09,  8.8476e-08,  ...,  2.1420e-08,
+          1.5832e-08,  1.9558e-08],
+        ...,
+        [ 2.7008e-08,  5.7742e-08, -2.2128e-05,  ..., -1.7723e-06,
+         -3.9004e-06, -6.6198e-06],
+        [-5.9605e-08, -3.3528e-08, -4.3772e-08,  ...,  2.8871e-08,
+          1.9558e-08,  2.4214e-08],
+        [ 1.8626e-08,  1.3970e-08,  1.7300e-05,  ...,  1.4678e-06,
+          3.0417e-06,  5.1223e-06]], device='cuda:0')
+Epoch 294, bias, value: tensor([ 0.0009, -0.0173, -0.0268,  0.0317, -0.0219,  0.0237, -0.0148, -0.0139,
+         0.0051, -0.0300], device='cuda:0'), grad: tensor([ 4.4703e-08,  6.4336e-06,  6.3330e-08,  6.4448e-07,  1.2349e-06,
+         1.3597e-07,  6.8545e-07, -4.1753e-05, -1.7975e-07,  3.2663e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 293, time 214.69, cls_loss 0.0010 cls_loss_mapping 0.0022 cls_loss_causal 0.4798 re_mapping 0.0039 re_causal 0.0122 /// teacc 99.12 lr 0.00010000
+Epoch 295, weight, value: tensor([[-0.1365, -0.1576, -0.1056,  ..., -0.1582, -0.0177,  0.0815],
+        [ 0.0685,  0.0725,  0.0539,  ...,  0.1348, -0.1946, -0.0660],
+        [ 0.0600,  0.0133, -0.1538,  ..., -0.0666, -0.2434, -0.1005],
+        ...,
+        [-0.0556, -0.1553,  0.0896,  ..., -0.1566, -0.0557, -0.0011],
+        [ 0.0220,  0.1089,  0.1634,  ..., -0.1574, -0.1672, -0.2352],
+        [-0.1760,  0.0119, -0.2992,  ..., -0.1635, -0.1224,  0.1188]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09,  5.5879e-09,  5.5879e-09,  ...,  3.7253e-09,
+          6.5193e-09, -4.6566e-09],
+        [-4.9360e-08, -5.4017e-08, -1.1269e-07,  ..., -6.5193e-08,
+          1.8626e-09,  9.3132e-10],
+        [-3.0734e-08,  2.3283e-08,  3.9116e-08,  ...,  1.6764e-08,
+          3.7253e-09,  0.0000e+00],
+        ...,
+        [ 4.6566e-08,  4.2841e-08,  7.4506e-08,  ...,  3.4459e-08,
+          1.8626e-09,  5.5879e-09],
+        [-1.3132e-07, -1.9930e-07, -2.8592e-07,  ...,  1.0245e-08,
+          3.7253e-09,  2.7940e-09],
+        [ 1.1176e-08,  1.4901e-08,  2.3283e-08,  ...,  6.8918e-08,
+          4.6566e-08, -6.5193e-09]], device='cuda:0')
+Epoch 295, bias, value: tensor([ 0.0018, -0.0179, -0.0271,  0.0314, -0.0225,  0.0237, -0.0149, -0.0133,
+         0.0051, -0.0296], device='cuda:0'), grad: tensor([ 2.6077e-08, -1.6671e-07, -1.9558e-08, -1.4808e-07, -2.9150e-07,
+         8.0839e-07,  3.6322e-08,  1.8906e-07, -7.0315e-07,  2.8312e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 294, time 214.28, cls_loss 0.0010 cls_loss_mapping 0.0022 cls_loss_causal 0.5003 re_mapping 0.0039 re_causal 0.0122 /// teacc 98.99 lr 0.00010000
+Epoch 296, weight, value: tensor([[-0.1367, -0.1576, -0.1052,  ..., -0.1580, -0.0172,  0.0818],
+        [ 0.0667,  0.0707,  0.0520,  ...,  0.1350, -0.1961, -0.0644],
+        [ 0.0601,  0.0130, -0.1540,  ..., -0.0668, -0.2438, -0.1007],
+        ...,
+        [-0.0538, -0.1537,  0.0914,  ..., -0.1575, -0.0573, -0.0028],
+        [ 0.0219,  0.1099,  0.1634,  ..., -0.1580, -0.1669, -0.2347],
+        [-0.1762,  0.0120, -0.2998,  ..., -0.1637, -0.1231,  0.1188]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  1.3970e-08,  9.3132e-10,  ...,  9.3132e-10,
+         -3.2596e-08, -2.9616e-07],
+        [-3.7253e-09, -9.3132e-10,  1.3970e-08,  ..., -5.5879e-09,
+          2.7940e-09,  1.7695e-08],
+        [-1.2107e-08,  2.7940e-09,  3.7253e-09,  ...,  9.3132e-10,
+          1.8626e-09,  3.4459e-08],
+        ...,
+        [ 1.4901e-08,  1.0245e-08, -3.2596e-08,  ...,  3.7253e-09,
+          6.5193e-09,  3.0734e-08],
+        [-9.3132e-10, -5.5879e-09, -9.3132e-09,  ..., -9.3132e-10,
+          4.6566e-09,  3.0734e-08],
+        [ 2.7940e-09, -3.8743e-07,  8.3819e-09,  ...,  2.7940e-09,
+         -4.8056e-07, -2.2724e-06]], device='cuda:0')
+Epoch 296, bias, value: tensor([ 0.0023, -0.0197, -0.0271,  0.0314, -0.0226,  0.0237, -0.0149, -0.0116,
+         0.0055, -0.0297], device='cuda:0'), grad: tensor([-3.7067e-07,  6.5193e-08,  3.4459e-08, -6.6124e-08,  4.2021e-06,
+         8.7544e-08,  2.2072e-07,  3.2596e-08,  4.2841e-08, -4.2543e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 295, time 214.85, cls_loss 0.0011 cls_loss_mapping 0.0025 cls_loss_causal 0.4897 re_mapping 0.0040 re_causal 0.0119 /// teacc 99.11 lr 0.00010000
+Epoch 297, weight, value: tensor([[-0.1368, -0.1577, -0.1049,  ..., -0.1581, -0.0171,  0.0820],
+        [ 0.0669,  0.0708,  0.0520,  ...,  0.1354, -0.1972, -0.0646],
+        [ 0.0603,  0.0128, -0.1542,  ..., -0.0670, -0.2442, -0.1006],
+        ...,
+        [-0.0540, -0.1538,  0.0916,  ..., -0.1578, -0.0559, -0.0024],
+        [ 0.0221,  0.1110,  0.1635,  ..., -0.1583, -0.1667, -0.2343],
+        [-0.1766,  0.0151, -0.3021,  ..., -0.1606, -0.1202,  0.1218]],
+       device='cuda:0'), grad: tensor([[ 2.7008e-08,  1.5832e-08,  9.3132e-09,  ...,  2.7940e-09,
+          7.4506e-09,  7.4506e-09],
+        [-2.8405e-07, -2.3190e-07, -2.7008e-07,  ..., -1.4249e-07,
+          1.0245e-08,  1.2107e-08],
+        [ 9.2201e-08, -4.6566e-09,  6.6124e-08,  ...,  3.1665e-08,
+          7.4506e-09,  8.3819e-09],
+        ...,
+        [ 1.1455e-07,  3.3528e-08,  1.3970e-08,  ...,  5.5879e-09,
+          1.6764e-08,  2.7008e-08],
+        [-2.7567e-07, -1.1576e-06, -9.7882e-07,  ...,  7.7300e-08,
+          3.0734e-08, -3.1013e-07],
+        [ 4.0419e-07,  1.0906e-06,  9.1176e-07,  ...,  4.6566e-09,
+          1.7416e-07,  4.7684e-07]], device='cuda:0')
+Epoch 297, bias, value: tensor([ 0.0024, -0.0198, -0.0271,  0.0313, -0.0258,  0.0237, -0.0150, -0.0115,
+         0.0060, -0.0266], device='cuda:0'), grad: tensor([ 9.4995e-08, -4.4610e-07,  3.3062e-07, -1.4221e-06,  1.8068e-07,
+        -3.1479e-07,  8.0559e-07,  3.9674e-07, -3.2373e-06,  3.6117e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 296, time 214.79, cls_loss 0.0009 cls_loss_mapping 0.0017 cls_loss_causal 0.4846 re_mapping 0.0038 re_causal 0.0120 /// teacc 99.03 lr 0.00010000
+Epoch 298, weight, value: tensor([[-0.1372, -0.1578, -0.1055,  ..., -0.1584, -0.0171,  0.0820],
+        [ 0.0669,  0.0703,  0.0520,  ...,  0.1335, -0.2006, -0.0645],
+        [ 0.0600,  0.0127, -0.1549,  ..., -0.0673, -0.2445, -0.1008],
+        ...,
+        [-0.0539, -0.1538,  0.0917,  ..., -0.1580, -0.0561, -0.0024],
+        [ 0.0223,  0.1110,  0.1635,  ..., -0.1594, -0.1671, -0.2347],
+        [-0.1767,  0.0152, -0.3026,  ..., -0.1606, -0.1203,  0.1218]],
+       device='cuda:0'), grad: tensor([[ 4.0047e-08, -5.4948e-08,  3.6322e-08,  ...,  5.5879e-09,
+          1.8626e-09, -6.5099e-07],
+        [-4.1693e-05, -8.0019e-06,  4.5598e-06,  ..., -4.8056e-07,
+          0.0000e+00,  7.4431e-06],
+        [ 8.4937e-06,  1.2377e-06,  6.0201e-06,  ...,  3.9302e-07,
+          4.6566e-09,  7.9814e-07],
+        ...,
+        [ 3.2723e-05,  6.6943e-06, -1.1705e-05,  ...,  8.0094e-08,
+          0.0000e+00, -9.1791e-06],
+        [-8.3819e-08, -1.1735e-07, -2.3283e-07,  ...,  2.7940e-09,
+          9.3132e-10,  1.4901e-08],
+        [ 4.3772e-08,  6.3330e-08,  8.2236e-07,  ...,  2.7940e-09,
+          9.3132e-10,  1.4957e-06]], device='cuda:0')
diff --git a/Meta-causal/code-withStyleAttack/66539.error b/Meta-causal/code-withStyleAttack/66539.error
new file mode 100644
index 0000000000000000000000000000000000000000..00da0f285352fc1c57390b613b1dc4eccf2320e7
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/66539.error
@@ -0,0 +1,303 @@
+Solving dependencies
+Installing conda packages
+Empty environment created at prefix: /scratch/yuqian_fu/micromamba/envs/auto-uvqtxnlanqi3
+error    libmamba Could not lock non-existing path '/scratch/yuqian_fu/micromamba/pkgs'
+Transaction
+
+  Prefix: /scratch/yuqian_fu/micromamba/envs/auto-uvqtxnlanqi3
+
+
+
+  No specs added or removed.
+
+  Package                 Version  Build                         Channel                           Size
+─────────────────────────────────────────────────────────────────────────────────────────────────────────
+  Install:
+─────────────────────────────────────────────────────────────────────────────────────────────────────────
+
+  + _libgcc_mutex             0.1  conda_forge                   conda-forge                           
+  + _openmp_mutex             4.5  2_kmp_llvm                    conda-forge                           
+  + blas                    2.116  mkl                           conda-forge                           
+  + blas-devel              3.9.0  16_linux64_mkl                conda-forge                           
+  + brotli-python           1.1.0  py311hb755f60_1               conda-forge                           
+  + bzip2                   1.0.8  h4bc722e_7                    conda-forge                           
+  + ca-certificates      2024.7.4  hbcca054_0                    conda-forge                           
+  + certifi              2024.7.4  pyhd8ed1ab_0                  conda-forge                           
+  + cffi                   1.16.0  py311hb3a22ac_0               conda-forge                           
+  + charset-normalizer      3.3.2  pyhd8ed1ab_0                  conda-forge                           
+  + click                   8.1.7  unix_pyh707e725_0             conda-forge                           
+  + cuda-cudart          12.1.105  0                             nvidia                                
+  + cuda-cupti           12.1.105  0                             /work/conda/cache/nvidia              
+  + cuda-libraries         12.1.0  0                             nvidia                                
+  + cuda-nvrtc           12.1.105  0                             /work/conda/cache/nvidia              
+  + cuda-nvtx            12.1.105  0                             nvidia                                
+  + cuda-opencl           12.5.39  0                             nvidia                                
+  + cuda-runtime           12.1.0  0                             nvidia                                
+  + cuda-version             12.5  3                             nvidia                                
+  + ffmpeg                    4.3  hf484d3e_0                    /work/conda/cache/pytorch             
+  + filelock               3.15.4  pyhd8ed1ab_0                  conda-forge                           
+  + freetype               2.12.1  h267a509_2                    conda-forge                           
+  + gmp                     6.3.0  hac33072_2                    conda-forge                           
+  + gmpy2                   2.1.5  py311hc4f1f91_1               conda-forge                           
+  + gnutls                 3.6.13  h85f3911_1                    /work/conda/cache/conda-forge         
+  + h2                      4.1.0  pyhd8ed1ab_0                  conda-forge                           
+  + hpack                   4.0.0  pyh9f0ad1d_0                  conda-forge                           
+  + hyperframe              6.0.1  pyhd8ed1ab_0                  conda-forge                           
+  + icu                      73.2  h59595ed_0                    /work/conda/cache/conda-forge         
+  + idna                      3.7  pyhd8ed1ab_0                  conda-forge                           
+  + jinja2                  3.1.4  pyhd8ed1ab_0                  conda-forge                           
+  + jpeg                       9e  h166bdaf_2                    conda-forge                           
+  + lame                    3.100  h166bdaf_1003                 conda-forge                           
+  + lcms2                    2.15  hfd0df8a_0                    conda-forge                           
+  + ld_impl_linux-64         2.40  hf3520f5_7                    conda-forge                           
+  + lerc                    4.0.0  h27087fc_0                    conda-forge                           
+  + libblas                 3.9.0  16_linux64_mkl                conda-forge                           
+  + libcblas                3.9.0  16_linux64_mkl                conda-forge                           
+  + libcublas           12.1.0.26  0                             /work/conda/cache/nvidia              
+  + libcufft             11.0.2.4  0                             /work/conda/cache/nvidia              
+  + libcufile            1.10.1.7  0                             nvidia                                
+  + libcurand           10.3.6.82  0                             nvidia                                
+  + libcusolver         11.4.4.55  0                             /work/conda/cache/nvidia              
+  + libcusparse         12.0.2.55  0                             /work/conda/cache/nvidia              
+  + libdeflate               1.17  h0b41bf4_0                    conda-forge                           
+  + libexpat                2.6.2  h59595ed_0                    conda-forge                           
+  + libffi                  3.4.2  h7f98852_5                    conda-forge                           
+  + libgcc-ng              14.1.0  h77fa898_0                    conda-forge                           
+  + libgfortran-ng         14.1.0  h69a702a_0                    conda-forge                           
+  + libgfortran5           14.1.0  hc5f4f2c_0                    /work/conda/cache/conda-forge         
+  + libhwloc               2.11.1  default_hecaa2ac_1000         conda-forge                           
+  + libiconv                 1.17  hd590300_2                    conda-forge                           
+  + libjpeg-turbo           2.0.0  h9bf148f_0                    pytorch                               
+  + liblapack               3.9.0  16_linux64_mkl                conda-forge                           
+  + liblapacke              3.9.0  16_linux64_mkl                conda-forge                           
+  + libnpp              12.0.2.50  0                             /work/conda/cache/nvidia              
+  + libnsl                  2.0.1  hd590300_0                    conda-forge                           
+  + libnvjitlink         12.1.105  0                             /work/conda/cache/nvidia              
+  + libnvjpeg           12.1.1.14  0                             /work/conda/cache/nvidia              
+  + libpng                 1.6.43  h2797004_0                    conda-forge                           
+  + libsqlite              3.46.0  hde9e2c9_0                    conda-forge                           
+  + libstdcxx-ng           14.1.0  hc0a3c3a_0                    /work/conda/cache/conda-forge         
+  + libtiff                 4.5.0  h6adf6a1_2                    conda-forge                           
+  + libuuid                2.38.1  h0b41bf4_0                    conda-forge                           
+  + libwebp-base            1.4.0  hd590300_0                    conda-forge                           
+  + libxcb                   1.13  h7f98852_1004                 conda-forge                           
+  + libxcrypt              4.4.36  hd590300_1                    conda-forge                           
+  + libxml2                2.12.7  hc051c1a_1                    conda-forge                           
+  + libzlib                1.2.13  h4ab18f5_6                    conda-forge                           
+  + llvm-openmp            15.0.7  h0cdce71_0                    /work/conda/cache/conda-forge         
+  + markupsafe              2.1.5  py311h459d7ec_0               conda-forge                           
+  + mkl                  2022.1.0  h84fe81f_915                  /work/conda/cache/conda-forge         
+  + mkl-devel            2022.1.0  ha770c72_916                  conda-forge                           
+  + mkl-include          2022.1.0  h84fe81f_915                  conda-forge                           
+  + mpc                     1.3.1  hfe3b2da_0                    conda-forge                           
+  + mpfr                    4.2.1  h9458935_1                    conda-forge                           
+  + mpmath                  1.3.0  pyhd8ed1ab_0                  conda-forge                           
+  + ncurses                   6.5  h59595ed_0                    conda-forge                           
+  + nettle                    3.6  he412f7d_0                    /work/conda/cache/conda-forge         
+  + networkx                  3.3  pyhd8ed1ab_1                  /work/conda/cache/conda-forge         
+  + numpy                   2.0.0  py311h1461c94_0               conda-forge                           
+  + openh264                2.1.1  h780b84a_0                    /work/conda/cache/conda-forge         
+  + openjpeg                2.5.0  hfec8fc6_2                    conda-forge                           
+  + openssl                 3.3.1  h4bc722e_2                    conda-forge                           
+  + pandas                  2.2.2  py311h14de704_1               conda-forge                           
+  + pillow                  9.4.0  py311h50def17_1               /work/conda/cache/conda-forge         
+  + pip                      24.0  pyhd8ed1ab_0                  /work/conda/cache/conda-forge         
+  + pthread-stubs             0.4  h36c2ea0_1001                 conda-forge                           
+  + pycparser                2.22  pyhd8ed1ab_0                  conda-forge                           
+  + pysocks                 1.7.1  pyha2e5f31_6                  conda-forge                           
+  + python                 3.11.9  hb806964_0_cpython            /work/conda/cache/conda-forge         
+  + python-dateutil         2.9.0  pyhd8ed1ab_0                  conda-forge                           
+  + python-tzdata          2024.1  pyhd8ed1ab_0                  conda-forge                           
+  + python_abi               3.11  4_cp311                       conda-forge                           
+  + pytorch                 2.3.1  py3.11_cuda12.1_cudnn8.9.2_0  /work/conda/cache/pytorch             
+  + pytorch-cuda             12.1  ha16c6d3_5                    pytorch                               
+  + pytorch-mutex             1.0  cuda                          pytorch                               
+  + pytz                   2024.1  pyhd8ed1ab_0                  conda-forge                           
+  + pyyaml                  6.0.1  py311h459d7ec_1               conda-forge                           
+  + readline                  8.2  h8228510_1                    conda-forge                           
+  + requests               2.32.3  pyhd8ed1ab_0                  conda-forge                           
+  + setuptools             71.0.1  pyhd8ed1ab_0                  conda-forge                           
+  + six                    1.16.0  pyh6c4a22f_0                  conda-forge                           
+  + sympy                  1.13.0  pypyh2585a3b_103              conda-forge                           
+  + tbb                 2021.12.0  h434a139_3                    conda-forge                           
+  + tk                     8.6.13  noxft_h4845f30_101            /work/conda/cache/conda-forge         
+  + torchtriton             2.3.1  py311                         /work/conda/cache/pytorch             
+  + torchvision            0.18.1  py311_cu121                   /work/conda/cache/pytorch             
+  + typing_extensions      4.12.2  pyha770c72_0                  conda-forge                           
+  + tzdata                  2024a  h0c530f3_0                    conda-forge                           
+  + urllib3                 2.2.2  pyhd8ed1ab_1                  conda-forge                           
+  + wheel                  0.43.0  pyhd8ed1ab_1                  conda-forge                           
+  + xorg-libxau            1.0.11  hd590300_0                    conda-forge                           
+  + xorg-libxdmcp           1.1.3  h516909a_0                    conda-forge                           
+  + xz                      5.2.6  h166bdaf_0                    conda-forge                           
+  + yaml                    0.2.5  h7f98852_2                    conda-forge                           
+  + zlib                   1.2.13  h4ab18f5_6                    conda-forge                           
+  + zstandard              0.23.0  py311h5cd10c7_0               conda-forge                           
+  + zstd                    1.5.6  ha6fb4c9_0                    conda-forge                           
+
+  Summary:
+
+  Install: 119 packages
+
+  Total download: 0 B
+
+─────────────────────────────────────────────────────────────────────────────────────────────────────────
+
+
+
+Transaction starting
+Linking libcublas-12.1.0.26-0
+Linking libcufft-11.0.2.4-0
+Linking libcusolver-11.4.4.55-0
+Linking libcusparse-12.0.2.55-0
+Linking libnpp-12.0.2.50-0
+Linking libnvjitlink-12.1.105-0
+Linking cuda-cudart-12.1.105-0
+Linking cuda-nvrtc-12.1.105-0
+Linking libnvjpeg-12.1.1.14-0
+Linking cuda-cupti-12.1.105-0
+Linking cuda-nvtx-12.1.105-0
+Linking pytorch-mutex-1.0-cuda
+Linking _libgcc_mutex-0.1-conda_forge
+Linking mkl-include-2022.1.0-h84fe81f_915
+Linking python_abi-3.11-4_cp311
+Linking ld_impl_linux-64-2.40-hf3520f5_7
+Linking ca-certificates-2024.7.4-hbcca054_0
+Linking libgcc-ng-14.1.0-h77fa898_0
+Linking libzlib-1.2.13-h4ab18f5_6
+Linking llvm-openmp-15.0.7-h0cdce71_0
+Linking _openmp_mutex-4.5-2_kmp_llvm
+Linking xorg-libxdmcp-1.1.3-h516909a_0
+Linking pthread-stubs-0.4-h36c2ea0_1001
+Linking xorg-libxau-1.0.11-hd590300_0
+Linking libwebp-base-1.4.0-hd590300_0
+Linking libdeflate-1.17-h0b41bf4_0
+Linking jpeg-9e-h166bdaf_2
+Linking libffi-3.4.2-h7f98852_5
+Linking tk-8.6.13-noxft_h4845f30_101
+Linking openssl-3.3.1-h4bc722e_2
+Linking libxcrypt-4.4.36-hd590300_1
+Linking libsqlite-3.46.0-hde9e2c9_0
+Linking yaml-0.2.5-h7f98852_2
+Linking ncurses-6.5-h59595ed_0
+Linking libgfortran5-14.1.0-hc5f4f2c_0
+Linking lame-3.100-h166bdaf_1003
+Linking nettle-3.6-he412f7d_0
+Linking zlib-1.2.13-h4ab18f5_6
+Linking libstdcxx-ng-14.1.0-hc0a3c3a_0
+Linking libiconv-1.17-hd590300_2
+Linking bzip2-1.0.8-h4bc722e_7
+Linking libpng-1.6.43-h2797004_0
+Linking xz-5.2.6-h166bdaf_0
+Linking libuuid-2.38.1-h0b41bf4_0
+Linking libnsl-2.0.1-hd590300_0
+Linking libexpat-2.6.2-h59595ed_0
+Linking libxcb-1.13-h7f98852_1004
+Linking readline-8.2-h8228510_1
+Linking libgfortran-ng-14.1.0-h69a702a_0
+Linking icu-73.2-h59595ed_0
+Linking zstd-1.5.6-ha6fb4c9_0
+Linking lerc-4.0.0-h27087fc_0
+Linking openh264-2.1.1-h780b84a_0
+Linking gnutls-3.6.13-h85f3911_1
+Linking gmp-6.3.0-hac33072_2
+Linking freetype-2.12.1-h267a509_2
+Linking libxml2-2.12.7-hc051c1a_1
+Linking libtiff-4.5.0-h6adf6a1_2
+Linking mpfr-4.2.1-h9458935_1
+Linking libhwloc-2.11.1-default_hecaa2ac_1000
+Linking openjpeg-2.5.0-hfec8fc6_2
+Linking lcms2-2.15-hfd0df8a_0
+Linking mpc-1.3.1-hfe3b2da_0
+Linking tbb-2021.12.0-h434a139_3
+Linking mkl-2022.1.0-h84fe81f_915
+Linking mkl-devel-2022.1.0-ha770c72_916
+Linking libblas-3.9.0-16_linux64_mkl
+Linking liblapack-3.9.0-16_linux64_mkl
+Linking libcblas-3.9.0-16_linux64_mkl
+Linking liblapacke-3.9.0-16_linux64_mkl
+Linking blas-devel-3.9.0-16_linux64_mkl
+Linking blas-2.116-mkl
+Linking cuda-version-12.5-3
+Linking tzdata-2024a-h0c530f3_0
+Linking libjpeg-turbo-2.0.0-h9bf148f_0
+warning  libmamba [libjpeg-turbo-2.0.0-h9bf148f_0] The following files were already present in the environment:
+    - bin/cjpeg
+    - bin/djpeg
+    - bin/jpegtran
+    - bin/rdjpgcom
+    - bin/wrjpgcom
+    - include/jconfig.h
+    - include/jerror.h
+    - include/jmorecfg.h
+    - include/jpeglib.h
+    - lib/libjpeg.a
+    - lib/libjpeg.so
+    - lib/pkgconfig/libjpeg.pc
+    - share/man/man1/cjpeg.1
+    - share/man/man1/djpeg.1
+    - share/man/man1/jpegtran.1
+    - share/man/man1/rdjpgcom.1
+    - share/man/man1/wrjpgcom.1
+Linking ffmpeg-4.3-hf484d3e_0
+Linking libcurand-10.3.6.82-0
+Linking libcufile-1.10.1.7-0
+Linking cuda-opencl-12.5.39-0
+Linking cuda-libraries-12.1.0-0
+Linking cuda-runtime-12.1.0-0
+Linking python-3.11.9-hb806964_0_cpython
+Linking pytorch-cuda-12.1-ha16c6d3_5
+Linking wheel-0.43.0-pyhd8ed1ab_1
+Linking setuptools-71.0.1-pyhd8ed1ab_0
+Linking pip-24.0-pyhd8ed1ab_0
+Linking pycparser-2.22-pyhd8ed1ab_0
+Linking six-1.16.0-pyh6c4a22f_0
+Linking hyperframe-6.0.1-pyhd8ed1ab_0
+Linking pytz-2024.1-pyhd8ed1ab_0
+Linking python-tzdata-2024.1-pyhd8ed1ab_0
+Linking charset-normalizer-3.3.2-pyhd8ed1ab_0
+Linking hpack-4.0.0-pyh9f0ad1d_0
+Linking pysocks-1.7.1-pyha2e5f31_6
+Linking idna-3.7-pyhd8ed1ab_0
+Linking certifi-2024.7.4-pyhd8ed1ab_0
+Linking mpmath-1.3.0-pyhd8ed1ab_0
+Linking typing_extensions-4.12.2-pyha770c72_0
+Linking networkx-3.3-pyhd8ed1ab_1
+Linking filelock-3.15.4-pyhd8ed1ab_0
+Linking click-8.1.7-unix_pyh707e725_0
+Linking python-dateutil-2.9.0-pyhd8ed1ab_0
+Linking h2-4.1.0-pyhd8ed1ab_0
+Linking brotli-python-1.1.0-py311hb755f60_1
+Linking markupsafe-2.1.5-py311h459d7ec_0
+Linking gmpy2-2.1.5-py311hc4f1f91_1
+Linking pyyaml-6.0.1-py311h459d7ec_1
+Linking pillow-9.4.0-py311h50def17_1
+Linking numpy-2.0.0-py311h1461c94_0
+Linking cffi-1.16.0-py311hb3a22ac_0
+Linking pandas-2.2.2-py311h14de704_1
+Linking zstandard-0.23.0-py311h5cd10c7_0
+Linking jinja2-3.1.4-pyhd8ed1ab_0
+Linking sympy-1.13.0-pypyh2585a3b_103
+Linking urllib3-2.2.2-pyhd8ed1ab_1
+Linking requests-2.32.3-pyhd8ed1ab_0
+Linking pytorch-2.3.1-py3.11_cuda12.1_cudnn8.9.2_0
+Linking torchtriton-2.3.1-py311
+Linking torchvision-0.18.1-py311_cu121
+
+Transaction finished
+
+To activate this environment, use:
+
+    mamba activate auto-uvqtxnlanqi3
+
+Or to execute a single command in this environment, use:
+
+    mamba run -n auto-uvqtxnlanqi3 mycommand
+
+Installing pip packages
+WARNING: The candidate selected for download or install is a yanked version: 'opencv-python' candidate (version 4.5.5.62 at https://files.pythonhosted.org/packages/9d/98/36bfcbff30da27dd6922ed73ca7802c37d87f77daf4c569da3dcb87b4296/opencv_python-4.5.5.62-cp36-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (from https://pypi.org/simple/opencv-python/) (requires-python:>=3.6))
+Reason for being yanked: deprecated, use 4.5.5.64
+run_my_joint_test.sh: line 33: randn}_str3_WithStyleAttackExp1_onlyblock2: command not found
+slurmstepd: error: *** STEP 66539.0 ON gcp-us-1 CANCELLED AT 2024-07-21T15:44:21 DUE TO TIME LIMIT ***
+slurmstepd: error: *** JOB 66539 ON gcp-us-1 CANCELLED AT 2024-07-21T15:44:21 DUE TO TIME LIMIT ***
+srun: Job step aborted: Waiting up to 32 seconds for job step to finish.
diff --git a/Meta-causal/code-withStyleAttack/66539.log b/Meta-causal/code-withStyleAttack/66539.log
new file mode 100644
index 0000000000000000000000000000000000000000..48f06c01c3afbcaf54806c29008ae087a125da50
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/66539.log
@@ -0,0 +1,19244 @@
+Collecting h5py>=2.9.0
+  Downloading h5py-3.11.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (2.5 kB)
+Collecting ml-collections
+  Downloading ml_collections-0.1.1.tar.gz (77 kB)
+     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 77.9/77.9 kB 3.9 MB/s eta 0:00:00
+  Preparing metadata (setup.py): started
+  Preparing metadata (setup.py): finished with status 'done'
+Requirement already satisfied: numpy in ./lib/python3.11/site-packages (2.0.0)
+Collecting opencv-python==4.5.5.62
+  Downloading opencv_python-4.5.5.62-cp36-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (18 kB)
+Collecting scipy>=1.3.2
+  Downloading scipy-1.14.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (60 kB)
+     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 60.8/60.8 kB 3.9 MB/s eta 0:00:00
+Collecting tensorboard
+  Downloading tensorboard-2.17.0-py3-none-any.whl.metadata (1.6 kB)
+Collecting tensorboardX>=1.4
+  Downloading tensorboardX-2.6.2.2-py2.py3-none-any.whl.metadata (5.8 kB)
+Collecting timm
+  Downloading timm-1.0.7-py3-none-any.whl.metadata (47 kB)
+     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 47.5/47.5 kB 11.3 MB/s eta 0:00:00
+Collecting absl-py (from ml-collections)
+  Downloading absl_py-2.1.0-py3-none-any.whl.metadata (2.3 kB)
+Requirement already satisfied: PyYAML in ./lib/python3.11/site-packages (from ml-collections) (6.0.1)
+Requirement already satisfied: six in ./lib/python3.11/site-packages (from ml-collections) (1.16.0)
+Collecting contextlib2 (from ml-collections)
+  Downloading contextlib2-21.6.0-py2.py3-none-any.whl.metadata (4.1 kB)
+Collecting grpcio>=1.48.2 (from tensorboard)
+  Downloading grpcio-1.65.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (3.3 kB)
+Collecting markdown>=2.6.8 (from tensorboard)
+  Downloading Markdown-3.6-py3-none-any.whl.metadata (7.0 kB)
+Collecting protobuf!=4.24.0,<5.0.0,>=3.19.6 (from tensorboard)
+  Downloading protobuf-4.25.3-cp37-abi3-manylinux2014_x86_64.whl.metadata (541 bytes)
+Requirement already satisfied: setuptools>=41.0.0 in ./lib/python3.11/site-packages (from tensorboard) (71.0.1)
+Collecting tensorboard-data-server<0.8.0,>=0.7.0 (from tensorboard)
+  Downloading tensorboard_data_server-0.7.2-py3-none-manylinux_2_31_x86_64.whl.metadata (1.1 kB)
+Collecting werkzeug>=1.0.1 (from tensorboard)
+  Downloading werkzeug-3.0.3-py3-none-any.whl.metadata (3.7 kB)
+Collecting packaging (from tensorboardX>=1.4)
+  Downloading packaging-24.1-py3-none-any.whl.metadata (3.2 kB)
+Requirement already satisfied: torch in ./lib/python3.11/site-packages (from timm) (2.3.1)
+Requirement already satisfied: torchvision in ./lib/python3.11/site-packages (from timm) (0.18.1)
+Collecting huggingface_hub (from timm)
+  Downloading huggingface_hub-0.24.0-py3-none-any.whl.metadata (13 kB)
+Collecting safetensors (from timm)
+  Downloading safetensors-0.4.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (3.8 kB)
+Requirement already satisfied: MarkupSafe>=2.1.1 in ./lib/python3.11/site-packages (from werkzeug>=1.0.1->tensorboard) (2.1.5)
+Requirement already satisfied: filelock in ./lib/python3.11/site-packages (from huggingface_hub->timm) (3.15.4)
+Collecting fsspec>=2023.5.0 (from huggingface_hub->timm)
+  Downloading fsspec-2024.6.1-py3-none-any.whl.metadata (11 kB)
+Requirement already satisfied: requests in ./lib/python3.11/site-packages (from huggingface_hub->timm) (2.32.3)
+Collecting tqdm>=4.42.1 (from huggingface_hub->timm)
+  Downloading tqdm-4.66.4-py3-none-any.whl.metadata (57 kB)
+     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 57.6/57.6 kB 18.9 MB/s eta 0:00:00
+Requirement already satisfied: typing-extensions>=3.7.4.3 in ./lib/python3.11/site-packages (from huggingface_hub->timm) (4.12.2)
+Requirement already satisfied: sympy in ./lib/python3.11/site-packages (from torch->timm) (1.13.0)
+Requirement already satisfied: networkx in ./lib/python3.11/site-packages (from torch->timm) (3.3)
+Requirement already satisfied: jinja2 in ./lib/python3.11/site-packages (from torch->timm) (3.1.4)
+Requirement already satisfied: pillow!=8.3.*,>=5.3.0 in ./lib/python3.11/site-packages (from torchvision->timm) (9.4.0)
+Requirement already satisfied: charset-normalizer<4,>=2 in ./lib/python3.11/site-packages (from requests->huggingface_hub->timm) (3.3.2)
+Requirement already satisfied: idna<4,>=2.5 in ./lib/python3.11/site-packages (from requests->huggingface_hub->timm) (3.7)
+Requirement already satisfied: urllib3<3,>=1.21.1 in ./lib/python3.11/site-packages (from requests->huggingface_hub->timm) (2.2.2)
+Requirement already satisfied: certifi>=2017.4.17 in ./lib/python3.11/site-packages (from requests->huggingface_hub->timm) (2024.7.4)
+Requirement already satisfied: mpmath<1.4,>=1.1.0 in ./lib/python3.11/site-packages (from sympy->torch->timm) (1.3.0)
+Downloading opencv_python-4.5.5.62-cp36-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (60.4 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 60.4/60.4 MB 80.7 MB/s eta 0:00:00
+Downloading h5py-3.11.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (5.4 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 5.4/5.4 MB 195.2 MB/s eta 0:00:00
+Downloading scipy-1.14.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (41.1 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 41.1/41.1 MB 99.0 MB/s eta 0:00:00
+Downloading tensorboard-2.17.0-py3-none-any.whl (5.5 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 5.5/5.5 MB 185.5 MB/s eta 0:00:00
+Downloading tensorboardX-2.6.2.2-py2.py3-none-any.whl (101 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 101.7/101.7 kB 32.9 MB/s eta 0:00:00
+Downloading timm-1.0.7-py3-none-any.whl (2.3 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 2.3/2.3 MB 142.5 MB/s eta 0:00:00
+Downloading absl_py-2.1.0-py3-none-any.whl (133 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 133.7/133.7 kB 41.6 MB/s eta 0:00:00
+Downloading grpcio-1.65.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (5.7 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 5.7/5.7 MB 186.4 MB/s eta 0:00:00
+Downloading Markdown-3.6-py3-none-any.whl (105 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 105.4/105.4 kB 31.0 MB/s eta 0:00:00
+Downloading protobuf-4.25.3-cp37-abi3-manylinux2014_x86_64.whl (294 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 294.6/294.6 kB 76.8 MB/s eta 0:00:00
+Downloading tensorboard_data_server-0.7.2-py3-none-manylinux_2_31_x86_64.whl (6.6 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 6.6/6.6 MB 181.2 MB/s eta 0:00:00
+Downloading werkzeug-3.0.3-py3-none-any.whl (227 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 227.3/227.3 kB 62.6 MB/s eta 0:00:00
+Downloading contextlib2-21.6.0-py2.py3-none-any.whl (13 kB)
+Downloading huggingface_hub-0.24.0-py3-none-any.whl (419 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 419.0/419.0 kB 96.6 MB/s eta 0:00:00
+Downloading packaging-24.1-py3-none-any.whl (53 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 54.0/54.0 kB 10.3 MB/s eta 0:00:00
+Downloading safetensors-0.4.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.2 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 1.2/1.2 MB 143.5 MB/s eta 0:00:00
+Downloading fsspec-2024.6.1-py3-none-any.whl (177 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 177.6/177.6 kB 50.9 MB/s eta 0:00:00
+Downloading tqdm-4.66.4-py3-none-any.whl (78 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 78.3/78.3 kB 26.3 MB/s eta 0:00:00
+Building wheels for collected packages: ml-collections
+  Building wheel for ml-collections (setup.py): started
+  Building wheel for ml-collections (setup.py): finished with status 'done'
+  Created wheel for ml-collections: filename=ml_collections-0.1.1-py3-none-any.whl size=94508 sha256=310dbc935b23fb0dacb072b058c1f197374aa7241d1279503e2bd3bb0bab5ea9
+  Stored in directory: /scratch/yuqian_fu/.cache/pip/wheels/28/82/ef/a6971b09a96519d55ce6efef66f0cbcdef2ae9cc1e6b41daf7
+Successfully built ml-collections
+Installing collected packages: werkzeug, tqdm, tensorboard-data-server, scipy, safetensors, protobuf, packaging, opencv-python, markdown, h5py, grpcio, fsspec, contextlib2, absl-py, tensorboardX, tensorboard, ml-collections, huggingface_hub, timm
+Successfully installed absl-py-2.1.0 contextlib2-21.6.0 fsspec-2024.6.1 grpcio-1.65.1 h5py-3.11.0 huggingface_hub-0.24.0 markdown-3.6 ml-collections-0.1.1 opencv-python-4.5.5.62 packaging-24.1 protobuf-4.25.3 safetensors-0.4.3 scipy-1.14.0 tensorboard-2.17.0 tensorboard-data-server-0.7.2 tensorboardX-2.6.2.2 timm-1.0.7 tqdm-4.66.4 werkzeug-3.0.3
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 500, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_onlyblock2', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 3
+--------------------------CA_multiple--------------------------
+---------------------------14 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+Epoch 1, weight, value: tensor([[-2.5139e-02, -1.7924e-02,  2.9307e-02,  ..., -6.4647e-03,
+         -1.8291e-02, -2.4441e-02],
+        [-2.2718e-02, -2.9409e-02,  2.0061e-02,  ..., -7.4217e-03,
+          3.3684e-05,  2.0003e-02],
+        [ 2.5372e-02,  1.9253e-02, -4.3399e-03,  ..., -2.4109e-02,
+         -2.7648e-02, -2.6141e-02],
+        ...,
+        [-1.5319e-02, -5.5781e-03, -2.4777e-02,  ...,  1.2113e-02,
+          9.7509e-03,  5.7319e-03],
+        [-2.1644e-02, -3.1244e-02,  2.4834e-03,  ...,  4.4214e-03,
+          4.7801e-03,  2.4475e-02],
+        [ 4.0269e-03, -9.8763e-03, -5.6816e-03,  ...,  2.5718e-02,
+          1.1947e-02, -2.4943e-02]], device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([ 0.0088,  0.0188,  0.0148, -0.0022,  0.0142, -0.0066, -0.0144, -0.0159,
+         0.0256, -0.0067], device='cuda:0'), grad: None
+100
+0.0001
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 278.09, cls_loss 1.3028 cls_loss_mapping 1.8310 cls_loss_causal 2.2140 re_mapping 0.1459 re_causal 0.1544 /// teacc 87.55 lr 0.00010000
+Epoch 2, weight, value: tensor([[-0.0304, -0.0127,  0.0363,  ..., -0.0007, -0.0263, -0.0246],
+        [-0.0255, -0.0372,  0.0133,  ..., -0.0162, -0.0066,  0.0178],
+        [ 0.0306,  0.0129, -0.0094,  ..., -0.0265, -0.0362, -0.0276],
+        ...,
+        [-0.0109, -0.0030, -0.0264,  ...,  0.0158,  0.0134,  0.0089],
+        [-0.0236, -0.0367, -0.0051,  ..., -0.0020,  0.0042,  0.0201],
+        [ 0.0010, -0.0127, -0.0044,  ...,  0.0254,  0.0161, -0.0236]],
+       device='cuda:0'), grad: tensor([[ 0.0012,  0.0124, -0.0088,  ..., -0.0057,  0.0126,  0.0000],
+        [ 0.0092,  0.0006,  0.0007,  ...,  0.0030,  0.0177,  0.0000],
+        [-0.0139, -0.0013,  0.0054,  ...,  0.0070,  0.0114,  0.0000],
+        ...,
+        [-0.0021,  0.0012,  0.0028,  ...,  0.0145,  0.0536,  0.0000],
+        [ 0.0046,  0.0085, -0.0041,  ..., -0.0115, -0.0413,  0.0000],
+        [ 0.0007,  0.0008, -0.0082,  ..., -0.0449, -0.0875,  0.0000]],
+       device='cuda:0')
+Epoch 2, bias, value: tensor([ 0.0077,  0.0202,  0.0141, -0.0018,  0.0147, -0.0067, -0.0156, -0.0145,
+         0.0248, -0.0068], device='cuda:0'), grad: tensor([ 0.0065,  0.0371, -0.0193,  0.0364,  0.0056, -0.0031, -0.0156,  0.0386,
+        -0.0386, -0.0476], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 277.76, cls_loss 0.4191 cls_loss_mapping 0.7467 cls_loss_causal 1.8580 re_mapping 0.2066 re_causal 0.2696 /// teacc 91.72 lr 0.00010000
+Epoch 3, weight, value: tensor([[-0.0329, -0.0113,  0.0411,  ...,  0.0012, -0.0298, -0.0248],
+        [-0.0284, -0.0379,  0.0104,  ..., -0.0198, -0.0092,  0.0177],
+        [ 0.0338,  0.0105, -0.0126,  ..., -0.0277, -0.0388, -0.0277],
+        ...,
+        [-0.0079, -0.0035, -0.0299,  ...,  0.0157,  0.0133,  0.0091],
+        [-0.0279, -0.0409, -0.0081,  ..., -0.0057,  0.0051,  0.0199],
+        [ 0.0020, -0.0143, -0.0029,  ...,  0.0280,  0.0175, -0.0235]],
+       device='cuda:0'), grad: tensor([[ 0.0032,  0.0082,  0.0032,  ...,  0.0125,  0.0078,  0.0000],
+        [ 0.0008,  0.0021,  0.0004,  ...,  0.0027,  0.0031,  0.0000],
+        [-0.0242,  0.0007,  0.0025,  ...,  0.0046,  0.0020,  0.0000],
+        ...,
+        [ 0.0063, -0.0016,  0.0081,  ..., -0.0039, -0.0333,  0.0000],
+        [ 0.0065, -0.0195, -0.0086,  ..., -0.0059, -0.0210,  0.0000],
+        [-0.0145, -0.0126, -0.0169,  ..., -0.0911, -0.0687,  0.0000]],
+       device='cuda:0')
+Epoch 3, bias, value: tensor([ 0.0077,  0.0202,  0.0136, -0.0020,  0.0149, -0.0061, -0.0164, -0.0147,
+         0.0249, -0.0064], device='cuda:0'), grad: tensor([ 0.0165, -0.0090, -0.0070,  0.0492,  0.0646, -0.0028, -0.0120, -0.0011,
+        -0.0295, -0.0690], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 278.39, cls_loss 0.2513 cls_loss_mapping 0.4353 cls_loss_causal 1.7004 re_mapping 0.1454 re_causal 0.2390 /// teacc 94.84 lr 0.00010000
+Epoch 4, weight, value: tensor([[-0.0348, -0.0109,  0.0455,  ...,  0.0026, -0.0317, -0.0246],
+        [-0.0302, -0.0395,  0.0067,  ..., -0.0231, -0.0112,  0.0177],
+        [ 0.0370,  0.0089, -0.0152,  ..., -0.0285, -0.0405, -0.0277],
+        ...,
+        [-0.0074, -0.0020, -0.0323,  ...,  0.0153,  0.0135,  0.0091],
+        [-0.0308, -0.0436, -0.0095,  ..., -0.0078,  0.0055,  0.0199],
+        [ 0.0016, -0.0162, -0.0015,  ...,  0.0302,  0.0183, -0.0235]],
+       device='cuda:0'), grad: tensor([[ 1.3237e-03, -5.3749e-03, -1.2703e-02,  ..., -7.3166e-03,
+          2.7561e-03, -2.6379e-03],
+        [ 4.9171e-03,  7.1478e-04,  3.9625e-04,  ...,  2.2221e-03,
+          4.5013e-03,  5.6595e-05],
+        [-3.6255e-02,  3.2949e-04, -3.7861e-04,  ..., -4.9829e-04,
+         -3.9101e-03,  2.6420e-05],
+        ...,
+        [ 9.7122e-03,  2.9716e-03,  8.1558e-03,  ...,  6.2218e-03,
+          1.6069e-03,  1.4963e-03],
+        [ 3.3798e-03,  1.9779e-03, -4.4525e-05,  ...,  3.2654e-03,
+          2.7008e-03,  6.1929e-05],
+        [-1.4162e-04, -1.3313e-02,  2.3365e-03,  ...,  3.2940e-03,
+          5.4016e-03,  3.2234e-04]], device='cuda:0')
+Epoch 4, bias, value: tensor([ 0.0080,  0.0203,  0.0137, -0.0024,  0.0150, -0.0061, -0.0166, -0.0148,
+         0.0247, -0.0060], device='cuda:0'), grad: tensor([-0.0065,  0.0036, -0.0241,  0.0354, -0.0230,  0.0006,  0.0029,  0.0122,
+         0.0023, -0.0033], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 278.35, cls_loss 0.1958 cls_loss_mapping 0.3174 cls_loss_causal 1.4986 re_mapping 0.1158 re_causal 0.2061 /// teacc 95.47 lr 0.00010000
+Epoch 5, weight, value: tensor([[-0.0366, -0.0104,  0.0495,  ...,  0.0037, -0.0338, -0.0216],
+        [-0.0309, -0.0406,  0.0027,  ..., -0.0262, -0.0129,  0.0146],
+        [ 0.0399,  0.0072, -0.0172,  ..., -0.0291, -0.0429, -0.0341],
+        ...,
+        [-0.0074, -0.0010, -0.0350,  ...,  0.0149,  0.0139,  0.0096],
+        [-0.0323, -0.0443, -0.0099,  ..., -0.0092,  0.0056,  0.0160],
+        [ 0.0006, -0.0168, -0.0014,  ...,  0.0315,  0.0185, -0.0248]],
+       device='cuda:0'), grad: tensor([[ 5.5962e-03,  6.8486e-05,  1.6289e-03,  ...,  5.3787e-04,
+          1.3046e-03,  4.5466e-04],
+        [ 1.1168e-03,  5.2834e-04,  3.5739e-04,  ...,  9.1553e-04,
+          1.8396e-03,  5.5552e-05],
+        [-3.1204e-02, -6.1646e-03, -7.9727e-03,  ..., -3.8795e-03,
+         -3.2654e-03,  2.3782e-04],
+        ...,
+        [ 2.9316e-03,  6.1989e-04,  1.2541e-03,  ...,  7.2136e-03,
+          1.1116e-02,  1.6138e-05],
+        [ 5.4932e-03,  2.3537e-03,  2.2945e-03,  ...,  5.1384e-03,
+          6.1378e-03,  3.2496e-04],
+        [ 6.5470e-04, -3.0403e-03, -1.6451e-04,  ..., -3.3173e-02,
+         -5.7648e-02,  2.9624e-05]], device='cuda:0')
+Epoch 5, bias, value: tensor([ 0.0082,  0.0206,  0.0134, -0.0022,  0.0152, -0.0065, -0.0171, -0.0146,
+         0.0250, -0.0064], device='cuda:0'), grad: tensor([ 6.0921e-03,  6.5416e-06, -2.9526e-02,  1.8600e-02,  2.3712e-02,
+         9.3536e-03, -5.4054e-03,  9.9182e-03,  1.0880e-02, -4.3610e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 277.86, cls_loss 0.1580 cls_loss_mapping 0.2540 cls_loss_causal 1.4358 re_mapping 0.0939 re_causal 0.1804 /// teacc 96.88 lr 0.00010000
+Epoch 6, weight, value: tensor([[-0.0371, -0.0106,  0.0526,  ...,  0.0051, -0.0359, -0.0241],
+        [-0.0316, -0.0421,  0.0021,  ..., -0.0296, -0.0148,  0.0132],
+        [ 0.0419,  0.0069, -0.0193,  ..., -0.0297, -0.0445, -0.0408],
+        ...,
+        [-0.0070, -0.0005, -0.0375,  ...,  0.0142,  0.0141,  0.0103],
+        [-0.0341, -0.0450, -0.0113,  ..., -0.0109,  0.0054,  0.0093],
+        [-0.0003, -0.0177, -0.0017,  ...,  0.0328,  0.0191, -0.0273]],
+       device='cuda:0'), grad: tensor([[ 4.4107e-04,  2.5392e-04,  6.0539e-03,  ...,  4.4365e-03,
+          3.5172e-03,  4.9829e-04],
+        [ 1.0284e-02,  6.4075e-05, -1.1568e-03,  ...,  1.1606e-03,
+          1.6823e-03,  1.9205e-04],
+        [-1.8890e-02,  7.5340e-04,  4.4060e-03,  ...,  4.4518e-03,
+          5.4245e-03,  7.7057e-04],
+        ...,
+        [ 1.7633e-03, -4.0680e-05,  1.3533e-03,  ...,  4.3726e-04,
+         -2.3251e-03,  3.4243e-05],
+        [ 3.8528e-03, -4.7684e-04, -1.2901e-02,  ..., -1.0254e-02,
+         -1.4946e-02, -1.4949e-04],
+        [ 2.5535e-04,  1.4877e-04,  2.3727e-03,  ...,  4.8332e-03,
+          5.4779e-03,  1.2046e-04]], device='cuda:0')
+Epoch 6, bias, value: tensor([ 0.0083,  0.0203,  0.0133, -0.0024,  0.0153, -0.0067, -0.0168, -0.0141,
+         0.0249, -0.0064], device='cuda:0'), grad: tensor([ 0.0097,  0.0146, -0.0173,  0.0037, -0.0011,  0.0049,  0.0012,  0.0003,
+        -0.0247,  0.0086], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 5----------------------------------------------------
+epoch 5, time 278.31, cls_loss 0.1141 cls_loss_mapping 0.1882 cls_loss_causal 1.3510 re_mapping 0.0799 re_causal 0.1651 /// teacc 97.10 lr 0.00010000
+Epoch 7, weight, value: tensor([[-3.8017e-02, -1.0378e-02,  5.4926e-02,  ...,  6.2616e-03,
+         -3.7454e-02, -2.8002e-02],
+        [-3.1948e-02, -4.2724e-02,  2.8633e-05,  ..., -3.2009e-02,
+         -1.6452e-02,  1.2362e-02],
+        [ 4.4339e-02,  5.8609e-03, -2.1181e-02,  ..., -3.0784e-02,
+         -4.6275e-02, -4.8904e-02],
+        ...,
+        [-7.3374e-03, -3.2995e-04, -3.8411e-02,  ...,  1.3766e-02,
+          1.4295e-02,  1.2877e-02],
+        [-3.6592e-02, -4.5429e-02, -1.0921e-02,  ..., -1.2124e-02,
+          5.6063e-03,  5.9953e-03],
+        [-6.4927e-04, -1.8044e-02, -2.7281e-03,  ...,  3.3696e-02,
+          1.9460e-02, -2.9106e-02]], device='cuda:0'), grad: tensor([[ 1.0413e-04,  3.6061e-05, -2.1210e-03,  ..., -6.5136e-04,
+          1.0719e-03,  1.0177e-05],
+        [ 3.7932e-04,  7.9751e-05, -3.3784e-04,  ...,  8.4877e-05,
+         -9.9301e-05, -9.6142e-05],
+        [ 3.6430e-04,  1.9574e-04,  1.1282e-03,  ...,  6.9332e-04,
+          1.6088e-03,  9.3162e-05],
+        ...,
+        [ 6.6137e-04,  9.1434e-05,  5.6171e-04,  ...,  1.2026e-03,
+          4.3559e-04,  2.3350e-05],
+        [ 1.5039e-03,  1.6809e-04,  8.0884e-05,  ...,  6.8474e-04,
+          7.5912e-04,  1.5819e-04],
+        [-5.2309e-04,  4.4680e-04, -8.1062e-04,  ..., -2.5253e-03,
+         -1.1396e-03,  2.9951e-05]], device='cuda:0')
+Epoch 7, bias, value: tensor([ 0.0084,  0.0201,  0.0129, -0.0021,  0.0154, -0.0069, -0.0170, -0.0142,
+         0.0253, -0.0063], device='cuda:0'), grad: tensor([ 0.0002, -0.0031,  0.0030,  0.0030,  0.0009, -0.0077,  0.0006,  0.0011,
+         0.0027, -0.0007], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 6, time 261.34, cls_loss 0.1024 cls_loss_mapping 0.1556 cls_loss_causal 1.2240 re_mapping 0.0693 re_causal 0.1462 /// teacc 97.09 lr 0.00010000
+Epoch 8, weight, value: tensor([[-3.9099e-02, -9.8635e-03,  5.6857e-02,  ...,  7.2413e-03,
+         -3.8952e-02, -2.9268e-02],
+        [-3.2591e-02, -4.2773e-02,  2.7749e-04,  ..., -3.3093e-02,
+         -1.7628e-02,  1.0653e-02],
+        [ 4.6330e-02,  4.7390e-03, -2.2939e-02,  ..., -3.1849e-02,
+         -4.7772e-02, -5.3329e-02],
+        ...,
+        [-8.2794e-03, -7.3237e-05, -4.0368e-02,  ...,  1.3732e-02,
+          1.5140e-02,  1.3445e-02],
+        [-3.8000e-02, -4.5898e-02, -1.0978e-02,  ..., -1.3401e-02,
+          5.6859e-03,  2.0614e-03],
+        [-1.0782e-03, -1.8746e-02, -2.6144e-03,  ...,  3.4746e-02,
+          1.9653e-02, -3.0435e-02]], device='cuda:0'), grad: tensor([[ 2.1877e-03,  8.6248e-05, -1.1658e-02,  ..., -1.8287e-04,
+          5.7077e-04, -1.3914e-03],
+        [-3.0136e-02,  1.0991e-04,  7.0572e-04,  ...,  5.9986e-04,
+          3.9196e-04,  5.3078e-05],
+        [ 1.3916e-02, -4.7994e-04,  1.6079e-03,  ...,  3.2091e-04,
+          7.0524e-04,  3.0041e-04],
+        ...,
+        [ 1.6842e-03,  9.1076e-05,  5.8031e-04,  ...,  7.3385e-04,
+          7.0274e-05,  3.9458e-05],
+        [ 2.7218e-03,  2.7037e-04,  2.6302e-03,  ...,  1.0633e-03,
+          1.2598e-03,  3.5977e-04],
+        [ 5.4407e-04,  2.8968e-04,  1.4687e-03,  ...,  1.1871e-02,
+          1.3969e-02,  9.3043e-05]], device='cuda:0')
+Epoch 8, bias, value: tensor([ 0.0085,  0.0201,  0.0130, -0.0020,  0.0154, -0.0069, -0.0171, -0.0142,
+         0.0253, -0.0065], device='cuda:0'), grad: tensor([-0.0052, -0.0317,  0.0171,  0.0055, -0.0139,  0.0022,  0.0048,  0.0018,
+         0.0060,  0.0133], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 7----------------------------------------------------
+epoch 7, time 278.54, cls_loss 0.1057 cls_loss_mapping 0.1583 cls_loss_causal 1.1747 re_mapping 0.0598 re_causal 0.1285 /// teacc 97.21 lr 0.00010000
+Epoch 9, weight, value: tensor([[-0.0406, -0.0095,  0.0590,  ...,  0.0081, -0.0404, -0.0299],
+        [-0.0323, -0.0436,  0.0006,  ..., -0.0354, -0.0193,  0.0095],
+        [ 0.0482,  0.0039, -0.0247,  ..., -0.0325, -0.0494, -0.0596],
+        ...,
+        [-0.0087,  0.0006, -0.0414,  ...,  0.0133,  0.0157,  0.0181],
+        [-0.0390, -0.0468, -0.0114,  ..., -0.0143,  0.0059, -0.0013],
+        [-0.0018, -0.0192, -0.0028,  ...,  0.0356,  0.0198, -0.0341]],
+       device='cuda:0'), grad: tensor([[ 5.8794e-04,  7.5912e-04, -1.3614e-04,  ..., -2.4900e-05,
+          1.1492e-03,  7.3862e-04],
+        [ 1.2827e-03,  1.2815e-04,  5.6744e-04,  ...,  1.8561e-04,
+          5.0449e-04,  2.8953e-05],
+        [-5.6496e-03,  2.6608e-04, -2.0275e-03,  ...,  1.8549e-04,
+          7.8392e-04,  9.2387e-05],
+        ...,
+        [ 1.0729e-03,  2.4045e-04,  2.0206e-04,  ...,  1.8377e-03,
+          3.2005e-03,  3.9227e-06],
+        [ 4.5166e-03,  2.2964e-03,  7.8440e-04,  ...,  1.4420e-03,
+          7.7400e-03,  1.1414e-04],
+        [ 3.5763e-04,  4.3702e-04,  4.1962e-04,  ...,  1.7462e-03,
+          2.3899e-03,  9.5591e-06]], device='cuda:0')
+Epoch 9, bias, value: tensor([ 0.0085,  0.0200,  0.0130, -0.0020,  0.0157, -0.0071, -0.0174, -0.0139,
+         0.0256, -0.0067], device='cuda:0'), grad: tensor([ 0.0024,  0.0008, -0.0057, -0.0112, -0.0064, -0.0063, -0.0002,  0.0040,
+         0.0181,  0.0044], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 8----------------------------------------------------
+epoch 8, time 277.99, cls_loss 0.0795 cls_loss_mapping 0.1290 cls_loss_causal 1.1320 re_mapping 0.0545 re_causal 0.1243 /// teacc 97.73 lr 0.00010000
+Epoch 10, weight, value: tensor([[-4.1535e-02, -9.4166e-03,  6.0846e-02,  ...,  9.1568e-03,
+         -4.1750e-02, -3.0630e-02],
+        [-3.3310e-02, -4.4122e-02,  4.3387e-07,  ..., -3.6372e-02,
+         -2.0060e-02,  1.0328e-02],
+        [ 4.9945e-02,  3.2577e-03, -2.6320e-02,  ..., -3.3269e-02,
+         -5.0451e-02, -6.3274e-02],
+        ...,
+        [-9.1274e-03,  8.3013e-04, -4.2307e-02,  ...,  1.2600e-02,
+          1.5928e-02,  1.9006e-02],
+        [-4.0328e-02, -4.7789e-02, -1.1606e-02,  ..., -1.5415e-02,
+          5.8589e-03, -3.0546e-03],
+        [-2.0778e-03, -1.9355e-02, -3.0932e-03,  ...,  3.6396e-02,
+          1.9966e-02, -3.5436e-02]], device='cuda:0'), grad: tensor([[ 1.4677e-03, -1.9681e-04, -1.6832e-04,  ...,  5.5122e-04,
+          5.0974e-04,  1.7202e-04],
+        [ 2.7485e-03,  1.1212e-04,  4.4012e-04,  ...,  7.2813e-04,
+          2.2495e-04,  3.8552e-04],
+        [ 3.2482e-03,  2.2757e-04,  1.0004e-03,  ...,  4.3416e-04,
+          1.1978e-03,  1.2827e-04],
+        ...,
+        [ 3.0422e-03,  3.4189e-04,  2.8586e-04,  ...,  1.9875e-03,
+          1.5259e-03,  8.3745e-06],
+        [ 1.1578e-03,  5.9366e-04, -6.7997e-04,  ...,  1.7595e-04,
+          2.3308e-03,  4.9973e-04],
+        [ 3.0828e-04,  4.3440e-04,  2.8706e-04,  ..., -4.2000e-03,
+         -3.5553e-03,  2.5362e-05]], device='cuda:0')
+Epoch 10, bias, value: tensor([ 0.0086,  0.0199,  0.0132, -0.0021,  0.0161, -0.0068, -0.0179, -0.0140,
+         0.0254, -0.0068], device='cuda:0'), grad: tensor([ 0.0018,  0.0026,  0.0091, -0.0127, -0.0003, -0.0030, -0.0043,  0.0060,
+         0.0044, -0.0034], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 9----------------------------------------------------
+epoch 9, time 278.37, cls_loss 0.0743 cls_loss_mapping 0.1175 cls_loss_causal 1.1044 re_mapping 0.0474 re_causal 0.1133 /// teacc 97.74 lr 0.00010000
+Epoch 11, weight, value: tensor([[-0.0427, -0.0095,  0.0623,  ...,  0.0102, -0.0433, -0.0320],
+        [-0.0329, -0.0444,  0.0002,  ..., -0.0385, -0.0215,  0.0090],
+        [ 0.0513,  0.0026, -0.0286,  ..., -0.0345, -0.0516, -0.0673],
+        ...,
+        [-0.0098,  0.0016, -0.0438,  ...,  0.0120,  0.0166,  0.0189],
+        [-0.0412, -0.0486, -0.0122,  ..., -0.0165,  0.0059, -0.0073],
+        [-0.0024, -0.0201, -0.0031,  ...,  0.0375,  0.0201, -0.0384]],
+       device='cuda:0'), grad: tensor([[ 9.6917e-05,  3.4928e-05, -3.9721e-04,  ..., -1.0210e-04,
+          2.5249e-04,  1.1760e-04],
+        [ 2.7204e-04,  1.9777e-04, -1.1319e-04,  ...,  8.3268e-05,
+          3.0732e-04, -9.3639e-05],
+        [-7.8011e-04,  4.4274e-04,  1.1444e-04,  ...,  3.2282e-04,
+          6.3086e-04,  5.2482e-05],
+        ...,
+        [ 5.2595e-04,  8.8215e-04,  4.8727e-05,  ...,  7.7629e-04,
+          5.5742e-04,  1.8343e-05],
+        [ 8.2493e-04,  1.6375e-03,  1.3483e-04,  ...,  1.0996e-03,
+          1.4086e-03,  1.3053e-04],
+        [ 7.4863e-04,  1.7424e-03, -1.9923e-05,  ...,  2.5368e-04,
+          8.8930e-04,  1.8060e-05]], device='cuda:0')
+Epoch 11, bias, value: tensor([ 0.0086,  0.0199,  0.0129, -0.0022,  0.0162, -0.0071, -0.0175, -0.0136,
+         0.0255, -0.0070], device='cuda:0'), grad: tensor([ 0.0002, -0.0015,  0.0008, -0.0086,  0.0011, -0.0040,  0.0048,  0.0016,
+         0.0034,  0.0024], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 10----------------------------------------------------
+epoch 10, time 278.08, cls_loss 0.0635 cls_loss_mapping 0.0979 cls_loss_causal 1.0332 re_mapping 0.0441 re_causal 0.1056 /// teacc 98.03 lr 0.00010000
+Epoch 12, weight, value: tensor([[-0.0436, -0.0095,  0.0641,  ...,  0.0113, -0.0443, -0.0322],
+        [-0.0339, -0.0451,  0.0005,  ..., -0.0406, -0.0227,  0.0110],
+        [ 0.0527,  0.0015, -0.0296,  ..., -0.0350, -0.0527, -0.0709],
+        ...,
+        [-0.0098,  0.0019, -0.0448,  ...,  0.0112,  0.0166,  0.0204],
+        [-0.0422, -0.0491, -0.0125,  ..., -0.0172,  0.0063, -0.0073],
+        [-0.0030, -0.0206, -0.0040,  ...,  0.0381,  0.0202, -0.0410]],
+       device='cuda:0'), grad: tensor([[ 4.1556e-04, -3.6597e-05, -1.6117e-03,  ..., -8.3685e-04,
+          4.4894e-04,  7.0512e-05],
+        [ 5.7840e-04,  6.2466e-05,  1.1551e-04,  ...,  3.1137e-04,
+          6.4898e-04,  1.5736e-05],
+        [-3.5229e-03,  1.0532e-04,  1.5974e-04,  ...,  6.2275e-04,
+         -5.0592e-04,  6.9886e-06],
+        ...,
+        [ 8.4019e-04,  4.0889e-05,  2.3222e-04,  ...,  1.8370e-04,
+         -1.1158e-03,  1.8388e-05],
+        [ 1.0710e-03,  1.6105e-04,  2.1911e-04,  ...,  2.5868e-04,
+          2.3985e-04,  8.0109e-05],
+        [ 2.2626e-04,  1.4663e-04,  1.1533e-04,  ...,  1.3771e-03,
+          2.9659e-03,  3.3140e-05]], device='cuda:0')
+Epoch 12, bias, value: tensor([ 0.0088,  0.0198,  0.0132, -0.0021,  0.0161, -0.0070, -0.0178, -0.0139,
+         0.0257, -0.0072], device='cuda:0'), grad: tensor([-3.6538e-05,  9.8801e-04, -4.3449e-03,  1.6727e-03, -2.3022e-03,
+        -3.0384e-03,  1.3638e-03,  1.5247e-04,  1.5469e-03,  4.0016e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 11, time 261.47, cls_loss 0.0624 cls_loss_mapping 0.0958 cls_loss_causal 1.0565 re_mapping 0.0389 re_causal 0.0994 /// teacc 97.79 lr 0.00010000
+Epoch 13, weight, value: tensor([[-0.0440, -0.0096,  0.0652,  ...,  0.0121, -0.0456, -0.0344],
+        [-0.0341, -0.0454, -0.0007,  ..., -0.0415, -0.0237,  0.0070],
+        [ 0.0539,  0.0012, -0.0313,  ..., -0.0358, -0.0536, -0.0745],
+        ...,
+        [-0.0098,  0.0021, -0.0458,  ...,  0.0105,  0.0171,  0.0210],
+        [-0.0433, -0.0496, -0.0128,  ..., -0.0182,  0.0064, -0.0087],
+        [-0.0037, -0.0210, -0.0038,  ...,  0.0390,  0.0205, -0.0414]],
+       device='cuda:0'), grad: tensor([[ 4.0030e-04,  8.2195e-05, -1.4377e-04,  ...,  3.1376e-04,
+          6.1464e-04,  1.6844e-04],
+        [ 9.2030e-05,  3.9756e-05, -2.5349e-03,  ...,  1.7917e-04,
+          5.6458e-04, -1.2302e-03],
+        [-1.4591e-03, -8.8692e-05,  2.9683e-04,  ..., -2.8778e-06,
+          3.1781e-04,  1.0830e-04],
+        ...,
+        [ 2.0719e-04,  8.3566e-05, -3.7789e-04,  ..., -5.7373e-03,
+         -9.7427e-03,  3.3259e-05],
+        [ 2.9826e-04,  1.6093e-04,  3.8552e-04,  ...,  6.3276e-04,
+          3.8552e-04,  3.4690e-04],
+        [ 2.2733e-04,  1.9467e-04,  4.4298e-04,  ...,  2.5444e-03,
+          6.6986e-03,  4.7654e-05]], device='cuda:0')
+Epoch 13, bias, value: tensor([ 0.0088,  0.0193,  0.0135, -0.0023,  0.0161, -0.0072, -0.0175, -0.0137,
+         0.0259, -0.0072], device='cuda:0'), grad: tensor([ 1.3981e-03, -4.5013e-03, -5.0366e-05,  4.0245e-04,  2.1725e-03,
+        -6.3753e-04,  3.2921e-03, -1.2642e-02,  1.6241e-03,  8.9493e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 12, time 261.50, cls_loss 0.0551 cls_loss_mapping 0.0888 cls_loss_causal 0.9801 re_mapping 0.0372 re_causal 0.0957 /// teacc 98.02 lr 0.00010000
+Epoch 14, weight, value: tensor([[-0.0443, -0.0095,  0.0664,  ...,  0.0132, -0.0467, -0.0357],
+        [-0.0349, -0.0454, -0.0004,  ..., -0.0420, -0.0250,  0.0076],
+        [ 0.0552,  0.0005, -0.0323,  ..., -0.0368, -0.0546, -0.0768],
+        ...,
+        [-0.0097,  0.0026, -0.0470,  ...,  0.0097,  0.0179,  0.0199],
+        [-0.0442, -0.0501, -0.0128,  ..., -0.0195,  0.0066, -0.0099],
+        [-0.0043, -0.0215, -0.0041,  ...,  0.0399,  0.0207, -0.0432]],
+       device='cuda:0'), grad: tensor([[ 3.6001e-04, -3.1042e-04, -1.2617e-03,  ..., -5.1737e-04,
+          1.0687e-04,  8.9705e-05],
+        [ 1.8895e-04,  1.1486e-04, -7.5400e-05,  ..., -3.4595e-04,
+          3.3140e-04, -3.0065e-04],
+        [-3.4389e-03,  5.5552e-05,  3.3021e-04,  ...,  2.0432e-04,
+          2.5415e-04,  1.7834e-04],
+        ...,
+        [ 6.9571e-04, -3.4779e-05,  9.2268e-05,  ...,  8.6069e-05,
+         -9.0027e-04,  6.7770e-05],
+        [ 7.0763e-04,  1.7381e-04,  1.1265e-04,  ...,  1.9109e-04,
+          3.6502e-04,  1.5438e-04],
+        [ 2.4986e-04,  1.5938e-04,  1.8418e-04,  ...,  3.6073e-04,
+          7.3242e-04,  2.7269e-05]], device='cuda:0')
+Epoch 14, bias, value: tensor([ 0.0089,  0.0196,  0.0132, -0.0024,  0.0160, -0.0072, -0.0178, -0.0134,
+         0.0259, -0.0072], device='cuda:0'), grad: tensor([-0.0003, -0.0010, -0.0015, -0.0215,  0.0004,  0.0201,  0.0006, -0.0001,
+         0.0016,  0.0016], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 13----------------------------------------------------
+epoch 13, time 277.69, cls_loss 0.0544 cls_loss_mapping 0.0889 cls_loss_causal 0.9948 re_mapping 0.0349 re_causal 0.0915 /// teacc 98.39 lr 0.00010000
+Epoch 15, weight, value: tensor([[-0.0453, -0.0097,  0.0675,  ...,  0.0136, -0.0478, -0.0372],
+        [-0.0352, -0.0457,  0.0002,  ..., -0.0425, -0.0259,  0.0062],
+        [ 0.0565, -0.0003, -0.0341,  ..., -0.0375, -0.0554, -0.0794],
+        ...,
+        [-0.0104,  0.0026, -0.0483,  ...,  0.0091,  0.0184,  0.0198],
+        [-0.0454, -0.0504, -0.0125,  ..., -0.0198,  0.0068, -0.0111],
+        [-0.0049, -0.0217, -0.0042,  ...,  0.0408,  0.0209, -0.0434]],
+       device='cuda:0'), grad: tensor([[-4.3201e-04, -6.2609e-04, -4.6959e-03,  ..., -1.4410e-03,
+          8.6427e-05,  1.4946e-05],
+        [ 1.6689e-05,  5.8338e-06, -2.2709e-04,  ...,  1.4818e-04,
+          3.1734e-04,  3.0939e-06],
+        [ 3.0065e-04,  4.7743e-05,  1.2465e-03,  ...,  1.0471e-03,
+          4.9400e-04,  2.3559e-05],
+        ...,
+        [ 1.0170e-05,  1.5236e-05,  9.4354e-05,  ...,  7.2289e-04,
+          2.7251e-04,  4.2189e-07],
+        [ 1.3280e-04,  1.4603e-04,  5.8794e-04,  ...,  1.1663e-03,
+          1.7929e-03,  1.3083e-05],
+        [ 1.1361e-04,  8.7440e-05,  4.3488e-04,  ...,  4.9171e-03,
+          5.4398e-03,  2.3935e-06]], device='cuda:0')
+Epoch 15, bias, value: tensor([ 0.0089,  0.0194,  0.0131, -0.0023,  0.0156, -0.0069, -0.0179, -0.0133,
+         0.0260, -0.0071], device='cuda:0'), grad: tensor([-0.0031, -0.0012,  0.0020,  0.0002, -0.0103,  0.0002,  0.0014,  0.0008,
+         0.0031,  0.0070], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 14, time 261.51, cls_loss 0.0468 cls_loss_mapping 0.0780 cls_loss_causal 0.9790 re_mapping 0.0337 re_causal 0.0910 /// teacc 98.19 lr 0.00010000
+Epoch 16, weight, value: tensor([[-0.0461, -0.0094,  0.0684,  ...,  0.0140, -0.0490, -0.0383],
+        [-0.0356, -0.0462,  0.0001,  ..., -0.0432, -0.0264,  0.0071],
+        [ 0.0580, -0.0005, -0.0350,  ..., -0.0381, -0.0565, -0.0815],
+        ...,
+        [-0.0113,  0.0020, -0.0492,  ...,  0.0085,  0.0186,  0.0188],
+        [-0.0460, -0.0505, -0.0123,  ..., -0.0202,  0.0070, -0.0118],
+        [-0.0054, -0.0224, -0.0050,  ...,  0.0412,  0.0208, -0.0452]],
+       device='cuda:0'), grad: tensor([[ 3.7551e-05, -1.6391e-04, -1.1444e-03,  ...,  3.4362e-05,
+          2.5535e-04,  3.3528e-05],
+        [ 8.3637e-04,  3.2759e-04,  9.6083e-05,  ...,  3.2210e-04,
+          9.4128e-04,  1.5283e-04],
+        [-1.0300e-03,  6.8998e-04,  2.7156e-04,  ...,  5.3406e-04,
+          1.3151e-03,  4.6015e-05],
+        ...,
+        [ 7.7069e-05, -2.5558e-03,  4.6402e-05,  ..., -3.4714e-03,
+         -7.3357e-03,  2.9430e-06],
+        [ 6.3658e-05,  5.4169e-04,  2.6655e-04,  ...,  5.7888e-04,
+          1.2693e-03,  2.2066e-04],
+        [ 1.8597e-05,  1.2863e-04,  5.6267e-05,  ..., -6.3181e-04,
+         -4.5633e-04,  1.0006e-05]], device='cuda:0')
+Epoch 16, bias, value: tensor([ 0.0087,  0.0196,  0.0131, -0.0020,  0.0160, -0.0073, -0.0178, -0.0135,
+         0.0264, -0.0076], device='cuda:0'), grad: tensor([-2.8801e-04,  2.3460e-03,  2.4471e-03,  7.8773e-04,  7.5912e-03,
+         1.1139e-03, -5.8899e-03, -1.0933e-02,  2.9011e-03, -6.8843e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 15, time 260.58, cls_loss 0.0425 cls_loss_mapping 0.0693 cls_loss_causal 0.9267 re_mapping 0.0306 re_causal 0.0850 /// teacc 98.37 lr 0.00010000
+Epoch 17, weight, value: tensor([[-0.0468, -0.0093,  0.0696,  ...,  0.0147, -0.0498, -0.0391],
+        [-0.0361, -0.0466, -0.0004,  ..., -0.0444, -0.0272,  0.0057],
+        [ 0.0595, -0.0010, -0.0364,  ..., -0.0387, -0.0573, -0.0835],
+        ...,
+        [-0.0117,  0.0024, -0.0498,  ...,  0.0076,  0.0191,  0.0185],
+        [-0.0464, -0.0507, -0.0124,  ..., -0.0213,  0.0070, -0.0129],
+        [-0.0054, -0.0225, -0.0054,  ...,  0.0421,  0.0210, -0.0461]],
+       device='cuda:0'), grad: tensor([[ 1.8132e-04,  8.6874e-06, -1.4043e-04,  ..., -1.3340e-04,
+          1.1462e-04,  3.3307e-04],
+        [ 2.3556e-03,  1.5102e-05,  2.6703e-03,  ...,  2.7955e-05,
+          2.2447e-04,  5.5313e-03],
+        [ 6.7663e-04,  1.0818e-04,  5.2977e-04,  ...,  1.0782e-04,
+          1.4677e-03,  1.0271e-03],
+        ...,
+        [-6.6090e-04,  1.8001e-05,  2.7850e-05,  ..., -5.7846e-05,
+         -1.7281e-03, -1.4454e-05],
+        [ 1.0405e-03,  2.3440e-05,  1.0023e-03,  ...,  7.9155e-05,
+          3.7372e-05,  2.2335e-03],
+        [ 1.5259e-04,  4.8488e-05,  9.5308e-05,  ...,  1.6725e-04,
+          4.5037e-04,  4.7117e-05]], device='cuda:0')
+Epoch 17, bias, value: tensor([ 0.0088,  0.0195,  0.0131, -0.0025,  0.0162, -0.0071, -0.0177, -0.0133,
+         0.0262, -0.0075], device='cuda:0'), grad: tensor([ 0.0005,  0.0099,  0.0044,  0.0003, -0.0012,  0.0012, -0.0174, -0.0025,
+         0.0040,  0.0009], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 16----------------------------------------------------
+epoch 16, time 275.63, cls_loss 0.0409 cls_loss_mapping 0.0722 cls_loss_causal 0.9112 re_mapping 0.0299 re_causal 0.0832 /// teacc 98.40 lr 0.00010000
+Epoch 18, weight, value: tensor([[-0.0474, -0.0092,  0.0705,  ...,  0.0148, -0.0507, -0.0400],
+        [-0.0360, -0.0468, -0.0008,  ..., -0.0456, -0.0283,  0.0043],
+        [ 0.0601, -0.0015, -0.0374,  ..., -0.0394, -0.0580, -0.0864],
+        ...,
+        [-0.0120,  0.0022, -0.0505,  ...,  0.0075,  0.0196,  0.0171],
+        [-0.0471, -0.0508, -0.0122,  ..., -0.0226,  0.0067, -0.0150],
+        [-0.0057, -0.0230, -0.0051,  ...,  0.0425,  0.0210, -0.0478]],
+       device='cuda:0'), grad: tensor([[ 1.0639e-04,  9.6485e-06,  1.2255e-04,  ...,  8.1539e-04,
+          8.5878e-04,  8.5652e-05],
+        [ 2.6345e-04,  2.2128e-05,  1.2118e-04,  ...,  2.3615e-04,
+          2.5225e-04,  1.2040e-05],
+        [-8.9264e-04,  1.1361e-04,  2.4986e-04,  ...,  5.3167e-05,
+          3.1161e-04,  4.8466e-06],
+        ...,
+        [ 2.2197e-04,  5.8264e-05,  4.6879e-05,  ..., -2.3975e-03,
+         -2.0580e-03, -1.8919e-04],
+        [ 1.9109e-04,  5.5462e-05, -2.0885e-03,  ..., -3.9268e-04,
+         -1.2131e-03,  6.1095e-05],
+        [ 6.4790e-05,  8.7142e-05,  2.5940e-04,  ...,  1.2980e-03,
+          1.0681e-03,  1.0526e-04]], device='cuda:0')
+Epoch 18, bias, value: tensor([ 0.0087,  0.0195,  0.0127, -0.0021,  0.0162, -0.0071, -0.0178, -0.0131,
+         0.0259, -0.0074], device='cuda:0'), grad: tensor([ 1.9703e-03,  7.6008e-04,  2.6393e-04, -6.9320e-05,  1.6761e-04,
+         2.0561e-03,  2.0754e-04, -4.3411e-03, -4.0703e-03,  3.0537e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 17, time 254.21, cls_loss 0.0326 cls_loss_mapping 0.0553 cls_loss_causal 0.9035 re_mapping 0.0290 re_causal 0.0834 /// teacc 98.35 lr 0.00010000
+Epoch 19, weight, value: tensor([[-0.0481, -0.0092,  0.0715,  ...,  0.0155, -0.0514, -0.0405],
+        [-0.0368, -0.0471, -0.0015,  ..., -0.0460, -0.0291,  0.0032],
+        [ 0.0612, -0.0023, -0.0380,  ..., -0.0399, -0.0588, -0.0876],
+        ...,
+        [-0.0123,  0.0028, -0.0511,  ...,  0.0073,  0.0202,  0.0177],
+        [-0.0479, -0.0511, -0.0119,  ..., -0.0236,  0.0067, -0.0153],
+        [-0.0063, -0.0237, -0.0058,  ...,  0.0428,  0.0211, -0.0485]],
+       device='cuda:0'), grad: tensor([[ 7.7128e-05,  1.0349e-05, -1.1765e-02,  ...,  1.4019e-04,
+         -3.6201e-03, -6.1073e-03],
+        [-4.2458e-03, -2.5606e-04, -1.5097e-03,  ..., -1.7703e-04,
+          4.5609e-04, -5.0735e-04],
+        [ 2.4261e-03,  7.5817e-05,  3.3188e-04,  ..., -1.1215e-03,
+         -6.1035e-04,  4.6206e-04],
+        ...,
+        [ 4.4084e-04,  2.8789e-05,  4.9448e-04,  ...,  2.1057e-03,
+          1.8988e-03,  5.1618e-05],
+        [ 6.9332e-04,  1.3161e-04,  5.9557e-04,  ...,  1.1768e-03,
+          1.4591e-03,  1.8322e-04],
+        [ 4.9323e-05,  1.9774e-05,  2.2423e-04,  ..., -3.1757e-03,
+         -3.5381e-03,  5.5224e-05]], device='cuda:0')
+Epoch 19, bias, value: tensor([ 0.0087,  0.0191,  0.0128, -0.0024,  0.0164, -0.0067, -0.0176, -0.0128,
+         0.0259, -0.0076], device='cuda:0'), grad: tensor([-0.0099, -0.0070, -0.0102,  0.0018,  0.0011,  0.0104,  0.0029,  0.0066,
+         0.0073, -0.0029], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 18----------------------------------------------------
+epoch 18, time 268.36, cls_loss 0.0291 cls_loss_mapping 0.0543 cls_loss_causal 0.8886 re_mapping 0.0271 re_causal 0.0799 /// teacc 98.44 lr 0.00010000
+Epoch 20, weight, value: tensor([[-0.0486, -0.0093,  0.0723,  ...,  0.0157, -0.0521, -0.0409],
+        [-0.0372, -0.0474, -0.0015,  ..., -0.0466, -0.0297,  0.0031],
+        [ 0.0622, -0.0027, -0.0391,  ..., -0.0402, -0.0594, -0.0889],
+        ...,
+        [-0.0126,  0.0028, -0.0518,  ...,  0.0067,  0.0204,  0.0175],
+        [-0.0482, -0.0513, -0.0119,  ..., -0.0243,  0.0067, -0.0154],
+        [-0.0067, -0.0239, -0.0060,  ...,  0.0434,  0.0214, -0.0489]],
+       device='cuda:0'), grad: tensor([[ 2.2888e-05,  4.6402e-05, -1.9193e-04,  ..., -2.4110e-05,
+          1.3828e-04,  1.7300e-05],
+        [ 1.3840e-04,  2.2447e-04,  1.8045e-05,  ...,  1.4758e-04,
+          3.5596e-04,  1.2904e-05],
+        [-9.3102e-05,  2.3949e-04,  6.0618e-05,  ...,  2.5344e-04,
+          4.5633e-04,  1.8805e-05],
+        ...,
+        [ 8.1122e-05, -8.7440e-05,  2.4021e-05,  ...,  8.2169e-03,
+          6.8359e-03,  2.4512e-06],
+        [-4.9353e-05,  4.9019e-04,  6.0461e-06,  ...,  4.5371e-04,
+          1.0157e-03, -3.0905e-05],
+        [ 7.7188e-05, -5.5647e-04,  4.3422e-05,  ..., -9.1248e-03,
+         -8.7433e-03,  7.5251e-06]], device='cuda:0')
+Epoch 20, bias, value: tensor([ 0.0088,  0.0189,  0.0127, -0.0024,  0.0162, -0.0068, -0.0175, -0.0128,
+         0.0262, -0.0076], device='cuda:0'), grad: tensor([ 1.9145e-04,  7.4339e-04,  9.8705e-04, -2.6512e-04,  8.2672e-05,
+        -6.5088e-04,  6.3181e-04,  4.5624e-03,  2.0599e-03, -8.3389e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 19, time 251.02, cls_loss 0.0297 cls_loss_mapping 0.0518 cls_loss_causal 0.8685 re_mapping 0.0260 re_causal 0.0770 /// teacc 98.44 lr 0.00010000
+Epoch 21, weight, value: tensor([[-0.0491, -0.0094,  0.0729,  ...,  0.0157, -0.0530, -0.0420],
+        [-0.0379, -0.0475, -0.0016,  ..., -0.0465, -0.0302,  0.0020],
+        [ 0.0634, -0.0033, -0.0401,  ..., -0.0409, -0.0598, -0.0904],
+        ...,
+        [-0.0129,  0.0027, -0.0527,  ...,  0.0059,  0.0206,  0.0177],
+        [-0.0487, -0.0518, -0.0120,  ..., -0.0246,  0.0069, -0.0158],
+        [-0.0074, -0.0241, -0.0052,  ...,  0.0442,  0.0213, -0.0496]],
+       device='cuda:0'), grad: tensor([[-1.9699e-05, -1.9610e-04, -6.4611e-04,  ...,  6.0380e-05,
+          2.1553e-04,  1.2130e-04],
+        [ 3.4720e-05,  2.9191e-05, -1.0081e-05,  ...,  8.7798e-05,
+         -1.0364e-05,  2.0400e-05],
+        [ 8.8573e-05,  1.3876e-04,  3.8934e-04,  ...,  4.6039e-04,
+          4.7326e-04,  2.1651e-05],
+        ...,
+        [-2.2840e-04, -1.0371e-04,  1.3542e-04,  ...,  2.1243e-04,
+         -3.4118e-04,  1.1936e-05],
+        [-7.8619e-05, -4.9114e-04,  5.8270e-04,  ...,  8.7500e-04,
+          3.6979e-04,  1.5926e-04],
+        [ 2.1219e-05,  6.4790e-05,  1.1349e-03,  ...,  1.6603e-03,
+          7.7486e-04,  6.1095e-05]], device='cuda:0')
+Epoch 21, bias, value: tensor([ 0.0087,  0.0191,  0.0127, -0.0027,  0.0162, -0.0063, -0.0176, -0.0129,
+         0.0261, -0.0078], device='cuda:0'), grad: tensor([-1.7479e-05, -2.0962e-03,  1.3027e-03,  2.0733e-03, -4.7531e-03,
+        -1.2169e-03,  1.1215e-03, -3.4022e-04,  1.2465e-03,  2.6817e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 20----------------------------------------------------
+epoch 20, time 267.63, cls_loss 0.0279 cls_loss_mapping 0.0494 cls_loss_causal 0.8384 re_mapping 0.0250 re_causal 0.0735 /// teacc 98.66 lr 0.00010000
+Epoch 22, weight, value: tensor([[-0.0504, -0.0094,  0.0737,  ...,  0.0162, -0.0538, -0.0427],
+        [-0.0383, -0.0478, -0.0019,  ..., -0.0470, -0.0308,  0.0013],
+        [ 0.0645, -0.0038, -0.0406,  ..., -0.0410, -0.0601, -0.0925],
+        ...,
+        [-0.0134,  0.0030, -0.0529,  ...,  0.0054,  0.0207,  0.0179],
+        [-0.0490, -0.0520, -0.0122,  ..., -0.0252,  0.0068, -0.0158],
+        [-0.0076, -0.0244, -0.0054,  ...,  0.0447,  0.0214, -0.0501]],
+       device='cuda:0'), grad: tensor([[ 6.3181e-05, -1.5765e-05, -1.1873e-03,  ..., -4.1080e-04,
+          1.2338e-04,  4.6343e-05],
+        [ 1.5104e-04,  3.0071e-05,  3.5316e-05,  ...,  1.1951e-04,
+          1.2791e-04,  1.5885e-05],
+        [-9.6464e-04,  3.9697e-05,  1.6725e-04,  ...,  1.5330e-04,
+          1.0496e-04,  1.5020e-05],
+        ...,
+        [ 2.4056e-04,  2.8715e-05,  4.4852e-05,  ...,  7.6437e-04,
+          5.5981e-04,  6.4187e-06],
+        [ 3.4261e-04,  1.8132e-04,  9.6321e-05,  ...,  4.8828e-04,
+          4.9973e-04,  8.8513e-05],
+        [ 1.9491e-05,  2.8789e-05,  1.2362e-04,  ..., -4.9438e-03,
+         -3.5496e-03,  1.4216e-05]], device='cuda:0')
+Epoch 22, bias, value: tensor([ 0.0085,  0.0192,  0.0131, -0.0025,  0.0162, -0.0067, -0.0174, -0.0128,
+         0.0260, -0.0078], device='cuda:0'), grad: tensor([-5.8794e-04,  4.0531e-04, -5.6219e-04,  5.6177e-05,  3.8719e-03,
+         1.3483e-04,  4.5609e-04,  1.3571e-03,  1.2903e-03, -6.4201e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 21, time 251.05, cls_loss 0.0314 cls_loss_mapping 0.0568 cls_loss_causal 0.8744 re_mapping 0.0236 re_causal 0.0714 /// teacc 98.64 lr 0.00010000
+Epoch 23, weight, value: tensor([[-0.0510, -0.0091,  0.0747,  ...,  0.0167, -0.0544, -0.0440],
+        [-0.0389, -0.0482, -0.0022,  ..., -0.0469, -0.0312, -0.0017],
+        [ 0.0659, -0.0042, -0.0417,  ..., -0.0413, -0.0607, -0.0938],
+        ...,
+        [-0.0137,  0.0025, -0.0533,  ...,  0.0048,  0.0209,  0.0180],
+        [-0.0500, -0.0523, -0.0122,  ..., -0.0261,  0.0070, -0.0158],
+        [-0.0081, -0.0250, -0.0060,  ...,  0.0455,  0.0216, -0.0511]],
+       device='cuda:0'), grad: tensor([[ 6.2644e-05,  7.7343e-04,  1.2732e-03,  ...,  7.0858e-04,
+          2.8038e-04,  7.4983e-05],
+        [ 1.8522e-05,  5.2750e-05,  7.8201e-05,  ...,  8.8334e-05,
+          9.2328e-05,  2.1830e-05],
+        [-1.0071e-03, -1.3009e-05,  2.1362e-04,  ..., -2.1005e-04,
+          1.4436e-04,  2.3440e-05],
+        ...,
+        [ 8.6010e-05,  2.8896e-04,  4.7016e-04,  ...,  3.7456e-04,
+          1.2696e-04,  3.7085e-06],
+        [ 1.1486e-04,  1.4954e-03,  2.5177e-03,  ...,  1.7939e-03,
+          9.2316e-04,  1.5581e-04],
+        [ 1.0395e-04,  2.4092e-04,  3.8290e-04,  ...,  8.0204e-04,
+          5.6839e-04,  1.8895e-05]], device='cuda:0')
+Epoch 23, bias, value: tensor([ 0.0085,  0.0187,  0.0135, -0.0027,  0.0161, -0.0068, -0.0172, -0.0127,
+         0.0261, -0.0079], device='cuda:0'), grad: tensor([ 0.0031,  0.0002, -0.0002,  0.0036, -0.0015, -0.0172,  0.0026,  0.0013,
+         0.0065,  0.0017], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 22, time 251.55, cls_loss 0.0260 cls_loss_mapping 0.0504 cls_loss_causal 0.8111 re_mapping 0.0238 re_causal 0.0691 /// teacc 98.43 lr 0.00010000
+Epoch 24, weight, value: tensor([[-0.0519, -0.0094,  0.0751,  ...,  0.0169, -0.0550, -0.0447],
+        [-0.0393, -0.0486, -0.0016,  ..., -0.0475, -0.0319, -0.0009],
+        [ 0.0672, -0.0044, -0.0426,  ..., -0.0413, -0.0610, -0.0971],
+        ...,
+        [-0.0142,  0.0023, -0.0539,  ...,  0.0045,  0.0212,  0.0175],
+        [-0.0503, -0.0523, -0.0125,  ..., -0.0269,  0.0072, -0.0162],
+        [-0.0084, -0.0254, -0.0062,  ...,  0.0461,  0.0216, -0.0516]],
+       device='cuda:0'), grad: tensor([[-2.4602e-05, -3.3528e-05, -1.5247e-04,  ...,  3.1143e-05,
+          1.4913e-04,  6.7532e-05],
+        [-4.7088e-06,  2.8491e-05, -7.4565e-05,  ...,  1.5393e-05,
+          1.0884e-04, -7.0274e-05],
+        [ 5.8746e-04,  3.4833e-04,  7.4327e-05,  ...,  3.6216e-04,
+          4.7421e-04,  4.6700e-05],
+        ...,
+        [ 5.9932e-05,  1.6367e-04,  1.5631e-05,  ...,  5.4312e-04,
+          4.8304e-04, -3.7819e-05],
+        [ 2.3949e-04,  4.4608e-04,  1.9681e-04,  ...,  3.6788e-04,
+          1.0042e-03,  3.8600e-04],
+        [ 7.9095e-05,  1.5068e-04,  7.0989e-05,  ...,  3.8218e-04,
+          4.6206e-04,  6.2823e-05]], device='cuda:0')
+Epoch 24, bias, value: tensor([ 0.0082,  0.0186,  0.0137, -0.0029,  0.0161, -0.0065, -0.0172, -0.0125,
+         0.0265, -0.0082], device='cuda:0'), grad: tensor([ 0.0004, -0.0003,  0.0028,  0.0023,  0.0020, -0.0147, -0.0008,  0.0028,
+         0.0037,  0.0018], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 23, time 251.25, cls_loss 0.0266 cls_loss_mapping 0.0545 cls_loss_causal 0.8280 re_mapping 0.0223 re_causal 0.0669 /// teacc 98.63 lr 0.00010000
+Epoch 25, weight, value: tensor([[-0.0528, -0.0094,  0.0760,  ...,  0.0177, -0.0555, -0.0452],
+        [-0.0395, -0.0487, -0.0014,  ..., -0.0479, -0.0324, -0.0013],
+        [ 0.0678, -0.0054, -0.0434,  ..., -0.0419, -0.0620, -0.0968],
+        ...,
+        [-0.0139,  0.0028, -0.0546,  ...,  0.0041,  0.0217,  0.0179],
+        [-0.0511, -0.0527, -0.0122,  ..., -0.0279,  0.0072, -0.0174],
+        [-0.0090, -0.0259, -0.0070,  ...,  0.0465,  0.0214, -0.0537]],
+       device='cuda:0'), grad: tensor([[ 2.0102e-05,  3.2485e-05,  1.1069e-04,  ...,  1.1677e-04,
+          1.0437e-04,  1.2708e-04],
+        [-9.0837e-05,  9.6038e-06,  2.5317e-05,  ..., -1.1273e-05,
+          1.9562e-04, -7.8857e-05],
+        [-6.2609e-04,  1.8954e-05,  3.3945e-05,  ...,  7.6890e-05,
+          1.3208e-04,  2.5377e-05],
+        ...,
+        [ 1.7130e-04, -6.7711e-05,  1.5467e-05,  ...,  1.0324e-04,
+         -7.7915e-04,  6.0976e-05],
+        [ 1.4913e-04,  1.2711e-05,  4.5478e-05,  ...,  1.0383e-04,
+          1.9586e-04,  9.5785e-05],
+        [ 1.7717e-05,  1.6034e-05,  2.0996e-05,  ...,  3.5793e-05,
+          1.3840e-04,  2.3097e-05]], device='cuda:0')
+Epoch 25, bias, value: tensor([ 0.0085,  0.0190,  0.0132, -0.0027,  0.0162, -0.0066, -0.0174, -0.0122,
+         0.0264, -0.0087], device='cuda:0'), grad: tensor([ 0.0003, -0.0019,  0.0005,  0.0010, -0.0006,  0.0004, -0.0004, -0.0010,
+         0.0011,  0.0004], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 24----------------------------------------------------
+epoch 24, time 268.03, cls_loss 0.0216 cls_loss_mapping 0.0408 cls_loss_causal 0.7950 re_mapping 0.0212 re_causal 0.0650 /// teacc 98.69 lr 0.00010000
+Epoch 26, weight, value: tensor([[-0.0534, -0.0094,  0.0763,  ...,  0.0180, -0.0562, -0.0464],
+        [-0.0402, -0.0492, -0.0014,  ..., -0.0482, -0.0329, -0.0020],
+        [ 0.0689, -0.0055, -0.0442,  ..., -0.0423, -0.0627, -0.0964],
+        ...,
+        [-0.0140,  0.0031, -0.0551,  ...,  0.0034,  0.0219,  0.0180],
+        [-0.0516, -0.0530, -0.0118,  ..., -0.0288,  0.0071, -0.0173],
+        [-0.0093, -0.0262, -0.0074,  ...,  0.0472,  0.0217, -0.0542]],
+       device='cuda:0'), grad: tensor([[ 2.8953e-05,  3.8892e-06, -8.5890e-05,  ...,  4.0196e-06,
+          1.7321e-04,  6.9261e-05],
+        [ 4.8846e-05,  3.4153e-05,  1.5001e-03,  ..., -3.8910e-03,
+         -5.1618e-05,  3.2663e-05],
+        [-6.4802e-04,  3.1888e-05,  1.3626e-04,  ...,  1.9455e-04,
+          2.6035e-04,  7.0632e-05],
+        ...,
+        [ 1.7536e-04, -3.0017e-04,  6.1333e-05,  ...,  4.2992e-03,
+          2.3901e-04,  1.0863e-05],
+        [ 1.9443e-04,  7.4096e-06, -2.1324e-03,  ..., -1.6212e-03,
+         -6.7663e-04,  4.9257e-04],
+        [ 1.4320e-05,  5.2214e-05,  5.0592e-04,  ...,  2.9802e-05,
+          8.5652e-05,  1.2034e-04]], device='cuda:0')
+Epoch 26, bias, value: tensor([ 0.0081,  0.0190,  0.0134, -0.0030,  0.0166, -0.0066, -0.0176, -0.0121,
+         0.0262, -0.0085], device='cuda:0'), grad: tensor([ 0.0003, -0.0062,  0.0001,  0.0013,  0.0012, -0.0144,  0.0136,  0.0070,
+        -0.0039,  0.0011], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 25, time 251.29, cls_loss 0.0267 cls_loss_mapping 0.0460 cls_loss_causal 0.7893 re_mapping 0.0205 re_causal 0.0623 /// teacc 98.51 lr 0.00010000
+Epoch 27, weight, value: tensor([[-0.0539, -0.0093,  0.0766,  ...,  0.0181, -0.0565, -0.0479],
+        [-0.0409, -0.0495, -0.0017,  ..., -0.0483, -0.0335, -0.0027],
+        [ 0.0699, -0.0058, -0.0450,  ..., -0.0429, -0.0633, -0.0978],
+        ...,
+        [-0.0143,  0.0032, -0.0557,  ...,  0.0028,  0.0219,  0.0170],
+        [-0.0522, -0.0532, -0.0115,  ..., -0.0295,  0.0072, -0.0181],
+        [-0.0094, -0.0265, -0.0071,  ...,  0.0478,  0.0218, -0.0561]],
+       device='cuda:0'), grad: tensor([[-1.1368e-02,  6.5231e-04, -1.2047e-02,  ..., -2.1103e-02,
+          4.6164e-05,  4.8399e-05],
+        [-4.3392e-05,  1.0587e-05, -1.5676e-04,  ...,  4.5419e-05,
+          2.7704e-04, -4.2170e-05],
+        [ 8.1482e-03, -2.9579e-05,  1.0208e-02,  ...,  1.6815e-02,
+          1.1849e-04,  2.0885e-04],
+        ...,
+        [ 3.8600e-04,  2.8849e-04,  5.5647e-04,  ...,  5.4407e-04,
+         -1.3704e-03, -4.7851e-04],
+        [ 2.3317e-04,  4.2558e-05,  3.2902e-04,  ...,  3.3951e-04,
+          6.0844e-04,  3.0828e-04],
+        [ 1.7226e-04,  1.0169e-04,  4.2987e-04,  ...,  4.4417e-04,
+          3.6407e-04,  1.1063e-04]], device='cuda:0')
+Epoch 27, bias, value: tensor([ 0.0081,  0.0187,  0.0136, -0.0028,  0.0167, -0.0066, -0.0177, -0.0124,
+         0.0264, -0.0084], device='cuda:0'), grad: tensor([-0.0235, -0.0005,  0.0220,  0.0033,  0.0055, -0.0108,  0.0005, -0.0002,
+         0.0020,  0.0017], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 26, time 251.13, cls_loss 0.0219 cls_loss_mapping 0.0425 cls_loss_causal 0.8226 re_mapping 0.0194 re_causal 0.0621 /// teacc 98.67 lr 0.00010000
+Epoch 28, weight, value: tensor([[-0.0537, -0.0093,  0.0773,  ...,  0.0189, -0.0571, -0.0485],
+        [-0.0413, -0.0497, -0.0020,  ..., -0.0482, -0.0342, -0.0040],
+        [ 0.0706, -0.0060, -0.0463,  ..., -0.0440, -0.0638, -0.0995],
+        ...,
+        [-0.0146,  0.0035, -0.0562,  ...,  0.0026,  0.0225,  0.0164],
+        [-0.0525, -0.0535, -0.0111,  ..., -0.0300,  0.0071, -0.0187],
+        [-0.0099, -0.0267, -0.0076,  ...,  0.0485,  0.0220, -0.0578]],
+       device='cuda:0'), grad: tensor([[ 1.2153e-04, -3.0935e-05,  1.9730e-02,  ...,  1.7975e-02,
+          6.3777e-05,  5.5194e-05],
+        [ 1.9765e-04,  2.2724e-06,  4.3929e-05,  ...,  6.6340e-05,
+          2.6822e-04,  1.2982e-04],
+        [-2.9430e-03,  5.6960e-06,  1.9455e-04,  ...,  1.2219e-04,
+         -1.0425e-04, -3.4571e-05],
+        ...,
+        [ 1.0328e-03,  5.8226e-06,  9.4891e-05,  ...,  1.0526e-04,
+          6.2466e-05,  7.5638e-05],
+        [ 8.3780e-04,  7.6517e-06,  2.1434e-04,  ...,  9.1910e-05,
+         -2.0266e-04, -1.3351e-04],
+        [ 1.3185e-04,  6.3665e-06, -2.0584e-02,  ..., -1.7471e-02,
+          5.1641e-04,  4.1097e-05]], device='cuda:0')
+Epoch 28, bias, value: tensor([ 0.0082,  0.0185,  0.0132, -0.0029,  0.0163, -0.0068, -0.0170, -0.0120,
+         0.0263, -0.0082], device='cuda:0'), grad: tensor([ 0.0303,  0.0009, -0.0041,  0.0003, -0.0009,  0.0010, -0.0001,  0.0012,
+         0.0009, -0.0296], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 27, time 251.08, cls_loss 0.0219 cls_loss_mapping 0.0464 cls_loss_causal 0.8260 re_mapping 0.0200 re_causal 0.0615 /// teacc 98.58 lr 0.00010000
+Epoch 29, weight, value: tensor([[-0.0543, -0.0091,  0.0786,  ...,  0.0197, -0.0579, -0.0493],
+        [-0.0418, -0.0501, -0.0022,  ..., -0.0484, -0.0348, -0.0046],
+        [ 0.0718, -0.0063, -0.0474,  ..., -0.0446, -0.0643, -0.1003],
+        ...,
+        [-0.0151,  0.0037, -0.0570,  ...,  0.0022,  0.0227,  0.0158],
+        [-0.0530, -0.0539, -0.0111,  ..., -0.0308,  0.0071, -0.0175],
+        [-0.0105, -0.0271, -0.0078,  ...,  0.0490,  0.0220, -0.0585]],
+       device='cuda:0'), grad: tensor([[ 3.7611e-05,  3.6508e-06, -6.2037e-04,  ..., -2.4700e-04,
+          4.3392e-05,  1.3173e-05],
+        [ 1.6525e-05,  2.7306e-06,  2.0421e-04,  ...,  1.2898e-04,
+          3.3349e-05, -2.3544e-05],
+        [-8.1182e-05,  3.3695e-06,  1.2147e-04,  ...,  7.2122e-05,
+          7.7367e-05,  2.2724e-05],
+        ...,
+        [ 3.9190e-05,  1.3208e-04,  2.9042e-05,  ...,  4.8876e-04,
+          4.5729e-04,  4.0948e-05],
+        [ 1.3877e-06,  1.2748e-05,  9.0659e-05,  ...,  3.6240e-04,
+          2.7585e-04,  3.3200e-05],
+        [-3.1114e-05, -1.9205e-04,  4.1157e-05,  ..., -1.2398e-03,
+         -1.2732e-03, -1.0669e-04]], device='cuda:0')
+Epoch 29, bias, value: tensor([ 0.0086,  0.0185,  0.0134, -0.0026,  0.0163, -0.0065, -0.0175, -0.0121,
+         0.0263, -0.0086], device='cuda:0'), grad: tensor([-2.9230e-04, -8.6948e-06,  2.2686e-04,  1.3804e-04,  5.0306e-04,
+         6.7174e-05,  6.2108e-05,  8.0919e-04,  3.5644e-04, -1.8616e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 28----------------------------------------------------
+epoch 28, time 268.25, cls_loss 0.0222 cls_loss_mapping 0.0426 cls_loss_causal 0.8053 re_mapping 0.0194 re_causal 0.0594 /// teacc 98.82 lr 0.00010000
+Epoch 30, weight, value: tensor([[-0.0549, -0.0093,  0.0790,  ...,  0.0201, -0.0588, -0.0506],
+        [-0.0422, -0.0505, -0.0021,  ..., -0.0491, -0.0358, -0.0052],
+        [ 0.0732, -0.0075, -0.0484,  ..., -0.0451, -0.0649, -0.1013],
+        ...,
+        [-0.0154,  0.0046, -0.0578,  ...,  0.0015,  0.0229,  0.0158],
+        [-0.0536, -0.0540, -0.0111,  ..., -0.0316,  0.0070, -0.0172],
+        [-0.0112, -0.0275, -0.0082,  ...,  0.0493,  0.0221, -0.0586]],
+       device='cuda:0'), grad: tensor([[ 7.0810e-05,  6.9886e-06, -2.8372e-04,  ..., -2.1446e-04,
+          2.3976e-05,  5.8413e-05],
+        [ 2.0969e-04,  2.4676e-05,  3.2097e-05,  ...,  8.4400e-05,
+          5.9515e-05,  2.6441e-04],
+        [-1.4138e-04,  2.7552e-05,  1.1426e-04,  ...,  1.3733e-04,
+          8.0526e-05,  2.0707e-04],
+        ...,
+        [ 1.3304e-04,  2.5295e-06,  2.1338e-05,  ...,  5.8800e-05,
+         -4.6670e-05,  2.0042e-05],
+        [ 2.3437e-04,  3.5197e-05,  2.9802e-05,  ...,  1.5986e-04,
+          1.8156e-04,  8.4519e-05],
+        [ 2.2650e-04,  2.7850e-05,  5.0277e-05,  ...,  5.6744e-04,
+          3.5381e-04,  1.4514e-05]], device='cuda:0')
+Epoch 30, bias, value: tensor([ 0.0082,  0.0183,  0.0135, -0.0027,  0.0166, -0.0063, -0.0176, -0.0120,
+         0.0263, -0.0087], device='cuda:0'), grad: tensor([-0.0002,  0.0005,  0.0007, -0.0016, -0.0004,  0.0002, -0.0018,  0.0003,
+         0.0009,  0.0012], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 29, time 251.21, cls_loss 0.0144 cls_loss_mapping 0.0322 cls_loss_causal 0.8132 re_mapping 0.0186 re_causal 0.0598 /// teacc 98.71 lr 0.00010000
+Epoch 31, weight, value: tensor([[-0.0557, -0.0094,  0.0798,  ...,  0.0206, -0.0594, -0.0513],
+        [-0.0425, -0.0509, -0.0022,  ..., -0.0498, -0.0364, -0.0057],
+        [ 0.0740, -0.0077, -0.0492,  ..., -0.0450, -0.0655, -0.1026],
+        ...,
+        [-0.0158,  0.0046, -0.0583,  ...,  0.0012,  0.0234,  0.0157],
+        [-0.0542, -0.0542, -0.0114,  ..., -0.0323,  0.0069, -0.0170],
+        [-0.0117, -0.0277, -0.0086,  ...,  0.0497,  0.0222, -0.0589]],
+       device='cuda:0'), grad: tensor([[-3.3712e-04, -1.1005e-05, -1.3599e-03,  ..., -3.1638e-04,
+         -2.7627e-05,  1.4029e-05],
+        [ 5.0247e-05,  1.5363e-05,  1.2517e-05,  ...,  5.9783e-05,
+          5.9694e-05,  1.5218e-06],
+        [ 1.0329e-04,  4.2528e-05,  3.8147e-04,  ...,  1.7357e-04,
+          9.8050e-05,  1.2539e-05],
+        ...,
+        [ 1.4508e-04,  4.2655e-06,  2.5749e-05,  ...,  1.0192e-04,
+          1.6659e-05,  1.1206e-05],
+        [ 2.2209e-04,  2.9385e-05,  4.2987e-04,  ...,  2.3830e-04,
+          1.1617e-04,  1.0896e-07],
+        [ 8.3983e-05,  3.5167e-05,  1.7107e-04,  ..., -5.7173e-04,
+         -3.8624e-04, -7.3493e-05]], device='cuda:0')
+Epoch 31, bias, value: tensor([ 0.0083,  0.0180,  0.0136, -0.0026,  0.0165, -0.0061, -0.0176, -0.0119,
+         0.0261, -0.0088], device='cuda:0'), grad: tensor([-1.7090e-03,  2.2396e-05,  8.2254e-04, -5.3835e-04, -7.7724e-05,
+         5.2118e-04,  2.4939e-04,  3.6216e-04,  8.8215e-04, -5.3501e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 30, time 251.20, cls_loss 0.0200 cls_loss_mapping 0.0382 cls_loss_causal 0.7281 re_mapping 0.0190 re_causal 0.0545 /// teacc 98.61 lr 0.00010000
+Epoch 32, weight, value: tensor([[-0.0562, -0.0094,  0.0800,  ...,  0.0206, -0.0602, -0.0524],
+        [-0.0432, -0.0512, -0.0021,  ..., -0.0502, -0.0370, -0.0057],
+        [ 0.0748, -0.0080, -0.0500,  ..., -0.0454, -0.0659, -0.1030],
+        ...,
+        [-0.0160,  0.0047, -0.0588,  ...,  0.0008,  0.0236,  0.0156],
+        [-0.0546, -0.0544, -0.0115,  ..., -0.0332,  0.0070, -0.0180],
+        [-0.0121, -0.0279, -0.0079,  ...,  0.0502,  0.0222, -0.0599]],
+       device='cuda:0'), grad: tensor([[ 1.7738e-04, -1.5557e-05, -3.2139e-04,  ..., -2.6369e-04,
+          3.2043e-04,  1.1295e-04],
+        [ 2.2426e-05,  7.8455e-06, -3.3323e-06,  ..., -1.1899e-05,
+          2.1055e-05,  8.4750e-07],
+        [ 6.1810e-05,  4.0293e-05,  3.6430e-04,  ...,  2.1231e-04,
+          2.6870e-04,  1.2267e-04],
+        ...,
+        [ 5.9277e-05,  3.2336e-05,  7.6890e-05,  ...,  1.5700e-04,
+          5.0552e-06, -1.8477e-05],
+        [ 1.0014e-04,  2.0042e-05,  7.1883e-05,  ...,  1.5473e-04,
+          2.5725e-04,  4.2796e-05],
+        [ 2.4259e-05, -1.5441e-06,  1.0061e-04,  ..., -5.0455e-05,
+         -7.3016e-05,  3.3528e-05]], device='cuda:0')
+Epoch 32, bias, value: tensor([ 0.0077,  0.0176,  0.0139, -0.0022,  0.0166, -0.0062, -0.0177, -0.0118,
+         0.0262, -0.0086], device='cuda:0'), grad: tensor([ 3.5524e-04, -7.1335e-04,  8.7452e-04, -9.2745e-04, -1.0723e-04,
+        -5.0038e-05, -4.5037e-04,  1.8454e-04,  7.1859e-04,  1.1450e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 31, time 251.53, cls_loss 0.0179 cls_loss_mapping 0.0347 cls_loss_causal 0.7735 re_mapping 0.0183 re_causal 0.0572 /// teacc 98.78 lr 0.00010000
+Epoch 33, weight, value: tensor([[-0.0572, -0.0093,  0.0805,  ...,  0.0210, -0.0609, -0.0534],
+        [-0.0435, -0.0514, -0.0019,  ..., -0.0505, -0.0375, -0.0065],
+        [ 0.0754, -0.0092, -0.0508,  ..., -0.0462, -0.0667, -0.1032],
+        ...,
+        [-0.0158,  0.0049, -0.0596,  ...,  0.0002,  0.0238,  0.0158],
+        [-0.0556, -0.0544, -0.0116,  ..., -0.0336,  0.0069, -0.0183],
+        [-0.0120, -0.0283, -0.0077,  ...,  0.0507,  0.0225, -0.0591]],
+       device='cuda:0'), grad: tensor([[-4.7773e-05,  7.9870e-06,  2.0294e-03,  ...,  8.3971e-04,
+          1.3399e-03,  2.7046e-03],
+        [ 8.0690e-06,  1.9088e-05,  1.3888e-04,  ...,  7.0572e-05,
+          1.1772e-04,  1.3268e-04],
+        [ 3.5107e-05,  2.3022e-05,  1.5795e-04,  ...,  1.6403e-04,
+          7.8261e-05,  5.2005e-05],
+        ...,
+        [ 1.7017e-05, -8.7082e-05,  6.2823e-05,  ...,  1.6582e-04,
+         -3.0088e-04, -2.5809e-05],
+        [ 9.2089e-06,  2.0146e-05,  2.1589e-04,  ...,  1.1414e-04,
+          2.3150e-04,  1.6320e-04],
+        [ 4.6849e-05,  7.0632e-05,  2.6512e-04,  ...,  1.7548e-04,
+          1.9252e-04,  1.0437e-04]], device='cuda:0')
+Epoch 33, bias, value: tensor([ 0.0077,  0.0178,  0.0133, -0.0025,  0.0168, -0.0065, -0.0172, -0.0115,
+         0.0260, -0.0082], device='cuda:0'), grad: tensor([ 0.0028,  0.0001,  0.0003,  0.0001,  0.0005, -0.0002, -0.0048, -0.0002,
+         0.0006,  0.0007], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 32----------------------------------------------------
+epoch 32, time 267.79, cls_loss 0.0178 cls_loss_mapping 0.0357 cls_loss_causal 0.7641 re_mapping 0.0177 re_causal 0.0552 /// teacc 98.85 lr 0.00010000
+Epoch 34, weight, value: tensor([[-0.0579, -0.0093,  0.0811,  ...,  0.0215, -0.0614, -0.0549],
+        [-0.0439, -0.0518, -0.0027,  ..., -0.0504, -0.0375, -0.0069],
+        [ 0.0763, -0.0094, -0.0515,  ..., -0.0465, -0.0672, -0.1044],
+        ...,
+        [-0.0166,  0.0045, -0.0603,  ..., -0.0007,  0.0237,  0.0154],
+        [-0.0562, -0.0550, -0.0111,  ..., -0.0343,  0.0066, -0.0186],
+        [-0.0123, -0.0281, -0.0078,  ...,  0.0513,  0.0227, -0.0592]],
+       device='cuda:0'), grad: tensor([[-9.2760e-06,  7.7812e-07, -1.2932e-03,  ..., -7.9679e-04,
+          1.5065e-05,  2.6450e-05],
+        [ 5.1446e-06,  3.0790e-06, -4.1574e-05,  ...,  1.9893e-05,
+          6.4552e-05,  4.8816e-05],
+        [ 2.6405e-05,  1.3262e-05,  1.4973e-04,  ...,  9.7156e-05,
+          2.4706e-05,  1.7166e-05],
+        ...,
+        [ 1.0513e-05, -1.1362e-06,  4.6402e-05,  ...,  4.2170e-05,
+         -1.2648e-04, -4.2021e-05],
+        [ 8.6129e-06,  4.8205e-06,  1.4460e-04,  ...,  1.3745e-04,
+          1.0538e-04,  1.3173e-04],
+        [ 1.3821e-05,  9.9912e-06,  5.7793e-04,  ...,  2.6631e-04,
+         -1.3256e-04, -5.8025e-05]], device='cuda:0')
+Epoch 34, bias, value: tensor([ 0.0073,  0.0177,  0.0133, -0.0024,  0.0168, -0.0058, -0.0171, -0.0120,
+         0.0257, -0.0079], device='cuda:0'), grad: tensor([-1.1797e-03, -1.1629e-04,  2.6679e-04,  1.3804e-04, -5.6118e-05,
+         5.6601e-04, -3.9959e-04, -6.6757e-05,  4.7708e-04,  3.7003e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 33, time 251.15, cls_loss 0.0166 cls_loss_mapping 0.0340 cls_loss_causal 0.7346 re_mapping 0.0169 re_causal 0.0537 /// teacc 98.82 lr 0.00010000
+Epoch 35, weight, value: tensor([[-0.0587, -0.0094,  0.0818,  ...,  0.0225, -0.0619, -0.0561],
+        [-0.0444, -0.0521, -0.0028,  ..., -0.0509, -0.0381, -0.0072],
+        [ 0.0773, -0.0095, -0.0520,  ..., -0.0470, -0.0676, -0.1055],
+        ...,
+        [-0.0172,  0.0047, -0.0607,  ..., -0.0011,  0.0241,  0.0156],
+        [-0.0568, -0.0552, -0.0108,  ..., -0.0346,  0.0066, -0.0190],
+        [-0.0121, -0.0285, -0.0088,  ...,  0.0516,  0.0230, -0.0585]],
+       device='cuda:0'), grad: tensor([[ 4.1388e-06,  5.0887e-06, -1.5831e-04,  ..., -6.0558e-05,
+          2.6762e-05,  2.6390e-05],
+        [ 5.3942e-06,  1.3255e-05, -8.8274e-05,  ..., -3.3468e-05,
+          2.5347e-05,  5.6736e-06],
+        [-4.6194e-05,  1.1675e-05,  9.6619e-05,  ...,  4.8637e-05,
+          4.0501e-05,  3.1531e-05],
+        ...,
+        [ 1.3471e-05,  1.6224e-06,  1.6481e-05,  ...,  3.0667e-05,
+         -3.0294e-05,  1.2768e-06],
+        [ 1.6361e-05,  1.5914e-05,  7.3195e-05,  ...,  7.8261e-05,
+          6.3837e-05,  3.4183e-05],
+        [ 2.5779e-06,  5.3525e-05,  4.1664e-05,  ...,  6.6876e-05,
+          4.0591e-05,  3.5852e-05]], device='cuda:0')
+Epoch 35, bias, value: tensor([ 0.0075,  0.0175,  0.0136, -0.0029,  0.0170, -0.0060, -0.0171, -0.0119,
+         0.0258, -0.0080], device='cuda:0'), grad: tensor([-3.1769e-05, -3.2496e-04,  2.2042e-04, -1.2743e-04,  2.2113e-04,
+        -2.8038e-04, -2.1398e-04,  2.7761e-05,  1.5342e-04,  3.5453e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 34, time 251.21, cls_loss 0.0146 cls_loss_mapping 0.0335 cls_loss_causal 0.7366 re_mapping 0.0162 re_causal 0.0512 /// teacc 98.58 lr 0.00010000
+Epoch 36, weight, value: tensor([[-0.0592, -0.0094,  0.0828,  ...,  0.0230, -0.0621, -0.0554],
+        [-0.0442, -0.0524, -0.0027,  ..., -0.0509, -0.0381, -0.0075],
+        [ 0.0782, -0.0096, -0.0525,  ..., -0.0475, -0.0683, -0.1065],
+        ...,
+        [-0.0176,  0.0044, -0.0611,  ..., -0.0018,  0.0242,  0.0156],
+        [-0.0577, -0.0554, -0.0112,  ..., -0.0353,  0.0066, -0.0195],
+        [-0.0121, -0.0285, -0.0092,  ...,  0.0523,  0.0231, -0.0590]],
+       device='cuda:0'), grad: tensor([[ 1.9819e-05,  1.3066e-06, -1.0663e-04,  ..., -1.0431e-06,
+          3.9160e-05,  1.3523e-05],
+        [ 3.0369e-05,  3.8669e-06,  1.2210e-06,  ...,  1.0729e-04,
+          3.4046e-04,  6.4149e-06],
+        [ 1.6463e-04,  6.2063e-06,  2.6554e-05,  ...,  2.1410e-04,
+          1.0508e-04,  3.7774e-06],
+        ...,
+        [ 2.5466e-05, -4.8190e-05,  4.1761e-06,  ..., -6.5207e-05,
+         -5.1022e-04,  4.8615e-07],
+        [ 3.4124e-05,  4.1872e-06,  2.5198e-05,  ...,  2.0123e-04,
+          2.2328e-04,  1.7807e-05],
+        [ 2.3857e-05,  1.8582e-05,  2.2367e-05,  ...,  1.5745e-03,
+          7.2384e-04,  4.0010e-06]], device='cuda:0')
+Epoch 36, bias, value: tensor([ 0.0079,  0.0183,  0.0135, -0.0029,  0.0168, -0.0062, -0.0170, -0.0120,
+         0.0253, -0.0080], device='cuda:0'), grad: tensor([ 6.9618e-05,  2.4776e-03,  5.6744e-04,  2.4261e-03, -1.9484e-03,
+        -6.6299e-03,  1.5855e-04, -7.1573e-04,  1.3323e-03,  2.2602e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 35, time 251.46, cls_loss 0.0120 cls_loss_mapping 0.0265 cls_loss_causal 0.7327 re_mapping 0.0158 re_causal 0.0511 /// teacc 98.77 lr 0.00010000
+Epoch 37, weight, value: tensor([[-0.0598, -0.0094,  0.0834,  ...,  0.0235, -0.0627, -0.0561],
+        [-0.0446, -0.0528, -0.0027,  ..., -0.0513, -0.0389, -0.0079],
+        [ 0.0789, -0.0103, -0.0530,  ..., -0.0476, -0.0687, -0.1070],
+        ...,
+        [-0.0180,  0.0050, -0.0615,  ..., -0.0024,  0.0247,  0.0157],
+        [-0.0581, -0.0555, -0.0114,  ..., -0.0360,  0.0065, -0.0195],
+        [-0.0124, -0.0289, -0.0095,  ...,  0.0526,  0.0233, -0.0588]],
+       device='cuda:0'), grad: tensor([[ 5.6356e-05, -6.1178e-04, -6.0616e-03,  ..., -3.5686e-03,
+         -1.4372e-03,  2.9281e-05],
+        [ 1.6093e-04,  9.3043e-05,  1.3620e-05,  ...,  1.5602e-05,
+          2.2757e-04,  9.3505e-06],
+        [ 1.8740e-03,  3.9268e-04,  3.3617e-04,  ...,  2.0289e-04,
+          1.2980e-03,  7.9215e-05],
+        ...,
+        [-2.1839e-03, -2.4643e-03,  3.7014e-05,  ...,  6.8128e-05,
+         -5.1613e-03,  8.8364e-06],
+        [ 1.9140e-03,  2.1973e-03,  3.0785e-03,  ...,  1.8053e-03,
+          4.8637e-03,  5.8919e-05],
+        [ 5.6952e-05,  5.9694e-05,  4.9925e-04,  ...,  4.1771e-04,
+          1.4782e-04,  1.2644e-05]], device='cuda:0')
+Epoch 37, bias, value: tensor([ 0.0080,  0.0179,  0.0135, -0.0027,  0.0167, -0.0064, -0.0169, -0.0113,
+         0.0252, -0.0081], device='cuda:0'), grad: tensor([-7.0190e-03,  4.7088e-04,  4.1542e-03, -3.7575e-03, -7.0989e-05,
+         1.7929e-03,  2.0905e-03, -1.1101e-02,  1.2581e-02,  8.3923e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 36, time 251.32, cls_loss 0.0149 cls_loss_mapping 0.0345 cls_loss_causal 0.7418 re_mapping 0.0151 re_causal 0.0499 /// teacc 98.83 lr 0.00010000
+Epoch 38, weight, value: tensor([[-0.0604, -0.0095,  0.0840,  ...,  0.0238, -0.0634, -0.0567],
+        [-0.0453, -0.0533, -0.0030,  ..., -0.0517, -0.0397, -0.0092],
+        [ 0.0803, -0.0107, -0.0537,  ..., -0.0480, -0.0690, -0.1069],
+        ...,
+        [-0.0184,  0.0051, -0.0620,  ..., -0.0028,  0.0251,  0.0154],
+        [-0.0589, -0.0557, -0.0115,  ..., -0.0363,  0.0067, -0.0188],
+        [-0.0130, -0.0293, -0.0101,  ...,  0.0528,  0.0234, -0.0596]],
+       device='cuda:0'), grad: tensor([[ 9.1642e-06, -3.8892e-06, -2.4176e-04,  ..., -8.9467e-05,
+          4.1038e-05,  4.8041e-05],
+        [ 1.4342e-05,  2.0582e-06, -6.0126e-06,  ...,  3.2876e-06,
+          4.0740e-05,  2.9162e-05],
+        [-2.1183e-04,  2.7847e-06,  6.0558e-05,  ...,  1.4737e-05,
+          1.4469e-05,  3.6117e-06],
+        ...,
+        [ 1.5244e-05, -2.5108e-06,  3.2812e-05,  ...,  1.9118e-05,
+         -3.4630e-05,  1.0766e-05],
+        [ 1.2088e-04,  1.8328e-05,  2.9898e-04,  ...,  5.6416e-05,
+          5.8985e-04,  7.1669e-04],
+        [ 1.6708e-06,  6.3367e-06,  6.1750e-05,  ..., -9.3043e-05,
+         -8.3983e-05,  1.6183e-05]], device='cuda:0')
+Epoch 38, bias, value: tensor([ 0.0078,  0.0176,  0.0140, -0.0027,  0.0167, -0.0065, -0.0166, -0.0112,
+         0.0254, -0.0086], device='cuda:0'), grad: tensor([-1.1152e-04, -1.2636e-04, -1.3292e-04,  9.9754e-04,  1.8358e-04,
+        -2.0313e-03, -3.7813e-04,  4.3660e-05,  1.5888e-03, -3.2276e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 37----------------------------------------------------
+epoch 37, time 269.98, cls_loss 0.0137 cls_loss_mapping 0.0287 cls_loss_causal 0.7411 re_mapping 0.0152 re_causal 0.0483 /// teacc 98.87 lr 0.00010000
+Epoch 39, weight, value: tensor([[-0.0610, -0.0096,  0.0846,  ...,  0.0242, -0.0642, -0.0577],
+        [-0.0457, -0.0537, -0.0027,  ..., -0.0522, -0.0405, -0.0098],
+        [ 0.0810, -0.0113, -0.0547,  ..., -0.0485, -0.0697, -0.1078],
+        ...,
+        [-0.0186,  0.0046, -0.0628,  ..., -0.0034,  0.0251,  0.0155],
+        [-0.0594, -0.0559, -0.0112,  ..., -0.0366,  0.0067, -0.0188],
+        [-0.0130, -0.0295, -0.0105,  ...,  0.0531,  0.0235, -0.0598]],
+       device='cuda:0'), grad: tensor([[ 3.2336e-05,  6.4448e-06, -2.2256e-04,  ..., -8.0824e-05,
+          1.9148e-05,  9.4771e-06],
+        [ 7.4327e-05,  8.3968e-06,  6.0834e-06,  ...,  9.6783e-06,
+          4.2617e-05,  1.3746e-06],
+        [-4.6849e-04, -3.2812e-05,  1.8165e-05,  ...,  1.8835e-05,
+          3.4988e-05,  7.6508e-07],
+        ...,
+        [ 1.2624e-04,  1.8150e-05,  4.9584e-06,  ...,  7.9721e-06,
+         -1.9717e-04,  1.8356e-06],
+        [ 5.8800e-05,  2.2995e-04,  2.7761e-05,  ...,  1.0675e-04,
+          3.1877e-04,  6.9916e-05],
+        [ 1.8865e-05,  8.3089e-05,  1.2636e-04,  ...,  1.3220e-04,
+          1.4579e-04,  2.5585e-05]], device='cuda:0')
+Epoch 39, bias, value: tensor([ 0.0078,  0.0173,  0.0140, -0.0027,  0.0172, -0.0068, -0.0163, -0.0112,
+         0.0252, -0.0084], device='cuda:0'), grad: tensor([-8.5354e-05,  1.9205e-04, -3.5548e-04,  3.3307e-04, -3.1531e-05,
+        -1.1768e-03,  1.2791e-04, -4.6539e-04,  9.3126e-04,  5.3072e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 38, time 251.41, cls_loss 0.0169 cls_loss_mapping 0.0346 cls_loss_causal 0.7538 re_mapping 0.0148 re_causal 0.0478 /// teacc 98.86 lr 0.00010000
+Epoch 40, weight, value: tensor([[-0.0616, -0.0097,  0.0850,  ...,  0.0240, -0.0648, -0.0589],
+        [-0.0465, -0.0540, -0.0019,  ..., -0.0525, -0.0412, -0.0104],
+        [ 0.0817, -0.0120, -0.0556,  ..., -0.0493, -0.0702, -0.1077],
+        ...,
+        [-0.0184,  0.0046, -0.0636,  ..., -0.0037,  0.0254,  0.0159],
+        [-0.0599, -0.0564, -0.0114,  ..., -0.0372,  0.0065, -0.0188],
+        [-0.0132, -0.0299, -0.0105,  ...,  0.0538,  0.0236, -0.0609]],
+       device='cuda:0'), grad: tensor([[ 8.3521e-06,  1.3098e-05,  1.0222e-04,  ..., -2.4274e-05,
+          5.7578e-05,  1.6320e-04],
+        [ 5.4277e-06,  3.9563e-06,  3.7532e-06,  ...,  1.3523e-05,
+          1.9014e-05,  1.1586e-05],
+        [-3.3832e-04, -1.0192e-04,  4.3631e-05,  ...,  9.7871e-05,
+         -1.6376e-05,  2.3946e-05],
+        ...,
+        [ 2.6441e-04,  6.3837e-05,  6.8024e-06,  ...,  1.4460e-04,
+          1.0210e-04,  1.4290e-05],
+        [-1.1332e-05,  3.3863e-06, -2.5570e-05,  ...,  1.4901e-05,
+         -2.5153e-05, -7.6964e-06],
+        [ 4.6492e-06,  1.1832e-05,  2.3320e-05,  ...,  4.5747e-05,
+          3.7313e-05,  2.2054e-05]], device='cuda:0')
+Epoch 40, bias, value: tensor([ 0.0073,  0.0165,  0.0142, -0.0024,  0.0171, -0.0068, -0.0161, -0.0110,
+         0.0249, -0.0080], device='cuda:0'), grad: tensor([ 1.8764e-04, -1.1759e-03,  4.2152e-04,  2.0576e-04, -1.7846e-04,
+        -8.7619e-05, -7.9453e-05,  6.1560e-04, -1.4484e-04,  2.3580e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 39, time 251.28, cls_loss 0.0109 cls_loss_mapping 0.0264 cls_loss_causal 0.6991 re_mapping 0.0145 re_causal 0.0465 /// teacc 98.81 lr 0.00010000
+Epoch 41, weight, value: tensor([[-0.0620, -0.0098,  0.0857,  ...,  0.0248, -0.0655, -0.0600],
+        [-0.0465, -0.0542, -0.0017,  ..., -0.0531, -0.0415, -0.0107],
+        [ 0.0827, -0.0123, -0.0564,  ..., -0.0500, -0.0706, -0.1085],
+        ...,
+        [-0.0189,  0.0047, -0.0640,  ..., -0.0040,  0.0257,  0.0151],
+        [-0.0603, -0.0566, -0.0111,  ..., -0.0378,  0.0067, -0.0178],
+        [-0.0134, -0.0302, -0.0110,  ...,  0.0537,  0.0236, -0.0619]],
+       device='cuda:0'), grad: tensor([[ 1.9133e-05,  2.8126e-07, -5.8115e-07,  ..., -2.6952e-06,
+          3.5942e-05,  3.1114e-05],
+        [ 9.7334e-05,  4.0643e-06, -5.3465e-05,  ...,  4.6529e-06,
+          2.7359e-05, -6.9141e-05],
+        [-5.2333e-05,  5.7146e-06,  2.1413e-05,  ...,  5.8562e-06,
+          1.8492e-05,  1.1161e-05],
+        ...,
+        [ 8.1956e-05,  4.0047e-06,  5.3234e-06,  ...,  2.2128e-05,
+         -1.8919e-04,  1.0826e-05],
+        [ 4.4137e-05,  2.4177e-06,  2.7418e-05,  ...,  5.3465e-05,
+          6.3598e-05,  6.3360e-05],
+        [ 3.9697e-05,  8.0690e-06,  1.0103e-05,  ..., -2.8539e-04,
+          1.3120e-05,  2.4021e-05]], device='cuda:0')
+Epoch 41, bias, value: tensor([ 0.0075,  0.0172,  0.0141, -0.0025,  0.0171, -0.0069, -0.0160, -0.0116,
+         0.0250, -0.0082], device='cuda:0'), grad: tensor([ 1.7655e-04, -1.9848e-04,  3.1376e-04,  2.3136e-03,  3.3569e-04,
+        -3.2940e-03, -4.5598e-05, -3.9363e-04,  4.9734e-04,  2.9159e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 40----------------------------------------------------
+epoch 40, time 269.33, cls_loss 0.0108 cls_loss_mapping 0.0255 cls_loss_causal 0.6745 re_mapping 0.0147 re_causal 0.0457 /// teacc 98.92 lr 0.00010000
+Epoch 42, weight, value: tensor([[-0.0624, -0.0099,  0.0865,  ...,  0.0251, -0.0660, -0.0602],
+        [-0.0466, -0.0545, -0.0023,  ..., -0.0536, -0.0417, -0.0105],
+        [ 0.0835, -0.0132, -0.0570,  ..., -0.0507, -0.0710, -0.1095],
+        ...,
+        [-0.0196,  0.0049, -0.0643,  ..., -0.0043,  0.0259,  0.0148],
+        [-0.0607, -0.0565, -0.0113,  ..., -0.0385,  0.0066, -0.0177],
+        [-0.0139, -0.0305, -0.0110,  ...,  0.0545,  0.0238, -0.0629]],
+       device='cuda:0'), grad: tensor([[ 9.8348e-06,  6.1542e-06,  2.9922e-05,  ...,  8.3372e-06,
+          2.0742e-05,  1.6123e-05],
+        [ 1.5378e-04,  1.7062e-05,  1.0356e-05,  ..., -2.5362e-05,
+          5.0753e-05, -6.4909e-05],
+        [-3.1853e-04,  1.8507e-05,  1.0140e-05,  ...,  1.0647e-05,
+          3.4332e-05,  2.2247e-05],
+        ...,
+        [ 5.9545e-05,  3.1620e-05,  1.2713e-06,  ...,  8.2374e-05,
+          1.4871e-05,  2.8998e-05],
+        [ 6.5804e-05,  5.6416e-05,  3.2067e-05,  ...,  1.2743e-04,
+          2.0647e-04,  3.6508e-05],
+        [ 1.5058e-05,  1.2529e-04,  5.0999e-06,  ..., -2.0182e-04,
+         -1.5736e-04,  1.8075e-05]], device='cuda:0')
+Epoch 42, bias, value: tensor([ 0.0075,  0.0174,  0.0142, -0.0026,  0.0168, -0.0067, -0.0159, -0.0116,
+         0.0248, -0.0081], device='cuda:0'), grad: tensor([ 1.0157e-04, -3.1185e-04, -2.6655e-04, -2.8400e-03,  5.5122e-04,
+         2.2697e-03, -4.8566e-04,  2.3186e-04,  7.4100e-04,  9.6709e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 41, time 251.87, cls_loss 0.0130 cls_loss_mapping 0.0275 cls_loss_causal 0.7024 re_mapping 0.0142 re_causal 0.0460 /// teacc 98.74 lr 0.00010000
+Epoch 43, weight, value: tensor([[-0.0628, -0.0098,  0.0871,  ...,  0.0256, -0.0665, -0.0607],
+        [-0.0469, -0.0549, -0.0023,  ..., -0.0553, -0.0423, -0.0110],
+        [ 0.0843, -0.0136, -0.0576,  ..., -0.0511, -0.0716, -0.1096],
+        ...,
+        [-0.0198,  0.0049, -0.0646,  ..., -0.0048,  0.0263,  0.0143],
+        [-0.0613, -0.0567, -0.0114,  ..., -0.0391,  0.0068, -0.0170],
+        [-0.0145, -0.0310, -0.0117,  ...,  0.0549,  0.0237, -0.0653]],
+       device='cuda:0'), grad: tensor([[ 8.2478e-06,  6.4597e-06, -4.0233e-05,  ..., -1.0341e-05,
+          3.6508e-05,  3.4600e-05],
+        [ 3.0249e-05,  2.0981e-05,  2.3678e-05,  ...,  1.5676e-05,
+          4.7863e-05,  3.3170e-05],
+        [ 2.3440e-05,  3.5226e-05,  4.0412e-05,  ...,  2.3946e-05,
+          5.2512e-05,  4.3511e-05],
+        ...,
+        [ 3.3557e-05, -8.9943e-05,  4.3213e-06,  ..., -4.6939e-05,
+         -4.2963e-04, -3.3557e-05],
+        [ 4.3422e-05,  3.7253e-05, -4.6015e-05,  ...,  2.5973e-05,
+          8.3089e-05,  2.6524e-05],
+        [ 1.5870e-05,  5.6267e-05,  1.3106e-05,  ...,  6.8247e-06,
+          1.7118e-04,  2.6181e-05]], device='cuda:0')
+Epoch 43, bias, value: tensor([ 0.0077,  0.0169,  0.0146, -0.0028,  0.0172, -0.0063, -0.0157, -0.0118,
+         0.0248, -0.0084], device='cuda:0'), grad: tensor([ 1.1945e-04,  2.4533e-04,  3.1209e-04, -2.7180e-04,  8.6427e-05,
+        -2.5415e-04,  2.2876e-04, -1.1177e-03,  1.9133e-04,  4.6110e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 42, time 251.33, cls_loss 0.0105 cls_loss_mapping 0.0265 cls_loss_causal 0.6975 re_mapping 0.0137 re_causal 0.0430 /// teacc 98.68 lr 0.00010000
+Epoch 44, weight, value: tensor([[-0.0632, -0.0099,  0.0876,  ...,  0.0259, -0.0670, -0.0613],
+        [-0.0470, -0.0554, -0.0017,  ..., -0.0554, -0.0428, -0.0114],
+        [ 0.0850, -0.0142, -0.0583,  ..., -0.0515, -0.0721, -0.1106],
+        ...,
+        [-0.0201,  0.0053, -0.0648,  ..., -0.0055,  0.0268,  0.0145],
+        [-0.0617, -0.0569, -0.0116,  ..., -0.0399,  0.0068, -0.0173],
+        [-0.0146, -0.0313, -0.0120,  ...,  0.0558,  0.0239, -0.0659]],
+       device='cuda:0'), grad: tensor([[ 3.6627e-05,  4.3400e-06, -1.3813e-05,  ..., -8.1956e-06,
+          1.7911e-05,  1.8194e-05],
+        [ 4.9543e-04,  1.1958e-05,  3.1497e-06,  ...,  1.9008e-06,
+          2.1443e-05,  2.6420e-05],
+        [-1.8253e-03, -1.1194e-04,  7.9796e-06,  ...,  6.7018e-06,
+          1.9237e-05, -1.3113e-04],
+        ...,
+        [ 5.5265e-04,  9.5606e-05,  4.0121e-06,  ...,  2.5883e-05,
+          1.2450e-05,  1.1459e-05],
+        [ 4.3488e-04,  3.1888e-05, -5.5265e-04,  ...,  5.9828e-06,
+         -8.3685e-04, -8.5449e-04],
+        [ 1.8492e-05,  8.5160e-06,  1.5169e-05,  ..., -2.0325e-05,
+          6.8128e-05,  4.6074e-05]], device='cuda:0')
+Epoch 44, bias, value: tensor([ 0.0076,  0.0172,  0.0144, -0.0024,  0.0169, -0.0069, -0.0156, -0.0112,
+         0.0245, -0.0085], device='cuda:0'), grad: tensor([ 7.5281e-05,  5.9795e-04, -2.7485e-03, -1.3769e-04,  8.1348e-04,
+         1.8239e-04,  1.4658e-03,  7.5245e-04, -1.2274e-03,  2.2650e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 43, time 251.54, cls_loss 0.0091 cls_loss_mapping 0.0234 cls_loss_causal 0.6902 re_mapping 0.0132 re_causal 0.0418 /// teacc 98.83 lr 0.00010000
+Epoch 45, weight, value: tensor([[-0.0636, -0.0099,  0.0883,  ...,  0.0266, -0.0675, -0.0619],
+        [-0.0475, -0.0560, -0.0017,  ..., -0.0553, -0.0434, -0.0114],
+        [ 0.0856, -0.0152, -0.0590,  ..., -0.0521, -0.0728, -0.1117],
+        ...,
+        [-0.0202,  0.0058, -0.0653,  ..., -0.0061,  0.0273,  0.0143],
+        [-0.0621, -0.0567, -0.0114,  ..., -0.0403,  0.0066, -0.0175],
+        [-0.0148, -0.0317, -0.0123,  ...,  0.0558,  0.0238, -0.0666]],
+       device='cuda:0'), grad: tensor([[ 1.5512e-05,  6.7474e-07, -3.4302e-05,  ..., -1.1206e-05,
+          1.1116e-05,  5.4166e-06],
+        [ 1.4730e-05,  3.1032e-06, -3.2574e-05,  ...,  7.9215e-05,
+          1.0673e-06, -2.7925e-05],
+        [-1.3602e-04,  1.3426e-05,  1.4298e-05,  ...,  2.5988e-05,
+          3.0205e-05,  1.9684e-05],
+        ...,
+        [ 3.9250e-05,  7.5176e-06,  7.9721e-06,  ...,  7.1466e-05,
+         -2.0608e-05,  1.1191e-05],
+        [ 4.9770e-05,  7.1526e-06,  7.8827e-06,  ...,  2.3961e-05,
+          1.7837e-05,  1.9614e-06],
+        [ 5.3421e-06,  6.1616e-06,  1.0103e-05,  ..., -3.6740e-04,
+         -1.0180e-04,  6.1244e-06]], device='cuda:0')
+Epoch 45, bias, value: tensor([ 0.0078,  0.0171,  0.0140, -0.0026,  0.0171, -0.0065, -0.0158, -0.0106,
+         0.0245, -0.0090], device='cuda:0'), grad: tensor([ 2.6360e-05, -2.6441e-04,  2.8133e-05, -3.7681e-06,  1.6284e-04,
+         9.0122e-05,  1.2589e-04,  1.6522e-04,  1.1390e-04, -4.4394e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 44, time 251.32, cls_loss 0.0099 cls_loss_mapping 0.0215 cls_loss_causal 0.6998 re_mapping 0.0132 re_causal 0.0423 /// teacc 98.83 lr 0.00010000
+Epoch 46, weight, value: tensor([[-0.0642, -0.0102,  0.0885,  ...,  0.0267, -0.0680, -0.0626],
+        [-0.0477, -0.0564, -0.0016,  ..., -0.0561, -0.0442, -0.0125],
+        [ 0.0868, -0.0157, -0.0597,  ..., -0.0525, -0.0729, -0.1109],
+        ...,
+        [-0.0213,  0.0055, -0.0656,  ..., -0.0065,  0.0275,  0.0136],
+        [-0.0628, -0.0571, -0.0111,  ..., -0.0408,  0.0064, -0.0180],
+        [-0.0147, -0.0315, -0.0125,  ...,  0.0562,  0.0239, -0.0665]],
+       device='cuda:0'), grad: tensor([[ 1.3731e-05,  5.3123e-06, -3.1054e-05,  ..., -2.5593e-06,
+          3.5137e-05,  1.9178e-05],
+        [ 4.9400e-04,  6.2108e-05,  7.0632e-06,  ...,  3.1769e-05,
+          1.7369e-04,  1.1548e-05],
+        [-1.5569e-04,  1.1176e-04,  2.0444e-05,  ...,  1.0118e-05,
+          2.0576e-04,  2.4036e-05],
+        ...,
+        [-5.4169e-04, -1.8871e-04,  1.6801e-06,  ..., -4.4882e-05,
+         -6.2037e-04,  5.7667e-06],
+        [ 1.3423e-04,  8.1122e-05,  2.0161e-05,  ...,  1.3232e-05,
+          8.1480e-05,  3.8117e-05],
+        [ 3.3200e-05,  2.1651e-05,  1.1072e-05,  ...,  2.3901e-04,
+          1.5724e-04,  1.7613e-05]], device='cuda:0')
+Epoch 46, bias, value: tensor([ 0.0073,  0.0168,  0.0146, -0.0024,  0.0174, -0.0061, -0.0161, -0.0109,
+         0.0242, -0.0089], device='cuda:0'), grad: tensor([ 8.6188e-05,  7.6723e-04,  2.3425e-04,  3.7646e-04, -1.9717e-04,
+        -3.9434e-04, -2.1148e-04, -1.5202e-03,  3.5119e-04,  5.0783e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 45, time 251.63, cls_loss 0.0095 cls_loss_mapping 0.0226 cls_loss_causal 0.7181 re_mapping 0.0129 re_causal 0.0437 /// teacc 98.75 lr 0.00010000
+Epoch 47, weight, value: tensor([[-0.0654, -0.0102,  0.0888,  ...,  0.0264, -0.0683, -0.0628],
+        [-0.0479, -0.0569, -0.0018,  ..., -0.0562, -0.0447, -0.0128],
+        [ 0.0875, -0.0161, -0.0602,  ..., -0.0530, -0.0734, -0.1119],
+        ...,
+        [-0.0215,  0.0057, -0.0659,  ..., -0.0071,  0.0278,  0.0135],
+        [-0.0632, -0.0574, -0.0112,  ..., -0.0412,  0.0066, -0.0180],
+        [-0.0138, -0.0316, -0.0119,  ...,  0.0571,  0.0240, -0.0670]],
+       device='cuda:0'), grad: tensor([[ 8.9765e-05,  1.1055e-06, -8.6725e-05,  ..., -2.3603e-05,
+          3.5077e-05,  3.2455e-05],
+        [ 2.8074e-05,  3.5204e-06,  1.4611e-05,  ...,  4.6968e-05,
+          4.2945e-05,  1.3322e-05],
+        [-9.0790e-04,  1.2435e-05,  2.2098e-05,  ..., -3.9291e-04,
+         -8.2254e-05,  1.1392e-05],
+        ...,
+        [ 3.0923e-04,  2.1551e-06,  1.2316e-05,  ...,  2.2054e-04,
+          8.3447e-05,  7.2382e-06],
+        [-4.7870e-06, -6.6450e-07,  1.9699e-05,  ..., -3.8505e-05,
+         -1.3471e-04, -3.0696e-05],
+        [ 2.6274e-04, -4.3362e-06,  3.4541e-05,  ..., -1.7118e-04,
+         -1.1730e-04,  8.8215e-06]], device='cuda:0')
+Epoch 47, bias, value: tensor([ 0.0066,  0.0172,  0.0145, -0.0027,  0.0174, -0.0063, -0.0162, -0.0111,
+         0.0244, -0.0082], device='cuda:0'), grad: tensor([ 1.1069e-04,  1.6248e-04, -1.3008e-03,  2.2590e-04,  3.6287e-04,
+         2.4390e-04, -1.9357e-05,  6.5708e-04, -7.4434e-04,  3.0112e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 46----------------------------------------------------
+epoch 46, time 268.10, cls_loss 0.0107 cls_loss_mapping 0.0216 cls_loss_causal 0.6859 re_mapping 0.0127 re_causal 0.0399 /// teacc 99.00 lr 0.00010000
+Epoch 48, weight, value: tensor([[-0.0661, -0.0103,  0.0898,  ...,  0.0272, -0.0689, -0.0632],
+        [-0.0485, -0.0572, -0.0024,  ..., -0.0572, -0.0453, -0.0132],
+        [ 0.0883, -0.0163, -0.0608,  ..., -0.0536, -0.0740, -0.1126],
+        ...,
+        [-0.0217,  0.0060, -0.0664,  ..., -0.0075,  0.0281,  0.0133],
+        [-0.0637, -0.0576, -0.0108,  ..., -0.0414,  0.0068, -0.0182],
+        [-0.0137, -0.0322, -0.0126,  ...,  0.0574,  0.0241, -0.0679]],
+       device='cuda:0'), grad: tensor([[ 6.8128e-05,  1.6615e-05, -4.9055e-05,  ..., -3.2723e-05,
+          5.6773e-05,  1.5289e-05],
+        [ 9.5218e-06,  2.4922e-06,  6.4857e-06,  ...,  3.9428e-05,
+         -1.3733e-03,  2.2836e-06],
+        [ 6.1095e-06,  9.5740e-06,  5.0068e-05,  ...,  4.5836e-05,
+          4.4346e-05,  1.6857e-06],
+        ...,
+        [ 1.0557e-05, -6.5327e-05,  7.0035e-06,  ...,  4.8950e-06,
+          6.0320e-04,  1.2470e-06],
+        [ 8.2493e-05,  2.2903e-05,  8.0585e-05,  ...,  1.6439e-04,
+          1.6332e-04,  9.3877e-06],
+        [ 2.3633e-05,  5.5343e-05,  7.4804e-05,  ...,  8.8024e-04,
+          1.2026e-03,  7.6517e-06]], device='cuda:0')
+Epoch 48, bias, value: tensor([ 0.0070,  0.0168,  0.0144, -0.0027,  0.0178, -0.0063, -0.0165, -0.0110,
+         0.0246, -0.0084], device='cuda:0'), grad: tensor([ 1.5163e-04, -1.6891e-02,  2.1470e-04,  3.6573e-04, -1.7185e-03,
+        -3.7789e-05,  8.5890e-05,  1.3008e-02,  7.9966e-04,  4.0169e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 47, time 251.62, cls_loss 0.0081 cls_loss_mapping 0.0210 cls_loss_causal 0.6867 re_mapping 0.0129 re_causal 0.0407 /// teacc 98.99 lr 0.00010000
+Epoch 49, weight, value: tensor([[-0.0666, -0.0105,  0.0902,  ...,  0.0274, -0.0694, -0.0641],
+        [-0.0490, -0.0578, -0.0025,  ..., -0.0578, -0.0456, -0.0135],
+        [ 0.0890, -0.0169, -0.0613,  ..., -0.0540, -0.0744, -0.1133],
+        ...,
+        [-0.0220,  0.0063, -0.0667,  ..., -0.0080,  0.0284,  0.0132],
+        [-0.0641, -0.0575, -0.0107,  ..., -0.0414,  0.0068, -0.0183],
+        [-0.0142, -0.0327, -0.0131,  ...,  0.0573,  0.0241, -0.0683]],
+       device='cuda:0'), grad: tensor([[ 2.2501e-06,  1.8273e-06, -8.1062e-05,  ...,  4.6976e-06,
+          1.7166e-05,  4.2357e-06],
+        [ 1.0662e-05,  8.3372e-06,  1.8924e-05,  ...,  2.9594e-05,
+          2.7075e-05,  1.4016e-06],
+        [-2.5719e-05,  1.3486e-05,  3.0130e-05,  ...,  3.4213e-05,
+          3.1650e-05,  1.6363e-06],
+        ...,
+        [ 1.0453e-05,  3.1013e-06,  1.8537e-05,  ...,  1.8549e-04,
+          1.2207e-04,  3.6322e-06],
+        [ 3.0726e-05,  1.5780e-05, -7.5281e-05,  ..., -2.1998e-06,
+          3.0071e-05,  1.1042e-05],
+        [ 4.4480e-06, -1.5542e-05,  3.8922e-05,  ...,  1.7333e-04,
+         -1.8072e-04, -3.1907e-06]], device='cuda:0')
+Epoch 49, bias, value: tensor([ 0.0067,  0.0169,  0.0145, -0.0031,  0.0182, -0.0059, -0.0163, -0.0113,
+         0.0249, -0.0089], device='cuda:0'), grad: tensor([ 4.9770e-05,  8.2791e-05,  2.7466e-04,  4.6939e-05, -4.5609e-04,
+         1.2457e-04,  3.2872e-05,  5.2834e-04, -7.8678e-04,  1.0151e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 48----------------------------------------------------
+epoch 48, time 267.60, cls_loss 0.0091 cls_loss_mapping 0.0235 cls_loss_causal 0.7136 re_mapping 0.0121 re_causal 0.0395 /// teacc 99.03 lr 0.00010000
+Epoch 50, weight, value: tensor([[-0.0670, -0.0106,  0.0905,  ...,  0.0270, -0.0699, -0.0651],
+        [-0.0493, -0.0583, -0.0027,  ..., -0.0584, -0.0461, -0.0139],
+        [ 0.0898, -0.0169, -0.0620,  ..., -0.0544, -0.0749, -0.1142],
+        ...,
+        [-0.0223,  0.0064, -0.0671,  ..., -0.0088,  0.0284,  0.0130],
+        [-0.0648, -0.0581, -0.0109,  ..., -0.0425,  0.0061, -0.0184],
+        [-0.0140, -0.0326, -0.0131,  ...,  0.0584,  0.0248, -0.0683]],
+       device='cuda:0'), grad: tensor([[ 2.8580e-05,  3.5856e-07, -1.0389e-04,  ..., -2.8685e-05,
+          5.6624e-05,  1.2785e-05],
+        [ 2.2638e-04,  7.7412e-06,  4.8578e-06,  ...,  5.2229e-06,
+          3.7146e-04,  1.8086e-06],
+        [ 8.0585e-05,  1.5989e-05,  2.4021e-05,  ...,  1.7926e-05,
+          2.1422e-04,  1.9670e-05],
+        ...,
+        [ 1.5545e-03,  9.0897e-06,  6.0946e-06,  ...,  9.8869e-06,
+          2.5749e-03,  5.8999e-07],
+        [ 1.7822e-04,  4.1902e-05,  5.1767e-05,  ...,  2.3797e-05,
+          2.6751e-04,  3.8922e-05],
+        [-2.1286e-03,  1.9237e-05,  2.4229e-05,  ...,  1.7822e-05,
+         -3.5934e-03,  3.1646e-06]], device='cuda:0')
+Epoch 50, bias, value: tensor([ 0.0063,  0.0168,  0.0144, -0.0033,  0.0183, -0.0058, -0.0162, -0.0115,
+         0.0240, -0.0076], device='cuda:0'), grad: tensor([ 0.0001,  0.0016,  0.0010,  0.0002,  0.0005,  0.0001, -0.0001,  0.0120,
+         0.0012, -0.0166], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 49, time 248.13, cls_loss 0.0079 cls_loss_mapping 0.0200 cls_loss_causal 0.6615 re_mapping 0.0126 re_causal 0.0383 /// teacc 98.74 lr 0.00010000
+Epoch 51, weight, value: tensor([[-0.0676, -0.0107,  0.0910,  ...,  0.0272, -0.0705, -0.0658],
+        [-0.0499, -0.0586, -0.0028,  ..., -0.0585, -0.0465, -0.0143],
+        [ 0.0906, -0.0171, -0.0626,  ..., -0.0547, -0.0752, -0.1151],
+        ...,
+        [-0.0224,  0.0064, -0.0675,  ..., -0.0091,  0.0289,  0.0128],
+        [-0.0653, -0.0585, -0.0105,  ..., -0.0431,  0.0059, -0.0187],
+        [-0.0141, -0.0327, -0.0136,  ...,  0.0586,  0.0247, -0.0688]],
+       device='cuda:0'), grad: tensor([[ 9.9361e-05,  5.0664e-05,  1.1951e-04,  ...,  1.1528e-04,
+          5.0247e-05,  8.1539e-05],
+        [ 5.2899e-05,  4.8459e-05,  4.0084e-05,  ...,  5.4777e-05,
+          1.0043e-04,  2.6274e-04],
+        [ 1.0943e-04,  1.8728e-04,  4.8190e-05,  ...,  2.3639e-04,
+          1.1247e-04,  4.1664e-05],
+        ...,
+        [ 2.0790e-04,  6.5088e-04,  7.0892e-06,  ...,  1.9109e-04,
+          3.6073e-04,  8.5235e-05],
+        [ 1.2591e-05,  1.3912e-04, -2.6512e-04,  ...,  8.6784e-05,
+         -2.4199e-04, -3.2425e-04],
+        [-8.4817e-05,  4.9770e-05,  2.7567e-05,  ..., -4.9162e-04,
+         -1.4845e-06,  4.4554e-05]], device='cuda:0')
+Epoch 51, bias, value: tensor([ 0.0062,  0.0170,  0.0144, -0.0033,  0.0178, -0.0055, -0.0159, -0.0109,
+         0.0237, -0.0079], device='cuda:0'), grad: tensor([ 0.0007,  0.0006,  0.0009, -0.0027, -0.0008,  0.0049, -0.0037,  0.0017,
+        -0.0012, -0.0004], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 50, time 251.58, cls_loss 0.0115 cls_loss_mapping 0.0264 cls_loss_causal 0.7045 re_mapping 0.0127 re_causal 0.0390 /// teacc 98.98 lr 0.00010000
+Epoch 52, weight, value: tensor([[-0.0688, -0.0108,  0.0920,  ...,  0.0278, -0.0709, -0.0663],
+        [-0.0508, -0.0590, -0.0028,  ..., -0.0583, -0.0470, -0.0146],
+        [ 0.0915, -0.0172, -0.0631,  ..., -0.0552, -0.0756, -0.1152],
+        ...,
+        [-0.0221,  0.0066, -0.0675,  ..., -0.0094,  0.0293,  0.0124],
+        [-0.0658, -0.0586, -0.0107,  ..., -0.0436,  0.0059, -0.0191],
+        [-0.0139, -0.0333, -0.0142,  ...,  0.0594,  0.0248, -0.0695]],
+       device='cuda:0'), grad: tensor([[ 1.2666e-06, -8.8513e-06, -2.4962e-04,  ..., -5.6028e-05,
+          2.4050e-05, -6.0201e-05],
+        [ 1.1504e-05,  6.5193e-06, -1.2526e-07,  ...,  2.1875e-05,
+          1.5289e-05,  2.7884e-06],
+        [-3.2693e-05,  1.0490e-05,  9.1642e-06,  ...,  9.2760e-06,
+          1.0915e-05,  3.7458e-06],
+        ...,
+        [ 1.8254e-05,  2.9251e-05,  4.9472e-06,  ...,  3.8624e-05,
+          3.2485e-05,  5.9567e-06],
+        [ 1.5959e-05,  3.0786e-05,  1.8582e-05,  ...,  1.5795e-04,
+          1.0085e-04,  1.4372e-05],
+        [ 7.8678e-06, -4.5508e-05,  3.1382e-05,  ..., -1.4620e-03,
+         -7.4434e-04,  2.1428e-05]], device='cuda:0')
+Epoch 52, bias, value: tensor([ 0.0062,  0.0167,  0.0143, -0.0037,  0.0178, -0.0051, -0.0158, -0.0108,
+         0.0236, -0.0077], device='cuda:0'), grad: tensor([-2.8443e-04, -8.2016e-05,  6.1244e-06,  2.8658e-04,  6.2466e-04,
+         8.9884e-04,  4.9695e-06,  1.5199e-04,  2.9612e-04, -1.9026e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 51, time 251.59, cls_loss 0.0063 cls_loss_mapping 0.0157 cls_loss_causal 0.6804 re_mapping 0.0122 re_causal 0.0390 /// teacc 98.76 lr 0.00010000
+Epoch 53, weight, value: tensor([[-0.0692, -0.0109,  0.0927,  ...,  0.0277, -0.0714, -0.0666],
+        [-0.0508, -0.0593, -0.0026,  ..., -0.0584, -0.0473, -0.0147],
+        [ 0.0917, -0.0179, -0.0637,  ..., -0.0556, -0.0760, -0.1155],
+        ...,
+        [-0.0224,  0.0063, -0.0679,  ..., -0.0099,  0.0294,  0.0122],
+        [-0.0661, -0.0587, -0.0107,  ..., -0.0441,  0.0061, -0.0189],
+        [-0.0142, -0.0337, -0.0147,  ...,  0.0598,  0.0247, -0.0700]],
+       device='cuda:0'), grad: tensor([[ 1.0222e-05,  2.6543e-06, -1.1486e-04,  ..., -7.6711e-05,
+          8.9332e-06,  4.6566e-06],
+        [ 2.5868e-05,  3.5018e-06,  6.6608e-06,  ...,  8.5682e-06,
+          1.3277e-05,  5.4054e-06],
+        [-1.2374e-04,  8.1211e-06,  2.4393e-05,  ...,  1.1526e-05,
+          2.5466e-05,  2.0429e-05],
+        ...,
+        [ 1.7866e-05, -2.3931e-05,  5.8115e-06,  ...,  2.6882e-05,
+         -4.0799e-05,  8.4005e-07],
+        [ 7.7412e-06,  4.2357e-06,  1.5348e-05,  ...,  2.7925e-05,
+          4.4495e-05,  2.6062e-05],
+        [ 3.2261e-06,  4.2878e-06,  4.4882e-05,  ..., -5.8711e-06,
+         -3.1829e-05,  2.6040e-06]], device='cuda:0')
+Epoch 53, bias, value: tensor([ 0.0060,  0.0174,  0.0138, -0.0030,  0.0183, -0.0057, -0.0160, -0.0111,
+         0.0239, -0.0080], device='cuda:0'), grad: tensor([-8.8394e-05,  5.4270e-05, -5.3227e-05,  1.5414e-04, -1.3456e-05,
+        -4.4972e-05, -7.2479e-05, -5.2691e-05,  1.1146e-04,  5.5358e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 52, time 251.75, cls_loss 0.0083 cls_loss_mapping 0.0192 cls_loss_causal 0.6576 re_mapping 0.0113 re_causal 0.0359 /// teacc 98.90 lr 0.00010000
+Epoch 54, weight, value: tensor([[-0.0697, -0.0109,  0.0934,  ...,  0.0279, -0.0719, -0.0672],
+        [-0.0506, -0.0598, -0.0030,  ..., -0.0587, -0.0481, -0.0170],
+        [ 0.0924, -0.0183, -0.0642,  ..., -0.0559, -0.0763, -0.1163],
+        ...,
+        [-0.0228,  0.0061, -0.0683,  ..., -0.0102,  0.0295,  0.0121],
+        [-0.0671, -0.0592, -0.0107,  ..., -0.0450,  0.0062, -0.0182],
+        [-0.0146, -0.0338, -0.0151,  ...,  0.0600,  0.0248, -0.0706]],
+       device='cuda:0'), grad: tensor([[ 3.8117e-05,  4.8578e-06, -2.0072e-05,  ...,  2.0955e-06,
+          2.8074e-05,  6.3106e-06],
+        [ 2.1413e-05,  8.1435e-06, -5.2378e-06,  ...,  1.0259e-05,
+          2.0370e-05,  7.4785e-07],
+        [-3.8892e-05,  8.0466e-06,  2.9206e-06,  ...,  2.6211e-05,
+          1.5467e-05,  1.5600e-06],
+        ...,
+        [ 3.5346e-05,  1.9476e-05,  1.3262e-06,  ...,  1.5318e-05,
+          8.8988e-07,  7.2131e-07],
+        [ 3.1322e-05,  2.3991e-06,  4.5933e-06,  ...,  4.2439e-05,
+          3.7014e-05,  1.2778e-06],
+        [-2.2590e-04,  7.1824e-06,  8.2925e-06,  ..., -3.5262e-04,
+         -1.1092e-04,  3.1721e-06]], device='cuda:0')
+Epoch 54, bias, value: tensor([ 0.0060,  0.0172,  0.0138, -0.0031,  0.0182, -0.0054, -0.0159, -0.0113,
+         0.0243, -0.0081], device='cuda:0'), grad: tensor([ 1.1927e-04,  6.2990e-04,  2.8700e-05,  5.6362e-04,  5.7936e-05,
+        -1.3266e-03,  6.6996e-05,  7.8261e-05,  3.8600e-04, -6.0225e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 53, time 251.69, cls_loss 0.0082 cls_loss_mapping 0.0217 cls_loss_causal 0.6682 re_mapping 0.0122 re_causal 0.0373 /// teacc 98.99 lr 0.00010000
+Epoch 55, weight, value: tensor([[-0.0708, -0.0110,  0.0945,  ...,  0.0278, -0.0726, -0.0676],
+        [-0.0509, -0.0600, -0.0045,  ..., -0.0593, -0.0486, -0.0174],
+        [ 0.0936, -0.0184, -0.0649,  ..., -0.0566, -0.0768, -0.1168],
+        ...,
+        [-0.0233,  0.0056, -0.0689,  ..., -0.0112,  0.0295,  0.0118],
+        [-0.0681, -0.0596, -0.0108,  ..., -0.0460,  0.0062, -0.0183],
+        [-0.0144, -0.0341, -0.0154,  ...,  0.0613,  0.0249, -0.0714]],
+       device='cuda:0'), grad: tensor([[ 1.7628e-05,  1.3094e-06, -6.1274e-04,  ..., -3.0065e-04,
+         -1.4573e-05, -2.3320e-05],
+        [ 1.1265e-04,  6.4187e-06,  1.5229e-05,  ...,  8.3864e-05,
+          4.2289e-05,  2.9523e-06],
+        [-2.4402e-04,  1.1869e-05,  6.3777e-05,  ...,  4.8220e-05,
+          1.3061e-05,  7.3016e-06],
+        ...,
+        [ 5.4598e-05,  7.7635e-06,  1.8239e-05,  ...,  5.5885e-04,
+          3.0279e-04,  1.6298e-06],
+        [ 4.3243e-05,  8.1807e-06,  8.2612e-05,  ...,  7.4744e-05,
+          8.0764e-06, -4.0932e-07],
+        [ 2.0951e-05,  9.2238e-06,  8.8394e-05,  ..., -6.7568e-04,
+         -4.3201e-04,  7.8529e-06]], device='cuda:0')
+Epoch 55, bias, value: tensor([ 0.0061,  0.0168,  0.0143, -0.0032,  0.0179, -0.0052, -0.0158, -0.0117,
+         0.0239, -0.0076], device='cuda:0'), grad: tensor([-8.6689e-04,  1.8728e-04, -1.2189e-04,  3.2544e-05,  8.7321e-05,
+         1.2052e-04,  3.5524e-04,  1.0147e-03,  2.0599e-04, -1.0157e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 54----------------------------------------------------
+epoch 54, time 268.65, cls_loss 0.0087 cls_loss_mapping 0.0201 cls_loss_causal 0.6687 re_mapping 0.0112 re_causal 0.0357 /// teacc 99.06 lr 0.00010000
+Epoch 56, weight, value: tensor([[-0.0713, -0.0113,  0.0956,  ...,  0.0283, -0.0730, -0.0681],
+        [-0.0517, -0.0605, -0.0046,  ..., -0.0590, -0.0491, -0.0176],
+        [ 0.0944, -0.0201, -0.0656,  ..., -0.0570, -0.0773, -0.1186],
+        ...,
+        [-0.0237,  0.0051, -0.0694,  ..., -0.0122,  0.0296,  0.0117],
+        [-0.0687, -0.0601, -0.0102,  ..., -0.0466,  0.0062, -0.0179],
+        [-0.0151, -0.0341, -0.0160,  ...,  0.0611,  0.0254, -0.0717]],
+       device='cuda:0'), grad: tensor([[ 9.0972e-06,  8.2841e-07, -1.7345e-04,  ..., -5.5313e-05,
+          7.4767e-06, -2.9989e-07],
+        [ 6.3717e-05,  1.4538e-06, -2.9534e-05,  ...,  2.3544e-05,
+          1.8731e-05, -5.4464e-06],
+        [-1.5080e-04,  7.8008e-06,  2.2188e-05,  ..., -1.6531e-07,
+          1.4387e-05,  3.1423e-06],
+        ...,
+        [ 3.4153e-05,  2.5406e-06,  4.0419e-06,  ...,  1.3404e-05,
+         -5.6714e-05,  5.5227e-07],
+        [ 1.9297e-05,  2.8647e-06,  3.4064e-05,  ...,  1.6898e-05,
+          1.4067e-05,  9.6112e-06],
+        [ 5.7966e-06,  2.9858e-06,  4.9531e-05,  ...,  3.1829e-05,
+          2.7597e-05,  2.7306e-06]], device='cuda:0')
+Epoch 56, bias, value: tensor([ 0.0064,  0.0167,  0.0142, -0.0028,  0.0184, -0.0049, -0.0164, -0.0118,
+         0.0238, -0.0079], device='cuda:0'), grad: tensor([-1.8322e-04,  3.4809e-05, -8.6546e-05,  5.6982e-05, -1.2118e-04,
+         1.9825e-04, -3.8117e-05, -1.0133e-04,  1.0967e-04,  1.3030e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 55, time 251.08, cls_loss 0.0088 cls_loss_mapping 0.0218 cls_loss_causal 0.6582 re_mapping 0.0113 re_causal 0.0363 /// teacc 98.89 lr 0.00010000
+Epoch 57, weight, value: tensor([[-0.0718, -0.0114,  0.0964,  ...,  0.0289, -0.0739, -0.0696],
+        [-0.0524, -0.0606, -0.0046,  ..., -0.0584, -0.0489, -0.0178],
+        [ 0.0952, -0.0203, -0.0668,  ..., -0.0578, -0.0778, -0.1194],
+        ...,
+        [-0.0241,  0.0050, -0.0699,  ..., -0.0129,  0.0296,  0.0114],
+        [-0.0690, -0.0602, -0.0097,  ..., -0.0479,  0.0063, -0.0175],
+        [-0.0154, -0.0342, -0.0170,  ...,  0.0612,  0.0256, -0.0720]],
+       device='cuda:0'), grad: tensor([[ 2.4717e-06,  1.9148e-06, -4.3005e-05,  ..., -3.9041e-05,
+          1.0975e-05,  1.0520e-05],
+        [ 4.7907e-06,  2.0321e-06, -3.1263e-05,  ..., -2.2173e-05,
+          9.9689e-06, -1.8533e-06],
+        [ 6.1631e-05,  4.1366e-05,  1.2346e-05,  ...,  1.4640e-05,
+          1.8477e-05,  2.9933e-06],
+        ...,
+        [ 1.7062e-05,  5.4389e-06,  7.5810e-06,  ...,  1.2092e-05,
+         -4.8488e-05,  5.5647e-07],
+        [ 2.8923e-05,  1.4007e-05,  2.1532e-05,  ...,  2.1890e-05,
+          1.5751e-05,  1.2547e-05],
+        [ 1.2055e-05,  7.8082e-06,  2.6703e-05,  ...,  1.9267e-05,
+          1.5795e-05,  2.5947e-06]], device='cuda:0')
+Epoch 57, bias, value: tensor([ 0.0065,  0.0172,  0.0142, -0.0029,  0.0184, -0.0053, -0.0162, -0.0121,
+         0.0239, -0.0080], device='cuda:0'), grad: tensor([-5.0180e-06, -1.2338e-04,  1.7774e-04, -8.6725e-05,  8.0615e-06,
+        -5.1588e-05, -1.4782e-05, -1.4865e-04,  1.2398e-04,  1.2016e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 56, time 251.67, cls_loss 0.0065 cls_loss_mapping 0.0163 cls_loss_causal 0.6549 re_mapping 0.0109 re_causal 0.0354 /// teacc 98.83 lr 0.00010000
+Epoch 58, weight, value: tensor([[-0.0724, -0.0114,  0.0967,  ...,  0.0289, -0.0746, -0.0704],
+        [-0.0533, -0.0609, -0.0045,  ..., -0.0588, -0.0497, -0.0196],
+        [ 0.0963, -0.0206, -0.0674,  ..., -0.0583, -0.0784, -0.1174],
+        ...,
+        [-0.0246,  0.0049, -0.0704,  ..., -0.0132,  0.0299,  0.0103],
+        [-0.0694, -0.0604, -0.0102,  ..., -0.0484,  0.0063, -0.0181],
+        [-0.0156, -0.0345, -0.0173,  ...,  0.0617,  0.0257, -0.0730]],
+       device='cuda:0'), grad: tensor([[ 4.0948e-05,  1.1273e-05, -1.1826e-04,  ..., -6.0648e-05,
+          1.6034e-05,  6.3516e-06],
+        [ 7.0274e-05,  2.9013e-05,  3.6955e-06,  ...,  1.6242e-05,
+          3.4928e-05,  7.2680e-06],
+        [-7.1859e-04,  7.4923e-05,  1.9893e-05,  ...,  1.4350e-05,
+          8.9765e-05,  9.6858e-06],
+        ...,
+        [ 5.4538e-05, -2.1303e-04,  5.9977e-06,  ...,  6.5826e-06,
+         -3.7456e-04,  8.4490e-06],
+        [ 4.1127e-05,  1.0438e-05,  1.4752e-06,  ...,  7.9051e-06,
+          4.4964e-06, -2.3432e-06],
+        [ 3.2043e-04,  1.2629e-05,  4.5270e-05,  ...,  3.0965e-05,
+          2.1651e-05,  1.1452e-05]], device='cuda:0')
+Epoch 58, bias, value: tensor([ 0.0061,  0.0165,  0.0147, -0.0029,  0.0181, -0.0053, -0.0154, -0.0118,
+         0.0237, -0.0079], device='cuda:0'), grad: tensor([-2.9653e-06,  2.3222e-04, -7.7820e-04,  4.4733e-05,  1.4603e-04,
+         3.2258e-04,  1.2493e-04, -7.6437e-04,  6.1333e-05,  6.1464e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 57, time 251.38, cls_loss 0.0065 cls_loss_mapping 0.0171 cls_loss_causal 0.6743 re_mapping 0.0111 re_causal 0.0355 /// teacc 98.98 lr 0.00010000
+Epoch 59, weight, value: tensor([[-0.0733, -0.0115,  0.0970,  ...,  0.0292, -0.0754, -0.0716],
+        [-0.0538, -0.0612, -0.0045,  ..., -0.0590, -0.0502, -0.0201],
+        [ 0.0974, -0.0207, -0.0672,  ..., -0.0586, -0.0788, -0.1182],
+        ...,
+        [-0.0250,  0.0049, -0.0713,  ..., -0.0133,  0.0306,  0.0105],
+        [-0.0702, -0.0605, -0.0096,  ..., -0.0492,  0.0065, -0.0174],
+        [-0.0161, -0.0347, -0.0179,  ...,  0.0617,  0.0254, -0.0747]],
+       device='cuda:0'), grad: tensor([[ 7.2690e-07,  1.3104e-06, -1.3304e-04,  ..., -6.8545e-05,
+          1.9372e-05, -4.2468e-05],
+        [ 1.0738e-06,  1.9558e-06, -6.6273e-06,  ...,  4.8816e-05,
+          2.9072e-05, -9.5461e-09],
+        [-3.6117e-06,  2.5649e-06,  1.2942e-05,  ...,  2.3484e-05,
+          1.1794e-05,  7.6219e-06],
+        ...,
+        [ 1.5292e-06,  1.0884e-04,  1.4812e-05,  ...,  6.1655e-04,
+          6.2990e-04,  5.7258e-06],
+        [ 2.0657e-06,  5.0701e-06,  2.4468e-05,  ...,  6.0588e-05,
+          4.3631e-05,  1.4566e-05],
+        [ 1.3607e-06, -1.1659e-04,  2.5421e-05,  ..., -4.9973e-04,
+         -7.0000e-04,  9.7081e-06]], device='cuda:0')
+Epoch 59, bias, value: tensor([ 0.0059,  0.0162,  0.0151, -0.0023,  0.0182, -0.0060, -0.0152, -0.0115,
+         0.0239, -0.0083], device='cuda:0'), grad: tensor([-1.1808e-04,  7.7128e-05,  5.5075e-05,  7.5221e-05, -5.1212e-04,
+         1.2589e-04,  3.1620e-05,  1.3876e-03,  1.7428e-04, -1.2951e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 58, time 251.40, cls_loss 0.0060 cls_loss_mapping 0.0167 cls_loss_causal 0.6390 re_mapping 0.0112 re_causal 0.0347 /// teacc 98.89 lr 0.00010000
+Epoch 60, weight, value: tensor([[-0.0737, -0.0114,  0.0976,  ...,  0.0291, -0.0760, -0.0720],
+        [-0.0541, -0.0616, -0.0043,  ..., -0.0593, -0.0507, -0.0206],
+        [ 0.0983, -0.0211, -0.0678,  ..., -0.0592, -0.0793, -0.1186],
+        ...,
+        [-0.0255,  0.0052, -0.0717,  ..., -0.0138,  0.0310,  0.0093],
+        [-0.0707, -0.0608, -0.0099,  ..., -0.0498,  0.0063, -0.0180],
+        [-0.0162, -0.0350, -0.0185,  ...,  0.0623,  0.0256, -0.0757]],
+       device='cuda:0'), grad: tensor([[ 1.0490e-05,  4.8615e-07, -4.9496e-04,  ...,  1.0127e-04,
+         -3.0100e-05, -4.7874e-04],
+        [ 3.8415e-05,  1.4640e-06,  2.8491e-05,  ...,  1.8924e-05,
+          1.9312e-05,  2.3410e-05],
+        [-1.6642e-04,  2.6580e-06,  5.4598e-05,  ...,  2.2531e-05,
+          3.4481e-05,  3.3408e-05],
+        ...,
+        [ 1.7270e-05,  3.8967e-06,  1.8731e-05,  ...,  3.5763e-04,
+          3.2592e-04,  1.4767e-05],
+        [ 5.3883e-05,  2.8871e-06, -1.3649e-05,  ...,  1.3478e-05,
+         -3.3677e-05,  5.7936e-05],
+        [ 4.8988e-06,  3.2764e-06,  1.0657e-04,  ..., -2.8491e-05,
+          2.0072e-05,  7.3016e-05]], device='cuda:0')
+Epoch 60, bias, value: tensor([ 0.0057,  0.0162,  0.0152, -0.0024,  0.0180, -0.0057, -0.0152, -0.0115,
+         0.0237, -0.0082], device='cuda:0'), grad: tensor([-9.6416e-04,  1.0800e-04, -4.5657e-05,  6.1750e-05, -7.3767e-04,
+         5.1498e-04, -4.4763e-05,  9.7609e-04, -1.2040e-05,  1.4555e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 59, time 251.63, cls_loss 0.0058 cls_loss_mapping 0.0152 cls_loss_causal 0.6424 re_mapping 0.0104 re_causal 0.0341 /// teacc 99.03 lr 0.00010000
+Epoch 61, weight, value: tensor([[-0.0741, -0.0115,  0.0985,  ...,  0.0297, -0.0767, -0.0721],
+        [-0.0546, -0.0618, -0.0047,  ..., -0.0599, -0.0512, -0.0212],
+        [ 0.0986, -0.0234, -0.0687,  ..., -0.0598, -0.0802, -0.1184],
+        ...,
+        [-0.0256,  0.0052, -0.0722,  ..., -0.0141,  0.0315,  0.0089],
+        [-0.0712, -0.0609, -0.0101,  ..., -0.0507,  0.0062, -0.0183],
+        [-0.0164, -0.0349, -0.0187,  ...,  0.0629,  0.0258, -0.0763]],
+       device='cuda:0'), grad: tensor([[ 3.0883e-06,  1.7837e-05,  5.5999e-05,  ...,  1.4506e-05,
+          3.1084e-05,  2.7210e-05],
+        [ 4.4443e-06,  2.4792e-06, -5.7481e-06,  ..., -9.3132e-07,
+          5.0291e-06,  3.1833e-06],
+        [-2.6256e-05,  9.1344e-06,  3.2753e-05,  ...,  1.2368e-05,
+          1.1854e-05,  8.4490e-06],
+        ...,
+        [ 4.3288e-06,  1.0142e-06,  7.7784e-06,  ...,  2.9001e-06,
+         -1.3625e-06,  6.9384e-07],
+        [ 5.2936e-06,  6.9514e-06,  2.2447e-04,  ..., -1.8775e-05,
+          1.2600e-04,  2.3723e-04],
+        [ 8.1025e-07,  1.6363e-06,  7.1704e-05,  ...,  3.0264e-05,
+          6.7770e-05,  6.1952e-06]], device='cuda:0')
+Epoch 61, bias, value: tensor([ 0.0061,  0.0161,  0.0147, -0.0020,  0.0176, -0.0059, -0.0150, -0.0111,
+         0.0232, -0.0078], device='cuda:0'), grad: tensor([ 1.5640e-04, -5.5790e-05,  8.1718e-05,  2.2382e-05,  1.3077e-04,
+         2.6774e-04, -1.0319e-03,  3.0667e-05,  4.3690e-05,  3.5405e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 60, time 251.39, cls_loss 0.0055 cls_loss_mapping 0.0131 cls_loss_causal 0.6390 re_mapping 0.0103 re_causal 0.0338 /// teacc 98.92 lr 0.00010000
+Epoch 62, weight, value: tensor([[-0.0746, -0.0115,  0.0986,  ...,  0.0294, -0.0773, -0.0729],
+        [-0.0550, -0.0620, -0.0047,  ..., -0.0603, -0.0516, -0.0219],
+        [ 0.0996, -0.0235, -0.0690,  ..., -0.0600, -0.0804, -0.1182],
+        ...,
+        [-0.0262,  0.0051, -0.0726,  ..., -0.0143,  0.0317,  0.0085],
+        [-0.0720, -0.0612, -0.0102,  ..., -0.0510,  0.0061, -0.0184],
+        [-0.0169, -0.0350, -0.0188,  ...,  0.0635,  0.0260, -0.0771]],
+       device='cuda:0'), grad: tensor([[-8.8066e-06, -6.7241e-06, -1.7655e-04,  ..., -1.0693e-04,
+          2.2396e-05,  2.5466e-05],
+        [ 1.7332e-06,  2.5220e-06,  9.3505e-06,  ...,  3.2056e-06,
+          2.8268e-05,  2.8238e-05],
+        [ 5.5246e-06,  5.1484e-06,  4.5151e-05,  ...,  3.0011e-05,
+          2.2486e-05,  2.2978e-05],
+        ...,
+        [ 4.8429e-06, -1.3709e-06,  8.2329e-06,  ...,  4.9025e-06,
+         -2.8148e-05,  4.0233e-06],
+        [ 3.1311e-06,  4.1202e-06,  3.5465e-05,  ...,  5.1141e-05,
+          5.2094e-05,  4.1693e-05],
+        [ 9.8720e-06,  9.0450e-06,  8.0228e-05,  ..., -1.1415e-03,
+         -5.2547e-04,  2.4006e-05]], device='cuda:0')
+Epoch 62, bias, value: tensor([ 0.0056,  0.0160,  0.0152, -0.0016,  0.0175, -0.0062, -0.0148, -0.0111,
+         0.0229, -0.0078], device='cuda:0'), grad: tensor([-1.4198e-04, -8.9929e-06,  1.0914e-04,  1.0557e-03,  1.3771e-03,
+        -1.0147e-03, -2.1696e-04, -1.6227e-05,  1.4615e-04, -1.2884e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 61, time 251.12, cls_loss 0.0059 cls_loss_mapping 0.0171 cls_loss_causal 0.6245 re_mapping 0.0104 re_causal 0.0321 /// teacc 98.99 lr 0.00010000
+Epoch 63, weight, value: tensor([[-0.0747, -0.0115,  0.0992,  ...,  0.0294, -0.0778, -0.0737],
+        [-0.0551, -0.0623, -0.0047,  ..., -0.0609, -0.0522, -0.0226],
+        [ 0.1002, -0.0237, -0.0700,  ..., -0.0606, -0.0808, -0.1190],
+        ...,
+        [-0.0264,  0.0051, -0.0732,  ..., -0.0147,  0.0321,  0.0081],
+        [-0.0724, -0.0613, -0.0100,  ..., -0.0516,  0.0063, -0.0179],
+        [-0.0172, -0.0352, -0.0193,  ...,  0.0637,  0.0259, -0.0785]],
+       device='cuda:0'), grad: tensor([[ 3.0443e-05,  9.0292e-07, -1.8273e-06,  ..., -1.2569e-05,
+          1.0572e-05,  1.7598e-05],
+        [ 6.0424e-06,  2.8126e-07,  2.1216e-06,  ..., -2.2678e-07,
+          3.3733e-06,  2.7344e-06],
+        [-8.5735e-04,  4.4564e-07,  1.6496e-05,  ..., -2.2605e-05,
+         -1.8090e-05,  4.3698e-06],
+        ...,
+        [ 8.5473e-05,  1.6857e-07,  2.5928e-06,  ...,  3.5837e-06,
+         -3.2242e-06,  5.4017e-07],
+        [ 5.0098e-05,  3.4086e-06,  2.0042e-06,  ...,  1.5147e-05,
+         -1.7649e-06,  1.2413e-05],
+        [ 3.4928e-04,  5.9791e-07,  1.3337e-05,  ..., -1.6734e-05,
+          1.1124e-05,  5.3458e-06]], device='cuda:0')
+Epoch 63, bias, value: tensor([ 0.0055,  0.0157,  0.0150, -0.0016,  0.0179, -0.0063, -0.0149, -0.0110,
+         0.0233, -0.0079], device='cuda:0'), grad: tensor([ 6.7592e-05, -1.3836e-05, -9.7561e-04,  3.6478e-04,  1.0175e-04,
+         7.2837e-05, -1.1611e-04,  1.0945e-05,  1.9342e-05,  4.6730e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 62, time 251.56, cls_loss 0.0058 cls_loss_mapping 0.0144 cls_loss_causal 0.6661 re_mapping 0.0101 re_causal 0.0330 /// teacc 98.99 lr 0.00010000
+Epoch 64, weight, value: tensor([[-0.0753, -0.0116,  0.1000,  ...,  0.0292, -0.0782, -0.0750],
+        [-0.0552, -0.0625, -0.0056,  ..., -0.0616, -0.0525, -0.0231],
+        [ 0.1013, -0.0239, -0.0709,  ..., -0.0608, -0.0808, -0.1200],
+        ...,
+        [-0.0275,  0.0051, -0.0737,  ..., -0.0157,  0.0321,  0.0079],
+        [-0.0732, -0.0613, -0.0098,  ..., -0.0523,  0.0062, -0.0177],
+        [-0.0174, -0.0354, -0.0197,  ...,  0.0644,  0.0260, -0.0793]],
+       device='cuda:0'), grad: tensor([[ 3.4878e-07,  5.2154e-08, -2.4810e-05,  ..., -1.6659e-05,
+          4.8801e-06,  4.1351e-06],
+        [ 9.9465e-07,  2.3982e-07,  1.3150e-06,  ...,  9.0245e-07,
+          6.9737e-06,  1.1260e-06],
+        [ 4.6566e-07,  2.7474e-07,  3.2485e-06,  ...,  4.5002e-06,
+          2.7299e-05,  1.4696e-06],
+        ...,
+        [-2.5351e-06,  2.5611e-07,  1.8505e-06,  ..., -5.0627e-06,
+         -7.5042e-05,  3.9721e-07],
+        [-5.8971e-06,  2.9337e-07,  3.7514e-06,  ...,  3.7365e-06,
+         -2.9638e-05,  3.4962e-06],
+        [ 4.9919e-06,  3.7253e-07,  1.1146e-05,  ...,  2.6766e-06,
+          4.4137e-05,  2.4121e-06]], device='cuda:0')
+Epoch 64, bias, value: tensor([ 0.0050,  0.0157,  0.0154, -0.0013,  0.0179, -0.0068, -0.0148, -0.0115,
+         0.0235, -0.0076], device='cuda:0'), grad: tensor([-1.3471e-05,  6.9812e-06,  9.5904e-05,  4.7147e-05,  1.5974e-05,
+         2.6338e-06, -7.9116e-07, -1.6165e-04, -1.5259e-04,  1.5950e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 63, time 251.38, cls_loss 0.0058 cls_loss_mapping 0.0172 cls_loss_causal 0.6736 re_mapping 0.0102 re_causal 0.0326 /// teacc 98.89 lr 0.00010000
+Epoch 65, weight, value: tensor([[-0.0763, -0.0117,  0.1003,  ...,  0.0293, -0.0787, -0.0758],
+        [-0.0559, -0.0627, -0.0058,  ..., -0.0615, -0.0525, -0.0236],
+        [ 0.1022, -0.0241, -0.0713,  ..., -0.0612, -0.0813, -0.1208],
+        ...,
+        [-0.0278,  0.0048, -0.0740,  ..., -0.0162,  0.0323,  0.0077],
+        [-0.0737, -0.0615, -0.0100,  ..., -0.0531,  0.0060, -0.0177],
+        [-0.0174, -0.0355, -0.0202,  ...,  0.0644,  0.0258, -0.0798]],
+       device='cuda:0'), grad: tensor([[ 2.3282e-04,  1.5413e-07, -5.6314e-04,  ..., -9.0075e-04,
+          2.4974e-05,  2.4587e-05],
+        [ 5.1372e-06,  8.8848e-07,  8.4043e-06,  ...,  6.8136e-06,
+          9.6560e-06,  5.8301e-06],
+        [-4.5919e-04,  1.2098e-06, -2.3377e-04,  ..., -1.1635e-04,
+          7.3351e-06,  5.1707e-06],
+        ...,
+        [ 5.1782e-06,  1.2340e-07,  8.0392e-06,  ...,  1.1832e-05,
+         -1.3687e-05,  6.3609e-07],
+        [ 1.3351e-05,  1.1800e-06,  1.6451e-05,  ...,  1.9804e-05,
+         -6.0769e-07, -7.3425e-06],
+        [ 8.8960e-06,  4.5337e-06,  6.9714e-04,  ...,  8.7309e-04,
+         -6.7987e-06,  5.1893e-06]], device='cuda:0')
+Epoch 65, bias, value: tensor([ 0.0048,  0.0156,  0.0156, -0.0009,  0.0183, -0.0064, -0.0146, -0.0118,
+         0.0233, -0.0080], device='cuda:0'), grad: tensor([-1.0233e-03,  1.0200e-05, -5.9509e-04,  2.3174e-04,  4.3333e-05,
+         6.2943e-05, -7.3969e-05,  2.0921e-05, -5.9903e-06,  1.3285e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 64, time 251.62, cls_loss 0.0048 cls_loss_mapping 0.0139 cls_loss_causal 0.5864 re_mapping 0.0101 re_causal 0.0305 /// teacc 98.75 lr 0.00010000
+Epoch 66, weight, value: tensor([[-0.0775, -0.0117,  0.1003,  ...,  0.0298, -0.0792, -0.0778],
+        [-0.0562, -0.0627, -0.0058,  ..., -0.0616, -0.0531, -0.0238],
+        [ 0.1028, -0.0244, -0.0710,  ..., -0.0616, -0.0818, -0.1217],
+        ...,
+        [-0.0280,  0.0048, -0.0746,  ..., -0.0164,  0.0329,  0.0080],
+        [-0.0741, -0.0618, -0.0102,  ..., -0.0536,  0.0057, -0.0183],
+        [-0.0178, -0.0358, -0.0209,  ...,  0.0646,  0.0258, -0.0809]],
+       device='cuda:0'), grad: tensor([[-3.2922e-07,  2.1942e-06, -1.7971e-05,  ..., -2.2113e-05,
+          7.1190e-06,  5.0217e-06],
+        [ 5.1362e-07, -7.3671e-05,  1.1679e-06,  ..., -1.2480e-07,
+         -5.0336e-05, -1.1593e-04],
+        [-1.1690e-05,  1.7449e-05,  3.2127e-05,  ...,  1.0088e-05,
+          2.5526e-05,  3.1531e-05],
+        ...,
+        [ 1.8505e-06,  1.4305e-05,  3.2410e-06,  ...,  8.7917e-06,
+         -8.7097e-06,  2.2188e-05],
+        [ 1.1977e-06,  9.1046e-06, -5.3495e-05,  ...,  3.8780e-06,
+         -4.1388e-06,  1.9103e-05],
+        [ 6.7055e-07,  1.2126e-06,  2.0817e-05,  ..., -1.2122e-05,
+         -3.4869e-06,  2.1998e-06]], device='cuda:0')
+Epoch 66, bias, value: tensor([ 0.0042,  0.0155,  0.0156, -0.0010,  0.0181, -0.0060, -0.0141, -0.0110,
+         0.0230, -0.0083], device='cuda:0'), grad: tensor([-9.1642e-06, -5.7030e-04,  1.8191e-04,  1.8215e-04,  2.6152e-05,
+         7.7128e-05,  9.9391e-06,  7.8917e-05, -1.7527e-06,  2.5317e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 65, time 251.58, cls_loss 0.0057 cls_loss_mapping 0.0139 cls_loss_causal 0.6449 re_mapping 0.0104 re_causal 0.0311 /// teacc 98.85 lr 0.00010000
+Epoch 67, weight, value: tensor([[-0.0781, -0.0118,  0.1013,  ...,  0.0305, -0.0792, -0.0778],
+        [-0.0569, -0.0628, -0.0059,  ..., -0.0618, -0.0533, -0.0242],
+        [ 0.1039, -0.0247, -0.0716,  ..., -0.0618, -0.0823, -0.1228],
+        ...,
+        [-0.0285,  0.0050, -0.0751,  ..., -0.0166,  0.0332,  0.0077],
+        [-0.0746, -0.0623, -0.0097,  ..., -0.0544,  0.0056, -0.0183],
+        [-0.0180, -0.0359, -0.0216,  ...,  0.0647,  0.0259, -0.0816]],
+       device='cuda:0'), grad: tensor([[ 2.8517e-06,  1.5963e-06, -1.9431e-05,  ..., -1.0371e-05,
+          2.6226e-06,  2.2147e-06],
+        [ 4.9734e-04,  9.1083e-07,  3.0883e-06,  ..., -6.3069e-06,
+          1.5758e-06, -2.8200e-06],
+        [-5.7650e-04,  7.5856e-07,  3.7365e-06,  ...,  4.7088e-06,
+          1.1437e-06, -5.1688e-08],
+        ...,
+        [ 4.4346e-05,  3.4422e-06,  1.2685e-06,  ...,  8.8811e-06,
+          3.9451e-06,  2.3376e-06],
+        [ 9.8050e-06,  1.9409e-06,  1.3979e-06,  ...,  9.0674e-06,
+          1.5441e-06, -2.4326e-06],
+        [ 1.3914e-06,  3.5316e-06,  3.9376e-06,  ..., -1.0394e-05,
+         -7.2569e-06,  2.0321e-06]], device='cuda:0')
+Epoch 67, bias, value: tensor([ 0.0047,  0.0153,  0.0162, -0.0018,  0.0181, -0.0061, -0.0142, -0.0113,
+         0.0234, -0.0083], device='cuda:0'), grad: tensor([ 2.2322e-05,  1.6451e-03, -7.4816e-04,  3.8815e-04,  1.5751e-05,
+         1.4573e-05,  2.9057e-05, -1.4458e-03,  4.8697e-05,  3.2455e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 66, time 251.57, cls_loss 0.0065 cls_loss_mapping 0.0158 cls_loss_causal 0.6482 re_mapping 0.0093 re_causal 0.0289 /// teacc 99.01 lr 0.00010000
+Epoch 68, weight, value: tensor([[-0.0788, -0.0119,  0.1025,  ...,  0.0310, -0.0798, -0.0781],
+        [-0.0573, -0.0630, -0.0059,  ..., -0.0638, -0.0540, -0.0246],
+        [ 0.1040, -0.0250, -0.0729,  ..., -0.0631, -0.0827, -0.1228],
+        ...,
+        [-0.0273,  0.0048, -0.0755,  ..., -0.0168,  0.0335,  0.0073],
+        [-0.0753, -0.0624, -0.0101,  ..., -0.0553,  0.0056, -0.0184],
+        [-0.0183, -0.0364, -0.0223,  ...,  0.0653,  0.0260, -0.0822]],
+       device='cuda:0'), grad: tensor([[ 2.0042e-06,  1.6615e-06, -1.2740e-05,  ..., -6.2808e-06,
+          6.2361e-06,  3.9600e-06],
+        [ 3.1069e-06,  1.0887e-06, -4.4107e-05,  ...,  2.0694e-06,
+          2.5965e-06, -1.1399e-05],
+        [-2.3544e-05,  3.1237e-06,  5.0925e-06,  ...,  2.8938e-05,
+          1.0118e-05,  1.9111e-06],
+        ...,
+        [ 5.6103e-06,  3.2395e-05,  3.6806e-06,  ...,  1.4842e-05,
+          4.0114e-05,  1.9781e-06],
+        [ 6.5677e-06,  1.6568e-06,  1.2442e-05,  ...,  6.8173e-06,
+         -1.7524e-05, -3.2615e-06],
+        [ 1.4668e-06,  3.5819e-06,  8.9481e-06,  ..., -5.9530e-06,
+         -8.1658e-06,  2.6003e-06]], device='cuda:0')
+Epoch 68, bias, value: tensor([ 0.0055,  0.0144,  0.0151, -0.0017,  0.0179, -0.0062, -0.0147, -0.0099,
+         0.0233, -0.0080], device='cuda:0'), grad: tensor([ 1.5929e-05, -1.1420e-04,  6.0111e-05, -1.7154e-04, -2.4462e-04,
+         5.8353e-05,  2.3234e-04,  1.8013e-04, -3.0145e-05,  1.3635e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 67, time 251.62, cls_loss 0.0043 cls_loss_mapping 0.0133 cls_loss_causal 0.6305 re_mapping 0.0098 re_causal 0.0313 /// teacc 98.93 lr 0.00010000
+Epoch 69, weight, value: tensor([[-0.0796, -0.0120,  0.1031,  ...,  0.0315, -0.0804, -0.0786],
+        [-0.0578, -0.0632, -0.0067,  ..., -0.0634, -0.0541, -0.0250],
+        [ 0.1047, -0.0251, -0.0732,  ..., -0.0636, -0.0829, -0.1237],
+        ...,
+        [-0.0276,  0.0046, -0.0758,  ..., -0.0175,  0.0338,  0.0069],
+        [-0.0755, -0.0624, -0.0103,  ..., -0.0560,  0.0055, -0.0185],
+        [-0.0185, -0.0366, -0.0227,  ...,  0.0652,  0.0258, -0.0829]],
+       device='cuda:0'), grad: tensor([[-7.6415e-07,  1.1986e-06,  1.3037e-03,  ..., -2.2078e-04,
+          1.8463e-05,  1.2369e-03],
+        [ 9.3281e-06,  3.7625e-06,  1.2875e-05,  ...,  4.8466e-06,
+          5.4948e-06,  7.4692e-06],
+        [-8.6278e-06,  6.9514e-06,  7.5996e-05,  ...,  3.0309e-05,
+          7.7114e-06,  2.3231e-05],
+        ...,
+        [ 1.2524e-05, -6.8434e-06,  1.2152e-05,  ...,  2.7299e-05,
+         -4.2588e-05,  5.4017e-06],
+        [ 1.3128e-05,  2.9616e-06,  1.8883e-04,  ...,  7.0035e-05,
+          8.1882e-06,  3.9458e-05],
+        [ 3.7700e-06,  4.2729e-06,  1.3614e-04,  ..., -2.7686e-05,
+         -1.0550e-05,  9.6038e-06]], device='cuda:0')
+Epoch 69, bias, value: tensor([ 0.0056,  0.0145,  0.0153, -0.0021,  0.0183, -0.0057, -0.0146, -0.0099,
+         0.0232, -0.0087], device='cuda:0'), grad: tensor([ 1.6851e-03,  2.0564e-05,  1.4067e-04,  7.3016e-05,  3.4511e-05,
+         3.6478e-04, -2.6703e-03, -6.8545e-05,  3.1567e-04,  1.0341e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 68, time 251.48, cls_loss 0.0044 cls_loss_mapping 0.0112 cls_loss_causal 0.6032 re_mapping 0.0096 re_causal 0.0305 /// teacc 98.98 lr 0.00010000
+Epoch 70, weight, value: tensor([[-0.0801, -0.0121,  0.1038,  ...,  0.0321, -0.0809, -0.0794],
+        [-0.0578, -0.0632, -0.0069,  ..., -0.0637, -0.0543, -0.0250],
+        [ 0.1055, -0.0252, -0.0741,  ..., -0.0641, -0.0832, -0.1244],
+        ...,
+        [-0.0279,  0.0043, -0.0761,  ..., -0.0178,  0.0340,  0.0065],
+        [-0.0769, -0.0623, -0.0092,  ..., -0.0572,  0.0059, -0.0170],
+        [-0.0188, -0.0368, -0.0230,  ...,  0.0656,  0.0260, -0.0837]],
+       device='cuda:0'), grad: tensor([[ 2.0154e-06,  8.6613e-08, -5.0306e-05,  ..., -2.8849e-05,
+          1.0744e-05,  1.6272e-05],
+        [ 2.6137e-05,  1.1688e-07,  2.3022e-06,  ...,  1.7762e-05,
+          6.0558e-05,  9.1642e-06],
+        [-1.6585e-05,  3.2829e-07,  3.8259e-06,  ...,  1.7419e-05,
+          1.8179e-05,  1.6605e-06],
+        ...,
+        [-4.5925e-05,  2.7195e-07,  3.0380e-06,  ...,  2.0832e-05,
+         -3.4571e-05,  3.4161e-06],
+        [ 1.1005e-05,  5.3551e-08,  2.6256e-05,  ...,  2.3976e-05,
+         -7.3731e-05, -3.6985e-05],
+        [ 1.8608e-06,  3.1665e-07,  1.1235e-05,  ...,  7.8440e-04,
+          4.2129e-04,  1.1235e-05]], device='cuda:0')
+Epoch 70, bias, value: tensor([ 0.0059,  0.0151,  0.0153, -0.0016,  0.0181, -0.0060, -0.0155, -0.0099,
+         0.0231, -0.0088], device='cuda:0'), grad: tensor([-5.8502e-05,  1.9646e-04,  4.1127e-05,  9.4652e-05, -1.1053e-03,
+         3.2693e-05,  2.1383e-05, -1.1939e-04, -2.5368e-04,  1.1511e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 69, time 251.68, cls_loss 0.0046 cls_loss_mapping 0.0135 cls_loss_causal 0.6688 re_mapping 0.0090 re_causal 0.0303 /// teacc 98.93 lr 0.00010000
+Epoch 71, weight, value: tensor([[-0.0806, -0.0121,  0.1045,  ...,  0.0324, -0.0811, -0.0796],
+        [-0.0586, -0.0634, -0.0067,  ..., -0.0637, -0.0550, -0.0256],
+        [ 0.1066, -0.0253, -0.0743,  ..., -0.0646, -0.0835, -0.1244],
+        ...,
+        [-0.0277,  0.0042, -0.0764,  ..., -0.0185,  0.0341,  0.0061],
+        [-0.0783, -0.0625, -0.0095,  ..., -0.0583,  0.0058, -0.0171],
+        [-0.0191, -0.0369, -0.0233,  ...,  0.0657,  0.0259, -0.0846]],
+       device='cuda:0'), grad: tensor([[ 5.7258e-06,  2.8983e-06, -4.1723e-06,  ..., -2.7064e-06,
+          1.0252e-05,  3.4049e-06],
+        [ 2.6062e-05,  1.1511e-06,  3.7067e-07,  ...,  1.4640e-06,
+          5.2899e-06,  2.2445e-06],
+        [-1.0031e-04,  1.7080e-06,  1.5572e-06,  ...,  2.4904e-06,
+          4.2506e-06,  1.7397e-06],
+        ...,
+        [ 2.1651e-05,  1.8654e-06,  6.7009e-07,  ...,  7.8678e-06,
+          5.8822e-06,  2.4289e-06],
+        [ 9.4324e-06, -1.4174e-04, -3.1352e-05,  ...,  2.0832e-05,
+         -3.7622e-04, -4.6551e-05],
+        [ 2.7474e-06,  2.4792e-06,  2.3991e-06,  ..., -6.3777e-05,
+         -4.5866e-05,  3.5372e-06]], device='cuda:0')
+Epoch 71, bias, value: tensor([ 0.0061,  0.0148,  0.0158, -0.0018,  0.0185, -0.0060, -0.0154, -0.0097,
+         0.0227, -0.0090], device='cuda:0'), grad: tensor([ 3.3945e-05, -7.3385e-04, -8.2403e-06,  2.2459e-04,  9.0301e-05,
+         7.5674e-04,  1.1528e-04,  1.7035e-04, -5.9843e-04, -5.1320e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 70, time 251.68, cls_loss 0.0043 cls_loss_mapping 0.0119 cls_loss_causal 0.6433 re_mapping 0.0093 re_causal 0.0295 /// teacc 98.97 lr 0.00010000
+Epoch 72, weight, value: tensor([[-0.0811, -0.0123,  0.1052,  ...,  0.0325, -0.0816, -0.0798],
+        [-0.0591, -0.0639, -0.0065,  ..., -0.0637, -0.0553, -0.0256],
+        [ 0.1072, -0.0258, -0.0751,  ..., -0.0654, -0.0840, -0.1251],
+        ...,
+        [-0.0275,  0.0041, -0.0770,  ..., -0.0189,  0.0340,  0.0058],
+        [-0.0795, -0.0627, -0.0098,  ..., -0.0593,  0.0057, -0.0172],
+        [-0.0194, -0.0371, -0.0237,  ...,  0.0665,  0.0262, -0.0853]],
+       device='cuda:0'), grad: tensor([[ 3.7625e-06,  2.9989e-07,  3.8236e-05,  ...,  2.7148e-07,
+          5.1796e-05,  8.4639e-05],
+        [ 5.7928e-06,  3.6322e-07,  4.2990e-06,  ...,  1.7118e-06,
+          1.4961e-04,  8.8289e-06],
+        [-2.1040e-05,  2.3656e-07,  5.5060e-06,  ...,  1.6876e-06,
+          1.5616e-05,  2.4870e-05],
+        ...,
+        [-2.6114e-06,  2.5285e-07,  2.0824e-06,  ...,  2.7135e-05,
+         -1.5771e-04,  2.0731e-06],
+        [ 1.4929e-06,  5.4296e-07,  1.2182e-05,  ...,  4.0710e-05,
+          5.7220e-05,  1.0937e-05],
+        [ 2.9337e-06,  2.1374e-07,  2.7809e-06,  ..., -1.1343e-04,
+         -8.8930e-05,  4.9025e-06]], device='cuda:0')
+Epoch 72, bias, value: tensor([ 0.0060,  0.0150,  0.0157, -0.0011,  0.0180, -0.0062, -0.0151, -0.0098,
+         0.0221, -0.0086], device='cuda:0'), grad: tensor([ 1.5283e-04,  2.4128e-04,  7.5638e-05,  4.7415e-05,  2.6584e-04,
+         9.5844e-05, -4.6945e-04, -3.2163e-04,  7.0691e-05, -1.5783e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 71, time 251.59, cls_loss 0.0040 cls_loss_mapping 0.0118 cls_loss_causal 0.6051 re_mapping 0.0097 re_causal 0.0292 /// teacc 99.05 lr 0.00010000
+Epoch 73, weight, value: tensor([[-0.0817, -0.0123,  0.1055,  ...,  0.0326, -0.0824, -0.0808],
+        [-0.0599, -0.0641, -0.0064,  ..., -0.0639, -0.0559, -0.0263],
+        [ 0.1087, -0.0260, -0.0756,  ..., -0.0657, -0.0842, -0.1247],
+        ...,
+        [-0.0281,  0.0040, -0.0772,  ..., -0.0199,  0.0341,  0.0055],
+        [-0.0800, -0.0629, -0.0100,  ..., -0.0601,  0.0055, -0.0173],
+        [-0.0197, -0.0373, -0.0242,  ...,  0.0670,  0.0267, -0.0865]],
+       device='cuda:0'), grad: tensor([[ 1.9297e-06,  9.7789e-07, -1.2470e-06,  ...,  7.6694e-07,
+          5.7258e-06,  1.5730e-06],
+        [ 2.3264e-06,  8.8522e-07, -1.2770e-05,  ..., -1.0535e-05,
+          2.3842e-06,  1.5032e-06],
+        [ 7.6294e-06,  7.3574e-06,  6.5863e-06,  ...,  2.7381e-06,
+          1.9476e-05,  5.9754e-06],
+        ...,
+        [ 8.4192e-06, -1.8049e-06,  1.3523e-06,  ...,  7.6056e-05,
+          3.0324e-05,  1.1744e-06],
+        [ 3.4217e-06,  1.0021e-06,  1.5628e-06,  ...,  5.6289e-06,
+         -5.7310e-05, -3.7193e-05],
+        [ 2.7139e-06,  2.4252e-06,  2.1104e-06,  ..., -9.6500e-05,
+         -5.5224e-05,  1.3383e-06]], device='cuda:0')
+Epoch 73, bias, value: tensor([ 0.0057,  0.0149,  0.0164, -0.0017,  0.0177, -0.0060, -0.0148, -0.0101,
+         0.0219, -0.0082], device='cuda:0'), grad: tensor([ 2.4244e-05, -6.4671e-05,  9.1493e-05, -8.7202e-05,  3.7998e-05,
+         2.4259e-04,  2.0072e-05,  1.3137e-04, -2.3413e-04, -1.6165e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 72, time 251.50, cls_loss 0.0039 cls_loss_mapping 0.0123 cls_loss_causal 0.6096 re_mapping 0.0094 re_causal 0.0299 /// teacc 98.95 lr 0.00010000
+Epoch 74, weight, value: tensor([[-0.0820, -0.0123,  0.1061,  ...,  0.0331, -0.0828, -0.0809],
+        [-0.0600, -0.0642, -0.0063,  ..., -0.0638, -0.0562, -0.0275],
+        [ 0.1092, -0.0262, -0.0762,  ..., -0.0660, -0.0846, -0.1243],
+        ...,
+        [-0.0283,  0.0038, -0.0775,  ..., -0.0201,  0.0344,  0.0053],
+        [-0.0806, -0.0633, -0.0101,  ..., -0.0607,  0.0054, -0.0171],
+        [-0.0203, -0.0374, -0.0246,  ...,  0.0670,  0.0267, -0.0872]],
+       device='cuda:0'), grad: tensor([[ 5.5693e-06,  3.1758e-07, -3.1404e-06,  ...,  1.4615e-04,
+          3.1322e-05,  6.9812e-06],
+        [ 3.8743e-06,  6.1560e-07, -4.5784e-06,  ...,  2.9225e-06,
+          2.9534e-05,  4.5419e-05],
+        [-9.1255e-05,  1.6177e-06,  1.0587e-05,  ...,  1.1265e-05,
+          1.1660e-05,  1.3903e-05],
+        ...,
+        [ 4.4018e-05, -1.4305e-06,  1.4249e-06,  ...,  1.5378e-05,
+         -1.5646e-05,  2.1644e-06],
+        [ 6.2510e-06, -2.5099e-07,  9.8124e-06,  ...,  8.9481e-06,
+         -3.2067e-05, -6.0529e-05],
+        [ 6.9439e-06,  9.4296e-07,  4.8615e-06,  ..., -2.2268e-04,
+         -2.9534e-05,  3.2149e-06]], device='cuda:0')
+Epoch 74, bias, value: tensor([ 0.0060,  0.0149,  0.0165, -0.0013,  0.0179, -0.0061, -0.0150, -0.0101,
+         0.0218, -0.0086], device='cuda:0'), grad: tensor([ 3.0756e-04,  5.3835e-04, -5.8442e-05,  4.7714e-05,  6.4373e-05,
+         1.6260e-04, -3.1024e-05,  7.3373e-05, -7.4196e-04, -3.6144e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 73, time 251.60, cls_loss 0.0042 cls_loss_mapping 0.0107 cls_loss_causal 0.5900 re_mapping 0.0092 re_causal 0.0281 /// teacc 98.89 lr 0.00010000
+Epoch 75, weight, value: tensor([[-0.0825, -0.0124,  0.1066,  ...,  0.0334, -0.0836, -0.0816],
+        [-0.0599, -0.0645, -0.0061,  ..., -0.0640, -0.0566, -0.0283],
+        [ 0.1099, -0.0264, -0.0768,  ..., -0.0668, -0.0853, -0.1247],
+        ...,
+        [-0.0287,  0.0037, -0.0779,  ..., -0.0201,  0.0348,  0.0052],
+        [-0.0815, -0.0635, -0.0102,  ..., -0.0612,  0.0052, -0.0170],
+        [-0.0206, -0.0377, -0.0252,  ...,  0.0672,  0.0269, -0.0879]],
+       device='cuda:0'), grad: tensor([[ 5.6764e-07,  5.4762e-07, -2.1458e-05,  ..., -2.2873e-05,
+          2.0210e-06,  1.1073e-06],
+        [ 2.4866e-06,  1.9502e-06,  1.0040e-06,  ...,  1.4305e-06,
+          1.7118e-06, -4.6231e-06],
+        [ 2.8927e-06,  4.0196e-06,  3.0212e-06,  ...,  3.7123e-06,
+          3.1069e-06,  1.7891e-06],
+        ...,
+        [ 4.8131e-06,  3.8259e-06,  1.3970e-06,  ...,  7.5139e-06,
+          7.5214e-06,  7.1488e-06],
+        [ 3.5055e-06,  2.1718e-06,  1.6270e-06,  ...,  3.1609e-06,
+          2.7139e-06,  1.4203e-06],
+        [ 6.2101e-06,  5.0738e-06,  9.5144e-06,  ...,  2.8666e-06,
+         -4.7218e-07,  2.7716e-06]], device='cuda:0')
+Epoch 75, bias, value: tensor([ 0.0058,  0.0159,  0.0162, -0.0015,  0.0177, -0.0060, -0.0147, -0.0103,
+         0.0216, -0.0087], device='cuda:0'), grad: tensor([-3.0547e-05, -8.6367e-05,  2.0415e-05, -5.3763e-05, -9.2462e-06,
+         2.2098e-05, -1.3318e-06,  9.7871e-05,  1.4901e-05,  2.5988e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 74, time 251.42, cls_loss 0.0055 cls_loss_mapping 0.0136 cls_loss_causal 0.6052 re_mapping 0.0091 re_causal 0.0282 /// teacc 98.90 lr 0.00010000
+Epoch 76, weight, value: tensor([[-0.0832, -0.0124,  0.1074,  ...,  0.0337, -0.0845, -0.0823],
+        [-0.0605, -0.0643, -0.0057,  ..., -0.0642, -0.0574, -0.0287],
+        [ 0.1105, -0.0267, -0.0774,  ..., -0.0673, -0.0861, -0.1251],
+        ...,
+        [-0.0286,  0.0036, -0.0784,  ..., -0.0195,  0.0358,  0.0047],
+        [-0.0824, -0.0637, -0.0103,  ..., -0.0619,  0.0054, -0.0166],
+        [-0.0210, -0.0378, -0.0259,  ...,  0.0673,  0.0266, -0.0897]],
+       device='cuda:0'), grad: tensor([[ 7.8082e-06,  4.6333e-07, -3.7923e-06,  ...,  1.0771e-04,
+          3.3945e-05,  2.0526e-06],
+        [ 3.7067e-06,  1.1818e-06, -2.1327e-06,  ...,  1.7602e-06,
+          3.7905e-06, -2.8824e-07],
+        [-3.7134e-05,  2.7083e-06,  1.1427e-06,  ...,  3.4347e-06,
+          2.4531e-06,  3.8929e-06],
+        ...,
+        [ 1.9625e-05,  2.4475e-06,  4.5588e-07,  ...,  9.1866e-06,
+          7.1675e-06,  2.7753e-06],
+        [ 1.0766e-05,  2.1737e-06,  2.1402e-06,  ...,  7.7337e-06,
+          3.7774e-06, -2.6096e-06],
+        [ 7.6257e-06,  2.9542e-06,  1.5898e-06,  ..., -1.3900e-04,
+         -3.7819e-05,  4.2170e-06]], device='cuda:0')
+Epoch 76, bias, value: tensor([ 0.0061,  0.0151,  0.0159, -0.0016,  0.0175, -0.0059, -0.0146, -0.0088,
+         0.0219, -0.0095], device='cuda:0'), grad: tensor([ 2.1088e-04, -3.0056e-05, -2.9296e-05,  1.1331e-04,  2.4125e-05,
+        -2.1005e-04,  3.0324e-05,  7.9155e-05,  2.9519e-05, -2.1756e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 75, time 251.12, cls_loss 0.0055 cls_loss_mapping 0.0139 cls_loss_causal 0.6210 re_mapping 0.0094 re_causal 0.0279 /// teacc 98.99 lr 0.00010000
+Epoch 77, weight, value: tensor([[-0.0835, -0.0125,  0.1074,  ...,  0.0337, -0.0853, -0.0831],
+        [-0.0616, -0.0645, -0.0060,  ..., -0.0647, -0.0581, -0.0293],
+        [ 0.1113, -0.0269, -0.0783,  ..., -0.0679, -0.0868, -0.1254],
+        ...,
+        [-0.0287,  0.0033, -0.0788,  ..., -0.0199,  0.0362,  0.0041],
+        [-0.0827, -0.0640, -0.0096,  ..., -0.0613,  0.0049, -0.0169],
+        [-0.0212, -0.0380, -0.0262,  ...,  0.0675,  0.0266, -0.0902]],
+       device='cuda:0'), grad: tensor([[ 2.7306e-06,  5.6950e-07, -8.6129e-06,  ..., -4.1611e-06,
+          4.4815e-06,  1.9614e-06],
+        [ 1.3001e-06,  4.4517e-07, -6.8918e-08,  ...,  4.4797e-07,
+          1.1884e-05,  6.2864e-07],
+        [-2.5686e-06,  8.0001e-07,  1.0114e-06,  ...,  3.7672e-07,
+          7.9945e-06,  2.6431e-06],
+        ...,
+        [ 4.2915e-06,  1.2377e-06,  2.4121e-07,  ...,  8.4117e-06,
+         -6.5207e-05,  1.9046e-06],
+        [ 2.5615e-05,  5.5544e-06,  1.6270e-06,  ...,  2.6617e-06,
+          6.5804e-05,  2.2888e-05],
+        [ 7.2867e-06,  2.1756e-06,  1.5255e-06,  ..., -1.7732e-05,
+          1.3947e-05,  6.2883e-06]], device='cuda:0')
+Epoch 77, bias, value: tensor([ 0.0055,  0.0151,  0.0160, -0.0028,  0.0178, -0.0050, -0.0142, -0.0091,
+         0.0221, -0.0095], device='cuda:0'), grad: tensor([ 2.0023e-06,  1.4871e-05,  1.9923e-05,  6.4659e-03,  1.7151e-05,
+        -6.5765e-03,  3.7309e-06, -1.5354e-04,  1.6153e-04,  4.3839e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 76, time 250.82, cls_loss 0.0042 cls_loss_mapping 0.0121 cls_loss_causal 0.6225 re_mapping 0.0087 re_causal 0.0275 /// teacc 99.00 lr 0.00010000
+Epoch 78, weight, value: tensor([[-0.0841, -0.0125,  0.1080,  ...,  0.0341, -0.0859, -0.0833],
+        [-0.0616, -0.0647, -0.0062,  ..., -0.0648, -0.0587, -0.0300],
+        [ 0.1121, -0.0271, -0.0786,  ..., -0.0682, -0.0878, -0.1266],
+        ...,
+        [-0.0293,  0.0031, -0.0791,  ..., -0.0204,  0.0365,  0.0050],
+        [-0.0834, -0.0643, -0.0098,  ..., -0.0622,  0.0049, -0.0167],
+        [-0.0215, -0.0382, -0.0267,  ...,  0.0683,  0.0271, -0.0909]],
+       device='cuda:0'), grad: tensor([[ 2.3827e-05,  3.5437e-07, -1.1124e-05,  ..., -6.1989e-06,
+          7.4953e-06, -1.9446e-06],
+        [ 1.0528e-05,  2.1309e-06,  1.3104e-06,  ...,  2.6058e-06,
+          4.4331e-06, -8.2981e-07],
+        [-5.1880e-04, -1.4566e-05,  1.2137e-05,  ...,  6.9551e-06,
+          1.2249e-05,  2.4494e-06],
+        ...,
+        [ 3.7169e-04,  4.0606e-06,  7.2410e-07,  ...,  4.8518e-05,
+          1.6754e-06,  1.0310e-06],
+        [ 8.1360e-05,  1.4968e-05,  8.3521e-06,  ...,  5.3458e-06,
+         -5.8934e-06,  3.1609e-06],
+        [ 3.3509e-06,  3.1926e-06,  2.4941e-06,  ...,  1.1109e-05,
+          1.5661e-05,  1.2862e-06]], device='cuda:0')
+Epoch 78, bias, value: tensor([ 0.0058,  0.0151,  0.0160, -0.0035,  0.0172, -0.0045, -0.0139, -0.0094,
+         0.0222, -0.0092], device='cuda:0'), grad: tensor([ 3.6836e-05, -7.7114e-06, -6.7711e-04, -1.0088e-05, -1.1081e-04,
+         5.1051e-05, -3.9995e-05,  5.9748e-04,  9.4712e-05,  6.6042e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 77, time 251.11, cls_loss 0.0043 cls_loss_mapping 0.0115 cls_loss_causal 0.6136 re_mapping 0.0084 re_causal 0.0269 /// teacc 98.93 lr 0.00010000
+Epoch 79, weight, value: tensor([[-0.0852, -0.0127,  0.1081,  ...,  0.0342, -0.0865, -0.0840],
+        [-0.0620, -0.0650, -0.0060,  ..., -0.0641, -0.0589, -0.0319],
+        [ 0.1132, -0.0272, -0.0789,  ..., -0.0687, -0.0883, -0.1270],
+        ...,
+        [-0.0300,  0.0029, -0.0794,  ..., -0.0214,  0.0363,  0.0048],
+        [-0.0840, -0.0648, -0.0104,  ..., -0.0637,  0.0043, -0.0171],
+        [-0.0214, -0.0383, -0.0270,  ...,  0.0687,  0.0271, -0.0919]],
+       device='cuda:0'), grad: tensor([[-7.3649e-06,  6.5193e-08, -1.6022e-04,  ..., -6.0529e-05,
+          2.3078e-06, -2.0638e-05],
+        [ 4.6939e-06,  3.6694e-07,  3.7886e-06,  ..., -1.2279e-05,
+          6.4850e-05, -3.7968e-05],
+        [ 4.1015e-06,  7.5717e-07,  8.0541e-06,  ...,  7.8678e-06,
+          1.9699e-05,  5.4911e-06],
+        ...,
+        [-1.9237e-05,  4.0978e-07,  2.5071e-06,  ..., -2.8927e-06,
+         -1.1933e-04,  3.1237e-06],
+        [ 1.3355e-06,  1.3597e-07,  1.1586e-05,  ...,  1.4752e-05,
+         -3.6173e-06,  7.0632e-06],
+        [ 7.2680e-06,  6.8545e-07,  2.0668e-05,  ...,  1.2062e-05,
+          1.8030e-05,  8.6203e-06]], device='cuda:0')
+Epoch 79, bias, value: tensor([ 0.0055,  0.0154,  0.0164, -0.0033,  0.0174, -0.0046, -0.0127, -0.0103,
+         0.0213, -0.0090], device='cuda:0'), grad: tensor([-1.3852e-04, -2.8834e-05,  1.3077e-04,  1.1426e-04,  4.1872e-05,
+         8.0705e-05,  8.8990e-05, -5.2929e-04,  9.4771e-05,  1.4532e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 78, time 251.11, cls_loss 0.0055 cls_loss_mapping 0.0140 cls_loss_causal 0.6175 re_mapping 0.0086 re_causal 0.0274 /// teacc 98.94 lr 0.00010000
+Epoch 80, weight, value: tensor([[-0.0859, -0.0128,  0.1087,  ...,  0.0344, -0.0869, -0.0843],
+        [-0.0611, -0.0651, -0.0056,  ..., -0.0652, -0.0600, -0.0314],
+        [ 0.1135, -0.0274, -0.0793,  ..., -0.0682, -0.0888, -0.1280],
+        ...,
+        [-0.0308,  0.0027, -0.0797,  ..., -0.0217,  0.0370,  0.0051],
+        [-0.0844, -0.0652, -0.0106,  ..., -0.0642,  0.0042, -0.0170],
+        [-0.0219, -0.0385, -0.0274,  ...,  0.0699,  0.0272, -0.0930]],
+       device='cuda:0'), grad: tensor([[ 3.8967e-06,  6.5677e-06, -2.4855e-05,  ..., -1.0118e-05,
+          5.3644e-06,  9.0152e-06],
+        [ 3.5353e-06,  5.2340e-06, -3.5793e-05,  ..., -2.6718e-05,
+          4.9658e-06, -2.7686e-05],
+        [ 2.4103e-06,  2.6878e-06,  7.9572e-06,  ...,  4.5709e-06,
+          9.7305e-06,  5.7034e-06],
+        ...,
+        [-1.3737e-08,  2.1700e-06,  4.1462e-06,  ...,  6.9216e-06,
+         -5.8189e-06,  1.8151e-06],
+        [ 6.5789e-06,  1.0870e-05,  1.8880e-05,  ...,  8.5011e-06,
+          5.8599e-06,  9.7305e-06],
+        [ 1.1578e-05,  1.8582e-05,  2.4199e-05,  ...,  6.5446e-05,
+          4.0859e-05,  1.2174e-05]], device='cuda:0')
+Epoch 80, bias, value: tensor([ 0.0055,  0.0158,  0.0160, -0.0023,  0.0166, -0.0052, -0.0130, -0.0099,
+         0.0212, -0.0086], device='cuda:0'), grad: tensor([ 4.0010e-06, -1.1671e-04,  5.1856e-05, -5.2404e-04, -7.6294e-05,
+         3.3212e-04,  6.9618e-05, -2.1420e-06,  7.6711e-05,  1.8513e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 79----------------------------------------------------
+epoch 79, time 268.73, cls_loss 0.0046 cls_loss_mapping 0.0108 cls_loss_causal 0.6410 re_mapping 0.0084 re_causal 0.0272 /// teacc 99.08 lr 0.00010000
+Epoch 81, weight, value: tensor([[-0.0859, -0.0130,  0.1092,  ...,  0.0338, -0.0876, -0.0848],
+        [-0.0621, -0.0654, -0.0056,  ..., -0.0655, -0.0608, -0.0315],
+        [ 0.1142, -0.0276, -0.0798,  ..., -0.0691, -0.0893, -0.1285],
+        ...,
+        [-0.0301,  0.0024, -0.0801,  ..., -0.0220,  0.0375,  0.0046],
+        [-0.0850, -0.0653, -0.0103,  ..., -0.0649,  0.0043, -0.0167],
+        [-0.0234, -0.0390, -0.0274,  ...,  0.0701,  0.0268, -0.0945]],
+       device='cuda:0'), grad: tensor([[ 3.5875e-06,  6.5798e-07, -3.1024e-05,  ..., -1.2882e-05,
+          8.9705e-06,  5.0198e-07],
+        [-1.0651e-04,  1.1092e-06,  4.3842e-07,  ...,  3.1382e-05,
+         -1.8513e-04,  2.5192e-07],
+        [ 3.3677e-05,  7.0147e-06,  1.3625e-06,  ...,  1.3545e-05,
+          8.6546e-05,  4.0862e-07],
+        ...,
+        [ 1.4551e-05,  1.3970e-06,  5.2992e-07,  ...,  9.1195e-05,
+          7.6771e-05,  1.9418e-07],
+        [ 8.3089e-05,  2.2307e-05,  3.6061e-06,  ...,  9.6142e-05,
+          1.7011e-04,  1.1669e-06],
+        [ 4.6045e-06,  2.4121e-06,  1.7360e-05,  ..., -2.9731e-04,
+         -2.2590e-04,  6.0536e-07]], device='cuda:0')
+Epoch 81, bias, value: tensor([ 0.0049,  0.0152,  0.0159, -0.0022,  0.0174, -0.0052, -0.0134, -0.0093,
+         0.0215, -0.0089], device='cuda:0'), grad: tensor([ 3.2149e-06, -1.3905e-03,  5.5218e-04, -5.2243e-05,  1.1981e-04,
+         5.9068e-05,  1.7059e-04,  3.2783e-04,  9.3603e-04, -7.2622e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 80, time 251.49, cls_loss 0.0039 cls_loss_mapping 0.0101 cls_loss_causal 0.6096 re_mapping 0.0089 re_causal 0.0266 /// teacc 99.06 lr 0.00010000
+Epoch 82, weight, value: tensor([[-0.0862, -0.0131,  0.1097,  ...,  0.0341, -0.0883, -0.0851],
+        [-0.0630, -0.0657, -0.0051,  ..., -0.0650, -0.0613, -0.0319],
+        [ 0.1153, -0.0280, -0.0804,  ..., -0.0693, -0.0898, -0.1288],
+        ...,
+        [-0.0299,  0.0019, -0.0804,  ..., -0.0222,  0.0379,  0.0044],
+        [-0.0853, -0.0655, -0.0105,  ..., -0.0654,  0.0042, -0.0166],
+        [-0.0250, -0.0394, -0.0280,  ...,  0.0703,  0.0269, -0.0953]],
+       device='cuda:0'), grad: tensor([[ 3.8669e-06,  1.5404e-06,  4.8801e-07,  ...,  1.2303e-06,
+          2.9728e-06,  1.9027e-06],
+        [ 1.2323e-05,  4.6454e-06,  1.4063e-07,  ..., -3.6787e-06,
+          4.0904e-06,  3.0752e-06],
+        [ 2.7016e-05,  1.2167e-05,  7.7020e-07,  ...,  1.4743e-06,
+          2.1122e-06,  1.3104e-06],
+        ...,
+        [ 1.4059e-05,  5.1931e-06,  6.1654e-07,  ...,  2.6952e-06,
+          1.6270e-06,  1.1139e-06],
+        [ 5.0403e-06,  2.2706e-06,  5.5581e-06,  ...,  1.9819e-06,
+          1.4231e-05,  1.4223e-05],
+        [ 8.3148e-06,  3.3304e-06,  1.9297e-06,  ...,  3.1758e-06,
+          3.2820e-06,  2.0117e-06]], device='cuda:0')
+Epoch 82, bias, value: tensor([ 0.0049,  0.0150,  0.0160, -0.0019,  0.0170, -0.0055, -0.0131, -0.0087,
+         0.0216, -0.0093], device='cuda:0'), grad: tensor([ 1.4551e-05, -9.2089e-06,  6.8069e-05, -1.9276e-04, -7.9453e-05,
+         1.0294e-04, -4.1090e-06,  4.8220e-05,  1.9923e-05,  3.1710e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 81, time 251.73, cls_loss 0.0041 cls_loss_mapping 0.0121 cls_loss_causal 0.5936 re_mapping 0.0082 re_causal 0.0254 /// teacc 99.05 lr 0.00010000
+Epoch 83, weight, value: tensor([[-0.0868, -0.0132,  0.1101,  ...,  0.0344, -0.0892, -0.0860],
+        [-0.0633, -0.0660, -0.0052,  ..., -0.0652, -0.0616, -0.0321],
+        [ 0.1159, -0.0282, -0.0810,  ..., -0.0696, -0.0903, -0.1297],
+        ...,
+        [-0.0303,  0.0015, -0.0808,  ..., -0.0224,  0.0381,  0.0042],
+        [-0.0856, -0.0658, -0.0108,  ..., -0.0666,  0.0035, -0.0168],
+        [-0.0251, -0.0395, -0.0281,  ...,  0.0705,  0.0270, -0.0959]],
+       device='cuda:0'), grad: tensor([[ 7.4878e-06,  3.3062e-08, -5.2862e-06,  ..., -2.3283e-06,
+          2.6971e-06,  5.7183e-07],
+        [ 4.2021e-05,  8.4750e-08,  4.3167e-07,  ...,  4.1984e-06,
+          2.7269e-05,  3.1590e-06],
+        [-8.7357e-04,  1.0757e-07, -4.7646e-06,  ...,  1.2740e-06,
+          9.4026e-06, -6.7532e-05],
+        ...,
+        [ 3.5971e-05,  1.9558e-07,  1.9409e-06,  ...,  7.2047e-06,
+         -1.1218e-04,  7.8231e-07],
+        [ 7.5674e-04,  3.6601e-07,  2.5779e-06,  ...,  1.4186e-05,
+          2.0891e-05,  6.3002e-05],
+        [ 4.7348e-06,  1.9744e-07,  1.8617e-06,  ..., -1.0687e-04,
+          4.1351e-06,  1.5534e-06]], device='cuda:0')
+Epoch 83, bias, value: tensor([ 0.0049,  0.0152,  0.0159, -0.0010,  0.0167, -0.0053, -0.0134, -0.0087,
+         0.0209, -0.0093], device='cuda:0'), grad: tensor([ 1.7315e-05,  1.7273e-04, -1.6432e-03,  1.1557e-04,  7.9989e-05,
+         2.9221e-05,  1.6317e-05, -3.2687e-04,  1.5306e-03,  6.9179e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 82, time 251.31, cls_loss 0.0047 cls_loss_mapping 0.0118 cls_loss_causal 0.6014 re_mapping 0.0083 re_causal 0.0259 /// teacc 99.00 lr 0.00010000
+Epoch 84, weight, value: tensor([[-0.0875, -0.0134,  0.1107,  ...,  0.0347, -0.0902, -0.0866],
+        [-0.0637, -0.0662, -0.0057,  ..., -0.0653, -0.0620, -0.0321],
+        [ 0.1168, -0.0283, -0.0820,  ..., -0.0708, -0.0907, -0.1307],
+        ...,
+        [-0.0308,  0.0015, -0.0810,  ..., -0.0231,  0.0382,  0.0039],
+        [-0.0862, -0.0662, -0.0107,  ..., -0.0673,  0.0037, -0.0165],
+        [-0.0252, -0.0396, -0.0283,  ...,  0.0697,  0.0268, -0.0966]],
+       device='cuda:0'), grad: tensor([[ 5.5544e-06, -4.0699e-07,  1.4102e-04,  ..., -2.2054e-05,
+          1.1569e-04,  1.1331e-04],
+        [-1.4842e-05,  1.5683e-06,  8.4788e-06,  ...,  1.1079e-05,
+          1.4424e-05,  9.6634e-06],
+        [-1.3018e-04,  1.2899e-06,  2.0728e-05,  ..., -7.8082e-05,
+          1.8492e-05,  1.5065e-05],
+        ...,
+        [ 7.9989e-05,  1.7332e-06,  5.5209e-06,  ...,  7.9274e-05,
+          8.9332e-06,  3.0492e-06],
+        [-4.6864e-06,  4.0010e-06,  2.3052e-05,  ...,  1.1764e-05,
+         -2.5153e-05, -1.8418e-05],
+        [ 2.9400e-05,  2.6245e-06,  1.2226e-05,  ...,  4.8250e-05,
+          1.1221e-05,  9.2685e-06]], device='cuda:0')
+Epoch 84, bias, value: tensor([ 0.0047,  0.0150,  0.0160, -0.0013,  0.0186, -0.0051, -0.0139, -0.0087,
+         0.0213, -0.0106], device='cuda:0'), grad: tensor([ 3.5691e-04, -1.0121e-04, -8.8632e-05,  5.1928e-04,  2.0182e-04,
+        -4.1032e-04, -7.6389e-04,  2.2554e-04, -7.6771e-05,  1.3757e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 83, time 251.59, cls_loss 0.0043 cls_loss_mapping 0.0096 cls_loss_causal 0.5985 re_mapping 0.0082 re_causal 0.0255 /// teacc 99.06 lr 0.00010000
+Epoch 85, weight, value: tensor([[-0.0883, -0.0136,  0.1109,  ...,  0.0350, -0.0913, -0.0878],
+        [-0.0644, -0.0666, -0.0055,  ..., -0.0646, -0.0624, -0.0327],
+        [ 0.1172, -0.0285, -0.0828,  ..., -0.0712, -0.0912, -0.1313],
+        ...,
+        [-0.0304,  0.0011, -0.0815,  ..., -0.0237,  0.0384,  0.0039],
+        [-0.0866, -0.0663, -0.0106,  ..., -0.0677,  0.0037, -0.0164],
+        [-0.0254, -0.0399, -0.0286,  ...,  0.0700,  0.0268, -0.0971]],
+       device='cuda:0'), grad: tensor([[ 1.1418e-06, -1.0030e-06, -4.1515e-05,  ..., -2.3887e-05,
+          1.4352e-06,  2.0601e-06],
+        [ 1.1109e-05,  2.5332e-07,  1.3169e-06,  ..., -6.4522e-06,
+          1.4324e-06,  1.7723e-06],
+        [-5.0336e-05,  3.3807e-07,  8.5756e-06,  ...,  5.4017e-06,
+          1.4687e-06,  1.7649e-06],
+        ...,
+        [ 1.3821e-05,  4.2934e-07,  3.9339e-06,  ...,  1.0878e-05,
+          1.5553e-07,  1.8720e-07],
+        [ 1.4193e-05,  4.4983e-07,  8.3447e-06,  ...,  6.2659e-06,
+          4.0159e-06,  7.4282e-06],
+        [ 1.1194e-06,  5.6624e-07,  6.5118e-06,  ..., -8.9779e-06,
+         -5.1782e-06,  7.4180e-07]], device='cuda:0')
+Epoch 85, bias, value: tensor([ 0.0043,  0.0141,  0.0157, -0.0014,  0.0184, -0.0052, -0.0133, -0.0075,
+         0.0215, -0.0107], device='cuda:0'), grad: tensor([-4.1664e-05, -5.8025e-05, -1.2958e-04,  1.6332e-05,  8.6725e-06,
+         7.2382e-06,  8.6725e-06,  9.3997e-05,  7.5996e-05,  1.8299e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 84, time 251.42, cls_loss 0.0031 cls_loss_mapping 0.0107 cls_loss_causal 0.6105 re_mapping 0.0083 re_causal 0.0258 /// teacc 98.98 lr 0.00010000
+Epoch 86, weight, value: tensor([[-0.0886, -0.0137,  0.1111,  ...,  0.0352, -0.0919, -0.0890],
+        [-0.0652, -0.0667, -0.0058,  ..., -0.0649, -0.0630, -0.0328],
+        [ 0.1183, -0.0289, -0.0827,  ..., -0.0715, -0.0916, -0.1321],
+        ...,
+        [-0.0311,  0.0006, -0.0821,  ..., -0.0240,  0.0387,  0.0036],
+        [-0.0869, -0.0666, -0.0109,  ..., -0.0682,  0.0038, -0.0164],
+        [-0.0256, -0.0400, -0.0289,  ...,  0.0703,  0.0268, -0.0981]],
+       device='cuda:0'), grad: tensor([[ 2.9840e-06,  1.0151e-06, -2.2337e-05,  ..., -7.1041e-06,
+          1.5087e-07, -1.9539e-06],
+        [ 1.7779e-06,  6.4913e-07,  1.6689e-06,  ...,  7.8231e-06,
+          2.5213e-05,  8.3297e-06],
+        [ 6.3255e-06,  2.5388e-06,  3.3882e-06,  ...,  5.8440e-07,
+          1.4668e-06,  2.7893e-07],
+        ...,
+        [ 3.4198e-06,  1.2061e-06,  1.1884e-06,  ..., -2.5257e-05,
+         -8.4817e-05, -2.0444e-05],
+        [ 4.4052e-07,  1.7509e-07, -1.1817e-05,  ...,  9.3924e-07,
+         -4.1686e-06, -7.3574e-06],
+        [ 5.9977e-07,  2.7055e-07,  8.0839e-06,  ...,  1.6108e-05,
+          5.1886e-05,  1.4476e-05]], device='cuda:0')
+Epoch 86, bias, value: tensor([ 0.0042,  0.0147,  0.0164, -0.0010,  0.0183, -0.0054, -0.0130, -0.0087,
+         0.0213, -0.0107], device='cuda:0'), grad: tensor([-9.8422e-06,  6.3539e-05,  2.7373e-05, -1.6630e-05,  2.4773e-06,
+        -7.0110e-06,  3.1590e-05, -1.7965e-04, -5.2810e-05,  1.4067e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 85, time 251.53, cls_loss 0.0043 cls_loss_mapping 0.0127 cls_loss_causal 0.6067 re_mapping 0.0082 re_causal 0.0260 /// teacc 99.00 lr 0.00010000
+Epoch 87, weight, value: tensor([[-0.0889, -0.0137,  0.1128,  ...,  0.0344, -0.0922, -0.0891],
+        [-0.0654, -0.0669, -0.0079,  ..., -0.0656, -0.0638, -0.0340],
+        [ 0.1188, -0.0291, -0.0839,  ..., -0.0722, -0.0919, -0.1326],
+        ...,
+        [-0.0315,  0.0005, -0.0830,  ..., -0.0242,  0.0392,  0.0038],
+        [-0.0871, -0.0668, -0.0109,  ..., -0.0691,  0.0038, -0.0162],
+        [-0.0259, -0.0402, -0.0289,  ...,  0.0715,  0.0267, -0.0992]],
+       device='cuda:0'), grad: tensor([[ 1.8766e-07,  3.6787e-08, -4.5188e-06,  ..., -2.5816e-06,
+          5.7034e-06,  1.3746e-06],
+        [ 1.4026e-06,  9.5461e-08, -2.3656e-07,  ...,  2.6021e-06,
+          1.4305e-05,  2.4494e-07],
+        [-1.1642e-08,  6.7754e-07,  9.8124e-06,  ...,  2.7623e-06,
+          1.3456e-05,  1.2657e-06],
+        ...,
+        [ 2.4755e-06,  2.0023e-07,  7.9116e-07,  ..., -4.5240e-05,
+         -1.9741e-04,  1.5832e-07],
+        [-1.2312e-06,  2.0536e-07, -1.2897e-05,  ...,  2.8256e-06,
+         -3.3975e-05, -1.9576e-06],
+        [ 7.8650e-07,  3.7812e-07,  2.3637e-06,  ...,  1.6600e-05,
+          9.8407e-05,  6.1188e-07]], device='cuda:0')
+Epoch 87, bias, value: tensor([ 0.0042,  0.0141,  0.0162, -0.0010,  0.0180, -0.0054, -0.0134, -0.0086,
+         0.0220, -0.0100], device='cuda:0'), grad: tensor([ 8.4639e-06,  2.1487e-05,  8.2374e-05, -7.3127e-06,  1.8787e-04,
+         6.7234e-05,  1.1079e-05, -4.9162e-04, -1.4377e-04,  2.6393e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 86, time 251.50, cls_loss 0.0052 cls_loss_mapping 0.0129 cls_loss_causal 0.5978 re_mapping 0.0081 re_causal 0.0245 /// teacc 98.83 lr 0.00010000
+Epoch 88, weight, value: tensor([[-9.0728e-02, -1.3838e-02,  1.1302e-01,  ...,  3.4492e-02,
+         -9.2871e-02, -8.9492e-02],
+        [-6.4390e-02, -6.7070e-02, -7.1980e-03,  ..., -6.6131e-02,
+         -6.4682e-02, -3.3944e-02],
+        [ 1.1879e-01, -2.9280e-02, -8.4015e-02,  ..., -7.2789e-02,
+         -9.2746e-02, -1.3326e-01],
+        ...,
+        [-3.1956e-02,  8.8850e-05, -8.3897e-02,  ..., -2.3905e-02,
+          3.9172e-02,  3.4793e-03],
+        [-8.7722e-02, -6.6979e-02, -1.0803e-02,  ..., -6.9290e-02,
+          3.7055e-03, -1.6317e-02],
+        [-2.6299e-02, -4.0429e-02, -2.9215e-02,  ...,  7.2029e-02,
+          2.8190e-02, -9.9485e-02]], device='cuda:0'), grad: tensor([[ 7.9162e-07,  8.0653e-07,  1.1122e-04,  ...,  9.9838e-06,
+          8.4341e-05,  8.7738e-05],
+        [ 2.2780e-06,  2.2575e-06,  7.4804e-06,  ...,  3.4496e-06,
+          1.2428e-05,  7.9945e-06],
+        [ 5.2415e-06,  5.0217e-06,  4.9807e-06,  ...,  1.8086e-06,
+          1.0796e-05,  3.4962e-06],
+        ...,
+        [ 9.0823e-06,  7.9423e-06,  2.4345e-06,  ...,  1.0625e-05,
+         -3.1173e-05,  1.8682e-06],
+        [ 3.1684e-06,  3.3192e-06,  8.1509e-06,  ...,  1.1235e-05,
+          8.6054e-06,  1.4259e-06],
+        [ 1.4873e-06,  1.5153e-06,  8.5905e-06,  ..., -7.4863e-05,
+         -4.3750e-05,  2.2016e-06]], device='cuda:0')
+Epoch 88, bias, value: tensor([ 0.0037,  0.0153,  0.0146, -0.0011,  0.0173, -0.0057, -0.0133, -0.0086,
+         0.0222, -0.0092], device='cuda:0'), grad: tensor([ 1.9717e-04,  2.7746e-05,  5.8681e-05, -5.2124e-05,  1.8680e-04,
+         8.8394e-05, -3.4356e-04, -8.3089e-05,  2.8908e-05, -1.0902e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 87, time 251.68, cls_loss 0.0027 cls_loss_mapping 0.0090 cls_loss_causal 0.5971 re_mapping 0.0083 re_causal 0.0255 /// teacc 98.95 lr 0.00010000
+Epoch 89, weight, value: tensor([[-9.1141e-02, -1.3863e-02,  1.1343e-01,  ...,  3.4667e-02,
+         -9.3379e-02, -8.9823e-02],
+        [-6.4809e-02, -6.7402e-02, -7.2452e-03,  ..., -6.6407e-02,
+         -6.5195e-02, -3.4276e-02],
+        [ 1.1990e-01, -2.9514e-02, -8.4112e-02,  ..., -7.2821e-02,
+         -9.3190e-02, -1.3319e-01],
+        ...,
+        [-3.2554e-02, -1.0247e-04, -8.4402e-02,  ..., -2.4411e-02,
+          3.9205e-02,  3.0725e-03],
+        [-8.8292e-02, -6.7388e-02, -1.0793e-02,  ..., -6.9799e-02,
+          3.6850e-03, -1.6147e-02],
+        [-2.6505e-02, -4.0651e-02, -2.9509e-02,  ...,  7.2278e-02,
+          2.8510e-02, -9.9802e-02]], device='cuda:0'), grad: tensor([[ 4.0196e-06,  7.7020e-07,  8.2096e-07,  ...,  1.5944e-06,
+          2.8126e-06,  1.2498e-06],
+        [ 1.2154e-06,  3.2363e-07,  2.1188e-07,  ...,  7.4282e-06,
+          9.1270e-06,  2.5835e-06],
+        [-7.8917e-05, -6.1244e-06,  3.8138e-07,  ...,  3.5167e-06,
+          3.9749e-06,  7.9675e-07],
+        ...,
+        [ 6.6571e-06,  6.3190e-07,  3.3528e-08,  ...,  5.3011e-06,
+         -4.5449e-06,  1.6550e-06],
+        [ 2.1100e-05,  3.8110e-06,  4.0643e-06,  ...,  6.7316e-06,
+          1.2688e-05,  6.3628e-06],
+        [ 4.1304e-07,  8.8010e-07,  1.6019e-07,  ...,  6.1095e-05,
+          6.4671e-05,  2.1726e-05]], device='cuda:0')
+Epoch 89, bias, value: tensor([ 0.0038,  0.0151,  0.0153, -0.0002,  0.0172, -0.0066, -0.0134, -0.0090,
+         0.0225, -0.0090], device='cuda:0'), grad: tensor([ 1.6078e-05,  2.0847e-05, -9.9838e-05,  9.9957e-05, -4.9400e-04,
+         6.8367e-05,  1.1748e-04, -1.3635e-05,  7.0751e-05,  2.1327e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 88, time 251.68, cls_loss 0.0032 cls_loss_mapping 0.0096 cls_loss_causal 0.6074 re_mapping 0.0077 re_causal 0.0249 /// teacc 98.98 lr 0.00010000
+Epoch 90, weight, value: tensor([[-0.0919, -0.0140,  0.1140,  ...,  0.0348, -0.0948, -0.0903],
+        [-0.0650, -0.0676, -0.0078,  ..., -0.0666, -0.0658, -0.0345],
+        [ 0.1207, -0.0297, -0.0848,  ..., -0.0729, -0.0939, -0.1329],
+        ...,
+        [-0.0328, -0.0002, -0.0850,  ..., -0.0248,  0.0397,  0.0028],
+        [-0.0889, -0.0679, -0.0109,  ..., -0.0705,  0.0037, -0.0163],
+        [-0.0253, -0.0408, -0.0284,  ...,  0.0731,  0.0293, -0.1000]],
+       device='cuda:0'), grad: tensor([[ 1.7174e-06,  4.2189e-07, -2.7448e-05,  ...,  1.0371e-05,
+          6.4000e-06,  3.2391e-06],
+        [ 8.6986e-07,  1.1558e-06,  1.2973e-06,  ...,  4.1500e-06,
+          3.3062e-06,  2.5053e-06],
+        [ 6.0797e-06,  7.2643e-07,  1.2569e-05,  ...,  6.5982e-05,
+          1.4611e-05,  1.1278e-06],
+        ...,
+        [ 2.2184e-06,  6.7577e-06,  3.3900e-06,  ...,  1.7077e-05,
+          1.8194e-05,  4.6864e-06],
+        [ 1.3057e-06,  8.6203e-06,  5.1707e-06,  ...,  1.2219e-05,
+          1.6063e-05,  2.4751e-05],
+        [ 3.7216e-06,  4.7907e-06,  1.4044e-05,  ...,  3.1918e-05,
+          1.1772e-05,  1.0327e-05]], device='cuda:0')
+Epoch 90, bias, value: tensor([ 0.0036,  0.0149,  0.0154, -0.0002,  0.0170, -0.0081, -0.0136, -0.0088,
+         0.0226, -0.0079], device='cuda:0'), grad: tensor([ 1.2785e-05,  1.7151e-05,  1.4961e-04, -1.8549e-04, -3.7336e-04,
+        -1.1957e-04,  1.4031e-04,  1.0121e-04,  1.2469e-04,  1.3280e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 89, time 251.30, cls_loss 0.0032 cls_loss_mapping 0.0088 cls_loss_causal 0.5751 re_mapping 0.0077 re_causal 0.0243 /// teacc 98.95 lr 0.00010000
+Epoch 91, weight, value: tensor([[-0.0927, -0.0140,  0.1147,  ...,  0.0353, -0.0966, -0.0915],
+        [-0.0653, -0.0679, -0.0072,  ..., -0.0662, -0.0665, -0.0347],
+        [ 0.1219, -0.0300, -0.0859,  ..., -0.0732, -0.0943, -0.1335],
+        ...,
+        [-0.0336, -0.0006, -0.0857,  ..., -0.0253,  0.0394,  0.0025],
+        [-0.0892, -0.0684, -0.0112,  ..., -0.0713,  0.0033, -0.0165],
+        [-0.0254, -0.0412, -0.0291,  ...,  0.0730,  0.0295, -0.1008]],
+       device='cuda:0'), grad: tensor([[ 9.0338e-08,  3.9116e-08, -5.1409e-06,  ..., -5.0925e-06,
+          1.5516e-06,  1.6792e-06],
+        [ 2.3935e-07,  2.3190e-07,  3.4999e-06,  ...,  1.0310e-06,
+          2.5220e-06,  2.4401e-06],
+        [-7.2271e-07,  4.9733e-07,  5.2191e-06,  ...,  1.2424e-06,
+          3.1199e-06,  3.2093e-06],
+        ...,
+        [ 3.1702e-06,  3.9004e-06,  1.0906e-06,  ...,  1.4091e-06,
+         -3.5893e-06,  2.6133e-06],
+        [ 1.0217e-06,  5.6624e-07,  4.7311e-06,  ...,  3.4124e-06,
+          3.1516e-06,  2.5723e-06],
+        [ 4.5355e-07,  8.5402e-07,  1.6838e-06,  ..., -4.1723e-07,
+          3.5632e-06,  4.8801e-07]], device='cuda:0')
+Epoch 91, bias, value: tensor([ 0.0039,  0.0149,  0.0156, -0.0008,  0.0175, -0.0075, -0.0136, -0.0094,
+         0.0222, -0.0077], device='cuda:0'), grad: tensor([-3.8594e-06, -6.2212e-06,  1.6525e-05, -1.6794e-05, -1.7677e-06,
+         8.1211e-06, -3.7432e-05,  6.6981e-06,  1.9699e-05,  1.4953e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 90, time 251.54, cls_loss 0.0045 cls_loss_mapping 0.0116 cls_loss_causal 0.5618 re_mapping 0.0080 re_causal 0.0238 /// teacc 98.99 lr 0.00010000
+Epoch 92, weight, value: tensor([[-0.0931, -0.0141,  0.1153,  ...,  0.0355, -0.0971, -0.0918],
+        [-0.0658, -0.0681, -0.0073,  ..., -0.0677, -0.0680, -0.0350],
+        [ 0.1230, -0.0301, -0.0866,  ..., -0.0735, -0.0948, -0.1341],
+        ...,
+        [-0.0341, -0.0008, -0.0863,  ..., -0.0249,  0.0399,  0.0025],
+        [-0.0894, -0.0687, -0.0117,  ..., -0.0719,  0.0030, -0.0167],
+        [-0.0262, -0.0415, -0.0295,  ...,  0.0723,  0.0289, -0.1013]],
+       device='cuda:0'), grad: tensor([[ 1.7509e-06,  9.3132e-07,  1.8969e-05,  ..., -1.9856e-06,
+          2.4438e-05,  3.3408e-05],
+        [ 1.6382e-06,  1.2498e-06, -2.9914e-06,  ...,  4.0047e-06,
+          2.3283e-06,  1.6056e-06],
+        [-1.5438e-05,  2.4401e-06,  3.4850e-06,  ...,  3.0771e-06,
+          3.2354e-06,  3.0473e-06],
+        ...,
+        [ 3.3136e-06,  3.0193e-06,  7.8138e-07,  ...,  7.6070e-06,
+          2.7250e-06,  9.9279e-07],
+        [ 1.0066e-05,  2.1420e-06,  1.8045e-05,  ...,  2.8089e-06,
+          1.2688e-05,  1.9878e-05],
+        [ 1.7295e-06,  2.9430e-06,  5.5768e-06,  ..., -2.5719e-05,
+         -7.5512e-06,  4.2357e-06]], device='cuda:0')
+Epoch 92, bias, value: tensor([ 0.0040,  0.0139,  0.0162, -0.0013,  0.0189, -0.0073, -0.0132, -0.0089,
+         0.0223, -0.0089], device='cuda:0'), grad: tensor([ 6.6698e-05, -6.6042e-04,  4.3130e-04,  1.0031e-04,  1.0587e-05,
+         4.2319e-04, -5.0449e-04,  6.4731e-05,  6.0976e-05,  6.7391e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 91, time 251.52, cls_loss 0.0025 cls_loss_mapping 0.0074 cls_loss_causal 0.5723 re_mapping 0.0078 re_causal 0.0237 /// teacc 99.00 lr 0.00010000
+Epoch 93, weight, value: tensor([[-0.0936, -0.0143,  0.1158,  ...,  0.0357, -0.0974, -0.0920],
+        [-0.0660, -0.0684, -0.0073,  ..., -0.0677, -0.0682, -0.0351],
+        [ 0.1234, -0.0304, -0.0873,  ..., -0.0740, -0.0952, -0.1345],
+        ...,
+        [-0.0341, -0.0011, -0.0871,  ..., -0.0253,  0.0401,  0.0025],
+        [-0.0896, -0.0689, -0.0117,  ..., -0.0726,  0.0029, -0.0170],
+        [-0.0264, -0.0416, -0.0298,  ...,  0.0725,  0.0289, -0.1018]],
+       device='cuda:0'), grad: tensor([[ 2.3749e-07,  1.7695e-08, -6.3241e-05,  ..., -6.4790e-05,
+          6.5938e-07,  6.1654e-07],
+        [ 4.2748e-07,  1.4249e-07,  1.9297e-06,  ...,  1.7937e-06,
+          2.1495e-06,  3.5577e-07],
+        [-4.4145e-06,  2.1886e-07,  4.1649e-06,  ...,  3.9861e-06,
+          8.1211e-07,  7.6648e-07],
+        ...,
+        [ 8.8289e-07,  1.7881e-07,  3.6001e-05,  ...,  4.9859e-05,
+          2.5984e-06,  2.0489e-08],
+        [ 2.7232e-06,  1.7416e-07,  6.7130e-06,  ...,  1.3307e-05,
+          1.8105e-05,  1.5637e-06],
+        [ 1.7416e-07,  1.2014e-07,  7.5586e-06,  ..., -8.6054e-06,
+         -2.5257e-05,  1.2759e-07]], device='cuda:0')
+Epoch 93, bias, value: tensor([ 0.0041,  0.0142,  0.0159, -0.0018,  0.0191, -0.0069, -0.0136, -0.0088,
+         0.0223, -0.0090], device='cuda:0'), grad: tensor([-1.4186e-04, -4.9509e-06,  7.2345e-06,  1.9092e-06,  2.8759e-06,
+         1.1005e-05, -1.4286e-06,  1.1510e-04,  6.7472e-05, -5.7667e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 92, time 251.33, cls_loss 0.0030 cls_loss_mapping 0.0076 cls_loss_causal 0.5763 re_mapping 0.0074 re_causal 0.0234 /// teacc 98.98 lr 0.00010000
+Epoch 94, weight, value: tensor([[-0.0938, -0.0144,  0.1161,  ...,  0.0358, -0.0980, -0.0925],
+        [-0.0661, -0.0687, -0.0074,  ..., -0.0678, -0.0686, -0.0354],
+        [ 0.1239, -0.0308, -0.0878,  ..., -0.0744, -0.0955, -0.1348],
+        ...,
+        [-0.0346, -0.0014, -0.0875,  ..., -0.0255,  0.0403,  0.0023],
+        [-0.0902, -0.0696, -0.0121,  ..., -0.0738,  0.0029, -0.0170],
+        [-0.0265, -0.0417, -0.0300,  ...,  0.0730,  0.0293, -0.1035]],
+       device='cuda:0'), grad: tensor([[ 8.3819e-07,  1.6764e-08,  7.5437e-07,  ..., -2.4028e-07,
+          2.1160e-06,  2.3618e-06],
+        [ 6.2492e-07,  1.3970e-08, -1.1269e-06,  ...,  4.5355e-07,
+          2.3320e-06,  6.3144e-07],
+        [-3.4068e-06,  3.9116e-08,  2.9933e-06,  ...,  1.3486e-06,
+          2.9728e-06,  2.5388e-06],
+        ...,
+        [ 1.2908e-06,  2.3283e-08,  3.7067e-07,  ...,  5.4836e-06,
+         -3.4645e-06,  2.0303e-07],
+        [ 6.6273e-06,  1.7695e-08,  1.5823e-06,  ...,  5.0962e-06,
+          7.9051e-06,  7.2196e-06],
+        [ 2.3562e-06,  1.7695e-08,  8.2701e-07,  ..., -5.2184e-05,
+         -1.6034e-05,  4.8578e-06]], device='cuda:0')
+Epoch 94, bias, value: tensor([ 0.0040,  0.0141,  0.0158, -0.0014,  0.0188, -0.0074, -0.0127, -0.0089,
+         0.0221, -0.0089], device='cuda:0'), grad: tensor([ 8.3596e-06, -1.0610e-05,  1.3530e-05,  1.3089e-04,  7.0751e-05,
+        -1.9813e-04,  2.8238e-05, -1.7047e-05,  4.0352e-05, -6.6400e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 93, time 251.53, cls_loss 0.0032 cls_loss_mapping 0.0092 cls_loss_causal 0.6008 re_mapping 0.0071 re_causal 0.0232 /// teacc 99.04 lr 0.00010000
+Epoch 95, weight, value: tensor([[-0.0941, -0.0145,  0.1165,  ...,  0.0361, -0.0984, -0.0929],
+        [-0.0663, -0.0689, -0.0073,  ..., -0.0681, -0.0689, -0.0355],
+        [ 0.1253, -0.0308, -0.0886,  ..., -0.0752, -0.0957, -0.1355],
+        ...,
+        [-0.0353, -0.0016, -0.0878,  ..., -0.0266,  0.0400,  0.0025],
+        [-0.0922, -0.0699, -0.0123,  ..., -0.0746,  0.0026, -0.0171],
+        [-0.0268, -0.0419, -0.0303,  ...,  0.0736,  0.0299, -0.1040]],
+       device='cuda:0'), grad: tensor([[ 1.2383e-05,  3.0547e-07, -5.6982e-05,  ..., -2.1994e-05,
+          5.5693e-07,  7.1526e-07],
+        [ 7.3127e-06,  1.1642e-06,  9.9465e-07,  ...,  7.3016e-07,
+          5.4948e-07,  2.4494e-07],
+        [-5.8353e-05,  4.0755e-06,  3.5111e-06,  ..., -1.0943e-06,
+          1.4408e-06,  5.8208e-07],
+        ...,
+        [ 1.4544e-05,  1.0123e-06,  8.8848e-07,  ...,  1.0682e-06,
+         -7.9274e-06,  8.1025e-08],
+        [ 1.1332e-05,  3.3788e-06,  3.3360e-06,  ...,  2.2613e-06,
+          1.3141e-06,  6.2585e-07],
+        [ 4.9733e-06,  1.3383e-06,  1.6063e-05,  ...,  2.0470e-06,
+          2.1886e-06,  3.0734e-07]], device='cuda:0')
+Epoch 95, bias, value: tensor([ 0.0043,  0.0140,  0.0164, -0.0016,  0.0186, -0.0070, -0.0125, -0.0096,
+         0.0208, -0.0081], device='cuda:0'), grad: tensor([-6.0230e-05,  3.7372e-05, -1.6287e-05,  3.0249e-05,  2.4617e-05,
+         3.1114e-05,  1.7032e-05, -1.4436e-04,  3.2365e-05,  4.7922e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 94, time 251.30, cls_loss 0.0026 cls_loss_mapping 0.0087 cls_loss_causal 0.5810 re_mapping 0.0075 re_causal 0.0234 /// teacc 98.99 lr 0.00010000
+Epoch 96, weight, value: tensor([[-0.0946, -0.0146,  0.1170,  ...,  0.0364, -0.0987, -0.0931],
+        [-0.0664, -0.0691, -0.0074,  ..., -0.0682, -0.0692, -0.0357],
+        [ 0.1265, -0.0306, -0.0893,  ..., -0.0756, -0.0959, -0.1362],
+        ...,
+        [-0.0361, -0.0018, -0.0882,  ..., -0.0268,  0.0404,  0.0023],
+        [-0.0927, -0.0702, -0.0125,  ..., -0.0754,  0.0024, -0.0172],
+        [-0.0270, -0.0421, -0.0305,  ...,  0.0739,  0.0297, -0.1042]],
+       device='cuda:0'), grad: tensor([[ 6.2957e-06,  3.0175e-07, -7.2002e-05,  ..., -8.7440e-05,
+          1.9465e-06,  9.5926e-07],
+        [ 4.7274e-06,  2.4959e-07,  2.8200e-06,  ...,  1.1094e-05,
+          4.7050e-06,  1.5739e-07],
+        [-1.3208e-04,  2.7940e-07,  6.0424e-06,  ...,  8.6278e-06,
+          1.0636e-06,  5.3458e-07],
+        ...,
+        [ 1.0198e-04,  5.4296e-07,  3.0287e-06,  ...,  2.8521e-05,
+          7.5847e-06, -1.9278e-07],
+        [ 8.6874e-06,  6.1281e-07,  4.4480e-06,  ...,  1.4782e-05,
+          5.8748e-06, -2.3674e-06],
+        [ 2.8275e-06,  4.6100e-07,  1.6034e-05,  ..., -8.6427e-05,
+         -4.7415e-05,  1.6494e-06]], device='cuda:0')
+Epoch 96, bias, value: tensor([ 0.0043,  0.0142,  0.0166, -0.0020,  0.0184, -0.0070, -0.0124, -0.0097,
+         0.0206, -0.0081], device='cuda:0'), grad: tensor([-2.2149e-04,  1.8105e-05, -2.0480e-04,  1.2720e-04,  1.8358e-05,
+         8.4341e-05,  5.0753e-05,  2.3675e-04,  2.1234e-05, -1.2958e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 95, time 251.01, cls_loss 0.0029 cls_loss_mapping 0.0087 cls_loss_causal 0.5776 re_mapping 0.0072 re_causal 0.0234 /// teacc 99.02 lr 0.00010000
+Epoch 97, weight, value: tensor([[-0.0952, -0.0153,  0.1175,  ...,  0.0367, -0.0994, -0.0936],
+        [-0.0664, -0.0694, -0.0065,  ..., -0.0682, -0.0694, -0.0359],
+        [ 0.1273, -0.0308, -0.0908,  ..., -0.0758, -0.0959, -0.1366],
+        ...,
+        [-0.0366, -0.0019, -0.0886,  ..., -0.0274,  0.0400,  0.0024],
+        [-0.0930, -0.0694, -0.0123,  ..., -0.0756,  0.0023, -0.0173],
+        [-0.0282, -0.0426, -0.0309,  ...,  0.0741,  0.0301, -0.1049]],
+       device='cuda:0'), grad: tensor([[ 2.7493e-06,  5.5879e-09, -3.3885e-05,  ..., -7.7412e-06,
+          1.8999e-06, -1.2405e-06],
+        [ 1.1604e-06,  1.4901e-08, -5.6438e-06,  ..., -2.3972e-06,
+          2.8014e-06,  1.7332e-06],
+        [-1.3903e-05,  3.3528e-08,  2.3525e-06,  ...,  6.5099e-07,
+          5.7295e-06,  1.4668e-06],
+        ...,
+        [-3.4459e-08,  3.8184e-08,  1.5832e-06,  ...,  1.0412e-06,
+         -1.6406e-05,  9.1270e-08],
+        [ 3.3975e-06,  4.5635e-08,  4.6417e-06,  ...,  9.1642e-07,
+          4.3362e-06,  3.1590e-06],
+        [ 3.4273e-07,  5.0291e-08,  4.7423e-06,  ..., -2.1495e-06,
+          6.3516e-06,  2.1681e-06]], device='cuda:0')
+Epoch 97, bias, value: tensor([ 0.0040,  0.0150,  0.0162, -0.0016,  0.0182, -0.0072, -0.0122, -0.0099,
+         0.0211, -0.0082], device='cuda:0'), grad: tensor([-2.1324e-05, -3.4869e-05,  3.9488e-06,  3.1561e-05,  1.5333e-05,
+        -1.1697e-05, -1.5507e-06, -3.5524e-05,  2.0370e-05,  3.3706e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 96, time 251.52, cls_loss 0.0035 cls_loss_mapping 0.0082 cls_loss_causal 0.5595 re_mapping 0.0074 re_causal 0.0231 /// teacc 98.98 lr 0.00010000
+Epoch 98, weight, value: tensor([[-0.0956, -0.0153,  0.1178,  ...,  0.0352, -0.1000, -0.0940],
+        [-0.0667, -0.0696, -0.0067,  ..., -0.0687, -0.0702, -0.0362],
+        [ 0.1282, -0.0304, -0.0914,  ..., -0.0764, -0.0963, -0.1370],
+        ...,
+        [-0.0366, -0.0021, -0.0893,  ..., -0.0272,  0.0407,  0.0027],
+        [-0.0936, -0.0698, -0.0125,  ..., -0.0766,  0.0019, -0.0175],
+        [-0.0289, -0.0428, -0.0307,  ...,  0.0767,  0.0311, -0.1060]],
+       device='cuda:0'), grad: tensor([[ 2.3574e-05,  6.9849e-08,  6.6981e-06,  ..., -3.2783e-06,
+          1.0487e-06,  1.0980e-06],
+        [ 5.3197e-06,  2.3562e-07, -2.4214e-05,  ..., -3.2224e-06,
+          1.2377e-06, -1.1168e-05],
+        [-1.0413e-04,  1.0291e-06, -4.2200e-05,  ...,  3.2149e-06,
+          1.5739e-06,  4.5784e-06],
+        ...,
+        [ 3.4720e-06,  4.7032e-07,  2.1458e-06,  ...,  2.9989e-06,
+          2.2817e-06,  9.7975e-07],
+        [ 4.9233e-05,  1.1884e-06,  3.3587e-05,  ...,  6.4746e-06,
+         -2.7716e-06,  1.0766e-06],
+        [ 1.9949e-06,  5.6997e-07,  6.5491e-06,  ..., -1.0598e-04,
+         -8.5294e-05,  2.2780e-06]], device='cuda:0')
+Epoch 98, bias, value: tensor([ 0.0026,  0.0148,  0.0164, -0.0029,  0.0167, -0.0063, -0.0122, -0.0094,
+         0.0207, -0.0065], device='cuda:0'), grad: tensor([ 3.1978e-05, -1.6654e-04, -8.6188e-05,  4.6305e-06,  2.1744e-04,
+         4.9621e-05,  2.4945e-05,  2.2665e-05,  1.0264e-04, -2.0123e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 97, time 251.21, cls_loss 0.0026 cls_loss_mapping 0.0077 cls_loss_causal 0.5573 re_mapping 0.0073 re_causal 0.0234 /// teacc 99.02 lr 0.00010000
+Epoch 99, weight, value: tensor([[-0.0957, -0.0154,  0.1185,  ...,  0.0354, -0.1004, -0.0942],
+        [-0.0668, -0.0698, -0.0063,  ..., -0.0684, -0.0706, -0.0362],
+        [ 0.1290, -0.0306, -0.0918,  ..., -0.0765, -0.0968, -0.1374],
+        ...,
+        [-0.0369, -0.0022, -0.0900,  ..., -0.0275,  0.0414,  0.0030],
+        [-0.0949, -0.0700, -0.0128,  ..., -0.0780,  0.0016, -0.0176],
+        [-0.0293, -0.0430, -0.0311,  ...,  0.0763,  0.0304, -0.1071]],
+       device='cuda:0'), grad: tensor([[ 1.1977e-06,  1.5274e-07, -2.6729e-06,  ...,  2.7567e-07,
+          2.5444e-06,  1.0403e-06],
+        [ 4.2357e-06,  1.3970e-08,  8.8066e-06,  ...,  1.3169e-06,
+          8.1658e-06,  6.2883e-06],
+        [-6.2436e-06,  5.6811e-08,  3.8017e-06,  ...,  1.5358e-06,
+          5.4911e-06,  2.8219e-06],
+        ...,
+        [ 4.2003e-07,  1.0245e-07,  1.4063e-07,  ...,  4.5039e-06,
+          1.2293e-07, -1.7881e-07],
+        [ 7.0129e-07,  1.6764e-08,  2.9895e-07,  ..., -7.4506e-09,
+         -1.1146e-05,  4.0047e-07],
+        [ 4.9546e-07,  6.2399e-08,  2.3320e-06,  ...,  2.3067e-05,
+          1.7747e-05,  1.9465e-07]], device='cuda:0')
+Epoch 99, bias, value: tensor([ 0.0029,  0.0150,  0.0167, -0.0023,  0.0177, -0.0067, -0.0123, -0.0092,
+         0.0197, -0.0074], device='cuda:0'), grad: tensor([ 1.3158e-05,  3.9160e-05,  1.7479e-05,  3.8117e-05, -7.5102e-05,
+        -1.7919e-06, -3.3706e-05, -1.8729e-06, -6.9857e-05,  7.4387e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 98, time 251.17, cls_loss 0.0026 cls_loss_mapping 0.0090 cls_loss_causal 0.5805 re_mapping 0.0075 re_causal 0.0232 /// teacc 98.98 lr 0.00010000
+Epoch 100, weight, value: tensor([[-0.0968, -0.0155,  0.1197,  ...,  0.0356, -0.1013, -0.0945],
+        [-0.0671, -0.0699, -0.0074,  ..., -0.0685, -0.0712, -0.0370],
+        [ 0.1295, -0.0328, -0.0927,  ..., -0.0776, -0.0973, -0.1377],
+        ...,
+        [-0.0375, -0.0025, -0.0905,  ..., -0.0278,  0.0416,  0.0029],
+        [-0.0952, -0.0702, -0.0127,  ..., -0.0781,  0.0015, -0.0175],
+        [-0.0294, -0.0432, -0.0318,  ...,  0.0765,  0.0303, -0.1076]],
+       device='cuda:0'), grad: tensor([[ 1.0366e-06,  9.2201e-08, -1.0766e-05,  ..., -5.3644e-06,
+          2.8741e-06,  7.0781e-07],
+        [ 2.5984e-06,  3.1292e-07, -3.8296e-06,  ...,  1.5553e-06,
+          2.7772e-06,  4.7497e-07],
+        [ 7.6741e-06,  2.1122e-06,  2.6487e-06,  ...,  5.5172e-06,
+          1.8790e-05,  3.2317e-07],
+        ...,
+        [ 4.4703e-06,  1.6587e-06,  1.1651e-06,  ..., -2.4021e-05,
+         -1.0967e-04,  1.5553e-07],
+        [ 1.7481e-06,  2.2259e-07,  1.2005e-06,  ...,  3.3733e-06,
+          5.0329e-06,  7.7952e-07],
+        [ 8.6501e-06,  9.7230e-07,  4.2170e-06,  ...,  1.3053e-05,
+          1.6466e-05,  5.9232e-07]], device='cuda:0')
+Epoch 100, bias, value: tensor([ 0.0030,  0.0150,  0.0163, -0.0022,  0.0178, -0.0067, -0.0121, -0.0093,
+         0.0202, -0.0076], device='cuda:0'), grad: tensor([-2.4028e-06, -2.6298e-04,  7.7426e-05, -2.9176e-05,  1.1927e-04,
+        -2.4065e-05,  2.3931e-05, -3.8952e-05,  2.0966e-05,  1.1593e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 99, time 251.16, cls_loss 0.0026 cls_loss_mapping 0.0076 cls_loss_causal 0.5785 re_mapping 0.0072 re_causal 0.0229 /// teacc 99.04 lr 0.00010000
+Epoch 101, weight, value: tensor([[-0.0970, -0.0155,  0.1215,  ...,  0.0363, -0.1018, -0.0952],
+        [-0.0672, -0.0701, -0.0075,  ..., -0.0682, -0.0724, -0.0371],
+        [ 0.1299, -0.0330, -0.0937,  ..., -0.0784, -0.0979, -0.1380],
+        ...,
+        [-0.0375, -0.0027, -0.0911,  ..., -0.0285,  0.0423,  0.0026],
+        [-0.0954, -0.0703, -0.0127,  ..., -0.0780,  0.0016, -0.0174],
+        [-0.0297, -0.0434, -0.0328,  ...,  0.0768,  0.0303, -0.1082]],
+       device='cuda:0'), grad: tensor([[ 1.4659e-06,  4.5169e-07, -4.1649e-06,  ..., -2.2650e-06,
+          1.3206e-06,  1.4259e-06],
+        [ 4.8019e-06,  1.6047e-06,  9.3598e-07,  ..., -4.4145e-07,
+          2.9374e-06,  1.2694e-06],
+        [ 7.7426e-05,  2.5362e-05,  1.4631e-06,  ...,  2.5015e-06,
+          1.8254e-05,  1.9316e-06],
+        ...,
+        [-2.1696e-05,  5.6289e-06,  3.8370e-07,  ...,  2.0023e-06,
+         -2.5839e-05,  2.3376e-07],
+        [ 5.6252e-06,  1.9595e-06, -7.4469e-06,  ..., -1.4119e-06,
+         -1.1846e-05, -1.4089e-05],
+        [ 8.2925e-06,  2.0545e-06,  5.8897e-06,  ...,  6.5193e-06,
+          7.8827e-06,  4.8950e-06]], device='cuda:0')
+Epoch 101, bias, value: tensor([ 0.0037,  0.0153,  0.0156, -0.0024,  0.0173, -0.0069, -0.0125, -0.0091,
+         0.0210, -0.0076], device='cuda:0'), grad: tensor([ 3.3826e-06, -1.5318e-05,  1.5402e-04, -1.1295e-04,  5.0366e-06,
+         2.3305e-05,  1.3031e-05, -6.3837e-05, -6.4850e-05,  5.8204e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 100----------------------------------------------------
+epoch 100, time 268.46, cls_loss 0.0034 cls_loss_mapping 0.0093 cls_loss_causal 0.5889 re_mapping 0.0071 re_causal 0.0225 /// teacc 99.09 lr 0.00010000
+Epoch 102, weight, value: tensor([[-9.7476e-02, -1.5566e-02,  1.2246e-01,  ...,  3.6668e-02,
+         -1.0234e-01, -9.5498e-02],
+        [-6.7772e-02, -7.0457e-02, -7.0759e-03,  ..., -6.8958e-02,
+         -7.3398e-02, -3.7248e-02],
+        [ 1.3051e-01, -3.3285e-02, -9.4475e-02,  ..., -7.8999e-02,
+         -9.8376e-02, -1.3857e-01],
+        ...,
+        [-3.7536e-02, -3.2772e-03, -9.1633e-02,  ..., -2.8687e-02,
+          4.2397e-02,  1.6970e-03],
+        [-9.5801e-02, -7.0848e-02, -1.4436e-02,  ..., -7.8969e-02,
+          7.6544e-05, -1.9684e-02],
+        [-3.0357e-02, -4.3802e-02, -3.3353e-02,  ...,  7.6568e-02,
+          2.9771e-02, -1.0947e-01]], device='cuda:0'), grad: tensor([[ 1.2340e-06,  1.0710e-06, -1.0312e-05,  ..., -4.5374e-06,
+          6.4727e-07,  6.9849e-07],
+        [ 1.7527e-06,  1.4789e-06,  8.1956e-07,  ...,  2.1793e-06,
+          1.3253e-06,  3.0175e-07],
+        [ 1.2472e-05,  1.1176e-05,  1.6773e-06,  ...,  1.2480e-06,
+          1.2768e-06,  1.3802e-06],
+        ...,
+        [ 6.5714e-06,  5.7369e-06,  4.3586e-07,  ...,  1.3169e-06,
+         -7.4413e-07,  6.3889e-07],
+        [ 4.1425e-06,  3.6154e-06,  1.9092e-06,  ...,  3.6806e-06,
+          3.9823e-06,  5.0105e-06],
+        [ 6.3367e-06,  5.6438e-06,  3.8184e-06,  ...,  4.4778e-06,
+          3.0119e-06,  3.0641e-06]], device='cuda:0')
+Epoch 102, bias, value: tensor([ 0.0041,  0.0149,  0.0154, -0.0013,  0.0185, -0.0077, -0.0116, -0.0088,
+         0.0199, -0.0086], device='cuda:0'), grad: tensor([-7.2494e-06,  3.6247e-06,  4.8876e-05, -1.1683e-04, -2.9519e-05,
+        -7.8008e-06,  9.5367e-06,  2.1443e-05,  3.5405e-05,  4.2528e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 101, time 251.57, cls_loss 0.0025 cls_loss_mapping 0.0069 cls_loss_causal 0.5556 re_mapping 0.0068 re_causal 0.0215 /// teacc 98.94 lr 0.00010000
+Epoch 103, weight, value: tensor([[-0.0978, -0.0156,  0.1233,  ...,  0.0368, -0.1028, -0.0959],
+        [-0.0681, -0.0708, -0.0070,  ..., -0.0694, -0.0739, -0.0374],
+        [ 0.1312, -0.0335, -0.0952,  ..., -0.0791, -0.0988, -0.1391],
+        ...,
+        [-0.0378, -0.0036, -0.0923,  ..., -0.0289,  0.0428,  0.0017],
+        [-0.0962, -0.0712, -0.0150,  ..., -0.0799, -0.0005, -0.0200],
+        [-0.0307, -0.0443, -0.0336,  ...,  0.0772,  0.0302, -0.1094]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09,  0.0000e+00, -8.1837e-05,  ..., -3.6716e-05,
+          1.1176e-08,  1.8906e-07],
+        [ 1.7695e-08,  0.0000e+00,  7.4506e-08,  ..., -2.1197e-06,
+          3.1274e-06,  4.2841e-07],
+        [-9.4995e-08,  0.0000e+00,  2.0638e-05,  ...,  9.3281e-06,
+          8.2981e-07,  1.5739e-07],
+        ...,
+        [ 2.5146e-08,  0.0000e+00,  7.8231e-07,  ...,  6.7316e-06,
+         -1.0483e-05,  9.4995e-08],
+        [ 2.0489e-08,  0.0000e+00,  1.8507e-05,  ...,  8.8662e-06,
+          1.6019e-07, -2.2072e-06],
+        [ 1.8626e-09,  0.0000e+00,  1.5229e-05,  ..., -1.1642e-06,
+         -3.4291e-06,  6.7241e-07]], device='cuda:0')
+Epoch 103, bias, value: tensor([ 0.0043,  0.0149,  0.0154, -0.0012,  0.0181, -0.0079, -0.0115, -0.0087,
+         0.0194, -0.0082], device='cuda:0'), grad: tensor([-1.2624e-04, -1.3947e-05,  3.7938e-05,  2.6777e-05,  6.5453e-06,
+         6.7241e-06,  3.5226e-05, -1.7181e-05,  2.4304e-05,  1.9908e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 102, time 251.68, cls_loss 0.0024 cls_loss_mapping 0.0074 cls_loss_causal 0.5858 re_mapping 0.0074 re_causal 0.0234 /// teacc 98.94 lr 0.00010000
+Epoch 104, weight, value: tensor([[-0.0983, -0.0157,  0.1239,  ...,  0.0370, -0.1034, -0.0964],
+        [-0.0683, -0.0711, -0.0072,  ..., -0.0697, -0.0744, -0.0379],
+        [ 0.1318, -0.0336, -0.0959,  ..., -0.0795, -0.0996, -0.1406],
+        ...,
+        [-0.0383, -0.0041, -0.0928,  ..., -0.0290,  0.0432,  0.0018],
+        [-0.0970, -0.0719, -0.0149,  ..., -0.0804, -0.0007, -0.0202],
+        [-0.0309, -0.0450, -0.0339,  ...,  0.0773,  0.0304, -0.1098]],
+       device='cuda:0'), grad: tensor([[ 6.2399e-08,  2.3022e-06, -4.2096e-07,  ..., -1.2852e-07,
+          1.4063e-06,  7.3388e-07],
+        [ 1.5832e-07,  1.3597e-06,  3.1665e-08,  ...,  2.3376e-07,
+          1.1222e-06,  4.4238e-07],
+        [-1.1688e-06,  3.4366e-07,  2.6077e-08,  ...,  1.4063e-07,
+          3.2410e-07,  1.2480e-07],
+        ...,
+        [ 4.9174e-07,  1.3486e-06,  1.6764e-08,  ...,  4.4145e-07,
+         -3.0082e-07,  4.2655e-07],
+        [-4.5355e-07,  5.0277e-05,  1.5739e-07,  ...,  3.2187e-06,
+          3.0965e-05,  1.8850e-05],
+        [ 9.2201e-08,  7.5400e-06,  2.3097e-07,  ..., -7.9423e-06,
+          2.1271e-06,  2.8014e-06]], device='cuda:0')
+Epoch 104, bias, value: tensor([ 0.0045,  0.0149,  0.0151, -0.0024,  0.0181, -0.0057, -0.0125, -0.0087,
+         0.0192, -0.0083], device='cuda:0'), grad: tensor([ 5.7369e-06,  4.5523e-06,  1.1725e-06,  6.3419e-04,  4.8578e-06,
+        -7.9107e-04,  3.2689e-06,  1.5665e-06,  1.3006e-04,  5.6773e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 103, time 251.52, cls_loss 0.0027 cls_loss_mapping 0.0075 cls_loss_causal 0.5576 re_mapping 0.0074 re_causal 0.0224 /// teacc 98.90 lr 0.00010000
+Epoch 105, weight, value: tensor([[-0.0991, -0.0159,  0.1242,  ...,  0.0371, -0.1042, -0.0972],
+        [-0.0685, -0.0715, -0.0074,  ..., -0.0696, -0.0746, -0.0377],
+        [ 0.1324, -0.0338, -0.0969,  ..., -0.0798, -0.1005, -0.1417],
+        ...,
+        [-0.0386, -0.0043, -0.0931,  ..., -0.0291,  0.0436,  0.0017],
+        [-0.0975, -0.0722, -0.0146,  ..., -0.0809, -0.0006, -0.0198],
+        [-0.0310, -0.0454, -0.0342,  ...,  0.0774,  0.0302, -0.1104]],
+       device='cuda:0'), grad: tensor([[ 8.8476e-08, -6.9477e-07, -1.3709e-05,  ..., -6.1207e-06,
+          1.9874e-06,  1.6335e-06],
+        [ 1.7136e-07,  1.3132e-07,  2.4904e-06,  ...,  8.2329e-07,
+          4.6864e-06,  5.7779e-06],
+        [-4.7218e-07,  2.9616e-07,  1.4622e-06,  ...,  8.7917e-07,
+          4.4797e-07,  4.5821e-07],
+        ...,
+        [ 4.1164e-07,  3.8370e-07,  8.7172e-07,  ...,  1.6717e-06,
+          5.6718e-07,  2.1048e-07],
+        [ 2.2911e-07,  3.5390e-07,  4.8280e-06,  ...,  6.7316e-06,
+          6.1952e-06,  4.0419e-06],
+        [ 1.1921e-07,  4.4424e-07,  5.0776e-06,  ..., -1.0565e-05,
+         -9.9614e-06, -9.6858e-07]], device='cuda:0')
+Epoch 105, bias, value: tensor([ 0.0043,  0.0141,  0.0164, -0.0027,  0.0184, -0.0061, -0.0123, -0.0087,
+         0.0198, -0.0087], device='cuda:0'), grad: tensor([-1.4886e-05,  8.8811e-06,  6.6794e-06,  1.7881e-05,  1.6913e-05,
+         1.2927e-05, -5.3823e-05,  5.7593e-06,  2.4125e-05, -2.4557e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 104, time 251.78, cls_loss 0.0025 cls_loss_mapping 0.0094 cls_loss_causal 0.5725 re_mapping 0.0071 re_causal 0.0211 /// teacc 98.94 lr 0.00010000
+Epoch 106, weight, value: tensor([[-0.0995, -0.0160,  0.1249,  ...,  0.0373, -0.1048, -0.0980],
+        [-0.0686, -0.0718, -0.0075,  ..., -0.0699, -0.0750, -0.0379],
+        [ 0.1334, -0.0349, -0.0972,  ..., -0.0801, -0.1005, -0.1420],
+        ...,
+        [-0.0395, -0.0045, -0.0939,  ..., -0.0294,  0.0439,  0.0016],
+        [-0.0977, -0.0740, -0.0147,  ..., -0.0820, -0.0010, -0.0202],
+        [-0.0312, -0.0457, -0.0346,  ...,  0.0775,  0.0302, -0.1108]],
+       device='cuda:0'), grad: tensor([[ 2.9150e-06, -2.7567e-07, -4.6156e-06,  ..., -1.3774e-06,
+          1.4948e-06,  7.2364e-07],
+        [ 1.5451e-06,  7.8790e-07,  2.7381e-07,  ...,  3.8017e-06,
+          4.2282e-06,  5.3924e-07],
+        [-1.1288e-05,  5.1670e-06,  6.5193e-07,  ...,  8.1304e-07,
+          1.1541e-05,  6.8732e-07],
+        ...,
+        [-3.4552e-06, -2.2516e-05,  1.0151e-07,  ...,  2.2259e-06,
+         -5.9545e-05,  3.2783e-07],
+        [ 1.2238e-06,  6.1374e-07,  2.1514e-07,  ...,  9.8497e-06,
+          4.8541e-06,  1.0580e-06],
+        [ 6.3423e-07,  1.2917e-06,  2.2836e-06,  ...,  1.9763e-06,
+          1.5154e-05,  4.7777e-07]], device='cuda:0')
+Epoch 106, bias, value: tensor([ 0.0045,  0.0141,  0.0163, -0.0029,  0.0187, -0.0055, -0.0125, -0.0085,
+         0.0190, -0.0089], device='cuda:0'), grad: tensor([ 6.4671e-06,  2.0027e-05,  8.3447e-06,  1.5008e-04, -7.2896e-05,
+        -7.2658e-05,  1.3918e-05, -1.4806e-04,  4.1395e-05,  5.3227e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 105, time 251.45, cls_loss 0.0024 cls_loss_mapping 0.0075 cls_loss_causal 0.5546 re_mapping 0.0072 re_causal 0.0213 /// teacc 98.99 lr 0.00010000
+Epoch 107, weight, value: tensor([[-0.0999, -0.0160,  0.1266,  ...,  0.0379, -0.1055, -0.0984],
+        [-0.0689, -0.0722, -0.0081,  ..., -0.0700, -0.0757, -0.0384],
+        [ 0.1344, -0.0349, -0.0982,  ..., -0.0805, -0.1010, -0.1419],
+        ...,
+        [-0.0400, -0.0046, -0.0945,  ..., -0.0301,  0.0439,  0.0018],
+        [-0.0981, -0.0736, -0.0145,  ..., -0.0824, -0.0012, -0.0202],
+        [-0.0314, -0.0468, -0.0357,  ...,  0.0777,  0.0306, -0.1120]],
+       device='cuda:0'), grad: tensor([[ 3.5502e-06,  9.5833e-07, -5.3644e-06,  ..., -2.9542e-06,
+          3.5036e-06,  1.5181e-06],
+        [ 4.5002e-06,  1.7909e-06,  4.3679e-07,  ...,  8.5011e-06,
+          3.7104e-05,  5.9232e-06],
+        [-2.3973e-04, -4.6939e-06,  1.4044e-06,  ..., -3.7193e-05,
+          1.0327e-05,  1.1940e-06],
+        ...,
+        [ 1.5711e-06, -2.6245e-06,  2.1420e-07,  ..., -5.0589e-06,
+         -8.0585e-05, -7.5847e-06],
+        [ 1.1504e-05, -1.0446e-05,  9.0431e-07,  ...,  2.8443e-06,
+          3.2317e-06, -8.3745e-06],
+        [ 2.2316e-04,  1.0222e-05,  2.2780e-06,  ...,  6.0380e-05,
+          2.0653e-05,  3.3807e-06]], device='cuda:0')
+Epoch 107, bias, value: tensor([ 0.0054,  0.0144,  0.0165, -0.0032,  0.0185, -0.0055, -0.0131, -0.0090,
+         0.0191, -0.0090], device='cuda:0'), grad: tensor([ 1.5706e-05,  1.7595e-04, -4.6372e-04,  1.8448e-05, -1.7792e-05,
+        -2.2054e-05,  2.1771e-05, -3.0494e-04, -1.5274e-05,  5.9080e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 106, time 251.77, cls_loss 0.0028 cls_loss_mapping 0.0092 cls_loss_causal 0.5830 re_mapping 0.0072 re_causal 0.0222 /// teacc 99.02 lr 0.00010000
+Epoch 108, weight, value: tensor([[-0.1003, -0.0160,  0.1248,  ...,  0.0379, -0.1064, -0.1015],
+        [-0.0683, -0.0725, -0.0084,  ..., -0.0703, -0.0765, -0.0388],
+        [ 0.1347, -0.0349, -0.0988,  ..., -0.0808, -0.1014, -0.1423],
+        ...,
+        [-0.0401, -0.0049, -0.0949,  ..., -0.0303,  0.0441,  0.0023],
+        [-0.0989, -0.0740, -0.0122,  ..., -0.0827, -0.0007, -0.0186],
+        [-0.0319, -0.0471, -0.0363,  ...,  0.0779,  0.0308, -0.1134]],
+       device='cuda:0'), grad: tensor([[ 1.0431e-07,  3.4459e-08, -6.1154e-05,  ..., -4.0203e-05,
+          3.2783e-07, -6.7893e-07],
+        [ 7.1712e-07,  1.1548e-07,  8.0746e-07,  ..., -6.0797e-05,
+          3.4645e-07,  9.9652e-08],
+        [-2.4326e-06,  1.4529e-07,  9.2760e-06,  ...,  6.8583e-06,
+          4.2748e-07,  2.2445e-07],
+        ...,
+        [ 9.4157e-07,  2.3749e-07,  2.9262e-06,  ...,  2.0489e-05,
+         -1.0310e-06, -1.6764e-07],
+        [ 2.9616e-07,  1.7323e-07,  8.9109e-06,  ...,  7.8306e-06,
+          1.0785e-06,  6.5286e-07],
+        [ 2.0489e-07,  4.5635e-08,  1.1809e-05,  ...,  1.7256e-05,
+         -6.5453e-06,  5.3924e-07]], device='cuda:0')
+Epoch 108, bias, value: tensor([ 0.0035,  0.0152,  0.0159, -0.0029,  0.0184, -0.0059, -0.0122, -0.0093,
+         0.0204, -0.0089], device='cuda:0'), grad: tensor([-1.1945e-04, -2.2042e-04,  1.9208e-05,  9.3356e-06,  7.5817e-05,
+         1.8269e-05,  3.1143e-05,  7.5340e-05,  2.7165e-05,  8.3268e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 107, time 251.76, cls_loss 0.0026 cls_loss_mapping 0.0076 cls_loss_causal 0.5618 re_mapping 0.0069 re_causal 0.0214 /// teacc 99.01 lr 0.00010000
+Epoch 109, weight, value: tensor([[-0.1007, -0.0159,  0.1258,  ...,  0.0377, -0.1069, -0.1017],
+        [-0.0695, -0.0728, -0.0085,  ..., -0.0708, -0.0771, -0.0390],
+        [ 0.1353, -0.0350, -0.0994,  ..., -0.0812, -0.1019, -0.1427],
+        ...,
+        [-0.0391, -0.0051, -0.0956,  ..., -0.0308,  0.0442,  0.0023],
+        [-0.0998, -0.0744, -0.0124,  ..., -0.0834, -0.0007, -0.0185],
+        [-0.0321, -0.0474, -0.0365,  ...,  0.0782,  0.0306, -0.1142]],
+       device='cuda:0'), grad: tensor([[ 2.8610e-06,  1.0394e-06, -3.6713e-06,  ..., -2.4028e-07,
+          1.3513e-06,  1.3784e-07],
+        [ 2.2687e-06,  7.0687e-07, -1.7043e-07,  ...,  3.0603e-06,
+          1.2713e-06,  6.3330e-08],
+        [-7.0870e-05,  1.6037e-06,  2.4121e-07,  ...,  9.2108e-07,
+          9.8068e-07,  6.6124e-08],
+        ...,
+        [ 6.1691e-05,  6.4038e-06,  3.3528e-07,  ...,  1.6401e-06,
+          3.5278e-06,  2.3283e-08],
+        [ 6.1318e-06,  2.6412e-06,  4.1164e-07,  ...,  4.8056e-06,
+          1.2796e-06, -7.4320e-07],
+        [ 6.7167e-06,  5.8189e-06,  2.0918e-06,  ..., -1.2779e-04,
+         -3.5703e-05,  4.2189e-07]], device='cuda:0')
+Epoch 109, bias, value: tensor([ 0.0036,  0.0138,  0.0159, -0.0025,  0.0188, -0.0064, -0.0123, -0.0082,
+         0.0206, -0.0090], device='cuda:0'), grad: tensor([ 6.3479e-06,  4.9323e-06, -1.2338e-04, -6.8665e-03,  1.4329e-04,
+         6.8130e-03,  6.3851e-06,  1.4269e-04,  1.7881e-05, -1.4460e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 108----------------------------------------------------
+epoch 108, time 268.22, cls_loss 0.0019 cls_loss_mapping 0.0063 cls_loss_causal 0.5519 re_mapping 0.0067 re_causal 0.0209 /// teacc 99.12 lr 0.00010000
+Epoch 110, weight, value: tensor([[-0.1011, -0.0160,  0.1267,  ...,  0.0383, -0.1076, -0.1019],
+        [-0.0696, -0.0732, -0.0086,  ..., -0.0710, -0.0773, -0.0391],
+        [ 0.1356, -0.0361, -0.0998,  ..., -0.0815, -0.1027, -0.1435],
+        ...,
+        [-0.0395, -0.0055, -0.0962,  ..., -0.0310,  0.0445,  0.0025],
+        [-0.1003, -0.0747, -0.0125,  ..., -0.0841, -0.0010, -0.0184],
+        [-0.0324, -0.0480, -0.0381,  ...,  0.0779,  0.0305, -0.1151]],
+       device='cuda:0'), grad: tensor([[ 3.6648e-07,  3.1665e-08, -7.2122e-05,  ..., -1.5289e-05,
+          8.0839e-07,  3.3900e-07],
+        [ 1.2061e-06,  3.8184e-08,  1.1986e-06,  ...,  2.2557e-06,
+          1.2023e-06,  1.3784e-07],
+        [-3.7663e-06,  8.8476e-08,  4.2617e-06,  ...,  1.5767e-06,
+          3.0510e-06,  3.9078e-06],
+        ...,
+        [ 1.2387e-06,  5.2061e-07,  6.6962e-07,  ...,  4.0270e-06,
+         -2.6450e-06,  1.9930e-07],
+        [ 3.7858e-07,  7.2177e-08,  4.2692e-06,  ...,  6.4149e-06,
+          3.3155e-06,  6.0583e-07],
+        [ 1.2200e-07,  1.5507e-07,  9.6560e-06,  ..., -1.6168e-05,
+         -1.0401e-05,  1.0477e-07]], device='cuda:0')
+Epoch 110, bias, value: tensor([ 0.0041,  0.0139,  0.0158, -0.0013,  0.0191, -0.0068, -0.0123, -0.0083,
+         0.0205, -0.0096], device='cuda:0'), grad: tensor([-9.4056e-05, -6.0126e-06,  1.1399e-05,  1.0885e-05,  1.5661e-05,
+         5.0575e-05,  1.1355e-05, -1.3243e-06,  2.0549e-05, -1.9073e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 109, time 251.23, cls_loss 0.0023 cls_loss_mapping 0.0066 cls_loss_causal 0.5749 re_mapping 0.0065 re_causal 0.0209 /// teacc 99.11 lr 0.00010000
+Epoch 111, weight, value: tensor([[-0.1018, -0.0158,  0.1284,  ...,  0.0387, -0.1073, -0.1020],
+        [-0.0700, -0.0733, -0.0082,  ..., -0.0711, -0.0778, -0.0388],
+        [ 0.1365, -0.0361, -0.1017,  ..., -0.0824, -0.1032, -0.1442],
+        ...,
+        [-0.0395, -0.0056, -0.0970,  ..., -0.0314,  0.0454,  0.0027],
+        [-0.1012, -0.0751, -0.0125,  ..., -0.0848, -0.0013, -0.0185],
+        [-0.0325, -0.0481, -0.0384,  ...,  0.0782,  0.0305, -0.1146]],
+       device='cuda:0'), grad: tensor([[ 2.6990e-06,  4.4703e-08, -2.7288e-07,  ...,  9.3132e-09,
+          1.3057e-06,  1.0254e-06],
+        [ 1.1688e-06,  6.9849e-08,  7.6368e-08,  ...,  1.0366e-06,
+          2.9821e-06,  6.3051e-07],
+        [-9.0674e-06,  4.0326e-07,  3.4645e-07,  ...,  8.1491e-07,
+          2.6003e-06,  1.5302e-06],
+        ...,
+        [ 5.6904e-07,  8.7544e-08,  5.3085e-08,  ..., -4.0174e-05,
+         -1.4234e-04, -5.2899e-05],
+        [ 3.4962e-06,  1.9651e-07,  4.7199e-06,  ...,  1.0906e-06,
+          3.7365e-06,  3.8929e-06],
+        [ 2.7753e-07,  5.5879e-08,  3.2783e-07,  ...,  3.6061e-05,
+          1.3340e-04,  5.1081e-05]], device='cuda:0')
+Epoch 111, bias, value: tensor([ 0.0047,  0.0146,  0.0161, -0.0016,  0.0188, -0.0072, -0.0126, -0.0085,
+         0.0199, -0.0096], device='cuda:0'), grad: tensor([ 9.3579e-06,  3.2596e-06, -6.9775e-06,  1.2323e-05,  2.7698e-06,
+         1.3426e-05, -1.3486e-05, -4.8065e-04,  1.5339e-06,  4.5800e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 110, time 251.25, cls_loss 0.0023 cls_loss_mapping 0.0069 cls_loss_causal 0.5397 re_mapping 0.0064 re_causal 0.0198 /// teacc 99.05 lr 0.00010000
+Epoch 112, weight, value: tensor([[-0.1025, -0.0167,  0.1285,  ...,  0.0388, -0.1080, -0.1023],
+        [-0.0701, -0.0736, -0.0083,  ..., -0.0714, -0.0787, -0.0393],
+        [ 0.1373, -0.0363, -0.1022,  ..., -0.0831, -0.1036, -0.1448],
+        ...,
+        [-0.0399, -0.0058, -0.0979,  ..., -0.0317,  0.0460,  0.0045],
+        [-0.1017, -0.0752, -0.0125,  ..., -0.0854, -0.0022, -0.0195],
+        [-0.0324, -0.0483, -0.0388,  ...,  0.0788,  0.0307, -0.1151]],
+       device='cuda:0'), grad: tensor([[ 1.3877e-07,  9.7789e-08, -8.8755e-07,  ...,  7.3574e-08,
+          9.3691e-07,  3.2317e-07],
+        [ 1.6764e-07,  4.2468e-07, -7.9442e-07,  ...,  3.1497e-06,
+          4.4517e-06,  6.6869e-07],
+        [ 6.8918e-07,  8.2236e-07,  9.0804e-07,  ...,  9.3412e-07,
+          1.3085e-06,  4.9546e-07],
+        ...,
+        [ 4.1071e-07,  5.4017e-07,  2.1607e-07,  ..., -9.6951e-07,
+         -6.6161e-06,  4.7963e-07],
+        [ 3.0920e-07,  3.4459e-07,  7.4506e-07,  ...,  5.7556e-06,
+          6.1747e-07,  1.0915e-06],
+        [ 5.1688e-07,  5.8208e-07,  3.7625e-07,  ..., -9.0301e-05,
+         -6.3956e-05,  1.9744e-07]], device='cuda:0')
+Epoch 112, bias, value: tensor([ 0.0044,  0.0147,  0.0160, -0.0026,  0.0184, -0.0060, -0.0127, -0.0081,
+         0.0192, -0.0093], device='cuda:0'), grad: tensor([ 2.6412e-06, -3.0734e-06,  2.0415e-05,  6.8638e-07,  1.7166e-04,
+         1.8388e-05, -7.3016e-06, -3.4034e-05, -4.2133e-06, -1.6510e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 111, time 251.21, cls_loss 0.0018 cls_loss_mapping 0.0063 cls_loss_causal 0.5464 re_mapping 0.0069 re_causal 0.0214 /// teacc 98.99 lr 0.00010000
+Epoch 113, weight, value: tensor([[-0.1030, -0.0167,  0.1289,  ...,  0.0391, -0.1090, -0.1027],
+        [-0.0706, -0.0738, -0.0083,  ..., -0.0719, -0.0794, -0.0398],
+        [ 0.1382, -0.0365, -0.1027,  ..., -0.0834, -0.1041, -0.1453],
+        ...,
+        [-0.0405, -0.0061, -0.0983,  ..., -0.0319,  0.0468,  0.0062],
+        [-0.1020, -0.0754, -0.0127,  ..., -0.0859, -0.0024, -0.0195],
+        [-0.0327, -0.0486, -0.0392,  ...,  0.0786,  0.0301, -0.1166]],
+       device='cuda:0'), grad: tensor([[ 4.6007e-07,  1.1269e-07,  5.5786e-07,  ...,  4.8149e-07,
+          4.5635e-07,  5.1688e-07],
+        [ 8.7731e-07,  3.9767e-07,  2.6356e-07,  ..., -1.2234e-05,
+          1.9297e-06,  9.8255e-07],
+        [-3.0920e-07,  1.2964e-06,  9.0897e-06,  ...,  4.3679e-07,
+          1.2014e-06,  5.3868e-06],
+        ...,
+        [ 1.9111e-06,  8.1398e-07,  9.4995e-08,  ...,  1.0490e-05,
+         -7.8008e-06, -7.3481e-07],
+        [ 1.0133e-06,  5.7928e-07,  1.7341e-06,  ...,  2.7008e-06,
+          1.2470e-06, -1.8720e-07],
+        [ 1.0189e-06,  1.1008e-06,  1.9465e-07,  ..., -2.5034e-05,
+         -8.1807e-06, -2.9933e-06]], device='cuda:0')
+Epoch 113, bias, value: tensor([ 0.0045,  0.0146,  0.0162, -0.0027,  0.0186, -0.0059, -0.0125, -0.0079,
+         0.0190, -0.0098], device='cuda:0'), grad: tensor([ 4.5747e-06, -3.2514e-05,  4.3064e-05, -5.1260e-06,  5.5462e-05,
+         1.2115e-05, -3.3587e-05,  3.8669e-06, -8.2999e-06, -3.9577e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 112, time 251.60, cls_loss 0.0023 cls_loss_mapping 0.0083 cls_loss_causal 0.5365 re_mapping 0.0068 re_causal 0.0206 /// teacc 98.90 lr 0.00010000
+Epoch 114, weight, value: tensor([[-0.1036, -0.0169,  0.1295,  ...,  0.0395, -0.1095, -0.1029],
+        [-0.0711, -0.0743, -0.0083,  ..., -0.0740, -0.0798, -0.0402],
+        [ 0.1394, -0.0367, -0.1033,  ..., -0.0837, -0.1026, -0.1452],
+        ...,
+        [-0.0407, -0.0065, -0.0989,  ..., -0.0324,  0.0463,  0.0057],
+        [-0.1024, -0.0758, -0.0128,  ..., -0.0866, -0.0022, -0.0193],
+        [-0.0335, -0.0491, -0.0396,  ...,  0.0791,  0.0302, -0.1168]],
+       device='cuda:0'), grad: tensor([[ 1.6559e-06,  4.7218e-07, -1.5469e-06,  ..., -1.8906e-07,
+          1.1669e-06,  6.2957e-07],
+        [ 2.2054e-05,  2.2221e-06,  7.5437e-08,  ...,  1.3206e-06,
+          2.2165e-06,  1.1930e-06],
+        [ 1.6958e-05,  3.8929e-06,  1.6391e-07,  ...,  1.5534e-06,
+          2.5649e-06,  4.6566e-07],
+        ...,
+        [-4.7922e-05,  1.6123e-05,  1.3970e-08,  ...,  3.7812e-06,
+          7.1637e-06,  1.5106e-06],
+        [ 5.4389e-06,  5.3607e-06, -1.3784e-07,  ...,  6.1058e-06,
+          5.6699e-06,  5.5321e-07],
+        [ 8.9407e-07,  8.2329e-07,  1.1148e-06,  ..., -7.6517e-06,
+         -6.4075e-06, -5.1446e-06]], device='cuda:0')
+Epoch 114, bias, value: tensor([ 0.0046,  0.0142,  0.0172, -0.0031,  0.0184, -0.0055, -0.0128, -0.0086,
+         0.0192, -0.0095], device='cuda:0'), grad: tensor([ 2.2560e-05,  2.7943e-04,  2.4915e-04,  1.2147e-04, -5.3197e-06,
+         3.0100e-05,  1.0006e-05, -7.4291e-04,  4.7207e-05, -1.1332e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 113, time 251.30, cls_loss 0.0019 cls_loss_mapping 0.0059 cls_loss_causal 0.5498 re_mapping 0.0065 re_causal 0.0209 /// teacc 98.97 lr 0.00010000
+Epoch 115, weight, value: tensor([[-0.1046, -0.0170,  0.1300,  ...,  0.0392, -0.1100, -0.1030],
+        [-0.0715, -0.0752, -0.0086,  ..., -0.0744, -0.0803, -0.0405],
+        [ 0.1402, -0.0369, -0.1037,  ..., -0.0837, -0.1029, -0.1458],
+        ...,
+        [-0.0413, -0.0068, -0.0994,  ..., -0.0327,  0.0470,  0.0067],
+        [-0.1030, -0.0763, -0.0129,  ..., -0.0870, -0.0026, -0.0193],
+        [-0.0337, -0.0493, -0.0399,  ...,  0.0795,  0.0301, -0.1173]],
+       device='cuda:0'), grad: tensor([[ 6.6590e-07,  1.9651e-07, -1.3364e-06,  ..., -8.5216e-07,
+          1.4333e-06,  1.4119e-06],
+        [ 1.3122e-06,  8.4843e-07,  5.1782e-07,  ...,  6.6403e-07,
+          8.3297e-06,  1.0587e-05],
+        [ 5.0925e-06,  3.1181e-06,  4.0606e-07,  ...,  9.2573e-07,
+          6.5379e-06,  8.7097e-06],
+        ...,
+        [ 2.4326e-06,  1.9036e-06,  2.3283e-07,  ...,  6.6794e-06,
+          3.1646e-06,  7.9256e-07],
+        [ 5.4482e-07,  5.6066e-07,  1.1459e-05,  ...,  1.1744e-06,
+          6.0678e-05,  6.7651e-05],
+        [ 6.9942e-07, -1.3011e-06,  3.6880e-07,  ..., -1.0431e-05,
+         -7.5847e-06, -6.1467e-08]], device='cuda:0')
+Epoch 115, bias, value: tensor([ 0.0044,  0.0141,  0.0175, -0.0032,  0.0184, -0.0053, -0.0131, -0.0085,
+         0.0189, -0.0095], device='cuda:0'), grad: tensor([ 4.2245e-06,  5.1737e-05,  5.8323e-05, -1.7345e-05,  6.2168e-05,
+        -2.4331e-04, -1.3661e-04,  1.9237e-05,  2.1255e-04, -1.1489e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 114, time 250.87, cls_loss 0.0031 cls_loss_mapping 0.0085 cls_loss_causal 0.5928 re_mapping 0.0061 re_causal 0.0200 /// teacc 98.92 lr 0.00010000
+Epoch 116, weight, value: tensor([[-0.1050, -0.0173,  0.1309,  ...,  0.0400, -0.1109, -0.1033],
+        [-0.0726, -0.0759, -0.0087,  ..., -0.0745, -0.0809, -0.0407],
+        [ 0.1398, -0.0385, -0.1044,  ..., -0.0841, -0.1042, -0.1462],
+        ...,
+        [-0.0397, -0.0052, -0.1002,  ..., -0.0328,  0.0477,  0.0068],
+        [-0.1037, -0.0767, -0.0131,  ..., -0.0876, -0.0028, -0.0195],
+        [-0.0342, -0.0498, -0.0422,  ...,  0.0790,  0.0300, -0.1178]],
+       device='cuda:0'), grad: tensor([[ 7.1339e-07,  3.1665e-08, -2.2352e-07,  ...,  1.2107e-07,
+          5.4482e-07,  5.4855e-07],
+        [ 1.2238e-06,  6.9849e-08,  4.0047e-08,  ...,  6.2771e-07,
+          7.2923e-07,  4.1630e-07],
+        [-6.9328e-06,  6.6124e-08,  1.2852e-07,  ...,  8.3167e-07,
+          7.8324e-07,  4.2096e-07],
+        ...,
+        [ 7.1619e-07,  9.2201e-08,  2.9802e-08,  ...,  7.6462e-07,
+         -1.2843e-06,  8.7544e-08],
+        [ 1.7555e-06,  5.1223e-08,  5.7742e-08,  ...,  6.4448e-07,
+          2.8107e-06,  3.2876e-06],
+        [ 2.0862e-07,  6.9849e-08,  1.2107e-07,  ...,  3.3434e-06,
+          1.8505e-06,  9.2573e-07]], device='cuda:0')
+Epoch 116, bias, value: tensor([ 0.0051,  0.0153,  0.0161, -0.0025,  0.0189, -0.0052, -0.0129, -0.0082,
+         0.0187, -0.0106], device='cuda:0'), grad: tensor([ 3.1032e-06,  2.0601e-06, -5.8301e-06,  7.7114e-06, -2.1875e-05,
+        -2.2560e-05,  1.5423e-05, -1.3513e-06,  1.2144e-05,  1.1064e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 115, time 251.00, cls_loss 0.0040 cls_loss_mapping 0.0106 cls_loss_causal 0.5624 re_mapping 0.0067 re_causal 0.0198 /// teacc 99.01 lr 0.00010000
+Epoch 117, weight, value: tensor([[-0.1059, -0.0174,  0.1311,  ...,  0.0397, -0.1117, -0.1037],
+        [-0.0730, -0.0762, -0.0088,  ..., -0.0750, -0.0817, -0.0428],
+        [ 0.1407, -0.0385, -0.1048,  ..., -0.0855, -0.1047, -0.1461],
+        ...,
+        [-0.0397, -0.0054, -0.1013,  ..., -0.0340,  0.0480,  0.0068],
+        [-0.1050, -0.0770, -0.0130,  ..., -0.0886, -0.0030, -0.0185],
+        [-0.0343, -0.0498, -0.0426,  ...,  0.0815,  0.0308, -0.1181]],
+       device='cuda:0'), grad: tensor([[ 5.4762e-07, -2.5705e-07, -2.9597e-06,  ...,  1.4693e-05,
+          1.5512e-05,  5.8115e-07],
+        [ 9.6764e-07,  5.3737e-07,  9.7137e-07,  ...,  4.5858e-06,
+          2.8983e-06,  1.4901e-07],
+        [ 4.6380e-06,  3.0752e-06,  5.0217e-06,  ...,  1.1586e-05,
+          9.1791e-06,  2.2259e-07],
+        ...,
+        [ 1.2340e-06,  7.5251e-07,  4.0978e-06,  ...,  1.6615e-05,
+          9.9465e-06,  1.0803e-07],
+        [ 4.6100e-07,  3.3434e-07,  4.0680e-05,  ...,  1.1390e-04,
+          9.5129e-05,  1.5832e-08],
+        [ 5.5041e-07,  3.7067e-07, -1.0335e-04,  ..., -2.7847e-04,
+         -2.5177e-04,  2.4494e-07]], device='cuda:0')
+Epoch 117, bias, value: tensor([ 0.0047,  0.0144,  0.0163, -0.0030,  0.0167, -0.0051, -0.0132, -0.0078,
+         0.0197, -0.0085], device='cuda:0'), grad: tensor([ 8.5473e-05,  1.7300e-05,  7.5579e-05,  9.2611e-06,  7.3373e-05,
+         5.6028e-04,  4.8071e-05,  7.9989e-05,  6.0320e-04, -1.5526e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 116, time 251.16, cls_loss 0.0022 cls_loss_mapping 0.0068 cls_loss_causal 0.5564 re_mapping 0.0063 re_causal 0.0201 /// teacc 98.99 lr 0.00010000
+Epoch 118, weight, value: tensor([[-0.1068, -0.0175,  0.1313,  ...,  0.0398, -0.1124, -0.1038],
+        [-0.0732, -0.0765, -0.0093,  ..., -0.0752, -0.0824, -0.0430],
+        [ 0.1416, -0.0386, -0.1054,  ..., -0.0862, -0.1051, -0.1464],
+        ...,
+        [-0.0398, -0.0055, -0.1020,  ..., -0.0344,  0.0484,  0.0070],
+        [-0.1053, -0.0772, -0.0131,  ..., -0.0892, -0.0034, -0.0186],
+        [-0.0347, -0.0499, -0.0428,  ...,  0.0812,  0.0304, -0.1186]],
+       device='cuda:0'), grad: tensor([[ 7.7300e-08,  1.5926e-07,  1.5390e-04,  ..., -3.1944e-07,
+          2.9624e-05,  7.5996e-05],
+        [ 1.8161e-07,  2.9616e-07, -5.1595e-07,  ...,  1.4044e-06,
+          3.2000e-06,  1.2089e-06],
+        [ 8.3167e-07,  2.6356e-07,  3.0696e-06,  ...,  2.3842e-07,
+          2.9951e-06,  2.1961e-06],
+        ...,
+        [-1.5795e-05,  1.3597e-07,  5.4296e-07,  ..., -4.8466e-06,
+         -4.6432e-05, -3.6974e-06],
+        [ 5.6811e-08,  1.5814e-06,  1.7658e-06,  ...,  2.9057e-07,
+          2.2314e-06,  3.9786e-06],
+        [ 5.4948e-07,  3.4273e-07,  1.6419e-06,  ...,  3.8017e-06,
+          6.9179e-06,  1.7611e-06]], device='cuda:0')
+Epoch 118, bias, value: tensor([ 0.0044,  0.0142,  0.0163, -0.0018,  0.0171, -0.0062, -0.0133, -0.0076,
+         0.0197, -0.0089], device='cuda:0'), grad: tensor([ 3.4785e-04,  1.4938e-06,  1.6168e-05,  7.9274e-05,  1.0997e-05,
+         1.1332e-05, -3.7193e-04, -1.4794e-04,  1.9863e-05,  3.3379e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 117, time 251.11, cls_loss 0.0017 cls_loss_mapping 0.0059 cls_loss_causal 0.5639 re_mapping 0.0065 re_causal 0.0206 /// teacc 99.09 lr 0.00010000
+Epoch 119, weight, value: tensor([[-0.1073, -0.0176,  0.1315,  ...,  0.0400, -0.1130, -0.1043],
+        [-0.0735, -0.0767, -0.0094,  ..., -0.0756, -0.0828, -0.0431],
+        [ 0.1429, -0.0387, -0.1062,  ..., -0.0865, -0.1055, -0.1463],
+        ...,
+        [-0.0401, -0.0056, -0.1023,  ..., -0.0348,  0.0488,  0.0069],
+        [-0.1055, -0.0774, -0.0132,  ..., -0.0900, -0.0037, -0.0187],
+        [-0.0371, -0.0500, -0.0430,  ...,  0.0811,  0.0304, -0.1193]],
+       device='cuda:0'), grad: tensor([[ 7.7393e-07,  8.3819e-09, -5.5954e-06,  ..., -1.3150e-06,
+          8.9593e-07,  3.2969e-07],
+        [ 4.0159e-06,  3.6322e-08,  2.3991e-06,  ...,  7.7765e-07,
+          4.2766e-06,  3.4831e-07],
+        [-2.0638e-05,  7.7300e-08,  7.9256e-07,  ...,  4.5076e-07,
+          1.3761e-05,  4.4517e-07],
+        ...,
+        [-2.2128e-05,  4.1910e-08,  1.3318e-07,  ...,  2.2016e-06,
+         -2.2948e-05, -1.2759e-07],
+        [ 1.7462e-06,  1.4901e-08,  8.2701e-07,  ...,  2.8461e-06,
+         -2.4028e-06, -2.3171e-06],
+        [ 5.5507e-07,  3.1665e-08,  3.8743e-07,  ..., -3.9078e-06,
+         -1.8422e-06,  3.4459e-07]], device='cuda:0')
+Epoch 119, bias, value: tensor([ 0.0043,  0.0142,  0.0167, -0.0021,  0.0174, -0.0061, -0.0130, -0.0077,
+         0.0198, -0.0092], device='cuda:0'), grad: tensor([-5.3346e-06,  2.3633e-05,  2.4825e-05,  5.3883e-05, -5.7928e-07,
+         1.4603e-05,  5.3234e-06, -9.9719e-05, -1.0028e-05, -6.6347e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 118, time 251.15, cls_loss 0.0018 cls_loss_mapping 0.0064 cls_loss_causal 0.5562 re_mapping 0.0064 re_causal 0.0202 /// teacc 99.00 lr 0.00010000
+Epoch 120, weight, value: tensor([[-0.1078, -0.0179,  0.1319,  ...,  0.0402, -0.1134, -0.1044],
+        [-0.0737, -0.0770, -0.0100,  ..., -0.0772, -0.0834, -0.0438],
+        [ 0.1433, -0.0389, -0.1067,  ..., -0.0873, -0.1057, -0.1468],
+        ...,
+        [-0.0403, -0.0059, -0.1029,  ..., -0.0357,  0.0488,  0.0069],
+        [-0.1059, -0.0775, -0.0132,  ..., -0.0908, -0.0037, -0.0186],
+        [-0.0371, -0.0502, -0.0432,  ...,  0.0811,  0.0304, -0.1197]],
+       device='cuda:0'), grad: tensor([[ 1.1176e-07,  2.0489e-08, -2.1651e-05,  ..., -1.3866e-05,
+          2.8871e-07,  8.4750e-08],
+        [ 4.0699e-07,  6.5193e-08,  1.1828e-07,  ..., -2.0023e-07,
+          3.6508e-07,  6.7055e-08],
+        [-1.0533e-06,  1.0803e-07,  1.0403e-06,  ...,  9.1270e-07,
+          8.6054e-07,  2.0768e-07],
+        ...,
+        [ 2.7660e-07,  7.2643e-08,  2.5425e-07,  ...,  6.0536e-07,
+         -1.1865e-06,  4.1910e-08],
+        [ 4.0513e-07, -8.0094e-08,  5.1446e-06,  ...,  3.8147e-06,
+         -5.2862e-06, -1.2098e-06],
+        [ 3.0361e-07,  1.7602e-07,  1.2085e-05,  ...,  1.1235e-05,
+          2.1327e-06,  1.5367e-07]], device='cuda:0')
+Epoch 120, bias, value: tensor([ 0.0044,  0.0143,  0.0166, -0.0024,  0.0179, -0.0060, -0.0134, -0.0081,
+         0.0200, -0.0093], device='cuda:0'), grad: tensor([-2.8312e-05, -1.0028e-05,  6.5304e-06,  5.1707e-06, -6.9775e-06,
+         1.8612e-05,  5.8934e-06, -5.9344e-06, -1.5870e-05,  3.0905e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 119, time 251.45, cls_loss 0.0018 cls_loss_mapping 0.0048 cls_loss_causal 0.5526 re_mapping 0.0061 re_causal 0.0193 /// teacc 99.00 lr 0.00010000
+Epoch 121, weight, value: tensor([[-0.1084, -0.0180,  0.1323,  ...,  0.0405, -0.1140, -0.1045],
+        [-0.0744, -0.0772, -0.0101,  ..., -0.0760, -0.0840, -0.0440],
+        [ 0.1441, -0.0392, -0.1071,  ..., -0.0876, -0.1060, -0.1468],
+        ...,
+        [-0.0405, -0.0060, -0.1032,  ..., -0.0368,  0.0494,  0.0071],
+        [-0.1063, -0.0777, -0.0137,  ..., -0.0924, -0.0043, -0.0189],
+        [-0.0374, -0.0505, -0.0435,  ...,  0.0810,  0.0300, -0.1203]],
+       device='cuda:0'), grad: tensor([[ 3.5148e-06,  1.4901e-08,  2.2985e-06,  ...,  2.1327e-07,
+          3.1106e-07,  3.1386e-07],
+        [ 2.9523e-07,  6.0536e-08,  1.9092e-07,  ..., -3.1292e-07,
+          2.8498e-07,  1.7416e-07],
+        [-8.4750e-08,  1.0710e-07,  8.2795e-07,  ...,  3.8650e-07,
+          2.3469e-07,  3.2783e-07],
+        ...,
+        [ 5.1409e-07,  4.8429e-08,  2.9337e-07,  ...,  3.8184e-07,
+         -8.1677e-07,  2.0489e-08],
+        [ 1.2303e-06,  6.3330e-08,  1.2033e-06,  ...,  3.5763e-07,
+          4.7870e-07,  4.7777e-07],
+        [ 3.8058e-05,  1.3597e-07,  2.7806e-05,  ...,  2.5723e-06,
+          7.5437e-08,  9.7789e-08]], device='cuda:0')
+Epoch 121, bias, value: tensor([ 0.0045,  0.0150,  0.0168, -0.0026,  0.0182, -0.0059, -0.0131, -0.0086,
+         0.0195, -0.0097], device='cuda:0'), grad: tensor([ 1.9655e-05, -1.1094e-05,  6.9812e-06,  1.2726e-05,  3.3826e-06,
+        -2.4390e-04, -2.4438e-06,  2.6543e-06,  7.1079e-06,  2.0456e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 120, time 250.94, cls_loss 0.0024 cls_loss_mapping 0.0064 cls_loss_causal 0.5702 re_mapping 0.0057 re_causal 0.0194 /// teacc 98.99 lr 0.00010000
+Epoch 122, weight, value: tensor([[-0.1088, -0.0180,  0.1327,  ...,  0.0405, -0.1144, -0.1046],
+        [-0.0747, -0.0774, -0.0100,  ..., -0.0761, -0.0844, -0.0442],
+        [ 0.1444, -0.0393, -0.1077,  ..., -0.0882, -0.1063, -0.1473],
+        ...,
+        [-0.0405, -0.0061, -0.1039,  ..., -0.0370,  0.0497,  0.0072],
+        [-0.1064, -0.0778, -0.0139,  ..., -0.0934, -0.0046, -0.0191],
+        [-0.0377, -0.0507, -0.0437,  ...,  0.0809,  0.0301, -0.1207]],
+       device='cuda:0'), grad: tensor([[ 5.2340e-07,  0.0000e+00, -4.9826e-07,  ...,  1.8440e-07,
+          4.0513e-07,  4.9360e-08],
+        [ 8.7917e-07,  1.8626e-09,  2.1420e-08,  ...,  6.6217e-07,
+          8.3260e-07,  1.4901e-08],
+        [-5.4203e-06,  2.7940e-09,  6.8918e-08,  ...,  4.6100e-07,
+          4.8336e-07,  4.0047e-08],
+        ...,
+        [ 9.9838e-07,  1.8626e-09,  3.6322e-08,  ...,  8.3633e-07,
+         -5.0105e-07,  8.3819e-09],
+        [ 1.5264e-06,  9.3132e-10,  1.0524e-07,  ...,  3.7681e-06,
+          3.0845e-06,  7.9162e-08],
+        [ 3.8184e-08,  9.3132e-10,  1.7136e-07,  ...,  4.3869e-05,
+          3.6001e-05,  1.9558e-08]], device='cuda:0')
+Epoch 122, bias, value: tensor([ 0.0045,  0.0147,  0.0162, -0.0027,  0.0187, -0.0058, -0.0132, -0.0080,
+         0.0191, -0.0102], device='cuda:0'), grad: tensor([ 1.3877e-06,  2.2762e-06, -6.5863e-06,  6.0275e-06, -1.0997e-04,
+        -1.5907e-06,  2.5675e-05, -1.2508e-06,  1.3806e-05,  7.0333e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 121, time 251.26, cls_loss 0.0017 cls_loss_mapping 0.0041 cls_loss_causal 0.5591 re_mapping 0.0061 re_causal 0.0195 /// teacc 98.90 lr 0.00010000
+Epoch 123, weight, value: tensor([[-0.1096, -0.0181,  0.1324,  ...,  0.0405, -0.1151, -0.1054],
+        [-0.0749, -0.0775, -0.0110,  ..., -0.0762, -0.0848, -0.0446],
+        [ 0.1451, -0.0393, -0.1081,  ..., -0.0887, -0.1066, -0.1477],
+        ...,
+        [-0.0409, -0.0062, -0.1048,  ..., -0.0374,  0.0501,  0.0073],
+        [-0.1073, -0.0779, -0.0143,  ..., -0.0939, -0.0051, -0.0193],
+        [-0.0379, -0.0507, -0.0440,  ...,  0.0809,  0.0300, -0.1210]],
+       device='cuda:0'), grad: tensor([[ 1.2526e-06,  3.1665e-08, -4.6305e-06,  ..., -3.0342e-06,
+          6.2771e-07,  1.7043e-07],
+        [ 1.2852e-06,  1.0058e-07, -1.3597e-07,  ..., -3.6974e-07,
+          2.2631e-06,  1.3039e-08],
+        [-1.1288e-05,  2.0489e-07,  6.1281e-07,  ...,  4.1816e-07,
+          8.3074e-06,  3.5390e-08],
+        ...,
+        [ 4.9882e-06,  9.4995e-08,  2.7101e-07,  ...,  7.5717e-07,
+         -3.4552e-06,  7.4506e-09],
+        [-4.2841e-06,  7.7020e-07,  3.3528e-07,  ...,  4.2655e-07,
+         -1.7568e-05,  7.4506e-09],
+        [ 8.5868e-07,  1.2480e-07,  2.9653e-06,  ...,  1.5181e-07,
+          1.4296e-06,  2.6077e-08]], device='cuda:0')
+Epoch 123, bias, value: tensor([ 0.0042,  0.0149,  0.0164, -0.0030,  0.0188, -0.0054, -0.0123, -0.0083,
+         0.0193, -0.0104], device='cuda:0'), grad: tensor([ 4.7758e-06,  1.7419e-05,  4.8518e-05,  4.0174e-05,  2.2247e-05,
+         5.1022e-05,  1.7017e-05,  4.1127e-06, -2.6751e-04,  6.2168e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 122, time 251.47, cls_loss 0.0019 cls_loss_mapping 0.0052 cls_loss_causal 0.5382 re_mapping 0.0056 re_causal 0.0188 /// teacc 99.00 lr 0.00010000
+Epoch 124, weight, value: tensor([[-0.1113, -0.0179,  0.1341,  ...,  0.0411, -0.1137, -0.1048],
+        [-0.0752, -0.0778, -0.0116,  ..., -0.0764, -0.0859, -0.0448],
+        [ 0.1457, -0.0395, -0.1092,  ..., -0.0897, -0.1072, -0.1480],
+        ...,
+        [-0.0411, -0.0064, -0.1070,  ..., -0.0382,  0.0503,  0.0073],
+        [-0.1075, -0.0782, -0.0146,  ..., -0.0950, -0.0054, -0.0195],
+        [-0.0374, -0.0510, -0.0445,  ...,  0.0809,  0.0299, -0.1212]],
+       device='cuda:0'), grad: tensor([[ 2.2035e-06,  1.7695e-08, -8.8383e-07,  ..., -2.8498e-07,
+          1.5004e-06,  8.9779e-07],
+        [ 1.9334e-06,  4.2841e-08,  1.7788e-07,  ...,  1.5674e-06,
+          8.1025e-07,  1.9372e-07],
+        [-4.0084e-05,  7.6368e-08,  5.7183e-07,  ...,  7.7486e-07,
+          5.2527e-07,  1.8068e-07],
+        ...,
+        [ 2.3797e-05,  1.5087e-07,  2.9616e-07,  ...,  2.8070e-06,
+          1.1064e-06,  5.3085e-08],
+        [ 8.5309e-06,  1.2573e-07,  3.9451e-06,  ...,  1.0878e-06,
+          2.5723e-06,  1.8850e-06],
+        [ 2.8778e-07,  5.0291e-08,  8.0839e-07,  ...,  2.7031e-05,
+          1.2375e-05,  8.4750e-08]], device='cuda:0')
+Epoch 124, bias, value: tensor([ 0.0054,  0.0149,  0.0161, -0.0033,  0.0189, -0.0058, -0.0121, -0.0084,
+         0.0196, -0.0105], device='cuda:0'), grad: tensor([ 8.9630e-06, -2.7977e-06, -1.1486e-04,  6.7540e-06, -6.3419e-05,
+         2.8625e-05, -2.9713e-05,  8.0705e-05,  3.5167e-05,  5.0604e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 123, time 251.66, cls_loss 0.0016 cls_loss_mapping 0.0058 cls_loss_causal 0.5395 re_mapping 0.0063 re_causal 0.0199 /// teacc 99.02 lr 0.00010000
+Epoch 125, weight, value: tensor([[-0.1128, -0.0179,  0.1347,  ...,  0.0413, -0.1141, -0.1048],
+        [-0.0755, -0.0780, -0.0118,  ..., -0.0766, -0.0864, -0.0449],
+        [ 0.1468, -0.0396, -0.1098,  ..., -0.0901, -0.1074, -0.1481],
+        ...,
+        [-0.0407, -0.0065, -0.1078,  ..., -0.0391,  0.0503,  0.0072],
+        [-0.1088, -0.0784, -0.0146,  ..., -0.0958, -0.0058, -0.0196],
+        [-0.0405, -0.0512, -0.0448,  ...,  0.0809,  0.0300, -0.1212]],
+       device='cuda:0'), grad: tensor([[ 6.1467e-08,  7.4506e-09,  1.8440e-07,  ...,  7.4506e-08,
+          3.9116e-07,  3.4552e-07],
+        [ 2.1700e-07,  3.0734e-08,  6.1467e-08,  ...,  8.8476e-08,
+          9.4995e-07,  7.9162e-08],
+        [-6.0815e-07,  9.0338e-08,  7.8231e-08,  ...,  9.2201e-08,
+          2.9989e-07,  8.0094e-08],
+        ...,
+        [ 4.5355e-07, -1.3970e-08,  6.5193e-09,  ...,  4.9733e-07,
+         -3.8929e-06,  2.7940e-08],
+        [ 6.9849e-08,  3.5390e-08,  2.8592e-07,  ...,  5.9605e-07,
+          6.2678e-07,  4.0885e-07],
+        [ 4.7497e-08,  4.0047e-08,  5.8673e-08,  ...,  1.6481e-05,
+          9.0674e-06,  1.0431e-07]], device='cuda:0')
+Epoch 125, bias, value: tensor([ 0.0056,  0.0149,  0.0163, -0.0037,  0.0192, -0.0059, -0.0120, -0.0083,
+         0.0191, -0.0108], device='cuda:0'), grad: tensor([ 1.6456e-06,  1.3346e-06,  7.9721e-07,  2.2035e-06, -3.4273e-05,
+        -2.6673e-06, -1.7257e-06, -1.5169e-05,  3.6247e-06,  4.4167e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 124, time 251.28, cls_loss 0.0018 cls_loss_mapping 0.0060 cls_loss_causal 0.5423 re_mapping 0.0061 re_causal 0.0193 /// teacc 98.95 lr 0.00010000
+Epoch 126, weight, value: tensor([[-0.1138, -0.0181,  0.1353,  ...,  0.0415, -0.1145, -0.1049],
+        [-0.0759, -0.0781, -0.0118,  ..., -0.0768, -0.0870, -0.0449],
+        [ 0.1475, -0.0397, -0.1102,  ..., -0.0906, -0.1076, -0.1483],
+        ...,
+        [-0.0410, -0.0072, -0.1084,  ..., -0.0387,  0.0516,  0.0073],
+        [-0.1091, -0.0785, -0.0147,  ..., -0.0967, -0.0060, -0.0197],
+        [-0.0405, -0.0515, -0.0454,  ...,  0.0808,  0.0297, -0.1214]],
+       device='cuda:0'), grad: tensor([[ 1.9465e-07, -9.3132e-09, -1.4482e-06,  ...,  1.4985e-06,
+          6.8173e-07,  2.9989e-07],
+        [ 3.3155e-07,  9.1270e-08,  1.5739e-07,  ...,  1.2312e-06,
+          7.9069e-07,  5.4948e-08],
+        [-6.0536e-07,  3.4366e-07,  9.6858e-08,  ...,  5.4482e-07,
+          2.7139e-06,  9.3132e-08],
+        ...,
+        [-5.0757e-07, -4.3306e-07,  2.3842e-07,  ...,  8.8811e-06,
+         -2.5108e-06,  2.5146e-08],
+        [ 2.3283e-07,  6.2399e-08, -3.0383e-05,  ...,  2.7716e-06,
+         -1.3486e-05, -1.7524e-05],
+        [ 6.5193e-08,  7.1712e-08,  1.1576e-06,  ..., -4.3452e-05,
+         -6.2287e-06,  2.6263e-07]], device='cuda:0')
+Epoch 126, bias, value: tensor([ 0.0057,  0.0148,  0.0165, -0.0036,  0.0193, -0.0061, -0.0120, -0.0080,
+         0.0195, -0.0114], device='cuda:0'), grad: tensor([ 5.1074e-06,  7.3854e-07,  7.9423e-06,  1.2934e-05,  5.7489e-05,
+         2.1502e-05,  5.8144e-05,  1.0341e-05, -8.1360e-05, -9.2745e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 125, time 251.17, cls_loss 0.0020 cls_loss_mapping 0.0061 cls_loss_causal 0.5413 re_mapping 0.0061 re_causal 0.0189 /// teacc 98.90 lr 0.00010000
+Epoch 127, weight, value: tensor([[-0.1156, -0.0186,  0.1355,  ...,  0.0416, -0.1154, -0.1052],
+        [-0.0761, -0.0787, -0.0122,  ..., -0.0772, -0.0876, -0.0452],
+        [ 0.1481, -0.0398, -0.1100,  ..., -0.0911, -0.1079, -0.1486],
+        ...,
+        [-0.0412, -0.0077, -0.1091,  ..., -0.0391,  0.0517,  0.0069],
+        [-0.1096, -0.0791, -0.0153,  ..., -0.0975, -0.0065, -0.0198],
+        [-0.0406, -0.0519, -0.0457,  ...,  0.0817,  0.0306, -0.1217]],
+       device='cuda:0'), grad: tensor([[ 4.5355e-07,  3.7253e-09, -2.2929e-06,  ..., -9.3412e-07,
+          2.4382e-06,  2.5760e-06],
+        [ 5.0291e-08,  3.7253e-09,  3.2969e-07,  ...,  8.3260e-07,
+          8.9221e-07,  5.3179e-07],
+        [ 1.1520e-06,  5.5879e-09,  2.5313e-06,  ...,  8.2701e-07,
+          9.8124e-06,  1.0349e-05],
+        ...,
+        [ 1.2852e-07,  7.4506e-09,  5.3551e-07,  ...,  3.4589e-06,
+          1.7993e-06,  3.9674e-07],
+        [ 1.7975e-07,  6.5193e-09,  9.0152e-07,  ...,  1.0421e-06,
+         -4.1127e-06, -1.0198e-06],
+        [ 2.2817e-07,  3.7253e-09,  1.0822e-06,  ...,  4.6529e-06,
+          3.6471e-06,  1.8757e-06]], device='cuda:0')
+Epoch 127, bias, value: tensor([ 0.0055,  0.0147,  0.0166, -0.0035,  0.0186, -0.0056, -0.0120, -0.0080,
+         0.0190, -0.0107], device='cuda:0'), grad: tensor([ 6.3777e-06, -3.3863e-06,  3.3945e-05,  3.8475e-05,  7.3910e-06,
+        -9.3803e-06, -6.5148e-05,  1.4067e-05, -6.8188e-05,  4.5836e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 126, time 250.98, cls_loss 0.0020 cls_loss_mapping 0.0053 cls_loss_causal 0.5343 re_mapping 0.0062 re_causal 0.0194 /// teacc 98.94 lr 0.00010000
+Epoch 128, weight, value: tensor([[-0.1166, -0.0187,  0.1358,  ...,  0.0418, -0.1164, -0.1055],
+        [-0.0763, -0.0789, -0.0117,  ..., -0.0776, -0.0903, -0.0453],
+        [ 0.1496, -0.0400, -0.1107,  ..., -0.0919, -0.1083, -0.1489],
+        ...,
+        [-0.0420, -0.0080, -0.1098,  ..., -0.0396,  0.0530,  0.0069],
+        [-0.1112, -0.0794, -0.0157,  ..., -0.0983, -0.0068, -0.0199],
+        [-0.0405, -0.0521, -0.0460,  ...,  0.0814,  0.0304, -0.1219]],
+       device='cuda:0'), grad: tensor([[ 6.7428e-07,  7.2177e-07, -2.4475e-06,  ..., -1.1632e-06,
+          2.4773e-07,  4.2841e-08],
+        [ 2.2072e-07,  1.5926e-07,  9.2201e-08,  ...,  6.7428e-07,
+          5.2433e-07,  8.3819e-09],
+        [ 2.1048e-07,  5.9512e-07,  3.6322e-07,  ...,  5.0198e-07,
+          5.8580e-07,  1.4901e-08],
+        ...,
+        [ 3.1572e-07,  2.5425e-07,  1.0151e-07,  ...,  2.6338e-06,
+         -1.7229e-07,  3.7253e-09],
+        [ 1.2107e-06,  1.3085e-06,  2.9989e-07,  ...,  7.5530e-07,
+         -8.4005e-07,  5.2154e-08],
+        [ 2.7791e-06,  3.0361e-06,  6.7428e-07,  ..., -7.1675e-06,
+         -1.6466e-06,  1.6764e-08]], device='cuda:0')
+Epoch 128, bias, value: tensor([ 0.0054,  0.0143,  0.0177, -0.0041,  0.0192, -0.0059, -0.0114, -0.0083,
+         0.0195, -0.0112], device='cuda:0'), grad: tensor([ 3.4384e-06,  3.6210e-06,  8.3968e-06, -5.0455e-05,  4.7833e-06,
+         9.3505e-06,  1.3150e-06,  1.9837e-06,  2.8349e-06,  1.4715e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 127, time 251.40, cls_loss 0.0019 cls_loss_mapping 0.0059 cls_loss_causal 0.5312 re_mapping 0.0056 re_causal 0.0179 /// teacc 99.04 lr 0.00010000
+Epoch 129, weight, value: tensor([[-0.1199, -0.0196,  0.1365,  ...,  0.0421, -0.1177, -0.1064],
+        [-0.0772, -0.0796, -0.0123,  ..., -0.0767, -0.0907, -0.0454],
+        [ 0.1502, -0.0400, -0.1118,  ..., -0.0924, -0.1087, -0.1492],
+        ...,
+        [-0.0416, -0.0081, -0.1099,  ..., -0.0412,  0.0534,  0.0068],
+        [-0.1127, -0.0799, -0.0161,  ..., -0.1003, -0.0071, -0.0201],
+        [-0.0409, -0.0533, -0.0463,  ...,  0.0815,  0.0304, -0.1223]],
+       device='cuda:0'), grad: tensor([[ 5.9605e-08,  1.4156e-07, -3.3528e-06,  ..., -5.8115e-07,
+          4.4610e-07,  9.8720e-08],
+        [ 1.2387e-07,  3.3900e-07, -5.2154e-08,  ...,  1.6885e-06,
+          7.2550e-07,  3.6322e-08],
+        [ 5.4017e-07,  2.1625e-06,  9.1176e-07,  ...,  1.1079e-05,
+          4.4629e-06,  1.5926e-07],
+        ...,
+        [ 6.8359e-07,  2.5071e-06,  2.3376e-07,  ...,  1.4238e-05,
+          5.6289e-06,  4.0047e-08],
+        [ 1.3784e-07,  2.2631e-07,  6.1002e-07,  ...,  1.4920e-06,
+          6.2026e-07, -1.2293e-07],
+        [ 4.2375e-07,  1.7211e-06,  8.3726e-07,  ...,  6.7241e-06,
+          2.6282e-06,  7.3574e-08]], device='cuda:0')
+Epoch 129, bias, value: tensor([ 0.0048,  0.0141,  0.0176, -0.0033,  0.0192, -0.0056, -0.0115, -0.0080,
+         0.0188, -0.0112], device='cuda:0'), grad: tensor([-1.8170e-06,  3.2037e-06,  2.4199e-05, -4.0270e-06, -7.5817e-05,
+         6.7353e-06,  3.0156e-06,  2.8804e-05,  2.1346e-06,  1.3545e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 128, time 251.61, cls_loss 0.0018 cls_loss_mapping 0.0057 cls_loss_causal 0.5298 re_mapping 0.0057 re_causal 0.0179 /// teacc 99.04 lr 0.00010000
+Epoch 130, weight, value: tensor([[-0.1206, -0.0199,  0.1372,  ...,  0.0405, -0.1184, -0.1064],
+        [-0.0778, -0.0802, -0.0127,  ..., -0.0772, -0.0911, -0.0456],
+        [ 0.1509, -0.0405, -0.1126,  ..., -0.0938, -0.1093, -0.1495],
+        ...,
+        [-0.0418, -0.0051, -0.1110,  ..., -0.0410,  0.0544,  0.0069],
+        [-0.1132, -0.0809, -0.0165,  ..., -0.1008, -0.0075, -0.0203],
+        [-0.0410, -0.0538, -0.0465,  ...,  0.0823,  0.0303, -0.1227]],
+       device='cuda:0'), grad: tensor([[ 1.6391e-07,  4.8429e-08, -3.9674e-06,  ..., -2.2706e-06,
+          7.8976e-07,  9.1642e-07],
+        [ 1.4463e-06,  1.0524e-07, -1.4529e-07,  ...,  9.9652e-08,
+          9.0618e-07,  7.9442e-07],
+        [-5.7444e-06,  1.6950e-07,  6.2771e-07,  ...,  4.2282e-07,
+          5.8487e-07,  4.2189e-07],
+        ...,
+        [ 5.1595e-07,  9.4995e-08,  3.2783e-07,  ...,  1.5190e-06,
+         -9.6299e-07,  9.5926e-08],
+        [ 4.1313e-06,  3.7905e-07,  7.9535e-07,  ...,  1.8440e-07,
+          1.3830e-06,  1.9409e-06],
+        [ 2.8405e-07,  9.4995e-08,  2.2035e-06,  ...,  1.6754e-06,
+          2.5313e-06,  1.6559e-06]], device='cuda:0')
+Epoch 130, bias, value: tensor([ 0.0035,  0.0141,  0.0177, -0.0036,  0.0192, -0.0055, -0.0116, -0.0078,
+         0.0187, -0.0107], device='cuda:0'), grad: tensor([ 4.8131e-06, -5.2862e-06, -5.4538e-06, -1.2666e-07, -2.1178e-06,
+         3.6918e-06, -1.9863e-05,  6.3032e-06, -1.0580e-05,  2.8566e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 129, time 251.70, cls_loss 0.0016 cls_loss_mapping 0.0061 cls_loss_causal 0.5686 re_mapping 0.0059 re_causal 0.0190 /// teacc 99.01 lr 0.00010000
+Epoch 131, weight, value: tensor([[-0.1212, -0.0201,  0.1377,  ...,  0.0408, -0.1194, -0.1067],
+        [-0.0785, -0.0811, -0.0131,  ..., -0.0775, -0.0915, -0.0458],
+        [ 0.1523, -0.0405, -0.1137,  ..., -0.0944, -0.1095, -0.1497],
+        ...,
+        [-0.0418, -0.0052, -0.1117,  ..., -0.0414,  0.0547,  0.0068],
+        [-0.1136, -0.0814, -0.0165,  ..., -0.1010, -0.0076, -0.0204],
+        [-0.0426, -0.0545, -0.0469,  ...,  0.0823,  0.0302, -0.1231]],
+       device='cuda:0'), grad: tensor([[ 7.2643e-08,  2.0210e-07,  1.2405e-06,  ...,  2.6729e-07,
+          9.9186e-07,  1.9763e-06],
+        [ 3.4785e-07,  1.7229e-08,  1.0012e-07,  ...,  6.2445e-07,
+          4.0606e-07,  1.2573e-07],
+        [-3.3751e-06,  1.3039e-08,  7.0781e-08,  ...,  1.0803e-07,
+          2.0443e-07,  9.5461e-08],
+        ...,
+        [ 1.8068e-07,  8.8476e-09,  9.7789e-09,  ...,  3.8892e-06,
+          2.2724e-06,  1.7229e-08],
+        [ 2.3860e-06,  6.2399e-08,  3.6601e-07,  ...,  1.2834e-06,
+          4.7451e-07,  5.8115e-07],
+        [ 2.1420e-08,  1.3504e-08,  4.7497e-08,  ..., -9.5740e-06,
+         -4.1723e-06,  1.2061e-07]], device='cuda:0')
+Epoch 131, bias, value: tensor([ 0.0037,  0.0142,  0.0179, -0.0036,  0.0192, -0.0055, -0.0121, -0.0078,
+         0.0190, -0.0110], device='cuda:0'), grad: tensor([ 3.9637e-06, -1.3066e-06, -2.5313e-06,  1.2040e-05,  4.9882e-06,
+        -1.0714e-05, -4.1015e-06,  1.0714e-05,  1.0841e-05, -2.3961e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 130, time 251.44, cls_loss 0.0019 cls_loss_mapping 0.0065 cls_loss_causal 0.5534 re_mapping 0.0059 re_causal 0.0182 /// teacc 99.02 lr 0.00010000
+Epoch 132, weight, value: tensor([[-0.1215, -0.0199,  0.1387,  ...,  0.0411, -0.1198, -0.1069],
+        [-0.0788, -0.0818, -0.0130,  ..., -0.0778, -0.0921, -0.0459],
+        [ 0.1529, -0.0408, -0.1147,  ..., -0.0956, -0.1101, -0.1501],
+        ...,
+        [-0.0420, -0.0053, -0.1126,  ..., -0.0417,  0.0553,  0.0067],
+        [-0.1145, -0.0813, -0.0168,  ..., -0.1017, -0.0079, -0.0208],
+        [-0.0427, -0.0555, -0.0484,  ...,  0.0818,  0.0292, -0.1235]],
+       device='cuda:0'), grad: tensor([[ 1.3039e-08,  9.3132e-09, -5.4389e-07,  ..., -6.4261e-08,
+          5.8394e-07,  1.0245e-07],
+        [ 7.8883e-07,  5.0757e-08,  9.3132e-09,  ...,  1.3234e-06,
+          5.3160e-06,  4.0513e-08],
+        [-9.2434e-07,  4.7497e-08,  8.9873e-08,  ...,  4.6520e-07,
+          1.4743e-06,  8.6147e-08],
+        ...,
+        [ 2.0163e-07,  5.9139e-08,  2.9337e-08,  ..., -1.2028e-04,
+         -5.0640e-04,  5.2154e-08],
+        [ 2.8871e-08, -5.6345e-07,  8.0094e-08,  ..., -1.0226e-06,
+          3.0361e-07, -1.2731e-06],
+        [ 1.8161e-08,  3.4692e-07,  1.8068e-07,  ...,  1.1629e-04,
+          4.9448e-04,  8.9360e-07]], device='cuda:0')
+Epoch 132, bias, value: tensor([ 0.0042,  0.0144,  0.0179, -0.0029,  0.0200, -0.0069, -0.0119, -0.0077,
+         0.0185, -0.0118], device='cuda:0'), grad: tensor([ 1.7136e-06,  1.5840e-05,  3.7495e-06,  4.1015e-06,  1.1750e-05,
+         3.3863e-06,  1.5702e-06, -1.3952e-03, -2.0325e-05,  1.3742e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 131, time 251.64, cls_loss 0.0016 cls_loss_mapping 0.0049 cls_loss_causal 0.5526 re_mapping 0.0061 re_causal 0.0192 /// teacc 98.92 lr 0.00010000
+Epoch 133, weight, value: tensor([[-0.1218, -0.0200,  0.1373,  ...,  0.0413, -0.1203, -0.1099],
+        [-0.0791, -0.0823, -0.0133,  ..., -0.0787, -0.0929, -0.0460],
+        [ 0.1536, -0.0411, -0.1154,  ..., -0.0962, -0.1106, -0.1509],
+        ...,
+        [-0.0425, -0.0053, -0.1133,  ..., -0.0407,  0.0571,  0.0070],
+        [-0.1148, -0.0815, -0.0171,  ..., -0.1028, -0.0084, -0.0210],
+        [-0.0427, -0.0563, -0.0487,  ...,  0.0819,  0.0290, -0.1238]],
+       device='cuda:0'), grad: tensor([[ 2.0210e-07,  1.3504e-08, -5.6326e-06,  ..., -5.2266e-06,
+          2.4633e-07,  5.4948e-08],
+        [ 2.3236e-07,  5.7276e-08,  1.9604e-07,  ...,  3.5297e-07,
+          8.7544e-08,  1.0245e-08],
+        [ 2.7614e-07,  7.8697e-08,  5.7137e-07,  ...,  1.1222e-06,
+          1.3411e-07,  7.4040e-08],
+        ...,
+        [ 4.4610e-07,  1.1036e-07,  1.5087e-07,  ...,  2.8927e-06,
+          1.5385e-06,  7.4506e-09],
+        [ 2.8498e-07,  1.9092e-08,  3.2270e-07,  ...,  2.5779e-06,
+          1.0505e-06,  2.3283e-09],
+        [-2.7250e-06,  7.9628e-08,  1.5274e-06,  ..., -1.4849e-05,
+         -4.4405e-06,  1.6764e-08]], device='cuda:0')
+Epoch 133, bias, value: tensor([ 0.0030,  0.0143,  0.0180, -0.0035,  0.0197, -0.0063, -0.0100, -0.0073,
+         0.0179, -0.0118], device='cuda:0'), grad: tensor([-1.0453e-05, -3.9011e-05,  5.8711e-06,  1.3106e-05,  5.9195e-06,
+         4.5598e-06,  5.9605e-06,  3.9130e-05,  9.9912e-06, -3.5197e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 132, time 251.62, cls_loss 0.0016 cls_loss_mapping 0.0054 cls_loss_causal 0.5640 re_mapping 0.0059 re_causal 0.0187 /// teacc 98.95 lr 0.00010000
+Epoch 134, weight, value: tensor([[-0.1233, -0.0201,  0.1377,  ...,  0.0415, -0.1207, -0.1102],
+        [-0.0794, -0.0828, -0.0133,  ..., -0.0792, -0.0938, -0.0461],
+        [ 0.1541, -0.0412, -0.1165,  ..., -0.0975, -0.1112, -0.1511],
+        ...,
+        [-0.0427, -0.0066, -0.1141,  ..., -0.0412,  0.0568,  0.0069],
+        [-0.1156, -0.0817, -0.0171,  ..., -0.1051, -0.0094, -0.0210],
+        [-0.0424, -0.0566, -0.0494,  ...,  0.0822,  0.0295, -0.1239]],
+       device='cuda:0'), grad: tensor([[ 6.1467e-08,  1.1642e-08, -9.5461e-07,  ..., -7.6927e-07,
+          4.0280e-07,  3.7998e-07],
+        [ 1.5041e-07,  6.6124e-08,  1.7043e-07,  ..., -4.9220e-07,
+          1.0058e-06,  3.0082e-07],
+        [-3.2876e-07,  6.7055e-08,  4.4098e-07,  ...,  1.9046e-07,
+          5.1828e-07,  3.1246e-07],
+        ...,
+        [ 1.1735e-07,  1.5832e-08,  6.6124e-08,  ...,  5.1875e-07,
+         -1.9729e-05,  1.3784e-07],
+        [ 1.9558e-07,  4.7497e-08, -8.0690e-06,  ...,  3.7998e-07,
+          3.7067e-06, -5.0701e-06],
+        [ 8.0094e-08,  5.6811e-08,  1.3430e-06,  ...,  9.1735e-08,
+          8.9705e-06,  1.3970e-06]], device='cuda:0')
+Epoch 134, bias, value: tensor([ 0.0030,  0.0141,  0.0178, -0.0026,  0.0197, -0.0063, -0.0103, -0.0076,
+         0.0171, -0.0112], device='cuda:0'), grad: tensor([ 5.5786e-07, -1.5786e-07,  2.7008e-06,  4.0643e-06,  6.8434e-06,
+         1.9535e-05,  9.7603e-06, -6.4850e-05, -1.6078e-05,  3.7551e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 133, time 251.57, cls_loss 0.0016 cls_loss_mapping 0.0040 cls_loss_causal 0.5475 re_mapping 0.0056 re_causal 0.0180 /// teacc 99.04 lr 0.00010000
+Epoch 135, weight, value: tensor([[-0.1241, -0.0201,  0.1380,  ...,  0.0418, -0.1211, -0.1104],
+        [-0.0823, -0.0832, -0.0130,  ..., -0.0800, -0.0943, -0.0459],
+        [ 0.1550, -0.0414, -0.1175,  ..., -0.0981, -0.1115, -0.1524],
+        ...,
+        [-0.0416, -0.0067, -0.1152,  ..., -0.0418,  0.0569,  0.0066],
+        [-0.1159, -0.0820, -0.0167,  ..., -0.1060, -0.0096, -0.0204],
+        [-0.0426, -0.0568, -0.0500,  ...,  0.0823,  0.0297, -0.1246]],
+       device='cuda:0'), grad: tensor([[ 5.4017e-08,  7.5903e-08,  1.1781e-06,  ..., -2.0582e-07,
+          6.3423e-07,  8.5542e-07],
+        [ 2.9150e-07,  1.1781e-07,  1.1828e-07,  ...,  2.2817e-07,
+          2.1979e-07,  1.2387e-07],
+        [-4.0093e-07,  8.7544e-08,  5.5088e-07,  ...,  1.8999e-07,
+          3.6694e-07,  5.2387e-07],
+        ...,
+        [ 3.3434e-07,  1.7555e-07,  3.0734e-08,  ...,  6.1654e-07,
+          3.7532e-07,  1.8906e-07],
+        [ 4.9220e-07,  9.2201e-08,  3.3341e-07,  ...,  9.0711e-07,
+          7.1060e-07,  1.0291e-07],
+        [ 1.1129e-07,  1.1362e-07,  4.1537e-07,  ..., -2.6505e-06,
+         -1.3476e-06,  4.5262e-07]], device='cuda:0')
+Epoch 135, bias, value: tensor([ 0.0030,  0.0132,  0.0180, -0.0027,  0.0198, -0.0066, -0.0106, -0.0070,
+         0.0179, -0.0112], device='cuda:0'), grad: tensor([ 4.9211e-06, -2.1607e-06,  4.7050e-06,  1.1593e-05, -5.5879e-09,
+        -2.2963e-05, -3.0398e-06,  5.2936e-06,  3.3192e-06, -1.6503e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 134, time 251.84, cls_loss 0.0016 cls_loss_mapping 0.0056 cls_loss_causal 0.5659 re_mapping 0.0057 re_causal 0.0189 /// teacc 99.06 lr 0.00010000
+Epoch 136, weight, value: tensor([[-0.1246, -0.0201,  0.1386,  ...,  0.0421, -0.1215, -0.1104],
+        [-0.0825, -0.0835, -0.0134,  ..., -0.0793, -0.0949, -0.0460],
+        [ 0.1555, -0.0417, -0.1192,  ..., -0.0990, -0.1120, -0.1529],
+        ...,
+        [-0.0417, -0.0067, -0.1158,  ..., -0.0427,  0.0572,  0.0064],
+        [-0.1161, -0.0822, -0.0166,  ..., -0.1065, -0.0097, -0.0204],
+        [-0.0427, -0.0570, -0.0504,  ...,  0.0825,  0.0299, -0.1248]],
+       device='cuda:0'), grad: tensor([[ 4.2841e-08,  7.8231e-08, -1.0294e-04,  ..., -2.2888e-05,
+          1.1967e-06,  4.1397e-07],
+        [ 7.9628e-08,  7.5903e-08,  5.5600e-07,  ...,  8.5216e-07,
+          1.0356e-06,  1.9465e-07],
+        [ 3.8836e-07,  1.5367e-07,  1.6734e-05,  ...,  8.7023e-06,
+          2.4419e-06,  4.8522e-07],
+        ...,
+        [ 7.9162e-08, -2.9989e-06,  7.3062e-07,  ..., -3.2354e-06,
+         -3.1203e-05,  1.6764e-08],
+        [ 4.9826e-08,  2.0023e-08,  3.0566e-06,  ...,  9.2667e-07,
+          6.2026e-07,  1.0878e-06],
+        [ 9.1735e-08,  2.9337e-07,  1.3173e-05,  ...,  4.5821e-06,
+          4.1351e-06,  8.5216e-08]], device='cuda:0')
+Epoch 136, bias, value: tensor([ 0.0033,  0.0138,  0.0177, -0.0009,  0.0194, -0.0081, -0.0111, -0.0073,
+         0.0181, -0.0112], device='cuda:0'), grad: tensor([-1.8477e-04,  1.8915e-06,  4.7475e-05,  9.9838e-06,  2.1178e-06,
+         5.7578e-05,  1.1420e-04, -9.0778e-05,  1.0617e-06,  4.1127e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 135, time 250.76, cls_loss 0.0019 cls_loss_mapping 0.0057 cls_loss_causal 0.5243 re_mapping 0.0054 re_causal 0.0171 /// teacc 99.00 lr 0.00010000
+Epoch 137, weight, value: tensor([[-0.1256, -0.0204,  0.1391,  ...,  0.0423, -0.1219, -0.1105],
+        [-0.0828, -0.0840, -0.0133,  ..., -0.0798, -0.0960, -0.0462],
+        [ 0.1566, -0.0419, -0.1199,  ..., -0.0998, -0.1126, -0.1536],
+        ...,
+        [-0.0420, -0.0072, -0.1167,  ..., -0.0438,  0.0577,  0.0064],
+        [-0.1169, -0.0828, -0.0167,  ..., -0.1071, -0.0099, -0.0203],
+        [-0.0430, -0.0581, -0.0508,  ...,  0.0827,  0.0299, -0.1252]],
+       device='cuda:0'), grad: tensor([[ 3.2596e-09,  4.1910e-09, -2.5988e-05,  ..., -5.9940e-06,
+          1.1036e-07,  7.0315e-08],
+        [ 2.1886e-08,  2.1420e-08,  2.3376e-07,  ...,  9.3132e-07,
+          4.0745e-07,  3.0268e-08],
+        [ 2.0489e-08,  4.3772e-08,  1.4948e-06,  ...,  7.2364e-07,
+          4.0978e-07,  7.8231e-08],
+        ...,
+        [ 3.3528e-08, -9.3598e-08,  2.7008e-07,  ...,  3.7439e-07,
+         -2.8946e-06,  1.6298e-08],
+        [ 3.5390e-08,  2.9802e-08,  2.1029e-06,  ...,  9.5740e-07,
+          5.8068e-07,  7.0315e-08],
+        [ 2.1420e-08,  1.8161e-08,  1.7686e-06,  ...,  7.4282e-06,
+          1.3988e-06,  1.3690e-07]], device='cuda:0')
+Epoch 137, bias, value: tensor([ 0.0034,  0.0138,  0.0179, -0.0030,  0.0196, -0.0061, -0.0111, -0.0074,
+         0.0180, -0.0112], device='cuda:0'), grad: tensor([-3.9935e-05,  1.7453e-06,  3.9265e-06,  1.3471e-05, -1.5259e-05,
+         1.0068e-06,  2.4110e-05, -8.2254e-06,  5.2117e-06,  1.3895e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 136, time 246.95, cls_loss 0.0016 cls_loss_mapping 0.0045 cls_loss_causal 0.5449 re_mapping 0.0058 re_causal 0.0183 /// teacc 99.02 lr 0.00010000
+Epoch 138, weight, value: tensor([[-0.1262, -0.0205,  0.1396,  ...,  0.0424, -0.1224, -0.1105],
+        [-0.0825, -0.0845, -0.0137,  ..., -0.0800, -0.0970, -0.0476],
+        [ 0.1570, -0.0423, -0.1205,  ..., -0.1007, -0.1133, -0.1538],
+        ...,
+        [-0.0424, -0.0074, -0.1175,  ..., -0.0439,  0.0586,  0.0062],
+        [-0.1186, -0.0832, -0.0178,  ..., -0.1104, -0.0110, -0.0208],
+        [-0.0423, -0.0585, -0.0505,  ...,  0.0829,  0.0298, -0.1256]],
+       device='cuda:0'), grad: tensor([[ 1.0598e-06,  1.4901e-08, -4.5374e-06,  ..., -7.3090e-06,
+          4.2375e-08,  2.6543e-08],
+        [ 6.3740e-06,  2.9337e-08,  1.2154e-07,  ...,  2.0117e-07,
+          4.8429e-08,  1.1176e-08],
+        [-1.3515e-05,  3.0734e-08,  8.7544e-08,  ...,  1.4761e-07,
+          7.3109e-08,  4.3772e-08],
+        ...,
+        [ 2.9113e-06,  3.9116e-08,  7.2177e-08,  ...,  4.9407e-07,
+          2.2491e-07,  3.7253e-08],
+        [ 1.3504e-06,  7.7393e-07,  1.2107e-07,  ...,  2.9337e-07,
+          9.0431e-07,  8.1584e-07],
+        [ 1.1781e-07,  9.7789e-08,  3.9786e-06,  ...,  4.8839e-06,
+         -5.8021e-07,  9.7323e-08]], device='cuda:0')
+Epoch 138, bias, value: tensor([ 0.0035,  0.0142,  0.0176, -0.0029,  0.0197, -0.0053, -0.0125, -0.0074,
+         0.0162, -0.0112], device='cuda:0'), grad: tensor([-9.4548e-06,  9.0376e-06, -2.1189e-05,  2.4550e-06,  2.2147e-06,
+        -5.0031e-06,  6.3470e-07,  6.6534e-06,  6.9402e-06,  7.7263e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 137, time 251.56, cls_loss 0.0009 cls_loss_mapping 0.0036 cls_loss_causal 0.5372 re_mapping 0.0059 re_causal 0.0193 /// teacc 98.98 lr 0.00010000
+Epoch 139, weight, value: tensor([[-0.1266, -0.0205,  0.1398,  ...,  0.0426, -0.1228, -0.1106],
+        [-0.0828, -0.0849, -0.0139,  ..., -0.0801, -0.0976, -0.0481],
+        [ 0.1579, -0.0422, -0.1209,  ..., -0.1012, -0.1133, -0.1542],
+        ...,
+        [-0.0428, -0.0075, -0.1179,  ..., -0.0441,  0.0586,  0.0060],
+        [-0.1194, -0.0833, -0.0179,  ..., -0.1107, -0.0102, -0.0208],
+        [-0.0424, -0.0587, -0.0507,  ...,  0.0828,  0.0295, -0.1260]],
+       device='cuda:0'), grad: tensor([[ 6.3255e-06,  1.8626e-09, -6.3330e-08,  ...,  5.7742e-08,
+          8.4750e-08,  1.5832e-08],
+        [ 6.8024e-06,  1.0245e-08, -7.1712e-08,  ..., -2.0489e-07,
+          2.1141e-07, -9.0338e-08],
+        [-7.1466e-05,  1.6764e-08,  1.4901e-08,  ...,  8.0094e-08,
+          1.3132e-07,  2.0489e-08],
+        ...,
+        [ 9.1046e-06,  1.7695e-08,  1.2107e-08,  ...,  8.8662e-07,
+          5.1223e-08,  1.6764e-08],
+        [ 2.4401e-07,  1.1176e-08,  3.1665e-08,  ...,  6.7893e-07,
+          5.8673e-07,  8.2888e-08],
+        [ 1.9819e-06,  9.3132e-09,  2.8871e-08,  ..., -4.7088e-06,
+         -3.3043e-06,  3.9116e-08]], device='cuda:0')
+Epoch 139, bias, value: tensor([ 0.0036,  0.0141,  0.0179, -0.0029,  0.0198, -0.0052, -0.0126, -0.0075,
+         0.0168, -0.0116], device='cuda:0'), grad: tensor([ 7.5549e-06,  4.9025e-06, -7.9870e-05,  4.4823e-05,  9.1717e-06,
+         7.1414e-06,  9.6858e-07,  1.1832e-05,  2.9188e-06, -9.3654e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 138, time 251.90, cls_loss 0.0016 cls_loss_mapping 0.0054 cls_loss_causal 0.5641 re_mapping 0.0057 re_causal 0.0178 /// teacc 99.11 lr 0.00010000
+Epoch 140, weight, value: tensor([[-0.1279, -0.0206,  0.1403,  ...,  0.0428, -0.1231, -0.1107],
+        [-0.0830, -0.0852, -0.0144,  ..., -0.0796, -0.0986, -0.0481],
+        [ 0.1587, -0.0425, -0.1218,  ..., -0.1022, -0.1141, -0.1552],
+        ...,
+        [-0.0433, -0.0077, -0.1186,  ..., -0.0447,  0.0593,  0.0056],
+        [-0.1199, -0.0829, -0.0178,  ..., -0.1112, -0.0106, -0.0207],
+        [-0.0425, -0.0590, -0.0510,  ...,  0.0827,  0.0295, -0.1274]],
+       device='cuda:0'), grad: tensor([[ 3.8370e-07,  2.3283e-08, -3.0827e-07,  ...,  4.1351e-07,
+          4.6007e-07,  2.1420e-08],
+        [ 6.9384e-07,  6.5193e-08, -1.0245e-08,  ...,  1.0123e-06,
+          9.9093e-07,  8.3819e-09],
+        [-1.5693e-06,  1.7323e-07,  3.7253e-08,  ...,  4.7311e-07,
+          4.2375e-07,  7.4506e-09],
+        ...,
+        [ 6.4075e-07,  1.1642e-07,  3.7253e-08,  ...,  7.1883e-05,
+          7.1228e-05,  9.3132e-09],
+        [ 5.1502e-07,  5.6811e-08,  4.6566e-08,  ...,  7.8380e-06,
+          7.8976e-06,  2.1979e-07],
+        [ 4.0233e-07,  1.2014e-07,  8.0094e-08,  ..., -8.7321e-05,
+         -8.4817e-05,  6.9849e-08]], device='cuda:0')
+Epoch 140, bias, value: tensor([ 0.0037,  0.0142,  0.0178, -0.0031,  0.0200, -0.0052, -0.0124, -0.0075,
+         0.0174, -0.0120], device='cuda:0'), grad: tensor([ 2.6934e-06,  1.2508e-06,  7.7579e-07, -4.1798e-06,  1.4447e-05,
+         6.2361e-06,  1.0375e-06,  2.9683e-04,  4.2498e-05, -3.6168e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 139, time 251.67, cls_loss 0.0017 cls_loss_mapping 0.0056 cls_loss_causal 0.5770 re_mapping 0.0053 re_causal 0.0176 /// teacc 98.99 lr 0.00010000
+Epoch 141, weight, value: tensor([[-0.1289, -0.0206,  0.1413,  ...,  0.0433, -0.1237, -0.1108],
+        [-0.0833, -0.0856, -0.0147,  ..., -0.0792, -0.0987, -0.0488],
+        [ 0.1593, -0.0427, -0.1237,  ..., -0.1035, -0.1147, -0.1565],
+        ...,
+        [-0.0436, -0.0079, -0.1196,  ..., -0.0458,  0.0593,  0.0053],
+        [-0.1205, -0.0836, -0.0186,  ..., -0.1120, -0.0117, -0.0216],
+        [-0.0425, -0.0595, -0.0515,  ...,  0.0830,  0.0300, -0.1282]],
+       device='cuda:0'), grad: tensor([[ 2.0228e-06,  2.7008e-08,  1.6931e-06,  ...,  6.5565e-07,
+          1.1129e-06,  1.2731e-06],
+        [ 9.2238e-06,  9.3132e-08, -5.0478e-07,  ...,  1.4445e-06,
+          7.8883e-07,  6.4168e-07],
+        [-2.5600e-05,  2.8219e-07,  2.0117e-06,  ...,  5.3458e-07,
+          8.7824e-07,  1.0934e-06],
+        ...,
+        [ 1.1986e-06,  3.7067e-07,  1.1642e-07,  ...,  1.0971e-06,
+          4.1910e-08,  1.5087e-07],
+        [ 1.1278e-06,  1.0245e-07,  1.7481e-06,  ...,  1.3448e-06,
+         -1.0896e-06, -8.6054e-07],
+        [ 2.7753e-07,  3.8184e-08,  2.3004e-07,  ..., -4.1723e-06,
+          9.8161e-07,  1.3532e-06]], device='cuda:0')
+Epoch 141, bias, value: tensor([ 0.0041,  0.0148,  0.0176, -0.0027,  0.0196, -0.0051, -0.0128, -0.0081,
+         0.0169, -0.0117], device='cuda:0'), grad: tensor([ 1.1630e-05,  6.1169e-06, -2.3007e-05, -2.1178e-06,  1.1824e-05,
+         1.0304e-05, -1.8746e-05,  6.1914e-06, -4.9248e-06,  2.6803e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 140, time 251.41, cls_loss 0.0022 cls_loss_mapping 0.0060 cls_loss_causal 0.5114 re_mapping 0.0058 re_causal 0.0173 /// teacc 99.02 lr 0.00010000
+Epoch 142, weight, value: tensor([[-0.1297, -0.0207,  0.1425,  ...,  0.0423, -0.1242, -0.1120],
+        [-0.0834, -0.0862, -0.0143,  ..., -0.0797, -0.0991, -0.0483],
+        [ 0.1601, -0.0428, -0.1259,  ..., -0.1049, -0.1151, -0.1586],
+        ...,
+        [-0.0438, -0.0076, -0.1217,  ..., -0.0465,  0.0596,  0.0051],
+        [-0.1212, -0.0838, -0.0197,  ..., -0.1126, -0.0118, -0.0221],
+        [-0.0427, -0.0601, -0.0537,  ...,  0.0835,  0.0301, -0.1305]],
+       device='cuda:0'), grad: tensor([[ 6.2305e-07,  1.5460e-07,  1.5832e-08,  ...,  5.2154e-07,
+          1.5832e-07,  3.2596e-08],
+        [ 1.3700e-06,  1.4622e-07, -2.2072e-07,  ..., -1.9502e-06,
+          1.9744e-07, -1.3597e-07],
+        [-6.1207e-06,  3.4925e-07,  8.5682e-08,  ...,  4.0699e-07,
+          3.0547e-07,  9.5926e-08],
+        ...,
+        [ 1.0971e-06,  2.7101e-07,  9.5926e-08,  ...,  8.0280e-07,
+         -2.0023e-07,  4.4703e-08],
+        [ 1.4845e-06,  1.4808e-07,  3.5390e-08,  ...,  3.0175e-07,
+         -1.1930e-06, -8.6240e-07],
+        [ 1.3076e-06,  3.5297e-07,  1.3132e-07,  ...,  2.2594e-06,
+          7.4226e-07,  6.6124e-08]], device='cuda:0')
+Epoch 142, bias, value: tensor([ 0.0034,  0.0154,  0.0174, -0.0032,  0.0194, -0.0049, -0.0115, -0.0085,
+         0.0164, -0.0116], device='cuda:0'), grad: tensor([ 5.8636e-06, -4.1068e-05, -6.7279e-06, -7.0333e-06, -8.8140e-06,
+         7.9051e-06,  1.3575e-05,  1.3486e-05,  1.1906e-05,  1.0818e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 141, time 251.53, cls_loss 0.0018 cls_loss_mapping 0.0068 cls_loss_causal 0.5631 re_mapping 0.0057 re_causal 0.0179 /// teacc 99.09 lr 0.00010000
+Epoch 143, weight, value: tensor([[-0.1310, -0.0208,  0.1430,  ...,  0.0424, -0.1246, -0.1121],
+        [-0.0839, -0.0865, -0.0143,  ..., -0.0799, -0.0996, -0.0485],
+        [ 0.1612, -0.0430, -0.1268,  ..., -0.1056, -0.1155, -0.1593],
+        ...,
+        [-0.0442, -0.0077, -0.1225,  ..., -0.0472,  0.0597,  0.0050],
+        [-0.1231, -0.0840, -0.0178,  ..., -0.1147, -0.0121, -0.0214],
+        [-0.0421, -0.0603, -0.0527,  ...,  0.0833,  0.0299, -0.1327]],
+       device='cuda:0'), grad: tensor([[ 1.1735e-07,  1.6764e-08,  1.0701e-06,  ...,  1.6019e-07,
+          3.7067e-07,  3.0641e-07],
+        [ 2.7008e-07,  2.2352e-08, -5.5879e-09,  ...,  2.1514e-07,
+          2.3004e-07,  3.9116e-08],
+        [-1.3467e-06, -2.9802e-08,  5.8673e-08,  ...,  1.1828e-07,
+          1.6578e-07,  3.9116e-08],
+        ...,
+        [ 1.8813e-07,  1.5832e-08,  1.2107e-08,  ...,  3.3993e-07,
+         -5.4576e-07, -3.7253e-09],
+        [ 1.0990e-07, -4.0047e-08,  3.1013e-07,  ...,  1.3113e-06,
+          4.4983e-07, -2.5146e-08],
+        [ 6.7055e-08,  1.4901e-08,  5.0291e-08,  ..., -6.4038e-06,
+         -1.9185e-06,  3.7253e-08]], device='cuda:0')
+Epoch 143, bias, value: tensor([ 0.0035,  0.0160,  0.0176, -0.0030,  0.0202, -0.0050, -0.0123, -0.0092,
+         0.0168, -0.0120], device='cuda:0'), grad: tensor([ 4.2357e-06, -3.4533e-06,  2.9281e-06,  6.2548e-06,  8.6278e-06,
+         2.7809e-06, -1.7807e-06, -1.1392e-05,  3.5912e-06, -1.1846e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 142, time 251.26, cls_loss 0.0013 cls_loss_mapping 0.0043 cls_loss_causal 0.5588 re_mapping 0.0056 re_causal 0.0181 /// teacc 98.99 lr 0.00010000
+Epoch 144, weight, value: tensor([[-0.1316, -0.0208,  0.1434,  ...,  0.0427, -0.1250, -0.1121],
+        [-0.0842, -0.0867, -0.0141,  ..., -0.0799, -0.0999, -0.0486],
+        [ 0.1622, -0.0432, -0.1275,  ..., -0.1063, -0.1162, -0.1597],
+        ...,
+        [-0.0443, -0.0077, -0.1232,  ..., -0.0489,  0.0595,  0.0049],
+        [-0.1253, -0.0845, -0.0178,  ..., -0.1152, -0.0121, -0.0214],
+        [-0.0421, -0.0604, -0.0533,  ...,  0.0834,  0.0301, -0.1328]],
+       device='cuda:0'), grad: tensor([[ 1.2107e-08,  0.0000e+00, -3.9861e-07,  ..., -1.7788e-07,
+          1.4156e-07,  1.3784e-07],
+        [ 2.8405e-07,  3.7253e-09,  5.9605e-08,  ...,  4.7777e-07,
+          2.0210e-07,  9.4064e-08],
+        [ 1.0990e-06,  3.7253e-09,  8.4750e-07,  ...,  1.4948e-06,
+          7.3016e-07,  7.7859e-07],
+        ...,
+        [ 2.0210e-07,  1.3039e-08,  2.3283e-08,  ...,  2.1234e-07,
+         -2.0396e-07,  2.9802e-08],
+        [ 1.9558e-08,  1.8626e-09,  1.1083e-07,  ...,  8.4750e-08,
+          3.3304e-06,  6.3516e-06],
+        [ 5.4948e-08,  3.7253e-09,  2.1607e-07,  ..., -1.5274e-07,
+          1.5646e-07,  1.9278e-07]], device='cuda:0')
+Epoch 144, bias, value: tensor([ 0.0036,  0.0161,  0.0179, -0.0029,  0.0204, -0.0051, -0.0123, -0.0095,
+         0.0165, -0.0119], device='cuda:0'), grad: tensor([ 1.3132e-07,  1.5507e-06,  7.6257e-06, -7.6462e-07, -3.9265e-06,
+        -2.3156e-05, -3.1684e-06,  3.6601e-07,  2.0042e-05,  1.2973e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 143, time 251.76, cls_loss 0.0014 cls_loss_mapping 0.0039 cls_loss_causal 0.5304 re_mapping 0.0058 re_causal 0.0177 /// teacc 99.04 lr 0.00010000
+Epoch 145, weight, value: tensor([[-0.1321, -0.0208,  0.1441,  ...,  0.0430, -0.1255, -0.1121],
+        [-0.0853, -0.0869, -0.0141,  ..., -0.0808, -0.1004, -0.0488],
+        [ 0.1646, -0.0433, -0.1286,  ..., -0.1070, -0.1170, -0.1610],
+        ...,
+        [-0.0456, -0.0078, -0.1239,  ..., -0.0488,  0.0599,  0.0050],
+        [-0.1259, -0.0848, -0.0179,  ..., -0.1157, -0.0123, -0.0214],
+        [-0.0423, -0.0606, -0.0540,  ...,  0.0835,  0.0300, -0.1332]],
+       device='cuda:0'), grad: tensor([[ 2.0117e-07,  4.5635e-08, -1.0598e-06,  ...,  5.8226e-06,
+          9.4343e-07,  3.9302e-07],
+        [ 1.3886e-06,  2.7567e-07,  8.3819e-08,  ...,  2.0470e-06,
+          1.4165e-06,  4.4610e-07],
+        [ 9.3877e-07,  4.8801e-07,  1.8906e-07,  ...,  1.2321e-06,
+          1.7025e-06,  6.7707e-07],
+        ...,
+        [ 1.9372e-06,  4.8336e-07,  5.2154e-08,  ...,  7.1600e-06,
+          1.8450e-06,  4.6752e-07],
+        [ 2.5891e-07,  1.0896e-07,  6.2399e-08,  ...,  3.1162e-06,
+          3.2987e-06,  2.2911e-06],
+        [ 1.0226e-06,  2.7567e-07,  7.7207e-07,  ..., -3.8505e-05,
+         -3.4124e-05,  3.8296e-06]], device='cuda:0')
+Epoch 145, bias, value: tensor([ 0.0039,  0.0158,  0.0190, -0.0029,  0.0205, -0.0056, -0.0121, -0.0098,
+         0.0167, -0.0121], device='cuda:0'), grad: tensor([ 1.5080e-05,  1.1854e-05,  1.3702e-05, -2.1666e-05,  3.4899e-05,
+        -2.5451e-05,  1.0818e-05,  1.8910e-05,  1.4521e-05, -7.2479e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 144, time 251.63, cls_loss 0.0018 cls_loss_mapping 0.0049 cls_loss_causal 0.5219 re_mapping 0.0055 re_causal 0.0168 /// teacc 99.07 lr 0.00010000
+Epoch 146, weight, value: tensor([[-0.1333, -0.0209,  0.1452,  ...,  0.0434, -0.1266, -0.1123],
+        [-0.0861, -0.0874, -0.0148,  ..., -0.0816, -0.1018, -0.0494],
+        [ 0.1655, -0.0435, -0.1311,  ..., -0.1093, -0.1192, -0.1637],
+        ...,
+        [-0.0457, -0.0081, -0.1247,  ..., -0.0495,  0.0608,  0.0073],
+        [-0.1267, -0.0851, -0.0180,  ..., -0.1163, -0.0124, -0.0212],
+        [-0.0425, -0.0609, -0.0542,  ...,  0.0837,  0.0304, -0.1348]],
+       device='cuda:0'), grad: tensor([[ 4.7497e-08,  1.5832e-08,  7.0781e-08,  ...,  1.1735e-07,
+          1.4808e-07,  9.0338e-08],
+        [ 2.7381e-07,  9.7789e-08,  2.7008e-08,  ...,  4.3306e-07,
+          7.7672e-07,  6.2399e-08],
+        [ 4.3586e-07,  1.4249e-07,  4.4703e-08,  ...,  1.5274e-07,
+          4.9546e-07,  1.4715e-07],
+        ...,
+        [ 1.8813e-07,  6.1467e-08,  0.0000e+00,  ...,  2.9895e-07,
+         -1.0999e-06,  4.3772e-08],
+        [ 2.7940e-07,  4.4703e-08,  4.3772e-08,  ...,  3.5297e-07,
+          3.4831e-07,  3.5390e-07],
+        [ 3.3341e-07,  9.2201e-08,  4.6566e-09,  ...,  7.9349e-07,
+          6.1002e-07,  1.3504e-07]], device='cuda:0')
+Epoch 146, bias, value: tensor([ 0.0042,  0.0153,  0.0184, -0.0028,  0.0205, -0.0057, -0.0123, -0.0096,
+         0.0170, -0.0117], device='cuda:0'), grad: tensor([ 1.0654e-06, -6.8657e-06,  5.0291e-06, -7.5586e-06, -6.9626e-06,
+         2.8163e-06,  1.2759e-06,  9.4064e-08,  5.2899e-06,  5.8115e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 145, time 251.97, cls_loss 0.0014 cls_loss_mapping 0.0052 cls_loss_causal 0.5501 re_mapping 0.0054 re_causal 0.0177 /// teacc 99.04 lr 0.00010000
+Epoch 147, weight, value: tensor([[-0.1346, -0.0210,  0.1459,  ...,  0.0436, -0.1281, -0.1126],
+        [-0.0868, -0.0877, -0.0151,  ..., -0.0818, -0.1026, -0.0500],
+        [ 0.1667, -0.0438, -0.1319,  ..., -0.1098, -0.1203, -0.1646],
+        ...,
+        [-0.0462, -0.0083, -0.1257,  ..., -0.0500,  0.0614,  0.0074],
+        [-0.1271, -0.0855, -0.0180,  ..., -0.1168, -0.0126, -0.0211],
+        [-0.0427, -0.0614, -0.0544,  ...,  0.0839,  0.0304, -0.1353]],
+       device='cuda:0'), grad: tensor([[ 1.0394e-06,  3.7253e-09, -4.8056e-07,  ..., -2.3004e-07,
+          6.7055e-08,  7.3109e-07],
+        [ 2.7753e-07,  2.7940e-09,  5.5879e-08,  ...,  4.6566e-08,
+          2.0768e-07,  1.6764e-08],
+        [-1.5246e-06,  4.6566e-09,  7.9162e-08,  ...,  6.1467e-08,
+          1.7323e-07,  2.3283e-08],
+        ...,
+        [ 6.8080e-07,  1.8626e-09,  3.6322e-08,  ...,  8.1025e-08,
+          5.2154e-08,  2.5146e-08],
+        [ 1.3225e-07,  6.5193e-09,  7.4506e-08,  ...,  1.6764e-07,
+         -8.5309e-07,  3.7253e-08],
+        [ 3.3434e-07,  4.6566e-09,  1.4249e-07,  ..., -4.4703e-07,
+         -3.6322e-08,  2.3283e-07]], device='cuda:0')
+Epoch 147, bias, value: tensor([ 0.0043,  0.0152,  0.0186, -0.0029,  0.0201, -0.0054, -0.0121, -0.0097,
+         0.0170, -0.0116], device='cuda:0'), grad: tensor([ 4.3884e-06, -4.3839e-05,  3.4094e-05,  6.8396e-06,  1.4575e-06,
+        -1.0937e-05,  1.1679e-06,  4.2915e-06, -1.0431e-07,  2.6673e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 146, time 252.05, cls_loss 0.0011 cls_loss_mapping 0.0037 cls_loss_causal 0.5173 re_mapping 0.0052 re_causal 0.0167 /// teacc 99.02 lr 0.00010000
+Epoch 148, weight, value: tensor([[-0.1348, -0.0211,  0.1462,  ...,  0.0438, -0.1290, -0.1128],
+        [-0.0870, -0.0880, -0.0159,  ..., -0.0823, -0.1031, -0.0504],
+        [ 0.1670, -0.0439, -0.1325,  ..., -0.1106, -0.1208, -0.1651],
+        ...,
+        [-0.0463, -0.0083, -0.1263,  ..., -0.0502,  0.0619,  0.0074],
+        [-0.1273, -0.0857, -0.0181,  ..., -0.1176, -0.0127, -0.0212],
+        [-0.0429, -0.0616, -0.0549,  ...,  0.0837,  0.0301, -0.1356]],
+       device='cuda:0'), grad: tensor([[ 3.5577e-07,  6.7987e-08, -5.2992e-07,  ...,  8.3819e-08,
+          3.2689e-07,  1.9558e-07],
+        [ 3.7160e-07,  7.0781e-08,  4.6566e-08,  ...,  2.3022e-06,
+          1.3774e-06, -1.5926e-07],
+        [-2.0079e-06,  1.0058e-07,  4.6566e-08,  ...,  8.3819e-07,
+          1.1567e-06,  2.3562e-07],
+        ...,
+        [ 2.2445e-07,  6.7987e-08,  2.9802e-08,  ..., -1.1595e-06,
+         -2.3693e-06,  6.8918e-08],
+        [ 1.4510e-06,  3.3062e-07,  6.8918e-08,  ...,  5.1036e-07,
+          4.2003e-07,  8.5495e-07],
+        [ 1.3877e-07,  6.5193e-08,  2.0303e-07,  ...,  3.5197e-05,
+          1.2003e-05,  2.9709e-07]], device='cuda:0')
+Epoch 148, bias, value: tensor([ 0.0043,  0.0151,  0.0183, -0.0030,  0.0204, -0.0054, -0.0120, -0.0095,
+         0.0170, -0.0118], device='cuda:0'), grad: tensor([ 2.3097e-06,  4.2059e-06,  2.1346e-06, -3.9674e-06, -6.5267e-05,
+        -8.2180e-06,  2.2277e-06, -6.7167e-06,  1.1995e-05,  6.1333e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 147, time 251.69, cls_loss 0.0013 cls_loss_mapping 0.0050 cls_loss_causal 0.5143 re_mapping 0.0053 re_causal 0.0165 /// teacc 98.99 lr 0.00010000
+Epoch 149, weight, value: tensor([[-0.1353, -0.0212,  0.1468,  ...,  0.0441, -0.1299, -0.1129],
+        [-0.0882, -0.0883, -0.0170,  ..., -0.0832, -0.1039, -0.0508],
+        [ 0.1682, -0.0445, -0.1342,  ..., -0.1116, -0.1216, -0.1659],
+        ...,
+        [-0.0467, -0.0078, -0.1273,  ..., -0.0503,  0.0625,  0.0070],
+        [-0.1277, -0.0858, -0.0182,  ..., -0.1173, -0.0123, -0.0212],
+        [-0.0430, -0.0617, -0.0552,  ...,  0.0837,  0.0297, -0.1364]],
+       device='cuda:0'), grad: tensor([[ 8.8755e-07,  8.3819e-09, -1.0869e-06,  ..., -4.7032e-07,
+          4.8429e-08,  3.2596e-08],
+        [ 2.1234e-07,  2.4214e-08,  6.7987e-08,  ...,  2.9616e-07,
+          1.3504e-07,  3.9116e-08],
+        [-5.7146e-06,  3.7253e-08,  1.6391e-07,  ...,  2.0955e-07,
+          8.2888e-08,  5.2154e-08],
+        ...,
+        [ 1.1036e-06,  3.2596e-08,  2.1607e-07,  ...,  5.0850e-07,
+          1.6671e-07,  4.9360e-08],
+        [ 3.1572e-07,  7.6368e-08,  1.7416e-07,  ...,  2.6263e-07,
+          1.3225e-07,  1.2480e-07],
+        [ 1.2107e-07,  4.1910e-08,  5.7742e-08,  ...,  1.7151e-05,
+          7.4059e-06,  9.4995e-08]], device='cuda:0')
+Epoch 149, bias, value: tensor([ 0.0045,  0.0150,  0.0183, -0.0033,  0.0204, -0.0051, -0.0119, -0.0094,
+         0.0170, -0.0123], device='cuda:0'), grad: tensor([-6.9570e-07, -7.5437e-07, -5.4240e-06, -1.5587e-05, -3.8415e-05,
+         1.8120e-05,  8.8196e-07,  3.0808e-06,  1.6177e-06,  3.7223e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 148, time 251.82, cls_loss 0.0015 cls_loss_mapping 0.0047 cls_loss_causal 0.5280 re_mapping 0.0053 re_causal 0.0171 /// teacc 99.04 lr 0.00010000
+Epoch 150, weight, value: tensor([[-0.1363, -0.0212,  0.1473,  ...,  0.0425, -0.1306, -0.1129],
+        [-0.0906, -0.0885, -0.0174,  ..., -0.0834, -0.1067, -0.0510],
+        [ 0.1723, -0.0446, -0.1351,  ..., -0.1114, -0.1228, -0.1674],
+        ...,
+        [-0.0492, -0.0078, -0.1317,  ..., -0.0513,  0.0647,  0.0084],
+        [-0.1287, -0.0859, -0.0182,  ..., -0.1177, -0.0124, -0.0212],
+        [-0.0431, -0.0618, -0.0556,  ...,  0.0848,  0.0298, -0.1366]],
+       device='cuda:0'), grad: tensor([[ 6.5938e-07,  6.5193e-09, -1.4789e-06,  ..., -1.0701e-06,
+          1.0990e-07,  8.7544e-08],
+        [ 2.8498e-07,  2.4214e-08,  1.8161e-07,  ...,  5.5879e-09,
+          2.0955e-07,  2.5146e-08],
+        [-1.0446e-05,  8.3819e-08,  1.4054e-06,  ...,  9.8720e-08,
+          3.1479e-07,  2.9802e-08],
+        ...,
+        [ 1.7323e-07,  2.2352e-08,  9.8720e-08,  ...,  1.1455e-07,
+         -8.2329e-07,  6.5193e-09],
+        [ 4.3437e-06,  2.0489e-08, -4.2133e-06,  ...,  1.2759e-07,
+          1.2293e-07,  2.5053e-07],
+        [ 6.6124e-08,  1.8626e-08,  3.0752e-06,  ...,  3.6601e-07,
+          1.5367e-07,  9.4995e-08]], device='cuda:0')
+Epoch 150, bias, value: tensor([ 0.0034,  0.0140,  0.0205, -0.0029,  0.0201, -0.0056, -0.0118, -0.0094,
+         0.0170, -0.0116], device='cuda:0'), grad: tensor([ 1.3467e-06,  2.8312e-07, -5.0925e-06,  9.1195e-06,  1.3951e-06,
+        -3.4273e-06,  3.0622e-06, -5.9884e-07, -2.4170e-05,  1.8045e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 149, time 250.73, cls_loss 0.0015 cls_loss_mapping 0.0044 cls_loss_causal 0.5518 re_mapping 0.0053 re_causal 0.0168 /// teacc 99.05 lr 0.00010000
+Epoch 151, weight, value: tensor([[-0.1374, -0.0213,  0.1481,  ...,  0.0429, -0.1313, -0.1130],
+        [-0.0910, -0.0889, -0.0175,  ..., -0.0834, -0.1071, -0.0511],
+        [ 0.1728, -0.0451, -0.1341,  ..., -0.1127, -0.1245, -0.1688],
+        ...,
+        [-0.0490, -0.0088, -0.1327,  ..., -0.0516,  0.0653,  0.0104],
+        [-0.1297, -0.0862, -0.0183,  ..., -0.1182, -0.0127, -0.0213],
+        [-0.0434, -0.0620, -0.0567,  ...,  0.0847,  0.0295, -0.1369]],
+       device='cuda:0'), grad: tensor([[ 5.7742e-08,  3.2596e-08, -1.3504e-06,  ..., -2.2911e-07,
+          2.3656e-07,  5.4017e-08],
+        [ 1.8626e-07,  9.4995e-08, -5.5879e-09,  ...,  6.3702e-07,
+          7.9814e-07,  4.3772e-08],
+        [-1.6335e-06,  1.8720e-07,  2.0768e-07,  ...,  5.6624e-07,
+          6.8173e-07,  7.7300e-08],
+        ...,
+        [ 1.0561e-06,  1.1362e-07,  8.2888e-08,  ...,  6.5491e-06,
+          2.9542e-06,  5.1223e-08],
+        [ 7.3295e-07,  1.1735e-07,  2.0768e-07,  ...,  1.4743e-06,
+          1.0356e-06,  8.9407e-08],
+        [ 7.8231e-08,  1.4249e-07,  2.2724e-07,  ...,  2.6450e-06,
+          3.0752e-06,  1.0151e-07]], device='cuda:0')
+Epoch 151, bias, value: tensor([ 0.0037,  0.0139,  0.0199, -0.0024,  0.0203, -0.0057, -0.0120, -0.0089,
+         0.0168, -0.0119], device='cuda:0'), grad: tensor([-2.7288e-07,  3.9749e-06, -1.8254e-06, -2.8647e-06, -5.5760e-05,
+         1.4883e-06,  6.1318e-06,  2.3782e-05,  7.5065e-06,  1.7881e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 150, time 249.58, cls_loss 0.0017 cls_loss_mapping 0.0052 cls_loss_causal 0.5293 re_mapping 0.0054 re_causal 0.0166 /// teacc 99.00 lr 0.00010000
+Epoch 152, weight, value: tensor([[-0.1380, -0.0213,  0.1493,  ...,  0.0414, -0.1320, -0.1133],
+        [-0.0913, -0.0893, -0.0195,  ..., -0.0842, -0.1080, -0.0515],
+        [ 0.1737, -0.0453, -0.1352,  ..., -0.1137, -0.1251, -0.1694],
+        ...,
+        [-0.0496, -0.0088, -0.1336,  ..., -0.0515,  0.0665,  0.0114],
+        [-0.1306, -0.0864, -0.0184,  ..., -0.1188, -0.0127, -0.0213],
+        [-0.0434, -0.0622, -0.0572,  ...,  0.0864,  0.0296, -0.1387]],
+       device='cuda:0'), grad: tensor([[ 3.5483e-07,  1.8626e-09, -5.5581e-06,  ..., -5.6028e-06,
+          4.0196e-06,  2.7716e-06],
+        [ 2.3283e-06,  2.7008e-08,  8.7637e-07,  ...,  6.1188e-07,
+          1.1418e-06,  9.4436e-07],
+        [ 3.3658e-06,  4.1910e-08,  1.4361e-06,  ...,  7.7579e-07,
+          1.7658e-06,  9.7323e-07],
+        ...,
+        [ 3.3043e-06,  5.0291e-08,  5.4296e-07,  ...,  5.4054e-06,
+          2.1141e-06,  5.5041e-07],
+        [ 2.4624e-06,  5.3085e-08,  3.0138e-06,  ...,  7.8976e-07,
+          3.5614e-06,  4.2804e-06],
+        [ 1.9036e-06,  1.0245e-08,  5.3272e-06,  ..., -1.1839e-05,
+         -2.7325e-06,  1.0962e-06]], device='cuda:0')
+Epoch 152, bias, value: tensor([ 0.0027,  0.0137,  0.0199, -0.0022,  0.0194, -0.0061, -0.0117, -0.0085,
+         0.0167, -0.0108], device='cuda:0'), grad: tensor([-3.7104e-06,  1.3433e-05,  3.1888e-05, -8.8215e-05,  2.1502e-05,
+         2.2066e-04, -2.4056e-04,  3.1024e-05,  2.7001e-05, -1.3053e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 151, time 248.50, cls_loss 0.0012 cls_loss_mapping 0.0048 cls_loss_causal 0.5426 re_mapping 0.0050 re_causal 0.0165 /// teacc 99.00 lr 0.00010000
+Epoch 153, weight, value: tensor([[-0.1389, -0.0214,  0.1515,  ...,  0.0418, -0.1327, -0.1134],
+        [-0.0920, -0.0895, -0.0189,  ..., -0.0854, -0.1085, -0.0518],
+        [ 0.1749, -0.0454, -0.1359,  ..., -0.1149, -0.1255, -0.1694],
+        ...,
+        [-0.0498, -0.0090, -0.1346,  ..., -0.0518,  0.0668,  0.0114],
+        [-0.1314, -0.0865, -0.0187,  ..., -0.1202, -0.0127, -0.0213],
+        [-0.0440, -0.0624, -0.0608,  ...,  0.0866,  0.0296, -0.1393]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-08,  1.2107e-08,  1.8189e-06,  ..., -2.2817e-07,
+          9.3412e-07,  1.9027e-06],
+        [ 4.8429e-08,  1.4901e-08,  4.2561e-07,  ...,  1.1642e-07,
+          3.9302e-07,  2.2817e-07],
+        [-1.2200e-07,  1.7695e-08,  4.4610e-07,  ...,  1.6578e-07,
+          4.0140e-07,  2.0768e-07],
+        ...,
+        [ 6.4261e-08,  1.5832e-08,  6.3330e-08,  ...,  8.1956e-08,
+          1.0157e-04,  1.9558e-08],
+        [ 1.9558e-08,  6.5193e-09,  4.0326e-07,  ...,  9.6858e-08,
+         -1.0389e-04,  1.8254e-07],
+        [ 5.1223e-08,  4.3772e-08,  5.8673e-07,  ...,  4.2189e-07,
+          1.4808e-07,  7.9162e-08]], device='cuda:0')
+Epoch 153, bias, value: tensor([ 0.0035,  0.0136,  0.0203, -0.0022,  0.0198, -0.0062, -0.0121, -0.0085,
+         0.0165, -0.0110], device='cuda:0'), grad: tensor([ 7.6219e-06,  2.4810e-06,  2.1327e-06,  4.5896e-06,  8.1807e-06,
+         3.0808e-06, -2.2426e-05,  3.5906e-04, -3.6645e-04,  1.7621e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 152, time 250.22, cls_loss 0.0014 cls_loss_mapping 0.0039 cls_loss_causal 0.5152 re_mapping 0.0053 re_causal 0.0163 /// teacc 99.09 lr 0.00010000
+Epoch 154, weight, value: tensor([[-0.1395, -0.0215,  0.1519,  ...,  0.0420, -0.1344, -0.1138],
+        [-0.0921, -0.0899, -0.0196,  ..., -0.0839, -0.1072, -0.0520],
+        [ 0.1754, -0.0456, -0.1367,  ..., -0.1162, -0.1264, -0.1697],
+        ...,
+        [-0.0500, -0.0091, -0.1355,  ..., -0.0534,  0.0677,  0.0113],
+        [-0.1319, -0.0868, -0.0188,  ..., -0.1207, -0.0139, -0.0214],
+        [-0.0442, -0.0633, -0.0610,  ...,  0.0867,  0.0294, -0.1398]],
+       device='cuda:0'), grad: tensor([[ 7.1712e-08,  3.6322e-08, -2.0768e-06,  ..., -1.7080e-06,
+          3.7998e-07,  3.0734e-07],
+        [ 2.2538e-07,  1.7323e-07,  1.0803e-07,  ...,  6.8918e-08,
+          7.3295e-07,  1.2293e-07],
+        [-1.8068e-06,  9.1270e-08,  2.0396e-07,  ...,  1.2852e-07,
+          4.1910e-07,  8.9407e-08],
+        ...,
+        [ 1.1465e-06,  2.0955e-07,  1.0524e-07,  ...,  1.5181e-07,
+         -2.2668e-06,  1.1269e-07],
+        [ 1.7695e-07,  1.1455e-07,  5.4948e-08,  ...,  1.2387e-07,
+         -9.4716e-07, -5.7649e-07],
+        [ 1.0803e-07,  1.8254e-07,  9.7696e-07,  ...,  5.9977e-07,
+          9.4902e-07,  1.3039e-07]], device='cuda:0')
+Epoch 154, bias, value: tensor([ 0.0033,  0.0152,  0.0198, -0.0023,  0.0198, -0.0065, -0.0118, -0.0089,
+         0.0157, -0.0111], device='cuda:0'), grad: tensor([-1.1064e-06,  3.7495e-06, -9.2015e-07, -6.9179e-06,  9.7230e-07,
+         8.0168e-06,  2.6263e-06, -3.6675e-06, -8.8736e-06,  6.0908e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 153----------------------------------------------------
+epoch 153, time 268.49, cls_loss 0.0012 cls_loss_mapping 0.0036 cls_loss_causal 0.5272 re_mapping 0.0049 re_causal 0.0159 /// teacc 99.14 lr 0.00010000
+Epoch 155, weight, value: tensor([[-0.1400, -0.0222,  0.1516,  ...,  0.0422, -0.1356, -0.1146],
+        [-0.0924, -0.0906, -0.0196,  ..., -0.0841, -0.1077, -0.0524],
+        [ 0.1759, -0.0458, -0.1373,  ..., -0.1168, -0.1271, -0.1702],
+        ...,
+        [-0.0502, -0.0094, -0.1359,  ..., -0.0538,  0.0681,  0.0114],
+        [-0.1324, -0.0871, -0.0188,  ..., -0.1211, -0.0140, -0.0214],
+        [-0.0444, -0.0636, -0.0618,  ...,  0.0870,  0.0298, -0.1403]],
+       device='cuda:0'), grad: tensor([[ 2.0117e-07,  9.3132e-10,  3.6974e-07,  ...,  2.9802e-08,
+          7.5437e-08,  1.1828e-07],
+        [ 7.4040e-07,  2.5146e-08,  2.0992e-06,  ...,  2.6450e-07,
+          6.1374e-07,  5.6997e-07],
+        [-2.0456e-04,  1.6764e-08,  3.7160e-07,  ...,  1.0617e-07,
+          2.8964e-07,  1.0803e-07],
+        ...,
+        [ 1.1241e-06, -6.5193e-08,  5.5879e-09,  ...,  8.1584e-07,
+         -5.1409e-07,  5.5879e-09],
+        [ 3.2224e-07,  1.0245e-08,  1.0710e-07,  ...,  8.3819e-08,
+          2.1327e-07,  9.9652e-08],
+        [ 1.9479e-04,  1.6764e-08,  2.1420e-08,  ..., -1.0990e-07,
+          4.1351e-07,  3.3528e-08]], device='cuda:0')
+Epoch 155, bias, value: tensor([ 0.0030,  0.0153,  0.0196, -0.0024,  0.0194, -0.0067, -0.0114, -0.0090,
+         0.0160, -0.0108], device='cuda:0'), grad: tensor([ 1.3076e-06,  5.5432e-06, -3.6979e-04,  5.1856e-06, -4.7125e-06,
+         6.9290e-06, -5.3868e-06,  3.0883e-06,  1.7853e-06,  3.5620e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 154, time 251.83, cls_loss 0.0014 cls_loss_mapping 0.0043 cls_loss_causal 0.5012 re_mapping 0.0051 re_causal 0.0159 /// teacc 99.06 lr 0.00010000
+Epoch 156, weight, value: tensor([[-0.1406, -0.0222,  0.1527,  ...,  0.0415, -0.1360, -0.1147],
+        [-0.0930, -0.0914, -0.0198,  ..., -0.0845, -0.1087, -0.0531],
+        [ 0.1772, -0.0461, -0.1380,  ..., -0.1176, -0.1278, -0.1697],
+        ...,
+        [-0.0504, -0.0094, -0.1366,  ..., -0.0549,  0.0685,  0.0116],
+        [-0.1327, -0.0874, -0.0189,  ..., -0.1216, -0.0141, -0.0216],
+        [-0.0460, -0.0642, -0.0629,  ...,  0.0884,  0.0312, -0.1416]],
+       device='cuda:0'), grad: tensor([[ 5.4855e-07,  1.7881e-07, -1.8273e-06,  ..., -1.0794e-06,
+          1.4622e-07,  7.2643e-08],
+        [ 6.2346e-05,  3.0547e-07,  4.2841e-08,  ...,  3.7253e-09,
+          3.8091e-07,  6.4261e-08],
+        [-6.5625e-05,  1.7695e-07,  1.1269e-07,  ...,  5.8673e-08,
+          1.6391e-07,  6.7055e-08],
+        ...,
+        [ 7.5996e-07,  5.4482e-07,  2.0489e-08,  ...,  2.0489e-08,
+         -1.0729e-06, -1.7043e-07],
+        [ 8.1398e-07,  2.8312e-07,  2.0768e-07,  ...,  1.0058e-07,
+          1.9278e-07,  9.8720e-08],
+        [ 5.6531e-07,  1.5348e-06,  1.0701e-06,  ...,  6.4448e-07,
+          1.4985e-06,  2.9057e-07]], device='cuda:0')
+Epoch 156, bias, value: tensor([ 0.0028,  0.0148,  0.0199, -0.0025,  0.0184, -0.0065, -0.0115, -0.0090,
+         0.0161, -0.0095], device='cuda:0'), grad: tensor([-4.4610e-07,  1.9944e-04, -2.0671e-04, -9.6112e-06,  1.1437e-06,
+         5.0105e-07,  8.1677e-07,  5.9605e-08,  3.7607e-06,  1.0811e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 155, time 251.77, cls_loss 0.0019 cls_loss_mapping 0.0051 cls_loss_causal 0.5568 re_mapping 0.0052 re_causal 0.0171 /// teacc 99.03 lr 0.00010000
+Epoch 157, weight, value: tensor([[-0.1415, -0.0223,  0.1543,  ...,  0.0415, -0.1367, -0.1148],
+        [-0.0940, -0.0924, -0.0239,  ..., -0.0859, -0.1105, -0.0557],
+        [ 0.1788, -0.0479, -0.1394,  ..., -0.1186, -0.1297, -0.1704],
+        ...,
+        [-0.0514, -0.0078, -0.1372,  ..., -0.0556,  0.0693,  0.0125],
+        [-0.1334, -0.0883, -0.0189,  ..., -0.1225, -0.0145, -0.0216],
+        [-0.0462, -0.0634, -0.0635,  ...,  0.0894,  0.0320, -0.1413]],
+       device='cuda:0'), grad: tensor([[ 2.4587e-07,  2.9895e-07, -1.7509e-07,  ...,  1.6121e-06,
+          1.1567e-06,  4.7963e-07],
+        [ 6.1747e-07,  6.0722e-07,  7.4506e-08,  ...,  5.6960e-06,
+          2.2389e-06,  5.9512e-07],
+        [ 4.4238e-07,  3.1590e-06,  6.7055e-08,  ...,  5.5805e-06,
+          1.3456e-05,  2.5164e-06],
+        ...,
+        [ 8.7544e-07, -1.5318e-05,  2.5146e-08,  ...,  2.8118e-05,
+         -7.4744e-05, -1.2450e-05],
+        [ 1.3877e-07,  1.5739e-07,  1.5460e-07,  ...,  2.6077e-06,
+          1.0189e-06,  3.7625e-07],
+        [ 5.3830e-07,  7.7672e-07,  4.8708e-07,  ...,  1.1787e-03,
+          3.4475e-04,  9.5189e-05]], device='cuda:0')
+Epoch 157, bias, value: tensor([ 0.0032,  0.0136,  0.0202, -0.0025,  0.0177, -0.0066, -0.0111, -0.0088,
+         0.0160, -0.0088], device='cuda:0'), grad: tensor([ 6.8583e-06,  1.4544e-05,  4.4048e-05, -7.9572e-06, -2.0237e-03,
+         1.6928e-05,  4.6715e-06, -1.1408e-04,  6.5267e-06,  2.0504e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 156, time 251.55, cls_loss 0.0014 cls_loss_mapping 0.0048 cls_loss_causal 0.5464 re_mapping 0.0049 re_causal 0.0161 /// teacc 98.98 lr 0.00010000
+Epoch 158, weight, value: tensor([[-0.1425, -0.0223,  0.1562,  ...,  0.0418, -0.1373, -0.1149],
+        [-0.0946, -0.0937, -0.0249,  ..., -0.0866, -0.1110, -0.0559],
+        [ 0.1798, -0.0481, -0.1416,  ..., -0.1202, -0.1302, -0.1698],
+        ...,
+        [-0.0520, -0.0086, -0.1381,  ..., -0.0560,  0.0697,  0.0112],
+        [-0.1340, -0.0873, -0.0193,  ..., -0.1235, -0.0154, -0.0222],
+        [-0.0465, -0.0656, -0.0643,  ...,  0.0889,  0.0314, -0.1424]],
+       device='cuda:0'), grad: tensor([[ 2.5984e-07,  3.9209e-07, -5.5041e-07,  ..., -3.6694e-07,
+          6.5565e-07,  4.9174e-07],
+        [ 4.4610e-07,  1.6298e-07,  1.3225e-07,  ...,  9.2201e-08,
+          2.8312e-07,  2.7753e-07],
+        [-1.7798e-06,  2.2352e-07,  1.8440e-07,  ...,  3.4459e-08,
+          2.2538e-07,  2.8219e-07],
+        ...,
+        [ 3.2783e-07,  8.1025e-08,  4.9360e-08,  ...,  1.0245e-07,
+          3.6322e-08,  4.1910e-08],
+        [ 3.4086e-07,  1.3448e-06,  6.0536e-07,  ...,  9.2201e-08,
+          2.3413e-06,  1.9372e-06],
+        [ 1.7509e-07,  2.0117e-07,  4.5542e-07,  ..., -3.0920e-07,
+          4.5169e-07,  3.5111e-07]], device='cuda:0')
+Epoch 158, bias, value: tensor([ 0.0039,  0.0130,  0.0198, -0.0022,  0.0185, -0.0080, -0.0101, -0.0087,
+         0.0160, -0.0094], device='cuda:0'), grad: tensor([ 2.1551e-06,  1.9744e-06, -1.2610e-06,  4.6007e-06,  2.0005e-06,
+        -2.5332e-05,  5.8487e-07,  1.2433e-06,  1.0364e-05,  3.6377e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 157, time 251.73, cls_loss 0.0028 cls_loss_mapping 0.0061 cls_loss_causal 0.5370 re_mapping 0.0051 re_causal 0.0165 /// teacc 99.09 lr 0.00010000
+Epoch 159, weight, value: tensor([[-0.1433, -0.0225,  0.1566,  ...,  0.0420, -0.1379, -0.1151],
+        [-0.0946, -0.0946, -0.0250,  ..., -0.0876, -0.1119, -0.0561],
+        [ 0.1801, -0.0482, -0.1424,  ..., -0.1212, -0.1308, -0.1703],
+        ...,
+        [-0.0521, -0.0086, -0.1390,  ..., -0.0563,  0.0704,  0.0113],
+        [-0.1346, -0.0875, -0.0194,  ..., -0.1238, -0.0156, -0.0224],
+        [-0.0467, -0.0664, -0.0648,  ...,  0.0881,  0.0305, -0.1430]],
+       device='cuda:0'), grad: tensor([[ 4.9826e-08, -1.6950e-07, -9.5088e-07,  ..., -2.9104e-07,
+          8.8941e-08,  1.4761e-07],
+        [ 8.7079e-08,  2.7474e-08,  3.9116e-08,  ...,  9.4995e-08,
+          5.5879e-08, -2.1476e-06],
+        [-4.5681e-07,  4.2841e-08,  1.7323e-07,  ...,  6.9849e-08,
+          6.5193e-08,  9.2201e-08],
+        ...,
+        [ 2.1234e-07,  3.3528e-08,  1.1316e-07,  ...,  2.9337e-07,
+          7.0781e-08,  9.2853e-07],
+        [ 6.0070e-08,  1.2573e-08,  2.0443e-07,  ...,  4.8894e-08,
+          2.5611e-08,  8.6147e-08],
+        [ 7.5717e-07,  6.9803e-07,  1.5507e-07,  ..., -5.5879e-07,
+         -2.8685e-07,  1.4249e-07]], device='cuda:0')
+Epoch 159, bias, value: tensor([ 0.0039,  0.0119,  0.0191, -0.0021,  0.0196, -0.0085, -0.0097, -0.0074,
+         0.0160, -0.0104], device='cuda:0'), grad: tensor([-6.9663e-07, -2.8655e-05,  8.8196e-07, -2.3302e-06,  4.9407e-07,
+         1.4514e-05, -1.8729e-06,  1.3649e-05,  1.0505e-06,  2.9169e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 158, time 251.51, cls_loss 0.0012 cls_loss_mapping 0.0036 cls_loss_causal 0.5242 re_mapping 0.0052 re_causal 0.0166 /// teacc 98.95 lr 0.00010000
+Epoch 160, weight, value: tensor([[-0.1442, -0.0230,  0.1567,  ...,  0.0420, -0.1384, -0.1153],
+        [-0.0949, -0.0953, -0.0248,  ..., -0.0879, -0.1124, -0.0560],
+        [ 0.1818, -0.0484, -0.1429,  ..., -0.1216, -0.1311, -0.1713],
+        ...,
+        [-0.0525, -0.0087, -0.1403,  ..., -0.0568,  0.0707,  0.0112],
+        [-0.1372, -0.0855, -0.0196,  ..., -0.1242, -0.0150, -0.0221],
+        [-0.0482, -0.0695, -0.0652,  ...,  0.0880,  0.0297, -0.1458]],
+       device='cuda:0'), grad: tensor([[ 2.6403e-07,  4.6566e-10, -3.5577e-07,  ...,  6.4354e-07,
+          2.8266e-07,  9.2201e-08],
+        [ 1.9558e-08,  1.2107e-08,  8.8476e-09,  ...,  1.1846e-06,
+          6.2073e-07,  3.2131e-08],
+        [ 3.6741e-07,  1.8626e-09,  8.5682e-08,  ...,  1.9539e-06,
+          6.5379e-07,  4.2841e-08],
+        ...,
+        [ 1.1688e-07,  2.3982e-07,  2.0489e-08,  ...,  2.6897e-06,
+          2.0042e-06,  1.0896e-07],
+        [ 4.1910e-08,  9.3132e-10,  5.9139e-08,  ...,  5.5740e-07,
+          3.1013e-07,  1.5460e-07],
+        [-2.1011e-06,  4.1910e-09,  2.4820e-07,  ..., -1.2200e-06,
+          1.0384e-06,  8.9407e-08]], device='cuda:0')
+Epoch 160, bias, value: tensor([ 0.0038,  0.0117,  0.0195, -0.0025,  0.0198, -0.0078, -0.0096, -0.0071,
+         0.0163, -0.0114], device='cuda:0'), grad: tensor([ 2.8461e-06,  4.1872e-06,  9.0525e-06, -9.9018e-06, -2.8268e-05,
+        -4.5588e-07,  6.6981e-06,  1.9476e-05, -6.5984e-07, -2.9560e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 159, time 251.70, cls_loss 0.0010 cls_loss_mapping 0.0034 cls_loss_causal 0.5220 re_mapping 0.0053 re_causal 0.0180 /// teacc 99.04 lr 0.00010000
+Epoch 161, weight, value: tensor([[-0.1446, -0.0232,  0.1571,  ...,  0.0421, -0.1388, -0.1154],
+        [-0.0953, -0.0955, -0.0247,  ..., -0.0895, -0.1127, -0.0561],
+        [ 0.1822, -0.0485, -0.1434,  ..., -0.1226, -0.1315, -0.1724],
+        ...,
+        [-0.0525, -0.0089, -0.1413,  ..., -0.0571,  0.0715,  0.0115],
+        [-0.1374, -0.0856, -0.0196,  ..., -0.1244, -0.0151, -0.0221],
+        [-0.0489, -0.0696, -0.0659,  ...,  0.0878,  0.0294, -0.1462]],
+       device='cuda:0'), grad: tensor([[ 1.0245e-08,  2.7940e-09, -7.2177e-08,  ...,  6.9384e-08,
+          1.6391e-07,  2.6543e-08],
+        [ 3.5856e-08,  9.3132e-09,  2.3283e-09,  ...,  3.1199e-08,
+          3.4086e-07,  4.4703e-08],
+        [ 9.3132e-08,  1.8161e-08,  1.2573e-08,  ...,  1.9558e-08,
+          3.8650e-08,  2.0489e-08],
+        ...,
+        [ 4.1444e-08,  1.2107e-08,  4.1910e-09,  ..., -2.3097e-07,
+         -7.2364e-07, -8.7544e-08],
+        [ 1.0710e-08,  2.7940e-09,  1.2107e-08,  ...,  8.8476e-09,
+         -4.5635e-08, -1.3644e-07],
+        [ 1.6624e-07,  6.1467e-08,  4.7032e-08,  ...,  1.1129e-07,
+          1.6205e-07,  1.1548e-07]], device='cuda:0')
+Epoch 161, bias, value: tensor([ 0.0039,  0.0116,  0.0192, -0.0028,  0.0210, -0.0074, -0.0097, -0.0071,
+         0.0163, -0.0120], device='cuda:0'), grad: tensor([ 1.3337e-06,  8.1956e-07,  6.6450e-07, -9.7696e-07, -2.4680e-08,
+         7.9768e-07,  1.3364e-07, -3.6284e-06, -2.7530e-06,  3.6340e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 160, time 251.77, cls_loss 0.0012 cls_loss_mapping 0.0033 cls_loss_causal 0.5139 re_mapping 0.0049 re_causal 0.0161 /// teacc 98.96 lr 0.00010000
+Epoch 162, weight, value: tensor([[-0.1451, -0.0234,  0.1577,  ...,  0.0423, -0.1399, -0.1156],
+        [-0.0955, -0.0958, -0.0248,  ..., -0.0898, -0.1132, -0.0560],
+        [ 0.1829, -0.0486, -0.1442,  ..., -0.1237, -0.1319, -0.1729],
+        ...,
+        [-0.0531, -0.0090, -0.1419,  ..., -0.0573,  0.0721,  0.0110],
+        [-0.1377, -0.0858, -0.0196,  ..., -0.1248, -0.0150, -0.0221],
+        [-0.0492, -0.0698, -0.0664,  ...,  0.0877,  0.0292, -0.1464]],
+       device='cuda:0'), grad: tensor([[ 2.4447e-07,  7.8697e-08, -1.5832e-08,  ...,  5.3551e-08,
+          1.7881e-07,  1.4016e-07],
+        [ 6.3749e-07,  7.7300e-08,  2.2817e-08,  ...,  3.7253e-07,
+          2.7381e-07,  3.8184e-08],
+        [-1.3262e-05,  4.2235e-07,  2.7940e-08,  ...,  2.3050e-07,
+          3.4133e-07,  2.7940e-08],
+        ...,
+        [ 1.3299e-05,  1.7136e-07,  4.0513e-08,  ...,  5.1968e-07,
+         -3.1013e-07,  2.7008e-08],
+        [ 1.7928e-07,  2.6450e-07,  2.0722e-07,  ...,  4.5449e-07,
+         -8.9873e-08, -1.0803e-07],
+        [ 1.2806e-07,  9.4995e-08,  1.6950e-07,  ...,  3.0752e-06,
+          9.8627e-07,  1.6997e-07]], device='cuda:0')
+Epoch 162, bias, value: tensor([ 0.0039,  0.0114,  0.0192, -0.0025,  0.0214, -0.0075, -0.0100, -0.0070,
+         0.0164, -0.0123], device='cuda:0'), grad: tensor([ 1.5171e-06,  1.9465e-06, -1.9729e-05,  1.5870e-06, -1.2122e-05,
+        -7.1190e-06,  2.1905e-06,  2.4691e-05, -1.7462e-06,  8.7172e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 161----------------------------------------------------
+epoch 161, time 268.22, cls_loss 0.0013 cls_loss_mapping 0.0040 cls_loss_causal 0.5487 re_mapping 0.0050 re_causal 0.0160 /// teacc 99.19 lr 0.00010000
+Epoch 163, weight, value: tensor([[-0.1457, -0.0235,  0.1583,  ...,  0.0426, -0.1406, -0.1158],
+        [-0.0958, -0.0962, -0.0252,  ..., -0.0902, -0.1135, -0.0561],
+        [ 0.1843, -0.0488, -0.1451,  ..., -0.1246, -0.1325, -0.1740],
+        ...,
+        [-0.0536, -0.0091, -0.1438,  ..., -0.0580,  0.0723,  0.0119],
+        [-0.1381, -0.0860, -0.0197,  ..., -0.1253, -0.0151, -0.0221],
+        [-0.0514, -0.0699, -0.0675,  ...,  0.0872,  0.0291, -0.1465]],
+       device='cuda:0'), grad: tensor([[ 1.6298e-08,  7.4506e-09, -1.3504e-06,  ..., -5.8534e-07,
+          1.2387e-07,  1.1502e-07],
+        [ 3.2596e-08,  1.3970e-08,  4.6100e-08,  ..., -2.4680e-08,
+          2.9337e-07, -1.0710e-08],
+        [ 1.0245e-08,  2.9802e-08,  1.1967e-07,  ...,  6.3796e-08,
+          1.1316e-07,  6.5193e-08],
+        ...,
+        [ 7.9628e-08,  2.7008e-08,  4.9826e-08,  ...,  1.6158e-07,
+         -1.1362e-06,  2.7008e-08],
+        [ 7.8231e-08,  7.2177e-08,  2.8173e-07,  ...,  2.1420e-07,
+          3.0827e-07,  3.7951e-07],
+        [ 3.0734e-08,  2.8405e-08,  9.7882e-07,  ..., -1.3970e-09,
+          4.7684e-07,  3.4459e-08]], device='cuda:0')
+Epoch 163, bias, value: tensor([ 0.0041,  0.0115,  0.0192, -0.0036,  0.0219, -0.0064, -0.0100, -0.0070,
+         0.0165, -0.0131], device='cuda:0'), grad: tensor([-1.4044e-06, -4.7032e-07,  9.2620e-07, -2.2743e-06,  6.0489e-07,
+         2.6207e-06, -3.6042e-06, -3.1181e-06,  3.1590e-06,  3.5521e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 162, time 251.81, cls_loss 0.0010 cls_loss_mapping 0.0040 cls_loss_causal 0.5267 re_mapping 0.0051 re_causal 0.0164 /// teacc 99.15 lr 0.00010000
+Epoch 164, weight, value: tensor([[-0.1466, -0.0237,  0.1583,  ...,  0.0426, -0.1411, -0.1162],
+        [-0.0962, -0.0966, -0.0247,  ..., -0.0898, -0.1137, -0.0558],
+        [ 0.1848, -0.0487, -0.1456,  ..., -0.1250, -0.1328, -0.1744],
+        ...,
+        [-0.0539, -0.0094, -0.1450,  ..., -0.0583,  0.0726,  0.0120],
+        [-0.1384, -0.0861, -0.0197,  ..., -0.1261, -0.0152, -0.0221],
+        [-0.0515, -0.0700, -0.0680,  ...,  0.0873,  0.0292, -0.1468]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-08,  1.3504e-08, -1.0291e-07,  ..., -8.3353e-08,
+          1.5926e-07,  7.8697e-08],
+        [ 2.0443e-07,  6.2399e-08, -4.2375e-08,  ...,  3.4459e-07,
+          1.3039e-07,  1.7695e-08],
+        [-7.0082e-07,  8.3819e-08,  1.8673e-07,  ...,  3.4785e-07,
+          1.4482e-07,  2.6543e-08],
+        ...,
+        [ 2.7474e-07,  6.6124e-08,  1.4482e-07,  ...,  3.5623e-07,
+         -3.4226e-07,  1.5832e-08],
+        [ 4.9593e-07,  2.9802e-08,  1.5739e-07,  ...,  7.9442e-07,
+          2.0722e-07,  1.3737e-07],
+        [-3.6452e-06,  2.3749e-08,  6.3330e-08,  ..., -1.4976e-05,
+         -8.8941e-08,  2.1746e-07]], device='cuda:0')
+Epoch 164, bias, value: tensor([ 0.0039,  0.0117,  0.0192, -0.0034,  0.0218, -0.0069, -0.0096, -0.0072,
+         0.0164, -0.0132], device='cuda:0'), grad: tensor([ 7.6136e-07,  1.7118e-06,  3.0696e-06,  8.0233e-07,  1.6838e-05,
+         1.9884e-04,  9.6112e-07,  1.6000e-06,  7.1563e-06, -2.3139e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 163, time 251.36, cls_loss 0.0011 cls_loss_mapping 0.0039 cls_loss_causal 0.5292 re_mapping 0.0052 re_causal 0.0166 /// teacc 99.06 lr 0.00010000
+Epoch 165, weight, value: tensor([[-0.1473, -0.0240,  0.1588,  ...,  0.0428, -0.1420, -0.1163],
+        [-0.0963, -0.0970, -0.0247,  ..., -0.0899, -0.1141, -0.0558],
+        [ 0.1853, -0.0488, -0.1462,  ..., -0.1256, -0.1332, -0.1747],
+        ...,
+        [-0.0542, -0.0096, -0.1463,  ..., -0.0588,  0.0729,  0.0120],
+        [-0.1386, -0.0863, -0.0210,  ..., -0.1265, -0.0160, -0.0224],
+        [-0.0517, -0.0700, -0.0692,  ...,  0.0871,  0.0291, -0.1468]],
+       device='cuda:0'), grad: tensor([[ 1.5879e-07,  5.4948e-08,  3.5949e-06,  ..., -1.3039e-08,
+          9.9372e-07,  6.2538e-07],
+        [ 9.8255e-08,  2.9802e-08,  3.7439e-07,  ...,  4.0513e-08,
+          2.2305e-07,  2.1746e-07],
+        [ 1.8347e-07,  1.6764e-07,  6.9756e-07,  ...,  3.9581e-08,
+          2.1374e-07,  1.8813e-07],
+        ...,
+        [ 6.7521e-07,  2.4447e-07,  9.3132e-08,  ...,  7.4040e-08,
+         -4.9779e-07, -2.0955e-08],
+        [ 1.5274e-07,  1.9092e-08,  5.9716e-06,  ...,  8.4750e-08,
+          1.6624e-06,  4.4703e-07],
+        [ 3.8650e-08,  1.3039e-08,  1.1595e-07,  ..., -2.5192e-07,
+         -6.9849e-09,  3.4459e-08]], device='cuda:0')
+Epoch 165, bias, value: tensor([ 0.0040,  0.0113,  0.0189, -0.0034,  0.0221, -0.0071, -0.0084, -0.0067,
+         0.0153, -0.0135], device='cuda:0'), grad: tensor([ 7.4431e-06,  3.2812e-05,  3.2969e-06,  7.3481e-07,  3.2950e-06,
+        -6.2168e-05, -1.9833e-05,  3.2242e-06,  2.4870e-05,  6.1877e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 164, time 251.27, cls_loss 0.0015 cls_loss_mapping 0.0047 cls_loss_causal 0.5421 re_mapping 0.0049 re_causal 0.0156 /// teacc 99.15 lr 0.00010000
+Epoch 166, weight, value: tensor([[-0.1495, -0.0241,  0.1606,  ...,  0.0410, -0.1430, -0.1165],
+        [-0.0963, -0.0976, -0.0249,  ..., -0.0896, -0.1145, -0.0560],
+        [ 0.1865, -0.0476, -0.1472,  ..., -0.1263, -0.1337, -0.1749],
+        ...,
+        [-0.0545, -0.0100, -0.1480,  ..., -0.0595,  0.0736,  0.0120],
+        [-0.1390, -0.0866, -0.0212,  ..., -0.1272, -0.0163, -0.0226],
+        [-0.0522, -0.0702, -0.0722,  ...,  0.0886,  0.0287, -0.1468]],
+       device='cuda:0'), grad: tensor([[ 4.2841e-08,  2.7940e-09, -9.4250e-07,  ..., -5.2806e-07,
+          4.2375e-08,  1.2573e-08],
+        [ 1.1129e-07,  2.7940e-09, -7.4040e-08,  ...,  1.0850e-07,
+          4.2841e-08,  4.1910e-09],
+        [-7.7719e-07,  1.3970e-09,  2.9802e-08,  ...,  8.0559e-08,
+          4.2375e-08,  5.1223e-09],
+        ...,
+        [ 1.2573e-07,  5.5879e-09,  7.3109e-08,  ...,  2.0536e-07,
+         -4.0978e-08,  9.3132e-10],
+        [ 8.6613e-08,  2.7940e-09,  6.2864e-08,  ...,  6.6590e-08,
+         -7.2177e-08, -4.6566e-10],
+        [ 2.6077e-08,  9.3132e-10,  6.7614e-07,  ..., -1.5460e-07,
+         -1.2107e-08,  3.2596e-09]], device='cuda:0')
+Epoch 166, bias, value: tensor([ 0.0024,  0.0114,  0.0195, -0.0024,  0.0223, -0.0082, -0.0085, -0.0067,
+         0.0151, -0.0127], device='cuda:0'), grad: tensor([-1.0580e-06, -1.0263e-06, -5.5879e-07,  2.7381e-07, -5.9372e-07,
+         1.1995e-06,  6.5332e-07,  1.3625e-06, -1.8626e-06,  1.5954e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 165, time 251.69, cls_loss 0.0011 cls_loss_mapping 0.0037 cls_loss_causal 0.5375 re_mapping 0.0051 re_causal 0.0159 /// teacc 99.19 lr 0.00010000
+Epoch 167, weight, value: tensor([[-0.1491, -0.0236,  0.1619,  ...,  0.0412, -0.1435, -0.1166],
+        [-0.0977, -0.0980, -0.0256,  ..., -0.0898, -0.1148, -0.0561],
+        [ 0.1876, -0.0477, -0.1483,  ..., -0.1276, -0.1346, -0.1757],
+        ...,
+        [-0.0546, -0.0102, -0.1492,  ..., -0.0597,  0.0744,  0.0125],
+        [-0.1394, -0.0867, -0.0213,  ..., -0.1277, -0.0164, -0.0226],
+        [-0.0528, -0.0705, -0.0729,  ...,  0.0885,  0.0285, -0.1469]],
+       device='cuda:0'), grad: tensor([[ 2.5658e-07,  1.0710e-08, -5.4482e-08,  ..., -4.8429e-08,
+          2.6543e-08,  2.2352e-08],
+        [ 8.2888e-08,  1.1642e-08, -8.1025e-08,  ..., -3.6322e-08,
+          7.3574e-08,  2.7940e-09],
+        [-9.2480e-07,  3.5390e-08,  1.8161e-08,  ...,  9.3132e-09,
+          5.7742e-08,  4.1910e-09],
+        ...,
+        [ 6.0443e-07,  2.1420e-08,  3.3993e-08,  ...,  2.7474e-08,
+         -3.7486e-07,  0.0000e+00],
+        [ 7.4971e-08,  1.8161e-08,  2.3283e-08,  ...,  9.3132e-09,
+          2.4680e-08,  9.7789e-09],
+        [ 1.3690e-07,  8.1491e-08,  5.5879e-08,  ...,  4.2561e-07,
+          2.5285e-07,  1.8626e-09]], device='cuda:0')
+Epoch 167, bias, value: tensor([ 0.0027,  0.0116,  0.0189, -0.0026,  0.0224, -0.0082, -0.0088, -0.0067,
+         0.0152, -0.0131], device='cuda:0'), grad: tensor([ 7.0268e-07, -2.3041e-06, -1.1921e-06, -1.2778e-06, -7.4040e-08,
+         1.7369e-07,  3.9535e-07,  7.7439e-07,  6.1700e-07,  2.1830e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 166, time 251.88, cls_loss 0.0009 cls_loss_mapping 0.0032 cls_loss_causal 0.5277 re_mapping 0.0048 re_causal 0.0158 /// teacc 99.06 lr 0.00010000
+Epoch 168, weight, value: tensor([[-0.1493, -0.0237,  0.1623,  ...,  0.0412, -0.1441, -0.1166],
+        [-0.0981, -0.0985, -0.0256,  ..., -0.0899, -0.1151, -0.0562],
+        [ 0.1881, -0.0481, -0.1488,  ..., -0.1280, -0.1349, -0.1757],
+        ...,
+        [-0.0547, -0.0104, -0.1499,  ..., -0.0608,  0.0744,  0.0125],
+        [-0.1403, -0.0868, -0.0213,  ..., -0.1282, -0.0164, -0.0226],
+        [-0.0531, -0.0706, -0.0731,  ...,  0.0884,  0.0286, -0.1469]],
+       device='cuda:0'), grad: tensor([[ 1.4901e-08,  9.7789e-09,  2.7940e-09,  ...,  7.7300e-08,
+          6.1002e-08,  1.3970e-08],
+        [ 5.7742e-08,  5.1223e-09,  1.3970e-09,  ...,  3.7951e-07,
+          4.6846e-07,  1.0245e-08],
+        [-1.0990e-07,  9.3132e-09,  1.8626e-09,  ...,  7.7765e-08,
+          1.2992e-07,  2.1886e-08],
+        ...,
+        [ 4.3772e-08,  3.3528e-08,  0.0000e+00,  ...,  3.2969e-07,
+         -2.0768e-06,  1.5832e-08],
+        [ 6.4261e-08,  8.8476e-08,  9.3132e-10,  ...,  9.2108e-07,
+          2.7521e-07, -1.1269e-07],
+        [-9.4529e-08,  1.6764e-08,  0.0000e+00,  ..., -2.9728e-06,
+          9.1223e-07,  1.0245e-08]], device='cuda:0')
+Epoch 168, bias, value: tensor([ 0.0027,  0.0118,  0.0185, -0.0028,  0.0227, -0.0078, -0.0091, -0.0068,
+         0.0151, -0.0132], device='cuda:0'), grad: tensor([ 4.9965e-07,  2.4512e-06,  9.0152e-07,  2.8349e-06,  7.9535e-07,
+        -2.9840e-06,  1.0682e-06, -4.3996e-06,  1.2927e-06, -2.4531e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 167, time 251.70, cls_loss 0.0011 cls_loss_mapping 0.0049 cls_loss_causal 0.5312 re_mapping 0.0051 re_causal 0.0160 /// teacc 99.07 lr 0.00010000
+Epoch 169, weight, value: tensor([[-0.1505, -0.0241,  0.1627,  ...,  0.0413, -0.1449, -0.1167],
+        [-0.0986, -0.0991, -0.0256,  ..., -0.0910, -0.1161, -0.0563],
+        [ 0.1887, -0.0483, -0.1492,  ..., -0.1285, -0.1355, -0.1761],
+        ...,
+        [-0.0551, -0.0109, -0.1516,  ..., -0.0620,  0.0752,  0.0128],
+        [-0.1407, -0.0873, -0.0220,  ..., -0.1291, -0.0174, -0.0231],
+        [-0.0532, -0.0708, -0.0735,  ...,  0.0886,  0.0287, -0.1469]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-08,  0.0000e+00,  3.2987e-06,  ...,  7.9945e-06,
+          9.2341e-07,  1.5832e-08],
+        [ 1.5367e-08,  0.0000e+00, -5.4482e-08,  ...,  3.7067e-07,
+          8.8941e-08,  7.9162e-09],
+        [-3.2596e-07,  1.3970e-09,  3.8836e-07,  ...,  2.0815e-07,
+          2.3190e-07,  2.7940e-09],
+        ...,
+        [ 2.4354e-07,  9.3132e-10,  1.2107e-08,  ...,  3.8231e-07,
+         -3.3975e-06,  1.8626e-09],
+        [ 1.8161e-08,  0.0000e+00,  4.7535e-06,  ...,  5.4482e-07,
+          1.2927e-06,  1.8626e-09],
+        [ 4.6566e-09,  0.0000e+00,  9.8255e-08,  ...,  9.0227e-06,
+          1.3737e-07,  1.8626e-09]], device='cuda:0')
+Epoch 169, bias, value: tensor([ 0.0027,  0.0118,  0.0184, -0.0022,  0.0228, -0.0079, -0.0087, -0.0068,
+         0.0146, -0.0132], device='cuda:0'), grad: tensor([ 2.2605e-05, -2.5344e-04,  3.1665e-06,  6.5923e-05, -3.9369e-05,
+         2.5276e-06, -1.6034e-05,  1.8311e-04,  1.1489e-05,  1.9699e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 168, time 251.83, cls_loss 0.0011 cls_loss_mapping 0.0046 cls_loss_causal 0.5317 re_mapping 0.0053 re_causal 0.0170 /// teacc 99.05 lr 0.00010000
+Epoch 170, weight, value: tensor([[-0.1508, -0.0246,  0.1659,  ...,  0.0417, -0.1454, -0.1166],
+        [-0.1012, -0.0999, -0.0289,  ..., -0.0925, -0.1169, -0.0577],
+        [ 0.1907, -0.0494, -0.1501,  ..., -0.1292, -0.1357, -0.1764],
+        ...,
+        [-0.0554, -0.0112, -0.1523,  ..., -0.0634,  0.0752,  0.0128],
+        [-0.1408, -0.0884, -0.0223,  ..., -0.1303, -0.0177, -0.0232],
+        [-0.0534, -0.0711, -0.0747,  ...,  0.0888,  0.0289, -0.1470]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  5.5879e-09, -5.7742e-08,  ...,  1.3048e-06,
+          9.3132e-08,  8.3819e-09],
+        [ 9.3132e-09,  1.0245e-08,  2.4214e-08,  ...,  6.7987e-07,
+          1.5181e-07,  6.5193e-09],
+        [ 4.8429e-08,  5.2154e-08,  2.7008e-08,  ...,  6.0722e-07,
+          1.2852e-07,  7.4506e-09],
+        ...,
+        [ 3.7253e-09,  5.5879e-09,  4.2841e-08,  ...,  1.4324e-06,
+          3.1665e-07,  1.3039e-08],
+        [ 1.4249e-07,  1.5646e-07,  2.7008e-08,  ...,  9.8348e-07,
+          2.1141e-07,  5.5879e-08],
+        [ 1.8626e-09,  1.8626e-09,  1.1642e-07,  ...,  5.8115e-07,
+          4.3120e-07,  2.0489e-08]], device='cuda:0')
+Epoch 170, bias, value: tensor([ 0.0038,  0.0115,  0.0191, -0.0013,  0.0225, -0.0080, -0.0088, -0.0071,
+         0.0143, -0.0130], device='cuda:0'), grad: tensor([ 2.8946e-06,  2.0154e-06,  3.0305e-06, -8.0373e-07, -2.6599e-05,
+        -7.1339e-07,  1.1951e-05,  1.4752e-06,  3.7514e-06,  3.0193e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 169, time 251.58, cls_loss 0.0011 cls_loss_mapping 0.0031 cls_loss_causal 0.4971 re_mapping 0.0049 re_causal 0.0150 /// teacc 99.12 lr 0.00010000
+Epoch 171, weight, value: tensor([[-0.1513, -0.0251,  0.1662,  ...,  0.0418, -0.1470, -0.1174],
+        [-0.1014, -0.1004, -0.0289,  ..., -0.0927, -0.1174, -0.0579],
+        [ 0.1911, -0.0497, -0.1515,  ..., -0.1301, -0.1360, -0.1768],
+        ...,
+        [-0.0555, -0.0113, -0.1542,  ..., -0.0639,  0.0756,  0.0127],
+        [-0.1408, -0.0886, -0.0224,  ..., -0.1308, -0.0179, -0.0233],
+        [-0.0537, -0.0713, -0.0751,  ...,  0.0889,  0.0289, -0.1471]],
+       device='cuda:0'), grad: tensor([[ 2.4494e-07,  8.1956e-08, -2.4308e-07,  ..., -1.5832e-08,
+          3.2596e-08,  3.5390e-08],
+        [ 1.7192e-06,  3.6322e-08,  3.0734e-08,  ...,  6.7893e-07,
+          9.9652e-08,  2.7008e-08],
+        [-4.0643e-06,  6.1467e-08,  4.0978e-08,  ...,  8.3819e-08,
+          6.0536e-08,  2.0489e-08],
+        ...,
+        [ 6.5286e-07,  7.4506e-08,  3.5390e-08,  ...,  7.2271e-07,
+         -2.6077e-08,  5.6811e-08],
+        [ 8.2608e-07,  8.1956e-08,  7.8231e-08,  ...,  3.3155e-07,
+          4.6566e-09,  4.4703e-08],
+        [ 1.7509e-07,  1.4622e-07,  1.2480e-07,  ..., -3.6042e-07,
+         -2.0955e-07,  1.6764e-08]], device='cuda:0')
+Epoch 171, bias, value: tensor([ 0.0038,  0.0115,  0.0185, -0.0013,  0.0222, -0.0082, -0.0084, -0.0071,
+         0.0145, -0.0130], device='cuda:0'), grad: tensor([ 5.4296e-07,  5.5134e-06, -6.0983e-06, -1.1176e-07, -5.4576e-06,
+        -3.5204e-07,  1.2554e-06,  2.6636e-06,  1.4277e-06,  6.2492e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 170, time 251.56, cls_loss 0.0012 cls_loss_mapping 0.0041 cls_loss_causal 0.5399 re_mapping 0.0051 re_causal 0.0157 /// teacc 98.97 lr 0.00010000
+Epoch 172, weight, value: tensor([[-0.1519, -0.0260,  0.1664,  ...,  0.0418, -0.1485, -0.1179],
+        [-0.1017, -0.1012, -0.0289,  ..., -0.0920, -0.1179, -0.0579],
+        [ 0.1937, -0.0498, -0.1523,  ..., -0.1292, -0.1346, -0.1772],
+        ...,
+        [-0.0559, -0.0111, -0.1557,  ..., -0.0648,  0.0760,  0.0129],
+        [-0.1417, -0.0889, -0.0225,  ..., -0.1320, -0.0181, -0.0234],
+        [-0.0536, -0.0715, -0.0755,  ...,  0.0892,  0.0292, -0.1472]],
+       device='cuda:0'), grad: tensor([[ 6.9849e-08,  0.0000e+00,  3.8184e-08,  ...,  3.2596e-08,
+          1.6205e-07,  9.6858e-08],
+        [ 4.6566e-09,  2.7940e-09,  1.8626e-09,  ...,  1.4808e-07,
+          2.5984e-07,  3.0734e-08],
+        [ 1.7695e-08,  1.8626e-09,  1.0245e-08,  ...,  7.7300e-08,
+          1.1083e-07,  2.0489e-08],
+        ...,
+        [ 3.1665e-08,  2.7940e-09,  5.5879e-09,  ...,  3.5577e-07,
+         -4.3958e-07,  1.3970e-08],
+        [ 2.1420e-08,  1.2107e-08,  2.7940e-08,  ...,  1.7881e-07,
+          3.6787e-07,  1.7323e-07],
+        [ 1.3784e-07,  9.3132e-10,  5.5879e-09,  ...,  1.9744e-07,
+          1.4156e-07,  7.4506e-09]], device='cuda:0')
+Epoch 172, bias, value: tensor([ 0.0038,  0.0116,  0.0197, -0.0017,  0.0215, -0.0082, -0.0088, -0.0071,
+         0.0144, -0.0127], device='cuda:0'), grad: tensor([ 1.3709e-06, -4.4018e-05,  5.9828e-06,  2.5760e-06,  2.0787e-06,
+        -4.9360e-06,  2.1793e-06, -4.6194e-07,  3.3557e-05,  1.6587e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 171, time 251.58, cls_loss 0.0012 cls_loss_mapping 0.0044 cls_loss_causal 0.5582 re_mapping 0.0047 re_causal 0.0149 /// teacc 99.03 lr 0.00010000
+Epoch 173, weight, value: tensor([[-0.1508, -0.0264,  0.1672,  ...,  0.0420, -0.1494, -0.1181],
+        [-0.1021, -0.1020, -0.0289,  ..., -0.0922, -0.1183, -0.0576],
+        [ 0.1945, -0.0499, -0.1550,  ..., -0.1308, -0.1343, -0.1777],
+        ...,
+        [-0.0555, -0.0109, -0.1563,  ..., -0.0651,  0.0765,  0.0129],
+        [-0.1427, -0.0894, -0.0226,  ..., -0.1327, -0.0183, -0.0236],
+        [-0.0540, -0.0719, -0.0762,  ...,  0.0891,  0.0294, -0.1473]],
+       device='cuda:0'), grad: tensor([[ 6.0536e-08,  3.8184e-08,  1.4473e-06,  ..., -7.0781e-08,
+          6.5286e-07,  9.7416e-07],
+        [ 3.8184e-08,  1.5832e-08,  6.2957e-07,  ...,  2.3097e-06,
+          3.7439e-06,  4.6939e-07],
+        [-4.5635e-08,  1.2107e-08,  1.1362e-07,  ...,  9.4995e-08,
+          1.3039e-07,  7.3574e-08],
+        ...,
+        [ 7.7300e-08,  1.3970e-08,  4.4703e-08,  ..., -3.4198e-06,
+         -5.3495e-06,  3.1665e-08],
+        [ 3.6322e-08,  2.6915e-07,  4.1611e-06,  ...,  1.2200e-07,
+          2.4345e-06,  3.7309e-06],
+        [-5.4017e-08,  9.6858e-08,  2.7567e-07,  ...,  3.6322e-07,
+          1.4594e-06,  1.7043e-07]], device='cuda:0')
+Epoch 173, bias, value: tensor([ 0.0040,  0.0117,  0.0198, -0.0020,  0.0216, -0.0082, -0.0089, -0.0070,
+         0.0142, -0.0130], device='cuda:0'), grad: tensor([ 4.0568e-06,  2.3931e-05,  1.3141e-06,  4.8056e-06,  2.4512e-06,
+        -9.1344e-06, -1.5855e-05, -3.8207e-05,  1.5154e-05,  1.1533e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 172, time 251.50, cls_loss 0.0011 cls_loss_mapping 0.0030 cls_loss_causal 0.5185 re_mapping 0.0046 re_causal 0.0148 /// teacc 99.12 lr 0.00010000
+Epoch 174, weight, value: tensor([[-0.1512, -0.0269,  0.1677,  ...,  0.0421, -0.1503, -0.1183],
+        [-0.1026, -0.1034, -0.0292,  ..., -0.0927, -0.1186, -0.0580],
+        [ 0.1952, -0.0501, -0.1564,  ..., -0.1316, -0.1346, -0.1771],
+        ...,
+        [-0.0559, -0.0118, -0.1569,  ..., -0.0661,  0.0765,  0.0130],
+        [-0.1431, -0.0898, -0.0226,  ..., -0.1335, -0.0185, -0.0237],
+        [-0.0542, -0.0719, -0.0765,  ...,  0.0889,  0.0295, -0.1473]],
+       device='cuda:0'), grad: tensor([[ 1.9558e-08,  5.5879e-09, -2.8908e-05,  ..., -1.4998e-05,
+          7.8231e-08,  6.5193e-09],
+        [ 4.8429e-08,  1.0245e-08,  8.1584e-07,  ...,  5.1130e-07,
+          9.3970e-07, -4.3772e-08],
+        [ 5.9232e-07,  1.4901e-07,  3.1032e-06,  ...,  1.6456e-06,
+          5.7649e-07,  5.5879e-09],
+        ...,
+        [ 1.1176e-08,  2.6077e-08,  1.9893e-06,  ...,  1.0980e-06,
+         -4.1164e-06,  8.3819e-09],
+        [ 2.3283e-08,  5.5879e-09,  1.2815e-06,  ...,  6.8825e-07,
+          2.8871e-08,  2.2352e-08],
+        [ 1.0245e-08,  2.7940e-09,  1.3120e-05,  ...,  6.7465e-06,
+          4.4797e-07,  5.5879e-09]], device='cuda:0')
+Epoch 174, bias, value: tensor([ 0.0041,  0.0117,  0.0200, -0.0018,  0.0221, -0.0077, -0.0093, -0.0071,
+         0.0141, -0.0133], device='cuda:0'), grad: tensor([-6.2287e-05,  4.7013e-06,  1.5736e-05,  1.4320e-05,  1.6717e-06,
+         5.2936e-06,  1.0833e-05, -2.0608e-05, -3.5092e-06,  3.3915e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 173, time 251.06, cls_loss 0.0010 cls_loss_mapping 0.0034 cls_loss_causal 0.5372 re_mapping 0.0047 re_causal 0.0153 /// teacc 99.05 lr 0.00010000
+Epoch 175, weight, value: tensor([[-0.1518, -0.0274,  0.1685,  ...,  0.0422, -0.1518, -0.1185],
+        [-0.1028, -0.1044, -0.0298,  ..., -0.0936, -0.1190, -0.0579],
+        [ 0.1954, -0.0503, -0.1572,  ..., -0.1323, -0.1349, -0.1777],
+        ...,
+        [-0.0561, -0.0124, -0.1583,  ..., -0.0671,  0.0765,  0.0131],
+        [-0.1434, -0.0902, -0.0228,  ..., -0.1342, -0.0187, -0.0238],
+        [-0.0526, -0.0719, -0.0770,  ...,  0.0891,  0.0293, -0.1474]],
+       device='cuda:0'), grad: tensor([[ 2.4214e-08, -1.4063e-07, -1.5525e-06,  ..., -3.4366e-07,
+          8.1025e-08,  8.6613e-08],
+        [ 3.1665e-08,  1.2107e-08, -2.6077e-08,  ...,  1.3039e-08,
+          1.0245e-07,  5.9605e-08],
+        [-3.0734e-08,  4.0978e-08,  1.6205e-07,  ...,  5.1223e-08,
+          5.9605e-08,  6.7055e-08],
+        ...,
+        [ 7.1712e-08,  3.6322e-08,  9.3132e-08,  ..., -1.2107e-08,
+         -2.3469e-07,  1.8626e-08],
+        [ 3.8184e-08,  7.0781e-08,  5.6438e-07,  ...,  1.3318e-07,
+          8.3819e-09, -1.8720e-07],
+        [ 4.4703e-08,  3.4459e-08,  2.9709e-07,  ...,  3.7253e-08,
+          1.5367e-07,  6.4261e-08]], device='cuda:0')
+Epoch 175, bias, value: tensor([ 0.0043,  0.0118,  0.0197, -0.0021,  0.0223, -0.0075, -0.0095, -0.0073,
+         0.0140, -0.0130], device='cuda:0'), grad: tensor([-3.0361e-06, -1.3784e-07,  7.1805e-07, -3.7253e-08,  4.1537e-07,
+        -1.9670e-06,  3.3733e-06, -3.5949e-07, -4.7404e-07,  1.4668e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 174, time 251.63, cls_loss 0.0010 cls_loss_mapping 0.0034 cls_loss_causal 0.5300 re_mapping 0.0050 re_causal 0.0156 /// teacc 99.08 lr 0.00010000
+Epoch 176, weight, value: tensor([[-0.1524, -0.0291,  0.1687,  ...,  0.0422, -0.1525, -0.1186],
+        [-0.1021, -0.1056, -0.0298,  ..., -0.0935, -0.1194, -0.0579],
+        [ 0.1951, -0.0514, -0.1578,  ..., -0.1328, -0.1358, -0.1794],
+        ...,
+        [-0.0561, -0.0123, -0.1599,  ..., -0.0679,  0.0770,  0.0139],
+        [-0.1437, -0.0904, -0.0228,  ..., -0.1351, -0.0189, -0.0238],
+        [-0.0527, -0.0725, -0.0777,  ...,  0.0893,  0.0296, -0.1476]],
+       device='cuda:0'), grad: tensor([[ 1.1176e-08,  1.3318e-07, -9.4995e-08,  ..., -8.1025e-08,
+          1.9465e-07,  1.3039e-08],
+        [ 5.1223e-08,  2.3283e-08, -1.7229e-07,  ...,  2.9802e-08,
+          8.6613e-08,  1.1176e-08],
+        [ 2.2352e-08,  3.6322e-08,  1.0896e-07,  ...,  3.9116e-08,
+          2.6077e-08,  1.2107e-08],
+        ...,
+        [ 4.9360e-08,  3.6322e-08,  7.0781e-08,  ...,  1.9837e-07,
+         -8.2888e-08,  6.5193e-09],
+        [ 4.7497e-08,  4.7777e-07,  3.5949e-07,  ...,  1.6205e-07,
+          6.2771e-07,  3.4459e-08],
+        [ 2.4214e-08,  7.0781e-08,  1.6298e-07,  ..., -9.1642e-07,
+         -1.5646e-07,  4.6566e-09]], device='cuda:0')
+Epoch 176, bias, value: tensor([ 0.0042,  0.0121,  0.0178, -0.0022,  0.0220, -0.0073, -0.0093, -0.0074,
+         0.0146, -0.0130], device='cuda:0'), grad: tensor([ 8.7265e-07, -2.0582e-06,  1.0561e-06, -5.9195e-06,  9.1828e-07,
+         1.5749e-06,  1.1716e-06,  1.1465e-06,  3.2783e-06, -2.0824e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 175, time 251.68, cls_loss 0.0010 cls_loss_mapping 0.0032 cls_loss_causal 0.5041 re_mapping 0.0047 re_causal 0.0146 /// teacc 99.06 lr 0.00010000
+Epoch 177, weight, value: tensor([[-0.1534, -0.0292,  0.1691,  ...,  0.0423, -0.1534, -0.1188],
+        [-0.1035, -0.1065, -0.0298,  ..., -0.0937, -0.1197, -0.0581],
+        [ 0.1956, -0.0518, -0.1590,  ..., -0.1337, -0.1361, -0.1783],
+        ...,
+        [-0.0551, -0.0124, -0.1608,  ..., -0.0682,  0.0773,  0.0127],
+        [-0.1443, -0.0906, -0.0227,  ..., -0.1360, -0.0190, -0.0238],
+        [-0.0531, -0.0728, -0.0782,  ...,  0.0894,  0.0297, -0.1478]],
+       device='cuda:0'), grad: tensor([[ 9.6858e-08,  4.2841e-08, -3.7532e-07,  ..., -2.1514e-07,
+          1.4156e-07,  6.0536e-08],
+        [ 4.1723e-07,  1.7695e-08,  6.7987e-08,  ...,  2.5146e-08,
+          1.1362e-07,  2.2352e-08],
+        [-3.0547e-07,  3.5390e-08,  8.9407e-08,  ...,  1.9372e-07,
+          2.0955e-07,  1.4901e-08],
+        ...,
+        [-1.7509e-06,  2.9802e-08,  3.1665e-08,  ...,  3.6322e-08,
+         -1.0449e-06,  9.3132e-09],
+        [ 1.6019e-07,  6.5193e-08,  3.1758e-07,  ...,  1.2200e-07,
+          2.0955e-07,  1.3318e-07],
+        [ 1.0310e-06,  3.4459e-08,  2.1514e-07,  ..., -6.1002e-07,
+          6.4634e-07,  2.7940e-08]], device='cuda:0')
+Epoch 177, bias, value: tensor([ 0.0041,  0.0119,  0.0176, -0.0024,  0.0217, -0.0070, -0.0091, -0.0071,
+         0.0149, -0.0130], device='cuda:0'), grad: tensor([ 1.2666e-07, -2.9225e-06,  1.7220e-06,  9.3039e-07,  1.0645e-06,
+         1.5274e-07, -1.0720e-06, -5.8860e-06,  1.6261e-06,  4.2319e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 176, time 251.80, cls_loss 0.0014 cls_loss_mapping 0.0032 cls_loss_causal 0.5021 re_mapping 0.0047 re_causal 0.0141 /// teacc 99.10 lr 0.00010000
+Epoch 178, weight, value: tensor([[-0.1550, -0.0293,  0.1699,  ...,  0.0408, -0.1543, -0.1190],
+        [-0.1025, -0.1074, -0.0298,  ..., -0.0943, -0.1201, -0.0581],
+        [ 0.1942, -0.0544, -0.1600,  ..., -0.1360, -0.1366, -0.1787],
+        ...,
+        [-0.0564, -0.0129, -0.1622,  ..., -0.0704,  0.0777,  0.0126],
+        [-0.1451, -0.0908, -0.0228,  ..., -0.1373, -0.0194, -0.0241],
+        [-0.0511, -0.0730, -0.0798,  ...,  0.0913,  0.0299, -0.1478]],
+       device='cuda:0'), grad: tensor([[ 8.7544e-08,  0.0000e+00, -4.2096e-07,  ..., -2.4121e-07,
+          4.0047e-08,  3.3528e-08],
+        [ 1.0151e-07,  9.3132e-10,  4.9360e-08,  ...,  7.6368e-08,
+          2.0303e-07,  4.8429e-08],
+        [-6.8825e-07,  1.8626e-09,  9.2201e-08,  ...,  2.7008e-08,
+          6.7987e-08, -2.0489e-08],
+        ...,
+        [ 3.8650e-07,  1.8626e-09,  1.4901e-08,  ...,  1.0990e-07,
+         -4.7870e-07,  2.7940e-08],
+        [ 4.0047e-08,  0.0000e+00, -3.2224e-07,  ..., -6.6124e-08,
+         -6.7055e-08, -4.1910e-08],
+        [ 4.2841e-08,  9.3132e-10,  4.3400e-07,  ..., -1.9558e-07,
+          4.2841e-08,  4.0978e-08]], device='cuda:0')
+Epoch 178, bias, value: tensor([ 0.0025,  0.0124,  0.0147, -0.0015,  0.0212, -0.0069, -0.0089, -0.0076,
+         0.0144, -0.0106], device='cuda:0'), grad: tensor([-3.4459e-08,  1.5469e-06,  1.8068e-07,  1.6298e-06,  7.3854e-07,
+         4.6846e-07,  1.6019e-07, -9.3412e-07, -7.8008e-06,  4.0345e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 177, time 251.13, cls_loss 0.0011 cls_loss_mapping 0.0031 cls_loss_causal 0.4937 re_mapping 0.0046 re_causal 0.0138 /// teacc 99.03 lr 0.00010000
+Epoch 179, weight, value: tensor([[-0.1559, -0.0300,  0.1704,  ...,  0.0408, -0.1556, -0.1193],
+        [-0.1029, -0.1084, -0.0299,  ..., -0.0943, -0.1206, -0.0585],
+        [ 0.1947, -0.0546, -0.1609,  ..., -0.1365, -0.1368, -0.1787],
+        ...,
+        [-0.0561, -0.0131, -0.1635,  ..., -0.0705,  0.0784,  0.0129],
+        [-0.1460, -0.0910, -0.0229,  ..., -0.1379, -0.0196, -0.0243],
+        [-0.0518, -0.0736, -0.0807,  ...,  0.0914,  0.0298, -0.1479]],
+       device='cuda:0'), grad: tensor([[ 5.1130e-07,  9.3132e-10, -3.6322e-08,  ...,  6.5658e-07,
+          9.8161e-07,  3.6322e-08],
+        [-2.3860e-06,  6.5193e-09,  6.1467e-08,  ...,  8.6799e-07,
+          4.5858e-06,  1.3970e-08],
+        [ 3.5353e-06,  3.7253e-09,  3.5390e-08,  ...,  3.5204e-07,
+          6.2492e-07,  6.5193e-09],
+        ...,
+        [-4.8578e-06,  4.6566e-09,  1.7695e-08,  ..., -4.1500e-06,
+         -1.0155e-05,  1.8626e-09],
+        [ 7.7300e-08,  1.8626e-09,  4.3958e-07,  ...,  2.1234e-07,
+          1.9558e-07,  3.4459e-08],
+        [ 7.8417e-07,  6.5193e-09,  1.0151e-07,  ...,  2.1279e-05,
+          4.9658e-06,  3.7253e-08]], device='cuda:0')
+Epoch 179, bias, value: tensor([ 0.0024,  0.0124,  0.0144, -0.0020,  0.0216, -0.0063, -0.0092, -0.0074,
+         0.0142, -0.0107], device='cuda:0'), grad: tensor([ 5.8226e-06, -4.6372e-05,  5.3138e-05,  1.1802e-05, -2.6196e-05,
+         3.5856e-06, -4.3120e-07, -4.8131e-05,  6.0629e-07,  4.6104e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 178, time 251.65, cls_loss 0.0010 cls_loss_mapping 0.0033 cls_loss_causal 0.5307 re_mapping 0.0046 re_causal 0.0149 /// teacc 98.91 lr 0.00010000
+Epoch 180, weight, value: tensor([[-0.1558, -0.0300,  0.1716,  ...,  0.0408, -0.1566, -0.1194],
+        [-0.1026, -0.1097, -0.0299,  ..., -0.0922, -0.1212, -0.0586],
+        [ 0.1950, -0.0545, -0.1618,  ..., -0.1376, -0.1370, -0.1788],
+        ...,
+        [-0.0563, -0.0134, -0.1648,  ..., -0.0729,  0.0787,  0.0129],
+        [-0.1462, -0.0908, -0.0230,  ..., -0.1393, -0.0197, -0.0244],
+        [-0.0527, -0.0749, -0.0826,  ...,  0.0914,  0.0285, -0.1496]],
+       device='cuda:0'), grad: tensor([[ 7.3109e-07,  1.1176e-08, -3.4459e-08,  ...,  1.2573e-07,
+          2.5705e-07,  3.5390e-08],
+        [ 1.3253e-06,  1.2200e-07,  8.3819e-09,  ...,  1.1176e-07,
+          5.7463e-07,  2.3469e-07],
+        [-4.6752e-07,  2.7101e-07,  1.3970e-08,  ...,  4.0978e-08,
+          8.0094e-08,  1.6764e-08],
+        ...,
+        [ 1.0226e-06,  3.2596e-08,  1.8626e-09,  ...,  9.1270e-08,
+         -1.2415e-06, -5.4017e-07],
+        [ 4.1071e-07,  9.3132e-09,  1.3039e-08,  ...,  1.5926e-07,
+          7.3574e-08, -1.1642e-07],
+        [ 1.1744e-06,  1.7695e-08,  5.1223e-08,  ..., -3.1106e-07,
+          5.1875e-07,  3.0734e-08]], device='cuda:0')
+Epoch 180, bias, value: tensor([ 0.0026,  0.0131,  0.0138, -0.0023,  0.0215, -0.0050, -0.0093, -0.0079,
+         0.0146, -0.0118], device='cuda:0'), grad: tensor([ 2.3246e-06,  4.7013e-06,  1.0524e-07, -3.4831e-07,  1.2442e-06,
+        -8.6650e-06,  9.7137e-07, -2.7437e-06, -1.5143e-06,  3.8780e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 179, time 251.14, cls_loss 0.0011 cls_loss_mapping 0.0039 cls_loss_causal 0.5655 re_mapping 0.0046 re_causal 0.0148 /// teacc 99.15 lr 0.00010000
+Epoch 181, weight, value: tensor([[-0.1568, -0.0301,  0.1720,  ...,  0.0409, -0.1582, -0.1196],
+        [-0.1038, -0.1116, -0.0300,  ..., -0.0925, -0.1222, -0.0588],
+        [ 0.1958, -0.0546, -0.1622,  ..., -0.1381, -0.1372, -0.1794],
+        ...,
+        [-0.0560, -0.0136, -0.1653,  ..., -0.0730,  0.0797,  0.0131],
+        [-0.1465, -0.0911, -0.0230,  ..., -0.1405, -0.0198, -0.0244],
+        [-0.0530, -0.0751, -0.0834,  ...,  0.0917,  0.0285, -0.1498]],
+       device='cuda:0'), grad: tensor([[ 1.5832e-08,  4.6566e-09, -3.1851e-07,  ..., -1.1828e-07,
+          3.2596e-08,  1.4901e-08],
+        [ 4.5635e-08,  9.3132e-09, -2.7940e-09,  ...,  6.2399e-08,
+          6.2399e-08,  5.5879e-09],
+        [-2.1886e-07,  3.7253e-09,  2.7008e-08,  ...,  1.4901e-08,
+          1.7695e-08,  5.5879e-09],
+        ...,
+        [ 1.2200e-07,  1.5832e-08,  2.1420e-08,  ...,  9.4064e-08,
+         -6.1467e-08,  1.8626e-09],
+        [ 2.9802e-08,  2.7008e-08,  1.0338e-07,  ...,  2.5239e-07,
+          1.7695e-07,  3.7253e-08],
+        [ 1.4901e-08,  4.3772e-08,  1.0245e-07,  ..., -4.7497e-07,
+          7.6368e-08,  8.3819e-09]], device='cuda:0')
+Epoch 181, bias, value: tensor([ 0.0027,  0.0128,  0.0140, -0.0022,  0.0212, -0.0054, -0.0093, -0.0076,
+         0.0151, -0.0116], device='cuda:0'), grad: tensor([-2.9150e-07, -4.0978e-07, -9.9652e-08,  1.6093e-06,  6.7987e-07,
+        -3.6955e-06,  4.6566e-08,  6.2212e-07,  1.8114e-06, -2.9616e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 180, time 251.42, cls_loss 0.0013 cls_loss_mapping 0.0043 cls_loss_causal 0.5228 re_mapping 0.0048 re_causal 0.0151 /// teacc 99.02 lr 0.00010000
+Epoch 182, weight, value: tensor([[-0.1572, -0.0301,  0.1729,  ...,  0.0409, -0.1599, -0.1198],
+        [-0.1046, -0.1130, -0.0301,  ..., -0.0932, -0.1231, -0.0589],
+        [ 0.1963, -0.0548, -0.1627,  ..., -0.1385, -0.1375, -0.1794],
+        ...,
+        [-0.0560, -0.0137, -0.1663,  ..., -0.0745,  0.0791,  0.0131],
+        [-0.1471, -0.0915, -0.0232,  ..., -0.1415, -0.0200, -0.0244],
+        [-0.0532, -0.0754, -0.0839,  ...,  0.0911,  0.0277, -0.1499]],
+       device='cuda:0'), grad: tensor([[ 2.3376e-07,  4.6566e-09, -6.7987e-07,  ..., -2.0582e-07,
+          1.0245e-07,  6.5193e-09],
+        [ 4.8280e-06,  1.0245e-08, -2.2445e-07,  ..., -1.1828e-07,
+          6.9384e-07,  2.7940e-09],
+        [-1.5795e-05,  1.1176e-08,  3.5390e-08,  ...,  5.3085e-08,
+          4.4145e-07,  3.7253e-09],
+        ...,
+        [ 7.5623e-06,  1.4901e-08,  1.7509e-07,  ...,  2.3656e-07,
+         -1.5292e-06,  0.0000e+00],
+        [ 2.0713e-06,  0.0000e+00,  1.0338e-07,  ...,  3.7067e-07,
+          2.6450e-07,  3.7253e-09],
+        [ 1.2945e-07,  1.7695e-08,  2.9616e-07,  ...,  6.8825e-07,
+          2.7474e-07,  9.3132e-10]], device='cuda:0')
+Epoch 182, bias, value: tensor([ 0.0028,  0.0119,  0.0142, -0.0022,  0.0220, -0.0058, -0.0090, -0.0070,
+         0.0150, -0.0122], device='cuda:0'), grad: tensor([ 3.9209e-07,  9.6858e-06, -2.6733e-05,  2.3358e-06, -1.8151e-06,
+         2.1234e-07,  1.3784e-06,  3.5670e-06,  6.9663e-06,  4.0308e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 181, time 251.77, cls_loss 0.0012 cls_loss_mapping 0.0035 cls_loss_causal 0.5478 re_mapping 0.0044 re_causal 0.0144 /// teacc 98.92 lr 0.00010000
+Epoch 183, weight, value: tensor([[-0.1581, -0.0315,  0.1762,  ...,  0.0410, -0.1574, -0.1208],
+        [-0.1049, -0.1150, -0.0301,  ..., -0.0935, -0.1239, -0.0590],
+        [ 0.1969, -0.0550, -0.1638,  ..., -0.1391, -0.1378, -0.1795],
+        ...,
+        [-0.0562, -0.0143, -0.1676,  ..., -0.0750,  0.0798,  0.0131],
+        [-0.1478, -0.0920, -0.0233,  ..., -0.1425, -0.0202, -0.0244],
+        [-0.0543, -0.0780, -0.0845,  ...,  0.0913,  0.0279, -0.1499]],
+       device='cuda:0'), grad: tensor([[ 4.9360e-08, -3.0734e-08, -1.0682e-06,  ..., -3.5111e-07,
+          9.5926e-08,  3.7253e-09],
+        [ 1.4901e-07,  1.4901e-08,  3.0734e-08,  ...,  2.1420e-07,
+          5.6252e-07,  9.3132e-10],
+        [-4.7870e-07,  9.3132e-09,  8.2888e-08,  ...,  1.7881e-07,
+          8.8476e-08,  9.3132e-10],
+        ...,
+        [ 1.3411e-07,  1.6764e-08,  9.3132e-08,  ...,  3.6880e-07,
+         -5.4389e-07,  0.0000e+00],
+        [ 4.8429e-08,  1.3970e-08,  8.2888e-08,  ...,  4.0233e-07,
+          2.0862e-07,  1.8626e-09],
+        [ 3.1665e-08,  2.1420e-08,  2.5798e-07,  ..., -2.1867e-06,
+         -1.1278e-06,  9.3132e-10]], device='cuda:0')
+Epoch 183, bias, value: tensor([ 0.0044,  0.0118,  0.0141, -0.0015,  0.0218, -0.0056, -0.0111, -0.0069,
+         0.0150, -0.0123], device='cuda:0'), grad: tensor([-9.7975e-07,  2.6859e-06,  5.5227e-07,  8.2795e-07,  1.5339e-06,
+         1.5507e-06,  7.8231e-07, -7.9256e-07, -1.6000e-06, -4.5784e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 182, time 251.90, cls_loss 0.0011 cls_loss_mapping 0.0040 cls_loss_causal 0.4919 re_mapping 0.0045 re_causal 0.0146 /// teacc 98.92 lr 0.00010000
+Epoch 184, weight, value: tensor([[-0.1594, -0.0317,  0.1763,  ...,  0.0411, -0.1577, -0.1211],
+        [-0.1052, -0.1159, -0.0303,  ..., -0.0936, -0.1247, -0.0591],
+        [ 0.1973, -0.0552, -0.1647,  ..., -0.1394, -0.1382, -0.1794],
+        ...,
+        [-0.0559, -0.0142, -0.1687,  ..., -0.0750,  0.0804,  0.0131],
+        [-0.1482, -0.0923, -0.0233,  ..., -0.1435, -0.0204, -0.0244],
+        [-0.0547, -0.0782, -0.0848,  ...,  0.0909,  0.0273, -0.1500]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  9.3132e-10, -1.5004e-06,  ..., -3.6415e-07,
+          3.1665e-08,  2.7940e-09],
+        [ 4.3772e-08,  1.1176e-08,  3.5390e-08,  ...,  3.6135e-07,
+          7.3388e-07,  3.0734e-08],
+        [ 2.4214e-08,  1.3970e-08,  1.6764e-08,  ...,  1.4901e-08,
+          1.7695e-08,  1.2107e-08],
+        ...,
+        [ 1.1921e-07,  2.2352e-08,  5.2154e-08,  ..., -7.4506e-09,
+         -7.4506e-07,  9.3132e-10],
+        [ 4.1910e-08,  1.3970e-08,  8.0094e-08,  ...,  1.9651e-07,
+          2.0117e-07,  1.7043e-07],
+        [ 1.3039e-08,  4.6566e-09,  6.0722e-07,  ..., -1.2424e-06,
+         -5.0198e-07,  1.1176e-08]], device='cuda:0')
+Epoch 184, bias, value: tensor([ 0.0043,  0.0118,  0.0139, -0.0016,  0.0224, -0.0060, -0.0104, -0.0068,
+         0.0151, -0.0130], device='cuda:0'), grad: tensor([-2.0713e-06,  2.0750e-06,  2.6636e-07,  1.5302e-06,  1.4128e-06,
+        -3.0883e-06,  7.2643e-07, -1.5274e-06,  2.2184e-06, -1.5413e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 183, time 251.71, cls_loss 0.0008 cls_loss_mapping 0.0028 cls_loss_causal 0.4967 re_mapping 0.0047 re_causal 0.0149 /// teacc 99.01 lr 0.00010000
+Epoch 185, weight, value: tensor([[-0.1597, -0.0315,  0.1764,  ...,  0.0411, -0.1578, -0.1212],
+        [-0.1054, -0.1164, -0.0302,  ..., -0.0937, -0.1253, -0.0598],
+        [ 0.1977, -0.0554, -0.1650,  ..., -0.1398, -0.1386, -0.1796],
+        ...,
+        [-0.0562, -0.0144, -0.1702,  ..., -0.0753,  0.0808,  0.0131],
+        [-0.1491, -0.0925, -0.0234,  ..., -0.1457, -0.0209, -0.0246],
+        [-0.0545, -0.0784, -0.0856,  ...,  0.0910,  0.0273, -0.1501]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-08,  9.3132e-10, -3.2783e-07,  ..., -2.8126e-07,
+          1.3039e-07,  1.6112e-07],
+        [ 1.0058e-07,  9.3132e-10,  5.0291e-08,  ..., -9.3132e-10,
+          3.4571e-06,  1.2200e-07],
+        [-1.0207e-06,  9.3132e-10,  6.8918e-08,  ...,  3.7253e-08,
+          3.6322e-08,  1.3039e-08],
+        ...,
+        [ 2.6915e-07,  9.3132e-10,  6.1467e-08,  ...,  1.3039e-07,
+         -3.8072e-06,  1.6764e-08],
+        [ 1.6298e-07,  1.8626e-09,  1.2480e-07,  ...,  4.4703e-08,
+          1.4622e-07,  1.6391e-07],
+        [ 2.3283e-08,  9.3132e-10,  2.9523e-07,  ...,  1.7602e-07,
+          1.0617e-07,  4.9360e-08]], device='cuda:0')
+Epoch 185, bias, value: tensor([ 0.0044,  0.0119,  0.0139, -0.0017,  0.0224, -0.0056, -0.0107, -0.0068,
+         0.0147, -0.0130], device='cuda:0'), grad: tensor([-2.4587e-07,  2.1935e-05, -1.3700e-06,  1.7313e-06, -2.5332e-07,
+        -1.0319e-06, -2.6450e-07, -2.3291e-05,  1.4212e-06,  1.3355e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 184, time 252.01, cls_loss 0.0010 cls_loss_mapping 0.0027 cls_loss_causal 0.5379 re_mapping 0.0044 re_causal 0.0147 /// teacc 99.09 lr 0.00010000
+Epoch 186, weight, value: tensor([[-0.1602, -0.0316,  0.1765,  ...,  0.0412, -0.1580, -0.1215],
+        [-0.1060, -0.1175, -0.0300,  ..., -0.0933, -0.1265, -0.0601],
+        [ 0.1983, -0.0555, -0.1657,  ..., -0.1400, -0.1392, -0.1800],
+        ...,
+        [-0.0563, -0.0144, -0.1720,  ..., -0.0760,  0.0818,  0.0135],
+        [-0.1497, -0.0925, -0.0235,  ..., -0.1468, -0.0210, -0.0245],
+        [-0.0547, -0.0789, -0.0859,  ...,  0.0910,  0.0273, -0.1502]],
+       device='cuda:0'), grad: tensor([[ 1.6671e-07,  5.5879e-09,  2.3376e-06,  ..., -5.5134e-07,
+          8.4843e-07,  2.1420e-06],
+        [ 1.1502e-06,  6.5193e-09,  2.4959e-07,  ..., -7.0781e-08,
+          3.2876e-07,  1.6950e-07],
+        [-3.1181e-06,  5.5879e-09,  8.4937e-07,  ...,  1.7229e-07,
+          2.8126e-07,  4.0140e-07],
+        ...,
+        [ 1.2871e-06,  1.7695e-08,  1.4622e-07,  ...,  2.4680e-07,
+         -9.2667e-07,  6.5193e-09],
+        [-3.2131e-07,  9.3132e-09,  4.7777e-07,  ...,  3.5949e-07,
+          1.5553e-07,  1.3318e-07],
+        [ 1.5926e-07,  6.5193e-09,  4.2375e-07,  ..., -4.6659e-07,
+         -5.3085e-08,  3.4459e-08]], device='cuda:0')
+Epoch 186, bias, value: tensor([ 0.0043,  0.0118,  0.0138, -0.0017,  0.0224, -0.0056, -0.0108, -0.0066,
+         0.0151, -0.0132], device='cuda:0'), grad: tensor([ 4.2617e-06,  1.0990e-07, -3.5502e-06,  1.0151e-06,  2.5909e-06,
+         4.9472e-06, -1.1563e-05,  1.6112e-06, -1.7509e-06,  2.2799e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 185, time 251.81, cls_loss 0.0009 cls_loss_mapping 0.0036 cls_loss_causal 0.5405 re_mapping 0.0047 re_causal 0.0151 /// teacc 98.97 lr 0.00010000
+Epoch 187, weight, value: tensor([[-0.1607, -0.0316,  0.1768,  ...,  0.0413, -0.1581, -0.1217],
+        [-0.1067, -0.1185, -0.0302,  ..., -0.0934, -0.1271, -0.0602],
+        [ 0.1990, -0.0558, -0.1665,  ..., -0.1404, -0.1398, -0.1802],
+        ...,
+        [-0.0565, -0.0140, -0.1737,  ..., -0.0761,  0.0828,  0.0139],
+        [-0.1500, -0.0928, -0.0232,  ..., -0.1475, -0.0211, -0.0245],
+        [-0.0548, -0.0791, -0.0873,  ...,  0.0912,  0.0280, -0.1503]],
+       device='cuda:0'), grad: tensor([[ 4.1910e-08,  1.4901e-08, -2.5146e-08,  ..., -9.3132e-09,
+          2.1420e-08,  2.7940e-09],
+        [ 1.2573e-07,  4.2841e-08, -3.7253e-09,  ...,  6.5193e-09,
+          7.7300e-08,  9.3132e-10],
+        [-3.3528e-06,  5.3085e-08,  7.4506e-09,  ...,  2.7940e-09,
+          3.8184e-08,  1.8626e-09],
+        ...,
+        [ 1.9185e-07,  4.0047e-08,  2.7940e-09,  ...,  8.3819e-09,
+         -3.3621e-07,  9.3132e-10],
+        [ 3.2131e-07,  2.2352e-08,  6.5193e-09,  ...,  8.3819e-09,
+          2.1420e-08,  1.8626e-09],
+        [ 2.6077e-08,  2.3283e-08,  2.1420e-08,  ..., -1.7788e-07,
+          8.1956e-08,  9.3132e-10]], device='cuda:0')
+Epoch 187, bias, value: tensor([ 0.0045,  0.0117,  0.0140, -0.0021,  0.0219, -0.0055, -0.0109, -0.0065,
+         0.0158, -0.0132], device='cuda:0'), grad: tensor([ 1.9185e-07,  2.3190e-07, -3.7830e-06, -2.5406e-06,  3.2689e-06,
+         1.9372e-06,  8.1025e-08, -4.2934e-07,  7.4320e-07,  2.9057e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 186, time 251.77, cls_loss 0.0015 cls_loss_mapping 0.0038 cls_loss_causal 0.5297 re_mapping 0.0045 re_causal 0.0137 /// teacc 99.03 lr 0.00010000
+Epoch 188, weight, value: tensor([[-0.1615, -0.0336,  0.1765,  ...,  0.0415, -0.1587, -0.1230],
+        [-0.1071, -0.1211, -0.0300,  ..., -0.0935, -0.1285, -0.0603],
+        [ 0.1997, -0.0559, -0.1683,  ..., -0.1414, -0.1402, -0.1805],
+        ...,
+        [-0.0569, -0.0155, -0.1764,  ..., -0.0770,  0.0825,  0.0140],
+        [-0.1511, -0.0942, -0.0236,  ..., -0.1509, -0.0220, -0.0246],
+        [-0.0549, -0.0791, -0.0890,  ...,  0.0916,  0.0288, -0.1504]],
+       device='cuda:0'), grad: tensor([[ 7.1712e-08,  2.6077e-08, -3.7532e-07,  ...,  3.4180e-07,
+          1.3877e-07,  2.7940e-09],
+        [ 1.7975e-07,  7.3574e-08, -1.1176e-08,  ...,  4.1630e-07,
+          5.0291e-07,  2.1420e-08],
+        [ 1.6671e-07,  2.1141e-07,  1.7695e-08,  ...,  4.4610e-07,
+          1.6391e-07,  2.7940e-09],
+        ...,
+        [ 3.0920e-07,  1.2759e-07,  3.1665e-08,  ...,  9.9652e-07,
+         -7.7393e-07, -3.2596e-08],
+        [ 1.1083e-07,  3.2596e-08,  5.5879e-08,  ...,  9.2015e-07,
+          4.8243e-07,  9.3132e-10],
+        [ 5.8673e-08,  2.7008e-08,  1.3318e-07,  ..., -1.3439e-06,
+         -9.3691e-07,  6.5193e-09]], device='cuda:0')
+Epoch 188, bias, value: tensor([ 0.0043,  0.0117,  0.0141, -0.0026,  0.0217, -0.0043, -0.0103, -0.0067,
+         0.0152, -0.0130], device='cuda:0'), grad: tensor([ 1.2424e-06,  9.8627e-07,  2.4289e-06, -1.7760e-06, -7.0632e-06,
+         1.3961e-06,  1.3188e-06, -5.9605e-08,  3.6731e-06, -2.1793e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 187, time 251.51, cls_loss 0.0012 cls_loss_mapping 0.0031 cls_loss_causal 0.5084 re_mapping 0.0045 re_causal 0.0143 /// teacc 99.12 lr 0.00010000
+Epoch 189, weight, value: tensor([[-0.1622, -0.0337,  0.1767,  ...,  0.0395, -0.1588, -0.1233],
+        [-0.1073, -0.1224, -0.0300,  ..., -0.0936, -0.1299, -0.0605],
+        [ 0.2003, -0.0561, -0.1697,  ..., -0.1421, -0.1409, -0.1806],
+        ...,
+        [-0.0574, -0.0167, -0.1780,  ..., -0.0774,  0.0828,  0.0142],
+        [-0.1522, -0.0950, -0.0236,  ..., -0.1514, -0.0222, -0.0247],
+        [-0.0550, -0.0792, -0.0897,  ...,  0.0933,  0.0287, -0.1504]],
+       device='cuda:0'), grad: tensor([[ 2.3656e-07,  1.4901e-08, -5.6811e-08,  ..., -1.6950e-07,
+          6.0536e-08,  9.4995e-08],
+        [-1.2787e-06,  8.0094e-08,  1.8626e-07,  ...,  3.3528e-08,
+          1.2945e-07,  4.2841e-08],
+        [-1.9521e-06, -1.0245e-08,  4.6566e-08,  ...,  7.4506e-09,
+          1.5926e-07,  1.4901e-08],
+        ...,
+        [ 1.8552e-06,  2.2724e-07,  2.1420e-08,  ...,  5.1223e-08,
+         -4.6939e-07,  9.3132e-10],
+        [ 5.7928e-07,  6.2399e-08,  2.1979e-07,  ...,  3.7253e-08,
+          5.8673e-08,  6.5193e-08],
+        [ 7.3574e-08,  9.4995e-08,  1.9837e-07,  ..., -1.6298e-07,
+          3.3528e-08,  4.6566e-09]], device='cuda:0')
+Epoch 189, bias, value: tensor([ 0.0024,  0.0117,  0.0142, -0.0033,  0.0216, -0.0031, -0.0101, -0.0067,
+         0.0149, -0.0117], device='cuda:0'), grad: tensor([ 7.3668e-07, -2.0072e-05,  1.7695e-06, -4.2655e-06,  2.6915e-06,
+         3.1181e-06, -2.2352e-06,  1.5438e-05,  1.9539e-06,  8.6892e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 188, time 251.42, cls_loss 0.0009 cls_loss_mapping 0.0026 cls_loss_causal 0.5049 re_mapping 0.0046 re_causal 0.0147 /// teacc 98.95 lr 0.00010000
+Epoch 190, weight, value: tensor([[-0.1626, -0.0337,  0.1769,  ...,  0.0395, -0.1591, -0.1236],
+        [-0.1075, -0.1234, -0.0302,  ..., -0.0937, -0.1305, -0.0606],
+        [ 0.2025, -0.0564, -0.1712,  ..., -0.1429, -0.1414, -0.1809],
+        ...,
+        [-0.0582, -0.0168, -0.1802,  ..., -0.0770,  0.0847,  0.0142],
+        [-0.1557, -0.0954, -0.0241,  ..., -0.1517, -0.0223, -0.0248],
+        [-0.0554, -0.0793, -0.0904,  ...,  0.0932,  0.0278, -0.1505]],
+       device='cuda:0'), grad: tensor([[ 1.5367e-08,  6.5193e-09,  1.5832e-07,  ...,  1.4435e-08,
+          7.7765e-08,  7.2643e-08],
+        [ 4.7963e-08,  1.5832e-08, -6.9849e-09,  ...,  2.6077e-08,
+          3.1665e-08, -2.5388e-06],
+        [-7.4506e-08,  1.2573e-08,  2.7940e-08,  ...,  2.1420e-08,
+          2.2352e-08,  5.8673e-08],
+        ...,
+        [ 8.4750e-08,  4.3772e-08,  1.0710e-08,  ...,  4.6659e-07,
+          2.8219e-07,  4.1258e-07],
+        [ 3.0734e-08,  5.6345e-08,  1.7276e-07,  ...,  4.1910e-08,
+          2.1514e-07,  1.0161e-06],
+        [ 7.4506e-09,  4.1910e-09,  2.6543e-08,  ...,  9.8255e-08,
+          5.8673e-08,  4.0513e-08]], device='cuda:0')
+Epoch 190, bias, value: tensor([ 0.0024,  0.0119,  0.0161, -0.0032,  0.0215, -0.0033, -0.0096, -0.0067,
+         0.0130, -0.0121], device='cuda:0'), grad: tensor([ 1.3644e-06, -1.3769e-04,  2.8387e-06, -4.6566e-08,  2.6658e-05,
+         1.5870e-05,  1.1757e-05,  2.3857e-05,  5.3197e-05,  2.2110e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 189, time 251.64, cls_loss 0.0008 cls_loss_mapping 0.0029 cls_loss_causal 0.4971 re_mapping 0.0048 re_causal 0.0148 /// teacc 98.99 lr 0.00010000
+Epoch 191, weight, value: tensor([[-0.1628, -0.0338,  0.1767,  ...,  0.0393, -0.1594, -0.1247],
+        [-0.1079, -0.1241, -0.0303,  ..., -0.0940, -0.1311, -0.0602],
+        [ 0.2029, -0.0565, -0.1717,  ..., -0.1433, -0.1419, -0.1810],
+        ...,
+        [-0.0582, -0.0169, -0.1813,  ..., -0.0775,  0.0850,  0.0141],
+        [-0.1558, -0.0960, -0.0243,  ..., -0.1520, -0.0226, -0.0248],
+        [-0.0555, -0.0794, -0.0908,  ...,  0.0937,  0.0281, -0.1505]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  3.7253e-09, -4.8429e-07,  ..., -1.3318e-07,
+          1.2573e-07,  2.5425e-07],
+        [ 2.6077e-08,  3.7253e-09,  3.5018e-07,  ...,  2.1700e-07,
+          5.3365e-07,  6.5845e-07],
+        [-7.5437e-08,  9.3132e-10,  4.0326e-07,  ...,  1.9558e-08,
+          3.5204e-07,  9.1735e-07],
+        ...,
+        [ 3.7253e-08,  5.5879e-09,  4.0978e-08,  ...,  7.9907e-07,
+         -2.2724e-07, -4.6566e-09],
+        [ 3.7253e-09,  3.7253e-09,  3.1367e-06,  ...,  1.3970e-08,
+          1.9819e-06,  7.0632e-06],
+        [ 9.3132e-10,  4.6566e-09,  2.0582e-07,  ..., -1.0030e-06,
+         -5.1968e-07,  2.7008e-08]], device='cuda:0')
+Epoch 191, bias, value: tensor([ 0.0019,  0.0120,  0.0161, -0.0032,  0.0213, -0.0032, -0.0093, -0.0068,
+         0.0128, -0.0117], device='cuda:0'), grad: tensor([ 2.8871e-07,  1.6876e-06,  3.7439e-06,  2.4233e-06, -1.1921e-07,
+         5.8524e-06, -3.7879e-05,  1.0943e-06,  2.5809e-05, -2.8983e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 190, time 251.57, cls_loss 0.0012 cls_loss_mapping 0.0035 cls_loss_causal 0.5013 re_mapping 0.0045 re_causal 0.0137 /// teacc 98.85 lr 0.00010000
+Epoch 192, weight, value: tensor([[-0.1632, -0.0338,  0.1765,  ...,  0.0393, -0.1597, -0.1261],
+        [-0.1086, -0.1252, -0.0303,  ..., -0.0943, -0.1320, -0.0592],
+        [ 0.2029, -0.0594, -0.1734,  ..., -0.1449, -0.1428, -0.1810],
+        ...,
+        [-0.0580, -0.0167, -0.1832,  ..., -0.0779,  0.0856,  0.0135],
+        [-0.1559, -0.0962, -0.0245,  ..., -0.1525, -0.0227, -0.0251],
+        [-0.0554, -0.0794, -0.0914,  ...,  0.0911,  0.0250, -0.1506]],
+       device='cuda:0'), grad: tensor([[ 1.5832e-08,  9.3132e-10, -1.6131e-06,  ..., -5.2433e-07,
+          4.9360e-08,  6.7055e-08],
+        [ 6.3330e-08,  6.5193e-09,  1.0245e-07,  ...,  1.1176e-07,
+          6.3330e-08,  2.8871e-08],
+        [-1.7416e-07,  5.5879e-09,  2.4028e-07,  ...,  8.8476e-08,
+          2.8871e-08,  6.3330e-08],
+        ...,
+        [ 2.5146e-08,  7.4506e-09,  6.7987e-08,  ...,  6.0257e-07,
+          2.8964e-07,  3.7253e-09],
+        [ 3.0734e-08,  2.7940e-09,  1.3132e-07,  ...,  1.1921e-07,
+          5.3085e-08,  3.2596e-08],
+        [ 4.6566e-09,  9.3132e-10,  4.4703e-07,  ..., -1.9576e-06,
+         -1.0831e-06,  1.8626e-09]], device='cuda:0')
+Epoch 192, bias, value: tensor([ 0.0018,  0.0121,  0.0156, -0.0030,  0.0244, -0.0035, -0.0091, -0.0067,
+         0.0127, -0.0144], device='cuda:0'), grad: tensor([-2.5332e-06, -6.6962e-07,  6.6217e-07,  6.3423e-07,  4.8652e-06,
+         8.7731e-07, -1.6391e-07,  2.6189e-06, -1.0859e-06, -5.2303e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 191, time 251.72, cls_loss 0.0010 cls_loss_mapping 0.0041 cls_loss_causal 0.5120 re_mapping 0.0048 re_causal 0.0145 /// teacc 98.99 lr 0.00010000
+Epoch 193, weight, value: tensor([[-0.1637, -0.0339,  0.1749,  ...,  0.0393, -0.1612, -0.1305],
+        [-0.1088, -0.1260, -0.0304,  ..., -0.0951, -0.1328, -0.0598],
+        [ 0.2031, -0.0595, -0.1752,  ..., -0.1458, -0.1437, -0.1824],
+        ...,
+        [-0.0581, -0.0168, -0.1841,  ..., -0.0791,  0.0856,  0.0134],
+        [-0.1561, -0.0960, -0.0247,  ..., -0.1529, -0.0228, -0.0252],
+        [-0.0555, -0.0797, -0.0916,  ...,  0.0916,  0.0251, -0.1507]],
+       device='cuda:0'), grad: tensor([[ 2.7195e-07,  2.6356e-07, -6.6236e-06,  ..., -1.9316e-06,
+          5.4948e-08,  7.2643e-08],
+        [ 1.3970e-07,  1.6019e-07,  2.5332e-07,  ...,  2.8871e-08,
+          6.9849e-08,  8.1025e-08],
+        [ 1.8671e-05,  4.1753e-05,  1.1707e-06,  ...,  2.3190e-07,
+          2.9802e-08,  2.1420e-08],
+        ...,
+        [ 3.2783e-07,  7.2084e-07,  1.2107e-07,  ...,  6.5193e-08,
+         -5.4948e-08,  2.7940e-09],
+        [-1.2349e-06, -9.7323e-07,  2.1216e-06,  ...,  1.1334e-06,
+          7.3574e-08,  1.0058e-07],
+        [ 3.1013e-07,  2.7288e-07,  1.8850e-06,  ...,  1.3690e-07,
+         -7.7300e-08,  3.7253e-09]], device='cuda:0')
+Epoch 193, bias, value: tensor([ 0.0007,  0.0121,  0.0152, -0.0041,  0.0239, -0.0027, -0.0074, -0.0069,
+         0.0130, -0.0138], device='cuda:0'), grad: tensor([-1.0349e-05,  2.1625e-06,  8.4281e-05, -8.1658e-05,  8.5868e-07,
+        -2.3738e-05,  3.3915e-05,  1.9670e-06, -1.6168e-05,  8.6501e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 192, time 251.27, cls_loss 0.0010 cls_loss_mapping 0.0035 cls_loss_causal 0.5266 re_mapping 0.0044 re_causal 0.0136 /// teacc 99.08 lr 0.00010000
+Epoch 194, weight, value: tensor([[-0.1641, -0.0340,  0.1752,  ...,  0.0392, -0.1614, -0.1306],
+        [-0.1092, -0.1273, -0.0309,  ..., -0.0954, -0.1337, -0.0600],
+        [ 0.2032, -0.0603, -0.1773,  ..., -0.1462, -0.1450, -0.1837],
+        ...,
+        [-0.0575, -0.0173, -0.1858,  ..., -0.0794,  0.0860,  0.0135],
+        [-0.1562, -0.0961, -0.0250,  ..., -0.1533, -0.0228, -0.0251],
+        [-0.0567, -0.0799, -0.0922,  ...,  0.0917,  0.0253, -0.1508]],
+       device='cuda:0'), grad: tensor([[-3.5390e-08,  9.3132e-10,  5.6066e-06,  ..., -4.8894e-07,
+          1.6019e-07,  1.6158e-06],
+        [ 2.5146e-08,  4.6566e-09,  9.4995e-08,  ...,  5.0291e-08,
+          2.8871e-08,  3.9116e-08],
+        [ 5.5879e-09,  3.7253e-09,  1.6857e-07,  ...,  1.1548e-07,
+          1.3970e-08,  1.0245e-08],
+        ...,
+        [ 2.5146e-08,  5.5879e-09,  3.6322e-08,  ...,  4.3772e-08,
+         -1.4901e-08,  1.8626e-09],
+        [ 3.5390e-08,  4.6566e-09,  3.1944e-07,  ...,  5.2154e-08,
+          8.4750e-08,  9.8720e-08],
+        [ 1.1269e-07,  1.3970e-08,  4.1444e-07,  ...,  4.2934e-07,
+          1.5832e-08,  1.6764e-08]], device='cuda:0')
+Epoch 194, bias, value: tensor([ 0.0007,  0.0121,  0.0146, -0.0038,  0.0237, -0.0030, -0.0074, -0.0068,
+         0.0133, -0.0137], device='cuda:0'), grad: tensor([ 8.8587e-06, -3.5353e-06,  8.8476e-07, -2.5127e-06, -1.4128e-06,
+         1.9185e-06, -9.0599e-06,  2.2314e-06,  4.2934e-07,  2.1532e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 193, time 251.80, cls_loss 0.0008 cls_loss_mapping 0.0024 cls_loss_causal 0.4930 re_mapping 0.0043 re_causal 0.0140 /// teacc 99.11 lr 0.00010000
+Epoch 195, weight, value: tensor([[-0.1646, -0.0338,  0.1756,  ...,  0.0393, -0.1616, -0.1307],
+        [-0.1103, -0.1285, -0.0308,  ..., -0.0956, -0.1338, -0.0596],
+        [ 0.2037, -0.0604, -0.1780,  ..., -0.1466, -0.1453, -0.1841],
+        ...,
+        [-0.0568, -0.0174, -0.1891,  ..., -0.0802,  0.0857,  0.0135],
+        [-0.1562, -0.0963, -0.0250,  ..., -0.1538, -0.0229, -0.0250],
+        [-0.0572, -0.0799, -0.0930,  ...,  0.0918,  0.0254, -0.1509]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09,  1.8626e-09, -6.3702e-07,  ..., -2.2445e-07,
+          5.6811e-08,  6.5193e-09],
+        [ 5.2154e-08,  1.2107e-08,  2.6077e-08,  ...,  1.3039e-07,
+          3.1292e-07,  2.7940e-08],
+        [-4.6566e-09,  7.4506e-09,  2.1420e-08,  ...,  8.9407e-08,
+          1.8813e-07,  1.6764e-08],
+        ...,
+        [-6.1002e-07,  1.3039e-08,  2.1420e-08,  ..., -1.5022e-06,
+         -3.6657e-06, -2.9709e-07],
+        [ 3.9116e-08,  1.4529e-07,  3.9116e-08,  ...,  2.7176e-06,
+          1.5963e-06,  6.5193e-09],
+        [ 4.3493e-07, -1.3877e-07,  2.2445e-07,  ..., -2.1793e-06,
+          5.9046e-07,  2.0023e-07]], device='cuda:0')
+Epoch 195, bias, value: tensor([ 0.0009,  0.0123,  0.0145, -0.0046,  0.0237, -0.0024, -0.0077, -0.0070,
+         0.0136, -0.0137], device='cuda:0'), grad: tensor([-6.6403e-07,  1.1064e-06,  6.2864e-07, -2.6915e-07,  2.7455e-06,
+         1.0561e-06,  3.9954e-07, -1.0505e-05,  6.8471e-06, -1.3895e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 194, time 251.58, cls_loss 0.0010 cls_loss_mapping 0.0024 cls_loss_causal 0.4918 re_mapping 0.0044 re_causal 0.0139 /// teacc 99.14 lr 0.00010000
+Epoch 196, weight, value: tensor([[-0.1657, -0.0338,  0.1761,  ...,  0.0394, -0.1617, -0.1306],
+        [-0.1110, -0.1331, -0.0310,  ..., -0.0955, -0.1344, -0.0598],
+        [ 0.2045, -0.0605, -0.1789,  ..., -0.1472, -0.1455, -0.1842],
+        ...,
+        [-0.0572, -0.0170, -0.1906,  ..., -0.0808,  0.0857,  0.0137],
+        [-0.1565, -0.0987, -0.0234,  ..., -0.1521, -0.0232, -0.0249],
+        [-0.0577, -0.0806, -0.0962,  ...,  0.0918,  0.0256, -0.1510]],
+       device='cuda:0'), grad: tensor([[ 5.3085e-08,  1.6764e-08,  8.8476e-08,  ...,  1.1642e-06,
+          2.8498e-07,  9.7789e-08],
+        [ 2.9895e-07,  5.7742e-08,  3.7253e-09,  ...,  5.8115e-07,
+          1.0338e-07,  1.3877e-07],
+        [-1.4659e-06, -1.1362e-07,  1.5832e-08,  ...,  7.5903e-07,
+          1.5739e-07,  1.2573e-07],
+        ...,
+        [ 1.0198e-06,  1.1083e-07,  2.9802e-08,  ...,  9.0897e-07,
+          1.9558e-08,  2.7474e-07],
+        [ 8.0094e-08,  3.5390e-08,  3.0734e-08,  ...,  3.2596e-06,
+          8.4564e-07,  1.3411e-07],
+        [ 1.3970e-08,  1.4901e-08,  2.7940e-08,  ..., -1.1005e-05,
+         -2.4512e-06,  4.2375e-07]], device='cuda:0')
+Epoch 196, bias, value: tensor([ 0.0011,  0.0123,  0.0147, -0.0046,  0.0236, -0.0022, -0.0083, -0.0071,
+         0.0153, -0.0139], device='cuda:0'), grad: tensor([ 2.8051e-06,  1.2983e-06, -1.4808e-07, -1.2573e-07,  5.1223e-07,
+         9.6187e-06,  3.8128e-06,  4.4517e-06, -3.0436e-06, -1.9237e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 195, time 251.51, cls_loss 0.0009 cls_loss_mapping 0.0023 cls_loss_causal 0.5240 re_mapping 0.0044 re_causal 0.0142 /// teacc 99.07 lr 0.00010000
+Epoch 197, weight, value: tensor([[-0.1677, -0.0335,  0.1768,  ...,  0.0398, -0.1618, -0.1307],
+        [-0.1111, -0.1352, -0.0313,  ..., -0.0960, -0.1353, -0.0600],
+        [ 0.2051, -0.0604, -0.1810,  ..., -0.1488, -0.1458, -0.1845],
+        ...,
+        [-0.0582, -0.0180, -0.1926,  ..., -0.0813,  0.0858,  0.0139],
+        [-0.1565, -0.0995, -0.0233,  ..., -0.1525, -0.0237, -0.0253],
+        [-0.0580, -0.0815, -0.0988,  ...,  0.0918,  0.0258, -0.1510]],
+       device='cuda:0'), grad: tensor([[ 3.2503e-07,  0.0000e+00,  6.5565e-07,  ...,  2.4680e-07,
+          2.6263e-07,  1.6019e-07],
+        [-1.9856e-06,  0.0000e+00, -2.4047e-06,  ...,  1.5274e-07,
+          1.2014e-07,  1.9558e-08],
+        [ 8.4098e-07,  9.3132e-10,  1.0505e-06,  ...,  9.2201e-08,
+          3.9116e-08,  2.0489e-08],
+        ...,
+        [ 2.7101e-07,  9.3132e-10,  2.5798e-07,  ...,  5.4482e-07,
+          1.5460e-07, -1.3039e-08],
+        [ 5.2806e-07,  9.3132e-10,  7.2550e-07,  ...,  2.8778e-07,
+          1.3597e-07,  4.8429e-08],
+        [-8.7544e-08,  0.0000e+00,  1.1362e-07,  ..., -2.7586e-06,
+         -1.0859e-06,  4.0978e-08]], device='cuda:0')
+Epoch 197, bias, value: tensor([ 0.0015,  0.0123,  0.0145, -0.0041,  0.0236, -0.0036, -0.0072, -0.0072,
+         0.0156, -0.0141], device='cuda:0'), grad: tensor([ 8.1733e-06, -4.5955e-05,  1.9863e-05,  1.5618e-06,  3.2187e-06,
+         9.5740e-07, -1.2238e-06,  6.2510e-06,  1.2979e-05, -5.8822e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 196, time 251.48, cls_loss 0.0008 cls_loss_mapping 0.0032 cls_loss_causal 0.5345 re_mapping 0.0045 re_causal 0.0148 /// teacc 99.15 lr 0.00010000
+Epoch 198, weight, value: tensor([[-0.1688, -0.0340,  0.1767,  ...,  0.0397, -0.1623, -0.1307],
+        [-0.1112, -0.1368, -0.0312,  ..., -0.0962, -0.1362, -0.0602],
+        [ 0.2054, -0.0604, -0.1820,  ..., -0.1494, -0.1461, -0.1847],
+        ...,
+        [-0.0585, -0.0194, -0.1950,  ..., -0.0819,  0.0857,  0.0141],
+        [-0.1567, -0.1001, -0.0233,  ..., -0.1527, -0.0237, -0.0253],
+        [-0.0591, -0.0819, -0.0992,  ...,  0.0918,  0.0258, -0.1511]],
+       device='cuda:0'), grad: tensor([[ 2.4214e-08,  0.0000e+00, -9.0338e-08,  ...,  1.1176e-08,
+          4.2841e-08,  8.3819e-09],
+        [ 9.5926e-08,  1.8626e-09,  2.7940e-09,  ...,  1.5087e-07,
+          9.5926e-08,  2.7940e-09],
+        [-9.8348e-07,  1.8626e-09,  9.3132e-09,  ...,  1.0990e-07,
+          5.7742e-08,  1.8626e-09],
+        ...,
+        [ 4.2375e-07,  1.8626e-09,  9.3132e-10,  ...,  1.8990e-06,
+          8.9686e-07,  0.0000e+00],
+        [ 1.9930e-07,  0.0000e+00,  1.7695e-08,  ...,  3.5577e-07,
+          1.8533e-07,  6.5193e-09],
+        [ 8.3819e-09,  0.0000e+00,  3.9116e-08,  ...,  2.5481e-06,
+          1.2824e-06,  1.8626e-09]], device='cuda:0')
+Epoch 198, bias, value: tensor([ 0.0012,  0.0124,  0.0144, -0.0038,  0.0238, -0.0034, -0.0073, -0.0073,
+         0.0159, -0.0142], device='cuda:0'), grad: tensor([ 1.3504e-07,  1.2107e-07, -1.3011e-06,  1.7695e-07, -1.8358e-05,
+         7.4133e-07,  9.5181e-07,  7.3016e-06,  1.6447e-06,  8.5756e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 197, time 251.62, cls_loss 0.0006 cls_loss_mapping 0.0029 cls_loss_causal 0.5086 re_mapping 0.0045 re_causal 0.0146 /// teacc 99.06 lr 0.00010000
+Epoch 199, weight, value: tensor([[-0.1691, -0.0340,  0.1769,  ...,  0.0397, -0.1624, -0.1308],
+        [-0.1113, -0.1382, -0.0312,  ..., -0.0963, -0.1372, -0.0607],
+        [ 0.2056, -0.0606, -0.1826,  ..., -0.1506, -0.1466, -0.1851],
+        ...,
+        [-0.0585, -0.0197, -0.1965,  ..., -0.0823,  0.0861,  0.0157],
+        [-0.1568, -0.1023, -0.0234,  ..., -0.1529, -0.0240, -0.0254],
+        [-0.0591, -0.0820, -0.0995,  ...,  0.0918,  0.0258, -0.1512]],
+       device='cuda:0'), grad: tensor([[ 1.0617e-07,  9.3132e-10,  5.3085e-08,  ..., -1.4063e-07,
+          2.7940e-09,  9.3132e-10],
+        [ 2.5891e-07,  5.5879e-09, -3.0845e-06,  ...,  4.8429e-08,
+          4.5635e-08,  5.5879e-09],
+        [-3.8855e-06,  9.3132e-10,  8.9128e-07,  ...,  6.5193e-09,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 2.5108e-06, -5.5879e-09,  1.8198e-06,  ...,  2.7008e-08,
+         -1.0896e-07, -1.6764e-08],
+        [ 1.6671e-07,  4.2841e-08,  2.7008e-08,  ...,  2.4214e-08,
+          3.0734e-08,  1.7695e-08],
+        [ 7.4506e-09,  1.8626e-09,  1.1828e-07,  ...,  2.7940e-09,
+         -4.0047e-08,  1.8626e-09]], device='cuda:0')
+Epoch 199, bias, value: tensor([ 0.0013,  0.0126,  0.0141, -0.0039,  0.0238, -0.0033, -0.0074, -0.0074,
+         0.0157, -0.0143], device='cuda:0'), grad: tensor([ 9.2946e-07, -1.3046e-05, -2.9467e-06,  1.2536e-06,  2.2911e-07,
+        -5.2154e-07,  5.4203e-07,  1.2249e-05,  1.1371e-06,  1.5274e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 198, time 251.80, cls_loss 0.0007 cls_loss_mapping 0.0028 cls_loss_causal 0.4991 re_mapping 0.0044 re_causal 0.0142 /// teacc 99.13 lr 0.00010000
+Epoch 200, weight, value: tensor([[-0.1694, -0.0341,  0.1771,  ...,  0.0398, -0.1625, -0.1308],
+        [-0.1116, -0.1401, -0.0319,  ..., -0.0962, -0.1382, -0.0617],
+        [ 0.2061, -0.0608, -0.1831,  ..., -0.1510, -0.1469, -0.1852],
+        ...,
+        [-0.0587, -0.0196, -0.1975,  ..., -0.0826,  0.0865,  0.0159],
+        [-0.1571, -0.1038, -0.0234,  ..., -0.1532, -0.0243, -0.0254],
+        [-0.0592, -0.0824, -0.0997,  ...,  0.0919,  0.0259, -0.1513]],
+       device='cuda:0'), grad: tensor([[ 2.3823e-06,  7.4506e-09,  4.3772e-08,  ...,  9.3132e-09,
+          3.8184e-08,  1.3970e-08],
+        [ 3.5111e-07,  4.5635e-08,  2.8871e-08,  ...,  5.0291e-08,
+          8.4657e-07,  1.3039e-08],
+        [-1.0416e-05,  1.1828e-07,  9.3132e-09,  ...,  1.8626e-09,
+          2.5146e-08,  2.7940e-09],
+        ...,
+        [ 6.0908e-07,  6.5193e-08,  0.0000e+00,  ..., -5.1223e-08,
+         -1.1018e-06,  0.0000e+00],
+        [ 5.1372e-06,  1.9558e-08,  2.3283e-08,  ...,  4.9360e-08,
+          3.8184e-08,  8.3819e-09],
+        [ 1.9185e-07,  1.8626e-08,  1.8626e-09,  ..., -1.8533e-07,
+          1.1642e-07,  9.3132e-10]], device='cuda:0')
+Epoch 200, bias, value: tensor([ 0.0014,  0.0126,  0.0141, -0.0037,  0.0237, -0.0035, -0.0073, -0.0075,
+         0.0157, -0.0142], device='cuda:0'), grad: tensor([ 6.5416e-06,  5.7071e-06, -2.7671e-05,  3.5539e-06,  3.7998e-07,
+         1.5814e-06, -1.1921e-07, -4.4927e-06,  1.3724e-05,  7.7859e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 199, time 251.56, cls_loss 0.0010 cls_loss_mapping 0.0041 cls_loss_causal 0.4995 re_mapping 0.0044 re_causal 0.0136 /// teacc 98.96 lr 0.00010000
+Epoch 201, weight, value: tensor([[-0.1709, -0.0344,  0.1774,  ...,  0.0399, -0.1627, -0.1310],
+        [-0.1133, -0.1425, -0.0333,  ..., -0.0966, -0.1395, -0.0635],
+        [ 0.2073, -0.0610, -0.1823,  ..., -0.1532, -0.1473, -0.1856],
+        ...,
+        [-0.0593, -0.0203, -0.1985,  ..., -0.0836,  0.0872,  0.0159],
+        [-0.1575, -0.1036, -0.0233,  ..., -0.1533, -0.0240, -0.0254],
+        [-0.0591, -0.0830, -0.1003,  ...,  0.0921,  0.0262, -0.1513]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  1.8626e-09, -3.6322e-08,  ...,  1.5832e-08,
+          2.7940e-08,  7.4506e-09],
+        [ 3.3528e-08,  7.4506e-09, -0.0000e+00,  ...,  4.7497e-07,
+          1.9744e-07,  2.7940e-09],
+        [-5.0291e-08,  4.6566e-09,  5.5879e-09,  ...,  4.3772e-08,
+          2.7008e-08,  2.7940e-09],
+        ...,
+        [ 3.4459e-08,  2.3283e-08,  4.6566e-09,  ...,  1.5181e-07,
+          3.8184e-08,  2.7940e-09],
+        [ 4.6566e-09,  5.5879e-09,  1.6764e-08,  ...,  4.1910e-08,
+          4.8429e-08,  2.1420e-08],
+        [ 4.6566e-09,  5.5879e-09,  3.1665e-08,  ...,  4.5970e-06,
+          1.9027e-06,  6.5193e-09]], device='cuda:0')
+Epoch 201, bias, value: tensor([ 0.0014,  0.0122,  0.0145, -0.0030,  0.0235, -0.0042, -0.0071, -0.0073,
+         0.0163, -0.0141], device='cuda:0'), grad: tensor([ 8.7544e-08,  1.1278e-06,  9.4064e-08,  2.0638e-06, -1.1101e-05,
+        -2.4512e-06,  5.7369e-07,  4.5262e-07, -1.6671e-07,  9.3356e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 200, time 251.42, cls_loss 0.0009 cls_loss_mapping 0.0031 cls_loss_causal 0.5043 re_mapping 0.0040 re_causal 0.0128 /// teacc 99.06 lr 0.00010000
+Epoch 202, weight, value: tensor([[-0.1716, -0.0345,  0.1778,  ...,  0.0401, -0.1628, -0.1311],
+        [-0.1135, -0.1436, -0.0336,  ..., -0.0971, -0.1422, -0.0644],
+        [ 0.2076, -0.0611, -0.1844,  ..., -0.1562, -0.1483, -0.1863],
+        ...,
+        [-0.0596, -0.0207, -0.1997,  ..., -0.0849,  0.0878,  0.0161],
+        [-0.1577, -0.1036, -0.0235,  ..., -0.1538, -0.0241, -0.0255],
+        [-0.0594, -0.0832, -0.1011,  ...,  0.0924,  0.0269, -0.1515]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-08,  1.3039e-08, -2.7381e-07,  ..., -1.3411e-07,
+          4.3772e-08,  6.4261e-08],
+        [ 1.9558e-07,  3.3528e-08,  4.6566e-08,  ...,  5.8673e-08,
+          1.8626e-07,  4.3772e-08],
+        [ 1.7975e-07,  7.4506e-08,  4.2841e-08,  ...,  1.3039e-08,
+          8.8476e-08,  2.9802e-08],
+        ...,
+        [-2.4773e-07,  7.3574e-08,  1.0245e-08,  ...,  1.0245e-07,
+         -1.4994e-07, -1.5832e-08],
+        [ 1.6019e-07,  1.6019e-07,  6.5193e-08,  ...,  5.0291e-08,
+          5.1223e-08,  3.3528e-08],
+        [ 1.9558e-08,  1.2107e-08,  1.5181e-07,  ..., -3.1479e-07,
+         -3.2037e-07,  3.7253e-09]], device='cuda:0')
+Epoch 202, bias, value: tensor([ 0.0017,  0.0127,  0.0138, -0.0031,  0.0233, -0.0040, -0.0076, -0.0078,
+         0.0162, -0.0138], device='cuda:0'), grad: tensor([ 7.4506e-08,  2.4512e-06,  2.5257e-06,  1.6745e-06,  1.0664e-06,
+         1.9651e-06,  4.3679e-07, -2.3320e-06, -9.6858e-06,  1.8021e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 201, time 251.90, cls_loss 0.0008 cls_loss_mapping 0.0022 cls_loss_causal 0.4989 re_mapping 0.0043 re_causal 0.0139 /// teacc 99.04 lr 0.00010000
+Epoch 203, weight, value: tensor([[-0.1747, -0.0346,  0.1780,  ...,  0.0402, -0.1629, -0.1312],
+        [-0.1141, -0.1453, -0.0337,  ..., -0.0975, -0.1440, -0.0646],
+        [ 0.2088, -0.0611, -0.1849,  ..., -0.1584, -0.1497, -0.1853],
+        ...,
+        [-0.0606, -0.0209, -0.2003,  ..., -0.0862,  0.0884,  0.0160],
+        [-0.1580, -0.1039, -0.0237,  ..., -0.1543, -0.0247, -0.0255],
+        [-0.0596, -0.0834, -0.1015,  ...,  0.0925,  0.0269, -0.1515]],
+       device='cuda:0'), grad: tensor([[ 2.0489e-08,  2.7940e-09, -2.0768e-07,  ..., -2.0768e-07,
+          4.5635e-08,  2.4214e-08],
+        [ 1.9837e-07,  1.7695e-08,  2.3283e-08,  ...,  6.5193e-08,
+          6.6124e-08,  1.8626e-09],
+        [-1.1176e-08,  1.3970e-08,  1.5832e-08,  ...,  5.3085e-08,
+          2.1420e-08,  1.8626e-09],
+        ...,
+        [ 2.5146e-07,  9.3132e-08,  5.0291e-08,  ...,  7.1712e-08,
+         -3.0734e-08,  0.0000e+00],
+        [ 2.5798e-07,  2.1420e-08,  7.3574e-08,  ...,  3.3528e-08,
+          3.5018e-07,  1.3970e-08],
+        [ 7.1712e-08,  6.5193e-09,  9.4064e-08,  ...,  7.8231e-08,
+          8.3819e-08,  9.3132e-10]], device='cuda:0')
+Epoch 203, bias, value: tensor([ 0.0017,  0.0123,  0.0140, -0.0032,  0.0235, -0.0041, -0.0074, -0.0077,
+         0.0161, -0.0138], device='cuda:0'), grad: tensor([-3.2783e-07, -1.4849e-05,  6.0536e-07, -6.8247e-06,  8.5589e-07,
+         6.3702e-07,  8.7824e-07,  4.1649e-06,  1.2673e-05,  2.1346e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 202, time 251.59, cls_loss 0.0009 cls_loss_mapping 0.0025 cls_loss_causal 0.4875 re_mapping 0.0043 re_causal 0.0129 /// teacc 99.01 lr 0.00010000
+Epoch 204, weight, value: tensor([[-0.1753, -0.0346,  0.1781,  ...,  0.0388, -0.1633, -0.1313],
+        [-0.1144, -0.1459, -0.0337,  ..., -0.0982, -0.1454, -0.0649],
+        [ 0.2114, -0.0612, -0.1856,  ..., -0.1587, -0.1493, -0.1856],
+        ...,
+        [-0.0637, -0.0211, -0.2012,  ..., -0.0865,  0.0885,  0.0162],
+        [-0.1582, -0.1041, -0.0239,  ..., -0.1547, -0.0252, -0.0257],
+        [-0.0602, -0.0835, -0.1018,  ...,  0.0931,  0.0269, -0.1516]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  9.3132e-10, -4.5076e-07,  ..., -3.2689e-07,
+          2.4214e-08,  1.2107e-08],
+        [ 2.4214e-08,  2.7940e-09, -2.2724e-07,  ...,  1.6205e-07,
+          5.9605e-08, -3.4459e-08],
+        [-2.5332e-07,  2.7940e-09,  5.2154e-08,  ...,  1.0990e-07,
+          3.6322e-08,  7.4506e-09],
+        ...,
+        [ 3.3528e-08,  3.7253e-09,  2.4214e-08,  ...,  1.0617e-07,
+         -1.4901e-08,  2.7940e-09],
+        [ 2.0582e-07,  4.6566e-09,  1.1548e-07,  ...,  1.1176e-07,
+          1.2480e-07,  4.3772e-08],
+        [ 1.1176e-08,  3.7253e-09,  4.1071e-07,  ...,  2.0489e-06,
+          9.0990e-07,  2.7940e-09]], device='cuda:0')
+Epoch 204, bias, value: tensor([ 0.0005,  0.0123,  0.0155, -0.0025,  0.0236, -0.0046, -0.0070, -0.0084,
+         0.0160, -0.0135], device='cuda:0'), grad: tensor([-5.4669e-07, -6.5845e-07,  1.2014e-07, -3.5241e-06, -5.2005e-06,
+         3.4235e-06,  6.8918e-08,  3.0641e-07,  1.0803e-06,  4.9099e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 203, time 251.37, cls_loss 0.0011 cls_loss_mapping 0.0034 cls_loss_causal 0.5562 re_mapping 0.0041 re_causal 0.0136 /// teacc 98.95 lr 0.00010000
+Epoch 205, weight, value: tensor([[-0.1769, -0.0347,  0.1790,  ...,  0.0386, -0.1634, -0.1313],
+        [-0.1147, -0.1481, -0.0336,  ..., -0.0985, -0.1473, -0.0651],
+        [ 0.2118, -0.0613, -0.1864,  ..., -0.1591, -0.1501, -0.1859],
+        ...,
+        [-0.0638, -0.0216, -0.2030,  ..., -0.0870,  0.0892,  0.0167],
+        [-0.1585, -0.1044, -0.0239,  ..., -0.1547, -0.0254, -0.0259],
+        [-0.0597, -0.0844, -0.1044,  ...,  0.0948,  0.0287, -0.1518]],
+       device='cuda:0'), grad: tensor([[ 3.9116e-08,  9.3132e-10, -1.1697e-06,  ..., -3.7439e-07,
+         -1.3597e-07,  1.1176e-08],
+        [ 7.6368e-08,  9.3132e-10,  1.9558e-08,  ...,  2.7940e-08,
+          2.1420e-08,  2.7940e-09],
+        [-4.0047e-07,  0.0000e+00,  2.3283e-08,  ...,  8.5682e-08,
+          8.3819e-09,  1.5832e-08],
+        ...,
+        [ 1.4901e-07,  9.3132e-10,  9.3132e-09,  ...,  5.2154e-08,
+          1.1176e-08, -9.3132e-10],
+        [ 4.4703e-08,  6.5193e-09,  3.1665e-08,  ...,  1.1083e-07,
+         -3.0734e-08,  8.3819e-09],
+        [ 1.3039e-08,  1.8626e-09,  1.4529e-07,  ..., -8.0094e-08,
+          1.8626e-08,  3.7253e-09]], device='cuda:0')
+Epoch 205, bias, value: tensor([ 0.0004,  0.0125,  0.0152, -0.0021,  0.0223, -0.0048, -0.0075, -0.0083,
+         0.0160, -0.0121], device='cuda:0'), grad: tensor([-1.4370e-06, -1.0179e-06, -4.4052e-07,  4.1816e-07, -3.1386e-07,
+        -3.0454e-07,  1.4985e-06,  1.3430e-06,  1.7509e-07,  7.7300e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 204, time 251.30, cls_loss 0.0013 cls_loss_mapping 0.0034 cls_loss_causal 0.5219 re_mapping 0.0042 re_causal 0.0135 /// teacc 99.04 lr 0.00010000
+Epoch 206, weight, value: tensor([[-0.1776, -0.0348,  0.1794,  ...,  0.0387, -0.1637, -0.1314],
+        [-0.1155, -0.1505, -0.0338,  ..., -0.0982, -0.1510, -0.0658],
+        [ 0.2121, -0.0616, -0.1873,  ..., -0.1593, -0.1509, -0.1861],
+        ...,
+        [-0.0635, -0.0216, -0.2039,  ..., -0.0873,  0.0925,  0.0182],
+        [-0.1586, -0.1046, -0.0241,  ..., -0.1554, -0.0258, -0.0259],
+        [-0.0614, -0.0852, -0.1052,  ...,  0.0939,  0.0270, -0.1519]],
+       device='cuda:0'), grad: tensor([[ 4.9360e-08,  0.0000e+00,  2.8778e-07,  ..., -9.3132e-10,
+          3.6508e-07,  6.7987e-08],
+        [ 9.4064e-08,  9.3132e-10,  4.6566e-08,  ...,  1.2107e-08,
+          9.7789e-08,  1.4901e-08],
+        [-1.2545e-06,  0.0000e+00,  1.5181e-07,  ...,  3.7253e-09,
+          1.6671e-07,  2.8871e-08],
+        ...,
+        [ 9.3970e-07,  9.3132e-10,  2.0489e-08,  ...,  1.4901e-08,
+         -2.7940e-09,  3.7253e-09],
+        [ 3.0734e-08,  0.0000e+00,  2.5332e-07,  ...,  5.6811e-08,
+          3.7346e-07,  7.7300e-08],
+        [ 4.6566e-09,  0.0000e+00,  1.7695e-07,  ..., -3.7253e-07,
+          1.1083e-07,  3.5390e-08]], device='cuda:0')
+Epoch 206, bias, value: tensor([ 0.0005,  0.0137,  0.0146, -0.0020,  0.0233, -0.0018, -0.0104, -0.0083,
+         0.0163, -0.0139], device='cuda:0'), grad: tensor([ 1.2182e-06, -8.4750e-08, -1.4249e-06,  2.5332e-07,  1.2452e-06,
+         8.4788e-06, -1.1019e-05,  1.6587e-06, -2.2445e-07, -1.6019e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 205, time 251.46, cls_loss 0.0008 cls_loss_mapping 0.0023 cls_loss_causal 0.4995 re_mapping 0.0042 re_causal 0.0135 /// teacc 99.09 lr 0.00010000
+Epoch 207, weight, value: tensor([[-0.1785, -0.0349,  0.1795,  ...,  0.0387, -0.1640, -0.1315],
+        [-0.1162, -0.1516, -0.0339,  ..., -0.0989, -0.1534, -0.0659],
+        [ 0.2105, -0.0648, -0.1877,  ..., -0.1595, -0.1533, -0.1860],
+        ...,
+        [-0.0633, -0.0203, -0.2045,  ..., -0.0882,  0.0935,  0.0183],
+        [-0.1589, -0.1049, -0.0243,  ..., -0.1562, -0.0264, -0.0260],
+        [-0.0615, -0.0853, -0.1054,  ...,  0.0940,  0.0271, -0.1519]],
+       device='cuda:0'), grad: tensor([[2.7940e-08, 1.0245e-08, 5.4948e-08,  ..., 9.3132e-10, 4.2841e-08,
+         5.4017e-08],
+        [5.8673e-08, 3.2596e-08, 1.0338e-07,  ..., 7.4506e-09, 6.8918e-08,
+         1.1642e-07],
+        [2.5146e-08, 6.1467e-08, 6.1467e-08,  ..., 8.3819e-09, 5.1223e-08,
+         8.3819e-08],
+        ...,
+        [3.0082e-07, 2.2352e-07, 3.7253e-09,  ..., 2.7940e-09, 3.4459e-08,
+         1.9185e-07],
+        [3.0734e-08, 1.6764e-08, 1.1548e-07,  ..., 1.1083e-07, 9.1270e-08,
+         1.0896e-07],
+        [9.3132e-09, 5.5879e-09, 1.7695e-08,  ..., 2.0210e-07, 6.7987e-08,
+         1.4901e-08]], device='cuda:0')
+Epoch 207, bias, value: tensor([ 0.0005,  0.0135,  0.0125, -0.0003,  0.0232, -0.0016, -0.0106, -0.0081,
+         0.0163, -0.0137], device='cuda:0'), grad: tensor([ 2.6822e-07,  4.8336e-07,  4.1630e-07, -2.5816e-06, -1.6671e-07,
+         6.1654e-07, -1.7826e-06,  1.3085e-06,  6.8173e-07,  7.6182e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 206, time 251.34, cls_loss 0.0008 cls_loss_mapping 0.0025 cls_loss_causal 0.4754 re_mapping 0.0040 re_causal 0.0126 /// teacc 99.11 lr 0.00010000
+Epoch 208, weight, value: tensor([[-0.1787, -0.0349,  0.1802,  ...,  0.0381, -0.1639, -0.1315],
+        [-0.1165, -0.1526, -0.0352,  ..., -0.0997, -0.1539, -0.0660],
+        [ 0.2108, -0.0648, -0.1884,  ..., -0.1597, -0.1537, -0.1858],
+        ...,
+        [-0.0633, -0.0205, -0.2058,  ..., -0.0886,  0.0936,  0.0183],
+        [-0.1595, -0.1051, -0.0244,  ..., -0.1565, -0.0268, -0.0261],
+        [-0.0617, -0.0854, -0.1060,  ...,  0.0942,  0.0270, -0.1520]],
+       device='cuda:0'), grad: tensor([[ 1.0245e-08, -2.7940e-09, -1.2673e-05,  ..., -6.0052e-06,
+          2.0489e-08,  6.5193e-09],
+        [ 2.3749e-07,  3.7253e-09,  9.2201e-08,  ...,  5.2154e-08,
+          8.5682e-08,  2.7940e-09],
+        [-3.7998e-07,  2.7940e-09,  7.2271e-07,  ...,  3.5297e-07,
+          2.0489e-08,  2.7940e-09],
+        ...,
+        [ 5.9605e-08,  5.5879e-09,  2.3469e-07,  ...,  1.2573e-07,
+         -9.3132e-08,  0.0000e+00],
+        [ 5.4017e-08,  6.5193e-09,  4.4443e-06,  ...,  2.0750e-06,
+          3.7625e-07,  1.1083e-07],
+        [ 1.3039e-08,  9.3132e-09,  5.3830e-06,  ...,  2.5127e-06,
+         -3.2596e-08,  9.3132e-10]], device='cuda:0')
+Epoch 208, bias, value: tensor([ 0.0002,  0.0136,  0.0125, -0.0003,  0.0234, -0.0016, -0.0106, -0.0082,
+         0.0161, -0.0136], device='cuda:0'), grad: tensor([-2.9102e-05,  1.2713e-06,  9.1083e-07,  9.6578e-07,  2.1141e-07,
+         3.4831e-07,  1.9558e-06,  8.8476e-08,  1.0937e-05,  1.2390e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 207, time 251.34, cls_loss 0.0008 cls_loss_mapping 0.0031 cls_loss_causal 0.5189 re_mapping 0.0040 re_causal 0.0132 /// teacc 99.06 lr 0.00010000
+Epoch 209, weight, value: tensor([[-0.1793, -0.0349,  0.1810,  ...,  0.0383, -0.1640, -0.1316],
+        [-0.1182, -0.1536, -0.0362,  ..., -0.1003, -0.1550, -0.0662],
+        [ 0.2117, -0.0648, -0.1894,  ..., -0.1600, -0.1541, -0.1861],
+        ...,
+        [-0.0636, -0.0206, -0.2071,  ..., -0.0891,  0.0939,  0.0195],
+        [-0.1599, -0.1053, -0.0246,  ..., -0.1571, -0.0273, -0.0262],
+        [-0.0616, -0.0855, -0.1065,  ...,  0.0942,  0.0270, -0.1520]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-09,  3.7253e-09, -2.3376e-07,  ..., -1.9651e-07,
+          3.4831e-07,  2.0862e-07],
+        [ 5.8673e-08,  3.9116e-08,  1.8906e-07,  ...,  7.8697e-07,
+          9.3970e-07,  1.1269e-07],
+        [ 1.2107e-08,  2.1420e-08,  6.7055e-08,  ...,  6.5193e-09,
+          1.0151e-07,  3.6322e-08],
+        ...,
+        [ 1.1362e-07,  7.5437e-08,  5.5879e-09,  ...,  2.8498e-07,
+         -8.1956e-07,  5.7742e-08],
+        [ 6.5193e-08,  4.4703e-08,  2.5947e-06,  ...,  3.3528e-08,
+          1.8133e-06,  1.2955e-06],
+        [ 1.6764e-08,  1.3039e-08,  2.2259e-07,  ..., -1.5767e-06,
+         -4.1537e-07,  2.5146e-08]], device='cuda:0')
+Epoch 209, bias, value: tensor([ 0.0006,  0.0135,  0.0129, -0.0002,  0.0235, -0.0018, -0.0106, -0.0083,
+         0.0158, -0.0136], device='cuda:0'), grad: tensor([ 2.9895e-07,  5.6550e-06,  6.0070e-07, -3.4496e-06,  1.2210e-06,
+         2.0817e-05, -2.4840e-05, -3.1963e-06,  6.5081e-06, -3.6545e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 208, time 251.28, cls_loss 0.0010 cls_loss_mapping 0.0035 cls_loss_causal 0.4957 re_mapping 0.0042 re_causal 0.0126 /// teacc 99.09 lr 0.00010000
+Epoch 210, weight, value: tensor([[-0.1800, -0.0349,  0.1818,  ...,  0.0385, -0.1639, -0.1315],
+        [-0.1201, -0.1547, -0.0366,  ..., -0.1016, -0.1578, -0.0665],
+        [ 0.2129, -0.0649, -0.1903,  ..., -0.1602, -0.1546, -0.1863],
+        ...,
+        [-0.0639, -0.0207, -0.2082,  ..., -0.0898,  0.0951,  0.0202],
+        [-0.1603, -0.1054, -0.0248,  ..., -0.1584, -0.0279, -0.0263],
+        [-0.0622, -0.0856, -0.1073,  ...,  0.0950,  0.0282, -0.1521]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  0.0000e+00, -9.6858e-08,  ..., -5.3085e-08,
+          2.7940e-08,  2.0489e-08],
+        [ 1.2107e-08,  1.8626e-09,  3.7253e-09,  ...,  5.3085e-08,
+          1.2489e-06,  1.9446e-06],
+        [-1.1548e-07,  9.3132e-10,  2.6077e-08,  ...,  3.9116e-08,
+          1.2107e-08,  5.5879e-09],
+        ...,
+        [ 1.3970e-08,  2.7940e-09,  9.3132e-10,  ...,  7.0781e-08,
+          6.4261e-08,  5.6811e-08],
+        [ 9.6858e-08,  9.3132e-10,  2.9802e-08,  ...,  9.0338e-08,
+          1.7351e-06,  2.6822e-06],
+        [ 1.8626e-09,  9.3132e-10,  5.4948e-08,  ..., -5.2620e-07,
+         -2.8685e-07,  7.4506e-09]], device='cuda:0')
+Epoch 210, bias, value: tensor([ 0.0012,  0.0129,  0.0140,  0.0007,  0.0223, -0.0020, -0.0106, -0.0081,
+         0.0154, -0.0126], device='cuda:0'), grad: tensor([-6.2399e-08,  1.0230e-05, -2.2352e-08,  2.6636e-07,  3.4180e-07,
+        -4.0084e-05,  1.5572e-05,  4.6846e-07,  1.4298e-05, -1.0300e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 209, time 249.11, cls_loss 0.0009 cls_loss_mapping 0.0024 cls_loss_causal 0.5007 re_mapping 0.0040 re_causal 0.0129 /// teacc 99.06 lr 0.00010000
+Epoch 211, weight, value: tensor([[-0.1804, -0.0349,  0.1821,  ...,  0.0386, -0.1642, -0.1316],
+        [-0.1202, -0.1552, -0.0384,  ..., -0.1021, -0.1606, -0.0690],
+        [ 0.2121, -0.0649, -0.1926,  ..., -0.1605, -0.1587, -0.1884],
+        ...,
+        [-0.0640, -0.0208, -0.2090,  ..., -0.0901,  0.0954,  0.0200],
+        [-0.1608, -0.1056, -0.0252,  ..., -0.1591, -0.0298, -0.0266],
+        [-0.0623, -0.0857, -0.1079,  ...,  0.0950,  0.0282, -0.1522]],
+       device='cuda:0'), grad: tensor([[ 8.3726e-07,  3.6322e-08,  2.1104e-06,  ..., -3.7253e-08,
+          1.5954e-06,  1.7695e-08],
+        [ 1.2945e-07,  1.5553e-07,  4.5635e-08,  ...,  1.6764e-08,
+          2.9244e-07,  4.1910e-08],
+        [-2.1644e-06,  3.6322e-08, -3.5111e-07,  ...,  4.6566e-09,
+          9.3132e-08,  1.3039e-08],
+        ...,
+        [ 2.0210e-07,  1.5087e-07,  3.5390e-08,  ...,  3.0734e-08,
+          3.1665e-08,  3.7253e-08],
+        [ 5.3179e-07,  9.4064e-08,  4.2003e-07,  ...,  1.2107e-08,
+          3.4180e-07,  5.0291e-08],
+        [ 4.6566e-08,  4.9360e-08,  5.6811e-08,  ...,  1.2759e-07,
+          1.7788e-07,  1.3970e-08]], device='cuda:0')
+Epoch 211, bias, value: tensor([ 0.0013,  0.0124,  0.0124,  0.0006,  0.0223, -0.0016, -0.0106, -0.0081,
+         0.0149, -0.0125], device='cuda:0'), grad: tensor([ 7.5810e-06,  2.1458e-06, -3.5651e-06, -1.0140e-05,  8.8476e-08,
+         4.7162e-06, -7.1861e-06,  2.1644e-06,  2.1905e-06,  1.9744e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 210, time 246.70, cls_loss 0.0010 cls_loss_mapping 0.0028 cls_loss_causal 0.4842 re_mapping 0.0042 re_causal 0.0129 /// teacc 99.19 lr 0.00010000
+Epoch 212, weight, value: tensor([[-0.1810, -0.0350,  0.1823,  ...,  0.0386, -0.1648, -0.1318],
+        [-0.1226, -0.1559, -0.0385,  ..., -0.1020, -0.1616, -0.0691],
+        [ 0.2137, -0.0649, -0.1937,  ..., -0.1611, -0.1598, -0.1892],
+        ...,
+        [-0.0652, -0.0210, -0.2102,  ..., -0.0906,  0.0957,  0.0202],
+        [-0.1613, -0.1057, -0.0247,  ..., -0.1597, -0.0277, -0.0268],
+        [-0.0623, -0.0858, -0.1082,  ...,  0.0949,  0.0281, -0.1523]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  1.8626e-09,  3.7253e-09,  ...,  2.7940e-09,
+          2.7940e-08,  3.7253e-09],
+        [ 2.7940e-09,  3.7253e-09, -1.8626e-09,  ...,  5.5879e-09,
+          6.3330e-08,  4.6566e-09],
+        [-0.0000e+00,  1.8626e-09,  1.8626e-09,  ...,  1.8626e-09,
+          1.4901e-08,  9.3132e-10],
+        ...,
+        [ 3.7253e-09,  5.5879e-09,  1.8626e-09,  ...,  9.3132e-09,
+         -5.0943e-07,  6.5193e-09],
+        [ 2.7940e-09,  8.3819e-09, -6.5193e-09,  ...,  3.1665e-08,
+          4.5635e-08,  1.3970e-08],
+        [ 1.8626e-09,  2.7940e-09,  2.7940e-09,  ..., -6.2399e-08,
+          3.7998e-07,  8.3819e-09]], device='cuda:0')
+Epoch 212, bias, value: tensor([ 0.0012,  0.0121,  0.0140,  0.0006,  0.0224, -0.0018, -0.0106, -0.0086,
+         0.0165, -0.0127], device='cuda:0'), grad: tensor([ 1.7136e-07, -2.9467e-06,  1.9483e-06,  3.7402e-06,  9.0338e-08,
+        -4.7535e-06,  4.1164e-07, -6.7055e-07,  4.0606e-07,  1.5888e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 211, time 246.81, cls_loss 0.0007 cls_loss_mapping 0.0027 cls_loss_causal 0.4968 re_mapping 0.0044 re_causal 0.0138 /// teacc 99.08 lr 0.00010000
+Epoch 213, weight, value: tensor([[-0.1816, -0.0350,  0.1825,  ...,  0.0387, -0.1652, -0.1320],
+        [-0.1231, -0.1565, -0.0385,  ..., -0.1022, -0.1629, -0.0693],
+        [ 0.2143, -0.0649, -0.1946,  ..., -0.1613, -0.1606, -0.1896],
+        ...,
+        [-0.0655, -0.0213, -0.2109,  ..., -0.0906,  0.0962,  0.0206],
+        [-0.1620, -0.1063, -0.0250,  ..., -0.1602, -0.0283, -0.0270],
+        [-0.0625, -0.0859, -0.1086,  ...,  0.0949,  0.0281, -0.1524]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.2538e-07,  ..., -1.9185e-07,
+          5.0291e-08,  5.5879e-09],
+        [ 1.8626e-09,  1.8626e-09,  6.5193e-09,  ..., -2.5146e-08,
+          2.1886e-07,  9.3132e-10],
+        [-2.7940e-09,  0.0000e+00,  1.4901e-08,  ...,  9.3132e-09,
+          2.9802e-08,  1.8626e-09],
+        ...,
+        [ 3.7253e-09,  9.3132e-10,  1.8626e-09,  ...,  3.5390e-08,
+         -3.9861e-07,  0.0000e+00],
+        [ 1.8626e-09,  9.3132e-10,  2.5146e-08,  ...,  5.8673e-08,
+          1.3225e-07,  3.7253e-09],
+        [ 9.3132e-09,  8.3819e-09,  2.2631e-07,  ...,  1.6019e-07,
+          8.1956e-08,  9.3132e-10]], device='cuda:0')
+Epoch 213, bias, value: tensor([ 0.0013,  0.0117,  0.0142,  0.0007,  0.0224, -0.0019, -0.0105, -0.0078,
+         0.0161, -0.0130], device='cuda:0'), grad: tensor([-1.6671e-07,  3.7625e-07,  2.0582e-07,  5.8115e-07,  1.2387e-07,
+        -2.8685e-07, -8.0839e-07, -1.0254e-06,  1.8347e-07,  8.2608e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 212, time 246.11, cls_loss 0.0009 cls_loss_mapping 0.0029 cls_loss_causal 0.5036 re_mapping 0.0041 re_causal 0.0132 /// teacc 99.06 lr 0.00010000
+Epoch 214, weight, value: tensor([[-0.1825, -0.0351,  0.1829,  ...,  0.0390, -0.1657, -0.1321],
+        [-0.1236, -0.1575, -0.0386,  ..., -0.1025, -0.1640, -0.0694],
+        [ 0.2148, -0.0649, -0.1953,  ..., -0.1616, -0.1619, -0.1896],
+        ...,
+        [-0.0659, -0.0219, -0.2121,  ..., -0.0933,  0.0958,  0.0207],
+        [-0.1628, -0.1067, -0.0249,  ..., -0.1605, -0.0283, -0.0272],
+        [-0.0630, -0.0860, -0.1096,  ...,  0.0950,  0.0283, -0.1524]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.8405e-07,  ..., -2.4401e-07,
+          0.0000e+00,  0.0000e+00],
+        [ 3.7253e-09,  9.3132e-10,  3.7253e-09,  ...,  5.5879e-09,
+          5.5879e-09,  0.0000e+00],
+        [-2.2352e-08,  0.0000e+00,  3.7253e-09,  ...,  3.7253e-09,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 1.8626e-08,  2.7940e-09,  4.6566e-09,  ...,  6.5193e-09,
+         -1.0245e-08,  9.3132e-10],
+        [ 1.8626e-09,  1.8626e-09,  5.5879e-09,  ...,  4.6566e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  2.0862e-07,  ...,  2.0396e-07,
+          8.3819e-09,  0.0000e+00]], device='cuda:0')
+Epoch 214, bias, value: tensor([ 0.0014,  0.0114,  0.0141,  0.0006,  0.0225, -0.0018, -0.0105, -0.0078,
+         0.0162, -0.0130], device='cuda:0'), grad: tensor([-4.6194e-07, -9.6858e-07,  4.1164e-07,  5.4017e-08,  7.4506e-09,
+         5.8673e-08,  2.9244e-07,  5.5134e-07, -5.4855e-07,  5.9325e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 213, time 246.69, cls_loss 0.0008 cls_loss_mapping 0.0019 cls_loss_causal 0.5134 re_mapping 0.0040 re_causal 0.0129 /// teacc 99.06 lr 0.00010000
+Epoch 215, weight, value: tensor([[-0.1828, -0.0352,  0.1831,  ...,  0.0388, -0.1660, -0.1322],
+        [-0.1240, -0.1582, -0.0386,  ..., -0.1024, -0.1651, -0.0695],
+        [ 0.2149, -0.0649, -0.1959,  ..., -0.1619, -0.1629, -0.1902],
+        ...,
+        [-0.0655, -0.0224, -0.2127,  ..., -0.0937,  0.0964,  0.0212],
+        [-0.1631, -0.1071, -0.0252,  ..., -0.1611, -0.0286, -0.0273],
+        [-0.0633, -0.0862, -0.1099,  ...,  0.0951,  0.0282, -0.1524]],
+       device='cuda:0'), grad: tensor([[ 2.5146e-08,  5.6811e-08,  2.7940e-08,  ...,  1.2107e-08,
+          9.4064e-08,  9.3132e-10],
+        [ 1.3039e-08,  8.3819e-09,  5.5879e-09,  ...,  4.9360e-08,
+          3.1665e-08,  9.3132e-10],
+        [-1.2852e-07,  2.2352e-08,  4.6566e-09,  ...,  2.1420e-08,
+          2.3283e-08,  0.0000e+00],
+        ...,
+        [ 1.8626e-08,  3.3807e-07,  6.5193e-09,  ...,  1.6261e-06,
+          9.1270e-07, -9.3132e-10],
+        [ 3.7253e-08,  5.3085e-08,  8.1956e-08,  ...,  5.5879e-08,
+          8.7544e-08,  9.3132e-10],
+        [ 8.3819e-09,  1.3039e-08,  1.5832e-08,  ..., -1.9241e-06,
+         -8.9314e-07,  0.0000e+00]], device='cuda:0')
+Epoch 215, bias, value: tensor([ 1.2109e-03,  1.2355e-02,  1.3674e-02,  7.1428e-05,  2.2415e-02,
+        -1.7808e-03, -1.0427e-02, -7.6227e-03,  1.4705e-02, -1.3002e-02],
+       device='cuda:0'), grad: tensor([ 7.2457e-07, -1.7975e-07,  4.0047e-08,  1.3448e-06,  1.2899e-06,
+        -7.4916e-06, -2.8033e-07,  7.7114e-06,  8.3912e-07, -4.0159e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 214, time 246.85, cls_loss 0.0010 cls_loss_mapping 0.0031 cls_loss_causal 0.5196 re_mapping 0.0039 re_causal 0.0127 /// teacc 99.10 lr 0.00010000
+Epoch 216, weight, value: tensor([[-0.1834, -0.0356,  0.1834,  ...,  0.0390, -0.1666, -0.1323],
+        [-0.1243, -0.1593, -0.0387,  ..., -0.1040, -0.1703, -0.0700],
+        [ 0.2158, -0.0649, -0.1966,  ..., -0.1617, -0.1634, -0.1904],
+        ...,
+        [-0.0662, -0.0228, -0.2142,  ..., -0.0948,  0.1004,  0.0213],
+        [-0.1633, -0.1054, -0.0252,  ..., -0.1615, -0.0307, -0.0274],
+        [-0.0649, -0.0866, -0.1106,  ...,  0.0952,  0.0274, -0.1525]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  3.7253e-09, -1.0151e-07,  ..., -1.9558e-08,
+          5.5134e-07,  6.6310e-07],
+        [ 1.9558e-08,  9.5926e-08,  3.7253e-09,  ...,  2.1048e-07,
+          2.3022e-05,  2.9147e-05],
+        [-2.2352e-08,  2.7940e-08,  1.5832e-08,  ...,  1.2107e-08,
+          8.2981e-07,  9.7323e-07],
+        ...,
+        [-4.0978e-08, -2.3935e-07,  1.8626e-09,  ...,  6.9570e-07,
+         -4.6566e-09,  2.4587e-07],
+        [ 1.8626e-09,  5.5879e-09,  1.5832e-08,  ...,  1.3225e-07,
+          4.0159e-06,  5.0403e-06],
+        [ 9.3132e-10,  6.5193e-09,  6.7987e-08,  ..., -1.1940e-06,
+         -5.8766e-07,  1.4156e-07]], device='cuda:0')
+Epoch 216, bias, value: tensor([ 0.0013,  0.0111,  0.0139, -0.0003,  0.0223, -0.0018, -0.0105, -0.0050,
+         0.0136, -0.0137], device='cuda:0'), grad: tensor([ 2.7865e-06,  1.2350e-04,  4.3362e-06,  1.3150e-06,  9.3952e-06,
+         7.8380e-05, -2.3949e-04,  1.7565e-06,  2.1636e-05, -3.5968e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 215, time 246.47, cls_loss 0.0007 cls_loss_mapping 0.0017 cls_loss_causal 0.4891 re_mapping 0.0039 re_causal 0.0131 /// teacc 98.99 lr 0.00010000
+Epoch 217, weight, value: tensor([[-0.1838, -0.0357,  0.1833,  ...,  0.0390, -0.1684, -0.1340],
+        [-0.1248, -0.1609, -0.0387,  ..., -0.1047, -0.1717, -0.0715],
+        [ 0.2162, -0.0649, -0.1971,  ..., -0.1619, -0.1637, -0.1910],
+        ...,
+        [-0.0661, -0.0231, -0.2153,  ..., -0.0953,  0.1006,  0.0223],
+        [-0.1637, -0.1053, -0.0254,  ..., -0.1621, -0.0309, -0.0276],
+        [-0.0651, -0.0868, -0.1110,  ...,  0.0953,  0.0275, -0.1527]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  1.8626e-09,  1.2107e-08,  ...,  6.5193e-09,
+          5.6811e-08,  4.3772e-08],
+        [ 5.5879e-09,  8.3819e-09, -1.2964e-06,  ..., -1.2489e-06,
+          3.3528e-08,  2.9802e-08],
+        [ 1.1176e-08,  1.9558e-08,  3.7253e-08,  ...,  2.0489e-08,
+          9.3132e-09,  8.3819e-09],
+        ...,
+        [ 1.1176e-08,  1.6764e-08,  7.1712e-08,  ...,  1.7136e-07,
+          2.3283e-08,  9.3132e-10],
+        [ 1.2107e-08,  2.5146e-08,  5.8580e-07,  ...,  5.6345e-07,
+          9.9652e-08,  6.1467e-08],
+        [ 3.7253e-09,  8.3819e-09,  6.1654e-07,  ..., -2.9616e-07,
+         -2.0396e-07,  4.6566e-09]], device='cuda:0')
+Epoch 217, bias, value: tensor([ 0.0009,  0.0107,  0.0138, -0.0007,  0.0224, -0.0018, -0.0103, -0.0047,
+         0.0136, -0.0135], device='cuda:0'), grad: tensor([ 4.8615e-07, -8.8811e-06,  3.2876e-07, -4.1351e-07,  3.2447e-06,
+         8.9500e-07, -7.1526e-07,  1.0552e-06,  3.0883e-06,  9.1363e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 216, time 246.63, cls_loss 0.0007 cls_loss_mapping 0.0022 cls_loss_causal 0.5218 re_mapping 0.0041 re_causal 0.0137 /// teacc 99.06 lr 0.00010000
+Epoch 218, weight, value: tensor([[-0.1837, -0.0357,  0.1844,  ...,  0.0395, -0.1687, -0.1342],
+        [-0.1258, -0.1617, -0.0387,  ..., -0.1049, -0.1723, -0.0718],
+        [ 0.2163, -0.0650, -0.1981,  ..., -0.1624, -0.1657, -0.1913],
+        ...,
+        [-0.0664, -0.0233, -0.2165,  ..., -0.0957,  0.1009,  0.0227],
+        [-0.1646, -0.1055, -0.0257,  ..., -0.1627, -0.0309, -0.0277],
+        [-0.0655, -0.0870, -0.1136,  ...,  0.0951,  0.0275, -0.1529]],
+       device='cuda:0'), grad: tensor([[ 1.3318e-07,  1.1828e-07, -3.4366e-07,  ..., -2.6450e-07,
+          5.5879e-09,  2.7940e-09],
+        [ 1.0245e-08,  2.7940e-09,  1.2107e-08,  ...,  6.5193e-09,
+          5.1223e-08,  1.8626e-09],
+        [-3.7253e-09,  1.2107e-08,  4.0047e-08,  ...,  1.6764e-08,
+          7.4506e-09,  1.8626e-09],
+        ...,
+        [ 3.3528e-08,  9.3132e-09,  2.0489e-08,  ...,  1.8626e-08,
+         -2.6729e-07,  9.3132e-10],
+        [-6.5193e-09,  3.4459e-08,  1.0431e-07,  ...,  3.1665e-08,
+          3.2596e-08,  4.6566e-09],
+        [ 3.4459e-08,  3.0734e-08,  3.7439e-07,  ...,  1.5832e-07,
+          4.6566e-09,  2.7940e-09]], device='cuda:0')
+Epoch 218, bias, value: tensor([ 0.0016,  0.0103,  0.0135, -0.0008,  0.0224, -0.0017, -0.0103, -0.0045,
+         0.0136, -0.0138], device='cuda:0'), grad: tensor([ 1.9558e-07, -2.6673e-06,  1.2899e-06, -3.7905e-07,  1.6950e-07,
+         2.8405e-07,  1.6671e-07,  1.8463e-05, -1.8626e-05,  1.0701e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 217, time 246.42, cls_loss 0.0008 cls_loss_mapping 0.0023 cls_loss_causal 0.4871 re_mapping 0.0041 re_causal 0.0130 /// teacc 99.10 lr 0.00010000
+Epoch 219, weight, value: tensor([[-0.1842, -0.0358,  0.1847,  ...,  0.0396, -0.1689, -0.1344],
+        [-0.1253, -0.1620, -0.0387,  ..., -0.1066, -0.1740, -0.0719],
+        [ 0.2164, -0.0650, -0.2002,  ..., -0.1626, -0.1662, -0.1939],
+        ...,
+        [-0.0668, -0.0234, -0.2178,  ..., -0.0976,  0.1007,  0.0230],
+        [-0.1649, -0.1056, -0.0260,  ..., -0.1632, -0.0311, -0.0280],
+        [-0.0656, -0.0871, -0.1139,  ...,  0.0949,  0.0274, -0.1530]],
+       device='cuda:0'), grad: tensor([[ 3.3341e-07,  0.0000e+00, -1.1269e-07,  ..., -6.7987e-08,
+          3.9116e-08,  1.2107e-08],
+        [ 6.3982e-07,  1.8626e-09,  2.7940e-09,  ..., -1.3132e-07,
+          8.9034e-07,  3.7253e-09],
+        [-6.2473e-06,  3.7253e-09,  5.5879e-09,  ...,  2.7940e-09,
+          6.1467e-08,  2.7940e-09],
+        ...,
+        [ 2.3190e-06,  1.8626e-09,  5.5879e-09,  ...,  3.5390e-08,
+         -2.0210e-06, -5.5879e-09],
+        [ 4.2468e-07,  0.0000e+00,  2.5146e-08,  ...,  1.2107e-08,
+          2.1420e-08,  1.0245e-08],
+        [ 4.9360e-08,  9.3132e-10,  6.3330e-08,  ...,  1.3970e-08,
+          8.4378e-07,  3.7253e-09]], device='cuda:0')
+Epoch 219, bias, value: tensor([ 0.0016,  0.0110,  0.0123, -0.0011,  0.0228, -0.0017, -0.0102, -0.0054,
+         0.0136, -0.0136], device='cuda:0'), grad: tensor([ 5.6624e-07,  2.4624e-06, -1.0826e-05,  1.7341e-06,  2.6114e-06,
+         6.7800e-07,  9.7044e-07, -2.3656e-06,  8.6240e-07,  3.2838e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 218, time 246.11, cls_loss 0.0009 cls_loss_mapping 0.0025 cls_loss_causal 0.5103 re_mapping 0.0039 re_causal 0.0128 /// teacc 99.17 lr 0.00010000
+Epoch 220, weight, value: tensor([[-0.1847, -0.0358,  0.1850,  ...,  0.0397, -0.1689, -0.1344],
+        [-0.1250, -0.1627, -0.0387,  ..., -0.1064, -0.1754, -0.0722],
+        [ 0.2167, -0.0650, -0.2010,  ..., -0.1629, -0.1667, -0.1937],
+        ...,
+        [-0.0671, -0.0238, -0.2202,  ..., -0.0983,  0.1011,  0.0230],
+        [-0.1659, -0.1057, -0.0261,  ..., -0.1639, -0.0312, -0.0283],
+        [-0.0661, -0.0872, -0.1141,  ...,  0.0951,  0.0276, -0.1531]],
+       device='cuda:0'), grad: tensor([[ 3.0734e-08,  8.3819e-09, -1.2573e-07,  ..., -6.7055e-08,
+          1.3039e-08,  0.0000e+00],
+        [ 8.2888e-08,  2.3283e-08,  2.4214e-08,  ...,  2.5146e-08,
+          7.6368e-08,  9.3132e-10],
+        [ 4.6566e-08,  1.9558e-08,  1.1269e-07,  ...,  2.8871e-08,
+          7.9162e-08,  0.0000e+00],
+        ...,
+        [ 1.3039e-07,  3.6322e-08,  6.5193e-09,  ..., -8.3819e-09,
+         -2.6636e-07, -1.8626e-09],
+        [ 1.2945e-07,  3.6322e-08, -9.4902e-07,  ...,  1.6019e-07,
+         -6.1840e-07,  9.3132e-10],
+        [ 1.0710e-07,  2.3283e-08,  9.7789e-08,  ..., -2.4121e-06,
+         -7.1991e-07,  9.3132e-10]], device='cuda:0')
+Epoch 220, bias, value: tensor([ 0.0018,  0.0114,  0.0110, -0.0022,  0.0226, -0.0016, -0.0102, -0.0049,
+         0.0135, -0.0136], device='cuda:0'), grad: tensor([ 3.3528e-08,  8.4005e-07,  1.4417e-06, -5.9940e-06,  4.3213e-06,
+         4.4890e-06,  7.0557e-06, -4.4983e-07, -8.9332e-06, -2.8461e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 219, time 246.11, cls_loss 0.0007 cls_loss_mapping 0.0019 cls_loss_causal 0.4976 re_mapping 0.0040 re_causal 0.0131 /// teacc 99.08 lr 0.00010000
+Epoch 221, weight, value: tensor([[-0.1857, -0.0359,  0.1854,  ...,  0.0398, -0.1692, -0.1345],
+        [-0.1251, -0.1631, -0.0387,  ..., -0.1065, -0.1758, -0.0723],
+        [ 0.2172, -0.0650, -0.2019,  ..., -0.1633, -0.1669, -0.1943],
+        ...,
+        [-0.0675, -0.0240, -0.2217,  ..., -0.0990,  0.1010,  0.0230],
+        [-0.1665, -0.1058, -0.0264,  ..., -0.1644, -0.0314, -0.0285],
+        [-0.0665, -0.0874, -0.1146,  ...,  0.0953,  0.0278, -0.1533]],
+       device='cuda:0'), grad: tensor([[ 4.4703e-08,  0.0000e+00, -1.8450e-06,  ..., -7.9535e-07,
+          2.7567e-07,  3.7253e-09],
+        [ 1.0990e-07,  0.0000e+00,  2.6077e-08,  ...,  2.6077e-08,
+          5.7183e-07,  9.3132e-10],
+        [-8.4098e-07,  9.3132e-10,  4.0047e-08,  ...,  1.3970e-08,
+          4.1910e-08,  1.8626e-09],
+        ...,
+        [ 1.0803e-07,  9.3132e-10,  1.5832e-08,  ...,  4.2841e-08,
+         -5.1595e-07,  9.3132e-10],
+        [ 2.0210e-07,  7.4506e-09,  5.3085e-08,  ...,  3.0361e-07,
+         -5.5879e-07,  1.1176e-08],
+        [ 1.8626e-08,  0.0000e+00,  7.5903e-07,  ..., -1.2107e-07,
+         -1.5367e-07,  0.0000e+00]], device='cuda:0')
+Epoch 221, bias, value: tensor([ 0.0019,  0.0115,  0.0112, -0.0028,  0.0224, -0.0017, -0.0098, -0.0052,
+         0.0132, -0.0134], device='cuda:0'), grad: tensor([-9.1270e-08,  9.0823e-06, -1.0375e-06, -1.4128e-06,  5.6718e-07,
+         9.7603e-07,  2.1867e-06, -7.9721e-06, -2.8461e-06,  5.2806e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 220, time 246.32, cls_loss 0.0010 cls_loss_mapping 0.0027 cls_loss_causal 0.5060 re_mapping 0.0038 re_causal 0.0124 /// teacc 99.07 lr 0.00010000
+Epoch 222, weight, value: tensor([[-0.1887, -0.0361,  0.1851,  ...,  0.0398, -0.1704, -0.1350],
+        [-0.1257, -0.1634, -0.0389,  ..., -0.1073, -0.1790, -0.0726],
+        [ 0.2179, -0.0650, -0.2041,  ..., -0.1636, -0.1677, -0.1960],
+        ...,
+        [-0.0682, -0.0243, -0.2234,  ..., -0.1005,  0.1012,  0.0235],
+        [-0.1668, -0.1059, -0.0264,  ..., -0.1648, -0.0310, -0.0284],
+        [-0.0667, -0.0874, -0.1150,  ...,  0.0954,  0.0280, -0.1535]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  5.5917e-06,  ..., -4.0047e-08,
+          3.7700e-06,  3.8631e-06],
+        [ 0.0000e+00,  0.0000e+00,  7.8231e-08,  ...,  5.5879e-08,
+          8.0094e-08,  5.0291e-08],
+        [ 0.0000e+00,  0.0000e+00,  5.3085e-08,  ...,  1.2107e-08,
+          3.7253e-08,  3.0734e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-08,  ...,  3.8184e-08,
+          8.3819e-09,  1.1176e-08],
+        [ 9.3132e-10,  0.0000e+00,  4.1164e-07,  ...,  1.4249e-07,
+          3.4552e-07,  2.9616e-07],
+        [ 9.3132e-10,  0.0000e+00,  8.8476e-08,  ..., -6.9942e-07,
+         -2.2445e-07,  4.8429e-08]], device='cuda:0')
+Epoch 222, bias, value: tensor([ 0.0008,  0.0108,  0.0114, -0.0020,  0.0224, -0.0020, -0.0096, -0.0049,
+         0.0138, -0.0133], device='cuda:0'), grad: tensor([ 1.2219e-05,  3.2131e-07,  1.6857e-07,  7.0781e-08,  1.2880e-06,
+         2.5965e-06, -1.6123e-05,  1.2480e-07,  1.0459e-06, -1.7136e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 221, time 246.43, cls_loss 0.0008 cls_loss_mapping 0.0022 cls_loss_causal 0.5171 re_mapping 0.0041 re_causal 0.0131 /// teacc 99.11 lr 0.00010000
+Epoch 223, weight, value: tensor([[-0.1893, -0.0361,  0.1853,  ...,  0.0399, -0.1709, -0.1352],
+        [-0.1263, -0.1639, -0.0390,  ..., -0.1081, -0.1806, -0.0729],
+        [ 0.2185, -0.0650, -0.2046,  ..., -0.1638, -0.1681, -0.1962],
+        ...,
+        [-0.0686, -0.0247, -0.2253,  ..., -0.1003,  0.1022,  0.0240],
+        [-0.1670, -0.1060, -0.0267,  ..., -0.1654, -0.0308, -0.0286],
+        [-0.0669, -0.0877, -0.1153,  ...,  0.0948,  0.0275, -0.1536]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-08,  2.7940e-09, -5.5693e-07,  ...,  7.4506e-09,
+          1.8347e-07,  2.0489e-08],
+        [ 8.1956e-08,  1.0245e-08,  1.8626e-08,  ...,  2.7381e-07,
+          2.5332e-07,  1.2107e-08],
+        [-4.0419e-07,  2.7008e-08,  2.0489e-08,  ...,  6.8918e-08,
+          5.6811e-08,  4.6566e-09],
+        ...,
+        [ 1.1921e-07,  3.0734e-08,  1.2107e-08,  ...,  1.4435e-07,
+         -4.2561e-07,  9.3132e-10],
+        [ 1.8068e-07,  2.7008e-08,  9.4995e-08,  ...,  3.9563e-06,
+          2.9430e-06,  7.4506e-09],
+        [ 1.1176e-08,  3.7253e-09,  1.0617e-07,  ..., -7.2010e-06,
+         -5.4836e-06,  1.8626e-09]], device='cuda:0')
+Epoch 223, bias, value: tensor([ 0.0009,  0.0108,  0.0116, -0.0016,  0.0231, -0.0022, -0.0095, -0.0050,
+         0.0142, -0.0140], device='cuda:0'), grad: tensor([-1.3318e-07,  1.2908e-06, -3.1199e-07,  2.0061e-06,  6.8173e-06,
+         1.6289e-06,  5.5879e-07, -7.4320e-07,  1.2159e-05, -2.3291e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 222, time 246.31, cls_loss 0.0007 cls_loss_mapping 0.0024 cls_loss_causal 0.4871 re_mapping 0.0039 re_causal 0.0126 /// teacc 99.09 lr 0.00010000
+Epoch 224, weight, value: tensor([[-0.1896, -0.0361,  0.1860,  ...,  0.0402, -0.1712, -0.1355],
+        [-0.1268, -0.1642, -0.0391,  ..., -0.1088, -0.1817, -0.0736],
+        [ 0.2200, -0.0650, -0.2048,  ..., -0.1641, -0.1681, -0.1947],
+        ...,
+        [-0.0704, -0.0248, -0.2277,  ..., -0.1008,  0.1023,  0.0223],
+        [-0.1676, -0.1060, -0.0270,  ..., -0.1666, -0.0312, -0.0284],
+        [-0.0679, -0.0877, -0.1157,  ...,  0.0949,  0.0279, -0.1538]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-08,  0.0000e+00, -2.3283e-07,  ..., -1.2573e-07,
+          2.7940e-08,  1.0245e-08],
+        [ 2.3432e-06,  9.3132e-10,  1.1176e-08,  ...,  1.5832e-08,
+          1.0747e-06,  1.8626e-09],
+        [ 1.3905e-06,  0.0000e+00,  1.0245e-08,  ...,  4.0978e-08,
+          6.3237e-07,  3.7253e-09],
+        ...,
+        [-4.4629e-06,  9.3132e-10,  5.5879e-09,  ...,  3.0547e-07,
+         -1.7332e-06,  1.8626e-09],
+        [ 2.8871e-08,  0.0000e+00,  2.8871e-08,  ...,  6.5193e-08,
+          4.9360e-08,  1.3039e-08],
+        [ 2.7008e-08,  9.3132e-10,  1.4808e-07,  ..., -9.6951e-07,
+         -1.6941e-06,  2.7940e-09]], device='cuda:0')
+Epoch 224, bias, value: tensor([ 0.0013,  0.0110,  0.0123, -0.0014,  0.0230, -0.0022, -0.0095, -0.0057,
+         0.0143, -0.0139], device='cuda:0'), grad: tensor([-7.3574e-08,  8.2925e-06,  5.7444e-06,  2.5220e-06,  1.9893e-06,
+        -1.2014e-07, -5.1316e-07, -1.6287e-05,  6.3051e-07, -2.2314e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 223, time 246.41, cls_loss 0.0007 cls_loss_mapping 0.0025 cls_loss_causal 0.5024 re_mapping 0.0040 re_causal 0.0134 /// teacc 99.07 lr 0.00010000
+Epoch 225, weight, value: tensor([[-0.1899, -0.0359,  0.1883,  ...,  0.0409, -0.1715, -0.1356],
+        [-0.1260, -0.1645, -0.0391,  ..., -0.1090, -0.1825, -0.0737],
+        [ 0.2202, -0.0650, -0.2057,  ..., -0.1643, -0.1684, -0.1947],
+        ...,
+        [-0.0710, -0.0249, -0.2298,  ..., -0.1013,  0.1025,  0.0223],
+        [-0.1679, -0.1062, -0.0274,  ..., -0.1674, -0.0313, -0.0285],
+        [-0.0680, -0.0878, -0.1174,  ...,  0.0943,  0.0272, -0.1539]],
+       device='cuda:0'), grad: tensor([[ 1.3039e-08,  0.0000e+00, -1.6857e-06,  ..., -9.6858e-07,
+          4.0047e-08,  1.4901e-08],
+        [ 4.2096e-07,  0.0000e+00,  1.3039e-08,  ...,  1.0431e-07,
+          6.8266e-07,  3.8743e-07],
+        [ 2.5425e-07,  0.0000e+00,  9.7789e-08,  ...,  5.8673e-08,
+          6.3516e-07,  3.6880e-07],
+        ...,
+        [-1.2955e-06,  9.3132e-10,  2.7940e-08,  ...,  2.4214e-08,
+         -2.2817e-06, -1.2992e-06],
+        [ 5.5879e-08,  0.0000e+00,  7.3574e-08,  ...,  4.0047e-08,
+          1.1176e-08,  1.3970e-08],
+        [ 2.7940e-08,  9.3132e-10,  1.3895e-06,  ...,  8.6613e-07,
+          6.1467e-08,  2.9802e-08]], device='cuda:0')
+Epoch 225, bias, value: tensor([ 0.0027,  0.0116,  0.0115, -0.0007,  0.0237, -0.0025, -0.0097, -0.0058,
+         0.0144, -0.0146], device='cuda:0'), grad: tensor([-3.2745e-06,  3.8072e-06,  2.7269e-06,  5.0291e-07,  3.0510e-06,
+        -7.0687e-07,  9.7230e-07, -9.2834e-06, -1.3318e-06,  3.5204e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 224, time 246.20, cls_loss 0.0008 cls_loss_mapping 0.0019 cls_loss_causal 0.4964 re_mapping 0.0037 re_causal 0.0121 /// teacc 99.02 lr 0.00010000
+Epoch 226, weight, value: tensor([[-0.1915, -0.0360,  0.1888,  ...,  0.0410, -0.1720, -0.1358],
+        [-0.1262, -0.1653, -0.0391,  ..., -0.1098, -0.1835, -0.0738],
+        [ 0.2207, -0.0650, -0.2066,  ..., -0.1647, -0.1688, -0.1949],
+        ...,
+        [-0.0712, -0.0252, -0.2344,  ..., -0.1018,  0.1027,  0.0230],
+        [-0.1683, -0.1063, -0.0277,  ..., -0.1683, -0.0315, -0.0287],
+        [-0.0683, -0.0881, -0.1181,  ...,  0.0944,  0.0274, -0.1541]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  9.3132e-10, -3.1665e-08,  ..., -3.7253e-08,
+          3.2596e-08,  2.1420e-08],
+        [ 4.6566e-09,  9.3132e-10, -4.0326e-07,  ...,  1.5832e-08,
+          5.1223e-08,  2.7940e-09],
+        [ 3.3528e-08,  1.8626e-09,  1.4901e-08,  ...,  3.0454e-07,
+          1.1176e-08,  5.7742e-08],
+        ...,
+        [ 8.3819e-09,  3.7253e-09,  4.7497e-08,  ...,  1.6764e-08,
+         -9.9652e-08,  1.8626e-09],
+        [ 3.7253e-09,  9.3132e-10,  1.5646e-07,  ...,  1.3039e-08,
+          6.2399e-08,  4.0978e-08],
+        [ 2.7940e-09,  0.0000e+00,  3.4459e-08,  ..., -1.8533e-07,
+          2.0489e-08,  4.6566e-09]], device='cuda:0')
+Epoch 226, bias, value: tensor([ 0.0029,  0.0120,  0.0114, -0.0007,  0.0235, -0.0025, -0.0097, -0.0062,
+         0.0144, -0.0145], device='cuda:0'), grad: tensor([ 6.4261e-08, -1.4324e-06,  5.9325e-07,  1.9465e-07, -4.7311e-07,
+        -2.4214e-08,  4.2375e-07, -1.3690e-07,  7.7579e-07,  9.3132e-10],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 225, time 246.10, cls_loss 0.0007 cls_loss_mapping 0.0023 cls_loss_causal 0.5311 re_mapping 0.0038 re_causal 0.0126 /// teacc 99.02 lr 0.00010000
+Epoch 227, weight, value: tensor([[-0.1918, -0.0361,  0.1890,  ...,  0.0411, -0.1724, -0.1359],
+        [-0.1271, -0.1660, -0.0394,  ..., -0.1100, -0.1842, -0.0740],
+        [ 0.2214, -0.0650, -0.2074,  ..., -0.1652, -0.1701, -0.1951],
+        ...,
+        [-0.0714, -0.0254, -0.2353,  ..., -0.1021,  0.1032,  0.0233],
+        [-0.1687, -0.1063, -0.0280,  ..., -0.1697, -0.0317, -0.0290],
+        [-0.0683, -0.0882, -0.1183,  ...,  0.0944,  0.0274, -0.1542]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09,  1.8626e-09, -1.1176e-08,  ..., -1.1176e-08,
+          9.6858e-08,  1.3970e-08],
+        [ 2.0489e-08,  9.3132e-10,  2.7940e-09,  ...,  5.5879e-09,
+          2.7381e-07,  6.5193e-09],
+        [-1.5926e-07,  9.3132e-10,  1.8626e-09,  ...,  1.8626e-09,
+          1.1828e-07,  8.3819e-09],
+        ...,
+        [ 1.4901e-08,  9.3132e-10,  9.3132e-10,  ...,  8.3819e-09,
+         -1.8962e-06, -1.0058e-07],
+        [ 1.0245e-08,  4.9360e-08,  1.9558e-08,  ...,  4.7497e-08,
+          4.3493e-07,  1.4901e-08],
+        [ 2.7940e-09,  1.8626e-09,  1.3970e-08,  ..., -8.6613e-08,
+          9.4250e-07,  5.9605e-08]], device='cuda:0')
+Epoch 227, bias, value: tensor([ 0.0029,  0.0121,  0.0113, -0.0007,  0.0236, -0.0025, -0.0097, -0.0061,
+         0.0145, -0.0146], device='cuda:0'), grad: tensor([ 3.9488e-07,  9.8068e-07,  2.2259e-07,  1.3141e-06,  2.7195e-07,
+        -3.7290e-06,  1.9185e-07, -6.8918e-06,  3.7812e-06,  3.4608e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 226, time 246.74, cls_loss 0.0009 cls_loss_mapping 0.0029 cls_loss_causal 0.4831 re_mapping 0.0037 re_causal 0.0116 /// teacc 99.16 lr 0.00010000
+Epoch 228, weight, value: tensor([[-0.1922, -0.0361,  0.1898,  ...,  0.0415, -0.1731, -0.1361],
+        [-0.1272, -0.1668, -0.0401,  ..., -0.1109, -0.1859, -0.0743],
+        [ 0.2218, -0.0651, -0.2095,  ..., -0.1660, -0.1706, -0.1955],
+        ...,
+        [-0.0714, -0.0257, -0.2372,  ..., -0.1026,  0.1036,  0.0236],
+        [-0.1691, -0.1072, -0.0260,  ..., -0.1714, -0.0296, -0.0270],
+        [-0.0686, -0.0884, -0.1187,  ...,  0.0943,  0.0273, -0.1544]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  1.8626e-09, -1.5553e-07,  ..., -2.9802e-08,
+          7.4506e-08,  2.6077e-08],
+        [ 2.5146e-08,  2.7940e-09,  3.5390e-08,  ...,  3.1665e-08,
+          2.5798e-07,  1.0245e-08],
+        [-1.3690e-07,  1.8626e-09,  2.1420e-08,  ...,  4.6566e-09,
+          1.6764e-08,  2.7940e-09],
+        ...,
+        [ 6.7055e-08,  1.1176e-08,  3.2596e-08,  ...,  1.8626e-08,
+         -2.3916e-06, -6.5193e-09],
+        [ 2.0489e-08,  3.1665e-08,  1.7695e-07,  ...,  9.6858e-08,
+          1.5926e-07,  1.3039e-08],
+        [ 2.7940e-09,  9.3132e-09,  2.4214e-08,  ..., -7.8976e-07,
+          1.8580e-06,  1.0245e-08]], device='cuda:0')
+Epoch 228, bias, value: tensor([ 0.0035,  0.0131,  0.0105, -0.0013,  0.0237, -0.0025, -0.0102, -0.0067,
+         0.0165, -0.0147], device='cuda:0'), grad: tensor([-6.7987e-08,  4.3120e-07, -1.3411e-07,  3.9712e-06,  1.4435e-06,
+        -5.0068e-06,  5.1223e-08, -7.2829e-06,  1.1101e-06,  5.4352e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 227, time 246.46, cls_loss 0.0007 cls_loss_mapping 0.0024 cls_loss_causal 0.4733 re_mapping 0.0038 re_causal 0.0121 /// teacc 99.06 lr 0.00010000
+Epoch 229, weight, value: tensor([[-0.1950, -0.0365,  0.1899,  ...,  0.0416, -0.1745, -0.1368],
+        [-0.1276, -0.1700, -0.0401,  ..., -0.1116, -0.1882, -0.0746],
+        [ 0.2225, -0.0651, -0.2101,  ..., -0.1664, -0.1710, -0.1957],
+        ...,
+        [-0.0716, -0.0261, -0.2385,  ..., -0.1033,  0.1042,  0.0241],
+        [-0.1694, -0.1085, -0.0264,  ..., -0.1729, -0.0301, -0.0275],
+        [-0.0693, -0.0887, -0.1190,  ...,  0.0938,  0.0270, -0.1546]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  8.0094e-08, -1.1921e-07,  ...,  2.2352e-08,
+          1.4529e-07,  7.5437e-08],
+        [ 1.8626e-09,  2.1420e-07,  1.2107e-08,  ...,  9.8720e-08,
+          3.5856e-07,  6.7987e-08],
+        [ 1.8626e-09,  1.2759e-07,  7.4506e-09,  ...,  3.6322e-07,
+          5.7835e-07,  1.9558e-08],
+        ...,
+        [ 4.6566e-09,  1.8515e-06,  3.7253e-09,  ...,  1.4063e-07,
+         -1.2759e-06, -4.3958e-07],
+        [ 1.8626e-09,  1.1735e-07,  1.4994e-07,  ...,  8.0094e-08,
+         -4.8522e-07, -2.7008e-08],
+        [ 0.0000e+00,  6.8918e-08,  1.6484e-07,  ...,  1.8803e-06,
+          3.8370e-07,  8.3819e-09]], device='cuda:0')
+Epoch 229, bias, value: tensor([ 0.0032,  0.0121,  0.0107, -0.0016,  0.0245, -0.0024, -0.0101, -0.0059,
+         0.0163, -0.0154], device='cuda:0'), grad: tensor([ 8.7731e-07,  3.3733e-06,  2.3499e-05, -1.3128e-05, -6.8136e-06,
+         6.1579e-06,  8.7172e-07,  5.0217e-06, -2.8208e-05,  8.2850e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 228, time 246.71, cls_loss 0.0007 cls_loss_mapping 0.0023 cls_loss_causal 0.5037 re_mapping 0.0040 re_causal 0.0131 /// teacc 99.09 lr 0.00010000
+Epoch 230, weight, value: tensor([[-0.1958, -0.0367,  0.1937,  ...,  0.0431, -0.1759, -0.1386],
+        [-0.1277, -0.1716, -0.0406,  ..., -0.1097, -0.1888, -0.0748],
+        [ 0.2245, -0.0650, -0.2106,  ..., -0.1666, -0.1714, -0.1960],
+        ...,
+        [-0.0719, -0.0266, -0.2399,  ..., -0.1059,  0.1043,  0.0246],
+        [-0.1701, -0.1090, -0.0268,  ..., -0.1740, -0.0305, -0.0280],
+        [-0.0726, -0.0889, -0.1254,  ...,  0.0921,  0.0270, -0.1550]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  0.0000e+00, -1.2945e-07,  ..., -6.0536e-08,
+          1.2107e-08,  1.8626e-09],
+        [ 7.4506e-09,  6.5193e-09, -6.5193e-09,  ...,  0.0000e+00,
+          3.5390e-08,  0.0000e+00],
+        [ 5.9605e-08,  5.4948e-08,  2.3283e-08,  ...,  5.5879e-09,
+          8.3819e-09,  9.3132e-10],
+        ...,
+        [ 3.9116e-08,  2.8871e-08,  9.3132e-09,  ...,  1.3970e-08,
+         -4.1910e-08,  0.0000e+00],
+        [ 4.6566e-09,  2.7940e-09,  6.5193e-08,  ...,  2.7940e-08,
+          3.1665e-08,  1.8626e-09],
+        [ 9.3132e-10,  1.8626e-09,  7.2643e-08,  ..., -6.9849e-08,
+         -3.8184e-08,  0.0000e+00]], device='cuda:0')
+Epoch 230, bias, value: tensor([ 0.0049,  0.0129,  0.0115, -0.0018,  0.0244, -0.0025, -0.0099, -0.0065,
+         0.0160, -0.0176], device='cuda:0'), grad: tensor([-1.0803e-07, -1.2200e-06,  2.6450e-07, -2.4680e-07,  2.2724e-07,
+         1.2387e-07, -9.6858e-08,  7.7859e-07,  3.8464e-07, -9.5926e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 229, time 246.65, cls_loss 0.0007 cls_loss_mapping 0.0030 cls_loss_causal 0.5095 re_mapping 0.0037 re_causal 0.0124 /// teacc 99.10 lr 0.00010000
+Epoch 231, weight, value: tensor([[-0.1961, -0.0377,  0.1940,  ...,  0.0434, -0.1768, -0.1388],
+        [-0.1279, -0.1735, -0.0410,  ..., -0.1110, -0.1899, -0.0749],
+        [ 0.2250, -0.0650, -0.2111,  ..., -0.1670, -0.1718, -0.1962],
+        ...,
+        [-0.0722, -0.0282, -0.2413,  ..., -0.1064,  0.1046,  0.0246],
+        [-0.1705, -0.1093, -0.0272,  ..., -0.1751, -0.0308, -0.0281],
+        [-0.0730, -0.0894, -0.1257,  ...,  0.0914,  0.0268, -0.1551]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-08,  6.5193e-09, -3.2596e-08,  ...,  2.1420e-08,
+          3.3993e-08,  2.7940e-09],
+        [ 1.5739e-07,  2.5146e-08,  2.7940e-09,  ...,  4.5169e-08,
+          3.6787e-08,  4.6566e-10],
+        [-1.2163e-06, -3.1665e-08,  2.3283e-09,  ...,  6.5193e-09,
+          2.0489e-08,  0.0000e+00],
+        ...,
+        [ 1.9465e-07,  2.0955e-08,  2.3283e-09,  ...,  1.7835e-07,
+          3.6322e-08,  9.3132e-10],
+        [ 6.2678e-07,  3.6787e-08,  7.4506e-09,  ...,  5.4482e-08,
+         -3.2596e-09,  9.7789e-09],
+        [ 1.1176e-08,  3.7253e-09,  1.2107e-08,  ..., -1.1986e-06,
+         -4.4098e-07,  4.6566e-10]], device='cuda:0')
+Epoch 231, bias, value: tensor([ 0.0051,  0.0127,  0.0116, -0.0017,  0.0262, -0.0026, -0.0097, -0.0066,
+         0.0160, -0.0187], device='cuda:0'), grad: tensor([ 3.3854e-07,  1.9185e-07, -2.1700e-06,  4.5635e-08,  2.2650e-06,
+        -9.0804e-08,  4.0932e-07,  1.1735e-06,  5.9651e-07, -2.7753e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 230, time 246.84, cls_loss 0.0006 cls_loss_mapping 0.0019 cls_loss_causal 0.5102 re_mapping 0.0038 re_causal 0.0129 /// teacc 99.01 lr 0.00010000
+Epoch 232, weight, value: tensor([[-0.1973, -0.0366,  0.1943,  ...,  0.0434, -0.1772, -0.1390],
+        [-0.1289, -0.1757, -0.0411,  ..., -0.1116, -0.1912, -0.0750],
+        [ 0.2262, -0.0651, -0.2117,  ..., -0.1667, -0.1720, -0.1964],
+        ...,
+        [-0.0730, -0.0292, -0.2441,  ..., -0.1073,  0.1047,  0.0249],
+        [-0.1717, -0.1097, -0.0275,  ..., -0.1766, -0.0311, -0.0282],
+        [-0.0730, -0.0902, -0.1258,  ...,  0.0913,  0.0269, -0.1551]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  2.7940e-09, -4.0326e-07,  ..., -4.3772e-08,
+          1.5832e-08,  1.0245e-08],
+        [ 9.2201e-08,  5.1223e-08,  1.9558e-08,  ..., -8.3819e-09,
+          1.2107e-08,  9.3132e-10],
+        [ 9.3132e-10,  2.7940e-09,  6.5193e-09,  ...,  9.3132e-10,
+          1.8626e-09,  9.3132e-10],
+        ...,
+        [ 1.7695e-08,  1.3039e-08,  7.4506e-09,  ...,  2.7940e-09,
+         -2.6077e-08,  9.3132e-10],
+        [ 3.7253e-09,  6.5193e-09,  2.8871e-08,  ...,  2.7940e-09,
+          1.3039e-08,  3.7253e-09],
+        [ 7.4506e-09,  1.1176e-08,  2.9802e-08,  ...,  6.5193e-09,
+          3.7253e-08,  1.8626e-09]], device='cuda:0')
+Epoch 232, bias, value: tensor([ 0.0052,  0.0119,  0.0124, -0.0017,  0.0265, -0.0026, -0.0098, -0.0063,
+         0.0158, -0.0187], device='cuda:0'), grad: tensor([-5.3830e-07,  2.6915e-07,  5.8673e-08, -6.5565e-07,  8.1025e-08,
+        -2.3004e-07,  3.7160e-07,  2.2259e-07,  1.3411e-07,  2.9244e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 231, time 246.39, cls_loss 0.0010 cls_loss_mapping 0.0026 cls_loss_causal 0.5026 re_mapping 0.0037 re_causal 0.0121 /// teacc 99.17 lr 0.00010000
+Epoch 233, weight, value: tensor([[-0.1977, -0.0362,  0.1946,  ...,  0.0432, -0.1775, -0.1391],
+        [-0.1296, -0.1789, -0.0414,  ..., -0.1092, -0.1918, -0.0751],
+        [ 0.2268, -0.0651, -0.2128,  ..., -0.1673, -0.1730, -0.1966],
+        ...,
+        [-0.0732, -0.0261, -0.2464,  ..., -0.1050,  0.1079,  0.0248],
+        [-0.1722, -0.1096, -0.0275,  ..., -0.1779, -0.0313, -0.0282],
+        [-0.0731, -0.0936, -0.1259,  ...,  0.0911,  0.0243, -0.1553]],
+       device='cuda:0'), grad: tensor([[ 1.4901e-07,  7.5437e-08, -5.0291e-08,  ..., -1.7695e-08,
+          3.7253e-09,  1.8626e-09],
+        [ 3.5949e-07,  1.7602e-07,  7.4506e-09,  ...,  6.5193e-09,
+          1.1176e-08,  9.3132e-10],
+        [ 1.8440e-07,  1.5274e-07,  2.7940e-09,  ...,  1.8626e-09,
+          9.3132e-09,  0.0000e+00],
+        ...,
+        [ 5.5321e-07,  2.5425e-07,  2.7940e-09,  ...,  1.3039e-08,
+         -1.4901e-08,  0.0000e+00],
+        [ 1.5087e-07,  1.0338e-07,  9.3132e-09,  ...,  2.7008e-08,
+          6.5193e-09,  2.7940e-09],
+        [ 7.8231e-08,  4.9360e-08,  2.3283e-08,  ..., -1.4994e-07,
+         -2.2352e-08,  0.0000e+00]], device='cuda:0')
+Epoch 233, bias, value: tensor([ 0.0051,  0.0113,  0.0124, -0.0020,  0.0261, -0.0026, -0.0098, -0.0035,
+         0.0157, -0.0200], device='cuda:0'), grad: tensor([ 6.8452e-07,  1.3895e-06,  1.3281e-06, -9.9316e-06,  2.6356e-07,
+         2.2538e-06,  1.3225e-07,  2.7530e-06,  9.8068e-07,  1.3504e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 232, time 246.54, cls_loss 0.0010 cls_loss_mapping 0.0026 cls_loss_causal 0.4874 re_mapping 0.0039 re_causal 0.0122 /// teacc 99.00 lr 0.00010000
+Epoch 234, weight, value: tensor([[-0.1990, -0.0363,  0.1948,  ...,  0.0427, -0.1778, -0.1394],
+        [-0.1298, -0.1819, -0.0405,  ..., -0.1070, -0.1924, -0.0754],
+        [ 0.2285, -0.0654, -0.2133,  ..., -0.1677, -0.1739, -0.1964],
+        ...,
+        [-0.0755, -0.0257, -0.2490,  ..., -0.1052,  0.1080,  0.0244],
+        [-0.1731, -0.1115, -0.0279,  ..., -0.1843, -0.0323, -0.0289],
+        [-0.0731, -0.0936, -0.1262,  ...,  0.0931,  0.0263, -0.1555]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.3283e-08, -1.0990e-07,  ..., -7.8231e-08,
+          1.8626e-08,  7.8231e-08],
+        [ 4.6566e-09,  9.3132e-09,  1.4901e-08,  ...,  2.1420e-08,
+          1.0338e-07,  1.3039e-06],
+        [-2.7940e-09,  4.1910e-08,  8.3819e-09,  ...,  1.0245e-08,
+          7.5437e-08,  1.0412e-06],
+        ...,
+        [ 1.1176e-08,  3.3528e-08,  2.8871e-08,  ...,  2.3004e-07,
+          2.7940e-08,  3.2596e-08],
+        [ 0.0000e+00,  3.9116e-08,  1.6764e-08,  ...,  3.1665e-08,
+         -3.3528e-08,  9.3132e-10],
+        [ 0.0000e+00,  1.5832e-08,  3.8184e-08,  ..., -1.2107e-08,
+         -5.5879e-08,  4.5635e-08]], device='cuda:0')
+Epoch 234, bias, value: tensor([ 0.0043,  0.0126,  0.0132, -0.0028,  0.0235, -0.0025, -0.0096, -0.0036,
+         0.0139, -0.0178], device='cuda:0'), grad: tensor([ 3.0454e-07,  6.6683e-06,  5.5879e-06,  4.7963e-07,  1.1306e-06,
+         4.5300e-06, -1.9461e-05,  8.4005e-07, -5.1782e-07,  4.1910e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 233, time 246.77, cls_loss 0.0008 cls_loss_mapping 0.0028 cls_loss_causal 0.5076 re_mapping 0.0042 re_causal 0.0127 /// teacc 99.06 lr 0.00010000
+Epoch 235, weight, value: tensor([[-0.2002, -0.0367,  0.1949,  ...,  0.0427, -0.1780, -0.1397],
+        [-0.1309, -0.1861, -0.0406,  ..., -0.1070, -0.1928, -0.0759],
+        [ 0.2322, -0.0646, -0.2140,  ..., -0.1681, -0.1742, -0.1963],
+        ...,
+        [-0.0764, -0.0259, -0.2501,  ..., -0.1058,  0.1078,  0.0243],
+        [-0.1790, -0.1158, -0.0281,  ..., -0.1847, -0.0325, -0.0291],
+        [-0.0732, -0.0936, -0.1263,  ...,  0.0931,  0.0264, -0.1558]],
+       device='cuda:0'), grad: tensor([[ 1.1269e-07,  4.6566e-09, -7.5437e-08,  ..., -6.7055e-08,
+          7.4506e-09,  6.3330e-08],
+        [ 1.1981e-05,  2.7940e-09,  6.0536e-08,  ...,  2.0489e-08,
+          3.7253e-09,  1.0245e-08],
+        [-1.5497e-05,  6.5193e-09,  2.6077e-08,  ...,  1.1176e-08,
+          1.5832e-08,  1.1176e-08],
+        ...,
+        [ 2.1514e-07,  7.4506e-09,  4.6566e-09,  ...,  1.8626e-09,
+          2.7940e-09,  5.5879e-09],
+        [ 8.8569e-07, -2.4959e-07,  1.0990e-07,  ...,  1.8626e-08,
+         -8.1025e-07, -5.0478e-07],
+        [ 9.0338e-08,  1.9558e-08,  2.5146e-08,  ...,  1.2107e-08,
+          1.1176e-08,  1.2107e-08]], device='cuda:0')
+Epoch 235, bias, value: tensor([ 0.0043,  0.0128,  0.0163, -0.0039,  0.0238, -0.0025, -0.0096, -0.0042,
+         0.0120, -0.0178], device='cuda:0'), grad: tensor([ 3.9022e-07,  3.9846e-05, -5.1260e-05,  1.3663e-06,  4.1351e-06,
+         3.2503e-06,  1.0729e-06,  7.5903e-07, -1.1921e-07,  5.5041e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 234, time 246.64, cls_loss 0.0007 cls_loss_mapping 0.0018 cls_loss_causal 0.5255 re_mapping 0.0036 re_causal 0.0124 /// teacc 99.11 lr 0.00010000
+Epoch 236, weight, value: tensor([[-0.2005, -0.0369,  0.1949,  ...,  0.0427, -0.1785, -0.1402],
+        [-0.1317, -0.1911, -0.0409,  ..., -0.1065, -0.1932, -0.0765],
+        [ 0.2320, -0.0653, -0.2149,  ..., -0.1686, -0.1749, -0.1977],
+        ...,
+        [-0.0764, -0.0260, -0.2514,  ..., -0.1069,  0.1077,  0.0270],
+        [-0.1799, -0.1161, -0.0283,  ..., -0.1849, -0.0326, -0.0294],
+        [-0.0732, -0.0937, -0.1263,  ...,  0.0929,  0.0264, -0.1559]],
+       device='cuda:0'), grad: tensor([[ 4.1910e-08,  1.6764e-08,  1.6764e-08,  ..., -4.8429e-08,
+          9.3132e-09,  2.7940e-08],
+        [ 1.0524e-07,  7.1712e-08,  8.3819e-09,  ..., -6.3330e-08,
+          1.6764e-08,  1.8626e-09],
+        [ 2.6450e-07,  1.3132e-07,  2.1048e-07,  ...,  1.5832e-08,
+          1.4901e-08,  4.1910e-08],
+        ...,
+        [ 6.8918e-08,  2.3283e-08,  4.6566e-09,  ...,  1.2200e-07,
+         -6.5193e-09,  0.0000e+00],
+        [ 6.8918e-08,  5.1223e-08,  5.6718e-07,  ...,  2.5146e-08,
+          4.2841e-08,  1.2759e-07],
+        [ 5.5879e-09,  2.7940e-09,  6.0536e-08,  ..., -2.0489e-07,
+         -5.7742e-08,  3.7253e-09]], device='cuda:0')
+Epoch 236, bias, value: tensor([ 0.0042,  0.0131,  0.0156, -0.0026,  0.0240, -0.0026, -0.0095, -0.0047,
+         0.0117, -0.0178], device='cuda:0'), grad: tensor([ 3.1199e-07, -1.2293e-07,  1.9129e-06, -2.6673e-06,  3.7067e-07,
+         2.0470e-06, -4.2059e-06,  6.1188e-07,  1.9893e-06, -2.3935e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 235, time 246.40, cls_loss 0.0009 cls_loss_mapping 0.0023 cls_loss_causal 0.4789 re_mapping 0.0035 re_causal 0.0114 /// teacc 99.12 lr 0.00010000
+Epoch 237, weight, value: tensor([[-0.2015, -0.0371,  0.1951,  ...,  0.0427, -0.1786, -0.1404],
+        [-0.1343, -0.1943, -0.0413,  ..., -0.1066, -0.1944, -0.0766],
+        [ 0.2337, -0.0654, -0.2153,  ..., -0.1692, -0.1751, -0.1981],
+        ...,
+        [-0.0773, -0.0260, -0.2536,  ..., -0.1086,  0.1065,  0.0270],
+        [-0.1802, -0.1166, -0.0286,  ..., -0.1852, -0.0327, -0.0294],
+        [-0.0733, -0.0937, -0.1264,  ...,  0.0932,  0.0275, -0.1560]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09, -2.6077e-08, -6.4448e-07,  ..., -3.2317e-07,
+          1.3039e-08,  1.8626e-09],
+        [ 1.6764e-08,  9.3132e-09,  3.7253e-09,  ...,  9.3132e-10,
+          2.1420e-08,  0.0000e+00],
+        [-1.9558e-08,  3.1665e-08,  2.9895e-07,  ...,  1.8533e-07,
+          3.7253e-09,  0.0000e+00],
+        ...,
+        [ 1.2107e-08,  2.7008e-08,  8.3819e-09,  ...,  9.3132e-08,
+         -1.4901e-08,  0.0000e+00],
+        [ 6.5193e-09,  1.9092e-07,  1.7509e-07,  ...,  1.6578e-07,
+          2.0489e-08,  9.3132e-10],
+        [ 5.7742e-07,  1.4268e-06,  7.2643e-08,  ..., -3.4925e-07,
+         -1.2480e-07,  9.3132e-10]], device='cuda:0')
+Epoch 237, bias, value: tensor([ 0.0042,  0.0125,  0.0159, -0.0026,  0.0240, -0.0026, -0.0094, -0.0053,
+         0.0116, -0.0172], device='cuda:0'), grad: tensor([-1.1688e-06,  6.7987e-08,  6.5751e-07, -5.1111e-06,  1.7229e-07,
+        -1.4538e-06,  2.0023e-07,  1.9278e-07,  2.4214e-06,  3.9861e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 236, time 246.57, cls_loss 0.0009 cls_loss_mapping 0.0018 cls_loss_causal 0.4685 re_mapping 0.0035 re_causal 0.0112 /// teacc 99.07 lr 0.00010000
+Epoch 238, weight, value: tensor([[-0.2019, -0.0378,  0.1951,  ...,  0.0427, -0.1790, -0.1406],
+        [-0.1348, -0.1963, -0.0415,  ..., -0.1041, -0.1950, -0.0769],
+        [ 0.2340, -0.0655, -0.2175,  ..., -0.1695, -0.1756, -0.1989],
+        ...,
+        [-0.0775, -0.0261, -0.2547,  ..., -0.1100,  0.1065,  0.0281],
+        [-0.1802, -0.1161, -0.0288,  ..., -0.1854, -0.0327, -0.0292],
+        [-0.0734, -0.0937, -0.1264,  ...,  0.0931,  0.0276, -0.1562]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  6.5193e-09,  1.7695e-08,  ..., -5.5879e-09,
+          1.4901e-08,  1.9558e-08],
+        [ 1.8626e-09,  4.6566e-09,  6.5193e-09,  ...,  1.6764e-08,
+          2.4214e-08,  3.7253e-09],
+        [ 1.8626e-09,  3.7253e-09,  1.0245e-08,  ...,  1.3039e-08,
+          6.5193e-09,  4.6566e-09],
+        ...,
+        [ 1.8626e-09,  3.7253e-09,  9.3132e-10,  ...,  5.5879e-09,
+         -6.8918e-08,  9.3132e-10],
+        [ 1.8626e-09, -1.8626e-09,  2.0489e-08,  ...,  4.6566e-09,
+          8.3819e-09,  4.6566e-09],
+        [ 0.0000e+00,  2.7940e-09,  7.4506e-09,  ...,  1.4063e-07,
+          9.3132e-09,  1.8626e-09]], device='cuda:0')
+Epoch 238, bias, value: tensor([ 0.0041,  0.0152,  0.0157, -0.0026,  0.0239, -0.0029, -0.0093, -0.0071,
+         0.0122, -0.0175], device='cuda:0'), grad: tensor([ 3.2037e-07,  6.7335e-07,  4.9639e-07,  1.2331e-06, -1.0803e-07,
+        -2.1886e-07,  1.8626e-09, -7.7114e-07, -2.1011e-06,  4.7497e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 237, time 246.57, cls_loss 0.0009 cls_loss_mapping 0.0035 cls_loss_causal 0.5220 re_mapping 0.0035 re_causal 0.0116 /// teacc 99.07 lr 0.00010000
+Epoch 239, weight, value: tensor([[-0.2028, -0.0391,  0.1952,  ...,  0.0427, -0.1794, -0.1409],
+        [-0.1353, -0.2009, -0.0416,  ..., -0.1034, -0.1958, -0.0772],
+        [ 0.2344, -0.0658, -0.2199,  ..., -0.1702, -0.1762, -0.2017],
+        ...,
+        [-0.0779, -0.0259, -0.2558,  ..., -0.1105,  0.1066,  0.0284],
+        [-0.1805, -0.1176, -0.0306,  ..., -0.1859, -0.0329, -0.0307],
+        [-0.0735, -0.0933, -0.1265,  ...,  0.0931,  0.0276, -0.1571]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.3039e-08,  6.5193e-09,  ...,  2.0489e-08,
+          1.3970e-08,  9.3132e-09],
+        [ 9.3132e-10,  1.2107e-08, -2.4214e-08,  ...,  6.5193e-08,
+          1.6764e-08,  6.5193e-09],
+        [ 0.0000e+00,  1.0245e-08,  9.3132e-10,  ...,  6.5193e-09,
+          6.5193e-09,  5.5879e-09],
+        ...,
+        [ 2.7940e-09,  2.5146e-08,  7.4506e-09,  ...,  1.3039e-07,
+          3.9116e-08,  1.3970e-08],
+        [ 0.0000e+00,  8.6799e-07,  1.8626e-09,  ...,  7.2643e-08,
+          5.1688e-07,  5.1502e-07],
+        [ 0.0000e+00,  5.0291e-08,  2.7940e-09,  ..., -2.5239e-07,
+         -1.2852e-07,  2.5146e-08]], device='cuda:0')
+Epoch 239, bias, value: tensor([ 0.0041,  0.0157,  0.0154, -0.0029,  0.0239, -0.0029, -0.0089, -0.0073,
+         0.0115, -0.0177], device='cuda:0'), grad: tensor([ 3.0547e-07,  2.2072e-07,  1.7323e-07,  7.6517e-06,  3.3341e-07,
+        -1.8403e-05,  1.5870e-06,  8.5961e-07,  7.9200e-06, -6.3796e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 238, time 246.68, cls_loss 0.0006 cls_loss_mapping 0.0029 cls_loss_causal 0.4674 re_mapping 0.0037 re_causal 0.0121 /// teacc 99.09 lr 0.00010000
+Epoch 240, weight, value: tensor([[-0.2030, -0.0393,  0.1953,  ...,  0.0427, -0.1798, -0.1411],
+        [-0.1357, -0.2031, -0.0417,  ..., -0.1034, -0.1966, -0.0774],
+        [ 0.2347, -0.0658, -0.2207,  ..., -0.1708, -0.1765, -0.2019],
+        ...,
+        [-0.0780, -0.0260, -0.2564,  ..., -0.1106,  0.1066,  0.0285],
+        [-0.1806, -0.1180, -0.0309,  ..., -0.1862, -0.0328, -0.0309],
+        [-0.0736, -0.0933, -0.1266,  ...,  0.0941,  0.0282, -0.1575]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-08,  9.3132e-10, -1.5926e-07,  ..., -1.4249e-07,
+          1.7695e-08,  7.6368e-08],
+        [ 1.3504e-07,  1.8626e-09,  1.0245e-08,  ...,  1.9558e-08,
+          3.7253e-09,  2.6077e-08],
+        [-1.8522e-05,  0.0000e+00,  3.1665e-08,  ...,  2.5146e-08,
+          2.7940e-09,  9.3132e-09],
+        ...,
+        [ 9.6858e-08,  3.7253e-09,  1.0245e-08,  ...,  1.4435e-07,
+          1.8626e-09,  1.8626e-09],
+        [ 1.8239e-05,  1.4901e-08,  3.8184e-08,  ...,  2.8871e-08,
+         -1.8626e-09, -1.5460e-07],
+        [ 2.7940e-09,  1.0151e-07,  1.7788e-07,  ..., -4.4890e-07,
+          5.0291e-08,  9.3132e-10]], device='cuda:0')
+Epoch 240, bias, value: tensor([ 0.0040,  0.0156,  0.0153, -0.0024,  0.0227, -0.0030, -0.0088, -0.0073,
+         0.0116, -0.0168], device='cuda:0'), grad: tensor([-3.4459e-08,  4.9360e-07, -3.2693e-05,  7.0687e-07,  6.6590e-07,
+        -1.4100e-06,  1.7323e-07,  4.5449e-07,  3.1143e-05,  5.5041e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 239, time 248.58, cls_loss 0.0006 cls_loss_mapping 0.0039 cls_loss_causal 0.4939 re_mapping 0.0038 re_causal 0.0125 /// teacc 99.13 lr 0.00010000
+Epoch 241, weight, value: tensor([[-0.2037, -0.0394,  0.1952,  ...,  0.0427, -0.1801, -0.1413],
+        [-0.1362, -0.2046, -0.0417,  ..., -0.1035, -0.1972, -0.0778],
+        [ 0.2352, -0.0658, -0.2221,  ..., -0.1715, -0.1767, -0.2021],
+        ...,
+        [-0.0782, -0.0260, -0.2578,  ..., -0.1108,  0.1066,  0.0285],
+        [-0.1804, -0.1183, -0.0309,  ..., -0.1859, -0.0329, -0.0313],
+        [-0.0739, -0.0934, -0.1267,  ...,  0.0939,  0.0280, -0.1576]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  1.8626e-09, -1.8161e-07,  ..., -2.7008e-08,
+          1.8626e-09,  1.8626e-09],
+        [ 4.6566e-09,  5.5879e-09,  1.1176e-08,  ...,  3.7253e-08,
+          1.1176e-08,  0.0000e+00],
+        [ 2.7940e-09,  2.7940e-09,  1.8626e-09,  ...,  1.3039e-08,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 1.4901e-08,  1.3039e-08,  2.7940e-09,  ...,  1.0338e-07,
+          1.4901e-08,  0.0000e+00],
+        [ 5.5879e-09,  5.5879e-09,  1.8626e-09,  ...,  1.3504e-07,
+          3.7253e-09,  0.0000e+00],
+        [ 1.5832e-08,  3.2596e-08,  1.5832e-08,  ..., -8.3353e-07,
+         -1.3970e-07,  0.0000e+00]], device='cuda:0')
+Epoch 241, bias, value: tensor([ 0.0040,  0.0156,  0.0153, -0.0026,  0.0229, -0.0031, -0.0085, -0.0073,
+         0.0117, -0.0170], device='cuda:0'), grad: tensor([-1.6484e-07,  1.0245e-07,  5.2154e-08, -9.2108e-07, -1.1884e-06,
+         3.2112e-06,  3.7625e-07,  2.8592e-07,  2.9802e-07, -2.0489e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 240, time 248.44, cls_loss 0.0007 cls_loss_mapping 0.0021 cls_loss_causal 0.5154 re_mapping 0.0037 re_causal 0.0120 /// teacc 99.09 lr 0.00010000
+Epoch 242, weight, value: tensor([[-0.2054, -0.0397,  0.1953,  ...,  0.0427, -0.1804, -0.1415],
+        [-0.1366, -0.2064, -0.0418,  ..., -0.1036, -0.1982, -0.0810],
+        [ 0.2364, -0.0658, -0.2225,  ..., -0.1718, -0.1770, -0.2024],
+        ...,
+        [-0.0802, -0.0261, -0.2589,  ..., -0.1109,  0.1067,  0.0285],
+        [-0.1806, -0.1189, -0.0310,  ..., -0.1861, -0.0329, -0.0317],
+        [-0.0741, -0.0935, -0.1267,  ...,  0.0939,  0.0280, -0.1577]],
+       device='cuda:0'), grad: tensor([[ 1.3039e-08,  9.3132e-09, -2.9802e-07,  ..., -1.7043e-07,
+          5.5879e-09,  6.5193e-09],
+        [ 3.4273e-07,  6.6124e-08,  2.4214e-08,  ...,  5.5879e-09,
+          1.6764e-08,  2.7940e-09],
+        [-4.0699e-07, -5.4948e-08,  1.5832e-08,  ...,  6.5193e-09,
+          1.2107e-08,  9.3132e-10],
+        ...,
+        [ 4.5635e-08,  1.7695e-08,  5.5879e-09,  ...,  9.3132e-10,
+         -4.6566e-08,  1.8626e-09],
+        [ 1.5832e-08, -1.6764e-08, -4.3772e-08,  ..., -1.3039e-08,
+          3.7253e-09,  9.3132e-09],
+        [ 6.5193e-09,  1.6764e-08,  2.7567e-07,  ...,  1.4808e-07,
+          9.3132e-10,  6.5193e-09]], device='cuda:0')
+Epoch 242, bias, value: tensor([ 0.0039,  0.0148,  0.0161, -0.0020,  0.0231, -0.0035, -0.0073, -0.0076,
+         0.0116, -0.0171], device='cuda:0'), grad: tensor([-2.9802e-07, -3.5651e-06,  8.1956e-07, -6.3609e-07,  1.3132e-07,
+        -1.8254e-07,  7.5344e-07,  2.2314e-06, -6.0536e-08,  8.2143e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 241, time 248.46, cls_loss 0.0007 cls_loss_mapping 0.0020 cls_loss_causal 0.4886 re_mapping 0.0036 re_causal 0.0114 /// teacc 99.17 lr 0.00010000
+Epoch 243, weight, value: tensor([[-0.2055, -0.0398,  0.1956,  ...,  0.0428, -0.1807, -0.1418],
+        [-0.1370, -0.2076, -0.0418,  ..., -0.1036, -0.1992, -0.0811],
+        [ 0.2369, -0.0659, -0.2233,  ..., -0.1721, -0.1772, -0.2028],
+        ...,
+        [-0.0805, -0.0261, -0.2600,  ..., -0.1110,  0.1068,  0.0285],
+        [-0.1807, -0.1192, -0.0313,  ..., -0.1864, -0.0330, -0.0322],
+        [-0.0743, -0.0935, -0.1268,  ...,  0.0939,  0.0281, -0.1580]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-09,  0.0000e+00, -1.6298e-07,  ..., -7.5437e-08,
+          9.3132e-10,  1.8626e-09],
+        [ 1.3877e-07,  1.8626e-09,  2.5146e-08,  ...,  4.6473e-07,
+          2.7940e-09,  0.0000e+00],
+        [-2.5984e-07,  1.8626e-09,  7.4506e-09,  ...,  4.3772e-08,
+          9.3132e-10,  9.3132e-10],
+        ...,
+        [ 5.5879e-08,  9.3132e-09,  6.5193e-09,  ...,  8.3819e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 1.8626e-08, -0.0000e+00,  8.3819e-09,  ...,  2.0489e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  2.7940e-09,  5.4948e-08,  ...,  1.1642e-07,
+         -1.3970e-08,  0.0000e+00]], device='cuda:0')
+Epoch 243, bias, value: tensor([ 0.0040,  0.0147,  0.0161,  0.0009,  0.0230, -0.0052, -0.0071, -0.0076,
+         0.0115, -0.0171], device='cuda:0'), grad: tensor([-1.3132e-07,  1.4119e-06,  2.0675e-07,  1.8440e-07, -9.4157e-07,
+         1.9278e-07,  2.2817e-07, -1.1632e-06, -7.6927e-07,  7.7952e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 242, time 248.54, cls_loss 0.0006 cls_loss_mapping 0.0024 cls_loss_causal 0.4717 re_mapping 0.0037 re_causal 0.0118 /// teacc 99.03 lr 0.00010000
+Epoch 244, weight, value: tensor([[-0.2059, -0.0399,  0.1957,  ...,  0.0428, -0.1810, -0.1424],
+        [-0.1377, -0.2087, -0.0418,  ..., -0.1039, -0.2007, -0.0811],
+        [ 0.2375, -0.0659, -0.2246,  ..., -0.1728, -0.1777, -0.2031],
+        ...,
+        [-0.0809, -0.0262, -0.2618,  ..., -0.1113,  0.1068,  0.0284],
+        [-0.1808, -0.1192, -0.0314,  ..., -0.1866, -0.0331, -0.0323],
+        [-0.0744, -0.0935, -0.1269,  ...,  0.0939,  0.0282, -0.1581]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.5146e-08,  1.8533e-07,  ...,  0.0000e+00,
+          5.5879e-09,  3.2596e-08],
+        [ 1.8626e-09,  1.7695e-08,  1.2200e-07,  ...,  7.4506e-09,
+          8.3819e-09,  3.3975e-06],
+        [-9.3132e-10,  1.5832e-08,  1.1642e-07,  ...,  1.8626e-09,
+          6.5193e-09,  3.0380e-06],
+        ...,
+        [ 9.3132e-10,  9.3132e-10,  3.7253e-09,  ...,  2.7940e-09,
+         -1.1176e-08,  1.5832e-08],
+        [ 3.7253e-09,  3.7253e-09,  2.3283e-08,  ...,  9.3132e-10,
+          1.8626e-09,  1.2759e-07],
+        [ 9.3132e-10,  1.8626e-09,  1.0245e-08,  ...,  6.3330e-08,
+          1.8626e-09,  6.5193e-09]], device='cuda:0')
+Epoch 244, bias, value: tensor([ 0.0040,  0.0146,  0.0162,  0.0007,  0.0231, -0.0052, -0.0070, -0.0077,
+         0.0117, -0.0170], device='cuda:0'), grad: tensor([ 1.5963e-06,  1.8939e-05,  1.6943e-05,  4.0699e-07,  3.4347e-06,
+         3.6582e-06, -4.6164e-05,  5.5879e-08,  8.5961e-07,  2.9150e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 243, time 248.46, cls_loss 0.0007 cls_loss_mapping 0.0025 cls_loss_causal 0.5240 re_mapping 0.0036 re_causal 0.0123 /// teacc 99.11 lr 0.00010000
+Epoch 245, weight, value: tensor([[-0.2061, -0.0401,  0.1958,  ...,  0.0425, -0.1812, -0.1424],
+        [-0.1383, -0.2094, -0.0416,  ..., -0.1045, -0.2017, -0.0813],
+        [ 0.2380, -0.0659, -0.2254,  ..., -0.1731, -0.1780, -0.2039],
+        ...,
+        [-0.0809, -0.0262, -0.2626,  ..., -0.1110,  0.1069,  0.0285],
+        [-0.1809, -0.1193, -0.0315,  ..., -0.1869, -0.0331, -0.0323],
+        [-0.0745, -0.0935, -0.1270,  ...,  0.0941,  0.0281, -0.1580]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  9.3132e-10, -9.8720e-08,  ..., -5.1223e-08,
+          9.3132e-10,  9.3132e-10],
+        [ 1.8626e-09,  2.7940e-09,  8.3819e-09,  ...,  4.6566e-09,
+          1.3970e-08,  9.3132e-10],
+        [-7.4506e-09,  9.3132e-10,  7.4506e-09,  ...,  5.5879e-09,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 6.5193e-09,  3.0734e-08,  1.1176e-08,  ...,  1.0245e-08,
+         -2.3283e-08,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  6.5193e-09,  ...,  4.6566e-09,
+          9.3132e-10,  9.3132e-10],
+        [ 0.0000e+00,  2.1420e-08,  3.9116e-08,  ...,  6.1467e-08,
+          4.6566e-09,  0.0000e+00]], device='cuda:0')
+Epoch 245, bias, value: tensor([ 0.0037,  0.0137,  0.0160,  0.0017,  0.0233, -0.0059, -0.0068, -0.0069,
+         0.0118, -0.0169], device='cuda:0'), grad: tensor([-1.6484e-07,  1.1176e-07,  1.4901e-08, -3.5018e-07, -6.7987e-08,
+         8.4750e-08,  1.3970e-08,  6.9849e-08,  2.7008e-08,  2.5798e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 244, time 248.12, cls_loss 0.0005 cls_loss_mapping 0.0019 cls_loss_causal 0.4723 re_mapping 0.0039 re_causal 0.0125 /// teacc 99.10 lr 0.00010000
+Epoch 246, weight, value: tensor([[-0.2048, -0.0403,  0.1973,  ...,  0.0434, -0.1818, -0.1444],
+        [-0.1386, -0.2098, -0.0416,  ..., -0.1045, -0.2021, -0.0813],
+        [ 0.2385, -0.0659, -0.2269,  ..., -0.1739, -0.1781, -0.2042],
+        ...,
+        [-0.0813, -0.0262, -0.2633,  ..., -0.1110,  0.1070,  0.0285],
+        [-0.1811, -0.1193, -0.0309,  ..., -0.1866, -0.0332, -0.0325],
+        [-0.0751, -0.0936, -0.1290,  ...,  0.0934,  0.0281, -0.1587]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-09,  5.5879e-09, -2.1420e-08,  ...,  9.3132e-10,
+          3.7253e-09,  9.3132e-10],
+        [ 1.8161e-07,  3.1665e-08, -9.3132e-10,  ...,  1.6764e-08,
+          2.2352e-08,  9.3132e-10],
+        [-3.0547e-07,  2.5146e-08,  2.7940e-09,  ...,  8.3819e-09,
+          4.6566e-09,  1.8626e-09],
+        ...,
+        [ 5.5879e-08,  8.4750e-08,  9.3132e-10,  ..., -3.7253e-09,
+         -6.3330e-08,  9.3132e-10],
+        [ 2.2352e-08,  1.9558e-08,  1.8626e-09,  ...,  9.3132e-10,
+          9.3132e-10,  9.3132e-10],
+        [ 2.7940e-09,  3.7253e-09,  7.4506e-09,  ...,  9.3132e-10,
+          2.1420e-08,  1.8626e-09]], device='cuda:0')
+Epoch 246, bias, value: tensor([ 0.0046,  0.0137,  0.0162,  0.0016,  0.0233, -0.0059, -0.0064, -0.0070,
+         0.0121, -0.0177], device='cuda:0'), grad: tensor([ 7.7300e-08,  7.1898e-07, -5.8953e-07, -1.1735e-06, -1.6764e-08,
+         3.7905e-07,  2.5332e-07, -1.4901e-07,  1.7416e-07,  3.3900e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 245, time 248.64, cls_loss 0.0006 cls_loss_mapping 0.0025 cls_loss_causal 0.5059 re_mapping 0.0038 re_causal 0.0128 /// teacc 99.08 lr 0.00010000
+Epoch 247, weight, value: tensor([[-0.2046, -0.0407,  0.1982,  ...,  0.0437, -0.1824, -0.1449],
+        [-0.1388, -0.2106, -0.0417,  ..., -0.1047, -0.2035, -0.0814],
+        [ 0.2387, -0.0659, -0.2285,  ..., -0.1747, -0.1785, -0.2045],
+        ...,
+        [-0.0815, -0.0263, -0.2646,  ..., -0.1110,  0.1071,  0.0285],
+        [-0.1812, -0.1197, -0.0305,  ..., -0.1868, -0.0333, -0.0328],
+        [-0.0753, -0.0936, -0.1300,  ...,  0.0932,  0.0281, -0.1590]],
+       device='cuda:0'), grad: tensor([[ 1.0245e-08,  0.0000e+00, -1.2917e-06,  ..., -5.0198e-07,
+          1.8626e-09, -9.3132e-10],
+        [ 1.8626e-09,  9.3132e-10,  6.4261e-08,  ...,  5.9605e-08,
+          5.6811e-08,  1.2107e-08],
+        [-5.1223e-08,  0.0000e+00,  1.0990e-07,  ...,  8.5682e-08,
+          8.3819e-09,  1.3039e-08],
+        ...,
+        [ 7.4506e-09,  9.3132e-10,  1.1735e-07,  ...,  9.1270e-08,
+         -7.7300e-08,  4.6566e-09],
+        [ 1.8626e-08,  9.3132e-10,  1.3411e-07,  ...,  1.1828e-07,
+          4.4703e-08,  6.0536e-08],
+        [ 0.0000e+00,  9.3132e-10,  3.0175e-07,  ...,  1.0058e-07,
+          1.8626e-08,  1.4901e-08]], device='cuda:0')
+Epoch 247, bias, value: tensor([ 0.0050,  0.0136,  0.0160,  0.0013,  0.0233, -0.0057, -0.0063, -0.0069,
+         0.0124, -0.0181], device='cuda:0'), grad: tensor([-2.4028e-06,  1.5153e-06,  3.0547e-07,  3.3807e-07, -9.4343e-07,
+        -7.0687e-07,  1.8161e-06, -1.5236e-06,  5.1595e-07,  1.0785e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 246, time 248.41, cls_loss 0.0007 cls_loss_mapping 0.0020 cls_loss_causal 0.4806 re_mapping 0.0036 re_causal 0.0115 /// teacc 99.14 lr 0.00010000
+Epoch 248, weight, value: tensor([[-0.2046, -0.0409,  0.1985,  ...,  0.0438, -0.1826, -0.1450],
+        [-0.1390, -0.2114, -0.0420,  ..., -0.1049, -0.2042, -0.0816],
+        [ 0.2405, -0.0659, -0.2295,  ..., -0.1756, -0.1789, -0.2047],
+        ...,
+        [-0.0818, -0.0263, -0.2677,  ..., -0.1111,  0.1071,  0.0284],
+        [-0.1838, -0.1199, -0.0304,  ..., -0.1873, -0.0337, -0.0334],
+        [-0.0754, -0.0936, -0.1301,  ...,  0.0931,  0.0282, -0.1593]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  9.3132e-10, -8.3521e-06,  ..., -5.0776e-06,
+         -9.3132e-10,  1.8626e-09],
+        [ 1.8626e-09,  9.3132e-10,  2.8964e-07,  ...,  1.9558e-07,
+          2.6077e-08,  9.3132e-10],
+        [-1.3970e-08,  9.3132e-10,  1.5646e-07,  ...,  9.8720e-08,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 3.7253e-09,  9.3132e-10,  3.1106e-07,  ...,  2.1234e-07,
+         -4.8429e-08,  0.0000e+00],
+        [ 8.3819e-09,  3.7253e-09,  1.9465e-07,  ...,  1.0896e-07,
+          1.8626e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.3416e-06,  ...,  2.2296e-06,
+          8.3819e-09,  9.3132e-10]], device='cuda:0')
+Epoch 248, bias, value: tensor([ 0.0051,  0.0131,  0.0170,  0.0010,  0.0235, -0.0054, -0.0064, -0.0065,
+         0.0114, -0.0182], device='cuda:0'), grad: tensor([-2.3499e-05,  1.0105e-06,  4.5449e-07,  1.3355e-06,  1.0710e-07,
+         4.9695e-06,  4.3400e-06,  6.7614e-07,  5.8021e-07,  1.0036e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 247, time 248.47, cls_loss 0.0008 cls_loss_mapping 0.0024 cls_loss_causal 0.4942 re_mapping 0.0036 re_causal 0.0115 /// teacc 99.12 lr 0.00010000
+Epoch 249, weight, value: tensor([[-0.2047, -0.0411,  0.1987,  ...,  0.0438, -0.1834, -0.1454],
+        [-0.1394, -0.2120, -0.0424,  ..., -0.1051, -0.2049, -0.0816],
+        [ 0.2408, -0.0660, -0.2311,  ..., -0.1762, -0.1794, -0.2051],
+        ...,
+        [-0.0817, -0.0263, -0.2717,  ..., -0.1113,  0.1072,  0.0284],
+        [-0.1839, -0.1204, -0.0308,  ..., -0.1882, -0.0340, -0.0338],
+        [-0.0755, -0.0934, -0.1302,  ...,  0.0933,  0.0282, -0.1597]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  9.4995e-08,  ..., -4.0978e-08,
+          5.6811e-08,  9.0338e-08],
+        [ 1.8626e-09,  5.5879e-09,  1.6764e-08,  ...,  1.7695e-08,
+          7.8231e-08,  8.3819e-09],
+        [-2.7940e-09,  4.6566e-09,  1.0245e-08,  ...,  6.5193e-09,
+          1.8626e-08,  2.7940e-09],
+        ...,
+        [ 3.7253e-09,  1.4901e-08,  9.3132e-09,  ...,  0.0000e+00,
+         -3.5856e-07,  0.0000e+00],
+        [ 2.7940e-09,  1.1176e-08,  4.5635e-08,  ...,  2.1420e-08,
+          2.9802e-08,  2.4214e-08],
+        [ 9.3132e-10,  2.7940e-09,  3.6322e-08,  ..., -0.0000e+00,
+          2.3749e-07,  9.3132e-10]], device='cuda:0')
+Epoch 249, bias, value: tensor([ 0.0050,  0.0132,  0.0168,  0.0005,  0.0238, -0.0055, -0.0060, -0.0067,
+         0.0113, -0.0182], device='cuda:0'), grad: tensor([ 3.0734e-07, -1.2837e-05,  1.8906e-07, -2.6263e-07,  2.7008e-08,
+         3.8370e-07, -6.6310e-07,  1.1638e-05,  2.6356e-07,  9.7137e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 248, time 247.42, cls_loss 0.0007 cls_loss_mapping 0.0027 cls_loss_causal 0.4820 re_mapping 0.0037 re_causal 0.0115 /// teacc 99.13 lr 0.00010000
+Epoch 250, weight, value: tensor([[-0.2051, -0.0415,  0.1979,  ...,  0.0438, -0.1857, -0.1486],
+        [-0.1402, -0.2131, -0.0436,  ..., -0.1053, -0.2060, -0.0817],
+        [ 0.2412, -0.0661, -0.2313,  ..., -0.1765, -0.1805, -0.2054],
+        ...,
+        [-0.0818, -0.0263, -0.2733,  ..., -0.1114,  0.1074,  0.0283],
+        [-0.1839, -0.1202, -0.0312,  ..., -0.1899, -0.0352, -0.0350],
+        [-0.0755, -0.0934, -0.1303,  ...,  0.0934,  0.0284, -0.1601]],
+       device='cuda:0'), grad: tensor([[ 8.3819e-09,  9.3132e-10, -3.1386e-07,  ..., -1.0245e-08,
+          9.3132e-09, -3.4459e-08],
+        [ 1.2621e-05,  6.5193e-09,  4.6566e-09,  ...,  3.9116e-08,
+          1.7695e-07,  9.3132e-10],
+        [ 3.5390e-08, -1.3039e-08,  3.7253e-09,  ...,  5.5879e-09,
+          5.5879e-09,  9.3132e-10],
+        ...,
+        [-1.2726e-05,  8.3819e-09,  1.8626e-09,  ...,  2.7940e-08,
+         -2.0768e-07,  0.0000e+00],
+        [ 3.7253e-09,  1.2107e-08,  8.3819e-09,  ...,  1.7043e-07,
+          4.0978e-08,  1.8626e-09],
+        [ 4.6566e-09, -3.0734e-08,  1.5832e-08,  ..., -8.9314e-07,
+         -1.5087e-07,  1.8626e-09]], device='cuda:0')
+Epoch 250, bias, value: tensor([ 0.0045,  0.0130,  0.0169,  0.0005,  0.0237, -0.0057, -0.0049, -0.0067,
+         0.0103, -0.0179], device='cuda:0'), grad: tensor([-2.7288e-07,  1.0926e-04,  1.5842e-06,  7.6462e-07,  1.5842e-06,
+         2.0023e-07,  3.1479e-07, -1.1122e-04,  4.7777e-07, -2.5723e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 249, time 246.71, cls_loss 0.0006 cls_loss_mapping 0.0018 cls_loss_causal 0.4779 re_mapping 0.0039 re_causal 0.0120 /// teacc 99.13 lr 0.00010000
+Epoch 251, weight, value: tensor([[-0.2052, -0.0417,  0.1980,  ...,  0.0437, -0.1860, -0.1486],
+        [-0.1411, -0.2135, -0.0443,  ..., -0.1056, -0.2080, -0.0818],
+        [ 0.2415, -0.0661, -0.2317,  ..., -0.1769, -0.1811, -0.2055],
+        ...,
+        [-0.0816, -0.0263, -0.2742,  ..., -0.1117,  0.1075,  0.0280],
+        [-0.1840, -0.1201, -0.0313,  ..., -0.1903, -0.0351, -0.0351],
+        [-0.0752, -0.0935, -0.1303,  ...,  0.0936,  0.0285, -0.1604]],
+       device='cuda:0'), grad: tensor([[ 1.2107e-08,  1.6764e-08, -6.5193e-09,  ...,  1.3039e-08,
+          5.5879e-09,  9.3132e-10],
+        [-2.5146e-08,  4.6566e-09,  0.0000e+00,  ..., -4.4703e-08,
+          4.9360e-08,  0.0000e+00],
+        [ 2.7008e-08,  2.7008e-08,  9.3132e-10,  ...,  2.7940e-08,
+          1.3970e-08,  9.3132e-10],
+        ...,
+        [ 2.1420e-08,  1.4901e-08,  0.0000e+00,  ...,  1.4808e-07,
+         -1.3411e-07,  0.0000e+00],
+        [ 1.2107e-08,  1.5832e-08,  9.3132e-10,  ...,  5.5879e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 1.6764e-08,  1.8626e-08,  2.7940e-09,  ...,  2.4214e-08,
+          5.0291e-08,  9.3132e-10]], device='cuda:0')
+Epoch 251, bias, value: tensor([ 0.0044,  0.0125,  0.0168,  0.0003,  0.0236, -0.0053, -0.0052, -0.0065,
+         0.0104, -0.0177], device='cuda:0'), grad: tensor([ 2.8871e-07, -3.2596e-07,  6.2957e-07,  2.8498e-06, -4.7870e-07,
+        -4.3698e-06,  4.8708e-07,  6.7987e-08,  2.2817e-07,  6.3609e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 250, time 246.83, cls_loss 0.0006 cls_loss_mapping 0.0019 cls_loss_causal 0.4668 re_mapping 0.0036 re_causal 0.0113 /// teacc 99.17 lr 0.00010000
+Epoch 252, weight, value: tensor([[-0.2055, -0.0420,  0.1980,  ...,  0.0437, -0.1864, -0.1487],
+        [-0.1435, -0.2144, -0.0440,  ..., -0.1054, -0.2086, -0.0818],
+        [ 0.2427, -0.0661, -0.2320,  ..., -0.1774, -0.1815, -0.2057],
+        ...,
+        [-0.0819, -0.0263, -0.2752,  ..., -0.1118,  0.1076,  0.0280],
+        [-0.1841, -0.1200, -0.0308,  ..., -0.1910, -0.0350, -0.0352],
+        [-0.0752, -0.0935, -0.1303,  ...,  0.0935,  0.0285, -0.1605]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09,  0.0000e+00, -5.3551e-08,  ..., -8.3819e-09,
+         -4.6566e-10,  3.7253e-09],
+        [ 7.4971e-08,  4.6566e-10,  2.3283e-09,  ...,  1.1688e-07,
+          4.1444e-08,  9.3132e-10],
+        [-1.9511e-07,  1.8626e-09,  1.8626e-09,  ...,  6.4261e-08,
+          4.4703e-08,  0.0000e+00],
+        ...,
+        [ 9.1270e-08,  4.6566e-10,  1.8626e-09,  ...,  6.1933e-08,
+         -1.0012e-07,  0.0000e+00],
+        [ 8.8476e-09, -6.9849e-09,  2.0489e-08,  ...,  3.6787e-08,
+          1.0710e-08,  1.8626e-09],
+        [ 1.3970e-09,  4.6566e-10,  1.7229e-08,  ...,  5.6028e-06,
+          1.6252e-07,  0.0000e+00]], device='cuda:0')
+Epoch 252, bias, value: tensor([ 0.0044,  0.0126,  0.0174,  0.0001,  0.0238, -0.0054, -0.0053, -0.0065,
+         0.0107, -0.0179], device='cuda:0'), grad: tensor([ 6.1933e-08,  8.6799e-07,  3.2829e-07,  1.9791e-07, -1.5363e-05,
+         9.5926e-08,  2.8778e-07, -1.0263e-06, -1.6531e-07,  1.4678e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 251, time 245.88, cls_loss 0.0007 cls_loss_mapping 0.0020 cls_loss_causal 0.4886 re_mapping 0.0035 re_causal 0.0112 /// teacc 99.15 lr 0.00010000
+Epoch 253, weight, value: tensor([[-0.2060, -0.0427,  0.1980,  ...,  0.0438, -0.1881, -0.1497],
+        [-0.1443, -0.2166, -0.0440,  ..., -0.1054, -0.2093, -0.0818],
+        [ 0.2434, -0.0667, -0.2327,  ..., -0.1780, -0.1826, -0.2062],
+        ...,
+        [-0.0823, -0.0267, -0.2766,  ..., -0.1120,  0.1077,  0.0281],
+        [-0.1843, -0.1207, -0.0311,  ..., -0.1916, -0.0352, -0.0355],
+        [-0.0750, -0.0935, -0.1307,  ...,  0.0935,  0.0285, -0.1607]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-09,  2.7940e-09, -1.9465e-07,  ..., -1.7788e-07,
+          3.5390e-08,  4.0978e-08],
+        [ 7.5903e-07,  1.8626e-09,  2.1420e-08,  ...,  7.1712e-08,
+          1.7695e-08,  2.7940e-09],
+        [-8.6613e-07,  9.3132e-10,  9.9652e-08,  ...,  7.7300e-08,
+          5.5879e-09,  1.8626e-09],
+        ...,
+        [ 5.0291e-08,  1.5832e-08,  1.7695e-08,  ...,  1.3039e-07,
+         -2.3283e-08,  0.0000e+00],
+        [ 6.5193e-09,  9.3132e-10,  4.6566e-09,  ...,  5.9605e-08,
+          6.5193e-09,  3.7253e-09],
+        [ 1.8626e-09, -3.6322e-08,  3.6322e-08,  ..., -3.2503e-07,
+         -5.5879e-09,  0.0000e+00]], device='cuda:0')
+Epoch 253, bias, value: tensor([ 0.0043,  0.0125,  0.0174,  0.0007,  0.0238, -0.0056, -0.0047, -0.0066,
+         0.0104, -0.0179], device='cuda:0'), grad: tensor([-2.7567e-07,  2.3879e-06, -2.1495e-06,  2.6636e-07,  1.2852e-07,
+         5.1968e-07,  2.5425e-07,  3.0547e-07, -1.1120e-06, -3.2689e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 252, time 246.14, cls_loss 0.0006 cls_loss_mapping 0.0020 cls_loss_causal 0.5114 re_mapping 0.0035 re_causal 0.0119 /// teacc 99.11 lr 0.00010000
+Epoch 254, weight, value: tensor([[-0.2062, -0.0433,  0.1981,  ...,  0.0437, -0.1884, -0.1497],
+        [-0.1446, -0.2176, -0.0442,  ..., -0.1055, -0.2114, -0.0819],
+        [ 0.2437, -0.0667, -0.2336,  ..., -0.1788, -0.1834, -0.2065],
+        ...,
+        [-0.0824, -0.0268, -0.2776,  ..., -0.1122,  0.1080,  0.0281],
+        [-0.1844, -0.1217, -0.0313,  ..., -0.1919, -0.0352, -0.0356],
+        [-0.0750, -0.0935, -0.1307,  ...,  0.0937,  0.0285, -0.1608]],
+       device='cuda:0'), grad: tensor([[-1.9558e-08,  0.0000e+00, -9.9093e-07,  ..., -4.0419e-07,
+          9.3132e-09,  4.6566e-09],
+        [ 2.7940e-09,  9.3132e-10,  1.3970e-08,  ...,  1.3132e-07,
+          2.3283e-08,  1.8626e-09],
+        [-6.5193e-09,  1.8626e-09,  8.9407e-08,  ...,  1.6112e-07,
+          7.4506e-09,  1.8626e-09],
+        ...,
+        [ 1.6764e-08,  3.7253e-09,  1.5832e-08,  ...,  4.4145e-07,
+          1.0338e-07,  0.0000e+00],
+        [ 4.6566e-09,  9.3132e-10,  2.7008e-08,  ...,  6.3330e-08,
+          0.0000e+00,  9.3132e-10],
+        [ 3.7253e-09, -4.6566e-09,  1.3690e-07,  ..., -1.3132e-07,
+         -1.5646e-07,  0.0000e+00]], device='cuda:0')
+Epoch 254, bias, value: tensor([ 0.0042,  0.0124,  0.0172,  0.0006,  0.0237, -0.0056, -0.0045, -0.0063,
+         0.0102, -0.0179], device='cuda:0'), grad: tensor([-1.8338e-06, -4.8429e-08,  6.5379e-07,  1.9278e-07, -4.0531e-06,
+         1.4715e-07,  3.3211e-06,  1.3215e-06, -1.0151e-07,  3.9767e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 253----------------------------------------------------
+epoch 253, time 262.94, cls_loss 0.0006 cls_loss_mapping 0.0015 cls_loss_causal 0.4621 re_mapping 0.0037 re_causal 0.0115 /// teacc 99.20 lr 0.00010000
+Epoch 255, weight, value: tensor([[-0.2065, -0.0437,  0.1983,  ...,  0.0437, -0.1886, -0.1497],
+        [-0.1452, -0.2182, -0.0443,  ..., -0.1056, -0.2120, -0.0819],
+        [ 0.2443, -0.0668, -0.2344,  ..., -0.1793, -0.1836, -0.2067],
+        ...,
+        [-0.0828, -0.0268, -0.2798,  ..., -0.1124,  0.1080,  0.0281],
+        [-0.1846, -0.1219, -0.0315,  ..., -0.1921, -0.0349, -0.0356],
+        [-0.0753, -0.0939, -0.1308,  ...,  0.0937,  0.0286, -0.1608]],
+       device='cuda:0'), grad: tensor([[-2.6077e-08,  0.0000e+00, -8.0559e-07,  ..., -4.1910e-07,
+          2.7940e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.0489e-08,  ...,  1.6764e-08,
+          2.6356e-07,  0.0000e+00],
+        [ 1.3970e-08,  0.0000e+00,  6.7055e-08,  ...,  4.6566e-08,
+          2.7940e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.0245e-08,  ...,  1.3039e-08,
+         -3.1386e-07,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  6.5193e-08,  ...,  7.9162e-08,
+          1.3970e-08,  9.3132e-10],
+        [ 6.5193e-09, -0.0000e+00,  5.0943e-07,  ...,  1.3318e-07,
+          1.3039e-08,  0.0000e+00]], device='cuda:0')
+Epoch 255, bias, value: tensor([ 0.0043,  0.0124,  0.0176,  0.0012,  0.0237, -0.0059, -0.0047, -0.0066,
+         0.0105, -0.0179], device='cuda:0'), grad: tensor([-1.5106e-06, -1.9837e-07,  6.9011e-07,  2.2538e-07,  2.1141e-07,
+         5.5879e-08,  1.7136e-07, -5.5321e-07,  3.2037e-07,  6.1560e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 254, time 246.02, cls_loss 0.0007 cls_loss_mapping 0.0020 cls_loss_causal 0.4952 re_mapping 0.0036 re_causal 0.0113 /// teacc 99.20 lr 0.00010000
+Epoch 256, weight, value: tensor([[-0.2063, -0.0438,  0.1987,  ...,  0.0438, -0.1891, -0.1499],
+        [-0.1457, -0.2192, -0.0450,  ..., -0.1056, -0.2142, -0.0819],
+        [ 0.2448, -0.0670, -0.2356,  ..., -0.1800, -0.1854, -0.2068],
+        ...,
+        [-0.0831, -0.0267, -0.2809,  ..., -0.1126,  0.1083,  0.0280],
+        [-0.1848, -0.1221, -0.0316,  ..., -0.1925, -0.0351, -0.0357],
+        [-0.0753, -0.0939, -0.1310,  ...,  0.0939,  0.0287, -0.1609]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  1.8626e-09, -7.5437e-08,  ..., -4.2841e-08,
+          8.3819e-09,  4.6566e-09],
+        [ 7.4506e-09,  3.7253e-09,  5.5879e-09,  ...,  8.3819e-09,
+          1.8626e-09,  9.3132e-10],
+        [-6.5193e-09,  6.5193e-09,  5.5879e-09,  ...,  8.3819e-09,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 1.3039e-08,  9.3132e-09,  0.0000e+00,  ...,  3.7253e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 1.3970e-08,  5.5879e-09,  1.1176e-08,  ...,  9.3132e-09,
+          2.7940e-09,  1.8626e-09],
+        [ 6.5193e-09,  5.5879e-09,  1.4901e-08,  ...,  1.6671e-07,
+          1.4901e-08,  0.0000e+00]], device='cuda:0')
+Epoch 256, bias, value: tensor([ 0.0045,  0.0124,  0.0175,  0.0010,  0.0235, -0.0058, -0.0048, -0.0066,
+         0.0108, -0.0178], device='cuda:0'), grad: tensor([-9.0338e-08,  1.8626e-09,  2.3283e-08, -2.0489e-07, -4.3213e-07,
+         4.0047e-08,  1.2852e-07,  8.1025e-08,  7.3574e-08,  3.8557e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 255, time 246.14, cls_loss 0.0006 cls_loss_mapping 0.0020 cls_loss_causal 0.4706 re_mapping 0.0035 re_causal 0.0112 /// teacc 99.17 lr 0.00010000
+Epoch 257, weight, value: tensor([[-0.2070, -0.0443,  0.1987,  ...,  0.0438, -0.1902, -0.1500],
+        [-0.1461, -0.2201, -0.0452,  ..., -0.1056, -0.2163, -0.0819],
+        [ 0.2452, -0.0674, -0.2361,  ..., -0.1804, -0.1861, -0.2070],
+        ...,
+        [-0.0835, -0.0267, -0.2814,  ..., -0.1129,  0.1085,  0.0280],
+        [-0.1849, -0.1224, -0.0318,  ..., -0.1928, -0.0354, -0.0359],
+        [-0.0756, -0.0939, -0.1310,  ...,  0.0939,  0.0286, -0.1609]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  0.0000e+00, -2.4214e-08,  ..., -1.3970e-08,
+          4.6566e-09,  0.0000e+00],
+        [ 5.5879e-09,  0.0000e+00,  1.8626e-09,  ...,  7.4506e-09,
+          7.3574e-08,  0.0000e+00],
+        [-1.9372e-07,  0.0000e+00,  9.3132e-10,  ...,  5.5879e-09,
+         -1.8626e-09,  0.0000e+00],
+        ...,
+        [ 1.7043e-07,  0.0000e+00,  1.8626e-09,  ...,  1.0245e-08,
+         -3.7346e-07,  0.0000e+00],
+        [ 3.7253e-09,  0.0000e+00,  9.3132e-10,  ...,  3.7253e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10,  9.3132e-10,  1.2107e-08,  ...,  1.9558e-07,
+          2.7940e-07,  0.0000e+00]], device='cuda:0')
+Epoch 257, bias, value: tensor([ 0.0043,  0.0127,  0.0143,  0.0011,  0.0235, -0.0057, -0.0048, -0.0055,
+         0.0107, -0.0179], device='cuda:0'), grad: tensor([ 1.0468e-06, -1.2606e-05, -3.0454e-07,  3.9395e-07, -5.5321e-07,
+         2.9989e-07,  3.1292e-07,  1.2498e-06,  8.4564e-06,  1.6829e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 256, time 246.01, cls_loss 0.0009 cls_loss_mapping 0.0023 cls_loss_causal 0.4805 re_mapping 0.0034 re_causal 0.0111 /// teacc 99.13 lr 0.00010000
+Epoch 258, weight, value: tensor([[-0.2074, -0.0445,  0.1983,  ...,  0.0438, -0.1934, -0.1513],
+        [-0.1466, -0.2206, -0.0454,  ..., -0.1057, -0.2175, -0.0820],
+        [ 0.2456, -0.0674, -0.2373,  ..., -0.1812, -0.1867, -0.2071],
+        ...,
+        [-0.0835, -0.0267, -0.2830,  ..., -0.1132,  0.1086,  0.0280],
+        [-0.1850, -0.1225, -0.0320,  ..., -0.1930, -0.0358, -0.0362],
+        [-0.0743, -0.0939, -0.1310,  ...,  0.0950,  0.0294, -0.1612]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.7940e-09,  ...,  9.3132e-10,
+          1.8626e-09,  9.3132e-10],
+        [ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  1.2107e-08,
+          9.3132e-10,  0.0000e+00],
+        [-6.5193e-09,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 4.6566e-09,  0.0000e+00,  1.8626e-09,  ...,  1.9558e-08,
+          7.4506e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ..., -1.7695e-08,
+         -1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 258, bias, value: tensor([ 0.0038,  0.0131,  0.0128,  0.0011,  0.0222, -0.0056, -0.0041, -0.0054,
+         0.0105, -0.0167], device='cuda:0'), grad: tensor([ 5.5879e-09,  1.8626e-09, -2.7940e-09,  3.1665e-08, -9.0338e-08,
+        -1.4715e-07,  1.1362e-07,  2.3283e-08,  8.7544e-08, -1.1176e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 257, time 246.21, cls_loss 0.0007 cls_loss_mapping 0.0023 cls_loss_causal 0.4792 re_mapping 0.0035 re_causal 0.0111 /// teacc 99.17 lr 0.00010000
+Epoch 259, weight, value: tensor([[-0.2065, -0.0447,  0.1982,  ...,  0.0440, -0.1945, -0.1523],
+        [-0.1471, -0.2212, -0.0482,  ..., -0.1068, -0.2185, -0.0821],
+        [ 0.2461, -0.0675, -0.2379,  ..., -0.1817, -0.1868, -0.2072],
+        ...,
+        [-0.0843, -0.0268, -0.2843,  ..., -0.1134,  0.1082,  0.0280],
+        [-0.1850, -0.1227, -0.0321,  ..., -0.1935, -0.0360, -0.0363],
+        [-0.0736, -0.0939, -0.1311,  ...,  0.0956,  0.0299, -0.1613]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  0.0000e+00,  5.5879e-09,  ...,  9.3132e-09,
+          3.7253e-09,  9.3132e-10],
+        [ 8.3819e-09,  9.3132e-10,  1.8626e-09,  ...,  2.7940e-08,
+          6.5193e-09,  9.3132e-10],
+        [-3.1665e-08,  1.8626e-09,  9.3132e-10,  ...,  2.7940e-09,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 2.0489e-08,  1.8626e-09,  0.0000e+00,  ...,  1.1176e-08,
+         -1.1176e-08,  0.0000e+00],
+        [ 3.7253e-09,  9.3132e-10,  2.7940e-09,  ...,  7.4506e-09,
+          1.8626e-09,  9.3132e-10],
+        [ 1.8626e-09,  9.3132e-10,  0.0000e+00,  ..., -9.6858e-08,
+          3.7253e-09,  1.8626e-09]], device='cuda:0')
+Epoch 259, bias, value: tensor([ 0.0039,  0.0105,  0.0125,  0.0041,  0.0215, -0.0072, -0.0039, -0.0029,
+         0.0106, -0.0160], device='cuda:0'), grad: tensor([ 5.1223e-08,  1.0291e-06,  3.2317e-07,  3.4273e-07,  2.3283e-08,
+         4.1723e-07,  1.7975e-07,  4.5635e-08, -2.5444e-06,  1.2945e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 258----------------------------------------------------
+epoch 258, time 262.90, cls_loss 0.0009 cls_loss_mapping 0.0026 cls_loss_causal 0.4868 re_mapping 0.0034 re_causal 0.0109 /// teacc 99.22 lr 0.00010000
+Epoch 260, weight, value: tensor([[-0.2084, -0.0447,  0.1982,  ...,  0.0440, -0.1949, -0.1526],
+        [-0.1472, -0.2222, -0.0481,  ..., -0.1070, -0.2221, -0.0840],
+        [ 0.2471, -0.0675, -0.2385,  ..., -0.1827, -0.1875, -0.2079],
+        ...,
+        [-0.0860, -0.0270, -0.2857,  ..., -0.1139,  0.1082,  0.0278],
+        [-0.1852, -0.1227, -0.0324,  ..., -0.1942, -0.0344, -0.0366],
+        [-0.0737, -0.0939, -0.1311,  ...,  0.0955,  0.0299, -0.1615]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  0.0000e+00, -6.5193e-09,  ..., -9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 5.5879e-09,  0.0000e+00,  0.0000e+00,  ...,  6.5193e-09,
+          4.6566e-09,  0.0000e+00],
+        [-5.1223e-08,  9.3132e-10,  0.0000e+00,  ...,  1.8626e-09,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 7.4506e-09,  9.3132e-10,  0.0000e+00,  ...,  9.5926e-08,
+          3.8184e-08,  9.3132e-10],
+        [ 5.5879e-09,  1.8626e-09,  1.8626e-09,  ...,  5.5879e-09,
+          6.5193e-09,  3.7253e-09],
+        [ 3.7253e-09,  9.3132e-10,  2.7940e-09,  ...,  2.7008e-08,
+          4.6566e-09,  9.3132e-10]], device='cuda:0')
+Epoch 260, bias, value: tensor([ 0.0037,  0.0106,  0.0120,  0.0037,  0.0218, -0.0101, -0.0008, -0.0030,
+         0.0122, -0.0161], device='cuda:0'), grad: tensor([ 4.6566e-09,  4.0047e-08, -7.0781e-08,  6.7987e-08, -3.4738e-07,
+        -9.0990e-07,  7.6089e-07,  2.6450e-07,  7.8231e-08,  1.1735e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 259, time 246.11, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.4982 re_mapping 0.0035 re_causal 0.0116 /// teacc 99.11 lr 0.00010000
+Epoch 261, weight, value: tensor([[-0.2110, -0.0449,  0.1983,  ...,  0.0430, -0.1957, -0.1533],
+        [-0.1477, -0.2234, -0.0488,  ..., -0.1072, -0.2239, -0.0840],
+        [ 0.2478, -0.0676, -0.2388,  ..., -0.1829, -0.1882, -0.2081],
+        ...,
+        [-0.0865, -0.0270, -0.2863,  ..., -0.1142,  0.1084,  0.0282],
+        [-0.1855, -0.1231, -0.0327,  ..., -0.1946, -0.0344, -0.0369],
+        [-0.0729, -0.0939, -0.1311,  ...,  0.0962,  0.0301, -0.1630]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -3.7253e-09,  ..., -1.8626e-09,
+          2.7940e-09,  9.3132e-10],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.7008e-08,  9.3132e-10],
+        [-3.5390e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  9.3132e-10],
+        ...,
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+         -5.3085e-08,  0.0000e+00],
+        [-9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          0.0000e+00, -4.6566e-09],
+        [ 9.3132e-10,  9.3132e-10,  1.8626e-09,  ..., -9.3132e-10,
+          6.5193e-09,  1.8626e-09]], device='cuda:0')
+Epoch 261, bias, value: tensor([ 0.0029,  0.0107,  0.0122,  0.0036,  0.0219, -0.0101, -0.0007, -0.0032,
+         0.0121, -0.0156], device='cuda:0'), grad: tensor([ 1.9558e-08, -1.9714e-05, -4.6566e-08,  3.7514e-06, -1.4901e-08,
+        -1.2852e-07, -2.7008e-08,  1.5840e-05, -3.5390e-08,  3.4273e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 260, time 246.80, cls_loss 0.0006 cls_loss_mapping 0.0018 cls_loss_causal 0.4963 re_mapping 0.0035 re_causal 0.0116 /// teacc 99.11 lr 0.00010000
+Epoch 262, weight, value: tensor([[-0.2112, -0.0450,  0.1978,  ...,  0.0430, -0.1968, -0.1549],
+        [-0.1489, -0.2237, -0.0489,  ..., -0.1073, -0.2247, -0.0842],
+        [ 0.2488, -0.0676, -0.2393,  ..., -0.1832, -0.1885, -0.2082],
+        ...,
+        [-0.0867, -0.0270, -0.2868,  ..., -0.1145,  0.1085,  0.0285],
+        [-0.1861, -0.1236, -0.0327,  ..., -0.1949, -0.0351, -0.0382],
+        [-0.0729, -0.0939, -0.1312,  ...,  0.0962,  0.0301, -0.1668]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00, -5.6811e-08,  ..., -2.7940e-08,
+          2.7940e-09,  1.8626e-09],
+        [ 7.4506e-09,  2.7940e-09,  5.5879e-09,  ...,  2.7940e-09,
+          5.5879e-09,  1.8626e-09],
+        [-2.8871e-08,  1.8626e-09,  8.3819e-09,  ...,  2.7940e-09,
+          2.7940e-09,  1.8626e-09],
+        ...,
+        [ 2.3283e-08,  1.3039e-08,  9.3132e-10,  ...,  3.2596e-08,
+          2.0489e-08,  9.3132e-10],
+        [ 9.3132e-09,  0.0000e+00,  2.0489e-08,  ...,  4.6566e-09,
+          8.3819e-09,  9.3132e-09],
+        [ 9.3132e-10,  1.8626e-09,  3.5390e-08,  ...,  1.8161e-07,
+          4.6566e-09,  9.3132e-10]], device='cuda:0')
+Epoch 262, bias, value: tensor([ 0.0025,  0.0107,  0.0125,  0.0035,  0.0220, -0.0093, -0.0013, -0.0031,
+         0.0117, -0.0157], device='cuda:0'), grad: tensor([-5.7742e-08, -4.0047e-07, -6.5193e-09, -5.5879e-08, -3.3621e-07,
+        -2.3562e-07,  1.1455e-07,  5.0850e-07,  1.0058e-07,  3.5018e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 261, time 246.08, cls_loss 0.0008 cls_loss_mapping 0.0024 cls_loss_causal 0.4695 re_mapping 0.0034 re_causal 0.0110 /// teacc 99.14 lr 0.00010000
+Epoch 263, weight, value: tensor([[-0.2111, -0.0451,  0.1980,  ...,  0.0431, -0.1970, -0.1551],
+        [-0.1494, -0.2240, -0.0501,  ..., -0.1075, -0.2253, -0.0848],
+        [ 0.2495, -0.0677, -0.2421,  ..., -0.1846, -0.1888, -0.2096],
+        ...,
+        [-0.0869, -0.0270, -0.2885,  ..., -0.1155,  0.1085,  0.0263],
+        [-0.1866, -0.1238, -0.0332,  ..., -0.1955, -0.0358, -0.0400],
+        [-0.0732, -0.0939, -0.1313,  ...,  0.0934,  0.0288, -0.1706]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00, -8.8476e-08,  ..., -5.8673e-08,
+          9.3132e-09,  6.5193e-09],
+        [ 3.7253e-09,  0.0000e+00,  1.7695e-08,  ...,  2.7008e-08,
+          7.4506e-09,  4.6566e-09],
+        [-3.0082e-07, -9.3132e-10,  1.3970e-08,  ...,  4.6566e-09,
+          5.5879e-09,  4.6566e-09],
+        ...,
+        [ 2.8685e-07,  9.3132e-10,  1.8626e-09,  ...,  1.0245e-08,
+          9.3132e-10,  0.0000e+00],
+        [ 4.6566e-09,  0.0000e+00,  2.2352e-08,  ...,  4.7497e-08,
+          5.5879e-09,  4.6566e-09],
+        [ 1.8626e-09,  0.0000e+00,  2.8871e-08,  ...,  3.3434e-07,
+         -1.8626e-09,  9.3132e-10]], device='cuda:0')
+Epoch 263, bias, value: tensor([ 0.0025,  0.0106,  0.0125,  0.0032,  0.0250, -0.0087, -0.0016, -0.0031,
+         0.0109, -0.0187], device='cuda:0'), grad: tensor([-7.0781e-08,  1.0524e-07, -3.1479e-07,  3.8370e-06,  7.6741e-07,
+        -1.0796e-05,  8.1304e-07,  4.6752e-07,  9.5181e-07,  4.2506e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 262, time 245.97, cls_loss 0.0007 cls_loss_mapping 0.0024 cls_loss_causal 0.4872 re_mapping 0.0035 re_causal 0.0113 /// teacc 99.19 lr 0.00010000
+Epoch 264, weight, value: tensor([[-0.2098, -0.0452,  0.1983,  ...,  0.0432, -0.1971, -0.1551],
+        [-0.1510, -0.2244, -0.0508,  ..., -0.1080, -0.2260, -0.0850],
+        [ 0.2500, -0.0677, -0.2438,  ..., -0.1860, -0.1890, -0.2099],
+        ...,
+        [-0.0871, -0.0271, -0.2899,  ..., -0.1188,  0.1056,  0.0261],
+        [-0.1867, -0.1247, -0.0333,  ..., -0.1961, -0.0360, -0.0402],
+        [-0.0732, -0.0940, -0.1314,  ...,  0.0944,  0.0322, -0.1708]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -1.0245e-07,  ..., -7.3574e-08,
+          9.3132e-10,  9.3132e-10],
+        [ 1.8626e-09,  1.8626e-09,  4.6566e-09,  ..., -4.6566e-09,
+          9.3132e-10,  2.7940e-09],
+        [ 1.8626e-09,  9.3132e-10,  4.6566e-09,  ...,  6.5193e-09,
+          9.3132e-10,  1.8626e-09],
+        ...,
+        [ 4.6566e-09,  2.7940e-09,  6.5193e-09,  ...,  1.1176e-08,
+          0.0000e+00,  9.3132e-10],
+        [ 9.3132e-10,  0.0000e+00,  2.5146e-08,  ...,  1.3039e-08,
+          4.6566e-09, -1.4901e-08],
+        [ 2.7940e-09,  3.7253e-09,  4.7497e-08,  ...,  6.8918e-08,
+          9.3132e-10,  9.3132e-10]], device='cuda:0')
+Epoch 264, bias, value: tensor([ 0.0027,  0.0105,  0.0124,  0.0019,  0.0247, -0.0082, -0.0017, -0.0039,
+         0.0107, -0.0174], device='cuda:0'), grad: tensor([-2.2631e-07, -9.3132e-09,  1.2293e-07,  9.3132e-10, -2.1048e-07,
+         8.7544e-08,  2.2445e-07,  1.1269e-07, -3.8557e-07,  2.8312e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 263, time 246.17, cls_loss 0.0006 cls_loss_mapping 0.0021 cls_loss_causal 0.4788 re_mapping 0.0035 re_causal 0.0112 /// teacc 99.04 lr 0.00010000
+Epoch 265, weight, value: tensor([[-0.2091, -0.0452,  0.1989,  ...,  0.0434, -0.1979, -0.1561],
+        [-0.1512, -0.2249, -0.0516,  ..., -0.1080, -0.2265, -0.0850],
+        [ 0.2503, -0.0677, -0.2451,  ..., -0.1872, -0.1893, -0.2099],
+        ...,
+        [-0.0877, -0.0271, -0.2909,  ..., -0.1202,  0.1052,  0.0262],
+        [-0.1868, -0.1249, -0.0334,  ..., -0.1965, -0.0361, -0.0405],
+        [-0.0730, -0.0940, -0.1315,  ...,  0.0946,  0.0326, -0.1708]],
+       device='cuda:0'), grad: tensor([[-9.3132e-10,  0.0000e+00, -8.9128e-07,  ..., -6.2957e-07,
+          9.3132e-10, -1.3039e-08],
+        [ 3.9116e-08,  9.3132e-10,  2.4214e-08,  ...,  5.5879e-08,
+          3.7253e-08,  6.5193e-09],
+        [-3.7439e-07,  9.3132e-10,  2.4214e-08,  ...,  3.8184e-08,
+          9.3132e-10, -4.6566e-08],
+        ...,
+        [ 3.2037e-07,  1.8626e-09,  9.3132e-09,  ..., -1.1176e-08,
+         -5.6811e-08,  4.0047e-08],
+        [ 4.6566e-09,  9.3132e-10,  4.0047e-08,  ...,  3.1665e-08,
+          9.3132e-10,  9.3132e-10],
+        [ 1.8626e-09,  9.3132e-10,  4.8056e-07,  ...,  3.6694e-07,
+          8.3819e-09,  1.8626e-09]], device='cuda:0')
+Epoch 265, bias, value: tensor([ 0.0029,  0.0105,  0.0123,  0.0017,  0.0247, -0.0081, -0.0017, -0.0042,
+         0.0105, -0.0171], device='cuda:0'), grad: tensor([-1.6913e-06,  4.6194e-07, -3.9395e-07,  1.4063e-07, -1.5367e-07,
+         1.2293e-07,  4.1071e-07, -2.4680e-07,  1.0803e-07,  1.2526e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 264, time 246.22, cls_loss 0.0008 cls_loss_mapping 0.0022 cls_loss_causal 0.5080 re_mapping 0.0036 re_causal 0.0113 /// teacc 99.15 lr 0.00010000
+Epoch 266, weight, value: tensor([[-0.2089, -0.0453,  0.1997,  ...,  0.0437, -0.1979, -0.1562],
+        [-0.1520, -0.2256, -0.0528,  ..., -0.1088, -0.2280, -0.0850],
+        [ 0.2515, -0.0677, -0.2462,  ..., -0.1886, -0.1899, -0.2096],
+        ...,
+        [-0.0891, -0.0272, -0.2932,  ..., -0.1203,  0.1053,  0.0257],
+        [-0.1870, -0.1250, -0.0338,  ..., -0.1988, -0.0362, -0.0406],
+        [-0.0729, -0.0940, -0.1316,  ...,  0.0964,  0.0326, -0.1708]],
+       device='cuda:0'), grad: tensor([[-9.3132e-10,  9.3132e-10, -2.7008e-08,  ..., -3.4459e-08,
+          2.6077e-08,  1.3970e-08],
+        [ 8.3819e-09,  9.3132e-10,  1.2107e-08,  ...,  8.3819e-09,
+          3.7253e-09,  9.3132e-10],
+        [-5.3085e-08,  1.8626e-09,  6.5193e-09,  ...,  3.7253e-09,
+          1.8626e-09,  1.8626e-09],
+        ...,
+        [ 3.3528e-08,  3.7253e-09,  9.3132e-10,  ...,  6.5193e-09,
+         -2.7940e-09,  0.0000e+00],
+        [ 4.6566e-09,  9.3132e-10,  3.4459e-08,  ...,  1.8626e-08,
+          6.5193e-09,  3.7253e-09],
+        [ 1.0245e-08,  3.7253e-09,  3.9116e-08,  ...,  7.2643e-08,
+          4.6566e-09,  2.7940e-09]], device='cuda:0')
+Epoch 266, bias, value: tensor([ 0.0034,  0.0104,  0.0125,  0.0015,  0.0229, -0.0081, -0.0019, -0.0041,
+         0.0100, -0.0153], device='cuda:0'), grad: tensor([-2.7008e-08, -1.4994e-07, -5.1223e-08, -2.9709e-07, -8.5682e-08,
+         1.9614e-06, -1.9446e-06,  2.3749e-07,  1.3225e-07,  2.3469e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 265, time 245.67, cls_loss 0.0006 cls_loss_mapping 0.0023 cls_loss_causal 0.4885 re_mapping 0.0034 re_causal 0.0108 /// teacc 99.15 lr 0.00010000
+Epoch 267, weight, value: tensor([[-0.2089, -0.0457,  0.1999,  ...,  0.0437, -0.1981, -0.1564],
+        [-0.1527, -0.2262, -0.0530,  ..., -0.1089, -0.2290, -0.0851],
+        [ 0.2521, -0.0678, -0.2471,  ..., -0.1887, -0.1906, -0.2100],
+        ...,
+        [-0.0894, -0.0272, -0.2948,  ..., -0.1203,  0.1054,  0.0260],
+        [-0.1872, -0.1252, -0.0340,  ..., -0.1995, -0.0364, -0.0408],
+        [-0.0732, -0.0941, -0.1317,  ...,  0.0964,  0.0325, -0.1708]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  9.3132e-10, -9.1270e-08,  ..., -6.8918e-08,
+          3.7253e-09,  9.3132e-10],
+        [-8.1025e-08,  8.3819e-09,  3.7253e-09,  ...,  1.8626e-09,
+          3.6322e-08,  0.0000e+00],
+        [ 1.1921e-07,  5.5879e-09,  3.7253e-09,  ...,  2.7940e-09,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 2.1420e-08,  8.3819e-09,  3.7253e-09,  ...,  3.7253e-09,
+         -5.9605e-08,  0.0000e+00],
+        [ 1.0245e-08,  2.7940e-09,  9.3132e-09,  ...,  6.5193e-09,
+          2.7940e-09,  9.3132e-10],
+        [ 1.2107e-08,  3.7253e-09,  4.0047e-08,  ...,  2.1420e-08,
+          9.3132e-09,  0.0000e+00]], device='cuda:0')
+Epoch 267, bias, value: tensor([ 0.0035,  0.0105,  0.0124,  0.0015,  0.0230, -0.0081, -0.0019, -0.0041,
+         0.0093, -0.0155], device='cuda:0'), grad: tensor([-1.5367e-07, -2.5090e-06,  2.7195e-06, -3.1386e-07,  2.4214e-08,
+         1.9092e-07, -4.8429e-08, -1.2200e-07,  6.5193e-08,  1.6484e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 266, time 245.76, cls_loss 0.0006 cls_loss_mapping 0.0031 cls_loss_causal 0.4658 re_mapping 0.0035 re_causal 0.0111 /// teacc 99.16 lr 0.00010000
+Epoch 268, weight, value: tensor([[-0.2095, -0.0458,  0.2004,  ...,  0.0437, -0.1980, -0.1564],
+        [-0.1536, -0.2273, -0.0531,  ..., -0.1090, -0.2307, -0.0854],
+        [ 0.2516, -0.0693, -0.2486,  ..., -0.1900, -0.1914, -0.2105],
+        ...,
+        [-0.0891, -0.0274, -0.2956,  ..., -0.1203,  0.1055,  0.0258],
+        [-0.1874, -0.1252, -0.0342,  ..., -0.1999, -0.0365, -0.0419],
+        [-0.0732, -0.0941, -0.1320,  ...,  0.0963,  0.0325, -0.1708]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  2.7940e-09,  3.7253e-09,  ...,  0.0000e+00,
+          9.3132e-10,  9.3132e-10],
+        [ 1.8626e-08,  4.6566e-09,  9.3132e-10,  ...,  1.8626e-09,
+          9.3132e-10,  9.3132e-10],
+        [-2.7008e-08,  8.3819e-09,  1.8626e-09,  ...,  0.0000e+00,
+          9.3132e-10,  9.3132e-10],
+        ...,
+        [ 2.9802e-08,  1.7695e-08,  0.0000e+00,  ...,  3.7253e-09,
+         -9.3132e-10,  9.3132e-10],
+        [ 7.4506e-09,  9.3132e-10,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-09],
+        [ 1.0245e-08,  9.3132e-09,  0.0000e+00,  ...,  5.5879e-09,
+          1.8626e-09,  1.8626e-09]], device='cuda:0')
+Epoch 268, bias, value: tensor([ 0.0036,  0.0105,  0.0112,  0.0020,  0.0230, -0.0079, -0.0020, -0.0041,
+         0.0093, -0.0155], device='cuda:0'), grad: tensor([ 6.1467e-08,  6.4261e-08, -3.7253e-09,  2.6338e-06,  1.3039e-08,
+        -4.0345e-06,  2.0582e-07,  3.1292e-07,  4.5728e-07,  2.8405e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 267, time 246.50, cls_loss 0.0005 cls_loss_mapping 0.0030 cls_loss_causal 0.4801 re_mapping 0.0038 re_causal 0.0118 /// teacc 99.09 lr 0.00010000
+Epoch 269, weight, value: tensor([[-0.2098, -0.0460,  0.2005,  ...,  0.0435, -0.1981, -0.1564],
+        [-0.1541, -0.2283, -0.0531,  ..., -0.1095, -0.2317, -0.0854],
+        [ 0.2523, -0.0694, -0.2490,  ..., -0.1907, -0.1916, -0.2107],
+        ...,
+        [-0.0896, -0.0274, -0.2961,  ..., -0.1204,  0.1056,  0.0258],
+        [-0.1878, -0.1254, -0.0341,  ..., -0.2000, -0.0365, -0.0419],
+        [-0.0734, -0.0941, -0.1321,  ...,  0.0964,  0.0325, -0.1708]],
+       device='cuda:0'), grad: tensor([[ 1.8161e-07,  0.0000e+00,  1.5832e-08,  ...,  9.3132e-09,
+          2.7940e-09,  3.7253e-09],
+        [ 7.4506e-09,  0.0000e+00,  1.2107e-08,  ...,  1.8626e-09,
+          1.3039e-08,  9.3132e-10],
+        [-4.9639e-07, -0.0000e+00,  1.2107e-08,  ..., -3.4459e-08,
+          3.7253e-09,  0.0000e+00],
+        ...,
+        [ 7.7300e-08,  1.8626e-09,  1.8626e-09,  ...,  1.3039e-08,
+         -3.0734e-08,  0.0000e+00],
+        [ 8.3819e-09,  0.0000e+00, -8.6613e-08,  ...,  1.1176e-08,
+          6.5193e-09,  1.8626e-09],
+        [ 5.5879e-09,  0.0000e+00,  6.5193e-09,  ..., -3.5390e-08,
+         -3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 269, bias, value: tensor([ 0.0034,  0.0105,  0.0113,  0.0020,  0.0231, -0.0072, -0.0027, -0.0041,
+         0.0093, -0.0155], device='cuda:0'), grad: tensor([ 7.0315e-07,  5.4948e-08, -6.9570e-07,  4.9826e-07,  5.1223e-08,
+        -1.5367e-07,  8.0466e-07,  2.5518e-07, -1.6205e-06,  1.0058e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 268, time 246.37, cls_loss 0.0005 cls_loss_mapping 0.0018 cls_loss_causal 0.5013 re_mapping 0.0037 re_causal 0.0117 /// teacc 99.18 lr 0.00010000
+Epoch 270, weight, value: tensor([[-0.2095, -0.0461,  0.2006,  ...,  0.0436, -0.1984, -0.1565],
+        [-0.1544, -0.2289, -0.0535,  ..., -0.1099, -0.2334, -0.0859],
+        [ 0.2533, -0.0694, -0.2501,  ..., -0.1913, -0.1923, -0.2113],
+        ...,
+        [-0.0909, -0.0275, -0.2977,  ..., -0.1205,  0.1057,  0.0256],
+        [-0.1879, -0.1254, -0.0340,  ..., -0.2001, -0.0364, -0.0420],
+        [-0.0739, -0.0942, -0.1322,  ...,  0.0964,  0.0324, -0.1708]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  0.0000e+00, -2.7940e-08,  ...,  1.8626e-09,
+          2.7940e-09,  9.3132e-10],
+        [ 5.0012e-07,  0.0000e+00,  9.3132e-10,  ...,  3.2969e-07,
+          1.1176e-08,  0.0000e+00],
+        [ 2.4866e-07,  0.0000e+00, -0.0000e+00,  ...,  4.6566e-09,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [-7.7020e-07,  0.0000e+00,  9.3132e-10,  ...,  2.7008e-08,
+         -1.9558e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.4901e-08,
+          2.7940e-09,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  5.5879e-09,  ..., -3.8929e-07,
+         -2.4214e-08,  0.0000e+00]], device='cuda:0')
+Epoch 270, bias, value: tensor([ 0.0035,  0.0105,  0.0113,  0.0018,  0.0230, -0.0071, -0.0027, -0.0041,
+         0.0097, -0.0155], device='cuda:0'), grad: tensor([ 7.5437e-08,  8.7395e-06,  4.4517e-06,  1.4529e-07, -5.3272e-07,
+         7.0781e-08,  8.6613e-08, -1.2293e-05, -1.1176e-08, -7.1153e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 269, time 246.71, cls_loss 0.0006 cls_loss_mapping 0.0017 cls_loss_causal 0.4739 re_mapping 0.0040 re_causal 0.0117 /// teacc 99.10 lr 0.00010000
+Epoch 271, weight, value: tensor([[-0.2096, -0.0463,  0.2010,  ...,  0.0435, -0.1987, -0.1566],
+        [-0.1552, -0.2300, -0.0542,  ..., -0.1107, -0.2342, -0.0859],
+        [ 0.2543, -0.0694, -0.2512,  ..., -0.1927, -0.1929, -0.2115],
+        ...,
+        [-0.0917, -0.0275, -0.3025,  ..., -0.1206,  0.1057,  0.0252],
+        [-0.1881, -0.1256, -0.0342,  ..., -0.2005, -0.0365, -0.0421],
+        [-0.0741, -0.0944, -0.1323,  ...,  0.0965,  0.0325, -0.1708]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -3.9116e-08,  ..., -2.4214e-08,
+          4.6566e-09, -9.3132e-10],
+        [ 2.7940e-09,  9.3132e-10,  1.8626e-09,  ...,  6.5193e-09,
+          9.3132e-09,  0.0000e+00],
+        [-1.1176e-08,  9.3132e-10,  1.8626e-09,  ...,  9.3132e-10,
+          2.7940e-09,  0.0000e+00],
+        ...,
+        [ 1.2107e-08,  9.3132e-10,  1.8626e-09,  ...,  3.6322e-08,
+         -6.5193e-09,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  3.7253e-09,  ...,  1.0524e-07,
+          4.5635e-08,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.1420e-08,  ..., -1.1083e-07,
+         -6.1467e-08,  9.3132e-10]], device='cuda:0')
+Epoch 271, bias, value: tensor([ 0.0035,  0.0105,  0.0114,  0.0017,  0.0231, -0.0071, -0.0027, -0.0042,
+         0.0103, -0.0155], device='cuda:0'), grad: tensor([ 2.9895e-07,  3.0734e-08,  2.1420e-08,  6.7055e-08, -7.7300e-08,
+         4.1910e-08,  4.7497e-08,  1.1176e-07, -2.6636e-07, -2.9523e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 270, time 246.30, cls_loss 0.0006 cls_loss_mapping 0.0018 cls_loss_causal 0.5153 re_mapping 0.0036 re_causal 0.0116 /// teacc 99.09 lr 0.00010000
+Epoch 272, weight, value: tensor([[-0.2098, -0.0464,  0.2020,  ...,  0.0435, -0.1991, -0.1562],
+        [-0.1557, -0.2313, -0.0543,  ..., -0.1109, -0.2354, -0.0860],
+        [ 0.2546, -0.0696, -0.2529,  ..., -0.1945, -0.1955, -0.2134],
+        ...,
+        [-0.0915, -0.0275, -0.3053,  ..., -0.1210,  0.1056,  0.0274],
+        [-0.1882, -0.1261, -0.0343,  ..., -0.2012, -0.0369, -0.0422],
+        [-0.0741, -0.0944, -0.1324,  ...,  0.0965,  0.0327, -0.1708]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  0.0000e+00,  1.5702e-06,  ..., -7.4506e-08,
+          7.7114e-07,  5.5879e-07],
+        [-6.8359e-07,  0.0000e+00,  3.2596e-08,  ...,  3.0734e-08,
+          2.4214e-08,  2.7940e-09],
+        [ 5.6066e-07,  0.0000e+00,  1.3970e-08,  ...,  1.4901e-08,
+          1.3039e-08,  2.7940e-09],
+        ...,
+        [ 8.1025e-08,  0.0000e+00,  8.3819e-09,  ...,  1.4901e-07,
+          2.1420e-08,  0.0000e+00],
+        [ 4.6566e-09,  0.0000e+00,  3.2596e-08,  ...,  2.6077e-08,
+          2.3283e-08,  8.3819e-09],
+        [ 1.8626e-09,  0.0000e+00,  4.4703e-08,  ...,  4.6566e-09,
+          4.6566e-08,  2.7940e-09]], device='cuda:0')
+Epoch 272, bias, value: tensor([ 0.0039,  0.0104,  0.0110,  0.0015,  0.0232, -0.0070, -0.0030, -0.0042,
+         0.0104, -0.0154], device='cuda:0'), grad: tensor([ 3.0026e-06, -7.1749e-06,  6.1691e-06,  1.8906e-07, -7.0129e-07,
+        -5.3365e-07, -2.3339e-06,  1.0747e-06,  2.3283e-07,  3.5390e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 271, time 245.98, cls_loss 0.0006 cls_loss_mapping 0.0019 cls_loss_causal 0.4690 re_mapping 0.0035 re_causal 0.0111 /// teacc 98.99 lr 0.00010000
+Epoch 273, weight, value: tensor([[-0.2102, -0.0469,  0.2023,  ...,  0.0436, -0.1996, -0.1562],
+        [-0.1558, -0.2327, -0.0544,  ..., -0.1110, -0.2367, -0.0861],
+        [ 0.2554, -0.0696, -0.2531,  ..., -0.1956, -0.1963, -0.2138],
+        ...,
+        [-0.0918, -0.0275, -0.3080,  ..., -0.1211,  0.1059,  0.0279],
+        [-0.1886, -0.1264, -0.0348,  ..., -0.2014, -0.0371, -0.0425],
+        [-0.0742, -0.0944, -0.1326,  ...,  0.0965,  0.0325, -0.1708]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  4.6566e-10, -1.3178e-07,  ..., -8.6613e-08,
+          1.6298e-08,  5.1223e-09],
+        [ 9.3132e-10,  9.3132e-10,  2.3283e-09,  ...,  6.8918e-08,
+          3.6322e-08,  1.6298e-08],
+        [ 0.0000e+00,  4.6566e-10,  4.1910e-09,  ...,  2.7474e-08,
+          1.3039e-08,  6.0536e-09],
+        ...,
+        [ 1.3970e-09,  1.8626e-09,  6.0536e-09,  ..., -1.1977e-06,
+         -5.4482e-07, -2.9616e-07],
+        [ 4.6566e-10,  4.6566e-10,  6.5193e-09,  ...,  7.4506e-09,
+          5.1223e-09,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.0804e-08,  ...,  1.4715e-07,
+          3.7253e-08,  2.2352e-08]], device='cuda:0')
+Epoch 273, bias, value: tensor([ 0.0040,  0.0104,  0.0109,  0.0014,  0.0232, -0.0069, -0.0031, -0.0042,
+         0.0102, -0.0155], device='cuda:0'), grad: tensor([-4.5169e-08,  6.1980e-07,  2.9476e-07,  7.5549e-06,  1.1176e-07,
+        -1.6317e-06,  1.0133e-06, -8.7991e-06,  9.9186e-08,  7.8278e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 272, time 246.49, cls_loss 0.0006 cls_loss_mapping 0.0019 cls_loss_causal 0.5005 re_mapping 0.0037 re_causal 0.0121 /// teacc 99.10 lr 0.00010000
+Epoch 274, weight, value: tensor([[-0.2105, -0.0471,  0.2029,  ...,  0.0437, -0.2003, -0.1565],
+        [-0.1566, -0.2333, -0.0555,  ..., -0.1116, -0.2383, -0.0861],
+        [ 0.2576, -0.0697, -0.2539,  ..., -0.1967, -0.1969, -0.2139],
+        ...,
+        [-0.0943, -0.0275, -0.3104,  ..., -0.1209,  0.1069,  0.0291],
+        [-0.1886, -0.1265, -0.0344,  ..., -0.2006, -0.0373, -0.0425],
+        [-0.0744, -0.0945, -0.1329,  ...,  0.0956,  0.0306, -0.1709]],
+       device='cuda:0'), grad: tensor([[ 4.6100e-08,  0.0000e+00, -5.4948e-08,  ..., -3.6322e-08,
+          8.2422e-08,  3.7253e-08],
+        [ 9.3132e-10,  0.0000e+00,  3.7253e-09,  ..., -1.3970e-09,
+          9.3132e-09,  4.6566e-10],
+        [ 7.4506e-09,  0.0000e+00,  2.3749e-08,  ...,  2.2352e-08,
+          1.9558e-08,  9.3132e-09],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  5.5879e-09,  ...,  1.6298e-08,
+         -1.8161e-08,  4.6566e-10],
+        [ 8.3819e-09,  0.0000e+00,  4.5635e-08,  ...,  3.8184e-08,
+          1.7229e-08,  7.9162e-09],
+        [ 9.3132e-10,  0.0000e+00,  8.7544e-08,  ...,  5.1223e-08,
+         -1.3970e-09,  1.8626e-09]], device='cuda:0')
+Epoch 274, bias, value: tensor([ 0.0043,  0.0104,  0.0118,  0.0005,  0.0240, -0.0069, -0.0032, -0.0041,
+         0.0109, -0.0164], device='cuda:0'), grad: tensor([ 8.1956e-08, -3.8650e-08,  8.4285e-08,  4.9826e-08,  8.4285e-08,
+         1.7090e-07, -7.0361e-07,  2.0955e-08,  1.2573e-07,  1.4435e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 273, time 246.91, cls_loss 0.0006 cls_loss_mapping 0.0018 cls_loss_causal 0.4930 re_mapping 0.0037 re_causal 0.0115 /// teacc 99.17 lr 0.00010000
+Epoch 275, weight, value: tensor([[-0.2108, -0.0478,  0.2039,  ...,  0.0441, -0.2010, -0.1566],
+        [-0.1573, -0.2349, -0.0557,  ..., -0.1119, -0.2397, -0.0862],
+        [ 0.2598, -0.0697, -0.2562,  ..., -0.1975, -0.1980, -0.2146],
+        ...,
+        [-0.0968, -0.0276, -0.3139,  ..., -0.1209,  0.1070,  0.0290],
+        [-0.1891, -0.1272, -0.0351,  ..., -0.2017, -0.0378, -0.0426],
+        [-0.0750, -0.0948, -0.1339,  ...,  0.0955,  0.0306, -0.1709]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-09,  1.3970e-09, -6.0024e-07,  ..., -4.4471e-07,
+          7.9162e-09,  3.7253e-09],
+        [ 4.1910e-09,  1.8626e-09,  1.3504e-08,  ..., -5.1223e-09,
+          9.3132e-10,  0.0000e+00],
+        [-8.3819e-09,  1.3970e-09,  3.8184e-08,  ...,  2.5611e-08,
+          1.3970e-09,  4.6566e-10],
+        ...,
+        [ 9.3132e-09,  3.2596e-09,  2.7940e-08,  ...,  2.4680e-08,
+         -4.6566e-10,  0.0000e+00],
+        [ 4.1910e-09,  2.7940e-09,  2.1420e-08,  ...,  3.1199e-08,
+          8.3819e-09,  4.6566e-10],
+        [ 2.3283e-09,  1.8626e-09,  2.4494e-07,  ...,  1.3271e-07,
+         -1.4435e-08,  4.6566e-10]], device='cuda:0')
+Epoch 275, bias, value: tensor([ 0.0049,  0.0105,  0.0128,  0.0004,  0.0240, -0.0069, -0.0031, -0.0042,
+         0.0105, -0.0165], device='cuda:0'), grad: tensor([-1.2582e-06, -1.7416e-07,  7.4971e-08, -6.4261e-08,  9.1735e-08,
+         3.4925e-08,  4.9220e-07,  1.7183e-07,  1.1036e-07,  5.2294e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 274, time 246.46, cls_loss 0.0008 cls_loss_mapping 0.0025 cls_loss_causal 0.4909 re_mapping 0.0035 re_causal 0.0113 /// teacc 99.21 lr 0.00010000
+Epoch 276, weight, value: tensor([[-0.2111, -0.0484,  0.2043,  ...,  0.0437, -0.2014, -0.1567],
+        [-0.1572, -0.2373, -0.0558,  ..., -0.1120, -0.2415, -0.0862],
+        [ 0.2601, -0.0699, -0.2574,  ..., -0.1985, -0.1994, -0.2153],
+        ...,
+        [-0.0975, -0.0278, -0.3162,  ..., -0.1209,  0.1072,  0.0289],
+        [-0.1893, -0.1294, -0.0358,  ..., -0.2023, -0.0386, -0.0428],
+        [-0.0756, -0.0950, -0.1341,  ...,  0.0956,  0.0304, -0.1709]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.6124e-07,  ..., -1.7183e-07,
+          1.1176e-08,  1.8626e-09],
+        [ 4.6566e-10,  0.0000e+00,  1.2107e-08,  ...,  1.9558e-08,
+          2.3283e-08,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-09,  ...,  5.1223e-09,
+          1.0245e-08,  4.6566e-10],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  4.6566e-09,  ...,  7.4506e-09,
+          1.6484e-07,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  1.5832e-08,  ...,  3.4925e-08,
+         -2.6403e-07,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.0198e-07,  ...,  3.7532e-07,
+          6.9384e-08,  4.6566e-10]], device='cuda:0')
+Epoch 276, bias, value: tensor([ 0.0047,  0.0105,  0.0110, -0.0010,  0.0241, -0.0049, -0.0032, -0.0042,
+         0.0115, -0.0166], device='cuda:0'), grad: tensor([-4.4843e-07, -6.4913e-07,  8.5216e-08,  1.5879e-07, -6.5658e-07,
+         7.6368e-08,  1.6624e-07,  1.9185e-06, -1.6671e-06,  1.0226e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 275, time 246.66, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.4996 re_mapping 0.0035 re_causal 0.0116 /// teacc 99.15 lr 0.00010000
+Epoch 277, weight, value: tensor([[-0.2114, -0.0492,  0.2045,  ...,  0.0437, -0.2017, -0.1567],
+        [-0.1576, -0.2384, -0.0559,  ..., -0.1122, -0.2429, -0.0863],
+        [ 0.2624, -0.0700, -0.2578,  ..., -0.1988, -0.1998, -0.2156],
+        ...,
+        [-0.1005, -0.0279, -0.3170,  ..., -0.1209,  0.1074,  0.0292],
+        [-0.1898, -0.1296, -0.0361,  ..., -0.2042, -0.0391, -0.0432],
+        [-0.0755, -0.0950, -0.1342,  ...,  0.0958,  0.0306, -0.1709]],
+       device='cuda:0'), grad: tensor([[ 2.3749e-08,  3.7253e-09, -5.0291e-08,  ...,  1.9791e-07,
+          1.2107e-08,  2.0489e-08],
+        [ 2.5611e-08,  3.7253e-09,  1.8626e-09,  ...,  2.0489e-08,
+          1.0710e-08,  5.1223e-09],
+        [-1.4435e-07, -9.3132e-10,  5.5879e-09,  ...,  3.0268e-08,
+          1.8626e-09,  1.2107e-08],
+        ...,
+        [ 5.7276e-08,  6.0536e-09,  9.3132e-10,  ...,  4.6566e-09,
+         -1.6298e-08,  0.0000e+00],
+        [ 1.7695e-08,  4.6566e-10,  5.1223e-09,  ...,  4.0513e-08,
+          6.5193e-09, -2.7940e-09],
+        [ 6.9849e-09,  2.7940e-09,  2.5146e-08,  ..., -2.5053e-07,
+         -2.6077e-08,  1.4901e-08]], device='cuda:0')
+Epoch 277, bias, value: tensor([ 0.0047,  0.0108,  0.0120, -0.0010,  0.0239, -0.0048, -0.0032, -0.0045,
+         0.0109, -0.0165], device='cuda:0'), grad: tensor([ 4.2887e-07,  1.8300e-07, -1.9092e-07, -9.0804e-08, -5.8711e-06,
+         7.8231e-08,  5.8524e-06,  3.9581e-08,  9.7789e-09, -4.2608e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 276, time 246.26, cls_loss 0.0006 cls_loss_mapping 0.0019 cls_loss_causal 0.4922 re_mapping 0.0034 re_causal 0.0108 /// teacc 99.00 lr 0.00010000
+Epoch 278, weight, value: tensor([[-0.2120, -0.0493,  0.2047,  ...,  0.0437, -0.2020, -0.1568],
+        [-0.1586, -0.2391, -0.0559,  ..., -0.1125, -0.2452, -0.0865],
+        [ 0.2641, -0.0701, -0.2567,  ..., -0.1997, -0.2003, -0.2139],
+        ...,
+        [-0.1012, -0.0279, -0.3178,  ..., -0.1208,  0.1077,  0.0294],
+        [-0.1905, -0.1297, -0.0365,  ..., -0.2051, -0.0397, -0.0423],
+        [-0.0765, -0.0951, -0.1343,  ...,  0.0957,  0.0304, -0.1709]],
+       device='cuda:0'), grad: tensor([[ 3.9209e-07,  1.8626e-09,  1.5739e-07,  ...,  3.5297e-07,
+          1.5832e-08,  3.0361e-07],
+        [ 9.3132e-08,  9.3132e-10,  1.1176e-08,  ...,  9.2201e-08,
+          5.7742e-08,  1.3970e-08],
+        [ 6.1933e-07,  1.8626e-09,  3.1386e-07,  ...,  7.2550e-07,
+          4.9360e-08,  5.7463e-07],
+        ...,
+        [-2.7008e-08,  0.0000e+00,  1.8626e-09,  ...,  1.6205e-07,
+         -9.2201e-08,  1.8626e-09],
+        [ 9.1270e-08,  9.3132e-10,  3.7253e-08,  ...,  7.4506e-08,
+          9.3132e-10,  6.1467e-08],
+        [ 3.4459e-08,  0.0000e+00,  2.1420e-08,  ..., -3.8929e-07,
+         -2.7008e-08,  1.4901e-08]], device='cuda:0')
+Epoch 278, bias, value: tensor([ 0.0046,  0.0110,  0.0128, -0.0011,  0.0240, -0.0047, -0.0034, -0.0047,
+         0.0114, -0.0166], device='cuda:0'), grad: tensor([ 1.9781e-06, -7.9796e-06,  3.7029e-06,  7.7765e-07,  2.5928e-06,
+         1.0401e-05, -1.2808e-05,  9.2909e-06, -9.6336e-06,  1.6065e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 277, time 246.28, cls_loss 0.0007 cls_loss_mapping 0.0022 cls_loss_causal 0.4906 re_mapping 0.0038 re_causal 0.0115 /// teacc 99.15 lr 0.00010000
+Epoch 279, weight, value: tensor([[-0.2123, -0.0496,  0.2049,  ...,  0.0434, -0.2026, -0.1570],
+        [-0.1625, -0.2397, -0.0561,  ..., -0.1127, -0.2473, -0.0867],
+        [ 0.2676, -0.0702, -0.2579,  ..., -0.1984, -0.2010, -0.2154],
+        ...,
+        [-0.1019, -0.0281, -0.3198,  ..., -0.1209,  0.1079,  0.0297],
+        [-0.1908, -0.1299, -0.0373,  ..., -0.2058, -0.0401, -0.0428],
+        [-0.0775, -0.0951, -0.1346,  ...,  0.0958,  0.0305, -0.1709]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09,  0.0000e+00, -2.1514e-07,  ..., -1.2666e-07,
+          9.3132e-10, -9.3132e-10],
+        [ 8.1956e-08,  0.0000e+00,  2.2352e-08,  ...,  2.0489e-08,
+          2.7940e-09,  0.0000e+00],
+        [-1.1269e-06,  0.0000e+00,  9.3132e-09,  ...,  8.3819e-09,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 9.7882e-07,  2.7940e-09,  1.0245e-08,  ..., -9.3132e-10,
+         -1.0245e-08,  0.0000e+00],
+        [ 1.6764e-08,  0.0000e+00,  2.5146e-08,  ...,  2.0489e-08,
+         -9.3132e-10,  0.0000e+00],
+        [ 9.3132e-09,  0.0000e+00,  8.5682e-08,  ...,  2.8871e-08,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 279, bias, value: tensor([ 0.0045,  0.0102,  0.0150, -0.0012,  0.0240, -0.0048, -0.0032, -0.0041,
+         0.0115, -0.0166], device='cuda:0'), grad: tensor([-3.8557e-07,  2.8871e-07, -2.2408e-06,  6.4261e-08,  5.6811e-08,
+         3.7253e-08,  1.0338e-07,  1.7826e-06,  7.0781e-08,  2.0955e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 278, time 246.77, cls_loss 0.0007 cls_loss_mapping 0.0022 cls_loss_causal 0.4949 re_mapping 0.0034 re_causal 0.0109 /// teacc 99.13 lr 0.00010000
+Epoch 280, weight, value: tensor([[-0.2130, -0.0497,  0.2049,  ...,  0.0435, -0.2039, -0.1578],
+        [-0.1630, -0.2404, -0.0561,  ..., -0.1147, -0.2488, -0.0868],
+        [ 0.2681, -0.0703, -0.2596,  ..., -0.1989, -0.2021, -0.2171],
+        ...,
+        [-0.1022, -0.0282, -0.3211,  ..., -0.1211,  0.1080,  0.0291],
+        [-0.1910, -0.1302, -0.0376,  ..., -0.2066, -0.0416, -0.0449],
+        [-0.0792, -0.0953, -0.1347,  ...,  0.0958,  0.0303, -0.1710]],
+       device='cuda:0'), grad: tensor([[ 3.1665e-08,  9.3132e-10, -1.4789e-06,  ...,  1.2293e-07,
+         -2.3283e-08,  8.3819e-09],
+        [ 2.7940e-09,  9.3132e-10,  1.3039e-08,  ...,  1.3504e-07,
+          4.6566e-09,  7.4506e-09],
+        [ 2.9802e-08,  2.7940e-09,  4.6566e-09,  ...,  5.1223e-08,
+          1.0245e-08,  2.7940e-09],
+        ...,
+        [-1.3039e-08,  9.3132e-10,  6.5193e-09,  ...,  3.7625e-07,
+          0.0000e+00,  1.6764e-08],
+        [ 9.3132e-09,  1.8626e-09,  2.6077e-08,  ...,  4.0978e-08,
+          5.5879e-09,  1.8626e-09],
+        [ 2.5146e-08,  1.8626e-09,  5.1223e-08,  ...,  1.6853e-05,
+          1.2107e-07,  9.3319e-07]], device='cuda:0')
+Epoch 280, bias, value: tensor([ 0.0043,  0.0099,  0.0149, -0.0011,  0.0241, -0.0048, -0.0030, -0.0040,
+         0.0103, -0.0166], device='cuda:0'), grad: tensor([-2.4140e-06, -3.2596e-08,  4.1910e-07, -2.7940e-07, -4.2707e-05,
+         2.7567e-07,  2.7530e-06,  8.7358e-07,  2.9150e-07,  4.0889e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 279, time 246.68, cls_loss 0.0006 cls_loss_mapping 0.0018 cls_loss_causal 0.4762 re_mapping 0.0035 re_causal 0.0107 /// teacc 99.21 lr 0.00010000
+Epoch 281, weight, value: tensor([[-0.2134, -0.0499,  0.2057,  ...,  0.0437, -0.2039, -0.1578],
+        [-0.1631, -0.2408, -0.0563,  ..., -0.1151, -0.2504, -0.0870],
+        [ 0.2683, -0.0703, -0.2615,  ..., -0.2003, -0.2032, -0.2177],
+        ...,
+        [-0.1023, -0.0282, -0.3226,  ..., -0.1210,  0.1085,  0.0293],
+        [-0.1906, -0.1303, -0.0373,  ..., -0.2067, -0.0423, -0.0457],
+        [-0.0796, -0.0953, -0.1353,  ...,  0.0956,  0.0300, -0.1712]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.3970e-08,  ...,  1.3039e-08,
+          2.7940e-09, -1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  5.5879e-09,
+          1.9558e-08,  0.0000e+00],
+        [-2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          2.3283e-08,  0.0000e+00],
+        ...,
+        [ 2.7940e-09,  0.0000e+00,  1.8626e-09,  ...,  7.4506e-09,
+         -7.4506e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  2.8871e-08,
+          5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ..., -2.0675e-07,
+          9.3132e-10,  1.8626e-09]], device='cuda:0')
+Epoch 281, bias, value: tensor([ 0.0047,  0.0099,  0.0146, -0.0011,  0.0243, -0.0047, -0.0030, -0.0039,
+         0.0105, -0.0169], device='cuda:0'), grad: tensor([ 2.6077e-08,  3.8184e-08,  1.5367e-07,  6.7987e-08,  2.8871e-07,
+        -9.3132e-09,  2.6077e-08, -3.5670e-07,  9.3132e-08, -3.2131e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 280, time 246.63, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4326 re_mapping 0.0036 re_causal 0.0110 /// teacc 99.16 lr 0.00010000
+Epoch 282, weight, value: tensor([[-0.2137, -0.0507,  0.2059,  ...,  0.0430, -0.2040, -0.1577],
+        [-0.1631, -0.2411, -0.0561,  ..., -0.1152, -0.2516, -0.0872],
+        [ 0.2685, -0.0704, -0.2627,  ..., -0.2013, -0.2041, -0.2181],
+        ...,
+        [-0.1023, -0.0282, -0.3242,  ..., -0.1209,  0.1089,  0.0298],
+        [-0.1910, -0.1306, -0.0377,  ..., -0.2073, -0.0426, -0.0459],
+        [-0.0798, -0.0954, -0.1354,  ...,  0.0957,  0.0297, -0.1712]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -4.6566e-09, -5.4482e-07,  ..., -2.4214e-07,
+          2.7940e-09, -2.0489e-08],
+        [ 1.8626e-09,  9.3132e-10,  0.0000e+00,  ...,  7.4506e-09,
+          9.3132e-09,  9.3132e-10],
+        [-7.4506e-09,  9.3132e-10,  2.1420e-08,  ...,  1.4901e-08,
+          8.3819e-09, -2.7940e-09],
+        ...,
+        [ 1.8626e-09,  9.3132e-10,  1.4901e-08,  ...,  1.1176e-08,
+         -3.9116e-08,  9.3132e-10],
+        [ 3.7253e-09,  2.7940e-09,  7.0781e-08,  ...,  3.2596e-08,
+          1.8626e-09,  3.7253e-09],
+        [ 9.3132e-10,  9.3132e-10,  2.1793e-07,  ...,  2.0582e-07,
+          3.2596e-08,  1.2107e-08]], device='cuda:0')
+Epoch 282, bias, value: tensor([ 0.0042,  0.0099,  0.0140, -0.0012,  0.0243, -0.0047, -0.0031, -0.0037,
+         0.0102, -0.0169], device='cuda:0'), grad: tensor([-1.1008e-06,  1.1269e-07,  4.8056e-07,  1.5274e-07, -2.9802e-07,
+         2.7008e-07,  3.0920e-07, -1.0021e-06,  1.9465e-07,  8.8103e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 281, time 246.12, cls_loss 0.0005 cls_loss_mapping 0.0014 cls_loss_causal 0.4959 re_mapping 0.0033 re_causal 0.0106 /// teacc 99.18 lr 0.00010000
+Epoch 283, weight, value: tensor([[-0.2149, -0.0508,  0.2060,  ...,  0.0430, -0.2043, -0.1578],
+        [-0.1624, -0.2416, -0.0561,  ..., -0.1154, -0.2520, -0.0873],
+        [ 0.2686, -0.0705, -0.2632,  ..., -0.2009, -0.2052, -0.2186],
+        ...,
+        [-0.1027, -0.0283, -0.3250,  ..., -0.1210,  0.1089,  0.0301],
+        [-0.1915, -0.1308, -0.0381,  ..., -0.2076, -0.0426, -0.0462],
+        [-0.0800, -0.0954, -0.1355,  ...,  0.0957,  0.0297, -0.1712]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00, -1.0990e-07,  ..., -1.6764e-08,
+          1.8626e-09,  9.3132e-10],
+        [ 5.5879e-09,  9.3132e-10,  2.7940e-09,  ...,  7.0781e-08,
+          6.5193e-09,  0.0000e+00],
+        [-5.0291e-08,  2.7940e-09,  7.4506e-09,  ...,  2.3283e-08,
+          2.7940e-09,  0.0000e+00],
+        ...,
+        [ 5.9605e-08,  2.7940e-09,  4.6566e-09,  ...,  3.1665e-08,
+         -6.5193e-09,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  1.2107e-08,  ..., -2.5146e-08,
+          1.8626e-09,  1.8626e-09],
+        [ 1.8626e-09,  9.3132e-10,  2.4214e-08,  ...,  5.0012e-07,
+          1.4901e-08,  9.3132e-10]], device='cuda:0')
+Epoch 283, bias, value: tensor([ 0.0041,  0.0101,  0.0131, -0.0014,  0.0243, -0.0046, -0.0030, -0.0037,
+         0.0102, -0.0169], device='cuda:0'), grad: tensor([-3.8184e-08, -6.2399e-08, -9.3132e-10,  6.0536e-08, -1.8794e-06,
+        -5.0291e-08,  2.0489e-07,  3.7160e-07, -3.0082e-07,  1.6931e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 282, time 246.46, cls_loss 0.0005 cls_loss_mapping 0.0017 cls_loss_causal 0.5171 re_mapping 0.0033 re_causal 0.0112 /// teacc 99.11 lr 0.00010000
+Epoch 284, weight, value: tensor([[-0.2162, -0.0510,  0.2060,  ...,  0.0431, -0.2049, -0.1584],
+        [-0.1625, -0.2427, -0.0562,  ..., -0.1156, -0.2526, -0.0875],
+        [ 0.2696, -0.0706, -0.2637,  ..., -0.2004, -0.2059, -0.2177],
+        ...,
+        [-0.1034, -0.0285, -0.3260,  ..., -0.1210,  0.1090,  0.0285],
+        [-0.1917, -0.1315, -0.0385,  ..., -0.2082, -0.0430, -0.0471],
+        [-0.0802, -0.0952, -0.1356,  ...,  0.0957,  0.0297, -0.1713]],
+       device='cuda:0'), grad: tensor([[ 1.0245e-08,  2.7940e-09, -6.0722e-07,  ..., -1.8533e-07,
+          3.7253e-09, -8.1956e-08],
+        [ 8.9407e-08,  2.9802e-08,  2.7940e-09,  ...,  1.4901e-08,
+          1.8626e-08,  1.8626e-09],
+        [-5.5879e-09,  1.3970e-08,  1.8626e-09,  ...,  3.7253e-09,
+          9.3132e-10, -1.6764e-08],
+        ...,
+        [ 1.0896e-07,  3.6322e-08,  4.6566e-09,  ...,  5.3085e-08,
+         -2.1420e-08,  2.7940e-09],
+        [ 2.9802e-08,  1.2107e-08,  9.3132e-09,  ...,  1.6112e-07,
+          2.6077e-08,  1.0245e-08],
+        [ 2.7008e-08,  6.5193e-09,  6.5193e-09,  ..., -2.3283e-08,
+         -1.3039e-08,  1.8626e-09]], device='cuda:0')
+Epoch 284, bias, value: tensor([ 0.0040,  0.0101,  0.0130, -0.0015,  0.0244, -0.0046, -0.0030, -0.0038,
+         0.0100, -0.0170], device='cuda:0'), grad: tensor([-9.9186e-07,  3.6974e-07,  1.3597e-07, -1.3346e-06, -5.4482e-07,
+        -1.8533e-07,  1.2293e-06,  5.6159e-07,  5.8487e-07,  1.6391e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 283, time 246.54, cls_loss 0.0007 cls_loss_mapping 0.0021 cls_loss_causal 0.5079 re_mapping 0.0032 re_causal 0.0107 /// teacc 99.12 lr 0.00010000
+Epoch 285, weight, value: tensor([[-0.2165, -0.0512,  0.2066,  ...,  0.0432, -0.2052, -0.1585],
+        [-0.1626, -0.2434, -0.0563,  ..., -0.1166, -0.2542, -0.0877],
+        [ 0.2710, -0.0704, -0.2645,  ..., -0.2010, -0.2066, -0.2177],
+        ...,
+        [-0.1052, -0.0287, -0.3276,  ..., -0.1216,  0.1090,  0.0286],
+        [-0.1919, -0.1315, -0.0389,  ..., -0.2115, -0.0430, -0.0475],
+        [-0.0803, -0.0952, -0.1359,  ...,  0.0960,  0.0298, -0.1713]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  2.7940e-09, -2.7008e-08,  ..., -1.0245e-08,
+          1.0245e-08,  4.6566e-09],
+        [ 4.6566e-09,  4.6566e-09,  5.5879e-09,  ...,  4.3772e-08,
+          1.9558e-08,  2.7940e-09],
+        [ 5.5879e-09,  9.3132e-09,  2.7940e-09,  ...,  1.4901e-08,
+          5.5879e-09,  9.3132e-10],
+        ...,
+        [ 1.7695e-08,  1.0245e-08,  1.8626e-09,  ...,  3.0454e-07,
+          1.4901e-07,  0.0000e+00],
+        [ 3.7253e-09,  3.7253e-09,  9.3132e-09,  ...,  8.3819e-09,
+          1.2107e-08,  5.5879e-09],
+        [ 1.0245e-08,  1.1176e-08,  1.1176e-08,  ...,  1.8533e-07,
+         -2.0489e-08,  0.0000e+00]], device='cuda:0')
+Epoch 285, bias, value: tensor([ 0.0042,  0.0101,  0.0137, -0.0011,  0.0245, -0.0049, -0.0030, -0.0040,
+         0.0085, -0.0167], device='cuda:0'), grad: tensor([ 1.4901e-08,  1.0431e-07,  1.2014e-07, -4.3027e-07, -2.4233e-06,
+         4.2655e-07,  2.4773e-07,  1.1660e-06, -1.9744e-07,  9.7789e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 284, time 246.56, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4787 re_mapping 0.0035 re_causal 0.0108 /// teacc 99.15 lr 0.00010000
+Epoch 286, weight, value: tensor([[-0.2167, -0.0515,  0.2072,  ...,  0.0414, -0.2055, -0.1586],
+        [-0.1627, -0.2445, -0.0565,  ..., -0.1169, -0.2558, -0.0882],
+        [ 0.2713, -0.0705, -0.2654,  ..., -0.2018, -0.2074, -0.2179],
+        ...,
+        [-0.1054, -0.0288, -0.3295,  ..., -0.1216,  0.1092,  0.0292],
+        [-0.1921, -0.1318, -0.0397,  ..., -0.2120, -0.0432, -0.0480],
+        [-0.0805, -0.0954, -0.1362,  ...,  0.0964,  0.0297, -0.1713]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -3.7253e-09,  ..., -1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -4.6566e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [-0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  8.3819e-09,
+         -2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ..., -2.9802e-08,
+         -3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 286, bias, value: tensor([ 0.0028,  0.0102,  0.0135, -0.0011,  0.0245, -0.0050, -0.0030, -0.0040,
+         0.0083, -0.0165], device='cuda:0'), grad: tensor([ 0.0000e+00, -8.1956e-08,  1.0245e-08,  4.6566e-09,  5.2154e-08,
+        -2.7940e-09,  6.5193e-09,  4.6566e-08,  1.1176e-08, -4.9360e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 285, time 246.64, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.5198 re_mapping 0.0034 re_causal 0.0109 /// teacc 99.12 lr 0.00010000
+Epoch 287, weight, value: tensor([[-0.2167, -0.0518,  0.2075,  ...,  0.0414, -0.2058, -0.1587],
+        [-0.1629, -0.2454, -0.0565,  ..., -0.1170, -0.2567, -0.0883],
+        [ 0.2714, -0.0705, -0.2666,  ..., -0.2026, -0.2086, -0.2187],
+        ...,
+        [-0.1054, -0.0294, -0.3340,  ..., -0.1219,  0.1092,  0.0294],
+        [-0.1921, -0.1320, -0.0402,  ..., -0.2123, -0.0434, -0.0481],
+        [-0.0806, -0.0955, -0.1364,  ...,  0.0965,  0.0298, -0.1713]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.4214e-08,  ..., -1.2107e-08,
+          2.7940e-09,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.5832e-08,
+          9.3132e-10,  3.7253e-09],
+        [ 9.3132e-10,  9.3132e-10,  2.7940e-09,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  9.3132e-10,  0.0000e+00,  ...,  2.7940e-08,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  1.5832e-08,
+          5.5879e-09,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.3039e-08,  ..., -9.8720e-08,
+         -6.5193e-09,  2.7940e-09]], device='cuda:0')
+Epoch 287, bias, value: tensor([ 0.0028,  0.0102,  0.0129, -0.0010,  0.0246, -0.0050, -0.0030, -0.0041,
+         0.0086, -0.0164], device='cuda:0'), grad: tensor([-3.1665e-08,  1.9558e-08,  1.8626e-08,  2.0489e-08,  7.4506e-08,
+        -9.4995e-08,  1.1455e-07,  1.0617e-07, -4.8429e-08, -1.7323e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 286, time 246.47, cls_loss 0.0005 cls_loss_mapping 0.0024 cls_loss_causal 0.4721 re_mapping 0.0037 re_causal 0.0111 /// teacc 99.03 lr 0.00010000
+Epoch 288, weight, value: tensor([[-0.2168, -0.0549,  0.2073,  ...,  0.0411, -0.2061, -0.1588],
+        [-0.1634, -0.2461, -0.0567,  ..., -0.1174, -0.2589, -0.0901],
+        [ 0.2720, -0.0706, -0.2673,  ..., -0.2034, -0.2092, -0.2191],
+        ...,
+        [-0.1057, -0.0295, -0.3352,  ..., -0.1217,  0.1099,  0.0321],
+        [-0.1928, -0.1323, -0.0407,  ..., -0.2126, -0.0440, -0.0491],
+        [-0.0809, -0.0955, -0.1366,  ...,  0.0964,  0.0293, -0.1716]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  9.3132e-10, -1.8533e-07,  ..., -2.5425e-07,
+          1.8626e-09,  1.9558e-08],
+        [ 5.5879e-09,  9.3132e-10,  1.8626e-09,  ...,  2.7940e-09,
+          0.0000e+00,  0.0000e+00],
+        [-2.8126e-07,  1.8626e-09,  9.3132e-10,  ...,  5.5879e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 2.6450e-07,  1.8626e-09,  0.0000e+00,  ...,  2.7940e-09,
+         -2.7940e-09,  1.8626e-09],
+        [ 6.5193e-09,  0.0000e+00,  9.3132e-10,  ...,  1.8626e-09,
+          0.0000e+00,  4.8429e-08],
+        [ 2.7940e-09,  0.0000e+00,  1.9651e-07,  ...,  2.6356e-07,
+          1.8626e-09,  1.8626e-08]], device='cuda:0')
+Epoch 288, bias, value: tensor([ 0.0019,  0.0102,  0.0129, -0.0010,  0.0247, -0.0046, -0.0029, -0.0039,
+         0.0080, -0.0167], device='cuda:0'), grad: tensor([-3.7532e-07, -2.7008e-08, -4.7125e-07,  2.9802e-08, -7.6368e-08,
+        -7.8883e-07,  1.9837e-07,  5.1130e-07,  3.6601e-07,  6.1747e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 287, time 246.68, cls_loss 0.0006 cls_loss_mapping 0.0023 cls_loss_causal 0.4984 re_mapping 0.0035 re_causal 0.0112 /// teacc 99.11 lr 0.00010000
+Epoch 289, weight, value: tensor([[-0.2169, -0.0549,  0.2103,  ...,  0.0439, -0.2062, -0.1585],
+        [-0.1641, -0.2465, -0.0592,  ..., -0.1195, -0.2594, -0.0906],
+        [ 0.2733, -0.0707, -0.2680,  ..., -0.2033, -0.2093, -0.2197],
+        ...,
+        [-0.1069, -0.0296, -0.3360,  ..., -0.1219,  0.1100,  0.0320],
+        [-0.1929, -0.1324, -0.0407,  ..., -0.2126, -0.0439, -0.0491],
+        [-0.0815, -0.0956, -0.1390,  ...,  0.0952,  0.0293, -0.1716]],
+       device='cuda:0'), grad: tensor([[ 7.9162e-08,  1.8626e-09, -6.5193e-09,  ...,  6.5193e-09,
+          9.3132e-10, -1.8626e-09],
+        [ 3.0734e-08,  1.2107e-08,  4.6566e-09,  ...,  5.5879e-09,
+          1.8626e-09,  3.7253e-09],
+        [-4.6473e-07,  3.3528e-08,  0.0000e+00,  ..., -7.8231e-08,
+          9.3132e-10,  1.8626e-09],
+        ...,
+        [ 5.3085e-08,  2.3283e-08,  9.3132e-10,  ...,  5.5879e-09,
+         -4.6566e-09,  9.3132e-09],
+        [ 3.4459e-08,  1.3970e-08,  9.3132e-10,  ...,  1.8626e-09,
+          0.0000e+00,  2.7940e-09],
+        [ 1.3970e-08,  1.8626e-09,  1.8626e-09,  ...,  1.7695e-08,
+          1.8626e-09,  9.3132e-10]], device='cuda:0')
+Epoch 289, bias, value: tensor([ 0.0049,  0.0098,  0.0135, -0.0013,  0.0247, -0.0043, -0.0032, -0.0039,
+         0.0083, -0.0175], device='cuda:0'), grad: tensor([ 1.8254e-07,  1.2014e-07, -8.8569e-07, -1.9185e-07, -5.6811e-08,
+         2.5798e-07,  1.9372e-07,  1.7229e-07,  9.9652e-08,  1.0431e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 288, time 246.98, cls_loss 0.0005 cls_loss_mapping 0.0018 cls_loss_causal 0.4949 re_mapping 0.0034 re_causal 0.0113 /// teacc 99.12 lr 0.00010000
+Epoch 290, weight, value: tensor([[-0.2172, -0.0551,  0.2105,  ...,  0.0440, -0.2064, -0.1587],
+        [-0.1642, -0.2471, -0.0592,  ..., -0.1196, -0.2600, -0.0907],
+        [ 0.2736, -0.0708, -0.2692,  ..., -0.2032, -0.2097, -0.2199],
+        ...,
+        [-0.1071, -0.0297, -0.3368,  ..., -0.1220,  0.1101,  0.0320],
+        [-0.1931, -0.1326, -0.0421,  ..., -0.2127, -0.0439, -0.0490],
+        [-0.0819, -0.0956, -0.1392,  ...,  0.0951,  0.0292, -0.1717]],
+       device='cuda:0'), grad: tensor([[ 1.7695e-08,  1.8626e-09,  9.3132e-09,  ..., -0.0000e+00,
+          2.9802e-08,  1.2107e-08],
+        [ 2.4214e-08,  1.8626e-09,  6.5193e-09,  ...,  2.7008e-08,
+          4.2003e-07,  5.5879e-09],
+        [-6.0350e-07, -5.7742e-08,  1.8626e-09,  ...,  4.4703e-08,
+          2.2352e-08, -3.2596e-08],
+        ...,
+        [ 3.7253e-08,  3.7253e-09,  9.3132e-10,  ...,  1.8626e-09,
+         -6.7707e-07,  1.8626e-09],
+        [ 3.9488e-07,  4.0978e-08,  6.5193e-09,  ...,  6.5193e-09,
+          1.0245e-08,  2.7008e-08],
+        [ 1.8626e-09,  0.0000e+00,  3.7253e-09,  ...,  4.8429e-08,
+          1.4435e-07,  9.3132e-10]], device='cuda:0')
+Epoch 290, bias, value: tensor([ 0.0049,  0.0099,  0.0126, -0.0013,  0.0248, -0.0043, -0.0032, -0.0038,
+         0.0089, -0.0176], device='cuda:0'), grad: tensor([ 2.2165e-07,  2.6785e-06, -1.9819e-06,  3.5949e-07, -1.3039e-07,
+         2.3376e-07, -9.9652e-08, -3.9339e-06,  1.6056e-06,  1.0431e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 289, time 246.77, cls_loss 0.0005 cls_loss_mapping 0.0015 cls_loss_causal 0.4844 re_mapping 0.0032 re_causal 0.0108 /// teacc 99.12 lr 0.00010000
+Epoch 291, weight, value: tensor([[-0.2181, -0.0551,  0.2107,  ...,  0.0440, -0.2068, -0.1590],
+        [-0.1641, -0.2476, -0.0601,  ..., -0.1200, -0.2613, -0.0910],
+        [ 0.2740, -0.0708, -0.2705,  ..., -0.2038, -0.2103, -0.2202],
+        ...,
+        [-0.1077, -0.0298, -0.3373,  ..., -0.1221,  0.1102,  0.0320],
+        [-0.1933, -0.1328, -0.0423,  ..., -0.2127, -0.0439, -0.0491],
+        [-0.0822, -0.0957, -0.1392,  ...,  0.0950,  0.0292, -0.1717]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  9.3132e-10, -8.6725e-06,  ..., -5.7369e-06,
+          2.7940e-09,  2.7940e-09],
+        [ 1.3970e-08,  1.8626e-09,  3.2857e-06,  ...,  2.1849e-06,
+          5.5879e-08,  9.3132e-10],
+        [-1.6298e-07,  9.3132e-10,  4.3772e-08,  ...,  8.2888e-08,
+          6.5193e-09,  0.0000e+00],
+        ...,
+        [ 9.6858e-08,  5.5879e-09,  9.3132e-09,  ...,  4.7497e-08,
+         -6.5193e-08, -1.8626e-09],
+        [ 5.5879e-09,  9.3132e-10,  7.4506e-09,  ...,  8.3819e-09,
+          9.3132e-10,  1.8626e-09],
+        [ 1.8626e-09,  9.3132e-10,  4.3772e-08,  ...,  1.1548e-07,
+          1.2107e-08, -9.3132e-10]], device='cuda:0')
+Epoch 291, bias, value: tensor([ 0.0049,  0.0099,  0.0123, -0.0014,  0.0249, -0.0043, -0.0032, -0.0038,
+         0.0092, -0.0177], device='cuda:0'), grad: tensor([-2.1994e-05,  7.0147e-06, -1.7695e-08,  3.1665e-08, -1.6689e-06,
+         1.2163e-06,  1.3471e-05,  1.4072e-06,  1.7788e-07,  3.8743e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 290, time 246.49, cls_loss 0.0006 cls_loss_mapping 0.0019 cls_loss_causal 0.4912 re_mapping 0.0033 re_causal 0.0108 /// teacc 99.09 lr 0.00010000
+Epoch 292, weight, value: tensor([[-0.2179, -0.0554,  0.2113,  ...,  0.0441, -0.2073, -0.1593],
+        [-0.1647, -0.2482, -0.0604,  ..., -0.1203, -0.2621, -0.0907],
+        [ 0.2749, -0.0710, -0.2725,  ..., -0.2048, -0.2110, -0.2210],
+        ...,
+        [-0.1084, -0.0300, -0.3386,  ..., -0.1221,  0.1104,  0.0319],
+        [-0.1935, -0.1330, -0.0427,  ..., -0.2130, -0.0438, -0.0493],
+        [-0.0829, -0.0957, -0.1396,  ...,  0.0950,  0.0291, -0.1717]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -9.3132e-10,  ...,  1.3411e-07,
+          1.4901e-08,  9.3132e-10],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  1.4808e-07,
+          1.5553e-07,  0.0000e+00],
+        [-5.5879e-09,  9.3132e-10,  0.0000e+00,  ...,  9.7789e-08,
+          1.2107e-08,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  1.8626e-09,  0.0000e+00,  ..., -1.9595e-06,
+         -3.5074e-06,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  1.9558e-08,
+          5.5879e-09,  0.0000e+00],
+        [ 1.8626e-09,  1.8626e-09,  9.3132e-10,  ...,  1.1018e-06,
+          3.2466e-06,  0.0000e+00]], device='cuda:0')
+Epoch 292, bias, value: tensor([ 0.0050,  0.0099,  0.0125, -0.0014,  0.0250, -0.0042, -0.0033, -0.0039,
+         0.0093, -0.0178], device='cuda:0'), grad: tensor([ 4.3027e-07,  1.0319e-06,  3.0175e-07,  3.2224e-07,  6.3051e-07,
+         4.5262e-07,  8.4750e-08, -1.9625e-05,  9.5926e-08,  1.6257e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 291, time 246.99, cls_loss 0.0007 cls_loss_mapping 0.0022 cls_loss_causal 0.4834 re_mapping 0.0032 re_causal 0.0103 /// teacc 99.10 lr 0.00010000
+Epoch 293, weight, value: tensor([[-0.2187, -0.0559,  0.2119,  ...,  0.0442, -0.2077, -0.1594],
+        [-0.1649, -0.2492, -0.0607,  ..., -0.1205, -0.2641, -0.0908],
+        [ 0.2752, -0.0711, -0.2740,  ..., -0.2063, -0.2119, -0.2211],
+        ...,
+        [-0.1088, -0.0302, -0.3403,  ..., -0.1239,  0.1089,  0.0319],
+        [-0.1942, -0.1333, -0.0431,  ..., -0.2137, -0.0441, -0.0495],
+        [-0.0832, -0.0958, -0.1396,  ...,  0.0953,  0.0306, -0.1717]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.1921e-07,  ..., -5.4948e-08,
+          1.3970e-08, -4.6566e-09],
+        [ 1.8626e-09,  0.0000e+00,  2.7940e-09,  ..., -0.0000e+00,
+          3.7253e-09,  9.3132e-10],
+        [-2.7940e-09,  9.3132e-10,  9.3132e-10,  ...,  0.0000e+00,
+          1.8626e-09,  9.3132e-10],
+        ...,
+        [ 2.7940e-09,  9.3132e-10,  9.3132e-10,  ...,  1.8626e-09,
+         -4.6566e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  9.3132e-10,
+         -1.8626e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ..., -1.8626e-08,
+         -3.7253e-09,  9.3132e-10]], device='cuda:0')
+Epoch 293, bias, value: tensor([ 0.0050,  0.0102,  0.0121, -0.0014,  0.0251, -0.0040, -0.0035, -0.0047,
+         0.0087, -0.0174], device='cuda:0'), grad: tensor([-1.4994e-07,  4.6566e-09,  1.0245e-08, -4.0047e-08,  4.7497e-08,
+         4.4331e-07, -2.6729e-07,  7.4506e-09, -4.5635e-08, -4.6566e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 292, time 246.59, cls_loss 0.0005 cls_loss_mapping 0.0015 cls_loss_causal 0.4715 re_mapping 0.0032 re_causal 0.0104 /// teacc 99.12 lr 0.00010000
+Epoch 294, weight, value: tensor([[-0.2185, -0.0561,  0.2122,  ...,  0.0442, -0.2079, -0.1595],
+        [-0.1650, -0.2502, -0.0609,  ..., -0.1207, -0.2653, -0.0909],
+        [ 0.2758, -0.0711, -0.2749,  ..., -0.2072, -0.2126, -0.2212],
+        ...,
+        [-0.1097, -0.0303, -0.3409,  ..., -0.1227,  0.1100,  0.0320],
+        [-0.1946, -0.1337, -0.0435,  ..., -0.2138, -0.0444, -0.0498],
+        [-0.0838, -0.0958, -0.1398,  ...,  0.0949,  0.0296, -0.1717]],
+       device='cuda:0'), grad: tensor([[-3.5390e-08,  0.0000e+00, -1.1828e-07,  ..., -7.0781e-08,
+          9.3132e-10,  9.3132e-10],
+        [ 9.3132e-10,  0.0000e+00,  5.5879e-09,  ...,  1.2107e-08,
+          7.4506e-09,  9.3132e-10],
+        [ 3.7253e-09,  0.0000e+00,  1.2107e-08,  ...,  7.4506e-09,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 3.7253e-09,  0.0000e+00,  1.1176e-08,  ...,  3.5390e-08,
+         -1.3039e-08,  0.0000e+00],
+        [ 2.7940e-09,  0.0000e+00,  1.2107e-08,  ...,  4.6566e-09,
+          2.7940e-09,  2.7940e-09],
+        [ 1.4901e-08,  0.0000e+00,  5.1223e-08,  ..., -5.0291e-08,
+          3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 294, bias, value: tensor([ 0.0050,  0.0103,  0.0120, -0.0014,  0.0252, -0.0039, -0.0034, -0.0042,
+         0.0088, -0.0181], device='cuda:0'), grad: tensor([-3.2596e-07, -5.5879e-09,  9.4064e-08,  6.9477e-07,  1.4622e-07,
+        -7.0781e-07,  1.4435e-07,  1.5087e-07, -2.5705e-07,  6.1467e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 293, time 246.84, cls_loss 0.0005 cls_loss_mapping 0.0020 cls_loss_causal 0.5207 re_mapping 0.0032 re_causal 0.0107 /// teacc 99.14 lr 0.00010000
+Epoch 295, weight, value: tensor([[-0.2187, -0.0561,  0.2102,  ...,  0.0443, -0.2101, -0.1606],
+        [-0.1652, -0.2507, -0.0610,  ..., -0.1209, -0.2678, -0.0910],
+        [ 0.2760, -0.0713, -0.2765,  ..., -0.2079, -0.2136, -0.2212],
+        ...,
+        [-0.1096, -0.0304, -0.3428,  ..., -0.1230,  0.1101,  0.0320],
+        [-0.1953, -0.1343, -0.0442,  ..., -0.2143, -0.0445, -0.0501],
+        [-0.0839, -0.0955, -0.1399,  ...,  0.0949,  0.0295, -0.1717]],
+       device='cuda:0'), grad: tensor([[ 2.1420e-08,  9.3132e-10, -1.0803e-07,  ..., -2.7940e-08,
+          0.0000e+00,  9.3132e-10],
+        [ 6.8918e-08,  1.8626e-09,  5.5879e-09,  ..., -1.8626e-09,
+          2.7940e-09,  1.8626e-09],
+        [-6.7893e-07,  1.6764e-08,  1.3970e-08,  ...,  3.7253e-09,
+          0.0000e+00,  3.7253e-09],
+        ...,
+        [ 4.3679e-07,  1.4901e-08,  6.5193e-09,  ...,  2.7940e-09,
+         -6.5193e-09,  3.7253e-09],
+        [ 1.5832e-07,  2.7940e-09,  1.6764e-08,  ...,  3.7253e-09,
+          1.8626e-09,  1.8626e-09],
+        [ 2.7940e-08,  3.7253e-09,  3.4459e-08,  ...,  1.9558e-08,
+          3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 295, bias, value: tensor([ 0.0037,  0.0102,  0.0114, -0.0015,  0.0253, -0.0038, -0.0023, -0.0041,
+         0.0084, -0.0181], device='cuda:0'), grad: tensor([-6.9849e-08, -8.1584e-07, -1.8450e-06, -2.8592e-07,  2.4214e-08,
+        -4.7497e-08,  1.2852e-07,  1.3448e-06,  1.2908e-06,  2.7288e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 294, time 246.55, cls_loss 0.0007 cls_loss_mapping 0.0022 cls_loss_causal 0.4760 re_mapping 0.0033 re_causal 0.0101 /// teacc 99.13 lr 0.00010000
+Epoch 296, weight, value: tensor([[-0.2190, -0.0562,  0.2100,  ...,  0.0442, -0.2109, -0.1610],
+        [-0.1654, -0.2515, -0.0612,  ..., -0.1239, -0.2690, -0.0912],
+        [ 0.2767, -0.0714, -0.2772,  ..., -0.2087, -0.2142, -0.2213],
+        ...,
+        [-0.1100, -0.0306, -0.3438,  ..., -0.1219,  0.1123,  0.0319],
+        [-0.1961, -0.1346, -0.0461,  ..., -0.2157, -0.0451, -0.0511],
+        [-0.0842, -0.0956, -0.1396,  ...,  0.0953,  0.0275, -0.1717]],
+       device='cuda:0'), grad: tensor([[ 1.3039e-08,  0.0000e+00,  0.0000e+00,  ...,  3.6322e-08,
+          4.6566e-09,  0.0000e+00],
+        [ 1.3411e-07,  0.0000e+00,  0.0000e+00,  ...,  5.8673e-08,
+          5.6811e-08,  0.0000e+00],
+        [ 6.5006e-07,  0.0000e+00,  0.0000e+00,  ...,  3.9674e-07,
+          3.9488e-07,  0.0000e+00],
+        ...,
+        [-1.0543e-06,  0.0000e+00,  0.0000e+00,  ..., -5.3924e-07,
+         -5.7463e-07,  0.0000e+00],
+        [ 1.3039e-08,  0.0000e+00,  0.0000e+00,  ...,  4.4703e-08,
+          4.6566e-09,  0.0000e+00],
+        [ 6.6124e-08,  0.0000e+00,  9.3132e-10,  ..., -1.4901e-07,
+          2.8871e-08,  0.0000e+00]], device='cuda:0')
+Epoch 296, bias, value: tensor([ 0.0033,  0.0112,  0.0116, -0.0014,  0.0251, -0.0027, -0.0035, -0.0043,
+         0.0074, -0.0186], device='cuda:0'), grad: tensor([ 1.3504e-07,  4.5076e-07,  4.2357e-06,  7.3854e-07,  2.9523e-07,
+        -6.8918e-08,  1.0524e-07, -6.0797e-06,  1.4249e-07,  3.5390e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 295, time 246.73, cls_loss 0.0006 cls_loss_mapping 0.0028 cls_loss_causal 0.4764 re_mapping 0.0033 re_causal 0.0102 /// teacc 99.20 lr 0.00010000
+Epoch 297, weight, value: tensor([[-0.2187, -0.0562,  0.2105,  ...,  0.0439, -0.2111, -0.1612],
+        [-0.1656, -0.2520, -0.0612,  ..., -0.1238, -0.2697, -0.0914],
+        [ 0.2770, -0.0715, -0.2783,  ..., -0.2103, -0.2152, -0.2217],
+        ...,
+        [-0.1101, -0.0308, -0.3448,  ..., -0.1222,  0.1123,  0.0317],
+        [-0.1963, -0.1348, -0.0465,  ..., -0.2153, -0.0433, -0.0512],
+        [-0.0849, -0.0956, -0.1403,  ...,  0.0956,  0.0277, -0.1718]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00, -1.0896e-07,  ..., -2.5146e-08,
+          2.7940e-09,  7.4506e-09],
+        [ 1.0245e-08,  0.0000e+00,  1.8626e-09,  ...,  1.8626e-09,
+          3.7253e-09,  4.6566e-09],
+        [-4.0978e-08, -1.8626e-09,  2.7940e-09,  ...,  9.3132e-10,
+          9.3132e-10,  9.3132e-10],
+        ...,
+        [ 8.3819e-09,  0.0000e+00,  4.6566e-09,  ...,  2.9802e-08,
+          3.7253e-09,  4.6566e-09],
+        [ 1.3970e-08,  0.0000e+00,  9.3132e-10,  ...,  1.8626e-09,
+          9.4064e-08,  1.5926e-07],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ..., -8.8476e-08,
+          9.3132e-10,  1.1176e-08]], device='cuda:0')
+Epoch 297, bias, value: tensor([ 0.0031,  0.0116,  0.0113, -0.0015,  0.0251, -0.0026, -0.0039, -0.0046,
+         0.0086, -0.0185], device='cuda:0'), grad: tensor([-1.7788e-07, -5.8673e-08, -7.9162e-08,  4.6566e-08,  1.7416e-07,
+        -2.2277e-06,  1.7285e-06,  1.9185e-07,  5.8580e-07, -1.7788e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 296, time 246.59, cls_loss 0.0005 cls_loss_mapping 0.0016 cls_loss_causal 0.4677 re_mapping 0.0032 re_causal 0.0104 /// teacc 99.17 lr 0.00010000
+Epoch 298, weight, value: tensor([[-0.2182, -0.0562,  0.2118,  ...,  0.0444, -0.2112, -0.1612],
+        [-0.1664, -0.2524, -0.0641,  ..., -0.1252, -0.2705, -0.0915],
+        [ 0.2779, -0.0715, -0.2797,  ..., -0.2123, -0.2158, -0.2223],
+        ...,
+        [-0.1105, -0.0309, -0.3465,  ..., -0.1222,  0.1123,  0.0317],
+        [-0.1965, -0.1350, -0.0456,  ..., -0.2154, -0.0427, -0.0503],
+        [-0.0854, -0.0957, -0.1406,  ...,  0.0956,  0.0277, -0.1718]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-09,  0.0000e+00,  2.3283e-08,  ...,  3.2596e-09,
+          1.6764e-08,  9.3132e-09],
+        [ 2.0955e-08,  0.0000e+00,  1.7695e-08,  ..., -1.8626e-09,
+          2.3749e-08,  8.8476e-09],
+        [-3.9581e-08,  0.0000e+00,  2.7940e-09,  ...,  9.3132e-10,
+          4.1910e-09,  1.3970e-09],
+        ...,
+        [ 6.9849e-09,  4.6566e-10,  0.0000e+00,  ...,  2.7474e-08,
+         -3.6322e-08,  0.0000e+00],
+        [ 5.1223e-09,  4.6566e-10,  2.0489e-08,  ...,  2.7940e-09,
+          1.6764e-08,  1.0245e-08],
+        [ 1.3970e-09,  0.0000e+00,  1.3970e-09,  ..., -1.4435e-08,
+          1.3970e-08,  0.0000e+00]], device='cuda:0')
+Epoch 298, bias, value: tensor([ 0.0041,  0.0113,  0.0118, -0.0015,  0.0251, -0.0026, -0.0045, -0.0046,
+         0.0102, -0.0185], device='cuda:0'), grad: tensor([ 1.3551e-07, -1.7928e-07, -2.9337e-08, -3.4925e-08,  1.1642e-08,
+         1.0338e-07, -3.6228e-07,  5.9139e-08,  1.5879e-07,  1.3504e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 297, time 246.73, cls_loss 0.0006 cls_loss_mapping 0.0015 cls_loss_causal 0.4799 re_mapping 0.0033 re_causal 0.0103 /// teacc 99.12 lr 0.00010000
+Epoch 299, weight, value: tensor([[-0.2188, -0.0564,  0.2119,  ...,  0.0445, -0.2115, -0.1614],
+        [-0.1668, -0.2528, -0.0641,  ..., -0.1254, -0.2714, -0.0916],
+        [ 0.2787, -0.0716, -0.2812,  ..., -0.2136, -0.2168, -0.2231],
+        ...,
+        [-0.1108, -0.0309, -0.3472,  ..., -0.1223,  0.1125,  0.0317],
+        [-0.1969, -0.1352, -0.0465,  ..., -0.2155, -0.0428, -0.0511],
+        [-0.0868, -0.0957, -0.1410,  ...,  0.0956,  0.0277, -0.1718]],
+       device='cuda:0'), grad: tensor([[ 1.2107e-08,  2.7940e-09,  1.5367e-08,  ...,  8.3819e-09,
+          1.7229e-08,  4.6566e-09],
+        [ 9.3132e-09,  4.6566e-10,  7.9162e-09,  ...,  1.3039e-08,
+          5.2620e-08,  2.3283e-09],
+        [-4.8056e-07,  4.6566e-10,  4.1910e-09,  ...,  4.1910e-09,
+          1.7695e-08,  1.3970e-09],
+        ...,
+        [ 4.3027e-07,  9.3132e-10,  0.0000e+00,  ...,  1.1642e-08,
+         -1.1176e-07,  0.0000e+00],
+        [ 3.3062e-08,  3.2596e-09,  8.3353e-08,  ...,  1.0710e-08,
+          1.2107e-08,  2.5611e-08],
+        [ 8.3819e-09,  6.5193e-09,  5.1223e-09,  ..., -9.2201e-08,
+          1.4901e-08,  1.3970e-09]], device='cuda:0')
+Epoch 299, bias, value: tensor([ 0.0041,  0.0112,  0.0116, -0.0016,  0.0252, -0.0028, -0.0043, -0.0045,
+         0.0103, -0.0185], device='cuda:0'), grad: tensor([ 1.9372e-07,  3.6741e-07, -1.0096e-06,  4.0280e-07,  1.2759e-07,
+        -5.1036e-07, -1.4808e-07,  4.3353e-07, -1.4389e-07,  3.1106e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 298, time 246.94, cls_loss 0.0005 cls_loss_mapping 0.0021 cls_loss_causal 0.4658 re_mapping 0.0033 re_causal 0.0106 /// teacc 99.06 lr 0.00010000
+Epoch 300, weight, value: tensor([[-0.2191, -0.0565,  0.2120,  ...,  0.0445, -0.2119, -0.1616],
+        [-0.1672, -0.2538, -0.0645,  ..., -0.1254, -0.2730, -0.0928],
+        [ 0.2798, -0.0717, -0.2819,  ..., -0.2151, -0.2173, -0.2232],
+        ...,
+        [-0.1118, -0.0311, -0.3478,  ..., -0.1225,  0.1125,  0.0316],
+        [-0.1973, -0.1358, -0.0465,  ..., -0.2156, -0.0428, -0.0515],
+        [-0.0876, -0.0958, -0.1411,  ...,  0.0957,  0.0278, -0.1718]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  4.6566e-10,  7.9768e-07,  ...,  4.7497e-08,
+          1.5832e-07,  1.4715e-07],
+        [ 3.2596e-09,  0.0000e+00,  4.1910e-09,  ...,  7.4971e-08,
+          3.5390e-08,  9.3132e-10],
+        [-9.7789e-09,  0.0000e+00,  2.7940e-09,  ...,  2.3283e-09,
+          1.8626e-09,  4.6566e-10],
+        ...,
+        [ 3.2596e-09,  0.0000e+00,  0.0000e+00,  ..., -5.6531e-07,
+         -4.8475e-07,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  4.6566e-09,  ...,  5.1223e-09,
+          6.5193e-09,  9.3132e-10],
+        [ 0.0000e+00,  4.6566e-10,  3.2596e-09,  ...,  6.1328e-07,
+          4.4284e-07,  4.6566e-10]], device='cuda:0')
+Epoch 300, bias, value: tensor([ 0.0041,  0.0112,  0.0120, -0.0015,  0.0251, -0.0023, -0.0047, -0.0047,
+         0.0107, -0.0185], device='cuda:0'), grad: tensor([ 1.4342e-06,  4.4797e-07,  1.1176e-08,  8.9407e-08, -3.1525e-07,
+        -1.3830e-07, -1.4417e-06, -3.1702e-06,  1.1595e-07,  2.9784e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 299, time 246.64, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4549 re_mapping 0.0034 re_causal 0.0103 /// teacc 99.13 lr 0.00010000
+Epoch 301, weight, value: tensor([[-0.2194, -0.0565,  0.2120,  ...,  0.0442, -0.2123, -0.1619],
+        [-0.1684, -0.2543, -0.0647,  ..., -0.1257, -0.2740, -0.0929],
+        [ 0.2814, -0.0717, -0.2826,  ..., -0.2158, -0.2182, -0.2233],
+        ...,
+        [-0.1121, -0.0314, -0.3482,  ..., -0.1226,  0.1126,  0.0316],
+        [-0.1980, -0.1359, -0.0468,  ..., -0.2159, -0.0432, -0.0521],
+        [-0.0887, -0.0958, -0.1412,  ...,  0.0959,  0.0278, -0.1718]],
+       device='cuda:0'), grad: tensor([[ 3.5390e-08,  0.0000e+00,  8.3819e-09,  ...,  3.2596e-09,
+          4.6566e-09,  1.6764e-08],
+        [ 6.7987e-08,  0.0000e+00,  2.7940e-09,  ...,  1.3504e-08,
+          1.2899e-07,  4.1910e-09],
+        [ 2.1886e-08,  0.0000e+00,  2.0023e-08,  ...,  8.8476e-09,
+          6.6124e-08,  3.8184e-08],
+        ...,
+        [-1.2433e-07,  0.0000e+00,  0.0000e+00,  ...,  1.1176e-08,
+         -2.5565e-07,  0.0000e+00],
+        [ 6.5193e-09,  0.0000e+00,  6.0536e-09,  ...,  4.1910e-09,
+          1.4435e-08,  4.1910e-09],
+        [ 3.8184e-08,  0.0000e+00,  3.2596e-09,  ...,  1.9372e-07,
+          2.1886e-08,  1.8626e-09]], device='cuda:0')
+Epoch 301, bias, value: tensor([ 0.0037,  0.0110,  0.0118, -0.0016,  0.0253, -0.0024, -0.0047, -0.0045,
+         0.0107, -0.0184], device='cuda:0'), grad: tensor([ 1.9977e-07,  1.0431e-06,  5.6392e-07,  1.5218e-06, -3.2037e-07,
+        -1.3150e-06, -7.3807e-07, -1.8440e-06, -9.3132e-09,  9.1456e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 300, time 246.40, cls_loss 0.0006 cls_loss_mapping 0.0015 cls_loss_causal 0.4682 re_mapping 0.0034 re_causal 0.0102 /// teacc 99.13 lr 0.00010000
+Epoch 302, weight, value: tensor([[-0.2203, -0.0566,  0.2121,  ...,  0.0442, -0.2127, -0.1621],
+        [-0.1686, -0.2548, -0.0647,  ..., -0.1258, -0.2752, -0.0930],
+        [ 0.2820, -0.0718, -0.2835,  ..., -0.2169, -0.2194, -0.2217],
+        ...,
+        [-0.1126, -0.0316, -0.3489,  ..., -0.1228,  0.1126,  0.0314],
+        [-0.1983, -0.1361, -0.0475,  ..., -0.2160, -0.0436, -0.0526],
+        [-0.0895, -0.0961, -0.1414,  ...,  0.0959,  0.0278, -0.1718]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00, -1.8626e-09,  ...,  4.6566e-09,
+          1.2107e-08,  4.1910e-09],
+        [ 4.1910e-09,  0.0000e+00,  3.7253e-09,  ...,  2.5611e-08,
+          4.1910e-09,  2.3283e-09],
+        [-1.5041e-07,  0.0000e+00,  2.7940e-09,  ...,  2.3749e-08,
+          1.3970e-09,  1.8626e-09],
+        ...,
+        [ 1.3737e-07,  4.6566e-10,  0.0000e+00,  ...,  5.2154e-08,
+          8.3819e-09,  9.3132e-10],
+        [ 9.3132e-09,  0.0000e+00,  8.3819e-09,  ...,  3.2131e-08,
+          9.3132e-09,  2.3283e-09],
+        [ 9.3132e-10,  0.0000e+00,  6.9849e-09,  ..., -3.3528e-08,
+         -3.7253e-09,  1.3970e-09]], device='cuda:0')
+Epoch 302, bias, value: tensor([ 0.0036,  0.0114,  0.0105, -0.0015,  0.0254, -0.0031, -0.0037, -0.0047,
+         0.0108, -0.0185], device='cuda:0'), grad: tensor([ 7.9628e-08,  8.5682e-08, -1.4761e-07,  2.9802e-08, -4.8382e-07,
+         2.6356e-07, -2.1607e-07,  4.0233e-07,  2.9802e-08, -2.3749e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 301, time 246.42, cls_loss 0.0005 cls_loss_mapping 0.0011 cls_loss_causal 0.4819 re_mapping 0.0034 re_causal 0.0106 /// teacc 99.07 lr 0.00010000
+Epoch 303, weight, value: tensor([[-0.2203, -0.0567,  0.2123,  ...,  0.0443, -0.2131, -0.1622],
+        [-0.1689, -0.2558, -0.0648,  ..., -0.1257, -0.2757, -0.0931],
+        [ 0.2824, -0.0720, -0.2839,  ..., -0.2183, -0.2198, -0.2216],
+        ...,
+        [-0.1129, -0.0317, -0.3490,  ..., -0.1229,  0.1127,  0.0315],
+        [-0.1988, -0.1365, -0.0479,  ..., -0.2161, -0.0440, -0.0528],
+        [-0.0900, -0.0960, -0.1415,  ...,  0.0958,  0.0278, -0.1718]],
+       device='cuda:0'), grad: tensor([[ 4.1444e-08,  1.3970e-09, -2.1607e-07,  ..., -1.5041e-07,
+          4.6566e-09,  1.3970e-09],
+        [ 2.4680e-08,  1.8626e-09,  3.7253e-09,  ...,  2.7940e-09,
+          2.8452e-07,  4.6566e-10],
+        [-2.7614e-07, -2.7940e-09,  1.3970e-09,  ...,  1.3970e-09,
+          9.3132e-10,  4.6566e-10],
+        ...,
+        [ 2.6543e-08,  4.6566e-09,  2.3283e-09,  ...,  4.1910e-09,
+         -3.8883e-07,  4.6566e-10],
+        [ 1.9697e-07,  8.3819e-09,  3.2596e-09,  ...,  1.3970e-09,
+          2.3283e-09,  9.3132e-10],
+        [ 2.7940e-09,  4.6566e-10,  1.8114e-07,  ...,  1.2061e-07,
+          7.9628e-08,  0.0000e+00]], device='cuda:0')
+Epoch 303, bias, value: tensor([ 0.0036,  0.0129,  0.0104, -0.0013,  0.0255, -0.0033, -0.0035, -0.0061,
+         0.0106, -0.0186], device='cuda:0'), grad: tensor([-1.2200e-07,  5.9158e-06,  8.4285e-08,  8.1491e-08,  1.0291e-07,
+         5.8673e-08,  6.7055e-08, -1.0394e-05,  5.4250e-07,  3.6657e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 302, time 246.55, cls_loss 0.0006 cls_loss_mapping 0.0019 cls_loss_causal 0.4950 re_mapping 0.0037 re_causal 0.0114 /// teacc 99.06 lr 0.00010000
+Epoch 304, weight, value: tensor([[-0.2208, -0.0567,  0.2123,  ...,  0.0443, -0.2134, -0.1624],
+        [-0.1695, -0.2563, -0.0649,  ..., -0.1258, -0.2780, -0.0935],
+        [ 0.2836, -0.0720, -0.2852,  ..., -0.2194, -0.2209, -0.2217],
+        ...,
+        [-0.1131, -0.0317, -0.3493,  ..., -0.1229,  0.1129,  0.0318],
+        [-0.2006, -0.1368, -0.0485,  ..., -0.2163, -0.0444, -0.0532],
+        [-0.0903, -0.0961, -0.1415,  ...,  0.0957,  0.0277, -0.1719]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.5879e-09,
+          6.5193e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3039e-08,
+         -5.5879e-09,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  5.5879e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.0675e-07,
+          7.8231e-08,  0.0000e+00]], device='cuda:0')
+Epoch 304, bias, value: tensor([ 0.0036,  0.0128,  0.0109,  0.0004,  0.0256, -0.0047, -0.0035, -0.0059,
+         0.0101, -0.0188], device='cuda:0'), grad: tensor([ 2.7940e-09,  4.0978e-08,  5.5879e-09,  5.5879e-09, -4.6380e-07,
+         1.8626e-09,  8.3819e-09, -7.4506e-09,  1.4901e-08,  3.9767e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 303, time 246.36, cls_loss 0.0005 cls_loss_mapping 0.0017 cls_loss_causal 0.4523 re_mapping 0.0035 re_causal 0.0106 /// teacc 99.17 lr 0.00010000
+Epoch 305, weight, value: tensor([[-0.2201, -0.0567,  0.2125,  ...,  0.0444, -0.2137, -0.1625],
+        [-0.1704, -0.2566, -0.0649,  ..., -0.1258, -0.2789, -0.0936],
+        [ 0.2844, -0.0721, -0.2865,  ..., -0.2201, -0.2216, -0.2217],
+        ...,
+        [-0.1133, -0.0317, -0.3495,  ..., -0.1236,  0.1125,  0.0318],
+        [-0.2008, -0.1369, -0.0489,  ..., -0.2164, -0.0446, -0.0537],
+        [-0.0909, -0.0961, -0.1418,  ...,  0.0959,  0.0281, -0.1719]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -3.7253e-09,  ...,  2.4214e-08,
+          6.5193e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.4904e-06,
+          5.8301e-07,  0.0000e+00],
+        [-2.7940e-09,  0.0000e+00,  9.3132e-10,  ...,  7.4506e-09,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-06,
+          6.4727e-07,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00, -1.8626e-09,  ...,  1.3039e-08,
+          2.7940e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ..., -6.0089e-06,
+         -1.4007e-06,  9.3132e-10]], device='cuda:0')
+Epoch 305, bias, value: tensor([ 0.0036,  0.0105,  0.0112,  0.0006,  0.0256, -0.0046, -0.0037, -0.0039,
+         0.0097, -0.0186], device='cuda:0'), grad: tensor([ 1.3225e-07,  1.0341e-05,  1.0338e-07,  7.7300e-08,  2.8554e-06,
+         9.3132e-09,  5.2154e-08,  1.2375e-05, -3.9116e-08, -2.5883e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 304----------------------------------------------------
+epoch 304, time 262.99, cls_loss 0.0007 cls_loss_mapping 0.0019 cls_loss_causal 0.4683 re_mapping 0.0033 re_causal 0.0102 /// teacc 99.24 lr 0.00010000
+Epoch 306, weight, value: tensor([[-0.2217, -0.0567,  0.2125,  ...,  0.0443, -0.2139, -0.1626],
+        [-0.1712, -0.2571, -0.0650,  ..., -0.1261, -0.2808, -0.0938],
+        [ 0.2887, -0.0724, -0.2866,  ..., -0.2204, -0.2230, -0.2217],
+        ...,
+        [-0.1176, -0.0319, -0.3498,  ..., -0.1237,  0.1126,  0.0317],
+        [-0.2020, -0.1372, -0.0493,  ..., -0.2167, -0.0449, -0.0539],
+        [-0.0913, -0.0962, -0.1419,  ...,  0.0959,  0.0281, -0.1719]],
+       device='cuda:0'), grad: tensor([[ 9.8720e-08,  0.0000e+00,  4.0047e-08,  ..., -9.3132e-10,
+          1.7695e-08,  4.6566e-09],
+        [ 2.7940e-08,  0.0000e+00,  9.3132e-10,  ..., -0.0000e+00,
+          9.3132e-10,  9.3132e-10],
+        [-1.5814e-06,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 1.2387e-07,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 2.5146e-08,  0.0000e+00, -8.3819e-09,  ...,  0.0000e+00,
+         -1.0245e-08,  2.7940e-09],
+        [ 1.9558e-08,  0.0000e+00,  8.3819e-09,  ...,  1.2107e-08,
+          7.4506e-09,  9.3132e-10]], device='cuda:0')
+Epoch 306, bias, value: tensor([ 0.0034,  0.0106,  0.0138,  0.0006,  0.0258, -0.0047, -0.0036, -0.0058,
+         0.0095, -0.0187], device='cuda:0'), grad: tensor([ 3.7160e-07,  6.9849e-08, -3.4608e-06,  2.3153e-06,  1.9558e-08,
+         2.5611e-07, -1.9465e-07,  5.4203e-07, -1.0524e-07,  1.6857e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 305, time 246.41, cls_loss 0.0007 cls_loss_mapping 0.0012 cls_loss_causal 0.4697 re_mapping 0.0033 re_causal 0.0101 /// teacc 99.16 lr 0.00010000
+Epoch 307, weight, value: tensor([[-0.2226, -0.0567,  0.2129,  ...,  0.0443, -0.2142, -0.1626],
+        [-0.1723, -0.2581, -0.0650,  ..., -0.1263, -0.2842, -0.0939],
+        [ 0.2891, -0.0739, -0.2875,  ..., -0.2208, -0.2250, -0.2210],
+        ...,
+        [-0.1178, -0.0320, -0.3513,  ..., -0.1238,  0.1130,  0.0317],
+        [-0.2038, -0.1381, -0.0498,  ..., -0.2171, -0.0454, -0.0544],
+        [-0.0918, -0.0960, -0.1421,  ...,  0.0959,  0.0279, -0.1719]],
+       device='cuda:0'), grad: tensor([[ 1.4901e-08,  0.0000e+00, -1.4901e-08,  ..., -4.6566e-09,
+          1.0245e-08,  9.3132e-10],
+        [ 9.2201e-08,  1.8626e-09,  9.3132e-10,  ...,  0.0000e+00,
+          1.0710e-07,  0.0000e+00],
+        [-1.5274e-07,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          1.5832e-08,  0.0000e+00],
+        ...,
+        [ 2.5146e-08,  2.7940e-09,  0.0000e+00,  ...,  3.7253e-09,
+         -2.0117e-07,  0.0000e+00],
+        [ 1.3970e-08,  9.3132e-10,  5.5879e-09,  ...,  1.8626e-09,
+          1.4901e-08,  4.6566e-09],
+        [ 5.5879e-09,  0.0000e+00,  5.5879e-09,  ..., -7.4506e-09,
+          4.1910e-08,  0.0000e+00]], device='cuda:0')
+Epoch 307, bias, value: tensor([ 0.0035,  0.0107,  0.0140,  0.0006,  0.0260, -0.0047, -0.0037, -0.0059,
+         0.0089, -0.0188], device='cuda:0'), grad: tensor([ 7.3574e-08,  1.0878e-06, -2.4028e-07,  2.6077e-08,  8.7544e-08,
+        -1.2480e-07,  1.0058e-07, -1.5385e-06,  1.5087e-07,  3.8557e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 306, time 246.43, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.4284 re_mapping 0.0033 re_causal 0.0099 /// teacc 99.12 lr 0.00010000
+Epoch 308, weight, value: tensor([[-0.2229, -0.0568,  0.2132,  ...,  0.0443, -0.2146, -0.1628],
+        [-0.1729, -0.2584, -0.0651,  ..., -0.1268, -0.2895, -0.0941],
+        [ 0.2892, -0.0741, -0.2879,  ..., -0.2211, -0.2271, -0.2191],
+        ...,
+        [-0.1178, -0.0322, -0.3521,  ..., -0.1248,  0.1128,  0.0317],
+        [-0.2041, -0.1383, -0.0502,  ..., -0.2173, -0.0461, -0.0549],
+        [-0.0926, -0.0961, -0.1425,  ...,  0.0961,  0.0283, -0.1719]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  1.1176e-08,  3.7253e-09,  ...,  3.7998e-07,
+          4.6566e-09,  2.7940e-09],
+        [ 2.3283e-08,  3.2596e-08,  9.3132e-10,  ...,  4.4703e-08,
+          2.7008e-08,  1.8626e-09],
+        [ 7.0781e-08,  9.6764e-07,  0.0000e+00,  ...,  2.7008e-08,
+          2.2352e-08,  9.3132e-10],
+        ...,
+        [ 4.0047e-08,  1.0990e-07,  0.0000e+00,  ...,  5.7742e-08,
+         -4.8429e-08,  9.3132e-10],
+        [ 2.7940e-09,  4.1910e-08,  1.8626e-09,  ...,  2.2817e-07,
+          1.4249e-07,  8.1025e-08],
+        [ 1.8626e-09, -3.4645e-07,  0.0000e+00,  ..., -3.7253e-06,
+         -1.2573e-07,  3.7253e-09]], device='cuda:0')
+Epoch 308, bias, value: tensor([ 0.0037,  0.0106,  0.0140,  0.0003,  0.0261, -0.0045, -0.0036, -0.0060,
+         0.0087, -0.0184], device='cuda:0'), grad: tensor([ 1.3718e-06,  3.8836e-07,  4.4070e-06, -2.1178e-06,  5.1558e-06,
+        -1.1576e-06,  6.5938e-07,  5.2247e-07,  1.3616e-06, -1.0580e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 307, time 246.12, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.4796 re_mapping 0.0033 re_causal 0.0099 /// teacc 98.97 lr 0.00010000
+Epoch 309, weight, value: tensor([[-0.2233, -0.0568,  0.2135,  ...,  0.0440, -0.2149, -0.1629],
+        [-0.1732, -0.2590, -0.0651,  ..., -0.1270, -0.2943, -0.0941],
+        [ 0.2893, -0.0748, -0.2885,  ..., -0.2215, -0.2300, -0.2189],
+        ...,
+        [-0.1179, -0.0323, -0.3528,  ..., -0.1251,  0.1132,  0.0318],
+        [-0.2044, -0.1385, -0.0507,  ..., -0.2182, -0.0466, -0.0553],
+        [-0.0927, -0.0959, -0.1428,  ...,  0.0958,  0.0283, -0.1720]],
+       device='cuda:0'), grad: tensor([[-2.6077e-08,  0.0000e+00,  9.9652e-08,  ...,  7.4785e-07,
+          1.0245e-08,  1.8626e-09],
+        [ 9.3132e-10,  0.0000e+00,  5.5879e-09,  ...,  3.2596e-08,
+          1.0245e-08,  9.3132e-10],
+        [ 1.8626e-09,  0.0000e+00,  1.2107e-08,  ...,  4.6566e-09,
+          9.3132e-10,  9.3132e-10],
+        ...,
+        [ 2.7940e-09,  0.0000e+00,  8.3819e-09,  ...,  5.4948e-08,
+          1.3039e-08,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  5.5879e-09,  ...,  2.3283e-08,
+          4.6566e-09,  9.3132e-10],
+        [ 1.0245e-08,  0.0000e+00, -1.4063e-07,  ..., -2.3916e-06,
+         -2.4401e-07,  0.0000e+00]], device='cuda:0')
+Epoch 309, bias, value: tensor([ 0.0034,  0.0105,  0.0140,  0.0001,  0.0269, -0.0045, -0.0036, -0.0060,
+         0.0079, -0.0188], device='cuda:0'), grad: tensor([ 1.1083e-06,  8.1956e-08,  4.2841e-08,  3.9116e-08,  3.5688e-06,
+         2.1048e-07, -1.5181e-07,  2.3097e-07,  8.1025e-08, -5.2229e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 308, time 246.61, cls_loss 0.0007 cls_loss_mapping 0.0020 cls_loss_causal 0.4903 re_mapping 0.0032 re_causal 0.0102 /// teacc 99.15 lr 0.00010000
+Epoch 310, weight, value: tensor([[-0.2226, -0.0568,  0.2150,  ...,  0.0443, -0.2152, -0.1628],
+        [-0.1739, -0.2590, -0.0662,  ..., -0.1272, -0.2954, -0.0943],
+        [ 0.2893, -0.0748, -0.2900,  ..., -0.2223, -0.2316, -0.2184],
+        ...,
+        [-0.1179, -0.0323, -0.3545,  ..., -0.1252,  0.1136,  0.0318],
+        [-0.2045, -0.1386, -0.0516,  ..., -0.2185, -0.0472, -0.0565],
+        [-0.0933, -0.0960, -0.1439,  ...,  0.0970,  0.0283, -0.1720]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -3.7253e-08,  ..., -1.7695e-08,
+          2.7940e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.0489e-08,  ...,  9.3132e-09,
+          2.2352e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          8.3819e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  2.7940e-09,
+         -5.9605e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  1.8626e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ..., -9.3132e-09,
+          1.3039e-08,  0.0000e+00]], device='cuda:0')
+Epoch 310, bias, value: tensor([ 4.3602e-03,  1.0489e-02,  1.3952e-02, -5.2807e-05,  2.5495e-02,
+        -3.7253e-03, -4.8555e-03, -5.8842e-03,  7.9361e-03, -1.7865e-02],
+       device='cuda:0'), grad: tensor([-2.5146e-08, -4.4983e-07,  8.4750e-08,  8.0094e-08,  4.1910e-08,
+        -2.7940e-08,  3.8184e-08, -3.7253e-09,  3.8184e-08,  2.4680e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 309, time 246.43, cls_loss 0.0005 cls_loss_mapping 0.0018 cls_loss_causal 0.4725 re_mapping 0.0033 re_causal 0.0103 /// teacc 99.18 lr 0.00010000
+Epoch 311, weight, value: tensor([[-0.2226, -0.0568,  0.2153,  ...,  0.0443, -0.2157, -0.1628],
+        [-0.1744, -0.2591, -0.0663,  ..., -0.1273, -0.2971, -0.0943],
+        [ 0.2893, -0.0748, -0.2907,  ..., -0.2233, -0.2331, -0.2186],
+        ...,
+        [-0.1178, -0.0323, -0.3556,  ..., -0.1252,  0.1143,  0.0317],
+        [-0.2050, -0.1387, -0.0527,  ..., -0.2187, -0.0480, -0.0567],
+        [-0.0937, -0.0959, -0.1443,  ...,  0.0970,  0.0279, -0.1720]],
+       device='cuda:0'), grad: tensor([[-9.3132e-10,  0.0000e+00, -4.4703e-08,  ..., -1.5832e-08,
+          9.3132e-10,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          5.5879e-09,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 4.6566e-09,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+         -2.0489e-08,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+         -0.0000e+00, -0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  1.2107e-08,  ..., -5.5879e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 311, bias, value: tensor([ 0.0044,  0.0104,  0.0139, -0.0002,  0.0256, -0.0037, -0.0050, -0.0057,
+         0.0077, -0.0180], device='cuda:0'), grad: tensor([-8.6613e-08, -2.6077e-08,  1.9558e-08, -1.2107e-08,  7.0781e-08,
+         3.9116e-08,  2.4214e-08, -8.6613e-08,  9.3132e-10,  5.0291e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 310, time 246.43, cls_loss 0.0007 cls_loss_mapping 0.0017 cls_loss_causal 0.4976 re_mapping 0.0030 re_causal 0.0098 /// teacc 99.14 lr 0.00010000
+Epoch 312, weight, value: tensor([[-0.2237, -0.0569,  0.2153,  ...,  0.0444, -0.2171, -0.1647],
+        [-0.1747, -0.2596, -0.0664,  ..., -0.1274, -0.2982, -0.0944],
+        [ 0.2894, -0.0748, -0.2931,  ..., -0.2238, -0.2347, -0.2186],
+        ...,
+        [-0.1179, -0.0327, -0.3583,  ..., -0.1253,  0.1144,  0.0317],
+        [-0.2067, -0.1394, -0.0537,  ..., -0.2189, -0.0492, -0.0573],
+        [-0.0960, -0.0973, -0.1453,  ...,  0.0980,  0.0292, -0.1720]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  9.3132e-10],
+        [ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          3.0734e-08,  9.3132e-10],
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        ...,
+        [ 3.7253e-09,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+         -3.6322e-08,  0.0000e+00],
+        [-7.4506e-09,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          9.3132e-10,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ..., -6.5193e-09,
+         -9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 312, bias, value: tensor([ 0.0043,  0.0104,  0.0139, -0.0002,  0.0246, -0.0034, -0.0047, -0.0057,
+         0.0062, -0.0173], device='cuda:0'), grad: tensor([ 1.0245e-08,  2.0210e-07,  1.0058e-07,  2.1420e-08,  9.3132e-09,
+        -2.2631e-07,  2.0303e-07, -2.1979e-07, -9.4064e-08, -2.7940e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 311, time 246.64, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.5101 re_mapping 0.0033 re_causal 0.0109 /// teacc 99.20 lr 0.00010000
+Epoch 313, weight, value: tensor([[-0.2242, -0.0570,  0.2158,  ...,  0.0444, -0.2173, -0.1647],
+        [-0.1754, -0.2601, -0.0671,  ..., -0.1277, -0.2990, -0.0946],
+        [ 0.2894, -0.0749, -0.2937,  ..., -0.2242, -0.2367, -0.2187],
+        ...,
+        [-0.1178, -0.0327, -0.3588,  ..., -0.1254,  0.1147,  0.0319],
+        [-0.2076, -0.1406, -0.0522,  ..., -0.2193, -0.0498, -0.0574],
+        [-0.0970, -0.0982, -0.1455,  ...,  0.0982,  0.0292, -0.1720]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -5.1130e-07,  ..., -1.2107e-07,
+          5.5879e-09,  3.7253e-09],
+        [ 3.7253e-09,  0.0000e+00,  1.7695e-08,  ...,  2.2352e-08,
+          1.4901e-08,  9.3132e-10],
+        [-2.7940e-08,  0.0000e+00,  2.7008e-08,  ...,  9.3132e-09,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 1.3970e-08,  0.0000e+00,  2.4214e-08,  ...,  1.0151e-07,
+          3.3528e-08,  2.7940e-09],
+        [ 1.8626e-09,  0.0000e+00,  2.1420e-08,  ...,  1.2107e-08,
+          7.4506e-09,  1.8626e-09],
+        [ 9.3132e-10,  0.0000e+00,  1.8720e-07,  ...,  4.2841e-08,
+         -3.0734e-08, -6.5193e-09]], device='cuda:0')
+Epoch 313, bias, value: tensor([ 4.3289e-03,  1.0270e-02,  1.3852e-02, -6.8141e-05,  2.4522e-02,
+        -3.5653e-03, -4.8375e-03, -5.5576e-03,  6.8824e-03, -1.7254e-02],
+       device='cuda:0'), grad: tensor([-1.0822e-06,  2.4680e-07,  4.0978e-08,  1.2014e-07, -3.4552e-07,
+         2.8498e-07,  1.5367e-07,  2.0489e-07,  1.2014e-07,  2.6543e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 312, time 246.08, cls_loss 0.0009 cls_loss_mapping 0.0029 cls_loss_causal 0.4798 re_mapping 0.0034 re_causal 0.0102 /// teacc 99.12 lr 0.00010000
+Epoch 314, weight, value: tensor([[-0.2233, -0.0570,  0.2186,  ...,  0.0447, -0.2176, -0.1650],
+        [-0.1758, -0.2605, -0.0672,  ..., -0.1279, -0.2995, -0.0950],
+        [ 0.2892, -0.0749, -0.2973,  ..., -0.2276, -0.2376, -0.2189],
+        ...,
+        [-0.1178, -0.0328, -0.3606,  ..., -0.1277,  0.1141,  0.0319],
+        [-0.2088, -0.1408, -0.0505,  ..., -0.2197, -0.0490, -0.0578],
+        [-0.0986, -0.0988, -0.1462,  ...,  0.0979,  0.0288, -0.1721]],
+       device='cuda:0'), grad: tensor([[ 2.2352e-08,  1.8626e-09, -2.3656e-07,  ..., -2.1420e-08,
+          3.3528e-08,  1.8626e-08],
+        [ 1.9558e-08,  1.8626e-09,  2.6077e-08,  ...,  7.4506e-09,
+          3.7253e-09,  3.7253e-09],
+        [ 5.4948e-08,  3.7253e-09,  2.4214e-08,  ...,  2.9802e-08,
+          1.0245e-08,  3.7253e-09],
+        ...,
+        [ 5.8673e-08,  4.6566e-09,  2.6077e-08,  ...,  1.3970e-08,
+          3.7253e-09,  0.0000e+00],
+        [ 1.6764e-08,  9.3132e-10, -2.7940e-09,  ...,  7.4506e-09,
+         -5.5879e-09,  6.5193e-09],
+        [-2.1420e-08,  3.7253e-09,  1.5087e-07,  ...,  3.3528e-08,
+         -3.0734e-08,  1.8626e-09]], device='cuda:0')
+Epoch 314, bias, value: tensor([ 0.0066,  0.0085,  0.0135,  0.0002,  0.0258, -0.0038, -0.0065, -0.0041,
+         0.0056, -0.0178], device='cuda:0'), grad: tensor([-3.9954e-07,  1.7881e-07,  3.4925e-07, -1.0934e-06, -3.1106e-07,
+         1.7500e-06, -1.2508e-06,  3.3341e-07, -5.1502e-07,  9.3319e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 313, time 246.25, cls_loss 0.0007 cls_loss_mapping 0.0019 cls_loss_causal 0.4960 re_mapping 0.0032 re_causal 0.0102 /// teacc 99.18 lr 0.00010000
+Epoch 315, weight, value: tensor([[-0.2234, -0.0571,  0.2187,  ...,  0.0447, -0.2184, -0.1652],
+        [-0.1760, -0.2606, -0.0673,  ..., -0.1280, -0.3014, -0.0962],
+        [ 0.2893, -0.0750, -0.2976,  ..., -0.2278, -0.2412, -0.2193],
+        ...,
+        [-0.1178, -0.0329, -0.3625,  ..., -0.1278,  0.1155,  0.0324],
+        [-0.2094, -0.1409, -0.0497,  ..., -0.2200, -0.0494, -0.0581],
+        [-0.0989, -0.0988, -0.1466,  ...,  0.0975,  0.0276, -0.1722]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -2.0489e-08,  ..., -7.4506e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 2.3283e-08,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          5.5879e-09,  0.0000e+00],
+        [-5.2154e-08,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          2.7940e-09,  0.0000e+00],
+        ...,
+        [ 8.3819e-09,  0.0000e+00,  9.3132e-10,  ...,  2.7940e-09,
+         -1.1176e-08,  0.0000e+00],
+        [ 1.6764e-08,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 1.0245e-08,  0.0000e+00,  8.3819e-09,  ...,  3.6322e-08,
+         -9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 315, bias, value: tensor([ 0.0065,  0.0103,  0.0134,  0.0002,  0.0264, -0.0038, -0.0064, -0.0051,
+         0.0060, -0.0196], device='cuda:0'), grad: tensor([-3.7253e-09,  1.1735e-07, -1.6484e-07,  2.4401e-06, -6.6124e-08,
+        -3.1441e-06,  1.4715e-07, -1.8626e-09,  1.0338e-07,  5.6438e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 314, time 246.15, cls_loss 0.0006 cls_loss_mapping 0.0013 cls_loss_causal 0.4761 re_mapping 0.0035 re_causal 0.0105 /// teacc 99.10 lr 0.00010000
+Epoch 316, weight, value: tensor([[-0.2236, -0.0571,  0.2191,  ...,  0.0448, -0.2192, -0.1653],
+        [-0.1765, -0.2607, -0.0673,  ..., -0.1282, -0.3036, -0.0973],
+        [ 0.2893, -0.0750, -0.2978,  ..., -0.2279, -0.2430, -0.2193],
+        ...,
+        [-0.1179, -0.0329, -0.3637,  ..., -0.1280,  0.1164,  0.0328],
+        [-0.2099, -0.1409, -0.0501,  ..., -0.2202, -0.0497, -0.0585],
+        [-0.0994, -0.0989, -0.1469,  ...,  0.0975,  0.0269, -0.1722]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-08,  0.0000e+00, -1.1176e-08,  ...,  2.2072e-07,
+          1.3039e-07,  0.0000e+00],
+        [ 2.1420e-08,  0.0000e+00,  4.6566e-09,  ...,  6.1467e-08,
+          2.9802e-08,  0.0000e+00],
+        [-1.8626e-08,  0.0000e+00,  9.3132e-10,  ...,  3.2596e-08,
+          1.8626e-08,  0.0000e+00],
+        ...,
+        [ 4.0978e-08,  0.0000e+00,  9.3132e-10,  ...,  1.9744e-07,
+          8.5682e-08,  0.0000e+00],
+        [ 1.7695e-08,  0.0000e+00, -8.3819e-09,  ...,  4.1910e-08,
+         -4.1910e-08,  0.0000e+00],
+        [-2.5239e-07,  0.0000e+00,  8.3819e-09,  ..., -1.4165e-06,
+         -8.2888e-07,  0.0000e+00]], device='cuda:0')
+Epoch 316, bias, value: tensor([ 0.0066,  0.0103,  0.0134,  0.0009,  0.0265, -0.0042, -0.0066, -0.0050,
+         0.0060, -0.0199], device='cuda:0'), grad: tensor([ 1.0729e-06,  2.9057e-07,  1.2666e-07,  6.1747e-07,  1.4426e-06,
+         1.6140e-06,  5.8860e-07,  9.2480e-07, -2.1607e-07, -6.4895e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 315, time 245.92, cls_loss 0.0006 cls_loss_mapping 0.0015 cls_loss_causal 0.5122 re_mapping 0.0031 re_causal 0.0102 /// teacc 99.15 lr 0.00010000
+Epoch 317, weight, value: tensor([[-0.2238, -0.0571,  0.2204,  ...,  0.0449, -0.2216, -0.1672],
+        [-0.1769, -0.2607, -0.0678,  ..., -0.1286, -0.3052, -0.0975],
+        [ 0.2894, -0.0750, -0.2979,  ..., -0.2279, -0.2438, -0.2194],
+        ...,
+        [-0.1179, -0.0329, -0.3655,  ..., -0.1282,  0.1168,  0.0328],
+        [-0.2103, -0.1409, -0.0514,  ..., -0.2205, -0.0499, -0.0588],
+        [-0.0996, -0.0989, -0.1472,  ...,  0.0976,  0.0267, -0.1722]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00, -9.3132e-10,  ...,  3.7253e-09,
+          0.0000e+00,  0.0000e+00],
+        [-2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  1.8626e-09,  ...,  2.2352e-08,
+         -1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 317, bias, value: tensor([ 0.0072,  0.0107,  0.0134,  0.0008,  0.0265, -0.0042, -0.0070, -0.0054,
+         0.0067, -0.0199], device='cuda:0'), grad: tensor([ 1.9558e-08, -2.5891e-07,  2.6077e-08,  3.9116e-08, -8.6613e-08,
+        -9.7789e-08,  6.0536e-08,  1.6671e-07,  3.1665e-08,  1.0151e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 316, time 246.46, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4892 re_mapping 0.0034 re_causal 0.0106 /// teacc 99.11 lr 0.00010000
+Epoch 318, weight, value: tensor([[-0.2238, -0.0571,  0.2204,  ...,  0.0450, -0.2223, -0.1676],
+        [-0.1773, -0.2608, -0.0670,  ..., -0.1287, -0.3062, -0.0976],
+        [ 0.2895, -0.0750, -0.2982,  ..., -0.2281, -0.2456, -0.2194],
+        ...,
+        [-0.1180, -0.0329, -0.3667,  ..., -0.1283,  0.1170,  0.0328],
+        [-0.2105, -0.1409, -0.0526,  ..., -0.2211, -0.0501, -0.0589],
+        [-0.1003, -0.0989, -0.1474,  ...,  0.0977,  0.0267, -0.1722]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -9.3132e-10,  ...,  7.5437e-08,
+          1.7695e-08,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  2.4214e-08,
+          4.6566e-08,  0.0000e+00],
+        [-1.8626e-09,  0.0000e+00,  1.8626e-09,  ...,  3.7253e-09,
+          1.2107e-08,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  1.0245e-08,
+         -1.8068e-07,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00, -2.7940e-09,  ...,  4.6566e-09,
+         -3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ..., -1.5395e-06,
+          9.4064e-08,  0.0000e+00]], device='cuda:0')
+Epoch 318, bias, value: tensor([ 0.0072,  0.0108,  0.0135,  0.0006,  0.0265, -0.0041, -0.0070, -0.0054,
+         0.0059, -0.0199], device='cuda:0'), grad: tensor([ 3.1479e-07,  2.2352e-08,  7.8231e-08,  2.5015e-06,  1.7099e-06,
+         1.0896e-07, -1.3039e-08, -5.4762e-07, -1.3039e-08, -4.1649e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 317, time 246.08, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.4694 re_mapping 0.0031 re_causal 0.0100 /// teacc 99.10 lr 0.00010000
+Epoch 319, weight, value: tensor([[-0.2240, -0.0571,  0.2205,  ...,  0.0450, -0.2227, -0.1676],
+        [-0.1777, -0.2612, -0.0673,  ..., -0.1288, -0.3071, -0.0977],
+        [ 0.2897, -0.0750, -0.2982,  ..., -0.2282, -0.2466, -0.2194],
+        ...,
+        [-0.1180, -0.0330, -0.3678,  ..., -0.1286,  0.1170,  0.0329],
+        [-0.2110, -0.1410, -0.0514,  ..., -0.2214, -0.0516, -0.0589],
+        [-0.1005, -0.0989, -0.1484,  ...,  0.0977,  0.0267, -0.1722]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  9.3132e-10,
+          5.5879e-09,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00, -2.0489e-08,  ...,  9.3132e-09,
+          5.7742e-08,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  0.0000e+00,  1.8626e-08,  ..., -1.7695e-08,
+         -1.4435e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -5.1223e-08,  ...,  1.8626e-09,
+         -3.5390e-08,  0.0000e+00],
+        [ 2.7940e-09,  9.3132e-10,  2.3283e-08,  ..., -5.5879e-09,
+          6.3330e-08,  0.0000e+00]], device='cuda:0')
+Epoch 319, bias, value: tensor([ 0.0071,  0.0108,  0.0135, -0.0033,  0.0265, -0.0003, -0.0071, -0.0054,
+         0.0066, -0.0200], device='cuda:0'), grad: tensor([ 7.9162e-08, -3.9767e-07,  1.1642e-07,  1.1083e-07,  5.5879e-08,
+         2.2538e-07,  1.0896e-07, -3.8370e-07, -8.5309e-07,  9.2480e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 318, time 246.61, cls_loss 0.0006 cls_loss_mapping 0.0018 cls_loss_causal 0.4738 re_mapping 0.0031 re_causal 0.0101 /// teacc 99.12 lr 0.00010000
+Epoch 320, weight, value: tensor([[-0.2241, -0.0571,  0.2210,  ...,  0.0453, -0.2237, -0.1678],
+        [-0.1778, -0.2613, -0.0694,  ..., -0.1299, -0.3097, -0.0981],
+        [ 0.2898, -0.0750, -0.2985,  ..., -0.2284, -0.2498, -0.2195],
+        ...,
+        [-0.1180, -0.0330, -0.3693,  ..., -0.1286,  0.1174,  0.0333],
+        [-0.2123, -0.1410, -0.0511,  ..., -0.2215, -0.0522, -0.0590],
+        [-0.1006, -0.0989, -0.1489,  ...,  0.0977,  0.0265, -0.1723]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09,  0.0000e+00, -2.7940e-09,  ..., -1.8626e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 5.2154e-08,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          4.6566e-09,  0.0000e+00],
+        [-4.5262e-07,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.6857e-07,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -7.4506e-09,  0.0000e+00],
+        [ 1.2107e-08,  0.0000e+00,  5.5879e-09,  ...,  0.0000e+00,
+         -6.5193e-09,  2.7940e-09],
+        [ 1.2666e-07,  0.0000e+00,  1.8626e-09,  ...,  2.3283e-08,
+          5.5879e-09,  0.0000e+00]], device='cuda:0')
+Epoch 320, bias, value: tensor([ 0.0074,  0.0107,  0.0135, -0.0033,  0.0265, -0.0005, -0.0062, -0.0054,
+         0.0072, -0.0203], device='cuda:0'), grad: tensor([ 1.0245e-08,  9.6858e-08, -9.3225e-07,  1.8533e-07, -2.9802e-08,
+         9.0338e-08,  8.6613e-08,  4.0140e-07, -1.7043e-07,  2.6822e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 319, time 246.46, cls_loss 0.0004 cls_loss_mapping 0.0009 cls_loss_causal 0.4717 re_mapping 0.0033 re_causal 0.0109 /// teacc 99.11 lr 0.00010000
+Epoch 321, weight, value: tensor([[-0.2241, -0.0571,  0.2210,  ...,  0.0453, -0.2244, -0.1678],
+        [-0.1781, -0.2613, -0.0693,  ..., -0.1299, -0.3106, -0.0981],
+        [ 0.2898, -0.0751, -0.2985,  ..., -0.2285, -0.2507, -0.2195],
+        ...,
+        [-0.1181, -0.0330, -0.3707,  ..., -0.1288,  0.1177,  0.0335],
+        [-0.2125, -0.1410, -0.0513,  ..., -0.2216, -0.0520, -0.0591],
+        [-0.1009, -0.0989, -0.1490,  ...,  0.0977,  0.0264, -0.1723]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  0.0000e+00, -3.5390e-08,  ..., -8.3819e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 7.8231e-08,  0.0000e+00,  0.0000e+00,  ...,  1.9558e-08,
+          1.5832e-08,  0.0000e+00],
+        [-1.6484e-07,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 5.3085e-08,  0.0000e+00,  1.8626e-09,  ...,  1.5274e-07,
+          1.1921e-07,  0.0000e+00],
+        [ 2.0489e-08,  0.0000e+00,  7.4506e-09,  ...,  3.7253e-09,
+         -0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  1.5832e-08,  ..., -1.8533e-07,
+         -1.4808e-07,  0.0000e+00]], device='cuda:0')
+Epoch 321, bias, value: tensor([ 0.0072,  0.0109,  0.0135, -0.0034,  0.0266, -0.0005, -0.0061, -0.0054,
+         0.0072, -0.0203], device='cuda:0'), grad: tensor([-6.6124e-08,  1.9185e-07, -3.1758e-07, -5.6811e-08,  9.5926e-08,
+         3.7253e-08,  4.4703e-08,  9.3784e-07,  6.5193e-08, -9.1270e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 320, time 246.30, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4567 re_mapping 0.0033 re_causal 0.0103 /// teacc 99.03 lr 0.00010000
+Epoch 322, weight, value: tensor([[-0.2243, -0.0571,  0.2212,  ...,  0.0452, -0.2250, -0.1679],
+        [-0.1788, -0.2614, -0.0693,  ..., -0.1302, -0.3120, -0.0982],
+        [ 0.2900, -0.0752, -0.2987,  ..., -0.2286, -0.2520, -0.2195],
+        ...,
+        [-0.1181, -0.0331, -0.3716,  ..., -0.1291,  0.1177,  0.0335],
+        [-0.2131, -0.1411, -0.0516,  ..., -0.2220, -0.0522, -0.0592],
+        [-0.1012, -0.0989, -0.1492,  ...,  0.0974,  0.0261, -0.1723]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-09,
+          1.9558e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.0978e-08,
+         -4.6566e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.2331e-06,
+         -4.6659e-07,  0.0000e+00]], device='cuda:0')
+Epoch 322, bias, value: tensor([ 0.0070,  0.0113,  0.0135, -0.0034,  0.0269, -0.0005, -0.0060, -0.0059,
+         0.0071, -0.0205], device='cuda:0'), grad: tensor([ 1.5832e-08,  7.9162e-08,  2.5146e-08,  4.5635e-08,  2.7418e-06,
+        -1.7602e-07,  6.8918e-08, -9.3132e-09,  2.7008e-08, -2.8238e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 321, time 246.05, cls_loss 0.0004 cls_loss_mapping 0.0012 cls_loss_causal 0.4564 re_mapping 0.0033 re_causal 0.0104 /// teacc 99.10 lr 0.00010000
+Epoch 323, weight, value: tensor([[-0.2243, -0.0572,  0.2211,  ...,  0.0440, -0.2260, -0.1679],
+        [-0.1790, -0.2615, -0.0693,  ..., -0.1302, -0.3127, -0.0983],
+        [ 0.2900, -0.0752, -0.2988,  ..., -0.2288, -0.2528, -0.2195],
+        ...,
+        [-0.1182, -0.0331, -0.3725,  ..., -0.1292,  0.1178,  0.0336],
+        [-0.2132, -0.1412, -0.0525,  ..., -0.2231, -0.0523, -0.0593],
+        [-0.1015, -0.0991, -0.1487,  ...,  0.0977,  0.0257, -0.1723]],
+       device='cuda:0'), grad: tensor([[ 1.6764e-08,  0.0000e+00,  1.2061e-06,  ...,  3.3528e-08,
+          2.9057e-07,  0.0000e+00],
+        [ 8.8476e-08,  0.0000e+00,  2.7008e-08,  ...,  1.8626e-09,
+          1.5832e-08,  0.0000e+00],
+        [-3.2317e-06,  0.0000e+00,  1.0245e-08,  ...,  9.3132e-10,
+          6.5193e-09,  0.0000e+00],
+        ...,
+        [ 3.0920e-06,  0.0000e+00,  1.8626e-09,  ...,  3.7253e-09,
+         -2.6077e-08,  0.0000e+00],
+        [ 1.8626e-08,  0.0000e+00,  9.4995e-08,  ...,  8.3819e-09,
+          2.1420e-08,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  3.7253e-08,  ...,  1.3970e-08,
+          2.0489e-08,  0.0000e+00]], device='cuda:0')
+Epoch 323, bias, value: tensor([ 0.0059,  0.0114,  0.0135, -0.0034,  0.0271, -0.0005, -0.0059, -0.0059,
+         0.0069, -0.0203], device='cuda:0'), grad: tensor([ 2.2296e-06,  3.2783e-07, -9.9391e-06,  4.0047e-08, -6.2399e-08,
+         3.9600e-06, -6.4559e-06,  9.4771e-06,  2.4214e-07,  1.4622e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 322, time 245.84, cls_loss 0.0007 cls_loss_mapping 0.0023 cls_loss_causal 0.5112 re_mapping 0.0030 re_causal 0.0098 /// teacc 99.20 lr 0.00010000
+Epoch 324, weight, value: tensor([[-0.2243, -0.0572,  0.2177,  ...,  0.0442, -0.2281, -0.1712],
+        [-0.1793, -0.2617, -0.0696,  ..., -0.1304, -0.3152, -0.0984],
+        [ 0.2901, -0.0752, -0.2991,  ..., -0.2291, -0.2576, -0.2197],
+        ...,
+        [-0.1182, -0.0332, -0.3759,  ..., -0.1292,  0.1184,  0.0341],
+        [-0.2135, -0.1416, -0.0530,  ..., -0.2237, -0.0531, -0.0596],
+        [-0.1020, -0.0989, -0.1492,  ...,  0.0976,  0.0254, -0.1724]],
+       device='cuda:0'), grad: tensor([[-1.9092e-08,  4.6566e-10, -2.4913e-07,  ..., -1.4808e-07,
+          6.0536e-09,  4.6566e-10],
+        [ 1.0245e-08,  9.3132e-10,  1.4901e-08,  ...,  8.8476e-09,
+          3.8184e-08,  0.0000e+00],
+        [-6.1002e-08,  1.3970e-09,  1.7695e-08,  ...,  1.0245e-08,
+          5.4017e-08,  0.0000e+00],
+        ...,
+        [ 1.1642e-08,  2.3283e-09,  1.8626e-08,  ...,  5.1223e-09,
+         -2.3935e-07,  0.0000e+00],
+        [ 6.5193e-09,  9.3132e-10,  1.7229e-08,  ...,  3.3528e-08,
+          4.9360e-08,  0.0000e+00],
+        [ 3.2131e-08,  1.3970e-09,  2.8405e-08,  ..., -3.2596e-09,
+          1.6298e-08,  0.0000e+00]], device='cuda:0')
+Epoch 324, bias, value: tensor([ 0.0025,  0.0109,  0.0135, -0.0035,  0.0273, -0.0003, -0.0026, -0.0055,
+         0.0066, -0.0205], device='cuda:0'), grad: tensor([-7.3714e-07,  1.9884e-07,  1.5367e-07,  3.0687e-07,  3.4925e-08,
+         2.8964e-07,  8.3819e-08, -7.9069e-07,  3.0082e-07,  1.7416e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 323, time 246.09, cls_loss 0.0004 cls_loss_mapping 0.0013 cls_loss_causal 0.4898 re_mapping 0.0030 re_causal 0.0105 /// teacc 99.15 lr 0.00010000
+Epoch 325, weight, value: tensor([[-0.2244, -0.0572,  0.2178,  ...,  0.0443, -0.2283, -0.1712],
+        [-0.1796, -0.2620, -0.0699,  ..., -0.1306, -0.3171, -0.0985],
+        [ 0.2902, -0.0754, -0.2991,  ..., -0.2292, -0.2583, -0.2197],
+        ...,
+        [-0.1183, -0.0334, -0.3787,  ..., -0.1293,  0.1186,  0.0341],
+        [-0.2138, -0.1418, -0.0530,  ..., -0.2241, -0.0532, -0.0596],
+        [-0.1022, -0.0990, -0.1497,  ...,  0.0975,  0.0253, -0.1724]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-09,  0.0000e+00,  1.3970e-09,  ..., -9.3132e-10,
+          2.7940e-09,  1.8626e-09],
+        [ 6.5193e-09,  0.0000e+00,  1.3970e-09,  ...,  2.3283e-09,
+          1.3970e-09,  4.6566e-10],
+        [-2.1420e-08,  0.0000e+00, -0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 5.5879e-09,  4.6566e-10,  0.0000e+00,  ...,  6.9849e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 1.3970e-09,  0.0000e+00,  1.1176e-08,  ...,  4.6566e-09,
+          3.7253e-09,  1.8626e-09],
+        [ 4.6566e-10,  0.0000e+00,  8.3819e-09,  ..., -6.5891e-07,
+         -2.2119e-07,  0.0000e+00]], device='cuda:0')
+Epoch 325, bias, value: tensor([ 0.0026,  0.0109,  0.0135, -0.0035,  0.0274, -0.0003, -0.0026, -0.0055,
+         0.0067, -0.0206], device='cuda:0'), grad: tensor([ 1.5367e-08, -1.0710e-08, -3.4459e-08, -1.1642e-08,  1.4054e-06,
+         5.0757e-08, -6.4261e-08,  4.5635e-08,  3.1199e-08, -1.4119e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 324, time 246.32, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4760 re_mapping 0.0030 re_causal 0.0103 /// teacc 99.11 lr 0.00010000
+Epoch 326, weight, value: tensor([[-0.2246, -0.0573,  0.2178,  ...,  0.0444, -0.2290, -0.1712],
+        [-0.1799, -0.2627, -0.0699,  ..., -0.1307, -0.3179, -0.0986],
+        [ 0.2902, -0.0758, -0.2999,  ..., -0.2293, -0.2588, -0.2202],
+        ...,
+        [-0.1183, -0.0338, -0.3802,  ..., -0.1293,  0.1187,  0.0341],
+        [-0.2141, -0.1427, -0.0532,  ..., -0.2243, -0.0534, -0.0600],
+        [-0.1027, -0.0994, -0.1501,  ...,  0.0973,  0.0251, -0.1724]],
+       device='cuda:0'), grad: tensor([[ 4.5635e-08,  3.5390e-08,  1.8626e-09,  ...,  2.1094e-07,
+          9.3132e-10,  4.6566e-10],
+        [ 2.7940e-08,  2.1420e-08,  9.3132e-10,  ...,  2.7008e-08,
+          1.8626e-09,  0.0000e+00],
+        [ 2.4680e-08,  2.5611e-08,  0.0000e+00,  ...,  3.2596e-09,
+          1.3970e-09,  0.0000e+00],
+        ...,
+        [ 4.3772e-08,  2.7474e-08,  0.0000e+00,  ...,  4.2375e-07,
+          5.1223e-09,  0.0000e+00],
+        [ 9.6858e-08,  7.5437e-08, -1.3970e-09,  ...,  4.6566e-09,
+          1.3970e-09,  4.6566e-10],
+        [ 6.2659e-06,  4.8950e-06,  1.3970e-09,  ..., -8.6520e-07,
+          1.2992e-07,  0.0000e+00]], device='cuda:0')
+Epoch 326, bias, value: tensor([ 0.0026,  0.0109,  0.0134, -0.0034,  0.0280, -0.0004, -0.0028, -0.0055,
+         0.0069, -0.0209], device='cuda:0'), grad: tensor([ 1.5572e-06,  3.2783e-07,  2.1141e-07, -5.7369e-05,  2.1644e-06,
+         1.9610e-05,  1.4296e-07,  2.8163e-06,  3.8743e-07,  3.0175e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 325, time 246.38, cls_loss 0.0005 cls_loss_mapping 0.0015 cls_loss_causal 0.4840 re_mapping 0.0030 re_causal 0.0098 /// teacc 99.13 lr 0.00010000
+Epoch 327, weight, value: tensor([[-0.2247, -0.0575,  0.2178,  ...,  0.0444, -0.2293, -0.1712],
+        [-0.1829, -0.2640, -0.0700,  ..., -0.1308, -0.3188, -0.0987],
+        [ 0.2909, -0.0760, -0.2997,  ..., -0.2294, -0.2597, -0.2202],
+        ...,
+        [-0.1184, -0.0341, -0.3811,  ..., -0.1294,  0.1189,  0.0341],
+        [-0.2176, -0.1439, -0.0535,  ..., -0.2245, -0.0537, -0.0601],
+        [-0.1053, -0.1017, -0.1503,  ...,  0.0972,  0.0249, -0.1724]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-08,  0.0000e+00, -8.7079e-08,  ..., -3.6787e-08,
+          7.4506e-09,  0.0000e+00],
+        [ 1.8161e-08,  0.0000e+00,  6.0536e-09,  ...,  1.0245e-08,
+          1.4435e-08,  0.0000e+00],
+        [-1.0338e-07, -4.6566e-10,  1.5367e-08,  ...,  2.3283e-09,
+          1.4901e-08,  0.0000e+00],
+        ...,
+        [ 4.6566e-09,  0.0000e+00,  1.3970e-09,  ...,  2.3283e-08,
+         -3.5856e-08,  0.0000e+00],
+        [ 1.6298e-08,  0.0000e+00,  7.9162e-09,  ...,  4.4238e-08,
+          1.8626e-09,  0.0000e+00],
+        [ 1.3970e-09,  0.0000e+00,  7.8231e-08,  ..., -1.6578e-07,
+          8.3819e-09,  0.0000e+00]], device='cuda:0')
+Epoch 327, bias, value: tensor([ 0.0026,  0.0107,  0.0140, -0.0031,  0.0281, -0.0005, -0.0028, -0.0056,
+         0.0069, -0.0212], device='cuda:0'), grad: tensor([-8.1025e-08,  1.5739e-07, -1.3178e-07,  1.3132e-07,  5.3644e-07,
+         4.2375e-08, -8.0094e-08, -3.6787e-08,  1.0524e-07, -6.5146e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 326, time 246.25, cls_loss 0.0006 cls_loss_mapping 0.0010 cls_loss_causal 0.4721 re_mapping 0.0030 re_causal 0.0096 /// teacc 99.14 lr 0.00010000
+Epoch 328, weight, value: tensor([[-0.2250, -0.0576,  0.2180,  ...,  0.0446, -0.2299, -0.1713],
+        [-0.1835, -0.2644, -0.0701,  ..., -0.1311, -0.3204, -0.0988],
+        [ 0.2913, -0.0760, -0.3001,  ..., -0.2298, -0.2607, -0.2203],
+        ...,
+        [-0.1184, -0.0342, -0.3849,  ..., -0.1296,  0.1191,  0.0341],
+        [-0.2203, -0.1442, -0.0539,  ..., -0.2253, -0.0542, -0.0602],
+        [-0.1056, -0.1017, -0.1509,  ...,  0.0971,  0.0247, -0.1724]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  5.5879e-09,  ...,  6.5193e-09,
+          5.1223e-09,  9.3132e-10],
+        [ 9.3132e-10,  4.6566e-10, -3.9581e-08,  ..., -1.3504e-08,
+          9.0338e-08,  4.6566e-10],
+        [ 4.6566e-10,  0.0000e+00,  9.3132e-10,  ...,  4.6566e-10,
+          3.2596e-09,  0.0000e+00],
+        ...,
+        [ 2.3283e-09,  9.3132e-10,  2.2352e-08,  ...,  1.3039e-08,
+         -3.4040e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  1.8626e-08,
+          5.1223e-09,  4.6566e-10],
+        [ 9.3132e-10,  9.3132e-10,  6.5193e-09,  ..., -4.1910e-08,
+          1.7695e-08,  0.0000e+00]], device='cuda:0')
+Epoch 328, bias, value: tensor([ 0.0028,  0.0108,  0.0142, -0.0032,  0.0283, -0.0004, -0.0029, -0.0057,
+         0.0066, -0.0213], device='cuda:0'), grad: tensor([ 8.3819e-08, -3.8696e-07,  3.0268e-08,  7.3714e-07,  6.7055e-08,
+         7.6834e-08,  1.8626e-09, -6.9756e-07,  6.1002e-08,  4.9360e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 327, time 246.47, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4553 re_mapping 0.0029 re_causal 0.0095 /// teacc 99.10 lr 0.00010000
+Epoch 329, weight, value: tensor([[-0.2251, -0.0578,  0.2180,  ...,  0.0447, -0.2305, -0.1713],
+        [-0.1836, -0.2651, -0.0703,  ..., -0.1313, -0.3218, -0.1001],
+        [ 0.2913, -0.0761, -0.3003,  ..., -0.2299, -0.2614, -0.2204],
+        ...,
+        [-0.1184, -0.0345, -0.3860,  ..., -0.1302,  0.1190,  0.0340],
+        [-0.2205, -0.1448, -0.0521,  ..., -0.2256, -0.0539, -0.0606],
+        [-0.1064, -0.1044, -0.1525,  ...,  0.0970,  0.0248, -0.1724]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -4.6566e-10,  ...,  4.6566e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          4.6566e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.1223e-09,
+         -3.2596e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ..., -8.3819e-09,
+          2.7940e-09,  0.0000e+00]], device='cuda:0')
+Epoch 329, bias, value: tensor([ 0.0028,  0.0108,  0.0142, -0.0030,  0.0285, -0.0002, -0.0030, -0.0058,
+         0.0075, -0.0220], device='cuda:0'), grad: tensor([ 2.3283e-09, -9.3132e-10,  3.2596e-09, -1.2573e-08,  8.8476e-09,
+         9.3132e-09,  4.1910e-09,  6.9849e-09,  2.3283e-09, -6.5193e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 328, time 246.20, cls_loss 0.0006 cls_loss_mapping 0.0025 cls_loss_causal 0.4736 re_mapping 0.0030 re_causal 0.0097 /// teacc 99.06 lr 0.00010000
+Epoch 330, weight, value: tensor([[-0.2252, -0.0579,  0.2181,  ...,  0.0448, -0.2312, -0.1713],
+        [-0.1838, -0.2656, -0.0733,  ..., -0.1315, -0.3231, -0.1003],
+        [ 0.2913, -0.0764, -0.3009,  ..., -0.2301, -0.2629, -0.2205],
+        ...,
+        [-0.1184, -0.0348, -0.3876,  ..., -0.1304,  0.1212,  0.0340],
+        [-0.2207, -0.1454, -0.0527,  ..., -0.2259, -0.0546, -0.0609],
+        [-0.1065, -0.1044, -0.1530,  ...,  0.0969,  0.0229, -0.1724]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.8626e-08,  ..., -8.3819e-09,
+          3.7253e-09,  9.3132e-10],
+        [ 9.3132e-10,  0.0000e+00, -2.8871e-08,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [-2.7940e-09, -9.3132e-10,  4.6566e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  9.3132e-10,  1.7695e-08,  ...,  1.8626e-09,
+         -9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  2.7940e-09,
+         -1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.4901e-08,  ..., -5.5879e-09,
+         -0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 330, bias, value: tensor([ 0.0028,  0.0103,  0.0140, -0.0029,  0.0286, -0.0002, -0.0021, -0.0053,
+         0.0076, -0.0233], device='cuda:0'), grad: tensor([ 0.0000e+00, -2.4214e-07,  3.4459e-08,  2.0489e-08,  2.8871e-08,
+         6.4261e-08, -1.0245e-08,  1.4529e-07, -5.8673e-08,  2.1420e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 329, time 246.53, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4883 re_mapping 0.0031 re_causal 0.0101 /// teacc 99.15 lr 0.00010000
+Epoch 331, weight, value: tensor([[-0.2254, -0.0580,  0.2184,  ...,  0.0451, -0.2315, -0.1713],
+        [-0.1840, -0.2661, -0.0735,  ..., -0.1322, -0.3239, -0.1003],
+        [ 0.2914, -0.0764, -0.3012,  ..., -0.2304, -0.2634, -0.2205],
+        ...,
+        [-0.1183, -0.0350, -0.3888,  ..., -0.1308,  0.1222,  0.0340],
+        [-0.2210, -0.1454, -0.0531,  ..., -0.2261, -0.0548, -0.0611],
+        [-0.1068, -0.1044, -0.1534,  ...,  0.0971,  0.0221, -0.1724]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.2841e-08,  ..., -1.3039e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00, -0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [-1.8626e-09,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+         -9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.2596e-08,  ...,  5.5879e-09,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 331, bias, value: tensor([ 0.0030,  0.0089,  0.0139, -0.0029,  0.0284, -0.0002, -0.0023, -0.0039,
+         0.0073, -0.0233], device='cuda:0'), grad: tensor([-5.7742e-08, -2.8592e-07,  7.4506e-09, -3.4273e-07,  9.3132e-09,
+         7.8231e-08,  3.3528e-08,  2.5891e-07,  1.7881e-07,  1.2387e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 330, time 246.57, cls_loss 0.0005 cls_loss_mapping 0.0009 cls_loss_causal 0.4691 re_mapping 0.0031 re_causal 0.0098 /// teacc 99.13 lr 0.00010000
+Epoch 332, weight, value: tensor([[-0.2255, -0.0580,  0.2184,  ...,  0.0451, -0.2319, -0.1714],
+        [-0.1841, -0.2670, -0.0735,  ..., -0.1322, -0.3253, -0.1003],
+        [ 0.2915, -0.0765, -0.3014,  ..., -0.2305, -0.2654, -0.2206],
+        ...,
+        [-0.1184, -0.0353, -0.3894,  ..., -0.1313,  0.1223,  0.0340],
+        [-0.2213, -0.1458, -0.0534,  ..., -0.2279, -0.0557, -0.0613],
+        [-0.1069, -0.1046, -0.1538,  ...,  0.0973,  0.0222, -0.1724]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.6729e-07,  ..., -3.8184e-08,
+          9.3132e-10,  9.3132e-10],
+        [ 1.8626e-09,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          1.8906e-07,  0.0000e+00],
+        [-6.5193e-09, -0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 2.7940e-09,  0.0000e+00,  9.3132e-10,  ...,  1.8626e-09,
+         -1.9278e-07,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-10,
+         -1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-09,  ...,  1.8626e-09,
+          5.5879e-09,  0.0000e+00]], device='cuda:0')
+Epoch 332, bias, value: tensor([ 3.0687e-03,  9.0623e-03,  1.3859e-02, -3.0083e-03,  2.8432e-02,
+        -3.8579e-05, -2.2786e-03, -4.1072e-03,  7.0482e-03, -2.3238e-02],
+       device='cuda:0'), grad: tensor([-3.4925e-07,  1.2955e-06, -9.3132e-10,  5.3085e-08, -5.5879e-09,
+        -2.0862e-07,  4.3586e-07, -1.2955e-06,  9.3132e-10,  7.7300e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 331, time 246.09, cls_loss 0.0006 cls_loss_mapping 0.0021 cls_loss_causal 0.4880 re_mapping 0.0029 re_causal 0.0096 /// teacc 99.06 lr 0.00010000
+Epoch 333, weight, value: tensor([[-0.2257, -0.0580,  0.2185,  ...,  0.0424, -0.2331, -0.1714],
+        [-0.1842, -0.2685, -0.0735,  ..., -0.1335, -0.3298, -0.1005],
+        [ 0.2916, -0.0768, -0.3017,  ..., -0.2307, -0.2667, -0.2210],
+        ...,
+        [-0.1184, -0.0360, -0.3902,  ..., -0.1317,  0.1229,  0.0342],
+        [-0.2218, -0.1473, -0.0538,  ..., -0.2281, -0.0559, -0.0614],
+        [-0.1070, -0.1047, -0.1547,  ...,  0.0995,  0.0222, -0.1724]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -9.3132e-10,  ..., -9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -0.0000e+00,  ..., -1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  1.8626e-09,  0.0000e+00,  ...,  1.8626e-09,
+         -9.3132e-10,  0.0000e+00],
+        [ 1.8626e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  2.7940e-09,  ..., -0.0000e+00,
+          2.7940e-09,  0.0000e+00]], device='cuda:0')
+Epoch 333, bias, value: tensor([ 1.7280e-03,  8.3839e-03,  1.3836e-02, -2.9308e-03,  2.7949e-02,
+        -9.5762e-05, -1.9174e-03, -3.5790e-03,  7.2022e-03, -2.1743e-02],
+       device='cuda:0'), grad: tensor([ 9.3132e-10, -3.9116e-08,  5.5879e-09, -7.9162e-08,  7.4506e-09,
+         3.7253e-09,  2.3283e-08,  3.4459e-08, -8.3819e-09,  4.6566e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 332, time 246.19, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.4518 re_mapping 0.0033 re_causal 0.0100 /// teacc 99.16 lr 0.00010000
+Epoch 334, weight, value: tensor([[-0.2259, -0.0582,  0.2186,  ...,  0.0424, -0.2353, -0.1715],
+        [-0.1843, -0.2695, -0.0744,  ..., -0.1333, -0.3304, -0.1003],
+        [ 0.2921, -0.0768, -0.3019,  ..., -0.2307, -0.2672, -0.2197],
+        ...,
+        [-0.1186, -0.0380, -0.3907,  ..., -0.1321,  0.1228,  0.0328],
+        [-0.2219, -0.1449, -0.0553,  ..., -0.2305, -0.0587, -0.0649],
+        [-0.1080, -0.1048, -0.1551,  ...,  0.0987,  0.0225, -0.1724]],
+       device='cuda:0'), grad: tensor([[ 3.2596e-08,  0.0000e+00, -1.0245e-07,  ..., -4.8429e-08,
+          2.7940e-09,  1.8626e-09],
+        [ 2.7940e-09,  9.3132e-10,  3.7253e-09,  ...,  9.3132e-10,
+          1.8626e-09,  9.3132e-10],
+        [-2.7381e-07, -4.8429e-08,  1.0245e-08,  ...,  6.5193e-09,
+          9.3132e-10,  9.3132e-10],
+        ...,
+        [ 2.0117e-07,  5.8673e-08,  9.3132e-10,  ...,  9.3132e-10,
+          3.7253e-09,  5.5879e-09],
+        [ 1.1176e-08,  1.8626e-09,  1.0245e-08,  ...,  1.8626e-09,
+          1.8626e-09,  1.8626e-09],
+        [ 1.8626e-09,  0.0000e+00,  6.5193e-09,  ...,  4.6566e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 334, bias, value: tensor([ 0.0018,  0.0063,  0.0141, -0.0027,  0.0291, -0.0003, -0.0015, -0.0017,
+         0.0065, -0.0228], device='cuda:0'), grad: tensor([ 7.1712e-08, -3.9265e-06, -4.3772e-07, -1.7043e-07,  6.1467e-08,
+         2.3954e-06,  7.1712e-07,  1.1846e-06,  4.1910e-08,  4.4703e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 333, time 246.41, cls_loss 0.0006 cls_loss_mapping 0.0013 cls_loss_causal 0.4719 re_mapping 0.0030 re_causal 0.0097 /// teacc 99.12 lr 0.00010000
+Epoch 335, weight, value: tensor([[-0.2263, -0.0586,  0.2187,  ...,  0.0424, -0.2359, -0.1715],
+        [-0.1847, -0.2715, -0.0744,  ..., -0.1333, -0.3315, -0.1014],
+        [ 0.2928, -0.0758, -0.3016,  ..., -0.2308, -0.2678, -0.2183],
+        ...,
+        [-0.1188, -0.0422, -0.3915,  ..., -0.1329,  0.1225,  0.0315],
+        [-0.2222, -0.1447, -0.0559,  ..., -0.2331, -0.0595, -0.0651],
+        [-0.1081, -0.1048, -0.1553,  ...,  0.0989,  0.0232, -0.1724]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.1514e-07,  ..., -4.6566e-08,
+          9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  2.7940e-09,  ...,  2.7940e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10,  9.3132e-10,  9.3132e-09,  ...,  4.6566e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  7.4506e-09,  ...,  2.7940e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.0245e-08,  ...,  2.7940e-09,
+         -0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.8429e-08,  ...,  3.7253e-08,
+          4.6566e-09,  0.0000e+00]], device='cuda:0')
+Epoch 335, bias, value: tensor([ 0.0018,  0.0065,  0.0144, -0.0025,  0.0290, -0.0005, -0.0017, -0.0020,
+         0.0066, -0.0222], device='cuda:0'), grad: tensor([-5.8673e-07,  1.1176e-08,  2.8871e-08, -1.8626e-08, -6.5193e-08,
+         2.6170e-07,  1.2200e-07,  3.1665e-08,  2.7008e-08,  1.9837e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 334, time 246.47, cls_loss 0.0004 cls_loss_mapping 0.0018 cls_loss_causal 0.4679 re_mapping 0.0034 re_causal 0.0105 /// teacc 99.11 lr 0.00010000
+Epoch 336, weight, value: tensor([[-0.2264, -0.0586,  0.2188,  ...,  0.0424, -0.2360, -0.1715],
+        [-0.1849, -0.2721, -0.0745,  ..., -0.1336, -0.3322, -0.1017],
+        [ 0.2929, -0.0759, -0.3020,  ..., -0.2309, -0.2687, -0.2184],
+        ...,
+        [-0.1189, -0.0425, -0.3920,  ..., -0.1331,  0.1226,  0.0315],
+        [-0.2224, -0.1449, -0.0568,  ..., -0.2334, -0.0597, -0.0654],
+        [-0.1082, -0.1048, -0.1559,  ...,  0.0988,  0.0232, -0.1725]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-09,  0.0000e+00,  0.0000e+00,  ...,  7.4506e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          1.1176e-08,  0.0000e+00],
+        [-1.9558e-08,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  1.2107e-08,
+         -4.6566e-09,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-09,
+          4.6566e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -2.5146e-08,
+         -1.1176e-08,  0.0000e+00]], device='cuda:0')
+Epoch 336, bias, value: tensor([ 0.0019,  0.0066,  0.0144, -0.0024,  0.0293, -0.0006, -0.0017, -0.0021,
+         0.0065, -0.0224], device='cuda:0'), grad: tensor([ 5.1223e-08, -3.1013e-06, -3.6322e-08,  7.3574e-08, -1.6857e-07,
+        -6.7987e-08,  2.2259e-07,  2.9542e-06,  6.7987e-08, -5.5879e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 335, time 246.57, cls_loss 0.0005 cls_loss_mapping 0.0017 cls_loss_causal 0.4808 re_mapping 0.0029 re_causal 0.0097 /// teacc 98.96 lr 0.00010000
+Epoch 337, weight, value: tensor([[-0.2265, -0.0587,  0.2189,  ...,  0.0424, -0.2371, -0.1715],
+        [-0.1852, -0.2727, -0.0746,  ..., -0.1338, -0.3313, -0.1017],
+        [ 0.2930, -0.0761, -0.3027,  ..., -0.2311, -0.2697, -0.2185],
+        ...,
+        [-0.1189, -0.0427, -0.3932,  ..., -0.1338,  0.1220,  0.0314],
+        [-0.2226, -0.1453, -0.0578,  ..., -0.2336, -0.0599, -0.0653],
+        [-0.1084, -0.1049, -0.1564,  ...,  0.0988,  0.0235, -0.1725]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  9.3132e-10, -1.4901e-08,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  2.7940e-09,  3.7253e-09,  ...,  4.6566e-09,
+         -4.6566e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  9.3132e-10,
+         -0.0000e+00, -1.8626e-09],
+        [ 9.3132e-10,  9.3132e-10,  1.8626e-09,  ..., -1.3970e-08,
+         -2.7940e-09,  0.0000e+00]], device='cuda:0')
+Epoch 337, bias, value: tensor([ 0.0019,  0.0067,  0.0144, -0.0023,  0.0295, -0.0007, -0.0016, -0.0023,
+         0.0066, -0.0224], device='cuda:0'), grad: tensor([ 5.5879e-09, -5.4017e-08,  1.0245e-08, -1.3327e-06,  3.7253e-08,
+         1.3094e-06,  2.4214e-08,  5.3085e-08, -1.3039e-08, -2.8871e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 336, time 246.71, cls_loss 0.0011 cls_loss_mapping 0.0018 cls_loss_causal 0.4586 re_mapping 0.0031 re_causal 0.0094 /// teacc 99.06 lr 0.00010000
+Epoch 338, weight, value: tensor([[-0.2266, -0.0589,  0.2196,  ...,  0.0408, -0.2396, -0.1716],
+        [-0.1861, -0.2736, -0.0748,  ..., -0.1347, -0.3339, -0.1025],
+        [ 0.2934, -0.0761, -0.3033,  ..., -0.2317, -0.2738, -0.2199],
+        ...,
+        [-0.1192, -0.0429, -0.3944,  ..., -0.1354,  0.1224,  0.0354],
+        [-0.2228, -0.1456, -0.0558,  ..., -0.2378, -0.0600, -0.0662],
+        [-0.1086, -0.1048, -0.1589,  ...,  0.1035,  0.0280, -0.1729]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09,  0.0000e+00, -3.3993e-07,  ..., -1.0524e-07,
+          8.3819e-09,  3.7253e-09],
+        [ 9.3132e-10,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-10,
+          6.5193e-09,  0.0000e+00],
+        [-2.2352e-08, -0.0000e+00,  7.4506e-09,  ...,  3.7253e-09,
+          7.4506e-09,  2.7940e-09],
+        ...,
+        [ 1.1176e-08,  0.0000e+00,  5.5879e-09,  ...,  2.7940e-09,
+         -1.0245e-08,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  2.0489e-08,  ...,  6.5193e-09,
+          5.5879e-09,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.8964e-07,  ...,  8.9407e-08,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 338, bias, value: tensor([ 0.0010,  0.0067,  0.0144, -0.0038,  0.0250, -0.0030, -0.0004, -0.0024,
+         0.0102, -0.0173], device='cuda:0'), grad: tensor([-4.8708e-07,  2.3283e-08, -5.5879e-09,  2.4214e-08, -1.3039e-08,
+        -2.6450e-07,  2.4214e-07, -4.6566e-09,  4.3772e-08,  4.4983e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 337, time 246.45, cls_loss 0.0006 cls_loss_mapping 0.0017 cls_loss_causal 0.4826 re_mapping 0.0032 re_causal 0.0103 /// teacc 99.03 lr 0.00010000
+Epoch 339, weight, value: tensor([[-0.2267, -0.0592,  0.2193,  ...,  0.0406, -0.2429, -0.1727],
+        [-0.1863, -0.2746, -0.0751,  ..., -0.1352, -0.3349, -0.1038],
+        [ 0.2936, -0.0760, -0.3037,  ..., -0.2320, -0.2745, -0.2201],
+        ...,
+        [-0.1193, -0.0431, -0.3952,  ..., -0.1353,  0.1249,  0.0357],
+        [-0.2230, -0.1460, -0.0557,  ..., -0.2380, -0.0598, -0.0667],
+        [-0.1095, -0.1050, -0.1595,  ...,  0.1036,  0.0279, -0.1732]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -7.1339e-07,  ..., -2.8498e-07,
+          0.0000e+00,  9.3132e-10],
+        [ 1.8626e-09,  9.3132e-10,  1.7695e-08,  ...,  9.3132e-09,
+          1.2107e-08,  2.7940e-09],
+        [-4.6566e-09,  9.3132e-10,  7.4506e-09,  ...,  2.7940e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 2.7940e-09,  9.3132e-10,  2.7940e-08,  ...,  9.3132e-09,
+         -1.2107e-08, -2.7940e-09],
+        [ 9.3132e-10,  0.0000e+00,  8.3819e-09,  ...,  2.7940e-09,
+          1.8626e-09,  1.8626e-09],
+        [ 1.8626e-09,  0.0000e+00,  4.3586e-07,  ...,  1.7043e-07,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 339, bias, value: tensor([ 0.0005,  0.0067,  0.0144, -0.0032,  0.0249, -0.0030, -0.0009, -0.0022,
+         0.0107, -0.0172], device='cuda:0'), grad: tensor([-1.3588e-06,  6.4261e-08,  2.7940e-09, -3.4459e-08,  2.6077e-08,
+        -1.2107e-07,  5.2154e-07,  5.0291e-08,  2.5146e-08,  8.3353e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 338, time 246.62, cls_loss 0.0006 cls_loss_mapping 0.0019 cls_loss_causal 0.4748 re_mapping 0.0032 re_causal 0.0100 /// teacc 99.18 lr 0.00010000
+Epoch 340, weight, value: tensor([[-0.2267, -0.0591,  0.2198,  ...,  0.0412, -0.2429, -0.1727],
+        [-0.1864, -0.2769, -0.0751,  ..., -0.1356, -0.3357, -0.1035],
+        [ 0.2937, -0.0763, -0.3044,  ..., -0.2332, -0.2754, -0.2211],
+        ...,
+        [-0.1193, -0.0437, -0.3966,  ..., -0.1353,  0.1255,  0.0373],
+        [-0.2237, -0.1463, -0.0561,  ..., -0.2382, -0.0599, -0.0669],
+        [-0.1103, -0.1055, -0.1614,  ...,  0.1036,  0.0278, -0.1740]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.7940e-09,  ...,  2.7940e-09,
+          1.8626e-09,  1.8626e-09],
+        [ 9.3132e-10,  0.0000e+00, -2.7940e-09,  ..., -5.5879e-09,
+          1.5460e-07,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+          2.7940e-09,  2.7940e-09],
+        ...,
+        [ 9.3132e-10,  9.3132e-10,  1.8626e-09,  ...,  7.4506e-09,
+         -2.7847e-07,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          5.5879e-09,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  2.0489e-08,
+          1.1455e-07,  2.7940e-09]], device='cuda:0')
+Epoch 340, bias, value: tensor([ 1.1821e-03,  6.7544e-03,  1.4147e-02,  1.4303e-05,  2.4928e-02,
+        -5.7604e-03, -9.4102e-04, -2.1872e-03,  1.0707e-02, -1.7279e-02],
+       device='cuda:0'), grad: tensor([ 3.2596e-08,  3.1199e-07,  2.7008e-08, -9.3132e-10, -1.9465e-07,
+         1.0803e-07,  1.6764e-08, -8.0466e-07,  2.7008e-08,  4.8708e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 339, time 246.49, cls_loss 0.0006 cls_loss_mapping 0.0017 cls_loss_causal 0.4536 re_mapping 0.0030 re_causal 0.0094 /// teacc 99.13 lr 0.00010000
+Epoch 341, weight, value: tensor([[-0.2269, -0.0592,  0.2201,  ...,  0.0415, -0.2430, -0.1727],
+        [-0.1890, -0.2777, -0.0751,  ..., -0.1369, -0.3363, -0.1037],
+        [ 0.2944, -0.0765, -0.3048,  ..., -0.2337, -0.2758, -0.2212],
+        ...,
+        [-0.1195, -0.0439, -0.3980,  ..., -0.1355,  0.1257,  0.0374],
+        [-0.2241, -0.1464, -0.0564,  ..., -0.2384, -0.0600, -0.0674],
+        [-0.1105, -0.1055, -0.1623,  ...,  0.1036,  0.0278, -0.1741]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  1.7695e-08, -8.0094e-08,  ..., -3.6322e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 1.0245e-08,  3.0734e-08,  9.3132e-10,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 2.6524e-06,  9.0376e-06,  2.0489e-08,  ...,  9.3132e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 2.0117e-07,  6.5472e-07,  3.7253e-09,  ...,  5.5879e-09,
+         -1.8626e-09,  0.0000e+00],
+        [ 3.7253e-08,  2.1420e-08,  2.0489e-08,  ...,  9.3132e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  2.7940e-09,  2.9802e-08,  ...,  2.0489e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 341, bias, value: tensor([ 1.5533e-03,  6.6092e-03,  1.4545e-02, -7.4696e-05,  2.4801e-02,
+        -5.6534e-03,  5.3902e-04, -2.1868e-03,  1.0739e-02, -1.7307e-02],
+       device='cuda:0'), grad: tensor([-1.5460e-07,  7.0781e-08,  2.3246e-05, -2.5496e-05, -2.7940e-08,
+         3.6601e-07,  3.0734e-08,  1.7267e-06,  1.6298e-07,  9.8720e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 340, time 246.37, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.4867 re_mapping 0.0028 re_causal 0.0094 /// teacc 99.11 lr 0.00010000
+Epoch 342, weight, value: tensor([[-0.2270, -0.0595,  0.2202,  ...,  0.0415, -0.2431, -0.1727],
+        [-0.1892, -0.2784, -0.0751,  ..., -0.1342, -0.3370, -0.1038],
+        [ 0.2945, -0.0800, -0.3050,  ..., -0.2346, -0.2765, -0.2211],
+        ...,
+        [-0.1196, -0.0446, -0.3988,  ..., -0.1386,  0.1260,  0.0373],
+        [-0.2244, -0.1468, -0.0566,  ..., -0.2387, -0.0602, -0.0692],
+        [-0.1106, -0.1055, -0.1624,  ...,  0.1036,  0.0278, -0.1743]],
+       device='cuda:0'), grad: tensor([[ 1.2107e-08,  0.0000e+00, -2.1420e-08,  ..., -1.3039e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 1.1176e-08,  0.0000e+00, -0.0000e+00,  ...,  9.3132e-10,
+          1.8626e-09,  0.0000e+00],
+        [-9.8720e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 2.5146e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -3.7253e-09,  0.0000e+00],
+        [ 4.4703e-08,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          1.8626e-09,  2.7940e-09],
+        [ 1.8626e-09,  0.0000e+00,  1.8626e-08,  ...,  2.0489e-08,
+          2.7940e-09,  0.0000e+00]], device='cuda:0')
+Epoch 342, bias, value: tensor([ 0.0016,  0.0082,  0.0143, -0.0003,  0.0248, -0.0054,  0.0007, -0.0036,
+         0.0106, -0.0173], device='cuda:0'), grad: tensor([ 0.0000e+00,  1.3970e-08, -2.8405e-07,  2.7940e-09, -1.8626e-08,
+         1.8626e-09,  4.6566e-09,  7.4506e-08,  1.4435e-07,  7.0781e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 341, time 246.33, cls_loss 0.0005 cls_loss_mapping 0.0011 cls_loss_causal 0.4715 re_mapping 0.0031 re_causal 0.0100 /// teacc 99.07 lr 0.00010000
+Epoch 343, weight, value: tensor([[-0.2272, -0.0596,  0.2202,  ...,  0.0415, -0.2431, -0.1727],
+        [-0.1911, -0.2785, -0.0751,  ..., -0.1342, -0.3388, -0.1046],
+        [ 0.2952, -0.0800, -0.3051,  ..., -0.2349, -0.2770, -0.2206],
+        ...,
+        [-0.1198, -0.0447, -0.3990,  ..., -0.1386,  0.1266,  0.0377],
+        [-0.2248, -0.1470, -0.0568,  ..., -0.2390, -0.0603, -0.0696],
+        [-0.1109, -0.1054, -0.1625,  ...,  0.1035,  0.0278, -0.1744]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -3.5390e-08,  ..., -2.7008e-08,
+          9.3132e-10,  9.3132e-10],
+        [ 1.8626e-09,  0.0000e+00, -1.3039e-08,  ...,  9.3132e-10,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  9.3132e-09,  ...,  6.5193e-09,
+         -9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  8.3819e-09,  ...,  2.7940e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.4214e-08,  ...,  5.5879e-09,
+         -9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 343, bias, value: tensor([ 0.0016,  0.0082,  0.0147, -0.0004,  0.0248, -0.0054,  0.0008, -0.0036,
+         0.0106, -0.0174], device='cuda:0'), grad: tensor([-1.0990e-07, -2.1793e-07,  1.0245e-08, -1.7695e-08,  2.3283e-08,
+         4.0047e-08,  1.8626e-08,  1.4994e-07,  8.8476e-08,  2.6077e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 342, time 245.84, cls_loss 0.0004 cls_loss_mapping 0.0011 cls_loss_causal 0.4783 re_mapping 0.0031 re_causal 0.0101 /// teacc 99.09 lr 0.00010000
+Epoch 344, weight, value: tensor([[-0.2274, -0.0594,  0.2203,  ...,  0.0416, -0.2432, -0.1728],
+        [-0.1914, -0.2791, -0.0754,  ..., -0.1342, -0.3398, -0.1058],
+        [ 0.2954, -0.0800, -0.3053,  ..., -0.2349, -0.2772, -0.2206],
+        ...,
+        [-0.1198, -0.0449, -0.3997,  ..., -0.1387,  0.1268,  0.0377],
+        [-0.2253, -0.1474, -0.0572,  ..., -0.2392, -0.0604, -0.0712],
+        [-0.1110, -0.1055, -0.1626,  ...,  0.1035,  0.0278, -0.1745]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.5646e-07,  ..., -1.1548e-07,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  3.7253e-09,
+          1.3039e-08,  2.7940e-09],
+        [-1.8626e-09,  0.0000e+00,  3.7253e-09,  ...,  2.7940e-09,
+          8.3819e-09,  1.8626e-09],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  2.7940e-09,  ..., -2.7940e-09,
+         -4.4703e-08, -9.3132e-09],
+        [ 9.3132e-10,  0.0000e+00,  3.7253e-09,  ...,  2.7940e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  8.7544e-08,  ...,  6.9849e-08,
+          1.8626e-08,  3.7253e-09]], device='cuda:0')
+Epoch 344, bias, value: tensor([ 0.0016,  0.0081,  0.0148, -0.0003,  0.0248, -0.0054,  0.0009, -0.0036,
+         0.0104, -0.0174], device='cuda:0'), grad: tensor([-3.5111e-07,  1.0617e-07,  1.7043e-07,  1.9558e-08, -9.3132e-09,
+         3.8184e-08,  1.4529e-07, -1.8533e-07, -2.1886e-07,  2.7567e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 343, time 246.16, cls_loss 0.0004 cls_loss_mapping 0.0013 cls_loss_causal 0.4727 re_mapping 0.0031 re_causal 0.0102 /// teacc 99.14 lr 0.00010000
+Epoch 345, weight, value: tensor([[-0.2275, -0.0595,  0.2202,  ...,  0.0416, -0.2436, -0.1729],
+        [-0.1915, -0.2793, -0.0754,  ..., -0.1342, -0.3405, -0.1060],
+        [ 0.2955, -0.0800, -0.3056,  ..., -0.2352, -0.2780, -0.2208],
+        ...,
+        [-0.1199, -0.0450, -0.4000,  ..., -0.1387,  0.1269,  0.0378],
+        [-0.2257, -0.1477, -0.0588,  ..., -0.2398, -0.0609, -0.0724],
+        [-0.1111, -0.1054, -0.1627,  ...,  0.1035,  0.0277, -0.1746]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -7.4506e-09,  ..., -5.5879e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 2.6077e-08,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [-4.8429e-08,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 1.3970e-08,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -9.3132e-10,  0.0000e+00],
+        [ 2.7940e-09,  0.0000e+00,  1.4901e-08,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  1.1176e-08,  ...,  7.4506e-09,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 345, bias, value: tensor([ 0.0015,  0.0083,  0.0148, -0.0003,  0.0249, -0.0054,  0.0011, -0.0038,
+         0.0103, -0.0174], device='cuda:0'), grad: tensor([-7.4506e-09, -4.5449e-07, -7.8231e-08, -3.7253e-09,  1.1176e-08,
+         4.3772e-08, -7.6368e-08,  4.7684e-07,  5.0291e-08,  4.4703e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 344, time 246.23, cls_loss 0.0005 cls_loss_mapping 0.0018 cls_loss_causal 0.4732 re_mapping 0.0031 re_causal 0.0095 /// teacc 99.14 lr 0.00010000
+Epoch 346, weight, value: tensor([[-0.2278, -0.0596,  0.2209,  ...,  0.0419, -0.2434, -0.1728],
+        [-0.1920, -0.2796, -0.0754,  ..., -0.1351, -0.3422, -0.1063],
+        [ 0.2958, -0.0800, -0.3064,  ..., -0.2361, -0.2782, -0.2208],
+        ...,
+        [-0.1200, -0.0451, -0.4008,  ..., -0.1389,  0.1268,  0.0379],
+        [-0.2260, -0.1478, -0.0591,  ..., -0.2403, -0.0611, -0.0727],
+        [-0.1115, -0.1054, -0.1635,  ...,  0.1036,  0.0278, -0.1748]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -4.6566e-09,  ...,  4.6566e-09,
+          9.3132e-10, -0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          3.2596e-08,  0.0000e+00],
+        [-3.3807e-07,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 3.2969e-07,  1.8626e-09,  0.0000e+00,  ...,  2.7940e-09,
+         -5.4948e-08, -9.3132e-10],
+        [ 6.5193e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  1.8626e-09,  ..., -1.5832e-08,
+          1.3039e-08,  1.8626e-09]], device='cuda:0')
+Epoch 346, bias, value: tensor([ 0.0022,  0.0081,  0.0149, -0.0004,  0.0249, -0.0051,  0.0003, -0.0039,
+         0.0102, -0.0173], device='cuda:0'), grad: tensor([ 9.3132e-09,  1.2480e-07, -7.4040e-07,  3.7253e-09,  2.0489e-08,
+        -9.3132e-10,  7.4506e-09,  5.2247e-07,  2.0489e-08,  3.9116e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 345, time 246.59, cls_loss 0.0006 cls_loss_mapping 0.0017 cls_loss_causal 0.4657 re_mapping 0.0031 re_causal 0.0098 /// teacc 99.14 lr 0.00010000
+Epoch 347, weight, value: tensor([[-0.2283, -0.0603,  0.2211,  ...,  0.0420, -0.2439, -0.1729],
+        [-0.1923, -0.2805, -0.0756,  ..., -0.1352, -0.3440, -0.1070],
+        [ 0.2964, -0.0792, -0.3067,  ..., -0.2364, -0.2766, -0.2208],
+        ...,
+        [-0.1202, -0.0455, -0.4017,  ..., -0.1390,  0.1272,  0.0381],
+        [-0.2268, -0.1484, -0.0599,  ..., -0.2412, -0.0620, -0.0731],
+        [-0.1117, -0.1055, -0.1639,  ...,  0.1035,  0.0277, -0.1750]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-09,  0.0000e+00, -9.6858e-08,  ..., -3.0734e-08,
+          3.7253e-09,  9.3132e-10],
+        [ 2.7940e-08,  0.0000e+00,  2.7940e-09,  ...,  5.5879e-09,
+          1.0245e-08,  9.3132e-10],
+        [-2.5798e-07,  0.0000e+00,  8.3819e-09,  ...,  2.7940e-09,
+         -5.4948e-08,  0.0000e+00],
+        ...,
+        [ 1.7695e-07,  0.0000e+00,  2.7940e-09,  ...,  5.5879e-09,
+          3.3528e-08, -9.3132e-10],
+        [ 1.0245e-08,  0.0000e+00,  1.0245e-08,  ...,  9.3132e-09,
+          1.3039e-08,  0.0000e+00],
+        [ 2.7940e-09,  0.0000e+00,  2.0489e-08,  ...,  3.1013e-07,
+          7.0781e-08,  9.3132e-10]], device='cuda:0')
+Epoch 347, bias, value: tensor([ 0.0022,  0.0080,  0.0153, -0.0005,  0.0250, -0.0050,  0.0004, -0.0038,
+         0.0099, -0.0174], device='cuda:0'), grad: tensor([-1.9837e-07,  6.4261e-08, -7.3574e-07,  8.0094e-08, -6.5193e-07,
+         7.9162e-08,  4.9360e-08,  5.3924e-07,  1.0803e-07,  6.6031e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 346, time 246.07, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4685 re_mapping 0.0030 re_causal 0.0097 /// teacc 99.15 lr 0.00010000
+Epoch 348, weight, value: tensor([[-0.2285, -0.0604,  0.2214,  ...,  0.0422, -0.2441, -0.1729],
+        [-0.1931, -0.2812, -0.0756,  ..., -0.1352, -0.3456, -0.1078],
+        [ 0.2972, -0.0791, -0.3071,  ..., -0.2370, -0.2755, -0.2206],
+        ...,
+        [-0.1207, -0.0458, -0.4037,  ..., -0.1391,  0.1276,  0.0382],
+        [-0.2275, -0.1486, -0.0603,  ..., -0.2416, -0.0623, -0.0732],
+        [-0.1119, -0.1057, -0.1643,  ...,  0.1034,  0.0276, -0.1751]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -7.4506e-08,  ..., -3.1665e-08,
+          9.3132e-10, -9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-10,
+          1.3970e-08,  0.0000e+00],
+        [-2.7940e-09,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-10,
+          9.3132e-10, -0.0000e+00],
+        ...,
+        [ 1.8626e-09,  9.3132e-10,  9.3132e-10,  ...,  2.6077e-08,
+         -1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00, -3.0734e-08,  5.5879e-09,  ...,  2.7940e-09,
+         -3.2596e-08, -2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.7695e-08,  ..., -2.0489e-08,
+         -1.3970e-08,  0.0000e+00]], device='cuda:0')
+Epoch 348, bias, value: tensor([ 0.0026,  0.0079,  0.0157, -0.0006,  0.0250, -0.0050,  0.0003, -0.0038,
+         0.0098, -0.0175], device='cuda:0'), grad: tensor([-1.3597e-07,  3.6322e-08,  8.3819e-09,  3.4180e-07,  4.6566e-09,
+         9.5926e-08,  1.0058e-07,  5.4948e-08, -4.6473e-07, -3.7253e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 347, time 246.11, cls_loss 0.0005 cls_loss_mapping 0.0011 cls_loss_causal 0.4518 re_mapping 0.0030 re_causal 0.0095 /// teacc 99.17 lr 0.00010000
+Epoch 349, weight, value: tensor([[-0.2298, -0.0608,  0.2214,  ...,  0.0422, -0.2449, -0.1733],
+        [-0.1932, -0.2818, -0.0755,  ..., -0.1353, -0.3468, -0.1081],
+        [ 0.2975, -0.0791, -0.3069,  ..., -0.2375, -0.2762, -0.2207],
+        ...,
+        [-0.1207, -0.0460, -0.4051,  ..., -0.1392,  0.1279,  0.0385],
+        [-0.2280, -0.1482, -0.0607,  ..., -0.2422, -0.0626, -0.0733],
+        [-0.1120, -0.1057, -0.1646,  ...,  0.1034,  0.0276, -0.1753]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -7.4506e-09,  ...,  1.1176e-08,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.8720e-07,
+          2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+         -1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          1.8626e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  2.5146e-08,
+          2.7940e-09,  9.3132e-10]], device='cuda:0')
+Epoch 349, bias, value: tensor([ 0.0024,  0.0079,  0.0158, -0.0006,  0.0251, -0.0050,  0.0002, -0.0038,
+         0.0098, -0.0176], device='cuda:0'), grad: tensor([ 1.4901e-08,  6.2212e-07,  1.8626e-09,  2.6077e-08, -7.2177e-07,
+        -6.8918e-08,  2.9802e-08,  2.7940e-09,  9.3132e-09,  8.2888e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 348, time 245.89, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4748 re_mapping 0.0029 re_causal 0.0095 /// teacc 99.09 lr 0.00010000
+Epoch 350, weight, value: tensor([[-0.2301, -0.0614,  0.2216,  ...,  0.0422, -0.2450, -0.1733],
+        [-0.1934, -0.2823, -0.0755,  ..., -0.1353, -0.3476, -0.1092],
+        [ 0.2976, -0.0791, -0.3071,  ..., -0.2378, -0.2766, -0.2209],
+        ...,
+        [-0.1208, -0.0462, -0.4058,  ..., -0.1392,  0.1282,  0.0385],
+        [-0.2284, -0.1485, -0.0610,  ..., -0.2429, -0.0627, -0.0741],
+        [-0.1134, -0.1058, -0.1647,  ...,  0.1034,  0.0276, -0.1755]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09,  0.0000e+00, -2.3283e-09,  ...,  9.3132e-10,
+          1.3970e-09,  4.6566e-10],
+        [ 3.0268e-08,  0.0000e+00, -6.9849e-09,  ...,  2.6543e-08,
+          1.1642e-07, -0.0000e+00],
+        [ 2.6543e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        ...,
+        [ 2.0023e-08,  0.0000e+00,  4.6566e-10,  ..., -2.7474e-08,
+         -1.2573e-07, -4.6566e-10],
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  4.1910e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 6.9849e-09,  0.0000e+00,  1.8626e-09,  ..., -3.7253e-09,
+          6.0536e-09,  4.6566e-10]], device='cuda:0')
+Epoch 350, bias, value: tensor([ 0.0025,  0.0082,  0.0158, -0.0007,  0.0250, -0.0046, -0.0001, -0.0041,
+         0.0097, -0.0175], device='cuda:0'), grad: tensor([ 2.7008e-08,  3.9907e-07,  1.3411e-07, -4.8056e-07, -1.3970e-09,
+         5.7742e-08,  1.0803e-07, -3.1339e-07,  2.3283e-08,  3.6787e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 349, time 246.09, cls_loss 0.0007 cls_loss_mapping 0.0015 cls_loss_causal 0.4948 re_mapping 0.0027 re_causal 0.0090 /// teacc 99.17 lr 0.00010000
+Epoch 351, weight, value: tensor([[-0.2303, -0.0619,  0.2220,  ...,  0.0425, -0.2451, -0.1733],
+        [-0.1935, -0.2829, -0.0756,  ..., -0.1354, -0.3491, -0.1101],
+        [ 0.2978, -0.0791, -0.3077,  ..., -0.2386, -0.2781, -0.2211],
+        ...,
+        [-0.1209, -0.0466, -0.4075,  ..., -0.1392,  0.1286,  0.0388],
+        [-0.2288, -0.1488, -0.0618,  ..., -0.2436, -0.0636, -0.0748],
+        [-0.1137, -0.1058, -0.1650,  ...,  0.1033,  0.0276, -0.1758]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -6.5193e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 351, bias, value: tensor([ 0.0028,  0.0084,  0.0156, -0.0007,  0.0251, -0.0045, -0.0004, -0.0043,
+         0.0095, -0.0177], device='cuda:0'), grad: tensor([ 8.3819e-09, -4.5449e-07,  3.7998e-07,  5.5879e-09,  3.5390e-08,
+         2.7940e-09,  1.8626e-08,  2.0489e-08, -2.4214e-08,  6.5193e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 350, time 246.52, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4642 re_mapping 0.0031 re_causal 0.0100 /// teacc 99.09 lr 0.00010000
+Epoch 352, weight, value: tensor([[-0.2306, -0.0621,  0.2224,  ...,  0.0426, -0.2451, -0.1732],
+        [-0.1943, -0.2836, -0.0756,  ..., -0.1355, -0.3504, -0.1103],
+        [ 0.2982, -0.0792, -0.3080,  ..., -0.2379, -0.2791, -0.2212],
+        ...,
+        [-0.1210, -0.0471, -0.4086,  ..., -0.1395,  0.1286,  0.0388],
+        [-0.2298, -0.1492, -0.0621,  ..., -0.2440, -0.0641, -0.0751],
+        [-0.1156, -0.1059, -0.1653,  ...,  0.1032,  0.0276, -0.1760]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -9.3132e-10,  ...,  2.7940e-09,
+          2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  8.3819e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+         -1.2107e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -6.5193e-09,
+         -0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 352, bias, value: tensor([ 0.0030,  0.0076,  0.0158, -0.0009,  0.0252, -0.0042, -0.0007, -0.0036,
+         0.0096, -0.0177], device='cuda:0'), grad: tensor([ 2.1420e-08, -6.4746e-06,  2.7008e-08,  2.7940e-09, -1.7695e-08,
+         1.0245e-08,  5.7742e-08,  5.6438e-06, -2.2352e-08,  7.5903e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 351, time 246.40, cls_loss 0.0005 cls_loss_mapping 0.0010 cls_loss_causal 0.4495 re_mapping 0.0028 re_causal 0.0090 /// teacc 99.20 lr 0.00010000
+Epoch 353, weight, value: tensor([[-0.2308, -0.0625,  0.2224,  ...,  0.0426, -0.2454, -0.1733],
+        [-0.1946, -0.2846, -0.0756,  ..., -0.1360, -0.3516, -0.1106],
+        [ 0.2987, -0.0792, -0.3082,  ..., -0.2375, -0.2799, -0.2211],
+        ...,
+        [-0.1211, -0.0474, -0.4094,  ..., -0.1396,  0.1286,  0.0388],
+        [-0.2303, -0.1495, -0.0625,  ..., -0.2450, -0.0645, -0.0756],
+        [-0.1154, -0.1057, -0.1654,  ...,  0.1032,  0.0276, -0.1761]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.5832e-07,  ..., -6.6124e-08,
+          1.8626e-09,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+         -3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  5.6811e-08,  ...,  2.6077e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.1665e-08,  ...,  2.7940e-09,
+         -3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 353, bias, value: tensor([ 0.0030,  0.0075,  0.0160, -0.0009,  0.0253, -0.0042, -0.0007, -0.0036,
+         0.0094, -0.0177], device='cuda:0'), grad: tensor([-2.8964e-07, -9.3132e-10,  1.2107e-08, -5.5879e-09,  7.4506e-09,
+         1.1176e-08,  1.3039e-07, -2.7940e-09,  1.1362e-07,  3.0734e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 352, time 246.32, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4719 re_mapping 0.0028 re_causal 0.0096 /// teacc 99.16 lr 0.00010000
+Epoch 354, weight, value: tensor([[-0.2310, -0.0627,  0.2225,  ...,  0.0427, -0.2456, -0.1733],
+        [-0.1947, -0.2850, -0.0756,  ..., -0.1360, -0.3527, -0.1115],
+        [ 0.2991, -0.0793, -0.3084,  ..., -0.2363, -0.2806, -0.2212],
+        ...,
+        [-0.1212, -0.0476, -0.4100,  ..., -0.1397,  0.1289,  0.0388],
+        [-0.2295, -0.1501, -0.0627,  ..., -0.2447, -0.0646, -0.0762],
+        [-0.1164, -0.1057, -0.1656,  ...,  0.1032,  0.0275, -0.1765]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.6566e-09,  ..., -1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [-1.7695e-08, -3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -9.3132e-10,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+         -9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10, -9.3132e-10,  ...,  9.3132e-10,
+         -9.3132e-10,  0.0000e+00],
+        [ 1.6764e-08,  1.1176e-08,  4.6566e-09,  ..., -3.6228e-07,
+         -2.4214e-08,  0.0000e+00]], device='cuda:0')
+Epoch 354, bias, value: tensor([ 0.0030,  0.0058,  0.0159, -0.0022,  0.0253, -0.0060,  0.0023, -0.0019,
+         0.0095, -0.0178], device='cuda:0'), grad: tensor([-3.7253e-09, -2.5146e-08, -2.6077e-08,  2.5146e-08,  6.9849e-07,
+        -1.2945e-07,  2.5146e-08,  2.8871e-08,  1.8626e-09, -5.9418e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 353, time 245.83, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4554 re_mapping 0.0029 re_causal 0.0095 /// teacc 99.21 lr 0.00010000
+Epoch 355, weight, value: tensor([[-0.2311, -0.0628,  0.2226,  ...,  0.0428, -0.2457, -0.1733],
+        [-0.1949, -0.2851, -0.0756,  ..., -0.1362, -0.3537, -0.1120],
+        [ 0.2993, -0.0792, -0.3087,  ..., -0.2365, -0.2816, -0.2214],
+        ...,
+        [-0.1212, -0.0477, -0.4115,  ..., -0.1398,  0.1293,  0.0392],
+        [-0.2295, -0.1504, -0.0640,  ..., -0.2450, -0.0660, -0.0771],
+        [-0.1172, -0.1058, -0.1658,  ...,  0.1031,  0.0275, -0.1769]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  7.4506e-09,
+          4.6566e-09,  0.0000e+00],
+        [-2.0489e-08,  0.0000e+00, -9.3132e-10,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+         -9.3132e-09, -0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          4.6566e-09,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  1.7695e-08,
+          3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 355, bias, value: tensor([ 0.0031,  0.0060,  0.0157, -0.0027,  0.0253, -0.0056,  0.0024, -0.0021,
+         0.0088, -0.0178], device='cuda:0'), grad: tensor([ 1.8626e-09,  1.4901e-08, -2.4214e-08,  1.2107e-08, -4.3772e-08,
+        -5.8673e-08,  3.0734e-08, -2.0489e-08,  3.7253e-08,  4.7497e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 354, time 246.04, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4621 re_mapping 0.0030 re_causal 0.0095 /// teacc 99.13 lr 0.00010000
+Epoch 356, weight, value: tensor([[-0.2313, -0.0630,  0.2232,  ...,  0.0410, -0.2459, -0.1734],
+        [-0.1951, -0.2854, -0.0771,  ..., -0.1364, -0.3557, -0.1124],
+        [ 0.2994, -0.0792, -0.3102,  ..., -0.2372, -0.2826, -0.2214],
+        ...,
+        [-0.1213, -0.0478, -0.4121,  ..., -0.1398,  0.1307,  0.0393],
+        [-0.2300, -0.1507, -0.0643,  ..., -0.2462, -0.0664, -0.0774],
+        [-0.1176, -0.1058, -0.1659,  ...,  0.1033,  0.0274, -0.1770]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -0.0000e+00,  ...,  0.0000e+00,
+          4.2841e-08,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.5832e-08,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+         -1.3597e-07, -6.5193e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  3.7253e-08,
+          4.5635e-08,  2.7940e-09]], device='cuda:0')
+Epoch 356, bias, value: tensor([ 0.0022,  0.0059,  0.0156, -0.0029,  0.0254, -0.0057,  0.0024, -0.0020,
+         0.0086, -0.0177], device='cuda:0'), grad: tensor([ 2.0489e-08,  2.2817e-07,  1.0990e-07,  1.8626e-08,  1.3225e-07,
+         1.5832e-08, -4.6566e-09, -6.4727e-07, -1.5926e-07,  2.9057e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 355, time 246.46, cls_loss 0.0005 cls_loss_mapping 0.0014 cls_loss_causal 0.4676 re_mapping 0.0034 re_causal 0.0103 /// teacc 99.14 lr 0.00010000
+Epoch 357, weight, value: tensor([[-0.2317, -0.0631,  0.2233,  ...,  0.0410, -0.2463, -0.1734],
+        [-0.1954, -0.2859, -0.0772,  ..., -0.1364, -0.3566, -0.1125],
+        [ 0.2997, -0.0795, -0.3108,  ..., -0.2376, -0.2848, -0.2216],
+        ...,
+        [-0.1214, -0.0486, -0.4127,  ..., -0.1398,  0.1310,  0.0395],
+        [-0.2317, -0.1513, -0.0648,  ..., -0.2466, -0.0666, -0.0775],
+        [-0.1192, -0.1060, -0.1663,  ...,  0.1032,  0.0274, -0.1771]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.6764e-08,  ..., -6.5193e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-2.1420e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.4901e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-09,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  1.4901e-08,  ...,  5.5879e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 357, bias, value: tensor([ 0.0021,  0.0059,  0.0156, -0.0053,  0.0254, -0.0040,  0.0027, -0.0020,
+         0.0085, -0.0178], device='cuda:0'), grad: tensor([-2.5146e-08, -4.7497e-08, -4.6566e-08, -1.9558e-08,  9.3132e-10,
+         1.3039e-08, -6.5193e-09,  7.9162e-08,  2.6077e-08,  3.5390e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 356, time 245.86, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4664 re_mapping 0.0033 re_causal 0.0100 /// teacc 99.21 lr 0.00010000
+Epoch 358, weight, value: tensor([[-0.2322, -0.0633,  0.2234,  ...,  0.0411, -0.2469, -0.1735],
+        [-0.1956, -0.2865, -0.0771,  ..., -0.1364, -0.3580, -0.1129],
+        [ 0.3003, -0.0795, -0.3111,  ..., -0.2377, -0.2876, -0.2217],
+        ...,
+        [-0.1216, -0.0488, -0.4131,  ..., -0.1400,  0.1315,  0.0397],
+        [-0.2338, -0.1536, -0.0652,  ..., -0.2472, -0.0669, -0.0776],
+        [-0.1194, -0.1060, -0.1664,  ...,  0.1032,  0.0274, -0.1771]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  9.3132e-10, -2.7940e-09,  ...,  1.1176e-08,
+          5.5879e-09,  0.0000e+00],
+        [ 5.5879e-09,  1.8626e-09,  0.0000e+00,  ...,  8.3819e-09,
+          1.8626e-09,  0.0000e+00],
+        [-3.5390e-08,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 2.5146e-08,  9.3132e-10,  9.3132e-10,  ...,  1.0245e-08,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  5.5879e-09,  9.3132e-10,  ...,  3.2596e-08,
+          4.6566e-09,  0.0000e+00],
+        [ 0.0000e+00, -7.8231e-08,  2.7940e-09,  ..., -6.9756e-07,
+         -1.4249e-07,  0.0000e+00]], device='cuda:0')
+Epoch 358, bias, value: tensor([ 0.0021,  0.0061,  0.0151, -0.0055,  0.0254, -0.0038,  0.0027, -0.0021,
+         0.0083, -0.0178], device='cuda:0'), grad: tensor([ 3.4459e-08,  1.3039e-08, -7.9162e-08,  1.1176e-07,  1.0254e-06,
+         2.9150e-07, -1.3970e-08,  9.3132e-08,  6.6124e-08, -1.5413e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 357, time 245.96, cls_loss 0.0004 cls_loss_mapping 0.0010 cls_loss_causal 0.4517 re_mapping 0.0029 re_causal 0.0092 /// teacc 99.19 lr 0.00010000
+Epoch 359, weight, value: tensor([[-0.2327, -0.0635,  0.2235,  ...,  0.0411, -0.2471, -0.1735],
+        [-0.1958, -0.2867, -0.0771,  ..., -0.1364, -0.3590, -0.1137],
+        [ 0.3005, -0.0795, -0.3112,  ..., -0.2378, -0.2878, -0.2217],
+        ...,
+        [-0.1217, -0.0490, -0.4139,  ..., -0.1399,  0.1329,  0.0399],
+        [-0.2347, -0.1554, -0.0654,  ..., -0.2473, -0.0656, -0.0778],
+        [-0.1194, -0.1059, -0.1665,  ...,  0.1032,  0.0272, -0.1772]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.4901e-08,  ..., -6.5193e-09,
+          0.0000e+00, -9.3132e-10],
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  1.8626e-09,  0.0000e+00,  ...,  4.6566e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.6077e-08,
+          4.6566e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.0245e-08,  ..., -4.9360e-08,
+         -1.0245e-08,  0.0000e+00]], device='cuda:0')
+Epoch 359, bias, value: tensor([ 0.0021,  0.0061,  0.0151, -0.0056,  0.0254, -0.0038,  0.0026, -0.0020,
+         0.0091, -0.0179], device='cuda:0'), grad: tensor([-1.9558e-08, -6.7055e-08,  7.4506e-09, -3.2596e-08,  5.5879e-08,
+         1.6764e-08,  1.3039e-08,  6.6124e-08,  9.7789e-08, -1.2759e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 358, time 246.02, cls_loss 0.0005 cls_loss_mapping 0.0014 cls_loss_causal 0.4759 re_mapping 0.0028 re_causal 0.0091 /// teacc 99.19 lr 0.00010000
+Epoch 360, weight, value: tensor([[-0.2333, -0.0638,  0.2236,  ...,  0.0410, -0.2474, -0.1735],
+        [-0.1961, -0.2873, -0.0771,  ..., -0.1366, -0.3611, -0.1138],
+        [ 0.3008, -0.0796, -0.3114,  ..., -0.2401, -0.2883, -0.2217],
+        ...,
+        [-0.1218, -0.0493, -0.4146,  ..., -0.1401,  0.1330,  0.0399],
+        [-0.2352, -0.1557, -0.0656,  ..., -0.2479, -0.0657, -0.0779],
+        [-0.1197, -0.1059, -0.1668,  ...,  0.1032,  0.0273, -0.1773]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.4703e-08,  ..., -9.3132e-10,
+          2.4214e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ..., -3.7253e-09,
+          5.5879e-09,  0.0000e+00],
+        [-4.6566e-09,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 3.7253e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.5832e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+         -9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  2.7940e-09,
+          9.3132e-09,  0.0000e+00]], device='cuda:0')
+Epoch 360, bias, value: tensor([ 0.0020,  0.0062,  0.0150, -0.0055,  0.0255, -0.0038,  0.0026, -0.0021,
+         0.0090, -0.0179], device='cuda:0'), grad: tensor([ 1.1548e-07, -4.7497e-08, -2.7940e-09,  3.7253e-09,  1.7695e-08,
+         5.2154e-08, -1.7136e-07,  2.7940e-09, -5.5879e-09,  3.9116e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 359, time 246.68, cls_loss 0.0004 cls_loss_mapping 0.0015 cls_loss_causal 0.4721 re_mapping 0.0030 re_causal 0.0096 /// teacc 99.13 lr 0.00010000
+Epoch 361, weight, value: tensor([[-0.2337, -0.0643,  0.2237,  ...,  0.0410, -0.2475, -0.1736],
+        [-0.1974, -0.2879, -0.0771,  ..., -0.1366, -0.3621, -0.1143],
+        [ 0.3008, -0.0796, -0.3118,  ..., -0.2408, -0.2883, -0.2218],
+        ...,
+        [-0.1214, -0.0498, -0.4148,  ..., -0.1402,  0.1332,  0.0400],
+        [-0.2358, -0.1576, -0.0657,  ..., -0.2481, -0.0658, -0.0780],
+        [-0.1200, -0.1090, -0.1669,  ...,  0.1032,  0.0273, -0.1773]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.1176e-08,  ...,  2.7940e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -2.9914e-06,
+          2.7940e-09,  0.0000e+00],
+        [-2.7940e-09,  0.0000e+00,  9.3132e-10,  ...,  8.3819e-09,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  3.4925e-07,
+          9.3132e-10,  0.0000e+00],
+        [-9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  3.3528e-08,
+          7.4506e-09,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  7.4506e-09,  ...,  2.3264e-06,
+         -1.8626e-08,  0.0000e+00]], device='cuda:0')
+Epoch 361, bias, value: tensor([ 0.0020,  0.0060,  0.0137, -0.0049,  0.0255, -0.0038,  0.0026, -0.0018,
+         0.0084, -0.0180], device='cuda:0'), grad: tensor([ 6.5193e-09, -1.4573e-05,  7.0781e-08,  3.8650e-07,  1.1148e-06,
+        -4.0606e-07,  3.0734e-08,  2.4233e-06,  5.2154e-08,  1.0878e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 360, time 246.19, cls_loss 0.0003 cls_loss_mapping 0.0013 cls_loss_causal 0.4674 re_mapping 0.0031 re_causal 0.0098 /// teacc 99.18 lr 0.00010000
+Epoch 362, weight, value: tensor([[-0.2338, -0.0644,  0.2239,  ...,  0.0410, -0.2476, -0.1736],
+        [-0.1975, -0.2882, -0.0771,  ..., -0.1365, -0.3636, -0.1149],
+        [ 0.3010, -0.0797, -0.3121,  ..., -0.2410, -0.2884, -0.2218],
+        ...,
+        [-0.1215, -0.0501, -0.4153,  ..., -0.1402,  0.1341,  0.0405],
+        [-0.2361, -0.1583, -0.0660,  ..., -0.2486, -0.0661, -0.0783],
+        [-0.1201, -0.1090, -0.1675,  ...,  0.1031,  0.0272, -0.1779]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  9.3132e-10, -5.5879e-09,  ..., -6.5193e-09,
+          5.5879e-09,  1.8626e-09],
+        [ 1.8626e-09,  1.8626e-09,  8.3819e-09,  ...,  7.4506e-09,
+          2.4214e-08,  1.8626e-09],
+        [ 3.7253e-09,  3.7253e-09,  4.6566e-09,  ...,  2.7940e-09,
+          3.7253e-09,  9.3132e-10],
+        ...,
+        [ 2.7940e-09,  3.7253e-09,  9.3132e-10,  ...,  1.1176e-08,
+         -3.2596e-08,  0.0000e+00],
+        [ 2.7940e-09,  2.7940e-09,  6.5193e-09,  ...,  6.5193e-09,
+          1.0245e-08,  9.3132e-10],
+        [ 9.3132e-10,  9.3132e-10,  1.2107e-08,  ...,  3.9581e-07,
+          6.0536e-08,  0.0000e+00]], device='cuda:0')
+Epoch 362, bias, value: tensor([ 0.0021,  0.0060,  0.0136, -0.0048,  0.0255, -0.0038,  0.0026, -0.0017,
+         0.0081, -0.0180], device='cuda:0'), grad: tensor([ 1.1176e-08,  6.5193e-09,  4.0978e-08, -1.0803e-07, -8.9966e-07,
+         1.4063e-07, -1.9558e-07,  2.8871e-08,  6.7987e-08,  9.1270e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 361, time 245.75, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.4743 re_mapping 0.0029 re_causal 0.0093 /// teacc 99.13 lr 0.00010000
+Epoch 363, weight, value: tensor([[-0.2351, -0.0649,  0.2237,  ...,  0.0410, -0.2488, -0.1742],
+        [-0.1982, -0.2887, -0.0767,  ..., -0.1365, -0.3656, -0.1155],
+        [ 0.3016, -0.0797, -0.3123,  ..., -0.2413, -0.2888, -0.2219],
+        ...,
+        [-0.1217, -0.0503, -0.4168,  ..., -0.1403,  0.1352,  0.0412],
+        [-0.2368, -0.1586, -0.0663,  ..., -0.2495, -0.0663, -0.0784],
+        [-0.1203, -0.1090, -0.1677,  ...,  0.1031,  0.0271, -0.1784]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-09,  0.0000e+00,  9.3132e-10,  ...,  3.7253e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-09,
+          9.3132e-10,  0.0000e+00],
+        [-1.6764e-08, -0.0000e+00,  4.6566e-09,  ...,  2.1420e-08,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 2.7940e-09,  0.0000e+00,  9.3132e-10,  ...,  2.7940e-09,
+         -5.5879e-09,  0.0000e+00],
+        [ 2.7940e-09,  0.0000e+00,  9.3132e-10,  ...,  1.8626e-09,
+          9.3132e-10,  9.3132e-10],
+        [ 1.8626e-09,  0.0000e+00,  9.3132e-10,  ...,  5.5879e-09,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 363, bias, value: tensor([ 0.0017,  0.0051,  0.0136, -0.0048,  0.0256, -0.0037,  0.0024, -0.0007,
+         0.0081, -0.0181], device='cuda:0'), grad: tensor([ 2.8871e-08,  8.3819e-09,  1.5832e-08, -2.5518e-07, -1.4808e-07,
+         2.2538e-07,  6.9849e-08,  1.8626e-08,  1.2107e-08,  2.5146e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 362, time 246.08, cls_loss 0.0005 cls_loss_mapping 0.0014 cls_loss_causal 0.4764 re_mapping 0.0029 re_causal 0.0094 /// teacc 99.17 lr 0.00010000
+Epoch 364, weight, value: tensor([[-0.2353, -0.0651,  0.2241,  ...,  0.0412, -0.2492, -0.1742],
+        [-0.1983, -0.2890, -0.0774,  ..., -0.1366, -0.3679, -0.1158],
+        [ 0.3018, -0.0797, -0.3128,  ..., -0.2418, -0.2898, -0.2220],
+        ...,
+        [-0.1219, -0.0510, -0.4177,  ..., -0.1404,  0.1366,  0.0416],
+        [-0.2370, -0.1587, -0.0664,  ..., -0.2494, -0.0664, -0.0786],
+        [-0.1205, -0.1090, -0.1680,  ...,  0.1031,  0.0270, -0.1786]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -1.8626e-09,  ..., -9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 1.2107e-08,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-3.4459e-08, -1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.1176e-08,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 6.5193e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  3.7253e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 364, bias, value: tensor([ 0.0020,  0.0077,  0.0133, -0.0048,  0.0256, -0.0038,  0.0024, -0.0032,
+         0.0083, -0.0182], device='cuda:0'), grad: tensor([-2.7940e-09,  1.7695e-08, -5.6811e-08, -4.6566e-09, -3.7253e-09,
+         4.6566e-09,  0.0000e+00,  2.3283e-08,  1.4901e-08,  9.3132e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 363, time 246.11, cls_loss 0.0005 cls_loss_mapping 0.0014 cls_loss_causal 0.4607 re_mapping 0.0030 re_causal 0.0093 /// teacc 99.15 lr 0.00010000
+Epoch 365, weight, value: tensor([[-0.2359, -0.0654,  0.2241,  ...,  0.0412, -0.2498, -0.1744],
+        [-0.1990, -0.2893, -0.0773,  ..., -0.1367, -0.3687, -0.1164],
+        [ 0.3027, -0.0803, -0.3130,  ..., -0.2426, -0.2921, -0.2238],
+        ...,
+        [-0.1224, -0.0514, -0.4189,  ..., -0.1410,  0.1360,  0.0436],
+        [-0.2374, -0.1591, -0.0670,  ..., -0.2497, -0.0654, -0.0793],
+        [-0.1207, -0.1090, -0.1683,  ...,  0.1031,  0.0272, -0.1787]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.9802e-08,  ...,  7.4506e-09,
+          1.3039e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          4.6566e-09,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+         -3.7253e-09, -0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ..., -1.0245e-08,
+         -1.3039e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  2.7940e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 365, bias, value: tensor([ 0.0019,  0.0078,  0.0134, -0.0048,  0.0257, -0.0038,  0.0025, -0.0034,
+         0.0086, -0.0182], device='cuda:0'), grad: tensor([ 6.3330e-08, -8.3819e-09,  1.8626e-08,  5.5879e-09,  2.1420e-08,
+         6.2399e-08, -1.0058e-07,  1.3039e-08, -1.6484e-07,  8.8476e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 364, time 245.89, cls_loss 0.0007 cls_loss_mapping 0.0018 cls_loss_causal 0.5158 re_mapping 0.0030 re_causal 0.0094 /// teacc 99.22 lr 0.00010000
+Epoch 366, weight, value: tensor([[-0.2364, -0.0663,  0.2243,  ...,  0.0410, -0.2515, -0.1752],
+        [-0.1996, -0.2900, -0.0779,  ..., -0.1367, -0.3704, -0.1202],
+        [ 0.3029, -0.0806, -0.3137,  ..., -0.2441, -0.2940, -0.2252],
+        ...,
+        [-0.1225, -0.0517, -0.4196,  ..., -0.1416,  0.1368,  0.0466],
+        [-0.2385, -0.1598, -0.0691,  ..., -0.2523, -0.0671, -0.0802],
+        [-0.1198, -0.1090, -0.1692,  ...,  0.1028,  0.0270, -0.1793]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -3.7253e-09,  ...,  3.7253e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  6.7987e-08,
+          2.0489e-08,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.0245e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-09,
+         -4.7497e-08, -9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+          4.6566e-09,  0.0000e+00],
+        [ 0.0000e+00, -3.7253e-09,  4.6566e-09,  ..., -2.4587e-07,
+          7.4506e-09,  0.0000e+00]], device='cuda:0')
+Epoch 366, bias, value: tensor([ 0.0017,  0.0078,  0.0129, -0.0048,  0.0260, -0.0040,  0.0028, -0.0034,
+         0.0084, -0.0185], device='cuda:0'), grad: tensor([ 1.5832e-08,  1.4715e-07,  8.2888e-08,  9.3132e-09,  4.4517e-07,
+         2.7008e-08, -1.3970e-08, -9.4064e-08,  1.8626e-08, -6.3144e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 365, time 246.30, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4835 re_mapping 0.0030 re_causal 0.0094 /// teacc 99.15 lr 0.00010000
+Epoch 367, weight, value: tensor([[-0.2368, -0.0667,  0.2244,  ...,  0.0411, -0.2520, -0.1753],
+        [-0.2001, -0.2903, -0.0780,  ..., -0.1368, -0.3713, -0.1210],
+        [ 0.3033, -0.0806, -0.3141,  ..., -0.2444, -0.2943, -0.2251],
+        ...,
+        [-0.1226, -0.0520, -0.4200,  ..., -0.1417,  0.1371,  0.0469],
+        [-0.2399, -0.1600, -0.0694,  ..., -0.2528, -0.0671, -0.0805],
+        [-0.1203, -0.1090, -0.1695,  ...,  0.1027,  0.0269, -0.1795]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.2107e-08,
+          7.4506e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.7742e-08,
+          3.7253e-09, -9.3132e-10],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  4.1910e-08,
+          5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.6787e-07,
+          1.8440e-07,  0.0000e+00]], device='cuda:0')
+Epoch 367, bias, value: tensor([ 0.0017,  0.0084,  0.0124, -0.0047,  0.0261, -0.0040,  0.0029, -0.0040,
+         0.0083, -0.0186], device='cuda:0'), grad: tensor([ 4.6566e-09,  4.5635e-08,  9.3132e-10,  6.5193e-09, -8.7544e-07,
+         1.8626e-09,  1.3039e-08,  1.1548e-07,  1.1735e-07,  5.7369e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 366, time 246.61, cls_loss 0.0006 cls_loss_mapping 0.0013 cls_loss_causal 0.4498 re_mapping 0.0030 re_causal 0.0093 /// teacc 99.23 lr 0.00010000
+Epoch 368, weight, value: tensor([[-0.2376, -0.0668,  0.2244,  ...,  0.0402, -0.2537, -0.1762],
+        [-0.2017, -0.2904, -0.0782,  ..., -0.1369, -0.3719, -0.1212],
+        [ 0.3059, -0.0806, -0.3146,  ..., -0.2453, -0.2934, -0.2250],
+        ...,
+        [-0.1249, -0.0521, -0.4203,  ..., -0.1425,  0.1358,  0.0469],
+        [-0.2406, -0.1599, -0.0700,  ..., -0.2526, -0.0673, -0.0809],
+        [-0.1206, -0.1091, -0.1697,  ...,  0.1028,  0.0271, -0.1795]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  2.7940e-09,
+          1.8626e-09,  9.3132e-10],
+        [ 4.6566e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-09,  2.7940e-09],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  9.3132e-10],
+        ...,
+        [ 3.7253e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -7.4506e-09, -4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00, -0.0000e+00,  ...,  3.7253e-09,
+          2.7940e-09,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  9.3132e-10,  ..., -8.3819e-09,
+          2.7940e-09,  1.8626e-09]], device='cuda:0')
+Epoch 368, bias, value: tensor([ 0.0009,  0.0084,  0.0133, -0.0046,  0.0262, -0.0043,  0.0028, -0.0042,
+         0.0100, -0.0185], device='cuda:0'), grad: tensor([ 2.6077e-08, -4.0978e-08,  2.7008e-08, -3.3528e-08,  1.9558e-08,
+        -1.1083e-07,  3.0734e-08, -2.7940e-09,  6.5193e-09,  5.9605e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 367, time 246.58, cls_loss 0.0005 cls_loss_mapping 0.0011 cls_loss_causal 0.4869 re_mapping 0.0031 re_causal 0.0100 /// teacc 99.17 lr 0.00010000
+Epoch 369, weight, value: tensor([[-0.2381, -0.0669,  0.2246,  ...,  0.0400, -0.2540, -0.1763],
+        [-0.2023, -0.2907, -0.0782,  ..., -0.1370, -0.3757, -0.1204],
+        [ 0.3075, -0.0803, -0.3149,  ..., -0.2455, -0.2938, -0.2245],
+        ...,
+        [-0.1258, -0.0525, -0.4208,  ..., -0.1425,  0.1378,  0.0466],
+        [-0.2441, -0.1602, -0.0702,  ..., -0.2528, -0.0674, -0.0812],
+        [-0.1213, -0.1091, -0.1708,  ...,  0.1029,  0.0270, -0.1797]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.0489e-08,  ..., -1.7695e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.2352e-08,  ...,  2.5146e-07,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 369, bias, value: tensor([ 0.0007,  0.0081,  0.0142, -0.0045,  0.0261, -0.0044,  0.0030, -0.0040,
+         0.0098, -0.0186], device='cuda:0'), grad: tensor([-4.1910e-08, -1.1548e-07,  4.6566e-08,  1.8626e-09, -4.4890e-07,
+         1.4901e-08,  1.3970e-08,  1.1735e-07, -6.5193e-08,  4.9360e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 368, time 246.51, cls_loss 0.0005 cls_loss_mapping 0.0016 cls_loss_causal 0.5057 re_mapping 0.0032 re_causal 0.0101 /// teacc 99.14 lr 0.00010000
+Epoch 370, weight, value: tensor([[-0.2387, -0.0670,  0.2249,  ...,  0.0402, -0.2547, -0.1763],
+        [-0.2035, -0.2909, -0.0782,  ..., -0.1370, -0.3766, -0.1221],
+        [ 0.3080, -0.0807, -0.3154,  ..., -0.2457, -0.2969, -0.2275],
+        ...,
+        [-0.1258, -0.0529, -0.4214,  ..., -0.1426,  0.1396,  0.0496],
+        [-0.2445, -0.1603, -0.0707,  ..., -0.2532, -0.0676, -0.0806],
+        [-0.1215, -0.1091, -0.1717,  ...,  0.1027,  0.0269, -0.1800]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 5.5879e-08,  0.0000e+00, -0.0000e+00,  ...,  4.6566e-09,
+          1.8626e-09,  0.0000e+00],
+        [-1.1548e-07,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.2107e-08,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-09,
+         -0.0000e+00,  0.0000e+00],
+        [ 8.3819e-09,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+          9.3132e-10, -0.0000e+00],
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ..., -2.8871e-08,
+         -3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 370, bias, value: tensor([ 0.0008,  0.0081,  0.0133, -0.0042,  0.0263, -0.0047,  0.0031, -0.0038,
+         0.0098, -0.0188], device='cuda:0'), grad: tensor([ 1.3970e-08,  1.2387e-07, -2.4866e-07,  6.0536e-08,  4.5635e-08,
+         1.6764e-08,  0.0000e+00,  5.8673e-08,  1.3039e-08, -7.6368e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 369, time 246.47, cls_loss 0.0005 cls_loss_mapping 0.0014 cls_loss_causal 0.4463 re_mapping 0.0031 re_causal 0.0092 /// teacc 99.06 lr 0.00010000
+Epoch 371, weight, value: tensor([[-0.2397, -0.0682,  0.2252,  ...,  0.0404, -0.2548, -0.1763],
+        [-0.2040, -0.2911, -0.0784,  ..., -0.1372, -0.3770, -0.1232],
+        [ 0.3098, -0.0806, -0.3160,  ..., -0.2459, -0.2971, -0.2274],
+        ...,
+        [-0.1262, -0.0531, -0.4228,  ..., -0.1427,  0.1398,  0.0498],
+        [-0.2477, -0.1589, -0.0713,  ..., -0.2535, -0.0677, -0.0809],
+        [-0.1218, -0.1091, -0.1723,  ...,  0.1026,  0.0268, -0.1804]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -6.9849e-09,  ...,  3.7253e-09,
+          4.6566e-10, -0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  3.3993e-08,
+          4.6566e-10,  0.0000e+00],
+        [-3.3062e-08,  4.6566e-10,  0.0000e+00,  ...,  1.3970e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 3.0268e-08,  0.0000e+00,  0.0000e+00,  ...,  4.7637e-07,
+         -9.3132e-10,  0.0000e+00],
+        [ 4.6566e-10, -9.3132e-10,  0.0000e+00,  ...,  1.5832e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ..., -1.1111e-06,
+          4.6566e-10,  0.0000e+00]], device='cuda:0')
+Epoch 371, bias, value: tensor([ 0.0008,  0.0082,  0.0143, -0.0045,  0.0264, -0.0048,  0.0031, -0.0039,
+         0.0100, -0.0188], device='cuda:0'), grad: tensor([ 9.3132e-09,  9.0338e-08, -5.2154e-08,  9.7789e-09,  1.7984e-06,
+        -8.3819e-09,  2.7940e-08,  1.3635e-06,  3.4925e-08, -3.2652e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 370, time 246.58, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4653 re_mapping 0.0030 re_causal 0.0094 /// teacc 99.20 lr 0.00010000
+Epoch 372, weight, value: tensor([[-0.2399, -0.0683,  0.2254,  ...,  0.0403, -0.2549, -0.1763],
+        [-0.2045, -0.2913, -0.0785,  ..., -0.1373, -0.3788, -0.1239],
+        [ 0.3101, -0.0804, -0.3164,  ..., -0.2462, -0.2974, -0.2275],
+        ...,
+        [-0.1263, -0.0532, -0.4233,  ..., -0.1430,  0.1405,  0.0499],
+        [-0.2478, -0.1592, -0.0717,  ..., -0.2542, -0.0678, -0.0810],
+        [-0.1220, -0.1091, -0.1725,  ...,  0.1025,  0.0268, -0.1805]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ..., -3.2596e-09,
+          6.9849e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.2596e-09,  ...,  9.3132e-10,
+          1.3504e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  5.1223e-09,  ...,  9.3132e-10,
+          1.3970e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  4.6566e-10,  4.6566e-10,  ...,  5.1223e-09,
+         -2.9337e-08,  0.0000e+00],
+        [ 4.6566e-10, -0.0000e+00,  1.5367e-08,  ...,  1.3970e-09,
+          6.9849e-09,  4.6566e-10],
+        [ 0.0000e+00, -4.6566e-10,  6.9849e-09,  ..., -1.2573e-08,
+          6.5193e-09,  0.0000e+00]], device='cuda:0')
+Epoch 372, bias, value: tensor([ 0.0007,  0.0081,  0.0134, -0.0045,  0.0265, -0.0048,  0.0030, -0.0039,
+         0.0107, -0.0189], device='cuda:0'), grad: tensor([ 4.9826e-08,  5.7276e-08,  1.7229e-08,  2.3283e-08,  3.7579e-07,
+         3.9116e-08, -5.4436e-07, -9.3598e-08,  6.8918e-08,  1.8626e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 371, time 246.36, cls_loss 0.0004 cls_loss_mapping 0.0013 cls_loss_causal 0.4545 re_mapping 0.0030 re_causal 0.0098 /// teacc 99.13 lr 0.00010000
+Epoch 373, weight, value: tensor([[-0.2401, -0.0687,  0.2255,  ...,  0.0403, -0.2550, -0.1763],
+        [-0.2046, -0.2915, -0.0785,  ..., -0.1374, -0.3796, -0.1247],
+        [ 0.3105, -0.0796, -0.3168,  ..., -0.2466, -0.2975, -0.2275],
+        ...,
+        [-0.1264, -0.0534, -0.4235,  ..., -0.1431,  0.1409,  0.0500],
+        [-0.2483, -0.1604, -0.0721,  ..., -0.2549, -0.0680, -0.0811],
+        [-0.1227, -0.1090, -0.1729,  ...,  0.1025,  0.0268, -0.1806]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  9.3132e-10, -1.8626e-09,  ...,  6.0070e-08,
+          2.3283e-09,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  2.9337e-08,
+          1.8626e-09,  4.6566e-10],
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  3.7253e-09,
+          4.6566e-10,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  1.8626e-09,  0.0000e+00,  ...,  2.2072e-07,
+          9.7789e-09,  4.6566e-10],
+        [ 9.3132e-10,  1.0710e-08,  9.3132e-10,  ...,  9.1270e-08,
+          9.3132e-10,  1.3970e-09],
+        [ 4.6566e-10, -1.7229e-08,  4.1910e-09,  ..., -6.2911e-07,
+         -1.7229e-08,  1.3970e-09]], device='cuda:0')
+Epoch 373, bias, value: tensor([ 0.0008,  0.0081,  0.0135, -0.0045,  0.0265, -0.0048,  0.0030, -0.0038,
+         0.0105, -0.0190], device='cuda:0'), grad: tensor([ 2.2398e-07,  2.1933e-07,  3.0547e-07, -5.7705e-06,  6.4587e-07,
+         5.6922e-06,  4.6566e-09,  3.5390e-07,  3.3993e-07, -2.0135e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 372, time 246.35, cls_loss 0.0006 cls_loss_mapping 0.0021 cls_loss_causal 0.4791 re_mapping 0.0031 re_causal 0.0094 /// teacc 99.11 lr 0.00010000
+Epoch 374, weight, value: tensor([[-0.2404, -0.0691,  0.2267,  ...,  0.0406, -0.2551, -0.1763],
+        [-0.2051, -0.2924, -0.0799,  ..., -0.1377, -0.3835, -0.1229],
+        [ 0.3110, -0.0802, -0.3178,  ..., -0.2471, -0.2985, -0.2280],
+        ...,
+        [-0.1267, -0.0531, -0.4245,  ..., -0.1432,  0.1434,  0.0506],
+        [-0.2485, -0.1607, -0.0735,  ..., -0.2561, -0.0682, -0.0817],
+        [-0.1228, -0.1089, -0.1737,  ...,  0.1015,  0.0266, -0.1807]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00, -9.1363e-07,  ..., -5.4063e-07,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  4.6566e-10,  4.6566e-10,  ...,  3.0268e-08,
+          9.3132e-09,  9.3132e-10],
+        [-3.7253e-09,  0.0000e+00,  3.7253e-09,  ...,  3.7253e-09,
+          2.3283e-09,  0.0000e+00],
+        ...,
+        [ 2.7940e-09,  4.6566e-10,  9.3132e-10,  ...,  1.3039e-08,
+         -2.1886e-08, -1.8626e-09],
+        [ 1.8626e-09,  0.0000e+00,  2.5611e-08,  ...,  2.6543e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  8.7498e-07,  ...,  1.9856e-06,
+          6.5193e-09,  0.0000e+00]], device='cuda:0')
+Epoch 374, bias, value: tensor([ 0.0018,  0.0073,  0.0133, -0.0044,  0.0274, -0.0047,  0.0026, -0.0031,
+         0.0102, -0.0198], device='cuda:0'), grad: tensor([-1.6857e-06,  8.4750e-08,  1.9092e-08,  1.5832e-08, -2.5630e-06,
+         2.4633e-07,  8.4285e-08, -4.6566e-08, -2.9430e-07,  4.1351e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 373, time 246.19, cls_loss 0.0005 cls_loss_mapping 0.0014 cls_loss_causal 0.4709 re_mapping 0.0030 re_causal 0.0093 /// teacc 99.12 lr 0.00010000
+Epoch 375, weight, value: tensor([[-0.2406, -0.0692,  0.2271,  ...,  0.0408, -0.2554, -0.1763],
+        [-0.2057, -0.2929, -0.0799,  ..., -0.1378, -0.3837, -0.1231],
+        [ 0.3115, -0.0807, -0.3185,  ..., -0.2475, -0.2991, -0.2284],
+        ...,
+        [-0.1269, -0.0524, -0.4258,  ..., -0.1434,  0.1440,  0.0511],
+        [-0.2487, -0.1611, -0.0754,  ..., -0.2572, -0.0685, -0.0819],
+        [-0.1239, -0.1086, -0.1745,  ...,  0.1014,  0.0265, -0.1810]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -5.9828e-06,  ..., -1.0841e-06,
+          4.6566e-10, -1.0245e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.2573e-08,  ...,  8.3819e-09,
+          4.6566e-10,  0.0000e+00],
+        [-2.3283e-09,  0.0000e+00,  1.8626e-09,  ...,  4.6566e-10,
+          4.6566e-10,  0.0000e+00],
+        ...,
+        [ 1.3970e-09,  0.0000e+00,  3.7253e-09,  ...,  2.1886e-08,
+         -4.6566e-10,  0.0000e+00],
+        [ 4.6566e-10,  1.8626e-09,  2.4214e-08,  ...,  2.3283e-08,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  5.8673e-08,  ..., -2.1560e-07,
+         -5.1223e-09,  0.0000e+00]], device='cuda:0')
+Epoch 375, bias, value: tensor([ 0.0021,  0.0072,  0.0133, -0.0044,  0.0275, -0.0046,  0.0023, -0.0029,
+         0.0100, -0.0199], device='cuda:0'), grad: tensor([-1.3568e-05,  3.3993e-08,  1.2573e-08,  1.2200e-07,  4.1164e-07,
+         1.7788e-06,  1.1414e-05,  6.6590e-08,  8.1491e-08, -3.7206e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 374, time 246.30, cls_loss 0.0006 cls_loss_mapping 0.0011 cls_loss_causal 0.4551 re_mapping 0.0028 re_causal 0.0089 /// teacc 99.10 lr 0.00010000
+Epoch 376, weight, value: tensor([[-0.2405, -0.0693,  0.2301,  ...,  0.0413, -0.2552, -0.1764],
+        [-0.2062, -0.2934, -0.0800,  ..., -0.1380, -0.3839, -0.1233],
+        [ 0.3120, -0.0812, -0.3211,  ..., -0.2485, -0.2994, -0.2284],
+        ...,
+        [-0.1271, -0.0523, -0.4269,  ..., -0.1435,  0.1442,  0.0511],
+        [-0.2487, -0.1611, -0.0768,  ..., -0.2576, -0.0688, -0.0822],
+        [-0.1261, -0.1100, -0.1749,  ...,  0.1011,  0.0265, -0.1810]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  4.6566e-10,
+          9.3132e-10,  4.6566e-10],
+        [ 4.6566e-10,  0.0000e+00, -0.0000e+00,  ...,  3.2596e-09,
+          7.4506e-09,  2.3283e-09],
+        [-7.4506e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09,  9.3132e-10],
+        ...,
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  1.6764e-08,
+         -1.2573e-08, -4.6566e-09],
+        [ 2.3283e-09,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          1.8626e-09,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ..., -3.8650e-08,
+         -1.8626e-09,  9.3132e-10]], device='cuda:0')
+Epoch 376, bias, value: tensor([ 0.0050,  0.0066,  0.0132, -0.0044,  0.0278, -0.0046,  0.0011, -0.0023,
+         0.0099, -0.0201], device='cuda:0'), grad: tensor([ 1.3039e-08, -7.3109e-08,  1.3504e-08,  3.8184e-08,  7.9162e-08,
+        -1.2061e-07,  1.0896e-07,  4.6100e-08,  2.9337e-08, -1.1409e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 375, time 246.39, cls_loss 0.0004 cls_loss_mapping 0.0010 cls_loss_causal 0.4495 re_mapping 0.0028 re_causal 0.0093 /// teacc 99.12 lr 0.00010000
+Epoch 377, weight, value: tensor([[-0.2407, -0.0695,  0.2332,  ...,  0.0386, -0.2555, -0.1764],
+        [-0.2064, -0.2937, -0.0803,  ..., -0.1383, -0.3840, -0.1236],
+        [ 0.3121, -0.0813, -0.3219,  ..., -0.2488, -0.2995, -0.2285],
+        ...,
+        [-0.1272, -0.0527, -0.4274,  ..., -0.1437,  0.1444,  0.0512],
+        [-0.2488, -0.1612, -0.0770,  ..., -0.2577, -0.0691, -0.0823],
+        [-0.1262, -0.1104, -0.1752,  ...,  0.1019,  0.0265, -0.1811]],
+       device='cuda:0'), grad: tensor([[-0.0000e+00,  0.0000e+00, -4.6566e-10,  ...,  4.6566e-10,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -4.6566e-10,  ...,  1.3970e-09,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+         -2.7940e-09,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  1.8859e-07,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 377, bias, value: tensor([ 0.0059,  0.0065,  0.0131, -0.0041,  0.0278, -0.0048, -0.0011, -0.0023,
+         0.0099, -0.0196], device='cuda:0'), grad: tensor([ 2.3283e-09, -3.7253e-08,  3.2596e-09,  4.6566e-09, -4.0419e-07,
+         4.3772e-08, -3.4459e-08,  2.1420e-08,  3.7253e-09,  4.0093e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 376, time 246.59, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4695 re_mapping 0.0027 re_causal 0.0089 /// teacc 99.11 lr 0.00010000
+Epoch 378, weight, value: tensor([[-0.2410, -0.0696,  0.2332,  ...,  0.0386, -0.2557, -0.1764],
+        [-0.2068, -0.2941, -0.0804,  ..., -0.1392, -0.3841, -0.1237],
+        [ 0.3125, -0.0810, -0.3223,  ..., -0.2491, -0.2996, -0.2285],
+        ...,
+        [-0.1274, -0.0531, -0.4280,  ..., -0.1439,  0.1446,  0.0512],
+        [-0.2490, -0.1615, -0.0776,  ..., -0.2585, -0.0696, -0.0825],
+        [-0.1276, -0.1107, -0.1755,  ...,  0.1008,  0.0262, -0.1811]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.3027e-07,  ...,  0.0000e+00,
+          4.1910e-09, -6.5658e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  4.6566e-10,
+          2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+         -5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00, -4.6566e-10,  1.8626e-09,  ...,  9.3132e-10,
+          9.3132e-10,  4.6566e-10],
+        [ 0.0000e+00,  4.6566e-10,  5.1223e-09,  ...,  1.3737e-07,
+          4.6566e-10,  9.3132e-10]], device='cuda:0')
+Epoch 378, bias, value: tensor([ 0.0059,  0.0064,  0.0133, -0.0042,  0.0290, -0.0044, -0.0013, -0.0024,
+         0.0097, -0.0206], device='cuda:0'), grad: tensor([-8.1351e-07,  3.1665e-08,  1.0710e-08,  4.1910e-09, -2.7334e-07,
+         8.0047e-07,  1.8161e-08, -6.5193e-08, -5.7742e-08,  3.4552e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 377, time 246.48, cls_loss 0.0006 cls_loss_mapping 0.0009 cls_loss_causal 0.4634 re_mapping 0.0028 re_causal 0.0089 /// teacc 99.13 lr 0.00010000
+Epoch 379, weight, value: tensor([[-0.2412, -0.0699,  0.2337,  ...,  0.0384, -0.2555, -0.1757],
+        [-0.2073, -0.2946, -0.0805,  ..., -0.1401, -0.3843, -0.1238],
+        [ 0.3129, -0.0810, -0.3232,  ..., -0.2496, -0.2997, -0.2285],
+        ...,
+        [-0.1275, -0.0533, -0.4305,  ..., -0.1441,  0.1448,  0.0512],
+        [-0.2491, -0.1617, -0.0784,  ..., -0.2590, -0.0697, -0.0826],
+        [-0.1278, -0.1107, -0.1768,  ...,  0.1008,  0.0262, -0.1812]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -2.3749e-08,  ..., -7.9162e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 3.2596e-09,  0.0000e+00,  9.3132e-10,  ...,  2.7940e-09,
+          4.6566e-10,  0.0000e+00],
+        [-8.5682e-08,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 8.1025e-08,  0.0000e+00,  9.3132e-10,  ...,  3.7253e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 1.3970e-09,  0.0000e+00,  7.9162e-09,  ...,  5.5879e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  8.8476e-09,  ..., -1.5367e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 379, bias, value: tensor([ 0.0060,  0.0057,  0.0133, -0.0032,  0.0291, -0.0054, -0.0013, -0.0018,
+         0.0096, -0.0206], device='cuda:0'), grad: tensor([-4.1444e-08, -3.3993e-08, -2.1700e-07,  4.6566e-09,  2.9337e-08,
+         2.3283e-09,  1.8626e-08,  2.6776e-07,  2.5611e-08, -3.9581e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 378, time 246.63, cls_loss 0.0005 cls_loss_mapping 0.0009 cls_loss_causal 0.4514 re_mapping 0.0028 re_causal 0.0089 /// teacc 99.12 lr 0.00010000
+Epoch 380, weight, value: tensor([[-0.2414, -0.0700,  0.2337,  ...,  0.0384, -0.2556, -0.1756],
+        [-0.2072, -0.2948, -0.0803,  ..., -0.1405, -0.3846, -0.1239],
+        [ 0.3131, -0.0811, -0.3236,  ..., -0.2502, -0.2998, -0.2285],
+        ...,
+        [-0.1277, -0.0536, -0.4322,  ..., -0.1443,  0.1452,  0.0513],
+        [-0.2493, -0.1618, -0.0791,  ..., -0.2611, -0.0702, -0.0827],
+        [-0.1278, -0.1106, -0.1770,  ...,  0.1007,  0.0262, -0.1815]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -9.3132e-10,  ..., -1.8626e-09,
+          2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-09,  3.7253e-09],
+        [-1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.9558e-08, -8.3819e-09],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ..., -5.5879e-09,
+          3.7253e-09,  1.8626e-09]], device='cuda:0')
+Epoch 380, bias, value: tensor([ 0.0061,  0.0058,  0.0126, -0.0031,  0.0293, -0.0055, -0.0013, -0.0018,
+         0.0093, -0.0208], device='cuda:0'), grad: tensor([ 8.3819e-09, -2.6822e-07,  1.3970e-08,  2.1420e-08,  2.6077e-08,
+         2.1420e-08, -6.5193e-09,  1.0617e-07,  3.6322e-08,  4.1910e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 379, time 246.45, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4482 re_mapping 0.0029 re_causal 0.0089 /// teacc 99.15 lr 0.00010000
+Epoch 381, weight, value: tensor([[-0.2420, -0.0703,  0.2338,  ...,  0.0384, -0.2559, -0.1756],
+        [-0.2092, -0.2952, -0.0806,  ..., -0.1426, -0.3858, -0.1273],
+        [ 0.3140, -0.0806, -0.3240,  ..., -0.2504, -0.3000, -0.2286],
+        ...,
+        [-0.1280, -0.0540, -0.4326,  ..., -0.1443,  0.1470,  0.0523],
+        [-0.2498, -0.1625, -0.0794,  ..., -0.2619, -0.0707, -0.0839],
+        [-0.1280, -0.1108, -0.1774,  ...,  0.1006,  0.0262, -0.1825]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.4901e-08,  ..., -3.7253e-09,
+          9.3132e-10, -9.3132e-10],
+        [ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ..., -9.3132e-10,
+          5.5879e-09,  9.3132e-10],
+        [-2.7940e-09, -0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-09,  0.0000e+00],
+        ...,
+        [ 2.7940e-09,  0.0000e+00,  5.5879e-09,  ...,  2.7940e-09,
+         -3.0734e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ..., -4.6566e-09,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 381, bias, value: tensor([ 0.0061,  0.0054,  0.0129, -0.0032,  0.0296, -0.0054, -0.0011, -0.0016,
+         0.0089, -0.0210], device='cuda:0'), grad: tensor([-1.0245e-08, -1.6857e-07,  2.0489e-08,  2.2352e-08,  8.1956e-08,
+         2.2352e-08,  3.1665e-08, -4.1910e-08,  4.9360e-08, -9.3132e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 380, time 246.13, cls_loss 0.0004 cls_loss_mapping 0.0011 cls_loss_causal 0.4206 re_mapping 0.0029 re_causal 0.0089 /// teacc 99.17 lr 0.00010000
+Epoch 382, weight, value: tensor([[-0.2425, -0.0707,  0.2338,  ...,  0.0384, -0.2562, -0.1756],
+        [-0.2096, -0.2956, -0.0806,  ..., -0.1427, -0.3859, -0.1273],
+        [ 0.3145, -0.0805, -0.3241,  ..., -0.2505, -0.3000, -0.2285],
+        ...,
+        [-0.1285, -0.0547, -0.4329,  ..., -0.1444,  0.1474,  0.0524],
+        [-0.2498, -0.1627, -0.0797,  ..., -0.2620, -0.0708, -0.0840],
+        [-0.1281, -0.1108, -0.1776,  ...,  0.1005,  0.0261, -0.1826]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-10,
+          2.7940e-09,  0.0000e+00],
+        [ 8.3819e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-8.5682e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 4.4703e-08,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 1.0245e-08,  0.0000e+00,  0.0000e+00,  ...,  5.5879e-09,
+          8.3819e-09,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ..., -0.0000e+00,
+          2.7940e-09,  0.0000e+00]], device='cuda:0')
+Epoch 382, bias, value: tensor([ 0.0060,  0.0055,  0.0128, -0.0028,  0.0297, -0.0056, -0.0011, -0.0017,
+         0.0088, -0.0211], device='cuda:0'), grad: tensor([ 1.7695e-08,  6.5193e-09, -1.8720e-07,  8.6613e-08,  1.5832e-08,
+        -2.0117e-07,  5.9605e-08,  1.1548e-07,  7.5437e-08,  1.6764e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 381, time 245.86, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4788 re_mapping 0.0031 re_causal 0.0096 /// teacc 99.10 lr 0.00010000
+Epoch 383, weight, value: tensor([[-0.2433, -0.0709,  0.2338,  ...,  0.0384, -0.2567, -0.1757],
+        [-0.2097, -0.2959, -0.0806,  ..., -0.1428, -0.3861, -0.1277],
+        [ 0.3149, -0.0806, -0.3244,  ..., -0.2508, -0.3001, -0.2285],
+        ...,
+        [-0.1287, -0.0552, -0.4335,  ..., -0.1446,  0.1477,  0.0523],
+        [-0.2500, -0.1628, -0.0800,  ..., -0.2627, -0.0706, -0.0843],
+        [-0.1282, -0.1108, -0.1778,  ...,  0.1005,  0.0262, -0.1827]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [-2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+         -2.7940e-09, -9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -6.5193e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 383, bias, value: tensor([ 0.0060,  0.0054,  0.0119, -0.0029,  0.0297, -0.0054, -0.0011, -0.0015,
+         0.0090, -0.0211], device='cuda:0'), grad: tensor([ 2.7940e-08,  3.5204e-07,  3.9116e-08,  6.5193e-09,  2.7008e-08,
+         4.6566e-09,  9.3132e-10, -4.2096e-07,  3.7253e-09, -2.5146e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 382, time 245.85, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4317 re_mapping 0.0030 re_causal 0.0093 /// teacc 99.20 lr 0.00010000
+Epoch 384, weight, value: tensor([[-0.2439, -0.0711,  0.2338,  ...,  0.0384, -0.2572, -0.1757],
+        [-0.2137, -0.2967, -0.0811,  ..., -0.1431, -0.3863, -0.1283],
+        [ 0.3174, -0.0805, -0.3251,  ..., -0.2544, -0.3002, -0.2289],
+        ...,
+        [-0.1291, -0.0554, -0.4343,  ..., -0.1447,  0.1480,  0.0529],
+        [-0.2501, -0.1631, -0.0809,  ..., -0.2639, -0.0707, -0.0845],
+        [-0.1286, -0.1109, -0.1781,  ...,  0.1004,  0.0262, -0.1828]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+         -0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  4.0047e-08,  ...,  1.3970e-08,
+          1.1176e-08,  2.7940e-09],
+        [ 1.8626e-09,  0.0000e+00,  9.3132e-10,  ..., -1.9558e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 384, bias, value: tensor([ 0.0059,  0.0050,  0.0128, -0.0031,  0.0298, -0.0054, -0.0008, -0.0014,
+         0.0090, -0.0212], device='cuda:0'), grad: tensor([ 2.4214e-08,  3.7253e-09,  1.8626e-08,  2.5444e-06,  6.5193e-09,
+        -3.2075e-06,  5.2992e-07,  1.0245e-08,  8.2888e-08, -1.1176e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 383, time 246.00, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4789 re_mapping 0.0028 re_causal 0.0093 /// teacc 99.17 lr 0.00010000
+Epoch 385, weight, value: tensor([[-0.2442, -0.0712,  0.2338,  ...,  0.0384, -0.2573, -0.1757],
+        [-0.2144, -0.2972, -0.0805,  ..., -0.1431, -0.3864, -0.1283],
+        [ 0.3183, -0.0807, -0.3257,  ..., -0.2546, -0.3002, -0.2289],
+        ...,
+        [-0.1296, -0.0560, -0.4358,  ..., -0.1452,  0.1478,  0.0529],
+        [-0.2505, -0.1633, -0.0818,  ..., -0.2649, -0.0707, -0.0846],
+        [-0.1287, -0.1109, -0.1785,  ...,  0.1005,  0.0262, -0.1828]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -1.8626e-09,  ..., -9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-3.7253e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 385, bias, value: tensor([ 0.0059,  0.0055,  0.0129, -0.0029,  0.0297, -0.0055, -0.0007, -0.0019,
+         0.0091, -0.0211], device='cuda:0'), grad: tensor([ 9.3132e-10,  6.5193e-09, -5.5879e-09,  1.3970e-08, -1.5832e-08,
+        -1.1176e-08,  2.0862e-07,  9.3132e-09, -2.1420e-07,  1.3970e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 384, time 246.00, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4564 re_mapping 0.0029 re_causal 0.0090 /// teacc 99.09 lr 0.00010000
+Epoch 386, weight, value: tensor([[-0.2445, -0.0713,  0.2338,  ...,  0.0384, -0.2576, -0.1757],
+        [-0.2145, -0.2975, -0.0801,  ..., -0.1432, -0.3866, -0.1292],
+        [ 0.3186, -0.0811, -0.3263,  ..., -0.2547, -0.3003, -0.2290],
+        ...,
+        [-0.1297, -0.0563, -0.4366,  ..., -0.1453,  0.1481,  0.0532],
+        [-0.2507, -0.1633, -0.0825,  ..., -0.2649, -0.0707, -0.0848],
+        [-0.1304, -0.1109, -0.1787,  ...,  0.1004,  0.0261, -0.1832]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-09,  0.0000e+00, -9.3132e-10,  ..., -6.5193e-09,
+          6.5193e-09, -0.0000e+00],
+        [-2.1420e-08, -0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10, -0.0000e+00],
+        ...,
+        [ 5.5879e-09,  0.0000e+00,  0.0000e+00,  ...,  5.5879e-09,
+         -1.6764e-08,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 3.7253e-09,  0.0000e+00,  9.3132e-10,  ..., -6.5193e-09,
+          5.5879e-09,  0.0000e+00]], device='cuda:0')
+Epoch 386, bias, value: tensor([ 0.0058,  0.0058,  0.0128, -0.0036,  0.0298, -0.0047, -0.0007, -0.0022,
+         0.0094, -0.0213], device='cuda:0'), grad: tensor([ 3.1665e-08, -1.0058e-07, -1.7695e-08,  9.9652e-08,  1.4994e-07,
+        -1.3132e-07,  7.5437e-08, -3.6880e-07,  2.2352e-08,  2.3935e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 385, time 245.89, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4538 re_mapping 0.0029 re_causal 0.0090 /// teacc 99.16 lr 0.00010000
+Epoch 387, weight, value: tensor([[-0.2455, -0.0714,  0.2339,  ...,  0.0384, -0.2580, -0.1758],
+        [-0.2147, -0.2976, -0.0785,  ..., -0.1430, -0.3868, -0.1280],
+        [ 0.3189, -0.0811, -0.3269,  ..., -0.2552, -0.3004, -0.2290],
+        ...,
+        [-0.1298, -0.0565, -0.4375,  ..., -0.1461,  0.1483,  0.0534],
+        [-0.2508, -0.1634, -0.0839,  ..., -0.2654, -0.0709, -0.0849],
+        [-0.1306, -0.1109, -0.1792,  ...,  0.1007,  0.0262, -0.1836]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.0489e-08,  ..., -1.3970e-08,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -4.6566e-09,
+         -9.3132e-10,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  4.0978e-08],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  2.7940e-09,
+          0.0000e+00,  1.3970e-08]], device='cuda:0')
+Epoch 387, bias, value: tensor([ 0.0058,  0.0060,  0.0126, -0.0037,  0.0295, -0.0048, -0.0010, -0.0023,
+         0.0095, -0.0211], device='cuda:0'), grad: tensor([-4.1910e-08,  6.3330e-08,  2.2352e-08,  3.5390e-08,  1.6764e-08,
+        -5.9418e-07,  1.2573e-07, -1.9092e-07,  3.4366e-07,  2.1979e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 386, time 246.17, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4660 re_mapping 0.0028 re_causal 0.0090 /// teacc 99.08 lr 0.00010000
+Epoch 388, weight, value: tensor([[-0.2459, -0.0714,  0.2339,  ...,  0.0385, -0.2584, -0.1760],
+        [-0.2151, -0.2977, -0.0786,  ..., -0.1430, -0.3870, -0.1284],
+        [ 0.3196, -0.0811, -0.3275,  ..., -0.2554, -0.3004, -0.2291],
+        ...,
+        [-0.1303, -0.0567, -0.4378,  ..., -0.1463,  0.1486,  0.0537],
+        [-0.2510, -0.1634, -0.0843,  ..., -0.2656, -0.0710, -0.0853],
+        [-0.1311, -0.1109, -0.1794,  ...,  0.1007,  0.0261, -0.1838]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ..., -0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-1.8626e-09, -0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.5193e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 388, bias, value: tensor([ 0.0057,  0.0052,  0.0124, -0.0036,  0.0295, -0.0048, -0.0010, -0.0014,
+         0.0101, -0.0211], device='cuda:0'), grad: tensor([ 2.7940e-09, -1.4901e-08,  1.8626e-09,  1.8626e-09, -2.0489e-08,
+        -3.7253e-09,  4.6566e-09,  1.3970e-08,  0.0000e+00,  1.3970e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 387, time 246.15, cls_loss 0.0004 cls_loss_mapping 0.0010 cls_loss_causal 0.4448 re_mapping 0.0029 re_causal 0.0093 /// teacc 99.04 lr 0.00010000
+Epoch 389, weight, value: tensor([[-0.2471, -0.0715,  0.2352,  ...,  0.0395, -0.2585, -0.1759],
+        [-0.2155, -0.2978, -0.0786,  ..., -0.1433, -0.3870, -0.1286],
+        [ 0.3204, -0.0811, -0.3288,  ..., -0.2557, -0.3004, -0.2291],
+        ...,
+        [-0.1308, -0.0574, -0.4382,  ..., -0.1468,  0.1486,  0.0538],
+        [-0.2511, -0.1635, -0.0846,  ..., -0.2667, -0.0711, -0.0853],
+        [-0.1313, -0.1110, -0.1818,  ...,  0.1003,  0.0262, -0.1839]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.7229e-07,  ..., -1.1362e-07,
+          1.8626e-08,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ...,  5.5879e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  5.5879e-09,  ...,  4.6566e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.4901e-08,  ...,  9.3132e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.1921e-07,  ...,  6.0536e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 389, bias, value: tensor([ 0.0068,  0.0051,  0.0128, -0.0036,  0.0294, -0.0048, -0.0011, -0.0014,
+         0.0102, -0.0214], device='cuda:0'), grad: tensor([-4.0047e-07,  1.6764e-08,  8.3819e-09,  4.5635e-08,  1.5832e-08,
+        -3.9116e-08,  2.7940e-09,  2.7008e-08,  4.3772e-08,  2.8592e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 388, time 246.05, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4711 re_mapping 0.0028 re_causal 0.0089 /// teacc 99.08 lr 0.00010000
+Epoch 390, weight, value: tensor([[-0.2477, -0.0716,  0.2365,  ...,  0.0409, -0.2595, -0.1760],
+        [-0.2157, -0.2981, -0.0786,  ..., -0.1435, -0.3871, -0.1286],
+        [ 0.3211, -0.0810, -0.3299,  ..., -0.2561, -0.3005, -0.2291],
+        ...,
+        [-0.1314, -0.0583, -0.4388,  ..., -0.1472,  0.1487,  0.0539],
+        [-0.2512, -0.1636, -0.0849,  ..., -0.2679, -0.0712, -0.0859],
+        [-0.1325, -0.1109, -0.1835,  ...,  0.0998,  0.0262, -0.1834]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [-5.7742e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.7695e-08,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+         -0.0000e+00,  9.3132e-10],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -2.4214e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 390, bias, value: tensor([ 0.0082,  0.0049,  0.0131, -0.0039,  0.0294, -0.0046, -0.0011, -0.0012,
+         0.0101, -0.0220], device='cuda:0'), grad: tensor([ 1.2107e-08, -1.1176e-08, -1.1269e-07,  7.5437e-08,  6.2399e-08,
+        -3.9116e-08,  7.4506e-09,  4.3772e-08,  9.3132e-09, -4.3772e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 389, time 246.21, cls_loss 0.0004 cls_loss_mapping 0.0016 cls_loss_causal 0.4525 re_mapping 0.0030 re_causal 0.0094 /// teacc 99.08 lr 0.00010000
+Epoch 391, weight, value: tensor([[-0.2500, -0.0717,  0.2364,  ...,  0.0408, -0.2600, -0.1770],
+        [-0.2159, -0.2982, -0.0785,  ..., -0.1436, -0.3872, -0.1288],
+        [ 0.3215, -0.0812, -0.3302,  ..., -0.2564, -0.3005, -0.2291],
+        ...,
+        [-0.1317, -0.0584, -0.4393,  ..., -0.1473,  0.1488,  0.0538],
+        [-0.2512, -0.1636, -0.0848,  ..., -0.2680, -0.0709, -0.0860],
+        [-0.1329, -0.1109, -0.1835,  ...,  0.0997,  0.0262, -0.1838]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.9558e-08,  ..., -2.7940e-09,
+          0.0000e+00, -3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  6.5193e-09,
+          9.3132e-10,  9.3132e-10],
+        [ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 2.7940e-09,  9.3132e-10,  3.7253e-09,  ...,  5.5879e-09,
+         -9.3132e-10,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  4.0047e-08,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  2.6077e-08,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 391, bias, value: tensor([ 0.0079,  0.0049,  0.0133, -0.0040,  0.0296, -0.0048, -0.0008, -0.0013,
+         0.0107, -0.0221], device='cuda:0'), grad: tensor([-3.3528e-08, -2.0415e-05,  1.0617e-07,  9.3132e-09, -3.3714e-07,
+         2.4214e-08,  1.2107e-08,  2.0280e-05,  1.7881e-07,  1.4435e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 390, time 246.29, cls_loss 0.0013 cls_loss_mapping 0.0015 cls_loss_causal 0.4735 re_mapping 0.0028 re_causal 0.0087 /// teacc 99.13 lr 0.00010000
+Epoch 392, weight, value: tensor([[-0.2519, -0.0717,  0.2338,  ...,  0.0360, -0.2606, -0.1787],
+        [-0.2159, -0.2983, -0.0789,  ..., -0.1438, -0.3877, -0.1298],
+        [ 0.3218, -0.0813, -0.3307,  ..., -0.2569, -0.3007, -0.2295],
+        ...,
+        [-0.1319, -0.0586, -0.4400,  ..., -0.1475,  0.1495,  0.0553],
+        [-0.2513, -0.1636, -0.0852,  ..., -0.2687, -0.0710, -0.0867],
+        [-0.1332, -0.1110, -0.1808,  ...,  0.1043,  0.0267, -0.1855]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -3.4459e-08,  ...,  1.9558e-08,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-09,
+          9.3132e-10,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.1420e-08,
+          1.8626e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.3039e-08,  2.3283e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.0734e-08,  ..., -5.8673e-08,
+          0.0000e+00,  2.7940e-09]], device='cuda:0')
+Epoch 392, bias, value: tensor([ 0.0034,  0.0050,  0.0132, -0.0042,  0.0286, -0.0045, -0.0006, -0.0014,
+         0.0108, -0.0179], device='cuda:0'), grad: tensor([ 2.4214e-08,  2.7008e-08,  1.3039e-08,  2.1607e-07, -7.4506e-08,
+        -8.4005e-07,  5.6531e-07,  8.0094e-08,  3.3528e-08, -4.6566e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 391, time 246.29, cls_loss 0.0004 cls_loss_mapping 0.0011 cls_loss_causal 0.4634 re_mapping 0.0031 re_causal 0.0099 /// teacc 99.11 lr 0.00010000
+Epoch 393, weight, value: tensor([[-0.2527, -0.0717,  0.2337,  ...,  0.0357, -0.2607, -0.1786],
+        [-0.2160, -0.2984, -0.0789,  ..., -0.1440, -0.3878, -0.1300],
+        [ 0.3220, -0.0814, -0.3317,  ..., -0.2574, -0.3008, -0.2297],
+        ...,
+        [-0.1322, -0.0587, -0.4403,  ..., -0.1478,  0.1498,  0.0558],
+        [-0.2515, -0.1637, -0.0861,  ..., -0.2691, -0.0711, -0.0877],
+        [-0.1333, -0.1110, -0.1806,  ...,  0.1046,  0.0267, -0.1869]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -5.5879e-08,  ...,  5.3085e-08,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          2.6077e-08,  1.8626e-09],
+        [ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  5.5879e-09,
+         -3.2596e-08, -1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  3.7253e-09,
+          3.7253e-09,  4.6566e-09],
+        [ 2.7940e-09,  0.0000e+00,  5.4017e-08,  ..., -2.3004e-07,
+          1.8626e-09,  2.7940e-09]], device='cuda:0')
+Epoch 393, bias, value: tensor([ 0.0031,  0.0050,  0.0131, -0.0041,  0.0286, -0.0046, -0.0006, -0.0014,
+         0.0107, -0.0176], device='cuda:0'), grad: tensor([ 7.3574e-08,  1.2573e-07,  1.0245e-08,  1.7136e-07,  4.7125e-07,
+        -3.4738e-07,  1.2480e-07, -1.4901e-07,  6.0536e-08, -5.3830e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 392, time 246.44, cls_loss 0.0004 cls_loss_mapping 0.0010 cls_loss_causal 0.4572 re_mapping 0.0029 re_causal 0.0095 /// teacc 99.14 lr 0.00010000
+Epoch 394, weight, value: tensor([[-0.2538, -0.0719,  0.2337,  ...,  0.0357, -0.2611, -0.1786],
+        [-0.2161, -0.2989, -0.0788,  ..., -0.1443, -0.3881, -0.1301],
+        [ 0.3226, -0.0814, -0.3335,  ..., -0.2584, -0.3009, -0.2298],
+        ...,
+        [-0.1325, -0.0591, -0.4406,  ..., -0.1482,  0.1500,  0.0560],
+        [-0.2521, -0.1638, -0.0862,  ..., -0.2697, -0.0712, -0.0879],
+        [-0.1335, -0.1110, -0.1806,  ...,  0.1046,  0.0267, -0.1873]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ..., -9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.7695e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 394, bias, value: tensor([ 0.0031,  0.0050,  0.0132, -0.0038,  0.0287, -0.0047, -0.0005, -0.0015,
+         0.0106, -0.0176], device='cuda:0'), grad: tensor([ 4.6566e-09, -5.7742e-08,  7.4506e-09,  2.9802e-08, -6.7987e-08,
+        -1.3039e-08, -1.5832e-08,  4.0978e-08, -1.0245e-08,  8.1025e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 393, time 246.38, cls_loss 0.0006 cls_loss_mapping 0.0009 cls_loss_causal 0.4630 re_mapping 0.0029 re_causal 0.0087 /// teacc 99.12 lr 0.00010000
+Epoch 395, weight, value: tensor([[-0.2545, -0.0721,  0.2337,  ...,  0.0357, -0.2616, -0.1784],
+        [-0.2163, -0.2993, -0.0790,  ..., -0.1448, -0.3886, -0.1307],
+        [ 0.3235, -0.0833, -0.3353,  ..., -0.2593, -0.3010, -0.2287],
+        ...,
+        [-0.1332, -0.0597, -0.4411,  ..., -0.1490,  0.1508,  0.0564],
+        [-0.2525, -0.1638, -0.0872,  ..., -0.2700, -0.0716, -0.0877],
+        [-0.1337, -0.1110, -0.1807,  ...,  0.1046,  0.0266, -0.1891]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -6.6124e-08,  ..., -2.2352e-08,
+          9.3132e-10, -2.0489e-08],
+        [ 1.8626e-09,  9.3132e-10,  9.3132e-10,  ...,  1.8626e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 3.7253e-09,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+         -1.8626e-09,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  4.6566e-09,
+          2.7940e-09,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ..., -3.2596e-08,
+          9.3132e-10,  9.3132e-10]], device='cuda:0')
+Epoch 395, bias, value: tensor([ 0.0031,  0.0050,  0.0134, -0.0029,  0.0289, -0.0049, -0.0004, -0.0015,
+         0.0107, -0.0176], device='cuda:0'), grad: tensor([-1.0151e-07, -2.1420e-08,  7.4506e-09, -6.2399e-08,  5.9605e-08,
+         1.8813e-07, -8.0094e-08,  4.7497e-08,  3.0734e-08, -6.8918e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 394, time 246.03, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.5023 re_mapping 0.0027 re_causal 0.0091 /// teacc 99.11 lr 0.00010000
+Epoch 396, weight, value: tensor([[-0.2550, -0.0726,  0.2337,  ...,  0.0357, -0.2621, -0.1786],
+        [-0.2188, -0.3003, -0.0790,  ..., -0.1439, -0.3891, -0.1308],
+        [ 0.3258, -0.0844, -0.3359,  ..., -0.2594, -0.3012, -0.2289],
+        ...,
+        [-0.1335, -0.0608, -0.4417,  ..., -0.1503,  0.1525,  0.0568],
+        [-0.2529, -0.1646, -0.0876,  ..., -0.2707, -0.0718, -0.0880],
+        [-0.1342, -0.1111, -0.1807,  ...,  0.1046,  0.0264, -0.1898]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-2.7940e-09, -0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 396, bias, value: tensor([ 0.0031,  0.0052,  0.0149, -0.0027,  0.0289, -0.0049, -0.0004, -0.0017,
+         0.0109, -0.0176], device='cuda:0'), grad: tensor([ 1.8626e-09,  1.8626e-09, -4.6566e-09, -1.2107e-08, -1.0245e-08,
+         4.6566e-09,  9.3132e-10,  1.0245e-08,  1.8626e-09,  1.2107e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 395, time 246.59, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4716 re_mapping 0.0028 re_causal 0.0090 /// teacc 99.10 lr 0.00010000
+Epoch 397, weight, value: tensor([[-0.2567, -0.0728,  0.2338,  ...,  0.0357, -0.2626, -0.1786],
+        [-0.2189, -0.3006, -0.0791,  ..., -0.1443, -0.3896, -0.1316],
+        [ 0.3261, -0.0851, -0.3364,  ..., -0.2601, -0.3014, -0.2290],
+        ...,
+        [-0.1338, -0.0607, -0.4421,  ..., -0.1509,  0.1533,  0.0581],
+        [-0.2531, -0.1650, -0.0883,  ..., -0.2741, -0.0720, -0.0886],
+        [-0.1347, -0.1111, -0.1807,  ...,  0.1046,  0.0263, -0.1908]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -7.4506e-08,  ..., -1.3970e-08,
+          0.0000e+00, -1.8626e-09],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-1.1176e-08,  0.0000e+00,  4.6566e-09,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 9.3132e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.6764e-08,  ...,  2.7940e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.2107e-08,  ...,  5.5879e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 397, bias, value: tensor([ 0.0031,  0.0056,  0.0148, -0.0028,  0.0282, -0.0047, -0.0002, -0.0021,
+         0.0103, -0.0176], device='cuda:0'), grad: tensor([-1.5553e-07, -2.7940e-09, -1.7695e-08,  0.0000e+00, -4.6566e-09,
+         1.2107e-08,  7.5437e-08,  3.2596e-08,  3.5390e-08,  2.9802e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 396, time 246.26, cls_loss 0.0004 cls_loss_mapping 0.0013 cls_loss_causal 0.4759 re_mapping 0.0028 re_causal 0.0093 /// teacc 99.23 lr 0.00010000
+Epoch 398, weight, value: tensor([[-0.2567, -0.0730,  0.2338,  ...,  0.0357, -0.2629, -0.1786],
+        [-0.2190, -0.3009, -0.0791,  ..., -0.1445, -0.3897, -0.1317],
+        [ 0.3263, -0.0855, -0.3372,  ..., -0.2606, -0.3015, -0.2290],
+        ...,
+        [-0.1343, -0.0607, -0.4422,  ..., -0.1511,  0.1507,  0.0581],
+        [-0.2533, -0.1653, -0.0886,  ..., -0.2751, -0.0692, -0.0888],
+        [-0.1358, -0.1111, -0.1807,  ...,  0.1046,  0.0263, -0.1911]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.7940e-09,  ..., -1.8626e-09,
+          0.0000e+00, -0.0000e+00],
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 398, bias, value: tensor([ 0.0031,  0.0056,  0.0148, -0.0034,  0.0279, -0.0041, -0.0004, -0.0042,
+         0.0131, -0.0176], device='cuda:0'), grad: tensor([-7.4506e-09,  0.0000e+00, -9.3132e-10, -4.4703e-08, -2.7940e-09,
+         2.6077e-08,  0.0000e+00,  1.0245e-08,  4.6566e-09,  9.3132e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 397, time 246.32, cls_loss 0.0003 cls_loss_mapping 0.0006 cls_loss_causal 0.4783 re_mapping 0.0029 re_causal 0.0095 /// teacc 99.10 lr 0.00010000
+Epoch 399, weight, value: tensor([[-0.2568, -0.0730,  0.2338,  ...,  0.0357, -0.2634, -0.1787],
+        [-0.2190, -0.3011, -0.0791,  ..., -0.1445, -0.3899, -0.1320],
+        [ 0.3268, -0.0855, -0.3378,  ..., -0.2610, -0.3016, -0.2291],
+        ...,
+        [-0.1349, -0.0609, -0.4424,  ..., -0.1512,  0.1505,  0.0585],
+        [-0.2535, -0.1654, -0.0902,  ..., -0.2756, -0.0690, -0.0891],
+        [-0.1360, -0.1112, -0.1807,  ...,  0.1046,  0.0263, -0.1915]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  3.4459e-08,  ...,  0.0000e+00,
+          1.9558e-08,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [-1.4901e-08, -9.3132e-10,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00, -0.0000e+00],
+        ...,
+        [ 6.5193e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -9.3132e-10, -0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  2.5146e-08,  ...,  1.8626e-09,
+          1.3970e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  1.8626e-09,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 399, bias, value: tensor([ 0.0031,  0.0056,  0.0149, -0.0034,  0.0279, -0.0041, -0.0003, -0.0043,
+         0.0134, -0.0176], device='cuda:0'), grad: tensor([ 6.3330e-08,  6.5193e-09, -3.0734e-08,  1.8626e-09, -6.5193e-09,
+         1.8626e-09, -1.0990e-07,  1.3970e-08,  5.4948e-08,  5.5879e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 398, time 246.87, cls_loss 0.0003 cls_loss_mapping 0.0007 cls_loss_causal 0.4623 re_mapping 0.0028 re_causal 0.0092 /// teacc 99.09 lr 0.00010000
+Epoch 400, weight, value: tensor([[-0.2571, -0.0730,  0.2338,  ...,  0.0357, -0.2635, -0.1788],
+        [-0.2191, -0.3012, -0.0791,  ..., -0.1446, -0.3900, -0.1320],
+        [ 0.3275, -0.0855, -0.3379,  ..., -0.2612, -0.3016, -0.2287],
+        ...,
+        [-0.1358, -0.0611, -0.4427,  ..., -0.1531,  0.1505,  0.0581],
+        [-0.2536, -0.1654, -0.0905,  ..., -0.2757, -0.0690, -0.0892],
+        [-0.1360, -0.1112, -0.1808,  ...,  0.1046,  0.0264, -0.1916]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.7940e-08,  ..., -1.0245e-08,
+          9.3132e-10,  0.0000e+00],
+        [ 4.6566e-10,  4.6566e-10,  1.3970e-09,  ...,  9.3132e-10,
+          7.9162e-09,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  4.6566e-10,  4.6566e-10,  ...,  4.6566e-10,
+         -4.2841e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          4.6566e-10,  4.6566e-10],
+        [ 4.6566e-10,  4.6566e-10,  2.4214e-08,  ...,  1.2480e-07,
+          8.3819e-09,  0.0000e+00]], device='cuda:0')
+Epoch 400, bias, value: tensor([ 0.0031,  0.0056,  0.0154, -0.0035,  0.0280, -0.0041, -0.0002, -0.0045,
+         0.0134, -0.0176], device='cuda:0'), grad: tensor([-6.2864e-08,  4.4703e-08,  8.8476e-09,  5.0757e-08, -2.1048e-07,
+        -2.1886e-08,  2.4680e-08, -1.2573e-07, -1.4435e-08,  3.1060e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 399, time 247.07, cls_loss 0.0005 cls_loss_mapping 0.0014 cls_loss_causal 0.4547 re_mapping 0.0025 re_causal 0.0084 /// teacc 99.11 lr 0.00001000
+Epoch 401, weight, value: tensor([[-0.2572, -0.0731,  0.2339,  ...,  0.0357, -0.2638, -0.1785],
+        [-0.2192, -0.3014, -0.0794,  ..., -0.1449, -0.3903, -0.1322],
+        [ 0.3278, -0.0856, -0.3385,  ..., -0.2616, -0.3019, -0.2290],
+        ...,
+        [-0.1361, -0.0625, -0.4433,  ..., -0.1545,  0.1503,  0.0589],
+        [-0.2535, -0.1655, -0.0912,  ..., -0.2762, -0.0690, -0.0895],
+        [-0.1370, -0.1113, -0.1808,  ...,  0.1046,  0.0261, -0.1929]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-09,  0.0000e+00, -1.3970e-09,  ..., -9.3132e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 2.3283e-09,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00, -4.6566e-10],
+        [-3.9116e-08, -9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 3.2596e-08,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-09,  4.6566e-10],
+        [ 3.7253e-09,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -3.2596e-09,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  9.3132e-10,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 401, bias, value: tensor([ 3.0899e-03,  5.6636e-03,  1.5365e-02, -4.5598e-03,  2.8849e-02,
+        -3.6655e-03, -6.2230e-05, -4.6025e-03,  1.3379e-02, -1.7585e-02],
+       device='cuda:0'), grad: tensor([ 2.7940e-09, -1.3504e-08, -6.3330e-08, -1.3970e-08,  2.2817e-08,
+         2.3283e-08,  6.5658e-08,  1.1129e-07, -1.4808e-07,  9.3132e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 400, time 246.58, cls_loss 0.0006 cls_loss_mapping 0.0009 cls_loss_causal 0.4189 re_mapping 0.0026 re_causal 0.0079 /// teacc 99.15 lr 0.00001000
+Epoch 402, weight, value: tensor([[-0.2572, -0.0731,  0.2339,  ...,  0.0357, -0.2638, -0.1785],
+        [-0.2192, -0.3015, -0.0794,  ..., -0.1449, -0.3904, -0.1322],
+        [ 0.3278, -0.0856, -0.3386,  ..., -0.2616, -0.3019, -0.2290],
+        ...,
+        [-0.1361, -0.0626, -0.4433,  ..., -0.1545,  0.1503,  0.0589],
+        [-0.2536, -0.1656, -0.0912,  ..., -0.2763, -0.0690, -0.0895],
+        [-0.1370, -0.1113, -0.1808,  ...,  0.1046,  0.0261, -0.1929]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-09,  0.0000e+00, -2.6077e-08,  ..., -1.8161e-08,
+          4.6566e-10,  4.6566e-10],
+        [ 1.3970e-09,  0.0000e+00,  4.6566e-09,  ...,  3.2596e-09,
+          4.6566e-10,  4.6566e-10],
+        [-2.8871e-08,  0.0000e+00,  4.1910e-09,  ...,  2.3283e-09,
+          4.6566e-10,  0.0000e+00],
+        ...,
+        [ 8.8476e-09,  0.0000e+00,  1.3970e-09,  ...,  9.3132e-10,
+          4.6566e-10, -1.3970e-09],
+        [ 9.3132e-10, -0.0000e+00,  3.7253e-09,  ...,  2.3283e-09,
+         -3.2596e-09,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  4.6566e-09,  ...,  4.1910e-09,
+          4.6566e-10,  0.0000e+00]], device='cuda:0')
+Epoch 402, bias, value: tensor([ 3.0888e-03,  5.6677e-03,  1.5326e-02, -4.4647e-03,  2.8847e-02,
+        -3.7790e-03, -4.4756e-05, -4.6102e-03,  1.3386e-02, -1.7584e-02],
+       device='cuda:0'), grad: tensor([-6.8452e-08,  2.3283e-09, -6.5658e-08,  2.5146e-08,  3.2596e-09,
+         2.3749e-08,  1.3970e-08,  5.2154e-08, -1.3970e-08,  2.7940e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 401, time 245.89, cls_loss 0.0005 cls_loss_mapping 0.0008 cls_loss_causal 0.4372 re_mapping 0.0024 re_causal 0.0080 /// teacc 99.14 lr 0.00001000
+Epoch 403, weight, value: tensor([[-0.2573, -0.0731,  0.2339,  ...,  0.0357, -0.2639, -0.1784],
+        [-0.2192, -0.3015, -0.0795,  ..., -0.1449, -0.3904, -0.1322],
+        [ 0.3279, -0.0857, -0.3385,  ..., -0.2616, -0.3019, -0.2290],
+        ...,
+        [-0.1361, -0.0626, -0.4434,  ..., -0.1545,  0.1503,  0.0590],
+        [-0.2536, -0.1656, -0.0913,  ..., -0.2763, -0.0690, -0.0895],
+        [-0.1370, -0.1113, -0.1808,  ...,  0.1046,  0.0261, -0.1930]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -6.4261e-08,  ..., -1.8626e-09,
+          9.3132e-10, -2.6077e-08],
+        [ 0.0000e+00,  4.6566e-10,  4.6566e-10,  ...,  2.3283e-09,
+          2.2817e-08,  9.3132e-09],
+        [-1.8626e-09,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          4.6566e-10,  4.6566e-10],
+        ...,
+        [ 4.6566e-10,  9.3132e-10,  4.6566e-10,  ...,  4.1910e-09,
+         -2.7940e-08, -1.1642e-08],
+        [ 1.8626e-09,  4.6566e-10,  9.3132e-10,  ...,  9.3132e-10,
+          4.6566e-10,  4.6566e-10],
+        [ 4.6566e-10,  4.6566e-10,  4.6566e-09,  ...,  5.5879e-09,
+          1.3970e-09,  2.3283e-09]], device='cuda:0')
+Epoch 403, bias, value: tensor([ 3.0889e-03,  5.6687e-03,  1.5227e-02, -4.1460e-03,  2.8843e-02,
+        -4.0865e-03, -4.0300e-05, -4.6057e-03,  1.3388e-02, -1.7584e-02],
+       device='cuda:0'), grad: tensor([-1.4668e-07,  1.1455e-07,  3.7253e-09, -3.9581e-08, -4.6100e-08,
+         1.1502e-07,  6.0536e-08, -1.2154e-07,  1.3504e-08,  6.4261e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 402, time 246.63, cls_loss 0.0004 cls_loss_mapping 0.0007 cls_loss_causal 0.4439 re_mapping 0.0025 re_causal 0.0081 /// teacc 99.14 lr 0.00001000
+Epoch 404, weight, value: tensor([[-0.2573, -0.0731,  0.2339,  ...,  0.0357, -0.2640, -0.1785],
+        [-0.2192, -0.3016, -0.0795,  ..., -0.1450, -0.3904, -0.1322],
+        [ 0.3279, -0.0857, -0.3385,  ..., -0.2617, -0.3019, -0.2290],
+        ...,
+        [-0.1362, -0.0627, -0.4434,  ..., -0.1545,  0.1503,  0.0590],
+        [-0.2536, -0.1656, -0.0913,  ..., -0.2763, -0.0690, -0.0894],
+        [-0.1371, -0.1113, -0.1808,  ...,  0.1046,  0.0261, -0.1931]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.1910e-09,  ..., -2.3283e-09,
+          1.1176e-08,  1.0245e-08],
+        [ 9.3132e-10,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  9.3132e-10],
+        [-6.8918e-08,  4.6566e-10,  4.6566e-10,  ...,  4.6566e-10,
+          2.7940e-09,  2.7940e-09],
+        ...,
+        [ 7.2643e-08,  2.3283e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.8626e-08, -1.6764e-08],
+        [ 3.2596e-09,  6.0536e-09,  9.3132e-10,  ...,  4.6566e-10,
+          4.6566e-10,  4.6566e-10],
+        [ 4.6566e-10,  4.6566e-10,  9.3132e-10,  ...,  2.3283e-09,
+          9.3132e-10,  9.3132e-10]], device='cuda:0')
+Epoch 404, bias, value: tensor([ 3.0889e-03,  5.6740e-03,  1.5234e-02, -4.1376e-03,  2.8839e-02,
+        -4.1107e-03, -1.0064e-05, -4.6119e-03,  1.3391e-02, -1.7584e-02],
+       device='cuda:0'), grad: tensor([ 5.2154e-08,  1.1967e-07, -6.5658e-08, -1.4994e-07,  1.8626e-09,
+         3.4459e-08, -9.3132e-10, -1.8766e-07,  9.0804e-08,  1.0896e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 403, time 246.09, cls_loss 0.0004 cls_loss_mapping 0.0005 cls_loss_causal 0.4582 re_mapping 0.0024 re_causal 0.0083 /// teacc 99.17 lr 0.00001000
+Epoch 405, weight, value: tensor([[-0.2573, -0.0731,  0.2339,  ...,  0.0357, -0.2640, -0.1785],
+        [-0.2192, -0.3016, -0.0795,  ..., -0.1450, -0.3904, -0.1322],
+        [ 0.3279, -0.0857, -0.3385,  ..., -0.2617, -0.3019, -0.2290],
+        ...,
+        [-0.1362, -0.0628, -0.4434,  ..., -0.1546,  0.1503,  0.0591],
+        [-0.2536, -0.1656, -0.0913,  ..., -0.2763, -0.0690, -0.0894],
+        [-0.1372, -0.1113, -0.1808,  ...,  0.1046,  0.0261, -0.1932]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -9.7789e-09,  ..., -5.5879e-09,
+          0.0000e+00, -9.3132e-10],
+        [ 1.3970e-09,  0.0000e+00,  9.3132e-10,  ...,  4.6566e-10,
+          0.0000e+00, -0.0000e+00],
+        [-8.8476e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -4.6566e-10],
+        ...,
+        [ 5.1223e-09,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  9.3132e-10],
+        [ 2.3283e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  5.1223e-09,  ...,  3.2596e-09,
+          0.0000e+00,  4.6566e-10]], device='cuda:0')
+Epoch 405, bias, value: tensor([ 3.0889e-03,  5.6746e-03,  1.5228e-02, -4.0974e-03,  2.8843e-02,
+        -4.1383e-03, -2.2912e-05, -4.6139e-03,  1.3391e-02, -1.7584e-02],
+       device='cuda:0'), grad: tensor([-2.0955e-08, -1.0394e-06,  5.5879e-09,  6.0536e-08,  1.6298e-08,
+        -4.6566e-09,  1.3504e-08,  9.6392e-07,  8.8476e-09,  1.4435e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 404, time 246.23, cls_loss 0.0004 cls_loss_mapping 0.0005 cls_loss_causal 0.4607 re_mapping 0.0024 re_causal 0.0082 /// teacc 99.16 lr 0.00001000
+Epoch 406, weight, value: tensor([[-0.2573, -0.0731,  0.2339,  ...,  0.0357, -0.2640, -0.1785],
+        [-0.2192, -0.3016, -0.0795,  ..., -0.1450, -0.3905, -0.1323],
+        [ 0.3280, -0.0857, -0.3386,  ..., -0.2619, -0.3019, -0.2288],
+        ...,
+        [-0.1364, -0.0628, -0.4435,  ..., -0.1546,  0.1503,  0.0589],
+        [-0.2536, -0.1656, -0.0914,  ..., -0.2764, -0.0690, -0.0895],
+        [-0.1374, -0.1113, -0.1808,  ...,  0.1046,  0.0261, -0.1932]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00, -1.3970e-09,  ...,  9.3132e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 1.3970e-09,  4.6566e-10,  0.0000e+00,  ...,  3.2596e-09,
+          4.6566e-10, -4.6566e-10],
+        [-1.8626e-09,  4.6566e-10,  0.0000e+00,  ...,  3.2596e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 6.9849e-09,  1.3970e-09,  0.0000e+00,  ...,  1.1642e-08,
+          9.3132e-10,  4.6566e-10],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  9.3132e-10],
+        [ 4.6566e-10,  0.0000e+00,  1.8626e-09,  ...,  4.2841e-08,
+          1.3970e-09,  0.0000e+00]], device='cuda:0')
+Epoch 406, bias, value: tensor([ 3.0890e-03,  5.6753e-03,  1.5285e-02, -4.0789e-03,  2.8846e-02,
+        -4.1272e-03, -2.5131e-05, -4.6234e-03,  1.3391e-02, -1.7584e-02],
+       device='cuda:0'), grad: tensor([ 3.0268e-08, -1.8626e-09,  1.1176e-08, -3.6787e-08, -2.9057e-07,
+        -3.9116e-08,  8.1956e-08,  7.9628e-08,  3.6787e-08,  1.4156e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 405, time 246.31, cls_loss 0.0004 cls_loss_mapping 0.0007 cls_loss_causal 0.4252 re_mapping 0.0023 re_causal 0.0077 /// teacc 99.15 lr 0.00001000
+Epoch 407, weight, value: tensor([[-0.2573, -0.0731,  0.2339,  ...,  0.0357, -0.2641, -0.1785],
+        [-0.2192, -0.3016, -0.0795,  ..., -0.1450, -0.3905, -0.1323],
+        [ 0.3281, -0.0857, -0.3386,  ..., -0.2619, -0.3019, -0.2288],
+        ...,
+        [-0.1365, -0.0629, -0.4435,  ..., -0.1546,  0.1503,  0.0589],
+        [-0.2537, -0.1656, -0.0914,  ..., -0.2764, -0.0690, -0.0894],
+        [-0.1374, -0.1113, -0.1808,  ...,  0.1046,  0.0261, -0.1933]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.1176e-08,  ..., -4.6566e-09,
+          0.0000e+00, -0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          9.3132e-09, -1.9558e-08],
+        [-2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -0.0000e+00],
+        ...,
+        [ 4.6566e-09,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+         -1.3970e-08,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ..., -0.0000e+00,
+          3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 407, bias, value: tensor([ 3.0889e-03,  5.6765e-03,  1.5312e-02, -4.0540e-03,  2.8864e-02,
+        -4.1526e-03, -2.6312e-05, -4.6281e-03,  1.3393e-02, -1.7584e-02],
+       device='cuda:0'), grad: tensor([-2.4214e-08, -2.3004e-07,  3.7253e-08,  9.3132e-10,  1.1176e-08,
+         2.9802e-08,  7.4506e-08,  8.4750e-08, -8.3819e-09,  3.1665e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 406, time 246.78, cls_loss 0.0005 cls_loss_mapping 0.0005 cls_loss_causal 0.4331 re_mapping 0.0023 re_causal 0.0079 /// teacc 99.15 lr 0.00001000
+Epoch 408, weight, value: tensor([[-0.2574, -0.0731,  0.2339,  ...,  0.0357, -0.2641, -0.1784],
+        [-0.2192, -0.3016, -0.0796,  ..., -0.1450, -0.3906, -0.1323],
+        [ 0.3282, -0.0857, -0.3387,  ..., -0.2619, -0.3020, -0.2288],
+        ...,
+        [-0.1366, -0.0629, -0.4435,  ..., -0.1546,  0.1503,  0.0589],
+        [-0.2537, -0.1656, -0.0915,  ..., -0.2764, -0.0690, -0.0894],
+        [-0.1374, -0.1113, -0.1808,  ...,  0.1046,  0.0261, -0.1933]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.1176e-08,  ..., -4.6566e-09,
+          0.0000e+00, -3.7253e-09],
+        [ 9.3132e-10,  0.0000e+00,  1.8626e-09,  ...,  1.8626e-09,
+          3.7253e-09,  3.7253e-09],
+        [-9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  1.8626e-09],
+        ...,
+        [-2.7940e-09,  0.0000e+00,  9.3132e-10,  ...,  1.8626e-09,
+         -1.5832e-08, -1.5832e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  2.7940e-09,  ...,  5.5879e-09,
+          0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 408, bias, value: tensor([ 3.0890e-03,  5.6792e-03,  1.5310e-02, -4.0430e-03,  2.8865e-02,
+        -4.1699e-03, -1.0583e-05, -4.6305e-03,  1.3394e-02, -1.7585e-02],
+       device='cuda:0'), grad: tensor([-3.1665e-08,  4.0978e-08,  1.3039e-08,  3.7253e-09,  5.2154e-08,
+        -8.3819e-09,  2.4214e-08, -1.1176e-07,  1.8626e-09,  2.0489e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 407, time 246.23, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4672 re_mapping 0.0022 re_causal 0.0080 /// teacc 99.15 lr 0.00001000
+Epoch 409, weight, value: tensor([[-0.2574, -0.0731,  0.2339,  ...,  0.0357, -0.2641, -0.1784],
+        [-0.2192, -0.3016, -0.0796,  ..., -0.1450, -0.3906, -0.1323],
+        [ 0.3282, -0.0857, -0.3386,  ..., -0.2619, -0.3020, -0.2288],
+        ...,
+        [-0.1367, -0.0629, -0.4435,  ..., -0.1546,  0.1504,  0.0590],
+        [-0.2537, -0.1656, -0.0915,  ..., -0.2765, -0.0690, -0.0894],
+        [-0.1376, -0.1113, -0.1808,  ...,  0.1046,  0.0261, -0.1934]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.3039e-08,  ..., -5.5879e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          1.0245e-08, -0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  9.3132e-10,  0.0000e+00,  ...,  3.0734e-08,
+          2.1607e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ...,  4.6566e-09,
+          2.7940e-09,  0.0000e+00]], device='cuda:0')
+Epoch 409, bias, value: tensor([ 3.0890e-03,  5.7177e-03,  1.5336e-02, -4.0331e-03,  2.8868e-02,
+        -4.1572e-03, -1.1627e-05, -4.6578e-03,  1.3392e-02, -1.7585e-02],
+       device='cuda:0'), grad: tensor([-1.4901e-08,  4.5635e-08,  9.3132e-10, -1.2508e-06,  0.0000e+00,
+         1.7881e-07, -8.1025e-08,  1.0785e-06,  1.3970e-08,  3.1665e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 408, time 246.67, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4375 re_mapping 0.0023 re_causal 0.0080 /// teacc 99.19 lr 0.00001000
+Epoch 410, weight, value: tensor([[-0.2574, -0.0731,  0.2339,  ...,  0.0357, -0.2641, -0.1784],
+        [-0.2193, -0.3017, -0.0796,  ..., -0.1451, -0.3907, -0.1324],
+        [ 0.3284, -0.0857, -0.3386,  ..., -0.2619, -0.3020, -0.2287],
+        ...,
+        [-0.1368, -0.0629, -0.4436,  ..., -0.1547,  0.1504,  0.0589],
+        [-0.2538, -0.1656, -0.0915,  ..., -0.2765, -0.0690, -0.0894],
+        [-0.1376, -0.1113, -0.1808,  ...,  0.1046,  0.0261, -0.1935]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ..., -9.3132e-10,
+          0.0000e+00, -0.0000e+00],
+        [ 9.3132e-10,  1.8626e-09, -1.8626e-09,  ..., -9.3132e-10,
+          9.3132e-10, -9.3132e-10],
+        [-1.8626e-09,  4.6566e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 3.7253e-09,  5.5879e-09,  0.0000e+00,  ...,  9.3132e-10,
+         -1.8626e-09,  9.3132e-10],
+        [ 1.8626e-09,  9.3132e-10,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ..., -6.5193e-09,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 410, bias, value: tensor([ 3.0891e-03,  5.7314e-03,  1.5391e-02, -4.0099e-03,  2.8875e-02,
+        -4.1750e-03, -2.3204e-05, -4.6684e-03,  1.3391e-02, -1.7585e-02],
+       device='cuda:0'), grad: tensor([-9.3132e-10, -1.0245e-08,  1.9558e-08, -1.0990e-07,  1.3970e-08,
+         2.8871e-08,  4.6566e-09,  2.6077e-08,  2.3283e-08,  7.4506e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 409, time 246.56, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4500 re_mapping 0.0022 re_causal 0.0081 /// teacc 99.20 lr 0.00001000
+Epoch 411, weight, value: tensor([[-0.2575, -0.0731,  0.2339,  ...,  0.0357, -0.2641, -0.1784],
+        [-0.2193, -0.3017, -0.0797,  ..., -0.1451, -0.3907, -0.1325],
+        [ 0.3284, -0.0857, -0.3386,  ..., -0.2619, -0.3020, -0.2287],
+        ...,
+        [-0.1369, -0.0629, -0.4436,  ..., -0.1547,  0.1504,  0.0590],
+        [-0.2538, -0.1656, -0.0916,  ..., -0.2765, -0.0690, -0.0894],
+        [-0.1377, -0.1113, -0.1808,  ...,  0.1046,  0.0260, -0.1935]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.2165e-07,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          9.3132e-10, -0.0000e+00],
+        [-2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  1.2107e-08,
+         -1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ..., -2.5053e-07,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 411, bias, value: tensor([ 3.0892e-03,  5.7306e-03,  1.5395e-02, -3.9917e-03,  2.8873e-02,
+        -4.1854e-03, -3.4837e-05, -4.6672e-03,  1.3390e-02, -1.7585e-02],
+       device='cuda:0'), grad: tensor([ 7.0222e-07,  3.7253e-09, -2.7940e-09,  1.6764e-08,  4.8429e-08,
+        -1.3970e-08,  1.8626e-09,  2.8871e-08,  4.6566e-09, -7.8045e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 410, time 246.40, cls_loss 0.0004 cls_loss_mapping 0.0005 cls_loss_causal 0.4305 re_mapping 0.0022 re_causal 0.0079 /// teacc 99.19 lr 0.00001000
+Epoch 412, weight, value: tensor([[-0.2575, -0.0731,  0.2339,  ...,  0.0357, -0.2642, -0.1784],
+        [-0.2193, -0.3017, -0.0798,  ..., -0.1451, -0.3908, -0.1325],
+        [ 0.3285, -0.0857, -0.3387,  ..., -0.2620, -0.3020, -0.2287],
+        ...,
+        [-0.1369, -0.0630, -0.4436,  ..., -0.1547,  0.1504,  0.0590],
+        [-0.2538, -0.1656, -0.0916,  ..., -0.2766, -0.0690, -0.0894],
+        [-0.1377, -0.1113, -0.1808,  ...,  0.1046,  0.0260, -0.1936]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -5.3085e-08,  ..., -3.3528e-08,
+          0.0000e+00, -6.5193e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  2.7940e-09,
+          3.7253e-09, -0.0000e+00],
+        [-3.7253e-09, -0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 2.7940e-09,  0.0000e+00,  9.3132e-10,  ...,  3.7253e-09,
+         -6.5193e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.5146e-08,  ...,  8.9407e-08,
+          1.8626e-09,  2.7940e-09]], device='cuda:0')
+Epoch 412, bias, value: tensor([ 3.0893e-03,  5.7400e-03,  1.5396e-02, -4.0086e-03,  2.8873e-02,
+        -4.1713e-03, -3.4275e-05, -4.6747e-03,  1.3390e-02, -1.7585e-02],
+       device='cuda:0'), grad: tensor([-1.4529e-07, -3.2596e-08, -1.8626e-09,  3.9116e-08, -2.0023e-07,
+        -3.0734e-08,  6.6124e-08,  3.5390e-08,  1.1176e-08,  2.6450e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 411, time 246.76, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4451 re_mapping 0.0022 re_causal 0.0080 /// teacc 99.17 lr 0.00001000
+Epoch 413, weight, value: tensor([[-0.2575, -0.0731,  0.2339,  ...,  0.0357, -0.2642, -0.1784],
+        [-0.2193, -0.3017, -0.0798,  ..., -0.1451, -0.3909, -0.1326],
+        [ 0.3285, -0.0857, -0.3387,  ..., -0.2620, -0.3020, -0.2287],
+        ...,
+        [-0.1370, -0.0630, -0.4436,  ..., -0.1547,  0.1504,  0.0590],
+        [-0.2538, -0.1656, -0.0917,  ..., -0.2766, -0.0690, -0.0894],
+        [-0.1377, -0.1113, -0.1808,  ...,  0.1046,  0.0260, -0.1936]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.7695e-08,  ...,  0.0000e+00,
+          8.3819e-09,  1.0245e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00, -0.0000e+00],
+        [-2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          0.0000e+00,  9.3132e-10],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.9558e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 413, bias, value: tensor([ 3.0893e-03,  5.7327e-03,  1.5421e-02, -4.0923e-03,  2.8888e-02,
+        -4.0947e-03, -2.6335e-05, -4.6718e-03,  1.3388e-02, -1.7586e-02],
+       device='cuda:0'), grad: tensor([ 5.6811e-08, -5.3085e-08, -5.5879e-09,  1.9558e-08, -6.7055e-08,
+        -6.6124e-08, -2.6077e-08,  4.9360e-08,  2.0489e-08,  7.6368e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 412, time 246.59, cls_loss 0.0003 cls_loss_mapping 0.0004 cls_loss_causal 0.4111 re_mapping 0.0022 re_causal 0.0080 /// teacc 99.18 lr 0.00001000
+Epoch 414, weight, value: tensor([[-0.2575, -0.0731,  0.2340,  ...,  0.0357, -0.2642, -0.1784],
+        [-0.2193, -0.3017, -0.0798,  ..., -0.1451, -0.3910, -0.1325],
+        [ 0.3286, -0.0857, -0.3387,  ..., -0.2620, -0.3020, -0.2286],
+        ...,
+        [-0.1371, -0.0630, -0.4437,  ..., -0.1547,  0.1504,  0.0589],
+        [-0.2539, -0.1656, -0.0917,  ..., -0.2766, -0.0690, -0.0894],
+        [-0.1377, -0.1113, -0.1808,  ...,  0.1046,  0.0260, -0.1937]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00, -1.0245e-08,  ..., -7.4506e-09,
+          9.3132e-10,  9.3132e-10],
+        [ 9.3132e-10,  0.0000e+00,  2.7940e-09,  ...,  1.8626e-09,
+          5.4948e-08,  0.0000e+00],
+        [-3.7253e-09,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+         -5.7742e-08,  0.0000e+00],
+        [ 1.8626e-09,  1.8626e-09,  1.8626e-09,  ...,  9.3132e-10,
+          9.3132e-10, -9.3132e-10],
+        [ 9.3132e-10,  9.3132e-10,  3.7253e-09,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 414, bias, value: tensor([ 3.0893e-03,  5.7312e-03,  1.5461e-02, -4.0985e-03,  2.8898e-02,
+        -4.0841e-03, -2.6809e-05, -4.6730e-03,  1.3386e-02, -1.7586e-02],
+       device='cuda:0'), grad: tensor([-2.7008e-08,  1.2098e-06,  0.0000e+00,  1.2107e-08,  9.3132e-09,
+         1.3970e-08,  0.0000e+00, -1.2405e-06,  2.1420e-08,  2.8871e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 413, time 246.50, cls_loss 0.0003 cls_loss_mapping 0.0004 cls_loss_causal 0.4214 re_mapping 0.0022 re_causal 0.0079 /// teacc 99.23 lr 0.00001000
+Epoch 415, weight, value: tensor([[-0.2575, -0.0731,  0.2340,  ...,  0.0357, -0.2642, -0.1784],
+        [-0.2193, -0.3017, -0.0799,  ..., -0.1451, -0.3911, -0.1326],
+        [ 0.3287, -0.0857, -0.3387,  ..., -0.2620, -0.3021, -0.2286],
+        ...,
+        [-0.1372, -0.0630, -0.4437,  ..., -0.1547,  0.1504,  0.0589],
+        [-0.2539, -0.1657, -0.0918,  ..., -0.2767, -0.0690, -0.0895],
+        [-0.1379, -0.1113, -0.1808,  ...,  0.1046,  0.0260, -0.1937]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          0.0000e+00,  0.0000e+00],
+        [-2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -0.0000e+00],
+        ...,
+        [ 3.7253e-09,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-09,
+         -0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  3.7253e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ..., -4.1910e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 415, bias, value: tensor([ 3.0893e-03,  5.7281e-03,  1.5516e-02, -4.0983e-03,  2.8898e-02,
+        -4.0690e-03, -9.1731e-06, -4.6711e-03,  1.3385e-02, -1.7586e-02],
+       device='cuda:0'), grad: tensor([ 1.1176e-08,  1.3970e-08, -5.5879e-09,  5.5879e-08,  8.1025e-08,
+        -6.7987e-08, -2.8871e-08,  2.6077e-08,  5.4017e-08, -1.2107e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 414, time 246.75, cls_loss 0.0003 cls_loss_mapping 0.0004 cls_loss_causal 0.4306 re_mapping 0.0022 re_causal 0.0081 /// teacc 99.21 lr 0.00001000
+Epoch 416, weight, value: tensor([[-0.2575, -0.0731,  0.2340,  ...,  0.0357, -0.2643, -0.1784],
+        [-0.2193, -0.3017, -0.0799,  ..., -0.1452, -0.3911, -0.1326],
+        [ 0.3287, -0.0857, -0.3387,  ..., -0.2621, -0.3021, -0.2286],
+        ...,
+        [-0.1372, -0.0631, -0.4437,  ..., -0.1547,  0.1505,  0.0590],
+        [-0.2540, -0.1657, -0.0918,  ..., -0.2767, -0.0690, -0.0895],
+        [-0.1379, -0.1113, -0.1808,  ...,  0.1046,  0.0260, -0.1938]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.3970e-08,  ...,  3.7253e-09,
+          0.0000e+00, -4.6566e-09],
+        [ 6.5193e-09,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          0.0000e+00,  0.0000e+00],
+        [-1.1176e-07,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 9.3132e-08,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  9.3132e-10],
+        [ 1.1176e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -0.0000e+00, -9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ..., -1.4901e-08,
+         -0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 416, bias, value: tensor([ 3.0894e-03,  5.7204e-03,  1.5551e-02, -4.1018e-03,  2.8903e-02,
+        -4.0634e-03, -3.9225e-06, -4.6679e-03,  1.3382e-02, -1.7586e-02],
+       device='cuda:0'), grad: tensor([-1.6764e-08,  1.0245e-08, -2.6543e-07,  1.1176e-08,  9.3132e-10,
+        -2.0489e-08,  3.1665e-08,  2.4866e-07,  2.6077e-08, -2.1420e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 415, time 246.63, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4529 re_mapping 0.0022 re_causal 0.0081 /// teacc 99.16 lr 0.00001000
+Epoch 417, weight, value: tensor([[-0.2576, -0.0731,  0.2340,  ...,  0.0357, -0.2643, -0.1784],
+        [-0.2193, -0.3017, -0.0799,  ..., -0.1452, -0.3912, -0.1326],
+        [ 0.3288, -0.0857, -0.3388,  ..., -0.2621, -0.3021, -0.2286],
+        ...,
+        [-0.1373, -0.0631, -0.4437,  ..., -0.1547,  0.1505,  0.0590],
+        [-0.2540, -0.1657, -0.0919,  ..., -0.2767, -0.0690, -0.0895],
+        [-0.1379, -0.1113, -0.1808,  ...,  0.1046,  0.0260, -0.1938]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ..., -9.3132e-10,
+          9.3132e-10,  1.8626e-09],
+        [ 6.5193e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-1.1176e-08,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+          9.3132e-10,  9.3132e-10],
+        ...,
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 2.7940e-09,  0.0000e+00,  1.8626e-09,  ..., -9.3132e-10,
+         -0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 417, bias, value: tensor([ 3.0894e-03,  5.7139e-03,  1.5585e-02, -4.1038e-03,  2.8905e-02,
+        -4.0572e-03,  7.7366e-06, -4.6640e-03,  1.3378e-02, -1.7586e-02],
+       device='cuda:0'), grad: tensor([ 4.6566e-09, -2.4214e-08, -1.2107e-08, -2.2352e-08,  1.1176e-08,
+         2.0489e-08, -2.3283e-08,  6.2399e-08, -2.1420e-08,  6.5193e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 416, time 246.66, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4284 re_mapping 0.0022 re_causal 0.0080 /// teacc 99.18 lr 0.00001000
+Epoch 418, weight, value: tensor([[-0.2576, -0.0731,  0.2340,  ...,  0.0357, -0.2643, -0.1784],
+        [-0.2193, -0.3017, -0.0800,  ..., -0.1452, -0.3913, -0.1327],
+        [ 0.3289, -0.0857, -0.3388,  ..., -0.2621, -0.3021, -0.2286],
+        ...,
+        [-0.1374, -0.0631, -0.4438,  ..., -0.1548,  0.1505,  0.0590],
+        [-0.2541, -0.1657, -0.0920,  ..., -0.2768, -0.0690, -0.0895],
+        [-0.1380, -0.1113, -0.1808,  ...,  0.1046,  0.0260, -0.1938]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3039e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+         -3.7253e-09, -1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  1.2573e-07,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 418, bias, value: tensor([ 3.0894e-03,  5.7157e-03,  1.5603e-02, -4.1047e-03,  2.8909e-02,
+        -4.0366e-03,  1.5412e-05, -4.6663e-03,  1.3377e-02, -1.7587e-02],
+       device='cuda:0'), grad: tensor([ 3.7253e-08,  2.0489e-08,  7.4506e-09,  3.3807e-07, -3.5111e-07,
+        -3.7346e-07,  1.1176e-08, -7.4506e-09,  5.5879e-09,  3.2783e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 417, time 246.86, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4226 re_mapping 0.0021 re_causal 0.0077 /// teacc 99.17 lr 0.00001000
+Epoch 419, weight, value: tensor([[-0.2576, -0.0731,  0.2340,  ...,  0.0357, -0.2644, -0.1784],
+        [-0.2194, -0.3017, -0.0800,  ..., -0.1452, -0.3913, -0.1327],
+        [ 0.3289, -0.0857, -0.3389,  ..., -0.2622, -0.3021, -0.2286],
+        ...,
+        [-0.1374, -0.0631, -0.4438,  ..., -0.1548,  0.1505,  0.0590],
+        [-0.2541, -0.1657, -0.0920,  ..., -0.2768, -0.0690, -0.0895],
+        [-0.1380, -0.1113, -0.1808,  ...,  0.1046,  0.0260, -0.1939]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.3283e-08,  ...,  9.3132e-10,
+          1.0245e-08,  1.3039e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.5193e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ..., -2.4214e-08,
+         -0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 419, bias, value: tensor([ 3.0894e-03,  5.7150e-03,  1.5618e-02, -4.1364e-03,  2.8925e-02,
+        -3.9985e-03,  7.3957e-06, -4.6687e-03,  1.3374e-02, -1.7587e-02],
+       device='cuda:0'), grad: tensor([ 6.8918e-08,  5.5879e-09,  0.0000e+00,  7.4506e-09,  3.2596e-08,
+        -7.4506e-09, -7.1712e-08,  2.5146e-08,  9.3132e-10, -6.9849e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 418, time 246.31, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4228 re_mapping 0.0022 re_causal 0.0077 /// teacc 99.19 lr 0.00001000
+Epoch 420, weight, value: tensor([[-0.2576, -0.0731,  0.2340,  ...,  0.0357, -0.2644, -0.1784],
+        [-0.2194, -0.3017, -0.0801,  ..., -0.1453, -0.3914, -0.1328],
+        [ 0.3290, -0.0857, -0.3389,  ..., -0.2623, -0.3021, -0.2285],
+        ...,
+        [-0.1376, -0.0631, -0.4438,  ..., -0.1548,  0.1505,  0.0590],
+        [-0.2541, -0.1657, -0.0921,  ..., -0.2769, -0.0690, -0.0895],
+        [-0.1380, -0.1113, -0.1808,  ...,  0.1046,  0.0260, -0.1939]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          8.3819e-09,  0.0000e+00],
+        [-2.7940e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 2.2352e-08,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+         -1.7695e-08,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -7.4506e-09,
+          6.5193e-09,  0.0000e+00]], device='cuda:0')
+Epoch 420, bias, value: tensor([ 3.0895e-03,  5.7084e-03,  1.5689e-02, -4.1365e-03,  2.8935e-02,
+        -4.0021e-03,  1.2542e-05, -4.6701e-03,  1.3374e-02, -1.7587e-02],
+       device='cuda:0'), grad: tensor([ 3.7253e-09,  4.0978e-08, -5.4017e-08,  1.6764e-08,  1.7695e-08,
+        -1.8626e-09,  7.3574e-08, -2.4214e-08, -8.6613e-08,  1.4901e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 419, time 246.92, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4243 re_mapping 0.0021 re_causal 0.0078 /// teacc 99.21 lr 0.00001000
+Epoch 421, weight, value: tensor([[-0.2576, -0.0731,  0.2340,  ...,  0.0357, -0.2645, -0.1784],
+        [-0.2194, -0.3017, -0.0801,  ..., -0.1453, -0.3915, -0.1328],
+        [ 0.3291, -0.0857, -0.3389,  ..., -0.2623, -0.3021, -0.2285],
+        ...,
+        [-0.1376, -0.0632, -0.4438,  ..., -0.1548,  0.1505,  0.0590],
+        [-0.2542, -0.1657, -0.0922,  ..., -0.2769, -0.0690, -0.0895],
+        [-0.1380, -0.1113, -0.1808,  ...,  0.1046,  0.0260, -0.1940]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.3970e-08,  ..., -6.5193e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 7.4506e-09,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [-1.0245e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+         -0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.3039e-08,  ..., -2.5146e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 421, bias, value: tensor([ 3.0895e-03,  5.7111e-03,  1.5691e-02, -4.1334e-03,  2.8948e-02,
+        -4.0063e-03,  5.6771e-05, -4.6741e-03,  1.3371e-02, -1.7587e-02],
+       device='cuda:0'), grad: tensor([-2.5146e-08, -1.8626e-09, -1.4901e-08,  9.3132e-10,  6.4261e-08,
+         6.5193e-09, -9.3132e-10,  1.8626e-08,  2.7940e-09, -5.6811e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 420, time 246.60, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.3887 re_mapping 0.0021 re_causal 0.0074 /// teacc 99.20 lr 0.00001000
+Epoch 422, weight, value: tensor([[-0.2576, -0.0731,  0.2340,  ...,  0.0357, -0.2645, -0.1784],
+        [-0.2194, -0.3017, -0.0801,  ..., -0.1453, -0.3915, -0.1328],
+        [ 0.3291, -0.0857, -0.3390,  ..., -0.2624, -0.3022, -0.2285],
+        ...,
+        [-0.1377, -0.0632, -0.4439,  ..., -0.1549,  0.1506,  0.0590],
+        [-0.2542, -0.1657, -0.0923,  ..., -0.2770, -0.0690, -0.0895],
+        [-0.1380, -0.1113, -0.1808,  ...,  0.1046,  0.0260, -0.1940]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ..., -9.3132e-10,
+          0.0000e+00, -0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [-7.4506e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+         -2.7940e-09,  0.0000e+00],
+        [ 3.7253e-09,  0.0000e+00,  0.0000e+00,  ..., -9.3132e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ..., -0.0000e+00,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 422, bias, value: tensor([ 0.0031,  0.0057,  0.0157, -0.0041,  0.0289, -0.0040,  0.0001, -0.0047,
+         0.0134, -0.0176], device='cuda:0'), grad: tensor([ 0.0000e+00,  1.7695e-08, -1.9558e-08,  5.5879e-09,  1.8626e-09,
+        -1.8626e-08,  2.0489e-08,  2.7940e-09, -1.2387e-07,  1.1921e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 421, time 246.18, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4038 re_mapping 0.0021 re_causal 0.0074 /// teacc 99.20 lr 0.00001000
+Epoch 423, weight, value: tensor([[-0.2577, -0.0731,  0.2340,  ...,  0.0357, -0.2646, -0.1784],
+        [-0.2194, -0.3018, -0.0801,  ..., -0.1453, -0.3916, -0.1329],
+        [ 0.3292, -0.0857, -0.3390,  ..., -0.2624, -0.3022, -0.2284],
+        ...,
+        [-0.1378, -0.0632, -0.4439,  ..., -0.1549,  0.1506,  0.0589],
+        [-0.2542, -0.1657, -0.0924,  ..., -0.2770, -0.0690, -0.0896],
+        [-0.1380, -0.1113, -0.1808,  ...,  0.1046,  0.0260, -0.1941]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -7.5437e-08,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  8.0094e-08,
+         -1.3970e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          1.8626e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -7.2643e-08,
+         -3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 423, bias, value: tensor([ 0.0031,  0.0057,  0.0157, -0.0041,  0.0290, -0.0040,  0.0002, -0.0047,
+         0.0134, -0.0176], device='cuda:0'), grad: tensor([ 2.0489e-08, -1.1073e-06,  4.9360e-08,  1.8626e-09,  3.6415e-07,
+         1.3039e-08,  4.6566e-09,  7.5810e-07,  2.7940e-09, -1.0431e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 422, time 246.54, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4227 re_mapping 0.0021 re_causal 0.0076 /// teacc 99.22 lr 0.00001000
+Epoch 424, weight, value: tensor([[-0.2577, -0.0731,  0.2340,  ...,  0.0357, -0.2646, -0.1784],
+        [-0.2194, -0.3018, -0.0801,  ..., -0.1454, -0.3917, -0.1329],
+        [ 0.3294, -0.0857, -0.3391,  ..., -0.2625, -0.3022, -0.2283],
+        ...,
+        [-0.1380, -0.0632, -0.4439,  ..., -0.1549,  0.1506,  0.0588],
+        [-0.2542, -0.1657, -0.0925,  ..., -0.2771, -0.0690, -0.0896],
+        [-0.1381, -0.1113, -0.1808,  ...,  0.1046,  0.0260, -0.1941]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -3.7253e-09,  ..., -9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [-8.3819e-09, -9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -0.0000e+00],
+        ...,
+        [ 5.5879e-09,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+         -9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  4.6566e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ..., -6.5193e-09,
+          0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 424, bias, value: tensor([ 0.0031,  0.0057,  0.0158, -0.0041,  0.0290, -0.0040,  0.0002, -0.0047,
+         0.0134, -0.0176], device='cuda:0'), grad: tensor([-3.7253e-09,  3.7253e-09, -1.4901e-08,  2.7940e-09, -2.7940e-09,
+        -9.3132e-10,  5.5879e-09,  1.2107e-08,  1.5832e-08, -1.4901e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 423, time 246.62, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4283 re_mapping 0.0021 re_causal 0.0077 /// teacc 99.21 lr 0.00001000
+Epoch 425, weight, value: tensor([[-0.2577, -0.0731,  0.2340,  ...,  0.0357, -0.2646, -0.1784],
+        [-0.2194, -0.3018, -0.0802,  ..., -0.1454, -0.3917, -0.1329],
+        [ 0.3295, -0.0857, -0.3391,  ..., -0.2625, -0.3022, -0.2283],
+        ...,
+        [-0.1381, -0.0633, -0.4440,  ..., -0.1550,  0.1506,  0.0588],
+        [-0.2542, -0.1657, -0.0926,  ..., -0.2771, -0.0690, -0.0896],
+        [-0.1381, -0.1113, -0.1808,  ...,  0.1046,  0.0260, -0.1941]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ...,  5.5879e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [-4.6566e-09, -0.0000e+00,  0.0000e+00,  ...,  5.5879e-09,
+         -0.0000e+00,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  7.4506e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ..., -2.1420e-08,
+         -2.7940e-09,  0.0000e+00]], device='cuda:0')
+Epoch 425, bias, value: tensor([ 0.0031,  0.0057,  0.0158, -0.0041,  0.0290, -0.0040,  0.0002, -0.0047,
+         0.0134, -0.0176], device='cuda:0'), grad: tensor([ 1.4901e-08,  5.5879e-09,  3.7253e-09,  3.7253e-09,  1.1176e-08,
+         1.8626e-09,  1.1176e-08,  2.8871e-08,  7.4506e-09, -7.0781e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 424, time 246.11, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.3980 re_mapping 0.0021 re_causal 0.0077 /// teacc 99.17 lr 0.00001000
+Epoch 426, weight, value: tensor([[-0.2577, -0.0731,  0.2340,  ...,  0.0357, -0.2646, -0.1784],
+        [-0.2195, -0.3018, -0.0802,  ..., -0.1454, -0.3918, -0.1329],
+        [ 0.3295, -0.0857, -0.3392,  ..., -0.2625, -0.3022, -0.2283],
+        ...,
+        [-0.1381, -0.0633, -0.4440,  ..., -0.1550,  0.1506,  0.0588],
+        [-0.2543, -0.1658, -0.0927,  ..., -0.2772, -0.0690, -0.0896],
+        [-0.1381, -0.1113, -0.1808,  ...,  0.1046,  0.0260, -0.1941]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          9.3132e-10,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [-5.5879e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+         -9.3132e-09,  0.0000e+00],
+        [ 4.6566e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ..., -5.5879e-09,
+          5.5879e-09,  0.0000e+00]], device='cuda:0')
+Epoch 426, bias, value: tensor([ 0.0031,  0.0057,  0.0158, -0.0041,  0.0290, -0.0040,  0.0001, -0.0047,
+         0.0134, -0.0176], device='cuda:0'), grad: tensor([ 9.3132e-09,  2.7940e-08, -1.2107e-08, -6.5193e-09,  6.5193e-09,
+         2.2352e-08, -1.3970e-08, -9.4064e-08,  1.5832e-08,  5.4017e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 425, time 246.26, cls_loss 0.0003 cls_loss_mapping 0.0004 cls_loss_causal 0.4118 re_mapping 0.0021 re_causal 0.0077 /// teacc 99.20 lr 0.00001000
+Epoch 427, weight, value: tensor([[-0.2578, -0.0731,  0.2340,  ...,  0.0357, -0.2647, -0.1784],
+        [-0.2195, -0.3018, -0.0802,  ..., -0.1454, -0.3918, -0.1329],
+        [ 0.3296, -0.0857, -0.3392,  ..., -0.2625, -0.3023, -0.2282],
+        ...,
+        [-0.1382, -0.0633, -0.4440,  ..., -0.1550,  0.1506,  0.0588],
+        [-0.2543, -0.1658, -0.0928,  ..., -0.2773, -0.0690, -0.0896],
+        [-0.1381, -0.1113, -0.1808,  ...,  0.1046,  0.0260, -0.1942]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-08,  0.0000e+00, -9.3132e-10,  ..., -4.6566e-10,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-1.3970e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-09,  4.6566e-10,  4.6566e-10,  ...,  0.0000e+00,
+          4.6566e-10,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ..., -4.1910e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 427, bias, value: tensor([ 0.0031,  0.0057,  0.0159, -0.0041,  0.0290, -0.0040,  0.0002, -0.0047,
+         0.0134, -0.0176], device='cuda:0'), grad: tensor([ 2.3749e-08,  1.3970e-09, -2.9802e-08, -6.6124e-08,  9.7789e-09,
+         6.9384e-08, -1.3970e-08,  5.1223e-09,  1.3504e-08, -7.9162e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 426, time 246.71, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4215 re_mapping 0.0020 re_causal 0.0075 /// teacc 99.20 lr 0.00001000
+Epoch 428, weight, value: tensor([[-0.2578, -0.0731,  0.2340,  ...,  0.0357, -0.2647, -0.1784],
+        [-0.2195, -0.3018, -0.0803,  ..., -0.1455, -0.3919, -0.1329],
+        [ 0.3297, -0.0857, -0.3393,  ..., -0.2626, -0.3023, -0.2281],
+        ...,
+        [-0.1384, -0.0634, -0.4441,  ..., -0.1551,  0.1506,  0.0587],
+        [-0.2544, -0.1658, -0.0930,  ..., -0.2774, -0.0690, -0.0897],
+        [-0.1381, -0.1114, -0.1809,  ...,  0.1046,  0.0260, -0.1942]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -8.1025e-08,  ..., -5.1223e-08,
+          1.3970e-09,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  2.3283e-09,
+          9.3132e-10,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  3.2596e-09,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  2.3283e-09,  ...,  2.7940e-09,
+         -9.3132e-10,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  3.2596e-09,  ...,  2.3283e-09,
+          3.7253e-09,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.1199e-08,  ...,  7.9162e-09,
+          4.6566e-10,  0.0000e+00]], device='cuda:0')
+Epoch 428, bias, value: tensor([ 0.0031,  0.0057,  0.0160, -0.0041,  0.0290, -0.0040,  0.0002, -0.0047,
+         0.0134, -0.0176], device='cuda:0'), grad: tensor([-2.6915e-07,  1.2107e-08,  1.1176e-08,  2.3283e-09,  3.7719e-08,
+         1.7602e-07, -7.4971e-08,  1.1176e-08,  2.8871e-08,  6.7521e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 427, time 245.81, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.3944 re_mapping 0.0019 re_causal 0.0073 /// teacc 99.20 lr 0.00001000
+Epoch 429, weight, value: tensor([[-0.2578, -0.0731,  0.2341,  ...,  0.0357, -0.2647, -0.1784],
+        [-0.2195, -0.3018, -0.0804,  ..., -0.1455, -0.3920, -0.1330],
+        [ 0.3298, -0.0858, -0.3394,  ..., -0.2626, -0.3023, -0.2281],
+        ...,
+        [-0.1384, -0.0634, -0.4441,  ..., -0.1551,  0.1507,  0.0587],
+        [-0.2544, -0.1658, -0.0931,  ..., -0.2775, -0.0691, -0.0897],
+        [-0.1382, -0.1114, -0.1809,  ...,  0.1046,  0.0259, -0.1942]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.4435e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          1.3970e-09,  0.0000e+00]], device='cuda:0')
+Epoch 429, bias, value: tensor([ 0.0031,  0.0057,  0.0160, -0.0041,  0.0290, -0.0041,  0.0003, -0.0047,
+         0.0133, -0.0176], device='cuda:0'), grad: tensor([ 5.5879e-09,  8.7544e-08,  6.9849e-09,  2.5146e-08,  5.1223e-09,
+        -1.3504e-08, -6.0536e-09, -1.2945e-07,  1.1176e-08,  1.6764e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 428, time 245.56, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4130 re_mapping 0.0020 re_causal 0.0077 /// teacc 99.21 lr 0.00001000
+Epoch 430, weight, value: tensor([[-0.2578, -0.0731,  0.2341,  ...,  0.0357, -0.2648, -0.1784],
+        [-0.2195, -0.3018, -0.0804,  ..., -0.1455, -0.3921, -0.1330],
+        [ 0.3298, -0.0858, -0.3394,  ..., -0.2627, -0.3023, -0.2281],
+        ...,
+        [-0.1384, -0.0634, -0.4442,  ..., -0.1551,  0.1507,  0.0587],
+        [-0.2544, -0.1658, -0.0932,  ..., -0.2775, -0.0691, -0.0897],
+        [-0.1382, -0.1114, -0.1809,  ...,  0.1046,  0.0259, -0.1943]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.3970e-09,  ..., -9.3132e-10,
+          1.8626e-09,  1.8626e-09],
+        [ 1.7229e-08,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          3.7253e-09,  4.1910e-09],
+        [-2.7474e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  1.3970e-09],
+        ...,
+        [ 1.0710e-08,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-09,
+         -2.2352e-08, -2.2817e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-09,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  6.9849e-09,
+          4.6566e-10,  1.3970e-09]], device='cuda:0')
+Epoch 430, bias, value: tensor([ 0.0031,  0.0057,  0.0160, -0.0041,  0.0290, -0.0041,  0.0003, -0.0047,
+         0.0133, -0.0176], device='cuda:0'), grad: tensor([ 1.2573e-08,  1.8440e-07, -4.8429e-08,  1.4435e-07,  3.0268e-08,
+        -5.7556e-07,  4.6426e-07, -2.6077e-07,  3.3528e-08,  2.9802e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 429, time 245.88, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4063 re_mapping 0.0020 re_causal 0.0078 /// teacc 99.21 lr 0.00001000
+Epoch 431, weight, value: tensor([[-0.2578, -0.0731,  0.2341,  ...,  0.0357, -0.2648, -0.1784],
+        [-0.2195, -0.3019, -0.0805,  ..., -0.1455, -0.3922, -0.1330],
+        [ 0.3299, -0.0858, -0.3395,  ..., -0.2627, -0.3023, -0.2281],
+        ...,
+        [-0.1385, -0.0635, -0.4442,  ..., -0.1551,  0.1507,  0.0587],
+        [-0.2544, -0.1658, -0.0933,  ..., -0.2776, -0.0691, -0.0898],
+        [-0.1382, -0.1114, -0.1809,  ...,  0.1046,  0.0259, -0.1943]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -6.9849e-09,  ..., -9.3132e-10,
+          0.0000e+00, -0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  1.8626e-09,
+         -9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  6.9849e-09,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  6.5193e-09,  ..., -9.3132e-10,
+          4.6566e-10,  0.0000e+00]], device='cuda:0')
+Epoch 431, bias, value: tensor([ 0.0031,  0.0057,  0.0160, -0.0041,  0.0290, -0.0041,  0.0003, -0.0047,
+         0.0133, -0.0176], device='cuda:0'), grad: tensor([-7.4506e-09,  7.9162e-09,  2.3283e-09, -1.0151e-07, -3.3993e-08,
+         3.9116e-08,  3.1665e-08,  4.1910e-09,  4.0978e-08,  2.0955e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 430, time 246.03, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4198 re_mapping 0.0021 re_causal 0.0075 /// teacc 99.20 lr 0.00001000
+Epoch 432, weight, value: tensor([[-0.2579, -0.0731,  0.2341,  ...,  0.0357, -0.2649, -0.1784],
+        [-0.2195, -0.3019, -0.0805,  ..., -0.1456, -0.3923, -0.1330],
+        [ 0.3299, -0.0858, -0.3396,  ..., -0.2628, -0.3024, -0.2281],
+        ...,
+        [-0.1385, -0.0635, -0.4442,  ..., -0.1552,  0.1507,  0.0588],
+        [-0.2545, -0.1658, -0.0934,  ..., -0.2776, -0.0691, -0.0898],
+        [-0.1382, -0.1114, -0.1809,  ...,  0.1046,  0.0259, -0.1943]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          4.6566e-10,  4.6566e-10],
+        [ 4.1910e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -0.0000e+00],
+        [-2.2817e-08,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          4.6566e-10,  4.6566e-10],
+        ...,
+        [ 1.5367e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.3970e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ..., -9.3132e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 432, bias, value: tensor([ 0.0031,  0.0058,  0.0160, -0.0041,  0.0290, -0.0041,  0.0003, -0.0047,
+         0.0133, -0.0176], device='cuda:0'), grad: tensor([ 5.5879e-09, -9.7789e-09, -4.3772e-08,  3.2596e-09,  1.2573e-08,
+         1.1176e-08, -1.3970e-08,  4.2375e-08,  5.5879e-09, -1.3970e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 431, time 246.18, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4277 re_mapping 0.0020 re_causal 0.0075 /// teacc 99.22 lr 0.00001000
+Epoch 433, weight, value: tensor([[-0.2579, -0.0731,  0.2341,  ...,  0.0357, -0.2649, -0.1784],
+        [-0.2196, -0.3019, -0.0805,  ..., -0.1456, -0.3925, -0.1330],
+        [ 0.3301, -0.0858, -0.3396,  ..., -0.2628, -0.3024, -0.2280],
+        ...,
+        [-0.1388, -0.0635, -0.4442,  ..., -0.1552,  0.1508,  0.0586],
+        [-0.2545, -0.1658, -0.0934,  ..., -0.2777, -0.0691, -0.0898],
+        [-0.1383, -0.1114, -0.1809,  ...,  0.1046,  0.0259, -0.1944]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00, -1.6298e-08,  ..., -1.1642e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-09,  0.0000e+00,  3.2596e-09,  ...,  1.3970e-09,
+          1.3970e-09,  0.0000e+00],
+        [-2.3283e-08,  0.0000e+00,  2.7940e-09,  ...,  2.7940e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.1642e-08,  0.0000e+00,  1.8626e-09,  ...,  2.7940e-09,
+         -2.7940e-09,  0.0000e+00],
+        [ 1.3970e-09,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  7.9162e-09,  ...,  1.3644e-07,
+          1.3970e-09,  0.0000e+00]], device='cuda:0')
+Epoch 433, bias, value: tensor([ 0.0031,  0.0058,  0.0161, -0.0041,  0.0290, -0.0041,  0.0003, -0.0048,
+         0.0133, -0.0176], device='cuda:0'), grad: tensor([-4.5169e-08, -9.1270e-08, -5.2154e-08,  7.9162e-09, -2.9569e-07,
+         5.1223e-09,  6.5193e-09,  1.1316e-07,  1.0710e-08,  3.5344e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 432, time 246.41, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4178 re_mapping 0.0020 re_causal 0.0075 /// teacc 99.20 lr 0.00001000
+Epoch 434, weight, value: tensor([[-0.2579, -0.0731,  0.2341,  ...,  0.0357, -0.2650, -0.1784],
+        [-0.2196, -0.3019, -0.0806,  ..., -0.1456, -0.3926, -0.1330],
+        [ 0.3302, -0.0858, -0.3397,  ..., -0.2629, -0.3024, -0.2280],
+        ...,
+        [-0.1388, -0.0635, -0.4443,  ..., -0.1553,  0.1508,  0.0586],
+        [-0.2545, -0.1658, -0.0935,  ..., -0.2778, -0.0691, -0.0899],
+        [-0.1383, -0.1114, -0.1809,  ...,  0.1046,  0.0259, -0.1944]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.7695e-08,  ...,  9.6858e-08,
+          0.0000e+00, -4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  2.3283e-09,  ...,  1.8626e-09,
+         -1.3970e-09,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  4.6566e-09,  ...,  4.6566e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  6.9849e-09,  ..., -1.2945e-07,
+          4.6566e-10,  0.0000e+00]], device='cuda:0')
+Epoch 434, bias, value: tensor([ 0.0031,  0.0058,  0.0162, -0.0041,  0.0290, -0.0041,  0.0004, -0.0048,
+         0.0133, -0.0176], device='cuda:0'), grad: tensor([ 1.7649e-07,  1.2573e-08,  2.3283e-09,  3.7253e-09,  6.7521e-08,
+        -9.3132e-10,  7.4506e-09,  9.3132e-09,  2.4680e-08, -2.8266e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 433, time 246.03, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4126 re_mapping 0.0019 re_causal 0.0075 /// teacc 99.20 lr 0.00001000
+Epoch 435, weight, value: tensor([[-0.2579, -0.0731,  0.2341,  ...,  0.0357, -0.2650, -0.1784],
+        [-0.2196, -0.3019, -0.0806,  ..., -0.1456, -0.3927, -0.1330],
+        [ 0.3303, -0.0858, -0.3397,  ..., -0.2629, -0.3024, -0.2280],
+        ...,
+        [-0.1388, -0.0636, -0.4443,  ..., -0.1553,  0.1508,  0.0586],
+        [-0.2546, -0.1658, -0.0936,  ..., -0.2779, -0.0691, -0.0899],
+        [-0.1383, -0.1114, -0.1809,  ...,  0.1046,  0.0259, -0.1944]],
+       device='cuda:0'), grad: tensor([[ 4.1910e-09,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          8.8476e-09,  9.3132e-10],
+        [-7.4506e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        ...,
+        [ 2.3283e-09,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+         -3.3062e-08, -1.3970e-09],
+        [ 4.6566e-09,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  4.6566e-10,  ..., -1.3970e-09,
+          2.0489e-08,  0.0000e+00]], device='cuda:0')
+Epoch 435, bias, value: tensor([ 0.0031,  0.0058,  0.0162, -0.0040,  0.0291, -0.0041,  0.0004, -0.0048,
+         0.0133, -0.0176], device='cuda:0'), grad: tensor([ 1.5367e-08,  3.2131e-08, -1.5367e-08, -7.0315e-08,  1.1642e-08,
+         2.8405e-08,  9.3132e-10, -1.0803e-07,  2.8871e-08,  7.9628e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 434, time 246.07, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4203 re_mapping 0.0019 re_causal 0.0074 /// teacc 99.20 lr 0.00001000
+Epoch 436, weight, value: tensor([[-0.2580, -0.0731,  0.2341,  ...,  0.0357, -0.2652, -0.1785],
+        [-0.2196, -0.3019, -0.0806,  ..., -0.1457, -0.3928, -0.1331],
+        [ 0.3303, -0.0858, -0.3398,  ..., -0.2629, -0.3025, -0.2280],
+        ...,
+        [-0.1389, -0.0636, -0.4444,  ..., -0.1554,  0.1509,  0.0586],
+        [-0.2546, -0.1658, -0.0938,  ..., -0.2780, -0.0691, -0.0899],
+        [-0.1383, -0.1114, -0.1809,  ...,  0.1046,  0.0259, -0.1944]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.3970e-09,  ..., -4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  9.3132e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 436, bias, value: tensor([ 0.0031,  0.0058,  0.0162, -0.0040,  0.0291, -0.0041,  0.0005, -0.0048,
+         0.0133, -0.0176], device='cuda:0'), grad: tensor([-3.7253e-09,  2.3283e-09,  4.6566e-10, -1.8626e-09, -1.7229e-08,
+         4.1910e-09,  7.9162e-09,  6.9849e-09,  3.2596e-09,  1.9558e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 435, time 246.07, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4230 re_mapping 0.0019 re_causal 0.0073 /// teacc 99.20 lr 0.00001000
+Epoch 437, weight, value: tensor([[-0.2580, -0.0731,  0.2341,  ...,  0.0357, -0.2652, -0.1785],
+        [-0.2196, -0.3019, -0.0806,  ..., -0.1457, -0.3930, -0.1331],
+        [ 0.3304, -0.0858, -0.3398,  ..., -0.2630, -0.3025, -0.2279],
+        ...,
+        [-0.1389, -0.0636, -0.4444,  ..., -0.1555,  0.1509,  0.0586],
+        [-0.2546, -0.1659, -0.0938,  ..., -0.2781, -0.0691, -0.0899],
+        [-0.1384, -0.1114, -0.1809,  ...,  0.1046,  0.0259, -0.1945]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.0489e-08,  ..., -1.0245e-08,
+          2.3283e-09, -9.3132e-10],
+        [ 4.6566e-10,  0.0000e+00,  4.6566e-10,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  7.9162e-09],
+        ...,
+        [ 1.3970e-09,  0.0000e+00,  1.8626e-09,  ...,  1.3970e-09,
+         -9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  5.1223e-09,  ...,  4.6566e-10,
+          2.3283e-09, -6.6124e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.3504e-08,  ..., -1.7695e-08,
+          4.6566e-10,  9.3132e-10]], device='cuda:0')
+Epoch 437, bias, value: tensor([ 0.0031,  0.0058,  0.0162, -0.0040,  0.0291, -0.0041,  0.0005, -0.0048,
+         0.0133, -0.0176], device='cuda:0'), grad: tensor([-4.3306e-08, -5.8394e-07,  1.4482e-07, -4.0047e-08,  6.6124e-08,
+         9.8813e-07,  8.3819e-08,  5.5926e-07, -1.1902e-06,  2.0023e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 436, time 245.94, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4444 re_mapping 0.0019 re_causal 0.0075 /// teacc 99.20 lr 0.00001000
+Epoch 438, weight, value: tensor([[-0.2580, -0.0731,  0.2341,  ...,  0.0357, -0.2653, -0.1785],
+        [-0.2197, -0.3019, -0.0806,  ..., -0.1457, -0.3931, -0.1331],
+        [ 0.3304, -0.0858, -0.3399,  ..., -0.2630, -0.3025, -0.2279],
+        ...,
+        [-0.1389, -0.0636, -0.4444,  ..., -0.1555,  0.1509,  0.0586],
+        [-0.2547, -0.1659, -0.0939,  ..., -0.2783, -0.0691, -0.0899],
+        [-0.1384, -0.1114, -0.1809,  ...,  0.1046,  0.0259, -0.1945]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00, -8.8476e-09,  ..., -4.6566e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 6.0536e-09,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          4.6566e-10,  0.0000e+00],
+        [-3.8650e-08,  0.0000e+00,  9.3132e-10,  ..., -6.5193e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.1642e-08,  0.0000e+00,  0.0000e+00,  ...,  4.1910e-09,
+         -9.3132e-10,  0.0000e+00],
+        [ 6.9849e-09,  0.0000e+00,  0.0000e+00,  ...,  3.2596e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 1.3039e-08,  0.0000e+00,  6.9849e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 438, bias, value: tensor([ 0.0031,  0.0058,  0.0162, -0.0041,  0.0291, -0.0041,  0.0005, -0.0048,
+         0.0133, -0.0176], device='cuda:0'), grad: tensor([-1.8161e-08,  1.5832e-08, -8.2888e-08,  2.4214e-08,  1.1642e-08,
+        -1.9558e-08,  2.3283e-09,  3.6787e-08,  2.7474e-08,  1.3970e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 437, time 246.07, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.3979 re_mapping 0.0019 re_causal 0.0073 /// teacc 99.21 lr 0.00001000
+Epoch 439, weight, value: tensor([[-0.2581, -0.0731,  0.2341,  ...,  0.0357, -0.2653, -0.1785],
+        [-0.2197, -0.3019, -0.0807,  ..., -0.1458, -0.3932, -0.1332],
+        [ 0.3305, -0.0858, -0.3400,  ..., -0.2631, -0.3025, -0.2280],
+        ...,
+        [-0.1390, -0.0637, -0.4444,  ..., -0.1556,  0.1510,  0.0587],
+        [-0.2547, -0.1659, -0.0940,  ..., -0.2784, -0.0691, -0.0900],
+        [-0.1384, -0.1114, -0.1809,  ...,  0.1046,  0.0258, -0.1945]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  4.6566e-10,  2.4214e-08,  ...,  9.3132e-09,
+          0.0000e+00,  2.3283e-09],
+        [ 1.3970e-09,  1.3970e-09, -2.6543e-08,  ..., -5.1223e-09,
+          0.0000e+00, -2.3283e-09],
+        [-2.3749e-08,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.9558e-08,  4.6566e-09,  9.3132e-10,  ...,  2.7940e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  4.6566e-10,  0.0000e+00,  ...,  2.3283e-08,
+          0.0000e+00,  0.0000e+00],
+        [-2.7940e-09,  4.6566e-10,  0.0000e+00,  ..., -7.1246e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 439, bias, value: tensor([ 0.0031,  0.0058,  0.0162, -0.0041,  0.0291, -0.0041,  0.0005, -0.0048,
+         0.0133, -0.0176], device='cuda:0'), grad: tensor([ 1.0710e-07, -8.0094e-08, -6.1002e-08, -1.6391e-07,  1.2806e-07,
+         8.7079e-08,  8.8476e-09,  1.3830e-07,  9.5461e-08, -2.5565e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 438, time 245.89, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4197 re_mapping 0.0019 re_causal 0.0074 /// teacc 99.19 lr 0.00001000
+Epoch 440, weight, value: tensor([[-0.2581, -0.0731,  0.2342,  ...,  0.0357, -0.2654, -0.1785],
+        [-0.2197, -0.3020, -0.0807,  ..., -0.1458, -0.3933, -0.1332],
+        [ 0.3305, -0.0858, -0.3401,  ..., -0.2631, -0.3026, -0.2280],
+        ...,
+        [-0.1390, -0.0637, -0.4445,  ..., -0.1557,  0.1510,  0.0587],
+        [-0.2547, -0.1659, -0.0941,  ..., -0.2785, -0.0691, -0.0900],
+        [-0.1384, -0.1114, -0.1809,  ...,  0.1046,  0.0258, -0.1945]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  1.8626e-09,
+          4.6566e-10,  4.6566e-10],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  1.6298e-08,
+          4.6566e-10, -1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  2.3749e-08,
+          1.8626e-09,  4.6566e-10],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -2.5146e-08,
+         -6.9849e-09,  0.0000e+00]], device='cuda:0')
+Epoch 440, bias, value: tensor([ 0.0031,  0.0058,  0.0162, -0.0041,  0.0291, -0.0041,  0.0005, -0.0048,
+         0.0133, -0.0176], device='cuda:0'), grad: tensor([ 1.8626e-08, -5.6345e-08,  6.5193e-09,  9.3132e-09, -6.1467e-08,
+         1.3039e-08,  1.4435e-08,  1.3132e-07,  2.5146e-08, -7.6368e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 439, time 245.97, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4420 re_mapping 0.0019 re_causal 0.0076 /// teacc 99.18 lr 0.00001000
+Epoch 441, weight, value: tensor([[-0.2581, -0.0731,  0.2342,  ...,  0.0357, -0.2654, -0.1785],
+        [-0.2197, -0.3020, -0.0807,  ..., -0.1459, -0.3934, -0.1332],
+        [ 0.3307, -0.0858, -0.3402,  ..., -0.2631, -0.3026, -0.2279],
+        ...,
+        [-0.1391, -0.0637, -0.4445,  ..., -0.1558,  0.1511,  0.0586],
+        [-0.2547, -0.1659, -0.0942,  ..., -0.2786, -0.0691, -0.0900],
+        [-0.1384, -0.1114, -0.1809,  ...,  0.1046,  0.0258, -0.1946]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          4.6566e-10,  0.0000e+00]], device='cuda:0')
+Epoch 441, bias, value: tensor([ 0.0031,  0.0059,  0.0162, -0.0041,  0.0291, -0.0042,  0.0005, -0.0048,
+         0.0133, -0.0176], device='cuda:0'), grad: tensor([ 2.7940e-09, -6.9849e-09,  3.7253e-09,  4.6566e-10,  1.8626e-09,
+         7.9162e-09, -9.3132e-10,  6.0536e-09, -1.3039e-08,  1.2107e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 440, time 246.41, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4306 re_mapping 0.0019 re_causal 0.0076 /// teacc 99.17 lr 0.00001000
+Epoch 442, weight, value: tensor([[-0.2581, -0.0731,  0.2342,  ...,  0.0357, -0.2655, -0.1785],
+        [-0.2197, -0.3020, -0.0808,  ..., -0.1459, -0.3935, -0.1332],
+        [ 0.3307, -0.0858, -0.3402,  ..., -0.2632, -0.3027, -0.2279],
+        ...,
+        [-0.1392, -0.0637, -0.4445,  ..., -0.1559,  0.1511,  0.0586],
+        [-0.2548, -0.1659, -0.0943,  ..., -0.2787, -0.0691, -0.0900],
+        [-0.1384, -0.1114, -0.1810,  ...,  0.1046,  0.0258, -0.1946]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  4.6566e-10],
+        [-1.1642e-08, -4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -1.8626e-09],
+        ...,
+        [ 1.1642e-08,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+         -9.3132e-10,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          4.6566e-10,  0.0000e+00]], device='cuda:0')
+Epoch 442, bias, value: tensor([ 0.0031,  0.0059,  0.0162, -0.0041,  0.0291, -0.0042,  0.0005, -0.0049,
+         0.0133, -0.0176], device='cuda:0'), grad: tensor([ 1.3970e-09, -1.3039e-08, -2.5611e-08,  1.3970e-09, -3.7253e-09,
+         2.1886e-08, -1.1642e-08,  3.0734e-08, -1.3504e-08,  1.5367e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 441, time 246.07, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4056 re_mapping 0.0020 re_causal 0.0074 /// teacc 99.19 lr 0.00001000
+Epoch 443, weight, value: tensor([[-0.2581, -0.0731,  0.2342,  ...,  0.0357, -0.2655, -0.1784],
+        [-0.2197, -0.3020, -0.0808,  ..., -0.1460, -0.3936, -0.1332],
+        [ 0.3307, -0.0858, -0.3403,  ..., -0.2632, -0.3027, -0.2279],
+        ...,
+        [-0.1392, -0.0638, -0.4446,  ..., -0.1559,  0.1511,  0.0587],
+        [-0.2548, -0.1659, -0.0943,  ..., -0.2788, -0.0691, -0.0900],
+        [-0.1385, -0.1114, -0.1810,  ...,  0.1046,  0.0258, -0.1946]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.6566e-10,  ..., -9.3132e-10,
+          4.6566e-10,  4.6566e-10],
+        [ 4.6566e-09,  4.6566e-10,  9.3132e-10,  ...,  1.3970e-09,
+          1.8626e-09,  0.0000e+00],
+        [-1.1642e-08,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        ...,
+        [ 4.1910e-09,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-09,
+         -2.0955e-08, -0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  6.5193e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.2596e-09,  ..., -1.7695e-08,
+          1.9092e-08,  0.0000e+00]], device='cuda:0')
+Epoch 443, bias, value: tensor([ 0.0031,  0.0059,  0.0162, -0.0041,  0.0291, -0.0042,  0.0005, -0.0049,
+         0.0133, -0.0176], device='cuda:0'), grad: tensor([ 1.2107e-08,  1.2107e-08, -4.6566e-09, -8.3819e-09,  4.3772e-08,
+         2.3283e-09, -2.5146e-08, -5.6811e-08, -6.0536e-09,  3.0734e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 442, time 246.29, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4119 re_mapping 0.0020 re_causal 0.0077 /// teacc 99.19 lr 0.00001000
+Epoch 444, weight, value: tensor([[-0.2582, -0.0731,  0.2343,  ...,  0.0357, -0.2655, -0.1784],
+        [-0.2198, -0.3020, -0.0809,  ..., -0.1460, -0.3936, -0.1333],
+        [ 0.3308, -0.0858, -0.3404,  ..., -0.2633, -0.3027, -0.2279],
+        ...,
+        [-0.1392, -0.0638, -0.4446,  ..., -0.1560,  0.1511,  0.0587],
+        [-0.2548, -0.1659, -0.0944,  ..., -0.2788, -0.0691, -0.0900],
+        [-0.1385, -0.1114, -0.1810,  ...,  0.1046,  0.0258, -0.1947]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ..., -2.7940e-09,
+          5.1223e-09,  2.7940e-09],
+        [ 1.3970e-09,  0.0000e+00,  4.6566e-10,  ...,  2.7940e-09,
+          9.3132e-10,  4.6566e-10],
+        [-1.3970e-09,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  3.4925e-08,
+         -9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  8.8476e-09,  ...,  2.3283e-09,
+          9.3132e-10,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  4.5169e-08,
+          4.6566e-10,  4.6566e-10]], device='cuda:0')
+Epoch 444, bias, value: tensor([ 0.0031,  0.0059,  0.0162, -0.0041,  0.0291, -0.0042,  0.0005, -0.0049,
+         0.0133, -0.0176], device='cuda:0'), grad: tensor([ 6.0536e-09,  1.4435e-08, -1.3970e-09,  2.0489e-08, -2.5285e-07,
+        -1.1176e-08, -4.4238e-08,  8.9873e-08,  2.4214e-08,  1.6438e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 443, time 246.37, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4123 re_mapping 0.0019 re_causal 0.0075 /// teacc 99.18 lr 0.00001000
+Epoch 445, weight, value: tensor([[-0.2582, -0.0732,  0.2343,  ...,  0.0357, -0.2656, -0.1784],
+        [-0.2198, -0.3020, -0.0809,  ..., -0.1461, -0.3937, -0.1333],
+        [ 0.3309, -0.0858, -0.3405,  ..., -0.2634, -0.3027, -0.2279],
+        ...,
+        [-0.1393, -0.0638, -0.4447,  ..., -0.1561,  0.1511,  0.0587],
+        [-0.2548, -0.1659, -0.0944,  ..., -0.2789, -0.0691, -0.0900],
+        [-0.1385, -0.1114, -0.1810,  ...,  0.1046,  0.0258, -0.1947]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          4.6566e-10,  0.0000e+00],
+        [-3.7253e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  4.6566e-10,  0.0000e+00,  ...,  1.3970e-09,
+         -9.3132e-10,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ..., -7.4506e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 445, bias, value: tensor([ 0.0031,  0.0059,  0.0163, -0.0041,  0.0291, -0.0042,  0.0005, -0.0049,
+         0.0133, -0.0176], device='cuda:0'), grad: tensor([ 3.2596e-09, -2.7940e-09, -2.7940e-09, -1.7229e-08,  2.1886e-08,
+         1.3504e-08, -7.4506e-09,  8.8476e-09,  5.1223e-09, -1.5832e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 444, time 245.96, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.3998 re_mapping 0.0019 re_causal 0.0073 /// teacc 99.20 lr 0.00001000
+Epoch 446, weight, value: tensor([[-0.2582, -0.0732,  0.2343,  ...,  0.0357, -0.2656, -0.1784],
+        [-0.2199, -0.3020, -0.0810,  ..., -0.1461, -0.3938, -0.1333],
+        [ 0.3310, -0.0858, -0.3405,  ..., -0.2636, -0.3027, -0.2279],
+        ...,
+        [-0.1394, -0.0638, -0.4447,  ..., -0.1562,  0.1512,  0.0587],
+        [-0.2549, -0.1659, -0.0945,  ..., -0.2791, -0.0691, -0.0901],
+        [-0.1385, -0.1114, -0.1810,  ...,  0.1046,  0.0258, -0.1947]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -1.8626e-09,  ..., -9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 1.3970e-09,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [-9.7789e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -9.3132e-10],
+        ...,
+        [ 6.0536e-09,  4.6566e-10,  0.0000e+00,  ...,  3.2596e-09,
+          4.6566e-10,  4.6566e-10],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  1.3970e-09,  ..., -6.5193e-09,
+         -9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 446, bias, value: tensor([ 0.0031,  0.0059,  0.0163, -0.0041,  0.0292, -0.0042,  0.0005, -0.0049,
+         0.0133, -0.0176], device='cuda:0'), grad: tensor([ 9.3132e-10, -2.9337e-08, -2.7474e-08, -6.9849e-09,  1.3504e-08,
+        -4.1910e-09,  1.1642e-08,  4.6566e-08,  8.3819e-09, -1.0710e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 445, time 246.24, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4244 re_mapping 0.0019 re_causal 0.0073 /// teacc 99.18 lr 0.00001000
+Epoch 447, weight, value: tensor([[-0.2583, -0.0732,  0.2343,  ...,  0.0357, -0.2657, -0.1784],
+        [-0.2199, -0.3020, -0.0810,  ..., -0.1462, -0.3939, -0.1333],
+        [ 0.3311, -0.0858, -0.3406,  ..., -0.2636, -0.3028, -0.2279],
+        ...,
+        [-0.1395, -0.0638, -0.4447,  ..., -0.1563,  0.1512,  0.0587],
+        [-0.2549, -0.1659, -0.0946,  ..., -0.2792, -0.0691, -0.0901],
+        [-0.1386, -0.1114, -0.1810,  ...,  0.1046,  0.0258, -0.1948]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00, -7.2177e-09,  ..., -2.0955e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  2.3283e-10,  2.3283e-10,  ..., -1.3970e-09,
+          2.3283e-09,  2.3283e-10],
+        [-5.5879e-09, -9.3132e-10,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 3.2596e-09,  2.3283e-10,  2.3283e-10,  ...,  4.6566e-10,
+         -1.2340e-08, -1.6298e-09],
+        [ 4.6566e-10,  2.3283e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  5.8208e-09,  ..., -2.0955e-09,
+          8.1491e-09,  1.1642e-09]], device='cuda:0')
+Epoch 447, bias, value: tensor([ 0.0031,  0.0059,  0.0163, -0.0041,  0.0292, -0.0042,  0.0006, -0.0049,
+         0.0133, -0.0176], device='cuda:0'), grad: tensor([-6.9849e-10, -4.0280e-08, -6.9849e-09,  3.4692e-08,  2.5611e-08,
+        -2.9802e-08,  7.2177e-09, -6.5193e-09,  8.8476e-09,  2.7707e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 446, time 246.60, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4281 re_mapping 0.0019 re_causal 0.0075 /// teacc 99.18 lr 0.00001000
+Epoch 448, weight, value: tensor([[-0.2583, -0.0732,  0.2343,  ...,  0.0357, -0.2657, -0.1784],
+        [-0.2199, -0.3020, -0.0810,  ..., -0.1462, -0.3940, -0.1333],
+        [ 0.3312, -0.0858, -0.3406,  ..., -0.2636, -0.3028, -0.2279],
+        ...,
+        [-0.1395, -0.0639, -0.4448,  ..., -0.1564,  0.1512,  0.0587],
+        [-0.2550, -0.1659, -0.0947,  ..., -0.2793, -0.0691, -0.0901],
+        [-0.1386, -0.1114, -0.1810,  ...,  0.1046,  0.0257, -0.1948]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.0151e-07,  ..., -4.1444e-08,
+          4.6566e-10, -6.9849e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.1188e-08,  ...,  1.1176e-08,
+          1.8626e-09,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.9092e-08,  ...,  7.9162e-09,
+          1.6298e-09,  6.9849e-10],
+        ...,
+        [ 2.3283e-10,  0.0000e+00,  9.3132e-10,  ...,  6.2864e-09,
+         -3.2596e-09, -2.0955e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.8894e-09,  ...,  6.0536e-09,
+          6.9849e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.5157e-08,  ..., -1.4435e-08,
+         -3.7253e-09,  2.3283e-10]], device='cuda:0')
+Epoch 448, bias, value: tensor([ 0.0031,  0.0059,  0.0164, -0.0041,  0.0292, -0.0042,  0.0005, -0.0049,
+         0.0133, -0.0176], device='cuda:0'), grad: tensor([-2.2491e-07,  6.6590e-08,  5.4482e-08,  3.4925e-09,  6.3796e-08,
+         8.6147e-09,  4.9127e-08, -3.7253e-09,  2.8871e-08, -2.9104e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 447, time 246.65, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4175 re_mapping 0.0019 re_causal 0.0076 /// teacc 99.15 lr 0.00001000
+Epoch 449, weight, value: tensor([[-0.2583, -0.0732,  0.2344,  ...,  0.0357, -0.2658, -0.1784],
+        [-0.2200, -0.3020, -0.0811,  ..., -0.1462, -0.3940, -0.1333],
+        [ 0.3313, -0.0858, -0.3407,  ..., -0.2637, -0.3028, -0.2279],
+        ...,
+        [-0.1396, -0.0639, -0.4448,  ..., -0.1565,  0.1513,  0.0586],
+        [-0.2550, -0.1660, -0.0948,  ..., -0.2793, -0.0691, -0.0901],
+        [-0.1386, -0.1114, -0.1810,  ...,  0.1046,  0.0257, -0.1948]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  0.0000e+00,
+          2.3283e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          2.3283e-10,  0.0000e+00],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  2.3283e-10,  0.0000e+00,  ...,  4.6566e-10,
+         -0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  6.9849e-10,  ..., -0.0000e+00,
+          2.3283e-10,  0.0000e+00]], device='cuda:0')
+Epoch 449, bias, value: tensor([ 0.0031,  0.0059,  0.0164, -0.0041,  0.0292, -0.0042,  0.0006, -0.0050,
+         0.0133, -0.0176], device='cuda:0'), grad: tensor([ 1.6298e-09,  1.2619e-07,  2.5146e-08, -2.3283e-09,  1.3970e-09,
+         7.2177e-09,  3.4925e-09, -1.3015e-07, -2.0256e-08,  6.5193e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 448, time 246.33, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.3970 re_mapping 0.0019 re_causal 0.0073 /// teacc 99.18 lr 0.00001000
+Epoch 450, weight, value: tensor([[-0.2583, -0.0732,  0.2344,  ...,  0.0357, -0.2659, -0.1784],
+        [-0.2200, -0.3020, -0.0811,  ..., -0.1462, -0.3941, -0.1333],
+        [ 0.3314, -0.0858, -0.3408,  ..., -0.2638, -0.3028, -0.2279],
+        ...,
+        [-0.1397, -0.0639, -0.4449,  ..., -0.1566,  0.1513,  0.0586],
+        [-0.2550, -0.1660, -0.0949,  ..., -0.2794, -0.0691, -0.0901],
+        [-0.1387, -0.1114, -0.1811,  ...,  0.1046,  0.0257, -0.1949]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.5611e-09,  ...,  2.5611e-09,
+          4.6566e-10,  2.3283e-10],
+        [ 2.3283e-10,  0.0000e+00,  9.3132e-10,  ...,  5.8208e-09,
+          2.3283e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  2.0955e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 2.3283e-10,  0.0000e+00,  4.6566e-10,  ...,  7.4506e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  3.9581e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.2596e-09,  ..., -7.2177e-09,
+          2.3283e-10,  0.0000e+00]], device='cuda:0')
+Epoch 450, bias, value: tensor([ 0.0031,  0.0059,  0.0164, -0.0040,  0.0292, -0.0043,  0.0007, -0.0050,
+         0.0133, -0.0176], device='cuda:0'), grad: tensor([ 4.1910e-09, -7.2643e-08,  5.3551e-09,  1.8626e-08, -6.5193e-08,
+         9.5461e-09,  1.1874e-08,  9.3365e-08,  1.2573e-08, -2.0955e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 449, time 245.83, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.3925 re_mapping 0.0019 re_causal 0.0072 /// teacc 99.20 lr 0.00001000
+Epoch 451, weight, value: tensor([[-0.2584, -0.0732,  0.2344,  ...,  0.0357, -0.2659, -0.1784],
+        [-0.2200, -0.3020, -0.0811,  ..., -0.1463, -0.3942, -0.1334],
+        [ 0.3315, -0.0858, -0.3409,  ..., -0.2638, -0.3029, -0.2279],
+        ...,
+        [-0.1397, -0.0640, -0.4449,  ..., -0.1567,  0.1513,  0.0586],
+        [-0.2551, -0.1660, -0.0950,  ..., -0.2795, -0.0691, -0.0901],
+        [-0.1387, -0.1114, -0.1811,  ...,  0.1046,  0.0257, -0.1949]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ..., -9.3132e-10,
+          0.0000e+00, -2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  2.3283e-10,
+          1.8626e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-10,  2.3283e-10],
+        ...,
+        [ 2.3283e-10,  0.0000e+00,  2.3283e-10,  ...,  2.3283e-10,
+         -3.0268e-09, -9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.5611e-09,  ...,  2.3283e-10,
+          1.1642e-09,  2.3283e-10]], device='cuda:0')
+Epoch 451, bias, value: tensor([ 0.0031,  0.0059,  0.0164, -0.0039,  0.0293, -0.0044,  0.0007, -0.0050,
+         0.0133, -0.0176], device='cuda:0'), grad: tensor([-2.5611e-09,  9.0804e-09,  6.7521e-09,  1.6298e-09,  6.5193e-09,
+         3.0268e-09,  3.2596e-09, -3.5856e-08,  1.8626e-09,  2.7940e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 450, time 245.95, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4114 re_mapping 0.0019 re_causal 0.0075 /// teacc 99.20 lr 0.00001000
+Epoch 452, weight, value: tensor([[-0.2584, -0.0732,  0.2344,  ...,  0.0357, -0.2660, -0.1784],
+        [-0.2200, -0.3020, -0.0812,  ..., -0.1463, -0.3942, -0.1334],
+        [ 0.3316, -0.0858, -0.3410,  ..., -0.2638, -0.3029, -0.2279],
+        ...,
+        [-0.1398, -0.0640, -0.4450,  ..., -0.1568,  0.1513,  0.0586],
+        [-0.2551, -0.1660, -0.0951,  ..., -0.2796, -0.0691, -0.0901],
+        [-0.1387, -0.1114, -0.1811,  ...,  0.1046,  0.0257, -0.1949]],
+       device='cuda:0'), grad: tensor([[-4.6566e-10,  0.0000e+00, -5.5879e-09,  ..., -3.4925e-09,
+          2.3283e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  0.0000e+00,
+          3.7253e-09,  2.3283e-10],
+        [ 2.3283e-10,  0.0000e+00,  6.9849e-10,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  6.9849e-10,
+         -4.6566e-09, -2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10,  0.0000e+00,  3.2596e-09,  ...,  2.7940e-09,
+          6.9849e-10,  0.0000e+00]], device='cuda:0')
+Epoch 452, bias, value: tensor([ 0.0031,  0.0060,  0.0164, -0.0040,  0.0293, -0.0044,  0.0008, -0.0050,
+         0.0133, -0.0176], device='cuda:0'), grad: tensor([-1.3737e-08,  2.0955e-08,  2.7940e-09,  0.0000e+00, -2.3283e-10,
+        -2.5611e-09,  2.7940e-09, -1.9791e-08, -1.8859e-08,  2.9569e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 451, time 245.81, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4426 re_mapping 0.0019 re_causal 0.0078 /// teacc 99.22 lr 0.00001000
+Epoch 453, weight, value: tensor([[-0.2584, -0.0732,  0.2345,  ...,  0.0357, -0.2661, -0.1785],
+        [-0.2201, -0.3021, -0.0812,  ..., -0.1464, -0.3944, -0.1334],
+        [ 0.3316, -0.0858, -0.3410,  ..., -0.2639, -0.3029, -0.2279],
+        ...,
+        [-0.1399, -0.0640, -0.4450,  ..., -0.1569,  0.1514,  0.0586],
+        [-0.2552, -0.1660, -0.0952,  ..., -0.2797, -0.0691, -0.0901],
+        [-0.1387, -0.1114, -0.1811,  ...,  0.1046,  0.0257, -0.1950]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-10,  0.0000e+00],
+        [-1.3737e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.2340e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  6.9849e-10,  ...,  1.8626e-09,
+          2.3283e-10,  0.0000e+00]], device='cuda:0')
+Epoch 453, bias, value: tensor([ 0.0031,  0.0060,  0.0164, -0.0040,  0.0294, -0.0043,  0.0007, -0.0050,
+         0.0133, -0.0176], device='cuda:0'), grad: tensor([ 2.3283e-10, -4.8894e-09, -2.7241e-08, -3.2363e-08,  4.6566e-10,
+         3.5390e-08,  1.8626e-09,  3.3993e-08,  2.7940e-09,  9.5461e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 452, time 245.88, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4301 re_mapping 0.0018 re_causal 0.0074 /// teacc 99.19 lr 0.00001000
+Epoch 454, weight, value: tensor([[-0.2584, -0.0732,  0.2345,  ...,  0.0357, -0.2661, -0.1784],
+        [-0.2201, -0.3021, -0.0813,  ..., -0.1464, -0.3945, -0.1334],
+        [ 0.3318, -0.0858, -0.3411,  ..., -0.2641, -0.3029, -0.2278],
+        ...,
+        [-0.1400, -0.0641, -0.4451,  ..., -0.1570,  0.1514,  0.0586],
+        [-0.2552, -0.1660, -0.0953,  ..., -0.2798, -0.0691, -0.0901],
+        [-0.1387, -0.1114, -0.1811,  ...,  0.1046,  0.0257, -0.1950]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  0.0000e+00, -6.5193e-09,  ..., -3.9581e-09,
+          0.0000e+00, -2.3283e-10],
+        [ 1.3970e-09,  4.6566e-10,  4.6566e-10,  ...,  6.9849e-10,
+          2.3283e-10,  2.3283e-10],
+        [-1.2107e-08, -2.3283e-10,  2.3283e-10,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 5.3551e-09,  9.3132e-10,  2.3283e-10,  ...,  3.0268e-09,
+          6.9849e-10,  0.0000e+00],
+        [ 8.3819e-09,  1.1642e-09,  4.6566e-10,  ...,  9.3132e-10,
+          0.0000e+00, -6.9849e-10],
+        [ 2.3283e-10,  2.3283e-10,  6.5193e-09,  ..., -2.2119e-08,
+         -6.9849e-10,  4.6566e-10]], device='cuda:0')
+Epoch 454, bias, value: tensor([ 0.0031,  0.0060,  0.0164, -0.0039,  0.0294, -0.0043,  0.0007, -0.0050,
+         0.0133, -0.0176], device='cuda:0'), grad: tensor([-1.2107e-08,  7.4506e-09, -2.8871e-08, -6.3563e-08,  5.3085e-08,
+         4.0745e-08,  6.9849e-10,  3.7486e-08,  1.8394e-08, -3.7951e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 453, time 245.87, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4589 re_mapping 0.0018 re_causal 0.0072 /// teacc 99.21 lr 0.00001000
+Epoch 455, weight, value: tensor([[-0.2585, -0.0732,  0.2346,  ...,  0.0357, -0.2663, -0.1785],
+        [-0.2201, -0.3021, -0.0813,  ..., -0.1465, -0.3946, -0.1335],
+        [ 0.3319, -0.0858, -0.3412,  ..., -0.2642, -0.3030, -0.2278],
+        ...,
+        [-0.1402, -0.0641, -0.4452,  ..., -0.1572,  0.1515,  0.0586],
+        [-0.2553, -0.1660, -0.0955,  ..., -0.2799, -0.0691, -0.0902],
+        [-0.1388, -0.1114, -0.1812,  ...,  0.1046,  0.0256, -0.1950]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-09,  2.3283e-10, -5.0478e-07,  ..., -1.2945e-07,
+          1.6298e-09, -4.0047e-08],
+        [ 1.3970e-09,  4.6566e-10,  2.5611e-09,  ...,  9.3132e-10,
+          2.3283e-10,  2.3283e-10],
+        [-1.1642e-09,  2.3283e-10,  1.4668e-08,  ...,  3.7253e-09,
+          4.6566e-10,  1.1642e-09],
+        ...,
+        [ 3.0268e-09,  1.1642e-09,  1.1642e-09,  ...,  4.6566e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 9.3132e-10,  2.3283e-10,  2.5146e-08,  ...,  6.5193e-09,
+          2.3283e-10,  1.8626e-09],
+        [ 2.3283e-10,  2.3283e-10,  1.2503e-07,  ...,  3.4692e-08,
+          2.3283e-10,  8.8476e-09]], device='cuda:0')
+Epoch 455, bias, value: tensor([ 0.0031,  0.0059,  0.0165, -0.0039,  0.0294, -0.0044,  0.0008, -0.0050,
+         0.0132, -0.0176], device='cuda:0'), grad: tensor([-1.0440e-06,  1.2340e-08,  3.3295e-08, -3.3295e-08,  9.4995e-08,
+         2.9104e-08,  5.7789e-07,  1.8626e-08,  5.8673e-08,  2.6939e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 454, time 245.79, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4093 re_mapping 0.0018 re_causal 0.0071 /// teacc 99.19 lr 0.00001000
+Epoch 456, weight, value: tensor([[-0.2585, -0.0732,  0.2347,  ...,  0.0357, -0.2663, -0.1784],
+        [-0.2202, -0.3021, -0.0814,  ..., -0.1465, -0.3948, -0.1335],
+        [ 0.3320, -0.0858, -0.3414,  ..., -0.2642, -0.3030, -0.2278],
+        ...,
+        [-0.1402, -0.0642, -0.4453,  ..., -0.1573,  0.1515,  0.0586],
+        [-0.2554, -0.1661, -0.0958,  ..., -0.2801, -0.0691, -0.0902],
+        [-0.1389, -0.1114, -0.1812,  ...,  0.1046,  0.0256, -0.1951]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00, -0.0000e+00,  ...,  2.3283e-10,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.3970e-09,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+         -2.3283e-09,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.5611e-09,  1.1642e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ..., -3.9581e-09,
+          1.3970e-09,  2.3283e-10]], device='cuda:0')
+Epoch 456, bias, value: tensor([ 0.0031,  0.0059,  0.0164, -0.0039,  0.0294, -0.0043,  0.0006, -0.0050,
+         0.0132, -0.0176], device='cuda:0'), grad: tensor([ 5.1223e-09,  1.2107e-08,  1.3039e-08,  2.4005e-07,  7.0082e-08,
+        -1.6550e-06,  1.3029e-06, -1.2340e-08,  2.4214e-08,  6.2864e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 455, time 246.50, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4372 re_mapping 0.0018 re_causal 0.0074 /// teacc 99.17 lr 0.00001000
+Epoch 457, weight, value: tensor([[-0.2585, -0.0732,  0.2348,  ...,  0.0357, -0.2664, -0.1784],
+        [-0.2202, -0.3021, -0.0815,  ..., -0.1466, -0.3949, -0.1335],
+        [ 0.3321, -0.0858, -0.3415,  ..., -0.2643, -0.3031, -0.2278],
+        ...,
+        [-0.1403, -0.0642, -0.4453,  ..., -0.1574,  0.1516,  0.0585],
+        [-0.2554, -0.1661, -0.0959,  ..., -0.2802, -0.0692, -0.0902],
+        [-0.1389, -0.1114, -0.1813,  ...,  0.1046,  0.0256, -0.1951]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  9.3132e-10, -3.7253e-09,  ...,  1.8626e-09,
+          5.1223e-09,  4.6566e-10],
+        [ 2.3283e-09,  4.1910e-09,  4.1910e-09,  ...,  2.7940e-09,
+          3.7253e-09,  1.3970e-09],
+        [ 1.3970e-09,  2.7940e-09,  3.7253e-09,  ...,  0.0000e+00,
+          9.3132e-10,  1.3970e-09],
+        ...,
+        [ 1.3504e-08,  2.6077e-08,  0.0000e+00,  ...,  4.6566e-09,
+         -1.1176e-08,  0.0000e+00],
+        [ 9.3132e-10,  1.3970e-09,  9.3132e-10,  ...,  9.3132e-10,
+          4.6566e-10,  9.3132e-10],
+        [ 4.6566e-10,  9.3132e-10,  1.8626e-09,  ...,  2.1840e-07,
+          1.3970e-09,  4.6566e-10]], device='cuda:0')
+Epoch 457, bias, value: tensor([ 0.0031,  0.0059,  0.0164, -0.0039,  0.0294, -0.0043,  0.0006, -0.0050,
+         0.0132, -0.0176], device='cuda:0'), grad: tensor([ 1.3597e-07,  1.4110e-07,  4.7032e-08, -2.6310e-07, -4.6706e-07,
+         1.0710e-07, -5.8208e-08, -1.4994e-07,  7.9162e-09,  4.9453e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 456, time 246.30, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4274 re_mapping 0.0018 re_causal 0.0072 /// teacc 99.16 lr 0.00001000
+Epoch 458, weight, value: tensor([[-0.2586, -0.0732,  0.2349,  ...,  0.0357, -0.2665, -0.1784],
+        [-0.2203, -0.3021, -0.0815,  ..., -0.1466, -0.3950, -0.1336],
+        [ 0.3323, -0.0858, -0.3416,  ..., -0.2644, -0.3031, -0.2278],
+        ...,
+        [-0.1404, -0.0643, -0.4454,  ..., -0.1575,  0.1517,  0.0586],
+        [-0.2555, -0.1661, -0.0960,  ..., -0.2803, -0.0692, -0.0902],
+        [-0.1389, -0.1114, -0.1813,  ...,  0.1046,  0.0256, -0.1952]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -9.3132e-10,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  1.8626e-09,  ...,  3.2596e-09,
+          4.6566e-10,  0.0000e+00]], device='cuda:0')
+Epoch 458, bias, value: tensor([ 0.0031,  0.0059,  0.0165, -0.0039,  0.0295, -0.0043,  0.0006, -0.0050,
+         0.0132, -0.0176], device='cuda:0'), grad: tensor([ 9.3132e-10, -4.6566e-10,  1.8626e-09, -1.1642e-08, -2.3283e-09,
+         1.4435e-08, -9.3132e-09,  2.3283e-09,  4.6566e-10,  1.5367e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 457, time 246.40, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4260 re_mapping 0.0018 re_causal 0.0071 /// teacc 99.20 lr 0.00001000
+Epoch 459, weight, value: tensor([[-0.2586, -0.0732,  0.2349,  ...,  0.0357, -0.2666, -0.1784],
+        [-0.2203, -0.3022, -0.0816,  ..., -0.1468, -0.3951, -0.1336],
+        [ 0.3325, -0.0858, -0.3417,  ..., -0.2644, -0.3031, -0.2278],
+        ...,
+        [-0.1405, -0.0643, -0.4454,  ..., -0.1576,  0.1517,  0.0586],
+        [-0.2556, -0.1661, -0.0961,  ..., -0.2804, -0.0692, -0.0903],
+        [-0.1390, -0.1114, -0.1813,  ...,  0.1046,  0.0255, -0.1952]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.6566e-10,  ..., -4.6566e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.3970e-09,  0.0000e+00,  3.2596e-09,  ...,  0.0000e+00,
+          2.3283e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ..., -7.4506e-09,
+          0.0000e+00,  4.6566e-10]], device='cuda:0')
+Epoch 459, bias, value: tensor([ 0.0031,  0.0059,  0.0166, -0.0040,  0.0296, -0.0042,  0.0005, -0.0051,
+         0.0132, -0.0176], device='cuda:0'), grad: tensor([ 5.1223e-09, -4.6566e-10,  2.3283e-09,  3.0734e-08,  1.8161e-08,
+         3.7253e-08, -7.4506e-08,  1.0710e-08, -3.3993e-08,  1.9092e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 458, time 246.54, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4030 re_mapping 0.0018 re_causal 0.0072 /// teacc 99.21 lr 0.00001000
+Epoch 460, weight, value: tensor([[-0.2587, -0.0732,  0.2350,  ...,  0.0357, -0.2666, -0.1784],
+        [-0.2204, -0.3022, -0.0816,  ..., -0.1467, -0.3952, -0.1336],
+        [ 0.3326, -0.0859, -0.3418,  ..., -0.2645, -0.3032, -0.2278],
+        ...,
+        [-0.1406, -0.0644, -0.4455,  ..., -0.1578,  0.1518,  0.0586],
+        [-0.2556, -0.1661, -0.0963,  ..., -0.2805, -0.0692, -0.0903],
+        [-0.1390, -0.1114, -0.1814,  ...,  0.1046,  0.0255, -0.1953]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  7.9162e-09,  ...,  4.6566e-10,
+          3.2596e-09,  0.0000e+00],
+        [ 1.8626e-09,  4.6566e-10,  1.3970e-09,  ...,  4.6566e-10,
+          1.3970e-09,  0.0000e+00],
+        [-2.7940e-09, -4.6566e-10,  4.6566e-10,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        ...,
+        [ 3.2596e-09,  4.6566e-10,  0.0000e+00,  ...,  9.3132e-10,
+         -1.3970e-09, -0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+         -6.0536e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ..., -3.2596e-09,
+          2.7940e-09,  0.0000e+00]], device='cuda:0')
+Epoch 460, bias, value: tensor([ 0.0031,  0.0059,  0.0166, -0.0040,  0.0295, -0.0041,  0.0004, -0.0051,
+         0.0132, -0.0176], device='cuda:0'), grad: tensor([ 3.9116e-08,  1.9092e-08,  0.0000e+00, -1.8626e-09,  5.3551e-08,
+         6.2864e-08, -1.4296e-07,  3.2596e-09, -3.2131e-08,  1.1642e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 459, time 246.63, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4065 re_mapping 0.0018 re_causal 0.0071 /// teacc 99.20 lr 0.00001000
+Epoch 461, weight, value: tensor([[-0.2587, -0.0732,  0.2351,  ...,  0.0357, -0.2666, -0.1784],
+        [-0.2204, -0.3022, -0.0818,  ..., -0.1468, -0.3954, -0.1337],
+        [ 0.3327, -0.0858, -0.3419,  ..., -0.2645, -0.3032, -0.2278],
+        ...,
+        [-0.1407, -0.0644, -0.4455,  ..., -0.1579,  0.1519,  0.0586],
+        [-0.2557, -0.1661, -0.0964,  ..., -0.2806, -0.0692, -0.0903],
+        [-0.1390, -0.1114, -0.1814,  ...,  0.1046,  0.0255, -0.1953]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -3.7253e-09,  ..., -1.3970e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  9.3132e-10,  0.0000e+00,  ...,  1.3970e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  9.3132e-10,  0.0000e+00,  ...,  1.1176e-08,
+          4.6566e-10,  4.6566e-10],
+        [ 1.3970e-09,  9.3132e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  4.6566e-10,  3.2596e-09,  ...,  1.1642e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 461, bias, value: tensor([ 0.0031,  0.0059,  0.0166, -0.0039,  0.0295, -0.0041,  0.0003, -0.0051,
+         0.0132, -0.0176], device='cuda:0'), grad: tensor([-4.6566e-09,  2.0023e-08,  3.7253e-09, -8.5216e-08, -7.5903e-08,
+         4.0047e-08,  1.8626e-09,  4.6100e-08,  1.3970e-08,  4.5635e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 460, time 246.58, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4236 re_mapping 0.0018 re_causal 0.0074 /// teacc 99.22 lr 0.00001000
+Epoch 462, weight, value: tensor([[-0.2587, -0.0732,  0.2352,  ...,  0.0357, -0.2667, -0.1784],
+        [-0.2204, -0.3022, -0.0819,  ..., -0.1469, -0.3955, -0.1337],
+        [ 0.3328, -0.0859, -0.3420,  ..., -0.2646, -0.3033, -0.2278],
+        ...,
+        [-0.1408, -0.0644, -0.4456,  ..., -0.1580,  0.1519,  0.0586],
+        [-0.2557, -0.1661, -0.0965,  ..., -0.2807, -0.0692, -0.0903],
+        [-0.1390, -0.1114, -0.1815,  ...,  0.1046,  0.0255, -0.1953]],
+       device='cuda:0'), grad: tensor([[0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [4.6566e-10, 0.0000e+00, 0.0000e+00,  ..., 2.3283e-09, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        ...,
+        [9.3132e-10, 4.6566e-10, 0.0000e+00,  ..., 4.6566e-10, 0.0000e+00,
+         0.0000e+00],
+        [4.6566e-10, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 4.6566e-10,  ..., 1.1642e-08, 0.0000e+00,
+         0.0000e+00]], device='cuda:0')
+Epoch 462, bias, value: tensor([ 0.0031,  0.0059,  0.0166, -0.0039,  0.0296, -0.0041,  0.0003, -0.0051,
+         0.0132, -0.0176], device='cuda:0'), grad: tensor([ 4.6566e-10, -9.7789e-09,  2.3283e-09, -9.3132e-10, -3.5390e-08,
+         4.6566e-10,  2.7940e-09,  1.6764e-08,  6.0536e-09,  3.4459e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 461, time 246.45, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4600 re_mapping 0.0018 re_causal 0.0075 /// teacc 99.21 lr 0.00001000
+Epoch 463, weight, value: tensor([[-0.2587, -0.0732,  0.2353,  ...,  0.0357, -0.2667, -0.1783],
+        [-0.2205, -0.3022, -0.0821,  ..., -0.1470, -0.3956, -0.1338],
+        [ 0.3329, -0.0859, -0.3421,  ..., -0.2646, -0.3033, -0.2278],
+        ...,
+        [-0.1409, -0.0645, -0.4456,  ..., -0.1581,  0.1520,  0.0586],
+        [-0.2558, -0.1661, -0.0965,  ..., -0.2807, -0.0692, -0.0903],
+        [-0.1391, -0.1114, -0.1815,  ...,  0.1046,  0.0254, -0.1954]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.1874e-07,  ..., -3.1199e-08,
+          0.0000e+00, -2.1886e-08],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.1910e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  4.6566e-10,  9.3132e-10,  ...,  6.0536e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.5367e-08,  ...,  2.7940e-08,
+          0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 463, bias, value: tensor([ 0.0031,  0.0059,  0.0167, -0.0039,  0.0296, -0.0041,  0.0003, -0.0051,
+         0.0132, -0.0176], device='cuda:0'), grad: tensor([-3.0687e-07,  1.2573e-08,  9.3132e-10,  1.7695e-08, -7.7765e-08,
+         4.4703e-08,  2.0629e-07,  2.3749e-08,  4.1910e-09,  8.5216e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 462, time 246.57, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4144 re_mapping 0.0018 re_causal 0.0073 /// teacc 99.22 lr 0.00001000
+Epoch 464, weight, value: tensor([[-0.2587, -0.0732,  0.2353,  ...,  0.0357, -0.2668, -0.1783],
+        [-0.2205, -0.3022, -0.0821,  ..., -0.1472, -0.3957, -0.1338],
+        [ 0.3330, -0.0859, -0.3421,  ..., -0.2647, -0.3033, -0.2278],
+        ...,
+        [-0.1410, -0.0645, -0.4457,  ..., -0.1583,  0.1521,  0.0586],
+        [-0.2559, -0.1661, -0.0966,  ..., -0.2809, -0.0692, -0.0904],
+        [-0.1391, -0.1114, -0.1816,  ...,  0.1046,  0.0254, -0.1954]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -3.2596e-09,  ..., -1.3970e-09,
+          0.0000e+00, -0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          4.6566e-10,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  9.3132e-10,  0.0000e+00,  ...,  1.8626e-09,
+         -4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ..., -4.6566e-10,
+         -2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  2.3283e-09,  ..., -1.2573e-08,
+          1.3970e-09,  0.0000e+00]], device='cuda:0')
+Epoch 464, bias, value: tensor([ 0.0031,  0.0059,  0.0166, -0.0040,  0.0297, -0.0041,  0.0003, -0.0051,
+         0.0132, -0.0176], device='cuda:0'), grad: tensor([-5.1223e-09,  1.0245e-08,  9.3132e-09, -1.2200e-07,  3.4925e-08,
+         1.0943e-07,  4.1910e-09,  1.9092e-08, -1.9092e-08, -2.6077e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 463, time 246.36, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4420 re_mapping 0.0018 re_causal 0.0076 /// teacc 99.20 lr 0.00001000
+Epoch 465, weight, value: tensor([[-0.2588, -0.0732,  0.2354,  ...,  0.0357, -0.2669, -0.1783],
+        [-0.2206, -0.3022, -0.0821,  ..., -0.1472, -0.3959, -0.1338],
+        [ 0.3331, -0.0859, -0.3422,  ..., -0.2647, -0.3033, -0.2278],
+        ...,
+        [-0.1410, -0.0645, -0.4457,  ..., -0.1584,  0.1521,  0.0587],
+        [-0.2559, -0.1662, -0.0967,  ..., -0.2810, -0.0692, -0.0904],
+        [-0.1391, -0.1114, -0.1816,  ...,  0.1046,  0.0254, -0.1954]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -3.9116e-08,  ..., -7.9162e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [-3.7253e-09,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-09,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 4.1910e-09,  0.0000e+00,  3.7253e-09,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.7695e-08,  ..., -2.1886e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 465, bias, value: tensor([ 0.0031,  0.0058,  0.0166, -0.0039,  0.0297, -0.0041,  0.0003, -0.0051,
+         0.0131, -0.0176], device='cuda:0'), grad: tensor([-1.2713e-07, -8.0559e-08, -9.3132e-10,  6.5193e-09,  6.1933e-08,
+         2.2817e-08,  2.0023e-08,  2.7008e-08,  8.6147e-08, -6.0536e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 464, time 246.23, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4153 re_mapping 0.0018 re_causal 0.0075 /// teacc 99.20 lr 0.00001000
+Epoch 466, weight, value: tensor([[-0.2588, -0.0732,  0.2355,  ...,  0.0357, -0.2669, -0.1783],
+        [-0.2206, -0.3022, -0.0822,  ..., -0.1472, -0.3960, -0.1338],
+        [ 0.3332, -0.0859, -0.3422,  ..., -0.2647, -0.3034, -0.2279],
+        ...,
+        [-0.1411, -0.0645, -0.4457,  ..., -0.1585,  0.1522,  0.0587],
+        [-0.2560, -0.1662, -0.0968,  ..., -0.2810, -0.0692, -0.0904],
+        [-0.1392, -0.1114, -0.1816,  ...,  0.1046,  0.0254, -0.1955]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  2.2817e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 3.5390e-08,  0.0000e+00, -4.6566e-10,  ...,  5.1223e-09,
+          4.6566e-10,  0.0000e+00],
+        [-3.8184e-08,  0.0000e+00,  0.0000e+00,  ...,  7.9162e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  4.6566e-10,  4.6566e-10,  ...,  7.4506e-09,
+         -9.3132e-10,  0.0000e+00],
+        [ 1.3970e-09,  4.6566e-10,  0.0000e+00,  ...,  1.3970e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  4.6566e-10,  9.3132e-10,  ...,  3.7719e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 466, bias, value: tensor([ 0.0031,  0.0058,  0.0166, -0.0039,  0.0298, -0.0041,  0.0003, -0.0051,
+         0.0131, -0.0176], device='cuda:0'), grad: tensor([ 6.0536e-08,  1.0198e-07, -7.6368e-08, -6.5193e-09, -2.2957e-07,
+         1.4435e-08,  3.4925e-08,  2.6543e-08, -6.0536e-09,  9.7789e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 465, time 246.27, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4099 re_mapping 0.0018 re_causal 0.0074 /// teacc 99.19 lr 0.00001000
+Epoch 467, weight, value: tensor([[-0.2588, -0.0732,  0.2355,  ...,  0.0357, -0.2670, -0.1783],
+        [-0.2206, -0.3022, -0.0822,  ..., -0.1473, -0.3961, -0.1338],
+        [ 0.3333, -0.0859, -0.3423,  ..., -0.2649, -0.3034, -0.2278],
+        ...,
+        [-0.1411, -0.0646, -0.4457,  ..., -0.1586,  0.1523,  0.0587],
+        [-0.2560, -0.1662, -0.0968,  ..., -0.2811, -0.0692, -0.0904],
+        [-0.1392, -0.1114, -0.1816,  ...,  0.1046,  0.0253, -0.1955]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -3.3993e-08,  ..., -1.7695e-08,
+          0.0000e+00, -4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  5.5879e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  2.3283e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  9.7789e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.7789e-09,  ..., -7.4506e-09,
+          1.8626e-09,  4.6566e-10]], device='cuda:0')
+Epoch 467, bias, value: tensor([ 0.0031,  0.0058,  0.0166, -0.0040,  0.0298, -0.0041,  0.0002, -0.0051,
+         0.0131, -0.0176], device='cuda:0'), grad: tensor([-7.2177e-08,  1.6298e-08,  3.7253e-09,  3.2596e-09,  3.7253e-09,
+         9.7789e-09,  4.2375e-08,  8.8476e-09,  3.6787e-08, -3.5856e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 466, time 246.74, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4247 re_mapping 0.0018 re_causal 0.0074 /// teacc 99.20 lr 0.00001000
+Epoch 468, weight, value: tensor([[-0.2588, -0.0732,  0.2355,  ...,  0.0357, -0.2671, -0.1783],
+        [-0.2207, -0.3022, -0.0822,  ..., -0.1474, -0.3962, -0.1338],
+        [ 0.3334, -0.0859, -0.3423,  ..., -0.2649, -0.3034, -0.2279],
+        ...,
+        [-0.1412, -0.0646, -0.4458,  ..., -0.1587,  0.1523,  0.0587],
+        [-0.2560, -0.1662, -0.0969,  ..., -0.2812, -0.0692, -0.0905],
+        [-0.1392, -0.1114, -0.1817,  ...,  0.1046,  0.0253, -0.1955]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  5.5879e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-09,
+          4.6566e-10,  0.0000e+00],
+        [-6.0536e-09,  0.0000e+00,  0.0000e+00,  ...,  2.9802e-08,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.4901e-08,  0.0000e+00,  0.0000e+00,  ...,  4.1910e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 3.7253e-09,  0.0000e+00,  4.6566e-10,  ..., -1.5367e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 468, bias, value: tensor([ 0.0031,  0.0058,  0.0166, -0.0040,  0.0299, -0.0041,  0.0002, -0.0051,
+         0.0131, -0.0176], device='cuda:0'), grad: tensor([ 1.4435e-08,  1.0710e-08,  3.4459e-08, -5.1223e-09, -3.2596e-08,
+         6.5193e-09,  9.3132e-10,  4.7963e-08,  3.2596e-09, -7.1712e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 467, time 246.33, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.3952 re_mapping 0.0018 re_causal 0.0071 /// teacc 99.16 lr 0.00001000
+Epoch 469, weight, value: tensor([[-0.2589, -0.0732,  0.2356,  ...,  0.0357, -0.2671, -0.1783],
+        [-0.2207, -0.3022, -0.0823,  ..., -0.1475, -0.3963, -0.1338],
+        [ 0.3335, -0.0859, -0.3423,  ..., -0.2650, -0.3035, -0.2279],
+        ...,
+        [-0.1412, -0.0646, -0.4458,  ..., -0.1588,  0.1524,  0.0587],
+        [-0.2560, -0.1662, -0.0970,  ..., -0.2813, -0.0692, -0.0905],
+        [-0.1392, -0.1114, -0.1817,  ...,  0.1046,  0.0253, -0.1955]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  4.6566e-10,
+          4.6566e-10,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10, -0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ..., -3.7253e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 469, bias, value: tensor([ 0.0031,  0.0058,  0.0166, -0.0040,  0.0299, -0.0041,  0.0003, -0.0051,
+         0.0131, -0.0176], device='cuda:0'), grad: tensor([ 4.1910e-09, -5.1223e-09,  0.0000e+00,  1.1176e-08,  7.4506e-09,
+        -1.0710e-08, -1.8626e-09,  8.3819e-09,  4.6566e-10, -7.4506e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 468, time 246.26, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4212 re_mapping 0.0018 re_causal 0.0072 /// teacc 99.17 lr 0.00001000
+Epoch 470, weight, value: tensor([[-0.2589, -0.0732,  0.2357,  ...,  0.0357, -0.2672, -0.1784],
+        [-0.2207, -0.3022, -0.0823,  ..., -0.1476, -0.3965, -0.1338],
+        [ 0.3336, -0.0859, -0.3424,  ..., -0.2650, -0.3035, -0.2278],
+        ...,
+        [-0.1413, -0.0646, -0.4458,  ..., -0.1591,  0.1525,  0.0587],
+        [-0.2561, -0.1662, -0.0970,  ..., -0.2814, -0.0692, -0.0905],
+        [-0.1393, -0.1114, -0.1817,  ...,  0.1046,  0.0253, -0.1955]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          4.6566e-10,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          9.3132e-10, -0.0000e+00],
+        [-1.3970e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -9.3132e-10,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  4.6566e-10,  ...,  4.1910e-09,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.0245e-08,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 470, bias, value: tensor([ 0.0031,  0.0058,  0.0166, -0.0040,  0.0299, -0.0042,  0.0003, -0.0051,
+         0.0131, -0.0176], device='cuda:0'), grad: tensor([ 3.2596e-09,  3.2596e-09, -1.8626e-09,  2.7940e-09,  1.3039e-08,
+         3.5856e-08, -2.9802e-08,  3.2596e-09,  7.9162e-09, -2.6543e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 469, time 245.93, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4597 re_mapping 0.0018 re_causal 0.0075 /// teacc 99.17 lr 0.00001000
+Epoch 471, weight, value: tensor([[-0.2589, -0.0732,  0.2357,  ...,  0.0357, -0.2673, -0.1784],
+        [-0.2208, -0.3023, -0.0823,  ..., -0.1477, -0.3966, -0.1338],
+        [ 0.3337, -0.0859, -0.3424,  ..., -0.2650, -0.3035, -0.2278],
+        ...,
+        [-0.1414, -0.0647, -0.4458,  ..., -0.1592,  0.1526,  0.0587],
+        [-0.2561, -0.1662, -0.0971,  ..., -0.2815, -0.0693, -0.0905],
+        [-0.1393, -0.1114, -0.1818,  ...,  0.1046,  0.0252, -0.1956]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.3283e-09,  ...,  9.3132e-10,
+          9.3132e-10,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.5879e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -4.6566e-10,  0.0000e+00,  ...,  1.4901e-08,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 471, bias, value: tensor([ 0.0031,  0.0058,  0.0165, -0.0040,  0.0299, -0.0043,  0.0003, -0.0051,
+         0.0131, -0.0176], device='cuda:0'), grad: tensor([ 7.4506e-09,  6.5193e-09,  4.6566e-10,  2.9337e-08, -8.8010e-08,
+        -3.5390e-08,  1.6764e-08, -7.4506e-09,  1.8161e-08,  5.8673e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 470, time 246.46, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4012 re_mapping 0.0018 re_causal 0.0072 /// teacc 99.21 lr 0.00001000
+Epoch 472, weight, value: tensor([[-0.2590, -0.0732,  0.2358,  ...,  0.0357, -0.2673, -0.1784],
+        [-0.2208, -0.3023, -0.0823,  ..., -0.1477, -0.3967, -0.1339],
+        [ 0.3338, -0.0859, -0.3424,  ..., -0.2651, -0.3036, -0.2278],
+        ...,
+        [-0.1415, -0.0647, -0.4459,  ..., -0.1594,  0.1526,  0.0587],
+        [-0.2561, -0.1662, -0.0971,  ..., -0.2816, -0.0693, -0.0905],
+        [-0.1393, -0.1114, -0.1818,  ...,  0.1046,  0.0252, -0.1956]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -5.8673e-08,  ..., -3.5856e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  2.3283e-09,  ...,  2.3283e-09,
+         -4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  8.8476e-09,  ...,  5.5879e-09,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  3.5390e-08,  ...,  2.2352e-08,
+          4.6566e-10,  4.6566e-10]], device='cuda:0')
+Epoch 472, bias, value: tensor([ 0.0031,  0.0059,  0.0165, -0.0039,  0.0300, -0.0043,  0.0002, -0.0052,
+         0.0131, -0.0176], device='cuda:0'), grad: tensor([-1.4808e-07,  6.5193e-09,  4.6566e-09, -9.7789e-09, -1.8626e-09,
+         3.2596e-09,  2.4680e-08,  1.0245e-08,  2.4680e-08,  9.2201e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 471, time 246.39, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4211 re_mapping 0.0019 re_causal 0.0077 /// teacc 99.21 lr 0.00001000
+Epoch 473, weight, value: tensor([[-0.2590, -0.0732,  0.2358,  ...,  0.0357, -0.2674, -0.1785],
+        [-0.2208, -0.3023, -0.0823,  ..., -0.1478, -0.3968, -0.1339],
+        [ 0.3340, -0.0859, -0.3424,  ..., -0.2651, -0.3036, -0.2278],
+        ...,
+        [-0.1416, -0.0647, -0.4459,  ..., -0.1595,  0.1527,  0.0587],
+        [-0.2562, -0.1662, -0.0972,  ..., -0.2817, -0.0693, -0.0905],
+        [-0.1393, -0.1113, -0.1818,  ...,  0.1046,  0.0252, -0.1956]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ..., -0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  9.3132e-10,
+          4.6566e-10,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8161e-08,
+         -2.3283e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.2596e-09,  ..., -2.8871e-08,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 473, bias, value: tensor([ 0.0031,  0.0058,  0.0167, -0.0039,  0.0300, -0.0043,  0.0003, -0.0052,
+         0.0131, -0.0176], device='cuda:0'), grad: tensor([-9.3132e-10,  5.1223e-09,  0.0000e+00,  9.3132e-10,  2.8405e-08,
+         8.3819e-09, -1.2107e-08,  1.3970e-08,  1.3970e-09, -3.3062e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 472, time 246.70, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4410 re_mapping 0.0018 re_causal 0.0074 /// teacc 99.20 lr 0.00001000
+Epoch 474, weight, value: tensor([[-0.2590, -0.0732,  0.2359,  ...,  0.0357, -0.2675, -0.1785],
+        [-0.2209, -0.3023, -0.0824,  ..., -0.1478, -0.3969, -0.1339],
+        [ 0.3342, -0.0860, -0.3425,  ..., -0.2651, -0.3036, -0.2278],
+        ...,
+        [-0.1417, -0.0648, -0.4459,  ..., -0.1596,  0.1528,  0.0587],
+        [-0.2562, -0.1662, -0.0972,  ..., -0.2817, -0.0693, -0.0906],
+        [-0.1393, -0.1113, -0.1819,  ...,  0.1046,  0.0252, -0.1956]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -6.5193e-09,  ..., -1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  2.7940e-09,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  1.8626e-09,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00, -1.3970e-09,  2.7940e-09,  ..., -1.0245e-08,
+         -2.3283e-09,  0.0000e+00]], device='cuda:0')
+Epoch 474, bias, value: tensor([ 0.0031,  0.0058,  0.0167, -0.0038,  0.0301, -0.0043,  0.0002, -0.0052,
+         0.0131, -0.0176], device='cuda:0'), grad: tensor([-5.5879e-09, -3.5856e-08,  4.1910e-09, -1.3504e-08, -7.4506e-09,
+        -2.3935e-07,  2.4308e-07,  5.3085e-08,  1.3504e-08, -7.4506e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 473, time 246.20, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4242 re_mapping 0.0018 re_causal 0.0072 /// teacc 99.19 lr 0.00001000
+Epoch 475, weight, value: tensor([[-0.2591, -0.0732,  0.2360,  ...,  0.0357, -0.2675, -0.1785],
+        [-0.2209, -0.3023, -0.0824,  ..., -0.1479, -0.3970, -0.1339],
+        [ 0.3343, -0.0859, -0.3425,  ..., -0.2652, -0.3036, -0.2278],
+        ...,
+        [-0.1418, -0.0648, -0.4460,  ..., -0.1597,  0.1529,  0.0587],
+        [-0.2563, -0.1662, -0.0973,  ..., -0.2819, -0.0693, -0.0906],
+        [-0.1394, -0.1113, -0.1819,  ...,  0.1046,  0.0251, -0.1956]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -3.3062e-08,  ..., -1.6298e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.2596e-09,  ...,  2.3283e-09,
+          1.3970e-09,  0.0000e+00],
+        [-1.8626e-09,  0.0000e+00,  2.3283e-09,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.3970e-09,  0.0000e+00,  4.6566e-10,  ...,  1.8626e-09,
+         -1.2573e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  2.3283e-09,
+          2.3283e-09,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.4214e-08,  ...,  1.4901e-08,
+          1.0710e-08,  1.8626e-09]], device='cuda:0')
+Epoch 475, bias, value: tensor([ 3.1182e-03,  5.8945e-03,  1.6783e-02, -3.8210e-03,  3.0269e-02,
+        -4.2500e-03, -1.5174e-06, -5.2641e-03,  1.3048e-02, -1.7632e-02],
+       device='cuda:0'), grad: tensor([-6.7987e-08,  1.3504e-08,  2.3283e-09,  2.3283e-09, -8.8476e-09,
+        -3.6322e-08,  2.5611e-08, -4.5169e-08,  3.1665e-08,  1.0245e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 474, time 246.48, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4262 re_mapping 0.0017 re_causal 0.0072 /// teacc 99.21 lr 0.00001000
+Epoch 476, weight, value: tensor([[-0.2591, -0.0732,  0.2361,  ...,  0.0357, -0.2676, -0.1786],
+        [-0.2210, -0.3023, -0.0824,  ..., -0.1479, -0.3971, -0.1339],
+        [ 0.3345, -0.0860, -0.3426,  ..., -0.2652, -0.3036, -0.2278],
+        ...,
+        [-0.1419, -0.0648, -0.4460,  ..., -0.1600,  0.1529,  0.0587],
+        [-0.2564, -0.1663, -0.0974,  ..., -0.2820, -0.0693, -0.0906],
+        [-0.1394, -0.1114, -0.1820,  ...,  0.1046,  0.0251, -0.1957]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -3.1665e-08,  ..., -2.0023e-08,
+          0.0000e+00, -0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  1.8626e-09,  ...,  3.7253e-09,
+          4.6566e-10,  0.0000e+00],
+        [-6.5193e-09,  0.0000e+00,  4.1910e-09,  ...,  2.7940e-09,
+          4.6566e-10,  0.0000e+00],
+        ...,
+        [ 3.7253e-09,  0.0000e+00,  1.3970e-09,  ...,  3.7253e-09,
+         -1.3970e-09,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  7.4506e-09,  ...,  5.5879e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.1176e-08,  ...,  4.5169e-08,
+         -1.3970e-09,  0.0000e+00]], device='cuda:0')
+Epoch 476, bias, value: tensor([ 3.1198e-03,  6.0766e-03,  1.6831e-02, -3.7820e-03,  3.0331e-02,
+        -4.2687e-03, -2.8614e-05, -5.4375e-03,  1.3033e-02, -1.7635e-02],
+       device='cuda:0'), grad: tensor([-8.9873e-08,  1.4901e-08, -4.6566e-10,  1.4901e-08, -1.0012e-07,
+        -4.6566e-10,  6.5193e-09,  1.6298e-08,  2.8405e-08,  1.2387e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 475, time 246.37, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4242 re_mapping 0.0018 re_causal 0.0072 /// teacc 99.21 lr 0.00001000
+Epoch 477, weight, value: tensor([[-0.2592, -0.0732,  0.2361,  ...,  0.0357, -0.2677, -0.1786],
+        [-0.2211, -0.3023, -0.0824,  ..., -0.1480, -0.3972, -0.1339],
+        [ 0.3347, -0.0860, -0.3426,  ..., -0.2652, -0.3036, -0.2278],
+        ...,
+        [-0.1420, -0.0648, -0.4461,  ..., -0.1601,  0.1530,  0.0587],
+        [-0.2564, -0.1663, -0.0974,  ..., -0.2820, -0.0693, -0.0906],
+        [-0.1394, -0.1113, -0.1821,  ...,  0.1046,  0.0251, -0.1957]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  2.3283e-10,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  2.3283e-10],
+        [-5.5879e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.3970e-09,  2.3283e-10,  0.0000e+00,  ...,  3.9581e-09,
+          0.0000e+00,  2.3283e-10],
+        [ 4.6566e-10,  0.0000e+00,  2.3283e-10,  ...,  4.6566e-10,
+          0.0000e+00, -6.9849e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.1642e-09,  ..., -1.0477e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 477, bias, value: tensor([ 3.1199e-03,  6.0670e-03,  1.6961e-02, -3.6773e-03,  3.0383e-02,
+        -4.4487e-03,  6.0416e-05, -5.4583e-03,  1.3052e-02, -1.7636e-02],
+       device='cuda:0'), grad: tensor([ 2.3283e-09,  4.4238e-09, -9.7789e-09,  3.2596e-08,  1.9325e-08,
+         7.9162e-09,  3.2596e-09,  3.0501e-08, -2.7707e-08, -3.8184e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 476, time 246.74, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4072 re_mapping 0.0017 re_causal 0.0072 /// teacc 99.20 lr 0.00001000
+Epoch 478, weight, value: tensor([[-0.2592, -0.0732,  0.2362,  ...,  0.0357, -0.2677, -0.1786],
+        [-0.2211, -0.3023, -0.0824,  ..., -0.1480, -0.3972, -0.1339],
+        [ 0.3349, -0.0860, -0.3426,  ..., -0.2652, -0.3037, -0.2278],
+        ...,
+        [-0.1421, -0.0649, -0.4461,  ..., -0.1602,  0.1530,  0.0587],
+        [-0.2565, -0.1663, -0.0974,  ..., -0.2821, -0.0693, -0.0906],
+        [-0.1394, -0.1113, -0.1821,  ...,  0.1046,  0.0250, -0.1957]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  6.2864e-09,  ...,  4.6566e-10,
+          2.7940e-09,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  2.7474e-08,
+          2.3283e-10, -2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.6298e-09,
+          0.0000e+00,  2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  2.3283e-10,
+         -2.3283e-10,  2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.1642e-09,  ..., -4.7497e-08,
+          2.3283e-10,  0.0000e+00]], device='cuda:0')
+Epoch 478, bias, value: tensor([ 3.1208e-03,  6.2690e-03,  1.7072e-02, -3.6802e-03,  3.0329e-02,
+        -4.4400e-03, -2.1296e-05, -5.6580e-03,  1.3060e-02, -1.7636e-02],
+       device='cuda:0'), grad: tensor([ 1.6764e-08,  7.5670e-08,  2.3283e-10,  6.2864e-09,  5.2387e-08,
+         8.8243e-08, -9.8720e-08,  9.5461e-09, -5.5879e-09, -1.3295e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 477, time 248.26, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.3914 re_mapping 0.0017 re_causal 0.0070 /// teacc 99.22 lr 0.00001000
+Epoch 479, weight, value: tensor([[-0.2593, -0.0732,  0.2363,  ...,  0.0357, -0.2678, -0.1786],
+        [-0.2212, -0.3023, -0.0825,  ..., -0.1481, -0.3973, -0.1339],
+        [ 0.3350, -0.0859, -0.3427,  ..., -0.2653, -0.3037, -0.2278],
+        ...,
+        [-0.1422, -0.0649, -0.4461,  ..., -0.1603,  0.1531,  0.0587],
+        [-0.2565, -0.1663, -0.0974,  ..., -0.2821, -0.0693, -0.0906],
+        [-0.1394, -0.1113, -0.1821,  ...,  0.1046,  0.0250, -0.1957]],
+       device='cuda:0'), grad: tensor([[ 6.9849e-10,  0.0000e+00, -1.6298e-09,  ..., -9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  1.1642e-08,
+          2.3283e-10,  0.0000e+00],
+        [-7.9162e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 4.8894e-09,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  2.3283e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10,  0.0000e+00,  1.3970e-09,  ..., -1.8394e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 479, bias, value: tensor([ 3.1219e-03,  6.3710e-03,  1.7141e-02, -3.6522e-03,  3.0344e-02,
+        -4.5717e-03, -4.7893e-05, -5.7705e-03,  1.3113e-02, -1.7637e-02],
+       device='cuda:0'), grad: tensor([-1.1642e-09,  4.3539e-08, -2.3749e-08,  7.4506e-09,  2.4680e-08,
+        -1.1642e-08,  5.3551e-09,  1.9092e-08,  1.0710e-08, -5.4017e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 478, time 248.08, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4356 re_mapping 0.0018 re_causal 0.0076 /// teacc 99.18 lr 0.00001000
+Epoch 480, weight, value: tensor([[-0.2593, -0.0732,  0.2364,  ...,  0.0357, -0.2678, -0.1786],
+        [-0.2212, -0.3024, -0.0825,  ..., -0.1482, -0.3974, -0.1339],
+        [ 0.3352, -0.0859, -0.3427,  ..., -0.2653, -0.3037, -0.2278],
+        ...,
+        [-0.1424, -0.0649, -0.4462,  ..., -0.1604,  0.1532,  0.0587],
+        [-0.2566, -0.1663, -0.0974,  ..., -0.2821, -0.0693, -0.0906],
+        [-0.1395, -0.1113, -0.1822,  ...,  0.1046,  0.0250, -0.1957]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.5379e-08,  ..., -1.6531e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10,  2.3283e-10,  6.9849e-10,  ...,  9.3132e-10,
+          0.0000e+00, -6.9849e-10],
+        [ 2.3283e-10,  0.0000e+00,  2.3283e-10,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 6.9849e-10,  4.6566e-10,  2.3283e-10,  ...,  6.9849e-10,
+          0.0000e+00,  9.3132e-10],
+        [ 2.3283e-10,  2.3283e-10,  6.9849e-10,  ..., -9.5461e-09,
+          2.3283e-10,  0.0000e+00],
+        [ 2.3283e-10,  2.3283e-10,  2.4447e-08,  ...,  2.9569e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 480, bias, value: tensor([ 0.0031,  0.0064,  0.0173, -0.0036,  0.0303, -0.0046, -0.0001, -0.0058,
+         0.0132, -0.0176], device='cuda:0'), grad: tensor([-5.7975e-08, -3.4925e-09,  1.2806e-08, -1.1642e-08, -1.0477e-08,
+         4.4471e-08,  4.1910e-09,  2.7241e-08, -1.5995e-07,  1.6717e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 479, time 247.75, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4094 re_mapping 0.0018 re_causal 0.0071 /// teacc 99.21 lr 0.00001000
+Epoch 481, weight, value: tensor([[-0.2593, -0.0732,  0.2365,  ...,  0.0357, -0.2679, -0.1786],
+        [-0.2213, -0.3024, -0.0826,  ..., -0.1482, -0.3974, -0.1339],
+        [ 0.3355, -0.0859, -0.3427,  ..., -0.2653, -0.3037, -0.2278],
+        ...,
+        [-0.1425, -0.0650, -0.4462,  ..., -0.1605,  0.1532,  0.0587],
+        [-0.2566, -0.1663, -0.0975,  ..., -0.2822, -0.0693, -0.0906],
+        [-0.1395, -0.1113, -0.1822,  ...,  0.1046,  0.0250, -0.1957]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-10,  0.0000e+00],
+        [ 6.2864e-09,  2.3283e-10,  0.0000e+00,  ...,  0.0000e+00,
+          2.0955e-09,  0.0000e+00],
+        [-8.3819e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 3.7253e-09,  4.6566e-10,  0.0000e+00,  ...,  2.3283e-10,
+         -3.0268e-09,  0.0000e+00],
+        [ 6.9849e-10,  2.3283e-10,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-10,  0.0000e+00],
+        [ 2.3283e-10,  2.3283e-10,  4.6566e-10,  ..., -2.5611e-09,
+          4.6566e-10,  0.0000e+00]], device='cuda:0')
+Epoch 481, bias, value: tensor([ 0.0031,  0.0064,  0.0175, -0.0036,  0.0304, -0.0047, -0.0002, -0.0058,
+         0.0132, -0.0176], device='cuda:0'), grad: tensor([ 2.5611e-09,  3.4925e-08, -1.0477e-08, -3.0268e-08,  7.6834e-09,
+         1.1642e-08,  1.1642e-09, -3.9581e-09,  6.0536e-09,  0.0000e+00],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 480, time 248.28, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4267 re_mapping 0.0018 re_causal 0.0077 /// teacc 99.20 lr 0.00001000
+Epoch 482, weight, value: tensor([[-0.2594, -0.0732,  0.2366,  ...,  0.0357, -0.2679, -0.1786],
+        [-0.2214, -0.3024, -0.0826,  ..., -0.1482, -0.3975, -0.1339],
+        [ 0.3357, -0.0859, -0.3427,  ..., -0.2653, -0.3037, -0.2278],
+        ...,
+        [-0.1426, -0.0650, -0.4462,  ..., -0.1607,  0.1533,  0.0587],
+        [-0.2567, -0.1663, -0.0975,  ..., -0.2822, -0.0693, -0.0906],
+        [-0.1395, -0.1113, -0.1823,  ...,  0.1046,  0.0249, -0.1957]],
+       device='cuda:0'), grad: tensor([[ 1.6298e-09,  0.0000e+00, -3.7253e-09,  ..., -1.1642e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 6.9849e-10,  0.0000e+00,  2.3283e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-7.6834e-09,  0.0000e+00, -1.6298e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 2.3283e-10,  4.6566e-10,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 6.9849e-10,  0.0000e+00,  2.3283e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10,  0.0000e+00,  4.6566e-09,  ...,  1.0710e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 482, bias, value: tensor([ 0.0031,  0.0065,  0.0176, -0.0035,  0.0303, -0.0048, -0.0003, -0.0059,
+         0.0132, -0.0176], device='cuda:0'), grad: tensor([-3.9581e-09, -3.7253e-09, -1.4435e-08, -3.2596e-09, -2.1188e-08,
+         3.7253e-09,  7.4506e-09,  8.6147e-09,  2.7940e-09,  3.1432e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 481, time 248.09, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4102 re_mapping 0.0018 re_causal 0.0075 /// teacc 99.21 lr 0.00001000
+Epoch 483, weight, value: tensor([[-0.2594, -0.0732,  0.2366,  ...,  0.0357, -0.2680, -0.1786],
+        [-0.2215, -0.3024, -0.0826,  ..., -0.1482, -0.3976, -0.1339],
+        [ 0.3359, -0.0860, -0.3428,  ..., -0.2654, -0.3037, -0.2278],
+        ...,
+        [-0.1429, -0.0650, -0.4462,  ..., -0.1608,  0.1534,  0.0587],
+        [-0.2567, -0.1663, -0.0975,  ..., -0.2822, -0.0693, -0.0906],
+        [-0.1395, -0.1113, -0.1823,  ...,  0.1046,  0.0249, -0.1957]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  2.3283e-10,
+          2.3283e-10,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  2.3283e-10,  ...,  1.3970e-09,
+          2.3283e-10,  0.0000e+00],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 6.9849e-10,  0.0000e+00,  0.0000e+00,  ...,  5.3551e-09,
+          1.1642e-09,  0.0000e+00],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+         -1.1642e-09,  0.0000e+00],
+        [ 2.3283e-10,  0.0000e+00,  4.6566e-10,  ..., -2.4680e-08,
+         -4.8894e-09,  0.0000e+00]], device='cuda:0')
+Epoch 483, bias, value: tensor([ 0.0031,  0.0065,  0.0178, -0.0035,  0.0306, -0.0049, -0.0002, -0.0060,
+         0.0132, -0.0176], device='cuda:0'), grad: tensor([ 3.0268e-09, -3.9581e-09,  1.3970e-09, -1.7462e-08,  5.2154e-08,
+         1.7462e-08,  0.0000e+00,  3.1665e-08, -2.9802e-08, -4.3074e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 482, time 247.64, cls_loss 0.0003 cls_loss_mapping 0.0002 cls_loss_causal 0.4022 re_mapping 0.0018 re_causal 0.0073 /// teacc 99.19 lr 0.00001000
+Epoch 484, weight, value: tensor([[-0.2594, -0.0732,  0.2367,  ...,  0.0357, -0.2680, -0.1786],
+        [-0.2215, -0.3024, -0.0827,  ..., -0.1483, -0.3977, -0.1339],
+        [ 0.3360, -0.0860, -0.3428,  ..., -0.2654, -0.3038, -0.2278],
+        ...,
+        [-0.1429, -0.0651, -0.4463,  ..., -0.1609,  0.1535,  0.0587],
+        [-0.2568, -0.1663, -0.0976,  ..., -0.2823, -0.0693, -0.0906],
+        [-0.1395, -0.1113, -0.1824,  ...,  0.1046,  0.0249, -0.1958]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.3050e-08,  ..., -6.0536e-09,
+          0.0000e+00, -9.3132e-10],
+        [ 2.3283e-10,  0.0000e+00,  4.6566e-10,  ...,  2.3283e-10,
+          1.1642e-09,  0.0000e+00],
+        [-1.6298e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-10,  0.0000e+00],
+        ...,
+        [ 1.1642e-09,  0.0000e+00,  9.3132e-10,  ...,  2.3283e-10,
+         -8.6147e-09,  2.3283e-10],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -2.3283e-10, -2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.7229e-08,  ...,  4.8894e-09,
+          6.5193e-09,  6.9849e-10]], device='cuda:0')
+Epoch 484, bias, value: tensor([ 3.1262e-03,  6.4709e-03,  1.7825e-02, -3.4399e-03,  3.0611e-02,
+        -4.9969e-03,  3.0793e-06, -5.9801e-03,  1.3163e-02, -1.7649e-02],
+       device='cuda:0'), grad: tensor([-5.3551e-08,  3.7253e-09, -1.6298e-09, -2.0955e-09,  2.3283e-09,
+         6.2864e-09,  7.9162e-09, -2.0256e-08, -1.6298e-09,  6.6124e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 483, time 247.72, cls_loss 0.0003 cls_loss_mapping 0.0002 cls_loss_causal 0.4330 re_mapping 0.0018 re_causal 0.0076 /// teacc 99.21 lr 0.00001000
+Epoch 485, weight, value: tensor([[-0.2594, -0.0732,  0.2368,  ...,  0.0357, -0.2681, -0.1786],
+        [-0.2216, -0.3024, -0.0827,  ..., -0.1483, -0.3979, -0.1339],
+        [ 0.3361, -0.0860, -0.3428,  ..., -0.2655, -0.3038, -0.2278],
+        ...,
+        [-0.1430, -0.0651, -0.4463,  ..., -0.1610,  0.1536,  0.0587],
+        [-0.2568, -0.1663, -0.0977,  ..., -0.2824, -0.0693, -0.0906],
+        [-0.1395, -0.1113, -0.1824,  ...,  0.1046,  0.0248, -0.1958]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 6.9849e-10,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+         -2.3283e-09,  0.0000e+00],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  6.9849e-10,  ...,  3.7253e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 485, bias, value: tensor([ 3.1284e-03,  6.5911e-03,  1.7799e-02, -3.3711e-03,  3.0659e-02,
+        -5.0840e-03, -3.9424e-05, -6.0899e-03,  1.3146e-02, -1.7653e-02],
+       device='cuda:0'), grad: tensor([ 6.9849e-10,  1.3271e-08,  4.6566e-10,  4.6566e-10, -6.2864e-09,
+         4.6566e-10,  1.3970e-09, -2.0955e-09,  9.3132e-10,  1.0477e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 484, time 247.28, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4447 re_mapping 0.0018 re_causal 0.0077 /// teacc 99.17 lr 0.00001000
+Epoch 486, weight, value: tensor([[-0.2594, -0.0733,  0.2369,  ...,  0.0357, -0.2681, -0.1786],
+        [-0.2216, -0.3024, -0.0827,  ..., -0.1483, -0.3980, -0.1339],
+        [ 0.3363, -0.0860, -0.3429,  ..., -0.2655, -0.3038, -0.2278],
+        ...,
+        [-0.1431, -0.0651, -0.4463,  ..., -0.1611,  0.1537,  0.0587],
+        [-0.2569, -0.1664, -0.0977,  ..., -0.2825, -0.0693, -0.0906],
+        [-0.1396, -0.1113, -0.1825,  ...,  0.1046,  0.0248, -0.1958]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.4913e-08,  ..., -6.7521e-09,
+          0.0000e+00, -4.8894e-09],
+        [ 2.3283e-10,  0.0000e+00,  6.9849e-10,  ...,  2.3283e-10,
+          6.9849e-10,  9.3132e-10],
+        [-1.6298e-09,  0.0000e+00,  2.3283e-10,  ...,  0.0000e+00,
+          2.3283e-10,  0.0000e+00],
+        ...,
+        [ 1.1642e-09,  2.3283e-10,  4.6566e-10,  ...,  0.0000e+00,
+         -2.3982e-08, -6.9849e-10],
+        [ 2.3283e-10,  0.0000e+00,  6.9849e-10,  ...,  2.3283e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  3.4925e-09,  ...,  1.1642e-09,
+          2.0955e-09,  6.9849e-10]], device='cuda:0')
+Epoch 486, bias, value: tensor([ 3.1297e-03,  6.5977e-03,  1.7871e-02, -3.3474e-03,  3.0687e-02,
+        -5.0980e-03, -6.1985e-05, -6.1066e-03,  1.3108e-02, -1.7655e-02],
+       device='cuda:0'), grad: tensor([-4.7497e-08,  1.2573e-08, -9.3132e-10, -3.2131e-08,  1.0966e-07,
+         5.5647e-08,  4.0745e-08, -1.3178e-07, -1.2340e-08,  1.8859e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 485, time 246.56, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.3865 re_mapping 0.0018 re_causal 0.0071 /// teacc 99.19 lr 0.00001000
+Epoch 487, weight, value: tensor([[-0.2595, -0.0733,  0.2369,  ...,  0.0357, -0.2682, -0.1786],
+        [-0.2217, -0.3024, -0.0828,  ..., -0.1484, -0.3981, -0.1339],
+        [ 0.3363, -0.0860, -0.3429,  ..., -0.2655, -0.3038, -0.2278],
+        ...,
+        [-0.1432, -0.0652, -0.4463,  ..., -0.1612,  0.1539,  0.0587],
+        [-0.2569, -0.1664, -0.0977,  ..., -0.2826, -0.0693, -0.0906],
+        [-0.1396, -0.1113, -0.1825,  ...,  0.1046,  0.0248, -0.1958]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  6.9849e-10,
+          2.3283e-10,  2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.9849e-10,
+          2.3283e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.9849e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.6298e-09,  2.3283e-10,  0.0000e+00,  ...,  2.3283e-10,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -2.3283e-10,
+         -2.0955e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  6.9849e-10,  ...,  4.1910e-09,
+          1.1642e-09,  0.0000e+00]], device='cuda:0')
+Epoch 487, bias, value: tensor([ 0.0031,  0.0066,  0.0178, -0.0032,  0.0307, -0.0051, -0.0001, -0.0061,
+         0.0131, -0.0177], device='cuda:0'), grad: tensor([ 4.4238e-09, -3.1898e-08,  3.4925e-09,  5.8208e-09, -1.9092e-08,
+        -1.6298e-08,  2.5844e-08,  4.1677e-08, -1.2340e-08,  2.3982e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 486, time 246.15, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4571 re_mapping 0.0017 re_causal 0.0074 /// teacc 99.19 lr 0.00001000
+Epoch 488, weight, value: tensor([[-0.2595, -0.0733,  0.2370,  ...,  0.0357, -0.2682, -0.1786],
+        [-0.2217, -0.3025, -0.0828,  ..., -0.1485, -0.3983, -0.1339],
+        [ 0.3365, -0.0860, -0.3429,  ..., -0.2655, -0.3039, -0.2278],
+        ...,
+        [-0.1432, -0.0652, -0.4464,  ..., -0.1613,  0.1540,  0.0587],
+        [-0.2569, -0.1664, -0.0978,  ..., -0.2826, -0.0693, -0.0906],
+        [-0.1396, -0.1113, -0.1826,  ...,  0.1046,  0.0247, -0.1958]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  0.0000e+00,  2.3283e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  2.3283e-10,  2.3283e-10,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [-6.0536e-09, -6.9849e-10,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  4.6566e-10],
+        ...,
+        [ 4.4238e-09,  9.3132e-10,  0.0000e+00,  ...,  2.3283e-10,
+         -4.6566e-10, -2.3283e-10],
+        [ 3.2596e-09,  1.1642e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -2.3283e-10,  0.0000e+00],
+        [ 1.1642e-09,  4.6566e-10,  6.9849e-10,  ...,  8.1491e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 488, bias, value: tensor([ 0.0031,  0.0066,  0.0177, -0.0032,  0.0306, -0.0051, -0.0001, -0.0062,
+         0.0131, -0.0177], device='cuda:0'), grad: tensor([ 1.8626e-09,  3.0268e-09, -7.9162e-09, -1.0012e-06, -1.7229e-08,
+         9.8441e-07,  3.7253e-09,  1.3271e-08, -2.3283e-09,  2.6543e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 487, time 246.45, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4235 re_mapping 0.0017 re_causal 0.0071 /// teacc 99.20 lr 0.00001000
+Epoch 489, weight, value: tensor([[-0.2595, -0.0733,  0.2371,  ...,  0.0357, -0.2682, -0.1786],
+        [-0.2218, -0.3025, -0.0828,  ..., -0.1486, -0.3984, -0.1339],
+        [ 0.3366, -0.0860, -0.3430,  ..., -0.2656, -0.3039, -0.2278],
+        ...,
+        [-0.1433, -0.0652, -0.4464,  ..., -0.1615,  0.1541,  0.0587],
+        [-0.2569, -0.1664, -0.0978,  ..., -0.2827, -0.0693, -0.0907],
+        [-0.1396, -0.1113, -0.1827,  ...,  0.1046,  0.0247, -0.1958]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -3.5623e-08,  ..., -3.1898e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.2596e-09,  ..., -3.0268e-09,
+          4.1910e-09,  2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.1642e-09,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 2.3283e-10,  0.0000e+00,  4.6566e-10,  ...,  3.0268e-09,
+         -6.9849e-09,  0.0000e+00],
+        [ 2.3283e-10,  0.0000e+00,  6.9849e-10,  ...,  4.6566e-10,
+          9.3132e-10,  6.9849e-10],
+        [ 0.0000e+00,  0.0000e+00,  3.5623e-08,  ...,  2.9569e-08,
+          3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 489, bias, value: tensor([ 0.0031,  0.0066,  0.0176, -0.0032,  0.0304, -0.0052, -0.0002, -0.0062,
+         0.0131, -0.0176], device='cuda:0'), grad: tensor([-8.4052e-08, -7.4506e-09,  4.8894e-09,  5.8208e-09,  2.6543e-08,
+         1.1874e-08, -4.2841e-08, -1.1642e-08,  2.7940e-09,  1.1642e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 488, time 246.44, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4426 re_mapping 0.0017 re_causal 0.0073 /// teacc 99.18 lr 0.00001000
+Epoch 490, weight, value: tensor([[-0.2595, -0.0733,  0.2373,  ...,  0.0357, -0.2683, -0.1787],
+        [-0.2218, -0.3025, -0.0829,  ..., -0.1487, -0.3984, -0.1339],
+        [ 0.3366, -0.0860, -0.3431,  ..., -0.2656, -0.3039, -0.2278],
+        ...,
+        [-0.1434, -0.0652, -0.4464,  ..., -0.1617,  0.1542,  0.0587],
+        [-0.2570, -0.1664, -0.0978,  ..., -0.2828, -0.0694, -0.0907],
+        [-0.1396, -0.1113, -0.1828,  ...,  0.1046,  0.0247, -0.1958]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.3283e-10,  6.9849e-10,  ...,  6.9849e-10,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  5.8208e-09,
+          1.3970e-09,  2.3283e-10],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  2.3283e-10,
+         -1.6298e-09,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  3.0268e-09,  ..., -2.8871e-08,
+         -7.2177e-09,  0.0000e+00]], device='cuda:0')
+Epoch 490, bias, value: tensor([ 0.0031,  0.0068,  0.0174, -0.0032,  0.0302, -0.0053, -0.0001, -0.0064,
+         0.0131, -0.0176], device='cuda:0'), grad: tensor([ 5.3551e-09,  6.2864e-09,  9.3132e-10,  4.4238e-09,  6.0303e-08,
+        -2.0256e-08,  4.6566e-09,  1.9558e-08, -4.4238e-09, -5.6811e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 489, time 246.52, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4015 re_mapping 0.0017 re_causal 0.0068 /// teacc 99.18 lr 0.00001000
+Epoch 491, weight, value: tensor([[-0.2595, -0.0733,  0.2374,  ...,  0.0357, -0.2684, -0.1787],
+        [-0.2218, -0.3025, -0.0829,  ..., -0.1488, -0.3986, -0.1339],
+        [ 0.3367, -0.0860, -0.3432,  ..., -0.2657, -0.3040, -0.2278],
+        ...,
+        [-0.1435, -0.0653, -0.4465,  ..., -0.1618,  0.1543,  0.0587],
+        [-0.2570, -0.1664, -0.0979,  ..., -0.2829, -0.0694, -0.0907],
+        [-0.1397, -0.1113, -0.1829,  ...,  0.1046,  0.0247, -0.1958]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  2.3283e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 4.6566e-10,  2.3283e-10, -2.3283e-10,  ...,  2.3283e-10,
+          6.9849e-10,  0.0000e+00],
+        [-4.6566e-09, -1.1642e-09,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-10,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -4.6566e-10,  0.0000e+00],
+        [ 1.6298e-09,  4.6566e-10,  0.0000e+00,  ...,  6.9849e-10,
+          6.9849e-10,  0.0000e+00],
+        [ 2.3283e-10,  0.0000e+00,  2.3283e-10,  ..., -1.1642e-09,
+          6.9849e-10,  2.3283e-10]], device='cuda:0')
+Epoch 491, bias, value: tensor([ 3.1347e-03,  6.8227e-03,  1.7222e-02, -3.2285e-03,  3.0162e-02,
+        -5.3294e-03,  1.7088e-05, -6.3709e-03,  1.3122e-02, -1.7644e-02],
+       device='cuda:0'), grad: tensor([ 1.1409e-08, -1.1642e-08, -8.8476e-09,  1.1874e-08,  6.0536e-09,
+        -6.8918e-08,  1.7462e-08,  1.9092e-08,  2.2585e-08,  7.4506e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 490, time 246.35, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4216 re_mapping 0.0017 re_causal 0.0072 /// teacc 99.17 lr 0.00001000
+Epoch 492, weight, value: tensor([[-0.2595, -0.0733,  0.2376,  ...,  0.0357, -0.2684, -0.1787],
+        [-0.2219, -0.3025, -0.0830,  ..., -0.1489, -0.3987, -0.1339],
+        [ 0.3368, -0.0860, -0.3433,  ..., -0.2657, -0.3040, -0.2278],
+        ...,
+        [-0.1435, -0.0653, -0.4465,  ..., -0.1619,  0.1545,  0.0587],
+        [-0.2570, -0.1664, -0.0980,  ..., -0.2830, -0.0694, -0.0907],
+        [-0.1397, -0.1113, -0.1830,  ...,  0.1046,  0.0246, -0.1959]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -5.1223e-09,  ..., -3.2596e-09,
+          0.0000e+00, -2.3283e-10],
+        [ 2.7940e-09,  0.0000e+00,  4.6566e-10,  ...,  2.3283e-09,
+          6.9849e-10,  2.7940e-09],
+        [-3.2596e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.6298e-09,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+         -9.3132e-10,  0.0000e+00],
+        [ 2.3283e-10,  0.0000e+00,  2.3283e-10,  ...,  4.6566e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  3.4925e-09,  ...,  7.2177e-09,
+          2.3283e-10,  4.6566e-10]], device='cuda:0')
+Epoch 492, bias, value: tensor([ 3.1399e-03,  6.8837e-03,  1.7148e-02, -3.1274e-03,  3.0145e-02,
+        -5.4663e-03,  7.6682e-05, -6.4609e-03,  1.3102e-02, -1.7647e-02],
+       device='cuda:0'), grad: tensor([-9.5461e-09,  1.0477e-07, -6.5193e-09,  5.3318e-08, -2.4214e-08,
+        -1.6182e-07,  7.6834e-09,  1.0943e-08,  7.6834e-09,  3.3760e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 491, time 246.76, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4164 re_mapping 0.0017 re_causal 0.0070 /// teacc 99.23 lr 0.00001000
+Epoch 493, weight, value: tensor([[-0.2596, -0.0733,  0.2377,  ...,  0.0357, -0.2685, -0.1787],
+        [-0.2219, -0.3025, -0.0830,  ..., -0.1490, -0.3988, -0.1339],
+        [ 0.3369, -0.0860, -0.3433,  ..., -0.2657, -0.3040, -0.2278],
+        ...,
+        [-0.1436, -0.0653, -0.4466,  ..., -0.1620,  0.1546,  0.0587],
+        [-0.2570, -0.1664, -0.0981,  ..., -0.2831, -0.0694, -0.0907],
+        [-0.1397, -0.1113, -0.1831,  ...,  0.1046,  0.0246, -0.1959]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 6.2864e-09,  2.3283e-10,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [-2.1188e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.2573e-08,  6.9849e-10,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  2.3283e-10,  0.0000e+00,  ...,  6.9849e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 2.0955e-09, -1.8626e-09,  9.3132e-10,  ..., -7.9162e-09,
+         -0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 493, bias, value: tensor([ 0.0031,  0.0069,  0.0171, -0.0030,  0.0301, -0.0056,  0.0002, -0.0065,
+         0.0131, -0.0176], device='cuda:0'), grad: tensor([ 3.7253e-09,  1.1176e-08, -4.9127e-08,  1.1874e-08,  8.6147e-09,
+        -5.0291e-08,  8.8476e-09,  4.2608e-08,  3.1432e-08, -6.5193e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 492, time 246.54, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4069 re_mapping 0.0017 re_causal 0.0068 /// teacc 99.19 lr 0.00001000
+Epoch 494, weight, value: tensor([[-0.2596, -0.0733,  0.2378,  ...,  0.0357, -0.2686, -0.1788],
+        [-0.2220, -0.3025, -0.0831,  ..., -0.1490, -0.3989, -0.1339],
+        [ 0.3371, -0.0860, -0.3434,  ..., -0.2657, -0.3041, -0.2278],
+        ...,
+        [-0.1437, -0.0653, -0.4466,  ..., -0.1621,  0.1548,  0.0588],
+        [-0.2571, -0.1664, -0.0982,  ..., -0.2832, -0.0694, -0.0907],
+        [-0.1397, -0.1113, -0.1832,  ...,  0.1046,  0.0245, -0.1959]],
+       device='cuda:0'), grad: tensor([[ 3.0268e-09,  0.0000e+00,  2.3283e-10,  ...,  0.0000e+00,
+          2.3283e-10,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          6.9849e-10,  0.0000e+00],
+        [-7.4506e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.1642e-09,  2.3283e-10,  0.0000e+00,  ...,  2.3283e-10,
+         -6.9849e-10,  0.0000e+00],
+        [ 3.0268e-09,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          2.3283e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.1642e-09,  ...,  1.1642e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 494, bias, value: tensor([ 0.0031,  0.0069,  0.0171, -0.0030,  0.0300, -0.0057,  0.0003, -0.0065,
+         0.0130, -0.0176], device='cuda:0'), grad: tensor([ 9.3132e-09,  9.3132e-10, -2.0023e-08,  1.4203e-08,  4.1910e-09,
+        -1.4668e-08,  8.8476e-09,  4.6566e-09,  6.2864e-09,  6.0536e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 493, time 246.71, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4303 re_mapping 0.0017 re_causal 0.0072 /// teacc 99.21 lr 0.00001000
+Epoch 495, weight, value: tensor([[-0.2596, -0.0733,  0.2380,  ...,  0.0357, -0.2687, -0.1788],
+        [-0.2220, -0.3025, -0.0831,  ..., -0.1491, -0.3991, -0.1339],
+        [ 0.3373, -0.0860, -0.3434,  ..., -0.2658, -0.3041, -0.2278],
+        ...,
+        [-0.1438, -0.0654, -0.4466,  ..., -0.1623,  0.1550,  0.0588],
+        [-0.2572, -0.1665, -0.0982,  ..., -0.2832, -0.0694, -0.0908],
+        [-0.1397, -0.1113, -0.1833,  ...,  0.1046,  0.0245, -0.1959]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.3772e-08,  ..., -3.0035e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  2.3283e-10,
+          1.3970e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  1.8626e-09,
+         -4.1910e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.1642e-09,  ...,  1.1642e-09,
+          2.3283e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.7951e-08,  ..., -5.5879e-09,
+          1.3970e-09,  0.0000e+00]], device='cuda:0')
+Epoch 495, bias, value: tensor([ 0.0031,  0.0069,  0.0171, -0.0030,  0.0299, -0.0057,  0.0004, -0.0066,
+         0.0130, -0.0176], device='cuda:0'), grad: tensor([-1.1059e-07,  1.6065e-08,  1.0943e-08,  3.7253e-09,  9.0105e-08,
+        -1.3970e-09,  9.3132e-09, -2.0489e-08,  6.2864e-09,  3.7253e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 494, time 246.80, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4218 re_mapping 0.0017 re_causal 0.0070 /// teacc 99.20 lr 0.00001000
+Epoch 496, weight, value: tensor([[-0.2596, -0.0733,  0.2381,  ...,  0.0357, -0.2688, -0.1788],
+        [-0.2221, -0.3025, -0.0832,  ..., -0.1492, -0.3992, -0.1340],
+        [ 0.3375, -0.0860, -0.3435,  ..., -0.2658, -0.3041, -0.2278],
+        ...,
+        [-0.1439, -0.0654, -0.4467,  ..., -0.1624,  0.1552,  0.0588],
+        [-0.2572, -0.1665, -0.0983,  ..., -0.2833, -0.0695, -0.0908],
+        [-0.1397, -0.1113, -0.1834,  ...,  0.1046,  0.0244, -0.1959]],
+       device='cuda:0'), grad: tensor([[ 6.9849e-10,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          2.3283e-10,  0.0000e+00],
+        [ 6.9849e-10,  0.0000e+00,  2.3283e-10,  ...,  6.9849e-10,
+          9.3132e-10, -2.3283e-09],
+        [-3.2596e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-10,  0.0000e+00],
+        ...,
+        [ 1.1642e-09,  0.0000e+00,  0.0000e+00,  ...,  6.9849e-10,
+         -9.3132e-10,  2.3283e-10],
+        [ 1.1642e-09,  0.0000e+00,  0.0000e+00,  ...,  2.5611e-09,
+          6.2864e-09,  1.6298e-09],
+        [ 2.3283e-10,  0.0000e+00,  2.3283e-10,  ..., -1.6298e-08,
+         -4.6566e-10,  0.0000e+00]], device='cuda:0')
+Epoch 496, bias, value: tensor([ 0.0031,  0.0070,  0.0172, -0.0030,  0.0298, -0.0057,  0.0005, -0.0066,
+         0.0130, -0.0176], device='cuda:0'), grad: tensor([ 5.1223e-09, -6.5193e-08, -4.8894e-09,  1.6997e-08,  3.8184e-08,
+        -1.2550e-07,  4.6799e-08,  8.1491e-09,  1.2130e-07, -2.8405e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 495, time 246.16, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4127 re_mapping 0.0017 re_causal 0.0070 /// teacc 99.19 lr 0.00001000
+Epoch 497, weight, value: tensor([[-0.2597, -0.0733,  0.2382,  ...,  0.0357, -0.2689, -0.1788],
+        [-0.2222, -0.3025, -0.0832,  ..., -0.1494, -0.3994, -0.1340],
+        [ 0.3376, -0.0860, -0.3435,  ..., -0.2658, -0.3042, -0.2278],
+        ...,
+        [-0.1440, -0.0654, -0.4467,  ..., -0.1626,  0.1554,  0.0588],
+        [-0.2572, -0.1665, -0.0984,  ..., -0.2834, -0.0695, -0.0908],
+        [-0.1398, -0.1113, -0.1835,  ...,  0.1046,  0.0244, -0.1960]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  2.3283e-10,
+          8.1491e-10,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.4925e-10,
+          1.0477e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.1642e-10,
+          1.1642e-10,  0.0000e+00],
+        ...,
+        [ 5.8208e-10,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+         -1.2806e-09,  0.0000e+00],
+        [ 5.8208e-10,  0.0000e+00,  1.1642e-10,  ...,  6.9849e-10,
+          5.8208e-10,  2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  2.5611e-09,
+          8.1491e-10,  0.0000e+00]], device='cuda:0')
+Epoch 497, bias, value: tensor([ 0.0031,  0.0069,  0.0172, -0.0030,  0.0299, -0.0057,  0.0005, -0.0065,
+         0.0129, -0.0177], device='cuda:0'), grad: tensor([ 4.6566e-09,  5.4715e-09,  8.1491e-10,  8.0327e-09, -1.2224e-08,
+        -1.9092e-08, -3.9581e-09, -3.6089e-09,  7.6834e-09,  1.4901e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 496, time 246.51, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4403 re_mapping 0.0017 re_causal 0.0069 /// teacc 99.19 lr 0.00001000
+Epoch 498, weight, value: tensor([[-0.2597, -0.0733,  0.2383,  ...,  0.0357, -0.2689, -0.1788],
+        [-0.2223, -0.3025, -0.0833,  ..., -0.1495, -0.3995, -0.1340],
+        [ 0.3379, -0.0861, -0.3435,  ..., -0.2659, -0.3042, -0.2278],
+        ...,
+        [-0.1442, -0.0655, -0.4467,  ..., -0.1627,  0.1555,  0.0588],
+        [-0.2573, -0.1665, -0.0984,  ..., -0.2834, -0.0695, -0.0908],
+        [-0.1398, -0.1113, -0.1836,  ...,  0.1046,  0.0243, -0.1960]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          4.6566e-10,  4.6566e-10],
+        [ 1.3970e-09,  0.0000e+00,  0.0000e+00,  ...,  6.9849e-10,
+          1.3970e-09,  2.3283e-10],
+        [-5.5879e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.1642e-09,  9.3132e-10,  0.0000e+00,  ...,  2.5611e-09,
+         -6.9849e-10,  0.0000e+00],
+        [ 1.8626e-09,  2.3283e-10,  0.0000e+00,  ...,  0.0000e+00,
+          1.3970e-09,  6.9849e-10],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  1.8161e-08,
+          6.9849e-10,  2.3283e-10]], device='cuda:0')
+Epoch 498, bias, value: tensor([ 0.0032,  0.0069,  0.0173, -0.0030,  0.0298, -0.0058,  0.0006, -0.0066,
+         0.0130, -0.0177], device='cuda:0'), grad: tensor([ 4.1910e-09, -1.7928e-08, -1.7229e-08, -2.3283e-09, -4.0978e-08,
+         4.8894e-09, -2.1653e-08,  3.4925e-08,  1.6298e-08,  5.1456e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 497, time 246.15, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4404 re_mapping 0.0016 re_causal 0.0071 /// teacc 99.19 lr 0.00001000
+Epoch 499, weight, value: tensor([[-0.2597, -0.0733,  0.2386,  ...,  0.0357, -0.2691, -0.1788],
+        [-0.2224, -0.3026, -0.0833,  ..., -0.1495, -0.3997, -0.1340],
+        [ 0.3382, -0.0861, -0.3436,  ..., -0.2659, -0.3043, -0.2278],
+        ...,
+        [-0.1444, -0.0655, -0.4468,  ..., -0.1628,  0.1557,  0.0588],
+        [-0.2574, -0.1665, -0.0985,  ..., -0.2835, -0.0695, -0.0908],
+        [-0.1398, -0.1113, -0.1837,  ...,  0.1046,  0.0243, -0.1960]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ..., -2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.9849e-10,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.1642e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  1.1642e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.0268e-09,  ..., -2.3749e-08,
+          2.3283e-10,  0.0000e+00]], device='cuda:0')
+Epoch 499, bias, value: tensor([ 0.0032,  0.0070,  0.0174, -0.0031,  0.0297, -0.0055,  0.0005, -0.0068,
+         0.0129, -0.0177], device='cuda:0'), grad: tensor([-1.6298e-09, -9.7789e-09,  4.6566e-10,  1.1176e-08,  7.3574e-08,
+        -1.8394e-08,  7.9162e-09,  2.0489e-08,  5.5879e-09, -7.3807e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 498, time 246.47, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4229 re_mapping 0.0017 re_causal 0.0071 /// teacc 99.22 lr 0.00001000
+Epoch 500, weight, value: tensor([[-0.2598, -0.0733,  0.2387,  ...,  0.0357, -0.2691, -0.1788],
+        [-0.2225, -0.3026, -0.0833,  ..., -0.1497, -0.3999, -0.1340],
+        [ 0.3383, -0.0861, -0.3436,  ..., -0.2659, -0.3043, -0.2278],
+        ...,
+        [-0.1445, -0.0655, -0.4468,  ..., -0.1629,  0.1560,  0.0588],
+        [-0.2574, -0.1665, -0.0985,  ..., -0.2836, -0.0696, -0.0908],
+        [-0.1398, -0.1113, -0.1838,  ...,  0.1046,  0.0242, -0.1960]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -3.0734e-08,  ..., -1.3039e-08,
+          6.9849e-10, -0.0000e+00],
+        [ 2.3283e-10,  4.6566e-10,  1.3970e-09,  ...,  9.3132e-10,
+          2.3283e-10,  0.0000e+00],
+        [ 1.1642e-09,  3.4925e-09,  1.1642e-09,  ...,  4.6566e-10,
+          6.9849e-10,  2.3283e-10],
+        ...,
+        [ 4.6566e-10,  1.1642e-09,  2.3283e-09,  ...,  2.5611e-09,
+          6.9849e-10,  0.0000e+00],
+        [ 0.0000e+00, -1.1642e-09,  6.9849e-09,  ...,  4.6566e-10,
+         -1.6298e-08,  2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.2340e-08,  ...,  2.6310e-08,
+          2.3283e-10,  2.3283e-10]], device='cuda:0')
+Epoch 500, bias, value: tensor([ 0.0032,  0.0070,  0.0173, -0.0032,  0.0296, -0.0054,  0.0005, -0.0067,
+         0.0130, -0.0177], device='cuda:0'), grad: tensor([-7.4040e-08,  6.7521e-09,  2.3283e-08,  3.3760e-08, -8.1258e-08,
+         1.2806e-08,  1.3970e-08,  2.7474e-08, -7.1945e-08,  1.1921e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 499, time 246.31, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4185 re_mapping 0.0017 re_causal 0.0072 /// teacc 99.17 lr 0.00001000
+---------------------saving last model at epoch 499----------------------------------------------------
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 500, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_onlyblock2', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 3
+--------------------------CA_multiple--------------------------
+---------------------------14 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+Epoch 1, weight, value: tensor([[-0.0169, -0.0253,  0.0165,  ...,  0.0308, -0.0245,  0.0071],
+        [ 0.0253, -0.0156, -0.0133,  ..., -0.0190,  0.0099, -0.0189],
+        [-0.0034,  0.0289, -0.0063,  ..., -0.0258, -0.0044, -0.0031],
+        ...,
+        [-0.0209,  0.0037,  0.0139,  ..., -0.0167, -0.0230,  0.0121],
+        [-0.0203,  0.0144,  0.0223,  ..., -0.0020,  0.0059, -0.0016],
+        [-0.0243, -0.0195,  0.0228,  ...,  0.0235, -0.0155,  0.0110]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([ 0.0295, -0.0169, -0.0055,  0.0009,  0.0004, -0.0044, -0.0083, -0.0051,
+         0.0301,  0.0197], device='cuda:0'), grad: None
+100
+0.0001
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 276.71, cls_loss 1.2511 cls_loss_mapping 1.7983 cls_loss_causal 2.2017 re_mapping 0.1599 re_causal 0.1691 /// teacc 81.97 lr 0.00010000
+Epoch 2, weight, value: tensor([[-0.0159, -0.0265,  0.0146,  ...,  0.0314, -0.0300,  0.0096],
+        [ 0.0175, -0.0222, -0.0215,  ..., -0.0196,  0.0111, -0.0269],
+        [ 0.0010,  0.0316, -0.0102,  ..., -0.0265, -0.0117, -0.0075],
+        ...,
+        [-0.0158,  0.0036,  0.0140,  ..., -0.0174, -0.0271,  0.0187],
+        [-0.0228,  0.0152,  0.0244,  ..., -0.0026,  0.0058, -0.0085],
+        [-0.0246, -0.0182,  0.0245,  ...,  0.0228, -0.0146,  0.0131]],
+       device='cuda:0'), grad: tensor([[ 2.3232e-03,  8.7690e-04, -2.7943e-03,  ..., -7.7844e-05,
+         -7.9041e-03, -1.5823e-02],
+        [ 1.0414e-02,  4.3106e-03,  8.9417e-03,  ...,  3.8580e-07,
+          2.2644e-02,  1.2611e-02],
+        [ 6.0177e-04,  5.2605e-03,  1.0315e-02,  ...,  6.9402e-06,
+          2.1088e-02,  8.8196e-03],
+        ...,
+        [-4.5746e-02, -3.5515e-03, -3.8166e-03,  ...,  1.3569e-06,
+          1.0201e-02, -6.1707e-02],
+        [ 1.4015e-02,  1.4467e-03,  9.7351e-03,  ...,  6.0350e-06,
+          2.3148e-02,  2.8137e-02],
+        [ 3.6682e-02,  3.5610e-03,  4.6753e-02,  ...,  2.8834e-06,
+          4.0314e-02,  8.4595e-02]], device='cuda:0')
+Epoch 2, bias, value: tensor([ 0.0273, -0.0155, -0.0061,  0.0006, -0.0003, -0.0041, -0.0080, -0.0044,
+         0.0297,  0.0196], device='cuda:0'), grad: tensor([-0.0194,  0.0277,  0.0198, -0.0734, -0.0612,  0.0463, -0.0369, -0.0263,
+         0.0376,  0.0858], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 275.56, cls_loss 0.4374 cls_loss_mapping 0.7801 cls_loss_causal 1.9032 re_mapping 0.2112 re_causal 0.2743 /// teacc 91.82 lr 0.00010000
+Epoch 3, weight, value: tensor([[-0.0167, -0.0268,  0.0123,  ...,  0.0305, -0.0334,  0.0104],
+        [ 0.0147, -0.0253, -0.0245,  ..., -0.0167,  0.0124, -0.0288],
+        [ 0.0039,  0.0329, -0.0128,  ..., -0.0289, -0.0159, -0.0076],
+        ...,
+        [-0.0139,  0.0030,  0.0116,  ..., -0.0196, -0.0330,  0.0209],
+        [-0.0220,  0.0185,  0.0271,  ..., -0.0052,  0.0076, -0.0138],
+        [-0.0237, -0.0164,  0.0242,  ...,  0.0211, -0.0172,  0.0153]],
+       device='cuda:0'), grad: tensor([[-2.0981e-03,  1.9484e-03,  2.2566e-04,  ...,  3.1758e-07,
+          1.1930e-03, -6.1750e-04],
+        [ 1.6602e-02,  9.0027e-03,  5.2147e-03,  ..., -5.6237e-05,
+          1.8692e-02,  1.8402e-02],
+        [-1.0246e-02, -7.2250e-03,  2.3499e-03,  ...,  1.0781e-05,
+          3.9558e-03,  1.5459e-03],
+        ...,
+        [-6.8893e-03,  1.4181e-03,  4.1733e-03,  ...,  1.3402e-06,
+          7.2403e-03, -2.3590e-02],
+        [ 4.2419e-03,  1.5480e-02,  2.5665e-02,  ...,  3.6806e-05,
+          2.1729e-02, -3.9635e-03],
+        [-2.6150e-03, -1.1200e-02, -8.7585e-03,  ...,  3.9255e-07,
+         -6.9809e-03, -6.5193e-03]], device='cuda:0')
+Epoch 3, bias, value: tensor([ 0.0270, -0.0152, -0.0063,  0.0003, -0.0003, -0.0032, -0.0089, -0.0048,
+         0.0301,  0.0200], device='cuda:0'), grad: tensor([ 0.0004,  0.0277, -0.0048, -0.0062, -0.0087, -0.0186,  0.0092, -0.0090,
+         0.0159, -0.0059], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 275.31, cls_loss 0.2946 cls_loss_mapping 0.4847 cls_loss_causal 1.7281 re_mapping 0.1530 re_causal 0.2479 /// teacc 94.34 lr 0.00010000
+Epoch 4, weight, value: tensor([[-0.0169, -0.0273,  0.0102,  ...,  0.0296, -0.0365,  0.0103],
+        [ 0.0126, -0.0277, -0.0265,  ..., -0.0140,  0.0128, -0.0307],
+        [ 0.0067,  0.0341, -0.0145,  ..., -0.0334, -0.0197, -0.0077],
+        ...,
+        [-0.0129,  0.0024,  0.0107,  ..., -0.0329, -0.0363,  0.0225],
+        [-0.0222,  0.0209,  0.0286,  ..., -0.0074,  0.0086, -0.0162],
+        [-0.0245, -0.0163,  0.0237,  ...,  0.0107, -0.0183,  0.0161]],
+       device='cuda:0'), grad: tensor([[-8.3313e-03,  1.1253e-03,  6.3658e-04,  ..., -1.9073e-04,
+         -3.5820e-03, -8.5144e-03],
+        [ 2.1706e-03,  3.8319e-03,  4.9095e-03,  ...,  1.6415e-04,
+          9.4299e-03,  6.4516e-04],
+        [ 1.0557e-03,  3.4866e-03,  4.3869e-03,  ...,  1.8330e-03,
+          6.3858e-03,  1.3914e-03],
+        ...,
+        [ 1.3371e-03,  2.2907e-03,  1.6737e-03,  ...,  6.1393e-05,
+          2.7962e-03,  2.3329e-04],
+        [-1.7746e-02, -1.9470e-02, -6.0120e-03,  ...,  2.0428e-03,
+         -1.1093e-02, -4.0932e-03],
+        [ 8.6136e-03,  1.0872e-02,  1.6754e-02,  ...,  1.2791e-04,
+          2.9449e-02,  6.5613e-03]], device='cuda:0')
+Epoch 4, bias, value: tensor([ 0.0267, -0.0154, -0.0060,  0.0005, -0.0002, -0.0028, -0.0093, -0.0052,
+         0.0303,  0.0199], device='cuda:0'), grad: tensor([-0.0111,  0.0097,  0.0061,  0.0003, -0.0330,  0.0131, -0.0012,  0.0043,
+        -0.0292,  0.0409], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 275.17, cls_loss 0.2248 cls_loss_mapping 0.3588 cls_loss_causal 1.5569 re_mapping 0.1233 re_causal 0.2187 /// teacc 94.49 lr 0.00010000
+Epoch 5, weight, value: tensor([[-0.0167, -0.0278,  0.0086,  ...,  0.0312, -0.0387,  0.0103],
+        [ 0.0115, -0.0291, -0.0284,  ..., -0.0160,  0.0131, -0.0324],
+        [ 0.0083,  0.0344, -0.0164,  ..., -0.0371, -0.0224, -0.0089],
+        ...,
+        [-0.0120,  0.0027,  0.0096,  ..., -0.0394, -0.0391,  0.0235],
+        [-0.0226,  0.0225,  0.0301,  ..., -0.0079,  0.0088, -0.0190],
+        [-0.0251, -0.0160,  0.0233,  ...,  0.0091, -0.0188,  0.0174]],
+       device='cuda:0'), grad: tensor([[-1.3962e-03,  1.3437e-03,  9.4366e-04,  ..., -5.6791e-04,
+          7.7915e-04, -5.2567e-03],
+        [ 1.2985e-02,  9.7885e-03,  6.7787e-03,  ...,  3.8099e-04,
+          1.1681e-02,  4.8447e-03],
+        [ 1.0635e-02, -5.5199e-03,  1.2922e-03,  ...,  2.0492e-04,
+         -3.4885e-03,  1.6418e-02],
+        ...,
+        [-4.4739e-02, -1.3489e-02,  2.5439e-04,  ...,  2.2233e-05,
+          6.1417e-04, -3.6621e-02],
+        [ 4.3564e-03,  5.6076e-04,  4.6349e-03,  ...,  1.3723e-03,
+          3.5515e-03,  3.1452e-03],
+        [ 5.5428e-03,  3.4943e-03,  1.2045e-03,  ...,  1.3709e-04,
+          1.0433e-03,  6.0501e-03]], device='cuda:0')
+Epoch 5, bias, value: tensor([ 0.0268, -0.0152, -0.0061,  0.0004, -0.0001, -0.0028, -0.0095, -0.0051,
+         0.0300,  0.0202], device='cuda:0'), grad: tensor([-0.0038,  0.0334, -0.0076,  0.0182,  0.0019, -0.0165,  0.0015, -0.0421,
+         0.0070,  0.0080], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 275.33, cls_loss 0.1651 cls_loss_mapping 0.2728 cls_loss_causal 1.4585 re_mapping 0.1028 re_causal 0.2002 /// teacc 96.07 lr 0.00010000
+Epoch 6, weight, value: tensor([[-0.0164, -0.0282,  0.0070,  ...,  0.0306, -0.0408,  0.0110],
+        [ 0.0100, -0.0311, -0.0302,  ..., -0.0184,  0.0131, -0.0339],
+        [ 0.0103,  0.0358, -0.0182,  ..., -0.0392, -0.0255, -0.0099],
+        ...,
+        [-0.0110,  0.0029,  0.0091,  ..., -0.0416, -0.0409,  0.0245],
+        [-0.0223,  0.0240,  0.0310,  ..., -0.0101,  0.0093, -0.0211],
+        [-0.0265, -0.0161,  0.0225,  ...,  0.0083, -0.0197,  0.0178]],
+       device='cuda:0'), grad: tensor([[ 4.1351e-03,  9.9106e-03,  4.4174e-03,  ...,  6.6042e-05,
+          1.3571e-03,  1.6756e-03],
+        [-9.1267e-04, -5.9471e-03, -3.2749e-03,  ...,  2.9579e-06,
+         -5.1689e-03,  3.9434e-04],
+        [ 2.2793e-03,  5.3329e-03,  3.4237e-03,  ...,  2.2739e-05,
+          3.2387e-03,  9.9754e-04],
+        ...,
+        [ 5.0316e-03,  5.3329e-03,  1.4944e-03,  ...,  5.1269e-07,
+          5.6152e-03,  1.1543e-02],
+        [-1.4236e-02, -3.2684e-02, -5.1666e-02,  ...,  1.6034e-05,
+         -3.2288e-02, -8.8453e-04],
+        [ 8.9264e-03,  9.1705e-03,  2.9278e-03,  ...,  5.0664e-06,
+          5.1041e-03,  1.6739e-02]], device='cuda:0')
+Epoch 6, bias, value: tensor([ 2.6959e-02, -1.5339e-02, -5.8197e-03,  1.9760e-04, -3.5663e-05,
+        -2.6938e-03, -9.9802e-03, -4.9399e-03,  3.0016e-02,  2.0198e-02],
+       device='cuda:0'), grad: tensor([ 0.0058, -0.0184,  0.0090, -0.0263,  0.0036,  0.0185,  0.0043,  0.0122,
+        -0.0270,  0.0182], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 5----------------------------------------------------
+epoch 5, time 275.76, cls_loss 0.1362 cls_loss_mapping 0.2158 cls_loss_causal 1.2994 re_mapping 0.0852 re_causal 0.1719 /// teacc 96.45 lr 0.00010000
+Epoch 7, weight, value: tensor([[-0.0162, -0.0287,  0.0053,  ...,  0.0312, -0.0428,  0.0110],
+        [ 0.0088, -0.0325, -0.0323,  ..., -0.0203,  0.0123, -0.0347],
+        [ 0.0118,  0.0360, -0.0202,  ..., -0.0399, -0.0283, -0.0110],
+        ...,
+        [-0.0097,  0.0040,  0.0083,  ..., -0.0435, -0.0432,  0.0254],
+        [-0.0218,  0.0257,  0.0320,  ..., -0.0124,  0.0099, -0.0227],
+        [-0.0276, -0.0165,  0.0222,  ...,  0.0070, -0.0200,  0.0186]],
+       device='cuda:0'), grad: tensor([[-5.1842e-03, -2.6017e-05,  9.9182e-04,  ...,  6.9261e-05,
+          9.1028e-04, -1.3313e-03],
+        [ 1.1246e-02,  1.3443e-02,  2.9488e-03,  ...,  1.2599e-05,
+          1.8740e-03,  2.2755e-03],
+        [ 5.3329e-03,  1.4496e-02,  6.5842e-03,  ...,  4.1097e-05,
+          5.6343e-03,  1.4210e-03],
+        ...,
+        [ 5.6915e-03,  5.5923e-03,  5.3501e-04,  ...,  2.8126e-06,
+          1.5879e-03,  1.9398e-03],
+        [-2.5360e-02, -4.3243e-02, -1.6205e-02,  ..., -9.5218e-06,
+         -1.3893e-02, -4.1237e-03],
+        [ 7.5493e-03,  1.8549e-03,  8.3303e-04,  ...,  1.6302e-05,
+          5.2834e-03,  6.4583e-03]], device='cuda:0')
+Epoch 7, bias, value: tensor([ 2.7292e-02, -1.5538e-02, -6.1149e-03,  1.5834e-04, -5.4673e-05,
+        -2.4777e-03, -1.0435e-02, -4.7028e-03,  3.0156e-02,  2.0233e-02],
+       device='cuda:0'), grad: tensor([-0.0057,  0.0148,  0.0147,  0.0049, -0.0163,  0.0052,  0.0021,  0.0110,
+        -0.0480,  0.0173], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 6----------------------------------------------------
+epoch 6, time 275.37, cls_loss 0.1168 cls_loss_mapping 0.1849 cls_loss_causal 1.2598 re_mapping 0.0758 re_causal 0.1636 /// teacc 96.88 lr 0.00010000
+Epoch 8, weight, value: tensor([[-0.0158, -0.0294,  0.0044,  ...,  0.0310, -0.0444,  0.0110],
+        [ 0.0074, -0.0339, -0.0338,  ..., -0.0220,  0.0116, -0.0350],
+        [ 0.0132,  0.0368, -0.0214,  ..., -0.0410, -0.0301, -0.0114],
+        ...,
+        [-0.0093,  0.0043,  0.0080,  ..., -0.0435, -0.0451,  0.0257],
+        [-0.0216,  0.0272,  0.0327,  ..., -0.0151,  0.0102, -0.0243],
+        [-0.0284, -0.0169,  0.0219,  ...,  0.0055, -0.0199,  0.0193]],
+       device='cuda:0'), grad: tensor([[ 1.6117e-04,  1.7271e-03,  3.1128e-03,  ...,  1.2932e-03,
+          2.5558e-03,  1.3103e-03],
+        [ 5.2977e-04,  3.5954e-04,  4.4060e-03,  ...,  1.4436e-04,
+          9.2163e-03,  2.8019e-03],
+        [-2.1954e-03, -2.5630e-04,  7.5340e-04,  ...,  2.2316e-04,
+          7.7629e-04,  3.6025e-04],
+        ...,
+        [-6.0368e-04, -7.8964e-04,  8.6546e-04,  ...,  6.8605e-05,
+          1.1816e-03, -7.6103e-03],
+        [ 5.0640e-04, -1.1462e-04,  1.9646e-03,  ...,  3.8719e-04,
+          3.6583e-03,  2.8534e-03],
+        [ 4.0674e-04, -8.3542e-04,  3.5229e-03,  ...,  1.3733e-04,
+          4.4632e-03,  3.6087e-03]], device='cuda:0')
+Epoch 8, bias, value: tensor([ 2.7674e-02, -1.5673e-02, -6.1870e-03,  6.2555e-04,  1.7484e-05,
+        -2.7191e-03, -1.0810e-02, -4.7630e-03,  3.0345e-02,  2.0064e-02],
+       device='cuda:0'), grad: tensor([ 3.7212e-03,  1.4145e-02, -8.8692e-05, -2.6760e-03,  4.8904e-03,
+        -2.1713e-02, -4.9896e-03, -4.4518e-03,  5.8861e-03,  5.2910e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 7----------------------------------------------------
+epoch 7, time 275.10, cls_loss 0.1027 cls_loss_mapping 0.1569 cls_loss_causal 1.2471 re_mapping 0.0680 re_causal 0.1488 /// teacc 97.03 lr 0.00010000
+Epoch 9, weight, value: tensor([[-0.0156, -0.0299,  0.0031,  ...,  0.0297, -0.0468,  0.0114],
+        [ 0.0063, -0.0354, -0.0353,  ..., -0.0237,  0.0108, -0.0350],
+        [ 0.0142,  0.0367, -0.0226,  ..., -0.0419, -0.0326, -0.0122],
+        ...,
+        [-0.0083,  0.0053,  0.0078,  ..., -0.0443, -0.0463,  0.0264],
+        [-0.0212,  0.0285,  0.0337,  ..., -0.0165,  0.0109, -0.0268],
+        [-0.0298, -0.0172,  0.0215,  ...,  0.0049, -0.0202,  0.0196]],
+       device='cuda:0'), grad: tensor([[ 0.0045,  0.0041,  0.0011,  ...,  0.0008,  0.0015,  0.0043],
+        [ 0.0033,  0.0057,  0.0042,  ...,  0.0010,  0.0025,  0.0004],
+        [-0.0218, -0.0076,  0.0026,  ...,  0.0016,  0.0008,  0.0013],
+        ...,
+        [-0.0017, -0.0050,  0.0027,  ..., -0.0013,  0.0028, -0.0038],
+        [ 0.0105, -0.0063, -0.0068,  ..., -0.0011, -0.0013,  0.0034],
+        [ 0.0126,  0.0043,  0.0100,  ...,  0.0003,  0.0115,  0.0250]],
+       device='cuda:0')
+Epoch 9, bias, value: tensor([ 0.0275, -0.0158, -0.0063,  0.0006,  0.0002, -0.0028, -0.0108, -0.0046,
+         0.0307,  0.0198], device='cuda:0'), grad: tensor([ 0.0071,  0.0078, -0.0177, -0.0286,  0.0060,  0.0042,  0.0003, -0.0055,
+         0.0024,  0.0240], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 8----------------------------------------------------
+epoch 8, time 275.44, cls_loss 0.0948 cls_loss_mapping 0.1475 cls_loss_causal 1.1582 re_mapping 0.0588 re_causal 0.1363 /// teacc 97.49 lr 0.00010000
+Epoch 10, weight, value: tensor([[-0.0159, -0.0307,  0.0018,  ...,  0.0284, -0.0487,  0.0112],
+        [ 0.0049, -0.0366, -0.0364,  ..., -0.0258,  0.0102, -0.0351],
+        [ 0.0153,  0.0370, -0.0241,  ..., -0.0430, -0.0346, -0.0128],
+        ...,
+        [-0.0077,  0.0052,  0.0073,  ..., -0.0423, -0.0474,  0.0269],
+        [-0.0211,  0.0294,  0.0339,  ..., -0.0176,  0.0107, -0.0284],
+        [-0.0296, -0.0169,  0.0213,  ...,  0.0035, -0.0204,  0.0202]],
+       device='cuda:0'), grad: tensor([[-9.4080e-04,  6.1035e-04,  1.6289e-03,  ...,  2.5864e-03,
+          1.5965e-03,  1.2102e-03],
+        [ 2.3592e-04, -1.4675e-04, -1.8759e-03,  ...,  9.8467e-05,
+         -3.3894e-03,  8.9183e-06],
+        [-1.1005e-03,  1.7726e-04,  1.0118e-03,  ...,  5.4932e-04,
+          1.4162e-03,  1.1158e-04],
+        ...,
+        [ 4.2230e-05,  4.5359e-05,  1.6916e-04,  ...,  6.6698e-05,
+          3.3689e-04, -6.2513e-04],
+        [ 1.0502e-04, -3.4027e-03, -3.3131e-03,  ...,  1.8907e-04,
+         -4.8180e-03,  2.4939e-04],
+        [ 5.8460e-04,  2.6584e-04,  4.5967e-04,  ...,  1.7285e-04,
+          1.3924e-04, -2.4247e-04]], device='cuda:0')
+Epoch 10, bias, value: tensor([ 0.0272, -0.0162, -0.0062,  0.0007,  0.0005, -0.0029, -0.0110, -0.0046,
+         0.0307,  0.0201], device='cuda:0'), grad: tensor([ 3.6240e-05, -1.0551e-02,  3.1033e-03,  2.2335e-03,  6.9542e-03,
+         2.2984e-03, -2.6703e-03,  4.8518e-04, -3.0575e-03,  1.1654e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 9, time 259.07, cls_loss 0.0863 cls_loss_mapping 0.1368 cls_loss_causal 1.1418 re_mapping 0.0532 re_causal 0.1240 /// teacc 97.38 lr 0.00010000
+Epoch 11, weight, value: tensor([[-0.0160, -0.0312,  0.0003,  ...,  0.0278, -0.0507,  0.0104],
+        [ 0.0042, -0.0381, -0.0380,  ..., -0.0272,  0.0094, -0.0347],
+        [ 0.0164,  0.0377, -0.0252,  ..., -0.0448, -0.0364, -0.0136],
+        ...,
+        [-0.0072,  0.0056,  0.0071,  ..., -0.0394, -0.0488,  0.0273],
+        [-0.0214,  0.0300,  0.0349,  ..., -0.0188,  0.0113, -0.0301],
+        [-0.0303, -0.0171,  0.0210,  ...,  0.0034, -0.0205,  0.0206]],
+       device='cuda:0'), grad: tensor([[-2.1534e-03, -5.0116e-04,  4.2892e-04,  ...,  1.6057e-04,
+          5.1308e-04, -2.2049e-03],
+        [ 8.5831e-04,  6.3992e-04,  1.8988e-03,  ..., -2.0790e-04,
+          2.4452e-03,  7.0620e-04],
+        [-1.3695e-03, -2.2292e-04,  2.9240e-03,  ...,  4.0960e-04,
+          3.6659e-03,  2.9430e-03],
+        ...,
+        [ 1.2608e-03,  7.4530e-04,  2.9731e-04,  ...,  6.2227e-05,
+          8.0490e-04,  1.6470e-03],
+        [ 3.3307e-04, -2.5196e-03, -1.0853e-03,  ..., -1.3084e-03,
+         -2.2049e-03,  1.9054e-03],
+        [ 1.6022e-04, -1.5306e-04,  8.3590e-04,  ...,  8.1420e-05,
+          3.0041e-04, -3.6693e-04]], device='cuda:0')
+Epoch 11, bias, value: tensor([ 0.0272, -0.0163, -0.0059,  0.0012,  0.0007, -0.0031, -0.0112, -0.0047,
+         0.0305,  0.0200], device='cuda:0'), grad: tensor([-0.0053,  0.0016,  0.0048, -0.0148,  0.0081,  0.0005,  0.0014,  0.0035,
+        -0.0003,  0.0005], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 10----------------------------------------------------
+epoch 10, time 276.13, cls_loss 0.0698 cls_loss_mapping 0.1133 cls_loss_causal 1.0684 re_mapping 0.0501 re_causal 0.1200 /// teacc 97.53 lr 0.00010000
+Epoch 12, weight, value: tensor([[-0.0157, -0.0318, -0.0004,  ...,  0.0270, -0.0518,  0.0098],
+        [ 0.0035, -0.0390, -0.0397,  ..., -0.0275,  0.0083, -0.0343],
+        [ 0.0171,  0.0380, -0.0266,  ..., -0.0450, -0.0378, -0.0143],
+        ...,
+        [-0.0067,  0.0056,  0.0067,  ..., -0.0390, -0.0499,  0.0280],
+        [-0.0209,  0.0313,  0.0360,  ..., -0.0191,  0.0123, -0.0307],
+        [-0.0311, -0.0173,  0.0208,  ...,  0.0027, -0.0206,  0.0210]],
+       device='cuda:0'), grad: tensor([[-1.9658e-04,  5.9307e-05,  6.4611e-05,  ..., -2.8804e-05,
+          7.4029e-05, -7.6115e-05],
+        [ 4.1604e-04,  2.2936e-04,  7.2896e-05,  ...,  1.5704e-07,
+          1.4246e-04,  2.1124e-04],
+        [-1.3828e-04, -2.3472e-04,  2.4080e-04,  ...,  3.2429e-06,
+          2.5415e-04,  3.6740e-04],
+        ...,
+        [-4.5443e-04, -5.1737e-04,  1.2994e-04,  ...,  4.3027e-07,
+          2.0766e-04, -8.0395e-04],
+        [ 3.2616e-04,  2.5225e-04,  4.6062e-04,  ...,  1.8766e-06,
+          4.5991e-04,  4.1175e-04],
+        [ 2.9492e-04,  1.1909e-04,  2.9817e-05,  ...,  1.6894e-06,
+          7.3314e-06,  4.8965e-05]], device='cuda:0')
+Epoch 12, bias, value: tensor([ 0.0273, -0.0163, -0.0058,  0.0009,  0.0006, -0.0032, -0.0116, -0.0046,
+         0.0311,  0.0200], device='cuda:0'), grad: tensor([-4.8041e-04,  3.2449e-04,  7.5960e-04, -1.2484e-03, -7.0906e-04,
+        -7.9393e-05,  5.6791e-04, -2.0337e-04,  8.4162e-04,  2.2495e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 11----------------------------------------------------
+epoch 11, time 275.13, cls_loss 0.0733 cls_loss_mapping 0.1179 cls_loss_causal 1.0573 re_mapping 0.0450 re_causal 0.1138 /// teacc 97.79 lr 0.00010000
+Epoch 13, weight, value: tensor([[-0.0158, -0.0325, -0.0011,  ...,  0.0252, -0.0530,  0.0094],
+        [ 0.0027, -0.0400, -0.0405,  ..., -0.0281,  0.0080, -0.0346],
+        [ 0.0181,  0.0382, -0.0282,  ..., -0.0455, -0.0396, -0.0149],
+        ...,
+        [-0.0066,  0.0057,  0.0059,  ..., -0.0382, -0.0510,  0.0284],
+        [-0.0208,  0.0320,  0.0364,  ..., -0.0200,  0.0124, -0.0319],
+        [-0.0319, -0.0176,  0.0207,  ...,  0.0017, -0.0208,  0.0211]],
+       device='cuda:0'), grad: tensor([[-4.0293e-05,  1.3294e-03,  6.8521e-04,  ...,  2.5063e-03,
+          1.4372e-03,  1.1206e-03],
+        [ 3.0756e-04,  1.4949e-04,  1.5473e-04,  ...,  2.2709e-05,
+          2.1458e-05, -5.8031e-04],
+        [-2.1782e-03,  4.8614e-04,  2.3127e-04,  ...,  8.4758e-05,
+          2.5344e-04,  2.5105e-04],
+        ...,
+        [-1.8482e-03, -2.4815e-03,  2.4700e-04,  ...,  1.1981e-05,
+          2.2495e-04, -3.7346e-03],
+        [-1.3113e-04, -1.0214e-03,  1.0830e-04,  ...,  1.1653e-04,
+         -5.3406e-04,  9.6178e-04],
+        [ 1.0929e-03,  1.1120e-03,  6.8951e-04,  ...,  9.6202e-05,
+          4.7135e-04,  1.5631e-03]], device='cuda:0')
+Epoch 13, bias, value: tensor([ 0.0275, -0.0162, -0.0058,  0.0013,  0.0008, -0.0034, -0.0119, -0.0047,
+         0.0310,  0.0198], device='cuda:0'), grad: tensor([ 2.3193e-03, -1.3065e-03, -5.6601e-04,  3.1261e-03,  1.6251e-03,
+        -2.4681e-03, -1.7252e-03, -2.4624e-03, -2.5451e-05,  1.4830e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 12----------------------------------------------------
+epoch 12, time 275.01, cls_loss 0.0677 cls_loss_mapping 0.1051 cls_loss_causal 1.0156 re_mapping 0.0419 re_causal 0.1046 /// teacc 97.96 lr 0.00010000
+Epoch 14, weight, value: tensor([[-0.0159, -0.0332, -0.0023,  ...,  0.0248, -0.0545,  0.0091],
+        [ 0.0016, -0.0416, -0.0421,  ..., -0.0291,  0.0072, -0.0346],
+        [ 0.0189,  0.0386, -0.0294,  ..., -0.0465, -0.0412, -0.0155],
+        ...,
+        [-0.0064,  0.0063,  0.0051,  ..., -0.0377, -0.0522,  0.0287],
+        [-0.0206,  0.0332,  0.0372,  ..., -0.0213,  0.0130, -0.0323],
+        [-0.0323, -0.0176,  0.0201,  ...,  0.0008, -0.0214,  0.0216]],
+       device='cuda:0'), grad: tensor([[ 1.3990e-03,  7.7133e-03,  4.5547e-03,  ...,  3.2444e-03,
+          4.1695e-03,  1.7941e-04],
+        [ 6.0129e-04,  6.5851e-04,  2.9945e-04,  ...,  8.0943e-05,
+          2.5225e-04,  2.2936e-04],
+        [ 1.3189e-03,  2.4948e-03,  6.9475e-04,  ...,  3.8910e-04,
+          6.5422e-04,  1.1539e-03],
+        ...,
+        [-3.8185e-03, -6.2895e-04,  3.1328e-04,  ...,  2.8044e-05,
+          3.4261e-04, -4.0932e-03],
+        [-1.9951e-03,  2.5024e-03,  1.0941e-02,  ...,  5.8289e-03,
+          1.0803e-02,  8.0681e-04],
+        [-9.2220e-04, -1.0592e-04, -1.7118e-03,  ...,  1.9836e-04,
+         -3.2444e-03, -1.8850e-05]], device='cuda:0')
+Epoch 14, bias, value: tensor([ 0.0275, -0.0166, -0.0059,  0.0011,  0.0013, -0.0034, -0.0121, -0.0048,
+         0.0314,  0.0198], device='cuda:0'), grad: tensor([ 0.0086,  0.0004,  0.0040,  0.0004,  0.0041, -0.0027, -0.0134, -0.0040,
+         0.0061, -0.0036], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 13, time 259.21, cls_loss 0.0587 cls_loss_mapping 0.0894 cls_loss_causal 0.9640 re_mapping 0.0414 re_causal 0.1019 /// teacc 97.94 lr 0.00010000
+Epoch 15, weight, value: tensor([[-0.0162, -0.0341, -0.0034,  ...,  0.0234, -0.0562,  0.0086],
+        [ 0.0008, -0.0426, -0.0431,  ..., -0.0305,  0.0063, -0.0338],
+        [ 0.0196,  0.0385, -0.0310,  ..., -0.0478, -0.0428, -0.0163],
+        ...,
+        [-0.0059,  0.0071,  0.0048,  ..., -0.0376, -0.0526,  0.0290],
+        [-0.0201,  0.0340,  0.0378,  ..., -0.0226,  0.0137, -0.0334],
+        [-0.0327, -0.0175,  0.0196,  ...,  0.0003, -0.0218,  0.0219]],
+       device='cuda:0'), grad: tensor([[-2.4796e-03, -1.9350e-03, -4.6396e-04,  ...,  5.8442e-05,
+          1.6081e-04, -2.4204e-03],
+        [ 4.5705e-04,  1.6272e-04,  1.8334e-04,  ...,  2.9579e-05,
+          1.8096e-04,  2.1964e-05],
+        [ 1.2755e-04,  6.9666e-04,  3.7432e-04,  ...,  3.8892e-05,
+          2.8539e-04,  3.1447e-04],
+        ...,
+        [ 3.2496e-04,  3.2276e-05,  1.6832e-04,  ...,  1.0371e-05,
+          2.5487e-04, -1.5993e-03],
+        [-1.0300e-03, -1.4858e-03, -7.5102e-04,  ...,  7.2062e-05,
+         -7.7200e-04,  2.6107e-04],
+        [ 3.6240e-04,  4.4346e-04,  2.7990e-04,  ...,  3.4750e-05,
+          2.0468e-04,  1.4162e-03]], device='cuda:0')
+Epoch 15, bias, value: tensor([ 0.0273, -0.0165, -0.0061,  0.0010,  0.0010, -0.0032, -0.0121, -0.0047,
+         0.0318,  0.0198], device='cuda:0'), grad: tensor([-0.0072,  0.0001,  0.0013,  0.0072, -0.0003, -0.0020,  0.0002, -0.0007,
+        -0.0009,  0.0023], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 14----------------------------------------------------
+epoch 14, time 273.71, cls_loss 0.0544 cls_loss_mapping 0.0873 cls_loss_causal 0.9824 re_mapping 0.0371 re_causal 0.0995 /// teacc 98.09 lr 0.00010000
+Epoch 16, weight, value: tensor([[-0.0161, -0.0346, -0.0045,  ...,  0.0224, -0.0576,  0.0081],
+        [-0.0001, -0.0436, -0.0440,  ..., -0.0319,  0.0057, -0.0328],
+        [ 0.0200,  0.0387, -0.0328,  ..., -0.0487, -0.0445, -0.0171],
+        ...,
+        [-0.0051,  0.0074,  0.0043,  ..., -0.0373, -0.0536,  0.0296],
+        [-0.0196,  0.0353,  0.0387,  ..., -0.0229,  0.0144, -0.0343],
+        [-0.0337, -0.0178,  0.0194,  ..., -0.0004, -0.0220,  0.0218]],
+       device='cuda:0'), grad: tensor([[ 2.3508e-04,  3.7694e-04,  5.9843e-04,  ...,  1.8251e-04,
+          5.4359e-04,  2.1160e-04],
+        [ 1.4219e-03,  4.7922e-04,  1.7297e-04,  ...,  1.2279e-05,
+          1.6761e-04,  1.3409e-03],
+        [-1.8711e-03, -6.0415e-04,  2.1315e-04,  ...,  1.8567e-05,
+          1.6785e-04,  1.6475e-04],
+        ...,
+        [-2.1744e-03, -8.3065e-04,  5.0735e-04,  ...,  3.1330e-06,
+          4.6039e-04, -3.9368e-03],
+        [-3.4885e-03,  1.0394e-05, -8.5020e-04,  ...,  1.0908e-04,
+          8.2016e-04,  7.2479e-04],
+        [ 8.4543e-04, -1.8082e-03, -3.4943e-03,  ...,  1.7852e-05,
+         -6.1531e-03,  6.4754e-04]], device='cuda:0')
+Epoch 16, bias, value: tensor([ 0.0275, -0.0163, -0.0066,  0.0013,  0.0011, -0.0034, -0.0123, -0.0043,
+         0.0319,  0.0194], device='cuda:0'), grad: tensor([ 0.0008,  0.0022, -0.0034,  0.0082,  0.0017, -0.0023,  0.0025, -0.0035,
+        -0.0007, -0.0055], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 15, time 255.52, cls_loss 0.0535 cls_loss_mapping 0.0839 cls_loss_causal 0.9495 re_mapping 0.0369 re_causal 0.0959 /// teacc 98.03 lr 0.00010000
+Epoch 17, weight, value: tensor([[-0.0161, -0.0355, -0.0055,  ...,  0.0219, -0.0588,  0.0076],
+        [-0.0012, -0.0451, -0.0455,  ..., -0.0341,  0.0048, -0.0325],
+        [ 0.0209,  0.0394, -0.0337,  ..., -0.0489, -0.0461, -0.0179],
+        ...,
+        [-0.0050,  0.0077,  0.0038,  ..., -0.0371, -0.0539,  0.0299],
+        [-0.0194,  0.0363,  0.0394,  ..., -0.0231,  0.0149, -0.0351],
+        [-0.0334, -0.0175,  0.0193,  ..., -0.0017, -0.0222,  0.0220]],
+       device='cuda:0'), grad: tensor([[ 8.1062e-04,  6.0886e-05,  7.7844e-05,  ...,  4.9502e-05,
+          6.5386e-05,  7.7784e-05],
+        [ 9.8646e-05,  1.2493e-04,  9.1553e-05,  ...,  4.6730e-05,
+          9.1672e-05, -7.5054e-04],
+        [-5.7869e-03,  1.0622e-04,  5.1498e-05,  ...,  3.4809e-05,
+          6.2287e-05,  4.8709e-04],
+        ...,
+        [-2.0826e-04, -6.9618e-04,  2.2948e-04,  ..., -5.6401e-06,
+          7.0989e-05,  4.9925e-04],
+        [ 2.9016e-04,  1.0705e-04,  2.0409e-04,  ...,  6.8903e-05,
+          1.7440e-04,  2.5558e-04],
+        [ 2.2678e-03,  7.3075e-05,  2.8000e-03,  ...,  1.7270e-05,
+          1.6174e-03,  5.2071e-03]], device='cuda:0')
+Epoch 17, bias, value: tensor([ 0.0273, -0.0166, -0.0061,  0.0014,  0.0010, -0.0038, -0.0124, -0.0043,
+         0.0318,  0.0197], device='cuda:0'), grad: tensor([ 0.0008, -0.0011, -0.0052,  0.0041, -0.0101, -0.0021, -0.0001,  0.0015,
+         0.0007,  0.0117], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 16----------------------------------------------------
+epoch 16, time 266.73, cls_loss 0.0541 cls_loss_mapping 0.0815 cls_loss_causal 0.9760 re_mapping 0.0351 re_causal 0.0910 /// teacc 98.33 lr 0.00010000
+Epoch 18, weight, value: tensor([[-0.0158, -0.0360, -0.0063,  ...,  0.0210, -0.0598,  0.0075],
+        [-0.0024, -0.0461, -0.0466,  ..., -0.0349,  0.0040, -0.0329],
+        [ 0.0219,  0.0398, -0.0343,  ..., -0.0492, -0.0470, -0.0183],
+        ...,
+        [-0.0045,  0.0082,  0.0036,  ..., -0.0362, -0.0550,  0.0306],
+        [-0.0193,  0.0369,  0.0397,  ..., -0.0231,  0.0153, -0.0363],
+        [-0.0340, -0.0176,  0.0191,  ..., -0.0032, -0.0221,  0.0221]],
+       device='cuda:0'), grad: tensor([[-1.6904e-04,  2.6059e-04,  1.0478e-04,  ...,  1.0207e-05,
+          1.5473e-04, -2.7204e-04],
+        [ 1.5950e-04,  2.2149e-04,  1.3673e-04,  ...,  1.3456e-05,
+         -3.1638e-04, -5.9843e-04],
+        [-1.1053e-03, -4.2844e-04,  1.3351e-04,  ...,  1.8314e-05,
+          3.8862e-04,  5.2977e-04],
+        ...,
+        [ 1.2720e-04,  4.7088e-04,  1.1027e-04,  ...,  2.7604e-06,
+          2.4080e-04,  7.0286e-04],
+        [ 2.1291e-04,  1.5929e-05,  8.6010e-05,  ...,  2.0254e-04,
+          1.2672e-04,  5.3930e-04],
+        [-9.3341e-05, -2.0313e-03,  6.1846e-04,  ...,  1.6630e-05,
+         -1.5008e-04, -2.4643e-03]], device='cuda:0')
+Epoch 18, bias, value: tensor([ 0.0274, -0.0172, -0.0061,  0.0014,  0.0010, -0.0037, -0.0125, -0.0038,
+         0.0319,  0.0197], device='cuda:0'), grad: tensor([-1.1120e-03, -1.1749e-03, -3.9399e-05,  4.1175e-04,  2.1667e-03,
+        -2.9516e-04,  1.1129e-03,  1.4925e-03,  9.9182e-04, -3.5572e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 17, time 248.92, cls_loss 0.0422 cls_loss_mapping 0.0719 cls_loss_causal 0.9324 re_mapping 0.0328 re_causal 0.0915 /// teacc 98.31 lr 0.00010000
+Epoch 19, weight, value: tensor([[-0.0159, -0.0364, -0.0071,  ...,  0.0199, -0.0609,  0.0074],
+        [-0.0032, -0.0469, -0.0471,  ..., -0.0355,  0.0037, -0.0324],
+        [ 0.0227,  0.0400, -0.0353,  ..., -0.0498, -0.0484, -0.0187],
+        ...,
+        [-0.0047,  0.0080,  0.0031,  ..., -0.0358, -0.0558,  0.0310],
+        [-0.0188,  0.0376,  0.0405,  ..., -0.0242,  0.0158, -0.0372],
+        [-0.0344, -0.0175,  0.0184,  ..., -0.0034, -0.0229,  0.0222]],
+       device='cuda:0'), grad: tensor([[-1.3781e-03,  4.9293e-05,  1.1772e-04,  ..., -8.6010e-05,
+          9.2566e-05, -7.7009e-04],
+        [ 5.9456e-05,  1.5724e-04,  2.1446e-04,  ...,  3.7163e-05,
+          1.6594e-04, -1.8701e-05],
+        [ 2.9325e-04,  8.0764e-05,  5.5403e-05,  ...,  3.3051e-05,
+          4.4674e-05,  1.9526e-04],
+        ...,
+        [ 3.6764e-04, -1.5700e-04,  2.8923e-05,  ...,  1.3009e-05,
+          3.3170e-05,  3.9268e-04],
+        [ 6.3539e-05, -3.9291e-04, -3.4118e-04,  ...,  1.3554e-04,
+         -1.8382e-04,  1.4913e-04],
+        [ 7.1228e-05, -6.2287e-05,  1.4293e-04,  ...,  4.0114e-05,
+          7.3671e-05, -1.8253e-03]], device='cuda:0')
+Epoch 19, bias, value: tensor([ 0.0275, -0.0172, -0.0063,  0.0017,  0.0011, -0.0038, -0.0127, -0.0041,
+         0.0320,  0.0197], device='cuda:0'), grad: tensor([-2.4071e-03,  1.0598e-04,  6.0320e-04,  1.0967e-03,  1.0214e-03,
+        -9.9301e-05,  5.5981e-04,  1.1187e-03, -2.9898e-04, -1.6975e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 18, time 248.69, cls_loss 0.0388 cls_loss_mapping 0.0684 cls_loss_causal 0.9245 re_mapping 0.0321 re_causal 0.0886 /// teacc 97.92 lr 0.00010000
+Epoch 20, weight, value: tensor([[-0.0160, -0.0373, -0.0083,  ...,  0.0188, -0.0621,  0.0071],
+        [-0.0038, -0.0477, -0.0477,  ..., -0.0358,  0.0035, -0.0314],
+        [ 0.0234,  0.0403, -0.0359,  ..., -0.0505, -0.0495, -0.0199],
+        ...,
+        [-0.0044,  0.0083,  0.0027,  ..., -0.0351, -0.0565,  0.0316],
+        [-0.0189,  0.0384,  0.0411,  ..., -0.0240,  0.0163, -0.0382],
+        [-0.0349, -0.0175,  0.0182,  ..., -0.0042, -0.0230,  0.0225]],
+       device='cuda:0'), grad: tensor([[-1.2422e-04,  2.4155e-05,  3.8862e-05,  ...,  2.3797e-05,
+          4.2737e-05,  7.8380e-06],
+        [ 8.8334e-05, -1.2636e-04,  1.9193e-04,  ...,  1.5363e-05,
+          3.2043e-04, -4.8685e-04],
+        [ 2.4915e-04,  2.8706e-04,  2.3627e-04,  ...,  3.6955e-05,
+          4.0126e-04,  5.2261e-04],
+        ...,
+        [-2.1803e-04,  1.2048e-05,  2.0432e-04,  ...,  1.1012e-05,
+          4.2081e-04,  4.2653e-04],
+        [ 1.6057e-04,  3.1185e-04,  2.1636e-04,  ...,  1.0586e-04,
+          2.8443e-04,  3.0160e-04],
+        [-1.1463e-03, -1.4400e-03, -7.0453e-05,  ...,  2.1845e-05,
+         -7.5626e-04, -7.3242e-04]], device='cuda:0')
+Epoch 20, bias, value: tensor([ 0.0271, -0.0169, -0.0065,  0.0018,  0.0014, -0.0037, -0.0127, -0.0039,
+         0.0320,  0.0195], device='cuda:0'), grad: tensor([-0.0004, -0.0009,  0.0012, -0.0014,  0.0010,  0.0003,  0.0009,  0.0013,
+         0.0007, -0.0028], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 19----------------------------------------------------
+epoch 19, time 265.54, cls_loss 0.0465 cls_loss_mapping 0.0705 cls_loss_causal 0.9298 re_mapping 0.0297 re_causal 0.0807 /// teacc 98.35 lr 0.00010000
+Epoch 21, weight, value: tensor([[-0.0163, -0.0379, -0.0095,  ...,  0.0180, -0.0633,  0.0068],
+        [-0.0052, -0.0483, -0.0485,  ..., -0.0367,  0.0028, -0.0321],
+        [ 0.0241,  0.0399, -0.0372,  ..., -0.0516, -0.0506, -0.0204],
+        ...,
+        [-0.0037,  0.0087,  0.0021,  ..., -0.0348, -0.0574,  0.0326],
+        [-0.0186,  0.0392,  0.0417,  ..., -0.0247,  0.0166, -0.0391],
+        [-0.0353, -0.0175,  0.0176,  ..., -0.0050, -0.0234,  0.0225]],
+       device='cuda:0'), grad: tensor([[-9.7036e-04, -3.2640e-04,  6.1870e-05,  ...,  3.1501e-05,
+         -1.2577e-04,  5.6565e-05],
+        [ 5.3465e-05,  1.5843e-04,  1.9825e-04,  ...,  1.5843e-04,
+          8.2016e-05,  8.2180e-06],
+        [ 1.0210e-04,  6.5029e-05,  1.0157e-04,  ...,  4.9949e-05,
+          6.1154e-05,  8.2195e-05],
+        ...,
+        [ 3.2544e-05,  4.5681e-04,  8.6784e-04,  ...,  3.0518e-04,
+          3.1543e-04,  1.0329e-04],
+        [ 9.1553e-05, -4.6587e-04, -4.8685e-04,  ...,  7.5698e-05,
+         -1.9121e-04,  1.8632e-04],
+        [ 1.8704e-04, -1.8001e-04,  2.7370e-04,  ...,  1.1414e-04,
+          3.3522e-04, -8.9264e-04]], device='cuda:0')
+Epoch 21, bias, value: tensor([ 0.0268, -0.0176, -0.0064,  0.0013,  0.0015, -0.0030, -0.0129, -0.0034,
+         0.0319,  0.0196], device='cuda:0'), grad: tensor([-1.6756e-03,  5.9652e-04,  4.3035e-04,  8.8632e-05, -6.3782e-03,
+         1.2884e-03,  3.1605e-03,  1.9875e-03,  7.6199e-04, -2.6464e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 20----------------------------------------------------
+epoch 20, time 265.11, cls_loss 0.0410 cls_loss_mapping 0.0690 cls_loss_causal 0.8732 re_mapping 0.0294 re_causal 0.0804 /// teacc 98.45 lr 0.00010000
+Epoch 22, weight, value: tensor([[-0.0159, -0.0382, -0.0100,  ...,  0.0174, -0.0642,  0.0067],
+        [-0.0061, -0.0493, -0.0493,  ..., -0.0380,  0.0025, -0.0327],
+        [ 0.0245,  0.0401, -0.0379,  ..., -0.0521, -0.0516, -0.0204],
+        ...,
+        [-0.0034,  0.0086,  0.0019,  ..., -0.0343, -0.0583,  0.0327],
+        [-0.0182,  0.0399,  0.0419,  ..., -0.0259,  0.0168, -0.0396],
+        [-0.0352, -0.0175,  0.0175,  ..., -0.0057, -0.0237,  0.0234]],
+       device='cuda:0'), grad: tensor([[ 3.5262e-04,  8.0156e-04,  1.1501e-03,  ...,  4.7684e-04,
+          7.1669e-04,  4.0317e-04],
+        [ 4.8614e-04,  4.9162e-04,  1.4758e-04,  ...,  6.2771e-06,
+          1.7190e-04,  1.9085e-04],
+        [ 7.7209e-03,  6.3438e-03,  1.5914e-04,  ...,  5.8934e-06,
+          1.8752e-04,  5.5504e-03],
+        ...,
+        [-1.5793e-02, -1.2459e-02,  6.7353e-05,  ...,  1.3132e-06,
+         -2.8777e-04, -1.1002e-02],
+        [ 6.0511e-04,  6.8724e-05, -4.5848e-04,  ...,  1.1516e-04,
+         -4.6206e-04,  8.1968e-04],
+        [ 6.4087e-04,  3.4547e-04,  2.5797e-04,  ...,  3.8058e-05,
+          2.8110e-04,  2.1100e-04]], device='cuda:0')
+Epoch 22, bias, value: tensor([ 0.0270, -0.0180, -0.0064,  0.0011,  0.0014, -0.0029, -0.0132, -0.0034,
+         0.0319,  0.0201], device='cuda:0'), grad: tensor([ 0.0016,  0.0005,  0.0100,  0.0068,  0.0002,  0.0020, -0.0024, -0.0201,
+         0.0010,  0.0003], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 21, time 248.71, cls_loss 0.0329 cls_loss_mapping 0.0601 cls_loss_causal 0.8950 re_mapping 0.0283 re_causal 0.0801 /// teacc 98.33 lr 0.00010000
+Epoch 23, weight, value: tensor([[-0.0154, -0.0385, -0.0106,  ...,  0.0164, -0.0652,  0.0066],
+        [-0.0070, -0.0502, -0.0500,  ..., -0.0389,  0.0021, -0.0320],
+        [ 0.0254,  0.0405, -0.0382,  ..., -0.0527, -0.0527, -0.0211],
+        ...,
+        [-0.0031,  0.0091,  0.0014,  ..., -0.0345, -0.0588,  0.0330],
+        [-0.0182,  0.0404,  0.0422,  ..., -0.0264,  0.0171, -0.0407],
+        [-0.0357, -0.0178,  0.0168,  ..., -0.0051, -0.0241,  0.0238]],
+       device='cuda:0'), grad: tensor([[ 6.5923e-05,  3.4118e-04,  1.9467e-04,  ...,  9.7334e-05,
+          7.2300e-05,  7.4983e-05],
+        [ 2.6393e-04,  2.5797e-04,  1.5342e-04,  ...,  4.2140e-05,
+          5.9158e-05, -1.8568e-03],
+        [-1.5659e-03, -2.5787e-03, -8.6737e-04,  ..., -7.2336e-04,
+          4.8757e-05,  2.1279e-04],
+        ...,
+        [-4.4560e-04, -6.5851e-04,  1.0610e-04,  ...,  3.5703e-05,
+          5.7638e-05, -6.3753e-04],
+        [-5.2834e-04, -1.8835e-03, -1.9093e-03,  ...,  1.7679e-04,
+         -1.7004e-03,  1.1510e-04],
+        [ 1.0519e-03,  2.4071e-03,  1.5182e-03,  ...,  2.9802e-05,
+          1.1587e-03,  7.0286e-04]], device='cuda:0')
+Epoch 23, bias, value: tensor([ 0.0273, -0.0177, -0.0065,  0.0010,  0.0019, -0.0029, -0.0136, -0.0036,
+         0.0317,  0.0201], device='cuda:0'), grad: tensor([ 0.0002, -0.0016, -0.0040,  0.0045,  0.0010, -0.0024,  0.0012, -0.0007,
+        -0.0017,  0.0036], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 22----------------------------------------------------
+epoch 22, time 265.08, cls_loss 0.0302 cls_loss_mapping 0.0552 cls_loss_causal 0.8820 re_mapping 0.0280 re_causal 0.0819 /// teacc 98.52 lr 0.00010000
+Epoch 24, weight, value: tensor([[-0.0156, -0.0393, -0.0121,  ...,  0.0154, -0.0668,  0.0063],
+        [-0.0079, -0.0510, -0.0506,  ..., -0.0395,  0.0017, -0.0316],
+        [ 0.0258,  0.0405, -0.0390,  ..., -0.0535, -0.0539, -0.0217],
+        ...,
+        [-0.0031,  0.0093,  0.0009,  ..., -0.0326, -0.0594,  0.0335],
+        [-0.0181,  0.0411,  0.0426,  ..., -0.0263,  0.0175, -0.0417],
+        [-0.0355, -0.0175,  0.0166,  ..., -0.0067, -0.0242,  0.0242]],
+       device='cuda:0'), grad: tensor([[ 1.9288e-04,  3.1853e-04,  4.6849e-04,  ...,  2.2495e-04,
+          3.4189e-04,  1.9097e-04],
+        [ 1.0002e-04,  9.2566e-05,  6.3598e-05,  ...,  1.1608e-05,
+          6.3777e-05, -1.6987e-04],
+        [-3.0441e-03, -2.3632e-03, -6.2180e-04,  ...,  1.3955e-05,
+         -3.0875e-04,  5.2392e-05],
+        ...,
+        [-1.4620e-03, -1.3533e-03,  4.2647e-05,  ...,  2.0321e-06,
+          4.6700e-05, -1.4238e-03],
+        [ 1.9369e-03,  1.5869e-03,  6.4135e-04,  ...,  8.5175e-05,
+          4.6968e-04,  1.0777e-04],
+        [ 1.5059e-03,  1.3914e-03,  2.5177e-04,  ...,  1.3500e-05,
+          3.3808e-04,  1.3018e-03]], device='cuda:0')
+Epoch 24, bias, value: tensor([ 0.0270, -0.0176, -0.0065,  0.0010,  0.0020, -0.0025, -0.0137, -0.0037,
+         0.0315,  0.0203], device='cuda:0'), grad: tensor([ 6.6519e-04, -7.0751e-05, -3.8586e-03,  2.3317e-04, -4.5433e-03,
+         6.1846e-04, -8.1968e-04, -1.2159e-03,  3.2139e-03,  5.7793e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 23, time 248.33, cls_loss 0.0266 cls_loss_mapping 0.0512 cls_loss_causal 0.8695 re_mapping 0.0272 re_causal 0.0773 /// teacc 98.31 lr 0.00010000
+Epoch 25, weight, value: tensor([[-0.0154, -0.0398, -0.0129,  ...,  0.0145, -0.0677,  0.0059],
+        [-0.0084, -0.0520, -0.0520,  ..., -0.0406,  0.0009, -0.0303],
+        [ 0.0262,  0.0408, -0.0399,  ..., -0.0541, -0.0552, -0.0226],
+        ...,
+        [-0.0026,  0.0099,  0.0003,  ..., -0.0311, -0.0600,  0.0339],
+        [-0.0181,  0.0417,  0.0429,  ..., -0.0270,  0.0178, -0.0423],
+        [-0.0359, -0.0175,  0.0166,  ..., -0.0070, -0.0242,  0.0242]],
+       device='cuda:0'), grad: tensor([[-1.1568e-03,  1.0633e-04, -1.7405e-03,  ..., -2.3818e-04,
+         -5.8746e-04, -1.0653e-03],
+        [ 1.2720e-04,  1.5497e-04,  1.9348e-04,  ...,  3.5197e-05,
+          2.1064e-04, -1.2266e-06],
+        [ 8.9884e-04,  1.0729e-03,  8.0633e-04,  ...,  9.1672e-05,
+          8.7547e-04,  8.9169e-05],
+        ...,
+        [ 2.8992e-04,  2.1660e-04,  2.5606e-04,  ...,  9.4593e-05,
+          1.8406e-04,  3.6263e-04],
+        [-1.6766e-03, -2.2373e-03, -1.6623e-03,  ...,  4.2647e-05,
+         -1.6565e-03, -8.2910e-05],
+        [ 1.9705e-04,  1.9133e-04,  7.5531e-04,  ...,  5.4926e-05,
+          5.6982e-04, -3.4118e-04]], device='cuda:0')
+Epoch 25, bias, value: tensor([ 0.0270, -0.0174, -0.0067,  0.0014,  0.0019, -0.0025, -0.0139, -0.0035,
+         0.0314,  0.0200], device='cuda:0'), grad: tensor([-3.1815e-03,  3.1400e-04,  1.5593e-03,  1.1311e-03,  6.0111e-05,
+         1.6904e-04,  1.0319e-03,  8.1491e-04, -2.4586e-03,  5.5885e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 24, time 248.55, cls_loss 0.0304 cls_loss_mapping 0.0529 cls_loss_causal 0.8876 re_mapping 0.0261 re_causal 0.0764 /// teacc 97.92 lr 0.00010000
+Epoch 26, weight, value: tensor([[-0.0151, -0.0408, -0.0136,  ...,  0.0138, -0.0688,  0.0056],
+        [-0.0094, -0.0527, -0.0527,  ..., -0.0415,  0.0006, -0.0300],
+        [ 0.0267,  0.0410, -0.0407,  ..., -0.0547, -0.0564, -0.0229],
+        ...,
+        [-0.0025,  0.0103, -0.0002,  ..., -0.0309, -0.0605,  0.0341],
+        [-0.0174,  0.0425,  0.0436,  ..., -0.0273,  0.0184, -0.0432],
+        [-0.0362, -0.0181,  0.0160,  ..., -0.0077, -0.0247,  0.0243]],
+       device='cuda:0'), grad: tensor([[ 7.2837e-05,  1.9276e-04,  2.7373e-05,  ...,  5.1379e-05,
+          6.6459e-05,  8.2374e-05],
+        [ 2.9278e-04,  4.7493e-04,  1.5289e-05,  ...,  6.7428e-06,
+          1.0240e-04,  2.4915e-04],
+        [ 9.8133e-04,  1.3819e-03,  1.5542e-05,  ...,  1.0543e-05,
+          4.1127e-04,  1.1082e-03],
+        ...,
+        [-7.2575e-04, -1.4744e-03,  1.0200e-05,  ...,  2.6100e-07,
+          2.3472e-04, -9.4080e-04],
+        [ 4.9353e-04,  6.6566e-04,  9.0718e-05,  ...,  5.1647e-05,
+          4.2319e-04,  4.2772e-04],
+        [ 1.7190e-04, -8.9854e-06,  1.4269e-04,  ...,  2.7977e-06,
+          5.5456e-04, -1.9205e-04]], device='cuda:0')
+Epoch 26, bias, value: tensor([ 0.0270, -0.0174, -0.0068,  0.0013,  0.0025, -0.0030, -0.0137, -0.0035,
+         0.0318,  0.0196], device='cuda:0'), grad: tensor([ 1.9646e-04,  6.7043e-04,  2.3174e-03, -3.3455e-03, -1.5345e-03,
+         3.9905e-05,  2.0593e-05, -1.4534e-03,  1.4467e-03,  1.6403e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 25----------------------------------------------------
+epoch 25, time 264.65, cls_loss 0.0275 cls_loss_mapping 0.0484 cls_loss_causal 0.8157 re_mapping 0.0243 re_causal 0.0696 /// teacc 98.56 lr 0.00010000
+Epoch 27, weight, value: tensor([[-0.0147, -0.0416, -0.0145,  ...,  0.0127, -0.0697,  0.0053],
+        [-0.0105, -0.0538, -0.0533,  ..., -0.0422,  0.0002, -0.0298],
+        [ 0.0275,  0.0416, -0.0414,  ..., -0.0551, -0.0572, -0.0236],
+        ...,
+        [-0.0024,  0.0104, -0.0006,  ..., -0.0310, -0.0613,  0.0346],
+        [-0.0170,  0.0430,  0.0441,  ..., -0.0270,  0.0189, -0.0434],
+        [-0.0366, -0.0178,  0.0156,  ..., -0.0074, -0.0251,  0.0244]],
+       device='cuda:0'), grad: tensor([[ 2.6870e-04,  2.1863e-04,  2.1017e-04,  ...,  6.9797e-05,
+          1.2970e-04,  1.6117e-04],
+        [-3.7789e-04, -2.7180e-04, -2.0385e-04,  ...,  4.2319e-05,
+          8.8096e-05, -2.9888e-03],
+        [ 3.2020e-04, -2.2876e-04,  2.8992e-04,  ..., -6.6817e-05,
+          4.7612e-04,  1.0691e-03],
+        ...,
+        [ 2.7313e-03,  2.8419e-03,  2.5892e-04,  ...,  1.5944e-05,
+          3.6430e-04,  2.2526e-03],
+        [ 1.8959e-03,  2.5539e-03,  3.0518e-03,  ...,  1.5783e-03,
+          2.0542e-03,  1.4973e-03],
+        [ 1.5383e-03,  1.3189e-03, -9.0122e-04,  ...,  1.4193e-05,
+         -3.7217e-04,  4.2319e-04]], device='cuda:0')
+Epoch 27, bias, value: tensor([ 0.0269, -0.0175, -0.0065,  0.0010,  0.0022, -0.0025, -0.0137, -0.0033,
+         0.0319,  0.0193], device='cuda:0'), grad: tensor([ 0.0006, -0.0063,  0.0019, -0.0033, -0.0092,  0.0023, -0.0027,  0.0066,
+         0.0058,  0.0042], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 26----------------------------------------------------
+epoch 26, time 266.96, cls_loss 0.0283 cls_loss_mapping 0.0480 cls_loss_causal 0.8021 re_mapping 0.0240 re_causal 0.0671 /// teacc 98.64 lr 0.00010000
+Epoch 28, weight, value: tensor([[-0.0148, -0.0420, -0.0153,  ...,  0.0122, -0.0707,  0.0052],
+        [-0.0114, -0.0547, -0.0539,  ..., -0.0427, -0.0003, -0.0297],
+        [ 0.0283,  0.0424, -0.0412,  ..., -0.0560, -0.0576, -0.0238],
+        ...,
+        [-0.0019,  0.0105, -0.0013,  ..., -0.0304, -0.0627,  0.0350],
+        [-0.0171,  0.0436,  0.0447,  ..., -0.0264,  0.0194, -0.0441],
+        [-0.0370, -0.0178,  0.0154,  ..., -0.0079, -0.0253,  0.0244]],
+       device='cuda:0'), grad: tensor([[-1.4496e-03,  4.0442e-05,  1.0258e-04,  ...,  2.4110e-05,
+          3.5912e-05, -5.0211e-04],
+        [ 9.3102e-05,  3.8326e-05,  3.6180e-05,  ...,  3.6508e-06,
+          4.6134e-05,  1.7464e-05],
+        [ 2.7275e-04, -1.7929e-04,  3.0443e-05,  ..., -6.2771e-07,
+          5.2184e-05,  3.0565e-04],
+        ...,
+        [ 5.5611e-05,  3.9697e-05,  5.5224e-05,  ...,  7.2420e-06,
+          6.0439e-05, -1.5378e-04],
+        [ 4.2105e-04,  8.3804e-05,  3.6240e-04,  ...,  6.2287e-05,
+          3.2258e-04,  2.5177e-04],
+        [-4.5240e-05, -1.0157e-04,  6.4731e-05,  ...,  1.6332e-05,
+          4.2379e-05, -7.9423e-06]], device='cuda:0')
+Epoch 28, bias, value: tensor([ 0.0267, -0.0177, -0.0063,  0.0009,  0.0024, -0.0023, -0.0141, -0.0030,
+         0.0317,  0.0193], device='cuda:0'), grad: tensor([-1.6499e-03,  8.7619e-05,  3.5143e-04,  2.0771e-03,  4.3511e-04,
+        -2.7428e-03,  5.1260e-04,  1.5521e-04,  7.5006e-04,  2.3097e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 27, time 249.27, cls_loss 0.0229 cls_loss_mapping 0.0445 cls_loss_causal 0.7922 re_mapping 0.0240 re_causal 0.0684 /// teacc 98.44 lr 0.00010000
+Epoch 29, weight, value: tensor([[-0.0150, -0.0426, -0.0161,  ...,  0.0116, -0.0715,  0.0048],
+        [-0.0124, -0.0554, -0.0541,  ..., -0.0433, -0.0003, -0.0296],
+        [ 0.0288,  0.0426, -0.0423,  ..., -0.0566, -0.0592, -0.0245],
+        ...,
+        [-0.0017,  0.0108, -0.0019,  ..., -0.0298, -0.0635,  0.0355],
+        [-0.0168,  0.0441,  0.0452,  ..., -0.0270,  0.0197, -0.0449],
+        [-0.0371, -0.0179,  0.0154,  ..., -0.0085, -0.0253,  0.0247]],
+       device='cuda:0'), grad: tensor([[ 1.4019e-03,  1.5793e-03,  8.0729e-04,  ...,  1.2316e-05,
+          6.7234e-04,  1.0834e-03],
+        [ 7.3624e-04,  5.3453e-04,  1.8799e-04,  ...,  9.7454e-06,
+          1.7715e-04, -3.5495e-05],
+        [-1.0681e-03, -6.6805e-04,  3.8552e-04,  ...,  1.4432e-05,
+          3.1400e-04,  3.3045e-04],
+        ...,
+        [ 3.8433e-04,  4.2272e-04,  2.9731e-04,  ...,  1.2010e-05,
+          2.8872e-04,  2.0826e-04],
+        [ 2.9297e-03,  2.1114e-03,  3.6774e-03,  ...,  2.8539e-04,
+          2.6093e-03,  2.2125e-03],
+        [-6.7940e-03, -7.9346e-03, -1.9550e-03,  ...,  7.2479e-05,
+         -1.2817e-03, -9.5520e-03]], device='cuda:0')
+Epoch 29, bias, value: tensor([ 0.0265, -0.0177, -0.0063,  0.0012,  0.0027, -0.0022, -0.0144, -0.0029,
+         0.0317,  0.0191], device='cuda:0'), grad: tensor([ 0.0025,  0.0012, -0.0020,  0.0033,  0.0146, -0.0112,  0.0032,  0.0008,
+         0.0064, -0.0189], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 28----------------------------------------------------
+epoch 28, time 266.38, cls_loss 0.0319 cls_loss_mapping 0.0554 cls_loss_causal 0.8528 re_mapping 0.0215 re_causal 0.0646 /// teacc 98.72 lr 0.00010000
+Epoch 30, weight, value: tensor([[-0.0147, -0.0433, -0.0163,  ...,  0.0112, -0.0725,  0.0047],
+        [-0.0132, -0.0565, -0.0553,  ..., -0.0439, -0.0012, -0.0297],
+        [ 0.0293,  0.0429, -0.0431,  ..., -0.0569, -0.0604, -0.0250],
+        ...,
+        [-0.0015,  0.0109, -0.0024,  ..., -0.0297, -0.0640,  0.0355],
+        [-0.0168,  0.0445,  0.0453,  ..., -0.0274,  0.0200, -0.0457],
+        [-0.0371, -0.0177,  0.0151,  ..., -0.0088, -0.0257,  0.0251]],
+       device='cuda:0'), grad: tensor([[-1.7309e-03, -1.4868e-03,  3.8117e-05,  ...,  5.2340e-06,
+          5.0843e-05, -1.2608e-03],
+        [ 2.5272e-04,  1.0693e-04, -3.0351e-04,  ..., -1.0028e-05,
+         -3.1924e-04, -5.7411e-04],
+        [ 2.2106e-03,  1.3380e-03,  7.4089e-05,  ...,  1.9129e-06,
+          6.6161e-05,  1.3008e-03],
+        ...,
+        [-2.4853e-03, -1.7023e-03,  1.7571e-04,  ...,  1.7239e-06,
+          1.3912e-04, -2.2411e-03],
+        [ 4.1652e-04,  2.5964e-04,  2.9016e-04,  ...,  7.9051e-06,
+          2.1601e-04,  8.4209e-04],
+        [ 7.5912e-04,  5.1165e-04,  1.7381e-04,  ...,  7.4133e-07,
+          6.4611e-05,  4.2558e-04]], device='cuda:0')
+Epoch 30, bias, value: tensor([ 0.0262, -0.0181, -0.0066,  0.0013,  0.0025, -0.0019, -0.0146, -0.0027,
+         0.0317,  0.0195], device='cuda:0'), grad: tensor([-0.0037, -0.0011,  0.0052,  0.0029, -0.0037, -0.0008,  0.0009, -0.0035,
+         0.0020,  0.0019], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 29, time 250.53, cls_loss 0.0205 cls_loss_mapping 0.0383 cls_loss_causal 0.7987 re_mapping 0.0232 re_causal 0.0671 /// teacc 98.57 lr 0.00010000
+Epoch 31, weight, value: tensor([[-0.0142, -0.0437, -0.0172,  ...,  0.0101, -0.0734,  0.0042],
+        [-0.0140, -0.0576, -0.0563,  ..., -0.0442, -0.0019, -0.0296],
+        [ 0.0299,  0.0428, -0.0443,  ..., -0.0577, -0.0614, -0.0256],
+        ...,
+        [-0.0016,  0.0106, -0.0029,  ..., -0.0297, -0.0651,  0.0356],
+        [-0.0160,  0.0459,  0.0462,  ..., -0.0272,  0.0208, -0.0456],
+        [-0.0373, -0.0176,  0.0148,  ..., -0.0091, -0.0259,  0.0253]],
+       device='cuda:0'), grad: tensor([[-3.7994e-03, -3.8643e-03,  1.5986e-04,  ...,  9.9361e-05,
+         -6.7949e-04,  6.1095e-05],
+        [ 1.6994e-03,  2.1534e-03,  2.0921e-04,  ...,  1.9982e-05,
+          6.5136e-04,  7.4685e-05],
+        [ 6.5041e-04,  7.1239e-04,  1.2374e-04,  ...,  5.1975e-05,
+          2.5201e-04,  6.1154e-05],
+        ...,
+        [-6.6710e-04, -5.5075e-04,  9.0301e-05,  ...,  3.2671e-06,
+          1.2982e-04, -6.3133e-04],
+        [-8.6665e-05, -3.4595e-04, -7.9060e-04,  ...,  6.2585e-05,
+         -8.4734e-04,  1.5366e-04],
+        [ 6.9046e-04,  5.4932e-04,  5.0306e-04,  ...,  1.6898e-05,
+          6.4993e-04,  2.5511e-04]], device='cuda:0')
+Epoch 31, bias, value: tensor([ 0.0261, -0.0186, -0.0062,  0.0012,  0.0027, -0.0018, -0.0148, -0.0030,
+         0.0323,  0.0194], device='cuda:0'), grad: tensor([-1.3702e-02, -4.4405e-05,  2.4719e-03, -5.6601e-04,  6.9923e-03,
+         1.5545e-03,  1.6031e-03, -3.6335e-04,  6.5804e-05,  1.9855e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 30, time 251.03, cls_loss 0.0239 cls_loss_mapping 0.0422 cls_loss_causal 0.8037 re_mapping 0.0220 re_causal 0.0649 /// teacc 98.72 lr 0.00010000
+Epoch 32, weight, value: tensor([[-0.0129, -0.0440, -0.0177,  ...,  0.0088, -0.0743,  0.0045],
+        [-0.0147, -0.0583, -0.0575,  ..., -0.0459, -0.0028, -0.0292],
+        [ 0.0302,  0.0431, -0.0445,  ..., -0.0582, -0.0615, -0.0261],
+        ...,
+        [-0.0015,  0.0108, -0.0034,  ..., -0.0290, -0.0658,  0.0358],
+        [-0.0158,  0.0465,  0.0465,  ..., -0.0277,  0.0212, -0.0461],
+        [-0.0376, -0.0175,  0.0147,  ..., -0.0097, -0.0260,  0.0253]],
+       device='cuda:0'), grad: tensor([[ 7.9334e-05,  1.2732e-04,  1.9228e-04,  ...,  8.9258e-06,
+          2.3615e-04,  2.9588e-04],
+        [-5.2738e-04, -6.5184e-04, -8.2636e-04,  ...,  3.5614e-06,
+         -1.3819e-03, -2.2545e-03],
+        [ 1.5426e-04,  2.7609e-04,  4.4918e-04,  ...,  6.3181e-06,
+          6.6805e-04,  9.7179e-04],
+        ...,
+        [ 5.4568e-05,  4.9531e-05,  4.8786e-05,  ...,  3.7197e-06,
+          6.6280e-05,  1.0383e-04],
+        [ 1.6880e-04,  1.9109e-04,  3.6120e-04,  ...,  1.4991e-05,
+          4.9162e-04,  7.6056e-04],
+        [-1.0097e-04, -2.1362e-04,  5.7459e-05,  ...,  2.2333e-06,
+          5.5015e-05, -3.4356e-04]], device='cuda:0')
+Epoch 32, bias, value: tensor([ 0.0269, -0.0186, -0.0063,  0.0013,  0.0025, -0.0020, -0.0143, -0.0029,
+         0.0319,  0.0191], device='cuda:0'), grad: tensor([ 4.7994e-04, -4.2839e-03,  1.9703e-03,  6.7174e-05,  5.9509e-04,
+        -5.3310e-04,  6.2895e-04,  3.3593e-04,  1.5316e-03, -7.9203e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 31, time 251.47, cls_loss 0.0263 cls_loss_mapping 0.0437 cls_loss_causal 0.8222 re_mapping 0.0223 re_causal 0.0630 /// teacc 98.68 lr 0.00010000
+Epoch 33, weight, value: tensor([[-0.0131, -0.0445, -0.0185,  ...,  0.0083, -0.0753,  0.0041],
+        [-0.0158, -0.0585, -0.0577,  ..., -0.0467, -0.0025, -0.0296],
+        [ 0.0309,  0.0432, -0.0455,  ..., -0.0586, -0.0628, -0.0269],
+        ...,
+        [-0.0011,  0.0115, -0.0038,  ..., -0.0288, -0.0668,  0.0362],
+        [-0.0155,  0.0471,  0.0468,  ..., -0.0280,  0.0215, -0.0467],
+        [-0.0375, -0.0178,  0.0144,  ..., -0.0101, -0.0265,  0.0262]],
+       device='cuda:0'), grad: tensor([[ 5.7966e-05,  1.4746e-04,  1.8775e-04,  ...,  1.1194e-04,
+          1.4865e-04,  5.0634e-05],
+        [ 3.4928e-04,  4.8161e-04,  5.2303e-05,  ...,  1.7190e-04,
+          8.5473e-05,  4.6700e-05],
+        [-6.1178e-04,  1.1939e-04,  1.7214e-04,  ...,  1.0347e-03,
+          5.6839e-04, -4.9680e-05],
+        ...,
+        [ 9.8884e-05,  1.5020e-04,  6.4671e-05,  ...,  4.8369e-05,
+          6.4790e-05,  3.9518e-05],
+        [ 7.7665e-05, -2.1935e-05,  1.4663e-04,  ...,  1.0633e-04,
+          3.0696e-05,  8.3089e-05],
+        [-7.5221e-05, -3.4988e-05,  6.0940e-04,  ...,  3.2216e-05,
+          5.8889e-04,  9.5367e-05]], device='cuda:0')
+Epoch 33, bias, value: tensor([ 0.0267, -0.0186, -0.0063,  0.0010,  0.0025, -0.0019, -0.0142, -0.0026,
+         0.0316,  0.0193], device='cuda:0'), grad: tensor([ 0.0005,  0.0013,  0.0008, -0.0310, -0.0047,  0.0296,  0.0013,  0.0005,
+         0.0007,  0.0009], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 32, time 251.11, cls_loss 0.0226 cls_loss_mapping 0.0419 cls_loss_causal 0.7983 re_mapping 0.0215 re_causal 0.0620 /// teacc 98.54 lr 0.00010000
+Epoch 34, weight, value: tensor([[-0.0128, -0.0455, -0.0195,  ...,  0.0078, -0.0766,  0.0038],
+        [-0.0167, -0.0597, -0.0584,  ..., -0.0472, -0.0032, -0.0297],
+        [ 0.0312,  0.0435, -0.0464,  ..., -0.0590, -0.0634, -0.0269],
+        ...,
+        [-0.0006,  0.0120, -0.0041,  ..., -0.0292, -0.0676,  0.0366],
+        [-0.0153,  0.0477,  0.0470,  ..., -0.0285,  0.0216, -0.0477],
+        [-0.0375, -0.0175,  0.0141,  ..., -0.0103, -0.0270,  0.0266]],
+       device='cuda:0'), grad: tensor([[-1.7989e-04,  1.4842e-04,  8.3387e-05,  ...,  4.9360e-08,
+          5.9754e-05, -7.1824e-05],
+        [ 9.0837e-05, -1.9226e-03, -8.7643e-04,  ...,  1.0304e-05,
+          7.2300e-05, -3.7899e-03],
+        [ 1.1578e-03,  3.1300e-03,  2.2526e-03,  ...,  3.7253e-05,
+          1.7557e-03,  4.4274e-04],
+        ...,
+        [ 5.5820e-05,  1.6403e-04,  8.2791e-05,  ...,  1.8673e-06,
+          3.7730e-05,  1.8179e-04],
+        [-1.3781e-03, -2.2449e-03, -2.0199e-03,  ...,  9.4891e-05,
+         -2.0885e-03,  2.3060e-03],
+        [ 2.1935e-03,  3.1013e-03,  8.6427e-05,  ...,  1.4596e-05,
+          5.7250e-05,  5.2786e-04]], device='cuda:0')
+Epoch 34, bias, value: tensor([ 0.0267, -0.0190, -0.0059,  0.0012,  0.0025, -0.0015, -0.0148, -0.0027,
+         0.0314,  0.0195], device='cuda:0'), grad: tensor([-8.5235e-05, -9.4452e-03,  3.9291e-03,  1.4210e-04, -7.2784e-03,
+         9.6941e-04,  8.6355e-04,  6.4516e-04,  2.9011e-03,  7.3662e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 33, time 251.02, cls_loss 0.0200 cls_loss_mapping 0.0398 cls_loss_causal 0.7622 re_mapping 0.0206 re_causal 0.0601 /// teacc 98.57 lr 0.00010000
+Epoch 35, weight, value: tensor([[-1.2679e-02, -4.6142e-02, -2.0089e-02,  ...,  7.3313e-03,
+         -7.7372e-02,  3.5660e-03],
+        [-1.7384e-02, -6.0510e-02, -5.9200e-02,  ..., -4.7669e-02,
+         -4.2675e-03, -2.9394e-02],
+        [ 3.1480e-02,  4.3955e-02, -4.6198e-02,  ..., -5.9361e-02,
+         -6.2164e-02, -2.7430e-02],
+        ...,
+        [-1.9993e-05,  1.2685e-02, -4.4425e-03,  ..., -2.9124e-02,
+         -6.8417e-02,  3.7467e-02],
+        [-1.5319e-02,  4.8000e-02,  4.7081e-02,  ..., -2.9701e-02,
+          2.1834e-02, -4.8492e-02],
+        [-3.7499e-02, -1.6989e-02,  1.4206e-02,  ..., -9.1683e-03,
+         -2.7018e-02,  2.6614e-02]], device='cuda:0'), grad: tensor([[ 6.2823e-05,  2.7204e-04,  1.8573e-04,  ...,  1.8120e-04,
+          2.0158e-04,  8.3745e-05],
+        [ 4.1455e-05,  7.1764e-05,  3.7253e-05,  ...,  2.6122e-05,
+          3.6806e-05, -1.2141e-04],
+        [ 1.0478e-04,  3.6240e-04,  2.5749e-04,  ...,  2.4378e-04,
+          2.8491e-04,  1.3089e-04],
+        ...,
+        [-5.9032e-04, -7.3433e-04,  2.6986e-05,  ...,  1.8150e-05,
+          2.9907e-05, -4.7827e-04],
+        [-1.3769e-04, -1.0377e-04, -2.8396e-04,  ...,  1.1867e-04,
+         -1.3876e-04,  8.0764e-05],
+        [ 3.4022e-04,  5.6887e-04,  1.9240e-04,  ...,  1.5438e-04,
+          1.9348e-04,  2.6679e-04]], device='cuda:0')
+Epoch 35, bias, value: tensor([ 0.0264, -0.0192, -0.0055,  0.0012,  0.0021, -0.0016, -0.0149, -0.0018,
+         0.0309,  0.0196], device='cuda:0'), grad: tensor([ 3.8791e-04, -1.3006e-04,  6.0892e-04,  1.3661e-04,  3.9506e-04,
+         1.4029e-03, -2.8305e-03, -7.1478e-04,  1.5618e-06,  7.4005e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 34, time 251.40, cls_loss 0.0185 cls_loss_mapping 0.0336 cls_loss_causal 0.7600 re_mapping 0.0202 re_causal 0.0584 /// teacc 98.59 lr 0.00010000
+Epoch 36, weight, value: tensor([[-1.2800e-02, -4.7033e-02, -2.0935e-02,  ...,  6.7311e-03,
+         -7.8751e-02,  3.1389e-03],
+        [-1.8015e-02, -6.1389e-02, -6.0033e-02,  ..., -4.8466e-02,
+         -4.9184e-03, -2.9077e-02],
+        [ 3.1717e-02,  4.4053e-02, -4.6511e-02,  ..., -5.9664e-02,
+         -6.2287e-02, -2.8211e-02],
+        ...,
+        [ 6.1960e-05,  1.3001e-02, -5.2057e-03,  ..., -2.9075e-02,
+         -6.9221e-02,  3.7479e-02],
+        [-1.4722e-02,  4.9189e-02,  4.7954e-02,  ..., -2.9769e-02,
+          2.2954e-02, -4.8978e-02],
+        [-3.7085e-02, -1.6689e-02,  1.3799e-02,  ..., -9.4828e-03,
+         -2.7587e-02,  2.6985e-02]], device='cuda:0'), grad: tensor([[ 2.6608e-04,  3.3617e-04,  3.5977e-04,  ...,  2.9063e-04,
+          3.2592e-04,  1.6820e-04],
+        [ 7.5579e-05,  8.8096e-05,  8.0764e-05,  ...,  5.7369e-05,
+          7.5877e-05, -2.7871e-04],
+        [ 4.7994e-04,  6.4230e-04,  5.6505e-04,  ...,  5.5885e-04,
+          5.9366e-04,  3.1090e-04],
+        ...,
+        [-7.2837e-05, -1.3340e-04,  3.3212e-04,  ...,  4.5896e-05,
+          6.5029e-05,  2.4393e-05],
+        [ 4.1342e-04,  4.2081e-04,  5.2071e-04,  ...,  5.2214e-04,
+          4.6301e-04,  3.5715e-04],
+        [ 6.6328e-04,  7.9775e-04,  8.7500e-04,  ...,  6.0701e-04,
+          7.3051e-04,  4.5109e-04]], device='cuda:0')
+Epoch 36, bias, value: tensor([ 0.0261, -0.0187, -0.0057,  0.0011,  0.0021, -0.0018, -0.0152, -0.0019,
+         0.0314,  0.0197], device='cuda:0'), grad: tensor([ 0.0008, -0.0005,  0.0015, -0.0005,  0.0015,  0.0010, -0.0077,  0.0004,
+         0.0014,  0.0020], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 35, time 253.75, cls_loss 0.0181 cls_loss_mapping 0.0343 cls_loss_causal 0.7322 re_mapping 0.0199 re_causal 0.0576 /// teacc 98.67 lr 0.00010000
+Epoch 37, weight, value: tensor([[-0.0122, -0.0469, -0.0215,  ...,  0.0064, -0.0794,  0.0031],
+        [-0.0188, -0.0624, -0.0602,  ..., -0.0497, -0.0052, -0.0285],
+        [ 0.0325,  0.0445, -0.0469,  ..., -0.0605, -0.0628, -0.0290],
+        ...,
+        [ 0.0007,  0.0136, -0.0054,  ..., -0.0284, -0.0693,  0.0380],
+        [-0.0152,  0.0493,  0.0479,  ..., -0.0302,  0.0229, -0.0499],
+        [-0.0374, -0.0168,  0.0131,  ..., -0.0101, -0.0281,  0.0271]],
+       device='cuda:0'), grad: tensor([[ 9.4622e-06,  1.4439e-05,  3.3885e-05,  ...,  2.2519e-06,
+          3.1680e-05,  4.7423e-06],
+        [ 2.0659e-04,  1.1808e-04,  3.4392e-05,  ...,  4.1537e-07,
+          4.9800e-05,  3.1944e-06],
+        [-2.2233e-05, -1.5414e-04,  1.3196e-04,  ...,  3.9954e-07,
+          2.0897e-04, -2.1085e-05],
+        ...,
+        [ 2.4700e-04,  1.0395e-04,  1.1617e-04,  ...,  3.7765e-07,
+          1.5485e-04,  1.0115e-04],
+        [ 2.7442e-04,  5.7459e-05,  3.2711e-04,  ...,  7.0743e-06,
+          3.4308e-04,  4.3303e-05],
+        [ 1.4877e-04, -1.0198e-04,  2.4843e-04,  ...,  3.4906e-06,
+          2.4509e-04, -1.0592e-04]], device='cuda:0')
+Epoch 37, bias, value: tensor([ 0.0263, -0.0183, -0.0056,  0.0009,  0.0020, -0.0014, -0.0153, -0.0017,
+         0.0304,  0.0199], device='cuda:0'), grad: tensor([ 4.1544e-05,  2.1851e-04,  2.0683e-04, -2.0447e-03,  1.3149e-04,
+        -8.3303e-04,  6.1321e-04,  5.7411e-04,  7.4244e-04,  3.4833e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 36, time 256.61, cls_loss 0.0205 cls_loss_mapping 0.0349 cls_loss_causal 0.7607 re_mapping 0.0193 re_causal 0.0562 /// teacc 98.63 lr 0.00010000
+Epoch 38, weight, value: tensor([[-0.0117, -0.0471, -0.0222,  ...,  0.0063, -0.0800,  0.0031],
+        [-0.0197, -0.0636, -0.0607,  ..., -0.0495, -0.0059, -0.0284],
+        [ 0.0327,  0.0442, -0.0482,  ..., -0.0610, -0.0630, -0.0298],
+        ...,
+        [ 0.0010,  0.0140, -0.0058,  ..., -0.0287, -0.0703,  0.0383],
+        [-0.0145,  0.0501,  0.0484,  ..., -0.0310,  0.0234, -0.0505],
+        [-0.0380, -0.0174,  0.0126,  ..., -0.0106, -0.0284,  0.0270]],
+       device='cuda:0'), grad: tensor([[-2.7776e-05,  5.8860e-05,  5.5015e-05,  ...,  3.9637e-05,
+          4.3839e-05,  8.3596e-06],
+        [ 2.5943e-05,  5.2214e-05,  5.8770e-05,  ...,  2.5898e-05,
+          5.2840e-05,  4.7803e-05],
+        [ 1.1581e-04,  1.3947e-04,  2.1696e-04,  ...,  2.2516e-05,
+          1.6391e-04,  2.6509e-05],
+        ...,
+        [-2.2388e-04, -9.3579e-05,  5.4061e-05,  ...,  2.5108e-06,
+          7.6890e-05, -4.8661e-04],
+        [-1.8537e-04, -1.7571e-04, -2.0087e-04,  ...,  8.6904e-05,
+         -9.6738e-05,  7.8976e-05],
+        [ 2.3377e-04, -4.4256e-05, -5.6982e-05,  ...,  7.5027e-06,
+         -1.0657e-04,  3.4881e-04]], device='cuda:0')
+Epoch 38, bias, value: tensor([ 0.0264, -0.0186, -0.0056,  0.0014,  0.0021, -0.0014, -0.0160, -0.0016,
+         0.0307,  0.0196], device='cuda:0'), grad: tensor([-4.0317e-04,  3.7599e-04,  5.1880e-04, -2.1923e-04, -2.3861e-03,
+         4.3750e-04, -2.6792e-05, -7.9155e-04, -2.6926e-05,  2.5215e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 37----------------------------------------------------
+epoch 37, time 273.34, cls_loss 0.0145 cls_loss_mapping 0.0319 cls_loss_causal 0.7050 re_mapping 0.0182 re_causal 0.0542 /// teacc 98.73 lr 0.00010000
+Epoch 39, weight, value: tensor([[-0.0113, -0.0477, -0.0228,  ...,  0.0058, -0.0804,  0.0031],
+        [-0.0207, -0.0652, -0.0615,  ..., -0.0502, -0.0067, -0.0284],
+        [ 0.0330,  0.0443, -0.0494,  ..., -0.0615, -0.0635, -0.0297],
+        ...,
+        [ 0.0011,  0.0138, -0.0061,  ..., -0.0288, -0.0712,  0.0386],
+        [-0.0140,  0.0512,  0.0489,  ..., -0.0313,  0.0241, -0.0509],
+        [-0.0381, -0.0172,  0.0123,  ..., -0.0110, -0.0286,  0.0272]],
+       device='cuda:0'), grad: tensor([[-8.1003e-05,  5.2750e-05,  6.4135e-05,  ...,  2.6643e-05,
+          4.6432e-05, -3.3118e-06],
+        [ 9.6440e-05,  7.8082e-05,  9.4473e-05,  ...,  1.5110e-05,
+          1.2422e-04, -2.8944e-04],
+        [-2.6932e-03, -3.7327e-03, -2.2850e-03,  ...,  1.1243e-05,
+          5.6297e-05,  3.1519e-04],
+        ...,
+        [ 5.9426e-05,  4.1336e-05,  3.6895e-05,  ...,  2.5108e-06,
+          3.2753e-05,  1.2118e-04],
+        [ 3.4885e-03,  3.7060e-03,  2.7046e-03,  ...,  7.4983e-05,
+          1.1702e-03,  1.3316e-04],
+        [ 4.2051e-05, -1.9118e-05,  2.0429e-05,  ...,  6.6608e-06,
+          1.2144e-05, -2.5868e-05]], device='cuda:0')
+Epoch 39, bias, value: tensor([ 0.0257, -0.0192, -0.0055,  0.0012,  0.0022, -0.0012, -0.0157, -0.0016,
+         0.0312,  0.0196], device='cuda:0'), grad: tensor([-1.5604e-04, -3.9148e-04, -2.4567e-03, -1.6499e-03,  1.9455e-04,
+         3.0136e-04, -3.6097e-04,  3.0994e-04,  4.1313e-03,  7.3910e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 38, time 256.61, cls_loss 0.0142 cls_loss_mapping 0.0298 cls_loss_causal 0.6949 re_mapping 0.0183 re_causal 0.0540 /// teacc 98.67 lr 0.00010000
+Epoch 40, weight, value: tensor([[-0.0107, -0.0478, -0.0233,  ...,  0.0060, -0.0813,  0.0033],
+        [-0.0216, -0.0662, -0.0620,  ..., -0.0504, -0.0069, -0.0282],
+        [ 0.0330,  0.0442, -0.0499,  ..., -0.0620, -0.0642, -0.0310],
+        ...,
+        [ 0.0016,  0.0144, -0.0062,  ..., -0.0289, -0.0715,  0.0391],
+        [-0.0135,  0.0518,  0.0489,  ..., -0.0320,  0.0244, -0.0516],
+        [-0.0385, -0.0173,  0.0122,  ..., -0.0106, -0.0286,  0.0273]],
+       device='cuda:0'), grad: tensor([[-1.3697e-04,  3.8207e-05,  8.3208e-05,  ...,  4.3958e-05,
+          7.2658e-05,  3.4243e-05],
+        [ 4.6402e-05,  2.9728e-05,  2.2829e-05,  ...,  2.8789e-05,
+         -6.9916e-05, -5.2691e-04],
+        [-7.7665e-05, -6.2250e-06,  1.2094e-04,  ...,  5.2303e-05,
+          1.0484e-04,  5.8860e-05],
+        ...,
+        [ 2.8759e-06,  2.1234e-05,  1.9386e-05,  ...,  5.0813e-06,
+          3.0518e-05,  3.5226e-05],
+        [ 5.5879e-05,  3.1114e-04,  6.4039e-04,  ...,  3.3450e-04,
+          5.2977e-04,  2.0945e-04],
+        [-2.5854e-05, -8.9526e-05,  2.2963e-05,  ...,  5.5805e-06,
+         -1.6227e-05, -1.1110e-04]], device='cuda:0')
+Epoch 40, bias, value: tensor([ 0.0260, -0.0192, -0.0060,  0.0013,  0.0025, -0.0012, -0.0159, -0.0013,
+         0.0311,  0.0194], device='cuda:0'), grad: tensor([-2.2686e-04, -8.0061e-04,  4.2260e-05,  1.0628e-04,  2.9016e-04,
+         9.3508e-04, -1.4267e-03,  2.0897e-04,  9.7322e-04, -9.9063e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 39----------------------------------------------------
+epoch 39, time 272.93, cls_loss 0.0165 cls_loss_mapping 0.0317 cls_loss_causal 0.7442 re_mapping 0.0176 re_causal 0.0529 /// teacc 98.76 lr 0.00010000
+Epoch 41, weight, value: tensor([[-0.0107, -0.0485, -0.0241,  ...,  0.0051, -0.0821,  0.0031],
+        [-0.0227, -0.0674, -0.0625,  ..., -0.0517, -0.0072, -0.0270],
+        [ 0.0341,  0.0450, -0.0504,  ..., -0.0622, -0.0646, -0.0316],
+        ...,
+        [ 0.0016,  0.0144, -0.0065,  ..., -0.0289, -0.0718,  0.0391],
+        [-0.0138,  0.0518,  0.0491,  ..., -0.0327,  0.0245, -0.0525],
+        [-0.0382, -0.0171,  0.0117,  ..., -0.0111, -0.0289,  0.0278]],
+       device='cuda:0'), grad: tensor([[-2.6170e-06,  1.1522e-04,  1.7273e-04,  ...,  3.4004e-05,
+          1.3566e-04,  5.2631e-05],
+        [ 2.0599e-04,  2.9659e-04,  3.7283e-05,  ...,  4.6864e-06,
+          3.6240e-05,  1.9026e-04],
+        [-2.2388e-04, -4.4227e-04,  1.6242e-05,  ..., -1.0580e-04,
+          7.5579e-05,  1.0252e-04],
+        ...,
+        [-6.3229e-04, -9.3508e-04,  7.0333e-05,  ...,  9.2685e-06,
+         -1.4758e-04, -9.5224e-04],
+        [ 4.4751e-04,  6.7091e-04,  4.3416e-04,  ...,  9.0718e-05,
+          4.6086e-04,  6.0320e-04],
+        [ 1.1599e-04,  8.4937e-05,  4.0197e-04,  ...,  9.3430e-06,
+          3.3188e-04,  1.3852e-04]], device='cuda:0')
+Epoch 41, bias, value: tensor([ 0.0259, -0.0188, -0.0057,  0.0011,  0.0026, -0.0009, -0.0154, -0.0021,
+         0.0305,  0.0196], device='cuda:0'), grad: tensor([ 0.0002,  0.0003, -0.0005,  0.0009,  0.0002, -0.0018,  0.0004, -0.0017,
+         0.0015,  0.0006], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 40, time 256.57, cls_loss 0.0183 cls_loss_mapping 0.0334 cls_loss_causal 0.7049 re_mapping 0.0178 re_causal 0.0517 /// teacc 98.66 lr 0.00010000
+Epoch 42, weight, value: tensor([[-0.0100, -0.0491, -0.0239,  ...,  0.0041, -0.0825,  0.0025],
+        [-0.0234, -0.0682, -0.0629,  ..., -0.0523, -0.0075, -0.0267],
+        [ 0.0349,  0.0456, -0.0511,  ..., -0.0620, -0.0652, -0.0307],
+        ...,
+        [ 0.0019,  0.0148, -0.0069,  ..., -0.0290, -0.0723,  0.0394],
+        [-0.0136,  0.0525,  0.0494,  ..., -0.0330,  0.0248, -0.0531],
+        [-0.0389, -0.0168,  0.0112,  ..., -0.0095, -0.0293,  0.0281]],
+       device='cuda:0'), grad: tensor([[-9.2201e-07,  7.0858e-04,  1.1358e-03,  ...,  4.7135e-04,
+          9.0742e-04,  3.2711e-04],
+        [ 3.4213e-05,  5.4747e-05,  5.0545e-05,  ...,  3.0294e-05,
+          4.3780e-05, -4.4137e-05],
+        [-6.5279e-04, -2.3568e-04,  8.0347e-05,  ...,  1.3769e-05,
+          5.4002e-05,  4.3124e-05],
+        ...,
+        [ 6.3777e-05,  8.8289e-06,  1.9193e-05,  ...,  8.0764e-06,
+          1.1280e-05, -6.9588e-06],
+        [ 9.6679e-05,  4.3392e-04,  5.6171e-04,  ...,  3.1805e-04,
+          4.8566e-04,  2.3580e-04],
+        [ 6.8545e-05,  7.4208e-05,  1.4043e-04,  ...,  4.2707e-05,
+          7.1883e-05,  8.9556e-06]], device='cuda:0')
+Epoch 42, bias, value: tensor([ 0.0262, -0.0188, -0.0053,  0.0014,  0.0028, -0.0015, -0.0160, -0.0023,
+         0.0306,  0.0198], device='cuda:0'), grad: tensor([ 1.2884e-03, -3.8099e-04, -7.9203e-04,  8.6164e-04, -1.0061e-04,
+        -9.1732e-05, -2.5196e-03,  2.1863e-04,  9.6893e-04,  5.4741e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 41, time 257.11, cls_loss 0.0179 cls_loss_mapping 0.0310 cls_loss_causal 0.7320 re_mapping 0.0169 re_causal 0.0499 /// teacc 98.73 lr 0.00010000
+Epoch 43, weight, value: tensor([[-0.0101, -0.0499, -0.0248,  ...,  0.0037, -0.0840,  0.0023],
+        [-0.0240, -0.0697, -0.0634,  ..., -0.0529, -0.0079, -0.0266],
+        [ 0.0353,  0.0461, -0.0515,  ..., -0.0621, -0.0655, -0.0309],
+        ...,
+        [ 0.0014,  0.0146, -0.0073,  ..., -0.0289, -0.0728,  0.0397],
+        [-0.0129,  0.0536,  0.0499,  ..., -0.0327,  0.0252, -0.0538],
+        [-0.0386, -0.0166,  0.0106,  ..., -0.0101, -0.0298,  0.0287]],
+       device='cuda:0'), grad: tensor([[ 6.9320e-05,  1.3149e-04,  4.0245e-04,  ...,  1.5891e-04,
+          3.0327e-04,  3.6812e-04],
+        [ 9.9659e-05,  1.2457e-04,  1.3404e-05,  ...,  4.8690e-06,
+          1.4193e-05, -1.2293e-05],
+        [ 4.9442e-05,  9.4473e-05,  2.6554e-05,  ..., -3.8892e-06,
+          2.5630e-05,  1.9264e-04],
+        ...,
+        [-4.7517e-04, -5.9319e-04,  1.4558e-05,  ...,  4.2729e-06,
+          1.7673e-05, -4.1389e-04],
+        [-9.1502e-07,  2.7433e-05, -1.7118e-04,  ...,  5.8621e-05,
+         -9.1791e-05,  5.2959e-05],
+        [-1.5509e-04, -3.1042e-04,  1.4997e-04,  ...,  9.4716e-07,
+          1.0884e-04, -9.1255e-05]], device='cuda:0')
+Epoch 43, bias, value: tensor([ 0.0258, -0.0191, -0.0053,  0.0012,  0.0028, -0.0015, -0.0155, -0.0023,
+         0.0308,  0.0200], device='cuda:0'), grad: tensor([ 8.7309e-04,  4.9531e-05,  1.9717e-04,  1.3733e-04,  1.2531e-03,
+         7.5400e-05, -9.4032e-04, -8.5163e-04,  1.2052e-04, -9.1362e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 42----------------------------------------------------
+epoch 42, time 273.33, cls_loss 0.0146 cls_loss_mapping 0.0286 cls_loss_causal 0.6979 re_mapping 0.0176 re_causal 0.0504 /// teacc 98.80 lr 0.00010000
+Epoch 44, weight, value: tensor([[-0.0098, -0.0507, -0.0253,  ...,  0.0032, -0.0846,  0.0024],
+        [-0.0248, -0.0711, -0.0639,  ..., -0.0538, -0.0084, -0.0267],
+        [ 0.0357,  0.0464, -0.0520,  ..., -0.0619, -0.0658, -0.0314],
+        ...,
+        [ 0.0020,  0.0156, -0.0076,  ..., -0.0290, -0.0733,  0.0402],
+        [-0.0125,  0.0542,  0.0505,  ..., -0.0335,  0.0257, -0.0543],
+        [-0.0388, -0.0165,  0.0102,  ..., -0.0105, -0.0301,  0.0287]],
+       device='cuda:0'), grad: tensor([[ 6.1207e-06,  1.1277e-04,  2.5019e-05,  ...,  5.8115e-05,
+          2.9460e-05,  2.7061e-05],
+        [ 6.5006e-06,  1.9848e-05,  1.5721e-05,  ...,  3.5595e-06,
+          1.5423e-05, -4.9978e-05],
+        [-3.9518e-05, -7.9861e-07,  1.9386e-05,  ...,  3.9935e-06,
+          2.9102e-05,  2.5615e-05],
+        ...,
+        [-2.5854e-05, -4.6134e-05,  1.1757e-05,  ...,  3.5856e-07,
+          1.3135e-05, -2.2396e-05],
+        [ 1.1124e-05, -7.3351e-06,  3.2812e-05,  ...,  3.0041e-05,
+          3.6925e-05,  1.6406e-05],
+        [ 2.1875e-05,  3.7879e-05,  3.0577e-05,  ...,  1.1206e-05,
+          2.6032e-05,  1.9744e-05]], device='cuda:0')
+Epoch 44, bias, value: tensor([ 0.0259, -0.0193, -0.0051,  0.0011,  0.0027, -0.0018, -0.0156, -0.0016,
+         0.0308,  0.0197], device='cuda:0'), grad: tensor([ 1.2028e-04, -9.7930e-05,  5.1945e-05, -3.4899e-05,  4.3511e-06,
+        -3.0786e-05, -1.9515e-04, -4.2804e-06,  7.6771e-05,  1.0955e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 43, time 256.20, cls_loss 0.0152 cls_loss_mapping 0.0291 cls_loss_causal 0.7285 re_mapping 0.0167 re_causal 0.0498 /// teacc 98.64 lr 0.00010000
+Epoch 45, weight, value: tensor([[-0.0094, -0.0513, -0.0258,  ...,  0.0025, -0.0851,  0.0022],
+        [-0.0254, -0.0716, -0.0645,  ..., -0.0543, -0.0089, -0.0256],
+        [ 0.0359,  0.0464, -0.0526,  ..., -0.0626, -0.0662, -0.0323],
+        ...,
+        [ 0.0027,  0.0164, -0.0078,  ..., -0.0291, -0.0738,  0.0404],
+        [-0.0123,  0.0547,  0.0506,  ..., -0.0339,  0.0259, -0.0548],
+        [-0.0396, -0.0170,  0.0096,  ..., -0.0109, -0.0305,  0.0289]],
+       device='cuda:0'), grad: tensor([[ 7.0632e-05,  1.0157e-04,  7.3075e-05,  ...,  1.4700e-05,
+          5.3883e-05,  2.2873e-05],
+        [ 2.8372e-04,  3.0708e-04,  1.5509e-04,  ...,  3.9972e-06,
+          1.2553e-04,  9.0003e-05],
+        [-6.8951e-04, -2.7418e-04,  1.2147e-04,  ...,  1.8533e-06,
+          9.9719e-05,  1.7092e-05],
+        ...,
+        [ 3.5763e-04,  5.2834e-04,  8.1420e-05,  ...,  1.6484e-07,
+          6.0260e-05,  7.4530e-04],
+        [-3.1519e-04, -1.2045e-03, -8.5545e-04,  ..., -6.0070e-07,
+         -6.8903e-04, -1.0735e-04],
+        [-2.0969e-04, -2.4652e-04,  7.6246e-04,  ...,  1.7248e-06,
+          5.6934e-04, -7.3624e-04]], device='cuda:0')
+Epoch 45, bias, value: tensor([ 0.0256, -0.0187, -0.0055,  0.0011,  0.0024, -0.0015, -0.0156, -0.0014,
+         0.0306,  0.0197], device='cuda:0'), grad: tensor([ 2.0015e-04,  6.0654e-04, -6.4421e-04,  1.8921e-02, -2.9549e-05,
+        -2.0172e-02,  2.5439e-04,  1.5249e-03, -1.1635e-03,  4.9400e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 44, time 256.47, cls_loss 0.0120 cls_loss_mapping 0.0246 cls_loss_causal 0.6910 re_mapping 0.0160 re_causal 0.0475 /// teacc 98.79 lr 0.00010000
+Epoch 46, weight, value: tensor([[-0.0095, -0.0518, -0.0262,  ...,  0.0017, -0.0857,  0.0017],
+        [-0.0265, -0.0722, -0.0649,  ..., -0.0550, -0.0090, -0.0249],
+        [ 0.0361,  0.0463, -0.0533,  ..., -0.0638, -0.0668, -0.0330],
+        ...,
+        [ 0.0024,  0.0165, -0.0082,  ..., -0.0293, -0.0743,  0.0402],
+        [-0.0123,  0.0550,  0.0509,  ..., -0.0339,  0.0261, -0.0555],
+        [-0.0397, -0.0169,  0.0092,  ..., -0.0113, -0.0309,  0.0291]],
+       device='cuda:0'), grad: tensor([[-1.9986e-06,  3.4451e-05,  1.0818e-05,  ...,  1.8980e-06,
+          1.0133e-05,  2.2873e-05],
+        [ 3.0056e-05, -1.7440e-04,  4.5061e-05,  ...,  9.4762e-07,
+          4.8310e-05, -4.3821e-04],
+        [-3.9995e-05, -1.6894e-06,  2.2337e-05,  ...,  4.8568e-07,
+          2.5377e-05,  3.0547e-05],
+        ...,
+        [-1.5521e-04, -2.6584e-04,  2.1443e-05,  ...,  9.5926e-08,
+          1.7643e-05,  1.3612e-05],
+        [-5.9366e-05, -9.1970e-05, -8.6725e-05,  ...,  6.9924e-06,
+         -1.0097e-04,  2.2545e-05],
+        [ 1.5426e-04,  9.2387e-05, -2.8968e-04,  ...,  9.3551e-07,
+         -2.2638e-04, -1.1003e-04]], device='cuda:0')
+Epoch 46, bias, value: tensor([ 0.0250, -0.0185, -0.0058,  0.0017,  0.0026, -0.0014, -0.0148, -0.0018,
+         0.0302,  0.0196], device='cuda:0'), grad: tensor([-2.5146e-06, -9.7847e-04,  2.3454e-05,  3.3379e-04,  2.7132e-04,
+         3.4118e-04,  9.8869e-06,  2.4140e-04, -3.2574e-05, -2.0766e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 45, time 256.69, cls_loss 0.0123 cls_loss_mapping 0.0253 cls_loss_causal 0.6936 re_mapping 0.0158 re_causal 0.0458 /// teacc 98.80 lr 0.00010000
+Epoch 47, weight, value: tensor([[-0.0091, -0.0522, -0.0268,  ...,  0.0012, -0.0867,  0.0019],
+        [-0.0273, -0.0732, -0.0661,  ..., -0.0553, -0.0098, -0.0241],
+        [ 0.0367,  0.0470, -0.0526,  ..., -0.0639, -0.0666, -0.0338],
+        ...,
+        [ 0.0025,  0.0163, -0.0086,  ..., -0.0293, -0.0754,  0.0400],
+        [-0.0124,  0.0551,  0.0513,  ..., -0.0343,  0.0267, -0.0559],
+        [-0.0398, -0.0164,  0.0090,  ..., -0.0112, -0.0312,  0.0294]],
+       device='cuda:0'), grad: tensor([[ 7.3835e-06, -1.1559e-03,  5.9485e-05,  ...,  2.4527e-05,
+          6.0916e-05,  7.0743e-06],
+        [ 3.5852e-05,  7.3075e-05,  1.3304e-04,  ...,  6.3926e-06,
+          1.6928e-04, -2.6926e-05],
+        [ 1.7658e-05,  2.9111e-04,  7.8201e-05,  ...,  1.3158e-05,
+          9.2864e-05,  2.6435e-05],
+        ...,
+        [-1.3590e-04, -6.6400e-05,  5.2810e-05,  ...,  1.2759e-06,
+          5.8562e-05, -1.3173e-04],
+        [-1.6391e-04, -2.2674e-04, -5.1689e-04,  ...,  2.3618e-05,
+         -5.3883e-04,  1.7956e-05],
+        [ 8.0824e-05,  2.5558e-04,  3.0017e-04,  ...,  3.7868e-06,
+          3.2163e-04, -7.0296e-06]], device='cuda:0')
+Epoch 47, bias, value: tensor([ 0.0255, -0.0185, -0.0056,  0.0020,  0.0024, -0.0017, -0.0151, -0.0022,
+         0.0302,  0.0197], device='cuda:0'), grad: tensor([-7.8659e-03,  3.8719e-04,  1.7910e-03, -6.4039e-04,  2.7561e-03,
+         1.2074e-03,  9.9754e-04,  4.8995e-05,  2.9898e-04,  1.0157e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 46----------------------------------------------------
+epoch 46, time 272.31, cls_loss 0.0122 cls_loss_mapping 0.0228 cls_loss_causal 0.7073 re_mapping 0.0153 re_causal 0.0470 /// teacc 98.83 lr 0.00010000
+Epoch 48, weight, value: tensor([[-0.0091, -0.0527, -0.0275,  ...,  0.0009, -0.0875,  0.0015],
+        [-0.0283, -0.0735, -0.0665,  ..., -0.0558, -0.0099, -0.0238],
+        [ 0.0369,  0.0466, -0.0539,  ..., -0.0641, -0.0675, -0.0344],
+        ...,
+        [ 0.0027,  0.0167, -0.0089,  ..., -0.0294, -0.0758,  0.0401],
+        [-0.0119,  0.0557,  0.0517,  ..., -0.0348,  0.0270, -0.0566],
+        [-0.0397, -0.0165,  0.0086,  ..., -0.0107, -0.0316,  0.0298]],
+       device='cuda:0'), grad: tensor([[ 6.6310e-07,  1.0431e-04,  4.8280e-05,  ...,  2.0992e-06,
+          2.7753e-06,  5.3018e-05],
+        [ 1.6361e-05,  3.4332e-05,  2.0549e-05,  ...,  4.6706e-07,
+          1.1303e-05, -5.0694e-05],
+        [-6.3237e-07,  1.0878e-04,  8.8871e-05,  ...,  1.4659e-06,
+          1.6659e-05,  9.3520e-05],
+        ...,
+        [-1.0872e-04, -1.1641e-04,  2.5198e-05,  ...,  3.0152e-07,
+          2.9206e-06, -1.2839e-04],
+        [ 6.0489e-07,  1.4651e-04,  1.7488e-04,  ...,  4.4107e-06,
+         -5.6326e-05,  4.3333e-05],
+        [ 5.3138e-05, -3.6907e-04,  2.4006e-05,  ...,  7.4785e-07,
+          5.1260e-06, -3.3832e-04]], device='cuda:0')
+Epoch 48, bias, value: tensor([ 0.0255, -0.0182, -0.0061,  0.0016,  0.0032, -0.0012, -0.0152, -0.0023,
+         0.0302,  0.0196], device='cuda:0'), grad: tensor([ 6.7592e-05, -1.3933e-05,  2.4581e-04,  3.3927e-04,  9.8288e-05,
+        -5.4407e-04,  1.1808e-04, -2.2745e-04,  3.1018e-04, -3.9482e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 47, time 256.65, cls_loss 0.0097 cls_loss_mapping 0.0216 cls_loss_causal 0.7042 re_mapping 0.0155 re_causal 0.0493 /// teacc 98.82 lr 0.00010000
+Epoch 49, weight, value: tensor([[-0.0087, -0.0531, -0.0281,  ...,  0.0003, -0.0882,  0.0012],
+        [-0.0290, -0.0746, -0.0670,  ..., -0.0565, -0.0102, -0.0237],
+        [ 0.0374,  0.0468, -0.0544,  ..., -0.0643, -0.0679, -0.0350],
+        ...,
+        [ 0.0029,  0.0174, -0.0093,  ..., -0.0293, -0.0759,  0.0406],
+        [-0.0119,  0.0558,  0.0518,  ..., -0.0346,  0.0271, -0.0573],
+        [-0.0400, -0.0160,  0.0083,  ..., -0.0108, -0.0319,  0.0301]],
+       device='cuda:0'), grad: tensor([[-1.3798e-05,  3.2634e-06,  3.7253e-06,  ...,  0.0000e+00,
+          4.0568e-06,  2.5425e-06],
+        [ 1.8835e-05,  3.1680e-05,  2.4676e-05,  ...,  0.0000e+00,
+          3.1382e-05,  2.1040e-05],
+        [-9.5740e-07,  1.1036e-06,  7.0967e-06,  ...,  0.0000e+00,
+          9.3952e-06,  3.6899e-06],
+        ...,
+        [-2.6584e-05, -1.0416e-05,  7.3425e-06,  ...,  0.0000e+00,
+          1.0148e-05, -2.9504e-05],
+        [ 4.2133e-06, -1.7866e-05,  2.0564e-06,  ...,  0.0000e+00,
+         -6.3796e-07,  9.8720e-06],
+        [-4.3735e-06, -4.8399e-05,  2.9266e-05,  ...,  0.0000e+00,
+          3.1829e-05, -3.8564e-05]], device='cuda:0')
+Epoch 49, bias, value: tensor([ 0.0255, -0.0185, -0.0062,  0.0016,  0.0029, -0.0009, -0.0150, -0.0019,
+         0.0299,  0.0196], device='cuda:0'), grad: tensor([-2.6718e-05,  7.0333e-05,  3.0085e-05,  4.2224e-04, -3.3408e-05,
+        -5.4407e-04,  4.3958e-05,  5.9754e-06,  4.1693e-05, -1.1235e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 48, time 256.99, cls_loss 0.0119 cls_loss_mapping 0.0245 cls_loss_causal 0.7021 re_mapping 0.0152 re_causal 0.0464 /// teacc 98.81 lr 0.00010000
+Epoch 50, weight, value: tensor([[-0.0086, -0.0534, -0.0285,  ..., -0.0005, -0.0887,  0.0009],
+        [-0.0303, -0.0756, -0.0676,  ..., -0.0569, -0.0104, -0.0240],
+        [ 0.0379,  0.0469, -0.0551,  ..., -0.0648, -0.0686, -0.0351],
+        ...,
+        [ 0.0029,  0.0172, -0.0096,  ..., -0.0293, -0.0771,  0.0410],
+        [-0.0115,  0.0564,  0.0522,  ..., -0.0346,  0.0275, -0.0580],
+        [-0.0400, -0.0158,  0.0081,  ..., -0.0093, -0.0320,  0.0304]],
+       device='cuda:0'), grad: tensor([[ 1.8954e-05,  4.3571e-05,  5.6028e-05,  ...,  3.0309e-05,
+          2.8744e-05,  2.5511e-05],
+        [ 2.0850e-04,  1.3244e-04,  1.8671e-05,  ...,  2.2482e-06,
+          1.1221e-05,  4.6182e-04],
+        [-2.7847e-04, -1.5426e-04, -7.3731e-05,  ...,  5.2340e-06,
+         -1.8999e-05,  1.0952e-05],
+        ...,
+        [-1.0328e-03, -6.6185e-04,  6.1952e-06,  ...,  8.9547e-07,
+         -4.3437e-06, -2.7447e-03],
+        [ 1.9670e-04,  1.1468e-04,  8.1241e-05,  ...,  9.3803e-06,
+          2.7940e-05,  2.7514e-04],
+        [ 7.0238e-04,  3.8576e-04,  2.4900e-05,  ...,  2.4643e-06,
+          1.0148e-05,  1.6832e-03]], device='cuda:0')
+Epoch 50, bias, value: tensor([ 0.0249, -0.0190, -0.0060,  0.0017,  0.0036, -0.0010, -0.0152, -0.0018,
+         0.0298,  0.0197], device='cuda:0'), grad: tensor([ 1.0157e-04,  8.9121e-04, -4.4584e-04,  2.4486e-04,  6.1214e-05,
+         9.5665e-05, -1.4670e-05, -4.7073e-03,  7.1716e-04,  3.0556e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 49----------------------------------------------------
+epoch 49, time 273.89, cls_loss 0.0141 cls_loss_mapping 0.0260 cls_loss_causal 0.6992 re_mapping 0.0151 re_causal 0.0427 /// teacc 98.85 lr 0.00010000
+Epoch 51, weight, value: tensor([[-0.0082, -0.0544, -0.0297,  ..., -0.0014, -0.0907,  0.0010],
+        [-0.0314, -0.0765, -0.0682,  ..., -0.0574, -0.0109, -0.0244],
+        [ 0.0385,  0.0468, -0.0558,  ..., -0.0650, -0.0694, -0.0357],
+        ...,
+        [ 0.0032,  0.0178, -0.0099,  ..., -0.0293, -0.0774,  0.0419],
+        [-0.0107,  0.0572,  0.0523,  ..., -0.0357,  0.0280, -0.0588],
+        [-0.0405, -0.0162,  0.0077,  ..., -0.0098, -0.0325,  0.0304]],
+       device='cuda:0'), grad: tensor([[ 8.0392e-06,  5.5671e-05,  4.0799e-05,  ...,  7.5065e-06,
+          2.8789e-05,  1.3210e-05],
+        [ 2.5535e-04,  1.0996e-03,  8.5974e-04,  ...,  3.6985e-05,
+          6.6376e-04, -1.7607e-04],
+        [ 1.3292e-04,  1.6165e-04,  1.6522e-04,  ...,  1.3299e-05,
+          1.4603e-04,  2.0945e-04],
+        ...,
+        [-4.4727e-04, -3.4690e-04,  7.5161e-05,  ...,  6.4559e-06,
+          3.3259e-05, -5.6219e-04],
+        [-3.4857e-04, -1.8396e-03, -1.5440e-03,  ..., -1.0914e-04,
+         -1.1425e-03,  2.5749e-05],
+        [ 1.1563e-04,  2.7728e-04,  9.8884e-05,  ...,  3.8296e-06,
+          7.1943e-05,  2.4283e-04]], device='cuda:0')
+Epoch 51, bias, value: tensor([ 0.0248, -0.0198, -0.0057,  0.0014,  0.0033, -0.0002, -0.0154, -0.0009,
+         0.0296,  0.0195], device='cuda:0'), grad: tensor([ 7.3731e-05,  2.0199e-03,  7.0620e-04,  4.5347e-04,  1.9097e-04,
+         1.8513e-04,  4.8923e-04, -9.7656e-04, -3.8376e-03,  6.9189e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 50, time 256.43, cls_loss 0.0106 cls_loss_mapping 0.0214 cls_loss_causal 0.6583 re_mapping 0.0148 re_causal 0.0445 /// teacc 98.76 lr 0.00010000
+Epoch 52, weight, value: tensor([[-0.0083, -0.0547, -0.0303,  ..., -0.0014, -0.0914,  0.0009],
+        [-0.0325, -0.0774, -0.0688,  ..., -0.0576, -0.0115, -0.0239],
+        [ 0.0396,  0.0476, -0.0563,  ..., -0.0652, -0.0699, -0.0357],
+        ...,
+        [ 0.0031,  0.0175, -0.0103,  ..., -0.0295, -0.0777,  0.0416],
+        [-0.0107,  0.0576,  0.0527,  ..., -0.0358,  0.0284, -0.0594],
+        [-0.0403, -0.0155,  0.0074,  ..., -0.0099, -0.0328,  0.0309]],
+       device='cuda:0'), grad: tensor([[ 1.0028e-05,  2.6822e-05,  1.8314e-05,  ...,  1.4879e-05,
+          1.6928e-05,  1.5274e-05],
+        [ 1.1563e-05,  1.6734e-05,  5.5581e-06,  ...,  1.7397e-06,
+          7.2457e-06, -2.5332e-05],
+        [ 5.0020e-04,  5.7507e-04,  1.0826e-05,  ...,  2.4009e-06,
+          1.5423e-05,  2.5988e-04],
+        ...,
+        [-5.8603e-04, -6.4993e-04,  3.2574e-05,  ...,  1.8277e-07,
+          3.3528e-05, -2.7657e-04],
+        [-1.8311e-04, -3.5596e-04, -2.3615e-04,  ...,  6.9439e-06,
+         -3.0899e-04, -5.0664e-05],
+        [ 1.2207e-04,  2.1958e-04,  2.0635e-04,  ...,  1.1735e-06,
+          2.4438e-04, -2.8491e-05]], device='cuda:0')
+Epoch 52, bias, value: tensor([ 2.4986e-02, -1.9963e-02, -5.0843e-03,  1.1135e-03,  2.9460e-03,
+        -5.9599e-05, -1.5603e-02, -8.7716e-04,  2.9459e-02,  1.9553e-02],
+       device='cuda:0'), grad: tensor([ 4.4823e-05, -5.0008e-05,  6.0368e-04,  4.2343e-04,  2.8685e-05,
+        -2.7871e-04, -2.4393e-05, -5.8556e-04, -2.8205e-04,  1.1867e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 51, time 256.54, cls_loss 0.0110 cls_loss_mapping 0.0227 cls_loss_causal 0.6552 re_mapping 0.0143 re_causal 0.0419 /// teacc 98.58 lr 0.00010000
+Epoch 53, weight, value: tensor([[-0.0076, -0.0550, -0.0312,  ..., -0.0019, -0.0925,  0.0008],
+        [-0.0331, -0.0779, -0.0695,  ..., -0.0580, -0.0122, -0.0238],
+        [ 0.0402,  0.0480, -0.0569,  ..., -0.0656, -0.0701, -0.0360],
+        ...,
+        [ 0.0027,  0.0173, -0.0107,  ..., -0.0295, -0.0787,  0.0417],
+        [-0.0097,  0.0587,  0.0532,  ..., -0.0367,  0.0291, -0.0597],
+        [-0.0405, -0.0156,  0.0069,  ..., -0.0101, -0.0332,  0.0311]],
+       device='cuda:0'), grad: tensor([[-8.5682e-08,  3.6657e-05,  6.1929e-05,  ...,  9.8571e-06,
+          3.7283e-05,  1.6969e-06],
+        [ 9.6932e-06,  3.4630e-05,  5.5969e-05,  ...,  1.2003e-05,
+          3.0905e-05, -3.0184e-04],
+        [ 3.8564e-05,  1.0413e-04,  1.5998e-04,  ...,  2.4408e-05,
+          9.6262e-05,  4.4078e-05],
+        ...,
+        [-1.8239e-04, -2.2411e-04,  2.9728e-05,  ...,  3.5241e-06,
+          5.0068e-06, -1.2219e-04],
+        [ 3.3593e-04, -9.4986e-04, -2.3289e-03,  ..., -9.5320e-04,
+         -9.9850e-04,  1.2770e-05],
+        [ 4.9204e-05,  8.2552e-05,  6.8784e-05,  ...,  9.1270e-06,
+          3.9369e-05,  4.9561e-05]], device='cuda:0')
+Epoch 53, bias, value: tensor([ 2.4774e-02, -1.9746e-02, -5.0063e-03,  1.0615e-03,  3.1965e-03,
+        -6.8045e-05, -1.5259e-02, -1.4891e-03,  2.9790e-02,  1.9421e-02],
+       device='cuda:0'), grad: tensor([ 4.3690e-05, -8.3351e-04,  2.7442e-04,  3.4595e-04,  4.8113e-04,
+        -1.6823e-03,  2.7122e-03, -1.7488e-04, -1.3523e-03,  1.9014e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 52, time 256.48, cls_loss 0.0099 cls_loss_mapping 0.0242 cls_loss_causal 0.6785 re_mapping 0.0151 re_causal 0.0448 /// teacc 98.82 lr 0.00010000
+Epoch 54, weight, value: tensor([[-0.0065, -0.0554, -0.0315,  ..., -0.0036, -0.0928,  0.0015],
+        [-0.0338, -0.0795, -0.0703,  ..., -0.0578, -0.0129, -0.0237],
+        [ 0.0403,  0.0479, -0.0574,  ..., -0.0660, -0.0708, -0.0364],
+        ...,
+        [ 0.0028,  0.0178, -0.0110,  ..., -0.0298, -0.0795,  0.0419],
+        [-0.0095,  0.0594,  0.0538,  ..., -0.0368,  0.0300, -0.0599],
+        [-0.0409, -0.0158,  0.0065,  ..., -0.0102, -0.0337,  0.0310]],
+       device='cuda:0'), grad: tensor([[-6.2466e-05,  8.2612e-05,  3.8356e-05,  ...,  9.6142e-05,
+          3.5435e-05, -1.6363e-06],
+        [ 8.9705e-06, -2.7633e-04,  2.9117e-05,  ...,  1.0389e-04,
+          2.9534e-05, -2.2483e-04],
+        [-7.6532e-05,  7.1406e-05,  3.2693e-05,  ...,  6.3300e-05,
+          3.2514e-05,  2.2441e-05],
+        ...,
+        [ 3.3557e-05,  1.3602e-04,  1.1429e-05,  ...,  1.6406e-05,
+          1.1422e-05,  1.4913e-04],
+        [-2.2903e-05,  1.3232e-04, -1.6525e-05,  ...,  8.2672e-05,
+         -1.8671e-05,  8.4519e-05],
+        [ 1.4566e-05, -1.1331e-04,  3.2634e-05,  ...,  3.5286e-05,
+          2.5839e-05, -2.1899e-04]], device='cuda:0')
+Epoch 54, bias, value: tensor([ 0.0254, -0.0202, -0.0054,  0.0010,  0.0031,  0.0003, -0.0152, -0.0012,
+         0.0303,  0.0189], device='cuda:0'), grad: tensor([ 0.0002, -0.0014,  0.0002,  0.0004,  0.0015,  0.0007, -0.0027,  0.0005,
+         0.0008, -0.0002], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 53, time 256.63, cls_loss 0.0097 cls_loss_mapping 0.0218 cls_loss_causal 0.6871 re_mapping 0.0138 re_causal 0.0428 /// teacc 98.57 lr 0.00010000
+Epoch 55, weight, value: tensor([[-0.0062, -0.0556, -0.0319,  ..., -0.0041, -0.0933,  0.0016],
+        [-0.0343, -0.0795, -0.0705,  ..., -0.0584, -0.0132, -0.0221],
+        [ 0.0406,  0.0479, -0.0579,  ..., -0.0661, -0.0715, -0.0370],
+        ...,
+        [ 0.0033,  0.0181, -0.0113,  ..., -0.0297, -0.0798,  0.0417],
+        [-0.0093,  0.0597,  0.0541,  ..., -0.0374,  0.0303, -0.0607],
+        [-0.0411, -0.0157,  0.0061,  ..., -0.0100, -0.0341,  0.0316]],
+       device='cuda:0'), grad: tensor([[-2.1920e-05, -4.6613e-07, -1.9129e-06,  ..., -3.6191e-06,
+          8.2254e-06, -6.3628e-06],
+        [ 3.3021e-05,  2.6911e-05,  1.0483e-05,  ...,  1.4789e-06,
+          1.3120e-05, -4.0196e-06],
+        [-1.4627e-04, -1.3947e-04,  7.1824e-06,  ...,  1.9912e-06,
+          9.2685e-06, -2.7511e-06],
+        ...,
+        [ 6.3255e-06,  1.3866e-05,  7.0892e-06,  ...,  4.2561e-07,
+          1.9697e-07, -1.9163e-05],
+        [ 8.0705e-05,  8.4162e-05,  3.7313e-05,  ...,  7.6517e-06,
+          2.9400e-05,  1.3083e-05],
+        [ 5.4352e-06,  2.8871e-06,  2.2084e-05,  ...,  1.0598e-06,
+          2.2009e-05,  1.4221e-06]], device='cuda:0')
+Epoch 55, bias, value: tensor([ 0.0257, -0.0192, -0.0056,  0.0016,  0.0026, -0.0003, -0.0152, -0.0015,
+         0.0300,  0.0190], device='cuda:0'), grad: tensor([-8.0884e-05,  5.7131e-05, -1.8907e-04,  1.3804e-04,  1.9237e-05,
+        -2.2602e-04,  3.6478e-05,  8.7023e-06,  1.9240e-04,  4.3482e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 54, time 256.27, cls_loss 0.0101 cls_loss_mapping 0.0190 cls_loss_causal 0.6973 re_mapping 0.0147 re_causal 0.0428 /// teacc 98.75 lr 0.00010000
+Epoch 56, weight, value: tensor([[-0.0057, -0.0559, -0.0323,  ..., -0.0044, -0.0937,  0.0016],
+        [-0.0362, -0.0805, -0.0708,  ..., -0.0582, -0.0134, -0.0224],
+        [ 0.0415,  0.0480, -0.0584,  ..., -0.0663, -0.0722, -0.0368],
+        ...,
+        [ 0.0036,  0.0187, -0.0119,  ..., -0.0301, -0.0804,  0.0423],
+        [-0.0092,  0.0601,  0.0542,  ..., -0.0379,  0.0305, -0.0615],
+        [-0.0413, -0.0159,  0.0057,  ..., -0.0103, -0.0345,  0.0319]],
+       device='cuda:0'), grad: tensor([[-4.1239e-06,  4.3660e-06,  6.6943e-06,  ...,  4.4890e-06,
+          4.7050e-06,  4.2059e-06],
+        [ 9.5665e-06,  1.1556e-05,  5.8338e-06,  ...,  8.9081e-07,
+          8.4862e-06, -2.4050e-05],
+        [ 1.0058e-05,  9.9987e-06,  9.0748e-06,  ...,  1.1185e-06,
+          1.0848e-05,  1.1101e-05],
+        ...,
+        [-5.5879e-05, -2.5779e-05,  3.1758e-06,  ...,  8.0792e-08,
+          6.6496e-06, -3.6031e-05],
+        [ 6.3935e-07, -9.0823e-06, -2.8089e-06,  ...,  3.5092e-06,
+          1.9581e-07,  1.0215e-05],
+        [ 1.6494e-06, -3.6992e-06,  5.6140e-06,  ...,  4.5146e-07,
+          6.4746e-06,  4.1560e-07]], device='cuda:0')
+Epoch 56, bias, value: tensor([ 2.6025e-02, -1.9512e-02, -5.2482e-03,  1.1847e-03,  2.9592e-03,
+         5.2053e-05, -1.5376e-02, -1.5131e-03,  2.9576e-02,  1.8909e-02],
+       device='cuda:0'), grad: tensor([ 6.3963e-06, -4.5359e-05,  5.3108e-05, -8.3670e-06, -1.3128e-05,
+         3.2276e-05, -1.3664e-05, -6.8188e-05,  4.5329e-05,  1.1414e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 55, time 256.56, cls_loss 0.0080 cls_loss_mapping 0.0194 cls_loss_causal 0.6532 re_mapping 0.0137 re_causal 0.0410 /// teacc 98.75 lr 0.00010000
+Epoch 57, weight, value: tensor([[-0.0053, -0.0566, -0.0332,  ..., -0.0050, -0.0945,  0.0015],
+        [-0.0367, -0.0806, -0.0716,  ..., -0.0593, -0.0137, -0.0221],
+        [ 0.0418,  0.0482, -0.0590,  ..., -0.0669, -0.0730, -0.0372],
+        ...,
+        [ 0.0038,  0.0189, -0.0122,  ..., -0.0301, -0.0808,  0.0427],
+        [-0.0090,  0.0605,  0.0544,  ..., -0.0383,  0.0307, -0.0623],
+        [-0.0414, -0.0159,  0.0054,  ..., -0.0106, -0.0348,  0.0319]],
+       device='cuda:0'), grad: tensor([[-3.6687e-05,  2.8327e-05,  6.9439e-05,  ...,  8.3819e-06,
+          8.4221e-05,  3.3051e-05],
+        [ 4.7177e-05,  6.3717e-05,  3.5584e-05,  ...,  5.2564e-06,
+          4.6641e-05, -3.5256e-05],
+        [-1.0079e-04, -1.1605e-04,  6.1154e-05,  ...,  9.8869e-06,
+          5.4270e-05,  3.4094e-05],
+        ...,
+        [ 2.5681e-07,  7.9200e-06,  2.3872e-05,  ...,  1.0813e-06,
+          4.1336e-05,  3.3170e-05],
+        [-7.2658e-05, -9.3341e-05, -3.3069e-04,  ...,  1.4879e-05,
+         -3.2592e-04,  2.5108e-05],
+        [ 3.5733e-05, -9.9838e-06,  1.3411e-04,  ...,  5.1595e-06,
+          4.7922e-05, -3.4523e-04]], device='cuda:0')
+Epoch 57, bias, value: tensor([ 0.0261, -0.0193, -0.0053,  0.0011,  0.0034,  0.0001, -0.0154, -0.0016,
+         0.0293,  0.0187], device='cuda:0'), grad: tensor([ 9.3222e-05,  9.5248e-05, -6.8426e-05,  4.0894e-03,  7.0953e-04,
+        -3.4027e-03, -4.0531e-04,  2.0909e-04, -1.4853e-04, -1.1683e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 56----------------------------------------------------
+epoch 56, time 272.32, cls_loss 0.0099 cls_loss_mapping 0.0215 cls_loss_causal 0.6489 re_mapping 0.0136 re_causal 0.0397 /// teacc 98.87 lr 0.00010000
+Epoch 58, weight, value: tensor([[-0.0047, -0.0571, -0.0346,  ..., -0.0052, -0.0960,  0.0012],
+        [-0.0378, -0.0816, -0.0732,  ..., -0.0597, -0.0148, -0.0221],
+        [ 0.0421,  0.0484, -0.0596,  ..., -0.0672, -0.0737, -0.0378],
+        ...,
+        [ 0.0042,  0.0192, -0.0126,  ..., -0.0301, -0.0811,  0.0430],
+        [-0.0090,  0.0610,  0.0551,  ..., -0.0386,  0.0315, -0.0632],
+        [-0.0414, -0.0157,  0.0048,  ..., -0.0107, -0.0353,  0.0323]],
+       device='cuda:0'), grad: tensor([[ 2.0996e-05,  1.5855e-05,  2.0802e-05,  ...,  5.8077e-06,
+          1.9774e-05,  1.2510e-05],
+        [ 1.3843e-05,  8.2254e-06,  6.7763e-06,  ...,  1.4007e-06,
+          9.0972e-06, -6.4313e-05],
+        [ 4.0412e-05,  3.1769e-05,  1.5095e-05,  ...,  1.1250e-06,
+          2.6554e-05,  4.6581e-05],
+        ...,
+        [-5.6934e-04, -4.5687e-05,  1.9491e-05,  ...,  3.7402e-06,
+          2.3618e-05, -5.8413e-04],
+        [ 1.1575e-04,  4.2111e-05,  1.4508e-04,  ...,  4.2439e-05,
+          1.4496e-04,  4.2945e-05],
+        [-8.4519e-05, -2.3031e-04,  2.5883e-05,  ...,  1.5534e-06,
+         -6.5491e-06, -5.8860e-05]], device='cuda:0')
+Epoch 58, bias, value: tensor([ 0.0261, -0.0199, -0.0057,  0.0014,  0.0035,  0.0008, -0.0158, -0.0011,
+         0.0292,  0.0186], device='cuda:0'), grad: tensor([ 5.3555e-05, -1.2040e-04,  1.2493e-04,  9.1374e-05,  9.8419e-04,
+        -1.3363e-04,  1.4663e-04, -9.8515e-04,  2.8419e-04, -4.4441e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 57, time 257.23, cls_loss 0.0075 cls_loss_mapping 0.0161 cls_loss_causal 0.6540 re_mapping 0.0135 re_causal 0.0404 /// teacc 98.85 lr 0.00010000
+Epoch 59, weight, value: tensor([[-0.0043, -0.0574, -0.0350,  ..., -0.0056, -0.0964,  0.0010],
+        [-0.0386, -0.0820, -0.0736,  ..., -0.0602, -0.0151, -0.0220],
+        [ 0.0425,  0.0487, -0.0600,  ..., -0.0674, -0.0742, -0.0382],
+        ...,
+        [ 0.0040,  0.0192, -0.0132,  ..., -0.0303, -0.0815,  0.0433],
+        [-0.0089,  0.0611,  0.0552,  ..., -0.0393,  0.0316, -0.0638],
+        [-0.0412, -0.0152,  0.0045,  ..., -0.0109, -0.0355,  0.0326]],
+       device='cuda:0'), grad: tensor([[-4.0866e-06,  1.8269e-05,  1.7509e-05,  ...,  7.7561e-06,
+          8.9705e-06, -6.4410e-06],
+        [ 5.1886e-05,  6.9439e-05,  2.7969e-05,  ...,  1.0476e-05,
+          1.3188e-05,  5.6207e-05],
+        [ 5.7489e-05,  7.0870e-05,  3.5673e-05,  ...,  1.1899e-05,
+          1.6958e-05,  6.2287e-05],
+        ...,
+        [-3.2258e-04, -4.3583e-04,  4.8019e-06,  ...,  1.1846e-06,
+          2.5313e-06, -5.1641e-04],
+        [-5.5695e-04, -6.6614e-04, -9.9468e-04,  ..., -3.0732e-04,
+         -4.1223e-04,  3.7432e-05],
+        [ 1.9050e-04,  2.0289e-04,  8.7738e-05,  ...,  9.8124e-06,
+          1.6958e-05,  2.3067e-04]], device='cuda:0')
+Epoch 59, bias, value: tensor([ 0.0260, -0.0197, -0.0057,  0.0018,  0.0029,  0.0007, -0.0155, -0.0014,
+         0.0289,  0.0189], device='cuda:0'), grad: tensor([-1.1377e-05,  1.4377e-04,  1.6296e-04,  1.6797e-04, -3.3259e-04,
+         2.3234e-04,  9.4175e-04, -9.5749e-04, -1.0929e-03,  7.4482e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 58, time 256.63, cls_loss 0.0075 cls_loss_mapping 0.0174 cls_loss_causal 0.6943 re_mapping 0.0128 re_causal 0.0410 /// teacc 98.68 lr 0.00010000
+Epoch 60, weight, value: tensor([[-0.0033, -0.0574, -0.0356,  ..., -0.0059, -0.0973,  0.0013],
+        [-0.0390, -0.0822, -0.0740,  ..., -0.0599, -0.0155, -0.0215],
+        [ 0.0427,  0.0484, -0.0607,  ..., -0.0675, -0.0750, -0.0385],
+        ...,
+        [ 0.0044,  0.0196, -0.0135,  ..., -0.0309, -0.0820,  0.0435],
+        [-0.0084,  0.0619,  0.0557,  ..., -0.0397,  0.0323, -0.0643],
+        [-0.0413, -0.0151,  0.0041,  ..., -0.0112, -0.0359,  0.0326]],
+       device='cuda:0'), grad: tensor([[-7.5758e-05,  1.5259e-05,  1.0878e-05,  ...,  4.6156e-06,
+          3.9414e-06, -1.5825e-05],
+        [ 1.4119e-05,  1.7986e-05, -2.9624e-05,  ...,  1.5777e-06,
+          8.2627e-06, -1.0288e-04],
+        [-1.2779e-04, -4.1306e-05,  1.6987e-05,  ..., -2.5094e-05,
+         -3.5524e-05,  1.6376e-05],
+        ...,
+        [-1.2165e-04, -2.0647e-04,  3.8128e-06,  ...,  1.2880e-06,
+          4.6603e-06, -1.7536e-04],
+        [-3.0939e-06, -2.5183e-05, -7.7710e-06,  ...,  9.4697e-06,
+         -3.1739e-05,  5.2720e-05],
+        [ 9.8467e-05,  1.5581e-04,  1.2472e-05,  ...,  2.3041e-06,
+          7.9051e-06,  1.4436e-04]], device='cuda:0')
+Epoch 60, bias, value: tensor([ 0.0263, -0.0194, -0.0060,  0.0016,  0.0022,  0.0005, -0.0152, -0.0016,
+         0.0292,  0.0192], device='cuda:0'), grad: tensor([-9.4235e-05, -2.4128e-04, -2.2650e-04,  3.3760e-04, -1.3268e-04,
+         9.8169e-05,  6.7532e-05, -2.4462e-04,  1.0645e-04,  3.2949e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 59, time 256.55, cls_loss 0.0119 cls_loss_mapping 0.0243 cls_loss_causal 0.6653 re_mapping 0.0133 re_causal 0.0384 /// teacc 98.83 lr 0.00010000
+Epoch 61, weight, value: tensor([[-0.0025, -0.0581, -0.0366,  ..., -0.0061, -0.0985,  0.0009],
+        [-0.0402, -0.0831, -0.0746,  ..., -0.0614, -0.0161, -0.0213],
+        [ 0.0433,  0.0485, -0.0611,  ..., -0.0679, -0.0753, -0.0390],
+        ...,
+        [ 0.0048,  0.0202, -0.0138,  ..., -0.0311, -0.0824,  0.0438],
+        [-0.0084,  0.0626,  0.0563,  ..., -0.0403,  0.0327, -0.0653],
+        [-0.0416, -0.0149,  0.0036,  ..., -0.0117, -0.0364,  0.0323]],
+       device='cuda:0'), grad: tensor([[-4.7255e-04, -1.9872e-04, -2.6539e-05,  ...,  1.3527e-07,
+          5.0059e-07, -8.3625e-05],
+        [ 1.5914e-05,  4.2506e-06,  5.8413e-06,  ...,  3.1199e-08,
+          6.6347e-06, -3.2097e-05],
+        [-1.3459e-04, -3.9315e-04,  6.2026e-06,  ...,  4.9360e-08,
+         -4.7177e-05, -8.6784e-05],
+        ...,
+        [ 8.6963e-05,  1.3745e-04,  2.9169e-06,  ...,  3.8883e-08,
+          2.1473e-05,  4.9531e-05],
+        [ 3.6359e-04,  2.5964e-04,  5.4955e-05,  ...,  7.1339e-06,
+          4.6432e-05,  9.1076e-05],
+        [ 1.2159e-05, -1.3433e-05,  9.2462e-06,  ...,  2.0419e-07,
+          8.3521e-06, -1.6347e-05]], device='cuda:0')
+Epoch 61, bias, value: tensor([ 0.0256, -0.0197, -0.0064,  0.0016,  0.0039,  0.0004, -0.0149, -0.0014,
+         0.0291,  0.0187], device='cuda:0'), grad: tensor([-7.3814e-04, -5.1796e-05, -3.6168e-04,  2.4116e-04, -1.7130e-04,
+        -2.6122e-05,  1.1581e-04,  2.5010e-04,  6.6566e-04,  7.7009e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 60, time 256.64, cls_loss 0.0105 cls_loss_mapping 0.0198 cls_loss_causal 0.6604 re_mapping 0.0135 re_causal 0.0376 /// teacc 98.67 lr 0.00010000
+Epoch 62, weight, value: tensor([[-0.0020, -0.0589, -0.0371,  ..., -0.0070, -0.0995,  0.0003],
+        [-0.0412, -0.0838, -0.0751,  ..., -0.0620, -0.0167, -0.0210],
+        [ 0.0437,  0.0489, -0.0618,  ..., -0.0684, -0.0758, -0.0395],
+        ...,
+        [ 0.0050,  0.0201, -0.0142,  ..., -0.0312, -0.0836,  0.0437],
+        [-0.0082,  0.0630,  0.0564,  ..., -0.0404,  0.0327, -0.0657],
+        [-0.0418, -0.0146,  0.0030,  ..., -0.0120, -0.0370,  0.0328]],
+       device='cuda:0'), grad: tensor([[ 1.8597e-05,  2.8044e-05,  1.5989e-05,  ...,  1.3925e-05,
+          9.0748e-06,  2.0713e-05],
+        [ 3.1519e-04,  2.5225e-04,  5.1111e-06,  ...,  2.6617e-06,
+          3.2961e-05,  3.4285e-04],
+        [ 9.5558e-04,  1.7715e-04,  8.6501e-06,  ...,  1.3057e-06,
+          3.3379e-05,  5.5170e-04],
+        ...,
+        [-2.3117e-03, -1.0376e-03,  7.4059e-06,  ...,  2.7730e-07,
+         -5.0694e-05, -1.8702e-03],
+        [ 2.5988e-04,  1.9896e-04,  2.8070e-06,  ...,  6.0759e-06,
+          3.0383e-05,  2.9850e-04],
+        [ 2.2262e-05,  7.5325e-06,  1.2174e-05,  ...,  8.8429e-07,
+          3.0473e-05,  3.4064e-05]], device='cuda:0')
+Epoch 62, bias, value: tensor([ 0.0256, -0.0197, -0.0066,  0.0023,  0.0036,  0.0005, -0.0154, -0.0013,
+         0.0289,  0.0189], device='cuda:0'), grad: tensor([ 7.1347e-05,  5.7030e-04,  1.3256e-03, -2.6989e-04,  6.0987e-04,
+         7.8773e-04, -3.0375e-04, -3.3932e-03,  5.3120e-04,  6.8486e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 61, time 256.87, cls_loss 0.0075 cls_loss_mapping 0.0179 cls_loss_causal 0.6402 re_mapping 0.0133 re_causal 0.0395 /// teacc 98.83 lr 0.00010000
+Epoch 63, weight, value: tensor([[-0.0015, -0.0593, -0.0376,  ..., -0.0071, -0.1002,  0.0002],
+        [-0.0419, -0.0842, -0.0755,  ..., -0.0623, -0.0170, -0.0208],
+        [ 0.0436,  0.0486, -0.0628,  ..., -0.0686, -0.0765, -0.0403],
+        ...,
+        [ 0.0059,  0.0209, -0.0145,  ..., -0.0312, -0.0840,  0.0442],
+        [-0.0077,  0.0637,  0.0572,  ..., -0.0406,  0.0336, -0.0664],
+        [-0.0418, -0.0148,  0.0028,  ..., -0.0119, -0.0373,  0.0332]],
+       device='cuda:0'), grad: tensor([[-9.2626e-05, -1.3493e-05,  1.6704e-05,  ...,  1.5367e-08,
+          1.1615e-05, -1.6997e-06],
+        [ 1.8314e-05,  2.9549e-05,  7.3910e-06,  ...,  2.7940e-09,
+          7.7859e-06, -3.8520e-06],
+        [-1.3441e-05, -6.7912e-06,  7.4394e-06,  ...,  1.8626e-09,
+          9.2983e-06,  1.1206e-05],
+        ...,
+        [-7.1228e-05, -1.7297e-04,  1.1593e-05,  ...,  1.2340e-08,
+          8.9630e-06, -9.3758e-05],
+        [-1.2845e-05, -4.3303e-05, -6.6519e-05,  ...,  9.4064e-08,
+         -5.2661e-05,  5.9903e-06],
+        [ 1.1164e-04,  1.6224e-04,  1.0425e-04,  ...,  7.7300e-08,
+          7.6830e-05,  6.1631e-05]], device='cuda:0')
+Epoch 63, bias, value: tensor([ 2.5724e-02, -1.9717e-02, -7.1135e-03,  2.3144e-03,  4.1779e-03,
+         7.1365e-05, -1.5483e-02, -6.1219e-04,  2.9038e-02,  1.8492e-02],
+       device='cuda:0'), grad: tensor([-3.6120e-04,  1.3590e-05,  3.4958e-05,  3.6329e-05,  2.3365e-05,
+        -1.4639e-04,  1.8370e-04, -1.6606e-04,  3.0324e-06,  3.7885e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 62, time 256.34, cls_loss 0.0081 cls_loss_mapping 0.0177 cls_loss_causal 0.6572 re_mapping 0.0129 re_causal 0.0375 /// teacc 98.83 lr 0.00010000
+Epoch 64, weight, value: tensor([[-1.2839e-03, -5.9813e-02, -3.8527e-02,  ..., -7.4525e-03,
+         -1.0122e-01, -4.0430e-05],
+        [-4.2566e-02, -8.5597e-02, -7.6964e-02,  ..., -6.4692e-02,
+         -1.8765e-02, -2.0637e-02],
+        [ 4.3938e-02,  4.8839e-02, -6.3455e-02,  ..., -6.8890e-02,
+         -7.6510e-02, -4.0566e-02],
+        ...,
+        [ 6.4619e-03,  2.1703e-02, -1.4420e-02,  ..., -3.1293e-02,
+         -8.3626e-02,  4.4538e-02],
+        [-7.8719e-03,  6.4043e-02,  5.7459e-02,  ..., -4.0561e-02,
+          3.3759e-02, -6.7257e-02],
+        [-4.2224e-02, -1.4898e-02,  2.3034e-03,  ..., -1.2204e-02,
+         -3.7643e-02,  3.3122e-02]], device='cuda:0'), grad: tensor([[-6.7055e-06,  6.2548e-06,  9.1493e-06,  ...,  1.3206e-06,
+          8.6129e-06,  5.8077e-06],
+        [ 1.0341e-05,  1.2919e-05,  7.0855e-06,  ..., -4.9360e-07,
+          1.6138e-05, -4.0472e-05],
+        [ 1.9118e-05,  2.0444e-05,  1.1280e-05,  ...,  7.3947e-07,
+          4.4405e-05,  6.6876e-05],
+        ...,
+        [ 1.8284e-05,  1.0476e-05,  5.0813e-06,  ...,  1.6298e-07,
+          1.8612e-05,  2.9549e-05],
+        [ 3.1646e-06, -1.4147e-06,  4.5896e-05,  ...,  7.4729e-06,
+          3.3557e-05,  2.8133e-05],
+        [ 7.2047e-06,  1.6708e-06,  1.4082e-05,  ...,  1.9511e-07,
+          1.3314e-05, -1.1194e-06]], device='cuda:0')
+Epoch 64, bias, value: tensor([ 2.5741e-02, -2.0571e-02, -6.7446e-03,  1.7965e-03,  4.4808e-03,
+         7.8124e-04, -1.5096e-02, -3.4100e-05,  2.8628e-02,  1.7988e-02],
+       device='cuda:0'), grad: tensor([ 5.0999e-06, -3.8147e-05,  1.3852e-04, -2.4605e-04,  2.1905e-05,
+        -1.4853e-04,  8.8751e-05,  7.4267e-05,  7.9036e-05,  2.5004e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 63, time 255.97, cls_loss 0.0073 cls_loss_mapping 0.0165 cls_loss_causal 0.6767 re_mapping 0.0126 re_causal 0.0384 /// teacc 98.69 lr 0.00010000
+Epoch 65, weight, value: tensor([[-0.0009, -0.0603, -0.0389,  ..., -0.0079, -0.1018, -0.0001],
+        [-0.0431, -0.0852, -0.0774,  ..., -0.0651, -0.0188, -0.0193],
+        [ 0.0445,  0.0494, -0.0641,  ..., -0.0692, -0.0769, -0.0410],
+        ...,
+        [ 0.0058,  0.0214, -0.0163,  ..., -0.0314, -0.0843,  0.0438],
+        [-0.0076,  0.0649,  0.0584,  ..., -0.0404,  0.0344, -0.0680],
+        [-0.0422, -0.0144,  0.0020,  ..., -0.0123, -0.0379,  0.0337]],
+       device='cuda:0'), grad: tensor([[-2.0906e-05, -4.0770e-04, -4.5323e-04,  ...,  2.8908e-05,
+          2.9922e-05, -6.9427e-04],
+        [ 5.1916e-05,  7.2598e-05,  1.4171e-05,  ...,  2.0694e-06,
+          7.3947e-06, -8.3745e-05],
+        [ 8.6650e-06,  1.5512e-05,  1.0177e-05,  ...,  8.3540e-07,
+          1.6272e-05,  4.1366e-05],
+        ...,
+        [-7.0274e-05, -9.0241e-05,  7.7188e-06,  ...,  2.7288e-07,
+          1.4760e-05, -1.2565e-04],
+        [ 2.7746e-05,  9.0003e-05,  1.3483e-04,  ...,  4.6045e-05,
+          9.2268e-05,  8.0764e-05],
+        [ 3.3118e-06,  3.3993e-06,  2.6301e-05,  ...,  3.0231e-06,
+          9.0972e-06,  2.4036e-05]], device='cuda:0')
+Epoch 65, bias, value: tensor([ 0.0258, -0.0199, -0.0064,  0.0017,  0.0040,  0.0016, -0.0159, -0.0013,
+         0.0288,  0.0185], device='cuda:0'), grad: tensor([-2.8629e-03, -2.4819e-04,  1.1051e-04, -6.5088e-05,  4.2701e-04,
+         2.5635e-03, -6.2108e-05, -2.2542e-04,  2.5368e-04,  1.0800e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 64, time 256.28, cls_loss 0.0082 cls_loss_mapping 0.0175 cls_loss_causal 0.6467 re_mapping 0.0116 re_causal 0.0363 /// teacc 98.81 lr 0.00010000
+Epoch 66, weight, value: tensor([[-0.0007, -0.0610, -0.0394,  ..., -0.0085, -0.1027, -0.0002],
+        [-0.0435, -0.0846, -0.0780,  ..., -0.0653, -0.0195, -0.0190],
+        [ 0.0446,  0.0491, -0.0648,  ..., -0.0694, -0.0772, -0.0409],
+        ...,
+        [ 0.0057,  0.0212, -0.0170,  ..., -0.0314, -0.0852,  0.0437],
+        [-0.0069,  0.0657,  0.0591,  ..., -0.0409,  0.0351, -0.0693],
+        [-0.0418, -0.0139,  0.0020,  ..., -0.0125, -0.0379,  0.0344]],
+       device='cuda:0'), grad: tensor([[-2.6189e-06,  5.5842e-06,  2.4159e-06,  ...,  2.0806e-06,
+          1.8552e-06, -8.0094e-06],
+        [ 1.2003e-05,  1.6242e-05,  9.6671e-07,  ...,  1.6950e-07,
+          1.6708e-06, -1.3029e-06],
+        [-6.3837e-05, -1.9446e-05,  7.3528e-07,  ...,  9.6625e-08,
+          2.2929e-06,  8.6650e-06],
+        ...,
+        [ 1.8282e-06, -2.2113e-05,  2.1467e-07,  ...,  1.3271e-08,
+          1.2062e-05, -3.2187e-05],
+        [ 6.0052e-06,  2.3115e-06, -7.0687e-07,  ...,  9.7509e-07,
+          1.1614e-06,  7.3835e-06],
+        [ 1.7628e-05,  3.7521e-05,  7.5856e-07,  ...,  2.1746e-07,
+          1.1818e-06,  3.8218e-04]], device='cuda:0')
+Epoch 66, bias, value: tensor([ 0.0259, -0.0201, -0.0060,  0.0016,  0.0039,  0.0014, -0.0165, -0.0016,
+         0.0289,  0.0191], device='cuda:0'), grad: tensor([ 3.6389e-05,  1.6540e-05, -1.8668e-04,  5.8562e-05, -2.2316e-03,
+         1.5795e-05,  1.5661e-05,  4.3154e-05,  3.8087e-05,  2.1915e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 65----------------------------------------------------
+epoch 65, time 273.92, cls_loss 0.0075 cls_loss_mapping 0.0167 cls_loss_causal 0.6222 re_mapping 0.0125 re_causal 0.0367 /// teacc 98.88 lr 0.00010000
+Epoch 67, weight, value: tensor([[-2.0603e-05, -6.1639e-02, -4.0704e-02,  ..., -8.9565e-03,
+         -1.0458e-01, -2.6783e-04],
+        [-4.4231e-02, -8.5306e-02, -7.8906e-02,  ..., -6.6170e-02,
+         -2.0162e-02, -1.9085e-02],
+        [ 4.4850e-02,  4.9048e-02, -6.5618e-02,  ..., -6.9612e-02,
+         -7.8054e-02, -4.1381e-02],
+        ...,
+        [ 5.4832e-03,  2.1248e-02, -1.7342e-02,  ..., -3.1538e-02,
+         -8.6029e-02,  4.3753e-02],
+        [-6.6382e-03,  6.6384e-02,  5.9615e-02,  ..., -4.1311e-02,
+          3.5609e-02, -6.9969e-02],
+        [-4.2128e-02, -1.3857e-02,  1.6435e-03,  ..., -1.2707e-02,
+         -3.8092e-02,  3.4588e-02]], device='cuda:0'), grad: tensor([[ 3.7514e-06,  8.4639e-06,  1.0662e-05,  ...,  2.0713e-06,
+          1.2428e-05,  4.7274e-06],
+        [ 5.3912e-05,  5.1826e-05,  7.1079e-06,  ...,  5.4203e-07,
+          8.7842e-06,  5.4896e-05],
+        [-2.5645e-05,  4.3124e-05,  1.4111e-05,  ...,  1.7486e-07,
+         -2.0936e-05,  2.5034e-05],
+        ...,
+        [-1.1146e-04, -1.0026e-04,  1.0125e-05,  ...,  1.9092e-07,
+          2.3052e-05, -1.4460e-04],
+        [ 1.1402e-04,  3.2282e-04,  1.0359e-04,  ...,  3.8818e-06,
+          1.3340e-04,  1.5092e-04],
+        [-1.3745e-04, -5.0020e-04, -1.6367e-04,  ...,  5.4622e-07,
+         -1.2362e-04, -2.3615e-04]], device='cuda:0')
+Epoch 67, bias, value: tensor([ 0.0258, -0.0206, -0.0063,  0.0020,  0.0039,  0.0017, -0.0163, -0.0016,
+         0.0291,  0.0191], device='cuda:0'), grad: tensor([ 3.0458e-05,  7.0810e-05, -1.8072e-04, -4.7088e-04,  1.7321e-04,
+         5.4169e-04, -2.5779e-06, -1.3900e-04,  5.0306e-04, -5.2595e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 66, time 256.83, cls_loss 0.0078 cls_loss_mapping 0.0165 cls_loss_causal 0.6682 re_mapping 0.0121 re_causal 0.0377 /// teacc 98.65 lr 0.00010000
+Epoch 68, weight, value: tensor([[ 0.0007, -0.0622, -0.0405,  ..., -0.0097, -0.1043, -0.0007],
+        [-0.0450, -0.0860, -0.0793,  ..., -0.0666, -0.0204, -0.0186],
+        [ 0.0449,  0.0487, -0.0662,  ..., -0.0697, -0.0787, -0.0422],
+        ...,
+        [ 0.0064,  0.0224, -0.0175,  ..., -0.0316, -0.0862,  0.0442],
+        [-0.0064,  0.0670,  0.0602,  ..., -0.0415,  0.0361, -0.0708],
+        [-0.0423, -0.0137,  0.0009,  ..., -0.0130, -0.0387,  0.0351]],
+       device='cuda:0'), grad: tensor([[ 6.2436e-06,  9.9391e-06,  5.4985e-05,  ...,  3.0044e-06,
+          3.3170e-05,  3.3796e-05],
+        [ 1.5870e-05, -1.7166e-05,  2.4900e-05,  ...,  6.3470e-07,
+          1.4082e-05, -2.7999e-05],
+        [ 9.5785e-05,  1.3685e-04,  1.2703e-05,  ...,  4.7497e-07,
+          1.0140e-05,  2.4140e-05],
+        ...,
+        [-1.1319e-04, -1.0139e-04,  1.1958e-05,  ...,  1.8231e-07,
+          7.1637e-06,  1.6809e-04],
+        [ 2.2322e-05,  2.5719e-05,  8.5771e-05,  ...,  2.9653e-06,
+          4.6939e-05,  5.4091e-05],
+        [-1.1510e-04, -1.6177e-04,  2.9221e-05,  ...,  1.0515e-06,
+          1.7464e-05, -2.9731e-04]], device='cuda:0')
+Epoch 68, bias, value: tensor([ 0.0267, -0.0206, -0.0065,  0.0020,  0.0034,  0.0011, -0.0169, -0.0007,
+         0.0291,  0.0190], device='cuda:0'), grad: tensor([ 1.2094e-04,  5.5122e-04,  2.7823e-04,  5.2243e-05, -1.8225e-03,
+        -3.1877e-04,  2.3103e-04,  9.1267e-04,  2.0647e-04, -2.1327e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 67, time 255.57, cls_loss 0.0074 cls_loss_mapping 0.0166 cls_loss_causal 0.6581 re_mapping 0.0116 re_causal 0.0356 /// teacc 98.85 lr 0.00010000
+Epoch 69, weight, value: tensor([[ 8.7428e-04, -6.3210e-02, -4.1182e-02,  ..., -1.0532e-02,
+         -1.0498e-01, -1.1126e-03],
+        [-4.5573e-02, -8.6667e-02, -7.9679e-02,  ..., -6.7155e-02,
+         -2.0986e-02, -1.7908e-02],
+        [ 4.5019e-02,  4.8490e-02, -6.6956e-02,  ..., -7.0138e-02,
+         -7.9265e-02, -4.2981e-02],
+        ...,
+        [ 6.9094e-03,  2.2966e-02, -1.7682e-02,  ..., -3.1659e-02,
+         -8.6639e-02,  4.4504e-02],
+        [-6.0203e-03,  6.7481e-02,  6.0290e-02,  ..., -4.2125e-02,
+          3.6301e-02, -7.1359e-02],
+        [-4.2797e-02, -1.3476e-02,  2.9767e-05,  ..., -1.3296e-02,
+         -3.9486e-02,  3.5437e-02]], device='cuda:0'), grad: tensor([[-2.0504e-05,  3.8669e-06,  2.4773e-06,  ...,  5.5460e-07,
+          2.3134e-06,  1.7704e-06],
+        [ 7.6517e-06,  4.7572e-06,  2.8946e-06,  ...,  2.8964e-07,
+          2.8685e-06, -4.8161e-05],
+        [-2.6986e-05, -2.1253e-06,  5.9754e-06,  ...,  2.1909e-07,
+          5.9344e-06,  5.1521e-06],
+        ...,
+        [-2.2084e-05, -4.3899e-05,  1.1936e-05,  ...,  8.4983e-09,
+          1.0431e-05, -5.8979e-05],
+        [-2.7046e-05, -4.3154e-05, -4.9353e-05,  ...,  1.2079e-06,
+         -4.1157e-05,  1.0788e-05],
+        [ 5.0217e-05,  4.1306e-05,  1.9535e-05,  ...,  1.1164e-07,
+          1.7881e-05,  5.5730e-05]], device='cuda:0')
+Epoch 69, bias, value: tensor([ 0.0263, -0.0202, -0.0072,  0.0020,  0.0043,  0.0013, -0.0179, -0.0003,
+         0.0288,  0.0190], device='cuda:0'), grad: tensor([-5.9426e-05, -7.1466e-05, -3.1263e-05,  3.6865e-05,  1.7673e-05,
+         2.6003e-05,  2.4095e-05, -6.1393e-05, -3.4779e-05,  1.5354e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 68----------------------------------------------------
+epoch 68, time 273.95, cls_loss 0.0060 cls_loss_mapping 0.0145 cls_loss_causal 0.6212 re_mapping 0.0112 re_causal 0.0345 /// teacc 98.94 lr 0.00010000
+Epoch 70, weight, value: tensor([[ 0.0015, -0.0638, -0.0416,  ..., -0.0112, -0.1055, -0.0016],
+        [-0.0462, -0.0871, -0.0801,  ..., -0.0674, -0.0214, -0.0176],
+        [ 0.0452,  0.0485, -0.0676,  ..., -0.0705, -0.0800, -0.0434],
+        ...,
+        [ 0.0071,  0.0231, -0.0181,  ..., -0.0317, -0.0870,  0.0447],
+        [-0.0055,  0.0683,  0.0607,  ..., -0.0429,  0.0368, -0.0719],
+        [-0.0431, -0.0139, -0.0005,  ..., -0.0134, -0.0397,  0.0354]],
+       device='cuda:0'), grad: tensor([[-1.0282e-06,  1.9986e-06,  1.3806e-05,  ...,  2.5239e-07,
+          1.3217e-05,  2.0247e-06],
+        [ 2.4959e-05,  2.0340e-05,  1.5572e-05,  ...,  7.7649e-08,
+          2.0251e-05,  1.4327e-05],
+        [ 7.6652e-05,  2.4602e-05,  1.6600e-05,  ...,  6.3912e-08,
+          1.2863e-04,  1.0020e-04],
+        ...,
+        [-1.5661e-05, -6.1244e-06,  9.0450e-06,  ...,  1.9791e-09,
+          1.5542e-05, -4.1485e-05],
+        [ 7.3947e-06, -2.0470e-06,  2.0280e-05,  ...,  5.2433e-07,
+          2.3544e-05,  9.7081e-06],
+        [ 2.0593e-05,  1.1557e-04,  4.8935e-05,  ...,  3.5972e-08,
+          4.3243e-05,  1.5497e-05]], device='cuda:0')
+Epoch 70, bias, value: tensor([ 0.0260, -0.0201, -0.0076,  0.0015,  0.0039,  0.0014, -0.0168, -0.0002,
+         0.0291,  0.0190], device='cuda:0'), grad: tensor([ 1.1653e-05,  7.4923e-05,  2.2936e-04, -2.4533e-04, -3.4332e-04,
+        -2.4843e-04,  8.2612e-05,  7.6964e-06,  5.7071e-05,  3.7432e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 69, time 256.70, cls_loss 0.0069 cls_loss_mapping 0.0145 cls_loss_causal 0.6239 re_mapping 0.0116 re_causal 0.0351 /// teacc 98.88 lr 0.00010000
+Epoch 71, weight, value: tensor([[ 0.0017, -0.0644, -0.0422,  ..., -0.0119, -0.1060, -0.0017],
+        [-0.0473, -0.0880, -0.0806,  ..., -0.0676, -0.0217, -0.0179],
+        [ 0.0456,  0.0488, -0.0681,  ..., -0.0708, -0.0806, -0.0432],
+        ...,
+        [ 0.0072,  0.0229, -0.0183,  ..., -0.0318, -0.0874,  0.0449],
+        [-0.0051,  0.0695,  0.0614,  ..., -0.0429,  0.0377, -0.0723],
+        [-0.0432, -0.0140, -0.0009,  ..., -0.0138, -0.0402,  0.0358]],
+       device='cuda:0'), grad: tensor([[ 1.4484e-05,  8.9407e-05,  9.5606e-05,  ...,  1.7672e-07,
+          4.8637e-05,  1.4476e-05],
+        [ 4.5508e-05,  1.1390e-04,  2.9877e-05,  ...,  8.5449e-08,
+          5.1051e-05,  8.2135e-05],
+        [ 2.1994e-05,  9.1076e-05,  7.3850e-05,  ...,  9.1502e-08,
+          6.4552e-05,  4.5240e-05],
+        ...,
+        [ 7.3090e-03,  1.6937e-02,  1.4432e-05,  ...,  2.7940e-09,
+          7.0686e-03,  1.3145e-02],
+        [-5.8603e-04, -3.4809e-03, -4.4937e-03,  ...,  2.7800e-07,
+         -1.4191e-03,  2.2054e-04],
+        [ 1.1945e-04,  4.0030e-04,  2.9755e-04,  ...,  3.4226e-08,
+          2.0528e-04,  1.5044e-04]], device='cuda:0')
+Epoch 71, bias, value: tensor([ 0.0259, -0.0202, -0.0076,  0.0009,  0.0041,  0.0019, -0.0169, -0.0003,
+         0.0298,  0.0188], device='cuda:0'), grad: tensor([ 1.3840e-04,  2.4796e-04,  2.1267e-04, -2.6596e-02,  2.3142e-05,
+         5.4283e-03,  1.2010e-04,  2.5330e-02, -5.6419e-03,  7.3528e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 70, time 256.88, cls_loss 0.0064 cls_loss_mapping 0.0142 cls_loss_causal 0.6033 re_mapping 0.0112 re_causal 0.0343 /// teacc 98.80 lr 0.00010000
+Epoch 72, weight, value: tensor([[ 0.0021, -0.0647, -0.0426,  ..., -0.0120, -0.1066, -0.0017],
+        [-0.0478, -0.0884, -0.0809,  ..., -0.0679, -0.0220, -0.0174],
+        [ 0.0459,  0.0490, -0.0687,  ..., -0.0711, -0.0814, -0.0435],
+        ...,
+        [ 0.0072,  0.0228, -0.0187,  ..., -0.0319, -0.0884,  0.0443],
+        [-0.0050,  0.0700,  0.0618,  ..., -0.0434,  0.0383, -0.0731],
+        [-0.0437, -0.0147, -0.0016,  ..., -0.0143, -0.0410,  0.0358]],
+       device='cuda:0'), grad: tensor([[-1.7032e-05,  7.7263e-06,  7.0892e-06,  ...,  5.2229e-06,
+          5.9865e-06,  2.4401e-06],
+        [ 1.7108e-06,  8.0019e-06,  2.4755e-06,  ...,  2.1271e-06,
+          6.4336e-06,  4.3847e-06],
+        [ 1.3977e-05, -3.2457e-07,  2.6003e-06,  ...,  1.3616e-06,
+          3.4738e-06,  4.4443e-06],
+        ...,
+        [ 2.7090e-05,  1.5450e-04,  5.5227e-07,  ...,  1.8929e-07,
+          1.6296e-04,  2.8348e-04],
+        [ 3.8259e-06,  2.4527e-05,  1.9684e-05,  ...,  1.2547e-05,
+          1.6481e-05,  1.1839e-05],
+        [-3.6135e-06, -2.2091e-06, -1.3160e-06,  ...,  1.0068e-06,
+          9.8199e-06,  1.2092e-05]], device='cuda:0')
+Epoch 72, bias, value: tensor([ 0.0262, -0.0200, -0.0073,  0.0015,  0.0044,  0.0019, -0.0172, -0.0008,
+         0.0297,  0.0183], device='cuda:0'), grad: tensor([-2.9549e-05,  8.9332e-06,  4.4644e-05, -4.8447e-04,  3.3587e-05,
+         2.8446e-05, -8.8096e-05,  4.3106e-04,  4.4107e-05,  1.1973e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 71, time 255.86, cls_loss 0.0074 cls_loss_mapping 0.0130 cls_loss_causal 0.6604 re_mapping 0.0108 re_causal 0.0352 /// teacc 98.85 lr 0.00010000
+Epoch 73, weight, value: tensor([[ 0.0026, -0.0649, -0.0431,  ..., -0.0123, -0.1072, -0.0019],
+        [-0.0488, -0.0896, -0.0815,  ..., -0.0688, -0.0242, -0.0180],
+        [ 0.0462,  0.0495, -0.0692,  ..., -0.0714, -0.0803, -0.0425],
+        ...,
+        [ 0.0072,  0.0226, -0.0188,  ..., -0.0317, -0.0904,  0.0441],
+        [-0.0050,  0.0702,  0.0617,  ..., -0.0442,  0.0384, -0.0741],
+        [-0.0439, -0.0147, -0.0019,  ..., -0.0145, -0.0414,  0.0360]],
+       device='cuda:0'), grad: tensor([[ 1.0550e-05,  1.4983e-05,  6.8322e-06,  ...,  1.4342e-06,
+          8.1956e-06,  9.9167e-06],
+        [ 3.3826e-05,  3.9607e-05,  5.6744e-05,  ..., -8.9593e-07,
+          7.1585e-05,  6.8247e-05],
+        [-7.0632e-05, -3.1948e-05,  2.3812e-05,  ...,  1.2377e-06,
+          3.0071e-05,  4.9889e-05],
+        ...,
+        [-1.8217e-06, -6.9261e-05,  4.4733e-05,  ...,  7.1945e-08,
+          5.6416e-05, -2.5734e-05],
+        [ 5.1826e-05,  8.3148e-05,  4.1157e-05,  ...,  2.7753e-06,
+          5.4926e-05,  7.0691e-05],
+        [-6.0588e-05, -1.1861e-04,  2.6926e-05,  ...,  1.6647e-07,
+          1.0200e-05, -3.5137e-05]], device='cuda:0')
+Epoch 73, bias, value: tensor([ 0.0265, -0.0208, -0.0062,  0.0015,  0.0045,  0.0027, -0.0173, -0.0014,
+         0.0292,  0.0180], device='cuda:0'), grad: tensor([ 4.5210e-05,  2.2721e-04, -2.2158e-05, -8.1635e-04,  4.3750e-05,
+         2.5940e-04,  3.6746e-05,  2.9325e-05,  2.2578e-04, -2.9221e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 72, time 256.37, cls_loss 0.0081 cls_loss_mapping 0.0160 cls_loss_causal 0.6303 re_mapping 0.0113 re_causal 0.0316 /// teacc 98.84 lr 0.00010000
+Epoch 74, weight, value: tensor([[ 0.0026, -0.0662, -0.0443,  ..., -0.0127, -0.1088, -0.0027],
+        [-0.0494, -0.0903, -0.0823,  ..., -0.0696, -0.0250, -0.0175],
+        [ 0.0468,  0.0500, -0.0696,  ..., -0.0720, -0.0807, -0.0435],
+        ...,
+        [ 0.0073,  0.0231, -0.0192,  ..., -0.0318, -0.0904,  0.0444],
+        [-0.0049,  0.0706,  0.0620,  ..., -0.0443,  0.0389, -0.0748],
+        [-0.0439, -0.0144, -0.0025,  ..., -0.0148, -0.0422,  0.0364]],
+       device='cuda:0'), grad: tensor([[ 1.8859e-08,  4.0799e-05,  2.1458e-06,  ...,  1.6941e-06,
+          3.2596e-06,  8.6948e-06],
+        [ 2.5351e-06,  9.7677e-06,  3.2783e-06,  ...,  4.9500e-07,
+          3.4049e-06, -4.7288e-07],
+        [-6.9253e-06, -2.4238e-07,  8.0466e-07,  ...,  4.6776e-07,
+          9.9465e-07,  3.3323e-06],
+        ...,
+        [-5.3160e-06, -2.4691e-05,  8.1677e-07,  ...,  1.3039e-08,
+          1.5786e-06, -2.3335e-05],
+        [ 6.6347e-06,  3.8207e-05,  5.6505e-05,  ...,  1.7043e-06,
+          4.3333e-05,  2.5302e-05],
+        [-5.5619e-06, -1.8537e-05,  1.3858e-05,  ...,  1.2619e-07,
+          2.6766e-06, -1.2152e-05]], device='cuda:0')
+Epoch 74, bias, value: tensor([ 0.0256, -0.0203, -0.0064,  0.0017,  0.0051,  0.0023, -0.0172, -0.0011,
+         0.0289,  0.0179], device='cuda:0'), grad: tensor([ 6.4433e-05,  7.8082e-06, -3.1898e-07,  3.0518e-05,  1.3580e-03,
+        -9.1493e-05, -1.4238e-03, -4.1038e-05,  1.1528e-04, -1.7866e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 73, time 256.54, cls_loss 0.0065 cls_loss_mapping 0.0154 cls_loss_causal 0.5874 re_mapping 0.0112 re_causal 0.0323 /// teacc 98.89 lr 0.00010000
+Epoch 75, weight, value: tensor([[ 0.0028, -0.0667, -0.0446,  ..., -0.0130, -0.1092, -0.0029],
+        [-0.0501, -0.0908, -0.0825,  ..., -0.0702, -0.0253, -0.0179],
+        [ 0.0472,  0.0500, -0.0699,  ..., -0.0727, -0.0810, -0.0438],
+        ...,
+        [ 0.0074,  0.0231, -0.0194,  ..., -0.0318, -0.0911,  0.0447],
+        [-0.0048,  0.0704,  0.0620,  ..., -0.0448,  0.0391, -0.0754],
+        [-0.0438, -0.0128, -0.0027,  ..., -0.0151, -0.0420,  0.0372]],
+       device='cuda:0'), grad: tensor([[-8.6753e-07,  2.6479e-05,  9.8944e-05,  ...,  1.6749e-05,
+          7.8201e-05,  2.8193e-05],
+        [ 1.7034e-06,  5.9903e-06,  1.1668e-05,  ...,  2.5090e-06,
+          1.1027e-05, -1.7151e-05],
+        [ 1.2536e-06,  6.1616e-06,  1.2062e-05,  ...,  1.8859e-06,
+          1.1817e-05,  5.5432e-06],
+        ...,
+        [ 1.4156e-06,  1.3383e-06,  9.1195e-06,  ...,  1.9395e-07,
+          9.6560e-06,  2.5705e-06],
+        [ 7.3947e-06, -1.6373e-06,  1.3924e-04,  ...,  1.3694e-05,
+          1.0824e-04,  2.0355e-05],
+        [ 1.7926e-05,  1.5065e-05,  7.8619e-05,  ...,  1.5935e-06,
+          7.4565e-05,  4.1090e-06]], device='cuda:0')
+Epoch 75, bias, value: tensor([ 0.0256, -0.0207, -0.0066,  0.0016,  0.0046,  0.0019, -0.0169, -0.0011,
+         0.0282,  0.0195], device='cuda:0'), grad: tensor([ 1.1432e-04, -2.7210e-05,  2.9504e-05, -1.0484e-04,  3.6478e-05,
+        -1.0926e-04, -2.5773e-04,  2.4974e-05,  1.6916e-04,  1.2481e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 74, time 256.30, cls_loss 0.0083 cls_loss_mapping 0.0149 cls_loss_causal 0.6236 re_mapping 0.0110 re_causal 0.0311 /// teacc 98.92 lr 0.00010000
+Epoch 76, weight, value: tensor([[ 0.0028, -0.0675, -0.0455,  ..., -0.0135, -0.1100, -0.0032],
+        [-0.0510, -0.0914, -0.0836,  ..., -0.0712, -0.0259, -0.0177],
+        [ 0.0477,  0.0498, -0.0708,  ..., -0.0732, -0.0816, -0.0443],
+        ...,
+        [ 0.0075,  0.0233, -0.0197,  ..., -0.0318, -0.0914,  0.0449],
+        [-0.0044,  0.0716,  0.0629,  ..., -0.0460,  0.0397, -0.0760],
+        [-0.0435, -0.0122, -0.0035,  ..., -0.0154, -0.0429,  0.0377]],
+       device='cuda:0'), grad: tensor([[-9.0227e-06,  9.3579e-06,  2.3954e-06,  ...,  1.5553e-06,
+          9.4548e-06, -8.4490e-06],
+        [ 5.0701e-06,  5.4762e-06,  1.8002e-06,  ...,  5.7183e-07,
+          1.1966e-05, -3.4682e-06],
+        [-2.1422e-04, -1.5175e-04,  1.3448e-06,  ..., -4.9965e-07,
+         -2.2354e-03, -5.9515e-05],
+        ...,
+        [ 2.7210e-05, -3.8967e-06,  6.5984e-07,  ..., -3.3788e-06,
+          1.2495e-05, -9.9540e-06],
+        [ 4.1097e-05,  4.4674e-05,  7.3053e-06,  ...,  2.8592e-06,
+          2.2843e-05,  2.4699e-06],
+        [ 2.8953e-05,  1.4096e-05, -3.7234e-06,  ...,  3.2187e-06,
+          2.1381e-03,  2.9370e-05]], device='cuda:0')
+Epoch 76, bias, value: tensor([ 0.0242, -0.0205, -0.0066,  0.0014,  0.0045,  0.0018, -0.0167, -0.0010,
+         0.0285,  0.0201], device='cuda:0'), grad: tensor([-5.1945e-05,  3.4511e-05, -1.2840e-02,  3.0589e-04,  3.7789e-05,
+         1.1724e-04,  3.7923e-06,  5.9754e-05,  1.3220e-04,  1.2207e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 75, time 256.19, cls_loss 0.0061 cls_loss_mapping 0.0124 cls_loss_causal 0.6168 re_mapping 0.0116 re_causal 0.0338 /// teacc 98.74 lr 0.00010000
+Epoch 77, weight, value: tensor([[ 0.0033, -0.0679, -0.0471,  ..., -0.0140, -0.1113, -0.0036],
+        [-0.0517, -0.0918, -0.0845,  ..., -0.0718, -0.0263, -0.0174],
+        [ 0.0476,  0.0497, -0.0714,  ..., -0.0731, -0.0817, -0.0448],
+        ...,
+        [ 0.0077,  0.0238, -0.0206,  ..., -0.0318, -0.0916,  0.0452],
+        [-0.0038,  0.0723,  0.0634,  ..., -0.0463,  0.0402, -0.0762],
+        [-0.0436, -0.0117, -0.0036,  ..., -0.0157, -0.0435,  0.0375]],
+       device='cuda:0'), grad: tensor([[-6.2659e-06,  1.4305e-06,  1.5544e-06,  ...,  7.1060e-07,
+          1.0161e-06,  5.4808e-07],
+        [-1.3057e-06,  3.3434e-06, -1.6037e-06,  ...,  4.6054e-07,
+          2.1253e-06, -1.4819e-05],
+        [ 3.8818e-06,  5.9977e-06,  8.3447e-06,  ...,  2.6505e-06,
+          6.9551e-06,  3.1255e-06],
+        ...,
+        [-9.2804e-05, -1.5569e-04,  3.4310e-06,  ...,  1.9791e-08,
+          3.8370e-06, -1.1081e-04],
+        [ 5.3756e-06,  1.7673e-05,  2.9624e-05,  ...,  1.0885e-05,
+          2.1175e-05,  8.5384e-06],
+        [ 8.6606e-05,  1.3816e-04,  2.4103e-06,  ...,  1.1758e-07,
+          1.6652e-06,  1.0437e-04]], device='cuda:0')
+Epoch 77, bias, value: tensor([ 0.0242, -0.0207, -0.0066,  0.0009,  0.0043,  0.0026, -0.0162, -0.0011,
+         0.0288,  0.0198], device='cuda:0'), grad: tensor([ 6.5938e-07, -3.6836e-05,  2.4170e-05, -2.3648e-05, -9.3699e-05,
+         1.8567e-05, -2.8938e-05, -1.5020e-04,  5.3316e-05,  2.3627e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 76, time 256.68, cls_loss 0.0078 cls_loss_mapping 0.0145 cls_loss_causal 0.6116 re_mapping 0.0112 re_causal 0.0331 /// teacc 98.78 lr 0.00010000
+Epoch 78, weight, value: tensor([[ 0.0039, -0.0682, -0.0474,  ..., -0.0142, -0.1115, -0.0036],
+        [-0.0528, -0.0926, -0.0865,  ..., -0.0727, -0.0272, -0.0174],
+        [ 0.0474,  0.0489, -0.0728,  ..., -0.0732, -0.0823, -0.0456],
+        ...,
+        [ 0.0081,  0.0244, -0.0210,  ..., -0.0319, -0.0921,  0.0454],
+        [-0.0028,  0.0726,  0.0634,  ..., -0.0471,  0.0402, -0.0769],
+        [-0.0438, -0.0119, -0.0048,  ..., -0.0158, -0.0446,  0.0379]],
+       device='cuda:0'), grad: tensor([[ 3.1561e-05,  2.9370e-05,  2.5988e-05,  ...,  1.4693e-05,
+          2.0579e-05,  5.6103e-06],
+        [ 1.5748e-04,  1.4305e-04,  4.6563e-04,  ...,  6.9067e-06,
+          4.0507e-04,  6.4135e-05],
+        [-3.0351e-04, -8.1435e-06,  2.0266e-05,  ...,  1.0505e-05,
+          1.9982e-05,  6.6422e-06],
+        ...,
+        [ 1.0103e-04,  9.6485e-06,  2.8655e-05,  ...,  4.1840e-07,
+          2.8476e-05, -8.5831e-06],
+        [-1.4520e-04, -1.6940e-04, -6.2895e-04,  ...,  1.8090e-05,
+         -4.8018e-04, -6.8188e-05],
+        [ 1.7092e-05,  1.3001e-05,  5.8621e-05,  ...,  2.0675e-06,
+          5.7399e-05,  1.1079e-05]], device='cuda:0')
+Epoch 78, bias, value: tensor([ 2.4505e-02, -2.1379e-02, -7.4757e-03,  1.2477e-03,  5.5767e-03,
+         2.9672e-03, -1.6983e-02, -9.5242e-05,  2.8568e-02,  1.8986e-02],
+       device='cuda:0'), grad: tensor([ 1.3101e-04,  8.4686e-04, -5.9843e-04, -7.6115e-05,  1.0449e-04,
+        -1.3582e-05, -1.3614e-04,  2.5225e-04, -7.0381e-04,  1.9383e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 77----------------------------------------------------
+epoch 77, time 273.90, cls_loss 0.0068 cls_loss_mapping 0.0121 cls_loss_causal 0.5957 re_mapping 0.0109 re_causal 0.0316 /// teacc 98.95 lr 0.00010000
+Epoch 79, weight, value: tensor([[ 0.0040, -0.0688, -0.0480,  ..., -0.0147, -0.1121, -0.0039],
+        [-0.0537, -0.0929, -0.0865,  ..., -0.0730, -0.0275, -0.0170],
+        [ 0.0490,  0.0502, -0.0735,  ..., -0.0735, -0.0827, -0.0457],
+        ...,
+        [ 0.0070,  0.0231, -0.0213,  ..., -0.0320, -0.0926,  0.0452],
+        [-0.0026,  0.0733,  0.0648,  ..., -0.0470,  0.0412, -0.0779],
+        [-0.0427, -0.0109, -0.0055,  ..., -0.0161, -0.0451,  0.0391]],
+       device='cuda:0'), grad: tensor([[-3.3307e-04, -1.1379e-04,  1.5467e-05,  ...,  6.0536e-07,
+          7.7859e-06, -9.9897e-05],
+        [ 1.9884e-04,  6.9022e-05,  9.1642e-06,  ...,  1.1711e-07,
+          5.9381e-06, -4.9162e-04],
+        [ 3.1590e-05,  1.2085e-05,  5.1558e-06,  ...,  1.2340e-07,
+          3.1516e-06,  2.3913e-04],
+        ...,
+        [ 1.1824e-05, -1.3895e-06,  7.2233e-06,  ...,  9.0338e-08,
+          4.1462e-06,  1.9681e-04],
+        [ 6.5923e-05,  3.1814e-06,  3.0398e-04,  ...,  3.2969e-06,
+          1.4913e-04,  1.0476e-05],
+        [ 1.2957e-05,  2.9225e-06,  3.2932e-05,  ...,  7.5949e-07,
+          1.8641e-05,  4.2260e-05]], device='cuda:0')
+Epoch 79, bias, value: tensor([ 0.0245, -0.0211, -0.0066,  0.0014,  0.0050,  0.0024, -0.0175, -0.0003,
+         0.0284,  0.0195], device='cuda:0'), grad: tensor([-0.0036,  0.0012,  0.0008,  0.0004, -0.0002, -0.0005,  0.0006,  0.0006,
+         0.0005,  0.0002], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 78, time 255.43, cls_loss 0.0055 cls_loss_mapping 0.0140 cls_loss_causal 0.6005 re_mapping 0.0110 re_causal 0.0323 /// teacc 98.90 lr 0.00010000
+Epoch 80, weight, value: tensor([[ 0.0052, -0.0692, -0.0486,  ..., -0.0152, -0.1127, -0.0041],
+        [-0.0542, -0.0932, -0.0867,  ..., -0.0732, -0.0277, -0.0157],
+        [ 0.0490,  0.0501, -0.0746,  ..., -0.0738, -0.0834, -0.0460],
+        ...,
+        [ 0.0068,  0.0231, -0.0215,  ..., -0.0320, -0.0927,  0.0445],
+        [-0.0027,  0.0738,  0.0649,  ..., -0.0479,  0.0414, -0.0785],
+        [-0.0430, -0.0111, -0.0060,  ..., -0.0164, -0.0455,  0.0388]],
+       device='cuda:0'), grad: tensor([[ 1.4435e-07,  2.7344e-06, -5.7742e-06,  ...,  8.7311e-07,
+          1.2117e-06, -9.5665e-06],
+        [ 3.7730e-05,  4.0382e-05,  1.2200e-06,  ...,  1.4692e-07,
+          5.6624e-07,  1.1629e-04],
+        [ 1.7941e-05,  1.9625e-05,  5.7183e-07,  ...,  1.4459e-07,
+          4.8475e-07,  3.0130e-05],
+        ...,
+        [-1.5247e-04, -1.7619e-04,  4.5262e-07,  ...,  3.6787e-08,
+          2.2026e-07, -2.7776e-04],
+        [ 7.1861e-06,  9.6262e-06,  5.3607e-06,  ...,  1.6559e-06,
+          2.2240e-06,  5.5581e-06],
+        [ 1.6406e-05,  1.8388e-05,  3.8370e-06,  ...,  4.7171e-07,
+          1.9222e-06,  2.9400e-05]], device='cuda:0')
+Epoch 80, bias, value: tensor([ 0.0249, -0.0203, -0.0073,  0.0022,  0.0051,  0.0019, -0.0167, -0.0009,
+         0.0282,  0.0190], device='cuda:0'), grad: tensor([-5.2780e-05,  2.2399e-04,  5.7489e-05,  1.9169e-04,  2.1055e-05,
+         1.9632e-06,  2.9922e-05, -5.7650e-04,  3.0428e-05,  7.3016e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 79, time 256.76, cls_loss 0.0057 cls_loss_mapping 0.0145 cls_loss_causal 0.6349 re_mapping 0.0101 re_causal 0.0322 /// teacc 98.74 lr 0.00010000
+Epoch 81, weight, value: tensor([[ 0.0056, -0.0693, -0.0491,  ..., -0.0155, -0.1134, -0.0039],
+        [-0.0554, -0.0940, -0.0872,  ..., -0.0739, -0.0279, -0.0163],
+        [ 0.0496,  0.0502, -0.0756,  ..., -0.0740, -0.0835, -0.0455],
+        ...,
+        [ 0.0073,  0.0237, -0.0216,  ..., -0.0320, -0.0928,  0.0449],
+        [-0.0030,  0.0740,  0.0652,  ..., -0.0481,  0.0416, -0.0790],
+        [-0.0432, -0.0113, -0.0065,  ..., -0.0164, -0.0459,  0.0391]],
+       device='cuda:0'), grad: tensor([[-2.2367e-05,  3.9250e-05,  5.2124e-05,  ...,  2.6613e-05,
+          1.7852e-05,  6.2063e-06],
+        [ 6.1840e-06,  4.4592e-06,  1.7006e-06,  ...,  3.7323e-07,
+          1.7090e-06, -6.3144e-06],
+        [-2.5249e-04, -1.2970e-04,  9.9242e-06,  ...,  6.6543e-07,
+          1.1824e-05,  1.4640e-06],
+        ...,
+        [ 2.1172e-04,  1.2958e-04,  6.1933e-07,  ...,  3.1199e-08,
+          1.1558e-06,  5.6531e-07],
+        [ 1.0990e-05, -3.4243e-05, -2.8655e-05,  ...,  1.1846e-06,
+         -3.8147e-05,  3.6042e-06],
+        [-4.3539e-07, -8.0094e-06,  1.5600e-06,  ...,  3.7323e-07,
+          1.5297e-07, -6.8769e-06]], device='cuda:0')
+Epoch 81, bias, value: tensor([ 0.0251, -0.0214, -0.0070,  0.0020,  0.0051,  0.0021, -0.0162, -0.0003,
+         0.0279,  0.0190], device='cuda:0'), grad: tensor([ 5.7101e-05,  2.9220e-07, -4.1199e-04,  9.9480e-05,  1.1683e-05,
+         2.5392e-05, -8.4519e-05,  3.2520e-04, -2.5362e-05,  3.0212e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 80, time 257.05, cls_loss 0.0047 cls_loss_mapping 0.0117 cls_loss_causal 0.6047 re_mapping 0.0107 re_causal 0.0331 /// teacc 98.91 lr 0.00010000
+Epoch 82, weight, value: tensor([[ 0.0058, -0.0700, -0.0509,  ..., -0.0161, -0.1155, -0.0043],
+        [-0.0558, -0.0938, -0.0879,  ..., -0.0741, -0.0284, -0.0161],
+        [ 0.0502,  0.0502, -0.0761,  ..., -0.0741, -0.0835, -0.0460],
+        ...,
+        [ 0.0073,  0.0240, -0.0221,  ..., -0.0320, -0.0929,  0.0451],
+        [-0.0031,  0.0742,  0.0653,  ..., -0.0483,  0.0416, -0.0795],
+        [-0.0436, -0.0114, -0.0067,  ..., -0.0167, -0.0457,  0.0391]],
+       device='cuda:0'), grad: tensor([[-7.2531e-06, -6.3656e-07,  2.3074e-07,  ...,  8.2655e-08,
+          6.2818e-07,  3.6322e-08],
+        [ 3.0152e-07,  2.8359e-07,  4.5006e-07,  ...,  1.3504e-08,
+          7.4226e-07, -4.6372e-05],
+        [ 1.1642e-06,  3.1688e-07,  1.1176e-06,  ...,  6.7754e-08,
+          1.6280e-06,  2.0385e-05],
+        ...,
+        [ 5.7416e-07,  3.8813e-07,  8.5123e-07,  ...,  1.6298e-09,
+          1.7975e-06,  4.2729e-06],
+        [-2.1346e-06, -5.0552e-06, -6.4485e-06,  ...,  2.3725e-07,
+         -2.4326e-06,  1.3430e-06],
+        [ 1.5153e-06, -2.7940e-07,  1.7881e-06,  ...,  1.5367e-08,
+          3.3453e-06,  5.7602e-07]], device='cuda:0')
+Epoch 82, bias, value: tensor([ 0.0244, -0.0211, -0.0063,  0.0012,  0.0054,  0.0028, -0.0160, -0.0004,
+         0.0273,  0.0188], device='cuda:0'), grad: tensor([-1.9729e-05, -1.2100e-04,  6.4075e-05, -3.9816e-05, -1.2949e-05,
+         5.8651e-05,  2.7552e-05,  1.9163e-05,  6.4783e-06,  1.7777e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 81, time 256.66, cls_loss 0.0057 cls_loss_mapping 0.0124 cls_loss_causal 0.6072 re_mapping 0.0104 re_causal 0.0312 /// teacc 98.95 lr 0.00010000
+Epoch 83, weight, value: tensor([[ 0.0058, -0.0707, -0.0526,  ..., -0.0166, -0.1172, -0.0049],
+        [-0.0562, -0.0953, -0.0879,  ..., -0.0742, -0.0285, -0.0158],
+        [ 0.0504,  0.0510, -0.0771,  ..., -0.0742, -0.0842, -0.0461],
+        ...,
+        [ 0.0077,  0.0243, -0.0226,  ..., -0.0320, -0.0931,  0.0454],
+        [-0.0028,  0.0746,  0.0656,  ..., -0.0487,  0.0419, -0.0802],
+        [-0.0436, -0.0111, -0.0072,  ..., -0.0163, -0.0461,  0.0392]],
+       device='cuda:0'), grad: tensor([[-3.4302e-05,  2.2091e-06,  2.2631e-06,  ...,  4.0862e-07,
+          1.8161e-06, -2.2780e-06],
+        [ 4.3958e-06,  3.1162e-06,  2.2631e-06,  ...,  1.0058e-07,
+          1.8440e-06, -7.8082e-06],
+        [ 4.5389e-05,  3.8177e-05,  2.2985e-06,  ...,  2.3399e-07,
+          2.0973e-06,  7.4804e-05],
+        ...,
+        [ 2.1562e-05,  2.1249e-05,  1.1921e-06,  ...,  6.7521e-09,
+          2.5500e-06,  3.3051e-05],
+        [ 2.2575e-06, -3.7886e-06, -2.5332e-05,  ...,  1.1567e-06,
+         -1.6585e-05,  1.1422e-05],
+        [-1.1310e-05, -3.5137e-05,  2.5686e-06,  ...,  5.9139e-08,
+         -4.9919e-06, -1.6406e-05]], device='cuda:0')
+Epoch 83, bias, value: tensor([ 0.0239, -0.0209, -0.0060,  0.0013,  0.0054,  0.0029, -0.0163, -0.0004,
+         0.0272,  0.0188], device='cuda:0'), grad: tensor([-9.9242e-05, -1.6749e-05,  4.7326e-04, -6.6519e-04,  1.4797e-05,
+         4.3571e-05,  3.8356e-05,  2.1040e-04,  2.7895e-05, -2.8282e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 82, time 257.17, cls_loss 0.0060 cls_loss_mapping 0.0123 cls_loss_causal 0.6140 re_mapping 0.0100 re_causal 0.0301 /// teacc 98.77 lr 0.00010000
+Epoch 84, weight, value: tensor([[ 0.0060, -0.0711, -0.0534,  ..., -0.0169, -0.1180, -0.0051],
+        [-0.0567, -0.0966, -0.0901,  ..., -0.0747, -0.0305, -0.0138],
+        [ 0.0504,  0.0506, -0.0778,  ..., -0.0747, -0.0847, -0.0467],
+        ...,
+        [ 0.0080,  0.0247, -0.0230,  ..., -0.0321, -0.0933,  0.0448],
+        [-0.0025,  0.0758,  0.0665,  ..., -0.0498,  0.0432, -0.0813],
+        [-0.0435, -0.0111, -0.0075,  ..., -0.0165, -0.0462,  0.0393]],
+       device='cuda:0'), grad: tensor([[-1.1422e-05,  4.6454e-06,  8.7842e-06,  ...,  4.7572e-06,
+          5.6848e-06,  6.3516e-07],
+        [ 1.1651e-06, -8.1509e-06,  3.5055e-06,  ...,  1.9968e-06,
+          3.6471e-06, -7.1406e-05],
+        [ 5.3160e-06,  1.8850e-05,  6.4299e-06,  ...,  1.7434e-06,
+          9.3728e-06,  6.8486e-05],
+        ...,
+        [ 5.6513e-06, -5.5246e-06,  6.7614e-07,  ...,  6.3097e-08,
+          1.8328e-05,  3.3498e-05],
+        [ 2.0228e-06,  7.9572e-06,  2.5764e-05,  ...,  1.5721e-05,
+          9.6411e-06,  7.5698e-06],
+        [ 4.5076e-06,  4.5672e-06,  3.6396e-06,  ...,  8.7265e-07,
+          4.6566e-06,  8.7395e-06]], device='cuda:0')
+Epoch 84, bias, value: tensor([ 0.0240, -0.0208, -0.0063,  0.0013,  0.0050,  0.0026, -0.0158, -0.0010,
+         0.0282,  0.0188], device='cuda:0'), grad: tensor([-2.5347e-05, -1.2565e-04,  1.3733e-04, -5.2810e-05, -2.9728e-06,
+         9.7334e-05, -1.5128e-04,  4.7415e-05,  3.6031e-05,  3.9637e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 83, time 257.23, cls_loss 0.0053 cls_loss_mapping 0.0114 cls_loss_causal 0.6007 re_mapping 0.0107 re_causal 0.0318 /// teacc 98.86 lr 0.00010000
+Epoch 85, weight, value: tensor([[ 0.0066, -0.0714, -0.0538,  ..., -0.0179, -0.1178, -0.0056],
+        [-0.0572, -0.0969, -0.0903,  ..., -0.0749, -0.0306, -0.0137],
+        [ 0.0507,  0.0507, -0.0787,  ..., -0.0754, -0.0854, -0.0471],
+        ...,
+        [ 0.0081,  0.0249, -0.0233,  ..., -0.0321, -0.0935,  0.0450],
+        [-0.0026,  0.0758,  0.0664,  ..., -0.0503,  0.0431, -0.0820],
+        [-0.0434, -0.0110, -0.0079,  ..., -0.0169, -0.0465,  0.0396]],
+       device='cuda:0'), grad: tensor([[-4.0770e-05,  1.4463e-06,  2.3078e-06,  ...,  1.8785e-06,
+         -4.5099e-07,  5.0478e-07],
+        [ 8.6650e-06,  8.9407e-06,  6.4224e-06,  ...,  1.0328e-06,
+          7.6443e-06, -1.6391e-05],
+        [-1.4044e-06, -2.2855e-06,  2.4989e-05,  ...,  5.0664e-06,
+          4.0263e-05,  1.7002e-05],
+        ...,
+        [-1.8895e-05,  5.7332e-06,  3.8520e-06,  ...,  2.1607e-07,
+          6.0014e-06, -2.2322e-05],
+        [-7.8902e-06, -1.4104e-05, -1.0066e-05,  ...,  3.0082e-06,
+         -8.9034e-06,  4.7162e-06],
+        [-3.7197e-06, -3.7760e-05, -3.6806e-05,  ...,  3.6927e-07,
+         -2.7165e-05, -1.1280e-05]], device='cuda:0')
+Epoch 85, bias, value: tensor([ 0.0249, -0.0210, -0.0063,  0.0012,  0.0050,  0.0026, -0.0158, -0.0008,
+         0.0277,  0.0188], device='cuda:0'), grad: tensor([-8.9109e-05, -1.0990e-05,  3.5644e-05,  2.4378e-05,  1.4067e-04,
+         4.1038e-05,  5.3972e-05, -2.2814e-05,  5.3167e-05, -2.2602e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 84----------------------------------------------------
+epoch 84, time 275.12, cls_loss 0.0053 cls_loss_mapping 0.0102 cls_loss_causal 0.5924 re_mapping 0.0103 re_causal 0.0303 /// teacc 98.96 lr 0.00010000
+Epoch 86, weight, value: tensor([[ 0.0070, -0.0717, -0.0543,  ..., -0.0179, -0.1184, -0.0057],
+        [-0.0575, -0.0971, -0.0905,  ..., -0.0754, -0.0306, -0.0120],
+        [ 0.0508,  0.0503, -0.0795,  ..., -0.0765, -0.0866, -0.0475],
+        ...,
+        [ 0.0083,  0.0246, -0.0236,  ..., -0.0321, -0.0942,  0.0438],
+        [-0.0024,  0.0762,  0.0666,  ..., -0.0507,  0.0434, -0.0825],
+        [-0.0430, -0.0102, -0.0084,  ..., -0.0172, -0.0470,  0.0403]],
+       device='cuda:0'), grad: tensor([[-9.4017e-07,  5.5939e-05,  2.5019e-05,  ...,  4.4614e-05,
+          1.8910e-05,  1.5959e-05],
+        [ 4.1798e-06,  1.1057e-05,  3.2336e-06,  ...,  2.3395e-06,
+          2.2743e-06, -1.3340e-04],
+        [-4.6566e-08,  8.4341e-06,  4.6529e-06,  ...,  4.6566e-06,
+          3.3397e-06,  5.7034e-06],
+        ...,
+        [-2.2173e-05, -4.5985e-05,  1.3784e-06,  ...,  2.2375e-07,
+          9.5367e-07,  2.0079e-06],
+        [ 1.6941e-06,  2.3782e-05,  3.0965e-05,  ...,  1.8567e-05,
+          2.2218e-05,  9.6038e-06],
+        [ 1.1131e-05,  2.5049e-05,  6.3144e-06,  ...,  3.1963e-06,
+          4.1984e-06,  8.0645e-05]], device='cuda:0')
+Epoch 86, bias, value: tensor([ 0.0252, -0.0200, -0.0070,  0.0019,  0.0048,  0.0021, -0.0157, -0.0015,
+         0.0276,  0.0189], device='cuda:0'), grad: tensor([ 9.3222e-05, -2.2554e-04,  2.1383e-05,  1.7357e-04,  1.0103e-05,
+        -1.7464e-04, -1.8120e-04, -1.0133e-06,  7.8857e-05,  2.0480e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 85, time 257.03, cls_loss 0.0047 cls_loss_mapping 0.0103 cls_loss_causal 0.6027 re_mapping 0.0100 re_causal 0.0296 /// teacc 98.87 lr 0.00010000
+Epoch 87, weight, value: tensor([[ 0.0074, -0.0719, -0.0550,  ..., -0.0179, -0.1191, -0.0059],
+        [-0.0581, -0.0974, -0.0908,  ..., -0.0758, -0.0308, -0.0119],
+        [ 0.0510,  0.0498, -0.0805,  ..., -0.0771, -0.0874, -0.0481],
+        ...,
+        [ 0.0087,  0.0254, -0.0240,  ..., -0.0321, -0.0946,  0.0446],
+        [-0.0015,  0.0768,  0.0669,  ..., -0.0518,  0.0437, -0.0834],
+        [-0.0434, -0.0107, -0.0091,  ..., -0.0176, -0.0476,  0.0400]],
+       device='cuda:0'), grad: tensor([[ 1.8209e-05,  9.8571e-06,  6.1810e-05,  ...,  1.5460e-07,
+          7.0393e-05,  8.2180e-06],
+        [ 1.1139e-05,  1.7524e-05,  1.6719e-05,  ...,  3.1991e-07,
+          1.5318e-05, -1.1083e-07],
+        [ 1.3776e-05,  7.6592e-06,  2.9370e-05,  ...,  9.4436e-07,
+          3.3885e-05,  5.8785e-06],
+        ...,
+        [ 1.6451e-05,  4.1783e-05,  8.6427e-06,  ...,  3.5856e-08,
+          7.6964e-06,  3.2932e-05],
+        [ 9.7990e-05,  1.2052e-04,  1.3061e-05,  ...,  1.1027e-06,
+          3.3110e-05,  9.6262e-05],
+        [-2.0170e-04, -3.5286e-04,  2.6822e-05,  ...,  3.3597e-07,
+          2.9147e-05, -2.3282e-04]], device='cuda:0')
+Epoch 87, bias, value: tensor([ 0.0253, -0.0200, -0.0075,  0.0015,  0.0051,  0.0025, -0.0160, -0.0009,
+         0.0283,  0.0181], device='cuda:0'), grad: tensor([ 2.6369e-04,  5.3525e-05,  1.3244e-04, -4.3559e-04,  5.5313e-04,
+         6.6817e-05,  5.7817e-05,  1.0705e-04,  3.7074e-04, -1.1692e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 86, time 257.45, cls_loss 0.0064 cls_loss_mapping 0.0138 cls_loss_causal 0.5793 re_mapping 0.0107 re_causal 0.0297 /// teacc 98.88 lr 0.00010000
+Epoch 88, weight, value: tensor([[ 0.0081, -0.0726, -0.0554,  ..., -0.0182, -0.1196, -0.0060],
+        [-0.0586, -0.0976, -0.0912,  ..., -0.0766, -0.0310, -0.0117],
+        [ 0.0514,  0.0498, -0.0810,  ..., -0.0770, -0.0880, -0.0485],
+        ...,
+        [ 0.0102,  0.0280, -0.0242,  ..., -0.0318, -0.0946,  0.0458],
+        [-0.0015,  0.0768,  0.0669,  ..., -0.0525,  0.0438, -0.0842],
+        [-0.0447, -0.0126, -0.0095,  ..., -0.0181, -0.0478,  0.0393]],
+       device='cuda:0'), grad: tensor([[ 1.6671e-06,  3.6508e-06,  1.3914e-06,  ...,  4.3819e-07,
+          2.1569e-06,  1.5553e-07],
+        [ 3.0398e-06,  5.0813e-06,  1.4743e-06,  ...,  2.1863e-07,
+          3.5856e-06,  8.1258e-08],
+        [-9.0837e-05, -8.3506e-05,  1.7285e-06,  ...,  3.9418e-07,
+         -1.7896e-05,  1.4100e-06],
+        ...,
+        [ 2.8983e-05,  2.1815e-05,  5.3598e-07,  ...,  2.2119e-08,
+          1.3039e-05, -1.0118e-05],
+        [ 8.7991e-06,  7.7784e-06, -6.3032e-06,  ...,  4.4890e-06,
+         -5.5693e-06,  5.7742e-07],
+        [ 7.8380e-06,  1.4693e-05,  8.1509e-06,  ...,  1.1828e-07,
+          1.1489e-05,  3.1553e-06]], device='cuda:0')
+Epoch 88, bias, value: tensor([ 0.0254, -0.0199, -0.0074,  0.0012,  0.0050,  0.0031, -0.0170,  0.0007,
+         0.0277,  0.0170], device='cuda:0'), grad: tensor([ 3.9116e-06,  1.3597e-05, -1.4043e-04,  4.7028e-05, -4.4137e-05,
+         2.3782e-05, -1.3774e-06,  4.9621e-05,  1.3024e-05,  3.5167e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 87, time 256.87, cls_loss 0.0054 cls_loss_mapping 0.0110 cls_loss_causal 0.6113 re_mapping 0.0096 re_causal 0.0296 /// teacc 98.94 lr 0.00010000
+Epoch 89, weight, value: tensor([[ 0.0095, -0.0721, -0.0558,  ..., -0.0184, -0.1200, -0.0076],
+        [-0.0596, -0.0982, -0.0913,  ..., -0.0769, -0.0312, -0.0114],
+        [ 0.0519,  0.0505, -0.0815,  ..., -0.0772, -0.0885, -0.0490],
+        ...,
+        [ 0.0098,  0.0278, -0.0245,  ..., -0.0319, -0.0951,  0.0456],
+        [-0.0013,  0.0774,  0.0674,  ..., -0.0526,  0.0444, -0.0847],
+        [-0.0451, -0.0128, -0.0100,  ..., -0.0184, -0.0483,  0.0399]],
+       device='cuda:0'), grad: tensor([[-7.8022e-05,  2.4624e-06,  1.3001e-06,  ...,  1.0999e-06,
+          1.1856e-06,  8.2050e-07],
+        [ 2.6021e-06,  2.0992e-06,  6.4960e-07,  ..., -1.1222e-07,
+          6.0257e-07, -4.1097e-05],
+        [ 8.0094e-06, -1.8803e-06,  1.0775e-06,  ...,  2.7008e-07,
+          9.6206e-07,  6.5267e-06],
+        ...,
+        [-3.0790e-06, -1.8030e-05,  2.0722e-07,  ...,  9.5228e-08,
+          1.9209e-07, -1.0334e-05],
+        [ 3.6955e-05, -3.8445e-06, -6.8396e-06,  ...,  1.6456e-06,
+         -5.3421e-06,  5.1968e-06],
+        [ 9.4622e-06,  3.3472e-06,  4.6636e-07,  ...,  2.1723e-07,
+          4.2235e-07,  4.8243e-06]], device='cuda:0')
+Epoch 89, bias, value: tensor([ 0.0246, -0.0201, -0.0069,  0.0014,  0.0055,  0.0032, -0.0174,  0.0002,
+         0.0277,  0.0174], device='cuda:0'), grad: tensor([-1.3626e-04, -7.7486e-05,  1.7196e-05,  2.8387e-05,  5.2869e-05,
+         2.2590e-05,  1.2659e-05, -2.6777e-05,  7.7367e-05,  2.9311e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 88, time 257.51, cls_loss 0.0048 cls_loss_mapping 0.0120 cls_loss_causal 0.6052 re_mapping 0.0094 re_causal 0.0286 /// teacc 98.92 lr 0.00010000
+Epoch 90, weight, value: tensor([[ 0.0098, -0.0727, -0.0564,  ..., -0.0188, -0.1206, -0.0076],
+        [-0.0599, -0.0984, -0.0916,  ..., -0.0773, -0.0317, -0.0111],
+        [ 0.0527,  0.0513, -0.0823,  ..., -0.0776, -0.0891, -0.0482],
+        ...,
+        [ 0.0097,  0.0278, -0.0249,  ..., -0.0320, -0.0947,  0.0453],
+        [-0.0011,  0.0777,  0.0674,  ..., -0.0526,  0.0443, -0.0851],
+        [-0.0451, -0.0126, -0.0100,  ..., -0.0158, -0.0482,  0.0400]],
+       device='cuda:0'), grad: tensor([[-3.3118e-06,  5.0850e-06,  9.6206e-07,  ...,  5.9837e-07,
+          1.1129e-06,  1.0923e-05],
+        [-5.0932e-05, -2.0787e-05,  1.0887e-06,  ...,  8.2888e-08,
+          1.5553e-06, -6.7532e-05],
+        [ 1.5995e-07, -5.0589e-06,  2.6133e-06,  ...,  1.7486e-07,
+          3.5428e-06,  2.7344e-05],
+        ...,
+        [ 8.9049e-05,  1.1885e-04,  8.3726e-07,  ...,  1.0245e-08,
+          1.2498e-06,  2.2125e-04],
+        [ 3.4064e-05,  1.7330e-05,  1.5413e-06,  ...,  7.1106e-07,
+          2.3916e-06,  4.3988e-05],
+        [-8.4341e-05, -1.2708e-04,  1.3821e-06,  ...,  8.0094e-08,
+          2.1067e-06, -8.7380e-05]], device='cuda:0')
+Epoch 90, bias, value: tensor([ 2.4833e-02, -2.0306e-02, -6.4494e-03,  2.0833e-03,  5.4204e-03,
+         2.9967e-03, -1.7723e-02, -4.4118e-05,  2.7293e-02,  1.7605e-02],
+       device='cuda:0'), grad: tensor([ 1.2584e-05, -2.6798e-04,  1.2493e-04, -3.7029e-06, -9.7752e-04,
+         7.1466e-05,  6.3479e-05,  7.0906e-04,  2.0468e-04,  6.2466e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 89, time 255.45, cls_loss 0.0050 cls_loss_mapping 0.0111 cls_loss_causal 0.6131 re_mapping 0.0096 re_causal 0.0292 /// teacc 98.93 lr 0.00010000
+Epoch 91, weight, value: tensor([[ 0.0110, -0.0724, -0.0570,  ..., -0.0185, -0.1212, -0.0073],
+        [-0.0603, -0.0987, -0.0920,  ..., -0.0782, -0.0320, -0.0106],
+        [ 0.0524,  0.0504, -0.0833,  ..., -0.0780, -0.0903, -0.0486],
+        ...,
+        [ 0.0098,  0.0280, -0.0251,  ..., -0.0320, -0.0949,  0.0453],
+        [-0.0004,  0.0785,  0.0676,  ..., -0.0533,  0.0446, -0.0862],
+        [-0.0451, -0.0122, -0.0103,  ..., -0.0159, -0.0482,  0.0401]],
+       device='cuda:0'), grad: tensor([[ 3.0901e-06,  8.2105e-06,  1.6719e-05,  ...,  3.6098e-06,
+          1.2934e-05,  1.3029e-06],
+        [ 1.2465e-05,  2.6911e-05,  1.9252e-05,  ...,  3.3248e-07,
+          1.8179e-05,  1.6451e-05],
+        [ 2.5287e-05,  4.7773e-05,  8.4937e-05,  ...,  5.4296e-07,
+          7.3493e-05,  1.1764e-05],
+        ...,
+        [-1.8850e-05, -6.2525e-05,  5.9456e-05,  ...,  2.5262e-08,
+          4.4465e-05, -7.3910e-05],
+        [ 1.8930e-04,  2.8062e-04,  7.6771e-04,  ...,  6.6385e-06,
+          6.6566e-04,  1.5292e-06],
+        [ 1.3709e-05,  1.9491e-05,  2.2516e-05,  ...,  2.2701e-07,
+          2.0847e-05,  1.1906e-05]], device='cuda:0')
+Epoch 91, bias, value: tensor([ 2.5816e-02, -2.0139e-02, -7.2502e-03,  2.1645e-03,  5.9563e-03,
+         2.8759e-03, -1.7688e-02, -6.0538e-05,  2.7556e-02,  1.7025e-02],
+       device='cuda:0'), grad: tensor([ 2.8461e-05,  6.8963e-05,  1.7428e-04, -1.7128e-03, -1.3532e-06,
+         1.0622e-04, -1.6004e-05, -5.2303e-05,  1.3285e-03,  7.4327e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 90, time 257.27, cls_loss 0.0045 cls_loss_mapping 0.0112 cls_loss_causal 0.6029 re_mapping 0.0095 re_causal 0.0295 /// teacc 98.84 lr 0.00010000
+Epoch 92, weight, value: tensor([[ 0.0113, -0.0731, -0.0579,  ..., -0.0192, -0.1221, -0.0074],
+        [-0.0607, -0.0989, -0.0925,  ..., -0.0785, -0.0325, -0.0103],
+        [ 0.0529,  0.0507, -0.0830,  ..., -0.0785, -0.0903, -0.0492],
+        ...,
+        [ 0.0099,  0.0281, -0.0255,  ..., -0.0320, -0.0951,  0.0453],
+        [-0.0007,  0.0788,  0.0678,  ..., -0.0537,  0.0449, -0.0866],
+        [-0.0449, -0.0119, -0.0104,  ..., -0.0161, -0.0482,  0.0405]],
+       device='cuda:0'), grad: tensor([[-3.0875e-04,  4.2245e-06,  3.0613e-04,  ..., -4.0799e-05,
+          2.5582e-04, -5.1148e-06],
+        [ 1.1846e-05,  3.2280e-06,  1.8582e-05,  ...,  5.3691e-07,
+          1.4096e-05, -7.4983e-05],
+        [ 2.5678e-04,  1.9550e-05,  5.4657e-05,  ...,  2.2091e-06,
+          4.2409e-05,  5.7161e-05],
+        ...,
+        [-5.9545e-05, -1.0759e-04,  1.2529e-04,  ...,  9.1270e-08,
+          9.8705e-05,  2.6040e-06],
+        [ 3.0220e-05, -9.9465e-07,  3.0056e-05,  ...,  3.8221e-06,
+          2.1845e-05,  1.3426e-05],
+        [ 8.0466e-05,  7.8380e-05,  3.7044e-05,  ...,  8.7591e-07,
+          2.8268e-05,  4.6819e-05]], device='cuda:0')
+Epoch 92, bias, value: tensor([ 0.0256, -0.0202, -0.0072,  0.0022,  0.0070,  0.0026, -0.0177, -0.0002,
+         0.0273,  0.0170], device='cuda:0'), grad: tensor([-4.6492e-04, -4.9353e-05,  6.1893e-04,  4.4250e-04,  1.5572e-05,
+        -1.4229e-03,  4.3154e-04,  4.5061e-05,  1.2141e-04,  2.6250e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 91, time 257.00, cls_loss 0.0045 cls_loss_mapping 0.0102 cls_loss_causal 0.6137 re_mapping 0.0093 re_causal 0.0289 /// teacc 98.81 lr 0.00010000
+Epoch 93, weight, value: tensor([[ 0.0113, -0.0739, -0.0586,  ..., -0.0199, -0.1228, -0.0077],
+        [-0.0616, -0.0992, -0.0928,  ..., -0.0787, -0.0328, -0.0101],
+        [ 0.0539,  0.0508, -0.0837,  ..., -0.0792, -0.0908, -0.0501],
+        ...,
+        [ 0.0101,  0.0281, -0.0264,  ..., -0.0322, -0.0956,  0.0457],
+        [-0.0005,  0.0790,  0.0679,  ..., -0.0544,  0.0451, -0.0874],
+        [-0.0446, -0.0115, -0.0106,  ..., -0.0163, -0.0483,  0.0408]],
+       device='cuda:0'), grad: tensor([[ 1.4007e-06,  9.2387e-06,  1.0490e-05,  ...,  1.3404e-05,
+          1.3746e-05,  7.4692e-07],
+        [ 1.2793e-05,  1.6123e-05,  8.9332e-06,  ...,  8.5980e-06,
+          1.3441e-05,  3.2075e-06],
+        [-1.9252e-05, -7.9721e-06,  3.0130e-05,  ...,  1.0110e-05,
+          5.1618e-05,  1.9088e-05],
+        ...,
+        [-2.9191e-05, -5.7280e-05,  1.3657e-05,  ...,  6.5891e-07,
+          2.5198e-05, -1.0565e-05],
+        [ 2.1890e-05,  1.6257e-05,  8.2552e-06,  ...,  4.4741e-06,
+          1.6093e-05,  6.4969e-06],
+        [ 3.2365e-05,  4.0054e-05,  8.3596e-06,  ...,  1.9539e-06,
+          1.7479e-05,  1.0639e-05]], device='cuda:0')
+Epoch 93, bias, value: tensor([ 0.0250, -0.0202, -0.0069,  0.0019,  0.0067,  0.0027, -0.0185,  0.0003,
+         0.0270,  0.0175], device='cuda:0'), grad: tensor([ 4.8071e-05,  7.9393e-05, -1.7196e-05, -1.4818e-04,  1.6057e-04,
+         4.0114e-05, -3.6526e-04, -4.8995e-05,  8.1897e-05,  1.6904e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 92----------------------------------------------------
+epoch 92, time 273.97, cls_loss 0.0064 cls_loss_mapping 0.0119 cls_loss_causal 0.5649 re_mapping 0.0093 re_causal 0.0264 /// teacc 98.99 lr 0.00010000
+Epoch 94, weight, value: tensor([[ 0.0122, -0.0732, -0.0591,  ..., -0.0195, -0.1232, -0.0071],
+        [-0.0621, -0.0994, -0.0930,  ..., -0.0782, -0.0331, -0.0104],
+        [ 0.0545,  0.0511, -0.0841,  ..., -0.0806, -0.0911, -0.0506],
+        ...,
+        [ 0.0103,  0.0284, -0.0270,  ..., -0.0324, -0.0960,  0.0458],
+        [-0.0018,  0.0788,  0.0683,  ..., -0.0550,  0.0455, -0.0885],
+        [-0.0441, -0.0113, -0.0115,  ..., -0.0167, -0.0490,  0.0415]],
+       device='cuda:0'), grad: tensor([[-2.8148e-05,  3.6787e-06,  1.0431e-06,  ...,  2.5216e-07,
+          7.7346e-07,  4.1239e-06],
+        [ 4.2289e-05,  2.9564e-05,  1.3551e-06,  ...,  6.7055e-08,
+          1.0254e-06,  3.0726e-05],
+        [-1.0036e-05, -2.0042e-05,  1.9278e-06,  ...,  5.4482e-08,
+          1.0738e-06,  2.1264e-05],
+        ...,
+        [-2.6250e-04, -1.7989e-04,  1.6307e-06,  ...,  1.8626e-09,
+          1.3346e-06, -2.3746e-04],
+        [ 2.5734e-05,  1.7896e-05, -6.7838e-06,  ...,  4.3260e-07,
+         -1.7392e-07,  2.2769e-05],
+        [ 5.7966e-05,  6.5006e-06, -2.5049e-05,  ...,  6.4727e-08,
+         -3.0756e-05,  5.0485e-05]], device='cuda:0')
+Epoch 94, bias, value: tensor([ 0.0252, -0.0203, -0.0072,  0.0020,  0.0060,  0.0027, -0.0190,  0.0004,
+         0.0260,  0.0188], device='cuda:0'), grad: tensor([-7.7248e-05,  8.5592e-05, -4.9919e-05,  2.9063e-04,  2.1243e-04,
+         4.2289e-05,  1.4670e-05, -5.8174e-04,  1.0294e-04, -4.0084e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 93, time 256.99, cls_loss 0.0038 cls_loss_mapping 0.0080 cls_loss_causal 0.5764 re_mapping 0.0097 re_causal 0.0288 /// teacc 98.97 lr 0.00010000
+Epoch 95, weight, value: tensor([[ 0.0144, -0.0725, -0.0596,  ..., -0.0198, -0.1238, -0.0067],
+        [-0.0624, -0.0998, -0.0936,  ..., -0.0792, -0.0337, -0.0103],
+        [ 0.0546,  0.0511, -0.0846,  ..., -0.0791, -0.0914, -0.0508],
+        ...,
+        [ 0.0105,  0.0286, -0.0274,  ..., -0.0324, -0.0965,  0.0460],
+        [-0.0014,  0.0800,  0.0689,  ..., -0.0552,  0.0466, -0.0891],
+        [-0.0450, -0.0116, -0.0122,  ..., -0.0161, -0.0495,  0.0414]],
+       device='cuda:0'), grad: tensor([[-2.0146e-05,  3.1870e-06,  2.9150e-06,  ...,  1.9204e-06,
+          2.8405e-06, -6.5677e-06],
+        [ 4.3996e-06,  4.4703e-06,  3.7830e-06,  ...,  2.6822e-07,
+          3.4589e-06, -3.7074e-05],
+        [ 1.5810e-05,  1.2875e-05,  1.0170e-05,  ...,  5.0338e-07,
+          8.0764e-06,  8.5309e-06],
+        ...,
+        [ 8.4788e-06,  6.8732e-06,  5.2899e-06,  ...,  1.0012e-08,
+          4.1574e-06,  2.0862e-05],
+        [-6.5148e-05, -7.3195e-05, -5.6654e-05,  ...,  1.8021e-06,
+         -4.2975e-05,  3.9339e-06],
+        [ 8.1360e-06,  5.9139e-07,  2.7288e-06,  ...,  9.1037e-08,
+          3.0696e-06,  1.7788e-06]], device='cuda:0')
+Epoch 95, bias, value: tensor([ 0.0261, -0.0204, -0.0070,  0.0019,  0.0064,  0.0029, -0.0197,  0.0004,
+         0.0265,  0.0179], device='cuda:0'), grad: tensor([-6.9976e-05, -1.3566e-04,  6.0797e-05,  2.7239e-05,  7.1824e-06,
+         8.1062e-05, -1.0971e-06,  9.6738e-05, -9.9063e-05,  3.2872e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 94, time 257.19, cls_loss 0.0046 cls_loss_mapping 0.0116 cls_loss_causal 0.5844 re_mapping 0.0093 re_causal 0.0279 /// teacc 98.94 lr 0.00010000
+Epoch 96, weight, value: tensor([[ 0.0143, -0.0731, -0.0609,  ..., -0.0203, -0.1257, -0.0071],
+        [-0.0625, -0.1001, -0.0941,  ..., -0.0799, -0.0343, -0.0091],
+        [ 0.0548,  0.0511, -0.0852,  ..., -0.0797, -0.0914, -0.0513],
+        ...,
+        [ 0.0107,  0.0290, -0.0277,  ..., -0.0325, -0.0967,  0.0459],
+        [-0.0010,  0.0807,  0.0696,  ..., -0.0558,  0.0472, -0.0900],
+        [-0.0452, -0.0117, -0.0126,  ..., -0.0160, -0.0498,  0.0415]],
+       device='cuda:0'), grad: tensor([[-2.1413e-05,  1.5348e-06,  2.1663e-06,  ...,  3.8557e-07,
+          1.6065e-06,  3.1888e-06],
+        [ 2.6338e-06,  2.8759e-06,  3.2131e-06,  ...,  1.1176e-07,
+          2.4047e-06,  9.1612e-05],
+        [-9.3728e-06, -5.4762e-06,  2.3320e-06,  ...,  1.3178e-07,
+          1.8589e-06, -5.4538e-06],
+        ...,
+        [ 2.2706e-06,  4.3679e-07,  1.7751e-06,  ...,  9.3132e-09,
+          1.2433e-06,  2.5436e-05],
+        [-1.3955e-05, -4.2140e-05, -5.5611e-05,  ...,  2.5202e-06,
+         -4.5955e-05,  1.0423e-05],
+        [ 1.3299e-05,  4.4480e-06,  2.9635e-06,  ...,  8.1956e-08,
+          2.2296e-06,  2.7037e-04]], device='cuda:0')
+Epoch 96, bias, value: tensor([ 0.0253, -0.0198, -0.0070,  0.0021,  0.0047,  0.0028, -0.0200,  0.0004,
+         0.0267,  0.0191], device='cuda:0'), grad: tensor([-1.4794e-04,  2.2864e-04, -1.4052e-05,  2.6435e-05, -1.0004e-03,
+         2.4036e-05,  1.2338e-04,  6.9439e-05, -1.6183e-05,  7.0620e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 95, time 256.68, cls_loss 0.0086 cls_loss_mapping 0.0156 cls_loss_causal 0.5567 re_mapping 0.0106 re_causal 0.0284 /// teacc 98.92 lr 0.00010000
+Epoch 97, weight, value: tensor([[ 0.0148, -0.0736, -0.0620,  ..., -0.0211, -0.1267, -0.0072],
+        [-0.0645, -0.1019, -0.0952,  ..., -0.0807, -0.0350, -0.0100],
+        [ 0.0548,  0.0505, -0.0864,  ..., -0.0803, -0.0920, -0.0524],
+        ...,
+        [ 0.0118,  0.0301, -0.0281,  ..., -0.0326, -0.0971,  0.0472],
+        [-0.0012,  0.0807,  0.0698,  ..., -0.0574,  0.0472, -0.0909],
+        [-0.0450, -0.0112, -0.0122,  ..., -0.0163, -0.0487,  0.0417]],
+       device='cuda:0'), grad: tensor([[ 5.3132e-07,  5.0813e-06,  8.4639e-06,  ...,  3.6228e-06,
+          6.8992e-06,  1.9744e-07],
+        [ 5.3551e-07,  1.2601e-06,  1.6494e-06,  ...,  3.0873e-07,
+          9.2899e-07, -1.4931e-05],
+        [ 1.5991e-06,  4.2431e-06,  6.0201e-06,  ...,  1.8859e-07,
+          5.0738e-06,  5.0440e-06],
+        ...,
+        [-7.5717e-07, -4.3353e-07,  2.6375e-06,  ...,  1.3504e-08,
+          3.6675e-06,  2.9970e-06],
+        [-1.0647e-05, -1.8880e-05, -1.4782e-05,  ...,  3.5241e-06,
+         -1.3173e-05,  1.1623e-06],
+        [ 2.3749e-06,  7.3165e-06,  7.2680e-06,  ...,  6.0629e-07,
+          7.9274e-06,  7.2457e-07]], device='cuda:0')
+Epoch 97, bias, value: tensor([ 0.0248, -0.0211, -0.0082,  0.0011,  0.0051,  0.0025, -0.0201,  0.0018,
+         0.0263,  0.0203], device='cuda:0'), grad: tensor([ 1.0841e-05, -2.3291e-05,  1.7405e-05,  1.9923e-05,  7.0781e-06,
+         2.7996e-06, -2.9474e-05,  1.2688e-05, -3.2961e-05,  1.5058e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 96, time 256.92, cls_loss 0.0035 cls_loss_mapping 0.0094 cls_loss_causal 0.5791 re_mapping 0.0101 re_causal 0.0300 /// teacc 98.93 lr 0.00010000
+Epoch 98, weight, value: tensor([[ 0.0154, -0.0739, -0.0635,  ..., -0.0213, -0.1279, -0.0073],
+        [-0.0648, -0.1023, -0.0955,  ..., -0.0812, -0.0353, -0.0094],
+        [ 0.0553,  0.0506, -0.0869,  ..., -0.0804, -0.0924, -0.0527],
+        ...,
+        [ 0.0118,  0.0302, -0.0285,  ..., -0.0326, -0.0974,  0.0470],
+        [-0.0009,  0.0810,  0.0693,  ..., -0.0583,  0.0471, -0.0913],
+        [-0.0454, -0.0115, -0.0124,  ..., -0.0163, -0.0491,  0.0415]],
+       device='cuda:0'), grad: tensor([[-4.6417e-06,  6.5565e-06,  3.1944e-06,  ...,  3.1805e-07,
+          3.6024e-06,  3.9563e-06],
+        [ 7.1339e-06,  9.2089e-06,  5.7071e-06,  ...,  3.7346e-07,
+          6.4522e-06, -1.7751e-06],
+        [-5.3108e-05, -3.3379e-05,  5.5432e-06,  ...,  2.0908e-07,
+          7.9572e-06,  1.3653e-06],
+        ...,
+        [ 3.0518e-05,  3.7611e-05,  1.7464e-05,  ...,  1.3039e-08,
+          1.8194e-05, -1.7151e-05],
+        [-3.3885e-05, -1.2672e-04, -1.0574e-04,  ..., -5.1036e-07,
+         -1.0061e-04,  1.5264e-06],
+        [ 2.0564e-05,  1.7792e-05,  1.3813e-05,  ...,  5.6811e-08,
+          1.3947e-05,  6.9328e-06]], device='cuda:0')
+Epoch 98, bias, value: tensor([ 0.0248, -0.0207, -0.0079,  0.0008,  0.0062,  0.0024, -0.0192,  0.0016,
+         0.0259,  0.0192], device='cuda:0'), grad: tensor([-5.9605e-06,  1.9252e-05, -8.2552e-05,  2.2903e-05,  7.1060e-07,
+         6.2585e-05,  1.1779e-05,  7.8261e-05, -1.6856e-04,  6.1393e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 97, time 256.86, cls_loss 0.0047 cls_loss_mapping 0.0110 cls_loss_causal 0.5596 re_mapping 0.0089 re_causal 0.0259 /// teacc 98.99 lr 0.00010000
+Epoch 99, weight, value: tensor([[ 0.0160, -0.0747, -0.0641,  ..., -0.0215, -0.1287, -0.0074],
+        [-0.0642, -0.1016, -0.0960,  ..., -0.0815, -0.0359, -0.0083],
+        [ 0.0558,  0.0510, -0.0869,  ..., -0.0807, -0.0918, -0.0542],
+        ...,
+        [ 0.0116,  0.0299, -0.0289,  ..., -0.0327, -0.0986,  0.0463],
+        [-0.0007,  0.0817,  0.0698,  ..., -0.0587,  0.0479, -0.0917],
+        [-0.0452, -0.0111, -0.0128,  ..., -0.0163, -0.0492,  0.0421]],
+       device='cuda:0'), grad: tensor([[ 4.3549e-06,  6.0983e-06,  1.8254e-06,  ...,  1.0189e-06,
+          1.9521e-06,  1.0036e-05],
+        [ 4.2468e-06,  5.3160e-06,  2.4941e-06,  ...,  1.3318e-07,
+          2.6468e-06,  5.1707e-06],
+        [-5.3272e-06, -2.7884e-06,  1.2303e-06,  ...,  1.3364e-07,
+          1.9930e-06,  1.3681e-06],
+        ...,
+        [ 1.3304e-04,  1.5509e-04,  1.2740e-06,  ...,  1.5367e-08,
+          2.0396e-06,  3.4547e-04],
+        [-5.5768e-06, -1.1988e-05, -1.2890e-05,  ...,  3.3295e-07,
+         -9.4846e-06,  1.5385e-06],
+        [-1.4365e-04, -1.6940e-04,  4.1723e-06,  ...,  1.6298e-07,
+          3.7123e-06, -3.8719e-04]], device='cuda:0')
+Epoch 99, bias, value: tensor([ 0.0250, -0.0192, -0.0083,  0.0002,  0.0062,  0.0025, -0.0194,  0.0005,
+         0.0262,  0.0193], device='cuda:0'), grad: tensor([ 3.1471e-05,  3.6985e-05,  1.7416e-04,  7.0073e-06,  3.8815e-04,
+         7.9691e-05,  1.0356e-05, -2.6703e-04, -5.1968e-06, -4.5586e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 98, time 256.61, cls_loss 0.0044 cls_loss_mapping 0.0093 cls_loss_causal 0.5607 re_mapping 0.0093 re_causal 0.0274 /// teacc 98.96 lr 0.00010000
+Epoch 100, weight, value: tensor([[ 0.0161, -0.0753, -0.0652,  ..., -0.0220, -0.1299, -0.0078],
+        [-0.0645, -0.1017, -0.0968,  ..., -0.0823, -0.0375, -0.0067],
+        [ 0.0566,  0.0514, -0.0866,  ..., -0.0801, -0.0905, -0.0535],
+        ...,
+        [ 0.0116,  0.0300, -0.0295,  ..., -0.0327, -0.0989,  0.0453],
+        [-0.0008,  0.0828,  0.0707,  ..., -0.0571,  0.0489, -0.0928],
+        [-0.0451, -0.0110, -0.0132,  ..., -0.0165, -0.0494,  0.0420]],
+       device='cuda:0'), grad: tensor([[-5.7416e-07,  6.7567e-07,  3.0976e-06,  ...,  2.9989e-07,
+          2.8722e-06,  1.0589e-06],
+        [ 4.5784e-06,  1.0796e-05,  8.1584e-07,  ...,  5.2620e-08,
+          8.6147e-07,  2.3544e-06],
+        [-5.7928e-07,  3.4496e-06,  6.5286e-07,  ...,  1.2992e-07,
+          7.3807e-07,  2.7809e-06],
+        ...,
+        [-2.5019e-05, -6.4790e-05,  7.3994e-07,  ...,  1.3970e-09,
+          4.6892e-07, -2.7344e-05],
+        [ 1.2130e-05,  2.9102e-05,  3.4589e-06,  ...,  1.1874e-07,
+          3.1963e-06,  1.1735e-05],
+        [ 4.4256e-06,  9.7007e-06,  1.0923e-05,  ...,  3.0268e-08,
+          1.0289e-05,  8.0392e-06]], device='cuda:0')
+Epoch 100, bias, value: tensor([ 0.0249, -0.0186, -0.0071,  0.0006,  0.0059,  0.0027, -0.0200, -0.0004,
+         0.0263,  0.0193], device='cuda:0'), grad: tensor([ 5.8301e-06, -6.7949e-05,  1.3128e-05,  4.0412e-05,  9.4026e-06,
+        -7.1406e-05,  3.5077e-05, -1.1075e-04,  1.0264e-04,  4.3541e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 99, time 256.68, cls_loss 0.0039 cls_loss_mapping 0.0095 cls_loss_causal 0.5947 re_mapping 0.0090 re_causal 0.0282 /// teacc 98.83 lr 0.00010000
+Epoch 101, weight, value: tensor([[ 0.0167, -0.0754, -0.0666,  ..., -0.0219, -0.1311, -0.0081],
+        [-0.0660, -0.1025, -0.0972,  ..., -0.0826, -0.0378, -0.0062],
+        [ 0.0576,  0.0517, -0.0874,  ..., -0.0811, -0.0913, -0.0538],
+        ...,
+        [ 0.0114,  0.0299, -0.0301,  ..., -0.0328, -0.0992,  0.0451],
+        [-0.0008,  0.0830,  0.0707,  ..., -0.0570,  0.0491, -0.0939],
+        [-0.0452, -0.0109, -0.0138,  ..., -0.0166, -0.0498,  0.0423]],
+       device='cuda:0'), grad: tensor([[-1.3178e-06,  7.0110e-06,  6.7465e-06,  ...,  4.9211e-06,
+          3.5670e-06,  1.1250e-06],
+        [ 6.8638e-07,  1.8328e-06,  6.1095e-07,  ...,  3.7160e-07,
+          9.2527e-07, -1.6401e-06],
+        [ 1.3607e-06,  3.1125e-06,  1.5460e-06,  ...,  3.8603e-07,
+          4.1313e-06,  1.8850e-06],
+        ...,
+        [-1.5926e-06, -5.3644e-06,  2.3609e-07,  ...,  1.9092e-08,
+         -7.1526e-07,  6.2492e-07],
+        [ 1.0859e-06,  4.4368e-06,  3.4608e-06,  ...,  2.2035e-06,
+          2.9430e-06,  1.9111e-06],
+        [-2.8219e-06, -3.6396e-06,  1.3225e-06,  ...,  4.1956e-07,
+          1.4193e-06, -5.4091e-06]], device='cuda:0')
+Epoch 101, bias, value: tensor([ 0.0249, -0.0184, -0.0066,  0.0004,  0.0061,  0.0029, -0.0197, -0.0007,
+         0.0258,  0.0189], device='cuda:0'), grad: tensor([ 8.7395e-06, -1.5050e-06,  2.4989e-05, -3.3736e-05,  8.3819e-06,
+         1.9580e-05, -3.6627e-05,  6.0461e-06,  1.1176e-05, -7.0594e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 100, time 255.70, cls_loss 0.0036 cls_loss_mapping 0.0083 cls_loss_causal 0.6052 re_mapping 0.0092 re_causal 0.0270 /// teacc 98.86 lr 0.00010000
+Epoch 102, weight, value: tensor([[ 0.0169, -0.0760, -0.0672,  ..., -0.0223, -0.1318, -0.0080],
+        [-0.0669, -0.1029, -0.0977,  ..., -0.0831, -0.0382, -0.0061],
+        [ 0.0578,  0.0512, -0.0880,  ..., -0.0816, -0.0919, -0.0546],
+        ...,
+        [ 0.0117,  0.0301, -0.0305,  ..., -0.0327, -0.0995,  0.0456],
+        [-0.0006,  0.0832,  0.0710,  ..., -0.0575,  0.0493, -0.0945],
+        [-0.0451, -0.0104, -0.0140,  ..., -0.0168, -0.0500,  0.0425]],
+       device='cuda:0'), grad: tensor([[-9.8944e-06, -2.3916e-06,  3.2373e-06,  ...,  1.7723e-06,
+          1.9241e-06, -3.9898e-06],
+        [ 2.1793e-06,  3.6489e-06,  2.7269e-06,  ...,  2.4680e-08,
+          3.2596e-06,  6.7567e-07],
+        [ 4.8652e-06,  5.5619e-06,  4.1984e-06,  ...,  2.9802e-08,
+          5.2564e-06,  1.3905e-06],
+        ...,
+        [-1.0289e-05, -8.6278e-06,  9.8441e-07,  ..., -3.5390e-08,
+          1.3234e-06, -9.4250e-06],
+        [-3.5353e-06, -7.4357e-06, -1.9912e-06,  ...,  2.7334e-07,
+         -1.8030e-06,  1.5087e-06],
+        [ 1.3359e-05,  1.1161e-05,  4.4778e-06,  ...,  6.2864e-08,
+          3.9972e-06,  1.4849e-05]], device='cuda:0')
+Epoch 102, bias, value: tensor([ 0.0250, -0.0186, -0.0070,  0.0002,  0.0063,  0.0026, -0.0193, -0.0004,
+         0.0257,  0.0189], device='cuda:0'), grad: tensor([-3.1620e-05,  1.0096e-05,  1.9312e-05, -1.1399e-05, -4.1038e-05,
+        -2.5421e-05,  1.5661e-05, -1.8001e-05,  3.6415e-06,  7.8738e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 101, time 256.73, cls_loss 0.0056 cls_loss_mapping 0.0105 cls_loss_causal 0.5695 re_mapping 0.0091 re_causal 0.0260 /// teacc 98.94 lr 0.00010000
+Epoch 103, weight, value: tensor([[ 1.7405e-02, -7.6313e-02, -6.7860e-02,  ..., -2.2697e-02,
+         -1.3247e-01, -7.9666e-03],
+        [-6.8657e-02, -1.0403e-01, -9.8322e-02,  ..., -8.4685e-02,
+         -3.8752e-02, -6.2386e-03],
+        [ 5.8280e-02,  5.1710e-02, -8.8969e-02,  ..., -8.2148e-02,
+         -9.2701e-02, -5.5193e-02],
+        ...,
+        [ 1.0156e-02,  2.8522e-02, -3.1229e-02,  ..., -3.2869e-02,
+         -1.0060e-01,  4.5693e-02],
+        [ 9.1587e-06,  8.3869e-02,  7.1720e-02,  ..., -5.8579e-02,
+          5.0215e-02, -9.5644e-02],
+        [-4.2508e-02, -8.0927e-03, -1.4605e-02,  ..., -1.7101e-02,
+         -5.0279e-02,  4.3528e-02]], device='cuda:0'), grad: tensor([[-6.1728e-06,  1.3663e-06,  1.5479e-06,  ...,  5.5134e-07,
+          1.5553e-06,  5.3551e-08],
+        [ 5.6624e-07,  4.8662e-07,  5.6252e-07,  ...,  7.2177e-08,
+          8.0513e-07, -1.3551e-06],
+        [ 1.9930e-06,  2.5686e-06,  2.5164e-06,  ...,  2.2165e-07,
+          3.3956e-06,  9.9652e-08],
+        ...,
+        [ 5.7975e-07,  3.9907e-07,  3.9954e-07,  ...,  5.1223e-09,
+          6.3051e-07,  3.8557e-07],
+        [-4.1202e-06, -6.9328e-06, -4.1015e-06,  ...,  7.5251e-07,
+         -5.7220e-06,  2.1048e-07],
+        [ 2.4587e-06,  1.1958e-06,  2.6878e-06,  ...,  2.4214e-08,
+          3.2578e-06, -6.7009e-07]], device='cuda:0')
+Epoch 103, bias, value: tensor([ 2.5178e-02, -1.9103e-02, -6.9718e-03,  4.0717e-05,  6.0884e-03,
+         1.9722e-03, -1.8974e-02, -1.1598e-03,  2.5889e-02,  2.0023e-02],
+       device='cuda:0'), grad: tensor([-1.1913e-05,  1.1679e-06,  8.9183e-06, -2.5481e-06, -4.6760e-05,
+         6.6217e-07,  3.8184e-06,  1.1869e-05, -5.4836e-06,  4.0174e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 102, time 256.70, cls_loss 0.0035 cls_loss_mapping 0.0079 cls_loss_causal 0.5910 re_mapping 0.0089 re_causal 0.0272 /// teacc 98.92 lr 0.00010000
+Epoch 104, weight, value: tensor([[ 0.0177, -0.0773, -0.0692,  ..., -0.0253, -0.1336, -0.0085],
+        [-0.0695, -0.1046, -0.0989,  ..., -0.0857, -0.0392, -0.0061],
+        [ 0.0585,  0.0518, -0.0895,  ..., -0.0824, -0.0932, -0.0555],
+        ...,
+        [ 0.0105,  0.0287, -0.0316,  ..., -0.0330, -0.1009,  0.0461],
+        [ 0.0002,  0.0841,  0.0716,  ..., -0.0594,  0.0501, -0.0962],
+        [-0.0424, -0.0081, -0.0153,  ..., -0.0172, -0.0509,  0.0434]],
+       device='cuda:0'), grad: tensor([[-1.5218e-06,  3.3621e-06,  2.4214e-06,  ...,  9.0525e-07,
+          2.1514e-06,  1.7826e-06],
+        [ 1.3579e-06,  2.1439e-06,  1.7136e-06,  ...,  3.1106e-07,
+          2.2799e-06, -2.7108e-04],
+        [ 4.1500e-06,  6.6943e-06,  4.6007e-06,  ...,  3.7299e-07,
+          5.4650e-06,  4.3064e-06],
+        ...,
+        [ 3.6508e-06,  5.4985e-06,  3.8743e-06,  ...,  1.6764e-08,
+          4.9099e-06,  2.3234e-04],
+        [-3.1114e-05, -4.6581e-05, -2.0593e-05,  ...,  9.9558e-07,
+         -2.6599e-05, -9.2238e-06],
+        [ 1.8552e-05,  2.3693e-05,  1.4335e-05,  ...,  1.8487e-07,
+          1.8373e-05,  1.9178e-05]], device='cuda:0')
+Epoch 104, bias, value: tensor([ 0.0248, -0.0192, -0.0071, -0.0003,  0.0061,  0.0028, -0.0185, -0.0009,
+         0.0255,  0.0198], device='cuda:0'), grad: tensor([-1.7527e-06, -4.6420e-04,  1.6883e-05, -1.1176e-05,  3.6061e-05,
+         9.5442e-06, -5.8673e-06,  4.1080e-04, -4.4316e-05,  5.3585e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 103, time 256.78, cls_loss 0.0045 cls_loss_mapping 0.0084 cls_loss_causal 0.5878 re_mapping 0.0090 re_causal 0.0270 /// teacc 98.92 lr 0.00010000
+Epoch 105, weight, value: tensor([[ 0.0190, -0.0777, -0.0698,  ..., -0.0269, -0.1333, -0.0088],
+        [-0.0701, -0.1067, -0.0998,  ..., -0.0884, -0.0402, -0.0049],
+        [ 0.0586,  0.0519, -0.0902,  ..., -0.0821, -0.0938, -0.0562],
+        ...,
+        [ 0.0107,  0.0296, -0.0319,  ..., -0.0331, -0.1014,  0.0458],
+        [ 0.0004,  0.0845,  0.0721,  ..., -0.0599,  0.0507, -0.0967],
+        [-0.0428, -0.0082, -0.0159,  ..., -0.0182, -0.0513,  0.0433]],
+       device='cuda:0'), grad: tensor([[-4.5866e-05, -3.3021e-05, -1.3784e-07,  ...,  1.9092e-07,
+         -6.0759e-06, -2.3395e-05],
+        [ 3.4273e-07,  2.8545e-07,  9.2667e-08,  ..., -2.1420e-06,
+          3.1665e-07, -7.7710e-06],
+        [ 1.3802e-06,  9.6764e-07,  7.2177e-08,  ...,  1.5507e-07,
+          4.6333e-07,  1.6121e-06],
+        ...,
+        [-5.6438e-07, -5.9325e-07,  5.7742e-08,  ...,  3.2736e-07,
+         -3.5018e-07,  3.1348e-06],
+        [ 2.3656e-06,  1.8319e-06,  1.8161e-07,  ...,  1.4296e-07,
+          6.8359e-07,  1.9725e-06],
+        [ 3.6687e-05,  2.6166e-05,  7.8697e-08,  ...,  9.1735e-08,
+          4.9695e-06,  2.3425e-05]], device='cuda:0')
+Epoch 105, bias, value: tensor([ 0.0253, -0.0193, -0.0073, -0.0006,  0.0051,  0.0029, -0.0176, -0.0004,
+         0.0256,  0.0198], device='cuda:0'), grad: tensor([-1.5068e-04, -2.1309e-05,  7.6592e-06,  8.5384e-06, -4.6879e-05,
+         5.0999e-06,  1.1161e-05,  1.1846e-05,  1.0766e-05,  1.6379e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 104----------------------------------------------------
+epoch 104, time 273.50, cls_loss 0.0037 cls_loss_mapping 0.0098 cls_loss_causal 0.5752 re_mapping 0.0088 re_causal 0.0268 /// teacc 99.01 lr 0.00010000
+Epoch 106, weight, value: tensor([[ 0.0195, -0.0782, -0.0697,  ..., -0.0270, -0.1333, -0.0088],
+        [-0.0708, -0.1078, -0.1009,  ..., -0.0895, -0.0416, -0.0046],
+        [ 0.0587,  0.0511, -0.0916,  ..., -0.0839, -0.0947, -0.0568],
+        ...,
+        [ 0.0112,  0.0303, -0.0324,  ..., -0.0329, -0.1013,  0.0459],
+        [ 0.0003,  0.0850,  0.0725,  ..., -0.0602,  0.0515, -0.0972],
+        [-0.0432, -0.0088, -0.0164,  ..., -0.0186, -0.0516,  0.0429]],
+       device='cuda:0'), grad: tensor([[ 9.6709e-06,  8.7470e-06,  2.9337e-06,  ...,  8.7544e-06,
+          1.8487e-07,  1.1653e-05],
+        [ 3.8333e-06,  2.3693e-06,  1.9018e-06,  ...,  1.6261e-06,
+          1.5404e-06,  4.8196e-07],
+        [-1.2898e-04, -6.1274e-05,  9.1130e-07,  ...,  1.5413e-07,
+          5.9418e-07, -1.2629e-05],
+        ...,
+        [ 1.2137e-05,  3.9637e-06, -6.6832e-06,  ..., -3.3051e-05,
+          6.4634e-07, -4.3601e-05],
+        [ 1.1988e-05,  6.4634e-06,  1.0349e-05,  ...,  4.2096e-06,
+          9.1642e-06,  2.6822e-06],
+        [ 2.2590e-05,  8.3297e-06,  5.7332e-06,  ...,  1.0177e-05,
+          2.2911e-06,  1.5661e-05]], device='cuda:0')
+Epoch 106, bias, value: tensor([ 0.0255, -0.0197, -0.0080, -0.0008,  0.0057,  0.0027, -0.0171,  0.0002,
+         0.0258,  0.0191], device='cuda:0'), grad: tensor([ 3.0667e-05,  8.1509e-06, -2.2018e-04,  1.0735e-04,  1.5721e-06,
+        -7.8976e-06,  1.5840e-05, -5.1826e-05,  4.4167e-05,  7.2122e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 105----------------------------------------------------
+epoch 105, time 273.16, cls_loss 0.0034 cls_loss_mapping 0.0088 cls_loss_causal 0.5901 re_mapping 0.0081 re_causal 0.0265 /// teacc 99.02 lr 0.00010000
+Epoch 107, weight, value: tensor([[ 0.0200, -0.0789, -0.0702,  ..., -0.0277, -0.1334, -0.0090],
+        [-0.0713, -0.1083, -0.1013,  ..., -0.0900, -0.0419, -0.0043],
+        [ 0.0596,  0.0518, -0.0926,  ..., -0.0837, -0.0953, -0.0562],
+        ...,
+        [ 0.0110,  0.0303, -0.0329,  ..., -0.0344, -0.1014,  0.0456],
+        [-0.0002,  0.0847,  0.0721,  ..., -0.0609,  0.0509, -0.0980],
+        [-0.0432, -0.0088, -0.0159,  ..., -0.0189, -0.0510,  0.0433]],
+       device='cuda:0'), grad: tensor([[-1.5497e-05,  4.7907e-06,  5.9307e-06,  ...,  6.1989e-06,
+          3.7365e-06, -1.9027e-06],
+        [ 2.2482e-06,  1.1735e-06,  2.0675e-06,  ...,  9.7789e-07,
+          1.6270e-06, -1.3085e-06],
+        [-2.1324e-05, -3.1712e-07,  1.2144e-06,  ...,  7.9954e-07,
+         -4.7423e-06,  2.6636e-07],
+        ...,
+        [ 1.5616e-05, -1.7779e-06,  1.5451e-06,  ...,  1.2433e-06,
+          5.0440e-06, -8.9593e-07],
+        [ 4.5821e-06,  2.6956e-05,  3.5435e-05,  ...,  3.2961e-05,
+          2.8044e-05,  7.8883e-07],
+        [ 3.9972e-06,  1.0282e-06,  4.5523e-06,  ...,  1.6820e-06,
+          3.7123e-06,  1.2107e-07]], device='cuda:0')
+Epoch 107, bias, value: tensor([ 0.0256, -0.0195, -0.0077,  0.0003,  0.0060,  0.0023, -0.0171, -0.0001,
+         0.0245,  0.0191], device='cuda:0'), grad: tensor([-2.4259e-05,  4.6790e-06, -4.7415e-05,  7.5102e-05, -1.8090e-05,
+        -6.4075e-05, -5.9336e-05,  5.1439e-05,  6.1572e-05,  2.0310e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 106, time 257.01, cls_loss 0.0028 cls_loss_mapping 0.0072 cls_loss_causal 0.5731 re_mapping 0.0083 re_causal 0.0263 /// teacc 99.02 lr 0.00010000
+Epoch 108, weight, value: tensor([[ 0.0205, -0.0792, -0.0706,  ..., -0.0278, -0.1339, -0.0089],
+        [-0.0716, -0.1086, -0.1016,  ..., -0.0906, -0.0423, -0.0041],
+        [ 0.0596,  0.0516, -0.0932,  ..., -0.0839, -0.0962, -0.0567],
+        ...,
+        [ 0.0112,  0.0307, -0.0334,  ..., -0.0342, -0.1017,  0.0457],
+        [-0.0002,  0.0850,  0.0722,  ..., -0.0611,  0.0511, -0.0985],
+        [-0.0434, -0.0090, -0.0165,  ..., -0.0190, -0.0515,  0.0432]],
+       device='cuda:0'), grad: tensor([[-1.1601e-05,  7.0296e-06,  7.9572e-06,  ...,  3.9004e-06,
+          5.8487e-06,  1.2992e-06],
+        [ 4.3884e-06,  5.9642e-06,  2.8219e-06,  ...,  6.4680e-07,
+          3.1609e-06,  4.1686e-06],
+        [ 5.2229e-06,  8.6352e-06,  5.3458e-06,  ...,  2.4885e-06,
+          4.2766e-06,  3.3490e-06],
+        ...,
+        [-6.6698e-05, -7.4804e-05,  6.0303e-07,  ..., -1.0021e-06,
+          6.8825e-07, -6.7830e-05],
+        [-3.5673e-05, -2.7359e-05, -7.1228e-06,  ...,  2.4498e-05,
+         -1.4782e-05,  9.2527e-07],
+        [ 1.0365e-04,  1.3018e-04,  5.5969e-05,  ...,  2.8256e-06,
+          4.9055e-05,  5.2899e-05]], device='cuda:0')
+Epoch 108, bias, value: tensor([ 0.0258, -0.0192, -0.0080,  0.0005,  0.0065,  0.0025, -0.0173, -0.0003,
+         0.0244,  0.0187], device='cuda:0'), grad: tensor([-3.3051e-05,  1.6749e-05,  1.9372e-05, -3.1348e-06, -9.6187e-06,
+         6.5506e-05, -1.3018e-04, -1.4198e-04, -6.7472e-05,  2.8372e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 107, time 257.19, cls_loss 0.0053 cls_loss_mapping 0.0116 cls_loss_causal 0.5863 re_mapping 0.0083 re_causal 0.0246 /// teacc 98.93 lr 0.00010000
+Epoch 109, weight, value: tensor([[ 0.0211, -0.0779, -0.0709,  ..., -0.0273, -0.1344, -0.0089],
+        [-0.0710, -0.1072, -0.1022,  ..., -0.0918, -0.0426, -0.0032],
+        [ 0.0600,  0.0516, -0.0938,  ..., -0.0843, -0.0969, -0.0570],
+        ...,
+        [ 0.0113,  0.0298, -0.0338,  ..., -0.0336, -0.1022,  0.0444],
+        [-0.0009,  0.0843,  0.0724,  ..., -0.0614,  0.0510, -0.1004],
+        [-0.0431, -0.0080, -0.0170,  ..., -0.0195, -0.0518,  0.0451]],
+       device='cuda:0'), grad: tensor([[ 9.3458e-07,  2.0694e-06,  1.4678e-06,  ...,  1.7118e-06,
+          1.2554e-06,  1.6252e-07],
+        [ 5.7183e-06,  7.6741e-06,  1.4901e-06,  ...,  1.6466e-06,
+          1.4966e-06,  3.6024e-06],
+        [-1.8859e-06,  9.5461e-07,  2.3413e-06,  ...,  1.6186e-06,
+          2.0247e-06,  3.6694e-07],
+        ...,
+        [-7.4431e-06, -9.6112e-06,  9.7230e-07,  ...,  1.6680e-06,
+          5.9418e-07, -7.2531e-06],
+        [-8.4415e-06, -1.0036e-05, -1.2800e-05,  ...,  8.8941e-07,
+         -1.7270e-05,  3.2224e-07],
+        [ 2.9821e-06,  9.1419e-06,  1.4566e-05,  ...,  8.4415e-06,
+          6.6124e-06, -1.2591e-06]], device='cuda:0')
+Epoch 109, bias, value: tensor([ 0.0265, -0.0181, -0.0078,  0.0003,  0.0065,  0.0025, -0.0178, -0.0019,
+         0.0226,  0.0200], device='cuda:0'), grad: tensor([ 1.0751e-05,  2.7359e-05,  6.8396e-06,  1.6689e-05, -2.6894e-04,
+         1.2182e-05,  1.2505e-04, -1.6227e-05, -8.9034e-06,  9.5189e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 108, time 256.96, cls_loss 0.0054 cls_loss_mapping 0.0108 cls_loss_causal 0.5704 re_mapping 0.0086 re_causal 0.0242 /// teacc 98.95 lr 0.00010000
+Epoch 110, weight, value: tensor([[ 0.0232, -0.0784, -0.0715,  ..., -0.0268, -0.1349, -0.0090],
+        [-0.0723, -0.1080, -0.1031,  ..., -0.0923, -0.0435, -0.0032],
+        [ 0.0596,  0.0522, -0.0947,  ..., -0.0846, -0.0973, -0.0568],
+        ...,
+        [ 0.0117,  0.0303, -0.0344,  ..., -0.0333, -0.1026,  0.0444],
+        [-0.0003,  0.0851,  0.0731,  ..., -0.0616,  0.0520, -0.1007],
+        [-0.0434, -0.0080, -0.0183,  ..., -0.0212, -0.0533,  0.0453]],
+       device='cuda:0'), grad: tensor([[-4.6566e-10,  8.5235e-06,  9.0748e-06,  ...,  4.7870e-07,
+          8.4415e-06, -1.0133e-06],
+        [ 6.1952e-06,  7.4320e-06,  7.5214e-06,  ...,  4.7032e-08,
+          8.4788e-06, -6.4913e-07],
+        [ 2.7046e-05,  3.4004e-05,  3.4034e-05,  ...,  7.9162e-08,
+          3.1978e-05,  2.0470e-06],
+        ...,
+        [-9.0823e-06, -8.6427e-06,  6.6869e-06,  ...,  2.7940e-09,
+          8.5011e-06, -1.4223e-05],
+        [-8.8811e-05, -1.1885e-04, -1.3411e-04,  ...,  3.5530e-07,
+         -1.2827e-04,  1.2498e-06],
+        [ 1.3769e-05,  1.1198e-05,  1.0908e-05,  ...,  4.8429e-08,
+          1.2711e-05,  5.0217e-06]], device='cuda:0')
+Epoch 110, bias, value: tensor([ 0.0248, -0.0191, -0.0057, -0.0003,  0.0069,  0.0032, -0.0197, -0.0018,
+         0.0231,  0.0212], device='cuda:0'), grad: tensor([-2.0579e-05,  1.2346e-05,  8.1837e-05,  2.5406e-05, -2.1684e-04,
+         7.5758e-05,  2.7150e-05, -2.4483e-05, -2.5010e-04,  2.8944e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 109, time 256.77, cls_loss 0.0035 cls_loss_mapping 0.0094 cls_loss_causal 0.5697 re_mapping 0.0083 re_causal 0.0254 /// teacc 98.97 lr 0.00010000
+Epoch 111, weight, value: tensor([[ 0.0240, -0.0788, -0.0723,  ..., -0.0270, -0.1357, -0.0089],
+        [-0.0733, -0.1082, -0.1039,  ..., -0.0931, -0.0438, -0.0036],
+        [ 0.0602,  0.0523, -0.0958,  ..., -0.0849, -0.0977, -0.0573],
+        ...,
+        [ 0.0120,  0.0310, -0.0348,  ..., -0.0332, -0.1031,  0.0454],
+        [-0.0002,  0.0850,  0.0734,  ..., -0.0622,  0.0523, -0.1017],
+        [-0.0438, -0.0086, -0.0188,  ..., -0.0215, -0.0538,  0.0444]],
+       device='cuda:0'), grad: tensor([[-1.2191e-06,  1.2983e-06,  7.2271e-07,  ...,  1.9837e-07,
+          6.7661e-07, -1.2945e-07],
+        [ 3.1060e-07,  8.1118e-07,  2.8312e-07,  ...,  7.3574e-08,
+          2.8312e-07, -2.5649e-06],
+        [ 7.9907e-07,  1.1325e-06,  1.1632e-06,  ...,  6.3796e-08,
+          1.1362e-06,  4.2841e-07],
+        ...,
+        [-1.5460e-07, -1.7649e-07,  1.1083e-07,  ...,  1.8626e-09,
+          1.1595e-07,  6.3982e-07],
+        [-3.7085e-06, -3.4682e-06, -4.5151e-06,  ...,  4.3586e-07,
+         -4.3884e-06,  6.1514e-07],
+        [ 1.3197e-06, -1.5823e-06,  8.7963e-07,  ...,  1.4435e-08,
+          8.5449e-07, -8.5495e-07]], device='cuda:0')
+Epoch 111, bias, value: tensor([ 0.0250, -0.0193, -0.0058, -0.0006,  0.0077,  0.0029, -0.0191, -0.0009,
+         0.0226,  0.0201], device='cuda:0'), grad: tensor([-2.4959e-06, -4.9099e-06,  4.3772e-06,  2.9281e-06, -1.3947e-05,
+         3.2969e-06,  1.0729e-05,  3.4086e-06, -8.5980e-06,  5.1968e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 110, time 255.11, cls_loss 0.0028 cls_loss_mapping 0.0067 cls_loss_causal 0.5605 re_mapping 0.0078 re_causal 0.0245 /// teacc 98.98 lr 0.00010000
+Epoch 112, weight, value: tensor([[ 0.0245, -0.0792, -0.0732,  ..., -0.0265, -0.1366, -0.0092],
+        [-0.0736, -0.1086, -0.1044,  ..., -0.0944, -0.0445, -0.0035],
+        [ 0.0604,  0.0523, -0.0961,  ..., -0.0850, -0.0982, -0.0576],
+        ...,
+        [ 0.0123,  0.0314, -0.0351,  ..., -0.0330, -0.1032,  0.0456],
+        [-0.0003,  0.0853,  0.0736,  ..., -0.0625,  0.0523, -0.1021],
+        [-0.0441, -0.0087, -0.0192,  ..., -0.0217, -0.0542,  0.0442]],
+       device='cuda:0'), grad: tensor([[ 1.5097e-06,  3.1255e-06,  4.4219e-06,  ...,  1.4389e-06,
+          4.4666e-06,  2.3935e-07],
+        [ 3.0864e-06,  4.9435e-06,  3.4086e-06,  ...,  2.8405e-07,
+          3.5334e-06, -1.0999e-06],
+        [-9.7789e-07,  1.3420e-06,  2.1383e-06,  ...,  3.7719e-07,
+          3.4850e-06,  1.1502e-06],
+        ...,
+        [-1.0990e-05, -2.2769e-05,  1.8254e-06,  ...,  1.4435e-08,
+          1.8422e-06, -9.6858e-06],
+        [-1.3039e-07, -1.0384e-06,  2.1592e-05,  ...,  6.8545e-07,
+          1.8314e-05,  1.0366e-06],
+        [ 5.3532e-06,  7.0296e-06,  3.0044e-06,  ...,  1.0198e-07,
+          2.8703e-06,  3.6675e-06]], device='cuda:0')
+Epoch 112, bias, value: tensor([ 0.0253, -0.0194, -0.0059, -0.0002,  0.0076,  0.0033, -0.0193, -0.0007,
+         0.0222,  0.0199], device='cuda:0'), grad: tensor([ 1.0759e-05,  5.9903e-06,  2.3562e-06,  2.8923e-05,  3.6061e-06,
+        -2.6155e-04,  1.9228e-04, -2.8670e-05,  3.3051e-05,  1.3657e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 111----------------------------------------------------
+epoch 111, time 273.89, cls_loss 0.0029 cls_loss_mapping 0.0077 cls_loss_causal 0.5681 re_mapping 0.0080 re_causal 0.0244 /// teacc 99.08 lr 0.00010000
+Epoch 113, weight, value: tensor([[ 0.0253, -0.0790, -0.0737,  ..., -0.0269, -0.1370, -0.0092],
+        [-0.0739, -0.1084, -0.1053,  ..., -0.0949, -0.0454, -0.0032],
+        [ 0.0603,  0.0520, -0.0972,  ..., -0.0851, -0.0994, -0.0580],
+        ...,
+        [ 0.0125,  0.0315, -0.0355,  ..., -0.0330, -0.1034,  0.0455],
+        [ 0.0002,  0.0861,  0.0744,  ..., -0.0628,  0.0533, -0.1024],
+        [-0.0443, -0.0087, -0.0188,  ..., -0.0215, -0.0540,  0.0441]],
+       device='cuda:0'), grad: tensor([[-5.1744e-06,  2.6729e-06,  1.9148e-06,  ...,  1.4920e-06,
+          1.7341e-06,  8.4471e-07],
+        [ 2.8666e-06,  4.3027e-06,  1.1884e-06,  ...,  8.4564e-07,
+          1.2415e-06, -7.2597e-07],
+        [-3.6247e-06, -1.5432e-06,  1.1381e-06,  ...,  7.0082e-07,
+          1.1399e-06,  1.1874e-06],
+        ...,
+        [ 1.9446e-06,  1.7062e-06,  1.9697e-07,  ...,  4.7497e-08,
+          2.3702e-07,  1.9837e-06],
+        [-3.0641e-06, -3.8780e-06, -3.5856e-06,  ...,  3.8408e-06,
+         -2.4829e-06,  7.4413e-07],
+        [-3.7868e-06, -1.2405e-05,  6.5863e-06,  ...,  1.8300e-07,
+          5.5507e-06, -1.8224e-05]], device='cuda:0')
+Epoch 113, bias, value: tensor([ 0.0259, -0.0190, -0.0066,  0.0002,  0.0076,  0.0026, -0.0194, -0.0008,
+         0.0227,  0.0196], device='cuda:0'), grad: tensor([-1.0170e-05,  9.3952e-06, -2.1402e-06,  9.8497e-06,  4.5836e-05,
+         2.2203e-05, -2.0653e-05,  2.0877e-05,  7.6462e-07, -7.5996e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 112, time 256.48, cls_loss 0.0034 cls_loss_mapping 0.0073 cls_loss_causal 0.5579 re_mapping 0.0082 re_causal 0.0245 /// teacc 98.97 lr 0.00010000
+Epoch 114, weight, value: tensor([[ 0.0267, -0.0787, -0.0744,  ..., -0.0265, -0.1378, -0.0090],
+        [-0.0745, -0.1092, -0.1061,  ..., -0.0958, -0.0462, -0.0031],
+        [ 0.0608,  0.0518, -0.0983,  ..., -0.0859, -0.0998, -0.0582],
+        ...,
+        [ 0.0126,  0.0317, -0.0361,  ..., -0.0329, -0.1040,  0.0457],
+        [ 0.0003,  0.0865,  0.0746,  ..., -0.0633,  0.0536, -0.1029],
+        [-0.0441, -0.0084, -0.0194,  ..., -0.0216, -0.0546,  0.0442]],
+       device='cuda:0'), grad: tensor([[ 1.5413e-07,  3.0436e-06,  2.2370e-06,  ...,  1.4259e-06,
+          1.9390e-06,  1.0580e-06],
+        [ 4.6333e-07,  5.5246e-06,  1.2666e-06,  ...,  8.4750e-07,
+          1.3672e-06,  1.8617e-06],
+        [-1.9912e-06,  4.0652e-07,  1.4268e-06,  ...,  1.0254e-06,
+          1.8189e-06,  3.1432e-07],
+        ...,
+        [ 4.0047e-08,  1.7835e-06,  1.1865e-06,  ...,  9.6392e-08,
+          1.3309e-06,  1.7276e-06],
+        [ 1.1669e-06,  3.3583e-06,  4.4443e-06,  ...,  1.2796e-06,
+          4.3549e-06,  1.7593e-06],
+        [ 2.8498e-07, -5.2094e-05,  1.4184e-06,  ..., -4.7088e-06,
+          1.4585e-06, -2.9936e-05]], device='cuda:0')
+Epoch 114, bias, value: tensor([ 0.0267, -0.0193, -0.0066,  0.0005,  0.0072,  0.0026, -0.0192, -0.0008,
+         0.0225,  0.0194], device='cuda:0'), grad: tensor([ 6.1132e-06,  1.2338e-05,  8.7991e-06,  7.0520e-06,  1.1700e-04,
+        -8.4490e-06, -2.2978e-05,  9.9540e-06,  1.1787e-05, -1.4162e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 113, time 256.84, cls_loss 0.0031 cls_loss_mapping 0.0083 cls_loss_causal 0.5639 re_mapping 0.0081 re_causal 0.0242 /// teacc 99.06 lr 0.00010000
+Epoch 115, weight, value: tensor([[ 0.0270, -0.0790, -0.0753,  ..., -0.0268, -0.1389, -0.0088],
+        [-0.0753, -0.1103, -0.1072,  ..., -0.0960, -0.0475, -0.0031],
+        [ 0.0623,  0.0522, -0.0990,  ..., -0.0863, -0.0998, -0.0587],
+        ...,
+        [ 0.0130,  0.0324, -0.0364,  ..., -0.0319, -0.1043,  0.0459],
+        [ 0.0004,  0.0874,  0.0752,  ..., -0.0639,  0.0545, -0.1031],
+        [-0.0443, -0.0087, -0.0199,  ..., -0.0221, -0.0547,  0.0441]],
+       device='cuda:0'), grad: tensor([[-2.2613e-06,  5.0804e-07,  1.8412e-06,  ...,  6.7661e-07,
+          1.7146e-06, -2.4531e-06],
+        [ 5.4622e-07,  8.9081e-07,  8.0001e-07,  ...,  1.1455e-07,
+          6.8918e-07, -6.3982e-07],
+        [ 9.3132e-08,  3.7905e-07,  5.6531e-07,  ...,  1.2852e-07,
+          5.2107e-07,  5.2201e-07],
+        ...,
+        [-1.4501e-06, -3.4161e-06,  8.2003e-07,  ...,  1.6810e-07,
+          7.2224e-07, -1.7732e-06],
+        [ 6.5267e-06,  2.6226e-06,  2.6673e-05,  ...,  1.0751e-05,
+          2.8729e-05,  2.4680e-07],
+        [ 1.8496e-06,  1.6764e-06,  1.9241e-06,  ...,  4.5681e-07,
+          1.7472e-06,  2.3879e-06]], device='cuda:0')
+Epoch 115, bias, value: tensor([ 0.0269, -0.0196, -0.0060, -0.0002,  0.0071,  0.0026, -0.0195, -0.0002,
+         0.0230,  0.0189], device='cuda:0'), grad: tensor([-2.5406e-05,  2.4959e-07,  2.2911e-06,  4.4852e-05, -1.0002e-06,
+        -1.0097e-04,  2.4125e-05, -1.5656e-06,  3.7283e-05,  1.9982e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 114, time 257.04, cls_loss 0.0032 cls_loss_mapping 0.0070 cls_loss_causal 0.5699 re_mapping 0.0079 re_causal 0.0250 /// teacc 98.99 lr 0.00010000
+Epoch 116, weight, value: tensor([[ 0.0277, -0.0787, -0.0762,  ..., -0.0265, -0.1399, -0.0090],
+        [-0.0760, -0.1111, -0.1090,  ..., -0.0962, -0.0496, -0.0028],
+        [ 0.0625,  0.0516, -0.0999,  ..., -0.0872, -0.1005, -0.0591],
+        ...,
+        [ 0.0135,  0.0330, -0.0367,  ..., -0.0312, -0.1048,  0.0461],
+        [ 0.0002,  0.0876,  0.0751,  ..., -0.0649,  0.0551, -0.1036],
+        [-0.0448, -0.0090, -0.0204,  ..., -0.0224, -0.0552,  0.0440]],
+       device='cuda:0'), grad: tensor([[-3.9786e-05,  1.7583e-06, -6.7987e-06,  ...,  1.0524e-06,
+          1.5870e-06, -5.5693e-06],
+        [ 2.1253e-06,  1.4678e-06,  1.1828e-06,  ...,  3.0268e-07,
+          1.3309e-06,  4.2026e-07],
+        [-1.8077e-06, -1.6401e-06,  1.5441e-06,  ...,  2.7684e-07,
+          1.0626e-06,  3.7253e-07],
+        ...,
+        [ 2.2110e-06,  1.0282e-06,  3.1572e-07,  ..., -2.2305e-07,
+          1.0859e-06,  1.5623e-07],
+        [ 2.2929e-06, -1.7853e-06, -1.8533e-07,  ...,  1.1390e-06,
+         -2.6673e-06,  5.7137e-07],
+        [ 2.5362e-05,  4.0256e-07,  6.5342e-06,  ...,  1.5623e-07,
+          1.1465e-06,  3.2410e-06]], device='cuda:0')
+Epoch 116, bias, value: tensor([ 2.7209e-02, -1.9717e-02, -6.2022e-03, -5.1442e-04,  7.5631e-03,
+         1.9853e-03, -1.8267e-02,  7.6748e-05,  2.2704e-02,  1.8295e-02],
+       device='cuda:0'), grad: tensor([-1.1653e-04,  8.9854e-06,  6.8918e-07, -3.3192e-06, -6.4224e-06,
+         1.6972e-05, -4.1886e-07,  1.0379e-05,  8.8289e-06,  8.0764e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 115, time 256.70, cls_loss 0.0032 cls_loss_mapping 0.0086 cls_loss_causal 0.5699 re_mapping 0.0082 re_causal 0.0250 /// teacc 98.97 lr 0.00010000
+Epoch 117, weight, value: tensor([[ 0.0276, -0.0796, -0.0773,  ..., -0.0270, -0.1417, -0.0088],
+        [-0.0766, -0.1112, -0.1098,  ..., -0.0965, -0.0502, -0.0027],
+        [ 0.0624,  0.0512, -0.1013,  ..., -0.0878, -0.1020, -0.0597],
+        ...,
+        [ 0.0130,  0.0329, -0.0388,  ..., -0.0310, -0.1059,  0.0460],
+        [ 0.0011,  0.0882,  0.0752,  ..., -0.0653,  0.0553, -0.1041],
+        [-0.0448, -0.0086, -0.0205,  ..., -0.0227, -0.0551,  0.0443]],
+       device='cuda:0'), grad: tensor([[ 6.4122e-07,  6.0629e-07,  4.5425e-07,  ...,  2.1420e-07,
+          3.7882e-07,  1.1735e-07],
+        [ 4.3120e-07,  6.1700e-07,  2.8429e-07,  ...,  1.8394e-08,
+          3.0850e-07, -7.7998e-07],
+        [-1.3458e-06, -5.2946e-07,  4.8010e-07,  ...,  2.0489e-08,
+          6.0257e-07,  5.6205e-07],
+        ...,
+        [-7.6462e-07, -1.5926e-06,  5.6764e-07,  ..., -1.1642e-09,
+          7.2783e-07, -1.3607e-06],
+        [ 3.6950e-07,  4.4936e-08,  1.1791e-06,  ...,  1.3015e-07,
+          9.2946e-07,  1.8044e-07],
+        [ 8.6520e-07,  6.4960e-07,  6.5938e-07,  ...,  1.3271e-08,
+          7.9582e-07,  6.1002e-07]], device='cuda:0')
+Epoch 117, bias, value: tensor([ 0.0268, -0.0197, -0.0067,  0.0008,  0.0077,  0.0021, -0.0187, -0.0004,
+         0.0229,  0.0187], device='cuda:0'), grad: tensor([ 2.1700e-06, -1.3579e-06, -1.1157e-06, -3.1050e-06,  2.6613e-07,
+        -1.5767e-06, -5.2620e-08, -4.6939e-07,  2.5351e-06,  2.6990e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 116, time 257.28, cls_loss 0.0029 cls_loss_mapping 0.0064 cls_loss_causal 0.5882 re_mapping 0.0080 re_causal 0.0249 /// teacc 98.96 lr 0.00010000
+Epoch 118, weight, value: tensor([[ 0.0278, -0.0799, -0.0782,  ..., -0.0273, -0.1424, -0.0089],
+        [-0.0771, -0.1117, -0.1100,  ..., -0.0966, -0.0503, -0.0032],
+        [ 0.0626,  0.0509, -0.1018,  ..., -0.0880, -0.1024, -0.0603],
+        ...,
+        [ 0.0134,  0.0335, -0.0393,  ..., -0.0307, -0.1061,  0.0466],
+        [ 0.0019,  0.0890,  0.0763,  ..., -0.0658,  0.0563, -0.1045],
+        [-0.0449, -0.0087, -0.0210,  ..., -0.0227, -0.0556,  0.0451]],
+       device='cuda:0'), grad: tensor([[-1.1779e-05,  1.0384e-06,  2.1756e-05,  ...,  3.4925e-07,
+          1.6272e-05,  3.8650e-07],
+        [ 6.6683e-07,  5.3551e-07,  2.0027e-05,  ...,  6.2864e-08,
+          1.4983e-05, -2.4140e-06],
+        [-3.2559e-06, -3.0361e-06,  1.4558e-05,  ...,  2.1537e-07,
+          1.0908e-05,  4.1770e-07],
+        ...,
+        [ 1.6168e-06,  1.2014e-06,  2.4140e-05,  ...,  8.4052e-08,
+          1.8045e-05,  1.3392e-06],
+        [ 2.4475e-06,  2.4531e-06,  1.5628e-04,  ...,  4.5006e-07,
+          1.1635e-04,  9.6485e-07],
+        [ 7.0855e-06, -3.6769e-06,  2.6464e-05,  ..., -2.0047e-07,
+          1.9699e-05, -3.3099e-06]], device='cuda:0')
+Epoch 118, bias, value: tensor([ 2.6891e-02, -2.0213e-02, -6.7734e-03,  8.9989e-05,  7.5903e-03,
+         1.3307e-03, -1.8470e-02,  5.3537e-04,  2.3243e-02,  1.8801e-02],
+       device='cuda:0'), grad: tensor([-1.0617e-06,  2.5317e-05,  1.6421e-05,  1.2236e-03,  1.0014e-05,
+        -1.7233e-03,  1.1778e-04,  4.3124e-05,  2.3699e-04,  5.2124e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 117, time 256.93, cls_loss 0.0031 cls_loss_mapping 0.0067 cls_loss_causal 0.5500 re_mapping 0.0078 re_causal 0.0241 /// teacc 98.91 lr 0.00010000
+Epoch 119, weight, value: tensor([[ 0.0269, -0.0821, -0.0780,  ..., -0.0279, -0.1430, -0.0090],
+        [-0.0776, -0.1122, -0.1103,  ..., -0.0968, -0.0505, -0.0032],
+        [ 0.0628,  0.0509, -0.1022,  ..., -0.0881, -0.1029, -0.0609],
+        ...,
+        [ 0.0135,  0.0339, -0.0398,  ..., -0.0301, -0.1068,  0.0468],
+        [ 0.0021,  0.0889,  0.0758,  ..., -0.0672,  0.0559, -0.1050],
+        [-0.0442, -0.0076, -0.0217,  ..., -0.0231, -0.0563,  0.0450]],
+       device='cuda:0'), grad: tensor([[ 1.1558e-06,  4.6007e-06,  1.8608e-06,  ...,  7.0687e-07,
+          3.2894e-06,  7.4273e-08],
+        [ 1.1241e-06,  6.0648e-06,  3.0156e-06,  ...,  3.0790e-06,
+          4.8280e-06, -1.0142e-06],
+        [-2.3976e-05, -3.2485e-05,  1.7211e-06,  ...,  5.7882e-07,
+         -4.8988e-06,  7.0175e-07],
+        ...,
+        [ 1.6950e-06,  2.6412e-06,  8.9314e-07,  ...,  2.8405e-08,
+          1.9576e-06,  2.3982e-08],
+        [-1.2048e-05, -6.4075e-05, -5.2959e-05,  ...,  1.7826e-06,
+         -9.6679e-05,  2.1025e-07],
+        [ 8.9640e-07,  2.5821e-07,  5.8580e-07,  ...,  1.1222e-07,
+          8.4797e-07, -4.1421e-07]], device='cuda:0')
+Epoch 119, bias, value: tensor([ 0.0264, -0.0199, -0.0073,  0.0003,  0.0074,  0.0014, -0.0182,  0.0006,
+         0.0227,  0.0192], device='cuda:0'), grad: tensor([ 7.0669e-06,  1.0587e-05, -6.8307e-05,  5.1975e-05,  4.2608e-08,
+         9.6738e-05, -1.1072e-05,  7.9870e-06, -9.8288e-05,  3.2261e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 118, time 257.14, cls_loss 0.0030 cls_loss_mapping 0.0060 cls_loss_causal 0.5426 re_mapping 0.0078 re_causal 0.0238 /// teacc 99.01 lr 0.00010000
+Epoch 120, weight, value: tensor([[ 0.0291, -0.0799, -0.0756,  ..., -0.0230, -0.1395, -0.0076],
+        [-0.0779, -0.1121, -0.1106,  ..., -0.0971, -0.0508, -0.0028],
+        [ 0.0630,  0.0511, -0.1027,  ..., -0.0886, -0.1034, -0.0609],
+        ...,
+        [ 0.0134,  0.0339, -0.0401,  ..., -0.0302, -0.1073,  0.0468],
+        [ 0.0020,  0.0885,  0.0753,  ..., -0.0691,  0.0556, -0.1055],
+        [-0.0454, -0.0082, -0.0220,  ..., -0.0259, -0.0561,  0.0449]],
+       device='cuda:0'), grad: tensor([[-2.4125e-05,  5.3465e-05,  7.1287e-05,  ...,  1.1867e-04,
+          1.5283e-04,  5.9465e-07],
+        [ 8.9407e-07,  1.3513e-06,  1.7080e-06,  ...,  2.2128e-06,
+          3.8855e-06,  8.9407e-08],
+        [ 1.3024e-05, -1.8403e-06,  1.5320e-06,  ...,  1.8887e-06,
+          4.1611e-06,  2.1863e-07],
+        ...,
+        [ 1.2089e-06, -9.3132e-09,  9.1409e-07,  ...,  3.6764e-07,
+          1.7369e-06, -8.7777e-08],
+        [ 1.1241e-06,  5.3532e-06,  9.2015e-06,  ...,  8.8587e-06,
+          1.0863e-05,  3.5693e-07],
+        [ 4.1984e-06,  1.8487e-06,  1.3858e-05,  ...,  4.0606e-06,
+          1.4447e-05,  5.9279e-07]], device='cuda:0')
+Epoch 120, bias, value: tensor([ 0.0284, -0.0196, -0.0076, -0.0009,  0.0071,  0.0021, -0.0187,  0.0005,
+         0.0220,  0.0183], device='cuda:0'), grad: tensor([ 2.8205e-04,  1.2092e-05,  3.6716e-05, -1.5236e-05,  8.7619e-06,
+         4.6754e-04, -8.7547e-04,  8.1733e-06,  2.7046e-05,  4.8399e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 119, time 257.04, cls_loss 0.0027 cls_loss_mapping 0.0075 cls_loss_causal 0.5665 re_mapping 0.0077 re_causal 0.0247 /// teacc 98.83 lr 0.00010000
+Epoch 121, weight, value: tensor([[ 0.0295, -0.0799, -0.0762,  ..., -0.0234, -0.1402, -0.0077],
+        [-0.0783, -0.1128, -0.1117,  ..., -0.0975, -0.0520, -0.0021],
+        [ 0.0630,  0.0513, -0.1036,  ..., -0.0888, -0.1043, -0.0612],
+        ...,
+        [ 0.0136,  0.0341, -0.0406,  ..., -0.0297, -0.1081,  0.0462],
+        [ 0.0022,  0.0896,  0.0759,  ..., -0.0694,  0.0565, -0.1059],
+        [-0.0457, -0.0086, -0.0227,  ..., -0.0262, -0.0557,  0.0453]],
+       device='cuda:0'), grad: tensor([[-3.0752e-06,  2.3339e-06,  1.3532e-06,  ...,  4.8429e-07,
+          1.1418e-06,  3.2596e-09],
+        [ 9.4175e-06,  2.9191e-05,  1.3374e-05,  ...,  5.9158e-06,
+          8.4415e-06,  1.3746e-05],
+        [ 2.5053e-06,  7.1116e-06,  7.5176e-06,  ...,  1.9260e-06,
+          6.9737e-06,  1.2545e-06],
+        ...,
+        [ 7.3016e-06,  2.5481e-05,  1.2601e-06,  ...,  3.7136e-07,
+          1.0906e-06,  3.6091e-05],
+        [-1.3679e-05, -5.0157e-05, -2.2516e-05,  ..., -1.5013e-05,
+         -7.7561e-06, -3.1367e-06],
+        [-7.6294e-06, -3.7432e-05,  1.4240e-06,  ...,  1.5926e-07,
+          1.5292e-06, -5.5075e-05]], device='cuda:0')
+Epoch 121, bias, value: tensor([ 2.8732e-02, -1.9494e-02, -7.7390e-03, -1.5409e-03,  7.1881e-03,
+         2.3704e-03, -1.8773e-02,  4.5337e-05,  2.2548e-02,  1.8267e-02],
+       device='cuda:0'), grad: tensor([-6.5491e-06,  4.8429e-05,  1.7241e-05, -3.4302e-05,  5.8599e-06,
+         4.2170e-06,  2.9862e-05,  6.1214e-05, -4.6462e-05, -7.9632e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 120, time 257.02, cls_loss 0.0037 cls_loss_mapping 0.0070 cls_loss_causal 0.5394 re_mapping 0.0080 re_causal 0.0239 /// teacc 98.85 lr 0.00010000
+Epoch 122, weight, value: tensor([[ 0.0304, -0.0795, -0.0772,  ..., -0.0222, -0.1397, -0.0077],
+        [-0.0805, -0.1151, -0.1123,  ..., -0.0980, -0.0525, -0.0039],
+        [ 0.0626,  0.0508, -0.1045,  ..., -0.0890, -0.1052, -0.0618],
+        ...,
+        [ 0.0149,  0.0359, -0.0411,  ..., -0.0292, -0.1086,  0.0482],
+        [ 0.0028,  0.0906,  0.0760,  ..., -0.0699,  0.0572, -0.1066],
+        [-0.0460, -0.0088, -0.0233,  ..., -0.0263, -0.0558,  0.0452]],
+       device='cuda:0'), grad: tensor([[ 1.5059e-06,  1.3635e-06,  1.0198e-06,  ...,  2.6124e-07,
+          1.0030e-06,  6.4401e-07],
+        [ 1.6503e-06,  1.5441e-06,  1.0654e-06,  ...,  1.4179e-07,
+          1.1194e-06, -1.7034e-06],
+        [-1.2077e-05, -2.6245e-06,  1.3886e-06,  ...,  2.2072e-07,
+          1.7574e-06,  4.9314e-07],
+        ...,
+        [ 1.3802e-06,  2.1104e-06,  1.2042e-06,  ...,  6.2864e-09,
+          2.0936e-06,  2.7400e-06],
+        [ 6.8471e-06,  2.0098e-06, -9.2667e-08,  ...,  7.3342e-08,
+         -6.0070e-08,  2.2780e-06],
+        [-2.8219e-06, -8.4043e-06,  1.1735e-06,  ...,  1.5600e-08,
+         -9.1316e-07, -7.7188e-06]], device='cuda:0')
+Epoch 122, bias, value: tensor([ 0.0294, -0.0206, -0.0086, -0.0022,  0.0071,  0.0033, -0.0199,  0.0017,
+         0.0227,  0.0178], device='cuda:0'), grad: tensor([ 6.0573e-06,  7.0594e-07, -1.7151e-05, -8.0988e-06, -3.9935e-05,
+         7.8836e-07,  4.4733e-05,  9.8646e-06,  1.7598e-05, -1.4536e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 121, time 255.30, cls_loss 0.0031 cls_loss_mapping 0.0050 cls_loss_causal 0.5733 re_mapping 0.0072 re_causal 0.0240 /// teacc 98.91 lr 0.00010000
+Epoch 123, weight, value: tensor([[ 0.0304, -0.0798, -0.0781,  ..., -0.0226, -0.1404, -0.0080],
+        [-0.0812, -0.1167, -0.1142,  ..., -0.1008, -0.0547, -0.0041],
+        [ 0.0659,  0.0541, -0.1050,  ..., -0.0892, -0.1056, -0.0608],
+        ...,
+        [ 0.0130,  0.0340, -0.0416,  ..., -0.0290, -0.1089,  0.0482],
+        [ 0.0026,  0.0901,  0.0758,  ..., -0.0711,  0.0568, -0.1079],
+        [-0.0462, -0.0087, -0.0236,  ..., -0.0263, -0.0562,  0.0450]],
+       device='cuda:0'), grad: tensor([[ 3.2093e-06,  2.6107e-05,  2.6971e-05,  ...,  2.0206e-05,
+          2.0102e-05,  7.3165e-06],
+        [ 4.0093e-07,  1.6866e-06,  2.1327e-06,  ...,  2.6217e-07,
+          3.5223e-06, -1.3500e-05],
+        [-1.0185e-05, -1.0431e-05,  3.8184e-06,  ...,  8.0233e-07,
+          5.9456e-06,  1.0267e-05],
+        ...,
+        [-9.3970e-07, -5.5656e-06,  2.6021e-06,  ...,  1.7323e-06,
+          1.7295e-06,  4.2915e-06],
+        [ 4.5486e-06,  8.7097e-06,  6.6683e-06,  ...,  2.4475e-06,
+          5.4911e-06,  1.2089e-06],
+        [-8.7637e-07, -6.2361e-06,  5.4277e-06,  ..., -3.6769e-06,
+          6.7130e-06, -7.7635e-06]], device='cuda:0')
+Epoch 123, bias, value: tensor([ 0.0292, -0.0214, -0.0061, -0.0026,  0.0088,  0.0034, -0.0185,  0.0007,
+         0.0219,  0.0168], device='cuda:0'), grad: tensor([ 6.5327e-05, -2.1291e-04,  1.3638e-04, -9.4771e-05,  7.5251e-06,
+         3.7718e-04, -3.6025e-04,  4.6968e-05,  3.2455e-05,  1.8384e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 122, time 256.79, cls_loss 0.0033 cls_loss_mapping 0.0054 cls_loss_causal 0.5703 re_mapping 0.0075 re_causal 0.0238 /// teacc 98.95 lr 0.00010000
+Epoch 124, weight, value: tensor([[ 0.0304, -0.0800, -0.0787,  ..., -0.0228, -0.1407, -0.0082],
+        [-0.0818, -0.1172, -0.1147,  ..., -0.1011, -0.0550, -0.0041],
+        [ 0.0668,  0.0547, -0.1058,  ..., -0.0895, -0.1061, -0.0614],
+        ...,
+        [ 0.0130,  0.0340, -0.0421,  ..., -0.0279, -0.1093,  0.0481],
+        [ 0.0015,  0.0896,  0.0761,  ..., -0.0713,  0.0571, -0.1084],
+        [-0.0458, -0.0080, -0.0230,  ..., -0.0254, -0.0562,  0.0463]],
+       device='cuda:0'), grad: tensor([[ 1.7919e-06,  6.1132e-06,  1.0096e-05,  ...,  4.0978e-08,
+          6.6757e-06,  1.0151e-07],
+        [ 3.7998e-07,  5.7649e-07,  4.2235e-07,  ..., -3.4925e-08,
+          3.3760e-07, -1.5339e-06],
+        [ 3.2540e-06,  3.5521e-06,  2.9188e-06,  ...,  6.5193e-09,
+          2.5760e-06,  4.8103e-07],
+        ...,
+        [-4.8988e-07, -9.6019e-07,  7.6275e-07,  ...,  3.2596e-08,
+          7.0455e-07,  3.1386e-07],
+        [-1.2681e-05, -1.5378e-05, -1.7032e-05,  ...,  4.8708e-07,
+         -1.1958e-05,  9.1270e-08],
+        [ 2.9784e-06,  3.7672e-07,  1.8030e-06,  ...,  3.7253e-08,
+          1.0645e-06, -2.0955e-08]], device='cuda:0')
+Epoch 124, bias, value: tensor([ 0.0292, -0.0216, -0.0057, -0.0030,  0.0082,  0.0039, -0.0190,  0.0007,
+         0.0208,  0.0177], device='cuda:0'), grad: tensor([ 2.9951e-06, -2.9076e-06,  8.4490e-06,  3.6396e-06,  2.7008e-08,
+        -3.9749e-06,  5.7556e-06,  4.8382e-07, -2.6643e-05,  1.2159e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 123, time 256.60, cls_loss 0.0030 cls_loss_mapping 0.0072 cls_loss_causal 0.5619 re_mapping 0.0083 re_causal 0.0242 /// teacc 99.00 lr 0.00010000
+Epoch 125, weight, value: tensor([[ 0.0304, -0.0803, -0.0796,  ..., -0.0232, -0.1414, -0.0084],
+        [-0.0822, -0.1175, -0.1151,  ..., -0.1011, -0.0553, -0.0040],
+        [ 0.0669,  0.0546, -0.1069,  ..., -0.0899, -0.1073, -0.0619],
+        ...,
+        [ 0.0124,  0.0336, -0.0428,  ..., -0.0278, -0.1100,  0.0475],
+        [ 0.0019,  0.0906,  0.0766,  ..., -0.0713,  0.0575, -0.1090],
+        [-0.0448, -0.0064, -0.0228,  ..., -0.0251, -0.0560,  0.0478]],
+       device='cuda:0'), grad: tensor([[ 4.5970e-06,  5.6662e-06,  1.2685e-06,  ...,  3.0547e-07,
+          1.5348e-06,  3.6880e-07],
+        [ 6.2957e-07, -2.3052e-05,  3.5716e-07,  ..., -8.7917e-07,
+          1.7509e-07, -3.2093e-06],
+        [-1.5022e-06,  5.4128e-06,  6.6608e-06,  ...,  2.4820e-07,
+          6.7800e-06,  9.3738e-07],
+        ...,
+        [-5.0478e-06, -4.4666e-06,  1.0030e-06,  ...,  1.4668e-07,
+          7.2643e-08, -1.4575e-07],
+        [-3.4105e-06,  6.4485e-06, -6.4522e-06,  ...,  8.3027e-07,
+         -5.7369e-06,  7.5344e-07],
+        [ 9.9186e-07,  3.2280e-06,  8.3074e-07,  ...,  1.3039e-07,
+          1.0654e-06,  1.9651e-07]], device='cuda:0')
+Epoch 125, bias, value: tensor([ 0.0291, -0.0213, -0.0063, -0.0026,  0.0076,  0.0043, -0.0193,  0.0002,
+         0.0209,  0.0185], device='cuda:0'), grad: tensor([ 2.4214e-05, -2.5368e-04,  2.2128e-05,  5.9558e-07,  7.2755e-06,
+         7.7784e-06,  1.0543e-05,  1.9759e-05,  1.2994e-04,  3.1173e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 124, time 256.54, cls_loss 0.0029 cls_loss_mapping 0.0075 cls_loss_causal 0.5420 re_mapping 0.0075 re_causal 0.0225 /// teacc 99.02 lr 0.00010000
+Epoch 126, weight, value: tensor([[ 0.0303, -0.0807, -0.0808,  ..., -0.0240, -0.1425, -0.0087],
+        [-0.0826, -0.1175, -0.1169,  ..., -0.1014, -0.0564, -0.0035],
+        [ 0.0669,  0.0544, -0.1088,  ..., -0.0907, -0.1083, -0.0624],
+        ...,
+        [ 0.0127,  0.0338, -0.0432,  ..., -0.0280, -0.1103,  0.0474],
+        [ 0.0030,  0.0927,  0.0782,  ..., -0.0710,  0.0591, -0.1095],
+        [-0.0449, -0.0068, -0.0238,  ..., -0.0253, -0.0570,  0.0479]],
+       device='cuda:0'), grad: tensor([[ 2.2631e-07,  6.0022e-05,  2.0176e-05,  ...,  6.0678e-05,
+          1.3836e-05,  1.5631e-05],
+        [ 8.0168e-06,  5.3197e-05,  2.3805e-06,  ...,  8.0988e-06,
+          9.9279e-07,  2.1122e-06],
+        [-5.5134e-06, -4.1097e-05,  1.7313e-06,  ...,  8.3679e-07,
+          1.1483e-06,  2.0536e-07],
+        ...,
+        [-2.0815e-07,  2.7120e-06,  2.8703e-06,  ...,  6.0629e-07,
+          1.6093e-06,  3.7719e-08],
+        [-2.4274e-05, -4.0203e-05, -3.4839e-05,  ...,  8.1211e-06,
+         -1.6987e-05,  7.3807e-07],
+        [ 9.5665e-06,  3.0756e-05,  1.8328e-05,  ...,  7.1377e-06,
+          1.0915e-05,  1.3178e-06]], device='cuda:0')
+Epoch 126, bias, value: tensor([ 0.0288, -0.0208, -0.0068, -0.0037,  0.0072,  0.0051, -0.0191,  0.0002,
+         0.0225,  0.0183], device='cuda:0'), grad: tensor([ 1.7715e-04,  3.3641e-04, -2.9922e-04,  3.2373e-06,  2.6274e-04,
+         1.2863e-04, -6.8998e-04,  1.8284e-05, -4.8786e-05,  1.1164e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 125, time 256.99, cls_loss 0.0023 cls_loss_mapping 0.0056 cls_loss_causal 0.5572 re_mapping 0.0069 re_causal 0.0229 /// teacc 98.95 lr 0.00010000
+Epoch 127, weight, value: tensor([[ 0.0306, -0.0809, -0.0816,  ..., -0.0243, -0.1430, -0.0087],
+        [-0.0833, -0.1181, -0.1174,  ..., -0.1025, -0.0568, -0.0035],
+        [ 0.0668,  0.0543, -0.1092,  ..., -0.0909, -0.1088, -0.0633],
+        ...,
+        [ 0.0130,  0.0340, -0.0436,  ..., -0.0281, -0.1107,  0.0474],
+        [ 0.0034,  0.0933,  0.0787,  ..., -0.0717,  0.0596, -0.1098],
+        [-0.0450, -0.0069, -0.0245,  ..., -0.0255, -0.0577,  0.0484]],
+       device='cuda:0'), grad: tensor([[-1.1520e-06,  6.8638e-07,  2.7288e-07,  ...,  1.4668e-07,
+          1.5041e-07,  2.2678e-07],
+        [ 3.8696e-07,  1.0887e-06,  6.1933e-08,  ...,  1.8161e-08,
+          4.5635e-08, -2.2333e-06],
+        [-5.5395e-06, -2.1815e-05,  5.3085e-08,  ...,  1.7229e-08,
+          4.6566e-08,  1.4193e-06],
+        ...,
+        [ 5.6736e-06,  2.1473e-05,  1.4575e-07,  ...,  4.6566e-10,
+          8.4750e-08, -1.4296e-06],
+        [ 1.2955e-06,  2.9318e-06,  2.6869e-07,  ...,  3.9581e-08,
+          1.4203e-07,  6.9244e-07],
+        [ 1.1427e-06,  1.2340e-06,  3.9535e-07,  ...,  6.9849e-09,
+          3.1805e-07,  1.4761e-07]], device='cuda:0')
+Epoch 127, bias, value: tensor([ 0.0286, -0.0208, -0.0071, -0.0038,  0.0075,  0.0048, -0.0188,  0.0002,
+         0.0227,  0.0184], device='cuda:0'), grad: tensor([-1.2554e-06,  3.1926e-06, -1.9699e-05,  2.2426e-06, -1.6797e-04,
+         4.3400e-06,  1.3018e-04,  3.0994e-05,  8.0094e-06,  9.9763e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 126, time 256.88, cls_loss 0.0024 cls_loss_mapping 0.0058 cls_loss_causal 0.5396 re_mapping 0.0070 re_causal 0.0220 /// teacc 99.02 lr 0.00010000
+Epoch 128, weight, value: tensor([[ 0.0307, -0.0812, -0.0825,  ..., -0.0247, -0.1436, -0.0088],
+        [-0.0836, -0.1180, -0.1178,  ..., -0.1027, -0.0568, -0.0033],
+        [ 0.0670,  0.0543, -0.1101,  ..., -0.0910, -0.1095, -0.0635],
+        ...,
+        [ 0.0129,  0.0341, -0.0447,  ..., -0.0281, -0.1113,  0.0474],
+        [ 0.0042,  0.0947,  0.0806,  ..., -0.0716,  0.0610, -0.1115],
+        [-0.0450, -0.0067, -0.0248,  ..., -0.0255, -0.0576,  0.0486]],
+       device='cuda:0'), grad: tensor([[ 2.8387e-06,  2.7716e-06,  3.6899e-06,  ...,  5.3551e-08,
+          7.1377e-06,  1.9446e-06],
+        [ 3.2801e-06,  1.0626e-06,  2.5723e-06,  ..., -9.7789e-09,
+          3.3919e-06,  1.7649e-06],
+        [ 4.3064e-06,  1.1614e-06,  4.7572e-06,  ...,  9.3132e-09,
+          6.4336e-06,  3.4086e-06],
+        ...,
+        [ 1.1168e-05,  1.4696e-06,  4.1164e-06,  ...,  2.7940e-09,
+          5.8785e-06,  1.8263e-06],
+        [ 9.4846e-06,  6.6534e-06,  9.7975e-06,  ...,  3.0268e-08,
+          2.0668e-05,  5.6252e-06],
+        [ 4.5337e-06, -1.4156e-05, -2.4110e-05,  ...,  1.3970e-09,
+         -5.3495e-05, -1.1809e-05]], device='cuda:0')
+Epoch 128, bias, value: tensor([ 0.0287, -0.0206, -0.0071, -0.0035,  0.0074,  0.0038, -0.0188,  0.0001,
+         0.0234,  0.0183], device='cuda:0'), grad: tensor([ 1.1697e-05,  2.0474e-05,  2.2188e-05, -5.2154e-06, -4.6182e-04,
+         2.2441e-05,  1.2465e-05,  1.1665e-04,  5.6863e-05,  2.0468e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 127, time 256.87, cls_loss 0.0030 cls_loss_mapping 0.0057 cls_loss_causal 0.5374 re_mapping 0.0076 re_causal 0.0220 /// teacc 99.06 lr 0.00010000
+Epoch 129, weight, value: tensor([[ 0.0307, -0.0815, -0.0833,  ..., -0.0250, -0.1442, -0.0091],
+        [-0.0842, -0.1183, -0.1182,  ..., -0.1028, -0.0571, -0.0033],
+        [ 0.0676,  0.0545, -0.1109,  ..., -0.0912, -0.1098, -0.0637],
+        ...,
+        [ 0.0133,  0.0345, -0.0454,  ..., -0.0280, -0.1118,  0.0477],
+        [ 0.0043,  0.0950,  0.0807,  ..., -0.0723,  0.0614, -0.1123],
+        [-0.0450, -0.0069, -0.0249,  ..., -0.0254, -0.0578,  0.0486]],
+       device='cuda:0'), grad: tensor([[ 5.1036e-06,  1.7926e-05,  1.3039e-07,  ...,  7.2643e-08,
+          7.1200e-07,  7.6517e-06],
+        [ 3.6415e-07,  3.9581e-07,  7.2177e-08,  ...,  5.5879e-09,
+          7.3574e-08, -4.3586e-07],
+        [-2.3516e-07, -3.0752e-06,  4.2701e-07,  ...,  2.0955e-08,
+          3.4412e-07,  7.3574e-07],
+        ...,
+        [-1.2759e-07,  2.6915e-06,  1.0105e-07,  ...,  9.3132e-10,
+          5.3784e-07, -5.9325e-07],
+        [ 8.0019e-06,  1.0677e-05,  9.3598e-08,  ..., -1.2107e-08,
+          1.1707e-06,  4.8392e-06],
+        [-2.5183e-05, -3.5286e-05,  8.4424e-07,  ...,  1.4435e-08,
+         -3.4552e-06, -1.5736e-05]], device='cuda:0')
+Epoch 129, bias, value: tensor([ 0.0287, -0.0207, -0.0068, -0.0036,  0.0070,  0.0038, -0.0192,  0.0005,
+         0.0229,  0.0185], device='cuda:0'), grad: tensor([ 1.3113e-06, -6.5239e-07, -3.2671e-06,  1.4126e-05,  6.8685e-07,
+        -4.9919e-06,  2.4080e-05,  1.7732e-06,  1.9535e-05, -5.2601e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 128, time 257.15, cls_loss 0.0036 cls_loss_mapping 0.0073 cls_loss_causal 0.5400 re_mapping 0.0071 re_causal 0.0216 /// teacc 98.95 lr 0.00010000
+Epoch 130, weight, value: tensor([[ 0.0309, -0.0817, -0.0855,  ..., -0.0252, -0.1465, -0.0093],
+        [-0.0844, -0.1190, -0.1184,  ..., -0.1029, -0.0584, -0.0027],
+        [ 0.0674,  0.0547, -0.1118,  ..., -0.0914, -0.1086, -0.0663],
+        ...,
+        [ 0.0138,  0.0349, -0.0460,  ..., -0.0275, -0.1123,  0.0477],
+        [ 0.0041,  0.0959,  0.0827,  ..., -0.0726,  0.0624, -0.1130],
+        [-0.0449, -0.0067, -0.0253,  ..., -0.0259, -0.0583,  0.0486]],
+       device='cuda:0'), grad: tensor([[-4.6045e-06,  1.0999e-06, -3.2689e-07,  ...,  5.0385e-07,
+         -3.9442e-07,  6.2305e-07],
+        [ 5.6578e-07,  5.0552e-06,  1.1940e-06,  ..., -9.3598e-08,
+          1.0505e-06, -6.0489e-07],
+        [ 3.6135e-07,  2.9970e-06,  7.2923e-07,  ...,  1.9139e-07,
+          7.6042e-07,  7.3062e-07],
+        ...,
+        [-4.9621e-06, -1.8001e-05,  6.6170e-07,  ...,  2.8405e-08,
+          5.7556e-07, -1.1049e-05],
+        [ 1.4035e-06,  1.0677e-05,  2.3112e-05,  ...,  1.0729e-06,
+          1.9580e-05,  6.2166e-07],
+        [ 3.7011e-06,  5.5060e-06,  1.1260e-06,  ...,  5.8673e-08,
+          9.9000e-07,  5.7593e-06]], device='cuda:0')
+Epoch 130, bias, value: tensor([ 0.0285, -0.0192, -0.0083, -0.0033,  0.0067,  0.0042, -0.0202,  0.0006,
+         0.0233,  0.0184], device='cuda:0'), grad: tensor([-1.9372e-05,  1.1824e-05,  1.1109e-05, -5.2124e-05,  1.6242e-06,
+         2.9832e-05,  3.2894e-06, -5.7608e-05,  4.4584e-05,  2.6658e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 129, time 256.82, cls_loss 0.0039 cls_loss_mapping 0.0078 cls_loss_causal 0.5529 re_mapping 0.0071 re_causal 0.0211 /// teacc 99.00 lr 0.00010000
+Epoch 131, weight, value: tensor([[ 0.0311, -0.0821, -0.0862,  ..., -0.0260, -0.1470, -0.0095],
+        [-0.0850, -0.1188, -0.1191,  ..., -0.1034, -0.0588, -0.0017],
+        [ 0.0675,  0.0546, -0.1125,  ..., -0.0918, -0.1092, -0.0675],
+        ...,
+        [ 0.0139,  0.0349, -0.0465,  ..., -0.0276, -0.1128,  0.0471],
+        [ 0.0047,  0.0957,  0.0822,  ..., -0.0743,  0.0622, -0.1135],
+        [-0.0443, -0.0053, -0.0263,  ..., -0.0264, -0.0588,  0.0489]],
+       device='cuda:0'), grad: tensor([[-2.8266e-07,  2.7474e-06,  2.6729e-06,  ...,  1.7397e-06,
+          2.3674e-06,  8.7544e-07],
+        [ 1.4976e-06,  3.5260e-06,  5.0887e-06,  ...,  2.5667e-06,
+          4.2692e-06, -7.3165e-06],
+        [-1.8952e-06,  5.0627e-06,  5.5693e-06,  ...,  3.9339e-06,
+          5.0254e-06,  1.2340e-06],
+        ...,
+        [-5.8673e-08,  7.2736e-07,  2.5760e-06,  ...,  1.3895e-06,
+          2.1979e-06,  5.2378e-06],
+        [ 6.3796e-08,  6.0499e-05,  8.8573e-05,  ...,  4.9144e-05,
+          7.6413e-05,  2.3609e-07],
+        [-1.5162e-06,  1.1623e-06,  6.8061e-06,  ...,  3.3565e-06,
+          5.6028e-06, -3.3975e-06]], device='cuda:0')
+Epoch 131, bias, value: tensor([ 2.8567e-02, -1.7859e-02, -9.0745e-03, -2.2606e-03,  5.1761e-03,
+         3.1119e-03, -1.8991e-02, -8.3274e-05,  2.2161e-02,  1.9299e-02],
+       device='cuda:0'), grad: tensor([ 1.3098e-05, -1.4096e-05,  1.1221e-05,  5.0336e-05,  5.0180e-06,
+        -4.6825e-04,  1.8024e-04,  3.4422e-05,  1.9813e-04, -1.0580e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 130, time 257.20, cls_loss 0.0023 cls_loss_mapping 0.0069 cls_loss_causal 0.5395 re_mapping 0.0075 re_causal 0.0228 /// teacc 99.02 lr 0.00010000
+Epoch 132, weight, value: tensor([[ 0.0311, -0.0825, -0.0873,  ..., -0.0264, -0.1477, -0.0098],
+        [-0.0854, -0.1189, -0.1194,  ..., -0.1039, -0.0590, -0.0015],
+        [ 0.0677,  0.0546, -0.1128,  ..., -0.0920, -0.1095, -0.0677],
+        ...,
+        [ 0.0139,  0.0349, -0.0468,  ..., -0.0278, -0.1131,  0.0471],
+        [ 0.0058,  0.0964,  0.0828,  ..., -0.0748,  0.0627, -0.1140],
+        [-0.0440, -0.0048, -0.0279,  ..., -0.0270, -0.0598,  0.0492]],
+       device='cuda:0'), grad: tensor([[ 4.1025e-07,  8.4192e-07,  3.5036e-06,  ...,  2.0117e-07,
+          1.6894e-06,  1.2955e-06],
+        [ 3.7309e-06, -4.0606e-06,  5.0031e-06,  ...,  6.7521e-08,
+          3.9600e-06, -1.9446e-05],
+        [ 1.3569e-06,  3.0603e-06,  3.4329e-06,  ...,  8.3819e-08,
+          2.6934e-06,  3.6210e-06],
+        ...,
+        [-4.4405e-06, -2.9355e-06,  2.7250e-06,  ...,  3.0734e-08,
+          1.7928e-06,  1.3553e-05],
+        [ 5.4948e-08, -1.6717e-06,  2.3887e-05,  ...,  5.5367e-07,
+          1.4618e-05,  1.4799e-06],
+        [ 2.6897e-06, -5.6438e-07,  5.7779e-06,  ...,  1.0151e-07,
+          1.0610e-05, -3.1497e-06]], device='cuda:0')
+Epoch 132, bias, value: tensor([ 0.0282, -0.0178, -0.0090, -0.0017,  0.0044,  0.0020, -0.0180, -0.0001,
+         0.0226,  0.0198], device='cuda:0'), grad: tensor([ 1.7121e-05, -2.8148e-05,  2.8133e-05, -6.3300e-05, -7.6056e-05,
+         9.8720e-06,  1.2398e-05,  4.8667e-05,  6.2287e-05, -1.1228e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 131, time 256.57, cls_loss 0.0034 cls_loss_mapping 0.0062 cls_loss_causal 0.5661 re_mapping 0.0069 re_causal 0.0204 /// teacc 99.00 lr 0.00010000
+Epoch 133, weight, value: tensor([[ 0.0315, -0.0828, -0.0877,  ..., -0.0264, -0.1482, -0.0101],
+        [-0.0861, -0.1192, -0.1198,  ..., -0.1042, -0.0593, -0.0009],
+        [ 0.0679,  0.0546, -0.1140,  ..., -0.0926, -0.1102, -0.0682],
+        ...,
+        [ 0.0143,  0.0353, -0.0476,  ..., -0.0263, -0.1132,  0.0468],
+        [ 0.0060,  0.0966,  0.0830,  ..., -0.0751,  0.0629, -0.1148],
+        [-0.0442, -0.0049, -0.0290,  ..., -0.0280, -0.0604,  0.0492]],
+       device='cuda:0'), grad: tensor([[ 4.9770e-05,  9.2341e-07,  5.9837e-07,  ...,  8.1398e-07,
+          6.6578e-05,  5.9575e-05],
+        [ 4.0010e-06,  1.8589e-06,  5.6950e-07,  ...,  9.0338e-08,
+          5.6736e-06,  4.3698e-06],
+        [ 2.5555e-05, -1.3178e-06,  4.3632e-07,  ...,  5.9605e-08,
+          3.6091e-05,  3.1233e-05],
+        ...,
+        [ 1.0364e-05,  5.6345e-07,  2.4913e-07,  ...,  4.1910e-09,
+          1.4193e-05,  1.1995e-05],
+        [ 1.7462e-06, -2.3041e-06, -1.0794e-06,  ...,  3.2177e-07,
+          1.0505e-06,  2.1476e-06],
+        [-7.7295e-04,  1.3085e-07,  1.2852e-07,  ...,  4.3306e-08,
+         -1.0061e-03, -9.0694e-04]], device='cuda:0')
+Epoch 133, bias, value: tensor([ 0.0286, -0.0174, -0.0090, -0.0016,  0.0045,  0.0019, -0.0181, -0.0003,
+         0.0221,  0.0195], device='cuda:0'), grad: tensor([ 6.7282e-04,  5.5850e-05,  3.6430e-04,  8.7051e-03,  1.5661e-05,
+         5.8413e-04,  7.4245e-06,  1.4424e-04,  2.4527e-05, -1.0574e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 132, time 255.35, cls_loss 0.0024 cls_loss_mapping 0.0060 cls_loss_causal 0.5313 re_mapping 0.0072 re_causal 0.0219 /// teacc 99.02 lr 0.00010000
+Epoch 134, weight, value: tensor([[ 0.0316, -0.0830, -0.0880,  ..., -0.0269, -0.1487, -0.0104],
+        [-0.0867, -0.1205, -0.1211,  ..., -0.1047, -0.0600, -0.0012],
+        [ 0.0683,  0.0547, -0.1145,  ..., -0.0928, -0.1107, -0.0683],
+        ...,
+        [ 0.0143,  0.0358, -0.0481,  ..., -0.0264, -0.1139,  0.0471],
+        [ 0.0061,  0.0963,  0.0827,  ..., -0.0756,  0.0624, -0.1151],
+        [-0.0445, -0.0051, -0.0295,  ..., -0.0280, -0.0594,  0.0494]],
+       device='cuda:0'), grad: tensor([[ 3.1944e-06,  1.4775e-05,  1.4201e-05,  ...,  3.1106e-06,
+          9.4399e-06,  2.6431e-06],
+        [ 2.6390e-05,  5.1647e-05,  3.5256e-05,  ...,  9.5041e-07,
+          3.1263e-05, -1.3551e-06],
+        [ 5.2005e-05,  1.2863e-04,  1.1271e-04,  ...,  2.6301e-05,
+          7.8797e-05,  9.3058e-06],
+        ...,
+        [ 1.5378e-05,  2.4542e-05,  1.6317e-05,  ...,  3.3099e-06,
+          1.3076e-05,  8.3074e-06],
+        [-1.1051e-04, -2.2984e-04, -1.2672e-04,  ..., -6.2846e-06,
+         -1.1253e-04,  9.0012e-07],
+        [ 5.2191e-06,  1.7300e-05,  1.8179e-05,  ...,  3.7719e-06,
+          1.3039e-05, -8.7395e-06]], device='cuda:0')
+Epoch 134, bias, value: tensor([ 0.0288, -0.0181, -0.0089, -0.0022,  0.0055,  0.0020, -0.0184,  0.0003,
+         0.0214,  0.0196], device='cuda:0'), grad: tensor([ 3.7968e-05,  1.0812e-04,  3.4761e-04, -1.8673e-03,  1.2003e-05,
+         1.6394e-03,  7.0453e-05,  7.0453e-05, -3.8981e-04, -2.8506e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 133, time 256.79, cls_loss 0.0024 cls_loss_mapping 0.0047 cls_loss_causal 0.5320 re_mapping 0.0074 re_causal 0.0221 /// teacc 98.94 lr 0.00010000
+Epoch 135, weight, value: tensor([[ 0.0318, -0.0835, -0.0895,  ..., -0.0287, -0.1497, -0.0105],
+        [-0.0871, -0.1209, -0.1215,  ..., -0.1050, -0.0604, -0.0011],
+        [ 0.0685,  0.0545, -0.1156,  ..., -0.0935, -0.1117, -0.0685],
+        ...,
+        [ 0.0146,  0.0363, -0.0487,  ..., -0.0263, -0.1146,  0.0472],
+        [ 0.0052,  0.0955,  0.0828,  ..., -0.0763,  0.0622, -0.1177],
+        [-0.0444, -0.0044, -0.0292,  ..., -0.0287, -0.0584,  0.0497]],
+       device='cuda:0'), grad: tensor([[ 4.1053e-06,  5.7295e-06,  1.0896e-07,  ...,  6.2864e-08,
+          1.5227e-07,  3.4738e-07],
+        [ 4.6268e-06,  8.4117e-06,  8.1956e-08,  ...,  7.4506e-09,
+          2.6729e-07, -2.4401e-07],
+        [-1.8254e-06,  2.8402e-05,  2.6496e-07,  ...,  1.7695e-08,
+          6.7987e-07,  1.6019e-07],
+        ...,
+        [-2.6673e-05, -6.1393e-05,  1.4622e-07,  ...,  4.6566e-10,
+          4.7591e-07,  2.2762e-06],
+        [ 1.2070e-06,  1.9092e-06, -5.2387e-07,  ...,  5.3085e-08,
+         -6.9011e-07,  9.0292e-07],
+        [-1.0831e-06, -9.2089e-06,  7.5437e-08,  ...,  4.1910e-09,
+          3.5577e-07, -6.1132e-06]], device='cuda:0')
+Epoch 135, bias, value: tensor([ 0.0287, -0.0189, -0.0089, -0.0019,  0.0058,  0.0019, -0.0182,  0.0014,
+         0.0206,  0.0195], device='cuda:0'), grad: tensor([ 1.7866e-05,  2.4021e-05,  5.8174e-05,  5.5671e-05,  9.9018e-06,
+         3.8296e-06,  1.2167e-05, -1.7285e-04,  8.6725e-06, -1.7688e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 134, time 256.90, cls_loss 0.0030 cls_loss_mapping 0.0059 cls_loss_causal 0.5268 re_mapping 0.0077 re_causal 0.0220 /// teacc 99.02 lr 0.00010000
+Epoch 136, weight, value: tensor([[ 0.0319, -0.0840, -0.0903,  ..., -0.0294, -0.1502, -0.0110],
+        [-0.0881, -0.1217, -0.1220,  ..., -0.1055, -0.0608, -0.0016],
+        [ 0.0686,  0.0542, -0.1164,  ..., -0.0937, -0.1124, -0.0692],
+        ...,
+        [ 0.0154,  0.0371, -0.0491,  ..., -0.0253, -0.1154,  0.0486],
+        [ 0.0062,  0.0971,  0.0834,  ..., -0.0758,  0.0633, -0.1176],
+        [-0.0448, -0.0057, -0.0296,  ..., -0.0291, -0.0591,  0.0483]],
+       device='cuda:0'), grad: tensor([[-8.1509e-06,  2.7791e-06,  2.6375e-06,  ...,  3.0715e-06,
+          2.1271e-06,  8.4937e-07],
+        [ 1.3728e-06,  1.3765e-06,  1.1967e-07,  ...,  4.8801e-07,
+          1.3923e-07, -2.1569e-06],
+        [-2.2184e-06, -2.3581e-06,  1.3225e-07,  ...,  1.7649e-07,
+         -1.4901e-07,  3.0780e-07],
+        ...,
+        [-1.8068e-06, -1.2340e-06,  1.3504e-08,  ..., -1.2526e-07,
+          2.6543e-08, -1.8012e-06],
+        [ 1.6559e-06,  2.9150e-06,  4.4191e-07,  ...,  4.2003e-07,
+          4.1351e-07,  7.8417e-07],
+        [ 6.3926e-06,  3.9488e-06,  1.7276e-07,  ...,  4.3120e-07,
+          1.4342e-07,  9.5740e-07]], device='cuda:0')
+Epoch 136, bias, value: tensor([ 0.0285, -0.0193, -0.0093, -0.0021,  0.0066,  0.0016, -0.0181,  0.0029,
+         0.0216,  0.0183], device='cuda:0'), grad: tensor([-4.8548e-05, -6.7614e-06, -8.1351e-07,  5.7407e-06, -5.7697e-05,
+         3.7216e-06,  1.6704e-05,  1.0140e-05,  1.3337e-05,  6.4135e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 135, time 256.81, cls_loss 0.0030 cls_loss_mapping 0.0062 cls_loss_causal 0.5643 re_mapping 0.0071 re_causal 0.0218 /// teacc 98.97 lr 0.00010000
+Epoch 137, weight, value: tensor([[ 0.0318, -0.0845, -0.0916,  ..., -0.0300, -0.1512, -0.0115],
+        [-0.0889, -0.1220, -0.1227,  ..., -0.1062, -0.0615, -0.0014],
+        [ 0.0696,  0.0547, -0.1176,  ..., -0.0940, -0.1136, -0.0693],
+        ...,
+        [ 0.0152,  0.0375, -0.0500,  ..., -0.0251, -0.1178,  0.0487],
+        [ 0.0062,  0.0984,  0.0843,  ..., -0.0755,  0.0640, -0.1179],
+        [-0.0443, -0.0063, -0.0295,  ..., -0.0294, -0.0572,  0.0477]],
+       device='cuda:0'), grad: tensor([[ 4.3735e-06,  5.3532e-06,  3.7234e-06,  ...,  2.6189e-06,
+          3.6433e-06,  7.9535e-07],
+        [ 5.0068e-06,  4.4629e-06,  3.0342e-06,  ...,  2.0657e-06,
+          3.2373e-06,  2.1551e-06],
+        [-1.9848e-05, -6.0629e-07,  1.5227e-06,  ..., -3.3621e-06,
+          1.5618e-06,  4.0652e-07],
+        ...,
+        [ 3.5437e-07,  5.0478e-07,  5.3737e-07,  ...,  1.7323e-07,
+          5.7556e-07, -8.8476e-09],
+        [ 1.3905e-06, -2.1104e-06, -1.0848e-05,  ...,  5.6773e-06,
+         -8.5011e-06,  2.3395e-06],
+        [-5.1968e-06,  1.0423e-05,  1.4566e-06,  ...,  2.0815e-07,
+          1.4324e-06,  4.1366e-05]], device='cuda:0')
+Epoch 137, bias, value: tensor([ 0.0281, -0.0194, -0.0089, -0.0019,  0.0064,  0.0013, -0.0182,  0.0026,
+         0.0215,  0.0189], device='cuda:0'), grad: tensor([ 2.5555e-05,  6.2287e-05, -9.2447e-05,  4.1544e-05, -7.2336e-04,
+         1.9774e-05, -1.0923e-05,  8.4043e-06, -5.5227e-07,  6.6996e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 136, time 257.41, cls_loss 0.0021 cls_loss_mapping 0.0049 cls_loss_causal 0.5401 re_mapping 0.0068 re_causal 0.0215 /// teacc 99.00 lr 0.00010000
+Epoch 138, weight, value: tensor([[ 0.0318, -0.0847, -0.0921,  ..., -0.0303, -0.1517, -0.0117],
+        [-0.0896, -0.1223, -0.1230,  ..., -0.1063, -0.0620, -0.0014],
+        [ 0.0699,  0.0548, -0.1185,  ..., -0.0945, -0.1143, -0.0695],
+        ...,
+        [ 0.0155,  0.0376, -0.0505,  ..., -0.0252, -0.1188,  0.0488],
+        [ 0.0062,  0.0986,  0.0842,  ..., -0.0758,  0.0641, -0.1185],
+        [-0.0444, -0.0063, -0.0298,  ..., -0.0295, -0.0571,  0.0475]],
+       device='cuda:0'), grad: tensor([[-7.3854e-07,  1.3756e-06,  1.7658e-06,  ...,  1.1865e-06,
+          1.6522e-06,  9.3598e-08],
+        [ 6.5425e-07,  7.0361e-07,  3.3993e-07,  ...,  8.1025e-08,
+          5.2201e-07,  6.3796e-08],
+        [ 4.0000e-07,  1.6531e-06,  1.8300e-06,  ...,  1.9092e-07,
+          2.5369e-06,  2.1746e-07],
+        ...,
+        [-7.4767e-06, -9.0376e-06,  6.6496e-07,  ...,  5.1223e-09,
+          1.0338e-06, -4.9807e-06],
+        [-1.2601e-06, -3.2559e-06,  3.1516e-06,  ...,  6.7428e-07,
+          2.0228e-06,  6.4261e-08],
+        [ 7.6815e-06,  8.4043e-06,  5.7407e-06,  ...,  8.1025e-08,
+          5.6513e-06,  4.1388e-06]], device='cuda:0')
+Epoch 138, bias, value: tensor([ 0.0276, -0.0197, -0.0087, -0.0017,  0.0071,  0.0011, -0.0179,  0.0025,
+         0.0212,  0.0189], device='cuda:0'), grad: tensor([ 7.5623e-07,  1.7006e-06,  4.1686e-06,  5.8897e-06,  8.9174e-07,
+        -2.2963e-05, -4.2394e-06, -1.2919e-05,  2.9933e-06,  2.3693e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 137, time 257.34, cls_loss 0.0022 cls_loss_mapping 0.0060 cls_loss_causal 0.5614 re_mapping 0.0069 re_causal 0.0218 /// teacc 98.90 lr 0.00010000
+Epoch 139, weight, value: tensor([[ 0.0316, -0.0855, -0.0929,  ..., -0.0307, -0.1531, -0.0128],
+        [-0.0903, -0.1224, -0.1233,  ..., -0.1067, -0.0629, -0.0014],
+        [ 0.0702,  0.0549, -0.1193,  ..., -0.0949, -0.1140, -0.0692],
+        ...,
+        [ 0.0159,  0.0379, -0.0509,  ..., -0.0253, -0.1190,  0.0489],
+        [ 0.0064,  0.0989,  0.0843,  ..., -0.0763,  0.0644, -0.1194],
+        [-0.0445, -0.0063, -0.0298,  ..., -0.0293, -0.0567,  0.0474]],
+       device='cuda:0'), grad: tensor([[-3.1386e-07,  4.8950e-06,  4.1127e-06,  ...,  2.3786e-06,
+          5.7742e-06,  7.4506e-08],
+        [ 8.4162e-05,  8.0168e-05,  1.4659e-06,  ...,  4.5914e-07,
+          2.1793e-06,  5.2363e-05],
+        [ 1.3560e-06,  3.3248e-06,  2.1998e-06,  ...,  4.6287e-07,
+          3.4049e-06,  7.6182e-07],
+        ...,
+        [-9.9421e-05, -9.4354e-05,  1.6652e-06,  ...,  3.1944e-07,
+          2.2482e-06, -6.2227e-05],
+        [ 2.4810e-06,  6.5416e-06,  5.3868e-06,  ...,  1.5842e-06,
+          7.8455e-06,  1.0803e-06],
+        [ 1.0870e-05,  1.1332e-05,  4.5784e-06,  ...,  9.4716e-07,
+          6.3851e-06,  5.7966e-06]], device='cuda:0')
+Epoch 139, bias, value: tensor([ 0.0274, -0.0199, -0.0079, -0.0017,  0.0073,  0.0012, -0.0179,  0.0024,
+         0.0211,  0.0186], device='cuda:0'), grad: tensor([ 1.0066e-05,  2.1124e-04,  1.1422e-05, -3.6627e-05,  8.1360e-06,
+        -1.5214e-05, -1.7639e-06, -2.4652e-04,  2.2039e-05,  3.7134e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 138, time 251.92, cls_loss 0.0022 cls_loss_mapping 0.0062 cls_loss_causal 0.5142 re_mapping 0.0070 re_causal 0.0204 /// teacc 98.98 lr 0.00010000
+Epoch 140, weight, value: tensor([[ 0.0317, -0.0858, -0.0936,  ..., -0.0312, -0.1537, -0.0129],
+        [-0.0910, -0.1233, -0.1240,  ..., -0.1081, -0.0638, -0.0012],
+        [ 0.0711,  0.0551, -0.1200,  ..., -0.0956, -0.1148, -0.0688],
+        ...,
+        [ 0.0159,  0.0383, -0.0514,  ..., -0.0254, -0.1189,  0.0490],
+        [ 0.0064,  0.0991,  0.0843,  ..., -0.0766,  0.0645, -0.1197],
+        [-0.0446, -0.0064, -0.0305,  ..., -0.0297, -0.0571,  0.0473]],
+       device='cuda:0'), grad: tensor([[-6.4149e-06,  1.4165e-06,  9.3598e-07,  ...,  6.3702e-07,
+          8.5030e-07,  3.5763e-07],
+        [ 1.2163e-06,  2.3060e-06,  2.3842e-07,  ...,  8.9407e-08,
+          3.1013e-07, -6.5044e-06],
+        [ 6.5453e-06,  1.5028e-05,  4.2468e-07,  ...,  1.3318e-07,
+          5.2154e-07,  3.3807e-06],
+        ...,
+        [-7.9945e-06, -2.0698e-05,  1.1362e-07,  ..., -1.3225e-07,
+          1.3970e-07, -2.3283e-06],
+        [ 7.9814e-07,  5.0254e-06,  6.3740e-06,  ...,  4.5747e-06,
+          4.4815e-06,  8.5589e-07],
+        [ 1.5264e-06,  1.7229e-07,  3.7532e-07,  ...,  9.2201e-08,
+          4.3772e-07,  1.2815e-06]], device='cuda:0')
+Epoch 140, bias, value: tensor([ 0.0275, -0.0199, -0.0077, -0.0017,  0.0074,  0.0020, -0.0190,  0.0026,
+         0.0207,  0.0181], device='cuda:0'), grad: tensor([-1.7047e-05, -1.9982e-05,  2.6599e-05,  6.9067e-06,  3.7476e-06,
+         7.1302e-06, -6.5118e-06, -2.0206e-05,  9.5516e-06,  9.7975e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 139, time 251.57, cls_loss 0.0033 cls_loss_mapping 0.0067 cls_loss_causal 0.5489 re_mapping 0.0071 re_causal 0.0205 /// teacc 98.92 lr 0.00010000
+Epoch 141, weight, value: tensor([[ 0.0318, -0.0865, -0.0949,  ..., -0.0322, -0.1545, -0.0132],
+        [-0.0920, -0.1243, -0.1243,  ..., -0.1084, -0.0644, -0.0014],
+        [ 0.0719,  0.0536, -0.1220,  ..., -0.0961, -0.1197, -0.0669],
+        ...,
+        [ 0.0133,  0.0365, -0.0518,  ..., -0.0239, -0.1223,  0.0489],
+        [ 0.0112,  0.1047,  0.0848,  ..., -0.0768,  0.0697, -0.1181],
+        [-0.0447, -0.0063, -0.0303,  ..., -0.0294, -0.0573,  0.0470]],
+       device='cuda:0'), grad: tensor([[ 6.6031e-07,  2.0228e-06,  2.2464e-06,  ...,  2.7940e-08,
+          3.0231e-06,  1.7947e-06],
+        [ 2.1569e-06,  5.2620e-07,  2.2817e-07,  ...,  2.7940e-09,
+         -2.2985e-06, -1.0580e-06],
+        [-1.2107e-07,  5.3924e-07,  4.0047e-07,  ...,  6.5193e-09,
+          3.6508e-07,  9.2387e-07],
+        ...,
+        [-4.1164e-06, -8.4043e-06,  3.7439e-07,  ...,  7.4506e-09,
+          1.0654e-06, -6.4522e-06],
+        [ 6.3516e-07,  2.4345e-06,  6.9812e-06,  ...,  4.0047e-08,
+          7.0706e-06,  1.9763e-06],
+        [-2.0508e-06, -1.6764e-06,  1.0077e-06,  ...,  1.0245e-08,
+         -2.5164e-06, -2.0768e-06]], device='cuda:0')
+Epoch 141, bias, value: tensor([ 0.0275, -0.0205, -0.0078, -0.0022,  0.0072,  0.0020, -0.0192,  0.0016,
+         0.0250,  0.0179], device='cuda:0'), grad: tensor([ 4.7460e-06, -6.9924e-06,  2.0750e-06,  8.4713e-06,  6.5081e-06,
+        -2.5049e-05,  1.4566e-05, -2.3186e-05,  1.9163e-05, -3.6135e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 140, time 257.00, cls_loss 0.0024 cls_loss_mapping 0.0059 cls_loss_causal 0.5502 re_mapping 0.0079 re_causal 0.0230 /// teacc 98.95 lr 0.00010000
+Epoch 142, weight, value: tensor([[ 0.0326, -0.0865, -0.0952,  ..., -0.0323, -0.1542, -0.0132],
+        [-0.0926, -0.1267, -0.1245,  ..., -0.1087, -0.0645, -0.0018],
+        [ 0.0719,  0.0534, -0.1232,  ..., -0.0965, -0.1204, -0.0674],
+        ...,
+        [ 0.0134,  0.0378, -0.0521,  ..., -0.0236, -0.1225,  0.0496],
+        [ 0.0113,  0.1048,  0.0847,  ..., -0.0771,  0.0698, -0.1185],
+        [-0.0452, -0.0065, -0.0306,  ..., -0.0295, -0.0581,  0.0470]],
+       device='cuda:0'), grad: tensor([[ 3.5055e-06,  4.0904e-06,  1.5162e-06,  ...,  1.0850e-06,
+          1.6959e-06,  1.6578e-07],
+        [ 2.4494e-07,  6.2585e-07,  2.3749e-07,  ...,  1.3411e-07,
+          3.6880e-07, -5.2154e-08],
+        [ 6.6683e-07, -4.1164e-06,  2.0396e-07,  ...,  5.6811e-08,
+         -1.7043e-07,  8.5682e-08],
+        ...,
+        [ 2.4531e-06,  3.2131e-06,  3.3341e-07,  ...,  6.5193e-09,
+          6.1095e-07,  1.1735e-07],
+        [ 1.1642e-07,  6.4168e-07,  2.5313e-06,  ...,  4.0699e-07,
+          2.5053e-06,  3.4459e-08],
+        [-1.2293e-05, -1.0923e-05,  7.8790e-07,  ...,  2.5146e-08,
+          1.4836e-06, -5.4948e-07]], device='cuda:0')
+Epoch 142, bias, value: tensor([ 0.0284, -0.0209, -0.0086, -0.0024,  0.0094,  0.0019, -0.0191,  0.0028,
+         0.0247,  0.0158], device='cuda:0'), grad: tensor([ 1.8433e-05,  2.6859e-06, -8.1956e-06,  1.0431e-05, -2.5705e-06,
+        -7.8380e-06, -6.7614e-07,  1.4670e-05,  8.2329e-06, -3.5197e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 141, time 256.90, cls_loss 0.0031 cls_loss_mapping 0.0071 cls_loss_causal 0.5561 re_mapping 0.0074 re_causal 0.0213 /// teacc 98.99 lr 0.00010000
+Epoch 143, weight, value: tensor([[ 0.0327, -0.0869, -0.0961,  ..., -0.0327, -0.1552, -0.0136],
+        [-0.0928, -0.1264, -0.1247,  ..., -0.1093, -0.0646, -0.0009],
+        [ 0.0729,  0.0534, -0.1259,  ..., -0.0979, -0.1198, -0.0684],
+        ...,
+        [ 0.0133,  0.0380, -0.0528,  ..., -0.0237, -0.1225,  0.0493],
+        [ 0.0116,  0.1053,  0.0860,  ..., -0.0755,  0.0705, -0.1189],
+        [-0.0450, -0.0066, -0.0314,  ..., -0.0296, -0.0586,  0.0471]],
+       device='cuda:0'), grad: tensor([[ 8.4937e-07,  1.4780e-06,  8.0373e-07,  ...,  4.0699e-07,
+          1.3392e-06,  5.4017e-07],
+        [ 4.5821e-07,  1.6363e-06,  5.7742e-07,  ...,  1.2387e-07,
+          1.3467e-06,  3.6322e-07],
+        [-3.1162e-06, -3.1237e-06,  2.6543e-07,  ...,  1.3039e-07,
+         -1.7872e-06,  5.4482e-07],
+        ...,
+        [-6.4448e-07, -4.6492e-06,  1.7742e-06,  ...,  7.4506e-09,
+          2.6170e-06, -9.6019e-07],
+        [ 1.0999e-06,  5.2005e-06,  2.0713e-06,  ...,  7.3854e-07,
+          4.4145e-06,  1.2070e-06],
+        [-3.7253e-07,  2.0955e-07,  3.7514e-06,  ...,  5.7742e-08,
+          6.3963e-06,  1.4259e-06]], device='cuda:0')
+Epoch 143, bias, value: tensor([ 0.0282, -0.0190, -0.0093, -0.0029,  0.0089,  0.0014, -0.0191,  0.0025,
+         0.0249,  0.0158], device='cuda:0'), grad: tensor([ 8.2925e-06,  5.7705e-06, -2.5496e-05, -2.2829e-05,  5.2005e-06,
+         7.4394e-06, -5.3868e-06, -4.8894e-07,  1.6272e-05,  1.1191e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 142, time 257.07, cls_loss 0.0021 cls_loss_mapping 0.0052 cls_loss_causal 0.5403 re_mapping 0.0071 re_causal 0.0215 /// teacc 98.94 lr 0.00010000
+Epoch 144, weight, value: tensor([[ 0.0329, -0.0872, -0.0968,  ..., -0.0330, -0.1559, -0.0133],
+        [-0.0931, -0.1266, -0.1258,  ..., -0.1100, -0.0660, -0.0007],
+        [ 0.0731,  0.0536, -0.1271,  ..., -0.0981, -0.1195, -0.0686],
+        ...,
+        [ 0.0133,  0.0382, -0.0538,  ..., -0.0236, -0.1226,  0.0494],
+        [ 0.0117,  0.1053,  0.0858,  ..., -0.0761,  0.0701, -0.1198],
+        [-0.0452, -0.0070, -0.0326,  ..., -0.0297, -0.0592,  0.0471]],
+       device='cuda:0'), grad: tensor([[ 7.0781e-08,  4.5914e-07,  2.5239e-07,  ...,  1.2852e-07,
+          2.2352e-07,  1.7695e-07],
+        [ 1.2014e-07,  5.2620e-07,  2.8871e-07,  ...,  1.9558e-08,
+          3.0641e-07, -5.0012e-07],
+        [ 2.4214e-07,  1.1390e-06,  4.1537e-07,  ...,  3.5390e-08,
+          4.4331e-07,  5.3924e-07],
+        ...,
+        [-7.2550e-07, -3.6806e-06,  3.6415e-07,  ...,  0.0000e+00,
+          3.8929e-07, -8.0653e-07],
+        [ 2.6822e-07,  1.6708e-06,  3.0715e-06,  ...,  2.7381e-07,
+          3.1758e-06,  3.8370e-07],
+        [-9.4529e-07, -6.3702e-07,  1.3681e-06,  ...,  6.5193e-09,
+          1.4566e-06, -1.3355e-06]], device='cuda:0')
+Epoch 144, bias, value: tensor([ 0.0283, -0.0194, -0.0084, -0.0028,  0.0089,  0.0014, -0.0190,  0.0027,
+         0.0245,  0.0154], device='cuda:0'), grad: tensor([ 7.2736e-07, -1.9558e-07,  2.4661e-06, -9.1866e-06, -1.2510e-05,
+         2.4587e-06,  5.4948e-07, -9.2387e-07,  6.4000e-06,  1.0192e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 143, time 256.97, cls_loss 0.0024 cls_loss_mapping 0.0059 cls_loss_causal 0.5401 re_mapping 0.0071 re_causal 0.0209 /// teacc 98.96 lr 0.00010000
+Epoch 145, weight, value: tensor([[ 0.0331, -0.0879, -0.0990,  ..., -0.0343, -0.1574, -0.0138],
+        [-0.0934, -0.1268, -0.1260,  ..., -0.1104, -0.0660, -0.0004],
+        [ 0.0734,  0.0538, -0.1281,  ..., -0.0983, -0.1196, -0.0689],
+        ...,
+        [ 0.0133,  0.0382, -0.0546,  ..., -0.0238, -0.1227,  0.0493],
+        [ 0.0117,  0.1053,  0.0861,  ..., -0.0765,  0.0703, -0.1206],
+        [-0.0451, -0.0067, -0.0334,  ..., -0.0301, -0.0597,  0.0467]],
+       device='cuda:0'), grad: tensor([[ 2.7847e-06,  1.3430e-06,  8.1956e-08,  ...,  5.0291e-08,
+          7.3574e-08,  2.6058e-06],
+        [ 2.0303e-07,  2.5947e-06,  1.0896e-07,  ...,  3.7253e-09,
+          1.0803e-07, -1.0327e-05],
+        [-3.3155e-07, -2.6524e-06,  1.6391e-07,  ...,  3.7253e-09,
+          1.4901e-07,  4.6939e-06],
+        ...,
+        [ 1.9178e-05,  8.0243e-06,  2.0303e-07,  ...,  0.0000e+00,
+          1.8347e-07,  2.0221e-05],
+        [-4.0233e-07, -1.0729e-06, -2.0023e-06,  ...,  1.9558e-08,
+         -1.6028e-06,  4.8801e-07],
+        [-2.3156e-05, -1.0513e-05,  1.7043e-07,  ...,  9.3132e-10,
+          1.4808e-07, -2.1279e-05]], device='cuda:0')
+Epoch 145, bias, value: tensor([ 0.0281, -0.0193, -0.0081, -0.0028,  0.0101,  0.0015, -0.0186,  0.0025,
+         0.0242,  0.0144], device='cuda:0'), grad: tensor([ 8.6948e-06, -6.3896e-05,  2.3529e-05,  3.4794e-06,  8.7842e-06,
+         6.5081e-06,  1.4948e-06,  8.0347e-05,  6.3982e-07, -6.9499e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 144, time 256.94, cls_loss 0.0023 cls_loss_mapping 0.0059 cls_loss_causal 0.5761 re_mapping 0.0072 re_causal 0.0222 /// teacc 98.81 lr 0.00010000
+Epoch 146, weight, value: tensor([[ 0.0334, -0.0882, -0.0995,  ..., -0.0346, -0.1580, -0.0138],
+        [-0.0937, -0.1268, -0.1263,  ..., -0.1107, -0.0662, -0.0003],
+        [ 0.0728,  0.0527, -0.1285,  ..., -0.0986, -0.1198, -0.0693],
+        ...,
+        [ 0.0140,  0.0391, -0.0552,  ..., -0.0238, -0.1227,  0.0494],
+        [ 0.0117,  0.1053,  0.0860,  ..., -0.0770,  0.0702, -0.1210],
+        [-0.0453, -0.0066, -0.0345,  ..., -0.0302, -0.0599,  0.0468]],
+       device='cuda:0'), grad: tensor([[-2.7567e-06,  8.9500e-07,  7.9628e-07,  ...,  1.3318e-07,
+          8.7731e-07,  1.8626e-08],
+        [ 4.7777e-07,  1.1232e-06,  1.0096e-06,  ...,  5.7742e-08,
+          1.1316e-06,  1.8626e-09],
+        [ 5.8673e-08,  1.4476e-05,  1.3523e-05,  ...,  3.8184e-08,
+          1.5102e-05,  1.6764e-08],
+        ...,
+        [ 1.0803e-07,  5.5507e-06,  5.1893e-06,  ...,  1.8626e-09,
+          5.7966e-06,  8.0094e-08],
+        [ 2.6915e-07,  1.3165e-05,  1.2331e-05,  ...,  9.4995e-08,
+          1.3709e-05,  1.2293e-07],
+        [ 1.0664e-06,  2.3376e-07,  1.9297e-06,  ...,  2.8871e-08,
+          2.1383e-06, -7.7486e-07]], device='cuda:0')
+Epoch 146, bias, value: tensor([ 0.0277, -0.0191, -0.0095, -0.0028,  0.0101,  0.0017, -0.0185,  0.0035,
+         0.0238,  0.0146], device='cuda:0'), grad: tensor([-4.3124e-05,  1.6361e-05,  1.8179e-05, -1.4150e-04, -4.5002e-06,
+         5.8770e-05,  6.1952e-06,  2.5228e-05,  4.6164e-05,  1.8224e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 145, time 255.67, cls_loss 0.0029 cls_loss_mapping 0.0066 cls_loss_causal 0.5153 re_mapping 0.0069 re_causal 0.0196 /// teacc 99.02 lr 0.00010000
+Epoch 147, weight, value: tensor([[ 3.3642e-02, -8.8174e-02, -1.0058e-01,  ..., -3.4658e-02,
+         -1.5901e-01, -1.3827e-02],
+        [-9.4089e-02, -1.2732e-01, -1.2684e-01,  ..., -1.1022e-01,
+         -6.6740e-02, -5.8788e-05],
+        [ 7.3148e-02,  5.2653e-02, -1.2904e-01,  ..., -9.8792e-02,
+         -1.2040e-01, -6.9431e-02],
+        ...,
+        [ 1.3571e-02,  3.9036e-02, -5.6408e-02,  ..., -2.3869e-02,
+         -1.2401e-01,  4.9015e-02],
+        [ 1.1777e-02,  1.0562e-01,  8.6505e-02,  ..., -7.6968e-02,
+          7.0496e-02, -1.2166e-01],
+        [-4.5356e-02, -6.4570e-03, -3.6120e-02,  ..., -3.0314e-02,
+         -6.1014e-02,  4.7254e-02]], device='cuda:0'), grad: tensor([[-1.1735e-06,  1.2852e-06,  1.2834e-06,  ...,  6.7335e-07,
+          1.0589e-06,  6.7055e-08],
+        [ 3.8464e-07,  3.7309e-06,  4.0885e-07,  ...,  1.4435e-07,
+          3.8184e-07, -1.1638e-05],
+        [-1.8468e-06, -1.0608e-06,  2.5146e-07,  ...,  4.4703e-08,
+         -6.0257e-07,  6.6049e-06],
+        ...,
+        [-9.3319e-07, -4.5896e-06,  1.0859e-06,  ...,  6.5193e-09,
+          7.1619e-07,  2.3656e-06],
+        [ 9.8906e-07,  3.5651e-06,  1.1273e-05,  ...,  2.2352e-06,
+          7.0482e-06,  9.6858e-08],
+        [ 1.1167e-06,  2.5146e-07,  1.9576e-06,  ...,  1.1548e-07,
+          1.0347e-06,  9.2201e-08]], device='cuda:0')
+Epoch 147, bias, value: tensor([ 0.0293, -0.0199, -0.0101, -0.0015,  0.0102,  0.0014, -0.0192,  0.0035,
+         0.0240,  0.0144], device='cuda:0'), grad: tensor([-1.6503e-06, -5.6028e-05,  2.7627e-05,  1.2852e-05, -3.1292e-05,
+        -2.0713e-05, -3.2447e-06,  4.2647e-05,  2.0862e-05,  8.8662e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 146, time 256.98, cls_loss 0.0021 cls_loss_mapping 0.0045 cls_loss_causal 0.5277 re_mapping 0.0069 re_causal 0.0200 /// teacc 99.03 lr 0.00010000
+Epoch 148, weight, value: tensor([[ 0.0345, -0.0885, -0.1015,  ..., -0.0355, -0.1596, -0.0142],
+        [-0.0947, -0.1283, -0.1272,  ..., -0.1105, -0.0671, -0.0008],
+        [ 0.0739,  0.0531, -0.1294,  ..., -0.0994, -0.1206, -0.0694],
+        ...,
+        [ 0.0132,  0.0391, -0.0574,  ..., -0.0239, -0.1241,  0.0495],
+        [ 0.0115,  0.1055,  0.0859,  ..., -0.0779,  0.0701, -0.1222],
+        [-0.0453, -0.0056, -0.0364,  ..., -0.0304, -0.0615,  0.0483]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-08,  5.5227e-07,  5.1782e-07,  ...,  3.1572e-07,
+          5.9791e-07, -2.1607e-07],
+        [ 3.5577e-07,  1.5274e-07,  1.8161e-07,  ...,  8.3819e-09,
+          2.2911e-07, -2.1011e-05],
+        [ 1.5553e-07,  6.5193e-09,  9.3319e-07,  ...,  7.8231e-08,
+          1.2210e-06,  9.2983e-06],
+        ...,
+        [ 1.0245e-08, -1.2387e-07,  1.3970e-07,  ...,  0.0000e+00,
+          1.7323e-07,  8.6650e-06],
+        [-1.2945e-06, -1.3700e-06, -1.7509e-07,  ...,  4.3772e-08,
+         -6.9756e-07,  4.2375e-07],
+        [ 9.9652e-08,  7.2643e-08,  2.4401e-07,  ...,  2.7940e-09,
+          2.6729e-07,  2.6543e-07]], device='cuda:0')
+Epoch 148, bias, value: tensor([ 0.0295, -0.0207, -0.0095, -0.0017,  0.0101,  0.0018, -0.0188,  0.0036,
+         0.0234,  0.0147], device='cuda:0'), grad: tensor([-1.8440e-07, -1.0800e-04,  4.4465e-05, -3.1684e-06,  9.3356e-06,
+         4.8280e-06,  4.2059e-06,  4.5836e-05,  7.7765e-07,  1.9092e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 147, time 257.16, cls_loss 0.0020 cls_loss_mapping 0.0055 cls_loss_causal 0.5517 re_mapping 0.0066 re_causal 0.0202 /// teacc 98.93 lr 0.00010000
+Epoch 149, weight, value: tensor([[ 0.0347, -0.0888, -0.1026,  ..., -0.0363, -0.1602, -0.0146],
+        [-0.0952, -0.1286, -0.1278,  ..., -0.1110, -0.0676, -0.0003],
+        [ 0.0741,  0.0532, -0.1303,  ..., -0.1000, -0.1211, -0.0700],
+        ...,
+        [ 0.0133,  0.0391, -0.0585,  ..., -0.0241, -0.1242,  0.0492],
+        [ 0.0115,  0.1048,  0.0844,  ..., -0.0806,  0.0686, -0.1229],
+        [-0.0453, -0.0055, -0.0367,  ..., -0.0306, -0.0616,  0.0486]],
+       device='cuda:0'), grad: tensor([[ 5.0571e-07,  2.2817e-07,  4.0978e-07,  ...,  2.0955e-07,
+          3.1199e-07,  4.9267e-07],
+        [ 3.6042e-07,  9.4064e-08,  1.3784e-07,  ...,  1.9558e-08,
+          1.2107e-07, -5.5768e-06],
+        [-3.7253e-08,  1.9558e-08,  1.1921e-07,  ...,  3.2596e-08,
+          1.6671e-07,  1.0943e-06],
+        ...,
+        [-4.3139e-06, -2.6543e-07,  3.2783e-07,  ...,  4.6566e-09,
+          1.3690e-07, -6.1188e-07],
+        [-1.7416e-07, -5.9605e-08,  1.6391e-07,  ...,  2.1886e-07,
+         -2.5891e-07,  6.1467e-07],
+        [ 3.0119e-06,  2.3469e-07,  2.6766e-06,  ...,  2.2352e-08,
+          6.8825e-07,  2.7344e-06]], device='cuda:0')
+Epoch 149, bias, value: tensor([ 0.0295, -0.0204, -0.0097, -0.0019,  0.0100,  0.0022, -0.0173,  0.0032,
+         0.0223,  0.0148], device='cuda:0'), grad: tensor([ 2.2855e-06, -1.7434e-05,  2.9206e-06,  7.0669e-06,  3.6731e-06,
+        -1.0647e-05,  4.8988e-07, -3.9078e-06,  1.9148e-06,  1.3612e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 148, time 257.00, cls_loss 0.0025 cls_loss_mapping 0.0055 cls_loss_causal 0.5375 re_mapping 0.0066 re_causal 0.0201 /// teacc 99.04 lr 0.00010000
+Epoch 150, weight, value: tensor([[ 0.0349, -0.0890, -0.1034,  ..., -0.0370, -0.1609, -0.0147],
+        [-0.0958, -0.1292, -0.1298,  ..., -0.1128, -0.0687, -0.0005],
+        [ 0.0740,  0.0526, -0.1314,  ..., -0.1004, -0.1215, -0.0703],
+        ...,
+        [ 0.0134,  0.0397, -0.0595,  ..., -0.0244, -0.1243,  0.0493],
+        [ 0.0115,  0.1044,  0.0820,  ..., -0.0833,  0.0673, -0.1242],
+        [-0.0449, -0.0050, -0.0372,  ..., -0.0308, -0.0608,  0.0498]],
+       device='cuda:0'), grad: tensor([[ 1.4054e-06,  6.5472e-07,  5.3458e-07,  ...,  2.4214e-07,
+          5.6718e-07,  1.1921e-06],
+        [ 1.4063e-06,  9.1735e-07,  6.8732e-07,  ...,  6.5193e-09,
+          8.3633e-07,  1.8440e-07],
+        [ 1.7844e-06,  1.8533e-06,  1.1148e-06,  ...,  1.1176e-08,
+          1.4100e-06,  1.3616e-06],
+        ...,
+        [-8.0168e-06, -2.7940e-06,  5.2992e-07,  ...,  0.0000e+00,
+          7.2829e-07, -6.8098e-06],
+        [-3.2429e-06, -7.9647e-06, -9.7677e-06,  ...,  2.2352e-08,
+         -1.1154e-05,  2.2817e-07],
+        [ 9.1828e-07,  1.3802e-06,  1.1893e-06,  ...,  4.6566e-09,
+          1.4324e-06,  6.6962e-07]], device='cuda:0')
+Epoch 150, bias, value: tensor([ 0.0294, -0.0203, -0.0106, -0.0017,  0.0095,  0.0038, -0.0182,  0.0035,
+         0.0207,  0.0159], device='cuda:0'), grad: tensor([ 6.8247e-06,  5.4128e-06,  9.7081e-06,  1.3880e-05, -9.4473e-05,
+         1.2025e-05,  5.3458e-06, -2.0817e-05, -1.8567e-05,  8.0585e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 149, time 257.05, cls_loss 0.0017 cls_loss_mapping 0.0046 cls_loss_causal 0.5280 re_mapping 0.0065 re_causal 0.0204 /// teacc 99.04 lr 0.00010000
+Epoch 151, weight, value: tensor([[ 0.0349, -0.0894, -0.1043,  ..., -0.0376, -0.1619, -0.0152],
+        [-0.0963, -0.1293, -0.1305,  ..., -0.1134, -0.0692, -0.0002],
+        [ 0.0741,  0.0526, -0.1324,  ..., -0.1007, -0.1220, -0.0709],
+        ...,
+        [ 0.0135,  0.0397, -0.0605,  ..., -0.0246, -0.1244,  0.0493],
+        [ 0.0116,  0.1044,  0.0817,  ..., -0.0837,  0.0670, -0.1245],
+        [-0.0449, -0.0049, -0.0383,  ..., -0.0308, -0.0606,  0.0501]],
+       device='cuda:0'), grad: tensor([[-3.3766e-05,  4.6659e-07, -5.9195e-06,  ...,  1.5460e-07,
+         -4.0412e-05,  4.7497e-08],
+        [ 1.9409e-06,  3.9153e-06,  2.8852e-06,  ...,  1.0543e-06,
+          2.5816e-06, -2.2203e-06],
+        [ 4.3251e-06,  1.3802e-06,  1.8859e-06,  ...,  4.3679e-07,
+          6.1803e-06,  3.9488e-07],
+        ...,
+        [ 3.4366e-07,  3.6787e-07,  5.4110e-07,  ...,  1.7416e-07,
+          1.1493e-06,  3.6974e-07],
+        [ 9.3654e-06,  1.5646e-07, -5.1260e-06,  ..., -2.4121e-06,
+          1.0036e-05,  1.5106e-06],
+        [-1.6931e-06, -1.1839e-05, -2.9244e-07,  ...,  5.4948e-08,
+         -4.8913e-06, -1.0794e-06]], device='cuda:0')
+Epoch 151, bias, value: tensor([ 0.0293, -0.0201, -0.0109, -0.0014,  0.0098,  0.0036, -0.0176,  0.0033,
+         0.0204,  0.0158], device='cuda:0'), grad: tensor([-1.1760e-04,  1.0049e-06,  1.7658e-05,  5.9634e-05,  1.9502e-06,
+         7.4618e-06,  4.6529e-06,  3.7067e-06,  3.8594e-05, -1.7092e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 150, time 256.29, cls_loss 0.0024 cls_loss_mapping 0.0054 cls_loss_causal 0.5286 re_mapping 0.0064 re_causal 0.0188 /// teacc 98.96 lr 0.00010000
+Epoch 152, weight, value: tensor([[ 0.0352, -0.0895, -0.1050,  ..., -0.0379, -0.1619, -0.0148],
+        [-0.0971, -0.1295, -0.1312,  ..., -0.1132, -0.0697,  0.0005],
+        [ 0.0741,  0.0526, -0.1338,  ..., -0.1017, -0.1225, -0.0713],
+        ...,
+        [ 0.0136,  0.0397, -0.0616,  ..., -0.0245, -0.1245,  0.0488],
+        [ 0.0118,  0.1043,  0.0815,  ..., -0.0843,  0.0669, -0.1249],
+        [-0.0452, -0.0046, -0.0389,  ..., -0.0307, -0.0605,  0.0505]],
+       device='cuda:0'), grad: tensor([[ 1.9614e-06,  7.9125e-06,  8.9332e-06,  ...,  2.6934e-06,
+          6.7577e-06,  5.1595e-07],
+        [ 7.3314e-06,  1.0356e-05,  4.0233e-07,  ...,  1.7509e-07,
+          2.6077e-07,  3.5819e-06],
+        [-1.3554e-04, -1.8990e-04,  3.0920e-06,  ...,  1.9316e-06,
+          1.3839e-06, -7.7784e-05],
+        ...,
+        [ 1.1742e-04,  1.6725e-04,  1.1269e-07,  ...,  1.3970e-08,
+          1.0338e-07,  6.7472e-05],
+        [ 5.5470e-06,  9.5218e-06,  1.8582e-05,  ...,  2.6543e-07,
+          1.9029e-05,  1.2806e-06],
+        [ 5.3756e-06,  7.4878e-06,  4.8522e-07,  ...,  4.1910e-08,
+          4.5728e-07,  2.7362e-06]], device='cuda:0')
+Epoch 152, bias, value: tensor([ 0.0295, -0.0198, -0.0112, -0.0014,  0.0101,  0.0036, -0.0176,  0.0030,
+         0.0203,  0.0158], device='cuda:0'), grad: tensor([ 2.6122e-05,  1.9804e-05, -3.4142e-04, -5.6803e-05,  9.1419e-06,
+         1.8418e-05, -4.1127e-05,  3.1137e-04,  3.9518e-05,  1.4499e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 151, time 256.92, cls_loss 0.0018 cls_loss_mapping 0.0036 cls_loss_causal 0.5055 re_mapping 0.0064 re_causal 0.0193 /// teacc 98.93 lr 0.00010000
+Epoch 153, weight, value: tensor([[ 0.0356, -0.0898, -0.1061,  ..., -0.0379, -0.1627, -0.0155],
+        [-0.0976, -0.1296, -0.1315,  ..., -0.1133, -0.0699,  0.0009],
+        [ 0.0748,  0.0530, -0.1346,  ..., -0.1020, -0.1227, -0.0713],
+        ...,
+        [ 0.0134,  0.0398, -0.0624,  ..., -0.0247, -0.1244,  0.0487],
+        [ 0.0118,  0.1043,  0.0816,  ..., -0.0843,  0.0670, -0.1255],
+        [-0.0452, -0.0048, -0.0392,  ..., -0.0308, -0.0608,  0.0506]],
+       device='cuda:0'), grad: tensor([[ 1.6019e-07,  8.2422e-07,  2.8498e-07,  ...,  4.2841e-07,
+          2.2165e-07, -3.8054e-06],
+        [ 1.9930e-07,  1.0943e-06,  4.5449e-07,  ...,  5.5041e-07,
+          3.7998e-07,  7.9907e-07],
+        [-3.1944e-07,  5.1409e-07,  1.1735e-07,  ...,  8.8662e-07,
+          1.4622e-07,  2.6077e-07],
+        ...,
+        [ 7.9721e-07,  1.8105e-06,  1.7043e-07,  ...,  1.0617e-07,
+          1.7136e-07,  4.7032e-07],
+        [ 3.1758e-07,  5.4799e-06,  2.1383e-05,  ...,  1.5926e-07,
+          1.1884e-05,  3.5856e-07],
+        [-1.7760e-06, -4.0308e-06,  8.8476e-07,  ...,  4.7404e-07,
+          5.3924e-07, -9.7789e-07]], device='cuda:0')
+Epoch 153, bias, value: tensor([ 0.0294, -0.0196, -0.0108, -0.0012,  0.0116,  0.0034, -0.0176,  0.0027,
+         0.0202,  0.0146], device='cuda:0'), grad: tensor([-3.0503e-05,  1.1660e-05,  4.5970e-06,  6.4746e-06, -4.7088e-05,
+        -2.9683e-05,  5.2452e-05,  5.5023e-06,  2.9013e-05, -2.3916e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 152, time 256.64, cls_loss 0.0025 cls_loss_mapping 0.0052 cls_loss_causal 0.5423 re_mapping 0.0066 re_causal 0.0197 /// teacc 98.97 lr 0.00010000
+Epoch 154, weight, value: tensor([[ 0.0359, -0.0902, -0.1067,  ..., -0.0395, -0.1634, -0.0155],
+        [-0.0979, -0.1298, -0.1330,  ..., -0.1136, -0.0715,  0.0009],
+        [ 0.0753,  0.0531, -0.1353,  ..., -0.1021, -0.1231, -0.0717],
+        ...,
+        [ 0.0132,  0.0398, -0.0634,  ..., -0.0249, -0.1246,  0.0487],
+        [ 0.0118,  0.1045,  0.0817,  ..., -0.0843,  0.0673, -0.1260],
+        [-0.0453, -0.0027, -0.0404,  ..., -0.0314, -0.0612,  0.0519]],
+       device='cuda:0'), grad: tensor([[ 1.5460e-07,  3.0082e-07,  2.0768e-07,  ...,  6.5193e-08,
+          1.6857e-07,  5.2154e-08],
+        [ 8.4378e-07,  1.7285e-06,  5.5321e-07,  ..., -6.9849e-08,
+          6.6310e-07, -3.1292e-07],
+        [-8.4192e-07, -4.6566e-09,  2.4494e-07,  ...,  2.5146e-08,
+          3.5763e-07,  6.7055e-08],
+        ...,
+        [ 4.0568e-06,  9.2536e-06,  2.0154e-06,  ...,  2.2352e-08,
+          2.6040e-06,  2.1718e-06],
+        [-7.0743e-06, -1.6347e-05, -4.2282e-06,  ...,  8.6613e-08,
+         -5.9605e-06,  9.8720e-08],
+        [ 1.7602e-07, -6.0722e-07,  8.6427e-07,  ...,  2.7008e-08,
+          9.1922e-07, -2.4065e-06]], device='cuda:0')
+Epoch 154, bias, value: tensor([ 0.0292, -0.0196, -0.0109, -0.0020,  0.0098,  0.0050, -0.0182,  0.0025,
+         0.0202,  0.0160], device='cuda:0'), grad: tensor([ 5.7928e-07,  2.4643e-06, -9.6858e-07,  1.1295e-05, -1.7136e-07,
+        -2.8521e-05,  2.5347e-05,  1.8656e-05, -2.6822e-05, -1.9185e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 153, time 257.01, cls_loss 0.0031 cls_loss_mapping 0.0058 cls_loss_causal 0.5374 re_mapping 0.0065 re_causal 0.0189 /// teacc 99.02 lr 0.00010000
+Epoch 155, weight, value: tensor([[ 3.6097e-02, -9.0778e-02, -1.0780e-01,  ..., -4.0214e-02,
+         -1.6465e-01, -1.5980e-02],
+        [-9.8934e-02, -1.3101e-01, -1.3551e-01,  ..., -1.1504e-01,
+         -7.4972e-02,  6.9601e-05],
+        [ 7.5909e-02,  5.3494e-02, -1.3598e-01,  ..., -1.0218e-01,
+         -1.2304e-01, -7.2211e-02],
+        ...,
+        [ 1.3141e-02,  3.9604e-02, -6.4776e-02,  ..., -2.5000e-02,
+         -1.2482e-01,  4.8568e-02],
+        [ 1.2561e-02,  1.0596e-01,  8.3668e-02,  ..., -8.4157e-02,
+          6.8812e-02, -1.2737e-01],
+        [-4.5115e-02, -2.3898e-03, -4.0734e-02,  ..., -3.1698e-02,
+         -5.8896e-02,  5.4345e-02]], device='cuda:0'), grad: tensor([[-1.0338e-07,  4.4703e-08,  1.5739e-07,  ...,  4.6566e-09,
+          1.9278e-07,  9.3132e-10],
+        [ 1.3132e-07,  3.1199e-07,  1.0468e-06,  ..., -1.6764e-08,
+          1.3895e-06, -1.8161e-07],
+        [-1.8394e-06, -1.8794e-06,  5.6624e-07,  ...,  2.7940e-09,
+          7.4226e-07,  5.4948e-08],
+        ...,
+        [ 1.4324e-06,  1.0375e-06,  1.1344e-06,  ...,  6.5193e-09,
+          1.4799e-06, -3.0734e-08],
+        [ 6.3330e-08,  2.3283e-08,  4.6566e-06,  ...,  9.3132e-10,
+          5.4576e-06,  7.4506e-09],
+        [ 1.5926e-07,  2.4680e-07,  1.1753e-06,  ...,  5.5879e-09,
+          1.4743e-06,  1.1362e-07]], device='cuda:0')
+Epoch 155, bias, value: tensor([ 0.0292, -0.0221, -0.0094, -0.0028,  0.0097,  0.0038, -0.0180,  0.0018,
+         0.0221,  0.0177], device='cuda:0'), grad: tensor([ 1.6019e-07,  3.3975e-06, -3.2447e-06, -1.0502e-04,  1.0803e-07,
+         8.0764e-05,  2.1700e-07,  6.6459e-06,  1.2673e-05,  4.1872e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 154, time 256.80, cls_loss 0.0024 cls_loss_mapping 0.0051 cls_loss_causal 0.5343 re_mapping 0.0067 re_causal 0.0198 /// teacc 98.88 lr 0.00010000
+Epoch 156, weight, value: tensor([[ 0.0363, -0.0913, -0.1092,  ..., -0.0413, -0.1655, -0.0162],
+        [-0.1008, -0.1322, -0.1371,  ..., -0.1161, -0.0768,  0.0003],
+        [ 0.0761,  0.0533, -0.1371,  ..., -0.1029, -0.1235, -0.0727],
+        ...,
+        [ 0.0137,  0.0401, -0.0659,  ..., -0.0251, -0.1249,  0.0487],
+        [ 0.0129,  0.1065,  0.0841,  ..., -0.0840,  0.0694, -0.1278],
+        [-0.0455, -0.0028, -0.0418,  ..., -0.0320, -0.0592,  0.0540]],
+       device='cuda:0'), grad: tensor([[ 6.9197e-07,  2.5779e-06,  1.5851e-06,  ...,  1.1353e-06,
+          1.2834e-06,  1.2387e-07],
+        [ 1.7192e-06,  2.0321e-06,  1.9465e-07,  ...,  1.2666e-07,
+          1.5181e-07, -1.8626e-07],
+        [ 4.6223e-05,  7.8604e-06,  5.8021e-07,  ...,  2.6077e-07,
+          1.2154e-06,  2.6058e-06],
+        ...,
+        [-1.1347e-05, -3.3319e-05,  4.7218e-07,  ...,  1.2107e-08,
+         -1.3504e-07, -1.3784e-05],
+        [ 1.6969e-06,  3.9004e-06,  2.1663e-06,  ...,  1.6075e-06,
+          1.7593e-06,  2.5425e-07],
+        [ 8.7097e-06,  4.7535e-06,  4.5169e-07,  ...,  1.4249e-07,
+          1.7136e-07,  6.0238e-06]], device='cuda:0')
+Epoch 156, bias, value: tensor([ 0.0291, -0.0227, -0.0100, -0.0026,  0.0097,  0.0035, -0.0171,  0.0023,
+         0.0232,  0.0172], device='cuda:0'), grad: tensor([ 7.1265e-06,  5.0627e-06,  1.9097e-04,  4.6045e-05, -2.7943e-04,
+         1.6868e-05, -1.6823e-05, -3.3617e-05,  1.3895e-05,  4.9442e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 155, time 257.26, cls_loss 0.0018 cls_loss_mapping 0.0047 cls_loss_causal 0.5349 re_mapping 0.0067 re_causal 0.0208 /// teacc 98.98 lr 0.00010000
+Epoch 157, weight, value: tensor([[ 0.0361, -0.0916, -0.1099,  ..., -0.0417, -0.1659, -0.0163],
+        [-0.1011, -0.1323, -0.1375,  ..., -0.1161, -0.0771,  0.0009],
+        [ 0.0762,  0.0533, -0.1377,  ..., -0.1030, -0.1238, -0.0734],
+        ...,
+        [ 0.0137,  0.0402, -0.0669,  ..., -0.0252, -0.1249,  0.0484],
+        [ 0.0131,  0.1067,  0.0840,  ..., -0.0840,  0.0695, -0.1281],
+        [-0.0450, -0.0028, -0.0415,  ..., -0.0320, -0.0595,  0.0542]],
+       device='cuda:0'), grad: tensor([[-4.9919e-06, -4.1723e-07,  1.3039e-07,  ...,  1.3970e-08,
+          1.2852e-07, -4.4610e-07],
+        [ 3.8557e-07, -1.5169e-05,  3.1944e-07,  ...,  1.8626e-09,
+          3.4366e-07, -7.2345e-06],
+        [-4.9081e-07,  4.7870e-06,  3.4086e-07,  ...,  4.6566e-09,
+          5.0012e-07,  2.4922e-06],
+        ...,
+        [ 5.2154e-07,  3.1739e-06,  1.1548e-07,  ...,  0.0000e+00,
+          1.5926e-07,  1.5628e-06],
+        [ 1.2945e-07,  6.5751e-07, -2.8778e-06,  ...,  9.3132e-09,
+         -2.5742e-06,  1.1660e-06],
+        [ 1.2964e-06,  9.4902e-07,  3.1758e-07,  ...,  1.8626e-09,
+          3.7905e-07,  3.4552e-07]], device='cuda:0')
+Epoch 157, bias, value: tensor([ 0.0289, -0.0222, -0.0103, -0.0026,  0.0095,  0.0039, -0.0173,  0.0021,
+         0.0232,  0.0173], device='cuda:0'), grad: tensor([-1.5303e-05, -1.1456e-04,  4.0293e-05,  1.4221e-06,  1.8552e-06,
+         1.1958e-05,  2.2829e-05,  2.4483e-05,  1.8507e-05,  8.6799e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 156, time 255.44, cls_loss 0.0017 cls_loss_mapping 0.0040 cls_loss_causal 0.5325 re_mapping 0.0060 re_causal 0.0194 /// teacc 98.98 lr 0.00010000
+Epoch 158, weight, value: tensor([[ 0.0370, -0.0923, -0.1110,  ..., -0.0422, -0.1668, -0.0160],
+        [-0.1021, -0.1326, -0.1379,  ..., -0.1164, -0.0774,  0.0020],
+        [ 0.0766,  0.0536, -0.1381,  ..., -0.1030, -0.1239, -0.0736],
+        ...,
+        [ 0.0150,  0.0412, -0.0675,  ..., -0.0252, -0.1250,  0.0478],
+        [ 0.0132,  0.1067,  0.0839,  ..., -0.0842,  0.0694, -0.1285],
+        [-0.0472, -0.0041, -0.0421,  ..., -0.0321, -0.0599,  0.0536]],
+       device='cuda:0'), grad: tensor([[-3.9861e-07,  2.2165e-07,  5.6811e-08,  ...,  3.9116e-08,
+          6.4261e-08,  3.2596e-08],
+        [ 9.0338e-07,  2.5425e-06,  5.2154e-08,  ..., -7.4506e-09,
+          1.2759e-07,  9.6019e-07],
+        [ 5.1223e-08,  2.7195e-07,  6.3330e-08,  ...,  7.4506e-09,
+          1.0990e-07,  2.9430e-07],
+        ...,
+        [-2.2314e-06, -6.9849e-06,  5.9605e-08,  ...,  2.7940e-09,
+         -3.7253e-09, -3.7886e-06],
+        [ 2.6915e-07,  3.0827e-07,  4.0047e-08,  ...,  6.8918e-08,
+          1.2014e-07,  3.5297e-07],
+        [ 7.0315e-07,  2.6915e-06,  1.7695e-08,  ...,  2.7940e-09,
+          1.3877e-07,  1.2843e-06]], device='cuda:0')
+Epoch 158, bias, value: tensor([ 0.0290, -0.0215, -0.0100, -0.0027,  0.0095,  0.0039, -0.0169,  0.0018,
+         0.0231,  0.0167], device='cuda:0'), grad: tensor([ 1.2442e-06,  4.0345e-06,  1.6605e-06,  2.6189e-06,  3.3639e-06,
+         6.1579e-06,  4.7497e-07, -1.1720e-05,  3.6694e-06, -1.1519e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 157, time 256.92, cls_loss 0.0020 cls_loss_mapping 0.0038 cls_loss_causal 0.5651 re_mapping 0.0062 re_causal 0.0193 /// teacc 98.97 lr 0.00010000
+Epoch 159, weight, value: tensor([[ 0.0369, -0.0931, -0.1142,  ..., -0.0423, -0.1698, -0.0173],
+        [-0.1029, -0.1330, -0.1387,  ..., -0.1174, -0.0780,  0.0026],
+        [ 0.0769,  0.0539, -0.1387,  ..., -0.1031, -0.1241, -0.0739],
+        ...,
+        [ 0.0150,  0.0413, -0.0683,  ..., -0.0253, -0.1252,  0.0474],
+        [ 0.0134,  0.1067,  0.0838,  ..., -0.0844,  0.0695, -0.1292],
+        [-0.0474, -0.0038, -0.0430,  ..., -0.0322, -0.0602,  0.0539]],
+       device='cuda:0'), grad: tensor([[-1.1520e-06,  3.8696e-07,  3.9069e-07,  ...,  4.2003e-07,
+          4.9453e-07,  9.7789e-09],
+        [ 1.2899e-07,  3.2317e-07,  3.5344e-07,  ...,  3.9535e-07,
+          6.3051e-07, -8.2003e-07],
+        [-6.6310e-07, -2.4214e-07,  1.8813e-07,  ...,  1.3877e-07,
+          3.8324e-07,  5.7742e-08],
+        ...,
+        [ 3.3947e-07,  1.5832e-07,  1.0990e-07,  ...,  6.9849e-09,
+          3.0128e-07,  9.0338e-08],
+        [-5.4017e-08, -2.1514e-07,  8.6147e-08,  ...,  3.9348e-07,
+          1.0710e-08,  7.5437e-08],
+        [ 5.4203e-07, -1.6484e-07,  4.4145e-07,  ...,  6.5193e-08,
+          5.9698e-07,  1.3737e-07]], device='cuda:0')
+Epoch 159, bias, value: tensor([ 0.0280, -0.0211, -0.0098, -0.0020,  0.0092,  0.0039, -0.0169,  0.0015,
+         0.0229,  0.0169], device='cuda:0'), grad: tensor([-2.6692e-06, -1.3458e-07, -1.4137e-06, -2.5015e-06, -2.6338e-06,
+         4.2934e-07, -1.2722e-06,  4.7460e-06,  1.3094e-06,  4.1313e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 158, time 256.99, cls_loss 0.0024 cls_loss_mapping 0.0042 cls_loss_causal 0.5503 re_mapping 0.0062 re_causal 0.0184 /// teacc 99.02 lr 0.00010000
+Epoch 160, weight, value: tensor([[ 0.0374, -0.0937, -0.1154,  ..., -0.0433, -0.1706, -0.0170],
+        [-0.1038, -0.1333, -0.1395,  ..., -0.1177, -0.0785,  0.0027],
+        [ 0.0773,  0.0542, -0.1394,  ..., -0.1026, -0.1242, -0.0743],
+        ...,
+        [ 0.0154,  0.0417, -0.0694,  ..., -0.0260, -0.1250,  0.0479],
+        [ 0.0131,  0.1065,  0.0836,  ..., -0.0845,  0.0694, -0.1306],
+        [-0.0476, -0.0039, -0.0436,  ..., -0.0325, -0.0604,  0.0534]],
+       device='cuda:0'), grad: tensor([[ 4.5747e-06,  9.8422e-06,  6.5342e-06,  ...,  2.3982e-07,
+          9.2164e-06,  6.4187e-06],
+        [ 1.3888e-05,  1.8701e-05,  1.9789e-05,  ...,  4.7032e-08,
+          1.7419e-05, -9.2566e-05],
+        [ 2.0768e-06, -1.6987e-05,  1.0416e-05,  ...,  2.6543e-07,
+          6.0014e-06,  5.2862e-06],
+        ...,
+        [ 1.4044e-05,  2.5868e-05,  3.4552e-06,  ..., -5.6345e-08,
+          5.1074e-06,  9.5516e-06],
+        [-5.5730e-05, -1.2088e-04, -7.0930e-05,  ...,  5.8208e-08,
+         -9.7632e-05, -4.9034e-07],
+        [ 2.7612e-05,  6.8605e-05,  2.7582e-05,  ...,  2.2352e-08,
+          4.4644e-05,  1.4238e-05]], device='cuda:0')
+Epoch 160, bias, value: tensor([ 0.0276, -0.0211, -0.0092, -0.0022,  0.0096,  0.0042, -0.0169,  0.0016,
+         0.0224,  0.0165], device='cuda:0'), grad: tensor([ 3.7342e-05, -1.3041e-04,  8.0645e-05,  2.2128e-05, -9.7930e-05,
+         6.7890e-05,  6.3121e-05,  7.8678e-05, -2.2733e-04,  1.0586e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 159, time 257.34, cls_loss 0.0017 cls_loss_mapping 0.0044 cls_loss_causal 0.5315 re_mapping 0.0061 re_causal 0.0192 /// teacc 98.99 lr 0.00010000
+Epoch 161, weight, value: tensor([[ 0.0378, -0.0937, -0.1157,  ..., -0.0434, -0.1709, -0.0169],
+        [-0.1041, -0.1336, -0.1400,  ..., -0.1178, -0.0788,  0.0029],
+        [ 0.0774,  0.0542, -0.1406,  ..., -0.1029, -0.1245, -0.0744],
+        ...,
+        [ 0.0154,  0.0416, -0.0708,  ..., -0.0261, -0.1252,  0.0478],
+        [ 0.0135,  0.1069,  0.0841,  ..., -0.0845,  0.0698, -0.1311],
+        [-0.0479, -0.0037, -0.0448,  ..., -0.0326, -0.0610,  0.0535]],
+       device='cuda:0'), grad: tensor([[ 1.1146e-05,  1.1556e-05,  1.3739e-05,  ...,  5.1223e-09,
+          1.8179e-05,  1.4948e-07],
+        [ 7.8883e-07,  1.7788e-06,  1.1008e-06,  ...,  1.3970e-09,
+          1.4221e-06, -3.3192e-06],
+        [ 1.6792e-06,  1.7192e-06,  2.4810e-06,  ...,  2.7940e-09,
+          3.2391e-06,  4.7637e-07],
+        ...,
+        [ 3.9255e-07, -1.1306e-06,  6.3796e-07,  ...,  0.0000e+00,
+          7.1200e-07, -8.0373e-07],
+        [-2.6688e-05, -2.6658e-05, -2.9385e-05,  ...,  2.8871e-08,
+         -4.0770e-05,  1.6205e-07],
+        [ 2.4848e-06,  2.1514e-06,  3.3118e-06,  ...,  9.3132e-10,
+          4.2059e-06,  6.3190e-07]], device='cuda:0')
+Epoch 161, bias, value: tensor([ 0.0278, -0.0211, -0.0092, -0.0020,  0.0097,  0.0041, -0.0173,  0.0012,
+         0.0226,  0.0165], device='cuda:0'), grad: tensor([ 5.7191e-05, -1.6764e-08,  1.2390e-05,  3.2932e-05, -9.4175e-06,
+         7.2159e-06,  6.0275e-06,  8.1677e-07, -1.3137e-04,  2.4050e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 160, time 257.03, cls_loss 0.0015 cls_loss_mapping 0.0044 cls_loss_causal 0.5269 re_mapping 0.0060 re_causal 0.0190 /// teacc 99.00 lr 0.00010000
+Epoch 162, weight, value: tensor([[ 0.0382, -0.0940, -0.1162,  ..., -0.0435, -0.1712, -0.0169],
+        [-0.1045, -0.1337, -0.1402,  ..., -0.1179, -0.0789,  0.0034],
+        [ 0.0776,  0.0543, -0.1419,  ..., -0.1032, -0.1249, -0.0748],
+        ...,
+        [ 0.0152,  0.0415, -0.0744,  ..., -0.0263, -0.1256,  0.0475],
+        [ 0.0138,  0.1071,  0.0840,  ..., -0.0846,  0.0699, -0.1316],
+        [-0.0480, -0.0038, -0.0453,  ..., -0.0325, -0.0613,  0.0535]],
+       device='cuda:0'), grad: tensor([[-4.6864e-06, -3.2000e-06,  1.7229e-07,  ...,  7.3574e-08,
+          1.6065e-07, -9.3132e-09],
+        [ 2.1514e-07,  2.4633e-07,  1.3225e-07,  ...,  1.5367e-08,
+          1.5926e-07, -1.4761e-06],
+        [ 7.0408e-07,  6.0722e-07,  4.2329e-07,  ...,  2.2817e-08,
+          4.5542e-07,  2.0396e-07],
+        ...,
+        [-2.3236e-07, -6.4867e-07,  2.0163e-07,  ..., -1.2107e-08,
+          2.1188e-07, -4.3306e-08],
+        [ 4.2003e-07,  1.7649e-07,  1.1409e-06,  ...,  1.3411e-07,
+          8.9174e-07,  4.2794e-07],
+        [ 2.7400e-06,  2.3730e-06,  1.2806e-06,  ...,  8.3819e-09,
+          1.1260e-06,  5.0012e-07]], device='cuda:0')
+Epoch 162, bias, value: tensor([ 0.0282, -0.0208, -0.0092, -0.0020,  0.0098,  0.0041, -0.0168,  0.0008,
+         0.0226,  0.0163], device='cuda:0'), grad: tensor([-1.5810e-05, -1.9539e-06,  3.1628e-06,  8.5831e-06,  2.5891e-07,
+        -1.2860e-05,  1.3011e-06,  4.1537e-07,  3.9749e-06,  1.2897e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 161, time 257.02, cls_loss 0.0024 cls_loss_mapping 0.0047 cls_loss_causal 0.5066 re_mapping 0.0065 re_causal 0.0185 /// teacc 98.90 lr 0.00010000
+Epoch 163, weight, value: tensor([[ 0.0385, -0.0943, -0.1166,  ..., -0.0437, -0.1716, -0.0171],
+        [-0.1046, -0.1338, -0.1405,  ..., -0.1179, -0.0791,  0.0038],
+        [ 0.0760,  0.0521, -0.1478,  ..., -0.1068, -0.1279, -0.0765],
+        ...,
+        [ 0.0152,  0.0416, -0.0758,  ..., -0.0263, -0.1266,  0.0472],
+        [ 0.0151,  0.1079,  0.0842,  ..., -0.0839,  0.0702, -0.1333],
+        [-0.0480, -0.0036, -0.0477,  ..., -0.0326, -0.0621,  0.0531]],
+       device='cuda:0'), grad: tensor([[ 6.8080e-07,  1.4929e-06,  1.6568e-06,  ...,  6.5193e-08,
+          6.4215e-07,  7.6368e-08],
+        [ 3.3528e-07,  1.5069e-06,  7.8324e-07,  ...,  8.3819e-09,
+          5.0524e-07,  7.4971e-08],
+        [-2.3339e-06, -4.8727e-06,  7.1153e-07,  ...,  3.7253e-09,
+          2.8266e-07,  2.3888e-07],
+        ...,
+        [ 4.1444e-08, -2.2501e-06,  4.2282e-07,  ...,  0.0000e+00,
+          2.2165e-07, -8.7498e-07],
+        [ 8.8662e-07,  1.9595e-06,  6.3181e-05,  ...,  3.0734e-08,
+          2.0206e-05,  1.6764e-07],
+        [ 1.3918e-05,  2.4028e-07, -8.2552e-05,  ...,  3.2596e-09,
+         -2.5660e-05, -1.7323e-07]], device='cuda:0')
+Epoch 163, bias, value: tensor([ 0.0283, -0.0214, -0.0096, -0.0015,  0.0099,  0.0063, -0.0178,  0.0005,
+         0.0229,  0.0159], device='cuda:0'), grad: tensor([ 2.7511e-06,  5.4240e-06, -6.6087e-06,  2.5049e-05, -1.5950e-04,
+         2.2024e-05,  3.6694e-06, -3.0529e-06,  1.6773e-04, -5.7220e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 162, time 257.02, cls_loss 0.0023 cls_loss_mapping 0.0052 cls_loss_causal 0.5453 re_mapping 0.0068 re_causal 0.0195 /// teacc 98.94 lr 0.00010000
+Epoch 164, weight, value: tensor([[ 0.0384, -0.0950, -0.1177,  ..., -0.0444, -0.1723, -0.0178],
+        [-0.1050, -0.1340, -0.1409,  ..., -0.1181, -0.0792,  0.0040],
+        [ 0.0765,  0.0523, -0.1483,  ..., -0.1072, -0.1283, -0.0769],
+        ...,
+        [ 0.0153,  0.0416, -0.0769,  ..., -0.0260, -0.1268,  0.0460],
+        [ 0.0152,  0.1083,  0.0851,  ..., -0.0840,  0.0708, -0.1348],
+        [-0.0480, -0.0036, -0.0484,  ..., -0.0327, -0.0623,  0.0540]],
+       device='cuda:0'), grad: tensor([[-3.1255e-06, -1.8347e-07,  1.4063e-07,  ...,  1.0710e-08,
+          6.1560e-07, -2.9802e-08],
+        [ 6.7055e-08,  2.3749e-08,  4.7870e-07,  ..., -4.3306e-08,
+          2.5127e-06, -1.2591e-06],
+        [ 1.2694e-06,  8.9407e-08,  3.0827e-06,  ...,  1.3504e-08,
+          2.0057e-05,  2.9663e-07],
+        ...,
+        [ 4.9360e-08,  7.6368e-08,  1.8533e-07,  ...,  1.5367e-08,
+          3.6741e-07,  4.9826e-07],
+        [ 3.9209e-07, -3.4925e-08,  1.9427e-06,  ...,  3.0268e-08,
+          1.7090e-06,  1.8720e-07],
+        [ 1.0300e-06, -1.4482e-07,  2.4727e-07,  ...,  2.3283e-09,
+          3.0361e-07, -3.2596e-08]], device='cuda:0')
+Epoch 164, bias, value: tensor([ 0.0276, -0.0214, -0.0094, -0.0010,  0.0097,  0.0062, -0.0175, -0.0005,
+         0.0232,  0.0164], device='cuda:0'), grad: tensor([-1.0930e-05,  4.8988e-06,  7.3969e-05, -8.6010e-05,  4.8149e-07,
+         2.5071e-06,  9.8906e-07,  2.6934e-06,  6.5230e-06,  4.8392e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 163, time 257.32, cls_loss 0.0022 cls_loss_mapping 0.0042 cls_loss_causal 0.4982 re_mapping 0.0065 re_causal 0.0185 /// teacc 98.85 lr 0.00010000
+Epoch 165, weight, value: tensor([[ 0.0388, -0.0957, -0.1190,  ..., -0.0459, -0.1733, -0.0187],
+        [-0.1065, -0.1343, -0.1413,  ..., -0.1184, -0.0792,  0.0047],
+        [ 0.0767,  0.0522, -0.1490,  ..., -0.1079, -0.1293, -0.0771],
+        ...,
+        [ 0.0158,  0.0422, -0.0774,  ..., -0.0255, -0.1267,  0.0460],
+        [ 0.0149,  0.1081,  0.0848,  ..., -0.0841,  0.0705, -0.1366],
+        [-0.0478, -0.0031, -0.0488,  ..., -0.0329, -0.0620,  0.0542]],
+       device='cuda:0'), grad: tensor([[ 1.4268e-06,  4.7013e-06,  1.0259e-05,  ...,  2.3935e-06,
+          4.9174e-06,  2.0443e-07],
+        [ 1.5944e-06,  7.7635e-06,  6.9588e-06,  ...,  3.0966e-07,
+          8.4192e-06,  1.3225e-07],
+        [ 4.6100e-07,  3.4031e-06,  5.0068e-06,  ...,  7.3109e-07,
+          3.5875e-06,  1.2619e-07],
+        ...,
+        [ 1.0207e-06,  3.2857e-06,  2.0992e-06,  ...,  2.0489e-08,
+          2.7828e-06,  7.9535e-07],
+        [-4.0494e-06, -2.0146e-05, -1.1466e-05,  ...,  1.0878e-06,
+         -1.9640e-05, -3.5670e-07],
+        [-5.6671e-07, -6.8033e-07,  1.4175e-06,  ...,  9.5926e-08,
+          1.1828e-06, -1.3700e-06]], device='cuda:0')
+Epoch 165, bias, value: tensor([ 0.0276, -0.0205, -0.0097, -0.0023,  0.0090,  0.0070, -0.0169, -0.0006,
+         0.0225,  0.0169], device='cuda:0'), grad: tensor([ 1.7956e-05,  2.1100e-05,  9.3728e-06,  8.2105e-06,  1.3150e-05,
+         3.1680e-05, -6.4850e-05,  8.6203e-06, -4.6343e-05,  1.1390e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 164, time 257.39, cls_loss 0.0023 cls_loss_mapping 0.0040 cls_loss_causal 0.5345 re_mapping 0.0063 re_causal 0.0186 /// teacc 99.05 lr 0.00010000
+Epoch 166, weight, value: tensor([[ 0.0388, -0.0966, -0.1203,  ..., -0.0467, -0.1741, -0.0188],
+        [-0.1073, -0.1346, -0.1420,  ..., -0.1189, -0.0795,  0.0051],
+        [ 0.0768,  0.0519, -0.1498,  ..., -0.1085, -0.1305, -0.0783],
+        ...,
+        [ 0.0159,  0.0425, -0.0795,  ..., -0.0256, -0.1269,  0.0459],
+        [ 0.0151,  0.1083,  0.0845,  ..., -0.0845,  0.0704, -0.1371],
+        [-0.0477, -0.0034, -0.0497,  ..., -0.0331, -0.0623,  0.0544]],
+       device='cuda:0'), grad: tensor([[ 1.4296e-07,  6.9626e-06,  1.0237e-05,  ...,  9.3281e-06,
+          1.1094e-05, -5.9605e-08],
+        [ 1.2638e-06,  3.5837e-06,  3.5204e-06,  ...,  1.7760e-06,
+          4.6231e-06, -2.4354e-07],
+        [ 7.3202e-07,  1.7555e-06,  1.4799e-06,  ...,  6.0024e-07,
+          2.0768e-06,  3.0734e-08],
+        ...,
+        [ 1.7090e-07,  2.3376e-07,  2.9290e-07,  ...,  2.5611e-08,
+          4.4936e-07,  3.3528e-08],
+        [-2.4941e-06,  2.1428e-05,  3.6031e-05,  ...,  3.6687e-05,
+          3.7193e-05,  8.5216e-08],
+        [ 7.1246e-08,  4.6333e-07,  7.0827e-07,  ...,  3.6089e-07,
+          7.5996e-07,  3.2596e-08]], device='cuda:0')
+Epoch 166, bias, value: tensor([ 0.0269, -0.0199, -0.0106, -0.0021,  0.0097,  0.0073, -0.0163, -0.0008,
+         0.0222,  0.0167], device='cuda:0'), grad: tensor([ 1.5914e-05,  8.7246e-06,  4.6492e-06,  8.8988e-07,  2.4922e-06,
+         8.8662e-06, -9.9719e-05,  1.1958e-06,  5.5313e-05,  1.7583e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 165, time 257.50, cls_loss 0.0022 cls_loss_mapping 0.0037 cls_loss_causal 0.5468 re_mapping 0.0055 re_causal 0.0181 /// teacc 99.00 lr 0.00010000
+Epoch 167, weight, value: tensor([[ 0.0384, -0.0971, -0.1215,  ..., -0.0478, -0.1750, -0.0192],
+        [-0.1082, -0.1352, -0.1426,  ..., -0.1196, -0.0799,  0.0052],
+        [ 0.0770,  0.0518, -0.1503,  ..., -0.1089, -0.1310, -0.0787],
+        ...,
+        [ 0.0163,  0.0429, -0.0804,  ..., -0.0261, -0.1269,  0.0461],
+        [ 0.0154,  0.1089,  0.0850,  ..., -0.0837,  0.0709, -0.1377],
+        [-0.0472, -0.0035, -0.0501,  ..., -0.0336, -0.0620,  0.0545]],
+       device='cuda:0'), grad: tensor([[-1.1660e-06,  7.4506e-06,  3.2131e-08,  ...,  1.2107e-08,
+          3.3062e-08,  5.4948e-08],
+        [ 2.1188e-07,  1.3420e-06,  2.5611e-08,  ..., -2.3283e-09,
+          7.3574e-08,  2.1560e-07],
+        [ 1.0896e-07,  2.3525e-06,  4.8429e-08,  ...,  1.1642e-08,
+          6.7521e-08,  1.5367e-06],
+        ...,
+        [-2.4727e-07, -2.9467e-06,  3.9116e-08,  ...,  2.3283e-09,
+         -9.9186e-08, -2.6822e-06],
+        [ 2.1420e-07,  2.1840e-07, -1.6205e-07,  ...,  2.4214e-08,
+         -2.6450e-07,  6.3796e-08],
+        [-3.0035e-07, -1.4350e-05,  2.2817e-07,  ...,  2.3283e-09,
+          2.8405e-07,  4.2794e-07]], device='cuda:0')
+Epoch 167, bias, value: tensor([ 0.0252, -0.0199, -0.0108, -0.0022,  0.0100,  0.0061, -0.0154, -0.0004,
+         0.0223,  0.0175], device='cuda:0'), grad: tensor([ 2.8685e-05,  3.6545e-06,  7.6815e-06,  9.3356e-06,  2.0549e-05,
+        -2.8033e-07,  2.8033e-06, -3.8482e-06,  3.4329e-06, -7.2062e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 166, time 257.07, cls_loss 0.0020 cls_loss_mapping 0.0040 cls_loss_causal 0.5137 re_mapping 0.0059 re_causal 0.0181 /// teacc 98.88 lr 0.00010000
+Epoch 168, weight, value: tensor([[ 0.0387, -0.0972, -0.1219,  ..., -0.0479, -0.1755, -0.0193],
+        [-0.1089, -0.1356, -0.1428,  ..., -0.1217, -0.0801,  0.0053],
+        [ 0.0772,  0.0521, -0.1505,  ..., -0.1080, -0.1314, -0.0791],
+        ...,
+        [ 0.0166,  0.0430, -0.0810,  ..., -0.0263, -0.1270,  0.0462],
+        [ 0.0155,  0.1091,  0.0851,  ..., -0.0841,  0.0710, -0.1382],
+        [-0.0473, -0.0035, -0.0503,  ..., -0.0335, -0.0623,  0.0545]],
+       device='cuda:0'), grad: tensor([[ 1.1874e-07,  2.3469e-06,  1.7714e-06,  ...,  1.9260e-06,
+          1.4901e-06,  4.4936e-07],
+        [ 5.6811e-07,  1.3113e-06,  7.7020e-07,  ...,  1.1083e-07,
+          8.8103e-07,  2.4587e-07],
+        [ 2.5202e-06,  6.3032e-06,  2.2445e-06,  ...,  8.4471e-07,
+          1.8580e-06,  4.6659e-07],
+        ...,
+        [-3.3844e-06, -6.9477e-06,  5.4715e-07,  ...,  4.5169e-08,
+          5.4156e-07, -7.2969e-07],
+        [-6.6450e-07, -2.1905e-06,  3.0044e-06,  ..., -4.8196e-07,
+          2.9895e-06,  3.0035e-07],
+        [ 3.6461e-07,  9.0059e-07,  8.8476e-07,  ...,  3.3807e-07,
+          7.9209e-07, -2.5146e-08]], device='cuda:0')
+Epoch 168, bias, value: tensor([ 0.0254, -0.0195, -0.0109, -0.0021,  0.0105,  0.0060, -0.0158, -0.0002,
+         0.0221,  0.0170], device='cuda:0'), grad: tensor([ 4.7609e-06,  4.2804e-06,  1.7226e-05,  1.7405e-05,  3.9749e-06,
+        -1.0304e-05, -2.7016e-05, -2.1294e-05,  6.3591e-06,  4.4927e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 167, time 255.59, cls_loss 0.0021 cls_loss_mapping 0.0041 cls_loss_causal 0.5080 re_mapping 0.0060 re_causal 0.0181 /// teacc 99.01 lr 0.00010000
+Epoch 169, weight, value: tensor([[ 0.0389, -0.0975, -0.1221,  ..., -0.0481, -0.1757, -0.0194],
+        [-0.1096, -0.1357, -0.1432,  ..., -0.1215, -0.0802,  0.0056],
+        [ 0.0772,  0.0509, -0.1509,  ..., -0.1090, -0.1320, -0.0795],
+        ...,
+        [ 0.0168,  0.0439, -0.0819,  ..., -0.0239, -0.1277,  0.0459],
+        [ 0.0156,  0.1090,  0.0846,  ..., -0.0845,  0.0707, -0.1386],
+        [-0.0475, -0.0037, -0.0511,  ..., -0.0337, -0.0627,  0.0544]],
+       device='cuda:0'), grad: tensor([[-1.0477e-06,  4.8149e-07,  9.8255e-08,  ...,  1.4435e-08,
+          6.5658e-08,  4.6473e-07],
+        [ 6.4867e-07,  2.5239e-06,  1.3132e-07,  ...,  5.1223e-09,
+          9.5926e-08, -1.7539e-05],
+        [-4.7358e-07,  1.6354e-06,  7.6368e-08,  ...,  4.6566e-09,
+          6.2864e-08,  1.2003e-05],
+        ...,
+        [-1.8030e-06, -1.3508e-05,  3.3760e-07,  ...,  0.0000e+00,
+          1.9697e-07, -1.6773e-06],
+        [ 6.4261e-07,  1.1688e-06,  5.9530e-06,  ...,  1.0943e-07,
+          3.3472e-06,  5.8068e-07],
+        [ 1.3830e-06,  5.3197e-06,  1.5926e-07,  ...,  9.3132e-09,
+          2.0582e-07,  3.7681e-06]], device='cuda:0')
+Epoch 169, bias, value: tensor([ 0.0255, -0.0191, -0.0122, -0.0016,  0.0114,  0.0064, -0.0158,  0.0002,
+         0.0215,  0.0164], device='cuda:0'), grad: tensor([-1.4128e-06, -8.9943e-05,  5.4240e-05,  6.5714e-06, -1.0114e-06,
+        -7.3463e-06,  2.9691e-06,  8.7619e-06,  1.1042e-05,  1.6049e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 168, time 256.57, cls_loss 0.0015 cls_loss_mapping 0.0038 cls_loss_causal 0.5283 re_mapping 0.0060 re_causal 0.0184 /// teacc 98.94 lr 0.00010000
+Epoch 170, weight, value: tensor([[ 0.0390, -0.0978, -0.1231,  ..., -0.0494, -0.1762, -0.0196],
+        [-0.1102, -0.1360, -0.1438,  ..., -0.1229, -0.0805,  0.0058],
+        [ 0.0777,  0.0511, -0.1511,  ..., -0.1096, -0.1322, -0.0798],
+        ...,
+        [ 0.0167,  0.0442, -0.0830,  ..., -0.0230, -0.1278,  0.0459],
+        [ 0.0157,  0.1091,  0.0844,  ..., -0.0846,  0.0706, -0.1390],
+        [-0.0475, -0.0038, -0.0518,  ..., -0.0339, -0.0630,  0.0546]],
+       device='cuda:0'), grad: tensor([[-1.3039e-07,  1.7127e-06,  1.0170e-06,  ...,  9.9931e-07,
+          9.8255e-07,  2.2352e-08],
+        [ 1.5469e-06,  6.0052e-06,  2.6003e-06,  ...,  6.7567e-07,
+          1.7611e-06,  7.5530e-07],
+        [-2.4103e-06,  3.5446e-06,  7.9200e-06,  ...,  2.2966e-06,
+          5.1819e-06,  2.2259e-07],
+        ...,
+        [ 3.2727e-06,  1.3085e-06,  1.2033e-06,  ...,  2.3888e-07,
+          8.3447e-07, -2.1178e-06],
+        [-1.8030e-05, -5.1975e-05, -3.9190e-05,  ..., -9.0301e-06,
+         -2.5153e-05,  1.7881e-07],
+        [ 1.1120e-06,  3.0175e-06,  2.2352e-06,  ...,  4.6100e-07,
+          1.5851e-06,  1.8161e-07]], device='cuda:0')
+Epoch 170, bias, value: tensor([ 0.0254, -0.0190, -0.0122, -0.0017,  0.0112,  0.0067, -0.0155,  0.0002,
+         0.0212,  0.0164], device='cuda:0'), grad: tensor([ 3.6098e-06,  1.2234e-05, -1.8030e-06,  2.5749e-05,  6.7987e-06,
+         1.0774e-05,  1.1250e-05, -2.5053e-07, -7.4804e-05,  6.2212e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 169, time 256.87, cls_loss 0.0019 cls_loss_mapping 0.0040 cls_loss_causal 0.5350 re_mapping 0.0059 re_causal 0.0178 /// teacc 98.94 lr 0.00010000
+Epoch 171, weight, value: tensor([[ 0.0397, -0.0979, -0.1234,  ..., -0.0499, -0.1766, -0.0198],
+        [-0.1110, -0.1369, -0.1444,  ..., -0.1253, -0.0811,  0.0055],
+        [ 0.0781,  0.0515, -0.1514,  ..., -0.1083, -0.1322, -0.0800],
+        ...,
+        [ 0.0167,  0.0445, -0.0837,  ..., -0.0230, -0.1279,  0.0462],
+        [ 0.0158,  0.1095,  0.0848,  ..., -0.0847,  0.0708, -0.1397],
+        [-0.0479, -0.0043, -0.0530,  ..., -0.0340, -0.0637,  0.0554]],
+       device='cuda:0'), grad: tensor([[-2.1514e-07,  1.2154e-07,  1.6298e-07,  ...,  7.7765e-08,
+          1.3877e-07,  3.8184e-08],
+        [ 1.4063e-07,  2.9383e-07,  1.0896e-07,  ...,  2.0023e-08,
+          1.5926e-07, -1.2601e-06],
+        [-2.0675e-07, -1.1874e-07,  7.8697e-08,  ...,  1.6298e-08,
+          1.0012e-07,  1.1083e-07],
+        ...,
+        [-9.4995e-08, -3.8324e-07,  1.0617e-07,  ...,  9.3132e-10,
+          1.1548e-07,  3.7439e-07],
+        [-8.2422e-08, -3.3760e-07, -6.2864e-08,  ...,  1.3458e-07,
+         -1.2852e-07,  1.5227e-07],
+        [ 2.4866e-07,  1.8952e-07,  1.0384e-06,  ...,  1.8161e-08,
+          8.7265e-07,  3.0873e-07]], device='cuda:0')
+Epoch 171, bias, value: tensor([ 0.0257, -0.0201, -0.0113, -0.0019,  0.0112,  0.0064, -0.0148,  0.0005,
+         0.0212,  0.0162], device='cuda:0'), grad: tensor([-4.5402e-07, -3.1274e-06, -3.3900e-07,  1.5572e-06,  7.5623e-07,
+        -3.5241e-06, -2.8685e-07,  1.8869e-06,  3.7905e-07,  3.1609e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 170, time 256.45, cls_loss 0.0025 cls_loss_mapping 0.0052 cls_loss_causal 0.5543 re_mapping 0.0059 re_causal 0.0174 /// teacc 98.94 lr 0.00010000
+Epoch 172, weight, value: tensor([[ 0.0401, -0.0984, -0.1235,  ..., -0.0502, -0.1771, -0.0199],
+        [-0.1124, -0.1375, -0.1458,  ..., -0.1267, -0.0820,  0.0057],
+        [ 0.0782,  0.0514, -0.1516,  ..., -0.1084, -0.1325, -0.0807],
+        ...,
+        [ 0.0170,  0.0450, -0.0845,  ..., -0.0230, -0.1278,  0.0463],
+        [ 0.0163,  0.1115,  0.0852,  ..., -0.0850,  0.0722, -0.1392],
+        [-0.0487, -0.0070, -0.0569,  ..., -0.0344, -0.0675,  0.0552]],
+       device='cuda:0'), grad: tensor([[-7.0035e-07,  3.7216e-06,  3.1721e-06,  ...,  1.1399e-06,
+          3.9414e-06, -1.0785e-06],
+        [ 1.1921e-07,  1.2010e-05,  1.2197e-05,  ...,  1.9316e-06,
+          1.2815e-05, -4.6007e-06],
+        [-2.4214e-08,  1.4678e-06,  1.7565e-06,  ...,  6.8638e-07,
+          1.8701e-06,  7.2736e-07],
+        ...,
+        [-1.4156e-07,  4.1537e-07,  8.0839e-07,  ...,  2.1327e-07,
+          1.3039e-06,  2.9057e-07],
+        [ 4.0513e-08, -4.2629e-04, -4.3273e-04,  ..., -1.2779e-04,
+         -4.4346e-04,  2.1234e-07],
+        [ 3.7113e-07,  1.2051e-06,  1.8263e-06,  ...,  4.0326e-07,
+          1.9744e-06,  9.6206e-07]], device='cuda:0')
+Epoch 172, bias, value: tensor([ 0.0261, -0.0200, -0.0115, -0.0002,  0.0119,  0.0047, -0.0147,  0.0003,
+         0.0225,  0.0149], device='cuda:0'), grad: tensor([ 2.3283e-06, -2.2322e-05,  8.9258e-06,  3.4403e-06,  1.2442e-05,
+         5.0962e-06,  9.2173e-04,  1.8403e-05, -9.6178e-04,  1.1981e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 171, time 256.79, cls_loss 0.0030 cls_loss_mapping 0.0055 cls_loss_causal 0.5372 re_mapping 0.0060 re_causal 0.0181 /// teacc 99.07 lr 0.00010000
+Epoch 173, weight, value: tensor([[ 0.0409, -0.0981, -0.1238,  ..., -0.0501, -0.1773, -0.0193],
+        [-0.1131, -0.1378, -0.1461,  ..., -0.1266, -0.0823,  0.0060],
+        [ 0.0784,  0.0514, -0.1520,  ..., -0.1083, -0.1329, -0.0821],
+        ...,
+        [ 0.0172,  0.0450, -0.0856,  ..., -0.0225, -0.1280,  0.0464],
+        [ 0.0165,  0.1122,  0.0863,  ..., -0.0845,  0.0731, -0.1400],
+        [-0.0500, -0.0070, -0.0576,  ..., -0.0362, -0.0677,  0.0556]],
+       device='cuda:0'), grad: tensor([[-2.6021e-06,  1.6578e-07,  6.2399e-08,  ...,  4.6100e-08,
+          9.2201e-08,  6.2399e-08],
+        [ 2.6356e-06,  8.7246e-06,  1.6037e-06,  ...,  3.2596e-08,
+          3.3733e-06,  1.6317e-06],
+        [ 1.7043e-06,  3.7588e-06,  1.9390e-06,  ...,  3.1665e-08,
+          3.9563e-06,  4.2049e-07],
+        ...,
+        [-1.8934e-06, -9.5442e-06,  1.5413e-07,  ...,  0.0000e+00,
+          1.3923e-07, -2.1309e-06],
+        [-2.6654e-06, -3.9190e-06, -3.8091e-06,  ...,  7.3109e-08,
+         -7.7337e-06,  3.2131e-07],
+        [ 2.2445e-06, -1.5553e-07,  3.7253e-08,  ...,  3.2596e-09,
+         -3.3202e-07, -7.9488e-07]], device='cuda:0')
+Epoch 173, bias, value: tensor([ 0.0234, -0.0196, -0.0119, -0.0004,  0.0131,  0.0050, -0.0161,  0.0002,
+         0.0231,  0.0173], device='cuda:0'), grad: tensor([-1.4469e-05,  1.8626e-05,  1.0550e-05,  1.0943e-06,  1.8850e-06,
+         5.1223e-09,  2.4354e-07, -1.5363e-05, -1.3724e-05,  1.1124e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 172, time 256.68, cls_loss 0.0014 cls_loss_mapping 0.0036 cls_loss_causal 0.5386 re_mapping 0.0056 re_causal 0.0190 /// teacc 99.02 lr 0.00010000
+Epoch 174, weight, value: tensor([[ 0.0413, -0.0980, -0.1240,  ..., -0.0505, -0.1773, -0.0189],
+        [-0.1137, -0.1400, -0.1466,  ..., -0.1269, -0.0830,  0.0046],
+        [ 0.0786,  0.0517, -0.1520,  ..., -0.1083, -0.1325, -0.0823],
+        ...,
+        [ 0.0174,  0.0463, -0.0861,  ..., -0.0225, -0.1280,  0.0482],
+        [ 0.0167,  0.1126,  0.0870,  ..., -0.0842,  0.0734, -0.1404],
+        [-0.0504, -0.0073, -0.0579,  ..., -0.0363, -0.0679,  0.0553]],
+       device='cuda:0'), grad: tensor([[-1.3504e-07,  7.4953e-06,  1.9118e-05,  ...,  1.3016e-05,
+          2.1663e-06, -9.4064e-08],
+        [ 1.4622e-07,  1.9725e-06,  3.8696e-07,  ...,  2.0256e-07,
+          1.2387e-07,  1.6550e-06],
+        [-3.9209e-07, -2.7008e-07,  3.6089e-07,  ...,  9.8720e-08,
+          2.3516e-07,  8.8476e-09],
+        ...,
+        [ 1.3597e-07, -1.6121e-06,  9.6858e-08,  ...,  2.2352e-08,
+          6.2864e-08, -1.7332e-06],
+        [-7.2792e-06, -5.7667e-05, -7.0691e-05,  ..., -1.9357e-05,
+         -4.3690e-05,  2.1420e-08],
+        [ 1.2573e-07,  2.4773e-07,  8.5402e-07,  ...,  3.2224e-07,
+          3.7486e-07, -4.6566e-10]], device='cuda:0')
+Epoch 174, bias, value: tensor([ 0.0236, -0.0212, -0.0114, -0.0005,  0.0129,  0.0049, -0.0165,  0.0019,
+         0.0229,  0.0172], device='cuda:0'), grad: tensor([ 4.7654e-05,  4.9323e-06, -4.7218e-07, -4.1634e-05,  8.6986e-07,
+         4.9949e-05,  1.3731e-05, -2.9281e-06, -7.5400e-05,  3.4235e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 173, time 256.48, cls_loss 0.0018 cls_loss_mapping 0.0043 cls_loss_causal 0.5135 re_mapping 0.0057 re_causal 0.0180 /// teacc 98.94 lr 0.00010000
+Epoch 175, weight, value: tensor([[ 0.0417, -0.0980, -0.1244,  ..., -0.0507, -0.1775, -0.0191],
+        [-0.1140, -0.1402, -0.1463,  ..., -0.1266, -0.0831,  0.0047],
+        [ 0.0789,  0.0518, -0.1523,  ..., -0.1083, -0.1328, -0.0828],
+        ...,
+        [ 0.0176,  0.0466, -0.0878,  ..., -0.0224, -0.1282,  0.0484],
+        [ 0.0166,  0.1126,  0.0870,  ..., -0.0844,  0.0733, -0.1417],
+        [-0.0505, -0.0074, -0.0594,  ..., -0.0368, -0.0684,  0.0552]],
+       device='cuda:0'), grad: tensor([[-7.7719e-07,  7.1246e-08,  7.6368e-08,  ...,  4.6566e-09,
+          1.2992e-07,  5.3085e-08],
+        [ 1.8906e-07,  2.8405e-07,  1.5972e-07,  ...,  1.3970e-09,
+          2.6915e-07, -2.4773e-07],
+        [ 1.2480e-07,  1.4203e-07,  1.8720e-07,  ...,  3.7253e-09,
+          3.1386e-07,  4.8894e-08],
+        ...,
+        [ 6.7521e-08,  1.2619e-07,  1.2852e-07,  ...,  0.0000e+00,
+          2.2026e-07,  2.7986e-07],
+        [-3.3714e-07, -5.5181e-07, -3.9162e-07,  ...,  2.3749e-08,
+         -2.9104e-07,  2.7940e-07],
+        [-1.0710e-07, -1.2154e-07,  1.1073e-06,  ...,  9.3132e-10,
+          2.0470e-06, -8.8476e-07]], device='cuda:0')
+Epoch 175, bias, value: tensor([ 0.0236, -0.0210, -0.0114, -0.0033,  0.0130,  0.0079, -0.0170,  0.0021,
+         0.0224,  0.0170], device='cuda:0'), grad: tensor([-3.8743e-06,  9.6485e-07,  1.2936e-06, -1.8895e-05, -2.7478e-05,
+         1.2361e-05,  1.9409e-06,  1.4696e-06,  1.8124e-06,  3.0428e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 174, time 256.65, cls_loss 0.0023 cls_loss_mapping 0.0043 cls_loss_causal 0.5455 re_mapping 0.0061 re_causal 0.0176 /// teacc 98.94 lr 0.00010000
+Epoch 176, weight, value: tensor([[ 0.0422, -0.0985, -0.1253,  ..., -0.0518, -0.1781, -0.0195],
+        [-0.1147, -0.1405, -0.1468,  ..., -0.1269, -0.0835,  0.0049],
+        [ 0.0789,  0.0518, -0.1528,  ..., -0.1084, -0.1336, -0.0833],
+        ...,
+        [ 0.0178,  0.0465, -0.0895,  ..., -0.0224, -0.1284,  0.0482],
+        [ 0.0167,  0.1128,  0.0869,  ..., -0.0846,  0.0735, -0.1421],
+        [-0.0505, -0.0072, -0.0612,  ..., -0.0355, -0.0691,  0.0555]],
+       device='cuda:0'), grad: tensor([[-2.3050e-07,  3.2922e-07, -1.2338e-04,  ..., -5.0664e-05,
+          2.5518e-07,  6.9989e-07],
+        [ 1.5693e-07,  2.2305e-07,  2.9244e-07,  ...,  8.0559e-08,
+          1.9604e-07,  1.0990e-07],
+        [-1.4110e-07,  7.4040e-08,  1.1222e-07,  ...,  1.6764e-08,
+          9.4995e-08,  3.0268e-08],
+        ...,
+        [-3.0734e-08,  1.8720e-07,  1.2713e-07,  ...,  2.5611e-08,
+          1.0245e-07,  5.9465e-07],
+        [-1.7090e-07, -5.6531e-07,  1.4249e-07,  ...,  2.4308e-07,
+         -3.9488e-07,  1.7695e-08],
+        [ 2.6077e-07, -5.8301e-07,  1.7891e-06,  ...,  6.1095e-07,
+          3.8743e-07, -1.6652e-06]], device='cuda:0')
+Epoch 176, bias, value: tensor([ 0.0236, -0.0206, -0.0116, -0.0031,  0.0153,  0.0077, -0.0168,  0.0017,
+         0.0222,  0.0164], device='cuda:0'), grad: tensor([-5.2452e-04,  2.8163e-06, -1.7667e-06,  2.0396e-06,  8.2096e-07,
+        -1.5885e-05,  5.3024e-04,  3.5185e-06,  7.9302e-07,  1.8720e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 175, time 256.99, cls_loss 0.0015 cls_loss_mapping 0.0031 cls_loss_causal 0.5168 re_mapping 0.0058 re_causal 0.0182 /// teacc 98.95 lr 0.00010000
+Epoch 177, weight, value: tensor([[ 0.0426, -0.0986, -0.1248,  ..., -0.0514, -0.1778, -0.0199],
+        [-0.1152, -0.1408, -0.1473,  ..., -0.1270, -0.0841,  0.0049],
+        [ 0.0789,  0.0519, -0.1531,  ..., -0.1085, -0.1342, -0.0838],
+        ...,
+        [ 0.0178,  0.0466, -0.0908,  ..., -0.0224, -0.1285,  0.0482],
+        [ 0.0167,  0.1130,  0.0871,  ..., -0.0847,  0.0737, -0.1425],
+        [-0.0505, -0.0070, -0.0613,  ..., -0.0349, -0.0691,  0.0563]],
+       device='cuda:0'), grad: tensor([[-1.0151e-07,  4.4703e-08,  1.8440e-07,  ...,  7.4506e-09,
+          2.3376e-07,  2.2817e-08],
+        [ 1.0384e-07,  1.8720e-07,  9.1270e-08,  ...,  2.3283e-09,
+          1.3271e-07, -4.4238e-08],
+        [ 7.6834e-08,  5.5972e-07,  7.5437e-08,  ...,  1.3970e-09,
+          2.9709e-07,  3.3062e-08],
+        ...,
+        [-6.2212e-07, -1.9167e-06,  1.1083e-07,  ...,  0.0000e+00,
+         -5.1036e-07, -2.0489e-08],
+        [ 2.7427e-07,  1.2247e-06,  5.1409e-06,  ...,  1.3039e-08,
+          7.1935e-06,  4.2841e-08],
+        [ 6.9849e-08, -9.4064e-07, -6.1318e-06,  ...,  4.6566e-10,
+         -8.8140e-06, -4.8988e-07]], device='cuda:0')
+Epoch 177, bias, value: tensor([ 0.0239, -0.0207, -0.0120, -0.0033,  0.0156,  0.0078, -0.0175,  0.0017,
+         0.0221,  0.0164], device='cuda:0'), grad: tensor([ 8.1956e-08,  6.2073e-07,  9.8348e-07,  2.4047e-06,  2.6636e-06,
+        -1.1614e-06,  1.1101e-06, -3.3304e-06,  1.6227e-05, -1.9625e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 176, time 256.56, cls_loss 0.0015 cls_loss_mapping 0.0029 cls_loss_causal 0.5241 re_mapping 0.0055 re_causal 0.0173 /// teacc 98.94 lr 0.00010000
+Epoch 178, weight, value: tensor([[ 0.0427, -0.0989, -0.1250,  ..., -0.0511, -0.1780, -0.0195],
+        [-0.1158, -0.1411, -0.1479,  ..., -0.1277, -0.0846,  0.0063],
+        [ 0.0795,  0.0521, -0.1534,  ..., -0.1084, -0.1347, -0.0839],
+        ...,
+        [ 0.0175,  0.0465, -0.0921,  ..., -0.0224, -0.1288,  0.0467],
+        [ 0.0168,  0.1134,  0.0874,  ..., -0.0846,  0.0740, -0.1429],
+        [-0.0505, -0.0065, -0.0615,  ..., -0.0355, -0.0689,  0.0568]],
+       device='cuda:0'), grad: tensor([[ 7.3109e-08,  5.4948e-07,  7.4040e-08,  ...,  6.7055e-08,
+          4.5635e-08,  2.6496e-07],
+        [ 3.1618e-07,  1.8738e-06,  4.7032e-08,  ...,  3.7253e-08,
+          1.2806e-07,  5.4110e-07],
+        [ 1.6624e-07,  1.3411e-06,  1.8626e-08,  ..., -1.5367e-08,
+          5.3551e-08,  4.9453e-07],
+        ...,
+        [-2.6692e-06, -1.6913e-05,  1.0710e-08,  ...,  3.2596e-09,
+         -1.2536e-06, -5.6177e-06],
+        [ 1.0654e-06,  1.1690e-05,  7.8827e-06,  ...,  4.9993e-06,
+          5.1335e-06,  1.8254e-06],
+        [ 7.7346e-07,  4.8913e-06,  8.7079e-08,  ...,  4.7497e-08,
+          3.8184e-07,  1.7723e-06]], device='cuda:0')
+Epoch 178, bias, value: tensor([ 0.0241, -0.0201, -0.0115, -0.0033,  0.0153,  0.0077, -0.0178,  0.0004,
+         0.0222,  0.0165], device='cuda:0'), grad: tensor([ 1.6298e-06,  3.1814e-06,  3.1628e-06,  9.6764e-07,  1.2964e-06,
+         1.3812e-06, -1.0967e-05, -3.0875e-05,  2.0847e-05,  9.3430e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 177, time 256.44, cls_loss 0.0019 cls_loss_mapping 0.0035 cls_loss_causal 0.5120 re_mapping 0.0056 re_causal 0.0164 /// teacc 98.83 lr 0.00010000
+Epoch 179, weight, value: tensor([[ 0.0430, -0.0993, -0.1255,  ..., -0.0515, -0.1786, -0.0199],
+        [-0.1172, -0.1420, -0.1486,  ..., -0.1280, -0.0851,  0.0061],
+        [ 0.0800,  0.0525, -0.1538,  ..., -0.1087, -0.1353, -0.0841],
+        ...,
+        [ 0.0181,  0.0478, -0.0929,  ..., -0.0225, -0.1289,  0.0474],
+        [ 0.0164,  0.1129,  0.0871,  ..., -0.0850,  0.0736, -0.1443],
+        [-0.0501, -0.0070, -0.0618,  ..., -0.0343, -0.0686,  0.0564]],
+       device='cuda:0'), grad: tensor([[-8.2050e-07,  2.2119e-08,  1.6997e-08,  ...,  9.5461e-09,
+          1.5134e-08,  3.4459e-08],
+        [ 6.3563e-08,  4.3167e-07,  5.1223e-09,  ...,  1.3970e-09,
+          1.6298e-09, -7.3388e-07],
+        [ 2.1467e-07,  1.2713e-07,  1.7928e-08,  ...,  9.7789e-09,
+          2.4447e-08,  7.6368e-08],
+        ...,
+        [-3.1455e-07, -4.7348e-06,  3.9581e-09,  ...,  0.0000e+00,
+          1.3970e-09, -2.2892e-06],
+        [ 6.5425e-08,  7.0082e-08,  5.5647e-08,  ...,  3.0734e-08,
+          4.3306e-08,  1.6438e-07],
+        [ 5.3830e-07,  2.8890e-06,  8.8476e-09,  ...,  6.9849e-10,
+          9.0804e-09,  1.8980e-06]], device='cuda:0')
+Epoch 179, bias, value: tensor([ 0.0241, -0.0207, -0.0113, -0.0030,  0.0146,  0.0074, -0.0167,  0.0014,
+         0.0212,  0.0166], device='cuda:0'), grad: tensor([-3.6471e-06, -2.2352e-06,  1.2340e-06,  2.4308e-06,  4.3376e-07,
+         7.1665e-07,  4.3050e-07, -8.7246e-06,  1.0040e-06,  8.3372e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
diff --git a/Meta-causal/code-withStyleAttack/66550.error b/Meta-causal/code-withStyleAttack/66550.error
new file mode 100644
index 0000000000000000000000000000000000000000..aa58699561182e03e316a8e1a4c5831cdb421167
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/66550.error
@@ -0,0 +1,7 @@
+Traceback (most recent call last):
+  File "/usr/bin/mkenv", line 544, in <module>
+srun: error: gcp-us-1: task 0: Exited with exit code 1
+    main()
+  File "/usr/bin/mkenv", line 512, in main
+    raise RuntimeError('must run without an activated environment')
+RuntimeError: must run without an activated environment
diff --git a/Meta-causal/code-withStyleAttack/66550.log b/Meta-causal/code-withStyleAttack/66550.log
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/Meta-causal/code-withStyleAttack/66551.error b/Meta-causal/code-withStyleAttack/66551.error
new file mode 100644
index 0000000000000000000000000000000000000000..daba6d2f7ea07a3d4480fde2fa2c05bcbd2760bb
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/66551.error
@@ -0,0 +1 @@
+run_my_joint_test.sh: line 34: ta: command not found
diff --git a/Meta-causal/code-withStyleAttack/66551.log b/Meta-causal/code-withStyleAttack/66551.log
new file mode 100644
index 0000000000000000000000000000000000000000..f42220a26f6498b59696a47a76c3d10c397271e3
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/66551.log
@@ -0,0 +1,14133 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 500, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_adam', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 3
+--------------------------CA_multiple--------------------------
+---------------------------14 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+Epoch 1, weight, value: tensor([[-0.0229, -0.0198,  0.0145,  ..., -0.0150, -0.0229,  0.0150],
+        [ 0.0067, -0.0086, -0.0215,  ...,  0.0307,  0.0172,  0.0031],
+        [-0.0304, -0.0185, -0.0098,  ...,  0.0100, -0.0173,  0.0222],
+        ...,
+        [ 0.0125, -0.0113, -0.0201,  ..., -0.0116,  0.0090,  0.0017],
+        [ 0.0270,  0.0120, -0.0142,  ..., -0.0211, -0.0112,  0.0308],
+        [-0.0156,  0.0101,  0.0250,  ..., -0.0249,  0.0107, -0.0086]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([-0.0058, -0.0305,  0.0100, -0.0208,  0.0150,  0.0014,  0.0218, -0.0126,
+        -0.0232,  0.0025], device='cuda:0'), grad: None
+100
+0.0001
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 280.32, cls_loss 1.5221 cls_loss_mapping 1.9297 cls_loss_causal 2.2244 re_mapping 0.1031 re_causal 0.1042 /// teacc 82.82 lr 0.00010000
+Epoch 2, weight, value: tensor([[-0.0187, -0.0223,  0.0113,  ..., -0.0233, -0.0257,  0.0088],
+        [ 0.0056, -0.0064, -0.0187,  ...,  0.0356,  0.0174,  0.0065],
+        [-0.0322, -0.0189, -0.0155,  ...,  0.0165, -0.0119,  0.0174],
+        ...,
+        [ 0.0079, -0.0115, -0.0274,  ..., -0.0111,  0.0017,  0.0076],
+        [ 0.0233,  0.0096, -0.0100,  ..., -0.0189, -0.0133,  0.0258],
+        [-0.0200,  0.0071,  0.0202,  ..., -0.0310,  0.0091, -0.0075]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -3.2368e-03,  ...,  5.0354e-03,
+         -9.0866e-03,  4.6310e-07],
+        [ 0.0000e+00,  0.0000e+00,  9.5673e-03,  ...,  1.8482e-03,
+          1.3781e-03, -2.4796e-04],
+        [ 0.0000e+00,  0.0000e+00, -1.5747e-02,  ..., -5.8258e-02,
+         -1.5022e-02,  2.7195e-05],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.5656e-02,  ...,  1.6800e-02,
+          2.0004e-02,  2.4736e-05],
+        [ 0.0000e+00,  0.0000e+00, -2.1423e-02,  ...,  6.3515e-04,
+          4.4823e-03,  4.9353e-05],
+        [ 0.0000e+00,  0.0000e+00,  2.0767e-02,  ...,  1.0090e-03,
+         -1.9806e-02,  4.1455e-05]], device='cuda:0')
+Epoch 2, bias, value: tensor([-0.0077, -0.0288,  0.0089, -0.0207,  0.0140,  0.0016,  0.0217, -0.0119,
+        -0.0237,  0.0025], device='cuda:0'), grad: tensor([-0.0174,  0.0233, -0.0216,  0.0623,  0.0347, -0.1466,  0.0386,  0.0470,
+        -0.0019, -0.0184], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 279.51, cls_loss 0.5193 cls_loss_mapping 0.8489 cls_loss_causal 1.9181 re_mapping 0.2062 re_causal 0.2506 /// teacc 90.62 lr 0.00010000
+Epoch 3, weight, value: tensor([[-0.0131, -0.0223,  0.0066,  ..., -0.0265, -0.0276,  0.0070],
+        [ 0.0052, -0.0064, -0.0181,  ...,  0.0379,  0.0188,  0.0087],
+        [-0.0315, -0.0189, -0.0192,  ...,  0.0190, -0.0104,  0.0200],
+        ...,
+        [ 0.0002, -0.0115, -0.0320,  ..., -0.0099, -0.0008,  0.0109],
+        [ 0.0202,  0.0096, -0.0075,  ..., -0.0198, -0.0153,  0.0207],
+        [-0.0269,  0.0071,  0.0190,  ..., -0.0360,  0.0083, -0.0096]],
+       device='cuda:0'), grad: tensor([[-2.5997e-03,  0.0000e+00,  2.1439e-03,  ...,  2.4738e-03,
+          1.2684e-04,  5.6148e-05],
+        [ 5.8365e-04,  0.0000e+00, -1.1978e-02,  ..., -3.0258e-02,
+         -1.8454e-03, -4.2992e-03],
+        [-2.1706e-03,  0.0000e+00,  6.4659e-04,  ..., -4.2664e-02,
+         -1.0214e-03, -9.6273e-04],
+        ...,
+        [ 1.2836e-03,  0.0000e+00,  3.8624e-03,  ...,  1.3199e-02,
+          2.3232e-03,  4.7660e-04],
+        [-1.1740e-03,  0.0000e+00, -4.2915e-03,  ...,  1.0429e-02,
+          1.4200e-03,  1.0481e-03],
+        [ 4.7398e-04,  0.0000e+00,  7.9727e-03,  ...,  1.1276e-02,
+         -5.7564e-03, -4.7922e-04]], device='cuda:0')
+Epoch 3, bias, value: tensor([-0.0081, -0.0287,  0.0083, -0.0207,  0.0138,  0.0029,  0.0213, -0.0123,
+        -0.0239,  0.0030], device='cuda:0'), grad: tensor([-0.0053, -0.0143, -0.0182,  0.0160, -0.0222,  0.0097,  0.0101,  0.0087,
+        -0.0011,  0.0167], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 278.47, cls_loss 0.3500 cls_loss_mapping 0.4936 cls_loss_causal 1.6778 re_mapping 0.1573 re_causal 0.2369 /// teacc 93.59 lr 0.00010000
+Epoch 4, weight, value: tensor([[-0.0103, -0.0223,  0.0036,  ..., -0.0287, -0.0287,  0.0006],
+        [ 0.0057, -0.0064, -0.0182,  ...,  0.0386,  0.0202,  0.0099],
+        [-0.0292, -0.0189, -0.0216,  ...,  0.0207, -0.0094,  0.0201],
+        ...,
+        [-0.0062, -0.0115, -0.0360,  ..., -0.0080, -0.0019,  0.0151],
+        [ 0.0193,  0.0096, -0.0069,  ..., -0.0198, -0.0175,  0.0158],
+        [-0.0297,  0.0071,  0.0201,  ..., -0.0389,  0.0078, -0.0117]],
+       device='cuda:0'), grad: tensor([[ 4.4179e-04,  0.0000e+00,  4.5180e-04,  ...,  7.4625e-04,
+          1.1253e-02,  3.5310e-04],
+        [-1.3762e-03,  0.0000e+00,  1.5144e-02,  ...,  1.3113e-03,
+          9.5978e-03,  6.7520e-03],
+        [ 5.4502e-04,  0.0000e+00,  2.3842e-03,  ..., -6.1378e-03,
+          2.9488e-03, -4.8709e-04],
+        ...,
+        [ 9.7215e-05,  0.0000e+00,  6.0959e-03,  ..., -2.2542e-04,
+          4.5700e-03, -6.2799e-04],
+        [ 1.1873e-03,  0.0000e+00,  6.7101e-03,  ...,  1.1421e-02,
+          5.5656e-03, -1.2693e-03],
+        [ 8.5890e-05,  0.0000e+00, -3.5004e-02,  ..., -4.2381e-03,
+          8.7357e-03,  1.7843e-03]], device='cuda:0')
+Epoch 4, bias, value: tensor([-0.0087, -0.0287,  0.0084, -0.0209,  0.0139,  0.0037,  0.0211, -0.0121,
+        -0.0242,  0.0031], device='cuda:0'), grad: tensor([ 0.0173,  0.0151,  0.0085,  0.0242, -0.0677,  0.0196, -0.0236,  0.0063,
+         0.0038, -0.0034], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 278.78, cls_loss 0.2505 cls_loss_mapping 0.3509 cls_loss_causal 1.5292 re_mapping 0.1212 re_causal 0.2169 /// teacc 94.58 lr 0.00010000
+Epoch 5, weight, value: tensor([[-0.0085, -0.0223,  0.0007,  ..., -0.0307, -0.0284, -0.0034],
+        [ 0.0055, -0.0064, -0.0171,  ...,  0.0400,  0.0222,  0.0099],
+        [-0.0293, -0.0189, -0.0246,  ...,  0.0221, -0.0094,  0.0214],
+        ...,
+        [-0.0140, -0.0115, -0.0392,  ..., -0.0075, -0.0040,  0.0179],
+        [ 0.0244,  0.0096, -0.0061,  ..., -0.0199, -0.0191,  0.0140],
+        [-0.0356,  0.0071,  0.0215,  ..., -0.0412,  0.0072, -0.0145]],
+       device='cuda:0'), grad: tensor([[ 6.2287e-05,  0.0000e+00,  4.5681e-04,  ...,  1.0548e-03,
+         -1.6918e-03,  8.2031e-06],
+        [-9.3384e-03,  0.0000e+00, -1.2779e-02,  ..., -7.9224e-02,
+         -1.2383e-02,  1.2174e-05],
+        [ 7.0686e-03,  0.0000e+00,  1.0117e-02,  ...,  4.0863e-02,
+          3.9062e-03, -4.0102e-04],
+        ...,
+        [ 1.6212e-04,  0.0000e+00,  1.8187e-03,  ..., -1.3103e-03,
+          1.1091e-03,  6.6042e-05],
+        [ 2.4652e-04,  0.0000e+00,  2.5749e-03,  ...,  3.2120e-03,
+          2.2488e-03,  4.2975e-05],
+        [ 1.7071e-04,  0.0000e+00, -8.1787e-03,  ...,  1.1187e-03,
+         -5.7755e-03,  1.0431e-05]], device='cuda:0')
+Epoch 5, bias, value: tensor([-0.0084, -0.0282,  0.0084, -0.0209,  0.0141,  0.0034,  0.0211, -0.0122,
+        -0.0246,  0.0030], device='cuda:0'), grad: tensor([-0.0055, -0.0304,  0.0171,  0.0146,  0.0064,  0.0022,  0.0062,  0.0020,
+         0.0054, -0.0179], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 280.63, cls_loss 0.2013 cls_loss_mapping 0.2692 cls_loss_causal 1.3562 re_mapping 0.1003 re_causal 0.1970 /// teacc 95.39 lr 0.00010000
+Epoch 6, weight, value: tensor([[-0.0058, -0.0223, -0.0011,  ..., -0.0329, -0.0288, -0.0075],
+        [ 0.0085, -0.0064, -0.0168,  ...,  0.0413,  0.0242,  0.0100],
+        [-0.0316, -0.0189, -0.0277,  ...,  0.0234, -0.0081,  0.0215],
+        ...,
+        [-0.0200, -0.0115, -0.0408,  ..., -0.0075, -0.0056,  0.0205],
+        [ 0.0268,  0.0096, -0.0055,  ..., -0.0193, -0.0204,  0.0121],
+        [-0.0418,  0.0071,  0.0222,  ..., -0.0437,  0.0067, -0.0172]],
+       device='cuda:0'), grad: tensor([[ 5.8651e-04,  0.0000e+00,  9.8896e-04,  ...,  7.0429e-04,
+          2.5864e-03,  4.5180e-05],
+        [-2.1286e-03,  0.0000e+00, -1.4162e-03,  ..., -4.3983e-03,
+         -5.0850e-03, -5.0592e-04],
+        [ 8.8739e-04,  0.0000e+00,  2.5845e-03,  ...,  8.9979e-04,
+          5.0201e-03,  2.9182e-04],
+        ...,
+        [ 2.7180e-04,  0.0000e+00,  1.0967e-03,  ..., -2.4915e-04,
+         -5.6076e-04, -3.5405e-04],
+        [ 2.2066e-04,  0.0000e+00, -5.7259e-03,  ..., -6.0310e-03,
+         -9.4681e-03,  7.8058e-04],
+        [ 9.2649e-04,  0.0000e+00, -3.8929e-03,  ...,  1.0090e-03,
+         -1.4992e-03,  2.9826e-04]], device='cuda:0')
+Epoch 6, bias, value: tensor([-0.0082, -0.0279,  0.0085, -0.0209,  0.0142,  0.0030,  0.0207, -0.0125,
+        -0.0243,  0.0032], device='cuda:0'), grad: tensor([ 0.0021, -0.0036,  0.0055, -0.0034, -0.0021,  0.0094,  0.0069, -0.0034,
+        -0.0055, -0.0059], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 5----------------------------------------------------
+epoch 5, time 278.72, cls_loss 0.1822 cls_loss_mapping 0.2325 cls_loss_causal 1.3252 re_mapping 0.0856 re_causal 0.1840 /// teacc 96.41 lr 0.00010000
+Epoch 7, weight, value: tensor([[-0.0048, -0.0223, -0.0029,  ..., -0.0350, -0.0300, -0.0132],
+        [ 0.0102, -0.0064, -0.0165,  ...,  0.0420,  0.0263,  0.0095],
+        [-0.0334, -0.0189, -0.0305,  ...,  0.0243, -0.0072,  0.0208],
+        ...,
+        [-0.0229, -0.0115, -0.0416,  ..., -0.0071, -0.0070,  0.0219],
+        [ 0.0299,  0.0096, -0.0046,  ..., -0.0194, -0.0223,  0.0103],
+        [-0.0454,  0.0071,  0.0220,  ..., -0.0465,  0.0057, -0.0200]],
+       device='cuda:0'), grad: tensor([[-0.0008,  0.0000,  0.0014,  ...,  0.0017, -0.0031,  0.0002],
+        [ 0.0029,  0.0000,  0.0070,  ...,  0.0149, -0.0004, -0.0002],
+        [ 0.0014,  0.0000,  0.0031,  ..., -0.0083,  0.0003, -0.0008],
+        ...,
+        [ 0.0008,  0.0000,  0.0013,  ...,  0.0039,  0.0040,  0.0002],
+        [-0.0004,  0.0000, -0.0041,  ..., -0.0001,  0.0012, -0.0005],
+        [ 0.0008,  0.0000,  0.0015,  ...,  0.0028, -0.0038, -0.0012]],
+       device='cuda:0')
+Epoch 7, bias, value: tensor([-0.0082, -0.0278,  0.0082, -0.0209,  0.0145,  0.0031,  0.0202, -0.0122,
+        -0.0238,  0.0027], device='cuda:0'), grad: tensor([-0.0098,  0.0083, -0.0008, -0.0146,  0.0015,  0.0237, -0.0142,  0.0126,
+         0.0012, -0.0079], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 6----------------------------------------------------
+epoch 6, time 278.42, cls_loss 0.1492 cls_loss_mapping 0.1952 cls_loss_causal 1.2539 re_mapping 0.0763 re_causal 0.1698 /// teacc 96.50 lr 0.00010000
+Epoch 8, weight, value: tensor([[-0.0034, -0.0223, -0.0051,  ..., -0.0376, -0.0306, -0.0179],
+        [ 0.0120, -0.0064, -0.0159,  ...,  0.0430,  0.0283,  0.0086],
+        [-0.0338, -0.0189, -0.0320,  ...,  0.0253, -0.0059,  0.0204],
+        ...,
+        [-0.0255, -0.0115, -0.0432,  ..., -0.0073, -0.0088,  0.0229],
+        [ 0.0313,  0.0096, -0.0039,  ..., -0.0195, -0.0235,  0.0087],
+        [-0.0490,  0.0071,  0.0221,  ..., -0.0479,  0.0052, -0.0221]],
+       device='cuda:0'), grad: tensor([[-6.9618e-04,  0.0000e+00,  4.6611e-04,  ...,  3.6454e-04,
+         -8.1873e-04,  2.3916e-05],
+        [-1.0653e-03,  0.0000e+00, -8.9502e-04,  ..., -1.1177e-03,
+         -3.5324e-03, -2.8357e-05],
+        [ 5.7268e-04,  0.0000e+00,  3.9649e-04,  ..., -5.2299e-03,
+         -1.8473e-03,  1.1764e-05],
+        ...,
+        [ 1.6406e-05,  0.0000e+00,  1.4200e-03,  ...,  3.4833e-04,
+          6.3705e-04, -4.7743e-05],
+        [ 1.0405e-03,  0.0000e+00,  9.7809e-03,  ...,  5.3101e-03,
+          2.9888e-03,  4.3011e-04],
+        [ 1.7223e-03,  0.0000e+00,  1.4048e-03,  ...,  2.6779e-03,
+         -2.5272e-03, -1.1355e-04]], device='cuda:0')
+Epoch 8, bias, value: tensor([-0.0083, -0.0276,  0.0084, -0.0207,  0.0145,  0.0026,  0.0200, -0.0122,
+        -0.0235,  0.0026], device='cuda:0'), grad: tensor([-0.0018, -0.0020, -0.0042, -0.0106,  0.0061,  0.0014,  0.0023, -0.0003,
+         0.0121, -0.0030], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 7----------------------------------------------------
+epoch 7, time 279.28, cls_loss 0.1329 cls_loss_mapping 0.1677 cls_loss_causal 1.2467 re_mapping 0.0697 re_causal 0.1641 /// teacc 96.76 lr 0.00010000
+Epoch 9, weight, value: tensor([[-0.0019, -0.0223, -0.0066,  ..., -0.0392, -0.0305, -0.0224],
+        [ 0.0127, -0.0064, -0.0156,  ...,  0.0437,  0.0305,  0.0089],
+        [-0.0338, -0.0189, -0.0334,  ...,  0.0263, -0.0056,  0.0197],
+        ...,
+        [-0.0276, -0.0115, -0.0439,  ..., -0.0075, -0.0106,  0.0241],
+        [ 0.0321,  0.0096, -0.0035,  ..., -0.0196, -0.0245,  0.0077],
+        [-0.0504,  0.0071,  0.0220,  ..., -0.0490,  0.0053, -0.0235]],
+       device='cuda:0'), grad: tensor([[ 1.9860e-04,  0.0000e+00,  8.2159e-04,  ...,  4.7159e-04,
+          6.7472e-05,  2.5824e-05],
+        [-1.2474e-03,  0.0000e+00, -1.9409e-02,  ..., -5.4688e-02,
+         -2.6627e-02, -8.7023e-04],
+        [ 1.3523e-03,  0.0000e+00,  2.0142e-02,  ...,  7.3608e-02,
+          2.9358e-02,  3.0255e-04],
+        ...,
+        [ 2.2793e-04,  0.0000e+00,  1.4668e-03,  ..., -2.4048e-02,
+         -3.1796e-03,  6.5565e-06],
+        [ 3.5501e-04,  0.0000e+00,  6.9475e-04,  ...,  1.3647e-03,
+          2.1133e-03, -1.2353e-05],
+        [-3.2687e-04,  0.0000e+00, -5.8670e-03,  ..., -2.5215e-03,
+         -6.8779e-03,  1.9753e-04]], device='cuda:0')
+Epoch 9, bias, value: tensor([-0.0079, -0.0274,  0.0085, -0.0209,  0.0146,  0.0023,  0.0198, -0.0121,
+        -0.0236,  0.0026], device='cuda:0'), grad: tensor([ 0.0006, -0.0255,  0.0376,  0.0006,  0.0075,  0.0014, -0.0009, -0.0115,
+         0.0020, -0.0118], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 8----------------------------------------------------
+epoch 8, time 278.95, cls_loss 0.0998 cls_loss_mapping 0.1346 cls_loss_causal 1.1738 re_mapping 0.0622 re_causal 0.1539 /// teacc 97.20 lr 0.00010000
+Epoch 10, weight, value: tensor([[-0.0009, -0.0223, -0.0080,  ..., -0.0408, -0.0304, -0.0248],
+        [ 0.0123, -0.0064, -0.0155,  ...,  0.0436,  0.0313,  0.0084],
+        [-0.0347, -0.0189, -0.0349,  ...,  0.0273, -0.0048,  0.0195],
+        ...,
+        [-0.0305, -0.0115, -0.0448,  ..., -0.0073, -0.0118,  0.0247],
+        [ 0.0348,  0.0096, -0.0033,  ..., -0.0192, -0.0253,  0.0073],
+        [-0.0519,  0.0071,  0.0219,  ..., -0.0504,  0.0056, -0.0244]],
+       device='cuda:0'), grad: tensor([[ 7.9155e-05,  0.0000e+00,  8.6403e-04,  ...,  3.7122e-04,
+          1.4389e-04,  6.3598e-05],
+        [ 2.0611e-04,  0.0000e+00,  1.6289e-03,  ...,  3.4332e-03,
+          3.0112e-04,  1.1339e-03],
+        [-4.8685e-04,  0.0000e+00, -2.1553e-03,  ..., -1.5991e-02,
+          1.0443e-04, -8.9188e-03],
+        ...,
+        [ 1.5247e-04,  0.0000e+00,  3.0479e-03,  ...,  6.2904e-03,
+          1.4896e-03,  2.5101e-03],
+        [ 8.8644e-04,  0.0000e+00,  4.4441e-03,  ...,  1.6006e-02,
+          1.7605e-03,  8.9111e-03],
+        [ 3.7456e-04,  0.0000e+00,  8.9979e-04,  ...,  1.7252e-03,
+         -3.5167e-05,  3.4451e-04]], device='cuda:0')
+Epoch 10, bias, value: tensor([-0.0077, -0.0277,  0.0088, -0.0210,  0.0145,  0.0019,  0.0198, -0.0119,
+        -0.0232,  0.0025], device='cuda:0'), grad: tensor([-0.0019,  0.0027, -0.0081, -0.0084,  0.0010, -0.0204,  0.0108,  0.0074,
+         0.0175, -0.0006], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 9, time 262.35, cls_loss 0.0925 cls_loss_mapping 0.1251 cls_loss_causal 1.1859 re_mapping 0.0567 re_causal 0.1430 /// teacc 96.75 lr 0.00010000
+Epoch 11, weight, value: tensor([[-0.0003, -0.0223, -0.0092,  ..., -0.0426, -0.0312, -0.0276],
+        [ 0.0129, -0.0064, -0.0153,  ...,  0.0437,  0.0323,  0.0080],
+        [-0.0362, -0.0189, -0.0364,  ...,  0.0277, -0.0046,  0.0186],
+        ...,
+        [-0.0329, -0.0115, -0.0454,  ..., -0.0068, -0.0127,  0.0263],
+        [ 0.0364,  0.0096, -0.0025,  ..., -0.0187, -0.0264,  0.0070],
+        [-0.0548,  0.0071,  0.0215,  ..., -0.0524,  0.0055, -0.0256]],
+       device='cuda:0'), grad: tensor([[-1.4095e-03,  0.0000e+00,  1.8847e-04,  ...,  2.6107e-04,
+         -7.4148e-04,  2.7716e-05],
+        [-4.8447e-04,  0.0000e+00, -1.3294e-03,  ..., -6.9475e-04,
+         -2.6093e-03,  4.7684e-05],
+        [ 3.9846e-05,  0.0000e+00,  8.2374e-05,  ..., -7.2670e-03,
+         -1.0414e-03, -7.2145e-04],
+        ...,
+        [ 3.7956e-04,  0.0000e+00,  5.7030e-04,  ...,  3.3417e-03,
+          1.4067e-03, -2.6727e-04],
+        [ 9.4748e-04,  0.0000e+00,  1.0208e-02,  ...,  6.8512e-03,
+          6.8016e-03,  1.8370e-04],
+        [ 5.3501e-04,  0.0000e+00, -1.0048e-02,  ..., -4.3411e-03,
+         -6.8398e-03,  1.4925e-04]], device='cuda:0')
+Epoch 11, bias, value: tensor([-0.0079, -0.0279,  0.0083, -0.0210,  0.0147,  0.0018,  0.0197, -0.0114,
+        -0.0227,  0.0021], device='cuda:0'), grad: tensor([-0.0051, -0.0022, -0.0031,  0.0017,  0.0056,  0.0016,  0.0007,  0.0033,
+         0.0233, -0.0259], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 10, time 262.38, cls_loss 0.0920 cls_loss_mapping 0.1155 cls_loss_causal 1.0707 re_mapping 0.0534 re_causal 0.1240 /// teacc 97.04 lr 0.00010000
+Epoch 12, weight, value: tensor([[ 0.0005, -0.0223, -0.0104,  ..., -0.0439, -0.0319, -0.0300],
+        [ 0.0130, -0.0064, -0.0156,  ...,  0.0435,  0.0334,  0.0079],
+        [-0.0364, -0.0189, -0.0375,  ...,  0.0288, -0.0039,  0.0184],
+        ...,
+        [-0.0349, -0.0115, -0.0465,  ..., -0.0066, -0.0142,  0.0273],
+        [ 0.0375,  0.0096, -0.0020,  ..., -0.0186, -0.0277,  0.0065],
+        [-0.0560,  0.0071,  0.0215,  ..., -0.0536,  0.0056, -0.0266]],
+       device='cuda:0'), grad: tensor([[ 5.4464e-06,  0.0000e+00,  8.2159e-04,  ...,  7.2432e-04,
+          6.7568e-04,  9.8407e-05],
+        [-8.0645e-05,  0.0000e+00, -2.9278e-04,  ..., -7.1764e-04,
+         -7.9393e-04,  3.4928e-04],
+        [ 1.6302e-05,  0.0000e+00,  2.3232e-03,  ...,  7.1001e-04,
+          2.0008e-03,  4.8423e-04],
+        ...,
+        [ 1.3165e-05,  0.0000e+00,  3.1376e-03,  ...,  2.7447e-03,
+          7.1383e-04,  9.5320e-04],
+        [ 1.8328e-05,  0.0000e+00, -3.6831e-03,  ..., -2.0638e-03,
+          7.7915e-04,  4.6539e-04],
+        [ 1.5402e-04,  0.0000e+00,  2.3041e-03,  ...,  4.4899e-03,
+          1.2684e-03,  1.8892e-03]], device='cuda:0')
+Epoch 12, bias, value: tensor([-0.0078, -0.0280,  0.0086, -0.0208,  0.0145,  0.0016,  0.0198, -0.0114,
+        -0.0227,  0.0021], device='cuda:0'), grad: tensor([-0.0015,  0.0003,  0.0051, -0.0063, -0.0071,  0.0043, -0.0005,  0.0052,
+        -0.0061,  0.0068], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 11----------------------------------------------------
+epoch 11, time 278.61, cls_loss 0.0944 cls_loss_mapping 0.1198 cls_loss_causal 1.1229 re_mapping 0.0485 re_causal 0.1233 /// teacc 97.52 lr 0.00010000
+Epoch 13, weight, value: tensor([[ 0.0016, -0.0223, -0.0118,  ..., -0.0459, -0.0326, -0.0320],
+        [ 0.0126, -0.0064, -0.0154,  ...,  0.0441,  0.0350,  0.0068],
+        [-0.0375, -0.0189, -0.0393,  ...,  0.0288, -0.0043,  0.0181],
+        ...,
+        [-0.0347, -0.0115, -0.0469,  ..., -0.0063, -0.0150,  0.0286],
+        [ 0.0388,  0.0096, -0.0013,  ..., -0.0180, -0.0285,  0.0056],
+        [-0.0565,  0.0071,  0.0211,  ..., -0.0551,  0.0055, -0.0278]],
+       device='cuda:0'), grad: tensor([[ 3.1829e-04,  0.0000e+00,  6.0844e-04,  ...,  1.4009e-03,
+          1.6296e-04,  2.5168e-05],
+        [ 5.7906e-05,  0.0000e+00, -3.0255e-04,  ..., -3.4022e-04,
+         -6.2799e-04,  9.5785e-05],
+        [ 1.5342e-04,  0.0000e+00,  5.0735e-04,  ..., -1.8632e-04,
+         -5.5361e-04,  2.5010e-04],
+        ...,
+        [-1.2743e-04,  0.0000e+00,  2.8539e-04,  ..., -5.7173e-04,
+          3.7432e-04, -8.7738e-04],
+        [-3.8576e-04,  0.0000e+00,  2.7714e-03,  ...,  3.3331e-04,
+          1.9331e-03,  6.0201e-05],
+        [ 2.4652e-04,  0.0000e+00,  6.7902e-04,  ...,  1.0383e-04,
+         -2.0370e-03,  1.2255e-04]], device='cuda:0')
+Epoch 13, bias, value: tensor([-0.0077, -0.0278,  0.0083, -0.0209,  0.0146,  0.0016,  0.0194, -0.0113,
+        -0.0224,  0.0020], device='cuda:0'), grad: tensor([ 0.0030, -0.0003,  0.0006,  0.0024,  0.0013, -0.0071,  0.0020, -0.0005,
+        -0.0008, -0.0007], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 12----------------------------------------------------
+epoch 12, time 278.72, cls_loss 0.0749 cls_loss_mapping 0.0972 cls_loss_causal 1.0655 re_mapping 0.0466 re_causal 0.1147 /// teacc 97.66 lr 0.00010000
+Epoch 14, weight, value: tensor([[ 0.0017, -0.0223, -0.0130,  ..., -0.0473, -0.0332, -0.0341],
+        [ 0.0123, -0.0064, -0.0153,  ...,  0.0444,  0.0360,  0.0067],
+        [-0.0381, -0.0189, -0.0408,  ...,  0.0292, -0.0036,  0.0173],
+        ...,
+        [-0.0349, -0.0115, -0.0479,  ..., -0.0064, -0.0161,  0.0294],
+        [ 0.0398,  0.0096, -0.0009,  ..., -0.0178, -0.0291,  0.0050],
+        [-0.0576,  0.0071,  0.0210,  ..., -0.0562,  0.0057, -0.0281]],
+       device='cuda:0'), grad: tensor([[-5.3883e-04,  0.0000e+00,  3.7980e-04,  ...,  3.5071e-04,
+          1.2740e-05,  1.8582e-05],
+        [ 1.4801e-03,  0.0000e+00,  1.8578e-03,  ...,  2.1744e-03,
+         -9.0790e-04,  6.2823e-05],
+        [ 6.2227e-04,  0.0000e+00,  1.5860e-03,  ...,  1.8559e-03,
+          2.6464e-04,  9.5725e-05],
+        ...,
+        [-7.6175e-05,  0.0000e+00,  4.1986e-04,  ..., -9.6607e-04,
+          3.4904e-04, -6.8617e-04],
+        [-3.9825e-03,  0.0000e+00, -1.0170e-02,  ..., -1.1017e-02,
+         -7.7069e-05,  2.8148e-05],
+        [ 4.4441e-04,  0.0000e+00,  4.9324e-03,  ...,  4.3259e-03,
+         -1.1665e-04,  1.7023e-04]], device='cuda:0')
+Epoch 14, bias, value: tensor([-0.0076, -0.0279,  0.0084, -0.0205,  0.0142,  0.0019,  0.0192, -0.0114,
+        -0.0225,  0.0019], device='cuda:0'), grad: tensor([-0.0008,  0.0027,  0.0023,  0.0038,  0.0008, -0.0018,  0.0017, -0.0005,
+        -0.0165,  0.0084], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 13, time 262.33, cls_loss 0.0878 cls_loss_mapping 0.1078 cls_loss_causal 1.0380 re_mapping 0.0432 re_causal 0.1055 /// teacc 97.58 lr 0.00010000
+Epoch 15, weight, value: tensor([[ 0.0021, -0.0223, -0.0141,  ..., -0.0488, -0.0337, -0.0358],
+        [ 0.0128, -0.0064, -0.0155,  ...,  0.0445,  0.0369,  0.0066],
+        [-0.0392, -0.0189, -0.0420,  ...,  0.0300, -0.0025,  0.0170],
+        ...,
+        [-0.0363, -0.0115, -0.0480,  ..., -0.0063, -0.0173,  0.0304],
+        [ 0.0420,  0.0096, -0.0006,  ..., -0.0175, -0.0301,  0.0042],
+        [-0.0595,  0.0071,  0.0209,  ..., -0.0570,  0.0052, -0.0286]],
+       device='cuda:0'), grad: tensor([[ 3.3379e-04,  0.0000e+00,  5.1403e-04,  ...,  1.1263e-03,
+          1.1034e-03,  7.6694e-07],
+        [ 3.5357e-04,  0.0000e+00,  4.1509e-04,  ...,  7.5293e-04,
+          1.0228e-04,  1.3253e-06],
+        [ 1.1539e-03,  0.0000e+00,  1.4572e-03,  ..., -8.4686e-04,
+          1.0157e-03, -1.7062e-05],
+        ...,
+        [ 2.4259e-04,  0.0000e+00,  1.1501e-03,  ...,  1.5516e-03,
+          6.8617e-04,  4.2133e-06],
+        [-2.0580e-03,  0.0000e+00, -7.8249e-04,  ..., -2.8801e-03,
+          6.5422e-04,  1.0729e-06],
+        [ 4.6277e-04,  0.0000e+00,  9.4843e-04,  ...,  1.1625e-03,
+          9.8705e-04,  5.4948e-08]], device='cuda:0')
+Epoch 15, bias, value: tensor([-0.0079, -0.0278,  0.0088, -0.0205,  0.0141,  0.0021,  0.0191, -0.0118,
+        -0.0225,  0.0020], device='cuda:0'), grad: tensor([ 0.0028,  0.0012, -0.0005,  0.0091, -0.0082, -0.0145,  0.0031,  0.0064,
+         0.0008, -0.0001], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 14----------------------------------------------------
+epoch 14, time 279.63, cls_loss 0.0727 cls_loss_mapping 0.0954 cls_loss_causal 1.0262 re_mapping 0.0412 re_causal 0.1041 /// teacc 97.71 lr 0.00010000
+Epoch 16, weight, value: tensor([[ 2.9271e-03, -2.2335e-02, -1.5212e-02,  ..., -5.0395e-02,
+         -3.3793e-02, -3.7773e-02],
+        [ 1.3338e-02, -6.4199e-03, -1.5480e-02,  ...,  4.4424e-02,
+          3.7605e-02,  5.9012e-03],
+        [-3.9176e-02, -1.8948e-02, -4.3374e-02,  ...,  3.0824e-02,
+         -1.9028e-03,  1.6749e-02],
+        ...,
+        [-3.7710e-02, -1.1540e-02, -4.7206e-02,  ..., -6.4257e-03,
+         -1.7850e-02,  3.0798e-02],
+        [ 4.2785e-02,  9.5671e-03,  2.2658e-05,  ..., -1.7307e-02,
+         -3.1190e-02,  3.9399e-03],
+        [-6.0666e-02,  7.1317e-03,  2.1243e-02,  ..., -5.7402e-02,
+          5.3516e-03, -2.9453e-02]], device='cuda:0'), grad: tensor([[-1.5755e-03,  0.0000e+00,  2.9588e-04,  ...,  1.2455e-03,
+          6.3038e-04,  8.5175e-05],
+        [ 7.9918e-04,  0.0000e+00,  9.3126e-04,  ...,  1.8797e-03,
+          1.7083e-04,  2.4402e-04],
+        [ 1.3390e-03,  0.0000e+00,  2.1172e-03,  ..., -1.4549e-02,
+          6.3848e-04,  9.4700e-04],
+        ...,
+        [ 1.4095e-03,  0.0000e+00,  7.7200e-04,  ...,  2.4548e-03,
+          2.5387e-03, -1.6832e-04],
+        [-7.5436e-04,  0.0000e+00, -2.9163e-03,  ..., -1.5612e-03,
+         -8.7309e-04,  1.3649e-04],
+        [-9.8801e-04,  0.0000e+00,  2.8687e-03,  ...,  3.0670e-03,
+         -4.0207e-03,  1.7416e-04]], device='cuda:0')
+Epoch 16, bias, value: tensor([-0.0072, -0.0280,  0.0091, -0.0206,  0.0140,  0.0018,  0.0189, -0.0114,
+        -0.0225,  0.0017], device='cuda:0'), grad: tensor([ 0.0021,  0.0030, -0.0113,  0.0034,  0.0012,  0.0042,  0.0033,  0.0085,
+        -0.0066, -0.0078], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 15----------------------------------------------------
+epoch 15, time 279.05, cls_loss 0.0821 cls_loss_mapping 0.0971 cls_loss_causal 1.0063 re_mapping 0.0395 re_causal 0.0973 /// teacc 97.84 lr 0.00010000
+Epoch 17, weight, value: tensor([[ 0.0032, -0.0233, -0.0162,  ..., -0.0521, -0.0342, -0.0400],
+        [ 0.0140, -0.0086, -0.0153,  ...,  0.0444,  0.0381,  0.0053],
+        [-0.0397, -0.0121, -0.0448,  ...,  0.0314, -0.0007,  0.0163],
+        ...,
+        [-0.0393, -0.0133, -0.0470,  ..., -0.0061, -0.0187,  0.0314],
+        [ 0.0435,  0.0094,  0.0005,  ..., -0.0168, -0.0320,  0.0038],
+        [-0.0627,  0.0065,  0.0208,  ..., -0.0589,  0.0054, -0.0306]],
+       device='cuda:0'), grad: tensor([[ 1.0622e-04,  1.5929e-05,  1.6284e-04,  ...,  2.5058e-04,
+          3.2735e-04,  1.3387e-04],
+        [ 3.7861e-04,  2.4121e-06,  1.8702e-03,  ...,  3.3283e-03,
+          4.3845e-04,  1.3885e-03],
+        [-4.7874e-04,  1.0086e-06, -1.1322e-02,  ..., -2.0889e-02,
+         -2.7523e-03, -9.0256e-03],
+        ...,
+        [ 4.2796e-04,  3.1125e-06,  7.3433e-03,  ...,  1.3321e-02,
+          1.6584e-03,  5.1079e-03],
+        [-2.1863e-04,  1.1399e-06,  7.9989e-05,  ...,  1.4839e-03,
+         -1.3840e-04,  5.3883e-04],
+        [ 1.2350e-04,  3.2643e-07,  1.6427e-04,  ...,  3.6788e-04,
+          7.4804e-05,  1.7965e-04]], device='cuda:0')
+Epoch 17, bias, value: tensor([-0.0073, -0.0280,  0.0093, -0.0206,  0.0142,  0.0024,  0.0182, -0.0114,
+        -0.0223,  0.0011], device='cuda:0'), grad: tensor([ 4.0221e-04,  3.1872e-03, -1.6006e-02,  1.6384e-03,  1.2045e-03,
+         4.5133e-04, -3.0065e-04,  8.5068e-03, -3.6389e-05,  9.5892e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 16----------------------------------------------------
+epoch 16, time 278.68, cls_loss 0.0692 cls_loss_mapping 0.0852 cls_loss_causal 0.9558 re_mapping 0.0389 re_causal 0.0921 /// teacc 98.14 lr 0.00010000
+Epoch 18, weight, value: tensor([[ 0.0034, -0.0281, -0.0170,  ..., -0.0536, -0.0348, -0.0413],
+        [ 0.0140, -0.0052, -0.0149,  ...,  0.0448,  0.0391,  0.0046],
+        [-0.0405, -0.0111, -0.0463,  ...,  0.0316, -0.0004,  0.0161],
+        ...,
+        [-0.0408, -0.0174, -0.0472,  ..., -0.0060, -0.0194,  0.0320],
+        [ 0.0445,  0.0047,  0.0012,  ..., -0.0166, -0.0328,  0.0041],
+        [-0.0629,  0.0023,  0.0203,  ..., -0.0601,  0.0056, -0.0315]],
+       device='cuda:0'), grad: tensor([[ 8.4415e-06,  2.2352e-08,  1.1241e-04,  ...,  1.4734e-04,
+          8.1360e-05,  8.0764e-06],
+        [-3.4750e-05, -1.6764e-06,  7.6532e-04,  ...,  6.4421e-04,
+         -4.0412e-04,  9.5546e-05],
+        [ 3.6031e-05,  1.5926e-07,  3.7193e-04,  ...,  4.8876e-04,
+          3.2473e-04,  1.8850e-05],
+        ...,
+        [ 2.4915e-05,  4.4238e-08, -4.7760e-03,  ..., -4.2572e-03,
+          2.5272e-04, -6.4135e-04],
+        [ 2.6301e-05,  6.6031e-07,  2.6665e-03,  ...,  2.2373e-03,
+          3.5906e-04,  2.3258e-04],
+        [ 1.7807e-05,  3.4459e-08,  2.6560e-04,  ...,  5.9795e-04,
+         -7.1526e-05,  8.8155e-05]], device='cuda:0')
+Epoch 18, bias, value: tensor([-0.0075, -0.0280,  0.0088, -0.0202,  0.0146,  0.0022,  0.0181, -0.0114,
+        -0.0223,  0.0011], device='cuda:0'), grad: tensor([ 2.2817e-04,  8.4925e-04,  7.6199e-04,  3.8929e-03,  3.3975e-04,
+        -3.6201e-03,  9.8571e-06, -6.5651e-03,  3.4313e-03,  6.6566e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 17, time 261.99, cls_loss 0.0606 cls_loss_mapping 0.0783 cls_loss_causal 0.9925 re_mapping 0.0366 re_causal 0.0930 /// teacc 97.85 lr 0.00010000
+Epoch 19, weight, value: tensor([[ 0.0039, -0.0298, -0.0182,  ..., -0.0551, -0.0355, -0.0428],
+        [ 0.0135, -0.0060, -0.0148,  ...,  0.0447,  0.0393,  0.0043],
+        [-0.0403, -0.0082, -0.0468,  ...,  0.0325,  0.0010,  0.0160],
+        ...,
+        [-0.0414, -0.0205, -0.0479,  ..., -0.0059, -0.0206,  0.0334],
+        [ 0.0451,  0.0031,  0.0014,  ..., -0.0169, -0.0339,  0.0032],
+        [-0.0639,  0.0037,  0.0204,  ..., -0.0610,  0.0057, -0.0326]],
+       device='cuda:0'), grad: tensor([[ 6.4790e-05,  1.8207e-06,  6.0409e-05,  ...,  2.4939e-04,
+          5.0831e-04,  2.7999e-05],
+        [ 2.0294e-03,  2.2640e-03,  3.9458e-04,  ...,  1.1299e-02,
+          1.1597e-02,  1.4111e-05],
+        [-2.2202e-03, -2.3098e-03,  2.1970e-04,  ..., -1.2459e-02,
+         -1.2932e-02, -1.2361e-05],
+        ...,
+        [-4.3678e-04,  2.6345e-05, -1.0614e-03,  ..., -2.4581e-04,
+         -1.3900e-04, -1.4937e-04],
+        [ 3.7193e-05,  2.0918e-06,  1.0371e-04,  ...,  1.7118e-04,
+          2.4045e-04,  9.0227e-06],
+        [ 2.3639e-04,  2.4028e-07,  6.1178e-04,  ...,  6.7377e-04,
+          3.6430e-04,  8.0585e-05]], device='cuda:0')
+Epoch 19, bias, value: tensor([-0.0074, -0.0280,  0.0096, -0.0204,  0.0143,  0.0028,  0.0179, -0.0112,
+        -0.0228,  0.0008], device='cuda:0'), grad: tensor([ 0.0012,  0.0116, -0.0111,  0.0005,  0.0013, -0.0052,  0.0026, -0.0038,
+         0.0006,  0.0023], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 18, time 261.97, cls_loss 0.0531 cls_loss_mapping 0.0700 cls_loss_causal 0.9371 re_mapping 0.0353 re_causal 0.0912 /// teacc 97.92 lr 0.00010000
+Epoch 20, weight, value: tensor([[ 0.0046, -0.0391, -0.0189,  ..., -0.0558, -0.0368, -0.0454],
+        [ 0.0135, -0.0071, -0.0155,  ...,  0.0443,  0.0394,  0.0037],
+        [-0.0399, -0.0019, -0.0468,  ...,  0.0332,  0.0020,  0.0156],
+        ...,
+        [-0.0415, -0.0305, -0.0483,  ..., -0.0059, -0.0220,  0.0345],
+        [ 0.0452, -0.0007,  0.0018,  ..., -0.0168, -0.0347,  0.0032],
+        [-0.0652,  0.0076,  0.0206,  ..., -0.0618,  0.0067, -0.0331]],
+       device='cuda:0'), grad: tensor([[ 1.3411e-04,  3.3863e-06,  3.6597e-04,  ...,  5.0163e-04,
+          2.6798e-04,  1.0937e-04],
+        [ 1.9729e-04, -7.6666e-06,  2.8419e-04,  ...,  2.8658e-04,
+         -6.9737e-05,  1.1289e-04],
+        [ 1.9722e-03, -4.5300e-05,  8.6403e-04,  ...,  1.6129e-02,
+          8.5373e-03,  3.0875e-04],
+        ...,
+        [-9.7036e-04,  1.5944e-05,  9.2030e-05,  ..., -3.8767e-04,
+          1.9848e-04, -1.6155e-03],
+        [-1.4839e-03,  5.3644e-06, -5.2605e-03,  ..., -3.6888e-03,
+         -2.2984e-03,  8.5652e-05],
+        [ 5.6362e-04,  7.1600e-06,  1.6813e-03,  ...,  1.0338e-03,
+          7.2670e-03,  6.2132e-04]], device='cuda:0')
+Epoch 20, bias, value: tensor([-0.0077, -0.0286,  0.0101, -0.0202,  0.0140,  0.0022,  0.0184, -0.0113,
+        -0.0227,  0.0013], device='cuda:0'), grad: tensor([ 0.0011,  0.0005,  0.0157, -0.0131, -0.0097,  0.0027,  0.0008, -0.0020,
+        -0.0128,  0.0168], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 19, time 262.13, cls_loss 0.0633 cls_loss_mapping 0.0785 cls_loss_causal 0.9255 re_mapping 0.0324 re_causal 0.0829 /// teacc 98.14 lr 0.00010000
+Epoch 21, weight, value: tensor([[ 5.1018e-03, -4.2474e-02, -1.9843e-02,  ..., -5.7534e-02,
+         -3.7260e-02, -4.7040e-02],
+        [ 1.3454e-02, -8.9705e-03, -1.5220e-02,  ...,  4.4096e-02,
+          3.9606e-02,  3.6152e-03],
+        [-4.1687e-02,  3.9066e-05, -4.7625e-02,  ...,  3.3249e-02,
+          2.6951e-03,  1.4517e-02],
+        ...,
+        [-4.2111e-02, -2.8523e-02, -4.8739e-02,  ..., -5.7513e-03,
+         -2.2157e-02,  3.5070e-02],
+        [ 4.6602e-02, -1.8864e-03,  2.1780e-03,  ..., -1.6189e-02,
+         -3.5679e-02,  3.4759e-03],
+        [-6.5758e-02,  5.3955e-03,  2.0645e-02,  ..., -6.2398e-02,
+          6.6634e-03, -3.3677e-02]], device='cuda:0'), grad: tensor([[-7.1287e-05,  7.7188e-06,  1.0215e-05,  ...,  4.0352e-05,
+         -3.4750e-05,  5.3234e-06],
+        [ 8.9034e-06,  1.1832e-05, -1.3657e-05,  ...,  3.9965e-05,
+          2.0787e-05,  1.4573e-05],
+        [ 5.5850e-05, -1.1498e-04,  1.1164e-04,  ..., -1.4198e-04,
+         -1.8001e-04, -1.4074e-05],
+        ...,
+        [ 6.8098e-06,  2.7835e-05,  1.4506e-05,  ..., -1.9848e-04,
+          1.5986e-04, -2.0206e-04],
+        [-4.5933e-06,  2.1145e-05, -1.2958e-04,  ..., -6.1035e-05,
+          1.1992e-04,  1.0863e-05],
+        [ 3.8296e-05,  8.9183e-06,  5.2500e-04,  ...,  7.3004e-04,
+          2.9430e-03,  8.1658e-05]], device='cuda:0')
+Epoch 21, bias, value: tensor([-0.0077, -0.0288,  0.0096, -0.0203,  0.0145,  0.0025,  0.0179, -0.0111,
+        -0.0225,  0.0012], device='cuda:0'), grad: tensor([-1.5593e-04,  9.9361e-05,  2.9251e-05,  5.6839e-04, -7.6141e-03,
+        -4.2701e-04, -2.4843e-04, -1.4412e-04,  1.3328e-04,  7.7629e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 20, time 261.91, cls_loss 0.0411 cls_loss_mapping 0.0577 cls_loss_causal 0.8953 re_mapping 0.0320 re_causal 0.0870 /// teacc 97.95 lr 0.00010000
+Epoch 22, weight, value: tensor([[ 5.5057e-03, -4.8713e-02, -2.0457e-02,  ..., -5.8301e-02,
+         -3.7313e-02, -4.7785e-02],
+        [ 1.3723e-02, -6.9754e-03, -1.4377e-02,  ...,  4.4885e-02,
+          4.0666e-02,  3.3136e-03],
+        [-4.1866e-02,  6.5748e-05, -4.9471e-02,  ...,  3.3447e-02,
+          2.2865e-03,  1.4338e-02],
+        ...,
+        [-4.3079e-02, -3.0418e-02, -4.8271e-02,  ..., -5.4875e-03,
+         -2.2548e-02,  3.6107e-02],
+        [ 4.7456e-02,  2.1532e-04,  2.2991e-03,  ..., -1.5973e-02,
+         -3.6440e-02,  2.9919e-03],
+        [-6.6437e-02,  5.4790e-03,  2.1240e-02,  ..., -6.3581e-02,
+          6.8969e-03, -3.4409e-02]], device='cuda:0'), grad: tensor([[-3.7074e-04, -1.8394e-04,  3.3569e-04,  ...,  4.8280e-04,
+          2.7716e-05,  3.2037e-06],
+        [ 6.5088e-05, -8.5950e-05, -3.3236e-04,  ..., -2.5463e-04,
+         -6.9427e-04,  1.1601e-05],
+        [ 3.6144e-04, -1.4710e-04,  2.9802e-04,  ...,  4.2319e-04,
+          3.7336e-04,  1.4520e-04],
+        ...,
+        [ 1.5080e-04,  2.4170e-05,  1.6344e-04,  ..., -6.8140e-04,
+         -4.5419e-04, -3.6979e-04],
+        [ 5.7840e-04,  1.4257e-04,  7.3862e-04,  ...,  9.1553e-04,
+          3.9601e-04,  3.0011e-05],
+        [ 8.3876e-04,  2.7561e-04,  1.4067e-03,  ...,  1.2503e-03,
+          1.8978e-03,  9.8109e-05]], device='cuda:0')
+Epoch 22, bias, value: tensor([-0.0075, -0.0285,  0.0093, -0.0210,  0.0143,  0.0027,  0.0182, -0.0107,
+        -0.0224,  0.0011], device='cuda:0'), grad: tensor([ 3.9577e-05, -6.1321e-04,  1.9302e-03, -8.4457e-03, -2.4300e-03,
+         5.8250e-03,  6.4659e-04, -1.3876e-03,  1.8063e-03,  2.6245e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 21, time 262.43, cls_loss 0.0422 cls_loss_mapping 0.0582 cls_loss_causal 0.8725 re_mapping 0.0304 re_causal 0.0806 /// teacc 98.14 lr 0.00010000
+Epoch 23, weight, value: tensor([[ 0.0056, -0.0546, -0.0213,  ..., -0.0602, -0.0383, -0.0509],
+        [ 0.0135, -0.0058, -0.0137,  ...,  0.0453,  0.0419,  0.0030],
+        [-0.0428,  0.0011, -0.0510,  ...,  0.0338,  0.0027,  0.0138],
+        ...,
+        [-0.0433, -0.0316, -0.0490,  ..., -0.0057, -0.0237,  0.0371],
+        [ 0.0478,  0.0023,  0.0023,  ..., -0.0162, -0.0374,  0.0024],
+        [-0.0668,  0.0062,  0.0216,  ..., -0.0639,  0.0071, -0.0356]],
+       device='cuda:0'), grad: tensor([[ 2.8208e-05, -7.1973e-06,  1.0729e-04,  ...,  7.6354e-05,
+         -1.6713e-04,  1.5542e-05],
+        [ 8.7380e-05, -2.8208e-05, -1.6456e-06,  ..., -6.6340e-05,
+         -4.2510e-04,  9.8288e-05],
+        [ 8.0287e-05,  7.0184e-06,  2.4557e-04,  ...,  2.9325e-04,
+          1.1563e-04,  9.6977e-05],
+        ...,
+        [ 2.3842e-04, -1.8969e-05,  1.2436e-03,  ...,  7.2050e-04,
+          2.2709e-04,  1.4019e-04],
+        [-1.2657e-06,  2.2035e-06,  9.6560e-05,  ..., -1.1545e-04,
+          1.5140e-04,  1.9073e-05],
+        [ 3.2258e-04,  1.3649e-05,  6.4468e-04,  ...,  9.7656e-04,
+         -1.5962e-04,  2.4176e-04]], device='cuda:0')
+Epoch 23, bias, value: tensor([-0.0078, -0.0282,  0.0095, -0.0205,  0.0148,  0.0022,  0.0180, -0.0111,
+        -0.0227,  0.0013], device='cuda:0'), grad: tensor([-2.8419e-04, -3.5375e-05,  5.3072e-04, -4.1809e-03, -8.9049e-05,
+         9.5844e-04,  3.3402e-04,  1.4086e-03,  3.9458e-04,  9.6416e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 22, time 262.18, cls_loss 0.0496 cls_loss_mapping 0.0644 cls_loss_causal 0.8851 re_mapping 0.0295 re_causal 0.0766 /// teacc 98.10 lr 0.00010000
+Epoch 24, weight, value: tensor([[ 0.0060, -0.0574, -0.0220,  ..., -0.0614, -0.0390, -0.0522],
+        [ 0.0129, -0.0070, -0.0138,  ...,  0.0448,  0.0420,  0.0025],
+        [-0.0430,  0.0027, -0.0520,  ...,  0.0343,  0.0036,  0.0135],
+        ...,
+        [-0.0440, -0.0316, -0.0493,  ..., -0.0058, -0.0252,  0.0378],
+        [ 0.0490,  0.0015,  0.0030,  ..., -0.0157, -0.0382,  0.0022],
+        [-0.0681,  0.0049,  0.0211,  ..., -0.0650,  0.0081, -0.0365]],
+       device='cuda:0'), grad: tensor([[ 5.5462e-05,  4.6945e-04,  6.0940e-04,  ...,  7.9584e-04,
+          4.6682e-04,  2.5094e-05],
+        [ 1.4091e-04,  6.9678e-05,  6.8092e-04,  ...,  1.0576e-03,
+          2.3210e-04,  7.4089e-05],
+        [ 3.2735e-04, -1.2803e-04,  9.3603e-04,  ..., -7.0453e-05,
+          8.9049e-05,  3.3402e-04],
+        ...,
+        [-1.8225e-03, -3.1114e-04,  1.1665e-04,  ..., -3.3054e-03,
+          3.4165e-04, -1.5354e-03],
+        [ 8.0919e-04,  9.3231e-03,  1.1253e-02,  ...,  1.2581e-02,
+          4.5280e-03,  3.6144e-04],
+        [ 2.0623e-04, -7.6408e-03, -8.3313e-03,  ..., -7.4196e-03,
+          5.2490e-03,  2.2781e-04]], device='cuda:0')
+Epoch 24, bias, value: tensor([-0.0079, -0.0288,  0.0097, -0.0204,  0.0144,  0.0025,  0.0181, -0.0112,
+        -0.0226,  0.0015], device='cuda:0'), grad: tensor([ 0.0008,  0.0013,  0.0019, -0.0071, -0.0111,  0.0046,  0.0007, -0.0074,
+         0.0321, -0.0157], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 23----------------------------------------------------
+epoch 23, time 279.15, cls_loss 0.0410 cls_loss_mapping 0.0548 cls_loss_causal 0.8936 re_mapping 0.0282 re_causal 0.0758 /// teacc 98.32 lr 0.00010000
+Epoch 25, weight, value: tensor([[ 0.0063, -0.0587, -0.0228,  ..., -0.0625, -0.0391, -0.0550],
+        [ 0.0126, -0.0070, -0.0131,  ...,  0.0450,  0.0429,  0.0022],
+        [-0.0438,  0.0048, -0.0533,  ...,  0.0348,  0.0042,  0.0131],
+        ...,
+        [-0.0444, -0.0334, -0.0496,  ..., -0.0062, -0.0264,  0.0388],
+        [ 0.0494,  0.0002,  0.0033,  ..., -0.0155, -0.0398,  0.0020],
+        [-0.0689,  0.0077,  0.0208,  ..., -0.0659,  0.0091, -0.0370]],
+       device='cuda:0'), grad: tensor([[ 7.8902e-06,  8.9183e-06,  6.7174e-05,  ...,  7.5810e-06,
+         -7.7009e-05,  3.0905e-05],
+        [ 2.8878e-05,  2.6226e-03,  1.8680e-04,  ...,  4.3106e-03,
+          6.3248e-03,  8.9526e-05],
+        [-2.5654e-03, -3.1776e-03, -6.0158e-03,  ..., -1.5808e-02,
+         -1.2970e-02,  1.2207e-04],
+        ...,
+        [-2.4110e-05,  5.2422e-05, -1.8799e-04,  ..., -7.5626e-04,
+          1.1152e-04, -1.1377e-03],
+        [ 2.3270e-03,  2.4211e-04,  4.7760e-03,  ...,  1.0147e-02,
+          5.4893e-03,  2.9624e-05],
+        [ 1.0449e-04,  5.9381e-06,  5.1594e-04,  ...,  6.6471e-04,
+         -5.1260e-05,  5.6887e-04]], device='cuda:0')
+Epoch 25, bias, value: tensor([-0.0078, -0.0286,  0.0097, -0.0203,  0.0139,  0.0024,  0.0184, -0.0116,
+        -0.0229,  0.0021], device='cuda:0'), grad: tensor([-0.0047,  0.0050, -0.0126,  0.0013,  0.0005,  0.0008,  0.0031, -0.0027,
+         0.0069,  0.0025], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 24, time 262.36, cls_loss 0.0401 cls_loss_mapping 0.0559 cls_loss_causal 0.8670 re_mapping 0.0277 re_causal 0.0744 /// teacc 98.13 lr 0.00010000
+Epoch 26, weight, value: tensor([[ 6.3072e-03, -5.9249e-02, -2.3751e-02,  ..., -6.3550e-02,
+         -3.9737e-02, -5.6704e-02],
+        [ 1.1861e-02, -8.1189e-03, -1.2558e-02,  ...,  4.4919e-02,
+          4.2930e-02,  1.7998e-03],
+        [-4.3228e-02,  6.8351e-03, -5.4552e-02,  ...,  3.5124e-02,
+          5.1489e-03,  1.2409e-02],
+        ...,
+        [-4.4607e-02, -3.4165e-02, -4.9596e-02,  ..., -5.7494e-03,
+         -2.6601e-02,  3.9994e-02],
+        [ 4.9796e-02,  4.4689e-05,  3.6707e-03,  ..., -1.5601e-02,
+         -4.1024e-02,  1.8276e-03],
+        [-7.0225e-02,  7.0874e-03,  2.0145e-02,  ..., -6.7072e-02,
+          9.3765e-03, -3.8391e-02]], device='cuda:0'), grad: tensor([[ 3.9153e-06,  7.9036e-05,  5.5611e-05,  ...,  1.0777e-04,
+          2.2459e-04,  2.3246e-06],
+        [ 1.2565e-04,  1.0920e-03,  2.6226e-03,  ...,  5.5466e-03,
+          3.1834e-03,  2.4867e-04],
+        [ 1.8597e-04,  1.3466e-03,  8.6260e-04,  ...,  1.7099e-03,
+          4.8752e-03,  2.6539e-05],
+        ...,
+        [-6.9797e-05, -1.6317e-03, -4.9133e-03,  ..., -9.8801e-03,
+         -6.5575e-03, -3.4547e-04],
+        [-6.6423e-04,  1.3161e-04, -6.6662e-04,  ..., -1.2054e-03,
+          4.3416e-04,  3.2578e-06],
+        [ 2.7156e-04, -2.3346e-03,  1.4753e-03,  ...,  3.1528e-03,
+         -4.2458e-03,  2.9072e-05]], device='cuda:0')
+Epoch 26, bias, value: tensor([-0.0078, -0.0288,  0.0096, -0.0200,  0.0138,  0.0025,  0.0183, -0.0106,
+        -0.0231,  0.0015], device='cuda:0'), grad: tensor([ 0.0004,  0.0080,  0.0077,  0.0021,  0.0023,  0.0009,  0.0004, -0.0130,
+        -0.0004, -0.0083], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 25, time 261.99, cls_loss 0.0354 cls_loss_mapping 0.0457 cls_loss_causal 0.8578 re_mapping 0.0265 re_causal 0.0736 /// teacc 98.17 lr 0.00010000
+Epoch 27, weight, value: tensor([[ 0.0072, -0.0601, -0.0244,  ..., -0.0639, -0.0394, -0.0577],
+        [ 0.0110, -0.0093, -0.0122,  ...,  0.0448,  0.0434,  0.0014],
+        [-0.0435,  0.0074, -0.0557,  ...,  0.0356,  0.0051,  0.0124],
+        ...,
+        [-0.0460, -0.0327, -0.0496,  ..., -0.0055, -0.0269,  0.0404],
+        [ 0.0509,  0.0010,  0.0044,  ..., -0.0151, -0.0414,  0.0018],
+        [-0.0713,  0.0069,  0.0196,  ..., -0.0682,  0.0091, -0.0389]],
+       device='cuda:0'), grad: tensor([[ 1.7405e-05,  2.4308e-06,  5.7310e-05,  ...,  7.9930e-05,
+          3.8713e-05,  5.6326e-06],
+        [-7.8917e-04, -4.1890e-04, -2.3136e-03,  ..., -2.4567e-03,
+         -2.5787e-03,  1.7852e-05],
+        [-7.4971e-07,  4.0054e-05,  1.1196e-03,  ...,  5.7125e-04,
+          4.1842e-04,  1.7524e-05],
+        ...,
+        [ 4.4346e-05,  4.0054e-05,  2.5249e-04,  ..., -4.6223e-05,
+          1.8716e-04, -5.6148e-05],
+        [ 6.3515e-04,  2.2507e-04,  4.6468e-04,  ...,  1.4544e-03,
+          1.0576e-03,  5.5507e-06],
+        [ 4.5627e-05,  3.1684e-06,  2.6837e-05,  ...,  2.2328e-04,
+          6.1572e-05, -9.6440e-05]], device='cuda:0')
+Epoch 27, bias, value: tensor([-0.0073, -0.0290,  0.0097, -0.0202,  0.0142,  0.0026,  0.0177, -0.0106,
+        -0.0228,  0.0011], device='cuda:0'), grad: tensor([-2.9534e-05, -3.7022e-03,  1.5240e-03, -1.8013e-04,  1.2007e-03,
+         2.3675e-04,  1.5044e-04, -6.3002e-05,  9.8515e-04, -1.2600e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 26----------------------------------------------------
+epoch 26, time 278.81, cls_loss 0.0345 cls_loss_mapping 0.0466 cls_loss_causal 0.8280 re_mapping 0.0265 re_causal 0.0713 /// teacc 98.44 lr 0.00010000
+Epoch 28, weight, value: tensor([[ 0.0076, -0.0609, -0.0251,  ..., -0.0647, -0.0402, -0.0584],
+        [ 0.0109, -0.0092, -0.0126,  ...,  0.0445,  0.0441,  0.0009],
+        [-0.0448,  0.0078, -0.0560,  ...,  0.0356,  0.0053,  0.0120],
+        ...,
+        [-0.0470, -0.0335, -0.0492,  ..., -0.0051, -0.0270,  0.0410],
+        [ 0.0511,  0.0010,  0.0047,  ..., -0.0151, -0.0421,  0.0018],
+        [-0.0720,  0.0072,  0.0197,  ..., -0.0686,  0.0097, -0.0392]],
+       device='cuda:0'), grad: tensor([[ 2.8033e-06,  7.7039e-06,  1.2152e-05,  ...,  2.9683e-05,
+         -1.5751e-05,  1.2340e-06],
+        [ 3.5129e-06, -2.5351e-06, -5.7161e-05,  ..., -2.6003e-05,
+         -8.7678e-05,  1.0088e-05],
+        [ 2.1517e-05, -3.1859e-05,  3.0458e-05,  ...,  9.7677e-06,
+         -1.0155e-05,  7.3433e-05],
+        ...,
+        [-3.6418e-05, -5.4166e-06,  5.8126e-04,  ..., -5.5730e-05,
+          7.8630e-04, -1.5759e-04],
+        [ 8.7637e-07,  8.6948e-06, -4.3184e-05,  ...,  4.7088e-06,
+          5.0306e-05,  8.6278e-06],
+        [ 4.3474e-06,  2.1011e-06, -5.8603e-04,  ..., -1.1277e-04,
+         -8.6594e-04,  8.7321e-06]], device='cuda:0')
+Epoch 28, bias, value: tensor([-0.0079, -0.0293,  0.0094, -0.0199,  0.0140,  0.0027,  0.0179, -0.0104,
+        -0.0230,  0.0015], device='cuda:0'), grad: tensor([-2.7823e-04, -2.9668e-05,  6.9141e-05,  5.9557e-04,  3.7718e-04,
+        -3.8505e-04, -4.6670e-05,  3.9043e-03,  9.2864e-05, -4.2992e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 27, time 262.28, cls_loss 0.0383 cls_loss_mapping 0.0468 cls_loss_causal 0.8278 re_mapping 0.0245 re_causal 0.0644 /// teacc 98.26 lr 0.00010000
+Epoch 29, weight, value: tensor([[ 0.0077, -0.0621, -0.0258,  ..., -0.0655, -0.0403, -0.0597],
+        [ 0.0105, -0.0097, -0.0119,  ...,  0.0449,  0.0447,  0.0007],
+        [-0.0445,  0.0095, -0.0573,  ...,  0.0359,  0.0061,  0.0120],
+        ...,
+        [-0.0465, -0.0334, -0.0502,  ..., -0.0054, -0.0281,  0.0412],
+        [ 0.0514,  0.0007,  0.0052,  ..., -0.0147, -0.0430,  0.0022],
+        [-0.0735,  0.0068,  0.0192,  ..., -0.0696,  0.0093, -0.0402]],
+       device='cuda:0'), grad: tensor([[ 5.0753e-05,  1.5438e-05,  7.3016e-05,  ...,  6.7353e-05,
+          3.7456e-04,  6.2697e-06],
+        [ 4.6074e-05, -1.2830e-05, -2.3210e-04,  ..., -4.2737e-05,
+         -3.2449e-04,  1.2159e-05],
+        [ 1.1760e-04, -2.8706e-04,  3.4595e-04,  ...,  1.4961e-04,
+          2.7084e-04,  1.9062e-04],
+        ...,
+        [-2.6107e-05,  1.6499e-04,  8.6248e-05,  ..., -2.3484e-04,
+          1.4055e-04, -2.9159e-04],
+        [ 2.0170e-04,  5.0068e-05,  3.0470e-04,  ...,  4.0078e-04,
+          2.1315e-04,  5.5254e-05],
+        [ 8.4519e-05, -3.2969e-06,  2.5368e-04,  ...,  1.0896e-04,
+         -8.6784e-04,  1.3426e-05]], device='cuda:0')
+Epoch 29, bias, value: tensor([-0.0072, -0.0291,  0.0098, -0.0198,  0.0134,  0.0028,  0.0178, -0.0105,
+        -0.0230,  0.0010], device='cuda:0'), grad: tensor([ 8.9979e-04, -6.0976e-05,  9.1028e-04,  5.4312e-04,  4.7636e-04,
+        -1.2932e-03, -5.2357e-04,  3.8326e-05,  8.7404e-04, -1.8663e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 28, time 262.22, cls_loss 0.0367 cls_loss_mapping 0.0467 cls_loss_causal 0.8258 re_mapping 0.0253 re_causal 0.0682 /// teacc 98.23 lr 0.00010000
+Epoch 30, weight, value: tensor([[ 0.0082, -0.0637, -0.0264,  ..., -0.0661, -0.0404, -0.0606],
+        [ 0.0104, -0.0104, -0.0115,  ...,  0.0448,  0.0447,  0.0003],
+        [-0.0451,  0.0112, -0.0575,  ...,  0.0364,  0.0069,  0.0113],
+        ...,
+        [-0.0466, -0.0327, -0.0508,  ..., -0.0054, -0.0290,  0.0418],
+        [ 0.0519,  0.0002,  0.0058,  ..., -0.0145, -0.0435,  0.0028],
+        [-0.0740,  0.0071,  0.0187,  ..., -0.0706,  0.0094, -0.0407]],
+       device='cuda:0'), grad: tensor([[ 7.0827e-07,  1.2897e-05,  3.8266e-05,  ...,  1.7449e-05,
+         -3.7879e-05,  1.9129e-06],
+        [-1.4435e-06,  4.4912e-05,  1.4591e-04,  ..., -1.2383e-05,
+         -9.3520e-05,  2.6315e-05],
+        [ 5.8524e-06,  4.9210e-04,  3.1161e-04,  ...,  6.3848e-04,
+          4.3440e-04,  7.0989e-05],
+        ...,
+        [ 1.4044e-06,  1.1496e-05, -5.3585e-05,  ..., -4.8327e-04,
+          9.6142e-05, -2.8396e-04],
+        [ 2.6077e-06, -3.9554e-04,  1.4246e-04,  ..., -3.8123e-04,
+         -1.4150e-04,  1.3754e-05],
+        [ 6.5751e-06, -1.7178e-04, -4.7398e-04,  ...,  1.8203e-04,
+         -3.9530e-04,  4.7207e-05]], device='cuda:0')
+Epoch 30, bias, value: tensor([-0.0074, -0.0290,  0.0100, -0.0199,  0.0136,  0.0031,  0.0177, -0.0105,
+        -0.0230,  0.0007], device='cuda:0'), grad: tensor([-3.4857e-04,  3.2330e-04,  1.5545e-03,  3.2973e-04,  3.1137e-04,
+        -1.9073e-04,  7.8201e-05, -1.0452e-03, -4.4727e-04, -5.6458e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 29, time 262.24, cls_loss 0.0331 cls_loss_mapping 0.0445 cls_loss_causal 0.8056 re_mapping 0.0250 re_causal 0.0670 /// teacc 98.40 lr 0.00010000
+Epoch 31, weight, value: tensor([[ 0.0088, -0.0646, -0.0272,  ..., -0.0668, -0.0416, -0.0622],
+        [ 0.0096, -0.0116, -0.0114,  ...,  0.0445,  0.0450, -0.0004],
+        [-0.0447,  0.0114, -0.0584,  ...,  0.0366,  0.0069,  0.0109],
+        ...,
+        [-0.0473, -0.0319, -0.0506,  ..., -0.0050, -0.0294,  0.0428],
+        [ 0.0524,  0.0012,  0.0063,  ..., -0.0143, -0.0436,  0.0023],
+        [-0.0744,  0.0071,  0.0184,  ..., -0.0711,  0.0102, -0.0411]],
+       device='cuda:0'), grad: tensor([[ 1.2994e-05,  3.0443e-05,  2.2054e-04,  ...,  1.0896e-04,
+          1.1665e-04,  3.0220e-05],
+        [ 1.7703e-04, -3.3474e-03, -4.2610e-03,  ..., -2.8458e-03,
+         -7.6065e-03,  3.1567e-04],
+        [ 2.9159e-04,  2.4274e-05,  8.0681e-04,  ...,  3.7937e-03,
+          8.8882e-04,  5.5981e-04],
+        ...,
+        [-7.6437e-04,  9.0003e-05, -2.7142e-03,  ..., -2.1420e-03,
+          4.6802e-04, -1.6193e-03],
+        [ 9.7081e-06,  2.4643e-03,  3.1338e-03,  ...,  2.5692e-03,
+          5.7411e-03,  5.5939e-05],
+        [ 3.1024e-05,  1.5469e-03,  3.7527e-04,  ...,  1.8823e-04,
+          9.6130e-03,  2.0719e-04]], device='cuda:0')
+Epoch 31, bias, value: tensor([-0.0079, -0.0294,  0.0096, -0.0199,  0.0134,  0.0030,  0.0183, -0.0099,
+        -0.0228,  0.0007], device='cuda:0'), grad: tensor([ 0.0010, -0.0120,  0.0035, -0.0008, -0.0104,  0.0089,  0.0026, -0.0158,
+         0.0102,  0.0129], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 30----------------------------------------------------
+epoch 30, time 278.28, cls_loss 0.0268 cls_loss_mapping 0.0358 cls_loss_causal 0.7893 re_mapping 0.0241 re_causal 0.0665 /// teacc 98.54 lr 0.00010000
+Epoch 32, weight, value: tensor([[ 0.0089, -0.0642, -0.0278,  ..., -0.0676, -0.0421, -0.0639],
+        [ 0.0100, -0.0096, -0.0109,  ...,  0.0448,  0.0461, -0.0009],
+        [-0.0450,  0.0117, -0.0594,  ...,  0.0367,  0.0071,  0.0107],
+        ...,
+        [-0.0479, -0.0321, -0.0504,  ..., -0.0046, -0.0309,  0.0442],
+        [ 0.0526,  0.0011,  0.0063,  ..., -0.0145, -0.0447,  0.0019],
+        [-0.0750,  0.0055,  0.0182,  ..., -0.0719,  0.0105, -0.0416]],
+       device='cuda:0'), grad: tensor([[ 3.1710e-05,  6.2227e-05,  3.4362e-05,  ...,  8.5473e-05,
+          2.5535e-04,  9.8869e-06],
+        [ 1.2189e-04,  2.7132e-04, -1.4365e-04,  ...,  1.3411e-05,
+          6.4898e-04,  1.2301e-05],
+        [ 2.4581e-04,  1.5688e-04,  2.7442e-04,  ...,  6.8903e-04,
+          6.4182e-04,  2.9624e-05],
+        ...,
+        [ 5.7779e-06,  8.6799e-06,  1.5271e-04,  ..., -3.4285e-04,
+          5.5790e-04, -1.3733e-04],
+        [-2.0361e-04,  5.6803e-05, -3.9861e-06,  ..., -6.6328e-04,
+          2.5392e-04,  3.3379e-05],
+        [ 1.9848e-05,  3.7588e-06, -1.3697e-04,  ...,  2.0957e-04,
+         -8.0061e-04, -1.7309e-04]], device='cuda:0')
+Epoch 32, bias, value: tensor([-0.0077, -0.0289,  0.0093, -0.0202,  0.0138,  0.0028,  0.0183, -0.0096,
+        -0.0230,  0.0005], device='cuda:0'), grad: tensor([ 3.4022e-04,  7.1859e-04,  1.4277e-03,  4.6468e-04, -1.0977e-03,
+        -2.9707e-04, -1.9054e-03,  2.0909e-04, -3.5644e-05,  1.7536e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 31----------------------------------------------------
+epoch 31, time 278.37, cls_loss 0.0342 cls_loss_mapping 0.0480 cls_loss_causal 0.8259 re_mapping 0.0226 re_causal 0.0620 /// teacc 98.56 lr 0.00010000
+Epoch 33, weight, value: tensor([[ 0.0093, -0.0653, -0.0286,  ..., -0.0685, -0.0423, -0.0648],
+        [ 0.0094, -0.0098, -0.0108,  ...,  0.0451,  0.0469, -0.0016],
+        [-0.0445,  0.0128, -0.0598,  ...,  0.0368,  0.0075,  0.0105],
+        ...,
+        [-0.0483, -0.0320, -0.0504,  ..., -0.0045, -0.0317,  0.0454],
+        [ 0.0531,  0.0002,  0.0070,  ..., -0.0143, -0.0457,  0.0015],
+        [-0.0759,  0.0050,  0.0179,  ..., -0.0723,  0.0105, -0.0427]],
+       device='cuda:0'), grad: tensor([[ 2.3991e-06,  2.2694e-05,  2.6196e-05,  ...,  1.5259e-04,
+          6.4611e-05, -2.2376e-04],
+        [-6.0886e-05, -8.6334e-07, -3.3927e-04,  ..., -2.0015e-04,
+         -6.5708e-04,  1.7250e-04],
+        [ 9.0823e-06, -3.3808e-04, -1.1998e-04,  ..., -2.0428e-03,
+         -8.6880e-04,  4.3154e-04],
+        ...,
+        [ 1.0148e-05, -1.7524e-04, -1.4186e-04,  ..., -1.5879e-03,
+          1.0423e-05, -1.4668e-03],
+        [-1.0923e-05,  2.7394e-04,  5.3978e-04,  ...,  1.8740e-03,
+          7.9632e-04,  8.8871e-05],
+        [ 9.2685e-06,  2.5868e-05,  6.9201e-05,  ...,  1.8370e-04,
+          2.3276e-05,  7.6294e-05]], device='cuda:0')
+Epoch 33, bias, value: tensor([-0.0072, -0.0291,  0.0094, -0.0198,  0.0136,  0.0021,  0.0184, -0.0092,
+        -0.0229,  0.0001], device='cuda:0'), grad: tensor([-0.0007, -0.0005, -0.0021,  0.0017,  0.0006, -0.0019,  0.0008, -0.0013,
+         0.0031,  0.0002], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 32, time 262.58, cls_loss 0.0348 cls_loss_mapping 0.0443 cls_loss_causal 0.7970 re_mapping 0.0225 re_causal 0.0618 /// teacc 98.35 lr 0.00010000
+Epoch 34, weight, value: tensor([[ 0.0092, -0.0656, -0.0295,  ..., -0.0692, -0.0425, -0.0667],
+        [ 0.0090, -0.0097, -0.0104,  ...,  0.0457,  0.0479, -0.0020],
+        [-0.0446,  0.0140, -0.0600,  ...,  0.0370,  0.0076,  0.0105],
+        ...,
+        [-0.0483, -0.0324, -0.0509,  ..., -0.0050, -0.0332,  0.0457],
+        [ 0.0531, -0.0007,  0.0070,  ..., -0.0143, -0.0466,  0.0012],
+        [-0.0763,  0.0058,  0.0177,  ..., -0.0728,  0.0116, -0.0436]],
+       device='cuda:0'), grad: tensor([[ 1.4409e-05,  4.8578e-06,  1.2450e-05,  ...,  4.8310e-05,
+          2.1696e-05,  2.4661e-05],
+        [ 1.9744e-05,  1.9193e-05, -1.8156e-04,  ...,  2.3258e-04,
+         -1.3638e-04,  1.3924e-04],
+        [ 5.7310e-05, -1.5363e-05,  5.3853e-05,  ..., -1.5354e-03,
+         -1.2226e-03, -2.8825e-04],
+        ...,
+        [-2.1851e-04, -5.9873e-05, -3.5316e-05,  ...,  2.1899e-04,
+          9.8705e-04, -4.1461e-04],
+        [ 1.6764e-05,  6.4038e-06,  9.2238e-06,  ...,  5.0932e-05,
+          1.1241e-04,  4.0740e-05],
+        [ 3.8087e-05,  1.2472e-05,  1.2383e-05,  ...,  1.3828e-04,
+         -4.6104e-05,  1.0234e-04]], device='cuda:0')
+Epoch 34, bias, value: tensor([-0.0072, -0.0288,  0.0095, -0.0195,  0.0136,  0.0024,  0.0181, -0.0094,
+        -0.0234,  0.0001], device='cuda:0'), grad: tensor([-6.0177e-04,  2.6250e-04, -1.0777e-03,  9.2506e-04, -8.2779e-03,
+         7.2765e-04,  6.9737e-05,  7.5493e-03,  3.1543e-04,  1.0788e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 33, time 262.07, cls_loss 0.0319 cls_loss_mapping 0.0387 cls_loss_causal 0.7821 re_mapping 0.0226 re_causal 0.0613 /// teacc 98.25 lr 0.00010000
+Epoch 35, weight, value: tensor([[ 0.0099, -0.0654, -0.0302,  ..., -0.0696, -0.0431, -0.0682],
+        [ 0.0087, -0.0097, -0.0097,  ...,  0.0462,  0.0488, -0.0025],
+        [-0.0445,  0.0148, -0.0608,  ...,  0.0376,  0.0083,  0.0105],
+        ...,
+        [-0.0492, -0.0325, -0.0512,  ..., -0.0053, -0.0346,  0.0464],
+        [ 0.0536, -0.0010,  0.0075,  ..., -0.0140, -0.0470,  0.0014],
+        [-0.0770,  0.0055,  0.0172,  ..., -0.0739,  0.0119, -0.0449]],
+       device='cuda:0'), grad: tensor([[ 5.0634e-05, -1.6019e-05,  3.9697e-04,  ...,  3.9792e-04,
+          2.9221e-05,  3.7044e-05],
+        [ 1.8343e-05,  1.1399e-05,  1.0377e-04,  ...,  2.0337e-04,
+         -2.9132e-05,  5.1349e-05],
+        [ 1.4675e-04, -2.6315e-05,  4.2629e-04,  ...,  8.5926e-04,
+          2.0519e-05,  2.8920e-04],
+        ...,
+        [-7.0892e-06,  1.5765e-05, -4.0144e-05,  ..., -1.3714e-03,
+          1.9717e-04, -7.1144e-04],
+        [-4.9686e-04,  5.1856e-06, -8.9264e-04,  ..., -1.3390e-03,
+          4.8488e-05,  2.8342e-05],
+        [ 4.3094e-05,  8.1724e-07, -6.8188e-05,  ...,  3.9124e-04,
+         -1.0192e-04,  5.9426e-05]], device='cuda:0')
+Epoch 35, bias, value: tensor([-0.0064, -0.0285,  0.0098, -0.0199,  0.0135,  0.0022,  0.0178, -0.0096,
+        -0.0231, -0.0002], device='cuda:0'), grad: tensor([ 0.0004,  0.0003,  0.0012,  0.0241,  0.0001, -0.0286,  0.0041, -0.0007,
+        -0.0008, -0.0003], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 34, time 262.65, cls_loss 0.0290 cls_loss_mapping 0.0428 cls_loss_causal 0.7885 re_mapping 0.0223 re_causal 0.0620 /// teacc 98.52 lr 0.00010000
+Epoch 36, weight, value: tensor([[ 0.0098, -0.0660, -0.0314,  ..., -0.0710, -0.0437, -0.0699],
+        [ 0.0086, -0.0104, -0.0098,  ...,  0.0463,  0.0490, -0.0029],
+        [-0.0450,  0.0182, -0.0611,  ...,  0.0386,  0.0092,  0.0098],
+        ...,
+        [-0.0489, -0.0332, -0.0522,  ..., -0.0057, -0.0356,  0.0472],
+        [ 0.0544, -0.0027,  0.0086,  ..., -0.0135, -0.0482,  0.0015],
+        [-0.0782,  0.0055,  0.0172,  ..., -0.0744,  0.0130, -0.0451]],
+       device='cuda:0'), grad: tensor([[ 1.2212e-05,  2.7064e-06,  3.5554e-05,  ...,  2.9817e-05,
+          2.9638e-05, -7.8557e-07],
+        [-2.2113e-05,  5.4948e-06, -6.7770e-05,  ..., -4.3541e-05,
+         -3.3712e-04,  6.1952e-06],
+        [ 6.2704e-05, -2.4050e-05,  1.8704e-04,  ...,  1.9526e-04,
+          2.2441e-05,  1.2450e-05],
+        ...,
+        [ 2.4974e-05,  1.3664e-05, -7.3671e-05,  ..., -1.2960e-03,
+          1.4031e-04, -3.1590e-05],
+        [-6.3717e-05, -6.8210e-06, -3.0947e-04,  ..., -3.1757e-04,
+          2.3293e-04,  1.1787e-05],
+        [ 4.7147e-05,  1.3532e-06, -2.9135e-04,  ...,  6.8665e-04,
+         -1.4172e-03,  2.6356e-06]], device='cuda:0')
+Epoch 36, bias, value: tensor([-0.0067, -0.0288,  0.0105, -0.0203,  0.0131,  0.0023,  0.0175, -0.0095,
+        -0.0228,  0.0001], device='cuda:0'), grad: tensor([ 3.8683e-05, -2.7990e-04,  2.4390e-04,  1.0376e-03,  1.7805e-03,
+        -6.6519e-05,  1.9515e-04, -1.6413e-03, -2.2161e-04, -1.0853e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 35, time 262.24, cls_loss 0.0240 cls_loss_mapping 0.0323 cls_loss_causal 0.7610 re_mapping 0.0206 re_causal 0.0588 /// teacc 98.37 lr 0.00010000
+Epoch 37, weight, value: tensor([[ 0.0099, -0.0665, -0.0321,  ..., -0.0721, -0.0440, -0.0702],
+        [ 0.0085, -0.0100, -0.0093,  ...,  0.0467,  0.0499, -0.0035],
+        [-0.0454,  0.0186, -0.0623,  ...,  0.0384,  0.0091,  0.0095],
+        ...,
+        [-0.0491, -0.0341, -0.0523,  ..., -0.0054, -0.0364,  0.0484],
+        [ 0.0549, -0.0017,  0.0089,  ..., -0.0133, -0.0492,  0.0011],
+        [-0.0792,  0.0053,  0.0167,  ..., -0.0755,  0.0132, -0.0466]],
+       device='cuda:0'), grad: tensor([[ 1.4231e-05,  1.5303e-05,  3.1590e-05,  ...,  4.5598e-05,
+          2.9311e-05,  7.2308e-06],
+        [ 5.8293e-05,  5.8800e-05,  2.5439e-04,  ...,  3.4070e-04,
+          3.1471e-05,  3.5197e-05],
+        [ 7.8678e-05, -1.7178e-04,  1.0556e-04,  ..., -9.6917e-05,
+         -1.4770e-04,  8.4341e-05],
+        ...,
+        [-2.5257e-05, -8.6352e-06,  6.6662e-04,  ...,  2.9469e-04,
+          5.0843e-05, -2.7680e-04],
+        [ 8.8394e-05,  3.6776e-05,  3.0994e-04,  ...,  2.0039e-04,
+          1.6713e-04,  9.8422e-06],
+        [ 3.9983e-04,  7.9796e-06,  1.0519e-03,  ...,  9.3889e-04,
+         -7.8976e-05,  7.2777e-05]], device='cuda:0')
+Epoch 37, bias, value: tensor([-0.0066, -0.0283,  0.0101, -0.0199,  0.0132,  0.0020,  0.0180, -0.0096,
+        -0.0230, -0.0004], device='cuda:0'), grad: tensor([ 7.6115e-05,  3.9768e-04, -1.3657e-05, -2.3880e-03,  1.7309e-04,
+         7.3075e-05,  1.1069e-04,  3.1304e-04,  5.6458e-04,  6.9332e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 36, time 262.20, cls_loss 0.0231 cls_loss_mapping 0.0312 cls_loss_causal 0.7677 re_mapping 0.0210 re_causal 0.0595 /// teacc 98.45 lr 0.00010000
+Epoch 38, weight, value: tensor([[ 0.0095, -0.0680, -0.0331,  ..., -0.0728, -0.0446, -0.0709],
+        [ 0.0083, -0.0119, -0.0095,  ...,  0.0464,  0.0499, -0.0045],
+        [-0.0457,  0.0208, -0.0623,  ...,  0.0389,  0.0102,  0.0093],
+        ...,
+        [-0.0487, -0.0345, -0.0519,  ..., -0.0049, -0.0374,  0.0498],
+        [ 0.0551, -0.0012,  0.0091,  ..., -0.0134, -0.0499,  0.0007],
+        [-0.0792,  0.0056,  0.0166,  ..., -0.0762,  0.0134, -0.0478]],
+       device='cuda:0'), grad: tensor([[ 3.6448e-05, -5.7109e-06,  6.2644e-05,  ...,  1.8167e-04,
+          1.1545e-04,  4.5747e-06],
+        [ 2.9683e-05, -1.9062e-04, -1.1778e-03,  ..., -1.3657e-03,
+         -1.8549e-03, -9.0837e-05],
+        [-9.1028e-04,  4.2349e-05, -6.3133e-04,  ..., -6.1378e-03,
+         -1.4839e-03, -8.8274e-05],
+        ...,
+        [ 9.1612e-05,  2.1040e-05,  1.5059e-03,  ...,  1.7366e-03,
+          1.8206e-03,  7.5996e-05],
+        [-8.4925e-04, -3.4839e-05, -4.9829e-04,  ..., -1.1988e-03,
+         -7.5758e-05,  2.6181e-05],
+        [ 4.1223e-04,  5.2273e-05, -6.0749e-04,  ...,  4.0621e-05,
+         -7.7581e-04,  1.8510e-07]], device='cuda:0')
+Epoch 38, bias, value: tensor([-0.0070, -0.0287,  0.0104, -0.0202,  0.0131,  0.0023,  0.0180, -0.0090,
+        -0.0231, -0.0004], device='cuda:0'), grad: tensor([ 0.0003, -0.0018, -0.0051,  0.0065,  0.0007,  0.0007, -0.0002,  0.0035,
+        -0.0044, -0.0002], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 37, time 262.27, cls_loss 0.0274 cls_loss_mapping 0.0372 cls_loss_causal 0.7886 re_mapping 0.0199 re_causal 0.0571 /// teacc 98.49 lr 0.00010000
+Epoch 39, weight, value: tensor([[ 0.0094, -0.0696, -0.0339,  ..., -0.0738, -0.0451, -0.0716],
+        [ 0.0091, -0.0125, -0.0087,  ...,  0.0466,  0.0505, -0.0046],
+        [-0.0467,  0.0223, -0.0632,  ...,  0.0390,  0.0104,  0.0085],
+        ...,
+        [-0.0491, -0.0350, -0.0521,  ..., -0.0052, -0.0382,  0.0506],
+        [ 0.0554, -0.0015,  0.0100,  ..., -0.0127, -0.0507,  0.0015],
+        [-0.0799,  0.0066,  0.0160,  ..., -0.0767,  0.0144, -0.0494]],
+       device='cuda:0'), grad: tensor([[ 2.2557e-06,  5.9843e-05,  2.9683e-05,  ...,  7.0035e-05,
+          1.8787e-04,  3.2634e-06],
+        [ 1.3523e-05,  1.4174e-04,  1.0777e-03,  ...,  1.8930e-04,
+          2.3060e-03,  1.4909e-05],
+        [ 2.8864e-05, -9.0456e-04,  1.5628e-04,  ..., -5.6744e-04,
+         -2.4872e-03,  2.5854e-05],
+        ...,
+        [-8.0347e-04, -1.0788e-05, -1.7281e-03,  ..., -1.3304e-03,
+         -3.0403e-03, -1.4114e-04],
+        [ 5.3078e-05, -2.1911e-04, -9.1553e-04,  ..., -5.5122e-04,
+         -1.6594e-04,  5.4479e-05],
+        [ 7.2527e-04,  2.1505e-04,  1.4029e-03,  ...,  1.9321e-03,
+          8.1301e-04,  2.0459e-05]], device='cuda:0')
+Epoch 39, bias, value: tensor([-0.0073, -0.0286,  0.0102, -0.0201,  0.0125,  0.0022,  0.0176, -0.0085,
+        -0.0226, -0.0003], device='cuda:0'), grad: tensor([ 0.0002,  0.0026, -0.0014, -0.0003,  0.0010,  0.0001,  0.0009, -0.0234,
+        -0.0015,  0.0218], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 38, time 262.34, cls_loss 0.0265 cls_loss_mapping 0.0396 cls_loss_causal 0.7396 re_mapping 0.0201 re_causal 0.0566 /// teacc 98.49 lr 0.00010000
+Epoch 40, weight, value: tensor([[ 0.0107, -0.0706, -0.0341,  ..., -0.0740, -0.0451, -0.0723],
+        [ 0.0082, -0.0125, -0.0084,  ...,  0.0465,  0.0503, -0.0049],
+        [-0.0465,  0.0235, -0.0643,  ...,  0.0391,  0.0109,  0.0080],
+        ...,
+        [-0.0491, -0.0358, -0.0527,  ..., -0.0053, -0.0391,  0.0512],
+        [ 0.0557, -0.0024,  0.0102,  ..., -0.0127, -0.0516,  0.0012],
+        [-0.0799,  0.0064,  0.0166,  ..., -0.0771,  0.0153, -0.0502]],
+       device='cuda:0'), grad: tensor([[ 3.7309e-06,  2.4736e-05,  4.0293e-05,  ...,  8.5890e-05,
+          8.2135e-05,  1.2256e-06],
+        [ 1.7017e-05, -1.1330e-03,  2.4834e-03,  ..., -5.4970e-03,
+         -3.9444e-03,  1.7971e-05],
+        [ 7.0296e-06,  9.4271e-04,  5.0694e-05,  ...,  5.7106e-03,
+          4.6005e-03,  7.7188e-06],
+        ...,
+        [-1.3448e-05,  4.3124e-05,  1.3202e-05,  ..., -5.6654e-05,
+          2.0361e-04, -1.9789e-04],
+        [ 1.8194e-05,  5.9813e-05,  8.6498e-04,  ...,  5.4169e-04,
+          5.6887e-04,  7.8797e-05],
+        [ 1.1362e-05,  2.0340e-05,  3.5644e-04,  ...,  3.5572e-04,
+          3.7098e-04,  5.2452e-05]], device='cuda:0')
+Epoch 40, bias, value: tensor([-0.0071, -0.0289,  0.0101, -0.0200,  0.0125,  0.0019,  0.0176, -0.0088,
+        -0.0229,  0.0006], device='cuda:0'), grad: tensor([ 0.0001, -0.0032,  0.0062,  0.0032, -0.0003, -0.0085,  0.0003, -0.0002,
+         0.0021,  0.0003], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 39----------------------------------------------------
+epoch 39, time 280.55, cls_loss 0.0220 cls_loss_mapping 0.0311 cls_loss_causal 0.7567 re_mapping 0.0193 re_causal 0.0572 /// teacc 98.60 lr 0.00010000
+Epoch 41, weight, value: tensor([[ 0.0106, -0.0714, -0.0349,  ..., -0.0747, -0.0455, -0.0736],
+        [ 0.0092, -0.0129, -0.0090,  ...,  0.0459,  0.0505, -0.0060],
+        [-0.0467,  0.0251, -0.0649,  ...,  0.0395,  0.0114,  0.0078],
+        ...,
+        [-0.0507, -0.0368, -0.0520,  ..., -0.0050, -0.0396,  0.0518],
+        [ 0.0559, -0.0025,  0.0107,  ..., -0.0125, -0.0518,  0.0008],
+        [-0.0806,  0.0060,  0.0162,  ..., -0.0778,  0.0154, -0.0511]],
+       device='cuda:0'), grad: tensor([[-3.0208e-04,  2.4885e-05,  1.2803e-04,  ...,  1.1152e-04,
+         -3.7842e-03,  6.1765e-06],
+        [ 7.2896e-05,  9.0301e-06,  5.2929e-04,  ...,  1.4830e-04,
+          1.4162e-04,  2.2411e-04],
+        [ 7.7248e-05, -6.9916e-05,  9.9480e-05,  ..., -1.0335e-04,
+         -4.4256e-05,  1.5751e-05],
+        ...,
+        [ 1.2927e-06,  1.7717e-05, -3.1700e-03,  ..., -5.0497e-04,
+          8.3208e-05, -1.4772e-03],
+        [-5.2452e-04, -5.7638e-05, -6.6948e-04,  ..., -5.5647e-04,
+          1.2302e-04,  1.4886e-05],
+        [ 2.0564e-05,  5.4874e-06,  2.2049e-03,  ...,  3.6383e-04,
+         -1.4484e-04,  1.0357e-03]], device='cuda:0')
+Epoch 41, bias, value: tensor([-7.2204e-03, -2.8990e-02,  1.0248e-02, -1.9564e-02,  1.3015e-02,
+         2.1794e-03,  1.6977e-02, -8.7730e-03, -2.2834e-02, -2.4634e-05],
+       device='cuda:0'), grad: tensor([-8.8577e-03,  1.5793e-03,  9.6083e-05,  8.4448e-04,  1.1358e-03,
+         2.7204e-04,  7.7362e-03, -7.5455e-03, -8.0299e-04,  5.5504e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 40, time 262.33, cls_loss 0.0192 cls_loss_mapping 0.0284 cls_loss_causal 0.7486 re_mapping 0.0181 re_causal 0.0551 /// teacc 98.58 lr 0.00010000
+Epoch 42, weight, value: tensor([[ 0.0109, -0.0719, -0.0355,  ..., -0.0752, -0.0460, -0.0745],
+        [ 0.0096, -0.0134, -0.0086,  ...,  0.0461,  0.0507, -0.0064],
+        [-0.0471,  0.0260, -0.0658,  ...,  0.0394,  0.0113,  0.0071],
+        ...,
+        [-0.0507, -0.0371, -0.0518,  ..., -0.0048, -0.0403,  0.0529],
+        [ 0.0559, -0.0036,  0.0108,  ..., -0.0127, -0.0528,  0.0001],
+        [-0.0812,  0.0045,  0.0162,  ..., -0.0787,  0.0161, -0.0520]],
+       device='cuda:0'), grad: tensor([[ 6.3442e-06,  2.3663e-05,  3.5554e-05,  ...,  3.7640e-05,
+         -2.8357e-05, -5.3309e-06],
+        [-7.6145e-06,  4.4727e-04, -4.4131e-04,  ...,  4.6301e-04,
+         -9.4116e-05,  1.3806e-05],
+        [ 3.5584e-05, -2.3556e-03,  6.8188e-05,  ..., -1.5030e-03,
+         -3.0651e-03,  3.5856e-06],
+        ...,
+        [ 7.6229e-07,  7.2956e-05, -2.8658e-04,  ...,  1.8120e-05,
+          3.1185e-04, -4.8923e-04],
+        [ 2.8059e-05,  7.7844e-05,  2.6798e-04,  ...,  1.8501e-04,
+          5.5313e-04,  9.8720e-06],
+        [ 2.2277e-05,  5.2378e-06,  3.1757e-04,  ...,  1.6916e-04,
+         -3.2991e-05,  3.2783e-04]], device='cuda:0')
+Epoch 42, bias, value: tensor([-7.5196e-03, -2.9081e-02,  9.6837e-03, -1.9521e-02,  1.2586e-02,
+         2.6258e-03,  1.7738e-02, -8.3705e-03, -2.3273e-02,  8.4240e-05],
+       device='cuda:0'), grad: tensor([-3.2210e-04, -1.6034e-04, -2.6398e-03,  3.9071e-05,  5.3835e-04,
+         1.2708e-04,  1.5869e-03, -4.8971e-04,  7.4387e-04,  5.7745e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 41, time 262.33, cls_loss 0.0250 cls_loss_mapping 0.0346 cls_loss_causal 0.7460 re_mapping 0.0184 re_causal 0.0515 /// teacc 98.38 lr 0.00010000
+Epoch 43, weight, value: tensor([[ 0.0109, -0.0737, -0.0363,  ..., -0.0760, -0.0459, -0.0754],
+        [ 0.0100, -0.0132, -0.0083,  ...,  0.0462,  0.0515, -0.0072],
+        [-0.0483,  0.0280, -0.0668,  ...,  0.0400,  0.0116,  0.0072],
+        ...,
+        [-0.0508, -0.0386, -0.0517,  ..., -0.0052, -0.0410,  0.0528],
+        [ 0.0561, -0.0037,  0.0105,  ..., -0.0131, -0.0541, -0.0007],
+        [-0.0826,  0.0034,  0.0157,  ..., -0.0794,  0.0161, -0.0528]],
+       device='cuda:0'), grad: tensor([[ 2.1994e-05,  8.9407e-06,  7.6652e-05,  ...,  3.0935e-05,
+          5.9456e-06,  4.9733e-07],
+        [ 7.2792e-06,  1.6198e-05,  1.8328e-05,  ...,  3.8892e-05,
+         -6.5453e-06,  9.6485e-06],
+        [ 1.4879e-05, -6.5148e-05,  7.0810e-05,  ...,  1.5423e-05,
+         -5.7638e-05,  6.0871e-06],
+        ...,
+        [ 4.4435e-05,  9.6560e-06,  2.8591e-03,  ...,  4.0512e-03,
+          3.9160e-05,  8.4496e-04],
+        [ 7.1049e-05, -3.7178e-06, -3.3112e-03,  ..., -4.5319e-03,
+          5.9187e-05, -9.2936e-04],
+        [ 8.4758e-05,  6.7912e-06, -1.9878e-05,  ...,  8.5533e-05,
+          8.7976e-05,  8.4490e-06]], device='cuda:0')
+Epoch 43, bias, value: tensor([-0.0076, -0.0290,  0.0101, -0.0188,  0.0130,  0.0026,  0.0180, -0.0086,
+        -0.0239, -0.0007], device='cuda:0'), grad: tensor([ 3.5226e-05,  9.3937e-05,  5.2750e-05,  5.7220e-04, -4.0340e-04,
+        -5.3596e-04,  2.3985e-04,  3.8757e-03, -4.1275e-03,  1.9801e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 42, time 262.40, cls_loss 0.0207 cls_loss_mapping 0.0305 cls_loss_causal 0.7319 re_mapping 0.0183 re_causal 0.0514 /// teacc 98.59 lr 0.00010000
+Epoch 44, weight, value: tensor([[ 0.0108, -0.0745, -0.0370,  ..., -0.0763, -0.0464, -0.0758],
+        [ 0.0103, -0.0132, -0.0077,  ...,  0.0466,  0.0524, -0.0074],
+        [-0.0483,  0.0288, -0.0676,  ...,  0.0401,  0.0116,  0.0068],
+        ...,
+        [-0.0519, -0.0377, -0.0517,  ..., -0.0047, -0.0414,  0.0536],
+        [ 0.0563, -0.0046,  0.0111,  ..., -0.0129, -0.0547, -0.0008],
+        [-0.0839,  0.0027,  0.0155,  ..., -0.0806,  0.0163, -0.0534]],
+       device='cuda:0'), grad: tensor([[ 9.9614e-06,  9.0105e-08,  9.7603e-06,  ...,  7.8902e-06,
+         -4.5657e-05,  7.3388e-06],
+        [ 1.0401e-05,  1.6298e-09,  1.0081e-05,  ...,  2.9653e-05,
+         -3.2433e-07,  2.5809e-05],
+        [ 2.2233e-05,  1.6298e-09,  6.5207e-05,  ...,  1.3077e-04,
+          2.7582e-05,  6.2346e-05],
+        ...,
+        [-4.3005e-05,  2.3283e-10,  2.2292e-05,  ..., -1.8024e-04,
+          1.8775e-04, -1.5295e-04],
+        [ 1.7345e-05,  1.6997e-08,  6.1572e-05,  ...,  5.6893e-05,
+          5.1737e-05,  1.9416e-05],
+        [ 8.6129e-06,  6.9849e-10, -2.9564e-04,  ..., -7.9691e-05,
+         -6.2943e-04, -4.0203e-05]], device='cuda:0')
+Epoch 44, bias, value: tensor([-0.0073, -0.0289,  0.0097, -0.0189,  0.0131,  0.0025,  0.0182, -0.0084,
+        -0.0239, -0.0008], device='cuda:0'), grad: tensor([-1.6129e-04,  6.2704e-05,  1.9932e-04,  1.6177e-04,  7.3338e-04,
+         6.5625e-05,  8.3372e-06,  2.8586e-04,  2.1064e-04, -1.5669e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 43, time 262.19, cls_loss 0.0196 cls_loss_mapping 0.0292 cls_loss_causal 0.7307 re_mapping 0.0180 re_causal 0.0509 /// teacc 98.56 lr 0.00010000
+Epoch 45, weight, value: tensor([[ 0.0108, -0.0752, -0.0374,  ..., -0.0768, -0.0469, -0.0763],
+        [ 0.0103, -0.0147, -0.0073,  ...,  0.0466,  0.0527, -0.0069],
+        [-0.0484,  0.0310, -0.0679,  ...,  0.0407,  0.0122,  0.0064],
+        ...,
+        [-0.0516, -0.0380, -0.0526,  ..., -0.0048, -0.0429,  0.0540],
+        [ 0.0560, -0.0049,  0.0112,  ..., -0.0131, -0.0555, -0.0011],
+        [-0.0842,  0.0015,  0.0157,  ..., -0.0810,  0.0163, -0.0539]],
+       device='cuda:0'), grad: tensor([[ 6.9290e-06,  4.6268e-06,  1.6898e-05,  ...,  2.0012e-05,
+          4.5031e-05,  8.9407e-08],
+        [ 3.7383e-06,  3.5733e-05, -1.9416e-05,  ...,  8.4937e-05,
+          4.6283e-05, -1.1288e-06],
+        [ 6.9201e-05, -2.1470e-04,  4.5180e-05,  ..., -5.0259e-04,
+         -4.6229e-04, -4.1444e-07],
+        ...,
+        [ 5.8748e-06,  5.4687e-05,  2.6017e-05,  ...,  9.6381e-05,
+          1.0943e-04, -1.0822e-06],
+        [ 7.1943e-05,  9.6798e-05,  2.0492e-04,  ...,  5.0449e-04,
+          3.5739e-04,  2.7521e-07],
+        [ 2.6703e-05,  2.0228e-06,  3.7432e-05,  ...,  5.4359e-05,
+          1.5065e-05,  1.2657e-06]], device='cuda:0')
+Epoch 45, bias, value: tensor([-0.0076, -0.0289,  0.0101, -0.0186,  0.0136,  0.0022,  0.0181, -0.0088,
+        -0.0243, -0.0005], device='cuda:0'), grad: tensor([ 9.2447e-05,  6.9082e-05, -4.7660e-04, -2.7442e-04,  6.7592e-05,
+         6.9094e-04, -1.1997e-03,  1.5330e-04,  8.0442e-04,  7.2241e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 44, time 261.28, cls_loss 0.0216 cls_loss_mapping 0.0293 cls_loss_causal 0.7246 re_mapping 0.0179 re_causal 0.0507 /// teacc 98.52 lr 0.00010000
+Epoch 46, weight, value: tensor([[ 0.0108, -0.0758, -0.0372,  ..., -0.0769, -0.0469, -0.0785],
+        [ 0.0099, -0.0152, -0.0070,  ...,  0.0466,  0.0531, -0.0069],
+        [-0.0487,  0.0319, -0.0686,  ...,  0.0405,  0.0121,  0.0058],
+        ...,
+        [-0.0522, -0.0375, -0.0530,  ..., -0.0046, -0.0431,  0.0547],
+        [ 0.0563, -0.0053,  0.0117,  ..., -0.0128, -0.0561, -0.0011],
+        [-0.0845,  0.0012,  0.0156,  ..., -0.0816,  0.0168, -0.0544]],
+       device='cuda:0'), grad: tensor([[ 1.1045e-06,  2.7884e-06,  4.7758e-06,  ...,  1.0207e-05,
+         -1.6764e-05, -1.6287e-05],
+        [ 2.9430e-06,  7.4327e-05,  1.3685e-04,  ...,  3.1447e-04,
+          9.7454e-05,  1.8036e-04],
+        [ 5.9344e-06, -4.0197e-04, -1.1042e-05,  ..., -7.1001e-04,
+         -6.0654e-04,  2.1458e-05],
+        ...,
+        [ 5.0515e-06,  3.1114e-05, -2.0552e-04,  ..., -2.3675e-04,
+          5.0485e-05, -3.3522e-04],
+        [ 6.0722e-06,  2.5892e-04,  1.6257e-05,  ...,  4.7827e-04,
+          4.0579e-04,  3.0696e-05],
+        [ 4.1053e-06,  3.5930e-06,  2.4706e-05,  ...,  3.2246e-05,
+          2.7016e-05,  3.1322e-05]], device='cuda:0')
+Epoch 46, bias, value: tensor([-0.0076, -0.0289,  0.0096, -0.0185,  0.0135,  0.0025,  0.0181, -0.0085,
+        -0.0245, -0.0004], device='cuda:0'), grad: tensor([-3.9172e-04,  5.6648e-04, -8.8072e-04,  7.6532e-05,  1.9640e-05,
+         1.2946e-04,  1.2779e-04, -5.7411e-04,  7.1859e-04,  2.0754e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 45, time 256.89, cls_loss 0.0170 cls_loss_mapping 0.0233 cls_loss_causal 0.7125 re_mapping 0.0177 re_causal 0.0495 /// teacc 98.60 lr 0.00010000
+Epoch 47, weight, value: tensor([[ 0.0107, -0.0769, -0.0376,  ..., -0.0774, -0.0477, -0.0796],
+        [ 0.0099, -0.0162, -0.0064,  ...,  0.0468,  0.0531, -0.0077],
+        [-0.0489,  0.0333, -0.0691,  ...,  0.0407,  0.0127,  0.0054],
+        ...,
+        [-0.0521, -0.0381, -0.0534,  ..., -0.0046, -0.0436,  0.0557],
+        [ 0.0565, -0.0055,  0.0119,  ..., -0.0127, -0.0566, -0.0014],
+        [-0.0846,  0.0007,  0.0152,  ..., -0.0823,  0.0174, -0.0550]],
+       device='cuda:0'), grad: tensor([[ 1.6391e-04,  2.9936e-05,  3.3307e-04,  ...,  2.2149e-04,
+          2.3711e-04,  1.0759e-05],
+        [-1.6940e-04,  2.3112e-05, -9.0265e-04,  ..., -6.1464e-04,
+         -1.3409e-03,  6.5267e-05],
+        [ 3.4750e-05, -6.5684e-05,  1.2600e-04,  ...,  4.5395e-04,
+          4.6134e-04,  1.4668e-03],
+        ...,
+        [ 2.1502e-05,  9.3430e-06,  1.9228e-04,  ..., -5.4741e-04,
+         -3.4571e-04, -2.3041e-03],
+        [-5.2414e-03, -6.5506e-05, -8.6060e-03,  ..., -5.3596e-03,
+          1.0157e-04,  2.3529e-05],
+        [ 8.5711e-05,  3.0175e-05,  2.1398e-04,  ...,  1.8251e-04,
+          1.2124e-04,  8.1658e-05]], device='cuda:0')
+Epoch 47, bias, value: tensor([-0.0079, -0.0290,  0.0096, -0.0185,  0.0137,  0.0023,  0.0184, -0.0085,
+        -0.0245, -0.0004], device='cuda:0'), grad: tensor([ 0.0009, -0.0022,  0.0029,  0.0013,  0.0011,  0.0232,  0.0009, -0.0036,
+        -0.0253,  0.0008], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 46, time 261.47, cls_loss 0.0195 cls_loss_mapping 0.0279 cls_loss_causal 0.7324 re_mapping 0.0171 re_causal 0.0502 /// teacc 98.50 lr 0.00010000
+Epoch 48, weight, value: tensor([[ 0.0106, -0.0781, -0.0389,  ..., -0.0783, -0.0485, -0.0804],
+        [ 0.0096, -0.0177, -0.0065,  ...,  0.0465,  0.0531, -0.0084],
+        [-0.0487,  0.0352, -0.0700,  ...,  0.0410,  0.0135,  0.0054],
+        ...,
+        [-0.0523, -0.0399, -0.0535,  ..., -0.0049, -0.0440,  0.0564],
+        [ 0.0572, -0.0049,  0.0127,  ..., -0.0121, -0.0573, -0.0018],
+        [-0.0842, -0.0002,  0.0152,  ..., -0.0830,  0.0174, -0.0564]],
+       device='cuda:0'), grad: tensor([[ 2.1482e-04,  1.9968e-05,  1.9856e-06,  ...,  1.9324e-04,
+          3.4273e-05,  7.5717e-07],
+        [ 1.2741e-03,  4.5300e-04,  4.2319e-06,  ...,  1.3456e-03,
+          1.9944e-04,  6.3963e-06],
+        [-7.7858e-03, -2.3537e-03, -1.7449e-05,  ..., -7.1335e-03,
+         -4.7493e-04,  9.2611e-06],
+        ...,
+        [ 4.5700e-03,  1.2999e-03,  6.2771e-06,  ...,  3.9101e-03,
+          2.3782e-04, -4.0382e-05],
+        [ 3.9744e-04,  1.3685e-04, -1.3098e-05,  ...,  3.8767e-04,
+          6.3837e-05,  2.7493e-06],
+        [ 2.2089e-04,  7.5579e-05, -2.3786e-06,  ...,  2.1291e-04,
+         -1.2648e-04,  1.6987e-05]], device='cuda:0')
+Epoch 48, bias, value: tensor([-0.0084, -0.0294,  0.0094, -0.0182,  0.0141,  0.0021,  0.0187, -0.0084,
+        -0.0240, -0.0007], device='cuda:0'), grad: tensor([-5.1439e-05,  2.0809e-03, -1.1047e-02,  1.4257e-03,  2.7680e-04,
+         2.4772e-04,  6.9737e-05,  6.0272e-03,  6.7139e-04,  3.0017e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 47, time 262.21, cls_loss 0.0222 cls_loss_mapping 0.0301 cls_loss_causal 0.7183 re_mapping 0.0173 re_causal 0.0468 /// teacc 98.50 lr 0.00010000
+Epoch 49, weight, value: tensor([[ 0.0108, -0.0788, -0.0389,  ..., -0.0788, -0.0484, -0.0815],
+        [ 0.0099, -0.0185, -0.0064,  ...,  0.0461,  0.0530, -0.0092],
+        [-0.0474,  0.0367, -0.0703,  ...,  0.0417,  0.0145,  0.0052],
+        ...,
+        [-0.0536, -0.0403, -0.0534,  ..., -0.0047, -0.0451,  0.0574],
+        [ 0.0572, -0.0054,  0.0127,  ..., -0.0123, -0.0588, -0.0021],
+        [-0.0844, -0.0008,  0.0152,  ..., -0.0833,  0.0178, -0.0580]],
+       device='cuda:0'), grad: tensor([[ 1.7881e-07,  5.4836e-06,  1.1927e-04,  ...,  6.9141e-05,
+          2.0111e-04,  1.3754e-05],
+        [ 3.9674e-07,  4.2051e-05, -5.8441e-03,  ..., -2.9831e-03,
+         -6.8016e-03, -1.7214e-03],
+        [ 4.8522e-07,  1.6749e-05,  1.9014e-04,  ...,  1.4555e-04,
+          2.2388e-04,  2.0370e-05],
+        ...,
+        [ 3.7672e-07, -9.4920e-06,  2.3899e-03,  ...,  1.6575e-03,
+          2.8362e-03,  1.0176e-03],
+        [ 6.8499e-07, -2.5082e-04, -5.6314e-04,  ..., -1.7529e-03,
+          1.3199e-03,  2.1219e-05],
+        [ 1.8971e-06,  3.6117e-06,  1.5993e-03,  ...,  1.0014e-03,
+          1.1826e-03,  3.6311e-04]], device='cuda:0')
+Epoch 49, bias, value: tensor([-0.0078, -0.0300,  0.0103, -0.0184,  0.0138,  0.0027,  0.0182, -0.0083,
+        -0.0248, -0.0006], device='cuda:0'), grad: tensor([ 0.0004, -0.0130,  0.0005,  0.0007,  0.0015,  0.0019,  0.0002,  0.0047,
+        -0.0002,  0.0034], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 48, time 262.24, cls_loss 0.0158 cls_loss_mapping 0.0204 cls_loss_causal 0.7318 re_mapping 0.0166 re_causal 0.0477 /// teacc 98.56 lr 0.00010000
+Epoch 50, weight, value: tensor([[ 0.0108, -0.0800, -0.0396,  ..., -0.0796, -0.0481, -0.0821],
+        [ 0.0097, -0.0182, -0.0061,  ...,  0.0464,  0.0538, -0.0096],
+        [-0.0481,  0.0369, -0.0716,  ...,  0.0414,  0.0145,  0.0042],
+        ...,
+        [-0.0536, -0.0400, -0.0537,  ..., -0.0045, -0.0457,  0.0589],
+        [ 0.0573, -0.0049,  0.0132,  ..., -0.0118, -0.0594, -0.0019],
+        [-0.0847, -0.0014,  0.0148,  ..., -0.0843,  0.0179, -0.0595]],
+       device='cuda:0'), grad: tensor([[ 7.0333e-04,  1.6546e-04,  7.5865e-04,  ...,  1.7595e-04,
+          1.8632e-04,  2.0061e-06],
+        [ 1.1630e-05,  1.1683e-05, -4.7445e-05,  ...,  2.2426e-05,
+         -7.1943e-05,  1.8567e-05],
+        [ 3.0056e-05, -4.4441e-04,  6.3717e-05,  ..., -5.3215e-04,
+         -5.8126e-04,  1.4380e-05],
+        ...,
+        [ 5.6595e-05,  6.4194e-05,  1.0365e-04,  ...,  5.2720e-05,
+          2.8276e-04,  3.3051e-05],
+        [-7.5197e-04,  1.1855e-04, -1.2426e-03,  ..., -9.6369e-04,
+          4.7117e-05,  1.9390e-06],
+        [ 3.8886e-04,  2.1741e-05,  4.6515e-04,  ...,  1.2577e-04,
+         -2.9042e-05,  8.2180e-06]], device='cuda:0')
+Epoch 50, bias, value: tensor([-0.0078, -0.0298,  0.0097, -0.0179,  0.0138,  0.0028,  0.0182, -0.0078,
+        -0.0248, -0.0013], device='cuda:0'), grad: tensor([ 3.5591e-03,  2.1160e-05, -1.7643e-03, -1.2230e-02, -2.0117e-05,
+         1.0986e-02,  4.9067e-04,  7.8869e-04, -3.5458e-03,  1.7128e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 49, time 262.53, cls_loss 0.0181 cls_loss_mapping 0.0254 cls_loss_causal 0.6882 re_mapping 0.0166 re_causal 0.0454 /// teacc 98.53 lr 0.00010000
+Epoch 51, weight, value: tensor([[ 0.0106, -0.0825, -0.0405,  ..., -0.0803, -0.0487, -0.0829],
+        [ 0.0100, -0.0191, -0.0052,  ...,  0.0462,  0.0544, -0.0105],
+        [-0.0483,  0.0382, -0.0722,  ...,  0.0417,  0.0150,  0.0039],
+        ...,
+        [-0.0537, -0.0402, -0.0540,  ..., -0.0041, -0.0462,  0.0599],
+        [ 0.0571, -0.0051,  0.0133,  ..., -0.0118, -0.0605, -0.0022],
+        [-0.0851, -0.0013,  0.0143,  ..., -0.0848,  0.0182, -0.0601]],
+       device='cuda:0'), grad: tensor([[ 1.2830e-05,  2.0470e-06,  1.5453e-05,  ...,  2.3067e-05,
+          2.0534e-05,  3.6918e-06],
+        [ 9.0301e-06,  3.1516e-06,  7.5400e-05,  ...,  1.0133e-04,
+          8.1778e-05,  1.0991e-04],
+        [-2.0102e-05, -1.3702e-05,  3.4750e-05,  ..., -7.4208e-05,
+         -2.7448e-05, -1.1161e-05],
+        ...,
+        [ 1.1303e-05,  5.0738e-06, -1.4663e-04,  ..., -2.4390e-04,
+         -7.4983e-05, -3.2210e-04],
+        [ 5.8979e-05, -4.3213e-06,  5.9485e-05,  ...,  2.5913e-05,
+          3.3975e-05,  7.5400e-06],
+        [ 1.6272e-05,  1.1902e-06,  6.0081e-05,  ...,  1.7416e-04,
+         -2.4962e-04,  1.7798e-04]], device='cuda:0')
+Epoch 51, bias, value: tensor([-0.0084, -0.0294,  0.0097, -0.0183,  0.0133,  0.0030,  0.0191, -0.0072,
+        -0.0252, -0.0015], device='cuda:0'), grad: tensor([ 7.7069e-05,  3.1400e-04, -6.1691e-05,  1.2236e-03,  3.1042e-04,
+        -2.0657e-03,  4.5061e-04, -5.1069e-04,  2.3937e-04,  2.4036e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 50, time 262.67, cls_loss 0.0166 cls_loss_mapping 0.0233 cls_loss_causal 0.7195 re_mapping 0.0158 re_causal 0.0451 /// teacc 98.57 lr 0.00010000
+Epoch 52, weight, value: tensor([[ 0.0108, -0.0839, -0.0405,  ..., -0.0808, -0.0490, -0.0832],
+        [ 0.0098, -0.0198, -0.0049,  ...,  0.0461,  0.0544, -0.0102],
+        [-0.0488,  0.0379, -0.0730,  ...,  0.0417,  0.0154,  0.0033],
+        ...,
+        [-0.0537, -0.0408, -0.0543,  ..., -0.0041, -0.0465,  0.0605],
+        [ 0.0579, -0.0040,  0.0142,  ..., -0.0111, -0.0610, -0.0018],
+        [-0.0853, -0.0020,  0.0139,  ..., -0.0860,  0.0183, -0.0611]],
+       device='cuda:0'), grad: tensor([[ 1.5041e-07,  6.3777e-06,  3.4440e-06,  ...,  1.4111e-05,
+          2.1905e-06, -7.5474e-06],
+        [ 1.0692e-06,  7.7412e-06, -4.2319e-05,  ..., -2.3678e-05,
+         -5.4002e-05,  2.7269e-06],
+        [ 7.2131e-07, -9.7930e-05, -1.0803e-06,  ..., -2.3687e-04,
+         -1.3363e-04, -1.4096e-05],
+        ...,
+        [ 8.7311e-07,  9.2313e-06,  1.4976e-05,  ...,  1.6913e-05,
+          3.9876e-05, -9.3728e-06],
+        [ 8.2422e-07,  4.4733e-05,  4.1991e-05,  ...,  1.5521e-04,
+          1.0604e-04,  1.2852e-05],
+        [ 9.4902e-07,  1.7826e-06, -3.1471e-05,  ...,  9.7975e-06,
+         -5.3078e-05,  3.1870e-06]], device='cuda:0')
+Epoch 52, bias, value: tensor([-0.0081, -0.0294,  0.0091, -0.0184,  0.0134,  0.0034,  0.0190, -0.0074,
+        -0.0243, -0.0020], device='cuda:0'), grad: tensor([-1.6379e-04, -3.4153e-05, -2.3627e-04,  1.3351e-04,  3.0845e-05,
+        -6.5088e-05,  4.9800e-05,  1.4138e-04,  2.7728e-04, -1.3280e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 51, time 262.65, cls_loss 0.0142 cls_loss_mapping 0.0218 cls_loss_causal 0.6826 re_mapping 0.0164 re_causal 0.0465 /// teacc 98.58 lr 0.00010000
+Epoch 53, weight, value: tensor([[ 0.0105, -0.0841, -0.0408,  ..., -0.0811, -0.0486, -0.0840],
+        [ 0.0098, -0.0201, -0.0048,  ...,  0.0460,  0.0544, -0.0106],
+        [-0.0490,  0.0384, -0.0736,  ...,  0.0422,  0.0163,  0.0023],
+        ...,
+        [-0.0537, -0.0404, -0.0545,  ..., -0.0040, -0.0475,  0.0617],
+        [ 0.0580, -0.0043,  0.0142,  ..., -0.0114, -0.0620, -0.0022],
+        [-0.0853, -0.0023,  0.0139,  ..., -0.0860,  0.0191, -0.0614]],
+       device='cuda:0'), grad: tensor([[ 1.1481e-05,  3.5614e-06,  9.9242e-06,  ...,  3.8773e-05,
+          5.1826e-05,  1.3530e-05],
+        [ 6.7540e-06,  6.6776e-07, -3.4332e-04,  ..., -1.1702e-03,
+         -1.6327e-03,  8.9705e-06],
+        [ 4.1544e-05, -1.9044e-05,  3.0112e-04,  ...,  1.0099e-03,
+          1.2445e-03,  2.8685e-05],
+        ...,
+        [-1.0073e-04,  3.4757e-06,  3.7909e-05,  ..., -8.0943e-05,
+          1.0842e-04, -1.4734e-04],
+        [ 1.5467e-05,  1.5730e-06,  9.9421e-05,  ...,  1.4305e-04,
+          5.8562e-05,  2.5496e-05],
+        [ 1.3836e-05,  4.9779e-07,  3.4958e-05,  ...,  5.4032e-05,
+          4.4912e-05,  2.0519e-05]], device='cuda:0')
+Epoch 53, bias, value: tensor([-0.0077, -0.0296,  0.0093, -0.0180,  0.0137,  0.0032,  0.0182, -0.0074,
+        -0.0250, -0.0016], device='cuda:0'), grad: tensor([ 8.5771e-05, -1.7910e-03,  1.5020e-03, -3.1322e-05,  5.2713e-06,
+         3.0790e-06, -2.7269e-05, -1.1945e-04,  2.3866e-04,  1.3220e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 52----------------------------------------------------
+epoch 52, time 279.35, cls_loss 0.0159 cls_loss_mapping 0.0222 cls_loss_causal 0.6894 re_mapping 0.0159 re_causal 0.0455 /// teacc 98.65 lr 0.00010000
+Epoch 54, weight, value: tensor([[ 0.0105, -0.0848, -0.0412,  ..., -0.0818, -0.0489, -0.0846],
+        [ 0.0100, -0.0208, -0.0044,  ...,  0.0463,  0.0552, -0.0112],
+        [-0.0489,  0.0393, -0.0745,  ...,  0.0421,  0.0165,  0.0017],
+        ...,
+        [-0.0538, -0.0399, -0.0551,  ..., -0.0040, -0.0478,  0.0622],
+        [ 0.0580, -0.0047,  0.0152,  ..., -0.0106, -0.0632, -0.0011],
+        [-0.0858, -0.0026,  0.0136,  ..., -0.0867,  0.0194, -0.0609]],
+       device='cuda:0'), grad: tensor([[ 1.0924e-06,  3.7299e-07,  5.2489e-06,  ...,  8.1733e-06,
+          7.3090e-06,  2.8852e-06],
+        [ 4.4741e-06,  8.5905e-06, -2.8238e-05,  ..., -1.0328e-06,
+         -2.7195e-05,  7.7635e-06],
+        [-3.1237e-06, -5.4032e-05,  1.1575e-04,  ...,  9.4295e-05,
+         -4.2677e-05,  1.1839e-05],
+        ...,
+        [ 2.8074e-05,  4.2140e-05,  8.9586e-05,  ...,  1.3387e-04,
+          2.8276e-04, -3.9369e-05],
+        [ 1.6481e-05,  1.0701e-06,  2.3293e-04,  ...,  3.0875e-04,
+          9.5725e-05,  4.6007e-06],
+        [ 1.3568e-05,  1.2014e-07,  2.9042e-05,  ..., -7.6175e-05,
+         -1.6108e-03,  5.4985e-06]], device='cuda:0')
+Epoch 54, bias, value: tensor([-0.0076, -0.0293,  0.0089, -0.0184,  0.0138,  0.0029,  0.0182, -0.0070,
+        -0.0247, -0.0017], device='cuda:0'), grad: tensor([-1.1966e-05,  2.8927e-06,  1.1712e-04, -5.0497e-04,  2.9488e-03,
+         1.0681e-04,  2.0146e-05,  6.1560e-04,  4.0579e-04, -3.7003e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 53, time 262.87, cls_loss 0.0154 cls_loss_mapping 0.0214 cls_loss_causal 0.7139 re_mapping 0.0151 re_causal 0.0454 /// teacc 98.59 lr 0.00010000
+Epoch 55, weight, value: tensor([[ 0.0104, -0.0851, -0.0417,  ..., -0.0825, -0.0503, -0.0860],
+        [ 0.0096, -0.0215, -0.0039,  ...,  0.0466,  0.0558, -0.0111],
+        [-0.0487,  0.0404, -0.0749,  ...,  0.0422,  0.0172,  0.0017],
+        ...,
+        [-0.0543, -0.0405, -0.0556,  ..., -0.0041, -0.0492,  0.0625],
+        [ 0.0579, -0.0048,  0.0153,  ..., -0.0107, -0.0647, -0.0004],
+        [-0.0863, -0.0029,  0.0133,  ..., -0.0869,  0.0202, -0.0619]],
+       device='cuda:0'), grad: tensor([[ 1.6671e-07,  7.2867e-06,  9.5442e-06,  ...,  3.4481e-05,
+          2.8774e-05,  1.3098e-05],
+        [ 1.3988e-06,  1.0304e-05,  2.6211e-05,  ...,  4.7654e-05,
+          3.0637e-05,  2.9936e-05],
+        [ 3.3788e-06, -1.0357e-03, -1.0446e-05,  ..., -4.3755e-03,
+         -5.8441e-03,  8.6486e-05],
+        ...,
+        [ 2.4289e-06, -3.5971e-05, -2.5678e-04,  ..., -2.3413e-04,
+         -4.5657e-05, -4.8637e-04],
+        [ 1.0431e-05,  1.5378e-05,  1.9419e-04,  ...,  2.8157e-04,
+          1.3161e-04,  9.3162e-05],
+        [ 7.5670e-07,  9.8896e-04,  1.1551e-04,  ...,  4.3182e-03,
+          5.4970e-03,  1.1885e-04]], device='cuda:0')
+Epoch 55, bias, value: tensor([-0.0082, -0.0288,  0.0091, -0.0185,  0.0141,  0.0032,  0.0186, -0.0080,
+        -0.0244, -0.0016], device='cuda:0'), grad: tensor([ 5.7578e-05,  1.2743e-04, -5.2032e-03,  4.2534e-04,  1.0949e-04,
+        -7.3075e-05, -1.6212e-05, -1.1253e-03,  5.1355e-04,  5.1804e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 54, time 262.44, cls_loss 0.0153 cls_loss_mapping 0.0200 cls_loss_causal 0.6926 re_mapping 0.0151 re_causal 0.0447 /// teacc 98.57 lr 0.00010000
+Epoch 56, weight, value: tensor([[ 0.0102, -0.0857, -0.0417,  ..., -0.0832, -0.0493, -0.0870],
+        [ 0.0097, -0.0219, -0.0038,  ...,  0.0466,  0.0559, -0.0125],
+        [-0.0492,  0.0415, -0.0756,  ...,  0.0425,  0.0175,  0.0015],
+        ...,
+        [-0.0542, -0.0413, -0.0556,  ..., -0.0042, -0.0497,  0.0636],
+        [ 0.0581, -0.0055,  0.0153,  ..., -0.0110, -0.0656, -0.0010],
+        [-0.0865, -0.0035,  0.0131,  ..., -0.0879,  0.0199, -0.0632]],
+       device='cuda:0'), grad: tensor([[ 6.1840e-06,  1.6689e-06,  1.5163e-04,  ...,  4.4465e-05,
+          8.1837e-05, -1.2424e-06],
+        [-3.9488e-05,  2.2858e-05, -3.4833e-04,  ..., -5.8085e-05,
+         -2.4748e-04,  1.3679e-05],
+        [ 4.3698e-06, -6.5506e-05,  3.6180e-05,  ..., -6.7234e-05,
+         -7.0453e-05,  5.6438e-06],
+        ...,
+        [ 6.9290e-06,  3.3945e-05,  1.9044e-05,  ...,  1.3418e-05,
+          6.7174e-05, -1.3602e-04],
+        [ 7.8678e-06,  2.4866e-07, -3.7146e-04,  ..., -2.5988e-04,
+          6.9380e-05,  9.8646e-06],
+        [ 4.6492e-06,  6.0536e-07,  9.9778e-05,  ...,  1.5068e-04,
+         -3.5548e-04,  5.2303e-05]], device='cuda:0')
+Epoch 56, bias, value: tensor([-0.0071, -0.0293,  0.0092, -0.0182,  0.0138,  0.0037,  0.0181, -0.0078,
+        -0.0249, -0.0020], device='cuda:0'), grad: tensor([ 1.7715e-04, -6.1464e-04, -3.8147e-05,  2.4354e-04,  1.2255e-03,
+         1.8167e-04,  1.5891e-04, -1.3149e-04, -5.2214e-04, -6.7902e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 55, time 262.18, cls_loss 0.0170 cls_loss_mapping 0.0240 cls_loss_causal 0.7047 re_mapping 0.0150 re_causal 0.0422 /// teacc 98.51 lr 0.00010000
+Epoch 57, weight, value: tensor([[ 0.0100, -0.0868, -0.0422,  ..., -0.0839, -0.0499, -0.0877],
+        [ 0.0100, -0.0229, -0.0038,  ...,  0.0457,  0.0558, -0.0126],
+        [-0.0501,  0.0428, -0.0758,  ...,  0.0430,  0.0183,  0.0010],
+        ...,
+        [-0.0544, -0.0417, -0.0554,  ..., -0.0036, -0.0498,  0.0644],
+        [ 0.0590, -0.0051,  0.0157,  ..., -0.0103, -0.0665, -0.0006],
+        [-0.0867, -0.0037,  0.0127,  ..., -0.0888,  0.0204, -0.0641]],
+       device='cuda:0'), grad: tensor([[ 2.5220e-06,  7.8261e-05,  2.6282e-06,  ...,  1.4007e-04,
+          8.9109e-05,  5.2750e-06],
+        [-4.5776e-05,  9.1717e-06, -1.0747e-04,  ..., -5.7667e-05,
+         -8.4400e-05,  4.7296e-05],
+        [-5.3123e-06, -3.3569e-04,  1.8671e-05,  ..., -5.5933e-04,
+         -3.3069e-04,  2.4676e-05],
+        ...,
+        [ 6.6534e-06,  1.1259e-04, -1.6287e-05,  ...,  6.0350e-05,
+          7.7152e-04, -2.6083e-04],
+        [ 3.0994e-05,  6.5088e-05,  5.4389e-05,  ...,  2.0456e-04,
+          2.0874e-04,  1.9237e-05],
+        [ 3.7253e-06,  1.1966e-05,  7.7710e-06,  ...,  3.7849e-05,
+         -7.6830e-05,  2.2545e-05]], device='cuda:0')
+Epoch 57, bias, value: tensor([-0.0075, -0.0296,  0.0096, -0.0187,  0.0138,  0.0039,  0.0183, -0.0075,
+        -0.0249, -0.0019], device='cuda:0'), grad: tensor([ 3.0756e-04,  8.1122e-05, -1.0672e-03,  2.1482e-04, -3.1872e-03,
+         1.1480e-04,  1.3673e-04,  2.9964e-03,  4.8685e-04, -8.3864e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 56, time 262.51, cls_loss 0.0146 cls_loss_mapping 0.0217 cls_loss_causal 0.6835 re_mapping 0.0154 re_causal 0.0444 /// teacc 98.61 lr 0.00010000
+Epoch 58, weight, value: tensor([[ 0.0111, -0.0873, -0.0425,  ..., -0.0846, -0.0500, -0.0886],
+        [ 0.0101, -0.0245, -0.0036,  ...,  0.0456,  0.0559, -0.0137],
+        [-0.0494,  0.0446, -0.0758,  ...,  0.0438,  0.0193,  0.0008],
+        ...,
+        [-0.0546, -0.0420, -0.0555,  ..., -0.0035, -0.0504,  0.0652],
+        [ 0.0591, -0.0058,  0.0158,  ..., -0.0106, -0.0678, -0.0011],
+        [-0.0869, -0.0039,  0.0123,  ..., -0.0895,  0.0203, -0.0652]],
+       device='cuda:0'), grad: tensor([[-1.1384e-05,  1.1958e-05,  4.9174e-05,  ...,  6.0469e-05,
+         -7.8380e-05,  4.7684e-07],
+        [-4.6790e-05,  2.6226e-05, -1.3676e-03,  ..., -2.0580e-03,
+         -1.7090e-03, -8.0538e-04],
+        [ 9.7692e-05,  2.5082e-04,  3.0136e-04,  ...,  5.3501e-04,
+          5.3704e-05,  3.3248e-06],
+        ...,
+        [ 5.9992e-05,  6.1750e-04,  1.2770e-03,  ...,  2.2488e-03,
+          1.3323e-03,  6.9904e-04],
+        [-2.0385e-05, -1.0452e-03, -8.6486e-05,  ..., -6.3944e-04,
+          4.0799e-05,  6.0573e-06],
+        [ 1.9848e-05,  1.7866e-05,  1.9521e-05,  ...,  1.2767e-04,
+         -1.2243e-04,  3.9011e-05]], device='cuda:0')
+Epoch 58, bias, value: tensor([-0.0070, -0.0297,  0.0104, -0.0187,  0.0144,  0.0038,  0.0183, -0.0075,
+        -0.0255, -0.0028], device='cuda:0'), grad: tensor([-4.6420e-04, -5.2643e-03,  1.1234e-03, -8.3494e-04,  7.1955e-04,
+         9.7692e-05,  6.1560e-04,  5.7220e-03, -1.6613e-03, -4.7356e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 57, time 262.73, cls_loss 0.0167 cls_loss_mapping 0.0249 cls_loss_causal 0.7140 re_mapping 0.0150 re_causal 0.0427 /// teacc 98.61 lr 0.00010000
+Epoch 59, weight, value: tensor([[ 0.0106, -0.0879, -0.0439,  ..., -0.0858, -0.0507, -0.0899],
+        [ 0.0099, -0.0234, -0.0031,  ...,  0.0462,  0.0571, -0.0150],
+        [-0.0489,  0.0452, -0.0771,  ...,  0.0436,  0.0190,  0.0007],
+        ...,
+        [-0.0552, -0.0433, -0.0552,  ..., -0.0035, -0.0513,  0.0669],
+        [ 0.0593, -0.0059,  0.0162,  ..., -0.0105, -0.0692, -0.0017],
+        [-0.0874, -0.0041,  0.0117,  ..., -0.0900,  0.0206, -0.0662]],
+       device='cuda:0'), grad: tensor([[ 8.2050e-07,  8.7637e-07,  2.1681e-06,  ...,  3.4980e-06,
+         -2.0824e-06,  1.8813e-06],
+        [ 5.0198e-07,  3.5334e-06, -2.8059e-05,  ..., -4.8056e-06,
+         -3.0756e-05,  8.7097e-06],
+        [ 6.1747e-07, -6.1452e-05, -2.8551e-05,  ..., -1.6797e-04,
+         -9.7394e-05, -3.3200e-05],
+        ...,
+        [ 6.3423e-07,  7.8157e-06,  2.1994e-05,  ...,  1.4909e-05,
+          3.8266e-04,  4.8727e-05],
+        [-3.0082e-06,  4.5478e-05,  7.8753e-06,  ...,  1.3161e-04,
+          1.1057e-04,  4.0114e-05],
+        [ 1.5637e-06,  1.6298e-07,  8.0317e-06,  ...,  1.0744e-05,
+         -3.9887e-04, -7.9513e-05]], device='cuda:0')
+Epoch 59, bias, value: tensor([-0.0076, -0.0294,  0.0103, -0.0185,  0.0147,  0.0040,  0.0177, -0.0073,
+        -0.0255, -0.0030], device='cuda:0'), grad: tensor([-1.4819e-05, -2.1711e-05, -1.9157e-04,  7.9572e-05,  6.8128e-05,
+        -5.9187e-05,  3.3565e-06,  6.9714e-04,  1.9217e-04, -7.5436e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 58, time 262.25, cls_loss 0.0136 cls_loss_mapping 0.0200 cls_loss_causal 0.6408 re_mapping 0.0147 re_causal 0.0406 /// teacc 98.57 lr 0.00010000
+Epoch 60, weight, value: tensor([[ 0.0103, -0.0880, -0.0446,  ..., -0.0864, -0.0518, -0.0911],
+        [ 0.0122, -0.0243, -0.0016,  ...,  0.0468,  0.0579, -0.0139],
+        [-0.0493,  0.0463, -0.0781,  ...,  0.0438,  0.0197,  0.0003],
+        ...,
+        [-0.0566, -0.0439, -0.0560,  ..., -0.0039, -0.0533,  0.0671],
+        [ 0.0592, -0.0063,  0.0166,  ..., -0.0107, -0.0701, -0.0025],
+        [-0.0878, -0.0043,  0.0110,  ..., -0.0909,  0.0220, -0.0660]],
+       device='cuda:0'), grad: tensor([[ 4.7721e-06,  1.2629e-05,  3.2224e-06,  ...,  2.6096e-06,
+          2.1085e-05,  1.3243e-06],
+        [ 1.3607e-06,  9.5814e-06,  2.7250e-06,  ...,  1.6183e-05,
+          4.5687e-05,  6.6161e-06],
+        [ 1.7500e-06, -2.1130e-05,  9.3281e-06,  ..., -2.0966e-05,
+         -2.2963e-05,  5.0738e-06],
+        ...,
+        [-7.4580e-06,  3.5539e-06, -1.9878e-05,  ..., -4.2200e-05,
+          7.0095e-05, -6.4492e-05],
+        [ 2.8592e-06,  4.7386e-06, -1.1683e-05,  ..., -5.9605e-08,
+          2.3413e-04,  2.0377e-06],
+        [ 4.8093e-06,  5.9698e-07, -1.0394e-05,  ...,  1.6004e-05,
+         -2.1057e-03,  1.3955e-05]], device='cuda:0')
+Epoch 60, bias, value: tensor([-0.0084, -0.0284,  0.0102, -0.0178,  0.0143,  0.0038,  0.0180, -0.0081,
+        -0.0259, -0.0024], device='cuda:0'), grad: tensor([ 5.3972e-05,  1.2982e-04,  1.3456e-05,  1.1611e-04,  5.4741e-03,
+         1.6129e-04,  4.6879e-05,  1.1122e-04,  7.5006e-04, -6.8550e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 59, time 262.20, cls_loss 0.0112 cls_loss_mapping 0.0182 cls_loss_causal 0.6588 re_mapping 0.0145 re_causal 0.0426 /// teacc 98.65 lr 0.00010000
+Epoch 61, weight, value: tensor([[ 0.0102, -0.0887, -0.0450,  ..., -0.0868, -0.0519, -0.0918],
+        [ 0.0119, -0.0248, -0.0020,  ...,  0.0464,  0.0577, -0.0146],
+        [-0.0490,  0.0474, -0.0776,  ...,  0.0444,  0.0205,  0.0001],
+        ...,
+        [-0.0565, -0.0447, -0.0563,  ..., -0.0041, -0.0541,  0.0678],
+        [ 0.0596, -0.0064,  0.0172,  ..., -0.0105, -0.0703, -0.0029],
+        [-0.0888, -0.0046,  0.0106,  ..., -0.0919,  0.0220, -0.0667]],
+       device='cuda:0'), grad: tensor([[-5.8152e-06,  4.3474e-06,  1.1986e-06,  ...,  6.5789e-06,
+          1.7500e-04,  3.7998e-06],
+        [ 1.2539e-05,  3.1710e-04,  1.7239e-06,  ...,  2.3496e-04,
+          3.7384e-04,  3.9846e-05],
+        [-9.7156e-06, -4.8304e-04, -1.0923e-05,  ..., -3.8886e-04,
+         -5.9271e-04, -4.8459e-05],
+        ...,
+        [ 2.6748e-06,  1.3955e-05, -5.9605e-06,  ..., -1.5453e-05,
+          5.8502e-05, -3.5554e-05],
+        [-1.0826e-05,  9.4771e-06, -3.2425e-05,  ..., -1.1407e-05,
+          3.7313e-05,  3.1367e-06],
+        [ 9.3225e-07,  1.7257e-06,  8.6427e-06,  ..., -2.9489e-05,
+         -2.5392e-04, -9.9480e-05]], device='cuda:0')
+Epoch 61, bias, value: tensor([-0.0083, -0.0290,  0.0108, -0.0176,  0.0144,  0.0040,  0.0176, -0.0081,
+        -0.0258, -0.0029], device='cuda:0'), grad: tensor([ 4.4417e-04,  3.9005e-04, -5.1022e-04,  1.3304e-04,  1.0071e-03,
+         7.4506e-05, -9.6178e-04,  6.7890e-05,  1.3880e-05, -6.5899e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 60, time 261.89, cls_loss 0.0127 cls_loss_mapping 0.0201 cls_loss_causal 0.6618 re_mapping 0.0142 re_causal 0.0416 /// teacc 98.49 lr 0.00010000
+Epoch 62, weight, value: tensor([[ 1.0399e-02, -8.9173e-02, -4.5177e-02,  ..., -8.7403e-02,
+         -5.2336e-02, -9.2642e-02],
+        [ 1.2629e-02, -2.4592e-02, -1.0421e-03,  ...,  4.6919e-02,
+          5.8763e-02, -1.3845e-02],
+        [-4.9594e-02,  4.7889e-02, -7.8553e-02,  ...,  4.4304e-02,
+          2.0586e-02, -1.3442e-05],
+        ...,
+        [-5.6891e-02, -4.5617e-02, -5.6746e-02,  ..., -4.1491e-03,
+         -5.5773e-02,  6.8108e-02],
+        [ 5.9460e-02, -6.3847e-03,  1.7492e-02,  ..., -1.0285e-02,
+         -7.0937e-02, -3.3056e-03],
+        [-8.9216e-02, -4.6511e-03,  1.0163e-02,  ..., -9.2741e-02,
+          2.3265e-02, -6.6444e-02]], device='cuda:0'), grad: tensor([[ 4.8913e-06,  7.8604e-06,  3.7700e-05,  ...,  2.1636e-05,
+          6.6161e-06,  1.9688e-06],
+        [ 3.6824e-06,  5.3495e-06, -7.7337e-06,  ...,  3.7886e-06,
+         -7.5400e-06,  5.3085e-06],
+        [-1.8835e-05, -9.7632e-05,  2.8312e-05,  ..., -1.6403e-04,
+         -1.4114e-04, -2.1487e-05],
+        ...,
+        [ 1.9133e-05,  8.0884e-05,  1.7539e-05,  ...,  1.3697e-04,
+          1.5664e-04,  1.0014e-05],
+        [ 6.7838e-06, -4.7326e-05, -5.8055e-05,  ..., -1.4715e-05,
+         -1.3638e-04,  1.0291e-06],
+        [ 6.0946e-06,  3.5703e-05,  8.5056e-05,  ...,  2.8193e-05,
+          1.0610e-04,  1.6494e-06]], device='cuda:0')
+Epoch 62, bias, value: tensor([-0.0083, -0.0283,  0.0106, -0.0170,  0.0133,  0.0034,  0.0180, -0.0085,
+        -0.0258, -0.0021], device='cuda:0'), grad: tensor([ 7.3314e-05,  1.4186e-05, -1.2386e-04,  1.5450e-04, -6.1929e-05,
+        -4.4632e-04,  8.1718e-05,  2.4056e-04, -3.0255e-04,  3.6931e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 61----------------------------------------------------
+epoch 61, time 279.38, cls_loss 0.0122 cls_loss_mapping 0.0188 cls_loss_causal 0.6811 re_mapping 0.0144 re_causal 0.0435 /// teacc 98.67 lr 0.00010000
+Epoch 63, weight, value: tensor([[ 0.0104, -0.0912, -0.0465,  ..., -0.0878, -0.0523, -0.0936],
+        [ 0.0123, -0.0251, -0.0010,  ...,  0.0467,  0.0586, -0.0144],
+        [-0.0494,  0.0486, -0.0790,  ...,  0.0446,  0.0212, -0.0003],
+        ...,
+        [-0.0570, -0.0460, -0.0571,  ..., -0.0044, -0.0565,  0.0686],
+        [ 0.0597, -0.0058,  0.0178,  ..., -0.0101, -0.0715, -0.0036],
+        [-0.0895, -0.0050,  0.0100,  ..., -0.0932,  0.0238, -0.0668]],
+       device='cuda:0'), grad: tensor([[ 2.2259e-07,  5.1688e-07,  1.5618e-06,  ...,  3.2447e-06,
+         -2.4706e-05,  4.5486e-06],
+        [ 3.7998e-07, -2.2575e-06, -3.6340e-06,  ...,  1.0412e-06,
+         -2.0396e-06,  3.4958e-05],
+        [ 7.7933e-06,  1.2787e-06,  3.6031e-05,  ...,  5.9992e-05,
+          1.5110e-05,  1.4395e-05],
+        ...,
+        [ 1.2526e-06,  1.1548e-06,  5.9903e-06,  ..., -2.0728e-05,
+         -5.9813e-05, -1.3483e-04],
+        [ 4.2990e-06, -4.4703e-06, -1.0423e-05,  ..., -3.7216e-06,
+          2.1547e-05,  1.9968e-06],
+        [ 3.5204e-07,  3.6787e-07,  2.9597e-06,  ...,  7.6890e-06,
+          7.8201e-05,  4.8876e-05]], device='cuda:0')
+Epoch 63, bias, value: tensor([-0.0084, -0.0287,  0.0106, -0.0169,  0.0128,  0.0041,  0.0179, -0.0087,
+        -0.0259, -0.0019], device='cuda:0'), grad: tensor([-9.0003e-05,  5.3763e-05,  9.7692e-05, -3.5018e-05, -2.1785e-05,
+         6.1572e-05, -8.1137e-06, -2.3770e-04,  3.1829e-05,  1.4770e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 62, time 262.46, cls_loss 0.0157 cls_loss_mapping 0.0189 cls_loss_causal 0.6852 re_mapping 0.0139 re_causal 0.0398 /// teacc 98.65 lr 0.00010000
+Epoch 64, weight, value: tensor([[ 0.0104, -0.0930, -0.0472,  ..., -0.0885, -0.0524, -0.0944],
+        [ 0.0121, -0.0256, -0.0010,  ...,  0.0464,  0.0584, -0.0152],
+        [-0.0487,  0.0494, -0.0796,  ...,  0.0446,  0.0210, -0.0002],
+        ...,
+        [-0.0578, -0.0455, -0.0571,  ..., -0.0037, -0.0557,  0.0695],
+        [ 0.0599, -0.0058,  0.0183,  ..., -0.0099, -0.0725, -0.0038],
+        [-0.0898, -0.0034,  0.0099,  ..., -0.0936,  0.0241, -0.0675]],
+       device='cuda:0'), grad: tensor([[ 8.9407e-07,  9.1076e-05,  2.7940e-06,  ...,  5.3346e-06,
+          4.7177e-05,  2.3488e-06],
+        [ 1.8151e-06,  1.2964e-06,  6.6042e-05,  ...,  9.2804e-05,
+         -3.7402e-06,  5.1260e-05],
+        [ 6.7018e-06, -8.9854e-06,  2.6718e-05,  ...,  1.9014e-05,
+         -1.4290e-05,  2.2337e-05],
+        ...,
+        [-1.5944e-05, -7.2457e-06,  1.2489e-02,  ...,  1.6602e-02,
+          1.8716e-05,  8.6746e-03],
+        [ 2.0135e-06,  8.7246e-06, -1.2840e-02,  ..., -1.7090e-02,
+          2.6211e-05, -8.9417e-03],
+        [ 2.9821e-06,  3.1684e-06,  1.0235e-06,  ...,  7.3969e-05,
+         -5.5820e-05,  4.0263e-05]], device='cuda:0')
+Epoch 64, bias, value: tensor([-0.0081, -0.0295,  0.0104, -0.0175,  0.0132,  0.0041,  0.0184, -0.0079,
+        -0.0260, -0.0021], device='cuda:0'), grad: tensor([ 1.8907e-04,  1.0526e-04,  3.7253e-05,  3.3069e-04,  1.9646e-04,
+        -8.5413e-05, -2.3770e-04,  1.7593e-02, -1.8036e-02, -9.5069e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 63, time 262.45, cls_loss 0.0127 cls_loss_mapping 0.0163 cls_loss_causal 0.6758 re_mapping 0.0138 re_causal 0.0396 /// teacc 98.58 lr 0.00010000
+Epoch 65, weight, value: tensor([[ 0.0105, -0.0939, -0.0479,  ..., -0.0891, -0.0526, -0.0954],
+        [ 0.0130, -0.0258, -0.0006,  ...,  0.0464,  0.0586, -0.0160],
+        [-0.0489,  0.0504, -0.0803,  ...,  0.0447,  0.0217, -0.0013],
+        ...,
+        [-0.0578, -0.0454, -0.0578,  ..., -0.0041, -0.0565,  0.0704],
+        [ 0.0597, -0.0066,  0.0193,  ..., -0.0092, -0.0739, -0.0027],
+        [-0.0900, -0.0036,  0.0098,  ..., -0.0941,  0.0249, -0.0683]],
+       device='cuda:0'), grad: tensor([[ 1.6112e-07,  9.2909e-06,  4.9286e-06,  ...,  1.2256e-05,
+          1.3545e-05,  5.8208e-07],
+        [ 3.2689e-07, -1.2350e-04, -3.3998e-04,  ..., -3.5143e-04,
+         -4.7803e-04,  4.4741e-06],
+        [ 3.3341e-07, -2.7537e-04, -4.4376e-05,  ..., -3.2043e-04,
+          3.1304e-04,  1.9759e-05],
+        ...,
+        [ 4.4797e-07,  2.7299e-05,  1.1861e-05,  ...,  1.3351e-05,
+          3.2336e-05, -2.4572e-05],
+        [ 6.9663e-07,  3.2187e-04,  3.4094e-04,  ...,  5.4455e-04,
+          6.3753e-04,  3.1646e-06],
+        [ 1.4612e-06,  4.5039e-06,  5.3905e-06,  ...,  1.8671e-05,
+          5.8770e-05,  1.2688e-05]], device='cuda:0')
+Epoch 65, bias, value: tensor([-0.0082, -0.0295,  0.0101, -0.0179,  0.0135,  0.0043,  0.0185, -0.0079,
+        -0.0257, -0.0020], device='cuda:0'), grad: tensor([-8.1301e-05, -6.7091e-04,  1.4007e-04,  1.3554e-04, -7.1383e-04,
+        -6.2585e-05,  1.4508e-04, -1.7375e-05,  9.9277e-04,  1.3435e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 64----------------------------------------------------
+epoch 64, time 278.49, cls_loss 0.0112 cls_loss_mapping 0.0147 cls_loss_causal 0.6958 re_mapping 0.0139 re_causal 0.0408 /// teacc 98.69 lr 0.00010000
+Epoch 66, weight, value: tensor([[ 1.0757e-02, -9.5198e-02, -4.8139e-02,  ..., -8.9725e-02,
+         -5.3294e-02, -9.5830e-02],
+        [ 1.2627e-02, -2.6135e-02, -6.7352e-05,  ...,  4.6324e-02,
+          5.8831e-02, -1.6305e-02],
+        [-4.8842e-02,  5.1630e-02, -8.0917e-02,  ...,  4.4990e-02,
+          2.2209e-02, -1.8782e-03],
+        ...,
+        [-5.7479e-02, -4.5611e-02, -5.7908e-02,  ..., -3.8529e-03,
+         -5.7171e-02,  7.1724e-02],
+        [ 5.9682e-02, -6.6708e-03,  1.9776e-02,  ..., -9.1764e-03,
+         -7.4682e-02, -3.2358e-03],
+        [-8.9935e-02, -4.0307e-03,  9.5205e-03,  ..., -9.4765e-02,
+          2.5303e-02, -6.9225e-02]], device='cuda:0'), grad: tensor([[ 8.1025e-08,  5.6714e-05,  1.8971e-06,  ...,  4.8727e-06,
+          1.1778e-04,  8.4378e-07],
+        [ 7.0035e-07,  4.2766e-06, -1.5453e-05,  ...,  6.0908e-07,
+         -1.7300e-05,  1.4573e-05],
+        [ 2.4773e-07,  8.0943e-05,  3.5763e-05,  ...,  5.8830e-05,
+          1.6057e-04,  2.2739e-05],
+        ...,
+        [ 3.1386e-07, -2.7549e-06,  9.4902e-07,  ..., -8.7142e-05,
+          8.2180e-06, -9.2328e-05],
+        [ 2.5146e-07,  4.2260e-05, -3.6359e-05,  ..., -5.5194e-05,
+          2.0528e-04,  5.7220e-06],
+        [ 2.8685e-07, -9.3520e-05,  8.5831e-06,  ...,  3.6091e-05,
+         -1.4887e-03,  1.9222e-05]], device='cuda:0')
+Epoch 66, bias, value: tensor([-0.0088, -0.0294,  0.0103, -0.0181,  0.0140,  0.0039,  0.0186, -0.0078,
+        -0.0258, -0.0019], device='cuda:0'), grad: tensor([ 2.2221e-04,  2.4438e-05,  4.0460e-04,  7.1108e-05,  1.6813e-03,
+         1.3056e-03, -2.6054e-03, -1.0604e-04,  3.6645e-04, -1.3628e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 65, time 262.47, cls_loss 0.0121 cls_loss_mapping 0.0172 cls_loss_causal 0.6641 re_mapping 0.0143 re_causal 0.0395 /// teacc 98.53 lr 0.00010000
+Epoch 67, weight, value: tensor([[ 0.0107, -0.0969, -0.0484,  ..., -0.0902, -0.0537, -0.0965],
+        [ 0.0126, -0.0259,  0.0002,  ...,  0.0463,  0.0591, -0.0169],
+        [-0.0484,  0.0546, -0.0798,  ...,  0.0461,  0.0230, -0.0023],
+        ...,
+        [-0.0579, -0.0458, -0.0579,  ..., -0.0038, -0.0574,  0.0723],
+        [ 0.0595, -0.0099,  0.0192,  ..., -0.0098, -0.0763, -0.0034],
+        [-0.0901, -0.0053,  0.0091,  ..., -0.0962,  0.0252, -0.0689]],
+       device='cuda:0'), grad: tensor([[ 1.2732e-04,  9.8169e-05,  6.8545e-05,  ...,  9.2328e-05,
+          5.7459e-05,  3.2306e-05],
+        [ 4.0680e-05,  6.1417e-04,  2.5196e-03,  ...,  1.2722e-03,
+          2.9354e-03,  9.9659e-05],
+        [-9.3699e-05,  8.1003e-05,  1.0276e-04,  ..., -8.2207e-04,
+         -1.9205e-04, -4.5371e-04],
+        ...,
+        [ 2.8655e-05,  4.9137e-06,  4.9770e-05,  ...,  1.8942e-04,
+          1.2994e-04,  8.4758e-05],
+        [-2.2006e-04, -5.0515e-05,  5.2643e-04,  ...,  4.3535e-04,
+          7.2098e-04,  1.1325e-04],
+        [ 1.2010e-05,  7.8157e-06, -8.6948e-06,  ...,  1.7792e-05,
+         -1.0711e-04,  6.0461e-06]], device='cuda:0')
+Epoch 67, bias, value: tensor([-0.0087, -0.0294,  0.0117, -0.0187,  0.0148,  0.0043,  0.0180, -0.0080,
+        -0.0270, -0.0021], device='cuda:0'), grad: tensor([ 0.0007,  0.0055, -0.0009,  0.0005,  0.0004,  0.0008, -0.0076,  0.0004,
+         0.0006, -0.0003], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 66, time 262.55, cls_loss 0.0117 cls_loss_mapping 0.0152 cls_loss_causal 0.6478 re_mapping 0.0134 re_causal 0.0368 /// teacc 98.63 lr 0.00010000
+Epoch 68, weight, value: tensor([[ 0.0106, -0.0979, -0.0488,  ..., -0.0909, -0.0540, -0.0967],
+        [ 0.0129, -0.0257,  0.0005,  ...,  0.0466,  0.0600, -0.0167],
+        [-0.0490,  0.0546, -0.0807,  ...,  0.0457,  0.0228, -0.0029],
+        ...,
+        [-0.0577, -0.0460, -0.0582,  ..., -0.0040, -0.0591,  0.0730],
+        [ 0.0603, -0.0097,  0.0196,  ..., -0.0092, -0.0771, -0.0037],
+        [-0.0907, -0.0056,  0.0086,  ..., -0.0964,  0.0261, -0.0694]],
+       device='cuda:0'), grad: tensor([[ 1.0850e-06,  5.0105e-06,  1.0580e-05,  ...,  1.2979e-05,
+          1.9535e-05,  1.5181e-06],
+        [ 8.0764e-06,  2.8476e-05,  1.9088e-05,  ...,  6.2406e-05,
+          1.8731e-05,  1.8448e-05],
+        [ 5.7742e-06,  4.2655e-06,  4.1366e-05,  ...,  4.2081e-05,
+          2.6643e-05,  1.3135e-05],
+        ...,
+        [-6.1691e-05, -2.0134e-04, -2.0313e-04,  ..., -4.1270e-04,
+         -2.0719e-04, -1.2201e-04],
+        [ 1.9912e-06,  3.6918e-06, -3.2723e-05,  ..., -2.1935e-05,
+          6.6102e-05,  3.8855e-06],
+        [ 3.9279e-05,  1.2577e-04,  1.8251e-04,  ...,  2.8229e-04,
+         -1.3943e-03,  6.3598e-05]], device='cuda:0')
+Epoch 68, bias, value: tensor([-0.0085, -0.0291,  0.0110, -0.0184,  0.0145,  0.0044,  0.0179, -0.0083,
+        -0.0269, -0.0018], device='cuda:0'), grad: tensor([ 8.3327e-05,  2.9778e-04,  1.9491e-04,  2.2471e-04,  4.4785e-03,
+        -1.6558e-04,  5.5134e-05, -1.6289e-03,  2.6941e-04, -3.8052e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 67----------------------------------------------------
+epoch 67, time 279.17, cls_loss 0.0115 cls_loss_mapping 0.0146 cls_loss_causal 0.6184 re_mapping 0.0131 re_causal 0.0375 /// teacc 98.72 lr 0.00010000
+Epoch 69, weight, value: tensor([[ 0.0105, -0.0987, -0.0499,  ..., -0.0917, -0.0549, -0.0978],
+        [ 0.0132, -0.0263,  0.0008,  ...,  0.0462,  0.0605, -0.0172],
+        [-0.0488,  0.0548, -0.0813,  ...,  0.0457,  0.0232, -0.0031],
+        ...,
+        [-0.0582, -0.0465, -0.0581,  ..., -0.0033, -0.0595,  0.0744],
+        [ 0.0605, -0.0086,  0.0200,  ..., -0.0088, -0.0776, -0.0037],
+        [-0.0913, -0.0062,  0.0078,  ..., -0.0982,  0.0260, -0.0713]],
+       device='cuda:0'), grad: tensor([[ 9.2834e-06,  1.3255e-05,  4.3493e-07,  ...,  3.8855e-06,
+          4.1008e-05,  2.2165e-07],
+        [ 4.9710e-05,  7.0572e-05,  2.3115e-06,  ...,  2.1741e-05,
+          2.1899e-04,  2.7455e-06],
+        [ 5.0277e-05,  7.0512e-05,  4.1574e-06,  ...,  2.1264e-05,
+          2.2328e-04,  1.6782e-06],
+        ...,
+        [-1.4435e-07,  1.8626e-07, -1.5460e-07,  ..., -7.6890e-06,
+          1.3011e-06, -1.4283e-05],
+        [ 8.3297e-06,  1.1675e-05, -2.5406e-06,  ...,  2.7120e-06,
+          4.0859e-05,  1.3420e-06],
+        [ 1.1167e-06,  4.5914e-07,  2.3246e-06,  ...,  5.1446e-06,
+          2.0508e-06,  4.7274e-06]], device='cuda:0')
+Epoch 69, bias, value: tensor([-0.0091, -0.0291,  0.0106, -0.0184,  0.0141,  0.0046,  0.0189, -0.0075,
+        -0.0267, -0.0025], device='cuda:0'), grad: tensor([ 5.0694e-05,  3.0231e-04,  3.0732e-04,  9.9316e-06,  6.3062e-05,
+         8.2105e-06, -7.9536e-04, -2.0072e-05,  5.8085e-05,  1.6108e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 68, time 262.79, cls_loss 0.0095 cls_loss_mapping 0.0138 cls_loss_causal 0.6330 re_mapping 0.0128 re_causal 0.0384 /// teacc 98.72 lr 0.00010000
+Epoch 70, weight, value: tensor([[ 0.0106, -0.0991, -0.0501,  ..., -0.0921, -0.0563, -0.0980],
+        [ 0.0131, -0.0265,  0.0007,  ...,  0.0457,  0.0605, -0.0170],
+        [-0.0494,  0.0559, -0.0814,  ...,  0.0465,  0.0233, -0.0028],
+        ...,
+        [-0.0584, -0.0468, -0.0580,  ..., -0.0030, -0.0596,  0.0745],
+        [ 0.0613, -0.0094,  0.0203,  ..., -0.0093, -0.0780, -0.0045],
+        [-0.0918, -0.0065,  0.0070,  ..., -0.0991,  0.0266, -0.0716]],
+       device='cuda:0'), grad: tensor([[ 2.1458e-06,  5.7649e-07,  6.2920e-06,  ...,  7.2084e-06,
+          6.8061e-06,  1.3970e-07],
+        [ 2.1793e-07, -1.3839e-06,  2.1923e-04,  ...,  1.3769e-04,
+          5.0068e-04,  8.1304e-07],
+        [ 8.0019e-06,  3.1255e-06,  4.6730e-05,  ...,  1.6004e-05,
+         -2.8014e-05,  1.0412e-06],
+        ...,
+        [ 2.5518e-07,  3.1479e-07,  1.8448e-05,  ...,  1.0669e-05,
+          4.6760e-05, -2.5835e-06],
+        [-1.6272e-05, -1.0682e-06, -6.7353e-05,  ..., -8.8453e-05,
+          3.1620e-05,  2.1886e-07],
+        [ 2.9597e-06,  1.3970e-07,  1.0604e-04,  ...,  9.7871e-05,
+          2.0182e-04,  2.0005e-06]], device='cuda:0')
+Epoch 70, bias, value: tensor([-0.0097, -0.0292,  0.0109, -0.0177,  0.0145,  0.0040,  0.0189, -0.0077,
+        -0.0268, -0.0024], device='cuda:0'), grad: tensor([ 2.0742e-05,  7.8773e-04,  4.0293e-05,  1.0264e-04, -1.1959e-03,
+         2.0817e-05,  4.0047e-08,  7.2718e-05, -1.1039e-04,  2.5940e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 69----------------------------------------------------
+epoch 69, time 279.29, cls_loss 0.0092 cls_loss_mapping 0.0142 cls_loss_causal 0.6208 re_mapping 0.0126 re_causal 0.0373 /// teacc 98.74 lr 0.00010000
+Epoch 71, weight, value: tensor([[ 0.0107, -0.0996, -0.0504,  ..., -0.0926, -0.0570, -0.0981],
+        [ 0.0130, -0.0270,  0.0007,  ...,  0.0454,  0.0609, -0.0174],
+        [-0.0497,  0.0566, -0.0814,  ...,  0.0468,  0.0244, -0.0030],
+        ...,
+        [-0.0587, -0.0472, -0.0579,  ..., -0.0030, -0.0603,  0.0754],
+        [ 0.0615, -0.0091,  0.0207,  ..., -0.0090, -0.0785, -0.0046],
+        [-0.0919, -0.0068,  0.0068,  ..., -0.0994,  0.0265, -0.0723]],
+       device='cuda:0'), grad: tensor([[ 1.2172e-06,  1.3746e-05,  2.4159e-06,  ...,  3.0264e-05,
+         -4.7565e-05,  2.4047e-06],
+        [ 8.2981e-07,  1.2117e-06, -1.3411e-05,  ..., -1.4948e-06,
+         -1.3120e-05,  3.2187e-06],
+        [ 3.8743e-06, -1.2970e-04,  9.6038e-06,  ..., -2.4700e-04,
+         -3.6573e-04,  8.1584e-06],
+        ...,
+        [-1.9684e-05,  1.3866e-05, -1.0148e-05,  ..., -1.1355e-05,
+          4.9442e-05, -4.8995e-05],
+        [ 2.5649e-06,  8.5458e-06, -2.4289e-05,  ..., -1.9312e-05,
+          3.6597e-05,  2.7120e-06],
+        [-5.4054e-06,  3.9041e-05, -3.6001e-05,  ...,  1.0544e-04,
+          1.0449e-04,  2.3276e-05]], device='cuda:0')
+Epoch 71, bias, value: tensor([-0.0098, -0.0292,  0.0113, -0.0175,  0.0138,  0.0041,  0.0189, -0.0076,
+        -0.0264, -0.0026], device='cuda:0'), grad: tensor([-1.2362e-04,  5.9381e-06, -8.1539e-04,  2.6727e-04,  8.8990e-05,
+         1.5008e-04,  1.2672e-04, -8.9526e-05,  1.9476e-05,  3.7003e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 70, time 262.26, cls_loss 0.0097 cls_loss_mapping 0.0152 cls_loss_causal 0.6165 re_mapping 0.0123 re_causal 0.0365 /// teacc 98.65 lr 0.00010000
+Epoch 72, weight, value: tensor([[ 0.0108, -0.1001, -0.0508,  ..., -0.0934, -0.0572, -0.0985],
+        [ 0.0137, -0.0269,  0.0015,  ...,  0.0458,  0.0620, -0.0170],
+        [-0.0503,  0.0566, -0.0816,  ...,  0.0470,  0.0240, -0.0037],
+        ...,
+        [-0.0589, -0.0472, -0.0578,  ..., -0.0026, -0.0603,  0.0764],
+        [ 0.0613, -0.0090,  0.0211,  ..., -0.0087, -0.0792, -0.0049],
+        [-0.0919, -0.0070,  0.0061,  ..., -0.1005,  0.0263, -0.0733]],
+       device='cuda:0'), grad: tensor([[ 9.1270e-06,  1.6578e-07,  1.2159e-05,  ...,  1.9595e-05,
+          5.2340e-06,  3.1479e-07],
+        [ 2.3082e-05,  2.2843e-05,  6.9141e-06,  ...,  3.6478e-05,
+          5.3197e-05,  1.3381e-05],
+        [ 1.0765e-04, -2.3484e-05,  8.6188e-05,  ...,  1.8549e-04,
+         -1.0066e-05,  2.6971e-06],
+        ...,
+        [ 1.8358e-05,  1.5199e-06,  2.2173e-05,  ...,  3.4779e-05,
+          3.1441e-05,  3.4012e-06],
+        [ 2.8089e-05,  4.6752e-07,  6.8963e-05,  ...,  6.9916e-05,
+          4.0174e-05,  1.4296e-06],
+        [ 1.1075e-04,  1.8347e-07,  3.0398e-04,  ...,  2.8706e-04,
+          2.3127e-04,  1.2582e-06]], device='cuda:0')
+Epoch 72, bias, value: tensor([-0.0096, -0.0286,  0.0112, -0.0188,  0.0138,  0.0042,  0.0189, -0.0069,
+        -0.0264, -0.0032], device='cuda:0'), grad: tensor([ 3.0667e-05,  1.0592e-04,  2.4772e-04, -1.2627e-03, -3.6025e-04,
+         2.7752e-04,  1.8999e-05,  7.6234e-05,  1.4126e-04,  7.2527e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 71, time 262.52, cls_loss 0.0098 cls_loss_mapping 0.0141 cls_loss_causal 0.6240 re_mapping 0.0128 re_causal 0.0356 /// teacc 98.70 lr 0.00010000
+Epoch 73, weight, value: tensor([[ 0.0108, -0.1010, -0.0522,  ..., -0.0946, -0.0570, -0.0990],
+        [ 0.0138, -0.0269,  0.0020,  ...,  0.0462,  0.0628, -0.0179],
+        [-0.0520,  0.0563, -0.0828,  ...,  0.0464,  0.0238, -0.0040],
+        ...,
+        [-0.0589, -0.0474, -0.0580,  ..., -0.0027, -0.0609,  0.0765],
+        [ 0.0627, -0.0082,  0.0216,  ..., -0.0081, -0.0802, -0.0055],
+        [-0.0924, -0.0069,  0.0055,  ..., -0.1016,  0.0266, -0.0738]],
+       device='cuda:0'), grad: tensor([[ 1.4342e-05,  7.4133e-06,  4.5925e-05,  ...,  4.3422e-05,
+          1.0085e-04,  5.0180e-06],
+        [ 1.0235e-06, -8.6904e-05, -7.0274e-05,  ..., -4.8065e-04,
+         -5.3310e-04,  2.8815e-06],
+        [ 6.0439e-05,  6.6102e-05,  1.8537e-04,  ...,  4.2748e-04,
+          3.4285e-04,  1.8552e-05],
+        ...,
+        [ 3.7253e-07,  2.1666e-05,  1.1221e-05,  ...,  1.0121e-04,
+          1.0884e-04, -4.2133e-06],
+        [-1.0204e-04, -3.1024e-05, -3.8481e-04,  ..., -2.9778e-04,
+         -1.2666e-07, -3.3140e-05],
+        [ 4.1053e-06,  3.1162e-06,  7.9155e-05,  ...,  7.1406e-05,
+         -4.6283e-05,  5.2154e-06]], device='cuda:0')
+Epoch 73, bias, value: tensor([-0.0093, -0.0285,  0.0105, -0.0184,  0.0140,  0.0043,  0.0185, -0.0070,
+        -0.0260, -0.0032], device='cuda:0'), grad: tensor([ 2.5344e-04, -6.4945e-04,  6.6996e-04,  3.0923e-04,  7.8380e-05,
+        -1.3542e-04, -1.0651e-04,  1.4830e-04, -6.8092e-04,  1.1259e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 72, time 262.54, cls_loss 0.0092 cls_loss_mapping 0.0138 cls_loss_causal 0.6373 re_mapping 0.0124 re_causal 0.0368 /// teacc 98.73 lr 0.00010000
+Epoch 74, weight, value: tensor([[ 0.0108, -0.1016, -0.0526,  ..., -0.0954, -0.0569, -0.0998],
+        [ 0.0139, -0.0278,  0.0030,  ...,  0.0460,  0.0633, -0.0181],
+        [-0.0522,  0.0570, -0.0835,  ...,  0.0464,  0.0241, -0.0042],
+        ...,
+        [-0.0590, -0.0469, -0.0587,  ..., -0.0022, -0.0614,  0.0773],
+        [ 0.0628, -0.0081,  0.0216,  ..., -0.0081, -0.0815, -0.0059],
+        [-0.0926, -0.0076,  0.0046,  ..., -0.1024,  0.0267, -0.0746]],
+       device='cuda:0'), grad: tensor([[ 3.3788e-06,  4.5672e-06,  1.4178e-05,  ...,  2.0131e-05,
+          2.2650e-05,  1.0803e-07],
+        [ 9.3412e-07,  1.2536e-06, -1.0729e-06,  ...,  3.3546e-06,
+          1.0759e-05,  6.2026e-07],
+        [ 3.5893e-06, -1.4808e-06,  2.3067e-05,  ...,  1.0684e-05,
+         -4.1686e-06, -8.3819e-08],
+        ...,
+        [ 1.8114e-06,  3.7365e-06,  2.8357e-05,  ...,  3.2812e-05,
+          1.3733e-04, -4.2208e-06],
+        [ 1.8757e-06, -1.5154e-05, -1.1092e-04,  ..., -1.6105e-04,
+          1.8284e-05,  2.8312e-07],
+        [ 8.0466e-06,  1.1427e-06,  8.1003e-05,  ...,  9.7394e-05,
+          1.0085e-04,  1.8943e-06]], device='cuda:0')
+Epoch 74, bias, value: tensor([-0.0090, -0.0285,  0.0101, -0.0183,  0.0141,  0.0046,  0.0187, -0.0066,
+        -0.0266, -0.0035], device='cuda:0'), grad: tensor([ 8.9824e-05,  7.4089e-05,  7.0751e-05, -6.3610e-04, -8.4257e-04,
+         1.0699e-04,  4.1175e-04,  5.6791e-04, -4.4131e-04,  5.9891e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 73, time 262.44, cls_loss 0.0101 cls_loss_mapping 0.0180 cls_loss_causal 0.6429 re_mapping 0.0122 re_causal 0.0352 /// teacc 98.70 lr 0.00010000
+Epoch 75, weight, value: tensor([[ 0.0119, -0.1025, -0.0519,  ..., -0.0960, -0.0561, -0.1006],
+        [ 0.0137, -0.0285,  0.0035,  ...,  0.0462,  0.0633, -0.0182],
+        [-0.0524,  0.0575, -0.0838,  ...,  0.0464,  0.0247, -0.0047],
+        ...,
+        [-0.0586, -0.0464, -0.0592,  ..., -0.0019, -0.0623,  0.0782],
+        [ 0.0631, -0.0082,  0.0226,  ..., -0.0076, -0.0815, -0.0062],
+        [-0.0927, -0.0083,  0.0043,  ..., -0.1030,  0.0271, -0.0753]],
+       device='cuda:0'), grad: tensor([[ 1.0245e-07,  6.8061e-06,  1.3905e-06,  ...,  5.8711e-06,
+          2.4036e-05,  4.6566e-06],
+        [ 2.5053e-07,  1.3843e-05, -9.4324e-06,  ...,  2.7921e-06,
+         -1.3180e-05,  1.0304e-05],
+        [ 3.1572e-07,  3.3081e-05,  9.1642e-06,  ...,  3.1680e-05,
+          4.8608e-05,  2.5287e-05],
+        ...,
+        [ 3.8464e-07, -8.7202e-05,  5.8785e-06,  ..., -6.8903e-05,
+          7.3791e-05, -2.4274e-05],
+        [ 9.1456e-07, -3.4850e-06, -6.2063e-06,  ..., -9.2387e-06,
+          1.0557e-05,  4.1723e-06],
+        [ 2.9150e-07,  6.7279e-06,  5.0776e-06,  ...,  1.9267e-05,
+         -2.2244e-04, -4.1038e-05]], device='cuda:0')
+Epoch 75, bias, value: tensor([-0.0082, -0.0287,  0.0098, -0.0191,  0.0142,  0.0045,  0.0172, -0.0061,
+        -0.0253, -0.0037], device='cuda:0'), grad: tensor([ 5.0426e-05,  2.2814e-05,  1.5867e-04,  4.7326e-05,  9.7156e-05,
+         3.9369e-05, -2.6412e-06, -4.5121e-05,  1.6183e-05, -3.8433e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 74----------------------------------------------------
+epoch 74, time 279.07, cls_loss 0.0071 cls_loss_mapping 0.0107 cls_loss_causal 0.6133 re_mapping 0.0120 re_causal 0.0369 /// teacc 98.82 lr 0.00010000
+Epoch 76, weight, value: tensor([[ 0.0119, -0.1031, -0.0528,  ..., -0.0968, -0.0564, -0.1009],
+        [ 0.0140, -0.0292,  0.0039,  ...,  0.0458,  0.0634, -0.0187],
+        [-0.0524,  0.0583, -0.0845,  ...,  0.0465,  0.0248, -0.0052],
+        ...,
+        [-0.0588, -0.0467, -0.0593,  ..., -0.0015, -0.0620,  0.0789],
+        [ 0.0628, -0.0085,  0.0226,  ..., -0.0077, -0.0827, -0.0064],
+        [-0.0929, -0.0086,  0.0040,  ..., -0.1035,  0.0273, -0.0757]],
+       device='cuda:0'), grad: tensor([[ 1.5832e-07,  4.1425e-06,  3.6582e-06,  ...,  1.1332e-05,
+          4.7684e-06,  8.4657e-07],
+        [-1.4625e-05, -8.0606e-07, -1.8275e-04,  ..., -3.1567e-04,
+         -3.2496e-04,  9.1270e-06],
+        [ 1.0744e-05, -1.9014e-05,  1.1963e-04,  ...,  2.0993e-04,
+          1.7595e-04,  3.8922e-05],
+        ...,
+        [ 2.8983e-06, -2.6021e-06,  4.3392e-05,  ...,  1.7673e-05,
+          9.8646e-05, -6.9857e-05],
+        [ 6.8033e-07,  3.9488e-06,  1.7703e-05,  ...,  2.3007e-05,
+          1.5870e-05,  4.6343e-06],
+        [ 2.8545e-07,  1.3523e-06,  1.2763e-05,  ..., -9.4548e-06,
+         -4.7505e-05,  6.4000e-06]], device='cuda:0')
+Epoch 76, bias, value: tensor([-0.0084, -0.0290,  0.0097, -0.0192,  0.0142,  0.0051,  0.0177, -0.0057,
+        -0.0259, -0.0039], device='cuda:0'), grad: tensor([-1.3657e-05, -4.1151e-04,  2.9802e-04,  1.9395e-04,  4.3631e-05,
+        -2.6393e-04,  2.8282e-05,  8.2433e-05,  9.0659e-05, -4.8131e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 75, time 262.72, cls_loss 0.0100 cls_loss_mapping 0.0139 cls_loss_causal 0.6361 re_mapping 0.0124 re_causal 0.0357 /// teacc 98.76 lr 0.00010000
+Epoch 77, weight, value: tensor([[ 0.0123, -0.1058, -0.0536,  ..., -0.0981, -0.0569, -0.1014],
+        [ 0.0146, -0.0299,  0.0039,  ...,  0.0456,  0.0636, -0.0195],
+        [-0.0523,  0.0588, -0.0851,  ...,  0.0463,  0.0251, -0.0057],
+        ...,
+        [-0.0597, -0.0473, -0.0592,  ..., -0.0012, -0.0635,  0.0800],
+        [ 0.0628, -0.0081,  0.0236,  ..., -0.0073, -0.0831, -0.0066],
+        [-0.0935, -0.0068,  0.0036,  ..., -0.1029,  0.0283, -0.0762]],
+       device='cuda:0'), grad: tensor([[-6.0759e-06,  5.7459e-05,  2.0508e-06,  ...,  3.2689e-06,
+          5.9664e-05,  2.2888e-05],
+        [ 3.3546e-06,  8.0392e-06, -1.4044e-05,  ..., -1.1422e-05,
+         -3.2961e-05,  2.6032e-05],
+        [ 1.1837e-06, -1.9264e-04,  6.2473e-06,  ...,  3.7309e-06,
+         -2.1994e-04,  9.6321e-05],
+        ...,
+        [ 1.1008e-06,  9.1255e-05,  1.6615e-05,  ..., -1.2703e-05,
+         -8.1658e-05, -3.0003e-03],
+        [ 2.2892e-06,  2.2024e-05, -1.0252e-05,  ..., -9.6858e-06,
+          3.7402e-05,  1.1019e-05],
+        [ 9.1642e-07,  5.0366e-06,  7.3276e-06,  ...,  1.3471e-05,
+          1.1466e-05,  2.8059e-05]], device='cuda:0')
+Epoch 77, bias, value: tensor([-0.0089, -0.0292,  0.0093, -0.0193,  0.0146,  0.0049,  0.0176, -0.0058,
+        -0.0254, -0.0033], device='cuda:0'), grad: tensor([ 1.7786e-04,  3.9279e-05, -2.7776e-04,  6.8784e-05,  6.2370e-03,
+         4.9472e-05,  2.3171e-05, -6.5079e-03,  9.7871e-05,  9.3102e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 76, time 262.28, cls_loss 0.0080 cls_loss_mapping 0.0124 cls_loss_causal 0.5894 re_mapping 0.0125 re_causal 0.0347 /// teacc 98.81 lr 0.00010000
+Epoch 78, weight, value: tensor([[ 0.0125, -0.1061, -0.0541,  ..., -0.0987, -0.0572, -0.1017],
+        [ 0.0152, -0.0304,  0.0041,  ...,  0.0457,  0.0639, -0.0198],
+        [-0.0527,  0.0599, -0.0849,  ...,  0.0469,  0.0258, -0.0058],
+        ...,
+        [-0.0601, -0.0475, -0.0591,  ..., -0.0014, -0.0647,  0.0809],
+        [ 0.0629, -0.0090,  0.0232,  ..., -0.0082, -0.0846, -0.0068],
+        [-0.0938, -0.0062,  0.0030,  ..., -0.1029,  0.0288, -0.0765]],
+       device='cuda:0'), grad: tensor([[-1.0073e-05,  2.3004e-06, -2.0750e-06,  ...,  2.1085e-05,
+          4.5300e-06,  6.2166e-07],
+        [ 1.2582e-06,  1.3340e-04,  2.3603e-04,  ...,  1.2188e-03,
+          5.6362e-04,  1.0721e-05],
+        [-4.3288e-06,  1.6439e-04,  3.3355e-04,  ...,  1.7185e-03,
+          7.4768e-04,  2.3484e-05],
+        ...,
+        [ 1.3383e-06, -3.6740e-04, -6.6328e-04,  ..., -3.4561e-03,
+         -1.5421e-03, -8.5413e-05],
+        [ 5.9232e-06,  1.9863e-05, -6.7391e-06,  ...,  2.7850e-05,
+          3.9548e-05,  2.3674e-06],
+        [ 2.7642e-06,  2.9299e-06,  1.4968e-05,  ...,  4.8608e-05,
+          1.0177e-05,  3.2216e-05]], device='cuda:0')
+Epoch 78, bias, value: tensor([-0.0088, -0.0291,  0.0098, -0.0195,  0.0141,  0.0056,  0.0178, -0.0059,
+        -0.0265, -0.0030], device='cuda:0'), grad: tensor([-1.0580e-05,  2.1267e-03,  2.9736e-03,  6.2323e-04,  3.8087e-05,
+         4.8369e-05,  2.3127e-05, -5.9700e-03,  4.9591e-05,  9.3818e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 77, time 262.48, cls_loss 0.0071 cls_loss_mapping 0.0116 cls_loss_causal 0.6216 re_mapping 0.0121 re_causal 0.0357 /// teacc 98.61 lr 0.00010000
+Epoch 79, weight, value: tensor([[ 0.0125, -0.1066, -0.0539,  ..., -0.0993, -0.0567, -0.1023],
+        [ 0.0153, -0.0313,  0.0039,  ...,  0.0454,  0.0638, -0.0201],
+        [-0.0527,  0.0613, -0.0851,  ...,  0.0478,  0.0271, -0.0062],
+        ...,
+        [-0.0602, -0.0481, -0.0588,  ..., -0.0012, -0.0651,  0.0817],
+        [ 0.0630, -0.0093,  0.0236,  ..., -0.0080, -0.0857, -0.0066],
+        [-0.0939, -0.0065,  0.0028,  ..., -0.1037,  0.0288, -0.0778]],
+       device='cuda:0'), grad: tensor([[ 1.4175e-06,  9.5367e-07,  7.3761e-06,  ...,  7.9349e-06,
+          1.3337e-05,  2.0675e-07],
+        [ 1.6978e-06,  4.5896e-06, -3.3319e-05,  ..., -2.1398e-05,
+         -6.0707e-05,  6.2212e-07],
+        [ 1.2435e-05, -2.3693e-05,  4.3690e-05,  ...,  1.0943e-06,
+         -1.3679e-05,  1.7984e-06],
+        ...,
+        [ 5.2750e-06,  1.7926e-05,  6.6347e-06,  ...,  2.6673e-05,
+          2.8118e-05, -1.8645e-06],
+        [ 3.1888e-05,  1.3001e-06,  8.2254e-05,  ...,  7.7963e-05,
+          4.6581e-05,  4.3912e-07],
+        [ 2.6114e-06,  1.0990e-06,  6.7428e-06,  ...,  7.5847e-06,
+          5.2713e-06,  1.9819e-06]], device='cuda:0')
+Epoch 79, bias, value: tensor([-0.0075, -0.0298,  0.0107, -0.0198,  0.0133,  0.0052,  0.0180, -0.0053,
+        -0.0268, -0.0035], device='cuda:0'), grad: tensor([ 2.8133e-05, -7.5042e-05,  4.3750e-05, -2.0206e-04, -2.8163e-05,
+        -2.9597e-06, -1.5423e-05,  4.6462e-05,  1.8322e-04,  2.2054e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 78, time 262.52, cls_loss 0.0088 cls_loss_mapping 0.0117 cls_loss_causal 0.6554 re_mapping 0.0115 re_causal 0.0344 /// teacc 98.68 lr 0.00010000
+Epoch 80, weight, value: tensor([[ 0.0126, -0.1073, -0.0544,  ..., -0.1000, -0.0569, -0.1037],
+        [ 0.0152, -0.0317,  0.0043,  ...,  0.0458,  0.0637, -0.0206],
+        [-0.0529,  0.0622, -0.0857,  ...,  0.0479,  0.0277, -0.0063],
+        ...,
+        [-0.0602, -0.0487, -0.0594,  ..., -0.0020, -0.0661,  0.0817],
+        [ 0.0629, -0.0095,  0.0236,  ..., -0.0081, -0.0871, -0.0067],
+        [-0.0942, -0.0065,  0.0032,  ..., -0.1038,  0.0297, -0.0787]],
+       device='cuda:0'), grad: tensor([[ 8.2422e-08,  4.0047e-06,  6.5863e-06,  ...,  1.5989e-05,
+          4.4316e-05,  2.1514e-06],
+        [ 2.2165e-07,  2.6934e-06, -4.2558e-05,  ..., -4.2319e-05,
+         -1.1659e-04,  5.0897e-07],
+        [-5.0431e-07, -2.1771e-05,  8.1956e-06,  ..., -1.9029e-05,
+         -7.0557e-06,  1.9139e-07],
+        ...,
+        [ 5.4762e-07,  5.4017e-06,  8.8811e-06,  ...,  1.5780e-05,
+          3.4094e-05,  1.1828e-06],
+        [ 6.4261e-07, -1.7090e-07, -1.4015e-05,  ..., -2.2918e-05,
+          3.4511e-05,  3.7765e-07],
+        [ 2.5611e-07,  2.1271e-06,  3.1348e-06,  ..., -4.6305e-06,
+         -7.3433e-05,  9.9000e-07]], device='cuda:0')
+Epoch 80, bias, value: tensor([-0.0071, -0.0301,  0.0109, -0.0193,  0.0130,  0.0052,  0.0179, -0.0058,
+        -0.0273, -0.0029], device='cuda:0'), grad: tensor([ 1.2743e-04, -1.4830e-04, -1.0557e-05,  2.3842e-05,  1.0782e-04,
+         1.2852e-05, -4.4554e-05,  1.2141e-04,  8.7321e-06, -1.9872e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 79, time 262.30, cls_loss 0.0083 cls_loss_mapping 0.0117 cls_loss_causal 0.6296 re_mapping 0.0118 re_causal 0.0347 /// teacc 98.65 lr 0.00010000
+Epoch 81, weight, value: tensor([[ 0.0138, -0.1080, -0.0549,  ..., -0.1005, -0.0571, -0.1046],
+        [ 0.0152, -0.0300,  0.0050,  ...,  0.0465,  0.0649, -0.0208],
+        [-0.0522,  0.0620, -0.0869,  ...,  0.0477,  0.0274, -0.0073],
+        ...,
+        [-0.0605, -0.0490, -0.0596,  ..., -0.0019, -0.0667,  0.0832],
+        [ 0.0629, -0.0093,  0.0239,  ..., -0.0077, -0.0877, -0.0070],
+        [-0.0946, -0.0065,  0.0033,  ..., -0.1045,  0.0296, -0.0790]],
+       device='cuda:0'), grad: tensor([[-1.2778e-05,  7.4180e-07, -2.9624e-05,  ...,  3.2373e-06,
+         -1.4915e-03,  6.6590e-08],
+        [ 1.4044e-06,  1.2126e-06,  1.1422e-05,  ...,  1.6138e-05,
+          9.0003e-06,  7.0175e-07],
+        [ 1.9874e-06, -3.0309e-05,  1.5303e-05,  ..., -8.1241e-05,
+         -8.7023e-05,  3.0734e-07],
+        ...,
+        [ 4.3167e-07,  1.4277e-06,  1.9863e-05,  ...,  1.6898e-05,
+          9.4846e-06, -2.9542e-06],
+        [ 8.9109e-06,  4.3884e-06,  2.4885e-05,  ...,  2.2635e-05,
+          7.9036e-05,  3.5949e-07],
+        [ 1.2144e-06,  2.8703e-06,  6.1616e-06,  ...,  7.6056e-05,
+         -3.8967e-06,  3.5316e-06]], device='cuda:0')
+Epoch 81, bias, value: tensor([-0.0066, -0.0295,  0.0105, -0.0194,  0.0128,  0.0044,  0.0183, -0.0056,
+        -0.0272, -0.0031], device='cuda:0'), grad: tensor([-2.9602e-03,  3.1263e-05, -3.5197e-05,  1.0693e-04,  9.2328e-05,
+        -5.4836e-04,  2.6894e-03,  4.3720e-05,  2.3437e-04,  3.4356e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 80, time 262.42, cls_loss 0.0070 cls_loss_mapping 0.0097 cls_loss_causal 0.5968 re_mapping 0.0113 re_causal 0.0345 /// teacc 98.80 lr 0.00010000
+Epoch 82, weight, value: tensor([[ 0.0140, -0.1082, -0.0550,  ..., -0.1011, -0.0564, -0.1050],
+        [ 0.0152, -0.0301,  0.0052,  ...,  0.0466,  0.0647, -0.0212],
+        [-0.0519,  0.0624, -0.0872,  ...,  0.0480,  0.0278, -0.0072],
+        ...,
+        [-0.0607, -0.0492, -0.0600,  ..., -0.0019, -0.0673,  0.0838],
+        [ 0.0629, -0.0096,  0.0240,  ..., -0.0079, -0.0884, -0.0074],
+        [-0.0948, -0.0064,  0.0035,  ..., -0.1048,  0.0302, -0.0794]],
+       device='cuda:0'), grad: tensor([[ 1.3830e-07,  2.0247e-06,  5.0291e-07,  ...,  5.6922e-06,
+          2.8647e-06,  1.9614e-06],
+        [ 9.6858e-08,  7.6294e-06, -9.4809e-07,  ...,  1.9416e-05,
+          2.8722e-06,  6.6943e-06],
+        [ 6.8452e-08, -1.3781e-04,  2.4457e-06,  ..., -3.5167e-04,
+         -5.6624e-05, -9.0182e-05],
+        ...,
+        [ 3.0966e-07,  3.0071e-05,  1.6922e-06,  ...,  5.9694e-05,
+          1.5646e-05, -5.9493e-06],
+        [ 6.0163e-07,  7.6473e-05,  3.2224e-06,  ...,  2.0492e-04,
+          3.3319e-05,  5.4121e-05],
+        [ 6.1654e-07,  4.6194e-07,  3.3937e-06,  ...,  1.3441e-05,
+          1.9029e-05,  1.3165e-05]], device='cuda:0')
+Epoch 82, bias, value: tensor([-0.0057, -0.0298,  0.0107, -0.0200,  0.0125,  0.0050,  0.0181, -0.0059,
+        -0.0275, -0.0027], device='cuda:0'), grad: tensor([ 1.1876e-05,  2.6450e-05, -4.0627e-04, -1.5423e-05, -1.2435e-05,
+        -7.0632e-05,  5.0217e-05,  4.6581e-05,  2.8062e-04,  8.8990e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 81, time 262.41, cls_loss 0.0073 cls_loss_mapping 0.0104 cls_loss_causal 0.5684 re_mapping 0.0114 re_causal 0.0318 /// teacc 98.79 lr 0.00010000
+Epoch 83, weight, value: tensor([[ 0.0139, -0.1092, -0.0557,  ..., -0.1021, -0.0566, -0.1057],
+        [ 0.0161, -0.0300,  0.0056,  ...,  0.0468,  0.0655, -0.0210],
+        [-0.0520,  0.0629, -0.0876,  ...,  0.0478,  0.0280, -0.0073],
+        ...,
+        [-0.0618, -0.0494, -0.0604,  ..., -0.0016, -0.0679,  0.0841],
+        [ 0.0632, -0.0094,  0.0246,  ..., -0.0077, -0.0891, -0.0075],
+        [-0.0952, -0.0064,  0.0032,  ..., -0.1054,  0.0307, -0.0797]],
+       device='cuda:0'), grad: tensor([[-2.6554e-05, -2.9169e-06,  1.5218e-06,  ...,  2.1886e-06,
+          1.3560e-05,  1.0012e-07],
+        [ 6.2622e-06, -1.3568e-05,  2.7269e-06,  ...,  1.8347e-07,
+          2.2620e-05,  1.6525e-05],
+        [ 2.5872e-06,  9.4920e-06,  1.2919e-05,  ...,  1.8597e-05,
+          4.7088e-05,  7.1060e-07],
+        ...,
+        [ 7.2597e-07,  6.2492e-07, -5.5730e-06,  ..., -3.3766e-05,
+          1.5289e-05, -2.3350e-05],
+        [ 2.4121e-06,  7.0874e-07,  2.2352e-06,  ...,  1.8375e-06,
+          2.1085e-05,  4.9826e-07],
+        [ 2.1040e-05,  9.9745e-07,  8.2478e-06,  ...,  1.4044e-05,
+          4.5925e-05,  1.8338e-06]], device='cuda:0')
+Epoch 83, bias, value: tensor([-0.0053, -0.0294,  0.0102, -0.0197,  0.0120,  0.0050,  0.0178, -0.0059,
+        -0.0273, -0.0026], device='cuda:0'), grad: tensor([-3.8266e-04,  1.7059e-04,  8.6010e-05,  9.5546e-05, -6.1083e-04,
+         1.9252e-05,  3.4642e-04, -2.0012e-05, -7.0286e-04,  9.9850e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 82----------------------------------------------------
+epoch 82, time 279.62, cls_loss 0.0091 cls_loss_mapping 0.0129 cls_loss_causal 0.6147 re_mapping 0.0113 re_causal 0.0320 /// teacc 98.83 lr 0.00010000
+Epoch 84, weight, value: tensor([[ 0.0141, -0.1082, -0.0561,  ..., -0.1028, -0.0569, -0.1061],
+        [ 0.0160, -0.0301,  0.0052,  ...,  0.0461,  0.0651, -0.0223],
+        [-0.0520,  0.0634, -0.0880,  ...,  0.0481,  0.0284, -0.0071],
+        ...,
+        [-0.0621, -0.0499, -0.0601,  ..., -0.0019, -0.0673,  0.0843],
+        [ 0.0634, -0.0089,  0.0254,  ..., -0.0064, -0.0899, -0.0061],
+        [-0.0955, -0.0072,  0.0029,  ..., -0.1062,  0.0292, -0.0800]],
+       device='cuda:0'), grad: tensor([[ 4.2375e-08,  1.9027e-06,  4.0382e-06,  ...,  8.6576e-06,
+          3.2872e-05,  1.2852e-07],
+        [ 4.3306e-08,  1.2973e-06, -2.8610e-05,  ..., -2.5705e-05,
+         -4.1068e-05,  1.2945e-07],
+        [ 1.8673e-07, -3.5375e-05,  1.1645e-05,  ..., -4.1872e-05,
+         -3.7700e-05,  3.0780e-07],
+        ...,
+        [ 5.1688e-08,  2.3663e-05,  7.7561e-06,  ...,  3.8892e-05,
+          3.8207e-05, -5.0552e-06],
+        [-1.2010e-05,  2.9672e-06, -9.8228e-05,  ..., -1.0014e-04,
+          2.8595e-05,  4.1630e-07],
+        [ 5.8208e-08,  4.3120e-07,  1.0008e-04,  ...,  1.4246e-04,
+          1.4997e-04,  2.9113e-06]], device='cuda:0')
+Epoch 84, bias, value: tensor([-0.0045, -0.0304,  0.0102, -0.0193,  0.0131,  0.0051,  0.0176, -0.0058,
+        -0.0265, -0.0039], device='cuda:0'), grad: tensor([ 3.1447e-04, -4.8578e-05, -7.2956e-05,  2.3711e-04, -1.7002e-05,
+        -6.6566e-04, -3.2568e-04,  7.6056e-05, -8.7440e-05,  5.8889e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 83, time 262.22, cls_loss 0.0067 cls_loss_mapping 0.0091 cls_loss_causal 0.6275 re_mapping 0.0108 re_causal 0.0332 /// teacc 98.66 lr 0.00010000
+Epoch 85, weight, value: tensor([[ 0.0141, -0.1085, -0.0564,  ..., -0.1033, -0.0574, -0.1064],
+        [ 0.0160, -0.0301,  0.0062,  ...,  0.0471,  0.0659, -0.0224],
+        [-0.0517,  0.0623, -0.0887,  ...,  0.0469,  0.0279, -0.0098],
+        ...,
+        [-0.0625, -0.0509, -0.0609,  ..., -0.0027, -0.0684,  0.0850],
+        [ 0.0633, -0.0089,  0.0251,  ..., -0.0069, -0.0920, -0.0062],
+        [-0.0958, -0.0074,  0.0026,  ..., -0.1070,  0.0294, -0.0803]],
+       device='cuda:0'), grad: tensor([[-6.3516e-07, -5.3272e-07,  2.4997e-06,  ...,  5.4352e-06,
+          9.7081e-06,  5.3719e-06],
+        [ 2.2054e-06,  8.4471e-07,  6.0678e-05,  ...,  1.2517e-04,
+          3.2663e-05,  1.3888e-04],
+        [ 2.3730e-06, -1.6978e-06,  1.4059e-05,  ...,  2.3335e-05,
+          5.7854e-06,  2.1055e-05],
+        ...,
+        [ 4.5309e-07,  8.5356e-07, -4.3344e-04,  ..., -8.8930e-04,
+         -2.2531e-04, -9.9659e-04],
+        [ 3.7104e-06,  2.6189e-06,  1.1966e-05,  ...,  2.6777e-05,
+          1.3143e-05,  3.1292e-05],
+        [ 2.2911e-06,  1.3076e-06,  2.4962e-04,  ...,  5.1117e-04,
+          1.1313e-04,  5.6934e-04]], device='cuda:0')
+Epoch 85, bias, value: tensor([-0.0048, -0.0296,  0.0092, -0.0173,  0.0129,  0.0044,  0.0192, -0.0062,
+        -0.0278, -0.0039], device='cuda:0'), grad: tensor([-1.1855e-04,  3.9911e-04,  7.5519e-05,  5.9223e-04,  6.8843e-05,
+         2.5138e-05,  2.3982e-07, -2.7485e-03,  1.0973e-04,  1.5984e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 84, time 262.17, cls_loss 0.0080 cls_loss_mapping 0.0114 cls_loss_causal 0.6499 re_mapping 0.0106 re_causal 0.0328 /// teacc 98.79 lr 0.00010000
+Epoch 86, weight, value: tensor([[ 0.0139, -0.1088, -0.0565,  ..., -0.1037, -0.0572, -0.1071],
+        [ 0.0162, -0.0304,  0.0070,  ...,  0.0482,  0.0663, -0.0206],
+        [-0.0519,  0.0628, -0.0893,  ...,  0.0470,  0.0284, -0.0098],
+        ...,
+        [-0.0624, -0.0514, -0.0615,  ..., -0.0036, -0.0694,  0.0850],
+        [ 0.0632, -0.0084,  0.0253,  ..., -0.0065, -0.0925, -0.0064],
+        [-0.0965, -0.0080,  0.0017,  ..., -0.1086,  0.0288, -0.0816]],
+       device='cuda:0'), grad: tensor([[ 3.4366e-07,  9.9912e-06,  1.1899e-05,  ...,  2.3305e-05,
+          1.8388e-05,  7.3016e-07],
+        [ 1.2899e-07,  4.6223e-05,  9.3877e-06,  ...,  7.3910e-05,
+          8.0824e-05,  3.3379e-06],
+        [ 4.4936e-07, -1.2088e-04,  2.6852e-05,  ..., -1.5187e-04,
+         -1.9193e-04,  2.7213e-06],
+        ...,
+        [ 1.5646e-07,  4.2431e-06,  6.3442e-06,  ..., -1.4290e-05,
+          1.2688e-05, -1.9774e-05],
+        [ 2.6338e-06,  3.2157e-05, -2.3380e-05,  ...,  2.5615e-05,
+          4.7445e-05,  2.4326e-06],
+        [ 1.1493e-06,  7.9870e-06,  2.0790e-04,  ...,  1.5152e-04,
+          4.8965e-05,  6.1765e-06]], device='cuda:0')
+Epoch 86, bias, value: tensor([-0.0046, -0.0288,  0.0091, -0.0172,  0.0134,  0.0049,  0.0188, -0.0067,
+        -0.0277, -0.0049], device='cuda:0'), grad: tensor([ 5.1230e-05,  1.2624e-04, -2.4486e-04, -4.8494e-04,  1.4469e-05,
+         7.5400e-05, -7.7859e-06, -2.2855e-06,  6.0141e-05,  4.1246e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 85, time 262.03, cls_loss 0.0086 cls_loss_mapping 0.0112 cls_loss_causal 0.6205 re_mapping 0.0108 re_causal 0.0326 /// teacc 98.74 lr 0.00010000
+Epoch 87, weight, value: tensor([[ 0.0136, -0.1099, -0.0573,  ..., -0.1048, -0.0577, -0.1085],
+        [ 0.0169, -0.0307,  0.0051,  ...,  0.0459,  0.0660, -0.0214],
+        [-0.0521,  0.0631, -0.0896,  ...,  0.0471,  0.0291, -0.0104],
+        ...,
+        [-0.0625, -0.0507, -0.0597,  ..., -0.0016, -0.0694,  0.0856],
+        [ 0.0628, -0.0086,  0.0260,  ..., -0.0052, -0.0936, -0.0050],
+        [-0.0971, -0.0081,  0.0011,  ..., -0.1092,  0.0292, -0.0822]],
+       device='cuda:0'), grad: tensor([[ 5.0897e-07,  3.3993e-07,  1.2759e-06,  ...,  2.3022e-06,
+          3.7514e-06,  1.3039e-08],
+        [-1.0990e-07,  3.5297e-07, -6.5714e-06,  ..., -1.0133e-05,
+         -8.8736e-06,  3.2596e-08],
+        [ 4.7125e-07, -1.8366e-06,  3.2932e-06,  ...,  3.1199e-06,
+          2.5555e-06,  1.6298e-08],
+        ...,
+        [ 1.0645e-06,  4.3912e-07,  2.5090e-06,  ...,  3.5800e-06,
+          5.8226e-06, -4.2003e-07],
+        [ 5.2946e-07, -1.1409e-06, -6.4299e-06,  ..., -1.1079e-05,
+          1.9353e-06,  3.8184e-08],
+        [ 4.2422e-07,  9.7416e-07,  4.7907e-06,  ...,  8.8066e-06,
+          1.4961e-05,  1.6112e-07]], device='cuda:0')
+Epoch 87, bias, value: tensor([-0.0048, -0.0304,  0.0092, -0.0175,  0.0133,  0.0049,  0.0193, -0.0054,
+        -0.0274, -0.0047], device='cuda:0'), grad: tensor([ 1.1571e-05, -1.5646e-05,  1.2144e-05,  2.7224e-05, -7.9930e-05,
+        -3.2336e-05,  1.8671e-05,  1.7181e-05, -1.1966e-05,  5.3018e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 86, time 262.79, cls_loss 0.0083 cls_loss_mapping 0.0106 cls_loss_causal 0.6494 re_mapping 0.0109 re_causal 0.0333 /// teacc 98.79 lr 0.00010000
+Epoch 88, weight, value: tensor([[ 0.0133, -0.1102, -0.0578,  ..., -0.1063, -0.0592, -0.1114],
+        [ 0.0181, -0.0307,  0.0053,  ...,  0.0460,  0.0664, -0.0221],
+        [-0.0527,  0.0634, -0.0903,  ...,  0.0469,  0.0292, -0.0109],
+        ...,
+        [-0.0625, -0.0508, -0.0593,  ..., -0.0009, -0.0694,  0.0872],
+        [ 0.0628, -0.0087,  0.0264,  ..., -0.0054, -0.0946, -0.0053],
+        [-0.0976, -0.0082,  0.0004,  ..., -0.1103,  0.0296, -0.0837]],
+       device='cuda:0'), grad: tensor([[-1.3271e-07,  1.4063e-07,  1.3607e-06,  ...,  5.2080e-06,
+         -5.1785e-04, -1.8203e-04],
+        [ 1.6689e-06,  5.9092e-07, -1.3217e-05,  ..., -2.4766e-05,
+         -3.3081e-05,  4.7721e-06],
+        [ 9.3598e-07, -1.8775e-06,  6.0424e-06,  ...,  1.0028e-05,
+          1.0943e-04,  3.3587e-05],
+        ...,
+        [ 1.6391e-07,  3.8743e-07,  9.6560e-06,  ...,  1.5944e-05,
+          3.2037e-05, -8.2795e-07],
+        [-6.2585e-06, -4.1258e-07, -1.8224e-05,  ..., -3.5018e-06,
+          4.0770e-05,  9.0897e-06],
+        [ 9.5461e-08,  6.9384e-08,  6.3218e-06,  ...,  1.2383e-05,
+          2.5168e-05,  8.3670e-06]], device='cuda:0')
+Epoch 88, bias, value: tensor([-0.0058, -0.0304,  0.0088, -0.0169,  0.0133,  0.0048,  0.0189, -0.0046,
+        -0.0277, -0.0047], device='cuda:0'), grad: tensor([-1.0881e-03, -1.7077e-05,  2.3150e-04,  1.0437e-04,  2.0480e-04,
+        -2.1625e-04,  5.1403e-04,  7.4983e-05,  1.1945e-04,  7.1883e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 87, time 262.57, cls_loss 0.0082 cls_loss_mapping 0.0140 cls_loss_causal 0.6003 re_mapping 0.0112 re_causal 0.0323 /// teacc 98.70 lr 0.00010000
+Epoch 89, weight, value: tensor([[ 0.0136, -0.1100, -0.0582,  ..., -0.1081, -0.0603, -0.1122],
+        [ 0.0185, -0.0300,  0.0056,  ...,  0.0470,  0.0678, -0.0221],
+        [-0.0532,  0.0637, -0.0909,  ...,  0.0467,  0.0290, -0.0110],
+        ...,
+        [-0.0627, -0.0516, -0.0597,  ..., -0.0014, -0.0711,  0.0875],
+        [ 0.0630, -0.0088,  0.0268,  ..., -0.0053, -0.0955, -0.0055],
+        [-0.0985, -0.0083, -0.0005,  ..., -0.1110,  0.0310, -0.0835]],
+       device='cuda:0'), grad: tensor([[ 1.7323e-07,  9.5461e-08,  2.6776e-07,  ...,  5.9931e-07,
+          4.4750e-07, -1.2107e-07],
+        [ 8.3819e-09,  1.3066e-06, -7.7114e-07,  ...,  4.8578e-06,
+          2.6897e-06,  2.2929e-06],
+        [ 2.4820e-07, -2.4904e-06,  5.9092e-07,  ..., -3.5018e-06,
+         -2.5127e-06, -1.2852e-07],
+        ...,
+        [ 3.3295e-07,  2.2864e-07,  8.7032e-07,  ..., -1.4938e-05,
+          2.0508e-06, -1.1377e-05],
+        [ 1.4734e-06,  1.6345e-07,  2.6058e-06,  ...,  6.3889e-06,
+          9.3132e-06,  2.3507e-06],
+        [ 1.6401e-06,  5.9139e-08,  2.1998e-06,  ...,  3.1255e-06,
+          2.8208e-05,  1.0524e-06]], device='cuda:0')
+Epoch 89, bias, value: tensor([-0.0063, -0.0297,  0.0086, -0.0172,  0.0125,  0.0054,  0.0183, -0.0054,
+        -0.0281, -0.0033], device='cuda:0'), grad: tensor([-4.1723e-06,  9.0450e-06,  2.7418e-06,  3.0659e-06, -1.1492e-04,
+        -5.5373e-05,  2.2173e-05, -1.1079e-05,  3.2753e-05,  1.1557e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 88, time 262.58, cls_loss 0.0069 cls_loss_mapping 0.0109 cls_loss_causal 0.5865 re_mapping 0.0110 re_causal 0.0312 /// teacc 98.77 lr 0.00010000
+Epoch 90, weight, value: tensor([[ 0.0137, -0.1104, -0.0586,  ..., -0.1088, -0.0613, -0.1154],
+        [ 0.0184, -0.0301,  0.0059,  ...,  0.0466,  0.0677, -0.0225],
+        [-0.0530,  0.0646, -0.0913,  ...,  0.0474,  0.0304, -0.0112],
+        ...,
+        [-0.0627, -0.0520, -0.0598,  ..., -0.0009, -0.0717,  0.0886],
+        [ 0.0631, -0.0089,  0.0273,  ..., -0.0051, -0.0962, -0.0059],
+        [-0.0988, -0.0098, -0.0011,  ..., -0.1125,  0.0314, -0.0826]],
+       device='cuda:0'), grad: tensor([[ 1.5236e-06,  1.1092e-06,  2.5705e-06,  ...,  8.2776e-06,
+          6.5088e-05,  1.2137e-05],
+        [ 1.9204e-06,  1.5711e-06, -7.3537e-06,  ...,  3.1851e-06,
+         -5.9158e-06,  1.1772e-05],
+        [ 1.3085e-06, -2.4447e-07,  3.4813e-06,  ...,  5.9530e-06,
+          4.4107e-06,  6.6981e-06],
+        ...,
+        [-8.8140e-06, -6.2101e-06,  1.7975e-06,  ..., -5.5969e-05,
+          1.5637e-06, -1.3137e-04],
+        [ 2.7940e-07,  6.1607e-07, -8.2180e-06,  ..., -1.2238e-06,
+          6.0089e-06,  8.1956e-06],
+        [ 1.4696e-06,  1.0263e-06,  4.7274e-06,  ...,  2.5392e-05,
+         -7.5281e-05,  6.9439e-05]], device='cuda:0')
+Epoch 90, bias, value: tensor([-0.0068, -0.0302,  0.0093, -0.0178,  0.0125,  0.0058,  0.0181, -0.0050,
+        -0.0281, -0.0030], device='cuda:0'), grad: tensor([ 1.5235e-04,  2.0996e-05,  3.0100e-05,  2.6718e-05,  9.3400e-05,
+         3.9905e-05, -1.0192e-04, -3.6311e-04,  1.4238e-05,  8.7023e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 89, time 262.22, cls_loss 0.0053 cls_loss_mapping 0.0085 cls_loss_causal 0.5950 re_mapping 0.0106 re_causal 0.0315 /// teacc 98.71 lr 0.00010000
+Epoch 91, weight, value: tensor([[ 0.0139, -0.1102, -0.0595,  ..., -0.1095, -0.0612, -0.1155],
+        [ 0.0192, -0.0301,  0.0065,  ...,  0.0469,  0.0681, -0.0234],
+        [-0.0533,  0.0652, -0.0918,  ...,  0.0476,  0.0303, -0.0115],
+        ...,
+        [-0.0629, -0.0519, -0.0600,  ..., -0.0004, -0.0714,  0.0901],
+        [ 0.0630, -0.0096,  0.0280,  ..., -0.0056, -0.0972, -0.0063],
+        [-0.0991, -0.0101, -0.0020,  ..., -0.1132,  0.0310, -0.0835]],
+       device='cuda:0'), grad: tensor([[ 6.7055e-08,  3.3397e-06,  9.9372e-07,  ...,  4.8801e-06,
+          4.2617e-06,  1.9092e-08],
+        [ 1.1129e-07,  1.3663e-06, -2.9132e-05,  ..., -2.5898e-05,
+         -4.7594e-05,  1.3737e-07],
+        [-3.6880e-07, -4.0084e-05,  3.1907e-06,  ..., -4.4078e-05,
+         -3.7193e-05,  4.5169e-08],
+        ...,
+        [ 3.9674e-07,  5.4985e-06,  3.0156e-06,  ...,  8.8438e-06,
+          1.1273e-05, -1.8906e-07],
+        [ 2.5146e-08,  3.3230e-06, -4.3437e-06,  ...,  8.1956e-07,
+          2.0638e-05,  2.8405e-08],
+        [ 8.0559e-08,  2.1746e-07,  5.6857e-07,  ...,  7.7253e-07,
+          1.1045e-06,  3.2550e-07]], device='cuda:0')
+Epoch 91, bias, value: tensor([-0.0064, -0.0301,  0.0092, -0.0185,  0.0126,  0.0061,  0.0186, -0.0042,
+        -0.0286, -0.0038], device='cuda:0'), grad: tensor([-2.0370e-05, -8.6546e-05, -9.4354e-05,  4.8906e-05,  2.0280e-05,
+         5.6684e-05,  7.9647e-06,  2.3142e-05,  3.6120e-05,  8.1509e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 90, time 262.12, cls_loss 0.0069 cls_loss_mapping 0.0105 cls_loss_causal 0.6339 re_mapping 0.0104 re_causal 0.0320 /// teacc 98.83 lr 0.00010000
+Epoch 92, weight, value: tensor([[ 1.3766e-02, -1.1022e-01, -6.0017e-02,  ..., -1.1029e-01,
+         -6.1421e-02, -1.1578e-01],
+        [ 2.0084e-02, -3.0368e-02,  6.6888e-03,  ...,  4.6752e-02,
+          6.8061e-02, -2.4182e-02],
+        [-5.3488e-02,  6.5497e-02, -9.2620e-02,  ...,  4.7774e-02,
+          3.1722e-02, -1.1159e-02],
+        ...,
+        [-6.3126e-02, -5.1962e-02, -5.9789e-02,  ..., -1.1232e-04,
+         -7.1858e-02,  9.1025e-02],
+        [ 6.3028e-02, -9.6692e-03,  2.8991e-02,  ..., -5.3622e-03,
+         -9.8100e-02, -6.8899e-03],
+        [-9.9297e-02, -1.0562e-02, -2.4371e-03,  ..., -1.1417e-01,
+          3.0349e-02, -8.4403e-02]], device='cuda:0'), grad: tensor([[ 1.3504e-08,  6.7567e-07,  8.2189e-07,  ...,  1.7779e-06,
+          2.2799e-06,  3.5111e-07],
+        [ 4.1444e-08,  5.0059e-07, -1.0401e-05,  ..., -9.4399e-06,
+         -1.7196e-05, -5.7481e-06],
+        [ 5.3085e-08, -4.4238e-07,  2.7604e-06,  ...,  3.4757e-06,
+          5.8934e-06,  2.9914e-06],
+        ...,
+        [ 1.2340e-07,  8.6799e-07,  6.0759e-06,  ...,  1.1604e-06,
+          1.6913e-05, -2.1718e-06],
+        [ 1.2713e-07,  2.3618e-06, -9.7789e-08,  ...,  3.8892e-06,
+          8.7172e-06,  7.9582e-07],
+        [ 2.6543e-08,  1.1548e-06, -6.8285e-06,  ...,  4.3921e-06,
+         -3.8952e-05,  1.6605e-06]], device='cuda:0')
+Epoch 92, bias, value: tensor([-0.0061, -0.0303,  0.0093, -0.0183,  0.0130,  0.0059,  0.0182, -0.0040,
+        -0.0280, -0.0046], device='cuda:0'), grad: tensor([ 3.9265e-06, -2.1070e-05,  1.7047e-05,  2.6643e-05,  7.7724e-05,
+        -6.3360e-05,  1.4916e-05,  3.4332e-05,  2.6971e-05, -1.1688e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 91, time 262.70, cls_loss 0.0057 cls_loss_mapping 0.0074 cls_loss_causal 0.5860 re_mapping 0.0107 re_causal 0.0320 /// teacc 98.72 lr 0.00010000
+Epoch 93, weight, value: tensor([[ 0.0134, -0.1111, -0.0601,  ..., -0.1113, -0.0613, -0.1160],
+        [ 0.0201, -0.0309,  0.0075,  ...,  0.0470,  0.0683, -0.0240],
+        [-0.0551,  0.0651, -0.0935,  ...,  0.0474,  0.0321, -0.0119],
+        ...,
+        [-0.0630, -0.0518, -0.0603,  ..., -0.0004, -0.0721,  0.0912],
+        [ 0.0631, -0.0098,  0.0292,  ..., -0.0055, -0.0990, -0.0075],
+        [-0.0997, -0.0107, -0.0032,  ..., -0.1152,  0.0307, -0.0858]],
+       device='cuda:0'), grad: tensor([[ 2.4494e-07,  5.0664e-06,  7.0082e-07,  ...,  1.0632e-05,
+          7.5400e-06,  4.1211e-07],
+        [-3.4086e-07,  2.1756e-05, -1.4745e-05,  ...,  2.1815e-05,
+          1.0923e-05, -2.9691e-06],
+        [-3.0864e-06, -2.5272e-04,  1.3141e-06,  ..., -4.2772e-04,
+         -2.5821e-04, -3.8594e-06],
+        ...,
+        [ 1.6056e-06,  8.2776e-06,  6.7130e-06,  ...,  2.3693e-05,
+          1.4566e-05,  1.9465e-06],
+        [ 2.3115e-06,  1.7536e-04,  3.2280e-06,  ...,  2.8515e-04,
+          1.7810e-04,  1.1306e-06],
+        [ 3.5390e-07,  1.8049e-06,  1.7332e-06,  ...,  4.9211e-06,
+          4.0121e-06,  5.7742e-07]], device='cuda:0')
+Epoch 93, bias, value: tensor([-0.0060, -0.0301,  0.0085, -0.0170,  0.0125,  0.0054,  0.0188, -0.0041,
+        -0.0283, -0.0046], device='cuda:0'), grad: tensor([ 1.8582e-05,  2.4289e-05, -5.9175e-04,  9.6083e-05,  3.0342e-06,
+         3.3200e-05, -3.4451e-05,  3.5465e-05,  4.0483e-04,  1.1049e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 92, time 262.36, cls_loss 0.0054 cls_loss_mapping 0.0082 cls_loss_causal 0.5731 re_mapping 0.0108 re_causal 0.0299 /// teacc 98.69 lr 0.00010000
+Epoch 94, weight, value: tensor([[ 0.0132, -0.1121, -0.0602,  ..., -0.1124, -0.0613, -0.1162],
+        [ 0.0201, -0.0309,  0.0081,  ...,  0.0475,  0.0690, -0.0242],
+        [-0.0549,  0.0659, -0.0944,  ...,  0.0473,  0.0324, -0.0132],
+        ...,
+        [-0.0631, -0.0522, -0.0603,  ..., -0.0002, -0.0726,  0.0924],
+        [ 0.0632, -0.0098,  0.0298,  ..., -0.0051, -0.0995, -0.0074],
+        [-0.1000, -0.0124, -0.0037,  ..., -0.1167,  0.0302, -0.0867]],
+       device='cuda:0'), grad: tensor([[ 9.8255e-08,  2.6554e-05,  2.8461e-05,  ...,  4.1366e-05,
+          3.1203e-05,  0.0000e+00],
+        [ 9.1270e-08,  4.1677e-07,  1.3809e-03,  ...,  1.1950e-03,
+          6.5613e-04,  0.0000e+00],
+        [-3.8091e-07, -6.2943e-05,  2.9624e-05,  ..., -1.1779e-05,
+         -2.8580e-05,  0.0000e+00],
+        ...,
+        [ 5.2946e-07,  8.9034e-06,  1.1951e-05,  ...,  1.9446e-05,
+          2.5019e-05,  0.0000e+00],
+        [ 2.5239e-07, -9.2909e-06, -1.6518e-03,  ..., -1.4362e-03,
+         -6.7329e-04,  0.0000e+00],
+        [ 2.8824e-07,  7.8529e-06,  2.8923e-05,  ...,  3.1263e-05,
+         -6.7472e-05,  0.0000e+00]], device='cuda:0')
+Epoch 94, bias, value: tensor([-0.0057, -0.0298,  0.0085, -0.0174,  0.0128,  0.0056,  0.0184, -0.0039,
+        -0.0280, -0.0053], device='cuda:0'), grad: tensor([ 6.3479e-05,  2.5673e-03, -5.8115e-05,  1.7297e-04, -4.9144e-05,
+         1.5974e-04, -8.0541e-06,  7.6771e-05, -2.7752e-03, -1.5271e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 93, time 262.37, cls_loss 0.0072 cls_loss_mapping 0.0113 cls_loss_causal 0.6233 re_mapping 0.0103 re_causal 0.0313 /// teacc 98.79 lr 0.00010000
+Epoch 95, weight, value: tensor([[ 0.0131, -0.1121, -0.0609,  ..., -0.1138, -0.0614, -0.1163],
+        [ 0.0210, -0.0310,  0.0075,  ...,  0.0466,  0.0700, -0.0239],
+        [-0.0548,  0.0665, -0.0950,  ...,  0.0477,  0.0328, -0.0133],
+        ...,
+        [-0.0640, -0.0526, -0.0594,  ...,  0.0006, -0.0744,  0.0924],
+        [ 0.0635, -0.0099,  0.0320,  ..., -0.0042, -0.0989, -0.0076],
+        [-0.1008, -0.0125, -0.0059,  ..., -0.1170,  0.0299, -0.0863]],
+       device='cuda:0'), grad: tensor([[ 4.9360e-08,  1.3970e-08,  5.6718e-07,  ...,  1.0310e-06,
+         -3.6266e-06,  1.4203e-07],
+        [ 2.5332e-07,  2.7940e-08, -4.0457e-06,  ..., -4.5188e-06,
+         -1.0960e-05,  1.8580e-07],
+        [ 1.1036e-07, -5.4436e-07,  1.6112e-06,  ...,  1.3690e-06,
+          3.2317e-06,  8.9873e-08],
+        ...,
+        [ 6.3051e-07,  9.4529e-08,  3.6936e-06,  ...,  6.8136e-06,
+          6.5416e-06, -6.2818e-07],
+        [ 4.4843e-07,  1.6298e-07, -4.2528e-05,  ..., -9.2089e-05,
+          3.3751e-06,  5.6345e-08],
+        [-8.5821e-07,  1.5367e-08,  2.6841e-06,  ...,  6.1393e-06,
+         -4.7497e-06,  2.4354e-07]], device='cuda:0')
+Epoch 95, bias, value: tensor([-0.0064, -0.0298,  0.0085, -0.0179,  0.0137,  0.0057,  0.0184, -0.0041,
+        -0.0267, -0.0059], device='cuda:0'), grad: tensor([-1.7270e-05, -8.4639e-06,  7.9647e-06,  3.3319e-05,  1.0626e-06,
+         1.4853e-04,  2.0593e-05,  2.0981e-05, -2.1672e-04,  9.9391e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 94, time 262.11, cls_loss 0.0061 cls_loss_mapping 0.0105 cls_loss_causal 0.6150 re_mapping 0.0102 re_causal 0.0301 /// teacc 98.77 lr 0.00010000
+Epoch 96, weight, value: tensor([[ 0.0128, -0.1122, -0.0613,  ..., -0.1157, -0.0623, -0.1165],
+        [ 0.0216, -0.0310,  0.0082,  ...,  0.0466,  0.0702, -0.0244],
+        [-0.0551,  0.0670, -0.0955,  ...,  0.0485,  0.0339, -0.0133],
+        ...,
+        [-0.0638, -0.0530, -0.0597,  ...,  0.0006, -0.0751,  0.0930],
+        [ 0.0632, -0.0102,  0.0322,  ..., -0.0045, -0.1002, -0.0078],
+        [-0.1013, -0.0126, -0.0067,  ..., -0.1179,  0.0304, -0.0866]],
+       device='cuda:0'), grad: tensor([[-5.3585e-05,  3.0268e-08,  1.9029e-05,  ...,  1.0833e-05,
+         -5.3421e-06,  3.8650e-08],
+        [ 8.8587e-06,  4.7497e-08, -1.1055e-06,  ..., -1.3225e-06,
+         -4.3064e-06,  1.1176e-07],
+        [ 9.8497e-06, -7.8045e-07,  2.4363e-05,  ...,  1.2554e-05,
+          1.9688e-06,  3.7393e-07],
+        ...,
+        [ 3.9823e-06,  1.0990e-07,  8.2180e-06,  ...,  4.3362e-06,
+          3.4329e-06, -1.3020e-06],
+        [ 8.4937e-06,  4.6473e-07,  2.7716e-05,  ...,  1.8448e-05,
+          8.9332e-06,  7.9628e-08],
+        [ 2.4363e-05,  1.6298e-08,  8.6606e-05,  ...,  5.0068e-05,
+         -2.1875e-05,  4.1537e-07]], device='cuda:0')
+Epoch 96, bias, value: tensor([-0.0070, -0.0297,  0.0095, -0.0181,  0.0138,  0.0062,  0.0180, -0.0042,
+        -0.0274, -0.0057], device='cuda:0'), grad: tensor([-6.1393e-05,  1.7881e-05,  7.7546e-05, -4.5371e-04,  8.6188e-05,
+         4.9770e-05, -2.9817e-05,  2.6450e-05,  9.9719e-05,  1.8740e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 95----------------------------------------------------
+epoch 95, time 278.80, cls_loss 0.0082 cls_loss_mapping 0.0111 cls_loss_causal 0.5944 re_mapping 0.0103 re_causal 0.0289 /// teacc 98.86 lr 0.00010000
+Epoch 97, weight, value: tensor([[ 0.0128, -0.1125, -0.0623,  ..., -0.1171, -0.0625, -0.1167],
+        [ 0.0220, -0.0311,  0.0079,  ...,  0.0464,  0.0705, -0.0247],
+        [-0.0557,  0.0675, -0.0962,  ...,  0.0487,  0.0343, -0.0135],
+        ...,
+        [-0.0639, -0.0532, -0.0597,  ...,  0.0002, -0.0757,  0.0933],
+        [ 0.0641, -0.0105,  0.0332,  ..., -0.0034, -0.1011, -0.0058],
+        [-0.1015, -0.0127, -0.0072,  ..., -0.1183,  0.0305, -0.0866]],
+       device='cuda:0'), grad: tensor([[ 5.8711e-05,  1.1288e-06,  7.5102e-05,  ...,  4.9584e-06,
+          3.2540e-06,  6.7009e-07],
+        [ 1.4402e-05,  2.2560e-05,  4.1753e-05,  ...,  6.9141e-05,
+          7.3433e-05,  1.0312e-05],
+        [ 5.2124e-05, -4.4137e-05,  3.4690e-05,  ..., -1.0401e-04,
+         -1.3053e-04, -1.5825e-05],
+        ...,
+        [ 4.1080e-04,  3.6843e-06,  2.8706e-04,  ...,  8.6352e-06,
+          1.5467e-05, -9.8348e-06],
+        [ 7.1704e-05,  1.4612e-06, -1.9386e-05,  ..., -1.0842e-04,
+         -2.8163e-05,  1.6754e-06],
+        [ 9.5844e-05,  2.9290e-07,  5.9700e-04,  ...,  4.1053e-06,
+          5.5313e-05,  5.7258e-06]], device='cuda:0')
+Epoch 97, bias, value: tensor([-0.0070, -0.0301,  0.0094, -0.0167,  0.0138,  0.0050,  0.0180, -0.0036,
+        -0.0270, -0.0064], device='cuda:0'), grad: tensor([ 0.0004,  0.0002,  0.0002, -0.0012,  0.0006, -0.0052,  0.0003,  0.0026,
+         0.0004,  0.0016], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 96----------------------------------------------------
+epoch 96, time 278.41, cls_loss 0.0054 cls_loss_mapping 0.0084 cls_loss_causal 0.6091 re_mapping 0.0099 re_causal 0.0298 /// teacc 98.92 lr 0.00010000
+Epoch 98, weight, value: tensor([[ 0.0133, -0.1128, -0.0632,  ..., -0.1181, -0.0627, -0.1168],
+        [ 0.0229, -0.0312,  0.0087,  ...,  0.0467,  0.0714, -0.0247],
+        [-0.0554,  0.0680, -0.0967,  ...,  0.0492,  0.0347, -0.0136],
+        ...,
+        [-0.0646, -0.0533, -0.0600,  ...,  0.0003, -0.0766,  0.0936],
+        [ 0.0640, -0.0110,  0.0330,  ..., -0.0044, -0.1036, -0.0058],
+        [-0.1011, -0.0127, -0.0068,  ..., -0.1181,  0.0308, -0.0868]],
+       device='cuda:0'), grad: tensor([[ 6.6590e-08,  5.3551e-08,  3.4180e-07,  ...,  6.3237e-07,
+          5.3458e-06,  2.6869e-07],
+        [ 4.0978e-08,  2.7707e-07,  7.1712e-07,  ...,  5.0813e-06,
+          8.4564e-06,  3.6769e-06],
+        [-5.7742e-08, -2.5965e-06,  2.0728e-05,  ...,  2.1547e-05,
+          3.9116e-06,  1.7583e-06],
+        ...,
+        [ 8.6613e-08,  3.9814e-07,  3.4850e-06,  ...,  2.3507e-06,
+          1.3024e-05, -4.3772e-06],
+        [ 8.0047e-07,  5.7323e-07, -2.7031e-05,  ..., -2.7537e-05,
+         -2.5816e-06,  3.3230e-06],
+        [ 2.9011e-07,  1.0245e-08,  1.5600e-06,  ...,  4.0680e-06,
+          1.0222e-05,  2.7400e-06]], device='cuda:0')
+Epoch 98, bias, value: tensor([-0.0068, -0.0296,  0.0098, -0.0174,  0.0137,  0.0057,  0.0180, -0.0037,
+        -0.0285, -0.0061], device='cuda:0'), grad: tensor([ 5.0455e-05,  3.2932e-05,  4.7594e-05,  4.8392e-06, -1.1551e-04,
+        -3.0667e-05, -5.9605e-05,  3.1561e-05, -2.7448e-05,  6.5744e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 97, time 262.30, cls_loss 0.0060 cls_loss_mapping 0.0083 cls_loss_causal 0.5627 re_mapping 0.0097 re_causal 0.0281 /// teacc 98.78 lr 0.00010000
+Epoch 99, weight, value: tensor([[ 0.0142, -0.1129, -0.0637,  ..., -0.1188, -0.0645, -0.1168],
+        [ 0.0233, -0.0313,  0.0094,  ...,  0.0473,  0.0721, -0.0246],
+        [-0.0555,  0.0682, -0.0974,  ...,  0.0492,  0.0349, -0.0142],
+        ...,
+        [-0.0648, -0.0533, -0.0603,  ...,  0.0004, -0.0773,  0.0942],
+        [ 0.0636, -0.0112,  0.0331,  ..., -0.0047, -0.1045, -0.0058],
+        [-0.1019, -0.0129, -0.0076,  ..., -0.1188,  0.0322, -0.0873]],
+       device='cuda:0'), grad: tensor([[ 6.4261e-08,  6.1002e-08,  2.3469e-07,  ...,  4.0559e-07,
+          6.2538e-07,  8.1025e-08],
+        [ 1.5274e-07,  1.5041e-07, -3.5502e-06,  ..., -2.2203e-06,
+         -6.0573e-06,  4.2096e-07],
+        [-4.0699e-07, -6.6124e-07,  5.5274e-07,  ..., -4.9360e-07,
+         -1.8161e-06,  4.0513e-07],
+        ...,
+        [-3.5856e-08, -9.5461e-08,  1.5711e-06,  ..., -1.6624e-06,
+          2.4084e-06, -2.5202e-06],
+        [ 7.0315e-08,  1.5367e-07, -1.9129e-06,  ..., -1.1204e-06,
+          3.0976e-06,  3.1199e-07],
+        [ 1.3318e-07,  3.4925e-08,  2.2864e-07,  ...,  5.7742e-07,
+          1.0254e-06,  4.6985e-07]], device='cuda:0')
+Epoch 99, bias, value: tensor([-0.0079, -0.0292,  0.0096, -0.0176,  0.0133,  0.0056,  0.0185, -0.0038,
+        -0.0291, -0.0049], device='cuda:0'), grad: tensor([ 2.3982e-07, -6.1542e-06, -5.1968e-07,  4.4629e-06, -2.0694e-06,
+         7.2345e-06, -5.2452e-06, -2.3767e-06,  3.1888e-06,  1.2368e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 98, time 262.07, cls_loss 0.0076 cls_loss_mapping 0.0099 cls_loss_causal 0.5878 re_mapping 0.0100 re_causal 0.0290 /// teacc 98.83 lr 0.00010000
+Epoch 100, weight, value: tensor([[ 0.0156, -0.1134, -0.0643,  ..., -0.1197, -0.0651, -0.1169],
+        [ 0.0239, -0.0316,  0.0099,  ...,  0.0475,  0.0727, -0.0247],
+        [-0.0560,  0.0688, -0.0983,  ...,  0.0490,  0.0353, -0.0148],
+        ...,
+        [-0.0640, -0.0535, -0.0609,  ..., -0.0011, -0.0780,  0.0932],
+        [ 0.0635, -0.0115,  0.0335,  ..., -0.0045, -0.1056, -0.0056],
+        [-0.1036, -0.0133, -0.0071,  ..., -0.1181,  0.0318, -0.0858]],
+       device='cuda:0'), grad: tensor([[ 3.6787e-07,  7.7765e-08,  2.5099e-07,  ...,  5.2154e-07,
+         -1.2136e-04,  8.4285e-08],
+        [ 2.2165e-07,  1.1222e-07, -4.9314e-07,  ...,  5.7090e-07,
+         -4.0606e-07,  6.2538e-07],
+        [ 3.0687e-07, -8.2003e-07,  9.5926e-07,  ...,  5.2806e-07,
+          3.0501e-07,  3.3155e-07],
+        ...,
+        [-3.2457e-07,  8.9873e-08,  9.2667e-07,  ..., -7.6182e-06,
+          1.6205e-06, -1.2897e-05],
+        [ 2.1569e-06,  1.7229e-08,  6.4187e-06,  ...,  1.2264e-05,
+          4.9770e-06,  6.2725e-07],
+        [ 5.0897e-07,  8.1025e-08,  4.9174e-06,  ...,  1.3314e-05,
+          1.1629e-04,  9.9167e-06]], device='cuda:0')
+Epoch 100, bias, value: tensor([-0.0082, -0.0289,  0.0092, -0.0168,  0.0138,  0.0048,  0.0185, -0.0042,
+        -0.0297, -0.0044], device='cuda:0'), grad: tensor([-4.2701e-04,  5.5730e-06,  5.8338e-06,  5.4955e-05,  4.2021e-06,
+        -1.7154e-04,  2.6494e-05, -2.2143e-05,  6.4850e-05,  4.5872e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 99, time 262.23, cls_loss 0.0053 cls_loss_mapping 0.0078 cls_loss_causal 0.5646 re_mapping 0.0100 re_causal 0.0285 /// teacc 98.91 lr 0.00010000
+Epoch 101, weight, value: tensor([[ 0.0158, -0.1135, -0.0644,  ..., -0.1203, -0.0650, -0.1170],
+        [ 0.0237, -0.0330,  0.0101,  ...,  0.0477,  0.0727, -0.0251],
+        [-0.0554,  0.0703, -0.0986,  ...,  0.0502,  0.0367, -0.0150],
+        ...,
+        [-0.0641, -0.0539, -0.0611,  ..., -0.0012, -0.0784,  0.0937],
+        [ 0.0632, -0.0113,  0.0335,  ..., -0.0044, -0.1051, -0.0057],
+        [-0.1042, -0.0138, -0.0077,  ..., -0.1189,  0.0313, -0.0861]],
+       device='cuda:0'), grad: tensor([[ 1.5832e-08,  4.0047e-08,  1.0328e-06,  ...,  7.9069e-07,
+          1.6931e-06,  2.8871e-08],
+        [ 5.9605e-08, -3.4738e-07, -1.7866e-05,  ..., -9.0972e-06,
+         -3.7849e-05,  2.8051e-06],
+        [ 1.9837e-07, -2.2259e-07,  4.0494e-06,  ...,  3.2932e-06,
+          4.0308e-06,  2.8871e-07],
+        ...,
+        [ 1.1642e-07,  3.6415e-07,  1.9446e-06,  ..., -2.5257e-06,
+          3.1330e-06, -4.1947e-06],
+        [ 7.3202e-07,  4.0047e-08,  1.8761e-05,  ...,  1.4551e-05,
+          1.7866e-05,  2.3749e-07],
+        [ 9.4995e-08,  1.3970e-08,  1.5441e-06,  ...,  1.5004e-06,
+         -7.4971e-07,  1.6298e-07]], device='cuda:0')
+Epoch 101, bias, value: tensor([-0.0076, -0.0291,  0.0104, -0.0173,  0.0142,  0.0053,  0.0178, -0.0044,
+        -0.0295, -0.0051], device='cuda:0'), grad: tensor([ 1.4221e-06, -4.3303e-05,  9.3132e-06, -1.6257e-05,  4.4368e-06,
+        -2.8275e-06,  1.1414e-05, -3.2652e-06,  3.8534e-05,  5.4389e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 100, time 262.57, cls_loss 0.0054 cls_loss_mapping 0.0087 cls_loss_causal 0.5706 re_mapping 0.0097 re_causal 0.0289 /// teacc 98.84 lr 0.00010000
+Epoch 102, weight, value: tensor([[ 0.0157, -0.1140, -0.0653,  ..., -0.1212, -0.0650, -0.1171],
+        [ 0.0260, -0.0332,  0.0101,  ...,  0.0473,  0.0745, -0.0245],
+        [-0.0555,  0.0705, -0.0997,  ...,  0.0500,  0.0365, -0.0156],
+        ...,
+        [-0.0662, -0.0541, -0.0611,  ..., -0.0008, -0.0809,  0.0939],
+        [ 0.0629, -0.0116,  0.0340,  ..., -0.0045, -0.1054, -0.0056],
+        [-0.1053, -0.0139, -0.0088,  ..., -0.1194,  0.0313, -0.0865]],
+       device='cuda:0'), grad: tensor([[-1.2387e-07,  3.4273e-07,  1.4696e-06,  ...,  1.4026e-06,
+          1.3616e-06,  2.0489e-08],
+        [-7.1414e-06, -4.9621e-05, -1.4818e-04,  ..., -1.5938e-04,
+         -1.6308e-04,  2.2911e-07],
+        [ 5.0701e-06,  3.2246e-05,  9.4593e-05,  ...,  1.0419e-04,
+          1.0371e-04,  1.2461e-06],
+        ...,
+        [ 1.6522e-06,  1.0356e-05,  3.1888e-05,  ...,  3.1292e-05,
+          3.4958e-05, -2.5909e-06],
+        [ 1.8999e-07,  4.1723e-07,  1.6363e-06,  ...,  1.5944e-06,
+          3.3397e-06,  1.5832e-07],
+        [ 5.3272e-07,  1.2480e-07,  1.4342e-06,  ...,  1.8477e-06,
+         -5.6159e-07,  6.1188e-07]], device='cuda:0')
+Epoch 102, bias, value: tensor([-0.0077, -0.0281,  0.0098, -0.0168,  0.0143,  0.0055,  0.0181, -0.0051,
+        -0.0293, -0.0056], device='cuda:0'), grad: tensor([ 1.6596e-06, -2.9230e-04,  1.9205e-04,  2.2411e-05,  2.1420e-08,
+         8.7619e-06,  4.3325e-06,  5.8204e-05,  6.8583e-06, -1.9297e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 101, time 262.01, cls_loss 0.0051 cls_loss_mapping 0.0071 cls_loss_causal 0.5731 re_mapping 0.0097 re_causal 0.0279 /// teacc 98.82 lr 0.00010000
+Epoch 103, weight, value: tensor([[ 0.0157, -0.1148, -0.0662,  ..., -0.1221, -0.0650, -0.1173],
+        [ 0.0262, -0.0333,  0.0102,  ...,  0.0473,  0.0744, -0.0249],
+        [-0.0552,  0.0705, -0.1006,  ...,  0.0500,  0.0366, -0.0160],
+        ...,
+        [-0.0662, -0.0541, -0.0610,  ..., -0.0004, -0.0815,  0.0948],
+        [ 0.0631, -0.0113,  0.0347,  ..., -0.0047, -0.1062, -0.0067],
+        [-0.1053, -0.0138, -0.0089,  ..., -0.1193,  0.0319, -0.0865]],
+       device='cuda:0'), grad: tensor([[ 2.4587e-07,  6.4727e-07,  4.3213e-07,  ...,  1.2461e-06,
+          1.5182e-03,  5.9698e-07],
+        [ 1.9036e-06,  1.3309e-06,  1.5080e-05,  ...,  1.6401e-06,
+          6.6280e-05,  7.2181e-05],
+        [ 3.0175e-07, -1.9878e-05,  5.7090e-07,  ..., -2.6330e-05,
+         -1.6078e-05,  5.7928e-07],
+        ...,
+        [-2.6710e-06,  4.6864e-06,  7.0930e-06,  ...,  4.8205e-06,
+          4.5896e-05,  1.6868e-05],
+        [ 2.3376e-07,  1.0803e-05,  1.4352e-06,  ...,  1.5408e-05,
+          3.1918e-05,  1.8571e-06],
+        [ 1.4519e-06,  2.2072e-07,  9.9540e-06,  ...,  3.5483e-06,
+         -1.5888e-03,  2.3618e-05]], device='cuda:0')
+Epoch 103, bias, value: tensor([-0.0077, -0.0286,  0.0093, -0.0173,  0.0150,  0.0057,  0.0182, -0.0050,
+        -0.0294, -0.0052], device='cuda:0'), grad: tensor([ 2.2202e-03,  2.3687e-04, -3.5346e-05, -1.0282e-05, -2.7061e-04,
+         5.5999e-05, -5.5730e-05,  1.1176e-04,  9.5904e-05, -2.3479e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 102, time 262.52, cls_loss 0.0058 cls_loss_mapping 0.0080 cls_loss_causal 0.6027 re_mapping 0.0095 re_causal 0.0274 /// teacc 98.78 lr 0.00010000
+Epoch 104, weight, value: tensor([[ 0.0156, -0.1153, -0.0674,  ..., -0.1236, -0.0654, -0.1174],
+        [ 0.0263, -0.0346,  0.0102,  ...,  0.0471,  0.0742, -0.0250],
+        [-0.0555,  0.0727, -0.1009,  ...,  0.0509,  0.0381, -0.0152],
+        ...,
+        [-0.0658, -0.0563, -0.0611,  ..., -0.0008, -0.0828,  0.0947],
+        [ 0.0630, -0.0113,  0.0349,  ..., -0.0048, -0.1068, -0.0070],
+        [-0.1055, -0.0142, -0.0089,  ..., -0.1196,  0.0313, -0.0866]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  1.0058e-07,  1.7015e-06,  ...,  1.9502e-06,
+          1.7388e-06,  2.7940e-09],
+        [ 4.6566e-09, -6.3777e-05, -1.9538e-04,  ..., -3.7909e-04,
+         -4.5013e-04,  1.4901e-08],
+        [ 7.4506e-09,  5.6773e-05,  1.2755e-04,  ...,  2.8229e-04,
+          3.5739e-04,  8.3819e-09],
+        ...,
+        [-9.3132e-10,  5.2638e-06,  5.8860e-05,  ...,  8.1956e-05,
+          7.3075e-05, -7.2643e-08],
+        [ 2.7008e-08,  5.0291e-07,  7.7784e-06,  ...,  9.2015e-06,
+          1.2204e-05,  4.6566e-09],
+        [ 8.3819e-09,  1.2387e-07,  8.9779e-06,  ...,  8.0243e-06,
+         -1.2957e-05,  2.5146e-08]], device='cuda:0')
+Epoch 104, bias, value: tensor([-0.0081, -0.0288,  0.0104, -0.0174,  0.0166,  0.0062,  0.0186, -0.0055,
+        -0.0301, -0.0060], device='cuda:0'), grad: tensor([ 7.8231e-07, -5.5599e-04,  4.2558e-04, -8.4817e-05,  3.4243e-05,
+         6.3062e-05, -1.3456e-05,  1.1736e-04,  4.2468e-05, -2.8491e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 103, time 262.80, cls_loss 0.0045 cls_loss_mapping 0.0078 cls_loss_causal 0.5787 re_mapping 0.0103 re_causal 0.0280 /// teacc 98.88 lr 0.00010000
+Epoch 105, weight, value: tensor([[ 0.0155, -0.1154, -0.0686,  ..., -0.1252, -0.0657, -0.1175],
+        [ 0.0264, -0.0351,  0.0106,  ...,  0.0471,  0.0744, -0.0251],
+        [-0.0559,  0.0736, -0.1015,  ...,  0.0516,  0.0395, -0.0148],
+        ...,
+        [-0.0655, -0.0563, -0.0611,  ..., -0.0008, -0.0834,  0.0954],
+        [ 0.0631, -0.0117,  0.0351,  ..., -0.0052, -0.1077, -0.0073],
+        [-0.1060, -0.0146, -0.0092,  ..., -0.1201,  0.0316, -0.0867]],
+       device='cuda:0'), grad: tensor([[ 2.8405e-07,  4.1351e-07,  1.5264e-06,  ...,  1.7220e-06,
+         -5.2247e-07,  7.9162e-08],
+        [ 4.0699e-07,  3.0268e-07,  4.0047e-06,  ...,  3.4105e-06,
+          2.4550e-06,  1.8161e-07],
+        [-1.1036e-06, -8.1509e-06,  1.1407e-05,  ..., -2.0210e-06,
+         -5.4240e-06,  9.9558e-07],
+        ...,
+        [ 1.2387e-06,  4.5784e-06,  1.9342e-05,  ...,  1.9461e-05,
+          1.8805e-05,  1.3374e-06],
+        [ 6.8638e-07,  1.2992e-06,  5.4799e-06,  ...,  5.4613e-06,
+          4.0904e-06,  3.2503e-07],
+        [ 9.8255e-07,  1.2387e-07, -3.5930e-06,  ...,  7.0855e-06,
+         -4.5925e-05,  4.6846e-07]], device='cuda:0')
+Epoch 105, bias, value: tensor([-0.0083, -0.0288,  0.0115, -0.0176,  0.0158,  0.0067,  0.0183, -0.0052,
+        -0.0307, -0.0061], device='cuda:0'), grad: tensor([-9.5144e-06,  9.0003e-06, -3.7905e-06, -5.1069e-04,  8.8334e-05,
+         4.4894e-04,  2.6077e-06,  4.6164e-05,  1.3910e-05, -8.4400e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 104, time 262.77, cls_loss 0.0051 cls_loss_mapping 0.0077 cls_loss_causal 0.5943 re_mapping 0.0092 re_causal 0.0275 /// teacc 98.90 lr 0.00010000
+Epoch 106, weight, value: tensor([[ 0.0156, -0.1157, -0.0696,  ..., -0.1258, -0.0674, -0.1176],
+        [ 0.0265, -0.0353,  0.0107,  ...,  0.0473,  0.0744, -0.0253],
+        [-0.0561,  0.0740, -0.1020,  ...,  0.0517,  0.0397, -0.0151],
+        ...,
+        [-0.0654, -0.0564, -0.0612,  ..., -0.0007, -0.0840,  0.0960],
+        [ 0.0631, -0.0119,  0.0357,  ..., -0.0052, -0.1085, -0.0075],
+        [-0.1062, -0.0148, -0.0092,  ..., -0.1200,  0.0331, -0.0870]],
+       device='cuda:0'), grad: tensor([[ 1.3318e-07, -5.4911e-06,  5.5972e-07,  ...,  1.3448e-06,
+         -2.6580e-06,  2.8312e-07],
+        [ 2.8126e-07,  1.6084e-06,  3.9022e-07,  ...,  4.1053e-06,
+          4.8243e-06,  1.3700e-06],
+        [ 1.2433e-06, -1.1265e-05, -3.3844e-06,  ..., -1.6898e-05,
+         -3.1739e-05,  9.7416e-07],
+        ...,
+        [ 2.1234e-07,  1.0766e-06, -2.3007e-05,  ..., -9.6440e-05,
+         -5.8413e-05, -8.9705e-05],
+        [ 3.0175e-07,  6.8434e-06,  6.6347e-06,  ...,  1.9565e-05,
+          2.1651e-05,  9.1046e-06],
+        [ 9.4250e-07,  3.0994e-06,  1.8314e-05,  ...,  7.0810e-05,
+          4.8846e-05,  6.3896e-05]], device='cuda:0')
+Epoch 106, bias, value: tensor([-0.0096, -0.0290,  0.0113, -0.0179,  0.0158,  0.0066,  0.0187, -0.0051,
+        -0.0306, -0.0052], device='cuda:0'), grad: tensor([-6.5982e-05,  1.7166e-05, -3.2902e-05,  2.5421e-05,  5.3346e-05,
+         3.7663e-06,  6.2957e-06, -5.0449e-04,  8.5652e-05,  4.1103e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 105, time 262.68, cls_loss 0.0054 cls_loss_mapping 0.0108 cls_loss_causal 0.6164 re_mapping 0.0099 re_causal 0.0289 /// teacc 98.90 lr 0.00010000
+Epoch 107, weight, value: tensor([[ 0.0155, -0.1162, -0.0711,  ..., -0.1262, -0.0675, -0.1178],
+        [ 0.0266, -0.0354,  0.0123,  ...,  0.0477,  0.0755, -0.0257],
+        [-0.0555,  0.0742, -0.1026,  ...,  0.0516,  0.0395, -0.0153],
+        ...,
+        [-0.0652, -0.0565, -0.0611,  ..., -0.0002, -0.0839,  0.0965],
+        [ 0.0623, -0.0116,  0.0361,  ..., -0.0049, -0.1101, -0.0076],
+        [-0.1066, -0.0148, -0.0116,  ..., -0.1220,  0.0328, -0.0873]],
+       device='cuda:0'), grad: tensor([[ 5.7742e-08, -6.6217e-07,  4.3623e-06,  ...,  4.0345e-06,
+          3.2634e-06,  3.1665e-07],
+        [ 8.2515e-07,  7.9162e-08, -8.7595e-04,  ..., -7.4911e-04,
+         -8.5926e-04,  1.9558e-07],
+        [ 5.0329e-06, -9.5647e-07,  1.5509e-04,  ...,  1.2326e-04,
+          5.4240e-05,  2.5984e-07],
+        ...,
+        [ 2.1514e-07,  1.0803e-07,  5.2184e-05,  ...,  4.0174e-05,
+          4.4078e-05, -2.3972e-06],
+        [ 3.3155e-06,  7.5903e-07,  8.6451e-04,  ...,  7.3004e-04,
+          7.7868e-04, -3.5483e-07],
+        [ 1.1921e-07,  4.6566e-08,  1.1809e-05,  ...,  1.0878e-05,
+          8.5458e-06,  8.8941e-07]], device='cuda:0')
+Epoch 107, bias, value: tensor([-0.0096, -0.0281,  0.0111, -0.0179,  0.0159,  0.0061,  0.0189, -0.0047,
+        -0.0309, -0.0058], device='cuda:0'), grad: tensor([-6.0678e-05, -1.7900e-03,  2.7537e-04, -3.5977e-04,  9.2834e-06,
+        -6.0908e-06,  2.5406e-06,  9.4712e-05,  1.8005e-03,  3.3706e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 106, time 262.70, cls_loss 0.0067 cls_loss_mapping 0.0102 cls_loss_causal 0.6286 re_mapping 0.0094 re_causal 0.0274 /// teacc 98.82 lr 0.00010000
+Epoch 108, weight, value: tensor([[ 0.0158, -0.1164, -0.0719,  ..., -0.1271, -0.0678, -0.1180],
+        [ 0.0266, -0.0356,  0.0134,  ...,  0.0482,  0.0762, -0.0255],
+        [-0.0559,  0.0744, -0.1036,  ...,  0.0513,  0.0396, -0.0162],
+        ...,
+        [-0.0652, -0.0566, -0.0618,  ..., -0.0003, -0.0849,  0.0967],
+        [ 0.0623, -0.0118,  0.0360,  ..., -0.0051, -0.1114, -0.0077],
+        [-0.1069, -0.0149, -0.0113,  ..., -0.1211,  0.0340, -0.0869]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09,  9.9652e-08,  1.3039e-07,  ...,  2.4401e-07,
+         -2.1141e-06,  2.2352e-08],
+        [ 7.0781e-08,  1.9558e-08, -9.5833e-07,  ..., -4.3772e-07,
+         -1.0263e-06,  1.5832e-07],
+        [ 3.8184e-08, -1.4752e-06,  6.0163e-07,  ..., -4.1313e-06,
+         -4.4443e-06,  1.5181e-07],
+        ...,
+        [ 2.8871e-08,  2.0582e-07,  1.5143e-06,  ...,  4.7032e-07,
+          3.0957e-06, -4.1071e-07],
+        [-9.8906e-07,  6.4261e-08, -1.5758e-06,  ..., -5.4017e-08,
+          1.7826e-06,  3.6135e-07],
+        [ 1.4901e-08,  2.0489e-08,  6.3963e-06,  ...,  1.1642e-06,
+          1.8597e-05,  2.5164e-06]], device='cuda:0')
+Epoch 108, bias, value: tensor([-0.0092, -0.0278,  0.0103, -0.0183,  0.0146,  0.0057,  0.0199, -0.0053,
+        -0.0317, -0.0038], device='cuda:0'), grad: tensor([-6.8605e-05,  3.8333e-06, -4.4405e-06,  5.8450e-06, -6.2406e-05,
+        -2.8864e-05,  1.3947e-05,  8.8438e-06,  6.6832e-06,  1.2505e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 107, time 262.67, cls_loss 0.0049 cls_loss_mapping 0.0073 cls_loss_causal 0.5841 re_mapping 0.0093 re_causal 0.0265 /// teacc 98.90 lr 0.00010000
+Epoch 109, weight, value: tensor([[ 0.0159, -0.1167, -0.0724,  ..., -0.1278, -0.0672, -0.1182],
+        [ 0.0265, -0.0363,  0.0132,  ...,  0.0477,  0.0757, -0.0266],
+        [-0.0556,  0.0753, -0.1035,  ...,  0.0522,  0.0411, -0.0161],
+        ...,
+        [-0.0656, -0.0570, -0.0616,  ..., -0.0002, -0.0853,  0.0975],
+        [ 0.0624, -0.0118,  0.0367,  ..., -0.0049, -0.1122, -0.0077],
+        [-0.1072, -0.0151, -0.0117,  ..., -0.1213,  0.0333, -0.0869]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-09, -4.4331e-07,  1.1092e-06,  ...,  1.5702e-06,
+          2.5332e-06, -3.4831e-07],
+        [ 3.8184e-08,  6.2659e-06, -6.0946e-06,  ...,  2.6584e-05,
+          2.5466e-05,  8.8941e-07],
+        [ 1.1455e-07, -9.0227e-06,  1.1511e-05,  ..., -1.4730e-05,
+         -3.5673e-05,  2.1048e-06],
+        ...,
+        [-2.0582e-07,  1.7881e-06, -3.8091e-07,  ..., -2.6003e-05,
+          1.7896e-05, -2.5928e-05],
+        [ 1.3597e-07,  6.4168e-07,  8.9332e-06,  ...,  8.3148e-06,
+          1.1615e-05,  3.4459e-06],
+        [ 3.7253e-08,  7.1712e-08,  6.6981e-06,  ...,  1.4462e-05,
+          6.5118e-06,  1.3582e-05]], device='cuda:0')
+Epoch 109, bias, value: tensor([-0.0076, -0.0284,  0.0112, -0.0185,  0.0150,  0.0058,  0.0194, -0.0052,
+        -0.0316, -0.0048], device='cuda:0'), grad: tensor([-8.4490e-06,  4.4197e-05,  1.5214e-05,  8.2105e-06,  6.8247e-05,
+        -4.1246e-04,  1.2708e-04, -4.8995e-05,  1.1569e-04,  9.1493e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 108, time 262.62, cls_loss 0.0044 cls_loss_mapping 0.0070 cls_loss_causal 0.5666 re_mapping 0.0092 re_causal 0.0273 /// teacc 98.76 lr 0.00010000
+Epoch 110, weight, value: tensor([[ 1.6203e-02, -1.1709e-01, -7.1949e-02,  ..., -1.2855e-01,
+         -6.7447e-02, -1.1835e-01],
+        [ 2.6430e-02, -3.6436e-02,  1.3321e-02,  ...,  4.7838e-02,
+          7.5649e-02, -2.6720e-02],
+        [-5.6039e-02,  7.5361e-02, -1.0440e-01,  ...,  5.2119e-02,
+          4.1277e-02, -1.6652e-02],
+        ...,
+        [-6.5382e-02, -5.6908e-02, -6.1856e-02,  ..., -7.2966e-05,
+         -8.5671e-02,  9.8264e-02],
+        [ 6.2353e-02, -1.1939e-02,  3.6987e-02,  ..., -4.7849e-03,
+         -1.1255e-01, -7.7472e-03],
+        [-1.0759e-01, -1.5421e-02, -1.2209e-02,  ..., -1.2193e-01,
+          3.3372e-02, -8.7601e-02]], device='cuda:0'), grad: tensor([[ 2.2817e-06,  3.0082e-07,  1.2159e-05,  ...,  9.3579e-06,
+          7.7933e-06,  9.3132e-09],
+        [ 1.5721e-06,  4.2282e-07,  6.0238e-06,  ...,  8.1435e-06,
+          8.1733e-06,  8.2888e-08],
+        [ 2.4531e-06, -2.6319e-06,  8.3223e-06,  ...,  1.0416e-05,
+          9.2909e-06,  3.6322e-08],
+        ...,
+        [ 9.4436e-07,  5.2527e-07,  2.8312e-06,  ...,  4.5858e-06,
+          6.5751e-06, -5.2527e-07],
+        [-3.2783e-07,  1.8068e-07, -3.3319e-05,  ..., -1.9506e-05,
+          3.5204e-06,  2.2352e-08],
+        [-2.0504e-05,  6.5286e-07, -3.6567e-05,  ..., -8.7500e-05,
+         -1.1933e-04,  2.3190e-07]], device='cuda:0')
+Epoch 110, bias, value: tensor([-0.0073, -0.0286,  0.0107, -0.0199,  0.0149,  0.0076,  0.0198, -0.0049,
+        -0.0317, -0.0052], device='cuda:0'), grad: tensor([ 5.3614e-05,  3.5703e-05,  4.8667e-05,  2.0266e-04,  2.4930e-05,
+         1.0289e-05,  6.2466e-05,  2.0862e-05, -7.1287e-05, -3.8815e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 109, time 262.82, cls_loss 0.0042 cls_loss_mapping 0.0062 cls_loss_causal 0.5934 re_mapping 0.0091 re_causal 0.0271 /// teacc 98.85 lr 0.00010000
+Epoch 111, weight, value: tensor([[ 0.0161, -0.1179, -0.0728,  ..., -0.1308, -0.0674, -0.1184],
+        [ 0.0269, -0.0371,  0.0126,  ...,  0.0469,  0.0753, -0.0283],
+        [-0.0559,  0.0764, -0.1055,  ...,  0.0525,  0.0420, -0.0167],
+        ...,
+        [-0.0660, -0.0574, -0.0610,  ...,  0.0005, -0.0857,  0.0995],
+        [ 0.0624, -0.0121,  0.0374,  ..., -0.0044, -0.1131, -0.0078],
+        [-0.1076, -0.0157, -0.0126,  ..., -0.1220,  0.0331, -0.0881]],
+       device='cuda:0'), grad: tensor([[ 4.9360e-07,  2.9486e-06,  2.7940e-05,  ...,  1.2517e-05,
+          2.2709e-05,  4.3772e-08],
+        [ 1.0030e-06,  9.1735e-07, -1.2910e-04,  ..., -4.7237e-05,
+         -9.8944e-05,  1.7602e-07],
+        [ 2.6450e-07, -3.2043e-04, -2.2364e-04,  ..., -4.1199e-04,
+         -3.6478e-04,  5.4669e-07],
+        ...,
+        [ 5.0291e-07,  2.5518e-07,  1.3351e-05,  ...,  6.9141e-06,
+          1.1772e-05, -1.8468e-06],
+        [ 6.5193e-07,  3.0851e-04,  2.9325e-04,  ...,  4.2462e-04,
+          4.0865e-04,  9.9652e-08],
+        [ 8.2608e-07,  3.4180e-06,  4.5747e-06,  ...,  5.8785e-06,
+          5.1409e-06,  2.7381e-07]], device='cuda:0')
+Epoch 111, bias, value: tensor([-0.0072, -0.0296,  0.0111, -0.0198,  0.0151,  0.0075,  0.0202, -0.0044,
+        -0.0314, -0.0056], device='cuda:0'), grad: tensor([ 1.8721e-03, -3.3951e-04, -9.1743e-04,  1.7989e-04,  2.7016e-05,
+        -2.6360e-03,  1.9395e-04,  1.5152e-04,  1.1816e-03,  2.9016e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 110, time 262.55, cls_loss 0.0039 cls_loss_mapping 0.0060 cls_loss_causal 0.5753 re_mapping 0.0090 re_causal 0.0269 /// teacc 98.90 lr 0.00010000
+Epoch 112, weight, value: tensor([[ 0.0161, -0.1184, -0.0747,  ..., -0.1317, -0.0675, -0.1185],
+        [ 0.0269, -0.0373,  0.0134,  ...,  0.0474,  0.0759, -0.0285],
+        [-0.0553,  0.0767, -0.1060,  ...,  0.0522,  0.0420, -0.0191],
+        ...,
+        [-0.0671, -0.0570, -0.0619,  ...,  0.0006, -0.0860,  0.1011],
+        [ 0.0626, -0.0123,  0.0375,  ..., -0.0045, -0.1140, -0.0078],
+        [-0.1077, -0.0161, -0.0127,  ..., -0.1221,  0.0332, -0.0883]],
+       device='cuda:0'), grad: tensor([[-4.9919e-07,  4.4703e-08,  6.3796e-07,  ...,  7.8976e-07,
+         -3.9116e-06,  4.8615e-07],
+        [ 2.6077e-08,  2.2352e-07,  5.0396e-05,  ...,  5.4806e-05,
+          1.5154e-05,  3.6150e-05],
+        [ 3.6322e-08, -5.5879e-08,  8.2478e-06,  ...,  8.9929e-06,
+          2.1756e-06,  6.8918e-06],
+        ...,
+        [ 8.9407e-08, -1.4920e-06, -2.2221e-04,  ..., -2.4176e-04,
+         -6.6221e-05, -1.6284e-04],
+        [ 2.1886e-07,  2.9802e-07,  8.3297e-06,  ...,  1.0274e-05,
+          3.3304e-06,  7.7412e-06],
+        [ 9.1363e-07,  3.7067e-07,  9.3341e-05,  ...,  9.9003e-05,
+          2.8789e-05,  6.4731e-05]], device='cuda:0')
+Epoch 112, bias, value: tensor([-0.0076, -0.0290,  0.0101, -0.0197,  0.0152,  0.0077,  0.0200, -0.0041,
+        -0.0316, -0.0056], device='cuda:0'), grad: tensor([-1.3523e-05,  1.4579e-04,  2.7403e-05,  2.1982e-04,  1.4022e-05,
+        -5.6088e-05,  2.7083e-06, -6.4373e-04,  2.9325e-05,  2.7418e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 111, time 262.24, cls_loss 0.0051 cls_loss_mapping 0.0068 cls_loss_causal 0.5767 re_mapping 0.0093 re_causal 0.0271 /// teacc 98.78 lr 0.00010000
+Epoch 113, weight, value: tensor([[ 0.0164, -0.1189, -0.0747,  ..., -0.1327, -0.0669, -0.1191],
+        [ 0.0264, -0.0388,  0.0147,  ...,  0.0488,  0.0760, -0.0263],
+        [-0.0550,  0.0776, -0.1052,  ...,  0.0523,  0.0433, -0.0193],
+        ...,
+        [-0.0674, -0.0569, -0.0641,  ..., -0.0007, -0.0878,  0.0998],
+        [ 0.0627, -0.0127,  0.0380,  ..., -0.0044, -0.1151, -0.0072],
+        [-0.1084, -0.0166, -0.0131,  ..., -0.1226,  0.0335, -0.0888]],
+       device='cuda:0'), grad: tensor([[-2.0303e-07,  9.9652e-07,  4.3735e-06,  ...,  2.6580e-06,
+          5.2564e-06,  1.5087e-07],
+        [ 2.0489e-08,  1.3346e-06, -8.4102e-05,  ..., -1.0163e-04,
+         -1.2791e-04,  5.3737e-07],
+        [ 5.4017e-08, -8.7172e-06,  3.9250e-05,  ...,  3.1710e-05,
+          4.1366e-05,  4.6846e-07],
+        ...,
+        [ 1.3970e-08,  2.1011e-06,  6.4299e-06,  ...,  9.0525e-06,
+          1.5065e-05, -2.5630e-06],
+        [ 2.9802e-08,  9.3598e-07,  9.7007e-06,  ...,  1.0282e-05,
+          1.4991e-05,  3.6787e-07],
+        [ 6.0536e-08,  3.7067e-07,  8.1137e-06,  ...,  1.0297e-05,
+          9.3132e-06,  5.1968e-07]], device='cuda:0')
+Epoch 113, bias, value: tensor([-0.0067, -0.0283,  0.0104, -0.0196,  0.0150,  0.0078,  0.0194, -0.0052,
+        -0.0316, -0.0056], device='cuda:0'), grad: tensor([ 1.9707e-06, -1.6892e-04,  5.2303e-05,  3.8743e-05,  1.5028e-05,
+        -1.0878e-05,  9.1642e-06,  1.6659e-05,  3.3915e-05,  1.2383e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 112, time 262.63, cls_loss 0.0060 cls_loss_mapping 0.0089 cls_loss_causal 0.5642 re_mapping 0.0092 re_causal 0.0263 /// teacc 98.68 lr 0.00010000
+Epoch 114, weight, value: tensor([[ 0.0165, -0.1191, -0.0750,  ..., -0.1336, -0.0671, -0.1194],
+        [ 0.0265, -0.0389,  0.0151,  ...,  0.0488,  0.0759, -0.0261],
+        [-0.0546,  0.0782, -0.1060,  ...,  0.0521,  0.0436, -0.0200],
+        ...,
+        [-0.0666, -0.0573, -0.0643,  ..., -0.0008, -0.0885,  0.1004],
+        [ 0.0627, -0.0130,  0.0377,  ..., -0.0048, -0.1171, -0.0073],
+        [-0.1096, -0.0168, -0.0137,  ..., -0.1219,  0.0343, -0.0885]],
+       device='cuda:0'), grad: tensor([[ 5.9605e-08,  8.6613e-08,  5.5507e-07,  ...,  7.4040e-07,
+          8.1882e-06,  4.1910e-08],
+        [ 8.1956e-08,  3.5390e-07,  8.4098e-07,  ...,  2.0880e-06,
+          1.4706e-06,  4.6846e-07],
+        [ 3.0547e-07, -3.4738e-06,  1.6578e-06,  ..., -1.9539e-06,
+          1.0267e-05,  2.2911e-07],
+        ...,
+        [ 2.6077e-07,  3.0082e-07,  2.0713e-06,  ..., -1.6885e-06,
+          2.8573e-06, -4.3362e-06],
+        [ 5.5600e-07,  1.8133e-06,  2.8014e-06,  ...,  6.3218e-06,
+          5.3346e-06,  1.6764e-07],
+        [ 1.6019e-07,  2.8871e-08,  1.5274e-06,  ...,  3.1423e-06,
+         -1.3828e-05,  1.4901e-06]], device='cuda:0')
+Epoch 114, bias, value: tensor([-0.0066, -0.0286,  0.0101, -0.0195,  0.0134,  0.0082,  0.0201, -0.0048,
+        -0.0328, -0.0046], device='cuda:0'), grad: tensor([ 2.7139e-06,  8.0690e-06,  1.7956e-05, -7.5139e-06, -5.3421e-06,
+        -2.6867e-05,  1.1183e-05, -5.2620e-07,  2.2873e-05, -2.2620e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 113, time 262.32, cls_loss 0.0069 cls_loss_mapping 0.0081 cls_loss_causal 0.6039 re_mapping 0.0093 re_causal 0.0267 /// teacc 98.89 lr 0.00010000
+Epoch 115, weight, value: tensor([[ 1.6279e-02, -1.2023e-01, -7.5680e-02,  ..., -1.3473e-01,
+         -6.7798e-02, -1.1952e-01],
+        [ 2.6654e-02, -3.8665e-02,  1.4047e-02,  ...,  4.7737e-02,
+          7.5665e-02, -2.6870e-02],
+        [-5.4584e-02,  7.8155e-02, -1.0695e-01,  ...,  5.2231e-02,
+          4.3406e-02, -1.9961e-02],
+        ...,
+        [-6.6596e-02, -5.7833e-02, -6.3101e-02,  ...,  1.1827e-04,
+         -8.8103e-02,  1.0358e-01],
+        [ 6.2843e-02, -1.2553e-02,  3.7690e-02,  ..., -4.8990e-03,
+         -1.1811e-01, -7.4039e-03],
+        [-1.0964e-01, -1.6972e-02, -1.3936e-02,  ..., -1.2239e-01,
+          3.5119e-02, -8.9203e-02]], device='cuda:0'), grad: tensor([[ 2.0582e-07,  5.2620e-07,  6.0350e-07,  ...,  1.0477e-06,
+          2.2408e-06,  2.3283e-08],
+        [-9.2268e-05, -4.4048e-05, -8.0407e-05,  ..., -2.1684e-04,
+         -2.4915e-04,  1.8347e-07],
+        [ 6.0588e-05,  2.1726e-05,  5.2392e-05,  ...,  1.3506e-04,
+          1.5140e-04,  3.9861e-07],
+        ...,
+        [ 2.5034e-05,  1.2569e-05,  2.3782e-05,  ...,  5.8889e-05,
+          6.8545e-05, -1.8319e-06],
+        [ 1.5646e-06,  4.2729e-06, -8.5402e-07,  ...,  7.9423e-06,
+          1.0446e-05,  3.8557e-07],
+        [ 2.1141e-07,  6.4541e-07,  1.9316e-06,  ...,  2.2035e-06,
+          7.2643e-07,  5.4389e-07]], device='cuda:0')
+Epoch 115, bias, value: tensor([-0.0064, -0.0295,  0.0095, -0.0189,  0.0115,  0.0083,  0.0193, -0.0028,
+        -0.0328, -0.0043], device='cuda:0'), grad: tensor([ 1.9027e-06, -2.9969e-04,  1.8430e-04,  1.0198e-06, -1.3625e-06,
+         1.0036e-05,  4.4554e-06,  8.2016e-05,  1.1921e-05,  5.3495e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 114, time 262.76, cls_loss 0.0050 cls_loss_mapping 0.0067 cls_loss_causal 0.5725 re_mapping 0.0087 re_causal 0.0267 /// teacc 98.75 lr 0.00010000
+Epoch 116, weight, value: tensor([[ 0.0165, -0.1233, -0.0736,  ..., -0.1355, -0.0673, -0.1198],
+        [ 0.0267, -0.0389,  0.0140,  ...,  0.0474,  0.0754, -0.0271],
+        [-0.0547,  0.0783, -0.1073,  ...,  0.0522,  0.0435, -0.0204],
+        ...,
+        [-0.0666, -0.0579, -0.0633,  ..., -0.0002, -0.0885,  0.1018],
+        [ 0.0629, -0.0112,  0.0385,  ..., -0.0045, -0.1182, -0.0078],
+        [-0.1098, -0.0173, -0.0144,  ..., -0.1215,  0.0357, -0.0867]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00,  2.0117e-07,  ...,  4.5262e-07,
+          6.6102e-05,  3.0547e-07],
+        [ 2.6077e-08,  0.0000e+00, -2.8256e-06,  ..., -8.2795e-07,
+         -3.4925e-06,  2.4457e-06],
+        [ 1.7695e-08,  9.3132e-10,  7.4785e-07,  ...,  4.2021e-06,
+          4.7356e-05,  2.5425e-06],
+        ...,
+        [ 1.2107e-08,  0.0000e+00,  1.0841e-06,  ...,  2.0545e-06,
+          2.5585e-05,  4.8578e-05],
+        [ 1.2107e-08, -9.3132e-10, -4.5542e-07,  ...,  4.0885e-07,
+          4.6778e-04,  6.5845e-07],
+        [ 1.0245e-08,  0.0000e+00,  7.1805e-07,  ..., -9.9614e-06,
+         -8.1491e-04, -6.0171e-05]], device='cuda:0')
+Epoch 116, bias, value: tensor([-0.0057, -0.0300,  0.0092, -0.0186,  0.0113,  0.0082,  0.0190, -0.0038,
+        -0.0324, -0.0031], device='cuda:0'), grad: tensor([ 1.7643e-04,  5.4538e-06,  1.3351e-04,  2.6032e-05,  1.0848e-04,
+         4.0221e-04,  4.3035e-05,  2.1958e-04,  1.2589e-03, -2.3727e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 115, time 262.67, cls_loss 0.0041 cls_loss_mapping 0.0084 cls_loss_causal 0.5411 re_mapping 0.0093 re_causal 0.0263 /// teacc 98.86 lr 0.00010000
+Epoch 117, weight, value: tensor([[ 1.5501e-02, -1.2369e-01, -7.4265e-02,  ..., -1.3655e-01,
+         -6.7484e-02, -1.2011e-01],
+        [ 2.7600e-02, -3.8894e-02,  1.4475e-02,  ...,  4.7533e-02,
+          7.6454e-02, -2.6830e-02],
+        [-5.4890e-02,  7.9197e-02, -1.0808e-01,  ...,  5.2533e-02,
+          4.3578e-02, -2.0176e-02],
+        ...,
+        [-6.7356e-02, -5.8163e-02, -6.3525e-02,  ..., -6.7993e-05,
+         -8.9330e-02,  1.0205e-01],
+        [ 6.4459e-02, -1.2048e-02,  3.9543e-02,  ..., -4.5599e-03,
+         -1.1873e-01, -8.5964e-03],
+        [-1.1071e-01, -1.7562e-02, -1.5174e-02,  ..., -1.2203e-01,
+          3.5619e-02, -8.6844e-02]], device='cuda:0'), grad: tensor([[-4.3400e-07,  2.8163e-06, -3.2522e-06,  ...,  5.5321e-06,
+          1.9018e-06,  3.0641e-07],
+        [ 4.3176e-06,  7.3425e-06,  3.3882e-06,  ...,  2.1324e-05,
+          1.3120e-05,  2.2113e-05],
+        [-1.1474e-04, -1.4007e-04, -1.1456e-04,  ..., -4.8542e-04,
+         -2.1672e-04,  4.4890e-07],
+        ...,
+        [ 4.1164e-07,  3.8184e-06, -5.4110e-07,  ..., -1.3150e-05,
+          7.2867e-06, -2.3261e-05],
+        [ 1.0735e-04,  1.0407e-04,  1.0937e-04,  ...,  4.2748e-04,
+          1.6594e-04,  4.6194e-07],
+        [ 1.0133e-06,  9.9614e-06,  1.4491e-06,  ...,  2.4617e-05,
+          1.1943e-05, -4.2431e-06]], device='cuda:0')
+Epoch 117, bias, value: tensor([-0.0064, -0.0293,  0.0091, -0.0190,  0.0118,  0.0079,  0.0194, -0.0039,
+        -0.0316, -0.0034], device='cuda:0'), grad: tensor([-1.1832e-05,  7.6413e-05, -1.0090e-03,  5.0902e-05, -3.0696e-06,
+        -1.4491e-05,  1.0915e-05,  2.9802e-06,  8.9979e-04, -1.5302e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 116, time 262.56, cls_loss 0.0043 cls_loss_mapping 0.0065 cls_loss_causal 0.5482 re_mapping 0.0088 re_causal 0.0264 /// teacc 98.74 lr 0.00010000
+Epoch 118, weight, value: tensor([[ 1.5297e-02, -1.2388e-01, -7.4985e-02,  ..., -1.3730e-01,
+         -6.7543e-02, -1.2019e-01],
+        [ 2.7546e-02, -3.8949e-02,  1.4371e-02,  ...,  4.7277e-02,
+          7.6496e-02, -2.7339e-02],
+        [-5.3680e-02,  7.9598e-02, -1.0889e-01,  ...,  5.2872e-02,
+          4.3715e-02, -2.0307e-02],
+        ...,
+        [-6.7722e-02, -5.8542e-02, -6.3357e-02,  ...,  5.5455e-05,
+         -8.9460e-02,  1.0228e-01],
+        [ 6.4626e-02, -1.1799e-02,  4.0416e-02,  ..., -4.3290e-03,
+         -1.1950e-01, -8.8830e-03],
+        [-1.1105e-01, -1.7790e-02, -1.5079e-02,  ..., -1.2232e-01,
+          3.4556e-02, -8.7034e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.6566e-09,  1.6671e-07,  ...,  1.6484e-07,
+          2.6263e-07,  9.3132e-10],
+        [ 0.0000e+00,  1.4901e-08, -4.8727e-06,  ..., -3.4645e-06,
+         -8.3968e-06,  4.9360e-08],
+        [ 3.7253e-09, -9.1270e-08,  5.9977e-07,  ...,  4.6100e-07,
+          2.0675e-07,  3.2596e-08],
+        ...,
+        [ 9.3132e-10,  5.9605e-08,  7.0967e-06,  ...,  5.5768e-06,
+          8.2403e-06, -8.2329e-07],
+        [ 9.3132e-10,  3.7253e-09, -5.3421e-06,  ..., -5.5470e-06,
+          1.5832e-06,  2.3283e-08],
+        [ 9.3132e-10,  9.3132e-10,  2.5630e-06,  ...,  3.0380e-06,
+          3.8445e-05,  6.2492e-07]], device='cuda:0')
+Epoch 118, bias, value: tensor([-0.0064, -0.0298,  0.0091, -0.0192,  0.0133,  0.0073,  0.0198, -0.0038,
+        -0.0312, -0.0043], device='cuda:0'), grad: tensor([ 5.1782e-07, -1.2487e-05,  1.6596e-06, -5.1968e-07, -1.4269e-04,
+         5.9698e-07,  6.2678e-07,  2.4781e-05, -1.5661e-05,  1.4329e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 117, time 262.86, cls_loss 0.0043 cls_loss_mapping 0.0057 cls_loss_causal 0.5525 re_mapping 0.0090 re_causal 0.0266 /// teacc 98.87 lr 0.00010000
+Epoch 119, weight, value: tensor([[ 0.0153, -0.1240, -0.0753,  ..., -0.1385, -0.0678, -0.1209],
+        [ 0.0276, -0.0393,  0.0146,  ...,  0.0469,  0.0764, -0.0279],
+        [-0.0537,  0.0799, -0.1095,  ...,  0.0521,  0.0433, -0.0206],
+        ...,
+        [-0.0677, -0.0585, -0.0636,  ...,  0.0008, -0.0892,  0.1026],
+        [ 0.0647, -0.0119,  0.0406,  ..., -0.0044, -0.1200, -0.0092],
+        [-0.1110, -0.0179, -0.0153,  ..., -0.1220,  0.0349, -0.0870]],
+       device='cuda:0'), grad: tensor([[ 8.0094e-08,  6.6124e-08,  1.8254e-07,  ...,  1.0049e-06,
+          3.5483e-07,  2.1718e-06],
+        [ 2.8498e-07,  2.3935e-06, -3.2261e-06,  ...,  5.8934e-06,
+          8.9873e-07,  8.3968e-06],
+        [ 4.8429e-08, -5.5730e-05,  8.2515e-07,  ..., -2.2352e-04,
+         -1.4579e-04, -6.8665e-05],
+        ...,
+        [-1.1194e-06,  5.2840e-05,  1.2992e-06,  ...,  1.8287e-04,
+          1.4400e-04, -2.3961e-05],
+        [ 6.5193e-08,  1.0710e-07,  1.3784e-06,  ...,  3.1423e-06,
+          1.0747e-06,  2.7344e-06],
+        [ 6.7428e-07,  4.0047e-08,  2.0117e-06,  ...,  5.5730e-06,
+          4.8615e-07,  9.4101e-06]], device='cuda:0')
+Epoch 119, bias, value: tensor([-0.0065, -0.0302,  0.0084, -0.0192,  0.0131,  0.0076,  0.0199, -0.0032,
+        -0.0314, -0.0040], device='cuda:0'), grad: tensor([ 5.1111e-06,  1.1943e-05, -2.8992e-04,  4.1962e-05,  9.3281e-05,
+        -2.7269e-05,  2.4587e-07,  1.2636e-04,  1.2904e-05,  2.5585e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 118, time 262.88, cls_loss 0.0039 cls_loss_mapping 0.0067 cls_loss_causal 0.5704 re_mapping 0.0091 re_causal 0.0260 /// teacc 98.83 lr 0.00010000
+Epoch 120, weight, value: tensor([[ 0.0152, -0.1247, -0.0749,  ..., -0.1390, -0.0677, -0.1212],
+        [ 0.0280, -0.0393,  0.0148,  ...,  0.0466,  0.0766, -0.0285],
+        [-0.0539,  0.0801, -0.1098,  ...,  0.0520,  0.0435, -0.0208],
+        ...,
+        [-0.0680, -0.0584, -0.0637,  ...,  0.0012, -0.0896,  0.1033],
+        [ 0.0647, -0.0119,  0.0410,  ..., -0.0043, -0.1206, -0.0093],
+        [-0.1112, -0.0180, -0.0158,  ..., -0.1227,  0.0349, -0.0874]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-08,  4.7497e-08,  5.0440e-06,  ...,  2.3767e-06,
+          3.2410e-07,  2.4121e-07],
+        [ 2.2724e-07,  4.9360e-08, -3.9116e-08,  ...,  4.1813e-05,
+          1.1876e-05,  2.2203e-05],
+        [ 6.7987e-08, -3.8333e-06,  2.1886e-06,  ...,  2.1338e-04,
+          6.9499e-05,  1.1361e-04],
+        ...,
+        [ 4.6566e-07,  1.9465e-06,  3.4645e-07,  ..., -2.7823e-04,
+         -7.0512e-05, -1.4997e-04],
+        [ 1.3039e-08,  7.7300e-08, -2.6613e-05,  ..., -1.0528e-05,
+          4.0606e-07,  6.8638e-07],
+        [ 1.1548e-07,  8.1956e-08,  5.9418e-07,  ...,  3.1218e-06,
+          2.1622e-05,  2.0340e-06]], device='cuda:0')
+Epoch 120, bias, value: tensor([-0.0063, -0.0305,  0.0081, -0.0191,  0.0131,  0.0072,  0.0201, -0.0027,
+        -0.0316, -0.0042], device='cuda:0'), grad: tensor([-9.4250e-06,  7.3433e-05,  3.6597e-04,  4.1336e-05, -1.6761e-04,
+        -7.7039e-06,  2.1219e-05, -4.4012e-04, -5.8353e-05,  1.8096e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 119----------------------------------------------------
+epoch 119, time 279.51, cls_loss 0.0038 cls_loss_mapping 0.0056 cls_loss_causal 0.5365 re_mapping 0.0088 re_causal 0.0250 /// teacc 98.98 lr 0.00010000
+Epoch 121, weight, value: tensor([[ 0.0152, -0.1248, -0.0753,  ..., -0.1399, -0.0679, -0.1213],
+        [ 0.0279, -0.0394,  0.0150,  ...,  0.0466,  0.0768, -0.0287],
+        [-0.0538,  0.0801, -0.1104,  ...,  0.0520,  0.0442, -0.0219],
+        ...,
+        [-0.0681, -0.0580, -0.0636,  ...,  0.0018, -0.0900,  0.1042],
+        [ 0.0646, -0.0121,  0.0412,  ..., -0.0041, -0.1215, -0.0094],
+        [-0.1113, -0.0182, -0.0162,  ..., -0.1234,  0.0349, -0.0877]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-09,  2.7940e-08,  6.2026e-07,  ...,  4.7497e-07,
+          1.2303e-06,  5.2620e-08],
+        [ 1.2107e-08,  9.4529e-08, -4.3586e-06,  ..., -1.4529e-06,
+         -6.8694e-06,  1.7555e-07],
+        [ 1.4901e-08, -8.3260e-07,  7.8045e-07,  ..., -2.2678e-07,
+         -4.5123e-07,  6.4261e-08],
+        ...,
+        [ 2.4680e-08,  4.1630e-07,  2.4326e-06,  ...,  1.7025e-06,
+          6.8592e-07, -1.6661e-06],
+        [ 2.7707e-07,  7.0781e-08, -9.9614e-06,  ..., -2.0750e-06,
+          5.2452e-06,  7.0781e-08],
+        [ 2.4680e-08,  1.5367e-08,  1.4016e-06,  ...,  1.6419e-06,
+         -6.7521e-08,  1.1139e-06]], device='cuda:0')
+Epoch 121, bias, value: tensor([-0.0065, -0.0305,  0.0081, -0.0200,  0.0138,  0.0074,  0.0201, -0.0020,
+        -0.0320, -0.0048], device='cuda:0'), grad: tensor([-3.7146e-04, -7.7263e-06,  3.6415e-06, -8.4281e-05,  2.6003e-06,
+         1.0717e-04,  6.1154e-05,  4.0159e-06,  9.1968e-07,  2.8396e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 120, time 262.94, cls_loss 0.0037 cls_loss_mapping 0.0086 cls_loss_causal 0.5859 re_mapping 0.0085 re_causal 0.0252 /// teacc 98.82 lr 0.00010000
+Epoch 122, weight, value: tensor([[ 0.0152, -0.1253, -0.0756,  ..., -0.1406, -0.0681, -0.1215],
+        [ 0.0278, -0.0395,  0.0155,  ...,  0.0466,  0.0770, -0.0290],
+        [-0.0539,  0.0805, -0.1111,  ...,  0.0519,  0.0446, -0.0221],
+        ...,
+        [-0.0680, -0.0581, -0.0641,  ...,  0.0020, -0.0904,  0.1046],
+        [ 0.0651, -0.0123,  0.0411,  ..., -0.0042, -0.1222, -0.0094],
+        [-0.1115, -0.0184, -0.0167,  ..., -0.1239,  0.0351, -0.0878]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.9232e-07,  4.6194e-06,  ...,  6.0126e-06,
+          1.0595e-05,  4.1910e-09],
+        [ 0.0000e+00, -1.4961e-05, -3.9196e-04,  ..., -5.1212e-04,
+         -9.1648e-04,  5.4948e-08],
+        [ 0.0000e+00,  3.4235e-06,  1.0359e-04,  ...,  1.3423e-04,
+          2.3806e-04,  1.2573e-08],
+        ...,
+        [-0.0000e+00,  1.0379e-05,  2.6608e-04,  ...,  3.4738e-04,
+          6.1893e-04, -1.8487e-07],
+        [ 0.0000e+00,  1.2200e-07,  1.2629e-06,  ...,  1.6112e-06,
+          5.6848e-06,  8.3819e-09],
+        [ 0.0000e+00,  3.4692e-07,  9.4473e-06,  ...,  1.1854e-05,
+          2.2918e-05,  7.9162e-08]], device='cuda:0')
+Epoch 122, bias, value: tensor([-0.0064, -0.0305,  0.0076, -0.0197,  0.0140,  0.0082,  0.0194, -0.0017,
+        -0.0326, -0.0049], device='cuda:0'), grad: tensor([-5.3257e-05, -2.1286e-03,  5.5838e-04,  1.4320e-05,  3.7134e-05,
+        -2.5138e-05,  7.0035e-05,  1.4410e-03,  2.0355e-05,  6.7770e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 121, time 262.65, cls_loss 0.0039 cls_loss_mapping 0.0061 cls_loss_causal 0.5597 re_mapping 0.0080 re_causal 0.0246 /// teacc 98.89 lr 0.00010000
+Epoch 123, weight, value: tensor([[ 0.0152, -0.1253, -0.0756,  ..., -0.1409, -0.0682, -0.1215],
+        [ 0.0277, -0.0396,  0.0134,  ...,  0.0451,  0.0758, -0.0292],
+        [-0.0539,  0.0809, -0.1117,  ...,  0.0519,  0.0448, -0.0223],
+        ...,
+        [-0.0680, -0.0578, -0.0627,  ...,  0.0030, -0.0888,  0.1045],
+        [ 0.0651, -0.0125,  0.0425,  ..., -0.0029, -0.1226, -0.0073],
+        [-0.1115, -0.0195, -0.0171,  ..., -0.1243,  0.0350, -0.0881]],
+       device='cuda:0'), grad: tensor([[ 7.9162e-09, -1.5367e-08,  5.8115e-06,  ...,  1.7146e-06,
+          8.4341e-06,  5.3085e-08],
+        [ 8.3819e-09,  1.4389e-07, -2.0817e-05,  ..., -3.2261e-06,
+         -2.5943e-05,  2.4419e-06],
+        [ 1.5832e-08, -3.3788e-06,  3.9861e-06,  ..., -3.9674e-06,
+          2.1141e-06, -3.7253e-09],
+        ...,
+        [ 1.8626e-09,  3.0715e-06, -2.8033e-06,  ...,  1.2107e-06,
+          8.8140e-06, -6.6385e-06],
+        [ 1.0710e-08,  7.2643e-08, -7.4878e-07,  ...,  1.3337e-06,
+          1.4760e-05,  2.2259e-07],
+        [ 2.7940e-09,  2.3749e-08, -1.8999e-06,  ..., -5.8375e-06,
+         -2.6271e-05,  3.4980e-06]], device='cuda:0')
+Epoch 123, bias, value: tensor([-0.0064, -0.0325,  0.0075, -0.0198,  0.0138,  0.0079,  0.0196, -0.0001,
+        -0.0315, -0.0052], device='cuda:0'), grad: tensor([ 1.4268e-05, -3.3289e-05,  6.3777e-06,  1.2860e-05,  8.2105e-06,
+         2.7493e-06,  6.4820e-06, -5.3719e-06,  6.9216e-06, -1.9088e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 122, time 262.75, cls_loss 0.0042 cls_loss_mapping 0.0079 cls_loss_causal 0.5629 re_mapping 0.0084 re_causal 0.0239 /// teacc 98.83 lr 0.00010000
+Epoch 124, weight, value: tensor([[ 0.0149, -0.1258, -0.0764,  ..., -0.1417, -0.0684, -0.1216],
+        [ 0.0285, -0.0397,  0.0139,  ...,  0.0453,  0.0763, -0.0293],
+        [-0.0562,  0.0811, -0.1113,  ...,  0.0534,  0.0445, -0.0199],
+        ...,
+        [-0.0681, -0.0580, -0.0628,  ...,  0.0030, -0.0893,  0.1048],
+        [ 0.0653, -0.0146,  0.0412,  ..., -0.0054, -0.1231, -0.0098],
+        [-0.1117, -0.0199, -0.0181,  ..., -0.1247,  0.0342, -0.0883]],
+       device='cuda:0'), grad: tensor([[ 6.0536e-09,  8.3167e-07,  2.4606e-06,  ...,  3.2634e-06,
+          1.8822e-06,  1.0012e-07],
+        [ 3.7253e-09,  6.2631e-07,  8.0287e-05,  ...,  1.0532e-04,
+         -3.1918e-05,  1.3553e-05],
+        [ 6.8918e-08, -7.4804e-05, -1.6332e-05,  ..., -9.3341e-05,
+         -4.8548e-05,  3.8045e-07],
+        ...,
+        [ 4.2375e-08,  7.5297e-07, -1.1450e-04,  ..., -1.4174e-04,
+          1.1183e-05, -1.6630e-05],
+        [ 3.6322e-08,  7.0691e-05,  4.3690e-05,  ...,  1.1563e-04,
+          6.1691e-05,  1.0310e-06],
+        [ 2.7940e-09,  1.3690e-07,  3.6377e-06,  ...,  3.3863e-06,
+         -1.8626e-08,  9.1502e-07]], device='cuda:0')
+Epoch 124, bias, value: tensor([-0.0059, -0.0322,  0.0080, -0.0190,  0.0150,  0.0079,  0.0194, -0.0003,
+        -0.0330, -0.0064], device='cuda:0'), grad: tensor([ 6.5081e-06,  2.1958e-04, -1.5879e-04, -6.5148e-05,  6.5491e-06,
+         7.1764e-05,  3.1590e-06, -2.9874e-04,  2.0647e-04,  8.4043e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 123, time 262.75, cls_loss 0.0037 cls_loss_mapping 0.0068 cls_loss_causal 0.5826 re_mapping 0.0083 re_causal 0.0266 /// teacc 98.84 lr 0.00010000
+Epoch 125, weight, value: tensor([[ 0.0149, -0.1260, -0.0769,  ..., -0.1426, -0.0686, -0.1218],
+        [ 0.0286, -0.0398,  0.0151,  ...,  0.0460,  0.0769, -0.0295],
+        [-0.0563,  0.0817, -0.1123,  ...,  0.0531,  0.0446, -0.0200],
+        ...,
+        [-0.0689, -0.0585, -0.0643,  ...,  0.0025, -0.0904,  0.1052],
+        [ 0.0653, -0.0144,  0.0416,  ..., -0.0054, -0.1243, -0.0099],
+        [-0.1121, -0.0213, -0.0191,  ..., -0.1247,  0.0344, -0.0879]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  7.4040e-08,  2.5006e-07,  ...,  2.3656e-07,
+          8.9034e-07,  9.7789e-09],
+        [ 4.6566e-10,  6.5006e-07, -1.9651e-07,  ...,  9.6578e-07,
+          3.7700e-06,  3.4366e-07],
+        [ 9.3132e-10, -9.9167e-06,  3.9162e-07,  ..., -1.9446e-05,
+         -1.7896e-05,  1.3504e-08],
+        ...,
+        [ 1.8626e-09,  5.2620e-07,  1.0822e-06,  ...,  1.2470e-06,
+          1.3476e-06, -4.6566e-09],
+        [ 9.3132e-10,  1.3970e-07, -7.0184e-06,  ..., -2.3209e-06,
+          1.3737e-06,  7.6368e-08],
+        [ 9.3132e-10,  1.5367e-08,  5.2080e-06,  ...,  1.1073e-06,
+          7.6108e-06,  2.1085e-06]], device='cuda:0')
+Epoch 125, bias, value: tensor([-0.0059, -0.0314,  0.0075, -0.0187,  0.0148,  0.0082,  0.0201, -0.0013,
+        -0.0332, -0.0060], device='cuda:0'), grad: tensor([ 1.2107e-06,  7.5959e-06, -1.9804e-05,  9.3877e-07, -4.6670e-05,
+         1.2498e-06,  3.3706e-05,  4.0680e-06, -1.0453e-05,  2.8104e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 124, time 262.92, cls_loss 0.0038 cls_loss_mapping 0.0056 cls_loss_causal 0.5601 re_mapping 0.0077 re_causal 0.0240 /// teacc 98.85 lr 0.00010000
+Epoch 126, weight, value: tensor([[ 0.0146, -0.1266, -0.0774,  ..., -0.1439, -0.0701, -0.1223],
+        [ 0.0287, -0.0401,  0.0152,  ...,  0.0460,  0.0769, -0.0297],
+        [-0.0572,  0.0812, -0.1128,  ...,  0.0527,  0.0446, -0.0202],
+        ...,
+        [-0.0689, -0.0580, -0.0644,  ...,  0.0027, -0.0905,  0.1056],
+        [ 0.0655, -0.0145,  0.0420,  ..., -0.0054, -0.1249, -0.0100],
+        [-0.1123, -0.0220, -0.0196,  ..., -0.1252,  0.0357, -0.0881]],
+       device='cuda:0'), grad: tensor([[ 1.7602e-07,  3.1013e-07,  1.0272e-06,  ...,  8.0746e-07,
+          2.7306e-06,  5.0291e-08],
+        [ 2.7940e-07,  2.8070e-06,  3.1322e-05,  ...,  2.6003e-05,
+          1.4760e-05,  4.4517e-06],
+        [ 2.9206e-06,  5.3830e-07,  1.7777e-05,  ...,  7.3202e-06,
+         -7.6741e-06,  9.9372e-07],
+        ...,
+        [ 1.1586e-06,  5.1968e-07,  6.7204e-06,  ...,  4.2394e-06,
+          5.6587e-06, -1.0431e-06],
+        [ 1.0664e-06, -2.9162e-05, -1.0455e-04,  ..., -6.7055e-05,
+         -1.0557e-05, -6.1244e-06],
+        [ 3.7439e-07,  2.9895e-07,  2.9113e-06,  ...,  2.6021e-06,
+         -1.0490e-05,  1.1967e-06]], device='cuda:0')
+Epoch 126, bias, value: tensor([-0.0065, -0.0316,  0.0067, -0.0182,  0.0147,  0.0087,  0.0195, -0.0010,
+        -0.0331, -0.0057], device='cuda:0'), grad: tensor([ 4.6417e-06,  7.8857e-05,  3.5077e-05, -2.8342e-05,  9.5069e-06,
+         1.4091e-04,  3.0510e-06,  1.8656e-05, -2.5129e-04, -1.1116e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 125, time 262.43, cls_loss 0.0044 cls_loss_mapping 0.0060 cls_loss_causal 0.5895 re_mapping 0.0083 re_causal 0.0249 /// teacc 98.86 lr 0.00010000
+Epoch 127, weight, value: tensor([[ 0.0147, -0.1269, -0.0781,  ..., -0.1447, -0.0706, -0.1230],
+        [ 0.0287, -0.0403,  0.0152,  ...,  0.0458,  0.0768, -0.0302],
+        [-0.0590,  0.0816, -0.1131,  ...,  0.0526,  0.0456, -0.0203],
+        ...,
+        [-0.0696, -0.0584, -0.0646,  ...,  0.0027, -0.0905,  0.1060],
+        [ 0.0677, -0.0137,  0.0423,  ..., -0.0049, -0.1262, -0.0101],
+        [-0.1131, -0.0238, -0.0202,  ..., -0.1262,  0.0352, -0.0884]],
+       device='cuda:0'), grad: tensor([[-1.1556e-05,  2.7940e-09, -2.8256e-06,  ...,  1.4715e-07,
+         -4.4733e-05,  1.1176e-08],
+        [ 2.9746e-06,  2.7940e-09, -9.3691e-07,  ..., -1.3253e-06,
+          8.7246e-06,  3.5390e-08],
+        [ 1.2480e-07, -3.3528e-08,  1.9073e-06,  ...,  1.1642e-06,
+          3.1665e-07,  1.7695e-08],
+        ...,
+        [ 1.4063e-07,  1.8626e-08,  8.2608e-07,  ...,  5.4762e-07,
+          1.1306e-06, -7.8231e-08],
+        [ 6.5193e-07,  2.7940e-09, -1.6447e-06,  ..., -6.3330e-07,
+          2.9691e-06,  4.3306e-07],
+        [ 4.6380e-07,  9.3132e-10,  1.4799e-06,  ...,  1.1986e-06,
+         -8.1509e-06,  2.9989e-07]], device='cuda:0')
+Epoch 127, bias, value: tensor([-0.0067, -0.0319,  0.0065, -0.0190,  0.0142,  0.0098,  0.0201, -0.0009,
+        -0.0327, -0.0055], device='cuda:0'), grad: tensor([-1.7989e-04,  4.0650e-05,  4.6343e-06, -4.9621e-06,  2.1219e-05,
+         1.2629e-05,  1.0788e-04,  3.0641e-06,  8.2180e-06, -1.3731e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 126, time 262.54, cls_loss 0.0038 cls_loss_mapping 0.0060 cls_loss_causal 0.5580 re_mapping 0.0085 re_causal 0.0245 /// teacc 98.87 lr 0.00010000
+Epoch 128, weight, value: tensor([[ 0.0146, -0.1274, -0.0781,  ..., -0.1462, -0.0706, -0.1231],
+        [ 0.0299, -0.0406,  0.0151,  ...,  0.0459,  0.0769, -0.0303],
+        [-0.0594,  0.0827, -0.1137,  ...,  0.0535,  0.0465, -0.0203],
+        ...,
+        [-0.0693, -0.0591, -0.0645,  ...,  0.0025, -0.0913,  0.1062],
+        [ 0.0677, -0.0142,  0.0426,  ..., -0.0052, -0.1270, -0.0103],
+        [-0.1135, -0.0240, -0.0195,  ..., -0.1264,  0.0358, -0.0883]],
+       device='cuda:0'), grad: tensor([[-7.8510e-07,  1.2107e-08,  2.3190e-07,  ...,  2.1048e-07,
+         -7.1805e-07,  8.3819e-09],
+        [ 7.7300e-08,  4.6566e-08, -4.6164e-05,  ..., -2.8953e-05,
+         -5.2363e-05,  2.8498e-07],
+        [ 2.0582e-07, -1.0785e-06,  7.4413e-07,  ..., -4.3772e-07,
+         -4.2934e-07,  4.6566e-08],
+        ...,
+        [ 3.4459e-08,  5.1688e-07,  4.0263e-05,  ...,  2.4840e-05,
+          4.6700e-05, -1.2470e-06],
+        [ 6.9849e-08,  1.5832e-08, -1.5274e-07,  ...,  1.8962e-06,
+          1.9372e-06,  5.2154e-08],
+        [ 7.5437e-08,  8.3819e-09,  3.8408e-06,  ...,  3.3267e-06,
+         -5.9232e-06,  4.7404e-07]], device='cuda:0')
+Epoch 128, bias, value: tensor([-0.0061, -0.0321,  0.0076, -0.0191,  0.0138,  0.0089,  0.0200, -0.0009,
+        -0.0332, -0.0051], device='cuda:0'), grad: tensor([-9.7156e-06, -9.2208e-05,  3.1292e-06,  1.6928e-05,  2.9340e-05,
+        -6.8009e-05,  1.9550e-05,  8.2791e-05,  3.7104e-05, -1.8746e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 127, time 262.06, cls_loss 0.0039 cls_loss_mapping 0.0057 cls_loss_causal 0.5335 re_mapping 0.0084 re_causal 0.0237 /// teacc 98.91 lr 0.00010000
+Epoch 129, weight, value: tensor([[ 0.0149, -0.1277, -0.0786,  ..., -0.1468, -0.0720, -0.1233],
+        [ 0.0300, -0.0410,  0.0157,  ...,  0.0465,  0.0777, -0.0299],
+        [-0.0596,  0.0832, -0.1142,  ...,  0.0536,  0.0467, -0.0205],
+        ...,
+        [-0.0694, -0.0592, -0.0650,  ...,  0.0020, -0.0922,  0.1061],
+        [ 0.0673, -0.0144,  0.0430,  ..., -0.0055, -0.1275, -0.0104],
+        [-0.1140, -0.0242, -0.0203,  ..., -0.1269,  0.0365, -0.0885]],
+       device='cuda:0'), grad: tensor([[ 9.1270e-08,  6.5193e-08,  2.1607e-07,  ...,  3.0361e-07,
+          4.7404e-07,  1.5460e-07],
+        [ 2.0675e-06,  2.6822e-07, -1.1492e-04,  ..., -8.7142e-05,
+         -1.9991e-04, -3.4243e-05],
+        [-4.5169e-07, -1.6289e-06,  7.1526e-07,  ..., -1.4016e-06,
+         -1.1874e-06,  5.6718e-07],
+        ...,
+        [-8.5682e-06,  7.2736e-07,  5.1767e-05,  ...,  3.7521e-05,
+          9.1195e-05,  8.8587e-06],
+        [ 9.7696e-07,  3.4180e-07,  1.7453e-06,  ...,  1.7844e-06,
+          4.9621e-06,  1.4091e-06],
+        [ 2.4997e-06,  1.3039e-08,  5.0306e-05,  ...,  3.9607e-05,
+          8.6784e-05,  1.7703e-05]], device='cuda:0')
+Epoch 129, bias, value: tensor([-0.0069, -0.0316,  0.0075, -0.0189,  0.0141,  0.0091,  0.0200, -0.0011,
+        -0.0334, -0.0050], device='cuda:0'), grad: tensor([-5.9128e-05, -3.4523e-04,  4.4890e-07,  7.9200e-06,  3.8326e-05,
+         5.3458e-06,  9.0301e-06,  1.3351e-04,  1.6257e-05,  1.9348e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 128, time 257.48, cls_loss 0.0024 cls_loss_mapping 0.0046 cls_loss_causal 0.5360 re_mapping 0.0085 re_causal 0.0249 /// teacc 98.93 lr 0.00010000
+Epoch 130, weight, value: tensor([[ 0.0146, -0.1278, -0.0788,  ..., -0.1475, -0.0730, -0.1237],
+        [ 0.0300, -0.0409,  0.0160,  ...,  0.0467,  0.0780, -0.0300],
+        [-0.0597,  0.0834, -0.1144,  ...,  0.0540,  0.0470, -0.0203],
+        ...,
+        [-0.0691, -0.0593, -0.0652,  ...,  0.0018, -0.0926,  0.1063],
+        [ 0.0677, -0.0146,  0.0435,  ..., -0.0056, -0.1279, -0.0106],
+        [-0.1146, -0.0243, -0.0208,  ..., -0.1272,  0.0369, -0.0886]],
+       device='cuda:0'), grad: tensor([[ 1.2843e-06,  3.4180e-07,  6.9439e-06,  ...,  4.0755e-06,
+          1.0341e-05,  1.2107e-08],
+        [-4.4703e-05,  5.4017e-08, -2.3305e-04,  ..., -1.1259e-04,
+         -1.8966e-04,  1.1735e-07],
+        [ 2.3469e-07, -2.2072e-06,  2.2911e-06,  ..., -3.6042e-06,
+         -3.6750e-06,  1.3970e-08],
+        ...,
+        [ 1.5181e-07,  8.6334e-07,  1.1530e-06,  ...,  2.3730e-06,
+          4.2431e-06, -5.6345e-07],
+        [ 2.8536e-05,  1.3597e-07,  1.4174e-04,  ...,  6.6280e-05,
+          1.2565e-04,  1.8626e-08],
+        [ 1.8347e-07,  7.6368e-08,  6.9812e-06,  ...,  4.2915e-06,
+          6.7018e-06,  2.9150e-07]], device='cuda:0')
+Epoch 130, bias, value: tensor([-0.0073, -0.0314,  0.0079, -0.0191,  0.0146,  0.0091,  0.0200, -0.0013,
+        -0.0334, -0.0051], device='cuda:0'), grad: tensor([ 2.7090e-05, -4.4799e-04,  2.2948e-06,  7.6368e-06,  9.1672e-05,
+         1.3137e-04, -1.4877e-04,  8.0764e-06,  2.9230e-04,  3.5822e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 129, time 261.35, cls_loss 0.0042 cls_loss_mapping 0.0062 cls_loss_causal 0.5495 re_mapping 0.0081 re_causal 0.0240 /// teacc 98.82 lr 0.00010000
+Epoch 131, weight, value: tensor([[ 0.0142, -0.1284, -0.0798,  ..., -0.1485, -0.0731, -0.1240],
+        [ 0.0301, -0.0414,  0.0162,  ...,  0.0467,  0.0779, -0.0306],
+        [-0.0594,  0.0840, -0.1148,  ...,  0.0547,  0.0479, -0.0200],
+        ...,
+        [-0.0691, -0.0593, -0.0655,  ...,  0.0014, -0.0930,  0.1063],
+        [ 0.0674, -0.0151,  0.0441,  ..., -0.0058, -0.1285, -0.0106],
+        [-0.1152, -0.0244, -0.0213,  ..., -0.1277,  0.0369, -0.0890]],
+       device='cuda:0'), grad: tensor([[ 7.4040e-07,  4.9360e-08,  7.2680e-06,  ...,  3.0417e-06,
+          6.2771e-06,  4.0978e-08],
+        [-2.4904e-06,  2.7940e-08, -2.6003e-05,  ..., -1.2584e-05,
+         -2.3827e-05, -9.0431e-07],
+        [-1.2647e-06, -5.4501e-06,  3.2987e-06,  ..., -1.4871e-05,
+         -8.9034e-07, -1.6019e-07],
+        ...,
+        [ 4.7125e-07,  2.3562e-07,  7.4580e-06,  ...,  4.9882e-06,
+          6.2063e-06,  1.9651e-07],
+        [ 2.3656e-06,  5.0701e-06,  2.1309e-05,  ...,  2.6047e-05,
+          1.0610e-05,  5.6531e-07],
+        [ 9.6858e-08,  2.7940e-09,  1.6512e-06,  ...,  8.5216e-07,
+          9.2760e-07,  3.1851e-07]], device='cuda:0')
+Epoch 131, bias, value: tensor([-0.0076, -0.0316,  0.0082, -0.0189,  0.0144,  0.0094,  0.0203, -0.0012,
+        -0.0335, -0.0053], device='cuda:0'), grad: tensor([ 1.4633e-05, -4.9263e-05, -1.1452e-05, -1.9327e-05, -2.5425e-07,
+        -1.7628e-05, -8.9873e-07,  1.5989e-05,  6.3479e-05,  4.6901e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 130, time 262.81, cls_loss 0.0033 cls_loss_mapping 0.0065 cls_loss_causal 0.5523 re_mapping 0.0080 re_causal 0.0249 /// teacc 98.85 lr 0.00010000
+Epoch 132, weight, value: tensor([[ 0.0141, -0.1288, -0.0804,  ..., -0.1492, -0.0732, -0.1241],
+        [ 0.0305, -0.0414,  0.0172,  ...,  0.0475,  0.0786, -0.0295],
+        [-0.0596,  0.0844, -0.1157,  ...,  0.0546,  0.0482, -0.0203],
+        ...,
+        [-0.0691, -0.0594, -0.0663,  ...,  0.0009, -0.0938,  0.1062],
+        [ 0.0676, -0.0152,  0.0446,  ..., -0.0057, -0.1292, -0.0107],
+        [-0.1157, -0.0247, -0.0222,  ..., -0.1281,  0.0357, -0.0892]],
+       device='cuda:0'), grad: tensor([[ 3.4459e-08,  1.1828e-07,  1.7881e-07,  ...,  4.5542e-07,
+          1.8533e-06,  3.1665e-08],
+        [ 4.6566e-08,  5.4017e-08, -5.8301e-06,  ..., -1.1539e-06,
+         -4.4294e-06,  9.6764e-07],
+        [ 2.3283e-08, -1.3541e-06,  2.9150e-07,  ..., -1.1139e-05,
+         -1.4238e-05,  1.0245e-07],
+        ...,
+        [ 4.3772e-08,  4.8243e-07,  4.7497e-07,  ...,  2.2948e-06,
+          8.4490e-06, -3.8035e-06],
+        [ 9.6858e-08,  7.4506e-08,  3.1758e-06,  ...,  1.4389e-06,
+          5.5097e-06,  2.9337e-07],
+        [ 2.1979e-07,  8.8476e-08, -7.9069e-07,  ...,  8.7637e-07,
+         -3.5781e-06,  2.6729e-07]], device='cuda:0')
+Epoch 132, bias, value: tensor([-0.0079, -0.0308,  0.0080, -0.0192,  0.0156,  0.0091,  0.0209, -0.0018,
+        -0.0334, -0.0061], device='cuda:0'), grad: tensor([ 3.0436e-06, -6.1132e-06, -2.4229e-05, -2.3365e-05,  7.2159e-06,
+         4.0561e-05, -8.2701e-06,  8.3745e-06,  1.1414e-05, -8.7470e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 131, time 262.47, cls_loss 0.0056 cls_loss_mapping 0.0095 cls_loss_causal 0.6045 re_mapping 0.0077 re_causal 0.0241 /// teacc 98.84 lr 0.00010000
+Epoch 133, weight, value: tensor([[ 0.0139, -0.1291, -0.0806,  ..., -0.1500, -0.0752, -0.1269],
+        [ 0.0322, -0.0417,  0.0175,  ...,  0.0474,  0.0792, -0.0297],
+        [-0.0595,  0.0851, -0.1162,  ...,  0.0551,  0.0497, -0.0202],
+        ...,
+        [-0.0697, -0.0599, -0.0665,  ...,  0.0010, -0.0950,  0.1067],
+        [ 0.0676, -0.0153,  0.0461,  ..., -0.0054, -0.1294, -0.0105],
+        [-0.1171, -0.0254, -0.0230,  ..., -0.1295,  0.0378, -0.0887]],
+       device='cuda:0'), grad: tensor([[ 2.0489e-08,  1.5181e-07,  4.3586e-07,  ...,  5.2433e-07,
+         -4.1008e-05,  1.7416e-07],
+        [ 1.5832e-08,  1.8217e-06,  9.7826e-06,  ...,  1.1675e-05,
+          1.4296e-06, -7.2829e-06],
+        [ 8.3819e-08, -1.3515e-05, -2.6263e-07,  ..., -1.9699e-05,
+          1.8328e-05,  3.7998e-07],
+        ...,
+        [ 4.8429e-08,  2.9430e-06,  2.1812e-06,  ...,  5.7220e-06,
+          1.0215e-05,  3.5204e-07],
+        [ 5.0105e-07,  6.8210e-06, -3.4839e-05,  ..., -1.8626e-05,
+         -2.6785e-06, -3.9302e-07],
+        [ 1.6205e-07,  2.4959e-07,  2.3656e-06,  ...,  2.1383e-06,
+          1.0234e-04,  6.0257e-07]], device='cuda:0')
+Epoch 133, bias, value: tensor([-0.0089, -0.0307,  0.0088, -0.0183,  0.0148,  0.0073,  0.0207, -0.0020,
+        -0.0330, -0.0045], device='cuda:0'), grad: tensor([-1.1772e-04,  2.8506e-05,  1.3426e-05,  4.5709e-06, -1.8716e-04,
+         1.7315e-05,  4.3005e-05,  1.9714e-05, -3.8981e-05,  2.1744e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 132, time 262.58, cls_loss 0.0037 cls_loss_mapping 0.0062 cls_loss_causal 0.5709 re_mapping 0.0083 re_causal 0.0248 /// teacc 98.82 lr 0.00010000
+Epoch 134, weight, value: tensor([[ 0.0137, -0.1291, -0.0807,  ..., -0.1512, -0.0746, -0.1273],
+        [ 0.0333, -0.0422,  0.0180,  ...,  0.0473,  0.0791, -0.0302],
+        [-0.0591,  0.0861, -0.1167,  ...,  0.0560,  0.0507, -0.0204],
+        ...,
+        [-0.0693, -0.0609, -0.0664,  ...,  0.0012, -0.0956,  0.1075],
+        [ 0.0667, -0.0154,  0.0462,  ..., -0.0057, -0.1307, -0.0108],
+        [-0.1174, -0.0256, -0.0239,  ..., -0.1303,  0.0372, -0.0889]],
+       device='cuda:0'), grad: tensor([[ 6.7055e-08,  2.5146e-08,  3.7160e-07,  ...,  4.5542e-07,
+         -3.0920e-07,  2.8871e-08],
+        [ 9.4716e-07,  1.3970e-08,  4.6007e-07,  ...,  8.1360e-06,
+          1.8664e-06,  3.4105e-06],
+        [ 6.2995e-06, -3.3528e-07,  3.2037e-05,  ...,  3.4213e-05,
+          4.8336e-07,  9.8906e-07],
+        ...,
+        [-1.0198e-06,  1.9744e-07,  1.3150e-06,  ..., -9.4175e-06,
+         -8.0839e-07, -5.9679e-06],
+        [-7.1302e-06,  1.0245e-08, -3.0637e-05,  ..., -2.8715e-05,
+          9.8906e-07,  3.6415e-07],
+        [ 1.0524e-07,  2.4214e-08,  3.2131e-07,  ...,  1.0198e-06,
+          3.8370e-07,  3.5390e-07]], device='cuda:0')
+Epoch 134, bias, value: tensor([-0.0079, -0.0309,  0.0095, -0.0185,  0.0159,  0.0072,  0.0194, -0.0019,
+        -0.0336, -0.0053], device='cuda:0'), grad: tensor([-3.9279e-05,  2.1279e-05,  8.9884e-05, -7.1302e-06,  5.3123e-06,
+         2.3067e-05,  9.8124e-06, -3.6597e-05, -8.2672e-05,  1.6287e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 133, time 262.32, cls_loss 0.0037 cls_loss_mapping 0.0054 cls_loss_causal 0.5429 re_mapping 0.0085 re_causal 0.0246 /// teacc 98.80 lr 0.00010000
+Epoch 135, weight, value: tensor([[ 0.0134, -0.1298, -0.0810,  ..., -0.1519, -0.0747, -0.1275],
+        [ 0.0346, -0.0438,  0.0180,  ...,  0.0466,  0.0781, -0.0306],
+        [-0.0590,  0.0870, -0.1155,  ...,  0.0572,  0.0533, -0.0207],
+        ...,
+        [-0.0693, -0.0611, -0.0666,  ...,  0.0011, -0.0962,  0.1080],
+        [ 0.0662, -0.0154,  0.0461,  ..., -0.0057, -0.1315, -0.0108],
+        [-0.1178, -0.0257, -0.0243,  ..., -0.1311,  0.0371, -0.0891]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-08,  2.7940e-08,  1.7416e-07,  ...,  5.2899e-07,
+          3.3993e-07,  4.9453e-07],
+        [ 4.2003e-07,  1.1921e-07,  1.6801e-06,  ...,  4.7609e-06,
+          4.6529e-06,  4.2170e-06],
+        [ 5.3737e-07, -4.2561e-07,  2.1011e-06,  ...,  1.1541e-05,
+          1.2070e-05,  1.1690e-05],
+        ...,
+        [ 2.7008e-08,  1.3877e-07,  5.6624e-07,  ..., -2.7716e-05,
+         -3.0205e-05, -3.0637e-05],
+        [-2.1271e-06, -3.6508e-07,  5.9530e-06,  ...,  7.1898e-07,
+          3.5614e-06,  2.7008e-06],
+        [ 2.3469e-07,  2.6077e-08,  2.9169e-06,  ...,  5.5246e-06,
+          5.0478e-06,  5.2787e-06]], device='cuda:0')
+Epoch 135, bias, value: tensor([-0.0078, -0.0314,  0.0110, -0.0192,  0.0158,  0.0077,  0.0197, -0.0019,
+        -0.0341, -0.0054], device='cuda:0'), grad: tensor([ 9.9279e-07,  2.0266e-05,  4.7535e-05,  1.4853e-04,  3.9749e-06,
+        -2.1172e-04,  1.4491e-05, -1.0723e-04,  5.0455e-05,  3.2634e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 134, time 262.72, cls_loss 0.0042 cls_loss_mapping 0.0074 cls_loss_causal 0.5633 re_mapping 0.0084 re_causal 0.0238 /// teacc 98.89 lr 0.00010000
+Epoch 136, weight, value: tensor([[ 0.0135, -0.1301, -0.0817,  ..., -0.1526, -0.0746, -0.1276],
+        [ 0.0350, -0.0440,  0.0190,  ...,  0.0473,  0.0790, -0.0299],
+        [-0.0592,  0.0874, -0.1165,  ...,  0.0569,  0.0532, -0.0210],
+        ...,
+        [-0.0696, -0.0608, -0.0671,  ...,  0.0012, -0.0968,  0.1087],
+        [ 0.0669, -0.0157,  0.0468,  ..., -0.0058, -0.1323, -0.0109],
+        [-0.1184, -0.0261, -0.0258,  ..., -0.1321,  0.0368, -0.0899]],
+       device='cuda:0'), grad: tensor([[ 2.4214e-08,  2.7008e-08,  5.0291e-07,  ...,  1.9930e-07,
+          3.9954e-07,  2.0489e-08],
+        [ 5.9605e-08,  1.0664e-06, -3.7737e-06,  ..., -2.6133e-06,
+         -6.5751e-07,  2.7847e-07],
+        [ 2.5425e-07, -1.1735e-07,  4.3437e-06,  ...,  1.8757e-06,
+          3.1032e-06,  5.8673e-08],
+        ...,
+        [ 9.3132e-08,  1.0710e-07,  1.5823e-06,  ..., -1.0328e-06,
+          1.7276e-06, -1.9092e-06],
+        [-1.1111e-06,  2.5146e-08, -1.1533e-05,  ..., -1.9688e-06,
+          7.8790e-07,  4.0978e-07],
+        [ 3.6694e-07,  2.3283e-08,  5.3123e-06,  ...,  1.7360e-06,
+         -9.9745e-07,  6.2957e-07]], device='cuda:0')
+Epoch 136, bias, value: tensor([-0.0071, -0.0307,  0.0106, -0.0212,  0.0159,  0.0091,  0.0198, -0.0020,
+        -0.0333, -0.0063], device='cuda:0'), grad: tensor([ 5.6699e-06,  5.6662e-06,  1.0975e-05,  1.7762e-05,  3.4153e-05,
+        -5.2595e-04,  2.5439e-04, -2.2817e-07,  1.9395e-04,  3.4403e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 135, time 262.38, cls_loss 0.0032 cls_loss_mapping 0.0053 cls_loss_causal 0.5619 re_mapping 0.0081 re_causal 0.0248 /// teacc 98.97 lr 0.00010000
+Epoch 137, weight, value: tensor([[ 0.0134, -0.1307, -0.0825,  ..., -0.1533, -0.0747, -0.1276],
+        [ 0.0352, -0.0435,  0.0194,  ...,  0.0472,  0.0793, -0.0310],
+        [-0.0593,  0.0874, -0.1177,  ...,  0.0562,  0.0527, -0.0213],
+        ...,
+        [-0.0696, -0.0609, -0.0671,  ...,  0.0019, -0.0964,  0.1097],
+        [ 0.0669, -0.0155,  0.0485,  ..., -0.0054, -0.1319, -0.0110],
+        [-0.1189, -0.0263, -0.0273,  ..., -0.1331,  0.0369, -0.0901]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  1.2359e-06,  1.0338e-07,  ...,  6.3237e-07,
+          4.8578e-06,  2.2352e-08],
+        [ 5.5879e-09,  3.7074e-05, -6.6031e-07,  ...,  1.2860e-05,
+          1.2779e-04,  3.8650e-07],
+        [ 1.1269e-07, -4.1313e-06,  5.8953e-07,  ..., -5.4687e-05,
+         -4.4644e-05, -5.9791e-07],
+        ...,
+        [ 6.0536e-08,  5.6438e-06,  4.0699e-07,  ...,  3.4988e-05,
+          3.8952e-05, -8.1025e-08],
+        [ 1.3970e-08,  1.1921e-06,  2.3935e-07,  ...,  3.3919e-06,
+          6.2138e-06,  2.2165e-07],
+        [ 3.7253e-09,  3.7253e-07, -2.7940e-07,  ...,  1.9874e-06,
+          1.6643e-06, -2.3935e-07]], device='cuda:0')
+Epoch 137, bias, value: tensor([-0.0071, -0.0307,  0.0096, -0.0207,  0.0160,  0.0087,  0.0189, -0.0013,
+        -0.0325, -0.0066], device='cuda:0'), grad: tensor([ 5.9679e-06,  2.2578e-04, -8.8811e-05,  4.6846e-07,  4.9584e-06,
+         8.8196e-07, -2.4033e-04,  7.4804e-05,  1.4342e-05,  2.4177e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 136, time 262.85, cls_loss 0.0032 cls_loss_mapping 0.0053 cls_loss_causal 0.5493 re_mapping 0.0080 re_causal 0.0241 /// teacc 98.86 lr 0.00010000
+Epoch 138, weight, value: tensor([[ 0.0137, -0.1309, -0.0833,  ..., -0.1538, -0.0747, -0.1276],
+        [ 0.0356, -0.0433,  0.0198,  ...,  0.0474,  0.0799, -0.0314],
+        [-0.0597,  0.0878, -0.1185,  ...,  0.0558,  0.0525, -0.0215],
+        ...,
+        [-0.0696, -0.0613, -0.0671,  ...,  0.0023, -0.0968,  0.1103],
+        [ 0.0670, -0.0155,  0.0485,  ..., -0.0054, -0.1327, -0.0111],
+        [-0.1198, -0.0264, -0.0277,  ..., -0.1335,  0.0373, -0.0904]],
+       device='cuda:0'), grad: tensor([[ 9.6858e-08,  6.0536e-08,  2.2911e-07,  ...,  2.2911e-07,
+          2.2396e-05,  5.6811e-08],
+        [ 1.0850e-06,  6.8545e-07, -1.2619e-06,  ...,  1.7304e-06,
+          1.1157e-06,  9.4622e-07],
+        [ 1.4760e-05,  8.2552e-06,  6.5658e-07,  ...,  3.0443e-05,
+          3.7253e-08,  1.1526e-05],
+        ...,
+        [-2.9102e-05, -1.7062e-05,  8.9686e-07,  ..., -6.0946e-05,
+          3.8482e-06, -2.2084e-05],
+        [ 7.9796e-06,  4.7535e-06, -2.4121e-07,  ...,  1.6600e-05,
+          2.4978e-06,  6.1691e-06],
+        [ 1.2387e-07,  3.1665e-08,  2.8312e-07,  ...,  2.5984e-07,
+          1.7462e-06,  3.7160e-07]], device='cuda:0')
+Epoch 138, bias, value: tensor([-0.0071, -0.0305,  0.0092, -0.0209,  0.0152,  0.0089,  0.0189, -0.0010,
+        -0.0329, -0.0060], device='cuda:0'), grad: tensor([ 8.1301e-05,  8.3223e-06,  4.4435e-05,  3.2987e-06,  4.7386e-05,
+         1.5244e-05, -1.6594e-04, -7.3433e-05,  3.1978e-05,  7.4282e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 137, time 262.28, cls_loss 0.0026 cls_loss_mapping 0.0046 cls_loss_causal 0.5232 re_mapping 0.0080 re_causal 0.0233 /// teacc 98.93 lr 0.00010000
+Epoch 139, weight, value: tensor([[ 0.0137, -0.1315, -0.0843,  ..., -0.1546, -0.0747, -0.1277],
+        [ 0.0357, -0.0431,  0.0203,  ...,  0.0474,  0.0802, -0.0320],
+        [-0.0600,  0.0878, -0.1191,  ...,  0.0555,  0.0525, -0.0218],
+        ...,
+        [-0.0692, -0.0611, -0.0674,  ...,  0.0026, -0.0971,  0.1118],
+        [ 0.0671, -0.0154,  0.0488,  ..., -0.0053, -0.1329, -0.0112],
+        [-0.1202, -0.0270, -0.0282,  ..., -0.1342,  0.0370, -0.0907]],
+       device='cuda:0'), grad: tensor([[ 2.4900e-05,  9.9652e-08,  5.7742e-08,  ...,  2.1141e-07,
+          7.2457e-06,  5.5879e-09],
+        [ 8.5309e-07,  1.3411e-07, -4.7497e-08,  ...,  2.7660e-07,
+          2.1514e-07,  1.1269e-07],
+        [ 1.5125e-06, -1.2284e-06,  1.1269e-07,  ..., -1.6252e-06,
+         -2.0824e-06, -8.3819e-09],
+        ...,
+        [ 2.6170e-07,  6.0722e-07,  1.1828e-07,  ...,  4.7497e-07,
+          1.3048e-06, -4.0419e-07],
+        [ 8.1807e-06,  1.1735e-07,  1.0412e-06,  ...,  1.2452e-06,
+          2.4103e-06,  2.4214e-08],
+        [ 1.4724e-06,  2.2352e-08,  2.1979e-07,  ...,  3.3714e-07,
+          4.1816e-07,  7.0781e-08]], device='cuda:0')
+Epoch 139, bias, value: tensor([-0.0071, -0.0305,  0.0087, -0.0206,  0.0153,  0.0088,  0.0187, -0.0002,
+        -0.0328, -0.0065], device='cuda:0'), grad: tensor([ 8.3387e-05,  3.2671e-06,  1.4296e-06,  3.9190e-05,  1.0125e-05,
+        -2.3991e-05, -1.5378e-04,  2.5034e-06,  3.1650e-05,  6.0536e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 138, time 262.23, cls_loss 0.0035 cls_loss_mapping 0.0069 cls_loss_causal 0.5560 re_mapping 0.0080 re_causal 0.0235 /// teacc 98.81 lr 0.00010000
+Epoch 140, weight, value: tensor([[ 0.0133, -0.1317, -0.0849,  ..., -0.1555, -0.0754, -0.1289],
+        [ 0.0355, -0.0436,  0.0212,  ...,  0.0481,  0.0807, -0.0311],
+        [-0.0602,  0.0884, -0.1196,  ...,  0.0559,  0.0529, -0.0214],
+        ...,
+        [-0.0691, -0.0618, -0.0685,  ...,  0.0016, -0.0982,  0.1108],
+        [ 0.0673, -0.0153,  0.0495,  ..., -0.0048, -0.1335, -0.0101],
+        [-0.1217, -0.0272, -0.0293,  ..., -0.1349,  0.0378, -0.0901]],
+       device='cuda:0'), grad: tensor([[ 5.0943e-07,  3.7253e-09,  7.0818e-06,  ...,  2.1942e-06,
+          6.1095e-07,  5.5879e-09],
+        [ 1.2666e-07,  8.3819e-09,  5.7407e-06,  ...,  4.2170e-06,
+         -8.6240e-07,  6.1467e-08],
+        [ 4.6287e-07, -1.0058e-07,  6.5230e-06,  ...,  3.1032e-06,
+          1.1642e-07,  5.5879e-08],
+        ...,
+        [ 6.6031e-07,  5.5879e-09,  3.0454e-06,  ...,  1.3411e-06,
+          2.1905e-06, -1.8347e-07],
+        [ 2.3432e-06,  1.4901e-08, -7.4469e-06,  ..., -1.4931e-05,
+          9.1456e-07,  6.1467e-08],
+        [ 2.5965e-06,  0.0000e+00,  4.8041e-05,  ...,  1.9431e-05,
+          2.4494e-07, -9.6858e-08]], device='cuda:0')
+Epoch 140, bias, value: tensor([-0.0078, -0.0301,  0.0090, -0.0204,  0.0149,  0.0089,  0.0190, -0.0010,
+        -0.0327, -0.0061], device='cuda:0'), grad: tensor([ 9.6783e-06,  1.5780e-05,  1.4447e-05, -1.2058e-04, -1.6531e-06,
+         2.7806e-05, -4.6566e-07,  1.0915e-05, -4.4912e-05,  8.8930e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 139----------------------------------------------------
+epoch 139, time 279.28, cls_loss 0.0034 cls_loss_mapping 0.0054 cls_loss_causal 0.5502 re_mapping 0.0077 re_causal 0.0229 /// teacc 99.05 lr 0.00010000
+Epoch 141, weight, value: tensor([[ 0.0132, -0.1332, -0.0850,  ..., -0.1564, -0.0756, -0.1290],
+        [ 0.0353, -0.0437,  0.0216,  ...,  0.0484,  0.0810, -0.0308],
+        [-0.0603,  0.0889, -0.1200,  ...,  0.0560,  0.0531, -0.0215],
+        ...,
+        [-0.0692, -0.0619, -0.0689,  ...,  0.0011, -0.0989,  0.1108],
+        [ 0.0670, -0.0151,  0.0501,  ..., -0.0048, -0.1342, -0.0100],
+        [-0.1227, -0.0277, -0.0302,  ..., -0.1356,  0.0370, -0.0905]],
+       device='cuda:0'), grad: tensor([[-1.6484e-07, -6.4634e-07,  2.1327e-07,  ...,  2.3283e-07,
+          1.8533e-07,  4.2189e-07],
+        [ 4.3772e-08,  1.3970e-08,  1.3672e-06,  ...,  2.5202e-06,
+          3.4459e-07,  2.8703e-06],
+        [ 4.1910e-08,  9.2201e-08,  3.8743e-07,  ...,  5.1688e-07,
+          1.6764e-08,  8.0187e-07],
+        ...,
+        [ 5.5879e-09,  4.3772e-08,  2.2259e-07,  ..., -3.8929e-06,
+          2.1048e-07, -2.2829e-05],
+        [-6.5193e-08,  2.8871e-08,  5.2303e-05,  ...,  3.1888e-05,
+          1.5691e-05,  3.5577e-07],
+        [ 9.2201e-08,  3.5577e-07,  7.7579e-07,  ...,  1.7453e-06,
+         -6.1374e-07,  1.4842e-05]], device='cuda:0')
+Epoch 141, bias, value: tensor([-0.0081, -0.0300,  0.0089, -0.0199,  0.0161,  0.0089,  0.0186, -0.0012,
+        -0.0323, -0.0070], device='cuda:0'), grad: tensor([-1.4946e-05,  1.1973e-05,  5.5172e-06,  8.5950e-05,  5.6103e-06,
+        -3.5739e-04,  2.8476e-05, -6.0767e-05,  2.4414e-04,  5.1558e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 140, time 262.24, cls_loss 0.0035 cls_loss_mapping 0.0054 cls_loss_causal 0.5304 re_mapping 0.0076 re_causal 0.0227 /// teacc 98.93 lr 0.00010000
+Epoch 142, weight, value: tensor([[ 0.0127, -0.1335, -0.0848,  ..., -0.1576, -0.0749, -0.1291],
+        [ 0.0354, -0.0446,  0.0217,  ...,  0.0481,  0.0807, -0.0312],
+        [-0.0604,  0.0908, -0.1203,  ...,  0.0562,  0.0546, -0.0216],
+        ...,
+        [-0.0693, -0.0627, -0.0690,  ...,  0.0016, -0.0994,  0.1113],
+        [ 0.0684, -0.0152,  0.0507,  ..., -0.0050, -0.1337, -0.0101],
+        [-0.1231, -0.0282, -0.0306,  ..., -0.1364,  0.0370, -0.0908]],
+       device='cuda:0'), grad: tensor([[ 2.2259e-07,  6.8266e-07,  9.0152e-07,  ...,  2.1476e-06,
+          9.7416e-07,  7.4971e-07],
+        [ 2.1700e-07,  6.6962e-07,  1.0617e-05,  ...,  1.7762e-05,
+          7.0930e-06,  1.0721e-05],
+        [-3.5077e-05, -1.1516e-04,  3.1650e-05,  ..., -9.9838e-05,
+         -8.8513e-06,  3.1501e-05],
+        ...,
+        [ 3.4511e-05,  1.1301e-04, -4.8429e-05,  ...,  6.9261e-05,
+         -1.8021e-06, -4.9382e-05],
+        [ 5.4948e-08,  1.2480e-07, -8.5216e-07,  ...,  2.0582e-07,
+          1.5097e-06,  3.1758e-07],
+        [ 5.0291e-08,  3.5390e-08,  2.3562e-06,  ...,  2.4885e-06,
+         -6.2883e-06,  1.2266e-06]], device='cuda:0')
+Epoch 142, bias, value: tensor([-0.0070, -0.0307,  0.0095, -0.0200,  0.0158,  0.0089,  0.0166, -0.0008,
+        -0.0307, -0.0072], device='cuda:0'), grad: tensor([ 5.5879e-06,  4.9204e-05, -1.0353e-04,  1.7226e-05,  1.1444e-05,
+         2.5705e-06, -1.8012e-06,  2.4587e-05,  4.0643e-06, -9.9540e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 141, time 260.17, cls_loss 0.0027 cls_loss_mapping 0.0052 cls_loss_causal 0.5522 re_mapping 0.0077 re_causal 0.0232 /// teacc 98.95 lr 0.00010000
+Epoch 143, weight, value: tensor([[ 0.0122, -0.1361, -0.0850,  ..., -0.1582, -0.0750, -0.1291],
+        [ 0.0354, -0.0451,  0.0219,  ...,  0.0481,  0.0809, -0.0314],
+        [-0.0604,  0.0916, -0.1209,  ...,  0.0564,  0.0548, -0.0216],
+        ...,
+        [-0.0695, -0.0631, -0.0691,  ...,  0.0016, -0.0997,  0.1118],
+        [ 0.0685, -0.0155,  0.0510,  ..., -0.0049, -0.1347, -0.0101],
+        [-0.1232, -0.0289, -0.0318,  ..., -0.1371,  0.0369, -0.0909]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -9.8720e-08,  2.7101e-07,  ...,  2.8778e-07,
+         -1.4501e-06,  1.0245e-08],
+        [ 0.0000e+00, -1.1906e-05, -3.2932e-05,  ..., -3.4243e-05,
+         -5.1677e-05, -2.0768e-07],
+        [ 1.8626e-09,  1.0833e-05,  2.6390e-05,  ...,  2.8923e-05,
+          4.1842e-05,  5.2154e-08],
+        ...,
+        [ 9.3132e-10,  6.9290e-07,  6.3255e-06,  ...,  4.7795e-06,
+          8.4713e-06, -2.0675e-07],
+        [ 9.3132e-10,  7.1712e-08, -1.8878e-06,  ..., -1.8599e-06,
+          5.1595e-07,  2.3283e-08],
+        [ 0.0000e+00,  2.2352e-07,  7.7393e-07,  ...,  8.6147e-07,
+          1.9595e-06,  1.1176e-07]], device='cuda:0')
+Epoch 143, bias, value: tensor([-0.0072, -0.0307,  0.0094, -0.0198,  0.0150,  0.0085,  0.0182, -0.0001,
+        -0.0309, -0.0077], device='cuda:0'), grad: tensor([-4.1962e-05, -6.8843e-05,  6.0886e-05,  1.4678e-05, -2.8592e-06,
+        -1.0870e-05,  1.2055e-05,  1.4715e-05,  6.5938e-07,  2.1502e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 142, time 259.68, cls_loss 0.0035 cls_loss_mapping 0.0055 cls_loss_causal 0.5485 re_mapping 0.0074 re_causal 0.0217 /// teacc 98.90 lr 0.00010000
+Epoch 144, weight, value: tensor([[ 0.0122, -0.1363, -0.0856,  ..., -0.1591, -0.0753, -0.1293],
+        [ 0.0354, -0.0465,  0.0222,  ...,  0.0481,  0.0808, -0.0316],
+        [-0.0601,  0.0939, -0.1214,  ...,  0.0568,  0.0557, -0.0216],
+        ...,
+        [-0.0701, -0.0646, -0.0692,  ...,  0.0016, -0.1004,  0.1123],
+        [ 0.0687, -0.0165,  0.0516,  ..., -0.0050, -0.1358, -0.0103],
+        [-0.1233, -0.0308, -0.0325,  ..., -0.1380,  0.0365, -0.0913]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  6.2399e-07,  2.8312e-07,  ...,  8.4378e-07,
+          6.5230e-06,  6.3330e-08],
+        [ 0.0000e+00,  2.6263e-07, -7.4506e-08,  ...,  1.4007e-06,
+          1.1157e-06,  8.4564e-07],
+        [ 0.0000e+00, -3.8669e-06,  1.1008e-06,  ..., -6.5565e-06,
+         -2.9188e-06,  4.5821e-07],
+        ...,
+        [ 0.0000e+00,  1.7080e-06,  2.1979e-07,  ...,  1.1902e-06,
+          3.4925e-06, -2.1514e-06],
+        [ 0.0000e+00,  2.7753e-07, -2.6990e-06,  ...,  9.5554e-07,
+          2.9430e-05, -2.3283e-07],
+        [ 0.0000e+00,  1.3784e-07,  5.5879e-07,  ...,  5.6997e-07,
+         -5.1931e-06,  2.5891e-07]], device='cuda:0')
+Epoch 144, bias, value: tensor([-6.8900e-03, -3.0989e-02,  1.0346e-02, -1.9950e-02,  1.5448e-02,
+         8.5766e-03,  1.8889e-02, -2.1528e-05, -3.1354e-02, -8.7578e-03],
+       device='cuda:0'), grad: tensor([ 1.0245e-05,  4.6715e-06, -7.0632e-06,  4.2021e-06,  4.9658e-06,
+         1.3500e-05, -6.9261e-05,  4.8876e-06,  4.2766e-05, -8.9258e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 143, time 259.23, cls_loss 0.0023 cls_loss_mapping 0.0038 cls_loss_causal 0.5416 re_mapping 0.0075 re_causal 0.0230 /// teacc 98.98 lr 0.00010000
+Epoch 145, weight, value: tensor([[ 0.0122, -0.1364, -0.0860,  ..., -0.1598, -0.0754, -0.1295],
+        [ 0.0353, -0.0466,  0.0225,  ...,  0.0480,  0.0809, -0.0317],
+        [-0.0596,  0.0941, -0.1216,  ...,  0.0569,  0.0558, -0.0216],
+        ...,
+        [-0.0704, -0.0646, -0.0696,  ...,  0.0016, -0.1009,  0.1125],
+        [ 0.0685, -0.0167,  0.0514,  ..., -0.0053, -0.1364, -0.0105],
+        [-0.1234, -0.0309, -0.0329,  ..., -0.1381,  0.0366, -0.0913]],
+       device='cuda:0'), grad: tensor([[ 1.1176e-08,  0.0000e+00,  2.3656e-07,  ...,  3.7253e-08,
+          3.7439e-07,  9.3132e-09],
+        [ 2.6077e-08,  0.0000e+00, -7.4506e-07,  ..., -1.1548e-07,
+         -1.2666e-06,  3.1665e-08],
+        [ 6.8918e-08,  0.0000e+00,  4.1910e-07,  ...,  1.3411e-07,
+          8.0466e-07,  2.0489e-08],
+        ...,
+        [ 2.7940e-08,  0.0000e+00,  3.5018e-07,  ...,  7.0781e-08,
+          3.5577e-07, -2.0862e-07],
+        [-1.1120e-06,  0.0000e+00, -6.4448e-06,  ..., -2.3376e-06,
+          2.0303e-07,  1.6764e-08],
+        [ 2.0489e-08,  0.0000e+00,  2.5332e-07,  ...,  1.0431e-07,
+          1.9558e-07,  9.3132e-08]], device='cuda:0')
+Epoch 145, bias, value: tensor([-6.8792e-03, -3.1122e-02,  1.0350e-02, -1.9841e-02,  1.5689e-02,
+         9.0812e-03,  1.8215e-02,  9.5557e-05, -3.2026e-02, -8.7079e-03],
+       device='cuda:0'), grad: tensor([ 1.0766e-06, -1.5292e-06,  1.6876e-06,  5.9493e-06, -6.8359e-07,
+         3.2205e-06, -1.0468e-06,  4.2841e-07, -9.8124e-06,  6.9290e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 144, time 261.48, cls_loss 0.0033 cls_loss_mapping 0.0056 cls_loss_causal 0.5869 re_mapping 0.0074 re_causal 0.0234 /// teacc 98.97 lr 0.00010000
+Epoch 146, weight, value: tensor([[ 0.0122, -0.1366, -0.0868,  ..., -0.1602, -0.0756, -0.1296],
+        [ 0.0355, -0.0467,  0.0240,  ...,  0.0486,  0.0819, -0.0297],
+        [-0.0597,  0.0943, -0.1221,  ...,  0.0567,  0.0558, -0.0221],
+        ...,
+        [-0.0707, -0.0645, -0.0714,  ...,  0.0009, -0.1019,  0.1110],
+        [ 0.0683, -0.0167,  0.0520,  ..., -0.0049, -0.1374, -0.0093],
+        [-0.1235, -0.0310, -0.0332,  ..., -0.1383,  0.0367, -0.0917]],
+       device='cuda:0'), grad: tensor([[ 4.5821e-07,  1.3001e-06,  3.5390e-08,  ...,  2.6282e-06,
+          5.3085e-06,  1.8626e-08],
+        [ 5.7742e-08,  2.1994e-04,  8.7544e-08,  ...,  5.4550e-04,
+          8.5545e-04,  5.7742e-08],
+        [ 3.7253e-08, -2.2948e-04, -1.1921e-07,  ..., -5.6696e-04,
+         -8.8787e-04,  8.3819e-08],
+        ...,
+        [ 9.3132e-09,  2.7046e-06,  1.0915e-05,  ...,  1.8120e-05,
+          9.6858e-06,  9.4324e-06],
+        [ 4.9733e-07,  2.7176e-06,  1.2927e-06,  ...,  7.7263e-06,
+          1.1042e-05,  1.0952e-06],
+        [ 2.2352e-08,  1.5087e-07,  1.1362e-07,  ...,  3.7439e-07,
+          3.9488e-07,  8.9407e-08]], device='cuda:0')
+Epoch 146, bias, value: tensor([-0.0071, -0.0296,  0.0099, -0.0197,  0.0156,  0.0104,  0.0169, -0.0014,
+        -0.0320, -0.0085], device='cuda:0'), grad: tensor([ 2.1942e-06,  1.4658e-03, -1.5230e-03, -1.3635e-05,  7.4022e-06,
+         2.0061e-06, -2.3693e-06,  3.4213e-05,  2.3752e-05,  3.9339e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 145, time 261.94, cls_loss 0.0036 cls_loss_mapping 0.0055 cls_loss_causal 0.5715 re_mapping 0.0072 re_causal 0.0226 /// teacc 98.85 lr 0.00010000
+Epoch 147, weight, value: tensor([[ 0.0117, -0.1369, -0.0873,  ..., -0.1610, -0.0758, -0.1297],
+        [ 0.0358, -0.0473,  0.0228,  ...,  0.0475,  0.0818, -0.0312],
+        [-0.0599,  0.0931, -0.1228,  ...,  0.0565,  0.0558, -0.0235],
+        ...,
+        [-0.0708, -0.0627, -0.0699,  ...,  0.0019, -0.1025,  0.1125],
+        [ 0.0687, -0.0166,  0.0543,  ..., -0.0040, -0.1360, -0.0095],
+        [-0.1239, -0.0313, -0.0337,  ..., -0.1386,  0.0368, -0.0918]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  7.7486e-07,  5.9605e-08,  ...,  9.0711e-07,
+          3.4682e-06, -6.6422e-06],
+        [ 0.0000e+00,  5.8822e-06,  5.9269e-06,  ...,  8.6352e-06,
+          1.6764e-05,  9.9279e-07],
+        [ 0.0000e+00, -1.4283e-05,  3.8370e-07,  ..., -1.5102e-05,
+         -2.5719e-05,  5.9046e-07],
+        ...,
+        [ 0.0000e+00,  5.4948e-07,  1.0487e-06,  ..., -6.7614e-07,
+          3.5111e-06, -2.6170e-06],
+        [ 0.0000e+00,  8.4750e-07, -7.5959e-06,  ..., -1.1381e-06,
+          3.0026e-06,  7.2643e-07],
+        [ 0.0000e+00,  2.5518e-07,  1.3150e-06,  ...,  1.2554e-06,
+          9.8944e-06,  1.0058e-06]], device='cuda:0')
+Epoch 147, bias, value: tensor([-0.0074, -0.0311,  0.0089, -0.0193,  0.0155,  0.0103,  0.0161, -0.0001,
+        -0.0302, -0.0086], device='cuda:0'), grad: tensor([-1.5795e-04,  4.2975e-05, -4.0531e-05,  2.9430e-06, -1.0051e-05,
+         2.2352e-05,  7.8022e-05,  4.3586e-06,  1.7226e-05,  4.0472e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 146, time 262.12, cls_loss 0.0029 cls_loss_mapping 0.0047 cls_loss_causal 0.5570 re_mapping 0.0077 re_causal 0.0225 /// teacc 98.88 lr 0.00010000
+Epoch 148, weight, value: tensor([[ 0.0118, -0.1377, -0.0878,  ..., -0.1619, -0.0757, -0.1297],
+        [ 0.0360, -0.0476,  0.0230,  ...,  0.0474,  0.0824, -0.0317],
+        [-0.0601,  0.0937, -0.1236,  ...,  0.0565,  0.0558, -0.0240],
+        ...,
+        [-0.0710, -0.0638, -0.0700,  ...,  0.0018, -0.1032,  0.1138],
+        [ 0.0687, -0.0163,  0.0537,  ..., -0.0043, -0.1369, -0.0098],
+        [-0.1240, -0.0316, -0.0337,  ..., -0.1389,  0.0370, -0.0926]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  2.0489e-08,  2.6077e-08,  ...,  5.7742e-08,
+          3.5278e-06,  2.4214e-08],
+        [ 1.8626e-09,  2.9616e-07, -1.9576e-06,  ...,  2.2352e-07,
+         -1.5944e-06,  5.1409e-07],
+        [-6.1467e-08, -7.3761e-07,  2.7940e-08,  ..., -9.0711e-07,
+         -1.1511e-06,  1.0617e-07],
+        ...,
+        [ 5.0291e-08,  2.2538e-07,  6.6869e-07,  ..., -5.4576e-07,
+          9.3132e-07, -1.6205e-06],
+        [ 4.6566e-08,  1.5460e-07,  6.5193e-08,  ...,  4.2282e-07,
+          3.0577e-05,  1.8440e-07],
+        [ 1.8626e-09,  7.4506e-09,  1.2107e-07,  ...,  3.6694e-07,
+          2.4978e-06,  3.8184e-07]], device='cuda:0')
+Epoch 148, bias, value: tensor([-0.0074, -0.0311,  0.0087, -0.0191,  0.0152,  0.0110,  0.0167,  0.0001,
+        -0.0316, -0.0087], device='cuda:0'), grad: tensor([ 7.0073e-06, -1.6186e-06, -1.3709e-06,  2.8741e-06,  3.2093e-06,
+         3.4666e-04, -4.2248e-04,  2.3507e-06,  6.1005e-05,  1.8980e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 147, time 262.20, cls_loss 0.0035 cls_loss_mapping 0.0057 cls_loss_causal 0.5805 re_mapping 0.0073 re_causal 0.0221 /// teacc 98.96 lr 0.00010000
+Epoch 149, weight, value: tensor([[ 0.0122, -0.1381, -0.0880,  ..., -0.1625, -0.0759, -0.1299],
+        [ 0.0359, -0.0478,  0.0230,  ...,  0.0472,  0.0822, -0.0318],
+        [-0.0602,  0.0935, -0.1239,  ...,  0.0568,  0.0564, -0.0243],
+        ...,
+        [-0.0710, -0.0638, -0.0702,  ...,  0.0020, -0.1037,  0.1142],
+        [ 0.0688, -0.0156,  0.0542,  ..., -0.0039, -0.1369, -0.0100],
+        [-0.1240, -0.0307, -0.0345,  ..., -0.1394,  0.0365, -0.0926]],
+       device='cuda:0'), grad: tensor([[ 1.3039e-08,  4.7684e-07,  6.7055e-08,  ...,  7.3016e-07,
+          1.5981e-06,  1.1735e-07],
+        [ 1.8626e-09,  1.2852e-06, -1.0170e-06,  ...,  1.3020e-06,
+          1.2312e-06,  1.3970e-07],
+        [-2.4214e-08, -3.0383e-05,  3.8929e-07,  ..., -3.6597e-05,
+         -3.6329e-05, -5.1148e-06],
+        ...,
+        [ 1.6764e-08,  1.3225e-06,  3.0920e-07,  ...,  2.1365e-06,
+          3.9935e-06, -7.2457e-07],
+        [-2.4214e-08,  2.5123e-05, -5.6066e-07,  ...,  2.8700e-05,
+          3.1233e-05,  5.1223e-06],
+        [ 1.8626e-09,  3.5577e-07,  7.0781e-08,  ...,  5.8301e-07,
+         -5.6297e-05,  2.9802e-07]], device='cuda:0')
+Epoch 149, bias, value: tensor([-6.8160e-03, -3.1481e-02,  8.5887e-03, -1.8734e-02,  1.6498e-02,
+         1.0562e-02,  1.6535e-02, -5.8479e-05, -3.1007e-02, -9.7955e-03],
+       device='cuda:0'), grad: tensor([ 1.6354e-06,  4.8950e-06, -6.9380e-05,  9.1419e-06,  1.3995e-04,
+         2.5742e-06,  3.4124e-06,  1.0177e-05,  6.1989e-05, -1.6427e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 148, time 262.13, cls_loss 0.0025 cls_loss_mapping 0.0041 cls_loss_causal 0.5323 re_mapping 0.0075 re_causal 0.0218 /// teacc 98.96 lr 0.00010000
+Epoch 150, weight, value: tensor([[ 0.0119, -0.1379, -0.0884,  ..., -0.1635, -0.0759, -0.1299],
+        [ 0.0362, -0.0480,  0.0233,  ...,  0.0476,  0.0824, -0.0317],
+        [-0.0603,  0.0938, -0.1243,  ...,  0.0571,  0.0574, -0.0247],
+        ...,
+        [-0.0711, -0.0631, -0.0704,  ...,  0.0018, -0.1046,  0.1147],
+        [ 0.0687, -0.0160,  0.0541,  ..., -0.0041, -0.1378, -0.0102],
+        [-0.1243, -0.0317, -0.0348,  ..., -0.1399,  0.0366, -0.0929]],
+       device='cuda:0'), grad: tensor([[ 1.8865e-05,  2.1998e-06,  8.3074e-06,  ...,  1.6615e-05,
+          1.3307e-05,  5.5879e-09],
+        [ 2.9057e-06,  3.3062e-06,  1.6764e-07,  ...,  1.8895e-05,
+          1.0587e-05,  9.3132e-09],
+        [-2.2918e-05, -4.2945e-05, -3.3583e-06,  ..., -1.9729e-04,
+         -1.1426e-04, -3.7253e-09],
+        ...,
+        [ 3.2913e-06,  1.0200e-05,  1.6391e-06,  ...,  3.3170e-05,
+          2.0683e-05,  1.3970e-07],
+        [ 1.5855e-05,  9.6783e-06,  9.4771e-06,  ...,  1.4700e-05,
+          1.4625e-05, -4.8429e-08],
+        [ 1.2573e-06,  7.9535e-07,  4.9919e-07,  ...,  5.0142e-06,
+          9.6485e-07, -2.0117e-07]], device='cuda:0')
+Epoch 150, bias, value: tensor([-0.0065, -0.0312,  0.0089, -0.0186,  0.0163,  0.0100,  0.0169, -0.0002,
+        -0.0314, -0.0098], device='cuda:0'), grad: tensor([-6.6233e-04,  3.6657e-05, -6.5327e-05,  2.2352e-04,  1.8060e-04,
+         8.6427e-05, -6.5684e-05,  6.7711e-05,  1.6117e-04,  3.8803e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 149, time 261.49, cls_loss 0.0028 cls_loss_mapping 0.0043 cls_loss_causal 0.5381 re_mapping 0.0073 re_causal 0.0212 /// teacc 98.93 lr 0.00010000
+Epoch 151, weight, value: tensor([[ 0.0114, -0.1382, -0.0885,  ..., -0.1649, -0.0765, -0.1300],
+        [ 0.0365, -0.0482,  0.0236,  ...,  0.0479,  0.0830, -0.0319],
+        [-0.0605,  0.0946, -0.1249,  ...,  0.0571,  0.0575, -0.0245],
+        ...,
+        [-0.0713, -0.0640, -0.0705,  ...,  0.0017, -0.1054,  0.1150],
+        [ 0.0687, -0.0157,  0.0542,  ..., -0.0040, -0.1385, -0.0102],
+        [-0.1249, -0.0328, -0.0353,  ..., -0.1404,  0.0371, -0.0930]],
+       device='cuda:0'), grad: tensor([[-1.1921e-07,  3.1665e-08,  2.0489e-08,  ...,  2.9989e-07,
+         -8.0094e-08,  9.3132e-09],
+        [ 6.7055e-08,  6.5565e-07, -2.9802e-08,  ...,  2.1067e-06,
+          1.3113e-06,  6.5565e-07],
+        [-2.4773e-07, -1.0915e-06,  8.3819e-08,  ..., -7.7635e-06,
+         -3.2485e-06,  1.8068e-07],
+        ...,
+        [ 2.1048e-07,  2.1420e-07,  6.2399e-07,  ...,  3.1572e-06,
+          1.3225e-06, -1.0133e-06],
+        [ 3.3528e-08,  5.5879e-08, -4.3772e-07,  ...,  2.8871e-07,
+          5.1968e-07,  3.5390e-08],
+        [ 5.2154e-08,  1.6764e-08, -1.7919e-06,  ...,  1.1362e-07,
+         -7.0781e-08,  4.2841e-08]], device='cuda:0')
+Epoch 151, bias, value: tensor([-0.0068, -0.0311,  0.0088, -0.0175,  0.0160,  0.0086,  0.0174, -0.0003,
+        -0.0316, -0.0092], device='cuda:0'), grad: tensor([-1.5255e-06,  3.4403e-06, -1.0356e-05,  2.3264e-06,  3.1710e-05,
+         9.7416e-07, -1.4734e-06,  1.4901e-05,  1.2461e-06, -4.1306e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 150, time 260.62, cls_loss 0.0036 cls_loss_mapping 0.0053 cls_loss_causal 0.5569 re_mapping 0.0073 re_causal 0.0212 /// teacc 98.93 lr 0.00010000
+Epoch 152, weight, value: tensor([[ 0.0151, -0.1384, -0.0888,  ..., -0.1664, -0.0765, -0.1300],
+        [ 0.0365, -0.0486,  0.0237,  ...,  0.0479,  0.0832, -0.0319],
+        [-0.0613,  0.0953, -0.1252,  ...,  0.0572,  0.0576, -0.0247],
+        ...,
+        [-0.0714, -0.0638, -0.0716,  ...,  0.0006, -0.1060,  0.1136],
+        [ 0.0686, -0.0156,  0.0552,  ..., -0.0024, -0.1391, -0.0086],
+        [-0.1260, -0.0352, -0.0368,  ..., -0.1421,  0.0384, -0.0932]],
+       device='cuda:0'), grad: tensor([[ 1.0580e-06,  7.4506e-09,  4.2841e-08,  ...,  5.7481e-06,
+          2.5518e-07,  1.0304e-05],
+        [ 9.1642e-07,  1.8626e-09, -2.0489e-07,  ...,  5.5768e-06,
+          1.7136e-07,  9.4548e-06],
+        [ 7.3388e-07, -5.0291e-08,  7.2643e-08,  ...,  6.5938e-06,
+          7.8976e-07,  9.0003e-06],
+        ...,
+        [-3.9712e-06,  1.1176e-08,  6.1467e-08,  ..., -4.2260e-05,
+          2.9430e-07, -5.4806e-05],
+        [ 2.2724e-07,  1.4901e-08,  1.2852e-07,  ...,  6.5751e-06,
+          1.6466e-06,  6.2324e-06],
+        [ 4.3586e-07,  0.0000e+00,  9.5926e-07,  ...,  2.4829e-06,
+          7.3835e-06,  4.3176e-06]], device='cuda:0')
+Epoch 152, bias, value: tensor([-0.0056, -0.0312,  0.0084, -0.0167,  0.0148,  0.0084,  0.0174, -0.0014,
+        -0.0306, -0.0088], device='cuda:0'), grad: tensor([ 3.0324e-05,  2.7210e-05,  2.5466e-05,  3.2365e-05, -3.4690e-05,
+         1.4119e-06,  2.9989e-07, -1.4138e-04,  1.8120e-05,  4.0859e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 151----------------------------------------------------
+epoch 151, time 276.40, cls_loss 0.0032 cls_loss_mapping 0.0052 cls_loss_causal 0.5551 re_mapping 0.0074 re_causal 0.0213 /// teacc 99.06 lr 0.00010000
+Epoch 153, weight, value: tensor([[ 1.5786e-02, -1.3908e-01, -8.8877e-02,  ..., -1.6768e-01,
+         -7.6487e-02, -1.3008e-01],
+        [ 3.8513e-02, -4.9525e-02,  2.4310e-02,  ...,  4.8156e-02,
+          8.2941e-02, -3.2473e-02],
+        [-6.1386e-02,  9.6836e-02, -1.2500e-01,  ...,  5.8504e-02,
+          5.9178e-02, -2.4917e-02],
+        ...,
+        [-7.1543e-02, -6.3689e-02, -7.2168e-02,  ..., -4.9144e-05,
+         -1.0638e-01,  1.1298e-01],
+        [ 6.6605e-02, -1.6713e-02,  5.5319e-02,  ..., -1.9923e-03,
+         -1.4126e-01, -7.3466e-03],
+        [-1.2637e-01, -3.5514e-02, -3.7453e-02,  ..., -1.4300e-01,
+          3.8315e-02, -9.3554e-02]], device='cuda:0'), grad: tensor([[-4.3027e-07,  3.9116e-08,  1.0803e-07,  ...,  2.4959e-07,
+          3.6694e-07,  1.0058e-07],
+        [ 2.2165e-07,  1.4901e-08, -2.6077e-08,  ...,  2.2016e-06,
+         -9.8720e-08,  2.4103e-06],
+        [ 1.2107e-06, -3.6694e-07,  9.1456e-07,  ...,  5.6624e-07,
+         -2.7753e-07,  1.4529e-07],
+        ...,
+        [ 4.2841e-08,  5.4017e-08, -1.6481e-05,  ..., -1.5700e-04,
+          3.0547e-07, -1.1820e-04],
+        [-1.4976e-06,  1.7509e-07, -1.0058e-06,  ...,  2.0955e-06,
+          5.0478e-07,  2.4643e-06],
+        [ 5.4017e-08,  1.1176e-08,  5.2527e-07,  ...,  4.6380e-06,
+          1.8440e-07,  4.1686e-06]], device='cuda:0')
+Epoch 153, bias, value: tensor([-0.0054, -0.0313,  0.0098, -0.0168,  0.0150,  0.0081,  0.0173, -0.0017,
+        -0.0307, -0.0089], device='cuda:0'), grad: tensor([-1.2740e-06,  1.1489e-05,  4.4554e-06,  4.7851e-04, -2.9430e-07,
+         2.2873e-06, -3.4887e-06, -5.1546e-04,  6.6012e-06,  1.7866e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 152, time 258.60, cls_loss 0.0030 cls_loss_mapping 0.0050 cls_loss_causal 0.5384 re_mapping 0.0079 re_causal 0.0220 /// teacc 98.96 lr 0.00010000
+Epoch 154, weight, value: tensor([[ 0.0160, -0.1394, -0.0895,  ..., -0.1694, -0.0769, -0.1301],
+        [ 0.0385, -0.0487,  0.0246,  ...,  0.0485,  0.0843, -0.0339],
+        [-0.0613,  0.0975, -0.1268,  ...,  0.0576,  0.0584, -0.0253],
+        ...,
+        [-0.0717, -0.0635, -0.0714,  ...,  0.0019, -0.1066,  0.1146],
+        [ 0.0645, -0.0183,  0.0538,  ..., -0.0035, -0.1420, -0.0077],
+        [-0.1266, -0.0353, -0.0379,  ..., -0.1435,  0.0380, -0.0937]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-08,  2.7940e-08,  1.7695e-07,  ...,  3.7998e-07,
+          3.8557e-07,  2.2352e-08],
+        [ 1.6764e-08,  3.1665e-08, -2.5518e-07,  ...,  5.5879e-08,
+         -4.5821e-07,  4.4703e-08],
+        [ 3.0547e-07, -1.8068e-07,  2.4792e-06,  ...,  5.3458e-06,
+          5.7742e-08,  9.3132e-09],
+        ...,
+        [ 2.2352e-08,  6.7055e-08,  3.3341e-07,  ...,  4.4331e-07,
+          1.7509e-07, -2.9244e-07],
+        [ 6.3330e-08,  2.4214e-08,  8.9779e-07,  ...,  1.2536e-06,
+          1.3206e-06,  3.1665e-08],
+        [ 5.5879e-09,  1.8626e-09,  1.1921e-07,  ...,  1.3411e-07,
+         -2.9802e-07,  1.0431e-07]], device='cuda:0')
+Epoch 154, bias, value: tensor([-0.0056, -0.0312,  0.0090, -0.0164,  0.0154,  0.0080,  0.0172, -0.0003,
+        -0.0320, -0.0092], device='cuda:0'), grad: tensor([ 1.4473e-06,  2.2724e-07,  1.1653e-05, -8.5175e-05,  7.7300e-07,
+         6.9678e-05, -4.2543e-06,  3.7439e-07,  6.3255e-06, -1.1344e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 153, time 259.12, cls_loss 0.0033 cls_loss_mapping 0.0061 cls_loss_causal 0.5324 re_mapping 0.0072 re_causal 0.0211 /// teacc 98.94 lr 0.00010000
+Epoch 155, weight, value: tensor([[ 0.0157, -0.1398, -0.0901,  ..., -0.1711, -0.0770, -0.1302],
+        [ 0.0384, -0.0489,  0.0249,  ...,  0.0491,  0.0850, -0.0348],
+        [-0.0616,  0.0982, -0.1279,  ...,  0.0570,  0.0581, -0.0255],
+        ...,
+        [-0.0717, -0.0640, -0.0713,  ...,  0.0022, -0.1074,  0.1153],
+        [ 0.0648, -0.0184,  0.0537,  ..., -0.0037, -0.1425, -0.0077],
+        [-0.1270, -0.0349, -0.0388,  ..., -0.1440,  0.0382, -0.0949]],
+       device='cuda:0'), grad: tensor([[ 4.6752e-07,  3.7812e-07,  9.6858e-08,  ...,  7.6555e-07,
+          9.3132e-09,  1.8626e-09],
+        [ 3.2820e-06,  1.0971e-06, -3.1106e-07,  ...,  2.7306e-06,
+         -9.2387e-07,  4.8429e-08],
+        [ 6.3255e-06,  8.0466e-07,  7.8045e-07,  ...,  3.9749e-06,
+         -2.1607e-06,  9.3132e-09],
+        ...,
+        [ 4.3586e-07,  4.7870e-07,  2.5146e-07,  ...,  6.0722e-07,
+          1.2442e-06, -3.3528e-07],
+        [-2.4334e-05, -7.6815e-06, -2.6766e-06,  ..., -2.1532e-05,
+          4.2841e-07,  1.6950e-07],
+        [ 1.4715e-07,  2.8126e-07,  2.2538e-07,  ...,  6.1095e-07,
+          3.7812e-07,  1.3039e-08]], device='cuda:0')
+Epoch 155, bias, value: tensor([-0.0058, -0.0313,  0.0086, -0.0166,  0.0154,  0.0083,  0.0173,  0.0013,
+        -0.0323, -0.0104], device='cuda:0'), grad: tensor([ 1.3430e-06,  1.4499e-05,  2.6450e-05,  7.6443e-06,  4.1053e-06,
+         3.0816e-05,  1.9863e-05,  4.6007e-06, -1.1301e-04,  3.8818e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 154, time 259.47, cls_loss 0.0032 cls_loss_mapping 0.0045 cls_loss_causal 0.5273 re_mapping 0.0074 re_causal 0.0212 /// teacc 98.96 lr 0.00010000
+Epoch 156, weight, value: tensor([[ 0.0158, -0.1404, -0.0892,  ..., -0.1712, -0.0766, -0.1302],
+        [ 0.0384, -0.0494,  0.0257,  ...,  0.0492,  0.0851, -0.0350],
+        [-0.0617,  0.1002, -0.1281,  ...,  0.0578,  0.0586, -0.0254],
+        ...,
+        [-0.0718, -0.0645, -0.0720,  ...,  0.0018, -0.1085,  0.1153],
+        [ 0.0643, -0.0204,  0.0534,  ..., -0.0045, -0.1428, -0.0077],
+        [-0.1277, -0.0357, -0.0395,  ..., -0.1448,  0.0382, -0.0944]],
+       device='cuda:0'), grad: tensor([[ 2.6077e-08,  5.5879e-09,  1.5274e-07,  ...,  5.7742e-08,
+          1.1250e-06,  5.2154e-08],
+        [ 7.6368e-08,  7.4506e-09,  2.3097e-07,  ...,  1.3784e-07,
+          1.3673e-04,  3.1665e-07],
+        [ 5.6997e-07, -6.7055e-08,  2.9411e-06,  ...,  7.4133e-07,
+          4.5002e-06,  6.1467e-08],
+        ...,
+        [ 3.0175e-07,  3.3528e-08,  1.5479e-06,  ...,  3.3528e-08,
+          8.0824e-05, -9.6112e-07],
+        [ 4.8801e-07,  9.3132e-09,  2.3991e-06,  ...,  5.8487e-07,
+          4.3809e-06,  7.0781e-08],
+        [ 1.1921e-07,  1.8626e-09,  6.0536e-07,  ...,  2.3842e-07,
+         -2.4366e-04,  4.0606e-07]], device='cuda:0')
+Epoch 156, bias, value: tensor([-0.0050, -0.0311,  0.0091, -0.0165,  0.0155,  0.0087,  0.0167,  0.0008,
+        -0.0328, -0.0103], device='cuda:0'), grad: tensor([ 3.5409e-06,  2.8348e-04,  1.5087e-05, -9.9391e-06,  2.5034e-05,
+         3.9116e-06,  1.3039e-07,  1.4687e-04,  1.4730e-05, -4.8327e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 155, time 259.40, cls_loss 0.0030 cls_loss_mapping 0.0035 cls_loss_causal 0.5644 re_mapping 0.0067 re_causal 0.0212 /// teacc 98.97 lr 0.00010000
+Epoch 157, weight, value: tensor([[ 0.0158, -0.1405, -0.0896,  ..., -0.1734, -0.0769, -0.1302],
+        [ 0.0383, -0.0501,  0.0254,  ...,  0.0484,  0.0844, -0.0351],
+        [-0.0618,  0.1009, -0.1277,  ...,  0.0587,  0.0596, -0.0256],
+        ...,
+        [-0.0719, -0.0653, -0.0722,  ...,  0.0020, -0.1095,  0.1154],
+        [ 0.0642, -0.0201,  0.0538,  ..., -0.0042, -0.1430, -0.0078],
+        [-0.1279, -0.0358, -0.0401,  ..., -0.1454,  0.0384, -0.0945]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-09,  1.8626e-09, -1.2666e-07,  ...,  5.2154e-08,
+          1.0803e-07,  1.1176e-08],
+        [ 1.4529e-07,  1.8626e-09,  5.6252e-07,  ...,  5.4762e-07,
+          2.2538e-07,  1.5087e-07],
+        [ 2.7940e-07, -1.4901e-08,  1.2051e-06,  ...,  8.1398e-07,
+          7.7672e-07,  5.9605e-08],
+        ...,
+        [ 1.5832e-07,  7.4506e-09,  8.9966e-07,  ...,  4.4703e-08,
+          5.3644e-07, -5.1782e-07],
+        [ 3.7253e-08,  0.0000e+00, -3.4571e-06,  ..., -2.7996e-06,
+          3.4776e-06,  3.1665e-08],
+        [ 2.0489e-08,  0.0000e+00,  2.0433e-06,  ...,  1.7043e-06,
+          2.9989e-07,  9.8720e-08]], device='cuda:0')
+Epoch 157, bias, value: tensor([-0.0052, -0.0321,  0.0099, -0.0167,  0.0153,  0.0079,  0.0182,  0.0009,
+        -0.0325, -0.0102], device='cuda:0'), grad: tensor([-3.5297e-06,  2.2482e-06,  3.7495e-06, -2.0489e-07,  6.1691e-06,
+         3.0786e-05, -4.9949e-05,  1.6596e-06,  5.9605e-08,  8.9854e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 156, time 259.57, cls_loss 0.0028 cls_loss_mapping 0.0048 cls_loss_causal 0.5464 re_mapping 0.0070 re_causal 0.0205 /// teacc 98.99 lr 0.00010000
+Epoch 158, weight, value: tensor([[ 0.0159, -0.1407, -0.0903,  ..., -0.1743, -0.0769, -0.1303],
+        [ 0.0383, -0.0506,  0.0243,  ...,  0.0472,  0.0841, -0.0359],
+        [-0.0617,  0.1013, -0.1280,  ...,  0.0588,  0.0599, -0.0257],
+        ...,
+        [-0.0725, -0.0656, -0.0712,  ...,  0.0034, -0.1095,  0.1159],
+        [ 0.0641, -0.0198,  0.0542,  ..., -0.0040, -0.1427, -0.0078],
+        [-0.1281, -0.0358, -0.0406,  ..., -0.1468,  0.0387, -0.0950]],
+       device='cuda:0'), grad: tensor([[ 2.6077e-08,  3.7253e-09,  2.6077e-08,  ...,  3.5390e-08,
+          2.1793e-07,  9.3132e-09],
+        [ 5.5879e-09,  2.9244e-07,  1.4156e-07,  ...,  1.7453e-06,
+          6.6496e-07,  6.2585e-07],
+        [ 5.5879e-09, -4.4145e-07,  2.8685e-07,  ..., -7.5437e-07,
+         -1.3132e-06,  3.7439e-07],
+        ...,
+        [ 2.6077e-08,  8.3819e-08, -7.0222e-07,  ..., -3.7309e-06,
+          4.8056e-07, -3.0510e-06],
+        [ 4.2841e-08,  2.6077e-08, -4.0978e-08,  ...,  2.6077e-07,
+          7.5810e-07,  1.6764e-07],
+        [ 3.7253e-09,  3.7253e-09,  1.5274e-07,  ...,  3.7812e-07,
+         -2.7940e-08,  2.7381e-07]], device='cuda:0')
+Epoch 158, bias, value: tensor([-0.0050, -0.0333,  0.0099, -0.0169,  0.0153,  0.0081,  0.0179,  0.0016,
+        -0.0321, -0.0104], device='cuda:0'), grad: tensor([-5.1782e-07,  3.5986e-06,  3.1292e-07,  4.4107e-06,  2.7195e-07,
+         1.0543e-06, -3.7309e-06, -9.9689e-06,  3.2745e-06,  1.2629e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 157, time 259.83, cls_loss 0.0024 cls_loss_mapping 0.0036 cls_loss_causal 0.5456 re_mapping 0.0071 re_causal 0.0216 /// teacc 98.90 lr 0.00010000
+Epoch 159, weight, value: tensor([[ 0.0163, -0.1408, -0.0910,  ..., -0.1752, -0.0769, -0.1303],
+        [ 0.0383, -0.0508,  0.0246,  ...,  0.0473,  0.0845, -0.0363],
+        [-0.0616,  0.1016, -0.1284,  ...,  0.0588,  0.0602, -0.0260],
+        ...,
+        [-0.0726, -0.0657, -0.0712,  ...,  0.0030, -0.1111,  0.1155],
+        [ 0.0641, -0.0198,  0.0533,  ..., -0.0046, -0.1436, -0.0078],
+        [-0.1282, -0.0362, -0.0413,  ..., -0.1452,  0.0389, -0.0929]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  9.3877e-07,  2.6077e-07,  ...,  2.1234e-07,
+          5.0142e-06,  3.7253e-09],
+        [ 3.7253e-09,  5.4389e-07,  2.1979e-07,  ...,  1.3374e-06,
+          1.0058e-06,  2.2352e-08],
+        [ 0.0000e+00, -6.2212e-07,  1.0431e-06,  ..., -3.5763e-07,
+         -6.0350e-07,  1.4901e-08],
+        ...,
+        [ 3.7253e-09,  1.7509e-07,  5.5134e-07,  ...,  6.7800e-07,
+          3.8259e-06, -1.4901e-07],
+        [-1.8626e-08,  3.2037e-07, -2.0973e-06,  ..., -1.6093e-06,
+          1.1250e-06,  1.8626e-08],
+        [ 3.7253e-09,  3.7253e-08,  7.9721e-07,  ...,  5.2527e-07,
+         -8.4862e-06,  8.1956e-08]], device='cuda:0')
+Epoch 159, bias, value: tensor([-0.0046, -0.0332,  0.0098, -0.0167,  0.0153,  0.0083,  0.0182,  0.0007,
+        -0.0329, -0.0096], device='cuda:0'), grad: tensor([ 1.9446e-05,  4.8518e-05,  4.1313e-06,  2.2471e-05,  4.0054e-05,
+        -1.2502e-05, -3.4541e-05, -8.0585e-04,  6.6943e-06,  7.1192e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 158, time 259.74, cls_loss 0.0022 cls_loss_mapping 0.0037 cls_loss_causal 0.5588 re_mapping 0.0070 re_causal 0.0216 /// teacc 98.98 lr 0.00010000
+Epoch 160, weight, value: tensor([[ 0.0162, -0.1408, -0.0913,  ..., -0.1771, -0.0770, -0.1303],
+        [ 0.0383, -0.0512,  0.0249,  ...,  0.0472,  0.0844, -0.0364],
+        [-0.0616,  0.1022, -0.1288,  ...,  0.0593,  0.0607, -0.0262],
+        ...,
+        [-0.0725, -0.0660, -0.0713,  ...,  0.0030, -0.1118,  0.1156],
+        [ 0.0640, -0.0202,  0.0533,  ..., -0.0050, -0.1442, -0.0079],
+        [-0.1283, -0.0363, -0.0418,  ..., -0.1452,  0.0390, -0.0925]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  6.4820e-07,  3.0547e-07,  ...,  1.4938e-06,
+          1.5646e-06,  1.0803e-07],
+        [ 0.0000e+00,  4.5076e-07, -1.8999e-05,  ..., -1.4119e-05,
+         -1.9029e-05,  8.0466e-07],
+        [ 0.0000e+00, -5.3525e-05,  1.7397e-06,  ..., -2.6360e-05,
+         -4.9531e-05,  2.9191e-05],
+        ...,
+        [ 0.0000e+00,  4.8056e-07,  1.1623e-05,  ..., -7.1108e-05,
+          1.2904e-05, -3.2932e-05],
+        [ 3.7253e-09,  5.0247e-05,  4.6790e-06,  ...,  1.0079e-04,
+          5.2989e-05,  9.5740e-07],
+        [ 0.0000e+00,  2.2352e-07,  3.1814e-06,  ...,  2.7865e-06,
+          2.3730e-06,  4.0233e-07]], device='cuda:0')
+Epoch 160, bias, value: tensor([-0.0042, -0.0332,  0.0101, -0.0169,  0.0153,  0.0085,  0.0182,  0.0004,
+        -0.0334, -0.0092], device='cuda:0'), grad: tensor([ 4.2394e-06, -4.0442e-05, -4.6432e-05,  1.2457e-05,  1.1474e-06,
+        -2.4199e-05, -5.9158e-06, -8.5235e-05,  1.6856e-04,  1.5602e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 159, time 259.59, cls_loss 0.0026 cls_loss_mapping 0.0040 cls_loss_causal 0.5550 re_mapping 0.0067 re_causal 0.0209 /// teacc 98.89 lr 0.00010000
+Epoch 161, weight, value: tensor([[ 0.0163, -0.1410, -0.0917,  ..., -0.1788, -0.0792, -0.1304],
+        [ 0.0384, -0.0527,  0.0261,  ...,  0.0473,  0.0843, -0.0365],
+        [-0.0618,  0.1030, -0.1293,  ...,  0.0597,  0.0618, -0.0267],
+        ...,
+        [-0.0720, -0.0662, -0.0715,  ...,  0.0031, -0.1125,  0.1158],
+        [ 0.0639, -0.0205,  0.0525,  ..., -0.0056, -0.1461, -0.0080],
+        [-0.1285, -0.0362, -0.0423,  ..., -0.1459,  0.0402, -0.0927]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  5.5879e-08,  ...,  1.8626e-08,
+         -1.1027e-06,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00, -1.1548e-07,  ..., -6.3330e-08,
+          2.0117e-07,  4.0978e-08],
+        [ 0.0000e+00, -7.4506e-09,  1.3784e-07,  ...,  7.0781e-08,
+          2.8685e-07,  1.1176e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.6019e-07,  ...,  2.9802e-08,
+          6.6683e-07, -1.1176e-07],
+        [ 0.0000e+00,  0.0000e+00, -1.6019e-07,  ..., -1.1176e-07,
+          1.4603e-06,  1.1176e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.8685e-07,  ...,  1.1176e-07,
+         -2.2613e-06,  2.2352e-08]], device='cuda:0')
+Epoch 161, bias, value: tensor([-0.0056, -0.0330,  0.0105, -0.0167,  0.0152,  0.0082,  0.0182,  0.0005,
+        -0.0340, -0.0084], device='cuda:0'), grad: tensor([ 5.2750e-05,  2.5705e-06,  3.2075e-06,  2.1458e-05,  5.9493e-06,
+         7.6666e-06, -1.1367e-04,  3.8408e-06,  2.2113e-05, -5.8413e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 160, time 259.55, cls_loss 0.0030 cls_loss_mapping 0.0051 cls_loss_causal 0.5415 re_mapping 0.0071 re_causal 0.0208 /// teacc 98.91 lr 0.00010000
+Epoch 162, weight, value: tensor([[ 0.0161, -0.1412, -0.0925,  ..., -0.1802, -0.0794, -0.1304],
+        [ 0.0384, -0.0528,  0.0270,  ...,  0.0485,  0.0854, -0.0355],
+        [-0.0624,  0.1034, -0.1302,  ...,  0.0593,  0.0622, -0.0288],
+        ...,
+        [-0.0720, -0.0665, -0.0721,  ...,  0.0024, -0.1149,  0.1159],
+        [ 0.0639, -0.0205,  0.0528,  ..., -0.0054, -0.1464, -0.0080],
+        [-0.1287, -0.0363, -0.0429,  ..., -0.1465,  0.0409, -0.0928]],
+       device='cuda:0'), grad: tensor([[-7.4506e-09,  3.2410e-07,  9.9465e-07,  ...,  1.2517e-06,
+          1.4268e-06,  2.6077e-08],
+        [ 0.0000e+00,  2.6077e-08, -7.6532e-05,  ..., -7.6950e-05,
+         -1.8024e-04,  1.4156e-07],
+        [ 0.0000e+00, -1.7099e-06,  7.4983e-05,  ...,  7.3493e-05,
+          1.7118e-04,  7.8231e-08],
+        ...,
+        [ 0.0000e+00,  4.5449e-07,  2.1420e-06,  ...,  2.0526e-06,
+          3.3379e-06, -6.3702e-07],
+        [ 0.0000e+00,  1.6019e-07, -2.2836e-06,  ..., -1.8068e-06,
+          1.6205e-06,  7.4506e-08],
+        [ 3.7253e-09,  3.7253e-08,  4.9248e-06,  ...,  2.8722e-06,
+          8.5682e-08,  1.3039e-07]], device='cuda:0')
+Epoch 162, bias, value: tensor([-6.1018e-03, -3.1724e-02,  9.8041e-03, -1.7036e-02,  1.3636e-02,
+         8.5496e-03,  1.9008e-02, -8.1377e-05, -3.4139e-02, -7.2731e-03],
+       device='cuda:0'), grad: tensor([-1.8537e-05, -2.3723e-04,  2.2566e-04, -1.6987e-05,  1.0729e-06,
+         4.2543e-06,  2.1338e-05,  6.3628e-06,  1.7621e-06,  1.2405e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 161, time 259.22, cls_loss 0.0024 cls_loss_mapping 0.0046 cls_loss_causal 0.5087 re_mapping 0.0067 re_causal 0.0202 /// teacc 98.87 lr 0.00010000
+Epoch 163, weight, value: tensor([[ 0.0160, -0.1414, -0.0940,  ..., -0.1823, -0.0801, -0.1305],
+        [ 0.0385, -0.0524,  0.0276,  ...,  0.0490,  0.0865, -0.0357],
+        [-0.0627,  0.1046, -0.1312,  ...,  0.0606,  0.0626, -0.0289],
+        ...,
+        [-0.0722, -0.0681, -0.0721,  ...,  0.0010, -0.1168,  0.1160],
+        [ 0.0642, -0.0210,  0.0531,  ..., -0.0053, -0.1480, -0.0081],
+        [-0.1290, -0.0364, -0.0437,  ..., -0.1470,  0.0411, -0.0928]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  3.7253e-08,  4.0978e-08,  ...,  2.7567e-07,
+          1.7881e-07,  0.0000e+00],
+        [ 0.0000e+00,  2.6822e-07, -1.2740e-06,  ...,  7.3388e-07,
+         -9.6485e-07,  1.4901e-08],
+        [ 0.0000e+00,  2.3097e-06,  1.0580e-06,  ...,  1.5043e-05,
+          6.6906e-06,  2.9802e-08],
+        ...,
+        [ 0.0000e+00, -1.7628e-05,  2.1607e-07,  ..., -1.0777e-04,
+         -4.0919e-05, -5.9605e-08],
+        [ 0.0000e+00,  1.3411e-07,  1.0431e-07,  ...,  9.8348e-07,
+          1.2405e-06,  3.7253e-09],
+        [ 0.0000e+00,  1.3165e-05,  7.8231e-08,  ...,  8.0764e-05,
+          2.9743e-05,  3.7253e-09]], device='cuda:0')
+Epoch 163, bias, value: tensor([-0.0071, -0.0313,  0.0108, -0.0172,  0.0136,  0.0084,  0.0198, -0.0010,
+        -0.0344, -0.0069], device='cuda:0'), grad: tensor([ 8.8662e-07,  2.0824e-06,  3.2604e-05,  3.6359e-06,  2.0325e-05,
+        -5.3011e-06,  4.9546e-07, -2.3234e-04,  4.7497e-06,  1.7250e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 162, time 259.38, cls_loss 0.0029 cls_loss_mapping 0.0034 cls_loss_causal 0.5456 re_mapping 0.0069 re_causal 0.0198 /// teacc 98.93 lr 0.00010000
+Epoch 164, weight, value: tensor([[ 0.0160, -0.1416, -0.0962,  ..., -0.1848, -0.0805, -0.1305],
+        [ 0.0385, -0.0524,  0.0281,  ...,  0.0495,  0.0872, -0.0359],
+        [-0.0628,  0.1053, -0.1322,  ...,  0.0610,  0.0626, -0.0291],
+        ...,
+        [-0.0720, -0.0689, -0.0723,  ...,  0.0003, -0.1176,  0.1163],
+        [ 0.0642, -0.0213,  0.0537,  ..., -0.0050, -0.1487, -0.0081],
+        [-0.1292, -0.0366, -0.0451,  ..., -0.1481,  0.0414, -0.0930]],
+       device='cuda:0'), grad: tensor([[ 2.6077e-08,  7.0781e-08,  1.1176e-06,  ...,  3.7625e-07,
+          1.3001e-06,  0.0000e+00],
+        [ 3.7253e-09,  3.7253e-09,  1.6764e-07,  ...,  1.4901e-07,
+          4.2841e-07,  2.2352e-08],
+        [ 3.7253e-09, -1.8254e-07,  7.6741e-07,  ...,  3.4273e-07,
+          1.1176e-08,  9.3132e-08],
+        ...,
+        [ 0.0000e+00,  1.8626e-08,  3.3900e-07,  ..., -3.0547e-07,
+          3.4645e-07, -1.6391e-07],
+        [ 5.9605e-08,  1.1176e-08,  7.7188e-06,  ...,  7.2643e-07,
+          6.1542e-06,  1.4901e-08],
+        [ 0.0000e+00,  7.4506e-09, -1.0908e-05,  ...,  1.4529e-07,
+         -8.1024e-03,  7.4506e-09]], device='cuda:0')
+Epoch 164, bias, value: tensor([-0.0073, -0.0312,  0.0110, -0.0172,  0.0134,  0.0088,  0.0196, -0.0011,
+        -0.0343, -0.0069], device='cuda:0'), grad: tensor([ 6.7614e-06,  1.4380e-06,  2.9355e-06,  4.3511e-06,  1.3863e-02,
+         2.2799e-06, -2.1942e-06,  3.6880e-07,  4.6223e-05, -1.3924e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 163, time 259.35, cls_loss 0.0025 cls_loss_mapping 0.0036 cls_loss_causal 0.5339 re_mapping 0.0066 re_causal 0.0204 /// teacc 98.90 lr 0.00010000
+Epoch 165, weight, value: tensor([[ 0.0158, -0.1417, -0.0970,  ..., -0.1860, -0.0814, -0.1306],
+        [ 0.0384, -0.0526,  0.0283,  ...,  0.0492,  0.0874, -0.0360],
+        [-0.0632,  0.1058, -0.1329,  ...,  0.0608,  0.0627, -0.0292],
+        ...,
+        [-0.0719, -0.0691, -0.0720,  ...,  0.0010, -0.1176,  0.1164],
+        [ 0.0646, -0.0215,  0.0538,  ..., -0.0049, -0.1494, -0.0081],
+        [-0.1294, -0.0372, -0.0461,  ..., -0.1492,  0.0415, -0.0932]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.0978e-08,  6.7055e-07,  ...,  6.4075e-07,
+          5.6997e-07,  0.0000e+00],
+        [ 0.0000e+00,  1.0803e-07, -6.0350e-07,  ..., -7.4506e-08,
+          1.1921e-07,  2.9802e-08],
+        [ 0.0000e+00, -2.5369e-06,  1.0744e-05,  ...,  9.4771e-06,
+         -1.7993e-06,  4.0978e-08],
+        ...,
+        [ 0.0000e+00,  1.9409e-06,  2.7008e-06,  ...,  3.6806e-06,
+          3.3714e-06, -1.6019e-07],
+        [ 0.0000e+00,  2.1234e-07,  4.3549e-06,  ...,  5.1670e-06,
+          2.1495e-06,  3.7253e-08],
+        [ 0.0000e+00,  3.7253e-08,  1.0729e-06,  ...,  7.2271e-07,
+          6.4708e-06,  2.2352e-08]], device='cuda:0')
+Epoch 165, bias, value: tensor([-0.0078, -0.0315,  0.0107, -0.0175,  0.0131,  0.0086,  0.0203, -0.0004,
+        -0.0342, -0.0069], device='cuda:0'), grad: tensor([ 6.5677e-06,  1.5944e-06,  2.3916e-05, -5.3346e-05, -2.5988e-05,
+         5.4277e-06, -1.2755e-05,  1.3381e-05,  1.7464e-05,  2.3723e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 164, time 259.44, cls_loss 0.0024 cls_loss_mapping 0.0039 cls_loss_causal 0.5173 re_mapping 0.0070 re_causal 0.0209 /// teacc 98.87 lr 0.00010000
+Epoch 166, weight, value: tensor([[ 0.0168, -0.1418, -0.0975,  ..., -0.1867, -0.0814, -0.1306],
+        [ 0.0384, -0.0526,  0.0291,  ...,  0.0494,  0.0874, -0.0360],
+        [-0.0635,  0.1059, -0.1335,  ...,  0.0608,  0.0631, -0.0296],
+        ...,
+        [-0.0719, -0.0691, -0.0723,  ...,  0.0010, -0.1178,  0.1167],
+        [ 0.0646, -0.0216,  0.0538,  ..., -0.0048, -0.1501, -0.0081],
+        [-0.1297, -0.0374, -0.0471,  ..., -0.1504,  0.0414, -0.0935]],
+       device='cuda:0'), grad: tensor([[ 2.2352e-08,  1.4156e-07,  7.8231e-08,  ...,  2.1979e-07,
+          2.3842e-07,  2.9802e-08],
+        [ 7.4506e-09,  7.4506e-09,  1.3001e-06,  ...,  4.5113e-06,
+         -1.6391e-07,  7.1265e-06],
+        [-1.8626e-08, -2.6450e-07,  1.1548e-07,  ..., -1.1548e-07,
+         -3.6508e-07,  5.9605e-08],
+        ...,
+        [ 1.1176e-08,  4.0978e-08, -1.3635e-06,  ..., -4.7572e-06,
+          1.7136e-07, -7.7263e-06],
+        [ 1.1176e-08,  1.4901e-08,  6.7055e-08,  ...,  9.6858e-08,
+          2.6450e-07,  2.9802e-08],
+        [ 7.4506e-09,  2.2352e-08,  2.0117e-07,  ...,  3.6880e-07,
+          2.8685e-07,  4.0978e-07]], device='cuda:0')
+Epoch 166, bias, value: tensor([-0.0067, -0.0313,  0.0105, -0.0176,  0.0130,  0.0082,  0.0210, -0.0002,
+        -0.0341, -0.0075], device='cuda:0'), grad: tensor([-4.0904e-06,  1.4752e-05,  1.0803e-06, -2.1495e-06,  2.6822e-07,
+         1.2144e-06, -1.0356e-06, -1.5289e-05,  9.3877e-07,  4.2543e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 165, time 259.25, cls_loss 0.0027 cls_loss_mapping 0.0048 cls_loss_causal 0.5357 re_mapping 0.0066 re_causal 0.0202 /// teacc 99.02 lr 0.00010000
+Epoch 167, weight, value: tensor([[ 0.0166, -0.1420, -0.0987,  ..., -0.1880, -0.0815, -0.1306],
+        [ 0.0389, -0.0528,  0.0272,  ...,  0.0479,  0.0876, -0.0362],
+        [-0.0637,  0.1060, -0.1338,  ...,  0.0607,  0.0633, -0.0297],
+        ...,
+        [-0.0723, -0.0689, -0.0704,  ...,  0.0027, -0.1181,  0.1169],
+        [ 0.0648, -0.0216,  0.0540,  ..., -0.0047, -0.1511, -0.0081],
+        [-0.1325, -0.0375, -0.0499,  ..., -0.1533,  0.0411, -0.0937]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  3.7253e-09,  1.0058e-07,  ...,  5.9605e-08,
+          1.5274e-07,  7.4506e-09],
+        [ 3.7253e-09,  2.6077e-08, -1.9744e-07,  ...,  2.1979e-07,
+         -2.2352e-07,  1.1921e-07],
+        [ 1.1548e-07,  7.4506e-09,  2.7977e-06,  ...,  1.8589e-06,
+          2.1607e-07,  2.2352e-08],
+        ...,
+        [ 7.4506e-09, -5.5879e-08,  1.9744e-07,  ..., -5.4389e-07,
+          1.7136e-07, -3.3155e-07],
+        [-3.3528e-08,  3.7253e-09,  3.0547e-07,  ...,  2.3097e-07,
+          9.7975e-07,  7.4506e-08],
+        [ 1.1176e-08,  7.4506e-09,  1.1548e-07,  ...,  1.1176e-07,
+         -1.0282e-06,  4.8429e-08]], device='cuda:0')
+Epoch 167, bias, value: tensor([-0.0070, -0.0331,  0.0103, -0.0167,  0.0134,  0.0091,  0.0211,  0.0016,
+        -0.0344, -0.0086], device='cuda:0'), grad: tensor([ 4.9174e-07,  8.1956e-07,  5.1558e-06, -4.6082e-06,  2.0005e-06,
+         5.2154e-08, -3.1888e-06, -1.4417e-06,  2.7120e-06, -2.0415e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 166, time 259.50, cls_loss 0.0020 cls_loss_mapping 0.0032 cls_loss_causal 0.5391 re_mapping 0.0065 re_causal 0.0202 /// teacc 98.92 lr 0.00010000
+Epoch 168, weight, value: tensor([[ 0.0156, -0.1421, -0.0998,  ..., -0.1893, -0.0815, -0.1307],
+        [ 0.0395, -0.0531,  0.0279,  ...,  0.0478,  0.0880, -0.0363],
+        [-0.0624,  0.1078, -0.1331,  ...,  0.0615,  0.0644, -0.0298],
+        ...,
+        [-0.0733, -0.0693, -0.0707,  ...,  0.0028, -0.1186,  0.1170],
+        [ 0.0636, -0.0239,  0.0537,  ..., -0.0057, -0.1536, -0.0082],
+        [-0.1337, -0.0377, -0.0503,  ..., -0.1537,  0.0408, -0.0937]],
+       device='cuda:0'), grad: tensor([[-8.1956e-08,  4.4703e-08, -1.2293e-07,  ...,  2.3097e-07,
+         -7.1526e-07,  1.0058e-07],
+        [ 1.4901e-08,  5.2154e-08,  6.3144e-06,  ...,  1.0572e-05,
+          3.1292e-07,  2.9542e-06],
+        [ 3.3528e-08, -4.0606e-07,  8.4564e-07,  ...,  3.1367e-06,
+          1.5646e-07,  2.3581e-06],
+        ...,
+        [ 1.8626e-08,  1.6019e-07, -7.0184e-06,  ..., -1.7792e-05,
+         -6.0350e-07, -8.1137e-06],
+        [ 7.4506e-09,  4.0978e-08,  1.8999e-07,  ...,  1.2405e-06,
+          3.7998e-07,  7.8604e-07],
+        [ 7.4506e-09,  7.4506e-09,  3.9116e-07,  ...,  1.6801e-06,
+         -4.4331e-07,  9.0897e-07]], device='cuda:0')
+Epoch 168, bias, value: tensor([-0.0069, -0.0329,  0.0112, -0.0169,  0.0138,  0.0096,  0.0209,  0.0015,
+        -0.0355, -0.0091], device='cuda:0'), grad: tensor([-4.6268e-06,  2.5183e-05,  1.2159e-05,  1.4231e-06,  3.4384e-06,
+         8.7842e-06, -6.8508e-06, -4.8846e-05,  4.9248e-06,  4.3176e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 167, time 259.18, cls_loss 0.0025 cls_loss_mapping 0.0040 cls_loss_causal 0.4920 re_mapping 0.0067 re_causal 0.0189 /// teacc 98.98 lr 0.00010000
+Epoch 169, weight, value: tensor([[ 0.0169, -0.1425, -0.1029,  ..., -0.1932, -0.0816, -0.1307],
+        [ 0.0394, -0.0535,  0.0278,  ...,  0.0477,  0.0880, -0.0364],
+        [-0.0621,  0.1088, -0.1337,  ...,  0.0616,  0.0648, -0.0301],
+        ...,
+        [-0.0739, -0.0696, -0.0709,  ...,  0.0029, -0.1191,  0.1172],
+        [ 0.0632, -0.0244,  0.0545,  ..., -0.0058, -0.1537, -0.0082],
+        [-0.1344, -0.0380, -0.0511,  ..., -0.1541,  0.0409, -0.0937]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.7509e-07,  1.0431e-07,  ...,  2.3097e-07,
+          5.4762e-07,  0.0000e+00],
+        [ 0.0000e+00,  1.9819e-06,  1.1511e-06,  ...,  2.9132e-06,
+          3.4794e-06,  1.8626e-08],
+        [ 0.0000e+00,  3.7551e-06,  1.3746e-06,  ...,  4.2468e-06,
+          2.9802e-07,  7.4506e-09],
+        ...,
+        [ 0.0000e+00, -1.4067e-05, -3.0920e-06,  ..., -1.4327e-05,
+          1.0692e-06, -1.0431e-07],
+        [ 0.0000e+00,  3.3341e-06,  4.1910e-06,  ...,  4.7684e-06,
+          1.1586e-06,  1.1176e-08],
+        [ 0.0000e+00,  4.2468e-07,  2.7195e-07,  ...,  6.4075e-07,
+          5.3756e-06,  7.4506e-09]], device='cuda:0')
+Epoch 169, bias, value: tensor([-0.0073, -0.0331,  0.0113, -0.0167,  0.0136,  0.0103,  0.0207,  0.0016,
+        -0.0356, -0.0091], device='cuda:0'), grad: tensor([ 1.8328e-06,  1.7971e-05,  1.2122e-05,  1.1146e-05, -5.5909e-05,
+        -1.6347e-05,  1.7732e-05, -3.3319e-05,  2.0564e-05,  2.4125e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 168, time 259.53, cls_loss 0.0020 cls_loss_mapping 0.0033 cls_loss_causal 0.4963 re_mapping 0.0073 re_causal 0.0196 /// teacc 98.92 lr 0.00010000
+Epoch 170, weight, value: tensor([[ 0.0181, -0.1442, -0.1036,  ..., -0.1941, -0.0818, -0.1307],
+        [ 0.0394, -0.0537,  0.0277,  ...,  0.0476,  0.0879, -0.0367],
+        [-0.0627,  0.1095, -0.1343,  ...,  0.0617,  0.0652, -0.0298],
+        ...,
+        [-0.0740, -0.0706, -0.0711,  ...,  0.0028, -0.1197,  0.1173],
+        [ 0.0636, -0.0240,  0.0549,  ..., -0.0058, -0.1541, -0.0082],
+        [-0.1351, -0.0383, -0.0513,  ..., -0.1544,  0.0409, -0.0939]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  9.6858e-08,  7.0781e-08,  ...,  3.8743e-07,
+          2.1607e-07,  2.6077e-08],
+        [ 0.0000e+00,  9.3132e-08, -2.3954e-06,  ..., -5.9977e-07,
+         -1.4305e-06,  1.7136e-07],
+        [ 0.0000e+00, -3.0175e-07,  2.1607e-07,  ...,  2.1607e-07,
+         -8.7172e-07,  6.4448e-07],
+        ...,
+        [ 0.0000e+00, -3.2037e-07,  1.2890e-06,  ..., -2.9691e-06,
+          1.1735e-06, -1.9707e-06],
+        [-1.4901e-08,  8.1956e-08, -9.4622e-07,  ..., -3.7998e-07,
+          3.6508e-07,  4.0978e-08],
+        [ 3.7253e-09,  2.9802e-08,  8.9407e-08,  ...,  4.2468e-07,
+         -3.0175e-07,  1.4529e-07]], device='cuda:0')
+Epoch 170, bias, value: tensor([-0.0068, -0.0335,  0.0115, -0.0168,  0.0135,  0.0109,  0.0204,  0.0013,
+        -0.0356, -0.0090], device='cuda:0'), grad: tensor([-2.2724e-07, -2.1495e-06,  2.8647e-06,  7.8604e-06,  2.3469e-06,
+        -9.6485e-07,  8.2329e-07, -9.1046e-06, -4.6194e-07, -1.0058e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 169, time 259.59, cls_loss 0.0026 cls_loss_mapping 0.0048 cls_loss_causal 0.5769 re_mapping 0.0068 re_causal 0.0208 /// teacc 98.96 lr 0.00010000
+Epoch 171, weight, value: tensor([[ 0.0182, -0.1447, -0.1044,  ..., -0.1965, -0.0820, -0.1308],
+        [ 0.0393, -0.0545,  0.0281,  ...,  0.0475,  0.0881, -0.0370],
+        [-0.0631,  0.1077, -0.1357,  ...,  0.0607,  0.0647, -0.0323],
+        ...,
+        [-0.0737, -0.0678, -0.0710,  ...,  0.0034, -0.1203,  0.1182],
+        [ 0.0639, -0.0245,  0.0550,  ..., -0.0059, -0.1551, -0.0083],
+        [-0.1355, -0.0385, -0.0516,  ..., -0.1548,  0.0410, -0.0940]],
+       device='cuda:0'), grad: tensor([[-1.0952e-06,  1.0103e-05,  2.8349e-06,  ...,  3.3155e-07,
+          8.7917e-07,  6.7055e-08],
+        [ 7.4506e-09,  1.8626e-07, -3.1292e-07,  ...,  2.3469e-07,
+          8.4117e-06,  3.7625e-07],
+        [ 2.2352e-08, -1.8813e-06,  1.5795e-06,  ..., -1.1697e-06,
+         -1.1176e-06,  1.5832e-06],
+        ...,
+        [ 0.0000e+00,  2.4475e-06,  2.1309e-06,  ..., -1.3486e-06,
+          4.4703e-06, -1.0893e-05],
+        [ 1.8626e-08, -1.4067e-05,  2.3097e-06,  ...,  6.4708e-06,
+          1.2442e-06,  1.7397e-06],
+        [ 1.7881e-07,  1.0096e-06,  8.6054e-07,  ...,  5.3272e-07,
+          6.7830e-05,  1.4156e-07]], device='cuda:0')
+Epoch 171, bias, value: tensor([-0.0069, -0.0335,  0.0097, -0.0175,  0.0136,  0.0118,  0.0214,  0.0020,
+        -0.0360, -0.0088], device='cuda:0'), grad: tensor([ 2.7508e-05,  2.0057e-05,  5.1744e-06, -2.3752e-05, -2.5749e-04,
+         7.2896e-05,  5.8234e-05, -1.1533e-05, -2.6345e-05,  1.3518e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 170, time 259.64, cls_loss 0.0021 cls_loss_mapping 0.0035 cls_loss_causal 0.5362 re_mapping 0.0068 re_causal 0.0209 /// teacc 98.96 lr 0.00010000
+Epoch 172, weight, value: tensor([[ 0.0189, -0.1451, -0.1049,  ..., -0.1977, -0.0820, -0.1297],
+        [ 0.0403, -0.0547,  0.0285,  ...,  0.0477,  0.0884, -0.0373],
+        [-0.0636,  0.1083, -0.1362,  ...,  0.0608,  0.0646, -0.0323],
+        ...,
+        [-0.0742, -0.0683, -0.0715,  ...,  0.0026, -0.1209,  0.1176],
+        [ 0.0640, -0.0245,  0.0549,  ..., -0.0062, -0.1559, -0.0083],
+        [-0.1359, -0.0387, -0.0519,  ..., -0.1550,  0.0410, -0.0942]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  7.4506e-09,  8.9407e-08,  ...,  7.0781e-08,
+          3.7253e-07,  1.1176e-08],
+        [ 0.0000e+00,  2.6077e-08, -1.2703e-06,  ..., -5.2154e-07,
+         -1.5050e-06, -1.9744e-07],
+        [ 0.0000e+00, -3.1292e-07,  1.2293e-07,  ..., -7.0781e-07,
+         -3.5390e-07,  7.4506e-09],
+        ...,
+        [ 0.0000e+00,  1.8626e-07,  5.1036e-07,  ...,  7.1898e-07,
+          1.0356e-06, -1.2293e-07],
+        [ 0.0000e+00,  5.2154e-08, -4.6045e-06,  ..., -2.4214e-06,
+          2.5705e-06,  3.3528e-08],
+        [ 0.0000e+00,  3.7253e-09,  2.4214e-07,  ...,  1.6764e-07,
+         -4.9546e-07,  1.4529e-07]], device='cuda:0')
+Epoch 172, bias, value: tensor([-0.0067, -0.0333,  0.0096, -0.0177,  0.0139,  0.0125,  0.0214,  0.0014,
+        -0.0363, -0.0089], device='cuda:0'), grad: tensor([ 1.1250e-06, -2.7269e-06, -1.1958e-06,  4.7162e-06,  1.1064e-06,
+         8.5533e-06, -1.2018e-05,  2.3320e-06, -2.0377e-06,  1.0431e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 171, time 258.83, cls_loss 0.0020 cls_loss_mapping 0.0029 cls_loss_causal 0.5241 re_mapping 0.0069 re_causal 0.0210 /// teacc 98.82 lr 0.00010000
+Epoch 173, weight, value: tensor([[ 0.0189, -0.1453, -0.1056,  ..., -0.1995, -0.0822, -0.1297],
+        [ 0.0403, -0.0551,  0.0287,  ...,  0.0477,  0.0885, -0.0377],
+        [-0.0638,  0.1085, -0.1366,  ...,  0.0608,  0.0649, -0.0323],
+        ...,
+        [-0.0744, -0.0685, -0.0716,  ...,  0.0021, -0.1223,  0.1168],
+        [ 0.0641, -0.0242,  0.0562,  ..., -0.0053, -0.1561, -0.0083],
+        [-0.1363, -0.0388, -0.0522,  ..., -0.1531,  0.0411, -0.0918]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  0.0000e+00,  1.9744e-07,  ...,  3.3528e-08,
+         -5.3272e-07,  0.0000e+00],
+        [ 7.4506e-09,  0.0000e+00, -2.3469e-07,  ..., -1.3411e-07,
+         -2.7195e-07, -2.6077e-08],
+        [ 7.4506e-09,  0.0000e+00,  7.8231e-08,  ...,  2.6077e-08,
+          3.2410e-07,  0.0000e+00],
+        ...,
+        [ 2.6077e-08,  0.0000e+00,  2.1979e-07,  ...,  3.3528e-08,
+          3.5763e-07, -1.1176e-08],
+        [ 7.4506e-09,  0.0000e+00,  1.5482e-05,  ...,  2.2352e-06,
+          1.1124e-05,  3.7253e-09],
+        [ 2.9802e-08,  0.0000e+00, -1.7256e-05,  ..., -2.4736e-06,
+         -1.0982e-05,  2.2352e-08]], device='cuda:0')
+Epoch 173, bias, value: tensor([-0.0067, -0.0334,  0.0096, -0.0176,  0.0143,  0.0105,  0.0212,  0.0007,
+        -0.0342, -0.0084], device='cuda:0'), grad: tensor([-3.8072e-06, -2.0862e-07,  1.5572e-06,  6.0350e-06, -1.4529e-06,
+        -5.2229e-06,  3.5763e-06,  2.2724e-07,  5.3048e-05, -5.3823e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 172, time 259.04, cls_loss 0.0021 cls_loss_mapping 0.0023 cls_loss_causal 0.5276 re_mapping 0.0069 re_causal 0.0209 /// teacc 98.83 lr 0.00010000
+Epoch 174, weight, value: tensor([[ 0.0192, -0.1455, -0.1062,  ..., -0.2012, -0.0823, -0.1297],
+        [ 0.0401, -0.0552,  0.0287,  ...,  0.0475,  0.0880, -0.0377],
+        [-0.0639,  0.1088, -0.1366,  ...,  0.0614,  0.0658, -0.0323],
+        ...,
+        [-0.0749, -0.0686, -0.0717,  ...,  0.0020, -0.1226,  0.1169],
+        [ 0.0643, -0.0242,  0.0567,  ..., -0.0052, -0.1561, -0.0083],
+        [-0.1368, -0.0388, -0.0523,  ..., -0.1534,  0.0406, -0.0919]],
+       device='cuda:0'), grad: tensor([[ 1.4901e-08,  3.7253e-09,  4.5449e-07,  ...,  1.8254e-07,
+          7.5623e-07,  7.4506e-09],
+        [ 5.9605e-08,  7.4506e-09,  2.3022e-06,  ...,  9.1270e-07,
+          5.5879e-07,  2.9802e-08],
+        [ 1.0431e-07, -7.0781e-08,  1.1884e-06,  ...,  6.7055e-07,
+          3.0175e-07,  4.8429e-08],
+        ...,
+        [ 3.7253e-08,  2.9802e-08,  1.2293e-06,  ...,  4.0978e-07,
+          6.2436e-06, -8.5682e-08],
+        [-4.9174e-07,  1.1176e-08, -2.1420e-06,  ..., -1.7397e-06,
+          2.3767e-06, -2.2724e-07],
+        [ 2.2352e-08,  3.7253e-09,  2.1867e-06,  ...,  8.0466e-07,
+         -3.6120e-05,  4.0978e-08]], device='cuda:0')
+Epoch 174, bias, value: tensor([-0.0065, -0.0338,  0.0103, -0.0177,  0.0147,  0.0105,  0.0208,  0.0006,
+        -0.0340, -0.0089], device='cuda:0'), grad: tensor([-2.5332e-07,  5.5656e-06,  3.3453e-06, -5.0291e-06,  6.0171e-05,
+         7.1004e-06,  3.1702e-06,  1.8746e-05,  1.5236e-06, -9.4354e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 173, time 258.99, cls_loss 0.0022 cls_loss_mapping 0.0048 cls_loss_causal 0.5648 re_mapping 0.0068 re_causal 0.0207 /// teacc 98.95 lr 0.00010000
+Epoch 175, weight, value: tensor([[ 0.0200, -0.1457, -0.1065,  ..., -0.2020, -0.0822, -0.1295],
+        [ 0.0400, -0.0558,  0.0307,  ...,  0.0492,  0.0879, -0.0350],
+        [-0.0640,  0.1092, -0.1369,  ...,  0.0616,  0.0663, -0.0325],
+        ...,
+        [-0.0752, -0.0685, -0.0738,  ...,  0.0004, -0.1230,  0.1155],
+        [ 0.0643, -0.0244,  0.0574,  ..., -0.0049, -0.1562, -0.0084],
+        [-0.1372, -0.0390, -0.0524,  ..., -0.1537,  0.0405, -0.0921]],
+       device='cuda:0'), grad: tensor([[-3.7253e-09,  0.0000e+00,  8.5682e-08,  ...,  7.4506e-09,
+          1.4901e-07,  1.1176e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.9488e-07,  ...,  2.9802e-08,
+          8.2329e-07,  1.4529e-07],
+        [ 0.0000e+00, -2.9802e-08,  7.0781e-08,  ..., -5.9605e-08,
+          6.3330e-08,  2.2352e-08],
+        ...,
+        [ 0.0000e+00,  1.1176e-08,  7.5251e-07,  ..., -1.0431e-07,
+          1.4082e-06, -5.8487e-07],
+        [ 0.0000e+00,  3.7253e-09,  3.9898e-06,  ...,  1.1176e-08,
+          2.4177e-06,  1.9372e-07],
+        [ 0.0000e+00,  0.0000e+00, -2.1905e-06,  ...,  6.7055e-08,
+         -3.5092e-06,  3.1292e-07]], device='cuda:0')
+Epoch 175, bias, value: tensor([-0.0059, -0.0321,  0.0104, -0.0169,  0.0149,  0.0099,  0.0203, -0.0008,
+        -0.0339, -0.0092], device='cuda:0'), grad: tensor([-4.1723e-07,  5.0180e-06,  9.2015e-07,  1.3724e-05,  1.0088e-05,
+        -8.0347e-05,  1.3649e-05,  2.3060e-06,  4.7922e-05, -1.2867e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 174, time 259.53, cls_loss 0.0021 cls_loss_mapping 0.0043 cls_loss_causal 0.5473 re_mapping 0.0066 re_causal 0.0201 /// teacc 98.86 lr 0.00010000
+Epoch 176, weight, value: tensor([[ 0.0212, -0.1464, -0.1068,  ..., -0.2032, -0.0824, -0.1296],
+        [ 0.0398, -0.0559,  0.0296,  ...,  0.0483,  0.0878, -0.0353],
+        [-0.0641,  0.1096, -0.1373,  ...,  0.0616,  0.0664, -0.0328],
+        ...,
+        [-0.0765, -0.0685, -0.0730,  ...,  0.0013, -0.1234,  0.1158],
+        [ 0.0643, -0.0246,  0.0577,  ..., -0.0048, -0.1565, -0.0084],
+        [-0.1381, -0.0401, -0.0527,  ..., -0.1541,  0.0404, -0.0923]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  8.1956e-08,  2.9802e-08,  ...,  1.0803e-07,
+          3.3528e-07,  3.7253e-09],
+        [ 1.4901e-08,  1.1176e-08, -2.3209e-06,  ..., -1.7136e-07,
+          3.1702e-06,  1.8626e-07],
+        [ 7.4506e-09, -3.9861e-07,  4.0978e-08,  ..., -3.2037e-07,
+         -4.7684e-07,  1.8626e-08],
+        ...,
+        [ 2.7567e-07,  1.3784e-07,  2.6487e-06,  ...,  1.1288e-06,
+          3.7923e-06, -3.3528e-08],
+        [ 3.7253e-09,  1.1176e-08,  8.1956e-08,  ...,  3.7625e-07,
+          2.8312e-07,  1.1176e-08],
+        [ 1.4901e-08,  2.6077e-08,  6.3330e-08,  ...,  1.2293e-07,
+          5.9605e-07,  4.0978e-08]], device='cuda:0')
+Epoch 176, bias, value: tensor([-0.0059, -0.0333,  0.0103, -0.0169,  0.0152,  0.0105,  0.0205, -0.0001,
+        -0.0341, -0.0095], device='cuda:0'), grad: tensor([-5.5134e-07,  3.2745e-06, -2.0862e-07,  1.2890e-06, -2.8417e-05,
+        -2.7828e-06,  1.1489e-05,  1.0177e-05,  2.0191e-06,  3.6918e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 175, time 260.02, cls_loss 0.0026 cls_loss_mapping 0.0041 cls_loss_causal 0.5126 re_mapping 0.0069 re_causal 0.0190 /// teacc 98.80 lr 0.00010000
+Epoch 177, weight, value: tensor([[ 0.0213, -0.1476, -0.1078,  ..., -0.2050, -0.0827, -0.1297],
+        [ 0.0399, -0.0560,  0.0302,  ...,  0.0483,  0.0889, -0.0354],
+        [-0.0642,  0.1102, -0.1382,  ...,  0.0616,  0.0668, -0.0333],
+        ...,
+        [-0.0767, -0.0685, -0.0727,  ...,  0.0017, -0.1241,  0.1162],
+        [ 0.0643, -0.0249,  0.0573,  ..., -0.0052, -0.1588, -0.0085],
+        [-0.1384, -0.0416, -0.0530,  ..., -0.1542,  0.0405, -0.0926]],
+       device='cuda:0'), grad: tensor([[-2.5444e-06, -1.3784e-07,  3.5018e-07,  ...,  7.0408e-07,
+          7.8231e-08,  4.0978e-08],
+        [ 7.2271e-07,  1.8626e-08,  2.3395e-06,  ...,  1.0766e-05,
+         -3.3826e-06,  5.5134e-07],
+        [ 2.6077e-08,  3.0175e-07,  2.5466e-05,  ...,  5.0962e-05,
+          2.6077e-08,  1.5870e-06],
+        ...,
+        [ 1.1176e-08, -4.8429e-08, -3.4392e-05,  ..., -7.5400e-05,
+          3.3379e-06, -2.8275e-06],
+        [ 1.3039e-07, -2.7940e-07,  9.3132e-08,  ...,  5.9232e-07,
+          1.1548e-07,  7.8231e-08],
+        [ 3.7253e-08,  3.7253e-08,  8.4192e-07,  ...,  1.7174e-06,
+          7.0781e-08,  1.7881e-07]], device='cuda:0')
+Epoch 177, bias, value: tensor([-0.0057, -0.0331,  0.0102, -0.0180,  0.0150,  0.0111,  0.0205,  0.0003,
+        -0.0347, -0.0093], device='cuda:0'), grad: tensor([ 3.3170e-05,  2.7597e-05,  1.1897e-04,  2.4214e-05, -2.6077e-08,
+         1.7472e-06, -3.8892e-05, -1.7452e-04,  2.7455e-06,  5.1335e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 176, time 259.00, cls_loss 0.0017 cls_loss_mapping 0.0030 cls_loss_causal 0.5356 re_mapping 0.0064 re_causal 0.0197 /// teacc 98.96 lr 0.00010000
+Epoch 178, weight, value: tensor([[ 0.0212, -0.1478, -0.1084,  ..., -0.2062, -0.0829, -0.1297],
+        [ 0.0401, -0.0564,  0.0309,  ...,  0.0493,  0.0893, -0.0347],
+        [-0.0641,  0.1105, -0.1386,  ...,  0.0616,  0.0669, -0.0334],
+        ...,
+        [-0.0768, -0.0685, -0.0734,  ...,  0.0010, -0.1249,  0.1159],
+        [ 0.0642, -0.0251,  0.0579,  ..., -0.0048, -0.1586, -0.0085],
+        [-0.1385, -0.0420, -0.0532,  ..., -0.1545,  0.0406, -0.0929]],
+       device='cuda:0'), grad: tensor([[ 1.1176e-08,  0.0000e+00,  5.5879e-08,  ...,  8.1956e-08,
+          2.9802e-07,  5.2154e-08],
+        [ 2.2352e-08,  0.0000e+00, -3.5763e-07,  ...,  1.1288e-06,
+          3.5390e-06,  1.1511e-06],
+        [ 4.4703e-08,  2.7195e-07,  2.8312e-07,  ...,  8.5682e-07,
+          7.4133e-07,  5.4389e-07],
+        ...,
+        [ 2.2352e-08, -2.7567e-07,  3.3155e-07,  ...,  1.0394e-05,
+          3.4541e-05,  9.2313e-06],
+        [ 3.3900e-07,  0.0000e+00,  1.3001e-06,  ...,  7.4878e-07,
+          1.4380e-06,  3.0175e-07],
+        [ 1.4901e-08,  0.0000e+00,  1.2293e-07,  ..., -1.6853e-05,
+         -5.4359e-05, -1.5073e-05]], device='cuda:0')
+Epoch 178, bias, value: tensor([-5.7890e-03, -3.2410e-02,  1.0068e-02, -1.8432e-02,  1.5083e-02,
+         1.1284e-02,  2.0358e-02, -9.5728e-05, -3.4629e-02, -9.4174e-03],
+       device='cuda:0'), grad: tensor([ 9.2387e-07,  2.1249e-05,  4.7125e-06, -8.4564e-07,  7.1406e-05,
+         2.3097e-06,  3.1665e-07,  1.8418e-04,  1.1019e-05, -2.9564e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 177, time 259.13, cls_loss 0.0022 cls_loss_mapping 0.0043 cls_loss_causal 0.5291 re_mapping 0.0062 re_causal 0.0191 /// teacc 98.93 lr 0.00010000
+Epoch 179, weight, value: tensor([[ 0.0216, -0.1481, -0.1092,  ..., -0.2078, -0.0829, -0.1294],
+        [ 0.0408, -0.0566,  0.0303,  ...,  0.0490,  0.0910, -0.0363],
+        [-0.0644,  0.1107, -0.1414,  ...,  0.0595,  0.0645, -0.0336],
+        ...,
+        [-0.0769, -0.0686, -0.0719,  ...,  0.0028, -0.1238,  0.1171],
+        [ 0.0641, -0.0250,  0.0578,  ..., -0.0049, -0.1598, -0.0086],
+        [-0.1389, -0.0423, -0.0535,  ..., -0.1554,  0.0404, -0.0928]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  1.8626e-09,  1.9558e-07,  ...,  8.1398e-07,
+          1.0114e-06,  9.3132e-08],
+        [-1.1548e-07,  3.7253e-09,  7.5027e-06,  ...,  1.0930e-05,
+          1.8895e-05,  1.5207e-05],
+        [ 3.7253e-09, -1.2480e-07,  2.0191e-06,  ...,  2.5705e-07,
+          2.1085e-06,  3.4403e-06],
+        ...,
+        [ 3.7253e-09,  1.0990e-07, -1.3940e-05,  ..., -2.5406e-05,
+         -2.3097e-05, -4.1425e-05],
+        [ 3.7253e-09,  0.0000e+00,  1.7837e-05,  ...,  2.4274e-05,
+          3.0786e-05,  5.7966e-06],
+        [ 1.8626e-09,  0.0000e+00,  5.6997e-07,  ...,  8.2254e-06,
+          1.2033e-05,  1.4469e-05]], device='cuda:0')
+Epoch 179, bias, value: tensor([-0.0055, -0.0331,  0.0080, -0.0183,  0.0155,  0.0115,  0.0204,  0.0017,
+        -0.0350, -0.0098], device='cuda:0'), grad: tensor([ 2.5537e-06,  5.8472e-05,  8.2403e-06,  3.3937e-06, -3.2544e-05,
+        -1.7858e-04,  3.2812e-05, -1.8406e-04,  1.6129e-04,  1.2815e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 178, time 259.47, cls_loss 0.0025 cls_loss_mapping 0.0036 cls_loss_causal 0.5339 re_mapping 0.0061 re_causal 0.0190 /// teacc 98.85 lr 0.00010000
+Epoch 180, weight, value: tensor([[ 0.0217, -0.1482, -0.1083,  ..., -0.2091, -0.0856, -0.1292],
+        [ 0.0407, -0.0574,  0.0323,  ...,  0.0514,  0.0923, -0.0335],
+        [-0.0645,  0.1109, -0.1420,  ...,  0.0594,  0.0646, -0.0339],
+        ...,
+        [-0.0771, -0.0686, -0.0737,  ...,  0.0005, -0.1261,  0.1147],
+        [ 0.0641, -0.0251,  0.0578,  ..., -0.0049, -0.1608, -0.0086],
+        [-0.1390, -0.0424, -0.0539,  ..., -0.1556,  0.0419, -0.0929]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  7.4506e-09,  5.5879e-09,  ...,  1.3039e-08,
+          8.0094e-07,  1.8626e-09],
+        [ 1.8626e-09,  7.4506e-09, -1.0990e-07,  ..., -9.3132e-09,
+         -5.9605e-08,  2.9802e-08],
+        [ 5.5879e-09, -1.5274e-07,  4.4703e-08,  ..., -8.3819e-08,
+          1.1176e-08,  3.7253e-09],
+        ...,
+        [ 0.0000e+00,  1.1548e-07,  6.5193e-08,  ...,  8.1956e-08,
+          2.0675e-07, -7.0781e-08],
+        [ 6.7055e-08,  7.4506e-09,  4.0978e-08,  ..., -8.1956e-08,
+          1.5628e-06, -1.8626e-09],
+        [ 0.0000e+00,  3.7253e-09,  7.4506e-09,  ...,  1.6764e-08,
+          1.0617e-07,  2.0489e-08]], device='cuda:0')
+Epoch 180, bias, value: tensor([-0.0073, -0.0310,  0.0079, -0.0184,  0.0154,  0.0117,  0.0204, -0.0004,
+        -0.0354, -0.0085], device='cuda:0'), grad: tensor([ 5.1185e-06,  2.1607e-07,  7.0781e-08,  3.2037e-07, -2.6077e-08,
+         1.5646e-05, -3.1263e-05,  2.2911e-07,  9.0078e-06,  7.2643e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 179, time 259.08, cls_loss 0.0018 cls_loss_mapping 0.0044 cls_loss_causal 0.5158 re_mapping 0.0063 re_causal 0.0193 /// teacc 98.93 lr 0.00010000
+Epoch 181, weight, value: tensor([[ 0.0217, -0.1478, -0.1103,  ..., -0.2113, -0.0856, -0.1293],
+        [ 0.0408, -0.0578,  0.0324,  ...,  0.0514,  0.0924, -0.0335],
+        [-0.0645,  0.1112, -0.1418,  ...,  0.0598,  0.0650, -0.0341],
+        ...,
+        [-0.0775, -0.0687, -0.0739,  ...,  0.0005, -0.1268,  0.1147],
+        [ 0.0640, -0.0252,  0.0579,  ..., -0.0050, -0.1614, -0.0085],
+        [-0.1394, -0.0428, -0.0544,  ..., -0.1556,  0.0420, -0.0925]],
+       device='cuda:0'), grad: tensor([[-1.1176e-08, -3.3528e-08,  1.0058e-07,  ...,  2.9802e-08,
+          2.0303e-07,  5.5879e-09],
+        [ 1.8626e-09,  5.5879e-09, -6.1654e-07,  ...,  4.4703e-08,
+         -7.2457e-07,  2.6450e-07],
+        [ 1.8626e-09,  1.8626e-09,  5.0105e-07,  ...,  3.8743e-07,
+          2.2165e-07,  2.4214e-08],
+        ...,
+        [ 0.0000e+00,  1.8626e-09,  7.0781e-08,  ..., -1.9614e-06,
+          1.9185e-07, -1.2945e-06],
+        [ 0.0000e+00, -9.3132e-09,  2.6785e-06,  ...,  1.5777e-06,
+          3.5893e-06,  9.1270e-08],
+        [ 3.7253e-09,  3.1665e-08, -1.8068e-07,  ...,  5.1223e-07,
+         -2.5518e-07,  3.5390e-07]], device='cuda:0')
+Epoch 181, bias, value: tensor([-0.0071, -0.0310,  0.0083, -0.0186,  0.0154,  0.0118,  0.0204, -0.0007,
+        -0.0355, -0.0083], device='cuda:0'), grad: tensor([-3.1721e-06, -1.7881e-07,  1.2685e-06, -2.9802e-07,  1.1735e-07,
+         1.5646e-06, -7.4878e-06, -4.2915e-06,  9.2387e-06,  3.2224e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 180, time 259.12, cls_loss 0.0018 cls_loss_mapping 0.0041 cls_loss_causal 0.5276 re_mapping 0.0064 re_causal 0.0190 /// teacc 98.80 lr 0.00010000
+Epoch 182, weight, value: tensor([[ 0.0217, -0.1479, -0.1107,  ..., -0.2126, -0.0857, -0.1293],
+        [ 0.0409, -0.0583,  0.0324,  ...,  0.0512,  0.0922, -0.0336],
+        [-0.0653,  0.1112, -0.1423,  ...,  0.0598,  0.0652, -0.0337],
+        ...,
+        [-0.0777, -0.0689, -0.0739,  ...,  0.0005, -0.1271,  0.1148],
+        [ 0.0647, -0.0244,  0.0582,  ..., -0.0046, -0.1624, -0.0086],
+        [-0.1397, -0.0430, -0.0542,  ..., -0.1551,  0.0421, -0.0925]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  0.0000e+00,  4.2841e-08,  ...,  8.9407e-08,
+          3.0175e-07,  6.1467e-08],
+        [ 2.0489e-08,  1.8626e-09, -3.5949e-07,  ...,  1.8254e-07,
+         -7.9907e-07,  4.1537e-07],
+        [ 1.1176e-08, -1.6764e-08,  2.7753e-07,  ...,  4.2841e-08,
+          8.3819e-08,  1.2480e-07],
+        ...,
+        [-6.3330e-08,  9.3132e-09, -1.5646e-07,  ..., -1.5777e-06,
+          3.9861e-07, -1.6782e-06],
+        [ 1.8626e-09,  3.7253e-09,  9.1270e-08,  ...,  2.0675e-07,
+          6.5006e-07,  1.5087e-07],
+        [ 1.4901e-08,  0.0000e+00,  9.4995e-08,  ...,  8.1584e-07,
+         -1.0245e-07,  8.0653e-07]], device='cuda:0')
+Epoch 182, bias, value: tensor([-0.0071, -0.0312,  0.0082, -0.0186,  0.0151,  0.0117,  0.0208, -0.0007,
+        -0.0354, -0.0079], device='cuda:0'), grad: tensor([ 9.5740e-07,  7.6368e-07,  5.7556e-07,  6.7055e-07,  1.6224e-06,
+        -2.9244e-07, -2.1104e-06, -9.0674e-06,  2.5388e-06,  4.3213e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 181, time 259.28, cls_loss 0.0018 cls_loss_mapping 0.0044 cls_loss_causal 0.5218 re_mapping 0.0062 re_causal 0.0194 /// teacc 98.82 lr 0.00010000
+Epoch 183, weight, value: tensor([[ 0.0220, -0.1479, -0.1110,  ..., -0.2138, -0.0857, -0.1293],
+        [ 0.0409, -0.0584,  0.0324,  ...,  0.0511,  0.0922, -0.0336],
+        [-0.0654,  0.1112, -0.1426,  ...,  0.0594,  0.0655, -0.0338],
+        ...,
+        [-0.0778, -0.0689, -0.0739,  ...,  0.0008, -0.1272,  0.1149],
+        [ 0.0648, -0.0242,  0.0584,  ..., -0.0044, -0.1629, -0.0086],
+        [-0.1399, -0.0430, -0.0547,  ..., -0.1556,  0.0411, -0.0926]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  1.8626e-09,  2.9560e-06,  ...,  2.7940e-08,
+          8.0094e-08,  0.0000e+00],
+        [ 0.0000e+00,  7.4506e-09, -3.6228e-06,  ..., -3.3230e-06,
+         -4.4741e-06,  1.4901e-08],
+        [ 0.0000e+00, -4.2282e-07,  1.5777e-06,  ...,  6.3330e-07,
+          1.1306e-06,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  2.4214e-08,  1.2200e-06,  ...,  1.0449e-06,
+          1.3579e-06, -4.2841e-08],
+        [ 3.7253e-09,  3.7439e-07,  1.9073e-05,  ...,  8.2143e-07,
+          1.0412e-06,  5.5879e-09],
+        [ 0.0000e+00,  1.8626e-09,  1.2293e-06,  ...,  5.9977e-07,
+          4.5076e-07,  1.1176e-08]], device='cuda:0')
+Epoch 183, bias, value: tensor([-0.0069, -0.0314,  0.0079, -0.0186,  0.0164,  0.0119,  0.0206, -0.0004,
+        -0.0355, -0.0091], device='cuda:0'), grad: tensor([ 1.2495e-05, -5.1372e-06,  1.9763e-06,  4.0978e-07, -1.6205e-07,
+        -7.6914e-04,  6.5899e-04,  2.0899e-06,  9.4533e-05,  4.2319e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 182, time 259.44, cls_loss 0.0018 cls_loss_mapping 0.0035 cls_loss_causal 0.5203 re_mapping 0.0064 re_causal 0.0189 /// teacc 98.82 lr 0.00010000
+Epoch 184, weight, value: tensor([[ 0.0220, -0.1479, -0.1128,  ..., -0.2164, -0.0858, -0.1294],
+        [ 0.0409, -0.0586,  0.0324,  ...,  0.0510,  0.0921, -0.0338],
+        [-0.0655,  0.1109, -0.1431,  ...,  0.0594,  0.0656, -0.0338],
+        ...,
+        [-0.0778, -0.0689, -0.0739,  ...,  0.0008, -0.1281,  0.1151],
+        [ 0.0649, -0.0234,  0.0577,  ..., -0.0046, -0.1633, -0.0087],
+        [-0.1400, -0.0430, -0.0551,  ..., -0.1561,  0.0412, -0.0928]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  8.9481e-06,  ...,  2.5574e-06,
+          1.9558e-07,  7.4506e-09],
+        [ 1.4901e-08,  0.0000e+00,  1.7509e-07,  ...,  1.1735e-07,
+          1.1362e-07,  1.8626e-08],
+        [ 5.5879e-09, -3.7253e-09,  2.9244e-07,  ...,  1.0058e-07,
+          1.7509e-07,  3.7253e-09],
+        ...,
+        [ 2.0489e-08,  0.0000e+00,  3.7998e-07,  ...,  1.0990e-07,
+          8.7544e-08, -8.5682e-08],
+        [-6.3330e-08,  1.8626e-09, -8.3447e-07,  ..., -5.2899e-07,
+          3.6694e-07,  9.3132e-09],
+        [ 1.8626e-09,  0.0000e+00,  2.2165e-07,  ...,  6.3330e-08,
+          5.8115e-07,  5.4017e-08]], device='cuda:0')
+Epoch 184, bias, value: tensor([-0.0069, -0.0315,  0.0076, -0.0183,  0.0174,  0.0126,  0.0197, -0.0006,
+        -0.0359, -0.0091], device='cuda:0'), grad: tensor([ 1.6466e-05,  9.4064e-07,  1.6484e-06, -1.3098e-05, -4.6976e-06,
+        -6.7568e-04,  6.6710e-04,  9.2387e-07,  3.0436e-06,  3.7756e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 183, time 259.27, cls_loss 0.0019 cls_loss_mapping 0.0032 cls_loss_causal 0.5229 re_mapping 0.0063 re_causal 0.0180 /// teacc 98.93 lr 0.00010000
+Epoch 185, weight, value: tensor([[ 0.0229, -0.1480, -0.1130,  ..., -0.2173, -0.0861, -0.1294],
+        [ 0.0409, -0.0587,  0.0327,  ...,  0.0511,  0.0924, -0.0338],
+        [-0.0646,  0.1112, -0.1435,  ...,  0.0596,  0.0658, -0.0339],
+        ...,
+        [-0.0779, -0.0690, -0.0741,  ...,  0.0007, -0.1284,  0.1152],
+        [ 0.0650, -0.0237,  0.0581,  ..., -0.0044, -0.1641, -0.0087],
+        [-0.1403, -0.0432, -0.0562,  ..., -0.1567,  0.0411, -0.0929]],
+       device='cuda:0'), grad: tensor([[ 3.1665e-08,  0.0000e+00,  7.2643e-08,  ...,  2.7940e-08,
+         -1.2107e-07,  9.3132e-09],
+        [ 3.7253e-09,  0.0000e+00, -3.4831e-07,  ...,  2.2352e-07,
+         -2.9616e-07,  1.6391e-07],
+        [ 2.0489e-08, -3.7253e-09,  1.3411e-07,  ...,  1.3597e-07,
+          5.8115e-07,  6.5193e-08],
+        ...,
+        [ 0.0000e+00,  1.8626e-09,  3.5390e-08,  ..., -1.9222e-06,
+          9.6858e-08, -9.8348e-07],
+        [ 3.7253e-09,  0.0000e+00,  3.1106e-07,  ...,  1.0617e-07,
+          5.6066e-07,  4.8429e-08],
+        [ 3.7253e-09,  0.0000e+00,  2.4214e-08,  ...,  1.0580e-06,
+          2.4773e-07,  4.8615e-07]], device='cuda:0')
+Epoch 185, bias, value: tensor([-0.0069, -0.0314,  0.0079, -0.0182,  0.0173,  0.0125,  0.0195, -0.0006,
+        -0.0358, -0.0094], device='cuda:0'), grad: tensor([-6.8061e-06,  7.8231e-07,  3.2075e-06,  2.1756e-06, -5.3793e-06,
+        -8.4378e-07,  2.5574e-06, -5.5656e-06,  4.0457e-06,  5.8077e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 184, time 259.21, cls_loss 0.0020 cls_loss_mapping 0.0033 cls_loss_causal 0.5133 re_mapping 0.0066 re_causal 0.0186 /// teacc 98.92 lr 0.00010000
+Epoch 186, weight, value: tensor([[ 0.0232, -0.1474, -0.1136,  ..., -0.2174, -0.0866, -0.1294],
+        [ 0.0410, -0.0589,  0.0328,  ...,  0.0509,  0.0926, -0.0339],
+        [-0.0644,  0.1114, -0.1439,  ...,  0.0593,  0.0659, -0.0340],
+        ...,
+        [-0.0780, -0.0691, -0.0741,  ...,  0.0011, -0.1285,  0.1153],
+        [ 0.0651, -0.0238,  0.0588,  ..., -0.0042, -0.1643, -0.0087],
+        [-0.1406, -0.0433, -0.0574,  ..., -0.1571,  0.0420, -0.0929]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  3.7253e-09,  2.4214e-08,  ...,  2.6077e-08,
+          7.2643e-08,  2.2352e-08],
+        [ 1.8626e-09,  0.0000e+00,  3.4362e-05,  ...,  3.9309e-05,
+         -4.6566e-08,  3.9279e-05],
+        [ 1.8626e-09, -2.2352e-08,  1.0990e-07,  ...,  3.5577e-07,
+          2.6077e-08,  1.8626e-07],
+        ...,
+        [ 5.5879e-09,  1.1176e-08, -3.6359e-05,  ..., -4.1842e-05,
+          9.8720e-08, -4.1664e-05],
+        [ 1.8626e-09,  3.7253e-09,  1.2349e-06,  ...,  1.4398e-06,
+          5.5879e-08,  1.4026e-06],
+        [ 1.8626e-09,  0.0000e+00,  1.0058e-07,  ...,  6.8918e-08,
+         -7.1526e-07,  1.1548e-07]], device='cuda:0')
+Epoch 186, bias, value: tensor([-0.0067, -0.0315,  0.0075, -0.0182,  0.0164,  0.0126,  0.0194, -0.0003,
+        -0.0355, -0.0090], device='cuda:0'), grad: tensor([-4.4703e-07,  1.6320e-04,  1.0375e-06,  2.5127e-06,  2.4103e-06,
+         8.8662e-07,  1.2480e-07, -1.7273e-04,  6.4149e-06, -3.2596e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 185, time 259.06, cls_loss 0.0025 cls_loss_mapping 0.0032 cls_loss_causal 0.5355 re_mapping 0.0070 re_causal 0.0197 /// teacc 98.98 lr 0.00010000
+Epoch 187, weight, value: tensor([[ 0.0231, -0.1476, -0.1143,  ..., -0.2190, -0.0868, -0.1295],
+        [ 0.0410, -0.0591,  0.0318,  ...,  0.0500,  0.0933, -0.0347],
+        [-0.0644,  0.1119, -0.1447,  ...,  0.0596,  0.0660, -0.0342],
+        ...,
+        [-0.0781, -0.0699, -0.0729,  ...,  0.0016, -0.1298,  0.1160],
+        [ 0.0654, -0.0233,  0.0595,  ..., -0.0038, -0.1648, -0.0088],
+        [-0.1407, -0.0435, -0.0583,  ..., -0.1556,  0.0422, -0.0920]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  3.3528e-08,  4.4145e-07,  ...,  4.9919e-07,
+          9.7416e-07,  0.0000e+00],
+        [ 0.0000e+00,  7.4506e-09, -2.1243e-04,  ..., -1.7107e-04,
+         -1.2660e-04,  1.1176e-08],
+        [ 0.0000e+00, -4.0978e-08,  3.6154e-06,  ...,  4.5933e-06,
+          1.4529e-07,  9.3132e-09],
+        ...,
+        [ 0.0000e+00,  2.4959e-07,  2.0516e-04,  ...,  1.6248e-04,
+          1.2290e-04, -9.3132e-08],
+        [-1.8626e-09,  5.5879e-09,  1.3504e-06,  ...,  2.7753e-06,
+          2.5313e-06,  3.7253e-09],
+        [ 0.0000e+00,  7.4506e-09,  2.5611e-06,  ...,  2.5518e-06,
+          1.2070e-06,  5.9605e-08]], device='cuda:0')
+Epoch 187, bias, value: tensor([-6.6125e-03, -3.2429e-02,  7.3708e-03, -1.7977e-02,  1.6774e-02,
+         1.2034e-02,  1.9091e-02,  8.3569e-05, -3.5019e-02, -8.5028e-03],
+       device='cuda:0'), grad: tensor([ 4.2915e-06, -5.3453e-04,  1.5005e-05, -1.5259e-05,  5.8301e-07,
+         1.9416e-05, -1.2219e-05,  5.0640e-04,  5.4613e-06,  1.1928e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 186, time 259.11, cls_loss 0.0022 cls_loss_mapping 0.0054 cls_loss_causal 0.5129 re_mapping 0.0064 re_causal 0.0194 /// teacc 98.94 lr 0.00010000
+Epoch 188, weight, value: tensor([[ 0.0230, -0.1478, -0.1150,  ..., -0.2208, -0.0865, -0.1296],
+        [ 0.0407, -0.0586,  0.0329,  ...,  0.0514,  0.0960, -0.0348],
+        [-0.0644,  0.1123, -0.1474,  ...,  0.0578,  0.0642, -0.0349],
+        ...,
+        [-0.0782, -0.0703, -0.0735,  ...,  0.0009, -0.1311,  0.1157],
+        [ 0.0663, -0.0234,  0.0613,  ..., -0.0017, -0.1648, -0.0075],
+        [-0.1408, -0.0440, -0.0587,  ..., -0.1562,  0.0417, -0.0922]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  3.5390e-08,  3.7998e-07,  ...,  1.5665e-06,
+          7.2643e-07,  1.8626e-08],
+        [ 0.0000e+00,  3.7253e-09, -4.0010e-06,  ..., -6.5006e-07,
+         -5.4501e-06,  8.0094e-08],
+        [ 0.0000e+00,  4.2841e-08,  3.1535e-06,  ...,  8.1733e-06,
+          3.8557e-06,  4.6790e-06],
+        ...,
+        [ 0.0000e+00,  3.7253e-09,  6.7241e-07,  ..., -1.8403e-05,
+          9.6112e-07, -5.0403e-06],
+        [ 0.0000e+00, -2.0117e-07, -1.6168e-06,  ...,  7.3574e-07,
+          2.5749e-05,  5.0291e-08],
+        [ 0.0000e+00,  1.4901e-08,  2.8685e-07,  ...,  9.1456e-07,
+         -2.6077e-08,  7.4506e-08]], device='cuda:0')
+Epoch 188, bias, value: tensor([-0.0059, -0.0314,  0.0057, -0.0181,  0.0174,  0.0110,  0.0195, -0.0005,
+        -0.0335, -0.0092], device='cuda:0'), grad: tensor([ 7.6890e-06,  2.6748e-05,  2.0906e-05,  2.8208e-05,  3.2913e-06,
+         7.6443e-06, -6.6400e-05, -1.5712e-04,  6.8724e-05,  6.0290e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 187, time 258.87, cls_loss 0.0018 cls_loss_mapping 0.0045 cls_loss_causal 0.5228 re_mapping 0.0062 re_causal 0.0198 /// teacc 98.99 lr 0.00010000
+Epoch 189, weight, value: tensor([[ 0.0226, -0.1480, -0.1171,  ..., -0.2237, -0.0862, -0.1296],
+        [ 0.0409, -0.0587,  0.0328,  ...,  0.0510,  0.0961, -0.0351],
+        [-0.0644,  0.1126, -0.1479,  ...,  0.0578,  0.0641, -0.0353],
+        ...,
+        [-0.0783, -0.0704, -0.0731,  ...,  0.0015, -0.1305,  0.1160],
+        [ 0.0666, -0.0234,  0.0612,  ..., -0.0019, -0.1655, -0.0075],
+        [-0.1408, -0.0441, -0.0591,  ..., -0.1565,  0.0420, -0.0922]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.9360e-07,  ...,  2.7381e-07,
+          6.1840e-07,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.7031e-05,  ...,  2.0742e-05,
+          1.2051e-06,  9.3132e-09],
+        [ 0.0000e+00, -5.5879e-09,  1.0896e-06,  ...,  7.7300e-07,
+          2.8498e-07,  5.5879e-09],
+        ...,
+        [ 0.0000e+00,  1.8626e-09, -5.1379e-05,  ..., -4.0084e-05,
+          2.3656e-07, -3.5390e-08],
+        [ 0.0000e+00,  0.0000e+00,  7.2159e-06,  ...,  7.2978e-06,
+         -5.6624e-06,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.5553e-06,  ...,  1.1791e-06,
+          5.9605e-08,  9.3132e-09]], device='cuda:0')
+Epoch 189, bias, value: tensor([-4.1264e-03, -3.1662e-02,  5.4680e-03, -1.8104e-02,  1.7119e-02,
+         9.1500e-03,  2.0023e-02,  5.7972e-05, -3.3936e-02, -8.9590e-03],
+       device='cuda:0'), grad: tensor([ 3.6489e-06,  1.0389e-04,  3.0901e-06,  9.2089e-06,  1.3195e-05,
+         6.4597e-06, -8.6501e-06, -2.1636e-04,  7.9274e-05,  5.8189e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 188, time 258.95, cls_loss 0.0015 cls_loss_mapping 0.0037 cls_loss_causal 0.5149 re_mapping 0.0064 re_causal 0.0190 /// teacc 99.06 lr 0.00010000
+Epoch 190, weight, value: tensor([[ 0.0223, -0.1482, -0.1188,  ..., -0.2263, -0.0863, -0.1296],
+        [ 0.0409, -0.0590,  0.0331,  ...,  0.0511,  0.0963, -0.0352],
+        [-0.0644,  0.1129, -0.1480,  ...,  0.0578,  0.0643, -0.0354],
+        ...,
+        [-0.0783, -0.0707, -0.0733,  ...,  0.0013, -0.1309,  0.1160],
+        [ 0.0665, -0.0235,  0.0609,  ..., -0.0022, -0.1660, -0.0075],
+        [-0.1409, -0.0442, -0.0593,  ..., -0.1566,  0.0420, -0.0922]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-08,  5.5879e-09,  2.9802e-07,  ...,  1.1548e-07,
+          8.5682e-08,  5.5879e-09],
+        [ 4.2841e-08,  1.8626e-09, -1.0673e-06,  ..., -4.2841e-08,
+         -1.4082e-06,  8.7544e-08],
+        [ 9.3132e-09, -1.6764e-08,  2.3842e-07,  ...,  1.2293e-07,
+          2.4214e-08,  1.1176e-08],
+        ...,
+        [ 2.6077e-08,  5.5879e-09,  3.7812e-07,  ..., -7.6182e-07,
+          1.0990e-07, -4.8988e-07],
+        [ 2.3842e-07,  1.8626e-09,  2.1160e-06,  ...,  7.0594e-07,
+          3.5949e-07,  4.2841e-08],
+        [ 5.5879e-08,  1.8626e-09,  5.3458e-07,  ...,  2.9616e-07,
+          1.6764e-08,  5.7742e-08]], device='cuda:0')
+Epoch 190, bias, value: tensor([-4.3177e-03, -3.1596e-02,  5.5106e-03, -1.8221e-02,  1.7231e-02,
+         9.6759e-03,  2.0172e-02,  4.5741e-06, -3.4630e-02, -8.9778e-03],
+       device='cuda:0'), grad: tensor([ 1.5050e-06, -1.3411e-06,  5.1409e-07, -2.5779e-05,  1.3672e-06,
+         2.4036e-05,  1.6950e-06, -1.1232e-06,  6.0201e-06, -6.9812e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 189, time 258.74, cls_loss 0.0017 cls_loss_mapping 0.0034 cls_loss_causal 0.5449 re_mapping 0.0062 re_causal 0.0194 /// teacc 98.99 lr 0.00010000
+Epoch 191, weight, value: tensor([[ 0.0248, -0.1483, -0.1191,  ..., -0.2285, -0.0864, -0.1296],
+        [ 0.0408, -0.0593,  0.0334,  ...,  0.0512,  0.0963, -0.0351],
+        [-0.0645,  0.1130, -0.1483,  ...,  0.0581,  0.0649, -0.0357],
+        ...,
+        [-0.0784, -0.0708, -0.0735,  ...,  0.0011, -0.1316,  0.1160],
+        [ 0.0665, -0.0233,  0.0611,  ..., -0.0022, -0.1666, -0.0075],
+        [-0.1415, -0.0445, -0.0592,  ..., -0.1568,  0.0421, -0.0921]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ..., -3.4831e-07,
+          3.9116e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -4.6380e-07,  ..., -2.7940e-08,
+         -3.5390e-07,  1.8626e-09],
+        [ 0.0000e+00, -5.5879e-09,  1.1362e-07,  ...,  1.1548e-07,
+          1.6764e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.8626e-09,  9.8720e-08,  ...,  6.5193e-08,
+          9.8720e-08, -9.3132e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.2724e-07,  ...,  1.0431e-07,
+          1.2293e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.0489e-08,  ...,  2.5146e-07,
+         -3.2224e-07,  3.7253e-09]], device='cuda:0')
+Epoch 191, bias, value: tensor([-0.0041, -0.0315,  0.0059, -0.0188,  0.0167,  0.0098,  0.0199, -0.0001,
+        -0.0348, -0.0084], device='cuda:0'), grad: tensor([-3.5781e-06, -8.9407e-07,  2.9057e-07,  8.7544e-08,  1.0822e-06,
+         4.9919e-07,  8.1956e-08,  2.8498e-07,  5.4576e-07,  1.6075e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 190, time 258.78, cls_loss 0.0016 cls_loss_mapping 0.0031 cls_loss_causal 0.5125 re_mapping 0.0062 re_causal 0.0186 /// teacc 98.97 lr 0.00010000
+Epoch 192, weight, value: tensor([[ 0.0248, -0.1489, -0.1196,  ..., -0.2293, -0.0865, -0.1296],
+        [ 0.0409, -0.0593,  0.0335,  ...,  0.0512,  0.0964, -0.0352],
+        [-0.0646,  0.1133, -0.1484,  ...,  0.0584,  0.0653, -0.0358],
+        ...,
+        [-0.0784, -0.0710, -0.0736,  ...,  0.0008, -0.1326,  0.1160],
+        [ 0.0666, -0.0233,  0.0613,  ..., -0.0021, -0.1669, -0.0075],
+        [-0.1417, -0.0446, -0.0594,  ..., -0.1564,  0.0422, -0.0923]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.7881e-07,  1.6764e-07,  ...,  4.4703e-07,
+          5.9046e-07,  3.7253e-09],
+        [ 0.0000e+00,  3.3528e-08, -1.0997e-05,  ..., -6.5118e-06,
+         -8.8364e-06,  5.7742e-08],
+        [ 0.0000e+00, -4.7497e-07,  2.5667e-06,  ...,  1.7770e-06,
+          8.1584e-07,  1.1176e-08],
+        ...,
+        [ 3.7253e-09,  9.8720e-08,  3.0920e-06,  ..., -7.1600e-06,
+          2.4065e-06, -2.3656e-07],
+        [-0.0000e+00,  1.6764e-08,  1.8440e-06,  ...,  1.2983e-06,
+          1.3653e-06,  3.7253e-08],
+        [ 0.0000e+00,  4.0978e-08,  2.3656e-07,  ...,  1.3318e-06,
+         -1.1120e-06,  5.0291e-08]], device='cuda:0')
+Epoch 192, bias, value: tensor([-0.0042, -0.0317,  0.0062, -0.0187,  0.0166,  0.0100,  0.0200, -0.0005,
+        -0.0348, -0.0081], device='cuda:0'), grad: tensor([-7.2904e-06, -2.1070e-05,  5.3123e-06,  1.1235e-05,  1.0148e-05,
+         7.4431e-06,  1.6559e-06, -1.3798e-05,  4.8503e-06,  1.4734e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 191, time 259.28, cls_loss 0.0020 cls_loss_mapping 0.0039 cls_loss_causal 0.5306 re_mapping 0.0062 re_causal 0.0184 /// teacc 98.88 lr 0.00010000
+Epoch 193, weight, value: tensor([[ 0.0249, -0.1493, -0.1206,  ..., -0.2304, -0.0867, -0.1297],
+        [ 0.0406, -0.0604,  0.0335,  ...,  0.0508,  0.0956, -0.0352],
+        [-0.0647,  0.1140, -0.1479,  ...,  0.0585,  0.0662, -0.0359],
+        ...,
+        [-0.0785, -0.0712, -0.0737,  ...,  0.0013, -0.1327,  0.1161],
+        [ 0.0669, -0.0233,  0.0622,  ..., -0.0020, -0.1673, -0.0076],
+        [-0.1418, -0.0453, -0.0598,  ..., -0.1566,  0.0425, -0.0924]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  9.3132e-09,  3.9265e-06,  ...,  2.2352e-07,
+          2.1420e-07,  1.4901e-08],
+        [ 1.8626e-09,  0.0000e+00, -2.2680e-05,  ..., -1.4670e-05,
+         -1.5572e-05, -1.1362e-06],
+        [-1.8626e-08, -6.8918e-08,  3.1777e-06,  ...,  1.7677e-06,
+          1.6801e-06,  2.0303e-07],
+        ...,
+        [ 7.4506e-09,  5.5879e-09,  8.0615e-06,  ...,  4.1835e-06,
+          5.0999e-06, -1.0431e-06],
+        [ 2.4214e-08,  5.5879e-09, -5.1260e-06,  ...,  2.8443e-06,
+          1.8924e-06,  5.2154e-07],
+        [ 1.8626e-09,  9.3132e-09,  2.3339e-06,  ...,  2.2911e-06,
+          1.7695e-07,  1.3970e-07]], device='cuda:0')
+Epoch 193, bias, value: tensor([-0.0048, -0.0324,  0.0068, -0.0192,  0.0163,  0.0099,  0.0203, -0.0001,
+        -0.0342, -0.0077], device='cuda:0'), grad: tensor([ 8.5682e-06, -4.9800e-05,  5.9083e-06,  7.7546e-05,  1.4544e-05,
+        -8.2731e-05,  4.9807e-06,  1.5542e-05, -6.7763e-06,  1.2189e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 192, time 259.50, cls_loss 0.0021 cls_loss_mapping 0.0045 cls_loss_causal 0.5395 re_mapping 0.0063 re_causal 0.0180 /// teacc 99.04 lr 0.00010000
+Epoch 194, weight, value: tensor([[ 0.0250, -0.1494, -0.1207,  ..., -0.2320, -0.0869, -0.1297],
+        [ 0.0405, -0.0606,  0.0337,  ...,  0.0507,  0.0958, -0.0353],
+        [-0.0647,  0.1141, -0.1484,  ...,  0.0584,  0.0662, -0.0363],
+        ...,
+        [-0.0785, -0.0712, -0.0736,  ...,  0.0017, -0.1335,  0.1167],
+        [ 0.0670, -0.0230,  0.0622,  ..., -0.0020, -0.1685, -0.0077],
+        [-0.1418, -0.0456, -0.0617,  ..., -0.1575,  0.0426, -0.0931]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  5.5879e-09,  6.1467e-08,  ...,  4.6566e-08,
+          3.5390e-07,  2.9802e-08],
+        [-2.6077e-08,  5.5879e-09, -1.4491e-06,  ...,  1.0170e-06,
+         -1.4286e-06,  1.0300e-06],
+        [ 1.8626e-09, -6.1467e-08,  8.5682e-08,  ...,  1.8999e-07,
+         -3.5390e-08,  2.4214e-07],
+        ...,
+        [ 1.8626e-09,  2.7940e-08,  2.4214e-07,  ..., -6.5751e-06,
+          4.4145e-07, -6.1579e-06],
+        [-3.7253e-09,  7.4506e-09,  2.5891e-07,  ...,  9.6858e-08,
+          5.6438e-07,  3.9116e-08],
+        [ 3.7253e-09,  1.8626e-09,  1.2852e-07,  ...,  5.1335e-06,
+          1.1995e-06,  4.6715e-06]], device='cuda:0')
+Epoch 194, bias, value: tensor([-0.0046, -0.0325,  0.0063, -0.0186,  0.0164,  0.0093,  0.0207,  0.0004,
+        -0.0344, -0.0080], device='cuda:0'), grad: tensor([ 4.7684e-07,  2.3358e-06,  1.0971e-06,  1.6950e-07, -2.1961e-06,
+         1.8310e-06, -1.5013e-06, -2.8744e-05,  1.4771e-06,  2.5049e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 193, time 259.52, cls_loss 0.0023 cls_loss_mapping 0.0040 cls_loss_causal 0.5461 re_mapping 0.0061 re_causal 0.0184 /// teacc 98.99 lr 0.00010000
+Epoch 195, weight, value: tensor([[ 0.0249, -0.1507, -0.1219,  ..., -0.2343, -0.0882, -0.1299],
+        [ 0.0404, -0.0609,  0.0340,  ...,  0.0507,  0.0959, -0.0354],
+        [-0.0647,  0.1148, -0.1488,  ...,  0.0586,  0.0665, -0.0364],
+        ...,
+        [-0.0785, -0.0717, -0.0737,  ...,  0.0017, -0.1340,  0.1170],
+        [ 0.0670, -0.0227,  0.0625,  ..., -0.0019, -0.1693, -0.0078],
+        [-0.1419, -0.0468, -0.0624,  ..., -0.1582,  0.0433, -0.0937]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  3.1665e-08,  4.0419e-07,  ...,  7.2457e-07,
+          1.6261e-06,  3.7253e-09],
+        [ 0.0000e+00,  7.4506e-09,  1.4052e-05,  ...,  2.5839e-05,
+          5.3018e-05, -5.0291e-08],
+        [ 0.0000e+00, -1.7323e-07, -2.0504e-05,  ..., -3.6865e-05,
+         -7.6711e-05,  2.6077e-08],
+        ...,
+        [ 0.0000e+00,  2.2352e-08,  4.2468e-07,  ...,  4.5635e-07,
+          1.2163e-06, -1.8254e-07],
+        [ 0.0000e+00,  6.5193e-08,  2.3097e-07,  ...,  4.4331e-07,
+          8.9221e-07,  1.8626e-08],
+        [ 0.0000e+00,  1.3039e-08,  1.1362e-06,  ...,  2.1402e-06,
+          3.8855e-06,  8.7544e-08]], device='cuda:0')
+Epoch 195, bias, value: tensor([-0.0053, -0.0326,  0.0067, -0.0200,  0.0162,  0.0099,  0.0206,  0.0006,
+        -0.0342, -0.0076], device='cuda:0'), grad: tensor([ 2.8349e-06,  9.0539e-05, -1.3006e-04,  3.1710e-05,  4.4107e-06,
+        -1.7226e-05,  7.6592e-06,  1.6354e-06,  2.3991e-06,  5.9977e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 194, time 259.17, cls_loss 0.0018 cls_loss_mapping 0.0032 cls_loss_causal 0.5419 re_mapping 0.0060 re_causal 0.0183 /// teacc 98.97 lr 0.00010000
+Epoch 196, weight, value: tensor([[ 0.0249, -0.1510, -0.1221,  ..., -0.2356, -0.0883, -0.1299],
+        [ 0.0404, -0.0612,  0.0337,  ...,  0.0501,  0.0951, -0.0358],
+        [-0.0648,  0.1153, -0.1482,  ...,  0.0592,  0.0675, -0.0366],
+        ...,
+        [-0.0786, -0.0734, -0.0735,  ...,  0.0025, -0.1339,  0.1177],
+        [ 0.0670, -0.0207,  0.0627,  ..., -0.0017, -0.1699, -0.0078],
+        [-0.1419, -0.0475, -0.0627,  ..., -0.1589,  0.0435, -0.0940]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  3.5390e-07,  1.0803e-07,  ...,  5.1968e-07,
+          8.8476e-07,  0.0000e+00],
+        [ 0.0000e+00,  5.3085e-07, -4.0978e-07,  ...,  1.2405e-06,
+          1.5926e-06,  0.0000e+00],
+        [ 0.0000e+00, -1.9893e-06,  2.7567e-07,  ..., -1.9222e-06,
+         -5.4687e-06,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  2.4587e-07,  3.8370e-07,  ..., -2.6431e-06,
+          1.0002e-06,  0.0000e+00],
+        [ 0.0000e+00,  3.5390e-07,  1.2107e-07,  ...,  1.5125e-06,
+          9.4064e-07,  0.0000e+00],
+        [ 0.0000e+00,  1.5274e-07,  1.3970e-07,  ...,  4.5262e-07,
+         -5.0664e-07,  0.0000e+00]], device='cuda:0')
+Epoch 196, bias, value: tensor([-0.0053, -0.0334,  0.0075, -0.0213,  0.0159,  0.0104,  0.0205,  0.0013,
+        -0.0340, -0.0077], device='cuda:0'), grad: tensor([ 1.9893e-06,  3.0417e-06, -6.1244e-06,  9.4250e-07,  7.7859e-07,
+         4.5858e-06,  5.5879e-08, -8.9854e-06,  5.5209e-06, -1.8738e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 195, time 259.59, cls_loss 0.0020 cls_loss_mapping 0.0039 cls_loss_causal 0.5290 re_mapping 0.0065 re_causal 0.0182 /// teacc 98.89 lr 0.00010000
+Epoch 197, weight, value: tensor([[ 0.0249, -0.1512, -0.1224,  ..., -0.2365, -0.0884, -0.1299],
+        [ 0.0405, -0.0617,  0.0339,  ...,  0.0498,  0.0952, -0.0361],
+        [-0.0649,  0.1203, -0.1483,  ...,  0.0617,  0.0687, -0.0367],
+        ...,
+        [-0.0786, -0.0776, -0.0735,  ...,  0.0019, -0.1357,  0.1183],
+        [ 0.0669, -0.0218,  0.0628,  ..., -0.0021, -0.1708, -0.0078],
+        [-0.1421, -0.0522, -0.0635,  ..., -0.1602,  0.0437, -0.0942]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  6.7055e-08,  8.5682e-08,  ...,  2.3469e-07,
+          3.6880e-07,  7.4506e-09],
+        [ 1.8626e-09, -9.8050e-06,  5.1409e-07,  ..., -1.6585e-05,
+         -4.8041e-05,  6.3330e-08],
+        [ 1.8626e-09,  1.1474e-06,  3.4142e-06,  ...,  1.2502e-05,
+          2.7612e-05,  1.1735e-07],
+        ...,
+        [ 3.7253e-09,  6.6832e-06, -1.1347e-05,  ..., -1.1094e-05,
+          1.0811e-05, -3.8743e-07],
+        [ 1.1176e-08,  5.5879e-08,  3.4813e-06,  ...,  4.6007e-06,
+          3.2596e-07,  4.2841e-08],
+        [ 0.0000e+00,  2.4959e-07,  3.0696e-06,  ...,  5.9716e-06,
+          1.3690e-06,  1.2852e-07]], device='cuda:0')
+Epoch 197, bias, value: tensor([-0.0053, -0.0336,  0.0103, -0.0251,  0.0156,  0.0126,  0.0205,  0.0005,
+        -0.0344, -0.0073], device='cuda:0'), grad: tensor([ 8.2701e-07, -4.8578e-05,  4.1723e-05,  2.4691e-05,  1.5888e-06,
+         1.3411e-07, -1.3269e-05, -4.3452e-05,  1.5959e-05,  2.0355e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 196, time 259.47, cls_loss 0.0022 cls_loss_mapping 0.0038 cls_loss_causal 0.5298 re_mapping 0.0062 re_causal 0.0184 /// teacc 98.93 lr 0.00010000
+Epoch 198, weight, value: tensor([[ 0.0248, -0.1513, -0.1221,  ..., -0.2379, -0.0885, -0.1300],
+        [ 0.0405, -0.0614,  0.0332,  ...,  0.0491,  0.0948, -0.0363],
+        [-0.0646,  0.1226, -0.1484,  ...,  0.0626,  0.0700, -0.0369],
+        ...,
+        [-0.0780, -0.0787, -0.0727,  ...,  0.0025, -0.1357,  0.1186],
+        [ 0.0664, -0.0242,  0.0622,  ..., -0.0035, -0.1737, -0.0080],
+        [-0.1424, -0.0565, -0.0657,  ..., -0.1617,  0.0434, -0.0944]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.0617e-07,  ...,  8.5682e-08,
+          1.2666e-07,  0.0000e+00],
+        [-1.0245e-07,  1.4901e-08, -5.2601e-05,  ..., -8.1956e-05,
+         -6.4850e-05,  5.5879e-09],
+        [ 4.6566e-08,  1.4715e-07,  2.2247e-05,  ...,  3.5316e-05,
+          2.7165e-05,  4.0419e-07],
+        ...,
+        [ 5.5879e-08, -1.6764e-07,  2.8744e-05,  ...,  4.3303e-05,
+          3.4988e-05, -4.2096e-07],
+        [ 3.7253e-09,  1.8626e-09,  1.6838e-06,  ...,  1.9185e-07,
+          3.2224e-06,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.5204e-07,  ...,  3.5949e-07,
+         -5.6624e-07,  3.7253e-09]], device='cuda:0')
+Epoch 198, bias, value: tensor([-0.0043, -0.0345,  0.0116, -0.0244,  0.0160,  0.0124,  0.0200,  0.0010,
+        -0.0361, -0.0078], device='cuda:0'), grad: tensor([ 1.4715e-07, -1.4603e-04,  6.3419e-05, -2.7940e-08,  2.6450e-06,
+         2.4401e-06, -6.5118e-06,  7.8022e-05,  6.1542e-06, -2.8126e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 197, time 259.81, cls_loss 0.0025 cls_loss_mapping 0.0040 cls_loss_causal 0.5273 re_mapping 0.0059 re_causal 0.0173 /// teacc 99.02 lr 0.00010000
+Epoch 199, weight, value: tensor([[ 0.0249, -0.1513, -0.1221,  ..., -0.2391, -0.0890, -0.1300],
+        [ 0.0406, -0.0616,  0.0325,  ...,  0.0483,  0.0949, -0.0364],
+        [-0.0647,  0.1228, -0.1491,  ...,  0.0623,  0.0700, -0.0372],
+        ...,
+        [-0.0781, -0.0788, -0.0717,  ...,  0.0035, -0.1353,  0.1188],
+        [ 0.0665, -0.0242,  0.0623,  ..., -0.0037, -0.1745, -0.0081],
+        [-0.1425, -0.0569, -0.0682,  ..., -0.1626,  0.0441, -0.0948]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.7497e-08,  1.8999e-07,  ...,  4.9546e-07,
+          4.0419e-07,  7.4506e-09],
+        [ 0.0000e+00,  4.2841e-08, -3.1665e-08,  ...,  3.9116e-07,
+          1.3690e-07,  1.4994e-07],
+        [ 0.0000e+00, -5.1875e-07,  1.6550e-06,  ..., -2.8498e-06,
+         -2.5518e-06,  4.7497e-08],
+        ...,
+        [ 0.0000e+00,  2.0768e-07,  1.2107e-07,  ..., -2.5146e-08,
+          6.3144e-07, -4.6659e-07],
+        [ 0.0000e+00,  1.0524e-07, -2.8461e-06,  ...,  5.2061e-07,
+          1.6857e-07,  4.9360e-08],
+        [ 0.0000e+00,  1.2107e-08,  1.1083e-07,  ...,  2.5332e-07,
+          1.8068e-07,  1.6112e-07]], device='cuda:0')
+Epoch 199, bias, value: tensor([-0.0046, -0.0352,  0.0112, -0.0214,  0.0147,  0.0098,  0.0200,  0.0018,
+        -0.0366, -0.0069], device='cuda:0'), grad: tensor([ 1.4361e-06,  1.2908e-06, -3.5688e-06,  2.0862e-06,  2.1793e-07,
+        -1.5181e-06,  2.7046e-06, -4.5914e-07, -2.7362e-06,  4.7591e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 198, time 259.66, cls_loss 0.0018 cls_loss_mapping 0.0028 cls_loss_causal 0.4975 re_mapping 0.0058 re_causal 0.0169 /// teacc 98.90 lr 0.00010000
+Epoch 200, weight, value: tensor([[ 0.0249, -0.1515, -0.1227,  ..., -0.2402, -0.0921, -0.1300],
+        [ 0.0406, -0.0618,  0.0329,  ...,  0.0488,  0.0955, -0.0363],
+        [-0.0652,  0.1227, -0.1497,  ...,  0.0621,  0.0700, -0.0374],
+        ...,
+        [-0.0781, -0.0789, -0.0721,  ...,  0.0029, -0.1361,  0.1187],
+        [ 0.0668, -0.0239,  0.0630,  ..., -0.0032, -0.1750, -0.0081],
+        [-0.1425, -0.0571, -0.0688,  ..., -0.1630,  0.0455, -0.0950]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.7008e-08,  ...,  8.6706e-07,
+          1.5413e-06,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.3935e-07,  ...,  4.2468e-07,
+          4.6659e-07,  7.4506e-09],
+        [ 0.0000e+00, -4.0978e-08,  9.3225e-07,  ..., -7.6711e-05,
+         -1.1706e-04,  1.5832e-08],
+        ...,
+        [ 0.0000e+00,  3.5390e-08,  3.4645e-07,  ...,  2.2873e-06,
+          3.3602e-06, -2.8871e-08],
+        [ 0.0000e+00,  0.0000e+00, -8.4192e-07,  ..., -8.5682e-08,
+          8.1025e-07,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  4.2003e-07,  ...,  2.0768e-07,
+          1.1222e-06,  1.8626e-09]], device='cuda:0')
+Epoch 200, bias, value: tensor([-0.0073, -0.0347,  0.0108, -0.0213,  0.0147,  0.0098,  0.0208,  0.0014,
+        -0.0363, -0.0055], device='cuda:0'), grad: tensor([-4.5672e-06,  1.5246e-06, -1.9717e-04,  1.8859e-04, -4.2841e-06,
+         5.3085e-07,  1.0999e-06,  6.5118e-06, -1.4622e-07,  7.6182e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 199, time 256.34, cls_loss 0.0022 cls_loss_mapping 0.0037 cls_loss_causal 0.5360 re_mapping 0.0058 re_causal 0.0177 /// teacc 98.95 lr 0.00010000
+Epoch 201, weight, value: tensor([[ 0.0253, -0.1518, -0.1234,  ..., -0.2424, -0.0924, -0.1300],
+        [ 0.0407, -0.0622,  0.0332,  ...,  0.0488,  0.0957, -0.0364],
+        [-0.0657,  0.1230, -0.1511,  ...,  0.0628,  0.0702, -0.0375],
+        ...,
+        [-0.0773, -0.0794, -0.0722,  ...,  0.0029, -0.1373,  0.1187],
+        [ 0.0668, -0.0229,  0.0637,  ..., -0.0027, -0.1748, -0.0081],
+        [-0.1431, -0.0583, -0.0690,  ..., -0.1640,  0.0463, -0.0951]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.1327e-07,  1.3039e-07,  ...,  4.0885e-07,
+          2.8368e-06,  0.0000e+00],
+        [ 0.0000e+00,  1.4901e-08,  1.5832e-08,  ...,  9.5926e-08,
+         -1.2359e-06,  6.5193e-09],
+        [ 0.0000e+00, -6.7521e-07,  1.2172e-06,  ..., -3.0641e-07,
+         -1.2126e-06,  2.7940e-09],
+        ...,
+        [ 0.0000e+00,  1.0245e-07,  1.5339e-06,  ...,  1.1278e-06,
+          1.7034e-06, -1.7695e-08],
+        [ 0.0000e+00,  1.4249e-07,  7.3574e-08,  ...,  3.9395e-07,
+          1.0151e-06,  9.3132e-10],
+        [ 0.0000e+00,  1.2107e-08,  6.5006e-07,  ...,  4.5914e-07,
+         -1.8915e-06,  5.5879e-09]], device='cuda:0')
+Epoch 201, bias, value: tensor([-0.0074, -0.0346,  0.0109, -0.0216,  0.0145,  0.0097,  0.0212,  0.0011,
+        -0.0358, -0.0046], device='cuda:0'), grad: tensor([ 6.6124e-06, -7.9162e-07,  9.9838e-07, -1.4104e-05,  6.6049e-06,
+         3.7216e-06, -9.1270e-06,  5.9903e-06,  2.2873e-06, -2.2091e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 200, time 253.65, cls_loss 0.0025 cls_loss_mapping 0.0035 cls_loss_causal 0.5354 re_mapping 0.0059 re_causal 0.0181 /// teacc 98.97 lr 0.00010000
+Epoch 202, weight, value: tensor([[ 0.0256, -0.1517, -0.1248,  ..., -0.2433, -0.0955, -0.1300],
+        [ 0.0408, -0.0623,  0.0336,  ...,  0.0491,  0.0962, -0.0364],
+        [-0.0659,  0.1230, -0.1517,  ...,  0.0626,  0.0701, -0.0378],
+        ...,
+        [-0.0771, -0.0795, -0.0724,  ...,  0.0027, -0.1380,  0.1188],
+        [ 0.0668, -0.0223,  0.0641,  ..., -0.0025, -0.1749, -0.0081],
+        [-0.1438, -0.0585, -0.0696,  ..., -0.1643,  0.0484, -0.0952]],
+       device='cuda:0'), grad: tensor([[ 2.1420e-08,  1.3039e-08, -2.8200e-06,  ...,  3.4180e-07,
+          2.9709e-07,  9.3132e-10],
+        [-9.3132e-10,  3.7253e-09,  1.6028e-06,  ...,  9.5274e-07,
+          3.9488e-07,  1.3411e-07],
+        [ 3.4831e-07, -1.0245e-07,  1.5043e-05,  ...,  5.8301e-06,
+          4.1313e-06,  1.7695e-08],
+        ...,
+        [ 8.0094e-08,  3.2596e-08,  3.4682e-06,  ...,  1.2862e-06,
+          1.5106e-06, -2.6356e-07],
+        [ 9.3132e-08,  3.4459e-08,  3.6489e-06,  ...,  1.5637e-06,
+          1.3849e-06,  4.8429e-08],
+        [ 1.2107e-08,  6.5193e-09,  1.2908e-06,  ...,  3.3807e-07,
+         -2.6524e-05,  2.7008e-08]], device='cuda:0')
+Epoch 202, bias, value: tensor([-0.0101, -0.0344,  0.0106, -0.0217,  0.0170,  0.0099,  0.0212,  0.0009,
+        -0.0356, -0.0028], device='cuda:0'), grad: tensor([-3.3945e-05,  5.1968e-06,  3.9399e-05, -1.2422e-04,  9.8050e-05,
+         5.9277e-05,  2.2858e-05,  9.4622e-06,  1.0803e-05, -8.6725e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 201, time 253.69, cls_loss 0.0016 cls_loss_mapping 0.0024 cls_loss_causal 0.5475 re_mapping 0.0057 re_causal 0.0178 /// teacc 99.04 lr 0.00010000
+Epoch 203, weight, value: tensor([[ 0.0256, -0.1498, -0.1251,  ..., -0.2430, -0.0955, -0.1301],
+        [ 0.0410, -0.0624,  0.0336,  ...,  0.0490,  0.0960, -0.0365],
+        [-0.0659,  0.1232, -0.1519,  ...,  0.0629,  0.0705, -0.0379],
+        ...,
+        [-0.0771, -0.0797, -0.0725,  ...,  0.0027, -0.1384,  0.1190],
+        [ 0.0668, -0.0225,  0.0645,  ..., -0.0025, -0.1753, -0.0082],
+        [-0.1440, -0.0591, -0.0700,  ..., -0.1647,  0.0484, -0.0954]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  1.5274e-07,  9.3132e-09,  ...,  1.2573e-07,
+          1.3504e-07,  9.3132e-10],
+        [-2.1420e-08,  1.0151e-07, -6.5193e-09,  ...,  3.1106e-07,
+          2.7567e-07,  2.0489e-08],
+        [-1.5832e-08, -4.9919e-07,  4.2841e-08,  ..., -1.1241e-06,
+         -1.2303e-06,  6.5193e-09],
+        ...,
+        [ 1.4901e-08,  1.4342e-07,  7.1712e-08,  ...,  2.6356e-07,
+          3.2224e-07, -1.7323e-07],
+        [-8.3819e-09,  1.8626e-08, -2.8592e-07,  ..., -1.1735e-07,
+          1.1176e-08,  5.5879e-09],
+        [ 2.7940e-09,  7.4506e-09,  8.1956e-08,  ...,  5.8673e-08,
+          2.6077e-08,  7.5437e-08]], device='cuda:0')
+Epoch 203, bias, value: tensor([-0.0099, -0.0346,  0.0108, -0.0215,  0.0168,  0.0097,  0.0212,  0.0010,
+        -0.0354, -0.0029], device='cuda:0'), grad: tensor([ 2.2650e-06,  7.4599e-07, -2.9206e-06,  7.5437e-07,  3.1013e-07,
+         2.6356e-07, -2.1458e-06,  3.0175e-07, -4.6194e-07,  8.8289e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 202, time 253.96, cls_loss 0.0014 cls_loss_mapping 0.0024 cls_loss_causal 0.4946 re_mapping 0.0059 re_causal 0.0184 /// teacc 98.92 lr 0.00010000
+Epoch 204, weight, value: tensor([[ 0.0259, -0.1494, -0.1253,  ..., -0.2434, -0.0955, -0.1301],
+        [ 0.0411, -0.0630,  0.0338,  ...,  0.0491,  0.0962, -0.0365],
+        [-0.0660,  0.1235, -0.1523,  ...,  0.0630,  0.0709, -0.0384],
+        ...,
+        [-0.0771, -0.0800, -0.0727,  ...,  0.0022, -0.1392,  0.1187],
+        [ 0.0668, -0.0228,  0.0647,  ..., -0.0026, -0.1757, -0.0082],
+        [-0.1443, -0.0592, -0.0705,  ..., -0.1649,  0.0484, -0.0955]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.3039e-08,  ...,  3.7253e-09,
+          4.0978e-08,  0.0000e+00],
+        [-4.6566e-09,  0.0000e+00, -3.5856e-07,  ..., -4.8429e-08,
+         -3.5856e-07,  1.9558e-08],
+        [ 0.0000e+00, -9.3132e-10,  2.6077e-08,  ...,  2.5146e-08,
+          4.8708e-07,  6.5193e-09],
+        ...,
+        [ 9.3132e-10,  9.3132e-10,  1.3877e-07,  ..., -5.1223e-08,
+          1.0496e-06, -5.6811e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-08,  ...,  1.7695e-08,
+          1.0617e-07,  3.7253e-09],
+        [ 2.7940e-09,  0.0000e+00,  1.4715e-07,  ...,  5.5879e-08,
+          8.4471e-07,  1.8626e-08]], device='cuda:0')
+Epoch 204, bias, value: tensor([-0.0097, -0.0345,  0.0108, -0.0212,  0.0169,  0.0097,  0.0210,  0.0006,
+        -0.0355, -0.0031], device='cuda:0'), grad: tensor([ 1.1269e-07, -7.1619e-07,  1.5404e-06, -6.5193e-09, -7.4767e-06,
+         1.1735e-07,  1.0990e-07,  3.0473e-06,  4.0233e-07,  2.8610e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 203, time 253.63, cls_loss 0.0017 cls_loss_mapping 0.0033 cls_loss_causal 0.5163 re_mapping 0.0055 re_causal 0.0173 /// teacc 98.96 lr 0.00010000
+Epoch 205, weight, value: tensor([[ 0.0259, -0.1495, -0.1251,  ..., -0.2439, -0.0954, -0.1301],
+        [ 0.0413, -0.0632,  0.0336,  ...,  0.0488,  0.0951, -0.0366],
+        [-0.0660,  0.1237, -0.1508,  ...,  0.0639,  0.0730, -0.0385],
+        ...,
+        [-0.0771, -0.0801, -0.0730,  ...,  0.0020, -0.1402,  0.1189],
+        [ 0.0668, -0.0229,  0.0653,  ..., -0.0026, -0.1761, -0.0082],
+        [-0.1445, -0.0594, -0.0715,  ..., -0.1654,  0.0484, -0.0956]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.1176e-07,  4.5635e-08,  ...,  1.1642e-07,
+          2.6170e-07,  9.3132e-10],
+        [ 0.0000e+00,  9.3132e-10, -2.1793e-07,  ..., -5.4017e-08,
+         -2.4587e-07,  1.3970e-08],
+        [ 0.0000e+00, -1.4808e-07,  8.8476e-08,  ..., -3.2596e-08,
+         -2.4494e-07,  2.4214e-08],
+        ...,
+        [ 0.0000e+00,  1.9558e-08,  1.0617e-07,  ..., -8.6613e-08,
+          1.4435e-07, -7.6368e-08],
+        [ 0.0000e+00,  4.6566e-09,  6.0536e-08,  ...,  3.3528e-08,
+          2.8871e-08,  3.7253e-09],
+        [ 0.0000e+00,  2.7940e-09,  5.9605e-08,  ...,  6.8918e-08,
+          1.1921e-07,  2.7940e-08]], device='cuda:0')
+Epoch 205, bias, value: tensor([-0.0094, -0.0350,  0.0124, -0.0214,  0.0166,  0.0099,  0.0204,  0.0004,
+        -0.0355, -0.0032], device='cuda:0'), grad: tensor([ 3.2131e-07, -2.0582e-07, -8.5682e-08, -1.0589e-06, -2.9523e-07,
+         8.0466e-07,  1.3039e-07, -4.7591e-07,  1.6578e-07,  7.0874e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 204, time 253.58, cls_loss 0.0012 cls_loss_mapping 0.0029 cls_loss_causal 0.5072 re_mapping 0.0058 re_causal 0.0181 /// teacc 98.95 lr 0.00010000
+Epoch 206, weight, value: tensor([[ 0.0261, -0.1495, -0.1240,  ..., -0.2443, -0.0954, -0.1301],
+        [ 0.0412, -0.0634,  0.0329,  ...,  0.0480,  0.0940, -0.0369],
+        [-0.0664,  0.1239, -0.1506,  ...,  0.0641,  0.0737, -0.0387],
+        ...,
+        [-0.0772, -0.0801, -0.0724,  ...,  0.0028, -0.1392,  0.1192],
+        [ 0.0671, -0.0230,  0.0654,  ..., -0.0024, -0.1767, -0.0082],
+        [-0.1447, -0.0596, -0.0722,  ..., -0.1662,  0.0482, -0.0959]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.6077e-08,  ...,  2.3283e-08,
+          5.2899e-07,  5.4948e-08],
+        [ 0.0000e+00,  0.0000e+00, -6.1020e-06,  ..., -6.1207e-06,
+         -1.3359e-05,  1.6764e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.3243e-06,  ...,  1.2349e-06,
+          2.1905e-06,  1.5832e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  5.1558e-06,  ...,  4.8876e-06,
+          1.0632e-05, -4.3772e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.1590e-06,  ...,  1.6410e-06,
+          1.5367e-07,  1.8626e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.3190e-07,  ...,  2.4587e-07,
+          5.9642e-06,  1.0245e-08]], device='cuda:0')
+Epoch 206, bias, value: tensor([-0.0093, -0.0360,  0.0128, -0.0214,  0.0170,  0.0100,  0.0201,  0.0013,
+        -0.0356, -0.0036], device='cuda:0'), grad: tensor([ 2.0918e-06, -2.7314e-05,  5.2191e-06, -8.4117e-06, -1.2018e-05,
+         2.6375e-06, -2.7567e-06,  2.1830e-05,  5.3570e-06,  1.3292e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 205, time 253.65, cls_loss 0.0016 cls_loss_mapping 0.0030 cls_loss_causal 0.5155 re_mapping 0.0058 re_causal 0.0173 /// teacc 98.95 lr 0.00010000
+Epoch 207, weight, value: tensor([[ 0.0268, -0.1496, -0.1241,  ..., -0.2451, -0.0954, -0.1301],
+        [ 0.0411, -0.0636,  0.0333,  ...,  0.0482,  0.0945, -0.0369],
+        [-0.0680,  0.1240, -0.1518,  ...,  0.0635,  0.0734, -0.0388],
+        ...,
+        [-0.0776, -0.0801, -0.0726,  ...,  0.0027, -0.1394,  0.1190],
+        [ 0.0687, -0.0230,  0.0656,  ..., -0.0020, -0.1773, -0.0082],
+        [-0.1455, -0.0598, -0.0720,  ..., -0.1665,  0.0481, -0.0960]],
+       device='cuda:0'), grad: tensor([[ 1.3039e-08,  0.0000e+00,  6.2399e-08,  ...,  1.7695e-08,
+          1.0524e-07,  4.6566e-09],
+        [ 1.8347e-07,  2.7940e-09,  4.0326e-07,  ...,  1.9558e-07,
+          1.3597e-07,  4.3772e-08],
+        [ 1.2759e-07, -1.0245e-08,  4.3027e-07,  ...,  1.8813e-07,
+          2.5798e-07,  3.2596e-08],
+        ...,
+        [ 8.1770e-07,  5.5879e-09,  3.9563e-06,  ...,  1.8440e-07,
+          3.8370e-06, -2.8312e-07],
+        [-4.3027e-07,  1.8626e-09, -8.6054e-07,  ..., -8.3353e-07,
+         -8.3819e-08,  4.7497e-08],
+        [ 4.2096e-07,  0.0000e+00,  2.1402e-06,  ...,  7.0781e-08,
+          9.0990e-07,  8.7544e-08]], device='cuda:0')
+Epoch 207, bias, value: tensor([-0.0091, -0.0359,  0.0123, -0.0212,  0.0172,  0.0099,  0.0204,  0.0010,
+        -0.0355, -0.0037], device='cuda:0'), grad: tensor([-2.9150e-07,  2.0713e-06,  1.7416e-06,  2.3916e-06, -2.7180e-05,
+        -8.8569e-07,  1.2591e-06,  1.5631e-05, -1.3839e-06,  6.6161e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 206, time 253.54, cls_loss 0.0016 cls_loss_mapping 0.0031 cls_loss_causal 0.5150 re_mapping 0.0058 re_causal 0.0176 /// teacc 98.95 lr 0.00010000
+Epoch 208, weight, value: tensor([[ 0.0277, -0.1500, -0.1247,  ..., -0.2464, -0.0954, -0.1300],
+        [ 0.0410, -0.0638,  0.0340,  ...,  0.0483,  0.0958, -0.0369],
+        [-0.0691,  0.1240, -0.1524,  ...,  0.0634,  0.0734, -0.0389],
+        ...,
+        [-0.0777, -0.0802, -0.0732,  ...,  0.0025, -0.1418,  0.1189],
+        [ 0.0698, -0.0227,  0.0672,  ..., -0.0017, -0.1769, -0.0083],
+        [-0.1470, -0.0599, -0.0726,  ..., -0.1668,  0.0481, -0.0960]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  0.0000e+00, -4.6819e-05,  ...,  2.7940e-08,
+         -7.8261e-05,  7.4506e-09],
+        [ 1.8626e-09,  0.0000e+00,  2.6211e-05,  ..., -2.6356e-07,
+          4.4256e-05,  6.7055e-08],
+        [ 1.1176e-08, -1.8626e-09,  9.5293e-06,  ...,  1.0990e-07,
+          1.5929e-05,  5.4948e-08],
+        ...,
+        [ 6.5193e-09,  0.0000e+00,  7.9069e-07,  ...,  9.0338e-08,
+          7.4320e-07, -1.6093e-06],
+        [ 8.3819e-09,  0.0000e+00, -8.0466e-07,  ..., -1.5832e-07,
+          3.0547e-07,  5.6811e-08],
+        [ 2.7940e-09,  0.0000e+00,  1.1884e-06,  ...,  1.9185e-07,
+          1.6578e-06,  8.8476e-08]], device='cuda:0')
+Epoch 208, bias, value: tensor([-0.0091, -0.0346,  0.0121, -0.0211,  0.0173,  0.0100,  0.0196, -0.0002,
+        -0.0344, -0.0038], device='cuda:0'), grad: tensor([-2.4748e-04,  1.4210e-04,  5.6684e-05,  5.7071e-06,  7.9125e-06,
+         3.3323e-06,  3.7611e-05, -1.3642e-05,  3.3341e-07,  7.1228e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 207, time 253.76, cls_loss 0.0019 cls_loss_mapping 0.0029 cls_loss_causal 0.5128 re_mapping 0.0055 re_causal 0.0169 /// teacc 98.91 lr 0.00010000
+Epoch 209, weight, value: tensor([[ 0.0282, -0.1497, -0.1230,  ..., -0.2485, -0.0956, -0.1300],
+        [ 0.0378, -0.0638,  0.0341,  ...,  0.0478,  0.0948, -0.0370],
+        [-0.0661,  0.1241, -0.1523,  ...,  0.0643,  0.0747, -0.0390],
+        ...,
+        [-0.0779, -0.0802, -0.0733,  ...,  0.0025, -0.1423,  0.1191],
+        [ 0.0700, -0.0227,  0.0673,  ..., -0.0017, -0.1777, -0.0083],
+        [-0.1490, -0.0601, -0.0733,  ..., -0.1668,  0.0484, -0.0962]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  3.6322e-08,  6.2399e-08,  ...,  7.5437e-08,
+          1.7192e-06,  0.0000e+00],
+        [-2.1420e-08,  7.4506e-09, -8.7544e-08,  ...,  7.4506e-09,
+         -1.9558e-08,  5.5879e-09],
+        [ 6.5193e-09, -1.2573e-07,  1.7416e-07,  ..., -1.2200e-07,
+         -1.8813e-07,  1.8626e-09],
+        ...,
+        [ 4.6566e-09,  3.8184e-08,  1.0431e-07,  ...,  7.6368e-08,
+          3.5204e-07, -1.3970e-08],
+        [ 1.8626e-09, -2.7381e-07, -1.4510e-06,  ..., -8.2888e-07,
+          1.2569e-05,  9.3132e-10],
+        [ 3.7253e-09,  2.4494e-07,  3.8650e-07,  ...,  2.0675e-07,
+          2.2128e-06,  5.5879e-09]], device='cuda:0')
+Epoch 209, bias, value: tensor([-9.1916e-03, -3.5346e-02,  1.3071e-02, -2.1062e-02,  1.6832e-02,
+         1.0018e-02,  1.9548e-02, -2.7881e-05, -3.4831e-02, -3.4739e-03],
+       device='cuda:0'), grad: tensor([ 3.9265e-06,  4.4703e-07,  5.5972e-07,  9.7230e-07, -5.8636e-06,
+         3.3714e-07, -3.5644e-05,  4.2003e-07,  2.6599e-05,  8.1882e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 208, time 253.82, cls_loss 0.0019 cls_loss_mapping 0.0027 cls_loss_causal 0.5115 re_mapping 0.0059 re_causal 0.0167 /// teacc 98.97 lr 0.00010000
+Epoch 210, weight, value: tensor([[ 0.0281, -0.1496, -0.1244,  ..., -0.2506, -0.0958, -0.1300],
+        [ 0.0381, -0.0639,  0.0346,  ...,  0.0480,  0.0952, -0.0370],
+        [-0.0660,  0.1241, -0.1527,  ...,  0.0642,  0.0747, -0.0391],
+        ...,
+        [-0.0781, -0.0802, -0.0735,  ...,  0.0023, -0.1430,  0.1191],
+        [ 0.0706, -0.0228,  0.0677,  ..., -0.0015, -0.1789, -0.0083],
+        [-0.1510, -0.0604, -0.0739,  ..., -0.1670,  0.0486, -0.0962]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.5404e-06,  ...,  1.7043e-07,
+          4.4703e-08,  2.7940e-09],
+        [-2.7940e-09,  9.3132e-10,  3.2224e-07,  ...,  1.0524e-07,
+         -1.0245e-08,  2.1420e-08],
+        [ 0.0000e+00, -1.0245e-08,  1.3867e-06,  ...,  4.7684e-07,
+         -1.0245e-08,  1.3132e-07],
+        ...,
+        [ 2.7940e-09,  7.4506e-09,  4.0326e-07,  ..., -7.1712e-07,
+          5.9605e-08, -2.2538e-07],
+        [ 5.5879e-09,  9.3132e-10,  1.8761e-05,  ...,  2.0545e-06,
+          8.1025e-08,  5.5879e-09],
+        [ 4.6566e-09,  0.0000e+00,  8.8960e-06,  ...,  1.0412e-06,
+         -9.0152e-07,  2.5146e-08]], device='cuda:0')
+Epoch 210, bias, value: tensor([-9.2448e-03, -3.5078e-02,  1.2827e-02, -2.1133e-02,  1.7217e-02,
+         1.0109e-02,  1.9483e-02, -8.8837e-05, -3.5133e-02, -3.5224e-03],
+       device='cuda:0'), grad: tensor([ 7.3090e-06,  6.8769e-06,  4.2692e-06, -5.5611e-05,  5.4501e-06,
+         9.9018e-06,  3.0827e-07, -4.2468e-05,  3.4660e-05,  2.9385e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 209, time 253.45, cls_loss 0.0017 cls_loss_mapping 0.0035 cls_loss_causal 0.5425 re_mapping 0.0058 re_causal 0.0173 /// teacc 99.01 lr 0.00010000
+Epoch 211, weight, value: tensor([[ 0.0280, -0.1497, -0.1247,  ..., -0.2520, -0.0958, -0.1300],
+        [ 0.0381, -0.0640,  0.0349,  ...,  0.0481,  0.0954, -0.0370],
+        [-0.0661,  0.1241, -0.1533,  ...,  0.0640,  0.0746, -0.0390],
+        ...,
+        [-0.0781, -0.0803, -0.0736,  ...,  0.0027, -0.1431,  0.1192],
+        [ 0.0707, -0.0224,  0.0676,  ..., -0.0015, -0.1805, -0.0083],
+        [-0.1515, -0.0604, -0.0745,  ..., -0.1688,  0.0483, -0.0963]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  0.0000e+00,  3.6322e-08,  ...,  9.3132e-09,
+          2.0955e-07,  0.0000e+00],
+        [ 1.8626e-09,  3.7253e-09, -3.4086e-07,  ..., -1.0896e-07,
+         -4.0233e-07,  0.0000e+00],
+        [ 1.0245e-08,  1.0245e-08,  1.1548e-07,  ...,  5.0291e-08,
+          1.4901e-07,  0.0000e+00],
+        ...,
+        [ 2.4214e-08,  3.3528e-08,  2.0489e-07,  ..., -4.6566e-09,
+          3.5949e-07, -0.0000e+00],
+        [ 3.8184e-08, -5.4017e-08,  1.0151e-07,  ..., -1.3318e-07,
+          1.7509e-06,  0.0000e+00],
+        [ 1.0990e-07,  9.3132e-10,  5.4017e-08,  ...,  1.2852e-07,
+          5.2899e-07,  0.0000e+00]], device='cuda:0')
+Epoch 211, bias, value: tensor([-0.0092, -0.0351,  0.0126, -0.0212,  0.0180,  0.0104,  0.0195,  0.0018,
+        -0.0360, -0.0050], device='cuda:0'), grad: tensor([-4.8522e-07, -3.6135e-07,  5.9605e-07,  1.9465e-07, -3.7923e-06,
+        -1.2703e-06, -2.1830e-06,  8.1956e-08,  3.3751e-06,  3.8221e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 210, time 253.09, cls_loss 0.0022 cls_loss_mapping 0.0033 cls_loss_causal 0.5148 re_mapping 0.0057 re_causal 0.0170 /// teacc 99.05 lr 0.00010000
+Epoch 212, weight, value: tensor([[ 0.0276, -0.1492, -0.1254,  ..., -0.2536, -0.0970, -0.1300],
+        [ 0.0382, -0.0642,  0.0356,  ...,  0.0482,  0.0958, -0.0370],
+        [-0.0662,  0.1244, -0.1537,  ...,  0.0634,  0.0742, -0.0391],
+        ...,
+        [-0.0777, -0.0805, -0.0741,  ...,  0.0029, -0.1433,  0.1192],
+        [ 0.0706, -0.0224,  0.0673,  ..., -0.0017, -0.1820, -0.0083],
+        [-0.1523, -0.0610, -0.0750,  ..., -0.1694,  0.0492, -0.0963]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-08,  7.6368e-08,  ...,  6.2399e-08,
+          1.6671e-07,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-09, -6.5193e-09,  ...,  3.0734e-08,
+          1.8720e-07,  4.6566e-09],
+        [ 0.0000e+00,  4.4145e-07,  1.5674e-06,  ...,  1.6075e-06,
+          2.7008e-08,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  8.3819e-09,  3.5390e-08,  ...,  4.3772e-08,
+          6.7167e-06, -1.4901e-08],
+        [ 0.0000e+00, -6.2212e-07, -2.1588e-06,  ..., -2.1625e-06,
+          7.3574e-08,  1.8626e-09],
+        [ 0.0000e+00,  1.7695e-08,  7.5437e-08,  ...,  7.1712e-08,
+          7.2177e-07,  5.5879e-09]], device='cuda:0')
+Epoch 212, bias, value: tensor([-0.0100, -0.0349,  0.0114, -0.0209,  0.0155,  0.0101,  0.0232,  0.0021,
+        -0.0367, -0.0045], device='cuda:0'), grad: tensor([ 7.8510e-07,  9.3039e-07,  4.7907e-06,  4.2841e-08, -3.2216e-05,
+        -9.7789e-08,  5.4855e-07,  2.7880e-05, -6.0089e-06,  3.3490e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 211, time 253.06, cls_loss 0.0023 cls_loss_mapping 0.0038 cls_loss_causal 0.5333 re_mapping 0.0058 re_causal 0.0169 /// teacc 98.96 lr 0.00010000
+Epoch 213, weight, value: tensor([[ 0.0280, -0.1492, -0.1266,  ..., -0.2554, -0.0970, -0.1302],
+        [ 0.0384, -0.0645,  0.0344,  ...,  0.0481,  0.0943, -0.0371],
+        [-0.0663,  0.1237, -0.1542,  ...,  0.0625,  0.0742, -0.0392],
+        ...,
+        [-0.0803, -0.0794, -0.0744,  ...,  0.0033, -0.1438,  0.1193],
+        [ 0.0698, -0.0228,  0.0668,  ..., -0.0025, -0.1834, -0.0083],
+        [-0.1541, -0.0613, -0.0757,  ..., -0.1700,  0.0490, -0.0966]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.6764e-08,  9.3132e-09,  ...,  4.2841e-08,
+          1.1791e-06,  3.7253e-09],
+        [ 0.0000e+00,  6.5193e-09, -1.0896e-07,  ...,  3.4925e-07,
+          6.4075e-07,  1.0617e-07],
+        [ 0.0000e+00, -1.8720e-07,  3.0734e-08,  ..., -1.1260e-06,
+         -1.6941e-06, -2.6077e-07],
+        ...,
+        [ 0.0000e+00,  9.8720e-08,  2.9802e-08,  ...,  5.9605e-08,
+         -1.2536e-06,  1.3039e-08],
+        [-1.8626e-09,  2.1420e-08, -8.8476e-08,  ..., -1.1176e-08,
+          1.3411e-07,  4.6566e-09],
+        [ 0.0000e+00,  1.4901e-08,  1.1176e-08,  ...,  1.5832e-07,
+          1.6941e-06,  2.7940e-09]], device='cuda:0')
+Epoch 213, bias, value: tensor([-0.0099, -0.0363,  0.0103, -0.0205,  0.0162,  0.0102,  0.0250,  0.0026,
+        -0.0380, -0.0050], device='cuda:0'), grad: tensor([ 7.8138e-07,  2.2911e-06, -2.1048e-06,  8.7731e-07,  7.4040e-07,
+        -6.3851e-06,  3.0827e-07, -8.8587e-06,  1.9893e-06,  1.0341e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 212, time 253.74, cls_loss 0.0021 cls_loss_mapping 0.0028 cls_loss_causal 0.5151 re_mapping 0.0060 re_causal 0.0173 /// teacc 98.93 lr 0.00010000
+Epoch 214, weight, value: tensor([[ 0.0282, -0.1492, -0.1269,  ..., -0.2568, -0.0970, -0.1302],
+        [ 0.0385, -0.0654,  0.0352,  ...,  0.0501,  0.0966, -0.0371],
+        [-0.0662,  0.1222, -0.1547,  ...,  0.0595,  0.0726, -0.0392],
+        ...,
+        [-0.0809, -0.0804, -0.0751,  ...,  0.0028, -0.1451,  0.1194],
+        [ 0.0697, -0.0232,  0.0674,  ..., -0.0027, -0.1845, -0.0083],
+        [-0.1547, -0.0615, -0.0762,  ..., -0.1700,  0.0490, -0.0966]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  3.0361e-07,  2.7940e-09,  ...,  8.2422e-07,
+          6.9477e-07,  0.0000e+00],
+        [-4.6566e-09,  2.6431e-06, -1.0990e-07,  ...,  9.0674e-06,
+          1.1034e-05,  0.0000e+00],
+        [ 0.0000e+00, -5.0068e-06,  1.3039e-08,  ..., -1.6674e-05,
+         -1.9565e-05,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  3.7067e-07,  4.1910e-08,  ...,  9.1828e-07,
+          7.9535e-07, -9.3132e-10],
+        [-8.8476e-08,  1.2340e-06, -3.7812e-07,  ...,  3.2410e-06,
+          2.8275e-06,  0.0000e+00],
+        [ 9.3132e-10,  3.0734e-08,  1.0245e-08,  ...,  8.8755e-07,
+          2.2743e-06,  0.0000e+00]], device='cuda:0')
+Epoch 214, bias, value: tensor([-0.0098, -0.0344,  0.0077, -0.0198,  0.0160,  0.0102,  0.0250,  0.0018,
+        -0.0379, -0.0049], device='cuda:0'), grad: tensor([ 2.2445e-06,  2.5034e-05, -4.6551e-05,  1.4035e-06,  7.0687e-07,
+         1.0338e-06,  2.6338e-06,  2.5015e-06,  8.2627e-06,  2.7586e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 213, time 253.45, cls_loss 0.0017 cls_loss_mapping 0.0033 cls_loss_causal 0.5323 re_mapping 0.0057 re_causal 0.0170 /// teacc 98.94 lr 0.00010000
+Epoch 215, weight, value: tensor([[ 0.0282, -0.1489, -0.1271,  ..., -0.2588, -0.0970, -0.1303],
+        [ 0.0386, -0.0660,  0.0355,  ...,  0.0509,  0.0975, -0.0372],
+        [-0.0662,  0.1229, -0.1550,  ...,  0.0591,  0.0721, -0.0392],
+        ...,
+        [-0.0811, -0.0810, -0.0754,  ...,  0.0025, -0.1458,  0.1195],
+        [ 0.0697, -0.0239,  0.0682,  ..., -0.0022, -0.1851, -0.0083],
+        [-0.1549, -0.0621, -0.0768,  ..., -0.1711,  0.0489, -0.0967]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  9.3132e-10,  5.8673e-08,  ...,  5.9605e-08,
+         -1.0975e-05,  1.8626e-09],
+        [ 0.0000e+00,  1.1176e-08,  1.7229e-07,  ...,  9.7696e-07,
+         -1.0151e-07,  1.2573e-07],
+        [ 0.0000e+00,  5.2154e-08,  1.3690e-07,  ...,  1.2010e-05,
+         -8.2888e-07,  1.6904e-06],
+        ...,
+        [ 0.0000e+00, -8.5682e-08,  3.9395e-07,  ..., -1.5453e-05,
+          2.3562e-07, -2.0918e-06],
+        [ 0.0000e+00,  1.2107e-08,  2.9989e-07,  ...,  1.4128e-06,
+          1.1176e-07,  1.6950e-07],
+        [ 9.3132e-10,  9.3132e-10,  5.7742e-08,  ...,  3.2783e-07,
+          1.1034e-05,  1.7695e-08]], device='cuda:0')
+Epoch 215, bias, value: tensor([-0.0097, -0.0336,  0.0073, -0.0201,  0.0160,  0.0102,  0.0251,  0.0015,
+        -0.0377, -0.0052], device='cuda:0'), grad: tensor([-5.4240e-05,  1.3195e-05,  2.4050e-05, -4.5933e-06,  4.4592e-06,
+         7.1377e-06, -3.9395e-07, -7.1347e-05,  3.7886e-06,  7.7903e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 214, time 251.07, cls_loss 0.0029 cls_loss_mapping 0.0046 cls_loss_causal 0.5478 re_mapping 0.0059 re_causal 0.0169 /// teacc 99.03 lr 0.00010000
+Epoch 216, weight, value: tensor([[ 0.0281, -0.1490, -0.1273,  ..., -0.2607, -0.0971, -0.1307],
+        [ 0.0387, -0.0678,  0.0328,  ...,  0.0488,  0.0948, -0.0373],
+        [-0.0662,  0.1232, -0.1556,  ...,  0.0589,  0.0720, -0.0394],
+        ...,
+        [-0.0814, -0.0810, -0.0754,  ...,  0.0027, -0.1460,  0.1197],
+        [ 0.0696, -0.0239,  0.0687,  ..., -0.0017, -0.1859, -0.0083],
+        [-0.1556, -0.0624, -0.0781,  ..., -0.1716,  0.0489, -0.0967]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-09,  2.7940e-09,  3.8780e-06,  ...,  1.8887e-06,
+          8.4750e-08,  7.4506e-09],
+        [-2.6580e-06,  1.8626e-09, -6.9700e-06,  ..., -5.3719e-06,
+         -3.2663e-05,  2.0210e-07],
+        [ 1.2945e-07, -6.2399e-08,  1.0161e-06,  ...,  1.4864e-06,
+          1.4771e-06,  2.9895e-07],
+        ...,
+        [ 9.3132e-10,  1.5832e-08,  1.2964e-06,  ..., -1.5814e-06,
+          5.0291e-08, -9.5833e-07],
+        [ 1.0245e-08,  3.0734e-08,  1.3560e-06,  ...,  1.2387e-06,
+          1.9278e-07,  2.6543e-07],
+        [ 9.3132e-10,  1.8626e-09,  2.0228e-06,  ...,  9.8441e-07,
+          8.0094e-08,  5.3085e-08]], device='cuda:0')
+Epoch 216, bias, value: tensor([-0.0095, -0.0364,  0.0069, -0.0198,  0.0162,  0.0101,  0.0280,  0.0017,
+        -0.0377, -0.0055], device='cuda:0'), grad: tensor([ 9.2387e-06, -4.0948e-05,  6.8434e-06, -2.4185e-05,  3.9116e-08,
+        -9.2015e-06,  5.2214e-05, -6.4746e-06,  6.4895e-06,  5.9344e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 215, time 248.37, cls_loss 0.0017 cls_loss_mapping 0.0033 cls_loss_causal 0.4911 re_mapping 0.0057 re_causal 0.0167 /// teacc 99.01 lr 0.00010000
+Epoch 217, weight, value: tensor([[ 0.0282, -0.1488, -0.1279,  ..., -0.2624, -0.0971, -0.1308],
+        [ 0.0389, -0.0680,  0.0330,  ...,  0.0487,  0.0950, -0.0374],
+        [-0.0662,  0.1234, -0.1561,  ...,  0.0590,  0.0721, -0.0394],
+        ...,
+        [-0.0813, -0.0812, -0.0756,  ...,  0.0027, -0.1465,  0.1198],
+        [ 0.0695, -0.0239,  0.0702,  ..., -0.0019, -0.1877, -0.0084],
+        [-0.1558, -0.0627, -0.0785,  ..., -0.1717,  0.0489, -0.0968]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09,  5.5414e-07,  5.5879e-09,  ...,  6.3144e-07,
+          8.8289e-07,  3.7253e-09],
+        [ 9.3132e-10,  8.3819e-09, -3.3993e-07,  ...,  9.4064e-08,
+         -2.8219e-07,  3.6322e-08],
+        [-6.8918e-08, -8.3540e-07,  1.8626e-08,  ..., -1.3271e-06,
+         -1.8943e-06,  6.5193e-09],
+        ...,
+        [ 1.8626e-09,  1.2107e-08,  1.5926e-07,  ..., -1.1735e-07,
+          3.2876e-07, -5.4017e-08],
+        [ 2.7940e-09,  1.3039e-08,  1.1176e-08,  ...,  2.8871e-08,
+          8.3819e-08,  8.3819e-09],
+        [ 1.8626e-09,  3.6322e-08,  9.4064e-08,  ...,  8.1956e-08,
+          2.0117e-07,  1.1176e-08]], device='cuda:0')
+Epoch 217, bias, value: tensor([-0.0094, -0.0363,  0.0069, -0.0193,  0.0165,  0.0099,  0.0277,  0.0017,
+        -0.0372, -0.0057], device='cuda:0'), grad: tensor([ 1.8487e-06, -1.1735e-07, -4.7348e-06,  1.9018e-06, -4.9826e-07,
+        -3.7067e-07,  2.1234e-07, -1.4622e-07,  3.0827e-07,  1.5954e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 216----------------------------------------------------
+epoch 216, time 264.90, cls_loss 0.0017 cls_loss_mapping 0.0027 cls_loss_causal 0.4842 re_mapping 0.0053 re_causal 0.0157 /// teacc 99.10 lr 0.00010000
+Epoch 218, weight, value: tensor([[ 0.0281, -0.1492, -0.1261,  ..., -0.2637, -0.0967, -0.1289],
+        [ 0.0397, -0.0710,  0.0330,  ...,  0.0487,  0.0949, -0.0375],
+        [-0.0662,  0.1243, -0.1560,  ...,  0.0591,  0.0725, -0.0387],
+        ...,
+        [-0.0816, -0.0813, -0.0757,  ...,  0.0027, -0.1468,  0.1200],
+        [ 0.0676, -0.0242,  0.0696,  ..., -0.0019, -0.1895, -0.0085],
+        [-0.1567, -0.0630, -0.0790,  ..., -0.1720,  0.0488, -0.0970]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  7.7300e-08,  1.6764e-08,  ...,  9.5926e-08,
+          9.7789e-08,  2.7940e-09],
+        [ 0.0000e+00,  1.6671e-07, -6.0536e-08,  ...,  2.1607e-07,
+         -1.3970e-08,  2.6077e-08],
+        [ 9.3132e-10,  4.2934e-07,  1.7323e-07,  ...,  5.3365e-07,
+         -7.5437e-08,  2.7940e-09],
+        ...,
+        [ 0.0000e+00, -3.5614e-06,  3.9116e-08,  ..., -3.3341e-06,
+         -1.5637e-06, -7.3574e-08],
+        [ 0.0000e+00,  1.3039e-08, -5.9325e-07,  ..., -4.9733e-07,
+          4.1910e-08,  4.6566e-09],
+        [ 9.3132e-10,  1.9558e-06,  1.8161e-07,  ...,  1.9204e-06,
+          6.5565e-07,  2.9802e-08]], device='cuda:0')
+Epoch 218, bias, value: tensor([-0.0086, -0.0364,  0.0073, -0.0192,  0.0173,  0.0101,  0.0274,  0.0017,
+        -0.0383, -0.0060], device='cuda:0'), grad: tensor([-5.8394e-07,  8.5216e-07,  2.3246e-06,  3.9116e-07,  5.0291e-06,
+         5.8394e-07,  3.0920e-07, -1.3016e-05, -1.5125e-06,  5.6364e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 217, time 247.69, cls_loss 0.0013 cls_loss_mapping 0.0024 cls_loss_causal 0.5140 re_mapping 0.0055 re_causal 0.0173 /// teacc 98.97 lr 0.00010000
+Epoch 219, weight, value: tensor([[ 0.0281, -0.1465, -0.1256,  ..., -0.2647, -0.0967, -0.1291],
+        [ 0.0397, -0.0712,  0.0331,  ...,  0.0487,  0.0951, -0.0377],
+        [-0.0662,  0.1244, -0.1563,  ...,  0.0592,  0.0725, -0.0387],
+        ...,
+        [-0.0816, -0.0814, -0.0758,  ...,  0.0027, -0.1472,  0.1202],
+        [ 0.0675, -0.0241,  0.0697,  ..., -0.0020, -0.1901, -0.0086],
+        [-0.1567, -0.0654, -0.0793,  ..., -0.1719,  0.0487, -0.0972]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8487e-07,  2.0955e-08,  ...,  8.1956e-08,
+          1.8999e-07,  0.0000e+00],
+        [-2.7940e-09,  6.5193e-08, -1.7034e-06,  ..., -8.3400e-07,
+         -3.2447e-06,  4.6566e-09],
+        [ 9.3132e-10, -3.4161e-06,  1.0608e-06,  ..., -7.7812e-07,
+         -7.1013e-07,  4.6566e-10],
+        ...,
+        [ 4.6566e-10,  2.8666e-06,  2.3935e-07,  ...,  1.1884e-06,
+          2.7660e-06, -2.9802e-08],
+        [ 0.0000e+00,  1.8161e-08,  6.4261e-08,  ...,  8.8941e-08,
+          1.7509e-07,  0.0000e+00],
+        [ 0.0000e+00,  1.1921e-07,  6.8918e-08,  ...,  2.1094e-07,
+          2.1420e-07,  1.8161e-08]], device='cuda:0')
+Epoch 219, bias, value: tensor([-0.0078, -0.0363,  0.0073, -0.0192,  0.0171,  0.0095,  0.0273,  0.0016,
+        -0.0385, -0.0062], device='cuda:0'), grad: tensor([-6.0648e-06, -4.2692e-06, -2.9672e-06,  5.3756e-06,  6.7521e-08,
+        -6.2957e-06,  6.0871e-06,  5.3644e-06,  6.2305e-07,  2.0582e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 218, time 247.39, cls_loss 0.0019 cls_loss_mapping 0.0027 cls_loss_causal 0.4991 re_mapping 0.0054 re_causal 0.0165 /// teacc 98.92 lr 0.00010000
+Epoch 220, weight, value: tensor([[ 0.0278, -0.1466, -0.1260,  ..., -0.2663, -0.0965, -0.1292],
+        [ 0.0398, -0.0715,  0.0331,  ...,  0.0486,  0.0951, -0.0379],
+        [-0.0662,  0.1247, -0.1563,  ...,  0.0595,  0.0727, -0.0389],
+        ...,
+        [-0.0816, -0.0819, -0.0758,  ...,  0.0026, -0.1478,  0.1206],
+        [ 0.0676, -0.0242,  0.0699,  ..., -0.0019, -0.1902, -0.0086],
+        [-0.1568, -0.0656, -0.0798,  ..., -0.1728,  0.0485, -0.0981]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8626e-08,  ...,  9.3132e-09,
+          3.1013e-07, -1.5832e-08],
+        [ 9.3132e-10,  0.0000e+00,  6.0536e-08,  ...,  4.0047e-08,
+          1.2107e-08,  1.1176e-08],
+        [ 0.0000e+00,  2.7940e-09,  5.6811e-08,  ...,  5.6811e-08,
+          1.2107e-08,  9.3132e-09],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  2.9802e-08,  ..., -3.4459e-08,
+          3.5390e-08, -2.0489e-08],
+        [ 0.0000e+00, -3.7253e-09, -9.2480e-07,  ..., -3.1851e-07,
+          2.1420e-08,  5.5879e-09],
+        [ 1.8626e-09,  0.0000e+00,  6.1467e-08,  ...,  4.6566e-08,
+         -1.8626e-09,  2.0489e-08]], device='cuda:0')
+Epoch 220, bias, value: tensor([-0.0073, -0.0363,  0.0077, -0.0194,  0.0171,  0.0104,  0.0271,  0.0019,
+        -0.0387, -0.0071], device='cuda:0'), grad: tensor([-3.5688e-06,  4.3400e-07,  4.6380e-07,  7.3276e-06,  2.6096e-06,
+         1.0729e-05,  6.2399e-08,  5.5879e-07, -1.2433e-06, -1.7434e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 219, time 247.62, cls_loss 0.0016 cls_loss_mapping 0.0035 cls_loss_causal 0.5294 re_mapping 0.0056 re_causal 0.0173 /// teacc 98.97 lr 0.00010000
+Epoch 221, weight, value: tensor([[ 0.0276, -0.1466, -0.1262,  ..., -0.2672, -0.0965, -0.1292],
+        [ 0.0398, -0.0717,  0.0332,  ...,  0.0486,  0.0950, -0.0380],
+        [-0.0662,  0.1248, -0.1562,  ...,  0.0595,  0.0734, -0.0389],
+        ...,
+        [-0.0817, -0.0819, -0.0760,  ...,  0.0026, -0.1482,  0.1207],
+        [ 0.0676, -0.0243,  0.0747,  ...,  0.0027, -0.1896, -0.0086],
+        [-0.1570, -0.0656, -0.0805,  ..., -0.1732,  0.0484, -0.0983]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  8.3819e-09,  1.9558e-08,  ...,  1.0524e-07,
+          1.3690e-07,  9.3132e-10],
+        [ 0.0000e+00,  1.3970e-08, -1.1753e-06,  ..., -5.6531e-07,
+         -9.4902e-07,  5.5879e-09],
+        [ 0.0000e+00, -1.3504e-07,  2.1886e-07,  ..., -2.4773e-06,
+         -2.8647e-06, -5.5879e-09],
+        ...,
+        [ 0.0000e+00,  1.0245e-08,  9.4716e-07,  ...,  6.5751e-07,
+          7.0687e-07, -0.0000e+00],
+        [ 0.0000e+00,  8.0094e-08,  3.3248e-07,  ...,  2.4829e-06,
+          2.3674e-06,  9.3132e-10],
+        [ 0.0000e+00,  8.3819e-09,  5.8487e-07,  ...,  6.8452e-07,
+          8.5868e-07,  0.0000e+00]], device='cuda:0')
+Epoch 221, bias, value: tensor([-0.0070, -0.0364,  0.0082, -0.0192,  0.0173,  0.0099,  0.0261,  0.0019,
+        -0.0344, -0.0073], device='cuda:0'), grad: tensor([ 2.6822e-07, -2.3395e-06, -5.6326e-06,  1.2666e-06, -1.1828e-06,
+        -5.5581e-06,  4.2003e-07,  1.9595e-06,  6.3293e-06,  4.4741e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 220, time 247.67, cls_loss 0.0015 cls_loss_mapping 0.0029 cls_loss_causal 0.5269 re_mapping 0.0057 re_causal 0.0167 /// teacc 98.97 lr 0.00010000
+Epoch 222, weight, value: tensor([[ 0.0276, -0.1466, -0.1264,  ..., -0.2684, -0.0965, -0.1289],
+        [ 0.0399, -0.0718,  0.0333,  ...,  0.0487,  0.0951, -0.0383],
+        [-0.0662,  0.1250, -0.1566,  ...,  0.0595,  0.0734, -0.0390],
+        ...,
+        [-0.0820, -0.0820, -0.0762,  ...,  0.0024, -0.1487,  0.1208],
+        [ 0.0676, -0.0244,  0.0747,  ...,  0.0027, -0.1897, -0.0087],
+        [-0.1581, -0.0660, -0.0812,  ..., -0.1739,  0.0491, -0.0984]],
+       device='cuda:0'), grad: tensor([[-1.6298e-07,  1.8626e-09,  3.7253e-09,  ...,  9.3132e-09,
+          6.0238e-06,  9.3132e-10],
+        [ 2.3283e-08,  8.3819e-09, -7.0781e-08,  ...,  4.4703e-08,
+          2.5425e-07,  2.6077e-08],
+        [ 3.2596e-08, -2.7008e-08,  2.2352e-08,  ..., -3.6322e-08,
+          2.7753e-06,  1.8626e-09],
+        ...,
+        [ 3.7253e-09,  1.0245e-08,  7.4506e-08,  ..., -2.8871e-08,
+          3.4925e-07, -5.5879e-08],
+        [ 1.3039e-08,  9.3132e-10, -9.3132e-08,  ..., -3.0734e-08,
+          2.4028e-07,  7.4506e-09],
+        [ 6.2399e-08,  0.0000e+00,  7.4506e-09,  ...,  4.0978e-08,
+          7.0967e-07,  1.6764e-08]], device='cuda:0')
+Epoch 222, bias, value: tensor([-0.0069, -0.0364,  0.0082, -0.0194,  0.0163,  0.0101,  0.0260,  0.0019,
+        -0.0345, -0.0067], device='cuda:0'), grad: tensor([ 8.9481e-06,  1.3625e-06,  6.2175e-06,  4.5598e-06,  1.7453e-06,
+        -4.2245e-06, -2.3276e-05,  4.8056e-07,  8.7637e-07,  3.2894e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 221, time 247.90, cls_loss 0.0020 cls_loss_mapping 0.0029 cls_loss_causal 0.5174 re_mapping 0.0061 re_causal 0.0169 /// teacc 99.03 lr 0.00010000
+Epoch 223, weight, value: tensor([[ 0.0274, -0.1468, -0.1271,  ..., -0.2694, -0.0966, -0.1289],
+        [ 0.0398, -0.0721,  0.0333,  ...,  0.0485,  0.0951, -0.0384],
+        [-0.0662,  0.1248, -0.1568,  ...,  0.0589,  0.0730, -0.0390],
+        ...,
+        [-0.0821, -0.0814, -0.0762,  ...,  0.0033, -0.1479,  0.1209],
+        [ 0.0678, -0.0248,  0.0749,  ...,  0.0028, -0.1899, -0.0087],
+        [-0.1594, -0.0661, -0.0819,  ..., -0.1745,  0.0500, -0.0985]],
+       device='cuda:0'), grad: tensor([[ 4.7404e-07,  9.3132e-10,  3.3062e-07,  ...,  2.5146e-08,
+          7.8231e-08,  3.7253e-09],
+        [ 6.6124e-08,  0.0000e+00,  1.6671e-07,  ...,  3.6601e-07,
+         -5.1223e-08,  2.2352e-08],
+        [ 6.4541e-07, -7.4506e-09,  1.4240e-06,  ...,  1.0710e-06,
+          5.1968e-07,  1.1176e-08],
+        ...,
+        [ 2.3637e-06,  3.7253e-09,  1.6997e-06,  ..., -2.8871e-07,
+          4.2189e-07, -5.6811e-08],
+        [ 1.0254e-06,  9.3132e-10, -3.9395e-07,  ..., -1.1669e-06,
+         -4.5355e-07,  5.5879e-09],
+        [ 1.0217e-06,  0.0000e+00,  6.9011e-07,  ...,  6.7055e-08,
+          1.3690e-07,  6.5193e-09]], device='cuda:0')
+Epoch 223, bias, value: tensor([-0.0070, -0.0365,  0.0073, -0.0193,  0.0158,  0.0103,  0.0259,  0.0026,
+        -0.0345, -0.0058], device='cuda:0'), grad: tensor([ 1.0245e-05,  2.6599e-06,  1.6510e-05,  1.8969e-05,  2.3037e-05,
+        -1.7011e-04,  6.1877e-06,  5.0038e-05,  1.9729e-05,  2.2829e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 222, time 247.73, cls_loss 0.0019 cls_loss_mapping 0.0027 cls_loss_causal 0.5130 re_mapping 0.0061 re_causal 0.0175 /// teacc 98.91 lr 0.00010000
+Epoch 224, weight, value: tensor([[ 0.0273, -0.1463, -0.1275,  ..., -0.2728, -0.0966, -0.1290],
+        [ 0.0400, -0.0732,  0.0335,  ...,  0.0486,  0.0952, -0.0381],
+        [-0.0667,  0.1252, -0.1571,  ...,  0.0600,  0.0742, -0.0390],
+        ...,
+        [-0.0791, -0.0811, -0.0768,  ...,  0.0032, -0.1492,  0.1207],
+        [ 0.0656, -0.0262,  0.0748,  ...,  0.0025, -0.1902, -0.0088],
+        [-0.1619, -0.0667, -0.0843,  ..., -0.1751,  0.0493, -0.0987]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09,  3.7253e-09,  3.8184e-08,  ...,  5.6811e-08,
+          4.7497e-08,  2.6077e-08],
+        [ 3.4459e-08,  3.7253e-09,  3.8221e-06,  ...,  8.8662e-06,
+         -7.9256e-07,  5.5283e-06],
+        [ 2.7940e-09, -5.8673e-08,  3.1479e-07,  ...,  1.8254e-07,
+         -9.9652e-08,  1.4715e-07],
+        ...,
+        [ 2.7381e-07,  1.9558e-08, -6.9924e-06,  ..., -1.4499e-05,
+          1.1111e-06, -9.1866e-06],
+        [ 8.9407e-08,  4.6566e-09, -2.1681e-06,  ..., -1.2284e-06,
+          2.2724e-07,  7.5437e-07],
+        [ 1.6764e-07,  1.8626e-09,  3.0268e-07,  ...,  5.3924e-07,
+          1.5590e-06,  1.6857e-07]], device='cuda:0')
+Epoch 224, bias, value: tensor([-0.0073, -0.0363,  0.0082, -0.0199,  0.0166,  0.0105,  0.0260,  0.0023,
+        -0.0348, -0.0066], device='cuda:0'), grad: tensor([-3.8370e-07,  4.2349e-05,  1.3914e-06,  2.4125e-05, -7.8231e-06,
+         4.8578e-06,  6.3423e-07, -6.8069e-05, -2.0303e-07,  3.0696e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 223, time 247.47, cls_loss 0.0029 cls_loss_mapping 0.0046 cls_loss_causal 0.5051 re_mapping 0.0059 re_causal 0.0167 /// teacc 98.92 lr 0.00010000
+Epoch 225, weight, value: tensor([[ 0.0272, -0.1466, -0.1277,  ..., -0.2748, -0.0967, -0.1290],
+        [ 0.0401, -0.0740,  0.0336,  ...,  0.0487,  0.0953, -0.0381],
+        [-0.0668,  0.1257, -0.1548,  ...,  0.0631,  0.0774, -0.0392],
+        ...,
+        [-0.0791, -0.0814, -0.0773,  ...,  0.0028, -0.1504,  0.1208],
+        [ 0.0656, -0.0261,  0.0749,  ...,  0.0026, -0.1903, -0.0088],
+        [-0.1623, -0.0672, -0.0852,  ..., -0.1779,  0.0492, -0.0988]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.0489e-08,  ...,  2.7008e-08,
+          1.0245e-08,  0.0000e+00],
+        [-2.7940e-09,  0.0000e+00,  2.7940e-08,  ...,  7.9162e-08,
+         -5.4017e-08,  1.8626e-09],
+        [ 0.0000e+00, -1.8626e-09,  2.5332e-07,  ...,  6.1840e-07,
+          1.1176e-08,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  1.8626e-09,  5.0385e-07,  ...,  5.0757e-07,
+          4.1910e-08, -3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00, -3.4459e-08,  ..., -9.3132e-10,
+          5.1223e-08,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  8.1956e-08,  ...,  1.0245e-07,
+         -3.2783e-07,  9.3132e-10]], device='cuda:0')
+Epoch 225, bias, value: tensor([-0.0071, -0.0363,  0.0112, -0.0222,  0.0167,  0.0101,  0.0260,  0.0021,
+        -0.0347, -0.0070], device='cuda:0'), grad: tensor([ 1.0710e-07,  1.9930e-07,  1.3197e-06, -4.1462e-06,  8.5495e-07,
+         5.0850e-07,  2.3190e-07,  1.5562e-06,  1.7416e-07, -8.0280e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 224, time 248.40, cls_loss 0.0016 cls_loss_mapping 0.0028 cls_loss_causal 0.5237 re_mapping 0.0057 re_causal 0.0166 /// teacc 98.93 lr 0.00010000
+Epoch 226, weight, value: tensor([[ 0.0269, -0.1458, -0.1299,  ..., -0.2768, -0.0967, -0.1291],
+        [ 0.0405, -0.0744,  0.0341,  ...,  0.0496,  0.0958, -0.0382],
+        [-0.0669,  0.1255, -0.1547,  ...,  0.0633,  0.0776, -0.0394],
+        ...,
+        [-0.0791, -0.0818, -0.0789,  ...,  0.0016, -0.1533,  0.1210],
+        [ 0.0654, -0.0254,  0.0749,  ...,  0.0027, -0.1906, -0.0088],
+        [-0.1630, -0.0680, -0.0856,  ..., -0.1784,  0.0492, -0.0988]],
+       device='cuda:0'), grad: tensor([[ 7.5437e-08,  4.6566e-09,  1.6503e-06,  ...,  9.3132e-08,
+          2.4606e-06,  9.3132e-10],
+        [-2.0582e-07,  3.5390e-08, -5.4538e-06,  ..., -4.4703e-07,
+         -7.8008e-06,  1.8626e-08],
+        [ 1.5832e-08,  6.8732e-07,  4.4238e-07,  ...,  5.2340e-07,
+          6.9011e-07,  8.3819e-09],
+        ...,
+        [ 2.5146e-08, -9.2853e-07,  1.0207e-06,  ..., -4.3400e-07,
+          1.0459e-06, -4.6566e-08],
+        [ 3.9116e-08,  3.2596e-08,  6.3237e-07,  ...,  7.0781e-08,
+          1.2955e-06,  5.5879e-09],
+        [ 6.2399e-08,  3.5390e-08,  2.9150e-07,  ...,  1.6484e-07,
+          6.0070e-07,  5.5879e-09]], device='cuda:0')
+Epoch 226, bias, value: tensor([-7.2164e-03, -3.5470e-02,  1.1452e-02, -2.2439e-02,  1.6789e-02,
+         1.0644e-02,  2.5866e-02,  7.7172e-05, -3.5012e-02, -7.2658e-03],
+       device='cuda:0'), grad: tensor([ 5.4911e-06, -1.5825e-05,  3.1665e-06, -1.2815e-06,  6.7614e-07,
+         2.1327e-06,  1.8505e-06, -1.5972e-06,  2.7716e-06,  2.5779e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 225, time 248.04, cls_loss 0.0019 cls_loss_mapping 0.0028 cls_loss_causal 0.5010 re_mapping 0.0055 re_causal 0.0161 /// teacc 98.94 lr 0.00010000
+Epoch 227, weight, value: tensor([[ 0.0268, -0.1460, -0.1300,  ..., -0.2787, -0.0970, -0.1297],
+        [ 0.0406, -0.0731,  0.0343,  ...,  0.0502,  0.0962, -0.0387],
+        [-0.0670,  0.1247, -0.1549,  ...,  0.0632,  0.0774, -0.0395],
+        ...,
+        [-0.0782, -0.0814, -0.0794,  ...,  0.0012, -0.1542,  0.1214],
+        [ 0.0650, -0.0253,  0.0750,  ...,  0.0027, -0.1908, -0.0089],
+        [-0.1634, -0.0692, -0.0857,  ..., -0.1798,  0.0493, -0.0990]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  3.1665e-08,  5.5879e-08,  ...,  1.1921e-07,
+          1.3039e-07,  0.0000e+00],
+        [-1.8626e-09, -1.8431e-06, -2.0061e-06,  ..., -3.8408e-06,
+         -4.8876e-06, -3.7253e-09],
+        [ 5.5879e-09,  1.5376e-06,  1.2135e-06,  ...,  3.6396e-06,
+          5.0738e-06,  9.3132e-10],
+        ...,
+        [ 4.6566e-09, -6.8080e-07,  4.4517e-07,  ..., -8.5495e-07,
+          1.8794e-06,  9.3132e-10],
+        [ 1.8626e-09,  3.1013e-07,  1.9744e-07,  ...,  7.2643e-07,
+          1.3402e-06,  0.0000e+00],
+        [ 1.8626e-09,  2.1514e-07,  4.3772e-08,  ..., -8.1211e-07,
+         -7.8455e-06,  0.0000e+00]], device='cuda:0')
+Epoch 227, bias, value: tensor([-0.0073, -0.0354,  0.0113, -0.0224,  0.0168,  0.0105,  0.0259,  0.0006,
+        -0.0351, -0.0075], device='cuda:0'), grad: tensor([ 4.9546e-07,  3.4552e-07,  1.0885e-05, -6.3702e-07,  7.4506e-06,
+         2.0787e-06,  1.4994e-07, -3.4235e-06,  3.4608e-06, -2.0847e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 226, time 248.15, cls_loss 0.0013 cls_loss_mapping 0.0025 cls_loss_causal 0.5182 re_mapping 0.0057 re_causal 0.0172 /// teacc 98.88 lr 0.00010000
+Epoch 228, weight, value: tensor([[ 0.0267, -0.1462, -0.1302,  ..., -0.2814, -0.0971, -0.1298],
+        [ 0.0409, -0.0713,  0.0346,  ...,  0.0507,  0.0966, -0.0388],
+        [-0.0670,  0.1250, -0.1552,  ...,  0.0632,  0.0774, -0.0396],
+        ...,
+        [-0.0781, -0.0821, -0.0798,  ...,  0.0009, -0.1553,  0.1216],
+        [ 0.0646, -0.0252,  0.0750,  ...,  0.0026, -0.1911, -0.0092],
+        [-0.1636, -0.0700, -0.0861,  ..., -0.1801,  0.0495, -0.0990]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  9.3132e-10,  1.1176e-08,  ...,  8.3819e-09,
+          1.3970e-08,  0.0000e+00],
+        [-0.0000e+00,  0.0000e+00, -2.6785e-06,  ..., -2.2575e-06,
+         -4.2282e-06, -5.5879e-09],
+        [ 0.0000e+00, -1.2107e-08,  8.6706e-07,  ...,  7.3668e-07,
+          1.2992e-06,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  6.5193e-09,  1.6736e-06,  ...,  1.4082e-06,
+          2.6934e-06,  3.7253e-09],
+        [ 0.0000e+00,  9.3132e-10, -8.1956e-08,  ..., -2.5146e-08,
+          7.0781e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  6.7987e-08,  ...,  5.2154e-08,
+          2.9895e-07,  0.0000e+00]], device='cuda:0')
+Epoch 228, bias, value: tensor([-0.0073, -0.0351,  0.0112, -0.0224,  0.0165,  0.0110,  0.0257,  0.0003,
+        -0.0353, -0.0072], device='cuda:0'), grad: tensor([-8.6613e-08, -5.9716e-06,  2.0489e-06, -2.3600e-06, -1.2405e-06,
+         2.0824e-06,  2.2072e-07,  4.1276e-06,  2.0396e-07,  9.4529e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 227, time 248.30, cls_loss 0.0025 cls_loss_mapping 0.0036 cls_loss_causal 0.5173 re_mapping 0.0060 re_causal 0.0165 /// teacc 98.93 lr 0.00010000
+Epoch 229, weight, value: tensor([[ 0.0268, -0.1464, -0.1275,  ..., -0.2792, -0.0976, -0.1299],
+        [ 0.0410, -0.0715,  0.0346,  ...,  0.0506,  0.0964, -0.0390],
+        [-0.0671,  0.1247, -0.1556,  ...,  0.0631,  0.0771, -0.0398],
+        ...,
+        [-0.0782, -0.0818, -0.0800,  ...,  0.0010, -0.1563,  0.1217],
+        [ 0.0646, -0.0250,  0.0750,  ...,  0.0024, -0.1913, -0.0093],
+        [-0.1639, -0.0698, -0.0886,  ..., -0.1793,  0.0487, -0.0991]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  5.5879e-09,  ...,  6.5193e-09,
+          2.5779e-06,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00, -5.1223e-08,  ..., -9.3132e-10,
+         -4.8429e-08,  0.0000e+00],
+        [ 0.0000e+00, -1.8626e-08,  5.4017e-08,  ...,  2.6077e-08,
+         -7.4506e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  5.5879e-09,  8.8476e-08,  ...,  9.7789e-08,
+          2.2352e-08,  0.0000e+00],
+        [ 0.0000e+00,  8.3819e-09, -4.6566e-09,  ...,  2.7940e-09,
+          7.6368e-08,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-08,  ...,  6.5193e-09,
+          1.1642e-07,  0.0000e+00]], device='cuda:0')
+Epoch 229, bias, value: tensor([-7.1250e-03, -3.5381e-02,  1.1009e-02, -2.2298e-02,  1.9389e-02,
+         1.0911e-02,  2.5526e-02, -9.1543e-05, -3.5612e-02, -7.4394e-03],
+       device='cuda:0'), grad: tensor([ 6.6608e-06, -4.4703e-08,  9.5926e-08,  6.8918e-07,  1.5367e-07,
+        -4.5806e-05,  3.4899e-05,  2.7381e-07,  1.2424e-06,  1.8552e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 228, time 248.12, cls_loss 0.0013 cls_loss_mapping 0.0023 cls_loss_causal 0.5292 re_mapping 0.0058 re_causal 0.0171 /// teacc 98.99 lr 0.00010000
+Epoch 230, weight, value: tensor([[ 0.0269, -0.1468, -0.1274,  ..., -0.2797, -0.0972, -0.1304],
+        [ 0.0410, -0.0716,  0.0347,  ...,  0.0506,  0.0965, -0.0393],
+        [-0.0671,  0.1247, -0.1559,  ...,  0.0631,  0.0771, -0.0407],
+        ...,
+        [-0.0782, -0.0819, -0.0801,  ...,  0.0013, -0.1564,  0.1222],
+        [ 0.0647, -0.0245,  0.0751,  ...,  0.0025, -0.1915, -0.0093],
+        [-0.1641, -0.0700, -0.0891,  ..., -0.1801,  0.0488, -0.0994]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  1.1176e-08,  ...,  1.2107e-08,
+          9.5926e-08,  6.5193e-09],
+        [-2.0489e-08,  1.2107e-08, -5.4669e-07,  ..., -2.1607e-07,
+         -4.8615e-07,  1.5832e-08],
+        [ 2.7940e-09, -5.5879e-09,  6.8918e-08,  ...,  5.4017e-08,
+          6.4261e-08,  9.3132e-09],
+        ...,
+        [ 1.0245e-08, -4.6566e-09,  2.0117e-07,  ..., -1.6578e-07,
+          2.3749e-07, -8.7544e-08],
+        [ 3.7253e-09,  2.7940e-09, -1.5087e-07,  ..., -1.0058e-07,
+          2.6170e-07,  1.0245e-08],
+        [ 0.0000e+00,  8.3819e-09,  8.8476e-08,  ...,  1.6950e-07,
+          7.1712e-08,  1.0245e-08]], device='cuda:0')
+Epoch 230, bias, value: tensor([-0.0062, -0.0353,  0.0110, -0.0223,  0.0190,  0.0111,  0.0255,  0.0001,
+        -0.0357, -0.0079], device='cuda:0'), grad: tensor([-6.8098e-06, -6.9942e-07,  4.3679e-07,  2.9430e-07,  1.1735e-07,
+        -2.1048e-07, -7.4692e-07,  4.7833e-06,  6.7707e-07,  2.1495e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 229, time 248.03, cls_loss 0.0017 cls_loss_mapping 0.0029 cls_loss_causal 0.4792 re_mapping 0.0054 re_causal 0.0157 /// teacc 98.96 lr 0.00010000
+Epoch 231, weight, value: tensor([[ 0.0268, -0.1470, -0.1277,  ..., -0.2810, -0.0973, -0.1309],
+        [ 0.0410, -0.0694,  0.0356,  ...,  0.0523,  0.0980, -0.0399],
+        [-0.0671,  0.1238, -0.1580,  ...,  0.0621,  0.0754, -0.0410],
+        ...,
+        [-0.0782, -0.0815, -0.0795,  ...,  0.0030, -0.1553,  0.1229],
+        [ 0.0647, -0.0253,  0.0749,  ...,  0.0022, -0.1921, -0.0094],
+        [-0.1639, -0.0702, -0.0893,  ..., -0.1806,  0.0486, -0.0995]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.7940e-09,  1.5832e-07,  ...,  1.9837e-07,
+         -1.8626e-08,  1.8626e-09],
+        [ 9.3132e-10,  2.7940e-09,  2.8405e-07,  ...,  4.4703e-07,
+          4.6007e-07,  9.3132e-10],
+        [ 9.3132e-10, -3.6322e-08,  2.5444e-06,  ...,  3.2093e-06,
+          1.1837e-06,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  1.7695e-08,  1.1986e-06,  ...,  1.3933e-06,
+          4.2096e-07, -9.3132e-10],
+        [-0.0000e+00,  7.4506e-09,  4.4517e-07,  ...,  6.0722e-07,
+          2.7381e-07,  1.8626e-09],
+        [ 0.0000e+00,  9.3132e-10,  3.8650e-07,  ...,  4.9919e-07,
+          7.3295e-07,  0.0000e+00]], device='cuda:0')
+Epoch 231, bias, value: tensor([-0.0063, -0.0346,  0.0103, -0.0224,  0.0192,  0.0113,  0.0255,  0.0016,
+        -0.0362, -0.0083], device='cuda:0'), grad: tensor([-3.0827e-07,  2.0675e-06,  9.6709e-06, -2.0385e-05, -8.4564e-07,
+         3.8296e-06, -3.4291e-06,  4.1872e-06,  2.0433e-06,  3.1367e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 230, time 248.03, cls_loss 0.0016 cls_loss_mapping 0.0027 cls_loss_causal 0.5028 re_mapping 0.0054 re_causal 0.0156 /// teacc 99.08 lr 0.00010000
+Epoch 232, weight, value: tensor([[ 0.0260, -0.1472, -0.1278,  ..., -0.2813, -0.0974, -0.1311],
+        [ 0.0409, -0.0711,  0.0359,  ...,  0.0521,  0.0979, -0.0400],
+        [-0.0674,  0.1229, -0.1581,  ...,  0.0621,  0.0756, -0.0410],
+        ...,
+        [-0.0765, -0.0823, -0.0802,  ...,  0.0027, -0.1561,  0.1230],
+        [ 0.0647, -0.0256,  0.0749,  ...,  0.0022, -0.1922, -0.0094],
+        [-0.1647, -0.0713, -0.0898,  ..., -0.1818,  0.0486, -0.0997]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.1176e-08,  5.8673e-08,  ...,  1.5832e-07,
+          1.0338e-07,  0.0000e+00],
+        [ 9.3132e-10,  1.3039e-08,  2.8685e-07,  ...,  9.1270e-07,
+          2.0210e-07,  0.0000e+00],
+        [ 0.0000e+00, -1.7881e-07,  1.0012e-06,  ...,  5.3085e-06,
+          1.9539e-06,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  9.6858e-08, -8.8289e-07,  ..., -7.9721e-06,
+         -2.9933e-06, -1.8626e-09],
+        [ 0.0000e+00,  1.5832e-08, -2.2985e-06,  ..., -1.7490e-06,
+         -6.5472e-07,  0.0000e+00],
+        [ 1.8626e-09,  4.6566e-09,  3.2689e-07,  ...,  1.4165e-06,
+          7.2923e-07,  1.8626e-09]], device='cuda:0')
+Epoch 232, bias, value: tensor([-0.0062, -0.0346,  0.0102, -0.0221,  0.0193,  0.0107,  0.0255,  0.0012,
+        -0.0363, -0.0084], device='cuda:0'), grad: tensor([ 6.0908e-07,  3.0398e-06,  2.1413e-05,  2.2873e-06, -9.3319e-07,
+         8.7637e-07,  1.8561e-06, -3.2753e-05, -2.7008e-06,  6.3255e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 231, time 248.27, cls_loss 0.0012 cls_loss_mapping 0.0022 cls_loss_causal 0.5090 re_mapping 0.0052 re_causal 0.0162 /// teacc 99.02 lr 0.00010000
+Epoch 233, weight, value: tensor([[ 0.0261, -0.1485, -0.1280,  ..., -0.2819, -0.0974, -0.1311],
+        [ 0.0412, -0.0725,  0.0361,  ...,  0.0520,  0.0979, -0.0401],
+        [-0.0675,  0.1241, -0.1582,  ...,  0.0621,  0.0758, -0.0410],
+        ...,
+        [-0.0760, -0.0829, -0.0804,  ...,  0.0027, -0.1566,  0.1231],
+        [ 0.0642, -0.0255,  0.0750,  ...,  0.0023, -0.1924, -0.0095],
+        [-0.1659, -0.0723, -0.0905,  ..., -0.1823,  0.0486, -0.0997]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  3.7253e-09,  1.0012e-06,  ...,  4.6566e-07,
+         -1.4901e-08,  0.0000e+00],
+        [ 5.5879e-09,  4.0978e-08, -4.1537e-07,  ..., -2.6915e-07,
+         -6.9384e-07,  9.3132e-10],
+        [ 9.3132e-10, -1.4622e-07, -1.2852e-07,  ..., -5.1595e-07,
+         -1.0263e-06,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  6.3330e-08,  2.6450e-07,  ...,  3.5670e-07,
+          6.0722e-07, -2.7940e-09],
+        [ 1.2107e-08,  3.7253e-09, -2.4643e-06,  ..., -1.0645e-06,
+          1.0431e-07,  0.0000e+00],
+        [ 1.3970e-08,  1.7695e-08,  2.5705e-07,  ...,  2.1048e-07,
+          5.9232e-07,  9.3132e-10]], device='cuda:0')
+Epoch 233, bias, value: tensor([-0.0062, -0.0346,  0.0103, -0.0222,  0.0194,  0.0107,  0.0255,  0.0012,
+        -0.0363, -0.0085], device='cuda:0'), grad: tensor([ 1.8785e-06, -6.6310e-07, -2.4475e-06,  7.4320e-07, -2.5146e-07,
+         1.1176e-08,  1.5721e-06,  1.5749e-06, -5.0776e-06,  2.6487e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 232, time 248.30, cls_loss 0.0012 cls_loss_mapping 0.0020 cls_loss_causal 0.5144 re_mapping 0.0055 re_causal 0.0172 /// teacc 98.97 lr 0.00010000
+Epoch 234, weight, value: tensor([[ 0.0286, -0.1482, -0.1280,  ..., -0.2822, -0.0974, -0.1312],
+        [ 0.0410, -0.0700,  0.0367,  ...,  0.0525,  0.0982, -0.0399],
+        [-0.0684,  0.1229, -0.1588,  ...,  0.0621,  0.0756, -0.0410],
+        ...,
+        [-0.0755, -0.0836, -0.0815,  ...,  0.0020, -0.1574,  0.1230],
+        [ 0.0643, -0.0257,  0.0750,  ...,  0.0022, -0.1926, -0.0096],
+        [-0.1672, -0.0731, -0.0910,  ..., -0.1831,  0.0486, -0.1000]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.3283e-08,  2.5146e-08,  ...,  4.4703e-08,
+         -3.2596e-08,  1.8626e-09],
+        [ 9.3132e-10,  1.9558e-08, -1.0617e-07,  ...,  1.8440e-07,
+         -1.1269e-07,  6.6124e-08],
+        [ 9.3132e-10, -8.7544e-08,  4.1910e-08,  ..., -4.2841e-08,
+         -6.3330e-08,  4.6566e-09],
+        ...,
+        [ 9.3132e-10,  1.4901e-08,  1.5832e-08,  ..., -9.8068e-07,
+          4.6566e-08, -5.6252e-07],
+        [ 0.0000e+00, -2.7940e-09, -3.5390e-08,  ..., -1.7695e-08,
+          8.4750e-08,  4.6566e-09],
+        [ 0.0000e+00,  7.4506e-09,  2.4214e-08,  ...,  2.1234e-07,
+          2.5146e-07,  9.4064e-08]], device='cuda:0')
+Epoch 234, bias, value: tensor([-0.0058, -0.0343,  0.0102, -0.0222,  0.0194,  0.0112,  0.0253,  0.0007,
+        -0.0364, -0.0086], device='cuda:0'), grad: tensor([-4.6566e-07,  4.1816e-07,  2.0117e-07,  2.6748e-06,  7.5437e-07,
+        -6.9011e-07, -1.2154e-06, -3.8296e-06,  3.0175e-07,  1.8599e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 233, time 247.67, cls_loss 0.0016 cls_loss_mapping 0.0024 cls_loss_causal 0.4887 re_mapping 0.0055 re_causal 0.0156 /// teacc 99.02 lr 0.00010000
+Epoch 235, weight, value: tensor([[ 0.0288, -0.1485, -0.1281,  ..., -0.2827, -0.0974, -0.1312],
+        [ 0.0439, -0.0708,  0.0371,  ...,  0.0521,  0.0986, -0.0407],
+        [-0.0689,  0.1234, -0.1590,  ...,  0.0621,  0.0757, -0.0411],
+        ...,
+        [-0.0744, -0.0834, -0.0804,  ...,  0.0038, -0.1578,  0.1240],
+        [ 0.0611, -0.0257,  0.0740,  ...,  0.0014, -0.1937, -0.0097],
+        [-0.1684, -0.0733, -0.0917,  ..., -0.1841,  0.0486, -0.1005]],
+       device='cuda:0'), grad: tensor([[ 1.7695e-08,  4.6566e-09,  1.4808e-07,  ...,  1.1362e-07,
+          1.6578e-07,  9.3132e-10],
+        [ 9.8161e-07,  2.5146e-08, -4.9099e-06,  ..., -1.3541e-06,
+         -1.2949e-05, -2.1420e-08],
+        [ 2.0396e-07, -3.7253e-08,  3.1069e-06,  ...,  2.2054e-06,
+          3.2987e-06,  2.7940e-09],
+        ...,
+        [-2.2631e-07, -2.5891e-07,  9.3039e-07,  ...,  3.6135e-07,
+          1.0487e-06,  3.7253e-09],
+        [-1.1027e-06,  1.4342e-07, -5.1484e-06,  ..., -5.2489e-06,
+          1.4342e-07,  1.8626e-09],
+        [ 5.1223e-08,  5.1223e-08, -4.9453e-07,  ...,  6.8918e-08,
+         -3.2783e-07,  0.0000e+00]], device='cuda:0')
+Epoch 235, bias, value: tensor([-0.0062, -0.0341,  0.0102, -0.0221,  0.0193,  0.0119,  0.0254,  0.0018,
+        -0.0382, -0.0088], device='cuda:0'), grad: tensor([ 7.0874e-07, -1.0408e-05,  8.2776e-06,  2.5369e-06,  1.0520e-05,
+         8.3726e-07,  2.9095e-06,  4.0196e-06, -1.3731e-05, -5.6773e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 234, time 248.08, cls_loss 0.0018 cls_loss_mapping 0.0032 cls_loss_causal 0.5181 re_mapping 0.0056 re_causal 0.0162 /// teacc 98.99 lr 0.00010000
+Epoch 236, weight, value: tensor([[ 0.0286, -0.1491, -0.1284,  ..., -0.2834, -0.0977, -0.1314],
+        [ 0.0439, -0.0708,  0.0374,  ...,  0.0518,  0.0986, -0.0410],
+        [-0.0690,  0.1238, -0.1592,  ...,  0.0621,  0.0758, -0.0412],
+        ...,
+        [-0.0748, -0.0840, -0.0806,  ...,  0.0045, -0.1584,  0.1245],
+        [ 0.0615, -0.0250,  0.0740,  ...,  0.0013, -0.1941, -0.0098],
+        [-0.1685, -0.0737, -0.0923,  ..., -0.1840,  0.0487, -0.1006]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.9802e-08, -1.6391e-07,  ...,  1.5832e-08,
+         -1.3132e-07,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-09,  0.0000e+00,  ...,  1.5274e-07,
+         -4.1910e-08,  0.0000e+00],
+        [ 0.0000e+00,  2.4214e-08,  4.3772e-08,  ..., -2.0489e-08,
+         -4.0047e-08,  0.0000e+00],
+        ...,
+        [-9.3132e-10,  1.7695e-08,  3.5390e-08,  ..., -4.8988e-07,
+          5.4017e-08, -0.0000e+00],
+        [ 0.0000e+00, -1.9372e-07, -1.7323e-07,  ..., -1.3970e-08,
+          1.3970e-08,  0.0000e+00],
+        [ 0.0000e+00,  6.3330e-08,  1.5087e-07,  ...,  1.7229e-07,
+          1.4063e-07,  0.0000e+00]], device='cuda:0')
+Epoch 236, bias, value: tensor([-0.0064, -0.0343,  0.0102, -0.0221,  0.0193,  0.0131,  0.0252,  0.0022,
+        -0.0386, -0.0087], device='cuda:0'), grad: tensor([-1.4938e-06,  6.8173e-07,  1.7509e-07,  7.1060e-07, -1.0431e-07,
+         1.1548e-07,  5.9884e-07, -1.8496e-06, -8.4378e-07,  1.9986e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 235, time 247.83, cls_loss 0.0014 cls_loss_mapping 0.0027 cls_loss_causal 0.4963 re_mapping 0.0053 re_causal 0.0157 /// teacc 99.01 lr 0.00010000
+Epoch 237, weight, value: tensor([[ 0.0282, -0.1496, -0.1286,  ..., -0.2842, -0.0978, -0.1314],
+        [ 0.0439, -0.0693,  0.0380,  ...,  0.0522,  0.0990, -0.0410],
+        [-0.0693,  0.1230, -0.1601,  ...,  0.0620,  0.0756, -0.0412],
+        ...,
+        [-0.0733, -0.0848, -0.0811,  ...,  0.0045, -0.1596,  0.1246],
+        [ 0.0617, -0.0252,  0.0742,  ...,  0.0015, -0.1942, -0.0098],
+        [-0.1685, -0.0736, -0.0929,  ..., -0.1844,  0.0490, -0.1006]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  4.2003e-07,  9.3132e-09,  ...,  3.1199e-07,
+          6.6124e-08,  0.0000e+00],
+        [ 4.6566e-09,  7.4506e-08, -5.2154e-08,  ...,  7.4506e-09,
+         -1.8161e-07,  0.0000e+00],
+        [-2.9802e-08, -2.7329e-05,  2.5146e-07,  ..., -1.9029e-05,
+         -2.0489e-08,  0.0000e+00],
+        ...,
+        [-7.4506e-09,  2.3171e-05,  3.0734e-08,  ...,  1.6242e-05,
+          3.9116e-08,  0.0000e+00],
+        [ 1.8626e-08,  1.9558e-08, -4.0885e-07,  ..., -1.7416e-07,
+          1.8720e-07,  0.0000e+00],
+        [ 2.7940e-09,  2.7474e-07,  1.2107e-08,  ...,  2.0768e-07,
+          2.5146e-08,  0.0000e+00]], device='cuda:0')
+Epoch 237, bias, value: tensor([-0.0065, -0.0339,  0.0100, -0.0221,  0.0188,  0.0131,  0.0252,  0.0017,
+        -0.0385, -0.0082], device='cuda:0'), grad: tensor([ 9.2015e-07,  1.0990e-07, -5.2929e-05,  6.5379e-06,  1.5739e-07,
+        -7.5281e-05,  7.4148e-05,  4.5210e-05,  4.2841e-07,  7.8697e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 236, time 247.54, cls_loss 0.0015 cls_loss_mapping 0.0032 cls_loss_causal 0.4941 re_mapping 0.0050 re_causal 0.0153 /// teacc 99.00 lr 0.00010000
+Epoch 238, weight, value: tensor([[ 0.0286, -0.1500, -0.1287,  ..., -0.2848, -0.0979, -0.1319],
+        [ 0.0437, -0.0693,  0.0381,  ...,  0.0522,  0.0990, -0.0411],
+        [-0.0693,  0.1232, -0.1602,  ...,  0.0620,  0.0757, -0.0412],
+        ...,
+        [-0.0732, -0.0852, -0.0815,  ...,  0.0042, -0.1605,  0.1246],
+        [ 0.0616, -0.0250,  0.0748,  ...,  0.0024, -0.1940, -0.0098],
+        [-0.1692, -0.0738, -0.0932,  ..., -0.1835,  0.0493, -0.1007]],
+       device='cuda:0'), grad: tensor([[ 2.9802e-08,  2.8871e-08,  6.0815e-07,  ...,  4.4890e-07,
+          6.8545e-07,  2.7940e-09],
+        [ 1.6298e-07,  8.3819e-09, -1.5823e-06,  ...,  1.1176e-07,
+         -1.5469e-06,  1.8626e-09],
+        [ 9.3132e-09, -9.5926e-08,  4.7870e-07,  ...,  6.4261e-07,
+         -1.3970e-08, -1.4901e-08],
+        ...,
+        [-3.2783e-07,  2.7940e-09,  1.4901e-07,  ..., -1.5842e-06,
+          9.9652e-08,  0.0000e+00],
+        [ 3.7253e-09,  1.7695e-08, -3.8650e-07,  ...,  7.9162e-08,
+          2.5146e-07,  2.7940e-09],
+        [ 2.6077e-08,  9.3132e-10,  7.5437e-08,  ...,  1.7136e-07,
+          9.5926e-07,  0.0000e+00]], device='cuda:0')
+Epoch 238, bias, value: tensor([-0.0065, -0.0339,  0.0100, -0.0220,  0.0186,  0.0131,  0.0249,  0.0013,
+        -0.0378, -0.0078], device='cuda:0'), grad: tensor([ 3.0436e-06, -9.8627e-07,  2.1234e-06, -1.8366e-06, -2.2743e-06,
+         5.1260e-06, -3.1665e-07, -8.5905e-06,  5.7742e-07,  3.1237e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 237, time 248.08, cls_loss 0.0013 cls_loss_mapping 0.0026 cls_loss_causal 0.5226 re_mapping 0.0052 re_causal 0.0161 /// teacc 99.00 lr 0.00010000
+Epoch 239, weight, value: tensor([[ 0.0286, -0.1506, -0.1289,  ..., -0.2857, -0.0980, -0.1317],
+        [ 0.0438, -0.0692,  0.0383,  ...,  0.0523,  0.0991, -0.0410],
+        [-0.0694,  0.1230, -0.1603,  ...,  0.0620,  0.0757, -0.0412],
+        ...,
+        [-0.0731, -0.0857, -0.0820,  ...,  0.0041, -0.1611,  0.1247],
+        [ 0.0616, -0.0249,  0.0748,  ...,  0.0023, -0.1942, -0.0098],
+        [-0.1697, -0.0741, -0.0935,  ..., -0.1849,  0.0494, -0.1007]],
+       device='cuda:0'), grad: tensor([[ 1.5832e-08,  8.3819e-09,  1.2480e-07,  ...,  1.5087e-07,
+          8.8476e-08,  0.0000e+00],
+        [ 6.5193e-09,  1.3970e-08, -6.5193e-09,  ...,  4.4703e-08,
+          1.6578e-07, -9.3132e-10],
+        [ 1.2014e-07, -4.9360e-08,  8.9221e-07,  ...,  1.0254e-06,
+          3.4552e-07,  0.0000e+00],
+        ...,
+        [ 2.1420e-08,  1.0245e-08,  1.8254e-07,  ...,  2.0675e-07,
+          1.3411e-07, -1.8626e-09],
+        [ 9.3132e-10,  6.5193e-09, -2.8871e-08,  ...,  4.6566e-09,
+          5.4948e-08,  9.3132e-10],
+        [ 1.8626e-09,  1.8626e-09,  8.5682e-08,  ...,  5.2154e-08,
+          1.4836e-06,  0.0000e+00]], device='cuda:0')
+Epoch 239, bias, value: tensor([-0.0063, -0.0337,  0.0100, -0.0221,  0.0187,  0.0136,  0.0249,  0.0012,
+        -0.0380, -0.0081], device='cuda:0'), grad: tensor([-4.3139e-06,  9.5088e-07,  3.4049e-06, -2.3935e-07, -4.6641e-06,
+        -4.7125e-06,  4.6417e-06,  7.9256e-07,  2.0955e-07,  3.9116e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 238, time 247.90, cls_loss 0.0014 cls_loss_mapping 0.0025 cls_loss_causal 0.4855 re_mapping 0.0053 re_causal 0.0153 /// teacc 99.01 lr 0.00010000
+Epoch 240, weight, value: tensor([[ 0.0285, -0.1508, -0.1290,  ..., -0.2861, -0.0985, -0.1321],
+        [ 0.0437, -0.0693,  0.0383,  ...,  0.0522,  0.0992, -0.0411],
+        [-0.0694,  0.1228, -0.1606,  ...,  0.0618,  0.0757, -0.0412],
+        ...,
+        [-0.0731, -0.0857, -0.0820,  ...,  0.0043, -0.1613,  0.1250],
+        [ 0.0619, -0.0242,  0.0751,  ...,  0.0035, -0.1942, -0.0100],
+        [-0.1705, -0.0748, -0.0942,  ..., -0.1856,  0.0498, -0.1009]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.7940e-09,  4.6566e-09,  ..., -1.2107e-08,
+          1.0990e-07,  9.3132e-10],
+        [ 0.0000e+00,  2.7940e-09,  1.8999e-07,  ...,  4.5914e-07,
+          3.3528e-08,  1.8626e-09],
+        [ 0.0000e+00, -2.5146e-08,  2.4214e-08,  ...,  2.1420e-08,
+          2.1420e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.3039e-08,  5.5879e-09,  ..., -9.0897e-07,
+          4.7497e-08, -8.3819e-09],
+        [ 0.0000e+00,  1.8626e-09,  2.0694e-06,  ...,  2.2631e-06,
+          1.2862e-06,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  5.5879e-09,  ...,  5.7183e-07,
+         -8.3819e-09,  1.8626e-09]], device='cuda:0')
+Epoch 240, bias, value: tensor([-0.0065, -0.0338,  0.0097, -0.0220,  0.0180,  0.0136,  0.0249,  0.0014,
+        -0.0370, -0.0077], device='cuda:0'), grad: tensor([-2.3283e-07,  3.1292e-06,  3.7253e-07,  4.7963e-07, -3.3155e-07,
+        -7.2002e-05,  4.4286e-05, -4.0680e-06,  2.5406e-05,  2.8033e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 239, time 249.65, cls_loss 0.0014 cls_loss_mapping 0.0021 cls_loss_causal 0.5108 re_mapping 0.0050 re_causal 0.0152 /// teacc 99.06 lr 0.00010000
+Epoch 241, weight, value: tensor([[ 0.0283, -0.1511, -0.1291,  ..., -0.2866, -0.0986, -0.1323],
+        [ 0.0438, -0.0695,  0.0383,  ...,  0.0522,  0.0992, -0.0411],
+        [-0.0695,  0.1232, -0.1608,  ...,  0.0618,  0.0758, -0.0420],
+        ...,
+        [-0.0730, -0.0867, -0.0821,  ...,  0.0042, -0.1619,  0.1252],
+        [ 0.0619, -0.0234,  0.0753,  ...,  0.0041, -0.1943, -0.0100],
+        [-0.1708, -0.0750, -0.0949,  ..., -0.1866,  0.0496, -0.1010]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  8.3819e-09,  3.9954e-07,  ...,  7.4506e-08,
+          4.2841e-08,  0.0000e+00],
+        [-1.3970e-08,  5.2154e-08,  1.5181e-07,  ...,  5.9605e-08,
+         -2.5425e-07,  0.0000e+00],
+        [ 0.0000e+00, -8.4750e-08,  5.6624e-07,  ...,  1.9651e-07,
+          4.0978e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -1.1921e-07,  1.9539e-06,  ...,  1.7695e-08,
+          9.2201e-08,  0.0000e+00],
+        [ 1.2107e-08,  7.7300e-08,  1.1576e-06,  ...,  3.1479e-07,
+          1.8440e-07,  0.0000e+00],
+        [ 0.0000e+00,  5.5879e-09,  7.9721e-06,  ...,  7.8790e-07,
+         -1.5181e-07,  0.0000e+00]], device='cuda:0')
+Epoch 241, bias, value: tensor([-0.0060, -0.0338,  0.0098, -0.0222,  0.0188,  0.0147,  0.0247,  0.0010,
+        -0.0367, -0.0084], device='cuda:0'), grad: tensor([-1.7416e-07,  1.6699e-06,  1.5227e-06, -5.9456e-05,  2.1178e-06,
+         2.8029e-05, -4.3772e-07,  3.7700e-06,  3.4086e-06,  1.9550e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 240----------------------------------------------------
+epoch 240, time 266.03, cls_loss 0.0017 cls_loss_mapping 0.0032 cls_loss_causal 0.5200 re_mapping 0.0053 re_causal 0.0160 /// teacc 99.14 lr 0.00010000
+Epoch 242, weight, value: tensor([[ 0.0283, -0.1516, -0.1292,  ..., -0.2870, -0.0985, -0.1326],
+        [ 0.0439, -0.0694,  0.0381,  ...,  0.0518,  0.0993, -0.0417],
+        [-0.0696,  0.1237, -0.1610,  ...,  0.0618,  0.0759, -0.0421],
+        ...,
+        [-0.0728, -0.0869, -0.0813,  ...,  0.0049, -0.1622,  0.1256],
+        [ 0.0619, -0.0239,  0.0753,  ...,  0.0041, -0.1945, -0.0101],
+        [-0.1714, -0.0756, -0.0958,  ..., -0.1878,  0.0494, -0.1013]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  7.4506e-09,  3.9116e-08,  ...,  2.6077e-08,
+         -3.6135e-07,  9.3132e-10],
+        [-6.0536e-08,  6.5193e-09,  8.9966e-07,  ...,  5.2247e-07,
+         -2.4121e-07,  0.0000e+00],
+        [ 1.4901e-08, -9.3691e-07,  1.3206e-06,  ...,  5.1130e-07,
+         -1.5274e-07,  0.0000e+00],
+        ...,
+        [ 1.3970e-08,  1.1176e-08,  2.0955e-07,  ...,  1.1828e-07,
+          7.3574e-08,  0.0000e+00],
+        [-1.5739e-07,  8.9500e-07, -3.1795e-06,  ..., -1.5181e-06,
+          1.6857e-07,  9.3132e-10],
+        [ 2.7008e-08,  9.3132e-10,  2.4308e-07,  ...,  1.1921e-07,
+         -1.3039e-07,  0.0000e+00]], device='cuda:0')
+Epoch 242, bias, value: tensor([-0.0053, -0.0342,  0.0098, -0.0239,  0.0189,  0.0175,  0.0247,  0.0020,
+        -0.0368, -0.0093], device='cuda:0'), grad: tensor([-9.4473e-06,  1.7779e-06,  8.2236e-07, -6.7130e-06,  1.5460e-06,
+        -3.0510e-06,  1.7405e-05,  6.3889e-07, -4.2841e-06,  1.2629e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 241, time 248.46, cls_loss 0.0010 cls_loss_mapping 0.0017 cls_loss_causal 0.4842 re_mapping 0.0052 re_causal 0.0158 /// teacc 99.12 lr 0.00010000
+Epoch 243, weight, value: tensor([[ 0.0284, -0.1519, -0.1294,  ..., -0.2874, -0.0986, -0.1326],
+        [ 0.0439, -0.0692,  0.0382,  ...,  0.0520,  0.0994, -0.0417],
+        [-0.0696,  0.1239, -0.1613,  ...,  0.0618,  0.0759, -0.0421],
+        ...,
+        [-0.0728, -0.0875, -0.0814,  ...,  0.0048, -0.1628,  0.1258],
+        [ 0.0618, -0.0240,  0.0754,  ...,  0.0041, -0.1945, -0.0101],
+        [-0.1713, -0.0768, -0.0964,  ..., -0.1886,  0.0494, -0.1013]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  8.8476e-08,  5.7742e-08,  ...,  2.4959e-07,
+          3.5111e-07,  0.0000e+00],
+        [ 0.0000e+00,  2.7008e-08, -7.5437e-08,  ...,  1.4063e-07,
+          8.0094e-08,  2.7940e-09],
+        [ 0.0000e+00, -3.9022e-07,  8.9407e-08,  ..., -6.7428e-07,
+         -1.3094e-06,  2.7940e-09],
+        ...,
+        [ 0.0000e+00,  2.6077e-08,  3.6322e-08,  ..., -4.7870e-07,
+          5.4948e-08, -8.3819e-09],
+        [ 0.0000e+00,  1.3597e-07,  4.0978e-08,  ...,  2.5798e-07,
+          4.8429e-07,  1.8626e-09],
+        [ 0.0000e+00,  4.2841e-08,  5.5879e-09,  ...,  2.6822e-07,
+          4.6380e-07,  0.0000e+00]], device='cuda:0')
+Epoch 243, bias, value: tensor([-0.0051, -0.0341,  0.0098, -0.0240,  0.0187,  0.0177,  0.0247,  0.0019,
+        -0.0368, -0.0095], device='cuda:0'), grad: tensor([ 1.0198e-06,  5.9046e-07, -3.6843e-06, -2.3004e-07, -1.2536e-06,
+         7.7207e-07,  7.0408e-07, -1.4622e-06,  1.6419e-06,  1.8943e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 242, time 247.77, cls_loss 0.0020 cls_loss_mapping 0.0032 cls_loss_causal 0.5290 re_mapping 0.0049 re_causal 0.0149 /// teacc 99.09 lr 0.00010000
+Epoch 244, weight, value: tensor([[ 0.0282, -0.1522, -0.1298,  ..., -0.2882, -0.0987, -0.1329],
+        [ 0.0441, -0.0690,  0.0381,  ...,  0.0520,  0.0994, -0.0418],
+        [-0.0697,  0.1244, -0.1616,  ...,  0.0618,  0.0760, -0.0434],
+        ...,
+        [-0.0728, -0.0878, -0.0818,  ...,  0.0045, -0.1631,  0.1262],
+        [ 0.0618, -0.0250,  0.0753,  ...,  0.0038, -0.1951, -0.0103],
+        [-0.1722, -0.0772, -0.0966,  ..., -0.1897,  0.0494, -0.1014]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  9.3132e-10,  3.2596e-08,  ...,  1.2107e-08,
+          1.0245e-08,  9.3132e-10],
+        [ 0.0000e+00, -3.0734e-08, -5.0850e-07,  ..., -2.1420e-07,
+         -3.8836e-07,  0.0000e+00],
+        [ 0.0000e+00,  1.6764e-08,  3.3528e-07,  ...,  1.4435e-07,
+          1.1642e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  3.7253e-09,  3.1758e-07,  ...,  1.4622e-07,
+          1.7136e-07,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10, -1.0384e-06,  ..., -2.7101e-07,
+          2.5146e-08,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.6205e-07,  ...,  5.4948e-08,
+          6.5193e-09,  0.0000e+00]], device='cuda:0')
+Epoch 244, bias, value: tensor([-0.0052, -0.0343,  0.0098, -0.0239,  0.0189,  0.0175,  0.0249,  0.0016,
+        -0.0378, -0.0093], device='cuda:0'), grad: tensor([-1.9837e-07, -9.8161e-07,  7.3854e-07, -1.5460e-07,  5.7742e-08,
+         7.6089e-07,  5.2527e-07,  6.5658e-07, -1.8878e-06,  4.6939e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 243, time 247.59, cls_loss 0.0013 cls_loss_mapping 0.0020 cls_loss_causal 0.4788 re_mapping 0.0053 re_causal 0.0155 /// teacc 98.96 lr 0.00010000
+Epoch 245, weight, value: tensor([[ 0.0284, -0.1524, -0.1298,  ..., -0.2885, -0.0986, -0.1330],
+        [ 0.0442, -0.0673,  0.0374,  ...,  0.0515,  0.0997, -0.0420],
+        [-0.0698,  0.1230, -0.1629,  ...,  0.0615,  0.0756, -0.0428],
+        ...,
+        [-0.0728, -0.0878, -0.0810,  ...,  0.0054, -0.1629,  0.1263],
+        [ 0.0618, -0.0245,  0.0755,  ...,  0.0043, -0.1952, -0.0103],
+        [-0.1713, -0.0774, -0.0969,  ..., -0.1901,  0.0495, -0.1015]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.0245e-08,  ...,  1.3970e-08,
+          1.2107e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.5739e-07,  ..., -2.5705e-07,
+         -6.2957e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.9639e-07,  ...,  7.7020e-07,
+          4.0606e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.3621e-07,  ...,  5.8580e-07,
+          3.0361e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -6.8918e-08,  ..., -1.8626e-09,
+          2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.9360e-08,  ...,  6.5193e-08,
+          3.9116e-08,  0.0000e+00]], device='cuda:0')
+Epoch 245, bias, value: tensor([-0.0048, -0.0350,  0.0094, -0.0238,  0.0191,  0.0173,  0.0248,  0.0025,
+        -0.0376, -0.0092], device='cuda:0'), grad: tensor([ 4.9360e-08, -6.6217e-07,  2.4624e-06, -4.3735e-06, -9.1270e-08,
+         9.7603e-07,  3.2783e-07,  1.2843e-06, -2.3656e-07,  2.4959e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 244, time 247.62, cls_loss 0.0014 cls_loss_mapping 0.0028 cls_loss_causal 0.4438 re_mapping 0.0052 re_causal 0.0147 /// teacc 99.05 lr 0.00010000
+Epoch 246, weight, value: tensor([[ 0.0284, -0.1521, -0.1300,  ..., -0.2886, -0.0986, -0.1331],
+        [ 0.0442, -0.0673,  0.0373,  ...,  0.0511,  0.0998, -0.0440],
+        [-0.0701,  0.1230, -0.1630,  ...,  0.0614,  0.0756, -0.0434],
+        ...,
+        [-0.0723, -0.0880, -0.0809,  ...,  0.0058, -0.1631,  0.1282],
+        [ 0.0618, -0.0246,  0.0781,  ...,  0.0044, -0.1954, -0.0103],
+        [-0.1716, -0.0785, -0.0973,  ..., -0.1907,  0.0494, -0.1017]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-08,  1.2107e-08,  ...,  1.3039e-08,
+          4.3772e-08,  0.0000e+00],
+        [ 0.0000e+00, -4.5449e-07, -1.2936e-06,  ..., -1.7146e-06,
+         -2.6803e-06,  0.0000e+00],
+        [ 0.0000e+00,  1.7695e-07,  7.3481e-07,  ...,  8.9779e-07,
+          1.3504e-06,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  2.3749e-07,  3.5390e-07,  ...,  5.9698e-07,
+          8.1398e-07,  0.0000e+00],
+        [ 0.0000e+00, -1.8626e-09, -2.2352e-08,  ...,  1.4901e-08,
+          3.9116e-08,  0.0000e+00],
+        [ 0.0000e+00,  7.4506e-09,  8.3819e-09,  ...,  6.5193e-09,
+         -5.0589e-06,  0.0000e+00]], device='cuda:0')
+Epoch 246, bias, value: tensor([-0.0050, -0.0354,  0.0093, -0.0238,  0.0193,  0.0169,  0.0244,  0.0029,
+        -0.0354, -0.0095], device='cuda:0'), grad: tensor([-4.6007e-06, -5.2266e-06,  2.9169e-06,  7.1712e-08,  9.1493e-06,
+         1.7975e-07,  1.3448e-06,  1.6689e-06,  3.1777e-06, -8.7246e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 245, time 247.87, cls_loss 0.0015 cls_loss_mapping 0.0029 cls_loss_causal 0.5163 re_mapping 0.0052 re_causal 0.0154 /// teacc 98.97 lr 0.00010000
+Epoch 247, weight, value: tensor([[ 0.0283, -0.1525, -0.1310,  ..., -0.2893, -0.0987, -0.1333],
+        [ 0.0446, -0.0677,  0.0373,  ...,  0.0510,  0.0998, -0.0440],
+        [-0.0702,  0.1256, -0.1631,  ...,  0.0617,  0.0761, -0.0435],
+        ...,
+        [-0.0706, -0.0913, -0.0809,  ...,  0.0056, -0.1645,  0.1282],
+        [ 0.0614, -0.0251,  0.0780,  ...,  0.0043, -0.1959, -0.0103],
+        [-0.1737, -0.0789, -0.0994,  ..., -0.1920,  0.0494, -0.1017]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  6.5193e-09,  5.2154e-08,  ...,  7.0781e-08,
+          8.1025e-08,  0.0000e+00],
+        [ 0.0000e+00,  2.4214e-08,  2.7940e-08,  ...,  5.3085e-08,
+          2.8871e-08,  0.0000e+00],
+        [ 0.0000e+00, -8.3912e-07,  1.0524e-07,  ..., -9.2294e-07,
+         -1.3364e-06,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.4901e-08,  4.8429e-08,  ...,  1.7509e-07,
+          2.2259e-07,  0.0000e+00],
+        [ 0.0000e+00,  7.7207e-07, -1.1176e-08,  ...,  5.7742e-07,
+          8.4843e-07,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  1.3411e-07,  ...,  5.1223e-08,
+          1.2107e-08,  0.0000e+00]], device='cuda:0')
+Epoch 247, bias, value: tensor([-0.0050, -0.0354,  0.0096, -0.0236,  0.0195,  0.0168,  0.0243,  0.0028,
+        -0.0357, -0.0098], device='cuda:0'), grad: tensor([ 3.7067e-07,  2.1327e-07, -3.2298e-06, -1.7546e-06,  1.8626e-09,
+         4.2003e-07,  3.0920e-07,  4.8615e-07,  2.6524e-06,  5.3458e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 246, time 247.66, cls_loss 0.0013 cls_loss_mapping 0.0018 cls_loss_causal 0.4771 re_mapping 0.0054 re_causal 0.0150 /// teacc 98.99 lr 0.00010000
+Epoch 248, weight, value: tensor([[ 0.0286, -0.1526, -0.1312,  ..., -0.2896, -0.0989, -0.1334],
+        [ 0.0446, -0.0679,  0.0374,  ...,  0.0510,  0.0998, -0.0443],
+        [-0.0703,  0.1257, -0.1633,  ...,  0.0617,  0.0761, -0.0434],
+        ...,
+        [-0.0705, -0.0912, -0.0809,  ...,  0.0057, -0.1645,  0.1284],
+        [ 0.0614, -0.0253,  0.0780,  ...,  0.0043, -0.1961, -0.0104],
+        [-0.1739, -0.0790, -0.0997,  ..., -0.1924,  0.0495, -0.1018]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  4.6566e-09,  5.5879e-09,  ...,  1.7695e-08,
+          2.9802e-08,  9.3132e-10],
+        [ 9.3132e-10,  2.9709e-07, -7.7561e-06,  ..., -1.7762e-05,
+         -2.1294e-05,  0.0000e+00],
+        [-6.7987e-08, -5.0757e-07,  1.7537e-06,  ...,  3.6787e-06,
+          3.8594e-06,  0.0000e+00],
+        ...,
+        [ 7.4506e-09,  1.3039e-08,  5.8077e-06,  ...,  1.3448e-05,
+          1.6436e-05,  0.0000e+00],
+        [ 9.3132e-10,  4.6566e-09, -4.3772e-08,  ..., -1.3039e-08,
+          2.7008e-08,  0.0000e+00],
+        [ 0.0000e+00,  1.3597e-07,  3.3528e-08,  ...,  1.0338e-07,
+          3.3807e-07,  0.0000e+00]], device='cuda:0')
+Epoch 248, bias, value: tensor([-0.0052, -0.0355,  0.0095, -0.0235,  0.0196,  0.0167,  0.0244,  0.0029,
+        -0.0358, -0.0099], device='cuda:0'), grad: tensor([ 6.3330e-08, -5.2005e-05,  1.0028e-05,  8.7451e-07,  1.5553e-07,
+        -7.1898e-07,  2.6356e-07,  3.9786e-05,  2.8592e-07,  1.2787e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 247, time 247.79, cls_loss 0.0015 cls_loss_mapping 0.0031 cls_loss_causal 0.5515 re_mapping 0.0053 re_causal 0.0161 /// teacc 99.01 lr 0.00010000
+Epoch 249, weight, value: tensor([[ 0.0291, -0.1526, -0.1314,  ..., -0.2914, -0.0991, -0.1335],
+        [ 0.0446, -0.0679,  0.0375,  ...,  0.0510,  0.1000, -0.0443],
+        [-0.0706,  0.1256, -0.1635,  ...,  0.0616,  0.0761, -0.0435],
+        ...,
+        [-0.0701, -0.0910, -0.0810,  ...,  0.0057, -0.1652,  0.1284],
+        [ 0.0615, -0.0251,  0.0782,  ...,  0.0046, -0.1962, -0.0103],
+        [-0.1760, -0.0803, -0.1014,  ..., -0.1938,  0.0495, -0.1018]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.1176e-08,  6.4261e-08,  ...,  3.1665e-08,
+          2.7008e-08,  0.0000e+00],
+        [ 0.0000e+00,  4.1444e-07, -1.0632e-05,  ..., -2.0154e-06,
+         -4.8429e-07,  0.0000e+00],
+        [ 0.0000e+00, -3.5483e-07,  2.7288e-07,  ...,  3.2596e-08,
+         -8.5961e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.6764e-08,  2.7381e-07,  ...,  1.3039e-08,
+          9.3132e-08,  0.0000e+00],
+        [ 0.0000e+00, -1.1828e-07,  5.0887e-06,  ...,  1.1893e-06,
+          5.3924e-07,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-09,  2.9802e-07,  ...,  1.3690e-07,
+         -8.9407e-08,  0.0000e+00]], device='cuda:0')
+Epoch 249, bias, value: tensor([-0.0054, -0.0354,  0.0093, -0.0234,  0.0200,  0.0166,  0.0243,  0.0030,
+        -0.0357, -0.0101], device='cuda:0'), grad: tensor([ 2.0489e-07, -2.9474e-05, -2.4587e-07, -5.1484e-06,  8.3912e-07,
+         1.3739e-05,  5.6997e-06,  5.0385e-07,  1.3284e-05,  5.5693e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 248, time 247.63, cls_loss 0.0011 cls_loss_mapping 0.0022 cls_loss_causal 0.4958 re_mapping 0.0051 re_causal 0.0159 /// teacc 99.02 lr 0.00010000
+Epoch 250, weight, value: tensor([[ 0.0292, -0.1528, -0.1314,  ..., -0.2916, -0.0991, -0.1335],
+        [ 0.0447, -0.0679,  0.0375,  ...,  0.0510,  0.1001, -0.0443],
+        [-0.0706,  0.1257, -0.1637,  ...,  0.0616,  0.0761, -0.0435],
+        ...,
+        [-0.0701, -0.0912, -0.0810,  ...,  0.0058, -0.1655,  0.1285],
+        [ 0.0615, -0.0253,  0.0782,  ...,  0.0044, -0.1965, -0.0103],
+        [-0.1762, -0.0805, -0.1019,  ..., -0.1946,  0.0496, -0.1018]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  8.3819e-09,  1.0245e-08,  ...,  1.5832e-08,
+          8.5682e-08,  0.0000e+00],
+        [ 0.0000e+00,  2.1420e-07, -3.5483e-07,  ...,  2.9244e-07,
+          2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00, -2.7381e-07,  3.3528e-08,  ..., -4.5076e-07,
+         -4.4517e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  3.1665e-08, -2.7008e-08,  ..., -3.7253e-08,
+          7.3574e-08,  0.0000e+00],
+        [ 0.0000e+00,  8.3819e-09,  2.2352e-08,  ...,  2.0489e-08,
+          8.0094e-08,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  4.4703e-08,  ...,  8.4750e-08,
+          5.4855e-07,  0.0000e+00]], device='cuda:0')
+Epoch 250, bias, value: tensor([-0.0052, -0.0354,  0.0093, -0.0232,  0.0200,  0.0163,  0.0242,  0.0031,
+        -0.0359, -0.0105], device='cuda:0'), grad: tensor([ 2.4028e-07,  2.0396e-07, -1.0524e-06,  4.3213e-07, -2.7157e-06,
+        -5.9083e-06,  7.5772e-06, -4.3660e-06,  7.8417e-07,  4.7982e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 249, time 247.53, cls_loss 0.0010 cls_loss_mapping 0.0019 cls_loss_causal 0.4918 re_mapping 0.0052 re_causal 0.0158 /// teacc 99.07 lr 0.00010000
+Epoch 251, weight, value: tensor([[ 0.0292, -0.1529, -0.1317,  ..., -0.2918, -0.0992, -0.1335],
+        [ 0.0449, -0.0678,  0.0375,  ...,  0.0509,  0.1005, -0.0443],
+        [-0.0707,  0.1258, -0.1639,  ...,  0.0615,  0.0761, -0.0444],
+        ...,
+        [-0.0701, -0.0913, -0.0809,  ...,  0.0060, -0.1662,  0.1286],
+        [ 0.0615, -0.0253,  0.0783,  ...,  0.0045, -0.1966, -0.0103],
+        [-0.1763, -0.0808, -0.1025,  ..., -0.1951,  0.0495, -0.1018]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.7940e-09,  3.7253e-09,  ...,  3.7253e-09,
+          1.3039e-08,  0.0000e+00],
+        [-3.7253e-09,  1.8626e-09, -7.2177e-07,  ..., -4.0140e-07,
+         -1.4137e-06,  9.3132e-10],
+        [ 0.0000e+00, -3.4459e-08,  5.2806e-07,  ...,  2.9523e-07,
+          1.0217e-06,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  2.1420e-08,  4.3772e-08,  ...,  2.5146e-08,
+          1.0990e-07, -9.3132e-10],
+        [ 0.0000e+00,  5.5879e-09, -1.4901e-08,  ..., -6.5193e-09,
+          2.8871e-08,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  1.5832e-08,  ...,  1.0245e-08,
+         -7.4506e-08,  0.0000e+00]], device='cuda:0')
+Epoch 251, bias, value: tensor([-0.0054, -0.0354,  0.0092, -0.0232,  0.0201,  0.0164,  0.0241,  0.0031,
+        -0.0359, -0.0107], device='cuda:0'), grad: tensor([-4.2990e-06, -2.1532e-06,  1.5777e-06,  5.7742e-08,  3.9581e-07,
+         3.6731e-06,  7.5158e-07,  2.6450e-07,  1.3039e-08, -2.8498e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 250, time 247.54, cls_loss 0.0010 cls_loss_mapping 0.0015 cls_loss_causal 0.5049 re_mapping 0.0051 re_causal 0.0160 /// teacc 99.02 lr 0.00010000
+Epoch 252, weight, value: tensor([[ 0.0290, -0.1535, -0.1328,  ..., -0.2924, -0.0993, -0.1335],
+        [ 0.0449, -0.0679,  0.0376,  ...,  0.0509,  0.1006, -0.0443],
+        [-0.0706,  0.1260, -0.1639,  ...,  0.0615,  0.0761, -0.0444],
+        ...,
+        [-0.0701, -0.0914, -0.0809,  ...,  0.0060, -0.1667,  0.1287],
+        [ 0.0615, -0.0255,  0.0784,  ...,  0.0044, -0.1966, -0.0103],
+        [-0.1764, -0.0811, -0.1035,  ..., -0.1954,  0.0499, -0.1019]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.0489e-08,  ...,  1.0245e-08,
+          2.4382e-06,  9.3132e-10],
+        [-0.0000e+00,  0.0000e+00,  2.2445e-06,  ...,  2.1663e-06,
+         -1.7323e-07,  2.4214e-07],
+        [ 0.0000e+00,  0.0000e+00,  3.9116e-08,  ...,  2.7940e-08,
+          1.4901e-08,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -3.4440e-06,  ..., -3.1460e-06,
+          7.1712e-08, -3.4273e-07],
+        [ 0.0000e+00,  0.0000e+00,  7.0315e-07,  ...,  6.2492e-07,
+          3.4459e-08,  6.7055e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.1921e-07,  ...,  1.0245e-07,
+         -2.4885e-06,  1.0245e-08]], device='cuda:0')
+Epoch 252, bias, value: tensor([-0.0057, -0.0354,  0.0092, -0.0230,  0.0196,  0.0163,  0.0242,  0.0031,
+        -0.0359, -0.0102], device='cuda:0'), grad: tensor([ 5.0105e-06,  1.2785e-05,  1.9185e-07,  7.5623e-07,  3.7719e-07,
+         5.9605e-08,  2.6636e-07, -1.8418e-05,  3.8333e-06, -4.8354e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 251, time 247.69, cls_loss 0.0010 cls_loss_mapping 0.0022 cls_loss_causal 0.5013 re_mapping 0.0049 re_causal 0.0151 /// teacc 99.04 lr 0.00010000
+Epoch 253, weight, value: tensor([[ 0.0290, -0.1532, -0.1328,  ..., -0.2925, -0.0994, -0.1337],
+        [ 0.0449, -0.0673,  0.0377,  ...,  0.0510,  0.1009, -0.0443],
+        [-0.0706,  0.1258, -0.1643,  ...,  0.0615,  0.0760, -0.0444],
+        ...,
+        [-0.0701, -0.0915, -0.0810,  ...,  0.0059, -0.1672,  0.1288],
+        [ 0.0616, -0.0254,  0.0786,  ...,  0.0045, -0.1967, -0.0104],
+        [-0.1765, -0.0815, -0.1040,  ..., -0.1957,  0.0499, -0.1019]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  3.7253e-09,  9.3132e-09,  ...,  9.3132e-09,
+          3.6322e-08,  1.8626e-09],
+        [ 1.4901e-08,  1.8626e-09, -1.1828e-07,  ..., -5.3085e-08,
+         -1.4994e-07,  1.1176e-08],
+        [ 2.7940e-09, -5.0291e-08,  5.5879e-09,  ..., -2.7940e-08,
+          2.7940e-09,  1.8626e-09],
+        ...,
+        [-4.0047e-08,  3.9116e-08,  5.5879e-08,  ..., -4.1910e-08,
+          1.4156e-07, -2.9802e-08],
+        [ 9.3132e-10,  2.7940e-09, -0.0000e+00,  ...,  4.0978e-08,
+          5.4017e-08,  9.3132e-10],
+        [ 1.7695e-08,  9.3132e-10,  1.2107e-08,  ...,  2.7008e-08,
+          8.8383e-07,  1.3039e-08]], device='cuda:0')
+Epoch 253, bias, value: tensor([-0.0051, -0.0353,  0.0091, -0.0230,  0.0197,  0.0162,  0.0240,  0.0030,
+        -0.0356, -0.0105], device='cuda:0'), grad: tensor([-4.6909e-05,  5.0664e-07,  4.6827e-06,  4.9844e-06, -6.1616e-06,
+         6.3106e-06,  6.6124e-07,  9.4343e-07,  6.8732e-07,  3.4273e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 252, time 247.50, cls_loss 0.0013 cls_loss_mapping 0.0016 cls_loss_causal 0.4568 re_mapping 0.0050 re_causal 0.0146 /// teacc 99.00 lr 0.00010000
+Epoch 254, weight, value: tensor([[ 0.0289, -0.1536, -0.1329,  ..., -0.2928, -0.0997, -0.1338],
+        [ 0.0449, -0.0674,  0.0381,  ...,  0.0516,  0.1014, -0.0444],
+        [-0.0706,  0.1260, -0.1644,  ...,  0.0615,  0.0761, -0.0445],
+        ...,
+        [-0.0701, -0.0917, -0.0814,  ...,  0.0053, -0.1693,  0.1310],
+        [ 0.0619, -0.0256,  0.0790,  ...,  0.0046, -0.1968, -0.0104],
+        [-0.1793, -0.0833, -0.1070,  ..., -0.1970,  0.0503, -0.1048]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  3.1106e-07,  5.5879e-09,  ...,  3.9488e-07,
+          4.5635e-08,  0.0000e+00],
+        [ 0.0000e+00,  6.5193e-09, -9.6858e-08,  ..., -3.2596e-08,
+         -6.7987e-08,  0.0000e+00],
+        [ 0.0000e+00, -1.0841e-06,  4.0978e-08,  ..., -1.3346e-06,
+         -2.9709e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  4.9081e-07,  6.3330e-08,  ...,  6.4354e-07,
+          1.5460e-07,  0.0000e+00],
+        [ 0.0000e+00,  3.3528e-08, -8.3819e-08,  ..., -3.7253e-09,
+          1.2293e-07,  0.0000e+00],
+        [ 0.0000e+00,  5.6811e-08,  4.6566e-09,  ...,  6.2399e-08,
+          6.9849e-08,  0.0000e+00]], device='cuda:0')
+Epoch 254, bias, value: tensor([-0.0043, -0.0348,  0.0091, -0.0225,  0.0192,  0.0155,  0.0239,  0.0031,
+        -0.0353, -0.0131], device='cuda:0'), grad: tensor([ 1.1222e-06, -1.0338e-07, -3.7383e-06,  6.7893e-07, -1.2387e-07,
+         1.7695e-08, -5.0291e-08,  1.8533e-06,  1.0151e-07,  2.4494e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 253, time 247.61, cls_loss 0.0012 cls_loss_mapping 0.0019 cls_loss_causal 0.4813 re_mapping 0.0050 re_causal 0.0153 /// teacc 98.97 lr 0.00010000
+Epoch 255, weight, value: tensor([[ 0.0289, -0.1546, -0.1331,  ..., -0.2933, -0.0999, -0.1338],
+        [ 0.0454, -0.0674,  0.0382,  ...,  0.0516,  0.1015, -0.0445],
+        [-0.0707,  0.1262, -0.1644,  ...,  0.0615,  0.0765, -0.0448],
+        ...,
+        [-0.0702, -0.0916, -0.0815,  ...,  0.0052, -0.1698,  0.1311],
+        [ 0.0619, -0.0260,  0.0790,  ...,  0.0045, -0.1972, -0.0104],
+        [-0.1794, -0.0840, -0.1076,  ..., -0.1982,  0.0504, -0.1048]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  5.8673e-08,  ...,  5.7742e-08,
+          9.4064e-08,  0.0000e+00],
+        [-1.8626e-09,  1.8626e-09,  3.5111e-07,  ...,  3.5577e-07,
+         -4.8708e-07,  5.5879e-09],
+        [ 0.0000e+00, -5.4948e-08,  3.5577e-07,  ...,  1.0058e-07,
+         -1.4249e-07,  9.3132e-10],
+        ...,
+        [ 9.3132e-10,  7.4506e-09,  1.7695e-07,  ...,  5.1223e-08,
+          1.4808e-07, -1.3039e-08],
+        [ 0.0000e+00,  2.7008e-08, -1.1437e-06,  ..., -7.7486e-07,
+          6.8918e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-08,  ...,  2.5146e-08,
+          2.3283e-08,  4.6566e-09]], device='cuda:0')
+Epoch 255, bias, value: tensor([-0.0046, -0.0348,  0.0093, -0.0225,  0.0175,  0.0156,  0.0240,  0.0031,
+        -0.0356, -0.0125], device='cuda:0'), grad: tensor([ 2.1234e-07,  2.1886e-06,  8.2236e-07,  1.2293e-07,  9.0338e-08,
+         9.0338e-08,  3.3900e-07,  2.5798e-07, -4.2766e-06,  1.3504e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 254, time 247.86, cls_loss 0.0014 cls_loss_mapping 0.0024 cls_loss_causal 0.5293 re_mapping 0.0049 re_causal 0.0152 /// teacc 99.01 lr 0.00010000
+Epoch 256, weight, value: tensor([[ 0.0291, -0.1551, -0.1341,  ..., -0.2936, -0.1000, -0.1341],
+        [ 0.0456, -0.0673,  0.0385,  ...,  0.0521,  0.1020, -0.0447],
+        [-0.0707,  0.1261, -0.1648,  ...,  0.0614,  0.0765, -0.0457],
+        ...,
+        [-0.0702, -0.0918, -0.0818,  ...,  0.0048, -0.1712,  0.1310],
+        [ 0.0619, -0.0261,  0.0792,  ...,  0.0048, -0.1975, -0.0096],
+        [-0.1797, -0.0845, -0.1080,  ..., -0.1992,  0.0511, -0.1049]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.5832e-08,  4.6566e-09,  ...,  2.3283e-08,
+          2.9802e-07,  0.0000e+00],
+        [-4.6566e-09,  2.2352e-08, -1.1176e-07,  ...,  3.7253e-08,
+         -2.4214e-08,  7.4506e-09],
+        [ 9.3132e-10, -1.6019e-07,  2.4214e-08,  ..., -2.0023e-07,
+         -4.1816e-07,  9.3132e-10],
+        ...,
+        [ 1.8626e-09,  2.2352e-08,  3.7253e-08,  ..., -2.9802e-08,
+          9.6858e-08, -1.8626e-08],
+        [ 0.0000e+00,  1.9558e-08,  1.8626e-09,  ...,  2.1420e-08,
+          1.8161e-07,  9.3132e-10],
+        [ 9.3132e-10,  1.1176e-08,  1.1176e-08,  ...,  2.1420e-08,
+         -8.4750e-08,  9.3132e-10]], device='cuda:0')
+Epoch 256, bias, value: tensor([-0.0049, -0.0345,  0.0091, -0.0223,  0.0162,  0.0158,  0.0238,  0.0028,
+        -0.0355, -0.0121], device='cuda:0'), grad: tensor([ 6.2771e-07,  1.0524e-07, -7.0408e-07,  6.3144e-07,  5.4855e-07,
+         2.9989e-07, -1.6121e-06,  1.2852e-07,  6.1654e-07, -6.2305e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 255, time 247.95, cls_loss 0.0016 cls_loss_mapping 0.0022 cls_loss_causal 0.4694 re_mapping 0.0052 re_causal 0.0152 /// teacc 98.99 lr 0.00010000
+Epoch 257, weight, value: tensor([[ 0.0292, -0.1557, -0.1342,  ..., -0.2941, -0.1024, -0.1342],
+        [ 0.0457, -0.0673,  0.0385,  ...,  0.0516,  0.1015, -0.0448],
+        [-0.0705,  0.1264, -0.1650,  ...,  0.0613,  0.0765, -0.0463],
+        ...,
+        [-0.0703, -0.0919, -0.0818,  ...,  0.0055, -0.1708,  0.1312],
+        [ 0.0619, -0.0264,  0.0794,  ...,  0.0047, -0.1977, -0.0097],
+        [-0.1799, -0.0850, -0.1081,  ..., -0.1997,  0.0531, -0.1049]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.7940e-09,  1.3970e-08,  ...,  1.0245e-08,
+          3.0734e-08,  0.0000e+00],
+        [-2.0489e-08,  3.8184e-08, -1.6391e-07,  ...,  6.4261e-08,
+         -1.0803e-07,  4.6566e-09],
+        [ 9.3132e-10, -1.2666e-07,  1.7695e-07,  ..., -5.5879e-08,
+         -1.8626e-07,  0.0000e+00],
+        ...,
+        [ 5.5879e-09,  1.0245e-08,  1.3225e-07,  ...,  2.6077e-08,
+          1.0990e-07, -1.2107e-08],
+        [ 9.3132e-10,  5.8673e-08, -1.3970e-08,  ...,  7.9162e-08,
+          1.5926e-07,  9.3132e-10],
+        [ 1.1176e-08,  9.3132e-10,  1.6112e-07,  ...,  4.5635e-08,
+         -2.3525e-06,  3.7253e-09]], device='cuda:0')
+Epoch 257, bias, value: tensor([-0.0072, -0.0348,  0.0090, -0.0223,  0.0164,  0.0157,  0.0241,  0.0032,
+        -0.0356, -0.0103], device='cuda:0'), grad: tensor([-1.5711e-06, -1.4901e-08,  4.2841e-08,  2.4252e-06,  8.5831e-06,
+        -2.6524e-06, -1.5441e-06,  3.6135e-07,  1.1018e-06, -6.7130e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 256, time 247.97, cls_loss 0.0016 cls_loss_mapping 0.0025 cls_loss_causal 0.4910 re_mapping 0.0053 re_causal 0.0151 /// teacc 99.06 lr 0.00010000
+Epoch 258, weight, value: tensor([[ 0.0290, -0.1585, -0.1346,  ..., -0.2946, -0.1028, -0.1343],
+        [ 0.0457, -0.0676,  0.0382,  ...,  0.0512,  0.1015, -0.0450],
+        [-0.0705,  0.1270, -0.1652,  ...,  0.0614,  0.0768, -0.0465],
+        ...,
+        [-0.0704, -0.0925, -0.0814,  ...,  0.0059, -0.1715,  0.1314],
+        [ 0.0617, -0.0251,  0.0798,  ...,  0.0045, -0.1985, -0.0100],
+        [-0.1800, -0.0856, -0.1086,  ..., -0.2001,  0.0531, -0.1049]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  1.3970e-08,  7.6368e-08,  ...,  7.3574e-08,
+          4.7497e-08,  0.0000e+00],
+        [ 9.3132e-09,  6.5193e-09, -1.9651e-07,  ...,  1.7695e-08,
+         -1.5832e-07,  0.0000e+00],
+        [ 1.8626e-09, -2.2259e-07,  2.5798e-07,  ...,  1.4901e-08,
+         -6.6124e-07,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  4.0978e-08,  1.5367e-07,  ...,  9.3132e-09,
+          2.5053e-07, -0.0000e+00],
+        [ 2.7940e-09, -7.3574e-08, -2.4773e-07,  ...,  2.3283e-08,
+         -7.9162e-08,  0.0000e+00],
+        [ 1.8626e-09,  7.5437e-08,  2.3842e-07,  ...,  4.9360e-08,
+          1.6298e-07,  0.0000e+00]], device='cuda:0')
+Epoch 258, bias, value: tensor([-0.0075, -0.0353,  0.0091, -0.0222,  0.0158,  0.0152,  0.0252,  0.0035,
+        -0.0356, -0.0104], device='cuda:0'), grad: tensor([ 2.3749e-07, -1.6578e-07, -1.7425e-06, -8.7358e-07,  5.0571e-07,
+        -3.4459e-08,  1.0561e-06,  6.6590e-07, -7.8604e-07,  1.1306e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 257, time 247.83, cls_loss 0.0017 cls_loss_mapping 0.0036 cls_loss_causal 0.4669 re_mapping 0.0053 re_causal 0.0149 /// teacc 99.09 lr 0.00010000
+Epoch 259, weight, value: tensor([[ 0.0289, -0.1581, -0.1336,  ..., -0.2953, -0.1034, -0.1355],
+        [ 0.0462, -0.0677,  0.0382,  ...,  0.0512,  0.1015, -0.0452],
+        [-0.0706,  0.1275, -0.1655,  ...,  0.0614,  0.0772, -0.0458],
+        ...,
+        [-0.0705, -0.0928, -0.0814,  ...,  0.0059, -0.1720,  0.1316],
+        [ 0.0612, -0.0256,  0.0776,  ...,  0.0042, -0.2022, -0.0102],
+        [-0.1802, -0.0868, -0.1100,  ..., -0.2014,  0.0532, -0.1049]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.7695e-08, -4.2506e-06,  ...,  4.1910e-08,
+         -4.9397e-06,  0.0000e+00],
+        [ 8.3819e-09,  1.2852e-07,  9.0897e-07,  ...,  1.6019e-07,
+          1.3076e-06,  0.0000e+00],
+        [ 0.0000e+00, -1.1083e-07,  1.2154e-06,  ..., -1.3504e-07,
+          5.8021e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  5.5879e-09,  6.7055e-08,  ...,  3.2596e-08,
+          6.6124e-08, -0.0000e+00],
+        [ 0.0000e+00, -1.1828e-07, -1.8664e-06,  ..., -2.7567e-07,
+          5.1223e-08,  0.0000e+00],
+        [ 9.3132e-10,  7.4506e-09,  1.3225e-07,  ...,  1.9558e-08,
+          3.8184e-08,  0.0000e+00]], device='cuda:0')
+Epoch 259, bias, value: tensor([-0.0076, -0.0353,  0.0091, -0.0219,  0.0157,  0.0147,  0.0268,  0.0035,
+        -0.0385, -0.0103], device='cuda:0'), grad: tensor([-3.5793e-05,  8.3074e-06,  6.6459e-06,  1.3746e-06, -1.4417e-06,
+         5.8673e-08,  2.3410e-05,  1.7136e-07, -3.1590e-06,  4.2748e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 258, time 247.53, cls_loss 0.0013 cls_loss_mapping 0.0024 cls_loss_causal 0.5049 re_mapping 0.0050 re_causal 0.0156 /// teacc 99.10 lr 0.00010000
+Epoch 260, weight, value: tensor([[ 0.0289, -0.1609, -0.1341,  ..., -0.2957, -0.1035, -0.1356],
+        [ 0.0466, -0.0679,  0.0385,  ...,  0.0517,  0.1018, -0.0461],
+        [-0.0706,  0.1285, -0.1657,  ...,  0.0616,  0.0773, -0.0461],
+        ...,
+        [-0.0707, -0.0941, -0.0817,  ...,  0.0052, -0.1728,  0.1322],
+        [ 0.0612, -0.0231,  0.0776,  ...,  0.0040, -0.2024, -0.0102],
+        [-0.1804, -0.0883, -0.1106,  ..., -0.2026,  0.0529, -0.1050]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.7940e-09,  6.5193e-09,  ...,  7.4506e-09,
+          6.0499e-06,  0.0000e+00],
+        [ 0.0000e+00,  2.0023e-08,  9.3132e-09,  ...,  4.5169e-08,
+          1.6065e-07,  0.0000e+00],
+        [ 4.6566e-10, -1.8943e-06,  9.0804e-08,  ..., -3.1739e-06,
+         -2.0415e-06,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.8282e-06,  2.8871e-08,  ...,  3.1497e-06,
+          2.3134e-06,  0.0000e+00],
+        [ 4.6566e-10,  1.8626e-08,  4.9826e-08,  ...,  5.1223e-08,
+          4.2701e-07,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  2.7940e-09,  ...,  3.7253e-09,
+          3.1013e-07,  0.0000e+00]], device='cuda:0')
+Epoch 260, bias, value: tensor([-0.0074, -0.0350,  0.0092, -0.0218,  0.0161,  0.0148,  0.0267,  0.0032,
+        -0.0387, -0.0107], device='cuda:0'), grad: tensor([ 2.2292e-05,  6.7893e-07, -9.0152e-06, -3.6741e-07,  4.8392e-06,
+         1.1921e-06, -3.2991e-05,  1.0371e-05,  1.7099e-06,  1.2629e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 259, time 247.95, cls_loss 0.0011 cls_loss_mapping 0.0022 cls_loss_causal 0.5100 re_mapping 0.0049 re_causal 0.0149 /// teacc 99.04 lr 0.00010000
+Epoch 261, weight, value: tensor([[ 0.0294, -0.1612, -0.1341,  ..., -0.2969, -0.1035, -0.1360],
+        [ 0.0467, -0.0683,  0.0387,  ...,  0.0518,  0.1019, -0.0461],
+        [-0.0710,  0.1289, -0.1662,  ...,  0.0616,  0.0775, -0.0463],
+        ...,
+        [-0.0708, -0.0945, -0.0819,  ...,  0.0049, -0.1738,  0.1322],
+        [ 0.0612, -0.0232,  0.0777,  ...,  0.0039, -0.2026, -0.0103],
+        [-0.1807, -0.0888, -0.1111,  ..., -0.2027,  0.0528, -0.1050]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.3970e-09,  1.2293e-07,  ...,  8.0559e-08,
+          1.3225e-07,  0.0000e+00],
+        [ 4.6566e-10,  1.3970e-09, -1.2564e-06,  ..., -8.5449e-07,
+         -1.3309e-06,  0.0000e+00],
+        [ 3.7253e-09, -1.7229e-08,  5.4995e-07,  ...,  4.2748e-07,
+          6.2492e-07,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  1.2107e-08,  2.7521e-07,  ...,  9.6858e-08,
+          2.6869e-07,  0.0000e+00],
+        [ 3.2596e-09,  1.8626e-09,  6.0536e-08,  ...,  5.4948e-08,
+          1.2433e-07,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  5.0291e-08,  ...,  4.0047e-08,
+          4.9360e-08,  0.0000e+00]], device='cuda:0')
+Epoch 261, bias, value: tensor([-0.0072, -0.0349,  0.0092, -0.0205,  0.0165,  0.0131,  0.0267,  0.0030,
+        -0.0388, -0.0109], device='cuda:0'), grad: tensor([ 3.1386e-07, -2.6729e-06,  1.3392e-06, -5.2620e-08, -1.7695e-08,
+         3.4180e-07, -3.8464e-07,  4.3120e-07,  4.4284e-07,  2.7148e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 260, time 247.75, cls_loss 0.0013 cls_loss_mapping 0.0030 cls_loss_causal 0.5037 re_mapping 0.0047 re_causal 0.0141 /// teacc 99.12 lr 0.00010000
+Epoch 262, weight, value: tensor([[ 0.0304, -0.1614, -0.1340,  ..., -0.2977, -0.1038, -0.1361],
+        [ 0.0466, -0.0685,  0.0389,  ...,  0.0520,  0.1021, -0.0461],
+        [-0.0713,  0.1299, -0.1665,  ...,  0.0617,  0.0777, -0.0464],
+        ...,
+        [-0.0702, -0.0949, -0.0820,  ...,  0.0049, -0.1744,  0.1323],
+        [ 0.0612, -0.0247,  0.0789,  ...,  0.0042, -0.2028, -0.0103],
+        [-0.1820, -0.0892, -0.1131,  ..., -0.2041,  0.0529, -0.1050]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  5.5879e-09,  2.8871e-08,  ...,  3.8184e-08,
+          2.6077e-08,  9.3132e-10],
+        [ 0.0000e+00,  1.6764e-08,  3.8836e-07,  ...,  1.8347e-07,
+         -4.8894e-07, -7.5437e-08],
+        [ 0.0000e+00, -8.4750e-08,  2.4028e-07,  ...,  1.8347e-07,
+         -9.3132e-10,  4.6566e-09],
+        ...,
+        [ 0.0000e+00,  5.5879e-09,  1.0151e-07,  ..., -2.5090e-06,
+          4.0978e-08,  1.8626e-09],
+        [ 0.0000e+00,  4.6566e-09, -4.0196e-06,  ..., -2.2911e-06,
+         -5.4389e-07,  9.3132e-10],
+        [ 0.0000e+00,  9.3132e-10,  2.3283e-08,  ...,  2.1979e-06,
+          3.4124e-06,  0.0000e+00]], device='cuda:0')
+Epoch 262, bias, value: tensor([-0.0069, -0.0348,  0.0093, -0.0201,  0.0169,  0.0125,  0.0263,  0.0028,
+        -0.0379, -0.0113], device='cuda:0'), grad: tensor([ 1.4342e-07,  1.0394e-06,  6.2119e-07,  2.2259e-06, -8.8662e-06,
+        -1.0207e-06,  3.8259e-06, -9.7603e-06, -6.4634e-06,  1.8224e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 261, time 247.75, cls_loss 0.0014 cls_loss_mapping 0.0024 cls_loss_causal 0.4844 re_mapping 0.0049 re_causal 0.0145 /// teacc 99.00 lr 0.00010000
+Epoch 263, weight, value: tensor([[ 0.0303, -0.1613, -0.1343,  ..., -0.2987, -0.1038, -0.1367],
+        [ 0.0464, -0.0685,  0.0392,  ...,  0.0529,  0.1027, -0.0461],
+        [-0.0714,  0.1301, -0.1674,  ...,  0.0613,  0.0775, -0.0464],
+        ...,
+        [-0.0700, -0.0950, -0.0822,  ...,  0.0043, -0.1758,  0.1323],
+        [ 0.0612, -0.0251,  0.0791,  ...,  0.0043, -0.2030, -0.0103],
+        [-0.1822, -0.0909, -0.1141,  ..., -0.2047,  0.0530, -0.1049]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  3.7253e-09,  6.5193e-09,  ...,  4.6566e-08,
+          4.0978e-08,  0.0000e+00],
+        [ 0.0000e+00,  1.0245e-08, -1.1493e-06,  ..., -8.1304e-07,
+         -6.7335e-07,  0.0000e+00],
+        [ 0.0000e+00,  6.2212e-07,  2.6077e-08,  ...,  1.9278e-06,
+         -1.7136e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -8.3074e-07,  1.0813e-06,  ..., -1.4659e-06,
+          6.2771e-07,  0.0000e+00],
+        [ 0.0000e+00,  1.7323e-07, -1.5832e-08,  ...,  3.7253e-07,
+          1.0431e-07,  0.0000e+00],
+        [ 0.0000e+00,  5.5879e-09,  1.7695e-08,  ..., -2.4214e-07,
+         -6.7055e-08,  0.0000e+00]], device='cuda:0')
+Epoch 263, bias, value: tensor([-0.0063, -0.0345,  0.0090, -0.0198,  0.0171,  0.0126,  0.0257,  0.0026,
+        -0.0379, -0.0116], device='cuda:0'), grad: tensor([ 1.6950e-07, -2.3656e-06,  5.0515e-06,  4.7963e-07,  2.4308e-07,
+        -2.7008e-08,  2.1048e-07, -3.4422e-06,  3.5726e-06, -3.9190e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 262, time 247.56, cls_loss 0.0015 cls_loss_mapping 0.0021 cls_loss_causal 0.4889 re_mapping 0.0051 re_causal 0.0147 /// teacc 99.02 lr 0.00010000
+Epoch 264, weight, value: tensor([[ 0.0302, -0.1614, -0.1345,  ..., -0.2995, -0.1039, -0.1368],
+        [ 0.0469, -0.0686,  0.0372,  ...,  0.0504,  0.1031, -0.0463],
+        [-0.0714,  0.1304, -0.1678,  ...,  0.0613,  0.0776, -0.0465],
+        ...,
+        [-0.0700, -0.0951, -0.0801,  ...,  0.0069, -0.1763,  0.1326],
+        [ 0.0614, -0.0253,  0.0794,  ...,  0.0046, -0.2033, -0.0103],
+        [-0.1825, -0.0913, -0.1146,  ..., -0.2060,  0.0537, -0.1050]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  1.1176e-08,  ...,  9.3132e-09,
+          5.7276e-07,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10, -4.4238e-07,  ..., -5.2061e-07,
+         -2.9802e-08, -9.3132e-10],
+        [ 0.0000e+00, -8.3819e-09,  1.0058e-07,  ...,  1.0058e-07,
+          4.9267e-07,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  2.7940e-09,  3.4180e-07,  ...,  4.1537e-07,
+          9.8161e-07, -3.7253e-09],
+        [ 0.0000e+00, -9.3132e-10, -9.3132e-10,  ..., -0.0000e+00,
+          2.6077e-08,  9.3132e-10],
+        [ 0.0000e+00,  9.3132e-10,  1.2107e-08,  ...,  1.5832e-08,
+          1.0906e-06,  9.3132e-10]], device='cuda:0')
+Epoch 264, bias, value: tensor([-0.0064, -0.0367,  0.0089, -0.0198,  0.0152,  0.0124,  0.0256,  0.0049,
+        -0.0379, -0.0107], device='cuda:0'), grad: tensor([ 1.4137e-06,  6.6031e-07,  1.2554e-06, -2.0117e-07, -1.3329e-05,
+         4.6566e-08,  5.4352e-06,  1.8254e-06,  1.2480e-07,  2.7604e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 263, time 247.68, cls_loss 0.0014 cls_loss_mapping 0.0028 cls_loss_causal 0.5213 re_mapping 0.0051 re_causal 0.0153 /// teacc 99.11 lr 0.00010000
+Epoch 265, weight, value: tensor([[ 0.0301, -0.1618, -0.1347,  ..., -0.3004, -0.1041, -0.1386],
+        [ 0.0485, -0.0689,  0.0373,  ...,  0.0503,  0.1043, -0.0461],
+        [-0.0714,  0.1311, -0.1680,  ...,  0.0615,  0.0780, -0.0447],
+        ...,
+        [-0.0701, -0.0955, -0.0802,  ...,  0.0068, -0.1790,  0.1324],
+        [ 0.0613, -0.0252,  0.0803,  ...,  0.0060, -0.2035, -0.0104],
+        [-0.1828, -0.0940, -0.1163,  ..., -0.2076,  0.0535, -0.1051]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.6391e-07,  4.3772e-08,  ...,  1.5274e-07,
+          5.8394e-07,  1.8626e-09],
+        [-9.3132e-10,  3.7253e-08,  9.4064e-08,  ...,  1.4063e-07,
+          4.5635e-08,  1.8626e-09],
+        [ 0.0000e+00, -1.0217e-06,  3.3434e-07,  ..., -4.6752e-07,
+         -9.3970e-07,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  6.2957e-07,  4.3772e-08,  ...,  2.4866e-07,
+          6.3796e-07,  1.8626e-09],
+        [ 0.0000e+00,  6.0536e-08, -8.6427e-07,  ..., -3.2317e-07,
+          3.6694e-07,  9.3132e-09],
+        [ 0.0000e+00,  3.2596e-08,  4.5635e-08,  ...,  1.6298e-07,
+         -1.2014e-07, -3.7253e-09]], device='cuda:0')
+Epoch 265, bias, value: tensor([-0.0064, -0.0364,  0.0092, -0.0195,  0.0152,  0.0119,  0.0252,  0.0047,
+        -0.0373, -0.0110], device='cuda:0'), grad: tensor([ 4.1015e-06,  6.3796e-07, -2.2948e-06, -7.2829e-07,  1.6950e-07,
+         2.1651e-05, -2.6315e-05,  1.2731e-06,  1.0785e-06,  4.1258e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 264, time 247.88, cls_loss 0.0016 cls_loss_mapping 0.0021 cls_loss_causal 0.4720 re_mapping 0.0050 re_causal 0.0142 /// teacc 99.01 lr 0.00010000
+Epoch 266, weight, value: tensor([[ 0.0303, -0.1610, -0.1355,  ..., -0.3045, -0.1055, -0.1413],
+        [ 0.0486, -0.0692,  0.0373,  ...,  0.0503,  0.1045, -0.0463],
+        [-0.0714,  0.1313, -0.1687,  ...,  0.0613,  0.0779, -0.0435],
+        ...,
+        [-0.0701, -0.0957, -0.0802,  ...,  0.0069, -0.1794,  0.1336],
+        [ 0.0613, -0.0251,  0.0809,  ...,  0.0071, -0.2034, -0.0108],
+        [-0.1830, -0.0969, -0.1198,  ..., -0.2090,  0.0545, -0.1050]],
+       device='cuda:0'), grad: tensor([[-1.0617e-06,  0.0000e+00,  0.0000e+00,  ..., -6.5193e-09,
+         -1.6764e-07,  5.5879e-09],
+        [ 3.7253e-09,  2.7940e-09, -3.0734e-08,  ...,  1.4901e-08,
+         -7.4506e-09,  1.8626e-09],
+        [ 7.8231e-08, -3.7253e-09,  1.8626e-09,  ...,  2.7940e-09,
+          3.3528e-08,  1.8626e-09],
+        ...,
+        [ 9.3132e-10,  9.3132e-10,  1.0245e-08,  ..., -5.6811e-08,
+          2.8871e-08, -5.5879e-09],
+        [ 1.7695e-08,  0.0000e+00,  4.6566e-09,  ...,  1.8626e-09,
+          9.3132e-09,  9.3132e-10],
+        [ 2.4028e-07,  0.0000e+00,  2.7940e-09,  ...,  2.9802e-08,
+          4.5635e-08,  1.8626e-09]], device='cuda:0')
+Epoch 266, bias, value: tensor([-0.0064, -0.0364,  0.0090, -0.0198,  0.0155,  0.0120,  0.0251,  0.0047,
+        -0.0366, -0.0109], device='cuda:0'), grad: tensor([-9.5218e-06,  1.2200e-07,  8.8196e-07,  2.8312e-07,  1.1269e-07,
+         5.6997e-07,  4.9025e-06, -3.4459e-08,  1.9651e-07,  2.4661e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 265, time 247.55, cls_loss 0.0014 cls_loss_mapping 0.0024 cls_loss_causal 0.4972 re_mapping 0.0050 re_causal 0.0150 /// teacc 99.00 lr 0.00010000
+Epoch 267, weight, value: tensor([[ 0.0307, -0.1611, -0.1375,  ..., -0.3055, -0.1054, -0.1417],
+        [ 0.0490, -0.0694,  0.0377,  ...,  0.0509,  0.1051, -0.0464],
+        [-0.0715,  0.1319, -0.1691,  ...,  0.0613,  0.0780, -0.0434],
+        ...,
+        [-0.0701, -0.0964, -0.0805,  ...,  0.0064, -0.1810,  0.1338],
+        [ 0.0613, -0.0248,  0.0810,  ...,  0.0060, -0.2037, -0.0110],
+        [-0.1832, -0.0979, -0.1203,  ..., -0.2099,  0.0544, -0.1051]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  3.7253e-09, -6.0908e-07,  ...,  2.5146e-08,
+          2.5146e-08,  6.5193e-09],
+        [ 0.0000e+00,  9.3132e-10,  3.3993e-07,  ...,  8.9128e-07,
+         -3.8464e-07, -2.2445e-07],
+        [ 0.0000e+00, -1.2107e-08,  8.3819e-08,  ...,  1.4249e-07,
+         -1.9558e-08,  4.6566e-09],
+        ...,
+        [ 0.0000e+00,  9.3132e-10, -4.9826e-07,  ..., -1.7183e-06,
+          4.3772e-08, -5.1223e-08],
+        [ 0.0000e+00,  4.6566e-09, -7.8604e-07,  ..., -6.5286e-07,
+          7.3574e-08,  3.0734e-08],
+        [ 0.0000e+00,  0.0000e+00,  4.0792e-07,  ...,  6.1747e-07,
+          9.3132e-09,  6.7987e-08]], device='cuda:0')
+Epoch 267, bias, value: tensor([-0.0058, -0.0360,  0.0090, -0.0198,  0.0154,  0.0123,  0.0254,  0.0044,
+        -0.0373, -0.0117], device='cuda:0'), grad: tensor([-2.9877e-05,  1.3020e-06,  8.1304e-07,  2.8815e-06,  9.5926e-08,
+         5.9139e-07,  1.6123e-05, -3.8743e-06, -1.1371e-06,  1.3024e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 266, time 247.66, cls_loss 0.0011 cls_loss_mapping 0.0017 cls_loss_causal 0.4969 re_mapping 0.0046 re_causal 0.0144 /// teacc 98.99 lr 0.00010000
+Epoch 268, weight, value: tensor([[ 0.0307, -0.1611, -0.1375,  ..., -0.3057, -0.1052, -0.1420],
+        [ 0.0487, -0.0695,  0.0378,  ...,  0.0509,  0.1052, -0.0467],
+        [-0.0716,  0.1319, -0.1693,  ...,  0.0612,  0.0781, -0.0460],
+        ...,
+        [-0.0701, -0.0962, -0.0806,  ...,  0.0064, -0.1814,  0.1348],
+        [ 0.0612, -0.0249,  0.0812,  ...,  0.0061, -0.2040, -0.0118],
+        [-0.1834, -0.0980, -0.1210,  ..., -0.2107,  0.0540, -0.1052]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.4703e-08,  ...,  5.6811e-08,
+          3.0734e-08,  9.3132e-10],
+        [ 0.0000e+00,  9.3132e-10, -1.2014e-07,  ..., -7.3574e-08,
+         -1.6578e-07,  9.3132e-10],
+        [ 0.0000e+00, -7.4506e-09,  1.5274e-07,  ...,  1.7043e-07,
+          3.3528e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  2.7940e-09,  5.9605e-08,  ..., -2.7940e-08,
+          6.9849e-08,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10, -2.3656e-07,  ..., -3.1106e-07,
+          1.1176e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.0617e-07,  ...,  1.1921e-07,
+         -2.7940e-08, -1.0245e-08]], device='cuda:0')
+Epoch 268, bias, value: tensor([-0.0052, -0.0361,  0.0089, -0.0198,  0.0161,  0.0124,  0.0255,  0.0044,
+        -0.0372, -0.0127], device='cuda:0'), grad: tensor([ 5.1875e-07, -1.5646e-07,  9.7137e-07, -2.4401e-07, -9.3132e-10,
+         2.2911e-07,  8.2515e-07, -8.2888e-08, -2.6226e-06,  5.5786e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 267, time 247.67, cls_loss 0.0018 cls_loss_mapping 0.0026 cls_loss_causal 0.5013 re_mapping 0.0048 re_causal 0.0143 /// teacc 99.01 lr 0.00010000
+Epoch 269, weight, value: tensor([[ 0.0307, -0.1612, -0.1380,  ..., -0.3065, -0.1056, -0.1424],
+        [ 0.0486, -0.0694,  0.0354,  ...,  0.0485,  0.1042, -0.0477],
+        [-0.0716,  0.1325, -0.1703,  ...,  0.0612,  0.0781, -0.0460],
+        ...,
+        [-0.0701, -0.0963, -0.0780,  ...,  0.0090, -0.1789,  0.1354],
+        [ 0.0612, -0.0259,  0.0811,  ...,  0.0047, -0.2055, -0.0115],
+        [-0.1836, -0.0982, -0.1217,  ..., -0.2115,  0.0535, -0.1051]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  3.7253e-09,
+          9.1270e-08,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00, -9.6858e-08,  ...,  4.6194e-07,
+          1.4435e-07,  3.6415e-07],
+        [ 0.0000e+00, -3.7253e-09,  3.8184e-08,  ...,  3.4459e-08,
+          9.0338e-08,  4.6566e-09],
+        ...,
+        [ 0.0000e+00,  3.7253e-09,  4.0978e-08,  ..., -5.3179e-07,
+          1.7788e-07, -3.8277e-07],
+        [ 0.0000e+00,  0.0000e+00, -2.2352e-08,  ..., -2.0489e-08,
+          1.7323e-07,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  1.2107e-08,
+          2.2855e-06,  7.4506e-09]], device='cuda:0')
+Epoch 269, bias, value: tensor([-0.0051, -0.0381,  0.0089, -0.0198,  0.0173,  0.0122,  0.0243,  0.0067,
+        -0.0377, -0.0136], device='cuda:0'), grad: tensor([ 7.6368e-08,  2.1458e-06,  3.0547e-07,  1.2387e-07, -7.6815e-06,
+         1.5460e-07,  1.1763e-06, -1.1129e-06,  8.8569e-07,  3.9339e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 268, time 247.61, cls_loss 0.0011 cls_loss_mapping 0.0014 cls_loss_causal 0.4616 re_mapping 0.0050 re_causal 0.0143 /// teacc 99.05 lr 0.00010000
+Epoch 270, weight, value: tensor([[ 0.0309, -0.1613, -0.1381,  ..., -0.3068, -0.1057, -0.1444],
+        [ 0.0487, -0.0695,  0.0354,  ...,  0.0485,  0.1042, -0.0485],
+        [-0.0716,  0.1326, -0.1706,  ...,  0.0613,  0.0785, -0.0457],
+        ...,
+        [-0.0701, -0.0964, -0.0780,  ...,  0.0090, -0.1790,  0.1359],
+        [ 0.0612, -0.0259,  0.0813,  ...,  0.0051, -0.2060, -0.0119],
+        [-0.1839, -0.0980, -0.1219,  ..., -0.2117,  0.0534, -0.1052]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  9.3132e-10,  4.2841e-08,  ...,  5.0291e-08,
+          8.6613e-08,  1.8626e-09],
+        [ 0.0000e+00,  9.3132e-10, -3.3528e-08,  ..., -3.9581e-07,
+         -1.8375e-06,  5.5879e-09],
+        [ 0.0000e+00, -3.7253e-09,  4.3586e-07,  ...,  5.0105e-07,
+          8.7637e-07,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  9.3132e-10,  2.8033e-07,  ...,  2.2165e-07,
+          3.9395e-07, -1.3970e-08],
+        [ 0.0000e+00,  0.0000e+00, -1.6689e-06,  ..., -1.2377e-06,
+         -2.7474e-07,  8.3819e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-08,  ...,  4.8429e-08,
+          9.3132e-09,  3.7253e-09]], device='cuda:0')
+Epoch 270, bias, value: tensor([-0.0049, -0.0381,  0.0090, -0.0198,  0.0182,  0.0122,  0.0240,  0.0067,
+        -0.0380, -0.0137], device='cuda:0'), grad: tensor([ 1.9930e-07, -1.2396e-06,  1.4463e-06,  5.7556e-07,  1.9465e-07,
+         7.0501e-07,  7.3109e-07,  5.5414e-07, -3.2820e-06,  1.0524e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 269, time 247.88, cls_loss 0.0013 cls_loss_mapping 0.0026 cls_loss_causal 0.4982 re_mapping 0.0047 re_causal 0.0148 /// teacc 99.00 lr 0.00010000
+Epoch 271, weight, value: tensor([[ 0.0309, -0.1613, -0.1388,  ..., -0.3082, -0.1059, -0.1456],
+        [ 0.0488, -0.0696,  0.0354,  ...,  0.0485,  0.1046, -0.0496],
+        [-0.0716,  0.1331, -0.1715,  ...,  0.0613,  0.0786, -0.0466],
+        ...,
+        [-0.0701, -0.0966, -0.0780,  ...,  0.0088, -0.1793,  0.1362],
+        [ 0.0612, -0.0265,  0.0822,  ...,  0.0044, -0.2075, -0.0143],
+        [-0.1842, -0.0982, -0.1247,  ..., -0.2136,  0.0534, -0.1057]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  9.3132e-09,
+          5.4110e-07,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00, -9.1195e-06,  ..., -1.3039e-05,
+         -1.2264e-05,  3.6880e-07],
+        [ 0.0000e+00, -9.3132e-10,  1.1586e-06,  ...,  1.6829e-06,
+          1.6605e-06,  2.4214e-08],
+        ...,
+        [ 0.0000e+00,  9.3132e-10,  7.6219e-06,  ...,  1.0870e-05,
+          1.0565e-05, -4.0792e-07],
+        [ 0.0000e+00,  0.0000e+00,  2.4214e-08,  ...,  4.9360e-08,
+          5.0291e-08,  2.9802e-08],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  3.7253e-09,
+         -4.4145e-07, -3.0734e-08]], device='cuda:0')
+Epoch 271, bias, value: tensor([-0.0049, -0.0381,  0.0091, -0.0192,  0.0182,  0.0120,  0.0243,  0.0066,
+        -0.0380, -0.0143], device='cuda:0'), grad: tensor([ 2.0303e-06, -2.0206e-05,  3.2037e-06,  1.2256e-06,  7.6741e-06,
+         1.7202e-06, -1.1981e-05,  1.7717e-05,  3.6135e-07, -1.7500e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 270, time 247.81, cls_loss 0.0010 cls_loss_mapping 0.0017 cls_loss_causal 0.5313 re_mapping 0.0049 re_causal 0.0159 /// teacc 99.02 lr 0.00010000
+Epoch 272, weight, value: tensor([[ 0.0307, -0.1614, -0.1397,  ..., -0.3086, -0.1061, -0.1457],
+        [ 0.0496, -0.0696,  0.0355,  ...,  0.0486,  0.1049, -0.0499],
+        [-0.0717,  0.1333, -0.1723,  ...,  0.0612,  0.0786, -0.0467],
+        ...,
+        [-0.0706, -0.0967, -0.0780,  ...,  0.0085, -0.1796,  0.1371],
+        [ 0.0603, -0.0265,  0.0820,  ...,  0.0039, -0.2084, -0.0143],
+        [-0.1841, -0.0983, -0.1249,  ..., -0.2137,  0.0536, -0.1057]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  3.7253e-09,
+          2.8871e-08,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10, -9.5926e-08,  ..., -8.4750e-08,
+         -3.8184e-08, -5.5879e-09],
+        [ 0.0000e+00, -3.7253e-09,  2.6077e-08,  ..., -8.5682e-08,
+         -1.1828e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.8626e-09,  1.3877e-07,  ...,  7.9162e-08,
+          1.4249e-07,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00, -1.7583e-06,  ..., -4.6007e-07,
+          5.4017e-08,  0.0000e+00],
+        [ 2.7940e-09,  0.0000e+00,  1.1176e-08,  ...,  4.6566e-09,
+         -1.4715e-07, -9.3132e-10]], device='cuda:0')
+Epoch 272, bias, value: tensor([-0.0052, -0.0380,  0.0090, -0.0187,  0.0183,  0.0119,  0.0241,  0.0065,
+        -0.0382, -0.0141], device='cuda:0'), grad: tensor([ 8.3819e-09,  3.4459e-08, -2.6543e-07,  1.6410e-06,  1.9278e-07,
+        -2.1700e-07,  1.2862e-06,  3.0547e-07, -2.5332e-06, -4.5914e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 271, time 247.84, cls_loss 0.0013 cls_loss_mapping 0.0017 cls_loss_causal 0.4822 re_mapping 0.0050 re_causal 0.0140 /// teacc 99.01 lr 0.00010000
+Epoch 273, weight, value: tensor([[ 0.0305, -0.1615, -0.1401,  ..., -0.3092, -0.1064, -0.1462],
+        [ 0.0497, -0.0696,  0.0355,  ...,  0.0486,  0.1054, -0.0502],
+        [-0.0718,  0.1333, -0.1732,  ...,  0.0610,  0.0783, -0.0474],
+        ...,
+        [-0.0708, -0.0967, -0.0780,  ...,  0.0086, -0.1798,  0.1373],
+        [ 0.0604, -0.0265,  0.0833,  ...,  0.0050, -0.2088, -0.0144],
+        [-0.1844, -0.0985, -0.1253,  ..., -0.2138,  0.0538, -0.1057]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  3.7253e-09,  2.4214e-08,  ...,  2.7008e-08,
+          1.0245e-08,  0.0000e+00],
+        [ 1.8626e-09,  1.8626e-09,  2.7940e-08,  ...,  4.4703e-08,
+         -8.3819e-09,  2.7940e-09],
+        [ 9.3132e-10, -5.0291e-08,  3.7793e-06,  ...,  4.0159e-06,
+          6.9849e-07,  2.6077e-08],
+        ...,
+        [ 9.3132e-10,  4.2841e-08,  1.6019e-07,  ...,  7.4506e-08,
+          9.1270e-08, -3.8184e-08],
+        [ 1.4901e-08,  2.7940e-09,  8.6613e-08,  ...,  9.1270e-08,
+          3.0734e-08,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  2.4214e-08,  ...,  3.9116e-08,
+         -5.8301e-07,  4.6566e-09]], device='cuda:0')
+Epoch 273, bias, value: tensor([-0.0069, -0.0380,  0.0088, -0.0188,  0.0180,  0.0124,  0.0249,  0.0065,
+        -0.0374, -0.0141], device='cuda:0'), grad: tensor([-9.6764e-07,  1.6298e-07,  9.0078e-06, -9.3281e-06,  3.3230e-06,
+        -3.3248e-07,  8.8010e-07,  1.8440e-07,  3.5483e-07, -3.3118e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 272, time 247.38, cls_loss 0.0012 cls_loss_mapping 0.0025 cls_loss_causal 0.4888 re_mapping 0.0048 re_causal 0.0146 /// teacc 98.98 lr 0.00010000
+Epoch 274, weight, value: tensor([[ 0.0307, -0.1616, -0.1408,  ..., -0.3095, -0.1065, -0.1463],
+        [ 0.0500, -0.0696,  0.0356,  ...,  0.0486,  0.1055, -0.0503],
+        [-0.0718,  0.1337, -0.1737,  ...,  0.0612,  0.0788, -0.0477],
+        ...,
+        [-0.0710, -0.0971, -0.0781,  ...,  0.0085, -0.1801,  0.1374],
+        [ 0.0600, -0.0265,  0.0835,  ...,  0.0036, -0.2092, -0.0143],
+        [-0.1848, -0.0986, -0.1255,  ..., -0.2140,  0.0537, -0.1058]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  1.8626e-09,
+          1.1176e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -4.6566e-09,  ...,  5.5879e-09,
+          2.0955e-07,  0.0000e+00],
+        [ 0.0000e+00, -0.0000e+00,  8.3819e-09,  ...,  5.3085e-08,
+          4.6566e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.5832e-08,  ..., -4.6566e-08,
+          3.8184e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  3.7253e-09,
+          4.2841e-08,  2.7940e-09],
+        [ 9.3132e-10,  0.0000e+00,  1.1176e-08,  ...,  1.0245e-08,
+         -4.4238e-07,  0.0000e+00]], device='cuda:0')
+Epoch 274, bias, value: tensor([-0.0086, -0.0379,  0.0089, -0.0187,  0.0184,  0.0125,  0.0265,  0.0064,
+        -0.0385, -0.0143], device='cuda:0'), grad: tensor([-1.2945e-07,  6.8638e-07,  1.6019e-07, -2.9895e-07,  4.3772e-07,
+         2.6450e-07, -1.0896e-07, -1.3039e-08,  1.2759e-07, -1.1260e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 273, time 247.36, cls_loss 0.0014 cls_loss_mapping 0.0025 cls_loss_causal 0.4913 re_mapping 0.0049 re_causal 0.0141 /// teacc 98.91 lr 0.00010000
+Epoch 275, weight, value: tensor([[ 0.0307, -0.1615, -0.1403,  ..., -0.3097, -0.1063, -0.1464],
+        [ 0.0503, -0.0697,  0.0357,  ...,  0.0486,  0.1056, -0.0505],
+        [-0.0719,  0.1339, -0.1740,  ...,  0.0613,  0.0788, -0.0481],
+        ...,
+        [-0.0712, -0.0973, -0.0781,  ...,  0.0084, -0.1803,  0.1394],
+        [ 0.0600, -0.0265,  0.0833,  ...,  0.0034, -0.2094, -0.0145],
+        [-0.1846, -0.0990, -0.1259,  ..., -0.2144,  0.0534, -0.1058]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  5.5879e-09,  ...,  7.4506e-09,
+          7.6368e-08,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  1.8626e-08,  ...,  1.6764e-08,
+          1.4901e-08,  3.7253e-09],
+        [ 0.0000e+00, -1.3039e-08,  1.6950e-07,  ...,  1.0058e-07,
+          7.4506e-09,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  1.8626e-09,  6.9663e-07,  ...,  5.9232e-07,
+          3.1851e-07, -1.6764e-08],
+        [ 0.0000e+00,  1.8626e-09, -1.1176e-07,  ...,  5.2154e-08,
+          2.0489e-08,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ...,  5.5879e-09,
+         -7.3947e-07,  1.8626e-09]], device='cuda:0')
+Epoch 275, bias, value: tensor([-0.0084, -0.0379,  0.0089, -0.0186,  0.0180,  0.0127,  0.0267,  0.0065,
+        -0.0389, -0.0146], device='cuda:0'), grad: tensor([ 2.0489e-07,  2.3469e-07,  3.5949e-07, -2.6375e-06,  6.1095e-07,
+         4.1164e-07,  1.4342e-07,  2.5239e-06, -2.0489e-08, -1.8403e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 274, time 247.19, cls_loss 0.0011 cls_loss_mapping 0.0026 cls_loss_causal 0.4767 re_mapping 0.0047 re_causal 0.0141 /// teacc 98.98 lr 0.00010000
+Epoch 276, weight, value: tensor([[ 0.0306, -0.1616, -0.1407,  ..., -0.3099, -0.1064, -0.1465],
+        [ 0.0507, -0.0697,  0.0358,  ...,  0.0487,  0.1059, -0.0505],
+        [-0.0721,  0.1343, -0.1747,  ...,  0.0613,  0.0790, -0.0481],
+        ...,
+        [-0.0718, -0.0976, -0.0783,  ...,  0.0084, -0.1807,  0.1394],
+        [ 0.0599, -0.0265,  0.0836,  ...,  0.0037, -0.2097, -0.0145],
+        [-0.1847, -0.0996, -0.1260,  ..., -0.2146,  0.0539, -0.1058]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  1.3039e-08,
+          1.4901e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -6.9104e-07,  ...,  3.7253e-09,
+         -7.4133e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-08,  ...,  1.7881e-07,
+          8.7544e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  5.8860e-07,  ..., -3.5204e-07,
+          6.0908e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -2.9616e-07,  ..., -5.7742e-08,
+          9.3132e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.9116e-08,  ...,  3.7253e-08,
+         -3.0175e-07,  0.0000e+00]], device='cuda:0')
+Epoch 276, bias, value: tensor([-0.0085, -0.0378,  0.0089, -0.0185,  0.0172,  0.0129,  0.0267,  0.0063,
+        -0.0386, -0.0141], device='cuda:0'), grad: tensor([ 7.4506e-09, -5.3458e-07,  5.5321e-07,  4.2096e-07,  1.6019e-07,
+         5.5879e-07,  2.0675e-07, -1.0803e-07, -4.9546e-07, -8.0653e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 275, time 247.02, cls_loss 0.0009 cls_loss_mapping 0.0013 cls_loss_causal 0.4892 re_mapping 0.0048 re_causal 0.0141 /// teacc 99.05 lr 0.00010000
+Epoch 277, weight, value: tensor([[ 0.0305, -0.1617, -0.1410,  ..., -0.3101, -0.1066, -0.1466],
+        [ 0.0507, -0.0698,  0.0360,  ...,  0.0488,  0.1062, -0.0505],
+        [-0.0722,  0.1348, -0.1752,  ...,  0.0613,  0.0791, -0.0482],
+        ...,
+        [-0.0717, -0.0980, -0.0784,  ...,  0.0083, -0.1811,  0.1394],
+        [ 0.0599, -0.0265,  0.0838,  ...,  0.0038, -0.2098, -0.0146],
+        [-0.1847, -0.0998, -0.1265,  ..., -0.2152,  0.0542, -0.1058]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  5.5879e-09,
+          1.4901e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.2498e-06,  ..., -8.3074e-07,
+         -1.3076e-06,  1.6764e-08],
+        [ 0.0000e+00,  0.0000e+00,  4.5449e-07,  ...,  7.0781e-07,
+          1.4901e-08,  9.8720e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  5.3458e-07,  ..., -2.6450e-07,
+          1.2387e-06, -1.6391e-07],
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-08,  ...,  1.2293e-07,
+          1.8626e-08,  1.8626e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-08,  ...,  1.8626e-08,
+         -2.2314e-06,  0.0000e+00]], device='cuda:0')
+Epoch 277, bias, value: tensor([-0.0085, -0.0377,  0.0089, -0.0185,  0.0167,  0.0129,  0.0269,  0.0062,
+        -0.0387, -0.0140], device='cuda:0'), grad: tensor([ 6.3330e-08, -2.2221e-06,  1.4286e-06,  4.4517e-07,  6.4895e-06,
+         6.1467e-08, -9.4995e-08,  9.4995e-08,  2.7940e-07, -6.5565e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 276, time 247.08, cls_loss 0.0014 cls_loss_mapping 0.0022 cls_loss_causal 0.5006 re_mapping 0.0046 re_causal 0.0139 /// teacc 99.00 lr 0.00010000
+Epoch 278, weight, value: tensor([[ 0.0305, -0.1617, -0.1415,  ..., -0.3103, -0.1066, -0.1466],
+        [ 0.0507, -0.0699,  0.0361,  ...,  0.0488,  0.1064, -0.0505],
+        [-0.0722,  0.1352, -0.1757,  ...,  0.0613,  0.0793, -0.0482],
+        ...,
+        [-0.0717, -0.0982, -0.0786,  ...,  0.0082, -0.1814,  0.1394],
+        [ 0.0599, -0.0266,  0.0844,  ...,  0.0048, -0.2105, -0.0146],
+        [-0.1851, -0.1013, -0.1268,  ..., -0.2169,  0.0555, -0.1058]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  3.7253e-09,  3.7253e-09,  ...,  3.7253e-09,
+          2.7940e-08,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-09, -1.8626e-09,  ...,  2.9802e-08,
+          9.1270e-06,  0.0000e+00],
+        [ 0.0000e+00, -6.7055e-08,  3.1665e-08,  ..., -2.9802e-08,
+         -5.2154e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  2.9802e-08,  1.5832e-07,  ...,  1.0245e-07,
+          2.7008e-07,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09, -2.9430e-07,  ..., -4.0978e-08,
+          1.4901e-08,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  3.9116e-08,  ...,  2.4214e-08,
+          2.6077e-05,  0.0000e+00]], device='cuda:0')
+Epoch 278, bias, value: tensor([-0.0086, -0.0376,  0.0089, -0.0169,  0.0151,  0.0113,  0.0266,  0.0060,
+        -0.0384, -0.0127], device='cuda:0'), grad: tensor([-1.7863e-06,  2.0921e-05,  1.1362e-07,  1.5087e-07, -7.8917e-05,
+         3.7067e-07,  1.3020e-06,  7.5810e-07, -3.6880e-07,  5.7399e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 277, time 247.09, cls_loss 0.0012 cls_loss_mapping 0.0022 cls_loss_causal 0.5450 re_mapping 0.0050 re_causal 0.0151 /// teacc 98.97 lr 0.00010000
+Epoch 279, weight, value: tensor([[ 0.0311, -0.1617, -0.1414,  ..., -0.3104, -0.1067, -0.1467],
+        [ 0.0508, -0.0703,  0.0361,  ...,  0.0488,  0.1065, -0.0508],
+        [-0.0737,  0.1359, -0.1764,  ...,  0.0612,  0.0793, -0.0482],
+        ...,
+        [-0.0700, -0.0985, -0.0786,  ...,  0.0082, -0.1823,  0.1395],
+        [ 0.0596, -0.0258,  0.0849,  ...,  0.0055, -0.2107, -0.0144],
+        [-0.1860, -0.1055, -0.1270,  ..., -0.2173,  0.0577, -0.1058]],
+       device='cuda:0'), grad: tensor([[-5.5879e-09,  2.9802e-08,  0.0000e+00,  ...,  2.2352e-08,
+          8.6613e-07,  0.0000e+00],
+        [ 0.0000e+00,  2.7753e-07, -3.5390e-08,  ...,  1.2480e-07,
+          2.7008e-07,  0.0000e+00],
+        [ 0.0000e+00, -8.4750e-07,  2.2352e-08,  ..., -4.8243e-07,
+         -8.2888e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  3.0175e-07,  2.0489e-08,  ...,  1.9930e-07,
+          4.0419e-07,  0.0000e+00],
+        [ 0.0000e+00,  5.4017e-08,  5.5879e-09,  ...,  3.7253e-08,
+          2.4959e-07,  0.0000e+00],
+        [ 1.8626e-09,  1.8626e-08,  0.0000e+00,  ...,  1.3039e-08,
+         -3.2783e-07,  0.0000e+00]], device='cuda:0')
+Epoch 279, bias, value: tensor([-0.0083, -0.0377,  0.0087, -0.0169,  0.0135,  0.0112,  0.0267,  0.0058,
+        -0.0382, -0.0107], device='cuda:0'), grad: tensor([ 5.0142e-06,  8.6240e-07, -2.0061e-06,  2.3469e-07,  1.1548e-06,
+         4.4890e-07, -7.3388e-06,  1.1604e-06,  1.3877e-06, -9.2201e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 278, time 247.05, cls_loss 0.0010 cls_loss_mapping 0.0016 cls_loss_causal 0.4781 re_mapping 0.0048 re_causal 0.0140 /// teacc 98.93 lr 0.00010000
+Epoch 280, weight, value: tensor([[ 0.0338, -0.1618, -0.1417,  ..., -0.3106, -0.1067, -0.1472],
+        [ 0.0514, -0.0704,  0.0363,  ...,  0.0491,  0.1071, -0.0508],
+        [-0.0749,  0.1367, -0.1769,  ...,  0.0612,  0.0792, -0.0483],
+        ...,
+        [-0.0722, -0.0995, -0.0787,  ...,  0.0079, -0.1828,  0.1395],
+        [ 0.0592, -0.0253,  0.0850,  ...,  0.0056, -0.2111, -0.0146],
+        [-0.1879, -0.1072, -0.1274,  ..., -0.2178,  0.0581, -0.1058]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  3.7253e-09,  ...,  3.7253e-09,
+          4.0978e-08,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  1.5423e-06,  ...,  1.1530e-06,
+         -1.8440e-07,  0.0000e+00],
+        [ 0.0000e+00, -1.4901e-08,  2.7940e-08,  ...,  1.1176e-08,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  7.4506e-09, -2.0731e-06,  ..., -1.5199e-06,
+          6.1467e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.0431e-07,  ...,  5.5879e-08,
+          1.0058e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.6508e-07,  ...,  2.6636e-07,
+          3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 280, bias, value: tensor([-0.0080, -0.0375,  0.0085, -0.0168,  0.0127,  0.0112,  0.0268,  0.0057,
+        -0.0383, -0.0106], device='cuda:0'), grad: tensor([ 2.0117e-07,  6.9402e-06,  6.5193e-08,  2.0489e-08,  6.3330e-08,
+        -5.5879e-09, -2.4214e-07, -8.8662e-06,  2.6077e-07,  1.5572e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 279, time 247.31, cls_loss 0.0011 cls_loss_mapping 0.0018 cls_loss_causal 0.4898 re_mapping 0.0045 re_causal 0.0137 /// teacc 98.97 lr 0.00010000
+Epoch 281, weight, value: tensor([[ 0.0338, -0.1620, -0.1419,  ..., -0.3108, -0.1067, -0.1482],
+        [ 0.0514, -0.0706,  0.0371,  ...,  0.0502,  0.1093, -0.0508],
+        [-0.0751,  0.1375, -0.1774,  ...,  0.0611,  0.0790, -0.0483],
+        ...,
+        [-0.0726, -0.1000, -0.0795,  ...,  0.0068, -0.1853,  0.1395],
+        [ 0.0590, -0.0252,  0.0853,  ...,  0.0057, -0.2116, -0.0146],
+        [-0.1885, -0.1076, -0.1276,  ..., -0.2181,  0.0597, -0.1058]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -0.0000e+00,  1.8626e-09,  ...,  3.7253e-09,
+          3.7253e-08,  0.0000e+00],
+        [ 1.8626e-09,  1.8626e-09, -3.9116e-08,  ...,  1.8626e-09,
+          1.7695e-07,  0.0000e+00],
+        [ 1.8626e-09, -5.9605e-08,  5.9605e-08,  ...,  1.1176e-08,
+          1.6764e-08,  0.0000e+00],
+        ...,
+        [-1.8626e-09,  1.8626e-09,  2.7940e-08,  ..., -1.7881e-07,
+          1.0431e-07,  0.0000e+00],
+        [ 0.0000e+00,  5.4017e-08,  1.8626e-09,  ...,  8.1956e-08,
+          7.0781e-08,  0.0000e+00],
+        [ 3.9116e-08,  0.0000e+00,  1.8626e-09,  ...,  9.4995e-08,
+          6.3218e-06,  0.0000e+00]], device='cuda:0')
+Epoch 281, bias, value: tensor([-0.0078, -0.0363,  0.0084, -0.0167,  0.0109,  0.0112,  0.0268,  0.0044,
+        -0.0382, -0.0091], device='cuda:0'), grad: tensor([ 1.7881e-07,  6.8173e-07,  4.8988e-07, -4.6566e-08,  4.8205e-06,
+         3.5595e-06,  5.4576e-07, -2.5928e-05,  5.8487e-07,  1.5102e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 280, time 247.47, cls_loss 0.0014 cls_loss_mapping 0.0016 cls_loss_causal 0.5090 re_mapping 0.0048 re_causal 0.0139 /// teacc 98.94 lr 0.00010000
+Epoch 282, weight, value: tensor([[ 0.0339, -0.1621, -0.1435,  ..., -0.3110, -0.1068, -0.1499],
+        [ 0.0517, -0.0710,  0.0372,  ...,  0.0502,  0.1094, -0.0510],
+        [-0.0753,  0.1380, -0.1770,  ...,  0.0616,  0.0801, -0.0481],
+        ...,
+        [-0.0729, -0.1001, -0.0796,  ...,  0.0067, -0.1857,  0.1395],
+        [ 0.0584, -0.0255,  0.0855,  ...,  0.0060, -0.2122, -0.0149],
+        [-0.1892, -0.1074, -0.1279,  ..., -0.2187,  0.0603, -0.1058]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.9802e-08,  5.7556e-07,  ...,  4.4703e-08,
+          1.0617e-07,  5.5879e-08],
+        [ 0.0000e+00,  2.7940e-08,  3.1665e-08,  ..., -6.5193e-08,
+         -4.8429e-08,  1.3225e-07],
+        [ 0.0000e+00, -7.2643e-07,  5.6066e-07,  ..., -7.2829e-07,
+         -3.8184e-07,  8.7544e-08],
+        ...,
+        [ 0.0000e+00,  4.1910e-07,  3.8743e-07,  ...,  4.5262e-07,
+          3.9302e-07,  3.7253e-09],
+        [ 0.0000e+00,  1.5460e-07,  1.5963e-06,  ...,  3.3714e-07,
+          6.4075e-07,  1.2871e-06],
+        [-3.7253e-09,  7.4506e-09,  6.2026e-07,  ...,  2.2352e-08,
+          7.8231e-08,  2.6077e-08]], device='cuda:0')
+Epoch 282, bias, value: tensor([-0.0076, -0.0363,  0.0090, -0.0166,  0.0101,  0.0111,  0.0266,  0.0043,
+        -0.0383, -0.0086], device='cuda:0'), grad: tensor([ 1.5143e-06,  9.1456e-07, -6.8918e-07, -7.8157e-06, -3.2037e-07,
+        -1.4044e-06, -4.5225e-06,  2.2557e-06,  6.7167e-06,  3.3230e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 281, time 247.04, cls_loss 0.0016 cls_loss_mapping 0.0030 cls_loss_causal 0.4929 re_mapping 0.0047 re_causal 0.0136 /// teacc 98.97 lr 0.00010000
+Epoch 283, weight, value: tensor([[ 0.0339, -0.1623, -0.1422,  ..., -0.3112, -0.1069, -0.1508],
+        [ 0.0530, -0.0715,  0.0373,  ...,  0.0502,  0.1094, -0.0511],
+        [-0.0756,  0.1388, -0.1781,  ...,  0.0618,  0.0804, -0.0483],
+        ...,
+        [-0.0731, -0.1003, -0.0797,  ...,  0.0066, -0.1858,  0.1397],
+        [ 0.0578, -0.0259,  0.0862,  ...,  0.0056, -0.2132, -0.0153],
+        [-0.1897, -0.1078, -0.1283,  ..., -0.2194,  0.0608, -0.1058]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  3.7998e-07,  ...,  4.2841e-08,
+          3.7067e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.8626e-06,  ..., -3.9302e-07,
+         -1.0524e-06,  0.0000e+00],
+        [ 0.0000e+00, -1.6764e-08,  1.3970e-07,  ...,  1.3039e-08,
+          8.0094e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.3039e-08,  3.4831e-07,  ...,  8.5682e-08,
+          2.2352e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.1921e-07,  ...,  3.7253e-08,
+          1.0990e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-08,  ...,  1.1176e-08,
+         -1.1362e-07,  0.0000e+00]], device='cuda:0')
+Epoch 283, bias, value: tensor([-0.0074, -0.0364,  0.0088, -0.0162,  0.0100,  0.0112,  0.0262,  0.0047,
+        -0.0384, -0.0097], device='cuda:0'), grad: tensor([ 5.3868e-06, -4.5449e-06,  6.5938e-07,  5.9605e-08, -1.0610e-05,
+         1.0412e-06,  1.0077e-06,  7.0594e-07,  3.3714e-07,  5.9418e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 282, time 246.91, cls_loss 0.0015 cls_loss_mapping 0.0020 cls_loss_causal 0.4882 re_mapping 0.0048 re_causal 0.0140 /// teacc 99.00 lr 0.00010000
+Epoch 284, weight, value: tensor([[ 0.0338, -0.1624, -0.1438,  ..., -0.3113, -0.1069, -0.1511],
+        [ 0.0529, -0.0717,  0.0375,  ...,  0.0502,  0.1095, -0.0511],
+        [-0.0757,  0.1393, -0.1787,  ...,  0.0618,  0.0806, -0.0484],
+        ...,
+        [-0.0731, -0.1006, -0.0798,  ...,  0.0065, -0.1889,  0.1397],
+        [ 0.0576, -0.0260,  0.0868,  ...,  0.0057, -0.2138, -0.0154],
+        [-0.1922, -0.1079, -0.1289,  ..., -0.2196,  0.0645, -0.1059]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.1176e-08,  ...,  3.7253e-09,
+          1.3039e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -2.5146e-07,  ..., -9.6858e-08,
+         -2.1793e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.4703e-08,  ...,  2.2352e-08,
+          5.0291e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.8720e-08,  ...,  3.5390e-08,
+          8.7544e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ...,  0.0000e+00,
+          1.1735e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.8626e-09,
+          8.5495e-07,  0.0000e+00]], device='cuda:0')
+Epoch 284, bias, value: tensor([-0.0079, -0.0363,  0.0089, -0.0159,  0.0100,  0.0110,  0.0259,  0.0031,
+        -0.0383, -0.0062], device='cuda:0'), grad: tensor([ 2.2352e-08, -3.5949e-07,  1.1921e-07,  3.1050e-06,  1.0245e-07,
+        -2.3201e-05,  4.4703e-07,  1.4342e-07,  1.9334e-06,  1.7658e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 283, time 246.67, cls_loss 0.0014 cls_loss_mapping 0.0028 cls_loss_causal 0.4903 re_mapping 0.0051 re_causal 0.0147 /// teacc 98.93 lr 0.00010000
+Epoch 285, weight, value: tensor([[ 0.0343, -0.1630, -0.1441,  ..., -0.3115, -0.1093, -0.1515],
+        [ 0.0524, -0.0717,  0.0376,  ...,  0.0503,  0.1100, -0.0511],
+        [-0.0760,  0.1404, -0.1800,  ...,  0.0615,  0.0801, -0.0486],
+        ...,
+        [-0.0750, -0.1015, -0.0799,  ...,  0.0064, -0.1891,  0.1400],
+        [ 0.0584, -0.0265,  0.0871,  ...,  0.0056, -0.2142, -0.0155],
+        [-0.1941, -0.1081, -0.1299,  ..., -0.2206,  0.0645, -0.1059]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  2.9802e-08,  5.5879e-09,  ...,  2.6077e-08,
+          2.0489e-07,  0.0000e+00],
+        [ 1.8626e-09,  7.8231e-08, -2.0489e-08,  ...,  3.0361e-07,
+          1.4529e-07,  0.0000e+00],
+        [ 0.0000e+00, -2.6263e-07, -4.6566e-08,  ..., -2.0489e-07,
+         -2.8871e-07,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  3.7253e-09,  1.3039e-08,  ..., -2.0042e-06,
+          6.3330e-08, -0.0000e+00],
+        [ 9.3132e-08,  6.1467e-08,  1.4901e-08,  ...,  6.7055e-08,
+          1.2666e-07,  0.0000e+00],
+        [ 9.3132e-09,  0.0000e+00,  0.0000e+00,  ...,  3.5390e-08,
+          5.7966e-06,  0.0000e+00]], device='cuda:0')
+Epoch 285, bias, value: tensor([-0.0099, -0.0362,  0.0088, -0.0163,  0.0097,  0.0117,  0.0282,  0.0030,
+        -0.0384, -0.0064], device='cuda:0'), grad: tensor([ 5.8115e-07,  1.1139e-06, -1.1791e-06,  4.5300e-06, -1.2137e-05,
+        -2.7642e-06,  1.3988e-06, -4.5560e-06,  1.1008e-06,  1.1876e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 284, time 247.06, cls_loss 0.0015 cls_loss_mapping 0.0024 cls_loss_causal 0.4645 re_mapping 0.0049 re_causal 0.0140 /// teacc 99.04 lr 0.00010000
+Epoch 286, weight, value: tensor([[ 0.0339, -0.1634, -0.1450,  ..., -0.3116, -0.1096, -0.1519],
+        [ 0.0529, -0.0718,  0.0377,  ...,  0.0505,  0.1107, -0.0511],
+        [-0.0765,  0.1409, -0.1806,  ...,  0.0610,  0.0796, -0.0486],
+        ...,
+        [-0.0713, -0.1019, -0.0800,  ...,  0.0064, -0.1894,  0.1400],
+        [ 0.0569, -0.0292,  0.0866,  ...,  0.0054, -0.2152, -0.0155],
+        [-0.1961, -0.1055, -0.1278,  ..., -0.2213,  0.0646, -0.1059]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  7.4506e-09,  1.4156e-07,  ...,  2.7940e-08,
+          1.9185e-07,  0.0000e+00],
+        [-6.3330e-08,  3.3528e-08, -2.1048e-06,  ..., -2.2724e-07,
+         -3.3155e-06,  0.0000e+00],
+        [ 1.8626e-09, -7.8231e-08,  5.5879e-08,  ..., -1.4901e-07,
+         -2.1048e-07,  0.0000e+00],
+        ...,
+        [ 2.4214e-08,  1.4901e-08,  1.7248e-06,  ...,  2.0862e-07,
+          2.5891e-06,  0.0000e+00],
+        [ 5.5879e-09,  5.5879e-09,  1.2666e-07,  ...,  4.4703e-08,
+          1.4529e-07,  0.0000e+00],
+        [ 1.4901e-08,  1.8626e-09,  1.9316e-06,  ...,  3.5390e-08,
+          3.8557e-07,  0.0000e+00]], device='cuda:0')
+Epoch 286, bias, value: tensor([-0.0099, -0.0361,  0.0084, -0.0163,  0.0093,  0.0118,  0.0281,  0.0031,
+        -0.0408, -0.0058], device='cuda:0'), grad: tensor([-1.0710e-06, -6.4075e-06, -4.0792e-07, -5.0813e-06,  4.6566e-08,
+         1.4286e-06,  1.4231e-06,  5.2452e-06,  4.5449e-07,  4.3139e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 285, time 247.22, cls_loss 0.0011 cls_loss_mapping 0.0015 cls_loss_causal 0.4891 re_mapping 0.0050 re_causal 0.0145 /// teacc 98.99 lr 0.00010000
+Epoch 287, weight, value: tensor([[ 0.0333, -0.1639, -0.1457,  ..., -0.3119, -0.1097, -0.1519],
+        [ 0.0544, -0.0721,  0.0373,  ...,  0.0498,  0.1104, -0.0511],
+        [-0.0775,  0.1389, -0.1810,  ...,  0.0598,  0.0797, -0.0486],
+        ...,
+        [-0.0716, -0.1027, -0.0795,  ...,  0.0071, -0.1890,  0.1400],
+        [ 0.0585, -0.0294,  0.0871,  ...,  0.0054, -0.2156, -0.0156],
+        [-0.1961, -0.1056, -0.1279,  ..., -0.2215,  0.0646, -0.1059]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          7.4506e-09,  0.0000e+00],
+        [ 7.4506e-09, -0.0000e+00, -3.1665e-08,  ..., -1.4901e-08,
+         -2.2352e-08,  0.0000e+00],
+        [ 3.7253e-09, -5.2154e-08,  7.4506e-09,  ..., -1.0990e-07,
+         -7.6368e-08,  0.0000e+00],
+        ...,
+        [-2.4214e-08,  4.8429e-08,  1.3039e-08,  ...,  9.6858e-08,
+          1.9558e-07,  0.0000e+00],
+        [ 3.7253e-09,  0.0000e+00, -9.3132e-09,  ..., -0.0000e+00,
+          1.1176e-08,  0.0000e+00],
+        [ 9.3132e-09,  0.0000e+00,  0.0000e+00,  ...,  5.5879e-09,
+         -2.6077e-07,  0.0000e+00]], device='cuda:0')
+Epoch 287, bias, value: tensor([-0.0099, -0.0368,  0.0077, -0.0157,  0.0093,  0.0114,  0.0280,  0.0037,
+        -0.0406, -0.0058], device='cuda:0'), grad: tensor([-2.3842e-07,  2.7940e-08, -1.4715e-07,  3.3528e-08,  3.9488e-07,
+        -6.3330e-08,  1.8626e-07,  4.6194e-07,  8.9407e-08, -7.7114e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 286, time 247.14, cls_loss 0.0011 cls_loss_mapping 0.0018 cls_loss_causal 0.4769 re_mapping 0.0047 re_causal 0.0137 /// teacc 99.04 lr 0.00010000
+Epoch 288, weight, value: tensor([[ 0.0332, -0.1641, -0.1458,  ..., -0.3121, -0.1097, -0.1519],
+        [ 0.0562, -0.0722,  0.0375,  ...,  0.0499,  0.1108, -0.0511],
+        [-0.0774,  0.1382, -0.1816,  ...,  0.0584,  0.0798, -0.0486],
+        ...,
+        [-0.0716, -0.1011, -0.0796,  ...,  0.0072, -0.1893,  0.1400],
+        [ 0.0583, -0.0301,  0.0872,  ...,  0.0051, -0.2170, -0.0156],
+        [-0.1984, -0.1056, -0.1280,  ..., -0.2221,  0.0646, -0.1059]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.0617e-07,  1.3597e-07,  ...,  5.5879e-08,
+          4.0047e-07,  0.0000e+00],
+        [ 0.0000e+00,  5.7742e-08, -3.4600e-05,  ..., -2.6543e-06,
+         -6.9022e-05,  0.0000e+00],
+        [ 0.0000e+00, -2.0787e-06,  4.2841e-07,  ..., -1.8030e-06,
+         -1.4175e-06,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  4.2841e-08,  4.4703e-07,  ...,  5.7742e-08,
+          9.1456e-07,  0.0000e+00],
+        [-5.5879e-09,  9.8720e-08,  5.5283e-06,  ...,  4.5821e-07,
+          1.1377e-05,  0.0000e+00],
+        [ 0.0000e+00,  1.3039e-08,  1.0245e-07,  ...,  1.6764e-08,
+          2.1793e-07,  0.0000e+00]], device='cuda:0')
+Epoch 288, bias, value: tensor([-0.0097, -0.0366,  0.0068, -0.0156,  0.0092,  0.0114,  0.0279,  0.0038,
+        -0.0410, -0.0057], device='cuda:0'), grad: tensor([ 1.4622e-06, -2.6011e-04, -3.6526e-06,  5.2489e-06,  1.6999e-04,
+         3.1143e-06,  3.6836e-05,  3.3863e-06,  4.2677e-05,  8.1770e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 287, time 247.35, cls_loss 0.0010 cls_loss_mapping 0.0017 cls_loss_causal 0.4911 re_mapping 0.0047 re_causal 0.0143 /// teacc 98.99 lr 0.00010000
+Epoch 289, weight, value: tensor([[ 0.0325, -0.1642, -0.1462,  ..., -0.3128, -0.1101, -0.1526],
+        [ 0.0577, -0.0724,  0.0376,  ...,  0.0499,  0.1114, -0.0511],
+        [-0.0769,  0.1389, -0.1819,  ...,  0.0584,  0.0802, -0.0480],
+        ...,
+        [-0.0716, -0.1013, -0.0796,  ...,  0.0073, -0.1894,  0.1400],
+        [ 0.0583, -0.0307,  0.0878,  ...,  0.0050, -0.2180, -0.0156],
+        [-0.1993, -0.1058, -0.1282,  ..., -0.2224,  0.0645, -0.1059]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-6.0350e-07,  0.0000e+00, -1.7229e-06,  ..., -1.4380e-06,
+         -2.1812e-06,  0.0000e+00],
+        [ 1.2293e-07,  1.8626e-09,  3.6508e-07,  ...,  3.0547e-07,
+          4.4145e-07,  0.0000e+00],
+        ...,
+        [ 2.7940e-08,  0.0000e+00,  1.0617e-07,  ...,  6.3330e-08,
+          1.1921e-07,  0.0000e+00],
+        [ 2.4401e-07, -3.7253e-09,  6.1281e-07,  ...,  5.3085e-07,
+          9.7044e-07,  0.0000e+00],
+        [ 3.7253e-09,  0.0000e+00,  1.1176e-08,  ...,  1.1176e-08,
+          1.3039e-08,  0.0000e+00]], device='cuda:0')
+Epoch 289, bias, value: tensor([-0.0098, -0.0364,  0.0070, -0.0157,  0.0089,  0.0120,  0.0266,  0.0038,
+        -0.0410, -0.0059], device='cuda:0'), grad: tensor([-5.9605e-08, -2.8890e-06,  7.0781e-07,  1.1176e-07,  7.6368e-07,
+         8.0094e-08, -2.1420e-07,  1.4715e-07,  1.2275e-06,  1.2107e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 288, time 247.12, cls_loss 0.0012 cls_loss_mapping 0.0016 cls_loss_causal 0.5122 re_mapping 0.0045 re_causal 0.0139 /// teacc 99.09 lr 0.00010000
+Epoch 290, weight, value: tensor([[ 0.0345, -0.1635, -0.1463,  ..., -0.3133, -0.1101, -0.1543],
+        [ 0.0576, -0.0725,  0.0376,  ...,  0.0498,  0.1115, -0.0510],
+        [-0.0764,  0.1394, -0.1825,  ...,  0.0584,  0.0805, -0.0480],
+        ...,
+        [-0.0719, -0.1019, -0.0795,  ...,  0.0074, -0.1896,  0.1401],
+        [ 0.0574, -0.0307,  0.0879,  ...,  0.0050, -0.2185, -0.0158],
+        [-0.2012, -0.1061, -0.1284,  ..., -0.2231,  0.0646, -0.1059]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  1.8626e-09,  5.5879e-09,  ...,  1.4901e-08,
+          9.3132e-09,  0.0000e+00],
+        [ 0.0000e+00,  2.7940e-08, -5.5879e-08,  ...,  1.0990e-07,
+         -4.8429e-08,  0.0000e+00],
+        [ 0.0000e+00,  7.4506e-08,  3.1665e-08,  ...,  4.5821e-07,
+         -3.9116e-08,  0.0000e+00],
+        ...,
+        [-9.3132e-09, -1.6019e-07,  1.3039e-08,  ..., -2.2296e-06,
+          2.7940e-08,  0.0000e+00],
+        [ 0.0000e+00,  1.6764e-08, -8.7544e-08,  ...,  3.5949e-07,
+          2.4214e-08,  8.7544e-08],
+        [ 5.5879e-09,  5.5879e-09,  2.4214e-08,  ...,  1.7136e-07,
+          5.4017e-08,  0.0000e+00]], device='cuda:0')
+Epoch 290, bias, value: tensor([-0.0093, -0.0365,  0.0071, -0.0156,  0.0089,  0.0121,  0.0265,  0.0039,
+        -0.0412, -0.0060], device='cuda:0'), grad: tensor([ 6.5193e-08,  3.4831e-07,  1.2126e-06,  3.1963e-06, -2.1420e-07,
+         2.8498e-07, -1.0617e-07, -6.9477e-06,  1.1139e-06,  1.0189e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 289, time 246.93, cls_loss 0.0012 cls_loss_mapping 0.0030 cls_loss_causal 0.4815 re_mapping 0.0048 re_causal 0.0140 /// teacc 98.99 lr 0.00010000
+Epoch 291, weight, value: tensor([[ 0.0346, -0.1638, -0.1471,  ..., -0.3139, -0.1103, -0.1553],
+        [ 0.0576, -0.0728,  0.0378,  ...,  0.0499,  0.1117, -0.0510],
+        [-0.0762,  0.1403, -0.1830,  ...,  0.0586,  0.0809, -0.0478],
+        ...,
+        [-0.0718, -0.1028, -0.0796,  ...,  0.0073, -0.1899,  0.1401],
+        [ 0.0573, -0.0309,  0.0895,  ...,  0.0049, -0.2189, -0.0161],
+        [-0.2016, -0.1063, -0.1287,  ..., -0.2250,  0.0649, -0.1059]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.8626e-09,
+          1.4901e-08,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09, -6.8918e-08,  ..., -1.8626e-08,
+         -5.4017e-08,  0.0000e+00],
+        [ 0.0000e+00, -7.4506e-09,  5.7742e-08,  ...,  3.7253e-08,
+         -5.5879e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.8626e-09,  3.5390e-08,  ..., -4.6566e-08,
+          4.6566e-08,  0.0000e+00],
+        [ 0.0000e+00, -1.8626e-09, -9.6858e-08,  ..., -7.6368e-08,
+          2.2352e-08,  0.0000e+00],
+        [ 3.7253e-09,  0.0000e+00,  3.7253e-09,  ...,  5.5879e-08,
+         -6.7055e-08,  0.0000e+00]], device='cuda:0')
+Epoch 291, bias, value: tensor([-0.0094, -0.0364,  0.0077, -0.0158,  0.0088,  0.0117,  0.0261,  0.0039,
+        -0.0398, -0.0060], device='cuda:0'), grad: tensor([ 5.4017e-08, -3.3528e-08,  1.0058e-07,  2.9616e-07, -1.3039e-08,
+         3.9488e-07, -4.3027e-07, -5.0291e-07, -1.1735e-07,  2.2352e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 290, time 247.29, cls_loss 0.0013 cls_loss_mapping 0.0025 cls_loss_causal 0.5377 re_mapping 0.0048 re_causal 0.0138 /// teacc 99.10 lr 0.00010000
+Epoch 292, weight, value: tensor([[ 0.0345, -0.1639, -0.1473,  ..., -0.3141, -0.1103, -0.1556],
+        [ 0.0576, -0.0730,  0.0379,  ...,  0.0500,  0.1118, -0.0510],
+        [-0.0764,  0.1406, -0.1837,  ...,  0.0586,  0.0809, -0.0479],
+        ...,
+        [-0.0719, -0.1029, -0.0797,  ...,  0.0073, -0.1902,  0.1400],
+        [ 0.0568, -0.0310,  0.0897,  ...,  0.0047, -0.2198, -0.0166],
+        [-0.2035, -0.1063, -0.1290,  ..., -0.2255,  0.0648, -0.1058]],
+       device='cuda:0'), grad: tensor([[-3.7253e-09,  5.5879e-08,  3.1665e-08,  ...,  5.9605e-08,
+         -3.1665e-08,  0.0000e+00],
+        [-3.7253e-08,  1.5460e-07, -3.3155e-07,  ..., -1.4156e-07,
+         -4.9360e-07,  0.0000e+00],
+        [ 9.3132e-09, -1.4324e-06,  4.2841e-08,  ..., -1.2256e-06,
+         -1.4976e-06,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  3.2410e-07,  9.4995e-08,  ...,  3.4831e-07,
+          5.1409e-07,  0.0000e+00],
+        [ 3.7253e-09,  1.0617e-07,  1.4901e-08,  ...,  1.0245e-07,
+          1.8254e-07,  0.0000e+00],
+        [ 1.8626e-08,  9.3132e-09,  2.0489e-08,  ...,  1.8626e-08,
+          3.7998e-07,  0.0000e+00]], device='cuda:0')
+Epoch 292, bias, value: tensor([-0.0092, -0.0364,  0.0075, -0.0160,  0.0099,  0.0119,  0.0261,  0.0037,
+        -0.0397, -0.0063], device='cuda:0'), grad: tensor([-6.6459e-06, -4.6007e-07, -3.6061e-06,  2.2203e-06, -1.3672e-06,
+         2.4214e-07,  3.1218e-06,  1.3411e-06,  6.0350e-07,  4.5374e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 291, time 246.99, cls_loss 0.0011 cls_loss_mapping 0.0020 cls_loss_causal 0.4871 re_mapping 0.0047 re_causal 0.0135 /// teacc 99.04 lr 0.00010000
+Epoch 293, weight, value: tensor([[ 0.0346, -0.1643, -0.1474,  ..., -0.3143, -0.1104, -0.1559],
+        [ 0.0578, -0.0734,  0.0382,  ...,  0.0505,  0.1126, -0.0513],
+        [-0.0775,  0.1402, -0.1841,  ...,  0.0583,  0.0809, -0.0480],
+        ...,
+        [-0.0714, -0.1023, -0.0799,  ...,  0.0068, -0.1909,  0.1401],
+        [ 0.0567, -0.0310,  0.0899,  ...,  0.0047, -0.2205, -0.0167],
+        [-0.2055, -0.1068, -0.1293,  ..., -0.2271,  0.0647, -0.1061]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.1176e-08,  ...,  1.8626e-09,
+          1.4901e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -3.5390e-08,  ..., -1.8626e-09,
+         -4.0978e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ...,  1.8626e-09,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [-0.0000e+00,  0.0000e+00,  1.8626e-08,  ..., -3.7253e-09,
+          5.2154e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  1.8626e-09,
+          1.1176e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  1.8626e-09,
+         -1.8626e-08, -1.8626e-09]], device='cuda:0')
+Epoch 293, bias, value: tensor([-0.0090, -0.0359,  0.0073, -0.0160,  0.0102,  0.0119,  0.0259,  0.0033,
+        -0.0398, -0.0066], device='cuda:0'), grad: tensor([-1.9930e-07,  2.0489e-08,  3.5390e-08, -3.0808e-06, -4.3400e-07,
+         3.0566e-06, -5.5879e-08,  4.6752e-07,  8.0094e-08,  1.0058e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 292, time 246.77, cls_loss 0.0013 cls_loss_mapping 0.0016 cls_loss_causal 0.5066 re_mapping 0.0047 re_causal 0.0136 /// teacc 99.03 lr 0.00010000
+Epoch 294, weight, value: tensor([[ 0.0343, -0.1645, -0.1477,  ..., -0.3148, -0.1110, -0.1575],
+        [ 0.0585, -0.0735,  0.0383,  ...,  0.0506,  0.1128, -0.0515],
+        [-0.0789,  0.1406, -0.1845,  ...,  0.0583,  0.0812, -0.0483],
+        ...,
+        [-0.0708, -0.1022, -0.0800,  ...,  0.0069, -0.1911,  0.1405],
+        [ 0.0574, -0.0315,  0.0906,  ...,  0.0050, -0.2214, -0.0178],
+        [-0.2061, -0.1069, -0.1292,  ..., -0.2275,  0.0650, -0.1060]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  5.5879e-09,  0.0000e+00,  ...,  9.3132e-09,
+          3.1665e-08,  0.0000e+00],
+        [-1.8626e-09,  4.0419e-07, -0.0000e+00,  ...,  6.8545e-07,
+          5.2527e-07,  0.0000e+00],
+        [ 0.0000e+00, -4.7497e-07,  7.4506e-09,  ..., -7.8790e-07,
+         -1.1735e-06,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  4.0978e-08,  4.6566e-08,  ...,  9.8720e-08,
+          6.7055e-08,  0.0000e+00],
+        [ 0.0000e+00,  5.5879e-09,  3.7253e-09,  ...,  9.3132e-09,
+          3.9116e-08,  3.7253e-09],
+        [ 3.7253e-09,  5.5879e-09,  1.6764e-08,  ...,  2.4214e-08,
+          1.0245e-07,  0.0000e+00]], device='cuda:0')
+Epoch 294, bias, value: tensor([-0.0095, -0.0358,  0.0073, -0.0162,  0.0099,  0.0118,  0.0265,  0.0033,
+        -0.0396, -0.0064], device='cuda:0'), grad: tensor([-1.6112e-06,  1.0170e-06, -2.1849e-06, -3.8743e-07, -3.2783e-07,
+         1.0207e-06,  1.0021e-06,  2.8871e-07,  2.5891e-07,  9.3877e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 293, time 246.86, cls_loss 0.0013 cls_loss_mapping 0.0021 cls_loss_causal 0.4621 re_mapping 0.0045 re_causal 0.0131 /// teacc 99.05 lr 0.00010000
+Epoch 295, weight, value: tensor([[ 0.0342, -0.1649, -0.1478,  ..., -0.3151, -0.1112, -0.1580],
+        [ 0.0588, -0.0739,  0.0382,  ...,  0.0505,  0.1121, -0.0521],
+        [-0.0793,  0.1399, -0.1851,  ...,  0.0572,  0.0819, -0.0487],
+        ...,
+        [-0.0707, -0.1000, -0.0800,  ...,  0.0072, -0.1911,  0.1410],
+        [ 0.0592, -0.0313,  0.0912,  ...,  0.0060, -0.2221, -0.0176],
+        [-0.2077, -0.1084, -0.1287,  ..., -0.2283,  0.0653, -0.1061]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  3.3807e-07,  1.3039e-08,  ...,  8.3819e-09,
+          1.0747e-06,  0.0000e+00],
+        [-3.9116e-08,  1.8626e-09, -1.0312e-05,  ..., -1.0416e-05,
+         -1.5229e-05,  0.0000e+00],
+        [ 0.0000e+00,  2.2352e-08,  4.3772e-08,  ...,  3.7253e-08,
+          1.5181e-07,  0.0000e+00],
+        ...,
+        [ 4.6566e-09,  3.7253e-09,  7.9870e-06,  ...,  8.1435e-06,
+          1.1772e-05,  0.0000e+00],
+        [ 1.1176e-08,  5.1595e-07,  3.4459e-08,  ...,  1.5832e-08,
+          1.6298e-06,  9.3132e-10],
+        [ 1.8626e-09, -8.9966e-07,  2.0415e-06,  ...,  2.0880e-06,
+          2.4866e-07,  0.0000e+00]], device='cuda:0')
+Epoch 295, bias, value: tensor([-0.0092, -0.0364,  0.0067, -0.0162,  0.0097,  0.0117,  0.0267,  0.0037,
+        -0.0393, -0.0061], device='cuda:0'), grad: tensor([ 4.4517e-06, -6.3181e-05,  5.0385e-07,  8.2888e-08,  6.2771e-07,
+         1.2852e-07, -1.7136e-07,  4.9442e-05,  6.6943e-06,  1.4333e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 294, time 246.92, cls_loss 0.0011 cls_loss_mapping 0.0016 cls_loss_causal 0.4742 re_mapping 0.0046 re_causal 0.0138 /// teacc 99.09 lr 0.00010000
+Epoch 296, weight, value: tensor([[ 0.0341, -0.1652, -0.1483,  ..., -0.3154, -0.1114, -0.1589],
+        [ 0.0595, -0.0741,  0.0379,  ...,  0.0501,  0.1123, -0.0524],
+        [-0.0794,  0.1402, -0.1856,  ...,  0.0572,  0.0821, -0.0489],
+        ...,
+        [-0.0708, -0.1005, -0.0796,  ...,  0.0076, -0.1912,  0.1412],
+        [ 0.0588, -0.0306,  0.0915,  ...,  0.0065, -0.2230, -0.0184],
+        [-0.2084, -0.1084, -0.1292,  ..., -0.2293,  0.0653, -0.1062]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  4.6566e-09, -2.0489e-08,  ...,  3.7253e-09,
+          6.5193e-09, -1.1176e-07],
+        [ 2.7940e-09,  3.7253e-09,  2.5146e-08,  ...,  5.5879e-09,
+         -1.2107e-08,  0.0000e+00],
+        [ 2.7940e-09, -2.2259e-07,  4.0047e-08,  ..., -7.2643e-08,
+         -1.7416e-07,  1.3970e-08],
+        ...,
+        [ 1.8626e-09,  6.5193e-09,  2.0489e-08,  ..., -1.3039e-08,
+          1.3039e-08,  0.0000e+00],
+        [ 1.1176e-08,  1.7975e-07,  3.4459e-08,  ...,  6.7055e-08,
+          1.4994e-07,  1.8626e-08],
+        [ 3.3528e-08,  1.8626e-09,  1.9558e-08,  ...,  3.7253e-09,
+          1.9558e-08,  2.3283e-08]], device='cuda:0')
+Epoch 296, bias, value: tensor([-0.0092, -0.0369,  0.0066, -0.0168,  0.0098,  0.0124,  0.0268,  0.0042,
+        -0.0392, -0.0063], device='cuda:0'), grad: tensor([-1.2415e-06,  1.1455e-07, -3.7905e-07, -2.2538e-07, -3.0827e-07,
+        -1.5926e-07,  8.1398e-07, -1.0245e-08,  9.9558e-07,  4.1537e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 295, time 246.98, cls_loss 0.0009 cls_loss_mapping 0.0020 cls_loss_causal 0.5013 re_mapping 0.0046 re_causal 0.0141 /// teacc 98.99 lr 0.00010000
+Epoch 297, weight, value: tensor([[ 0.0339, -0.1655, -0.1488,  ..., -0.3157, -0.1112, -0.1591],
+        [ 0.0605, -0.0739,  0.0380,  ...,  0.0501,  0.1126, -0.0524],
+        [-0.0800,  0.1404, -0.1861,  ...,  0.0570,  0.0823, -0.0489],
+        ...,
+        [-0.0708, -0.1001, -0.0796,  ...,  0.0077, -0.1913,  0.1413],
+        [ 0.0582, -0.0308,  0.0918,  ...,  0.0064, -0.2238, -0.0187],
+        [-0.2103, -0.1091, -0.1297,  ..., -0.2298,  0.0651, -0.1061]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.0151e-07,  4.0978e-08,  ...,  6.1467e-08,
+          1.3970e-07,  0.0000e+00],
+        [-5.5879e-09,  2.8871e-08, -2.1420e-08,  ...,  5.2154e-08,
+          2.9802e-08,  0.0000e+00],
+        [ 9.3132e-10, -3.3341e-07, -8.4750e-08,  ..., -2.6729e-07,
+         -6.9756e-07,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  1.4901e-08, -3.7253e-09,  ..., -2.4214e-08,
+          2.9802e-08,  0.0000e+00],
+        [ 9.3132e-10,  8.9407e-08, -2.1420e-08,  ...,  4.0047e-08,
+          1.1642e-07,  0.0000e+00],
+        [ 0.0000e+00,  2.5146e-08,  2.2352e-08,  ...,  2.5146e-08,
+          2.7008e-08, -0.0000e+00]], device='cuda:0')
+Epoch 297, bias, value: tensor([-0.0090, -0.0369,  0.0065, -0.0167,  0.0100,  0.0119,  0.0270,  0.0043,
+        -0.0393, -0.0066], device='cuda:0'), grad: tensor([ 5.4669e-07,  2.4401e-07, -1.9204e-06,  2.2911e-07,  1.2107e-08,
+        -3.5297e-07,  8.5216e-07, -1.5274e-07,  3.7625e-07,  1.6391e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 296, time 246.83, cls_loss 0.0012 cls_loss_mapping 0.0016 cls_loss_causal 0.5075 re_mapping 0.0047 re_causal 0.0138 /// teacc 99.01 lr 0.00010000
+Epoch 298, weight, value: tensor([[ 0.0339, -0.1648, -0.1488,  ..., -0.3158, -0.1112, -0.1600],
+        [ 0.0607, -0.0737,  0.0380,  ...,  0.0501,  0.1133, -0.0527],
+        [-0.0801,  0.1403, -0.1875,  ...,  0.0565,  0.0812, -0.0491],
+        ...,
+        [-0.0752, -0.1001, -0.0795,  ...,  0.0076, -0.1917,  0.1423],
+        [ 0.0569, -0.0310,  0.0914,  ...,  0.0065, -0.2253, -0.0191],
+        [-0.2108, -0.1096, -0.1298,  ..., -0.2306,  0.0652, -0.1058]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  6.5193e-09,  3.0734e-08,  ...,  1.5832e-08,
+          7.4506e-09,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-09,  4.9360e-08,  ...,  2.4214e-08,
+         -5.1223e-08,  0.0000e+00],
+        [ 0.0000e+00, -2.7847e-07,  6.1840e-07,  ...,  7.6368e-08,
+         -1.8720e-07, -2.7940e-09],
+        ...,
+        [ 0.0000e+00,  8.0094e-08,  6.1188e-07,  ...,  3.2596e-07,
+          7.3574e-08,  9.3132e-10],
+        [ 0.0000e+00,  6.2399e-08,  1.8906e-07,  ...,  1.7323e-07,
+          2.2352e-08,  9.3132e-10],
+        [ 0.0000e+00,  9.3132e-10,  9.9652e-08,  ...,  4.6566e-09,
+          1.5367e-07,  0.0000e+00]], device='cuda:0')
+Epoch 298, bias, value: tensor([-0.0085, -0.0368,  0.0055, -0.0163,  0.0110,  0.0127,  0.0261,  0.0042,
+        -0.0404, -0.0067], device='cuda:0'), grad: tensor([ 7.4506e-09,  1.2852e-07,  8.1211e-07, -3.5875e-06, -7.7486e-07,
+         4.1071e-07,  1.8813e-07,  1.4259e-06,  4.6473e-07,  9.3039e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 297, time 247.10, cls_loss 0.0011 cls_loss_mapping 0.0019 cls_loss_causal 0.4632 re_mapping 0.0049 re_causal 0.0138 /// teacc 99.06 lr 0.00010000
+Epoch 299, weight, value: tensor([[ 0.0338, -0.1652, -0.1492,  ..., -0.3160, -0.1114, -0.1602],
+        [ 0.0617, -0.0738,  0.0399,  ...,  0.0508,  0.1138, -0.0528],
+        [-0.0803,  0.1403, -0.1885,  ...,  0.0562,  0.0814, -0.0491],
+        ...,
+        [-0.0765, -0.1002, -0.0813,  ...,  0.0071, -0.1920,  0.1427],
+        [ 0.0552, -0.0313,  0.0914,  ...,  0.0065, -0.2264, -0.0192],
+        [-0.2114, -0.1098, -0.1304,  ..., -0.2309,  0.0651, -0.1058]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  8.3819e-09,  9.3132e-09,  ...,  5.5879e-09,
+          1.3039e-08,  0.0000e+00],
+        [ 4.6566e-09,  3.7253e-09,  2.7940e-09,  ...,  3.0734e-08,
+         -5.5879e-09,  3.7253e-09],
+        [ 0.0000e+00, -4.7497e-08,  1.0245e-08,  ..., -2.3283e-08,
+         -5.6811e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.0245e-08,  2.1420e-08,  ..., -1.3970e-08,
+          1.5832e-08,  1.8626e-09],
+        [ 0.0000e+00,  3.7253e-09, -5.0291e-08,  ...,  3.7253e-09,
+          1.0245e-08,  0.0000e+00],
+        [ 9.3132e-10,  3.7253e-09,  2.4214e-08,  ...,  1.2107e-08,
+          3.7253e-09, -1.8626e-09]], device='cuda:0')
+Epoch 299, bias, value: tensor([-0.0074, -0.0352,  0.0054, -0.0165,  0.0104,  0.0116,  0.0270,  0.0030,
+        -0.0407, -0.0069], device='cuda:0'), grad: tensor([ 5.4948e-08,  1.3225e-07, -9.7789e-08, -3.5297e-07, -4.8429e-08,
+         3.7160e-07, -3.5390e-08,  0.0000e+00, -7.3574e-08,  7.4506e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 298, time 247.31, cls_loss 0.0011 cls_loss_mapping 0.0015 cls_loss_causal 0.4625 re_mapping 0.0047 re_causal 0.0134 /// teacc 99.10 lr 0.00010000
+Epoch 300, weight, value: tensor([[ 0.0338, -0.1664, -0.1499,  ..., -0.3171, -0.1116, -0.1636],
+        [ 0.0617, -0.0748,  0.0399,  ...,  0.0507,  0.1137, -0.0569],
+        [-0.0802,  0.1414, -0.1889,  ...,  0.0564,  0.0820, -0.0477],
+        ...,
+        [-0.0762, -0.1006, -0.0813,  ...,  0.0071, -0.1921,  0.1439],
+        [ 0.0552, -0.0317,  0.0921,  ...,  0.0065, -0.2269, -0.0198],
+        [-0.2114, -0.1101, -0.1309,  ..., -0.2320,  0.0652, -0.1057]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.4214e-08,  3.7253e-09,  ...,  1.1176e-08,
+          1.8626e-08,  0.0000e+00],
+        [-0.0000e+00,  1.3039e-08, -7.3947e-07,  ..., -6.4448e-07,
+         -1.3821e-06, -1.6764e-08],
+        [ 0.0000e+00, -1.9185e-07,  8.1956e-08,  ...,  1.6764e-08,
+          5.2154e-08,  1.8626e-09],
+        ...,
+        [ 0.0000e+00, -2.7940e-08,  5.1595e-07,  ...,  3.7253e-07,
+          1.0114e-06, -9.3132e-09],
+        [ 0.0000e+00,  7.6368e-08,  0.0000e+00,  ...,  3.3528e-08,
+          4.8429e-08,  1.8626e-09],
+        [ 0.0000e+00,  9.3132e-09,  5.5879e-09,  ...,  8.5682e-08,
+          9.4995e-08,  1.8626e-09]], device='cuda:0')
+Epoch 300, bias, value: tensor([-0.0075, -0.0354,  0.0058, -0.0163,  0.0103,  0.0114,  0.0272,  0.0032,
+        -0.0406, -0.0070], device='cuda:0'), grad: tensor([-1.3728e-06, -2.3898e-06,  3.5390e-08,  3.8929e-07, -1.4491e-06,
+         1.6950e-07,  1.2964e-06,  9.8348e-07,  3.0361e-07,  2.0359e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 299, time 247.14, cls_loss 0.0009 cls_loss_mapping 0.0019 cls_loss_causal 0.4949 re_mapping 0.0047 re_causal 0.0139 /// teacc 99.11 lr 0.00010000
+Epoch 301, weight, value: tensor([[ 0.0338, -0.1667, -0.1504,  ..., -0.3179, -0.1118, -0.1643],
+        [ 0.0619, -0.0754,  0.0400,  ...,  0.0506,  0.1140, -0.0576],
+        [-0.0803,  0.1418, -0.1893,  ...,  0.0564,  0.0824, -0.0478],
+        ...,
+        [-0.0762, -0.1003, -0.0814,  ...,  0.0072, -0.1923,  0.1451],
+        [ 0.0552, -0.0318,  0.0935,  ...,  0.0067, -0.2266, -0.0195],
+        [-0.2116, -0.1104, -0.1322,  ..., -0.2339,  0.0651, -0.1073]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.2352e-08,  6.3330e-07,  ...,  7.4506e-09,
+          4.6566e-08,  1.8626e-09],
+        [-3.7253e-09,  9.1270e-08,  3.7253e-09,  ...,  3.1665e-08,
+          1.2666e-07,  0.0000e+00],
+        [ 0.0000e+00, -2.0862e-07,  5.9605e-08,  ..., -2.0489e-08,
+         -3.6880e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.4901e-08,  3.7253e-08,  ...,  2.4214e-08,
+          2.9802e-08,  0.0000e+00],
+        [ 0.0000e+00,  6.3330e-08, -1.1995e-06,  ...,  4.4703e-08,
+          1.4529e-07,  5.5879e-09],
+        [ 0.0000e+00,  3.7253e-09,  4.2282e-07,  ...,  1.8626e-09,
+          3.4459e-07,  0.0000e+00]], device='cuda:0')
+Epoch 301, bias, value: tensor([-0.0075, -0.0355,  0.0059, -0.0164,  0.0102,  0.0107,  0.0277,  0.0034,
+        -0.0399, -0.0073], device='cuda:0'), grad: tensor([ 1.2126e-06,  2.6263e-07, -3.9116e-07, -3.1665e-07, -2.6301e-06,
+         2.2911e-07,  2.0303e-07,  1.7323e-07, -2.2743e-06,  3.5148e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 300, time 246.97, cls_loss 0.0010 cls_loss_mapping 0.0021 cls_loss_causal 0.4880 re_mapping 0.0046 re_causal 0.0143 /// teacc 99.04 lr 0.00010000
+Epoch 302, weight, value: tensor([[ 0.0338, -0.1673, -0.1507,  ..., -0.3197, -0.1119, -0.1623],
+        [ 0.0619, -0.0758,  0.0404,  ...,  0.0511,  0.1145, -0.0585],
+        [-0.0803,  0.1429, -0.1896,  ...,  0.0568,  0.0831, -0.0467],
+        ...,
+        [-0.0762, -0.1004, -0.0818,  ...,  0.0068, -0.1929,  0.1453],
+        [ 0.0552, -0.0328,  0.0947,  ...,  0.0063, -0.2275, -0.0206],
+        [-0.2117, -0.1107, -0.1324,  ..., -0.2357,  0.0652, -0.1093]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  1.1176e-08,  ...,  3.7253e-09,
+          1.8626e-08,  1.8626e-09],
+        [ 0.0000e+00,  3.7253e-08, -3.9116e-08,  ...,  3.5390e-08,
+         -5.4017e-08,  0.0000e+00],
+        [ 0.0000e+00, -6.7428e-07,  5.4017e-08,  ..., -8.1398e-07,
+         -4.5262e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  5.9605e-07,  2.7940e-08,  ...,  7.2271e-07,
+          4.4890e-07, -0.0000e+00],
+        [ 0.0000e+00,  9.3132e-09, -2.5705e-07,  ...,  1.1176e-08,
+         -1.8626e-09,  1.8626e-09],
+        [ 0.0000e+00,  1.8626e-09,  7.6368e-08,  ...,  7.4506e-09,
+          7.2643e-08,  0.0000e+00]], device='cuda:0')
+Epoch 302, bias, value: tensor([-0.0071, -0.0347,  0.0066, -0.0166,  0.0102,  0.0115,  0.0264,  0.0026,
+        -0.0396, -0.0076], device='cuda:0'), grad: tensor([ 5.1409e-07,  1.2666e-07, -2.7679e-06,  3.4422e-06, -1.3039e-07,
+        -7.2904e-06,  4.6752e-07,  2.6356e-06, -2.8685e-07,  3.2987e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 301, time 247.06, cls_loss 0.0008 cls_loss_mapping 0.0015 cls_loss_causal 0.4844 re_mapping 0.0045 re_causal 0.0139 /// teacc 99.08 lr 0.00010000
+Epoch 303, weight, value: tensor([[ 0.0337, -0.1678, -0.1513,  ..., -0.3198, -0.1120, -0.1624],
+        [ 0.0619, -0.0760,  0.0401,  ...,  0.0510,  0.1147, -0.0585],
+        [-0.0803,  0.1439, -0.1903,  ...,  0.0568,  0.0831, -0.0469],
+        ...,
+        [-0.0763, -0.1006, -0.0815,  ...,  0.0070, -0.1930,  0.1458],
+        [ 0.0552, -0.0338,  0.0949,  ...,  0.0060, -0.2279, -0.0207],
+        [-0.2118, -0.1109, -0.1327,  ..., -0.2364,  0.0650, -0.1093]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  3.7253e-09,  1.8626e-09,  ...,  1.8626e-09,
+          7.4506e-09,  1.8626e-09],
+        [ 0.0000e+00,  1.8626e-09, -2.0489e-08,  ...,  2.0489e-08,
+         -5.0291e-08,  0.0000e+00],
+        [ 0.0000e+00, -1.4901e-08,  2.3842e-07,  ...,  8.3819e-08,
+         -1.1735e-07, -2.9802e-08],
+        ...,
+        [ 0.0000e+00,  3.7253e-09,  6.5193e-08,  ..., -2.7940e-08,
+          2.7940e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.8626e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  2.0489e-08,  ...,  1.3039e-08,
+          7.4506e-07,  0.0000e+00]], device='cuda:0')
+Epoch 303, bias, value: tensor([-0.0070, -0.0351,  0.0067, -0.0167,  0.0105,  0.0114,  0.0265,  0.0030,
+        -0.0397, -0.0078], device='cuda:0'), grad: tensor([-1.3039e-08, -2.0489e-08,  3.5577e-07, -6.6124e-07, -3.0734e-06,
+         3.7253e-08,  1.6019e-07,  3.1665e-08,  1.1176e-08,  3.1553e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 302, time 246.98, cls_loss 0.0009 cls_loss_mapping 0.0018 cls_loss_causal 0.4887 re_mapping 0.0045 re_causal 0.0139 /// teacc 98.97 lr 0.00010000
+Epoch 304, weight, value: tensor([[ 0.0338, -0.1680, -0.1514,  ..., -0.3199, -0.1121, -0.1625],
+        [ 0.0620, -0.0757,  0.0401,  ...,  0.0507,  0.1149, -0.0586],
+        [-0.0804,  0.1445, -0.1915,  ...,  0.0567,  0.0826, -0.0471],
+        ...,
+        [-0.0763, -0.1006, -0.0814,  ...,  0.0074, -0.1930,  0.1463],
+        [ 0.0552, -0.0346,  0.0951,  ...,  0.0055, -0.2284, -0.0209],
+        [-0.2119, -0.1109, -0.1330,  ..., -0.2378,  0.0650, -0.1093]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  2.9802e-08,  ...,  1.1176e-08,
+          3.3528e-08,  0.0000e+00],
+        [ 5.5879e-09,  0.0000e+00, -7.4878e-07,  ..., -2.3097e-07,
+         -2.0470e-06,  0.0000e+00],
+        [ 0.0000e+00,  3.7253e-09,  1.5460e-07,  ...,  5.0291e-08,
+          2.8498e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-08,  ...,  1.3039e-08,
+          6.1467e-08, -0.0000e+00],
+        [-1.1176e-08, -7.4506e-09, -5.8301e-07,  ..., -2.0675e-07,
+         -9.6858e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  5.5879e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 304, bias, value: tensor([-0.0070, -0.0354,  0.0064, -0.0166,  0.0105,  0.0112,  0.0264,  0.0035,
+        -0.0398, -0.0080], device='cuda:0'), grad: tensor([ 6.7055e-08, -3.1833e-06,  5.5507e-07,  3.5204e-07,  2.4959e-07,
+        -2.7195e-07,  3.0268e-06,  1.5460e-07, -1.0785e-06,  1.1548e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 303, time 246.84, cls_loss 0.0010 cls_loss_mapping 0.0020 cls_loss_causal 0.4568 re_mapping 0.0044 re_causal 0.0127 /// teacc 99.03 lr 0.00010000
+Epoch 305, weight, value: tensor([[ 0.0337, -0.1685, -0.1525,  ..., -0.3203, -0.1123, -0.1626],
+        [ 0.0621, -0.0762,  0.0407,  ...,  0.0508,  0.1154, -0.0586],
+        [-0.0805,  0.1445, -0.1922,  ...,  0.0567,  0.0831, -0.0473],
+        ...,
+        [-0.0763, -0.1000, -0.0820,  ...,  0.0073, -0.1937,  0.1470],
+        [ 0.0553, -0.0348,  0.0954,  ...,  0.0054, -0.2292, -0.0210],
+        [-0.2120, -0.1111, -0.1334,  ..., -0.2400,  0.0649, -0.1097]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  3.7998e-07,  ...,  2.4587e-07,
+          7.4506e-09,  0.0000e+00],
+        [ 0.0000e+00,  3.7253e-09,  8.0094e-08,  ...,  7.0781e-08,
+         -5.4017e-08,  0.0000e+00],
+        [ 0.0000e+00, -1.8626e-08,  1.8254e-07,  ...,  8.7544e-08,
+         -1.6764e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.8626e-09,  1.0245e-07,  ...,  5.7742e-08,
+          3.7253e-08,  0.0000e+00],
+        [ 0.0000e+00,  3.7253e-09,  4.6380e-07,  ...,  3.0361e-07,
+          2.7940e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  6.7055e-08,  ...,  4.2841e-08,
+         -2.0675e-07,  0.0000e+00]], device='cuda:0')
+Epoch 305, bias, value: tensor([-0.0068, -0.0351,  0.0063, -0.0163,  0.0106,  0.0111,  0.0266,  0.0034,
+        -0.0402, -0.0084], device='cuda:0'), grad: tensor([-1.1027e-05,  2.8685e-07,  1.5721e-06, -5.3272e-06,  1.6019e-07,
+         4.0568e-06,  6.8024e-06,  2.5146e-07,  2.5406e-06,  6.2399e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 304, time 246.99, cls_loss 0.0010 cls_loss_mapping 0.0011 cls_loss_causal 0.4811 re_mapping 0.0044 re_causal 0.0131 /// teacc 99.02 lr 0.00010000
+Epoch 306, weight, value: tensor([[ 0.0335, -0.1687, -0.1532,  ..., -0.3206, -0.1124, -0.1626],
+        [ 0.0621, -0.0764,  0.0409,  ...,  0.0508,  0.1160, -0.0586],
+        [-0.0807,  0.1447, -0.1928,  ...,  0.0567,  0.0829, -0.0474],
+        ...,
+        [-0.0764, -0.1001, -0.0822,  ...,  0.0073, -0.1940,  0.1478],
+        [ 0.0553, -0.0349,  0.0962,  ...,  0.0059, -0.2297, -0.0211],
+        [-0.2127, -0.1111, -0.1338,  ..., -0.2403,  0.0643, -0.1097]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-09,  0.0000e+00],
+        [ 0.0000e+00,  3.7253e-09, -7.4506e-09,  ...,  1.8626e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  4.1351e-07,  5.5879e-09,  ...,  5.1782e-07,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [-1.8626e-09,  5.1036e-07,  1.1176e-08,  ...,  6.3702e-07,
+          8.5682e-08,  0.0000e+00],
+        [ 0.0000e+00,  3.7253e-09,  7.4506e-09,  ...,  7.4506e-09,
+          4.8429e-08,  1.8626e-09],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  1.8626e-09,
+         -7.8790e-07,  0.0000e+00]], device='cuda:0')
+Epoch 306, bias, value: tensor([-0.0067, -0.0350,  0.0060, -0.0163,  0.0111,  0.0110,  0.0265,  0.0035,
+        -0.0402, -0.0090], device='cuda:0'), grad: tensor([ 2.4214e-08,  6.5193e-08,  8.1956e-07, -1.8831e-06,  1.8161e-06,
+         1.1362e-07, -8.7544e-08,  1.1399e-06,  1.1176e-07, -2.1067e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 305, time 247.88, cls_loss 0.0011 cls_loss_mapping 0.0019 cls_loss_causal 0.4920 re_mapping 0.0044 re_causal 0.0132 /// teacc 99.07 lr 0.00010000
+Epoch 307, weight, value: tensor([[ 0.0335, -0.1691, -0.1533,  ..., -0.3209, -0.1124, -0.1626],
+        [ 0.0625, -0.0775,  0.0410,  ...,  0.0510,  0.1165, -0.0586],
+        [-0.0805,  0.1465, -0.1934,  ...,  0.0571,  0.0843, -0.0474],
+        ...,
+        [-0.0764, -0.1021, -0.0824,  ...,  0.0070, -0.1948,  0.1477],
+        [ 0.0550, -0.0349,  0.0964,  ...,  0.0060, -0.2307, -0.0215],
+        [-0.2129, -0.1116, -0.1340,  ..., -0.2420,  0.0638, -0.1097]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  1.8626e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  3.7253e-09, -1.8626e-09,  ...,  5.5879e-09,
+         -2.6077e-08,  0.0000e+00],
+        [ 0.0000e+00, -7.4506e-09,  1.6764e-08,  ...,  1.8626e-09,
+         -9.3132e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.8626e-09,  2.4214e-08,  ...,  2.4214e-08,
+          1.1176e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -4.8429e-08,  ..., -1.6764e-08,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  5.5879e-09,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 307, bias, value: tensor([-0.0062, -0.0348,  0.0068, -0.0162,  0.0118,  0.0110,  0.0266,  0.0032,
+        -0.0403, -0.0097], device='cuda:0'), grad: tensor([ 3.7253e-09,  1.8626e-08,  9.3132e-09, -5.1893e-06, -7.4506e-09,
+         5.1111e-06,  2.7940e-08,  7.2643e-08, -8.9407e-08,  2.9802e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 306, time 247.89, cls_loss 0.0008 cls_loss_mapping 0.0021 cls_loss_causal 0.4841 re_mapping 0.0046 re_causal 0.0139 /// teacc 98.97 lr 0.00010000
+Epoch 308, weight, value: tensor([[ 0.0335, -0.1691, -0.1533,  ..., -0.3220, -0.1128, -0.1626],
+        [ 0.0625, -0.0772,  0.0411,  ...,  0.0510,  0.1166, -0.0586],
+        [-0.0807,  0.1464, -0.1940,  ...,  0.0572,  0.0847, -0.0474],
+        ...,
+        [-0.0764, -0.1022, -0.0824,  ...,  0.0070, -0.1950,  0.1477],
+        [ 0.0550, -0.0349,  0.0965,  ...,  0.0059, -0.2316, -0.0215],
+        [-0.2130, -0.1116, -0.1342,  ..., -0.2424,  0.0638, -0.1097]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  7.4506e-09,  ...,  7.4506e-09,
+          6.3330e-08,  0.0000e+00],
+        [ 5.5879e-09,  1.8626e-09,  4.0792e-07,  ...,  3.2410e-07,
+         -4.2841e-08,  0.0000e+00],
+        [ 0.0000e+00, -1.6764e-08,  2.2352e-07,  ...,  1.4529e-07,
+          6.8918e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -9.3132e-09,  3.7253e-08,  ..., -2.3283e-07,
+          1.3970e-07,  0.0000e+00],
+        [-1.4901e-08,  1.1176e-08, -1.1642e-06,  ..., -6.3889e-07,
+         -1.2107e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  5.0291e-08,  ...,  3.5390e-08,
+          4.7684e-07,  0.0000e+00]], device='cuda:0')
+Epoch 308, bias, value: tensor([-0.0067, -0.0348,  0.0070, -0.0161,  0.0117,  0.0109,  0.0273,  0.0032,
+        -0.0404, -0.0098], device='cuda:0'), grad: tensor([ 1.7509e-07,  1.5777e-06,  5.8115e-07, -5.5879e-08, -2.1439e-06,
+         1.2573e-06,  3.0175e-07, -3.9116e-07, -3.0529e-06,  1.7565e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 307, time 247.48, cls_loss 0.0014 cls_loss_mapping 0.0022 cls_loss_causal 0.4957 re_mapping 0.0044 re_causal 0.0130 /// teacc 99.04 lr 0.00010000
+Epoch 309, weight, value: tensor([[ 0.0333, -0.1693, -0.1541,  ..., -0.3229, -0.1160, -0.1629],
+        [ 0.0624, -0.0772,  0.0414,  ...,  0.0510,  0.1177, -0.0585],
+        [-0.0809,  0.1466, -0.1963,  ...,  0.0566,  0.0834, -0.0476],
+        ...,
+        [-0.0765, -0.1023, -0.0826,  ...,  0.0072, -0.1952,  0.1482],
+        [ 0.0549, -0.0349,  0.0972,  ...,  0.0061, -0.2318, -0.0216],
+        [-0.2132, -0.1116, -0.1349,  ..., -0.2431,  0.0665, -0.1095]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  6.3330e-08,  ...,  8.3819e-08,
+          7.0781e-08,  0.0000e+00],
+        [ 1.8626e-09, -2.2352e-08, -3.3528e-08,  ...,  5.0664e-07,
+          3.8929e-07,  0.0000e+00],
+        [ 5.5879e-09,  1.8626e-09,  1.4156e-07,  ..., -2.1346e-06,
+         -2.1551e-06,  0.0000e+00],
+        ...,
+        [ 1.1176e-08,  1.8626e-09,  1.3970e-07,  ...,  1.1921e-06,
+          1.2275e-06,  0.0000e+00],
+        [-2.9802e-08,  0.0000e+00, -1.8254e-07,  ...,  9.8720e-08,
+          1.1176e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.9802e-08,  ...,  1.4901e-08,
+          2.3656e-07, -0.0000e+00]], device='cuda:0')
+Epoch 309, bias, value: tensor([-0.0097, -0.0348,  0.0064, -0.0159,  0.0117,  0.0105,  0.0269,  0.0034,
+        -0.0399, -0.0074], device='cuda:0'), grad: tensor([ 3.8743e-07,  1.7621e-06, -6.1691e-06, -6.6236e-06, -5.7183e-07,
+         6.5267e-06,  2.4214e-07,  3.9116e-06, -1.1921e-07,  6.4634e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 308, time 247.75, cls_loss 0.0011 cls_loss_mapping 0.0019 cls_loss_causal 0.4888 re_mapping 0.0045 re_causal 0.0132 /// teacc 99.05 lr 0.00010000
+Epoch 310, weight, value: tensor([[ 0.0331, -0.1693, -0.1543,  ..., -0.3231, -0.1169, -0.1629],
+        [ 0.0626, -0.0772,  0.0414,  ...,  0.0510,  0.1179, -0.0585],
+        [-0.0812,  0.1466, -0.1969,  ...,  0.0564,  0.0835, -0.0476],
+        ...,
+        [-0.0765, -0.1024, -0.0826,  ...,  0.0074, -0.1954,  0.1484],
+        [ 0.0542, -0.0349,  0.0980,  ...,  0.0070, -0.2319, -0.0218],
+        [-0.2147, -0.1117, -0.1355,  ..., -0.2465,  0.0672, -0.1095]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.8626e-09,
+          7.4506e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -4.2841e-08,  ...,  5.0291e-08,
+         -5.9605e-08,  0.0000e+00],
+        [ 0.0000e+00, -9.3132e-09,  1.3597e-07,  ..., -5.5879e-09,
+         -1.6019e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  7.4506e-09,  1.6764e-08,  ..., -6.1467e-08,
+          4.0978e-08,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09, -1.1176e-08,  ...,  9.3132e-09,
+          1.6764e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.1176e-08,  ...,  9.3132e-09,
+         -3.3528e-08,  0.0000e+00]], device='cuda:0')
+Epoch 310, bias, value: tensor([-0.0102, -0.0348,  0.0061, -0.0160,  0.0119,  0.0106,  0.0265,  0.0035,
+        -0.0397, -0.0070], device='cuda:0'), grad: tensor([-3.3528e-08,  8.9407e-08,  3.3528e-08, -2.4028e-07,  2.6636e-07,
+         7.4506e-08, -2.6077e-08, -1.1921e-07,  2.0489e-08, -9.3132e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 309, time 247.43, cls_loss 0.0011 cls_loss_mapping 0.0017 cls_loss_causal 0.4760 re_mapping 0.0044 re_causal 0.0136 /// teacc 98.99 lr 0.00010000
+Epoch 311, weight, value: tensor([[ 0.0326, -0.1694, -0.1548,  ..., -0.3232, -0.1183, -0.1629],
+        [ 0.0629, -0.0778,  0.0414,  ...,  0.0508,  0.1179, -0.0582],
+        [-0.0813,  0.1467, -0.1979,  ...,  0.0556,  0.0834, -0.0476],
+        ...,
+        [-0.0766, -0.1024, -0.0826,  ...,  0.0076, -0.1954,  0.1485],
+        [ 0.0541, -0.0354,  0.0982,  ...,  0.0069, -0.2324, -0.0219],
+        [-0.2166, -0.1117, -0.1358,  ..., -0.2473,  0.0683, -0.1095]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  7.6368e-08,  ...,  2.9802e-08,
+          4.2282e-06,  0.0000e+00],
+        [ 0.0000e+00, -1.8626e-09, -9.9652e-07,  ..., -4.1164e-07,
+         -1.2983e-06,  0.0000e+00],
+        [ 0.0000e+00, -1.1176e-08,  4.9174e-07,  ...,  1.8999e-07,
+          6.8769e-06,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  3.7253e-09,  8.1956e-08,  ...,  4.0978e-08,
+          1.0058e-07,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-09,  9.1270e-08,  ...,  4.4703e-08,
+          2.2911e-07, -1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  3.7253e-09,
+          1.0245e-07,  0.0000e+00]], device='cuda:0')
+Epoch 311, bias, value: tensor([-0.0114, -0.0349,  0.0053, -0.0151,  0.0127,  0.0105,  0.0271,  0.0037,
+        -0.0400, -0.0065], device='cuda:0'), grad: tensor([ 2.1532e-05, -2.0266e-06,  3.4511e-05,  4.8243e-07,  5.5134e-06,
+         4.4890e-07, -6.2585e-05,  2.0489e-07,  6.0722e-07,  1.1604e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 310, time 247.63, cls_loss 0.0010 cls_loss_mapping 0.0020 cls_loss_causal 0.4844 re_mapping 0.0044 re_causal 0.0129 /// teacc 99.10 lr 0.00010000
+Epoch 312, weight, value: tensor([[ 0.0326, -0.1696, -0.1557,  ..., -0.3235, -0.1183, -0.1631],
+        [ 0.0619, -0.0779,  0.0417,  ...,  0.0509,  0.1185, -0.0581],
+        [-0.0814,  0.1471, -0.1985,  ...,  0.0554,  0.0831, -0.0477],
+        ...,
+        [-0.0753, -0.1029, -0.0828,  ...,  0.0073, -0.1956,  0.1487],
+        [ 0.0541, -0.0355,  0.0986,  ...,  0.0068, -0.2331, -0.0220],
+        [-0.2187, -0.1119, -0.1370,  ..., -0.2484,  0.0682, -0.1095]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  5.5879e-08,  ...,  6.2212e-07,
+          1.2759e-06,  1.6764e-08],
+        [ 0.0000e+00,  1.8626e-09, -1.1493e-06,  ..., -2.0117e-07,
+         -1.7844e-06, -5.2154e-07],
+        [ 0.0000e+00, -1.1176e-08,  1.1921e-07,  ..., -7.2084e-07,
+         -1.5572e-06, -1.1176e-08],
+        ...,
+        [ 0.0000e+00,  5.5879e-09,  6.3330e-08,  ...,  1.4901e-08,
+          4.4703e-08,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00, -8.6799e-06,  ...,  1.0058e-07,
+          1.0617e-07,  1.4901e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-08,  ...,  7.4506e-09,
+         -2.2352e-08,  0.0000e+00]], device='cuda:0')
+Epoch 312, bias, value: tensor([-0.0115, -0.0348,  0.0049, -0.0147,  0.0131,  0.0103,  0.0277,  0.0036,
+        -0.0401, -0.0068], device='cuda:0'), grad: tensor([ 3.7141e-06, -3.6955e-06, -4.2915e-06, -6.3330e-08,  6.7614e-07,
+         1.9930e-07,  1.7002e-05,  1.2852e-07, -1.3843e-05,  1.4342e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 311, time 247.52, cls_loss 0.0011 cls_loss_mapping 0.0017 cls_loss_causal 0.4585 re_mapping 0.0043 re_causal 0.0126 /// teacc 99.08 lr 0.00010000
+Epoch 313, weight, value: tensor([[ 0.0323, -0.1699, -0.1579,  ..., -0.3243, -0.1183, -0.1634],
+        [ 0.0618, -0.0775,  0.0417,  ...,  0.0510,  0.1191, -0.0581],
+        [-0.0815,  0.1473, -0.2002,  ...,  0.0552,  0.0832, -0.0471],
+        ...,
+        [-0.0752, -0.1031, -0.0828,  ...,  0.0072, -0.1962,  0.1489],
+        [ 0.0542, -0.0365,  0.0988,  ...,  0.0055, -0.2347, -0.0224],
+        [-0.2188, -0.1119, -0.1376,  ..., -0.2492,  0.0682, -0.1095]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.3039e-08,  ...,  2.4214e-08,
+          1.1176e-08,  1.8626e-09],
+        [-0.0000e+00,  1.8626e-09, -9.3132e-09,  ...,  2.7120e-06,
+         -5.5879e-08,  1.8626e-09],
+        [ 0.0000e+00, -3.9116e-08,  5.7742e-08,  ..., -2.8498e-07,
+         -3.3341e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.9116e-08,  ..., -3.7681e-06,
+          7.4506e-09, -1.1735e-07],
+        [ 0.0000e+00,  3.7253e-08,  1.1362e-07,  ...,  4.4331e-07,
+          3.6508e-07,  7.4506e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-08,  ...,  6.7055e-08,
+         -4.6566e-08,  1.0058e-07]], device='cuda:0')
+Epoch 313, bias, value: tensor([-0.0116, -0.0348,  0.0047, -0.0136,  0.0132,  0.0104,  0.0275,  0.0036,
+        -0.0410, -0.0069], device='cuda:0'), grad: tensor([ 1.1735e-07,  6.6832e-06, -5.0850e-07,  9.1270e-07,  2.4028e-07,
+         9.1642e-07, -2.1048e-07, -1.0625e-05,  1.2368e-06,  1.2219e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 312, time 248.01, cls_loss 0.0013 cls_loss_mapping 0.0015 cls_loss_causal 0.5104 re_mapping 0.0044 re_causal 0.0129 /// teacc 99.07 lr 0.00010000
+Epoch 314, weight, value: tensor([[ 0.0322, -0.1705, -0.1580,  ..., -0.3249, -0.1183, -0.1632],
+        [ 0.0622, -0.0783,  0.0403,  ...,  0.0498,  0.1192, -0.0585],
+        [-0.0818,  0.1473, -0.2017,  ...,  0.0548,  0.0832, -0.0472],
+        ...,
+        [-0.0753, -0.1014, -0.0815,  ...,  0.0085, -0.1968,  0.1492],
+        [ 0.0542, -0.0375,  0.0987,  ...,  0.0045, -0.2365, -0.0228],
+        [-0.2189, -0.1120, -0.1382,  ..., -0.2504,  0.0685, -0.1097]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  5.5879e-09,  0.0000e+00,  ...,  2.0489e-08,
+          3.3528e-08,  0.0000e+00],
+        [ 0.0000e+00,  3.5763e-07,  7.4506e-09,  ...,  7.7486e-07,
+          1.4491e-06,  0.0000e+00],
+        [ 0.0000e+00, -5.3085e-07,  2.6077e-08,  ..., -1.0375e-06,
+         -1.8850e-06,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  9.6858e-08,  5.4017e-08,  ...,  1.9185e-07,
+          6.2212e-07, -1.8626e-09],
+        [ 0.0000e+00,  1.3039e-08,  9.3132e-09,  ...,  2.6077e-08,
+          3.9116e-08,  0.0000e+00],
+        [ 0.0000e+00,  3.7253e-09,  0.0000e+00,  ...,  5.5879e-09,
+         -1.1381e-06,  0.0000e+00]], device='cuda:0')
+Epoch 314, bias, value: tensor([-0.0115, -0.0363,  0.0041, -0.0132,  0.0128,  0.0100,  0.0287,  0.0048,
+        -0.0424, -0.0066], device='cuda:0'), grad: tensor([ 5.0291e-08,  2.5444e-06, -3.4533e-06, -1.1176e-08,  4.9546e-06,
+         8.5682e-08,  7.8231e-08,  3.1702e-06,  1.8440e-07, -7.6145e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 313, time 247.84, cls_loss 0.0010 cls_loss_mapping 0.0019 cls_loss_causal 0.4694 re_mapping 0.0046 re_causal 0.0134 /// teacc 98.97 lr 0.00010000
+Epoch 315, weight, value: tensor([[ 0.0318, -0.1703, -0.1576,  ..., -0.3253, -0.1184, -0.1632],
+        [ 0.0624, -0.0783,  0.0403,  ...,  0.0496,  0.1190, -0.0585],
+        [-0.0798,  0.1475, -0.2013,  ...,  0.0563,  0.0849, -0.0472],
+        ...,
+        [-0.0746, -0.1014, -0.0815,  ...,  0.0087, -0.1972,  0.1492],
+        [ 0.0541, -0.0378,  0.0990,  ...,  0.0042, -0.2372, -0.0228],
+        [-0.2189, -0.1124, -0.1391,  ..., -0.2529,  0.0682, -0.1097]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          5.5879e-09,  0.0000e+00],
+        [ 3.7253e-09,  0.0000e+00, -3.1665e-08,  ..., -0.0000e+00,
+         -2.6077e-08,  0.0000e+00],
+        [ 1.8626e-09, -1.8626e-09,  3.7253e-09,  ..., -0.0000e+00,
+         -3.7253e-09,  0.0000e+00],
+        ...,
+        [ 3.7253e-09,  0.0000e+00,  1.1176e-08,  ..., -2.2352e-08,
+          2.9802e-08,  0.0000e+00],
+        [ 3.7253e-09,  0.0000e+00, -1.8626e-09,  ...,  0.0000e+00,
+          2.0489e-08,  0.0000e+00],
+        [ 1.6764e-08,  0.0000e+00,  1.8626e-09,  ...,  3.7253e-09,
+          1.8626e-08,  0.0000e+00]], device='cuda:0')
+Epoch 315, bias, value: tensor([-0.0115, -0.0366,  0.0060, -0.0156,  0.0126,  0.0116,  0.0290,  0.0051,
+        -0.0428, -0.0069], device='cuda:0'), grad: tensor([-5.5879e-09, -1.4901e-08,  2.6077e-08,  1.3039e-08, -4.1537e-07,
+         2.6636e-07, -2.0303e-07,  4.6566e-08,  8.5682e-08,  1.9372e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 314, time 247.60, cls_loss 0.0012 cls_loss_mapping 0.0016 cls_loss_causal 0.4749 re_mapping 0.0044 re_causal 0.0129 /// teacc 99.13 lr 0.00010000
+Epoch 316, weight, value: tensor([[ 0.0313, -0.1705, -0.1582,  ..., -0.3256, -0.1184, -0.1632],
+        [ 0.0623, -0.0786,  0.0402,  ...,  0.0494,  0.1193, -0.0585],
+        [-0.0799,  0.1480, -0.2022,  ...,  0.0565,  0.0854, -0.0472],
+        ...,
+        [-0.0739, -0.1018, -0.0815,  ...,  0.0088, -0.1977,  0.1493],
+        [ 0.0544, -0.0378,  0.1017,  ...,  0.0060, -0.2361, -0.0228],
+        [-0.2199, -0.1124, -0.1415,  ..., -0.2548,  0.0684, -0.1097]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  5.5879e-09,  0.0000e+00,  ...,  5.5879e-09,
+          1.1176e-08,  0.0000e+00],
+        [ 0.0000e+00,  1.1176e-08, -1.8626e-09,  ...,  1.1176e-08,
+          1.6764e-08,  0.0000e+00],
+        [ 0.0000e+00, -5.5879e-08,  3.7253e-09,  ..., -1.3039e-07,
+         -8.7544e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.6764e-08,  1.8626e-09,  ...,  3.7253e-08,
+          3.1665e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -7.4506e-09,  ..., -1.8626e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  1.8626e-09,
+         -5.5879e-09,  0.0000e+00]], device='cuda:0')
+Epoch 316, bias, value: tensor([-0.0112, -0.0367,  0.0061, -0.0160,  0.0125,  0.0117,  0.0291,  0.0049,
+        -0.0412, -0.0070], device='cuda:0'), grad: tensor([-7.7337e-06,  8.5682e-08,  6.5193e-08,  6.5193e-07,  2.8498e-07,
+        -2.0675e-07,  5.4166e-06,  1.5646e-07,  3.5949e-07,  8.9407e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 315----------------------------------------------------
+epoch 315, time 262.52, cls_loss 0.0011 cls_loss_mapping 0.0018 cls_loss_causal 0.4901 re_mapping 0.0043 re_causal 0.0132 /// teacc 99.15 lr 0.00010000
+Epoch 317, weight, value: tensor([[ 0.0311, -0.1708, -0.1592,  ..., -0.3269, -0.1189, -0.1632],
+        [ 0.0639, -0.0789,  0.0411,  ...,  0.0502,  0.1209, -0.0586],
+        [-0.0801,  0.1491, -0.2031,  ...,  0.0564,  0.0860, -0.0472],
+        ...,
+        [-0.0741, -0.1035, -0.0823,  ...,  0.0081, -0.1994,  0.1496],
+        [ 0.0532, -0.0378,  0.1018,  ...,  0.0059, -0.2368, -0.0229],
+        [-0.2202, -0.1127, -0.1421,  ..., -0.2574,  0.0688, -0.1097]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  1.8626e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  5.9605e-08,  ...,  2.4214e-08,
+         -1.4901e-08,  0.0000e+00],
+        [ 0.0000e+00, -3.7253e-09,  3.7253e-08,  ...,  9.3132e-09,
+          2.7940e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.8626e-09,  3.3528e-08,  ...,  7.4506e-09,
+          1.4901e-08, -0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -4.5635e-07,  ..., -1.1735e-07,
+         -3.7253e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.4529e-07,  ...,  7.4506e-09,
+          2.9802e-08,  0.0000e+00]], device='cuda:0')
+Epoch 317, bias, value: tensor([-0.0117, -0.0357,  0.0062, -0.0156,  0.0125,  0.0116,  0.0286,  0.0042,
+        -0.0415, -0.0068], device='cuda:0'), grad: tensor([-1.0058e-07,  1.8254e-07,  1.9372e-07, -5.7742e-08, -1.7509e-07,
+         2.7940e-07,  2.2724e-07,  9.1270e-08, -1.1902e-06,  5.2899e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 316, time 247.74, cls_loss 0.0010 cls_loss_mapping 0.0023 cls_loss_causal 0.4621 re_mapping 0.0044 re_causal 0.0130 /// teacc 99.07 lr 0.00010000
+Epoch 318, weight, value: tensor([[ 0.0304, -0.1709, -0.1607,  ..., -0.3272, -0.1195, -0.1633],
+        [ 0.0653, -0.0792,  0.0415,  ...,  0.0504,  0.1214, -0.0586],
+        [-0.0802,  0.1492, -0.2039,  ...,  0.0563,  0.0860, -0.0472],
+        ...,
+        [-0.0742, -0.1037, -0.0826,  ...,  0.0080, -0.1999,  0.1497],
+        [ 0.0524, -0.0374,  0.1025,  ...,  0.0059, -0.2371, -0.0228],
+        [-0.2210, -0.1128, -0.1428,  ..., -0.2589,  0.0692, -0.1097]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  1.8626e-09,
+          2.4214e-08,  0.0000e+00],
+        [-1.3039e-08,  1.8626e-09, -8.3819e-08,  ..., -1.8626e-09,
+         -1.0431e-07,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  8.5682e-08,  ...,  7.0781e-08,
+          1.8626e-08,  0.0000e+00],
+        ...,
+        [ 1.8626e-09, -5.5879e-09,  4.0978e-08,  ...,  9.3132e-09,
+          4.6566e-08,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ..., -0.0000e+00,
+          2.0489e-08,  0.0000e+00],
+        [ 1.8626e-09,  1.8626e-09,  7.4506e-09,  ...,  7.4506e-09,
+          5.8450e-06,  0.0000e+00]], device='cuda:0')
+Epoch 318, bias, value: tensor([-0.0123, -0.0355,  0.0060, -0.0154,  0.0129,  0.0116,  0.0283,  0.0041,
+        -0.0413, -0.0066], device='cuda:0'), grad: tensor([ 2.7940e-08, -1.9930e-07,  3.7812e-07, -7.8045e-07, -1.8775e-05,
+         2.8312e-07,  1.0617e-07,  1.7695e-07,  8.5682e-08,  1.8686e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 317, time 247.55, cls_loss 0.0011 cls_loss_mapping 0.0021 cls_loss_causal 0.4965 re_mapping 0.0042 re_causal 0.0127 /// teacc 99.07 lr 0.00010000
+Epoch 319, weight, value: tensor([[ 0.0300, -0.1713, -0.1606,  ..., -0.3284, -0.1196, -0.1633],
+        [ 0.0662, -0.0795,  0.0415,  ...,  0.0503,  0.1212, -0.0586],
+        [-0.0804,  0.1498, -0.2047,  ...,  0.0565,  0.0866, -0.0471],
+        ...,
+        [-0.0751, -0.1037, -0.0826,  ...,  0.0082, -0.2002,  0.1497],
+        [ 0.0519, -0.0376,  0.1026,  ...,  0.0053, -0.2384, -0.0229],
+        [-0.2212, -0.1134, -0.1435,  ..., -0.2603,  0.0692, -0.1097]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.7567e-07,  5.5879e-09,  ...,  2.8312e-07,
+          3.4459e-07,  0.0000e+00],
+        [ 0.0000e+00,  2.4214e-08, -2.2911e-07,  ...,  1.0058e-07,
+         -1.7136e-07,  0.0000e+00],
+        [ 0.0000e+00, -8.5831e-06,  3.7253e-09,  ..., -8.0168e-06,
+         -6.9477e-06,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  6.1318e-06, -1.3039e-08,  ...,  5.8971e-06,
+          6.2138e-06,  0.0000e+00],
+        [ 0.0000e+00,  5.5879e-09,  1.1176e-08,  ...,  1.3039e-08,
+          9.1456e-07,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-09,  1.8626e-09,  ...,  2.0489e-08,
+         -3.3658e-06,  0.0000e+00]], device='cuda:0')
+Epoch 319, bias, value: tensor([-0.0123, -0.0358,  0.0064, -0.0153,  0.0134,  0.0113,  0.0290,  0.0043,
+        -0.0415, -0.0067], device='cuda:0'), grad: tensor([ 1.3504e-06,  2.4959e-07, -3.3647e-05,  4.5002e-06,  8.0615e-06,
+         1.2852e-07,  6.4075e-07,  2.8253e-05,  3.5781e-06, -1.3113e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 318, time 247.68, cls_loss 0.0010 cls_loss_mapping 0.0016 cls_loss_causal 0.4978 re_mapping 0.0045 re_causal 0.0134 /// teacc 99.14 lr 0.00010000
+Epoch 320, weight, value: tensor([[ 0.0304, -0.1716, -0.1609,  ..., -0.3288, -0.1196, -0.1634],
+        [ 0.0667, -0.0795,  0.0390,  ...,  0.0481,  0.1201, -0.0581],
+        [-0.0821,  0.1531, -0.2047,  ...,  0.0579,  0.0881, -0.0467],
+        ...,
+        [-0.0746, -0.1044, -0.0800,  ...,  0.0104, -0.1993,  0.1497],
+        [ 0.0511, -0.0418,  0.1029,  ...,  0.0021, -0.2418, -0.0229],
+        [-0.2218, -0.1136, -0.1450,  ..., -0.2606,  0.0686, -0.1097]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-10,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.4622e-07,  ..., -5.5879e-09,
+         -1.4994e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.7695e-08,  ...,  9.3132e-09,
+          3.7253e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.2841e-08,  ...,  1.1176e-08,
+          3.5390e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ..., -3.7253e-09,
+          1.6764e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  5.5879e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 320, bias, value: tensor([-0.0122, -0.0384,  0.0077, -0.0151,  0.0154,  0.0111,  0.0286,  0.0066,
+        -0.0425, -0.0074], device='cuda:0'), grad: tensor([-1.6550e-06, -3.9302e-07,  1.2293e-07, -1.6950e-07,  1.1083e-07,
+         2.3283e-07,  1.1893e-06,  1.0990e-07,  7.0781e-08,  3.7253e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 319, time 247.65, cls_loss 0.0011 cls_loss_mapping 0.0020 cls_loss_causal 0.4931 re_mapping 0.0044 re_causal 0.0135 /// teacc 99.12 lr 0.00010000
+Epoch 321, weight, value: tensor([[ 3.0378e-02, -1.7106e-01, -1.6109e-01,  ..., -3.2938e-01,
+         -1.1967e-01, -1.6352e-01],
+        [ 6.6724e-02, -7.9626e-02,  4.1876e-02,  ...,  5.1007e-02,
+          1.2290e-01, -5.8057e-02],
+        [-8.2117e-02,  1.5526e-01, -2.0492e-01,  ...,  5.9575e-02,
+          9.0294e-02, -4.6785e-02],
+        ...,
+        [-7.4841e-02, -1.0425e-01, -8.2905e-02,  ...,  7.3642e-03,
+         -2.0240e-01,  1.4974e-01],
+        [ 5.1117e-02, -4.4042e-02,  1.0306e-01,  ..., -2.9579e-04,
+         -2.4396e-01, -2.3038e-02],
+        [-2.2142e-01, -1.1395e-01, -1.4675e-01,  ..., -2.6159e-01,
+          6.8663e-02, -1.0971e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          2.0489e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -2.6077e-08,  ...,  5.5879e-09,
+         -2.6077e-08,  0.0000e+00],
+        [ 0.0000e+00, -1.4529e-07,  2.2352e-08,  ..., -1.9744e-07,
+         -2.8312e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.8626e-09,  7.4506e-09,  ..., -1.4901e-08,
+          5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+          7.4506e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-09,
+          3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 321, bias, value: tensor([-0.0123, -0.0355,  0.0092, -0.0147,  0.0154,  0.0119,  0.0273,  0.0037,
+        -0.0439, -0.0076], device='cuda:0'), grad: tensor([-9.1828e-07, -1.1176e-08, -5.4017e-07,  5.1968e-07,  2.4214e-08,
+         1.0245e-07,  3.1292e-07, -1.0058e-07,  3.1665e-08,  5.7183e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 320, time 247.58, cls_loss 0.0010 cls_loss_mapping 0.0018 cls_loss_causal 0.4941 re_mapping 0.0044 re_causal 0.0133 /// teacc 99.10 lr 0.00010000
+Epoch 322, weight, value: tensor([[ 0.0303, -0.1707, -0.1615,  ..., -0.3296, -0.1197, -0.1635],
+        [ 0.0668, -0.0798,  0.0397,  ...,  0.0495,  0.1212, -0.0581],
+        [-0.0821,  0.1547, -0.2017,  ...,  0.0601,  0.0934, -0.0468],
+        ...,
+        [-0.0749, -0.1017, -0.0811,  ...,  0.0089, -0.2018,  0.1496],
+        [ 0.0511, -0.0453,  0.1035,  ..., -0.0017, -0.2454, -0.0231],
+        [-0.2214, -0.1142, -0.1477,  ..., -0.2626,  0.0687, -0.1097]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  8.5682e-08,  ...,  3.7253e-09,
+          5.7742e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  5.5879e-08,
+         -1.6764e-08,  0.0000e+00],
+        [ 0.0000e+00, -1.8626e-09,  5.4017e-08,  ..., -1.8626e-09,
+         -4.8429e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ..., -1.0990e-07,
+          1.6764e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -3.4273e-07,  ...,  1.4901e-08,
+         -5.0291e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-08,  ...,  1.1176e-08,
+         -0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 322, bias, value: tensor([-0.0121, -0.0371,  0.0104, -0.0149,  0.0151,  0.0117,  0.0272,  0.0052,
+        -0.0447, -0.0077], device='cuda:0'), grad: tensor([ 2.3842e-07,  1.6764e-07, -2.2352e-08,  1.0990e-07,  6.1467e-08,
+         2.4214e-07,  3.1665e-08, -5.6624e-07, -5.9232e-07,  3.2224e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 321, time 247.45, cls_loss 0.0010 cls_loss_mapping 0.0021 cls_loss_causal 0.4571 re_mapping 0.0044 re_causal 0.0126 /// teacc 99.02 lr 0.00010000
+Epoch 323, weight, value: tensor([[ 0.0305, -0.1709, -0.1618,  ..., -0.3300, -0.1198, -0.1639],
+        [ 0.0668, -0.0798,  0.0399,  ...,  0.0497,  0.1215, -0.0579],
+        [-0.0822,  0.1548, -0.2023,  ...,  0.0594,  0.0930, -0.0468],
+        ...,
+        [-0.0749, -0.1017, -0.0812,  ...,  0.0088, -0.2019,  0.1497],
+        [ 0.0511, -0.0453,  0.1039,  ..., -0.0019, -0.2455, -0.0231],
+        [-0.2216, -0.1146, -0.1483,  ..., -0.2638,  0.0687, -0.1097]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.0489e-08,  ...,  2.4214e-08,
+          3.1665e-08,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00, -1.5542e-05,  ..., -7.2084e-06,
+         -1.3866e-05,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.0952e-05,  ...,  5.8115e-06,
+          9.7528e-06,  1.6764e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.9823e-06,  ...,  9.2387e-07,
+          3.5185e-06, -1.4156e-07],
+        [ 0.0000e+00,  0.0000e+00, -2.5332e-07,  ..., -2.1234e-07,
+          1.8626e-08,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ...,  5.9605e-08,
+          4.2841e-08,  1.8626e-09]], device='cuda:0')
+Epoch 323, bias, value: tensor([-0.0122, -0.0369,  0.0100, -0.0149,  0.0150,  0.0116,  0.0275,  0.0051,
+        -0.0449, -0.0078], device='cuda:0'), grad: tensor([ 1.6019e-07, -2.7955e-05,  2.3350e-05,  1.8291e-06,  2.4997e-06,
+         8.1956e-08,  3.3155e-07, -6.5193e-08, -6.5006e-07,  3.8370e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 322, time 247.49, cls_loss 0.0009 cls_loss_mapping 0.0013 cls_loss_causal 0.4862 re_mapping 0.0045 re_causal 0.0134 /// teacc 98.97 lr 0.00010000
+Epoch 324, weight, value: tensor([[ 0.0301, -0.1711, -0.1623,  ..., -0.3303, -0.1198, -0.1643],
+        [ 0.0668, -0.0794,  0.0399,  ...,  0.0497,  0.1216, -0.0580],
+        [-0.0834,  0.1548, -0.2025,  ...,  0.0593,  0.0929, -0.0466],
+        ...,
+        [-0.0751, -0.1018, -0.0812,  ...,  0.0089, -0.2019,  0.1504],
+        [ 0.0497, -0.0453,  0.1045,  ..., -0.0019, -0.2456, -0.0233],
+        [-0.2219, -0.1146, -0.1486,  ..., -0.2642,  0.0688, -0.1098]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09, -1.8626e-09,  ...,  1.8626e-09,
+          2.9802e-07,  0.0000e+00],
+        [ 0.0000e+00, -1.6764e-08,  3.7253e-09,  ..., -1.8626e-08,
+         -1.3039e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  9.3132e-09,  5.5879e-09,  ...,  1.1176e-08,
+          1.2144e-06,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  1.8626e-09,  ...,  1.8626e-09,
+          1.3039e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+         -1.5441e-06,  0.0000e+00]], device='cuda:0')
+Epoch 324, bias, value: tensor([-0.0122, -0.0370,  0.0098, -0.0149,  0.0130,  0.0117,  0.0277,  0.0054,
+        -0.0450, -0.0077], device='cuda:0'), grad: tensor([-7.4506e-09,  8.6799e-07, -1.4901e-08, -3.7253e-08,  0.0000e+00,
+         6.1467e-08,  2.0489e-08,  3.4962e-06,  3.7253e-08, -4.4480e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 323, time 247.87, cls_loss 0.0010 cls_loss_mapping 0.0020 cls_loss_causal 0.4634 re_mapping 0.0042 re_causal 0.0126 /// teacc 99.09 lr 0.00010000
+Epoch 325, weight, value: tensor([[ 0.0301, -0.1712, -0.1625,  ..., -0.3311, -0.1199, -0.1643],
+        [ 0.0668, -0.0795,  0.0400,  ...,  0.0497,  0.1217, -0.0580],
+        [-0.0835,  0.1551, -0.2026,  ...,  0.0597,  0.0931, -0.0468],
+        ...,
+        [-0.0753, -0.1017, -0.0813,  ...,  0.0089, -0.2021,  0.1505],
+        [ 0.0495, -0.0456,  0.1062,  ..., -0.0021, -0.2462, -0.0235],
+        [-0.2219, -0.1150, -0.1502,  ..., -0.2641,  0.0690, -0.1098]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -3.7253e-09,  ...,  1.8626e-09,
+          7.4506e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09, -1.3039e-08,  ...,  0.0000e+00,
+         -1.8626e-08,  0.0000e+00],
+        [ 0.0000e+00, -7.4506e-09,  1.3039e-08,  ..., -1.1176e-08,
+         -2.6077e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.8626e-09,  1.8626e-08,  ...,  1.3039e-08,
+          2.0489e-08,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  2.1234e-07,  ...,  1.1176e-08,
+          3.9116e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ...,  3.7253e-09,
+          7.4506e-09,  0.0000e+00]], device='cuda:0')
+Epoch 325, bias, value: tensor([-0.0122, -0.0369,  0.0100, -0.0154,  0.0131,  0.0119,  0.0273,  0.0053,
+        -0.0447, -0.0074], device='cuda:0'), grad: tensor([-4.0978e-08,  1.8626e-08, -4.2841e-08,  1.4026e-06,  2.4214e-08,
+        -1.7621e-06, -5.9791e-07,  4.8429e-08,  8.9407e-07,  5.5879e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 324, time 247.76, cls_loss 0.0010 cls_loss_mapping 0.0012 cls_loss_causal 0.4645 re_mapping 0.0044 re_causal 0.0130 /// teacc 99.10 lr 0.00010000
+Epoch 326, weight, value: tensor([[ 0.0301, -0.1713, -0.1628,  ..., -0.3337, -0.1213, -0.1644],
+        [ 0.0668, -0.0793,  0.0400,  ...,  0.0498,  0.1222, -0.0577],
+        [-0.0836,  0.1550, -0.2030,  ...,  0.0586,  0.0924, -0.0468],
+        ...,
+        [-0.0753, -0.1018, -0.0812,  ...,  0.0089, -0.2023,  0.1506],
+        [ 0.0493, -0.0456,  0.1069,  ..., -0.0022, -0.2463, -0.0238],
+        [-0.2220, -0.1150, -0.1504,  ..., -0.2633,  0.0703, -0.1098]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -5.6811e-06,  ..., -1.5736e-05,
+         -1.6168e-05,  0.0000e+00],
+        [ 0.0000e+00, -1.8626e-09,  5.2527e-06,  ...,  1.4417e-05,
+          1.4797e-05,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.8626e-09,  4.6939e-07,  ...,  1.2703e-06,
+          1.3225e-06, -3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.6077e-08,  ...,  9.3132e-09,
+          1.8626e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.1176e-08,
+         -5.0291e-08,  0.0000e+00]], device='cuda:0')
+Epoch 326, bias, value: tensor([-0.0135, -0.0369,  0.0093, -0.0155,  0.0132,  0.0124,  0.0264,  0.0053,
+        -0.0447, -0.0063], device='cuda:0'), grad: tensor([-4.1202e-06, -2.6137e-05,  2.5034e-05,  1.0245e-06,  2.0862e-07,
+         1.5087e-07,  3.1106e-07,  2.1588e-06,  3.9116e-07,  9.8348e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 325, time 247.57, cls_loss 0.0009 cls_loss_mapping 0.0018 cls_loss_causal 0.4830 re_mapping 0.0044 re_causal 0.0131 /// teacc 99.10 lr 0.00010000
+Epoch 327, weight, value: tensor([[ 0.0301, -0.1714, -0.1630,  ..., -0.3341, -0.1214, -0.1647],
+        [ 0.0668, -0.0794,  0.0400,  ...,  0.0498,  0.1222, -0.0577],
+        [-0.0839,  0.1550, -0.2032,  ...,  0.0587,  0.0925, -0.0469],
+        ...,
+        [-0.0753, -0.1018, -0.0813,  ...,  0.0089, -0.2024,  0.1506],
+        [ 0.0493, -0.0456,  0.1079,  ..., -0.0018, -0.2464, -0.0240],
+        [-0.2221, -0.1152, -0.1521,  ..., -0.2643,  0.0703, -0.1098]],
+       device='cuda:0'), grad: tensor([[-0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+         -3.1665e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.8626e-08,
+          4.0978e-08,  0.0000e+00],
+        [ 0.0000e+00, -1.3039e-08,  3.7253e-09,  ..., -2.4214e-07,
+         -2.5518e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  9.3132e-09, -7.4506e-09,  ...,  1.5274e-07,
+          2.0303e-07,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09, -3.7253e-09,  ...,  3.3528e-08,
+          4.6566e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  7.4506e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 327, bias, value: tensor([-0.0132, -0.0369,  0.0093, -0.0153,  0.0132,  0.0120,  0.0269,  0.0053,
+        -0.0445, -0.0064], device='cuda:0'), grad: tensor([-3.1851e-07,  3.2969e-07, -5.9232e-07,  9.4995e-08, -3.5390e-08,
+        -5.9605e-08,  6.3330e-08,  3.8370e-07,  1.3597e-07, -1.8626e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 326, time 247.67, cls_loss 0.0010 cls_loss_mapping 0.0019 cls_loss_causal 0.4919 re_mapping 0.0044 re_causal 0.0128 /// teacc 99.01 lr 0.00010000
+Epoch 328, weight, value: tensor([[ 0.0299, -0.1713, -0.1635,  ..., -0.3345, -0.1214, -0.1647],
+        [ 0.0678, -0.0796,  0.0401,  ...,  0.0497,  0.1224, -0.0575],
+        [-0.0846,  0.1548, -0.2032,  ...,  0.0585,  0.0925, -0.0469],
+        ...,
+        [-0.0750, -0.1014, -0.0813,  ...,  0.0089, -0.2024,  0.1506],
+        [ 0.0490, -0.0456,  0.1082,  ..., -0.0016, -0.2468, -0.0241],
+        [-0.2221, -0.1156, -0.1530,  ..., -0.2667,  0.0704, -0.1098]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  8.5682e-08,  3.7253e-09,  ...,  8.9407e-08,
+          8.1956e-08,  0.0000e+00],
+        [ 0.0000e+00,  4.6380e-07,  3.3528e-08,  ...,  5.1595e-07,
+          3.7253e-07,  0.0000e+00],
+        [ 0.0000e+00, -2.3190e-06,  1.1176e-08,  ..., -2.4345e-06,
+         -1.8235e-06,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  4.8988e-07,  9.3132e-09,  ...,  5.0850e-07,
+          4.0606e-07,  0.0000e+00],
+        [ 0.0000e+00,  1.1679e-06, -7.0781e-08,  ...,  1.1530e-06,
+          1.1232e-06,  0.0000e+00],
+        [ 0.0000e+00,  1.3039e-08,  3.7253e-09,  ...,  1.8626e-08,
+         -5.0291e-08,  0.0000e+00]], device='cuda:0')
+Epoch 328, bias, value: tensor([-0.0130, -0.0369,  0.0091, -0.0151,  0.0130,  0.0115,  0.0264,  0.0055,
+        -0.0446, -0.0070], device='cuda:0'), grad: tensor([ 2.7753e-07,  1.4435e-06, -6.6496e-06,  1.6205e-07,  2.0489e-07,
+         8.0094e-08, -6.3330e-07,  1.3858e-06,  3.8445e-06, -1.0617e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 327, time 248.28, cls_loss 0.0009 cls_loss_mapping 0.0021 cls_loss_causal 0.4816 re_mapping 0.0044 re_causal 0.0131 /// teacc 98.96 lr 0.00010000
+Epoch 329, weight, value: tensor([[ 0.0298, -0.1717, -0.1640,  ..., -0.3348, -0.1214, -0.1647],
+        [ 0.0678, -0.0800,  0.0401,  ...,  0.0496,  0.1224, -0.0575],
+        [-0.0846,  0.1559, -0.2033,  ...,  0.0590,  0.0928, -0.0471],
+        ...,
+        [-0.0750, -0.1019, -0.0815,  ...,  0.0086, -0.2025,  0.1506],
+        [ 0.0486, -0.0465,  0.1087,  ..., -0.0024, -0.2478, -0.0242],
+        [-0.2222, -0.1158, -0.1533,  ..., -0.2672,  0.0704, -0.1099]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.4214e-08,  0.0000e+00,  ...,  1.8626e-08,
+          1.8626e-08,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09, -3.5390e-08,  ..., -1.4901e-08,
+         -4.0978e-08,  0.0000e+00],
+        [ 0.0000e+00, -1.1548e-07,  7.4506e-09,  ..., -8.7544e-08,
+         -8.1956e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  2.0489e-08,  1.4901e-08,  ...,  2.4214e-08,
+          2.9802e-08,  0.0000e+00],
+        [ 0.0000e+00,  5.9605e-08,  1.1176e-08,  ...,  5.0291e-08,
+          5.2154e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00]], device='cuda:0')
+Epoch 329, bias, value: tensor([-0.0129, -0.0370,  0.0093, -0.0123,  0.0129,  0.0115,  0.0262,  0.0052,
+        -0.0452, -0.0069], device='cuda:0'), grad: tensor([ 1.4342e-07, -6.5193e-08, -6.5751e-07, -8.5682e-08, -8.0094e-08,
+         9.6858e-08,  3.3528e-08,  1.5646e-07,  4.0047e-07,  5.5879e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 328, time 248.18, cls_loss 0.0009 cls_loss_mapping 0.0012 cls_loss_causal 0.4756 re_mapping 0.0040 re_causal 0.0125 /// teacc 99.05 lr 0.00010000
+Epoch 330, weight, value: tensor([[ 0.0298, -0.1719, -0.1645,  ..., -0.3352, -0.1214, -0.1647],
+        [ 0.0679, -0.0801,  0.0403,  ...,  0.0497,  0.1226, -0.0575],
+        [-0.0854,  0.1559, -0.2035,  ...,  0.0591,  0.0930, -0.0471],
+        ...,
+        [-0.0752, -0.1019, -0.0816,  ...,  0.0085, -0.2027,  0.1506],
+        [ 0.0490, -0.0465,  0.1093,  ..., -0.0023, -0.2480, -0.0242],
+        [-0.2222, -0.1163, -0.1533,  ..., -0.2697,  0.0707, -0.1099]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.1176e-08,
+          4.0978e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.6764e-08,  ..., -9.3132e-09,
+         -3.1665e-08,  0.0000e+00],
+        [ 0.0000e+00, -0.0000e+00,  9.3132e-09,  ..., -4.0978e-08,
+         -1.0803e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ...,  3.7253e-09,
+          1.6764e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -6.1467e-08,  ...,  7.4506e-09,
+          8.5682e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  3.7253e-09,
+          1.3039e-08,  0.0000e+00]], device='cuda:0')
+Epoch 330, bias, value: tensor([-0.0128, -0.0369,  0.0093, -0.0124,  0.0125,  0.0109,  0.0261,  0.0054,
+        -0.0453, -0.0081], device='cuda:0'), grad: tensor([ 8.1956e-08, -2.9802e-08, -1.3039e-07,  0.0000e+00, -1.4901e-07,
+         2.2352e-07, -2.6450e-07,  2.6077e-08,  5.4017e-08,  1.8068e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 329, time 247.70, cls_loss 0.0009 cls_loss_mapping 0.0013 cls_loss_causal 0.4785 re_mapping 0.0043 re_causal 0.0128 /// teacc 99.07 lr 0.00010000
+Epoch 331, weight, value: tensor([[ 0.0289, -0.1723, -0.1648,  ..., -0.3361, -0.1215, -0.1649],
+        [ 0.0680, -0.0809,  0.0403,  ...,  0.0496,  0.1225, -0.0575],
+        [-0.0852,  0.1561, -0.2034,  ...,  0.0592,  0.0934, -0.0471],
+        ...,
+        [-0.0754, -0.1019, -0.0817,  ...,  0.0086, -0.2027,  0.1506],
+        [ 0.0494, -0.0466,  0.1099,  ..., -0.0021, -0.2481, -0.0242],
+        [-0.2226, -0.1167, -0.1533,  ..., -0.2703,  0.0707, -0.1099]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  7.0781e-08,
+          5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ...,  2.5369e-06,
+         -1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00, -1.8626e-09,  7.4506e-09,  ...,  1.1176e-08,
+          1.8626e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ..., -3.6657e-06,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ...,  5.5879e-09,
+          5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.7055e-08,
+         -5.5879e-09,  0.0000e+00]], device='cuda:0')
+Epoch 331, bias, value: tensor([-0.0129, -0.0370,  0.0098, -0.0124,  0.0126,  0.0109,  0.0262,  0.0055,
+        -0.0452, -0.0082], device='cuda:0'), grad: tensor([ 5.4389e-07,  1.8984e-05,  1.6950e-07,  5.5283e-06,  1.3784e-07,
+         1.6708e-06, -1.2107e-07, -2.7448e-05,  7.8231e-08,  4.5076e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 330, time 247.69, cls_loss 0.0009 cls_loss_mapping 0.0017 cls_loss_causal 0.4553 re_mapping 0.0044 re_causal 0.0124 /// teacc 99.02 lr 0.00010000
+Epoch 332, weight, value: tensor([[ 0.0288, -0.1724, -0.1652,  ..., -0.3365, -0.1217, -0.1649],
+        [ 0.0684, -0.0815,  0.0403,  ...,  0.0496,  0.1223, -0.0574],
+        [-0.0856,  0.1565, -0.2034,  ...,  0.0594,  0.0937, -0.0472],
+        ...,
+        [-0.0753, -0.1022, -0.0817,  ...,  0.0086, -0.2028,  0.1507],
+        [ 0.0494, -0.0466,  0.1101,  ..., -0.0021, -0.2490, -0.0243],
+        [-0.2227, -0.1176, -0.1538,  ..., -0.2714,  0.0708, -0.1099]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  7.6368e-08,  ...,  2.9802e-08,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  3.7253e-09,  7.6368e-08,  ...,  5.9605e-08,
+         -3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-09,  3.7625e-07,  ...,  1.0058e-07,
+         -2.7940e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  7.2643e-08,  2.5369e-06,  ...,  9.3691e-07,
+          3.1665e-08,  0.0000e+00],
+        [ 0.0000e+00,  3.7253e-09,  7.0781e-08,  ...,  4.0978e-08,
+          2.4214e-08,  0.0000e+00],
+        [ 0.0000e+00,  3.7253e-09,  1.1176e-07,  ...,  6.5193e-08,
+         -1.0431e-07,  0.0000e+00]], device='cuda:0')
+Epoch 332, bias, value: tensor([-0.0133, -0.0371,  0.0101, -0.0125,  0.0121,  0.0113,  0.0279,  0.0055,
+        -0.0459, -0.0082], device='cuda:0'), grad: tensor([ 1.8813e-07,  3.0734e-07,  7.6741e-07, -8.1584e-06,  4.2841e-08,
+         1.3895e-06,  1.0617e-07,  5.5283e-06,  4.1164e-07, -6.1095e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 331, time 247.70, cls_loss 0.0008 cls_loss_mapping 0.0013 cls_loss_causal 0.4906 re_mapping 0.0043 re_causal 0.0135 /// teacc 99.07 lr 0.00010000
+Epoch 333, weight, value: tensor([[ 0.0287, -0.1727, -0.1651,  ..., -0.3369, -0.1218, -0.1650],
+        [ 0.0686, -0.0817,  0.0404,  ...,  0.0497,  0.1225, -0.0573],
+        [-0.0863,  0.1565, -0.2035,  ...,  0.0594,  0.0937, -0.0472],
+        ...,
+        [-0.0754, -0.1025, -0.0818,  ...,  0.0084, -0.2031,  0.1507],
+        [ 0.0494, -0.0466,  0.1103,  ..., -0.0020, -0.2495, -0.0243],
+        [-0.2229, -0.1176, -0.1542,  ..., -0.2718,  0.0709, -0.1099]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.4715e-07,  1.8626e-09,  ...,  1.6764e-08,
+          1.1176e-08,  0.0000e+00],
+        [-0.0000e+00,  1.1176e-08,  2.9244e-07,  ...,  1.0431e-06,
+         -2.1793e-07,  0.0000e+00],
+        [ 7.0781e-08, -0.0000e+00,  9.9093e-07,  ...,  1.2629e-06,
+          2.4587e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  3.7253e-09, -4.2096e-07,  ..., -1.1344e-06,
+          1.1176e-08,  0.0000e+00],
+        [-7.8231e-08,  7.4506e-09, -1.0822e-06,  ..., -1.4864e-06,
+         -3.6694e-07,  0.0000e+00],
+        [ 0.0000e+00,  1.0431e-07,  1.8626e-09,  ...,  1.4901e-08,
+          1.1176e-08,  0.0000e+00]], device='cuda:0')
+Epoch 333, bias, value: tensor([-0.0133, -0.0370,  0.0101, -0.0114,  0.0121,  0.0107,  0.0280,  0.0054,
+        -0.0462, -0.0082], device='cuda:0'), grad: tensor([-1.5367e-06,  3.3341e-06,  2.5984e-06,  5.1409e-07,  3.9116e-08,
+         9.6858e-08,  4.3400e-07, -3.6657e-06, -3.0231e-06,  1.1958e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 332, time 247.57, cls_loss 0.0008 cls_loss_mapping 0.0011 cls_loss_causal 0.4700 re_mapping 0.0043 re_causal 0.0125 /// teacc 99.04 lr 0.00010000
+Epoch 334, weight, value: tensor([[ 0.0287, -0.1726, -0.1654,  ..., -0.3372, -0.1218, -0.1650],
+        [ 0.0687, -0.0825,  0.0404,  ...,  0.0497,  0.1227, -0.0568],
+        [-0.0868,  0.1565, -0.2037,  ...,  0.0590,  0.0935, -0.0473],
+        ...,
+        [-0.0747, -0.1023, -0.0818,  ...,  0.0085, -0.2031,  0.1508],
+        [ 0.0495, -0.0466,  0.1108,  ..., -0.0018, -0.2494, -0.0243],
+        [-0.2236, -0.1180, -0.1547,  ..., -0.2728,  0.0709, -0.1099]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  5.5879e-09,
+          9.3132e-09,  0.0000e+00],
+        [-1.8626e-08,  0.0000e+00, -1.9185e-07,  ..., -6.3330e-08,
+         -2.1048e-07,  0.0000e+00],
+        [ 0.0000e+00, -0.0000e+00,  2.4214e-08,  ...,  1.6764e-08,
+          1.3039e-08,  0.0000e+00],
+        ...,
+        [ 1.3039e-08,  0.0000e+00,  1.1921e-07,  ...,  2.2352e-08,
+          9.8720e-08, -0.0000e+00],
+        [ 0.0000e+00, -0.0000e+00, -4.6566e-08,  ..., -2.4214e-08,
+         -5.5879e-09,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  1.8626e-08,  ...,  2.0489e-08,
+         -2.2352e-08,  0.0000e+00]], device='cuda:0')
+Epoch 334, bias, value: tensor([-0.0133, -0.0370,  0.0098, -0.0113,  0.0124,  0.0108,  0.0275,  0.0055,
+        -0.0459, -0.0086], device='cuda:0'), grad: tensor([-3.7253e-09, -4.3027e-07,  8.1956e-08, -5.2154e-07,  1.0617e-07,
+         4.8615e-07,  2.2352e-07,  0.0000e+00, -1.3411e-07,  1.6950e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 333, time 247.68, cls_loss 0.0011 cls_loss_mapping 0.0020 cls_loss_causal 0.4812 re_mapping 0.0043 re_causal 0.0124 /// teacc 99.08 lr 0.00010000
+Epoch 335, weight, value: tensor([[ 0.0285, -0.1736, -0.1660,  ..., -0.3377, -0.1218, -0.1650],
+        [ 0.0687, -0.0835,  0.0404,  ...,  0.0496,  0.1226, -0.0565],
+        [-0.0871,  0.1572, -0.2039,  ...,  0.0589,  0.0936, -0.0474],
+        ...,
+        [-0.0750, -0.1025, -0.0818,  ...,  0.0086, -0.2032,  0.1509],
+        [ 0.0497, -0.0466,  0.1123,  ..., -0.0017, -0.2494, -0.0243],
+        [-0.2250, -0.1178, -0.1556,  ..., -0.2735,  0.0707, -0.1099]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  6.3330e-08,  ...,  1.3039e-08,
+         -1.3039e-07,  0.0000e+00],
+        [ 0.0000e+00,  2.4214e-08,  1.4901e-07,  ...,  2.4214e-08,
+          5.0291e-08,  0.0000e+00],
+        [ 0.0000e+00, -6.6869e-07,  3.1665e-08,  ..., -7.5437e-07,
+         -1.4026e-06,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  3.7998e-07,  1.9558e-07,  ...,  4.2841e-07,
+          8.0094e-07,  0.0000e+00],
+        [ 0.0000e+00,  1.5832e-07, -7.5623e-07,  ...,  1.7509e-07,
+          3.3900e-07,  0.0000e+00],
+        [ 0.0000e+00,  8.3819e-08,  2.1793e-07,  ...,  8.5682e-08,
+          1.6205e-07,  0.0000e+00]], device='cuda:0')
+Epoch 335, bias, value: tensor([-0.0129, -0.0371,  0.0099, -0.0109,  0.0130,  0.0094,  0.0267,  0.0056,
+        -0.0453, -0.0090], device='cuda:0'), grad: tensor([-7.5065e-07,  8.9966e-07, -3.6377e-06,  2.3842e-07,  5.4017e-08,
+         1.9185e-07,  8.5495e-07,  3.0808e-06, -2.6468e-06,  1.7136e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 334, time 248.19, cls_loss 0.0009 cls_loss_mapping 0.0015 cls_loss_causal 0.4751 re_mapping 0.0042 re_causal 0.0124 /// teacc 99.09 lr 0.00010000
+Epoch 336, weight, value: tensor([[ 0.0285, -0.1735, -0.1657,  ..., -0.3378, -0.1217, -0.1650],
+        [ 0.0688, -0.0837,  0.0402,  ...,  0.0495,  0.1216, -0.0561],
+        [-0.0874,  0.1573, -0.2030,  ...,  0.0597,  0.0957, -0.0475],
+        ...,
+        [-0.0751, -0.1026, -0.0817,  ...,  0.0086, -0.2032,  0.1509],
+        [ 0.0499, -0.0468,  0.1127,  ..., -0.0018, -0.2498, -0.0243],
+        [-0.2261, -0.1178, -0.1560,  ..., -0.2738,  0.0712, -0.1099]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  6.5193e-08,  ...,  2.0303e-07,
+         -1.3039e-08,  0.0000e+00],
+        [ 3.7253e-09, -9.3132e-09,  1.1176e-08,  ..., -1.1176e-08,
+         -1.3039e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.8626e-09, -7.4506e-08,  ..., -2.2352e-07,
+          1.4901e-08,  0.0000e+00],
+        [-3.7253e-09,  5.5879e-09, -1.8626e-09,  ...,  1.1176e-08,
+          2.2352e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  1.1176e-08,
+         -5.5879e-09,  0.0000e+00]], device='cuda:0')
+Epoch 336, bias, value: tensor([-0.0124, -0.0376,  0.0118, -0.0109,  0.0123,  0.0095,  0.0263,  0.0057,
+        -0.0454, -0.0088], device='cuda:0'), grad: tensor([-3.9116e-08,  5.1595e-07,  7.4506e-09,  2.9802e-08,  8.3819e-08,
+         2.4214e-08, -2.0675e-07, -5.3830e-07,  8.0094e-08,  5.2154e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 335, time 247.49, cls_loss 0.0008 cls_loss_mapping 0.0014 cls_loss_causal 0.4872 re_mapping 0.0042 re_causal 0.0125 /// teacc 99.01 lr 0.00010000
+Epoch 337, weight, value: tensor([[ 0.0283, -0.1739, -0.1665,  ..., -0.3381, -0.1217, -0.1651],
+        [ 0.0690, -0.0839,  0.0403,  ...,  0.0495,  0.1218, -0.0561],
+        [-0.0879,  0.1572, -0.2034,  ...,  0.0594,  0.0956, -0.0476],
+        ...,
+        [-0.0756, -0.1026, -0.0818,  ...,  0.0086, -0.2034,  0.1509],
+        [ 0.0499, -0.0468,  0.1133,  ..., -0.0017, -0.2501, -0.0244],
+        [-0.2271, -0.1183, -0.1563,  ..., -0.2740,  0.0717, -0.1099]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  7.0781e-08,  ...,  3.7253e-09,
+          2.3469e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -4.4890e-07,  ...,  1.3597e-07,
+         -1.4994e-06,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.0990e-07,  ...,  1.9930e-07,
+          2.4773e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.2352e-08,  ..., -3.7625e-07,
+         -5.4017e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.3039e-08,  ...,  0.0000e+00,
+          7.6368e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  3.7253e-09,
+         -4.2841e-08,  0.0000e+00]], device='cuda:0')
+Epoch 337, bias, value: tensor([-0.0123, -0.0375,  0.0115, -0.0109,  0.0117,  0.0095,  0.0260,  0.0057,
+        -0.0452, -0.0085], device='cuda:0'), grad: tensor([ 4.4890e-07, -2.7865e-06,  9.7416e-07,  2.4214e-08,  1.0431e-07,
+         4.4703e-08,  1.9632e-06, -8.9034e-07,  2.3469e-07, -1.3784e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 336, time 247.78, cls_loss 0.0010 cls_loss_mapping 0.0012 cls_loss_causal 0.4638 re_mapping 0.0042 re_causal 0.0123 /// teacc 98.98 lr 0.00010000
+Epoch 338, weight, value: tensor([[ 0.0282, -0.1741, -0.1666,  ..., -0.3389, -0.1218, -0.1651],
+        [ 0.0689, -0.0841,  0.0399,  ...,  0.0493,  0.1213, -0.0561],
+        [-0.0879,  0.1573, -0.2036,  ...,  0.0595,  0.0957, -0.0471],
+        ...,
+        [-0.0755, -0.1026, -0.0818,  ...,  0.0086, -0.2035,  0.1509],
+        [ 0.0498, -0.0469,  0.1166,  ...,  0.0012, -0.2472, -0.0244],
+        [-0.2274, -0.1186, -0.1569,  ..., -0.2744,  0.0715, -0.1099]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09, -1.0841e-05,  ...,  3.7253e-09,
+          2.2724e-07,  3.1665e-08],
+        [ 0.0000e+00,  1.3039e-08,  1.8626e-08,  ...,  1.6764e-08,
+          2.2352e-08,  7.4506e-09],
+        [ 0.0000e+00, -1.4417e-06,  2.6077e-08,  ..., -2.2687e-06,
+         -2.5071e-06,  9.3132e-09],
+        ...,
+        [ 0.0000e+00,  2.7567e-07,  1.4901e-08,  ...,  5.1782e-07,
+          4.4331e-07,  0.0000e+00],
+        [ 0.0000e+00,  1.1418e-06,  1.8664e-06,  ...,  1.7192e-06,
+          2.1867e-06,  2.0489e-08],
+        [ 0.0000e+00,  0.0000e+00,  8.0392e-06,  ...,  1.8626e-09,
+         -3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 338, bias, value: tensor([-0.0119, -0.0379,  0.0115, -0.0114,  0.0122,  0.0094,  0.0254,  0.0057,
+        -0.0423, -0.0088], device='cuda:0'), grad: tensor([-5.8383e-05,  2.7381e-07, -4.8615e-06,  4.8615e-07,  1.2107e-07,
+         6.1095e-06, -3.1628e-06,  1.1288e-06,  1.4454e-05,  4.3780e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 337, time 247.75, cls_loss 0.0012 cls_loss_mapping 0.0022 cls_loss_causal 0.4852 re_mapping 0.0043 re_causal 0.0125 /// teacc 99.02 lr 0.00010000
+Epoch 339, weight, value: tensor([[ 0.0288, -0.1755, -0.1649,  ..., -0.3397, -0.1218, -0.1652],
+        [ 0.0696, -0.0852,  0.0383,  ...,  0.0478,  0.1205, -0.0562],
+        [-0.0898,  0.1575, -0.2040,  ...,  0.0595,  0.0956, -0.0471],
+        ...,
+        [-0.0760, -0.1028, -0.0802,  ...,  0.0101, -0.2029,  0.1511],
+        [ 0.0494, -0.0469,  0.1166,  ...,  0.0012, -0.2474, -0.0246],
+        [-0.2279, -0.1178, -0.1591,  ..., -0.2750,  0.0720, -0.1099]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  3.7253e-09,  ...,  3.7253e-09,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  7.4506e-09, -7.4506e-09,  ..., -1.3039e-08,
+         -2.6077e-08,  0.0000e+00],
+        [ 0.0000e+00,  5.5879e-09,  1.4156e-07,  ...,  5.4017e-08,
+          1.6764e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -2.8126e-07,  2.9802e-08,  ..., -0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [-1.8626e-09,  5.5879e-09, -8.3260e-07,  ..., -2.7753e-07,
+         -7.4506e-08,  0.0000e+00],
+        [ 0.0000e+00,  2.4401e-07,  1.6391e-07,  ...,  5.7742e-08,
+         -2.2352e-08,  0.0000e+00]], device='cuda:0')
+Epoch 339, bias, value: tensor([-0.0109, -0.0395,  0.0113, -0.0112,  0.0136,  0.0093,  0.0249,  0.0072,
+        -0.0424, -0.0093], device='cuda:0'), grad: tensor([ 4.2841e-08,  8.9407e-08,  4.5821e-07,  3.4459e-07,  4.8243e-07,
+         8.5682e-07,  5.9605e-08, -5.7966e-06, -2.0396e-06,  5.4799e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 338, time 247.59, cls_loss 0.0010 cls_loss_mapping 0.0019 cls_loss_causal 0.4913 re_mapping 0.0045 re_causal 0.0138 /// teacc 99.06 lr 0.00010000
+Epoch 340, weight, value: tensor([[ 0.0287, -0.1782, -0.1650,  ..., -0.3403, -0.1219, -0.1667],
+        [ 0.0699, -0.0862,  0.0372,  ...,  0.0468,  0.1203, -0.0556],
+        [-0.0903,  0.1573, -0.2042,  ...,  0.0591,  0.0956, -0.0473],
+        ...,
+        [-0.0763, -0.1021, -0.0790,  ...,  0.0112, -0.2027,  0.1511],
+        [ 0.0498, -0.0469,  0.1167,  ...,  0.0012, -0.2476, -0.0250],
+        [-0.2281, -0.1174, -0.1601,  ..., -0.2761,  0.0727, -0.1099]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09, -5.5879e-09,  ...,  3.7253e-09,
+         -7.4506e-09,  0.0000e+00],
+        [ 0.0000e+00,  6.4075e-07,  0.0000e+00,  ...,  1.4231e-06,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -6.5193e-07,  0.0000e+00,  ..., -1.4491e-06,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  2.2352e-08,  ...,  1.3039e-08,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  3.7253e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 340, bias, value: tensor([-0.0111, -0.0406,  0.0109, -0.0127,  0.0133,  0.0113,  0.0252,  0.0083,
+        -0.0425, -0.0092], device='cuda:0'), grad: tensor([ 2.4214e-08,  1.4901e-08,  5.6624e-06,  1.5218e-06,  3.9116e-08,
+        -1.7174e-06,  1.3039e-08, -5.7817e-06,  1.7881e-07,  4.4703e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 339, time 247.49, cls_loss 0.0009 cls_loss_mapping 0.0014 cls_loss_causal 0.4607 re_mapping 0.0044 re_causal 0.0126 /// teacc 99.12 lr 0.00010000
+Epoch 341, weight, value: tensor([[ 0.0275, -0.1787, -0.1656,  ..., -0.3419, -0.1220, -0.1667],
+        [ 0.0699, -0.0863,  0.0370,  ...,  0.0467,  0.1203, -0.0555],
+        [-0.0921,  0.1575, -0.2045,  ...,  0.0592,  0.0958, -0.0473],
+        ...,
+        [-0.0766, -0.1022, -0.0789,  ...,  0.0113, -0.2028,  0.1512],
+        [ 0.0519, -0.0469,  0.1171,  ...,  0.0016, -0.2476, -0.0257],
+        [-0.2287, -0.1176, -0.1607,  ..., -0.2764,  0.0730, -0.1099]],
+       device='cuda:0'), grad: tensor([[ 4.0047e-07,  9.3132e-10,  2.7940e-09,  ...,  7.6815e-06,
+          9.0972e-06,  0.0000e+00],
+        [ 5.5879e-09,  9.3132e-10, -6.5193e-09,  ...,  1.1921e-07,
+          1.2014e-07,  0.0000e+00],
+        [-5.7463e-07, -1.3039e-08,  1.6764e-08,  ..., -1.1042e-05,
+         -1.3083e-05,  0.0000e+00],
+        ...,
+        [ 1.8626e-08,  1.0245e-08,  1.1176e-08,  ...,  3.5390e-07,
+          5.0385e-07,  0.0000e+00],
+        [ 1.2387e-07,  0.0000e+00, -5.8673e-08,  ...,  2.3749e-06,
+          2.8145e-06,  0.0000e+00],
+        [ 2.7940e-09,  0.0000e+00,  4.0978e-08,  ...,  7.2643e-08,
+          8.0094e-08,  0.0000e+00]], device='cuda:0')
+Epoch 341, bias, value: tensor([-0.0112, -0.0407,  0.0108, -0.0134,  0.0123,  0.0118,  0.0255,  0.0085,
+        -0.0422, -0.0089], device='cuda:0'), grad: tensor([ 2.4214e-05,  3.9767e-07, -3.4779e-05,  5.5507e-07, -6.5006e-07,
+         1.1455e-07,  5.9512e-07,  1.2182e-06,  7.5623e-06,  7.7114e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 340, time 247.54, cls_loss 0.0010 cls_loss_mapping 0.0022 cls_loss_causal 0.4804 re_mapping 0.0042 re_causal 0.0124 /// teacc 98.99 lr 0.00010000
+Epoch 342, weight, value: tensor([[ 0.0272, -0.1797, -0.1650,  ..., -0.3447, -0.1222, -0.1672],
+        [ 0.0701, -0.0871,  0.0370,  ...,  0.0466,  0.1203, -0.0555],
+        [-0.0923,  0.1576, -0.2049,  ...,  0.0592,  0.0960, -0.0475],
+        ...,
+        [-0.0778, -0.1024, -0.0789,  ...,  0.0113, -0.2029,  0.1512],
+        [ 0.0520, -0.0468,  0.1173,  ...,  0.0019, -0.2477, -0.0256],
+        [-0.2294, -0.1176, -0.1622,  ..., -0.2771,  0.0712, -0.1099]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  9.3132e-10,
+          2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -2.7940e-09,  ..., -4.6566e-09,
+         -2.8871e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  1.8626e-09,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -9.3132e-10,  ...,  9.3132e-10,
+          1.1176e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.9558e-08,  ..., -7.9162e-08,
+          1.3970e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.4901e-08,  ...,  2.7940e-09,
+         -8.3819e-09,  0.0000e+00]], device='cuda:0')
+Epoch 342, bias, value: tensor([-0.0110, -0.0408,  0.0108, -0.0133,  0.0147,  0.0119,  0.0259,  0.0086,
+        -0.0422, -0.0106], device='cuda:0'), grad: tensor([ 3.8184e-08,  9.1270e-08,  2.1420e-08, -2.5146e-08,  5.9605e-08,
+         9.0338e-08,  6.0536e-08, -2.8964e-07,  8.9407e-08, -1.4249e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 341, time 247.67, cls_loss 0.0010 cls_loss_mapping 0.0017 cls_loss_causal 0.4559 re_mapping 0.0044 re_causal 0.0120 /// teacc 98.98 lr 0.00010000
+Epoch 343, weight, value: tensor([[ 0.0273, -0.1804, -0.1650,  ..., -0.3453, -0.1222, -0.1672],
+        [ 0.0710, -0.0882,  0.0371,  ...,  0.0466,  0.1206, -0.0557],
+        [-0.0928,  0.1559, -0.2053,  ...,  0.0576,  0.0957, -0.0474],
+        ...,
+        [-0.0778, -0.1000, -0.0789,  ...,  0.0116, -0.2030,  0.1515],
+        [ 0.0522, -0.0471,  0.1173,  ...,  0.0017, -0.2478, -0.0257],
+        [-0.2295, -0.1178, -0.1627,  ..., -0.2784,  0.0717, -0.1099]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  9.3132e-10,  9.3132e-10,  ...,  3.7253e-09,
+          5.9605e-08,  0.0000e+00],
+        [ 1.8626e-09,  7.8231e-08, -2.0675e-07,  ...,  3.9116e-08,
+         -2.7008e-08,  0.0000e+00],
+        [ 0.0000e+00, -9.9652e-08,  4.9360e-08,  ..., -5.5879e-08,
+         -4.9360e-08,  0.0000e+00],
+        ...,
+        [-3.7253e-09,  1.6764e-08,  1.5926e-07,  ..., -6.6124e-08,
+          1.7323e-07,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  5.5879e-09,  ...,  1.0245e-08,
+          2.0489e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ..., -0.0000e+00,
+         -4.9360e-07,  0.0000e+00]], device='cuda:0')
+Epoch 343, bias, value: tensor([-0.0109, -0.0408,  0.0093, -0.0133,  0.0139,  0.0114,  0.0257,  0.0089,
+        -0.0423, -0.0105], device='cuda:0'), grad: tensor([ 1.7975e-07,  2.3283e-08,  1.3504e-07,  2.8219e-07,  1.3132e-07,
+         7.1339e-07,  2.3283e-08, -1.0338e-07,  8.6613e-08, -1.4836e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 342, time 247.61, cls_loss 0.0012 cls_loss_mapping 0.0019 cls_loss_causal 0.4983 re_mapping 0.0042 re_causal 0.0127 /// teacc 98.98 lr 0.00010000
+Epoch 344, weight, value: tensor([[ 0.0267, -0.1816, -0.1667,  ..., -0.3469, -0.1224, -0.1672],
+        [ 0.0716, -0.0902,  0.0372,  ...,  0.0467,  0.1210, -0.0551],
+        [-0.0929,  0.1550, -0.2057,  ...,  0.0566,  0.0952, -0.0475],
+        ...,
+        [-0.0783, -0.0986, -0.0789,  ...,  0.0122, -0.2028,  0.1521],
+        [ 0.0517, -0.0475,  0.1170,  ...,  0.0013, -0.2482, -0.0258],
+        [-0.2296, -0.1179, -0.1630,  ..., -0.2792,  0.0736, -0.1099]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.7940e-09,  1.8626e-09,  ...,  7.4506e-09,
+          1.0245e-08,  0.0000e+00],
+        [ 0.0000e+00,  1.3970e-08, -4.5635e-07,  ..., -3.0175e-07,
+         -3.2969e-07,  0.0000e+00],
+        [ 0.0000e+00, -5.4017e-08,  1.2107e-08,  ..., -1.3411e-07,
+         -1.6019e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  3.0734e-08,  4.2748e-07,  ...,  3.8836e-07,
+          4.1910e-07,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10, -5.0291e-08,  ..., -4.6566e-09,
+          2.9802e-08,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  9.3132e-10,  ...,  1.1176e-08,
+         -9.3132e-09,  0.0000e+00]], device='cuda:0')
+Epoch 344, bias, value: tensor([-0.0121, -0.0406,  0.0082, -0.0135,  0.0117,  0.0122,  0.0258,  0.0096,
+        -0.0429, -0.0091], device='cuda:0'), grad: tensor([ 2.9802e-08, -8.4657e-07, -4.2468e-07,  3.6322e-08,  4.7497e-08,
+         1.0524e-07,  4.0047e-08,  1.1185e-06,  6.5193e-09, -9.9652e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 343, time 247.60, cls_loss 0.0010 cls_loss_mapping 0.0017 cls_loss_causal 0.4735 re_mapping 0.0043 re_causal 0.0126 /// teacc 98.97 lr 0.00010000
+Epoch 345, weight, value: tensor([[ 0.0270, -0.1826, -0.1668,  ..., -0.3477, -0.1225, -0.1673],
+        [ 0.0719, -0.0913,  0.0381,  ...,  0.0478,  0.1230, -0.0552],
+        [-0.0930,  0.1529, -0.2058,  ...,  0.0545,  0.0939, -0.0476],
+        ...,
+        [-0.0783, -0.0964, -0.0798,  ...,  0.0127, -0.2036,  0.1529],
+        [ 0.0518, -0.0477,  0.1170,  ...,  0.0012, -0.2484, -0.0258],
+        [-0.2298, -0.1180, -0.1636,  ..., -0.2794,  0.0736, -0.1099]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -6.5193e-09,  ...,  4.6566e-09,
+         -3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00, -1.5832e-08,  1.8626e-09,  ...,  4.3772e-08,
+         -1.6764e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.5832e-08,  4.6566e-09,  ..., -4.3772e-08,
+          2.3283e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          1.2107e-08,  0.0000e+00]], device='cuda:0')
+Epoch 345, bias, value: tensor([-0.0110, -0.0398,  0.0062, -0.0134,  0.0103,  0.0124,  0.0253,  0.0106,
+        -0.0431, -0.0101], device='cuda:0'), grad: tensor([-1.2480e-07,  2.5146e-08,  1.3690e-07, -6.6124e-08, -8.3819e-08,
+         6.0536e-08,  1.6764e-08, -1.3318e-07,  4.6566e-09,  1.5926e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 344, time 247.18, cls_loss 0.0008 cls_loss_mapping 0.0016 cls_loss_causal 0.4851 re_mapping 0.0043 re_causal 0.0130 /// teacc 99.02 lr 0.00010000
+Epoch 346, weight, value: tensor([[ 0.0273, -0.1828, -0.1671,  ..., -0.3479, -0.1221, -0.1673],
+        [ 0.0720, -0.0910,  0.0383,  ...,  0.0480,  0.1233, -0.0554],
+        [-0.0943,  0.1530, -0.2063,  ...,  0.0545,  0.0939, -0.0476],
+        ...,
+        [-0.0794, -0.0965, -0.0799,  ...,  0.0126, -0.2040,  0.1530],
+        [ 0.0514, -0.0479,  0.1172,  ...,  0.0010, -0.2485, -0.0261],
+        [-0.2305, -0.1180, -0.1650,  ..., -0.2805,  0.0734, -0.1099]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.2200e-07,  ...,  1.3039e-08,
+         -7.4506e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  4.6566e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -9.3132e-10,  4.1537e-07,  ...,  4.5635e-08,
+         -9.3132e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.6764e-08,  ..., -7.4506e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.8841e-06,  ..., -1.9744e-07,
+         -0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.0245e-07,  ...,  1.2107e-08,
+          1.0692e-06,  0.0000e+00]], device='cuda:0')
+Epoch 346, bias, value: tensor([-0.0093, -0.0397,  0.0062, -0.0132,  0.0104,  0.0119,  0.0258,  0.0105,
+        -0.0430, -0.0114], device='cuda:0'), grad: tensor([ 3.9581e-07,  3.4459e-08,  1.4314e-06,  3.3639e-06, -2.0918e-06,
+         5.8115e-07,  3.2410e-07,  9.3132e-09, -6.5416e-06,  2.4941e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 345, time 247.94, cls_loss 0.0009 cls_loss_mapping 0.0012 cls_loss_causal 0.4803 re_mapping 0.0042 re_causal 0.0125 /// teacc 99.01 lr 0.00010000
+Epoch 347, weight, value: tensor([[ 0.0265, -0.1829, -0.1682,  ..., -0.3503, -0.1223, -0.1673],
+        [ 0.0721, -0.0909,  0.0383,  ...,  0.0480,  0.1233, -0.0555],
+        [-0.0937,  0.1530, -0.2065,  ...,  0.0546,  0.0941, -0.0476],
+        ...,
+        [-0.0795, -0.0965, -0.0799,  ...,  0.0126, -0.2041,  0.1531],
+        [ 0.0511, -0.0480,  0.1173,  ...,  0.0008, -0.2489, -0.0262],
+        [-0.2311, -0.1181, -0.1686,  ..., -0.2817,  0.0740, -0.1100]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  3.7253e-09,
+          2.4214e-08,  0.0000e+00],
+        [ 0.0000e+00,  3.7253e-09,  1.5832e-08,  ...,  5.1223e-08,
+         -1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00, -2.0489e-08,  0.0000e+00,  ..., -6.1467e-08,
+         -2.7940e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.1176e-08, -4.0978e-08,  ..., -2.7008e-08,
+          1.6764e-08,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  2.0489e-08,  ...,  2.3283e-08,
+          2.2352e-08,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  9.3132e-10,  ...,  3.7253e-09,
+         -6.3330e-08,  0.0000e+00]], device='cuda:0')
+Epoch 347, bias, value: tensor([-0.0095, -0.0397,  0.0062, -0.0124,  0.0097,  0.0128,  0.0251,  0.0105,
+        -0.0433, -0.0116], device='cuda:0'), grad: tensor([-4.6473e-07,  1.7975e-07,  1.7136e-07,  4.8429e-08,  3.7253e-08,
+         1.0338e-07, -7.2643e-08, -3.6322e-08,  1.4622e-07, -8.3819e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 346, time 247.55, cls_loss 0.0009 cls_loss_mapping 0.0013 cls_loss_causal 0.4830 re_mapping 0.0043 re_causal 0.0128 /// teacc 99.06 lr 0.00010000
+Epoch 348, weight, value: tensor([[ 0.0265, -0.1830, -0.1689,  ..., -0.3521, -0.1225, -0.1673],
+        [ 0.0722, -0.0910,  0.0381,  ...,  0.0478,  0.1235, -0.0555],
+        [-0.0938,  0.1530, -0.2068,  ...,  0.0546,  0.0941, -0.0475],
+        ...,
+        [-0.0795, -0.0965, -0.0797,  ...,  0.0127, -0.2043,  0.1533],
+        [ 0.0512, -0.0481,  0.1178,  ...,  0.0012, -0.2493, -0.0263],
+        [-0.2315, -0.1181, -0.1689,  ..., -0.2831,  0.0748, -0.1100]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  3.7253e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.9360e-08,  ...,  1.0617e-07,
+         -5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00, -9.3132e-10,  2.7940e-09,  ...,  1.8626e-09,
+         -4.6566e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -2.4214e-08,  ..., -9.5926e-08,
+          9.3132e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  1.6950e-07,  ...,  9.5926e-08,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 348, bias, value: tensor([-0.0096, -0.0399,  0.0062, -0.0123,  0.0092,  0.0128,  0.0251,  0.0106,
+        -0.0433, -0.0110], device='cuda:0'), grad: tensor([ 7.4506e-09,  3.1479e-07,  3.7253e-09, -7.6089e-07,  1.8626e-09,
+         3.6228e-07,  4.6566e-09, -2.7660e-07,  4.6566e-09,  3.4925e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 347, time 247.63, cls_loss 0.0010 cls_loss_mapping 0.0013 cls_loss_causal 0.4785 re_mapping 0.0042 re_causal 0.0126 /// teacc 99.09 lr 0.00010000
+Epoch 349, weight, value: tensor([[ 0.0264, -0.1830, -0.1689,  ..., -0.3527, -0.1224, -0.1674],
+        [ 0.0748, -0.0925,  0.0382,  ...,  0.0477,  0.1234, -0.0555],
+        [-0.0939,  0.1530, -0.2070,  ...,  0.0547,  0.0946, -0.0476],
+        ...,
+        [-0.0796, -0.0965, -0.0798,  ...,  0.0127, -0.2044,  0.1545],
+        [ 0.0511, -0.0481,  0.1181,  ...,  0.0015, -0.2494, -0.0262],
+        [-0.2316, -0.1184, -0.1691,  ..., -0.2844,  0.0749, -0.1100]],
+       device='cuda:0'), grad: tensor([[-5.5879e-09,  9.3132e-10,  0.0000e+00,  ...,  4.6566e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  2.7940e-09, -1.3039e-08,  ...,  2.1420e-08,
+         -1.4901e-08,  0.0000e+00],
+        [ 0.0000e+00, -1.3970e-08,  9.3132e-10,  ..., -7.6368e-08,
+         -6.7055e-08,  0.0000e+00],
+        ...,
+        [ 1.8626e-09, -2.7940e-09,  2.7940e-09,  ..., -6.0536e-08,
+          1.4901e-08,  0.0000e+00],
+        [ 9.3132e-10,  2.7940e-09,  9.3132e-10,  ...,  1.1176e-08,
+          2.7940e-09,  0.0000e+00],
+        [ 9.3132e-10,  9.3132e-10,  9.3132e-10,  ...,  7.4506e-09,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 349, bias, value: tensor([-0.0076, -0.0400,  0.0063, -0.0126,  0.0089,  0.0131,  0.0220,  0.0107,
+        -0.0431, -0.0112], device='cuda:0'), grad: tensor([-1.1176e-07,  4.0047e-08, -1.5087e-07,  1.2107e-07,  8.8476e-08,
+        -7.4506e-09,  2.7008e-08, -1.7323e-07,  2.9802e-08,  1.3225e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 348, time 247.74, cls_loss 0.0009 cls_loss_mapping 0.0018 cls_loss_causal 0.4736 re_mapping 0.0043 re_causal 0.0127 /// teacc 99.07 lr 0.00010000
+Epoch 350, weight, value: tensor([[ 0.0262, -0.1831, -0.1695,  ..., -0.3545, -0.1225, -0.1674],
+        [ 0.0771, -0.0929,  0.0384,  ...,  0.0482,  0.1249, -0.0554],
+        [-0.0962,  0.1530, -0.2073,  ...,  0.0544,  0.0935, -0.0475],
+        ...,
+        [-0.0799, -0.0965, -0.0799,  ...,  0.0126, -0.2053,  0.1546],
+        [ 0.0509, -0.0481,  0.1181,  ...,  0.0012, -0.2497, -0.0264],
+        [-0.2334, -0.1184, -0.1694,  ..., -0.2852,  0.0757, -0.1100]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  1.6764e-08,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.7695e-08,  ...,  4.4797e-07,
+          1.5702e-06,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-08,  ...,  1.6764e-08,
+          2.7940e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-08,  ..., -9.6299e-07,
+          1.1362e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.7043e-07,  ..., -2.8871e-08,
+          4.6566e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.6077e-08,  ...,  8.4750e-08,
+          3.9022e-07,  0.0000e+00]], device='cuda:0')
+Epoch 350, bias, value: tensor([-0.0074, -0.0396,  0.0062, -0.0126,  0.0088,  0.0137,  0.0207,  0.0105,
+        -0.0436, -0.0105], device='cuda:0'), grad: tensor([ 7.1712e-08,  5.4650e-06,  8.6613e-08,  1.2452e-06, -5.2527e-06,
+         2.6450e-07,  4.9360e-08, -2.8610e-06, -3.9861e-07,  1.3364e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 349, time 247.37, cls_loss 0.0008 cls_loss_mapping 0.0013 cls_loss_causal 0.5140 re_mapping 0.0042 re_causal 0.0137 /// teacc 99.02 lr 0.00010000
+Epoch 351, weight, value: tensor([[ 0.0265, -0.1834, -0.1697,  ..., -0.3553, -0.1227, -0.1674],
+        [ 0.0781, -0.0933,  0.0385,  ...,  0.0482,  0.1251, -0.0554],
+        [-0.0965,  0.1531, -0.2075,  ...,  0.0544,  0.0936, -0.0475],
+        ...,
+        [-0.0792, -0.0965, -0.0800,  ...,  0.0126, -0.2055,  0.1546],
+        [ 0.0508, -0.0482,  0.1197,  ...,  0.0010, -0.2500, -0.0264],
+        [-0.2340, -0.1185, -0.1695,  ..., -0.2854,  0.0761, -0.1100]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  5.5879e-09,  1.8626e-09,  ...,  8.3819e-09,
+          3.7253e-08,  0.0000e+00],
+        [ 0.0000e+00,  2.1420e-08,  2.9802e-08,  ...,  3.4459e-08,
+          9.5926e-08,  0.0000e+00],
+        [ 0.0000e+00, -1.5926e-07,  1.3970e-08,  ..., -1.5832e-07,
+         -2.9057e-07, -2.7940e-09],
+        ...,
+        [-0.0000e+00,  2.7008e-08,  8.3819e-09,  ...,  2.5146e-08,
+          4.9360e-08,  0.0000e+00],
+        [ 0.0000e+00,  7.0781e-08, -2.3562e-07,  ..., -4.7497e-08,
+          1.5739e-07,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  8.6613e-08,  ...,  4.0978e-08,
+          4.6566e-09,  0.0000e+00]], device='cuda:0')
+Epoch 351, bias, value: tensor([-0.0079, -0.0395,  0.0062, -0.0129,  0.0087,  0.0127,  0.0215,  0.0104,
+        -0.0427, -0.0102], device='cuda:0'), grad: tensor([ 3.1665e-08,  2.8405e-07, -6.6124e-07,  2.3749e-07,  2.4214e-08,
+         5.2340e-07, -6.1281e-07,  1.1548e-07, -1.8533e-07,  2.5146e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 350, time 247.48, cls_loss 0.0008 cls_loss_mapping 0.0013 cls_loss_causal 0.4610 re_mapping 0.0043 re_causal 0.0123 /// teacc 99.01 lr 0.00010000
+Epoch 352, weight, value: tensor([[ 0.0262, -0.1839, -0.1704,  ..., -0.3556, -0.1228, -0.1674],
+        [ 0.0785, -0.0920,  0.0385,  ...,  0.0482,  0.1254, -0.0554],
+        [-0.0966,  0.1530, -0.2080,  ...,  0.0544,  0.0936, -0.0474],
+        ...,
+        [-0.0792, -0.0965, -0.0801,  ...,  0.0126, -0.2057,  0.1547],
+        [ 0.0499, -0.0482,  0.1195,  ...,  0.0009, -0.2504, -0.0264],
+        [-0.2347, -0.1187, -0.1697,  ..., -0.2857,  0.0761, -0.1100]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -1.2107e-08,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 2.7940e-09,  4.8429e-08,  4.8429e-08,  ...,  9.4995e-08,
+          4.1910e-08,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  1.8626e-09,  ...,  1.8626e-09,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 9.3132e-10, -5.1223e-08, -5.4017e-08,  ..., -1.0338e-07,
+          6.8918e-08,  0.0000e+00],
+        [ 2.1420e-08,  1.8626e-09,  9.3132e-09,  ...,  2.7940e-09,
+          1.1176e-08,  0.0000e+00],
+        [ 6.5193e-09,  0.0000e+00, -9.3132e-10,  ...,  9.3132e-10,
+         -1.1269e-07,  0.0000e+00]], device='cuda:0')
+Epoch 352, bias, value: tensor([-0.0080, -0.0395,  0.0061, -0.0128,  0.0088,  0.0130,  0.0215,  0.0104,
+        -0.0431, -0.0103], device='cuda:0'), grad: tensor([-4.3772e-08,  5.1409e-07,  1.5832e-08,  6.4634e-07, -2.7940e-09,
+        -1.0561e-06,  1.5832e-08, -1.2387e-07,  3.3714e-07, -2.9709e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 351, time 247.80, cls_loss 0.0007 cls_loss_mapping 0.0014 cls_loss_causal 0.4736 re_mapping 0.0043 re_causal 0.0127 /// teacc 99.03 lr 0.00010000
+Epoch 353, weight, value: tensor([[ 0.0258, -0.1842, -0.1707,  ..., -0.3559, -0.1228, -0.1674],
+        [ 0.0785, -0.0920,  0.0386,  ...,  0.0483,  0.1257, -0.0554],
+        [-0.0991,  0.1531, -0.2087,  ...,  0.0544,  0.0937, -0.0474],
+        ...,
+        [-0.0819, -0.0966, -0.0803,  ...,  0.0124, -0.2060,  0.1547],
+        [ 0.0530, -0.0485,  0.1208,  ...,  0.0029, -0.2507, -0.0264],
+        [-0.2345, -0.1189, -0.1698,  ..., -0.2861,  0.0761, -0.1100]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [-1.8626e-09,  0.0000e+00, -7.4506e-09,  ...,  5.5879e-09,
+         -2.3283e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-09,  ...,  7.4506e-09,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [-0.0000e+00,  0.0000e+00,  6.5193e-09,  ..., -1.8626e-09,
+          9.3132e-09,  0.0000e+00],
+        [-0.0000e+00,  0.0000e+00, -8.1025e-08,  ..., -6.9849e-08,
+          2.7940e-09,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  1.8626e-09,
+         -1.0245e-08,  0.0000e+00]], device='cuda:0')
+Epoch 353, bias, value: tensor([-0.0077, -0.0394,  0.0061, -0.0127,  0.0087,  0.0129,  0.0216,  0.0103,
+        -0.0419, -0.0104], device='cuda:0'), grad: tensor([ 0.0000e+00, -2.1420e-08,  2.5146e-08,  9.4064e-08,  8.7544e-08,
+         5.8673e-08,  1.8626e-08,  1.3970e-08, -1.8347e-07, -9.1270e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 352, time 247.33, cls_loss 0.0007 cls_loss_mapping 0.0012 cls_loss_causal 0.4683 re_mapping 0.0041 re_causal 0.0122 /// teacc 99.13 lr 0.00010000
+Epoch 354, weight, value: tensor([[ 0.0252, -0.1843, -0.1714,  ..., -0.3561, -0.1230, -0.1674],
+        [ 0.0790, -0.0928,  0.0387,  ...,  0.0483,  0.1257, -0.0554],
+        [-0.0992,  0.1531, -0.2088,  ...,  0.0544,  0.0938, -0.0474],
+        ...,
+        [-0.0819, -0.0966, -0.0803,  ...,  0.0124, -0.2063,  0.1548],
+        [ 0.0530, -0.0485,  0.1207,  ...,  0.0029, -0.2509, -0.0264],
+        [-0.2353, -0.1163, -0.1698,  ..., -0.2868,  0.0768, -0.1100]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  1.8626e-09,  1.8626e-09,  ...,  6.5193e-09,
+          1.2107e-08,  0.0000e+00],
+        [-1.4901e-08,  7.7300e-08, -7.1712e-08,  ...,  2.0489e-07,
+          4.1910e-08,  0.0000e+00],
+        [ 3.6322e-08, -2.9150e-07,  2.2445e-07,  ..., -4.5635e-07,
+         -8.8010e-07,  0.0000e+00],
+        ...,
+        [-7.5344e-07,  1.3411e-07,  1.3970e-07,  ...,  5.0664e-07,
+          5.8208e-07,  0.0000e+00],
+        [-5.3085e-08,  4.1910e-08, -2.3469e-07,  ..., -3.1479e-07,
+          1.3411e-07,  0.0000e+00],
+        [ 3.7253e-09,  3.4459e-08,  3.7253e-09,  ...,  9.4064e-08,
+         -1.7695e-08,  0.0000e+00]], device='cuda:0')
+Epoch 354, bias, value: tensor([-0.0079, -0.0395,  0.0061, -0.0128,  0.0087,  0.0127,  0.0222,  0.0103,
+        -0.0422, -0.0098], device='cuda:0'), grad: tensor([ 1.7695e-08,  4.7870e-07, -1.5935e-06, -1.1083e-07,  3.4980e-06,
+         4.0513e-07,  1.1176e-08, -1.8356e-06, -5.0291e-07, -3.5856e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 353, time 248.13, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4637 re_mapping 0.0042 re_causal 0.0129 /// teacc 99.09 lr 0.00010000
+Epoch 355, weight, value: tensor([[ 0.0248, -0.1847, -0.1719,  ..., -0.3566, -0.1231, -0.1674],
+        [ 0.0794, -0.0928,  0.0388,  ...,  0.0484,  0.1260, -0.0554],
+        [-0.0998,  0.1531, -0.2092,  ...,  0.0544,  0.0938, -0.0474],
+        ...,
+        [-0.0814, -0.0966, -0.0804,  ...,  0.0123, -0.2066,  0.1548],
+        [ 0.0529, -0.0486,  0.1207,  ...,  0.0028, -0.2511, -0.0265],
+        [-0.2360, -0.1160, -0.1699,  ..., -0.2870,  0.0769, -0.1100]],
+       device='cuda:0'), grad: tensor([[ 8.3819e-09,  3.7253e-09,  1.8626e-09,  ...,  1.2107e-08,
+          1.0245e-08,  0.0000e+00],
+        [ 1.4994e-07,  6.3330e-08,  2.0489e-08,  ...,  2.0768e-07,
+          1.6857e-07,  0.0000e+00],
+        [ 9.0078e-06, -1.1735e-07,  1.1781e-06,  ...,  9.3803e-06,
+         -3.2689e-07,  0.0000e+00],
+        ...,
+        [-9.4026e-06,  1.2107e-08, -1.1725e-06,  ..., -9.8795e-06,
+          4.0047e-08,  0.0000e+00],
+        [ 1.9092e-07,  2.9802e-08,  2.8871e-08,  ...,  2.4121e-07,
+          8.8476e-08,  0.0000e+00],
+        [ 9.3132e-10,  2.7940e-09,  0.0000e+00,  ...,  9.3132e-09,
+          4.6566e-09,  0.0000e+00]], device='cuda:0')
+Epoch 355, bias, value: tensor([-0.0077, -0.0394,  0.0061, -0.0129,  0.0088,  0.0128,  0.0220,  0.0102,
+        -0.0423, -0.0098], device='cuda:0'), grad: tensor([ 4.1910e-08,  6.8825e-07,  2.6852e-05, -5.0291e-08,  2.7008e-08,
+         1.3970e-07, -1.1642e-07, -2.8387e-05,  7.5251e-07,  3.0734e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 354, time 247.42, cls_loss 0.0008 cls_loss_mapping 0.0017 cls_loss_causal 0.4957 re_mapping 0.0044 re_causal 0.0130 /// teacc 99.11 lr 0.00010000
+Epoch 356, weight, value: tensor([[ 0.0248, -0.1853, -0.1728,  ..., -0.3568, -0.1235, -0.1674],
+        [ 0.0794, -0.0940,  0.0389,  ...,  0.0483,  0.1265, -0.0555],
+        [-0.1022,  0.1532, -0.2092,  ...,  0.0544,  0.0941, -0.0474],
+        ...,
+        [-0.0793, -0.0967, -0.0804,  ...,  0.0123, -0.2069,  0.1550],
+        [ 0.0528, -0.0487,  0.1207,  ...,  0.0028, -0.2513, -0.0265],
+        [-0.2350, -0.1162, -0.1700,  ..., -0.2873,  0.0767, -0.1100]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09,  0.0000e+00,  4.4703e-08,  ...,  9.3132e-10,
+          6.3330e-08,  0.0000e+00],
+        [-4.0978e-08,  0.0000e+00, -2.3004e-07,  ...,  3.7253e-09,
+         -2.2352e-07,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  2.2352e-08,  ...,  2.3283e-08,
+         -3.0734e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.1665e-08,  ...,  6.6124e-08,
+          1.0245e-08,  0.0000e+00],
+        [ 4.6566e-09,  0.0000e+00,  3.0734e-08,  ...,  5.5879e-09,
+          2.7008e-08,  0.0000e+00],
+        [ 4.6566e-09,  0.0000e+00,  6.5193e-09,  ...,  9.3132e-10,
+          2.4214e-08,  0.0000e+00]], device='cuda:0')
+Epoch 356, bias, value: tensor([-0.0079, -0.0392,  0.0061, -0.0127,  0.0086,  0.0126,  0.0220,  0.0102,
+        -0.0424, -0.0101], device='cuda:0'), grad: tensor([ 2.0303e-07, -6.4448e-07, -3.4459e-08, -2.3935e-07, -3.7253e-08,
+         5.2154e-08,  3.9022e-07, -1.4901e-08,  1.0524e-07,  2.1141e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 355----------------------------------------------------
+epoch 355, time 263.92, cls_loss 0.0008 cls_loss_mapping 0.0013 cls_loss_causal 0.4485 re_mapping 0.0041 re_causal 0.0119 /// teacc 99.16 lr 0.00010000
+Epoch 357, weight, value: tensor([[ 0.0257, -0.1855, -0.1752,  ..., -0.3571, -0.1236, -0.1676],
+        [ 0.0795, -0.0932,  0.0391,  ...,  0.0485,  0.1270, -0.0569],
+        [-0.1025,  0.1532, -0.2096,  ...,  0.0544,  0.0939, -0.0468],
+        ...,
+        [-0.0791, -0.0967, -0.0806,  ...,  0.0123, -0.2073,  0.1561],
+        [ 0.0527, -0.0487,  0.1207,  ...,  0.0028, -0.2514, -0.0272],
+        [-0.2356, -0.1162, -0.1703,  ..., -0.2877,  0.0770, -0.1101]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  3.1665e-08,  ...,  1.4901e-08,
+          6.3702e-07,  9.3132e-10],
+        [ 0.0000e+00,  9.3132e-10, -1.8626e-09,  ...,  3.7253e-09,
+          1.7695e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.3039e-08,  ...,  8.3819e-09,
+          1.1660e-06,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -2.7940e-09,  4.6566e-09,  ..., -3.2596e-08,
+          4.9174e-06,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.2841e-08,
+          3.5390e-08,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00, -2.3469e-07,  ..., -1.0617e-07,
+         -9.2909e-06,  0.0000e+00]], device='cuda:0')
+Epoch 357, bias, value: tensor([-0.0080, -0.0390,  0.0061, -0.0123,  0.0081,  0.0127,  0.0220,  0.0101,
+        -0.0426, -0.0098], device='cuda:0'), grad: tensor([ 2.6990e-06,  1.4063e-07,  3.8743e-06,  2.8908e-06,  8.2180e-06,
+         3.0641e-07,  4.8429e-08,  1.8016e-05,  1.7071e-06, -3.7879e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 356, time 247.80, cls_loss 0.0007 cls_loss_mapping 0.0013 cls_loss_causal 0.4717 re_mapping 0.0041 re_causal 0.0123 /// teacc 99.15 lr 0.00010000
+Epoch 358, weight, value: tensor([[ 0.0266, -0.1860, -0.1756,  ..., -0.3573, -0.1236, -0.1674],
+        [ 0.0799, -0.0934,  0.0391,  ...,  0.0485,  0.1271, -0.0570],
+        [-0.1026,  0.1533, -0.2098,  ...,  0.0544,  0.0940, -0.0460],
+        ...,
+        [-0.0787, -0.0967, -0.0806,  ...,  0.0123, -0.2075,  0.1565],
+        [ 0.0527, -0.0488,  0.1208,  ...,  0.0028, -0.2515, -0.0277],
+        [-0.2360, -0.1163, -0.1706,  ..., -0.2880,  0.0772, -0.1102]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-09,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10, -2.7940e-09,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00, -9.3132e-10,  2.7940e-08,  ...,  2.7008e-08,
+          4.0978e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -9.3132e-10,  4.6566e-09,  ...,  9.3132e-10,
+          2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.0245e-08,  ...,  1.2107e-08,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  9.3132e-10,
+          2.0489e-08,  0.0000e+00]], device='cuda:0')
+Epoch 358, bias, value: tensor([-0.0071, -0.0390,  0.0061, -0.0122,  0.0079,  0.0127,  0.0216,  0.0101,
+        -0.0427, -0.0100], device='cuda:0'), grad: tensor([ 1.3970e-08,  1.0245e-08,  1.9278e-07, -9.4995e-08, -2.1607e-07,
+        -1.8626e-09,  2.6077e-08, -1.8626e-09,  2.3283e-08,  5.7742e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 357, time 247.58, cls_loss 0.0007 cls_loss_mapping 0.0012 cls_loss_causal 0.4910 re_mapping 0.0042 re_causal 0.0129 /// teacc 99.11 lr 0.00010000
+Epoch 359, weight, value: tensor([[ 0.0270, -0.1873, -0.1759,  ..., -0.3578, -0.1236, -0.1676],
+        [ 0.0799, -0.0954,  0.0391,  ...,  0.0483,  0.1270, -0.0569],
+        [-0.1035,  0.1536, -0.2099,  ...,  0.0546,  0.0945, -0.0453],
+        ...,
+        [-0.0779, -0.0969, -0.0806,  ...,  0.0123, -0.2076,  0.1565],
+        [ 0.0526, -0.0496,  0.1207,  ...,  0.0026, -0.2519, -0.0285],
+        [-0.2363, -0.1166, -0.1708,  ..., -0.2897,  0.0773, -0.1102]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  3.7253e-09,  1.8626e-09,  ...,  3.7253e-09,
+          1.9558e-08,  0.0000e+00],
+        [-4.6566e-09, -2.7940e-09, -9.8720e-08,  ..., -2.5146e-08,
+         -2.6636e-07,  0.0000e+00],
+        [ 1.8626e-09, -5.8953e-07,  1.6764e-08,  ..., -6.4354e-07,
+         -1.9558e-08,  0.0000e+00],
+        ...,
+        [ 8.3819e-09,  5.4389e-07,  3.7253e-08,  ...,  6.1467e-07,
+          1.8533e-07,  0.0000e+00],
+        [ 9.3132e-10,  2.8871e-08,  8.3819e-09,  ...,  3.1665e-08,
+          2.4214e-08,  0.0000e+00],
+        [ 9.3132e-10,  1.8626e-09,  1.8626e-09,  ...,  1.8626e-09,
+         -6.2399e-08,  0.0000e+00]], device='cuda:0')
+Epoch 359, bias, value: tensor([-0.0065, -0.0392,  0.0063, -0.0121,  0.0079,  0.0124,  0.0212,  0.0101,
+        -0.0431, -0.0102], device='cuda:0'), grad: tensor([ 4.5635e-08, -3.4645e-07, -2.4065e-06, -9.3132e-10, -1.5832e-07,
+         3.3528e-08,  1.9558e-07,  2.5816e-06,  1.5181e-07, -9.4064e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 358, time 247.93, cls_loss 0.0009 cls_loss_mapping 0.0011 cls_loss_causal 0.4405 re_mapping 0.0040 re_causal 0.0115 /// teacc 99.03 lr 0.00010000
+Epoch 360, weight, value: tensor([[ 0.0243, -0.1877, -0.1761,  ..., -0.3596, -0.1241, -0.1684],
+        [ 0.0799, -0.0961,  0.0393,  ...,  0.0485,  0.1274, -0.0551],
+        [-0.1025,  0.1538, -0.2101,  ...,  0.0547,  0.0947, -0.0439],
+        ...,
+        [-0.0779, -0.0970, -0.0807,  ...,  0.0121, -0.2081,  0.1564],
+        [ 0.0524, -0.0504,  0.1207,  ...,  0.0025, -0.2530, -0.0294],
+        [-0.2369, -0.1171, -0.1709,  ..., -0.2911,  0.0790, -0.1102]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  6.5193e-09,  1.8626e-09,  ...,  5.5879e-09,
+          1.3039e-08,  0.0000e+00],
+        [ 0.0000e+00,  1.7695e-08, -1.4901e-08,  ...,  1.6764e-08,
+         -9.3132e-10,  4.6566e-09],
+        [ 0.0000e+00, -1.2945e-07,  7.5437e-08,  ..., -5.1223e-08,
+         -1.2480e-07,  2.7940e-09],
+        ...,
+        [ 0.0000e+00,  6.6124e-08,  2.7940e-09,  ...,  4.2841e-08,
+          7.5437e-08, -1.3970e-08],
+        [ 0.0000e+00,  2.6077e-08,  9.3132e-09,  ...,  2.6077e-08,
+          3.2596e-08,  2.7940e-09],
+        [ 0.0000e+00,  2.7940e-09,  0.0000e+00,  ...,  1.8626e-09,
+          2.8871e-08,  0.0000e+00]], device='cuda:0')
+Epoch 360, bias, value: tensor([-0.0067, -0.0390,  0.0063, -0.0119,  0.0064,  0.0122,  0.0216,  0.0099,
+        -0.0439, -0.0088], device='cuda:0'), grad: tensor([ 4.6566e-08,  8.1025e-08, -4.3772e-07, -1.4249e-07, -2.6263e-07,
+         2.7008e-08,  1.2200e-07,  3.1013e-07,  1.6298e-07,  1.0710e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 359, time 247.31, cls_loss 0.0008 cls_loss_mapping 0.0016 cls_loss_causal 0.4962 re_mapping 0.0042 re_causal 0.0126 /// teacc 99.10 lr 0.00010000
+Epoch 361, weight, value: tensor([[ 0.0242, -0.1881, -0.1764,  ..., -0.3601, -0.1245, -0.1686],
+        [ 0.0800, -0.0965,  0.0394,  ...,  0.0487,  0.1278, -0.0566],
+        [-0.1029,  0.1537, -0.2104,  ...,  0.0547,  0.0948, -0.0439],
+        ...,
+        [-0.0776, -0.0968, -0.0809,  ...,  0.0120, -0.2087,  0.1581],
+        [ 0.0523, -0.0505,  0.1209,  ...,  0.0028, -0.2535, -0.0318],
+        [-0.2371, -0.1173, -0.1710,  ..., -0.2914,  0.0798, -0.1107]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  3.7253e-09,  0.0000e+00,  ...,  2.5611e-08,
+          4.0047e-08,  3.2596e-09],
+        [ 0.0000e+00, -2.4680e-08,  1.3970e-09,  ..., -8.8010e-08,
+         -2.7660e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ..., -2.2817e-08,
+          2.3283e-09, -6.0536e-09],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  1.8626e-09,
+          5.5879e-09,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+         -6.9849e-09,  4.6566e-10]], device='cuda:0')
+Epoch 361, bias, value: tensor([-0.0072, -0.0389,  0.0062, -0.0117,  0.0063,  0.0117,  0.0228,  0.0098,
+        -0.0440, -0.0080], device='cuda:0'), grad: tensor([-8.7079e-08,  1.0571e-07, -4.1304e-07,  2.7008e-08,  1.4901e-08,
+         8.7544e-08,  2.8592e-07, -7.1712e-08,  2.4680e-08,  3.4925e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 360, time 247.71, cls_loss 0.0011 cls_loss_mapping 0.0014 cls_loss_causal 0.4861 re_mapping 0.0044 re_causal 0.0122 /// teacc 99.15 lr 0.00010000
+Epoch 362, weight, value: tensor([[ 0.0255, -0.1894, -0.1766,  ..., -0.3612, -0.1249, -0.1687],
+        [ 0.0797, -0.0971,  0.0396,  ...,  0.0490,  0.1284, -0.0568],
+        [-0.1029,  0.1539, -0.2108,  ...,  0.0548,  0.0952, -0.0436],
+        ...,
+        [-0.0777, -0.0970, -0.0811,  ...,  0.0117, -0.2095,  0.1582],
+        [ 0.0522, -0.0504,  0.1226,  ...,  0.0029, -0.2535, -0.0322],
+        [-0.2379, -0.1183, -0.1741,  ..., -0.2919,  0.0805, -0.1107]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  1.8626e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00, -4.6566e-10,  6.9849e-09,  ...,  1.3970e-09,
+         -3.2596e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  4.6566e-10,  9.3132e-10,  ..., -9.3132e-10,
+          5.1223e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-09,  ...,  2.3283e-09,
+          6.0536e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          8.8476e-09,  1.8626e-09]], device='cuda:0')
+Epoch 362, bias, value: tensor([-0.0072, -0.0387,  0.0063, -0.0119,  0.0055,  0.0123,  0.0226,  0.0098,
+        -0.0413, -0.0102], device='cuda:0'), grad: tensor([-5.1148e-06,  1.6298e-08,  1.0896e-07,  1.6876e-06, -3.5390e-08,
+        -1.8431e-06,  1.7416e-07,  1.8626e-08,  9.0338e-08,  4.9211e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 361, time 247.34, cls_loss 0.0009 cls_loss_mapping 0.0014 cls_loss_causal 0.4475 re_mapping 0.0043 re_causal 0.0120 /// teacc 99.08 lr 0.00010000
+Epoch 363, weight, value: tensor([[ 0.0256, -0.1906, -0.1771,  ..., -0.3615, -0.1255, -0.1687],
+        [ 0.0796, -0.0968,  0.0400,  ...,  0.0494,  0.1300, -0.0568],
+        [-0.1029,  0.1538, -0.2122,  ...,  0.0539,  0.0952, -0.0436],
+        ...,
+        [-0.0777, -0.0968, -0.0814,  ...,  0.0120, -0.2111,  0.1584],
+        [ 0.0522, -0.0510,  0.1220,  ...,  0.0027, -0.2553, -0.0323],
+        [-0.2380, -0.1183, -0.1742,  ..., -0.2921,  0.0807, -0.1107]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  4.6566e-10,  ...,  1.3970e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 6.9849e-09,  1.3970e-09, -2.7474e-08,  ..., -4.1910e-09,
+          1.7695e-08,  0.0000e+00],
+        [ 4.6566e-10, -5.1223e-09,  3.2596e-09,  ..., -1.8626e-09,
+         -3.7253e-09,  0.0000e+00],
+        ...,
+        [ 1.5972e-07,  4.6566e-10,  7.9162e-09,  ...,  2.3283e-09,
+          1.3132e-07,  0.0000e+00],
+        [ 1.8626e-09,  1.3970e-09,  9.3132e-09,  ...,  6.9849e-09,
+          4.6566e-09,  0.0000e+00],
+        [ 1.8626e-09,  4.6566e-10,  4.6566e-10,  ...,  9.3132e-10,
+          1.0710e-08,  0.0000e+00]], device='cuda:0')
+Epoch 363, bias, value: tensor([-0.0074, -0.0381,  0.0059, -0.0110,  0.0056,  0.0121,  0.0245,  0.0097,
+        -0.0427, -0.0102], device='cuda:0'), grad: tensor([ 1.0245e-08,  2.0396e-07,  2.7940e-09, -5.4501e-06, -9.3225e-07,
+         5.1968e-06,  7.8231e-08,  6.2212e-07,  2.0908e-07,  5.8673e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 362, time 247.69, cls_loss 0.0009 cls_loss_mapping 0.0014 cls_loss_causal 0.4720 re_mapping 0.0041 re_causal 0.0120 /// teacc 99.09 lr 0.00010000
+Epoch 364, weight, value: tensor([[ 0.0254, -0.1910, -0.1773,  ..., -0.3617, -0.1256, -0.1687],
+        [ 0.0794, -0.0953,  0.0398,  ...,  0.0492,  0.1303, -0.0568],
+        [-0.1029,  0.1540, -0.2133,  ...,  0.0539,  0.0952, -0.0436],
+        ...,
+        [-0.0794, -0.0971, -0.0813,  ...,  0.0121, -0.2114,  0.1584],
+        [ 0.0520, -0.0513,  0.1218,  ...,  0.0025, -0.2558, -0.0323],
+        [-0.2405, -0.1184, -0.1744,  ..., -0.2925,  0.0829, -0.1107]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.1176e-08,  ...,  0.0000e+00,
+          3.0361e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  3.7253e-09,
+          5.0291e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-08,  ...,  1.8626e-09,
+          1.4901e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.6764e-08,  ...,  5.5879e-09,
+          1.8626e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.1176e-07,  ..., -2.2352e-08,
+          9.3132e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ...,  1.8626e-09,
+         -1.0878e-06,  0.0000e+00]], device='cuda:0')
+Epoch 364, bias, value: tensor([-0.0075, -0.0383,  0.0059, -0.0113,  0.0034,  0.0125,  0.0247,  0.0098,
+        -0.0432, -0.0082], device='cuda:0'), grad: tensor([ 1.6801e-06,  1.6019e-07,  1.2107e-07,  1.1176e-07,  1.7900e-06,
+         2.3469e-07, -1.8254e-07,  7.6368e-08, -4.3958e-07, -3.5539e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 363, time 247.79, cls_loss 0.0008 cls_loss_mapping 0.0019 cls_loss_causal 0.4819 re_mapping 0.0041 re_causal 0.0119 /// teacc 98.98 lr 0.00010000
+Epoch 365, weight, value: tensor([[ 0.0253, -0.1912, -0.1775,  ..., -0.3619, -0.1258, -0.1687],
+        [ 0.0796, -0.0947,  0.0400,  ...,  0.0492,  0.1313, -0.0577],
+        [-0.1028,  0.1546, -0.2136,  ...,  0.0543,  0.0957, -0.0434],
+        ...,
+        [-0.0793, -0.0977, -0.0814,  ...,  0.0118, -0.2123,  0.1591],
+        [ 0.0519, -0.0515,  0.1217,  ...,  0.0024, -0.2563, -0.0325],
+        [-0.2427, -0.1202, -0.1750,  ..., -0.2941,  0.0822, -0.1107]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  3.7253e-09,  0.0000e+00,  ...,  1.8626e-09,
+          7.4506e-09,  0.0000e+00],
+        [ 7.4506e-09,  2.4214e-08,  7.4506e-09,  ...,  1.3039e-08,
+          4.2841e-08,  0.0000e+00],
+        [ 1.8626e-09, -1.4529e-07,  3.7253e-09,  ..., -4.4703e-08,
+         -2.5146e-07,  0.0000e+00],
+        ...,
+        [-2.2352e-08,  3.7253e-09, -0.0000e+00,  ..., -5.5879e-09,
+          1.3039e-08,  0.0000e+00],
+        [ 3.7253e-09,  8.9407e-08, -3.7253e-08,  ...,  1.3039e-08,
+          1.5832e-07,  0.0000e+00],
+        [ 1.8626e-09,  1.8626e-09,  1.8626e-08,  ...,  9.3132e-09,
+         -1.3039e-08,  0.0000e+00]], device='cuda:0')
+Epoch 365, bias, value: tensor([-0.0074, -0.0380,  0.0062, -0.0103,  0.0036,  0.0109,  0.0260,  0.0095,
+        -0.0435, -0.0094], device='cuda:0'), grad: tensor([-1.1384e-05,  1.9558e-07, -6.8732e-07,  9.4995e-08,  2.0489e-08,
+         1.0170e-06,  1.0118e-05, -5.5879e-09,  5.3458e-07,  1.3225e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 364, time 248.00, cls_loss 0.0009 cls_loss_mapping 0.0016 cls_loss_causal 0.4976 re_mapping 0.0042 re_causal 0.0127 /// teacc 99.04 lr 0.00010000
+Epoch 366, weight, value: tensor([[ 0.0252, -0.1885, -0.1750,  ..., -0.3622, -0.1254, -0.1688],
+        [ 0.0794, -0.0954,  0.0401,  ...,  0.0492,  0.1313, -0.0585],
+        [-0.1028,  0.1547, -0.2140,  ...,  0.0544,  0.0960, -0.0431],
+        ...,
+        [-0.0808, -0.0978, -0.0814,  ...,  0.0118, -0.2127,  0.1599],
+        [ 0.0517, -0.0518,  0.1216,  ...,  0.0022, -0.2569, -0.0327],
+        [-0.2459, -0.1217, -0.1751,  ..., -0.2945,  0.0824, -0.1107]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  3.7253e-09,  2.2352e-08,  ...,  2.9802e-08,
+          4.2841e-08,  0.0000e+00],
+        [ 0.0000e+00,  1.2107e-07, -4.8429e-07,  ...,  2.7567e-07,
+          1.9558e-07,  0.0000e+00],
+        [ 0.0000e+00, -3.9302e-07,  2.6077e-08,  ..., -1.4044e-06,
+         -1.7099e-06,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  2.3097e-07,  7.2643e-08,  ...,  7.0408e-07,
+          8.5123e-07,  0.0000e+00],
+        [ 0.0000e+00,  2.2352e-08,  3.3714e-07,  ...,  3.1851e-07,
+          5.1036e-07,  0.0000e+00],
+        [ 0.0000e+00,  1.1176e-08,  1.6764e-08,  ...,  6.3330e-08,
+          8.3819e-08,  0.0000e+00]], device='cuda:0')
+Epoch 366, bias, value: tensor([-0.0062, -0.0381,  0.0062, -0.0098,  0.0041,  0.0108,  0.0264,  0.0094,
+        -0.0440, -0.0095], device='cuda:0'), grad: tensor([ 1.0431e-07, -3.1665e-08, -3.5577e-06,  0.0000e+00, -5.5879e-09,
+         1.6764e-08,  3.3528e-08,  1.8664e-06,  1.3616e-06,  1.9558e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 365, time 247.84, cls_loss 0.0012 cls_loss_mapping 0.0017 cls_loss_causal 0.5032 re_mapping 0.0040 re_causal 0.0120 /// teacc 99.03 lr 0.00010000
+Epoch 367, weight, value: tensor([[ 0.0249, -0.1905, -0.1755,  ..., -0.3636, -0.1277, -0.1688],
+        [ 0.0793, -0.0967,  0.0399,  ...,  0.0487,  0.1313, -0.0583],
+        [-0.1030,  0.1554, -0.2151,  ...,  0.0547,  0.0972, -0.0431],
+        ...,
+        [-0.0807, -0.0981, -0.0813,  ...,  0.0120, -0.2129,  0.1599],
+        [ 0.0514, -0.0506,  0.1214,  ...,  0.0023, -0.2592, -0.0328],
+        [-0.2469, -0.1227, -0.1743,  ..., -0.2955,  0.0839, -0.1107]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  5.5879e-09,  0.0000e+00,  ...,  7.4506e-09,
+          1.4901e-08,  0.0000e+00],
+        [ 0.0000e+00,  4.2841e-08, -1.4901e-08,  ...,  5.4017e-08,
+          9.8720e-08,  0.0000e+00],
+        [ 0.0000e+00, -1.9856e-06,  0.0000e+00,  ..., -2.6245e-06,
+         -5.7556e-06,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.3039e-08,  1.8626e-09,  ...,  1.8626e-08,
+          5.4017e-08,  0.0000e+00],
+        [ 0.0000e+00,  1.8831e-06,  0.0000e+00,  ...,  2.4922e-06,
+          5.4613e-06,  0.0000e+00],
+        [ 0.0000e+00,  1.6764e-08,  0.0000e+00,  ...,  2.2352e-08,
+          4.8429e-08,  0.0000e+00]], device='cuda:0')
+Epoch 367, bias, value: tensor([-0.0060, -0.0385,  0.0066, -0.0108,  0.0039,  0.0107,  0.0266,  0.0097,
+        -0.0450, -0.0094], device='cuda:0'), grad: tensor([ 2.9802e-08,  1.9372e-07, -1.0870e-05,  1.1176e-08,  3.1665e-08,
+         2.2352e-08,  6.3330e-08,  7.4506e-08,  1.0327e-05,  9.8720e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 366, time 247.76, cls_loss 0.0009 cls_loss_mapping 0.0012 cls_loss_causal 0.4834 re_mapping 0.0042 re_causal 0.0123 /// teacc 99.13 lr 0.00010000
+Epoch 368, weight, value: tensor([[ 0.0233, -0.1923, -0.1757,  ..., -0.3666, -0.1281, -0.1689],
+        [ 0.0791, -0.0947,  0.0400,  ...,  0.0493,  0.1327, -0.0580],
+        [-0.1030,  0.1554, -0.2160,  ...,  0.0544,  0.0961, -0.0432],
+        ...,
+        [-0.0802, -0.0982, -0.0813,  ...,  0.0119, -0.2134,  0.1599],
+        [ 0.0508, -0.0509,  0.1215,  ...,  0.0021, -0.2601, -0.0330],
+        [-0.2491, -0.1232, -0.1746,  ..., -0.2963,  0.0838, -0.1107]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.8626e-08,  ..., -3.7253e-09,
+         -1.4901e-08,  0.0000e+00],
+        [ 0.0000e+00, -1.8626e-09,  1.8626e-09,  ..., -1.8626e-09,
+         -3.7253e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.1176e-08,  ..., -1.8626e-09,
+          2.7940e-08,  0.0000e+00],
+        [-1.8626e-09,  0.0000e+00, -9.3132e-09,  ...,  0.0000e+00,
+         -1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.8626e-09,
+          9.3132e-07,  0.0000e+00]], device='cuda:0')
+Epoch 368, bias, value: tensor([-0.0060, -0.0382,  0.0064, -0.0112,  0.0041,  0.0109,  0.0269,  0.0096,
+        -0.0453, -0.0099], device='cuda:0'), grad: tensor([ 3.7253e-09, -2.2352e-08,  1.8626e-09,  1.8626e-09, -1.4137e-06,
+         3.7253e-09,  9.3132e-09,  1.6764e-08, -2.6077e-08,  1.4305e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 367, time 247.71, cls_loss 0.0009 cls_loss_mapping 0.0017 cls_loss_causal 0.4856 re_mapping 0.0040 re_causal 0.0120 /// teacc 99.06 lr 0.00010000
+Epoch 369, weight, value: tensor([[ 0.0234, -0.1927, -0.1756,  ..., -0.3668, -0.1281, -0.1689],
+        [ 0.0789, -0.0947,  0.0402,  ...,  0.0495,  0.1334, -0.0580],
+        [-0.1031,  0.1555, -0.2163,  ...,  0.0544,  0.0964, -0.0432],
+        ...,
+        [-0.0801, -0.0982, -0.0815,  ...,  0.0118, -0.2141,  0.1599],
+        [ 0.0506, -0.0509,  0.1217,  ...,  0.0020, -0.2603, -0.0329],
+        [-0.2506, -0.1233, -0.1751,  ..., -0.2984,  0.0837, -0.1107]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  7.4506e-09,  1.8626e-09,  ...,  9.3132e-09,
+          5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00,  7.4506e-09, -1.7323e-07,  ..., -6.5193e-08,
+         -1.8813e-07,  0.0000e+00],
+        [ 1.8626e-09, -4.3586e-07,  1.1548e-07,  ..., -4.0233e-07,
+         -4.0978e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  3.7439e-07,  4.0978e-08,  ...,  3.9488e-07,
+          1.5274e-07,  0.0000e+00],
+        [-3.7253e-09,  2.9802e-08, -1.3858e-06,  ..., -8.2888e-07,
+          1.6764e-08,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  3.7253e-09,  ...,  3.7253e-09,
+          3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 369, bias, value: tensor([-0.0059, -0.0380,  0.0065, -0.0122,  0.0044,  0.0114,  0.0268,  0.0096,
+        -0.0454, -0.0103], device='cuda:0'), grad: tensor([ 4.8429e-08, -3.6508e-07, -2.2203e-06,  2.9244e-06, -5.2154e-08,
+         2.9802e-08,  1.8254e-07,  2.1476e-06, -2.7027e-06, -1.8626e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 368, time 247.53, cls_loss 0.0009 cls_loss_mapping 0.0013 cls_loss_causal 0.4961 re_mapping 0.0040 re_causal 0.0119 /// teacc 99.07 lr 0.00010000
+Epoch 370, weight, value: tensor([[ 0.0231, -0.1941, -0.1760,  ..., -0.3676, -0.1285, -0.1689],
+        [ 0.0791, -0.0949,  0.0408,  ...,  0.0499,  0.1343, -0.0577],
+        [-0.1036,  0.1558, -0.2164,  ...,  0.0546,  0.0967, -0.0436],
+        ...,
+        [-0.0807, -0.0985, -0.0820,  ...,  0.0114, -0.2154,  0.1600],
+        [ 0.0506, -0.0509,  0.1225,  ...,  0.0022, -0.2605, -0.0330],
+        [-0.2508, -0.1234, -0.1757,  ..., -0.3000,  0.0836, -0.1107]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  7.4506e-09,  1.8626e-09,  ...,  9.3132e-09,
+          3.9116e-08,  0.0000e+00],
+        [ 0.0000e+00,  5.5879e-09, -2.6077e-08,  ...,  5.5879e-09,
+         -5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00, -2.4214e-08,  5.5879e-09,  ..., -3.1665e-08,
+         -8.5682e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  7.4506e-09,  1.8626e-08,  ...,  1.6764e-08,
+          3.1665e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  1.8626e-09,
+          7.4506e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 370, bias, value: tensor([-0.0065, -0.0375,  0.0067, -0.0116,  0.0044,  0.0095,  0.0285,  0.0091,
+        -0.0452, -0.0104], device='cuda:0'), grad: tensor([ 8.2143e-07, -1.1176e-08, -2.3842e-07,  7.4506e-09,  7.4506e-09,
+         2.6636e-07, -1.0263e-06,  8.1956e-08,  8.0094e-08,  1.8626e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 369, time 248.01, cls_loss 0.0009 cls_loss_mapping 0.0015 cls_loss_causal 0.4763 re_mapping 0.0039 re_causal 0.0116 /// teacc 99.06 lr 0.00010000
+Epoch 371, weight, value: tensor([[ 0.0230, -0.1949, -0.1765,  ..., -0.3679, -0.1286, -0.1689],
+        [ 0.0791, -0.0950,  0.0404,  ...,  0.0493,  0.1347, -0.0576],
+        [-0.1040,  0.1558, -0.2168,  ...,  0.0547,  0.0970, -0.0442],
+        ...,
+        [-0.0809, -0.0985, -0.0816,  ...,  0.0119, -0.2157,  0.1602],
+        [ 0.0505, -0.0509,  0.1228,  ...,  0.0023, -0.2607, -0.0331],
+        [-0.2510, -0.1234, -0.1759,  ..., -0.3011,  0.0834, -0.1107]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -8.7544e-08,
+         -2.8871e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ...,  9.3132e-09,
+          6.3330e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  1.4901e-08,
+          4.4703e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  1.1176e-08,
+          4.2841e-08,  0.0000e+00],
+        [ 1.1176e-08,  0.0000e+00, -1.8626e-09,  ..., -0.0000e+00,
+          5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-08,
+          1.8254e-07,  0.0000e+00]], device='cuda:0')
+Epoch 371, bias, value: tensor([-0.0068, -0.0379,  0.0068, -0.0111,  0.0048,  0.0087,  0.0287,  0.0094,
+        -0.0452, -0.0108], device='cuda:0'), grad: tensor([-2.0266e-06,  3.2037e-07,  3.0175e-07,  5.4948e-07, -5.7369e-07,
+        -7.4692e-07,  6.4448e-07,  2.9244e-07,  3.2037e-07,  9.2015e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 370, time 247.77, cls_loss 0.0009 cls_loss_mapping 0.0012 cls_loss_causal 0.4467 re_mapping 0.0040 re_causal 0.0113 /// teacc 99.01 lr 0.00010000
+Epoch 372, weight, value: tensor([[ 0.0230, -0.1948, -0.1767,  ..., -0.3684, -0.1286, -0.1690],
+        [ 0.0790, -0.0950,  0.0411,  ...,  0.0499,  0.1362, -0.0572],
+        [-0.1041,  0.1559, -0.2177,  ...,  0.0547,  0.0971, -0.0446],
+        ...,
+        [-0.0809, -0.0986, -0.0823,  ...,  0.0115, -0.2172,  0.1606],
+        [ 0.0505, -0.0509,  0.1229,  ...,  0.0023, -0.2608, -0.0332],
+        [-0.2511, -0.1238, -0.1764,  ..., -0.3022,  0.0833, -0.1107]],
+       device='cuda:0'), grad: tensor([[-1.8626e-09,  2.7940e-08,  1.8626e-09,  ...,  1.1176e-08,
+          6.3330e-08,  0.0000e+00],
+        [ 0.0000e+00,  1.4901e-08,  1.0058e-07,  ...,  4.8429e-08,
+          1.4901e-08,  0.0000e+00],
+        [ 0.0000e+00, -3.1851e-07,  9.3132e-09,  ..., -5.5321e-07,
+         -6.4075e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.3225e-07,  1.8626e-09,  ...,  2.6077e-07,
+          2.8312e-07,  0.0000e+00],
+        [ 0.0000e+00,  1.3039e-07, -2.9989e-07,  ...,  1.8254e-07,
+          2.7381e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  1.8626e-09,
+          3.5390e-08,  0.0000e+00]], device='cuda:0')
+Epoch 372, bias, value: tensor([-0.0064, -0.0373,  0.0068, -0.0110,  0.0047,  0.0093,  0.0285,  0.0089,
+        -0.0453, -0.0111], device='cuda:0'), grad: tensor([ 1.4529e-07,  3.0920e-07, -1.7062e-06,  1.0245e-07, -5.1968e-07,
+         7.2643e-08,  4.6194e-07,  7.0781e-07,  2.7195e-07,  1.6019e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 371, time 247.36, cls_loss 0.0010 cls_loss_mapping 0.0015 cls_loss_causal 0.4779 re_mapping 0.0041 re_causal 0.0115 /// teacc 99.05 lr 0.00010000
+Epoch 373, weight, value: tensor([[ 0.0235, -0.1953, -0.1771,  ..., -0.3690, -0.1288, -0.1690],
+        [ 0.0790, -0.0957,  0.0415,  ...,  0.0498,  0.1370, -0.0562],
+        [-0.1041,  0.1557, -0.2184,  ...,  0.0546,  0.0974, -0.0447],
+        ...,
+        [-0.0809, -0.0983, -0.0824,  ...,  0.0116, -0.2177,  0.1610],
+        [ 0.0506, -0.0511,  0.1229,  ...,  0.0023, -0.2615, -0.0336],
+        [-0.2512, -0.1242, -0.1766,  ..., -0.3035,  0.0830, -0.1108]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00, -3.7253e-09, -7.2643e-08,  ..., -2.6077e-08,
+         -6.3330e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.4901e-08,  ...,  3.7253e-09,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.3039e-08,  ..., -1.8626e-09,
+          1.8626e-08,  0.0000e+00],
+        [-0.0000e+00,  0.0000e+00, -2.0489e-08,  ..., -5.5879e-09,
+          1.3039e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.8626e-09,
+          3.5390e-08,  0.0000e+00]], device='cuda:0')
+Epoch 373, bias, value: tensor([-0.0062, -0.0372,  0.0067, -0.0109,  0.0052,  0.0103,  0.0259,  0.0092,
+        -0.0461, -0.0118], device='cuda:0'), grad: tensor([-1.5274e-07, -1.0431e-07,  5.0291e-08,  4.8429e-08, -1.1921e-07,
+         1.8999e-07,  5.2154e-08,  5.9605e-08,  2.7940e-08, -6.7055e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 372----------------------------------------------------
+epoch 372, time 264.53, cls_loss 0.0009 cls_loss_mapping 0.0015 cls_loss_causal 0.4962 re_mapping 0.0040 re_causal 0.0118 /// teacc 99.20 lr 0.00010000
+Epoch 374, weight, value: tensor([[ 0.0234, -0.1956, -0.1773,  ..., -0.3695, -0.1291, -0.1702],
+        [ 0.0788, -0.0963,  0.0420,  ...,  0.0502,  0.1381, -0.0565],
+        [-0.1042,  0.1557, -0.2188,  ...,  0.0546,  0.0974, -0.0435],
+        ...,
+        [-0.0816, -0.0983, -0.0829,  ...,  0.0114, -0.2186,  0.1616],
+        [ 0.0505, -0.0513,  0.1224,  ...,  0.0019, -0.2623, -0.0338],
+        [-0.2518, -0.1243, -0.1768,  ..., -0.3045,  0.0827, -0.1109]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.6764e-08,  3.7253e-09,  ...,  1.6764e-08,
+          9.3132e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-08,  1.8626e-09,  ...,  5.0291e-08,
+          2.0489e-08,  0.0000e+00],
+        [ 0.0000e+00, -1.2498e-06,  1.2480e-07,  ..., -1.0543e-06,
+         -6.4634e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.0300e-06,  0.0000e+00,  ...,  8.1770e-07,
+          5.0105e-07,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09, -1.3243e-06,  ..., -3.6694e-07,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  3.7253e-09,  0.0000e+00,  ...,  3.7253e-09,
+          5.7742e-08,  0.0000e+00]], device='cuda:0')
+Epoch 374, bias, value: tensor([-0.0062, -0.0367,  0.0067, -0.0109,  0.0058,  0.0106,  0.0258,  0.0089,
+        -0.0467, -0.0123], device='cuda:0'), grad: tensor([ 1.8626e-09,  2.0303e-07, -3.5781e-06,  9.7416e-07, -2.4773e-07,
+        -3.7253e-09,  1.4640e-06,  2.9057e-06, -1.9502e-06,  2.0117e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 373, time 247.45, cls_loss 0.0010 cls_loss_mapping 0.0014 cls_loss_causal 0.4440 re_mapping 0.0041 re_causal 0.0114 /// teacc 99.05 lr 0.00010000
+Epoch 375, weight, value: tensor([[ 0.0235, -0.1955, -0.1776,  ..., -0.3702, -0.1269, -0.1700],
+        [ 0.0823, -0.0963,  0.0427,  ...,  0.0496,  0.1381, -0.0566],
+        [-0.1050,  0.1569, -0.2203,  ...,  0.0560,  0.0992, -0.0435],
+        ...,
+        [-0.0820, -0.0984, -0.0834,  ...,  0.0110, -0.2199,  0.1618],
+        [ 0.0503, -0.0514,  0.1220,  ...,  0.0014, -0.2633, -0.0338],
+        [-0.2521, -0.1246, -0.1770,  ..., -0.3058,  0.0813, -0.1110]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.5879e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -0.0000e+00,  1.8626e-09,  ...,  7.4506e-09,
+         -5.5879e-09,  0.0000e+00],
+        ...,
+        [-0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  2.5891e-07,
+          5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -3.7253e-08,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.6077e-08,  ...,  0.0000e+00,
+         -9.3132e-09,  0.0000e+00]], device='cuda:0')
+Epoch 375, bias, value: tensor([-0.0027, -0.0369,  0.0077, -0.0107,  0.0055,  0.0102,  0.0250,  0.0085,
+        -0.0473, -0.0142], device='cuda:0'), grad: tensor([ 0.0000e+00,  2.7940e-08,  2.0489e-08, -6.6496e-07,  1.8626e-08,
+         1.3039e-08, -1.3039e-08,  6.2957e-07, -1.0245e-07,  5.9605e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 374, time 247.21, cls_loss 0.0008 cls_loss_mapping 0.0012 cls_loss_causal 0.4622 re_mapping 0.0042 re_causal 0.0119 /// teacc 99.06 lr 0.00010000
+Epoch 376, weight, value: tensor([[ 0.0234, -0.1957, -0.1780,  ..., -0.3708, -0.1272, -0.1702],
+        [ 0.0830, -0.0978,  0.0449,  ...,  0.0501,  0.1385, -0.0566],
+        [-0.1051,  0.1579, -0.2217,  ...,  0.0571,  0.1006, -0.0434],
+        ...,
+        [-0.0823, -0.0985, -0.0854,  ...,  0.0092, -0.2230,  0.1629],
+        [ 0.0504, -0.0514,  0.1223,  ...,  0.0016, -0.2633, -0.0339],
+        [-0.2527, -0.1247, -0.1773,  ..., -0.3064,  0.0814, -0.1110]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  7.4506e-08, -1.8626e-09,  ...,  1.7323e-07,
+          3.7625e-07,  0.0000e+00],
+        [ 0.0000e+00, -8.5682e-08,  2.4214e-08,  ..., -1.9930e-07,
+         -4.1351e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  9.3132e-09,  1.8626e-09,  ...,  2.0489e-08,
+          4.6566e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -3.7253e-08,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  1.8626e-09,
+         -1.1176e-08,  0.0000e+00]], device='cuda:0')
+Epoch 376, bias, value: tensor([-0.0028, -0.0354,  0.0084, -0.0105,  0.0055,  0.0098,  0.0257,  0.0064,
+        -0.0470, -0.0143], device='cuda:0'), grad: tensor([ 4.6566e-08,  5.3272e-07, -4.1537e-07,  2.9802e-08, -2.4214e-08,
+         1.4901e-08,  2.2352e-08,  7.6368e-08, -2.4214e-07, -4.4703e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 375, time 247.16, cls_loss 0.0008 cls_loss_mapping 0.0011 cls_loss_causal 0.4730 re_mapping 0.0041 re_causal 0.0120 /// teacc 99.06 lr 0.00010000
+Epoch 377, weight, value: tensor([[ 0.0231, -0.1960, -0.1784,  ..., -0.3713, -0.1274, -0.1702],
+        [ 0.0831, -0.0978,  0.0448,  ...,  0.0498,  0.1386, -0.0567],
+        [-0.1052,  0.1579, -0.2224,  ...,  0.0571,  0.1006, -0.0435],
+        ...,
+        [-0.0824, -0.0985, -0.0852,  ...,  0.0096, -0.2233,  0.1630],
+        [ 0.0506, -0.0514,  0.1220,  ...,  0.0015, -0.2656, -0.0340],
+        [-0.2528, -0.1248, -0.1762,  ..., -0.3069,  0.0837, -0.1110]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  1.8626e-09,
+          1.0803e-07,  0.0000e+00],
+        [-2.8312e-07,  5.5879e-09, -2.1607e-07,  ..., -1.8254e-07,
+         -4.8615e-07,  0.0000e+00],
+        [ 4.6566e-08, -2.9802e-08,  8.3819e-08,  ...,  3.5390e-08,
+          2.0862e-07,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  2.4214e-08,  1.4901e-08,  ...,  7.4506e-09,
+          8.7544e-08,  0.0000e+00],
+        [ 2.0489e-08,  0.0000e+00,  1.8626e-08,  ...,  1.4901e-08,
+          5.9605e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  1.8626e-09,
+          2.2352e-07,  0.0000e+00]], device='cuda:0')
+Epoch 377, bias, value: tensor([-0.0029, -0.0357,  0.0084, -0.0108,  0.0042,  0.0097,  0.0260,  0.0066,
+        -0.0482, -0.0125], device='cuda:0'), grad: tensor([ 2.2911e-07, -2.6636e-07,  3.4459e-07, -4.1537e-07, -1.5870e-06,
+        -3.9116e-08,  8.4564e-07,  2.2911e-07,  8.5682e-08,  5.7369e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 376, time 247.40, cls_loss 0.0007 cls_loss_mapping 0.0013 cls_loss_causal 0.4671 re_mapping 0.0041 re_causal 0.0121 /// teacc 99.19 lr 0.00010000
+Epoch 378, weight, value: tensor([[ 0.0231, -0.1960, -0.1791,  ..., -0.3717, -0.1276, -0.1704],
+        [ 0.0834, -0.0978,  0.0447,  ...,  0.0497,  0.1387, -0.0568],
+        [-0.1056,  0.1579, -0.2229,  ...,  0.0571,  0.1006, -0.0437],
+        ...,
+        [-0.0823, -0.0985, -0.0852,  ...,  0.0098, -0.2234,  0.1630],
+        [ 0.0508, -0.0511,  0.1222,  ...,  0.0016, -0.2660, -0.0341],
+        [-0.2528, -0.1248, -0.1761,  ..., -0.3073,  0.0841, -0.1109]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -2.0489e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.4773e-07,
+          1.8999e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ..., -2.4959e-07,
+         -2.0675e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -5.5879e-09,
+          2.2352e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+         -7.4506e-09,  0.0000e+00]], device='cuda:0')
+Epoch 378, bias, value: tensor([-0.0029, -0.0358,  0.0084, -0.0109,  0.0042,  0.0098,  0.0259,  0.0067,
+        -0.0483, -0.0122], device='cuda:0'), grad: tensor([-1.0058e-07,  4.7311e-07, -4.0606e-07,  2.0489e-08,  1.2480e-07,
+         0.0000e+00,  7.4506e-09, -1.5087e-07,  3.7253e-09,  2.6077e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 377, time 247.36, cls_loss 0.0010 cls_loss_mapping 0.0013 cls_loss_causal 0.4977 re_mapping 0.0040 re_causal 0.0117 /// teacc 99.10 lr 0.00010000
+Epoch 379, weight, value: tensor([[ 0.0231, -0.1964, -0.1818,  ..., -0.3730, -0.1280, -0.1707],
+        [ 0.0835, -0.0978,  0.0450,  ...,  0.0497,  0.1387, -0.0578],
+        [-0.1058,  0.1579, -0.2232,  ...,  0.0571,  0.1006, -0.0459],
+        ...,
+        [-0.0824, -0.0985, -0.0853,  ...,  0.0098, -0.2235,  0.1652],
+        [ 0.0510, -0.0511,  0.1222,  ...,  0.0014, -0.2666, -0.0346],
+        [-0.2528, -0.1248, -0.1765,  ..., -0.3086,  0.0853, -0.1110]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.1176e-08,  ...,  1.8626e-09,
+          4.0978e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ..., -0.0000e+00,
+          4.2841e-08,  0.0000e+00],
+        [ 0.0000e+00, -1.8626e-09,  1.8626e-08,  ...,  9.3132e-09,
+         -0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.8626e-09,  9.3132e-09,  ..., -9.3132e-09,
+          5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.3448e-06,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-08,  ...,  1.6764e-08,
+         -2.7940e-08,  0.0000e+00]], device='cuda:0')
+Epoch 379, bias, value: tensor([-0.0027, -0.0358,  0.0083, -0.0109,  0.0034,  0.0099,  0.0254,  0.0068,
+        -0.0485, -0.0118], device='cuda:0'), grad: tensor([ 1.8440e-07,  1.5274e-07,  6.1467e-08, -2.7940e-08, -1.6205e-07,
+         1.5032e-06,  1.0170e-06, -2.4214e-07, -2.6450e-06,  1.6764e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 378, time 247.07, cls_loss 0.0009 cls_loss_mapping 0.0018 cls_loss_causal 0.4802 re_mapping 0.0038 re_causal 0.0116 /// teacc 99.12 lr 0.00010000
+Epoch 380, weight, value: tensor([[ 0.0231, -0.1968, -0.1826,  ..., -0.3735, -0.1282, -0.1711],
+        [ 0.0835, -0.0978,  0.0450,  ...,  0.0497,  0.1388, -0.0591],
+        [-0.1058,  0.1579, -0.2240,  ...,  0.0571,  0.1006, -0.0459],
+        ...,
+        [-0.0825, -0.0985, -0.0853,  ...,  0.0098, -0.2236,  0.1658],
+        [ 0.0509, -0.0511,  0.1228,  ...,  0.0015, -0.2667, -0.0327],
+        [-0.2529, -0.1249, -0.1769,  ..., -0.3093,  0.0852, -0.1110]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ..., -0.0000e+00,
+         -0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 380, bias, value: tensor([ 0.0004, -0.0359,  0.0082, -0.0091,  0.0037,  0.0088,  0.0220,  0.0068,
+        -0.0483, -0.0120], device='cuda:0'), grad: tensor([ 1.8626e-09,  1.4901e-08,  9.3132e-09, -9.3132e-09, -7.4506e-09,
+        -3.1665e-08, -2.9802e-08, -2.9989e-07,  2.0489e-08,  3.2410e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 379, time 247.88, cls_loss 0.0008 cls_loss_mapping 0.0009 cls_loss_causal 0.4619 re_mapping 0.0039 re_causal 0.0118 /// teacc 99.08 lr 0.00010000
+Epoch 381, weight, value: tensor([[ 0.0230, -0.1969, -0.1828,  ..., -0.3738, -0.1283, -0.1700],
+        [ 0.0835, -0.0978,  0.0450,  ...,  0.0494,  0.1386, -0.0607],
+        [-0.1059,  0.1579, -0.2242,  ...,  0.0572,  0.1010, -0.0460],
+        ...,
+        [-0.0825, -0.0985, -0.0853,  ...,  0.0101, -0.2237,  0.1672],
+        [ 0.0509, -0.0511,  0.1236,  ...,  0.0019, -0.2667, -0.0329],
+        [-0.2529, -0.1250, -0.1772,  ..., -0.3108,  0.0851, -0.1111]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  0.0000e+00,
+          2.6077e-08,  0.0000e+00],
+        [ 5.5879e-09,  0.0000e+00, -5.5879e-08,  ...,  5.5879e-09,
+         -4.0978e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -0.0000e+00,
+         -3.7253e-09,  0.0000e+00],
+        ...,
+        [-9.3132e-09,  3.7253e-09,  3.7253e-09,  ...,  5.5879e-09,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.4703e-08,  ...,  9.3132e-09,
+          7.4506e-09,  0.0000e+00],
+        [ 3.7253e-09,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+         -1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 381, bias, value: tensor([ 0.0004, -0.0362,  0.0085, -0.0102,  0.0039,  0.0088,  0.0219,  0.0070,
+        -0.0477, -0.0122], device='cuda:0'), grad: tensor([ 3.7253e-08, -9.8720e-08,  3.7253e-09, -1.9372e-07,  1.8626e-09,
+         1.8440e-07,  1.6764e-08, -5.7742e-08,  8.0094e-08,  2.6077e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 380, time 247.92, cls_loss 0.0009 cls_loss_mapping 0.0019 cls_loss_causal 0.4815 re_mapping 0.0039 re_causal 0.0116 /// teacc 99.02 lr 0.00010000
+Epoch 382, weight, value: tensor([[ 0.0226, -0.1998, -0.1833,  ..., -0.3756, -0.1285, -0.1700],
+        [ 0.0834, -0.0978,  0.0457,  ...,  0.0500,  0.1390, -0.0618],
+        [-0.1060,  0.1584, -0.2251,  ...,  0.0573,  0.1011, -0.0459],
+        ...,
+        [-0.0824, -0.0987, -0.0859,  ...,  0.0096, -0.2245,  0.1692],
+        [ 0.0509, -0.0531,  0.1243,  ...,  0.0010, -0.2672, -0.0351],
+        [-0.2530, -0.1251, -0.1775,  ..., -0.3118,  0.0853, -0.1113]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  4.0978e-08,  ...,  2.4214e-08,
+          3.7253e-08,  0.0000e+00],
+        [ 5.0291e-08,  1.3039e-08, -1.8068e-07,  ..., -5.0291e-08,
+          2.0489e-08, -0.0000e+00],
+        [ 0.0000e+00,  3.3528e-08,  1.4901e-08,  ...,  2.0489e-08,
+         -8.0094e-08,  0.0000e+00],
+        ...,
+        [ 5.5879e-09, -6.1467e-08,  2.2352e-08,  ..., -8.5682e-08,
+          3.9116e-08,  0.0000e+00],
+        [ 0.0000e+00,  3.7253e-09,  8.3819e-08,  ...,  4.8429e-08,
+          7.2643e-08,  0.0000e+00],
+        [ 1.8626e-09,  1.8626e-09,  3.7253e-09,  ...,  5.5879e-09,
+         -0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 382, bias, value: tensor([ 0.0001, -0.0357,  0.0087, -0.0092,  0.0040,  0.0076,  0.0220,  0.0065,
+        -0.0478, -0.0122], device='cuda:0'), grad: tensor([ 1.6578e-07, -2.7567e-07,  1.1921e-07,  1.2480e-07, -2.5518e-07,
+        -4.9919e-07,  4.2096e-07, -2.2165e-07,  3.9861e-07,  2.4214e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 381, time 247.09, cls_loss 0.0009 cls_loss_mapping 0.0019 cls_loss_causal 0.4733 re_mapping 0.0039 re_causal 0.0113 /// teacc 99.06 lr 0.00010000
+Epoch 383, weight, value: tensor([[ 0.0220, -0.2000, -0.1843,  ..., -0.3761, -0.1276, -0.1701],
+        [ 0.0840, -0.0980,  0.0433,  ...,  0.0478,  0.1391, -0.0629],
+        [-0.1061,  0.1590, -0.2259,  ...,  0.0575,  0.1012, -0.0457],
+        ...,
+        [-0.0824, -0.0993, -0.0835,  ...,  0.0117, -0.2246,  0.1700],
+        [ 0.0507, -0.0531,  0.1259,  ...,  0.0020, -0.2673, -0.0350],
+        [-0.2531, -0.1254, -0.1779,  ..., -0.3128,  0.0848, -0.1115]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+         -1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ...,  5.4017e-08,
+         -3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00, -1.8626e-09,  0.0000e+00,  ...,  1.3039e-08,
+         -1.8626e-09,  0.0000e+00],
+        ...,
+        [-0.0000e+00,  0.0000e+00,  1.8626e-09,  ..., -1.2107e-07,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.9116e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 383, bias, value: tensor([ 0.0007, -0.0381,  0.0089, -0.0094,  0.0040,  0.0075,  0.0219,  0.0089,
+        -0.0467, -0.0135], device='cuda:0'), grad: tensor([ 3.7253e-08,  2.1420e-07,  5.0291e-08,  2.4214e-08,  0.0000e+00,
+         3.7253e-09, -2.9802e-08, -4.7125e-07,  1.4342e-07,  2.4214e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 382, time 247.47, cls_loss 0.0008 cls_loss_mapping 0.0010 cls_loss_causal 0.4627 re_mapping 0.0039 re_causal 0.0115 /// teacc 99.11 lr 0.00010000
+Epoch 384, weight, value: tensor([[ 0.0212, -0.2004, -0.1846,  ..., -0.3768, -0.1277, -0.1706],
+        [ 0.0847, -0.0979,  0.0433,  ...,  0.0478,  0.1392, -0.0630],
+        [-0.1064,  0.1603, -0.2265,  ...,  0.0580,  0.1014, -0.0457],
+        ...,
+        [-0.0821, -0.1011, -0.0835,  ...,  0.0114, -0.2249,  0.1700],
+        [ 0.0497, -0.0533,  0.1257,  ...,  0.0017, -0.2681, -0.0351],
+        [-0.2531, -0.1255, -0.1775,  ..., -0.3120,  0.0848, -0.1113]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.5635e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -9.3132e-10,  ...,  8.3819e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.5832e-08,  ...,  8.3819e-09,
+          1.3039e-08,  0.0000e+00],
+        ...,
+        [ 1.3039e-08,  0.0000e+00,  3.7253e-09,  ..., -6.5193e-09,
+          4.1910e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -2.5146e-08,  0.0000e+00]], device='cuda:0')
+Epoch 384, bias, value: tensor([ 0.0007, -0.0382,  0.0096, -0.0094,  0.0033,  0.0075,  0.0219,  0.0086,
+        -0.0475, -0.0130], device='cuda:0'), grad: tensor([ 2.2817e-07,  4.2841e-08,  5.7742e-08,  4.5635e-08, -2.7474e-07,
+        -6.9663e-07, -2.8219e-07,  2.2631e-07,  1.6578e-07,  4.9546e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 383, time 247.51, cls_loss 0.0009 cls_loss_mapping 0.0016 cls_loss_causal 0.4707 re_mapping 0.0040 re_causal 0.0114 /// teacc 99.12 lr 0.00010000
+Epoch 385, weight, value: tensor([[ 0.0211, -0.2003, -0.1852,  ..., -0.3771, -0.1284, -0.1731],
+        [ 0.0860, -0.0979,  0.0433,  ...,  0.0478,  0.1393, -0.0639],
+        [-0.1068,  0.1607, -0.2274,  ...,  0.0582,  0.1013, -0.0454],
+        ...,
+        [-0.0823, -0.1016, -0.0835,  ...,  0.0112, -0.2251,  0.1741],
+        [ 0.0495, -0.0531,  0.1265,  ...,  0.0020, -0.2686, -0.0352],
+        [-0.2534, -0.1257, -0.1776,  ..., -0.3126,  0.0852, -0.1139]],
+       device='cuda:0'), grad: tensor([[-0.0000e+00,  1.4901e-08,  4.3772e-08,  ...,  4.4703e-08,
+          5.7742e-08,  0.0000e+00],
+        [ 0.0000e+00,  1.7695e-08, -1.6820e-06,  ..., -9.6578e-07,
+         -1.5656e-06,  0.0000e+00],
+        [ 0.0000e+00, -1.9372e-07,  2.5332e-07,  ..., -8.0094e-08,
+          1.2107e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  9.3132e-08,  1.1753e-06,  ...,  7.8604e-07,
+          1.2126e-06,  0.0000e+00],
+        [ 0.0000e+00,  3.5390e-08,  1.4622e-07,  ...,  1.2945e-07,
+          1.8533e-07,  0.0000e+00],
+        [ 0.0000e+00,  7.4506e-09,  5.4017e-08,  ...,  4.0047e-08,
+          5.7742e-08, -0.0000e+00]], device='cuda:0')
+Epoch 385, bias, value: tensor([ 0.0005, -0.0381,  0.0098, -0.0091,  0.0032,  0.0068,  0.0220,  0.0085,
+        -0.0472, -0.0127], device='cuda:0'), grad: tensor([ 2.5798e-07, -5.8934e-06, -4.6939e-07,  1.4435e-07,  4.0978e-08,
+         5.0291e-08, -6.7987e-08,  4.8652e-06,  8.0373e-07,  2.4587e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 384, time 247.50, cls_loss 0.0009 cls_loss_mapping 0.0016 cls_loss_causal 0.4674 re_mapping 0.0040 re_causal 0.0112 /// teacc 99.07 lr 0.00010000
+Epoch 386, weight, value: tensor([[ 0.0211, -0.2006, -0.1854,  ..., -0.3776, -0.1280, -0.1732],
+        [ 0.0862, -0.0979,  0.0434,  ...,  0.0479,  0.1395, -0.0647],
+        [-0.1069,  0.1606, -0.2279,  ...,  0.0580,  0.1013, -0.0457],
+        ...,
+        [-0.0823, -0.1014, -0.0836,  ...,  0.0113, -0.2255,  0.1752],
+        [ 0.0494, -0.0533,  0.1269,  ...,  0.0020, -0.2688, -0.0354],
+        [-0.2535, -0.1259, -0.1782,  ..., -0.3140,  0.0851, -0.1147]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  1.8626e-09,
+          8.3819e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.1176e-08, -1.6764e-08,  ...,  5.5879e-09,
+         -9.3132e-09, -0.0000e+00],
+        [ 0.0000e+00,  3.3528e-08,  2.7940e-09,  ...,  3.0734e-08,
+          2.0489e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -2.0862e-07,  5.5879e-09,  ..., -1.8347e-07,
+         -9.6858e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -4.6566e-09,  ..., -1.8626e-09,
+          8.3819e-09,  9.3132e-10],
+        [ 0.0000e+00,  1.5460e-07,  9.3132e-10,  ...,  1.3784e-07,
+          8.5682e-08,  0.0000e+00]], device='cuda:0')
+Epoch 386, bias, value: tensor([ 0.0024, -0.0381,  0.0094, -0.0088,  0.0029,  0.0061,  0.0215,  0.0087,
+        -0.0473, -0.0151], device='cuda:0'), grad: tensor([ 5.5879e-09,  1.7695e-08,  1.5274e-07,  9.3132e-09, -2.0489e-08,
+        -9.3132e-10,  3.7253e-09, -8.5775e-07,  1.2107e-08,  6.8918e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 385, time 247.60, cls_loss 0.0007 cls_loss_mapping 0.0011 cls_loss_causal 0.4823 re_mapping 0.0039 re_causal 0.0118 /// teacc 99.08 lr 0.00010000
+Epoch 387, weight, value: tensor([[ 0.0210, -0.2007, -0.1859,  ..., -0.3778, -0.1281, -0.1732],
+        [ 0.0860, -0.0980,  0.0440,  ...,  0.0482,  0.1400, -0.0656],
+        [-0.1071,  0.1606, -0.2283,  ...,  0.0580,  0.1014, -0.0458],
+        ...,
+        [-0.0805, -0.1014, -0.0840,  ...,  0.0111, -0.2262,  0.1757],
+        [ 0.0492, -0.0532,  0.1269,  ...,  0.0020, -0.2690, -0.0354],
+        [-0.2538, -0.1262, -0.1784,  ..., -0.3150,  0.0850, -0.1150]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          6.4261e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -2.7940e-09,  ..., -0.0000e+00,
+         -2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-10,
+          2.7940e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 387, bias, value: tensor([ 0.0025, -0.0377,  0.0094, -0.0088,  0.0031,  0.0057,  0.0216,  0.0084,
+        -0.0475, -0.0153], device='cuda:0'), grad: tensor([ 1.8626e-07,  1.8626e-09,  9.3132e-09,  5.5879e-09, -7.4506e-09,
+         1.3039e-07, -3.3434e-07, -9.3132e-10,  2.7940e-09,  1.1176e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 386, time 247.40, cls_loss 0.0008 cls_loss_mapping 0.0016 cls_loss_causal 0.4873 re_mapping 0.0038 re_causal 0.0115 /// teacc 99.08 lr 0.00010000
+Epoch 388, weight, value: tensor([[ 0.0209, -0.2010, -0.1864,  ..., -0.3781, -0.1282, -0.1732],
+        [ 0.0890, -0.0980,  0.0441,  ...,  0.0482,  0.1401, -0.0674],
+        [-0.1083,  0.1607, -0.2287,  ...,  0.0580,  0.1015, -0.0461],
+        ...,
+        [-0.0808, -0.1014, -0.0842,  ...,  0.0111, -0.2265,  0.1754],
+        [ 0.0487, -0.0530,  0.1273,  ...,  0.0021, -0.2694, -0.0367],
+        [-0.2553, -0.1263, -0.1786,  ..., -0.3159,  0.0833, -0.1119]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  2.7940e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-08,  ...,  4.1910e-08,
+          1.8626e-09,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  6.4261e-08,  ...,  3.5390e-08,
+          1.8626e-09,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.3772e-08,  ..., -2.0489e-08,
+          2.7940e-09, -4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.3039e-08,  ...,  4.6566e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  5.5879e-09,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 388, bias, value: tensor([ 0.0025, -0.0377,  0.0094, -0.0090,  0.0065,  0.0057,  0.0215,  0.0083,
+        -0.0475, -0.0172], device='cuda:0'), grad: tensor([ 1.3039e-08,  1.3318e-07,  1.7416e-07, -7.6089e-07,  0.0000e+00,
+         3.7998e-07,  1.8626e-09,  3.7253e-09,  3.5390e-08,  2.3283e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 387, time 247.61, cls_loss 0.0009 cls_loss_mapping 0.0011 cls_loss_causal 0.4902 re_mapping 0.0037 re_causal 0.0115 /// teacc 99.07 lr 0.00010000
+Epoch 389, weight, value: tensor([[ 0.0209, -0.2012, -0.1870,  ..., -0.3788, -0.1281, -0.1734],
+        [ 0.0891, -0.0980,  0.0454,  ...,  0.0491,  0.1414, -0.0641],
+        [-0.1088,  0.1607, -0.2293,  ...,  0.0580,  0.1015, -0.0457],
+        ...,
+        [-0.0806, -0.1015, -0.0854,  ...,  0.0102, -0.2285,  0.1721],
+        [ 0.0486, -0.0530,  0.1274,  ...,  0.0021, -0.2697, -0.0371],
+        [-0.2555, -0.1265, -0.1788,  ..., -0.3166,  0.0833, -0.1119]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  6.5193e-09,  1.8626e-09,  ...,  1.4901e-08,
+          1.3039e-07,  0.0000e+00],
+        [ 0.0000e+00,  1.3039e-08,  1.1809e-06,  ...,  2.0545e-06,
+          1.3970e-08,  2.9802e-08],
+        [ 0.0000e+00, -2.7381e-07,  1.6764e-08,  ..., -4.2282e-07,
+         -2.5425e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  2.4494e-07, -1.2247e-06,  ..., -1.7080e-06,
+          2.1979e-07, -3.0734e-08],
+        [ 0.0000e+00,  4.6566e-09,  9.3132e-10,  ...,  1.5832e-08,
+          1.7323e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  4.6566e-09,
+          2.7940e-09,  0.0000e+00]], device='cuda:0')
+Epoch 389, bias, value: tensor([ 0.0021, -0.0367,  0.0093, -0.0095,  0.0067,  0.0090,  0.0185,  0.0074,
+        -0.0485, -0.0173], device='cuda:0'), grad: tensor([ 4.9826e-07,  6.5938e-06, -1.4734e-06,  1.7136e-07,  5.3085e-08,
+        -7.4506e-09, -1.1334e-06, -5.3570e-06,  6.4075e-07,  2.7940e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 388, time 247.18, cls_loss 0.0007 cls_loss_mapping 0.0007 cls_loss_causal 0.4472 re_mapping 0.0037 re_causal 0.0112 /// teacc 99.04 lr 0.00010000
+Epoch 390, weight, value: tensor([[ 0.0209, -0.2018, -0.1879,  ..., -0.3796, -0.1284, -0.1737],
+        [ 0.0891, -0.0980,  0.0448,  ...,  0.0484,  0.1413, -0.0642],
+        [-0.1088,  0.1608, -0.2298,  ...,  0.0580,  0.1016, -0.0448],
+        ...,
+        [-0.0807, -0.1015, -0.0848,  ...,  0.0108, -0.2298,  0.1718],
+        [ 0.0487, -0.0529,  0.1275,  ...,  0.0020, -0.2701, -0.0384],
+        [-0.2563, -0.1269, -0.1791,  ..., -0.3150,  0.0861, -0.1095]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  9.3132e-10,
+          9.3132e-09,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10, -6.5193e-09,  ..., -2.7940e-09,
+         -6.5193e-09, -0.0000e+00],
+        [ 0.0000e+00, -2.7940e-09,  1.8626e-09,  ..., -9.3132e-10,
+         -2.7940e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  9.3132e-10,  2.7940e-09,  ...,  1.8626e-09,
+          6.5193e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -3.2596e-08,  ..., -2.7940e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -4.6566e-09,  ...,  0.0000e+00,
+         -1.8626e-08,  0.0000e+00]], device='cuda:0')
+Epoch 390, bias, value: tensor([ 0.0019, -0.0374,  0.0093, -0.0096,  0.0068,  0.0090,  0.0185,  0.0073,
+        -0.0487, -0.0151], device='cuda:0'), grad: tensor([ 9.6858e-08, -9.3132e-09, -7.4506e-09,  7.2643e-08,  4.6566e-09,
+         8.3819e-09, -2.0489e-08,  1.3039e-08, -6.9849e-08, -7.9162e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 389, time 247.48, cls_loss 0.0006 cls_loss_mapping 0.0010 cls_loss_causal 0.4463 re_mapping 0.0038 re_causal 0.0113 /// teacc 99.15 lr 0.00010000
+Epoch 391, weight, value: tensor([[ 0.0209, -0.2020, -0.1885,  ..., -0.3801, -0.1285, -0.1739],
+        [ 0.0891, -0.0980,  0.0449,  ...,  0.0484,  0.1415, -0.0642],
+        [-0.1088,  0.1609, -0.2300,  ...,  0.0581,  0.1016, -0.0448],
+        ...,
+        [-0.0807, -0.1016, -0.0849,  ...,  0.0108, -0.2301,  0.1719],
+        [ 0.0487, -0.0531,  0.1281,  ...,  0.0021, -0.2703, -0.0389],
+        [-0.2564, -0.1272, -0.1793,  ..., -0.3154,  0.0861, -0.1095]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  1.5832e-08,  0.0000e+00,  ...,  5.0291e-08,
+          2.7008e-08,  0.0000e+00],
+        [ 0.0000e+00, -2.0489e-08,  0.0000e+00,  ..., -4.5635e-08,
+         -3.3528e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.8626e-09,  9.3132e-10,  ..., -6.5193e-09,
+          6.5193e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+         -1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 391, bias, value: tensor([ 0.0019, -0.0374,  0.0094, -0.0097,  0.0069,  0.0091,  0.0185,  0.0073,
+        -0.0486, -0.0152], device='cuda:0'), grad: tensor([-1.0543e-06,  9.5926e-08,  7.8231e-08,  1.9558e-08,  5.0291e-08,
+         4.9360e-08,  5.2713e-07, -2.4214e-08,  2.7940e-08,  2.3656e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 390, time 247.55, cls_loss 0.0009 cls_loss_mapping 0.0017 cls_loss_causal 0.4804 re_mapping 0.0039 re_causal 0.0113 /// teacc 99.10 lr 0.00010000
+Epoch 392, weight, value: tensor([[ 0.0213, -0.2019, -0.1890,  ..., -0.3803, -0.1286, -0.1739],
+        [ 0.0890, -0.0981,  0.0450,  ...,  0.0483,  0.1424, -0.0643],
+        [-0.1095,  0.1611, -0.2302,  ...,  0.0582,  0.1017, -0.0446],
+        ...,
+        [-0.0803, -0.1017, -0.0851,  ...,  0.0109, -0.2316,  0.1720],
+        [ 0.0488, -0.0534,  0.1285,  ...,  0.0022, -0.2708, -0.0386],
+        [-0.2566, -0.1277, -0.1797,  ..., -0.3159,  0.0857, -0.1095]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09, -2.7940e-09,  ...,  7.4506e-09,
+          8.3819e-09,  0.0000e+00],
+        [ 0.0000e+00, -1.1269e-07,  1.8626e-09,  ..., -1.1362e-07,
+         -7.0781e-08, -9.3132e-10],
+        ...,
+        [ 0.0000e+00,  6.1467e-08,  2.7940e-09,  ...,  5.1223e-08,
+          4.2841e-08,  0.0000e+00],
+        [ 0.0000e+00,  4.7497e-08, -9.3132e-10,  ...,  4.7497e-08,
+          2.9802e-08,  0.0000e+00],
+        [ 0.0000e+00,  2.7940e-09,  2.7940e-09,  ...,  2.7940e-09,
+          7.5437e-08,  0.0000e+00]], device='cuda:0')
+Epoch 392, bias, value: tensor([ 0.0022, -0.0373,  0.0095, -0.0097,  0.0083,  0.0091,  0.0185,  0.0070,
+        -0.0487, -0.0156], device='cuda:0'), grad: tensor([-1.5832e-08,  5.7742e-08, -2.5984e-07,  5.5879e-08, -2.2817e-07,
+        -1.0896e-07, -8.3819e-09,  1.0431e-07,  1.6112e-07,  2.4401e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 391, time 247.49, cls_loss 0.0008 cls_loss_mapping 0.0014 cls_loss_causal 0.4647 re_mapping 0.0038 re_causal 0.0110 /// teacc 99.05 lr 0.00010000
+Epoch 393, weight, value: tensor([[ 0.0212, -0.2014, -0.1893,  ..., -0.3807, -0.1292, -0.1746],
+        [ 0.0890, -0.0987,  0.0450,  ...,  0.0481,  0.1415, -0.0644],
+        [-0.1097,  0.1617, -0.2287,  ...,  0.0586,  0.1026, -0.0444],
+        ...,
+        [-0.0802, -0.1020, -0.0851,  ...,  0.0109, -0.2319,  0.1721],
+        [ 0.0487, -0.0535,  0.1288,  ...,  0.0021, -0.2711, -0.0387],
+        [-0.2567, -0.1291, -0.1794,  ..., -0.3167,  0.0871, -0.1096]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -9.3132e-10,  ...,  2.7940e-09,
+         -2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00, -6.5193e-09,  9.3132e-10,  ..., -1.9558e-08,
+         -7.4506e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  5.5879e-09,  2.7940e-09,  ...,  1.5832e-08,
+          8.3819e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 393, bias, value: tensor([ 0.0021, -0.0378,  0.0101, -0.0098,  0.0081,  0.0090,  0.0186,  0.0070,
+        -0.0487, -0.0148], device='cuda:0'), grad: tensor([-3.3528e-08,  3.7253e-09, -3.0734e-08, -2.7940e-09,  3.7253e-09,
+         1.4901e-08,  1.0245e-08,  2.7940e-08,  9.3132e-10,  9.3132e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 392, time 247.54, cls_loss 0.0011 cls_loss_mapping 0.0014 cls_loss_causal 0.4620 re_mapping 0.0037 re_causal 0.0103 /// teacc 99.07 lr 0.00010000
+Epoch 394, weight, value: tensor([[ 0.0211, -0.2013, -0.1906,  ..., -0.3830, -0.1303, -0.1753],
+        [ 0.0889, -0.0991,  0.0450,  ...,  0.0474,  0.1415, -0.0644],
+        [-0.1096,  0.1627, -0.2282,  ...,  0.0596,  0.1031, -0.0438],
+        ...,
+        [-0.0804, -0.1027, -0.0852,  ...,  0.0112, -0.2323,  0.1721],
+        [ 0.0485, -0.0549,  0.1296,  ...,  0.0020, -0.2714, -0.0389],
+        [-0.2567, -0.1306, -0.1808,  ..., -0.3194,  0.0872, -0.1096]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  3.7253e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 9.3132e-10,  9.3132e-10, -2.8200e-06,  ..., -1.0049e-06,
+         -2.1216e-06,  0.0000e+00],
+        [ 0.0000e+00, -1.4901e-08,  1.5832e-08,  ...,  3.0734e-08,
+         -6.5193e-09,  0.0000e+00],
+        ...,
+        [ 1.8626e-09, -1.8626e-09,  2.7996e-06,  ...,  9.3225e-07,
+          2.1197e-06,  0.0000e+00],
+        [ 0.0000e+00,  3.7253e-09, -1.1176e-08,  ..., -3.7253e-09,
+          5.5879e-09,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  1.8626e-09,  ...,  2.1420e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 394, bias, value: tensor([ 0.0019, -0.0381,  0.0111, -0.0103,  0.0083,  0.0091,  0.0186,  0.0070,
+        -0.0489, -0.0149], device='cuda:0'), grad: tensor([ 1.3970e-08, -5.7071e-06,  5.0291e-08,  6.8918e-08, -1.4901e-08,
+         1.2107e-08,  8.3819e-09,  5.5060e-06, -4.6566e-09,  7.3574e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 393, time 247.60, cls_loss 0.0006 cls_loss_mapping 0.0010 cls_loss_causal 0.4395 re_mapping 0.0039 re_causal 0.0114 /// teacc 99.07 lr 0.00010000
+Epoch 395, weight, value: tensor([[ 0.0211, -0.2014, -0.1909,  ..., -0.3833, -0.1304, -0.1753],
+        [ 0.0890, -0.0986,  0.0451,  ...,  0.0475,  0.1419, -0.0644],
+        [-0.1096,  0.1626, -0.2289,  ...,  0.0593,  0.1030, -0.0437],
+        ...,
+        [-0.0805, -0.1028, -0.0852,  ...,  0.0114, -0.2327,  0.1721],
+        [ 0.0484, -0.0550,  0.1297,  ...,  0.0019, -0.2716, -0.0389],
+        [-0.2568, -0.1313, -0.1813,  ..., -0.3209,  0.0871, -0.1096]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.1420e-08,  1.1176e-08,  ...,  0.0000e+00,
+          1.3225e-06,  0.0000e+00],
+        [-9.3132e-10,  0.0000e+00,  1.2107e-08,  ..., -1.8626e-09,
+          3.4459e-08,  0.0000e+00],
+        [ 0.0000e+00, -8.3819e-09,  9.3132e-10,  ..., -2.2352e-08,
+         -1.6764e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  7.4506e-09,  2.7940e-09,  ...,  2.0489e-08,
+          1.6764e-08,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  3.1665e-08,  ...,  9.3132e-10,
+          7.0781e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00]], device='cuda:0')
+Epoch 395, bias, value: tensor([ 0.0019, -0.0380,  0.0109, -0.0103,  0.0083,  0.0090,  0.0186,  0.0071,
+        -0.0490, -0.0150], device='cuda:0'), grad: tensor([ 4.6566e-06,  1.3504e-07, -4.4703e-08, -6.5193e-09,  7.4506e-09,
+         2.7381e-07, -5.3123e-06,  4.9360e-08,  2.2911e-07,  1.6764e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 394, time 247.39, cls_loss 0.0008 cls_loss_mapping 0.0012 cls_loss_causal 0.4676 re_mapping 0.0037 re_causal 0.0111 /// teacc 98.99 lr 0.00010000
+Epoch 396, weight, value: tensor([[ 0.0211, -0.2015, -0.1915,  ..., -0.3836, -0.1306, -0.1754],
+        [ 0.0890, -0.0985,  0.0451,  ...,  0.0474,  0.1419, -0.0649],
+        [-0.1097,  0.1627, -0.2298,  ...,  0.0592,  0.1030, -0.0437],
+        ...,
+        [-0.0803, -0.1029, -0.0852,  ...,  0.0116, -0.2330,  0.1727],
+        [ 0.0484, -0.0550,  0.1299,  ...,  0.0016, -0.2720, -0.0401],
+        [-0.2571, -0.1316, -0.1804,  ..., -0.3220,  0.0875, -0.1096]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+          8.7544e-08,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  1.3039e-08,  ...,  1.6764e-07,
+          3.5390e-08,  2.4214e-08],
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ..., -3.9116e-07,
+         -1.9930e-07, -3.7253e-08],
+        ...,
+        [-1.8626e-09, -0.0000e+00, -1.3039e-08,  ...,  9.8720e-08,
+          1.8999e-07, -1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  8.0094e-08,
+          1.1735e-07,  7.4506e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.1176e-08,
+          3.7253e-08,  0.0000e+00]], device='cuda:0')
+Epoch 396, bias, value: tensor([ 0.0019, -0.0382,  0.0107, -0.0105,  0.0088,  0.0091,  0.0186,  0.0072,
+        -0.0493, -0.0149], device='cuda:0'), grad: tensor([ 3.8184e-07,  5.9977e-07, -5.5321e-07,  0.0000e+00, -6.1654e-07,
+         9.2760e-07, -1.6037e-06,  1.1176e-07,  4.9733e-07,  2.5146e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 395, time 247.31, cls_loss 0.0008 cls_loss_mapping 0.0011 cls_loss_causal 0.4620 re_mapping 0.0038 re_causal 0.0110 /// teacc 98.98 lr 0.00010000
+Epoch 397, weight, value: tensor([[ 0.0205, -0.2015, -0.1925,  ..., -0.3846, -0.1312, -0.1758],
+        [ 0.0888, -0.0984,  0.0451,  ...,  0.0474,  0.1422, -0.0652],
+        [-0.1101,  0.1626, -0.2312,  ...,  0.0589,  0.1028, -0.0435],
+        ...,
+        [-0.0799, -0.1029, -0.0852,  ...,  0.0117, -0.2332,  0.1730],
+        [ 0.0483, -0.0550,  0.1319,  ...,  0.0025, -0.2722, -0.0404],
+        [-0.2574, -0.1321, -0.1811,  ..., -0.3231,  0.0876, -0.1097]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  1.8626e-09,
+          2.4214e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.1176e-08,  ...,  3.7253e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -3.3528e-08,  7.4506e-09,  ..., -8.3819e-08,
+         -1.1176e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  2.6077e-08,  8.9407e-08,  ...,  9.8720e-08,
+          9.3132e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -2.5146e-07,  ..., -8.7544e-08,
+          5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-08,  ...,  1.6764e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 397, bias, value: tensor([ 0.0018, -0.0383,  0.0105, -0.0106,  0.0091,  0.0091,  0.0187,  0.0073,
+        -0.0482, -0.0150], device='cuda:0'), grad: tensor([ 2.5891e-07,  3.1665e-08, -1.2852e-07,  1.8440e-07,  2.9802e-08,
+         7.0781e-08, -2.9430e-07,  3.4645e-07, -6.0722e-07,  1.1921e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 396, time 247.50, cls_loss 0.0008 cls_loss_mapping 0.0012 cls_loss_causal 0.4554 re_mapping 0.0038 re_causal 0.0112 /// teacc 99.02 lr 0.00010000
+Epoch 398, weight, value: tensor([[ 0.0205, -0.2016, -0.1934,  ..., -0.3854, -0.1314, -0.1759],
+        [ 0.0888, -0.0985,  0.0450,  ...,  0.0472,  0.1421, -0.0653],
+        [-0.1101,  0.1627, -0.2312,  ...,  0.0590,  0.1028, -0.0418],
+        ...,
+        [-0.0799, -0.1030, -0.0853,  ...,  0.0119, -0.2333,  0.1730],
+        [ 0.0483, -0.0551,  0.1345,  ...,  0.0043, -0.2719, -0.0405],
+        [-0.2576, -0.1322, -0.1826,  ..., -0.3242,  0.0879, -0.1098]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.0617e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00, -0.0000e+00,  0.0000e+00,  ..., -1.8626e-09,
+          1.1176e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          5.4017e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -2.0117e-07,  0.0000e+00]], device='cuda:0')
+Epoch 398, bias, value: tensor([ 0.0016, -0.0386,  0.0106, -0.0071,  0.0092,  0.0062,  0.0187,  0.0073,
+        -0.0466, -0.0147], device='cuda:0'), grad: tensor([ 4.6194e-07,  2.0489e-08,  4.0978e-08,  2.0489e-08,  8.3819e-08,
+         7.4506e-09, -1.1176e-08,  1.8440e-07,  4.2841e-08, -8.5123e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 397, time 247.44, cls_loss 0.0007 cls_loss_mapping 0.0010 cls_loss_causal 0.4848 re_mapping 0.0036 re_causal 0.0112 /// teacc 99.08 lr 0.00010000
+Epoch 399, weight, value: tensor([[ 0.0204, -0.2017, -0.1954,  ..., -0.3862, -0.1318, -0.1759],
+        [ 0.0888, -0.0984,  0.0451,  ...,  0.0472,  0.1422, -0.0655],
+        [-0.1102,  0.1627, -0.2318,  ...,  0.0589,  0.1028, -0.0417],
+        ...,
+        [-0.0800, -0.1030, -0.0854,  ...,  0.0119, -0.2335,  0.1732],
+        [ 0.0483, -0.0552,  0.1352,  ...,  0.0046, -0.2721, -0.0405],
+        [-0.2580, -0.1323, -0.1829,  ..., -0.3254,  0.0880, -0.1099]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -0.0000e+00,  ...,  1.6764e-08,
+         -7.4506e-09,  1.8626e-09],
+        [ 0.0000e+00,  1.8626e-09,  6.1467e-08,  ...,  4.8056e-07,
+          0.0000e+00,  3.5390e-08],
+        ...,
+        [ 0.0000e+00, -0.0000e+00, -7.2643e-08,  ..., -5.5507e-07,
+          3.7253e-09, -4.4703e-08],
+        [ 0.0000e+00, -1.8626e-09, -1.8626e-09,  ...,  9.3132e-09,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 399, bias, value: tensor([ 0.0015, -0.0386,  0.0104, -0.0071,  0.0092,  0.0062,  0.0187,  0.0074,
+        -0.0464, -0.0147], device='cuda:0'), grad: tensor([-2.2352e-08,  3.5390e-08,  1.1567e-06,  8.1956e-08, -5.3272e-07,
+         1.4901e-08,  3.7253e-09, -1.0859e-06,  4.4703e-08,  3.0175e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 398, time 247.42, cls_loss 0.0008 cls_loss_mapping 0.0012 cls_loss_causal 0.4680 re_mapping 0.0037 re_causal 0.0107 /// teacc 99.06 lr 0.00010000
+Epoch 400, weight, value: tensor([[ 0.0204, -0.2016, -0.1959,  ..., -0.3869, -0.1325, -0.1778],
+        [ 0.0888, -0.0984,  0.0451,  ...,  0.0471,  0.1424, -0.0662],
+        [-0.1102,  0.1628, -0.2326,  ...,  0.0589,  0.1028, -0.0419],
+        ...,
+        [-0.0800, -0.1031, -0.0854,  ...,  0.0120, -0.2336,  0.1741],
+        [ 0.0483, -0.0553,  0.1354,  ...,  0.0044, -0.2725, -0.0413],
+        [-0.2581, -0.1324, -0.1830,  ..., -0.3268,  0.0881, -0.1105]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.1176e-08,  ...,  1.1176e-08,
+          1.3039e-08,  0.0000e+00],
+        [ 3.1665e-08,  0.0000e+00, -6.5193e-07,  ..., -4.7684e-07,
+         -5.5507e-07,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  2.7940e-08,  ...,  3.1665e-08,
+          5.0291e-08,  0.0000e+00],
+        ...,
+        [ 2.4214e-08,  0.0000e+00,  2.7940e-08,  ..., -7.6368e-08,
+          9.3132e-08, -0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.7497e-07,  ...,  3.5018e-07,
+          4.0233e-07,  0.0000e+00],
+        [ 5.5879e-09,  0.0000e+00,  9.3132e-09,  ...,  3.9116e-08,
+          8.7544e-08,  0.0000e+00]], device='cuda:0')
+Epoch 400, bias, value: tensor([ 0.0010, -0.0387,  0.0104, -0.0070,  0.0089,  0.0064,  0.0184,  0.0076,
+        -0.0470, -0.0147], device='cuda:0'), grad: tensor([ 9.8720e-08, -1.1809e-06,  1.6205e-07,  3.9674e-07, -5.4203e-07,
+         6.7055e-07,  1.5646e-07, -2.5332e-06,  1.6131e-06,  1.1455e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 399, time 247.53, cls_loss 0.0009 cls_loss_mapping 0.0009 cls_loss_causal 0.4632 re_mapping 0.0039 re_causal 0.0115 /// teacc 99.05 lr 0.00001000
+Epoch 401, weight, value: tensor([[ 0.0202, -0.2017, -0.1966,  ..., -0.3876, -0.1330, -0.1780],
+        [ 0.0886, -0.0985,  0.0440,  ...,  0.0461,  0.1423, -0.0671],
+        [-0.1109,  0.1629, -0.2332,  ...,  0.0589,  0.1028, -0.0420],
+        ...,
+        [-0.0794, -0.1032, -0.0850,  ...,  0.0125, -0.2337,  0.1753],
+        [ 0.0482, -0.0553,  0.1390,  ...,  0.0082, -0.2701, -0.0413],
+        [-0.2582, -0.1325, -0.1833,  ..., -0.3275,  0.0881, -0.1104]],
+       device='cuda:0'), grad: tensor([[-7.4506e-08,  0.0000e+00,  3.3528e-08,  ...,  1.8626e-09,
+          1.7323e-07,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  9.3132e-09,
+          4.8429e-08,  5.5879e-09],
+        [ 9.3132e-09,  0.0000e+00,  5.5879e-08,  ...,  3.3528e-08,
+          3.7253e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.2352e-08,  ..., -1.1176e-08,
+          7.4506e-09,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  3.5204e-07,  ...,  1.8626e-09,
+          2.0117e-06,  0.0000e+00],
+        [ 5.5879e-09,  0.0000e+00,  7.4506e-09,  ...,  5.5879e-09,
+          1.1176e-08,  0.0000e+00]], device='cuda:0')
+Epoch 401, bias, value: tensor([ 0.0006, -0.0397,  0.0104, -0.0067,  0.0086,  0.0064,  0.0179,  0.0079,
+        -0.0435, -0.0147], device='cuda:0'), grad: tensor([ 2.5705e-07,  1.6391e-07,  2.1048e-07, -2.0303e-07,  3.7253e-09,
+         1.4499e-05, -2.2262e-05,  0.0000e+00,  7.3314e-06,  2.9802e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 400, time 247.49, cls_loss 0.0006 cls_loss_mapping 0.0006 cls_loss_causal 0.4681 re_mapping 0.0037 re_causal 0.0115 /// teacc 99.07 lr 0.00001000
+Epoch 402, weight, value: tensor([[ 0.0202, -0.2017, -0.1967,  ..., -0.3876, -0.1330, -0.1780],
+        [ 0.0886, -0.0985,  0.0440,  ...,  0.0461,  0.1423, -0.0672],
+        [-0.1109,  0.1629, -0.2334,  ...,  0.0589,  0.1028, -0.0420],
+        ...,
+        [-0.0794, -0.1032, -0.0850,  ...,  0.0125, -0.2337,  0.1753],
+        [ 0.0482, -0.0553,  0.1390,  ...,  0.0082, -0.2702, -0.0414],
+        [-0.2583, -0.1325, -0.1833,  ..., -0.3277,  0.0881, -0.1104]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ...,  7.4506e-08,
+         -5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ...,  9.3132e-09,
+          5.5879e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ..., -1.1176e-07,
+          5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -2.0489e-08,  ..., -1.1176e-08,
+         -0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  3.3528e-08,
+         -3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 402, bias, value: tensor([ 0.0006, -0.0397,  0.0104, -0.0067,  0.0086,  0.0064,  0.0179,  0.0080,
+        -0.0435, -0.0148], device='cuda:0'), grad: tensor([ 5.5879e-09,  5.6252e-07,  3.3528e-08,  7.4506e-09,  9.3132e-09,
+         4.6566e-08, -3.7253e-09, -8.2888e-07, -5.9605e-08,  2.2165e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 401, time 247.57, cls_loss 0.0006 cls_loss_mapping 0.0006 cls_loss_causal 0.4178 re_mapping 0.0035 re_causal 0.0106 /// teacc 99.08 lr 0.00001000
+Epoch 403, weight, value: tensor([[ 0.0202, -0.2017, -0.1967,  ..., -0.3877, -0.1331, -0.1780],
+        [ 0.0886, -0.0985,  0.0440,  ...,  0.0461,  0.1423, -0.0672],
+        [-0.1109,  0.1629, -0.2335,  ...,  0.0589,  0.1028, -0.0420],
+        ...,
+        [-0.0794, -0.1032, -0.0850,  ...,  0.0126, -0.2337,  0.1753],
+        [ 0.0482, -0.0553,  0.1390,  ...,  0.0082, -0.2702, -0.0414],
+        [-0.2583, -0.1325, -0.1834,  ..., -0.3278,  0.0881, -0.1104]],
+       device='cuda:0'), grad: tensor([[-1.3039e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 3.7253e-09,  0.0000e+00, -1.4156e-06,  ..., -6.6869e-07,
+         -1.1977e-06,  0.0000e+00],
+        [ 3.7253e-09,  0.0000e+00,  5.5879e-09,  ...,  3.7253e-09,
+          3.7253e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.3951e-06,  ...,  6.5751e-07,
+          1.1828e-06,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  9.3132e-09,  ...,  5.5879e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 403, bias, value: tensor([ 0.0006, -0.0397,  0.0103, -0.0067,  0.0086,  0.0064,  0.0179,  0.0080,
+        -0.0435, -0.0147], device='cuda:0'), grad: tensor([-4.8429e-08, -2.9001e-06,  3.5390e-08,  9.3132e-09,  7.4506e-09,
+         2.0489e-08, -4.8429e-08,  2.9039e-06,  3.3528e-08, -1.8626e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 402, time 247.68, cls_loss 0.0007 cls_loss_mapping 0.0006 cls_loss_causal 0.4467 re_mapping 0.0035 re_causal 0.0109 /// teacc 99.10 lr 0.00001000
+Epoch 404, weight, value: tensor([[ 0.0202, -0.2017, -0.1968,  ..., -0.3878, -0.1331, -0.1780],
+        [ 0.0886, -0.0985,  0.0440,  ...,  0.0461,  0.1424, -0.0672],
+        [-0.1110,  0.1629, -0.2336,  ...,  0.0589,  0.1028, -0.0420],
+        ...,
+        [-0.0794, -0.1032, -0.0850,  ...,  0.0126, -0.2338,  0.1754],
+        [ 0.0482, -0.0553,  0.1390,  ...,  0.0082, -0.2702, -0.0414],
+        [-0.2583, -0.1325, -0.1834,  ..., -0.3279,  0.0881, -0.1104]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          1.8626e-09,  0.0000e+00],
+        [-0.0000e+00,  0.0000e+00,  1.6764e-08,  ...,  1.3039e-08,
+         -4.4703e-08, -1.8626e-09],
+        [ 0.0000e+00, -3.7253e-09,  7.4506e-09,  ..., -1.8626e-09,
+         -1.8626e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.8626e-09,  3.3528e-08,  ...,  2.4214e-08,
+          6.1467e-08,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00, -7.8231e-08,  ..., -4.6566e-08,
+          5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  1.8626e-09,
+         -2.0489e-08,  0.0000e+00]], device='cuda:0')
+Epoch 404, bias, value: tensor([ 0.0006, -0.0397,  0.0103, -0.0067,  0.0086,  0.0064,  0.0179,  0.0080,
+        -0.0435, -0.0147], device='cuda:0'), grad: tensor([ 5.5879e-09,  8.9407e-08,  0.0000e+00,  1.5832e-07, -3.7253e-08,
+        -1.5832e-07,  3.5390e-08,  1.4342e-07, -1.9185e-07, -5.7742e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 403, time 247.22, cls_loss 0.0007 cls_loss_mapping 0.0005 cls_loss_causal 0.4539 re_mapping 0.0034 re_causal 0.0106 /// teacc 99.11 lr 0.00001000
+Epoch 405, weight, value: tensor([[ 0.0203, -0.2018, -0.1968,  ..., -0.3879, -0.1331, -0.1780],
+        [ 0.0886, -0.0984,  0.0440,  ...,  0.0460,  0.1424, -0.0672],
+        [-0.1110,  0.1629, -0.2337,  ...,  0.0589,  0.1028, -0.0420],
+        ...,
+        [-0.0794, -0.1032, -0.0850,  ...,  0.0126, -0.2338,  0.1754],
+        [ 0.0482, -0.0553,  0.1390,  ...,  0.0082, -0.2703, -0.0414],
+        [-0.2583, -0.1325, -0.1835,  ..., -0.3280,  0.0881, -0.1104]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  7.4506e-09,
+          1.3039e-08,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09, -1.3039e-08,  ...,  2.6077e-08,
+         -1.3039e-08,  0.0000e+00],
+        [ 0.0000e+00, -2.9802e-08,  1.8626e-09,  ..., -4.6939e-07,
+         -8.7544e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  2.4214e-08,  1.1176e-08,  ...,  4.0047e-07,
+          9.1270e-08,  0.0000e+00],
+        [-3.7253e-09,  1.8626e-09, -1.6764e-08,  ...,  2.9802e-08,
+          7.4506e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.8626e-09,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 405, bias, value: tensor([ 0.0006, -0.0397,  0.0103, -0.0067,  0.0086,  0.0064,  0.0179,  0.0080,
+        -0.0435, -0.0147], device='cuda:0'), grad: tensor([ 7.4506e-08,  5.5879e-08, -1.2238e-06,  1.6764e-08,  2.4214e-08,
+        -2.4214e-08, -3.5390e-08,  1.0747e-06,  7.4506e-08, -2.2352e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 404, time 247.12, cls_loss 0.0006 cls_loss_mapping 0.0005 cls_loss_causal 0.4462 re_mapping 0.0034 re_causal 0.0108 /// teacc 99.13 lr 0.00001000
+Epoch 406, weight, value: tensor([[ 0.0203, -0.2018, -0.1969,  ..., -0.3879, -0.1332, -0.1780],
+        [ 0.0886, -0.0984,  0.0440,  ...,  0.0461,  0.1424, -0.0673],
+        [-0.1110,  0.1629, -0.2337,  ...,  0.0589,  0.1028, -0.0420],
+        ...,
+        [-0.0793, -0.1033, -0.0850,  ...,  0.0126, -0.2339,  0.1755],
+        [ 0.0481, -0.0553,  0.1390,  ...,  0.0082, -0.2703, -0.0414],
+        [-0.2583, -0.1326, -0.1835,  ..., -0.3280,  0.0881, -0.1104]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.1176e-08,  ...,  0.0000e+00,
+          2.6077e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -2.4214e-08,  ..., -1.8626e-09,
+         -3.9116e-08, -0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          1.1176e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  1.8626e-09,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 406, bias, value: tensor([ 0.0006, -0.0397,  0.0103, -0.0067,  0.0086,  0.0064,  0.0179,  0.0080,
+        -0.0435, -0.0147], device='cuda:0'), grad: tensor([ 8.0094e-08, -1.1176e-07,  3.5390e-08,  3.1665e-08,  1.4901e-08,
+        -5.9605e-08, -4.6566e-08,  1.1176e-08,  3.5390e-08,  1.8626e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 405, time 246.96, cls_loss 0.0006 cls_loss_mapping 0.0005 cls_loss_causal 0.4351 re_mapping 0.0033 re_causal 0.0107 /// teacc 99.14 lr 0.00001000
+Epoch 407, weight, value: tensor([[ 0.0203, -0.2018, -0.1969,  ..., -0.3880, -0.1332, -0.1780],
+        [ 0.0886, -0.0984,  0.0441,  ...,  0.0461,  0.1424, -0.0673],
+        [-0.1110,  0.1629, -0.2338,  ...,  0.0589,  0.1028, -0.0420],
+        ...,
+        [-0.0793, -0.1033, -0.0850,  ...,  0.0126, -0.2339,  0.1755],
+        [ 0.0481, -0.0553,  0.1390,  ...,  0.0082, -0.2703, -0.0415],
+        [-0.2584, -0.1326, -0.1835,  ..., -0.3281,  0.0881, -0.1104]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00, -1.8626e-09,  ..., -1.8626e-09,
+         -0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.8626e-09,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  0.0000e+00,  1.8626e-09,  ..., -3.7253e-09,
+          5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.8626e-09,
+          7.4506e-09,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 407, bias, value: tensor([ 0.0006, -0.0397,  0.0103, -0.0067,  0.0086,  0.0064,  0.0179,  0.0080,
+        -0.0435, -0.0147], device='cuda:0'), grad: tensor([-4.6566e-08,  9.3132e-09,  1.6764e-08, -1.1176e-08, -8.0094e-08,
+         2.2352e-08, -5.5879e-09,  2.6077e-08,  2.9802e-08,  3.1665e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 406, time 247.48, cls_loss 0.0006 cls_loss_mapping 0.0006 cls_loss_causal 0.4322 re_mapping 0.0032 re_causal 0.0104 /// teacc 99.12 lr 0.00001000
+Epoch 408, weight, value: tensor([[ 0.0203, -0.2018, -0.1969,  ..., -0.3880, -0.1332, -0.1780],
+        [ 0.0886, -0.0984,  0.0441,  ...,  0.0461,  0.1425, -0.0673],
+        [-0.1110,  0.1629, -0.2338,  ...,  0.0589,  0.1028, -0.0420],
+        ...,
+        [-0.0793, -0.1033, -0.0850,  ...,  0.0126, -0.2339,  0.1756],
+        [ 0.0481, -0.0553,  0.1390,  ...,  0.0082, -0.2704, -0.0415],
+        [-0.2584, -0.1326, -0.1835,  ..., -0.3282,  0.0882, -0.1104]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.8626e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ...,  5.5879e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00, -0.0000e+00,  0.0000e+00,  ..., -5.5879e-09,
+         -2.4214e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.1176e-08,  ..., -7.4506e-09,
+          7.4506e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  5.5879e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.1176e-08,
+         -1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 408, bias, value: tensor([ 0.0006, -0.0397,  0.0103, -0.0067,  0.0084,  0.0064,  0.0179,  0.0080,
+        -0.0436, -0.0146], device='cuda:0'), grad: tensor([-6.7055e-07,  2.9802e-08, -3.5390e-08, -1.9446e-06,  3.7253e-08,
+         2.1625e-06,  3.7439e-07, -2.0489e-08,  6.3330e-08,  5.5879e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 407, time 247.60, cls_loss 0.0006 cls_loss_mapping 0.0005 cls_loss_causal 0.4629 re_mapping 0.0033 re_causal 0.0108 /// teacc 99.13 lr 0.00001000
+Epoch 409, weight, value: tensor([[ 0.0204, -0.2018, -0.1970,  ..., -0.3881, -0.1332, -0.1780],
+        [ 0.0886, -0.0984,  0.0441,  ...,  0.0461,  0.1425, -0.0674],
+        [-0.1110,  0.1629, -0.2340,  ...,  0.0589,  0.1028, -0.0420],
+        ...,
+        [-0.0793, -0.1033, -0.0850,  ...,  0.0126, -0.2340,  0.1756],
+        [ 0.0481, -0.0553,  0.1391,  ...,  0.0082, -0.2704, -0.0414],
+        [-0.2584, -0.1326, -0.1836,  ..., -0.3284,  0.0882, -0.1104]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.1793e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.3039e-08,  ...,  9.3132e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00, -4.0978e-08,  0.0000e+00,  ..., -5.4017e-08,
+         -4.6566e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  3.5390e-08,  0.0000e+00,  ...,  4.6566e-08,
+          4.0978e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.4901e-08,  ..., -1.1176e-08,
+          7.4506e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.3039e-08,  0.0000e+00]], device='cuda:0')
+Epoch 409, bias, value: tensor([ 0.0006, -0.0397,  0.0103, -0.0067,  0.0084,  0.0064,  0.0179,  0.0080,
+        -0.0436, -0.0146], device='cuda:0'), grad: tensor([ 8.6613e-07,  4.6566e-08, -1.2293e-07,  1.6764e-08,  5.7742e-08,
+         8.3819e-08, -9.6112e-07,  1.2293e-07,  3.7253e-08, -1.5087e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 408, time 247.94, cls_loss 0.0006 cls_loss_mapping 0.0005 cls_loss_causal 0.4565 re_mapping 0.0032 re_causal 0.0106 /// teacc 99.11 lr 0.00001000
+Epoch 410, weight, value: tensor([[ 0.0204, -0.2018, -0.1970,  ..., -0.3882, -0.1333, -0.1780],
+        [ 0.0886, -0.0984,  0.0440,  ...,  0.0460,  0.1425, -0.0675],
+        [-0.1110,  0.1629, -0.2340,  ...,  0.0589,  0.1028, -0.0420],
+        ...,
+        [-0.0793, -0.1033, -0.0849,  ...,  0.0126, -0.2340,  0.1757],
+        [ 0.0481, -0.0553,  0.1390,  ...,  0.0082, -0.2704, -0.0414],
+        [-0.2584, -0.1326, -0.1836,  ..., -0.3284,  0.0883, -0.1104]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -3.7253e-09,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09, -7.4506e-09,  ...,  2.2352e-08,
+          7.4506e-09,  0.0000e+00],
+        [ 0.0000e+00, -2.0489e-08, -5.5879e-09,  ..., -9.6858e-08,
+         -3.1665e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.6764e-08,  9.3132e-09,  ...,  6.1467e-08,
+          3.3528e-08,  0.0000e+00],
+        [ 0.0000e+00, -0.0000e+00, -0.0000e+00,  ..., -0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+         -1.5460e-07,  0.0000e+00]], device='cuda:0')
+Epoch 410, bias, value: tensor([ 0.0006, -0.0398,  0.0104, -0.0067,  0.0084,  0.0064,  0.0179,  0.0081,
+        -0.0436, -0.0146], device='cuda:0'), grad: tensor([-1.3039e-08,  1.0245e-07, -2.0303e-07,  1.1176e-08,  3.3528e-07,
+         8.0094e-08, -1.8626e-08,  1.0431e-07,  9.3132e-09, -4.3958e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 409, time 247.42, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4551 re_mapping 0.0031 re_causal 0.0103 /// teacc 99.13 lr 0.00001000
+Epoch 411, weight, value: tensor([[ 0.0204, -0.2019, -0.1971,  ..., -0.3883, -0.1333, -0.1780],
+        [ 0.0886, -0.0984,  0.0440,  ...,  0.0460,  0.1425, -0.0675],
+        [-0.1111,  0.1629, -0.2340,  ...,  0.0589,  0.1028, -0.0420],
+        ...,
+        [-0.0793, -0.1033, -0.0850,  ...,  0.0126, -0.2340,  0.1757],
+        [ 0.0481, -0.0553,  0.1391,  ...,  0.0082, -0.2704, -0.0414],
+        [-0.2584, -0.1326, -0.1836,  ..., -0.3285,  0.0883, -0.1104]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  3.7253e-09,  ...,  5.5879e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.1176e-08,  7.4506e-09,  ...,  5.9605e-08,
+          1.6764e-08,  0.0000e+00],
+        [ 0.0000e+00, -7.8231e-08,  2.0489e-08,  ..., -1.1176e-07,
+         -9.6858e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  5.0291e-08,  3.7253e-09,  ...,  1.8626e-08,
+          6.8918e-08,  0.0000e+00],
+        [ 0.0000e+00,  1.1176e-08,  1.8626e-09,  ...,  4.2841e-08,
+          1.4901e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.3039e-08,
+         -8.5309e-07,  0.0000e+00]], device='cuda:0')
+Epoch 411, bias, value: tensor([ 0.0006, -0.0398,  0.0104, -0.0067,  0.0084,  0.0064,  0.0179,  0.0081,
+        -0.0436, -0.0146], device='cuda:0'), grad: tensor([ 2.2352e-08,  2.0117e-07, -3.4831e-07,  6.8918e-07,  1.8626e-09,
+         2.8275e-06, -9.3132e-09,  6.7055e-08,  2.9802e-07, -3.7700e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 410, time 247.35, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4413 re_mapping 0.0031 re_causal 0.0104 /// teacc 99.15 lr 0.00001000
+Epoch 412, weight, value: tensor([[ 0.0204, -0.2019, -0.1971,  ..., -0.3883, -0.1333, -0.1780],
+        [ 0.0886, -0.0984,  0.0441,  ...,  0.0460,  0.1425, -0.0675],
+        [-0.1111,  0.1630, -0.2341,  ...,  0.0589,  0.1028, -0.0420],
+        ...,
+        [-0.0793, -0.1033, -0.0850,  ...,  0.0126, -0.2340,  0.1758],
+        [ 0.0481, -0.0553,  0.1391,  ...,  0.0082, -0.2705, -0.0415],
+        [-0.2584, -0.1326, -0.1837,  ..., -0.3286,  0.0883, -0.1104]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -9.3132e-09,  ..., -5.5879e-09,
+         -1.1176e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ...,  3.7253e-09,
+          9.3132e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ..., -1.8626e-09,
+          5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -0.0000e+00,  ...,  0.0000e+00,
+         -5.5879e-09,  0.0000e+00]], device='cuda:0')
+Epoch 412, bias, value: tensor([ 0.0006, -0.0398,  0.0104, -0.0067,  0.0084,  0.0064,  0.0179,  0.0081,
+        -0.0436, -0.0146], device='cuda:0'), grad: tensor([ 7.4506e-09, -2.4214e-08,  0.0000e+00,  0.0000e+00,  9.3132e-09,
+         1.1176e-08, -2.7940e-08,  2.0489e-08,  2.0489e-08, -2.2352e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 411, time 246.97, cls_loss 0.0006 cls_loss_mapping 0.0005 cls_loss_causal 0.4405 re_mapping 0.0031 re_causal 0.0103 /// teacc 99.16 lr 0.00001000
+Epoch 413, weight, value: tensor([[ 0.0205, -0.2019, -0.1971,  ..., -0.3884, -0.1334, -0.1780],
+        [ 0.0886, -0.0984,  0.0441,  ...,  0.0460,  0.1426, -0.0675],
+        [-0.1111,  0.1630, -0.2341,  ...,  0.0589,  0.1028, -0.0420],
+        ...,
+        [-0.0793, -0.1033, -0.0850,  ...,  0.0127, -0.2341,  0.1759],
+        [ 0.0481, -0.0553,  0.1391,  ...,  0.0082, -0.2705, -0.0414],
+        [-0.2585, -0.1326, -0.1837,  ..., -0.3287,  0.0883, -0.1104]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.8626e-09,
+          1.1176e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.6950e-07,  ..., -1.4529e-07,
+         -1.6205e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ..., -0.0000e+00,
+         -1.1176e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.6205e-07,  ...,  1.3784e-07,
+          1.4342e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.4901e-08,  ..., -7.4506e-09,
+          5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.1176e-08,  ...,  7.4506e-09,
+          3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 413, bias, value: tensor([ 0.0006, -0.0398,  0.0104, -0.0067,  0.0083,  0.0064,  0.0179,  0.0081,
+        -0.0436, -0.0145], device='cuda:0'), grad: tensor([ 3.3528e-08, -5.0478e-07,  1.8626e-08,  4.8429e-08, -8.7544e-08,
+        -4.6566e-08,  2.7940e-08,  4.8243e-07, -9.3132e-09,  3.9116e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 412, time 247.43, cls_loss 0.0007 cls_loss_mapping 0.0005 cls_loss_causal 0.4170 re_mapping 0.0030 re_causal 0.0101 /// teacc 99.12 lr 0.00001000
+Epoch 414, weight, value: tensor([[ 0.0206, -0.2019, -0.1972,  ..., -0.3884, -0.1334, -0.1780],
+        [ 0.0886, -0.0984,  0.0440,  ...,  0.0460,  0.1426, -0.0676],
+        [-0.1111,  0.1630, -0.2343,  ...,  0.0589,  0.1028, -0.0419],
+        ...,
+        [-0.0793, -0.1033, -0.0849,  ...,  0.0127, -0.2341,  0.1759],
+        [ 0.0481, -0.0553,  0.1391,  ...,  0.0082, -0.2706, -0.0414],
+        [-0.2585, -0.1326, -0.1837,  ..., -0.3288,  0.0883, -0.1104]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  6.3330e-08,  ...,  1.1176e-08,
+          5.2154e-08,  0.0000e+00],
+        [ 0.0000e+00,  5.5879e-09, -1.1362e-07,  ...,  1.0803e-07,
+         -7.8231e-08,  0.0000e+00],
+        [ 0.0000e+00, -7.4506e-09,  1.8626e-09,  ...,  2.2352e-08,
+         -1.6764e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.8626e-09,  7.4506e-09,  ..., -1.7136e-07,
+          9.3132e-09,  0.0000e+00],
+        [-1.8626e-09,  0.0000e+00,  3.1665e-08,  ...,  7.4506e-09,
+          2.6077e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 414, bias, value: tensor([ 0.0006, -0.0398,  0.0104, -0.0067,  0.0083,  0.0064,  0.0179,  0.0081,
+        -0.0436, -0.0145], device='cuda:0'), grad: tensor([ 2.4773e-07, -1.1176e-07,  8.0094e-08,  4.2841e-08, -3.7253e-09,
+         4.8429e-08,  1.6764e-08, -4.6939e-07,  1.1362e-07,  2.6077e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 413, time 246.72, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4447 re_mapping 0.0030 re_causal 0.0102 /// teacc 99.15 lr 0.00001000
+Epoch 415, weight, value: tensor([[ 0.0207, -0.2020, -0.1972,  ..., -0.3885, -0.1334, -0.1781],
+        [ 0.0886, -0.0985,  0.0440,  ...,  0.0459,  0.1426, -0.0677],
+        [-0.1112,  0.1630, -0.2343,  ...,  0.0589,  0.1029, -0.0419],
+        ...,
+        [-0.0792, -0.1034, -0.0849,  ...,  0.0127, -0.2341,  0.1760],
+        [ 0.0481, -0.0553,  0.1391,  ...,  0.0082, -0.2706, -0.0414],
+        [-0.2586, -0.1326, -0.1837,  ..., -0.3289,  0.0883, -0.1105]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -0.0000e+00,  ...,  1.8626e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ...,  2.4214e-08,
+          2.6077e-08,  0.0000e+00],
+        [ 0.0000e+00, -1.1176e-08,  3.7253e-09,  ..., -1.8999e-07,
+         -2.3469e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.8626e-09,  3.7253e-09,  ...,  7.0781e-08,
+          9.1270e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -3.7253e-09,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.6077e-08,
+          3.3528e-08,  0.0000e+00]], device='cuda:0')
+Epoch 415, bias, value: tensor([ 0.0006, -0.0398,  0.0104, -0.0067,  0.0083,  0.0064,  0.0179,  0.0081,
+        -0.0437, -0.0145], device='cuda:0'), grad: tensor([-7.0781e-08,  7.2643e-08, -5.7369e-07,  1.8626e-07,  2.2352e-08,
+         1.1176e-08,  1.4901e-08,  2.2724e-07,  5.5879e-09,  1.0803e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 414, time 247.38, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4374 re_mapping 0.0030 re_causal 0.0103 /// teacc 99.17 lr 0.00001000
+Epoch 416, weight, value: tensor([[ 0.0207, -0.2020, -0.1972,  ..., -0.3886, -0.1334, -0.1781],
+        [ 0.0886, -0.0985,  0.0440,  ...,  0.0459,  0.1426, -0.0678],
+        [-0.1112,  0.1630, -0.2344,  ...,  0.0589,  0.1029, -0.0419],
+        ...,
+        [-0.0792, -0.1034, -0.0849,  ...,  0.0128, -0.2342,  0.1761],
+        [ 0.0481, -0.0553,  0.1391,  ...,  0.0082, -0.2706, -0.0415],
+        [-0.2586, -0.1327, -0.1838,  ..., -0.3290,  0.0884, -0.1105]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          4.6566e-09,  0.0000e+00],
+        [ 9.3132e-10,  2.7940e-09, -5.5879e-09,  ...,  1.1176e-08,
+         -0.0000e+00, -2.7940e-09],
+        [ 9.3132e-10, -7.5437e-08,  8.3819e-09,  ..., -1.0431e-07,
+         -1.4715e-07,  0.0000e+00],
+        ...,
+        [ 2.7940e-09,  7.1712e-08,  5.5879e-09,  ...,  8.8476e-08,
+          1.3690e-07,  1.8626e-09],
+        [ 2.7940e-09,  0.0000e+00, -9.3132e-10,  ..., -9.3132e-10,
+          5.5879e-09,  0.0000e+00],
+        [ 6.5193e-09,  0.0000e+00,  3.7253e-09,  ...,  1.8626e-09,
+          5.5879e-09,  0.0000e+00]], device='cuda:0')
+Epoch 416, bias, value: tensor([ 0.0006, -0.0399,  0.0104, -0.0067,  0.0082,  0.0064,  0.0179,  0.0082,
+        -0.0437, -0.0145], device='cuda:0'), grad: tensor([ 1.9558e-08,  4.1910e-08, -2.9616e-07, -9.3132e-09, -6.4261e-08,
+         2.8871e-08, -1.9558e-08,  2.4680e-07,  9.3132e-09,  4.0978e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 415, time 247.19, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4373 re_mapping 0.0030 re_causal 0.0100 /// teacc 99.15 lr 0.00001000
+Epoch 417, weight, value: tensor([[ 0.0207, -0.2020, -0.1973,  ..., -0.3887, -0.1335, -0.1781],
+        [ 0.0886, -0.0985,  0.0440,  ...,  0.0459,  0.1426, -0.0678],
+        [-0.1112,  0.1631, -0.2344,  ...,  0.0589,  0.1029, -0.0419],
+        ...,
+        [-0.0792, -0.1034, -0.0849,  ...,  0.0128, -0.2342,  0.1762],
+        [ 0.0480, -0.0553,  0.1391,  ...,  0.0082, -0.2707, -0.0415],
+        [-0.2586, -0.1327, -0.1838,  ..., -0.3291,  0.0884, -0.1105]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  9.3132e-10,  4.6566e-09,  ...,  9.3132e-09,
+          5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00,  3.6322e-08, -1.3970e-08,  ...,  2.0582e-07,
+         -1.9558e-08,  0.0000e+00],
+        [ 0.0000e+00,  1.2107e-08,  4.6566e-09,  ...,  6.9849e-08,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -5.4017e-08,  4.6566e-09,  ..., -3.1106e-07,
+          6.5193e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -9.3132e-09,  ..., -6.5193e-09,
+         -1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  5.5879e-09,  ...,  1.2107e-08,
+          4.6566e-09,  0.0000e+00]], device='cuda:0')
+Epoch 417, bias, value: tensor([ 0.0006, -0.0399,  0.0104, -0.0067,  0.0082,  0.0064,  0.0179,  0.0082,
+        -0.0437, -0.0145], device='cuda:0'), grad: tensor([ 3.8184e-08,  5.2527e-07,  1.9558e-07,  4.5635e-08, -9.3132e-10,
+         3.7253e-09,  5.5879e-09, -8.3819e-07, -2.0489e-08,  4.0978e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 416, time 247.22, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4464 re_mapping 0.0029 re_causal 0.0102 /// teacc 99.15 lr 0.00001000
+Epoch 418, weight, value: tensor([[ 0.0207, -0.2021, -0.1973,  ..., -0.3889, -0.1335, -0.1781],
+        [ 0.0886, -0.0985,  0.0440,  ...,  0.0459,  0.1427, -0.0678],
+        [-0.1112,  0.1631, -0.2345,  ...,  0.0589,  0.1029, -0.0419],
+        ...,
+        [-0.0792, -0.1034, -0.0849,  ...,  0.0128, -0.2342,  0.1762],
+        [ 0.0480, -0.0554,  0.1391,  ...,  0.0082, -0.2707, -0.0415],
+        [-0.2586, -0.1327, -0.1839,  ..., -0.3292,  0.0884, -0.1105]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  9.3132e-10,  9.3132e-10,  ...,  9.3132e-10,
+          2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10, -7.4506e-09,  ..., -3.7253e-09,
+          7.4506e-09,  0.0000e+00],
+        [ 0.0000e+00, -3.7253e-09,  1.8626e-09,  ...,  0.0000e+00,
+         -9.3132e-10,  0.0000e+00],
+        ...,
+        [-9.3132e-10,  1.8626e-09,  3.7253e-09,  ...,  1.8626e-09,
+          1.2107e-08,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  1.8626e-09,  ...,  9.3132e-10,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -0.0000e+00,  ...,  9.3132e-10,
+         -3.5390e-08,  0.0000e+00]], device='cuda:0')
+Epoch 418, bias, value: tensor([ 0.0006, -0.0399,  0.0104, -0.0067,  0.0083,  0.0064,  0.0180,  0.0082,
+        -0.0438, -0.0145], device='cuda:0'), grad: tensor([ 1.1176e-08,  3.5390e-08, -9.3132e-10, -1.8626e-09,  1.2107e-08,
+         9.3132e-10,  1.8626e-08,  4.0978e-08,  7.0781e-08, -1.8068e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 417, time 247.08, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4177 re_mapping 0.0030 re_causal 0.0100 /// teacc 99.20 lr 0.00001000
+Epoch 419, weight, value: tensor([[ 0.0207, -0.2021, -0.1974,  ..., -0.3889, -0.1336, -0.1781],
+        [ 0.0886, -0.0984,  0.0440,  ...,  0.0459,  0.1427, -0.0679],
+        [-0.1112,  0.1631, -0.2346,  ...,  0.0589,  0.1028, -0.0420],
+        ...,
+        [-0.0792, -0.1034, -0.0849,  ...,  0.0128, -0.2343,  0.1762],
+        [ 0.0480, -0.0554,  0.1391,  ...,  0.0082, -0.2708, -0.0415],
+        [-0.2586, -0.1327, -0.1839,  ..., -0.3293,  0.0884, -0.1105]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.9558e-08,  ...,  4.6566e-09,
+          2.7940e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -4.6100e-07,  ..., -7.2643e-08,
+         -6.1188e-07,  0.0000e+00],
+        [ 0.0000e+00, -1.8626e-09,  3.7253e-09,  ..., -2.7940e-09,
+          2.7940e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  1.3039e-08,
+          4.0978e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-08,  ...,  9.3132e-09,
+          6.6124e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.3039e-08,  ...,  1.0245e-08,
+          4.8429e-08,  0.0000e+00]], device='cuda:0')
+Epoch 419, bias, value: tensor([ 0.0005, -0.0399,  0.0104, -0.0067,  0.0082,  0.0064,  0.0180,  0.0082,
+        -0.0438, -0.0145], device='cuda:0'), grad: tensor([ 5.7742e-08, -1.2070e-06,  4.6566e-09,  8.3819e-09, -2.6077e-07,
+         1.2852e-07,  9.0338e-07,  1.1083e-07,  1.3597e-07,  1.2852e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 418, time 247.71, cls_loss 0.0006 cls_loss_mapping 0.0003 cls_loss_causal 0.4346 re_mapping 0.0029 re_causal 0.0101 /// teacc 99.18 lr 0.00001000
+Epoch 420, weight, value: tensor([[ 0.0207, -0.2021, -0.1974,  ..., -0.3890, -0.1336, -0.1781],
+        [ 0.0886, -0.0984,  0.0440,  ...,  0.0459,  0.1428, -0.0679],
+        [-0.1113,  0.1631, -0.2348,  ...,  0.0589,  0.1028, -0.0420],
+        ...,
+        [-0.0792, -0.1035, -0.0848,  ...,  0.0129, -0.2344,  0.1763],
+        [ 0.0480, -0.0554,  0.1391,  ...,  0.0082, -0.2708, -0.0415],
+        [-0.2586, -0.1327, -0.1840,  ..., -0.3294,  0.0884, -0.1105]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-09,  0.0000e+00,  ...,  5.0291e-08,
+          1.9558e-08,  0.0000e+00],
+        [ 0.0000e+00, -1.6764e-08,  2.7940e-09,  ..., -2.3283e-08,
+         -3.5390e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  3.7253e-09,  2.7940e-09,  ..., -4.6566e-08,
+          1.1176e-08,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  3.7253e-09,  ...,  2.7940e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  1.8626e-09,  ...,  1.8626e-08,
+          4.0047e-08,  0.0000e+00]], device='cuda:0')
+Epoch 420, bias, value: tensor([ 0.0005, -0.0399,  0.0104, -0.0067,  0.0082,  0.0064,  0.0180,  0.0083,
+        -0.0438, -0.0145], device='cuda:0'), grad: tensor([ 4.6566e-09,  1.4901e-07, -7.5437e-08, -2.7940e-08, -1.0338e-07,
+         4.6566e-09,  1.8626e-09, -1.8999e-07,  1.7695e-08,  2.2259e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 419, time 248.04, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4358 re_mapping 0.0029 re_causal 0.0101 /// teacc 99.18 lr 0.00001000
+Epoch 421, weight, value: tensor([[ 0.0207, -0.2021, -0.1974,  ..., -0.3890, -0.1336, -0.1781],
+        [ 0.0885, -0.0984,  0.0440,  ...,  0.0459,  0.1428, -0.0679],
+        [-0.1113,  0.1631, -0.2349,  ...,  0.0588,  0.1028, -0.0419],
+        ...,
+        [-0.0792, -0.1035, -0.0848,  ...,  0.0129, -0.2344,  0.1763],
+        [ 0.0480, -0.0554,  0.1391,  ...,  0.0082, -0.2709, -0.0416],
+        [-0.2587, -0.1328, -0.1840,  ..., -0.3295,  0.0884, -0.1105]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          8.3819e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.8626e-08,
+          8.3819e-09,  1.8626e-09],
+        [ 0.0000e+00, -9.3132e-10,  0.0000e+00,  ..., -9.3132e-10,
+         -9.3132e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  9.3132e-10, -3.7253e-09,  ..., -5.6811e-08,
+          2.7940e-09, -5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  1.9558e-08,
+          8.3819e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  2.7940e-09,
+          5.5879e-09,  0.0000e+00]], device='cuda:0')
+Epoch 421, bias, value: tensor([ 0.0005, -0.0399,  0.0104, -0.0067,  0.0082,  0.0064,  0.0180,  0.0083,
+        -0.0438, -0.0145], device='cuda:0'), grad: tensor([ 1.6764e-08,  5.9605e-08,  3.7253e-09,  4.0047e-08, -1.1176e-08,
+        -4.6566e-09, -5.7742e-08, -1.2759e-07,  6.3330e-08,  2.6077e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 420, time 247.52, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4156 re_mapping 0.0029 re_causal 0.0099 /// teacc 99.19 lr 0.00001000
+Epoch 422, weight, value: tensor([[ 0.0207, -0.2021, -0.1975,  ..., -0.3891, -0.1336, -0.1781],
+        [ 0.0885, -0.0984,  0.0440,  ...,  0.0459,  0.1429, -0.0680],
+        [-0.1113,  0.1631, -0.2350,  ...,  0.0589,  0.1028, -0.0419],
+        ...,
+        [-0.0792, -0.1035, -0.0848,  ...,  0.0129, -0.2344,  0.1764],
+        [ 0.0480, -0.0554,  0.1391,  ...,  0.0082, -0.2709, -0.0416],
+        [-0.2587, -0.1328, -0.1840,  ..., -0.3296,  0.0884, -0.1105]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.9802e-08,  ...,  0.0000e+00,
+          9.4995e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.2107e-08,  ...,  6.5193e-09,
+          3.4459e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ..., -8.3819e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.0699e-07,  ...,  9.3132e-10,
+          1.1958e-06,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  4.6566e-09,
+          9.3132e-09,  0.0000e+00]], device='cuda:0')
+Epoch 422, bias, value: tensor([ 0.0005, -0.0399,  0.0104, -0.0067,  0.0083,  0.0064,  0.0180,  0.0083,
+        -0.0439, -0.0145], device='cuda:0'), grad: tensor([ 3.6974e-07,  1.4435e-07,  8.3819e-09,  9.3132e-10,  1.0245e-08,
+         2.8051e-06, -7.8231e-06, -2.7008e-08,  4.4629e-06,  5.2154e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 421, time 247.34, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4317 re_mapping 0.0029 re_causal 0.0100 /// teacc 99.19 lr 0.00001000
+Epoch 423, weight, value: tensor([[ 0.0207, -0.2022, -0.1975,  ..., -0.3893, -0.1337, -0.1781],
+        [ 0.0885, -0.0984,  0.0440,  ...,  0.0458,  0.1428, -0.0681],
+        [-0.1113,  0.1632, -0.2350,  ...,  0.0589,  0.1029, -0.0419],
+        ...,
+        [-0.0792, -0.1035, -0.0848,  ...,  0.0129, -0.2344,  0.1765],
+        [ 0.0480, -0.0554,  0.1391,  ...,  0.0082, -0.2710, -0.0416],
+        [-0.2587, -0.1328, -0.1841,  ..., -0.3297,  0.0884, -0.1105]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+          6.5193e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -7.3574e-08,  ..., -9.3132e-10,
+         -9.9652e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  9.3132e-10,
+          9.3132e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  9.3132e-10,
+          1.3970e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.1420e-08,  ...,  0.0000e+00,
+          5.0291e-08,  0.0000e+00]], device='cuda:0')
+Epoch 423, bias, value: tensor([ 0.0005, -0.0399,  0.0104, -0.0067,  0.0082,  0.0064,  0.0180,  0.0083,
+        -0.0439, -0.0145], device='cuda:0'), grad: tensor([-4.6566e-09, -1.6484e-07,  2.2352e-08, -7.4506e-09, -7.6368e-08,
+         2.3283e-08,  1.8626e-09,  4.4703e-08,  1.2107e-08,  1.5460e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 422, time 247.54, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4206 re_mapping 0.0029 re_causal 0.0101 /// teacc 99.18 lr 0.00001000
+Epoch 424, weight, value: tensor([[ 0.0207, -0.2023, -0.1975,  ..., -0.3894, -0.1337, -0.1781],
+        [ 0.0885, -0.0984,  0.0440,  ...,  0.0458,  0.1428, -0.0682],
+        [-0.1113,  0.1632, -0.2351,  ...,  0.0589,  0.1029, -0.0419],
+        ...,
+        [-0.0792, -0.1035, -0.0848,  ...,  0.0130, -0.2344,  0.1766],
+        [ 0.0479, -0.0555,  0.1391,  ...,  0.0081, -0.2710, -0.0416],
+        [-0.2587, -0.1328, -0.1841,  ..., -0.3298,  0.0884, -0.1105]],
+       device='cuda:0'), grad: tensor([[-1.9558e-08,  0.0000e+00, -9.3132e-10,  ...,  9.3132e-10,
+          9.3132e-09,  9.3132e-10],
+        [ 1.1176e-08,  0.0000e+00, -5.5879e-09,  ..., -6.5193e-09,
+         -1.5832e-08, -1.1176e-08],
+        [ 0.0000e+00, -9.3132e-10,  1.8626e-09,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 2.7940e-09,  0.0000e+00,  2.7940e-09,  ..., -9.3132e-10,
+          1.8626e-09,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00, -1.5832e-08,  ..., -1.8626e-09,
+          1.0245e-08,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  1.0245e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 424, bias, value: tensor([ 0.0005, -0.0400,  0.0104, -0.0067,  0.0083,  0.0064,  0.0180,  0.0083,
+        -0.0439, -0.0146], device='cuda:0'), grad: tensor([-9.5926e-08,  5.2154e-08,  9.3132e-09,  8.3819e-09,  1.6764e-08,
+         2.6077e-08, -8.5682e-08,  2.1420e-08,  7.4506e-09,  4.5635e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 423, time 247.56, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4277 re_mapping 0.0029 re_causal 0.0102 /// teacc 99.16 lr 0.00001000
+Epoch 425, weight, value: tensor([[ 0.0207, -0.2023, -0.1976,  ..., -0.3895, -0.1338, -0.1781],
+        [ 0.0885, -0.0984,  0.0440,  ...,  0.0458,  0.1429, -0.0682],
+        [-0.1113,  0.1632, -0.2351,  ...,  0.0589,  0.1029, -0.0419],
+        ...,
+        [-0.0792, -0.1036, -0.0848,  ...,  0.0130, -0.2345,  0.1766],
+        [ 0.0479, -0.0555,  0.1391,  ...,  0.0082, -0.2711, -0.0416],
+        [-0.2587, -0.1329, -0.1842,  ..., -0.3299,  0.0884, -0.1106]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  5.5879e-09, -4.6566e-09,  ...,  2.6077e-08,
+          8.3819e-09,  9.3132e-10],
+        [ 0.0000e+00, -1.3039e-08,  9.3132e-10,  ..., -3.3528e-08,
+         -3.0734e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  6.5193e-09, -1.1176e-08,  ..., -3.1572e-07,
+          2.0489e-08, -2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.3970e-08,
+          9.3132e-10,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-09,
+         -6.5193e-09,  0.0000e+00]], device='cuda:0')
+Epoch 425, bias, value: tensor([ 0.0005, -0.0400,  0.0104, -0.0067,  0.0083,  0.0064,  0.0180,  0.0083,
+        -0.0439, -0.0146], device='cuda:0'), grad: tensor([ 2.7940e-09,  5.9605e-08, -8.2888e-08,  7.5996e-07,  6.5193e-09,
+         2.7940e-09,  3.7253e-09, -7.8790e-07,  3.4459e-08, -1.8626e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 424, time 247.31, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4075 re_mapping 0.0029 re_causal 0.0099 /// teacc 99.15 lr 0.00001000
+Epoch 426, weight, value: tensor([[ 0.0207, -0.2023, -0.1976,  ..., -0.3895, -0.1338, -0.1781],
+        [ 0.0885, -0.0984,  0.0439,  ...,  0.0457,  0.1429, -0.0682],
+        [-0.1113,  0.1632, -0.2352,  ...,  0.0589,  0.1029, -0.0418],
+        ...,
+        [-0.0792, -0.1036, -0.0848,  ...,  0.0130, -0.2345,  0.1766],
+        [ 0.0479, -0.0555,  0.1391,  ...,  0.0082, -0.2711, -0.0416],
+        [-0.2587, -0.1329, -0.1842,  ..., -0.3300,  0.0884, -0.1106]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00, -5.8673e-08, -3.1758e-07,  ..., -2.4121e-07,
+         -3.8184e-07,  0.0000e+00],
+        [ 0.0000e+00,  1.0245e-08,  9.2201e-08,  ...,  7.8231e-08,
+          8.1956e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  4.8429e-08,  2.4773e-07,  ...,  1.7695e-07,
+          2.9802e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -5.1223e-08,  ..., -3.9116e-08,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 426, bias, value: tensor([ 0.0005, -0.0400,  0.0104, -0.0067,  0.0083,  0.0064,  0.0180,  0.0084,
+        -0.0440, -0.0146], device='cuda:0'), grad: tensor([ 7.4506e-09, -5.2620e-07,  2.3656e-07,  1.3039e-08,  8.3819e-09,
+         1.4435e-07, -6.7987e-08,  3.7160e-07, -1.9744e-07,  2.3283e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 425, time 247.42, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4208 re_mapping 0.0029 re_causal 0.0101 /// teacc 99.16 lr 0.00001000
+Epoch 427, weight, value: tensor([[ 0.0207, -0.2023, -0.1976,  ..., -0.3896, -0.1339, -0.1781],
+        [ 0.0885, -0.0984,  0.0439,  ...,  0.0457,  0.1429, -0.0682],
+        [-0.1113,  0.1632, -0.2352,  ...,  0.0589,  0.1029, -0.0418],
+        ...,
+        [-0.0792, -0.1036, -0.0847,  ...,  0.0130, -0.2345,  0.1766],
+        [ 0.0479, -0.0555,  0.1392,  ...,  0.0082, -0.2712, -0.0415],
+        [-0.2587, -0.1329, -0.1843,  ..., -0.3302,  0.0884, -0.1106]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -9.3132e-10,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  3.7253e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ..., -4.6566e-09,
+          2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.7008e-08,  ...,  1.8626e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          1.4901e-08,  0.0000e+00]], device='cuda:0')
+Epoch 427, bias, value: tensor([ 0.0005, -0.0401,  0.0104, -0.0067,  0.0083,  0.0064,  0.0180,  0.0084,
+        -0.0440, -0.0146], device='cuda:0'), grad: tensor([ 9.3132e-10,  6.5193e-09,  9.3132e-09,  6.5193e-08, -4.0047e-08,
+        -1.9372e-07,  4.4703e-08, -8.3819e-09,  9.3132e-08,  3.7253e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 426, time 246.54, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4443 re_mapping 0.0028 re_causal 0.0101 /// teacc 99.16 lr 0.00001000
+Epoch 428, weight, value: tensor([[ 0.0207, -0.2023, -0.1976,  ..., -0.3896, -0.1339, -0.1781],
+        [ 0.0885, -0.0984,  0.0439,  ...,  0.0457,  0.1429, -0.0682],
+        [-0.1114,  0.1633, -0.2353,  ...,  0.0589,  0.1029, -0.0418],
+        ...,
+        [-0.0792, -0.1036, -0.0847,  ...,  0.0131, -0.2346,  0.1766],
+        [ 0.0479, -0.0555,  0.1392,  ...,  0.0082, -0.2713, -0.0415],
+        [-0.2587, -0.1329, -0.1844,  ..., -0.3303,  0.0884, -0.1106]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  1.8626e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00, -1.0245e-08,  0.0000e+00,  ..., -2.6077e-08,
+         -1.3970e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  6.5193e-09,  1.8626e-09,  ...,  1.7695e-08,
+          8.3819e-09,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10, -7.4506e-09,  ..., -3.7253e-09,
+          2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 428, bias, value: tensor([ 0.0005, -0.0401,  0.0104, -0.0067,  0.0083,  0.0064,  0.0180,  0.0084,
+        -0.0440, -0.0146], device='cuda:0'), grad: tensor([-1.8626e-09,  4.6566e-09, -7.4506e-08,  3.6322e-08,  9.3132e-10,
+        -6.5193e-09, -5.5879e-09,  4.8429e-08, -2.7940e-09,  4.6566e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 427, time 247.60, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4204 re_mapping 0.0028 re_causal 0.0102 /// teacc 99.19 lr 0.00001000
+Epoch 429, weight, value: tensor([[ 0.0207, -0.2023, -0.1976,  ..., -0.3897, -0.1339, -0.1781],
+        [ 0.0885, -0.0984,  0.0439,  ...,  0.0456,  0.1429, -0.0683],
+        [-0.1114,  0.1633, -0.2353,  ...,  0.0589,  0.1029, -0.0418],
+        ...,
+        [-0.0792, -0.1036, -0.0847,  ...,  0.0131, -0.2346,  0.1767],
+        [ 0.0479, -0.0555,  0.1392,  ...,  0.0082, -0.2713, -0.0415],
+        [-0.2587, -0.1330, -0.1844,  ..., -0.3304,  0.0884, -0.1106]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  9.3132e-10,  ...,  2.7940e-09,
+          7.4506e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-08, -3.4459e-08,  ...,  2.5146e-08,
+          2.5146e-08,  0.0000e+00],
+        [ 0.0000e+00, -4.0047e-08,  9.3132e-10,  ..., -5.6811e-08,
+         -9.1270e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -0.0000e+00,  1.0245e-08,  ..., -4.6566e-09,
+          1.3039e-08,  0.0000e+00],
+        [ 0.0000e+00,  1.7695e-08,  6.5193e-09,  ...,  2.4214e-08,
+          2.9802e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  2.7940e-09,
+         -2.7940e-09,  0.0000e+00]], device='cuda:0')
+Epoch 429, bias, value: tensor([ 0.0005, -0.0401,  0.0104, -0.0067,  0.0083,  0.0064,  0.0180,  0.0085,
+        -0.0440, -0.0146], device='cuda:0'), grad: tensor([ 2.7940e-08,  0.0000e+00, -1.8720e-07,  5.5879e-09,  2.7008e-08,
+         6.5193e-09,  2.6077e-08, -5.5879e-09,  9.0338e-08, -9.3132e-10],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 428, time 247.47, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4292 re_mapping 0.0028 re_causal 0.0100 /// teacc 99.19 lr 0.00001000
+Epoch 430, weight, value: tensor([[ 0.0207, -0.2024, -0.1977,  ..., -0.3898, -0.1340, -0.1782],
+        [ 0.0885, -0.0984,  0.0439,  ...,  0.0456,  0.1429, -0.0683],
+        [-0.1114,  0.1633, -0.2354,  ...,  0.0589,  0.1029, -0.0418],
+        ...,
+        [-0.0792, -0.1036, -0.0847,  ...,  0.0131, -0.2346,  0.1767],
+        [ 0.0479, -0.0555,  0.1392,  ...,  0.0082, -0.2713, -0.0415],
+        [-0.2587, -0.1330, -0.1844,  ..., -0.3306,  0.0884, -0.1107]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -8.6613e-08,  ..., -1.5460e-07,
+         -3.6135e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.0978e-08,  ...,  7.3574e-08,
+          1.6671e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.5635e-08,  ...,  5.4017e-08,
+          1.8533e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.4214e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 430, bias, value: tensor([ 0.0005, -0.0401,  0.0104, -0.0067,  0.0083,  0.0064,  0.0180,  0.0085,
+        -0.0440, -0.0147], device='cuda:0'), grad: tensor([ 2.7940e-09, -6.2212e-07,  2.9616e-07,  1.3039e-08,  2.7940e-09,
+        -5.4017e-08,  7.4506e-09,  2.0675e-07,  3.9116e-08,  1.0617e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 429, time 247.57, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4407 re_mapping 0.0028 re_causal 0.0102 /// teacc 99.18 lr 0.00001000
+Epoch 431, weight, value: tensor([[ 0.0208, -0.2024, -0.1977,  ..., -0.3898, -0.1340, -0.1782],
+        [ 0.0885, -0.0984,  0.0439,  ...,  0.0456,  0.1430, -0.0683],
+        [-0.1114,  0.1633, -0.2355,  ...,  0.0589,  0.1029, -0.0418],
+        ...,
+        [-0.0792, -0.1037, -0.0848,  ...,  0.0131, -0.2346,  0.1767],
+        [ 0.0479, -0.0556,  0.1392,  ...,  0.0082, -0.2713, -0.0415],
+        [-0.2587, -0.1330, -0.1845,  ..., -0.3307,  0.0884, -0.1107]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-09,
+          8.3819e-09,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00, -1.4901e-08,  ...,  6.5658e-07,
+         -4.7497e-08,  3.3900e-07],
+        [ 0.0000e+00,  0.0000e+00,  3.3528e-08,  ...,  5.6811e-08,
+          3.1665e-08,  1.3970e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ..., -8.8569e-07,
+          1.8626e-09, -4.4145e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  6.7055e-08,
+          1.8626e-09,  3.2596e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  7.7300e-08,
+          9.3132e-10,  3.8184e-08]], device='cuda:0')
+Epoch 431, bias, value: tensor([ 0.0005, -0.0401,  0.0104, -0.0067,  0.0083,  0.0064,  0.0181,  0.0085,
+        -0.0440, -0.0147], device='cuda:0'), grad: tensor([-4.6659e-07,  2.7977e-06,  2.5891e-07,  1.2387e-07,  2.0489e-08,
+         3.9116e-08,  2.1420e-07, -3.7197e-06,  3.0082e-07,  4.3586e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 430, time 247.02, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4007 re_mapping 0.0028 re_causal 0.0097 /// teacc 99.17 lr 0.00001000
+Epoch 432, weight, value: tensor([[ 0.0208, -0.2024, -0.1977,  ..., -0.3898, -0.1341, -0.1782],
+        [ 0.0885, -0.0985,  0.0440,  ...,  0.0456,  0.1430, -0.0683],
+        [-0.1115,  0.1634, -0.2355,  ...,  0.0589,  0.1030, -0.0418],
+        ...,
+        [-0.0791, -0.1037, -0.0848,  ...,  0.0132, -0.2347,  0.1767],
+        [ 0.0478, -0.0556,  0.1393,  ...,  0.0082, -0.2714, -0.0415],
+        [-0.2588, -0.1331, -0.1846,  ..., -0.3309,  0.0884, -0.1107]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  1.8626e-09,
+          9.3132e-10,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.8626e-09,
+          0.0000e+00, -9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00, -1.4901e-08,  ...,  0.0000e+00,
+          2.7940e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.4901e-08,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 432, bias, value: tensor([ 0.0005, -0.0401,  0.0105, -0.0067,  0.0084,  0.0064,  0.0181,  0.0085,
+        -0.0440, -0.0147], device='cuda:0'), grad: tensor([ 1.3039e-08,  1.1176e-08,  9.3132e-10,  2.7940e-09, -7.4506e-09,
+        -1.0245e-08, -1.5832e-08, -3.7253e-09, -5.0291e-08,  6.6124e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 431, time 247.14, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4138 re_mapping 0.0028 re_causal 0.0097 /// teacc 99.18 lr 0.00001000
+Epoch 433, weight, value: tensor([[ 0.0208, -0.2024, -0.1978,  ..., -0.3899, -0.1341, -0.1782],
+        [ 0.0885, -0.0985,  0.0440,  ...,  0.0456,  0.1429, -0.0684],
+        [-0.1115,  0.1634, -0.2355,  ...,  0.0590,  0.1030, -0.0418],
+        ...,
+        [-0.0791, -0.1037, -0.0848,  ...,  0.0132, -0.2347,  0.1768],
+        [ 0.0478, -0.0556,  0.1393,  ...,  0.0082, -0.2714, -0.0415],
+        [-0.2588, -0.1331, -0.1846,  ..., -0.3310,  0.0884, -0.1107]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-10,
+          7.4506e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-10,
+          7.4506e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -5.5879e-09, -0.0000e+00]], device='cuda:0')
+Epoch 433, bias, value: tensor([ 0.0005, -0.0402,  0.0105, -0.0067,  0.0084,  0.0064,  0.0181,  0.0085,
+        -0.0441, -0.0147], device='cuda:0'), grad: tensor([-1.1176e-08,  1.1176e-08,  3.5390e-08,  7.4506e-09,  1.2107e-08,
+         4.6566e-09, -5.8673e-08,  4.6566e-09,  2.4214e-08, -2.2352e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 432, time 247.94, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4491 re_mapping 0.0028 re_causal 0.0100 /// teacc 99.16 lr 0.00001000
+Epoch 434, weight, value: tensor([[ 0.0208, -0.2024, -0.1978,  ..., -0.3899, -0.1342, -0.1782],
+        [ 0.0885, -0.0985,  0.0440,  ...,  0.0456,  0.1430, -0.0684],
+        [-0.1115,  0.1634, -0.2355,  ...,  0.0590,  0.1030, -0.0418],
+        ...,
+        [-0.0791, -0.1037, -0.0848,  ...,  0.0132, -0.2347,  0.1768],
+        [ 0.0478, -0.0556,  0.1393,  ...,  0.0082, -0.2714, -0.0415],
+        [-0.2588, -0.1331, -0.1847,  ..., -0.3311,  0.0884, -0.1107]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.0978e-08,  ...,  1.4156e-07,
+          1.2107e-08,  9.3132e-10],
+        [ 0.0000e+00, -6.5193e-09,  2.7940e-09,  ..., -4.9360e-08,
+         -9.3132e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  6.5193e-09, -4.0978e-08,  ..., -1.0245e-07,
+          1.6764e-08, -9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  9.3132e-10,
+          7.4506e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  1.0245e-08,
+          5.9605e-08,  0.0000e+00]], device='cuda:0')
+Epoch 434, bias, value: tensor([ 0.0005, -0.0402,  0.0105, -0.0067,  0.0084,  0.0064,  0.0181,  0.0085,
+        -0.0441, -0.0147], device='cuda:0'), grad: tensor([ 2.2352e-08,  5.4203e-07, -2.0582e-07, -3.7253e-09, -2.8498e-07,
+         1.3039e-08, -8.7544e-08, -2.9989e-07,  6.6124e-08,  2.4214e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 433, time 247.69, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4407 re_mapping 0.0028 re_causal 0.0100 /// teacc 99.17 lr 0.00001000
+Epoch 435, weight, value: tensor([[ 0.0208, -0.2024, -0.1978,  ..., -0.3900, -0.1342, -0.1782],
+        [ 0.0884, -0.0985,  0.0440,  ...,  0.0456,  0.1430, -0.0685],
+        [-0.1115,  0.1635, -0.2356,  ...,  0.0590,  0.1030, -0.0418],
+        ...,
+        [-0.0791, -0.1037, -0.0848,  ...,  0.0131, -0.2348,  0.1769],
+        [ 0.0478, -0.0556,  0.1393,  ...,  0.0082, -0.2715, -0.0415],
+        [-0.2588, -0.1332, -0.1847,  ..., -0.3313,  0.0884, -0.1107]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-09,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09, -1.3411e-07,  ..., -9.9652e-08,
+         -1.2107e-07,  0.0000e+00],
+        [ 0.0000e+00, -3.7253e-09,  1.8626e-09,  ..., -6.5193e-09,
+         -1.3970e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  9.3132e-10,  1.2666e-07,  ...,  1.0151e-07,
+          1.2293e-07,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+         -9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 435, bias, value: tensor([ 0.0005, -0.0401,  0.0105, -0.0067,  0.0084,  0.0064,  0.0181,  0.0085,
+        -0.0441, -0.0147], device='cuda:0'), grad: tensor([ 2.6356e-07, -3.4552e-07, -2.2352e-08,  3.7253e-09,  2.2352e-08,
+         1.8626e-09, -3.0454e-07,  3.3621e-07,  4.2841e-08, -9.3132e-10],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 434, time 246.83, cls_loss 0.0006 cls_loss_mapping 0.0003 cls_loss_causal 0.3939 re_mapping 0.0028 re_causal 0.0096 /// teacc 99.16 lr 0.00001000
+Epoch 436, weight, value: tensor([[ 0.0208, -0.2025, -0.1979,  ..., -0.3901, -0.1343, -0.1782],
+        [ 0.0884, -0.0986,  0.0440,  ...,  0.0456,  0.1430, -0.0685],
+        [-0.1115,  0.1635, -0.2357,  ...,  0.0590,  0.1031, -0.0417],
+        ...,
+        [-0.0792, -0.1038, -0.0848,  ...,  0.0131, -0.2348,  0.1769],
+        [ 0.0478, -0.0556,  0.1393,  ...,  0.0082, -0.2715, -0.0415],
+        [-0.2588, -0.1332, -0.1848,  ..., -0.3314,  0.0884, -0.1107]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  9.3132e-10,
+          1.3970e-09,  0.0000e+00],
+        [ 0.0000e+00,  7.9162e-09, -2.7940e-09,  ...,  1.2107e-08,
+          1.5832e-08, -0.0000e+00],
+        [ 0.0000e+00, -1.3504e-08,  1.3970e-09,  ..., -2.0023e-08,
+         -3.3528e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  3.2596e-09,  1.8626e-09,  ...,  5.5879e-09,
+          9.7789e-09,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10, -3.7253e-09,  ..., -5.1223e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  9.3132e-10,
+          1.3970e-09,  0.0000e+00]], device='cuda:0')
+Epoch 436, bias, value: tensor([ 0.0004, -0.0402,  0.0106, -0.0067,  0.0084,  0.0064,  0.0181,  0.0085,
+        -0.0441, -0.0148], device='cuda:0'), grad: tensor([ 5.1223e-09,  4.2375e-08, -7.5903e-08,  6.0536e-09,  5.5879e-09,
+         9.3132e-10,  0.0000e+00,  2.0489e-08, -6.0536e-09,  4.6566e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 435, time 246.99, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4225 re_mapping 0.0027 re_causal 0.0097 /// teacc 99.18 lr 0.00001000
+Epoch 437, weight, value: tensor([[ 0.0208, -0.2025, -0.1980,  ..., -0.3901, -0.1343, -0.1782],
+        [ 0.0884, -0.0985,  0.0441,  ...,  0.0456,  0.1431, -0.0685],
+        [-0.1116,  0.1636, -0.2358,  ...,  0.0590,  0.1031, -0.0417],
+        ...,
+        [-0.0791, -0.1038, -0.0849,  ...,  0.0131, -0.2349,  0.1770],
+        [ 0.0478, -0.0557,  0.1393,  ...,  0.0082, -0.2716, -0.0415],
+        [-0.2589, -0.1332, -0.1848,  ..., -0.3316,  0.0884, -0.1107]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  7.4506e-09,  4.6566e-10,  ...,  4.1910e-09,
+          6.9849e-09,  0.0000e+00],
+        [ 2.2352e-08,  3.4925e-08,  3.2596e-09,  ...,  3.1199e-08,
+          8.4750e-08,  0.0000e+00],
+        [ 9.3132e-10, -1.8813e-07,  2.3283e-09,  ..., -9.7789e-08,
+         -1.4715e-07,  0.0000e+00],
+        ...,
+        [ 4.6566e-09,  9.3132e-08, -4.6566e-10,  ...,  3.1199e-08,
+          9.5926e-08,  0.0000e+00],
+        [-4.6566e-10,  1.3970e-08, -1.3039e-08,  ...,  4.6566e-10,
+          1.0710e-08,  0.0000e+00],
+        [ 2.3283e-09,  5.1223e-09,  4.6566e-10,  ...,  5.5879e-09,
+          7.4506e-09,  0.0000e+00]], device='cuda:0')
+Epoch 437, bias, value: tensor([ 0.0004, -0.0401,  0.0106, -0.0067,  0.0084,  0.0064,  0.0181,  0.0085,
+        -0.0442, -0.0148], device='cuda:0'), grad: tensor([ 2.3749e-08,  2.5099e-07, -4.4890e-07,  6.3330e-08, -1.6019e-07,
+         1.2107e-08,  7.9162e-09,  2.1933e-07,  1.5367e-08,  2.9802e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+---------------------saving model at epoch 436----------------------------------------------------
+epoch 436, time 264.40, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4227 re_mapping 0.0027 re_causal 0.0098 /// teacc 99.21 lr 0.00001000
+Epoch 438, weight, value: tensor([[ 0.0208, -0.2025, -0.1980,  ..., -0.3902, -0.1344, -0.1782],
+        [ 0.0884, -0.0985,  0.0441,  ...,  0.0456,  0.1432, -0.0685],
+        [-0.1116,  0.1636, -0.2360,  ...,  0.0590,  0.1031, -0.0417],
+        ...,
+        [-0.0791, -0.1039, -0.0849,  ...,  0.0132, -0.2350,  0.1770],
+        [ 0.0478, -0.0557,  0.1393,  ...,  0.0082, -0.2716, -0.0415],
+        [-0.2589, -0.1332, -0.1849,  ..., -0.3318,  0.0883, -0.1107]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  4.6566e-10,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.3039e-08,  ..., -8.8476e-09,
+         -1.9558e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  6.9849e-09,  ...,  4.6566e-09,
+          2.3283e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.2107e-08,  ...,  8.3819e-09,
+          1.2107e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  5.1223e-09,
+          6.9849e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  4.6566e-10,
+          4.6566e-10,  0.0000e+00]], device='cuda:0')
+Epoch 438, bias, value: tensor([ 0.0004, -0.0402,  0.0105, -0.0067,  0.0085,  0.0064,  0.0181,  0.0085,
+        -0.0442, -0.0148], device='cuda:0'), grad: tensor([ 1.0710e-08, -2.9802e-08,  1.0291e-07, -4.5635e-08,  1.0943e-07,
+         1.0245e-08, -2.1467e-07,  3.1665e-08,  2.6077e-08,  3.2596e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+---------------------saving model at epoch 437----------------------------------------------------
+epoch 437, time 263.05, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4222 re_mapping 0.0028 re_causal 0.0098 /// teacc 99.22 lr 0.00001000
+Epoch 439, weight, value: tensor([[ 0.0208, -0.2026, -0.1981,  ..., -0.3902, -0.1345, -0.1782],
+        [ 0.0884, -0.0986,  0.0441,  ...,  0.0456,  0.1432, -0.0686],
+        [-0.1116,  0.1637, -0.2360,  ...,  0.0590,  0.1032, -0.0417],
+        ...,
+        [-0.0791, -0.1039, -0.0849,  ...,  0.0131, -0.2351,  0.1770],
+        [ 0.0478, -0.0557,  0.1393,  ...,  0.0082, -0.2717, -0.0415],
+        [-0.2589, -0.1333, -0.1850,  ..., -0.3319,  0.0883, -0.1107]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-10,
+          2.5611e-08,  9.3132e-09],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-09,
+          1.6764e-08,  3.2596e-09],
+        [ 0.0000e+00,  1.8626e-09,  2.0023e-08,  ...,  1.9092e-08,
+          9.7789e-09,  3.2596e-09],
+        ...,
+        [ 0.0000e+00, -4.1910e-09,  2.8871e-08,  ..., -2.7940e-09,
+          4.0513e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-09,  ...,  4.1910e-09,
+          8.1491e-08,  5.1223e-09],
+        [ 0.0000e+00,  9.3132e-10,  1.3970e-09,  ...,  6.0536e-09,
+         -1.1884e-06,  0.0000e+00]], device='cuda:0')
+Epoch 439, bias, value: tensor([ 0.0004, -0.0402,  0.0106, -0.0067,  0.0085,  0.0064,  0.0181,  0.0085,
+        -0.0442, -0.0149], device='cuda:0'), grad: tensor([ 8.9873e-08,  8.1025e-08,  9.7789e-08, -1.2154e-07,  3.9674e-06,
+         6.9384e-08, -8.6613e-08,  1.4855e-07,  3.1758e-07, -4.5486e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 438, time 246.89, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4241 re_mapping 0.0028 re_causal 0.0099 /// teacc 99.22 lr 0.00001000
+Epoch 440, weight, value: tensor([[ 0.0208, -0.2026, -0.1981,  ..., -0.3904, -0.1345, -0.1783],
+        [ 0.0884, -0.0986,  0.0441,  ...,  0.0456,  0.1432, -0.0686],
+        [-0.1116,  0.1637, -0.2361,  ...,  0.0590,  0.1032, -0.0417],
+        ...,
+        [-0.0791, -0.1039, -0.0849,  ...,  0.0132, -0.2351,  0.1771],
+        [ 0.0477, -0.0557,  0.1393,  ...,  0.0082, -0.2718, -0.0416],
+        [-0.2589, -0.1333, -0.1851,  ..., -0.3320,  0.0883, -0.1108]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.4901e-08,  ...,  3.6787e-08,
+          2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00, -4.6566e-10,  8.3819e-09,  ...,  4.6566e-09,
+          4.6566e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ..., -2.7474e-08,
+          2.3283e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-09,
+          2.3283e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  3.2596e-09,
+          4.6566e-10,  0.0000e+00]], device='cuda:0')
+Epoch 440, bias, value: tensor([ 0.0004, -0.0402,  0.0106, -0.0067,  0.0085,  0.0064,  0.0181,  0.0085,
+        -0.0443, -0.0149], device='cuda:0'), grad: tensor([ 5.5879e-09,  1.4342e-07,  1.6764e-08, -7.0315e-08,  9.7789e-09,
+         1.0710e-08, -1.8161e-08, -1.2526e-07,  2.3283e-08,  1.3970e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 439, time 247.47, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4265 re_mapping 0.0028 re_causal 0.0099 /// teacc 99.19 lr 0.00001000
+Epoch 441, weight, value: tensor([[ 0.0208, -0.2026, -0.1981,  ..., -0.3904, -0.1346, -0.1783],
+        [ 0.0884, -0.0986,  0.0442,  ...,  0.0456,  0.1432, -0.0686],
+        [-0.1116,  0.1637, -0.2361,  ...,  0.0590,  0.1032, -0.0417],
+        ...,
+        [-0.0791, -0.1039, -0.0849,  ...,  0.0132, -0.2352,  0.1771],
+        [ 0.0477, -0.0558,  0.1393,  ...,  0.0081, -0.2718, -0.0416],
+        [-0.2589, -0.1333, -0.1851,  ..., -0.3322,  0.0883, -0.1108]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  4.6566e-10,  4.6566e-10,  ...,  4.6566e-10,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10, -1.8626e-09,  ..., -0.0000e+00,
+         -3.2596e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.2596e-09,  ...,  1.3970e-09,
+         -4.6566e-10,  0.0000e+00],
+        ...,
+        [ 2.0955e-08,  4.6566e-10,  4.6566e-10,  ...,  4.6566e-10,
+          1.8626e-09,  0.0000e+00],
+        [ 1.1642e-08, -1.3970e-09, -3.2596e-09,  ..., -2.3283e-09,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+         -6.0536e-09,  0.0000e+00]], device='cuda:0')
+Epoch 441, bias, value: tensor([ 0.0004, -0.0402,  0.0107, -0.0067,  0.0086,  0.0064,  0.0181,  0.0085,
+        -0.0444, -0.0149], device='cuda:0'), grad: tensor([ 4.6566e-09, -2.7940e-09,  3.7253e-09,  3.2596e-08,  1.2573e-08,
+        -1.1036e-07,  6.5193e-09,  5.8673e-08,  2.2352e-08, -1.3504e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 440, time 247.15, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4143 re_mapping 0.0027 re_causal 0.0096 /// teacc 99.18 lr 0.00001000
+Epoch 442, weight, value: tensor([[ 0.0208, -0.2027, -0.1982,  ..., -0.3905, -0.1346, -0.1783],
+        [ 0.0884, -0.0986,  0.0441,  ...,  0.0455,  0.1432, -0.0686],
+        [-0.1116,  0.1637, -0.2362,  ...,  0.0591,  0.1033, -0.0417],
+        ...,
+        [-0.0791, -0.1040, -0.0849,  ...,  0.0132, -0.2352,  0.1771],
+        [ 0.0477, -0.0558,  0.1393,  ...,  0.0081, -0.2719, -0.0416],
+        [-0.2589, -0.1334, -0.1851,  ..., -0.3324,  0.0883, -0.1108]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  4.6566e-10,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  3.7253e-09,  ...,  1.3970e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00, -1.3970e-09,  2.1420e-08,  ..., -2.7940e-09,
+         -2.7940e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.3970e-09,  6.5193e-09,  ...,  2.3283e-09,
+          2.7008e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -2.2072e-07,  ..., -2.1886e-08,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  4.6566e-10,
+         -2.5146e-08,  0.0000e+00]], device='cuda:0')
+Epoch 442, bias, value: tensor([ 0.0004, -0.0403,  0.0107, -0.0067,  0.0086,  0.0064,  0.0181,  0.0085,
+        -0.0444, -0.0150], device='cuda:0'), grad: tensor([ 2.7940e-09,  1.2107e-08,  3.9116e-08,  1.0664e-07,  5.0291e-08,
+         6.9849e-09,  8.9407e-08,  1.1409e-07, -3.2410e-07, -8.2888e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 441, time 247.82, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4271 re_mapping 0.0027 re_causal 0.0098 /// teacc 99.17 lr 0.00001000
+Epoch 443, weight, value: tensor([[ 0.0208, -0.2027, -0.1982,  ..., -0.3905, -0.1347, -0.1783],
+        [ 0.0884, -0.0986,  0.0441,  ...,  0.0455,  0.1432, -0.0686],
+        [-0.1117,  0.1638, -0.2362,  ...,  0.0591,  0.1033, -0.0417],
+        ...,
+        [-0.0791, -0.1040, -0.0849,  ...,  0.0132, -0.2353,  0.1771],
+        [ 0.0477, -0.0558,  0.1394,  ...,  0.0082, -0.2720, -0.0416],
+        [-0.2589, -0.1334, -0.1852,  ..., -0.3325,  0.0883, -0.1108]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.2107e-08,  0.0000e+00],
+        [ 4.6566e-10,  9.3132e-10,  0.0000e+00,  ...,  2.3283e-09,
+          2.3283e-09,  0.0000e+00],
+        [ 0.0000e+00, -1.8626e-09,  4.6566e-10,  ..., -3.2596e-09,
+         -2.7940e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          2.3283e-09,  0.0000e+00],
+        [ 1.3970e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+         -2.7940e-09,  0.0000e+00]], device='cuda:0')
+Epoch 443, bias, value: tensor([ 0.0004, -0.0403,  0.0108, -0.0067,  0.0086,  0.0064,  0.0182,  0.0085,
+        -0.0444, -0.0150], device='cuda:0'), grad: tensor([ 4.0047e-08,  1.0710e-08, -6.0536e-09,  2.7940e-09,  7.9162e-09,
+         1.3970e-08, -7.8231e-08,  1.0245e-08,  1.8626e-08, -1.6298e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 442, time 247.84, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4329 re_mapping 0.0027 re_causal 0.0098 /// teacc 99.17 lr 0.00001000
+Epoch 444, weight, value: tensor([[ 0.0208, -0.2027, -0.1983,  ..., -0.3906, -0.1348, -0.1783],
+        [ 0.0884, -0.0986,  0.0441,  ...,  0.0455,  0.1432, -0.0686],
+        [-0.1117,  0.1638, -0.2364,  ...,  0.0591,  0.1033, -0.0417],
+        ...,
+        [-0.0791, -0.1040, -0.0849,  ...,  0.0132, -0.2353,  0.1772],
+        [ 0.0477, -0.0558,  0.1394,  ...,  0.0081, -0.2721, -0.0416],
+        [-0.2589, -0.1334, -0.1852,  ..., -0.3326,  0.0883, -0.1108]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -0.0000e+00,  ...,  0.0000e+00,
+          3.2596e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  9.3132e-10,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [-0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -2.3283e-09,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          4.1910e-09,  0.0000e+00]], device='cuda:0')
+Epoch 444, bias, value: tensor([ 0.0004, -0.0403,  0.0108, -0.0067,  0.0086,  0.0064,  0.0182,  0.0086,
+        -0.0445, -0.0150], device='cuda:0'), grad: tensor([ 4.1910e-09,  6.9849e-09,  3.2596e-09,  7.9162e-09, -1.9558e-08,
+         3.7253e-09, -1.4435e-08, -9.7789e-09,  4.1910e-09,  1.9558e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 443, time 246.88, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4280 re_mapping 0.0028 re_causal 0.0099 /// teacc 99.15 lr 0.00001000
+Epoch 445, weight, value: tensor([[ 0.0209, -0.2027, -0.1983,  ..., -0.3906, -0.1349, -0.1783],
+        [ 0.0884, -0.0988,  0.0441,  ...,  0.0455,  0.1432, -0.0687],
+        [-0.1117,  0.1639, -0.2364,  ...,  0.0591,  0.1035, -0.0417],
+        ...,
+        [-0.0792, -0.1041, -0.0849,  ...,  0.0132, -0.2354,  0.1772],
+        [ 0.0477, -0.0558,  0.1394,  ...,  0.0082, -0.2721, -0.0416],
+        [-0.2590, -0.1334, -0.1853,  ..., -0.3327,  0.0883, -0.1108]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  5.5879e-09,
+          2.5611e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.5856e-08,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00, -9.3132e-10,  4.6566e-10,  ..., -1.3970e-09,
+         -1.8626e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  4.6566e-10, -4.6566e-10,  ..., -7.4040e-08,
+          1.5367e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.7695e-08,
+         -2.8405e-08,  0.0000e+00]], device='cuda:0')
+Epoch 445, bias, value: tensor([ 0.0004, -0.0404,  0.0109, -0.0067,  0.0086,  0.0064,  0.0182,  0.0086,
+        -0.0445, -0.0150], device='cuda:0'), grad: tensor([ 1.1502e-07,  1.4668e-07, -7.4506e-09,  1.1129e-07,  1.3504e-08,
+        -3.8650e-08, -2.3283e-09, -2.8964e-07,  1.1642e-08, -5.3085e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 444, time 247.07, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4224 re_mapping 0.0027 re_causal 0.0094 /// teacc 99.17 lr 0.00001000
+Epoch 446, weight, value: tensor([[ 0.0209, -0.2027, -0.1984,  ..., -0.3907, -0.1349, -0.1783],
+        [ 0.0884, -0.0988,  0.0441,  ...,  0.0455,  0.1432, -0.0687],
+        [-0.1117,  0.1640, -0.2365,  ...,  0.0592,  0.1035, -0.0417],
+        ...,
+        [-0.0792, -0.1041, -0.0849,  ...,  0.0132, -0.2356,  0.1772],
+        [ 0.0477, -0.0559,  0.1395,  ...,  0.0082, -0.2722, -0.0415],
+        [-0.2590, -0.1335, -0.1854,  ..., -0.3329,  0.0883, -0.1108]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-09,  ...,  4.6566e-09,
+          1.3970e-09, -2.5379e-07],
+        [ 0.0000e+00,  0.0000e+00, -9.3132e-10,  ..., -4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+         -1.3970e-09,  0.0000e+00]], device='cuda:0')
+Epoch 446, bias, value: tensor([ 0.0004, -0.0404,  0.0109, -0.0067,  0.0086,  0.0064,  0.0182,  0.0086,
+        -0.0445, -0.0150], device='cuda:0'), grad: tensor([-2.7940e-09,  6.0536e-09,  5.1223e-09, -4.1444e-07,  6.3842e-07,
+         3.9348e-07,  1.3970e-09, -6.1886e-07, -1.3970e-09,  4.6566e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 445, time 247.42, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4477 re_mapping 0.0027 re_causal 0.0099 /// teacc 99.16 lr 0.00001000
+Epoch 447, weight, value: tensor([[ 0.0209, -0.2028, -0.1984,  ..., -0.3908, -0.1350, -0.1783],
+        [ 0.0884, -0.0988,  0.0442,  ...,  0.0455,  0.1433, -0.0687],
+        [-0.1117,  0.1641, -0.2366,  ...,  0.0592,  0.1036, -0.0417],
+        ...,
+        [-0.0792, -0.1042, -0.0849,  ...,  0.0132, -0.2357,  0.1773],
+        [ 0.0477, -0.0559,  0.1395,  ...,  0.0082, -0.2723, -0.0415],
+        [-0.2590, -0.1335, -0.1855,  ..., -0.3331,  0.0884, -0.1109]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  4.6566e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  1.3970e-09, -1.3970e-09,  ...,  2.7940e-09,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00, -9.7789e-09,  1.8626e-08,  ..., -4.3772e-08,
+         -2.0489e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  7.9162e-09,  9.3132e-09,  ...,  4.1444e-08,
+          2.5611e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  0.0000e+00,
+          2.3283e-09,  0.0000e+00]], device='cuda:0')
+Epoch 447, bias, value: tensor([ 0.0004, -0.0404,  0.0110, -0.0068,  0.0085,  0.0064,  0.0182,  0.0085,
+        -0.0445, -0.0149], device='cuda:0'), grad: tensor([ 5.5879e-09,  2.5611e-08, -6.4261e-08, -6.8452e-08, -4.4238e-08,
+         6.9849e-09,  9.3132e-10,  1.2619e-07,  6.5193e-09,  1.5367e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 446, time 247.53, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4031 re_mapping 0.0027 re_causal 0.0095 /// teacc 99.16 lr 0.00001000
+Epoch 448, weight, value: tensor([[ 0.0209, -0.2028, -0.1985,  ..., -0.3908, -0.1351, -0.1783],
+        [ 0.0884, -0.0989,  0.0442,  ...,  0.0454,  0.1434, -0.0687],
+        [-0.1117,  0.1642, -0.2366,  ...,  0.0592,  0.1036, -0.0417],
+        ...,
+        [-0.0792, -0.1042, -0.0850,  ...,  0.0132, -0.2359,  0.1773],
+        [ 0.0477, -0.0559,  0.1395,  ...,  0.0082, -0.2724, -0.0415],
+        [-0.2590, -0.1335, -0.1856,  ..., -0.3332,  0.0884, -0.1109]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.3970e-09,  0.0000e+00,  ...,  3.7253e-09,
+          4.1910e-09,  0.0000e+00],
+        [ 0.0000e+00, -2.7008e-08,  4.6566e-10,  ..., -7.9628e-08,
+         -8.6147e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  2.6077e-08,  9.3132e-10,  ...,  7.7765e-08,
+          8.4750e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 448, bias, value: tensor([ 0.0004, -0.0404,  0.0110, -0.0068,  0.0085,  0.0064,  0.0182,  0.0085,
+        -0.0446, -0.0149], device='cuda:0'), grad: tensor([ 2.3283e-09,  1.3504e-08, -2.6776e-07,  0.0000e+00, -3.7253e-09,
+         0.0000e+00, -2.7940e-09,  2.6356e-07,  0.0000e+00,  3.2596e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 447, time 246.83, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4356 re_mapping 0.0028 re_causal 0.0101 /// teacc 99.18 lr 0.00001000
+Epoch 449, weight, value: tensor([[ 0.0209, -0.2028, -0.1985,  ..., -0.3909, -0.1351, -0.1783],
+        [ 0.0883, -0.0989,  0.0442,  ...,  0.0454,  0.1434, -0.0687],
+        [-0.1117,  0.1642, -0.2368,  ...,  0.0592,  0.1037, -0.0417],
+        ...,
+        [-0.0792, -0.1043, -0.0849,  ...,  0.0133, -0.2359,  0.1773],
+        [ 0.0476, -0.0559,  0.1396,  ...,  0.0082, -0.2724, -0.0415],
+        [-0.2591, -0.1335, -0.1857,  ..., -0.3333,  0.0885, -0.1109]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09, -3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.6764e-08,  4.6566e-10],
+        [ 4.6566e-10,  0.0000e+00,  4.6566e-10,  ...,  3.2596e-09,
+          1.3970e-09,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  4.6566e-10,
+          4.6566e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ..., -5.5879e-09,
+          4.6566e-10,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          9.3132e-09,  2.3283e-09],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  2.3283e-09,
+         -9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 449, bias, value: tensor([ 0.0004, -0.0404,  0.0110, -0.0068,  0.0085,  0.0064,  0.0182,  0.0085,
+        -0.0446, -0.0149], device='cuda:0'), grad: tensor([ 3.3062e-08,  2.1420e-08,  8.3819e-09,  5.5879e-09,  1.0245e-08,
+         2.7940e-08, -1.2433e-07, -2.8871e-08,  3.7719e-08,  1.8161e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 448, time 247.39, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4368 re_mapping 0.0027 re_causal 0.0099 /// teacc 99.18 lr 0.00001000
+Epoch 450, weight, value: tensor([[ 0.0210, -0.2028, -0.1986,  ..., -0.3909, -0.1352, -0.1783],
+        [ 0.0883, -0.0989,  0.0443,  ...,  0.0455,  0.1436, -0.0688],
+        [-0.1117,  0.1642, -0.2369,  ...,  0.0592,  0.1037, -0.0417],
+        ...,
+        [-0.0792, -0.1043, -0.0851,  ...,  0.0131, -0.2362,  0.1773],
+        [ 0.0476, -0.0559,  0.1396,  ...,  0.0082, -0.2725, -0.0415],
+        [-0.2591, -0.1336, -0.1858,  ..., -0.3335,  0.0885, -0.1109]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  6.3796e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-09,  ...,  2.3283e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -4.6566e-10,  ..., -7.7300e-08,
+          4.6566e-10,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  1.1176e-08,
+         -9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 450, bias, value: tensor([ 0.0004, -0.0403,  0.0111, -0.0068,  0.0085,  0.0064,  0.0183,  0.0084,
+        -0.0446, -0.0149], device='cuda:0'), grad: tensor([ 3.2596e-09,  2.3562e-07,  9.7789e-09,  1.5832e-08,  1.3970e-09,
+        -1.3225e-07,  9.2667e-08, -2.8126e-07,  1.6298e-08,  3.9581e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 449, time 248.01, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4057 re_mapping 0.0027 re_causal 0.0095 /// teacc 99.17 lr 0.00001000
+Epoch 451, weight, value: tensor([[ 0.0210, -0.2028, -0.1986,  ..., -0.3910, -0.1353, -0.1783],
+        [ 0.0883, -0.0989,  0.0444,  ...,  0.0455,  0.1436, -0.0688],
+        [-0.1117,  0.1642, -0.2371,  ...,  0.0592,  0.1037, -0.0417],
+        ...,
+        [-0.0792, -0.1044, -0.0851,  ...,  0.0132, -0.2362,  0.1774],
+        [ 0.0476, -0.0559,  0.1396,  ...,  0.0082, -0.2726, -0.0415],
+        [-0.2591, -0.1336, -0.1858,  ..., -0.3337,  0.0885, -0.1109]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  2.3283e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.3970e-09,  1.9092e-08,  ...,  1.0012e-07,
+          7.4506e-09,  3.3528e-08],
+        [ 0.0000e+00, -3.0268e-08,  9.3132e-10,  ..., -4.8894e-08,
+         -4.5169e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  2.5611e-08, -1.9092e-08,  ..., -8.7079e-08,
+          3.9116e-08, -3.5856e-08],
+        [ 0.0000e+00,  1.8626e-09, -9.3132e-10,  ...,  6.0536e-09,
+          9.3132e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  2.3749e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 451, bias, value: tensor([ 0.0004, -0.0403,  0.0110, -0.0068,  0.0085,  0.0064,  0.0183,  0.0084,
+        -0.0447, -0.0149], device='cuda:0'), grad: tensor([-2.4820e-07,  4.0932e-07, -1.4342e-07,  2.6077e-08, -8.3819e-09,
+         5.6811e-08,  5.3085e-08, -3.2922e-07,  4.8894e-08,  1.4389e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 450, time 247.85, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4301 re_mapping 0.0027 re_causal 0.0097 /// teacc 99.16 lr 0.00001000
+Epoch 452, weight, value: tensor([[ 0.0210, -0.2028, -0.1987,  ..., -0.3911, -0.1353, -0.1783],
+        [ 0.0883, -0.0988,  0.0444,  ...,  0.0455,  0.1437, -0.0689],
+        [-0.1117,  0.1643, -0.2373,  ...,  0.0592,  0.1037, -0.0417],
+        ...,
+        [-0.0792, -0.1045, -0.0851,  ...,  0.0132, -0.2364,  0.1775],
+        [ 0.0476, -0.0560,  0.1396,  ...,  0.0082, -0.2726, -0.0415],
+        [-0.2591, -0.1337, -0.1859,  ..., -0.3339,  0.0885, -0.1109]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.3970e-09,  4.6566e-10,  ...,  4.6566e-10,
+          2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  7.9162e-08,  ...,  9.6392e-08,
+          1.3970e-09,  0.0000e+00],
+        [ 0.0000e+00, -1.3970e-09,  3.7253e-09,  ...,  3.2596e-09,
+         -2.7940e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -4.6566e-10, -8.8941e-08,  ..., -1.1083e-07,
+         -1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -6.0536e-09,  ..., -4.6566e-10,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  6.9849e-09,  ...,  8.3819e-09,
+         -4.6566e-10,  0.0000e+00]], device='cuda:0')
+Epoch 452, bias, value: tensor([ 0.0004, -0.0404,  0.0110, -0.0068,  0.0086,  0.0064,  0.0183,  0.0085,
+        -0.0447, -0.0150], device='cuda:0'), grad: tensor([ 7.4506e-09,  3.5530e-07,  5.1223e-09,  2.6543e-08,  1.8626e-09,
+        -1.2573e-08,  3.2596e-09, -4.0419e-07, -9.7789e-09,  2.9802e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 451, time 247.26, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4272 re_mapping 0.0027 re_causal 0.0098 /// teacc 99.14 lr 0.00001000
+Epoch 453, weight, value: tensor([[ 0.0210, -0.2028, -0.1987,  ..., -0.3911, -0.1354, -0.1783],
+        [ 0.0883, -0.0988,  0.0443,  ...,  0.0454,  0.1438, -0.0689],
+        [-0.1118,  0.1643, -0.2374,  ...,  0.0592,  0.1037, -0.0417],
+        ...,
+        [-0.0792, -0.1045, -0.0850,  ...,  0.0133, -0.2364,  0.1775],
+        [ 0.0476, -0.0560,  0.1397,  ...,  0.0082, -0.2727, -0.0415],
+        [-0.2591, -0.1337, -0.1860,  ..., -0.3341,  0.0885, -0.1109]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  2.7940e-09,  ...,  4.6566e-10,
+          2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  1.1176e-08,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.3970e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ..., -1.3504e-08,
+          1.3970e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -2.1420e-08,  ...,  4.6566e-10,
+          1.3970e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.2352e-08,  ...,  1.3970e-09,
+          4.6566e-10,  0.0000e+00]], device='cuda:0')
+Epoch 453, bias, value: tensor([ 0.0004, -0.0404,  0.0110, -0.0068,  0.0086,  0.0064,  0.0183,  0.0085,
+        -0.0447, -0.0149], device='cuda:0'), grad: tensor([ 1.5367e-08,  5.4482e-08,  8.8476e-09, -1.6298e-08, -2.3283e-09,
+         6.5193e-08, -8.0559e-08, -4.8894e-08, -8.1956e-08,  9.6858e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 452, time 247.84, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4112 re_mapping 0.0027 re_causal 0.0096 /// teacc 99.14 lr 0.00001000
+Epoch 454, weight, value: tensor([[ 0.0210, -0.2028, -0.1988,  ..., -0.3912, -0.1355, -0.1783],
+        [ 0.0882, -0.0988,  0.0444,  ...,  0.0454,  0.1438, -0.0689],
+        [-0.1118,  0.1644, -0.2375,  ...,  0.0592,  0.1037, -0.0417],
+        ...,
+        [-0.0792, -0.1046, -0.0851,  ...,  0.0132, -0.2365,  0.1775],
+        [ 0.0476, -0.0560,  0.1397,  ...,  0.0082, -0.2727, -0.0415],
+        [-0.2591, -0.1337, -0.1861,  ..., -0.3343,  0.0886, -0.1109]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.6566e-10,  1.9558e-08,  ...,  6.9849e-09,
+          2.0023e-08,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10, -1.2619e-07,  ..., -1.6298e-08,
+         -1.2014e-07,  0.0000e+00],
+        [ 0.0000e+00, -6.0536e-09,  2.2817e-08,  ..., -1.3039e-08,
+          2.7940e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  4.6566e-09,  6.2864e-08,  ...,  7.4506e-09,
+          7.4506e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-08,  ...,  3.7253e-09,
+          1.2573e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  7.9162e-09,  ...,  1.0245e-08,
+          6.9849e-09,  0.0000e+00]], device='cuda:0')
+Epoch 454, bias, value: tensor([ 0.0004, -0.0404,  0.0111, -0.0068,  0.0086,  0.0064,  0.0183,  0.0085,
+        -0.0447, -0.0149], device='cuda:0'), grad: tensor([-4.0978e-08, -3.2084e-07,  3.1665e-08,  1.1642e-08,  2.3283e-09,
+        -2.0489e-08,  2.4214e-08,  1.7183e-07,  6.8918e-08,  8.0094e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 453, time 247.17, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4440 re_mapping 0.0028 re_causal 0.0098 /// teacc 99.17 lr 0.00001000
+Epoch 455, weight, value: tensor([[ 0.0211, -0.2028, -0.1990,  ..., -0.3913, -0.1357, -0.1783],
+        [ 0.0882, -0.0988,  0.0444,  ...,  0.0455,  0.1439, -0.0689],
+        [-0.1119,  0.1644, -0.2377,  ...,  0.0592,  0.1037, -0.0417],
+        ...,
+        [-0.0792, -0.1046, -0.0851,  ...,  0.0133, -0.2366,  0.1775],
+        [ 0.0475, -0.0560,  0.1398,  ...,  0.0082, -0.2729, -0.0415],
+        [-0.2592, -0.1338, -0.1862,  ..., -0.3344,  0.0886, -0.1109]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  1.3970e-09,
+          6.0536e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.4435e-08,  ...,  9.3132e-10,
+         -2.7940e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  4.6566e-10,  3.7253e-09,  ...,  1.8626e-09,
+          6.5193e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  4.6566e-10,
+          5.1223e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  4.6566e-10,
+          3.3062e-08,  0.0000e+00]], device='cuda:0')
+Epoch 455, bias, value: tensor([ 0.0003, -0.0404,  0.0110, -0.0068,  0.0087,  0.0065,  0.0183,  0.0085,
+        -0.0448, -0.0149], device='cuda:0'), grad: tensor([ 1.8626e-09,  3.9116e-08,  2.5611e-08, -5.4482e-08, -3.1758e-07,
+         2.3283e-08, -3.2131e-08,  3.0268e-08,  2.6077e-08,  2.6589e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 454, time 247.38, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4366 re_mapping 0.0026 re_causal 0.0098 /// teacc 99.15 lr 0.00001000
+Epoch 456, weight, value: tensor([[ 0.0211, -0.2028, -0.1991,  ..., -0.3914, -0.1358, -0.1783],
+        [ 0.0882, -0.0988,  0.0445,  ...,  0.0455,  0.1441, -0.0689],
+        [-0.1119,  0.1644, -0.2379,  ...,  0.0592,  0.1037, -0.0417],
+        ...,
+        [-0.0791, -0.1047, -0.0852,  ...,  0.0132, -0.2369,  0.1775],
+        [ 0.0475, -0.0560,  0.1398,  ...,  0.0083, -0.2731, -0.0415],
+        [-0.2592, -0.1338, -0.1863,  ..., -0.3347,  0.0886, -0.1109]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.1910e-09,  ...,  2.0955e-09,
+          4.8894e-09,  0.0000e+00],
+        [ 0.0000e+00,  7.9162e-08,  2.4820e-07,  ...,  2.1067e-06,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  1.7695e-08,  ...,  7.3574e-08,
+         -8.1956e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -8.2888e-08, -2.8219e-07,  ..., -2.2389e-06,
+          3.0035e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.1642e-09,
+          4.8894e-09,  0.0000e+00],
+        [ 0.0000e+00,  6.9849e-10,  6.9849e-10,  ...,  1.2107e-08,
+         -8.4285e-08,  0.0000e+00]], device='cuda:0')
+Epoch 456, bias, value: tensor([ 0.0003, -0.0403,  0.0110, -0.0068,  0.0088,  0.0065,  0.0184,  0.0084,
+        -0.0449, -0.0150], device='cuda:0'), grad: tensor([ 1.4435e-08,  3.9116e-06,  5.6112e-08,  8.3819e-08,  2.6752e-07,
+         6.0536e-09,  1.6997e-08, -4.1425e-06,  1.0477e-08, -2.2841e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 455, time 247.40, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4391 re_mapping 0.0026 re_causal 0.0097 /// teacc 99.15 lr 0.00001000
+Epoch 457, weight, value: tensor([[ 0.0211, -0.2028, -0.1992,  ..., -0.3914, -0.1359, -0.1784],
+        [ 0.0881, -0.0987,  0.0445,  ...,  0.0455,  0.1442, -0.0689],
+        [-0.1119,  0.1645, -0.2381,  ...,  0.0592,  0.1037, -0.0417],
+        ...,
+        [-0.0791, -0.1047, -0.0852,  ...,  0.0133, -0.2370,  0.1775],
+        [ 0.0475, -0.0560,  0.1399,  ...,  0.0083, -0.2731, -0.0415],
+        [-0.2592, -0.1338, -0.1864,  ..., -0.3349,  0.0887, -0.1109]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  9.3132e-10,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  4.6566e-08,  ...,  1.2480e-07,
+         -1.4435e-08, -4.6566e-10],
+        [ 0.0000e+00, -9.3132e-10,  6.0536e-09,  ...,  7.9162e-09,
+         -1.8626e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  4.6566e-10, -8.3353e-08,  ..., -1.9791e-07,
+          1.6298e-08,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  8.8476e-09,
+          1.3970e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.6298e-08,  ...,  3.4925e-08,
+         -4.6566e-10,  0.0000e+00]], device='cuda:0')
+Epoch 457, bias, value: tensor([ 0.0003, -0.0404,  0.0110, -0.0068,  0.0087,  0.0065,  0.0184,  0.0085,
+        -0.0449, -0.0149], device='cuda:0'), grad: tensor([ 4.1910e-09,  4.6846e-07,  3.0268e-08,  9.4529e-08,  9.3132e-10,
+        -2.7940e-09, -9.3132e-10, -7.6089e-07,  3.7719e-08,  1.4063e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 456, time 247.29, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4462 re_mapping 0.0026 re_causal 0.0098 /// teacc 99.19 lr 0.00001000
+Epoch 458, weight, value: tensor([[ 0.0211, -0.2029, -0.1992,  ..., -0.3916, -0.1361, -0.1784],
+        [ 0.0881, -0.0987,  0.0444,  ...,  0.0453,  0.1443, -0.0689],
+        [-0.1120,  0.1645, -0.2381,  ...,  0.0593,  0.1037, -0.0417],
+        ...,
+        [-0.0790, -0.1048, -0.0850,  ...,  0.0134, -0.2371,  0.1776],
+        [ 0.0475, -0.0561,  0.1399,  ...,  0.0082, -0.2733, -0.0415],
+        [-0.2592, -0.1339, -0.1866,  ..., -0.3352,  0.0887, -0.1109]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  4.6566e-10,  4.6566e-10,  ..., -2.7940e-09,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -9.3132e-10,  ..., -9.3132e-10,
+          1.8626e-09,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 458, bias, value: tensor([ 0.0003, -0.0405,  0.0110, -0.0069,  0.0087,  0.0065,  0.0185,  0.0086,
+        -0.0450, -0.0149], device='cuda:0'), grad: tensor([ 5.5879e-08,  1.1642e-08,  6.0536e-09,  8.8476e-09,  1.1642e-08,
+         3.3528e-08, -4.0513e-08,  4.7963e-08,  9.4529e-08, -2.2724e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 457, time 247.51, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4454 re_mapping 0.0026 re_causal 0.0095 /// teacc 99.17 lr 0.00001000
+Epoch 459, weight, value: tensor([[ 0.0211, -0.2029, -0.1993,  ..., -0.3917, -0.1361, -0.1784],
+        [ 0.0881, -0.0987,  0.0444,  ...,  0.0453,  0.1444, -0.0689],
+        [-0.1121,  0.1646, -0.2382,  ...,  0.0592,  0.1037, -0.0417],
+        ...,
+        [-0.0790, -0.1048, -0.0851,  ...,  0.0134, -0.2372,  0.1776],
+        [ 0.0475, -0.0561,  0.1399,  ...,  0.0082, -0.2734, -0.0415],
+        [-0.2592, -0.1339, -0.1866,  ..., -0.3353,  0.0887, -0.1109]],
+       device='cuda:0'), grad: tensor([[0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 2.7940e-09,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 9.3132e-10, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 1.2107e-08,  ..., 5.5879e-09, 0.0000e+00,
+         0.0000e+00],
+        ...,
+        [0.0000e+00, 0.0000e+00, 4.6566e-09,  ..., 9.3132e-10, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 9.3132e-10,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00]], device='cuda:0')
+Epoch 459, bias, value: tensor([ 0.0003, -0.0405,  0.0110, -0.0069,  0.0087,  0.0065,  0.0185,  0.0086,
+        -0.0451, -0.0150], device='cuda:0'), grad: tensor([ 4.6566e-09,  4.6566e-09,  2.1420e-08, -3.4459e-08,  0.0000e+00,
+         1.5832e-08, -2.0489e-08,  5.5879e-09,  9.3132e-10,  2.7940e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 458, time 247.28, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4235 re_mapping 0.0026 re_causal 0.0095 /// teacc 99.16 lr 0.00001000
+Epoch 460, weight, value: tensor([[ 0.0211, -0.2029, -0.1994,  ..., -0.3918, -0.1362, -0.1784],
+        [ 0.0881, -0.0987,  0.0445,  ...,  0.0453,  0.1444, -0.0690],
+        [-0.1121,  0.1647, -0.2383,  ...,  0.0593,  0.1038, -0.0417],
+        ...,
+        [-0.0790, -0.1049, -0.0851,  ...,  0.0135, -0.2373,  0.1777],
+        [ 0.0475, -0.0561,  0.1400,  ...,  0.0082, -0.2735, -0.0415],
+        [-0.2592, -0.1340, -0.1867,  ..., -0.3356,  0.0887, -0.1110]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -0.0000e+00,
+          2.0489e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ..., -1.8626e-09,
+         -1.1176e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  1.8626e-09,
+          5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.8626e-09,
+          2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+         -2.0489e-08,  0.0000e+00]], device='cuda:0')
+Epoch 460, bias, value: tensor([ 0.0003, -0.0405,  0.0110, -0.0069,  0.0087,  0.0065,  0.0185,  0.0086,
+        -0.0451, -0.0150], device='cuda:0'), grad: tensor([ 6.4261e-08,  5.5879e-09,  2.7940e-09, -2.7940e-09,  3.2596e-08,
+        -2.0489e-08, -3.6322e-08,  2.7008e-08,  1.5832e-08, -8.2888e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 459, time 246.92, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4179 re_mapping 0.0026 re_causal 0.0097 /// teacc 99.18 lr 0.00001000
+Epoch 461, weight, value: tensor([[ 0.0211, -0.2030, -0.1995,  ..., -0.3919, -0.1363, -0.1784],
+        [ 0.0881, -0.0987,  0.0445,  ...,  0.0453,  0.1444, -0.0691],
+        [-0.1121,  0.1647, -0.2385,  ...,  0.0593,  0.1038, -0.0416],
+        ...,
+        [-0.0790, -0.1049, -0.0851,  ...,  0.0135, -0.2374,  0.1777],
+        [ 0.0475, -0.0562,  0.1400,  ...,  0.0082, -0.2736, -0.0415],
+        [-0.2592, -0.1340, -0.1868,  ..., -0.3358,  0.0888, -0.1110]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -2.7940e-09,  ...,  0.0000e+00,
+         -2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ...,  4.6566e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ..., -8.3819e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 461, bias, value: tensor([ 0.0003, -0.0406,  0.0110, -0.0069,  0.0088,  0.0065,  0.0185,  0.0087,
+        -0.0452, -0.0150], device='cuda:0'), grad: tensor([ 9.3132e-10, -2.7940e-09,  1.5832e-08, -3.7253e-09,  0.0000e+00,
+         2.7940e-09,  0.0000e+00, -1.6764e-08,  4.6566e-09,  1.8626e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 460, time 247.06, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4392 re_mapping 0.0026 re_causal 0.0096 /// teacc 99.17 lr 0.00001000
+Epoch 462, weight, value: tensor([[ 0.0211, -0.2030, -0.1996,  ..., -0.3920, -0.1363, -0.1784],
+        [ 0.0881, -0.0987,  0.0445,  ...,  0.0453,  0.1446, -0.0691],
+        [-0.1121,  0.1647, -0.2386,  ...,  0.0593,  0.1038, -0.0416],
+        ...,
+        [-0.0790, -0.1050, -0.0851,  ...,  0.0135, -0.2375,  0.1777],
+        [ 0.0475, -0.0562,  0.1401,  ...,  0.0083, -0.2737, -0.0415],
+        [-0.2593, -0.1340, -0.1870,  ..., -0.3360,  0.0887, -0.1110]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10, -2.0489e-08,  ..., -0.0000e+00,
+         -1.3039e-08,  0.0000e+00],
+        [ 0.0000e+00, -2.4214e-08,  1.1176e-08,  ..., -4.0978e-08,
+         -1.2107e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  2.7008e-08,  2.7940e-08,  ...,  5.5879e-08,
+          1.4901e-08,  0.0000e+00],
+        [ 0.0000e+00, -5.5879e-09, -2.0489e-08,  ..., -1.1176e-08,
+          5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 462, bias, value: tensor([ 0.0003, -0.0406,  0.0110, -0.0069,  0.0088,  0.0065,  0.0185,  0.0087,
+        -0.0452, -0.0150], device='cuda:0'), grad: tensor([ 8.3819e-09, -5.4017e-08, -7.3574e-08, -3.0734e-08,  9.3132e-10,
+         1.9558e-08,  4.6566e-09,  1.6391e-07, -3.7253e-08,  3.7253e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 461, time 247.09, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4306 re_mapping 0.0026 re_causal 0.0095 /// teacc 99.18 lr 0.00001000
+Epoch 463, weight, value: tensor([[ 0.0211, -0.2030, -0.1997,  ..., -0.3920, -0.1365, -0.1784],
+        [ 0.0881, -0.0986,  0.0445,  ...,  0.0453,  0.1447, -0.0691],
+        [-0.1121,  0.1647, -0.2389,  ...,  0.0592,  0.1037, -0.0416],
+        ...,
+        [-0.0790, -0.1050, -0.0851,  ...,  0.0136, -0.2376,  0.1777],
+        [ 0.0475, -0.0562,  0.1402,  ...,  0.0083, -0.2739, -0.0415],
+        [-0.2593, -0.1341, -0.1873,  ..., -0.3364,  0.0887, -0.1110]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -9.3132e-10,
+          4.6566e-09,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  1.8626e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00, -4.6566e-09,  0.0000e+00,  ..., -1.1176e-08,
+          1.4901e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  2.7940e-09,  1.8626e-09,  ...,  8.3819e-09,
+          8.3819e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+         -9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 463, bias, value: tensor([ 0.0003, -0.0405,  0.0109, -0.0069,  0.0087,  0.0065,  0.0185,  0.0087,
+        -0.0453, -0.0151], device='cuda:0'), grad: tensor([ 1.1176e-08,  6.5193e-09,  5.6811e-08,  1.5832e-08,  1.5832e-08,
+        -1.8626e-09, -1.3784e-07,  1.9558e-08,  1.2107e-08,  5.5879e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 462, time 246.92, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4380 re_mapping 0.0026 re_causal 0.0097 /// teacc 99.15 lr 0.00001000
+Epoch 464, weight, value: tensor([[ 0.0211, -0.2030, -0.1998,  ..., -0.3921, -0.1367, -0.1784],
+        [ 0.0881, -0.0987,  0.0445,  ...,  0.0451,  0.1447, -0.0691],
+        [-0.1121,  0.1649, -0.2389,  ...,  0.0592,  0.1038, -0.0416],
+        ...,
+        [-0.0791, -0.1050, -0.0850,  ...,  0.0137, -0.2377,  0.1777],
+        [ 0.0474, -0.0562,  0.1402,  ...,  0.0083, -0.2741, -0.0415],
+        [-0.2593, -0.1341, -0.1873,  ..., -0.3366,  0.0887, -0.1110]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          1.3039e-08,  0.0000e+00],
+        [ 0.0000e+00, -7.4506e-07, -3.0324e-06,  ..., -4.1611e-06,
+         -3.8631e-06,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-09,  7.4506e-08,  ...,  1.0151e-07,
+          7.7300e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  7.3109e-07,  2.9393e-06,  ...,  4.0308e-06,
+          3.7681e-06,  0.0000e+00],
+        [ 0.0000e+00,  3.7253e-09, -3.7253e-09,  ..., -1.8626e-09,
+          1.3970e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-09,
+         -3.1665e-08,  0.0000e+00]], device='cuda:0')
+Epoch 464, bias, value: tensor([ 0.0002, -0.0407,  0.0110, -0.0069,  0.0088,  0.0065,  0.0186,  0.0088,
+        -0.0454, -0.0152], device='cuda:0'), grad: tensor([ 4.7497e-08, -8.2180e-06,  2.0955e-07,  3.8184e-08,  4.1910e-08,
+         1.4901e-08, -5.2154e-08,  7.9498e-06,  3.1665e-08, -6.9849e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 463, time 246.96, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4226 re_mapping 0.0026 re_causal 0.0095 /// teacc 99.18 lr 0.00001000
+Epoch 465, weight, value: tensor([[ 0.0211, -0.2031, -0.1999,  ..., -0.3922, -0.1368, -0.1784],
+        [ 0.0881, -0.0985,  0.0446,  ...,  0.0453,  0.1449, -0.0691],
+        [-0.1122,  0.1649, -0.2391,  ...,  0.0592,  0.1038, -0.0416],
+        ...,
+        [-0.0790, -0.1053, -0.0851,  ...,  0.0136, -0.2380,  0.1778],
+        [ 0.0475, -0.0562,  0.1403,  ...,  0.0083, -0.2742, -0.0415],
+        [-0.2593, -0.1342, -0.1874,  ..., -0.3367,  0.0887, -0.1110]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -9.3132e-10,  9.3132e-10,  ..., -9.3132e-10,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.5832e-08,  2.7940e-09,  ...,  2.0489e-08,
+          1.4901e-08,  0.0000e+00],
+        [ 0.0000e+00, -2.7008e-08, -1.1176e-08,  ..., -4.0047e-08,
+         -3.0734e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  3.7253e-09,  9.3132e-10,  ...,  4.6566e-09,
+          8.3819e-09,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-09,  9.3132e-10,  ...,  7.4506e-09,
+          5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+         -4.6566e-09,  0.0000e+00]], device='cuda:0')
+Epoch 465, bias, value: tensor([ 0.0002, -0.0406,  0.0109, -0.0069,  0.0088,  0.0065,  0.0186,  0.0088,
+        -0.0454, -0.0152], device='cuda:0'), grad: tensor([-3.7253e-08,  6.7987e-08, -1.1176e-07,  2.6077e-08,  5.5879e-09,
+         0.0000e+00,  2.7940e-09,  4.4703e-08,  2.1420e-08, -1.5832e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 464, time 247.19, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4305 re_mapping 0.0025 re_causal 0.0095 /// teacc 99.16 lr 0.00001000
+Epoch 466, weight, value: tensor([[ 0.0211, -0.2031, -0.2000,  ..., -0.3923, -0.1370, -0.1784],
+        [ 0.0881, -0.0984,  0.0446,  ...,  0.0452,  0.1451, -0.0691],
+        [-0.1122,  0.1649, -0.2394,  ...,  0.0591,  0.1038, -0.0416],
+        ...,
+        [-0.0790, -0.1054, -0.0851,  ...,  0.0137, -0.2381,  0.1778],
+        [ 0.0474, -0.0563,  0.1403,  ...,  0.0083, -0.2743, -0.0415],
+        [-0.2593, -0.1343, -0.1875,  ..., -0.3370,  0.0887, -0.1110]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09,  0.0000e+00,  4.6566e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-0.0000e+00, -9.3132e-10, -1.5832e-08,  ..., -1.1176e-08,
+         -2.0489e-08,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  9.3132e-10,  ...,  6.5193e-09,
+         -0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -1.8626e-09,  1.2107e-08,  ...,  1.8626e-09,
+          1.8626e-08,  0.0000e+00],
+        [-5.5879e-09,  0.0000e+00, -5.5879e-09,  ...,  9.3132e-10,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  1.8626e-09,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 466, bias, value: tensor([ 0.0001, -0.0406,  0.0109, -0.0069,  0.0088,  0.0065,  0.0186,  0.0088,
+        -0.0455, -0.0152], device='cuda:0'), grad: tensor([ 4.5635e-08, -2.0489e-08,  2.4214e-08,  4.6566e-09,  0.0000e+00,
+         4.6566e-09,  4.6566e-09, -3.5390e-08, -5.2154e-08,  3.7253e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 465, time 247.01, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4238 re_mapping 0.0027 re_causal 0.0097 /// teacc 99.16 lr 0.00001000
+Epoch 467, weight, value: tensor([[ 0.0211, -0.2031, -0.2001,  ..., -0.3924, -0.1372, -0.1784],
+        [ 0.0881, -0.0982,  0.0447,  ...,  0.0453,  0.1452, -0.0692],
+        [-0.1122,  0.1649, -0.2395,  ...,  0.0591,  0.1038, -0.0416],
+        ...,
+        [-0.0790, -0.1056, -0.0852,  ...,  0.0136, -0.2383,  0.1779],
+        [ 0.0474, -0.0563,  0.1405,  ...,  0.0084, -0.2744, -0.0415],
+        [-0.2593, -0.1343, -0.1876,  ..., -0.3371,  0.0887, -0.1110]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  3.7253e-09,  ...,  2.0489e-08,
+          9.3132e-09,  0.0000e+00],
+        [ 0.0000e+00, -1.8626e-09,  9.3132e-10,  ...,  2.4214e-08,
+         -2.7940e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ..., -4.7497e-08,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-09,
+          8.3819e-09,  0.0000e+00]], device='cuda:0')
+Epoch 467, bias, value: tensor([ 7.9802e-05, -4.0509e-02,  1.0798e-02, -6.9628e-03,  8.8327e-03,
+         6.5426e-03,  1.8661e-02,  8.7374e-03, -4.5480e-02, -1.5290e-02],
+       device='cuda:0'), grad: tensor([ 9.3132e-09,  1.1642e-07,  1.1735e-07,  4.6566e-09, -3.5390e-08,
+        -4.8429e-08,  2.3283e-08, -2.3749e-07,  1.1176e-08,  4.0047e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 466, time 248.17, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4230 re_mapping 0.0026 re_causal 0.0094 /// teacc 99.17 lr 0.00001000
+Epoch 468, weight, value: tensor([[ 0.0212, -0.2031, -0.2001,  ..., -0.3925, -0.1373, -0.1784],
+        [ 0.0881, -0.0982,  0.0449,  ...,  0.0454,  0.1454, -0.0692],
+        [-0.1122,  0.1650, -0.2397,  ...,  0.0591,  0.1038, -0.0415],
+        ...,
+        [-0.0790, -0.1057, -0.0854,  ...,  0.0135, -0.2385,  0.1779],
+        [ 0.0474, -0.0563,  0.1406,  ...,  0.0084, -0.2745, -0.0415],
+        [-0.2593, -0.1343, -0.1877,  ..., -0.3374,  0.0887, -0.1110]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  1.8626e-09,
+          2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00, -5.5879e-09,  9.3132e-10,  ..., -1.5832e-08,
+         -1.9558e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.8626e-09,  9.3132e-10,  ...,  6.5193e-09,
+          5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  1.8626e-09,
+          2.7940e-09,  0.0000e+00]], device='cuda:0')
+Epoch 468, bias, value: tensor([ 5.8610e-05, -4.0401e-02,  1.0800e-02, -7.0061e-03,  8.8884e-03,
+         6.5748e-03,  1.8683e-02,  8.6304e-03, -4.5473e-02, -1.5358e-02],
+       device='cuda:0'), grad: tensor([ 4.6566e-09,  7.4506e-09, -5.3085e-08,  4.6566e-09,  1.8626e-09,
+         0.0000e+00,  1.8626e-09,  1.6764e-08,  5.5879e-09,  1.3039e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 467, time 247.74, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4198 re_mapping 0.0026 re_causal 0.0096 /// teacc 99.16 lr 0.00001000
+Epoch 469, weight, value: tensor([[ 0.0212, -0.2032, -0.2002,  ..., -0.3927, -0.1375, -0.1784],
+        [ 0.0881, -0.0981,  0.0450,  ...,  0.0455,  0.1455, -0.0693],
+        [-0.1122,  0.1650, -0.2398,  ...,  0.0591,  0.1038, -0.0415],
+        ...,
+        [-0.0790, -0.1058, -0.0854,  ...,  0.0135, -0.2386,  0.1779],
+        [ 0.0474, -0.0563,  0.1406,  ...,  0.0085, -0.2746, -0.0415],
+        [-0.2593, -0.1344, -0.1879,  ..., -0.3377,  0.0887, -0.1110]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.2107e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          1.1176e-08,  0.0000e+00],
+        [ 0.0000e+00, -3.7253e-09,  1.8626e-09,  ..., -3.7253e-09,
+          6.4261e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  2.7940e-09,  1.8626e-09,  ...,  6.5193e-09,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -9.3132e-10,  ..., -9.3132e-10,
+          1.3970e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 469, bias, value: tensor([ 5.1839e-05, -4.0382e-02,  1.0822e-02, -7.0342e-03,  8.8915e-03,
+         6.6138e-03,  1.8662e-02,  8.6278e-03, -4.5544e-02, -1.5432e-02],
+       device='cuda:0'), grad: tensor([ 1.6764e-08,  2.8871e-08,  1.4063e-07, -7.4506e-09,  7.6368e-08,
+         8.3819e-09, -2.9802e-07,  1.7695e-08,  2.9802e-08, -3.7253e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 468, time 247.51, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4395 re_mapping 0.0027 re_causal 0.0098 /// teacc 99.15 lr 0.00001000
+Epoch 470, weight, value: tensor([[ 0.0212, -0.2032, -0.2003,  ..., -0.3927, -0.1376, -0.1784],
+        [ 0.0881, -0.0982,  0.0449,  ...,  0.0454,  0.1456, -0.0693],
+        [-0.1122,  0.1651, -0.2399,  ...,  0.0591,  0.1039, -0.0415],
+        ...,
+        [-0.0790, -0.1058, -0.0854,  ...,  0.0136, -0.2387,  0.1780],
+        [ 0.0474, -0.0564,  0.1407,  ...,  0.0085, -0.2747, -0.0415],
+        [-0.2593, -0.1344, -0.1881,  ..., -0.3379,  0.0887, -0.1110]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.4901e-08,  ..., -5.5879e-09,
+         -1.2107e-08,  0.0000e+00],
+        [ 0.0000e+00, -2.7940e-09,  1.8626e-09,  ..., -5.5879e-09,
+         -1.8626e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.8626e-09,  1.1176e-08,  ...,  9.3132e-09,
+          1.1176e-08,  0.0000e+00],
+        [-0.0000e+00, -9.3132e-10, -1.3039e-08,  ..., -5.5879e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-10,
+         -1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 470, bias, value: tensor([ 3.2656e-05, -4.0442e-02,  1.0837e-02, -7.0698e-03,  8.9484e-03,
+         6.6815e-03,  1.8622e-02,  8.7021e-03, -4.5662e-02, -1.5547e-02],
+       device='cuda:0'), grad: tensor([ 7.4506e-09, -3.0734e-08, -6.5193e-09,  1.4901e-08,  4.6566e-09,
+         1.4901e-08, -7.4506e-09,  3.4459e-08, -3.0734e-08, -2.7940e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 469, time 247.42, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4242 re_mapping 0.0026 re_causal 0.0095 /// teacc 99.18 lr 0.00001000
+Epoch 471, weight, value: tensor([[ 0.0212, -0.2032, -0.2003,  ..., -0.3928, -0.1376, -0.1784],
+        [ 0.0881, -0.0983,  0.0448,  ...,  0.0452,  0.1457, -0.0694],
+        [-0.1122,  0.1652, -0.2400,  ...,  0.0591,  0.1039, -0.0415],
+        ...,
+        [-0.0790, -0.1058, -0.0853,  ...,  0.0138, -0.2389,  0.1782],
+        [ 0.0474, -0.0564,  0.1407,  ...,  0.0085, -0.2748, -0.0415],
+        [-0.2594, -0.1345, -0.1882,  ..., -0.3382,  0.0886, -0.1110]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  9.3132e-10,  ...,  9.3132e-10,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-10,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.4901e-08,  ..., -5.5879e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  1.8626e-09,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 471, bias, value: tensor([ 6.4606e-05, -4.0588e-02,  1.0845e-02, -7.0959e-03,  8.9410e-03,
+         6.6904e-03,  1.8641e-02,  8.8803e-03, -4.5703e-02, -1.5671e-02],
+       device='cuda:0'), grad: tensor([ 0.0000e+00,  9.3132e-09,  7.4506e-09,  5.3085e-08, -1.9558e-08,
+        -5.6811e-08,  1.0245e-08,  4.6566e-09, -2.6077e-08,  1.4901e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 470, time 247.23, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4382 re_mapping 0.0026 re_causal 0.0096 /// teacc 99.18 lr 0.00001000
+Epoch 472, weight, value: tensor([[ 0.0212, -0.2033, -0.2004,  ..., -0.3930, -0.1378, -0.1785],
+        [ 0.0881, -0.0983,  0.0449,  ...,  0.0452,  0.1458, -0.0694],
+        [-0.1123,  0.1653, -0.2401,  ...,  0.0592,  0.1040, -0.0415],
+        ...,
+        [-0.0789, -0.1058, -0.0853,  ...,  0.0138, -0.2390,  0.1782],
+        [ 0.0474, -0.0564,  0.1408,  ...,  0.0085, -0.2750, -0.0415],
+        [-0.2594, -0.1345, -0.1884,  ..., -0.3385,  0.0887, -0.1110]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  5.9605e-08,  ...,  8.3819e-09,
+          3.0734e-08,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-09, -1.0245e-07,  ...,  1.9558e-08,
+         -3.5390e-08,  0.0000e+00],
+        [ 0.0000e+00, -6.5193e-09,  7.4506e-09,  ..., -4.1910e-08,
+         -2.6077e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.8626e-09,  9.3132e-09,  ...,  1.5832e-08,
+          1.2107e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.6322e-08,  ...,  1.0245e-08,
+          1.8626e-08,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-10,
+          8.3819e-09,  0.0000e+00]], device='cuda:0')
+Epoch 472, bias, value: tensor([ 2.1036e-05, -4.0563e-02,  1.0875e-02, -7.1199e-03,  8.9023e-03,
+         6.7147e-03,  1.8649e-02,  8.8817e-03, -4.5842e-02, -1.5727e-02],
+       device='cuda:0'), grad: tensor([ 1.3877e-07, -2.0955e-07, -5.1223e-08, -3.4459e-08, -3.1665e-08,
+        -6.4261e-08,  6.1467e-08,  4.4703e-08,  1.2387e-07,  3.5390e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 471, time 247.25, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4239 re_mapping 0.0025 re_causal 0.0094 /// teacc 99.19 lr 0.00001000
+Epoch 473, weight, value: tensor([[ 0.0212, -0.2033, -0.2005,  ..., -0.3931, -0.1380, -0.1785],
+        [ 0.0881, -0.0983,  0.0450,  ...,  0.0453,  0.1459, -0.0694],
+        [-0.1123,  0.1654, -0.2401,  ...,  0.0592,  0.1040, -0.0415],
+        ...,
+        [-0.0789, -0.1059, -0.0854,  ...,  0.0137, -0.2392,  0.1782],
+        [ 0.0474, -0.0564,  0.1408,  ...,  0.0085, -0.2751, -0.0415],
+        [-0.2594, -0.1346, -0.1885,  ..., -0.3386,  0.0887, -0.1110]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  1.8626e-09,  ...,  7.4506e-09,
+          1.8626e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.0245e-08,  ...,  7.4506e-09,
+          3.7253e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ..., -1.0245e-08,
+          2.7940e-09, -3.7253e-09],
+        [ 9.3132e-10,  0.0000e+00,  2.1420e-08,  ...,  1.1176e-08,
+          9.3132e-10,  0.0000e+00],
+        [ 3.7253e-09,  0.0000e+00,  9.3132e-10,  ...,  5.5879e-09,
+         -9.3132e-10,  9.3132e-10]], device='cuda:0')
+Epoch 473, bias, value: tensor([ 3.3948e-05, -4.0497e-02,  1.0873e-02, -7.1374e-03,  8.8745e-03,
+         6.7238e-03,  1.8661e-02,  8.8219e-03, -4.5903e-02, -1.5720e-02],
+       device='cuda:0'), grad: tensor([-6.5193e-09,  6.5193e-08,  4.0978e-08, -7.1712e-08, -4.0978e-08,
+         1.7695e-08,  1.8626e-09, -8.5682e-08,  5.4948e-08,  3.0734e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 472, time 247.47, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4149 re_mapping 0.0026 re_causal 0.0094 /// teacc 99.17 lr 0.00001000
+Epoch 474, weight, value: tensor([[ 0.0212, -0.2033, -0.2006,  ..., -0.3931, -0.1381, -0.1785],
+        [ 0.0880, -0.0983,  0.0451,  ...,  0.0453,  0.1460, -0.0696],
+        [-0.1123,  0.1654, -0.2403,  ...,  0.0592,  0.1040, -0.0415],
+        ...,
+        [-0.0789, -0.1059, -0.0855,  ...,  0.0137, -0.2393,  0.1784],
+        [ 0.0474, -0.0565,  0.1409,  ...,  0.0084, -0.2752, -0.0415],
+        [-0.2594, -0.1346, -0.1886,  ..., -0.3389,  0.0888, -0.1110]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.1176e-08, -1.8626e-09,  ...,  2.2352e-08,
+          3.5390e-08,  0.0000e+00],
+        [ 0.0000e+00, -1.3970e-08, -9.3132e-10,  ..., -2.4214e-08,
+         -5.4017e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ..., -6.5193e-09,
+          2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  3.7253e-09,
+          9.3132e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 474, bias, value: tensor([ 6.5861e-05, -4.0483e-02,  1.0831e-02, -7.1458e-03,  8.8257e-03,
+         6.7321e-03,  1.8672e-02,  8.8335e-03, -4.5961e-02, -1.5763e-02],
+       device='cuda:0'), grad: tensor([ 3.7253e-09,  6.7055e-08, -7.4506e-08,  4.6566e-09,  1.0245e-08,
+        -7.4506e-09, -9.3132e-09, -2.2352e-08,  1.6764e-08,  8.3819e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 473, time 247.48, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4473 re_mapping 0.0026 re_causal 0.0098 /// teacc 99.17 lr 0.00001000
+Epoch 475, weight, value: tensor([[ 0.0212, -0.2033, -0.2007,  ..., -0.3932, -0.1382, -0.1785],
+        [ 0.0880, -0.0982,  0.0451,  ...,  0.0453,  0.1461, -0.0696],
+        [-0.1123,  0.1655, -0.2404,  ...,  0.0592,  0.1040, -0.0415],
+        ...,
+        [-0.0789, -0.1060, -0.0855,  ...,  0.0137, -0.2394,  0.1784],
+        [ 0.0474, -0.0565,  0.1408,  ...,  0.0084, -0.2753, -0.0415],
+        [-0.2594, -0.1346, -0.1886,  ..., -0.3391,  0.0888, -0.1110]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.7940e-09, -6.5193e-09,  ...,  2.7940e-09,
+         -5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00, -2.6077e-08,  0.0000e+00,  ..., -4.3772e-08,
+         -1.0245e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  2.1420e-08,  6.5193e-09,  ...,  3.8184e-08,
+          1.5832e-08, -0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  3.7253e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 475, bias, value: tensor([ 5.7248e-05, -4.0466e-02,  1.0816e-02, -7.1474e-03,  8.8152e-03,
+         6.7775e-03,  1.8677e-02,  8.8251e-03, -4.6215e-02, -1.5813e-02],
+       device='cuda:0'), grad: tensor([-3.7253e-09,  1.8626e-09, -1.2387e-07,  1.8626e-09, -2.7940e-09,
+         2.7940e-09, -2.7940e-09,  1.1642e-07,  1.2107e-08,  1.8626e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 474, time 247.54, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4202 re_mapping 0.0026 re_causal 0.0096 /// teacc 99.21 lr 0.00001000
+Epoch 476, weight, value: tensor([[ 0.0213, -0.2033, -0.2007,  ..., -0.3932, -0.1383, -0.1785],
+        [ 0.0880, -0.0982,  0.0452,  ...,  0.0454,  0.1462, -0.0697],
+        [-0.1123,  0.1655, -0.2406,  ...,  0.0591,  0.1039, -0.0415],
+        ...,
+        [-0.0789, -0.1061, -0.0855,  ...,  0.0137, -0.2395,  0.1785],
+        [ 0.0474, -0.0565,  0.1409,  ...,  0.0084, -0.2754, -0.0415],
+        [-0.2594, -0.1347, -0.1887,  ..., -0.3393,  0.0888, -0.1111]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -2.7940e-09,  ..., -0.0000e+00,
+         -1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  3.7253e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ..., -3.7253e-09,
+          4.6566e-09, -9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ..., -9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.9558e-08,  0.0000e+00]], device='cuda:0')
+Epoch 476, bias, value: tensor([ 3.3043e-05, -4.0450e-02,  1.0697e-02, -7.1433e-03,  8.8149e-03,
+         6.7709e-03,  1.8719e-02,  8.8479e-03, -4.6248e-02, -1.5884e-02],
+       device='cuda:0'), grad: tensor([ 1.7695e-08,  1.8626e-09,  1.3970e-08,  6.5193e-09, -6.5193e-09,
+        -2.8871e-08,  2.9802e-08, -8.3819e-09,  3.7253e-09, -2.3283e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 475, time 246.71, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4327 re_mapping 0.0026 re_causal 0.0098 /// teacc 99.17 lr 0.00001000
+Epoch 477, weight, value: tensor([[ 0.0213, -0.2034, -0.2008,  ..., -0.3933, -0.1384, -0.1785],
+        [ 0.0880, -0.0981,  0.0453,  ...,  0.0454,  0.1463, -0.0697],
+        [-0.1123,  0.1656, -0.2408,  ...,  0.0591,  0.1040, -0.0415],
+        ...,
+        [-0.0789, -0.1062, -0.0856,  ...,  0.0137, -0.2396,  0.1785],
+        [ 0.0474, -0.0565,  0.1410,  ...,  0.0084, -0.2755, -0.0415],
+        [-0.2594, -0.1347, -0.1888,  ..., -0.3394,  0.0888, -0.1111]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00, -0.0000e+00, -3.7253e-09,  ..., -9.3132e-10,
+         -1.0245e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.8626e-09,
+          9.3132e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ..., -2.7940e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+         -3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 477, bias, value: tensor([ 5.6391e-06, -4.0398e-02,  1.0677e-02, -7.1491e-03,  8.8128e-03,
+         6.7670e-03,  1.8741e-02,  8.8157e-03, -4.6258e-02, -1.5942e-02],
+       device='cuda:0'), grad: tensor([ 6.5193e-09, -9.3132e-09,  2.7008e-08,  1.8626e-09,  1.3970e-08,
+         4.6566e-09, -3.5390e-08, -1.2107e-08,  7.4506e-09, -3.7253e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 476, time 247.46, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4215 re_mapping 0.0025 re_causal 0.0095 /// teacc 99.14 lr 0.00001000
+Epoch 478, weight, value: tensor([[ 0.0213, -0.2034, -0.2008,  ..., -0.3934, -0.1385, -0.1785],
+        [ 0.0880, -0.0982,  0.0453,  ...,  0.0454,  0.1463, -0.0697],
+        [-0.1123,  0.1656, -0.2408,  ...,  0.0591,  0.1040, -0.0415],
+        ...,
+        [-0.0789, -0.1062, -0.0856,  ...,  0.0137, -0.2397,  0.1786],
+        [ 0.0474, -0.0566,  0.1410,  ...,  0.0084, -0.2756, -0.0415],
+        [-0.2595, -0.1347, -0.1888,  ..., -0.3396,  0.0888, -0.1111]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -2.4214e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+         -7.4506e-09,  0.0000e+00],
+        [ 0.0000e+00,  3.7253e-09,  2.7940e-09,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  9.3132e-10,  2.7940e-09,  ...,  2.7940e-09,
+          5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00,  7.4506e-09, -8.3819e-09,  ..., -3.7253e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-09,  9.3132e-10,  ...,  0.0000e+00,
+         -2.7940e-09,  0.0000e+00]], device='cuda:0')
+Epoch 478, bias, value: tensor([-3.3555e-05, -4.0387e-02,  1.0684e-02, -7.1559e-03,  8.7509e-03,
+         6.7723e-03,  1.8780e-02,  8.8098e-03, -4.6307e-02, -1.5952e-02],
+       device='cuda:0'), grad: tensor([-1.4063e-07,  3.7253e-09,  2.7940e-08, -4.6566e-09,  6.5193e-09,
+        -8.3819e-09,  1.3970e-08,  1.4901e-08,  3.8184e-08,  4.3772e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 477, time 248.42, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4203 re_mapping 0.0026 re_causal 0.0095 /// teacc 99.16 lr 0.00001000
+Epoch 479, weight, value: tensor([[ 0.0212, -0.2034, -0.2009,  ..., -0.3936, -0.1388, -0.1785],
+        [ 0.0880, -0.0982,  0.0454,  ...,  0.0454,  0.1464, -0.0697],
+        [-0.1124,  0.1657, -0.2409,  ...,  0.0591,  0.1040, -0.0415],
+        ...,
+        [-0.0789, -0.1063, -0.0857,  ...,  0.0137, -0.2398,  0.1786],
+        [ 0.0474, -0.0566,  0.1410,  ...,  0.0084, -0.2757, -0.0416],
+        [-0.2595, -0.1348, -0.1890,  ..., -0.3399,  0.0888, -0.1111]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  1.3970e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.7789e-09,  ...,  8.8476e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.9558e-08,  ..., -1.7229e-08,
+          1.3970e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+         -4.1910e-09,  0.0000e+00]], device='cuda:0')
+Epoch 479, bias, value: tensor([-0.0001, -0.0404,  0.0107, -0.0072,  0.0088,  0.0068,  0.0188,  0.0088,
+        -0.0464, -0.0161], device='cuda:0'), grad: tensor([ 1.8626e-09,  6.0536e-09,  4.0047e-08,  1.8626e-09,  3.2596e-09,
+         1.8161e-08,  1.0245e-08,  1.2573e-08, -6.7987e-08, -2.0489e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 478, time 248.71, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4185 re_mapping 0.0025 re_causal 0.0094 /// teacc 99.14 lr 0.00001000
+Epoch 480, weight, value: tensor([[ 0.0212, -0.2034, -0.2010,  ..., -0.3936, -0.1389, -0.1786],
+        [ 0.0880, -0.0983,  0.0455,  ...,  0.0455,  0.1466, -0.0698],
+        [-0.1124,  0.1659, -0.2411,  ...,  0.0591,  0.1041, -0.0415],
+        ...,
+        [-0.0789, -0.1063, -0.0858,  ...,  0.0136, -0.2400,  0.1788],
+        [ 0.0474, -0.0566,  0.1411,  ...,  0.0084, -0.2759, -0.0416],
+        [-0.2595, -0.1348, -0.1891,  ..., -0.3401,  0.0888, -0.1111]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  9.3132e-10,
+          1.3970e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -2.3283e-09,  ...,  4.6566e-10,
+         -1.3970e-09,  0.0000e+00],
+        [ 0.0000e+00, -4.6566e-10,  9.3132e-10,  ..., -3.3062e-08,
+         -2.0489e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  2.0955e-08,
+          1.5367e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-09,
+          3.2596e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+         -1.3970e-09,  0.0000e+00]], device='cuda:0')
+Epoch 480, bias, value: tensor([-0.0002, -0.0403,  0.0108, -0.0072,  0.0089,  0.0068,  0.0189,  0.0087,
+        -0.0465, -0.0162], device='cuda:0'), grad: tensor([-7.4506e-09, -4.6566e-10, -5.7742e-08,  1.2573e-08, -2.3283e-09,
+        -3.7253e-09,  5.5879e-09,  3.5856e-08,  1.4435e-08,  3.2596e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 479, time 248.65, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4422 re_mapping 0.0026 re_causal 0.0095 /// teacc 99.15 lr 0.00001000
+Epoch 481, weight, value: tensor([[ 0.0212, -0.2034, -0.2011,  ..., -0.3937, -0.1390, -0.1786],
+        [ 0.0880, -0.0982,  0.0456,  ...,  0.0455,  0.1466, -0.0700],
+        [-0.1124,  0.1660, -0.2411,  ...,  0.0592,  0.1042, -0.0415],
+        ...,
+        [-0.0789, -0.1065, -0.0859,  ...,  0.0136, -0.2401,  0.1790],
+        [ 0.0474, -0.0566,  0.1411,  ...,  0.0083, -0.2760, -0.0417],
+        [-0.2595, -0.1349, -0.1891,  ..., -0.3403,  0.0887, -0.1111]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          3.2596e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  2.3283e-09,
+          3.2596e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  9.3132e-10,
+          1.7695e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ..., -1.3970e-09,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          7.9162e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          4.6566e-10,  0.0000e+00]], device='cuda:0')
+Epoch 481, bias, value: tensor([-0.0002, -0.0403,  0.0108, -0.0072,  0.0090,  0.0068,  0.0189,  0.0087,
+        -0.0466, -0.0164], device='cuda:0'), grad: tensor([ 5.0757e-08,  2.0955e-08,  4.9826e-08,  0.0000e+00, -3.7253e-08,
+         3.4925e-08, -2.2212e-07, -8.8476e-09,  1.1176e-07,  7.9162e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 480, time 248.59, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4238 re_mapping 0.0026 re_causal 0.0094 /// teacc 99.13 lr 0.00001000
+Epoch 482, weight, value: tensor([[ 0.0212, -0.2035, -0.2012,  ..., -0.3939, -0.1392, -0.1786],
+        [ 0.0880, -0.0982,  0.0456,  ...,  0.0455,  0.1467, -0.0702],
+        [-0.1124,  0.1660, -0.2413,  ...,  0.0593,  0.1042, -0.0415],
+        ...,
+        [-0.0789, -0.1065, -0.0859,  ...,  0.0137, -0.2401,  0.1792],
+        [ 0.0474, -0.0566,  0.1411,  ...,  0.0083, -0.2762, -0.0417],
+        [-0.2595, -0.1349, -0.1892,  ..., -0.3406,  0.0886, -0.1112]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  1.3970e-09,  ...,  7.4506e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  4.1444e-08,  2.3283e-09,  ...,  1.6484e-07,
+         -1.3970e-09,  0.0000e+00],
+        [ 0.0000e+00,  2.5146e-08,  1.5832e-08,  ...,  1.0012e-07,
+          1.3970e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -7.0315e-08,  2.3283e-09,  ..., -2.8638e-07,
+          2.7940e-09, -1.3970e-09],
+        [ 0.0000e+00, -5.5879e-09, -3.5856e-08,  ..., -2.0955e-08,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  1.3970e-09,  1.3970e-09,  ...,  6.0536e-09,
+          3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 482, bias, value: tensor([-0.0003, -0.0403,  0.0108, -0.0073,  0.0092,  0.0069,  0.0189,  0.0088,
+        -0.0467, -0.0166], device='cuda:0'), grad: tensor([ 2.9802e-08,  5.4995e-07,  2.5472e-07,  4.7032e-08, -8.8476e-09,
+         2.8871e-08,  9.7789e-09, -9.3272e-07, -8.8010e-08,  1.1362e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 481, time 249.02, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4256 re_mapping 0.0026 re_causal 0.0095 /// teacc 99.12 lr 0.00001000
+Epoch 483, weight, value: tensor([[ 0.0212, -0.2035, -0.2014,  ..., -0.3941, -0.1394, -0.1786],
+        [ 0.0880, -0.0984,  0.0456,  ...,  0.0453,  0.1466, -0.0702],
+        [-0.1124,  0.1663, -0.2413,  ...,  0.0593,  0.1044, -0.0414],
+        ...,
+        [-0.0789, -0.1066, -0.0858,  ...,  0.0139, -0.2402,  0.1792],
+        [ 0.0474, -0.0567,  0.1411,  ...,  0.0082, -0.2765, -0.0417],
+        [-0.2595, -0.1349, -0.1893,  ..., -0.3407,  0.0886, -0.1112]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.3039e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.5879e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.1176e-08,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-09,
+         -9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 483, bias, value: tensor([-0.0004, -0.0405,  0.0109, -0.0073,  0.0092,  0.0069,  0.0190,  0.0090,
+        -0.0470, -0.0166], device='cuda:0'), grad: tensor([ 6.1467e-08,  3.2596e-08,  2.7940e-09,  3.7253e-09,  1.8626e-09,
+         8.3819e-09, -7.3574e-08, -5.2154e-08,  1.2107e-08,  3.7253e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 482, time 249.37, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4217 re_mapping 0.0025 re_causal 0.0094 /// teacc 99.15 lr 0.00001000
+Epoch 484, weight, value: tensor([[ 0.0212, -0.2036, -0.2015,  ..., -0.3942, -0.1397, -0.1786],
+        [ 0.0880, -0.0984,  0.0456,  ...,  0.0452,  0.1467, -0.0704],
+        [-0.1124,  0.1663, -0.2414,  ...,  0.0593,  0.1045, -0.0414],
+        ...,
+        [-0.0789, -0.1066, -0.0858,  ...,  0.0140, -0.2403,  0.1794],
+        [ 0.0474, -0.0567,  0.1411,  ...,  0.0082, -0.2767, -0.0418],
+        [-0.2595, -0.1349, -0.1894,  ..., -0.3410,  0.0886, -0.1112]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -9.3132e-10,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -9.3132e-10,  ..., -0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 484, bias, value: tensor([-0.0006, -0.0406,  0.0109, -0.0073,  0.0092,  0.0069,  0.0191,  0.0091,
+        -0.0471, -0.0167], device='cuda:0'), grad: tensor([-2.7940e-09,  6.5193e-09,  3.7253e-09,  0.0000e+00, -2.7940e-09,
+        -9.3132e-10, -1.9558e-08,  3.7253e-09,  7.4506e-09,  3.7253e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 483, time 248.82, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4317 re_mapping 0.0025 re_causal 0.0095 /// teacc 99.18 lr 0.00001000
+Epoch 485, weight, value: tensor([[ 0.0212, -0.2036, -0.2016,  ..., -0.3943, -0.1398, -0.1786],
+        [ 0.0880, -0.0986,  0.0456,  ...,  0.0451,  0.1467, -0.0704],
+        [-0.1124,  0.1665, -0.2415,  ...,  0.0593,  0.1046, -0.0414],
+        ...,
+        [-0.0789, -0.1066, -0.0858,  ...,  0.0141, -0.2404,  0.1795],
+        [ 0.0473, -0.0567,  0.1412,  ...,  0.0082, -0.2768, -0.0418],
+        [-0.2595, -0.1350, -0.1895,  ..., -0.3411,  0.0886, -0.1112]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.5879e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  2.4214e-08,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.0245e-08,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ..., -4.9360e-08,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -8.6613e-08,  ..., -4.9360e-08,
+         -1.4901e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.5879e-09,
+         -4.6566e-09,  0.0000e+00]], device='cuda:0')
+Epoch 485, bias, value: tensor([-0.0007, -0.0407,  0.0110, -0.0074,  0.0092,  0.0069,  0.0191,  0.0092,
+        -0.0472, -0.0168], device='cuda:0'), grad: tensor([ 5.4017e-08,  8.5682e-08,  3.1665e-08,  4.6566e-08,  1.8626e-08,
+        -2.7940e-09,  9.1270e-08, -1.1269e-07, -8.6613e-08, -1.2200e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 484, time 248.67, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4355 re_mapping 0.0025 re_causal 0.0095 /// teacc 99.15 lr 0.00001000
+Epoch 486, weight, value: tensor([[ 0.0213, -0.2036, -0.2017,  ..., -0.3943, -0.1399, -0.1786],
+        [ 0.0880, -0.0985,  0.0456,  ...,  0.0451,  0.1468, -0.0704],
+        [-0.1124,  0.1666, -0.2416,  ...,  0.0593,  0.1047, -0.0414],
+        ...,
+        [-0.0790, -0.1067, -0.0858,  ...,  0.0142, -0.2405,  0.1795],
+        [ 0.0473, -0.0567,  0.1413,  ...,  0.0082, -0.2770, -0.0418],
+        [-0.2595, -0.1350, -0.1895,  ..., -0.3413,  0.0886, -0.1112]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  3.0734e-08,  3.7253e-09,  ...,  1.1828e-07,
+          5.1223e-08,  0.0000e+00],
+        [ 0.0000e+00, -3.6322e-08,  9.3132e-10,  ..., -8.9407e-08,
+         -6.1467e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  4.6566e-09, -3.7253e-09,  ..., -2.9802e-08,
+          1.3039e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -2.7940e-09,  ..., -1.8626e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+         -1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 486, bias, value: tensor([-0.0007, -0.0408,  0.0110, -0.0074,  0.0092,  0.0070,  0.0192,  0.0092,
+        -0.0473, -0.0168], device='cuda:0'), grad: tensor([-1.3597e-07,  1.7975e-07, -8.2888e-08,  8.3819e-09,  1.8626e-09,
+         1.6764e-08,  3.1665e-08, -4.6566e-08,  1.0245e-08,  2.3283e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 485, time 248.89, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4379 re_mapping 0.0025 re_causal 0.0096 /// teacc 99.17 lr 0.00001000
+Epoch 487, weight, value: tensor([[ 0.0212, -0.2037, -0.2017,  ..., -0.3944, -0.1401, -0.1786],
+        [ 0.0880, -0.0986,  0.0457,  ...,  0.0451,  0.1469, -0.0704],
+        [-0.1125,  0.1667, -0.2417,  ...,  0.0594,  0.1047, -0.0414],
+        ...,
+        [-0.0789, -0.1067, -0.0859,  ...,  0.0141, -0.2408,  0.1795],
+        [ 0.0473, -0.0567,  0.1414,  ...,  0.0083, -0.2770, -0.0418],
+        [-0.2595, -0.1351, -0.1896,  ..., -0.3414,  0.0886, -0.1112]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.2107e-08,  0.0000e+00]], device='cuda:0')
+Epoch 487, bias, value: tensor([-0.0007, -0.0407,  0.0110, -0.0074,  0.0093,  0.0070,  0.0192,  0.0092,
+        -0.0473, -0.0169], device='cuda:0'), grad: tensor([-1.8626e-09,  6.5193e-09,  9.3132e-10,  2.7940e-09,  2.3283e-08,
+        -3.7253e-09,  0.0000e+00,  3.7253e-09,  9.3132e-10, -2.5146e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 486, time 248.67, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4054 re_mapping 0.0025 re_causal 0.0091 /// teacc 99.16 lr 0.00001000
+Epoch 488, weight, value: tensor([[ 0.0212, -0.2037, -0.2018,  ..., -0.3945, -0.1403, -0.1787],
+        [ 0.0880, -0.0986,  0.0458,  ...,  0.0452,  0.1470, -0.0704],
+        [-0.1125,  0.1668, -0.2418,  ...,  0.0594,  0.1047, -0.0414],
+        ...,
+        [-0.0789, -0.1069, -0.0860,  ...,  0.0141, -0.2409,  0.1795],
+        [ 0.0473, -0.0567,  0.1415,  ...,  0.0084, -0.2772, -0.0418],
+        [-0.2595, -0.1351, -0.1897,  ..., -0.3415,  0.0887, -0.1112]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.6764e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00, -1.8626e-09,  3.7253e-09,  ..., -0.0000e+00,
+         -1.8626e-09, -0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -0.0000e+00,  ...,  1.8626e-09,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 488, bias, value: tensor([-0.0008, -0.0407,  0.0110, -0.0074,  0.0094,  0.0070,  0.0193,  0.0091,
+        -0.0473, -0.0169], device='cuda:0'), grad: tensor([ 6.3330e-08,  7.4506e-09,  5.5879e-09, -4.6566e-08,  1.1176e-08,
+         3.7253e-08, -1.0803e-07,  0.0000e+00,  9.3132e-09,  1.1176e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 487, time 248.77, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4316 re_mapping 0.0025 re_causal 0.0093 /// teacc 99.18 lr 0.00001000
+Epoch 489, weight, value: tensor([[ 0.0213, -0.2037, -0.2019,  ..., -0.3946, -0.1405, -0.1787],
+        [ 0.0880, -0.0986,  0.0459,  ...,  0.0452,  0.1471, -0.0705],
+        [-0.1125,  0.1668, -0.2418,  ...,  0.0594,  0.1048, -0.0414],
+        ...,
+        [-0.0789, -0.1070, -0.0860,  ...,  0.0141, -0.2411,  0.1796],
+        [ 0.0473, -0.0567,  0.1416,  ...,  0.0084, -0.2773, -0.0418],
+        [-0.2595, -0.1351, -0.1898,  ..., -0.3416,  0.0888, -0.1112]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -5.5879e-09,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  7.4506e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00, -1.6764e-08,  0.0000e+00,  ..., -4.2841e-08,
+         -3.9116e-08, -1.8626e-09],
+        ...,
+        [ 0.0000e+00,  1.4901e-08,  0.0000e+00,  ...,  2.9802e-08,
+          3.5390e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+          1.8626e-09,  1.8626e-09],
+        [ 0.0000e+00,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 489, bias, value: tensor([-0.0008, -0.0407,  0.0110, -0.0074,  0.0093,  0.0070,  0.0194,  0.0091,
+        -0.0474, -0.0169], device='cuda:0'), grad: tensor([-2.2352e-08,  2.4214e-08, -1.2293e-07,  4.2841e-08,  0.0000e+00,
+        -7.2643e-08,  1.3039e-08,  9.1270e-08,  1.3039e-08,  1.6764e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 488, time 249.25, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.3846 re_mapping 0.0025 re_causal 0.0089 /// teacc 99.18 lr 0.00001000
+Epoch 490, weight, value: tensor([[ 0.0213, -0.2037, -0.2020,  ..., -0.3946, -0.1406, -0.1787],
+        [ 0.0880, -0.0987,  0.0461,  ...,  0.0453,  0.1472, -0.0705],
+        [-0.1125,  0.1671, -0.2420,  ...,  0.0595,  0.1050, -0.0414],
+        ...,
+        [-0.0789, -0.1071, -0.0863,  ...,  0.0139, -0.2413,  0.1796],
+        [ 0.0473, -0.0567,  0.1417,  ...,  0.0085, -0.2775, -0.0418],
+        [-0.2596, -0.1352, -0.1899,  ..., -0.3417,  0.0888, -0.1112]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.8626e-09,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  3.5390e-08,  1.0245e-07,  ...,  2.5705e-07,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -1.8626e-09,  3.7253e-09,  ...,  1.6764e-08,
+         -2.2352e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -3.7253e-08, -1.1548e-07,  ..., -2.9430e-07,
+          5.5879e-09,  0.0000e+00],
+        [-1.8626e-09,  1.8626e-09, -3.7253e-09,  ...,  1.8626e-09,
+          1.1176e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.8626e-09,
+          3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 490, bias, value: tensor([-0.0008, -0.0406,  0.0112, -0.0075,  0.0094,  0.0070,  0.0194,  0.0090,
+        -0.0474, -0.0170], device='cuda:0'), grad: tensor([ 1.4901e-08,  7.2829e-07, -3.5390e-08,  5.0291e-08,  0.0000e+00,
+         7.4506e-09, -3.7253e-09, -8.2329e-07,  4.0978e-08,  2.0489e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 489, time 249.33, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4278 re_mapping 0.0025 re_causal 0.0092 /// teacc 99.15 lr 0.00001000
+Epoch 491, weight, value: tensor([[ 0.0213, -0.2037, -0.2021,  ..., -0.3947, -0.1408, -0.1787],
+        [ 0.0880, -0.0986,  0.0462,  ...,  0.0453,  0.1473, -0.0705],
+        [-0.1125,  0.1671, -0.2423,  ...,  0.0594,  0.1050, -0.0414],
+        ...,
+        [-0.0789, -0.1073, -0.0863,  ...,  0.0139, -0.2415,  0.1797],
+        [ 0.0473, -0.0567,  0.1418,  ...,  0.0085, -0.2776, -0.0418],
+        [-0.2596, -0.1352, -0.1900,  ..., -0.3419,  0.0889, -0.1112]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.1176e-08,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  3.7253e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  3.7253e-09,  1.3039e-08,  ..., -9.3132e-09,
+          1.8626e-09, -1.8626e-09],
+        [ 0.0000e+00, -5.5879e-09, -1.4901e-08,  ..., -5.5879e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 491, bias, value: tensor([-0.0008, -0.0406,  0.0112, -0.0075,  0.0093,  0.0070,  0.0195,  0.0090,
+        -0.0474, -0.0170], device='cuda:0'), grad: tensor([ 1.1176e-08,  4.2841e-08,  1.8626e-08, -1.1176e-08, -2.0489e-08,
+         5.5879e-09,  3.7253e-09, -7.4506e-09, -2.6077e-08, -1.6764e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 490, time 248.16, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4283 re_mapping 0.0025 re_causal 0.0096 /// teacc 99.13 lr 0.00001000
+Epoch 492, weight, value: tensor([[ 0.0214, -0.2037, -0.2022,  ..., -0.3947, -0.1410, -0.1787],
+        [ 0.0880, -0.0986,  0.0463,  ...,  0.0454,  0.1474, -0.0705],
+        [-0.1126,  0.1671, -0.2425,  ...,  0.0593,  0.1050, -0.0414],
+        ...,
+        [-0.0788, -0.1074, -0.0864,  ...,  0.0139, -0.2416,  0.1797],
+        [ 0.0473, -0.0567,  0.1419,  ...,  0.0086, -0.2776, -0.0417],
+        [-0.2596, -0.1352, -0.1902,  ..., -0.3421,  0.0890, -0.1112]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ..., -0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00, -0.0000e+00,  0.0000e+00,  ..., -1.8626e-09,
+         -0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ...,  0.0000e+00,
+         -3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 492, bias, value: tensor([-0.0009, -0.0405,  0.0111, -0.0075,  0.0094,  0.0070,  0.0195,  0.0089,
+        -0.0474, -0.0170], device='cuda:0'), grad: tensor([ 0.0000e+00,  7.4506e-09, -1.8626e-09,  2.0489e-08, -2.4214e-08,
+         1.8626e-09,  1.3039e-08,  3.7253e-09,  1.8626e-09, -2.7940e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 491, time 247.40, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4269 re_mapping 0.0025 re_causal 0.0094 /// teacc 99.15 lr 0.00001000
+Epoch 493, weight, value: tensor([[ 0.0214, -0.2037, -0.2023,  ..., -0.3948, -0.1411, -0.1787],
+        [ 0.0880, -0.0986,  0.0464,  ...,  0.0454,  0.1476, -0.0705],
+        [-0.1126,  0.1672, -0.2426,  ...,  0.0592,  0.1050, -0.0414],
+        ...,
+        [-0.0789, -0.1075, -0.0865,  ...,  0.0139, -0.2418,  0.1797],
+        [ 0.0473, -0.0567,  0.1421,  ...,  0.0087, -0.2778, -0.0417],
+        [-0.2596, -0.1353, -0.1904,  ..., -0.3423,  0.0889, -0.1112]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ...,  0.0000e+00,
+         -1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -0.0000e+00,  1.8626e-09,  ..., -1.8626e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -5.5879e-09,  0.0000e+00]], device='cuda:0')
+Epoch 493, bias, value: tensor([-0.0009, -0.0404,  0.0110, -0.0075,  0.0095,  0.0070,  0.0195,  0.0089,
+        -0.0474, -0.0172], device='cuda:0'), grad: tensor([ 2.4214e-08,  1.8626e-09,  0.0000e+00, -3.7253e-09,  1.8626e-08,
+         5.5879e-09, -3.7253e-08,  0.0000e+00,  5.5879e-09, -1.3039e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 492, time 247.51, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4308 re_mapping 0.0025 re_causal 0.0093 /// teacc 99.13 lr 0.00001000
+Epoch 494, weight, value: tensor([[ 0.0214, -0.2037, -0.2024,  ..., -0.3948, -0.1412, -0.1787],
+        [ 0.0880, -0.0985,  0.0466,  ...,  0.0455,  0.1479, -0.0706],
+        [-0.1127,  0.1673, -0.2427,  ...,  0.0593,  0.1050, -0.0414],
+        ...,
+        [-0.0788, -0.1077, -0.0866,  ...,  0.0138, -0.2421,  0.1798],
+        [ 0.0472, -0.0567,  0.1421,  ...,  0.0087, -0.2779, -0.0418],
+        [-0.2596, -0.1353, -0.1905,  ..., -0.3425,  0.0889, -0.1112]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -0.0000e+00,
+          2.0489e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.5460e-07,  ..., -7.6368e-08,
+         -1.8254e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.4901e-08,  ...,  7.4506e-09,
+          1.6764e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.2852e-07,  ...,  6.1467e-08,
+          1.5087e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+         -5.5879e-09,  0.0000e+00]], device='cuda:0')
+Epoch 494, bias, value: tensor([-0.0008, -0.0403,  0.0111, -0.0076,  0.0095,  0.0070,  0.0195,  0.0088,
+        -0.0475, -0.0173], device='cuda:0'), grad: tensor([ 8.0094e-08, -4.0419e-07,  4.2841e-08,  1.2666e-07,  2.2352e-08,
+        -9.6858e-08, -1.1548e-07,  3.2969e-07,  1.3039e-08,  7.4506e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 493, time 247.37, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4121 re_mapping 0.0025 re_causal 0.0094 /// teacc 99.17 lr 0.00001000
+Epoch 495, weight, value: tensor([[ 0.0214, -0.2037, -0.2024,  ..., -0.3949, -0.1413, -0.1787],
+        [ 0.0880, -0.0985,  0.0467,  ...,  0.0455,  0.1480, -0.0707],
+        [-0.1127,  0.1674, -0.2428,  ...,  0.0594,  0.1050, -0.0414],
+        ...,
+        [-0.0788, -0.1079, -0.0867,  ...,  0.0138, -0.2423,  0.1799],
+        [ 0.0472, -0.0567,  0.1422,  ...,  0.0088, -0.2780, -0.0418],
+        [-0.2597, -0.1354, -0.1907,  ..., -0.3426,  0.0890, -0.1112]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 495, bias, value: tensor([-0.0008, -0.0403,  0.0111, -0.0076,  0.0094,  0.0070,  0.0196,  0.0088,
+        -0.0476, -0.0173], device='cuda:0'), grad: tensor([ 1.8626e-09,  1.8626e-09,  1.8626e-09,  7.4506e-09,  0.0000e+00,
+        -3.7253e-09, -9.3132e-09, -7.4506e-09,  0.0000e+00,  7.4506e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 494, time 247.07, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4444 re_mapping 0.0025 re_causal 0.0095 /// teacc 99.18 lr 0.00001000
+Epoch 496, weight, value: tensor([[ 0.0214, -0.2037, -0.2025,  ..., -0.3950, -0.1414, -0.1787],
+        [ 0.0880, -0.0985,  0.0468,  ...,  0.0455,  0.1481, -0.0707],
+        [-0.1127,  0.1675, -0.2431,  ...,  0.0593,  0.1051, -0.0414],
+        ...,
+        [-0.0788, -0.1080, -0.0867,  ...,  0.0138, -0.2425,  0.1800],
+        [ 0.0472, -0.0568,  0.1422,  ...,  0.0087, -0.2781, -0.0418],
+        [-0.2597, -0.1354, -0.1908,  ..., -0.3427,  0.0892, -0.1112]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  1.8626e-09,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-08,  1.8626e-09,  ...,  6.5193e-08,
+          1.1176e-08,  0.0000e+00],
+        [ 0.0000e+00, -6.3330e-08,  0.0000e+00,  ..., -3.1665e-08,
+         -5.9605e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  2.4214e-08, -1.8626e-09,  ..., -4.6566e-08,
+          3.1665e-08,  0.0000e+00],
+        [ 0.0000e+00,  3.7253e-09,  0.0000e+00,  ...,  1.8626e-09,
+          5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 496, bias, value: tensor([-0.0008, -0.0403,  0.0112, -0.0076,  0.0093,  0.0070,  0.0196,  0.0088,
+        -0.0476, -0.0173], device='cuda:0'), grad: tensor([ 1.1176e-08,  2.0117e-07, -1.4901e-07,  6.5193e-08,  1.3039e-08,
+        -3.5390e-08, -3.5390e-08, -1.0617e-07,  3.1665e-08,  9.3132e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 495, time 247.41, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.3879 re_mapping 0.0024 re_causal 0.0089 /// teacc 99.14 lr 0.00001000
+Epoch 497, weight, value: tensor([[ 0.0214, -0.2038, -0.2026,  ..., -0.3951, -0.1417, -0.1787],
+        [ 0.0880, -0.0985,  0.0468,  ...,  0.0454,  0.1481, -0.0708],
+        [-0.1127,  0.1676, -0.2433,  ...,  0.0593,  0.1052, -0.0413],
+        ...,
+        [-0.0788, -0.1082, -0.0867,  ...,  0.0139, -0.2426,  0.1801],
+        [ 0.0472, -0.0568,  0.1423,  ...,  0.0087, -0.2783, -0.0418],
+        [-0.2597, -0.1355, -0.1909,  ..., -0.3429,  0.0892, -0.1112]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-09,  0.0000e+00],
+        [ 0.0000e+00, -1.8626e-09, -3.7253e-09,  ..., -1.8626e-09,
+         -1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.8626e-09,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.8626e-09, -0.0000e+00]], device='cuda:0')
+Epoch 497, bias, value: tensor([-0.0009, -0.0404,  0.0112, -0.0076,  0.0093,  0.0070,  0.0198,  0.0089,
+        -0.0477, -0.0174], device='cuda:0'), grad: tensor([ 3.3528e-08, -5.5879e-09,  2.4214e-08,  0.0000e+00,  5.5879e-09,
+         0.0000e+00, -6.5193e-08,  7.4506e-09, -3.7253e-09, -1.8626e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 496, time 247.41, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4189 re_mapping 0.0024 re_causal 0.0093 /// teacc 99.17 lr 0.00001000
+Epoch 498, weight, value: tensor([[ 0.0214, -0.2038, -0.2027,  ..., -0.3951, -0.1418, -0.1787],
+        [ 0.0879, -0.0985,  0.0469,  ...,  0.0454,  0.1482, -0.0708],
+        [-0.1127,  0.1677, -0.2433,  ...,  0.0592,  0.1052, -0.0413],
+        ...,
+        [-0.0788, -0.1081, -0.0868,  ...,  0.0140, -0.2427,  0.1801],
+        [ 0.0472, -0.0568,  0.1423,  ...,  0.0087, -0.2785, -0.0417],
+        [-0.2597, -0.1355, -0.1909,  ..., -0.3430,  0.0892, -0.1112]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  3.7253e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ..., -1.8626e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -3.7253e-09,  ..., -1.8626e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00]], device='cuda:0')
+Epoch 498, bias, value: tensor([-0.0009, -0.0404,  0.0112, -0.0076,  0.0094,  0.0070,  0.0199,  0.0089,
+        -0.0479, -0.0175], device='cuda:0'), grad: tensor([ 1.8626e-09,  2.0489e-08,  1.1176e-08,  1.1921e-07, -5.2154e-08,
+        -1.6205e-07,  2.6077e-08, -3.7253e-09,  2.0489e-08,  2.2352e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 497, time 247.19, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4471 re_mapping 0.0025 re_causal 0.0094 /// teacc 99.18 lr 0.00001000
+Epoch 499, weight, value: tensor([[ 0.0214, -0.2038, -0.2027,  ..., -0.3952, -0.1419, -0.1787],
+        [ 0.0879, -0.0985,  0.0469,  ...,  0.0453,  0.1482, -0.0708],
+        [-0.1127,  0.1678, -0.2435,  ...,  0.0592,  0.1054, -0.0413],
+        ...,
+        [-0.0788, -0.1082, -0.0868,  ...,  0.0141, -0.2428,  0.1802],
+        [ 0.0472, -0.0568,  0.1425,  ...,  0.0088, -0.2785, -0.0417],
+        [-0.2597, -0.1355, -0.1910,  ..., -0.3432,  0.0893, -0.1112]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00, -0.0000e+00, -7.4506e-09,  ..., -3.7253e-09,
+         -5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  1.8626e-09,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.8626e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -2.3469e-07,  ..., -4.0978e-08,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 499, bias, value: tensor([-0.0008, -0.0405,  0.0112, -0.0076,  0.0094,  0.0071,  0.0199,  0.0090,
+        -0.0479, -0.0175], device='cuda:0'), grad: tensor([ 9.3132e-09, -1.8626e-08,  7.4506e-09,  1.1548e-07,  1.8626e-09,
+         5.5879e-09,  1.6950e-07,  5.5879e-09, -2.9244e-07,  1.8626e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 498, time 247.22, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4335 re_mapping 0.0024 re_causal 0.0093 /// teacc 99.14 lr 0.00001000
+Epoch 500, weight, value: tensor([[ 0.0214, -0.2038, -0.2028,  ..., -0.3952, -0.1420, -0.1787],
+        [ 0.0879, -0.0986,  0.0469,  ...,  0.0453,  0.1482, -0.0708],
+        [-0.1128,  0.1679, -0.2436,  ...,  0.0592,  0.1054, -0.0413],
+        ...,
+        [-0.0788, -0.1082, -0.0868,  ...,  0.0141, -0.2429,  0.1802],
+        [ 0.0472, -0.0568,  0.1426,  ...,  0.0089, -0.2786, -0.0417],
+        [-0.2597, -0.1355, -0.1911,  ..., -0.3433,  0.0893, -0.1112]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.9802e-08,  0.0000e+00],
+        [ 0.0000e+00, -1.1176e-08, -3.9116e-08,  ..., -1.6764e-08,
+         -4.2841e-08,  0.0000e+00],
+        [ 0.0000e+00, -3.7253e-08,  2.4214e-08,  ..., -2.6077e-08,
+         -1.3039e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  4.4703e-08,  1.3039e-08,  ...,  4.2841e-08,
+          5.4017e-08, -0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 500, bias, value: tensor([-0.0009, -0.0406,  0.0112, -0.0077,  0.0093,  0.0072,  0.0199,  0.0090,
+        -0.0480, -0.0176], device='cuda:0'), grad: tensor([ 1.7323e-07, -7.8231e-08, -3.1665e-08,  5.0291e-08, -7.4506e-09,
+        -2.3097e-07, -1.7509e-07,  2.0117e-07,  2.7940e-08,  7.2643e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 499, time 247.44, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4273 re_mapping 0.0024 re_causal 0.0091 /// teacc 99.16 lr 0.00001000
+---------------------saving last model at epoch 499----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_adam', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_adam/14factor_best.csv', 'channels': 3, 'factor_num': 14, 'stride': 3, 'epoch': 'best', 'eval_mapping': True}
+loading weight of best
+randm: False
+stride: 3
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+Using downloaded and verified file: /home/yuqian_fu/.pytorch/SVHN/test_32x32.mat
+                         mnist   mnist_FA  ...   usps_FA        Avg
+ShearX               99.040001  98.930000  ...  79.62133  68.275971
+ShearY               98.769997  98.699997  ...  79.62133  64.653491
+AutoContrast         99.199997  99.099998  ...  79.62133  59.755771
+Invert               98.860001  98.369995  ...  79.62133  64.192465
+Equalize             98.439995  98.229996  ...  79.62133  70.835657
+Solarize             98.239998  97.639999  ...  79.62133  59.579589
+SolarizeAdd          98.400002  97.779999  ...  79.62133  72.674644
+Posterize            98.909996  99.029999  ...  79.62133  72.055723
+Contrast             99.159996  99.180000  ...  79.62133  66.427597
+Color                99.119995  99.220001  ...  79.62133  59.084085
+Brightness           99.119995  99.229996  ...  79.62133  65.520764
+Sharpness            99.099998  99.150002  ...  79.62133  69.842453
+NoiseSalt            99.099998  99.169998  ...  79.62133  53.793901
+NoiseGaussian        99.080002  99.199997  ...  79.62133  55.708333
+w/o do (original x)  99.220000   0.000000  ...   0.00000  73.114814
+
+[15 rows x 11 columns]
+    mnist       svhn    mnist_m   syndigit       usps        Avg
+do  99.13  69.283958  78.813465  77.546321  83.507723  77.287867
diff --git a/Meta-causal/code-withStyleAttack/66560.error b/Meta-causal/code-withStyleAttack/66560.error
new file mode 100644
index 0000000000000000000000000000000000000000..57a075d0c4f7d6342343977072b7d558fa37ce15
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/66560.error
@@ -0,0 +1 @@
+run_my_joint_test.sh: line 35: oaug: command not found
diff --git a/Meta-causal/code-withStyleAttack/66560.log b/Meta-causal/code-withStyleAttack/66560.log
new file mode 100644
index 0000000000000000000000000000000000000000..d05ecaf7c3bed6dc29bcf39b1d6419d4d5ac8bd1
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/66560.log
@@ -0,0 +1,14047 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 500, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps2', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 3
+--------------------------CA_multiple--------------------------
+---------------------------14 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+Epoch 1, weight, value: tensor([[ 0.0094, -0.0300, -0.0202,  ..., -0.0133,  0.0254,  0.0255],
+        [-0.0269, -0.0168,  0.0046,  ..., -0.0113, -0.0025, -0.0234],
+        [ 0.0059, -0.0206,  0.0299,  ..., -0.0036,  0.0285, -0.0219],
+        ...,
+        [-0.0253, -0.0004,  0.0165,  ...,  0.0212,  0.0120, -0.0137],
+        [-0.0243,  0.0281, -0.0075,  ...,  0.0071, -0.0178, -0.0153],
+        [ 0.0121,  0.0164, -0.0064,  ...,  0.0142, -0.0213,  0.0214]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([-0.0146, -0.0232, -0.0161, -0.0271, -0.0302, -0.0007,  0.0295, -0.0105,
+         0.0252,  0.0037], device='cuda:0'), grad: None
+100
+0.0001
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 282.82, cls_loss 1.3336 cls_loss_mapping 1.8518 cls_loss_causal 2.2299 re_mapping 0.1420 re_causal 0.1531 /// teacc 87.82 lr 0.00010000
+Epoch 2, weight, value: tensor([[ 0.0055, -0.0290, -0.0202,  ..., -0.0107,  0.0303,  0.0314],
+        [-0.0261, -0.0221,  0.0046,  ..., -0.0192, -0.0076, -0.0313],
+        [ 0.0041, -0.0206,  0.0299,  ..., -0.0090,  0.0275, -0.0207],
+        ...,
+        [-0.0252,  0.0030,  0.0165,  ...,  0.0254,  0.0123, -0.0181],
+        [-0.0266,  0.0263, -0.0075,  ...,  0.0078, -0.0190, -0.0177],
+        [ 0.0128,  0.0130, -0.0064,  ...,  0.0154, -0.0234,  0.0160]],
+       device='cuda:0'), grad: tensor([[ 4.3144e-03,  1.3351e-03,  0.0000e+00,  ...,  4.6462e-05,
+         -5.3711e-03, -9.2926e-03],
+        [ 7.6592e-05,  5.3520e-03,  0.0000e+00,  ...,  7.4463e-03,
+          4.2248e-04,  8.9073e-04],
+        [-2.7275e-03, -1.2817e-02,  0.0000e+00,  ..., -9.4910e-03,
+         -9.2411e-04,  1.5173e-03],
+        ...,
+        [ 1.1215e-02,  1.5182e-02,  0.0000e+00,  ...,  5.3375e-02,
+          3.4084e-03,  3.1624e-03],
+        [ 8.5831e-03,  1.8021e-02,  0.0000e+00,  ...,  5.5618e-03,
+         -1.3704e-03,  9.5901e-03],
+        [-1.7303e-02, -7.7362e-03,  0.0000e+00,  ..., -8.3313e-02,
+          3.7365e-03,  2.5520e-03]], device='cuda:0')
+Epoch 2, bias, value: tensor([-0.0159, -0.0208, -0.0162, -0.0281, -0.0302, -0.0004,  0.0285, -0.0104,
+         0.0253,  0.0029], device='cuda:0'), grad: tensor([ 0.0027, -0.0289, -0.0156, -0.0481,  0.0213,  0.0228, -0.0087,  0.0459,
+         0.0480, -0.0393], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 281.67, cls_loss 0.4012 cls_loss_mapping 0.7534 cls_loss_causal 1.9334 re_mapping 0.2077 re_causal 0.2738 /// teacc 93.25 lr 0.00010000
+Epoch 3, weight, value: tensor([[ 0.0022, -0.0282, -0.0202,  ..., -0.0099,  0.0362,  0.0349],
+        [-0.0259, -0.0246,  0.0046,  ..., -0.0213, -0.0107, -0.0325],
+        [ 0.0010, -0.0205,  0.0299,  ..., -0.0113,  0.0292, -0.0209],
+        ...,
+        [-0.0242,  0.0055,  0.0165,  ...,  0.0269,  0.0072, -0.0198],
+        [-0.0320,  0.0258, -0.0075,  ...,  0.0082, -0.0207, -0.0205],
+        [ 0.0134,  0.0127, -0.0064,  ...,  0.0164, -0.0222,  0.0148]],
+       device='cuda:0'), grad: tensor([[ 2.1038e-03,  1.9836e-03,  0.0000e+00,  ...,  1.3411e-05,
+         -1.7061e-03, -2.1172e-03],
+        [ 2.2125e-03,  5.4207e-03,  0.0000e+00,  ...,  1.2369e-03,
+          1.3618e-03,  2.9087e-03],
+        [ 3.6907e-03, -1.3664e-02,  0.0000e+00,  ...,  2.2430e-03,
+         -2.1164e-02, -1.0399e-02],
+        ...,
+        [-3.5238e-04, -4.6272e-03,  0.0000e+00,  ...,  1.6642e-03,
+          4.7264e-03,  3.5000e-03],
+        [ 5.5885e-03,  7.3090e-03,  0.0000e+00,  ...,  6.1798e-03,
+          5.9509e-03,  8.5144e-03],
+        [ 3.1395e-03,  7.3671e-04,  0.0000e+00,  ...,  1.4439e-03,
+          1.4496e-03,  1.5640e-03]], device='cuda:0')
+Epoch 3, bias, value: tensor([-1.5880e-02, -2.0302e-02, -1.6533e-02, -2.8419e-02, -3.0375e-02,
+        -7.7978e-05,  2.8361e-02, -1.0864e-02,  2.5489e-02,  3.3449e-03],
+       device='cuda:0'), grad: tensor([ 0.0057,  0.0006, -0.0258,  0.0253, -0.0084, -0.0065, -0.0296,  0.0029,
+         0.0284,  0.0076], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 282.63, cls_loss 0.2555 cls_loss_mapping 0.4624 cls_loss_causal 1.7128 re_mapping 0.1559 re_causal 0.2582 /// teacc 94.25 lr 0.00010000
+Epoch 4, weight, value: tensor([[ 0.0010, -0.0277, -0.0203,  ..., -0.0096,  0.0400,  0.0373],
+        [-0.0269, -0.0269,  0.0003,  ..., -0.0233, -0.0158, -0.0343],
+        [-0.0026, -0.0202,  0.0260,  ..., -0.0129,  0.0329, -0.0202],
+        ...,
+        [-0.0244,  0.0070,  0.0179,  ...,  0.0281,  0.0037, -0.0209],
+        [-0.0364,  0.0257, -0.0115,  ...,  0.0083, -0.0209, -0.0216],
+        [ 0.0141,  0.0133, -0.0103,  ...,  0.0167, -0.0215,  0.0142]],
+       device='cuda:0'), grad: tensor([[-0.0026, -0.0088,  0.0000,  ..., -0.0040, -0.0160, -0.0242],
+        [ 0.0007,  0.0026,  0.0000,  ...,  0.0031,  0.0004,  0.0006],
+        [ 0.0015,  0.0109,  0.0000,  ...,  0.0027,  0.0036,  0.0076],
+        ...,
+        [-0.0056, -0.0101,  0.0000,  ..., -0.0206,  0.0016,  0.0023],
+        [-0.0090, -0.0121,  0.0000,  ..., -0.0152,  0.0004,  0.0023],
+        [ 0.0074,  0.0182,  0.0000,  ...,  0.0283,  0.0013,  0.0036]],
+       device='cuda:0')
+Epoch 4, bias, value: tensor([-1.5505e-02, -1.9999e-02, -1.6656e-02, -2.8608e-02, -3.0272e-02,
+        -4.8942e-05,  2.8023e-02, -1.1061e-02,  2.5536e-02,  3.4134e-03],
+       device='cuda:0'), grad: tensor([-0.0162,  0.0015,  0.0200, -0.0070,  0.0192,  0.0060,  0.0029, -0.0074,
+        -0.0452,  0.0262], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 282.60, cls_loss 0.2090 cls_loss_mapping 0.3590 cls_loss_causal 1.5909 re_mapping 0.1200 re_causal 0.2258 /// teacc 94.39 lr 0.00010000
+Epoch 5, weight, value: tensor([[ 2.5493e-04, -2.7750e-02, -2.0303e-02,  ..., -8.9923e-03,
+          4.3243e-02,  3.9449e-02],
+        [-2.9210e-02, -2.9602e-02,  3.2619e-04,  ..., -2.5070e-02,
+         -1.9404e-02, -3.5510e-02],
+        [-5.9607e-03, -2.0000e-02,  2.5963e-02,  ..., -1.4382e-02,
+          3.6077e-02, -2.0003e-02],
+        ...,
+        [-2.5401e-02,  8.9050e-03,  1.7921e-02,  ...,  2.9216e-02,
+          4.4441e-05, -2.2393e-02],
+        [-3.9703e-02,  2.5462e-02, -1.1513e-02,  ...,  8.7589e-03,
+         -2.1776e-02, -2.2173e-02],
+        [ 1.6515e-02,  1.3325e-02, -1.0273e-02,  ...,  1.7216e-02,
+         -2.2674e-02,  1.2541e-02]], device='cuda:0'), grad: tensor([[ 0.0027,  0.0031,  0.0000,  ...,  0.0023,  0.0094,  0.0074],
+        [ 0.0018,  0.0021,  0.0000,  ...,  0.0005,  0.0012,  0.0016],
+        [ 0.0048,  0.0085,  0.0000,  ..., -0.0031,  0.0103, -0.0066],
+        ...,
+        [-0.0050, -0.0013,  0.0000,  ..., -0.0181,  0.0089,  0.0077],
+        [ 0.0069, -0.0212,  0.0000,  ...,  0.0060, -0.0143, -0.0090],
+        [ 0.0175,  0.0194,  0.0000,  ...,  0.0287,  0.0017,  0.0018]],
+       device='cuda:0')
+Epoch 5, bias, value: tensor([-0.0152, -0.0199, -0.0166, -0.0291, -0.0305, -0.0003,  0.0278, -0.0110,
+         0.0257,  0.0039], device='cuda:0'), grad: tensor([ 0.0084,  0.0034,  0.0093, -0.0302, -0.0279,  0.0112,  0.0061, -0.0065,
+        -0.0066,  0.0328], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 281.51, cls_loss 0.1658 cls_loss_mapping 0.2742 cls_loss_causal 1.4598 re_mapping 0.1014 re_causal 0.2046 /// teacc 96.27 lr 0.00010000
+Epoch 6, weight, value: tensor([[-0.0021, -0.0277, -0.0203,  ..., -0.0089,  0.0456,  0.0410],
+        [-0.0318, -0.0321,  0.0003,  ..., -0.0259, -0.0237, -0.0371],
+        [-0.0077, -0.0207,  0.0260,  ..., -0.0157,  0.0379, -0.0194],
+        ...,
+        [-0.0263,  0.0101,  0.0179,  ...,  0.0304, -0.0027, -0.0232],
+        [-0.0431,  0.0261, -0.0115,  ...,  0.0088, -0.0217, -0.0225],
+        [ 0.0183,  0.0129, -0.0103,  ...,  0.0169, -0.0224,  0.0118]],
+       device='cuda:0'), grad: tensor([[ 0.0012,  0.0040,  0.0000,  ...,  0.0147,  0.0457,  0.0405],
+        [ 0.0020,  0.0083,  0.0000,  ...,  0.0069,  0.0022,  0.0052],
+        [ 0.0005, -0.0112,  0.0000,  ...,  0.0024, -0.0245, -0.0163],
+        ...,
+        [ 0.0003, -0.0018,  0.0000,  ...,  0.0006,  0.0016, -0.0008],
+        [ 0.0083,  0.0035,  0.0000,  ...,  0.0126, -0.0011,  0.0004],
+        [ 0.0039,  0.0016,  0.0000,  ..., -0.0119, -0.0455, -0.0388]],
+       device='cuda:0')
+Epoch 6, bias, value: tensor([-0.0150, -0.0198, -0.0166, -0.0290, -0.0305, -0.0004,  0.0278, -0.0112,
+         0.0257,  0.0039], device='cuda:0'), grad: tensor([ 0.0339,  0.0194, -0.0110,  0.0025, -0.0038,  0.0027, -0.0183, -0.0130,
+         0.0092, -0.0214], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 5----------------------------------------------------
+epoch 5, time 282.87, cls_loss 0.1459 cls_loss_mapping 0.2310 cls_loss_causal 1.3923 re_mapping 0.0834 re_causal 0.1812 /// teacc 96.57 lr 0.00010000
+Epoch 7, weight, value: tensor([[-0.0028, -0.0283, -0.0208,  ..., -0.0088,  0.0478,  0.0425],
+        [-0.0341, -0.0343, -0.0055,  ..., -0.0272, -0.0243, -0.0370],
+        [-0.0100, -0.0209,  0.0199,  ..., -0.0167,  0.0402, -0.0190],
+        ...,
+        [-0.0270,  0.0116,  0.0221,  ...,  0.0316, -0.0060, -0.0246],
+        [-0.0467,  0.0262, -0.0158,  ...,  0.0088, -0.0228, -0.0234],
+        [ 0.0199,  0.0127, -0.0133,  ...,  0.0170, -0.0218,  0.0120]],
+       device='cuda:0'), grad: tensor([[ 1.8060e-04,  9.7752e-04,  6.4773e-07,  ...,  1.9608e-02,
+          4.5349e-02,  3.0823e-02],
+        [ 1.3971e-04,  2.5082e-03,  4.6566e-06,  ...,  1.7109e-03,
+          3.0689e-03,  1.7014e-03],
+        [ 5.6934e-04,  2.4242e-03,  1.0632e-05,  ...,  6.1369e-04,
+         -5.5145e-02, -1.5068e-02],
+        ...,
+        [ 9.0408e-04,  4.4937e-03, -4.3273e-05,  ...,  1.0996e-03,
+          1.3056e-03,  7.0095e-04],
+        [ 2.8095e-03,  2.6550e-03,  2.2054e-06,  ..., -2.4994e-02,
+         -2.8015e-02, -3.0899e-02],
+        [-2.0809e-03, -1.1635e-03,  1.4558e-05,  ..., -1.0240e-04,
+          2.0123e-03,  9.8610e-04]], device='cuda:0')
+Epoch 7, bias, value: tensor([-0.0147, -0.0197, -0.0168, -0.0292, -0.0306, -0.0006,  0.0275, -0.0111,
+         0.0259,  0.0041], device='cuda:0'), grad: tensor([ 0.0331,  0.0101, -0.0394, -0.0025,  0.0005,  0.0057,  0.0027,  0.0099,
+        -0.0198, -0.0002], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 6----------------------------------------------------
+epoch 6, time 281.63, cls_loss 0.1317 cls_loss_mapping 0.1933 cls_loss_causal 1.3203 re_mapping 0.0716 re_causal 0.1593 /// teacc 96.81 lr 0.00010000
+Epoch 8, weight, value: tensor([[-0.0048, -0.0286, -0.0268,  ..., -0.0093,  0.0498,  0.0438],
+        [-0.0365, -0.0366, -0.0260,  ..., -0.0284, -0.0273, -0.0377],
+        [-0.0119, -0.0213,  0.0253,  ..., -0.0181,  0.0427, -0.0184],
+        ...,
+        [-0.0277,  0.0125,  0.0295,  ...,  0.0327, -0.0083, -0.0260],
+        [-0.0498,  0.0266, -0.0332,  ...,  0.0093, -0.0239, -0.0239],
+        [ 0.0209,  0.0119, -0.0229,  ...,  0.0168, -0.0217,  0.0116]],
+       device='cuda:0'), grad: tensor([[ 9.6083e-05,  3.7003e-04,  4.8369e-05,  ..., -9.7036e-05,
+         -1.8158e-03, -1.6947e-03],
+        [ 8.8692e-05,  5.4398e-03,  1.2779e-04,  ...,  1.9608e-03,
+          6.4909e-05, -1.0681e-04],
+        [ 1.9610e-04,  2.5043e-03,  9.3603e-04,  ...,  1.2054e-03,
+         -2.2125e-03, -1.3580e-03],
+        ...,
+        [ 2.0561e-03,  1.9424e-02,  3.8795e-03,  ...,  5.5237e-03,
+          4.4560e-04,  3.5691e-04],
+        [ 8.5545e-04,  1.6947e-03,  7.8738e-05,  ...,  1.2903e-03,
+          1.2207e-03,  1.1091e-03],
+        [-4.1847e-03, -1.0818e-02, -6.6853e-04,  ..., -8.7051e-03,
+          2.7251e-04,  2.3580e-04]], device='cuda:0')
+Epoch 8, bias, value: tensor([-0.0147, -0.0198, -0.0167, -0.0289, -0.0301, -0.0008,  0.0271, -0.0111,
+         0.0261,  0.0038], device='cuda:0'), grad: tensor([-0.0005,  0.0265,  0.0027, -0.0231,  0.0046,  0.0014,  0.0007,  0.0280,
+         0.0056, -0.0459], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 7----------------------------------------------------
+epoch 7, time 281.50, cls_loss 0.1119 cls_loss_mapping 0.1637 cls_loss_causal 1.2541 re_mapping 0.0646 re_causal 0.1477 /// teacc 97.21 lr 0.00010000
+Epoch 9, weight, value: tensor([[-0.0055, -0.0287, -0.0292,  ..., -0.0092,  0.0518,  0.0451],
+        [-0.0375, -0.0384, -0.0342,  ..., -0.0291, -0.0285, -0.0377],
+        [-0.0135, -0.0212,  0.0253,  ..., -0.0189,  0.0435, -0.0183],
+        ...,
+        [-0.0286,  0.0129,  0.0278,  ...,  0.0331, -0.0106, -0.0276],
+        [-0.0521,  0.0269, -0.0451,  ...,  0.0096, -0.0245, -0.0247],
+        [ 0.0218,  0.0119, -0.0259,  ...,  0.0166, -0.0212,  0.0115]],
+       device='cuda:0'), grad: tensor([[ 3.9673e-04,  1.1339e-03,  2.7013e-04,  ..., -4.6670e-05,
+         -2.2182e-03, -1.8110e-03],
+        [ 1.2434e-04,  6.1560e-04,  3.9268e-04,  ...,  2.0015e-04,
+          4.9019e-04,  6.7651e-05],
+        [ 3.3617e-04,  8.3542e-04, -3.4022e-04,  ...,  5.9128e-04,
+         -2.4867e-04,  2.5988e-04],
+        ...,
+        [-2.2674e-04, -5.3310e-04,  1.7214e-04,  ..., -1.3895e-03,
+          7.6723e-04,  3.7551e-04],
+        [ 3.4008e-03,  1.4007e-04,  2.4676e-04,  ...,  1.8578e-03,
+          1.0824e-03,  1.4007e-04],
+        [-1.2541e-03,  1.7948e-03,  3.2425e-04,  ..., -1.7605e-03,
+          1.2903e-03,  8.0490e-04]], device='cuda:0')
+Epoch 9, bias, value: tensor([-0.0142, -0.0195, -0.0172, -0.0290, -0.0302, -0.0011,  0.0270, -0.0117,
+         0.0265,  0.0043], device='cuda:0'), grad: tensor([-0.0001, -0.0001,  0.0011, -0.0037,  0.0018,  0.0002, -0.0034,  0.0008,
+         0.0037, -0.0002], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 8----------------------------------------------------
+epoch 8, time 281.69, cls_loss 0.0992 cls_loss_mapping 0.1439 cls_loss_causal 1.2044 re_mapping 0.0564 re_causal 0.1344 /// teacc 97.50 lr 0.00010000
+Epoch 10, weight, value: tensor([[-0.0057, -0.0294, -0.0289,  ..., -0.0092,  0.0536,  0.0461],
+        [-0.0388, -0.0407, -0.0449,  ..., -0.0301, -0.0292, -0.0375],
+        [-0.0148, -0.0214,  0.0277,  ..., -0.0197,  0.0453, -0.0176],
+        ...,
+        [-0.0293,  0.0140,  0.0274,  ...,  0.0341, -0.0124, -0.0287],
+        [-0.0545,  0.0268, -0.0502,  ...,  0.0095, -0.0253, -0.0255],
+        [ 0.0226,  0.0111, -0.0275,  ...,  0.0163, -0.0221,  0.0109]],
+       device='cuda:0'), grad: tensor([[-0.0026, -0.0006,  0.0001,  ...,  0.0009, -0.0057, -0.0052],
+        [ 0.0046,  0.0027,  0.0001,  ...,  0.0015,  0.0008,  0.0007],
+        [ 0.0004,  0.0009,  0.0004,  ...,  0.0001, -0.0009, -0.0006],
+        ...,
+        [ 0.0015, -0.0027, -0.0001,  ..., -0.0011,  0.0005,  0.0003],
+        [ 0.0059,  0.0044,  0.0001,  ...,  0.0035,  0.0008,  0.0010],
+        [ 0.0037,  0.0028,  0.0005,  ...,  0.0029,  0.0013,  0.0016]],
+       device='cuda:0')
+Epoch 10, bias, value: tensor([-0.0138, -0.0195, -0.0171, -0.0286, -0.0304, -0.0011,  0.0269, -0.0116,
+         0.0263,  0.0039], device='cuda:0'), grad: tensor([-0.0038,  0.0088, -0.0031,  0.0168, -0.0009, -0.0331,  0.0011,  0.0007,
+         0.0072,  0.0062], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 9----------------------------------------------------
+epoch 9, time 281.41, cls_loss 0.0994 cls_loss_mapping 0.1390 cls_loss_causal 1.1666 re_mapping 0.0513 re_causal 0.1208 /// teacc 97.74 lr 0.00010000
+Epoch 11, weight, value: tensor([[-0.0060, -0.0299, -0.0298,  ..., -0.0092,  0.0553,  0.0474],
+        [-0.0403, -0.0424, -0.0480,  ..., -0.0307, -0.0322, -0.0386],
+        [-0.0162, -0.0218,  0.0302,  ..., -0.0205,  0.0467, -0.0172],
+        ...,
+        [-0.0304,  0.0149,  0.0290,  ...,  0.0350, -0.0137, -0.0298],
+        [-0.0559,  0.0270, -0.0550,  ...,  0.0100, -0.0257, -0.0255],
+        [ 0.0228,  0.0103, -0.0300,  ...,  0.0160, -0.0222,  0.0105]],
+       device='cuda:0'), grad: tensor([[ 1.1911e-03,  1.7395e-03,  6.1607e-04,  ..., -7.6008e-04,
+          2.2304e-04, -1.7090e-03],
+        [ 2.6441e-04,  7.8201e-04,  8.9526e-05,  ...,  4.4799e-04,
+         -5.9426e-05, -2.5797e-04],
+        [ 1.3046e-03, -5.6152e-03, -7.3242e-04,  ...,  1.2197e-03,
+         -1.3664e-02,  7.8773e-04],
+        ...,
+        [ 3.5739e-04,  5.3215e-04, -5.3942e-05,  ..., -9.1982e-04,
+          1.3084e-03,  3.5310e-04],
+        [ 5.1193e-03,  3.9749e-03,  1.5440e-03,  ...,  1.4076e-03,
+          1.6088e-03,  3.7241e-04],
+        [-2.4612e-02, -4.1509e-04, -7.1716e-03,  ...,  1.3113e-03,
+          2.7800e-04,  3.8576e-04]], device='cuda:0')
+Epoch 11, bias, value: tensor([-0.0136, -0.0197, -0.0168, -0.0286, -0.0305, -0.0013,  0.0268, -0.0115,
+         0.0263,  0.0038], device='cuda:0'), grad: tensor([ 0.0028, -0.0005, -0.0145,  0.0050,  0.0034,  0.0058,  0.0110,  0.0021,
+         0.0101, -0.0251], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 10, time 265.14, cls_loss 0.0918 cls_loss_mapping 0.1268 cls_loss_causal 1.1186 re_mapping 0.0481 re_causal 0.1114 /// teacc 97.62 lr 0.00010000
+Epoch 12, weight, value: tensor([[-0.0072, -0.0308, -0.0315,  ..., -0.0098,  0.0561,  0.0478],
+        [-0.0419, -0.0449, -0.0511,  ..., -0.0315, -0.0340, -0.0388],
+        [-0.0180, -0.0221,  0.0321,  ..., -0.0212,  0.0479, -0.0170],
+        ...,
+        [-0.0307,  0.0159,  0.0284,  ...,  0.0360, -0.0144, -0.0304],
+        [-0.0582,  0.0277, -0.0586,  ...,  0.0104, -0.0271, -0.0261],
+        [ 0.0233,  0.0086, -0.0323,  ...,  0.0156, -0.0222,  0.0103]],
+       device='cuda:0'), grad: tensor([[ 2.7752e-04,  4.7541e-04,  5.3734e-05,  ...,  1.3363e-04,
+         -1.8448e-05,  1.7136e-05],
+        [ 1.5879e-04,  8.2111e-04, -1.7142e-04,  ...,  4.9204e-05,
+          2.1189e-05,  1.7691e-04],
+        [ 1.5056e-04,  7.0076e-03,  9.8586e-05,  ...,  6.6996e-04,
+          4.2367e-04,  8.3780e-04],
+        ...,
+        [ 6.7234e-04,  1.0826e-02,  2.0409e-04,  ...,  2.4853e-03,
+          7.4767e-06,  1.6813e-03],
+        [ 8.7023e-04,  2.4834e-03,  1.3018e-04,  ...,  8.6641e-04,
+          1.0425e-04,  3.4237e-04],
+        [-8.8587e-06, -9.2602e-04, -4.1628e-04,  ..., -3.2673e-03,
+          4.3035e-05,  1.3018e-04]], device='cuda:0')
+Epoch 12, bias, value: tensor([-0.0142, -0.0200, -0.0168, -0.0285, -0.0304, -0.0012,  0.0268, -0.0111,
+         0.0264,  0.0037], device='cuda:0'), grad: tensor([ 0.0007, -0.0018,  0.0068, -0.0216,  0.0044,  0.0007, -0.0002,  0.0138,
+         0.0045, -0.0072], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 11----------------------------------------------------
+epoch 11, time 281.92, cls_loss 0.0749 cls_loss_mapping 0.1097 cls_loss_causal 1.1203 re_mapping 0.0461 re_causal 0.1116 /// teacc 97.76 lr 0.00010000
+Epoch 13, weight, value: tensor([[-0.0080, -0.0312, -0.0324,  ..., -0.0103,  0.0576,  0.0488],
+        [-0.0431, -0.0461, -0.0549,  ..., -0.0321, -0.0366, -0.0395],
+        [-0.0196, -0.0220,  0.0354,  ..., -0.0217,  0.0494, -0.0164],
+        ...,
+        [-0.0308,  0.0164,  0.0267,  ...,  0.0368, -0.0167, -0.0316],
+        [-0.0593,  0.0284, -0.0611,  ...,  0.0110, -0.0271, -0.0261],
+        [ 0.0238,  0.0077, -0.0325,  ...,  0.0152, -0.0227,  0.0099]],
+       device='cuda:0'), grad: tensor([[ 1.4830e-04, -2.0361e-04,  6.0111e-05,  ..., -2.1410e-04,
+         -2.2736e-03, -2.0027e-03],
+        [ 8.8654e-03,  4.7684e-03,  1.3847e-03,  ...,  3.6073e-04,
+          2.8286e-03,  1.9140e-03],
+        [ 2.4021e-04,  2.7275e-04, -2.1763e-03,  ...,  8.3542e-04,
+         -3.2215e-03, -2.3804e-03],
+        ...,
+        [ 4.5156e-04, -2.9354e-03, -3.3927e-04,  ..., -1.9722e-03,
+          4.6611e-04,  3.6907e-04],
+        [ 1.0786e-03, -4.7684e-03,  1.6797e-04,  ..., -2.7618e-03,
+          3.1066e-04,  3.1757e-04],
+        [-5.4806e-05,  4.3907e-03, -5.7030e-04,  ...,  2.4376e-03,
+          2.5225e-04,  3.1352e-04]], device='cuda:0')
+Epoch 13, bias, value: tensor([-0.0141, -0.0198, -0.0166, -0.0284, -0.0303, -0.0012,  0.0266, -0.0115,
+         0.0267,  0.0034], device='cuda:0'), grad: tensor([-0.0012,  0.0144, -0.0036,  0.0174, -0.0041, -0.0256,  0.0018, -0.0023,
+        -0.0058,  0.0091], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 12----------------------------------------------------
+epoch 12, time 282.95, cls_loss 0.0668 cls_loss_mapping 0.1031 cls_loss_causal 1.0754 re_mapping 0.0426 re_causal 0.1025 /// teacc 97.88 lr 0.00010000
+Epoch 14, weight, value: tensor([[-0.0083, -0.0318, -0.0333,  ..., -0.0105,  0.0589,  0.0497],
+        [-0.0443, -0.0477, -0.0565,  ..., -0.0329, -0.0368, -0.0391],
+        [-0.0204, -0.0220,  0.0367,  ..., -0.0222,  0.0498, -0.0164],
+        ...,
+        [-0.0313,  0.0173,  0.0275,  ...,  0.0377, -0.0179, -0.0328],
+        [-0.0612,  0.0295, -0.0643,  ...,  0.0112, -0.0270, -0.0261],
+        [ 0.0238,  0.0067, -0.0334,  ...,  0.0147, -0.0218,  0.0100]],
+       device='cuda:0'), grad: tensor([[ 1.0672e-03,  8.1778e-04,  2.6298e-04,  ...,  1.4839e-03,
+          1.7238e-04,  1.6046e-04],
+        [ 2.6035e-04,  3.4332e-04,  1.2457e-04,  ...,  3.6597e-04,
+          3.1734e-04,  1.2732e-04],
+        [ 8.8036e-05,  7.3929e-03,  6.3276e-04,  ...,  5.8937e-03,
+          1.5364e-03,  5.2547e-04],
+        ...,
+        [-4.7708e-04, -1.0117e-02, -1.6041e-03,  ..., -9.0637e-03,
+         -3.1185e-03, -9.1648e-04],
+        [ 6.3419e-04, -8.1539e-05,  1.8799e-04,  ..., -4.4107e-04,
+          4.7350e-04, -1.5363e-05],
+        [-1.7252e-03,  3.9864e-04,  1.1921e-04,  ..., -5.5809e-03,
+          2.3401e-04,  1.8728e-04]], device='cuda:0')
+Epoch 14, bias, value: tensor([-0.0142, -0.0196, -0.0165, -0.0288, -0.0305, -0.0015,  0.0266, -0.0113,
+         0.0271,  0.0035], device='cuda:0'), grad: tensor([ 0.0017, -0.0028,  0.0081,  0.0054,  0.0240, -0.0030, -0.0044, -0.0093,
+         0.0002, -0.0200], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 13, time 265.57, cls_loss 0.0709 cls_loss_mapping 0.0945 cls_loss_causal 1.0394 re_mapping 0.0408 re_causal 0.0975 /// teacc 97.69 lr 0.00010000
+Epoch 15, weight, value: tensor([[-0.0091, -0.0324, -0.0323,  ..., -0.0109,  0.0604,  0.0506],
+        [-0.0450, -0.0492, -0.0588,  ..., -0.0338, -0.0384, -0.0395],
+        [-0.0216, -0.0226,  0.0385,  ..., -0.0234,  0.0510, -0.0162],
+        ...,
+        [-0.0316,  0.0181,  0.0276,  ...,  0.0387, -0.0195, -0.0336],
+        [-0.0627,  0.0293, -0.0656,  ...,  0.0120, -0.0271, -0.0262],
+        [ 0.0238,  0.0054, -0.0350,  ...,  0.0143, -0.0222,  0.0096]],
+       device='cuda:0'), grad: tensor([[ 3.2127e-05,  7.0453e-05,  3.2693e-05,  ...,  1.7524e-05,
+         -1.4992e-03, -1.2417e-03],
+        [ 1.6749e-05,  1.5316e-03,  5.8079e-04,  ...,  6.3019e-03,
+          4.1294e-04, -1.6555e-05],
+        [ 2.8148e-05, -3.1567e-04, -9.8324e-04,  ...,  3.6550e-04,
+         -9.9850e-04,  2.0236e-05],
+        ...,
+        [ 1.4067e-04, -4.0283e-03,  3.2353e-04,  ..., -1.4124e-03,
+          4.3273e-04,  1.1021e-04],
+        [ 3.8481e-04, -1.2112e-03,  6.7055e-05,  ..., -7.7286e-03,
+          3.2806e-04,  2.4021e-04],
+        [-1.4853e-04, -5.0402e-04,  2.7776e-04,  ..., -5.8317e-04,
+          3.4952e-04,  2.8372e-04]], device='cuda:0')
+Epoch 15, bias, value: tensor([-0.0140, -0.0199, -0.0164, -0.0286, -0.0305, -0.0016,  0.0263, -0.0111,
+         0.0274,  0.0032], device='cuda:0'), grad: tensor([-0.0012,  0.0095, -0.0009,  0.0043,  0.0003,  0.0013,  0.0006, -0.0017,
+        -0.0113, -0.0009], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 14, time 265.06, cls_loss 0.0640 cls_loss_mapping 0.0867 cls_loss_causal 1.0318 re_mapping 0.0367 re_causal 0.0886 /// teacc 97.86 lr 0.00010000
+Epoch 16, weight, value: tensor([[-0.0097, -0.0331, -0.0333,  ..., -0.0108,  0.0616,  0.0515],
+        [-0.0463, -0.0507, -0.0607,  ..., -0.0348, -0.0401, -0.0395],
+        [-0.0226, -0.0226,  0.0402,  ..., -0.0242,  0.0522, -0.0159],
+        ...,
+        [-0.0321,  0.0188,  0.0285,  ...,  0.0393, -0.0204, -0.0344],
+        [-0.0651,  0.0297, -0.0685,  ...,  0.0120, -0.0280, -0.0273],
+        [ 0.0243,  0.0048, -0.0349,  ...,  0.0140, -0.0229,  0.0089]],
+       device='cuda:0'), grad: tensor([[-2.9922e-04, -3.2187e-04,  8.2254e-05,  ..., -5.1498e-04,
+         -4.7379e-03, -3.7441e-03],
+        [ 5.4747e-05,  8.0490e-04,  4.3058e-04,  ...,  3.7622e-04,
+          1.1069e-04, -7.5388e-04],
+        [ 6.7234e-05,  8.2550e-03,  3.0479e-03,  ...,  3.6669e-04,
+         -9.0265e-04, -1.6117e-04],
+        ...,
+        [ 4.0102e-04,  6.3248e-03,  2.6817e-03,  ..., -1.5306e-03,
+          8.9645e-04,  8.5890e-05],
+        [ 7.3576e-04,  1.7080e-03,  1.7738e-04,  ...,  1.0729e-03,
+          2.7227e-04,  5.3644e-04],
+        [-7.4744e-05,  8.8549e-04,  3.7909e-04,  ..., -8.3447e-04,
+          3.6192e-04,  3.6955e-04]], device='cuda:0')
+Epoch 16, bias, value: tensor([-0.0141, -0.0198, -0.0164, -0.0287, -0.0308, -0.0009,  0.0264, -0.0111,
+         0.0270,  0.0032], device='cuda:0'), grad: tensor([-0.0041, -0.0013,  0.0087, -0.0195,  0.0013,  0.0010,  0.0038,  0.0065,
+         0.0032,  0.0004], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 15, time 265.54, cls_loss 0.0576 cls_loss_mapping 0.0810 cls_loss_causal 0.9884 re_mapping 0.0355 re_causal 0.0873 /// teacc 97.85 lr 0.00010000
+Epoch 17, weight, value: tensor([[-0.0107, -0.0340, -0.0344,  ..., -0.0114,  0.0624,  0.0521],
+        [-0.0473, -0.0520, -0.0621,  ..., -0.0352, -0.0418, -0.0396],
+        [-0.0239, -0.0223,  0.0421,  ..., -0.0247,  0.0536, -0.0153],
+        ...,
+        [-0.0323,  0.0190,  0.0280,  ...,  0.0398, -0.0211, -0.0352],
+        [-0.0672,  0.0301, -0.0698,  ...,  0.0126, -0.0284, -0.0276],
+        [ 0.0245,  0.0038, -0.0352,  ...,  0.0135, -0.0228,  0.0087]],
+       device='cuda:0'), grad: tensor([[ 7.4148e-04,  1.5211e-04,  5.4479e-05,  ...,  2.4509e-04,
+         -1.0252e-03, -8.2874e-04],
+        [ 8.4162e-05,  1.1683e-04,  4.3541e-05,  ...,  1.3924e-04,
+          3.9428e-05,  1.4946e-05],
+        [ 1.6582e-04,  5.5313e-04,  3.8218e-04,  ...,  6.0225e-04,
+          3.4833e-04,  3.8362e-04],
+        ...,
+        [-2.2717e-03, -3.6049e-03, -7.1335e-04,  ..., -4.6654e-03,
+         -3.4451e-05, -2.2030e-04],
+        [ 2.2686e-04, -4.1544e-05,  7.2837e-05,  ..., -2.5034e-04,
+          2.3580e-04,  3.2783e-05],
+        [-7.3862e-04,  6.4468e-04,  6.2275e-04,  ...,  1.6603e-03,
+          4.7064e-04,  1.9741e-04]], device='cuda:0')
+Epoch 17, bias, value: tensor([-0.0146, -0.0200, -0.0159, -0.0287, -0.0307, -0.0006,  0.0262, -0.0115,
+         0.0271,  0.0033], device='cuda:0'), grad: tensor([ 1.5342e-04, -5.4665e-03,  3.0155e-03,  7.4234e-03, -8.9169e-05,
+        -1.4706e-03,  1.3084e-03, -8.3694e-03,  3.7760e-05,  3.4618e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 16----------------------------------------------------
+epoch 16, time 282.44, cls_loss 0.0571 cls_loss_mapping 0.0798 cls_loss_causal 0.9809 re_mapping 0.0340 re_causal 0.0860 /// teacc 98.08 lr 0.00010000
+Epoch 18, weight, value: tensor([[-0.0110, -0.0343, -0.0353,  ..., -0.0113,  0.0640,  0.0532],
+        [-0.0481, -0.0529, -0.0629,  ..., -0.0359, -0.0433, -0.0400],
+        [-0.0247, -0.0228,  0.0419,  ..., -0.0257,  0.0541, -0.0153],
+        ...,
+        [-0.0325,  0.0199,  0.0305,  ...,  0.0408, -0.0220, -0.0357],
+        [-0.0688,  0.0308, -0.0699,  ...,  0.0129, -0.0285, -0.0277],
+        [ 0.0247,  0.0030, -0.0367,  ...,  0.0130, -0.0229,  0.0085]],
+       device='cuda:0'), grad: tensor([[ 2.3353e-04, -1.3494e-04,  1.1712e-04,  ...,  1.3173e-04,
+         -1.4181e-03, -9.3794e-04],
+        [ 1.2863e-04,  3.7813e-04,  7.9513e-05,  ...,  1.4830e-04,
+          2.9588e-04, -4.6968e-05],
+        [ 1.9350e-03,  3.5076e-03,  1.1645e-05,  ...,  7.7820e-04,
+          1.9779e-03,  3.0732e-04],
+        ...,
+        [ 1.3411e-04, -1.3866e-03, -3.0971e-04,  ..., -7.6342e-04,
+          2.0206e-04,  6.9559e-05],
+        [ 2.9230e-04, -9.2077e-04,  8.8096e-05,  ..., -6.7043e-04,
+         -7.9060e-04, -6.0618e-05],
+        [ 1.8227e-04, -9.1493e-05, -4.8232e-04,  ..., -1.4424e-04,
+          5.1069e-04,  4.4274e-04]], device='cuda:0')
+Epoch 18, bias, value: tensor([-0.0139, -0.0200, -0.0165, -0.0290, -0.0306, -0.0008,  0.0257, -0.0112,
+         0.0278,  0.0030], device='cuda:0'), grad: tensor([-0.0008, -0.0004,  0.0059, -0.0030,  0.0007, -0.0004,  0.0008, -0.0005,
+        -0.0017, -0.0005], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 17, time 265.80, cls_loss 0.0578 cls_loss_mapping 0.0747 cls_loss_causal 0.9653 re_mapping 0.0321 re_causal 0.0793 /// teacc 97.83 lr 0.00010000
+Epoch 19, weight, value: tensor([[-0.0115, -0.0346, -0.0362,  ..., -0.0118,  0.0646,  0.0537],
+        [-0.0493, -0.0542, -0.0661,  ..., -0.0367, -0.0446, -0.0405],
+        [-0.0255, -0.0233,  0.0436,  ..., -0.0266,  0.0558, -0.0149],
+        ...,
+        [-0.0331,  0.0203,  0.0304,  ...,  0.0417, -0.0232, -0.0364],
+        [-0.0702,  0.0316, -0.0708,  ...,  0.0133, -0.0289, -0.0282],
+        [ 0.0250,  0.0025, -0.0362,  ...,  0.0127, -0.0235,  0.0081]],
+       device='cuda:0'), grad: tensor([[-1.0228e-04,  1.2040e-04,  2.4331e-04,  ...,  2.0587e-04,
+         -1.6756e-03, -1.8559e-03],
+        [ 5.5164e-05,  4.7708e-04,  2.9135e-04,  ...,  8.1491e-04,
+          1.2362e-04,  3.7521e-05],
+        [-1.3649e-04, -1.3857e-03, -1.9798e-03,  ..., -3.0975e-03,
+         -1.0994e-02, -3.7346e-03],
+        ...,
+        [-1.0055e-04, -5.2881e-04, -8.5640e-04,  ...,  2.3499e-03,
+          4.2419e-03,  3.4313e-03],
+        [ 9.1887e-04,  3.6812e-04, -1.4544e-04,  ..., -2.7580e-03,
+          4.5538e-04,  3.5357e-04],
+        [-4.2677e-04, -1.6677e-04, -2.3805e-06,  ..., -1.2070e-04,
+          3.7479e-04,  1.9300e-04]], device='cuda:0')
+Epoch 19, bias, value: tensor([-0.0140, -0.0204, -0.0158, -0.0290, -0.0310, -0.0008,  0.0260, -0.0112,
+         0.0281,  0.0027], device='cuda:0'), grad: tensor([-0.0008,  0.0029, -0.0085,  0.0013,  0.0049,  0.0067,  0.0026,  0.0011,
+        -0.0097, -0.0004], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 18, time 265.19, cls_loss 0.0517 cls_loss_mapping 0.0738 cls_loss_causal 0.9729 re_mapping 0.0319 re_causal 0.0811 /// teacc 97.87 lr 0.00010000
+Epoch 20, weight, value: tensor([[-0.0127, -0.0353, -0.0372,  ..., -0.0121,  0.0654,  0.0541],
+        [-0.0512, -0.0553, -0.0675,  ..., -0.0374, -0.0453, -0.0408],
+        [-0.0273, -0.0239,  0.0439,  ..., -0.0278,  0.0565, -0.0148],
+        ...,
+        [-0.0339,  0.0207,  0.0295,  ...,  0.0423, -0.0244, -0.0375],
+        [-0.0712,  0.0313, -0.0719,  ...,  0.0136, -0.0297, -0.0284],
+        [ 0.0256,  0.0015, -0.0367,  ...,  0.0123, -0.0232,  0.0084]],
+       device='cuda:0'), grad: tensor([[-1.0097e-04,  3.1972e-04,  3.2330e-04,  ...,  3.2115e-04,
+          1.9569e-03,  7.4768e-04],
+        [ 5.6833e-05,  6.4754e-04,  2.2784e-05,  ...,  2.9445e-04,
+          1.2469e-04,  9.7454e-05],
+        [ 8.6904e-05, -1.6081e-04, -3.7026e-04,  ...,  2.0623e-04,
+         -3.1891e-03, -1.6003e-03],
+        ...,
+        [ 1.1134e-04, -5.0049e-03,  1.0639e-04,  ..., -2.5291e-03,
+          3.4809e-04,  1.1009e-04],
+        [ 4.6825e-04, -8.8751e-05,  9.2208e-05,  ...,  2.4843e-04,
+         -1.6284e-04, -3.2926e-04],
+        [-6.8903e-04, -2.9254e-04, -2.4050e-05,  ..., -5.8365e-04,
+          1.9264e-04,  1.8930e-04]], device='cuda:0')
+Epoch 20, bias, value: tensor([-0.0145, -0.0205, -0.0162, -0.0283, -0.0308, -0.0008,  0.0258, -0.0115,
+         0.0282,  0.0028], device='cuda:0'), grad: tensor([ 0.0017,  0.0004, -0.0016,  0.0063,  0.0006,  0.0006, -0.0002, -0.0034,
+         0.0007, -0.0053], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 19, time 265.07, cls_loss 0.0492 cls_loss_mapping 0.0693 cls_loss_causal 0.9366 re_mapping 0.0311 re_causal 0.0800 /// teacc 98.00 lr 0.00010000
+Epoch 21, weight, value: tensor([[-0.0122, -0.0357, -0.0349,  ..., -0.0124,  0.0668,  0.0552],
+        [-0.0526, -0.0569, -0.0690,  ..., -0.0380, -0.0468, -0.0414],
+        [-0.0284, -0.0242,  0.0451,  ..., -0.0287,  0.0573, -0.0146],
+        ...,
+        [-0.0339,  0.0211,  0.0294,  ...,  0.0430, -0.0256, -0.0381],
+        [-0.0725,  0.0322, -0.0730,  ...,  0.0140, -0.0295, -0.0283],
+        [ 0.0254,  0.0007, -0.0377,  ...,  0.0119, -0.0233,  0.0079]],
+       device='cuda:0'), grad: tensor([[-2.9106e-03, -1.7376e-03,  3.3639e-06,  ...,  1.6674e-05,
+         -3.6526e-03, -2.6703e-03],
+        [ 5.2786e-04,  1.2608e-03,  3.9190e-06,  ...,  6.0034e-04,
+          3.3170e-05,  1.2316e-05],
+        [ 2.4796e-04,  1.0881e-03,  6.6459e-05,  ...,  4.3178e-04,
+          4.2582e-04,  3.3855e-04],
+        ...,
+        [ 3.0422e-04, -2.1725e-03, -2.0707e-04,  ..., -1.1654e-03,
+          1.4114e-04,  1.1230e-04],
+        [ 6.0749e-04, -2.4319e-03,  4.5411e-06,  ..., -1.3628e-03,
+          2.5415e-04,  2.1744e-04],
+        [-2.3937e-03,  1.9140e-03,  2.5839e-05,  ...,  8.4114e-04,
+          1.4324e-03,  9.8896e-04]], device='cuda:0')
+Epoch 21, bias, value: tensor([-0.0138, -0.0204, -0.0161, -0.0281, -0.0309, -0.0015,  0.0260, -0.0113,
+         0.0285,  0.0024], device='cuda:0'), grad: tensor([-0.0040,  0.0057,  0.0019,  0.0030,  0.0070, -0.0004,  0.0004, -0.0007,
+        -0.0080, -0.0048], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 20----------------------------------------------------
+epoch 20, time 281.30, cls_loss 0.0417 cls_loss_mapping 0.0594 cls_loss_causal 0.8965 re_mapping 0.0301 re_causal 0.0776 /// teacc 98.20 lr 0.00010000
+Epoch 22, weight, value: tensor([[-0.0130, -0.0363, -0.0351,  ..., -0.0127,  0.0678,  0.0559],
+        [-0.0537, -0.0582, -0.0701,  ..., -0.0384, -0.0479, -0.0414],
+        [-0.0289, -0.0244,  0.0459,  ..., -0.0294,  0.0582, -0.0141],
+        ...,
+        [-0.0341,  0.0221,  0.0292,  ...,  0.0437, -0.0262, -0.0391],
+        [-0.0737,  0.0329, -0.0729,  ...,  0.0142, -0.0297, -0.0284],
+        [ 0.0262, -0.0002, -0.0380,  ...,  0.0118, -0.0236,  0.0075]],
+       device='cuda:0'), grad: tensor([[ 9.3889e-04,  8.0645e-05,  3.8505e-05,  ...,  7.6890e-05,
+          2.7275e-04,  3.1447e-04],
+        [ 2.2352e-05,  4.8459e-05,  6.3896e-05,  ...,  1.6361e-05,
+          7.4744e-05, -1.4508e-04],
+        [ 5.1945e-05, -4.6206e-04, -1.5993e-03,  ...,  1.2502e-05,
+         -1.0929e-03,  2.0349e-04],
+        ...,
+        [ 2.9027e-05,  6.9797e-05,  5.3358e-04,  ..., -7.2062e-05,
+          4.1699e-04,  2.9266e-05],
+        [ 1.6057e-04,  3.9846e-05,  4.0799e-05,  ...,  4.6492e-05,
+          1.4389e-04,  1.1462e-04],
+        [-6.3002e-05,  4.2081e-05,  3.9428e-05,  ..., -5.2750e-05,
+          1.5533e-04,  9.2089e-05]], device='cuda:0')
+Epoch 22, bias, value: tensor([-0.0138, -0.0205, -0.0160, -0.0285, -0.0311, -0.0014,  0.0256, -0.0109,
+         0.0285,  0.0025], device='cuda:0'), grad: tensor([ 5.2500e-04, -2.5806e-03, -1.3514e-03,  1.0576e-03,  1.5154e-03,
+         4.9973e-04, -1.0567e-03,  9.6035e-04,  4.4799e-04, -2.0161e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 21, time 265.82, cls_loss 0.0366 cls_loss_mapping 0.0546 cls_loss_causal 0.8627 re_mapping 0.0293 re_causal 0.0739 /// teacc 98.10 lr 0.00010000
+Epoch 23, weight, value: tensor([[-0.0133, -0.0367, -0.0352,  ..., -0.0130,  0.0688,  0.0566],
+        [-0.0547, -0.0592, -0.0716,  ..., -0.0392, -0.0492, -0.0416],
+        [-0.0298, -0.0247,  0.0469,  ..., -0.0302,  0.0594, -0.0133],
+        ...,
+        [-0.0347,  0.0225,  0.0289,  ...,  0.0447, -0.0272, -0.0402],
+        [-0.0753,  0.0330, -0.0731,  ...,  0.0142, -0.0299, -0.0290],
+        [ 0.0267, -0.0007, -0.0379,  ...,  0.0115, -0.0239,  0.0069]],
+       device='cuda:0'), grad: tensor([[ 3.0851e-04,  1.6403e-04,  4.5896e-05,  ...,  1.1301e-04,
+         -4.5228e-04, -3.0017e-04],
+        [ 7.6413e-05,  6.7472e-05, -1.1957e-04,  ...,  3.5644e-05,
+          3.4034e-05, -3.4869e-05],
+        [ 3.4142e-03,  2.5654e-04, -1.7395e-03,  ...,  4.3106e-04,
+         -1.0562e-04, -7.8392e-04],
+        ...,
+        [ 7.8440e-05,  1.1196e-03,  3.4928e-04,  ...,  7.2193e-04,
+          1.5373e-03,  1.3628e-03],
+        [ 3.2406e-03,  3.1829e-04,  6.7759e-04,  ...,  3.9291e-03,
+          3.5048e-04,  9.1136e-05],
+        [-1.2231e-04,  1.0175e-04,  2.1219e-04,  ..., -3.9876e-05,
+          3.4165e-04,  1.0741e-04]], device='cuda:0')
+Epoch 23, bias, value: tensor([-0.0137, -0.0209, -0.0156, -0.0286, -0.0314, -0.0013,  0.0255, -0.0110,
+         0.0287,  0.0026], device='cuda:0'), grad: tensor([ 0.0002, -0.0009,  0.0019, -0.0095, -0.0003,  0.0002,  0.0004,  0.0022,
+         0.0052,  0.0005], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 22----------------------------------------------------
+epoch 22, time 282.33, cls_loss 0.0412 cls_loss_mapping 0.0602 cls_loss_causal 0.8785 re_mapping 0.0275 re_causal 0.0709 /// teacc 98.34 lr 0.00010000
+Epoch 24, weight, value: tensor([[-0.0137, -0.0374, -0.0356,  ..., -0.0132,  0.0696,  0.0573],
+        [-0.0556, -0.0607, -0.0726,  ..., -0.0393, -0.0502, -0.0415],
+        [-0.0311, -0.0256,  0.0476,  ..., -0.0314,  0.0602, -0.0130],
+        ...,
+        [-0.0358,  0.0234,  0.0304,  ...,  0.0455, -0.0282, -0.0408],
+        [-0.0767,  0.0336, -0.0737,  ...,  0.0144, -0.0300, -0.0294],
+        [ 0.0271, -0.0016, -0.0381,  ...,  0.0111, -0.0233,  0.0071]],
+       device='cuda:0'), grad: tensor([[ 1.2565e-04,  4.5359e-05,  2.7642e-05,  ...,  5.3756e-06,
+          4.8786e-05,  4.8757e-05],
+        [ 1.1563e-04,  2.6584e-04,  7.7724e-04,  ...,  1.0306e-04,
+          3.6001e-04,  1.0133e-04],
+        [ 3.5167e-05, -1.5091e-02, -3.3989e-03,  ...,  4.0978e-05,
+         -5.6124e-04, -2.2054e-04],
+        ...,
+        [-2.4605e-03, -5.5075e-04,  2.2221e-04,  ..., -2.7828e-03,
+          7.7665e-05,  3.8087e-05],
+        [ 1.3101e-04,  4.4250e-03,  7.4673e-04,  ..., -4.8429e-06,
+          9.8273e-06, -2.8953e-05],
+        [ 2.2945e-03,  1.0462e-03, -1.8269e-05,  ...,  2.0466e-03,
+          7.0691e-05,  6.5386e-05]], device='cuda:0')
+Epoch 24, bias, value: tensor([-0.0139, -0.0201, -0.0162, -0.0283, -0.0315, -0.0014,  0.0254, -0.0110,
+         0.0288,  0.0025], device='cuda:0'), grad: tensor([ 3.6669e-04,  4.7302e-04, -1.6617e-02,  7.6637e-03,  1.4343e-03,
+         2.6588e-03,  1.0133e-05, -6.0463e-03,  3.9215e-03,  6.1378e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 23, time 265.34, cls_loss 0.0390 cls_loss_mapping 0.0519 cls_loss_causal 0.8758 re_mapping 0.0267 re_causal 0.0688 /// teacc 98.29 lr 0.00010000
+Epoch 25, weight, value: tensor([[-0.0140, -0.0380, -0.0361,  ..., -0.0132,  0.0703,  0.0578],
+        [-0.0564, -0.0619, -0.0744,  ..., -0.0400, -0.0524, -0.0423],
+        [-0.0318, -0.0255,  0.0495,  ..., -0.0321,  0.0614, -0.0122],
+        ...,
+        [-0.0358,  0.0238,  0.0305,  ...,  0.0459, -0.0289, -0.0415],
+        [-0.0783,  0.0337, -0.0752,  ...,  0.0146, -0.0306, -0.0296],
+        [ 0.0279, -0.0022, -0.0387,  ...,  0.0108, -0.0239,  0.0065]],
+       device='cuda:0'), grad: tensor([[ 2.0683e-04,  5.2214e-04,  1.5587e-05,  ...,  3.4839e-05,
+          1.4524e-03,  1.2064e-03],
+        [ 1.7011e-04,  2.3162e-04,  6.7055e-05,  ...,  6.6876e-05,
+          3.8791e-04,  2.4235e-04],
+        [ 5.4598e-04,  1.1005e-03,  5.7489e-05,  ...,  2.0778e-04,
+          5.7840e-04,  4.3511e-04],
+        ...,
+        [ 1.8612e-05, -7.9012e-04, -4.6611e-05,  ..., -7.7772e-04,
+          6.2466e-05,  8.1301e-05],
+        [ 1.2541e-04, -2.3448e-04,  2.9221e-05,  ..., -7.2658e-05,
+         -2.1038e-03, -1.7824e-03],
+        [ 8.1444e-04,  9.0599e-04,  1.3041e-04,  ...,  2.6965e-04,
+          1.8954e-04,  1.8978e-04]], device='cuda:0')
+Epoch 25, bias, value: tensor([-0.0140, -0.0199, -0.0163, -0.0284, -0.0313, -0.0012,  0.0250, -0.0110,
+         0.0288,  0.0027], device='cuda:0'), grad: tensor([ 0.0036,  0.0008,  0.0023, -0.0024,  0.0004,  0.0007, -0.0018, -0.0008,
+        -0.0045,  0.0016], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 24, time 265.08, cls_loss 0.0397 cls_loss_mapping 0.0607 cls_loss_causal 0.8547 re_mapping 0.0276 re_causal 0.0704 /// teacc 98.30 lr 0.00010000
+Epoch 26, weight, value: tensor([[-0.0142, -0.0382, -0.0359,  ..., -0.0133,  0.0714,  0.0586],
+        [-0.0572, -0.0626, -0.0758,  ..., -0.0400, -0.0542, -0.0422],
+        [-0.0328, -0.0261,  0.0500,  ..., -0.0327,  0.0625, -0.0119],
+        ...,
+        [-0.0361,  0.0240,  0.0302,  ...,  0.0469, -0.0300, -0.0427],
+        [-0.0795,  0.0342, -0.0759,  ...,  0.0149, -0.0309, -0.0299],
+        [ 0.0280, -0.0030, -0.0394,  ...,  0.0102, -0.0242,  0.0060]],
+       device='cuda:0'), grad: tensor([[ 2.7657e-04, -5.1558e-05,  9.2834e-06,  ...,  1.2159e-04,
+          2.9964e-03,  1.7128e-03],
+        [ 6.0380e-05,  1.0687e-04,  1.6674e-05,  ...,  7.5042e-05,
+          3.0541e-04,  1.8775e-04],
+        [ 3.5286e-05, -1.7357e-03, -1.6189e-04,  ...,  3.2997e-04,
+         -7.0152e-03, -3.6488e-03],
+        ...,
+        [ 4.4775e-04, -8.9645e-04,  2.2912e-04,  ..., -9.5129e-05,
+          2.2030e-04, -1.0991e-04],
+        [ 6.8760e-04,  1.0710e-03,  1.6466e-05,  ...,  5.8079e-04,
+          1.0767e-03,  6.8378e-04],
+        [ 2.8305e-03, -1.2636e-04,  2.3305e-04,  ...,  4.1351e-03,
+          2.9683e-04,  2.1410e-04]], device='cuda:0')
+Epoch 26, bias, value: tensor([-0.0137, -0.0201, -0.0158, -0.0282, -0.0315, -0.0015,  0.0251, -0.0109,
+         0.0288,  0.0022], device='cuda:0'), grad: tensor([ 0.0022,  0.0002, -0.0067,  0.0040, -0.0171,  0.0020, -0.0024,  0.0015,
+         0.0034,  0.0129], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 25, time 264.81, cls_loss 0.0334 cls_loss_mapping 0.0535 cls_loss_causal 0.8335 re_mapping 0.0263 re_causal 0.0676 /// teacc 98.14 lr 0.00010000
+Epoch 27, weight, value: tensor([[-0.0149, -0.0387, -0.0364,  ..., -0.0136,  0.0719,  0.0590],
+        [-0.0579, -0.0646, -0.0763,  ..., -0.0412, -0.0545, -0.0419],
+        [-0.0333, -0.0264,  0.0509,  ..., -0.0331,  0.0633, -0.0114],
+        ...,
+        [-0.0367,  0.0249,  0.0300,  ...,  0.0477, -0.0311, -0.0435],
+        [-0.0811,  0.0343, -0.0764,  ...,  0.0151, -0.0313, -0.0304],
+        [ 0.0285, -0.0034, -0.0400,  ...,  0.0100, -0.0243,  0.0056]],
+       device='cuda:0'), grad: tensor([[ 1.4558e-05,  4.0829e-05,  4.6998e-05,  ...,  4.0144e-05,
+          1.5080e-04, -3.7074e-05],
+        [ 1.2949e-05,  5.7101e-05,  1.0198e-04,  ...,  1.4257e-04,
+          3.4690e-05, -1.0028e-05],
+        [ 1.8001e-05,  6.5625e-05,  1.0714e-05,  ...,  1.1075e-04,
+          1.2577e-04, -2.1219e-05],
+        ...,
+        [-1.1347e-05, -1.3542e-04,  7.9036e-05,  ..., -1.9908e-04,
+          1.5008e-04,  2.7716e-05],
+        [ 5.8383e-05, -2.8396e-04,  5.3167e-05,  ..., -2.9945e-04,
+         -6.1274e-05, -1.2733e-05],
+        [-2.2972e-04, -2.9254e-04,  6.8605e-05,  ...,  1.4651e-04,
+          3.1614e-04,  9.8944e-06]], device='cuda:0')
+Epoch 27, bias, value: tensor([-0.0139, -0.0202, -0.0154, -0.0284, -0.0311, -0.0016,  0.0253, -0.0108,
+         0.0284,  0.0023], device='cuda:0'), grad: tensor([ 0.0004,  0.0005,  0.0005,  0.0006, -0.0032,  0.0004,  0.0007,  0.0005,
+        -0.0002, -0.0003], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 26----------------------------------------------------
+epoch 26, time 282.30, cls_loss 0.0337 cls_loss_mapping 0.0485 cls_loss_causal 0.8751 re_mapping 0.0241 re_causal 0.0648 /// teacc 98.40 lr 0.00010000
+Epoch 28, weight, value: tensor([[-0.0153, -0.0391, -0.0365,  ..., -0.0137,  0.0729,  0.0597],
+        [-0.0588, -0.0654, -0.0776,  ..., -0.0415, -0.0553, -0.0420],
+        [-0.0339, -0.0275,  0.0512,  ..., -0.0344,  0.0642, -0.0114],
+        ...,
+        [-0.0372,  0.0256,  0.0307,  ...,  0.0487, -0.0319, -0.0441],
+        [-0.0823,  0.0349, -0.0768,  ...,  0.0152, -0.0313, -0.0302],
+        [ 0.0287, -0.0036, -0.0405,  ...,  0.0095, -0.0249,  0.0051]],
+       device='cuda:0'), grad: tensor([[-1.0042e-03, -6.8235e-04,  2.0027e-05,  ..., -2.8553e-03,
+         -5.8556e-04, -1.3151e-03],
+        [ 3.1680e-05,  6.6936e-05,  1.0423e-05,  ...,  5.3495e-05,
+          2.2098e-05,  1.3724e-05],
+        [ 2.7135e-05,  8.2552e-05,  4.6223e-05,  ...,  9.2506e-05,
+          8.1301e-05,  3.6657e-05],
+        ...,
+        [ 5.8222e-04, -7.0953e-04,  1.4722e-04,  ...,  5.4884e-04,
+          2.8133e-04,  5.4932e-04],
+        [ 8.3923e-05,  6.9618e-05,  1.8850e-05,  ..., -8.5890e-05,
+         -7.0632e-05,  7.2896e-05],
+        [-1.8132e-04, -1.9491e-04, -1.2481e-04,  ..., -4.5180e-05,
+          1.1134e-04,  3.5673e-05]], device='cuda:0')
+Epoch 28, bias, value: tensor([-0.0140, -0.0202, -0.0159, -0.0286, -0.0313, -0.0015,  0.0254, -0.0108,
+         0.0286,  0.0026], device='cuda:0'), grad: tensor([-2.5196e-03, -4.1223e-04,  2.9564e-04,  8.1158e-04, -1.4865e-04,
+         1.4057e-03,  2.6494e-05,  1.0033e-03, -8.6278e-06, -4.5371e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 27----------------------------------------------------
+epoch 27, time 282.18, cls_loss 0.0329 cls_loss_mapping 0.0475 cls_loss_causal 0.8096 re_mapping 0.0249 re_causal 0.0653 /// teacc 98.48 lr 0.00010000
+Epoch 29, weight, value: tensor([[-0.0153, -0.0395, -0.0373,  ..., -0.0139,  0.0739,  0.0604],
+        [-0.0593, -0.0665, -0.0777,  ..., -0.0422, -0.0566, -0.0420],
+        [-0.0345, -0.0277,  0.0530,  ..., -0.0350,  0.0652, -0.0109],
+        ...,
+        [-0.0376,  0.0252,  0.0314,  ...,  0.0491, -0.0330, -0.0449],
+        [-0.0827,  0.0351, -0.0782,  ...,  0.0157, -0.0319, -0.0306],
+        [ 0.0290, -0.0046, -0.0413,  ...,  0.0090, -0.0257,  0.0046]],
+       device='cuda:0'), grad: tensor([[ 6.5625e-05,  7.7605e-05,  7.0930e-05,  ...,  4.1366e-05,
+          4.6849e-04,  2.8062e-04],
+        [ 2.9340e-05,  9.6738e-05,  9.3654e-06,  ...,  6.3181e-05,
+          1.1581e-04, -4.3482e-05],
+        [ 3.2902e-05,  1.1826e-04, -3.9190e-06,  ...,  1.5986e-04,
+         -1.2474e-03, -7.5722e-04],
+        ...,
+        [ 6.6161e-05, -9.0075e-04,  3.5405e-05,  ..., -7.6342e-04,
+          8.1897e-05,  5.1588e-05],
+        [ 1.9276e-04,  2.7609e-04,  4.1276e-05,  ..., -7.2956e-05,
+          4.0817e-04,  2.7704e-04],
+        [-1.6117e-04,  9.6202e-05, -8.8453e-05,  ...,  1.2815e-04,
+          2.0325e-04,  6.2466e-05]], device='cuda:0')
+Epoch 29, bias, value: tensor([-0.0137, -0.0195, -0.0159, -0.0282, -0.0313, -0.0013,  0.0248, -0.0111,
+         0.0288,  0.0020], device='cuda:0'), grad: tensor([ 0.0007, -0.0008, -0.0006, -0.0001,  0.0004,  0.0004,  0.0004, -0.0008,
+         0.0007, -0.0002], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 28----------------------------------------------------
+epoch 28, time 281.63, cls_loss 0.0341 cls_loss_mapping 0.0507 cls_loss_causal 0.8270 re_mapping 0.0236 re_causal 0.0618 /// teacc 98.52 lr 0.00010000
+Epoch 30, weight, value: tensor([[-0.0160, -0.0404, -0.0380,  ..., -0.0142,  0.0742,  0.0606],
+        [-0.0602, -0.0682, -0.0791,  ..., -0.0433, -0.0571, -0.0420],
+        [-0.0349, -0.0278,  0.0539,  ..., -0.0359,  0.0665, -0.0105],
+        ...,
+        [-0.0382,  0.0259,  0.0313,  ...,  0.0500, -0.0338, -0.0452],
+        [-0.0836,  0.0351, -0.0792,  ...,  0.0160, -0.0325, -0.0309],
+        [ 0.0292, -0.0052, -0.0411,  ...,  0.0088, -0.0261,  0.0042]],
+       device='cuda:0'), grad: tensor([[ 2.3997e-04,  4.9591e-05, -5.3978e-04,  ...,  8.4102e-05,
+         -2.6817e-03, -1.6956e-03],
+        [ 8.3625e-05,  9.1493e-05,  1.1659e-04,  ...,  8.0585e-05,
+          2.1660e-04,  1.4651e-04],
+        [ 1.2316e-05,  7.2002e-05,  3.7527e-04,  ...,  2.9117e-05,
+          1.1606e-03,  6.8092e-04],
+        ...,
+        [ 2.4116e-04, -7.4744e-05,  9.3102e-05,  ..., -7.4029e-05,
+          1.5163e-04,  8.9824e-05],
+        [ 1.7557e-03,  4.7952e-05,  3.6812e-04,  ...,  1.1921e-03,
+          4.1866e-04,  4.9210e-04],
+        [-5.3024e-04,  2.4700e-03,  3.2578e-03,  ..., -1.1110e-04,
+          8.7976e-05,  5.6714e-05]], device='cuda:0')
+Epoch 30, bias, value: tensor([-0.0142, -0.0198, -0.0155, -0.0280, -0.0313, -0.0015,  0.0244, -0.0109,
+         0.0291,  0.0017], device='cuda:0'), grad: tensor([-0.0012,  0.0001,  0.0010, -0.0148,  0.0014,  0.0131, -0.0146,  0.0005,
+         0.0029,  0.0115], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 29, time 266.35, cls_loss 0.0318 cls_loss_mapping 0.0457 cls_loss_causal 0.8244 re_mapping 0.0239 re_causal 0.0629 /// teacc 98.47 lr 0.00010000
+Epoch 31, weight, value: tensor([[-0.0168, -0.0412, -0.0380,  ..., -0.0145,  0.0748,  0.0610],
+        [-0.0611, -0.0696, -0.0803,  ..., -0.0443, -0.0587, -0.0429],
+        [-0.0356, -0.0275,  0.0551,  ..., -0.0366,  0.0674, -0.0100],
+        ...,
+        [-0.0383,  0.0266,  0.0314,  ...,  0.0510, -0.0349, -0.0459],
+        [-0.0844,  0.0354, -0.0795,  ...,  0.0164, -0.0326, -0.0307],
+        [ 0.0297, -0.0057, -0.0415,  ...,  0.0084, -0.0260,  0.0042]],
+       device='cuda:0'), grad: tensor([[ 4.9472e-05,  3.1531e-05,  1.8096e-06,  ...,  3.0756e-05,
+          1.5363e-05,  1.1697e-05],
+        [ 3.5942e-05,  1.2894e-03,  7.1712e-06,  ...,  1.6241e-03,
+          1.0824e-04,  1.9103e-05],
+        [ 3.3677e-05,  3.7003e-04, -4.9859e-05,  ...,  6.6614e-04,
+         -3.5429e-04, -1.5402e-04],
+        ...,
+        [ 4.9263e-05, -2.3785e-03,  3.6601e-06,  ..., -3.2692e-03,
+          1.3876e-04,  1.0002e-04],
+        [-1.3924e-04, -1.7083e-04,  4.0196e-06,  ...,  3.8409e-04,
+          3.1978e-05,  2.5690e-05],
+        [ 7.0333e-04,  1.7369e-04,  2.5570e-05,  ...,  2.3234e-04,
+          8.6101e-07,  7.2550e-07]], device='cuda:0')
+Epoch 31, bias, value: tensor([-0.0145, -0.0201, -0.0154, -0.0284, -0.0310, -0.0017,  0.0247, -0.0108,
+         0.0296,  0.0018], device='cuda:0'), grad: tensor([ 0.0001,  0.0024,  0.0008,  0.0015, -0.0014, -0.0013,  0.0006, -0.0042,
+        -0.0002,  0.0017], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 30----------------------------------------------------
+epoch 30, time 281.97, cls_loss 0.0308 cls_loss_mapping 0.0474 cls_loss_causal 0.8714 re_mapping 0.0224 re_causal 0.0631 /// teacc 98.54 lr 0.00010000
+Epoch 32, weight, value: tensor([[-0.0174, -0.0415, -0.0384,  ..., -0.0150,  0.0757,  0.0616],
+        [-0.0623, -0.0710, -0.0813,  ..., -0.0452, -0.0595, -0.0431],
+        [-0.0357, -0.0278,  0.0556,  ..., -0.0373,  0.0680, -0.0098],
+        ...,
+        [-0.0391,  0.0273,  0.0316,  ...,  0.0517, -0.0357, -0.0464],
+        [-0.0852,  0.0357, -0.0796,  ...,  0.0164, -0.0327, -0.0308],
+        [ 0.0299, -0.0063, -0.0414,  ...,  0.0080, -0.0263,  0.0040]],
+       device='cuda:0'), grad: tensor([[ 9.3997e-05,  5.1439e-05,  5.5172e-06,  ..., -8.8871e-05,
+         -3.0351e-04, -3.2258e-04],
+        [ 5.2899e-05,  9.7990e-05,  1.9893e-05,  ...,  3.9876e-05,
+          1.5533e-04,  5.6535e-05],
+        [ 4.0948e-05,  6.6943e-06, -8.3029e-05,  ...,  2.5094e-05,
+         -1.6057e-04, -4.2021e-05],
+        ...,
+        [ 2.3156e-05, -3.2806e-04,  1.4700e-05,  ..., -2.3806e-04,
+          9.1612e-05,  9.2685e-05],
+        [ 8.6260e-04,  6.9332e-04,  8.1286e-06,  ...,  6.8724e-05,
+          5.2309e-04,  4.6873e-04],
+        [-1.1384e-04,  3.3915e-05,  7.2271e-06,  ...,  1.0300e-04,
+          1.5974e-05,  4.2140e-05]], device='cuda:0')
+Epoch 32, bias, value: tensor([-0.0141, -0.0207, -0.0156, -0.0284, -0.0305, -0.0016,  0.0243, -0.0109,
+         0.0300,  0.0015], device='cuda:0'), grad: tensor([ 3.9250e-05, -6.3956e-05,  3.9816e-04,  4.8971e-04,  7.4005e-04,
+         1.0376e-03, -6.5918e-03,  9.9063e-05,  4.0779e-03, -2.2602e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 31, time 265.20, cls_loss 0.0348 cls_loss_mapping 0.0505 cls_loss_causal 0.7935 re_mapping 0.0221 re_causal 0.0547 /// teacc 98.52 lr 0.00010000
+Epoch 33, weight, value: tensor([[-0.0179, -0.0424, -0.0384,  ..., -0.0151,  0.0766,  0.0625],
+        [-0.0633, -0.0725, -0.0823,  ..., -0.0457, -0.0602, -0.0426],
+        [-0.0365, -0.0283,  0.0560,  ..., -0.0381,  0.0688, -0.0093],
+        ...,
+        [-0.0396,  0.0282,  0.0337,  ...,  0.0527, -0.0363, -0.0470],
+        [-0.0865,  0.0354, -0.0806,  ...,  0.0166, -0.0335, -0.0314],
+        [ 0.0300, -0.0068, -0.0430,  ...,  0.0074, -0.0268,  0.0030]],
+       device='cuda:0'), grad: tensor([[ 3.0965e-05,  4.7445e-05,  2.0251e-05,  ...,  3.3945e-05,
+          1.8954e-05,  2.4170e-05],
+        [ 1.9565e-05,  2.8181e-04,  9.1076e-05,  ...,  8.9765e-05,
+          6.0856e-05,  8.1122e-05],
+        [ 1.9580e-05,  7.5459e-05, -2.4986e-04,  ..., -1.3125e-04,
+         -2.0468e-04, -7.9751e-05],
+        ...,
+        [ 3.2902e-05,  8.1444e-04,  1.1039e-04,  ..., -3.4070e-04,
+          8.8155e-05,  6.7532e-05],
+        [ 1.0926e-04,  1.6165e-04,  2.0647e-04,  ...,  4.6670e-05,
+          3.5644e-05, -1.2457e-04],
+        [ 1.6773e-04, -3.7479e-04, -1.7059e-04,  ...,  9.2208e-05,
+          5.0329e-06,  1.5087e-05]], device='cuda:0')
+Epoch 33, bias, value: tensor([-0.0143, -0.0204, -0.0157, -0.0286, -0.0306, -0.0012,  0.0244, -0.0106,
+         0.0296,  0.0016], device='cuda:0'), grad: tensor([ 0.0002,  0.0005, -0.0002, -0.0004, -0.0004, -0.0008,  0.0006,  0.0014,
+        -0.0017,  0.0007], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 32, time 265.23, cls_loss 0.0299 cls_loss_mapping 0.0459 cls_loss_causal 0.7943 re_mapping 0.0219 re_causal 0.0568 /// teacc 98.50 lr 0.00010000
+Epoch 34, weight, value: tensor([[-0.0188, -0.0429, -0.0388,  ..., -0.0157,  0.0772,  0.0631],
+        [-0.0643, -0.0739, -0.0834,  ..., -0.0461, -0.0612, -0.0427],
+        [-0.0372, -0.0291,  0.0563,  ..., -0.0391,  0.0690, -0.0095],
+        ...,
+        [-0.0402,  0.0282,  0.0340,  ...,  0.0531, -0.0360, -0.0473],
+        [-0.0872,  0.0368, -0.0817,  ...,  0.0173, -0.0336, -0.0315],
+        [ 0.0305, -0.0065, -0.0428,  ...,  0.0071, -0.0271,  0.0026]],
+       device='cuda:0'), grad: tensor([[ 1.3962e-05,  2.5004e-05,  5.5507e-06,  ...,  9.5293e-06,
+         -8.6844e-05, -7.7724e-05],
+        [ 7.3239e-06,  6.9380e-05, -4.4417e-04,  ...,  4.1813e-05,
+          4.5858e-06,  2.7642e-06],
+        [ 3.1680e-05,  3.6788e-04,  7.2241e-05,  ...,  1.2141e-04,
+          2.5228e-05,  4.1515e-05],
+        ...,
+        [-4.6045e-06, -4.7994e-04, -1.1250e-05,  ..., -3.9077e-04,
+          1.6153e-05,  2.9150e-06],
+        [ 3.7432e-05,  3.5167e-05,  9.6977e-05,  ...,  9.1717e-06,
+          1.6466e-05,  2.0489e-08],
+        [-9.0718e-05, -2.3592e-04, -1.2136e-04,  ..., -1.6248e-04,
+          4.2558e-05,  2.9862e-05]], device='cuda:0')
+Epoch 34, bias, value: tensor([-0.0142, -0.0206, -0.0159, -0.0286, -0.0308, -0.0015,  0.0245, -0.0107,
+         0.0301,  0.0017], device='cuda:0'), grad: tensor([-2.1741e-05, -1.2646e-03,  6.4230e-04,  7.8201e-05,  1.2970e-03,
+         3.6311e-04,  3.2711e-04, -3.7026e-04,  3.2926e-04, -1.3809e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 33, time 265.40, cls_loss 0.0240 cls_loss_mapping 0.0373 cls_loss_causal 0.7918 re_mapping 0.0217 re_causal 0.0574 /// teacc 98.42 lr 0.00010000
+Epoch 35, weight, value: tensor([[-0.0193, -0.0436, -0.0391,  ..., -0.0158,  0.0777,  0.0634],
+        [-0.0649, -0.0742, -0.0847,  ..., -0.0467, -0.0625, -0.0430],
+        [-0.0379, -0.0294,  0.0572,  ..., -0.0398,  0.0702, -0.0090],
+        ...,
+        [-0.0405,  0.0286,  0.0343,  ...,  0.0538, -0.0367, -0.0477],
+        [-0.0882,  0.0375, -0.0823,  ...,  0.0178, -0.0338, -0.0317],
+        [ 0.0307, -0.0072, -0.0431,  ...,  0.0066, -0.0276,  0.0024]],
+       device='cuda:0'), grad: tensor([[ 1.0526e-04,  4.4733e-05,  6.3032e-06,  ...,  8.2791e-05,
+         -2.2483e-04, -1.2565e-04],
+        [ 1.6347e-05,  6.2764e-05,  6.4075e-05,  ...,  5.2601e-05,
+          2.9027e-05,  6.0722e-06],
+        [ 1.2264e-05, -9.0778e-05, -3.4499e-04,  ...,  5.6058e-05,
+         -1.7846e-04,  3.7458e-06],
+        ...,
+        [-1.6898e-05, -4.4298e-04, -4.7743e-05,  ..., -5.7650e-04,
+          1.8165e-05,  1.0081e-05],
+        [ 2.5320e-04,  1.3316e-04,  2.8443e-04,  ...,  5.4389e-05,
+          2.2817e-04,  1.3161e-04],
+        [ 4.9561e-05,  1.8060e-04,  1.5688e-04,  ...,  2.6107e-04,
+          3.5346e-05,  2.4989e-05]], device='cuda:0')
+Epoch 35, bias, value: tensor([-0.0143, -0.0207, -0.0155, -0.0283, -0.0309, -0.0022,  0.0249, -0.0106,
+         0.0302,  0.0016], device='cuda:0'), grad: tensor([-2.0832e-05,  1.3697e-04, -9.7942e-04,  4.3631e-04, -2.7966e-04,
+        -4.7684e-04, -1.0949e-04, -4.3726e-04,  1.2121e-03,  5.2071e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 34, time 264.97, cls_loss 0.0260 cls_loss_mapping 0.0348 cls_loss_causal 0.7714 re_mapping 0.0205 re_causal 0.0515 /// teacc 98.53 lr 0.00010000
+Epoch 36, weight, value: tensor([[-0.0198, -0.0440, -0.0394,  ..., -0.0160,  0.0782,  0.0637],
+        [-0.0661, -0.0752, -0.0854,  ..., -0.0474, -0.0628, -0.0436],
+        [-0.0387, -0.0300,  0.0578,  ..., -0.0402,  0.0712, -0.0084],
+        ...,
+        [-0.0416,  0.0292,  0.0345,  ...,  0.0544, -0.0377, -0.0484],
+        [-0.0895,  0.0375, -0.0831,  ...,  0.0177, -0.0341, -0.0319],
+        [ 0.0316, -0.0075, -0.0436,  ...,  0.0067, -0.0278,  0.0021]],
+       device='cuda:0'), grad: tensor([[ 9.4056e-05,  1.0654e-05,  2.7373e-05,  ...,  4.7863e-05,
+         -3.2425e-05, -1.0514e-04],
+        [ 4.0740e-05,  9.2015e-06,  2.2855e-06,  ...,  2.2352e-05,
+          5.9679e-06, -1.2904e-05],
+        [ 3.1114e-05,  3.8445e-05, -2.5500e-06,  ...,  2.0206e-05,
+          4.5151e-05,  2.2292e-05],
+        ...,
+        [ 8.4098e-07, -5.1498e-05, -1.4165e-06,  ..., -7.1049e-05,
+          2.2501e-05,  1.6391e-05],
+        [ 3.7813e-04, -8.8140e-06, -3.6005e-06,  ...,  4.9889e-05,
+          1.4114e-04,  7.6354e-05],
+        [ 4.0919e-05,  4.7982e-05,  1.5825e-05,  ...,  1.0145e-04,
+          8.4162e-05,  4.8369e-05]], device='cuda:0')
+Epoch 36, bias, value: tensor([-0.0146, -0.0211, -0.0153, -0.0285, -0.0310, -0.0017,  0.0249, -0.0108,
+         0.0298,  0.0024], device='cuda:0'), grad: tensor([ 1.8716e-04, -5.8317e-04,  3.1543e-04,  3.3200e-05, -9.3222e-04,
+         7.7286e-03, -7.8735e-03,  2.0301e-04,  6.2799e-04,  2.9135e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 35, time 265.30, cls_loss 0.0236 cls_loss_mapping 0.0360 cls_loss_causal 0.7585 re_mapping 0.0217 re_causal 0.0573 /// teacc 98.45 lr 0.00010000
+Epoch 37, weight, value: tensor([[-0.0200, -0.0444, -0.0395,  ..., -0.0161,  0.0792,  0.0645],
+        [-0.0669, -0.0761, -0.0862,  ..., -0.0478, -0.0634, -0.0436],
+        [-0.0394, -0.0306,  0.0580,  ..., -0.0406,  0.0714, -0.0081],
+        ...,
+        [-0.0420,  0.0295,  0.0349,  ...,  0.0546, -0.0374, -0.0487],
+        [-0.0903,  0.0380, -0.0832,  ...,  0.0181, -0.0339, -0.0319],
+        [ 0.0315, -0.0081, -0.0434,  ...,  0.0061, -0.0278,  0.0020]],
+       device='cuda:0'), grad: tensor([[ 3.0589e-04,  1.1230e-04,  5.1379e-05,  ...,  2.3448e-04,
+          1.0848e-04,  1.5402e-04],
+        [ 4.5031e-05,  1.1122e-04,  2.6608e-04,  ...,  3.3051e-05,
+          5.9700e-04,  3.6788e-04],
+        [ 1.9312e-05, -2.7895e-04, -6.9427e-04,  ...,  6.3717e-05,
+         -1.9913e-03, -1.2560e-03],
+        ...,
+        [ 7.4863e-05,  8.3148e-05,  1.6761e-04,  ...,  6.9030e-06,
+          5.4073e-04,  3.6955e-04],
+        [ 2.8348e-04, -2.0194e-04,  1.0628e-04,  ..., -9.2864e-05,
+          2.4629e-04, -7.0594e-06],
+        [ 2.1386e-04,  1.6904e-04, -1.3128e-05,  ...,  2.2113e-04,
+          6.7890e-05,  1.6916e-04]], device='cuda:0')
+Epoch 37, bias, value: tensor([-0.0148, -0.0208, -0.0160, -0.0284, -0.0307, -0.0018,  0.0246, -0.0106,
+         0.0300,  0.0022], device='cuda:0'), grad: tensor([ 7.8583e-04,  9.4080e-04, -2.8839e-03,  4.3201e-04,  1.3483e-04,
+         9.2793e-04, -2.0351e-03,  1.0262e-03,  9.3222e-05,  5.7602e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 36, time 265.20, cls_loss 0.0250 cls_loss_mapping 0.0348 cls_loss_causal 0.7694 re_mapping 0.0214 re_causal 0.0553 /// teacc 98.33 lr 0.00010000
+Epoch 38, weight, value: tensor([[-0.0204, -0.0447, -0.0399,  ..., -0.0164,  0.0799,  0.0650],
+        [-0.0679, -0.0771, -0.0865,  ..., -0.0486, -0.0652, -0.0443],
+        [-0.0399, -0.0310,  0.0591,  ..., -0.0418,  0.0724, -0.0071],
+        ...,
+        [-0.0425,  0.0302,  0.0341,  ...,  0.0553, -0.0378, -0.0496],
+        [-0.0914,  0.0373, -0.0850,  ...,  0.0179, -0.0347, -0.0327],
+        [ 0.0324, -0.0088, -0.0441,  ...,  0.0057, -0.0280,  0.0016]],
+       device='cuda:0'), grad: tensor([[ 7.4729e-06,  8.9347e-05,  1.1712e-04,  ...,  5.2080e-06,
+          1.6317e-05, -3.2216e-05],
+        [ 7.8157e-06,  1.7965e-04,  4.3333e-05,  ...,  3.9011e-05,
+          3.1739e-05,  7.5251e-06],
+        [ 9.3430e-06, -1.6665e-04, -1.6174e-03,  ...,  2.9564e-05,
+         -1.0071e-03, -8.2612e-05],
+        ...,
+        [ 1.7747e-05,  1.0118e-03,  4.7994e-04,  ...,  8.2910e-05,
+          4.2415e-04,  5.7697e-05],
+        [ 3.3230e-05,  3.7575e-04,  9.0361e-05,  ...,  3.4899e-05,
+          8.1837e-05,  2.0474e-05],
+        [-5.6833e-05,  1.2951e-03,  3.6812e-04,  ...,  2.0289e-04,
+          1.4544e-04,  6.5938e-06]], device='cuda:0')
+Epoch 38, bias, value: tensor([-0.0149, -0.0206, -0.0161, -0.0281, -0.0302, -0.0018,  0.0242, -0.0105,
+         0.0297,  0.0020], device='cuda:0'), grad: tensor([ 0.0004, -0.0017, -0.0026, -0.0050,  0.0005,  0.0007,  0.0004,  0.0033,
+         0.0009,  0.0031], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 37, time 265.27, cls_loss 0.0239 cls_loss_mapping 0.0318 cls_loss_causal 0.7645 re_mapping 0.0195 re_causal 0.0513 /// teacc 98.30 lr 0.00010000
+Epoch 39, weight, value: tensor([[-0.0205, -0.0450, -0.0402,  ..., -0.0165,  0.0807,  0.0656],
+        [-0.0701, -0.0777, -0.0873,  ..., -0.0493, -0.0663, -0.0446],
+        [-0.0404, -0.0313,  0.0604,  ..., -0.0423,  0.0733, -0.0066],
+        ...,
+        [-0.0432,  0.0301,  0.0342,  ...,  0.0558, -0.0390, -0.0507],
+        [-0.0922,  0.0378, -0.0862,  ...,  0.0183, -0.0353, -0.0331],
+        [ 0.0329, -0.0101, -0.0443,  ...,  0.0053, -0.0285,  0.0012]],
+       device='cuda:0'), grad: tensor([[ 1.0449e-04,  1.4961e-04,  1.1927e-04,  ...,  2.5201e-04,
+         -6.5386e-05,  4.2528e-05],
+        [ 2.1207e-04,  5.5790e-05,  8.4102e-05,  ...,  2.5320e-04,
+          8.8096e-05,  1.4111e-05],
+        [ 1.9833e-05, -5.8413e-04, -4.5896e-04,  ..., -1.9002e-04,
+         -9.0218e-04, -2.9683e-04],
+        ...,
+        [-4.2534e-03, -7.0286e-04, -1.1044e-03,  ..., -5.1727e-03,
+          3.3283e-04,  1.5533e-04],
+        [ 7.5102e-05,  2.1636e-04,  4.5151e-05,  ..., -1.5819e-04,
+         -3.7718e-04, -4.7326e-04],
+        [ 3.7079e-03,  7.0572e-04,  1.1330e-03,  ...,  4.5128e-03,
+          1.4257e-04,  1.5175e-04]], device='cuda:0')
+Epoch 39, bias, value: tensor([-0.0148, -0.0209, -0.0158, -0.0279, -0.0303, -0.0019,  0.0244, -0.0110,
+         0.0303,  0.0017], device='cuda:0'), grad: tensor([ 0.0005,  0.0006, -0.0013,  0.0002,  0.0003,  0.0007,  0.0012, -0.0108,
+        -0.0015,  0.0101], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 38----------------------------------------------------
+epoch 38, time 283.68, cls_loss 0.0256 cls_loss_mapping 0.0387 cls_loss_causal 0.7818 re_mapping 0.0197 re_causal 0.0518 /// teacc 98.66 lr 0.00010000
+Epoch 40, weight, value: tensor([[-0.0206, -0.0453, -0.0405,  ..., -0.0168,  0.0813,  0.0661],
+        [-0.0708, -0.0778, -0.0882,  ..., -0.0502, -0.0672, -0.0441],
+        [-0.0412, -0.0319,  0.0616,  ..., -0.0430,  0.0742, -0.0064],
+        ...,
+        [-0.0426,  0.0309,  0.0349,  ...,  0.0574, -0.0405, -0.0516],
+        [-0.0930,  0.0378, -0.0872,  ...,  0.0184, -0.0358, -0.0337],
+        [ 0.0332, -0.0103, -0.0448,  ...,  0.0045, -0.0288,  0.0009]],
+       device='cuda:0'), grad: tensor([[ 4.9174e-05,  4.4018e-05,  5.6922e-06,  ...,  2.8297e-05,
+         -5.4628e-05, -2.3454e-05],
+        [ 1.3009e-05,  1.0109e-03,  7.2300e-05,  ...,  3.6502e-04,
+          4.2245e-06,  3.2689e-06],
+        [ 1.0364e-05,  1.1330e-03,  2.3499e-05,  ...,  2.9898e-04,
+         -1.2733e-05,  8.3074e-06],
+        ...,
+        [ 9.1791e-05,  1.3695e-02,  1.5364e-03,  ...,  4.7417e-03,
+          4.0457e-06,  2.0098e-06],
+        [ 9.3162e-05,  3.6407e-04,  6.9082e-05,  ...,  1.1909e-04,
+          4.1544e-05,  3.7968e-05],
+        [-1.0008e-04, -1.5778e-02, -1.7748e-03,  ..., -5.7297e-03,
+          2.4721e-05,  1.4685e-05]], device='cuda:0')
+Epoch 40, bias, value: tensor([-0.0148, -0.0206, -0.0161, -0.0282, -0.0303, -0.0018,  0.0240, -0.0101,
+         0.0301,  0.0017], device='cuda:0'), grad: tensor([ 8.9705e-05,  1.6785e-03,  1.7271e-03,  1.3173e-04,  5.9223e-04,
+        -2.3925e-04, -2.2364e-04,  2.5299e-02,  8.4734e-04, -2.9907e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 39, time 265.21, cls_loss 0.0182 cls_loss_mapping 0.0292 cls_loss_causal 0.7523 re_mapping 0.0198 re_causal 0.0513 /// teacc 98.63 lr 0.00010000
+Epoch 41, weight, value: tensor([[-0.0210, -0.0459, -0.0410,  ..., -0.0169,  0.0819,  0.0665],
+        [-0.0714, -0.0790, -0.0891,  ..., -0.0509, -0.0680, -0.0440],
+        [-0.0418, -0.0324,  0.0628,  ..., -0.0438,  0.0754, -0.0058],
+        ...,
+        [-0.0427,  0.0316,  0.0349,  ...,  0.0584, -0.0418, -0.0524],
+        [-0.0939,  0.0375, -0.0882,  ...,  0.0185, -0.0363, -0.0340],
+        [ 0.0337, -0.0103, -0.0453,  ...,  0.0041, -0.0292,  0.0005]],
+       device='cuda:0'), grad: tensor([[-2.2388e-04,  6.4559e-06,  1.2144e-05,  ..., -4.7803e-05,
+         -8.6021e-04, -6.6710e-04],
+        [ 5.0999e-06,  9.2506e-05,  3.3593e-04,  ...,  6.1095e-05,
+          2.2864e-04,  1.1742e-04],
+        [ 4.0308e-06,  2.7585e-04, -3.9840e-04,  ...,  2.1303e-04,
+         -4.9496e-04, -2.6894e-04],
+        ...,
+        [ 8.4043e-06, -5.6171e-04, -4.3660e-05,  ..., -3.5977e-04,
+          1.5378e-04,  8.6665e-05],
+        [ 8.6844e-05,  9.5248e-05,  6.4552e-05,  ...,  1.1641e-04,
+          5.5313e-05,  3.8266e-05],
+        [ 7.0632e-05,  3.4070e-04,  6.4898e-04,  ...,  3.4833e-04,
+          2.1505e-04,  1.6367e-04]], device='cuda:0')
+Epoch 41, bias, value: tensor([-0.0149, -0.0209, -0.0162, -0.0278, -0.0304, -0.0022,  0.0241, -0.0099,
+         0.0300,  0.0018], device='cuda:0'), grad: tensor([-1.0538e-03,  4.2272e-04, -3.1710e-04,  1.6797e-04, -1.1644e-03,
+         6.1631e-05,  6.5994e-04, -5.7316e-04,  2.8014e-04,  1.5144e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 40, time 265.16, cls_loss 0.0209 cls_loss_mapping 0.0304 cls_loss_causal 0.7307 re_mapping 0.0194 re_causal 0.0509 /// teacc 98.60 lr 0.00010000
+Epoch 42, weight, value: tensor([[-2.1314e-02, -4.6477e-02, -4.1340e-02,  ..., -1.6991e-02,
+          8.3152e-02,  6.7446e-02],
+        [-7.1942e-02, -8.0279e-02, -8.8827e-02,  ..., -5.1931e-02,
+         -6.8565e-02, -4.3897e-02],
+        [-4.2324e-02, -3.2757e-02,  6.3314e-02,  ..., -4.4658e-02,
+          7.5998e-02, -5.7002e-03],
+        ...,
+        [-4.2829e-02,  3.1579e-02,  3.4212e-02,  ...,  5.8817e-02,
+         -4.2757e-02, -5.3114e-02],
+        [-9.4988e-02,  3.7984e-02, -8.8170e-02,  ...,  1.8525e-02,
+         -3.6656e-02, -3.4171e-02],
+        [ 3.3962e-02, -1.0141e-02, -4.5372e-02,  ...,  3.8681e-03,
+         -2.9619e-02,  7.8126e-05]], device='cuda:0'), grad: tensor([[ 4.8548e-05,  1.9535e-05,  1.4283e-05,  ...,  6.9067e-06,
+          1.0145e-04,  5.6416e-05],
+        [ 3.2812e-05,  1.0103e-04,  3.7265e-04,  ...,  3.4600e-05,
+          7.2098e-04,  4.8065e-04],
+        [ 4.0323e-05, -5.0926e-04, -1.2369e-03,  ..., -1.1313e-04,
+         -2.8515e-03, -1.7376e-03],
+        ...,
+        [ 1.0617e-05,  3.5429e-04,  7.0143e-04,  ...,  5.8532e-05,
+          1.4172e-03,  8.3542e-04],
+        [ 6.5231e-04,  6.0320e-05,  3.3796e-05,  ...,  1.8448e-05,
+          1.4079e-04,  9.6083e-05],
+        [ 2.2173e-05,  2.0623e-05,  5.2862e-06,  ...,  1.3977e-05,
+          9.5844e-05,  5.5552e-05]], device='cuda:0')
+Epoch 42, bias, value: tensor([-0.0144, -0.0207, -0.0162, -0.0285, -0.0307, -0.0012,  0.0239, -0.0103,
+         0.0300,  0.0019], device='cuda:0'), grad: tensor([ 0.0003,  0.0015, -0.0056,  0.0004,  0.0005,  0.0026, -0.0036,  0.0028,
+         0.0009,  0.0002], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 41, time 265.10, cls_loss 0.0260 cls_loss_mapping 0.0317 cls_loss_causal 0.7500 re_mapping 0.0191 re_causal 0.0476 /// teacc 98.43 lr 0.00010000
+Epoch 43, weight, value: tensor([[-0.0223, -0.0473, -0.0405,  ..., -0.0173,  0.0839,  0.0677],
+        [-0.0729, -0.0813, -0.0894,  ..., -0.0523, -0.0698, -0.0448],
+        [-0.0434, -0.0326,  0.0638,  ..., -0.0453,  0.0770, -0.0049],
+        ...,
+        [-0.0432,  0.0319,  0.0361,  ...,  0.0598, -0.0433, -0.0541],
+        [-0.0957,  0.0382, -0.0890,  ...,  0.0191, -0.0376, -0.0342],
+        [ 0.0343, -0.0108, -0.0454,  ...,  0.0032, -0.0290, -0.0001]],
+       device='cuda:0'), grad: tensor([[-9.3555e-04,  2.1253e-06,  1.1034e-05,  ..., -1.3285e-03,
+         -6.0415e-04, -1.6546e-03],
+        [ 1.0297e-05,  8.0109e-05,  2.3752e-05,  ...,  1.0979e-04,
+          1.0744e-05,  3.1680e-05],
+        [ 1.9431e-05,  1.2589e-04,  2.1827e-04,  ...,  5.1641e-04,
+          6.5744e-05,  3.0828e-04],
+        ...,
+        [ 6.7949e-05, -1.1320e-03, -2.8934e-03,  ..., -2.5215e-03,
+          4.9591e-05,  1.5581e-04],
+        [ 2.5630e-04,  1.1444e-04,  1.6525e-05,  ...,  5.5075e-04,
+          1.6630e-04,  5.5075e-04],
+        [ 2.4945e-05,  5.7191e-05,  1.1712e-05,  ...,  1.3268e-04,
+          2.6748e-05,  7.4863e-05]], device='cuda:0')
+Epoch 43, bias, value: tensor([-0.0145, -0.0211, -0.0160, -0.0287, -0.0313, -0.0017,  0.0244, -0.0100,
+         0.0308,  0.0018], device='cuda:0'), grad: tensor([-0.0018,  0.0002,  0.0020,  0.0027,  0.0036, -0.0052, -0.0001, -0.0045,
+         0.0027,  0.0006], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 42----------------------------------------------------
+epoch 42, time 282.04, cls_loss 0.0204 cls_loss_mapping 0.0293 cls_loss_causal 0.7493 re_mapping 0.0192 re_causal 0.0503 /// teacc 98.77 lr 0.00010000
+Epoch 44, weight, value: tensor([[-0.0227, -0.0478, -0.0406,  ..., -0.0176,  0.0846,  0.0683],
+        [-0.0742, -0.0830, -0.0902,  ..., -0.0529, -0.0715, -0.0456],
+        [-0.0441, -0.0330,  0.0641,  ..., -0.0460,  0.0781, -0.0046],
+        ...,
+        [-0.0431,  0.0329,  0.0370,  ...,  0.0609, -0.0439, -0.0545],
+        [-0.0970,  0.0384, -0.0894,  ...,  0.0194, -0.0376, -0.0340],
+        [ 0.0343, -0.0113, -0.0458,  ...,  0.0026, -0.0292, -0.0006]],
+       device='cuda:0'), grad: tensor([[ 9.7826e-06,  2.5600e-05,  3.4627e-06,  ..., -3.4403e-06,
+         -5.8532e-05, -1.1772e-04],
+        [ 2.1532e-06,  6.6280e-05,  7.3649e-06,  ...,  4.1008e-05,
+          9.2268e-05,  1.7032e-05],
+        [ 1.2696e-05, -1.3018e-03, -8.5473e-05,  ...,  1.6630e-05,
+         -4.7417e-03, -1.6165e-04],
+        ...,
+        [ 5.7966e-06, -1.1736e-04,  1.0890e-04,  ..., -3.1757e-04,
+          7.1859e-04,  1.6284e-04],
+        [ 1.2554e-05, -2.6748e-06,  3.3733e-06,  ..., -4.9949e-05,
+          6.3419e-05,  5.4270e-05],
+        [-3.4243e-05,  1.6415e-04,  2.3484e-05,  ...,  1.8907e-04,
+          6.5804e-05,  1.2033e-05]], device='cuda:0')
+Epoch 44, bias, value: tensor([-0.0145, -0.0220, -0.0158, -0.0291, -0.0309, -0.0012,  0.0241, -0.0095,
+         0.0310,  0.0014], device='cuda:0'), grad: tensor([-2.7359e-05,  7.6711e-05, -7.3357e-03,  6.1378e-03, -1.4865e-04,
+         1.5962e-04,  2.1890e-05,  7.9727e-04,  2.9519e-05,  2.8968e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 43, time 260.04, cls_loss 0.0178 cls_loss_mapping 0.0247 cls_loss_causal 0.7020 re_mapping 0.0194 re_causal 0.0473 /// teacc 98.70 lr 0.00010000
+Epoch 45, weight, value: tensor([[-0.0231, -0.0481, -0.0408,  ..., -0.0176,  0.0853,  0.0689],
+        [-0.0748, -0.0841, -0.0903,  ..., -0.0538, -0.0720, -0.0459],
+        [-0.0449, -0.0333,  0.0645,  ..., -0.0467,  0.0789, -0.0042],
+        ...,
+        [-0.0437,  0.0327,  0.0373,  ...,  0.0613, -0.0449, -0.0552],
+        [-0.0971,  0.0385, -0.0897,  ...,  0.0202, -0.0376, -0.0337],
+        [ 0.0351, -0.0115, -0.0460,  ...,  0.0023, -0.0293, -0.0010]],
+       device='cuda:0'), grad: tensor([[ 1.7002e-05,  1.1194e-04,  5.8860e-07,  ...,  3.2634e-05,
+          1.2517e-04,  2.3410e-05],
+        [ 9.2387e-06,  1.4342e-05,  5.4576e-07,  ...,  4.7311e-06,
+          7.6592e-06,  2.3581e-06],
+        [ 1.1981e-05,  1.0443e-04, -7.6592e-06,  ...,  3.0667e-05,
+          1.3268e-04,  5.1141e-05],
+        ...,
+        [ 1.0729e-05, -4.5776e-05, -2.7753e-07,  ..., -4.5806e-05,
+          1.2167e-05,  4.0792e-06],
+        [ 6.2764e-05, -2.6011e-04,  1.9725e-06,  ..., -6.2168e-05,
+         -4.8637e-04, -1.4532e-04],
+        [ 2.2650e-05,  4.4405e-05,  1.5013e-06,  ...,  1.3880e-05,
+          2.3797e-05,  1.2212e-05]], device='cuda:0')
+Epoch 45, bias, value: tensor([-0.0145, -0.0218, -0.0156, -0.0289, -0.0311, -0.0012,  0.0236, -0.0098,
+         0.0310,  0.0017], device='cuda:0'), grad: tensor([ 2.9135e-04, -5.2738e-04,  4.2129e-04,  1.1241e-04, -5.7250e-05,
+         1.0651e-04,  3.5793e-05,  1.1969e-04, -7.1955e-04,  2.1541e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 44, time 263.58, cls_loss 0.0172 cls_loss_mapping 0.0285 cls_loss_causal 0.7269 re_mapping 0.0181 re_causal 0.0481 /// teacc 98.47 lr 0.00010000
+Epoch 46, weight, value: tensor([[-0.0232, -0.0487, -0.0409,  ..., -0.0175,  0.0860,  0.0695],
+        [-0.0766, -0.0850, -0.0906,  ..., -0.0537, -0.0726, -0.0462],
+        [-0.0456, -0.0338,  0.0650,  ..., -0.0475,  0.0797, -0.0040],
+        ...,
+        [-0.0442,  0.0335,  0.0375,  ...,  0.0621, -0.0456, -0.0554],
+        [-0.0976,  0.0385, -0.0901,  ...,  0.0205, -0.0380, -0.0338],
+        [ 0.0355, -0.0123, -0.0461,  ...,  0.0019, -0.0293, -0.0015]],
+       device='cuda:0'), grad: tensor([[ 6.2585e-06,  2.1845e-05,  1.0453e-05,  ...,  1.7136e-05,
+          3.6389e-05, -8.2403e-06],
+        [ 1.4246e-05,  1.7047e-04,  2.4326e-06,  ...,  2.2125e-04,
+         -1.4424e-05, -2.2948e-05],
+        [ 2.5690e-05,  2.8205e-04, -6.1631e-05,  ...,  1.8418e-04,
+         -2.4271e-04,  1.0043e-05],
+        ...,
+        [ 8.5533e-06, -9.5665e-05, -2.1905e-06,  ..., -1.9193e-04,
+          2.1428e-05,  3.9265e-06],
+        [ 6.2168e-05, -6.0368e-04,  1.9055e-06,  ..., -5.4169e-04,
+         -6.6042e-05,  7.0445e-06],
+        [ 1.3739e-05,  1.0091e-04,  3.1106e-07,  ...,  8.4877e-05,
+          9.7603e-06,  3.4422e-06]], device='cuda:0')
+Epoch 46, bias, value: tensor([-0.0143, -0.0216, -0.0159, -0.0285, -0.0311, -0.0015,  0.0233, -0.0097,
+         0.0311,  0.0016], device='cuda:0'), grad: tensor([ 1.2338e-04, -1.1482e-03,  1.2074e-03,  4.2486e-04,  1.4699e-04,
+         3.2115e-04, -1.7679e-04,  6.6496e-06, -1.1892e-03,  2.8348e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 45, time 265.11, cls_loss 0.0174 cls_loss_mapping 0.0280 cls_loss_causal 0.7351 re_mapping 0.0175 re_causal 0.0477 /// teacc 98.69 lr 0.00010000
+Epoch 47, weight, value: tensor([[-0.0239, -0.0492, -0.0408,  ..., -0.0176,  0.0870,  0.0701],
+        [-0.0771, -0.0852, -0.0910,  ..., -0.0542, -0.0739, -0.0465],
+        [-0.0461, -0.0342,  0.0661,  ..., -0.0481,  0.0807, -0.0038],
+        ...,
+        [-0.0447,  0.0337,  0.0371,  ...,  0.0626, -0.0465, -0.0558],
+        [-0.0989,  0.0383, -0.0906,  ...,  0.0206, -0.0389, -0.0342],
+        [ 0.0361, -0.0124, -0.0460,  ...,  0.0016, -0.0295, -0.0019]],
+       device='cuda:0'), grad: tensor([[ 1.3523e-05,  4.0221e-04,  2.0042e-06,  ...,  6.1607e-04,
+          8.2922e-04,  1.2177e-04],
+        [ 1.5222e-05,  6.3360e-05,  1.8459e-06,  ...,  3.8952e-05,
+          2.9415e-05,  8.6799e-06],
+        [ 8.6904e-05,  1.8096e-04, -2.9057e-05,  ..., -1.0766e-05,
+         -7.3624e-04, -2.3091e-04],
+        ...,
+        [-2.2918e-05, -2.7800e-04, -1.3880e-05,  ..., -9.6798e-04,
+         -4.1318e-04,  1.0478e-04],
+        [ 4.8995e-05,  1.4436e-04,  8.1286e-06,  ..., -7.1786e-06,
+          4.8190e-05,  2.7806e-05],
+        [ 1.1623e-04,  2.2912e-04,  1.8910e-05,  ...,  5.2299e-03,
+          1.3757e-04,  2.2545e-05]], device='cuda:0')
+Epoch 47, bias, value: tensor([-0.0142, -0.0211, -0.0155, -0.0284, -0.0316, -0.0016,  0.0239, -0.0104,
+         0.0308,  0.0018], device='cuda:0'), grad: tensor([ 1.6327e-03,  1.2457e-04, -4.6039e-04, -7.7820e-04, -2.8305e-02,
+         2.3651e-04,  4.7147e-05, -1.2856e-03,  7.5623e-06,  2.8763e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 46, time 265.52, cls_loss 0.0210 cls_loss_mapping 0.0260 cls_loss_causal 0.7203 re_mapping 0.0169 re_causal 0.0437 /// teacc 98.59 lr 0.00010000
+Epoch 48, weight, value: tensor([[-0.0249, -0.0497, -0.0410,  ..., -0.0179,  0.0879,  0.0707],
+        [-0.0775, -0.0862, -0.0917,  ..., -0.0549, -0.0745, -0.0464],
+        [-0.0469, -0.0344,  0.0668,  ..., -0.0484,  0.0817, -0.0033],
+        ...,
+        [-0.0452,  0.0330,  0.0372,  ...,  0.0626, -0.0480, -0.0567],
+        [-0.1006,  0.0383, -0.0910,  ...,  0.0204, -0.0399, -0.0351],
+        [ 0.0363, -0.0125, -0.0460,  ...,  0.0014, -0.0294, -0.0025]],
+       device='cuda:0'), grad: tensor([[ 2.1112e-04,  4.4346e-05,  3.1352e-05,  ...,  2.1443e-05,
+          2.6464e-04,  2.6703e-04],
+        [ 1.3337e-05,  8.6963e-05,  3.2216e-05,  ...,  5.9426e-05,
+          8.0228e-05,  5.9396e-05],
+        [ 2.0057e-05, -5.0402e-04, -4.3321e-04,  ..., -9.5814e-06,
+         -1.1053e-03, -7.6151e-04],
+        ...,
+        [ 6.4325e-04,  2.6588e-03,  5.3972e-05,  ...,  4.9782e-04,
+          3.2234e-04,  2.6441e-04],
+        [-5.0688e-04, -8.4352e-04, -1.3041e-04,  ..., -2.7885e-03,
+          2.1183e-04,  1.7905e-04],
+        [ 1.4865e-04,  7.1383e-04,  2.8566e-05,  ...,  2.2089e-04,
+          6.8009e-05,  6.2585e-05]], device='cuda:0')
+Epoch 48, bias, value: tensor([-0.0143, -0.0209, -0.0156, -0.0278, -0.0320, -0.0017,  0.0241, -0.0112,
+         0.0306,  0.0025], device='cuda:0'), grad: tensor([ 4.2415e-04,  2.2626e-04, -2.2335e-03, -1.5144e-03,  3.1614e-04,
+         3.2558e-03, -7.7128e-05,  2.1763e-03, -3.2520e-03,  6.8283e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 47, time 265.55, cls_loss 0.0164 cls_loss_mapping 0.0261 cls_loss_causal 0.7087 re_mapping 0.0170 re_causal 0.0462 /// teacc 98.74 lr 0.00010000
+Epoch 49, weight, value: tensor([[-0.0251, -0.0502, -0.0412,  ..., -0.0181,  0.0889,  0.0715],
+        [-0.0783, -0.0868, -0.0919,  ..., -0.0558, -0.0750, -0.0466],
+        [-0.0480, -0.0346,  0.0668,  ..., -0.0492,  0.0821, -0.0030],
+        ...,
+        [-0.0458,  0.0332,  0.0375,  ...,  0.0640, -0.0483, -0.0572],
+        [-0.1015,  0.0383, -0.0912,  ...,  0.0206, -0.0398, -0.0353],
+        [ 0.0365, -0.0129, -0.0462,  ...,  0.0008, -0.0301, -0.0032]],
+       device='cuda:0'), grad: tensor([[ 7.5221e-05,  6.3181e-05,  9.3803e-06,  ...,  1.1384e-04,
+         -6.1333e-05, -4.0770e-05],
+        [ 2.0489e-05,  1.2189e-04,  8.2254e-05,  ...,  1.4174e-04,
+          3.2783e-05,  5.6662e-06],
+        [ 1.9327e-05,  3.6049e-04,  1.8764e-04,  ...,  2.8849e-04,
+         -1.2577e-05,  3.4440e-06],
+        ...,
+        [ 8.0490e-04, -2.3460e-04, -4.3678e-04,  ...,  4.8923e-04,
+         -1.2469e-04, -1.8284e-05],
+        [ 2.1946e-04,  1.0526e-04,  2.0504e-05,  ...,  2.6751e-04,
+          4.1515e-05,  2.4922e-06],
+        [ 8.5771e-05, -8.1897e-05,  2.4602e-05,  ...,  4.2295e-04,
+          1.0997e-05,  4.0531e-06]], device='cuda:0')
+Epoch 49, bias, value: tensor([-0.0140, -0.0206, -0.0159, -0.0276, -0.0318, -0.0019,  0.0232, -0.0109,
+         0.0310,  0.0020], device='cuda:0'), grad: tensor([ 8.0347e-05,  7.2718e-04,  5.2881e-04,  4.1890e-04, -7.9803e-03,
+        -8.6403e-04,  5.7891e-06,  7.5722e-04,  2.4724e-04,  6.0806e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 48, time 265.56, cls_loss 0.0161 cls_loss_mapping 0.0223 cls_loss_causal 0.7041 re_mapping 0.0165 re_causal 0.0440 /// teacc 98.65 lr 0.00010000
+Epoch 50, weight, value: tensor([[-0.0254, -0.0507, -0.0413,  ..., -0.0182,  0.0894,  0.0719],
+        [-0.0801, -0.0874, -0.0925,  ..., -0.0566, -0.0765, -0.0473],
+        [-0.0475, -0.0350,  0.0676,  ..., -0.0501,  0.0831, -0.0024],
+        ...,
+        [-0.0464,  0.0335,  0.0376,  ...,  0.0647, -0.0490, -0.0577],
+        [-0.1024,  0.0382, -0.0917,  ...,  0.0212, -0.0405, -0.0356],
+        [ 0.0372, -0.0129, -0.0460,  ...,  0.0004, -0.0308, -0.0036]],
+       device='cuda:0'), grad: tensor([[-8.2612e-05, -8.3506e-05,  5.6401e-06,  ..., -3.4451e-05,
+         -9.3699e-04, -7.7105e-04],
+        [ 6.0126e-06,  1.9324e-04,  7.0967e-06,  ...,  1.1557e-04,
+          4.2409e-05,  1.4096e-05],
+        [ 1.4558e-05,  6.8247e-05, -2.1732e-04,  ...,  6.9559e-05,
+         -3.7909e-04,  1.3940e-05],
+        ...,
+        [ 3.4012e-06, -1.0958e-03,  3.8929e-06,  ..., -8.5163e-04,
+          1.2994e-04,  5.9485e-05],
+        [ 4.1515e-05,  2.5600e-05,  4.2617e-06,  ...,  3.4660e-05,
+          5.3883e-05,  4.7237e-05],
+        [-2.5809e-05,  5.0879e-04,  9.7752e-05,  ...,  4.6492e-04,
+          1.8334e-04,  3.1412e-05]], device='cuda:0')
+Epoch 50, bias, value: tensor([-0.0139, -0.0211, -0.0151, -0.0274, -0.0314, -0.0024,  0.0236, -0.0114,
+         0.0311,  0.0019], device='cuda:0'), grad: tensor([-1.2026e-03,  2.6727e-04, -7.3528e-04,  7.1096e-04,  2.9635e-04,
+        -1.5393e-05,  9.8419e-04, -1.4954e-03,  1.2910e-04,  1.0624e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 49, time 265.88, cls_loss 0.0199 cls_loss_mapping 0.0287 cls_loss_causal 0.6855 re_mapping 0.0175 re_causal 0.0426 /// teacc 98.66 lr 0.00010000
+Epoch 51, weight, value: tensor([[-0.0259, -0.0510, -0.0415,  ..., -0.0184,  0.0900,  0.0723],
+        [-0.0808, -0.0883, -0.0934,  ..., -0.0572, -0.0772, -0.0473],
+        [-0.0482, -0.0355,  0.0680,  ..., -0.0515,  0.0837, -0.0026],
+        ...,
+        [-0.0474,  0.0336,  0.0377,  ...,  0.0655, -0.0494, -0.0580],
+        [-0.1034,  0.0385, -0.0913,  ...,  0.0216, -0.0400, -0.0353],
+        [ 0.0375, -0.0136, -0.0458,  ..., -0.0002, -0.0313, -0.0040]],
+       device='cuda:0'), grad: tensor([[ 2.4453e-05,  1.2286e-05,  5.9977e-06,  ...,  1.1809e-05,
+          1.9670e-05,  1.4350e-05],
+        [ 9.4697e-06,  8.0943e-05,  3.3259e-05,  ...,  6.8843e-05,
+          4.0948e-05,  2.0593e-05],
+        [ 1.5402e-04,  1.6892e-04, -4.1723e-05,  ...,  4.5061e-05,
+         -6.3598e-05, -8.1122e-05],
+        ...,
+        [-1.8895e-04, -1.3275e-03, -4.7493e-04,  ..., -1.1206e-03,
+          3.7491e-05,  1.5222e-05],
+        [ 8.3685e-05,  1.4327e-05,  2.9743e-05,  ...,  6.2466e-05,
+          3.6925e-05,  1.4700e-05],
+        [ 1.3518e-04,  2.8253e-04,  3.6627e-05,  ...,  3.2663e-04,
+          1.1303e-05,  5.0813e-06]], device='cuda:0')
+Epoch 51, bias, value: tensor([-0.0141, -0.0218, -0.0151, -0.0272, -0.0310, -0.0021,  0.0231, -0.0113,
+         0.0320,  0.0013], device='cuda:0'), grad: tensor([ 5.9098e-05,  1.4687e-04,  9.7632e-05, -2.2495e-04,  1.2102e-03,
+        -2.7031e-05,  4.1991e-05, -2.0885e-03,  1.6928e-04,  6.1560e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 50, time 265.37, cls_loss 0.0193 cls_loss_mapping 0.0255 cls_loss_causal 0.6766 re_mapping 0.0170 re_causal 0.0436 /// teacc 98.60 lr 0.00010000
+Epoch 52, weight, value: tensor([[-0.0264, -0.0515, -0.0417,  ..., -0.0186,  0.0900,  0.0723],
+        [-0.0814, -0.0901, -0.0941,  ..., -0.0576, -0.0780, -0.0476],
+        [-0.0487, -0.0361,  0.0685,  ..., -0.0521,  0.0854, -0.0017],
+        ...,
+        [-0.0476,  0.0345,  0.0378,  ...,  0.0661, -0.0507, -0.0591],
+        [-0.1049,  0.0388, -0.0914,  ...,  0.0215, -0.0401, -0.0357],
+        [ 0.0375, -0.0144, -0.0459,  ..., -0.0006, -0.0316, -0.0042]],
+       device='cuda:0'), grad: tensor([[ 8.5711e-05,  2.8342e-05,  2.2314e-06,  ...,  2.0340e-05,
+         -4.4368e-06,  7.0594e-07],
+        [ 1.4193e-05,  2.1648e-04,  3.8557e-06,  ...,  1.4615e-04,
+          1.4659e-06,  1.6298e-06],
+        [ 2.4393e-05,  1.3566e-04, -3.2075e-06,  ...,  8.6129e-05,
+         -7.8678e-06, -4.0419e-07],
+        ...,
+        [ 2.0355e-05,  2.2797e-02, -3.0324e-05,  ...,  1.4809e-02,
+          7.1339e-06,  3.7383e-06],
+        [ 1.1146e-04, -2.5055e-02,  1.1779e-05,  ..., -1.6312e-02,
+          8.2180e-06,  1.0990e-05],
+        [ 9.1910e-05,  3.1638e-04,  2.4680e-06,  ...,  2.3460e-04,
+          2.2519e-06,  5.3383e-06]], device='cuda:0')
+Epoch 52, bias, value: tensor([-0.0146, -0.0223, -0.0153, -0.0272, -0.0312, -0.0024,  0.0238, -0.0106,
+         0.0320,  0.0013], device='cuda:0'), grad: tensor([ 1.5092e-04,  1.6272e-04,  1.9479e-04,  3.7079e-03,  3.9667e-05,
+        -2.4738e-03,  5.1349e-05,  2.4918e-02, -2.7191e-02,  4.5109e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 51----------------------------------------------------
+epoch 51, time 281.80, cls_loss 0.0164 cls_loss_mapping 0.0217 cls_loss_causal 0.6797 re_mapping 0.0158 re_causal 0.0399 /// teacc 98.79 lr 0.00010000
+Epoch 53, weight, value: tensor([[-0.0266, -0.0522, -0.0419,  ..., -0.0188,  0.0915,  0.0736],
+        [-0.0819, -0.0912, -0.0936,  ..., -0.0584, -0.0795, -0.0484],
+        [-0.0495, -0.0373,  0.0690,  ..., -0.0536,  0.0857, -0.0016],
+        ...,
+        [-0.0477,  0.0356,  0.0379,  ...,  0.0672, -0.0511, -0.0593],
+        [-0.1055,  0.0395, -0.0919,  ...,  0.0223, -0.0408, -0.0362],
+        [ 0.0377, -0.0154, -0.0465,  ..., -0.0010, -0.0320, -0.0046]],
+       device='cuda:0'), grad: tensor([[-1.0562e-04,  2.3972e-06,  4.6566e-07,  ...,  1.2890e-06,
+         -1.5426e-04, -1.3697e-04],
+        [ 1.0669e-05,  1.1452e-05,  1.3541e-06,  ...,  3.4831e-06,
+          2.3115e-06,  1.3057e-06],
+        [ 5.2229e-06,  1.9759e-05, -3.4086e-06,  ...,  3.2578e-06,
+         -2.4125e-05, -6.8508e-06],
+        ...,
+        [ 1.6585e-05, -6.9797e-05, -1.4484e-05,  ..., -5.0634e-05,
+          1.3985e-05,  4.7348e-06],
+        [ 1.2159e-04,  2.0787e-05,  2.0713e-06,  ...,  7.6219e-06,
+          4.7296e-05,  5.5254e-05],
+        [-1.7726e-04,  1.0855e-05,  7.1377e-06,  ..., -2.4423e-05,
+          7.4863e-05,  4.8019e-06]], device='cuda:0')
+Epoch 53, bias, value: tensor([-0.0137, -0.0217, -0.0156, -0.0277, -0.0313, -0.0026,  0.0233, -0.0101,
+         0.0321,  0.0009], device='cuda:0'), grad: tensor([-1.3626e-04, -1.8477e-05, -4.1425e-06,  1.5271e-04, -1.0985e-04,
+        -4.9919e-05,  1.0081e-05, -3.4213e-05,  2.7704e-04, -8.6546e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 52, time 266.08, cls_loss 0.0163 cls_loss_mapping 0.0217 cls_loss_causal 0.6746 re_mapping 0.0155 re_causal 0.0400 /// teacc 98.72 lr 0.00010000
+Epoch 54, weight, value: tensor([[-0.0274, -0.0527, -0.0421,  ..., -0.0190,  0.0928,  0.0745],
+        [-0.0826, -0.0909, -0.0941,  ..., -0.0591, -0.0804, -0.0490],
+        [-0.0506, -0.0375,  0.0694,  ..., -0.0543,  0.0863, -0.0012],
+        ...,
+        [-0.0486,  0.0355,  0.0381,  ...,  0.0679, -0.0520, -0.0603],
+        [-0.1061,  0.0396, -0.0924,  ...,  0.0225, -0.0413, -0.0360],
+        [ 0.0387, -0.0155, -0.0469,  ..., -0.0015, -0.0324, -0.0050]],
+       device='cuda:0'), grad: tensor([[ 1.3851e-05,  2.1681e-05,  3.7253e-05,  ...,  1.3702e-05,
+          7.0333e-05,  2.9579e-05],
+        [ 5.8636e-06,  6.2659e-06,  2.2831e-03,  ...,  5.5842e-06,
+          4.3526e-03,  2.8000e-03],
+        [ 4.4703e-06, -1.0006e-05, -2.6588e-03,  ...,  7.7486e-06,
+         -5.1041e-03, -3.2463e-03],
+        ...,
+        [-1.1511e-05, -6.2466e-05,  1.0121e-04,  ..., -8.0347e-05,
+          1.8632e-04,  1.1730e-04],
+        [ 6.4313e-05,  2.0877e-05,  7.8440e-05,  ...,  1.7166e-05,
+          1.4794e-04,  8.6725e-05],
+        [-1.3745e-04,  2.4542e-05, -1.5032e-06,  ...,  5.4330e-05,
+          1.4007e-05,  9.3952e-06]], device='cuda:0')
+Epoch 54, bias, value: tensor([-0.0131, -0.0212, -0.0155, -0.0278, -0.0316, -0.0029,  0.0233, -0.0108,
+         0.0323,  0.0013], device='cuda:0'), grad: tensor([ 0.0002,  0.0106, -0.0122,  0.0011,  0.0004, -0.0008,  0.0003,  0.0004,
+         0.0004, -0.0002], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 53, time 266.08, cls_loss 0.0172 cls_loss_mapping 0.0232 cls_loss_causal 0.7259 re_mapping 0.0152 re_causal 0.0411 /// teacc 98.77 lr 0.00010000
+Epoch 55, weight, value: tensor([[-0.0282, -0.0534, -0.0425,  ..., -0.0193,  0.0931,  0.0748],
+        [-0.0834, -0.0923, -0.0949,  ..., -0.0600, -0.0816, -0.0493],
+        [-0.0513, -0.0374,  0.0702,  ..., -0.0553,  0.0874,  0.0001],
+        ...,
+        [-0.0501,  0.0356,  0.0382,  ...,  0.0686, -0.0516, -0.0617],
+        [-0.1072,  0.0401, -0.0930,  ...,  0.0222, -0.0417, -0.0363],
+        [ 0.0392, -0.0165, -0.0469,  ..., -0.0017, -0.0325, -0.0051]],
+       device='cuda:0'), grad: tensor([[ 3.2635e-03,  5.1744e-06,  4.1910e-07,  ...,  9.8991e-04,
+          1.9703e-03,  2.4052e-03],
+        [ 3.3025e-06,  3.0249e-05, -1.2722e-06,  ...,  1.7917e-04,
+          1.6410e-06, -8.6613e-07],
+        [ 9.6112e-06,  4.6194e-05, -2.2594e-06,  ...,  6.1274e-05,
+         -1.6261e-06,  4.1537e-06],
+        ...,
+        [-3.2298e-06, -1.9121e-04,  2.5611e-06,  ..., -1.2045e-03,
+          4.5262e-06,  2.6114e-06],
+        [ 3.1888e-05, -6.4731e-05,  1.2517e-06,  ...,  2.3794e-04,
+          1.9014e-05,  2.0936e-05],
+        [ 5.5879e-08,  6.5386e-05, -9.9093e-07,  ...,  4.2892e-04,
+          3.9861e-06,  2.6878e-06]], device='cuda:0')
+Epoch 55, bias, value: tensor([-0.0138, -0.0217, -0.0151, -0.0283, -0.0319, -0.0022,  0.0230, -0.0104,
+         0.0324,  0.0014], device='cuda:0'), grad: tensor([ 3.5305e-03, -4.2462e-04,  2.3603e-04,  2.3639e-04, -6.1274e-05,
+         4.6921e-04, -3.7003e-03, -1.4229e-03,  4.6706e-04,  6.7234e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 54, time 265.52, cls_loss 0.0172 cls_loss_mapping 0.0235 cls_loss_causal 0.7089 re_mapping 0.0149 re_causal 0.0394 /// teacc 98.70 lr 0.00010000
+Epoch 56, weight, value: tensor([[-0.0288, -0.0540, -0.0426,  ..., -0.0198,  0.0940,  0.0754],
+        [-0.0854, -0.0928, -0.0951,  ..., -0.0607, -0.0822, -0.0488],
+        [-0.0520, -0.0378,  0.0709,  ..., -0.0561,  0.0881,  0.0002],
+        ...,
+        [-0.0505,  0.0355,  0.0383,  ...,  0.0692, -0.0526, -0.0619],
+        [-0.1084,  0.0413, -0.0934,  ...,  0.0232, -0.0418, -0.0366],
+        [ 0.0399, -0.0173, -0.0471,  ..., -0.0023, -0.0325, -0.0052]],
+       device='cuda:0'), grad: tensor([[ 1.1787e-05,  3.2723e-05,  2.5239e-06,  ...,  3.0845e-05,
+         -2.1076e-04, -1.7679e-04],
+        [ 3.6173e-06,  7.6175e-05,  1.1642e-06,  ...,  7.1406e-05,
+          9.0301e-06,  4.6901e-06],
+        [ 8.5458e-06,  5.3883e-04,  1.0077e-06,  ...,  5.0259e-04,
+          4.9472e-05,  5.2065e-05],
+        ...,
+        [ 8.8960e-06, -1.4877e-03,  9.3281e-06,  ..., -1.3924e-03,
+          3.0443e-05,  1.3448e-05],
+        [ 2.7835e-05,  1.2040e-04,  1.1977e-06,  ...,  6.6638e-05,
+          4.8429e-05,  3.9011e-05],
+        [-5.9795e-04,  3.6329e-05,  4.9919e-05,  ...,  5.7071e-05,
+          4.2617e-05,  3.0518e-05]], device='cuda:0')
+Epoch 56, bias, value: tensor([-0.0144, -0.0216, -0.0151, -0.0285, -0.0317, -0.0017,  0.0230, -0.0108,
+         0.0326,  0.0016], device='cuda:0'), grad: tensor([-1.8311e-04,  1.2398e-04,  1.2779e-03,  1.6975e-03, -1.5497e-04,
+         6.3133e-04,  4.2677e-05, -3.1357e-03,  3.0041e-04, -6.0081e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 55, time 265.32, cls_loss 0.0178 cls_loss_mapping 0.0219 cls_loss_causal 0.6829 re_mapping 0.0157 re_causal 0.0380 /// teacc 98.72 lr 0.00010000
+Epoch 57, weight, value: tensor([[-0.0296, -0.0545, -0.0429,  ..., -0.0199,  0.0946,  0.0759],
+        [-0.0863, -0.0937, -0.0953,  ..., -0.0614, -0.0839, -0.0493],
+        [-0.0531, -0.0384,  0.0713,  ..., -0.0569,  0.0888,  0.0002],
+        ...,
+        [-0.0518,  0.0354,  0.0382,  ...,  0.0698, -0.0530, -0.0622],
+        [-0.1097,  0.0415, -0.0939,  ...,  0.0232, -0.0426, -0.0369],
+        [ 0.0405, -0.0182, -0.0474,  ..., -0.0031, -0.0327, -0.0057]],
+       device='cuda:0'), grad: tensor([[ 3.1721e-06,  8.3223e-06,  1.8291e-06,  ...,  4.4405e-06,
+         -9.2015e-06, -5.0850e-06],
+        [ 1.6522e-06,  1.0267e-05,  5.8115e-06,  ...,  4.3958e-06,
+          5.6289e-06,  1.1511e-06],
+        [ 2.8498e-06, -1.1563e-04, -1.3304e-04,  ..., -4.7199e-06,
+         -2.2531e-04, -1.0926e-04],
+        ...,
+        [-7.5221e-05, -5.6684e-05,  1.4341e-04,  ..., -1.2195e-04,
+          2.1470e-04,  9.9719e-05],
+        [ 1.3411e-05, -2.1172e-04,  6.9179e-06,  ..., -1.2541e-04,
+          1.1221e-05,  6.1691e-06],
+        [ 5.3942e-05,  1.3876e-04,  1.2910e-04,  ...,  8.1956e-05,
+          2.8253e-05,  2.9430e-06]], device='cuda:0')
+Epoch 57, bias, value: tensor([-0.0144, -0.0221, -0.0153, -0.0282, -0.0314, -0.0014,  0.0235, -0.0112,
+         0.0326,  0.0015], device='cuda:0'), grad: tensor([ 1.1526e-05, -2.8219e-06, -3.6502e-04,  2.0409e-04, -2.3308e-03,
+         5.5730e-05, -2.7567e-07,  3.6979e-04, -1.8990e-04,  2.2469e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 56, time 265.73, cls_loss 0.0169 cls_loss_mapping 0.0210 cls_loss_causal 0.6573 re_mapping 0.0156 re_causal 0.0372 /// teacc 98.78 lr 0.00010000
+Epoch 58, weight, value: tensor([[-0.0305, -0.0552, -0.0436,  ..., -0.0202,  0.0948,  0.0761],
+        [-0.0870, -0.0946, -0.0955,  ..., -0.0621, -0.0853, -0.0494],
+        [-0.0538, -0.0386,  0.0721,  ..., -0.0575,  0.0896,  0.0013],
+        ...,
+        [-0.0522,  0.0356,  0.0381,  ...,  0.0706, -0.0532, -0.0636],
+        [-0.1115,  0.0418, -0.0945,  ...,  0.0232, -0.0430, -0.0372],
+        [ 0.0406, -0.0197, -0.0475,  ..., -0.0038, -0.0332, -0.0062]],
+       device='cuda:0'), grad: tensor([[ 2.5202e-06,  9.0301e-06,  1.9558e-07,  ..., -4.9055e-05,
+         -3.1590e-04, -2.5058e-04],
+        [ 1.5885e-05,  5.2959e-05,  1.2852e-06,  ...,  2.3201e-05,
+          3.5077e-05,  2.2799e-05],
+        [ 4.0308e-06,  1.6224e-04, -8.0243e-06,  ...,  2.9713e-05,
+          5.0366e-05,  1.3739e-05],
+        ...,
+        [-5.2787e-06, -7.3195e-04, -4.3772e-07,  ..., -4.0197e-04,
+          4.2498e-05,  2.7090e-05],
+        [ 4.2051e-05,  6.9559e-05,  1.0356e-06,  ...,  1.5005e-05,
+          1.2493e-04,  7.8499e-05],
+        [-6.0797e-05,  1.7130e-04,  1.9800e-06,  ...,  1.1557e-04,
+          3.6597e-05,  2.4036e-05]], device='cuda:0')
+Epoch 58, bias, value: tensor([-0.0151, -0.0218, -0.0156, -0.0274, -0.0312, -0.0013,  0.0237, -0.0106,
+         0.0323,  0.0006], device='cuda:0'), grad: tensor([-4.1175e-04,  1.1873e-04,  2.3568e-04,  4.8733e-04,  1.4372e-05,
+         1.7571e-04, -1.3101e-04, -9.3079e-04,  3.1281e-04,  1.2946e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 57, time 265.39, cls_loss 0.0164 cls_loss_mapping 0.0201 cls_loss_causal 0.7051 re_mapping 0.0146 re_causal 0.0384 /// teacc 98.74 lr 0.00010000
+Epoch 59, weight, value: tensor([[-0.0314, -0.0558, -0.0437,  ..., -0.0199,  0.0957,  0.0769],
+        [-0.0878, -0.0955, -0.0959,  ..., -0.0627, -0.0867, -0.0500],
+        [-0.0544, -0.0384,  0.0719,  ..., -0.0575,  0.0905,  0.0020],
+        ...,
+        [-0.0530,  0.0361,  0.0390,  ...,  0.0717, -0.0539, -0.0646],
+        [-0.1127,  0.0416, -0.0945,  ...,  0.0229, -0.0436, -0.0377],
+        [ 0.0406, -0.0206, -0.0479,  ..., -0.0043, -0.0337, -0.0066]],
+       device='cuda:0'), grad: tensor([[ 3.8408e-06,  7.3493e-05,  1.5393e-05,  ...,  2.8200e-06,
+          1.5116e-04,  4.0829e-05],
+        [-9.5889e-06,  6.6347e-06,  3.1758e-06,  ...,  4.4480e-06,
+          1.2651e-05, -2.4214e-07],
+        [ 1.0543e-06, -1.0514e-04,  1.5140e-04,  ...,  1.4675e-04,
+          1.4052e-05, -7.9036e-05],
+        ...,
+        [ 7.6666e-06, -2.8563e-04,  3.6322e-06,  ..., -1.8013e-04,
+         -9.6738e-05, -4.1097e-05],
+        [ 4.3958e-06,  2.1315e-04,  9.4064e-07,  ...,  5.8487e-07,
+          3.6860e-04,  1.4055e-04],
+        [ 3.6489e-06,  9.7156e-06,  1.5795e-05,  ...,  6.8136e-06,
+          8.1658e-06,  1.7863e-06]], device='cuda:0')
+Epoch 59, bias, value: tensor([-0.0144, -0.0218, -0.0150, -0.0273, -0.0319, -0.0010,  0.0239, -0.0103,
+         0.0319, -0.0002], device='cuda:0'), grad: tensor([ 2.1160e-04, -2.2840e-04,  3.7265e-04,  1.8775e-04, -2.6932e-03,
+         7.9691e-05,  1.6966e-03, -2.0850e-04, -7.9930e-05,  6.6137e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 58, time 265.55, cls_loss 0.0151 cls_loss_mapping 0.0201 cls_loss_causal 0.6425 re_mapping 0.0153 re_causal 0.0380 /// teacc 98.72 lr 0.00010000
+Epoch 60, weight, value: tensor([[-0.0313, -0.0564, -0.0439,  ..., -0.0198,  0.0963,  0.0775],
+        [-0.0904, -0.0960, -0.0974,  ..., -0.0634, -0.0885, -0.0507],
+        [-0.0540, -0.0381,  0.0731,  ..., -0.0577,  0.0915,  0.0030],
+        ...,
+        [-0.0533,  0.0364,  0.0389,  ...,  0.0724, -0.0554, -0.0661],
+        [-0.1130,  0.0416, -0.0949,  ...,  0.0231, -0.0432, -0.0376],
+        [ 0.0409, -0.0209, -0.0478,  ..., -0.0050, -0.0340, -0.0069]],
+       device='cuda:0'), grad: tensor([[ 2.2259e-06,  1.5020e-05,  4.8168e-06,  ...,  1.9521e-05,
+         -6.5446e-05, -3.9816e-05],
+        [ 1.8720e-06,  7.5400e-05,  1.9580e-05,  ...,  1.0425e-04,
+          1.8552e-05,  4.0121e-06],
+        [ 3.9749e-06,  1.6308e-04,  4.2208e-06,  ...,  1.8561e-04,
+          2.8804e-05,  1.2256e-05],
+        ...,
+        [ 2.9169e-06, -4.2826e-05, -1.4400e-04,  ..., -1.6558e-04,
+          8.1360e-06,  4.1053e-06],
+        [ 7.2159e-06, -9.0456e-04,  5.0291e-07,  ..., -1.0576e-03,
+         -1.3554e-04, -4.0710e-05],
+        [-7.6815e-06,  4.7028e-05,  1.0383e-04,  ...,  1.4424e-04,
+          8.2031e-06,  4.6492e-06]], device='cuda:0')
+Epoch 60, bias, value: tensor([-0.0144, -0.0227, -0.0138, -0.0277, -0.0315, -0.0008,  0.0231, -0.0105,
+         0.0325, -0.0003], device='cuda:0'), grad: tensor([-7.8045e-07,  1.0937e-04,  5.3120e-04,  6.1321e-04,  1.9109e-04,
+         1.2064e-03,  2.4056e-04, -3.5286e-04, -2.6760e-03,  1.3494e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 59, time 265.37, cls_loss 0.0142 cls_loss_mapping 0.0233 cls_loss_causal 0.6752 re_mapping 0.0155 re_causal 0.0393 /// teacc 98.77 lr 0.00010000
+Epoch 61, weight, value: tensor([[-0.0316, -0.0568, -0.0441,  ..., -0.0200,  0.0972,  0.0781],
+        [-0.0916, -0.0971, -0.0974,  ..., -0.0647, -0.0899, -0.0511],
+        [-0.0536, -0.0385,  0.0735,  ..., -0.0583,  0.0917,  0.0032],
+        ...,
+        [-0.0540,  0.0361,  0.0388,  ...,  0.0723, -0.0554, -0.0668],
+        [-0.1138,  0.0429, -0.0956,  ...,  0.0244, -0.0435, -0.0377],
+        [ 0.0417, -0.0212, -0.0482,  ..., -0.0050, -0.0346, -0.0073]],
+       device='cuda:0'), grad: tensor([[ 3.1114e-05,  1.5569e-04, -3.4124e-06,  ...,  1.6633e-06,
+          6.7353e-05, -1.9148e-05],
+        [ 5.8673e-07,  3.0547e-05,  4.6305e-06,  ...,  2.0891e-05,
+         -3.9101e-04,  4.2878e-06],
+        [ 1.1310e-05,  1.8501e-04, -4.8205e-06,  ...,  1.3359e-05,
+          5.9247e-05,  7.4089e-05],
+        ...,
+        [ 1.2461e-06, -1.0781e-05, -4.2357e-06,  ..., -7.0572e-05,
+          2.8938e-05,  6.6385e-06],
+        [ 2.8536e-05,  3.1531e-05,  6.2771e-06,  ...,  2.0817e-05,
+          3.1590e-04,  3.6597e-05],
+        [-6.4187e-06,  8.6576e-06, -3.1609e-06,  ...,  1.2301e-05,
+          5.9828e-06,  1.8273e-06]], device='cuda:0')
+Epoch 61, bias, value: tensor([-0.0141, -0.0235, -0.0140, -0.0278, -0.0311, -0.0014,  0.0234, -0.0103,
+         0.0329, -0.0003], device='cuda:0'), grad: tensor([ 0.0002, -0.0057,  0.0005, -0.0007, -0.0013,  0.0001,  0.0021,  0.0002,
+         0.0043,  0.0003], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 60, time 265.16, cls_loss 0.0152 cls_loss_mapping 0.0236 cls_loss_causal 0.6916 re_mapping 0.0143 re_causal 0.0368 /// teacc 98.79 lr 0.00010000
+Epoch 62, weight, value: tensor([[-0.0316, -0.0573, -0.0444,  ..., -0.0200,  0.0976,  0.0789],
+        [-0.0921, -0.0977, -0.0979,  ..., -0.0653, -0.0907, -0.0511],
+        [-0.0543, -0.0380,  0.0741,  ..., -0.0591,  0.0925,  0.0034],
+        ...,
+        [-0.0545,  0.0366,  0.0389,  ...,  0.0730, -0.0567, -0.0677],
+        [-0.1146,  0.0430, -0.0962,  ...,  0.0250, -0.0442, -0.0381],
+        [ 0.0420, -0.0219, -0.0482,  ..., -0.0058, -0.0336, -0.0078]],
+       device='cuda:0'), grad: tensor([[ 4.4294e-06,  3.5726e-06,  2.7940e-07,  ...,  2.3413e-06,
+         -8.4996e-05, -6.3837e-05],
+        [ 5.3570e-06,  1.1273e-05,  1.5274e-07,  ...,  1.6037e-06,
+          1.1977e-06,  7.1153e-07],
+        [ 7.5176e-06,  7.5340e-05,  3.9898e-06,  ...,  1.4335e-05,
+          1.2621e-05,  3.5055e-06],
+        ...,
+        [ 8.0913e-06,  1.4283e-05,  8.4564e-07,  ..., -1.8492e-05,
+         -2.9802e-08,  4.8056e-07],
+        [ 2.4691e-05,  2.6867e-05, -1.6652e-06,  ..., -1.0736e-05,
+         -2.6841e-06,  3.4124e-06],
+        [-7.2233e-06,  1.6198e-05,  1.2703e-06,  ...,  9.9689e-06,
+          5.2571e-05,  4.0799e-05]], device='cuda:0')
+Epoch 62, bias, value: tensor([-0.0147, -0.0229, -0.0140, -0.0283, -0.0312, -0.0010,  0.0229, -0.0106,
+         0.0328,  0.0005], device='cuda:0'), grad: tensor([-7.4863e-05, -3.1665e-06,  1.1635e-04, -2.3711e-04,  8.4937e-05,
+         4.4405e-05,  2.5779e-05,  5.5015e-05,  4.6760e-05, -5.8174e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 61----------------------------------------------------
+epoch 61, time 282.08, cls_loss 0.0121 cls_loss_mapping 0.0156 cls_loss_causal 0.6431 re_mapping 0.0137 re_causal 0.0341 /// teacc 98.80 lr 0.00010000
+Epoch 63, weight, value: tensor([[-0.0324, -0.0579, -0.0446,  ..., -0.0209,  0.0980,  0.0792],
+        [-0.0925, -0.0981, -0.0977,  ..., -0.0659, -0.0913, -0.0511],
+        [-0.0549, -0.0381,  0.0745,  ..., -0.0598,  0.0930,  0.0035],
+        ...,
+        [-0.0554,  0.0370,  0.0389,  ...,  0.0737, -0.0574, -0.0682],
+        [-0.1155,  0.0430, -0.0964,  ...,  0.0253, -0.0441, -0.0383],
+        [ 0.0418, -0.0225, -0.0485,  ..., -0.0066, -0.0339, -0.0083]],
+       device='cuda:0'), grad: tensor([[ 1.2860e-05,  6.2212e-06,  2.4810e-06,  ...,  2.0996e-05,
+          3.5968e-06, -1.2822e-05],
+        [ 4.0419e-06,  2.0728e-05,  1.3471e-05,  ...,  7.8321e-05,
+         -6.1207e-06, -9.1344e-06],
+        [ 3.5428e-06,  5.6595e-05, -1.3866e-05,  ...,  3.6418e-05,
+         -2.6941e-04,  8.7395e-06],
+        ...,
+        [ 5.2452e-06, -2.0409e-04, -3.0637e-05,  ..., -2.7895e-04,
+         -1.7267e-06,  1.3281e-06],
+        [ 2.2218e-05,  1.8671e-05,  8.4564e-07,  ...,  7.9945e-06,
+          4.6603e-06,  6.1467e-08],
+        [-2.9683e-04, -5.3532e-06,  9.2015e-06,  ..., -2.5481e-05,
+         -2.5168e-05,  3.1106e-06]], device='cuda:0')
+Epoch 63, bias, value: tensor([-0.0152, -0.0223, -0.0141, -0.0284, -0.0305, -0.0006,  0.0232, -0.0109,
+         0.0329, -0.0003], device='cuda:0'), grad: tensor([ 8.5115e-05,  1.4925e-04, -1.7717e-05,  4.1318e-04,  4.7898e-04,
+         5.2118e-04,  4.2528e-05, -6.6328e-04,  5.8353e-05, -1.0672e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 62, time 265.67, cls_loss 0.0129 cls_loss_mapping 0.0170 cls_loss_causal 0.6684 re_mapping 0.0140 re_causal 0.0348 /// teacc 98.73 lr 0.00010000
+Epoch 64, weight, value: tensor([[-0.0328, -0.0583, -0.0447,  ..., -0.0210,  0.0985,  0.0796],
+        [-0.0933, -0.0987, -0.0983,  ..., -0.0669, -0.0929, -0.0520],
+        [-0.0551, -0.0383,  0.0750,  ..., -0.0607,  0.0944,  0.0048],
+        ...,
+        [-0.0548,  0.0372,  0.0390,  ...,  0.0748, -0.0580, -0.0691],
+        [-0.1163,  0.0430, -0.0965,  ...,  0.0254, -0.0451, -0.0388],
+        [ 0.0421, -0.0229, -0.0486,  ..., -0.0072, -0.0344, -0.0087]],
+       device='cuda:0'), grad: tensor([[ 2.5660e-05,  1.9699e-05,  3.0845e-06,  ...,  2.9653e-05,
+         -3.3349e-05, -1.2346e-05],
+        [ 6.8918e-06,  8.8438e-06,  8.1770e-07,  ...,  1.7285e-05,
+          2.5425e-06,  2.3078e-06],
+        [ 5.1484e-06,  7.0520e-06,  5.1409e-07,  ...,  9.7305e-06,
+         -5.8375e-06,  1.1362e-07],
+        ...,
+        [-1.6659e-05, -2.8893e-05, -3.9302e-06,  ..., -6.3956e-05,
+          6.2287e-06,  4.2394e-06],
+        [-3.4366e-06, -5.4538e-05,  1.3858e-06,  ..., -1.6928e-04,
+          8.4341e-06, -3.2365e-05],
+        [ 3.6269e-05,  5.9187e-05, -4.4182e-06,  ...,  1.9073e-04,
+          7.9349e-06,  3.2395e-05]], device='cuda:0')
+Epoch 64, bias, value: tensor([-0.0153, -0.0229, -0.0134, -0.0283, -0.0308, -0.0009,  0.0233, -0.0110,
+         0.0327,  0.0001], device='cuda:0'), grad: tensor([ 4.9025e-05,  3.7760e-05,  3.7134e-05,  5.4836e-05, -3.6502e-04,
+         7.9513e-05, -2.6956e-05,  1.5581e-04, -9.9468e-04,  9.7227e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 63----------------------------------------------------
+epoch 63, time 281.33, cls_loss 0.0141 cls_loss_mapping 0.0188 cls_loss_causal 0.6417 re_mapping 0.0137 re_causal 0.0341 /// teacc 98.81 lr 0.00010000
+Epoch 65, weight, value: tensor([[-0.0334, -0.0586, -0.0449,  ..., -0.0213,  0.0991,  0.0804],
+        [-0.0943, -0.0994, -0.0981,  ..., -0.0681, -0.0942, -0.0522],
+        [-0.0560, -0.0390,  0.0750,  ..., -0.0617,  0.0951,  0.0051],
+        ...,
+        [-0.0550,  0.0378,  0.0393,  ...,  0.0761, -0.0587, -0.0695],
+        [-0.1184,  0.0430, -0.0966,  ...,  0.0254, -0.0462, -0.0392],
+        [ 0.0427, -0.0235, -0.0488,  ..., -0.0079, -0.0339, -0.0094]],
+       device='cuda:0'), grad: tensor([[ 1.7241e-05,  1.1958e-06,  7.6368e-08,  ...,  2.8804e-05,
+         -3.6693e-04, -3.1424e-04],
+        [ 3.3733e-06,  4.1090e-06,  2.2165e-07,  ...,  8.4937e-05,
+          1.5414e-04,  8.7142e-05],
+        [ 1.9092e-06,  3.9674e-07, -1.0654e-06,  ...,  1.2815e-04,
+          1.2147e-04,  2.2173e-05],
+        ...,
+        [ 4.0866e-06,  5.2862e-06, -3.2037e-07,  ...,  4.8243e-06,
+          1.4864e-05,  4.3809e-06],
+        [ 2.7224e-05,  1.9297e-05,  3.9674e-07,  ..., -7.5579e-04,
+         -3.7670e-04,  1.4675e-04],
+        [ 1.4454e-05,  3.6135e-06,  2.6263e-07,  ...,  1.8507e-05,
+          3.4213e-05,  2.5436e-05]], device='cuda:0')
+Epoch 65, bias, value: tensor([-0.0157, -0.0226, -0.0137, -0.0281, -0.0307, -0.0015,  0.0239, -0.0105,
+         0.0321,  0.0002], device='cuda:0'), grad: tensor([-2.7585e-04,  5.7507e-04,  8.1921e-04,  1.6260e-04,  9.7394e-05,
+         2.2106e-03,  6.7472e-04,  1.3077e-04, -4.4632e-03,  6.9380e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 64, time 265.17, cls_loss 0.0137 cls_loss_mapping 0.0175 cls_loss_causal 0.6738 re_mapping 0.0138 re_causal 0.0352 /// teacc 98.80 lr 0.00010000
+Epoch 66, weight, value: tensor([[-0.0338, -0.0591, -0.0451,  ..., -0.0216,  0.1002,  0.0811],
+        [-0.0950, -0.1000, -0.0984,  ..., -0.0689, -0.0951, -0.0521],
+        [-0.0568, -0.0393,  0.0757,  ..., -0.0624,  0.0956,  0.0055],
+        ...,
+        [-0.0554,  0.0380,  0.0392,  ...,  0.0767, -0.0593, -0.0702],
+        [-0.1195,  0.0430, -0.0970,  ...,  0.0254, -0.0468, -0.0397],
+        [ 0.0434, -0.0235, -0.0490,  ..., -0.0078, -0.0344, -0.0099]],
+       device='cuda:0'), grad: tensor([[ 4.6007e-06,  3.8892e-05,  7.7561e-06,  ...,  1.9222e-05,
+          4.4443e-06,  4.1202e-06],
+        [ 2.9411e-06,  4.8727e-05,  1.2666e-05,  ...,  3.9339e-05,
+          1.7434e-05,  2.0992e-06],
+        [ 2.5928e-05,  4.7708e-04,  1.9026e-04,  ...,  4.7827e-04,
+          2.3854e-04,  2.4699e-06],
+        ...,
+        [-2.8029e-05, -6.7091e-04, -2.6512e-04,  ..., -6.9523e-04,
+         -3.1710e-04,  9.7044e-07],
+        [ 8.2329e-06, -1.2326e-04,  9.9167e-06,  ...,  2.4229e-05,
+          3.0756e-05, -6.2644e-05],
+        [ 2.7772e-06,  1.2839e-04,  1.5102e-05,  ...,  4.1336e-05,
+          2.1592e-05,  3.9309e-05]], device='cuda:0')
+Epoch 66, bias, value: tensor([-0.0155, -0.0226, -0.0134, -0.0279, -0.0304, -0.0024,  0.0245, -0.0111,
+         0.0320,  0.0006], device='cuda:0'), grad: tensor([ 1.1611e-04,  1.4460e-04,  1.5898e-03,  1.3793e-04,  4.5300e-05,
+         5.8085e-05, -1.0245e-06, -2.1534e-03, -3.1590e-04,  3.7861e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 65----------------------------------------------------
+epoch 65, time 281.46, cls_loss 0.0119 cls_loss_mapping 0.0165 cls_loss_causal 0.6781 re_mapping 0.0136 re_causal 0.0363 /// teacc 98.84 lr 0.00010000
+Epoch 67, weight, value: tensor([[-0.0344, -0.0600, -0.0453,  ..., -0.0219,  0.1008,  0.0817],
+        [-0.0954, -0.1008, -0.0986,  ..., -0.0690, -0.0957, -0.0524],
+        [-0.0574, -0.0397,  0.0759,  ..., -0.0637,  0.0963,  0.0056],
+        ...,
+        [-0.0563,  0.0384,  0.0394,  ...,  0.0771, -0.0594, -0.0705],
+        [-0.1201,  0.0430, -0.0969,  ...,  0.0255, -0.0470, -0.0402],
+        [ 0.0431, -0.0244, -0.0492,  ..., -0.0083, -0.0348, -0.0102]],
+       device='cuda:0'), grad: tensor([[ 2.6729e-06,  3.6471e-06,  1.5832e-07,  ..., -2.9847e-05,
+         -1.3494e-04, -1.0055e-04],
+        [ 3.7048e-06,  4.3184e-05,  2.9001e-06,  ...,  1.5259e-04,
+          1.0431e-05,  9.1568e-06],
+        [ 4.3735e-06,  1.1438e-04,  5.9828e-06,  ...,  1.3304e-04,
+          1.5870e-05,  1.4454e-06],
+        ...,
+        [ 7.5735e-06, -1.0425e-04, -8.3223e-06,  ..., -9.7513e-05,
+         -1.2755e-05,  1.6242e-06],
+        [ 5.2899e-07, -1.0860e-04,  3.5763e-07,  ..., -8.2445e-04,
+         -1.3858e-05, -1.3582e-05],
+        [ 6.4559e-06,  1.0818e-05,  6.0536e-07,  ...,  1.5974e-05,
+          1.0528e-05,  5.7444e-06]], device='cuda:0')
+Epoch 67, bias, value: tensor([-1.5696e-02, -2.1927e-02, -1.3872e-02, -2.7807e-02, -3.0770e-02,
+        -1.5916e-03,  2.4542e-02, -1.0917e-02,  3.1704e-02,  9.6543e-05],
+       device='cuda:0'), grad: tensor([-1.5485e-04,  3.9387e-04,  4.3249e-04, -6.4909e-05,  6.3276e-04,
+        -1.4267e-03,  2.1305e-03, -1.4639e-04, -1.8282e-03,  2.6956e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 66, time 265.34, cls_loss 0.0129 cls_loss_mapping 0.0197 cls_loss_causal 0.6607 re_mapping 0.0133 re_causal 0.0350 /// teacc 98.83 lr 0.00010000
+Epoch 68, weight, value: tensor([[-0.0344, -0.0604, -0.0456,  ..., -0.0219,  0.1017,  0.0826],
+        [-0.0974, -0.1012, -0.0994,  ..., -0.0702, -0.0973, -0.0533],
+        [-0.0560, -0.0411,  0.0762,  ..., -0.0656,  0.0973,  0.0066],
+        ...,
+        [-0.0571,  0.0382,  0.0399,  ...,  0.0776, -0.0598, -0.0720],
+        [-0.1202,  0.0432, -0.0968,  ...,  0.0258, -0.0472, -0.0405],
+        [ 0.0430, -0.0252, -0.0495,  ..., -0.0088, -0.0350, -0.0105]],
+       device='cuda:0'), grad: tensor([[ 2.1592e-05,  3.2149e-06,  2.6263e-07,  ...,  3.7253e-06,
+          3.4031e-06,  5.0552e-06],
+        [ 4.9360e-06,  3.8958e-04,  9.2015e-06,  ...,  6.3801e-04,
+          3.5197e-05,  1.6689e-05],
+        [ 1.9401e-05,  3.3021e-05, -1.2182e-05,  ...,  6.8136e-06,
+         -4.6968e-05, -1.7360e-05],
+        ...,
+        [ 5.4613e-06, -5.5027e-04, -9.5554e-07,  ..., -8.8406e-04,
+          4.6007e-06,  2.8089e-06],
+        [ 1.8284e-05,  4.7892e-05,  1.1344e-06,  ...,  7.9453e-05,
+          4.2506e-06,  2.6897e-06],
+        [-4.1574e-05,  7.1287e-05,  1.0524e-06,  ...,  8.2076e-05,
+          1.0841e-06,  1.1083e-06]], device='cuda:0')
+Epoch 68, bias, value: tensor([-0.0153, -0.0232, -0.0133, -0.0275, -0.0311, -0.0017,  0.0242, -0.0107,
+         0.0326, -0.0003], device='cuda:0'), grad: tensor([ 3.2544e-05,  1.1053e-03, -1.9237e-05, -6.5982e-05,  1.8966e-04,
+         7.2896e-05, -1.2957e-05, -1.3857e-03,  1.8251e-04, -1.0067e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 67, time 265.12, cls_loss 0.0109 cls_loss_mapping 0.0153 cls_loss_causal 0.6328 re_mapping 0.0137 re_causal 0.0351 /// teacc 98.78 lr 0.00010000
+Epoch 69, weight, value: tensor([[-0.0347, -0.0609, -0.0457,  ..., -0.0224,  0.1028,  0.0831],
+        [-0.0988, -0.1027, -0.0997,  ..., -0.0715, -0.0984, -0.0539],
+        [-0.0564, -0.0414,  0.0766,  ..., -0.0663,  0.0979,  0.0069],
+        ...,
+        [-0.0578,  0.0388,  0.0402,  ...,  0.0786, -0.0601, -0.0724],
+        [-0.1210,  0.0431, -0.0972,  ...,  0.0262, -0.0474, -0.0405],
+        [ 0.0433, -0.0259, -0.0498,  ..., -0.0094, -0.0358, -0.0109]],
+       device='cuda:0'), grad: tensor([[ 4.6715e-06,  2.6412e-06,  1.9558e-08,  ...,  2.6450e-07,
+         -3.0696e-05, -1.1936e-05],
+        [ 4.2934e-07,  2.2091e-06,  1.4249e-07,  ...,  1.8319e-06,
+          2.6878e-06, -2.1076e-04],
+        [ 3.2540e-06,  2.7314e-05, -2.8312e-07,  ...,  2.0880e-06,
+          1.6302e-05,  9.6321e-05],
+        ...,
+        [ 4.4331e-07, -1.7598e-05,  2.7195e-07,  ..., -1.0997e-05,
+          3.6508e-06,  7.2360e-05],
+        [ 2.6040e-06,  1.1750e-05,  7.6368e-08,  ..., -3.3733e-06,
+          8.4266e-06,  1.7956e-05],
+        [-2.5611e-06,  1.5851e-06,  3.5856e-07,  ...,  3.5204e-07,
+          1.1601e-05,  1.5020e-05]], device='cuda:0')
+Epoch 69, bias, value: tensor([-0.0152, -0.0242, -0.0136, -0.0276, -0.0316, -0.0012,  0.0248, -0.0102,
+         0.0329, -0.0004], device='cuda:0'), grad: tensor([ 1.6332e-05, -9.7132e-04,  6.1607e-04, -5.9247e-05, -4.5753e-04,
+         4.5002e-05,  9.5963e-05,  5.4121e-04,  8.3804e-05,  9.0599e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 68----------------------------------------------------
+epoch 68, time 281.68, cls_loss 0.0112 cls_loss_mapping 0.0139 cls_loss_causal 0.6863 re_mapping 0.0132 re_causal 0.0341 /// teacc 98.88 lr 0.00010000
+Epoch 70, weight, value: tensor([[-0.0359, -0.0612, -0.0459,  ..., -0.0227,  0.1039,  0.0837],
+        [-0.0996, -0.1031, -0.1000,  ..., -0.0721, -0.0996, -0.0541],
+        [-0.0569, -0.0419,  0.0766,  ..., -0.0670,  0.0984,  0.0069],
+        ...,
+        [-0.0581,  0.0395,  0.0407,  ...,  0.0794, -0.0607, -0.0726],
+        [-0.1221,  0.0433, -0.0975,  ...,  0.0266, -0.0476, -0.0407],
+        [ 0.0437, -0.0264, -0.0500,  ..., -0.0098, -0.0360, -0.0114]],
+       device='cuda:0'), grad: tensor([[ 6.5416e-06,  3.4180e-07,  8.7544e-08,  ..., -1.7524e-05,
+         -1.2887e-04, -8.5115e-05],
+        [ 1.1949e-06,  1.1489e-05,  5.2154e-08,  ...,  6.4038e-06,
+          6.7428e-07,  2.9244e-07],
+        [ 2.2035e-06,  1.9949e-06, -2.0023e-06,  ...,  2.2855e-06,
+         -4.5188e-06, -3.8557e-07],
+        ...,
+        [ 8.0280e-07, -7.6830e-05,  2.4587e-07,  ..., -3.7223e-05,
+          1.1083e-06,  6.2771e-07],
+        [ 1.7181e-05,  2.5462e-06,  1.2033e-06,  ..., -6.6310e-06,
+          9.4399e-06,  9.5144e-06],
+        [-1.3635e-05,  3.5763e-07,  7.4506e-09,  ...,  6.1989e-06,
+          1.3225e-06,  9.7137e-07]], device='cuda:0')
+Epoch 70, bias, value: tensor([-0.0149, -0.0238, -0.0133, -0.0276, -0.0317, -0.0018,  0.0250, -0.0103,
+         0.0327, -0.0003], device='cuda:0'), grad: tensor([-1.3340e-04,  3.0637e-04,  1.5676e-05,  9.3877e-05,  5.6553e-04,
+         3.6955e-05,  1.1021e-04, -5.9158e-05,  1.4222e-04, -1.0767e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 69, time 265.81, cls_loss 0.0110 cls_loss_mapping 0.0166 cls_loss_causal 0.6154 re_mapping 0.0130 re_causal 0.0328 /// teacc 98.72 lr 0.00010000
+Epoch 71, weight, value: tensor([[-0.0361, -0.0616, -0.0460,  ..., -0.0228,  0.1036,  0.0838],
+        [-0.0999, -0.1029, -0.1002,  ..., -0.0714, -0.1001, -0.0538],
+        [-0.0577, -0.0432,  0.0770,  ..., -0.0679,  0.0982,  0.0067],
+        ...,
+        [-0.0584,  0.0395,  0.0406,  ...,  0.0794, -0.0610, -0.0733],
+        [-0.1231,  0.0432, -0.0978,  ...,  0.0266, -0.0485, -0.0412],
+        [ 0.0437, -0.0263, -0.0501,  ..., -0.0098, -0.0354, -0.0119]],
+       device='cuda:0'), grad: tensor([[ 1.6484e-06, -4.3884e-06,  2.0582e-07,  ..., -6.5923e-05,
+         -1.0939e-03, -5.4312e-04],
+        [ 7.1432e-07,  6.6459e-05,  1.1921e-07,  ...,  1.9908e-05,
+          8.9481e-06,  4.7907e-06],
+        [ 4.6939e-07,  1.2165e-04,  1.4715e-07,  ...,  3.9726e-05,
+          1.8150e-05,  1.1243e-05],
+        ...,
+        [ 5.4110e-07, -1.0872e-03,  1.9930e-07,  ..., -2.6488e-04,
+          1.6928e-05,  1.0557e-05],
+        [ 4.7125e-06,  7.3649e-06,  4.3306e-07,  ...,  3.1054e-05,
+          1.4472e-04,  1.1861e-04],
+        [-7.3202e-07,  5.4407e-04, -3.0920e-07,  ...,  1.2010e-04,
+          1.5092e-04,  6.6638e-05]], device='cuda:0')
+Epoch 71, bias, value: tensor([-0.0158, -0.0223, -0.0146, -0.0275, -0.0308, -0.0016,  0.0252, -0.0113,
+         0.0324,  0.0001], device='cuda:0'), grad: tensor([-1.5755e-03,  1.1009e-04,  2.0659e-04,  3.7217e-04,  2.0528e-04,
+         6.6698e-05,  1.0099e-03, -1.4505e-03,  1.5497e-04,  8.9931e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 70, time 265.24, cls_loss 0.0120 cls_loss_mapping 0.0149 cls_loss_causal 0.6525 re_mapping 0.0127 re_causal 0.0332 /// teacc 98.72 lr 0.00010000
+Epoch 72, weight, value: tensor([[-0.0365, -0.0619, -0.0462,  ..., -0.0228,  0.1047,  0.0846],
+        [-0.1005, -0.1046, -0.1008,  ..., -0.0728, -0.1006, -0.0539],
+        [-0.0581, -0.0438,  0.0773,  ..., -0.0689,  0.0986,  0.0071],
+        ...,
+        [-0.0588,  0.0402,  0.0407,  ...,  0.0805, -0.0615, -0.0738],
+        [-0.1241,  0.0435, -0.0965,  ...,  0.0270, -0.0492, -0.0417],
+        [ 0.0437, -0.0270, -0.0503,  ..., -0.0103, -0.0357, -0.0125]],
+       device='cuda:0'), grad: tensor([[ 4.6454e-06,  1.1988e-05,  3.9823e-06,  ..., -9.5546e-05,
+         -1.1320e-03, -7.8726e-04],
+        [ 2.9299e-06,  3.0816e-05,  6.5342e-06,  ...,  1.7643e-05,
+          1.5891e-04,  1.1069e-04],
+        [ 4.0159e-06,  1.0371e-04,  1.7568e-05,  ...,  8.6308e-05,
+          3.4833e-04,  2.6512e-04],
+        ...,
+        [ 2.7232e-06, -2.3830e-04, -5.6446e-05,  ..., -1.3375e-04,
+          1.3936e-04,  6.4373e-05],
+        [ 7.6257e-06,  3.8683e-05,  6.0536e-06,  ...,  2.6181e-05,
+          6.5207e-05,  4.6849e-05],
+        [ 3.8631e-06,  3.9339e-05,  6.1132e-06,  ...,  2.4676e-05,
+          1.7747e-05,  1.1854e-05]], device='cuda:0')
+Epoch 72, bias, value: tensor([-0.0153, -0.0237, -0.0142, -0.0274, -0.0311, -0.0018,  0.0252, -0.0103,
+         0.0329, -0.0002], device='cuda:0'), grad: tensor([-1.7014e-03,  2.7800e-04,  7.3862e-04,  3.5048e-05,  1.0097e-04,
+         1.0300e-04,  4.4250e-04, -2.6035e-04,  1.9276e-04,  7.1406e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 71, time 265.35, cls_loss 0.0130 cls_loss_mapping 0.0142 cls_loss_causal 0.6438 re_mapping 0.0132 re_causal 0.0336 /// teacc 98.78 lr 0.00010000
+Epoch 73, weight, value: tensor([[-0.0376, -0.0623, -0.0464,  ..., -0.0232,  0.1055,  0.0852],
+        [-0.1010, -0.1062, -0.1010,  ..., -0.0733, -0.1009, -0.0535],
+        [-0.0586, -0.0447,  0.0778,  ..., -0.0699,  0.0996,  0.0069],
+        ...,
+        [-0.0594,  0.0405,  0.0408,  ...,  0.0813, -0.0621, -0.0743],
+        [-0.1251,  0.0437, -0.0970,  ...,  0.0260, -0.0500, -0.0421],
+        [ 0.0441, -0.0282, -0.0507,  ..., -0.0116, -0.0360, -0.0130]],
+       device='cuda:0'), grad: tensor([[ 1.2159e-05,  6.6720e-06,  2.6077e-07,  ...,  1.0356e-05,
+          4.6082e-06,  7.4171e-06],
+        [-2.5272e-05,  1.6809e-05,  2.8592e-07,  ...,  7.7933e-06,
+          9.9465e-07,  7.4785e-07],
+        [ 8.8364e-06,  3.6210e-05, -2.4568e-06,  ...,  1.4737e-05,
+         -5.7183e-06, -3.7365e-06],
+        ...,
+        [ 2.6878e-06, -2.3448e-04,  6.7241e-07,  ..., -1.1295e-04,
+          1.0524e-06,  5.3551e-07],
+        [ 1.1012e-05,  1.1530e-06,  7.8324e-07,  ..., -4.4815e-06,
+          5.6475e-06,  5.3383e-06],
+        [ 7.4208e-06,  8.8632e-05,  3.6601e-07,  ...,  3.8713e-05,
+          1.0813e-06,  8.1118e-07]], device='cuda:0')
+Epoch 73, bias, value: tensor([-0.0151, -0.0232, -0.0144, -0.0272, -0.0307, -0.0009,  0.0251, -0.0102,
+         0.0318, -0.0011], device='cuda:0'), grad: tensor([ 5.4985e-05, -3.3417e-03,  1.2469e-04,  7.8261e-05, -2.6274e-04,
+         2.1970e-04,  8.8289e-07, -2.3389e-04,  2.5787e-03,  7.8058e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 72, time 264.95, cls_loss 0.0130 cls_loss_mapping 0.0179 cls_loss_causal 0.6449 re_mapping 0.0128 re_causal 0.0323 /// teacc 98.85 lr 0.00010000
+Epoch 74, weight, value: tensor([[-0.0381, -0.0627, -0.0466,  ..., -0.0230,  0.1059,  0.0855],
+        [-0.1015, -0.1078, -0.1010,  ..., -0.0743, -0.1015, -0.0524],
+        [-0.0591, -0.0445,  0.0782,  ..., -0.0707,  0.1001,  0.0073],
+        ...,
+        [-0.0593,  0.0404,  0.0409,  ...,  0.0815, -0.0625, -0.0750],
+        [-0.1247,  0.0450, -0.0979,  ...,  0.0283, -0.0494, -0.0424],
+        [ 0.0443, -0.0290, -0.0507,  ..., -0.0121, -0.0361, -0.0132]],
+       device='cuda:0'), grad: tensor([[ 2.4401e-06,  7.0632e-05,  3.9302e-07,  ..., -2.4959e-06,
+          8.8751e-05,  6.2764e-05],
+        [ 7.1712e-06,  8.3521e-06,  1.5274e-07,  ...,  8.7731e-07,
+          1.0766e-05,  7.6108e-06],
+        [ 5.8860e-07, -6.8855e-04, -4.2878e-06,  ...,  9.4436e-07,
+         -9.2840e-04, -6.8045e-04],
+        ...,
+        [ 5.0962e-06,  4.9305e-04,  2.3991e-06,  ..., -3.4012e-06,
+          6.7759e-04,  4.8876e-04],
+        [ 6.6981e-06,  3.0056e-05,  9.0711e-07,  ...,  2.4159e-06,
+          3.4720e-05,  2.3365e-05],
+        [-1.0949e-04,  5.7697e-05,  2.6226e-06,  ..., -4.2841e-06,
+          1.2493e-04,  7.4029e-05]], device='cuda:0')
+Epoch 74, bias, value: tensor([-0.0153, -0.0233, -0.0146, -0.0273, -0.0307, -0.0012,  0.0238, -0.0103,
+         0.0332, -0.0007], device='cuda:0'), grad: tensor([ 2.7442e-04,  1.2040e-05, -2.4643e-03,  7.1764e-05,  1.4467e-03,
+         7.5698e-05,  8.5592e-05,  1.9588e-03,  1.9836e-04, -1.6613e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 73, time 265.31, cls_loss 0.0130 cls_loss_mapping 0.0172 cls_loss_causal 0.6246 re_mapping 0.0124 re_causal 0.0307 /// teacc 98.81 lr 0.00010000
+Epoch 75, weight, value: tensor([[-0.0392, -0.0634, -0.0466,  ..., -0.0235,  0.1063,  0.0858],
+        [-0.1023, -0.1074, -0.1013,  ..., -0.0754, -0.1022, -0.0528],
+        [-0.0596, -0.0444,  0.0785,  ..., -0.0714,  0.1006,  0.0078],
+        ...,
+        [-0.0591,  0.0405,  0.0408,  ...,  0.0828, -0.0636, -0.0760],
+        [-0.1257,  0.0452, -0.0972,  ...,  0.0285, -0.0499, -0.0428],
+        [ 0.0450, -0.0298, -0.0508,  ..., -0.0132, -0.0364, -0.0142]],
+       device='cuda:0'), grad: tensor([[ 1.9744e-05,  7.4357e-06,  2.1309e-06,  ...,  1.0997e-05,
+         -5.3123e-06, -2.7083e-06],
+        [ 2.0087e-05,  2.0340e-05,  4.2021e-06,  ...,  2.3156e-05,
+          1.6123e-05,  6.1058e-06],
+        [ 2.3127e-05, -2.5462e-06, -5.6595e-05,  ...,  4.8578e-05,
+         -1.4114e-04, -7.2837e-05],
+        ...,
+        [ 3.4362e-05, -2.6762e-05,  4.1455e-05,  ..., -3.0667e-05,
+          1.0407e-04,  4.7088e-05],
+        [ 7.7188e-05,  1.1559e-03,  8.3447e-07,  ..., -3.5930e-06,
+         -1.4409e-05,  2.7958e-06],
+        [ 2.7910e-05, -1.2131e-03,  1.0617e-07,  ...,  2.1800e-05,
+          4.3139e-06,  2.4773e-06]], device='cuda:0')
+Epoch 75, bias, value: tensor([-0.0156, -0.0228, -0.0144, -0.0276, -0.0302, -0.0009,  0.0238, -0.0104,
+         0.0332, -0.0013], device='cuda:0'), grad: tensor([ 5.1051e-05,  1.6427e-04,  2.8181e-04,  8.0299e-04, -8.1348e-04,
+        -9.2506e-04,  2.3985e-04,  2.2018e-04,  2.3346e-03, -2.3518e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 74, time 265.16, cls_loss 0.0114 cls_loss_mapping 0.0146 cls_loss_causal 0.6592 re_mapping 0.0124 re_causal 0.0320 /// teacc 98.68 lr 0.00010000
+Epoch 76, weight, value: tensor([[-0.0399, -0.0640, -0.0468,  ..., -0.0238,  0.1068,  0.0861],
+        [-0.1028, -0.1070, -0.1019,  ..., -0.0755, -0.1030, -0.0531],
+        [-0.0601, -0.0445,  0.0795,  ..., -0.0720,  0.1014,  0.0084],
+        ...,
+        [-0.0595,  0.0407,  0.0407,  ...,  0.0836, -0.0645, -0.0768],
+        [-0.1264,  0.0453, -0.0978,  ...,  0.0283, -0.0503, -0.0426],
+        [ 0.0457, -0.0302, -0.0511,  ..., -0.0136, -0.0364, -0.0148]],
+       device='cuda:0'), grad: tensor([[ 3.7611e-05,  4.2841e-07,  5.0329e-06,  ...,  1.6883e-05,
+         -7.1786e-06, -2.5723e-06],
+        [ 8.2180e-06,  1.7695e-06,  1.5441e-06,  ...,  6.2473e-06,
+          3.8520e-06,  4.0457e-06],
+        [ 3.4515e-06,  2.9076e-06, -1.0028e-05,  ...,  9.2983e-06,
+         -1.8850e-06,  3.7532e-06],
+        ...,
+        [ 5.5879e-06,  3.4645e-07,  8.5682e-06,  ..., -5.2899e-07,
+          9.6187e-06,  4.0345e-06],
+        [ 1.1891e-04, -7.4506e-06,  8.4750e-07,  ...,  1.2434e-04,
+          7.6964e-06,  7.7710e-06],
+        [ 1.4961e-05,  6.7428e-07,  6.2101e-06,  ...,  1.1019e-05,
+          1.8507e-05,  8.0094e-06]], device='cuda:0')
+Epoch 76, bias, value: tensor([-0.0158, -0.0225, -0.0141, -0.0278, -0.0303, -0.0008,  0.0234, -0.0108,
+         0.0333, -0.0011], device='cuda:0'), grad: tensor([ 4.6164e-05,  1.4737e-05,  1.5348e-05,  6.1131e-04,  3.0994e-05,
+        -1.1139e-03,  1.1122e-04,  3.2812e-05,  2.0659e-04,  4.4107e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 75, time 265.37, cls_loss 0.0116 cls_loss_mapping 0.0156 cls_loss_causal 0.6792 re_mapping 0.0127 re_causal 0.0312 /// teacc 98.79 lr 0.00010000
+Epoch 77, weight, value: tensor([[-0.0406, -0.0647, -0.0470,  ..., -0.0241,  0.1071,  0.0863],
+        [-0.1032, -0.1074, -0.1025,  ..., -0.0759, -0.1038, -0.0534],
+        [-0.0605, -0.0448,  0.0798,  ..., -0.0728,  0.1022,  0.0086],
+        ...,
+        [-0.0595,  0.0412,  0.0412,  ...,  0.0846, -0.0651, -0.0773],
+        [-0.1271,  0.0455, -0.0975,  ...,  0.0287, -0.0504, -0.0428],
+        [ 0.0455, -0.0304, -0.0511,  ..., -0.0144, -0.0367, -0.0152]],
+       device='cuda:0'), grad: tensor([[ 2.2128e-06,  6.7592e-05,  1.7751e-06,  ...,  1.6280e-06,
+         -1.0781e-05, -1.5303e-05],
+        [ 3.4831e-07,  3.9577e-05,  5.8740e-05,  ...,  2.7847e-06,
+          4.6760e-05,  9.3356e-06],
+        [ 4.5449e-07,  4.5013e-04, -5.9187e-05,  ...,  7.6443e-06,
+         -2.0370e-05, -1.3106e-05],
+        ...,
+        [ 3.1479e-07,  8.9943e-05,  9.9987e-06,  ..., -2.8118e-05,
+          1.4655e-05,  2.7902e-06],
+        [ 3.2075e-06,  3.1352e-05,  2.8703e-06,  ...,  3.6899e-06,
+          1.3627e-05,  8.1211e-06],
+        [ 8.4750e-07,  4.2647e-05, -1.0408e-05,  ...,  8.7693e-06,
+          2.9039e-06,  3.1982e-06]], device='cuda:0')
+Epoch 77, bias, value: tensor([-0.0163, -0.0227, -0.0139, -0.0271, -0.0303, -0.0020,  0.0240, -0.0110,
+         0.0338, -0.0009], device='cuda:0'), grad: tensor([ 1.8418e-04,  3.4142e-04,  9.6321e-04, -1.9569e-03,  1.5378e-05,
+         4.2796e-05,  1.0110e-05,  3.4118e-04,  1.0854e-04, -4.8429e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 76, time 265.20, cls_loss 0.0099 cls_loss_mapping 0.0129 cls_loss_causal 0.6261 re_mapping 0.0120 re_causal 0.0312 /// teacc 98.80 lr 0.00010000
+Epoch 78, weight, value: tensor([[-0.0409, -0.0653, -0.0473,  ..., -0.0246,  0.1067,  0.0863],
+        [-0.1034, -0.1080, -0.1029,  ..., -0.0768, -0.1042, -0.0535],
+        [-0.0607, -0.0452,  0.0802,  ..., -0.0737,  0.1029,  0.0093],
+        ...,
+        [-0.0595,  0.0419,  0.0414,  ...,  0.0857, -0.0658, -0.0782],
+        [-0.1279,  0.0454, -0.0978,  ...,  0.0285, -0.0506, -0.0433],
+        [ 0.0453, -0.0310, -0.0511,  ..., -0.0147, -0.0358, -0.0150]],
+       device='cuda:0'), grad: tensor([[ 1.3649e-04,  1.2331e-05,  2.1979e-07,  ...,  1.6928e-05,
+          2.2840e-04,  2.4915e-04],
+        [ 2.8126e-07,  9.1046e-06,  1.3225e-07,  ...,  1.6075e-06,
+          1.1921e-07, -7.3791e-05],
+        [ 6.5565e-07,  8.2433e-05, -5.1223e-07,  ...,  3.3788e-06,
+         -1.3225e-06,  3.7458e-06],
+        ...,
+        [-4.4703e-06,  3.5226e-05, -1.2554e-06,  ..., -6.1274e-05,
+          7.2457e-07,  3.5781e-06],
+        [ 2.4904e-06,  8.7991e-06,  1.8440e-07,  ...,  3.5260e-06,
+          5.6252e-07,  3.1412e-05],
+        [ 1.5069e-06,  2.2992e-05,  1.2945e-06,  ...,  2.0966e-05,
+          1.0803e-07,  4.0084e-06]], device='cuda:0')
+Epoch 78, bias, value: tensor([-0.0180, -0.0233, -0.0139, -0.0273, -0.0298, -0.0018,  0.0241, -0.0107,
+         0.0337, -0.0002], device='cuda:0'), grad: tensor([ 3.6454e-04, -5.0783e-04,  1.5473e-04, -2.6679e-04,  4.1556e-04,
+         4.8101e-05, -1.8764e-04,  7.4089e-05,  2.3997e-04, -3.3307e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 77, time 265.59, cls_loss 0.0114 cls_loss_mapping 0.0156 cls_loss_causal 0.6235 re_mapping 0.0122 re_causal 0.0312 /// teacc 98.82 lr 0.00010000
+Epoch 79, weight, value: tensor([[-0.0414, -0.0660, -0.0475,  ..., -0.0251,  0.1075,  0.0871],
+        [-0.1038, -0.1084, -0.1037,  ..., -0.0768, -0.1053, -0.0538],
+        [-0.0611, -0.0456,  0.0807,  ..., -0.0743,  0.1036,  0.0097],
+        ...,
+        [-0.0597,  0.0413,  0.0420,  ...,  0.0860, -0.0663, -0.0786],
+        [-0.1290,  0.0455, -0.0986,  ...,  0.0279, -0.0511, -0.0440],
+        [ 0.0461, -0.0319, -0.0515,  ..., -0.0156, -0.0362, -0.0155]],
+       device='cuda:0'), grad: tensor([[ 1.0446e-05,  1.8496e-06,  4.3660e-06,  ...,  5.0291e-07,
+         -7.1786e-06,  1.9930e-07],
+        [ 1.1548e-05,  4.2915e-06,  8.8103e-07,  ...,  5.5693e-06,
+          1.5482e-05,  1.0513e-05],
+        [ 4.5337e-06,  1.0997e-05,  3.5018e-07,  ...,  4.6752e-06,
+         -1.1303e-05, -8.6203e-06],
+        ...,
+        [ 1.0375e-06, -7.1079e-06, -2.4848e-06,  ..., -1.1571e-05,
+          6.4559e-06,  4.1611e-06],
+        [ 5.2601e-06,  3.7216e-06,  5.6997e-07,  ..., -4.4852e-06,
+          1.7196e-05,  1.1578e-05],
+        [ 1.7714e-06,  6.1095e-06,  6.4634e-07,  ...,  1.7416e-06,
+          5.8599e-06,  3.4142e-06]], device='cuda:0')
+Epoch 79, bias, value: tensor([-0.0178, -0.0230, -0.0137, -0.0273, -0.0293, -0.0010,  0.0239, -0.0110,
+         0.0327, -0.0003], device='cuda:0'), grad: tensor([ 1.4096e-05,  5.9605e-05,  7.4320e-07, -3.4273e-05,  4.7803e-04,
+         6.8188e-05, -5.5933e-04,  9.7975e-07, -4.1500e-06, -2.3589e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 78, time 265.79, cls_loss 0.0100 cls_loss_mapping 0.0138 cls_loss_causal 0.6601 re_mapping 0.0118 re_causal 0.0313 /// teacc 98.83 lr 0.00010000
+Epoch 80, weight, value: tensor([[-0.0425, -0.0664, -0.0477,  ..., -0.0255,  0.1084,  0.0878],
+        [-0.1043, -0.1088, -0.1046,  ..., -0.0775, -0.1061, -0.0540],
+        [-0.0616, -0.0463,  0.0811,  ..., -0.0759,  0.1042,  0.0100],
+        ...,
+        [-0.0602,  0.0417,  0.0428,  ...,  0.0871, -0.0669, -0.0791],
+        [-0.1296,  0.0455, -0.0991,  ...,  0.0279, -0.0516, -0.0443],
+        [ 0.0459, -0.0322, -0.0519,  ..., -0.0161, -0.0364, -0.0158]],
+       device='cuda:0'), grad: tensor([[ 3.6657e-06,  5.9418e-07,  2.9430e-07,  ..., -3.4273e-05,
+         -7.8976e-05, -3.2514e-05],
+        [ 2.0359e-06,  2.9039e-06,  3.7812e-07,  ...,  1.4529e-06,
+          3.1665e-06,  1.5572e-06],
+        [ 2.2054e-06,  2.9683e-05, -1.8887e-06,  ...,  8.6501e-06,
+         -3.2932e-06, -5.3644e-07],
+        ...,
+        [ 7.0222e-07,  1.5154e-05, -1.6522e-06,  ..., -2.5164e-06,
+          7.7114e-06,  2.5798e-06],
+        [ 6.3896e-05, -9.1121e-06,  4.5821e-07,  ..., -2.0921e-05,
+          6.0238e-06,  3.3855e-05],
+        [ 1.6149e-06,  5.2862e-06,  9.5740e-07,  ...,  3.5483e-06,
+          4.0717e-06,  1.6484e-06]], device='cuda:0')
+Epoch 80, bias, value: tensor([-0.0174, -0.0238, -0.0140, -0.0277, -0.0291, -0.0005,  0.0240, -0.0106,
+         0.0328, -0.0005], device='cuda:0'), grad: tensor([-6.0767e-05,  1.2591e-05,  3.4720e-05, -7.4506e-05,  4.5896e-05,
+         5.5820e-05, -6.6578e-05,  2.5615e-05,  4.8757e-05, -2.1517e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 79, time 265.73, cls_loss 0.0095 cls_loss_mapping 0.0127 cls_loss_causal 0.6425 re_mapping 0.0121 re_causal 0.0319 /// teacc 98.72 lr 0.00010000
+Epoch 81, weight, value: tensor([[-0.0429, -0.0667, -0.0479,  ..., -0.0256,  0.1089,  0.0883],
+        [-0.1048, -0.1093, -0.1047,  ..., -0.0782, -0.1069, -0.0541],
+        [-0.0622, -0.0470,  0.0812,  ..., -0.0779,  0.1049,  0.0101],
+        ...,
+        [-0.0606,  0.0423,  0.0432,  ...,  0.0884, -0.0676, -0.0796],
+        [-0.1300,  0.0455, -0.0992,  ...,  0.0282, -0.0516, -0.0446],
+        [ 0.0458, -0.0326, -0.0521,  ..., -0.0166, -0.0368, -0.0163]],
+       device='cuda:0'), grad: tensor([[ 1.5274e-06,  7.5623e-07,  5.6811e-07,  ...,  1.0412e-06,
+         -2.8759e-06, -1.3560e-06],
+        [ 3.3155e-07,  3.9376e-06,  3.3248e-06,  ...,  6.0759e-06,
+          9.5367e-07,  5.4389e-07],
+        [ 5.0850e-07,  1.2398e-05,  7.0184e-06,  ...,  1.0684e-05,
+          2.8580e-05, -4.6007e-06],
+        ...,
+        [ 1.3281e-06, -9.1732e-05, -2.3041e-06,  ..., -4.2677e-05,
+         -5.5879e-07,  1.0207e-06],
+        [ 1.5385e-06,  3.7104e-06,  3.0566e-06,  ...,  2.4103e-06,
+          2.8927e-06,  1.7472e-06],
+        [-1.4957e-06,  6.1654e-06,  1.3113e-06,  ...,  4.6194e-06,
+          7.2643e-07,  4.3027e-07]], device='cuda:0')
+Epoch 81, bias, value: tensor([-0.0174, -0.0232, -0.0138, -0.0281, -0.0297, -0.0004,  0.0233, -0.0102,
+         0.0327, -0.0005], device='cuda:0'), grad: tensor([ 2.8118e-05,  7.5758e-05,  5.8830e-05,  1.1235e-04, -8.7261e-04,
+         3.7193e-05,  7.9215e-05, -4.5121e-05,  1.1826e-04,  4.0865e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 80, time 265.32, cls_loss 0.0094 cls_loss_mapping 0.0133 cls_loss_causal 0.6273 re_mapping 0.0118 re_causal 0.0303 /// teacc 98.81 lr 0.00010000
+Epoch 82, weight, value: tensor([[-0.0432, -0.0670, -0.0480,  ..., -0.0259,  0.1101,  0.0894],
+        [-0.1051, -0.1097, -0.1048,  ..., -0.0786, -0.1080, -0.0544],
+        [-0.0627, -0.0472,  0.0814,  ..., -0.0785,  0.1051,  0.0102],
+        ...,
+        [-0.0607,  0.0423,  0.0433,  ...,  0.0889, -0.0681, -0.0801],
+        [-0.1308,  0.0453, -0.0994,  ...,  0.0283, -0.0524, -0.0452],
+        [ 0.0458, -0.0317, -0.0523,  ..., -0.0169, -0.0372, -0.0172]],
+       device='cuda:0'), grad: tensor([[-2.9117e-05,  1.7546e-06,  3.9116e-08,  ..., -3.5822e-05,
+         -9.1553e-04, -7.3385e-04],
+        [ 1.3106e-05,  5.3421e-06,  1.3411e-07,  ...,  2.1979e-06,
+          1.4313e-05,  9.9540e-06],
+        [ 1.3523e-06, -1.8954e-05, -9.6671e-07,  ...,  2.0675e-07,
+         -2.6468e-06, -3.1460e-06],
+        ...,
+        [ 2.0042e-06, -3.6322e-07,  1.4342e-07,  ..., -9.7305e-06,
+          8.9630e-06,  6.0797e-06],
+        [ 1.2338e-05,  2.0444e-05,  3.1851e-07,  ...,  3.8706e-06,
+          5.0813e-05,  3.5375e-05],
+        [ 9.0972e-06,  7.7039e-06,  7.4506e-09,  ...,  9.1419e-06,
+          7.4983e-05,  4.5300e-05]], device='cuda:0')
+Epoch 82, bias, value: tensor([-0.0169, -0.0232, -0.0141, -0.0280, -0.0299, -0.0006,  0.0237, -0.0106,
+         0.0328, -0.0002], device='cuda:0'), grad: tensor([-1.2360e-03, -2.1553e-04, -2.9474e-05,  9.1732e-05,  9.0647e-04,
+         7.4565e-05,  8.3590e-04,  8.2076e-05,  2.0885e-04, -7.1907e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 81, time 265.30, cls_loss 0.0116 cls_loss_mapping 0.0137 cls_loss_causal 0.6138 re_mapping 0.0110 re_causal 0.0274 /// teacc 98.81 lr 0.00010000
+Epoch 83, weight, value: tensor([[-0.0437, -0.0680, -0.0482,  ..., -0.0266,  0.1108,  0.0903],
+        [-0.1055, -0.1101, -0.1048,  ..., -0.0791, -0.1103, -0.0547],
+        [-0.0632, -0.0476,  0.0819,  ..., -0.0788,  0.1067,  0.0112],
+        ...,
+        [-0.0611,  0.0428,  0.0432,  ...,  0.0894, -0.0681, -0.0814],
+        [-0.1319,  0.0454, -0.0994,  ...,  0.0284, -0.0528, -0.0455],
+        [ 0.0461, -0.0326, -0.0525,  ..., -0.0172, -0.0379, -0.0179]],
+       device='cuda:0'), grad: tensor([[ 1.0021e-06, -1.4588e-05,  1.6391e-07,  ..., -6.2436e-06,
+         -1.6880e-04, -9.2447e-05],
+        [ 1.7881e-07,  3.9786e-06,  3.1665e-08,  ...,  7.2829e-06,
+          1.4640e-06,  8.1398e-07],
+        [ 9.4995e-07,  1.3225e-06,  4.3772e-07,  ...,  2.5630e-06,
+          2.1815e-05,  1.2539e-05],
+        ...,
+        [ 5.7556e-07, -8.6427e-06, -6.4820e-07,  ..., -1.8910e-05,
+          6.7614e-06,  3.3416e-06],
+        [ 3.4943e-06,  8.4937e-06,  5.2154e-08,  ...,  3.9004e-06,
+          7.7426e-05,  4.1723e-05],
+        [ 9.8422e-06,  4.4405e-06,  5.2154e-08,  ...,  4.3251e-06,
+          4.8488e-05,  2.2411e-05]], device='cuda:0')
+Epoch 83, bias, value: tensor([-1.6904e-02, -2.3820e-02, -1.3472e-02, -2.8182e-02, -3.0519e-02,
+        -6.4255e-04,  2.3336e-02, -1.0101e-02,  3.3028e-02, -3.5299e-05],
+       device='cuda:0'), grad: tensor([-2.2829e-04,  1.5110e-05,  3.4243e-05,  6.1840e-06, -7.7486e-05,
+         1.5959e-05,  2.5079e-05, -4.7162e-06,  1.0866e-04,  1.0508e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 82, time 265.55, cls_loss 0.0096 cls_loss_mapping 0.0114 cls_loss_causal 0.5904 re_mapping 0.0124 re_causal 0.0290 /// teacc 98.84 lr 0.00010000
+Epoch 84, weight, value: tensor([[-0.0442, -0.0686, -0.0483,  ..., -0.0269,  0.1124,  0.0913],
+        [-0.1058, -0.1109, -0.1045,  ..., -0.0798, -0.1112, -0.0547],
+        [-0.0637, -0.0488,  0.0823,  ..., -0.0793,  0.1071,  0.0111],
+        ...,
+        [-0.0612,  0.0428,  0.0431,  ...,  0.0900, -0.0688, -0.0819],
+        [-0.1328,  0.0451, -0.0997,  ...,  0.0285, -0.0532, -0.0460],
+        [ 0.0467, -0.0320, -0.0526,  ..., -0.0168, -0.0384, -0.0184]],
+       device='cuda:0'), grad: tensor([[ 4.7833e-05,  2.9817e-05,  3.1106e-07,  ...,  1.8016e-05,
+          6.6996e-05,  4.1306e-05],
+        [ 1.3057e-06,  1.1489e-05,  2.0489e-08,  ...,  5.1707e-05,
+          1.7151e-05,  6.0536e-07],
+        [ 2.0750e-06,  1.2919e-05, -1.9558e-07,  ...,  7.2539e-05,
+          2.5257e-05,  3.5409e-06],
+        ...,
+        [ 2.9281e-06, -1.4174e-04,  5.0291e-08,  ..., -1.1188e-04,
+          1.2983e-06,  2.5705e-07],
+        [ 1.5050e-05,  1.9312e-05,  2.9802e-08,  ..., -8.3780e-04,
+         -3.1662e-04,  3.0771e-06],
+        [ 7.1898e-06,  8.2076e-05,  7.4506e-09,  ...,  6.6996e-05,
+          7.1675e-06,  3.6545e-06]], device='cuda:0')
+Epoch 84, bias, value: tensor([-0.0161, -0.0235, -0.0135, -0.0278, -0.0316, -0.0011,  0.0230, -0.0107,
+         0.0328,  0.0012], device='cuda:0'), grad: tensor([ 1.6260e-04,  1.7190e-04,  2.9755e-04, -3.5810e-04,  5.7966e-05,
+         2.8896e-03,  4.9543e-04, -1.6665e-04, -3.6869e-03,  1.3769e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 83----------------------------------------------------
+epoch 83, time 282.41, cls_loss 0.0095 cls_loss_mapping 0.0117 cls_loss_causal 0.6118 re_mapping 0.0116 re_causal 0.0281 /// teacc 98.90 lr 0.00010000
+Epoch 85, weight, value: tensor([[-0.0452, -0.0691, -0.0485,  ..., -0.0273,  0.1132,  0.0921],
+        [-0.1062, -0.1117, -0.1051,  ..., -0.0801, -0.1122, -0.0549],
+        [-0.0641, -0.0496,  0.0831,  ..., -0.0799,  0.1079,  0.0113],
+        ...,
+        [-0.0614,  0.0432,  0.0432,  ...,  0.0909, -0.0692, -0.0823],
+        [-0.1335,  0.0454, -0.1000,  ...,  0.0293, -0.0535, -0.0465],
+        [ 0.0468, -0.0324, -0.0531,  ..., -0.0176, -0.0387, -0.0188]],
+       device='cuda:0'), grad: tensor([[ 4.4741e-06,  2.3264e-06,  2.6822e-07,  ...,  1.7844e-06,
+         -7.0274e-05, -5.2124e-05],
+        [ 2.9262e-06,  3.7760e-05,  1.5404e-06,  ...,  2.4587e-05,
+          4.3996e-06,  2.6636e-06],
+        [ 2.7046e-06,  1.7434e-05,  3.9116e-07,  ...,  1.2822e-05,
+          3.3267e-06,  4.1239e-06],
+        ...,
+        [ 9.0152e-07, -2.2733e-04, -6.1058e-06,  ..., -1.5843e-04,
+          2.0806e-06,  1.2368e-06],
+        [ 4.7028e-05,  1.9535e-05,  1.1306e-06,  ..., -1.4029e-05,
+          4.0919e-05,  1.7986e-05],
+        [ 4.8392e-06, -8.2329e-06,  1.2033e-06,  ...,  6.1505e-06,
+          8.1658e-06,  5.1633e-06]], device='cuda:0')
+Epoch 85, bias, value: tensor([-0.0162, -0.0238, -0.0133, -0.0276, -0.0316, -0.0018,  0.0236, -0.0106,
+         0.0332,  0.0010], device='cuda:0'), grad: tensor([-6.9618e-05,  5.4449e-05,  3.6508e-05,  1.8847e-04,  1.3864e-04,
+         2.4259e-04, -2.1017e-04, -2.5201e-04,  1.9282e-05, -1.4806e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 84, time 265.39, cls_loss 0.0088 cls_loss_mapping 0.0118 cls_loss_causal 0.6303 re_mapping 0.0112 re_causal 0.0290 /// teacc 98.82 lr 0.00010000
+Epoch 86, weight, value: tensor([[-0.0454, -0.0695, -0.0486,  ..., -0.0272,  0.1147,  0.0934],
+        [-0.1068, -0.1118, -0.1053,  ..., -0.0814, -0.1131, -0.0552],
+        [-0.0651, -0.0491,  0.0839,  ..., -0.0796,  0.1083,  0.0113],
+        ...,
+        [-0.0615,  0.0435,  0.0429,  ...,  0.0919, -0.0701, -0.0828],
+        [-0.1344,  0.0457, -0.0999,  ...,  0.0290, -0.0539, -0.0468],
+        [ 0.0468, -0.0332, -0.0533,  ..., -0.0182, -0.0393, -0.0194]],
+       device='cuda:0'), grad: tensor([[ 6.9104e-07,  5.0105e-06,  7.2643e-08,  ...,  4.8615e-07,
+         -1.7807e-05, -2.0023e-06],
+        [ 1.5777e-06,  1.5780e-05,  4.6566e-08,  ...,  6.2697e-06,
+          7.7069e-05,  3.6716e-05],
+        [ 2.7381e-07, -3.0875e-05, -2.5500e-06,  ...,  1.2666e-07,
+         -7.1573e-04, -1.3328e-04],
+        ...,
+        [ 1.3243e-06, -1.4216e-05,  1.2480e-06,  ..., -1.1697e-05,
+          4.5359e-05,  2.0206e-05],
+        [ 7.0632e-06, -1.5676e-05,  9.1456e-07,  ..., -5.9269e-06,
+          1.0633e-04,  5.4896e-05],
+        [ 1.8962e-06,  1.1381e-06,  5.5879e-09,  ...,  3.6396e-06,
+          5.5504e-04,  1.9781e-06]], device='cuda:0')
+Epoch 86, bias, value: tensor([-0.0154, -0.0237, -0.0133, -0.0278, -0.0318, -0.0013,  0.0233, -0.0107,
+         0.0329,  0.0007], device='cuda:0'), grad: tensor([ 4.3720e-05, -2.5153e-04, -1.6556e-03,  1.0830e-04, -8.1491e-04,
+         1.3411e-07,  2.8133e-05,  1.2314e-04,  4.8804e-04,  1.9312e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 85, time 265.42, cls_loss 0.0109 cls_loss_mapping 0.0140 cls_loss_causal 0.6145 re_mapping 0.0112 re_causal 0.0287 /// teacc 98.82 lr 0.00010000
+Epoch 87, weight, value: tensor([[-0.0459, -0.0702, -0.0487,  ..., -0.0272,  0.1150,  0.0938],
+        [-0.1074, -0.1129, -0.1055,  ..., -0.0818, -0.1158, -0.0564],
+        [-0.0657, -0.0497,  0.0842,  ..., -0.0805,  0.1095,  0.0122],
+        ...,
+        [-0.0607,  0.0441,  0.0429,  ...,  0.0927, -0.0697, -0.0833],
+        [-0.1358,  0.0458, -0.0996,  ...,  0.0290, -0.0547, -0.0472],
+        [ 0.0467, -0.0339, -0.0534,  ..., -0.0188, -0.0398, -0.0198]],
+       device='cuda:0'), grad: tensor([[ 4.1336e-05,  9.9778e-05,  7.9349e-07,  ...,  1.7548e-04,
+          5.2601e-05, -1.4249e-06],
+        [ 9.6411e-06,  7.4580e-06,  6.6683e-07,  ..., -7.4320e-06,
+          4.7311e-06,  7.4506e-08],
+        [ 1.0557e-05,  1.2055e-05, -4.8690e-06,  ...,  1.7464e-05,
+         -2.2352e-08, -2.4308e-06],
+        ...,
+        [-2.2173e-05, -1.9646e-04, -5.1856e-06,  ..., -2.7084e-04,
+         -4.8190e-05,  4.2655e-07],
+        [ 9.5591e-06,  1.0625e-05,  1.7416e-06,  ...,  1.0267e-05,
+          8.1882e-06,  6.7241e-07],
+        [ 2.7835e-05,  3.8713e-05,  9.4436e-07,  ...,  6.8545e-05,
+          2.6867e-05,  3.7439e-07]], device='cuda:0')
+Epoch 87, bias, value: tensor([-0.0159, -0.0247, -0.0136, -0.0269, -0.0320, -0.0015,  0.0235, -0.0102,
+         0.0329,  0.0013], device='cuda:0'), grad: tensor([ 3.6168e-04, -1.7250e-04,  4.5896e-05,  1.0097e-04, -1.5469e-03,
+        -1.3471e-04,  1.5545e-03, -3.8075e-04,  1.2612e-04,  4.4793e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 86, time 266.32, cls_loss 0.0095 cls_loss_mapping 0.0110 cls_loss_causal 0.6441 re_mapping 0.0113 re_causal 0.0292 /// teacc 98.74 lr 0.00010000
+Epoch 88, weight, value: tensor([[-0.0466, -0.0708, -0.0488,  ..., -0.0271,  0.1156,  0.0947],
+        [-0.1077, -0.1136, -0.1056,  ..., -0.0825, -0.1165, -0.0567],
+        [-0.0661, -0.0502,  0.0847,  ..., -0.0812,  0.1100,  0.0123],
+        ...,
+        [-0.0605,  0.0429,  0.0429,  ...,  0.0931, -0.0701, -0.0836],
+        [-0.1367,  0.0460, -0.0999,  ...,  0.0290, -0.0549, -0.0474],
+        [ 0.0466, -0.0347, -0.0536,  ..., -0.0193, -0.0395, -0.0205]],
+       device='cuda:0'), grad: tensor([[ 1.5780e-05,  1.6764e-07,  1.7881e-07,  ...,  3.6880e-07,
+          5.4568e-05,  3.6687e-05],
+        [ 3.8184e-07,  1.3616e-06,  4.4703e-08,  ...,  8.4750e-07,
+          6.8732e-07,  3.9674e-07],
+        [ 1.4212e-06,  1.1362e-07, -1.1493e-06,  ...,  2.1048e-07,
+          1.5087e-07,  1.2126e-06],
+        ...,
+        [ 6.8173e-07,  3.2019e-06,  5.6997e-07,  ...,  8.9779e-06,
+          2.1942e-06,  8.6427e-07],
+        [ 8.2515e-07,  1.0803e-07,  5.2154e-08,  ..., -2.5257e-06,
+          1.3784e-07,  6.0722e-07],
+        [-2.7940e-08, -1.1019e-05,  1.3039e-08,  ..., -1.5512e-05,
+          2.0172e-06,  9.3132e-07]], device='cuda:0')
+Epoch 88, bias, value: tensor([-0.0166, -0.0246, -0.0140, -0.0262, -0.0319, -0.0023,  0.0248, -0.0106,
+         0.0330,  0.0013], device='cuda:0'), grad: tensor([ 7.7009e-05, -4.9472e-06,  3.8296e-06,  9.7454e-06,  4.1819e-04,
+        -1.9386e-05, -1.1283e-04,  3.7003e-04, -7.5921e-06, -7.3385e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 87, time 265.42, cls_loss 0.0091 cls_loss_mapping 0.0123 cls_loss_causal 0.5913 re_mapping 0.0118 re_causal 0.0286 /// teacc 98.85 lr 0.00010000
+Epoch 89, weight, value: tensor([[-0.0472, -0.0711, -0.0490,  ..., -0.0273,  0.1162,  0.0953],
+        [-0.1079, -0.1143, -0.1057,  ..., -0.0832, -0.1168, -0.0567],
+        [-0.0665, -0.0503,  0.0850,  ..., -0.0821,  0.1106,  0.0126],
+        ...,
+        [-0.0614,  0.0435,  0.0430,  ...,  0.0941, -0.0710, -0.0844],
+        [-0.1380,  0.0459, -0.0999,  ...,  0.0291, -0.0547, -0.0472],
+        [ 0.0472, -0.0353, -0.0537,  ..., -0.0200, -0.0394, -0.0211]],
+       device='cuda:0'), grad: tensor([[-4.3005e-05, -3.0734e-06,  2.6394e-06,  ..., -5.6267e-05,
+         -2.6798e-04, -1.7524e-04],
+        [ 4.4703e-07,  1.7047e-05,  6.1430e-06,  ...,  1.5236e-05,
+          1.3821e-06,  7.8417e-07],
+        [ 3.2037e-07,  2.9624e-05,  1.4827e-05,  ...,  3.3021e-05,
+         -3.6806e-06, -1.4063e-06],
+        ...,
+        [ 1.9968e-06, -1.1170e-04, -5.9247e-05,  ..., -1.1647e-04,
+          5.5358e-06,  3.3248e-06],
+        [ 4.6790e-06,  1.3642e-05,  8.4564e-06,  ...,  4.7199e-06,
+          3.3323e-06,  2.7716e-06],
+        [-2.0191e-06,  1.1310e-05,  4.1910e-06,  ...,  1.6078e-05,
+          1.7494e-05,  1.1526e-05]], device='cuda:0')
+Epoch 89, bias, value: tensor([-0.0169, -0.0252, -0.0132, -0.0265, -0.0334, -0.0019,  0.0246, -0.0103,
+         0.0328,  0.0023], device='cuda:0'), grad: tensor([-4.9734e-04,  4.5687e-05,  8.1658e-05,  6.0439e-05,  5.4002e-05,
+         2.4581e-04,  2.2781e-04, -3.0637e-04,  4.5151e-05,  4.3213e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 88, time 265.64, cls_loss 0.0098 cls_loss_mapping 0.0124 cls_loss_causal 0.5771 re_mapping 0.0111 re_causal 0.0267 /// teacc 98.81 lr 0.00010000
+Epoch 90, weight, value: tensor([[-0.0486, -0.0715, -0.0491,  ..., -0.0277,  0.1158,  0.0950],
+        [-0.1083, -0.1148, -0.1065,  ..., -0.0840, -0.1183, -0.0578],
+        [-0.0669, -0.0495,  0.0861,  ..., -0.0826,  0.1122,  0.0142],
+        ...,
+        [-0.0620,  0.0438,  0.0433,  ...,  0.0950, -0.0719, -0.0849],
+        [-0.1391,  0.0452, -0.1012,  ...,  0.0284, -0.0555, -0.0483],
+        [ 0.0469, -0.0352, -0.0540,  ..., -0.0208, -0.0391, -0.0215]],
+       device='cuda:0'), grad: tensor([[ 2.6965e-04,  7.6368e-07,  3.3714e-07,  ...,  9.7036e-05,
+          2.6859e-06, -9.9279e-07],
+        [ 7.5661e-06,  1.0170e-06,  5.2154e-08,  ...,  2.7735e-06,
+          1.9222e-06,  2.8498e-07],
+        [ 1.8954e-05,  3.2596e-07, -7.8790e-07,  ...,  8.5682e-06,
+          1.1615e-05, -1.4342e-07],
+        ...,
+        [ 1.7524e-05, -3.3528e-08,  6.6124e-07,  ...,  4.4219e-06,
+          1.3541e-06,  2.7567e-07],
+        [ 1.3143e-05,  2.3469e-07,  4.3027e-07,  ..., -1.2927e-06,
+         -5.0008e-05,  3.8482e-06],
+        [ 7.0691e-05,  1.4938e-06,  3.2280e-06,  ...,  3.2276e-05,
+          1.4342e-05,  1.3113e-06]], device='cuda:0')
+Epoch 90, bias, value: tensor([-0.0180, -0.0260, -0.0112, -0.0273, -0.0326, -0.0009,  0.0247, -0.0109,
+         0.0321,  0.0022], device='cuda:0'), grad: tensor([ 6.5327e-04,  2.8223e-05,  1.0657e-04,  6.7568e-04, -1.4436e-04,
+        -1.6241e-03,  1.8215e-04,  5.8979e-05, -2.7204e-04,  3.3450e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 89, time 265.48, cls_loss 0.0098 cls_loss_mapping 0.0125 cls_loss_causal 0.6316 re_mapping 0.0106 re_causal 0.0271 /// teacc 98.77 lr 0.00010000
+Epoch 91, weight, value: tensor([[-0.0488, -0.0719, -0.0495,  ..., -0.0279,  0.1167,  0.0958],
+        [-0.1086, -0.1146, -0.1073,  ..., -0.0844, -0.1191, -0.0580],
+        [-0.0674, -0.0497,  0.0872,  ..., -0.0835,  0.1130,  0.0146],
+        ...,
+        [-0.0623,  0.0430,  0.0438,  ...,  0.0948, -0.0724, -0.0853],
+        [-0.1395,  0.0462, -0.1021,  ...,  0.0310, -0.0559, -0.0488],
+        [ 0.0466, -0.0360, -0.0544,  ..., -0.0216, -0.0397, -0.0223]],
+       device='cuda:0'), grad: tensor([[ 4.0568e-06,  3.9823e-06,  1.8626e-07,  ...,  3.0138e-06,
+         -1.2539e-05, -7.3165e-06],
+        [ 1.0580e-06,  1.5102e-05,  2.3283e-07,  ...,  4.4927e-06,
+          2.8498e-07,  1.2293e-07],
+        [ 1.0729e-06,  1.8969e-05, -4.2357e-06,  ...,  1.0796e-05,
+         -1.1683e-05, -1.7211e-06],
+        ...,
+        [ 1.0990e-06, -8.6352e-06,  1.7732e-06,  ..., -3.4869e-05,
+          2.8424e-06,  1.0245e-06],
+        [ 6.6012e-06,  1.0088e-05,  4.0755e-06,  ..., -1.0833e-05,
+          1.0289e-05,  1.6801e-06],
+        [ 7.0453e-05,  2.4125e-05,  2.8070e-06,  ...,  8.3745e-05,
+          8.3297e-06,  4.0792e-06]], device='cuda:0')
+Epoch 91, bias, value: tensor([-0.0176, -0.0249, -0.0112, -0.0273, -0.0319, -0.0019,  0.0245, -0.0116,
+         0.0334,  0.0013], device='cuda:0'), grad: tensor([ 4.6939e-07, -8.4788e-06,  4.2796e-05, -1.0890e-04, -5.1588e-05,
+        -8.4460e-05, -1.0140e-05,  2.7239e-05, -2.6673e-06,  1.9562e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 90, time 265.76, cls_loss 0.0085 cls_loss_mapping 0.0113 cls_loss_causal 0.6149 re_mapping 0.0111 re_causal 0.0275 /// teacc 98.80 lr 0.00010000
+Epoch 92, weight, value: tensor([[-0.0488, -0.0725, -0.0497,  ..., -0.0281,  0.1181,  0.0973],
+        [-0.1087, -0.1150, -0.1072,  ..., -0.0853, -0.1197, -0.0583],
+        [-0.0677, -0.0502,  0.0878,  ..., -0.0847,  0.1142,  0.0151],
+        ...,
+        [-0.0624,  0.0435,  0.0439,  ...,  0.0960, -0.0732, -0.0860],
+        [-0.1401,  0.0460, -0.1024,  ...,  0.0309, -0.0569, -0.0497],
+        [ 0.0460, -0.0365, -0.0549,  ..., -0.0227, -0.0408, -0.0237]],
+       device='cuda:0'), grad: tensor([[ 1.8571e-06,  8.3633e-07,  1.3765e-06,  ...,  1.0617e-06,
+         -9.3460e-05, -3.9965e-05],
+        [ 1.3001e-06,  2.0619e-06,  1.1706e-04,  ...,  2.2221e-06,
+          1.6546e-04,  1.7043e-06],
+        [ 4.7125e-07, -1.9714e-05, -1.6987e-04,  ..., -4.4703e-07,
+         -2.3985e-04, -2.4259e-05],
+        ...,
+        [ 1.1511e-06,  1.7643e-05,  3.8564e-05,  ..., -5.3160e-06,
+          7.8261e-05,  3.0354e-05],
+        [ 8.0094e-06, -4.9695e-06,  4.9658e-06,  ..., -8.1770e-07,
+          5.0634e-05,  1.7986e-05],
+        [ 2.2367e-05,  2.9374e-06,  1.9483e-06,  ...,  1.6481e-05,
+          1.3284e-05,  5.0925e-06]], device='cuda:0')
+Epoch 92, bias, value: tensor([-0.0165, -0.0247, -0.0109, -0.0266, -0.0310, -0.0024,  0.0240, -0.0114,
+         0.0328,  0.0002], device='cuda:0'), grad: tensor([-9.4533e-05,  3.5334e-04, -5.5456e-04,  8.2910e-05,  3.5524e-04,
+        -3.9071e-05, -6.2346e-05,  1.9276e-04,  1.1295e-04, -3.4738e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 91, time 265.15, cls_loss 0.0085 cls_loss_mapping 0.0108 cls_loss_causal 0.6061 re_mapping 0.0110 re_causal 0.0270 /// teacc 98.88 lr 0.00010000
+Epoch 93, weight, value: tensor([[-0.0492, -0.0731, -0.0499,  ..., -0.0282,  0.1185,  0.0977],
+        [-0.1096, -0.1152, -0.1076,  ..., -0.0858, -0.1201, -0.0585],
+        [-0.0681, -0.0503,  0.0884,  ..., -0.0851,  0.1149,  0.0155],
+        ...,
+        [-0.0626,  0.0434,  0.0440,  ...,  0.0963, -0.0737, -0.0869],
+        [-0.1409,  0.0463, -0.1028,  ...,  0.0312, -0.0570, -0.0496],
+        [ 0.0457, -0.0370, -0.0550,  ..., -0.0234, -0.0410, -0.0239]],
+       device='cuda:0'), grad: tensor([[ 7.2271e-07,  5.5358e-06,  2.9802e-08,  ...,  1.3467e-06,
+          1.4909e-05,  1.3381e-05],
+        [ 3.5129e-06,  5.9381e-06,  2.6077e-08,  ...,  1.4342e-06,
+          2.1070e-05,  1.6108e-05],
+        [ 3.7774e-06, -3.5256e-05, -3.7253e-09,  ..., -7.5996e-06,
+         -1.3602e-04, -1.2189e-04],
+        ...,
+        [ 2.7865e-06,  1.4491e-05, -4.2841e-08,  ...,  5.7295e-06,
+          2.2039e-05,  1.9535e-05],
+        [ 3.4925e-06,  2.0534e-05,  4.2841e-08,  ...,  3.4887e-06,
+          5.4091e-05,  4.4137e-05],
+        [ 8.5309e-06, -3.9972e-06,  3.9116e-08,  ..., -1.7464e-05,
+          1.3299e-05,  1.3322e-05]], device='cuda:0')
+Epoch 93, bias, value: tensor([-0.0168, -0.0249, -0.0110, -0.0271, -0.0299, -0.0022,  0.0238, -0.0112,
+         0.0331, -0.0004], device='cuda:0'), grad: tensor([ 5.5492e-05, -1.2445e-03,  7.1621e-04, -7.5459e-05,  5.6922e-05,
+         1.9145e-04, -1.9744e-05,  1.7917e-04,  1.3220e-04,  7.2531e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 92, time 265.56, cls_loss 0.0091 cls_loss_mapping 0.0117 cls_loss_causal 0.5977 re_mapping 0.0106 re_causal 0.0272 /// teacc 98.85 lr 0.00010000
+Epoch 94, weight, value: tensor([[-0.0496, -0.0735, -0.0500,  ..., -0.0283,  0.1191,  0.0984],
+        [-0.1101, -0.1147, -0.1079,  ..., -0.0851, -0.1210, -0.0591],
+        [-0.0684, -0.0506,  0.0889,  ..., -0.0861,  0.1158,  0.0168],
+        ...,
+        [-0.0629,  0.0439,  0.0440,  ...,  0.0974, -0.0741, -0.0876],
+        [-0.1416,  0.0469, -0.1029,  ...,  0.0323, -0.0576, -0.0503],
+        [ 0.0454, -0.0393, -0.0553,  ..., -0.0261, -0.0413, -0.0243]],
+       device='cuda:0'), grad: tensor([[ 7.7963e-05,  1.1828e-07,  1.4901e-08,  ...,  1.2759e-07,
+          8.6784e-05,  4.9740e-05],
+        [ 1.1586e-06,  2.0452e-06,  3.0734e-08,  ...,  1.6801e-06,
+          2.0526e-06,  1.4240e-06],
+        [ 4.0494e-06,  5.8021e-07, -2.1327e-07,  ...,  4.1071e-07,
+          6.7055e-06,  4.3288e-06],
+        ...,
+        [ 7.2177e-07, -1.3873e-05,  2.7008e-08,  ..., -1.1660e-05,
+          2.4252e-06,  1.4994e-06],
+        [ 2.0951e-05,  1.5786e-06,  3.0734e-08,  ...,  1.8245e-06,
+          1.7136e-05,  1.2979e-05],
+        [ 4.5896e-06,  1.7136e-07,  1.8626e-09,  ...,  8.9500e-07,
+          5.3719e-06,  1.9092e-06]], device='cuda:0')
+Epoch 94, bias, value: tensor([-0.0168, -0.0253, -0.0095, -0.0284, -0.0299, -0.0018,  0.0243, -0.0111,
+         0.0343, -0.0017], device='cuda:0'), grad: tensor([ 1.3137e-04, -6.1244e-06,  1.7643e-05,  3.4690e-05,  5.3674e-05,
+        -8.3268e-05, -1.6642e-04, -6.8322e-06,  6.7770e-05, -4.2856e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 93, time 265.70, cls_loss 0.0084 cls_loss_mapping 0.0099 cls_loss_causal 0.6133 re_mapping 0.0110 re_causal 0.0282 /// teacc 98.86 lr 0.00010000
+Epoch 95, weight, value: tensor([[-0.0494, -0.0738, -0.0501,  ..., -0.0280,  0.1202,  0.0996],
+        [-0.1105, -0.1153, -0.1080,  ..., -0.0855, -0.1214, -0.0591],
+        [-0.0689, -0.0514,  0.0890,  ..., -0.0864,  0.1167,  0.0178],
+        ...,
+        [-0.0631,  0.0434,  0.0441,  ...,  0.0981, -0.0746, -0.0880],
+        [-0.1427,  0.0469, -0.1029,  ...,  0.0320, -0.0591, -0.0522],
+        [ 0.0453, -0.0399, -0.0553,  ..., -0.0267, -0.0416, -0.0248]],
+       device='cuda:0'), grad: tensor([[ 8.3819e-08,  4.8429e-07,  3.7253e-09,  ...,  2.9150e-07,
+         -3.4068e-06, -2.4643e-06],
+        [ 1.6671e-07,  4.7907e-06,  6.4261e-08,  ...,  4.8578e-06,
+          1.8068e-07,  1.4435e-07],
+        [ 2.1234e-06,  7.5549e-06, -2.2631e-07,  ...,  1.5246e-06,
+          5.5879e-08, -1.0245e-08],
+        ...,
+        [ 2.4308e-07, -2.2426e-05,  1.5832e-08,  ..., -2.4453e-05,
+          3.3248e-07,  2.5332e-07],
+        [ 4.6473e-07,  4.0978e-06,  8.8476e-08,  ..., -1.1213e-06,
+          2.1607e-07,  1.7043e-07],
+        [ 2.2631e-07,  1.3346e-06,  5.5879e-09,  ...,  6.2808e-06,
+          1.0673e-06,  7.7672e-07]], device='cuda:0')
+Epoch 95, bias, value: tensor([-0.0162, -0.0252, -0.0095, -0.0280, -0.0301, -0.0014,  0.0240, -0.0113,
+         0.0336, -0.0017], device='cuda:0'), grad: tensor([-2.5928e-06,  1.8045e-05,  1.3247e-05,  8.8736e-06,  7.1287e-05,
+         1.5488e-06,  2.5127e-06, -2.9966e-05,  1.2636e-05, -9.5785e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 94----------------------------------------------------
+epoch 94, time 282.03, cls_loss 0.0072 cls_loss_mapping 0.0079 cls_loss_causal 0.5720 re_mapping 0.0103 re_causal 0.0265 /// teacc 99.00 lr 0.00010000
+Epoch 96, weight, value: tensor([[-0.0496, -0.0742, -0.0501,  ..., -0.0282,  0.1219,  0.1012],
+        [-0.1108, -0.1156, -0.1081,  ..., -0.0859, -0.1217, -0.0594],
+        [-0.0694, -0.0513,  0.0893,  ..., -0.0867,  0.1171,  0.0181],
+        ...,
+        [-0.0635,  0.0433,  0.0441,  ...,  0.0986, -0.0752, -0.0888],
+        [-0.1431,  0.0469, -0.1031,  ...,  0.0322, -0.0595, -0.0527],
+        [ 0.0450, -0.0403, -0.0554,  ..., -0.0275, -0.0418, -0.0252]],
+       device='cuda:0'), grad: tensor([[ 1.5926e-07,  1.6205e-07,  3.1665e-08,  ...,  2.8778e-07,
+         -3.8832e-05, -2.9862e-05],
+        [ 1.0338e-07,  9.6764e-07,  3.3528e-08,  ...,  6.0163e-07,
+          1.2387e-06,  8.5402e-07],
+        [ 8.0094e-08,  6.2399e-07, -9.6858e-08,  ...,  1.1735e-07,
+          8.6874e-06,  7.2680e-06],
+        ...,
+        [ 4.2468e-07,  1.6671e-07,  1.3411e-07,  ...,  1.3663e-06,
+          1.4082e-06,  9.7696e-07],
+        [ 1.9576e-06,  1.7686e-06,  1.8626e-08,  ...,  3.2969e-06,
+          3.0361e-06,  1.8906e-06],
+        [ 1.9185e-07, -2.1048e-06,  1.7136e-07,  ..., -5.7407e-06,
+          1.0259e-05,  7.6368e-06]], device='cuda:0')
+Epoch 96, bias, value: tensor([-0.0154, -0.0251, -0.0091, -0.0283, -0.0293, -0.0012,  0.0237, -0.0114,
+         0.0335, -0.0025], device='cuda:0'), grad: tensor([-5.6624e-05, -1.7118e-06,  1.3165e-05,  4.7348e-06,  1.0282e-05,
+        -1.2554e-06,  1.0282e-05,  1.4961e-05,  1.2122e-05, -5.9418e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 95, time 265.58, cls_loss 0.0086 cls_loss_mapping 0.0103 cls_loss_causal 0.6327 re_mapping 0.0105 re_causal 0.0261 /// teacc 98.90 lr 0.00010000
+Epoch 97, weight, value: tensor([[-0.0501, -0.0750, -0.0505,  ..., -0.0287,  0.1227,  0.1020],
+        [-0.1111, -0.1162, -0.1083,  ..., -0.0871, -0.1226, -0.0593],
+        [-0.0700, -0.0517,  0.0893,  ..., -0.0878,  0.1176,  0.0181],
+        ...,
+        [-0.0635,  0.0441,  0.0442,  ...,  0.1004, -0.0755, -0.0892],
+        [-0.1443,  0.0468, -0.1029,  ...,  0.0330, -0.0599, -0.0537],
+        [ 0.0449, -0.0407, -0.0554,  ..., -0.0283, -0.0420, -0.0258]],
+       device='cuda:0'), grad: tensor([[ 1.5218e-06,  2.1495e-06,  1.6978e-06,  ...,  3.3136e-06,
+         -4.5113e-06, -2.0899e-06],
+        [ 1.7416e-07,  8.8289e-06,  9.1493e-06,  ...,  1.2107e-05,
+          5.2061e-07,  1.3029e-06],
+        [ 2.6263e-06,  8.1968e-04,  8.7786e-04,  ...,  1.0061e-03,
+          6.9626e-06,  1.0824e-04],
+        ...,
+        [ 2.6915e-07, -8.4925e-04, -8.9741e-04,  ..., -1.0357e-03,
+          2.0526e-06, -1.0645e-04],
+        [ 3.1888e-06,  3.4049e-06,  1.7472e-06,  ..., -8.0094e-07,
+          1.1791e-06,  8.0559e-07],
+        [ 1.0552e-06,  7.0818e-06,  9.4809e-07,  ..., -1.0364e-05,
+          1.4296e-06,  8.6520e-07]], device='cuda:0')
+Epoch 97, bias, value: tensor([-0.0152, -0.0254, -0.0094, -0.0294, -0.0295, -0.0010,  0.0240, -0.0105,
+         0.0337, -0.0028], device='cuda:0'), grad: tensor([ 7.8753e-06,  5.0068e-05,  2.7237e-03,  1.0423e-05,  3.3069e-04,
+         1.7166e-05, -1.3359e-05, -2.7008e-03, -3.0212e-06, -4.2319e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 96, time 265.23, cls_loss 0.0089 cls_loss_mapping 0.0115 cls_loss_causal 0.6186 re_mapping 0.0100 re_causal 0.0260 /// teacc 98.79 lr 0.00010000
+Epoch 98, weight, value: tensor([[-0.0525, -0.0755, -0.0506,  ..., -0.0298,  0.1225,  0.1022],
+        [-0.1115, -0.1168, -0.1084,  ..., -0.0869, -0.1237, -0.0597],
+        [-0.0708, -0.0526,  0.0888,  ..., -0.0894,  0.1182,  0.0184],
+        ...,
+        [-0.0638,  0.0448,  0.0449,  ...,  0.1013, -0.0756, -0.0896],
+        [-0.1452,  0.0470, -0.1031,  ...,  0.0331, -0.0606, -0.0540],
+        [ 0.0447, -0.0410, -0.0555,  ..., -0.0287, -0.0421, -0.0262]],
+       device='cuda:0'), grad: tensor([[ 1.2470e-06,  2.0918e-06,  1.1176e-08,  ...,  2.6617e-06,
+         -1.0318e-04, -9.8050e-05],
+        [ 1.6093e-06,  4.8429e-06,  2.0489e-08,  ...,  6.3591e-06,
+          5.4296e-07,  4.3865e-07],
+        [ 4.8988e-06,  1.1027e-05, -2.1327e-07,  ...,  5.0403e-06,
+          3.9637e-06,  4.2394e-06],
+        ...,
+        [ 2.7381e-06, -1.7002e-05,  2.7008e-08,  ..., -1.5423e-05,
+          7.9814e-07,  6.1281e-07],
+        [ 6.9141e-06,  8.8662e-06,  6.3330e-08,  ..., -1.1522e-04,
+          3.2224e-06,  2.8871e-06],
+        [ 3.5986e-06,  1.1630e-05,  1.8626e-09,  ...,  6.8069e-05,
+          6.0499e-05,  5.7846e-05]], device='cuda:0')
+Epoch 98, bias, value: tensor([-0.0159, -0.0247, -0.0100, -0.0281, -0.0299, -0.0019,  0.0244, -0.0100,
+         0.0331, -0.0027], device='cuda:0'), grad: tensor([-1.5819e-04,  4.8697e-05,  3.8236e-05, -1.2279e-05,  3.7819e-05,
+         2.2805e-04,  5.6863e-05, -8.7172e-06, -1.0262e-03,  7.9536e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 97, time 265.38, cls_loss 0.0099 cls_loss_mapping 0.0105 cls_loss_causal 0.6036 re_mapping 0.0098 re_causal 0.0251 /// teacc 98.90 lr 0.00010000
+Epoch 99, weight, value: tensor([[-0.0533, -0.0761, -0.0510,  ..., -0.0299,  0.1233,  0.1032],
+        [-0.1120, -0.1178, -0.1090,  ..., -0.0881, -0.1245, -0.0600],
+        [-0.0713, -0.0526,  0.0895,  ..., -0.0899,  0.1183,  0.0188],
+        ...,
+        [-0.0642,  0.0450,  0.0447,  ...,  0.1021, -0.0760, -0.0909],
+        [-0.1461,  0.0471, -0.1033,  ...,  0.0334, -0.0611, -0.0545],
+        [ 0.0447, -0.0412, -0.0555,  ..., -0.0293, -0.0425, -0.0268]],
+       device='cuda:0'), grad: tensor([[-5.3868e-06,  8.5775e-07,  4.5635e-08,  ..., -1.2553e-04,
+         -2.0456e-04, -1.8442e-04],
+        [ 2.5984e-07,  3.5286e-05,  2.3842e-07,  ..., -2.7325e-06,
+          3.7346e-07,  3.0827e-07],
+        [ 5.0198e-07,  2.0280e-05,  1.4501e-06,  ...,  4.9204e-05,
+          1.7527e-06,  1.5656e-06],
+        ...,
+        [ 8.8196e-07,  4.6659e-04,  5.9418e-07,  ...,  1.8759e-03,
+          5.0999e-06,  4.5635e-06],
+        [ 1.5702e-06, -7.4096e-06, -1.4920e-06,  ...,  6.8285e-06,
+          2.7027e-06,  2.6692e-06],
+        [-3.4962e-06, -5.2357e-04,  8.2888e-07,  ..., -1.9798e-03,
+          9.9652e-07,  8.5030e-07]], device='cuda:0')
+Epoch 99, bias, value: tensor([-0.0159, -0.0252, -0.0105, -0.0281, -0.0303, -0.0024,  0.0251, -0.0101,
+         0.0332, -0.0016], device='cuda:0'), grad: tensor([-2.5034e-04, -1.2245e-03,  2.1756e-04,  4.2289e-05,  2.2674e-04,
+         9.1195e-05,  2.4605e-04,  9.1858e-03,  1.5900e-05, -8.5449e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 98, time 265.61, cls_loss 0.0072 cls_loss_mapping 0.0104 cls_loss_causal 0.6021 re_mapping 0.0102 re_causal 0.0270 /// teacc 98.89 lr 0.00010000
+Epoch 100, weight, value: tensor([[-0.0535, -0.0764, -0.0513,  ..., -0.0300,  0.1240,  0.1040],
+        [-0.1123, -0.1194, -0.1091,  ..., -0.0890, -0.1247, -0.0603],
+        [-0.0717, -0.0531,  0.0898,  ..., -0.0906,  0.1188,  0.0195],
+        ...,
+        [-0.0645,  0.0454,  0.0447,  ...,  0.1026, -0.0764, -0.0913],
+        [-0.1468,  0.0471, -0.1035,  ...,  0.0336, -0.0614, -0.0550],
+        [ 0.0449, -0.0415, -0.0556,  ..., -0.0293, -0.0426, -0.0272]],
+       device='cuda:0'), grad: tensor([[ 1.6857e-07,  4.6007e-07,  3.9116e-08,  ...,  1.3225e-06,
+         -3.2306e-05, -3.4183e-05],
+        [ 2.6450e-07,  1.5339e-06,  1.0245e-08,  ...,  1.5914e-05,
+          1.0155e-05,  1.2092e-05],
+        [ 5.8673e-08,  1.2293e-06,  3.9116e-08,  ...,  2.5108e-06,
+          1.9744e-07,  6.0908e-07],
+        ...,
+        [ 1.8440e-07, -7.5579e-05,  1.6764e-08,  ..., -3.3706e-05,
+          1.4585e-06,  1.5106e-06],
+        [ 7.4320e-07, -2.0526e-06,  9.3132e-09,  ..., -1.2088e-04,
+          2.8498e-06,  2.9802e-06],
+        [ 1.0803e-07,  4.0680e-05,  4.0047e-08,  ...,  2.2173e-05,
+          8.4192e-06,  7.6964e-06]], device='cuda:0')
+Epoch 100, bias, value: tensor([-0.0157, -0.0268, -0.0097, -0.0279, -0.0298, -0.0025,  0.0246, -0.0101,
+         0.0332, -0.0011], device='cuda:0'), grad: tensor([-5.0902e-05,  5.0515e-05,  7.7263e-06,  5.0366e-05, -5.3644e-06,
+         1.9193e-04,  4.2409e-05, -1.0055e-04, -2.7609e-04,  8.9943e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 99, time 266.02, cls_loss 0.0080 cls_loss_mapping 0.0099 cls_loss_causal 0.6017 re_mapping 0.0103 re_causal 0.0263 /// teacc 98.98 lr 0.00010000
+Epoch 101, weight, value: tensor([[-0.0542, -0.0770, -0.0514,  ..., -0.0304,  0.1246,  0.1045],
+        [-0.1133, -0.1198, -0.1091,  ..., -0.0893, -0.1250, -0.0597],
+        [-0.0723, -0.0538,  0.0900,  ..., -0.0921,  0.1196,  0.0199],
+        ...,
+        [-0.0647,  0.0458,  0.0447,  ...,  0.1033, -0.0773, -0.0927],
+        [-0.1478,  0.0482, -0.1047,  ...,  0.0340, -0.0618, -0.0553],
+        [ 0.0445, -0.0433, -0.0556,  ..., -0.0309, -0.0429, -0.0279]],
+       device='cuda:0'), grad: tensor([[ 8.4937e-07, -5.6252e-07,  6.1840e-07,  ...,  3.1609e-06,
+         -1.6540e-05, -2.0027e-05],
+        [ 2.7530e-06,  1.2748e-05,  4.3288e-06,  ..., -6.2305e-07,
+          1.0356e-05,  1.1520e-06],
+        [ 2.0098e-06,  1.3679e-05, -3.2604e-05,  ...,  8.4266e-06,
+         -7.1883e-05, -1.9465e-06],
+        ...,
+        [ 1.5303e-05, -3.5286e-05,  1.3690e-06,  ..., -7.1406e-05,
+          3.7327e-06,  8.7451e-07],
+        [ 1.4536e-05,  6.2704e-05,  6.4727e-07,  ...,  2.8223e-05,
+          7.8231e-06,  7.4059e-06],
+        [ 4.7117e-05,  1.6525e-05,  7.5437e-08,  ...,  7.1049e-05,
+          1.1241e-06,  1.0626e-06]], device='cuda:0')
+Epoch 101, bias, value: tensor([-0.0158, -0.0261, -0.0104, -0.0279, -0.0296, -0.0016,  0.0243, -0.0101,
+         0.0338, -0.0022], device='cuda:0'), grad: tensor([-2.3559e-05, -1.2606e-05, -9.7156e-05, -1.4007e-04,  2.2292e-05,
+        -2.4945e-05,  9.8109e-05, -4.7415e-05,  1.0163e-04,  1.2350e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 100, time 265.60, cls_loss 0.0083 cls_loss_mapping 0.0109 cls_loss_causal 0.5971 re_mapping 0.0099 re_causal 0.0255 /// teacc 98.88 lr 0.00010000
+Epoch 102, weight, value: tensor([[-0.0550, -0.0775, -0.0516,  ..., -0.0307,  0.1254,  0.1061],
+        [-0.1137, -0.1191, -0.1093,  ..., -0.0877, -0.1258, -0.0605],
+        [-0.0729, -0.0539,  0.0902,  ..., -0.0938,  0.1205,  0.0205],
+        ...,
+        [-0.0648,  0.0459,  0.0450,  ...,  0.1038, -0.0781, -0.0933],
+        [-0.1486,  0.0483, -0.1048,  ...,  0.0340, -0.0623, -0.0560],
+        [ 0.0441, -0.0440, -0.0557,  ..., -0.0321, -0.0413, -0.0286]],
+       device='cuda:0'), grad: tensor([[-2.2985e-06, -3.7253e-09,  5.1558e-06,  ..., -7.5530e-07,
+         -2.4840e-05, -3.7909e-05],
+        [ 4.8522e-07,  1.2182e-06,  1.1576e-06,  ..., -6.9477e-06,
+          4.3996e-06,  1.7509e-06],
+        [ 1.1111e-06, -2.2724e-07, -4.6760e-05,  ...,  1.2219e-06,
+         -1.2887e-04, -1.8582e-05],
+        ...,
+        [ 7.6257e-06,  2.3171e-05,  2.1141e-07,  ..., -2.2855e-06,
+          1.5562e-06,  9.7696e-07],
+        [ 6.2659e-06,  4.1164e-07,  1.4678e-05,  ...,  9.3505e-06,
+          4.9949e-05,  1.5870e-05],
+        [ 6.6049e-06,  2.3201e-05,  6.7204e-06,  ...,  1.1036e-06,
+          2.4229e-05,  8.5458e-06]], device='cuda:0')
+Epoch 102, bias, value: tensor([-0.0162, -0.0245, -0.0107, -0.0282, -0.0310, -0.0015,  0.0244, -0.0105,
+         0.0336, -0.0016], device='cuda:0'), grad: tensor([-1.6749e-05, -1.0502e-04, -2.5845e-04, -5.7429e-05,  1.0741e-04,
+        -6.0648e-06,  3.3826e-05,  4.2826e-05,  1.7893e-04,  8.0407e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 101, time 265.63, cls_loss 0.0060 cls_loss_mapping 0.0082 cls_loss_causal 0.5821 re_mapping 0.0100 re_causal 0.0261 /// teacc 98.89 lr 0.00010000
+Epoch 103, weight, value: tensor([[-0.0573, -0.0789, -0.0517,  ..., -0.0308,  0.1258,  0.1065],
+        [-0.1141, -0.1193, -0.1096,  ..., -0.0882, -0.1262, -0.0609],
+        [-0.0733, -0.0538,  0.0906,  ..., -0.0940,  0.1212,  0.0210],
+        ...,
+        [-0.0652,  0.0461,  0.0449,  ...,  0.1043, -0.0787, -0.0942],
+        [-0.1495,  0.0481, -0.1049,  ...,  0.0342, -0.0630, -0.0563],
+        [ 0.0439, -0.0446, -0.0558,  ..., -0.0327, -0.0416, -0.0293]],
+       device='cuda:0'), grad: tensor([[ 5.4017e-07,  1.5367e-07,  7.0781e-08,  ...,  1.0477e-06,
+         -2.6785e-06, -3.8259e-06],
+        [ 2.2631e-07,  2.5835e-06,  2.1234e-07,  ...,  2.2501e-06,
+          2.6692e-06,  1.3821e-06],
+        [ 6.9384e-07,  1.9372e-05,  1.0058e-06,  ..., -1.1539e-04,
+         -2.2376e-04, -1.2422e-04],
+        ...,
+        [ 3.6415e-07, -2.7940e-05, -2.1569e-06,  ..., -1.1802e-05,
+          2.2203e-05,  1.1474e-05],
+        [ 2.8554e-06,  1.1884e-05,  5.0198e-07,  ...,  2.8443e-06,
+          5.4240e-06,  3.1348e-06],
+        [ 1.6578e-07,  2.6915e-07, -2.7101e-07,  ...,  1.5181e-06,
+          2.2929e-06,  1.4352e-06]], device='cuda:0')
+Epoch 103, bias, value: tensor([-0.0163, -0.0246, -0.0105, -0.0284, -0.0312, -0.0013,  0.0250, -0.0106,
+         0.0335, -0.0017], device='cuda:0'), grad: tensor([ 6.1207e-06,  8.7246e-06, -6.6996e-04,  8.4996e-05,  1.2517e-05,
+         5.2834e-04,  3.9041e-06,  3.6918e-06,  1.8179e-05,  3.8259e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 102, time 265.92, cls_loss 0.0068 cls_loss_mapping 0.0086 cls_loss_causal 0.5737 re_mapping 0.0095 re_causal 0.0248 /// teacc 98.92 lr 0.00010000
+Epoch 104, weight, value: tensor([[-0.0577, -0.0795, -0.0518,  ..., -0.0311,  0.1265,  0.1073],
+        [-0.1144, -0.1198, -0.1097,  ..., -0.0897, -0.1266, -0.0609],
+        [-0.0738, -0.0544,  0.0909,  ..., -0.0950,  0.1220,  0.0215],
+        ...,
+        [-0.0654,  0.0455,  0.0449,  ...,  0.1051, -0.0792, -0.0947],
+        [-0.1502,  0.0480, -0.1051,  ...,  0.0345, -0.0634, -0.0565],
+        [ 0.0443, -0.0449, -0.0558,  ..., -0.0332, -0.0418, -0.0302]],
+       device='cuda:0'), grad: tensor([[ 2.5332e-07,  5.6904e-07,  1.9558e-08,  ...,  3.5856e-07,
+         -3.9995e-05, -1.9863e-05],
+        [ 1.4156e-07,  1.3523e-06,  1.2107e-08,  ...,  9.6299e-07,
+          4.2468e-07,  1.4715e-07],
+        [ 3.6135e-07,  2.2668e-06, -1.8254e-07,  ...,  1.5171e-06,
+          5.4613e-06,  3.4906e-06],
+        ...,
+        [ 1.6112e-07, -2.7604e-06,  2.3283e-08,  ..., -3.3863e-06,
+          1.6792e-06,  6.3889e-07],
+        [-5.7966e-06, -1.5289e-05,  2.6077e-08,  ..., -6.0722e-06,
+          1.3664e-05,  6.5900e-06],
+        [-2.2352e-08,  5.4576e-07,  1.8626e-09,  ...,  1.4780e-06,
+          7.4171e-06,  3.6582e-06]], device='cuda:0')
+Epoch 104, bias, value: tensor([-0.0161, -0.0252, -0.0106, -0.0276, -0.0303, -0.0016,  0.0247, -0.0106,
+         0.0336, -0.0020], device='cuda:0'), grad: tensor([-4.0919e-05, -4.3303e-05,  2.3678e-05,  6.4254e-05,  1.9416e-05,
+         2.5332e-05,  6.7800e-06,  3.2187e-05, -7.4685e-05, -1.2711e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 103, time 265.39, cls_loss 0.0101 cls_loss_mapping 0.0119 cls_loss_causal 0.6117 re_mapping 0.0095 re_causal 0.0239 /// teacc 98.91 lr 0.00010000
+Epoch 105, weight, value: tensor([[-0.0586, -0.0814, -0.0519,  ..., -0.0314,  0.1266,  0.1086],
+        [-0.1151, -0.1207, -0.1097,  ..., -0.0908, -0.1273, -0.0618],
+        [-0.0750, -0.0551,  0.0909,  ..., -0.0964,  0.1215,  0.0209],
+        ...,
+        [-0.0662,  0.0461,  0.0450,  ...,  0.1058, -0.0796, -0.0952],
+        [-0.1512,  0.0483, -0.1052,  ...,  0.0351, -0.0641, -0.0567],
+        [ 0.0440, -0.0459, -0.0559,  ..., -0.0336, -0.0407, -0.0307]],
+       device='cuda:0'), grad: tensor([[ 7.6275e-07,  1.6456e-06,  2.7940e-09,  ...,  1.0682e-06,
+         -1.0592e-04, -2.7940e-05],
+        [ 4.1723e-07,  7.0222e-06,  9.3132e-10,  ...,  2.1588e-06,
+          3.8520e-06,  4.1537e-07],
+        [ 1.1912e-06,  2.6017e-05, -2.1979e-07,  ...,  8.6874e-06,
+         -4.8369e-05,  3.5763e-07],
+        ...,
+        [ 2.3469e-07,  8.6501e-06,  1.4249e-07,  ..., -2.6319e-06,
+          4.3154e-05,  2.2054e-06],
+        [ 3.1084e-05,  1.6451e-04,  2.7008e-08,  ...,  7.6652e-05,
+          9.9018e-06,  2.7083e-06],
+        [ 7.2457e-07,  3.5092e-06,  9.3132e-10,  ..., -5.2378e-06,
+          1.2673e-05,  2.9001e-06]], device='cuda:0')
+Epoch 105, bias, value: tensor([-0.0171, -0.0269, -0.0116, -0.0274, -0.0300, -0.0010,  0.0249, -0.0103,
+         0.0349, -0.0014], device='cuda:0'), grad: tensor([-1.7977e-04, -2.6250e-04, -1.4296e-06, -5.6362e-04,  7.5042e-05,
+        -2.3097e-05,  1.0091e-04,  2.8992e-04,  5.7125e-04, -7.1265e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 104, time 265.16, cls_loss 0.0064 cls_loss_mapping 0.0078 cls_loss_causal 0.5711 re_mapping 0.0104 re_causal 0.0260 /// teacc 98.88 lr 0.00010000
+Epoch 106, weight, value: tensor([[-0.0590, -0.0820, -0.0520,  ..., -0.0315,  0.1271,  0.1091],
+        [-0.1153, -0.1216, -0.1098,  ..., -0.0918, -0.1277, -0.0619],
+        [-0.0754, -0.0561,  0.0913,  ..., -0.0981,  0.1222,  0.0211],
+        ...,
+        [-0.0665,  0.0467,  0.0449,  ...,  0.1070, -0.0803, -0.0956],
+        [-0.1518,  0.0484, -0.1054,  ...,  0.0351, -0.0641, -0.0570],
+        [ 0.0449, -0.0462, -0.0559,  ..., -0.0339, -0.0410, -0.0311]],
+       device='cuda:0'), grad: tensor([[ 3.9581e-07,  1.3039e-07,  1.9558e-08,  ...,  3.7439e-07,
+         -2.0012e-05, -1.2428e-05],
+        [ 2.3749e-07,  7.5623e-07,  2.7940e-09,  ...,  3.0268e-07,
+          1.6112e-07,  7.8231e-08],
+        [ 8.6613e-07,  6.8806e-06, -1.5832e-08,  ...,  6.7055e-07,
+          2.3860e-06,  1.4622e-06],
+        ...,
+        [ 1.5441e-06, -3.9823e-06,  1.8626e-09,  ..., -1.3657e-05,
+          3.0920e-07,  1.4342e-07],
+        [ 3.2876e-06,  7.9442e-07,  7.4506e-09,  ...,  4.9025e-06,
+          1.0636e-06,  6.6124e-07],
+        [ 8.3726e-07,  7.1004e-06,  0.0000e+00,  ...,  9.5740e-06,
+          1.2293e-05,  7.6517e-06]], device='cuda:0')
+Epoch 106, bias, value: tensor([-0.0171, -0.0271, -0.0120, -0.0281, -0.0297, -0.0007,  0.0247, -0.0097,
+         0.0354, -0.0016], device='cuda:0'), grad: tensor([ 2.1350e-04, -1.7080e-03,  1.9044e-05, -4.8131e-06,  1.4529e-05,
+         8.4341e-05,  9.0063e-05,  1.2308e-05,  1.1902e-03,  8.9705e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 105, time 265.16, cls_loss 0.0077 cls_loss_mapping 0.0103 cls_loss_causal 0.5827 re_mapping 0.0096 re_causal 0.0241 /// teacc 98.84 lr 0.00010000
+Epoch 107, weight, value: tensor([[-0.0600, -0.0825, -0.0523,  ..., -0.0318,  0.1272,  0.1092],
+        [-0.1156, -0.1219, -0.1098,  ..., -0.0921, -0.1278, -0.0619],
+        [-0.0760, -0.0564,  0.0916,  ..., -0.0993,  0.1232,  0.0215],
+        ...,
+        [-0.0671,  0.0471,  0.0448,  ...,  0.1076, -0.0817, -0.0966],
+        [-0.1528,  0.0488, -0.1053,  ...,  0.0364, -0.0646, -0.0574],
+        [ 0.0450, -0.0470, -0.0559,  ..., -0.0348, -0.0410, -0.0318]],
+       device='cuda:0'), grad: tensor([[ 2.6464e-04,  1.4715e-07,  3.9116e-08,  ...,  5.8937e-04,
+          1.7679e-04, -9.9361e-05],
+        [ 2.6934e-06,  4.7777e-07,  3.7253e-09,  ...,  6.2063e-06,
+          6.6236e-06,  2.3674e-06],
+        [ 8.1118e-07,  2.6822e-07,  4.6566e-09,  ...,  1.7751e-06,
+          1.0185e-05,  4.3660e-06],
+        ...,
+        [ 1.2785e-05, -2.9802e-07,  3.7253e-09,  ...,  2.6882e-05,
+          1.9655e-05,  3.2634e-06],
+        [ 1.1700e-04, -7.4580e-06,  2.7940e-09,  ...,  2.3901e-04,
+          1.4186e-04,  9.0227e-06],
+        [ 8.3223e-06,  2.4401e-07,  1.8626e-09,  ...,  1.8165e-05,
+          3.7760e-05,  1.9625e-05]], device='cuda:0')
+Epoch 107, bias, value: tensor([-0.0176, -0.0262, -0.0124, -0.0285, -0.0313, -0.0006,  0.0250, -0.0099,
+         0.0355, -0.0009], device='cuda:0'), grad: tensor([ 7.2908e-04,  1.6987e-05,  7.5340e-05,  5.2929e-05,  3.5912e-05,
+        -5.5542e-03,  4.1580e-03,  6.1452e-05,  3.1543e-04,  1.0973e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 106, time 265.26, cls_loss 0.0077 cls_loss_mapping 0.0085 cls_loss_causal 0.5726 re_mapping 0.0093 re_causal 0.0231 /// teacc 98.94 lr 0.00010000
+Epoch 108, weight, value: tensor([[-0.0610, -0.0831, -0.0529,  ..., -0.0327,  0.1274,  0.1096],
+        [-0.1159, -0.1221, -0.1102,  ..., -0.0924, -0.1283, -0.0623],
+        [-0.0763, -0.0568,  0.0927,  ..., -0.1001,  0.1240,  0.0222],
+        ...,
+        [-0.0672,  0.0473,  0.0445,  ...,  0.1085, -0.0824, -0.0975],
+        [-0.1539,  0.0486, -0.1059,  ...,  0.0366, -0.0645, -0.0578],
+        [ 0.0447, -0.0474, -0.0562,  ..., -0.0355, -0.0413, -0.0324]],
+       device='cuda:0'), grad: tensor([[ 1.3132e-07,  1.2973e-06,  8.0187e-07,  ...,  3.5986e-06,
+         -2.5225e-04, -1.5152e-04],
+        [ 1.1455e-07,  2.5071e-06,  1.8161e-07,  ...,  3.6180e-05,
+          1.1092e-06,  4.9174e-07],
+        [ 1.0803e-07,  1.5004e-06, -2.6077e-06,  ...,  3.8743e-06,
+         -4.8839e-06, -1.6745e-06],
+        ...,
+        [ 4.0047e-07,  3.7234e-06,  6.9011e-07,  ..., -3.3051e-05,
+          1.8273e-06,  7.4506e-07],
+        [ 4.0606e-07, -5.6297e-05,  1.0524e-07,  ..., -1.7166e-04,
+          9.0338e-07,  6.2212e-07],
+        [ 3.0454e-07,  5.3421e-06,  9.7509e-07,  ...,  1.8403e-05,
+          5.9940e-06,  1.6429e-06]], device='cuda:0')
+Epoch 108, bias, value: tensor([-0.0179, -0.0274, -0.0103, -0.0288, -0.0308, -0.0007,  0.0254, -0.0100,
+         0.0353, -0.0011], device='cuda:0'), grad: tensor([-2.5392e-04,  7.6592e-05, -3.5092e-06,  8.2374e-05,  6.1877e-06,
+         2.1541e-04,  2.7847e-04, -4.6939e-05, -4.0960e-04,  5.5015e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 107, time 265.03, cls_loss 0.0086 cls_loss_mapping 0.0097 cls_loss_causal 0.5773 re_mapping 0.0094 re_causal 0.0231 /// teacc 98.88 lr 0.00010000
+Epoch 109, weight, value: tensor([[-0.0614, -0.0835, -0.0529,  ..., -0.0331,  0.1274,  0.1105],
+        [-0.1171, -0.1224, -0.1090,  ..., -0.0928, -0.1306, -0.0646],
+        [-0.0769, -0.0571,  0.0921,  ..., -0.1008,  0.1250,  0.0238],
+        ...,
+        [-0.0677,  0.0475,  0.0446,  ...,  0.1094, -0.0826, -0.0982],
+        [-0.1549,  0.0487, -0.1058,  ...,  0.0365, -0.0652, -0.0583],
+        [ 0.0443, -0.0479, -0.0569,  ..., -0.0360, -0.0405, -0.0332]],
+       device='cuda:0'), grad: tensor([[ 1.5404e-06,  2.0433e-06,  1.6885e-06,  ...,  8.5682e-07,
+          2.5462e-06,  8.9221e-07],
+        [ 5.7276e-07,  6.6645e-06,  2.4680e-07,  ...,  2.5537e-06,
+          4.0513e-07,  4.5542e-07],
+        [ 1.5395e-06,  9.8571e-06, -1.0476e-05,  ...,  1.1856e-06,
+         -3.0566e-06,  1.9055e-06],
+        ...,
+        [ 2.7549e-06,  2.7046e-05,  4.0829e-06,  ..., -1.2428e-05,
+          4.9695e-06,  4.7535e-06],
+        [ 5.9754e-06,  1.4514e-05,  1.1874e-06,  ...,  3.7532e-06,
+          1.6624e-06,  3.6173e-06],
+        [ 4.1015e-06, -3.1233e-05,  4.7870e-07,  ...,  6.6273e-06,
+          5.6345e-07,  1.1222e-06]], device='cuda:0')
+Epoch 109, bias, value: tensor([-0.0186, -0.0264, -0.0111, -0.0286, -0.0315, -0.0007,  0.0255, -0.0101,
+         0.0351, -0.0006], device='cuda:0'), grad: tensor([ 2.0966e-05,  2.5302e-05, -5.3793e-05,  1.0163e-05, -1.2428e-05,
+        -6.8724e-05, -2.8983e-06,  2.2137e-04,  4.5180e-05, -1.8489e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 108, time 265.12, cls_loss 0.0079 cls_loss_mapping 0.0085 cls_loss_causal 0.6028 re_mapping 0.0098 re_causal 0.0233 /// teacc 98.91 lr 0.00010000
+Epoch 110, weight, value: tensor([[-0.0617, -0.0841, -0.0530,  ..., -0.0334,  0.1276,  0.1103],
+        [-0.1174, -0.1228, -0.1097,  ..., -0.0930, -0.1331, -0.0650],
+        [-0.0774, -0.0569,  0.0926,  ..., -0.1011,  0.1262,  0.0244],
+        ...,
+        [-0.0679,  0.0475,  0.0446,  ...,  0.1102, -0.0837, -0.0994],
+        [-0.1565,  0.0484, -0.1059,  ...,  0.0364, -0.0662, -0.0592],
+        [ 0.0444, -0.0486, -0.0570,  ..., -0.0374, -0.0410, -0.0342]],
+       device='cuda:0'), grad: tensor([[ 5.7742e-08,  2.6710e-06,  1.8626e-09,  ...,  6.9253e-06,
+          2.3004e-06,  1.0189e-06],
+        [ 1.2107e-07,  7.3552e-05,  0.0000e+00,  ...,  5.9038e-05,
+          7.1805e-07,  4.2468e-07],
+        [ 1.1642e-07,  1.5509e-04, -1.3039e-08,  ...,  1.3173e-04,
+          7.8883e-07,  8.9686e-07],
+        ...,
+        [ 2.5518e-07, -7.0667e-04,  5.5879e-09,  ..., -5.7697e-04,
+          2.6748e-06,  1.5590e-06],
+        [ 2.6077e-07,  2.3782e-05,  9.3132e-10,  ...,  5.2191e-06,
+         -2.5898e-05, -1.5587e-05],
+        [ 3.8184e-08,  3.8836e-07,  0.0000e+00,  ...,  3.6675e-06,
+          3.3733e-06,  2.0191e-06]], device='cuda:0')
+Epoch 110, bias, value: tensor([-0.0189, -0.0275, -0.0108, -0.0277, -0.0305, -0.0011,  0.0277, -0.0105,
+         0.0349, -0.0015], device='cuda:0'), grad: tensor([ 3.2544e-05,  1.5080e-04,  3.4738e-04,  1.0128e-03,  7.0184e-06,
+         4.4912e-05,  1.6049e-05, -1.5764e-03, -1.8761e-05, -1.6958e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 109, time 265.55, cls_loss 0.0074 cls_loss_mapping 0.0086 cls_loss_causal 0.5927 re_mapping 0.0088 re_causal 0.0226 /// teacc 98.87 lr 0.00010000
+Epoch 111, weight, value: tensor([[-0.0624, -0.0849, -0.0532,  ..., -0.0336,  0.1290,  0.1112],
+        [-0.1179, -0.1232, -0.1101,  ..., -0.0932, -0.1332, -0.0649],
+        [-0.0778, -0.0570,  0.0933,  ..., -0.1020,  0.1270,  0.0246],
+        ...,
+        [-0.0676,  0.0479,  0.0445,  ...,  0.1111, -0.0848, -0.0999],
+        [-0.1575,  0.0484, -0.1062,  ...,  0.0362, -0.0661, -0.0596],
+        [ 0.0439, -0.0494, -0.0571,  ..., -0.0375, -0.0417, -0.0351]],
+       device='cuda:0'), grad: tensor([[ 2.9746e-06,  4.0419e-07,  4.6566e-09,  ...,  1.7490e-06,
+         -3.9369e-05, -2.3171e-05],
+        [ 1.4454e-06,  1.0980e-06,  0.0000e+00,  ...,  1.6307e-06,
+          7.4320e-07,  4.0885e-07],
+        [ 7.6182e-07,  5.8077e-06, -8.3819e-09,  ...,  7.1563e-06,
+          1.9539e-06,  1.0813e-06],
+        ...,
+        [ 1.0338e-06, -7.2643e-06,  1.8626e-09,  ..., -1.0528e-05,
+          5.6159e-07,  2.9989e-07],
+        [ 2.1160e-05,  1.6112e-06,  9.3132e-10,  ..., -2.3559e-05,
+          9.2760e-06,  7.8455e-06],
+        [ 1.4370e-06,  1.2405e-06,  9.3132e-10,  ...,  3.2395e-05,
+          1.7002e-05,  7.7784e-06]], device='cuda:0')
+Epoch 111, bias, value: tensor([-0.0185, -0.0271, -0.0104, -0.0279, -0.0309, -0.0016,  0.0281, -0.0110,
+         0.0349, -0.0016], device='cuda:0'), grad: tensor([-6.1333e-05,  6.8918e-06,  2.6241e-05,  1.4019e-04,  2.2382e-05,
+        -2.4509e-04,  7.3671e-05, -1.1474e-05, -2.0063e-04,  2.4843e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 110, time 265.84, cls_loss 0.0061 cls_loss_mapping 0.0077 cls_loss_causal 0.5713 re_mapping 0.0092 re_causal 0.0233 /// teacc 98.86 lr 0.00010000
+Epoch 112, weight, value: tensor([[-0.0625, -0.0849, -0.0534,  ..., -0.0336,  0.1296,  0.1119],
+        [-0.1183, -0.1230, -0.1089,  ..., -0.0945, -0.1332, -0.0641],
+        [-0.0783, -0.0573,  0.0938,  ..., -0.1026,  0.1274,  0.0245],
+        ...,
+        [-0.0677,  0.0481,  0.0438,  ...,  0.1123, -0.0856, -0.1006],
+        [-0.1591,  0.0481, -0.1063,  ...,  0.0358, -0.0667, -0.0603],
+        [ 0.0433, -0.0497, -0.0578,  ..., -0.0381, -0.0421, -0.0357]],
+       device='cuda:0'), grad: tensor([[ 2.0321e-06,  3.8184e-08,  9.3319e-07,  ..., -3.0827e-07,
+          3.1646e-06,  1.7351e-06],
+        [ 6.2305e-07,  5.4110e-07,  6.6590e-07,  ...,  5.1316e-07,
+          1.4780e-06,  7.9069e-07],
+        [ 3.3993e-07, -2.6245e-06, -7.9051e-06,  ...,  9.4064e-08,
+         -7.8306e-06, -1.4501e-06],
+        ...,
+        [ 2.2724e-07, -2.0415e-06,  6.4857e-06,  ..., -3.6452e-06,
+          6.2138e-06,  1.4333e-06],
+        [ 4.6901e-06,  4.4890e-07,  3.9767e-07,  ...,  1.5721e-06,
+          3.8520e-06,  3.1963e-06],
+        [-9.0152e-07,  6.0536e-08,  1.6019e-07,  ..., -3.8743e-07,
+          4.9733e-07,  1.9744e-07]], device='cuda:0')
+Epoch 112, bias, value: tensor([-0.0182, -0.0257, -0.0114, -0.0279, -0.0313, -0.0010,  0.0276, -0.0111,
+         0.0343, -0.0018], device='cuda:0'), grad: tensor([ 7.6145e-06,  7.6517e-06, -1.2375e-05,  1.4804e-05, -1.0557e-05,
+         2.8074e-05, -5.9903e-05,  1.0207e-05,  4.2945e-05, -2.8446e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 111, time 265.53, cls_loss 0.0070 cls_loss_mapping 0.0071 cls_loss_causal 0.5595 re_mapping 0.0086 re_causal 0.0217 /// teacc 98.93 lr 0.00010000
+Epoch 113, weight, value: tensor([[-0.0633, -0.0850, -0.0537,  ..., -0.0345,  0.1311,  0.1135],
+        [-0.1193, -0.1228, -0.1095,  ..., -0.0948, -0.1340, -0.0642],
+        [-0.0789, -0.0574,  0.0951,  ..., -0.1029,  0.1280,  0.0249],
+        ...,
+        [-0.0680,  0.0483,  0.0432,  ...,  0.1128, -0.0868, -0.1022],
+        [-0.1610,  0.0478, -0.1065,  ...,  0.0352, -0.0675, -0.0607],
+        [ 0.0433, -0.0501, -0.0579,  ..., -0.0390, -0.0424, -0.0365]],
+       device='cuda:0'), grad: tensor([[ 3.7178e-06,  1.1027e-06,  4.6566e-09,  ...,  2.6356e-07,
+         -5.4091e-06, -3.9488e-06],
+        [ 3.9339e-06,  8.5473e-05,  3.7439e-07,  ...,  9.6381e-05,
+          2.2501e-06,  1.1269e-06],
+        [ 4.1798e-06,  6.1728e-06, -5.0291e-07,  ...,  4.4629e-06,
+          2.5015e-06,  2.2817e-06],
+        ...,
+        [ 2.5220e-06, -9.8586e-05,  3.1665e-08,  ..., -1.1450e-04,
+          8.0932e-07,  2.3656e-07],
+        [ 6.0238e-06,  1.0123e-06,  9.3132e-09,  ..., -1.5432e-06,
+          1.2303e-06,  6.7614e-07],
+        [ 1.4260e-05,  4.3623e-06,  9.3132e-10,  ...,  2.3972e-06,
+          1.3569e-06,  6.5938e-07]], device='cuda:0')
+Epoch 113, bias, value: tensor([-0.0171, -0.0252, -0.0113, -0.0276, -0.0310, -0.0016,  0.0276, -0.0116,
+         0.0335, -0.0020], device='cuda:0'), grad: tensor([ 2.0824e-06,  2.9755e-04,  2.3052e-05,  4.3416e-04,  1.9073e-05,
+        -5.2404e-04,  4.2409e-05, -3.2973e-04,  4.6901e-06,  3.0398e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 112, time 265.61, cls_loss 0.0068 cls_loss_mapping 0.0069 cls_loss_causal 0.5831 re_mapping 0.0088 re_causal 0.0225 /// teacc 98.76 lr 0.00010000
+Epoch 114, weight, value: tensor([[-0.0636, -0.0855, -0.0538,  ..., -0.0351,  0.1312,  0.1148],
+        [-0.1198, -0.1233, -0.1095,  ..., -0.0957, -0.1344, -0.0644],
+        [-0.0792, -0.0585,  0.0952,  ..., -0.1050,  0.1280,  0.0250],
+        ...,
+        [-0.0683,  0.0480,  0.0433,  ...,  0.1121, -0.0875, -0.1027],
+        [-0.1618,  0.0491, -0.1066,  ...,  0.0370, -0.0678, -0.0611],
+        [ 0.0430, -0.0497, -0.0580,  ..., -0.0380, -0.0414, -0.0380]],
+       device='cuda:0'), grad: tensor([[ 1.1027e-05,  1.4063e-07,  5.1688e-08,  ...,  5.3532e-06,
+         -2.7735e-06, -1.8906e-06],
+        [ 2.0117e-06,  8.6101e-07,  4.4238e-08,  ...,  1.5143e-06,
+          3.0966e-07,  1.2061e-07],
+        [ 2.1178e-06,  1.3635e-06,  1.7695e-08,  ...,  1.1353e-06,
+         -3.8967e-06, -7.7765e-07],
+        ...,
+        [ 6.4373e-06,  2.2780e-06,  2.4540e-07,  ..., -1.8487e-06,
+          4.1462e-06,  1.0310e-06],
+        [ 5.2452e-05,  4.8429e-06,  6.8452e-08,  ...,  2.2113e-05,
+          6.4559e-06,  3.1479e-07],
+        [ 2.9996e-05,  1.1353e-06,  9.2201e-08,  ...,  1.6868e-05,
+          1.1567e-06,  6.7381e-07]], device='cuda:0')
+Epoch 114, bias, value: tensor([-0.0180, -0.0253, -0.0121, -0.0280, -0.0309, -0.0013,  0.0275, -0.0124,
+         0.0343, -0.0004], device='cuda:0'), grad: tensor([ 2.8715e-05,  4.3750e-05,  1.5959e-05,  4.3368e-04, -1.2684e-04,
+        -6.7759e-04,  9.4846e-06,  3.4899e-05,  1.5461e-04,  8.3804e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 113, time 265.41, cls_loss 0.0060 cls_loss_mapping 0.0064 cls_loss_causal 0.5533 re_mapping 0.0091 re_causal 0.0226 /// teacc 98.93 lr 0.00010000
+Epoch 115, weight, value: tensor([[-0.0640, -0.0859, -0.0542,  ..., -0.0353,  0.1319,  0.1158],
+        [-0.1215, -0.1236, -0.1095,  ..., -0.0961, -0.1347, -0.0643],
+        [-0.0796, -0.0587,  0.0955,  ..., -0.1054,  0.1282,  0.0253],
+        ...,
+        [-0.0686,  0.0485,  0.0432,  ...,  0.1130, -0.0880, -0.1035],
+        [-0.1628,  0.0488, -0.1070,  ...,  0.0367, -0.0682, -0.0614],
+        [ 0.0429, -0.0506, -0.0582,  ..., -0.0389, -0.0417, -0.0387]],
+       device='cuda:0'), grad: tensor([[ 2.3469e-06,  4.5169e-08,  4.0047e-08,  ...,  1.1781e-06,
+         -6.7521e-08,  4.0606e-06],
+        [ 2.0117e-06,  1.4203e-07,  2.4334e-05,  ...,  1.1455e-06,
+          2.7925e-05, -1.1303e-05],
+        [ 1.4147e-06,  2.5844e-07, -2.6867e-05,  ...,  7.6788e-07,
+         -3.2365e-05,  1.1148e-06],
+        ...,
+        [ 1.9483e-06, -3.8370e-07,  2.1327e-06,  ...,  4.4471e-07,
+          2.7996e-06,  1.2117e-06],
+        [ 8.2329e-06, -5.9139e-07,  7.9628e-08,  ...,  4.0159e-06,
+          5.2806e-07,  1.9372e-06],
+        [ 2.9169e-06,  1.4016e-07,  6.5155e-06,  ...,  1.8179e-06,
+          6.1374e-07,  1.0403e-06]], device='cuda:0')
+Epoch 115, bias, value: tensor([-0.0177, -0.0250, -0.0125, -0.0288, -0.0305, -0.0006,  0.0275, -0.0122,
+         0.0338, -0.0008], device='cuda:0'), grad: tensor([ 2.3663e-05,  3.5495e-05, -8.7559e-05,  1.1510e-04, -5.9932e-05,
+        -1.4782e-04,  1.3724e-05,  1.6600e-05,  2.0489e-05,  7.0274e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 114, time 265.37, cls_loss 0.0055 cls_loss_mapping 0.0065 cls_loss_causal 0.5722 re_mapping 0.0091 re_causal 0.0229 /// teacc 98.86 lr 0.00010000
+Epoch 116, weight, value: tensor([[-0.0643, -0.0864, -0.0544,  ..., -0.0357,  0.1323,  0.1163],
+        [-0.1220, -0.1240, -0.1098,  ..., -0.0965, -0.1351, -0.0646],
+        [-0.0799, -0.0591,  0.0961,  ..., -0.1059,  0.1290,  0.0260],
+        ...,
+        [-0.0688,  0.0474,  0.0429,  ...,  0.1132, -0.0886, -0.1045],
+        [-0.1633,  0.0491, -0.1072,  ...,  0.0370, -0.0686, -0.0617],
+        [ 0.0425, -0.0512, -0.0578,  ..., -0.0395, -0.0419, -0.0394]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-08,  4.2981e-07,  4.6566e-10,  ...,  3.8417e-07,
+         -1.0310e-06, -1.2424e-06],
+        [ 5.4948e-08,  1.9418e-07,  4.6566e-10,  ...,  1.7090e-07,
+          2.0536e-07,  1.3178e-07],
+        [ 3.1991e-07,  3.6806e-06, -2.3283e-09,  ...,  5.0925e-06,
+          4.9286e-06,  2.9188e-06],
+        ...,
+        [ 5.2620e-08, -7.0874e-07,  2.7940e-09,  ..., -8.2934e-07,
+          4.1910e-07,  2.8266e-07],
+        [ 2.0443e-07, -6.2101e-06,  4.6566e-10,  ..., -9.7454e-06,
+         -1.1772e-05, -6.7502e-06],
+        [ 2.2352e-07,  2.5239e-07,  4.6566e-10,  ...,  2.0675e-07,
+          5.8720e-07,  4.8103e-07]], device='cuda:0')
+Epoch 116, bias, value: tensor([-0.0177, -0.0255, -0.0115, -0.0286, -0.0307, -0.0002,  0.0272, -0.0127,
+         0.0340, -0.0009], device='cuda:0'), grad: tensor([ 7.7346e-07,  9.8161e-07,  2.4781e-05,  6.6236e-06,  2.6524e-06,
+         1.7226e-05,  8.4564e-07,  4.5868e-07, -5.3018e-05, -1.3616e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 115, time 265.41, cls_loss 0.0063 cls_loss_mapping 0.0073 cls_loss_causal 0.5718 re_mapping 0.0092 re_causal 0.0221 /// teacc 98.93 lr 0.00010000
+Epoch 117, weight, value: tensor([[-0.0649, -0.0869, -0.0546,  ..., -0.0365,  0.1333,  0.1173],
+        [-0.1225, -0.1244, -0.1099,  ..., -0.0971, -0.1352, -0.0645],
+        [-0.0804, -0.0603,  0.0967,  ..., -0.1062,  0.1298,  0.0265],
+        ...,
+        [-0.0691,  0.0476,  0.0426,  ...,  0.1141, -0.0896, -0.1058],
+        [-0.1642,  0.0487, -0.1075,  ...,  0.0369, -0.0691, -0.0620],
+        [ 0.0420, -0.0520, -0.0578,  ..., -0.0400, -0.0421, -0.0399]],
+       device='cuda:0'), grad: tensor([[ 2.5518e-07,  2.5891e-07,  4.6566e-10,  ...,  3.5716e-07,
+         -4.9509e-06, -3.5148e-06],
+        [ 2.4633e-07,  1.1120e-06, -1.9278e-07,  ...,  9.4902e-07,
+          1.1781e-07,  5.4948e-08],
+        [ 1.8440e-07,  7.3295e-07,  1.2387e-07,  ...,  6.4215e-07,
+         -1.5246e-06,  4.1723e-07],
+        ...,
+        [ 2.8824e-07, -7.9200e-06,  1.8626e-09,  ..., -1.0408e-05,
+          3.8883e-07,  1.1967e-07],
+        [ 6.0210e-07,  2.0396e-06,  3.2596e-09,  ...,  1.7341e-06,
+          4.6659e-07,  1.3411e-07],
+        [ 2.7046e-06,  3.0734e-06,  9.3132e-10,  ...,  3.1069e-06,
+          2.3376e-06,  1.3886e-06]], device='cuda:0')
+Epoch 117, bias, value: tensor([-0.0173, -0.0254, -0.0115, -0.0275, -0.0306, -0.0002,  0.0267, -0.0128,
+         0.0335, -0.0012], device='cuda:0'), grad: tensor([-5.5209e-06, -1.7390e-05, -3.0510e-06,  4.9099e-06,  1.1921e-05,
+        -2.5630e-06,  4.3437e-06, -3.5316e-06,  8.9183e-06,  1.9483e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 116, time 265.55, cls_loss 0.0073 cls_loss_mapping 0.0079 cls_loss_causal 0.5915 re_mapping 0.0085 re_causal 0.0214 /// teacc 98.93 lr 0.00010000
+Epoch 118, weight, value: tensor([[-0.0654, -0.0874, -0.0549,  ..., -0.0365,  0.1334,  0.1174],
+        [-0.1229, -0.1268, -0.1098,  ..., -0.0965, -0.1353, -0.0646],
+        [-0.0810, -0.0610,  0.0970,  ..., -0.1073,  0.1301,  0.0269],
+        ...,
+        [-0.0693,  0.0489,  0.0430,  ...,  0.1159, -0.0902, -0.1064],
+        [-0.1648,  0.0486, -0.1080,  ...,  0.0370, -0.0692, -0.0622],
+        [ 0.0416, -0.0523, -0.0579,  ..., -0.0414, -0.0422, -0.0405]],
+       device='cuda:0'), grad: tensor([[ 5.6392e-07,  2.3562e-07,  9.5926e-08,  ..., -1.9204e-06,
+         -1.4119e-05, -8.2180e-06],
+        [ 5.5553e-07,  4.6752e-07,  5.3551e-08,  ...,  1.0338e-06,
+          1.2582e-06,  7.6462e-07],
+        [ 1.5823e-06,  3.3956e-06,  2.5611e-08,  ...,  7.1991e-07,
+         -2.5146e-08, -3.1479e-07],
+        ...,
+        [ 4.7265e-07,  1.1437e-06,  2.4680e-08,  ...,  1.8878e-06,
+          2.8834e-06,  2.0470e-06],
+        [ 6.0834e-06,  1.3197e-06,  1.6764e-08,  ...,  8.6799e-06,
+          1.6317e-06,  9.0990e-07],
+        [ 2.3190e-07,  1.3923e-07,  1.3970e-09,  ...,  9.4622e-06,
+          4.3064e-06,  2.3022e-06]], device='cuda:0')
+Epoch 118, bias, value: tensor([-0.0176, -0.0260, -0.0120, -0.0276, -0.0312, -0.0002,  0.0268, -0.0110,
+         0.0334, -0.0015], device='cuda:0'), grad: tensor([-1.5162e-05, -1.2264e-03,  2.7806e-05,  5.8591e-05, -2.3067e-04,
+        -1.7807e-05, -6.2166e-07,  1.1492e-03,  3.2365e-05,  2.2197e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 117, time 265.24, cls_loss 0.0066 cls_loss_mapping 0.0085 cls_loss_causal 0.5924 re_mapping 0.0089 re_causal 0.0223 /// teacc 98.92 lr 0.00010000
+Epoch 119, weight, value: tensor([[-0.0656, -0.0880, -0.0551,  ..., -0.0360,  0.1342,  0.1181],
+        [-0.1232, -0.1274, -0.1095,  ..., -0.0969, -0.1355, -0.0650],
+        [-0.0813, -0.0617,  0.0970,  ..., -0.1086,  0.1309,  0.0275],
+        ...,
+        [-0.0698,  0.0482,  0.0429,  ...,  0.1157, -0.0909, -0.1071],
+        [-0.1658,  0.0489, -0.1082,  ...,  0.0373, -0.0697, -0.0625],
+        [ 0.0420, -0.0533, -0.0579,  ..., -0.0414, -0.0429, -0.0411]],
+       device='cuda:0'), grad: tensor([[ 6.4401e-07,  2.5146e-08,  1.3644e-07,  ...,  8.5682e-08,
+          5.5879e-08, -5.2759e-07],
+        [ 2.7474e-07,  1.0291e-07,  1.8161e-08,  ...,  1.6158e-07,
+          1.0943e-06,  3.7579e-07],
+        [ 2.8173e-07,  1.2992e-07,  2.8871e-08,  ...,  1.2014e-07,
+          1.0394e-06,  1.9697e-07],
+        ...,
+        [ 7.2177e-08,  4.6100e-08,  4.6566e-10,  ...,  7.9162e-08,
+          4.0140e-07,  2.3749e-07],
+        [ 1.1353e-06,  2.2491e-07,  2.5146e-08,  ...,  3.7486e-07,
+         -5.3644e-07,  7.0035e-07],
+        [ 2.8685e-07, -1.0990e-07,  2.7940e-09,  ..., -2.3330e-07,
+          2.5798e-06,  4.7917e-07]], device='cuda:0')
+Epoch 119, bias, value: tensor([-0.0172, -0.0255, -0.0123, -0.0271, -0.0309, -0.0002,  0.0265, -0.0121,
+         0.0342, -0.0016], device='cuda:0'), grad: tensor([ 2.7977e-06,  7.4804e-06,  2.3004e-06,  1.1995e-05, -4.1425e-05,
+        -1.0125e-05, -1.3083e-05,  7.0594e-06, -5.8524e-06,  3.8743e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 118, time 265.30, cls_loss 0.0066 cls_loss_mapping 0.0076 cls_loss_causal 0.5834 re_mapping 0.0088 re_causal 0.0221 /// teacc 98.91 lr 0.00010000
+Epoch 120, weight, value: tensor([[-0.0659, -0.0886, -0.0554,  ..., -0.0360,  0.1348,  0.1188],
+        [-0.1240, -0.1281, -0.1100,  ..., -0.0975, -0.1362, -0.0655],
+        [-0.0820, -0.0621,  0.0972,  ..., -0.1093,  0.1312,  0.0275],
+        ...,
+        [-0.0701,  0.0490,  0.0428,  ...,  0.1168, -0.0913, -0.1076],
+        [-0.1657,  0.0490, -0.1081,  ...,  0.0385, -0.0673, -0.0629],
+        [ 0.0421, -0.0538, -0.0579,  ..., -0.0416, -0.0432, -0.0415]],
+       device='cuda:0'), grad: tensor([[ 7.5437e-08,  1.6298e-07,  1.3970e-08,  ...,  1.4110e-06,
+         -5.9232e-07, -3.8277e-07],
+        [ 5.8673e-08,  3.1143e-06,  9.3132e-10,  ...,  4.8317e-06,
+          6.7987e-08,  2.0489e-08],
+        [ 6.3330e-08,  3.4571e-06,  1.8626e-09,  ...,  1.1332e-05,
+         -1.1146e-05,  1.0896e-07],
+        ...,
+        [ 6.4261e-08, -1.0543e-05,  0.0000e+00,  ..., -5.7101e-05,
+          5.1595e-07,  1.7695e-08],
+        [ 2.4587e-07,  8.8848e-07,  9.3132e-10,  ...,  4.2841e-07,
+          9.3691e-07,  7.5437e-08],
+        [ 1.4249e-07,  1.0384e-06,  0.0000e+00,  ...,  2.2817e-06,
+          2.3656e-07,  1.2014e-07]], device='cuda:0')
+Epoch 120, bias, value: tensor([-0.0170, -0.0257, -0.0118, -0.0278, -0.0317,  0.0002,  0.0256, -0.0118,
+         0.0354, -0.0016], device='cuda:0'), grad: tensor([ 2.2613e-06,  5.0254e-06, -1.3141e-06,  8.0615e-06,  4.7028e-05,
+         2.7016e-05,  1.3923e-06, -9.7692e-05,  6.0685e-06,  2.0899e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 119, time 265.39, cls_loss 0.0058 cls_loss_mapping 0.0057 cls_loss_causal 0.5625 re_mapping 0.0087 re_causal 0.0217 /// teacc 98.80 lr 0.00010000
+Epoch 121, weight, value: tensor([[-0.0673, -0.0893, -0.0557,  ..., -0.0370,  0.1342,  0.1183],
+        [-0.1248, -0.1284, -0.1102,  ..., -0.0977, -0.1364, -0.0656],
+        [-0.0825, -0.0628,  0.0976,  ..., -0.1104,  0.1317,  0.0275],
+        ...,
+        [-0.0704,  0.0497,  0.0427,  ...,  0.1179, -0.0919, -0.1078],
+        [-0.1665,  0.0489, -0.1081,  ...,  0.0385, -0.0676, -0.0634],
+        [ 0.0419, -0.0546, -0.0579,  ..., -0.0425, -0.0435, -0.0418]],
+       device='cuda:0'), grad: tensor([[ 2.7381e-07,  6.1467e-08,  0.0000e+00,  ..., -4.3474e-06,
+         -1.4052e-05, -8.6427e-06],
+        [ 8.3819e-08,  7.2364e-07,  2.0489e-08,  ...,  3.8557e-07,
+          6.4634e-07,  2.5891e-07],
+        [ 8.1025e-08, -2.4885e-06, -5.3551e-07,  ...,  6.1002e-07,
+         -4.7497e-06, -5.6811e-07],
+        ...,
+        [ 2.1141e-07,  8.4750e-07,  5.1502e-07,  ..., -1.6307e-06,
+          4.7944e-06,  8.0001e-07],
+        [ 7.1824e-05,  2.7567e-06,  0.0000e+00,  ...,  1.6224e-04,
+          1.2098e-06,  9.8813e-07],
+        [ 2.1700e-07,  4.3306e-07,  0.0000e+00,  ...,  1.8338e-06,
+          3.0138e-06,  1.7975e-06]], device='cuda:0')
+Epoch 121, bias, value: tensor([-0.0177, -0.0259, -0.0120, -0.0282, -0.0312,  0.0004,  0.0263, -0.0114,
+         0.0354, -0.0022], device='cuda:0'), grad: tensor([-3.1024e-05,  1.3180e-05, -2.5287e-05,  1.1124e-05,  2.1458e-05,
+        -2.1064e-04,  1.1973e-05,  1.5274e-05,  2.2864e-04, -3.4988e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 120, time 265.84, cls_loss 0.0067 cls_loss_mapping 0.0070 cls_loss_causal 0.5548 re_mapping 0.0088 re_causal 0.0220 /// teacc 98.98 lr 0.00010000
+Epoch 122, weight, value: tensor([[-0.0676, -0.0898, -0.0558,  ..., -0.0372,  0.1341,  0.1190],
+        [-0.1254, -0.1290, -0.1109,  ..., -0.0984, -0.1372, -0.0663],
+        [-0.0830, -0.0635,  0.0983,  ..., -0.1113,  0.1325,  0.0282],
+        ...,
+        [-0.0711,  0.0505,  0.0426,  ...,  0.1194, -0.0925, -0.1083],
+        [-0.1669,  0.0487, -0.1074,  ...,  0.0384, -0.0679, -0.0638],
+        [ 0.0421, -0.0554, -0.0579,  ..., -0.0436, -0.0426, -0.0425]],
+       device='cuda:0'), grad: tensor([[ 3.5763e-07,  3.7439e-07,  9.3132e-10,  ...,  1.7229e-07,
+         -3.6322e-08,  3.5670e-07],
+        [ 2.8126e-07,  4.6566e-07,  0.0000e+00,  ...,  3.2224e-07,
+          1.7866e-05,  1.1593e-05],
+        [ 1.7695e-07,  1.1548e-06,  9.3132e-10,  ...,  2.0377e-06,
+         -4.4316e-05, -3.3647e-05],
+        ...,
+        [ 5.3365e-07, -7.5437e-07,  0.0000e+00,  ..., -1.8561e-06,
+          2.1607e-06,  1.2936e-06],
+        [ 1.3076e-06,  1.2711e-05,  0.0000e+00,  ..., -1.7267e-06,
+          1.0692e-06,  1.1930e-06],
+        [ 4.9360e-07, -1.1541e-05,  0.0000e+00,  ...,  8.0187e-07,
+          1.4920e-06,  9.2201e-07]], device='cuda:0')
+Epoch 122, bias, value: tensor([-1.8815e-02, -2.6876e-02, -1.1588e-02, -2.8067e-02, -3.0534e-02,
+         2.2794e-05,  2.5934e-02, -1.1187e-02,  3.5494e-02, -9.9249e-04],
+       device='cuda:0'), grad: tensor([ 9.5665e-06, -4.2468e-05, -1.1522e-04, -7.1287e-04, -1.0513e-05,
+         7.2145e-04,  1.0979e-04,  9.1419e-06,  7.0155e-05, -3.9339e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 121, time 265.15, cls_loss 0.0055 cls_loss_mapping 0.0066 cls_loss_causal 0.5497 re_mapping 0.0087 re_causal 0.0221 /// teacc 98.93 lr 0.00010000
+Epoch 123, weight, value: tensor([[-0.0679, -0.0903, -0.0559,  ..., -0.0373,  0.1348,  0.1198],
+        [-0.1271, -0.1279, -0.1110,  ..., -0.0987, -0.1375, -0.0664],
+        [-0.0836, -0.0635,  0.0984,  ..., -0.1117,  0.1330,  0.0286],
+        ...,
+        [-0.0711,  0.0500,  0.0426,  ...,  0.1199, -0.0932, -0.1091],
+        [-0.1673,  0.0485, -0.1074,  ...,  0.0382, -0.0681, -0.0645],
+        [ 0.0423, -0.0549, -0.0579,  ..., -0.0435, -0.0431, -0.0437]],
+       device='cuda:0'), grad: tensor([[ 1.7788e-07,  8.4378e-07,  0.0000e+00,  ...,  4.5914e-07,
+         -6.1803e-06, -4.0755e-06],
+        [ 1.5087e-07,  6.7148e-07,  0.0000e+00,  ...,  4.2841e-07,
+          9.4157e-07,  3.1386e-07],
+        [ 3.0454e-07,  2.0433e-06,  0.0000e+00,  ..., -2.7623e-06,
+         -9.0748e-06, -2.3454e-05],
+        ...,
+        [ 1.2293e-07,  1.9558e-08,  0.0000e+00,  ..., -2.5984e-07,
+          1.1288e-06,  5.1130e-07],
+        [ 1.0598e-06, -6.4895e-06,  0.0000e+00,  ..., -7.3574e-08,
+          2.3376e-07,  2.0996e-05],
+        [-2.7940e-09,  1.4491e-06,  0.0000e+00,  ...,  3.9209e-07,
+          4.7944e-06,  2.1998e-06]], device='cuda:0')
+Epoch 123, bias, value: tensor([-0.0184, -0.0260, -0.0115, -0.0280, -0.0306, -0.0006,  0.0261, -0.0127,
+         0.0354, -0.0003], device='cuda:0'), grad: tensor([ 2.2985e-06, -8.1122e-05, -1.7017e-05,  3.8624e-05, -6.3241e-05,
+         7.4618e-06,  8.1435e-06,  7.1764e-05, -9.0599e-06,  4.1991e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 122, time 265.36, cls_loss 0.0069 cls_loss_mapping 0.0074 cls_loss_causal 0.5992 re_mapping 0.0088 re_causal 0.0213 /// teacc 98.90 lr 0.00010000
+Epoch 124, weight, value: tensor([[-0.0684, -0.0909, -0.0560,  ..., -0.0376,  0.1358,  0.1210],
+        [-0.1283, -0.1284, -0.1121,  ..., -0.0996, -0.1379, -0.0664],
+        [-0.0836, -0.0641,  0.0993,  ..., -0.1124,  0.1334,  0.0289],
+        ...,
+        [-0.0716,  0.0507,  0.0428,  ...,  0.1216, -0.0941, -0.1107],
+        [-0.1676,  0.0480, -0.1070,  ...,  0.0385, -0.0673, -0.0656],
+        [ 0.0421, -0.0559, -0.0580,  ..., -0.0448, -0.0437, -0.0450]],
+       device='cuda:0'), grad: tensor([[ 6.5379e-07,  4.0978e-07,  2.2352e-08,  ...,  2.8592e-07,
+         -6.1467e-06, -3.0473e-06],
+        [ 7.0315e-07,  1.2890e-06,  2.9802e-08,  ...,  5.6718e-07,
+          1.3132e-07,  8.7544e-08],
+        [ 5.3924e-07,  4.5076e-07, -3.5297e-06,  ...,  3.2969e-07,
+          3.1758e-07, -1.1828e-07],
+        ...,
+        [ 2.7400e-06,  2.1420e-06,  1.2061e-06,  ..., -1.8617e-06,
+          7.6648e-07,  5.7835e-07],
+        [ 3.2708e-06,  1.8105e-06,  1.1204e-06,  ...,  1.0859e-06,
+          4.2841e-07,  3.6415e-07],
+        [ 4.3400e-06,  5.3979e-06,  1.8626e-09,  ...,  1.4929e-06,
+          2.0768e-06,  1.1083e-06]], device='cuda:0')
+Epoch 124, bias, value: tensor([-0.0181, -0.0262, -0.0107, -0.0272, -0.0306, -0.0013,  0.0257, -0.0124,
+         0.0351, -0.0007], device='cuda:0'), grad: tensor([-4.9397e-06,  2.9616e-07, -6.8367e-05,  7.5674e-04,  1.7866e-05,
+        -7.7915e-04,  2.9914e-06,  3.1024e-05,  2.9266e-05,  1.4521e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 123, time 265.50, cls_loss 0.0058 cls_loss_mapping 0.0068 cls_loss_causal 0.5907 re_mapping 0.0086 re_causal 0.0222 /// teacc 98.90 lr 0.00010000
+Epoch 125, weight, value: tensor([[-0.0690, -0.0912, -0.0564,  ..., -0.0384,  0.1364,  0.1215],
+        [-0.1286, -0.1285, -0.1127,  ..., -0.0996, -0.1381, -0.0664],
+        [-0.0843, -0.0643,  0.0996,  ..., -0.1122,  0.1335,  0.0295],
+        ...,
+        [-0.0716,  0.0510,  0.0427,  ...,  0.1221, -0.0946, -0.1113],
+        [-0.1675,  0.0478, -0.1065,  ...,  0.0388, -0.0671, -0.0668],
+        [ 0.0417, -0.0562, -0.0580,  ..., -0.0453, -0.0441, -0.0459]],
+       device='cuda:0'), grad: tensor([[ 7.9349e-07,  1.0701e-06,  0.0000e+00,  ..., -7.3109e-07,
+         -5.3756e-06, -6.4299e-06],
+        [ 1.6484e-07,  1.1828e-07,  0.0000e+00,  ...,  2.9616e-07,
+          1.5730e-06,  1.4845e-06],
+        [ 5.4948e-08,  3.9302e-07,  0.0000e+00,  ...,  9.5926e-08,
+          1.0580e-06,  4.7684e-07],
+        ...,
+        [ 3.2596e-07,  2.9430e-07,  0.0000e+00,  ..., -2.3283e-08,
+          1.7602e-07,  1.5553e-07],
+        [ 8.0280e-07, -6.2734e-06,  0.0000e+00,  ...,  6.5751e-07,
+         -7.8082e-06,  1.0990e-06],
+        [ 2.7008e-06,  2.8182e-06,  0.0000e+00,  ...,  1.1576e-06,
+          5.6997e-06,  1.6699e-06]], device='cuda:0')
+Epoch 125, bias, value: tensor([-0.0181, -0.0257, -0.0107, -0.0289, -0.0295, -0.0012,  0.0259, -0.0126,
+         0.0358, -0.0013], device='cuda:0'), grad: tensor([-6.9067e-06,  3.4459e-06,  3.8035e-06,  1.4031e-04, -1.4268e-05,
+        -1.4412e-04,  8.2925e-06,  5.4240e-06, -1.6361e-05,  2.0251e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 124, time 265.47, cls_loss 0.0052 cls_loss_mapping 0.0069 cls_loss_causal 0.5725 re_mapping 0.0085 re_causal 0.0214 /// teacc 98.90 lr 0.00010000
+Epoch 126, weight, value: tensor([[-0.0693, -0.0923, -0.0565,  ..., -0.0376,  0.1365,  0.1218],
+        [-0.1289, -0.1290, -0.1130,  ..., -0.1001, -0.1391, -0.0666],
+        [-0.0847, -0.0646,  0.0999,  ..., -0.1125,  0.1325,  0.0295],
+        ...,
+        [-0.0720,  0.0515,  0.0428,  ...,  0.1230, -0.0957, -0.1121],
+        [-0.1683,  0.0479, -0.1060,  ...,  0.0387, -0.0671, -0.0676],
+        [ 0.0415, -0.0571, -0.0580,  ..., -0.0460, -0.0443, -0.0464]],
+       device='cuda:0'), grad: tensor([[ 2.5611e-07,  8.7544e-07,  1.8626e-08,  ...,  8.7079e-07,
+         -1.0908e-05, -1.4096e-05],
+        [ 5.4017e-08,  2.2445e-06,  9.3132e-10,  ...,  4.5262e-06,
+          6.8367e-05,  6.5506e-05],
+        [ 2.4214e-08,  9.8720e-08, -8.7544e-08,  ...,  8.5682e-08,
+         -7.7486e-05, -7.3075e-05],
+        ...,
+        [ 1.3318e-07, -2.8804e-05,  1.9558e-08,  ..., -6.2168e-05,
+          4.8205e-06,  4.1872e-06],
+        [ 1.5516e-06,  1.8626e-08,  8.3819e-09,  ...,  2.0918e-06,
+          1.0431e-06,  1.0375e-06],
+        [ 1.3318e-06,  2.2769e-05,  2.7940e-09,  ...,  4.7892e-05,
+          4.8522e-07,  3.5297e-07]], device='cuda:0')
+Epoch 126, bias, value: tensor([-0.0182, -0.0258, -0.0113, -0.0288, -0.0291, -0.0012,  0.0269, -0.0126,
+         0.0355, -0.0014], device='cuda:0'), grad: tensor([-1.4178e-05,  2.4104e-04, -2.5868e-04,  2.8223e-05,  1.9222e-05,
+        -1.9252e-05,  2.8104e-05, -1.2624e-04,  6.4969e-06,  9.5367e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 125, time 261.93, cls_loss 0.0061 cls_loss_mapping 0.0086 cls_loss_causal 0.5695 re_mapping 0.0082 re_causal 0.0203 /// teacc 98.89 lr 0.00010000
+Epoch 127, weight, value: tensor([[-0.0690, -0.0929, -0.0567,  ..., -0.0374,  0.1378,  0.1230],
+        [-0.1293, -0.1299, -0.1127,  ..., -0.1003, -0.1395, -0.0670],
+        [-0.0852, -0.0651,  0.1001,  ..., -0.1138,  0.1332,  0.0302],
+        ...,
+        [-0.0719,  0.0522,  0.0427,  ...,  0.1242, -0.0967, -0.1135],
+        [-0.1693,  0.0473, -0.1065,  ...,  0.0383, -0.0676, -0.0680],
+        [ 0.0413, -0.0579, -0.0584,  ..., -0.0472, -0.0449, -0.0477]],
+       device='cuda:0'), grad: tensor([[ 3.5856e-07,  1.4063e-07,  1.5832e-08,  ...,  4.6156e-06,
+          2.3395e-06,  4.0531e-06],
+        [ 4.8522e-07,  2.9337e-07,  1.3039e-08,  ...,  4.5635e-07,
+          6.6590e-07,  4.5262e-07],
+        [ 4.7684e-07,  4.5355e-07, -1.7695e-07,  ...,  1.2964e-06,
+         -4.5635e-06, -5.3085e-08],
+        ...,
+        [ 4.4052e-07,  1.5553e-07,  3.4459e-08,  ..., -1.0617e-07,
+          1.4156e-06,  7.4599e-07],
+        [ 2.7381e-06,  7.8045e-07,  3.8184e-08,  ..., -8.2925e-06,
+         -1.5244e-05, -1.5765e-05],
+        [ 3.7905e-07,  4.3958e-07,  2.4866e-07,  ...,  1.4752e-06,
+          8.4471e-07,  5.8208e-07]], device='cuda:0')
+Epoch 127, bias, value: tensor([-0.0174, -0.0261, -0.0114, -0.0285, -0.0293, -0.0015,  0.0270, -0.0124,
+         0.0350, -0.0014], device='cuda:0'), grad: tensor([ 2.7850e-05,  5.7463e-07, -3.1237e-06,  1.5342e-04,  5.4501e-06,
+        -1.2016e-04,  1.2271e-05,  5.7593e-06, -5.4181e-05, -2.8074e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 126----------------------------------------------------
+epoch 126, time 278.75, cls_loss 0.0070 cls_loss_mapping 0.0083 cls_loss_causal 0.5859 re_mapping 0.0089 re_causal 0.0215 /// teacc 99.01 lr 0.00010000
+Epoch 128, weight, value: tensor([[-0.0692, -0.0935, -0.0571,  ..., -0.0378,  0.1388,  0.1243],
+        [-0.1299, -0.1309, -0.1132,  ..., -0.1021, -0.1404, -0.0673],
+        [-0.0865, -0.0671,  0.1005,  ..., -0.1147,  0.1343,  0.0308],
+        ...,
+        [-0.0721,  0.0527,  0.0426,  ...,  0.1259, -0.0978, -0.1150],
+        [-0.1709,  0.0469, -0.1069,  ...,  0.0361, -0.0676, -0.0707],
+        [ 0.0406, -0.0589, -0.0587,  ..., -0.0480, -0.0449, -0.0469]],
+       device='cuda:0'), grad: tensor([[-1.3225e-07,  2.7101e-07,  1.2107e-08,  ..., -2.6561e-06,
+         -1.6034e-05, -1.3024e-05],
+        [ 1.3504e-07,  2.7660e-07,  0.0000e+00,  ...,  1.9465e-07,
+          2.3562e-07, -2.5984e-07],
+        [ 6.2399e-08,  1.3318e-07, -2.5146e-08,  ...,  2.7847e-07,
+          3.1665e-08,  1.6671e-07],
+        ...,
+        [ 8.0094e-08,  3.3639e-06,  0.0000e+00,  ...,  4.0643e-06,
+          7.1805e-07,  7.8045e-07],
+        [ 4.7795e-06,  7.0110e-06,  2.7940e-09,  ...,  2.3302e-06,
+          4.2319e-06,  3.6433e-06],
+        [ 3.2689e-06, -4.9621e-06,  0.0000e+00,  ..., -1.1064e-05,
+          4.6287e-07,  4.3586e-07]], device='cuda:0')
+Epoch 128, bias, value: tensor([-0.0173, -0.0263, -0.0115, -0.0281, -0.0294,  0.0002,  0.0269, -0.0119,
+         0.0333, -0.0019], device='cuda:0'), grad: tensor([-1.6406e-05, -2.6658e-05,  1.7613e-05, -4.6968e-05,  2.1681e-05,
+         4.8906e-05,  9.4697e-06,  4.3005e-05,  2.3589e-05, -7.4267e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 127, time 265.45, cls_loss 0.0057 cls_loss_mapping 0.0062 cls_loss_causal 0.5984 re_mapping 0.0084 re_causal 0.0213 /// teacc 98.83 lr 0.00010000
+Epoch 129, weight, value: tensor([[-0.0702, -0.0941, -0.0573,  ..., -0.0390,  0.1393,  0.1251],
+        [-0.1304, -0.1313, -0.1133,  ..., -0.1026, -0.1406, -0.0674],
+        [-0.0872, -0.0679,  0.1007,  ..., -0.1144,  0.1350,  0.0317],
+        ...,
+        [-0.0726,  0.0531,  0.0430,  ...,  0.1269, -0.0984, -0.1159],
+        [-0.1716,  0.0469, -0.1071,  ...,  0.0361, -0.0679, -0.0714],
+        [ 0.0404, -0.0597, -0.0594,  ..., -0.0491, -0.0452, -0.0473]],
+       device='cuda:0'), grad: tensor([[ 2.0582e-07,  3.6974e-07,  4.1910e-08,  ...,  4.5262e-07,
+         -1.7602e-07, -7.5437e-08],
+        [ 3.2596e-08,  8.7079e-07,  1.6764e-08,  ...,  7.0222e-07,
+          1.6391e-07,  8.0094e-08],
+        [ 6.3330e-08,  2.9020e-06, -3.9395e-07,  ...,  3.8669e-06,
+         -3.4720e-06, -4.2282e-07],
+        ...,
+        [ 9.3132e-09, -8.8811e-05,  1.3970e-08,  ..., -5.9038e-05,
+          1.5926e-07,  8.2888e-08],
+        [ 2.1420e-07,  7.3202e-07,  3.1665e-08,  ..., -2.2411e-05,
+          2.6450e-07, -9.8255e-07],
+        [ 7.3574e-08,  1.1204e-06,  9.3132e-10,  ...,  9.8813e-07,
+          2.5798e-07,  1.3784e-07]], device='cuda:0')
+Epoch 129, bias, value: tensor([-0.0175, -0.0260, -0.0107, -0.0275, -0.0295,  0.0005,  0.0260, -0.0119,
+         0.0331, -0.0023], device='cuda:0'), grad: tensor([ 3.5744e-06,  2.0005e-06, -5.1469e-05,  1.0329e-04,  1.5378e-05,
+         3.1501e-05,  5.4613e-06, -8.4579e-05, -3.9726e-05,  1.4544e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 128, time 265.56, cls_loss 0.0057 cls_loss_mapping 0.0069 cls_loss_causal 0.5453 re_mapping 0.0082 re_causal 0.0211 /// teacc 98.90 lr 0.00010000
+Epoch 130, weight, value: tensor([[-0.0710, -0.0947, -0.0576,  ..., -0.0389,  0.1381,  0.1256],
+        [-0.1309, -0.1319, -0.1111,  ..., -0.1029, -0.1408, -0.0676],
+        [-0.0877, -0.0676,  0.1021,  ..., -0.1145,  0.1360,  0.0327],
+        ...,
+        [-0.0729,  0.0530,  0.0408,  ...,  0.1272, -0.1000, -0.1177],
+        [-0.1721,  0.0471, -0.1075,  ...,  0.0364, -0.0681, -0.0719],
+        [ 0.0401, -0.0600, -0.0602,  ..., -0.0498, -0.0435, -0.0482]],
+       device='cuda:0'), grad: tensor([[ 1.3225e-07,  1.2759e-07,  1.9185e-07,  ...,  4.8336e-07,
+          1.1213e-06,  1.1064e-06],
+        [ 1.2573e-07,  1.3173e-05,  7.4506e-08,  ...,  1.4426e-06,
+          3.2876e-07,  3.4366e-07],
+        [ 4.8429e-08,  2.2352e-07, -3.1833e-06,  ...,  1.8906e-07,
+         -1.8865e-05, -1.8656e-05],
+        ...,
+        [ 3.4459e-08,  2.2575e-05,  2.7400e-06,  ...,  2.9802e-06,
+          1.0483e-05,  1.1310e-05],
+        [ 1.8552e-06, -1.6605e-06,  1.9558e-08,  ..., -1.1772e-05,
+          5.7258e-06,  5.1074e-06],
+        [ 1.1083e-07, -6.1840e-07,  3.7253e-09,  ..., -2.0321e-06,
+          2.5146e-08,  2.4214e-08]], device='cuda:0')
+Epoch 130, bias, value: tensor([-1.9512e-02, -2.5615e-02, -1.0418e-02, -2.7191e-02, -2.9085e-02,
+         7.2359e-05,  2.5716e-02, -1.2597e-02,  3.3429e-02, -1.1608e-03],
+       device='cuda:0'), grad: tensor([ 4.0084e-06,  1.9163e-05, -4.0025e-05, -5.7638e-05, -1.2862e-06,
+         2.3425e-05, -6.2771e-07,  7.2002e-05, -1.5870e-06, -1.7509e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 129, time 265.23, cls_loss 0.0059 cls_loss_mapping 0.0060 cls_loss_causal 0.5636 re_mapping 0.0082 re_causal 0.0211 /// teacc 98.92 lr 0.00010000
+Epoch 131, weight, value: tensor([[-0.0715, -0.0953, -0.0577,  ..., -0.0389,  0.1384,  0.1260],
+        [-0.1347, -0.1323, -0.1111,  ..., -0.1033, -0.1414, -0.0698],
+        [-0.0848, -0.0678,  0.1027,  ..., -0.1144,  0.1367,  0.0349],
+        ...,
+        [-0.0732,  0.0524,  0.0402,  ...,  0.1269, -0.1013, -0.1196],
+        [-0.1729,  0.0478, -0.1077,  ...,  0.0367, -0.0684, -0.0730],
+        [ 0.0396, -0.0605, -0.0601,  ..., -0.0500, -0.0437, -0.0487]],
+       device='cuda:0'), grad: tensor([[ 2.9746e-06,  4.4983e-07,  8.3819e-09,  ...,  2.6077e-06,
+         -2.4904e-06,  4.4424e-07],
+        [ 8.7079e-07,  7.0520e-06,  5.4017e-08,  ...,  7.0184e-06,
+          3.2131e-07,  3.3528e-07],
+        [ 5.8021e-07,  2.2147e-06, -4.2841e-08,  ...,  2.8536e-06,
+         -4.7777e-07, -5.9977e-07],
+        ...,
+        [ 1.8906e-07, -3.9124e-04, -7.6368e-08,  ..., -3.2806e-04,
+          5.2433e-07,  5.3830e-07],
+        [ 9.2506e-05,  1.4743e-06,  3.7253e-09,  ...,  9.7871e-05,
+          1.7852e-05,  2.6047e-05],
+        [ 8.1025e-07,  1.4313e-05,  1.7695e-08,  ...,  1.2875e-05,
+          1.1679e-06,  8.0653e-07]], device='cuda:0')
+Epoch 131, bias, value: tensor([-0.0196, -0.0266, -0.0089, -0.0265, -0.0290, -0.0003,  0.0264, -0.0134,
+         0.0334, -0.0010], device='cuda:0'), grad: tensor([ 6.7651e-06,  1.0377e-04,  6.2324e-06,  6.8998e-04, -1.1033e-04,
+        -2.3341e-04, -1.2696e-04, -7.3147e-04,  3.4618e-04,  4.8310e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 130, time 265.15, cls_loss 0.0061 cls_loss_mapping 0.0064 cls_loss_causal 0.5444 re_mapping 0.0082 re_causal 0.0212 /// teacc 98.97 lr 0.00010000
+Epoch 132, weight, value: tensor([[-0.0721, -0.0964, -0.0578,  ..., -0.0393,  0.1387,  0.1262],
+        [-0.1354, -0.1326, -0.1111,  ..., -0.1031, -0.1416, -0.0696],
+        [-0.0849, -0.0684,  0.1024,  ..., -0.1152,  0.1369,  0.0353],
+        ...,
+        [-0.0731,  0.0532,  0.0413,  ...,  0.1282, -0.1017, -0.1207],
+        [-0.1739,  0.0479, -0.1078,  ...,  0.0368, -0.0686, -0.0737],
+        [ 0.0401, -0.0610, -0.0605,  ..., -0.0503, -0.0438, -0.0492]],
+       device='cuda:0'), grad: tensor([[ 1.3383e-06,  5.4017e-08,  2.4214e-08,  ...,  4.2841e-08,
+         -2.3283e-07,  7.6927e-07],
+        [ 9.4995e-08,  1.1548e-07,  1.2107e-08,  ...,  6.7055e-08,
+          5.6811e-08,  6.1467e-08],
+        [ 2.6263e-07,  7.8045e-07,  1.4529e-07,  ...,  6.6124e-07,
+         -7.9069e-07, -1.1427e-06],
+        ...,
+        [ 3.4459e-08, -1.1837e-06, -1.7136e-07,  ..., -1.0915e-06,
+          3.0734e-07,  3.9488e-07],
+        [ 3.5111e-07,  2.5705e-07,  5.8673e-08,  ...,  1.5926e-07,
+          4.5914e-07,  5.5041e-07],
+        [ 4.7497e-08, -1.3504e-07, -1.1828e-07,  ...,  1.8068e-07,
+          1.1828e-07,  9.4064e-08]], device='cuda:0')
+Epoch 132, bias, value: tensor([-0.0198, -0.0264, -0.0091, -0.0247, -0.0302, -0.0023,  0.0268, -0.0125,
+         0.0331, -0.0006], device='cuda:0'), grad: tensor([ 2.9057e-06, -5.3458e-06, -8.2236e-07,  1.5311e-06,  3.0816e-05,
+         2.1458e-06, -3.1918e-05, -2.3562e-07,  4.4852e-06, -3.5297e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 131, time 265.42, cls_loss 0.0058 cls_loss_mapping 0.0062 cls_loss_causal 0.5757 re_mapping 0.0080 re_causal 0.0205 /// teacc 98.94 lr 0.00010000
+Epoch 133, weight, value: tensor([[-0.0743, -0.0968, -0.0584,  ..., -0.0398,  0.1374,  0.1268],
+        [-0.1356, -0.1330, -0.1114,  ..., -0.1039, -0.1417, -0.0697],
+        [-0.0852, -0.0688,  0.1025,  ..., -0.1157,  0.1371,  0.0351],
+        ...,
+        [-0.0735,  0.0536,  0.0417,  ...,  0.1286, -0.1020, -0.1210],
+        [-0.1752,  0.0486, -0.1082,  ...,  0.0372, -0.0689, -0.0746],
+        [ 0.0400, -0.0618, -0.0611,  ..., -0.0508, -0.0419, -0.0500]],
+       device='cuda:0'), grad: tensor([[ 1.4435e-07,  7.9162e-08,  1.3970e-08,  ...,  1.9651e-07,
+         -1.8254e-05, -7.4767e-06],
+        [ 8.4750e-08, -6.1877e-06,  2.7940e-09,  ...,  8.7172e-06,
+          6.8173e-07,  6.9849e-08],
+        [ 5.5879e-08,  4.2561e-07,  6.5193e-09,  ...,  1.7835e-06,
+          1.3690e-07,  1.5646e-07],
+        ...,
+        [ 1.2759e-07,  5.2191e-06, -1.3039e-08,  ...,  2.1141e-07,
+          1.3225e-07,  3.3528e-08],
+        [ 8.7321e-06, -7.2420e-06,  3.7253e-09,  ...,  1.2644e-05,
+         -3.4738e-07,  3.8091e-07],
+        [ 2.3786e-06,  5.3346e-06,  6.5193e-09,  ...,  1.4380e-05,
+          1.5467e-05,  6.1616e-06]], device='cuda:0')
+Epoch 133, bias, value: tensor([-0.0214, -0.0262, -0.0095, -0.0249, -0.0303, -0.0022,  0.0269, -0.0125,
+         0.0332,  0.0008], device='cuda:0'), grad: tensor([-2.0459e-05, -7.8011e-04,  6.4850e-04,  2.9266e-05, -9.0361e-05,
+        -2.5094e-05,  1.4849e-05,  1.2887e-04,  1.8561e-06,  9.2268e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 132, time 264.84, cls_loss 0.0062 cls_loss_mapping 0.0054 cls_loss_causal 0.5834 re_mapping 0.0079 re_causal 0.0199 /// teacc 98.88 lr 0.00010000
+Epoch 134, weight, value: tensor([[-0.0746, -0.0984, -0.0590,  ..., -0.0400,  0.1378,  0.1284],
+        [-0.1360, -0.1339, -0.1115,  ..., -0.1051, -0.1422, -0.0699],
+        [-0.0854, -0.0696,  0.1024,  ..., -0.1176,  0.1372,  0.0349],
+        ...,
+        [-0.0736,  0.0539,  0.0419,  ...,  0.1296, -0.1024, -0.1214],
+        [-0.1766,  0.0496, -0.1086,  ...,  0.0381, -0.0686, -0.0754],
+        [ 0.0392, -0.0626, -0.0610,  ..., -0.0519, -0.0418, -0.0521]],
+       device='cuda:0'), grad: tensor([[ 5.0385e-07,  3.4366e-07,  5.0850e-07,  ...,  4.7125e-07,
+         -9.8720e-08, -7.4040e-07],
+        [ 1.0990e-07,  3.2037e-07,  7.1712e-08,  ...,  2.9616e-07,
+          4.9267e-07,  8.7544e-08],
+        [ 2.3190e-07,  3.2969e-07,  1.2666e-07,  ...,  1.7788e-07,
+          1.2275e-06,  7.2643e-08],
+        ...,
+        [-2.5053e-07, -3.9786e-06,  1.1176e-07,  ..., -5.1521e-06,
+          6.9570e-07,  8.4750e-08],
+        [ 2.0023e-06,  2.2352e-07,  3.1013e-07,  ...,  1.0738e-06,
+          1.4622e-06,  2.9057e-07],
+        [ 2.5705e-06,  2.4382e-06,  1.7788e-07,  ...,  3.4589e-06,
+          2.7865e-06,  5.3272e-07]], device='cuda:0')
+Epoch 134, bias, value: tensor([-0.0216, -0.0265, -0.0100, -0.0250, -0.0295, -0.0016,  0.0259, -0.0121,
+         0.0338,  0.0005], device='cuda:0'), grad: tensor([ 3.2894e-06,  3.1702e-06,  4.2617e-06,  2.0750e-06, -1.3888e-04,
+        -8.3074e-06,  1.9085e-04, -4.2319e-06,  9.3877e-06, -6.1631e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 133, time 265.03, cls_loss 0.0079 cls_loss_mapping 0.0069 cls_loss_causal 0.5588 re_mapping 0.0080 re_causal 0.0200 /// teacc 98.99 lr 0.00010000
+Epoch 135, weight, value: tensor([[-0.0750, -0.0991, -0.0602,  ..., -0.0405,  0.1383,  0.1310],
+        [-0.1367, -0.1344, -0.1117,  ..., -0.1058, -0.1432, -0.0699],
+        [-0.0857, -0.0701,  0.1031,  ..., -0.1186,  0.1370,  0.0341],
+        ...,
+        [-0.0738,  0.0532,  0.0417,  ...,  0.1305, -0.1027, -0.1218],
+        [-0.1776,  0.0496, -0.1089,  ...,  0.0380, -0.0689, -0.0764],
+        [ 0.0390, -0.0627, -0.0613,  ..., -0.0520, -0.0410, -0.0535]],
+       device='cuda:0'), grad: tensor([[ 3.1851e-07,  2.8685e-07,  8.3819e-09,  ...,  3.1106e-07,
+         -8.2422e-07, -7.3388e-07],
+        [ 5.2992e-07,  6.1654e-07,  1.6764e-08,  ...,  6.0424e-06,
+          3.1572e-07,  7.0781e-08],
+        [ 1.1735e-07,  3.3993e-07, -3.5111e-07,  ...,  4.1798e-06,
+         -1.3234e-06, -8.1025e-08],
+        ...,
+        [ 1.1912e-06, -5.4389e-07,  1.6764e-08,  ..., -1.5842e-06,
+          1.3784e-07,  2.7008e-08],
+        [ 2.3246e-06, -4.0606e-06,  1.2107e-08,  ..., -1.1906e-05,
+         -1.4687e-06,  4.4052e-07],
+        [ 1.4603e-06,  2.9821e-06,  9.3132e-10,  ...,  1.6605e-06,
+          5.9512e-07,  3.6042e-07]], device='cuda:0')
+Epoch 135, bias, value: tensor([-0.0223, -0.0257, -0.0110, -0.0256, -0.0304, -0.0011,  0.0256, -0.0119,
+         0.0336,  0.0016], device='cuda:0'), grad: tensor([ 5.8860e-07, -4.8423e-04,  3.9673e-04, -8.1491e-04,  2.2426e-05,
+         8.6403e-04, -2.6803e-06,  6.9141e-05, -6.3479e-05,  1.3307e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 134, time 265.59, cls_loss 0.0055 cls_loss_mapping 0.0058 cls_loss_causal 0.5690 re_mapping 0.0079 re_causal 0.0201 /// teacc 98.94 lr 0.00010000
+Epoch 136, weight, value: tensor([[-0.0783, -0.0999, -0.0614,  ..., -0.0413,  0.1361,  0.1287],
+        [-0.1371, -0.1349, -0.1118,  ..., -0.1060, -0.1436, -0.0700],
+        [-0.0858, -0.0705,  0.1034,  ..., -0.1189,  0.1376,  0.0344],
+        ...,
+        [-0.0741,  0.0541,  0.0419,  ...,  0.1317, -0.1032, -0.1222],
+        [-0.1778,  0.0493, -0.1089,  ...,  0.0381, -0.0690, -0.0770],
+        [ 0.0388, -0.0633, -0.0615,  ..., -0.0526, -0.0411, -0.0546]],
+       device='cuda:0'), grad: tensor([[ 1.9185e-07,  1.2293e-07,  7.4506e-09,  ...,  5.0291e-08,
+         -1.4333e-06, -7.1619e-07],
+        [ 6.0536e-07,  1.5842e-06,  0.0000e+00,  ...,  8.2888e-07,
+          1.1642e-07,  5.6811e-08],
+        [ 2.7567e-07,  6.5472e-07,  7.4506e-09,  ...,  7.9162e-08,
+         -9.3132e-10,  5.5879e-08],
+        ...,
+        [ 3.2689e-07, -1.1995e-06,  0.0000e+00,  ..., -2.1067e-06,
+          6.6124e-08,  2.7940e-08],
+        [ 3.8967e-06,  5.9605e-06,  9.3132e-10,  ...,  2.5891e-07,
+          2.2817e-07,  1.0338e-07],
+        [ 1.8440e-06,  1.8505e-06,  0.0000e+00,  ...,  1.0962e-06,
+          9.5740e-07,  4.7963e-07]], device='cuda:0')
+Epoch 136, bias, value: tensor([-0.0242, -0.0256, -0.0110, -0.0265, -0.0302, -0.0005,  0.0276, -0.0116,
+         0.0335,  0.0015], device='cuda:0'), grad: tensor([-1.1129e-06, -3.3110e-05,  5.6624e-06, -2.8372e-05, -5.6475e-06,
+         1.5080e-05,  2.0824e-06, -4.0140e-07,  1.5363e-05,  3.0473e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 135, time 265.17, cls_loss 0.0063 cls_loss_mapping 0.0085 cls_loss_causal 0.5731 re_mapping 0.0081 re_causal 0.0200 /// teacc 98.97 lr 0.00010000
+Epoch 137, weight, value: tensor([[-0.0784, -0.1008, -0.0619,  ..., -0.0414,  0.1366,  0.1295],
+        [-0.1377, -0.1354, -0.1119,  ..., -0.1075, -0.1439, -0.0705],
+        [-0.0861, -0.0712,  0.1034,  ..., -0.1201,  0.1382,  0.0346],
+        ...,
+        [-0.0745,  0.0541,  0.0419,  ...,  0.1329, -0.1044, -0.1231],
+        [-0.1785,  0.0494, -0.1089,  ...,  0.0381, -0.0692, -0.0777],
+        [ 0.0383, -0.0635, -0.0618,  ..., -0.0530, -0.0408, -0.0569]],
+       device='cuda:0'), grad: tensor([[ 2.1793e-07,  3.6508e-07,  0.0000e+00,  ...,  1.5367e-07,
+          9.2201e-08,  4.0978e-08],
+        [ 3.0175e-07,  5.1782e-07,  0.0000e+00,  ...,  8.8569e-07,
+          5.7742e-08,  2.2352e-08],
+        [ 8.0839e-07,  2.0657e-06,  0.0000e+00,  ...,  1.1427e-06,
+         -8.2888e-08, -1.7881e-07],
+        ...,
+        [ 1.1269e-07, -4.9826e-07,  0.0000e+00,  ..., -5.1688e-07,
+          2.1420e-08,  1.3039e-08],
+        [-1.1317e-05, -2.6971e-05,  0.0000e+00,  ..., -9.0301e-06,
+         -4.4927e-06, -1.2740e-06],
+        [ 4.8708e-07,  1.2862e-06,  0.0000e+00,  ...,  1.8273e-06,
+          9.6858e-08,  2.9802e-08]], device='cuda:0')
+Epoch 137, bias, value: tensor([-0.0242, -0.0255, -0.0111, -0.0273, -0.0303,  0.0005,  0.0270, -0.0119,
+         0.0333,  0.0022], device='cuda:0'), grad: tensor([ 2.7101e-06,  8.8394e-05,  6.1430e-06,  7.4059e-06, -2.7180e-04,
+         2.4855e-05,  4.3988e-05,  1.5676e-05, -8.3447e-05,  1.6582e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 136, time 265.39, cls_loss 0.0054 cls_loss_mapping 0.0055 cls_loss_causal 0.5564 re_mapping 0.0080 re_causal 0.0199 /// teacc 98.94 lr 0.00010000
+Epoch 138, weight, value: tensor([[-0.0787, -0.1014, -0.0622,  ..., -0.0423,  0.1369,  0.1298],
+        [-0.1380, -0.1360, -0.1119,  ..., -0.1080, -0.1443, -0.0707],
+        [-0.0864, -0.0718,  0.1036,  ..., -0.1208,  0.1379,  0.0342],
+        ...,
+        [-0.0749,  0.0538,  0.0417,  ...,  0.1335, -0.1048, -0.1236],
+        [-0.1791,  0.0493, -0.1091,  ...,  0.0381, -0.0694, -0.0787],
+        [ 0.0382, -0.0642, -0.0613,  ..., -0.0535, -0.0411, -0.0589]],
+       device='cuda:0'), grad: tensor([[ 1.7229e-06,  5.5879e-09,  3.7253e-09,  ...,  1.3597e-07,
+         -9.9421e-05, -6.0499e-05],
+        [ 1.2014e-07,  7.6368e-08,  1.1176e-08,  ...,  8.6613e-08,
+          3.5495e-05,  2.1547e-05],
+        [ 6.4261e-08,  6.7987e-08,  5.3085e-08,  ...,  4.1351e-07,
+          9.1344e-06,  5.5693e-06],
+        ...,
+        [ 1.0058e-07,  6.5193e-09,  9.4064e-08,  ..., -6.5193e-09,
+          8.3260e-07,  5.0850e-07],
+        [ 5.0664e-07,  6.5193e-08,  1.8626e-08,  ..., -1.3560e-06,
+          7.6368e-06,  4.6454e-06],
+        [ 2.6729e-07, -4.9360e-08, -1.4156e-07,  ...,  4.8149e-07,
+          4.3847e-06,  2.6952e-06]], device='cuda:0')
+Epoch 138, bias, value: tensor([-0.0241, -0.0251, -0.0114, -0.0271, -0.0300,  0.0003,  0.0272, -0.0120,
+         0.0333,  0.0018], device='cuda:0'), grad: tensor([-1.5879e-04,  5.0187e-05,  1.9193e-05,  4.9025e-06, -1.7295e-06,
+         6.6943e-06,  5.7906e-05,  4.0904e-06,  5.0440e-06,  1.2323e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 137----------------------------------------------------
+epoch 137, time 281.77, cls_loss 0.0054 cls_loss_mapping 0.0053 cls_loss_causal 0.5253 re_mapping 0.0078 re_causal 0.0192 /// teacc 99.02 lr 0.00010000
+Epoch 139, weight, value: tensor([[-0.0790, -0.1023, -0.0624,  ..., -0.0425,  0.1374,  0.1303],
+        [-0.1394, -0.1363, -0.1120,  ..., -0.1083, -0.1449, -0.0720],
+        [-0.0853, -0.0721,  0.1037,  ..., -0.1210,  0.1374,  0.0347],
+        ...,
+        [-0.0751,  0.0539,  0.0417,  ...,  0.1338, -0.1054, -0.1242],
+        [-0.1797,  0.0501, -0.1093,  ...,  0.0388, -0.0690, -0.0795],
+        [ 0.0385, -0.0646, -0.0613,  ..., -0.0540, -0.0412, -0.0600]],
+       device='cuda:0'), grad: tensor([[ 1.5181e-07,  8.3819e-08,  0.0000e+00,  ...,  4.6566e-08,
+          5.7183e-07,  1.0803e-07],
+        [ 6.0536e-08,  3.2503e-07,  0.0000e+00,  ...,  1.5367e-07,
+          1.9558e-08,  2.7940e-09],
+        [ 2.0117e-07,  5.6531e-07,  0.0000e+00,  ...,  6.9849e-08,
+         -1.4782e-05, -3.6322e-08],
+        ...,
+        [ 7.4506e-08, -1.2927e-06,  9.3132e-10,  ..., -1.0096e-06,
+          1.0626e-06,  1.2107e-08],
+        [ 4.8615e-07,  6.4541e-07,  9.3132e-10,  ...,  5.0757e-07,
+          1.0710e-07,  1.8626e-08],
+        [-2.0172e-06,  2.1700e-07,  9.3132e-10,  ...,  2.8778e-07,
+          2.4214e-08,  1.8626e-09]], device='cuda:0')
+Epoch 139, bias, value: tensor([-0.0240, -0.0255, -0.0106, -0.0277, -0.0312,  0.0007,  0.0274, -0.0123,
+         0.0337,  0.0022], device='cuda:0'), grad: tensor([ 1.0617e-06, -1.2415e-06, -1.5259e-05, -3.8184e-08,  7.4565e-05,
+         1.1874e-06,  1.1660e-06,  9.6764e-07,  2.4363e-06, -6.4850e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 138, time 263.83, cls_loss 0.0054 cls_loss_mapping 0.0053 cls_loss_causal 0.5331 re_mapping 0.0080 re_causal 0.0194 /// teacc 98.85 lr 0.00010000
+Epoch 140, weight, value: tensor([[-0.0792, -0.1029, -0.0625,  ..., -0.0428,  0.1377,  0.1305],
+        [-0.1396, -0.1371, -0.1119,  ..., -0.1088, -0.1461, -0.0735],
+        [-0.0854, -0.0731,  0.1039,  ..., -0.1226,  0.1384,  0.0358],
+        ...,
+        [-0.0754,  0.0543,  0.0418,  ...,  0.1344, -0.1059, -0.1248],
+        [-0.1809,  0.0501, -0.1095,  ...,  0.0384, -0.0690, -0.0802],
+        [ 0.0390, -0.0651, -0.0617,  ..., -0.0543, -0.0411, -0.0608]],
+       device='cuda:0'), grad: tensor([[ 5.6550e-06,  2.5844e-07,  1.3132e-07,  ..., -1.3344e-05,
+         -3.1322e-05, -2.1607e-05],
+        [ 2.3562e-07,  6.8033e-07,  3.2596e-07,  ...,  7.7719e-07,
+          4.7358e-07,  2.3004e-07],
+        [ 2.4168e-07,  1.9390e-06,  9.3272e-07,  ...,  2.4233e-06,
+          1.6056e-06,  1.1344e-06],
+        ...,
+        [ 1.2340e-07, -7.1898e-06, -3.2149e-06,  ...,  4.6082e-06,
+          2.9996e-05,  2.0266e-05],
+        [ 7.9442e-07,  1.2023e-06,  6.8033e-07,  ...,  1.3625e-06,
+          6.9803e-07,  3.9814e-07],
+        [ 7.3574e-07,  3.8510e-07, -4.7311e-07,  ...,  7.8883e-07,
+          1.6065e-06,  1.0477e-06]], device='cuda:0')
+Epoch 140, bias, value: tensor([-0.0240, -0.0258, -0.0110, -0.0276, -0.0312,  0.0012,  0.0270, -0.0116,
+         0.0332,  0.0023], device='cuda:0'), grad: tensor([-4.2975e-05, -1.8671e-05,  8.2105e-06,  1.3113e-05,  1.9208e-05,
+         1.0371e-04, -1.1522e-04,  3.1233e-05,  1.2629e-05, -1.1258e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 139, time 263.27, cls_loss 0.0050 cls_loss_mapping 0.0070 cls_loss_causal 0.5478 re_mapping 0.0083 re_causal 0.0203 /// teacc 98.98 lr 0.00010000
+Epoch 141, weight, value: tensor([[-0.0785, -0.1045, -0.0628,  ..., -0.0431,  0.1382,  0.1314],
+        [-0.1400, -0.1376, -0.1116,  ..., -0.1089, -0.1466, -0.0737],
+        [-0.0858, -0.0735,  0.1039,  ..., -0.1228,  0.1398,  0.0380],
+        ...,
+        [-0.0756,  0.0528,  0.0420,  ...,  0.1344, -0.1067, -0.1254],
+        [-0.1817,  0.0500, -0.1100,  ...,  0.0379, -0.0690, -0.0824],
+        [ 0.0370, -0.0658, -0.0621,  ..., -0.0549, -0.0422, -0.0654]],
+       device='cuda:0'), grad: tensor([[ 4.7218e-07,  4.0047e-08,  1.2107e-08,  ...,  4.4703e-08,
+         -7.5437e-07, -3.4831e-07],
+        [ 5.6028e-06,  1.4156e-07,  1.6764e-08,  ...,  1.3784e-07,
+          4.8429e-08,  2.2352e-08],
+        [ 1.2089e-06, -7.0035e-07, -2.0023e-07,  ...,  9.1270e-08,
+         -2.8387e-06, -1.6624e-06],
+        ...,
+        [ 6.0536e-07,  4.9360e-08,  1.3132e-07,  ..., -2.0582e-07,
+          2.2780e-06,  1.3821e-06],
+        [ 2.9709e-07, -1.4603e-05,  7.7300e-08,  ..., -2.7671e-05,
+          1.7602e-07,  8.4750e-08],
+        [ 9.1456e-07,  1.3597e-07, -3.4925e-07,  ..., -1.4063e-07,
+          6.2864e-07,  2.8778e-07]], device='cuda:0')
+Epoch 141, bias, value: tensor([-0.0236, -0.0255, -0.0103, -0.0261, -0.0313,  0.0005,  0.0271, -0.0121,
+         0.0323,  0.0016], device='cuda:0'), grad: tensor([ 2.3246e-06,  2.9668e-05,  3.7216e-06,  3.2112e-06, -1.4794e-04,
+         3.1263e-05,  1.0329e-04,  1.3068e-05, -3.3408e-05, -5.4501e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 140, time 262.06, cls_loss 0.0055 cls_loss_mapping 0.0068 cls_loss_causal 0.5637 re_mapping 0.0077 re_causal 0.0199 /// teacc 98.94 lr 0.00010000
+Epoch 142, weight, value: tensor([[-0.0787, -0.1056, -0.0632,  ..., -0.0436,  0.1386,  0.1317],
+        [-0.1406, -0.1381, -0.1116,  ..., -0.1097, -0.1470, -0.0738],
+        [-0.0862, -0.0738,  0.1052,  ..., -0.1233,  0.1410,  0.0389],
+        ...,
+        [-0.0757,  0.0532,  0.0422,  ...,  0.1354, -0.1071, -0.1261],
+        [-0.1825,  0.0500, -0.1103,  ...,  0.0381, -0.0696, -0.0833],
+        [ 0.0358, -0.0669, -0.0630,  ..., -0.0580, -0.0427, -0.0666]],
+       device='cuda:0'), grad: tensor([[ 8.3167e-07,  1.6764e-08,  4.8429e-08,  ...,  9.1176e-07,
+         -3.0641e-07, -1.2480e-07],
+        [ 7.4133e-06,  1.5367e-07,  2.6543e-07,  ...,  9.5069e-06,
+          2.4680e-07,  3.4925e-07],
+        [ 4.7497e-08,  2.2799e-06,  1.9744e-07,  ...,  1.4463e-06,
+         -1.5192e-05, -2.2367e-05],
+        ...,
+        [ 5.2191e-06, -3.0585e-06,  9.7752e-06,  ...,  2.4632e-05,
+          1.5087e-07,  2.0303e-07],
+        [ 3.6567e-05, -2.4214e-07,  5.4017e-08,  ...,  3.8058e-05,
+          1.3217e-05,  2.0444e-05],
+        [ 5.8524e-06,  1.1921e-07, -1.0528e-05,  ..., -1.7256e-05,
+          8.6334e-07,  3.3528e-07]], device='cuda:0')
+Epoch 142, bias, value: tensor([-0.0234, -0.0255, -0.0101, -0.0266, -0.0293,  0.0006,  0.0273, -0.0117,
+         0.0323, -0.0001], device='cuda:0'), grad: tensor([ 3.3565e-06,  1.9923e-05, -6.9261e-05,  2.8357e-05, -9.5427e-05,
+        -1.3566e-04,  7.6443e-06,  1.9360e-04,  1.3924e-04, -9.1791e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 141, time 263.44, cls_loss 0.0054 cls_loss_mapping 0.0048 cls_loss_causal 0.5554 re_mapping 0.0076 re_causal 0.0193 /// teacc 98.93 lr 0.00010000
+Epoch 143, weight, value: tensor([[-0.0788, -0.1059, -0.0634,  ..., -0.0438,  0.1388,  0.1321],
+        [-0.1418, -0.1388, -0.1116,  ..., -0.1103, -0.1472, -0.0740],
+        [-0.0867, -0.0743,  0.1055,  ..., -0.1239,  0.1417,  0.0388],
+        ...,
+        [-0.0765,  0.0533,  0.0422,  ...,  0.1360, -0.1082, -0.1266],
+        [-0.1832,  0.0500, -0.1102,  ...,  0.0382, -0.0698, -0.0835],
+        [ 0.0349, -0.0676, -0.0632,  ..., -0.0583, -0.0430, -0.0674]],
+       device='cuda:0'), grad: tensor([[ 1.1194e-06,  2.1420e-08,  3.3528e-08,  ...,  9.2201e-08,
+         -7.0315e-07, -3.4086e-07],
+        [ 6.2399e-08,  1.0524e-07,  2.4177e-06,  ...,  3.7979e-06,
+         -2.0117e-07,  1.5832e-08],
+        [ 4.5635e-08, -1.1455e-07,  1.5832e-08,  ...,  1.9372e-07,
+         -5.3644e-07, -3.6322e-07],
+        ...,
+        [ 4.0978e-08, -3.8091e-07,  7.9535e-07,  ...,  7.5065e-07,
+          1.2107e-07,  5.3085e-08],
+        [ 2.4199e-05,  1.2200e-07,  5.4576e-07,  ...,  1.8962e-06,
+          3.7998e-07,  2.0768e-07],
+        [-3.5435e-05,  1.0617e-07, -4.2617e-06,  ..., -8.2031e-06,
+          4.3679e-07,  2.1327e-07]], device='cuda:0')
+Epoch 143, bias, value: tensor([-0.0235, -0.0255, -0.0102, -0.0273, -0.0293,  0.0016,  0.0275, -0.0121,
+         0.0326, -0.0002], device='cuda:0'), grad: tensor([ 4.9360e-06,  6.4194e-05,  3.2391e-06,  2.7895e-05,  1.6242e-05,
+         1.5110e-05,  2.8238e-06,  2.6271e-05,  1.2279e-04, -2.8348e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 142, time 265.29, cls_loss 0.0048 cls_loss_mapping 0.0051 cls_loss_causal 0.5091 re_mapping 0.0074 re_causal 0.0185 /// teacc 98.97 lr 0.00010000
+Epoch 144, weight, value: tensor([[-0.0791, -0.1051, -0.0635,  ..., -0.0441,  0.1397,  0.1330],
+        [-0.1421, -0.1400, -0.1117,  ..., -0.1116, -0.1486, -0.0756],
+        [-0.0868, -0.0748,  0.1056,  ..., -0.1247,  0.1428,  0.0399],
+        ...,
+        [-0.0769,  0.0539,  0.0422,  ...,  0.1372, -0.1088, -0.1271],
+        [-0.1835,  0.0492, -0.1104,  ...,  0.0391, -0.0689, -0.0840],
+        [ 0.0347, -0.0681, -0.0630,  ..., -0.0586, -0.0439, -0.0692]],
+       device='cuda:0'), grad: tensor([[ 3.2652e-06,  5.2154e-08,  1.8626e-09,  ...,  1.7695e-08,
+          3.2932e-06,  4.2990e-06],
+        [ 3.6974e-07,  1.7509e-07,  9.3132e-10,  ...,  1.3039e-08,
+          3.3062e-07, -1.2359e-06],
+        [ 2.7362e-06,  1.1735e-07,  0.0000e+00,  ...,  1.2107e-08,
+          3.5074e-06,  3.9078e-06],
+        ...,
+        [ 1.5926e-07,  1.6764e-07,  1.8626e-09,  ..., -1.2107e-08,
+          3.6322e-08,  8.2888e-08],
+        [ 2.7493e-05,  5.6438e-07,  9.3132e-10,  ...,  2.0862e-07,
+          3.5048e-05,  3.5971e-05],
+        [ 5.6345e-07,  2.2165e-07, -5.5879e-09,  ...,  4.4703e-08,
+          1.0505e-06,  7.5903e-07]], device='cuda:0')
+Epoch 144, bias, value: tensor([-0.0228, -0.0258, -0.0097, -0.0274, -0.0297,  0.0017,  0.0268, -0.0120,
+         0.0330, -0.0006], device='cuda:0'), grad: tensor([ 1.1384e-05, -7.9796e-06,  1.0796e-05, -1.0375e-06,  1.7453e-06,
+         1.1690e-05, -1.1635e-04,  1.5255e-06,  8.8692e-05, -5.2433e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 143, time 265.37, cls_loss 0.0056 cls_loss_mapping 0.0065 cls_loss_causal 0.5403 re_mapping 0.0076 re_causal 0.0194 /// teacc 98.91 lr 0.00010000
+Epoch 145, weight, value: tensor([[-0.0791, -0.1051, -0.0637,  ..., -0.0442,  0.1398,  0.1331],
+        [-0.1422, -0.1379, -0.1118,  ..., -0.1094, -0.1492, -0.0760],
+        [-0.0870, -0.0750,  0.1067,  ..., -0.1256,  0.1432,  0.0401],
+        ...,
+        [-0.0771,  0.0532,  0.0414,  ...,  0.1369, -0.1092, -0.1277],
+        [-0.1853,  0.0496, -0.1105,  ...,  0.0386, -0.0692, -0.0845],
+        [ 0.0345, -0.0693, -0.0629,  ..., -0.0600, -0.0441, -0.0697]],
+       device='cuda:0'), grad: tensor([[ 1.3309e-06,  5.6811e-08,  6.5193e-09,  ...,  3.4459e-08,
+         -5.0701e-06, -3.3099e-06],
+        [ 1.1045e-06,  2.3935e-07,  1.7695e-08,  ...,  2.9150e-07,
+          2.5705e-07, -3.3528e-08],
+        [ 1.4929e-06,  3.2503e-07,  1.8626e-08,  ...,  3.4645e-07,
+          3.2596e-08,  5.1502e-07],
+        ...,
+        [ 2.5611e-06, -1.8235e-06, -7.2643e-08,  ..., -1.8906e-06,
+          3.6694e-07,  2.3097e-07],
+        [ 3.2246e-05,  2.1569e-06,  7.7672e-07,  ...,  3.1199e-07,
+          1.7444e-06,  1.1194e-06],
+        [-2.1744e-04, -1.6801e-06, -8.4471e-07,  ...,  5.6159e-07,
+          7.3854e-07,  4.8056e-07]], device='cuda:0')
+Epoch 145, bias, value: tensor([-0.0227, -0.0229, -0.0097, -0.0278, -0.0294,  0.0021,  0.0269, -0.0146,
+         0.0326, -0.0009], device='cuda:0'), grad: tensor([-4.9658e-06, -2.5854e-06,  1.1094e-05,  6.1952e-06, -4.8637e-05,
+         3.7789e-04,  1.0258e-04,  9.7156e-06,  1.1081e-04, -5.6124e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 144, time 264.97, cls_loss 0.0058 cls_loss_mapping 0.0062 cls_loss_causal 0.5481 re_mapping 0.0075 re_causal 0.0196 /// teacc 99.02 lr 0.00010000
+Epoch 146, weight, value: tensor([[-0.0791, -0.1058, -0.0643,  ..., -0.0443,  0.1402,  0.1336],
+        [-0.1445, -0.1402, -0.1119,  ..., -0.1122, -0.1496, -0.0755],
+        [-0.0852, -0.0749,  0.1072,  ..., -0.1259,  0.1436,  0.0399],
+        ...,
+        [-0.0777,  0.0546,  0.0411,  ...,  0.1393, -0.1100, -0.1286],
+        [-0.1866,  0.0493, -0.1108,  ...,  0.0382, -0.0695, -0.0851],
+        [ 0.0344, -0.0698, -0.0630,  ..., -0.0609, -0.0446, -0.0712]],
+       device='cuda:0'), grad: tensor([[ 2.2538e-07,  6.5193e-09,  0.0000e+00,  ...,  4.7591e-07,
+         -3.9414e-06, -1.1176e-06],
+        [ 1.4156e-07,  4.3772e-08,  0.0000e+00,  ...,  3.5204e-07,
+          6.5491e-06,  1.1168e-05],
+        [ 6.7055e-08,  4.1910e-08,  0.0000e+00,  ...,  1.3504e-07,
+         -1.4976e-05, -2.4632e-05],
+        ...,
+        [ 6.7335e-07, -5.0291e-08,  0.0000e+00,  ...,  3.1404e-06,
+          3.1050e-06,  4.6864e-06],
+        [ 1.6028e-06, -3.5390e-08,  0.0000e+00,  ...,  3.2876e-06,
+          1.9111e-06,  1.4473e-06],
+        [ 6.1747e-07,  8.8476e-08,  9.3132e-10,  ..., -1.0822e-06,
+          2.2780e-06,  2.1793e-06]], device='cuda:0')
+Epoch 146, bias, value: tensor([-2.2472e-02, -2.4970e-02, -8.9712e-03, -2.8102e-02, -3.0582e-02,
+         1.8346e-03,  2.6861e-02, -1.2489e-02,  3.1929e-02, -9.4486e-05],
+       device='cuda:0'), grad: tensor([ 5.2787e-06,  6.8784e-05, -1.8716e-04,  2.3007e-05,  2.3156e-05,
+        -1.1496e-05,  6.8173e-06,  5.8979e-05,  1.4797e-05, -2.1309e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 145, time 265.71, cls_loss 0.0063 cls_loss_mapping 0.0062 cls_loss_causal 0.5588 re_mapping 0.0075 re_causal 0.0187 /// teacc 98.99 lr 0.00010000
+Epoch 147, weight, value: tensor([[-0.0790, -0.1061, -0.0614,  ..., -0.0449,  0.1414,  0.1350],
+        [-0.1451, -0.1404, -0.1126,  ..., -0.1130, -0.1500, -0.0757],
+        [-0.0855, -0.0754,  0.1072,  ..., -0.1266,  0.1433,  0.0395],
+        ...,
+        [-0.0781,  0.0539,  0.0420,  ...,  0.1386, -0.1108, -0.1294],
+        [-0.1877,  0.0519, -0.1119,  ...,  0.0405, -0.0700, -0.0860],
+        [ 0.0332, -0.0708, -0.0633,  ..., -0.0615, -0.0455, -0.0735]],
+       device='cuda:0'), grad: tensor([[ 3.9209e-07,  4.1444e-07,  1.8626e-09,  ...,  1.2666e-07,
+         -3.9861e-07, -2.9244e-07],
+        [ 7.0874e-07,  8.5682e-07,  9.3132e-10,  ...,  2.3935e-07,
+          1.4808e-07,  5.7742e-08],
+        [ 1.6829e-06,  2.0582e-06,  0.0000e+00,  ...,  5.7649e-07,
+          8.2236e-07,  1.3225e-07],
+        ...,
+        [ 5.0571e-07,  5.3924e-07,  3.7253e-09,  ..., -1.7509e-07,
+          5.6811e-08,  2.3283e-08],
+        [ 1.4633e-05,  6.9663e-06,  5.4017e-08,  ...,  1.0088e-05,
+          5.7183e-06,  2.0992e-06],
+        [ 6.5006e-07,  9.6112e-07, -7.1712e-08,  ...,  1.9465e-07,
+          3.5204e-07,  2.1048e-07]], device='cuda:0')
+Epoch 147, bias, value: tensor([-0.0216, -0.0251, -0.0093, -0.0291, -0.0307,  0.0028,  0.0267, -0.0125,
+         0.0328, -0.0006], device='cuda:0'), grad: tensor([ 5.1409e-07,  1.8897e-06,  5.8599e-06, -2.9176e-05,  1.9558e-07,
+        -8.9407e-05,  6.7174e-05,  1.2247e-06,  3.9548e-05,  2.0340e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 146, time 265.32, cls_loss 0.0049 cls_loss_mapping 0.0038 cls_loss_causal 0.5518 re_mapping 0.0077 re_causal 0.0193 /// teacc 98.96 lr 0.00010000
+Epoch 148, weight, value: tensor([[-0.0795, -0.1072, -0.0614,  ..., -0.0455,  0.1417,  0.1353],
+        [-0.1457, -0.1406, -0.1128,  ..., -0.1133, -0.1505, -0.0757],
+        [-0.0857, -0.0762,  0.1073,  ..., -0.1288,  0.1440,  0.0394],
+        ...,
+        [-0.0798,  0.0543,  0.0423,  ...,  0.1397, -0.1108, -0.1298],
+        [-0.1882,  0.0518, -0.1126,  ...,  0.0403, -0.0701, -0.0863],
+        [ 0.0335, -0.0713, -0.0626,  ..., -0.0620, -0.0458, -0.0744]],
+       device='cuda:0'), grad: tensor([[ 1.1183e-05,  3.4999e-06,  3.7253e-09,  ...,  1.5832e-08,
+          1.7090e-06,  5.8711e-06],
+        [ 1.4873e-06,  5.7630e-06,  9.3132e-10,  ...,  1.9558e-08,
+          1.5553e-07,  4.6194e-07],
+        [ 5.6811e-07,  2.7284e-05,  1.8626e-09,  ...,  3.3528e-08,
+          2.1420e-08,  2.1886e-07],
+        ...,
+        [ 2.9244e-07,  1.3141e-06,  1.8626e-09,  ...,  1.6764e-08,
+          4.0978e-08,  1.0151e-07],
+        [ 3.0212e-06,  1.1034e-05, -1.8626e-09,  ...,  5.1316e-07,
+          4.6659e-07,  1.1595e-06],
+        [ 4.2655e-06,  1.5888e-06,  4.6566e-09,  ..., -9.1922e-07,
+          8.0373e-07,  2.6561e-06]], device='cuda:0')
+Epoch 148, bias, value: tensor([-0.0215, -0.0250, -0.0098, -0.0292, -0.0310,  0.0028,  0.0270, -0.0121,
+         0.0320, -0.0005], device='cuda:0'), grad: tensor([ 4.3035e-05,  1.1697e-05,  4.2230e-05, -6.6638e-05,  3.9965e-05,
+         1.0669e-05, -1.2279e-04,  2.8908e-06,  2.6852e-05,  1.2286e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 147, time 265.66, cls_loss 0.0044 cls_loss_mapping 0.0048 cls_loss_causal 0.5414 re_mapping 0.0081 re_causal 0.0198 /// teacc 98.90 lr 0.00010000
+Epoch 149, weight, value: tensor([[-0.0797, -0.1078, -0.0613,  ..., -0.0457,  0.1422,  0.1359],
+        [-0.1462, -0.1407, -0.1118,  ..., -0.1136, -0.1508, -0.0760],
+        [-0.0858, -0.0773,  0.1081,  ..., -0.1293,  0.1445,  0.0397],
+        ...,
+        [-0.0798,  0.0545,  0.0418,  ...,  0.1401, -0.1112, -0.1303],
+        [-0.1888,  0.0525, -0.1128,  ...,  0.0401, -0.0703, -0.0867],
+        [ 0.0327, -0.0733, -0.0627,  ..., -0.0622, -0.0459, -0.0749]],
+       device='cuda:0'), grad: tensor([[ 4.1090e-06,  6.7428e-07,  0.0000e+00,  ...,  6.8638e-07,
+          2.9758e-05,  2.5779e-05],
+        [ 3.9116e-08,  3.0827e-07,  2.7940e-09,  ...,  3.5949e-07,
+          1.9185e-07,  1.4622e-07],
+        [ 3.1665e-08,  1.3039e-07,  4.6566e-09,  ...,  1.3411e-07,
+          3.5856e-07,  2.4494e-07],
+        ...,
+        [ 8.1398e-07, -3.2559e-06,  9.3132e-09,  ..., -5.4874e-06,
+          3.8184e-08,  2.4214e-08],
+        [ 2.5295e-06,  1.2852e-07,  0.0000e+00,  ...,  3.7476e-06,
+          2.7008e-07,  1.4156e-07],
+        [-2.4959e-06, -1.2293e-06,  2.7940e-09,  ...,  2.6990e-06,
+          2.8741e-06,  1.3411e-06]], device='cuda:0')
+Epoch 149, bias, value: tensor([-0.0215, -0.0248, -0.0101, -0.0291, -0.0309,  0.0027,  0.0268, -0.0123,
+         0.0331, -0.0010], device='cuda:0'), grad: tensor([ 6.9439e-05,  4.1574e-06,  1.2526e-06,  7.3537e-06,  1.1757e-05,
+         4.5933e-06, -7.2062e-05,  9.6392e-07,  4.5970e-06, -3.2187e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 148, time 265.60, cls_loss 0.0034 cls_loss_mapping 0.0038 cls_loss_causal 0.5251 re_mapping 0.0077 re_causal 0.0195 /// teacc 98.88 lr 0.00010000
+Epoch 150, weight, value: tensor([[-0.0799, -0.1082, -0.0613,  ..., -0.0460,  0.1423,  0.1360],
+        [-0.1466, -0.1410, -0.1118,  ..., -0.1147, -0.1514, -0.0761],
+        [-0.0860, -0.0779,  0.1084,  ..., -0.1295,  0.1450,  0.0400],
+        ...,
+        [-0.0802,  0.0547,  0.0417,  ...,  0.1410, -0.1119, -0.1310],
+        [-0.1893,  0.0525, -0.1129,  ...,  0.0401, -0.0705, -0.0869],
+        [ 0.0324, -0.0737, -0.0627,  ..., -0.0626, -0.0460, -0.0751]],
+       device='cuda:0'), grad: tensor([[ 8.0094e-08,  3.9116e-08,  1.8626e-09,  ...,  1.5926e-07,
+         -1.1422e-05, -5.3421e-06],
+        [ 8.0094e-08,  9.9465e-07,  9.3132e-10,  ...,  4.9509e-06,
+          2.5872e-06,  1.2945e-06],
+        [ 8.6613e-08,  1.6112e-07,  0.0000e+00,  ...,  6.1188e-07,
+         -1.0617e-06, -4.8988e-07],
+        ...,
+        [ 2.8871e-08, -6.0648e-06,  0.0000e+00,  ..., -3.1352e-05,
+          1.0077e-06,  5.1688e-07],
+        [ 2.6822e-07,  2.6841e-06,  2.7940e-09,  ...,  1.4454e-05,
+          4.3809e-06,  1.9204e-06],
+        [ 4.4703e-08,  1.5954e-06,  0.0000e+00,  ...,  8.1956e-06,
+          3.2745e-06,  1.6131e-06]], device='cuda:0')
+Epoch 150, bias, value: tensor([-0.0215, -0.0253, -0.0102, -0.0290, -0.0307,  0.0028,  0.0266, -0.0118,
+         0.0331, -0.0012], device='cuda:0'), grad: tensor([-1.7419e-05,  1.2405e-05, -2.9299e-06,  2.7288e-06,  9.1735e-07,
+         3.2373e-06, -1.0412e-06, -3.7730e-05,  2.3752e-05,  1.6093e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 149, time 263.72, cls_loss 0.0047 cls_loss_mapping 0.0052 cls_loss_causal 0.5462 re_mapping 0.0073 re_causal 0.0191 /// teacc 98.95 lr 0.00010000
+Epoch 151, weight, value: tensor([[-0.0801, -0.1088, -0.0617,  ..., -0.0466,  0.1429,  0.1365],
+        [-0.1501, -0.1416, -0.1120,  ..., -0.1155, -0.1518, -0.0771],
+        [-0.0836, -0.0789,  0.1085,  ..., -0.1310,  0.1453,  0.0403],
+        ...,
+        [-0.0802,  0.0553,  0.0417,  ...,  0.1419, -0.1126, -0.1313],
+        [-0.1907,  0.0524, -0.1131,  ...,  0.0401, -0.0709, -0.0873],
+        [ 0.0325, -0.0742, -0.0628,  ..., -0.0630, -0.0464, -0.0757]],
+       device='cuda:0'), grad: tensor([[ 3.8464e-07,  1.2191e-06,  1.8626e-09,  ...,  1.4156e-07,
+         -2.8387e-06, -1.5032e-06],
+        [ 3.5483e-07,  4.2934e-07,  9.3132e-10,  ...,  1.4994e-07,
+          4.5635e-08,  2.3283e-08],
+        [ 1.6857e-07,  8.9407e-07,  0.0000e+00,  ...,  1.4249e-07,
+         -2.1048e-07, -4.1910e-08],
+        ...,
+        [ 1.4994e-07, -2.3730e-06,  2.7940e-09,  ..., -1.6326e-06,
+          1.9185e-07,  7.4506e-08],
+        [ 7.0453e-05,  2.1324e-05,  2.7940e-09,  ...,  2.5183e-05,
+          2.6263e-07,  1.3877e-07],
+        [ 1.1595e-06,  1.1660e-06, -1.3039e-08,  ...,  4.6007e-07,
+          2.0545e-06,  1.0710e-06]], device='cuda:0')
+Epoch 151, bias, value: tensor([-0.0211, -0.0265, -0.0095, -0.0290, -0.0307,  0.0025,  0.0268, -0.0108,
+         0.0329, -0.0013], device='cuda:0'), grad: tensor([-1.3616e-06, -5.3905e-06,  4.8839e-06,  4.3297e-04, -2.5146e-07,
+        -5.4550e-04,  3.4664e-06, -6.6124e-07,  1.0383e-04,  7.0408e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 150, time 260.43, cls_loss 0.0048 cls_loss_mapping 0.0055 cls_loss_causal 0.5582 re_mapping 0.0077 re_causal 0.0192 /// teacc 98.95 lr 0.00010000
+Epoch 152, weight, value: tensor([[-0.0805, -0.1110, -0.0618,  ..., -0.0473,  0.1430,  0.1367],
+        [-0.1508, -0.1417, -0.1121,  ..., -0.1160, -0.1525, -0.0775],
+        [-0.0833, -0.0798,  0.1092,  ..., -0.1323,  0.1466,  0.0406],
+        ...,
+        [-0.0813,  0.0555,  0.0418,  ...,  0.1425, -0.1142, -0.1319],
+        [-0.1921,  0.0523, -0.1132,  ...,  0.0401, -0.0713, -0.0878],
+        [ 0.0323, -0.0746, -0.0628,  ..., -0.0629, -0.0466, -0.0761]],
+       device='cuda:0'), grad: tensor([[ 1.0096e-05,  2.5146e-08,  1.6019e-07,  ...,  1.3039e-07,
+          3.8017e-06,  6.8955e-06],
+        [ 1.1679e-06,  4.3772e-07,  6.9849e-08,  ..., -2.9296e-05,
+          6.4541e-07,  9.1642e-07],
+        [ 6.4857e-06,  1.5646e-07,  5.9605e-08,  ...,  9.5461e-07,
+          2.9560e-06,  4.9025e-06],
+        ...,
+        [ 1.4529e-07, -1.2293e-06,  1.1642e-07,  ..., -2.2855e-06,
+          1.2666e-07,  1.0896e-07],
+        [ 2.9817e-05,  1.2666e-07,  3.2596e-08,  ...,  1.6809e-05,
+          1.2361e-05,  2.1785e-05],
+        [-4.0904e-06,  4.1816e-07,  1.8626e-07,  ...,  1.2992e-06,
+          3.4180e-07,  4.8708e-07]], device='cuda:0')
+Epoch 152, bias, value: tensor([-0.0212, -0.0268, -0.0096, -0.0289, -0.0302,  0.0032,  0.0256, -0.0108,
+         0.0325, -0.0013], device='cuda:0'), grad: tensor([ 2.9132e-05, -1.6201e-04,  2.1517e-05,  2.2203e-06,  1.8785e-06,
+         2.2721e-04, -2.8348e-04,  2.7880e-05,  1.8239e-04, -4.6670e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 151, time 256.46, cls_loss 0.0055 cls_loss_mapping 0.0063 cls_loss_causal 0.4956 re_mapping 0.0075 re_causal 0.0180 /// teacc 98.95 lr 0.00010000
+Epoch 153, weight, value: tensor([[-0.0809, -0.1117, -0.0620,  ..., -0.0487,  0.1433,  0.1371],
+        [-0.1511, -0.1419, -0.1122,  ..., -0.1169, -0.1532, -0.0777],
+        [-0.0836, -0.0804,  0.1094,  ..., -0.1330,  0.1483,  0.0408],
+        ...,
+        [-0.0814,  0.0546,  0.0417,  ...,  0.1420, -0.1159, -0.1329],
+        [-0.1929,  0.0542, -0.1134,  ...,  0.0420, -0.0713, -0.0883],
+        [ 0.0322, -0.0757, -0.0636,  ..., -0.0627, -0.0470, -0.0769]],
+       device='cuda:0'), grad: tensor([[1.3721e-04, 1.2293e-07, 2.7940e-09,  ..., 9.6977e-05, 6.7532e-05,
+         2.9922e-05],
+        [1.3672e-06, 2.6077e-08, 2.7940e-09,  ..., 9.9093e-07, 5.0198e-07,
+         1.6578e-07],
+        [2.7604e-06, 6.6124e-08, 3.7253e-09,  ..., 1.4575e-06, 2.1681e-06,
+         1.3160e-06],
+        ...,
+        [1.4566e-06, 3.3528e-08, 9.3132e-10,  ..., 1.1260e-06, 3.0920e-07,
+         1.3970e-08],
+        [7.8678e-06, 5.4948e-08, 3.7253e-09,  ..., 2.3190e-07, 1.3709e-05,
+         1.1079e-05],
+        [6.0350e-07, 3.8184e-08, 2.7940e-09,  ..., 4.6603e-06, 1.6978e-06,
+         1.8347e-07]], device='cuda:0')
+Epoch 153, bias, value: tensor([-0.0212, -0.0269, -0.0097, -0.0289, -0.0297,  0.0025,  0.0270, -0.0117,
+         0.0344, -0.0015], device='cuda:0'), grad: tensor([ 5.3072e-04,  4.8690e-06,  1.1258e-05,  1.5211e-04, -1.6761e-04,
+        -6.4421e-04, -9.2268e-05,  5.2117e-06,  1.7786e-04,  2.1443e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 152, time 256.05, cls_loss 0.0060 cls_loss_mapping 0.0060 cls_loss_causal 0.5058 re_mapping 0.0073 re_causal 0.0180 /// teacc 99.01 lr 0.00010000
+Epoch 154, weight, value: tensor([[-0.0814, -0.1127, -0.0621,  ..., -0.0500,  0.1430,  0.1368],
+        [-0.1533, -0.1430, -0.1122,  ..., -0.1173, -0.1543, -0.0780],
+        [-0.0843, -0.0812,  0.1094,  ..., -0.1342,  0.1503,  0.0407],
+        ...,
+        [-0.0833,  0.0551,  0.0418,  ...,  0.1415, -0.1173, -0.1334],
+        [-0.1908,  0.0552, -0.1134,  ...,  0.0433, -0.0703, -0.0883],
+        [ 0.0318, -0.0783, -0.0636,  ..., -0.0629, -0.0471, -0.0773]],
+       device='cuda:0'), grad: tensor([[ 3.5577e-07,  1.1176e-07,  0.0000e+00,  ...,  5.0291e-08,
+          1.1679e-06,  8.1956e-08],
+        [ 8.1286e-06,  4.3847e-06,  0.0000e+00,  ..., -6.1374e-07,
+          1.2666e-07,  4.2841e-08],
+        [ 7.5530e-07,  1.0906e-06,  0.0000e+00,  ...,  1.8068e-07,
+         -1.0161e-06, -1.9744e-07],
+        ...,
+        [ 5.4855e-07, -5.1051e-05,  0.0000e+00,  ..., -4.2319e-05,
+          2.5798e-07,  4.5635e-08],
+        [ 5.3272e-07,  2.2892e-06,  0.0000e+00,  ...,  1.5004e-06,
+          3.1106e-07,  1.2945e-07],
+        [-7.4618e-06,  2.8372e-05,  0.0000e+00,  ...,  2.3976e-05,
+          1.8999e-07,  2.6077e-08]], device='cuda:0')
+Epoch 154, bias, value: tensor([-0.0220, -0.0274, -0.0097, -0.0292, -0.0292,  0.0024,  0.0272, -0.0120,
+         0.0367, -0.0018], device='cuda:0'), grad: tensor([ 3.6526e-06,  6.3717e-05,  1.8226e-06,  2.2203e-05,  1.6931e-06,
+         5.4613e-06, -1.5926e-06, -7.3493e-05,  6.1356e-06, -2.9609e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 153----------------------------------------------------
+epoch 153, time 272.72, cls_loss 0.0050 cls_loss_mapping 0.0048 cls_loss_causal 0.5256 re_mapping 0.0072 re_causal 0.0188 /// teacc 99.03 lr 0.00010000
+Epoch 155, weight, value: tensor([[-0.0816, -0.1130, -0.0621,  ..., -0.0502,  0.1435,  0.1372],
+        [-0.1541, -0.1438, -0.1122,  ..., -0.1168, -0.1550, -0.0782],
+        [-0.0840, -0.0817,  0.1089,  ..., -0.1356,  0.1507,  0.0407],
+        ...,
+        [-0.0839,  0.0552,  0.0428,  ...,  0.1418, -0.1182, -0.1339],
+        [-0.1917,  0.0552, -0.1142,  ...,  0.0432, -0.0707, -0.0888],
+        [ 0.0320, -0.0790, -0.0639,  ..., -0.0636, -0.0472, -0.0777]],
+       device='cuda:0'), grad: tensor([[ 1.9576e-06,  1.8468e-06,  0.0000e+00,  ...,  2.7195e-06,
+          1.6727e-06,  1.7127e-06],
+        [ 6.9849e-08,  4.4219e-06,  0.0000e+00,  ...,  6.4224e-06,
+          4.3772e-08,  4.0978e-08],
+        [ 1.4808e-07,  2.7195e-07,  0.0000e+00,  ...,  3.4180e-07,
+          8.3819e-08,  1.0245e-07],
+        ...,
+        [ 2.3283e-08, -1.0826e-05,  0.0000e+00,  ..., -1.6212e-05,
+          1.2107e-08,  9.3132e-09],
+        [ 2.0489e-07,  4.0419e-07,  0.0000e+00,  ...,  2.6263e-07,
+          9.4064e-08,  7.4506e-08],
+        [ 6.6496e-07,  2.5239e-06,  0.0000e+00,  ...,  2.0601e-06,
+          2.2538e-07,  1.6950e-07]], device='cuda:0')
+Epoch 155, bias, value: tensor([-0.0219, -0.0274, -0.0098, -0.0290, -0.0291,  0.0023,  0.0271, -0.0119,
+         0.0365, -0.0019], device='cuda:0'), grad: tensor([ 1.6868e-05,  1.3704e-03,  4.3064e-06,  3.8370e-06, -1.6575e-03,
+         1.2398e-05, -2.4945e-05, -2.5451e-05,  2.7582e-05,  2.7323e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 154, time 255.78, cls_loss 0.0056 cls_loss_mapping 0.0056 cls_loss_causal 0.5775 re_mapping 0.0071 re_causal 0.0182 /// teacc 98.95 lr 0.00010000
+Epoch 156, weight, value: tensor([[-0.0819, -0.1132, -0.0622,  ..., -0.0505,  0.1439,  0.1376],
+        [-0.1543, -0.1439, -0.1123,  ..., -0.1167, -0.1555, -0.0784],
+        [-0.0847, -0.0844,  0.1091,  ..., -0.1368,  0.1521,  0.0410],
+        ...,
+        [-0.0870,  0.0555,  0.0427,  ...,  0.1418, -0.1204, -0.1350],
+        [-0.1930,  0.0550, -0.1143,  ...,  0.0431, -0.0711, -0.0891],
+        [ 0.0319, -0.0794, -0.0639,  ..., -0.0641, -0.0477, -0.0785]],
+       device='cuda:0'), grad: tensor([[ 6.9849e-08,  3.1665e-08,  1.1176e-08,  ...,  3.9116e-08,
+         -1.7762e-05, -1.1437e-05],
+        [ 7.2643e-08,  2.9709e-07,  1.8626e-09,  ...,  4.7777e-07,
+          4.9435e-06,  3.1907e-06],
+        [ 2.0489e-08, -2.5146e-08,  9.3132e-10,  ...,  1.1083e-07,
+          1.7229e-06,  1.2247e-06],
+        ...,
+        [ 1.4901e-08, -2.5705e-07,  0.0000e+00,  ..., -1.8347e-07,
+          6.3423e-07,  3.9861e-07],
+        [ 2.2817e-07, -4.1723e-07,  3.7253e-09,  ..., -2.3730e-06,
+          3.1721e-06,  2.0117e-06],
+        [ 6.6124e-08,  1.8347e-07,  0.0000e+00,  ...,  3.5018e-07,
+          1.6531e-06,  1.0058e-06]], device='cuda:0')
+Epoch 156, bias, value: tensor([-0.0218, -0.0271, -0.0098, -0.0291, -0.0293,  0.0036,  0.0269, -0.0129,
+         0.0360, -0.0020], device='cuda:0'), grad: tensor([-2.2978e-05,  1.0997e-05,  1.5255e-06,  2.6345e-05,  3.8296e-06,
+         3.8110e-06,  7.9572e-06,  1.1846e-06, -4.2439e-05,  9.7156e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 155, time 255.86, cls_loss 0.0056 cls_loss_mapping 0.0051 cls_loss_causal 0.5195 re_mapping 0.0071 re_causal 0.0174 /// teacc 99.01 lr 0.00010000
+Epoch 157, weight, value: tensor([[-0.0821, -0.1141, -0.0622,  ..., -0.0513,  0.1441,  0.1383],
+        [-0.1548, -0.1439, -0.1126,  ..., -0.1168, -0.1560, -0.0784],
+        [-0.0845, -0.0846,  0.1094,  ..., -0.1377,  0.1527,  0.0409],
+        ...,
+        [-0.0874,  0.0554,  0.0427,  ...,  0.1420, -0.1209, -0.1353],
+        [-0.1939,  0.0548, -0.1140,  ...,  0.0431, -0.0715, -0.0898],
+        [ 0.0316, -0.0786, -0.0639,  ..., -0.0640, -0.0473, -0.0791]],
+       device='cuda:0'), grad: tensor([[ 3.6974e-07,  4.0419e-07,  0.0000e+00,  ...,  5.2154e-08,
+         -1.2442e-06, -8.6706e-07],
+        [ 4.7777e-07,  7.2457e-07,  0.0000e+00,  ...,  4.4703e-08,
+          1.6764e-08,  1.0245e-08],
+        [ 1.6168e-06,  2.4550e-06,  0.0000e+00,  ...,  1.8626e-09,
+          5.1223e-08,  2.6077e-08],
+        ...,
+        [ 1.2852e-07,  9.3132e-08,  0.0000e+00,  ..., -5.4948e-08,
+          5.5879e-09,  2.7940e-09],
+        [ 8.8848e-07,  2.5015e-06,  0.0000e+00,  ...,  4.7497e-08,
+          3.2224e-07,  1.5646e-07],
+        [ 1.4715e-07,  2.4959e-07,  0.0000e+00,  ...,  9.9745e-07,
+          2.4866e-07,  1.6578e-07]], device='cuda:0')
+Epoch 157, bias, value: tensor([-0.0221, -0.0263, -0.0112, -0.0289, -0.0292,  0.0033,  0.0267, -0.0132,
+         0.0357, -0.0006], device='cuda:0'), grad: tensor([ 9.8348e-07,  3.6150e-05,  1.4305e-05, -2.6435e-05, -3.7789e-04,
+         1.2722e-06,  1.8682e-06,  4.8801e-06,  6.0648e-06,  3.3832e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 156, time 255.52, cls_loss 0.0047 cls_loss_mapping 0.0048 cls_loss_causal 0.5536 re_mapping 0.0071 re_causal 0.0182 /// teacc 98.95 lr 0.00010000
+Epoch 158, weight, value: tensor([[-0.0826, -0.1148, -0.0622,  ..., -0.0516,  0.1441,  0.1384],
+        [-0.1550, -0.1442, -0.1125,  ..., -0.1152, -0.1566, -0.0783],
+        [-0.0846, -0.0867,  0.1094,  ..., -0.1411,  0.1531,  0.0411],
+        ...,
+        [-0.0874,  0.0562,  0.0427,  ...,  0.1421, -0.1217, -0.1361],
+        [-0.1965,  0.0547, -0.1135,  ...,  0.0428, -0.0723, -0.0901],
+        [ 0.0326, -0.0794, -0.0639,  ..., -0.0650, -0.0474, -0.0795]],
+       device='cuda:0'), grad: tensor([[ 5.9605e-08,  3.0734e-08,  0.0000e+00,  ...,  5.2154e-08,
+         -5.7183e-06, -2.4606e-06],
+        [ 2.6077e-08,  2.7288e-07,  0.0000e+00,  ...,  4.3493e-07,
+          2.3190e-07,  1.1176e-07],
+        [ 5.2154e-08,  3.8184e-08,  0.0000e+00,  ...,  7.8231e-08,
+          2.8405e-07,  4.3772e-08],
+        ...,
+        [ 6.5193e-09, -2.7902e-06,  0.0000e+00,  ..., -4.0568e-06,
+          2.5611e-07,  1.5553e-07],
+        [ 1.3039e-07,  1.1716e-06,  0.0000e+00,  ...,  1.2359e-06,
+          7.1619e-07,  2.7101e-07],
+        [ 1.3318e-07,  9.3877e-07,  0.0000e+00,  ...,  1.5814e-06,
+          1.9167e-06,  8.4192e-07]], device='cuda:0')
+Epoch 158, bias, value: tensor([-0.0222, -0.0250, -0.0124, -0.0287, -0.0292,  0.0033,  0.0268, -0.0134,
+         0.0350, -0.0009], device='cuda:0'), grad: tensor([-7.8753e-06, -2.6631e-04,  1.8287e-04,  6.1616e-06, -1.5143e-06,
+         4.2170e-06,  3.4459e-06,  6.5982e-05,  3.9265e-06,  9.1791e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 157, time 255.83, cls_loss 0.0058 cls_loss_mapping 0.0050 cls_loss_causal 0.5710 re_mapping 0.0069 re_causal 0.0179 /// teacc 98.98 lr 0.00010000
+Epoch 159, weight, value: tensor([[-0.0830, -0.1158, -0.0623,  ..., -0.0489,  0.1454,  0.1395],
+        [-0.1553, -0.1447, -0.1126,  ..., -0.1156, -0.1576, -0.0786],
+        [-0.0852, -0.0875,  0.1095,  ..., -0.1420,  0.1535,  0.0408],
+        ...,
+        [-0.0877,  0.0561,  0.0426,  ...,  0.1419, -0.1237, -0.1372],
+        [-0.1993,  0.0547, -0.1134,  ...,  0.0423, -0.0737, -0.0921],
+        [ 0.0328, -0.0788, -0.0639,  ..., -0.0644, -0.0480, -0.0803]],
+       device='cuda:0'), grad: tensor([[ 7.8231e-08,  1.0245e-08,  3.7253e-09,  ...,  5.7742e-08,
+         -2.2724e-05, -1.1079e-05],
+        [ 1.1176e-08,  3.0454e-07,  9.3132e-10,  ...,  1.1455e-07,
+          7.2736e-07,  2.6077e-07],
+        [ 1.0245e-08,  6.6683e-07,  9.3132e-10,  ...,  9.9372e-07,
+          4.5225e-06,  1.1427e-06],
+        ...,
+        [ 3.6322e-08,  5.9046e-06,  0.0000e+00,  ..., -3.7812e-07,
+          6.7893e-07,  3.1106e-07],
+        [ 5.5879e-08,  1.9278e-07,  6.5193e-09,  ..., -1.1623e-06,
+         -3.0547e-06, -1.5646e-07],
+        [-1.4622e-07,  6.5193e-08,  0.0000e+00,  ...,  2.4773e-07,
+          1.4424e-05,  6.8322e-06]], device='cuda:0')
+Epoch 159, bias, value: tensor([-0.0212, -0.0250, -0.0127, -0.0281, -0.0290,  0.0028,  0.0277, -0.0143,
+         0.0341, -0.0004], device='cuda:0'), grad: tensor([-3.4481e-05,  1.4612e-06,  1.5467e-05, -4.1798e-06, -3.5092e-06,
+         2.8126e-06,  6.0350e-06,  6.2026e-06, -1.3612e-05,  2.3767e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 158, time 255.68, cls_loss 0.0061 cls_loss_mapping 0.0055 cls_loss_causal 0.5288 re_mapping 0.0072 re_causal 0.0174 /// teacc 98.93 lr 0.00010000
+Epoch 160, weight, value: tensor([[-0.0835, -0.1177, -0.0623,  ..., -0.0496,  0.1461,  0.1402],
+        [-0.1579, -0.1449, -0.1128,  ..., -0.1158, -0.1588, -0.0790],
+        [-0.0857, -0.0883,  0.1086,  ..., -0.1439,  0.1539,  0.0405],
+        ...,
+        [-0.0885,  0.0563,  0.0436,  ...,  0.1421, -0.1250, -0.1377],
+        [-0.1992,  0.0550, -0.1131,  ...,  0.0424, -0.0742, -0.0931],
+        [ 0.0317, -0.0796, -0.0639,  ..., -0.0640, -0.0484, -0.0808]],
+       device='cuda:0'), grad: tensor([[ 4.5635e-08,  3.6322e-08,  0.0000e+00,  ...,  2.7940e-08,
+         -2.7847e-07, -1.1921e-07],
+        [ 3.3528e-08,  4.3213e-07,  0.0000e+00,  ...,  3.9022e-07,
+          2.7940e-08, -6.5193e-09],
+        [ 7.3574e-08,  1.6652e-06,  0.0000e+00,  ...,  1.6764e-07,
+         -6.4448e-07, -1.6671e-07],
+        ...,
+        [ 2.8871e-08,  1.1465e-06,  0.0000e+00,  ..., -7.5717e-07,
+          8.3819e-08,  1.7695e-08],
+        [ 3.6228e-07,  2.3078e-06,  0.0000e+00,  ..., -3.0827e-07,
+          3.5204e-07,  1.2387e-07],
+        [ 2.9244e-07,  2.7847e-07,  0.0000e+00,  ...,  5.3085e-07,
+          2.4680e-07,  1.0245e-07]], device='cuda:0')
+Epoch 160, bias, value: tensor([-0.0208, -0.0253, -0.0129, -0.0283, -0.0309,  0.0034,  0.0274, -0.0149,
+         0.0352,  0.0008], device='cuda:0'), grad: tensor([-7.6368e-08, -2.8685e-07,  1.6475e-06, -6.1393e-06, -7.3135e-05,
+        -3.5353e-06,  1.3961e-06,  2.3171e-06,  2.8275e-06,  7.4804e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 159, time 255.88, cls_loss 0.0057 cls_loss_mapping 0.0057 cls_loss_causal 0.5416 re_mapping 0.0072 re_causal 0.0175 /// teacc 98.98 lr 0.00010000
+Epoch 161, weight, value: tensor([[-0.0839, -0.1187, -0.0629,  ..., -0.0500,  0.1464,  0.1404],
+        [-0.1596, -0.1462, -0.1130,  ..., -0.1168, -0.1596, -0.0798],
+        [-0.0843, -0.0887,  0.1087,  ..., -0.1447,  0.1546,  0.0413],
+        ...,
+        [-0.0888,  0.0568,  0.0437,  ...,  0.1428, -0.1262, -0.1386],
+        [-0.1996,  0.0553, -0.1134,  ...,  0.0425, -0.0745, -0.0938],
+        [ 0.0305, -0.0805, -0.0639,  ..., -0.0648, -0.0486, -0.0812]],
+       device='cuda:0'), grad: tensor([[ 1.5544e-06,  3.1153e-07,  1.4901e-08,  ...,  1.3867e-06,
+         -3.5390e-07, -1.8533e-07],
+        [ 1.4687e-06,  1.8501e-04,  1.8626e-09,  ...,  1.1772e-04,
+          3.9581e-08,  6.9849e-09],
+        [ 4.6492e-06,  6.0424e-06, -1.4063e-07,  ...,  7.8455e-06,
+         -2.6682e-07,  6.1002e-08],
+        ...,
+        [ 3.5703e-05, -1.9813e-04,  1.3504e-08,  ..., -9.3937e-05,
+          2.9290e-07,  1.3039e-08],
+        [ 7.7039e-06,  5.4725e-06,  1.1455e-07,  ...,  9.2164e-06,
+          4.7125e-06,  1.2051e-06],
+        [ 8.4471e-07, -3.0063e-06,  0.0000e+00,  ..., -5.2853e-07,
+         -3.2596e-09,  9.3598e-08]], device='cuda:0')
+Epoch 161, bias, value: tensor([-0.0209, -0.0262, -0.0129, -0.0288, -0.0307,  0.0037,  0.0279, -0.0140,
+         0.0355,  0.0002], device='cuda:0'), grad: tensor([ 6.5416e-06,  6.2370e-04,  3.4720e-05,  4.8757e-05, -1.6332e-05,
+        -2.2972e-04,  2.7642e-06, -5.4216e-04,  5.1916e-05,  2.0072e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 160, time 255.92, cls_loss 0.0057 cls_loss_mapping 0.0050 cls_loss_causal 0.5578 re_mapping 0.0069 re_causal 0.0171 /// teacc 98.96 lr 0.00010000
+Epoch 162, weight, value: tensor([[-0.0843, -0.1192, -0.0631,  ..., -0.0505,  0.1449,  0.1407],
+        [-0.1603, -0.1468, -0.1131,  ..., -0.1180, -0.1600, -0.0800],
+        [-0.0839, -0.0890,  0.1088,  ..., -0.1455,  0.1553,  0.0417],
+        ...,
+        [-0.0893,  0.0574,  0.0437,  ...,  0.1436, -0.1278, -0.1399],
+        [-0.2000,  0.0551, -0.1135,  ...,  0.0425, -0.0752, -0.0947],
+        [ 0.0296, -0.0808, -0.0641,  ..., -0.0653, -0.0464, -0.0818]],
+       device='cuda:0'), grad: tensor([[-1.1567e-06,  2.3283e-09,  0.0000e+00,  ...,  1.5320e-07,
+         -5.6848e-06, -1.3392e-06],
+        [ 9.3132e-09,  2.0023e-08,  0.0000e+00,  ...,  1.7229e-07,
+          1.2992e-07, -1.2126e-06],
+        [ 1.6298e-08,  9.3132e-09,  0.0000e+00,  ...,  8.8755e-07,
+         -3.4552e-06, -9.7323e-07],
+        ...,
+        [ 6.0536e-09, -4.1816e-07,  0.0000e+00,  ..., -8.3121e-07,
+          1.9465e-06,  9.7696e-07],
+        [ 1.0943e-07,  2.6543e-08,  0.0000e+00,  ..., -4.2245e-06,
+          2.2911e-07,  2.8312e-07],
+        [ 3.5809e-07,  3.8231e-07,  0.0000e+00,  ...,  2.9504e-06,
+          2.8815e-06,  1.1837e-06]], device='cuda:0')
+Epoch 162, bias, value: tensor([-0.0232, -0.0267, -0.0126, -0.0291, -0.0306,  0.0037,  0.0282, -0.0137,
+         0.0354,  0.0016], device='cuda:0'), grad: tensor([-6.9961e-06, -1.2510e-05,  4.2170e-06,  2.5574e-06,  5.5414e-08,
+         7.8380e-06,  2.4736e-06,  7.0147e-06, -2.7478e-05,  2.2799e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 161, time 255.91, cls_loss 0.0042 cls_loss_mapping 0.0045 cls_loss_causal 0.5471 re_mapping 0.0071 re_causal 0.0183 /// teacc 99.00 lr 0.00010000
+Epoch 163, weight, value: tensor([[-0.0835, -0.1202, -0.0633,  ..., -0.0489,  0.1457,  0.1420],
+        [-0.1605, -0.1468, -0.1131,  ..., -0.1174, -0.1628, -0.0815],
+        [-0.0841, -0.0895,  0.1091,  ..., -0.1460,  0.1563,  0.0424],
+        ...,
+        [-0.0894,  0.0577,  0.0437,  ...,  0.1438, -0.1284, -0.1405],
+        [-0.2006,  0.0555, -0.1141,  ...,  0.0425, -0.0759, -0.0958],
+        [ 0.0294, -0.0824, -0.0642,  ..., -0.0660, -0.0464, -0.0829]],
+       device='cuda:0'), grad: tensor([[ 8.3819e-09, -1.6764e-07,  0.0000e+00,  ..., -3.7067e-07,
+         -2.5630e-06, -2.2110e-06],
+        [ 9.3132e-09,  4.9360e-08,  0.0000e+00,  ..., -2.3842e-06,
+          6.7055e-08,  5.6811e-08],
+        [ 2.9802e-08,  2.2352e-08, -9.3132e-10,  ...,  1.3318e-07,
+          2.0489e-07,  2.0862e-07],
+        ...,
+        [ 3.7253e-09, -1.3970e-07,  0.0000e+00,  ...,  1.7965e-06,
+          3.1106e-07,  2.7288e-07],
+        [ 8.3819e-08,  8.2888e-08,  0.0000e+00,  ...,  3.6415e-07,
+          9.0525e-07,  7.8790e-07],
+        [ 2.7940e-08,  7.8231e-08,  0.0000e+00,  ...,  3.3993e-07,
+          6.6869e-07,  5.4389e-07]], device='cuda:0')
+Epoch 163, bias, value: tensor([-0.0228, -0.0266, -0.0119, -0.0290, -0.0305,  0.0035,  0.0279, -0.0139,
+         0.0360,  0.0011], device='cuda:0'), grad: tensor([-5.5805e-06, -2.0057e-05,  1.2843e-06,  8.4471e-07, -1.8001e-05,
+         1.4435e-07,  3.8650e-07,  1.6779e-05,  5.2527e-06,  1.8895e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 162, time 255.75, cls_loss 0.0049 cls_loss_mapping 0.0050 cls_loss_causal 0.5682 re_mapping 0.0071 re_causal 0.0178 /// teacc 98.99 lr 0.00010000
+Epoch 164, weight, value: tensor([[-0.0845, -0.1210, -0.0634,  ..., -0.0505,  0.1466,  0.1432],
+        [-0.1607, -0.1483, -0.1132,  ..., -0.1183, -0.1634, -0.0819],
+        [-0.0842, -0.0893,  0.1092,  ..., -0.1463,  0.1568,  0.0428],
+        ...,
+        [-0.0898,  0.0584,  0.0437,  ...,  0.1445, -0.1294, -0.1414],
+        [-0.2018,  0.0554, -0.1139,  ...,  0.0424, -0.0773, -0.0975],
+        [ 0.0291, -0.0829, -0.0639,  ..., -0.0665, -0.0470, -0.0854]],
+       device='cuda:0'), grad: tensor([[ 1.7881e-07,  8.2888e-08,  0.0000e+00,  ..., -3.9116e-08,
+         -8.5458e-06, -3.8147e-06],
+        [ 2.4587e-07,  2.7288e-07,  0.0000e+00,  ...,  1.0245e-08,
+          7.8231e-08,  1.5832e-08],
+        [ 4.0140e-07,  3.9674e-07,  0.0000e+00,  ...,  9.3132e-09,
+          5.6103e-06,  2.2165e-06],
+        ...,
+        [ 4.1630e-07,  5.1782e-07,  0.0000e+00,  ..., -1.8626e-08,
+          1.0431e-07,  5.4948e-08],
+        [ 3.0361e-07,  3.2317e-07,  0.0000e+00,  ...,  5.4948e-08,
+          3.7346e-07,  2.3842e-07],
+        [ 1.2480e-07,  3.2596e-08,  0.0000e+00,  ..., -6.3330e-08,
+          1.8757e-06,  1.0207e-06]], device='cuda:0')
+Epoch 164, bias, value: tensor([-0.0223, -0.0273, -0.0117, -0.0283, -0.0295,  0.0030,  0.0278, -0.0131,
+         0.0355,  0.0001], device='cuda:0'), grad: tensor([-9.8795e-06,  2.3451e-06,  8.3745e-06, -4.4443e-06, -2.6852e-05,
+         1.7481e-06,  1.3011e-06,  2.5611e-06,  4.1351e-06,  2.0683e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 163, time 255.80, cls_loss 0.0052 cls_loss_mapping 0.0050 cls_loss_causal 0.5613 re_mapping 0.0070 re_causal 0.0175 /// teacc 98.90 lr 0.00010000
+Epoch 165, weight, value: tensor([[-0.0850, -0.1221, -0.0634,  ..., -0.0515,  0.1469,  0.1435],
+        [-0.1609, -0.1488, -0.1132,  ..., -0.1191, -0.1638, -0.0820],
+        [-0.0845, -0.0897,  0.1092,  ..., -0.1467,  0.1571,  0.0428],
+        ...,
+        [-0.0902,  0.0589,  0.0437,  ...,  0.1451, -0.1309, -0.1425],
+        [-0.2035,  0.0554, -0.1140,  ...,  0.0425, -0.0770, -0.0984],
+        [ 0.0314, -0.0833, -0.0639,  ..., -0.0668, -0.0472, -0.0861]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  3.1386e-07,  4.6566e-09,  ...,  5.9791e-07,
+          2.9057e-07, -1.6764e-08],
+        [ 2.3283e-08,  1.6922e-06,  1.8626e-09,  ...,  1.2321e-06,
+          2.5705e-07,  9.3132e-10],
+        [ 7.4506e-09,  4.1537e-07,  0.0000e+00,  ...,  6.6217e-07,
+         -1.2256e-06, -5.5879e-09],
+        ...,
+        [ 1.2107e-08, -2.1338e-05,  5.5879e-09,  ..., -1.2100e-05,
+          7.3574e-08,  3.7253e-09],
+        [ 6.5193e-08,  2.3209e-06,  7.4506e-09,  ...,  1.1921e-06,
+         -4.4145e-07,  2.7940e-09],
+        [ 1.6764e-08, -8.8662e-06, -3.7253e-08,  ..., -1.1213e-05,
+          2.0396e-07,  9.3132e-09]], device='cuda:0')
+Epoch 165, bias, value: tensor([-0.0224, -0.0274, -0.0119, -0.0284, -0.0293,  0.0027,  0.0282, -0.0128,
+         0.0350,  0.0003], device='cuda:0'), grad: tensor([ 3.7178e-06,  2.0504e-05, -1.6885e-06,  2.8998e-05,  4.6939e-05,
+         3.2634e-06,  5.9530e-06, -2.6524e-06, -3.0279e-05, -7.4744e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 164, time 255.31, cls_loss 0.0049 cls_loss_mapping 0.0055 cls_loss_causal 0.5246 re_mapping 0.0072 re_causal 0.0173 /// teacc 98.93 lr 0.00010000
+Epoch 166, weight, value: tensor([[-0.0863, -0.1224, -0.0634,  ..., -0.0522,  0.1464,  0.1428],
+        [-0.1611, -0.1496, -0.1133,  ..., -0.1199, -0.1643, -0.0821],
+        [-0.0847, -0.0897,  0.1093,  ..., -0.1470,  0.1580,  0.0431],
+        ...,
+        [-0.0905,  0.0593,  0.0440,  ...,  0.1459, -0.1325, -0.1435],
+        [-0.2049,  0.0552, -0.1141,  ...,  0.0423, -0.0777, -0.0998],
+        [ 0.0314, -0.0836, -0.0644,  ..., -0.0673, -0.0473, -0.0865]],
+       device='cuda:0'), grad: tensor([[ 3.1572e-07,  1.8626e-08,  1.8626e-09,  ..., -8.2888e-08,
+         -9.4399e-06, -5.4389e-06],
+        [ 5.6345e-07,  7.2643e-08,  2.4214e-08,  ..., -1.4104e-05,
+          6.1654e-07,  2.1514e-07],
+        [ 3.7253e-08,  2.3283e-08, -1.1269e-07,  ...,  1.1548e-07,
+         -2.5034e-06, -2.8219e-07],
+        ...,
+        [ 1.7695e-07,  2.5146e-08,  2.7940e-09,  ...,  8.5980e-06,
+          2.3451e-06,  1.2098e-06],
+        [ 1.4797e-05,  4.4778e-06,  2.7940e-09,  ...,  7.8604e-06,
+          1.0449e-06,  4.4797e-07],
+        [ 1.5711e-06,  4.8708e-07,  0.0000e+00,  ...,  3.4776e-06,
+          3.8706e-06,  2.0582e-06]], device='cuda:0')
+Epoch 166, bias, value: tensor([-2.2879e-02, -2.8045e-02, -1.1545e-02, -2.8122e-02, -2.8689e-02,
+         2.4492e-03,  2.9381e-02, -1.2313e-02,  3.4289e-02, -4.0254e-05],
+       device='cuda:0'), grad: tensor([-1.5199e-05, -6.5625e-05, -7.2345e-06,  2.0790e-04,  1.7911e-05,
+        -2.4724e-04,  2.2426e-05,  4.4525e-05,  2.2337e-05,  2.0340e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 165, time 255.64, cls_loss 0.0049 cls_loss_mapping 0.0060 cls_loss_causal 0.5394 re_mapping 0.0069 re_causal 0.0173 /// teacc 98.95 lr 0.00010000
+Epoch 167, weight, value: tensor([[-0.0867, -0.1232, -0.0635,  ..., -0.0524,  0.1461,  0.1432],
+        [-0.1620, -0.1499, -0.1133,  ..., -0.1202, -0.1652, -0.0827],
+        [-0.0844, -0.0895,  0.1093,  ..., -0.1483,  0.1586,  0.0432],
+        ...,
+        [-0.0907,  0.0593,  0.0440,  ...,  0.1462, -0.1344, -0.1453],
+        [-0.2054,  0.0558, -0.1142,  ...,  0.0424, -0.0777, -0.1002],
+        [ 0.0313, -0.0847, -0.0638,  ..., -0.0675, -0.0467, -0.0872]],
+       device='cuda:0'), grad: tensor([[ 4.3064e-06,  7.3295e-07,  3.7253e-09,  ...,  6.7055e-08,
+         -5.3365e-07,  5.0254e-06],
+        [ 4.1723e-07,  8.3148e-06,  4.6007e-06,  ...,  2.3127e-05,
+          3.9022e-07, -7.6964e-06],
+        [ 9.8627e-07,  4.1537e-07,  1.2945e-07,  ...,  6.7335e-07,
+         -1.1958e-06,  2.5574e-06],
+        ...,
+        [ 1.0617e-07, -1.1459e-05, -6.1020e-06,  ..., -3.1531e-05,
+          3.9488e-07,  2.6822e-07],
+        [-1.5333e-05, -2.6189e-06,  9.2201e-08,  ...,  1.5832e-07,
+         -3.6377e-06, -1.7270e-05],
+        [ 7.9349e-06,  3.5893e-06,  1.1418e-06,  ...,  7.1265e-06,
+          1.9874e-06,  1.0177e-05]], device='cuda:0')
+Epoch 167, bias, value: tensor([-0.0236, -0.0279, -0.0124, -0.0284, -0.0289,  0.0027,  0.0296, -0.0124,
+         0.0354,  0.0002], device='cuda:0'), grad: tensor([ 5.4359e-05, -2.3425e-05,  2.6256e-05,  1.7196e-05,  4.0978e-06,
+        -5.5820e-05,  1.0389e-04, -8.0049e-05, -1.6344e-04,  1.1677e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 166, time 255.56, cls_loss 0.0047 cls_loss_mapping 0.0044 cls_loss_causal 0.5702 re_mapping 0.0070 re_causal 0.0177 /// teacc 98.94 lr 0.00010000
+Epoch 168, weight, value: tensor([[-0.0877, -0.1234, -0.0635,  ..., -0.0526,  0.1465,  0.1435],
+        [-0.1622, -0.1501, -0.1135,  ..., -0.1200, -0.1661, -0.0833],
+        [-0.0846, -0.0907,  0.1096,  ..., -0.1492,  0.1585,  0.0430],
+        ...,
+        [-0.0910,  0.0594,  0.0441,  ...,  0.1462, -0.1354, -0.1464],
+        [-0.2056,  0.0559, -0.1143,  ...,  0.0424, -0.0785, -0.1007],
+        [ 0.0302, -0.0851, -0.0639,  ..., -0.0676, -0.0469, -0.0894]],
+       device='cuda:0'), grad: tensor([[-1.0513e-05,  1.6205e-07,  0.0000e+00,  ..., -3.2395e-05,
+         -1.7047e-04, -8.1122e-05],
+        [ 7.0222e-07,  6.7707e-07, -2.3749e-07,  ...,  6.2734e-06,
+          3.9767e-07,  1.9558e-07],
+        [ 1.1278e-06, -5.9567e-06,  6.5193e-08,  ..., -4.2394e-06,
+          2.0787e-06, -9.1456e-07],
+        ...,
+        [ 3.3621e-07,  3.0790e-06,  7.4506e-09,  ...,  3.9823e-06,
+          5.2825e-06,  3.7458e-06],
+        [ 1.0103e-05,  1.8347e-07,  2.2352e-08,  ..., -4.4852e-06,
+          1.1340e-05,  4.5411e-06],
+        [ 2.1812e-06,  4.0047e-07,  9.3132e-10,  ...,  2.4028e-07,
+          1.0602e-05,  4.1686e-06]], device='cuda:0')
+Epoch 168, bias, value: tensor([-2.3524e-02, -2.7244e-02, -1.3227e-02, -2.8207e-02, -2.9483e-02,
+         2.8143e-03,  3.0259e-02, -1.2617e-02,  3.5282e-02,  9.3513e-05],
+       device='cuda:0'), grad: tensor([-2.3413e-04,  1.7732e-05, -2.2426e-05,  1.7166e-05,  6.7502e-06,
+        -1.2064e-04,  2.9731e-04,  2.1189e-05,  1.7472e-06,  1.5303e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 167, time 255.64, cls_loss 0.0051 cls_loss_mapping 0.0053 cls_loss_causal 0.5374 re_mapping 0.0069 re_causal 0.0170 /// teacc 99.01 lr 0.00010000
+Epoch 169, weight, value: tensor([[-0.0875, -0.1238, -0.0636,  ..., -0.0515,  0.1478,  0.1450],
+        [-0.1638, -0.1498, -0.1114,  ..., -0.1199, -0.1671, -0.0839],
+        [-0.0836, -0.0903,  0.1099,  ..., -0.1492,  0.1596,  0.0437],
+        ...,
+        [-0.0916,  0.0593,  0.0430,  ...,  0.1465, -0.1372, -0.1481],
+        [-0.2061,  0.0559, -0.1144,  ...,  0.0423, -0.0791, -0.1012],
+        [ 0.0297, -0.0857, -0.0652,  ..., -0.0680, -0.0472, -0.0902]],
+       device='cuda:0'), grad: tensor([[ 1.4901e-08,  2.7344e-06,  9.3132e-10,  ...,  1.4435e-07,
+          6.1803e-06,  2.7437e-06],
+        [ 9.2201e-08,  4.5449e-07,  1.0245e-08,  ...,  9.9745e-07,
+          1.1642e-07,  1.9558e-08],
+        [ 1.9558e-08, -6.9924e-06,  3.7253e-09,  ...,  4.6659e-07,
+         -1.6779e-05, -7.6666e-06],
+        ...,
+        [ 1.8626e-08, -3.4198e-06, -8.2888e-08,  ..., -1.2457e-05,
+          5.4650e-06,  2.4363e-06],
+        [ 9.6019e-07,  2.1588e-06,  2.7940e-09,  ...,  3.5018e-07,
+          4.1537e-06,  1.6047e-06],
+        [ 1.2945e-07,  4.9695e-06,  6.2399e-08,  ...,  1.0058e-05,
+          1.5926e-07,  7.1712e-08]], device='cuda:0')
+Epoch 169, bias, value: tensor([-0.0226, -0.0258, -0.0125, -0.0281, -0.0294,  0.0041,  0.0272, -0.0136,
+         0.0351, -0.0005], device='cuda:0'), grad: tensor([ 1.6421e-05,  7.0687e-07, -4.2945e-05, -1.7509e-05,  1.2973e-06,
+         2.2471e-05, -7.1712e-06, -8.9556e-06,  1.6347e-05,  1.9342e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 168, time 255.63, cls_loss 0.0045 cls_loss_mapping 0.0044 cls_loss_causal 0.5680 re_mapping 0.0069 re_causal 0.0175 /// teacc 98.94 lr 0.00010000
+Epoch 170, weight, value: tensor([[-0.0875, -0.1242, -0.0640,  ..., -0.0515,  0.1481,  0.1454],
+        [-0.1640, -0.1501, -0.1118,  ..., -0.1201, -0.1675, -0.0835],
+        [-0.0838, -0.0909,  0.1098,  ..., -0.1499,  0.1597,  0.0428],
+        ...,
+        [-0.0918,  0.0595,  0.0429,  ...,  0.1479, -0.1385, -0.1488],
+        [-0.2064,  0.0561, -0.1128,  ...,  0.0426, -0.0790, -0.1012],
+        [ 0.0287, -0.0867, -0.0651,  ..., -0.0696, -0.0474, -0.0910]],
+       device='cuda:0'), grad: tensor([[ 4.4703e-08,  1.3970e-08,  0.0000e+00,  ...,  4.1910e-08,
+          1.3690e-07, -1.8813e-07],
+        [ 8.1956e-08,  8.8476e-08,  0.0000e+00,  ...,  1.2014e-07,
+          4.2468e-07,  1.5460e-07],
+        [ 8.3819e-09,  3.3993e-07,  0.0000e+00,  ...,  5.0012e-07,
+         -3.3304e-06, -1.5274e-06],
+        ...,
+        [ 1.8626e-09, -9.2946e-07,  0.0000e+00,  ..., -1.0803e-06,
+          7.5810e-07,  3.6694e-07],
+        [ 4.8429e-08,  1.3039e-08,  0.0000e+00,  ..., -2.1514e-07,
+          8.0001e-07,  4.8988e-07],
+        [ 7.4506e-09,  6.4261e-08,  0.0000e+00,  ...,  8.4750e-08,
+          7.6834e-07,  4.9360e-07]], device='cuda:0')
+Epoch 170, bias, value: tensor([-0.0225, -0.0256, -0.0130, -0.0280, -0.0303,  0.0044,  0.0269, -0.0126,
+         0.0356, -0.0014], device='cuda:0'), grad: tensor([ 8.7358e-07, -1.5618e-06, -3.2857e-06,  1.5786e-06, -3.0547e-07,
+         5.7090e-07, -6.6310e-07, -6.3889e-07,  1.6028e-06,  1.7798e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 169, time 255.32, cls_loss 0.0036 cls_loss_mapping 0.0036 cls_loss_causal 0.5091 re_mapping 0.0068 re_causal 0.0176 /// teacc 99.01 lr 0.00010000
+Epoch 171, weight, value: tensor([[-0.0877, -0.1244, -0.0640,  ..., -0.0534,  0.1483,  0.1456],
+        [-0.1659, -0.1507, -0.1121,  ..., -0.1208, -0.1682, -0.0848],
+        [-0.0816, -0.0912,  0.1098,  ..., -0.1508,  0.1605,  0.0439],
+        ...,
+        [-0.0920,  0.0599,  0.0433,  ...,  0.1485, -0.1382, -0.1495],
+        [-0.2068,  0.0561, -0.1129,  ...,  0.0425, -0.0793, -0.1016],
+        [ 0.0285, -0.0868, -0.0651,  ..., -0.0701, -0.0475, -0.0913]],
+       device='cuda:0'), grad: tensor([[ 4.0792e-07,  1.4901e-08,  0.0000e+00,  ...,  1.0151e-07,
+         -9.0338e-07, -5.5972e-07],
+        [ 4.9360e-08,  5.8673e-08,  0.0000e+00,  ...,  8.6613e-08,
+          3.5390e-08,  1.9558e-08],
+        [ 2.2352e-08,  3.5390e-08,  0.0000e+00,  ...,  1.0524e-07,
+          8.7544e-08,  5.8673e-08],
+        ...,
+        [ 1.3039e-07, -1.7229e-07,  0.0000e+00,  ..., -5.9605e-08,
+          8.3819e-09,  3.7253e-09],
+        [ 5.5600e-07, -2.1420e-08,  0.0000e+00,  ...,  5.5879e-08,
+          4.6007e-07,  2.6077e-07],
+        [ 3.0268e-07,  2.6077e-08,  0.0000e+00,  ..., -1.4650e-06,
+          1.0030e-06,  6.0536e-07]], device='cuda:0')
+Epoch 171, bias, value: tensor([-0.0225, -0.0267, -0.0115, -0.0280, -0.0299,  0.0045,  0.0267, -0.0122,
+         0.0354, -0.0016], device='cuda:0'), grad: tensor([ 2.4680e-07, -2.1982e-04,  1.2898e-04,  1.2383e-05,  3.9160e-05,
+        -1.9968e-06, -1.5032e-06,  8.0228e-05,  3.9339e-06, -4.1038e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 170, time 255.42, cls_loss 0.0040 cls_loss_mapping 0.0048 cls_loss_causal 0.5591 re_mapping 0.0067 re_causal 0.0173 /// teacc 98.95 lr 0.00010000
+Epoch 172, weight, value: tensor([[-0.0878, -0.1247, -0.0642,  ..., -0.0531,  0.1490,  0.1463],
+        [-0.1661, -0.1519, -0.1112,  ..., -0.1220, -0.1685, -0.0853],
+        [-0.0816, -0.0913,  0.1096,  ..., -0.1504,  0.1615,  0.0446],
+        ...,
+        [-0.0923,  0.0603,  0.0431,  ...,  0.1491, -0.1409, -0.1515],
+        [-0.2075,  0.0560, -0.1123,  ...,  0.0424, -0.0795, -0.1022],
+        [ 0.0276, -0.0873, -0.0666,  ..., -0.0702, -0.0482, -0.0922]],
+       device='cuda:0'), grad: tensor([[ 3.1386e-07,  6.5193e-09,  9.3132e-10,  ...,  8.1956e-08,
+         -1.8179e-06, -3.0492e-06],
+        [ 4.7497e-08,  7.3574e-08,  5.5879e-09,  ...,  9.8720e-08,
+          3.6322e-07,  1.6298e-07],
+        [ 2.4214e-08,  1.9558e-08,  0.0000e+00,  ...,  1.5553e-07,
+         -2.8461e-06,  1.6950e-07],
+        ...,
+        [ 7.4506e-09,  1.0245e-08,  1.4901e-08,  ...,  1.6158e-06,
+          2.0582e-07,  1.1455e-07],
+        [ 1.4342e-07,  1.5832e-08,  1.8626e-09,  ...,  6.2212e-07,
+          8.1770e-07,  5.4669e-07],
+        [ 1.3970e-08, -3.6694e-07, -6.4261e-08,  ..., -4.9882e-06,
+          4.2841e-07,  2.8033e-07]], device='cuda:0')
+Epoch 172, bias, value: tensor([-0.0218, -0.0270, -0.0115, -0.0278, -0.0305,  0.0042,  0.0269, -0.0119,
+         0.0352, -0.0019], device='cuda:0'), grad: tensor([ 6.2063e-06,  3.7365e-06,  3.2596e-06,  2.2888e-05,  1.1913e-05,
+         7.4394e-06, -1.4855e-06,  1.0937e-05, -3.6329e-05, -2.8595e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 171, time 255.39, cls_loss 0.0045 cls_loss_mapping 0.0057 cls_loss_causal 0.5226 re_mapping 0.0067 re_causal 0.0173 /// teacc 98.88 lr 0.00010000
+Epoch 173, weight, value: tensor([[-0.0880, -0.1250, -0.0643,  ..., -0.0532,  0.1496,  0.1471],
+        [-0.1666, -0.1521, -0.1112,  ..., -0.1225, -0.1692, -0.0857],
+        [-0.0819, -0.0918,  0.1096,  ..., -0.1511,  0.1615,  0.0444],
+        ...,
+        [-0.0926,  0.0604,  0.0431,  ...,  0.1495, -0.1413, -0.1519],
+        [-0.2083,  0.0560, -0.1115,  ...,  0.0424, -0.0801, -0.1031],
+        [ 0.0265, -0.0867, -0.0663,  ..., -0.0700, -0.0483, -0.0934]],
+       device='cuda:0'), grad: tensor([[ 3.6303e-06,  2.0489e-08,  0.0000e+00,  ...,  8.1025e-07,
+          2.4848e-06,  2.0843e-06],
+        [ 2.3283e-07,  9.9652e-08,  0.0000e+00,  ...,  5.1223e-08,
+          4.2748e-07,  1.0617e-07],
+        [ 2.6822e-07,  2.4866e-07, -0.0000e+00,  ..., -6.7428e-07,
+         -8.7544e-07, -8.0187e-07],
+        ...,
+        [ 4.0978e-08, -3.7253e-08,  0.0000e+00,  ...,  3.2783e-07,
+          6.2026e-07,  4.8615e-07],
+        [ 2.6338e-06,  1.2945e-07,  0.0000e+00,  ...,  7.4413e-07,
+          1.3206e-06,  1.4920e-06],
+        [ 1.9111e-06,  2.2631e-07,  0.0000e+00,  ...,  4.8708e-07,
+          1.3411e-07,  8.8476e-08]], device='cuda:0')
+Epoch 173, bias, value: tensor([-0.0215, -0.0271, -0.0120, -0.0264, -0.0313,  0.0030,  0.0275, -0.0120,
+         0.0349, -0.0013], device='cuda:0'), grad: tensor([ 8.4639e-06,  4.7944e-06, -6.0908e-07,  2.5228e-05, -9.9614e-06,
+        -1.3523e-05, -2.5526e-05,  1.7723e-06, -5.6718e-07,  9.9391e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 172, time 255.89, cls_loss 0.0044 cls_loss_mapping 0.0045 cls_loss_causal 0.5408 re_mapping 0.0069 re_causal 0.0171 /// teacc 99.02 lr 0.00010000
+Epoch 174, weight, value: tensor([[-0.0882, -0.1256, -0.0646,  ..., -0.0530,  0.1499,  0.1474],
+        [-0.1668, -0.1525, -0.1104,  ..., -0.1228, -0.1696, -0.0840],
+        [-0.0821, -0.0919,  0.1097,  ..., -0.1514,  0.1620,  0.0439],
+        ...,
+        [-0.0928,  0.0605,  0.0440,  ...,  0.1500, -0.1418, -0.1541],
+        [-0.2077,  0.0560, -0.1128,  ...,  0.0430, -0.0790, -0.1037],
+        [ 0.0262, -0.0868, -0.0682,  ..., -0.0704, -0.0484, -0.0941]],
+       device='cuda:0'), grad: tensor([[ 6.7987e-08,  2.9802e-08,  0.0000e+00,  ...,  4.6566e-09,
+         -8.9407e-08, -6.2399e-08],
+        [ 4.0047e-08,  3.5390e-08,  0.0000e+00,  ...,  1.3970e-08,
+          2.7940e-08,  1.8626e-09],
+        [ 1.2200e-07,  8.8476e-08, -4.6566e-09,  ...,  2.5146e-08,
+          8.3819e-08,  3.7253e-09],
+        ...,
+        [ 5.7742e-08, -2.7940e-09,  9.3132e-10,  ..., -6.6124e-08,
+          8.3819e-09,  3.7253e-09],
+        [ 6.5304e-06,  3.6974e-07,  4.6566e-09,  ...,  8.3819e-09,
+         -2.5891e-07,  9.3132e-10],
+        [-5.6997e-06, -3.3528e-08, -0.0000e+00,  ...,  2.7940e-09,
+          6.6124e-08,  3.6322e-08]], device='cuda:0')
+Epoch 174, bias, value: tensor([-0.0215, -0.0263, -0.0125, -0.0269, -0.0314,  0.0031,  0.0275, -0.0119,
+         0.0357, -0.0018], device='cuda:0'), grad: tensor([ 5.6811e-08, -1.0338e-07,  5.0105e-07, -5.4166e-06,  1.6456e-06,
+         4.0829e-06,  5.0105e-07,  7.6741e-07,  3.1739e-05, -3.3736e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 173, time 255.60, cls_loss 0.0046 cls_loss_mapping 0.0043 cls_loss_causal 0.5481 re_mapping 0.0067 re_causal 0.0173 /// teacc 98.96 lr 0.00010000
+Epoch 175, weight, value: tensor([[-0.0884, -0.1261, -0.0646,  ..., -0.0531,  0.1503,  0.1478],
+        [-0.1670, -0.1529, -0.1105,  ..., -0.1240, -0.1699, -0.0841],
+        [-0.0824, -0.0921,  0.1100,  ..., -0.1514,  0.1629,  0.0446],
+        ...,
+        [-0.0930,  0.0597,  0.0442,  ...,  0.1503, -0.1429, -0.1561],
+        [-0.2066,  0.0559, -0.1130,  ...,  0.0436, -0.0777, -0.1043],
+        [ 0.0262, -0.0868, -0.0683,  ..., -0.0703, -0.0485, -0.0948]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.7416e-07,  1.8626e-09,  ...,  2.1700e-07,
+         -3.6418e-05, -2.0429e-05],
+        [ 6.5193e-09,  9.3598e-07,  1.8626e-09,  ...,  1.2787e-06,
+          3.5390e-07,  2.3935e-07],
+        [ 9.3132e-10,  2.2903e-05, -1.1455e-07,  ...,  3.0905e-05,
+         -6.2771e-07, -1.0999e-06],
+        ...,
+        [ 5.5879e-09, -3.0175e-05,  9.3132e-09,  ..., -4.0919e-05,
+          4.1910e-07,  6.4727e-07],
+        [ 1.0245e-08,  2.5798e-06,  8.6613e-08,  ...,  3.1982e-06,
+          2.7940e-07,  1.9651e-07],
+        [ 3.7253e-09,  2.1532e-06,  0.0000e+00,  ...,  3.1870e-06,
+          9.4809e-07,  4.5262e-07]], device='cuda:0')
+Epoch 175, bias, value: tensor([-0.0212, -0.0265, -0.0125, -0.0264, -0.0314,  0.0029,  0.0267, -0.0123,
+         0.0366, -0.0016], device='cuda:0'), grad: tensor([-5.9098e-05, -1.2025e-05,  6.0588e-05,  3.7402e-06,  1.1977e-06,
+         4.0866e-06,  5.7340e-05, -7.1824e-05,  6.5491e-06,  9.3728e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 174, time 255.61, cls_loss 0.0062 cls_loss_mapping 0.0039 cls_loss_causal 0.5438 re_mapping 0.0069 re_causal 0.0169 /// teacc 98.95 lr 0.00010000
+Epoch 176, weight, value: tensor([[-0.0892, -0.1270, -0.0638,  ..., -0.0536,  0.1508,  0.1484],
+        [-0.1673, -0.1533, -0.1091,  ..., -0.1241, -0.1717, -0.0849],
+        [-0.0826, -0.0932,  0.1103,  ..., -0.1533,  0.1637,  0.0446],
+        ...,
+        [-0.0938,  0.0568,  0.0434,  ...,  0.1497, -0.1436, -0.1565],
+        [-0.2078,  0.0567, -0.1132,  ...,  0.0441, -0.0780, -0.1048],
+        [ 0.0255, -0.0844, -0.0689,  ..., -0.0690, -0.0487, -0.0956]],
+       device='cuda:0'), grad: tensor([[ 4.7404e-07,  1.7695e-08,  9.3132e-10,  ...,  7.4320e-07,
+         -2.3019e-04, -1.1796e-04],
+        [ 8.7544e-07,  1.4175e-06,  9.3132e-10,  ...,  2.3153e-06,
+          1.9725e-06,  1.0133e-06],
+        [ 8.5682e-07,  2.3562e-07,  9.3132e-10,  ...,  1.4966e-06,
+          4.6473e-07,  2.9150e-07],
+        ...,
+        [ 2.7567e-07, -7.8604e-06,  1.8626e-09,  ..., -5.6438e-06,
+          4.6939e-07,  2.3749e-07],
+        [ 5.6297e-05,  1.3718e-06,  9.3132e-10,  ...,  8.3029e-05,
+          1.1753e-06,  8.0001e-07],
+        [ 1.2945e-07,  8.0094e-08,  1.3039e-08,  ...,  5.4389e-07,
+          2.9784e-06,  1.6205e-06]], device='cuda:0')
+Epoch 176, bias, value: tensor([-0.0211, -0.0265, -0.0130, -0.0257, -0.0318,  0.0038,  0.0261, -0.0149,
+         0.0370,  0.0001], device='cuda:0'), grad: tensor([-3.0088e-04, -5.4762e-06,  3.9861e-06,  1.2815e-05,  4.5225e-06,
+        -4.0126e-04,  5.1498e-04, -1.3299e-05,  1.8358e-04,  1.6047e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 175, time 255.66, cls_loss 0.0048 cls_loss_mapping 0.0036 cls_loss_causal 0.5312 re_mapping 0.0067 re_causal 0.0167 /// teacc 98.94 lr 0.00010000
+Epoch 177, weight, value: tensor([[-0.0902, -0.1277, -0.0638,  ..., -0.0543,  0.1505,  0.1487],
+        [-0.1677, -0.1535, -0.1087,  ..., -0.1242, -0.1723, -0.0853],
+        [-0.0827, -0.0934,  0.1109,  ..., -0.1534,  0.1649,  0.0455],
+        ...,
+        [-0.0941,  0.0588,  0.0428,  ...,  0.1518, -0.1443, -0.1573],
+        [-0.2084,  0.0567, -0.1133,  ...,  0.0442, -0.0782, -0.1050],
+        [ 0.0249, -0.0881, -0.0701,  ..., -0.0723, -0.0480, -0.0964]],
+       device='cuda:0'), grad: tensor([[ 9.4064e-08,  4.0978e-08,  0.0000e+00,  ...,  1.6764e-08,
+         -8.1509e-06, -3.1441e-06],
+        [ 4.2841e-08,  6.4261e-08,  9.3132e-10,  ...,  2.9802e-08,
+          1.8254e-07,  3.9116e-08],
+        [ 1.0245e-07,  2.0489e-08,  0.0000e+00,  ...,  1.3039e-08,
+         -3.1851e-07, -2.0675e-07],
+        ...,
+        [ 2.6077e-08, -2.9989e-07,  2.7940e-09,  ..., -3.1106e-07,
+          2.3935e-07,  1.4529e-07],
+        [ 3.3621e-07,  2.7195e-07,  9.3132e-10,  ...,  6.7987e-08,
+          9.7789e-08,  5.6811e-08],
+        [ 9.4064e-08,  6.7987e-08, -0.0000e+00,  ...,  6.8918e-08,
+          7.3910e-06,  2.8070e-06]], device='cuda:0')
+Epoch 177, bias, value: tensor([-0.0218, -0.0262, -0.0127, -0.0262, -0.0317,  0.0041,  0.0262, -0.0132,
+         0.0372, -0.0016], device='cuda:0'), grad: tensor([-1.5132e-05,  8.2143e-07, -3.2671e-06,  7.8417e-07, -1.0189e-06,
+        -1.1167e-06,  1.7295e-06,  4.6194e-07,  1.0598e-06,  1.5676e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 176, time 256.12, cls_loss 0.0052 cls_loss_mapping 0.0054 cls_loss_causal 0.5361 re_mapping 0.0068 re_causal 0.0167 /// teacc 99.00 lr 0.00010000
+Epoch 178, weight, value: tensor([[-0.0909, -0.1283, -0.0642,  ..., -0.0541,  0.1508,  0.1489],
+        [-0.1680, -0.1537, -0.1088,  ..., -0.1240, -0.1744, -0.0859],
+        [-0.0829, -0.0933,  0.1124,  ..., -0.1518,  0.1684,  0.0475],
+        ...,
+        [-0.0944,  0.0590,  0.0445,  ...,  0.1520, -0.1485, -0.1613],
+        [-0.2066,  0.0566, -0.1138,  ...,  0.0455, -0.0763, -0.1063],
+        [ 0.0248, -0.0885, -0.0729,  ..., -0.0739, -0.0485, -0.0979]],
+       device='cuda:0'), grad: tensor([[ 7.2643e-08,  1.6764e-08,  0.0000e+00,  ...,  2.6077e-08,
+         -9.3132e-08, -4.9360e-08],
+        [ 2.6636e-07,  2.0768e-07,  1.8626e-09,  ...,  6.3330e-08,
+          1.5832e-08,  1.3039e-08],
+        [ 1.0990e-07,  8.0094e-08, -1.8626e-09,  ...,  2.4214e-08,
+         -1.0505e-06, -8.5402e-07],
+        ...,
+        [ 9.8161e-07,  1.1539e-06, -2.7940e-09,  ..., -2.5146e-08,
+          1.0030e-06,  8.0653e-07],
+        [ 2.9951e-06,  2.4214e-07,  0.0000e+00,  ...,  1.3681e-06,
+          4.2841e-08,  2.5146e-08],
+        [ 1.6298e-07,  1.5646e-07,  9.3132e-10,  ...,  4.8429e-08,
+          5.3085e-08,  2.7940e-08]], device='cuda:0')
+Epoch 178, bias, value: tensor([-0.0219, -0.0260, -0.0121, -0.0276, -0.0304,  0.0044,  0.0264, -0.0132,
+         0.0387, -0.0026], device='cuda:0'), grad: tensor([ 1.2573e-07,  8.4285e-07, -1.9781e-06, -4.1053e-06, -8.4788e-06,
+        -2.2754e-05,  1.8626e-05,  6.0573e-06,  5.9009e-06,  5.7817e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 177, time 255.46, cls_loss 0.0047 cls_loss_mapping 0.0042 cls_loss_causal 0.5499 re_mapping 0.0068 re_causal 0.0168 /// teacc 99.02 lr 0.00010000
+Epoch 179, weight, value: tensor([[-0.0911, -0.1290, -0.0641,  ..., -0.0543,  0.1514,  0.1495],
+        [-0.1688, -0.1560, -0.1087,  ..., -0.1256, -0.1756, -0.0869],
+        [-0.0822, -0.0944,  0.1112,  ..., -0.1524,  0.1699,  0.0489],
+        ...,
+        [-0.0946,  0.0592,  0.0462,  ...,  0.1525, -0.1497, -0.1625],
+        [-0.2068,  0.0565, -0.1143,  ...,  0.0456, -0.0766, -0.1071],
+        [ 0.0250, -0.0879, -0.0737,  ..., -0.0735, -0.0489, -0.0990]],
+       device='cuda:0'), grad: tensor([[ 1.6019e-07,  1.2387e-07,  8.3819e-09,  ...,  1.2480e-07,
+          2.3190e-07,  9.5926e-08],
+        [ 1.3877e-07,  1.2657e-06,  1.8626e-09,  ...,  1.8775e-06,
+         -2.7940e-08,  1.0245e-08],
+        [ 1.5646e-07,  3.2131e-07, -2.9709e-07,  ...,  3.6508e-07,
+         -2.2538e-07, -2.4214e-07],
+        ...,
+        [ 1.6764e-08, -3.5577e-06,  1.1176e-08,  ..., -4.7833e-06,
+          1.0617e-07,  8.7544e-08],
+        [ 1.7602e-07,  3.1199e-07,  2.6822e-07,  ...,  4.4890e-07,
+          4.1630e-07,  2.5053e-07],
+        [ 9.3132e-09,  1.2442e-06, -0.0000e+00,  ...,  1.2415e-06,
+          4.2841e-08,  1.8626e-08]], device='cuda:0')
+Epoch 179, bias, value: tensor([-0.0215, -0.0280, -0.0111, -0.0275, -0.0305,  0.0043,  0.0261, -0.0134,
+         0.0388, -0.0017], device='cuda:0'), grad: tensor([ 9.4809e-07,  2.0694e-06, -5.7742e-07,  2.9709e-07,  9.6671e-07,
+         6.1654e-07, -1.7369e-06, -8.1211e-06,  3.0287e-06,  2.4959e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 178, time 256.06, cls_loss 0.0040 cls_loss_mapping 0.0037 cls_loss_causal 0.5314 re_mapping 0.0067 re_causal 0.0169 /// teacc 98.94 lr 0.00010000
+Epoch 180, weight, value: tensor([[-0.0914, -0.1296, -0.0642,  ..., -0.0546,  0.1516,  0.1497],
+        [-0.1688, -0.1562, -0.1086,  ..., -0.1256, -0.1759, -0.0870],
+        [-0.0823, -0.0954,  0.1111,  ..., -0.1534,  0.1704,  0.0492],
+        ...,
+        [-0.0947,  0.0596,  0.0463,  ...,  0.1528, -0.1506, -0.1631],
+        [-0.2070,  0.0564, -0.1128,  ...,  0.0456, -0.0763, -0.1073],
+        [ 0.0251, -0.0880, -0.0736,  ..., -0.0736, -0.0491, -0.0996]],
+       device='cuda:0'), grad: tensor([[ 5.1223e-08,  3.8184e-08,  9.3132e-10,  ...,  2.4214e-08,
+         -5.6624e-07, -1.4696e-06],
+        [ 1.6764e-08,  1.7397e-06,  1.1176e-08,  ...,  1.1390e-06,
+          9.1046e-06,  1.9781e-06],
+        [ 2.4214e-08,  4.3306e-07,  1.8626e-09,  ...,  2.5798e-07,
+         -1.5467e-05,  6.6776e-07],
+        ...,
+        [ 1.1455e-07, -3.5558e-06, -3.3528e-08,  ..., -2.4457e-06,
+          4.9360e-07,  1.7695e-08],
+        [ 6.2399e-08,  9.0338e-08,  0.0000e+00,  ...,  1.9558e-08,
+          4.3213e-07,  1.6205e-07],
+        [-4.7963e-07,  7.9535e-07,  1.4901e-08,  ...,  6.3144e-07,
+          3.0175e-06,  1.2387e-06]], device='cuda:0')
+Epoch 180, bias, value: tensor([-0.0215, -0.0275, -0.0116, -0.0273, -0.0307,  0.0041,  0.0260, -0.0135,
+         0.0389, -0.0016], device='cuda:0'), grad: tensor([ 3.2671e-06,  2.6420e-05, -2.9445e-05,  3.6836e-05,  9.6951e-07,
+         9.3654e-06, -2.4214e-05, -9.7826e-06,  1.1027e-06, -1.4655e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 179, time 255.98, cls_loss 0.0038 cls_loss_mapping 0.0049 cls_loss_causal 0.5086 re_mapping 0.0067 re_causal 0.0169 /// teacc 98.99 lr 0.00010000
+Epoch 181, weight, value: tensor([[-0.0925, -0.1304, -0.0643,  ..., -0.0568,  0.1515,  0.1495],
+        [-0.1691, -0.1566, -0.1087,  ..., -0.1265, -0.1761, -0.0871],
+        [-0.0824, -0.0958,  0.1111,  ..., -0.1538,  0.1707,  0.0492],
+        ...,
+        [-0.0952,  0.0598,  0.0463,  ...,  0.1532, -0.1508, -0.1633],
+        [-0.2082,  0.0566, -0.1126,  ...,  0.0456, -0.0762, -0.1081],
+        [ 0.0251, -0.0881, -0.0735,  ..., -0.0739, -0.0492, -0.1000]],
+       device='cuda:0'), grad: tensor([[ 1.9558e-06,  8.3819e-08,  0.0000e+00,  ...,  7.5903e-07,
+          8.8476e-07,  1.0207e-06],
+        [ 1.2480e-07,  9.7454e-06,  0.0000e+00,  ...,  1.2122e-05,
+          2.2352e-08,  2.0489e-08],
+        [ 1.2200e-07,  1.0967e-05,  0.0000e+00,  ...,  1.3471e-05,
+          2.7940e-09,  1.8626e-09],
+        ...,
+        [ 8.5682e-08, -2.3380e-05,  0.0000e+00,  ..., -3.0458e-05,
+          1.8626e-09,  1.8626e-09],
+        [ 3.2634e-06, -6.5099e-07,  0.0000e+00,  ...,  2.0731e-06,
+          1.3569e-06,  1.9409e-06],
+        [ 1.6779e-05,  1.4016e-06,  0.0000e+00,  ...,  7.7263e-06,
+          2.3283e-08,  2.9802e-08]], device='cuda:0')
+Epoch 181, bias, value: tensor([-0.0219, -0.0279, -0.0120, -0.0271, -0.0297,  0.0052,  0.0245, -0.0133,
+         0.0389, -0.0019], device='cuda:0'), grad: tensor([ 5.0142e-06,  4.4912e-05,  5.0187e-05,  1.2830e-05, -4.8243e-06,
+         1.7062e-05, -5.8055e-05, -1.0926e-04,  4.9062e-06,  3.7253e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 180, time 255.99, cls_loss 0.0045 cls_loss_mapping 0.0040 cls_loss_causal 0.5369 re_mapping 0.0066 re_causal 0.0166 /// teacc 98.98 lr 0.00010000
+Epoch 182, weight, value: tensor([[-0.0938, -0.1317, -0.0645,  ..., -0.0573,  0.1515,  0.1496],
+        [-0.1693, -0.1569, -0.1088,  ..., -0.1267, -0.1789, -0.0896],
+        [-0.0826, -0.0963,  0.1114,  ..., -0.1540,  0.1729,  0.0511],
+        ...,
+        [-0.0954,  0.0599,  0.0462,  ...,  0.1534, -0.1516, -0.1641],
+        [-0.2089,  0.0564, -0.1127,  ...,  0.0454, -0.0750, -0.1072],
+        [ 0.0247, -0.0882, -0.0735,  ..., -0.0740, -0.0497, -0.1027]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-08,  2.4308e-07,  0.0000e+00,  ...,  1.3132e-07,
+         -2.6636e-07, -1.8254e-07],
+        [ 1.6205e-07,  1.6689e-06,  0.0000e+00,  ...,  3.8464e-07,
+          1.0245e-08,  5.5879e-09],
+        [ 1.1362e-07,  4.1902e-05,  0.0000e+00,  ...,  1.7107e-05,
+          3.8650e-07,  1.6671e-07],
+        ...,
+        [ 3.4459e-08, -9.4652e-05,  0.0000e+00,  ..., -3.7432e-05,
+          1.0245e-08,  2.7940e-09],
+        [ 8.2143e-07,  2.0117e-07,  0.0000e+00,  ..., -2.1886e-07,
+         -6.5938e-07, -2.5705e-07],
+        [ 2.7809e-06,  5.2527e-07,  0.0000e+00,  ...,  4.1164e-07,
+          1.1642e-07,  7.6368e-08]], device='cuda:0')
+Epoch 182, bias, value: tensor([-0.0223, -0.0289, -0.0106, -0.0270, -0.0295,  0.0054,  0.0245, -0.0135,
+         0.0390, -0.0020], device='cuda:0'), grad: tensor([ 3.6880e-07, -6.5684e-05,  9.0659e-05,  2.3186e-04,  1.8338e-06,
+        -1.6010e-04,  1.5628e-06, -1.4436e-04,  3.7402e-05,  6.7167e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 181, time 255.48, cls_loss 0.0033 cls_loss_mapping 0.0034 cls_loss_causal 0.5572 re_mapping 0.0067 re_causal 0.0176 /// teacc 99.01 lr 0.00010000
+Epoch 183, weight, value: tensor([[-0.0943, -0.1322, -0.0647,  ..., -0.0576,  0.1517,  0.1498],
+        [-0.1693, -0.1559, -0.1089,  ..., -0.1262, -0.1785, -0.0897],
+        [-0.0827, -0.0967,  0.1115,  ..., -0.1544,  0.1730,  0.0513],
+        ...,
+        [-0.0955,  0.0600,  0.0476,  ...,  0.1536, -0.1538, -0.1647],
+        [-0.2092,  0.0564, -0.1129,  ...,  0.0454, -0.0747, -0.1075],
+        [ 0.0246, -0.0887, -0.0757,  ..., -0.0745, -0.0501, -0.1040]],
+       device='cuda:0'), grad: tensor([[ 4.5933e-06,  1.0477e-07,  2.3283e-09,  ...,  9.1270e-08,
+          4.6892e-07, -4.0047e-07],
+        [ 1.7136e-07,  1.5413e-07,  2.7940e-09,  ...,  2.0768e-07,
+          7.1749e-06,  2.4214e-06],
+        [ 1.2293e-07,  1.9465e-07,  2.8871e-08,  ...,  3.4459e-08,
+          1.8077e-06,  8.9174e-07],
+        ...,
+        [ 2.0023e-08, -6.6981e-06,  3.7253e-09,  ..., -9.6932e-06,
+          2.0443e-07,  1.3830e-07],
+        [ 8.3214e-07,  6.4587e-07,  0.0000e+00,  ..., -1.3970e-09,
+          1.8058e-06,  1.6857e-06],
+        [ 1.1493e-06,  4.9137e-06,  3.2596e-09,  ...,  7.1637e-06,
+          1.7174e-06,  1.3979e-06]], device='cuda:0')
+Epoch 183, bias, value: tensor([-0.0223, -0.0278, -0.0109, -0.0268, -0.0295,  0.0050,  0.0251, -0.0139,
+         0.0391, -0.0023], device='cuda:0'), grad: tensor([ 9.2313e-06,  1.3158e-05,  5.4613e-06, -4.5784e-06,  5.9679e-06,
+         7.9721e-06, -4.6432e-05, -1.8597e-05,  6.0350e-06,  2.1696e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 182, time 255.90, cls_loss 0.0044 cls_loss_mapping 0.0045 cls_loss_causal 0.5392 re_mapping 0.0066 re_causal 0.0167 /// teacc 98.98 lr 0.00010000
+Epoch 184, weight, value: tensor([[-0.0945, -0.1331, -0.0653,  ..., -0.0577,  0.1524,  0.1506],
+        [-0.1699, -0.1561, -0.1090,  ..., -0.1264, -0.1786, -0.0898],
+        [-0.0829, -0.0978,  0.1117,  ..., -0.1555,  0.1733,  0.0516],
+        ...,
+        [-0.0957,  0.0601,  0.0477,  ...,  0.1542, -0.1541, -0.1651],
+        [-0.2109,  0.0562, -0.1136,  ...,  0.0442, -0.0753, -0.1096],
+        [ 0.0238, -0.0891, -0.0758,  ..., -0.0748, -0.0506, -0.1060]],
+       device='cuda:0'), grad: tensor([[ 2.2398e-07,  2.3469e-07,  0.0000e+00,  ...,  0.0000e+00,
+         -2.8312e-07, -2.4308e-07],
+        [ 1.2619e-07,  1.2014e-07,  0.0000e+00,  ...,  1.8626e-09,
+          2.3283e-08,  1.6298e-08],
+        [ 1.5926e-07,  1.5153e-06,  0.0000e+00,  ...,  9.3132e-10,
+          6.4261e-08,  2.3749e-08],
+        ...,
+        [ 1.0105e-07,  7.9628e-08,  0.0000e+00,  ..., -1.3504e-08,
+          1.3039e-08,  6.0536e-09],
+        [ 1.9185e-07, -1.4585e-06,  0.0000e+00,  ...,  1.0245e-08,
+          7.0315e-08,  3.9116e-08],
+        [ 4.3539e-07,  3.8231e-07,  0.0000e+00,  ...,  9.7789e-09,
+          1.6205e-07,  9.4064e-08]], device='cuda:0')
+Epoch 184, bias, value: tensor([-0.0218, -0.0276, -0.0112, -0.0269, -0.0297,  0.0055,  0.0257, -0.0141,
+         0.0372, -0.0021], device='cuda:0'), grad: tensor([ 3.1758e-07,  2.6962e-07,  7.2494e-06, -7.4148e-05,  3.9581e-08,
+         7.2122e-05,  1.2666e-07,  2.6124e-07, -7.3761e-06,  1.2089e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 183, time 256.02, cls_loss 0.0047 cls_loss_mapping 0.0052 cls_loss_causal 0.5267 re_mapping 0.0065 re_causal 0.0155 /// teacc 99.00 lr 0.00010000
+Epoch 185, weight, value: tensor([[-0.0948, -0.1335, -0.0655,  ..., -0.0581,  0.1536,  0.1523],
+        [-0.1724, -0.1564, -0.1093,  ..., -0.1271, -0.1789, -0.0901],
+        [-0.0806, -0.0986,  0.1123,  ..., -0.1565,  0.1737,  0.0519],
+        ...,
+        [-0.0964,  0.0604,  0.0479,  ...,  0.1548, -0.1545, -0.1659],
+        [-0.2117,  0.0561, -0.1137,  ...,  0.0441, -0.0757, -0.1107],
+        [ 0.0233, -0.0892, -0.0760,  ..., -0.0751, -0.0508, -0.1067]],
+       device='cuda:0'), grad: tensor([[ 4.2748e-07,  8.8476e-09,  0.0000e+00,  ...,  2.3004e-07,
+         -2.3600e-06, -1.2983e-06],
+        [ 1.1129e-07,  2.0955e-08,  0.0000e+00,  ...,  4.7032e-08,
+          1.1828e-07,  8.7079e-08],
+        [ 7.4040e-08,  1.3039e-08,  0.0000e+00,  ...,  2.6077e-08,
+          1.2480e-07,  7.4971e-08],
+        ...,
+        [ 1.0524e-07,  2.1420e-08,  4.6566e-10,  ...,  8.3353e-08,
+          2.3283e-08,  1.5367e-08],
+        [ 2.4848e-06,  8.4983e-07,  0.0000e+00,  ...,  1.6466e-06,
+          7.7300e-08,  4.7963e-08],
+        [ 5.4576e-07, -8.4611e-07,  4.6566e-10,  ...,  8.6147e-08,
+          1.6633e-06,  8.9500e-07]], device='cuda:0')
+Epoch 185, bias, value: tensor([-0.0210, -0.0293, -0.0100, -0.0267, -0.0298,  0.0055,  0.0253, -0.0139,
+         0.0368, -0.0016], device='cuda:0'), grad: tensor([-1.7751e-06,  8.7824e-07,  1.0179e-06,  1.7911e-05, -5.2229e-06,
+        -3.0398e-05,  4.5411e-06,  7.9349e-06,  2.0415e-05, -1.5303e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 184, time 255.91, cls_loss 0.0041 cls_loss_mapping 0.0042 cls_loss_causal 0.5307 re_mapping 0.0066 re_causal 0.0165 /// teacc 99.00 lr 0.00010000
+Epoch 186, weight, value: tensor([[-0.0979, -0.1343, -0.0657,  ..., -0.0608,  0.1528,  0.1506],
+        [-0.1726, -0.1565, -0.1093,  ..., -0.1279, -0.1790, -0.0902],
+        [-0.0812, -0.0986,  0.1127,  ..., -0.1569,  0.1737,  0.0520],
+        ...,
+        [-0.0965,  0.0605,  0.0479,  ...,  0.1553, -0.1554, -0.1678],
+        [-0.2124,  0.0561, -0.1145,  ...,  0.0437, -0.0759, -0.1114],
+        [ 0.0245, -0.0892, -0.0759,  ..., -0.0752, -0.0509, -0.1073]],
+       device='cuda:0'), grad: tensor([[ 3.8603e-07,  6.9849e-08,  4.6566e-10,  ...,  4.1118e-07,
+          4.1071e-07,  3.7253e-07],
+        [ 8.9407e-08,  6.8266e-07,  1.3970e-09,  ...,  7.6601e-07,
+          6.6590e-08,  5.2154e-08],
+        [ 3.0780e-07,  7.2755e-06,  9.3132e-10,  ...,  1.5810e-05,
+         -2.0303e-06,  4.0606e-07],
+        ...,
+        [ 2.8778e-07, -1.5050e-05, -7.3574e-08,  ..., -3.0398e-05,
+          5.0291e-08,  3.1199e-08],
+        [ 3.3248e-06,  2.9262e-06,  1.3970e-09,  ..., -8.3968e-06,
+          4.2617e-06,  2.1234e-06],
+        [ 2.2352e-07,  9.2685e-06,  1.5926e-07,  ...,  1.7866e-05,
+          6.3330e-08,  5.1688e-08]], device='cuda:0')
+Epoch 186, bias, value: tensor([-0.0224, -0.0293, -0.0103, -0.0270, -0.0299,  0.0056,  0.0268, -0.0139,
+         0.0362, -0.0011], device='cuda:0'), grad: tensor([ 3.1013e-06,  2.3916e-06,  2.6837e-05, -4.7609e-06, -6.4895e-06,
+         3.8058e-05, -4.0889e-05, -7.1883e-05, -3.0100e-06,  5.6475e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 185, time 255.66, cls_loss 0.0036 cls_loss_mapping 0.0039 cls_loss_causal 0.5679 re_mapping 0.0062 re_causal 0.0165 /// teacc 99.02 lr 0.00010000
+Epoch 187, weight, value: tensor([[-0.0980, -0.1349, -0.0655,  ..., -0.0607,  0.1531,  0.1509],
+        [-0.1729, -0.1568, -0.1075,  ..., -0.1282, -0.1793, -0.0905],
+        [-0.0814, -0.0993,  0.1120,  ..., -0.1574,  0.1747,  0.0535],
+        ...,
+        [-0.0967,  0.0610,  0.0490,  ...,  0.1561, -0.1560, -0.1688],
+        [-0.2128,  0.0558, -0.1151,  ...,  0.0435, -0.0769, -0.1130],
+        [ 0.0248, -0.0894, -0.0789,  ..., -0.0759, -0.0511, -0.1079]],
+       device='cuda:0'), grad: tensor([[ 4.4517e-07,  2.4959e-07,  5.5879e-09,  ...,  2.4401e-07,
+          2.5705e-06,  9.7882e-07],
+        [ 7.1246e-08,  1.8813e-07,  8.8476e-09,  ...,  1.3085e-07,
+         -2.1793e-06,  3.2131e-08],
+        [ 1.0245e-07,  2.6217e-07,  4.6566e-10,  ...,  7.0781e-08,
+         -4.5635e-06, -2.6617e-06],
+        ...,
+        [ 7.3574e-08, -1.7975e-06,  2.1467e-07,  ..., -1.8990e-06,
+          9.1689e-07,  5.3784e-07],
+        [ 5.0431e-07,  7.2876e-07,  4.0047e-08,  ...,  7.8836e-07,
+          2.0079e-06,  8.4890e-07],
+        [ 3.9535e-07,  4.9453e-07, -1.9651e-07,  ...,  1.1055e-06,
+          5.7044e-07,  3.0361e-07]], device='cuda:0')
+Epoch 187, bias, value: tensor([-0.0223, -0.0292, -0.0097, -0.0270, -0.0298,  0.0055,  0.0270, -0.0136,
+         0.0351, -0.0015], device='cuda:0'), grad: tensor([ 1.2361e-05, -3.6865e-05, -4.6194e-06, -2.7753e-07,  5.6345e-08,
+         4.5151e-06,  6.7055e-06,  4.5029e-07,  1.2249e-05,  5.3719e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 186, time 255.65, cls_loss 0.0039 cls_loss_mapping 0.0043 cls_loss_causal 0.5232 re_mapping 0.0064 re_causal 0.0162 /// teacc 99.00 lr 0.00010000
+Epoch 188, weight, value: tensor([[-0.0981, -0.1355, -0.0657,  ..., -0.0607,  0.1535,  0.1512],
+        [-0.1734, -0.1569, -0.1082,  ..., -0.1287, -0.1797, -0.0909],
+        [-0.0815, -0.1015,  0.1112,  ..., -0.1594,  0.1753,  0.0541],
+        ...,
+        [-0.0969,  0.0615,  0.0512,  ...,  0.1574, -0.1571, -0.1700],
+        [-0.2131,  0.0557, -0.1152,  ...,  0.0435, -0.0770, -0.1131],
+        [ 0.0250, -0.0899, -0.0803,  ..., -0.0767, -0.0514, -0.1087]],
+       device='cuda:0'), grad: tensor([[ 1.3830e-07,  1.0245e-08,  7.9628e-08,  ...,  5.2154e-08,
+          6.3190e-07,  5.6811e-08],
+        [ 9.9652e-08,  1.3364e-07,  1.8626e-09,  ...,  2.2398e-07,
+          2.0023e-08,  3.7253e-09],
+        [ 3.5856e-08,  2.6543e-08,  2.3283e-08,  ...,  1.7695e-08,
+         -1.1986e-06, -9.3132e-09],
+        ...,
+        [ 2.7474e-08, -7.2364e-07,  7.9162e-09,  ..., -1.8785e-06,
+          6.4261e-08,  3.2596e-09],
+        [ 1.1912e-06,  1.4901e-08,  0.0000e+00,  ...,  5.6345e-07,
+          1.3728e-06,  1.1409e-07],
+        [ 1.3551e-07,  2.1979e-07,  9.7789e-09,  ...,  3.3714e-07,
+          1.0803e-07,  6.9849e-09]], device='cuda:0')
+Epoch 188, bias, value: tensor([-0.0222, -0.0291, -0.0103, -0.0283, -0.0294,  0.0068,  0.0265, -0.0131,
+         0.0350, -0.0019], device='cuda:0'), grad: tensor([ 1.4473e-06, -2.9653e-05, -1.2502e-05,  9.9558e-07, -1.8161e-07,
+        -3.9712e-06,  1.1828e-06,  1.5467e-05,  2.5943e-05,  1.3281e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 187, time 255.55, cls_loss 0.0045 cls_loss_mapping 0.0051 cls_loss_causal 0.5122 re_mapping 0.0061 re_causal 0.0153 /// teacc 98.95 lr 0.00010000
+Epoch 189, weight, value: tensor([[-0.0981, -0.1362, -0.0659,  ..., -0.0608,  0.1543,  0.1521],
+        [-0.1749, -0.1574, -0.1082,  ..., -0.1276, -0.1799, -0.0918],
+        [-0.0803, -0.1034,  0.1112,  ..., -0.1616,  0.1756,  0.0555],
+        ...,
+        [-0.0973,  0.0623,  0.0512,  ...,  0.1575, -0.1574, -0.1707],
+        [-0.2134,  0.0557, -0.1153,  ...,  0.0437, -0.0773, -0.1137],
+        [ 0.0240, -0.0903, -0.0803,  ..., -0.0771, -0.0515, -0.1092]],
+       device='cuda:0'), grad: tensor([[ 4.4797e-07,  1.7714e-06,  0.0000e+00,  ...,  1.4435e-08,
+         -8.4843e-07, -6.9663e-07],
+        [ 3.3714e-07,  6.8359e-07,  0.0000e+00,  ...,  5.4017e-08,
+          2.7940e-08,  1.7229e-08],
+        [ 2.9569e-07,  7.9069e-07,  0.0000e+00,  ...,  2.1933e-07,
+          4.1444e-08,  4.3772e-08],
+        ...,
+        [ 8.2422e-07,  9.9465e-07,  0.0000e+00,  ..., -4.6426e-07,
+          2.2817e-08,  1.3970e-08],
+        [-1.8537e-05, -8.0705e-05,  0.0000e+00,  ..., -4.1723e-07,
+          9.8255e-08,  8.0094e-08],
+        [ 1.7390e-05,  7.6234e-05,  0.0000e+00,  ...,  4.1770e-07,
+          2.5565e-07,  2.0396e-07]], device='cuda:0')
+Epoch 189, bias, value: tensor([-0.0217, -0.0298, -0.0098, -0.0270, -0.0301,  0.0057,  0.0260, -0.0132,
+         0.0353, -0.0013], device='cuda:0'), grad: tensor([ 7.5400e-06,  3.3807e-06,  4.3660e-06,  2.6170e-06, -1.1250e-06,
+         5.7146e-06,  2.9616e-06,  3.6471e-06, -3.8457e-04,  3.5548e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 188, time 255.71, cls_loss 0.0051 cls_loss_mapping 0.0055 cls_loss_causal 0.5581 re_mapping 0.0062 re_causal 0.0161 /// teacc 99.02 lr 0.00010000
+Epoch 190, weight, value: tensor([[-0.0978, -0.1376, -0.0668,  ..., -0.0615,  0.1559,  0.1538],
+        [-0.1757, -0.1577, -0.1082,  ..., -0.1274, -0.1822, -0.0948],
+        [-0.0799, -0.1038,  0.1113,  ..., -0.1620,  0.1760,  0.0558],
+        ...,
+        [-0.0976,  0.0625,  0.0512,  ...,  0.1576, -0.1579, -0.1711],
+        [-0.2134,  0.0557, -0.1154,  ...,  0.0439, -0.0772, -0.1141],
+        [ 0.0234, -0.0906, -0.0805,  ..., -0.0775, -0.0517, -0.1098]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-08,  1.3039e-08,  1.4435e-08,  ...,  9.3132e-10,
+          5.1688e-08,  2.6077e-08],
+        [ 6.6124e-08,  2.1653e-07,  4.1910e-09,  ...,  1.4296e-07,
+          1.6438e-07,  2.2352e-08],
+        [ 8.1956e-08,  1.3076e-06, -1.7043e-07,  ...,  9.3132e-10,
+         -5.0385e-07, -1.6391e-07],
+        ...,
+        [ 2.0955e-08, -8.3819e-09,  1.6764e-08,  ..., -1.9418e-07,
+          7.6834e-08,  1.9558e-08],
+        [ 2.7521e-07,  6.1886e-07,  5.8208e-08,  ...,  1.3039e-08,
+          1.4622e-07,  8.8941e-08],
+        [ 1.6531e-07,  1.6671e-07,  2.3283e-09,  ...,  6.2864e-08,
+          6.0536e-09,  2.7940e-09]], device='cuda:0')
+Epoch 190, bias, value: tensor([-0.0203, -0.0310, -0.0092, -0.0278, -0.0300,  0.0064,  0.0253, -0.0133,
+         0.0362, -0.0013], device='cuda:0'), grad: tensor([ 3.6694e-07, -5.6531e-07, -1.1120e-06, -1.1966e-05, -6.0257e-07,
+         9.6187e-06,  1.8487e-07,  6.5146e-07,  2.2650e-06,  1.1288e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 189, time 256.13, cls_loss 0.0040 cls_loss_mapping 0.0037 cls_loss_causal 0.5327 re_mapping 0.0062 re_causal 0.0156 /// teacc 98.95 lr 0.00010000
+Epoch 191, weight, value: tensor([[-0.0980, -0.1382, -0.0675,  ..., -0.0619,  0.1561,  0.1539],
+        [-0.1757, -0.1587, -0.1083,  ..., -0.1281, -0.1834, -0.0948],
+        [-0.0800, -0.1040,  0.1117,  ..., -0.1625,  0.1773,  0.0559],
+        ...,
+        [-0.0986,  0.0619,  0.0513,  ...,  0.1580, -0.1575, -0.1715],
+        [-0.2138,  0.0559, -0.1156,  ...,  0.0438, -0.0774, -0.1144],
+        [ 0.0230, -0.0911, -0.0807,  ..., -0.0776, -0.0519, -0.1103]],
+       device='cuda:0'), grad: tensor([[ 1.0431e-07,  1.4016e-07,  0.0000e+00,  ...,  8.1956e-08,
+         -5.3085e-08,  2.9337e-08],
+        [ 7.7300e-08,  3.5949e-07,  0.0000e+00,  ...,  2.7195e-07,
+          2.4214e-08,  4.0978e-08],
+        [ 2.1420e-08,  5.2527e-06,  0.0000e+00,  ...,  3.1758e-06,
+         -3.7253e-09,  3.2596e-09],
+        ...,
+        [ 2.3283e-09, -6.9402e-06,  9.3132e-10,  ..., -5.2825e-06,
+          1.3970e-09,  1.3970e-09],
+        [ 1.1437e-06,  2.3600e-06,  0.0000e+00,  ..., -8.4750e-08,
+          3.0501e-07,  6.2073e-07],
+        [-2.5518e-07,  5.6159e-07, -9.3132e-10,  ...,  4.9965e-07,
+          5.8673e-08,  3.5390e-08]], device='cuda:0')
+Epoch 191, bias, value: tensor([-0.0203, -0.0314, -0.0096, -0.0279, -0.0302,  0.0067,  0.0255, -0.0129,
+         0.0366, -0.0015], device='cuda:0'), grad: tensor([ 6.7428e-07,  1.1604e-06,  1.4037e-05, -1.1683e-05,  2.6207e-06,
+         6.1579e-06, -9.3356e-06, -1.6153e-05,  1.3173e-05, -6.7288e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 190, time 255.80, cls_loss 0.0035 cls_loss_mapping 0.0037 cls_loss_causal 0.5005 re_mapping 0.0064 re_causal 0.0163 /// teacc 98.93 lr 0.00010000
+Epoch 192, weight, value: tensor([[-0.0982, -0.1385, -0.0689,  ..., -0.0621,  0.1563,  0.1540],
+        [-0.1759, -0.1591, -0.1082,  ..., -0.1286, -0.1835, -0.0948],
+        [-0.0801, -0.1045,  0.1125,  ..., -0.1629,  0.1778,  0.0559],
+        ...,
+        [-0.0990,  0.0618,  0.0512,  ...,  0.1583, -0.1586, -0.1720],
+        [-0.2140,  0.0559, -0.1162,  ...,  0.0437, -0.0775, -0.1146],
+        [ 0.0224, -0.0912, -0.0804,  ..., -0.0782, -0.0521, -0.1108]],
+       device='cuda:0'), grad: tensor([[ 3.5390e-08,  2.5146e-08,  3.7253e-09,  ...,  2.0489e-08,
+         -1.6764e-08, -5.1223e-09],
+        [ 3.4925e-08,  6.4820e-07,  1.2992e-07,  ...,  6.2771e-07,
+          6.2399e-08,  2.3283e-09],
+        [ 6.0536e-09,  2.3749e-08, -4.9826e-08,  ...,  2.7474e-08,
+         -7.8697e-08,  9.3132e-10],
+        ...,
+        [ 2.5146e-08, -8.3633e-07, -9.5461e-08,  ..., -1.0524e-06,
+          6.5193e-09,  9.3132e-10],
+        [ 7.8231e-08,  2.0489e-08,  1.8626e-09,  ...,  8.3819e-09,
+          2.0023e-08,  2.1420e-08],
+        [ 2.2491e-07,  1.5274e-07, -2.2352e-08,  ...,  2.3516e-07,
+          7.9162e-09,  5.5879e-09]], device='cuda:0')
+Epoch 192, bias, value: tensor([-0.0203, -0.0316, -0.0095, -0.0277, -0.0291,  0.0065,  0.0257, -0.0129,
+         0.0367, -0.0022], device='cuda:0'), grad: tensor([ 2.2165e-07,  1.7658e-06,  1.6158e-07, -3.3015e-07,  7.9162e-08,
+         1.0077e-06, -7.1479e-07, -2.2352e-06,  5.4762e-07, -5.2154e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 191, time 255.98, cls_loss 0.0045 cls_loss_mapping 0.0031 cls_loss_causal 0.5416 re_mapping 0.0063 re_causal 0.0157 /// teacc 98.98 lr 0.00010000
+Epoch 193, weight, value: tensor([[-0.0990, -0.1393, -0.0691,  ..., -0.0625,  0.1571,  0.1546],
+        [-0.1761, -0.1593, -0.1072,  ..., -0.1287, -0.1836, -0.0950],
+        [-0.0802, -0.1074,  0.1129,  ..., -0.1660,  0.1778,  0.0557],
+        ...,
+        [-0.0996,  0.0627,  0.0508,  ...,  0.1597, -0.1591, -0.1723],
+        [-0.2147,  0.0560, -0.1163,  ...,  0.0442, -0.0780, -0.1157],
+        [ 0.0216, -0.0915, -0.0807,  ..., -0.0789, -0.0522, -0.1115]],
+       device='cuda:0'), grad: tensor([[-4.0140e-07,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+         -2.1935e-05, -1.1869e-05],
+        [ 2.9802e-08,  1.1176e-08,  0.0000e+00,  ...,  1.5832e-08,
+          1.4808e-07,  7.0781e-08],
+        [ 7.6368e-08,  5.5879e-09, -6.5193e-09,  ...,  7.4506e-09,
+         -2.1055e-05,  1.8161e-07],
+        ...,
+        [ 2.1420e-08, -4.3772e-08,  0.0000e+00,  ..., -6.1467e-08,
+          4.9360e-08,  2.1420e-08],
+        [ 3.9600e-06,  9.3132e-10,  0.0000e+00,  ..., -8.2888e-08,
+          1.4016e-06,  5.6066e-07],
+        [-3.4552e-07,  1.9558e-08,  0.0000e+00,  ...,  3.3528e-08,
+          4.9546e-07,  2.5611e-07]], device='cuda:0')
+Epoch 193, bias, value: tensor([-0.0200, -0.0310, -0.0111, -0.0276, -0.0287,  0.0064,  0.0259, -0.0125,
+         0.0366, -0.0027], device='cuda:0'), grad: tensor([-2.7746e-05, -6.5193e-07, -5.0664e-05,  9.4995e-07,  4.7445e-05,
+         2.5034e-06,  8.2925e-06,  2.9709e-07,  1.4655e-05,  4.9062e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 192, time 255.48, cls_loss 0.0043 cls_loss_mapping 0.0058 cls_loss_causal 0.5499 re_mapping 0.0064 re_causal 0.0161 /// teacc 98.92 lr 0.00010000
+Epoch 194, weight, value: tensor([[-0.0992, -0.1398, -0.0692,  ..., -0.0629,  0.1574,  0.1549],
+        [-0.1763, -0.1577, -0.1072,  ..., -0.1294, -0.1837, -0.0953],
+        [-0.0802, -0.1074,  0.1135,  ..., -0.1661,  0.1783,  0.0562],
+        ...,
+        [-0.1007,  0.0614,  0.0507,  ...,  0.1602, -0.1598, -0.1725],
+        [-0.2152,  0.0560, -0.1172,  ...,  0.0441, -0.0782, -0.1160],
+        [ 0.0217, -0.0916, -0.0807,  ..., -0.0793, -0.0524, -0.1123]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  4.6566e-09,  0.0000e+00,  ..., -3.2596e-07,
+         -2.7325e-06, -2.4736e-06],
+        [ 2.2352e-08,  6.2399e-08,  0.0000e+00,  ...,  4.6566e-08,
+          1.3569e-06,  4.2282e-07],
+        [ 7.4506e-09,  9.3132e-09,  0.0000e+00,  ...,  3.0734e-08,
+         -5.2340e-07, -8.0559e-07],
+        ...,
+        [ 1.4901e-08, -4.1630e-07,  0.0000e+00,  ..., -3.4645e-07,
+          5.4110e-07,  3.1665e-07],
+        [ 5.3085e-08,  5.4017e-08,  0.0000e+00,  ..., -2.8778e-07,
+         -1.7369e-06,  8.4471e-07],
+        [ 2.0489e-08,  7.8231e-08,  0.0000e+00,  ...,  3.5483e-07,
+          1.0524e-06,  6.9477e-07]], device='cuda:0')
+Epoch 194, bias, value: tensor([-0.0200, -0.0289, -0.0107, -0.0271, -0.0293,  0.0060,  0.0261, -0.0145,
+         0.0362, -0.0025], device='cuda:0'), grad: tensor([-6.7391e-06,  1.2908e-06,  4.4741e-06,  2.4047e-06,  2.3916e-06,
+         1.4612e-06,  2.6990e-06,  1.6252e-06, -1.2174e-05,  2.4885e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 193, time 255.66, cls_loss 0.0049 cls_loss_mapping 0.0052 cls_loss_causal 0.4969 re_mapping 0.0063 re_causal 0.0154 /// teacc 98.96 lr 0.00010000
+Epoch 195, weight, value: tensor([[-0.0998, -0.1408, -0.0696,  ..., -0.0632,  0.1573,  0.1548],
+        [-0.1773, -0.1577, -0.1072,  ..., -0.1298, -0.1838, -0.0953],
+        [-0.0799, -0.1080,  0.1138,  ..., -0.1666,  0.1784,  0.0562],
+        ...,
+        [-0.1013,  0.0602,  0.0507,  ...,  0.1595, -0.1603, -0.1730],
+        [-0.2154,  0.0586, -0.1178,  ...,  0.0464, -0.0784, -0.1166],
+        [ 0.0215, -0.0919, -0.0806,  ..., -0.0796, -0.0524, -0.1127]],
+       device='cuda:0'), grad: tensor([[ 1.8813e-07,  3.3528e-08,  0.0000e+00,  ...,  6.5193e-09,
+         -1.2815e-05, -4.0568e-06],
+        [ 1.6764e-08,  6.7055e-08,  0.0000e+00,  ...,  5.4017e-08,
+          1.0775e-06,  9.3132e-10],
+        [ 1.0245e-08, -1.0896e-07,  0.0000e+00,  ...,  2.7940e-09,
+         -2.4438e-06,  4.4703e-08],
+        ...,
+        [ 2.1420e-08, -4.2878e-06,  0.0000e+00,  ..., -6.5342e-06,
+          1.1493e-06,  1.8626e-09],
+        [ 3.2596e-08, -2.5146e-08,  0.0000e+00,  ...,  1.4901e-08,
+          1.1086e-05,  3.5521e-06],
+        [ 9.9652e-08,  4.2319e-06,  0.0000e+00,  ...,  6.2697e-06,
+          2.2613e-06,  5.9232e-07]], device='cuda:0')
+Epoch 195, bias, value: tensor([-0.0205, -0.0288, -0.0103, -0.0260, -0.0293,  0.0046,  0.0266, -0.0150,
+         0.0383, -0.0027], device='cuda:0'), grad: tensor([-1.9297e-05,  2.6137e-05, -6.9499e-05,  6.4075e-07,  6.6124e-07,
+        -1.6484e-07, -2.6077e-07,  1.5058e-05,  2.3097e-05,  2.3484e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 194, time 255.81, cls_loss 0.0039 cls_loss_mapping 0.0037 cls_loss_causal 0.5165 re_mapping 0.0060 re_causal 0.0154 /// teacc 98.98 lr 0.00010000
+Epoch 196, weight, value: tensor([[-0.1000, -0.1412, -0.0698,  ..., -0.0637,  0.1575,  0.1550],
+        [-0.1774, -0.1579, -0.1070,  ..., -0.1300, -0.1842, -0.0959],
+        [-0.0800, -0.1086,  0.1138,  ..., -0.1673,  0.1788,  0.0570],
+        ...,
+        [-0.1021,  0.0605,  0.0507,  ...,  0.1599, -0.1607, -0.1735],
+        [-0.2159,  0.0584, -0.1179,  ...,  0.0471, -0.0779, -0.1169],
+        [ 0.0213, -0.0920, -0.0812,  ..., -0.0798, -0.0526, -0.1131]],
+       device='cuda:0'), grad: tensor([[-3.9767e-07,  2.0489e-08,  0.0000e+00,  ...,  4.1910e-08,
+         -3.3844e-06, -1.8496e-06],
+        [ 1.3039e-08,  8.3819e-08,  0.0000e+00,  ...,  1.6484e-07,
+          3.9116e-08,  1.5832e-08],
+        [ 1.3970e-08,  7.7859e-07,  0.0000e+00,  ...,  1.6941e-06,
+          1.5367e-07,  7.3574e-08],
+        ...,
+        [ 5.2154e-08, -9.1735e-07,  0.0000e+00,  ..., -1.9949e-06,
+          1.8626e-07,  1.2107e-07],
+        [ 1.5832e-08,  1.8626e-08,  0.0000e+00,  ..., -5.0291e-08,
+          1.5181e-07,  6.3330e-08],
+        [ 7.1712e-08,  7.2643e-08,  0.0000e+00,  ...,  7.4506e-08,
+          1.3215e-06,  6.6962e-07]], device='cuda:0')
+Epoch 196, bias, value: tensor([-0.0205, -0.0289, -0.0103, -0.0261, -0.0293,  0.0046,  0.0261, -0.0147,
+         0.0385, -0.0029], device='cuda:0'), grad: tensor([-5.0068e-06,  3.0734e-06,  1.0312e-05, -2.4945e-05, -6.2771e-06,
+         2.6584e-05,  3.5018e-06, -9.8422e-06,  2.9150e-07,  2.3916e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 195----------------------------------------------------
+epoch 195, time 272.05, cls_loss 0.0038 cls_loss_mapping 0.0039 cls_loss_causal 0.5316 re_mapping 0.0060 re_causal 0.0156 /// teacc 99.05 lr 0.00010000
+Epoch 197, weight, value: tensor([[-0.1003, -0.1416, -0.0703,  ..., -0.0644,  0.1576,  0.1549],
+        [-0.1776, -0.1580, -0.1070,  ..., -0.1303, -0.1844, -0.0961],
+        [-0.0801, -0.1099,  0.1140,  ..., -0.1697,  0.1790,  0.0558],
+        ...,
+        [-0.1024,  0.0609,  0.0506,  ...,  0.1606, -0.1610, -0.1739],
+        [-0.2165,  0.0584, -0.1179,  ...,  0.0475, -0.0770, -0.1180],
+        [ 0.0214, -0.0922, -0.0812,  ..., -0.0801, -0.0529, -0.1139]],
+       device='cuda:0'), grad: tensor([[ 1.7136e-07,  5.5879e-09,  0.0000e+00,  ..., -3.1292e-07,
+         -3.6731e-06, -4.5598e-06],
+        [ 3.0175e-07,  2.1420e-08,  0.0000e+00,  ...,  6.6124e-08,
+          2.1420e-08,  1.7695e-08],
+        [ 1.8720e-07,  7.4506e-09,  0.0000e+00,  ..., -3.0994e-05,
+         -9.6187e-06, -1.0775e-06],
+        ...,
+        [ 2.3097e-07, -4.7497e-08,  0.0000e+00,  ...,  3.0845e-05,
+          9.6411e-06,  1.1232e-06],
+        [ 5.6997e-06,  2.5146e-08,  0.0000e+00,  ...,  2.0396e-07,
+          2.8871e-08,  3.8184e-08],
+        [ 2.6450e-07,  4.2841e-08,  0.0000e+00,  ...,  7.6368e-08,
+          1.9185e-07,  1.9278e-07]], device='cuda:0')
+Epoch 197, bias, value: tensor([-0.0208, -0.0289, -0.0115, -0.0259, -0.0299,  0.0047,  0.0260, -0.0145,
+         0.0389, -0.0025], device='cuda:0'), grad: tensor([-6.8992e-06, -1.0934e-06, -2.0278e-04,  7.3574e-06,  2.6356e-07,
+        -4.6104e-05,  4.1217e-05,  2.0480e-04,  7.1228e-06, -3.8072e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 196, time 255.76, cls_loss 0.0043 cls_loss_mapping 0.0040 cls_loss_causal 0.5381 re_mapping 0.0060 re_causal 0.0155 /// teacc 98.97 lr 0.00010000
+Epoch 198, weight, value: tensor([[-0.1003, -0.1426, -0.0705,  ..., -0.0637,  0.1577,  0.1554],
+        [-0.1780, -0.1599, -0.1071,  ..., -0.1316, -0.1847, -0.0968],
+        [-0.0802, -0.1101,  0.1141,  ..., -0.1698,  0.1800,  0.0572],
+        ...,
+        [-0.1027,  0.0623,  0.0506,  ...,  0.1616, -0.1614, -0.1748],
+        [-0.2169,  0.0583, -0.1180,  ...,  0.0474, -0.0775, -0.1190],
+        [ 0.0208, -0.0929, -0.0812,  ..., -0.0808, -0.0529, -0.1153]],
+       device='cuda:0'), grad: tensor([[ 8.1025e-08,  3.7253e-09,  1.8626e-09,  ...,  2.1420e-08,
+         -2.2724e-07, -1.7975e-07],
+        [ 8.5682e-08,  6.4727e-07,  1.8626e-09,  ...,  1.8533e-07,
+          2.2352e-08,  1.1176e-08],
+        [ 2.0489e-08,  3.8557e-07, -8.3819e-09,  ...,  5.5134e-07,
+         -6.2399e-08, -1.8626e-08],
+        ...,
+        [ 5.4017e-08,  1.6335e-06,  1.8626e-09,  ..., -3.6601e-07,
+          3.2596e-08,  1.9558e-08],
+        [ 1.9465e-07, -2.6822e-07,  9.3132e-10,  ..., -2.2724e-07,
+          1.9558e-08,  1.2107e-08],
+        [ 2.8592e-07,  1.3039e-08,  0.0000e+00,  ...,  7.3574e-08,
+          7.4506e-08,  5.7742e-08]], device='cuda:0')
+Epoch 198, bias, value: tensor([-0.0211, -0.0301, -0.0110, -0.0258, -0.0298,  0.0047,  0.0261, -0.0134,
+         0.0384, -0.0023], device='cuda:0'), grad: tensor([-2.0489e-07,  2.5760e-06,  2.0899e-06,  3.3647e-05,  1.2405e-06,
+        -3.9309e-05,  2.8480e-06,  5.3868e-06, -4.1164e-06, -4.1015e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 197, time 251.39, cls_loss 0.0046 cls_loss_mapping 0.0046 cls_loss_causal 0.5418 re_mapping 0.0063 re_causal 0.0157 /// teacc 99.02 lr 0.00010000
+Epoch 199, weight, value: tensor([[-0.1020, -0.1433, -0.0706,  ..., -0.0640,  0.1583,  0.1549],
+        [-0.1783, -0.1600, -0.1071,  ..., -0.1319, -0.1848, -0.0973],
+        [-0.0801, -0.1105,  0.1141,  ..., -0.1701,  0.1803,  0.0580],
+        ...,
+        [-0.1030,  0.0622,  0.0506,  ...,  0.1619, -0.1621, -0.1762],
+        [-0.2178,  0.0585, -0.1181,  ...,  0.0454, -0.0780, -0.1212],
+        [ 0.0198, -0.0934, -0.0814,  ..., -0.0810, -0.0550, -0.1189]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  2.4214e-08,
+         -3.2317e-07, -2.0303e-07],
+        [ 1.8626e-09,  6.5193e-09,  1.8626e-09,  ...,  1.6403e-04,
+          6.5193e-09,  4.6566e-09],
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  2.4494e-07,
+         -3.5390e-08,  5.5879e-09],
+        ...,
+        [ 1.8626e-09, -1.8626e-09,  7.4506e-09,  ..., -1.6797e-04,
+          8.3819e-09,  3.7253e-09],
+        [ 1.0710e-07,  1.3039e-08,  9.3132e-10,  ..., -5.9791e-07,
+          1.0803e-07,  6.9849e-08],
+        [ 9.3132e-10,  4.6566e-09, -2.2352e-08,  ...,  3.8482e-06,
+          1.3877e-07,  9.2201e-08]], device='cuda:0')
+Epoch 199, bias, value: tensor([-0.0209, -0.0302, -0.0106, -0.0250, -0.0300,  0.0054,  0.0267, -0.0134,
+         0.0364, -0.0030], device='cuda:0'), grad: tensor([-1.0990e-07,  5.2547e-04,  8.3447e-07,  5.0142e-06,  3.7774e-06,
+         3.9767e-07, -7.3574e-08, -5.3549e-04,  3.4738e-07, -1.2182e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 198, time 250.75, cls_loss 0.0040 cls_loss_mapping 0.0040 cls_loss_causal 0.5100 re_mapping 0.0061 re_causal 0.0155 /// teacc 98.99 lr 0.00010000
+Epoch 200, weight, value: tensor([[-0.1022, -0.1439, -0.0709,  ..., -0.0641,  0.1586,  0.1551],
+        [-0.1787, -0.1601, -0.1070,  ..., -0.1328, -0.1850, -0.0974],
+        [-0.0802, -0.1109,  0.1141,  ..., -0.1706,  0.1805,  0.0579],
+        ...,
+        [-0.1036,  0.0622,  0.0505,  ...,  0.1626, -0.1626, -0.1765],
+        [-0.2184,  0.0585, -0.1177,  ...,  0.0448, -0.0783, -0.1223],
+        [ 0.0204, -0.0935, -0.0815,  ..., -0.0813, -0.0553, -0.1197]],
+       device='cuda:0'), grad: tensor([[ 2.2352e-08,  7.1712e-08,  0.0000e+00,  ...,  1.8720e-07,
+         -1.1018e-06, -7.2457e-07],
+        [ 1.5832e-07,  9.2201e-08,  0.0000e+00,  ...,  1.7229e-07,
+          1.0990e-07,  7.7300e-08],
+        [ 1.5832e-08,  1.1111e-06,  0.0000e+00,  ...,  1.4976e-06,
+          1.8626e-08,  4.1910e-08],
+        ...,
+        [ 6.5193e-09, -2.6971e-06,  0.0000e+00,  ..., -4.5598e-06,
+          2.3283e-08,  2.7940e-09],
+        [ 1.0338e-07,  5.8394e-07,  0.0000e+00,  ...,  7.7859e-07,
+          1.1362e-07,  7.4506e-08],
+        [ 1.6764e-08,  1.5181e-07,  0.0000e+00,  ...,  3.4273e-07,
+          9.0338e-08,  5.5879e-08]], device='cuda:0')
+Epoch 200, bias, value: tensor([-0.0209, -0.0292, -0.0118, -0.0252, -0.0299,  0.0058,  0.0274, -0.0141,
+         0.0358, -0.0030], device='cuda:0'), grad: tensor([-1.1390e-06,  6.9477e-07,  2.5630e-06,  1.1111e-06,  2.5276e-06,
+         1.0535e-05, -1.0252e-05, -7.4394e-06,  1.3635e-06,  9.3132e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 199, time 251.15, cls_loss 0.0036 cls_loss_mapping 0.0031 cls_loss_causal 0.5240 re_mapping 0.0060 re_causal 0.0150 /// teacc 98.99 lr 0.00010000
+Epoch 201, weight, value: tensor([[-0.1026, -0.1445, -0.0715,  ..., -0.0644,  0.1588,  0.1551],
+        [-0.1792, -0.1601, -0.1070,  ..., -0.1333, -0.1852, -0.0976],
+        [-0.0799, -0.1112,  0.1151,  ..., -0.1711,  0.1806,  0.0582],
+        ...,
+        [-0.1038,  0.0622,  0.0504,  ...,  0.1630, -0.1630, -0.1770],
+        [-0.2181,  0.0584, -0.1183,  ...,  0.0454, -0.0777, -0.1226],
+        [ 0.0188, -0.0939, -0.0816,  ..., -0.0816, -0.0556, -0.1202]],
+       device='cuda:0'), grad: tensor([[ 2.4159e-06,  9.3132e-10,  9.3132e-10,  ..., -0.0000e+00,
+         -4.4964e-06,  1.4370e-06],
+        [ 1.5832e-08,  1.1735e-07,  4.6566e-09,  ..., -1.6494e-06,
+          5.3924e-07,  2.1234e-07],
+        [ 2.1420e-08,  3.7253e-09,  0.0000e+00,  ...,  1.6764e-08,
+         -6.8285e-06, -2.8498e-06],
+        ...,
+        [ 5.5879e-09, -1.9185e-07,  1.4901e-08,  ..., -2.9057e-07,
+          2.0582e-06,  8.3260e-07],
+        [ 1.8626e-07,  1.8626e-09,  2.7940e-09,  ..., -2.7940e-08,
+          3.8110e-06,  1.7760e-06],
+        [ 4.5635e-08,  3.3528e-08, -4.0978e-08,  ...,  9.9652e-08,
+          5.1372e-06,  1.1846e-06]], device='cuda:0')
+Epoch 201, bias, value: tensor([-0.0209, -0.0293, -0.0119, -0.0249, -0.0299,  0.0053,  0.0276, -0.0141,
+         0.0362, -0.0032], device='cuda:0'), grad: tensor([-1.3337e-06, -1.3933e-05, -1.4499e-05,  2.3600e-06,  1.3039e-05,
+         1.7798e-06, -1.1519e-05,  4.4033e-06,  9.7007e-06,  9.9838e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 200, time 250.88, cls_loss 0.0037 cls_loss_mapping 0.0031 cls_loss_causal 0.5298 re_mapping 0.0061 re_causal 0.0153 /// teacc 98.92 lr 0.00010000
+Epoch 202, weight, value: tensor([[-0.1027, -0.1448, -0.0689,  ..., -0.0644,  0.1598,  0.1561],
+        [-0.1793, -0.1602, -0.1067,  ..., -0.1332, -0.1854, -0.0978],
+        [-0.0800, -0.1120,  0.1155,  ..., -0.1715,  0.1813,  0.0584],
+        ...,
+        [-0.1040,  0.0624,  0.0499,  ...,  0.1633, -0.1643, -0.1779],
+        [-0.2186,  0.0584, -0.1182,  ...,  0.0455, -0.0779, -0.1231],
+        [ 0.0183, -0.0940, -0.0827,  ..., -0.0819, -0.0567, -0.1229]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-09,  5.5879e-09,  0.0000e+00,  ...,  5.3085e-08,
+          5.9698e-07,  1.8999e-07],
+        [ 1.8626e-08,  1.6578e-07,  0.0000e+00,  ...,  6.1467e-06,
+          1.4165e-06,  4.6659e-07],
+        [ 9.3132e-10,  4.3679e-07,  0.0000e+00,  ...,  1.0049e-06,
+         -9.8050e-06, -3.2280e-06],
+        ...,
+        [ 6.3330e-08, -5.0850e-07,  0.0000e+00,  ..., -1.6075e-06,
+          2.5053e-06,  8.2515e-07],
+        [ 3.6322e-08,  1.9465e-07,  0.0000e+00,  ..., -6.0536e-06,
+          2.8722e-06,  9.4622e-07],
+        [ 3.1665e-08,  1.1828e-07,  0.0000e+00,  ...,  6.5193e-08,
+          1.3877e-07,  4.6566e-08]], device='cuda:0')
+Epoch 202, bias, value: tensor([-0.0202, -0.0291, -0.0121, -0.0251, -0.0298,  0.0051,  0.0280, -0.0141,
+         0.0361, -0.0032], device='cuda:0'), grad: tensor([ 2.4624e-06,  2.3261e-05, -3.4869e-05,  5.1446e-06,  9.0338e-07,
+         5.8301e-07,  2.5406e-06,  7.7337e-06, -8.4788e-06,  6.9477e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 201, time 250.64, cls_loss 0.0037 cls_loss_mapping 0.0033 cls_loss_causal 0.5372 re_mapping 0.0060 re_causal 0.0155 /// teacc 99.01 lr 0.00010000
+Epoch 203, weight, value: tensor([[-0.1019, -0.1452, -0.0665,  ..., -0.0642,  0.1613,  0.1577],
+        [-0.1794, -0.1612, -0.1064,  ..., -0.1365, -0.1855, -0.0979],
+        [-0.0802, -0.1125,  0.1150,  ..., -0.1718,  0.1810,  0.0575],
+        ...,
+        [-0.1047,  0.0632,  0.0499,  ...,  0.1652, -0.1648, -0.1783],
+        [-0.2189,  0.0583, -0.1190,  ...,  0.0455, -0.0781, -0.1234],
+        [ 0.0179, -0.0943, -0.0830,  ..., -0.0819, -0.0569, -0.1236]],
+       device='cuda:0'), grad: tensor([[ 2.6263e-07,  2.1886e-07,  1.4901e-08,  ...,  1.5832e-08,
+         -1.1651e-06, -9.1270e-07],
+        [ 1.0803e-07,  4.0606e-07,  9.3132e-10,  ...,  1.1362e-07,
+          1.7695e-08,  1.5832e-08],
+        [ 5.3085e-07,  6.2585e-07, -1.9372e-07,  ...,  1.0338e-07,
+         -6.4354e-07, -1.1176e-08],
+        ...,
+        [ 2.5146e-07,  1.9416e-05,  1.8720e-07,  ...,  6.1058e-06,
+          6.5938e-07,  5.3085e-08],
+        [ 4.6641e-06,  2.4401e-06,  2.7008e-08,  ...,  3.7663e-06,
+          1.0617e-07,  1.8999e-07],
+        [ 3.7253e-07,  5.4948e-07,  2.7940e-09,  ...,  2.6636e-07,
+          2.0023e-07,  1.5553e-07]], device='cuda:0')
+Epoch 203, bias, value: tensor([-0.0190, -0.0300, -0.0123, -0.0254, -0.0305,  0.0053,  0.0276, -0.0134,
+         0.0360, -0.0027], device='cuda:0'), grad: tensor([-1.2759e-06,  8.0746e-07,  1.0533e-06, -3.6240e-05,  1.5926e-07,
+        -3.6433e-06, -3.1851e-06,  3.0696e-05,  1.0252e-05,  1.3830e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 202, time 250.51, cls_loss 0.0034 cls_loss_mapping 0.0034 cls_loss_causal 0.5381 re_mapping 0.0060 re_causal 0.0153 /// teacc 98.97 lr 0.00010000
+Epoch 204, weight, value: tensor([[-0.1021, -0.1462, -0.0663,  ..., -0.0643,  0.1615,  0.1580],
+        [-0.1798, -0.1613, -0.1065,  ..., -0.1370, -0.1856, -0.0982],
+        [-0.0803, -0.1129,  0.1160,  ..., -0.1720,  0.1812,  0.0577],
+        ...,
+        [-0.1054,  0.0633,  0.0497,  ...,  0.1656, -0.1658, -0.1791],
+        [-0.2199,  0.0584, -0.1185,  ...,  0.0455, -0.0781, -0.1240],
+        [ 0.0162, -0.0945, -0.0830,  ..., -0.0819, -0.0570, -0.1243]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  9.3132e-10,  0.0000e+00,  ..., -2.7940e-09,
+         -2.3749e-07, -1.9278e-07],
+        [ 1.2107e-08,  1.7695e-08,  0.0000e+00,  ...,  9.3132e-10,
+          9.3132e-10,  9.3132e-10],
+        [ 3.7253e-09,  4.6566e-09,  0.0000e+00,  ...,  1.8626e-09,
+          1.8626e-09,  2.7940e-09],
+        ...,
+        [ 1.0245e-08,  2.7940e-09,  0.0000e+00,  ..., -5.4017e-08,
+          1.8626e-09,  9.3132e-10],
+        [ 2.4214e-08,  1.4901e-08,  0.0000e+00,  ..., -3.5390e-08,
+          2.9802e-08,  2.4214e-08],
+        [ 5.5879e-09,  1.2107e-08,  0.0000e+00,  ...,  6.0536e-08,
+          1.6019e-07,  1.3132e-07]], device='cuda:0')
+Epoch 204, bias, value: tensor([-0.0191, -0.0301, -0.0122, -0.0254, -0.0321,  0.0051,  0.0280, -0.0134,
+         0.0361, -0.0013], device='cuda:0'), grad: tensor([-3.6415e-07, -4.2282e-07,  4.2841e-08, -1.2014e-07,  5.3085e-08,
+         3.9116e-08,  7.1712e-08,  1.4249e-07, -1.1083e-07,  6.4541e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 203, time 250.91, cls_loss 0.0036 cls_loss_mapping 0.0028 cls_loss_causal 0.5382 re_mapping 0.0059 re_causal 0.0154 /// teacc 99.01 lr 0.00010000
+Epoch 205, weight, value: tensor([[-0.1030, -0.1473, -0.0664,  ..., -0.0647,  0.1611,  0.1577],
+        [-0.1800, -0.1614, -0.1065,  ..., -0.1376, -0.1857, -0.0984],
+        [-0.0805, -0.1131,  0.1165,  ..., -0.1726,  0.1815,  0.0577],
+        ...,
+        [-0.1066,  0.0634,  0.0496,  ...,  0.1662, -0.1660, -0.1794],
+        [-0.2203,  0.0583, -0.1187,  ...,  0.0456, -0.0782, -0.1241],
+        [ 0.0152, -0.0948, -0.0831,  ..., -0.0824, -0.0567, -0.1247]],
+       device='cuda:0'), grad: tensor([[ 7.8231e-08,  1.8626e-09,  0.0000e+00,  ...,  7.1712e-08,
+         -1.4184e-06, -7.3947e-07],
+        [ 3.8184e-08,  4.3772e-08,  0.0000e+00,  ...,  7.2643e-08,
+          4.4052e-07,  3.4645e-07],
+        [ 2.7940e-09,  1.2480e-07,  0.0000e+00,  ...,  1.1455e-07,
+         -3.9954e-07, -3.3807e-07],
+        ...,
+        [ 2.4214e-08, -7.9256e-07,  0.0000e+00,  ..., -8.1304e-07,
+          6.1467e-08,  3.8184e-08],
+        [ 1.6484e-07,  3.9116e-08,  0.0000e+00,  ...,  1.8161e-07,
+          7.3574e-08,  4.0978e-08],
+        [-1.5832e-08,  1.0151e-07,  0.0000e+00,  ...,  1.6298e-07,
+          7.5530e-07,  3.9488e-07]], device='cuda:0')
+Epoch 205, bias, value: tensor([-0.0199, -0.0299, -0.0130, -0.0256, -0.0311,  0.0053,  0.0285, -0.0134,
+         0.0360, -0.0019], device='cuda:0'), grad: tensor([-2.5816e-06,  1.9819e-06, -1.3299e-06,  8.9221e-07, -5.1688e-07,
+        -2.0750e-06,  2.5332e-06, -9.8534e-07,  5.4669e-07,  1.5339e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 204, time 250.46, cls_loss 0.0045 cls_loss_mapping 0.0043 cls_loss_causal 0.5049 re_mapping 0.0056 re_causal 0.0134 /// teacc 98.98 lr 0.00010000
+Epoch 206, weight, value: tensor([[-0.1024, -0.1488, -0.0665,  ..., -0.0636,  0.1623,  0.1589],
+        [-0.1802, -0.1615, -0.1051,  ..., -0.1382, -0.1859, -0.0987],
+        [-0.0806, -0.1129,  0.1169,  ..., -0.1730,  0.1820,  0.0583],
+        ...,
+        [-0.1073,  0.0636,  0.0487,  ...,  0.1671, -0.1670, -0.1813],
+        [-0.2210,  0.0582, -0.1189,  ...,  0.0455, -0.0795, -0.1264],
+        [ 0.0149, -0.0952, -0.0835,  ..., -0.0830, -0.0572, -0.1256]],
+       device='cuda:0'), grad: tensor([[ 1.5832e-08,  1.0431e-07,  9.3132e-10,  ...,  1.6205e-07,
+          7.5623e-07,  2.1793e-07],
+        [ 3.3528e-08,  1.6391e-07,  2.7940e-09,  ...,  2.6356e-07,
+          6.5938e-07,  4.3679e-07],
+        [ 1.0245e-08, -4.9658e-06,  0.0000e+00,  ..., -1.8068e-07,
+         -1.0766e-05, -1.6671e-06],
+        ...,
+        [ 5.5879e-09,  5.4948e-07,  1.8626e-09,  ..., -8.7824e-07,
+          1.4482e-06,  3.0547e-07],
+        [ 9.5088e-07,  1.9744e-07,  1.8626e-09,  ...,  1.1399e-06,
+          4.7460e-06,  9.0804e-07],
+        [ 4.6566e-09,  7.1712e-08, -1.6764e-08,  ...,  1.0245e-07,
+          4.9360e-08,  2.2352e-08]], device='cuda:0')
+Epoch 206, bias, value: tensor([-0.0186, -0.0296, -0.0126, -0.0258, -0.0320,  0.0051,  0.0280, -0.0136,
+         0.0354, -0.0013], device='cuda:0'), grad: tensor([ 2.2445e-06,  2.3115e-06, -3.6955e-05,  1.6183e-05, -3.2037e-07,
+         6.7335e-07, -2.0396e-06,  4.4256e-06,  1.4037e-05, -5.2154e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 205, time 250.74, cls_loss 0.0034 cls_loss_mapping 0.0028 cls_loss_causal 0.4910 re_mapping 0.0060 re_causal 0.0146 /// teacc 98.90 lr 0.00010000
+Epoch 207, weight, value: tensor([[-0.1027, -0.1493, -0.0666,  ..., -0.0637,  0.1625,  0.1591],
+        [-0.1813, -0.1617, -0.1052,  ..., -0.1387, -0.1864, -0.1006],
+        [-0.0797, -0.1128,  0.1173,  ..., -0.1726,  0.1837,  0.0621],
+        ...,
+        [-0.1075,  0.0637,  0.0486,  ...,  0.1673, -0.1697, -0.1856],
+        [-0.2195,  0.0581, -0.1194,  ...,  0.0468, -0.0775, -0.1253],
+        [ 0.0146, -0.0952, -0.0831,  ..., -0.0825, -0.0574, -0.1261]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  7.4506e-09,  3.4459e-08,  ...,  0.0000e+00,
+         -1.1176e-07, -1.0245e-07],
+        [ 2.7008e-08,  8.9407e-08,  1.8626e-09,  ...,  8.3819e-09,
+          2.7940e-08,  1.8626e-08],
+        [ 2.7008e-08,  1.4715e-07, -1.9558e-07,  ...,  5.4017e-08,
+         -4.4983e-07, -1.0990e-07],
+        ...,
+        [ 1.6764e-08, -1.2107e-07,  8.4750e-08,  ...,  5.6811e-08,
+          1.4435e-07,  1.1176e-08],
+        [ 1.3690e-07,  2.2259e-07,  9.3132e-09,  ...,  1.5553e-07,
+          1.1642e-07,  7.3574e-08],
+        [ 7.7300e-08,  4.4703e-08, -6.5193e-09,  ...,  9.0338e-08,
+          9.9652e-08,  6.4261e-08]], device='cuda:0')
+Epoch 207, bias, value: tensor([-0.0187, -0.0299, -0.0117, -0.0257, -0.0317,  0.0049,  0.0265, -0.0137,
+         0.0363, -0.0009], device='cuda:0'), grad: tensor([ 6.2399e-08,  1.9744e-07, -1.4175e-06, -5.6997e-07, -1.0589e-06,
+        -2.5425e-07,  2.3469e-07,  1.6363e-06,  7.5623e-07,  4.2655e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 206, time 250.91, cls_loss 0.0043 cls_loss_mapping 0.0040 cls_loss_causal 0.5214 re_mapping 0.0058 re_causal 0.0146 /// teacc 98.98 lr 0.00010000
+Epoch 208, weight, value: tensor([[-0.1032, -0.1508, -0.0664,  ..., -0.0639,  0.1626,  0.1598],
+        [-0.1820, -0.1618, -0.1052,  ..., -0.1392, -0.1875, -0.1021],
+        [-0.0798, -0.1135,  0.1172,  ..., -0.1733,  0.1839,  0.0626],
+        ...,
+        [-0.1078,  0.0642,  0.0485,  ...,  0.1682, -0.1708, -0.1867],
+        [-0.2192,  0.0582, -0.1187,  ...,  0.0476, -0.0770, -0.1260],
+        [ 0.0146, -0.0967, -0.0829,  ..., -0.0840, -0.0564, -0.1268]],
+       device='cuda:0'), grad: tensor([[-4.5635e-06,  3.7253e-09,  1.4901e-08,  ..., -4.0740e-05,
+         -5.4479e-05, -5.6982e-05],
+        [ 1.1176e-08,  6.5193e-08,  1.3039e-08,  ...,  2.3842e-07,
+          1.4901e-07,  5.9605e-08],
+        [ 3.7253e-09,  1.4901e-08, -4.7032e-07,  ...,  7.1712e-08,
+         -2.0918e-06,  2.7008e-08],
+        ...,
+        [ 1.3039e-08, -1.0710e-07,  3.1665e-07,  ..., -1.6764e-08,
+          1.6177e-06,  1.1269e-07],
+        [ 1.0710e-07, -2.1439e-06,  1.8626e-09,  ..., -3.5435e-05,
+          1.4994e-07,  1.2945e-07],
+        [ 4.8429e-08,  2.0489e-08,  9.3132e-10,  ...,  3.3993e-07,
+          2.4810e-06,  4.8894e-07]], device='cuda:0')
+Epoch 208, bias, value: tensor([-0.0192, -0.0299, -0.0115, -0.0257, -0.0327,  0.0047,  0.0263, -0.0136,
+         0.0370, -0.0003], device='cuda:0'), grad: tensor([-1.4341e-04,  8.2236e-07, -4.9211e-06,  3.6061e-06, -3.3438e-05,
+         1.5271e-04,  4.7296e-05,  4.8652e-06, -5.7936e-05,  3.0145e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 207, time 250.54, cls_loss 0.0039 cls_loss_mapping 0.0031 cls_loss_causal 0.5036 re_mapping 0.0062 re_causal 0.0148 /// teacc 98.92 lr 0.00010000
+Epoch 209, weight, value: tensor([[-0.1037, -0.1520, -0.0665,  ..., -0.0634,  0.1629,  0.1601],
+        [-0.1835, -0.1620, -0.1052,  ..., -0.1399, -0.1876, -0.1024],
+        [-0.0800, -0.1140,  0.1173,  ..., -0.1736,  0.1842,  0.0626],
+        ...,
+        [-0.1083,  0.0646,  0.0485,  ...,  0.1685, -0.1712, -0.1868],
+        [-0.2201,  0.0591, -0.1187,  ...,  0.0480, -0.0774, -0.1273],
+        [ 0.0141, -0.0974, -0.0830,  ..., -0.0847, -0.0566, -0.1274]],
+       device='cuda:0'), grad: tensor([[ 7.1712e-08,  1.1828e-07,  0.0000e+00,  ...,  2.7847e-07,
+          5.9605e-08,  3.3528e-08],
+        [ 1.0245e-08,  3.4459e-08,  0.0000e+00,  ...,  6.9849e-08,
+          6.5193e-09,  3.7253e-09],
+        [ 1.3039e-08, -2.4773e-06,  0.0000e+00,  ...,  2.8871e-08,
+          1.3039e-08, -5.9512e-07],
+        ...,
+        [ 8.3819e-09, -1.0524e-06,  0.0000e+00,  ..., -2.7157e-06,
+          9.3132e-10,  2.5146e-08],
+        [ 4.1444e-07,  2.2352e-06,  0.0000e+00,  ...,  1.5367e-07,
+          5.3085e-08,  5.7276e-07],
+        [ 1.5832e-07,  9.3319e-07, -9.3132e-10,  ...,  2.2892e-06,
+          1.3039e-08,  8.3819e-09]], device='cuda:0')
+Epoch 209, bias, value: tensor([-0.0192, -0.0300, -0.0116, -0.0258, -0.0328,  0.0043,  0.0278, -0.0136,
+         0.0372, -0.0004], device='cuda:0'), grad: tensor([ 6.0163e-07, -4.1537e-07, -2.2709e-05,  5.6960e-06, -1.8626e-08,
+        -4.9248e-06, -5.8115e-07, -2.2035e-06,  2.1130e-05,  3.4403e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 208, time 250.55, cls_loss 0.0046 cls_loss_mapping 0.0037 cls_loss_causal 0.4852 re_mapping 0.0061 re_causal 0.0144 /// teacc 99.00 lr 0.00010000
+Epoch 210, weight, value: tensor([[-0.1041, -0.1541, -0.0666,  ..., -0.0639,  0.1629,  0.1601],
+        [-0.1853, -0.1633, -0.1036,  ..., -0.1427, -0.1887, -0.1038],
+        [-0.0786, -0.1143,  0.1172,  ..., -0.1741,  0.1853,  0.0631],
+        ...,
+        [-0.1088,  0.0661,  0.0466,  ...,  0.1707, -0.1719, -0.1870],
+        [-0.2210,  0.0592, -0.1185,  ...,  0.0480, -0.0778, -0.1288],
+        [ 0.0135, -0.0987, -0.0834,  ..., -0.0851, -0.0568, -0.1282]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  1.8626e-09,
+         -8.0094e-08, -3.3528e-08],
+        [ 5.5879e-09,  3.6322e-08,  0.0000e+00,  ...,  1.2293e-07,
+          9.3132e-10,  0.0000e+00],
+        [ 1.8626e-09,  8.3819e-09, -0.0000e+00,  ...,  2.7940e-08,
+         -2.8871e-08,  9.3132e-10],
+        ...,
+        [ 4.6566e-09, -1.3039e-07,  0.0000e+00,  ..., -1.2107e-07,
+          3.7253e-09,  9.3132e-10],
+        [ 3.7253e-09,  1.8626e-09,  0.0000e+00,  ..., -2.3004e-07,
+          5.5879e-09,  2.7940e-09],
+        [ 1.8626e-09,  6.6124e-08,  9.3132e-09,  ...,  6.4261e-08,
+          5.2154e-08,  2.1420e-08]], device='cuda:0')
+Epoch 210, bias, value: tensor([-0.0197, -0.0312, -0.0115, -0.0260, -0.0325,  0.0041,  0.0292, -0.0126,
+         0.0369, -0.0003], device='cuda:0'), grad: tensor([-9.2201e-08, -2.7940e-09,  1.1362e-07, -5.6811e-08, -1.5553e-07,
+         2.3749e-07,  3.0082e-07, -5.7742e-08, -6.8266e-07,  3.9581e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 209, time 250.31, cls_loss 0.0034 cls_loss_mapping 0.0038 cls_loss_causal 0.5119 re_mapping 0.0058 re_causal 0.0149 /// teacc 98.92 lr 0.00010000
+Epoch 211, weight, value: tensor([[-0.1051, -0.1564, -0.0667,  ..., -0.0640,  0.1636,  0.1605],
+        [-0.1853, -0.1636, -0.1034,  ..., -0.1431, -0.1904, -0.1047],
+        [-0.0788, -0.1149,  0.1194,  ..., -0.1745,  0.1867,  0.0633],
+        ...,
+        [-0.1093,  0.0667,  0.0457,  ...,  0.1721, -0.1735, -0.1880],
+        [-0.2212,  0.0592, -0.1188,  ...,  0.0477, -0.0780, -0.1291],
+        [ 0.0135, -0.0997, -0.0840,  ..., -0.0873, -0.0571, -0.1289]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  9.3132e-09,  0.0000e+00,  ...,  7.4506e-09,
+         -1.4715e-07, -7.8231e-08],
+        [ 2.7940e-09,  1.9558e-08,  0.0000e+00,  ...,  2.7940e-08,
+          1.0058e-07,  1.9558e-08],
+        [ 1.1176e-08,  7.8976e-07,  0.0000e+00,  ...,  5.7090e-07,
+         -1.3355e-06, -3.0454e-07],
+        ...,
+        [ 9.3132e-10, -6.4261e-08,  0.0000e+00,  ..., -1.6298e-07,
+          3.3155e-07,  6.3330e-08],
+        [ 4.0047e-08, -3.2093e-06,  0.0000e+00,  ..., -2.2277e-06,
+         -1.2610e-06,  5.2154e-08],
+        [ 1.8626e-09,  2.9802e-08, -9.3132e-10,  ...,  7.8231e-08,
+          1.7323e-07,  6.7055e-08]], device='cuda:0')
+Epoch 211, bias, value: tensor([-0.0191, -0.0309, -0.0125, -0.0258, -0.0315,  0.0039,  0.0293, -0.0123,
+         0.0368, -0.0016], device='cuda:0'), grad: tensor([-4.6566e-08, -1.1064e-05,  3.7998e-06,  1.2338e-05,  1.2666e-07,
+         5.6252e-07,  1.8720e-07,  6.9551e-06, -1.3255e-05,  3.7253e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 210, time 250.50, cls_loss 0.0039 cls_loss_mapping 0.0039 cls_loss_causal 0.5498 re_mapping 0.0060 re_causal 0.0154 /// teacc 98.99 lr 0.00010000
+Epoch 212, weight, value: tensor([[-0.1061, -0.1571, -0.0661,  ..., -0.0641,  0.1639,  0.1606],
+        [-0.1855, -0.1638, -0.1031,  ..., -0.1437, -0.1909, -0.1050],
+        [-0.0791, -0.1151,  0.1194,  ..., -0.1747,  0.1874,  0.0632],
+        ...,
+        [-0.1105,  0.0648,  0.0456,  ...,  0.1722, -0.1742, -0.1884],
+        [-0.2215,  0.0590, -0.1194,  ...,  0.0478, -0.0785, -0.1296],
+        [ 0.0134, -0.1004, -0.0837,  ..., -0.0881, -0.0575, -0.1301]],
+       device='cuda:0'), grad: tensor([[ 3.4459e-08,  9.3132e-09,  0.0000e+00,  ...,  3.7253e-09,
+         -1.1241e-06, -8.0559e-07],
+        [ 2.7940e-09,  1.7136e-07,  1.0245e-08,  ...,  1.7136e-07,
+          6.9756e-07,  8.5682e-08],
+        [ 1.2573e-07,  8.3819e-08,  0.0000e+00,  ...,  4.6566e-09,
+         -1.7276e-06, -8.1956e-08],
+        ...,
+        [ 0.0000e+00, -7.6741e-07, -1.8626e-08,  ..., -7.4971e-07,
+          5.2061e-07,  8.6613e-08],
+        [ 1.1548e-07,  4.3213e-07,  2.7940e-09,  ...,  8.7544e-08,
+          9.5833e-07,  3.1758e-07],
+        [ 9.3132e-10,  1.1828e-07,  6.6124e-08,  ...,  1.4156e-07,
+          6.3237e-07,  3.5949e-07]], device='cuda:0')
+Epoch 212, bias, value: tensor([-0.0190, -0.0309, -0.0124, -0.0241, -0.0320,  0.0035,  0.0296, -0.0128,
+         0.0365, -0.0016], device='cuda:0'), grad: tensor([-9.5274e-07,  3.3788e-06, -4.1723e-06,  8.7358e-07, -6.3814e-06,
+         3.7346e-07,  8.8103e-07,  1.8440e-07,  3.3714e-06,  2.4475e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 211, time 250.51, cls_loss 0.0039 cls_loss_mapping 0.0030 cls_loss_causal 0.5251 re_mapping 0.0058 re_causal 0.0148 /// teacc 98.96 lr 0.00010000
+Epoch 213, weight, value: tensor([[-0.1071, -0.1584, -0.0661,  ..., -0.0645,  0.1635,  0.1609],
+        [-0.1856, -0.1641, -0.1017,  ..., -0.1434, -0.1911, -0.1051],
+        [-0.0792, -0.1155,  0.1197,  ..., -0.1750,  0.1883,  0.0640],
+        ...,
+        [-0.1108,  0.0645,  0.0445,  ...,  0.1724, -0.1756, -0.1896],
+        [-0.2222,  0.0590, -0.1199,  ...,  0.0478, -0.0791, -0.1306],
+        [ 0.0131, -0.1005, -0.0846,  ..., -0.0888, -0.0571, -0.1321]],
+       device='cuda:0'), grad: tensor([[ 3.7812e-07,  9.2667e-08,  0.0000e+00,  ...,  6.5984e-07,
+         -1.2042e-06, -2.1402e-06],
+        [ 4.6520e-07,  1.1288e-06,  0.0000e+00,  ...,  3.7439e-06,
+          3.0873e-07,  1.0431e-07],
+        [ 2.5611e-07,  3.3900e-07,  0.0000e+00,  ...,  9.1782e-07,
+          8.8802e-07,  2.9802e-08],
+        ...,
+        [ 8.7218e-07, -4.6119e-06,  0.0000e+00,  ..., -1.5207e-05,
+          1.6252e-07,  2.4214e-08],
+        [ 2.2817e-07,  3.0315e-07,  0.0000e+00,  ...,  7.9954e-07,
+          2.3190e-07,  1.6112e-07],
+        [ 6.1560e-07,  7.5297e-07,  0.0000e+00,  ...,  1.4966e-06,
+          3.0966e-07,  2.0862e-07]], device='cuda:0')
+Epoch 213, bias, value: tensor([-0.0201, -0.0311, -0.0134, -0.0242, -0.0316,  0.0035,  0.0304, -0.0120,
+         0.0362, -0.0017], device='cuda:0'), grad: tensor([-6.1467e-07,  1.1489e-05,  3.7327e-06,  7.5549e-06,  3.0193e-06,
+         7.8185e-07,  4.1686e-06,  5.2065e-05,  2.0247e-06, -8.4221e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 212, time 250.47, cls_loss 0.0037 cls_loss_mapping 0.0038 cls_loss_causal 0.5281 re_mapping 0.0059 re_causal 0.0149 /// teacc 98.98 lr 0.00010000
+Epoch 214, weight, value: tensor([[-0.1040, -0.1601, -0.0660,  ..., -0.0614,  0.1668,  0.1644],
+        [-0.1884, -0.1642, -0.1003,  ..., -0.1431, -0.1916, -0.1063],
+        [-0.0777, -0.1163,  0.1198,  ..., -0.1752,  0.1894,  0.0655],
+        ...,
+        [-0.1121,  0.0648,  0.0434,  ...,  0.1729, -0.1774, -0.1917],
+        [-0.2229,  0.0592, -0.1200,  ...,  0.0478, -0.0794, -0.1311],
+        [ 0.0119, -0.1010, -0.0855,  ..., -0.0896, -0.0571, -0.1340]],
+       device='cuda:0'), grad: tensor([[ 1.0245e-08,  9.3132e-09,  1.3970e-09,  ...,  2.3749e-08,
+         -1.2107e-08, -9.3132e-09],
+        [ 5.6345e-08,  7.9628e-08,  0.0000e+00,  ...,  3.3062e-08,
+          4.6566e-10,  4.6566e-10],
+        [ 4.2375e-08,  5.8208e-08,  0.0000e+00,  ...,  2.3283e-09,
+          1.3970e-09,  1.3970e-09],
+        ...,
+        [ 1.4808e-07,  2.1560e-07,  2.3283e-09,  ...,  6.4820e-07,
+          4.6566e-10,  4.6566e-10],
+        [ 7.7765e-08, -1.0384e-06,  9.4995e-08,  ..., -1.2182e-05,
+          4.1910e-09,  3.2596e-09],
+        [ 1.4808e-07,  1.2573e-06, -1.1036e-07,  ...,  1.1526e-05,
+          3.2596e-09,  2.3283e-09]], device='cuda:0')
+Epoch 214, bias, value: tensor([-0.0169, -0.0310, -0.0138, -0.0267, -0.0314,  0.0052,  0.0274, -0.0117,
+         0.0360, -0.0022], device='cuda:0'), grad: tensor([ 1.5553e-07,  3.3379e-06,  2.0582e-07, -1.6307e-06, -6.2622e-06,
+         1.4575e-07,  3.4366e-07,  3.2336e-06, -2.5600e-05,  2.6107e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 213, time 250.22, cls_loss 0.0039 cls_loss_mapping 0.0037 cls_loss_causal 0.5058 re_mapping 0.0056 re_causal 0.0145 /// teacc 98.95 lr 0.00010000
+Epoch 215, weight, value: tensor([[-0.1041, -0.1620, -0.0661,  ..., -0.0614,  0.1668,  0.1644],
+        [-0.1884, -0.1643, -0.1003,  ..., -0.1432, -0.1918, -0.1065],
+        [-0.0778, -0.1170,  0.1198,  ..., -0.1760,  0.1899,  0.0658],
+        ...,
+        [-0.1132,  0.0650,  0.0435,  ...,  0.1734, -0.1782, -0.1925],
+        [-0.2234,  0.0591, -0.1201,  ...,  0.0481, -0.0796, -0.1317],
+        [ 0.0115, -0.1014, -0.0856,  ..., -0.0934, -0.0572, -0.1344]],
+       device='cuda:0'), grad: tensor([[ 4.2841e-08,  7.4506e-09,  0.0000e+00,  ...,  1.0151e-07,
+         -4.6566e-08, -2.7474e-08],
+        [ 5.1223e-09,  1.3784e-06,  0.0000e+00,  ...,  2.1439e-06,
+          1.8161e-08,  2.3283e-09],
+        [ 7.4506e-09,  1.1176e-08,  0.0000e+00,  ...,  3.5577e-07,
+         -1.9535e-05,  4.6566e-09],
+        ...,
+        [ 1.3970e-09, -1.4370e-06,  0.0000e+00,  ..., -2.2221e-06,
+          1.9046e-07,  1.3970e-09],
+        [ 5.5879e-09,  2.2817e-08,  0.0000e+00,  ..., -1.2415e-06,
+          1.0710e-08,  6.9849e-09],
+        [ 2.3283e-09, -2.7800e-07,  0.0000e+00,  ..., -6.2399e-07,
+          2.8405e-08,  2.0023e-08]], device='cuda:0')
+Epoch 215, bias, value: tensor([-0.0170, -0.0305, -0.0140, -0.0269, -0.0277,  0.0054,  0.0275, -0.0120,
+         0.0361, -0.0055], device='cuda:0'), grad: tensor([ 3.0780e-07,  3.5930e-06, -9.9361e-05,  6.1467e-08,  1.0514e-04,
+         2.1271e-06, -3.1665e-07, -2.5071e-06, -3.7570e-06, -5.3719e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 214, time 250.35, cls_loss 0.0046 cls_loss_mapping 0.0041 cls_loss_causal 0.5307 re_mapping 0.0058 re_causal 0.0146 /// teacc 99.02 lr 0.00010000
+Epoch 216, weight, value: tensor([[-0.1044, -0.1657, -0.0661,  ..., -0.0616,  0.1667,  0.1643],
+        [-0.1888, -0.1647, -0.1003,  ..., -0.1445, -0.1918, -0.1070],
+        [-0.0779, -0.1174,  0.1199,  ..., -0.1770,  0.1921,  0.0668],
+        ...,
+        [-0.1141,  0.0648,  0.0435,  ...,  0.1724, -0.1808, -0.1944],
+        [-0.2239,  0.0603, -0.1202,  ...,  0.0494, -0.0798, -0.1314],
+        [ 0.0116, -0.1013, -0.0856,  ..., -0.0934, -0.0574, -0.1350]],
+       device='cuda:0'), grad: tensor([[ 1.2144e-06,  2.9337e-08,  1.3970e-09,  ...,  8.0094e-08,
+          2.7735e-06,  1.9260e-06],
+        [ 1.0245e-08,  1.8300e-07,  5.5879e-09,  ...,  4.8382e-07,
+          1.3504e-08,  1.0710e-08],
+        [ 4.6566e-09,  9.3132e-10,  4.6566e-10,  ...,  4.1910e-08,
+          3.2596e-09,  3.2596e-09],
+        ...,
+        [ 4.6566e-10, -6.4028e-07,  4.6566e-10,  ..., -1.7509e-06,
+          2.3283e-09,  1.3970e-09],
+        [ 8.1630e-07,  2.3283e-09,  9.3132e-10,  ..., -2.4540e-07,
+          7.2876e-07,  6.7614e-07],
+        [ 6.0536e-09,  3.3900e-07, -9.3132e-09,  ...,  9.6299e-07,
+          1.1176e-08,  8.3819e-09]], device='cuda:0')
+Epoch 216, bias, value: tensor([-0.0174, -0.0304, -0.0140, -0.0267, -0.0271,  0.0052,  0.0276, -0.0129,
+         0.0373, -0.0056], device='cuda:0'), grad: tensor([ 7.5847e-06, -5.0617e-07,  1.8906e-07,  5.8673e-08,  6.7288e-07,
+         4.2245e-06, -1.3456e-05, -3.0585e-06,  1.7080e-06,  2.5816e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 215, time 250.61, cls_loss 0.0038 cls_loss_mapping 0.0030 cls_loss_causal 0.5319 re_mapping 0.0056 re_causal 0.0147 /// teacc 99.03 lr 0.00010000
+Epoch 217, weight, value: tensor([[-0.1047, -0.1677, -0.0661,  ..., -0.0617,  0.1665,  0.1642],
+        [-0.1889, -0.1652, -0.1003,  ..., -0.1452, -0.1921, -0.1074],
+        [-0.0780, -0.1185,  0.1204,  ..., -0.1775,  0.1930,  0.0673],
+        ...,
+        [-0.1149,  0.0651,  0.0438,  ...,  0.1730, -0.1817, -0.1952],
+        [-0.2242,  0.0604, -0.1208,  ...,  0.0494, -0.0801, -0.1308],
+        [ 0.0113, -0.1020, -0.0861,  ..., -0.0935, -0.0577, -0.1365]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-09,  1.3970e-09,  4.6566e-10,  ..., -3.4459e-08,
+         -7.3574e-08, -3.4925e-08],
+        [ 1.3970e-09,  2.3283e-09,  2.7940e-09,  ...,  6.0536e-09,
+          3.1432e-07,  2.3702e-07],
+        [ 1.3970e-09,  1.2573e-08,  4.6566e-10,  ...,  1.7229e-08,
+         -8.5169e-07, -6.4867e-07],
+        ...,
+        [ 4.6566e-10, -2.2817e-08,  1.0924e-06,  ...,  8.7963e-07,
+          3.0501e-07,  1.9325e-07],
+        [ 8.3819e-09,  1.8626e-09,  4.6566e-10,  ...,  1.4435e-08,
+          1.0151e-07,  7.4506e-08],
+        [ 9.3132e-10,  3.7253e-09, -1.1036e-06,  ..., -9.9652e-07,
+          2.8871e-08,  1.6298e-08]], device='cuda:0')
+Epoch 217, bias, value: tensor([-0.0175, -0.0304, -0.0143, -0.0264, -0.0271,  0.0051,  0.0278, -0.0128,
+         0.0377, -0.0057], device='cuda:0'), grad: tensor([-2.8871e-08, -6.8903e-05,  3.8624e-05,  4.3726e-07,  3.3248e-07,
+         7.4785e-07,  1.3430e-06,  3.4124e-05,  3.9674e-07, -7.0482e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 216, time 250.27, cls_loss 0.0037 cls_loss_mapping 0.0029 cls_loss_causal 0.5419 re_mapping 0.0059 re_causal 0.0153 /// teacc 99.05 lr 0.00010000
+Epoch 218, weight, value: tensor([[-0.1049, -0.1695, -0.0661,  ..., -0.0617,  0.1666,  0.1642],
+        [-0.1891, -0.1655, -0.1003,  ..., -0.1457, -0.1925, -0.1078],
+        [-0.0784, -0.1193,  0.1204,  ..., -0.1780,  0.1934,  0.0672],
+        ...,
+        [-0.1157,  0.0643,  0.0438,  ...,  0.1717, -0.1827, -0.1958],
+        [-0.2245,  0.0623, -0.1208,  ...,  0.0510, -0.0804, -0.1306],
+        [ 0.0108, -0.1025, -0.0861,  ..., -0.0932, -0.0577, -0.1371]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  1.0245e-08,  0.0000e+00,  ...,  6.5193e-09,
+         -3.8184e-08, -2.4680e-08],
+        [ 5.1223e-09,  5.4017e-08,  0.0000e+00,  ...,  4.6100e-08,
+          7.1712e-08,  1.3970e-09],
+        [ 2.3283e-09,  4.0000e-07,  0.0000e+00,  ...,  4.2841e-07,
+         -1.2713e-07,  2.3283e-08],
+        ...,
+        [ 2.3749e-08, -4.8056e-07,  0.0000e+00,  ..., -6.2212e-07,
+          5.4482e-08,  3.7253e-09],
+        [ 2.7474e-08,  1.4948e-07,  0.0000e+00,  ...,  5.9605e-08,
+         -4.5169e-08, -6.4261e-08],
+        [ 5.5879e-09,  7.6368e-08,  4.6566e-10,  ...,  7.3574e-08,
+          1.2573e-08,  8.3819e-09]], device='cuda:0')
+Epoch 218, bias, value: tensor([-0.0176, -0.0295, -0.0161, -0.0260, -0.0273,  0.0050,  0.0278, -0.0137,
+         0.0391, -0.0054], device='cuda:0'), grad: tensor([ 6.4727e-08,  2.8731e-07,  5.0198e-07, -5.8999e-07, -4.5635e-07,
+         3.3621e-07,  1.5553e-07, -7.4459e-07,  7.4506e-09,  4.5449e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 217, time 250.37, cls_loss 0.0033 cls_loss_mapping 0.0025 cls_loss_causal 0.5043 re_mapping 0.0059 re_causal 0.0149 /// teacc 98.94 lr 0.00010000
+Epoch 219, weight, value: tensor([[-0.1049, -0.1707, -0.0662,  ..., -0.0617,  0.1666,  0.1642],
+        [-0.1905, -0.1655, -0.0998,  ..., -0.1456, -0.1929, -0.1092],
+        [-0.0772, -0.1196,  0.1203,  ..., -0.1782,  0.1943,  0.0688],
+        ...,
+        [-0.1162,  0.0644,  0.0436,  ...,  0.1719, -0.1834, -0.1965],
+        [-0.2249,  0.0623, -0.1209,  ...,  0.0511, -0.0807, -0.1311],
+        [ 0.0109, -0.1030, -0.0855,  ..., -0.0935, -0.0576, -0.1370]],
+       device='cuda:0'), grad: tensor([[ 1.6689e-05,  1.1176e-08,  0.0000e+00,  ...,  2.0955e-08,
+          4.3064e-05,  2.6360e-05],
+        [ 6.0536e-09,  2.2864e-07,  0.0000e+00,  ...,  4.0326e-07,
+          5.8673e-08,  1.5367e-08],
+        [ 4.2375e-08,  5.1111e-06,  0.0000e+00,  ...,  9.6783e-06,
+          1.0515e-06,  8.4285e-08],
+        ...,
+        [ 1.3970e-09, -5.4948e-06,  4.6566e-10,  ..., -1.0267e-05,
+         -9.5181e-07,  5.5879e-09],
+        [ 9.0804e-08,  1.6671e-07,  1.3970e-09,  ..., -3.0734e-08,
+          3.5902e-07,  2.2957e-07],
+        [ 5.1223e-08,  6.7987e-08, -3.2596e-09,  ..., -1.4622e-07,
+          5.7789e-07,  3.7719e-07]], device='cuda:0')
+Epoch 219, bias, value: tensor([-0.0176, -0.0297, -0.0162, -0.0259, -0.0271,  0.0049,  0.0278, -0.0134,
+         0.0386, -0.0055], device='cuda:0'), grad: tensor([ 7.8917e-05,  9.4483e-07,  2.2382e-05, -2.7847e-07,  6.5472e-07,
+         6.3377e-07, -8.1599e-05, -2.3261e-05,  6.0257e-07,  8.8522e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 218, time 250.29, cls_loss 0.0034 cls_loss_mapping 0.0039 cls_loss_causal 0.5202 re_mapping 0.0056 re_causal 0.0142 /// teacc 98.96 lr 0.00010000
+Epoch 220, weight, value: tensor([[-0.1052, -0.1720, -0.0657,  ..., -0.0617,  0.1665,  0.1642],
+        [-0.1908, -0.1657, -0.0975,  ..., -0.1454, -0.1930, -0.1095],
+        [-0.0773, -0.1196,  0.1201,  ..., -0.1786,  0.1951,  0.0704],
+        ...,
+        [-0.1164,  0.0649,  0.0428,  ...,  0.1729, -0.1843, -0.1977],
+        [-0.2252,  0.0621, -0.1214,  ...,  0.0511, -0.0814, -0.1328],
+        [ 0.0102, -0.1044, -0.0879,  ..., -0.0945, -0.0577, -0.1376]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09,  6.5193e-09,  1.0245e-08,  ...,  1.3039e-08,
+         -6.5845e-07, -4.1351e-07],
+        [ 4.6566e-09,  1.9372e-07,  3.7253e-09,  ...,  5.0291e-07,
+          1.8161e-07,  1.9744e-07],
+        [ 4.6566e-09,  1.2107e-08,  0.0000e+00,  ...,  1.7695e-08,
+          4.6566e-09,  5.5879e-09],
+        ...,
+        [ 3.7253e-09, -1.0179e-06,  5.7742e-08,  ..., -2.7418e-06,
+          1.1176e-08,  4.6566e-09],
+        [ 8.5682e-08,  6.5193e-08,  1.5832e-08,  ...,  1.1455e-07,
+          4.0978e-08,  4.0047e-08],
+        [ 2.9802e-08,  7.4878e-07,  2.1420e-08,  ...,  1.9483e-06,
+          4.1071e-07,  1.4622e-07]], device='cuda:0')
+Epoch 220, bias, value: tensor([-0.0177, -0.0293, -0.0160, -0.0260, -0.0272,  0.0049,  0.0279, -0.0132,
+         0.0384, -0.0059], device='cuda:0'), grad: tensor([-1.0785e-06,  1.6987e-06,  6.2399e-08,  8.1025e-08, -1.0647e-05,
+         6.3237e-07,  9.7975e-06, -5.2191e-06,  9.4622e-07,  3.6806e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 219, time 250.41, cls_loss 0.0032 cls_loss_mapping 0.0037 cls_loss_causal 0.5289 re_mapping 0.0055 re_causal 0.0147 /// teacc 99.05 lr 0.00010000
+Epoch 221, weight, value: tensor([[-0.1053, -0.1730, -0.0658,  ..., -0.0617,  0.1666,  0.1642],
+        [-0.1912, -0.1658, -0.0975,  ..., -0.1449, -0.1933, -0.1093],
+        [-0.0773, -0.1197,  0.1205,  ..., -0.1788,  0.1963,  0.0716],
+        ...,
+        [-0.1167,  0.0650,  0.0427,  ...,  0.1728, -0.1856, -0.1998],
+        [-0.2253,  0.0623, -0.1217,  ...,  0.0514, -0.0815, -0.1327],
+        [ 0.0105, -0.1052, -0.0879,  ..., -0.0947, -0.0578, -0.1392]],
+       device='cuda:0'), grad: tensor([[-6.2399e-08,  1.0245e-08,  0.0000e+00,  ...,  2.0489e-08,
+         -4.8708e-07, -3.1292e-07],
+        [ 5.5879e-09,  9.9652e-08,  0.0000e+00,  ...,  7.7672e-07,
+          1.3039e-08,  1.3039e-08],
+        [ 0.0000e+00, -1.1176e-08, -0.0000e+00,  ..., -1.8626e-09,
+         -9.4716e-07, -9.3970e-07],
+        ...,
+        [ 4.6566e-09, -3.2410e-07,  0.0000e+00,  ..., -6.1002e-07,
+          8.8383e-07,  8.8848e-07],
+        [ 8.3819e-08,  3.5390e-08,  0.0000e+00,  ...,  2.0117e-07,
+          2.7008e-08,  1.8626e-08],
+        [ 1.8626e-08,  2.4494e-07,  0.0000e+00,  ...,  8.7079e-07,
+          8.3819e-09,  5.5879e-09]], device='cuda:0')
+Epoch 221, bias, value: tensor([-0.0178, -0.0295, -0.0162, -0.0258, -0.0274,  0.0047,  0.0278, -0.0127,
+         0.0389, -0.0060], device='cuda:0'), grad: tensor([-5.6159e-07,  4.5002e-06, -2.3805e-06, -4.3772e-08, -4.8429e-06,
+        -3.0268e-07,  7.9069e-07,  1.1912e-06,  9.7696e-07,  6.5938e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 220, time 250.50, cls_loss 0.0028 cls_loss_mapping 0.0032 cls_loss_causal 0.5151 re_mapping 0.0059 re_causal 0.0149 /// teacc 99.00 lr 0.00010000
+Epoch 222, weight, value: tensor([[-0.1053, -0.1737, -0.0658,  ..., -0.0617,  0.1665,  0.1643],
+        [-0.1916, -0.1660, -0.0975,  ..., -0.1450, -0.1940, -0.1101],
+        [-0.0774, -0.1203,  0.1206,  ..., -0.1793,  0.1984,  0.0731],
+        ...,
+        [-0.1173,  0.0650,  0.0422,  ...,  0.1730, -0.1885, -0.2022],
+        [-0.2257,  0.0626, -0.1219,  ...,  0.0521, -0.0816, -0.1335],
+        [ 0.0099, -0.1054, -0.0874,  ..., -0.0949, -0.0568, -0.1401]],
+       device='cuda:0'), grad: tensor([[ 1.8766e-06,  6.5193e-09,  6.9849e-08,  ...,  3.0361e-07,
+          1.5041e-06,  1.1232e-06],
+        [ 2.7008e-08,  7.0781e-08,  7.8231e-08,  ...,  3.5204e-07,
+          1.0245e-08,  5.5879e-09],
+        [ 4.6566e-08,  1.0151e-07, -5.1372e-06,  ..., -2.3201e-05,
+          4.7497e-08,  2.4214e-08],
+        ...,
+        [ 4.8429e-08,  1.4715e-07,  1.0822e-06,  ...,  4.8839e-06,
+          1.5832e-08,  9.3132e-09],
+        [ 3.5204e-07,  3.4459e-08,  2.2557e-06,  ...,  1.0185e-05,
+          2.9057e-07,  2.1420e-07],
+        [ 8.3819e-09,  1.4901e-08, -0.0000e+00,  ...,  3.7253e-09,
+          8.3819e-09,  5.5879e-09]], device='cuda:0')
+Epoch 222, bias, value: tensor([-0.0179, -0.0294, -0.0160, -0.0256, -0.0274,  0.0043,  0.0278, -0.0131,
+         0.0395, -0.0057], device='cuda:0'), grad: tensor([ 5.7817e-06,  1.4259e-06, -1.0556e-04, -2.8778e-07,  2.4259e-05,
+         8.4266e-06, -4.1388e-06,  2.2650e-05,  4.7475e-05,  6.3330e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 221, time 250.30, cls_loss 0.0040 cls_loss_mapping 0.0038 cls_loss_causal 0.5513 re_mapping 0.0054 re_causal 0.0140 /// teacc 99.00 lr 0.00010000
+Epoch 223, weight, value: tensor([[-0.1053, -0.1761, -0.0658,  ..., -0.0618,  0.1667,  0.1643],
+        [-0.1929, -0.1667, -0.0975,  ..., -0.1476, -0.1941, -0.1101],
+        [-0.0775, -0.1208,  0.1210,  ..., -0.1796,  0.1994,  0.0732],
+        ...,
+        [-0.1192,  0.0653,  0.0421,  ...,  0.1754, -0.1894, -0.2028],
+        [-0.2257,  0.0625, -0.1227,  ...,  0.0523, -0.0815, -0.1340],
+        [ 0.0097, -0.1059, -0.0874,  ..., -0.0946, -0.0573, -0.1411]],
+       device='cuda:0'), grad: tensor([[ 3.7067e-07,  1.2014e-07,  0.0000e+00,  ...,  2.7940e-09,
+          4.5635e-07,  3.9581e-07],
+        [ 1.0040e-06,  2.6971e-06,  0.0000e+00,  ...,  1.3970e-08,
+          1.0710e-07,  8.9407e-08],
+        [ 3.9302e-07,  4.7870e-07,  0.0000e+00,  ..., -9.3132e-09,
+         -3.7625e-07, -2.4773e-07],
+        ...,
+        [ 1.0105e-06,  2.8610e-06,  0.0000e+00,  ...,  5.0291e-08,
+          1.9744e-07,  1.4529e-07],
+        [ 2.6241e-05,  7.5530e-07,  0.0000e+00,  ...,  1.2480e-07,
+          2.7165e-05,  2.4363e-05],
+        [ 3.5390e-07,  8.2795e-07,  0.0000e+00,  ...,  2.2352e-08,
+          7.7300e-08,  6.5193e-08]], device='cuda:0')
+Epoch 223, bias, value: tensor([-0.0179, -0.0308, -0.0160, -0.0259, -0.0272,  0.0045,  0.0277, -0.0121,
+         0.0399, -0.0057], device='cuda:0'), grad: tensor([ 1.8040e-06,  6.7204e-06,  5.5786e-07, -2.1264e-05,  4.0047e-08,
+         2.2814e-05, -1.1659e-04,  7.3835e-06,  9.6858e-05,  1.6643e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 222, time 250.41, cls_loss 0.0030 cls_loss_mapping 0.0029 cls_loss_causal 0.5339 re_mapping 0.0057 re_causal 0.0149 /// teacc 98.96 lr 0.00010000
+Epoch 224, weight, value: tensor([[-0.1058, -0.1774, -0.0660,  ..., -0.0618,  0.1660,  0.1642],
+        [-0.1934, -0.1669, -0.0974,  ..., -0.1476, -0.1944, -0.1103],
+        [-0.0777, -0.1212,  0.1211,  ..., -0.1799,  0.2002,  0.0739],
+        ...,
+        [-0.1199,  0.0656,  0.0421,  ...,  0.1757, -0.1896, -0.2030],
+        [-0.2261,  0.0624, -0.1228,  ...,  0.0522, -0.0826, -0.1357],
+        [ 0.0116, -0.1065, -0.0874,  ..., -0.0949, -0.0553, -0.1420]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  1.8626e-09,
+         -1.3284e-05, -8.0019e-06],
+        [ 0.0000e+00,  6.5193e-09,  0.0000e+00,  ...,  1.8626e-08,
+          1.0151e-07,  3.0734e-08],
+        [ 0.0000e+00,  1.5832e-08,  0.0000e+00,  ...,  3.6322e-08,
+         -9.4622e-07, -2.2538e-07],
+        ...,
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  4.7497e-07,
+          2.4214e-08,  8.3819e-09],
+        [ 2.7940e-09, -7.6368e-08,  0.0000e+00,  ..., -1.3318e-07,
+         -2.3283e-08, -6.4261e-08],
+        [ 5.5879e-09, -3.6322e-08,  0.0000e+00,  ..., -5.3458e-07,
+          1.1176e-07,  6.8918e-08]], device='cuda:0')
+Epoch 224, bias, value: tensor([-0.0190, -0.0306, -0.0159, -0.0261, -0.0279,  0.0042,  0.0283, -0.0121,
+         0.0395, -0.0044], device='cuda:0'), grad: tensor([-1.6391e-05,  3.1013e-07, -2.0731e-06,  1.3057e-06, -8.1770e-07,
+        -5.9605e-08,  1.6987e-05,  4.3772e-06, -3.5297e-07, -3.2559e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 223, time 250.44, cls_loss 0.0026 cls_loss_mapping 0.0025 cls_loss_causal 0.5000 re_mapping 0.0056 re_causal 0.0146 /// teacc 99.02 lr 0.00010000
+Epoch 225, weight, value: tensor([[-0.1059, -0.1788, -0.0662,  ..., -0.0618,  0.1659,  0.1642],
+        [-0.1948, -0.1671, -0.0975,  ..., -0.1478, -0.1944, -0.1117],
+        [-0.0763, -0.1215,  0.1211,  ..., -0.1807,  0.2003,  0.0751],
+        ...,
+        [-0.1205,  0.0646,  0.0421,  ...,  0.1758, -0.1899, -0.2032],
+        [-0.2263,  0.0625, -0.1231,  ...,  0.0524, -0.0827, -0.1359],
+        [ 0.0121, -0.1072, -0.0874,  ..., -0.0951, -0.0549, -0.1432]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  5.5879e-09,  0.0000e+00,  ..., -6.7055e-08,
+         -6.2305e-07, -6.6962e-07],
+        [ 2.7940e-09,  1.4901e-08,  0.0000e+00,  ...,  1.1176e-08,
+          4.0047e-08,  3.8184e-08],
+        [ 2.0489e-08,  5.0291e-08,  0.0000e+00,  ...,  3.6322e-08,
+          1.1362e-07,  4.6566e-08],
+        ...,
+        [ 4.6566e-09,  1.6764e-08,  0.0000e+00,  ...,  5.5879e-09,
+          1.1176e-08,  2.7940e-09],
+        [-3.5390e-08,  1.8626e-09,  0.0000e+00,  ..., -2.2314e-06,
+         -1.9651e-07, -7.3574e-08],
+        [ 9.3132e-10, -1.3970e-08,  0.0000e+00,  ..., -3.6322e-08,
+          4.6566e-08,  2.0489e-08]], device='cuda:0')
+Epoch 225, bias, value: tensor([-0.0192, -0.0306, -0.0159, -0.0247, -0.0280,  0.0031,  0.0284, -0.0122,
+         0.0398, -0.0043], device='cuda:0'), grad: tensor([-1.4063e-06,  1.1828e-07,  8.3074e-07,  1.1269e-07,  4.1910e-08,
+         2.4028e-06,  6.2771e-06,  1.3132e-07, -8.0392e-06, -4.7963e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 224, time 250.53, cls_loss 0.0027 cls_loss_mapping 0.0028 cls_loss_causal 0.4744 re_mapping 0.0058 re_causal 0.0143 /// teacc 98.98 lr 0.00010000
+Epoch 226, weight, value: tensor([[-0.1059, -0.1802, -0.0663,  ..., -0.0618,  0.1660,  0.1643],
+        [-0.1956, -0.1672, -0.0974,  ..., -0.1479, -0.1946, -0.1120],
+        [-0.0762, -0.1221,  0.1209,  ..., -0.1812,  0.2005,  0.0751],
+        ...,
+        [-0.1211,  0.0646,  0.0421,  ...,  0.1761, -0.1904, -0.2034],
+        [-0.2270,  0.0624, -0.1232,  ...,  0.0524, -0.0829, -0.1362],
+        [ 0.0116, -0.1075, -0.0874,  ..., -0.0954, -0.0551, -0.1440]],
+       device='cuda:0'), grad: tensor([[ 7.3761e-06,  1.0245e-08,  0.0000e+00,  ...,  8.0466e-06,
+         -7.5437e-08, -2.7008e-08],
+        [ 8.5682e-08,  1.6205e-07,  0.0000e+00,  ...,  3.3993e-07,
+          0.0000e+00,  0.0000e+00],
+        [ 9.0338e-08,  2.6356e-07,  0.0000e+00,  ...,  5.0478e-07,
+         -1.8626e-09, -9.3132e-10],
+        ...,
+        [ 1.2293e-07, -1.0887e-06,  9.3132e-10,  ..., -1.5302e-06,
+          2.7940e-09,  9.3132e-10],
+        [ 2.7940e-08,  3.7253e-08,  0.0000e+00,  ...,  5.8673e-08,
+          2.7940e-09,  1.8626e-09],
+        [ 3.7625e-07,  5.6438e-07, -2.7940e-09,  ...,  1.2740e-06,
+          6.6124e-08,  2.4214e-08]], device='cuda:0')
+Epoch 226, bias, value: tensor([-0.0191, -0.0304, -0.0161, -0.0246, -0.0281,  0.0028,  0.0287, -0.0123,
+         0.0397, -0.0043], device='cuda:0'), grad: tensor([ 2.3037e-05,  9.0525e-07,  1.5497e-06,  8.5309e-06, -4.0978e-08,
+        -3.5048e-05,  1.5767e-06, -4.6566e-06,  1.5926e-07,  4.0308e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 225, time 250.57, cls_loss 0.0029 cls_loss_mapping 0.0029 cls_loss_causal 0.4978 re_mapping 0.0052 re_causal 0.0139 /// teacc 99.05 lr 0.00010000
+Epoch 227, weight, value: tensor([[-0.1061, -0.1810, -0.0664,  ..., -0.0618,  0.1661,  0.1643],
+        [-0.1960, -0.1675, -0.0973,  ..., -0.1481, -0.1950, -0.1123],
+        [-0.0759, -0.1224,  0.1210,  ..., -0.1813,  0.2019,  0.0757],
+        ...,
+        [-0.1218,  0.0643,  0.0420,  ...,  0.1761, -0.1921, -0.2040],
+        [-0.2279,  0.0623, -0.1236,  ...,  0.0522, -0.0832, -0.1368],
+        [ 0.0098, -0.1081, -0.0874,  ..., -0.0954, -0.0553, -0.1450]],
+       device='cuda:0'), grad: tensor([[ 1.4901e-08,  1.5832e-08,  0.0000e+00,  ...,  2.1420e-08,
+         -1.9930e-07, -1.3225e-07],
+        [ 4.6566e-08,  1.2666e-07,  1.8626e-09,  ...,  2.9989e-07,
+          8.2888e-08,  9.3132e-10],
+        [ 9.3132e-10,  7.4320e-07,  4.6566e-09,  ...,  1.2787e-06,
+         -2.3842e-07,  6.5193e-09],
+        ...,
+        [ 1.2107e-08, -2.5220e-06,  0.0000e+00,  ..., -4.1313e-06,
+          1.4994e-07,  2.7940e-09],
+        [ 6.3144e-07, -2.2724e-07,  0.0000e+00,  ..., -1.9744e-07,
+          1.3970e-08,  7.4506e-09],
+        [ 3.0641e-07,  1.5534e-06,  0.0000e+00,  ...,  2.7921e-06,
+          5.2154e-08,  3.1665e-08]], device='cuda:0')
+Epoch 227, bias, value: tensor([-0.0191, -0.0306, -0.0156, -0.0241, -0.0278,  0.0032,  0.0286, -0.0125,
+         0.0395, -0.0045], device='cuda:0'), grad: tensor([-2.7474e-07,  1.6801e-06,  1.6131e-06,  4.8280e-06,  2.9430e-06,
+        -4.9658e-06,  4.7497e-07, -6.0201e-06, -1.1539e-06,  8.4750e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 226----------------------------------------------------
+epoch 226, time 267.53, cls_loss 0.0036 cls_loss_mapping 0.0027 cls_loss_causal 0.4922 re_mapping 0.0055 re_causal 0.0137 /// teacc 99.07 lr 0.00010000
+Epoch 228, weight, value: tensor([[-0.1067, -0.1835, -0.0664,  ..., -0.0618,  0.1659,  0.1641],
+        [-0.1962, -0.1681, -0.0973,  ..., -0.1486, -0.1955, -0.1128],
+        [-0.0761, -0.1223,  0.1212,  ..., -0.1812,  0.2032,  0.0762],
+        ...,
+        [-0.1211,  0.0648,  0.0420,  ...,  0.1770, -0.1934, -0.2051],
+        [-0.2271,  0.0621, -0.1261,  ...,  0.0526, -0.0832, -0.1370],
+        [ 0.0075, -0.1097, -0.0874,  ..., -0.0960, -0.0554, -0.1458]],
+       device='cuda:0'), grad: tensor([[ 8.2050e-07,  1.0245e-08,  0.0000e+00,  ...,  2.3283e-08,
+          5.6252e-07,  2.4494e-07],
+        [ 1.3039e-08,  1.5832e-08,  0.0000e+00,  ...,  1.5274e-07,
+          6.5193e-09,  6.5193e-09],
+        [ 1.1176e-08, -2.5705e-07,  0.0000e+00,  ...,  6.5193e-09,
+         -1.1548e-07, -2.8405e-07],
+        ...,
+        [ 3.9022e-07,  2.7940e-09,  0.0000e+00,  ...,  1.6754e-06,
+          2.1420e-08,  2.8871e-08],
+        [ 3.3714e-07,  1.0710e-07,  0.0000e+00,  ...,  4.7404e-07,
+          1.0524e-07,  8.9407e-08],
+        [-2.6580e-06,  2.9802e-08, -0.0000e+00,  ..., -1.3158e-05,
+          5.5879e-08,  3.6322e-08]], device='cuda:0')
+Epoch 228, bias, value: tensor([-0.0194, -0.0308, -0.0152, -0.0237, -0.0275,  0.0028,  0.0284, -0.0121,
+         0.0401, -0.0051], device='cuda:0'), grad: tensor([ 1.2778e-06,  6.5938e-07, -1.2312e-06,  9.7509e-07,  3.2127e-05,
+         2.2620e-05, -8.7246e-06,  8.0094e-06,  3.1181e-06, -5.8800e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 227, time 250.63, cls_loss 0.0026 cls_loss_mapping 0.0030 cls_loss_causal 0.5020 re_mapping 0.0058 re_causal 0.0149 /// teacc 99.03 lr 0.00010000
+Epoch 229, weight, value: tensor([[-0.1067, -0.1840, -0.0663,  ..., -0.0618,  0.1659,  0.1641],
+        [-0.1967, -0.1694, -0.0973,  ..., -0.1502, -0.1959, -0.1139],
+        [-0.0759, -0.1226,  0.1212,  ..., -0.1819,  0.2036,  0.0772],
+        ...,
+        [-0.1210,  0.0659,  0.0419,  ...,  0.1790, -0.1935, -0.2053],
+        [-0.2272,  0.0616, -0.1262,  ...,  0.0526, -0.0832, -0.1372],
+        [ 0.0067, -0.1114, -0.0874,  ..., -0.0969, -0.0554, -0.1461]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  1.1176e-08,  1.1902e-06,  ...,  1.3970e-08,
+          7.5884e-06,  3.2689e-07],
+        [ 1.5832e-08,  2.0489e-08,  7.4506e-09,  ...,  1.7695e-08,
+          5.1223e-08,  6.5193e-09],
+        [ 7.4506e-09,  6.5193e-09, -1.5264e-06,  ...,  1.6764e-08,
+         -9.8348e-06, -4.5821e-07],
+        ...,
+        [ 8.3819e-09, -8.0187e-07,  4.0047e-08,  ..., -9.7230e-07,
+          2.7847e-07,  2.8871e-08],
+        [ 2.2352e-08,  9.4995e-08,  4.3772e-08,  ...,  7.2643e-08,
+          2.7567e-07,  1.7695e-08],
+        [-5.2713e-07,  6.5006e-07,  5.0291e-08,  ..., -1.7034e-06,
+          3.6508e-07,  2.1420e-08]], device='cuda:0')
+Epoch 229, bias, value: tensor([-0.0194, -0.0313, -0.0147, -0.0252, -0.0275,  0.0040,  0.0284, -0.0113,
+         0.0397, -0.0055], device='cuda:0'), grad: tensor([ 1.4089e-05,  1.7323e-07, -1.8209e-05, -2.8796e-06,  2.7418e-06,
+         2.0325e-05,  4.4703e-08, -1.6596e-06,  7.4506e-07, -1.5363e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 228, time 250.54, cls_loss 0.0029 cls_loss_mapping 0.0032 cls_loss_causal 0.4890 re_mapping 0.0055 re_causal 0.0140 /// teacc 98.99 lr 0.00010000
+Epoch 230, weight, value: tensor([[-0.1068, -0.1848, -0.0661,  ..., -0.0618,  0.1660,  0.1642],
+        [-0.1974, -0.1695, -0.0973,  ..., -0.1505, -0.1970, -0.1148],
+        [-0.0756, -0.1237,  0.1218,  ..., -0.1832,  0.2048,  0.0780],
+        ...,
+        [-0.1213,  0.0661,  0.0419,  ...,  0.1794, -0.1939, -0.2056],
+        [-0.2286,  0.0615, -0.1264,  ...,  0.0524, -0.0835, -0.1377],
+        [ 0.0067, -0.1118, -0.0874,  ..., -0.0970, -0.0556, -0.1465]],
+       device='cuda:0'), grad: tensor([[-3.0734e-08,  0.0000e+00,  0.0000e+00,  ...,  7.4506e-09,
+         -1.8533e-07, -6.4261e-08],
+        [ 1.7136e-07,  1.3690e-07,  0.0000e+00,  ...,  3.5856e-07,
+          9.7789e-08,  1.2107e-07],
+        [ 1.5832e-08,  3.7253e-09,  0.0000e+00,  ..., -4.9658e-06,
+         -1.6868e-05, -1.4544e-05],
+        ...,
+        [ 1.8626e-09, -1.4715e-07,  0.0000e+00,  ..., -3.8557e-07,
+          1.6764e-08,  1.0245e-08],
+        [ 1.4342e-07,  1.8626e-09,  0.0000e+00,  ...,  4.9621e-06,
+          1.6913e-05,  1.4596e-05],
+        [ 1.2107e-08,  5.5879e-09,  0.0000e+00,  ...,  1.4901e-08,
+          5.9605e-08,  2.5146e-08]], device='cuda:0')
+Epoch 230, bias, value: tensor([-0.0193, -0.0312, -0.0146, -0.0252, -0.0285,  0.0040,  0.0286, -0.0113,
+         0.0391, -0.0046], device='cuda:0'), grad: tensor([-2.8778e-07,  1.2117e-06, -7.1824e-05,  5.2527e-07, -4.6566e-08,
+         4.5542e-07, -1.7127e-06, -6.5193e-07,  7.2122e-05,  1.2200e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 229, time 250.26, cls_loss 0.0025 cls_loss_mapping 0.0027 cls_loss_causal 0.5179 re_mapping 0.0053 re_causal 0.0144 /// teacc 98.97 lr 0.00010000
+Epoch 231, weight, value: tensor([[-0.1068, -0.1854, -0.0662,  ..., -0.0618,  0.1661,  0.1642],
+        [-0.1995, -0.1696, -0.0962,  ..., -0.1507, -0.1973, -0.1150],
+        [-0.0757, -0.1249,  0.1218,  ..., -0.1834,  0.2049,  0.0780],
+        ...,
+        [-0.1226,  0.0659,  0.0406,  ...,  0.1794, -0.1943, -0.2060],
+        [-0.2297,  0.0620, -0.1264,  ...,  0.0520, -0.0841, -0.1400],
+        [ 0.0065, -0.1123, -0.0881,  ..., -0.0973, -0.0557, -0.1470]],
+       device='cuda:0'), grad: tensor([[ 1.0338e-07,  0.0000e+00,  0.0000e+00,  ...,  7.4506e-09,
+         -6.7987e-08, -5.3085e-08],
+        [ 8.3819e-09,  9.3132e-10,  0.0000e+00,  ...,  1.8626e-09,
+          4.6566e-09,  2.7940e-09],
+        [ 6.5193e-09, -9.3132e-10,  0.0000e+00,  ...,  1.8626e-09,
+          5.5879e-09,  5.5879e-09],
+        ...,
+        [ 2.6077e-08,  1.8626e-09,  0.0000e+00,  ...,  6.5193e-09,
+          2.9802e-08,  2.1420e-08],
+        [ 3.8184e-08,  2.7940e-09,  0.0000e+00,  ..., -4.6566e-09,
+          9.3132e-09,  6.5193e-09],
+        [ 3.2037e-07, -1.8626e-09,  0.0000e+00,  ...,  6.9849e-08,
+          6.1467e-08,  4.2841e-08]], device='cuda:0')
+Epoch 231, bias, value: tensor([-0.0193, -0.0312, -0.0148, -0.0251, -0.0287,  0.0053,  0.0285, -0.0114,
+         0.0384, -0.0047], device='cuda:0'), grad: tensor([ 3.6322e-08, -2.0295e-05,  2.7455e-06,  3.3051e-05,  8.5682e-08,
+        -2.9787e-05, -1.8626e-08,  8.6278e-06,  1.6950e-07,  5.4426e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 230, time 250.41, cls_loss 0.0030 cls_loss_mapping 0.0026 cls_loss_causal 0.5130 re_mapping 0.0056 re_causal 0.0139 /// teacc 98.96 lr 0.00010000
+Epoch 232, weight, value: tensor([[-0.1069, -0.1884, -0.0662,  ..., -0.0619,  0.1664,  0.1643],
+        [-0.2000, -0.1698, -0.0962,  ..., -0.1509, -0.1989, -0.1159],
+        [-0.0756, -0.1256,  0.1219,  ..., -0.1842,  0.2050,  0.0780],
+        ...,
+        [-0.1243,  0.0664,  0.0407,  ...,  0.1799, -0.1947, -0.2062],
+        [-0.2303,  0.0620, -0.1267,  ...,  0.0522, -0.0840, -0.1400],
+        [ 0.0064, -0.1137, -0.0882,  ..., -0.0983, -0.0558, -0.1478]],
+       device='cuda:0'), grad: tensor([[-3.7253e-09,  2.3283e-08,  0.0000e+00,  ...,  1.0151e-07,
+         -2.9709e-07, -1.2945e-07],
+        [ 5.5879e-08,  2.9337e-07,  0.0000e+00,  ...,  8.3819e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 3.0175e-07,  1.5795e-06,  0.0000e+00,  ...,  6.4354e-07,
+          2.2352e-07,  7.0781e-08],
+        ...,
+        [ 1.8626e-08,  7.3574e-08,  0.0000e+00,  ..., -9.3132e-09,
+          3.7253e-09,  1.8626e-09],
+        [ 2.8051e-06,  8.0839e-07,  0.0000e+00,  ...,  1.1921e-06,
+         -8.1025e-07, -2.4959e-07],
+        [ 4.9360e-08,  5.4017e-08,  0.0000e+00,  ...,  1.3970e-08,
+          2.2352e-08,  1.0245e-08]], device='cuda:0')
+Epoch 232, bias, value: tensor([-0.0190, -0.0314, -0.0153, -0.0257, -0.0284,  0.0055,  0.0285, -0.0111,
+         0.0386, -0.0051], device='cuda:0'), grad: tensor([ 2.2352e-08,  4.8708e-07,  4.4107e-06,  9.6709e-06,  1.2759e-07,
+        -2.2948e-05,  5.0291e-07,  1.7975e-07,  7.5437e-06, -6.5193e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 231, time 250.38, cls_loss 0.0027 cls_loss_mapping 0.0025 cls_loss_causal 0.5024 re_mapping 0.0056 re_causal 0.0144 /// teacc 98.99 lr 0.00010000
+Epoch 233, weight, value: tensor([[-0.1072, -0.1899, -0.0670,  ..., -0.0621,  0.1663,  0.1643],
+        [-0.2010, -0.1699, -0.0962,  ..., -0.1512, -0.1993, -0.1159],
+        [-0.0756, -0.1264,  0.1226,  ..., -0.1849,  0.2061,  0.0784],
+        ...,
+        [-0.1249,  0.0639,  0.0405,  ...,  0.1777, -0.1962, -0.2075],
+        [-0.2314,  0.0619, -0.1271,  ...,  0.0520, -0.0843, -0.1405],
+        [ 0.0060, -0.1108, -0.0881,  ..., -0.0955, -0.0559, -0.1481]],
+       device='cuda:0'), grad: tensor([[ 1.3039e-08, -3.7253e-08,  0.0000e+00,  ...,  2.7940e-09,
+         -3.9767e-07, -2.4494e-07],
+        [ 7.4506e-09,  2.3283e-08,  0.0000e+00,  ..., -4.2617e-05,
+          1.0245e-08,  6.5193e-09],
+        [ 7.4506e-09,  3.1665e-08,  0.0000e+00,  ...,  2.4214e-08,
+          2.3562e-07,  1.5367e-07],
+        ...,
+        [ 9.3132e-10, -1.7509e-07,  0.0000e+00,  ...,  3.8981e-05,
+          5.5879e-09,  3.7253e-09],
+        [ 3.7253e-09,  1.7695e-08,  0.0000e+00,  ...,  3.6322e-08,
+          7.2643e-08,  4.6566e-08],
+        [ 9.3132e-10,  3.0734e-08,  0.0000e+00,  ...,  3.1143e-06,
+          1.0151e-07,  6.3330e-08]], device='cuda:0')
+Epoch 233, bias, value: tensor([-0.0192, -0.0316, -0.0151, -0.0256, -0.0282,  0.0055,  0.0290, -0.0134,
+         0.0383, -0.0029], device='cuda:0'), grad: tensor([-4.8243e-07, -9.3997e-05,  4.3958e-07,  1.8720e-07,  7.9628e-07,
+         4.4424e-07, -1.0617e-07,  8.6546e-05,  2.6543e-07,  6.0014e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 232, time 250.30, cls_loss 0.0035 cls_loss_mapping 0.0028 cls_loss_causal 0.5041 re_mapping 0.0056 re_causal 0.0132 /// teacc 99.01 lr 0.00010000
+Epoch 234, weight, value: tensor([[-0.1073, -0.1928, -0.0678,  ..., -0.0621,  0.1668,  0.1645],
+        [-0.2013, -0.1705, -0.0956,  ..., -0.1518, -0.2006, -0.1166],
+        [-0.0760, -0.1277,  0.1241,  ..., -0.1850,  0.2080,  0.0780],
+        ...,
+        [-0.1278,  0.0640,  0.0398,  ...,  0.1781, -0.1997, -0.2082],
+        [-0.2318,  0.0616, -0.1276,  ...,  0.0517, -0.0848, -0.1410],
+        [ 0.0033, -0.1109, -0.0885,  ..., -0.0956, -0.0563, -0.1505]],
+       device='cuda:0'), grad: tensor([[-2.2836e-06,  1.8626e-08,  6.5193e-09,  ...,  3.3528e-08,
+         -7.5139e-06, -6.9998e-06],
+        [ 6.5193e-09,  7.4506e-09,  1.8626e-09,  ...,  2.3283e-08,
+          1.4994e-07,  7.6368e-08],
+        [ 2.0023e-07,  5.4948e-08,  0.0000e+00,  ...,  7.2643e-08,
+         -1.0375e-06, -2.0489e-07],
+        ...,
+        [ 2.7940e-08, -1.6764e-07,  1.5832e-08,  ..., -2.0210e-07,
+          2.5705e-07,  1.6112e-07],
+        [ 2.1793e-07,  3.3528e-08,  1.8626e-08,  ..., -4.7591e-07,
+          1.1511e-06,  8.3726e-07],
+        [ 4.0326e-07,  3.9116e-08, -5.4948e-08,  ...,  4.8056e-07,
+          1.3923e-06,  1.2573e-06]], device='cuda:0')
+Epoch 234, bias, value: tensor([-0.0187, -0.0314, -0.0144, -0.0242, -0.0280,  0.0050,  0.0286, -0.0137,
+         0.0379, -0.0032], device='cuda:0'), grad: tensor([-1.1846e-05,  8.7265e-07, -7.6219e-06,  9.9745e-07,  1.5339e-06,
+         1.2163e-06,  8.6948e-06,  9.2387e-07,  1.8915e-06,  3.3379e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 233, time 250.42, cls_loss 0.0025 cls_loss_mapping 0.0021 cls_loss_causal 0.5273 re_mapping 0.0057 re_causal 0.0150 /// teacc 99.01 lr 0.00010000
+Epoch 235, weight, value: tensor([[-0.1074, -0.1952, -0.0680,  ..., -0.0622,  0.1669,  0.1646],
+        [-0.2013, -0.1707, -0.0954,  ..., -0.1534, -0.2009, -0.1167],
+        [-0.0761, -0.1279,  0.1242,  ..., -0.1839,  0.2101,  0.0779],
+        ...,
+        [-0.1277,  0.0641,  0.0397,  ...,  0.1789, -0.2018, -0.2082],
+        [-0.2322,  0.0616, -0.1276,  ...,  0.0518, -0.0847, -0.1410],
+        [ 0.0030, -0.1110, -0.0890,  ..., -0.0957, -0.0564, -0.1509]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  7.4506e-09,  0.0000e+00,  ...,  9.3132e-09,
+         -2.0489e-08, -1.4901e-08],
+        [ 0.0000e+00,  1.3690e-07,  0.0000e+00,  ...,  2.2817e-07,
+          2.7940e-09,  9.3132e-10],
+        [ 0.0000e+00,  1.4901e-07,  0.0000e+00,  ...,  1.6671e-07,
+         -2.9802e-08, -3.7253e-09],
+        ...,
+        [ 9.3132e-10, -9.7230e-07,  0.0000e+00,  ..., -1.3439e-06,
+          2.2352e-08,  3.7253e-09],
+        [ 4.0978e-08,  7.4506e-09,  0.0000e+00,  ...,  7.9162e-08,
+          1.3039e-08,  1.8626e-09],
+        [ 4.6566e-09,  6.5193e-07,  0.0000e+00,  ...,  9.2015e-07,
+         -3.7253e-09,  3.7253e-09]], device='cuda:0')
+Epoch 235, bias, value: tensor([-0.0186, -0.0324, -0.0136, -0.0231, -0.0280,  0.0039,  0.0285, -0.0133,
+         0.0380, -0.0032], device='cuda:0'), grad: tensor([ 3.7253e-08,  6.4634e-07,  3.9488e-07,  2.0489e-07, -8.8476e-08,
+        -2.6729e-07,  4.7497e-08, -3.4552e-06,  2.4959e-07,  2.2221e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 234, time 250.56, cls_loss 0.0030 cls_loss_mapping 0.0031 cls_loss_causal 0.5277 re_mapping 0.0053 re_causal 0.0142 /// teacc 99.03 lr 0.00010000
+Epoch 236, weight, value: tensor([[-0.1075, -0.1960, -0.0684,  ..., -0.0622,  0.1670,  0.1647],
+        [-0.2016, -0.1708, -0.0954,  ..., -0.1547, -0.2012, -0.1167],
+        [-0.0762, -0.1280,  0.1260,  ..., -0.1840,  0.2108,  0.0780],
+        ...,
+        [-0.1280,  0.0645,  0.0398,  ...,  0.1797, -0.2022, -0.2085],
+        [-0.2327,  0.0615, -0.1280,  ...,  0.0519, -0.0850, -0.1415],
+        [ 0.0026, -0.1114, -0.0890,  ..., -0.0962, -0.0565, -0.1515]],
+       device='cuda:0'), grad: tensor([[ 2.0489e-08,  4.6566e-09,  3.2596e-08,  ...,  1.5832e-08,
+          1.6298e-07,  9.3132e-10],
+        [ 3.7253e-09,  8.3819e-08,  0.0000e+00,  ...,  1.1362e-07,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  1.0245e-08,  0.0000e+00,  ...,  1.4901e-08,
+         -2.7940e-09, -9.3132e-10],
+        ...,
+        [ 4.6566e-09, -8.1584e-07,  0.0000e+00,  ..., -1.1642e-06,
+          1.8626e-09,  9.3132e-10],
+        [ 1.2107e-08,  1.0990e-07,  4.6566e-09,  ...,  1.5926e-07,
+          1.8626e-09,  0.0000e+00],
+        [ 1.8626e-09,  4.9081e-07,  2.8871e-08,  ...,  7.1060e-07,
+          1.7136e-07,  0.0000e+00]], device='cuda:0')
+Epoch 236, bias, value: tensor([-0.0186, -0.0338, -0.0137, -0.0249, -0.0271,  0.0054,  0.0285, -0.0121,
+         0.0381, -0.0038], device='cuda:0'), grad: tensor([ 9.5926e-07, -4.8149e-07,  4.6566e-08,  2.6897e-06, -6.2305e-07,
+        -2.4606e-06,  1.8068e-07, -2.5034e-06,  5.0385e-07,  1.7183e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 235, time 250.36, cls_loss 0.0026 cls_loss_mapping 0.0033 cls_loss_causal 0.4962 re_mapping 0.0052 re_causal 0.0135 /// teacc 99.00 lr 0.00010000
+Epoch 237, weight, value: tensor([[-0.1079, -0.1971, -0.0691,  ..., -0.0623,  0.1671,  0.1647],
+        [-0.2016, -0.1709, -0.0956,  ..., -0.1548, -0.2016, -0.1169],
+        [-0.0763, -0.1280,  0.1269,  ..., -0.1841,  0.2114,  0.0781],
+        ...,
+        [-0.1281,  0.0647,  0.0405,  ...,  0.1800, -0.2026, -0.2089],
+        [-0.2331,  0.0614, -0.1285,  ...,  0.0519, -0.0853, -0.1417],
+        [ 0.0031, -0.1114, -0.0922,  ..., -0.0963, -0.0567, -0.1523]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  1.8626e-09,  ...,  2.7940e-09,
+         -4.2375e-07, -2.0210e-07],
+        [ 0.0000e+00,  6.4261e-08, -5.3085e-08,  ...,  1.2759e-07,
+          9.3132e-10,  9.3132e-10],
+        [ 0.0000e+00,  1.0245e-08,  0.0000e+00,  ...,  1.7695e-08,
+          3.2596e-08,  2.3283e-08],
+        ...,
+        [ 0.0000e+00, -2.5518e-07,  1.4901e-08,  ..., -5.0478e-07,
+          4.6566e-09,  3.7253e-09],
+        [ 0.0000e+00,  5.5879e-09,  7.4506e-09,  ...,  2.7940e-09,
+          1.3411e-07,  5.8673e-08],
+        [ 0.0000e+00,  1.6391e-07, -9.8720e-08,  ...,  3.4459e-07,
+          2.3190e-07,  1.0431e-07]], device='cuda:0')
+Epoch 237, bias, value: tensor([-0.0187, -0.0338, -0.0137, -0.0246, -0.0260,  0.0050,  0.0283, -0.0120,
+         0.0379, -0.0044], device='cuda:0'), grad: tensor([-6.4634e-07, -1.0151e-06,  1.1083e-07,  3.5390e-08,  1.5125e-06,
+         1.3970e-08,  2.8871e-08, -1.2992e-06,  2.6543e-07,  9.9000e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 236, time 250.41, cls_loss 0.0023 cls_loss_mapping 0.0022 cls_loss_causal 0.5031 re_mapping 0.0054 re_causal 0.0142 /// teacc 98.97 lr 0.00010000
+Epoch 238, weight, value: tensor([[-0.1081, -0.1988, -0.0697,  ..., -0.0625,  0.1671,  0.1647],
+        [-0.2020, -0.1713, -0.0954,  ..., -0.1552, -0.2016, -0.1173],
+        [-0.0760, -0.1292,  0.1274,  ..., -0.1850,  0.2120,  0.0783],
+        ...,
+        [-0.1284,  0.0650,  0.0408,  ...,  0.1805, -0.2034, -0.2091],
+        [-0.2334,  0.0613, -0.1300,  ...,  0.0520, -0.0853, -0.1417],
+        [ 0.0030, -0.1116, -0.0913,  ..., -0.0964, -0.0568, -0.1531]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  9.3132e-10,
+         -4.4703e-08, -4.5635e-08],
+        [ 1.8626e-09,  4.6566e-09, -9.3132e-10,  ..., -3.6322e-08,
+          7.0781e-08,  2.1420e-08],
+        [ 0.0000e+00,  9.3132e-10, -3.3528e-08,  ...,  2.7940e-09,
+         -2.0303e-07, -6.1467e-08],
+        ...,
+        [ 9.3132e-10, -1.5832e-08,  1.3970e-08,  ..., -1.4901e-08,
+          1.6764e-08,  4.6566e-09],
+        [ 9.3132e-10,  1.8626e-09,  1.8626e-09,  ..., -6.5193e-09,
+          7.4506e-09,  2.7940e-09],
+        [ 1.8626e-09,  1.9558e-08, -1.0524e-07,  ...,  3.8184e-08,
+          1.0245e-08,  7.4506e-09]], device='cuda:0')
+Epoch 238, bias, value: tensor([-0.0188, -0.0340, -0.0137, -0.0235, -0.0265,  0.0038,  0.0285, -0.0117,
+         0.0380, -0.0042], device='cuda:0'), grad: tensor([-5.4948e-08, -1.6764e-07, -2.8405e-07, -8.3819e-09,  5.1875e-07,
+         1.4901e-08,  1.8068e-07,  1.0617e-07, -6.5193e-09, -2.9989e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 237, time 250.57, cls_loss 0.0036 cls_loss_mapping 0.0035 cls_loss_causal 0.5428 re_mapping 0.0052 re_causal 0.0137 /// teacc 99.01 lr 0.00010000
+Epoch 239, weight, value: tensor([[-0.1084, -0.2000, -0.0701,  ..., -0.0625,  0.1671,  0.1647],
+        [-0.2031, -0.1717, -0.0950,  ..., -0.1554, -0.2018, -0.1174],
+        [-0.0761, -0.1299,  0.1276,  ..., -0.1862,  0.2125,  0.0785],
+        ...,
+        [-0.1286,  0.0650,  0.0425,  ...,  0.1798, -0.2037, -0.2097],
+        [-0.2327,  0.0630, -0.1297,  ...,  0.0561, -0.0847, -0.1421],
+        [ 0.0017, -0.1121, -0.0924,  ..., -0.0967, -0.0570, -0.1543]],
+       device='cuda:0'), grad: tensor([[ 1.2945e-07,  1.7509e-07,  5.1223e-08,  ...,  2.7008e-07,
+         -4.0326e-07, -2.4959e-07],
+        [ 3.7253e-08,  3.0175e-07,  8.5682e-08,  ...,  2.9244e-07,
+          1.8626e-09,  1.8626e-09],
+        [ 7.4506e-09,  9.3132e-09,  2.7940e-09,  ...,  1.4901e-08,
+          4.4703e-08,  2.6077e-08],
+        ...,
+        [ 5.1223e-08, -6.5565e-05, -1.9163e-05,  ..., -5.6177e-05,
+          1.8626e-08,  1.1176e-08],
+        [ 1.6764e-08,  2.1048e-07,  5.9605e-08,  ...,  1.9185e-07,
+          9.2201e-08,  5.7742e-08],
+        [ 3.7514e-06,  6.4611e-05,  1.8880e-05,  ...,  5.8383e-05,
+          1.0896e-07,  6.7987e-08]], device='cuda:0')
+Epoch 239, bias, value: tensor([-0.0189, -0.0339, -0.0142, -0.0232, -0.0277,  0.0029,  0.0276, -0.0121,
+         0.0416, -0.0036], device='cuda:0'), grad: tensor([ 3.0361e-07,  8.0653e-07,  7.6368e-08,  3.2689e-06,  1.2703e-06,
+        -1.0841e-05,  2.8592e-07, -2.0337e-04,  9.4157e-07,  2.0742e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 238, time 250.18, cls_loss 0.0036 cls_loss_mapping 0.0030 cls_loss_causal 0.5197 re_mapping 0.0055 re_causal 0.0139 /// teacc 98.97 lr 0.00010000
+Epoch 240, weight, value: tensor([[-0.1085, -0.2013, -0.0703,  ..., -0.0626,  0.1651,  0.1649],
+        [-0.2038, -0.1721, -0.0945,  ..., -0.1560, -0.2025, -0.1181],
+        [-0.0753, -0.1302,  0.1287,  ..., -0.1865,  0.2132,  0.0791],
+        ...,
+        [-0.1294,  0.0658,  0.0439,  ...,  0.1807, -0.2041, -0.2101],
+        [-0.2348,  0.0629, -0.1307,  ...,  0.0558, -0.0859, -0.1451],
+        [ 0.0014, -0.1128, -0.0949,  ..., -0.0973, -0.0541, -0.1565]],
+       device='cuda:0'), grad: tensor([[ 8.8476e-09,  1.3970e-09,  0.0000e+00,  ...,  1.2573e-08,
+         -1.1157e-06, -5.4482e-07],
+        [ 9.3132e-10,  2.3283e-09,  0.0000e+00,  ...,  3.2596e-09,
+         -9.3132e-10,  1.8626e-09],
+        [ 4.6566e-10,  1.3970e-09,  0.0000e+00,  ...,  4.6566e-09,
+          4.6799e-07,  2.2678e-07],
+        ...,
+        [ 5.5879e-09, -2.4214e-08,  4.6566e-10,  ..., -2.2817e-08,
+          1.1176e-08,  5.1223e-09],
+        [ 5.5879e-08,  9.3132e-09,  2.7940e-09,  ...,  4.9826e-08,
+          1.4435e-08,  6.9849e-09],
+        [ 4.0047e-08,  1.9092e-08, -3.7253e-09,  ...,  6.3330e-08,
+          5.8953e-07,  2.8871e-07]], device='cuda:0')
+Epoch 240, bias, value: tensor([-0.0215, -0.0343, -0.0149, -0.0233, -0.0272,  0.0029,  0.0278, -0.0111,
+         0.0410, -0.0021], device='cuda:0'), grad: tensor([-1.9576e-06, -3.8696e-07,  9.1782e-07,  3.9339e-06,  1.6112e-07,
+        -4.0121e-06,  2.2165e-07,  2.4214e-08,  2.5379e-07,  8.4611e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 239, time 252.06, cls_loss 0.0036 cls_loss_mapping 0.0034 cls_loss_causal 0.5169 re_mapping 0.0052 re_causal 0.0135 /// teacc 99.01 lr 0.00010000
+Epoch 241, weight, value: tensor([[-0.1085, -0.2028, -0.0711,  ..., -0.0626,  0.1652,  0.1650],
+        [-0.2040, -0.1724, -0.0947,  ..., -0.1564, -0.2023, -0.1168],
+        [-0.0754, -0.1306,  0.1297,  ..., -0.1870,  0.2130,  0.0775],
+        ...,
+        [-0.1309,  0.0645,  0.0443,  ...,  0.1809, -0.2043, -0.2105],
+        [-0.2359,  0.0627, -0.1328,  ...,  0.0552, -0.0866, -0.1462],
+        [ 0.0010, -0.1131, -0.0948,  ..., -0.0976, -0.0542, -0.1585]],
+       device='cuda:0'), grad: tensor([[ 3.4645e-07,  5.5693e-07,  0.0000e+00,  ...,  6.1467e-08,
+          6.7055e-08,  1.4165e-06],
+        [ 3.5390e-08,  3.5809e-07,  0.0000e+00,  ...,  3.9162e-07,
+          1.6298e-08,  9.2667e-08],
+        [ 3.6787e-08,  6.0070e-08,  0.0000e+00,  ...,  1.8859e-07,
+         -2.7381e-07, -1.9418e-07],
+        ...,
+        [ 4.4238e-08, -1.1073e-06,  0.0000e+00,  ..., -1.4696e-06,
+          2.2678e-07,  2.9476e-07],
+        [ 8.8476e-07,  1.3132e-06,  0.0000e+00,  ..., -2.1653e-07,
+          4.6287e-07,  3.5204e-06],
+        [ 1.5832e-06,  3.4608e-06, -0.0000e+00,  ...,  1.0002e-06,
+          4.0978e-08,  1.2293e-07]], device='cuda:0')
+Epoch 241, bias, value: tensor([-0.0215, -0.0336, -0.0173, -0.0211, -0.0272,  0.0026,  0.0279, -0.0111,
+         0.0403, -0.0023], device='cuda:0'), grad: tensor([ 8.1062e-06,  1.8766e-07,  8.0140e-07, -5.0291e-06,  5.0813e-06,
+         6.1989e-06, -3.9846e-05, -1.9409e-06,  1.8939e-05,  7.5139e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 240, time 252.34, cls_loss 0.0028 cls_loss_mapping 0.0022 cls_loss_causal 0.4799 re_mapping 0.0054 re_causal 0.0136 /// teacc 98.96 lr 0.00010000
+Epoch 242, weight, value: tensor([[-0.1086, -0.2040, -0.0713,  ..., -0.0627,  0.1653,  0.1651],
+        [-0.2045, -0.1730, -0.0927,  ..., -0.1562, -0.2031, -0.1169],
+        [-0.0751, -0.1311,  0.1301,  ..., -0.1873,  0.2140,  0.0778],
+        ...,
+        [-0.1310,  0.0645,  0.0419,  ...,  0.1812, -0.2049, -0.2109],
+        [-0.2363,  0.0626, -0.1331,  ...,  0.0552, -0.0873, -0.1472],
+        [ 0.0010, -0.1134, -0.0951,  ..., -0.0979, -0.0542, -0.1608]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.0943e-07,  ...,  4.0093e-07,
+         -2.7940e-09, -3.7253e-09],
+        [ 1.3970e-09,  7.9162e-09,  9.9745e-07,  ...,  2.7288e-07,
+          6.5230e-06,  0.0000e+00],
+        [ 9.3132e-10, -9.3132e-09, -1.1943e-05,  ..., -4.5985e-05,
+         -9.9421e-05,  0.0000e+00],
+        ...,
+        [ 3.2596e-09, -7.4506e-09,  1.1548e-06,  ...,  9.8199e-06,
+          9.2864e-05,  0.0000e+00],
+        [ 1.3970e-08,  1.7695e-08,  7.3090e-06,  ...,  2.6777e-05,
+          2.5611e-08,  0.0000e+00],
+        [ 5.5879e-09, -2.4214e-08, -9.3132e-09,  ...,  1.2573e-08,
+          8.3819e-09,  4.6566e-09]], device='cuda:0')
+Epoch 242, bias, value: tensor([-0.0214, -0.0339, -0.0166, -0.0200, -0.0272,  0.0019,  0.0277, -0.0110,
+         0.0401, -0.0026], device='cuda:0'), grad: tensor([ 1.3746e-06,  1.8075e-05, -4.4513e-04,  2.7521e-07,  2.8446e-05,
+         2.9169e-06,  6.3190e-07,  3.0541e-04,  9.1851e-05, -3.9712e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 241, time 252.42, cls_loss 0.0027 cls_loss_mapping 0.0024 cls_loss_causal 0.4987 re_mapping 0.0054 re_causal 0.0141 /// teacc 99.03 lr 0.00010000
+Epoch 243, weight, value: tensor([[-0.1086, -0.2043, -0.0713,  ..., -0.0627,  0.1654,  0.1653],
+        [-0.2053, -0.1731, -0.0918,  ..., -0.1566, -0.2034, -0.1170],
+        [-0.0743, -0.1323,  0.1317,  ..., -0.1871,  0.2161,  0.0781],
+        ...,
+        [-0.1317,  0.0645,  0.0412,  ...,  0.1815, -0.2082, -0.2122],
+        [-0.2365,  0.0624, -0.1351,  ...,  0.0552, -0.0875, -0.1474],
+        [ 0.0020, -0.1134, -0.0957,  ..., -0.0980, -0.0543, -0.1618]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.1910e-09,  0.0000e+00,  ...,  1.1409e-07,
+         -2.9942e-07, -2.0582e-07],
+        [ 9.3132e-10,  7.4506e-09,  0.0000e+00,  ...,  1.3970e-08,
+          2.9802e-08,  1.3970e-09],
+        [ 4.6566e-10,  1.7229e-08,  0.0000e+00,  ...,  2.6496e-07,
+         -2.1234e-07, -2.7474e-08],
+        ...,
+        [ 3.2596e-09, -4.8894e-08,  0.0000e+00,  ..., -6.2864e-08,
+          7.9162e-08,  1.3970e-09],
+        [ 2.7940e-09,  2.3283e-09,  0.0000e+00,  ..., -1.4184e-06,
+         -3.3295e-07,  4.0047e-08],
+        [ 9.3132e-10,  2.1420e-08,  0.0000e+00,  ...,  2.5611e-08,
+          3.0082e-07,  1.7881e-07]], device='cuda:0')
+Epoch 243, bias, value: tensor([-0.0214, -0.0344, -0.0146, -0.0192, -0.0274,  0.0009,  0.0279, -0.0111,
+         0.0400, -0.0026], device='cuda:0'), grad: tensor([-1.9977e-07, -3.7253e-09,  1.0757e-07,  2.6217e-07,  1.9232e-07,
+         2.3562e-06,  9.1409e-07,  1.7975e-07, -4.4070e-06,  6.1234e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 242, time 252.48, cls_loss 0.0027 cls_loss_mapping 0.0033 cls_loss_causal 0.5178 re_mapping 0.0052 re_causal 0.0138 /// teacc 98.96 lr 0.00010000
+Epoch 244, weight, value: tensor([[-0.1087, -0.2045, -0.0714,  ..., -0.0629,  0.1656,  0.1653],
+        [-0.2054, -0.1734, -0.0917,  ..., -0.1567, -0.2035, -0.1170],
+        [-0.0744, -0.1342,  0.1321,  ..., -0.1884,  0.2168,  0.0781],
+        ...,
+        [-0.1345,  0.0647,  0.0412,  ...,  0.1818, -0.2087, -0.2124],
+        [-0.2370,  0.0623, -0.1351,  ...,  0.0551, -0.0876, -0.1475],
+        [ 0.0019, -0.1136, -0.0956,  ..., -0.0985, -0.0544, -0.1633]],
+       device='cuda:0'), grad: tensor([[ 1.0710e-07,  3.7253e-09,  6.0536e-09,  ...,  6.0536e-08,
+          8.3819e-09, -1.1176e-08],
+        [ 1.0198e-07,  2.0489e-08,  1.3970e-09,  ...,  1.4808e-07,
+          3.7253e-09,  0.0000e+00],
+        [ 2.6077e-08, -3.2596e-09, -2.5891e-07,  ...,  2.4214e-08,
+         -9.7137e-07, -1.3970e-09],
+        ...,
+        [ 1.2433e-07,  1.7695e-08,  4.6566e-09,  ...,  2.1514e-07,
+          1.7229e-08,  0.0000e+00],
+        [ 3.4004e-05,  2.1979e-06,  4.6566e-10,  ...,  3.3349e-05,
+          4.6566e-09,  4.6566e-10],
+        [ 1.0449e-06,  2.9802e-08,  0.0000e+00,  ..., -3.1982e-06,
+          9.7789e-09,  6.9849e-09]], device='cuda:0')
+Epoch 244, bias, value: tensor([-0.0213, -0.0342, -0.0150, -0.0191, -0.0271,  0.0012,  0.0277, -0.0109,
+         0.0399, -0.0029], device='cuda:0'), grad: tensor([ 2.3702e-07,  3.4459e-07, -9.7789e-07,  4.8089e-04,  1.4514e-05,
+        -5.5122e-04,  3.9563e-06,  1.2424e-06,  6.4135e-05, -1.3404e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 243, time 250.57, cls_loss 0.0031 cls_loss_mapping 0.0030 cls_loss_causal 0.5225 re_mapping 0.0050 re_causal 0.0138 /// teacc 98.99 lr 0.00010000
+Epoch 245, weight, value: tensor([[-0.1087, -0.2054, -0.0702,  ..., -0.0629,  0.1659,  0.1655],
+        [-0.2055, -0.1736, -0.0908,  ..., -0.1569, -0.2046, -0.1178],
+        [-0.0744, -0.1355,  0.1303,  ..., -0.1895,  0.2171,  0.0782],
+        ...,
+        [-0.1358,  0.0632,  0.0409,  ...,  0.1795, -0.2090, -0.2128],
+        [-0.2383,  0.0653, -0.1360,  ...,  0.0577, -0.0883, -0.1486],
+        [ 0.0010, -0.1138, -0.0955,  ..., -0.0987, -0.0544, -0.1648]],
+       device='cuda:0'), grad: tensor([[ 3.3528e-08,  2.1886e-08,  0.0000e+00,  ...,  6.5193e-09,
+         -1.8962e-06, -1.5860e-06],
+        [ 8.7544e-08,  1.0105e-07,  0.0000e+00,  ...,  3.9116e-08,
+          1.1176e-08,  8.8476e-09],
+        [ 1.1083e-07,  1.2666e-07,  0.0000e+00,  ...,  4.6566e-10,
+          9.4995e-08,  7.9162e-08],
+        ...,
+        [ 8.3353e-08,  1.2107e-07,  0.0000e+00,  ...,  1.2573e-08,
+          6.9849e-09,  5.5879e-09],
+        [ 1.8626e-07,  2.6310e-07,  0.0000e+00,  ...,  4.0047e-08,
+          1.9185e-07,  1.6019e-07],
+        [ 2.8871e-08,  3.4925e-08,  0.0000e+00,  ..., -7.2643e-08,
+          1.5479e-06,  1.2945e-06]], device='cuda:0')
+Epoch 245, bias, value: tensor([-0.0211, -0.0331, -0.0170, -0.0199, -0.0277,  0.0024,  0.0275, -0.0124,
+         0.0421, -0.0028], device='cuda:0'), grad: tensor([-3.8557e-06,  5.6764e-07,  7.0455e-07,  3.5018e-06,  1.7043e-07,
+        -5.5432e-06, -3.9814e-07,  5.6112e-07,  1.4091e-06,  2.8685e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 244, time 250.29, cls_loss 0.0028 cls_loss_mapping 0.0025 cls_loss_causal 0.4792 re_mapping 0.0052 re_causal 0.0131 /// teacc 99.03 lr 0.00010000
+Epoch 246, weight, value: tensor([[-0.1087, -0.2065, -0.0709,  ..., -0.0629,  0.1663,  0.1658],
+        [-0.2056, -0.1739, -0.0908,  ..., -0.1573, -0.2064, -0.1193],
+        [-0.0745, -0.1357,  0.1306,  ..., -0.1900,  0.2177,  0.0783],
+        ...,
+        [-0.1361,  0.0634,  0.0408,  ...,  0.1797, -0.2095, -0.2133],
+        [-0.2387,  0.0652, -0.1370,  ...,  0.0577, -0.0886, -0.1490],
+        [ 0.0010, -0.1141, -0.0956,  ..., -0.0987, -0.0546, -0.1687]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10, -1.1921e-07,  0.0000e+00,  ...,  0.0000e+00,
+         -6.5146e-07, -3.3295e-07],
+        [ 0.0000e+00,  1.3970e-09,  0.0000e+00,  ..., -4.6566e-09,
+          3.9116e-08,  2.7940e-09],
+        [ 0.0000e+00,  2.3283e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.0738e-06,  5.5879e-09],
+        ...,
+        [ 1.3970e-09,  1.9558e-08,  0.0000e+00,  ...,  1.8626e-09,
+          5.4017e-08,  2.7474e-08],
+        [ 4.0978e-08,  2.5611e-08,  0.0000e+00,  ...,  2.4214e-08,
+          4.1910e-08,  2.0955e-08],
+        [ 2.1420e-08,  6.5193e-08,  0.0000e+00,  ...,  2.2817e-08,
+          2.7660e-07,  1.4110e-07]], device='cuda:0')
+Epoch 246, bias, value: tensor([-0.0208, -0.0334, -0.0172, -0.0204, -0.0279,  0.0026,  0.0278, -0.0123,
+         0.0420, -0.0028], device='cuda:0'), grad: tensor([-1.5479e-06, -5.2676e-06,  1.5693e-07,  2.0908e-07,  4.7125e-07,
+         1.7183e-07,  2.3264e-06,  3.3583e-06,  1.8626e-07, -5.7742e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 245, time 250.25, cls_loss 0.0027 cls_loss_mapping 0.0021 cls_loss_causal 0.5151 re_mapping 0.0053 re_causal 0.0140 /// teacc 98.96 lr 0.00010000
+Epoch 247, weight, value: tensor([[-1.0872e-01, -2.0688e-01, -7.0241e-02,  ..., -6.2884e-02,
+          1.6696e-01,  1.6604e-01],
+        [-2.0644e-01, -1.7410e-01, -9.0777e-02,  ..., -1.5660e-01,
+         -2.0770e-01, -1.1931e-01],
+        [-7.4634e-02, -1.3569e-01,  1.3060e-01,  ..., -1.9005e-01,
+          2.1911e-01,  7.8251e-02],
+        ...,
+        [-1.3666e-01,  6.3550e-02,  4.0760e-02,  ...,  1.7963e-01,
+         -2.0993e-01, -2.1364e-01],
+        [-2.3937e-01,  6.5157e-02, -1.3700e-01,  ...,  5.7704e-02,
+         -8.9496e-02, -1.4954e-01],
+        [ 4.4920e-05, -1.1426e-01, -9.5559e-02,  ..., -9.8916e-02,
+         -5.4780e-02, -1.7133e-01]], device='cuda:0'), grad: tensor([[ 4.6566e-09, -1.5879e-07,  0.0000e+00,  ...,  2.7940e-09,
+         -1.9222e-06, -1.1241e-06],
+        [ 0.0000e+00,  3.5390e-08,  2.0489e-08,  ...,  2.5705e-07,
+          2.1420e-08,  1.2573e-08],
+        [ 0.0000e+00,  2.7008e-08,  2.2817e-08,  ...,  2.9197e-07,
+          8.8010e-08,  4.7963e-08],
+        ...,
+        [ 5.1223e-09, -1.9697e-07,  4.6566e-10,  ..., -3.1618e-07,
+          2.0023e-08,  1.1176e-08],
+        [ 5.0757e-08, -2.1514e-07, -6.3330e-08,  ..., -1.2368e-06,
+          7.2084e-07,  4.3400e-07],
+        [ 9.3132e-10,  1.6904e-07,  0.0000e+00,  ...,  2.1188e-07,
+          3.0827e-07,  1.7928e-07]], device='cuda:0')
+Epoch 247, bias, value: tensor([-0.0205, -0.0331, -0.0168, -0.0206, -0.0286,  0.0028,  0.0278, -0.0126,
+         0.0419, -0.0028], device='cuda:0'), grad: tensor([-4.0643e-06,  1.2163e-06,  1.4771e-06,  1.3597e-06, -7.5698e-06,
+         1.7472e-06,  1.1101e-06, -5.6857e-07, -3.3714e-06,  8.6427e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 246, time 249.85, cls_loss 0.0035 cls_loss_mapping 0.0025 cls_loss_causal 0.5216 re_mapping 0.0053 re_causal 0.0134 /// teacc 99.07 lr 0.00010000
+Epoch 248, weight, value: tensor([[-0.1088, -0.2084, -0.0706,  ..., -0.0630,  0.1672,  0.1664],
+        [-0.2067, -0.1747, -0.0908,  ..., -0.1563, -0.2080, -0.1194],
+        [-0.0747, -0.1360,  0.1307,  ..., -0.1903,  0.2199,  0.0784],
+        ...,
+        [-0.1371,  0.0639,  0.0407,  ...,  0.1797, -0.2107, -0.2139],
+        [-0.2397,  0.0654, -0.1370,  ...,  0.0577, -0.0886, -0.1497],
+        [-0.0006, -0.1145, -0.0956,  ..., -0.0991, -0.0547, -0.1730]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09,  3.2596e-09,  0.0000e+00,  ...,  9.3132e-09,
+         -1.7341e-06, -1.6410e-06],
+        [ 2.7940e-09,  1.0524e-07,  0.0000e+00,  ...,  3.5018e-07,
+          4.9360e-08,  1.7229e-08],
+        [ 9.3132e-10,  2.3283e-09,  0.0000e+00,  ...,  4.6566e-09,
+         -1.4855e-07, -5.6345e-08],
+        ...,
+        [ 4.6566e-09, -9.8068e-07,  0.0000e+00,  ..., -1.2834e-06,
+          1.9092e-08,  9.7789e-09],
+        [ 2.0955e-08,  2.7940e-08,  0.0000e+00,  ...,  2.2352e-08,
+          4.6799e-07,  4.0559e-07],
+        [ 1.2107e-08,  6.9384e-08,  0.0000e+00,  ...,  1.9465e-07,
+          1.1781e-06,  1.1129e-06]], device='cuda:0')
+Epoch 248, bias, value: tensor([-0.0205, -0.0325, -0.0170, -0.0209, -0.0298,  0.0027,  0.0271, -0.0130,
+         0.0424, -0.0019], device='cuda:0'), grad: tensor([-5.1558e-06,  6.5658e-07, -3.1479e-07,  6.5425e-07,  4.1910e-08,
+         7.6462e-07,  3.3388e-07, -2.6114e-06,  1.4473e-06,  4.1761e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 247, time 250.19, cls_loss 0.0028 cls_loss_mapping 0.0028 cls_loss_causal 0.4910 re_mapping 0.0051 re_causal 0.0130 /// teacc 98.99 lr 0.00010000
+Epoch 249, weight, value: tensor([[-0.1110, -0.2091, -0.0706,  ..., -0.0630,  0.1663,  0.1658],
+        [-0.2069, -0.1753, -0.0908,  ..., -0.1577, -0.2091, -0.1195],
+        [-0.0749, -0.1363,  0.1307,  ..., -0.1908,  0.2217,  0.0785],
+        ...,
+        [-0.1389,  0.0641,  0.0407,  ...,  0.1802, -0.2110, -0.2142],
+        [-0.2400,  0.0654, -0.1371,  ...,  0.0577, -0.0887, -0.1500],
+        [-0.0008, -0.1146, -0.0956,  ..., -0.0992, -0.0549, -0.1748]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  4.6566e-10,  0.0000e+00,  ...,  1.8626e-09,
+         -1.4575e-07, -5.9605e-08],
+        [ 5.1223e-09,  5.1223e-09,  0.0000e+00,  ...,  3.2596e-09,
+         -1.6019e-07,  9.3132e-10],
+        [ 1.3970e-09,  2.3283e-09,  0.0000e+00,  ...,  5.5879e-09,
+          4.3306e-08, -1.8626e-09],
+        ...,
+        [ 1.1642e-08, -8.7544e-08,  0.0000e+00,  ..., -1.2992e-07,
+          2.0489e-08,  2.3283e-09],
+        [ 8.0094e-08,  6.5193e-09,  0.0000e+00,  ...,  4.7963e-08,
+          4.5169e-08,  9.3132e-09],
+        [ 8.8476e-09,  5.4017e-08,  0.0000e+00,  ...,  9.7323e-08,
+          1.3877e-07,  5.2620e-08]], device='cuda:0')
+Epoch 249, bias, value: tensor([-0.0211, -0.0335, -0.0168, -0.0205, -0.0297,  0.0020,  0.0285, -0.0124,
+         0.0425, -0.0021], device='cuda:0'), grad: tensor([-1.9139e-07, -8.5495e-07,  3.0873e-07,  3.3528e-08, -1.2247e-07,
+        -2.4075e-07,  4.2329e-07, -6.6590e-08,  2.3330e-07,  4.7032e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 248----------------------------------------------------
+epoch 248, time 267.07, cls_loss 0.0026 cls_loss_mapping 0.0032 cls_loss_causal 0.5209 re_mapping 0.0051 re_causal 0.0138 /// teacc 99.14 lr 0.00010000
+Epoch 250, weight, value: tensor([[-0.1111, -0.2104, -0.0707,  ..., -0.0631,  0.1666,  0.1661],
+        [-0.2073, -0.1757, -0.0907,  ..., -0.1579, -0.2104, -0.1201],
+        [-0.0744, -0.1365,  0.1307,  ..., -0.1911,  0.2236,  0.0791],
+        ...,
+        [-0.1389,  0.0650,  0.0408,  ...,  0.1808, -0.2112, -0.2145],
+        [-0.2404,  0.0654, -0.1373,  ...,  0.0578, -0.0887, -0.1504],
+        [-0.0008, -0.1159, -0.0956,  ..., -0.1003, -0.0551, -0.1771]],
+       device='cuda:0'), grad: tensor([[ 5.7276e-08,  4.3306e-08,  0.0000e+00,  ...,  1.3970e-09,
+          1.3113e-05, -1.3970e-08],
+        [ 1.0245e-08,  1.8626e-08,  0.0000e+00,  ...,  1.3504e-08,
+          1.1642e-08,  4.6566e-10],
+        [ 7.7765e-08,  6.5658e-08,  0.0000e+00,  ...,  6.0536e-09,
+          8.2422e-08, -0.0000e+00],
+        ...,
+        [ 1.8626e-08, -9.4064e-08,  0.0000e+00,  ..., -1.3504e-07,
+          1.3132e-07,  9.3132e-10],
+        [ 1.4901e-08,  6.0536e-09,  0.0000e+00,  ...,  7.4506e-09,
+          5.1223e-09,  9.3132e-10],
+        [ 1.1176e-08,  8.8476e-08,  0.0000e+00,  ...,  9.8720e-08,
+         -1.3344e-05,  9.3132e-09]], device='cuda:0')
+Epoch 250, bias, value: tensor([-0.0209, -0.0344, -0.0152, -0.0204, -0.0301,  0.0014,  0.0282, -0.0119,
+         0.0428, -0.0025], device='cuda:0'), grad: tensor([ 6.8963e-05,  1.0850e-07,  5.7649e-07, -8.6520e-07,  1.0524e-07,
+         5.6438e-07,  4.5169e-08,  4.1304e-07,  5.5414e-08, -6.9857e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 249, time 250.41, cls_loss 0.0033 cls_loss_mapping 0.0029 cls_loss_causal 0.5149 re_mapping 0.0049 re_causal 0.0130 /// teacc 98.99 lr 0.00010000
+Epoch 251, weight, value: tensor([[-0.1111, -0.2124, -0.0707,  ..., -0.0634,  0.1668,  0.1663],
+        [-0.2079, -0.1761, -0.0906,  ..., -0.1583, -0.2106, -0.1202],
+        [-0.0745, -0.1369,  0.1308,  ..., -0.1914,  0.2241,  0.0791],
+        ...,
+        [-0.1392,  0.0653,  0.0407,  ...,  0.1812, -0.2116, -0.2147],
+        [-0.2409,  0.0654, -0.1383,  ...,  0.0577, -0.0889, -0.1507],
+        [-0.0010, -0.1164, -0.0956,  ..., -0.1010, -0.0551, -0.1788]],
+       device='cuda:0'), grad: tensor([[ 9.5461e-08,  4.9174e-07,  0.0000e+00,  ...,  2.0489e-08,
+          1.8626e-08, -7.5903e-08],
+        [ 7.0315e-08,  1.0012e-06,  0.0000e+00,  ...,  5.5414e-08,
+          4.9500e-07,  2.3283e-09],
+        [ 1.5926e-07,  4.1090e-06,  4.6566e-10,  ...,  1.6950e-07,
+          2.9653e-06,  0.0000e+00],
+        ...,
+        [ 5.3085e-08, -1.5218e-06,  2.3283e-09,  ..., -5.2992e-07,
+          1.4016e-07,  3.7253e-09],
+        [ 1.9139e-07, -5.3406e-05,  4.6566e-10,  ...,  3.9116e-08,
+         -4.5627e-05,  9.3132e-09],
+        [ 1.8161e-07,  1.0151e-06, -4.6566e-09,  ...,  1.7136e-07,
+          1.2061e-07,  4.4703e-08]], device='cuda:0')
+Epoch 251, bias, value: tensor([-2.0832e-02, -3.6316e-02, -1.5020e-02, -1.8726e-02, -2.9570e-02,
+         8.0183e-05,  2.7928e-02, -1.1584e-02,  4.2911e-02, -1.6742e-03],
+       device='cuda:0'), grad: tensor([ 2.2277e-06,  5.7891e-06,  2.9624e-05,  7.8753e-06,  5.0571e-07,
+         2.0843e-06,  3.6812e-04, -2.9393e-06, -4.1604e-04,  3.1721e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 250, time 250.33, cls_loss 0.0029 cls_loss_mapping 0.0030 cls_loss_causal 0.5065 re_mapping 0.0055 re_causal 0.0132 /// teacc 98.97 lr 0.00010000
+Epoch 252, weight, value: tensor([[-0.1111, -0.2119, -0.0713,  ..., -0.0635,  0.1673,  0.1667],
+        [-0.2080, -0.1763, -0.0907,  ..., -0.1583, -0.2111, -0.1203],
+        [-0.0746, -0.1378,  0.1311,  ..., -0.1920,  0.2251,  0.0789],
+        ...,
+        [-0.1395,  0.0656,  0.0407,  ...,  0.1815, -0.2127, -0.2152],
+        [-0.2424,  0.0655, -0.1386,  ...,  0.0575, -0.0888, -0.1527],
+        [-0.0013, -0.1167, -0.0956,  ..., -0.1013, -0.0553, -0.1814]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  1.8626e-09,  2.2352e-08,  ...,  0.0000e+00,
+         -2.7567e-07, -2.9569e-07],
+        [ 2.9383e-07,  1.5367e-07,  1.0245e-08,  ...,  1.3970e-09,
+          3.3993e-08,  8.3819e-09],
+        [ 9.3132e-09,  8.3819e-09, -2.0582e-06,  ...,  4.6566e-10,
+          1.6764e-08,  2.5146e-08],
+        ...,
+        [ 2.0489e-08, -4.6566e-08,  1.9511e-07,  ..., -5.8673e-08,
+          3.7253e-09,  1.3970e-09],
+        [ 5.4482e-08,  1.1176e-08,  1.5162e-06,  ..., -0.0000e+00,
+          1.5367e-08,  1.0710e-08],
+        [ 1.8207e-07,  1.4622e-07,  9.3132e-10,  ...,  4.0047e-08,
+          2.5099e-07,  3.1199e-08]], device='cuda:0')
+Epoch 252, bias, value: tensor([-0.0205, -0.0365, -0.0148, -0.0192, -0.0295,  0.0006,  0.0272, -0.0116,
+         0.0427, -0.0016], device='cuda:0'), grad: tensor([-1.1735e-07,  1.0757e-06, -1.4283e-05, -7.8883e-07, -1.3802e-06,
+        -5.5041e-07,  7.5158e-07,  1.3374e-06,  1.0692e-05,  3.2708e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 251, time 250.50, cls_loss 0.0023 cls_loss_mapping 0.0020 cls_loss_causal 0.4796 re_mapping 0.0054 re_causal 0.0132 /// teacc 99.02 lr 0.00010000
+Epoch 253, weight, value: tensor([[-0.1111, -0.2125, -0.0713,  ..., -0.0636,  0.1674,  0.1668],
+        [-0.2082, -0.1767, -0.0907,  ..., -0.1585, -0.2112, -0.1203],
+        [-0.0747, -0.1383,  0.1315,  ..., -0.1921,  0.2263,  0.0791],
+        ...,
+        [-0.1404,  0.0665,  0.0411,  ...,  0.1818, -0.2142, -0.2160],
+        [-0.2441,  0.0654, -0.1393,  ...,  0.0574, -0.0891, -0.1543],
+        [-0.0015, -0.1169, -0.0955,  ..., -0.1015, -0.0554, -0.1820]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  2.3283e-09,  0.0000e+00,  ...,  2.3283e-09,
+         -6.0536e-09, -5.1223e-09],
+        [ 9.3132e-10,  2.3283e-09,  0.0000e+00,  ...,  2.3283e-09,
+          4.6566e-09,  3.2596e-09],
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  2.7940e-09,
+         -6.9849e-09, -2.3283e-09],
+        ...,
+        [ 4.6566e-10, -6.7987e-08,  0.0000e+00,  ..., -7.1712e-08,
+          1.3970e-09,  4.6566e-10],
+        [ 6.0536e-09,  6.5193e-09,  0.0000e+00,  ..., -3.7253e-09,
+          7.9162e-09,  3.2596e-09],
+        [ 4.6566e-10,  4.6100e-08,  0.0000e+00,  ...,  4.8894e-08,
+          1.3970e-09,  9.3132e-10]], device='cuda:0')
+Epoch 253, bias, value: tensor([-0.0204, -0.0365, -0.0144, -0.0198, -0.0295,  0.0008,  0.0274, -0.0115,
+         0.0424, -0.0016], device='cuda:0'), grad: tensor([ 2.6543e-08, -2.7940e-08,  1.5367e-08, -2.7474e-08, -1.0766e-06,
+         8.1491e-08,  2.1420e-08,  7.5437e-08,  1.4435e-08,  9.1502e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 252, time 250.19, cls_loss 0.0026 cls_loss_mapping 0.0023 cls_loss_causal 0.5083 re_mapping 0.0052 re_causal 0.0130 /// teacc 99.02 lr 0.00010000
+Epoch 254, weight, value: tensor([[-0.1112, -0.2147, -0.0714,  ..., -0.0636,  0.1674,  0.1669],
+        [-0.2083, -0.1768, -0.0906,  ..., -0.1586, -0.2114, -0.1204],
+        [-0.0747, -0.1389,  0.1316,  ..., -0.1927,  0.2294,  0.0794],
+        ...,
+        [-0.1406,  0.0666,  0.0410,  ...,  0.1819, -0.2175, -0.2167],
+        [-0.2456,  0.0654, -0.1395,  ...,  0.0572, -0.0895, -0.1546],
+        [-0.0009, -0.1169, -0.0955,  ..., -0.1014, -0.0553, -0.1825]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  1.3970e-09,
+         -1.0151e-07, -5.5414e-08],
+        [ 9.3132e-10,  2.3749e-08,  0.0000e+00,  ...,  1.3970e-08,
+          9.3132e-10,  4.6566e-10],
+        [ 7.4506e-09,  1.3970e-08,  0.0000e+00,  ...,  8.3819e-09,
+          7.9162e-09,  3.7253e-09],
+        ...,
+        [ 5.1223e-09, -3.9628e-07,  0.0000e+00,  ..., -2.8685e-07,
+          3.7253e-09,  2.3283e-09],
+        [ 4.1910e-09,  1.4435e-08,  0.0000e+00,  ..., -5.4017e-08,
+          1.4901e-08,  8.8476e-09],
+        [ 2.3283e-09,  1.0664e-07, -0.0000e+00,  ...,  6.7987e-08,
+          5.7276e-08,  3.0268e-08]], device='cuda:0')
+Epoch 254, bias, value: tensor([-0.0205, -0.0363, -0.0135, -0.0200, -0.0302,  0.0023,  0.0265, -0.0122,
+         0.0418, -0.0010], device='cuda:0'), grad: tensor([-1.9139e-07, -1.4808e-07,  8.8476e-08,  4.2375e-07, -5.1223e-08,
+         1.8300e-07,  2.9802e-08, -5.6205e-07, -9.0804e-08,  3.4738e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 253, time 250.25, cls_loss 0.0025 cls_loss_mapping 0.0026 cls_loss_causal 0.4969 re_mapping 0.0051 re_causal 0.0128 /// teacc 99.00 lr 0.00010000
+Epoch 255, weight, value: tensor([[-0.1112, -0.2158, -0.0715,  ..., -0.0636,  0.1681,  0.1673],
+        [-0.2118, -0.1777, -0.0906,  ..., -0.1589, -0.2117, -0.1210],
+        [-0.0740, -0.1394,  0.1319,  ..., -0.1930,  0.2296,  0.0800],
+        ...,
+        [-0.1405,  0.0669,  0.0410,  ...,  0.1821, -0.2176, -0.2169],
+        [-0.2470,  0.0653, -0.1399,  ...,  0.0572, -0.0910, -0.1559],
+        [-0.0023, -0.1171, -0.0954,  ..., -0.1015, -0.0560, -0.1871]],
+       device='cuda:0'), grad: tensor([[ 1.5832e-08,  2.6077e-08,  0.0000e+00,  ...,  4.9826e-08,
+         -5.8860e-06, -5.6736e-06],
+        [ 9.3132e-10,  6.5193e-09,  0.0000e+00,  ...,  6.9849e-09,
+          5.4948e-08,  5.2154e-08],
+        [ 9.3132e-10,  4.2841e-08,  0.0000e+00,  ...,  8.1025e-08,
+          3.2643e-07,  3.1013e-07],
+        ...,
+        [ 4.6566e-10, -2.4261e-07,  0.0000e+00,  ..., -2.5332e-07,
+          1.1502e-07,  1.2992e-07],
+        [ 2.9150e-07,  8.3819e-09,  0.0000e+00,  ...,  3.6834e-07,
+          2.9374e-06,  2.8331e-06],
+        [ 4.6566e-10,  1.4435e-07,  0.0000e+00,  ...,  1.5926e-07,
+          1.1502e-06,  1.1045e-06]], device='cuda:0')
+Epoch 255, bias, value: tensor([-0.0199, -0.0367, -0.0134, -0.0210, -0.0307,  0.0040,  0.0264, -0.0122,
+         0.0415, -0.0013], device='cuda:0'), grad: tensor([-2.0012e-05,  2.2352e-07,  1.4110e-06,  4.5868e-07, -4.9826e-07,
+         1.2796e-06,  2.2054e-06, -1.3085e-07,  1.0245e-05,  4.7982e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 254, time 250.41, cls_loss 0.0030 cls_loss_mapping 0.0024 cls_loss_causal 0.5248 re_mapping 0.0050 re_causal 0.0130 /// teacc 99.02 lr 0.00010000
+Epoch 256, weight, value: tensor([[-0.1113, -0.2163, -0.0716,  ..., -0.0639,  0.1684,  0.1675],
+        [-0.2122, -0.1791, -0.0902,  ..., -0.1596, -0.2123, -0.1218],
+        [-0.0724, -0.1415,  0.1321,  ..., -0.1944,  0.2302,  0.0813],
+        ...,
+        [-0.1413,  0.0666,  0.0410,  ...,  0.1815, -0.2178, -0.2177],
+        [-0.2482,  0.0666, -0.1425,  ...,  0.0582, -0.0916, -0.1568],
+        [-0.0031, -0.1174, -0.0954,  ..., -0.1018, -0.0562, -0.1884]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -6.9626e-06, -2.6282e-06],
+        [ 4.6566e-10,  2.3283e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.8255e-08,  3.7719e-08],
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  9.3132e-10,
+         -9.1735e-08, -5.7276e-08],
+        ...,
+        [ 4.6566e-10,  1.8626e-09,  0.0000e+00,  ...,  4.6566e-10,
+          2.5285e-07,  9.6392e-08],
+        [ 2.9197e-07,  8.2189e-07,  0.0000e+00,  ...,  1.6158e-07,
+          4.9919e-07,  1.8813e-07],
+        [ 7.4506e-09,  2.0023e-08,  0.0000e+00,  ...,  3.2596e-09,
+          3.4012e-06,  1.3011e-06]], device='cuda:0')
+Epoch 256, bias, value: tensor([-0.0197, -0.0369, -0.0130, -0.0213, -0.0308,  0.0042,  0.0262, -0.0126,
+         0.0427, -0.0015], device='cuda:0'), grad: tensor([-1.8612e-05,  2.7101e-07, -2.5844e-07, -9.7509e-07, -1.4948e-07,
+         2.2538e-06,  4.7423e-06,  6.9523e-07,  2.8498e-06,  9.1717e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 255, time 250.27, cls_loss 0.0022 cls_loss_mapping 0.0017 cls_loss_causal 0.5129 re_mapping 0.0049 re_causal 0.0131 /// teacc 99.05 lr 0.00010000
+Epoch 257, weight, value: tensor([[-0.1115, -0.2171, -0.0717,  ..., -0.0640,  0.1685,  0.1676],
+        [-0.2122, -0.1795, -0.0902,  ..., -0.1598, -0.2124, -0.1219],
+        [-0.0726, -0.1424,  0.1332,  ..., -0.1961,  0.2307,  0.0811],
+        ...,
+        [-0.1427,  0.0668,  0.0409,  ...,  0.1816, -0.2179, -0.2182],
+        [-0.2487,  0.0666, -0.1431,  ...,  0.0582, -0.0922, -0.1574],
+        [-0.0029, -0.1175, -0.0954,  ..., -0.1019, -0.0563, -0.1892]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          6.0536e-08,  3.2596e-09],
+        [ 4.1910e-09,  6.9849e-09,  0.0000e+00,  ...,  0.0000e+00,
+          2.6543e-08,  4.1910e-09],
+        [ 2.7940e-09,  5.5879e-09,  0.0000e+00,  ...,  9.3132e-10,
+         -5.5768e-06, -8.1584e-07],
+        ...,
+        [ 7.4506e-09,  1.3970e-08,  0.0000e+00,  ...,  1.8626e-09,
+          5.3570e-06,  7.8417e-07],
+        [ 2.1420e-08,  3.4925e-08,  0.0000e+00,  ...,  4.6566e-10,
+          7.9162e-08,  1.2107e-08],
+        [ 6.9849e-09,  1.3504e-08,  0.0000e+00,  ..., -4.6566e-09,
+          1.8626e-08,  4.1910e-09]], device='cuda:0')
+Epoch 257, bias, value: tensor([-0.0196, -0.0369, -0.0132, -0.0214, -0.0309,  0.0045,  0.0262, -0.0125,
+         0.0426, -0.0016], device='cuda:0'), grad: tensor([ 1.5274e-07, -1.1502e-07, -1.2666e-05, -1.9837e-07,  1.0803e-07,
+         8.1491e-08,  3.3528e-08,  1.2361e-05,  2.8545e-07, -3.5856e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 256, time 250.44, cls_loss 0.0023 cls_loss_mapping 0.0026 cls_loss_causal 0.4881 re_mapping 0.0048 re_causal 0.0128 /// teacc 99.00 lr 0.00010000
+Epoch 258, weight, value: tensor([[-0.1118, -0.2176, -0.0721,  ..., -0.0641,  0.1688,  0.1678],
+        [-0.2123, -0.1786, -0.0903,  ..., -0.1600, -0.2128, -0.1220],
+        [-0.0728, -0.1429,  0.1333,  ..., -0.1971,  0.2310,  0.0811],
+        ...,
+        [-0.1431,  0.0665,  0.0409,  ...,  0.1815, -0.2180, -0.2188],
+        [-0.2495,  0.0670, -0.1432,  ...,  0.0586, -0.0928, -0.1583],
+        [-0.0030, -0.1176, -0.0954,  ..., -0.1021, -0.0564, -0.1902]],
+       device='cuda:0'), grad: tensor([[-3.6787e-08,  4.6566e-10,  0.0000e+00,  ...,  2.3283e-08,
+         -5.2713e-07, -2.0815e-07],
+        [ 2.2352e-08,  1.8626e-09,  0.0000e+00,  ...,  2.3749e-08,
+          6.0070e-08,  2.3283e-09],
+        [ 6.0536e-09,  0.0000e+00,  0.0000e+00,  ...,  5.1223e-09,
+         -4.5635e-07,  2.4214e-08],
+        ...,
+        [ 5.8673e-08, -9.2667e-08,  0.0000e+00,  ..., -2.7940e-08,
+          4.5355e-07,  2.3283e-09],
+        [ 2.8405e-08,  1.2573e-08,  0.0000e+00,  ...,  2.0955e-08,
+          4.5169e-08,  1.3970e-08],
+        [ 5.4017e-08,  7.4971e-08,  0.0000e+00,  ...,  1.2713e-07,
+          1.6065e-07,  5.6345e-08]], device='cuda:0')
+Epoch 258, bias, value: tensor([-0.0194, -0.0358, -0.0133, -0.0216, -0.0303,  0.0047,  0.0262, -0.0136,
+         0.0425, -0.0017], device='cuda:0'), grad: tensor([-6.5332e-07, -1.4994e-07, -1.2508e-06,  2.2491e-07,  5.6904e-07,
+         7.1712e-08, -3.2736e-07,  1.4473e-06,  3.7253e-08,  4.2375e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 257, time 250.58, cls_loss 0.0029 cls_loss_mapping 0.0028 cls_loss_causal 0.5121 re_mapping 0.0050 re_causal 0.0130 /// teacc 99.04 lr 0.00010000
+Epoch 259, weight, value: tensor([[-0.1119, -0.2187, -0.0721,  ..., -0.0641,  0.1690,  0.1679],
+        [-0.2123, -0.1818, -0.0903,  ..., -0.1604, -0.2159, -0.1221],
+        [-0.0730, -0.1439,  0.1334,  ..., -0.1978,  0.2312,  0.0811],
+        ...,
+        [-0.1441,  0.0685,  0.0409,  ...,  0.1817, -0.2152, -0.2189],
+        [-0.2501,  0.0669, -0.1432,  ...,  0.0585, -0.0933, -0.1587],
+        [-0.0034, -0.1177, -0.0954,  ..., -0.1022, -0.0565, -0.1911]],
+       device='cuda:0'), grad: tensor([[ 2.8405e-08,  4.6566e-10,  0.0000e+00,  ...,  4.9360e-08,
+          1.7555e-07,  1.1967e-07],
+        [ 0.0000e+00,  4.1910e-09,  0.0000e+00,  ...,  5.5879e-09,
+          2.3283e-09,  1.3970e-09],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ..., -2.7707e-07,
+         -8.4704e-07, -6.0815e-07],
+        ...,
+        [ 0.0000e+00, -1.8161e-08,  0.0000e+00,  ...,  2.7940e-09,
+          7.4971e-08,  5.3551e-08],
+        [ 2.7940e-08,  2.3283e-09,  0.0000e+00,  ...,  1.7975e-07,
+          5.1409e-07,  3.6741e-07],
+        [ 1.3039e-08,  7.4506e-09,  0.0000e+00,  ...,  2.0489e-08,
+          3.7253e-09,  2.3283e-09]], device='cuda:0')
+Epoch 259, bias, value: tensor([-0.0193, -0.0387, -0.0141, -0.0219, -0.0300,  0.0052,  0.0261, -0.0105,
+         0.0424, -0.0020], device='cuda:0'), grad: tensor([ 5.6485e-07,  1.7276e-07, -2.7586e-06,  4.2515e-07, -2.7027e-06,
+        -8.5682e-08, -1.1548e-07,  2.2491e-07,  1.7053e-06,  2.5705e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 258, time 250.64, cls_loss 0.0027 cls_loss_mapping 0.0030 cls_loss_causal 0.4839 re_mapping 0.0050 re_causal 0.0130 /// teacc 99.04 lr 0.00010000
+Epoch 260, weight, value: tensor([[-0.1121, -0.2219, -0.0725,  ..., -0.0642,  0.1694,  0.1684],
+        [-0.2125, -0.1819, -0.0903,  ..., -0.1608, -0.2159, -0.1221],
+        [-0.0740, -0.1463,  0.1334,  ..., -0.1998,  0.2307,  0.0811],
+        ...,
+        [-0.1445,  0.0687,  0.0409,  ...,  0.1821, -0.2153, -0.2191],
+        [-0.2498,  0.0668, -0.1432,  ...,  0.0586, -0.0925, -0.1590],
+        [-0.0035, -0.1179, -0.0954,  ..., -0.1023, -0.0566, -0.1915]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09,  9.3132e-10,  0.0000e+00,  ...,  4.1910e-09,
+         -4.6566e-10, -7.9162e-09],
+        [ 9.3132e-10,  1.4435e-08,  0.0000e+00,  ...,  2.2817e-08,
+          1.1176e-08,  2.3283e-09],
+        [ 2.7940e-09,  1.3970e-09,  0.0000e+00,  ...,  9.3132e-10,
+         -1.6868e-05, -3.0808e-06],
+        ...,
+        [ 1.3970e-09, -1.1036e-07,  0.0000e+00,  ..., -1.2200e-07,
+          1.6809e-05,  3.0715e-06],
+        [ 6.3330e-08,  4.6566e-09,  0.0000e+00,  ...,  3.0268e-08,
+          2.0955e-08,  6.9849e-09],
+        [ 1.8626e-09,  6.4261e-08,  0.0000e+00,  ...,  4.3772e-08,
+          1.0710e-08,  7.4506e-09]], device='cuda:0')
+Epoch 260, bias, value: tensor([-0.0190, -0.0386, -0.0148, -0.0223, -0.0304,  0.0054,  0.0254, -0.0105,
+         0.0428, -0.0020], device='cuda:0'), grad: tensor([ 3.9116e-08,  1.5926e-07, -7.0214e-05,  1.0524e-07,  4.0932e-07,
+        -4.0373e-07,  1.9697e-07,  6.9737e-05,  1.8254e-07, -3.4599e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 259, time 250.55, cls_loss 0.0023 cls_loss_mapping 0.0016 cls_loss_causal 0.5076 re_mapping 0.0049 re_causal 0.0129 /// teacc 98.96 lr 0.00010000
+Epoch 261, weight, value: tensor([[-0.1124, -0.2233, -0.0733,  ..., -0.0643,  0.1695,  0.1686],
+        [-0.2125, -0.1820, -0.0903,  ..., -0.1610, -0.2159, -0.1222],
+        [-0.0740, -0.1475,  0.1334,  ..., -0.2003,  0.2313,  0.0807],
+        ...,
+        [-0.1447,  0.0689,  0.0409,  ...,  0.1823, -0.2155, -0.2202],
+        [-0.2512,  0.0667, -0.1436,  ...,  0.0585, -0.0933, -0.1596],
+        [-0.0036, -0.1180, -0.0954,  ..., -0.1024, -0.0567, -0.1934]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  4.1910e-09,  0.0000e+00,  ...,  1.8626e-09,
+         -1.8626e-08, -3.3528e-08],
+        [ 9.3132e-10,  1.8626e-09,  0.0000e+00,  ...,  9.3132e-10,
+          1.0245e-08,  4.6566e-10],
+        [ 9.3132e-10, -6.5193e-09,  0.0000e+00,  ..., -9.7789e-09,
+         -4.9500e-07, -5.8208e-08],
+        ...,
+        [ 1.3970e-09,  2.3283e-09,  0.0000e+00,  ...,  8.3819e-09,
+          2.5379e-07,  1.9092e-08],
+        [ 5.5879e-09, -4.0513e-08,  0.0000e+00,  ..., -3.2596e-08,
+          9.6392e-08,  1.7695e-08],
+        [ 2.7940e-09,  2.6543e-08,  0.0000e+00,  ...,  1.0245e-08,
+          1.1083e-07,  4.8429e-08]], device='cuda:0')
+Epoch 261, bias, value: tensor([-0.0191, -0.0386, -0.0147, -0.0230, -0.0307,  0.0065,  0.0251, -0.0105,
+         0.0424, -0.0019], device='cuda:0'), grad: tensor([ 1.2154e-07,  4.3772e-08, -1.5050e-06, -8.4750e-08, -6.9514e-06,
+         5.4203e-07,  5.9139e-08,  8.3726e-07,  2.3283e-08,  6.9514e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 260, time 250.62, cls_loss 0.0023 cls_loss_mapping 0.0024 cls_loss_causal 0.4879 re_mapping 0.0051 re_causal 0.0132 /// teacc 99.01 lr 0.00010000
+Epoch 262, weight, value: tensor([[-0.1125, -0.2249, -0.0733,  ..., -0.0644,  0.1699,  0.1689],
+        [-0.2126, -0.1820, -0.0903,  ..., -0.1611, -0.2159, -0.1223],
+        [-0.0741, -0.1479,  0.1334,  ..., -0.2008,  0.2314,  0.0804],
+        ...,
+        [-0.1459,  0.0686,  0.0409,  ...,  0.1821, -0.2156, -0.2206],
+        [-0.2519,  0.0669, -0.1436,  ...,  0.0586, -0.0939, -0.1601],
+        [-0.0030, -0.1175, -0.0954,  ..., -0.1020, -0.0570, -0.1956]],
+       device='cuda:0'), grad: tensor([[-1.2115e-05, -9.0599e-06,  0.0000e+00,  ...,  9.3132e-10,
+         -4.5866e-05, -1.9342e-05],
+        [ 5.0757e-08,  1.0664e-07,  0.0000e+00,  ...,  1.8766e-07,
+          2.0955e-08,  1.2573e-08],
+        [ 3.1991e-07,  2.4028e-07,  0.0000e+00,  ...,  1.8626e-09,
+          1.1949e-06,  5.0385e-07],
+        ...,
+        [ 7.8231e-08,  9.1735e-08,  0.0000e+00,  ..., -2.4633e-07,
+          2.3283e-08,  1.1642e-08],
+        [ 1.8021e-06,  1.3513e-06,  0.0000e+00,  ...,  9.7789e-09,
+          6.7726e-06,  2.8573e-06],
+        [ 3.4105e-06,  2.7269e-06,  0.0000e+00,  ...,  4.2375e-08,
+          1.0811e-05,  4.5560e-06]], device='cuda:0')
+Epoch 262, bias, value: tensor([-0.0188, -0.0386, -0.0150, -0.0223, -0.0292,  0.0057,  0.0251, -0.0107,
+         0.0428, -0.0023], device='cuda:0'), grad: tensor([-6.0827e-05,  7.1852e-07,  1.6019e-06, -1.0826e-05,  2.0955e-07,
+         1.1206e-05,  3.3349e-05, -1.9697e-07,  9.2462e-06,  1.5602e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 261, time 250.56, cls_loss 0.0022 cls_loss_mapping 0.0019 cls_loss_causal 0.4995 re_mapping 0.0051 re_causal 0.0136 /// teacc 99.04 lr 0.00010000
+Epoch 263, weight, value: tensor([[-0.1126, -0.2220, -0.0733,  ..., -0.0647,  0.1701,  0.1690],
+        [-0.2128, -0.1821, -0.0903,  ..., -0.1619, -0.2159, -0.1223],
+        [-0.0734, -0.1481,  0.1334,  ..., -0.2008,  0.2320,  0.0806],
+        ...,
+        [-0.1466,  0.0687,  0.0409,  ...,  0.1824, -0.2158, -0.2211],
+        [-0.2531,  0.0668, -0.1436,  ...,  0.0585, -0.0947, -0.1610],
+        [-0.0050, -0.1176, -0.0954,  ..., -0.1021, -0.0573, -0.1971]],
+       device='cuda:0'), grad: tensor([[ 4.4703e-08,  5.5879e-09,  0.0000e+00,  ...,  4.7497e-08,
+          4.2841e-08,  4.1910e-08],
+        [ 1.2573e-08,  1.8626e-09,  0.0000e+00,  ...,  1.8626e-09,
+          4.1910e-09,  5.5879e-09],
+        [ 2.3283e-09,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          2.3283e-09,  1.3970e-09],
+        ...,
+        [ 3.7253e-09, -1.7323e-07,  0.0000e+00,  ..., -1.5805e-06,
+          3.2596e-09,  0.0000e+00],
+        [ 2.1793e-07,  1.8626e-09,  0.0000e+00,  ...,  1.3970e-09,
+          7.8836e-07,  6.1002e-07],
+        [ 5.5879e-09,  4.6566e-08,  0.0000e+00,  ...,  3.3388e-07,
+          1.8626e-09,  1.3970e-09]], device='cuda:0')
+Epoch 263, bias, value: tensor([-0.0188, -0.0387, -0.0146, -0.0221, -0.0290,  0.0058,  0.0251, -0.0106,
+         0.0427, -0.0021], device='cuda:0'), grad: tensor([ 4.7497e-07,  9.7323e-08,  2.4214e-08, -7.4506e-08,  3.4645e-07,
+         2.2836e-06, -7.3276e-06, -2.2035e-06,  6.7614e-06, -3.8231e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 262, time 250.55, cls_loss 0.0020 cls_loss_mapping 0.0020 cls_loss_causal 0.4693 re_mapping 0.0048 re_causal 0.0131 /// teacc 98.96 lr 0.00010000
+Epoch 264, weight, value: tensor([[-0.1130, -0.2240, -0.0733,  ..., -0.0648,  0.1700,  0.1690],
+        [-0.2128, -0.1821, -0.0903,  ..., -0.1618, -0.2159, -0.1223],
+        [-0.0735, -0.1484,  0.1334,  ..., -0.2013,  0.2322,  0.0808],
+        ...,
+        [-0.1468,  0.0687,  0.0409,  ...,  0.1822, -0.2159, -0.2213],
+        [-0.2542,  0.0671, -0.1436,  ...,  0.0586, -0.0950, -0.1614],
+        [-0.0050, -0.1177, -0.0954,  ..., -0.1022, -0.0573, -0.1974]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  1.8626e-09,  0.0000e+00,  ...,  5.5879e-09,
+         -1.6801e-06, -8.1863e-07],
+        [ 2.1420e-08,  2.9802e-08,  0.0000e+00,  ...,  3.9395e-07,
+          4.6566e-09,  1.8626e-09],
+        [ 5.5879e-09,  8.3819e-09,  0.0000e+00,  ...,  4.4703e-08,
+         -1.3495e-06, -1.3970e-08],
+        ...,
+        [ 3.4459e-08,  3.3528e-08,  0.0000e+00,  ..., -4.4703e-08,
+          1.3225e-06,  2.7940e-09],
+        [ 1.9558e-08,  2.7008e-08,  0.0000e+00,  ..., -2.2557e-06,
+          9.0338e-08,  4.2841e-08],
+        [ 3.5390e-08,  5.5879e-08,  0.0000e+00,  ...,  4.7311e-07,
+          1.3877e-06,  6.7987e-07]], device='cuda:0')
+Epoch 264, bias, value: tensor([-0.0189, -0.0386, -0.0147, -0.0218, -0.0305,  0.0060,  0.0251, -0.0107,
+         0.0427, -0.0015], device='cuda:0'), grad: tensor([-2.8629e-06,  7.0371e-06, -3.5353e-06,  8.6054e-06,  5.8766e-07,
+         2.5347e-05,  2.3320e-06,  4.5523e-06, -5.2512e-05,  1.0416e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 263, time 250.15, cls_loss 0.0024 cls_loss_mapping 0.0020 cls_loss_causal 0.4943 re_mapping 0.0048 re_causal 0.0127 /// teacc 98.91 lr 0.00010000
+Epoch 265, weight, value: tensor([[-0.1132, -0.2247, -0.0734,  ..., -0.0654,  0.1703,  0.1691],
+        [-0.2130, -0.1822, -0.0902,  ..., -0.1619, -0.2162, -0.1228],
+        [-0.0737, -0.1490,  0.1334,  ..., -0.2019,  0.2323,  0.0807],
+        ...,
+        [-0.1470,  0.0688,  0.0409,  ...,  0.1826, -0.2159, -0.2215],
+        [-0.2571,  0.0670, -0.1437,  ...,  0.0575, -0.0980, -0.1619],
+        [-0.0054, -0.1178, -0.0954,  ..., -0.1026, -0.0574, -0.1981]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+         -3.8184e-08, -2.1420e-08],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  6.6124e-08,
+          1.8626e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          8.3819e-09,  4.6566e-09],
+        ...,
+        [ 1.8626e-09, -0.0000e+00,  0.0000e+00,  ...,  9.4064e-08,
+          9.3132e-10,  0.0000e+00],
+        [ 1.7695e-08,  1.8626e-09,  0.0000e+00,  ..., -1.7881e-07,
+          6.5193e-09,  7.4506e-09],
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  2.7940e-09,
+          6.5193e-09,  3.7253e-09]], device='cuda:0')
+Epoch 265, bias, value: tensor([-0.0188, -0.0386, -0.0148, -0.0218, -0.0309,  0.0070,  0.0255, -0.0107,
+         0.0412, -0.0016], device='cuda:0'), grad: tensor([-7.1712e-08,  1.1083e-07,  2.6077e-08,  4.4424e-07,  4.6566e-09,
+        -4.3027e-07,  2.4214e-08,  2.2352e-07, -3.2689e-07, -1.2107e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 264, time 250.62, cls_loss 0.0026 cls_loss_mapping 0.0028 cls_loss_causal 0.4877 re_mapping 0.0049 re_causal 0.0127 /// teacc 99.06 lr 0.00010000
+Epoch 266, weight, value: tensor([[-0.1133, -0.2252, -0.0734,  ..., -0.0656,  0.1706,  0.1693],
+        [-0.2132, -0.1822, -0.0902,  ..., -0.1605, -0.2164, -0.1229],
+        [-0.0738, -0.1493,  0.1334,  ..., -0.2011,  0.2334,  0.0811],
+        ...,
+        [-0.1472,  0.0689,  0.0409,  ...,  0.1818, -0.2163, -0.2230],
+        [-0.2575,  0.0669, -0.1437,  ...,  0.0576, -0.0984, -0.1619],
+        [-0.0055, -0.1177, -0.0954,  ..., -0.1022, -0.0575, -0.1990]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+          1.6764e-08,  7.4506e-09],
+        [ 2.5146e-08,  1.3970e-08,  0.0000e+00,  ...,  6.5193e-09,
+          1.3039e-08,  6.5193e-09],
+        [ 1.8626e-09,  1.8626e-09,  0.0000e+00,  ...,  5.3085e-08,
+         -6.7055e-08, -3.2596e-08],
+        ...,
+        [ 9.3132e-09, -2.0489e-08,  0.0000e+00,  ..., -2.5146e-08,
+          1.0245e-08,  4.6566e-09],
+        [ 8.3819e-08,  4.0978e-08,  0.0000e+00,  ..., -7.1712e-08,
+          2.1420e-08,  1.0245e-08],
+        [ 3.2596e-08,  3.2596e-08,  0.0000e+00,  ...,  2.1420e-08,
+          2.7940e-09,  1.8626e-09]], device='cuda:0')
+Epoch 266, bias, value: tensor([-0.0186, -0.0381, -0.0143, -0.0222, -0.0304,  0.0073,  0.0255, -0.0111,
+         0.0411, -0.0021], device='cuda:0'), grad: tensor([ 9.7789e-08,  5.3085e-08,  1.8347e-07, -3.6359e-05, -4.1574e-06,
+         3.6180e-05,  1.2107e-08,  1.1828e-07, -2.6170e-07,  4.1537e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 265, time 250.71, cls_loss 0.0028 cls_loss_mapping 0.0034 cls_loss_causal 0.4800 re_mapping 0.0052 re_causal 0.0134 /// teacc 99.01 lr 0.00010000
+Epoch 267, weight, value: tensor([[-0.1135, -0.2265, -0.0740,  ..., -0.0658,  0.1708,  0.1695],
+        [-0.2148, -0.1824, -0.0901,  ..., -0.1611, -0.2170, -0.1240],
+        [-0.0710, -0.1500,  0.1340,  ..., -0.2002,  0.2356,  0.0821],
+        ...,
+        [-0.1474,  0.0692,  0.0408,  ...,  0.1815, -0.2167, -0.2249],
+        [-0.2586,  0.0670, -0.1440,  ...,  0.0578, -0.0996, -0.1625],
+        [-0.0058, -0.1178, -0.0954,  ..., -0.1012, -0.0575, -0.1995]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.7695e-08, -9.3132e-09],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-09,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ..., -1.8626e-09,
+          1.8626e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          7.4506e-09,  3.7253e-09]], device='cuda:0')
+Epoch 267, bias, value: tensor([-0.0186, -0.0383, -0.0119, -0.0225, -0.0306,  0.0076,  0.0249, -0.0116,
+         0.0411, -0.0009], device='cuda:0'), grad: tensor([ 9.1791e-06, -2.7463e-05,  2.8033e-07, -2.5146e-07,  9.3132e-10,
+         2.3916e-06,  2.7046e-06,  8.1211e-07,  1.2577e-05, -2.3935e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 266, time 250.48, cls_loss 0.0023 cls_loss_mapping 0.0020 cls_loss_causal 0.5130 re_mapping 0.0048 re_causal 0.0132 /// teacc 99.04 lr 0.00010000
+Epoch 268, weight, value: tensor([[-0.1135, -0.2267, -0.0741,  ..., -0.0658,  0.1714,  0.1699],
+        [-0.2150, -0.1827, -0.0901,  ..., -0.1618, -0.2172, -0.1242],
+        [-0.0710, -0.1507,  0.1355,  ..., -0.2002,  0.2369,  0.0827],
+        ...,
+        [-0.1475,  0.0699,  0.0408,  ...,  0.1820, -0.2171, -0.2268],
+        [-0.2590,  0.0669, -0.1440,  ...,  0.0577, -0.0997, -0.1630],
+        [-0.0059, -0.1180, -0.0954,  ..., -0.1014, -0.0576, -0.2002]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  1.7695e-08,  0.0000e+00,  ...,  2.7940e-08,
+         -2.0675e-07, -8.1025e-08],
+        [ 9.3132e-10,  1.8626e-07,  0.0000e+00,  ...,  3.2037e-07,
+          6.5193e-09,  2.7940e-09],
+        [ 0.0000e+00,  4.5635e-08,  0.0000e+00,  ...,  5.6997e-07,
+          1.3970e-07,  5.3085e-08],
+        ...,
+        [ 9.3132e-10, -5.9046e-07,  0.0000e+00,  ..., -8.5123e-07,
+          5.5879e-09,  1.8626e-09],
+        [ 3.7253e-09,  3.9116e-08,  0.0000e+00,  ..., -3.2838e-06,
+          6.5193e-09,  2.7940e-09],
+        [ 4.6566e-09,  1.9930e-07,  0.0000e+00,  ...,  3.0454e-07,
+          3.5390e-08,  1.4901e-08]], device='cuda:0')
+Epoch 268, bias, value: tensor([-0.0183, -0.0383, -0.0118, -0.0223, -0.0305,  0.0072,  0.0245, -0.0116,
+         0.0412, -0.0005], device='cuda:0'), grad: tensor([-3.1758e-07,  9.8720e-07,  1.4640e-06,  3.1292e-07,  1.4901e-08,
+         5.2378e-06,  5.2154e-08, -2.5816e-06, -6.2101e-06,  1.0263e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 267, time 250.28, cls_loss 0.0021 cls_loss_mapping 0.0024 cls_loss_causal 0.5097 re_mapping 0.0047 re_causal 0.0133 /// teacc 99.09 lr 0.00010000
+Epoch 269, weight, value: tensor([[-0.1137, -0.2269, -0.0741,  ..., -0.0658,  0.1714,  0.1699],
+        [-0.2150, -0.1829, -0.0901,  ..., -0.1626, -0.2173, -0.1243],
+        [-0.0710, -0.1511,  0.1356,  ..., -0.2016,  0.2370,  0.0827],
+        ...,
+        [-0.1475,  0.0703,  0.0408,  ...,  0.1827, -0.2172, -0.2270],
+        [-0.2593,  0.0668, -0.1440,  ...,  0.0577, -0.0999, -0.1630],
+        [-0.0063, -0.1183, -0.0954,  ..., -0.1018, -0.0577, -0.2007]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09, -2.7940e-09],
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -2.2352e-08,  0.0000e+00],
+        [ 9.3132e-10,  1.8626e-09,  0.0000e+00,  ..., -0.0000e+00,
+          6.5193e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -0.0000e+00,  0.0000e+00,  ..., -1.8626e-09,
+          1.2107e-08,  0.0000e+00],
+        [ 1.7695e-08,  9.3132e-10,  0.0000e+00,  ...,  8.3819e-09,
+          3.7253e-09,  0.0000e+00],
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  3.7253e-09,
+          7.4506e-09,  1.8626e-09]], device='cuda:0')
+Epoch 269, bias, value: tensor([-0.0185, -0.0384, -0.0121, -0.0222, -0.0304,  0.0068,  0.0245, -0.0115,
+         0.0417, -0.0007], device='cuda:0'), grad: tensor([ 8.1025e-08, -2.4680e-07,  6.2399e-08,  1.1642e-07,  7.4506e-08,
+        -8.6613e-08,  6.0070e-07,  8.5402e-07,  3.4459e-08, -1.4892e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 268, time 250.35, cls_loss 0.0029 cls_loss_mapping 0.0027 cls_loss_causal 0.5217 re_mapping 0.0048 re_causal 0.0127 /// teacc 99.04 lr 0.00010000
+Epoch 270, weight, value: tensor([[-0.1127, -0.2279, -0.0741,  ..., -0.0661,  0.1740,  0.1715],
+        [-0.2151, -0.1829, -0.0901,  ..., -0.1626, -0.2173, -0.1244],
+        [-0.0711, -0.1517,  0.1357,  ..., -0.2018,  0.2372,  0.0827],
+        ...,
+        [-0.1477,  0.0699,  0.0408,  ...,  0.1830, -0.2172, -0.2275],
+        [-0.2602,  0.0670, -0.1440,  ...,  0.0577, -0.1007, -0.1638],
+        [-0.0061, -0.1187, -0.0954,  ..., -0.1019, -0.0595, -0.2045]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  2.7940e-09,  0.0000e+00,  ...,  1.0245e-08,
+         -3.7253e-08, -3.0734e-08],
+        [ 1.1176e-08,  8.1956e-08,  0.0000e+00,  ...,  1.8906e-07,
+          1.7695e-08,  0.0000e+00],
+        [ 9.3132e-10,  3.5390e-08,  0.0000e+00,  ...,  4.5076e-07,
+          1.8626e-09,  9.3132e-10],
+        ...,
+        [ 1.8626e-09, -3.0156e-06,  0.0000e+00,  ..., -3.2149e-06,
+          1.8626e-09,  0.0000e+00],
+        [ 8.9407e-08,  2.4214e-08,  0.0000e+00,  ...,  9.2201e-08,
+          9.3132e-10,  9.3132e-10],
+        [ 5.5879e-09,  2.0117e-07,  0.0000e+00,  ...,  7.1619e-07,
+          4.0978e-08,  2.4214e-08]], device='cuda:0')
+Epoch 270, bias, value: tensor([-0.0154, -0.0384, -0.0129, -0.0216, -0.0306,  0.0067,  0.0231, -0.0114,
+         0.0417, -0.0020], device='cuda:0'), grad: tensor([-1.8626e-09,  5.5134e-07,  1.0002e-06,  5.9232e-06, -6.5006e-07,
+        -4.7684e-07,  8.1863e-07, -9.0897e-06,  2.4959e-07,  1.6792e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 269, time 250.44, cls_loss 0.0021 cls_loss_mapping 0.0027 cls_loss_causal 0.5090 re_mapping 0.0051 re_causal 0.0130 /// teacc 99.09 lr 0.00010000
+Epoch 271, weight, value: tensor([[-0.1127, -0.2283, -0.0741,  ..., -0.0662,  0.1742,  0.1717],
+        [-0.2151, -0.1832, -0.0901,  ..., -0.1631, -0.2173, -0.1246],
+        [-0.0711, -0.1548,  0.1357,  ..., -0.2047,  0.2375,  0.0830],
+        ...,
+        [-0.1477,  0.0710,  0.0408,  ...,  0.1840, -0.2173, -0.2277],
+        [-0.2603,  0.0668, -0.1440,  ...,  0.0576, -0.1010, -0.1641],
+        [-0.0065, -0.1191, -0.0954,  ..., -0.1023, -0.0596, -0.2047]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  7.4506e-09,  0.0000e+00,  ...,  5.5879e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.6822e-07,  0.0000e+00,  ...,  2.4121e-07,
+          6.5193e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -2.5984e-07,  0.0000e+00,  ..., -2.5146e-07,
+         -7.4506e-09,  0.0000e+00],
+        [ 0.0000e+00,  2.5146e-08,  0.0000e+00,  ...,  6.5193e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -4.9360e-08,  0.0000e+00,  ..., -7.4506e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 271, bias, value: tensor([-0.0153, -0.0384, -0.0133, -0.0219, -0.0302,  0.0070,  0.0224, -0.0113,
+         0.0414, -0.0023], device='cuda:0'), grad: tensor([ 1.0245e-08,  4.9360e-08,  9.3598e-07,  1.8626e-08, -7.1991e-07,
+         8.3819e-09,  1.0245e-08, -6.0443e-07,  1.8999e-07,  1.0245e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 270, time 250.16, cls_loss 0.0018 cls_loss_mapping 0.0020 cls_loss_causal 0.5004 re_mapping 0.0049 re_causal 0.0132 /// teacc 99.05 lr 0.00010000
+Epoch 272, weight, value: tensor([[-0.1129, -0.2283, -0.0741,  ..., -0.0663,  0.1743,  0.1718],
+        [-0.2151, -0.1834, -0.0901,  ..., -0.1632, -0.2174, -0.1244],
+        [-0.0711, -0.1551,  0.1357,  ..., -0.2049,  0.2377,  0.0829],
+        ...,
+        [-0.1488,  0.0712,  0.0408,  ...,  0.1841, -0.2173, -0.2283],
+        [-0.2608,  0.0667, -0.1440,  ...,  0.0576, -0.1013, -0.1648],
+        [-0.0067, -0.1192, -0.0954,  ..., -0.1025, -0.0596, -0.2049]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -2.4214e-08, -1.7695e-08],
+        [ 0.0000e+00,  3.7253e-09,  0.0000e+00,  ...,  3.7253e-09,
+          7.4506e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.2107e-08,  0.0000e+00,  ...,  1.1176e-08,
+         -1.5926e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -3.4459e-08,  0.0000e+00,  ..., -3.4459e-08,
+          9.4064e-08,  0.0000e+00],
+        [ 0.0000e+00,  3.7253e-09,  0.0000e+00,  ...,  3.7253e-09,
+          9.3132e-09,  2.7940e-09],
+        [ 9.3132e-10,  5.5879e-09,  0.0000e+00,  ...,  6.5193e-09,
+          1.2107e-08,  6.5193e-09]], device='cuda:0')
+Epoch 272, bias, value: tensor([-0.0152, -0.0382, -0.0137, -0.0220, -0.0303,  0.0068,  0.0228, -0.0113,
+         0.0410, -0.0024], device='cuda:0'), grad: tensor([ 3.7253e-08, -2.3283e-07, -2.0340e-06,  3.5390e-08,  6.7614e-07,
+         2.4214e-08,  4.8429e-08,  1.2834e-06,  6.9849e-08,  9.1270e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 271, time 250.59, cls_loss 0.0020 cls_loss_mapping 0.0020 cls_loss_causal 0.4910 re_mapping 0.0047 re_causal 0.0129 /// teacc 99.07 lr 0.00010000
+Epoch 273, weight, value: tensor([[-0.1152, -0.2285, -0.0743,  ..., -0.0663,  0.1737,  0.1713],
+        [-0.2152, -0.1834, -0.0902,  ..., -0.1634, -0.2173, -0.1243],
+        [-0.0712, -0.1560,  0.1358,  ..., -0.2055,  0.2378,  0.0828],
+        ...,
+        [-0.1491,  0.0715,  0.0408,  ...,  0.1845, -0.2174, -0.2285],
+        [-0.2613,  0.0666, -0.1441,  ...,  0.0576, -0.1015, -0.1651],
+        [-0.0071, -0.1193, -0.0954,  ..., -0.1025, -0.0596, -0.2050]],
+       device='cuda:0'), grad: tensor([[ 1.2266e-06,  9.3132e-09,  0.0000e+00,  ...,  2.7940e-09,
+          8.0746e-07,  7.2364e-07],
+        [ 1.8626e-09,  8.3819e-08,  0.0000e+00,  ...,  2.9802e-08,
+          1.8626e-09,  1.8626e-09],
+        [ 1.8626e-09,  3.7439e-07,  0.0000e+00,  ...,  1.2293e-07,
+         -0.0000e+00,  9.3132e-10],
+        ...,
+        [ 9.3132e-10, -5.7928e-07,  0.0000e+00,  ..., -2.0768e-07,
+          9.3132e-10,  0.0000e+00],
+        [ 4.6566e-09,  1.3970e-08,  0.0000e+00,  ..., -5.0291e-08,
+          3.5390e-08,  2.7940e-08],
+        [ 2.4214e-08,  2.8871e-08,  0.0000e+00,  ...,  2.7008e-08,
+          4.7497e-08,  3.8184e-08]], device='cuda:0')
+Epoch 273, bias, value: tensor([-0.0158, -0.0381, -0.0141, -0.0221, -0.0301,  0.0069,  0.0238, -0.0113,
+         0.0410, -0.0026], device='cuda:0'), grad: tensor([ 2.2650e-06,  3.8557e-07,  1.2014e-06,  2.1234e-07, -3.8072e-06,
+         3.0547e-07, -2.3339e-06, -1.6000e-06,  1.0151e-07,  3.2671e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 272, time 250.35, cls_loss 0.0019 cls_loss_mapping 0.0017 cls_loss_causal 0.5351 re_mapping 0.0047 re_causal 0.0129 /// teacc 99.03 lr 0.00010000
+Epoch 274, weight, value: tensor([[-0.1152, -0.2284, -0.0745,  ..., -0.0664,  0.1737,  0.1713],
+        [-0.2152, -0.1835, -0.0901,  ..., -0.1635, -0.2173, -0.1245],
+        [-0.0712, -0.1563,  0.1361,  ..., -0.2058,  0.2382,  0.0838],
+        ...,
+        [-0.1498,  0.0719,  0.0408,  ...,  0.1849, -0.2175, -0.2295],
+        [-0.2618,  0.0665, -0.1442,  ...,  0.0574, -0.1023, -0.1681],
+        [-0.0083, -0.1197, -0.0954,  ..., -0.1028, -0.0597, -0.2051]],
+       device='cuda:0'), grad: tensor([[ 2.8778e-06,  5.5879e-09,  0.0000e+00,  ...,  9.3132e-10,
+          1.0198e-06,  1.6335e-06],
+        [ 7.4506e-09,  4.9360e-08,  0.0000e+00,  ...,  4.9360e-08,
+          9.3132e-10,  1.8626e-09],
+        [ 6.5193e-09,  7.4506e-09,  0.0000e+00,  ...,  2.7940e-09,
+         -9.3132e-10,  1.8626e-09],
+        ...,
+        [ 8.3819e-09, -1.2852e-07,  0.0000e+00,  ..., -1.4994e-07,
+          2.7940e-09,  0.0000e+00],
+        [ 1.4529e-07,  1.3039e-08,  0.0000e+00,  ...,  4.6566e-09,
+          5.0291e-08,  7.9162e-08],
+        [ 6.4261e-08,  1.3504e-07,  0.0000e+00,  ...,  7.7300e-08,
+          5.5879e-09,  5.5879e-09]], device='cuda:0')
+Epoch 274, bias, value: tensor([-0.0158, -0.0380, -0.0141, -0.0222, -0.0297,  0.0068,  0.0242, -0.0113,
+         0.0405, -0.0028], device='cuda:0'), grad: tensor([ 9.4920e-06,  6.5751e-07,  2.7008e-08, -5.6159e-07, -6.3516e-07,
+         7.1302e-06, -1.6823e-05, -1.1921e-07,  5.0571e-07,  2.9150e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 273, time 250.29, cls_loss 0.0032 cls_loss_mapping 0.0023 cls_loss_causal 0.4844 re_mapping 0.0048 re_causal 0.0117 /// teacc 99.00 lr 0.00010000
+Epoch 275, weight, value: tensor([[-0.1153, -0.2287, -0.0748,  ..., -0.0664,  0.1744,  0.1721],
+        [-0.2153, -0.1836, -0.0898,  ..., -0.1637, -0.2175, -0.1247],
+        [-0.0713, -0.1565,  0.1360,  ..., -0.2061,  0.2388,  0.0845],
+        ...,
+        [-0.1505,  0.0719,  0.0408,  ...,  0.1854, -0.2177, -0.2318],
+        [-0.2621,  0.0664, -0.1445,  ...,  0.0575, -0.1026, -0.1689],
+        [-0.0095, -0.1207, -0.0955,  ..., -0.1033, -0.0597, -0.2053]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09,  0.0000e+00,  0.0000e+00,  ...,  5.5879e-09,
+         -0.0000e+00,  9.3132e-10],
+        [ 9.3132e-10,  3.7253e-09,  0.0000e+00,  ...,  4.6566e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  1.5832e-08,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 9.3132e-10, -7.0781e-08,  0.0000e+00,  ..., -9.0338e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 7.4506e-09,  9.3132e-10,  0.0000e+00,  ..., -3.3528e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 2.9802e-08,  6.5193e-08,  0.0000e+00,  ...,  1.2014e-07,
+          9.3132e-10,  9.3132e-10]], device='cuda:0')
+Epoch 275, bias, value: tensor([-0.0153, -0.0379, -0.0140, -0.0218, -0.0300,  0.0065,  0.0236, -0.0114,
+         0.0404, -0.0027], device='cuda:0'), grad: tensor([ 3.6322e-08,  7.4506e-09,  1.1176e-07,  3.9116e-07,  3.8184e-08,
+        -4.3586e-07, -2.5146e-08, -2.3656e-07, -2.2259e-07,  3.4645e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 274, time 250.49, cls_loss 0.0019 cls_loss_mapping 0.0017 cls_loss_causal 0.4741 re_mapping 0.0049 re_causal 0.0124 /// teacc 98.88 lr 0.00010000
+Epoch 276, weight, value: tensor([[-0.1157, -0.2296, -0.0768,  ..., -0.0664,  0.1742,  0.1720],
+        [-0.2153, -0.1839, -0.0899,  ..., -0.1638, -0.2176, -0.1248],
+        [-0.0715, -0.1575,  0.1361,  ..., -0.2068,  0.2390,  0.0845],
+        ...,
+        [-0.1510,  0.0725,  0.0408,  ...,  0.1860, -0.2178, -0.2323],
+        [-0.2627,  0.0663, -0.1445,  ...,  0.0574, -0.1028, -0.1694],
+        [-0.0102, -0.1214, -0.0955,  ..., -0.1039, -0.0598, -0.2054]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  2.7940e-09,  0.0000e+00,  ...,  7.4506e-09,
+         -5.8487e-07, -2.3935e-07],
+        [ 9.3132e-10,  1.9651e-06,  0.0000e+00,  ...,  1.3933e-06,
+          4.6566e-08,  1.8626e-09],
+        [ 0.0000e+00,  2.1420e-08,  0.0000e+00,  ...,  4.4703e-08,
+          6.2399e-08, -1.7695e-08],
+        ...,
+        [ 0.0000e+00, -2.6356e-06,  0.0000e+00,  ..., -2.0657e-06,
+          6.5193e-09,  9.3132e-10],
+        [ 2.4214e-08,  3.1665e-07,  0.0000e+00,  ...,  1.9651e-07,
+         -1.4026e-06,  7.4506e-09],
+        [ 0.0000e+00,  1.1548e-07,  0.0000e+00,  ...,  2.8312e-07,
+          9.1083e-07,  2.2072e-07]], device='cuda:0')
+Epoch 276, bias, value: tensor([-0.0156, -0.0379, -0.0142, -0.0223, -0.0301,  0.0068,  0.0244, -0.0113,
+         0.0405, -0.0032], device='cuda:0'), grad: tensor([ 5.4017e-08,  4.3400e-06,  1.9316e-06,  7.0781e-07,  1.2256e-06,
+         1.3085e-06,  1.5810e-05, -7.1861e-06, -2.6003e-05,  7.8082e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 275, time 250.35, cls_loss 0.0026 cls_loss_mapping 0.0020 cls_loss_causal 0.4862 re_mapping 0.0049 re_causal 0.0125 /// teacc 99.01 lr 0.00010000
+Epoch 277, weight, value: tensor([[-0.1164, -0.2323, -0.0774,  ..., -0.0665,  0.1742,  0.1720],
+        [-0.2154, -0.1841, -0.0899,  ..., -0.1641, -0.2179, -0.1252],
+        [-0.0716, -0.1571,  0.1369,  ..., -0.2063,  0.2405,  0.0861],
+        ...,
+        [-0.1518,  0.0727,  0.0407,  ...,  0.1863, -0.2182, -0.2355],
+        [-0.2636,  0.0665, -0.1448,  ...,  0.0574, -0.1038, -0.1725],
+        [-0.0104, -0.1219, -0.0955,  ..., -0.1042, -0.0598, -0.2056]],
+       device='cuda:0'), grad: tensor([[ 9.5088e-07,  2.7940e-09,  0.0000e+00,  ...,  3.6675e-06,
+         -5.5879e-09, -4.6566e-09],
+        [ 2.6077e-08,  1.1176e-08,  0.0000e+00,  ...,  8.5682e-08,
+          9.3132e-10,  9.3132e-10],
+        [ 1.3970e-08,  4.6566e-09,  0.0000e+00,  ...,  3.8184e-08,
+         -9.0338e-08, -0.0000e+00],
+        ...,
+        [ 4.2468e-07,  2.4214e-08,  0.0000e+00,  ...,  1.5972e-06,
+          1.8626e-09,  0.0000e+00],
+        [ 1.0394e-06,  1.0151e-07,  0.0000e+00,  ...,  3.9637e-06,
+          1.8626e-08,  1.8626e-09],
+        [ 4.4703e-08,  1.0245e-08,  0.0000e+00,  ...,  1.6857e-07,
+          1.8626e-09,  1.8626e-09]], device='cuda:0')
+Epoch 277, bias, value: tensor([-0.0158, -0.0376, -0.0135, -0.0240, -0.0304,  0.0072,  0.0258, -0.0116,
+         0.0407, -0.0030], device='cuda:0'), grad: tensor([ 7.6219e-06,  2.1514e-07, -2.3190e-07,  2.2873e-06,  1.0896e-07,
+        -2.4199e-05,  2.3060e-06,  3.4086e-06,  8.5682e-06, -9.8720e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 276, time 250.32, cls_loss 0.0027 cls_loss_mapping 0.0030 cls_loss_causal 0.4916 re_mapping 0.0051 re_causal 0.0123 /// teacc 99.03 lr 0.00010000
+Epoch 278, weight, value: tensor([[-0.1170, -0.2368, -0.0778,  ..., -0.0689,  0.1744,  0.1722],
+        [-0.2155, -0.1842, -0.0898,  ..., -0.1649, -0.2180, -0.1253],
+        [-0.0716, -0.1573,  0.1371,  ..., -0.2066,  0.2412,  0.0870],
+        ...,
+        [-0.1490,  0.0734,  0.0407,  ...,  0.1871, -0.2183, -0.2365],
+        [-0.2645,  0.0664, -0.1448,  ...,  0.0573, -0.1044, -0.1743],
+        [-0.0108, -0.1224, -0.0955,  ..., -0.1045, -0.0599, -0.2060]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -8.6520e-07, -5.2713e-07],
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+          2.7940e-09,  9.3132e-10],
+        [ 2.7940e-09, -1.0058e-07,  0.0000e+00,  ...,  1.3039e-08,
+         -4.2841e-07, -1.3784e-07],
+        ...,
+        [ 0.0000e+00,  1.0151e-07,  0.0000e+00,  ..., -1.8626e-09,
+          4.7311e-07,  1.6578e-07],
+        [ 9.3132e-09,  1.8626e-09,  0.0000e+00,  ..., -1.4901e-08,
+          2.1420e-08,  1.3039e-08],
+        [ 9.3132e-10, -1.8626e-09,  0.0000e+00,  ...,  1.8626e-09,
+          7.3202e-07,  4.4610e-07]], device='cuda:0')
+Epoch 278, bias, value: tensor([-0.0162, -0.0372, -0.0135, -0.0243, -0.0293,  0.0066,  0.0269, -0.0119,
+         0.0404, -0.0036], device='cuda:0'), grad: tensor([-1.3905e-06,  5.4017e-08, -1.0028e-05,  1.9558e-08,  5.8766e-07,
+         3.4086e-07,  6.4261e-08,  3.3677e-06,  5.8413e-06,  1.1548e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 277, time 250.40, cls_loss 0.0026 cls_loss_mapping 0.0031 cls_loss_causal 0.4941 re_mapping 0.0048 re_causal 0.0120 /// teacc 99.04 lr 0.00010000
+Epoch 279, weight, value: tensor([[-0.1171, -0.2372, -0.0779,  ..., -0.0692,  0.1751,  0.1727],
+        [-0.2155, -0.1840, -0.0898,  ..., -0.1627, -0.2180, -0.1253],
+        [-0.0718, -0.1573,  0.1377,  ..., -0.2080,  0.2416,  0.0871],
+        ...,
+        [-0.1497,  0.0738,  0.0407,  ...,  0.1865, -0.2185, -0.2381],
+        [-0.2676,  0.0662, -0.1449,  ...,  0.0563, -0.1046, -0.1746],
+        [-0.0115, -0.1231, -0.0955,  ..., -0.1054, -0.0603, -0.2070]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09,  8.3819e-09,  0.0000e+00,  ...,  8.3819e-09,
+          7.4506e-09,  6.5193e-09],
+        [ 5.5879e-09,  3.0734e-08,  0.0000e+00,  ...,  4.6566e-08,
+          2.7940e-09,  9.3132e-10],
+        [ 1.8626e-09,  1.4156e-07,  0.0000e+00,  ...,  5.3085e-08,
+         -1.0245e-07, -4.6566e-08],
+        ...,
+        [ 9.3132e-09, -3.8836e-07,  0.0000e+00,  ..., -1.7416e-07,
+          2.6077e-08,  1.2107e-08],
+        [ 6.2585e-07,  9.3132e-09,  0.0000e+00,  ...,  3.8221e-06,
+          7.9162e-08,  3.5390e-08],
+        [ 2.7940e-08,  5.4948e-08,  0.0000e+00,  ...,  3.7253e-08,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 279, bias, value: tensor([-0.0160, -0.0363, -0.0137, -0.0243, -0.0293,  0.0080,  0.0263, -0.0126,
+         0.0389, -0.0041], device='cuda:0'), grad: tensor([ 5.9605e-08,  1.5646e-07,  1.7788e-07,  1.4594e-06,  1.6410e-06,
+        -1.0870e-05,  4.2375e-07, -7.8138e-07,  9.1717e-06, -1.4342e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 278, time 250.48, cls_loss 0.0023 cls_loss_mapping 0.0021 cls_loss_causal 0.4885 re_mapping 0.0048 re_causal 0.0123 /// teacc 99.02 lr 0.00010000
+Epoch 280, weight, value: tensor([[-0.1168, -0.2373, -0.0780,  ..., -0.0683,  0.1755,  0.1733],
+        [-0.2156, -0.1842, -0.0896,  ..., -0.1629, -0.2181, -0.1254],
+        [-0.0719, -0.1574,  0.1376,  ..., -0.2081,  0.2424,  0.0875],
+        ...,
+        [-0.1510,  0.0744,  0.0407,  ...,  0.1870, -0.2188, -0.2402],
+        [-0.2690,  0.0661, -0.1451,  ...,  0.0559, -0.1049, -0.1747],
+        [-0.0120, -0.1241, -0.0955,  ..., -0.1061, -0.0604, -0.2075]],
+       device='cuda:0'), grad: tensor([[ 1.2107e-08,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  5.5879e-09],
+        [ 2.7940e-09,  5.5879e-09,  0.0000e+00,  ...,  3.7253e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 9.3132e-10,  1.8626e-09,  0.0000e+00,  ...,  9.3132e-10,
+         -1.2107e-08,  0.0000e+00],
+        ...,
+        [ 9.3132e-10, -5.3085e-08,  0.0000e+00,  ..., -8.1956e-08,
+          1.8626e-09,  0.0000e+00],
+        [ 1.3039e-08,  7.4506e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  3.7253e-09],
+        [ 7.4506e-09,  5.7742e-08,  0.0000e+00,  ...,  7.5437e-08,
+          1.8626e-09,  9.3132e-10]], device='cuda:0')
+Epoch 280, bias, value: tensor([-0.0158, -0.0362, -0.0139, -0.0237, -0.0290,  0.0079,  0.0262, -0.0125,
+         0.0380, -0.0046], device='cuda:0'), grad: tensor([ 3.3528e-08, -2.2817e-07, -2.6077e-08, -1.3132e-07,  2.0582e-07,
+         2.7567e-07, -2.5425e-07, -2.0768e-07,  5.4948e-08,  2.8592e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 279, time 250.32, cls_loss 0.0022 cls_loss_mapping 0.0026 cls_loss_causal 0.5018 re_mapping 0.0047 re_causal 0.0123 /// teacc 98.97 lr 0.00010000
+Epoch 281, weight, value: tensor([[-0.1173, -0.2380, -0.0790,  ..., -0.0682,  0.1755,  0.1735],
+        [-0.2158, -0.1843, -0.0896,  ..., -0.1631, -0.2183, -0.1257],
+        [-0.0720, -0.1574,  0.1375,  ..., -0.2080,  0.2435,  0.0886],
+        ...,
+        [-0.1514,  0.0746,  0.0406,  ...,  0.1873, -0.2190, -0.2412],
+        [-0.2691,  0.0660, -0.1452,  ...,  0.0559, -0.1052, -0.1752],
+        [-0.0154, -0.1246, -0.0955,  ..., -0.1064, -0.0605, -0.2081]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  1.8626e-09,  0.0000e+00,  ...,  1.7695e-08,
+          1.2759e-07,  9.4995e-08],
+        [ 1.8626e-09,  1.5832e-08,  2.3562e-07,  ...,  2.7940e-08,
+          3.9227e-06,  1.1269e-07],
+        [ 9.3132e-10,  3.5390e-08, -2.3935e-07,  ..., -1.1269e-07,
+         -4.9695e-06, -8.6706e-07],
+        ...,
+        [ 9.3132e-10,  1.1828e-07,  1.8626e-09,  ...,  4.5635e-08,
+          6.5099e-07,  4.7218e-07],
+        [ 7.4506e-09,  9.3132e-09,  0.0000e+00,  ...,  2.9802e-08,
+          2.1700e-07,  1.6484e-07],
+        [ 2.7940e-09,  1.0245e-08,  0.0000e+00,  ...,  6.5193e-09,
+          1.2107e-08,  9.3132e-09]], device='cuda:0')
+Epoch 281, bias, value: tensor([-0.0160, -0.0360, -0.0135, -0.0235, -0.0288,  0.0078,  0.0266, -0.0127,
+         0.0382, -0.0053], device='cuda:0'), grad: tensor([ 4.0885e-07,  6.2101e-06, -9.3505e-06, -3.4086e-07,  2.3283e-08,
+         3.6135e-07, -2.9244e-07,  2.2184e-06,  7.1619e-07,  4.6566e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 280, time 250.12, cls_loss 0.0022 cls_loss_mapping 0.0021 cls_loss_causal 0.4760 re_mapping 0.0049 re_causal 0.0122 /// teacc 98.99 lr 0.00010000
+Epoch 282, weight, value: tensor([[-0.1175, -0.2381, -0.0792,  ..., -0.0690,  0.1757,  0.1736],
+        [-0.2158, -0.1849, -0.0893,  ..., -0.1634, -0.2185, -0.1262],
+        [-0.0722, -0.1577,  0.1375,  ..., -0.2084,  0.2438,  0.0894],
+        ...,
+        [-0.1521,  0.0752,  0.0405,  ...,  0.1877, -0.2191, -0.2418],
+        [-0.2695,  0.0659, -0.1454,  ...,  0.0560, -0.1046, -0.1770],
+        [-0.0168, -0.1248, -0.0956,  ..., -0.1067, -0.0605, -0.2082]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  9.3132e-10,  9.3132e-10,  ...,  0.0000e+00,
+          8.3819e-09,  3.7253e-09],
+        [ 9.3132e-10,  2.7940e-08,  4.2841e-08,  ...,  1.7695e-08,
+          6.7614e-07,  3.3528e-07],
+        [ 9.3132e-10,  9.3132e-10, -6.2399e-08,  ...,  9.3132e-10,
+         -9.8627e-07, -4.9081e-07],
+        ...,
+        [ 3.7253e-09, -1.0896e-07,  4.6566e-09,  ..., -8.6613e-08,
+          7.7300e-08,  3.8184e-08],
+        [ 1.1176e-08,  7.4506e-09,  9.3132e-09,  ..., -0.0000e+00,
+          1.3784e-07,  6.8918e-08],
+        [ 1.8626e-09,  8.2888e-08,  0.0000e+00,  ...,  6.5193e-08,
+          4.6566e-09,  1.8626e-09]], device='cuda:0')
+Epoch 282, bias, value: tensor([-0.0161, -0.0359, -0.0135, -0.0233, -0.0292,  0.0077,  0.0264, -0.0126,
+         0.0381, -0.0051], device='cuda:0'), grad: tensor([ 4.2841e-08,  2.8405e-06, -4.0159e-06, -1.2293e-07,  2.6543e-07,
+         2.0023e-07,  2.1141e-07,  1.7695e-07,  5.8208e-07, -1.8347e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 281, time 250.82, cls_loss 0.0025 cls_loss_mapping 0.0034 cls_loss_causal 0.5122 re_mapping 0.0048 re_causal 0.0123 /// teacc 99.01 lr 0.00010000
+Epoch 283, weight, value: tensor([[-0.1176, -0.2382, -0.0796,  ..., -0.0694,  0.1760,  0.1740],
+        [-0.2159, -0.1850, -0.0890,  ..., -0.1636, -0.2187, -0.1263],
+        [-0.0728, -0.1597,  0.1380,  ..., -0.2089,  0.2447,  0.0898],
+        ...,
+        [-0.1511,  0.0752,  0.0402,  ...,  0.1874, -0.2195, -0.2434],
+        [-0.2707,  0.0670, -0.1457,  ...,  0.0564, -0.1051, -0.1786],
+        [-0.0174, -0.1252, -0.0951,  ..., -0.1069, -0.0607, -0.2087]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -2.7940e-09,  9.3132e-10,  ...,  0.0000e+00,
+         -1.0896e-07, -7.7300e-08],
+        [ 2.7940e-09,  5.5879e-09,  2.3283e-08,  ...,  0.0000e+00,
+          5.8673e-08,  1.8626e-09],
+        [ 9.3132e-10,  1.8626e-09, -9.4995e-08,  ...,  0.0000e+00,
+         -2.1141e-07,  2.1420e-08],
+        ...,
+        [ 1.5832e-07,  3.7346e-07,  1.3970e-08,  ...,  0.0000e+00,
+          3.7253e-08,  9.3132e-10],
+        [ 2.7940e-09,  5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.6764e-08,  1.1176e-08],
+        [ 2.3283e-08,  3.7253e-09,  0.0000e+00,  ...,  1.3039e-08,
+          4.9360e-08,  3.4459e-08]], device='cuda:0')
+Epoch 283, bias, value: tensor([-0.0160, -0.0360, -0.0137, -0.0235, -0.0292,  0.0082,  0.0265, -0.0126,
+         0.0381, -0.0053], device='cuda:0'), grad: tensor([-8.4750e-08, -3.7812e-07, -3.3248e-07, -4.5076e-07,  2.0005e-06,
+        -6.5193e-08,  2.3935e-07,  6.5099e-07,  8.1956e-08, -1.6605e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 282, time 250.51, cls_loss 0.0022 cls_loss_mapping 0.0022 cls_loss_causal 0.4795 re_mapping 0.0047 re_causal 0.0122 /// teacc 99.00 lr 0.00010000
+Epoch 284, weight, value: tensor([[-0.1174, -0.2384, -0.0798,  ..., -0.0683,  0.1762,  0.1744],
+        [-0.2160, -0.1854, -0.0877,  ..., -0.1640, -0.2188, -0.1264],
+        [-0.0729, -0.1610,  0.1383,  ..., -0.2121,  0.2420,  0.0901],
+        ...,
+        [-0.1529,  0.0757,  0.0395,  ...,  0.1892, -0.2169, -0.2447],
+        [-0.2711,  0.0669, -0.1475,  ...,  0.0562, -0.1055, -0.1790],
+        [-0.0177, -0.1253, -0.0955,  ..., -0.1072, -0.0607, -0.2092]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -5.7742e-08, -3.0734e-08],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          7.6368e-08,  2.6543e-08],
+        [ 0.0000e+00, -5.1223e-09,  0.0000e+00,  ...,  3.2596e-09,
+         -1.8999e-07, -6.1933e-08],
+        ...,
+        [ 4.6566e-10,  9.3132e-10,  0.0000e+00,  ...,  4.6566e-10,
+          1.0710e-07,  3.5856e-08],
+        [ 1.1176e-08,  1.8626e-09,  0.0000e+00,  ..., -4.6566e-10,
+          1.3504e-08,  6.9849e-09],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          2.9802e-08,  1.5367e-08]], device='cuda:0')
+Epoch 284, bias, value: tensor([-0.0159, -0.0361, -0.0165, -0.0237, -0.0293,  0.0088,  0.0262, -0.0113,
+         0.0378, -0.0052], device='cuda:0'), grad: tensor([-1.0384e-07,  1.7555e-07, -4.1863e-07,  1.8161e-08, -2.6962e-07,
+         1.4482e-07, -1.3597e-07,  3.2037e-07,  1.2340e-07,  1.6298e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 283, time 250.73, cls_loss 0.0021 cls_loss_mapping 0.0021 cls_loss_causal 0.4700 re_mapping 0.0050 re_causal 0.0126 /// teacc 99.04 lr 0.00010000
+Epoch 285, weight, value: tensor([[-0.1175, -0.2385, -0.0799,  ..., -0.0683,  0.1764,  0.1746],
+        [-0.2161, -0.1856, -0.0871,  ..., -0.1642, -0.2188, -0.1265],
+        [-0.0729, -0.1608,  0.1382,  ..., -0.2121,  0.2422,  0.0903],
+        ...,
+        [-0.1530,  0.0758,  0.0393,  ...,  0.1897, -0.2170, -0.2452],
+        [-0.2713,  0.0668, -0.1482,  ...,  0.0563, -0.1060, -0.1798],
+        [-0.0186, -0.1256, -0.0957,  ..., -0.1080, -0.0610, -0.2098]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  2.5611e-08,  4.6566e-10,  ...,  9.3132e-09,
+         -1.4901e-08, -9.3132e-09],
+        [ 1.3970e-09,  2.6962e-07,  0.0000e+00,  ...,  5.2946e-07,
+          9.3132e-10,  9.3132e-10],
+        [ 4.6566e-10,  2.7940e-08,  0.0000e+00,  ...,  4.5169e-08,
+          6.0536e-09,  4.1910e-09],
+        ...,
+        [ 1.3970e-09, -1.3215e-06,  0.0000e+00,  ..., -1.3579e-06,
+          4.6566e-10,  0.0000e+00],
+        [ 9.3132e-10,  1.2945e-07,  4.6566e-10,  ...,  1.4901e-07,
+          0.0000e+00,  0.0000e+00],
+        [ 1.3970e-09,  3.6275e-07, -9.3132e-10,  ...,  2.9057e-07,
+          6.0536e-09,  3.7253e-09]], device='cuda:0')
+Epoch 285, bias, value: tensor([-0.0158, -0.0356, -0.0165, -0.0234, -0.0294,  0.0086,  0.0262, -0.0117,
+         0.0375, -0.0055], device='cuda:0'), grad: tensor([ 3.6787e-08,  7.8464e-07,  1.8254e-07,  4.4098e-07,  4.7358e-07,
+         2.3656e-07,  3.5390e-08, -4.1686e-06,  9.1596e-07,  1.0598e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 284, time 250.32, cls_loss 0.0021 cls_loss_mapping 0.0016 cls_loss_causal 0.4917 re_mapping 0.0050 re_causal 0.0130 /// teacc 99.05 lr 0.00010000
+Epoch 286, weight, value: tensor([[-0.1172, -0.2387, -0.0801,  ..., -0.0672,  0.1768,  0.1751],
+        [-0.2161, -0.1858, -0.0862,  ..., -0.1645, -0.2193, -0.1267],
+        [-0.0731, -0.1643,  0.1380,  ..., -0.2128,  0.2424,  0.0901],
+        ...,
+        [-0.1546,  0.0769,  0.0391,  ...,  0.1903, -0.2170, -0.2458],
+        [-0.2731,  0.0660, -0.1485,  ...,  0.0557, -0.1060, -0.1799],
+        [-0.0189, -0.1262, -0.0960,  ..., -0.1086, -0.0611, -0.2104]],
+       device='cuda:0'), grad: tensor([[ 1.1176e-08,  4.6566e-10,  4.6566e-10,  ...,  9.3132e-10,
+         -4.0978e-08, -2.7008e-08],
+        [ 9.3132e-10,  4.8662e-07,  0.0000e+00,  ...,  9.4529e-07,
+          1.3970e-09,  9.3132e-10],
+        [ 2.7940e-09,  2.3283e-09,  0.0000e+00,  ...,  3.7253e-09,
+          6.0536e-09,  4.1910e-09],
+        ...,
+        [ 0.0000e+00, -5.3924e-07,  0.0000e+00,  ..., -1.0468e-06,
+          1.8626e-09,  1.3970e-09],
+        [ 3.2596e-09, -0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+          9.7789e-09,  6.5193e-09],
+        [ 0.0000e+00,  4.3306e-08,  0.0000e+00,  ...,  8.0094e-08,
+          3.5390e-08,  2.4214e-08]], device='cuda:0')
+Epoch 286, bias, value: tensor([-0.0156, -0.0355, -0.0167, -0.0216, -0.0296,  0.0072,  0.0260, -0.0116,
+         0.0372, -0.0057], device='cuda:0'), grad: tensor([-2.7474e-08,  2.8275e-06,  5.4017e-08,  2.9337e-08,  6.2399e-08,
+         2.0023e-08, -6.7055e-08, -3.1292e-06, -4.3772e-08,  2.6450e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 285, time 250.27, cls_loss 0.0022 cls_loss_mapping 0.0017 cls_loss_causal 0.4996 re_mapping 0.0047 re_causal 0.0122 /// teacc 99.06 lr 0.00010000
+Epoch 287, weight, value: tensor([[-0.1174, -0.2388, -0.0802,  ..., -0.0671,  0.1769,  0.1752],
+        [-0.2162, -0.1861, -0.0858,  ..., -0.1647, -0.2191, -0.1267],
+        [-0.0758, -0.1644,  0.1378,  ..., -0.2128,  0.2413,  0.0883],
+        ...,
+        [-0.1550,  0.0772,  0.0391,  ...,  0.1908, -0.2171, -0.2469],
+        [-0.2735,  0.0659, -0.1487,  ...,  0.0557, -0.1059, -0.1805],
+        [-0.0206, -0.1268, -0.0960,  ..., -0.1091, -0.0612, -0.2106]],
+       device='cuda:0'), grad: tensor([[ 1.5832e-08,  2.5611e-08,  0.0000e+00,  ...,  4.6566e-10,
+         -4.2208e-06, -2.7847e-06],
+        [ 3.2596e-09,  6.9849e-09,  0.0000e+00,  ...,  2.7940e-09,
+          2.0489e-08,  2.0955e-08],
+        [ 9.3132e-09,  1.6764e-08,  0.0000e+00,  ...,  3.7253e-09,
+          1.2992e-06,  8.5216e-07],
+        ...,
+        [ 7.4506e-09,  9.3132e-09,  0.0000e+00,  ..., -1.8626e-09,
+          5.4482e-08,  3.6787e-08],
+        [ 1.9558e-08,  2.7474e-08,  0.0000e+00,  ..., -3.1199e-08,
+          1.8114e-07,  1.1828e-07],
+        [ 2.2817e-08,  4.2841e-08,  0.0000e+00,  ...,  3.2596e-09,
+          3.1432e-07,  2.0675e-07]], device='cuda:0')
+Epoch 287, bias, value: tensor([-0.0156, -0.0353, -0.0177, -0.0215, -0.0298,  0.0063,  0.0280, -0.0115,
+         0.0383, -0.0060], device='cuda:0'), grad: tensor([-6.3442e-06, -7.9628e-08,  2.1420e-06, -5.0664e-07,  3.6787e-08,
+         5.3551e-07,  3.4608e-06,  2.0536e-07, -5.5879e-09,  5.6624e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 286, time 250.32, cls_loss 0.0028 cls_loss_mapping 0.0028 cls_loss_causal 0.4976 re_mapping 0.0047 re_causal 0.0121 /// teacc 99.06 lr 0.00010000
+Epoch 288, weight, value: tensor([[-0.1185, -0.2389, -0.0802,  ..., -0.0669,  0.1769,  0.1752],
+        [-0.2175, -0.1864, -0.0858,  ..., -0.1656, -0.2192, -0.1276],
+        [-0.0757, -0.1648,  0.1378,  ..., -0.2130,  0.2414,  0.0893],
+        ...,
+        [-0.1561,  0.0791,  0.0391,  ...,  0.1922, -0.2172, -0.2494],
+        [-0.2737,  0.0658, -0.1487,  ...,  0.0555, -0.1061, -0.1812],
+        [-0.0208, -0.1296, -0.0960,  ..., -0.1112, -0.0615, -0.2119]],
+       device='cuda:0'), grad: tensor([[ 1.6438e-07,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          9.3132e-10,  3.7253e-09],
+        [ 6.6496e-06,  2.3283e-09,  0.0000e+00,  ...,  2.3283e-09,
+          9.3132e-10,  9.3132e-10],
+        [ 7.9162e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -8.3819e-09, -6.0536e-09],
+        ...,
+        [ 7.9162e-09, -5.3551e-08,  0.0000e+00,  ..., -6.0536e-08,
+          8.3819e-09,  6.0536e-09],
+        [ 2.0973e-06,  4.6566e-10,  0.0000e+00,  ...,  1.3970e-09,
+          1.3970e-09,  1.1083e-07],
+        [ 9.3272e-07,  3.7253e-08,  0.0000e+00,  ...,  4.2841e-08,
+          4.6566e-10,  4.6566e-10]], device='cuda:0')
+Epoch 288, bias, value: tensor([-0.0157, -0.0347, -0.0176, -0.0212, -0.0306,  0.0063,  0.0288, -0.0117,
+         0.0382, -0.0069], device='cuda:0'), grad: tensor([ 5.0897e-07,  3.7521e-05,  3.9302e-06,  3.4213e-04,  1.0338e-07,
+        -3.7241e-04, -3.5344e-07, -2.1443e-05,  6.5528e-06,  3.1218e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 287, time 250.30, cls_loss 0.0020 cls_loss_mapping 0.0014 cls_loss_causal 0.4994 re_mapping 0.0051 re_causal 0.0129 /// teacc 99.09 lr 0.00010000
+Epoch 289, weight, value: tensor([[-0.1182, -0.2390, -0.0802,  ..., -0.0657,  0.1771,  0.1757],
+        [-0.2183, -0.1875, -0.0857,  ..., -0.1670, -0.2193, -0.1281],
+        [-0.0757, -0.1649,  0.1378,  ..., -0.2129,  0.2417,  0.0902],
+        ...,
+        [-0.1562,  0.0810,  0.0391,  ...,  0.1941, -0.2175, -0.2517],
+        [-0.2739,  0.0657, -0.1487,  ...,  0.0553, -0.1064, -0.1816],
+        [-0.0213, -0.1316, -0.0960,  ..., -0.1130, -0.0616, -0.2122]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-08,  4.6566e-10,  0.0000e+00,  ...,  1.8626e-09,
+          2.3283e-09,  5.5879e-09],
+        [ 4.6566e-09,  2.7940e-09,  0.0000e+00,  ...,  4.6566e-09,
+          4.6566e-10,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.8626e-09, -1.1642e-08,  0.0000e+00,  ..., -1.3504e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 1.9558e-07,  9.3132e-10,  0.0000e+00,  ...,  7.9162e-09,
+          5.2620e-08,  1.3877e-07],
+        [ 8.8476e-09,  1.0245e-08,  0.0000e+00,  ...,  1.1642e-08,
+          2.7940e-09,  1.8626e-09]], device='cuda:0')
+Epoch 289, bias, value: tensor([-0.0155, -0.0347, -0.0174, -0.0216, -0.0308,  0.0067,  0.0282, -0.0112,
+         0.0377, -0.0080], device='cuda:0'), grad: tensor([ 3.4459e-08, -4.7497e-07,  7.9162e-09,  1.8813e-07,  1.2526e-07,
+        -3.8650e-08, -6.4401e-07, -1.1176e-08,  7.5018e-07,  5.5414e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 288, time 250.45, cls_loss 0.0020 cls_loss_mapping 0.0021 cls_loss_causal 0.4964 re_mapping 0.0050 re_causal 0.0127 /// teacc 99.06 lr 0.00010000
+Epoch 290, weight, value: tensor([[-0.1185, -0.2392, -0.0802,  ..., -0.0657,  0.1775,  0.1760],
+        [-0.2187, -0.1878, -0.0854,  ..., -0.1672, -0.2195, -0.1285],
+        [-0.0757, -0.1651,  0.1377,  ..., -0.2130,  0.2418,  0.0902],
+        ...,
+        [-0.1563,  0.0813,  0.0391,  ...,  0.1944, -0.2175, -0.2525],
+        [-0.2741,  0.0655, -0.1488,  ...,  0.0553, -0.1068, -0.1824],
+        [-0.0218, -0.1319, -0.0960,  ..., -0.1133, -0.0617, -0.2128]],
+       device='cuda:0'), grad: tensor([[-6.9849e-09,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+         -3.3528e-08, -2.3283e-08],
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          9.3132e-10,  4.6566e-10],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+         -1.0571e-07,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  4.6566e-10],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.3970e-09,  9.3132e-10],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          1.0896e-07,  1.8626e-09]], device='cuda:0')
+Epoch 290, bias, value: tensor([-0.0154, -0.0347, -0.0175, -0.0231, -0.0308,  0.0076,  0.0290, -0.0112,
+         0.0376, -0.0081], device='cuda:0'), grad: tensor([ 2.6077e-08, -1.8785e-06, -4.0699e-07,  1.0598e-06,  1.3914e-06,
+        -6.4587e-07,  2.8173e-07,  4.2142e-07,  7.6508e-07, -1.0068e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 289, time 250.33, cls_loss 0.0025 cls_loss_mapping 0.0022 cls_loss_causal 0.4829 re_mapping 0.0049 re_causal 0.0123 /// teacc 99.04 lr 0.00010000
+Epoch 291, weight, value: tensor([[-0.1174, -0.2402, -0.0802,  ..., -0.0629,  0.1803,  0.1783],
+        [-0.2190, -0.1881, -0.0854,  ..., -0.1677, -0.2200, -0.1304],
+        [-0.0757, -0.1654,  0.1377,  ..., -0.2131,  0.2419,  0.0897],
+        ...,
+        [-0.1571,  0.0815,  0.0391,  ...,  0.1948, -0.2177, -0.2541],
+        [-0.2743,  0.0658, -0.1488,  ...,  0.0553, -0.1076, -0.1833],
+        [-0.0222, -0.1320, -0.0960,  ..., -0.1136, -0.0619, -0.2135]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  4.6566e-10,  0.0000e+00,  ...,  2.3283e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 4.1910e-09,  1.3039e-08,  0.0000e+00,  ...,  5.2154e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  1.3970e-09,  0.0000e+00,  ...,  2.3283e-08,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.3970e-09, -1.7229e-08,  0.0000e+00,  ..., -9.1735e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 4.2841e-08,  6.5193e-09,  0.0000e+00,  ...,  1.7695e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 3.7253e-09,  9.7789e-09,  0.0000e+00,  ...,  3.1665e-08,
+          9.3132e-10,  4.6566e-10]], device='cuda:0')
+Epoch 291, bias, value: tensor([-0.0132, -0.0346, -0.0176, -0.0234, -0.0315,  0.0076,  0.0262, -0.0112,
+         0.0386, -0.0080], device='cuda:0'), grad: tensor([ 1.5832e-08,  8.0559e-08,  2.2398e-07, -2.6636e-07, -1.1642e-08,
+         1.3132e-07,  2.8405e-08, -1.4389e-07, -1.3970e-07,  9.2201e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 290, time 250.43, cls_loss 0.0021 cls_loss_mapping 0.0020 cls_loss_causal 0.4857 re_mapping 0.0048 re_causal 0.0125 /// teacc 99.09 lr 0.00010000
+Epoch 292, weight, value: tensor([[-0.1142, -0.2401, -0.0804,  ..., -0.0615,  0.1838,  0.1819],
+        [-0.2191, -0.1883, -0.0854,  ..., -0.1679, -0.2201, -0.1312],
+        [-0.0759, -0.1655,  0.1381,  ..., -0.2131,  0.2422,  0.0896],
+        ...,
+        [-0.1578,  0.0820,  0.0390,  ...,  0.1953, -0.2180, -0.2577],
+        [-0.2748,  0.0658, -0.1491,  ...,  0.0550, -0.1086, -0.1861],
+        [-0.0225, -0.1326, -0.0960,  ..., -0.1141, -0.0619, -0.2135]],
+       device='cuda:0'), grad: tensor([[ 4.1910e-09,  4.6566e-09,  0.0000e+00,  ...,  9.3132e-10,
+          1.3970e-09,  4.6566e-10],
+        [ 2.7940e-09,  2.8405e-08,  3.2596e-09,  ...,  3.7719e-08,
+          3.6322e-08,  1.0245e-08],
+        [ 1.8626e-09,  4.1910e-09, -7.4506e-09,  ...,  1.3970e-09,
+         -8.8941e-08, -2.5611e-08],
+        ...,
+        [ 1.8626e-09, -1.3923e-07,  1.8626e-09,  ..., -2.0768e-07,
+          2.0023e-08,  5.5879e-09],
+        [ 1.6298e-08,  1.4435e-08,  2.3283e-09,  ...,  3.2596e-09,
+          2.7474e-08,  7.9162e-09],
+        [ 2.4214e-08,  1.4203e-07,  0.0000e+00,  ...,  1.6764e-07,
+          9.3132e-10,  4.6566e-10]], device='cuda:0')
+Epoch 292, bias, value: tensor([-0.0096, -0.0346, -0.0175, -0.0234, -0.0315,  0.0074,  0.0226, -0.0111,
+         0.0384, -0.0082], device='cuda:0'), grad: tensor([ 2.2817e-08,  1.9418e-07, -1.6438e-07, -2.4633e-07,  1.1176e-08,
+         7.7300e-08,  3.2131e-08, -6.4960e-07,  7.7300e-08,  6.4960e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 291, time 250.14, cls_loss 0.0019 cls_loss_mapping 0.0023 cls_loss_causal 0.4776 re_mapping 0.0046 re_causal 0.0120 /// teacc 99.07 lr 0.00010000
+Epoch 293, weight, value: tensor([[-0.1142, -0.2403, -0.0822,  ..., -0.0616,  0.1839,  0.1820],
+        [-0.2191, -0.1888, -0.0855,  ..., -0.1683, -0.2202, -0.1314],
+        [-0.0760, -0.1654,  0.1389,  ..., -0.2132,  0.2424,  0.0897],
+        ...,
+        [-0.1578,  0.0828,  0.0390,  ...,  0.1960, -0.2181, -0.2583],
+        [-0.2751,  0.0657, -0.1488,  ...,  0.0549, -0.1092, -0.1874],
+        [-0.0228, -0.1333, -0.0958,  ..., -0.1149, -0.0619, -0.2138]],
+       device='cuda:0'), grad: tensor([[ 7.9162e-09,  4.6566e-10,  0.0000e+00,  ...,  3.2596e-09,
+         -6.6170e-07, -3.9674e-07],
+        [ 4.1910e-09,  1.3039e-08,  0.0000e+00,  ...,  2.7940e-08,
+          3.5856e-08,  2.1886e-08],
+        [ 2.7940e-09,  4.6566e-09,  0.0000e+00,  ...,  2.8405e-08,
+         -4.4703e-08,  3.7253e-09],
+        ...,
+        [ 1.8626e-09, -2.1886e-08,  0.0000e+00,  ..., -2.3749e-08,
+          4.6566e-09,  1.8626e-09],
+        [ 4.6566e-09,  6.0536e-09,  0.0000e+00,  ..., -7.4506e-08,
+          1.9558e-08,  1.0710e-08],
+        [ 2.3283e-09,  1.7229e-08, -0.0000e+00,  ...,  1.8161e-08,
+          1.8300e-07,  1.0896e-07]], device='cuda:0')
+Epoch 293, bias, value: tensor([-0.0096, -0.0343, -0.0175, -0.0235, -0.0308,  0.0074,  0.0226, -0.0111,
+         0.0383, -0.0092], device='cuda:0'), grad: tensor([-1.4864e-06,  2.8452e-07,  2.5611e-08,  9.4576e-07, -2.6077e-08,
+         1.3411e-07,  5.4948e-08, -1.4435e-08, -4.1537e-07,  5.0664e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 292, time 250.26, cls_loss 0.0021 cls_loss_mapping 0.0020 cls_loss_causal 0.4935 re_mapping 0.0045 re_causal 0.0118 /// teacc 99.03 lr 0.00010000
+Epoch 294, weight, value: tensor([[-0.1142, -0.2409, -0.0824,  ..., -0.0616,  0.1840,  0.1821],
+        [-0.2195, -0.1889, -0.0855,  ..., -0.1687, -0.2207, -0.1349],
+        [-0.0756, -0.1656,  0.1390,  ..., -0.2132,  0.2430,  0.0927],
+        ...,
+        [-0.1583,  0.0829,  0.0389,  ...,  0.1962, -0.2184, -0.2614],
+        [-0.2753,  0.0661, -0.1481,  ...,  0.0553, -0.1096, -0.1886],
+        [-0.0235, -0.1335, -0.0957,  ..., -0.1151, -0.0620, -0.2141]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          1.8626e-09,  1.3970e-09],
+        [ 1.3970e-09,  2.5146e-08,  0.0000e+00,  ...,  2.2352e-08,
+          2.3283e-09,  1.3970e-09],
+        [ 0.0000e+00,  1.3970e-09,  0.0000e+00,  ..., -6.0536e-09,
+         -4.0047e-08, -3.2131e-08],
+        ...,
+        [ 1.3970e-09, -4.0513e-08,  0.0000e+00,  ..., -4.0978e-08,
+          3.0268e-08,  2.6077e-08],
+        [ 1.3970e-09,  6.5193e-09,  0.0000e+00,  ...,  4.1910e-09,
+          3.2596e-09,  2.3283e-09],
+        [ 2.3283e-09,  5.1223e-09,  0.0000e+00,  ...,  6.9849e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 294, bias, value: tensor([-0.0095, -0.0344, -0.0172, -0.0236, -0.0307,  0.0076,  0.0225, -0.0112,
+         0.0385, -0.0091], device='cuda:0'), grad: tensor([ 1.0245e-08,  1.3784e-07, -1.1036e-07,  3.3528e-08,  9.0748e-06,
+         9.3132e-10,  6.0536e-09, -1.5832e-08,  3.1851e-07, -9.4324e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 293, time 250.54, cls_loss 0.0015 cls_loss_mapping 0.0022 cls_loss_causal 0.4848 re_mapping 0.0046 re_causal 0.0125 /// teacc 98.98 lr 0.00010000
+Epoch 295, weight, value: tensor([[-0.1143, -0.2411, -0.0826,  ..., -0.0616,  0.1840,  0.1821],
+        [-0.2196, -0.1896, -0.0855,  ..., -0.1692, -0.2209, -0.1350],
+        [-0.0757, -0.1657,  0.1390,  ..., -0.2132,  0.2434,  0.0933],
+        ...,
+        [-0.1586,  0.0831,  0.0387,  ...,  0.1968, -0.2186, -0.2626],
+        [-0.2755,  0.0661, -0.1480,  ...,  0.0553, -0.1098, -0.1888],
+        [-0.0241, -0.1330, -0.0949,  ..., -0.1156, -0.0618, -0.2147]],
+       device='cuda:0'), grad: tensor([[ 1.0245e-08,  1.3970e-09,  0.0000e+00,  ..., -2.0955e-08,
+         -2.6077e-07, -2.7521e-07],
+        [ 9.3132e-10,  1.2387e-07,  0.0000e+00,  ...,  1.9278e-07,
+          2.0489e-08,  2.1886e-08],
+        [ 0.0000e+00,  2.3283e-09,  0.0000e+00,  ...,  5.1223e-09,
+          1.3970e-08,  1.4901e-08],
+        ...,
+        [ 0.0000e+00, -4.3865e-07,  0.0000e+00,  ..., -6.2259e-07,
+          1.7229e-08,  1.7695e-08],
+        [ 9.3132e-10,  4.6566e-09,  0.0000e+00,  ...,  1.8161e-08,
+          1.9046e-07,  2.0163e-07],
+        [ 0.0000e+00,  3.0268e-07,  0.0000e+00,  ...,  4.1444e-07,
+          2.0955e-08,  2.0023e-08]], device='cuda:0')
+Epoch 295, bias, value: tensor([-0.0096, -0.0345, -0.0172, -0.0239, -0.0306,  0.0079,  0.0225, -0.0120,
+         0.0386, -0.0071], device='cuda:0'), grad: tensor([-6.4075e-07,  7.9675e-07,  4.6566e-08,  1.9558e-08,  1.6298e-08,
+         6.1933e-08, -5.2620e-08, -1.9316e-06,  4.7917e-07,  1.2126e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 294, time 250.52, cls_loss 0.0025 cls_loss_mapping 0.0022 cls_loss_causal 0.5022 re_mapping 0.0045 re_causal 0.0115 /// teacc 99.07 lr 0.00010000
+Epoch 296, weight, value: tensor([[-0.1143, -0.2416, -0.0826,  ..., -0.0611,  0.1840,  0.1822],
+        [-0.2197, -0.1927, -0.0855,  ..., -0.1720, -0.2244, -0.1371],
+        [-0.0759, -0.1663,  0.1395,  ..., -0.2134,  0.2460,  0.0941],
+        ...,
+        [-0.1594,  0.0856,  0.0386,  ...,  0.1987, -0.2187, -0.2639],
+        [-0.2768,  0.0662, -0.1483,  ...,  0.0548, -0.1090, -0.1914],
+        [-0.0242, -0.1333, -0.0946,  ..., -0.1162, -0.0620, -0.2153]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  4.6566e-10,  0.0000e+00,  ...,  9.3132e-10,
+          1.3970e-09,  1.3970e-09],
+        [ 1.8626e-09,  1.3970e-09,  0.0000e+00,  ...,  1.3970e-09,
+          4.6566e-09,  4.1910e-09],
+        [ 0.0000e+00, -5.9139e-08,  0.0000e+00,  ..., -1.9977e-07,
+         -3.3155e-07, -2.6310e-07],
+        ...,
+        [ 4.6566e-10,  5.0757e-08,  0.0000e+00,  ...,  1.8300e-07,
+          3.1991e-07,  2.5472e-07],
+        [ 3.7253e-09,  3.7253e-09,  0.0000e+00,  ...,  6.5193e-09,
+          1.3970e-08,  1.1176e-08],
+        [ 9.3132e-10,  4.6566e-09,  0.0000e+00,  ...,  3.7253e-09,
+          1.3970e-09,  9.3132e-10]], device='cuda:0')
+Epoch 296, bias, value: tensor([-0.0096, -0.0361, -0.0159, -0.0240, -0.0301,  0.0082,  0.0224, -0.0110,
+         0.0381, -0.0073], device='cuda:0'), grad: tensor([ 4.0047e-08,  6.6124e-08, -8.8289e-07,  9.3132e-10,  7.6462e-07,
+         1.0198e-07, -3.9581e-08,  8.9267e-07,  6.5044e-06, -7.4357e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 295, time 250.28, cls_loss 0.0019 cls_loss_mapping 0.0023 cls_loss_causal 0.4658 re_mapping 0.0048 re_causal 0.0119 /// teacc 99.05 lr 0.00010000
+Epoch 297, weight, value: tensor([[-0.1143, -0.2417, -0.0828,  ..., -0.0608,  0.1840,  0.1822],
+        [-0.2197, -0.1928, -0.0855,  ..., -0.1721, -0.2249, -0.1363],
+        [-0.0759, -0.1667,  0.1396,  ..., -0.2135,  0.2467,  0.0946],
+        ...,
+        [-0.1598,  0.0856,  0.0383,  ...,  0.1989, -0.2190, -0.2663],
+        [-0.2770,  0.0661, -0.1476,  ...,  0.0549, -0.1091, -0.1915],
+        [-0.0242, -0.1335, -0.0927,  ..., -0.1166, -0.0618, -0.2161]],
+       device='cuda:0'), grad: tensor([[ 1.5600e-07,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          1.0617e-07,  9.4064e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+         -1.5832e-08,  4.6566e-09],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          1.1176e-08, -2.3283e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          5.1223e-09,  9.3132e-10],
+        [ 1.1642e-08,  0.0000e+00,  0.0000e+00,  ..., -1.3793e-06,
+          1.6298e-08,  1.3039e-08],
+        [ 4.6566e-10,  0.0000e+00, -2.3283e-09,  ...,  0.0000e+00,
+          4.0513e-08,  2.9337e-08]], device='cuda:0')
+Epoch 297, bias, value: tensor([-0.0096, -0.0359, -0.0158, -0.0236, -0.0295,  0.0079,  0.0224, -0.0112,
+         0.0382, -0.0075], device='cuda:0'), grad: tensor([ 2.8405e-07, -2.0675e-07,  1.6578e-07,  1.3970e-08, -1.1154e-05,
+         4.4703e-07,  6.9514e-06,  1.0982e-05, -7.6890e-06,  2.2771e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 296, time 249.90, cls_loss 0.0020 cls_loss_mapping 0.0015 cls_loss_causal 0.4873 re_mapping 0.0047 re_causal 0.0120 /// teacc 99.10 lr 0.00010000
+Epoch 298, weight, value: tensor([[-0.1143, -0.2419, -0.0820,  ..., -0.0608,  0.1841,  0.1823],
+        [-0.2198, -0.1929, -0.0855,  ..., -0.1723, -0.2251, -0.1368],
+        [-0.0759, -0.1675,  0.1394,  ..., -0.2135,  0.2472,  0.0956],
+        ...,
+        [-0.1601,  0.0857,  0.0382,  ...,  0.1991, -0.2194, -0.2688],
+        [-0.2772,  0.0657, -0.1475,  ...,  0.0552, -0.1083, -0.1917],
+        [-0.0244, -0.1337, -0.0922,  ..., -0.1168, -0.0620, -0.2167]],
+       device='cuda:0'), grad: tensor([[ 2.1886e-08,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+         -1.0943e-07, -4.9360e-08],
+        [ 2.7940e-09,  4.1910e-09,  0.0000e+00,  ...,  6.0536e-09,
+          1.7229e-08,  1.3504e-08],
+        [ 3.6787e-08,  6.0536e-09,  0.0000e+00,  ...,  6.0536e-09,
+          1.3970e-09,  3.2596e-09],
+        ...,
+        [ 4.6566e-10, -3.3528e-08,  0.0000e+00,  ..., -5.4482e-08,
+          2.3283e-09,  9.3132e-10],
+        [ 7.2503e-07,  2.1420e-08,  4.6566e-10,  ...,  2.3749e-08,
+          1.1511e-06,  1.1623e-06],
+        [-3.0873e-07,  8.3819e-09, -1.8626e-09,  ...,  1.3039e-08,
+          4.4238e-08,  2.8405e-08]], device='cuda:0')
+Epoch 298, bias, value: tensor([-0.0096, -0.0357, -0.0157, -0.0235, -0.0281,  0.0079,  0.0223, -0.0112,
+         0.0380, -0.0083], device='cuda:0'), grad: tensor([ 4.1444e-08,  1.6624e-07,  2.5751e-07,  5.5414e-08,  3.9488e-06,
+         6.8732e-07, -8.1137e-06, -1.2852e-07,  9.9167e-06, -6.8322e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 297, time 250.88, cls_loss 0.0022 cls_loss_mapping 0.0020 cls_loss_causal 0.5134 re_mapping 0.0046 re_causal 0.0122 /// teacc 99.06 lr 0.00010000
+Epoch 299, weight, value: tensor([[-0.1145, -0.2421, -0.0798,  ..., -0.0608,  0.1842,  0.1824],
+        [-0.2217, -0.1931, -0.0855,  ..., -0.1727, -0.2253, -0.1384],
+        [-0.0757, -0.1679,  0.1392,  ..., -0.2137,  0.2472,  0.0968],
+        ...,
+        [-0.1603,  0.0866,  0.0382,  ...,  0.1999, -0.2196, -0.2698],
+        [-0.2779,  0.0658, -0.1476,  ...,  0.0553, -0.1088, -0.1926],
+        [-0.0247, -0.1351, -0.0919,  ..., -0.1182, -0.0622, -0.2177]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -9.5926e-08,  0.0000e+00,  ..., -3.0175e-07,
+         -6.7567e-07, -6.6776e-07],
+        [ 0.0000e+00,  7.4506e-09,  0.0000e+00,  ...,  1.0710e-08,
+          6.9849e-09,  6.9849e-09],
+        [ 0.0000e+00,  1.6764e-08,  0.0000e+00,  ...,  2.9802e-08,
+          2.5611e-08,  2.8871e-08],
+        ...,
+        [ 0.0000e+00, -9.2667e-08,  0.0000e+00,  ..., -1.0198e-07,
+          4.7032e-08,  4.5169e-08],
+        [ 1.3970e-09,  5.4948e-08,  0.0000e+00,  ...,  6.7987e-08,
+          7.4506e-09,  7.4506e-09],
+        [-2.8871e-08,  7.9162e-09,  0.0000e+00,  ...,  1.6764e-08,
+          2.8871e-08,  2.7940e-08]], device='cuda:0')
+Epoch 299, bias, value: tensor([-0.0096, -0.0358, -0.0158, -0.0231, -0.0294,  0.0075,  0.0224, -0.0108,
+         0.0376, -0.0087], device='cuda:0'), grad: tensor([-1.9297e-06,  4.1444e-08,  1.1316e-07,  1.1176e-07,  2.3749e-08,
+         6.7428e-07,  1.0571e-06, -1.8813e-07,  1.9139e-07, -9.1735e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 298, time 250.68, cls_loss 0.0017 cls_loss_mapping 0.0015 cls_loss_causal 0.4881 re_mapping 0.0044 re_causal 0.0119 /// teacc 98.94 lr 0.00010000
+Epoch 300, weight, value: tensor([[-0.1145, -0.2424, -0.0797,  ..., -0.0604,  0.1843,  0.1825],
+        [-0.2223, -0.1932, -0.0855,  ..., -0.1728, -0.2254, -0.1387],
+        [-0.0758, -0.1684,  0.1393,  ..., -0.2139,  0.2473,  0.0972],
+        ...,
+        [-0.1612,  0.0853,  0.0382,  ...,  0.1998, -0.2197, -0.2706],
+        [-0.2781,  0.0665, -0.1477,  ...,  0.0558, -0.1089, -0.1930],
+        [-0.0247, -0.1353, -0.0918,  ..., -0.1184, -0.0623, -0.2178]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  2.7940e-09,  0.0000e+00,  ...,  6.0536e-09,
+         -1.0896e-07, -4.7032e-08],
+        [ 9.3132e-10,  3.0594e-07,  0.0000e+00,  ...,  7.3761e-07,
+          3.2596e-09,  8.8476e-09],
+        [ 2.3283e-09,  2.8312e-07,  0.0000e+00,  ...,  6.7148e-07,
+          8.3819e-08,  4.3306e-08],
+        ...,
+        [ 7.9162e-09, -6.2305e-07,  0.0000e+00,  ..., -1.5581e-06,
+          4.6566e-09, -9.7789e-09],
+        [ 1.2573e-08,  2.2352e-08,  0.0000e+00,  ..., -3.6322e-08,
+          2.3283e-09,  4.6566e-09],
+        [ 1.3970e-09,  1.5367e-08,  0.0000e+00,  ...,  3.7253e-08,
+          1.6764e-08,  8.3819e-09]], device='cuda:0')
+Epoch 300, bias, value: tensor([-0.0096, -0.0358, -0.0158, -0.0225, -0.0295,  0.0075,  0.0224, -0.0110,
+         0.0379, -0.0086], device='cuda:0'), grad: tensor([-2.0070e-07,  1.8794e-06,  1.8999e-06,  1.8859e-07, -1.8859e-07,
+         1.4622e-07, -3.8184e-08, -3.7216e-06, -8.3353e-08,  1.3784e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 299, time 250.59, cls_loss 0.0025 cls_loss_mapping 0.0021 cls_loss_causal 0.4816 re_mapping 0.0047 re_causal 0.0119 /// teacc 99.06 lr 0.00010000
+Epoch 301, weight, value: tensor([[-0.1148, -0.2426, -0.0800,  ..., -0.0604,  0.1855,  0.1836],
+        [-0.2229, -0.1933, -0.0856,  ..., -0.1731, -0.2256, -0.1397],
+        [-0.0753, -0.1691,  0.1415,  ..., -0.2142,  0.2478,  0.0989],
+        ...,
+        [-0.1618,  0.0847,  0.0366,  ...,  0.1994, -0.2200, -0.2733],
+        [-0.2787,  0.0680, -0.1478,  ...,  0.0570, -0.1076, -0.1914],
+        [-0.0254, -0.1354, -0.0918,  ..., -0.1188, -0.0645, -0.2216]],
+       device='cuda:0'), grad: tensor([[ 2.2491e-07,  3.2131e-07,  4.6566e-10,  ...,  0.0000e+00,
+          1.0394e-06,  5.3085e-07],
+        [ 1.3970e-09,  5.5879e-09,  9.3132e-10,  ...,  5.1223e-09,
+          5.1200e-05,  4.1947e-06],
+        [ 1.4435e-08,  2.0955e-08,  0.0000e+00,  ...,  1.3970e-09,
+         -5.2840e-05, -4.2766e-06],
+        ...,
+        [ 4.6566e-10, -3.3993e-08,  3.2596e-09,  ..., -3.9116e-08,
+          8.4145e-07,  6.9384e-08],
+        [ 2.1420e-08,  2.5146e-08,  9.3132e-10,  ...,  2.4680e-08,
+          1.6345e-07, -5.1223e-09],
+        [ 1.3970e-09,  4.6566e-09, -6.9849e-09,  ...,  5.1223e-09,
+          6.3796e-08,  5.4017e-08]], device='cuda:0')
+Epoch 301, bias, value: tensor([-0.0085, -0.0359, -0.0161, -0.0223, -0.0295,  0.0075,  0.0225, -0.0110,
+         0.0388, -0.0104], device='cuda:0'), grad: tensor([ 3.0845e-06,  1.6296e-04, -1.6797e-04, -1.7006e-06,  7.9162e-07,
+        -7.4832e-07,  6.1607e-07,  2.8666e-06,  4.1770e-07, -2.9802e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 300, time 250.30, cls_loss 0.0020 cls_loss_mapping 0.0023 cls_loss_causal 0.4767 re_mapping 0.0046 re_causal 0.0118 /// teacc 98.94 lr 0.00010000
+Epoch 302, weight, value: tensor([[-0.1151, -0.2428, -0.0800,  ..., -0.0605,  0.1857,  0.1839],
+        [-0.2236, -0.1965, -0.0857,  ..., -0.1769, -0.2267, -0.1409],
+        [-0.0754, -0.1698,  0.1420,  ..., -0.2148,  0.2484,  0.0994],
+        ...,
+        [-0.1621,  0.0873,  0.0361,  ...,  0.2022, -0.2201, -0.2743],
+        [-0.2789,  0.0679, -0.1479,  ...,  0.0571, -0.1078, -0.1917],
+        [-0.0250, -0.1356, -0.0913,  ..., -0.1191, -0.0651, -0.2222]],
+       device='cuda:0'), grad: tensor([[ 6.0536e-09,  4.6566e-10,  0.0000e+00,  ...,  9.3132e-10,
+         -1.9092e-08, -1.6298e-08],
+        [ 9.3132e-10,  3.0268e-08,  0.0000e+00,  ...,  3.5390e-08,
+          4.6566e-10,  4.6566e-10],
+        [ 0.0000e+00,  1.7229e-08,  0.0000e+00,  ...,  3.5390e-08,
+         -4.1910e-08, -1.2107e-08],
+        ...,
+        [ 1.3970e-09, -1.3364e-07,  0.0000e+00,  ..., -1.5367e-07,
+          1.8626e-09,  1.8626e-09],
+        [ 1.3970e-08,  2.3283e-08,  4.6566e-10,  ..., -3.7253e-09,
+          4.6566e-10,  4.6566e-10],
+        [ 4.6566e-10,  3.7719e-08, -9.3132e-10,  ...,  4.3772e-08,
+          2.0023e-08,  2.0489e-08]], device='cuda:0')
+Epoch 302, bias, value: tensor([-0.0082, -0.0379, -0.0164, -0.0222, -0.0307,  0.0074,  0.0226, -0.0090,
+         0.0389, -0.0107], device='cuda:0'), grad: tensor([-4.3772e-08,  9.0804e-08,  1.6531e-07,  7.4971e-08,  1.0757e-07,
+         2.5611e-08, -4.1910e-09, -3.8370e-07, -1.3597e-07,  1.0990e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 301, time 250.54, cls_loss 0.0024 cls_loss_mapping 0.0026 cls_loss_causal 0.4864 re_mapping 0.0048 re_causal 0.0115 /// teacc 99.09 lr 0.00010000
+Epoch 303, weight, value: tensor([[-0.1151, -0.2430, -0.0801,  ..., -0.0603,  0.1858,  0.1839],
+        [-0.2236, -0.1971, -0.0855,  ..., -0.1778, -0.2271, -0.1410],
+        [-0.0755, -0.1700,  0.1425,  ..., -0.2150,  0.2489,  0.0996],
+        ...,
+        [-0.1631,  0.0882,  0.0352,  ...,  0.2031, -0.2203, -0.2748],
+        [-0.2794,  0.0681, -0.1486,  ...,  0.0572, -0.1078, -0.1923],
+        [-0.0256, -0.1361, -0.0907,  ..., -0.1197, -0.0651, -0.2222]],
+       device='cuda:0'), grad: tensor([[ 2.5611e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -2.3283e-09,  4.1910e-09],
+        [ 1.4901e-08,  7.4506e-09,  0.0000e+00,  ...,  2.7940e-09,
+          9.3132e-10,  9.3132e-10],
+        [ 3.7253e-09,  2.7474e-08,  0.0000e+00,  ...,  1.8626e-09,
+          4.6566e-10,  0.0000e+00],
+        ...,
+        [ 1.6764e-08, -2.3283e-09,  0.0000e+00,  ..., -7.4506e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 1.7369e-07, -6.0536e-08,  0.0000e+00,  ..., -6.9849e-09,
+          1.8626e-09,  2.3283e-09],
+        [ 7.8231e-08,  5.4948e-08,  0.0000e+00,  ...,  8.8476e-09,
+          1.3970e-09,  9.3132e-10]], device='cuda:0')
+Epoch 303, bias, value: tensor([-0.0083, -0.0379, -0.0163, -0.0212, -0.0300,  0.0063,  0.0226, -0.0090,
+         0.0394, -0.0107], device='cuda:0'), grad: tensor([ 2.9337e-08,  3.0920e-07,  1.1642e-07,  3.7253e-07, -4.9081e-07,
+        -1.1958e-06,  5.7369e-07,  1.0012e-07, -9.5461e-08,  2.9802e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 302, time 250.18, cls_loss 0.0018 cls_loss_mapping 0.0023 cls_loss_causal 0.4380 re_mapping 0.0047 re_causal 0.0112 /// teacc 99.08 lr 0.00010000
+Epoch 304, weight, value: tensor([[-0.1152, -0.2432, -0.0801,  ..., -0.0604,  0.1858,  0.1840],
+        [-0.2272, -0.1972, -0.0855,  ..., -0.1781, -0.2275, -0.1448],
+        [-0.0720, -0.1703,  0.1425,  ..., -0.2151,  0.2491,  0.1027],
+        ...,
+        [-0.1642,  0.0887,  0.0352,  ...,  0.2034, -0.2203, -0.2752],
+        [-0.2800,  0.0680, -0.1487,  ...,  0.0573, -0.1082, -0.1935],
+        [-0.0265, -0.1364, -0.0905,  ..., -0.1200, -0.0651, -0.2222]],
+       device='cuda:0'), grad: tensor([[ 6.9384e-08,  4.4703e-08,  0.0000e+00,  ...,  3.4925e-09,
+          1.5437e-07,  6.7987e-08],
+        [ 1.6298e-09,  1.2573e-08,  0.0000e+00,  ...,  2.6077e-08,
+          2.8871e-08,  2.3283e-10],
+        [ 1.7928e-08,  1.1642e-08,  0.0000e+00,  ...,  6.9849e-10,
+          6.9849e-08,  1.5367e-08],
+        ...,
+        [ 2.5611e-09, -2.5844e-08,  0.0000e+00,  ..., -6.3796e-08,
+          2.3982e-08,  4.6566e-10],
+        [ 4.4238e-09,  3.2596e-09,  0.0000e+00,  ...,  2.3283e-10,
+          2.7940e-09,  1.1642e-09],
+        [ 6.9849e-10,  1.3504e-08,  0.0000e+00,  ...,  3.0501e-08,
+          1.6554e-07,  2.3283e-10]], device='cuda:0')
+Epoch 304, bias, value: tensor([-0.0083, -0.0385, -0.0147, -0.0213, -0.0299,  0.0060,  0.0227, -0.0089,
+         0.0395, -0.0110], device='cuda:0'), grad: tensor([ 6.2119e-07,  2.2468e-07,  4.7521e-07, -5.7416e-07, -3.2056e-06,
+         6.9616e-08,  9.4762e-08,  1.4831e-07,  2.7707e-08,  2.1309e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 303, time 250.42, cls_loss 0.0018 cls_loss_mapping 0.0019 cls_loss_causal 0.4951 re_mapping 0.0045 re_causal 0.0119 /// teacc 99.05 lr 0.00010000
+Epoch 305, weight, value: tensor([[-0.1152, -0.2435, -0.0801,  ..., -0.0605,  0.1859,  0.1840],
+        [-0.2274, -0.1974, -0.0855,  ..., -0.1785, -0.2276, -0.1447],
+        [-0.0721, -0.1705,  0.1425,  ..., -0.2152,  0.2490,  0.1027],
+        ...,
+        [-0.1645,  0.0887,  0.0352,  ...,  0.2034, -0.2204, -0.2764],
+        [-0.2804,  0.0685, -0.1486,  ...,  0.0580, -0.1086, -0.1940],
+        [-0.0276, -0.1366, -0.0904,  ..., -0.1201, -0.0651, -0.2222]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-09,  1.6298e-09,  2.3283e-10,  ...,  1.8626e-09,
+         -7.7672e-07, -5.6252e-07],
+        [ 4.1910e-09,  1.0477e-08,  1.1642e-09,  ...,  1.1409e-08,
+          1.9558e-08,  1.2107e-08],
+        [ 6.9849e-10,  2.5611e-09,  0.0000e+00,  ...,  2.7940e-09,
+          1.0012e-08,  6.9849e-09],
+        ...,
+        [ 4.6566e-10, -2.3516e-08,  3.4925e-09,  ..., -2.5611e-08,
+          1.0477e-08,  7.4506e-09],
+        [ 1.3970e-09,  1.8626e-09,  2.3283e-10,  ...,  1.8626e-09,
+          3.9116e-08,  2.9337e-08],
+        [ 4.6566e-10,  5.3551e-09, -9.3132e-09,  ...,  5.8208e-09,
+          3.3434e-07,  2.4191e-07]], device='cuda:0')
+Epoch 305, bias, value: tensor([-0.0083, -0.0380, -0.0151, -0.0218, -0.0300,  0.0061,  0.0228, -0.0091,
+         0.0395, -0.0110], device='cuda:0'), grad: tensor([-2.2426e-06,  9.5461e-08,  4.2841e-08,  4.4005e-08, -7.2177e-07,
+         2.1793e-07,  1.5469e-06, -1.6531e-08,  1.2713e-07,  9.1270e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 304, time 250.51, cls_loss 0.0018 cls_loss_mapping 0.0023 cls_loss_causal 0.5029 re_mapping 0.0048 re_causal 0.0123 /// teacc 99.11 lr 0.00010000
+Epoch 306, weight, value: tensor([[-0.1152, -0.2437, -0.0801,  ..., -0.0606,  0.1859,  0.1841],
+        [-0.2274, -0.1976, -0.0855,  ..., -0.1784, -0.2276, -0.1448],
+        [-0.0721, -0.1706,  0.1425,  ..., -0.2152,  0.2492,  0.1033],
+        ...,
+        [-0.1646,  0.0890,  0.0352,  ...,  0.2039, -0.2206, -0.2784],
+        [-0.2809,  0.0684, -0.1487,  ...,  0.0581, -0.1091, -0.1950],
+        [-0.0283, -0.1370, -0.0903,  ..., -0.1207, -0.0651, -0.2223]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-09,  2.5379e-08,  0.0000e+00,  ...,  6.4028e-08,
+         -6.3796e-08, -4.7032e-08],
+        [ 6.0536e-09,  9.0338e-08,  0.0000e+00,  ...,  1.5250e-07,
+          3.9581e-09,  2.3283e-09],
+        [ 1.6298e-09,  1.3015e-07,  0.0000e+00,  ...,  1.1059e-07,
+         -3.8417e-08, -1.3504e-08],
+        ...,
+        [ 9.3132e-10, -1.2284e-06,  0.0000e+00,  ..., -1.5274e-06,
+          1.6298e-09, -1.5600e-08],
+        [ 1.4203e-08,  4.7730e-08,  0.0000e+00,  ...,  4.0978e-08,
+          3.0268e-09,  2.7940e-09],
+        [ 1.6764e-08,  1.6973e-07,  0.0000e+00,  ...,  4.8103e-07,
+          5.2620e-08,  3.8184e-08]], device='cuda:0')
+Epoch 306, bias, value: tensor([-0.0083, -0.0380, -0.0151, -0.0220, -0.0298,  0.0061,  0.0229, -0.0092,
+         0.0398, -0.0110], device='cuda:0'), grad: tensor([ 1.0873e-07, -3.0398e-06,  2.3795e-07,  3.9153e-06, -1.0524e-06,
+        -2.3190e-06,  8.1258e-07, -8.3493e-07,  1.6624e-07,  2.0079e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 305, time 251.16, cls_loss 0.0024 cls_loss_mapping 0.0026 cls_loss_causal 0.4824 re_mapping 0.0046 re_causal 0.0110 /// teacc 99.08 lr 0.00010000
+Epoch 307, weight, value: tensor([[-0.1153, -0.2441, -0.0804,  ..., -0.0606,  0.1860,  0.1841],
+        [-0.2276, -0.1977, -0.0857,  ..., -0.1789, -0.2277, -0.1453],
+        [-0.0721, -0.1708,  0.1426,  ..., -0.2153,  0.2495,  0.1042],
+        ...,
+        [-0.1658,  0.0894,  0.0333,  ...,  0.2051, -0.2209, -0.2794],
+        [-0.2812,  0.0683, -0.1490,  ...,  0.0585, -0.1097, -0.1960],
+        [-0.0279, -0.1374, -0.0865,  ..., -0.1220, -0.0651, -0.2223]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -5.7509e-08, -3.4925e-08],
+        [ 0.0000e+00,  3.0268e-09,  0.0000e+00,  ...,  4.4238e-09,
+          3.0268e-09,  1.6298e-09],
+        [ 0.0000e+00,  3.3993e-08,  0.0000e+00,  ...,  4.9826e-08,
+         -3.0268e-08, -1.7928e-08],
+        ...,
+        [ 0.0000e+00, -1.8300e-07,  0.0000e+00,  ..., -2.1793e-07,
+          6.9849e-09,  3.4925e-09],
+        [ 1.3271e-08,  1.4203e-07,  0.0000e+00,  ...,  1.5926e-07,
+          2.5611e-08,  1.6531e-08],
+        [ 4.6566e-10,  2.3283e-09,  0.0000e+00,  ...,  6.5193e-09,
+          3.5856e-08,  2.0023e-08]], device='cuda:0')
+Epoch 307, bias, value: tensor([-0.0083, -0.0381, -0.0152, -0.0215, -0.0315,  0.0050,  0.0230, -0.0089,
+         0.0399, -0.0105], device='cuda:0'), grad: tensor([-1.1781e-07, -1.7928e-08, -9.0804e-09,  1.3039e-08, -6.4960e-08,
+        -5.6578e-08,  4.9593e-08, -3.0617e-07,  3.4692e-07,  1.6228e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 306, time 250.91, cls_loss 0.0018 cls_loss_mapping 0.0019 cls_loss_causal 0.4890 re_mapping 0.0046 re_causal 0.0118 /// teacc 99.12 lr 0.00010000
+Epoch 308, weight, value: tensor([[-0.1154, -0.2448, -0.0804,  ..., -0.0607,  0.1860,  0.1842],
+        [-0.2294, -0.1977, -0.0857,  ..., -0.1788, -0.2278, -0.1456],
+        [-0.0720, -0.1707,  0.1427,  ..., -0.2154,  0.2495,  0.1044],
+        ...,
+        [-0.1676,  0.0893,  0.0332,  ...,  0.2050, -0.2209, -0.2800],
+        [-0.2818,  0.0691, -0.1490,  ...,  0.0595, -0.1097, -0.1970],
+        [-0.0288, -0.1377, -0.0863,  ..., -0.1229, -0.0652, -0.2225]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  2.3283e-10,
+         -2.2096e-07, -2.5402e-07],
+        [ 6.9849e-10,  9.3132e-10,  0.0000e+00,  ...,  5.5879e-09,
+         -4.6566e-10,  1.3970e-09],
+        [ 0.0000e+00, -2.3283e-10,  0.0000e+00,  ...,  2.3283e-10,
+         -8.7311e-08, -6.0769e-08],
+        ...,
+        [ 4.6566e-10,  9.3132e-10,  0.0000e+00,  ...,  1.0710e-08,
+          5.5879e-09,  4.4238e-09],
+        [ 1.3970e-09,  2.3283e-10,  0.0000e+00,  ..., -2.0722e-08,
+          3.2596e-09,  2.7940e-09],
+        [ 9.3132e-10,  1.1642e-09,  0.0000e+00,  ...,  2.3283e-09,
+          1.9325e-08,  2.1886e-08]], device='cuda:0')
+Epoch 308, bias, value: tensor([-0.0084, -0.0382, -0.0151, -0.0203, -0.0316,  0.0041,  0.0231, -0.0090,
+         0.0406, -0.0106], device='cuda:0'), grad: tensor([-4.9360e-07, -1.1409e-08, -1.8999e-07,  2.6543e-08,  2.7474e-07,
+         1.0920e-07,  3.0617e-07,  8.3121e-08, -4.7963e-08, -4.0047e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 307, time 250.64, cls_loss 0.0015 cls_loss_mapping 0.0016 cls_loss_causal 0.4640 re_mapping 0.0044 re_causal 0.0114 /// teacc 99.10 lr 0.00010000
+Epoch 309, weight, value: tensor([[-0.1154, -0.2460, -0.0805,  ..., -0.0606,  0.1861,  0.1843],
+        [-0.2301, -0.1979, -0.0857,  ..., -0.1786, -0.2281, -0.1458],
+        [-0.0720, -0.1704,  0.1427,  ..., -0.2155,  0.2498,  0.1057],
+        ...,
+        [-0.1688,  0.0893,  0.0330,  ...,  0.2050, -0.2213, -0.2814],
+        [-0.2824,  0.0690, -0.1491,  ...,  0.0595, -0.1109, -0.1984],
+        [-0.0299, -0.1377, -0.0860,  ..., -0.1230, -0.0654, -0.2227]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-10,  2.3283e-10],
+        [-8.8476e-09,  1.6298e-09,  0.0000e+00,  ...,  2.0955e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  1.1642e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 7.2177e-09, -2.7940e-09,  0.0000e+00,  ..., -6.5193e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 5.3551e-09,  3.9581e-09,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 2.0955e-09,  2.3283e-09,  0.0000e+00,  ...,  2.0955e-09,
+          4.6566e-10,  2.3283e-10]], device='cuda:0')
+Epoch 309, bias, value: tensor([-0.0083, -0.0374, -0.0151, -0.0202, -0.0315,  0.0040,  0.0232, -0.0099,
+         0.0404, -0.0106], device='cuda:0'), grad: tensor([ 1.6298e-09, -1.3411e-07,  3.7253e-09, -4.4238e-08,  7.6834e-09,
+         5.7975e-08,  2.3283e-09,  1.2824e-06,  2.1420e-08, -1.1958e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 308, time 250.31, cls_loss 0.0020 cls_loss_mapping 0.0018 cls_loss_causal 0.4983 re_mapping 0.0043 re_causal 0.0112 /// teacc 99.11 lr 0.00010000
+Epoch 310, weight, value: tensor([[-0.1156, -0.2465, -0.0806,  ..., -0.0606,  0.1860,  0.1844],
+        [-0.2302, -0.1983, -0.0858,  ..., -0.1797, -0.2287, -0.1462],
+        [-0.0721, -0.1703,  0.1428,  ..., -0.2157,  0.2501,  0.1068],
+        ...,
+        [-0.1702,  0.0894,  0.0328,  ...,  0.2058, -0.2212, -0.2829],
+        [-0.2827,  0.0690, -0.1491,  ...,  0.0595, -0.1105, -0.1993],
+        [-0.0311, -0.1380, -0.0855,  ..., -0.1232, -0.0651, -0.2228]],
+       device='cuda:0'), grad: tensor([[ 5.3551e-09,  4.6566e-10,  0.0000e+00,  ...,  9.3132e-10,
+          3.0035e-08,  4.4238e-09],
+        [ 5.1223e-09,  3.0268e-09,  0.0000e+00,  ...,  2.7940e-09,
+          3.2596e-08,  0.0000e+00],
+        [ 2.7940e-09,  5.5879e-09,  0.0000e+00,  ...,  8.6147e-09,
+          1.7928e-08,  2.3283e-10],
+        ...,
+        [ 2.3283e-09, -8.3121e-08,  0.0000e+00,  ..., -1.2922e-07,
+          6.2864e-09,  0.0000e+00],
+        [ 2.7940e-09,  6.1002e-08,  0.0000e+00,  ...,  9.0338e-08,
+          6.9849e-10,  2.3283e-10],
+        [ 2.5611e-09,  5.3551e-09,  0.0000e+00,  ...,  9.5461e-09,
+          6.2864e-09,  6.9849e-10]], device='cuda:0')
+Epoch 310, bias, value: tensor([-0.0086, -0.0379, -0.0150, -0.0194, -0.0318,  0.0036,  0.0232, -0.0097,
+         0.0408, -0.0101], device='cuda:0'), grad: tensor([ 9.2201e-08,  1.2224e-07,  7.6368e-08,  1.1409e-08, -1.2070e-06,
+         2.0256e-08,  7.4133e-07, -1.3621e-07,  1.3551e-07,  1.5902e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 309, time 250.37, cls_loss 0.0023 cls_loss_mapping 0.0022 cls_loss_causal 0.4856 re_mapping 0.0043 re_causal 0.0115 /// teacc 99.07 lr 0.00010000
+Epoch 311, weight, value: tensor([[-0.1151, -0.2467, -0.0807,  ..., -0.0606,  0.1860,  0.1851],
+        [-0.2302, -0.1984, -0.0858,  ..., -0.1801, -0.2298, -0.1462],
+        [-0.0722, -0.1706,  0.1428,  ..., -0.2160,  0.2513,  0.1064],
+        ...,
+        [-0.1707,  0.0894,  0.0328,  ...,  0.2057, -0.2222, -0.2836],
+        [-0.2830,  0.0694, -0.1492,  ...,  0.0610, -0.1104, -0.1996],
+        [-0.0309, -0.1381, -0.0855,  ..., -0.1237, -0.0643, -0.2229]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  4.6566e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  1.0245e-08,  0.0000e+00,  ...,  2.0722e-08,
+          2.0955e-09,  0.0000e+00],
+        [ 0.0000e+00,  2.0955e-09,  0.0000e+00,  ...,  4.1910e-09,
+         -2.5379e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -4.8662e-08,  0.0000e+00,  ..., -9.5461e-08,
+          6.7521e-09,  4.6566e-10],
+        [ 1.3970e-09,  2.0489e-08,  0.0000e+00,  ...,  3.7253e-08,
+          1.0012e-08,  0.0000e+00],
+        [ 4.6566e-10,  2.3283e-09, -0.0000e+00,  ...,  3.9581e-09,
+          9.3132e-10,  2.3283e-10]], device='cuda:0')
+Epoch 311, bias, value: tensor([-0.0091, -0.0376, -0.0138, -0.0189, -0.0326,  0.0028,  0.0228, -0.0105,
+         0.0426, -0.0089], device='cuda:0'), grad: tensor([ 5.3551e-09,  9.8255e-08, -6.0536e-08,  8.2422e-08, -2.0373e-07,
+         2.2817e-08,  1.0943e-08, -1.2713e-07,  7.4506e-08,  1.0594e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 310, time 250.34, cls_loss 0.0020 cls_loss_mapping 0.0016 cls_loss_causal 0.4781 re_mapping 0.0048 re_causal 0.0119 /// teacc 99.05 lr 0.00010000
+Epoch 312, weight, value: tensor([[-0.1158, -0.2469, -0.0807,  ..., -0.0613,  0.1859,  0.1851],
+        [-0.2304, -0.1985, -0.0858,  ..., -0.1803, -0.2301, -0.1465],
+        [-0.0723, -0.1708,  0.1436,  ..., -0.2162,  0.2519,  0.1069],
+        ...,
+        [-0.1712,  0.0895,  0.0328,  ...,  0.2059, -0.2226, -0.2850],
+        [-0.2846,  0.0692, -0.1492,  ...,  0.0613, -0.1105, -0.2001],
+        [-0.0332, -0.1382, -0.0855,  ..., -0.1236, -0.0645, -0.2231]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.3970e-09,  0.0000e+00,  ...,  3.0268e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-09,  0.0000e+00,  ...,  1.1409e-08,
+          3.7253e-09,  1.8626e-09],
+        [ 0.0000e+00,  1.6298e-09,  0.0000e+00,  ...,  7.4506e-09,
+         -9.0804e-09, -4.6566e-09],
+        ...,
+        [ 2.3283e-10, -3.6322e-08,  0.0000e+00,  ..., -8.4285e-08,
+          4.8894e-09,  2.5611e-09],
+        [ 9.3132e-10,  2.3283e-10,  0.0000e+00,  ...,  1.1642e-09,
+          2.3283e-10,  2.3283e-10],
+        [ 4.4238e-09,  2.2817e-08,  0.0000e+00,  ...,  5.1921e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 312, bias, value: tensor([-0.0093, -0.0374, -0.0136, -0.0194, -0.0338,  0.0032,  0.0229, -0.0110,
+         0.0428, -0.0082], device='cuda:0'), grad: tensor([ 8.6147e-09, -1.2526e-07,  1.3039e-08,  4.2375e-08, -6.8918e-08,
+        -2.2817e-08,  2.7940e-09, -4.0978e-08,  5.1223e-09,  1.9115e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 311, time 250.39, cls_loss 0.0020 cls_loss_mapping 0.0016 cls_loss_causal 0.4989 re_mapping 0.0043 re_causal 0.0120 /// teacc 99.03 lr 0.00010000
+Epoch 313, weight, value: tensor([[-0.1161, -0.2470, -0.0807,  ..., -0.0613,  0.1857,  0.1850],
+        [-0.2306, -0.1986, -0.0859,  ..., -0.1822, -0.2303, -0.1469],
+        [-0.0723, -0.1716,  0.1437,  ..., -0.2162,  0.2522,  0.1080],
+        ...,
+        [-0.1714,  0.0897,  0.0328,  ...,  0.2073, -0.2230, -0.2873],
+        [-0.2850,  0.0692, -0.1476,  ...,  0.0605, -0.1109, -0.2009],
+        [-0.0326, -0.1383, -0.0857,  ..., -0.1242, -0.0642, -0.2232]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-09,  0.0000e+00,  0.0000e+00,  ...,  6.9849e-10,
+         -3.0268e-09, -1.1642e-08],
+        [ 2.3283e-10,  1.1642e-09,  0.0000e+00,  ...,  1.8161e-08,
+         -1.8557e-07,  2.3283e-10],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  7.9162e-09,
+          1.4668e-08,  4.6566e-10],
+        ...,
+        [ 2.3283e-10, -3.0268e-09,  0.0000e+00,  ...,  8.6147e-09,
+          2.7707e-08,  2.3283e-10],
+        [ 9.7789e-09,  1.1642e-09,  0.0000e+00,  ..., -3.7486e-08,
+          8.1491e-08,  6.9849e-10],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  9.0804e-09,
+          2.5379e-08,  1.2806e-08]], device='cuda:0')
+Epoch 313, bias, value: tensor([-0.0098, -0.0373, -0.0135, -0.0174, -0.0339,  0.0017,  0.0229, -0.0109,
+         0.0421, -0.0079], device='cuda:0'), grad: tensor([ 1.5670e-07, -2.4159e-06,  2.7148e-07,  4.5868e-08,  3.0105e-07,
+         6.4261e-08,  3.9721e-07,  4.1653e-07,  8.2841e-07, -5.6578e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 312, time 250.52, cls_loss 0.0021 cls_loss_mapping 0.0028 cls_loss_causal 0.4984 re_mapping 0.0043 re_causal 0.0113 /// teacc 99.10 lr 0.00010000
+Epoch 314, weight, value: tensor([[-0.1162, -0.2470, -0.0807,  ..., -0.0614,  0.1857,  0.1851],
+        [-0.2307, -0.1986, -0.0859,  ..., -0.1828, -0.2303, -0.1469],
+        [-0.0723, -0.1721,  0.1436,  ..., -0.2163,  0.2524,  0.1084],
+        ...,
+        [-0.1721,  0.0895,  0.0327,  ...,  0.2078, -0.2232, -0.2881],
+        [-0.2852,  0.0691, -0.1477,  ...,  0.0608, -0.1096, -0.2023],
+        [-0.0326, -0.1384, -0.0857,  ..., -0.1245, -0.0641, -0.2233]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  9.3132e-10,
+         -1.4435e-08, -8.6147e-09],
+        [ 0.0000e+00,  8.0327e-08,  0.0000e+00,  ...,  1.5460e-07,
+          4.6566e-10,  2.3283e-10],
+        [ 0.0000e+00,  2.3283e-09,  0.0000e+00,  ...,  4.6566e-09,
+          4.6566e-10,  2.3283e-10],
+        ...,
+        [ 0.0000e+00, -1.1665e-07,  0.0000e+00,  ..., -2.2771e-07,
+          2.3283e-10,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  6.9849e-10,
+          2.3283e-10,  0.0000e+00],
+        [ 0.0000e+00,  3.1898e-08, -2.3283e-10,  ...,  6.4494e-08,
+          8.3819e-09,  5.1223e-09]], device='cuda:0')
+Epoch 314, bias, value: tensor([-0.0100, -0.0377, -0.0137, -0.0173, -0.0359,  0.0015,  0.0226, -0.0105,
+         0.0426, -0.0068], device='cuda:0'), grad: tensor([-9.0804e-09,  7.4878e-07,  2.1188e-08,  5.1223e-09, -9.3691e-07,
+         1.7695e-08,  3.6531e-07, -5.9418e-07,  1.7928e-08,  3.7695e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 313, time 250.66, cls_loss 0.0020 cls_loss_mapping 0.0019 cls_loss_causal 0.4778 re_mapping 0.0046 re_causal 0.0115 /// teacc 99.06 lr 0.00010000
+Epoch 315, weight, value: tensor([[-0.1163, -0.2472, -0.0808,  ..., -0.0613,  0.1858,  0.1852],
+        [-0.2308, -0.1987, -0.0862,  ..., -0.1830, -0.2305, -0.1461],
+        [-0.0723, -0.1730,  0.1464,  ..., -0.2162,  0.2533,  0.1096],
+        ...,
+        [-0.1725,  0.0896,  0.0327,  ...,  0.2081, -0.2240, -0.2908],
+        [-0.2856,  0.0690, -0.1477,  ...,  0.0607, -0.1099, -0.2026],
+        [-0.0329, -0.1381, -0.0856,  ..., -0.1247, -0.0642, -0.2235]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  2.0955e-09,  0.0000e+00,  ...,  2.5611e-09,
+         -4.0233e-06, -3.5595e-06],
+        [ 2.3283e-10,  6.7521e-09,  0.0000e+00,  ...,  5.3551e-09,
+          5.9372e-08,  4.9360e-08],
+        [ 0.0000e+00,  6.4727e-08,  0.0000e+00,  ...,  7.5903e-08,
+          2.3982e-08,  3.1432e-08],
+        ...,
+        [ 4.6566e-10, -5.6811e-08,  0.0000e+00,  ..., -3.4226e-08,
+          3.4692e-08,  2.2817e-08],
+        [ 4.6566e-10, -4.4471e-08,  0.0000e+00,  ..., -1.5344e-07,
+          1.2526e-07,  1.1479e-07],
+        [ 0.0000e+00,  2.1886e-08,  0.0000e+00,  ...,  9.8487e-08,
+          1.2759e-06,  1.1278e-06]], device='cuda:0')
+Epoch 315, bias, value: tensor([-0.0099, -0.0368, -0.0138, -0.0173, -0.0353,  0.0016,  0.0225, -0.0117,
+         0.0426, -0.0064], device='cuda:0'), grad: tensor([-1.0304e-05,  1.4459e-07,  2.8731e-07,  1.8184e-07,  3.0268e-08,
+         3.3015e-07,  5.9418e-06,  2.3004e-07, -6.9849e-07,  3.8594e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 314, time 250.55, cls_loss 0.0020 cls_loss_mapping 0.0019 cls_loss_causal 0.4872 re_mapping 0.0044 re_causal 0.0114 /// teacc 99.02 lr 0.00010000
+Epoch 316, weight, value: tensor([[-0.1163, -0.2474, -0.0808,  ..., -0.0611,  0.1861,  0.1857],
+        [-0.2311, -0.2000, -0.0862,  ..., -0.1845, -0.2310, -0.1476],
+        [-0.0723, -0.1731,  0.1466,  ..., -0.2158,  0.2541,  0.1111],
+        ...,
+        [-0.1728,  0.0907,  0.0327,  ...,  0.2089, -0.2250, -0.2933],
+        [-0.2869,  0.0688, -0.1478,  ...,  0.0605, -0.1108, -0.2054],
+        [-0.0331, -0.1385, -0.0856,  ..., -0.1253, -0.0644, -0.2238]],
+       device='cuda:0'), grad: tensor([[ 1.1874e-08,  2.3283e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -1.0245e-08, -7.4506e-09],
+        [ 4.6566e-09,  4.1910e-09,  0.0000e+00,  ...,  2.3283e-10,
+         -1.6089e-07,  7.9162e-09],
+        [ 2.4191e-07,  1.6298e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.7998e-07, -1.1642e-08],
+        ...,
+        [ 6.6590e-08,  6.3097e-08,  0.0000e+00,  ...,  4.6566e-10,
+          6.0536e-09,  1.6298e-08],
+        [ 2.0256e-07,  4.6566e-10,  0.0000e+00,  ...,  4.8429e-08,
+          2.6077e-08,  4.6566e-10],
+        [-3.3039e-07,  6.9849e-10,  0.0000e+00,  ...,  1.8161e-08,
+         -8.2189e-08,  6.0536e-09]], device='cuda:0')
+Epoch 316, bias, value: tensor([-0.0097, -0.0375, -0.0135, -0.0174, -0.0353,  0.0014,  0.0227, -0.0108,
+         0.0423, -0.0070], device='cuda:0'), grad: tensor([-4.6566e-09, -1.0999e-06,  1.6754e-06, -2.3982e-07, -8.1817e-07,
+        -2.0699e-07,  2.9337e-07,  3.0128e-07,  4.7497e-07, -3.8208e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 315, time 250.12, cls_loss 0.0020 cls_loss_mapping 0.0020 cls_loss_causal 0.5071 re_mapping 0.0043 re_causal 0.0119 /// teacc 99.00 lr 0.00010000
+Epoch 317, weight, value: tensor([[-0.1163, -0.2481, -0.0808,  ..., -0.0612,  0.1857,  0.1858],
+        [-0.2311, -0.2001, -0.0862,  ..., -0.1847, -0.2310, -0.1469],
+        [-0.0724, -0.1730,  0.1468,  ..., -0.2161,  0.2544,  0.1115],
+        ...,
+        [-0.1734,  0.0896,  0.0327,  ...,  0.2070, -0.2253, -0.2943],
+        [-0.2873,  0.0688, -0.1478,  ...,  0.0606, -0.1111, -0.2053],
+        [-0.0335, -0.1363, -0.0855,  ..., -0.1226, -0.0637, -0.2239]],
+       device='cuda:0'), grad: tensor([[ 1.4668e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -7.4506e-09, -9.7789e-09],
+        [ 6.9849e-10,  2.3283e-10,  0.0000e+00,  ...,  9.3132e-10,
+          2.3283e-10, -4.6566e-10],
+        [ 1.6298e-09,  0.0000e+00,  0.0000e+00,  ...,  6.5193e-09,
+          6.9849e-10,  6.9849e-10],
+        ...,
+        [ 6.9849e-10,  2.3283e-10,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  6.9849e-10],
+        [ 6.5193e-09,  6.9849e-10,  0.0000e+00,  ..., -8.1491e-09,
+          1.3970e-09,  1.1642e-09],
+        [-2.9802e-08,  2.3283e-10, -0.0000e+00,  ..., -4.6566e-10,
+          2.1188e-08,  1.7695e-08]], device='cuda:0')
+Epoch 317, bias, value: tensor([-0.0103, -0.0372, -0.0138, -0.0173, -0.0340,  0.0013,  0.0227, -0.0133,
+         0.0423, -0.0042], device='cuda:0'), grad: tensor([ 2.2352e-08,  1.6531e-08,  1.0594e-07,  3.0105e-07,  4.0280e-08,
+         4.9593e-08, -2.9104e-08,  4.5402e-08, -1.1642e-08, -5.3458e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 316, time 250.05, cls_loss 0.0019 cls_loss_mapping 0.0019 cls_loss_causal 0.4770 re_mapping 0.0044 re_causal 0.0113 /// teacc 98.96 lr 0.00010000
+Epoch 318, weight, value: tensor([[-0.1164, -0.2485, -0.0808,  ..., -0.0612,  0.1858,  0.1858],
+        [-0.2312, -0.2001, -0.0862,  ..., -0.1849, -0.2311, -0.1460],
+        [-0.0728, -0.1737,  0.1468,  ..., -0.2164,  0.2543,  0.1111],
+        ...,
+        [-0.1739,  0.0891,  0.0326,  ...,  0.2048, -0.2253, -0.2947],
+        [-0.2879,  0.0718, -0.1479,  ...,  0.0646, -0.1115, -0.2064],
+        [-0.0339, -0.1369, -0.0853,  ..., -0.1229, -0.0638, -0.2240]],
+       device='cuda:0'), grad: tensor([[ 5.8208e-09,  3.2596e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -3.4925e-09, -3.0268e-09],
+        [ 1.1874e-08,  1.0012e-08,  0.0000e+00,  ...,  1.1642e-09,
+          3.0268e-09,  1.1642e-09],
+        [ 1.8626e-09,  5.3551e-09,  0.0000e+00,  ...,  2.5611e-09,
+         -1.0012e-08, -4.8894e-09],
+        ...,
+        [ 1.8394e-08, -1.1642e-09,  0.0000e+00,  ..., -1.1874e-08,
+          6.2864e-09,  3.0268e-09],
+        [ 5.6112e-08,  3.6322e-08,  0.0000e+00,  ...,  1.2107e-08,
+          2.3283e-10,  2.3283e-10],
+        [ 3.3760e-08,  2.8405e-08,  0.0000e+00,  ...,  2.5611e-09,
+          1.8626e-09,  1.8626e-09]], device='cuda:0')
+Epoch 318, bias, value: tensor([-0.0103, -0.0368, -0.0141, -0.0171, -0.0339,  0.0011,  0.0229, -0.0138,
+         0.0446, -0.0044], device='cuda:0'), grad: tensor([ 9.3132e-09,  1.1273e-05, -1.4668e-08, -1.7476e-04, -1.1563e-05,
+         1.7452e-04,  1.5600e-08,  4.6799e-08,  2.3213e-07,  2.3632e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 317, time 250.44, cls_loss 0.0025 cls_loss_mapping 0.0022 cls_loss_causal 0.4825 re_mapping 0.0041 re_causal 0.0107 /// teacc 99.04 lr 0.00010000
+Epoch 319, weight, value: tensor([[-0.1168, -0.2487, -0.0809,  ..., -0.0614,  0.1863,  0.1867],
+        [-0.2323, -0.2003, -0.0862,  ..., -0.1831, -0.2312, -0.1468],
+        [-0.0717, -0.1743,  0.1468,  ..., -0.2167,  0.2547,  0.1119],
+        ...,
+        [-0.1748,  0.0891,  0.0326,  ...,  0.2034, -0.2258, -0.2951],
+        [-0.2925,  0.0741, -0.1482,  ...,  0.0641, -0.1121, -0.2079],
+        [-0.0353, -0.1379, -0.0852,  ..., -0.1235, -0.0639, -0.2245]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  9.3132e-10,
+         -3.2783e-07, -2.1420e-07],
+        [ 0.0000e+00,  2.1094e-07,  0.0000e+00,  ...,  4.3400e-07,
+          2.6543e-08,  1.8161e-08],
+        [ 0.0000e+00,  3.7253e-08,  0.0000e+00,  ...,  7.6368e-08,
+          9.7789e-09,  6.0536e-09],
+        ...,
+        [ 0.0000e+00, -3.0315e-07,  0.0000e+00,  ..., -6.1560e-07,
+          1.1176e-08,  6.5193e-09],
+        [ 3.2596e-09,  1.2107e-08,  0.0000e+00,  ...,  2.4680e-08,
+          8.3819e-09,  5.5879e-09],
+        [ 0.0000e+00,  1.2573e-08, -4.6566e-10,  ...,  1.7229e-08,
+          1.1735e-07,  8.0094e-08]], device='cuda:0')
+Epoch 319, bias, value: tensor([-0.0102, -0.0362, -0.0141, -0.0168, -0.0327,  0.0021,  0.0225, -0.0143,
+         0.0444, -0.0047], device='cuda:0'), grad: tensor([-6.9803e-07,  1.2238e-06,  2.2445e-07,  1.6065e-07,  4.5169e-08,
+        -1.5832e-08,  3.2084e-07, -1.6149e-06,  8.7079e-08,  2.7614e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 318, time 250.40, cls_loss 0.0016 cls_loss_mapping 0.0011 cls_loss_causal 0.4987 re_mapping 0.0044 re_causal 0.0119 /// teacc 98.99 lr 0.00010000
+Epoch 320, weight, value: tensor([[-0.1170, -0.2488, -0.0810,  ..., -0.0616,  0.1863,  0.1868],
+        [-0.2329, -0.2004, -0.0862,  ..., -0.1835, -0.2315, -0.1476],
+        [-0.0714, -0.1728,  0.1468,  ..., -0.2166,  0.2550,  0.1127],
+        ...,
+        [-0.1755,  0.0892,  0.0326,  ...,  0.2036, -0.2262, -0.2961],
+        [-0.2927,  0.0746, -0.1484,  ...,  0.0644, -0.1110, -0.2077],
+        [-0.0353, -0.1386, -0.0851,  ..., -0.1237, -0.0640, -0.2246]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  1.4110e-07,
+         -1.7695e-08,  6.9849e-09],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  1.4435e-08,
+          1.3970e-09,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8636e-06,
+         -5.1223e-09,  2.8824e-07],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  1.0245e-08,
+          4.1910e-09,  5.5879e-09],
+        [ 3.7253e-09,  0.0000e+00,  0.0000e+00,  ..., -5.9940e-06,
+         -9.3132e-10, -9.3831e-07],
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  7.9162e-09,
+          8.8476e-09,  9.7789e-09]], device='cuda:0')
+Epoch 320, bias, value: tensor([-0.0102, -0.0362, -0.0141, -0.0169, -0.0324,  0.0014,  0.0228, -0.0144,
+         0.0456, -0.0049], device='cuda:0'), grad: tensor([ 4.2235e-07, -2.3283e-08,  5.8860e-06,  3.9116e-08,  9.7789e-09,
+         1.0595e-05,  1.8859e-06,  1.4016e-07, -1.8999e-05,  4.5169e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 319, time 250.35, cls_loss 0.0019 cls_loss_mapping 0.0020 cls_loss_causal 0.4904 re_mapping 0.0044 re_causal 0.0109 /// teacc 99.11 lr 0.00010000
+Epoch 321, weight, value: tensor([[-0.1171, -0.2504, -0.0831,  ..., -0.0617,  0.1864,  0.1868],
+        [-0.2333, -0.2006, -0.0862,  ..., -0.1840, -0.2317, -0.1479],
+        [-0.0714, -0.1730,  0.1468,  ..., -0.2171,  0.2555,  0.1132],
+        ...,
+        [-0.1757,  0.0894,  0.0326,  ...,  0.2040, -0.2263, -0.2962],
+        [-0.2929,  0.0745, -0.1485,  ...,  0.0646, -0.1111, -0.2079],
+        [-0.0358, -0.1388, -0.0850,  ..., -0.1236, -0.0640, -0.2247]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  4.6566e-10,  0.0000e+00,  ...,  1.3970e-09,
+         -2.6263e-07, -1.4761e-07],
+        [ 9.5461e-08,  5.5879e-09,  0.0000e+00,  ..., -3.0873e-07,
+          4.5635e-08,  2.5611e-08],
+        [ 1.8626e-09,  4.6566e-10,  0.0000e+00,  ...,  9.3132e-10,
+          5.5879e-09,  4.6566e-09],
+        ...,
+        [ 5.1223e-09, -2.4820e-07,  0.0000e+00,  ..., -1.3411e-07,
+          4.1910e-09,  2.3283e-09],
+        [ 1.8626e-09,  2.7940e-09,  0.0000e+00,  ...,  2.7940e-09,
+          1.4901e-08,  8.3819e-09],
+        [-1.6298e-08,  2.3749e-07,  0.0000e+00,  ...,  4.3446e-07,
+          1.8114e-07,  1.0012e-07]], device='cuda:0')
+Epoch 321, bias, value: tensor([-0.0102, -0.0347, -0.0140, -0.0169, -0.0330,  0.0011,  0.0229, -0.0156,
+         0.0458, -0.0046], device='cuda:0'), grad: tensor([-5.5321e-07, -2.5649e-06,  3.0268e-08,  6.5193e-09, -9.2480e-07,
+         9.8255e-08,  1.1921e-07,  1.7481e-06,  4.2841e-08,  2.0154e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 320, time 250.19, cls_loss 0.0023 cls_loss_mapping 0.0023 cls_loss_causal 0.4827 re_mapping 0.0041 re_causal 0.0106 /// teacc 99.03 lr 0.00010000
+Epoch 322, weight, value: tensor([[-0.1176, -0.2513, -0.0834,  ..., -0.0619,  0.1865,  0.1870],
+        [-0.2333, -0.2008, -0.0861,  ..., -0.1844, -0.2317, -0.1480],
+        [-0.0717, -0.1733,  0.1470,  ..., -0.2191,  0.2557,  0.1135],
+        ...,
+        [-0.1758,  0.0896,  0.0325,  ...,  0.2044, -0.2267, -0.2968],
+        [-0.2934,  0.0748, -0.1486,  ...,  0.0657, -0.1111, -0.2081],
+        [-0.0377, -0.1397, -0.0852,  ..., -0.1243, -0.0643, -0.2251]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-09,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+         -8.6613e-08, -6.4261e-08],
+        [ 6.9849e-09,  1.3970e-09,  0.0000e+00,  ...,  4.6566e-09,
+          8.3819e-09,  3.7253e-09],
+        [ 2.3283e-09,  3.2596e-09,  0.0000e+00,  ...,  1.3970e-09,
+         -6.7055e-08,  4.6566e-09],
+        ...,
+        [ 8.8476e-09,  7.9162e-09,  0.0000e+00,  ...,  5.5879e-09,
+          6.1467e-08,  4.6566e-10],
+        [ 5.5209e-06,  5.7276e-08,  0.0000e+00,  ...,  3.4384e-06,
+          2.2817e-08,  1.9092e-08],
+        [ 3.7719e-08,  4.6566e-10,  0.0000e+00,  ...,  2.3749e-08,
+          1.3504e-08,  1.0710e-08]], device='cuda:0')
+Epoch 322, bias, value: tensor([-0.0102, -0.0346, -0.0145, -0.0172, -0.0328,  0.0015,  0.0228, -0.0155,
+         0.0472, -0.0050], device='cuda:0'), grad: tensor([-8.9407e-08,  5.2363e-05, -1.3923e-07,  2.7522e-05,  3.0454e-07,
+        -3.8564e-05,  9.4529e-08,  1.0945e-05,  1.1168e-05, -6.3658e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 321, time 250.39, cls_loss 0.0019 cls_loss_mapping 0.0015 cls_loss_causal 0.4700 re_mapping 0.0044 re_causal 0.0114 /// teacc 99.07 lr 0.00010000
+Epoch 323, weight, value: tensor([[-0.1176, -0.2516, -0.0847,  ..., -0.0620,  0.1866,  0.1871],
+        [-0.2338, -0.2008, -0.0849,  ..., -0.1853, -0.2321, -0.1485],
+        [-0.0717, -0.1753,  0.1475,  ..., -0.2205,  0.2565,  0.1141],
+        ...,
+        [-0.1754,  0.0900,  0.0316,  ...,  0.2054, -0.2269, -0.2972],
+        [-0.2939,  0.0748, -0.1495,  ...,  0.0657, -0.1114, -0.2083],
+        [-0.0391, -0.1399, -0.0862,  ..., -0.1248, -0.0643, -0.2252]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  4.6566e-10,  0.0000e+00,  ...,  1.8626e-09,
+         -2.7008e-08, -1.5367e-08],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  7.6219e-06,
+          5.5879e-09,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.6077e-08,
+          5.1223e-09,  1.3970e-09],
+        ...,
+        [ 0.0000e+00, -4.1910e-09,  0.0000e+00,  ..., -8.0615e-06,
+          4.6566e-10,  0.0000e+00],
+        [ 4.6566e-10,  9.3132e-10,  0.0000e+00,  ...,  4.9360e-08,
+          1.3970e-09,  9.3132e-10],
+        [ 0.0000e+00,  2.7940e-09, -4.6566e-10,  ...,  3.5577e-07,
+          2.2817e-08,  1.2107e-08]], device='cuda:0')
+Epoch 323, bias, value: tensor([-0.0102, -0.0348, -0.0145, -0.0174, -0.0321,  0.0025,  0.0224, -0.0153,
+         0.0472, -0.0052], device='cuda:0'), grad: tensor([-2.8405e-08,  2.4199e-05,  1.0896e-07,  2.3283e-08,  3.1665e-08,
+        -5.1223e-09,  1.1642e-08, -2.6479e-05,  8.3726e-07,  1.3541e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 322, time 250.26, cls_loss 0.0022 cls_loss_mapping 0.0020 cls_loss_causal 0.5031 re_mapping 0.0043 re_causal 0.0115 /// teacc 99.10 lr 0.00010000
+Epoch 324, weight, value: tensor([[-0.1176, -0.2518, -0.0843,  ..., -0.0622,  0.1868,  0.1874],
+        [-0.2350, -0.2010, -0.0834,  ..., -0.1859, -0.2332, -0.1491],
+        [-0.0717, -0.1755,  0.1476,  ..., -0.2215,  0.2567,  0.1142],
+        ...,
+        [-0.1762,  0.0912,  0.0307,  ...,  0.2070, -0.2271, -0.2974],
+        [-0.2944,  0.0745, -0.1511,  ...,  0.0656, -0.1107, -0.2098],
+        [-0.0396, -0.1421, -0.0877,  ..., -0.1264, -0.0645, -0.2254]],
+       device='cuda:0'), grad: tensor([[-1.2061e-07,  4.6566e-10,  0.0000e+00,  ...,  3.6787e-08,
+         -4.2794e-07, -4.8196e-07],
+        [ 1.3970e-09,  8.8476e-09,  0.0000e+00,  ...,  1.3970e-08,
+         -1.8626e-09,  9.3132e-10],
+        [ 4.6566e-10,  6.6590e-08,  0.0000e+00,  ...,  1.0757e-07,
+         -8.3819e-09, -9.3132e-09],
+        ...,
+        [ 1.2713e-07, -3.7579e-07,  4.6566e-10,  ..., -5.7416e-07,
+          7.4506e-09,  6.9849e-09],
+        [ 6.2399e-08,  2.9523e-07,  4.6566e-10,  ...,  4.9965e-07,
+          9.3132e-10,  4.6566e-10],
+        [ 1.1176e-08,  1.0245e-08, -4.6566e-10,  ...,  1.7695e-08,
+          1.0710e-08,  1.0710e-08]], device='cuda:0')
+Epoch 324, bias, value: tensor([-0.0101, -0.0328, -0.0149, -0.0178, -0.0316,  0.0035,  0.0219, -0.0165,
+         0.0473, -0.0060], device='cuda:0'), grad: tensor([-7.0501e-07,  2.5146e-08,  1.4622e-07,  5.1223e-09,  2.8452e-07,
+        -1.2144e-06,  1.6009e-06, -7.1246e-07,  8.5682e-07, -2.7986e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 323, time 250.21, cls_loss 0.0022 cls_loss_mapping 0.0015 cls_loss_causal 0.4906 re_mapping 0.0042 re_causal 0.0108 /// teacc 99.09 lr 0.00010000
+Epoch 325, weight, value: tensor([[-0.1183, -0.2522, -0.0869,  ..., -0.0624,  0.1865,  0.1871],
+        [-0.2353, -0.2014, -0.0835,  ..., -0.1870, -0.2341, -0.1497],
+        [-0.0719, -0.1759,  0.1476,  ..., -0.2218,  0.2572,  0.1147],
+        ...,
+        [-0.1766,  0.0921,  0.0302,  ...,  0.2079, -0.2272, -0.2981],
+        [-0.2950,  0.0743, -0.1521,  ...,  0.0658, -0.1101, -0.2107],
+        [-0.0400, -0.1431, -0.0873,  ..., -0.1268, -0.0645, -0.2254]],
+       device='cuda:0'), grad: tensor([[ 1.3039e-08,  4.6566e-10,  0.0000e+00,  ...,  6.7055e-08,
+         -9.7789e-09, -8.8476e-09],
+        [ 2.1420e-08,  5.8208e-08,  0.0000e+00,  ...,  4.4517e-07,
+          1.8626e-09,  1.3970e-09],
+        [ 4.6566e-10,  1.1176e-08,  0.0000e+00,  ...,  6.6543e-07,
+          1.8626e-09,  9.3132e-10],
+        ...,
+        [ 1.3970e-09, -7.4971e-08,  0.0000e+00,  ..., -3.0175e-07,
+          0.0000e+00,  0.0000e+00],
+        [ 1.1548e-07,  0.0000e+00,  0.0000e+00,  ..., -8.0792e-07,
+          3.2596e-09,  2.3283e-09],
+        [ 5.5879e-09,  1.8626e-09,  0.0000e+00,  ...,  1.3504e-08,
+          3.6787e-08,  2.5611e-08]], device='cuda:0')
+Epoch 325, bias, value: tensor([-0.0104, -0.0331, -0.0146, -0.0154, -0.0315,  0.0015,  0.0222, -0.0156,
+         0.0473, -0.0069], device='cuda:0'), grad: tensor([ 4.1071e-07,  1.6429e-06,  4.6603e-06,  5.1782e-07,  4.8429e-08,
+        -1.8291e-06,  1.3085e-06, -4.9081e-07, -6.4038e-06,  1.4110e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 324, time 250.23, cls_loss 0.0019 cls_loss_mapping 0.0017 cls_loss_causal 0.4962 re_mapping 0.0043 re_causal 0.0112 /// teacc 99.00 lr 0.00010000
+Epoch 326, weight, value: tensor([[-0.1192, -0.2528, -0.0872,  ..., -0.0621,  0.1859,  0.1868],
+        [-0.2357, -0.2020, -0.0836,  ..., -0.1877, -0.2343, -0.1498],
+        [-0.0721, -0.1771,  0.1480,  ..., -0.2226,  0.2577,  0.1155],
+        ...,
+        [-0.1760,  0.0932,  0.0298,  ...,  0.2088, -0.2276, -0.2985],
+        [-0.2954,  0.0742, -0.1537,  ...,  0.0658, -0.1113, -0.2130],
+        [-0.0402, -0.1442, -0.0862,  ..., -0.1272, -0.0641, -0.2257]],
+       device='cuda:0'), grad: tensor([[ 1.7695e-08,  4.6566e-10,  4.6566e-10,  ...,  1.3970e-09,
+          2.1420e-08, -0.0000e+00],
+        [ 5.8394e-07,  1.8161e-08,  9.3132e-10,  ...,  5.4482e-08,
+          8.8802e-07,  1.7136e-07],
+        [ 2.7940e-09, -2.5146e-08, -1.3970e-08,  ...,  2.9802e-08,
+         -2.5611e-08,  9.3132e-10],
+        ...,
+        [ 0.0000e+00, -3.4971e-07,  9.3132e-10,  ..., -1.0906e-06,
+          9.3132e-10,  0.0000e+00],
+        [ 1.1781e-07,  2.2678e-07,  4.1910e-09,  ...,  6.9011e-07,
+          1.8533e-07,  3.4925e-08],
+        [ 0.0000e+00,  9.5461e-08, -4.6566e-10,  ...,  2.9895e-07,
+          7.4506e-09,  6.5193e-09]], device='cuda:0')
+Epoch 326, bias, value: tensor([-0.0112, -0.0327, -0.0148, -0.0153, -0.0334,  0.0014,  0.0223, -0.0152,
+         0.0463, -0.0066], device='cuda:0'), grad: tensor([ 1.2852e-07,  7.9162e-09,  1.8738e-06,  1.5413e-07,  1.6810e-07,
+         4.5933e-06, -9.9167e-06, -1.7183e-07,  2.4866e-06,  6.7521e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 325, time 250.31, cls_loss 0.0020 cls_loss_mapping 0.0016 cls_loss_causal 0.4430 re_mapping 0.0044 re_causal 0.0110 /// teacc 99.03 lr 0.00010000
+Epoch 327, weight, value: tensor([[-0.1196, -0.2521, -0.0873,  ..., -0.0620,  0.1861,  0.1870],
+        [-0.2359, -0.2029, -0.0836,  ..., -0.1886, -0.2347, -0.1500],
+        [-0.0722, -0.1772,  0.1486,  ..., -0.2221,  0.2586,  0.1166],
+        ...,
+        [-0.1763,  0.0939,  0.0297,  ...,  0.2092, -0.2279, -0.2987],
+        [-0.2959,  0.0743, -0.1551,  ...,  0.0657, -0.1129, -0.2159],
+        [-0.0406, -0.1444, -0.0860,  ..., -0.1274, -0.0646, -0.2265]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          2.0508e-06,  1.8170e-06],
+        [ 9.3132e-10,  1.3970e-09,  0.0000e+00,  ...,  2.3283e-09,
+          2.1420e-08,  1.8161e-08],
+        [ 0.0000e+00,  1.3970e-09,  9.3132e-10,  ...,  1.8626e-09,
+         -4.8280e-06, -4.2506e-06],
+        ...,
+        [ 4.6566e-10, -6.9849e-09,  1.8626e-09,  ..., -8.8476e-09,
+          4.2375e-07,  3.7299e-07],
+        [ 1.8626e-09,  9.3132e-10,  0.0000e+00,  ...,  1.8626e-09,
+          1.0664e-06,  9.3784e-07],
+        [ 0.0000e+00,  3.7253e-09, -2.7940e-09,  ...,  4.6566e-09,
+          1.1548e-07,  9.2667e-08]], device='cuda:0')
+Epoch 327, bias, value: tensor([-0.0111, -0.0329, -0.0123, -0.0155, -0.0316,  0.0023,  0.0220, -0.0156,
+         0.0450, -0.0071], device='cuda:0'), grad: tensor([ 4.8466e-06,  1.0245e-08, -1.1273e-05,  2.5742e-06,  4.6678e-06,
+        -5.4017e-08,  2.0489e-07,  1.1362e-06,  4.4927e-06, -6.6087e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 326, time 250.23, cls_loss 0.0023 cls_loss_mapping 0.0019 cls_loss_causal 0.4618 re_mapping 0.0043 re_causal 0.0107 /// teacc 99.07 lr 0.00010000
+Epoch 328, weight, value: tensor([[-0.1200, -0.2524, -0.0875,  ..., -0.0620,  0.1863,  0.1872],
+        [-0.2360, -0.2030, -0.0835,  ..., -0.1888, -0.2356, -0.1504],
+        [-0.0723, -0.1776,  0.1485,  ..., -0.2225,  0.2596,  0.1176],
+        ...,
+        [-0.1766,  0.0945,  0.0270,  ...,  0.2097, -0.2281, -0.2990],
+        [-0.2961,  0.0743, -0.1556,  ...,  0.0661, -0.1127, -0.2172],
+        [-0.0411, -0.1452, -0.0837,  ..., -0.1280, -0.0650, -0.2271]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  1.0245e-08,
+         -4.0932e-07, -4.4098e-07],
+        [ 8.3819e-09,  2.7474e-08,  0.0000e+00,  ...,  1.0151e-07,
+          1.1176e-08,  1.3970e-09],
+        [ 3.4925e-08,  5.5414e-08,  0.0000e+00,  ...,  2.2212e-07,
+          1.6298e-08,  0.0000e+00],
+        ...,
+        [ 1.0384e-07,  1.1967e-07,  0.0000e+00,  ..., -3.2643e-07,
+          4.1910e-09,  4.6566e-10],
+        [ 1.1642e-08,  9.3132e-10,  0.0000e+00,  ..., -2.4606e-06,
+         -8.0466e-06,  1.3970e-09],
+        [ 2.8405e-08,  4.6566e-08,  0.0000e+00,  ...,  9.3132e-09,
+          2.3749e-08,  1.3504e-08]], device='cuda:0')
+Epoch 328, bias, value: tensor([-0.0112, -0.0330, -0.0119, -0.0155, -0.0305,  0.0021,  0.0218, -0.0158,
+         0.0453, -0.0072], device='cuda:0'), grad: tensor([-6.3702e-07,  3.1758e-07,  6.7474e-07, -8.9174e-07,  9.3132e-10,
+         2.3674e-06,  3.6895e-05, -2.9057e-07, -3.8743e-05,  2.1234e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 327, time 250.51, cls_loss 0.0019 cls_loss_mapping 0.0015 cls_loss_causal 0.4779 re_mapping 0.0044 re_causal 0.0112 /// teacc 99.09 lr 0.00010000
+Epoch 329, weight, value: tensor([[-0.1205, -0.2528, -0.0878,  ..., -0.0620,  0.1863,  0.1872],
+        [-0.2361, -0.2031, -0.0825,  ..., -0.1892, -0.2356, -0.1502],
+        [-0.0724, -0.1777,  0.1484,  ..., -0.2227,  0.2597,  0.1176],
+        ...,
+        [-0.1795,  0.0931,  0.0257,  ...,  0.2091, -0.2284, -0.2997],
+        [-0.2963,  0.0742, -0.1558,  ...,  0.0663, -0.1124, -0.2177],
+        [-0.0411, -0.1453, -0.0835,  ..., -0.1281, -0.0651, -0.2273]],
+       device='cuda:0'), grad: tensor([[ 8.8476e-09,  4.7032e-08,  0.0000e+00,  ...,  1.1548e-07,
+         -1.1642e-08, -8.8476e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.1910e-09,  ...,  0.0000e+00,
+          6.5193e-09,  1.8626e-09],
+        [ 0.0000e+00,  4.6566e-10, -1.6298e-08,  ...,  9.3132e-10,
+         -2.5611e-08, -7.9162e-09],
+        ...,
+        [-9.7789e-09, -5.6345e-08,  1.3970e-09,  ..., -1.3877e-07,
+          2.7940e-09,  9.3132e-10],
+        [ 2.3283e-09,  9.3132e-10,  0.0000e+00,  ...,  1.8626e-09,
+          4.1910e-09,  3.2596e-09],
+        [ 1.3970e-09,  4.6566e-09,  0.0000e+00,  ...,  1.1642e-08,
+          6.0536e-09,  4.6566e-09]], device='cuda:0')
+Epoch 329, bias, value: tensor([-0.0112, -0.0330, -0.0121, -0.0149, -0.0307,  0.0022,  0.0218, -0.0168,
+         0.0459, -0.0061], device='cuda:0'), grad: tensor([ 2.2212e-07, -1.3970e-09, -5.1223e-08,  3.7253e-09, -1.7229e-07,
+        -3.1199e-08,  7.9628e-08, -2.7847e-07,  2.9802e-08,  2.0303e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 328, time 250.46, cls_loss 0.0016 cls_loss_mapping 0.0022 cls_loss_causal 0.4780 re_mapping 0.0044 re_causal 0.0116 /// teacc 99.01 lr 0.00010000
+Epoch 330, weight, value: tensor([[-0.1205, -0.2531, -0.0875,  ..., -0.0621,  0.1863,  0.1877],
+        [-0.2361, -0.2031, -0.0825,  ..., -0.1889, -0.2361, -0.1507],
+        [-0.0724, -0.1781,  0.1484,  ..., -0.2227,  0.2599,  0.1177],
+        ...,
+        [-0.1800,  0.0931,  0.0255,  ...,  0.2091, -0.2285, -0.3000],
+        [-0.2968,  0.0740, -0.1571,  ...,  0.0663, -0.1128, -0.2185],
+        [-0.0408, -0.1454, -0.0833,  ..., -0.1283, -0.0646, -0.2274]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.8405e-08,  4.6566e-10,  ...,  6.8452e-08,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -1.1222e-07, -1.7695e-08,  ..., -2.2817e-07,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.9558e-08,  0.0000e+00,  ...,  4.7497e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  6.3330e-08,  1.7229e-08,  ...,  1.0943e-07,
+          4.6566e-10,  4.6566e-10]], device='cuda:0')
+Epoch 330, bias, value: tensor([-0.0114, -0.0329, -0.0120, -0.0150, -0.0309,  0.0022,  0.0216, -0.0170,
+         0.0465, -0.0058], device='cuda:0'), grad: tensor([ 4.6566e-10,  1.2619e-07,  9.3132e-10,  9.3132e-10, -6.0536e-08,
+         4.6566e-10,  1.3970e-09, -4.4517e-07,  8.6147e-08,  2.8731e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 329, time 250.83, cls_loss 0.0020 cls_loss_mapping 0.0022 cls_loss_causal 0.5074 re_mapping 0.0046 re_causal 0.0120 /// teacc 99.05 lr 0.00010000
+Epoch 331, weight, value: tensor([[-0.1218, -0.2535, -0.0876,  ..., -0.0622,  0.1852,  0.1860],
+        [-0.2370, -0.2032, -0.0826,  ..., -0.1895, -0.2362, -0.1509],
+        [-0.0726, -0.1790,  0.1487,  ..., -0.2234,  0.2600,  0.1176],
+        ...,
+        [-0.1810,  0.0921,  0.0251,  ...,  0.2076, -0.2286, -0.3001],
+        [-0.2970,  0.0763, -0.1572,  ...,  0.0691, -0.1130, -0.2189],
+        [-0.0413, -0.1459, -0.0832,  ..., -0.1292, -0.0646, -0.2275]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  1.3970e-09,
+         -2.1886e-08, -2.4680e-08],
+        [ 1.3970e-09,  3.0268e-08,  0.0000e+00,  ...,  6.4261e-08,
+          7.9162e-09,  0.0000e+00],
+        [ 4.6566e-10,  1.1176e-08,  0.0000e+00,  ..., -1.8300e-07,
+         -2.0163e-07,  0.0000e+00],
+        ...,
+        [ 3.2596e-09, -6.8452e-08,  0.0000e+00,  ..., -1.4063e-07,
+         -2.3283e-09,  0.0000e+00],
+        [ 6.9849e-09,  7.4506e-09,  0.0000e+00,  ...,  1.6764e-08,
+          6.5193e-09,  0.0000e+00],
+        [ 1.0245e-08,  3.4459e-08,  0.0000e+00,  ...,  5.0291e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 331, bias, value: tensor([-0.0128, -0.0329, -0.0122, -0.0153, -0.0310,  0.0028,  0.0233, -0.0178,
+         0.0489, -0.0055], device='cuda:0'), grad: tensor([-3.8184e-08,  1.3178e-07, -5.4343e-07, -1.6391e-07,  9.3132e-10,
+         6.2445e-07,  7.5903e-08, -2.6030e-07,  4.1910e-08,  1.4435e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 330, time 250.89, cls_loss 0.0017 cls_loss_mapping 0.0018 cls_loss_causal 0.5001 re_mapping 0.0043 re_causal 0.0117 /// teacc 99.02 lr 0.00010000
+Epoch 332, weight, value: tensor([[-0.1220, -0.2538, -0.0877,  ..., -0.0623,  0.1830,  0.1861],
+        [-0.2371, -0.2039, -0.0826,  ..., -0.1896, -0.2367, -0.1511],
+        [-0.0726, -0.1797,  0.1493,  ..., -0.2237,  0.2602,  0.1177],
+        ...,
+        [-0.1815,  0.0928,  0.0251,  ...,  0.2080, -0.2285, -0.3002],
+        [-0.2974,  0.0761, -0.1577,  ...,  0.0689, -0.1132, -0.2202],
+        [-0.0418, -0.1461, -0.0831,  ..., -0.1294, -0.0617, -0.2276]],
+       device='cuda:0'), grad: tensor([[ 7.9162e-09,  0.0000e+00,  0.0000e+00,  ...,  3.2596e-09,
+         -4.6100e-08, -3.9581e-08],
+        [ 1.3970e-09,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          2.8461e-06,  4.6566e-10],
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -2.9299e-06,  9.3132e-10],
+        ...,
+        [ 3.7253e-09,  4.6566e-10,  0.0000e+00,  ...,  1.3970e-09,
+          3.8184e-08,  0.0000e+00],
+        [ 2.3283e-08,  1.3970e-09,  0.0000e+00,  ...,  1.2107e-08,
+          2.3283e-09,  4.6566e-10],
+        [ 1.0710e-08,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-09,
+          2.0955e-08,  1.3970e-08]], device='cuda:0')
+Epoch 332, bias, value: tensor([-0.0149, -0.0332, -0.0122, -0.0150, -0.0313,  0.0022,  0.0237, -0.0178,
+         0.0486, -0.0036], device='cuda:0'), grad: tensor([-6.3330e-08,  8.4043e-06, -8.6650e-06,  1.1688e-07, -2.7008e-08,
+        -3.2736e-07,  2.7195e-07,  1.2945e-07,  7.3109e-08,  7.7765e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 331, time 250.78, cls_loss 0.0016 cls_loss_mapping 0.0025 cls_loss_causal 0.4626 re_mapping 0.0044 re_causal 0.0113 /// teacc 99.06 lr 0.00010000
+Epoch 333, weight, value: tensor([[-0.1220, -0.2541, -0.0878,  ..., -0.0623,  0.1841,  0.1875],
+        [-0.2373, -0.2043, -0.0827,  ..., -0.1910, -0.2375, -0.1513],
+        [-0.0728, -0.1805,  0.1493,  ..., -0.2238,  0.2610,  0.1179],
+        ...,
+        [-0.1824,  0.0932,  0.0251,  ...,  0.2088, -0.2288, -0.3006],
+        [-0.2979,  0.0759, -0.1575,  ...,  0.0689, -0.1137, -0.2214],
+        [-0.0420, -0.1464, -0.0830,  ..., -0.1296, -0.0618, -0.2279]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09],
+        [ 6.5193e-09,  4.6566e-09,  0.0000e+00,  ...,  1.3039e-08,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  1.3970e-09,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [ 1.3970e-09, -7.4506e-09,  0.0000e+00,  ..., -6.9849e-09,
+          4.6566e-10,  4.6566e-10],
+        [ 1.0245e-08,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          8.3819e-09,  1.7229e-08],
+        [ 1.1642e-08,  9.3132e-10,  0.0000e+00,  ...,  1.4435e-08,
+          1.8626e-09,  1.3970e-09]], device='cuda:0')
+Epoch 333, bias, value: tensor([-0.0142, -0.0338, -0.0117, -0.0130, -0.0317,  0.0007,  0.0225, -0.0176,
+         0.0485, -0.0033], device='cuda:0'), grad: tensor([ 9.3132e-09,  4.5635e-08,  4.1910e-09,  1.3039e-08,  1.8626e-09,
+        -1.0431e-07, -6.6590e-08, -9.3132e-09,  5.2620e-08,  6.1933e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 332, time 250.56, cls_loss 0.0016 cls_loss_mapping 0.0020 cls_loss_causal 0.4698 re_mapping 0.0045 re_causal 0.0112 /// teacc 99.03 lr 0.00010000
+Epoch 334, weight, value: tensor([[-0.1221, -0.2546, -0.0879,  ..., -0.0628,  0.1841,  0.1875],
+        [-0.2377, -0.2044, -0.0828,  ..., -0.1912, -0.2385, -0.1514],
+        [-0.0729, -0.1812,  0.1500,  ..., -0.2242,  0.2618,  0.1182],
+        ...,
+        [-0.1829,  0.0935,  0.0246,  ...,  0.2090, -0.2290, -0.3008],
+        [-0.2981,  0.0759, -0.1569,  ...,  0.0691, -0.1139, -0.2217],
+        [-0.0422, -0.1465, -0.0829,  ..., -0.1299, -0.0618, -0.2279]],
+       device='cuda:0'), grad: tensor([[ 6.0536e-09,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          8.7544e-08,  2.0955e-08],
+        [ 1.3970e-09,  2.3283e-09,  0.0000e+00,  ...,  4.6566e-10,
+          9.3132e-10,  4.6566e-10],
+        [ 2.7940e-09,  3.2596e-09,  4.6566e-10,  ...,  0.0000e+00,
+          2.2165e-07,  1.3970e-09],
+        ...,
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 1.1642e-08,  1.8626e-09,  0.0000e+00,  ..., -4.6566e-10,
+          4.6100e-08,  4.6100e-08],
+        [ 4.6566e-10,  9.3132e-10,  0.0000e+00,  ...,  4.6566e-10,
+          9.7789e-09,  1.8626e-09]], device='cuda:0')
+Epoch 334, bias, value: tensor([-0.0142, -0.0346, -0.0114, -0.0131, -0.0306,  0.0007,  0.0226, -0.0176,
+         0.0486, -0.0032], device='cuda:0'), grad: tensor([ 2.9849e-07,  1.6298e-08,  7.2550e-07,  2.0489e-08, -1.1390e-06,
+         1.5832e-08, -2.1840e-07,  2.7008e-08,  2.8312e-07, -1.6764e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 333, time 250.30, cls_loss 0.0017 cls_loss_mapping 0.0017 cls_loss_causal 0.4903 re_mapping 0.0043 re_causal 0.0114 /// teacc 98.99 lr 0.00010000
+Epoch 335, weight, value: tensor([[-0.1222, -0.2549, -0.0882,  ..., -0.0629,  0.1841,  0.1875],
+        [-0.2378, -0.2037, -0.0828,  ..., -0.1916, -0.2390, -0.1516],
+        [-0.0733, -0.1813,  0.1501,  ..., -0.2242,  0.2628,  0.1187],
+        ...,
+        [-0.1833,  0.0932,  0.0246,  ...,  0.2099, -0.2296, -0.3014],
+        [-0.2984,  0.0761, -0.1570,  ...,  0.0694, -0.1138, -0.2220],
+        [-0.0417, -0.1471, -0.0838,  ..., -0.1312, -0.0619, -0.2279]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.5461e-08,  3.2131e-08],
+        [ 0.0000e+00,  4.1910e-09,  0.0000e+00,  ...,  2.8871e-08,
+          2.3283e-09,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.4715e-07, -4.1910e-08],
+        ...,
+        [ 0.0000e+00, -8.8476e-09,  0.0000e+00,  ..., -5.4482e-08,
+          6.5193e-09,  9.3132e-10],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          6.9849e-09,  2.3283e-09],
+        [ 0.0000e+00,  4.1910e-09,  0.0000e+00,  ...,  2.4214e-08,
+         -6.5193e-09,  4.6566e-10]], device='cuda:0')
+Epoch 335, bias, value: tensor([-0.0143, -0.0330, -0.0116, -0.0131, -0.0303,  0.0003,  0.0227, -0.0184,
+         0.0488, -0.0035], device='cuda:0'), grad: tensor([ 3.1339e-07,  1.2666e-07, -3.3714e-07,  1.2014e-07,  7.1246e-08,
+         8.6613e-08, -1.0990e-07,  8.7079e-08,  1.8626e-08, -3.7719e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 334, time 250.56, cls_loss 0.0018 cls_loss_mapping 0.0018 cls_loss_causal 0.4799 re_mapping 0.0042 re_causal 0.0111 /// teacc 99.03 lr 0.00010000
+Epoch 336, weight, value: tensor([[-0.1222, -0.2555, -0.0882,  ..., -0.0631,  0.1841,  0.1876],
+        [-0.2380, -0.2044, -0.0828,  ..., -0.1925, -0.2391, -0.1516],
+        [-0.0736, -0.1805,  0.1502,  ..., -0.2238,  0.2636,  0.1194],
+        ...,
+        [-0.1837,  0.0936,  0.0245,  ...,  0.2104, -0.2307, -0.3026],
+        [-0.2987,  0.0760, -0.1572,  ...,  0.0694, -0.1140, -0.2224],
+        [-0.0396, -0.1473, -0.0838,  ..., -0.1315, -0.0619, -0.2280]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -7.5903e-08, -3.5390e-08],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          6.0536e-09,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          7.4506e-09,  3.7253e-09],
+        ...,
+        [ 0.0000e+00, -1.8626e-09,  0.0000e+00,  ..., -3.7253e-09,
+          6.9849e-09,  3.2596e-09],
+        [ 6.5193e-09,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+          3.2596e-09,  7.9162e-09],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  3.2596e-09,
+          3.4925e-08,  1.9558e-08]], device='cuda:0')
+Epoch 336, bias, value: tensor([-0.0143, -0.0331, -0.0113, -0.0136, -0.0293,  0.0006,  0.0228, -0.0187,
+         0.0488, -0.0036], device='cuda:0'), grad: tensor([-3.0966e-07, -2.0210e-06,  1.1725e-06, -6.9849e-09,  2.2864e-07,
+         5.0291e-08,  7.9162e-09,  9.6858e-07,  3.9581e-08, -1.3923e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 335, time 250.08, cls_loss 0.0019 cls_loss_mapping 0.0018 cls_loss_causal 0.4542 re_mapping 0.0042 re_causal 0.0107 /// teacc 99.10 lr 0.00010000
+Epoch 337, weight, value: tensor([[-0.1222, -0.2561, -0.0882,  ..., -0.0632,  0.1842,  0.1877],
+        [-0.2381, -0.2048, -0.0826,  ..., -0.1915, -0.2393, -0.1518],
+        [-0.0738, -0.1805,  0.1505,  ..., -0.2242,  0.2645,  0.1203],
+        ...,
+        [-0.1840,  0.0940,  0.0241,  ...,  0.2107, -0.2318, -0.3037],
+        [-0.2991,  0.0759, -0.1574,  ...,  0.0694, -0.1142, -0.2227],
+        [-0.0393, -0.1480, -0.0837,  ..., -0.1328, -0.0619, -0.2281]],
+       device='cuda:0'), grad: tensor([[ 1.4901e-08,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+          4.3772e-08,  2.5146e-08],
+        [ 0.0000e+00,  6.5193e-09,  0.0000e+00,  ...,  5.7742e-08,
+          4.6566e-09,  3.7253e-09],
+        [ 0.0000e+00,  3.0827e-07,  0.0000e+00,  ...,  2.3469e-07,
+         -2.6077e-07, -2.2352e-07],
+        ...,
+        [ 0.0000e+00, -3.3528e-07,  0.0000e+00,  ..., -2.5518e-07,
+          2.2072e-07,  1.9837e-07],
+        [ 9.3132e-10,  1.1176e-08,  9.3132e-10,  ..., -1.6019e-07,
+          1.2107e-08,  6.5193e-09],
+        [ 0.0000e+00,  3.7253e-09, -1.8626e-09,  ...,  4.6566e-09,
+          1.8626e-09,  9.3132e-10]], device='cuda:0')
+Epoch 337, bias, value: tensor([-0.0142, -0.0322, -0.0111, -0.0137, -0.0303, -0.0002,  0.0237, -0.0192,
+         0.0487, -0.0035], device='cuda:0'), grad: tensor([ 1.2759e-07, -2.4587e-07, -2.0489e-07,  1.3970e-08,  5.5879e-09,
+         2.5239e-07, -4.5635e-08,  4.3400e-07, -3.2037e-07, -2.6077e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 336, time 250.70, cls_loss 0.0018 cls_loss_mapping 0.0027 cls_loss_causal 0.4963 re_mapping 0.0041 re_causal 0.0113 /// teacc 99.04 lr 0.00010000
+Epoch 338, weight, value: tensor([[-0.1223, -0.2564, -0.0888,  ..., -0.0633,  0.1849,  0.1889],
+        [-0.2390, -0.2058, -0.0826,  ..., -0.1928, -0.2402, -0.1519],
+        [-0.0734, -0.1808,  0.1520,  ..., -0.2246,  0.2657,  0.1205],
+        ...,
+        [-0.1843,  0.0949,  0.0235,  ...,  0.2118, -0.2323, -0.3040],
+        [-0.2997,  0.0756, -0.1577,  ...,  0.0690, -0.1143, -0.2230],
+        [-0.0400, -0.1483, -0.0838,  ..., -0.1332, -0.0620, -0.2284]],
+       device='cuda:0'), grad: tensor([[ 3.3528e-08,  1.0151e-07,  0.0000e+00,  ...,  2.1327e-07,
+          1.8626e-09, -0.0000e+00],
+        [ 0.0000e+00,  1.9558e-08,  0.0000e+00,  ...,  3.0734e-08,
+          9.3132e-10,  9.3132e-10],
+        [ 0.0000e+00,  6.5193e-09,  0.0000e+00,  ...,  1.1176e-08,
+         -2.7940e-09, -1.8626e-09],
+        ...,
+        [-4.8429e-08, -3.0175e-07,  0.0000e+00,  ..., -5.5786e-07,
+          9.3132e-10,  0.0000e+00],
+        [ 1.6764e-08,  1.8626e-08,  0.0000e+00,  ...,  4.0978e-08,
+         -4.3772e-08, -1.5832e-08],
+        [ 8.3819e-09,  6.8918e-08,  0.0000e+00,  ...,  1.2200e-07,
+          4.6566e-09,  2.7940e-09]], device='cuda:0')
+Epoch 338, bias, value: tensor([-0.0138, -0.0328, -0.0095, -0.0120, -0.0304, -0.0016,  0.0230, -0.0190,
+         0.0481, -0.0036], device='cuda:0'), grad: tensor([ 5.9325e-07,  1.1269e-07,  4.8429e-08,  4.6100e-07,  1.1241e-06,
+        -3.3528e-08,  3.4925e-07, -1.4240e-06, -3.4925e-07, -8.8476e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 337, time 250.45, cls_loss 0.0019 cls_loss_mapping 0.0017 cls_loss_causal 0.4810 re_mapping 0.0041 re_causal 0.0109 /// teacc 99.04 lr 0.00010000
+Epoch 339, weight, value: tensor([[-0.1240, -0.2569, -0.0889,  ..., -0.0633,  0.1844,  0.1883],
+        [-0.2392, -0.2074, -0.0826,  ..., -0.1944, -0.2404, -0.1522],
+        [-0.0735, -0.1813,  0.1521,  ..., -0.2259,  0.2662,  0.1212],
+        ...,
+        [-0.1846,  0.0963,  0.0235,  ...,  0.2134, -0.2328, -0.3049],
+        [-0.3004,  0.0753, -0.1577,  ...,  0.0691, -0.1147, -0.2234],
+        [-0.0414, -0.1487, -0.0837,  ..., -0.1339, -0.0620, -0.2289]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+         -1.8626e-09, -9.3132e-10],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.9558e-08,  0.0000e+00,  0.0000e+00,  ...,  1.5832e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 6.8918e-08,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-09,
+          2.7940e-09,  1.8626e-09]], device='cuda:0')
+Epoch 339, bias, value: tensor([-0.0146, -0.0333, -0.0095, -0.0114, -0.0298, -0.0024,  0.0245, -0.0184,
+         0.0479, -0.0040], device='cuda:0'), grad: tensor([ 2.7940e-09,  6.5193e-09,  0.0000e+00,  1.4901e-07,  6.7987e-08,
+        -5.5134e-07,  8.1956e-08,  1.2107e-08,  6.8918e-08,  1.6671e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 338, time 250.39, cls_loss 0.0018 cls_loss_mapping 0.0017 cls_loss_causal 0.4754 re_mapping 0.0043 re_causal 0.0112 /// teacc 99.12 lr 0.00010000
+Epoch 340, weight, value: tensor([[-0.1246, -0.2575, -0.0879,  ..., -0.0634,  0.1844,  0.1882],
+        [-0.2394, -0.2076, -0.0828,  ..., -0.1948, -0.2407, -0.1524],
+        [-0.0735, -0.1812,  0.1526,  ..., -0.2263,  0.2668,  0.1217],
+        ...,
+        [-0.1848,  0.0965,  0.0233,  ...,  0.2141, -0.2336, -0.3060],
+        [-0.3007,  0.0752, -0.1586,  ...,  0.0695, -0.1150, -0.2245],
+        [-0.0418, -0.1490, -0.0836,  ..., -0.1342, -0.0621, -0.2291]],
+       device='cuda:0'), grad: tensor([[-4.0885e-07,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+         -5.4315e-06, -4.4666e-06],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 2.4214e-08,  3.2596e-08,  0.0000e+00,  ...,  4.7497e-08,
+          3.1944e-07,  2.6263e-07],
+        ...,
+        [ 0.0000e+00, -4.4703e-08,  0.0000e+00,  ..., -6.6124e-08,
+          9.3132e-10,  9.3132e-10],
+        [ 1.3039e-08,  4.6566e-09,  0.0000e+00,  ...,  5.0291e-08,
+          2.0489e-08,  1.6764e-08],
+        [ 1.0524e-07,  5.5879e-09, -9.3132e-10,  ..., -0.0000e+00,
+          1.3951e-06,  1.1474e-06]], device='cuda:0')
+Epoch 340, bias, value: tensor([-0.0148, -0.0341, -0.0094, -0.0114, -0.0314, -0.0027,  0.0254, -0.0185,
+         0.0484, -0.0029], device='cuda:0'), grad: tensor([-7.8231e-06,  3.7253e-09,  5.4017e-07,  4.6566e-09,  5.4948e-08,
+        -1.2014e-07,  5.3234e-06, -9.9652e-08,  3.1572e-07,  1.7993e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 339, time 250.32, cls_loss 0.0021 cls_loss_mapping 0.0021 cls_loss_causal 0.4624 re_mapping 0.0042 re_causal 0.0108 /// teacc 99.10 lr 0.00010000
+Epoch 341, weight, value: tensor([[-0.1255, -0.2583, -0.0883,  ..., -0.0634,  0.1832,  0.1874],
+        [-0.2394, -0.2084, -0.0823,  ..., -0.1956, -0.2408, -0.1534],
+        [-0.0737, -0.1816,  0.1528,  ..., -0.2265,  0.2671,  0.1222],
+        ...,
+        [-0.1849,  0.0972,  0.0230,  ...,  0.2141, -0.2340, -0.3066],
+        [-0.3010,  0.0753, -0.1591,  ...,  0.0694, -0.1152, -0.2244],
+        [-0.0423, -0.1494, -0.0843,  ..., -0.1331, -0.0614, -0.2293]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.4141e-05, -1.8813e-07],
+        [ 9.3132e-10,  8.3819e-09,  0.0000e+00,  ...,  1.7695e-08,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.5832e-08,  0.0000e+00,  ...,  3.8184e-08,
+         -4.6566e-09, -5.5879e-09],
+        ...,
+        [ 9.3132e-10, -3.2596e-08,  0.0000e+00,  ..., -8.1025e-08,
+          2.6077e-08,  2.7940e-09],
+        [ 1.3970e-08,  3.3528e-08,  0.0000e+00,  ..., -1.6764e-08,
+          2.7940e-09,  9.3132e-10],
+        [ 4.6566e-09,  1.4901e-08,  0.0000e+00,  ...,  2.2352e-08,
+         -1.4201e-05,  1.8813e-07]], device='cuda:0')
+Epoch 341, bias, value: tensor([-0.0161, -0.0344, -0.0097, -0.0112, -0.0319, -0.0027,  0.0264, -0.0194,
+         0.0485, -0.0014], device='cuda:0'), grad: tensor([ 4.1544e-05,  4.1910e-08,  5.9605e-08, -1.0710e-07,  4.8429e-08,
+         1.5832e-08,  9.3132e-10, -6.0536e-08, -4.8429e-08, -4.1574e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 340, time 250.12, cls_loss 0.0016 cls_loss_mapping 0.0016 cls_loss_causal 0.4616 re_mapping 0.0041 re_causal 0.0109 /// teacc 99.08 lr 0.00010000
+Epoch 342, weight, value: tensor([[-0.1256, -0.2595, -0.0883,  ..., -0.0632,  0.1834,  0.1877],
+        [-0.2395, -0.2093, -0.0825,  ..., -0.1968, -0.2411, -0.1548],
+        [-0.0737, -0.1822,  0.1533,  ..., -0.2268,  0.2676,  0.1223],
+        ...,
+        [-0.1851,  0.0981,  0.0229,  ...,  0.2150, -0.2343, -0.3071],
+        [-0.3014,  0.0751, -0.1594,  ...,  0.0691, -0.1156, -0.2231],
+        [-0.0430, -0.1500, -0.0842,  ..., -0.1332, -0.0614, -0.2298]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  9.3132e-10,  9.3132e-10,  ...,  9.3132e-10,
+          6.5193e-09,  4.6566e-09],
+        [ 0.0000e+00,  2.3842e-07,  0.0000e+00,  ...,  3.7998e-07,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  1.2945e-07,  0.0000e+00,  ...,  2.7195e-07,
+         -8.3819e-08, -1.3039e-08],
+        ...,
+        [ 0.0000e+00, -1.6876e-06,  0.0000e+00,  ..., -2.7493e-06,
+          6.7055e-08,  1.0245e-08],
+        [ 0.0000e+00,  1.2834e-06,  0.0000e+00,  ...,  2.0508e-06,
+          2.7940e-09,  9.3132e-10],
+        [ 0.0000e+00,  9.3132e-09,  0.0000e+00,  ...,  1.4901e-08,
+          1.8626e-09,  9.3132e-10]], device='cuda:0')
+Epoch 342, bias, value: tensor([-0.0161, -0.0351, -0.0096, -0.0112, -0.0326, -0.0025,  0.0263, -0.0191,
+         0.0495, -0.0011], device='cuda:0'), grad: tensor([ 2.1420e-08, -4.3139e-06,  3.4086e-06,  1.0524e-07,  6.2399e-08,
+         4.0047e-08, -1.3970e-08, -3.1386e-06,  3.7588e-06,  4.0978e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 341, time 250.32, cls_loss 0.0019 cls_loss_mapping 0.0019 cls_loss_causal 0.4969 re_mapping 0.0041 re_causal 0.0111 /// teacc 98.97 lr 0.00010000
+Epoch 343, weight, value: tensor([[-0.1257, -0.2601, -0.0884,  ..., -0.0639,  0.1823,  0.1878],
+        [-0.2422, -0.2095, -0.0832,  ..., -0.1971, -0.2416, -0.1564],
+        [-0.0709, -0.1821,  0.1568,  ..., -0.2269,  0.2706,  0.1250],
+        ...,
+        [-0.1853,  0.0984,  0.0229,  ...,  0.2154, -0.2362, -0.3076],
+        [-0.3032,  0.0748, -0.1595,  ...,  0.0675, -0.1154, -0.2259],
+        [-0.0425, -0.1504, -0.0842,  ..., -0.1337, -0.0599, -0.2300]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10,  1.2107e-08,  0.0000e+00,  ...,  1.8626e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.1176e-08,  0.0000e+00,  ...,  1.8626e-09,
+         -3.7253e-09,  0.0000e+00],
+        ...,
+        [ 1.3039e-08,  1.9558e-08,  0.0000e+00,  ..., -1.8626e-08,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  1.2107e-08,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [ 9.3132e-10,  1.1176e-08,  0.0000e+00,  ...,  1.8626e-09,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 343, bias, value: tensor([-0.0171, -0.0365, -0.0080, -0.0113, -0.0328, -0.0021,  0.0265, -0.0182,
+         0.0475, -0.0003], device='cuda:0'), grad: tensor([ 5.4948e-08, -4.4610e-07,  4.0978e-08, -1.8626e-09,  8.0746e-07,
+         2.2762e-06,  1.7881e-07,  2.0489e-06,  8.3819e-08, -5.0664e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 342, time 250.40, cls_loss 0.0017 cls_loss_mapping 0.0018 cls_loss_causal 0.4793 re_mapping 0.0040 re_causal 0.0108 /// teacc 99.00 lr 0.00010000
+Epoch 344, weight, value: tensor([[-0.1262, -0.2612, -0.0885,  ..., -0.0640,  0.1821,  0.1879],
+        [-0.2422, -0.2111, -0.0834,  ..., -0.1986, -0.2427, -0.1566],
+        [-0.0709, -0.1827,  0.1591,  ..., -0.2272,  0.2734,  0.1269],
+        ...,
+        [-0.1856,  0.0996,  0.0229,  ...,  0.2153, -0.2368, -0.3079],
+        [-0.3030,  0.0760, -0.1594,  ...,  0.0695, -0.1162, -0.2265],
+        [-0.0427, -0.1518, -0.0842,  ..., -0.1345, -0.0597, -0.2301]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -8.3819e-09, -5.5879e-09],
+        [ 9.3132e-10,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  9.3132e-10],
+        [ 1.8626e-09,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          8.3819e-09,  5.5879e-09]], device='cuda:0')
+Epoch 344, bias, value: tensor([-0.0174, -0.0372, -0.0056, -0.0118, -0.0328, -0.0018,  0.0262, -0.0184,
+         0.0492, -0.0001], device='cuda:0'), grad: tensor([-1.4901e-08, -2.2158e-05,  3.2261e-06,  5.8673e-08,  1.3039e-08,
+         3.9116e-08, -3.3528e-08,  1.8850e-05,  4.0978e-08, -2.8871e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 343, time 250.37, cls_loss 0.0016 cls_loss_mapping 0.0011 cls_loss_causal 0.4720 re_mapping 0.0039 re_causal 0.0107 /// teacc 99.03 lr 0.00010000
+Epoch 345, weight, value: tensor([[-0.1262, -0.2613, -0.0887,  ..., -0.0641,  0.1823,  0.1881],
+        [-0.2422, -0.2114, -0.0836,  ..., -0.1983, -0.2438, -0.1574],
+        [-0.0710, -0.1836,  0.1597,  ..., -0.2281,  0.2741,  0.1275],
+        ...,
+        [-0.1860,  0.1004,  0.0229,  ...,  0.2155, -0.2371, -0.3082],
+        [-0.3036,  0.0758, -0.1591,  ...,  0.0693, -0.1164, -0.2268],
+        [-0.0428, -0.1527, -0.0844,  ..., -0.1346, -0.0598, -0.2303]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+         -3.0734e-08, -2.1420e-08],
+        [ 9.3132e-10,  9.3132e-10,  9.3132e-10,  ...,  9.3132e-10,
+          9.3132e-10, -2.7940e-09],
+        [ 0.0000e+00,  9.3132e-10, -6.1467e-08,  ...,  0.0000e+00,
+         -4.4703e-08, -1.0245e-08],
+        ...,
+        [ 2.7940e-09,  3.7253e-09,  5.7742e-08,  ...,  2.7940e-09,
+          4.1910e-08,  9.3132e-09],
+        [ 1.4901e-08,  1.9558e-08,  0.0000e+00,  ...,  1.6764e-08,
+          0.0000e+00,  1.8626e-09],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          2.7940e-08,  1.7695e-08]], device='cuda:0')
+Epoch 345, bias, value: tensor([-0.0173, -0.0367, -0.0055, -0.0123, -0.0319, -0.0014,  0.0262, -0.0191,
+         0.0490, -0.0001], device='cuda:0'), grad: tensor([-3.8184e-08, -1.6205e-07, -5.8487e-07, -3.9116e-08, -6.6031e-07,
+        -8.5682e-08,  6.8266e-07,  6.0629e-07,  1.9092e-07,  7.7300e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 344, time 250.14, cls_loss 0.0018 cls_loss_mapping 0.0013 cls_loss_causal 0.4554 re_mapping 0.0042 re_causal 0.0107 /// teacc 99.13 lr 0.00010000
+Epoch 346, weight, value: tensor([[-0.1263, -0.2612, -0.0888,  ..., -0.0659,  0.1826,  0.1885],
+        [-0.2430, -0.2116, -0.0837,  ..., -0.1986, -0.2439, -0.1571],
+        [-0.0712, -0.1858,  0.1597,  ..., -0.2302,  0.2741,  0.1272],
+        ...,
+        [-0.1859,  0.1006,  0.0227,  ...,  0.2155, -0.2371, -0.3083],
+        [-0.3043,  0.0768, -0.1586,  ...,  0.0703, -0.1167, -0.2270],
+        [-0.0448, -0.1539, -0.0853,  ..., -0.1358, -0.0601, -0.2313]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09, -3.7253e-09,  0.0000e+00,  ..., -4.7497e-08,
+         -2.4308e-06, -1.1157e-06],
+        [ 4.6566e-09,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+          3.7253e-09,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.0489e-08,  9.3132e-09],
+        ...,
+        [ 9.3132e-10, -1.8626e-09,  1.2107e-08,  ...,  8.5682e-08,
+          6.5193e-09,  3.7253e-09],
+        [ 4.0978e-08,  9.3132e-10,  0.0000e+00,  ...,  3.1665e-08,
+          1.1129e-06,  5.1130e-07],
+        [ 3.7253e-09,  4.6566e-09, -1.3970e-08,  ..., -9.1270e-08,
+          1.0859e-06,  5.0012e-07]], device='cuda:0')
+Epoch 346, bias, value: tensor([-0.0171, -0.0365, -0.0062, -0.0132, -0.0323, -0.0005,  0.0263, -0.0194,
+         0.0502, -0.0002], device='cuda:0'), grad: tensor([-4.7311e-06,  2.4214e-08,  3.9116e-08,  1.8999e-07,  4.2841e-08,
+        -9.2909e-06,  9.3058e-06,  4.5914e-07,  2.2873e-06,  1.6494e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 345, time 250.29, cls_loss 0.0015 cls_loss_mapping 0.0020 cls_loss_causal 0.4955 re_mapping 0.0041 re_causal 0.0112 /// teacc 99.06 lr 0.00010000
+Epoch 347, weight, value: tensor([[-0.1282, -0.2616, -0.0888,  ..., -0.0659,  0.1811,  0.1868],
+        [-0.2431, -0.2116, -0.0837,  ..., -0.1956, -0.2443, -0.1571],
+        [-0.0712, -0.1867,  0.1597,  ..., -0.2308,  0.2747,  0.1274],
+        ...,
+        [-0.1859,  0.1010,  0.0226,  ...,  0.2134, -0.2378, -0.3086],
+        [-0.3045,  0.0768, -0.1589,  ...,  0.0703, -0.1177, -0.2277],
+        [-0.0452, -0.1548, -0.0852,  ..., -0.1367, -0.0602, -0.2315]],
+       device='cuda:0'), grad: tensor([[ 5.7966e-05,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.0842e-04,  6.5684e-05],
+        [ 4.6566e-09,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          8.3819e-09,  5.5879e-09],
+        [ 3.1665e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          5.8673e-08,  3.5390e-08],
+        ...,
+        [ 5.5879e-09, -9.3132e-10,  0.0000e+00,  ..., -1.8626e-09,
+          1.1176e-08,  6.5193e-09],
+        [ 2.6077e-08,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          3.8184e-08,  2.2352e-08],
+        [ 1.7695e-08,  1.8626e-09,  0.0000e+00,  ...,  9.3132e-10,
+          3.4459e-08,  2.0489e-08]], device='cuda:0')
+Epoch 347, bias, value: tensor([-0.0181, -0.0339, -0.0059, -0.0150, -0.0322,  0.0012,  0.0277, -0.0219,
+         0.0501, -0.0004], device='cuda:0'), grad: tensor([ 2.3305e-04,  2.0489e-08,  1.2666e-07,  0.0000e+00,  4.1910e-08,
+         6.4541e-07, -2.3448e-04,  2.1420e-08,  9.4064e-08,  7.5437e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 346, time 250.31, cls_loss 0.0015 cls_loss_mapping 0.0016 cls_loss_causal 0.4503 re_mapping 0.0040 re_causal 0.0105 /// teacc 99.11 lr 0.00010000
+Epoch 348, weight, value: tensor([[-0.1295, -0.2624, -0.0888,  ..., -0.0661,  0.1806,  0.1863],
+        [-0.2450, -0.2124, -0.0837,  ..., -0.1961, -0.2457, -0.1583],
+        [-0.0694, -0.1837,  0.1597,  ..., -0.2301,  0.2761,  0.1280],
+        ...,
+        [-0.1864,  0.1014,  0.0226,  ...,  0.2141, -0.2398, -0.3088],
+        [-0.3046,  0.0759, -0.1590,  ...,  0.0702, -0.1185, -0.2281],
+        [-0.0459, -0.1558, -0.0851,  ..., -0.1373, -0.0604, -0.2322]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  2.7940e-08,  0.0000e+00,  ...,  2.0489e-08,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  3.5949e-07,  0.0000e+00,  ...,  2.8126e-07,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  3.4459e-08,  0.0000e+00,  ...,  3.5390e-08,
+         -1.8626e-09, -9.3132e-10],
+        ...,
+        [ 0.0000e+00, -1.2117e-06,  0.0000e+00,  ..., -9.3784e-07,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.2480e-07,  0.0000e+00,  ...,  8.7544e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.8243e-07,  0.0000e+00,  ...,  3.5018e-07,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 348, bias, value: tensor([-0.0186, -0.0341, -0.0044, -0.0150, -0.0330,  0.0015,  0.0283, -0.0218,
+         0.0499, -0.0005], device='cuda:0'), grad: tensor([ 8.3819e-08,  1.0040e-06,  9.1270e-08,  4.7963e-07, -2.0489e-08,
+         4.0047e-08,  3.5390e-08, -3.4273e-06,  3.4645e-07,  1.3690e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 347, time 250.07, cls_loss 0.0016 cls_loss_mapping 0.0013 cls_loss_causal 0.4882 re_mapping 0.0040 re_causal 0.0110 /// teacc 99.04 lr 0.00010000
+Epoch 349, weight, value: tensor([[-0.1295, -0.2633, -0.0888,  ..., -0.0665,  0.1807,  0.1866],
+        [-0.2455, -0.2126, -0.0837,  ..., -0.1963, -0.2468, -0.1586],
+        [-0.0694, -0.1840,  0.1598,  ..., -0.2307,  0.2765,  0.1280],
+        ...,
+        [-0.1866,  0.1020,  0.0222,  ...,  0.2148, -0.2398, -0.3090],
+        [-0.3051,  0.0758, -0.1590,  ...,  0.0702, -0.1194, -0.2289],
+        [-0.0449, -0.1567, -0.0847,  ..., -0.1389, -0.0603, -0.2330]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          6.9849e-08, -1.1176e-08],
+        [ 0.0000e+00,  0.0000e+00, -4.6566e-09,  ..., -1.8626e-09,
+          1.2107e-08,  0.0000e+00],
+        [ 0.0000e+00, -6.5193e-09,  0.0000e+00,  ..., -1.8626e-09,
+         -1.6112e-07, -1.8626e-08],
+        ...,
+        [ 0.0000e+00,  9.3132e-10,  2.7940e-09,  ...,  1.8626e-09,
+          6.5193e-09,  3.7253e-09],
+        [ 0.0000e+00,  5.5879e-09,  0.0000e+00,  ...,  9.3132e-10,
+          2.2352e-08,  1.3970e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-10,
+          3.7253e-09,  1.8626e-09]], device='cuda:0')
+Epoch 349, bias, value: tensor([-0.0186, -0.0343, -0.0046, -0.0149, -0.0333,  0.0016,  0.0281, -0.0216,
+         0.0502, -0.0005], device='cuda:0'), grad: tensor([ 1.2573e-07, -1.5460e-07, -3.0082e-07,  5.9605e-08,  8.3819e-09,
+         2.7940e-09,  2.2352e-08,  1.1828e-07,  5.8673e-08,  7.1712e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 348, time 250.39, cls_loss 0.0014 cls_loss_mapping 0.0011 cls_loss_causal 0.4805 re_mapping 0.0041 re_causal 0.0111 /// teacc 99.09 lr 0.00010000
+Epoch 350, weight, value: tensor([[-0.1296, -0.2645, -0.0888,  ..., -0.0674,  0.1808,  0.1867],
+        [-0.2456, -0.2159, -0.0836,  ..., -0.1983, -0.2475, -0.1578],
+        [-0.0695, -0.1844,  0.1598,  ..., -0.2312,  0.2767,  0.1275],
+        ...,
+        [-0.1869,  0.1052,  0.0224,  ...,  0.2167, -0.2400, -0.3095],
+        [-0.3062,  0.0760, -0.1593,  ...,  0.0711, -0.1196, -0.2296],
+        [-0.0443, -0.1574, -0.0846,  ..., -0.1396, -0.0605, -0.2334]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -4.7497e-08, -2.8871e-08],
+        [ 4.6566e-09,  1.2107e-08,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  4.6566e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  9.3132e-10],
+        ...,
+        [ 2.7940e-09,  2.7940e-09,  0.0000e+00,  ..., -4.6566e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 1.0245e-08,  2.6077e-08,  0.0000e+00,  ...,  9.3132e-10,
+          3.7253e-09,  1.8626e-09],
+        [ 1.8626e-09,  4.6566e-09,  0.0000e+00,  ...,  9.3132e-10,
+          2.2352e-08,  1.4901e-08]], device='cuda:0')
+Epoch 350, bias, value: tensor([-0.0185, -0.0356, -0.0051, -0.0148, -0.0328,  0.0011,  0.0280, -0.0204,
+         0.0526, -0.0008], device='cuda:0'), grad: tensor([-6.5193e-08, -4.3772e-08,  1.1176e-08, -1.4342e-07,  1.8626e-09,
+         3.9116e-08,  3.5390e-08,  8.3819e-09,  1.0431e-07,  5.5879e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 349, time 250.15, cls_loss 0.0017 cls_loss_mapping 0.0021 cls_loss_causal 0.4706 re_mapping 0.0042 re_causal 0.0108 /// teacc 99.09 lr 0.00010000
+Epoch 351, weight, value: tensor([[-0.1299, -0.2653, -0.0891,  ..., -0.0677,  0.1808,  0.1867],
+        [-0.2460, -0.2162, -0.0854,  ..., -0.1987, -0.2480, -0.1578],
+        [-0.0696, -0.1853,  0.1598,  ..., -0.2327,  0.2768,  0.1274],
+        ...,
+        [-0.1873,  0.1082,  0.0263,  ...,  0.2199, -0.2402, -0.3096],
+        [-0.3076,  0.0757, -0.1595,  ...,  0.0713, -0.1182, -0.2303],
+        [-0.0442, -0.1612, -0.0882,  ..., -0.1435, -0.0607, -0.2339]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -3.9116e-08, -1.7695e-08],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  9.3132e-10],
+        [ 0.0000e+00, -2.6077e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -6.4261e-08, -1.4901e-08],
+        ...,
+        [ 0.0000e+00,  2.1420e-08,  0.0000e+00,  ...,  0.0000e+00,
+          5.8673e-08,  1.3970e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -8.3819e-09,
+          3.5390e-08,  1.3970e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          5.5879e-09,  2.7940e-09]], device='cuda:0')
+Epoch 351, bias, value: tensor([-0.0185, -0.0356, -0.0056, -0.0148, -0.0335,  0.0011,  0.0278, -0.0185,
+         0.0530, -0.0031], device='cuda:0'), grad: tensor([-6.4261e-08,  7.4506e-09, -1.7509e-07,  5.7742e-08,  1.8626e-08,
+         4.6566e-09,  3.7253e-09,  1.5646e-07, -2.1420e-08,  1.9558e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 350----------------------------------------------------
+epoch 350, time 268.03, cls_loss 0.0017 cls_loss_mapping 0.0017 cls_loss_causal 0.4852 re_mapping 0.0041 re_causal 0.0108 /// teacc 99.15 lr 0.00010000
+Epoch 352, weight, value: tensor([[-0.1301, -0.2672, -0.0890,  ..., -0.0681,  0.1812,  0.1872],
+        [-0.2460, -0.2163, -0.0847,  ..., -0.1991, -0.2483, -0.1581],
+        [-0.0697, -0.1861,  0.1598,  ..., -0.2355,  0.2772,  0.1285],
+        ...,
+        [-0.1876,  0.1085,  0.0263,  ...,  0.2208, -0.2404, -0.3096],
+        [-0.3088,  0.0754, -0.1596,  ...,  0.0712, -0.1189, -0.2326],
+        [-0.0448, -0.1613, -0.0882,  ..., -0.1439, -0.0611, -0.2348]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -9.3132e-10,  0.0000e+00,  ..., -5.5879e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 3.7253e-09,  9.3132e-10,  0.0000e+00,  ..., -9.3132e-10,
+          1.8626e-09,  2.7940e-09],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  2.7940e-09,
+          3.7253e-09,  1.8626e-09]], device='cuda:0')
+Epoch 352, bias, value: tensor([-0.0183, -0.0357, -0.0059, -0.0152, -0.0329,  0.0015,  0.0277, -0.0182,
+         0.0528, -0.0035], device='cuda:0'), grad: tensor([ 9.3132e-10,  2.7940e-09,  2.7940e-09, -1.1176e-08, -3.2596e-08,
+         4.7125e-07, -4.5542e-07, -6.5193e-09,  1.1176e-08,  1.9558e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 351, time 250.51, cls_loss 0.0014 cls_loss_mapping 0.0017 cls_loss_causal 0.4895 re_mapping 0.0039 re_causal 0.0109 /// teacc 99.01 lr 0.00010000
+Epoch 353, weight, value: tensor([[-0.1301, -0.2667, -0.0890,  ..., -0.0682,  0.1818,  0.1877],
+        [-0.2460, -0.2164, -0.0847,  ..., -0.1992, -0.2485, -0.1582],
+        [-0.0697, -0.1866,  0.1600,  ..., -0.2365,  0.2773,  0.1289],
+        ...,
+        [-0.1886,  0.1092,  0.0263,  ...,  0.2219, -0.2405, -0.3099],
+        [-0.3109,  0.0752, -0.1603,  ...,  0.0709, -0.1199, -0.2337],
+        [-0.0452, -0.1622, -0.0882,  ..., -0.1449, -0.0613, -0.2353]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -6.5193e-09, -2.7940e-09],
+        ...,
+        [ 1.8626e-08, -0.0000e+00,  0.0000e+00,  ...,  2.0489e-08,
+          1.8626e-09,  9.3132e-10],
+        [ 1.5832e-08,  0.0000e+00,  0.0000e+00,  ...,  1.1176e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          1.8626e-09,  9.3132e-10]], device='cuda:0')
+Epoch 353, bias, value: tensor([-0.0179, -0.0357, -0.0060, -0.0150, -0.0329,  0.0006,  0.0282, -0.0178,
+         0.0520, -0.0039], device='cuda:0'), grad: tensor([ 9.3132e-09, -2.4121e-07,  1.8347e-07,  0.0000e+00,  5.5879e-09,
+        -8.1956e-08,  9.3132e-09,  6.9849e-08,  2.7008e-08,  1.7695e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 352, time 250.26, cls_loss 0.0020 cls_loss_mapping 0.0020 cls_loss_causal 0.4979 re_mapping 0.0039 re_causal 0.0106 /// teacc 98.93 lr 0.00010000
+Epoch 354, weight, value: tensor([[-0.1301, -0.2674, -0.0890,  ..., -0.0685,  0.1816,  0.1878],
+        [-0.2460, -0.2165, -0.0848,  ..., -0.1990, -0.2486, -0.1583],
+        [-0.0698, -0.1868,  0.1600,  ..., -0.2353,  0.2786,  0.1306],
+        ...,
+        [-0.1895,  0.1093,  0.0264,  ...,  0.2219, -0.2422, -0.3127],
+        [-0.3133,  0.0750, -0.1602,  ...,  0.0701, -0.1210, -0.2345],
+        [-0.0450, -0.1624, -0.0882,  ..., -0.1453, -0.0612, -0.2357]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-09,  2.7940e-09],
+        [ 2.7940e-09,  1.8626e-08,  0.0000e+00,  ...,  9.3132e-10,
+          2.7940e-09,  9.3132e-10],
+        [ 2.7940e-09,  5.4017e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  1.9558e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  7.4506e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  9.3132e-10],
+        [ 0.0000e+00,  9.3132e-10, -9.3132e-10,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 354, bias, value: tensor([-0.0182, -0.0354, -0.0057, -0.0150, -0.0333,  0.0014,  0.0277, -0.0181,
+         0.0508, -0.0036], device='cuda:0'), grad: tensor([ 3.5390e-08, -6.4075e-07,  1.0058e-07, -1.3784e-07,  6.4820e-07,
+         5.4017e-08, -7.5437e-08,  4.6566e-08,  3.0734e-08, -5.2154e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 353, time 250.79, cls_loss 0.0014 cls_loss_mapping 0.0012 cls_loss_causal 0.4762 re_mapping 0.0039 re_causal 0.0108 /// teacc 99.02 lr 0.00010000
+Epoch 355, weight, value: tensor([[-0.1302, -0.2681, -0.0890,  ..., -0.0694,  0.1818,  0.1880],
+        [-0.2464, -0.2165, -0.0848,  ..., -0.1991, -0.2507, -0.1583],
+        [-0.0698, -0.1870,  0.1600,  ..., -0.2354,  0.2800,  0.1311],
+        ...,
+        [-0.1896,  0.1093,  0.0263,  ...,  0.2223, -0.2426, -0.3131],
+        [-0.3136,  0.0749, -0.1608,  ...,  0.0702, -0.1216, -0.2351],
+        [-0.0453, -0.1625, -0.0882,  ..., -0.1456, -0.0615, -0.2363]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+         -1.8626e-09, -9.3132e-10],
+        [ 0.0000e+00,  4.6566e-09,  0.0000e+00,  ...,  1.3039e-08,
+          4.6566e-09,  0.0000e+00],
+        [ 0.0000e+00,  5.4948e-08,  0.0000e+00,  ...,  6.0536e-08,
+         -6.5193e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -7.0781e-08,  0.0000e+00,  ..., -8.7544e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 3.7253e-09,  8.3819e-09,  0.0000e+00,  ...,  1.1176e-08,
+          1.8626e-09,  0.0000e+00],
+        [ 4.6566e-09,  7.4506e-09,  0.0000e+00,  ...,  7.4506e-09,
+          1.8626e-09,  9.3132e-10]], device='cuda:0')
+Epoch 355, bias, value: tensor([-0.0182, -0.0354, -0.0050, -0.0149, -0.0332,  0.0012,  0.0280, -0.0181,
+         0.0506, -0.0037], device='cuda:0'), grad: tensor([ 2.3283e-08, -3.6228e-07,  1.4063e-07, -1.3970e-08,  1.0710e-07,
+        -5.8673e-08,  1.3039e-07, -1.5553e-07,  1.0710e-07,  8.4750e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 354, time 250.57, cls_loss 0.0015 cls_loss_mapping 0.0015 cls_loss_causal 0.4948 re_mapping 0.0040 re_causal 0.0108 /// teacc 99.08 lr 0.00010000
+Epoch 356, weight, value: tensor([[-0.1304, -0.2683, -0.0890,  ..., -0.0697,  0.1818,  0.1882],
+        [-0.2476, -0.2166, -0.0849,  ..., -0.1993, -0.2508, -0.1591],
+        [-0.0687, -0.1872,  0.1600,  ..., -0.2356,  0.2803,  0.1316],
+        ...,
+        [-0.1900,  0.1094,  0.0263,  ...,  0.2230, -0.2428, -0.3132],
+        [-0.3156,  0.0748, -0.1608,  ...,  0.0693, -0.1227, -0.2356],
+        [-0.0465, -0.1626, -0.0882,  ..., -0.1464, -0.0616, -0.2366]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 2.7940e-09,  5.5879e-09,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-09,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 2.7940e-09,  2.7940e-09, -0.0000e+00,  ..., -3.7253e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 1.3970e-08,  1.9558e-08,  0.0000e+00,  ...,  2.7940e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 1.6764e-08,  7.4506e-09,  0.0000e+00,  ...,  7.4506e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 356, bias, value: tensor([-0.0184, -0.0354, -0.0046, -0.0149, -0.0345,  0.0017,  0.0282, -0.0178,
+         0.0497, -0.0038], device='cuda:0'), grad: tensor([ 7.4506e-09,  2.0489e-08,  1.3039e-08, -1.0431e-07,  9.3132e-10,
+        -1.8999e-07,  1.3411e-07,  9.3132e-09, -1.1083e-07,  2.2724e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 355, time 250.49, cls_loss 0.0014 cls_loss_mapping 0.0010 cls_loss_causal 0.4571 re_mapping 0.0039 re_causal 0.0106 /// teacc 99.03 lr 0.00010000
+Epoch 357, weight, value: tensor([[-0.1304, -0.2693, -0.0879,  ..., -0.0704,  0.1820,  0.1884],
+        [-0.2477, -0.2182, -0.0847,  ..., -0.2001, -0.2509, -0.1591],
+        [-0.0687, -0.1872,  0.1600,  ..., -0.2358,  0.2804,  0.1318],
+        ...,
+        [-0.1904,  0.1106,  0.0263,  ...,  0.2236, -0.2431, -0.3136],
+        [-0.3173,  0.0748, -0.1603,  ...,  0.0690, -0.1226, -0.2356],
+        [-0.0466, -0.1627, -0.0882,  ..., -0.1465, -0.0616, -0.2367]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -4.6566e-10,
+         -3.6322e-08, -1.8161e-08],
+        [ 9.3132e-10,  2.3283e-09,  0.0000e+00,  ...,  9.3132e-10,
+          1.3970e-09,  4.6566e-10],
+        [ 4.6566e-10,  2.7940e-09,  0.0000e+00,  ...,  2.7940e-09,
+          1.8626e-09,  9.3132e-10],
+        ...,
+        [ 1.3970e-09, -1.3970e-09,  0.0000e+00,  ..., -4.6566e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 3.2596e-09,  5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.3970e-09,  9.3132e-10],
+        [ 4.6566e-10,  1.3970e-09,  0.0000e+00,  ...,  1.3970e-09,
+          2.4214e-08,  1.2573e-08]], device='cuda:0')
+Epoch 357, bias, value: tensor([-0.0183, -0.0360, -0.0045, -0.0152, -0.0363,  0.0021,  0.0280, -0.0173,
+         0.0493, -0.0033], device='cuda:0'), grad: tensor([-6.7055e-08, -3.3528e-08,  1.2573e-08, -9.0804e-08, -9.3132e-09,
+         7.4971e-08,  9.3132e-09,  3.4459e-08,  1.4435e-08,  5.6811e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 356, time 250.74, cls_loss 0.0014 cls_loss_mapping 0.0016 cls_loss_causal 0.4599 re_mapping 0.0040 re_causal 0.0109 /// teacc 99.07 lr 0.00010000
+Epoch 358, weight, value: tensor([[-0.1304, -0.2704, -0.0885,  ..., -0.0704,  0.1820,  0.1885],
+        [-0.2497, -0.2182, -0.0846,  ..., -0.2002, -0.2512, -0.1592],
+        [-0.0667, -0.1880,  0.1601,  ..., -0.2375,  0.2808,  0.1319],
+        ...,
+        [-0.1908,  0.1099,  0.0263,  ...,  0.2239, -0.2435, -0.3138],
+        [-0.3176,  0.0745, -0.1590,  ...,  0.0689, -0.1225, -0.2354],
+        [-0.0469, -0.1628, -0.0882,  ..., -0.1467, -0.0617, -0.2369]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  9.3132e-10,  0.0000e+00,  ...,  4.6566e-10,
+         -6.0536e-09, -3.7253e-09],
+        [ 3.7253e-09,  1.3504e-08,  0.0000e+00,  ...,  8.8476e-09,
+          4.6566e-10,  0.0000e+00],
+        [ 3.2596e-09,  1.4435e-08,  0.0000e+00,  ...,  1.0245e-08,
+          4.6566e-10,  4.6566e-10],
+        ...,
+        [ 2.7940e-09, -3.2131e-08,  0.0000e+00,  ..., -4.6566e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 4.1910e-09,  7.9162e-09,  0.0000e+00,  ...,  1.8626e-09,
+          9.3132e-10,  4.6566e-10],
+        [-9.3132e-10,  6.0536e-09,  0.0000e+00,  ...,  2.7940e-09,
+          4.6566e-09,  3.2596e-09]], device='cuda:0')
+Epoch 358, bias, value: tensor([-0.0183, -0.0362, -0.0037, -0.0146, -0.0338,  0.0021,  0.0280, -0.0174,
+         0.0491, -0.0046], device='cuda:0'), grad: tensor([-7.4506e-09,  3.9116e-08,  4.3306e-08, -6.0536e-09, -1.1176e-08,
+         2.5146e-08,  6.5193e-09, -8.2422e-08,  1.8626e-08, -2.6077e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 357, time 250.33, cls_loss 0.0018 cls_loss_mapping 0.0020 cls_loss_causal 0.4706 re_mapping 0.0040 re_causal 0.0104 /// teacc 99.13 lr 0.00010000
+Epoch 359, weight, value: tensor([[-0.1306, -0.2713, -0.0887,  ..., -0.0704,  0.1821,  0.1886],
+        [-0.2499, -0.2183, -0.0853,  ..., -0.2003, -0.2516, -0.1594],
+        [-0.0666, -0.1888,  0.1603,  ..., -0.2395,  0.2810,  0.1320],
+        ...,
+        [-0.1915,  0.1093,  0.0263,  ...,  0.2228, -0.2436, -0.3140],
+        [-0.3179,  0.0771, -0.1584,  ...,  0.0718, -0.1229, -0.2359],
+        [-0.0476, -0.1629, -0.0882,  ..., -0.1468, -0.0618, -0.2373]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  5.5879e-09,
+          5.1921e-07, -2.6077e-08],
+        [ 0.0000e+00,  8.8476e-09,  0.0000e+00,  ...,  1.0664e-07,
+          3.9581e-08,  6.0536e-09],
+        [ 0.0000e+00,  5.1223e-09, -0.0000e+00,  ...,  6.0536e-08,
+         -8.2795e-07, -9.3598e-08],
+        ...,
+        [ 4.6566e-10,  2.6543e-08,  0.0000e+00,  ..., -1.9884e-07,
+          6.9849e-09,  1.3970e-09],
+        [ 4.6566e-10,  1.3970e-09,  0.0000e+00,  ...,  8.3819e-09,
+          2.3283e-09,  9.3132e-10],
+        [ 0.0000e+00,  1.3970e-09,  0.0000e+00,  ...,  1.9558e-08,
+          8.3819e-08,  4.0978e-08]], device='cuda:0')
+Epoch 359, bias, value: tensor([-0.0183, -0.0361, -0.0041, -0.0136, -0.0319,  0.0009,  0.0282, -0.0179,
+         0.0515, -0.0056], device='cuda:0'), grad: tensor([ 9.7416e-07,  3.7951e-07, -1.3150e-06,  6.4727e-08,  7.8697e-08,
+         1.2647e-06,  1.8114e-07, -5.0105e-07,  3.1665e-08, -1.1306e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 358, time 250.50, cls_loss 0.0019 cls_loss_mapping 0.0020 cls_loss_causal 0.4925 re_mapping 0.0039 re_causal 0.0105 /// teacc 99.15 lr 0.00010000
+Epoch 360, weight, value: tensor([[-0.1306, -0.2718, -0.0888,  ..., -0.0703,  0.1831,  0.1897],
+        [-0.2500, -0.2185, -0.0825,  ..., -0.2003, -0.2547, -0.1598],
+        [-0.0669, -0.1906,  0.1604,  ..., -0.2399,  0.2840,  0.1323],
+        ...,
+        [-0.1920,  0.1096,  0.0261,  ...,  0.2231, -0.2442, -0.3145],
+        [-0.3185,  0.0766, -0.1587,  ...,  0.0714, -0.1237, -0.2368],
+        [-0.0478, -0.1630, -0.0882,  ..., -0.1469, -0.0621, -0.2382]],
+       device='cuda:0'), grad: tensor([[ 1.4435e-08,  5.5879e-09,  0.0000e+00,  ..., -2.6636e-07,
+         -1.1437e-06, -7.0501e-07],
+        [ 4.6566e-10,  5.4948e-08,  0.0000e+00,  ...,  4.4238e-08,
+          9.3132e-10,  9.3132e-10],
+        [ 4.6566e-10,  2.7986e-07,  0.0000e+00,  ...,  1.3504e-08,
+         -1.0245e-08,  4.6566e-10],
+        ...,
+        [ 0.0000e+00, -1.2480e-07,  0.0000e+00,  ..., -4.4471e-07,
+          1.8626e-09,  1.3970e-09],
+        [ 5.8673e-08,  1.5367e-07,  0.0000e+00,  ...,  3.3993e-08,
+          3.8650e-08,  7.4971e-08],
+        [ 4.6566e-10,  1.9697e-07,  0.0000e+00,  ...,  2.7195e-07,
+          1.9558e-08,  1.2107e-08]], device='cuda:0')
+Epoch 360, bias, value: tensor([-0.0176, -0.0357, -0.0016, -0.0135, -0.0319,  0.0013,  0.0272, -0.0192,
+         0.0509, -0.0057], device='cuda:0'), grad: tensor([-2.1737e-06,  2.9150e-07,  4.5961e-07, -8.7824e-07,  1.7229e-08,
+         3.3807e-06, -1.1995e-06, -1.5795e-06,  5.1875e-07,  1.1828e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 359, time 250.73, cls_loss 0.0014 cls_loss_mapping 0.0018 cls_loss_causal 0.4487 re_mapping 0.0039 re_causal 0.0104 /// teacc 99.00 lr 0.00010000
+Epoch 361, weight, value: tensor([[-0.1307, -0.2721, -0.0888,  ..., -0.0701,  0.1839,  0.1906],
+        [-0.2501, -0.2186, -0.0829,  ..., -0.2006, -0.2547, -0.1585],
+        [-0.0674, -0.1922,  0.1604,  ..., -0.2406,  0.2839,  0.1302],
+        ...,
+        [-0.1929,  0.1100,  0.0262,  ...,  0.2236, -0.2457, -0.3149],
+        [-0.3192,  0.0761, -0.1588,  ...,  0.0711, -0.1280, -0.2406],
+        [-0.0464, -0.1631, -0.0882,  ..., -0.1470, -0.0623, -0.2390]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -9.8255e-08, -8.4285e-08],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -9.3132e-10,  ...,  0.0000e+00,
+         -3.2596e-09, -4.6566e-10],
+        ...,
+        [ 4.6566e-10,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.3970e-09,  2.3283e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -0.0000e+00, -2.7940e-09],
+        [ 1.3970e-09,  2.3283e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.2573e-08,  1.0710e-08]], device='cuda:0')
+Epoch 361, bias, value: tensor([-0.0170, -0.0355, -0.0024, -0.0134, -0.0322,  0.0015,  0.0272, -0.0190,
+         0.0498, -0.0056], device='cuda:0'), grad: tensor([-1.4808e-07,  8.5682e-08, -5.5879e-09, -1.6438e-07,  7.5549e-06,
+         1.6764e-07,  1.5274e-07,  5.3272e-07,  1.2619e-07, -8.2925e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 360, time 250.61, cls_loss 0.0015 cls_loss_mapping 0.0014 cls_loss_causal 0.4910 re_mapping 0.0038 re_causal 0.0104 /// teacc 99.10 lr 0.00010000
+Epoch 362, weight, value: tensor([[-0.1308, -0.2733, -0.0888,  ..., -0.0706,  0.1841,  0.1909],
+        [-0.2508, -0.2188, -0.0837,  ..., -0.2008, -0.2547, -0.1583],
+        [-0.0670, -0.1922,  0.1606,  ..., -0.2407,  0.2840,  0.1300],
+        ...,
+        [-0.1930,  0.1106,  0.0262,  ...,  0.2241, -0.2459, -0.3152],
+        [-0.3203,  0.0760, -0.1595,  ...,  0.0709, -0.1283, -0.2409],
+        [-0.0465, -0.1641, -0.0882,  ..., -0.1475, -0.0624, -0.2392]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  9.3132e-10],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -3.7253e-09, -2.3283e-09],
+        ...,
+        [ 0.0000e+00, -1.3970e-09,  0.0000e+00,  ..., -1.3970e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          1.3970e-09,  9.3132e-10],
+        [ 0.0000e+00,  1.3970e-09,  0.0000e+00,  ...,  1.3970e-09,
+          4.6566e-10,  0.0000e+00]], device='cuda:0')
+Epoch 362, bias, value: tensor([-0.0171, -0.0352, -0.0028, -0.0134, -0.0321,  0.0015,  0.0272, -0.0189,
+         0.0492, -0.0059], device='cuda:0'), grad: tensor([ 6.5193e-09, -2.8405e-08, -9.7789e-09,  3.7253e-09,  6.5193e-09,
+         1.8626e-09,  6.5193e-09,  2.3283e-09,  5.5879e-09,  1.8161e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 361, time 250.51, cls_loss 0.0016 cls_loss_mapping 0.0021 cls_loss_causal 0.4686 re_mapping 0.0038 re_causal 0.0100 /// teacc 99.09 lr 0.00010000
+Epoch 363, weight, value: tensor([[-0.1308, -0.2761, -0.0888,  ..., -0.0717,  0.1846,  0.1915],
+        [-0.2510, -0.2190, -0.0837,  ..., -0.2010, -0.2548, -0.1585],
+        [-0.0671, -0.1924,  0.1607,  ..., -0.2408,  0.2841,  0.1301],
+        ...,
+        [-0.1936,  0.1117,  0.0262,  ...,  0.2253, -0.2461, -0.3154],
+        [-0.3207,  0.0759, -0.1595,  ...,  0.0708, -0.1281, -0.2404],
+        [-0.0464, -0.1655, -0.0882,  ..., -0.1490, -0.0624, -0.2395]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  4.6566e-10,  0.0000e+00,  ...,  9.3132e-10,
+          9.3132e-10,  9.3132e-10],
+        [ 0.0000e+00,  7.8697e-08,  0.0000e+00,  ...,  1.4855e-07,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.5367e-08,  0.0000e+00,  ...,  2.9802e-08,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -1.6578e-07,  0.0000e+00,  ..., -3.1525e-07,
+          0.0000e+00,  0.0000e+00],
+        [ 4.1910e-09,  1.3970e-09,  0.0000e+00,  ...,  3.2596e-09,
+          4.1910e-09,  4.6566e-09],
+        [ 0.0000e+00,  6.8452e-08,  0.0000e+00,  ...,  1.3085e-07,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 363, bias, value: tensor([-0.0168, -0.0353, -0.0028, -0.0133, -0.0321,  0.0011,  0.0271, -0.0183,
+         0.0493, -0.0065], device='cuda:0'), grad: tensor([ 6.3796e-08, -9.9186e-08,  8.5216e-08,  1.3039e-08,  1.6205e-07,
+         7.9162e-09, -2.0955e-08, -6.9337e-07,  3.8184e-08,  4.5123e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 362, time 250.65, cls_loss 0.0016 cls_loss_mapping 0.0019 cls_loss_causal 0.4497 re_mapping 0.0040 re_causal 0.0104 /// teacc 99.04 lr 0.00010000
+Epoch 364, weight, value: tensor([[-0.1309, -0.2780, -0.0886,  ..., -0.0727,  0.1846,  0.1915],
+        [-0.2531, -0.2192, -0.0839,  ..., -0.2013, -0.2548, -0.1593],
+        [-0.0650, -0.1928,  0.1607,  ..., -0.2409,  0.2841,  0.1307],
+        ...,
+        [-0.1942,  0.1119,  0.0262,  ...,  0.2257, -0.2461, -0.3155],
+        [-0.3212,  0.0759, -0.1596,  ...,  0.0711, -0.1273, -0.2394],
+        [-0.0469, -0.1657, -0.0882,  ..., -0.1493, -0.0625, -0.2396]],
+       device='cuda:0'), grad: tensor([[ 3.2596e-09,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -6.6124e-08, -4.9360e-08],
+        [ 5.1223e-09,  1.4575e-07,  0.0000e+00,  ...,  4.0606e-07,
+          3.9116e-08,  2.3749e-08],
+        [ 6.9849e-09,  1.3970e-08,  0.0000e+00,  ...,  1.0710e-08,
+          9.3132e-09,  5.1223e-09],
+        ...,
+        [ 4.7497e-08, -6.4261e-08,  0.0000e+00,  ..., -4.0093e-07,
+          0.0000e+00,  0.0000e+00],
+        [ 7.5903e-08,  1.2200e-07,  0.0000e+00,  ...,  1.8626e-08,
+         -1.4435e-08,  2.9337e-08],
+        [ 2.7474e-08,  4.6566e-08,  0.0000e+00,  ...,  1.0710e-08,
+          3.2596e-09, -2.7940e-08]], device='cuda:0')
+Epoch 364, bias, value: tensor([-0.0169, -0.0357, -0.0020, -0.0133, -0.0324,  0.0042,  0.0238, -0.0182,
+         0.0501, -0.0065], device='cuda:0'), grad: tensor([ 1.8626e-07,  1.1101e-06,  8.6613e-08, -5.0701e-06,  1.1176e-08,
+         4.5672e-06,  4.1444e-08, -8.8196e-07,  5.6718e-07, -6.2119e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 363, time 250.85, cls_loss 0.0016 cls_loss_mapping 0.0016 cls_loss_causal 0.4321 re_mapping 0.0041 re_causal 0.0102 /// teacc 99.05 lr 0.00010000
+Epoch 365, weight, value: tensor([[-0.1310, -0.2816, -0.0886,  ..., -0.0741,  0.1846,  0.1914],
+        [-0.2534, -0.2195, -0.0839,  ..., -0.2016, -0.2549, -0.1594],
+        [-0.0649, -0.1931,  0.1608,  ..., -0.2418,  0.2845,  0.1319],
+        ...,
+        [-0.1966,  0.1124,  0.0262,  ...,  0.2262, -0.2466, -0.3160],
+        [-0.3217,  0.0755, -0.1601,  ...,  0.0711, -0.1279, -0.2402],
+        [-0.0484, -0.1659, -0.0882,  ..., -0.1494, -0.0628, -0.2407]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -4.6566e-10,  0.0000e+00,  ..., -5.2154e-08,
+         -6.4261e-08, -4.8429e-08],
+        [ 0.0000e+00,  9.3132e-10, -0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -4.6566e-10,  0.0000e+00,  ..., -4.6566e-10,
+         -3.7253e-09, -1.3970e-09],
+        ...,
+        [ 0.0000e+00, -1.3970e-09,  0.0000e+00,  ..., -2.3283e-09,
+          1.8626e-09,  9.3132e-10],
+        [ 3.5390e-08, -1.3970e-09,  0.0000e+00,  ...,  1.2759e-07,
+          1.3970e-09,  4.6566e-10],
+        [ 0.0000e+00,  9.3132e-10, -0.0000e+00,  ...,  1.8626e-09,
+          1.3970e-09,  9.3132e-10]], device='cuda:0')
+Epoch 365, bias, value: tensor([-0.0172, -0.0358, -0.0019, -0.0132, -0.0320,  0.0042,  0.0237, -0.0181,
+         0.0497, -0.0066], device='cuda:0'), grad: tensor([-1.4994e-07, -4.6566e-10, -9.7789e-09,  9.3132e-09,  3.2596e-09,
+        -8.8476e-08, -1.3970e-09, -9.3132e-10,  2.3376e-07,  3.2596e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 364, time 250.81, cls_loss 0.0013 cls_loss_mapping 0.0012 cls_loss_causal 0.4638 re_mapping 0.0039 re_causal 0.0104 /// teacc 99.02 lr 0.00010000
+Epoch 366, weight, value: tensor([[-0.1310, -0.2819, -0.0887,  ..., -0.0741,  0.1848,  0.1917],
+        [-0.2534, -0.2199, -0.0841,  ..., -0.2024, -0.2550, -0.1595],
+        [-0.0650, -0.1934,  0.1608,  ..., -0.2421,  0.2847,  0.1320],
+        ...,
+        [-0.1972,  0.1127,  0.0262,  ...,  0.2267, -0.2471, -0.3163],
+        [-0.3221,  0.0754, -0.1603,  ...,  0.0712, -0.1278, -0.2404],
+        [-0.0478, -0.1659, -0.0882,  ..., -0.1495, -0.0629, -0.2409]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  2.7940e-09,  0.0000e+00,  ..., -5.3085e-08,
+         -3.6368e-07, -2.1746e-07],
+        [ 9.3132e-10,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+         -0.0000e+00,  4.6566e-10],
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-09,  9.3132e-10],
+        ...,
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  4.6566e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 1.3970e-08,  1.4435e-08,  4.6566e-10,  ...,  8.8476e-09,
+          3.2596e-09,  3.2596e-09],
+        [ 4.1910e-09, -3.3528e-08, -1.3970e-09,  ...,  3.2596e-09,
+         -3.2596e-09, -5.1223e-09]], device='cuda:0')
+Epoch 366, bias, value: tensor([-0.0171, -0.0362, -0.0017, -0.0132, -0.0322,  0.0041,  0.0237, -0.0179,
+         0.0500, -0.0064], device='cuda:0'), grad: tensor([-6.8173e-07, -2.1886e-08,  1.0245e-08,  3.1292e-07,  1.2107e-08,
+         4.7032e-08,  4.4936e-07,  2.4680e-08,  1.7229e-07, -3.1246e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 365, time 250.80, cls_loss 0.0012 cls_loss_mapping 0.0012 cls_loss_causal 0.4917 re_mapping 0.0039 re_causal 0.0109 /// teacc 99.08 lr 0.00010000
+Epoch 367, weight, value: tensor([[-0.1311, -0.2821, -0.0887,  ..., -0.0741,  0.1848,  0.1919],
+        [-0.2534, -0.2200, -0.0841,  ..., -0.2025, -0.2550, -0.1595],
+        [-0.0651, -0.1944,  0.1608,  ..., -0.2434,  0.2847,  0.1321],
+        ...,
+        [-0.1974,  0.1130,  0.0262,  ...,  0.2269, -0.2477, -0.3172],
+        [-0.3226,  0.0750, -0.1603,  ...,  0.0709, -0.1281, -0.2408],
+        [-0.0480, -0.1660, -0.0882,  ..., -0.1493, -0.0630, -0.2414]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+         -4.6566e-09, -1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.0268e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -4.6566e-10,  0.0000e+00,  ...,  8.0280e-07,
+         -1.3970e-09, -4.6566e-10],
+        ...,
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  3.2596e-09,
+          1.3970e-09,  4.6566e-10],
+        [ 3.7253e-09,  4.6566e-10,  0.0000e+00,  ..., -4.6119e-06,
+          1.3970e-09,  9.3132e-10],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  1.8626e-09,
+          6.0536e-09,  3.2596e-09]], device='cuda:0')
+Epoch 367, bias, value: tensor([-0.0171, -0.0362, -0.0018, -0.0131, -0.0324,  0.0040,  0.0239, -0.0183,
+         0.0496, -0.0056], device='cuda:0'), grad: tensor([ 2.7940e-09, -3.8650e-08,  2.3097e-06,  6.5193e-09,  2.6543e-08,
+         9.6187e-06,  8.5123e-07,  5.4948e-08, -1.2830e-05,  9.3132e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 366, time 250.82, cls_loss 0.0017 cls_loss_mapping 0.0013 cls_loss_causal 0.4533 re_mapping 0.0037 re_causal 0.0097 /// teacc 98.97 lr 0.00010000
+Epoch 368, weight, value: tensor([[-0.1312, -0.2824, -0.0887,  ..., -0.0741,  0.1848,  0.1919],
+        [-0.2562, -0.2202, -0.0842,  ..., -0.2026, -0.2551, -0.1597],
+        [-0.0637, -0.1944,  0.1608,  ..., -0.2433,  0.2852,  0.1326],
+        ...,
+        [-0.1982,  0.1132,  0.0262,  ...,  0.2270, -0.2486, -0.3183],
+        [-0.3233,  0.0749, -0.1604,  ...,  0.0709, -0.1286, -0.2414],
+        [-0.0489, -0.1663, -0.0882,  ..., -0.1494, -0.0631, -0.2420]],
+       device='cuda:0'), grad: tensor([[ 1.4901e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.7183e-07,  9.7323e-08],
+        [ 0.0000e+00,  4.1910e-09,  0.0000e+00,  ...,  6.5193e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  1.3970e-09,
+          2.7940e-09,  1.3970e-09],
+        ...,
+        [ 0.0000e+00, -8.8476e-09,  0.0000e+00,  ..., -1.4901e-08,
+          1.3970e-09,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ..., -4.6566e-10,
+          9.3132e-10,  4.6566e-10],
+        [ 0.0000e+00,  3.7253e-09,  0.0000e+00,  ...,  6.5193e-09,
+          9.3132e-10,  4.6566e-10]], device='cuda:0')
+Epoch 368, bias, value: tensor([-0.0172, -0.0360, -0.0011, -0.0132, -0.0324,  0.0045,  0.0236, -0.0189,
+         0.0494, -0.0055], device='cuda:0'), grad: tensor([ 3.3295e-07, -3.0734e-08,  8.8476e-09,  5.1223e-09, -2.2352e-08,
+         2.7940e-09, -3.0408e-07, -1.2107e-08,  1.3970e-09,  2.4680e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 367, time 250.95, cls_loss 0.0017 cls_loss_mapping 0.0016 cls_loss_causal 0.4845 re_mapping 0.0036 re_causal 0.0098 /// teacc 99.00 lr 0.00010000
+Epoch 369, weight, value: tensor([[-0.1313, -0.2835, -0.0887,  ..., -0.0751,  0.1842,  0.1921],
+        [-0.2565, -0.2203, -0.0842,  ..., -0.2026, -0.2552, -0.1603],
+        [-0.0635, -0.1943,  0.1608,  ..., -0.2434,  0.2858,  0.1333],
+        ...,
+        [-0.1988,  0.1136,  0.0262,  ...,  0.2273, -0.2496, -0.3192],
+        [-0.3237,  0.0749, -0.1604,  ...,  0.0725, -0.1238, -0.2386],
+        [-0.0491, -0.1668, -0.0882,  ..., -0.1497, -0.0624, -0.2424]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+         -1.3970e-09, -9.3132e-10],
+        [ 0.0000e+00,  1.3392e-06,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.4249e-07,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.8626e-09, -1.5963e-06,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  4.6566e-10,  0.0000e+00,  ..., -3.3528e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  3.2596e-09,  0.0000e+00,  ...,  6.0536e-09,
+          1.8626e-09,  9.3132e-10]], device='cuda:0')
+Epoch 369, bias, value: tensor([-0.0187, -0.0360, -0.0007, -0.0133, -0.0323,  0.0041,  0.0230, -0.0188,
+         0.0530, -0.0054], device='cuda:0'), grad: tensor([ 1.1642e-08,  1.2740e-05,  1.3625e-06,  1.0543e-06,  3.2596e-09,
+         6.9384e-08,  1.4901e-08, -1.5177e-05, -2.8778e-07,  1.9837e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 368, time 250.81, cls_loss 0.0017 cls_loss_mapping 0.0022 cls_loss_causal 0.4749 re_mapping 0.0038 re_causal 0.0101 /// teacc 98.95 lr 0.00010000
+Epoch 370, weight, value: tensor([[-0.1313, -0.2851, -0.0887,  ..., -0.0761,  0.1848,  0.1929],
+        [-0.2567, -0.2224, -0.0798,  ..., -0.2016, -0.2553, -0.1604],
+        [-0.0636, -0.1952,  0.1608,  ..., -0.2442,  0.2857,  0.1329],
+        ...,
+        [-0.1987,  0.1180,  0.0258,  ...,  0.2302, -0.2498, -0.3194],
+        [-0.3259,  0.0748, -0.1604,  ...,  0.0723, -0.1240, -0.2389],
+        [-0.0494, -0.1706, -0.0883,  ..., -0.1535, -0.0628, -0.2438]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -5.7276e-08, -4.1444e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          6.9849e-09,  4.6566e-09],
+        ...,
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 3.2596e-09,  4.6566e-10,  0.0000e+00,  ...,  6.5193e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          5.0757e-08,  3.7253e-08]], device='cuda:0')
+Epoch 370, bias, value: tensor([-0.0184, -0.0353, -0.0009, -0.0135, -0.0324,  0.0036,  0.0235, -0.0163,
+         0.0526, -0.0088], device='cuda:0'), grad: tensor([-1.1828e-07, -5.0943e-07,  3.6787e-08,  4.6566e-10, -5.5414e-08,
+        -1.3504e-08,  6.9849e-09,  2.2026e-07,  1.2759e-07,  3.1758e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 369, time 250.51, cls_loss 0.0012 cls_loss_mapping 0.0013 cls_loss_causal 0.4410 re_mapping 0.0038 re_causal 0.0103 /// teacc 99.06 lr 0.00010000
+Epoch 371, weight, value: tensor([[-0.1314, -0.2858, -0.0887,  ..., -0.0770,  0.1851,  0.1932],
+        [-0.2567, -0.2239, -0.0804,  ..., -0.2032, -0.2553, -0.1605],
+        [-0.0636, -0.1954,  0.1608,  ..., -0.2447,  0.2858,  0.1330],
+        ...,
+        [-0.1989,  0.1193,  0.0259,  ...,  0.2314, -0.2503, -0.3200],
+        [-0.3274,  0.0748, -0.1605,  ...,  0.0726, -0.1238, -0.2395],
+        [-0.0498, -0.1711, -0.0883,  ..., -0.1540, -0.0629, -0.2443]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10, -4.6566e-10,  0.0000e+00,  ...,  9.3132e-10,
+         -3.2596e-08, -2.6077e-08],
+        [ 1.8626e-09,  4.6566e-10,  0.0000e+00,  ...,  2.7940e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 1.3970e-09,  4.6566e-10,  0.0000e+00,  ...,  2.3283e-09,
+          5.1223e-09,  3.7253e-09],
+        ...,
+        [ 3.7253e-09,  4.6566e-10,  0.0000e+00,  ...,  6.0536e-09,
+          0.0000e+00,  0.0000e+00],
+        [-2.6748e-06, -1.9744e-07,  0.0000e+00,  ..., -4.3772e-06,
+          7.9162e-09,  6.5193e-09],
+        [ 9.3132e-10,  4.6566e-10,  0.0000e+00,  ...,  1.3970e-09,
+          6.0536e-09,  4.6566e-09]], device='cuda:0')
+Epoch 371, bias, value: tensor([-0.0183, -0.0358, -0.0009, -0.0137, -0.0323,  0.0035,  0.0236, -0.0156,
+         0.0528, -0.0091], device='cuda:0'), grad: tensor([-6.1467e-08, -2.3805e-06,  1.3327e-06,  1.2247e-07, -1.4901e-07,
+         5.2378e-06,  9.6858e-06,  1.1409e-06, -1.4968e-05,  1.9558e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 370, time 250.28, cls_loss 0.0015 cls_loss_mapping 0.0015 cls_loss_causal 0.4550 re_mapping 0.0040 re_causal 0.0102 /// teacc 99.03 lr 0.00010000
+Epoch 372, weight, value: tensor([[-0.1314, -0.2856, -0.0887,  ..., -0.0773,  0.1862,  0.1946],
+        [-0.2567, -0.2239, -0.0804,  ..., -0.2033, -0.2554, -0.1607],
+        [-0.0636, -0.1965,  0.1608,  ..., -0.2457,  0.2859,  0.1329],
+        ...,
+        [-0.1997,  0.1195,  0.0259,  ...,  0.2317, -0.2505, -0.3202],
+        [-0.3273,  0.0745, -0.1629,  ...,  0.0727, -0.1238, -0.2396],
+        [-0.0508, -0.1712, -0.0882,  ..., -0.1542, -0.0631, -0.2449]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.7229e-08, -1.5367e-08],
+        [ 4.6566e-10,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  4.6566e-10],
+        ...,
+        [ 4.6566e-09,  1.3970e-08,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-09,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.7695e-08,  1.5367e-08]], device='cuda:0')
+Epoch 372, bias, value: tensor([-0.0175, -0.0366, -0.0010, -0.0136, -0.0324,  0.0032,  0.0235, -0.0155,
+         0.0528, -0.0084], device='cuda:0'), grad: tensor([-4.0978e-08,  9.3132e-10,  2.7940e-09, -2.7940e-08, -2.7940e-09,
+        -8.8476e-09,  2.7940e-09,  1.8161e-08,  8.8476e-09,  4.4703e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 371, time 250.45, cls_loss 0.0017 cls_loss_mapping 0.0016 cls_loss_causal 0.4816 re_mapping 0.0039 re_causal 0.0100 /// teacc 98.95 lr 0.00010000
+Epoch 373, weight, value: tensor([[-0.1317, -0.2862, -0.0887,  ..., -0.0780,  0.1865,  0.1949],
+        [-0.2575, -0.2241, -0.0804,  ..., -0.2034, -0.2556, -0.1617],
+        [-0.0637, -0.1993,  0.1608,  ..., -0.2493,  0.2856,  0.1321],
+        ...,
+        [-0.2004,  0.1196,  0.0259,  ...,  0.2323, -0.2507, -0.3193],
+        [-0.3284,  0.0744, -0.1629,  ...,  0.0729, -0.1239, -0.2398],
+        [-0.0509, -0.1713, -0.0882,  ..., -0.1544, -0.0632, -0.2452]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.1642e-08, -7.9162e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-09,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          4.6566e-10,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 2.3283e-09,  4.6566e-10,  0.0000e+00,  ...,  2.3283e-09,
+          4.6566e-09,  3.2596e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09,  1.8626e-09]], device='cuda:0')
+Epoch 373, bias, value: tensor([-0.0174, -0.0364, -0.0024, -0.0131, -0.0329,  0.0030,  0.0237, -0.0155,
+         0.0529, -0.0082], device='cuda:0'), grad: tensor([-2.0489e-08,  1.0245e-08,  1.8626e-09,  4.1910e-09, -6.6124e-08,
+         7.0315e-08, -6.6590e-08,  2.3283e-09,  1.1642e-08,  5.6345e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 372, time 250.31, cls_loss 0.0014 cls_loss_mapping 0.0017 cls_loss_causal 0.4776 re_mapping 0.0038 re_causal 0.0102 /// teacc 99.02 lr 0.00010000
+Epoch 374, weight, value: tensor([[-0.1322, -0.2844, -0.0887,  ..., -0.0782,  0.1866,  0.1953],
+        [-0.2580, -0.2242, -0.0804,  ..., -0.2036, -0.2557, -0.1623],
+        [-0.0634, -0.1994,  0.1608,  ..., -0.2495,  0.2857,  0.1321],
+        ...,
+        [-0.2006,  0.1197,  0.0259,  ...,  0.2326, -0.2516, -0.3195],
+        [-0.3292,  0.0739, -0.1629,  ...,  0.0728, -0.1235, -0.2397],
+        [-0.0489, -0.1713, -0.0882,  ..., -0.1545, -0.0633, -0.2454]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -3.6322e-08, -2.4214e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -4.6566e-10,
+         -1.3970e-09, -4.6566e-10],
+        ...,
+        [ 0.0000e+00, -1.8626e-09,  0.0000e+00,  ..., -1.3970e-09,
+          1.3970e-09,  4.6566e-10],
+        [ 6.9849e-09,  9.3132e-10,  0.0000e+00,  ..., -3.1665e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-09,  1.3970e-09]], device='cuda:0')
+Epoch 374, bias, value: tensor([-0.0174, -0.0365, -0.0022, -0.0134, -0.0324,  0.0030,  0.0238, -0.0156,
+         0.0533, -0.0084], device='cuda:0'), grad: tensor([-6.2399e-08,  5.8673e-08,  3.6322e-08,  1.3504e-08, -2.0070e-07,
+         4.6566e-08,  6.8918e-08,  9.3132e-09, -4.9826e-08,  9.3132e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 373, time 250.19, cls_loss 0.0018 cls_loss_mapping 0.0014 cls_loss_causal 0.4658 re_mapping 0.0036 re_causal 0.0095 /// teacc 99.09 lr 0.00010000
+Epoch 375, weight, value: tensor([[-0.1323, -0.2841, -0.0887,  ..., -0.0772,  0.1868,  0.1955],
+        [-0.2594, -0.2243, -0.0804,  ..., -0.2039, -0.2558, -0.1624],
+        [-0.0637, -0.2012,  0.1608,  ..., -0.2517,  0.2862,  0.1330],
+        ...,
+        [-0.2027,  0.1201,  0.0259,  ...,  0.2334, -0.2525, -0.3206],
+        [-0.3273,  0.0729, -0.1629,  ...,  0.0732, -0.1234, -0.2399],
+        [-0.0494, -0.1714, -0.0882,  ..., -0.1546, -0.0634, -0.2458]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.7940e-09,  0.0000e+00,  ...,  4.1910e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 4.6566e-10, -5.5879e-09,  0.0000e+00,  ..., -1.2107e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-09,  7.4506e-09,  0.0000e+00,  ...,  2.3283e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.3970e-09,  0.0000e+00,  ...,  3.7253e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 375, bias, value: tensor([-0.0173, -0.0363, -0.0029, -0.0124, -0.0325,  0.0022,  0.0237, -0.0158,
+         0.0554, -0.0085], device='cuda:0'), grad: tensor([ 1.3970e-09,  1.1176e-08,  1.8626e-09, -5.1223e-09,  4.1910e-09,
+         1.0710e-08,  4.6566e-10, -2.5611e-08, -1.2107e-08,  2.0023e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 374, time 250.26, cls_loss 0.0016 cls_loss_mapping 0.0013 cls_loss_causal 0.4651 re_mapping 0.0037 re_causal 0.0101 /// teacc 99.00 lr 0.00010000
+Epoch 376, weight, value: tensor([[-0.1326, -0.2842, -0.0887,  ..., -0.0770,  0.1895,  0.1983],
+        [-0.2595, -0.2246, -0.0784,  ..., -0.2041, -0.2560, -0.1625],
+        [-0.0638, -0.2017,  0.1609,  ..., -0.2525,  0.2864,  0.1330],
+        ...,
+        [-0.2033,  0.1204,  0.0252,  ...,  0.2338, -0.2531, -0.3209],
+        [-0.3280,  0.0723, -0.1630,  ...,  0.0729, -0.1236, -0.2401],
+        [-0.0513, -0.1714, -0.0882,  ..., -0.1547, -0.0666, -0.2506]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.3283e-09,  0.0000e+00,  ...,  7.4506e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  6.2399e-08,  0.0000e+00,  ...,  2.0862e-07,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  1.9912e-06,  0.0000e+00,  ...,  6.6012e-06,
+          9.7789e-09,  4.6566e-09],
+        ...,
+        [ 0.0000e+00, -2.0564e-06,  0.0000e+00,  ..., -6.8285e-06,
+         -1.0245e-08, -5.1223e-09],
+        [ 4.6566e-10,  3.7253e-09,  0.0000e+00,  ...,  6.5193e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09, -4.6566e-10,  ...,  6.0536e-09,
+          4.6566e-10,  4.6566e-10]], device='cuda:0')
+Epoch 376, bias, value: tensor([-0.0151, -0.0364, -0.0028, -0.0125, -0.0328,  0.0022,  0.0240, -0.0157,
+         0.0551, -0.0094], device='cuda:0'), grad: tensor([ 1.6298e-08,  4.2003e-07,  1.3255e-05, -4.6566e-09, -2.7940e-08,
+         1.3970e-09,  9.3132e-10, -1.3687e-05,  1.7229e-08,  2.7474e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 375, time 250.73, cls_loss 0.0015 cls_loss_mapping 0.0016 cls_loss_causal 0.4958 re_mapping 0.0038 re_causal 0.0104 /// teacc 98.99 lr 0.00010000
+Epoch 377, weight, value: tensor([[-0.1341, -0.2843, -0.0888,  ..., -0.0771,  0.1897,  0.1984],
+        [-0.2597, -0.2248, -0.0776,  ..., -0.2045, -0.2561, -0.1623],
+        [-0.0655, -0.2036,  0.1608,  ..., -0.2540,  0.2863,  0.1323],
+        ...,
+        [-0.2039,  0.1213,  0.0249,  ...,  0.2349, -0.2537, -0.3212],
+        [-0.3279,  0.0699, -0.1630,  ...,  0.0721, -0.1233, -0.2401],
+        [-0.0513, -0.1714, -0.0882,  ..., -0.1548, -0.0671, -0.2511]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  4.6566e-10,  0.0000e+00,  ...,  4.1910e-09,
+         -4.6566e-10, -1.8626e-09],
+        [ 5.3551e-09,  2.5844e-08,  0.0000e+00,  ...,  1.2107e-07,
+          2.8638e-08,  0.0000e+00],
+        [ 2.3283e-10,  1.0477e-08,  0.0000e+00,  ...,  1.6065e-08,
+         -7.9162e-09, -3.9581e-09],
+        ...,
+        [ 6.9849e-10, -4.4005e-08,  0.0000e+00,  ..., -9.1735e-08,
+          1.1642e-09,  2.3283e-10],
+        [ 6.2166e-08,  2.5611e-09,  0.0000e+00,  ..., -1.4016e-07,
+         -7.3342e-08,  4.1910e-09],
+        [ 2.0955e-09,  6.9849e-09,  0.0000e+00,  ...,  1.3271e-08,
+          4.8894e-09,  3.2596e-09]], device='cuda:0')
+Epoch 377, bias, value: tensor([-0.0151, -0.0364, -0.0034, -0.0127, -0.0349,  0.0020,  0.0244, -0.0154,
+         0.0546, -0.0086], device='cuda:0'), grad: tensor([ 2.1420e-08,  5.2061e-07,  2.9337e-08,  4.1281e-07, -3.7486e-08,
+         3.5856e-08,  7.6601e-08, -2.1257e-07, -9.3039e-07,  9.4064e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 376, time 250.65, cls_loss 0.0013 cls_loss_mapping 0.0013 cls_loss_causal 0.4490 re_mapping 0.0036 re_causal 0.0098 /// teacc 99.00 lr 0.00010000
+Epoch 378, weight, value: tensor([[-0.1341, -0.2845, -0.0888,  ..., -0.0775,  0.1897,  0.1985],
+        [-0.2601, -0.2262, -0.0774,  ..., -0.2057, -0.2566, -0.1625],
+        [-0.0656, -0.2045,  0.1608,  ..., -0.2570,  0.2866,  0.1322],
+        ...,
+        [-0.2041,  0.1221,  0.0249,  ...,  0.2357, -0.2521, -0.3210],
+        [-0.3299,  0.0698, -0.1630,  ...,  0.0721, -0.1237, -0.2406],
+        [-0.0513, -0.1715, -0.0882,  ..., -0.1549, -0.0670, -0.2511]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  3.2596e-09,
+          1.5600e-08,  5.1223e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -4.0745e-08,
+          1.0012e-08, -9.3132e-10],
+        [ 0.0000e+00,  3.2596e-09,  0.0000e+00,  ..., -8.6147e-09,
+         -1.8440e-07, -1.1292e-07],
+        ...,
+        [ 0.0000e+00, -4.1910e-09,  0.0000e+00,  ...,  1.6997e-08,
+          1.9092e-08,  1.5832e-08],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  6.0536e-09,
+          5.4948e-08,  3.3993e-08],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  1.7462e-08,
+          9.7789e-09,  9.7789e-09]], device='cuda:0')
+Epoch 378, bias, value: tensor([-0.0152, -0.0371, -0.0036, -0.0131, -0.0345,  0.0020,  0.0248, -0.0149,
+         0.0546, -0.0088], device='cuda:0'), grad: tensor([ 8.8708e-08, -3.3295e-07, -7.2457e-07,  6.5193e-09,  2.3446e-07,
+         3.1199e-08,  6.2631e-08,  2.8801e-07,  2.2841e-07,  1.2922e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 377, time 250.60, cls_loss 0.0014 cls_loss_mapping 0.0010 cls_loss_causal 0.4627 re_mapping 0.0036 re_causal 0.0099 /// teacc 99.03 lr 0.00010000
+Epoch 379, weight, value: tensor([[-0.1343, -0.2848, -0.0888,  ..., -0.0775,  0.1902,  0.1992],
+        [-0.2602, -0.2263, -0.0769,  ..., -0.2049, -0.2566, -0.1627],
+        [-0.0656, -0.2047,  0.1608,  ..., -0.2574,  0.2865,  0.1318],
+        ...,
+        [-0.2047,  0.1223,  0.0248,  ...,  0.2358, -0.2526, -0.3217],
+        [-0.3306,  0.0696, -0.1630,  ...,  0.0727, -0.1240, -0.2408],
+        [-0.0515, -0.1716, -0.0883,  ..., -0.1553, -0.0672, -0.2514]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-09,  6.9849e-10,  0.0000e+00,  ...,  6.9849e-10,
+         -9.0804e-09, -5.8208e-09],
+        [ 9.3132e-10,  2.6310e-08,  0.0000e+00,  ...,  7.3807e-08,
+          1.1642e-09,  4.6566e-09],
+        [-4.6566e-10,  5.3318e-08,  0.0000e+00,  ...,  1.5623e-07,
+         -3.4925e-09,  8.3819e-09],
+        ...,
+        [ 3.7253e-09, -7.6601e-08,  0.0000e+00,  ..., -2.3423e-07,
+          3.2596e-09, -1.2806e-08],
+        [ 6.9849e-10,  9.3132e-10,  0.0000e+00,  ..., -0.0000e+00,
+         -6.9849e-10,  2.3283e-10],
+        [ 2.0955e-09,  3.2596e-09,  0.0000e+00,  ...,  2.0955e-09,
+          5.3551e-09,  3.2596e-09]], device='cuda:0')
+Epoch 379, bias, value: tensor([-0.0149, -0.0362, -0.0037, -0.0132, -0.0344,  0.0017,  0.0249, -0.0154,
+         0.0549, -0.0090], device='cuda:0'), grad: tensor([ 1.1874e-08,  1.6205e-07,  3.2200e-07, -2.0955e-08,  1.0221e-07,
+         2.7940e-09,  6.2864e-09, -4.6892e-07,  2.5146e-08, -1.3434e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 378, time 250.53, cls_loss 0.0013 cls_loss_mapping 0.0019 cls_loss_causal 0.4871 re_mapping 0.0039 re_causal 0.0103 /// teacc 99.10 lr 0.00010000
+Epoch 380, weight, value: tensor([[-0.1354, -0.2849, -0.0888,  ..., -0.0777,  0.1903,  0.1992],
+        [-0.2604, -0.2267, -0.0767,  ..., -0.2065, -0.2567, -0.1627],
+        [-0.0657, -0.2049,  0.1608,  ..., -0.2577,  0.2868,  0.1324],
+        ...,
+        [-0.2053,  0.1226,  0.0247,  ...,  0.2368, -0.2535, -0.3239],
+        [-0.3342,  0.0694, -0.1630,  ...,  0.0710, -0.1255, -0.2413],
+        [-0.0515, -0.1716, -0.0883,  ..., -0.1554, -0.0676, -0.2517]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -3.8417e-08, -2.4913e-08],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  2.3283e-10,
+          6.9849e-10,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 4.1910e-09,  2.3283e-10,  0.0000e+00,  ...,  1.4901e-08,
+          2.3283e-10,  0.0000e+00],
+        [ 0.0000e+00,  2.3283e-10,  7.6834e-09,  ...,  8.6147e-09,
+          2.0955e-09,  1.3970e-09]], device='cuda:0')
+Epoch 380, bias, value: tensor([-0.0148, -0.0366, -0.0039, -0.0129, -0.0344,  0.0027,  0.0245, -0.0151,
+         0.0533, -0.0090], device='cuda:0'), grad: tensor([-5.5879e-08,  2.0955e-09,  4.6566e-10,  4.6566e-10, -5.6345e-08,
+        -6.9616e-08,  9.9884e-08,  3.0268e-09,  2.5844e-08,  5.7509e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 379, time 250.61, cls_loss 0.0014 cls_loss_mapping 0.0010 cls_loss_causal 0.4825 re_mapping 0.0038 re_causal 0.0102 /// teacc 99.04 lr 0.00010000
+Epoch 381, weight, value: tensor([[-0.1329, -0.2851, -0.0888,  ..., -0.0780,  0.1923,  0.2018],
+        [-0.2605, -0.2269, -0.0767,  ..., -0.2067, -0.2568, -0.1633],
+        [-0.0658, -0.2081,  0.1608,  ..., -0.2612,  0.2867,  0.1314],
+        ...,
+        [-0.2060,  0.1233,  0.0247,  ...,  0.2382, -0.2528, -0.3219],
+        [-0.3351,  0.0682, -0.1630,  ...,  0.0700, -0.1259, -0.2416],
+        [-0.0514, -0.1716, -0.0883,  ..., -0.1556, -0.0672, -0.2518]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-10,  0.0000e+00],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          6.9849e-10,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -3.7253e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 381, bias, value: tensor([-0.0133, -0.0368, -0.0049, -0.0129, -0.0346,  0.0031,  0.0229, -0.0145,
+         0.0524, -0.0087], device='cuda:0'), grad: tensor([ 4.6566e-10,  1.8626e-09,  4.6566e-10,  2.5611e-09,  4.4238e-09,
+         4.6566e-09,  6.9849e-10,  1.2573e-08, -6.2864e-09, -1.3737e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 380, time 250.41, cls_loss 0.0014 cls_loss_mapping 0.0013 cls_loss_causal 0.4781 re_mapping 0.0039 re_causal 0.0104 /// teacc 99.00 lr 0.00010000
+Epoch 382, weight, value: tensor([[-0.1331, -0.2857, -0.0888,  ..., -0.0785,  0.1928,  0.2026],
+        [-0.2605, -0.2270, -0.0767,  ..., -0.2068, -0.2569, -0.1640],
+        [-0.0659, -0.2082,  0.1608,  ..., -0.2617,  0.2868,  0.1311],
+        ...,
+        [-0.2063,  0.1233,  0.0247,  ...,  0.2386, -0.2537, -0.3227],
+        [-0.3356,  0.0680, -0.1630,  ...,  0.0699, -0.1263, -0.2422],
+        [-0.0523, -0.1718, -0.0883,  ..., -0.1559, -0.0674, -0.2522]],
+       device='cuda:0'), grad: tensor([[-9.0804e-09,  6.9849e-10,  0.0000e+00,  ...,  5.1223e-09,
+         -1.3085e-07, -8.6613e-08],
+        [ 2.3283e-10,  1.6065e-08,  0.0000e+00,  ...,  1.1735e-07,
+          4.6566e-10,  4.6566e-10],
+        [ 0.0000e+00,  4.6333e-08,  0.0000e+00,  ...,  3.4133e-07,
+          2.3283e-10,  2.3283e-10],
+        ...,
+        [ 2.3283e-10, -1.8021e-07,  0.0000e+00,  ..., -1.3141e-06,
+          0.0000e+00,  0.0000e+00],
+        [ 1.6298e-09,  6.0536e-09,  0.0000e+00,  ...,  2.8405e-08,
+          4.6566e-10,  6.9849e-10],
+        [ 2.3283e-10,  1.1479e-07,  0.0000e+00,  ...,  8.2050e-07,
+          9.3132e-10,  6.9849e-10]], device='cuda:0')
+Epoch 382, bias, value: tensor([-0.0128, -0.0368, -0.0050, -0.0135, -0.0343,  0.0034,  0.0227, -0.0145,
+         0.0522, -0.0090], device='cuda:0'), grad: tensor([-1.6345e-07,  2.8289e-07,  8.1584e-07, -1.4203e-08,  8.3819e-09,
+         4.8894e-08,  1.1595e-07, -3.1237e-06,  7.7765e-08,  1.9558e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 381, time 250.39, cls_loss 0.0014 cls_loss_mapping 0.0017 cls_loss_causal 0.4738 re_mapping 0.0038 re_causal 0.0102 /// teacc 98.96 lr 0.00010000
+Epoch 383, weight, value: tensor([[-0.1332, -0.2858, -0.0888,  ..., -0.0786,  0.1928,  0.2026],
+        [-0.2606, -0.2270, -0.0767,  ..., -0.2070, -0.2569, -0.1641],
+        [-0.0662, -0.2090,  0.1608,  ..., -0.2622,  0.2869,  0.1312],
+        ...,
+        [-0.2044,  0.1235,  0.0247,  ...,  0.2394, -0.2538, -0.3228],
+        [-0.3364,  0.0680, -0.1631,  ...,  0.0697, -0.1264, -0.2423],
+        [-0.0517, -0.1720, -0.0883,  ..., -0.1564, -0.0674, -0.2523]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+         -1.6764e-08, -1.0245e-08],
+        [ 0.0000e+00,  1.3970e-09,  0.0000e+00,  ...,  2.5611e-09,
+          2.3283e-10,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  1.3970e-09,
+          1.1642e-09,  6.9849e-10],
+        ...,
+        [ 0.0000e+00,  1.6103e-06,  0.0000e+00,  ...,  3.6806e-06,
+          2.3283e-10,  2.3283e-10],
+        [ 2.3283e-10, -1.6727e-06,  0.0000e+00,  ..., -3.8296e-06,
+          2.3283e-10,  2.3283e-10],
+        [ 0.0000e+00,  6.9849e-10,  0.0000e+00,  ...,  1.8626e-09,
+          1.1176e-08,  6.7521e-09]], device='cuda:0')
+Epoch 383, bias, value: tensor([-0.0129, -0.0369, -0.0051, -0.0134, -0.0349,  0.0009,  0.0252, -0.0143,
+         0.0521, -0.0089], device='cuda:0'), grad: tensor([-2.9104e-08,  6.0536e-09,  4.8894e-09,  1.9628e-07, -1.0384e-07,
+         1.7928e-08, -2.0955e-09,  5.9642e-06, -6.1654e-06,  9.5693e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 382, time 250.37, cls_loss 0.0022 cls_loss_mapping 0.0018 cls_loss_causal 0.4499 re_mapping 0.0039 re_causal 0.0096 /// teacc 98.97 lr 0.00010000
+Epoch 384, weight, value: tensor([[-0.1334, -0.2866, -0.0888,  ..., -0.0799,  0.1929,  0.2027],
+        [-0.2609, -0.2283, -0.0757,  ..., -0.2074, -0.2573, -0.1645],
+        [-0.0663, -0.2091,  0.1610,  ..., -0.2622,  0.2875,  0.1316],
+        ...,
+        [-0.2050,  0.1242,  0.0247,  ...,  0.2402, -0.2548, -0.3232],
+        [-0.3370,  0.0696, -0.1631,  ...,  0.0701, -0.1266, -0.2405],
+        [-0.0522, -0.1728, -0.0887,  ..., -0.1571, -0.0677, -0.2535]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+         -1.1409e-08, -6.7521e-09],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  4.6566e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  3.9581e-09,
+          2.3283e-10,  0.0000e+00],
+        ...,
+        [ 2.3283e-10,  1.6298e-09,  0.0000e+00,  ...,  2.3283e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  2.3283e-10,  0.0000e+00,  ..., -5.4017e-07,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.0804e-07,
+          9.7789e-09,  5.8208e-09]], device='cuda:0')
+Epoch 384, bias, value: tensor([-0.0131, -0.0377, -0.0048, -0.0128, -0.0346,  0.0006,  0.0254, -0.0136,
+         0.0552, -0.0112], device='cuda:0'), grad: tensor([-1.3737e-08,  3.0501e-08,  2.1420e-08,  6.5193e-09,  1.0245e-08,
+         5.7509e-08,  2.1886e-08,  1.7695e-08, -3.7737e-06,  3.6303e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 383, time 250.59, cls_loss 0.0017 cls_loss_mapping 0.0018 cls_loss_causal 0.4628 re_mapping 0.0038 re_causal 0.0099 /// teacc 98.99 lr 0.00010000
+Epoch 385, weight, value: tensor([[-0.1336, -0.2868, -0.0888,  ..., -0.0831,  0.1935,  0.2034],
+        [-0.2610, -0.2284, -0.0725,  ..., -0.2047, -0.2574, -0.1647],
+        [-0.0663, -0.2092,  0.1617,  ..., -0.2624,  0.2884,  0.1324],
+        ...,
+        [-0.2057,  0.1243,  0.0215,  ...,  0.2376, -0.2551, -0.3237],
+        [-0.3412,  0.0695, -0.1632,  ...,  0.0715, -0.1248, -0.2425],
+        [-0.0531, -0.1728, -0.0887,  ..., -0.1574, -0.0687, -0.2548]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -7.4971e-08, -4.9593e-08],
+        [ 6.9849e-10,  1.5832e-08,  0.0000e+00,  ...,  1.5064e-07,
+          4.4238e-09,  2.7940e-09],
+        [ 0.0000e+00, -2.3283e-10,  0.0000e+00,  ..., -5.1223e-09,
+         -5.3551e-09, -2.3283e-09],
+        ...,
+        [ 6.9849e-10, -1.7695e-08,  0.0000e+00,  ..., -1.7346e-07,
+          1.6298e-09,  9.3132e-10],
+        [ 3.5623e-08,  2.3283e-10,  0.0000e+00,  ...,  4.1677e-08,
+          9.3132e-09,  5.3551e-09],
+        [-9.1270e-08,  1.6298e-09, -2.3283e-10,  ...,  1.6531e-08,
+          4.7497e-08,  3.1665e-08]], device='cuda:0')
+Epoch 385, bias, value: tensor([-0.0127, -0.0353, -0.0044, -0.0131, -0.0339,  0.0007,  0.0250, -0.0158,
+         0.0556, -0.0118], device='cuda:0'), grad: tensor([-2.2235e-07,  1.1805e-07, -1.6997e-08,  4.0443e-07,  7.4506e-09,
+         1.2573e-08,  4.6333e-08, -2.8359e-07,  3.0361e-07, -3.6648e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 384, time 251.15, cls_loss 0.0017 cls_loss_mapping 0.0014 cls_loss_causal 0.4993 re_mapping 0.0037 re_causal 0.0100 /// teacc 99.00 lr 0.00010000
+Epoch 386, weight, value: tensor([[-0.1364, -0.2870, -0.0889,  ..., -0.0861,  0.1908,  0.2009],
+        [-0.2620, -0.2286, -0.0724,  ..., -0.2048, -0.2583, -0.1655],
+        [-0.0658, -0.2089,  0.1618,  ..., -0.2622,  0.2894,  0.1333],
+        ...,
+        [-0.2059,  0.1245,  0.0213,  ...,  0.2376, -0.2552, -0.3239],
+        [-0.3429,  0.0693, -0.1634,  ...,  0.0704, -0.1251, -0.2438],
+        [-0.0533, -0.1729, -0.0878,  ..., -0.1573, -0.0687, -0.2549]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.8394e-08,
+         -6.7288e-08, -3.1665e-08],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  3.0268e-09,
+          6.9849e-09,  3.0268e-09],
+        [ 0.0000e+00, -1.6298e-09,  0.0000e+00,  ..., -1.0245e-08,
+         -2.3516e-08, -1.0943e-08],
+        ...,
+        [ 2.3283e-10,  1.6298e-09,  0.0000e+00,  ...,  1.3737e-08,
+          3.3062e-08,  1.3737e-08],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ..., -1.0943e-08,
+          1.3970e-09,  4.6566e-10],
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  6.9849e-09,
+          2.0256e-08,  8.1491e-09]], device='cuda:0')
+Epoch 386, bias, value: tensor([-0.0154, -0.0355, -0.0034, -0.0134, -0.0345, -0.0029,  0.0307, -0.0159,
+         0.0548, -0.0114], device='cuda:0'), grad: tensor([-1.4808e-07,  3.4226e-08, -8.5915e-08,  1.8510e-07, -3.0734e-08,
+        -1.2177e-07,  5.8440e-08,  1.0966e-07, -3.6089e-08,  4.4238e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 385, time 250.69, cls_loss 0.0011 cls_loss_mapping 0.0011 cls_loss_causal 0.4491 re_mapping 0.0038 re_causal 0.0102 /// teacc 99.02 lr 0.00010000
+Epoch 387, weight, value: tensor([[-0.1367, -0.2872, -0.0890,  ..., -0.0863,  0.1906,  0.2007],
+        [-0.2629, -0.2292, -0.0725,  ..., -0.2050, -0.2583, -0.1662],
+        [-0.0655, -0.2114,  0.1618,  ..., -0.2639,  0.2895,  0.1322],
+        ...,
+        [-0.2061,  0.1254,  0.0213,  ...,  0.2382, -0.2551, -0.3218],
+        [-0.3431,  0.0691, -0.1634,  ...,  0.0703, -0.1252, -0.2438],
+        [-0.0541, -0.1731, -0.0878,  ..., -0.1577, -0.0688, -0.2549]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.2573e-08,  9.3132e-10],
+        [ 2.3283e-10,  9.3132e-09,  0.0000e+00,  ...,  9.3132e-10,
+          8.6147e-09,  6.9849e-10],
+        [ 0.0000e+00, -8.7963e-07,  0.0000e+00,  ...,  0.0000e+00,
+         -1.0971e-06, -1.0873e-07],
+        ...,
+        [ 0.0000e+00,  7.1572e-07,  0.0000e+00,  ...,  4.6566e-10,
+          6.3749e-07,  5.9605e-08],
+        [ 4.6566e-10,  8.6846e-08,  0.0000e+00,  ..., -6.9849e-10,
+          8.2189e-08,  8.1491e-09],
+        [ 0.0000e+00,  6.9849e-10,  0.0000e+00,  ...,  4.6566e-10,
+          1.1642e-09,  4.6566e-10]], device='cuda:0')
+Epoch 387, bias, value: tensor([-0.0156, -0.0356, -0.0037, -0.0137, -0.0343, -0.0028,  0.0308, -0.0155,
+         0.0546, -0.0116], device='cuda:0'), grad: tensor([ 3.1665e-08,  3.4692e-08, -4.8093e-06,  2.9197e-07, -1.7020e-07,
+         1.1642e-09,  5.1223e-07,  3.4999e-06,  4.2818e-07,  1.8440e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 386, time 250.30, cls_loss 0.0014 cls_loss_mapping 0.0012 cls_loss_causal 0.4691 re_mapping 0.0036 re_causal 0.0101 /// teacc 99.08 lr 0.00010000
+Epoch 388, weight, value: tensor([[-0.1367, -0.2874, -0.0890,  ..., -0.0865,  0.1907,  0.2008],
+        [-0.2635, -0.2319, -0.0724,  ..., -0.2053, -0.2597, -0.1679],
+        [-0.0655, -0.2118,  0.1628,  ..., -0.2644,  0.2916,  0.1337],
+        ...,
+        [-0.2066,  0.1271,  0.0213,  ...,  0.2385, -0.2566, -0.3236],
+        [-0.3438,  0.0689, -0.1634,  ...,  0.0698, -0.1256, -0.2440],
+        [-0.0544, -0.1731, -0.0879,  ..., -0.1577, -0.0689, -0.2550]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  9.7789e-09,
+          6.9849e-10,  1.6298e-09],
+        [ 4.6566e-10,  2.0955e-09,  0.0000e+00,  ...,  1.5600e-08,
+          2.7940e-09, -5.3551e-08],
+        [ 6.9849e-10,  4.6566e-10,  0.0000e+00,  ...,  3.3993e-08,
+          7.4506e-09,  2.7008e-08],
+        ...,
+        [ 4.6566e-10, -5.5879e-09,  0.0000e+00,  ..., -8.6147e-09,
+          6.9849e-10,  4.0280e-08],
+        [ 4.6566e-10,  9.3132e-10,  0.0000e+00,  ..., -7.2829e-06,
+         -1.5404e-06, -2.0787e-06],
+        [ 9.3132e-09,  1.9791e-08,  0.0000e+00,  ...,  1.0477e-08,
+          3.0268e-09,  2.7940e-09]], device='cuda:0')
+Epoch 388, bias, value: tensor([-0.0156, -0.0362, -0.0027, -0.0163, -0.0339, -0.0012,  0.0302, -0.0149,
+         0.0541, -0.0117], device='cuda:0'), grad: tensor([ 4.3306e-08, -2.2892e-06,  8.2515e-07, -2.6543e-08,  1.3039e-08,
+         2.7213e-06,  2.6658e-05,  1.5935e-06, -2.9609e-05,  9.9884e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 387, time 250.48, cls_loss 0.0018 cls_loss_mapping 0.0017 cls_loss_causal 0.4650 re_mapping 0.0038 re_causal 0.0097 /// teacc 99.04 lr 0.00010000
+Epoch 389, weight, value: tensor([[-0.1377, -0.2871, -0.0890,  ..., -0.0892,  0.1888,  0.1991],
+        [-0.2644, -0.2325, -0.0724,  ..., -0.2059, -0.2599, -0.1677],
+        [-0.0656, -0.2116,  0.1628,  ..., -0.2652,  0.2922,  0.1344],
+        ...,
+        [-0.2071,  0.1285,  0.0213,  ...,  0.2401, -0.2583, -0.3248],
+        [-0.3440,  0.0685, -0.1634,  ...,  0.0696, -0.1256, -0.2441],
+        [-0.0548, -0.1748, -0.0879,  ..., -0.1604, -0.0690, -0.2551]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  2.7940e-09],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -1.5832e-08,  0.0000e+00,  ..., -6.0536e-09,
+         -8.3819e-09, -4.6566e-10],
+        ...,
+        [ 0.0000e+00,  5.1223e-09,  0.0000e+00,  ...,  3.2596e-09,
+          3.7253e-09,  4.6566e-10],
+        [ 4.6566e-10,  2.7940e-09,  0.0000e+00,  ...,  2.3283e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  9.3132e-10]], device='cuda:0')
+Epoch 389, bias, value: tensor([-0.0175, -0.0363, -0.0024, -0.0159, -0.0334, -0.0013,  0.0316, -0.0141,
+         0.0538, -0.0128], device='cuda:0'), grad: tensor([ 1.1176e-08,  6.9849e-09, -9.8255e-08,  6.2399e-08, -1.0431e-07,
+         9.3132e-09,  1.1176e-08,  2.9337e-08, -2.1886e-08,  1.0431e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 388, time 250.34, cls_loss 0.0013 cls_loss_mapping 0.0011 cls_loss_causal 0.4639 re_mapping 0.0037 re_causal 0.0101 /// teacc 99.11 lr 0.00010000
+Epoch 390, weight, value: tensor([[-0.1377, -0.2872, -0.0892,  ..., -0.0891,  0.1890,  0.1993],
+        [-0.2647, -0.2339, -0.0724,  ..., -0.2060, -0.2614, -0.1701],
+        [-0.0658, -0.2119,  0.1643,  ..., -0.2653,  0.2929,  0.1349],
+        ...,
+        [-0.2072,  0.1295,  0.0213,  ...,  0.2404, -0.2587, -0.3250],
+        [-0.3443,  0.0684, -0.1639,  ...,  0.0696, -0.1257, -0.2441],
+        [-0.0549, -0.1750, -0.0879,  ..., -0.1606, -0.0690, -0.2551]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.3283e-09,  0.0000e+00,  ...,  1.3970e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.3283e-09,  0.0000e+00,  ...,  2.3283e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -1.3504e-08,  0.0000e+00,  ..., -1.8626e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-09,  2.7940e-09,  0.0000e+00,  ...,  8.3819e-09,
+          9.3132e-10,  4.6566e-10],
+        [ 0.0000e+00,  7.9162e-09,  0.0000e+00,  ...,  1.3039e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 390, bias, value: tensor([-0.0172, -0.0370, -0.0020, -0.0162, -0.0333, -0.0013,  0.0316, -0.0137,
+         0.0537, -0.0129], device='cuda:0'), grad: tensor([ 4.1910e-09,  5.1223e-09,  1.8626e-09, -6.5193e-09, -1.3039e-08,
+        -7.4506e-09, -6.9849e-09, -2.7940e-08,  2.7474e-08,  3.2596e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 389, time 250.07, cls_loss 0.0012 cls_loss_mapping 0.0012 cls_loss_causal 0.4674 re_mapping 0.0038 re_causal 0.0101 /// teacc 99.08 lr 0.00010000
+Epoch 391, weight, value: tensor([[-0.1377, -0.2883, -0.0892,  ..., -0.0891,  0.1890,  0.1994],
+        [-0.2648, -0.2338, -0.0724,  ..., -0.2060, -0.2615, -0.1703],
+        [-0.0659, -0.2119,  0.1644,  ..., -0.2654,  0.2929,  0.1349],
+        ...,
+        [-0.2073,  0.1297,  0.0213,  ...,  0.2406, -0.2592, -0.3254],
+        [-0.3444,  0.0684, -0.1639,  ...,  0.0696, -0.1259, -0.2441],
+        [-0.0550, -0.1752, -0.0879,  ..., -0.1609, -0.0691, -0.2553]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -3.5390e-08, -2.0955e-08],
+        [ 9.3132e-10,  4.6566e-09,  0.0000e+00,  ...,  3.7253e-09,
+          4.6566e-10,  0.0000e+00],
+        [ 6.9849e-09,  1.6298e-08,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  4.6566e-10],
+        ...,
+        [ 4.6566e-10, -1.8626e-09, -0.0000e+00,  ..., -3.7253e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          9.3132e-10,  4.6566e-10],
+        [ 4.6566e-10,  9.3132e-10,  0.0000e+00,  ...,  4.6566e-10,
+          9.7789e-09,  6.5193e-09]], device='cuda:0')
+Epoch 391, bias, value: tensor([-0.0172, -0.0344, -0.0023, -0.0169, -0.0335, -0.0012,  0.0316, -0.0157,
+         0.0537, -0.0132], device='cuda:0'), grad: tensor([-6.5193e-08,  4.6566e-09,  3.6322e-08, -3.6787e-08, -2.3283e-09,
+         1.3970e-09,  3.9116e-08, -3.2596e-09,  5.1223e-09,  2.7474e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 390, time 250.44, cls_loss 0.0012 cls_loss_mapping 0.0012 cls_loss_causal 0.4607 re_mapping 0.0037 re_causal 0.0102 /// teacc 99.07 lr 0.00010000
+Epoch 392, weight, value: tensor([[-0.1379, -0.2883, -0.0892,  ..., -0.0887,  0.1893,  0.1998],
+        [-0.2649, -0.2370, -0.0724,  ..., -0.2067, -0.2616, -0.1704],
+        [-0.0659, -0.2132,  0.1644,  ..., -0.2665,  0.2930,  0.1349],
+        ...,
+        [-0.2083,  0.1329,  0.0213,  ...,  0.2414, -0.2595, -0.3254],
+        [-0.3447,  0.0681, -0.1639,  ...,  0.0696, -0.1255, -0.2440],
+        [-0.0549, -0.1753, -0.0879,  ..., -0.1610, -0.0692, -0.2554]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -6.4727e-08, -4.4238e-08],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.6345e-07,  1.3970e-09],
+        [ 6.0536e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.4808e-07,  9.3132e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          6.0536e-09,  3.2596e-09],
+        [ 8.3819e-09,  1.2107e-08,  0.0000e+00,  ...,  0.0000e+00,
+          3.3528e-08,  2.2817e-08],
+        [ 4.6566e-10,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          1.3039e-08,  8.8476e-09]], device='cuda:0')
+Epoch 392, bias, value: tensor([-0.0170, -0.0367, -0.0028, -0.0168, -0.0336, -0.0012,  0.0314, -0.0133,
+         0.0537, -0.0132], device='cuda:0'), grad: tensor([-1.3737e-07,  4.6566e-07, -4.2515e-07, -2.8871e-08,  1.0710e-07,
+         5.1223e-09, -1.2806e-07,  1.5367e-08,  1.0151e-07,  3.2131e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 391, time 250.09, cls_loss 0.0014 cls_loss_mapping 0.0012 cls_loss_causal 0.4496 re_mapping 0.0038 re_causal 0.0098 /// teacc 99.06 lr 0.00010000
+Epoch 393, weight, value: tensor([[-0.1380, -0.2884, -0.0892,  ..., -0.0887,  0.1894,  0.1998],
+        [-0.2651, -0.2371, -0.0724,  ..., -0.2068, -0.2617, -0.1704],
+        [-0.0658, -0.2150,  0.1644,  ..., -0.2678,  0.2933,  0.1355],
+        ...,
+        [-0.2085,  0.1331,  0.0212,  ...,  0.2417, -0.2605, -0.3260],
+        [-0.3468,  0.0677, -0.1640,  ...,  0.0683, -0.1264, -0.2466],
+        [-0.0550, -0.1754, -0.0879,  ..., -0.1615, -0.0693, -0.2555]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.7695e-08, -1.3504e-08],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -9.3132e-10,  0.0000e+00,  ...,  6.5193e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 9.7789e-09,  0.0000e+00, -4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 393, bias, value: tensor([-0.0170, -0.0368, -0.0036, -0.0168, -0.0336, -0.0011,  0.0321, -0.0132,
+         0.0521, -0.0132], device='cuda:0'), grad: tensor([-3.2131e-08,  4.1910e-09,  4.6566e-10,  5.5879e-09,  1.1642e-08,
+        -4.0047e-08,  3.2131e-08,  1.4901e-07,  1.8626e-09, -1.2852e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 392, time 250.17, cls_loss 0.0012 cls_loss_mapping 0.0020 cls_loss_causal 0.4686 re_mapping 0.0037 re_causal 0.0099 /// teacc 99.05 lr 0.00010000
+Epoch 394, weight, value: tensor([[-0.1380, -0.2888, -0.0899,  ..., -0.0887,  0.1893,  0.1999],
+        [-0.2651, -0.2371, -0.0724,  ..., -0.2069, -0.2617, -0.1705],
+        [-0.0658, -0.2150,  0.1653,  ..., -0.2678,  0.2936,  0.1364],
+        ...,
+        [-0.2090,  0.1314,  0.0188,  ...,  0.2393, -0.2611, -0.3262],
+        [-0.3470,  0.0676, -0.1661,  ...,  0.0682, -0.1266, -0.2467],
+        [-0.0556, -0.1724, -0.0848,  ..., -0.1585, -0.0691, -0.2555]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-09,  9.3132e-10,  0.0000e+00,  ...,  4.6566e-10,
+          4.6566e-09,  6.9849e-09],
+        [ 0.0000e+00,  1.3690e-07,  0.0000e+00,  ...,  7.5437e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  6.1002e-08,  0.0000e+00,  ...,  3.3993e-08,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -4.5355e-07,  0.0000e+00,  ..., -2.5146e-07,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  4.1910e-09,  0.0000e+00,  ...,  5.1223e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.4156e-07, -4.6566e-10,  ...,  7.5437e-08,
+          9.3132e-10,  4.6566e-10]], device='cuda:0')
+Epoch 394, bias, value: tensor([-0.0171, -0.0368, -0.0033, -0.0162, -0.0364, -0.0012,  0.0321, -0.0150,
+         0.0520, -0.0096], device='cuda:0'), grad: tensor([ 3.3062e-08,  9.0804e-07,  4.0000e-07,  6.1654e-07,  8.2888e-08,
+         4.6566e-10, -3.2131e-08, -2.9616e-06,  3.7719e-08,  9.1316e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 393, time 250.55, cls_loss 0.0016 cls_loss_mapping 0.0014 cls_loss_causal 0.4581 re_mapping 0.0037 re_causal 0.0096 /// teacc 99.01 lr 0.00010000
+Epoch 395, weight, value: tensor([[-0.1380, -0.2894, -0.0901,  ..., -0.0888,  0.1893,  0.1999],
+        [-0.2683, -0.2372, -0.0724,  ..., -0.2070, -0.2618, -0.1707],
+        [-0.0660, -0.2150,  0.1655,  ..., -0.2680,  0.2939,  0.1369],
+        ...,
+        [-0.2094,  0.1314,  0.0188,  ...,  0.2394, -0.2615, -0.3266],
+        [-0.3469,  0.0686, -0.1664,  ...,  0.0687, -0.1267, -0.2468],
+        [-0.0585, -0.1726, -0.0848,  ..., -0.1588, -0.0690, -0.2556]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10, -1.4016e-07,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  6.0536e-09,  4.6566e-10,  ...,  9.3132e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -6.9849e-09,  1.1921e-07,  ..., -1.1176e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  9.3132e-10,  5.5879e-09,  ...,  1.8626e-09,
+          4.6566e-10,  4.6566e-10]], device='cuda:0')
+Epoch 395, bias, value: tensor([-0.0172, -0.0366, -0.0070, -0.0164, -0.0372, -0.0006,  0.0321, -0.0150,
+         0.0525, -0.0094], device='cuda:0'), grad: tensor([ 6.9849e-09, -1.5497e-06,  2.9802e-08,  2.3749e-08,  1.5330e-06,
+        -1.6764e-08,  2.7940e-09,  1.3169e-06,  3.2596e-09, -1.3560e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 394, time 250.92, cls_loss 0.0010 cls_loss_mapping 0.0012 cls_loss_causal 0.4421 re_mapping 0.0038 re_causal 0.0101 /// teacc 99.07 lr 0.00010000
+Epoch 396, weight, value: tensor([[-0.1380, -0.2897, -0.0901,  ..., -0.0888,  0.1893,  0.1999],
+        [-0.2682, -0.2372, -0.0724,  ..., -0.2070, -0.2618, -0.1707],
+        [-0.0664, -0.2177,  0.1655,  ..., -0.2683,  0.2946,  0.1379],
+        ...,
+        [-0.2097,  0.1317,  0.0188,  ...,  0.2395, -0.2631, -0.3271],
+        [-0.3470,  0.0684, -0.1665,  ...,  0.0687, -0.1268, -0.2468],
+        [-0.0588, -0.1726, -0.0848,  ..., -0.1588, -0.0689, -0.2556]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -3.7253e-09, -1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          1.3970e-09,  9.3132e-10]], device='cuda:0')
+Epoch 396, bias, value: tensor([-0.0172, -0.0364, -0.0089, -0.0166, -0.0375, -0.0005,  0.0320, -0.0148,
+         0.0524, -0.0092], device='cuda:0'), grad: tensor([-7.4506e-09,  0.0000e+00,  0.0000e+00,  0.0000e+00, -3.7253e-09,
+         1.3970e-09,  2.3283e-09,  1.8626e-09,  1.3970e-09,  4.6566e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 395, time 250.94, cls_loss 0.0011 cls_loss_mapping 0.0014 cls_loss_causal 0.4844 re_mapping 0.0039 re_causal 0.0103 /// teacc 99.08 lr 0.00010000
+Epoch 397, weight, value: tensor([[-0.1380, -0.2898, -0.0901,  ..., -0.0888,  0.1893,  0.2000],
+        [-0.2683, -0.2372, -0.0724,  ..., -0.2071, -0.2618, -0.1707],
+        [-0.0664, -0.2179,  0.1655,  ..., -0.2686,  0.2947,  0.1380],
+        ...,
+        [-0.2094,  0.1318,  0.0188,  ...,  0.2396, -0.2632, -0.3271],
+        [-0.3470,  0.0682, -0.1665,  ...,  0.0687, -0.1269, -0.2469],
+        [-0.0596, -0.1727, -0.0848,  ..., -0.1589, -0.0689, -0.2556]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ..., -4.6566e-10,
+         -1.3970e-09, -1.8626e-09],
+        [ 1.3970e-09,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  2.7940e-09,  0.0000e+00,  ...,  2.7940e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 4.6566e-10, -5.5879e-09,  0.0000e+00,  ..., -8.3819e-09,
+          0.0000e+00, -0.0000e+00],
+        [ 4.6566e-09,  5.1223e-09,  0.0000e+00,  ...,  1.3970e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.3283e-09,  0.0000e+00,  ...,  3.7253e-09,
+          9.3132e-10,  1.3970e-09]], device='cuda:0')
+Epoch 397, bias, value: tensor([-0.0172, -0.0363, -0.0090, -0.0166, -0.0373, -0.0006,  0.0321, -0.0148,
+         0.0526, -0.0093], device='cuda:0'), grad: tensor([-2.3283e-09,  4.1910e-09,  8.8476e-09,  2.3749e-08,  0.0000e+00,
+        -3.9116e-08,  6.0536e-09, -1.6298e-08,  1.0710e-08,  8.8476e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 396, time 250.64, cls_loss 0.0014 cls_loss_mapping 0.0016 cls_loss_causal 0.4638 re_mapping 0.0035 re_causal 0.0095 /// teacc 99.07 lr 0.00010000
+Epoch 398, weight, value: tensor([[-0.1382, -0.2898, -0.0899,  ..., -0.0889,  0.1893,  0.2000],
+        [-0.2683, -0.2373, -0.0724,  ..., -0.2082, -0.2619, -0.1708],
+        [-0.0665, -0.2179,  0.1655,  ..., -0.2686,  0.2951,  0.1387],
+        ...,
+        [-0.2098,  0.1314,  0.0188,  ...,  0.2403, -0.2640, -0.3277],
+        [-0.3471,  0.0679, -0.1671,  ...,  0.0687, -0.1270, -0.2470],
+        [-0.0597, -0.1728, -0.0848,  ..., -0.1590, -0.0690, -0.2557]],
+       device='cuda:0'), grad: tensor([[ 1.2573e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.3504e-08,  1.3039e-08],
+        [ 0.0000e+00,  7.9162e-09,  0.0000e+00,  ...,  6.0536e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+         -8.3819e-09,  4.6566e-10],
+        ...,
+        [ 0.0000e+00, -3.7253e-08,  0.0000e+00,  ..., -2.9337e-08,
+          1.3970e-09,  0.0000e+00],
+        [ 3.2596e-09,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          6.5193e-09,  2.3283e-09],
+        [ 0.0000e+00,  2.8871e-08,  0.0000e+00,  ...,  2.2817e-08,
+          1.3970e-09,  9.3132e-10]], device='cuda:0')
+Epoch 398, bias, value: tensor([-0.0173, -0.0368, -0.0090, -0.0151, -0.0375, -0.0005,  0.0321, -0.0146,
+         0.0525, -0.0094], device='cuda:0'), grad: tensor([ 4.9826e-08,  1.3132e-07, -2.4214e-08,  5.1223e-09,  1.8161e-08,
+         3.7486e-07, -4.3819e-07,  3.4459e-08,  2.5146e-08, -1.7462e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 397, time 250.74, cls_loss 0.0016 cls_loss_mapping 0.0010 cls_loss_causal 0.4310 re_mapping 0.0036 re_causal 0.0096 /// teacc 99.03 lr 0.00010000
+Epoch 399, weight, value: tensor([[-0.1385, -0.2898, -0.0899,  ..., -0.0889,  0.1896,  0.2004],
+        [-0.2684, -0.2374, -0.0708,  ..., -0.2072, -0.2620, -0.1709],
+        [-0.0665, -0.2181,  0.1656,  ..., -0.2694,  0.2954,  0.1393],
+        ...,
+        [-0.2102,  0.1315,  0.0177,  ...,  0.2400, -0.2645, -0.3280],
+        [-0.3472,  0.0678, -0.1672,  ...,  0.0685, -0.1270, -0.2470],
+        [-0.0601, -0.1729, -0.0848,  ..., -0.1593, -0.0691, -0.2559]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  5.6811e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -9.3132e-10,  2.4214e-08],
+        [ 0.0000e+00,  4.6566e-09,  0.0000e+00,  ...,  9.3132e-10,
+          4.6566e-10,  2.3283e-09],
+        [ 0.0000e+00,  5.5879e-09, -4.6566e-10,  ...,  0.0000e+00,
+         -1.8626e-09,  2.3283e-09],
+        ...,
+        [ 0.0000e+00,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.3970e-09],
+        [ 4.6566e-10, -9.9186e-07,  0.0000e+00,  ..., -5.1223e-09,
+          0.0000e+00, -4.4517e-07],
+        [ 0.0000e+00,  8.6660e-07,  0.0000e+00,  ...,  9.3132e-10,
+          4.6566e-10,  3.8929e-07]], device='cuda:0')
+Epoch 399, bias, value: tensor([-0.0171, -0.0358, -0.0102, -0.0153, -0.0364, -0.0003,  0.0319, -0.0151,
+         0.0523, -0.0098], device='cuda:0'), grad: tensor([ 6.8219e-07,  4.0513e-08,  6.3330e-08,  2.5006e-07,  3.0734e-08,
+         3.4133e-07,  1.0105e-07,  3.4925e-08, -1.2033e-05,  1.0513e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 398, time 250.70, cls_loss 0.0015 cls_loss_mapping 0.0011 cls_loss_causal 0.4728 re_mapping 0.0036 re_causal 0.0096 /// teacc 99.09 lr 0.00010000
+Epoch 400, weight, value: tensor([[-0.1386, -0.2893, -0.0899,  ..., -0.0888,  0.1901,  0.2008],
+        [-0.2684, -0.2375, -0.0708,  ..., -0.2074, -0.2620, -0.1710],
+        [-0.0667, -0.2184,  0.1657,  ..., -0.2695,  0.2969,  0.1395],
+        ...,
+        [-0.2104,  0.1320,  0.0177,  ...,  0.2407, -0.2667, -0.3291],
+        [-0.3472,  0.0678, -0.1672,  ...,  0.0681, -0.1278, -0.2470],
+        [-0.0608, -0.1736, -0.0848,  ..., -0.1598, -0.0708, -0.2570]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  3.5390e-08,  0.0000e+00,  ...,  1.3039e-08,
+          1.8626e-08,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  1.8626e-09,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  1.5367e-08,  0.0000e+00,  ...,  9.7789e-09,
+          9.3132e-09,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          4.6566e-10,  0.0000e+00],
+        [ 4.6566e-10, -1.6112e-07,  0.0000e+00,  ..., -3.5297e-07,
+         -1.7602e-07, -7.1712e-08],
+        [ 0.0000e+00,  1.1642e-08,  0.0000e+00,  ...,  4.1910e-09,
+          6.0536e-09,  0.0000e+00]], device='cuda:0')
+Epoch 400, bias, value: tensor([-0.0165, -0.0358, -0.0097, -0.0152, -0.0367, -0.0001,  0.0319, -0.0147,
+         0.0518, -0.0106], device='cuda:0'), grad: tensor([ 2.6403e-07,  1.5832e-08,  1.0803e-07,  3.0594e-07,  4.6566e-10,
+         1.0664e-07,  1.6401e-06,  5.1223e-09, -2.5239e-06,  6.3330e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 399, time 250.24, cls_loss 0.0013 cls_loss_mapping 0.0017 cls_loss_causal 0.4713 re_mapping 0.0037 re_causal 0.0103 /// teacc 98.98 lr 0.00001000
+Epoch 401, weight, value: tensor([[-0.1386, -0.2896, -0.0899,  ..., -0.0887,  0.1903,  0.2011],
+        [-0.2687, -0.2375, -0.0708,  ..., -0.2075, -0.2627, -0.1726],
+        [-0.0672, -0.2186,  0.1657,  ..., -0.2700,  0.2969,  0.1392],
+        ...,
+        [-0.2108,  0.1315,  0.0177,  ...,  0.2400, -0.2668, -0.3279],
+        [-0.3473,  0.0707, -0.1672,  ...,  0.0701, -0.1278, -0.2470],
+        [-0.0612, -0.1736, -0.0848,  ..., -0.1600, -0.0713, -0.2575]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -4.6566e-10,
+         -9.3132e-09, -1.0245e-08],
+        [ 0.0000e+00,  1.3504e-08,  0.0000e+00,  ...,  1.3504e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          4.6566e-10,  4.6566e-10],
+        ...,
+        [ 0.0000e+00, -2.0023e-08,  0.0000e+00,  ..., -2.0023e-08,
+          4.6566e-10,  4.6566e-10],
+        [ 0.0000e+00,  2.7940e-09,  0.0000e+00,  ...,  3.2596e-09,
+          9.3132e-10,  9.3132e-10],
+        [ 0.0000e+00,  2.3283e-09,  0.0000e+00,  ...,  2.3283e-09,
+          8.3819e-09,  7.9162e-09]], device='cuda:0')
+Epoch 401, bias, value: tensor([-0.0161, -0.0358, -0.0099, -0.0135, -0.0369, -0.0008,  0.0318, -0.0150,
+         0.0531, -0.0110], device='cuda:0'), grad: tensor([-3.3062e-08,  4.4238e-08,  3.2596e-09,  1.3970e-09,  9.0897e-07,
+         1.3970e-09,  5.5879e-09, -1.4901e-08,  1.2107e-08, -9.2341e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 400, time 250.40, cls_loss 0.0013 cls_loss_mapping 0.0013 cls_loss_causal 0.4725 re_mapping 0.0035 re_causal 0.0103 /// teacc 99.06 lr 0.00001000
+Epoch 402, weight, value: tensor([[-0.1386, -0.2896, -0.0899,  ..., -0.0887,  0.1904,  0.2011],
+        [-0.2687, -0.2376, -0.0705,  ..., -0.2073, -0.2627, -0.1726],
+        [-0.0672, -0.2186,  0.1657,  ..., -0.2700,  0.2969,  0.1392],
+        ...,
+        [-0.2108,  0.1315,  0.0175,  ...,  0.2399, -0.2668, -0.3280],
+        [-0.3474,  0.0707, -0.1673,  ...,  0.0701, -0.1278, -0.2470],
+        [-0.0614, -0.1736, -0.0848,  ..., -0.1600, -0.0714, -0.2576]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+         -6.5193e-08, -4.2375e-08],
+        [ 4.6566e-10,  8.8476e-09,  0.0000e+00,  ...,  1.3225e-06,
+          4.6566e-10,  4.6566e-10],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  1.1642e-08,
+          1.8626e-09,  4.6566e-10],
+        ...,
+        [ 9.3132e-10, -2.0955e-08,  0.0000e+00,  ..., -1.4743e-06,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  3.7253e-09,  0.0000e+00,  ...,  4.6566e-09,
+          0.0000e+00,  0.0000e+00],
+        [-1.8626e-09,  7.9162e-09,  0.0000e+00,  ...,  9.8255e-08,
+          7.4506e-09,  5.1223e-09]], device='cuda:0')
+Epoch 402, bias, value: tensor([-0.0161, -0.0357, -0.0099, -0.0135, -0.0367, -0.0008,  0.0318, -0.0151,
+         0.0531, -0.0110], device='cuda:0'), grad: tensor([-8.2888e-08,  9.9689e-06,  1.1548e-07,  2.9337e-07,  1.0710e-08,
+         8.8476e-09,  8.2888e-08, -1.2241e-05,  9.4110e-07,  9.0059e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 401, time 250.64, cls_loss 0.0013 cls_loss_mapping 0.0009 cls_loss_causal 0.4504 re_mapping 0.0035 re_causal 0.0098 /// teacc 99.07 lr 0.00001000
+Epoch 403, weight, value: tensor([[-0.1386, -0.2896, -0.0899,  ..., -0.0887,  0.1904,  0.2011],
+        [-0.2687, -0.2376, -0.0703,  ..., -0.2071, -0.2628, -0.1726],
+        [-0.0672, -0.2186,  0.1657,  ..., -0.2700,  0.2970,  0.1393],
+        ...,
+        [-0.2108,  0.1314,  0.0173,  ...,  0.2397, -0.2670, -0.3280],
+        [-0.3474,  0.0707, -0.1673,  ...,  0.0701, -0.1278, -0.2470],
+        [-0.0615, -0.1736, -0.0848,  ..., -0.1600, -0.0714, -0.2576]],
+       device='cuda:0'), grad: tensor([[ 1.1688e-07,  5.9605e-08,  0.0000e+00,  ...,  1.3271e-07,
+          4.6566e-10,  4.6566e-10],
+        [ 2.3283e-09,  2.3283e-09,  0.0000e+00,  ...,  1.8626e-09,
+         -2.7940e-09,  0.0000e+00],
+        [ 3.2596e-09,  3.7253e-09,  0.0000e+00,  ...,  2.3283e-08,
+          4.6566e-10,  4.6566e-10],
+        ...,
+        [ 3.1199e-08,  1.3970e-08,  0.0000e+00,  ...,  3.1665e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 5.7742e-08,  4.0047e-08,  0.0000e+00,  ...,  1.4761e-07,
+          0.0000e+00,  0.0000e+00],
+        [ 1.2107e-07,  6.6124e-08,  0.0000e+00,  ...,  1.2992e-07,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 403, bias, value: tensor([-0.0161, -0.0355, -0.0099, -0.0135, -0.0366, -0.0008,  0.0318, -0.0153,
+         0.0531, -0.0110], device='cuda:0'), grad: tensor([ 3.8324e-07, -3.0641e-07,  5.9605e-08,  2.5742e-06,  1.5367e-08,
+        -3.8520e-06,  2.6496e-07,  9.6858e-08,  3.4738e-07,  4.0093e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 402, time 250.50, cls_loss 0.0011 cls_loss_mapping 0.0007 cls_loss_causal 0.4296 re_mapping 0.0033 re_causal 0.0093 /// teacc 99.08 lr 0.00001000
+Epoch 404, weight, value: tensor([[-0.1386, -0.2896, -0.0899,  ..., -0.0887,  0.1904,  0.2011],
+        [-0.2687, -0.2376, -0.0703,  ..., -0.2071, -0.2628, -0.1726],
+        [-0.0672, -0.2185,  0.1659,  ..., -0.2700,  0.2973,  0.1393],
+        ...,
+        [-0.2109,  0.1315,  0.0173,  ...,  0.2397, -0.2672, -0.3280],
+        [-0.3474,  0.0707, -0.1673,  ...,  0.0701, -0.1278, -0.2470],
+        [-0.0615, -0.1737, -0.0848,  ..., -0.1601, -0.0714, -0.2576]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  4.6566e-10,  0.0000e+00,  ...,  3.2596e-09,
+         -2.3283e-09, -2.3283e-09],
+        [ 9.3132e-10,  1.8626e-09,  0.0000e+00,  ...,  2.3283e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 2.7474e-08,  1.2107e-08,  0.0000e+00,  ...,  6.5193e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 1.0245e-08,  5.1223e-09,  0.0000e+00,  ...,  2.3749e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 1.0245e-08,  4.1910e-09,  0.0000e+00,  ...,  2.4214e-08,
+          9.3132e-10,  9.3132e-10]], device='cuda:0')
+Epoch 404, bias, value: tensor([-0.0161, -0.0355, -0.0098, -0.0135, -0.0366, -0.0007,  0.0317, -0.0152,
+         0.0531, -0.0111], device='cuda:0'), grad: tensor([-9.3132e-10,  5.5879e-09,  3.2596e-09,  1.0990e-07,  1.8626e-09,
+        -3.8184e-07,  3.0734e-08,  1.3318e-07,  4.7032e-08,  5.3551e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 403, time 250.80, cls_loss 0.0012 cls_loss_mapping 0.0007 cls_loss_causal 0.4800 re_mapping 0.0033 re_causal 0.0098 /// teacc 99.09 lr 0.00001000
+Epoch 405, weight, value: tensor([[-0.1386, -0.2897, -0.0899,  ..., -0.0887,  0.1904,  0.2012],
+        [-0.2687, -0.2376, -0.0703,  ..., -0.2071, -0.2628, -0.1726],
+        [-0.0672, -0.2184,  0.1659,  ..., -0.2701,  0.2973,  0.1392],
+        ...,
+        [-0.2109,  0.1315,  0.0173,  ...,  0.2397, -0.2673, -0.3280],
+        [-0.3474,  0.0707, -0.1673,  ...,  0.0701, -0.1279, -0.2470],
+        [-0.0615, -0.1737, -0.0848,  ..., -0.1601, -0.0714, -0.2577]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  1.3970e-09,  0.0000e+00,  ...,  2.7940e-09,
+          5.5879e-09,  0.0000e+00],
+        [ 1.0710e-08,  3.7253e-09,  0.0000e+00,  ...,  6.9849e-09,
+          2.6077e-08,  9.3132e-10],
+        [ 2.6543e-08, -9.3132e-10,  0.0000e+00,  ...,  6.9849e-09,
+         -4.5635e-08, -3.1199e-08],
+        ...,
+        [ 0.0000e+00, -1.3039e-08,  0.0000e+00,  ..., -3.4459e-08,
+          5.8208e-08,  3.0268e-08],
+        [ 2.3283e-09,  1.3970e-09,  0.0000e+00,  ...,  1.3970e-09,
+          6.0536e-09,  0.0000e+00],
+        [ 4.6566e-10,  7.4506e-09,  0.0000e+00,  ...,  1.5367e-08,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 405, bias, value: tensor([-0.0161, -0.0355, -0.0097, -0.0135, -0.0366, -0.0006,  0.0316, -0.0152,
+         0.0531, -0.0111], device='cuda:0'), grad: tensor([ 2.5146e-08,  1.4249e-07, -1.3132e-07,  4.1910e-09,  2.1886e-08,
+         2.3283e-09, -2.0256e-07,  8.2422e-08,  1.7695e-08,  4.5169e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 404, time 250.41, cls_loss 0.0010 cls_loss_mapping 0.0006 cls_loss_causal 0.4403 re_mapping 0.0032 re_causal 0.0093 /// teacc 99.10 lr 0.00001000
+Epoch 406, weight, value: tensor([[-0.1386, -0.2897, -0.0899,  ..., -0.0887,  0.1904,  0.2012],
+        [-0.2687, -0.2376, -0.0703,  ..., -0.2071, -0.2628, -0.1726],
+        [-0.0672, -0.2185,  0.1659,  ..., -0.2701,  0.2974,  0.1392],
+        ...,
+        [-0.2109,  0.1315,  0.0173,  ...,  0.2397, -0.2673, -0.3281],
+        [-0.3474,  0.0707, -0.1673,  ...,  0.0701, -0.1279, -0.2471],
+        [-0.0616, -0.1737, -0.0848,  ..., -0.1601, -0.0714, -0.2577]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.8626e-09,
+         -6.5193e-09, -2.3283e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -6.5193e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.3970e-09, -9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.5193e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 1.5367e-08,  0.0000e+00,  0.0000e+00,  ...,  2.6077e-08,
+          4.6566e-10,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          9.3132e-10,  9.3132e-10]], device='cuda:0')
+Epoch 406, bias, value: tensor([-0.0161, -0.0355, -0.0097, -0.0135, -0.0365, -0.0006,  0.0316, -0.0152,
+         0.0531, -0.0111], device='cuda:0'), grad: tensor([-1.8626e-09, -1.4668e-07, -2.7940e-09,  3.7253e-09,  1.9418e-07,
+        -4.5635e-08, -1.8952e-07,  1.1828e-07,  4.5635e-08,  2.1886e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 405, time 250.44, cls_loss 0.0009 cls_loss_mapping 0.0005 cls_loss_causal 0.4012 re_mapping 0.0032 re_causal 0.0091 /// teacc 99.12 lr 0.00001000
+Epoch 407, weight, value: tensor([[-0.1386, -0.2897, -0.0899,  ..., -0.0887,  0.1904,  0.2012],
+        [-0.2687, -0.2376, -0.0703,  ..., -0.2071, -0.2628, -0.1726],
+        [-0.0672, -0.2185,  0.1659,  ..., -0.2701,  0.2974,  0.1392],
+        ...,
+        [-0.2110,  0.1315,  0.0173,  ...,  0.2397, -0.2673, -0.3281],
+        [-0.3474,  0.0707, -0.1673,  ...,  0.0701, -0.1279, -0.2471],
+        [-0.0616, -0.1737, -0.0848,  ..., -0.1601, -0.0714, -0.2577]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -2.7940e-09,  0.0000e+00,  ..., -3.2596e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  2.3283e-09,
+          4.6566e-10,  4.6566e-10]], device='cuda:0')
+Epoch 407, bias, value: tensor([-0.0161, -0.0355, -0.0097, -0.0135, -0.0365, -0.0006,  0.0316, -0.0152,
+         0.0531, -0.0111], device='cuda:0'), grad: tensor([ 9.3132e-10, -2.7940e-09,  1.0245e-08,  9.3132e-10,  2.7157e-06,
+         9.3132e-10,  1.3970e-09,  1.2154e-07,  4.6566e-10, -2.8424e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 406, time 250.35, cls_loss 0.0013 cls_loss_mapping 0.0005 cls_loss_causal 0.4361 re_mapping 0.0032 re_causal 0.0092 /// teacc 99.09 lr 0.00001000
+Epoch 408, weight, value: tensor([[-0.1386, -0.2897, -0.0899,  ..., -0.0886,  0.1904,  0.2012],
+        [-0.2687, -0.2376, -0.0701,  ..., -0.2069, -0.2628, -0.1726],
+        [-0.0672, -0.2185,  0.1660,  ..., -0.2701,  0.2974,  0.1392],
+        ...,
+        [-0.2110,  0.1315,  0.0171,  ...,  0.2396, -0.2674, -0.3281],
+        [-0.3474,  0.0707, -0.1673,  ...,  0.0701, -0.1279, -0.2471],
+        [-0.0617, -0.1737, -0.0848,  ..., -0.1602, -0.0714, -0.2577]],
+       device='cuda:0'), grad: tensor([[0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        ...,
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [9.3132e-10, 0.0000e+00, 0.0000e+00,  ..., 4.6566e-10, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 4.6566e-10,
+         4.6566e-10]], device='cuda:0')
+Epoch 408, bias, value: tensor([-0.0160, -0.0355, -0.0097, -0.0134, -0.0365, -0.0006,  0.0316, -0.0153,
+         0.0531, -0.0111], device='cuda:0'), grad: tensor([ 4.6566e-10,  4.6566e-10,  0.0000e+00,  1.3504e-08,  9.3132e-10,
+        -2.2352e-08,  4.6566e-09,  2.3283e-09,  2.3283e-09,  9.3132e-10],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 407, time 250.25, cls_loss 0.0012 cls_loss_mapping 0.0006 cls_loss_causal 0.4462 re_mapping 0.0032 re_causal 0.0093 /// teacc 99.10 lr 0.00001000
+Epoch 409, weight, value: tensor([[-0.1386, -0.2897, -0.0899,  ..., -0.0886,  0.1905,  0.2012],
+        [-0.2687, -0.2378, -0.0701,  ..., -0.2070, -0.2628, -0.1727],
+        [-0.0672, -0.2185,  0.1660,  ..., -0.2701,  0.2974,  0.1393],
+        ...,
+        [-0.2111,  0.1315,  0.0171,  ...,  0.2397, -0.2674, -0.3281],
+        [-0.3474,  0.0706, -0.1673,  ...,  0.0701, -0.1279, -0.2471],
+        [-0.0618, -0.1737, -0.0848,  ..., -0.1602, -0.0714, -0.2577]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+         -2.3283e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          0.0000e+00,  0.0000e+00],
+        [-4.6566e-10, -0.0000e+00,  0.0000e+00,  ..., -2.3283e-10,
+          2.3283e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.9791e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 409, bias, value: tensor([-0.0160, -0.0355, -0.0097, -0.0132, -0.0364, -0.0007,  0.0316, -0.0153,
+         0.0531, -0.0111], device='cuda:0'), grad: tensor([ 5.1223e-09, -6.9849e-09,  1.1642e-08,  4.4238e-09, -6.5938e-07,
+         1.8626e-09,  7.6834e-09,  8.3819e-08,  4.6566e-10,  5.5879e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 408, time 250.37, cls_loss 0.0010 cls_loss_mapping 0.0005 cls_loss_causal 0.4277 re_mapping 0.0031 re_causal 0.0091 /// teacc 99.11 lr 0.00001000
+Epoch 410, weight, value: tensor([[-0.1386, -0.2898, -0.0899,  ..., -0.0886,  0.1905,  0.2012],
+        [-0.2687, -0.2380, -0.0701,  ..., -0.2071, -0.2628, -0.1726],
+        [-0.0672, -0.2185,  0.1660,  ..., -0.2701,  0.2975,  0.1392],
+        ...,
+        [-0.2111,  0.1317,  0.0171,  ...,  0.2397, -0.2674, -0.3281],
+        [-0.3474,  0.0706, -0.1673,  ...,  0.0701, -0.1279, -0.2471],
+        [-0.0618, -0.1737, -0.0848,  ..., -0.1602, -0.0714, -0.2577]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  4.6566e-10,  0.0000e+00,  ...,  6.9849e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 6.9849e-10,  4.1910e-09,  0.0000e+00,  ...,  5.3551e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  7.4506e-09,  0.0000e+00,  ...,  1.4203e-08,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 4.6566e-10, -2.6077e-08,  0.0000e+00,  ..., -4.4471e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 1.2340e-08,  1.4435e-08,  0.0000e+00,  ...,  3.3528e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 4.1910e-09,  4.6566e-09,  0.0000e+00,  ...,  6.0536e-09,
+          2.3283e-10,  0.0000e+00]], device='cuda:0')
+Epoch 410, bias, value: tensor([-0.0160, -0.0357, -0.0098, -0.0131, -0.0364, -0.0007,  0.0316, -0.0151,
+         0.0531, -0.0111], device='cuda:0'), grad: tensor([ 1.8626e-09,  1.6531e-08,  3.3295e-08, -1.1176e-08,  8.3819e-09,
+        -6.8918e-08,  2.4214e-08, -9.9884e-08,  8.1724e-08,  1.6298e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 409, time 250.48, cls_loss 0.0011 cls_loss_mapping 0.0005 cls_loss_causal 0.4435 re_mapping 0.0031 re_causal 0.0092 /// teacc 99.09 lr 0.00001000
+Epoch 411, weight, value: tensor([[-0.1386, -0.2898, -0.0899,  ..., -0.0886,  0.1905,  0.2012],
+        [-0.2687, -0.2380, -0.0701,  ..., -0.2071, -0.2629, -0.1726],
+        [-0.0672, -0.2186,  0.1660,  ..., -0.2702,  0.2975,  0.1393],
+        ...,
+        [-0.2112,  0.1317,  0.0171,  ...,  0.2398, -0.2674, -0.3282],
+        [-0.3475,  0.0706, -0.1673,  ...,  0.0701, -0.1279, -0.2471],
+        [-0.0619, -0.1737, -0.0848,  ..., -0.1602, -0.0714, -0.2577]],
+       device='cuda:0'), grad: tensor([[ 3.9581e-09,  1.3970e-09,  0.0000e+00,  ..., -5.8347e-07,
+         -4.2059e-06, -3.0324e-06],
+        [ 0.0000e+00,  1.6298e-09,  0.0000e+00,  ...,  1.8626e-09,
+          2.3283e-10,  2.3283e-10],
+        [ 0.0000e+00,  2.3283e-09,  0.0000e+00,  ...,  4.1910e-09,
+          7.6834e-09,  5.5879e-09],
+        ...,
+        [ 0.0000e+00, -8.8476e-09,  0.0000e+00,  ..., -1.0710e-08,
+          4.6566e-10,  2.3283e-10],
+        [ 5.1223e-09,  9.3132e-10,  0.0000e+00,  ...,  2.3283e-09,
+          1.1642e-09,  1.8626e-09],
+        [ 0.0000e+00,  3.4925e-09,  0.0000e+00,  ...,  5.5879e-09,
+          1.0710e-08,  7.6834e-09]], device='cuda:0')
+Epoch 411, bias, value: tensor([-0.0160, -0.0357, -0.0098, -0.0131, -0.0364, -0.0006,  0.0316, -0.0151,
+         0.0531, -0.0111], device='cuda:0'), grad: tensor([-7.2643e-06, -1.6820e-06,  1.2945e-06,  2.1188e-08,  3.2596e-08,
+        -1.5367e-08,  7.2382e-06,  3.7905e-07,  2.4680e-08, -2.6310e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 410, time 250.19, cls_loss 0.0010 cls_loss_mapping 0.0005 cls_loss_causal 0.4328 re_mapping 0.0030 re_causal 0.0092 /// teacc 99.11 lr 0.00001000
+Epoch 412, weight, value: tensor([[-0.1386, -0.2899, -0.0899,  ..., -0.0886,  0.1905,  0.2013],
+        [-0.2688, -0.2381, -0.0701,  ..., -0.2072, -0.2629, -0.1726],
+        [-0.0672, -0.2186,  0.1660,  ..., -0.2702,  0.2975,  0.1393],
+        ...,
+        [-0.2112,  0.1317,  0.0171,  ...,  0.2398, -0.2675, -0.3282],
+        [-0.3475,  0.0706, -0.1673,  ...,  0.0701, -0.1279, -0.2471],
+        [-0.0619, -0.1737, -0.0848,  ..., -0.1602, -0.0715, -0.2578]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.8894e-09,  0.0000e+00,  ...,  2.3283e-09,
+         -2.9569e-08, -2.3516e-08],
+        [ 0.0000e+00,  6.2166e-08,  0.0000e+00,  ...,  3.0966e-08,
+         -0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.0571e-07,  0.0000e+00,  ...,  5.2620e-08,
+         -1.0012e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -1.8999e-07,  0.0000e+00,  ..., -9.4762e-08,
+          2.3283e-10,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10,  1.5600e-08,  0.0000e+00,  ...,  7.9162e-09,
+          2.3516e-08,  1.8626e-08]], device='cuda:0')
+Epoch 412, bias, value: tensor([-0.0160, -0.0357, -0.0099, -0.0131, -0.0364, -0.0006,  0.0316, -0.0151,
+         0.0531, -0.0111], device='cuda:0'), grad: tensor([-6.5425e-08,  2.9244e-07,  4.8988e-07,  1.1874e-08,  3.7253e-09,
+         5.5879e-09,  2.1188e-08, -9.0059e-07,  2.5611e-09,  1.4203e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 411, time 250.40, cls_loss 0.0009 cls_loss_mapping 0.0005 cls_loss_causal 0.4309 re_mapping 0.0030 re_causal 0.0091 /// teacc 99.13 lr 0.00001000
+Epoch 413, weight, value: tensor([[-0.1386, -0.2899, -0.0899,  ..., -0.0886,  0.1905,  0.2013],
+        [-0.2688, -0.2381, -0.0701,  ..., -0.2072, -0.2629, -0.1726],
+        [-0.0672, -0.2187,  0.1660,  ..., -0.2702,  0.2975,  0.1393],
+        ...,
+        [-0.2112,  0.1318,  0.0171,  ...,  0.2398, -0.2675, -0.3282],
+        [-0.3475,  0.0706, -0.1673,  ...,  0.0701, -0.1280, -0.2471],
+        [-0.0619, -0.1738, -0.0848,  ..., -0.1602, -0.0715, -0.2578]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  2.3283e-10,
+         -1.0608e-06, -5.8580e-07],
+        [ 0.0000e+00,  5.3551e-09,  0.0000e+00,  ...,  6.2864e-09,
+          6.7521e-09,  3.7253e-09],
+        [ 0.0000e+00,  1.3970e-09,  0.0000e+00,  ...,  1.1642e-09,
+          2.5425e-07,  1.4319e-07],
+        ...,
+        [ 0.0000e+00, -2.8871e-08,  0.0000e+00,  ..., -3.1665e-08,
+          4.8894e-09,  2.5611e-09],
+        [ 2.3283e-10,  3.9581e-09,  0.0000e+00,  ...,  4.1910e-09,
+          2.8405e-08,  1.8394e-08],
+        [ 0.0000e+00,  1.3271e-08,  0.0000e+00,  ...,  1.5832e-08,
+          1.0361e-07,  6.3097e-08]], device='cuda:0')
+Epoch 413, bias, value: tensor([-0.0160, -0.0358, -0.0099, -0.0129, -0.0364, -0.0007,  0.0316, -0.0150,
+         0.0531, -0.0111], device='cuda:0'), grad: tensor([-1.9632e-06,  2.9802e-08,  4.7870e-07,  2.3749e-08,  8.1491e-09,
+         5.1223e-09,  1.1846e-06, -7.6601e-08,  6.6357e-08,  2.4354e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 412, time 249.93, cls_loss 0.0010 cls_loss_mapping 0.0005 cls_loss_causal 0.4508 re_mapping 0.0029 re_causal 0.0090 /// teacc 99.10 lr 0.00001000
+Epoch 414, weight, value: tensor([[-0.1386, -0.2899, -0.0899,  ..., -0.0886,  0.1905,  0.2013],
+        [-0.2688, -0.2381, -0.0701,  ..., -0.2072, -0.2629, -0.1727],
+        [-0.0672, -0.2187,  0.1661,  ..., -0.2702,  0.2975,  0.1393],
+        ...,
+        [-0.2113,  0.1318,  0.0171,  ...,  0.2399, -0.2675, -0.3282],
+        [-0.3475,  0.0706, -0.1673,  ...,  0.0700, -0.1280, -0.2471],
+        [-0.0620, -0.1738, -0.0848,  ..., -0.1602, -0.0715, -0.2578]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          2.3283e-10,  2.3283e-10],
+        [ 3.2596e-09,  4.6566e-10,  0.0000e+00,  ...,  2.7940e-09,
+          2.3283e-10,  0.0000e+00],
+        [ 0.0000e+00, -2.3283e-10,  0.0000e+00,  ..., -1.1642e-09,
+         -1.8626e-09, -1.3970e-09],
+        ...,
+        [ 2.0955e-09,  1.1642e-09,  0.0000e+00,  ...,  2.5611e-09,
+          1.3970e-09,  1.1642e-09],
+        [ 5.7044e-08,  3.2596e-09,  0.0000e+00,  ...,  4.5868e-08,
+          1.3970e-09,  1.3970e-09],
+        [ 3.1898e-08,  3.7253e-08,  0.0000e+00,  ...,  2.0256e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 414, bias, value: tensor([-0.0160, -0.0358, -0.0099, -0.0129, -0.0364, -0.0006,  0.0315, -0.0150,
+         0.0531, -0.0111], device='cuda:0'), grad: tensor([ 1.3970e-09,  1.4435e-08, -3.4925e-09,  3.4552e-07, -7.2177e-09,
+        -6.7893e-07, -4.6566e-10,  1.3504e-08,  1.4110e-07,  1.8254e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 413, time 250.24, cls_loss 0.0010 cls_loss_mapping 0.0004 cls_loss_causal 0.4607 re_mapping 0.0029 re_causal 0.0093 /// teacc 99.10 lr 0.00001000
+Epoch 415, weight, value: tensor([[-0.1386, -0.2900, -0.0899,  ..., -0.0886,  0.1905,  0.2013],
+        [-0.2688, -0.2381, -0.0701,  ..., -0.2072, -0.2629, -0.1727],
+        [-0.0672, -0.2188,  0.1661,  ..., -0.2702,  0.2976,  0.1393],
+        ...,
+        [-0.2113,  0.1318,  0.0171,  ...,  0.2399, -0.2676, -0.3282],
+        [-0.3475,  0.0706, -0.1673,  ...,  0.0700, -0.1280, -0.2471],
+        [-0.0620, -0.1738, -0.0848,  ..., -0.1603, -0.0715, -0.2578]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+         -3.2596e-09, -3.4925e-09],
+        [ 2.3283e-10,  4.1910e-09,  0.0000e+00,  ...,  4.6566e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.1642e-09, -5.1223e-09,  0.0000e+00,  ..., -6.2864e-09,
+          0.0000e+00,  2.3283e-10],
+        [ 2.0955e-09,  8.8476e-09,  0.0000e+00,  ..., -2.3283e-10,
+          0.0000e+00,  9.3132e-10],
+        [ 2.3283e-10,  1.3970e-09,  0.0000e+00,  ...,  1.3970e-09,
+          2.0955e-09,  2.3283e-09]], device='cuda:0')
+Epoch 415, bias, value: tensor([-0.0160, -0.0358, -0.0099, -0.0129, -0.0363, -0.0006,  0.0315, -0.0150,
+         0.0531, -0.0112], device='cuda:0'), grad: tensor([-1.0477e-08,  1.2107e-08,  2.5611e-09, -2.6077e-08,  0.0000e+00,
+        -1.3970e-09,  3.4925e-09, -1.2806e-08,  1.7229e-08,  1.2107e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 414, time 250.17, cls_loss 0.0009 cls_loss_mapping 0.0005 cls_loss_causal 0.4290 re_mapping 0.0029 re_causal 0.0091 /// teacc 99.11 lr 0.00001000
+Epoch 416, weight, value: tensor([[-0.1386, -0.2900, -0.0899,  ..., -0.0886,  0.1905,  0.2013],
+        [-0.2688, -0.2381, -0.0701,  ..., -0.2072, -0.2629, -0.1727],
+        [-0.0672, -0.2188,  0.1661,  ..., -0.2702,  0.2976,  0.1393],
+        ...,
+        [-0.2113,  0.1318,  0.0171,  ...,  0.2399, -0.2676, -0.3283],
+        [-0.3475,  0.0706, -0.1673,  ...,  0.0700, -0.1280, -0.2471],
+        [-0.0621, -0.1738, -0.0848,  ..., -0.1603, -0.0715, -0.2578]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -1.3970e-09,  0.0000e+00,  ..., -4.4238e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -9.3132e-10,
+          2.3283e-10,  2.3283e-10],
+        [ 0.0000e+00,  1.1642e-09,  0.0000e+00,  ...,  3.9581e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 416, bias, value: tensor([-0.0160, -0.0358, -0.0099, -0.0129, -0.0363, -0.0006,  0.0315, -0.0150,
+         0.0530, -0.0112], device='cuda:0'), grad: tensor([ 9.3132e-10,  9.3132e-10,  2.3283e-10,  1.3970e-09,  5.8208e-09,
+         1.8626e-09,  2.3283e-10, -6.0536e-09,  3.8883e-08, -4.4936e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 415, time 250.23, cls_loss 0.0009 cls_loss_mapping 0.0005 cls_loss_causal 0.4450 re_mapping 0.0029 re_causal 0.0093 /// teacc 99.12 lr 0.00001000
+Epoch 417, weight, value: tensor([[-0.1386, -0.2901, -0.0899,  ..., -0.0886,  0.1905,  0.2013],
+        [-0.2688, -0.2381, -0.0701,  ..., -0.2072, -0.2629, -0.1727],
+        [-0.0672, -0.2188,  0.1661,  ..., -0.2702,  0.2977,  0.1394],
+        ...,
+        [-0.2114,  0.1318,  0.0171,  ...,  0.2399, -0.2676, -0.3283],
+        [-0.3476,  0.0706, -0.1673,  ...,  0.0700, -0.1280, -0.2471],
+        [-0.0621, -0.1738, -0.0848,  ..., -0.1603, -0.0715, -0.2578]],
+       device='cuda:0'), grad: tensor([[ 6.9849e-10,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          6.9849e-10,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -6.8825e-07,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10,  2.3283e-10,  0.0000e+00,  ...,  9.3132e-10,
+          4.6566e-10,  2.3283e-10]], device='cuda:0')
+Epoch 417, bias, value: tensor([-0.0160, -0.0358, -0.0099, -0.0129, -0.0363, -0.0005,  0.0314, -0.0150,
+         0.0530, -0.0112], device='cuda:0'), grad: tensor([ 3.9581e-09,  3.9581e-09,  0.0000e+00,  3.7253e-09,  8.0978e-07,
+         2.7311e-07, -1.0710e-08, -9.9279e-07,  5.1223e-09, -9.2201e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 416, time 250.38, cls_loss 0.0010 cls_loss_mapping 0.0005 cls_loss_causal 0.4438 re_mapping 0.0030 re_causal 0.0091 /// teacc 99.15 lr 0.00001000
+Epoch 418, weight, value: tensor([[-0.1386, -0.2901, -0.0899,  ..., -0.0886,  0.1905,  0.2013],
+        [-0.2688, -0.2382, -0.0700,  ..., -0.2072, -0.2630, -0.1727],
+        [-0.0672, -0.2188,  0.1663,  ..., -0.2703,  0.2978,  0.1394],
+        ...,
+        [-0.2114,  0.1319,  0.0170,  ...,  0.2399, -0.2676, -0.3283],
+        [-0.3476,  0.0706, -0.1673,  ...,  0.0700, -0.1280, -0.2471],
+        [-0.0621, -0.1738, -0.0848,  ..., -0.1603, -0.0715, -0.2578]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  2.3283e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -4.8894e-09,  0.0000e+00,  ..., -2.7940e-09,
+         -1.3970e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.6298e-09,  1.1642e-09]], device='cuda:0')
+Epoch 418, bias, value: tensor([-0.0160, -0.0358, -0.0099, -0.0128, -0.0363, -0.0005,  0.0314, -0.0150,
+         0.0530, -0.0112], device='cuda:0'), grad: tensor([ 2.3283e-10, -1.8626e-09,  2.0955e-09,  4.6566e-09,  9.3132e-10,
+         1.1642e-09,  4.1211e-08,  1.6298e-09, -4.4238e-08,  3.9581e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+---------------------saving model at epoch 417----------------------------------------------------
+epoch 417, time 267.27, cls_loss 0.0010 cls_loss_mapping 0.0006 cls_loss_causal 0.4379 re_mapping 0.0029 re_causal 0.0090 /// teacc 99.17 lr 0.00001000
+Epoch 419, weight, value: tensor([[-0.1386, -0.2902, -0.0899,  ..., -0.0887,  0.1905,  0.2014],
+        [-0.2688, -0.2383, -0.0700,  ..., -0.2072, -0.2630, -0.1727],
+        [-0.0673, -0.2187,  0.1663,  ..., -0.2702,  0.2979,  0.1394],
+        ...,
+        [-0.2115,  0.1320,  0.0170,  ...,  0.2399, -0.2679, -0.3284],
+        [-0.3476,  0.0706, -0.1673,  ...,  0.0700, -0.1280, -0.2471],
+        [-0.0621, -0.1738, -0.0848,  ..., -0.1603, -0.0715, -0.2578]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.3504e-08, -1.0710e-08],
+        [ 4.6566e-10,  9.3132e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.2107e-08,  4.6566e-10],
+        ...,
+        [ 4.6566e-10, -4.6566e-10,  0.0000e+00,  ..., -1.3970e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.3039e-08,  0.0000e+00],
+        [ 6.9849e-09,  1.3970e-09,  0.0000e+00,  ...,  6.5193e-09,
+          2.7940e-09,  1.8626e-09]], device='cuda:0')
+Epoch 419, bias, value: tensor([-0.0160, -0.0359, -0.0098, -0.0127, -0.0363, -0.0005,  0.0314, -0.0149,
+         0.0530, -0.0112], device='cuda:0'), grad: tensor([-3.4925e-08, -4.1444e-08, -7.6834e-08,  9.3132e-10,  2.5611e-08,
+        -2.3283e-08,  2.7474e-08,  1.6298e-08,  1.1316e-07, -1.8626e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 418, time 250.41, cls_loss 0.0011 cls_loss_mapping 0.0005 cls_loss_causal 0.4268 re_mapping 0.0029 re_causal 0.0091 /// teacc 99.15 lr 0.00001000
+Epoch 420, weight, value: tensor([[-0.1386, -0.2902, -0.0899,  ..., -0.0887,  0.1906,  0.2014],
+        [-0.2688, -0.2383, -0.0699,  ..., -0.2071, -0.2630, -0.1727],
+        [-0.0673, -0.2187,  0.1663,  ..., -0.2702,  0.2979,  0.1394],
+        ...,
+        [-0.2115,  0.1320,  0.0169,  ...,  0.2399, -0.2679, -0.3284],
+        [-0.3476,  0.0706, -0.1673,  ...,  0.0700, -0.1280, -0.2471],
+        [-0.0621, -0.1739, -0.0848,  ..., -0.1603, -0.0715, -0.2578]],
+       device='cuda:0'), grad: tensor([[4.6566e-10, 4.6566e-10, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [1.8626e-09, 1.8626e-09, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [9.3132e-10, 9.3132e-10, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        ...,
+        [1.8626e-09, 1.8626e-09, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [1.3970e-09, 1.3970e-09, 0.0000e+00,  ..., 4.6566e-10, 0.0000e+00,
+         0.0000e+00],
+        [4.6566e-10, 9.3132e-10, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00]], device='cuda:0')
+Epoch 420, bias, value: tensor([-0.0160, -0.0358, -0.0098, -0.0126, -0.0363, -0.0006,  0.0314, -0.0150,
+         0.0530, -0.0112], device='cuda:0'), grad: tensor([ 1.3970e-09, -4.9826e-08,  2.7940e-09, -2.9337e-08,  5.3085e-08,
+        -1.0245e-08,  1.3504e-08,  6.9849e-09,  4.1910e-09,  3.7253e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 419, time 250.29, cls_loss 0.0009 cls_loss_mapping 0.0004 cls_loss_causal 0.4327 re_mapping 0.0029 re_causal 0.0090 /// teacc 99.12 lr 0.00001000
+Epoch 421, weight, value: tensor([[-0.1386, -0.2903, -0.0899,  ..., -0.0887,  0.1906,  0.2014],
+        [-0.2688, -0.2383, -0.0699,  ..., -0.2071, -0.2630, -0.1728],
+        [-0.0673, -0.2187,  0.1663,  ..., -0.2702,  0.2980,  0.1395],
+        ...,
+        [-0.2115,  0.1320,  0.0169,  ...,  0.2399, -0.2679, -0.3284],
+        [-0.3476,  0.0706, -0.1673,  ...,  0.0700, -0.1280, -0.2471],
+        [-0.0621, -0.1739, -0.0848,  ..., -0.1603, -0.0715, -0.2579]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -3.7253e-08,  0.0000e+00,  ..., -9.5926e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -2.7940e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  3.6787e-08,  0.0000e+00,  ...,  9.4529e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 421, bias, value: tensor([-0.0160, -0.0358, -0.0098, -0.0126, -0.0363, -0.0006,  0.0314, -0.0150,
+         0.0530, -0.0112], device='cuda:0'), grad: tensor([ 6.0536e-09, -4.6566e-10,  1.7695e-08,  6.5193e-09,  1.3970e-09,
+         3.2596e-09,  4.1910e-09, -1.7462e-07, -4.0047e-08,  1.8161e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 420, time 250.61, cls_loss 0.0009 cls_loss_mapping 0.0005 cls_loss_causal 0.3993 re_mapping 0.0028 re_causal 0.0084 /// teacc 99.09 lr 0.00001000
+Epoch 422, weight, value: tensor([[-0.1386, -0.2903, -0.0899,  ..., -0.0887,  0.1906,  0.2014],
+        [-0.2688, -0.2384, -0.0699,  ..., -0.2071, -0.2630, -0.1728],
+        [-0.0673, -0.2187,  0.1663,  ..., -0.2702,  0.2980,  0.1395],
+        ...,
+        [-0.2116,  0.1320,  0.0169,  ...,  0.2399, -0.2680, -0.3284],
+        [-0.3476,  0.0706, -0.1673,  ...,  0.0700, -0.1280, -0.2471],
+        [-0.0622, -0.1739, -0.0848,  ..., -0.1604, -0.0715, -0.2579]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -4.6566e-10, -0.0000e+00],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 6.5193e-09,  0.0000e+00,  0.0000e+00,  ...,  4.1910e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  3.2596e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 422, bias, value: tensor([-0.0160, -0.0358, -0.0097, -0.0126, -0.0363, -0.0006,  0.0314, -0.0150,
+         0.0530, -0.0112], device='cuda:0'), grad: tensor([ 1.3970e-09,  9.3132e-10, -3.7253e-09,  5.1223e-09,  1.8626e-09,
+        -8.2888e-08,  5.4948e-08,  2.7940e-09,  1.0245e-08,  1.3970e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 421, time 250.81, cls_loss 0.0009 cls_loss_mapping 0.0005 cls_loss_causal 0.4276 re_mapping 0.0027 re_causal 0.0088 /// teacc 99.09 lr 0.00001000
+Epoch 423, weight, value: tensor([[-0.1386, -0.2904, -0.0899,  ..., -0.0887,  0.1906,  0.2014],
+        [-0.2689, -0.2384, -0.0699,  ..., -0.2072, -0.2630, -0.1728],
+        [-0.0673, -0.2187,  0.1663,  ..., -0.2703,  0.2980,  0.1395],
+        ...,
+        [-0.2116,  0.1320,  0.0169,  ...,  0.2399, -0.2680, -0.3285],
+        [-0.3476,  0.0706, -0.1673,  ...,  0.0700, -0.1280, -0.2471],
+        [-0.0622, -0.1739, -0.0848,  ..., -0.1604, -0.0715, -0.2579]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -2.7940e-09, -2.3283e-09],
+        [ 4.6566e-10,  1.3970e-09,  0.0000e+00,  ...,  1.3970e-09,
+          9.3132e-10,  4.6566e-10],
+        [ 0.0000e+00,  7.4506e-08,  0.0000e+00,  ...,  1.0571e-07,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -8.5682e-08,  0.0000e+00,  ..., -1.2200e-07,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  1.2573e-08,  0.0000e+00,  ...,  1.4901e-08,
+          4.6566e-10,  4.6566e-10],
+        [ 2.3283e-09,  2.3283e-09,  0.0000e+00,  ..., -0.0000e+00,
+          9.3132e-10,  4.6566e-10]], device='cuda:0')
+Epoch 423, bias, value: tensor([-0.0160, -0.0358, -0.0097, -0.0125, -0.0363, -0.0006,  0.0314, -0.0150,
+         0.0530, -0.0112], device='cuda:0'), grad: tensor([-6.5193e-09,  5.5879e-09,  1.7742e-07, -1.9092e-08,  9.3132e-10,
+         9.3132e-09,  4.1910e-09, -1.9930e-07,  3.1665e-08,  6.9849e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 422, time 250.69, cls_loss 0.0009 cls_loss_mapping 0.0004 cls_loss_causal 0.4694 re_mapping 0.0027 re_causal 0.0091 /// teacc 99.10 lr 0.00001000
+Epoch 424, weight, value: tensor([[-0.1386, -0.2904, -0.0899,  ..., -0.0887,  0.1906,  0.2014],
+        [-0.2689, -0.2384, -0.0699,  ..., -0.2072, -0.2630, -0.1728],
+        [-0.0673, -0.2187,  0.1664,  ..., -0.2703,  0.2981,  0.1396],
+        ...,
+        [-0.2117,  0.1321,  0.0169,  ...,  0.2399, -0.2681, -0.3285],
+        [-0.3477,  0.0706, -0.1673,  ...,  0.0700, -0.1280, -0.2471],
+        [-0.0623, -0.1739, -0.0848,  ..., -0.1604, -0.0715, -0.2579]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  9.3132e-09,
+          0.0000e+00,  1.3970e-09],
+        ...,
+        [ 0.0000e+00, -6.5193e-09,  0.0000e+00,  ..., -9.1270e-08,
+          0.0000e+00, -1.1642e-08],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+         -0.0000e+00, -0.0000e+00],
+        [ 0.0000e+00,  5.5879e-09,  0.0000e+00,  ...,  7.4506e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 424, bias, value: tensor([-0.0160, -0.0358, -0.0097, -0.0124, -0.0363, -0.0007,  0.0314, -0.0150,
+         0.0530, -0.0112], device='cuda:0'), grad: tensor([ 1.8626e-09,  2.3283e-09,  1.6764e-08,  9.3132e-10,  2.7940e-08,
+         9.8255e-08,  9.3132e-10, -1.5926e-07,  1.4901e-08, -4.6566e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 423, time 250.91, cls_loss 0.0009 cls_loss_mapping 0.0004 cls_loss_causal 0.4292 re_mapping 0.0028 re_causal 0.0087 /// teacc 99.12 lr 0.00001000
+Epoch 425, weight, value: tensor([[-0.1386, -0.2904, -0.0899,  ..., -0.0887,  0.1906,  0.2014],
+        [-0.2689, -0.2385, -0.0699,  ..., -0.2072, -0.2630, -0.1728],
+        [-0.0673, -0.2187,  0.1664,  ..., -0.2703,  0.2981,  0.1396],
+        ...,
+        [-0.2117,  0.1321,  0.0169,  ...,  0.2399, -0.2681, -0.3286],
+        [-0.3477,  0.0706, -0.1673,  ...,  0.0700, -0.1280, -0.2471],
+        [-0.0623, -0.1739, -0.0848,  ..., -0.1604, -0.0715, -0.2579]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -2.3283e-09, -1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 3.2596e-09, -0.0000e+00,  0.0000e+00,  ..., -3.2596e-09,
+          9.3132e-10,  4.6566e-10],
+        [ 2.7940e-09,  4.6566e-10,  0.0000e+00,  ...,  4.1910e-09,
+          4.6566e-10,  4.6566e-10]], device='cuda:0')
+Epoch 425, bias, value: tensor([-0.0160, -0.0358, -0.0097, -0.0123, -0.0362, -0.0007,  0.0314, -0.0150,
+         0.0530, -0.0112], device='cuda:0'), grad: tensor([-3.7253e-09, -3.5716e-07,  3.0128e-07,  2.2352e-08,  3.2596e-09,
+        -2.3283e-08,  6.5193e-09,  2.6543e-08, -6.9849e-09,  3.9581e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 424, time 250.69, cls_loss 0.0010 cls_loss_mapping 0.0004 cls_loss_causal 0.4186 re_mapping 0.0028 re_causal 0.0087 /// teacc 99.10 lr 0.00001000
+Epoch 426, weight, value: tensor([[-0.1386, -0.2904, -0.0899,  ..., -0.0887,  0.1906,  0.2014],
+        [-0.2689, -0.2385, -0.0699,  ..., -0.2072, -0.2630, -0.1728],
+        [-0.0673, -0.2187,  0.1664,  ..., -0.2703,  0.2982,  0.1398],
+        ...,
+        [-0.2117,  0.1321,  0.0169,  ...,  0.2399, -0.2683, -0.3287],
+        [-0.3477,  0.0705, -0.1673,  ...,  0.0700, -0.1280, -0.2471],
+        [-0.0623, -0.1739, -0.0848,  ..., -0.1604, -0.0715, -0.2579]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -4.1910e-09, -3.2596e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.0245e-08,  6.0536e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -2.6077e-08, -1.5832e-08],
+        ...,
+        [ 0.0000e+00, -1.3970e-09,  0.0000e+00,  ..., -1.8626e-09,
+          1.4901e-08,  8.8476e-09],
+        [-3.7253e-09, -4.6566e-09,  0.0000e+00,  ..., -2.3749e-08,
+          4.6566e-10,  4.6566e-10],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  1.8626e-09,
+          4.1910e-09,  3.2596e-09]], device='cuda:0')
+Epoch 426, bias, value: tensor([-0.0160, -0.0358, -0.0096, -0.0123, -0.0362, -0.0007,  0.0314, -0.0150,
+         0.0530, -0.0112], device='cuda:0'), grad: tensor([ 3.7253e-09,  1.4398e-06, -1.3364e-07,  7.8231e-08, -3.2596e-09,
+         1.3364e-07,  4.0093e-07,  9.0804e-08, -2.0433e-06,  3.1665e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 425, time 250.71, cls_loss 0.0010 cls_loss_mapping 0.0004 cls_loss_causal 0.4549 re_mapping 0.0028 re_causal 0.0088 /// teacc 99.10 lr 0.00001000
+Epoch 427, weight, value: tensor([[-0.1387, -0.2904, -0.0899,  ..., -0.0887,  0.1906,  0.2014],
+        [-0.2689, -0.2385, -0.0698,  ..., -0.2071, -0.2630, -0.1728],
+        [-0.0673, -0.2187,  0.1664,  ..., -0.2703,  0.2982,  0.1398],
+        ...,
+        [-0.2118,  0.1321,  0.0168,  ...,  0.2399, -0.2683, -0.3287],
+        [-0.3477,  0.0705, -0.1674,  ...,  0.0701, -0.1280, -0.2471],
+        [-0.0623, -0.1739, -0.0848,  ..., -0.1605, -0.0714, -0.2579]],
+       device='cuda:0'), grad: tensor([[4.6566e-10, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 9.3132e-10,
+         4.6566e-10],
+        [0.0000e+00, 4.6566e-10, 0.0000e+00,  ..., 4.6566e-10, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 4.6566e-10,
+         4.6566e-10],
+        ...,
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 4.6566e-10, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 4.6566e-10, 0.0000e+00,  ..., 9.3132e-10, 0.0000e+00,
+         0.0000e+00]], device='cuda:0')
+Epoch 427, bias, value: tensor([-0.0161, -0.0358, -0.0097, -0.0122, -0.0361, -0.0007,  0.0314, -0.0150,
+         0.0530, -0.0113], device='cuda:0'), grad: tensor([ 2.3283e-09,  2.3283e-09,  1.3970e-09,  1.8626e-09,  7.9162e-09,
+         1.4435e-08, -2.3749e-08,  1.8626e-09,  4.6566e-10, -6.0536e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 426, time 250.25, cls_loss 0.0009 cls_loss_mapping 0.0004 cls_loss_causal 0.4291 re_mapping 0.0027 re_causal 0.0087 /// teacc 99.12 lr 0.00001000
+Epoch 428, weight, value: tensor([[-0.1387, -0.2905, -0.0899,  ..., -0.0886,  0.1906,  0.2015],
+        [-0.2689, -0.2385, -0.0698,  ..., -0.2071, -0.2630, -0.1728],
+        [-0.0673, -0.2187,  0.1664,  ..., -0.2704,  0.2982,  0.1398],
+        ...,
+        [-0.2118,  0.1321,  0.0168,  ...,  0.2399, -0.2683, -0.3288],
+        [-0.3477,  0.0705, -0.1674,  ...,  0.0700, -0.1281, -0.2472],
+        [-0.0624, -0.1739, -0.0848,  ..., -0.1605, -0.0714, -0.2579]],
+       device='cuda:0'), grad: tensor([[0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 4.6566e-10, 0.0000e+00,
+         0.0000e+00],
+        [4.6566e-10, 0.0000e+00, 0.0000e+00,  ..., 1.3970e-09, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        ...,
+        [9.3132e-10, 0.0000e+00, 0.0000e+00,  ..., 2.0489e-08, 0.0000e+00,
+         0.0000e+00],
+        [9.3132e-10, 0.0000e+00, 0.0000e+00,  ..., 2.3283e-09, 0.0000e+00,
+         0.0000e+00],
+        [1.3504e-08, 0.0000e+00, 0.0000e+00,  ..., 7.4971e-08, 4.6566e-10,
+         4.6566e-10]], device='cuda:0')
+Epoch 428, bias, value: tensor([-0.0161, -0.0358, -0.0097, -0.0122, -0.0362, -0.0008,  0.0314, -0.0150,
+         0.0530, -0.0113], device='cuda:0'), grad: tensor([ 5.5879e-09,  9.3132e-09,  2.7940e-09,  3.2131e-08, -7.9395e-07,
+        -8.9407e-08,  1.5832e-08,  1.9372e-07,  1.7229e-08,  6.1281e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 427, time 250.32, cls_loss 0.0009 cls_loss_mapping 0.0004 cls_loss_causal 0.4183 re_mapping 0.0027 re_causal 0.0086 /// teacc 99.12 lr 0.00001000
+Epoch 429, weight, value: tensor([[-0.1387, -0.2905, -0.0899,  ..., -0.0886,  0.1906,  0.2015],
+        [-0.2689, -0.2385, -0.0698,  ..., -0.2071, -0.2631, -0.1728],
+        [-0.0673, -0.2187,  0.1664,  ..., -0.2704,  0.2982,  0.1398],
+        ...,
+        [-0.2119,  0.1321,  0.0168,  ...,  0.2399, -0.2684, -0.3288],
+        [-0.3477,  0.0705, -0.1674,  ...,  0.0700, -0.1281, -0.2472],
+        [-0.0624, -0.1739, -0.0848,  ..., -0.1605, -0.0715, -0.2579]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -1.8626e-09,  0.0000e+00,  ..., -4.1910e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  9.3132e-10,  0.0000e+00,  ..., -9.3132e-10,
+          4.6566e-10,  4.6566e-10],
+        [ 4.6566e-10,  2.7940e-09,  0.0000e+00,  ...,  4.1910e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 429, bias, value: tensor([-0.0160, -0.0358, -0.0096, -0.0121, -0.0361, -0.0008,  0.0314, -0.0150,
+         0.0530, -0.0113], device='cuda:0'), grad: tensor([ 4.6566e-10, -2.0443e-07,  1.3970e-09, -6.0536e-09,  0.0000e+00,
+         7.9162e-09, -3.7253e-09,  1.6252e-07,  2.3283e-09,  4.3772e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 428, time 250.72, cls_loss 0.0009 cls_loss_mapping 0.0004 cls_loss_causal 0.4242 re_mapping 0.0027 re_causal 0.0086 /// teacc 99.13 lr 0.00001000
+Epoch 430, weight, value: tensor([[-0.1387, -0.2906, -0.0899,  ..., -0.0886,  0.1906,  0.2015],
+        [-0.2689, -0.2385, -0.0698,  ..., -0.2072, -0.2631, -0.1728],
+        [-0.0673, -0.2187,  0.1665,  ..., -0.2704,  0.2982,  0.1399],
+        ...,
+        [-0.2119,  0.1321,  0.0168,  ...,  0.2400, -0.2684, -0.3288],
+        [-0.3478,  0.0705, -0.1674,  ...,  0.0700, -0.1281, -0.2472],
+        [-0.0624, -0.1740, -0.0848,  ..., -0.1605, -0.0715, -0.2580]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00, -3.7253e-09, -4.6566e-10,  ..., -4.6566e-10,
+         -5.1223e-09, -3.7253e-09],
+        ...,
+        [ 4.6566e-10,  2.7940e-09,  4.6566e-10,  ..., -3.6322e-08,
+          4.6566e-09,  3.2596e-09],
+        [ 8.3819e-09,  9.3132e-10,  0.0000e+00,  ...,  7.9162e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  1.3970e-09,  0.0000e+00,  ...,  1.3970e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 430, bias, value: tensor([-0.0160, -0.0358, -0.0096, -0.0120, -0.0361, -0.0008,  0.0314, -0.0150,
+         0.0530, -0.0113], device='cuda:0'), grad: tensor([ 9.3132e-10, -7.4506e-09, -2.2352e-08,  1.3970e-09,  1.1874e-07,
+        -6.2864e-08,  6.2864e-08, -6.2864e-08,  2.9337e-08, -5.1688e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 429, time 250.20, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4689 re_mapping 0.0027 re_causal 0.0090 /// teacc 99.12 lr 0.00001000
+Epoch 431, weight, value: tensor([[-0.1387, -0.2906, -0.0899,  ..., -0.0886,  0.1906,  0.2015],
+        [-0.2690, -0.2385, -0.0698,  ..., -0.2072, -0.2631, -0.1728],
+        [-0.0673, -0.2187,  0.1665,  ..., -0.2705,  0.2983,  0.1399],
+        ...,
+        [-0.2120,  0.1321,  0.0168,  ...,  0.2400, -0.2684, -0.3289],
+        [-0.3478,  0.0705, -0.1674,  ...,  0.0700, -0.1281, -0.2472],
+        [-0.0624, -0.1740, -0.0848,  ..., -0.1606, -0.0714, -0.2580]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -1.0431e-07, -5.3551e-08],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -9.3132e-10,  0.0000e+00,  ...,  4.6566e-10,
+         -2.7940e-09, -3.2596e-09],
+        ...,
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ..., -1.8626e-09,
+          3.7253e-09,  3.7253e-09],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ..., -7.4506e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          1.0477e-07,  5.4017e-08]], device='cuda:0')
+Epoch 431, bias, value: tensor([-0.0161, -0.0358, -0.0096, -0.0120, -0.0361, -0.0008,  0.0314, -0.0150,
+         0.0530, -0.0113], device='cuda:0'), grad: tensor([-2.5751e-07,  2.3283e-09, -9.3132e-09,  5.1223e-09, -5.9046e-07,
+         1.8161e-08,  1.8626e-09,  2.2817e-08, -2.1420e-08,  8.3586e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 430, time 250.30, cls_loss 0.0009 cls_loss_mapping 0.0004 cls_loss_causal 0.4265 re_mapping 0.0027 re_causal 0.0085 /// teacc 99.13 lr 0.00001000
+Epoch 432, weight, value: tensor([[-0.1387, -0.2907, -0.0899,  ..., -0.0886,  0.1906,  0.2015],
+        [-0.2690, -0.2385, -0.0698,  ..., -0.2072, -0.2631, -0.1728],
+        [-0.0673, -0.2187,  0.1665,  ..., -0.2705,  0.2984,  0.1400],
+        ...,
+        [-0.2121,  0.1321,  0.0168,  ...,  0.2400, -0.2686, -0.3289],
+        [-0.3478,  0.0705, -0.1674,  ...,  0.0701, -0.1281, -0.2472],
+        [-0.0624, -0.1740, -0.0848,  ..., -0.1606, -0.0714, -0.2580]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+         -3.8557e-07, -3.5483e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.8626e-09,
+         -3.2596e-09, -2.7940e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          3.7253e-09,  3.7253e-09],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.1910e-09,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          5.4948e-08,  5.1223e-08]], device='cuda:0')
+Epoch 432, bias, value: tensor([-0.0161, -0.0358, -0.0096, -0.0120, -0.0360, -0.0009,  0.0314, -0.0150,
+         0.0530, -0.0113], device='cuda:0'), grad: tensor([-9.2713e-07,  7.9162e-09, -2.9802e-08,  1.3970e-09,  4.7171e-07,
+         6.5193e-09,  7.7626e-07,  5.1223e-08,  2.8871e-08, -3.8324e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 431, time 250.24, cls_loss 0.0010 cls_loss_mapping 0.0005 cls_loss_causal 0.4369 re_mapping 0.0027 re_causal 0.0087 /// teacc 99.14 lr 0.00001000
+Epoch 433, weight, value: tensor([[-0.1388, -0.2907, -0.0899,  ..., -0.0886,  0.1906,  0.2015],
+        [-0.2690, -0.2386, -0.0698,  ..., -0.2073, -0.2631, -0.1729],
+        [-0.0673, -0.2187,  0.1666,  ..., -0.2705,  0.2984,  0.1400],
+        ...,
+        [-0.2121,  0.1322,  0.0168,  ...,  0.2401, -0.2686, -0.3290],
+        [-0.3478,  0.0705, -0.1674,  ...,  0.0701, -0.1281, -0.2472],
+        [-0.0625, -0.1741, -0.0848,  ..., -0.1606, -0.0714, -0.2580]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -4.6566e-10, -4.6566e-10],
+        [ 0.0000e+00,  5.5879e-09,  0.0000e+00,  ...,  1.0710e-08,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -6.9849e-09,  0.0000e+00,  ..., -1.3039e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 6.0536e-09,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          4.1910e-09,  3.2596e-09],
+        [ 0.0000e+00,  1.3970e-09,  0.0000e+00,  ...,  2.3283e-09,
+          1.3970e-09,  9.3132e-10]], device='cuda:0')
+Epoch 433, bias, value: tensor([-0.0162, -0.0359, -0.0095, -0.0119, -0.0360, -0.0009,  0.0314, -0.0149,
+         0.0531, -0.0113], device='cuda:0'), grad: tensor([ 9.3132e-10,  3.3528e-08,  0.0000e+00,  4.6566e-10,  0.0000e+00,
+         5.7742e-08, -8.0559e-08, -4.0513e-08,  1.9558e-08,  1.0710e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+---------------------saving model at epoch 432----------------------------------------------------
+epoch 432, time 266.64, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4147 re_mapping 0.0027 re_causal 0.0087 /// teacc 99.18 lr 0.00001000
+Epoch 434, weight, value: tensor([[-0.1388, -0.2907, -0.0899,  ..., -0.0886,  0.1906,  0.2016],
+        [-0.2690, -0.2386, -0.0698,  ..., -0.2073, -0.2631, -0.1729],
+        [-0.0673, -0.2187,  0.1666,  ..., -0.2706,  0.2984,  0.1400],
+        ...,
+        [-0.2122,  0.1322,  0.0168,  ...,  0.2401, -0.2686, -0.3290],
+        [-0.3479,  0.0705, -0.1674,  ...,  0.0701, -0.1281, -0.2472],
+        [-0.0625, -0.1741, -0.0848,  ..., -0.1607, -0.0714, -0.2581]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.1176e-08, -6.5193e-09],
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 5.5879e-09,  1.3970e-09,  0.0000e+00,  ...,  0.0000e+00,
+          8.3819e-09,  7.9162e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 2.1886e-08,  7.9162e-09,  0.0000e+00,  ...,  4.6566e-10,
+          2.8405e-08,  2.7940e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          4.1910e-09,  2.7940e-09]], device='cuda:0')
+Epoch 434, bias, value: tensor([-0.0161, -0.0359, -0.0095, -0.0119, -0.0360, -0.0009,  0.0314, -0.0149,
+         0.0531, -0.0113], device='cuda:0'), grad: tensor([-2.5611e-08,  3.2596e-09,  3.2131e-08, -6.9849e-09, -9.3132e-10,
+         1.8626e-09, -1.3271e-07,  3.4925e-08,  1.1967e-07, -2.2352e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 433, time 250.32, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4450 re_mapping 0.0028 re_causal 0.0089 /// teacc 99.12 lr 0.00001000
+Epoch 435, weight, value: tensor([[-0.1388, -0.2907, -0.0899,  ..., -0.0886,  0.1907,  0.2016],
+        [-0.2690, -0.2386, -0.0698,  ..., -0.2073, -0.2631, -0.1729],
+        [-0.0673, -0.2187,  0.1666,  ..., -0.2706,  0.2985,  0.1401],
+        ...,
+        [-0.2122,  0.1322,  0.0168,  ...,  0.2401, -0.2687, -0.3290],
+        [-0.3479,  0.0705, -0.1674,  ...,  0.0701, -0.1282, -0.2472],
+        [-0.0625, -0.1741, -0.0848,  ..., -0.1607, -0.0715, -0.2581]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  1.8626e-09,
+         -6.7987e-08, -6.7987e-08],
+        [ 4.6566e-10,  1.2573e-08,  0.0000e+00,  ...,  2.4214e-08,
+          9.3132e-10,  4.6566e-10],
+        [ 0.0000e+00,  5.1223e-09,  0.0000e+00,  ...,  9.7789e-09,
+         -7.4506e-09, -3.2596e-09],
+        ...,
+        [ 4.6566e-10, -2.6869e-07,  0.0000e+00,  ..., -5.0897e-07,
+          2.3283e-09,  9.3132e-10],
+        [ 4.6566e-09,  2.0023e-08,  0.0000e+00,  ...,  1.7229e-08,
+          9.3132e-10,  4.6566e-10],
+        [ 1.0245e-08,  2.3423e-07,  0.0000e+00,  ...,  4.5029e-07,
+          5.1223e-09,  3.7253e-09]], device='cuda:0')
+Epoch 435, bias, value: tensor([-0.0161, -0.0359, -0.0094, -0.0119, -0.0360, -0.0009,  0.0314, -0.0149,
+         0.0530, -0.0114], device='cuda:0'), grad: tensor([-1.2526e-07,  2.0629e-07, -2.7940e-09,  3.7253e-09, -1.7639e-06,
+        -1.5832e-08,  1.4063e-07, -1.3355e-06,  7.5903e-08,  2.8126e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 434, time 250.70, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4049 re_mapping 0.0027 re_causal 0.0086 /// teacc 99.14 lr 0.00001000
+Epoch 436, weight, value: tensor([[-0.1388, -0.2907, -0.0899,  ..., -0.0885,  0.1907,  0.2017],
+        [-0.2690, -0.2386, -0.0698,  ..., -0.2073, -0.2631, -0.1729],
+        [-0.0674, -0.2186,  0.1666,  ..., -0.2706,  0.2986,  0.1401],
+        ...,
+        [-0.2122,  0.1322,  0.0168,  ...,  0.2402, -0.2689, -0.3290],
+        [-0.3479,  0.0704, -0.1674,  ...,  0.0701, -0.1282, -0.2472],
+        [-0.0625, -0.1741, -0.0848,  ..., -0.1607, -0.0715, -0.2582]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  4.6566e-10],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ..., -7.9162e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -7.4506e-09,  0.0000e+00,  ..., -1.3970e-09,
+          0.0000e+00, -9.3132e-10],
+        [ 0.0000e+00,  1.3970e-09,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.3970e-09,  0.0000e+00,  ...,  2.3283e-09,
+          0.0000e+00,  4.6566e-10]], device='cuda:0')
+Epoch 436, bias, value: tensor([-0.0161, -0.0359, -0.0094, -0.0119, -0.0360, -0.0009,  0.0314, -0.0149,
+         0.0531, -0.0114], device='cuda:0'), grad: tensor([ 2.3283e-09, -1.2200e-07,  2.7940e-09,  3.2596e-09,  1.8626e-09,
+         4.6566e-10, -3.7253e-09,  9.2667e-08,  7.4506e-09,  9.3132e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 435, time 250.94, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4288 re_mapping 0.0028 re_causal 0.0088 /// teacc 99.12 lr 0.00001000
+Epoch 437, weight, value: tensor([[-0.1388, -0.2907, -0.0899,  ..., -0.0885,  0.1907,  0.2017],
+        [-0.2691, -0.2386, -0.0698,  ..., -0.2073, -0.2632, -0.1729],
+        [-0.0674, -0.2187,  0.1667,  ..., -0.2707,  0.2986,  0.1401],
+        ...,
+        [-0.2123,  0.1322,  0.0168,  ...,  0.2402, -0.2689, -0.3290],
+        [-0.3480,  0.0704, -0.1674,  ...,  0.0701, -0.1282, -0.2472],
+        [-0.0624, -0.1741, -0.0848,  ..., -0.1607, -0.0715, -0.2582]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.7323e-07, -1.4203e-07],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  2.3283e-09,
+          4.6566e-10,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.6298e-08,
+         -2.2817e-08, -2.9802e-08],
+        ...,
+        [ 0.0000e+00, -1.2573e-08,  0.0000e+00,  ...,  3.2596e-09,
+          2.1886e-08,  2.8871e-08],
+        [ 0.0000e+00,  2.3283e-09,  0.0000e+00,  ...,  2.7940e-09,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  4.6566e-09,  0.0000e+00,  ...,  5.5879e-09,
+          2.7940e-09,  2.7940e-09]], device='cuda:0')
+Epoch 437, bias, value: tensor([-0.0161, -0.0359, -0.0094, -0.0119, -0.0360, -0.0009,  0.0314, -0.0149,
+         0.0530, -0.0114], device='cuda:0'), grad: tensor([-3.0175e-07,  7.4506e-09, -2.5611e-07,  1.3970e-09,  2.7940e-09,
+         6.5193e-09,  3.0920e-07,  2.5798e-07,  2.7940e-09, -1.8161e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 436, time 250.68, cls_loss 0.0009 cls_loss_mapping 0.0004 cls_loss_causal 0.4422 re_mapping 0.0027 re_causal 0.0089 /// teacc 99.13 lr 0.00001000
+Epoch 438, weight, value: tensor([[-0.1388, -0.2908, -0.0899,  ..., -0.0885,  0.1907,  0.2018],
+        [-0.2691, -0.2387, -0.0698,  ..., -0.2073, -0.2632, -0.1729],
+        [-0.0674, -0.2187,  0.1667,  ..., -0.2707,  0.2987,  0.1401],
+        ...,
+        [-0.2124,  0.1322,  0.0168,  ...,  0.2402, -0.2689, -0.3291],
+        [-0.3480,  0.0704, -0.1674,  ...,  0.0700, -0.1282, -0.2472],
+        [-0.0625, -0.1742, -0.0848,  ..., -0.1607, -0.0714, -0.2582]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          4.6566e-10,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00, -4.6566e-10,  0.0000e+00,  ...,  9.3132e-10,
+         -9.3132e-10,  0.0000e+00],
+        ...,
+        [ 4.6566e-10, -4.6566e-10,  0.0000e+00,  ...,  7.4506e-09,
+          9.3132e-10,  4.6566e-10],
+        [ 1.0710e-08,  4.6566e-10,  0.0000e+00,  ...,  7.9162e-09,
+         -4.6566e-10, -1.8626e-09],
+        [ 2.7940e-09,  4.6566e-10,  0.0000e+00,  ...,  1.7229e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 438, bias, value: tensor([-0.0161, -0.0359, -0.0094, -0.0117, -0.0360, -0.0009,  0.0313, -0.0149,
+         0.0530, -0.0114], device='cuda:0'), grad: tensor([ 7.4506e-09,  1.3504e-08,  4.1910e-09,  1.1642e-08, -2.6403e-07,
+        -4.2375e-08,  5.5879e-09,  5.8673e-08,  1.3039e-08,  1.9697e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 437, time 250.53, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4196 re_mapping 0.0027 re_causal 0.0087 /// teacc 99.11 lr 0.00001000
+Epoch 439, weight, value: tensor([[-0.1389, -0.2909, -0.0899,  ..., -0.0886,  0.1907,  0.2018],
+        [-0.2691, -0.2387, -0.0697,  ..., -0.2072, -0.2632, -0.1729],
+        [-0.0674, -0.2187,  0.1667,  ..., -0.2707,  0.2987,  0.1401],
+        ...,
+        [-0.2125,  0.1322,  0.0167,  ...,  0.2401, -0.2689, -0.3291],
+        [-0.3481,  0.0704, -0.1674,  ...,  0.0700, -0.1283, -0.2473],
+        [-0.0625, -0.1742, -0.0848,  ..., -0.1608, -0.0715, -0.2583]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  1.3970e-09],
+        [ 6.9849e-10,  9.3132e-10,  0.0000e+00,  ..., -3.0268e-09,
+          2.3283e-10,  2.3283e-10],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+         -2.0256e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -3.0268e-09,  0.0000e+00,  ...,  1.3970e-09,
+          1.6298e-09,  0.0000e+00],
+        [ 9.3132e-10,  2.3283e-10,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  2.3283e-10],
+        [ 2.3283e-10,  1.6298e-09,  0.0000e+00,  ...,  1.1642e-09,
+          2.3283e-10,  2.3283e-10]], device='cuda:0')
+Epoch 439, bias, value: tensor([-0.0161, -0.0359, -0.0094, -0.0117, -0.0360, -0.0008,  0.0313, -0.0150,
+         0.0529, -0.0114], device='cuda:0'), grad: tensor([ 1.2806e-08, -5.1921e-08, -2.6776e-08,  2.4447e-08,  1.5134e-08,
+         5.8906e-08, -9.0571e-08,  6.1933e-08,  3.0268e-09, -6.0536e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 438, time 250.50, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4287 re_mapping 0.0027 re_causal 0.0087 /// teacc 99.13 lr 0.00001000
+Epoch 440, weight, value: tensor([[-0.1389, -0.2910, -0.0899,  ..., -0.0886,  0.1908,  0.2018],
+        [-0.2691, -0.2387, -0.0697,  ..., -0.2073, -0.2632, -0.1730],
+        [-0.0674, -0.2187,  0.1667,  ..., -0.2707,  0.2987,  0.1402],
+        ...,
+        [-0.2125,  0.1322,  0.0167,  ...,  0.2401, -0.2690, -0.3292],
+        [-0.3481,  0.0704, -0.1674,  ...,  0.0700, -0.1283, -0.2473],
+        [-0.0625, -0.1742, -0.0848,  ..., -0.1608, -0.0715, -0.2583]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 6.9849e-10,  1.3970e-09,  0.0000e+00,  ...,  4.6566e-10,
+          6.9849e-10,  4.6566e-10],
+        [ 0.0000e+00,  6.7521e-09,  0.0000e+00,  ...,  8.3819e-09,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [ 4.6566e-10, -1.8161e-08,  0.0000e+00,  ..., -2.0489e-08,
+          0.0000e+00, -6.9849e-10],
+        [ 9.3132e-10,  1.3970e-09,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-09,  1.2573e-08,  0.0000e+00,  ...,  8.8476e-09,
+          4.6566e-10,  2.3283e-10]], device='cuda:0')
+Epoch 440, bias, value: tensor([-0.0161, -0.0359, -0.0094, -0.0117, -0.0360, -0.0007,  0.0312, -0.0150,
+         0.0529, -0.0114], device='cuda:0'), grad: tensor([ 2.3283e-10,  5.3551e-09,  2.2352e-08, -1.7649e-07,  4.6566e-10,
+         1.6764e-07,  6.9849e-10, -4.4005e-08,  9.3132e-10,  2.8638e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 439, time 250.44, cls_loss 0.0007 cls_loss_mapping 0.0003 cls_loss_causal 0.4035 re_mapping 0.0026 re_causal 0.0086 /// teacc 99.12 lr 0.00001000
+Epoch 441, weight, value: tensor([[-0.1389, -0.2910, -0.0899,  ..., -0.0885,  0.1909,  0.2019],
+        [-0.2691, -0.2387, -0.0697,  ..., -0.2073, -0.2632, -0.1730],
+        [-0.0674, -0.2187,  0.1667,  ..., -0.2708,  0.2987,  0.1402],
+        ...,
+        [-0.2126,  0.1322,  0.0167,  ...,  0.2402, -0.2690, -0.3292],
+        [-0.3482,  0.0704, -0.1674,  ...,  0.0700, -0.1283, -0.2473],
+        [-0.0624, -0.1742, -0.0848,  ..., -0.1608, -0.0715, -0.2583]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  2.3283e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.9162e-07,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-2.2002e-07,  1.1642e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.1642e-09,  2.3283e-10,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 9.7789e-09,  2.3283e-10,  0.0000e+00,  ..., -1.6298e-09,
+          2.3283e-10,  2.3283e-10],
+        [ 4.1910e-09,  2.5611e-09,  0.0000e+00,  ..., -4.6566e-10,
+          2.3283e-10,  2.3283e-10]], device='cuda:0')
+Epoch 441, bias, value: tensor([-0.0160, -0.0359, -0.0093, -0.0116, -0.0360, -0.0007,  0.0312, -0.0150,
+         0.0529, -0.0114], device='cuda:0'), grad: tensor([ 1.2806e-08,  1.4855e-06, -1.7090e-06, -1.5600e-08,  7.5670e-08,
+         4.2841e-08,  2.3749e-08,  9.0804e-09,  6.1700e-08,  1.2573e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 440, time 250.95, cls_loss 0.0009 cls_loss_mapping 0.0004 cls_loss_causal 0.4243 re_mapping 0.0027 re_causal 0.0087 /// teacc 99.15 lr 0.00001000
+Epoch 442, weight, value: tensor([[-0.1389, -0.2910, -0.0899,  ..., -0.0884,  0.1909,  0.2020],
+        [-0.2692, -0.2387, -0.0697,  ..., -0.2073, -0.2632, -0.1730],
+        [-0.0674, -0.2188,  0.1667,  ..., -0.2708,  0.2988,  0.1403],
+        ...,
+        [-0.2126,  0.1322,  0.0167,  ...,  0.2402, -0.2691, -0.3293],
+        [-0.3482,  0.0704, -0.1674,  ...,  0.0699, -0.1283, -0.2473],
+        [-0.0625, -0.1742, -0.0848,  ..., -0.1608, -0.0715, -0.2584]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.4040e-07, -1.3551e-07],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  1.6298e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-09,  4.1910e-09],
+        ...,
+        [ 4.6566e-10,  2.0955e-09,  0.0000e+00,  ...,  6.9849e-10,
+          1.8626e-09,  1.6298e-09],
+        [ 4.6566e-10, -2.5611e-09,  0.0000e+00,  ..., -1.5832e-08,
+          3.5157e-08,  3.0501e-08],
+        [ 0.0000e+00,  3.0268e-09,  0.0000e+00,  ...,  4.8894e-09,
+          2.3749e-08,  2.2119e-08]], device='cuda:0')
+Epoch 442, bias, value: tensor([-0.0160, -0.0359, -0.0094, -0.0116, -0.0358, -0.0008,  0.0312, -0.0150,
+         0.0529, -0.0114], device='cuda:0'), grad: tensor([-2.3795e-07,  7.2177e-09,  1.0710e-08, -2.5611e-09, -2.6310e-08,
+         2.8173e-08,  9.7556e-08,  1.1642e-08,  4.3772e-08,  7.8930e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 441, time 250.66, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4282 re_mapping 0.0027 re_causal 0.0088 /// teacc 99.14 lr 0.00001000
+Epoch 443, weight, value: tensor([[-0.1389, -0.2910, -0.0899,  ..., -0.0884,  0.1909,  0.2020],
+        [-0.2692, -0.2387, -0.0697,  ..., -0.2073, -0.2633, -0.1730],
+        [-0.0674, -0.2188,  0.1667,  ..., -0.2708,  0.2988,  0.1403],
+        ...,
+        [-0.2127,  0.1322,  0.0167,  ...,  0.2402, -0.2691, -0.3293],
+        [-0.3483,  0.0704, -0.1674,  ...,  0.0700, -0.1283, -0.2473],
+        [-0.0625, -0.1742, -0.0848,  ..., -0.1608, -0.0715, -0.2584]],
+       device='cuda:0'), grad: tensor([[ 6.9849e-09,  4.6566e-10,  0.0000e+00,  ...,  1.8626e-09,
+          2.3283e-09,  1.1642e-09],
+        [ 4.6566e-10,  2.3283e-10,  2.3283e-10,  ...,  1.1642e-09,
+          6.9849e-10,  4.6566e-10],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          6.9849e-10,  4.6566e-10],
+        ...,
+        [ 2.3283e-10, -8.1491e-09,  4.6566e-10,  ..., -1.8859e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 6.7521e-09,  0.0000e+00,  0.0000e+00,  ...,  3.9581e-09,
+          6.9849e-10,  4.6566e-10],
+        [ 4.6566e-10,  7.9162e-09,  1.6298e-09,  ...,  2.6077e-08,
+          2.3283e-10,  2.3283e-10]], device='cuda:0')
+Epoch 443, bias, value: tensor([-0.0160, -0.0359, -0.0094, -0.0116, -0.0358, -0.0008,  0.0312, -0.0150,
+         0.0529, -0.0114], device='cuda:0'), grad: tensor([ 1.5134e-08,  4.8894e-09,  1.8626e-09,  4.2934e-07, -1.9092e-08,
+        -3.9325e-07, -8.0792e-08, -2.3283e-08,  1.5367e-08,  5.1688e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 442, time 251.06, cls_loss 0.0008 cls_loss_mapping 0.0003 cls_loss_causal 0.4097 re_mapping 0.0026 re_causal 0.0085 /// teacc 99.13 lr 0.00001000
+Epoch 444, weight, value: tensor([[-0.1390, -0.2910, -0.0899,  ..., -0.0884,  0.1909,  0.2020],
+        [-0.2692, -0.2389, -0.0697,  ..., -0.2073, -0.2633, -0.1729],
+        [-0.0674, -0.2188,  0.1667,  ..., -0.2709,  0.2989,  0.1402],
+        ...,
+        [-0.2128,  0.1323,  0.0167,  ...,  0.2403, -0.2691, -0.3294],
+        [-0.3483,  0.0704, -0.1674,  ...,  0.0700, -0.1284, -0.2473],
+        [-0.0625, -0.1742, -0.0848,  ..., -0.1609, -0.0715, -0.2584]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.3504e-08, -9.3132e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  1.1642e-09,  0.0000e+00,  ..., -1.1642e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          6.9849e-10,  4.6566e-10]], device='cuda:0')
+Epoch 444, bias, value: tensor([-0.0160, -0.0360, -0.0094, -0.0116, -0.0358, -0.0008,  0.0312, -0.0149,
+         0.0529, -0.0115], device='cuda:0'), grad: tensor([-2.2119e-08,  1.1642e-09,  2.3283e-10,  3.7253e-09,  1.3970e-09,
+         1.3970e-09,  2.4680e-08,  1.1642e-09,  9.3132e-10, -4.4238e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 443, time 250.96, cls_loss 0.0008 cls_loss_mapping 0.0003 cls_loss_causal 0.3950 re_mapping 0.0026 re_causal 0.0083 /// teacc 99.13 lr 0.00001000
+Epoch 445, weight, value: tensor([[-0.1390, -0.2910, -0.0899,  ..., -0.0883,  0.1911,  0.2023],
+        [-0.2692, -0.2391, -0.0697,  ..., -0.2074, -0.2633, -0.1729],
+        [-0.0674, -0.2188,  0.1667,  ..., -0.2709,  0.2989,  0.1403],
+        ...,
+        [-0.2129,  0.1325,  0.0167,  ...,  0.2404, -0.2692, -0.3294],
+        [-0.3483,  0.0703, -0.1674,  ...,  0.0700, -0.1284, -0.2474],
+        [-0.0625, -0.1742, -0.0848,  ..., -0.1609, -0.0716, -0.2584]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          1.1642e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.4238e-09,
+         -8.6147e-09,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  2.0955e-09,  0.0000e+00,  ...,  1.1642e-09,
+          6.5193e-09,  0.0000e+00],
+        [ 1.1642e-09,  2.5611e-09,  0.0000e+00,  ..., -7.4506e-09,
+          0.0000e+00,  0.0000e+00],
+        [-1.6298e-09,  0.0000e+00,  0.0000e+00,  ..., -2.3283e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 445, bias, value: tensor([-0.0158, -0.0361, -0.0094, -0.0114, -0.0357, -0.0008,  0.0311, -0.0148,
+         0.0529, -0.0115], device='cuda:0'), grad: tensor([ 4.1910e-09, -1.3970e-09, -3.4925e-09, -6.2864e-09,  3.0268e-09,
+         6.0536e-09,  8.3819e-09,  3.3062e-08, -1.9791e-08, -1.6531e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 444, time 250.95, cls_loss 0.0007 cls_loss_mapping 0.0003 cls_loss_causal 0.4197 re_mapping 0.0025 re_causal 0.0086 /// teacc 99.13 lr 0.00001000
+Epoch 446, weight, value: tensor([[-0.1390, -0.2911, -0.0900,  ..., -0.0883,  0.1912,  0.2024],
+        [-0.2693, -0.2391, -0.0697,  ..., -0.2075, -0.2633, -0.1729],
+        [-0.0674, -0.2188,  0.1667,  ..., -0.2710,  0.2989,  0.1402],
+        ...,
+        [-0.2130,  0.1325,  0.0167,  ...,  0.2404, -0.2692, -0.3294],
+        [-0.3484,  0.0703, -0.1674,  ...,  0.0700, -0.1284, -0.2474],
+        [-0.0625, -0.1742, -0.0848,  ..., -0.1609, -0.0716, -0.2585]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -4.6566e-10,  0.0000e+00,  ..., -1.8394e-08,
+         -2.9569e-08, -3.3295e-08],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          2.3283e-10,  2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          6.9849e-10,  6.9849e-10],
+        ...,
+        [ 2.3283e-10, -4.4238e-09,  0.0000e+00,  ..., -2.0955e-09,
+          6.9849e-10,  6.9849e-10],
+        [ 6.9849e-10,  1.1642e-09,  0.0000e+00,  ...,  2.0955e-09,
+          2.3283e-10,  2.3283e-10],
+        [ 2.3283e-10,  2.3283e-10,  0.0000e+00,  ...,  3.0268e-09,
+          4.4238e-09,  4.8894e-09]], device='cuda:0')
+Epoch 446, bias, value: tensor([-0.0158, -0.0361, -0.0095, -0.0115, -0.0357, -0.0008,  0.0311, -0.0147,
+         0.0529, -0.0115], device='cuda:0'), grad: tensor([-9.2201e-08,  1.6298e-09,  1.8626e-09,  4.6566e-09, -2.5611e-09,
+        -1.6298e-09,  7.5903e-08,  3.7486e-08,  6.0536e-09, -2.9569e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 445, time 250.65, cls_loss 0.0008 cls_loss_mapping 0.0003 cls_loss_causal 0.4285 re_mapping 0.0026 re_causal 0.0086 /// teacc 99.13 lr 0.00001000
+Epoch 447, weight, value: tensor([[-0.1390, -0.2911, -0.0900,  ..., -0.0883,  0.1912,  0.2024],
+        [-0.2694, -0.2392, -0.0697,  ..., -0.2075, -0.2634, -0.1731],
+        [-0.0675, -0.2189,  0.1667,  ..., -0.2711,  0.2990,  0.1404],
+        ...,
+        [-0.2130,  0.1326,  0.0167,  ...,  0.2404, -0.2693, -0.3295],
+        [-0.3484,  0.0703, -0.1674,  ...,  0.0699, -0.1284, -0.2474],
+        [-0.0626, -0.1743, -0.0848,  ..., -0.1609, -0.0716, -0.2585]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -0.0000e+00,
+         -6.9849e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.1642e-09,
+          2.3283e-10,  2.3283e-10]], device='cuda:0')
+Epoch 447, bias, value: tensor([-0.0158, -0.0361, -0.0094, -0.0115, -0.0357, -0.0008,  0.0311, -0.0147,
+         0.0529, -0.0115], device='cuda:0'), grad: tensor([ 9.3132e-10,  4.6566e-10, -3.7253e-09,  3.2596e-09, -1.5064e-07,
+        -3.4925e-09,  1.6298e-09,  2.3283e-09,  6.9849e-10,  1.5320e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 446, time 250.35, cls_loss 0.0007 cls_loss_mapping 0.0003 cls_loss_causal 0.4023 re_mapping 0.0026 re_causal 0.0085 /// teacc 99.11 lr 0.00001000
+Epoch 448, weight, value: tensor([[-0.1390, -0.2911, -0.0900,  ..., -0.0883,  0.1912,  0.2024],
+        [-0.2694, -0.2392, -0.0697,  ..., -0.2075, -0.2634, -0.1731],
+        [-0.0675, -0.2189,  0.1668,  ..., -0.2712,  0.2990,  0.1405],
+        ...,
+        [-0.2130,  0.1326,  0.0167,  ...,  0.2404, -0.2693, -0.3297],
+        [-0.3485,  0.0703, -0.1674,  ...,  0.0700, -0.1285, -0.2474],
+        [-0.0626, -0.1743, -0.0848,  ..., -0.1610, -0.0716, -0.2585]],
+       device='cuda:0'), grad: tensor([[ 1.6298e-09,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+         -3.4925e-09, -2.7940e-09],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          1.6298e-09,  2.3283e-10],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  4.1910e-09,
+         -6.9849e-10,  2.3283e-10],
+        ...,
+        [ 0.0000e+00, -2.0955e-09,  0.0000e+00,  ..., -4.8894e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 2.0955e-09,  0.0000e+00,  0.0000e+00,  ..., -8.3819e-09,
+          2.5611e-09,  2.0955e-09],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  5.1223e-09,
+          2.3283e-10,  2.3283e-10]], device='cuda:0')
+Epoch 448, bias, value: tensor([-0.0158, -0.0361, -0.0094, -0.0115, -0.0357, -0.0008,  0.0311, -0.0147,
+         0.0529, -0.0116], device='cuda:0'), grad: tensor([-3.4925e-09, -1.0058e-07,  1.1874e-08,  4.6566e-09,  4.4238e-09,
+         1.1176e-08,  9.3132e-10, -3.4925e-09,  6.3097e-08,  1.3504e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 447, time 250.52, cls_loss 0.0007 cls_loss_mapping 0.0003 cls_loss_causal 0.4229 re_mapping 0.0026 re_causal 0.0087 /// teacc 99.10 lr 0.00001000
+Epoch 449, weight, value: tensor([[-0.1390, -0.2912, -0.0900,  ..., -0.0883,  0.1912,  0.2024],
+        [-0.2694, -0.2392, -0.0697,  ..., -0.2075, -0.2635, -0.1732],
+        [-0.0675, -0.2189,  0.1668,  ..., -0.2712,  0.2991,  0.1407],
+        ...,
+        [-0.2130,  0.1327,  0.0167,  ...,  0.2405, -0.2694, -0.3298],
+        [-0.3485,  0.0703, -0.1674,  ...,  0.0698, -0.1285, -0.2475],
+        [-0.0626, -0.1743, -0.0848,  ..., -0.1610, -0.0716, -0.2586]],
+       device='cuda:0'), grad: tensor([[6.0536e-09, 0.0000e+00, 0.0000e+00,  ..., 4.1910e-09, 4.8894e-09,
+         4.4238e-09],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        ...,
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [3.4925e-09, 0.0000e+00, 0.0000e+00,  ..., 1.8626e-09, 2.7940e-09,
+         2.5611e-09],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 4.6566e-10, 0.0000e+00,
+         0.0000e+00]], device='cuda:0')
+Epoch 449, bias, value: tensor([-0.0157, -0.0362, -0.0094, -0.0114, -0.0357, -0.0007,  0.0310, -0.0147,
+         0.0528, -0.0116], device='cuda:0'), grad: tensor([ 2.3516e-08,  4.6566e-10,  4.6566e-10,  0.0000e+00,  1.8626e-09,
+         2.7344e-06, -2.7716e-06,  6.9849e-10,  1.0012e-08,  2.3283e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 448, time 250.32, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4334 re_mapping 0.0026 re_causal 0.0085 /// teacc 99.10 lr 0.00001000
+Epoch 450, weight, value: tensor([[-0.1391, -0.2912, -0.0900,  ..., -0.0882,  0.1913,  0.2025],
+        [-0.2694, -0.2392, -0.0697,  ..., -0.2075, -0.2635, -0.1732],
+        [-0.0675, -0.2189,  0.1668,  ..., -0.2712,  0.2992,  0.1407],
+        ...,
+        [-0.2131,  0.1327,  0.0167,  ...,  0.2405, -0.2695, -0.3298],
+        [-0.3486,  0.0702, -0.1674,  ...,  0.0698, -0.1286, -0.2475],
+        [-0.0627, -0.1743, -0.0848,  ..., -0.1611, -0.0717, -0.2586]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10,  6.9849e-10,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  2.3283e-10],
+        ...,
+        [ 2.3283e-10, -2.3283e-09,  0.0000e+00,  ..., -3.7253e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ..., -9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.3283e-09,  0.0000e+00,  ...,  3.0268e-09,
+          9.3132e-10,  4.6566e-10]], device='cuda:0')
+Epoch 450, bias, value: tensor([-0.0157, -0.0362, -0.0093, -0.0113, -0.0357, -0.0006,  0.0310, -0.0147,
+         0.0527, -0.0116], device='cuda:0'), grad: tensor([ 2.3283e-10,  3.0268e-09,  9.3132e-10, -3.0268e-09,  0.0000e+00,
+         3.7253e-09,  9.3132e-10, -4.6566e-09, -1.3970e-09,  7.9162e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 449, time 250.43, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4232 re_mapping 0.0026 re_causal 0.0085 /// teacc 99.08 lr 0.00001000
+Epoch 451, weight, value: tensor([[-0.1391, -0.2912, -0.0900,  ..., -0.0882,  0.1914,  0.2026],
+        [-0.2695, -0.2392, -0.0697,  ..., -0.2075, -0.2636, -0.1733],
+        [-0.0675, -0.2189,  0.1668,  ..., -0.2713,  0.2993,  0.1408],
+        ...,
+        [-0.2131,  0.1327,  0.0167,  ...,  0.2405, -0.2695, -0.3299],
+        [-0.3486,  0.0702, -0.1674,  ...,  0.0697, -0.1286, -0.2475],
+        [-0.0627, -0.1744, -0.0848,  ..., -0.1611, -0.0717, -0.2586]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -2.7940e-08, -1.6298e-08],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  2.7940e-09,  0.0000e+00,  ..., -0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.7474e-08,  1.5832e-08]], device='cuda:0')
+Epoch 451, bias, value: tensor([-0.0156, -0.0362, -0.0093, -0.0112, -0.0357, -0.0005,  0.0308, -0.0147,
+         0.0525, -0.0116], device='cuda:0'), grad: tensor([-6.7055e-08,  4.6566e-09,  2.7940e-09, -8.8476e-09,  1.6717e-07,
+         4.6566e-10,  1.3970e-09,  8.8476e-08,  9.3132e-10, -1.9278e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 450, time 250.62, cls_loss 0.0009 cls_loss_mapping 0.0004 cls_loss_causal 0.4244 re_mapping 0.0025 re_causal 0.0083 /// teacc 99.10 lr 0.00001000
+Epoch 452, weight, value: tensor([[-0.1391, -0.2913, -0.0900,  ..., -0.0881,  0.1914,  0.2026],
+        [-0.2696, -0.2393, -0.0697,  ..., -0.2076, -0.2637, -0.1734],
+        [-0.0676, -0.2189,  0.1668,  ..., -0.2714,  0.2992,  0.1407],
+        ...,
+        [-0.2132,  0.1327,  0.0167,  ...,  0.2406, -0.2695, -0.3298],
+        [-0.3487,  0.0702, -0.1674,  ...,  0.0696, -0.1286, -0.2475],
+        [-0.0628, -0.1744, -0.0848,  ..., -0.1611, -0.0717, -0.2587]],
+       device='cuda:0'), grad: tensor([[ 1.0710e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.0489e-08,  2.2352e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -3.7253e-09,  ..., -4.1910e-09,
+         -4.6566e-10, -3.2596e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  3.2596e-09,
+          9.3132e-10,  3.2596e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  9.3132e-10]], device='cuda:0')
+Epoch 452, bias, value: tensor([-0.0156, -0.0363, -0.0093, -0.0112, -0.0357, -0.0005,  0.0308, -0.0146,
+         0.0525, -0.0116], device='cuda:0'), grad: tensor([ 8.6147e-08,  1.3970e-08, -2.8405e-08,  4.6566e-10, -2.3283e-08,
+         2.7940e-09, -7.9162e-08,  4.6566e-09,  2.4680e-08,  2.7940e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 451, time 250.63, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4081 re_mapping 0.0025 re_causal 0.0082 /// teacc 99.09 lr 0.00001000
+Epoch 453, weight, value: tensor([[-0.1392, -0.2913, -0.0900,  ..., -0.0881,  0.1914,  0.2026],
+        [-0.2696, -0.2393, -0.0696,  ..., -0.2076, -0.2637, -0.1734],
+        [-0.0676, -0.2190,  0.1668,  ..., -0.2714,  0.2993,  0.1408],
+        ...,
+        [-0.2133,  0.1327,  0.0166,  ...,  0.2406, -0.2696, -0.3299],
+        [-0.3488,  0.0702, -0.1674,  ...,  0.0696, -0.1287, -0.2475],
+        [-0.0628, -0.1744, -0.0848,  ..., -0.1612, -0.0717, -0.2587]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.3970e-09,  0.0000e+00,  ...,  1.3970e-09,
+         -4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -3.2596e-09,  0.0000e+00,  ..., -3.2596e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  1.3970e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 453, bias, value: tensor([-0.0157, -0.0362, -0.0093, -0.0112, -0.0357, -0.0005,  0.0309, -0.0147,
+         0.0525, -0.0116], device='cuda:0'), grad: tensor([ 9.3132e-10, -7.4506e-09,  1.8626e-09,  1.3970e-09,  5.1223e-09,
+         4.6566e-10,  7.4506e-09, -5.5879e-09,  3.7253e-09, -9.3132e-10],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 452, time 250.79, cls_loss 0.0009 cls_loss_mapping 0.0004 cls_loss_causal 0.4297 re_mapping 0.0026 re_causal 0.0083 /// teacc 99.09 lr 0.00001000
+Epoch 454, weight, value: tensor([[-0.1392, -0.2914, -0.0900,  ..., -0.0882,  0.1914,  0.2026],
+        [-0.2696, -0.2394, -0.0696,  ..., -0.2077, -0.2637, -0.1733],
+        [-0.0676, -0.2190,  0.1668,  ..., -0.2715,  0.2993,  0.1407],
+        ...,
+        [-0.2133,  0.1328,  0.0166,  ...,  0.2407, -0.2697, -0.3300],
+        [-0.3489,  0.0702, -0.1674,  ...,  0.0696, -0.1287, -0.2476],
+        [-0.0628, -0.1745, -0.0848,  ..., -0.1612, -0.0717, -0.2587]],
+       device='cuda:0'), grad: tensor([[ 5.1223e-09,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09,  1.3970e-09],
+        [ 4.6566e-10,  2.3283e-09,  0.0000e+00,  ...,  1.8626e-09,
+          4.6566e-10,  0.0000e+00],
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -2.3283e-09,  0.0000e+00,  ..., -2.3283e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  4.6566e-10,  0.0000e+00,  ..., -4.6566e-09,
+          4.6566e-10,  4.6566e-10],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 454, bias, value: tensor([-0.0157, -0.0363, -0.0095, -0.0112, -0.0358, -0.0006,  0.0309, -0.0146,
+         0.0525, -0.0116], device='cuda:0'), grad: tensor([ 1.1176e-08,  6.9849e-09,  2.3283e-09,  5.5879e-09,  1.2573e-08,
+         3.8650e-08, -6.3796e-08, -6.0536e-09, -8.8476e-09,  1.8626e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 453, time 250.50, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4328 re_mapping 0.0025 re_causal 0.0084 /// teacc 99.09 lr 0.00001000
+Epoch 455, weight, value: tensor([[-0.1392, -0.2914, -0.0900,  ..., -0.0881,  0.1915,  0.2027],
+        [-0.2696, -0.2394, -0.0696,  ..., -0.2077, -0.2637, -0.1733],
+        [-0.0676, -0.2190,  0.1668,  ..., -0.2715,  0.2994,  0.1407],
+        ...,
+        [-0.2134,  0.1328,  0.0166,  ...,  0.2407, -0.2698, -0.3300],
+        [-0.3489,  0.0702, -0.1674,  ...,  0.0697, -0.1287, -0.2476],
+        [-0.0628, -0.1745, -0.0848,  ..., -0.1613, -0.0718, -0.2588]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  8.3819e-09,  0.0000e+00,  ...,  6.9849e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+         -9.3132e-10, -0.0000e+00],
+        ...,
+        [ 0.0000e+00, -6.1467e-08,  0.0000e+00,  ..., -5.0757e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 1.3970e-09,  1.3970e-09,  0.0000e+00,  ...,  2.3283e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  3.7719e-08,  0.0000e+00,  ...,  3.2596e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 455, bias, value: tensor([-0.0156, -0.0363, -0.0094, -0.0112, -0.0357, -0.0006,  0.0309, -0.0146,
+         0.0526, -0.0117], device='cuda:0'), grad: tensor([ 2.3283e-09,  3.2596e-08, -2.3283e-09,  5.5879e-08,  1.8626e-09,
+        -6.0536e-09,  3.2596e-09, -2.2864e-07,  4.6566e-09,  1.4529e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 454, time 250.83, cls_loss 0.0009 cls_loss_mapping 0.0004 cls_loss_causal 0.4313 re_mapping 0.0025 re_causal 0.0085 /// teacc 99.11 lr 0.00001000
+Epoch 456, weight, value: tensor([[-0.1392, -0.2914, -0.0900,  ..., -0.0881,  0.1916,  0.2028],
+        [-0.2697, -0.2394, -0.0696,  ..., -0.2077, -0.2637, -0.1733],
+        [-0.0677, -0.2190,  0.1668,  ..., -0.2717,  0.2994,  0.1407],
+        ...,
+        [-0.2134,  0.1329,  0.0166,  ...,  0.2408, -0.2699, -0.3301],
+        [-0.3490,  0.0701, -0.1675,  ...,  0.0696, -0.1287, -0.2476],
+        [-0.0629, -0.1746, -0.0848,  ..., -0.1614, -0.0718, -0.2588]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  5.1223e-09,
+          1.3970e-09,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+         -1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -4.6566e-10,  0.0000e+00,  ..., -1.0245e-08,
+         -1.3970e-09, -1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ..., -1.8626e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 456, bias, value: tensor([-0.0156, -0.0363, -0.0094, -0.0112, -0.0356, -0.0005,  0.0308, -0.0146,
+         0.0525, -0.0118], device='cuda:0'), grad: tensor([ 5.5414e-08, -9.9186e-08,  3.7253e-09,  1.3970e-09, -9.5926e-08,
+         1.4435e-08,  3.5390e-08, -5.5879e-09,  8.8476e-09,  8.2422e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 455, time 250.91, cls_loss 0.0009 cls_loss_mapping 0.0004 cls_loss_causal 0.4448 re_mapping 0.0025 re_causal 0.0084 /// teacc 99.10 lr 0.00001000
+Epoch 457, weight, value: tensor([[-0.1392, -0.2915, -0.0900,  ..., -0.0881,  0.1916,  0.2029],
+        [-0.2697, -0.2395, -0.0695,  ..., -0.2076, -0.2638, -0.1734],
+        [-0.0677, -0.2191,  0.1668,  ..., -0.2717,  0.2995,  0.1410],
+        ...,
+        [-0.2134,  0.1330,  0.0165,  ...,  0.2407, -0.2700, -0.3303],
+        [-0.3490,  0.0701, -0.1675,  ...,  0.0696, -0.1288, -0.2477],
+        [-0.0629, -0.1746, -0.0848,  ..., -0.1615, -0.0718, -0.2589]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -4.6566e-10,  0.0000e+00,  ..., -4.6566e-10,
+         -4.6566e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -6.5193e-09,  0.0000e+00,  ..., -9.3132e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  1.8626e-09,  0.0000e+00,  ...,  2.7940e-09,
+          9.3132e-10,  4.6566e-10],
+        [ 2.3283e-09,  6.0536e-09,  0.0000e+00,  ...,  1.3504e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 457, bias, value: tensor([-0.0155, -0.0363, -0.0093, -0.0111, -0.0355, -0.0005,  0.0307, -0.0146,
+         0.0525, -0.0118], device='cuda:0'), grad: tensor([ 1.8626e-09,  7.9162e-09, -2.7940e-09,  8.4750e-08, -4.8429e-08,
+        -9.0804e-08, -1.8626e-09, -9.3132e-09,  1.3504e-08,  5.4948e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 456, time 250.29, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4220 re_mapping 0.0025 re_causal 0.0083 /// teacc 99.11 lr 0.00001000
+Epoch 458, weight, value: tensor([[-0.1393, -0.2915, -0.0900,  ..., -0.0881,  0.1916,  0.2029],
+        [-0.2698, -0.2395, -0.0695,  ..., -0.2076, -0.2638, -0.1734],
+        [-0.0677, -0.2190,  0.1668,  ..., -0.2718,  0.2996,  0.1410],
+        ...,
+        [-0.2135,  0.1330,  0.0165,  ...,  0.2407, -0.2701, -0.3304],
+        [-0.3491,  0.0701, -0.1675,  ...,  0.0696, -0.1288, -0.2477],
+        [-0.0629, -0.1747, -0.0848,  ..., -0.1615, -0.0719, -0.2590]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+         -1.7229e-08, -1.3970e-08],
+        [ 1.5460e-07,  4.6566e-10,  0.0000e+00,  ...,  6.4727e-08,
+          4.6566e-10,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 2.8871e-08,  0.0000e+00,  0.0000e+00,  ...,  1.3504e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          6.5193e-09,  4.6566e-09]], device='cuda:0')
+Epoch 458, bias, value: tensor([-0.0156, -0.0363, -0.0092, -0.0111, -0.0355, -0.0005,  0.0308, -0.0146,
+         0.0525, -0.0118], device='cuda:0'), grad: tensor([-2.9802e-08,  3.4133e-07,  1.3970e-09,  4.6566e-10,  5.1223e-09,
+         1.0189e-06, -1.4026e-06,  2.7940e-09,  6.4261e-08,  5.5879e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 457, time 250.44, cls_loss 0.0009 cls_loss_mapping 0.0004 cls_loss_causal 0.4257 re_mapping 0.0026 re_causal 0.0084 /// teacc 99.11 lr 0.00001000
+Epoch 459, weight, value: tensor([[-0.1393, -0.2916, -0.0900,  ..., -0.0881,  0.1916,  0.2029],
+        [-0.2699, -0.2395, -0.0695,  ..., -0.2076, -0.2639, -0.1734],
+        [-0.0677, -0.2191,  0.1669,  ..., -0.2719,  0.2997,  0.1410],
+        ...,
+        [-0.2137,  0.1330,  0.0165,  ...,  0.2408, -0.2702, -0.3305],
+        [-0.3492,  0.0701, -0.1675,  ...,  0.0697, -0.1288, -0.2478],
+        [-0.0629, -0.1748, -0.0848,  ..., -0.1616, -0.0719, -0.2591]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  1.3970e-09,  0.0000e+00,  ...,  4.6566e-10,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00, -4.1910e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -5.5879e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  3.2596e-09,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-09,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 459, bias, value: tensor([-0.0156, -0.0363, -0.0093, -0.0110, -0.0354, -0.0005,  0.0308, -0.0146,
+         0.0525, -0.0119], device='cuda:0'), grad: tensor([ 9.3132e-10,  1.0896e-07, -3.3062e-08,  6.2399e-08, -3.8510e-07,
+        -6.7055e-08,  5.1223e-09,  2.6543e-08,  3.2596e-09,  2.8545e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 458, time 251.08, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4383 re_mapping 0.0025 re_causal 0.0085 /// teacc 99.06 lr 0.00001000
+Epoch 460, weight, value: tensor([[-0.1394, -0.2916, -0.0900,  ..., -0.0881,  0.1916,  0.2029],
+        [-0.2699, -0.2396, -0.0695,  ..., -0.2076, -0.2639, -0.1734],
+        [-0.0677, -0.2190,  0.1669,  ..., -0.2719,  0.2998,  0.1411],
+        ...,
+        [-0.2137,  0.1330,  0.0165,  ...,  0.2408, -0.2703, -0.3305],
+        [-0.3493,  0.0701, -0.1675,  ...,  0.0697, -0.1289, -0.2478],
+        [-0.0630, -0.1748, -0.0848,  ..., -0.1617, -0.0720, -0.2592]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.8626e-09, -9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  8.8476e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -4.6566e-09,  4.6566e-10],
+        ...,
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -1.3504e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          6.9849e-09,  1.8626e-09]], device='cuda:0')
+Epoch 460, bias, value: tensor([-0.0156, -0.0362, -0.0092, -0.0109, -0.0354, -0.0006,  0.0308, -0.0147,
+         0.0525, -0.0120], device='cuda:0'), grad: tensor([ 4.6566e-10,  3.4738e-07, -1.3504e-08,  2.1886e-08,  1.0710e-08,
+         4.4238e-08,  1.1967e-07,  2.3283e-09, -5.5321e-07,  2.7940e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 459, time 250.52, cls_loss 0.0006 cls_loss_mapping 0.0003 cls_loss_causal 0.4059 re_mapping 0.0024 re_causal 0.0082 /// teacc 99.11 lr 0.00001000
+Epoch 461, weight, value: tensor([[-0.1394, -0.2916, -0.0900,  ..., -0.0880,  0.1918,  0.2031],
+        [-0.2699, -0.2396, -0.0695,  ..., -0.2076, -0.2640, -0.1734],
+        [-0.0677, -0.2190,  0.1669,  ..., -0.2719,  0.2998,  0.1410],
+        ...,
+        [-0.2137,  0.1330,  0.0165,  ...,  0.2408, -0.2704, -0.3306],
+        [-0.3494,  0.0700, -0.1675,  ...,  0.0697, -0.1289, -0.2478],
+        [-0.0630, -0.1748, -0.0848,  ..., -0.1617, -0.0720, -0.2592]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -2.7940e-09,  0.0000e+00,  ..., -4.1910e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  4.6566e-10,  0.0000e+00,  ...,  1.3970e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.3283e-09,  0.0000e+00,  ...,  3.2596e-09,
+          4.6566e-10,  0.0000e+00]], device='cuda:0')
+Epoch 461, bias, value: tensor([-0.0154, -0.0362, -0.0092, -0.0110, -0.0353, -0.0006,  0.0307, -0.0147,
+         0.0525, -0.0120], device='cuda:0'), grad: tensor([ 0.0000e+00,  2.3283e-09,  4.6566e-10,  6.9849e-09,  9.3132e-10,
+        -1.1176e-08,  3.7253e-09,  1.3970e-09,  3.2596e-09, -4.6566e-10],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 460, time 251.02, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4459 re_mapping 0.0025 re_causal 0.0086 /// teacc 99.11 lr 0.00001000
+Epoch 462, weight, value: tensor([[-0.1395, -0.2917, -0.0900,  ..., -0.0880,  0.1918,  0.2031],
+        [-0.2700, -0.2397, -0.0695,  ..., -0.2077, -0.2640, -0.1734],
+        [-0.0677, -0.2190,  0.1669,  ..., -0.2720,  0.2999,  0.1411],
+        ...,
+        [-0.2138,  0.1331,  0.0165,  ...,  0.2409, -0.2705, -0.3307],
+        [-0.3494,  0.0700, -0.1675,  ...,  0.0697, -0.1290, -0.2479],
+        [-0.0630, -0.1749, -0.0848,  ..., -0.1617, -0.0720, -0.2592]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          6.5193e-09,  5.1223e-09],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -9.3132e-09, -4.1910e-09],
+        ...,
+        [ 0.0000e+00, -3.7253e-09,  0.0000e+00,  ..., -4.1910e-09,
+          1.3970e-09,  1.3970e-09],
+        [ 8.8476e-09,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          2.5146e-08,  1.5367e-08],
+        [ 0.0000e+00,  2.7940e-09,  0.0000e+00,  ...,  2.7940e-09,
+          5.1223e-09,  4.6566e-10]], device='cuda:0')
+Epoch 462, bias, value: tensor([-0.0154, -0.0363, -0.0091, -0.0109, -0.0353, -0.0006,  0.0307, -0.0146,
+         0.0525, -0.0121], device='cuda:0'), grad: tensor([ 2.4214e-08,  1.8626e-09, -3.5390e-08,  9.3132e-10, -3.2596e-09,
+         2.7940e-09, -1.0803e-07, -4.1910e-09,  9.7789e-08,  2.7008e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 461, time 250.80, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4110 re_mapping 0.0025 re_causal 0.0083 /// teacc 99.09 lr 0.00001000
+Epoch 463, weight, value: tensor([[-0.1395, -0.2917, -0.0900,  ..., -0.0878,  0.1920,  0.2034],
+        [-0.2700, -0.2397, -0.0695,  ..., -0.2077, -0.2640, -0.1734],
+        [-0.0678, -0.2190,  0.1670,  ..., -0.2720,  0.3000,  0.1412],
+        ...,
+        [-0.2138,  0.1332,  0.0165,  ...,  0.2410, -0.2706, -0.3308],
+        [-0.3495,  0.0700, -0.1675,  ...,  0.0697, -0.1290, -0.2479],
+        [-0.0631, -0.1750, -0.0848,  ..., -0.1619, -0.0721, -0.2593]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.6298e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10, -0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.5832e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          4.6566e-10,  4.6566e-10]], device='cuda:0')
+Epoch 463, bias, value: tensor([-0.0152, -0.0363, -0.0090, -0.0109, -0.0349, -0.0006,  0.0306, -0.0146,
+         0.0525, -0.0123], device='cuda:0'), grad: tensor([ 4.6566e-10,  9.3132e-10, -1.0803e-07,  5.1223e-09,  1.5367e-08,
+        -1.8626e-09,  1.8626e-09,  3.7253e-09,  1.1455e-07, -2.7474e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 462, time 250.68, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4331 re_mapping 0.0025 re_causal 0.0084 /// teacc 99.09 lr 0.00001000
+Epoch 464, weight, value: tensor([[-0.1396, -0.2917, -0.0900,  ..., -0.0877,  0.1921,  0.2034],
+        [-0.2700, -0.2397, -0.0695,  ..., -0.2077, -0.2640, -0.1733],
+        [-0.0678, -0.2190,  0.1670,  ..., -0.2721,  0.3001,  0.1411],
+        ...,
+        [-0.2139,  0.1333,  0.0165,  ...,  0.2410, -0.2706, -0.3308],
+        [-0.3495,  0.0700, -0.1675,  ...,  0.0697, -0.1291, -0.2479],
+        [-0.0631, -0.1752, -0.0848,  ..., -0.1621, -0.0721, -0.2593]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  1.3970e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          9.3132e-10,  4.6566e-10],
+        ...,
+        [ 0.0000e+00, -1.2107e-08,  0.0000e+00,  ..., -1.2573e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ..., -9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  8.8476e-09,  0.0000e+00,  ...,  9.3132e-09,
+          4.6566e-10,  4.6566e-10]], device='cuda:0')
+Epoch 464, bias, value: tensor([-0.0152, -0.0363, -0.0091, -0.0109, -0.0348, -0.0006,  0.0306, -0.0146,
+         0.0525, -0.0125], device='cuda:0'), grad: tensor([ 4.6566e-10,  4.6566e-09,  6.9849e-09,  2.3283e-09,  1.8626e-09,
+         2.3283e-09, -1.4435e-08, -3.3528e-08, -5.1223e-09,  4.0047e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 463, time 250.68, cls_loss 0.0009 cls_loss_mapping 0.0004 cls_loss_causal 0.4468 re_mapping 0.0025 re_causal 0.0086 /// teacc 99.08 lr 0.00001000
+Epoch 465, weight, value: tensor([[-0.1396, -0.2917, -0.0900,  ..., -0.0877,  0.1921,  0.2034],
+        [-0.2700, -0.2398, -0.0695,  ..., -0.2078, -0.2641, -0.1732],
+        [-0.0678, -0.2190,  0.1670,  ..., -0.2721,  0.3003,  0.1411],
+        ...,
+        [-0.2139,  0.1333,  0.0165,  ...,  0.2411, -0.2708, -0.3309],
+        [-0.3496,  0.0699, -0.1675,  ...,  0.0696, -0.1291, -0.2480],
+        [-0.0631, -0.1752, -0.0848,  ..., -0.1622, -0.0719, -0.2594]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ..., -4.6566e-10,
+         -1.3970e-09, -9.3132e-10],
+        [ 0.0000e+00,  2.3283e-09,  0.0000e+00,  ...,  2.3283e-09,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -2.8405e-08,  0.0000e+00,  ..., -4.1910e-08,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  2.1886e-08,  0.0000e+00,  ...,  2.5611e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.3283e-09,  0.0000e+00,  ...,  1.1176e-08,
+          4.6566e-10,  4.6566e-10]], device='cuda:0')
+Epoch 465, bias, value: tensor([-0.0153, -0.0363, -0.0090, -0.0109, -0.0347, -0.0005,  0.0305, -0.0146,
+         0.0523, -0.0125], device='cuda:0'), grad: tensor([-2.7940e-09,  6.5193e-09,  0.0000e+00,  1.3970e-09,  9.3132e-10,
+         2.3283e-09,  9.3132e-10, -8.6613e-08,  5.7742e-08,  1.9558e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 464, time 250.29, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4373 re_mapping 0.0025 re_causal 0.0085 /// teacc 99.11 lr 0.00001000
+Epoch 466, weight, value: tensor([[-0.1397, -0.2917, -0.0900,  ..., -0.0876,  0.1921,  0.2035],
+        [-0.2701, -0.2398, -0.0695,  ..., -0.2078, -0.2641, -0.1732],
+        [-0.0678, -0.2190,  0.1670,  ..., -0.2721,  0.3003,  0.1412],
+        ...,
+        [-0.2140,  0.1333,  0.0165,  ...,  0.2411, -0.2709, -0.3310],
+        [-0.3498,  0.0699, -0.1675,  ...,  0.0695, -0.1292, -0.2480],
+        [-0.0632, -0.1753, -0.0848,  ..., -0.1623, -0.0720, -0.2596]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -2.7940e-09,
+         -5.5879e-09, -6.0536e-09],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  1.3970e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+         -2.4680e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -3.7253e-09,  0.0000e+00,  ..., -3.2596e-09,
+          6.5193e-09,  4.1910e-09],
+        [ 1.3970e-09,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.3970e-09,  0.0000e+00,  ...,  3.2596e-09,
+          1.3970e-09,  1.3970e-09]], device='cuda:0')
+Epoch 466, bias, value: tensor([-0.0153, -0.0363, -0.0090, -0.0108, -0.0345, -0.0006,  0.0306, -0.0146,
+         0.0523, -0.0126], device='cuda:0'), grad: tensor([-1.2107e-08,  4.6566e-09, -3.5390e-08,  3.1665e-08,  3.2596e-09,
+        -6.5193e-09,  4.6566e-09,  6.0536e-09,  7.9162e-09, -9.3132e-10],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 465, time 250.99, cls_loss 0.0009 cls_loss_mapping 0.0004 cls_loss_causal 0.4509 re_mapping 0.0025 re_causal 0.0085 /// teacc 99.11 lr 0.00001000
+Epoch 467, weight, value: tensor([[-0.1397, -0.2918, -0.0900,  ..., -0.0876,  0.1922,  0.2036],
+        [-0.2701, -0.2399, -0.0695,  ..., -0.2077, -0.2641, -0.1733],
+        [-0.0678, -0.2191,  0.1670,  ..., -0.2722,  0.3004,  0.1413],
+        ...,
+        [-0.2141,  0.1334,  0.0165,  ...,  0.2410, -0.2709, -0.3312],
+        [-0.3499,  0.0698, -0.1675,  ...,  0.0695, -0.1293, -0.2481],
+        [-0.0632, -0.1753, -0.0848,  ..., -0.1624, -0.0719, -0.2596]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  2.3283e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+         -3.7253e-09, -4.6566e-10],
+        ...,
+        [ 0.0000e+00, -3.7253e-08, -9.3132e-10,  ..., -4.7963e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          3.7253e-09,  4.6566e-10],
+        [ 0.0000e+00,  3.7253e-08,  9.3132e-10,  ...,  6.8452e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 467, bias, value: tensor([-0.0153, -0.0362, -0.0090, -0.0104, -0.0344, -0.0007,  0.0305, -0.0146,
+         0.0522, -0.0127], device='cuda:0'), grad: tensor([ 1.8626e-09,  1.3039e-08, -2.1420e-08,  9.3132e-10, -1.4482e-07,
+         9.3132e-10,  4.1910e-09, -8.3819e-08,  2.5146e-08,  2.0955e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 466, time 250.31, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4187 re_mapping 0.0024 re_causal 0.0081 /// teacc 99.13 lr 0.00001000
+Epoch 468, weight, value: tensor([[-0.1397, -0.2918, -0.0900,  ..., -0.0875,  0.1922,  0.2036],
+        [-0.2702, -0.2400, -0.0695,  ..., -0.2077, -0.2642, -0.1733],
+        [-0.0678, -0.2191,  0.1670,  ..., -0.2722,  0.3005,  0.1414],
+        ...,
+        [-0.2142,  0.1335,  0.0165,  ...,  0.2411, -0.2710, -0.3312],
+        [-0.3500,  0.0698, -0.1675,  ...,  0.0695, -0.1294, -0.2481],
+        [-0.0632, -0.1754, -0.0848,  ..., -0.1626, -0.0720, -0.2597]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -1.3970e-09,  0.0000e+00,  ..., -1.3970e-09,
+          0.0000e+00, -0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ..., -4.6566e-10,
+          1.3970e-09,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 468, bias, value: tensor([-0.0152, -0.0363, -0.0089, -0.0104, -0.0342, -0.0007,  0.0305, -0.0146,
+         0.0522, -0.0129], device='cuda:0'), grad: tensor([ 4.6566e-10,  6.0536e-09,  4.6566e-10,  1.8626e-09, -5.5414e-08,
+         1.3970e-09, -5.5879e-09, -1.3970e-09,  5.1223e-09,  4.6566e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 467, time 250.15, cls_loss 0.0009 cls_loss_mapping 0.0004 cls_loss_causal 0.4478 re_mapping 0.0025 re_causal 0.0085 /// teacc 99.10 lr 0.00001000
+Epoch 469, weight, value: tensor([[-0.1398, -0.2918, -0.0900,  ..., -0.0875,  0.1922,  0.2036],
+        [-0.2702, -0.2400, -0.0695,  ..., -0.2078, -0.2642, -0.1733],
+        [-0.0678, -0.2190,  0.1670,  ..., -0.2722,  0.3006,  0.1414],
+        ...,
+        [-0.2144,  0.1335,  0.0165,  ...,  0.2411, -0.2711, -0.3313],
+        [-0.3500,  0.0697, -0.1675,  ...,  0.0695, -0.1294, -0.2482],
+        [-0.0632, -0.1755, -0.0848,  ..., -0.1627, -0.0718, -0.2598]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 469, bias, value: tensor([-0.0154, -0.0363, -0.0089, -0.0103, -0.0342, -0.0007,  0.0306, -0.0146,
+         0.0521, -0.0128], device='cuda:0'), grad: tensor([ 4.6566e-10,  9.3132e-10,  4.6566e-10,  9.3132e-10,  3.2596e-09,
+         9.3132e-10,  0.0000e+00,  2.4680e-08, -2.7940e-09, -2.5611e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 468, time 250.51, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4293 re_mapping 0.0024 re_causal 0.0084 /// teacc 99.12 lr 0.00001000
+Epoch 470, weight, value: tensor([[-0.1399, -0.2918, -0.0900,  ..., -0.0875,  0.1922,  0.2036],
+        [-0.2702, -0.2400, -0.0695,  ..., -0.2078, -0.2643, -0.1733],
+        [-0.0679, -0.2190,  0.1670,  ..., -0.2722,  0.3007,  0.1414],
+        ...,
+        [-0.2144,  0.1335,  0.0165,  ...,  0.2412, -0.2712, -0.3314],
+        [-0.3501,  0.0697, -0.1675,  ...,  0.0694, -0.1295, -0.2482],
+        [-0.0633, -0.1755, -0.0848,  ..., -0.1627, -0.0719, -0.2599]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  3.1013e-07,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00, -2.7940e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -2.8405e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ..., -3.2829e-07,
+          9.3132e-10,  0.0000e+00],
+        [ 1.3970e-09,  9.3132e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 2.7940e-09,  1.8626e-09,  0.0000e+00,  ...,  1.7229e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 470, bias, value: tensor([-0.0154, -0.0364, -0.0088, -0.0103, -0.0342, -0.0007,  0.0306, -0.0145,
+         0.0521, -0.0128], device='cuda:0'), grad: tensor([ 9.3132e-10,  8.9081e-07, -2.4401e-07,  2.5891e-07, -8.3819e-09,
+        -3.2596e-08,  9.3132e-10, -9.3039e-07,  6.9849e-09,  6.0070e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 469, time 250.28, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4113 re_mapping 0.0025 re_causal 0.0083 /// teacc 99.11 lr 0.00001000
+Epoch 471, weight, value: tensor([[-0.1399, -0.2919, -0.0900,  ..., -0.0873,  0.1924,  0.2039],
+        [-0.2703, -0.2400, -0.0695,  ..., -0.2078, -0.2644, -0.1734],
+        [-0.0679, -0.2190,  0.1670,  ..., -0.2723,  0.3008,  0.1416],
+        ...,
+        [-0.2145,  0.1335,  0.0165,  ...,  0.2413, -0.2713, -0.3315],
+        [-0.3502,  0.0696, -0.1675,  ...,  0.0694, -0.1296, -0.2483],
+        [-0.0634, -0.1755, -0.0848,  ..., -0.1627, -0.0719, -0.2601]],
+       device='cuda:0'), grad: tensor([[ 1.1409e-08,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          2.8638e-08,  1.0477e-08],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  1.1642e-09,
+          2.3283e-10,  2.3283e-10],
+        [ 2.3283e-09,  0.0000e+00,  0.0000e+00,  ..., -2.3283e-09,
+         -1.3970e-09, -9.3132e-10],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  1.6298e-09,
+          6.9849e-10,  4.6566e-10],
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ..., -2.3283e-10,
+          6.2864e-09,  2.3283e-09],
+        [ 1.6298e-08,  2.3283e-10,  0.0000e+00,  ...,  7.9162e-09,
+          2.3283e-10,  2.3283e-10]], device='cuda:0')
+Epoch 471, bias, value: tensor([-0.0152, -0.0364, -0.0088, -0.0102, -0.0342, -0.0006,  0.0304, -0.0145,
+         0.0520, -0.0128], device='cuda:0'), grad: tensor([ 5.7509e-08,  6.2864e-09, -9.0804e-09,  4.9826e-07,  2.2817e-08,
+        -5.4250e-07, -7.4040e-08,  1.1874e-08,  2.4913e-08,  2.7940e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 470, time 250.33, cls_loss 0.0008 cls_loss_mapping 0.0003 cls_loss_causal 0.3858 re_mapping 0.0025 re_causal 0.0081 /// teacc 99.10 lr 0.00001000
+Epoch 472, weight, value: tensor([[-0.1400, -0.2919, -0.0900,  ..., -0.0873,  0.1924,  0.2039],
+        [-0.2703, -0.2402, -0.0694,  ..., -0.2078, -0.2644, -0.1734],
+        [-0.0680, -0.2191,  0.1671,  ..., -0.2724,  0.3008,  0.1416],
+        ...,
+        [-0.2145,  0.1337,  0.0164,  ...,  0.2413, -0.2713, -0.3316],
+        [-0.3503,  0.0696, -0.1675,  ...,  0.0694, -0.1297, -0.2483],
+        [-0.0635, -0.1756, -0.0848,  ..., -0.1628, -0.0720, -0.2602]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  3.4925e-09,  0.0000e+00,  ...,  6.9849e-10,
+          2.5611e-09,  2.3283e-10],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.1642e-09,  0.0000e+00,  ...,  4.6566e-10,
+          1.1642e-09,  2.3283e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [-1.3970e-09, -2.1886e-08,  0.0000e+00,  ..., -4.8894e-09,
+         -1.5134e-08, -9.3132e-10],
+        [ 2.3283e-10,  2.5611e-09,  0.0000e+00,  ...,  6.9849e-10,
+          2.3283e-09,  4.6566e-10]], device='cuda:0')
+Epoch 472, bias, value: tensor([-0.0152, -0.0364, -0.0088, -0.0103, -0.0342, -0.0006,  0.0304, -0.0145,
+         0.0520, -0.0128], device='cuda:0'), grad: tensor([ 2.2119e-08,  9.3132e-10,  8.1491e-09,  1.3504e-08, -6.7521e-09,
+        -1.6298e-09,  7.7765e-08,  1.3970e-09, -1.3039e-07,  2.1653e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 471, time 250.21, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4249 re_mapping 0.0026 re_causal 0.0084 /// teacc 99.11 lr 0.00001000
+Epoch 473, weight, value: tensor([[-0.1400, -0.2919, -0.0900,  ..., -0.0873,  0.1924,  0.2039],
+        [-0.2704, -0.2403, -0.0694,  ..., -0.2078, -0.2644, -0.1734],
+        [-0.0681, -0.2192,  0.1671,  ..., -0.2725,  0.3008,  0.1416],
+        ...,
+        [-0.2145,  0.1338,  0.0164,  ...,  0.2413, -0.2714, -0.3316],
+        [-0.3504,  0.0695, -0.1675,  ...,  0.0694, -0.1297, -0.2483],
+        [-0.0635, -0.1756, -0.0848,  ..., -0.1629, -0.0721, -0.2605]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09, -9.3132e-10,  0.0000e+00,  ...,  1.6298e-09,
+         -1.2573e-08, -1.2107e-08],
+        [ 0.0000e+00,  4.6566e-10, -2.0955e-09,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -1.6298e-09,  0.0000e+00,  ..., -0.0000e+00,
+         -8.3819e-09, -7.2177e-09],
+        ...,
+        [ 2.3283e-10,  6.9849e-10,  6.9849e-10,  ...,  5.3551e-09,
+          1.3970e-09,  1.6298e-09],
+        [ 5.1223e-09,  4.6566e-10,  0.0000e+00,  ..., -9.0804e-09,
+          4.4238e-09,  4.6566e-09],
+        [ 3.7253e-09,  6.9849e-10, -1.1642e-09,  ...,  1.2573e-08,
+          1.4435e-08,  1.4435e-08]], device='cuda:0')
+Epoch 473, bias, value: tensor([-0.0152, -0.0364, -0.0089, -0.0103, -0.0341, -0.0006,  0.0304, -0.0145,
+         0.0520, -0.0130], device='cuda:0'), grad: tensor([-3.6554e-08, -1.7695e-08, -2.9569e-08,  1.5600e-08,  1.2340e-08,
+        -4.4005e-08,  1.7695e-08,  3.6554e-08,  6.7521e-09,  4.0978e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 472, time 250.58, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4545 re_mapping 0.0024 re_causal 0.0087 /// teacc 99.14 lr 0.00001000
+Epoch 474, weight, value: tensor([[-0.1400, -0.2919, -0.0900,  ..., -0.0872,  0.1925,  0.2040],
+        [-0.2705, -0.2404, -0.0694,  ..., -0.2078, -0.2645, -0.1735],
+        [-0.0682, -0.2191,  0.1670,  ..., -0.2726,  0.3009,  0.1416],
+        ...,
+        [-0.2146,  0.1339,  0.0164,  ...,  0.2413, -0.2714, -0.3316],
+        [-0.3505,  0.0695, -0.1675,  ...,  0.0693, -0.1298, -0.2484],
+        [-0.0635, -0.1756, -0.0848,  ..., -0.1630, -0.0722, -0.2606]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.9849e-10,
+          2.3283e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.1223e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -8.3819e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 474, bias, value: tensor([-0.0152, -0.0364, -0.0088, -0.0103, -0.0340, -0.0005,  0.0303, -0.0145,
+         0.0519, -0.0130], device='cuda:0'), grad: tensor([ 6.9849e-10,  0.0000e+00,  1.7928e-08,  0.0000e+00, -1.0477e-08,
+         3.7253e-09,  3.4925e-09,  2.7940e-09, -2.9802e-08,  1.5832e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 473, time 250.31, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4233 re_mapping 0.0025 re_causal 0.0084 /// teacc 99.13 lr 0.00001000
+Epoch 475, weight, value: tensor([[-0.1401, -0.2919, -0.0900,  ..., -0.0872,  0.1925,  0.2040],
+        [-0.2705, -0.2405, -0.0694,  ..., -0.2079, -0.2646, -0.1736],
+        [-0.0682, -0.2192,  0.1671,  ..., -0.2726,  0.3010,  0.1416],
+        ...,
+        [-0.2146,  0.1340,  0.0164,  ...,  0.2414, -0.2715, -0.3316],
+        [-0.3507,  0.0694, -0.1675,  ...,  0.0693, -0.1299, -0.2485],
+        [-0.0636, -0.1758, -0.0848,  ..., -0.1631, -0.0723, -0.2608]],
+       device='cuda:0'), grad: tensor([[ 1.2610e-06,  2.3283e-10,  0.0000e+00,  ...,  1.4226e-07,
+          1.6764e-06,  1.4352e-06],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-10,  2.3283e-10],
+        [ 9.3132e-10, -2.3283e-10,  0.0000e+00,  ...,  0.0000e+00,
+          6.9849e-10,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.3970e-09,  4.6566e-10,  0.0000e+00,  ...,  2.3283e-10,
+          1.8626e-09,  1.3970e-09],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          6.9849e-10,  6.9849e-10]], device='cuda:0')
+Epoch 475, bias, value: tensor([-0.0152, -0.0365, -0.0088, -0.0100, -0.0340, -0.0007,  0.0304, -0.0144,
+         0.0519, -0.0132], device='cuda:0'), grad: tensor([ 4.5486e-06,  2.7940e-09, -4.6566e-10,  2.0955e-09,  3.5390e-08,
+         9.4762e-08, -4.6715e-06,  3.2596e-09,  9.5461e-09, -3.8883e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 474, time 250.34, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4213 re_mapping 0.0026 re_causal 0.0084 /// teacc 99.14 lr 0.00001000
+Epoch 476, weight, value: tensor([[-0.1404, -0.2919, -0.0900,  ..., -0.0870,  0.1927,  0.2042],
+        [-0.2705, -0.2405, -0.0694,  ..., -0.2079, -0.2646, -0.1736],
+        [-0.0682, -0.2192,  0.1671,  ..., -0.2727,  0.3010,  0.1417],
+        ...,
+        [-0.2148,  0.1340,  0.0164,  ...,  0.2415, -0.2715, -0.3317],
+        [-0.3508,  0.0694, -0.1675,  ...,  0.0693, -0.1300, -0.2485],
+        [-0.0637, -0.1758, -0.0848,  ..., -0.1632, -0.0723, -0.2610]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -6.1002e-08, -3.6554e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 1.1642e-09,  2.3283e-10,  0.0000e+00,  ...,  0.0000e+00,
+          3.4925e-09,  2.0955e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          2.3283e-10,  2.3283e-10],
+        [ 4.1910e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.4680e-08,  1.4901e-08],
+        [-5.5879e-09,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          2.9104e-08,  1.7462e-08]], device='cuda:0')
+Epoch 476, bias, value: tensor([-0.0151, -0.0365, -0.0088, -0.0100, -0.0340, -0.0007,  0.0303, -0.0144,
+         0.0518, -0.0132], device='cuda:0'), grad: tensor([-1.2224e-07,  7.4506e-09,  1.3271e-08,  2.3283e-09, -3.1898e-08,
+         6.5193e-09, -5.1223e-09,  5.3551e-09,  7.1712e-08,  5.0524e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 475, time 250.30, cls_loss 0.0006 cls_loss_mapping 0.0003 cls_loss_causal 0.3898 re_mapping 0.0025 re_causal 0.0081 /// teacc 99.13 lr 0.00001000
+Epoch 477, weight, value: tensor([[-0.1404, -0.2920, -0.0900,  ..., -0.0869,  0.1928,  0.2044],
+        [-0.2705, -0.2405, -0.0694,  ..., -0.2079, -0.2646, -0.1736],
+        [-0.0682, -0.2192,  0.1671,  ..., -0.2728,  0.3011,  0.1417],
+        ...,
+        [-0.2148,  0.1341,  0.0164,  ...,  0.2415, -0.2716, -0.3317],
+        [-0.3509,  0.0693, -0.1675,  ...,  0.0692, -0.1300, -0.2486],
+        [-0.0638, -0.1759, -0.0848,  ..., -0.1632, -0.0725, -0.2612]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  3.4925e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-09,  5.1223e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -3.4925e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -9.5461e-09, -5.1223e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 477, bias, value: tensor([-0.0149, -0.0365, -0.0088, -0.0100, -0.0339, -0.0006,  0.0302, -0.0144,
+         0.0518, -0.0133], device='cuda:0'), grad: tensor([ 2.2585e-08,  2.3283e-10, -2.2352e-08,  1.1642e-09,  1.3970e-09,
+         0.0000e+00,  0.0000e+00,  1.6298e-09,  1.8626e-09,  9.3132e-10],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 476, time 250.12, cls_loss 0.0007 cls_loss_mapping 0.0003 cls_loss_causal 0.4434 re_mapping 0.0025 re_causal 0.0086 /// teacc 99.13 lr 0.00001000
+Epoch 478, weight, value: tensor([[-0.1404, -0.2920, -0.0900,  ..., -0.0869,  0.1928,  0.2044],
+        [-0.2705, -0.2405, -0.0694,  ..., -0.2079, -0.2647, -0.1736],
+        [-0.0683, -0.2192,  0.1671,  ..., -0.2729,  0.3011,  0.1417],
+        ...,
+        [-0.2148,  0.1341,  0.0163,  ...,  0.2415, -0.2716, -0.3317],
+        [-0.3510,  0.0692, -0.1675,  ...,  0.0692, -0.1300, -0.2486],
+        [-0.0638, -0.1759, -0.0848,  ..., -0.1632, -0.0725, -0.2613]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  2.3283e-10,  0.0000e+00,  ...,  6.9849e-10,
+         -2.5611e-09, -1.1642e-09],
+        [ 2.3283e-10,  4.6566e-10,  0.0000e+00,  ...,  9.3132e-10,
+          2.3283e-10,  2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          2.3283e-10,  2.3283e-10],
+        ...,
+        [ 4.4238e-09,  2.2352e-08,  0.0000e+00,  ..., -9.0804e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 3.0268e-09,  1.2573e-08,  0.0000e+00,  ...,  7.4506e-09,
+         -1.1642e-09, -6.9849e-10],
+        [ 2.3283e-09,  9.5461e-09,  0.0000e+00,  ...,  2.4913e-08,
+          6.9849e-10,  4.6566e-10]], device='cuda:0')
+Epoch 478, bias, value: tensor([-0.0149, -0.0364, -0.0087, -0.0100, -0.0339, -0.0006,  0.0302, -0.0145,
+         0.0517, -0.0133], device='cuda:0'), grad: tensor([-1.6298e-09,  3.0268e-09,  1.1642e-09, -2.7008e-08,  2.3283e-10,
+        -8.6846e-08,  2.0256e-08,  1.1874e-08,  2.0256e-08,  6.2166e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 477, time 251.66, cls_loss 0.0007 cls_loss_mapping 0.0003 cls_loss_causal 0.4234 re_mapping 0.0025 re_causal 0.0083 /// teacc 99.14 lr 0.00001000
+Epoch 479, weight, value: tensor([[-0.1404, -0.2920, -0.0900,  ..., -0.0868,  0.1929,  0.2044],
+        [-0.2705, -0.2406, -0.0693,  ..., -0.2079, -0.2647, -0.1736],
+        [-0.0683, -0.2193,  0.1671,  ..., -0.2730,  0.3012,  0.1418],
+        ...,
+        [-0.2148,  0.1341,  0.0163,  ...,  0.2415, -0.2717, -0.3318],
+        [-0.3511,  0.0692, -0.1676,  ...,  0.0692, -0.1301, -0.2487],
+        [-0.0638, -0.1759, -0.0848,  ..., -0.1633, -0.0725, -0.2614]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ..., -2.3283e-10,
+         -1.3970e-09, -1.3970e-09],
+        [ 0.0000e+00,  7.9162e-09,  0.0000e+00,  ...,  7.9162e-09,
+          2.3283e-10,  2.3283e-10],
+        [ 0.0000e+00,  6.9849e-10,  0.0000e+00,  ...,  4.6566e-10,
+          4.6566e-10,  2.3283e-10],
+        ...,
+        [ 0.0000e+00, -2.1420e-08,  0.0000e+00,  ..., -1.8161e-08,
+          2.3283e-10,  2.3283e-10],
+        [ 0.0000e+00,  1.3970e-09,  0.0000e+00,  ...,  4.6566e-10,
+         -3.2596e-09, -1.3970e-09],
+        [ 2.3283e-10,  1.0943e-08,  0.0000e+00,  ...,  9.0804e-09,
+          9.3132e-10,  6.9849e-10]], device='cuda:0')
+Epoch 479, bias, value: tensor([-0.0149, -0.0364, -0.0088, -0.0100, -0.0339, -0.0007,  0.0302, -0.0145,
+         0.0517, -0.0133], device='cuda:0'), grad: tensor([-1.6298e-09,  5.8440e-08,  7.4506e-09,  3.9581e-09, -4.2841e-08,
+         4.4238e-09,  3.1665e-08, -6.8219e-08, -3.1898e-08,  4.6100e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 478, time 251.93, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4380 re_mapping 0.0025 re_causal 0.0085 /// teacc 99.14 lr 0.00001000
+Epoch 480, weight, value: tensor([[-0.1404, -0.2920, -0.0900,  ..., -0.0868,  0.1929,  0.2045],
+        [-0.2706, -0.2407, -0.0693,  ..., -0.2079, -0.2647, -0.1736],
+        [-0.0683, -0.2193,  0.1672,  ..., -0.2730,  0.3012,  0.1418],
+        ...,
+        [-0.2149,  0.1342,  0.0163,  ...,  0.2416, -0.2717, -0.3318],
+        [-0.3513,  0.0692, -0.1676,  ...,  0.0692, -0.1301, -0.2487],
+        [-0.0639, -0.1761, -0.0848,  ..., -0.1635, -0.0726, -0.2617]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10, -2.0955e-09,  0.0000e+00,  ...,  2.3283e-10,
+         -1.6764e-08, -1.7229e-08],
+        [ 0.0000e+00,  6.9849e-10,  0.0000e+00,  ...,  6.9849e-10,
+          2.3283e-10,  2.3283e-10],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  2.3283e-10,
+         -3.2596e-09, -4.6566e-10],
+        ...,
+        [ 0.0000e+00, -2.0955e-09,  0.0000e+00,  ..., -3.0268e-09,
+          2.3283e-10,  0.0000e+00],
+        [ 1.2340e-08,  1.6298e-09,  0.0000e+00,  ...,  1.4435e-08,
+          4.6566e-10,  0.0000e+00],
+        [ 1.8626e-09,  3.2596e-09,  0.0000e+00,  ...,  4.4238e-09,
+          1.4435e-08,  1.4435e-08]], device='cuda:0')
+Epoch 480, bias, value: tensor([-0.0149, -0.0364, -0.0088, -0.0100, -0.0339, -0.0006,  0.0301, -0.0144,
+         0.0517, -0.0134], device='cuda:0'), grad: tensor([-5.5414e-08,  3.0268e-09, -9.0804e-09,  2.6077e-08,  6.0536e-09,
+        -6.8685e-08,  5.3551e-09, -5.5879e-09,  4.6566e-08,  4.5868e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 479, time 251.87, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4438 re_mapping 0.0024 re_causal 0.0085 /// teacc 99.12 lr 0.00001000
+Epoch 481, weight, value: tensor([[-0.1405, -0.2920, -0.0900,  ..., -0.0868,  0.1929,  0.2045],
+        [-0.2706, -0.2407, -0.0693,  ..., -0.2079, -0.2647, -0.1736],
+        [-0.0684, -0.2194,  0.1671,  ..., -0.2732,  0.3012,  0.1417],
+        ...,
+        [-0.2149,  0.1343,  0.0163,  ...,  0.2416, -0.2718, -0.3319],
+        [-0.3514,  0.0691, -0.1676,  ...,  0.0692, -0.1302, -0.2488],
+        [-0.0639, -0.1761, -0.0848,  ..., -0.1635, -0.0727, -0.2618]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          9.3132e-10,  6.9849e-10],
+        [ 2.3283e-10,  1.1642e-09,  0.0000e+00,  ...,  6.9849e-10,
+         -1.6298e-09,  0.0000e+00],
+        [ 6.9849e-10,  1.3970e-09,  0.0000e+00,  ..., -1.6298e-09,
+         -3.9581e-09, -3.4925e-09],
+        ...,
+        [ 2.3283e-10, -1.3039e-08,  0.0000e+00,  ..., -1.6065e-08,
+          2.5611e-09,  1.8626e-09],
+        [ 1.3970e-09,  2.3283e-10,  0.0000e+00,  ...,  1.1642e-09,
+          4.6566e-10,  2.3283e-10],
+        [ 2.3283e-10,  1.3970e-08, -0.0000e+00,  ...,  1.7462e-08,
+          6.9849e-10,  4.6566e-10]], device='cuda:0')
+Epoch 481, bias, value: tensor([-0.0149, -0.0364, -0.0089, -0.0100, -0.0339, -0.0006,  0.0302, -0.0144,
+         0.0518, -0.0134], device='cuda:0'), grad: tensor([ 9.7789e-09, -7.8464e-08, -4.8894e-09, -1.3970e-09,  1.2573e-08,
+        -8.1491e-09,  1.6764e-08, -4.1910e-09,  2.0955e-08,  4.4005e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 480, time 251.82, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4136 re_mapping 0.0024 re_causal 0.0082 /// teacc 99.13 lr 0.00001000
+Epoch 482, weight, value: tensor([[-0.1405, -0.2920, -0.0900,  ..., -0.0868,  0.1930,  0.2045],
+        [-0.2707, -0.2407, -0.0693,  ..., -0.2079, -0.2648, -0.1736],
+        [-0.0685, -0.2194,  0.1672,  ..., -0.2733,  0.3012,  0.1417],
+        ...,
+        [-0.2149,  0.1343,  0.0163,  ...,  0.2417, -0.2718, -0.3319],
+        [-0.3514,  0.0691, -0.1676,  ...,  0.0692, -0.1302, -0.2488],
+        [-0.0639, -0.1762, -0.0848,  ..., -0.1636, -0.0727, -0.2618]],
+       device='cuda:0'), grad: tensor([[0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        ...,
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [2.3283e-10, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 2.3283e-10,
+         0.0000e+00]], device='cuda:0')
+Epoch 482, bias, value: tensor([-0.0149, -0.0364, -0.0089, -0.0100, -0.0339, -0.0006,  0.0302, -0.0145,
+         0.0518, -0.0134], device='cuda:0'), grad: tensor([0.0000e+00, 2.3283e-10, 0.0000e+00, 0.0000e+00, 0.0000e+00, 6.9849e-10,
+        1.6298e-09, 0.0000e+00, 4.6566e-10, 2.3283e-10], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 481, time 251.88, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4248 re_mapping 0.0024 re_causal 0.0082 /// teacc 99.11 lr 0.00001000
+Epoch 483, weight, value: tensor([[-0.1407, -0.2921, -0.0900,  ..., -0.0868,  0.1929,  0.2045],
+        [-0.2707, -0.2407, -0.0693,  ..., -0.2079, -0.2648, -0.1736],
+        [-0.0685, -0.2195,  0.1672,  ..., -0.2734,  0.3012,  0.1417],
+        ...,
+        [-0.2149,  0.1344,  0.0163,  ...,  0.2417, -0.2719, -0.3320],
+        [-0.3515,  0.0690, -0.1676,  ...,  0.0693, -0.1303, -0.2489],
+        [-0.0639, -0.1763, -0.0848,  ..., -0.1637, -0.0728, -0.2620]],
+       device='cuda:0'), grad: tensor([[-2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -2.0955e-09, -2.0955e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.5611e-09,  1.6298e-09],
+        [ 0.0000e+00, -1.6298e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.5832e-08, -6.9849e-09],
+        ...,
+        [ 0.0000e+00,  1.1642e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.2107e-08,  5.3551e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          4.6566e-10,  2.3283e-10]], device='cuda:0')
+Epoch 483, bias, value: tensor([-0.0149, -0.0363, -0.0090, -0.0100, -0.0340, -0.0007,  0.0303, -0.0145,
+         0.0518, -0.0134], device='cuda:0'), grad: tensor([-2.0955e-09,  1.2573e-08, -7.6136e-08,  2.5611e-09,  1.3970e-09,
+         1.1642e-09,  3.4925e-09,  5.8440e-08,  1.3970e-09,  1.6298e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 482, time 251.80, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4271 re_mapping 0.0024 re_causal 0.0084 /// teacc 99.13 lr 0.00001000
+Epoch 484, weight, value: tensor([[-0.1407, -0.2921, -0.0900,  ..., -0.0869,  0.1930,  0.2046],
+        [-0.2708, -0.2408, -0.0693,  ..., -0.2079, -0.2648, -0.1736],
+        [-0.0686, -0.2195,  0.1672,  ..., -0.2734,  0.3012,  0.1417],
+        ...,
+        [-0.2150,  0.1344,  0.0163,  ...,  0.2417, -0.2719, -0.3320],
+        [-0.3517,  0.0690, -0.1676,  ...,  0.0692, -0.1304, -0.2489],
+        [-0.0640, -0.1763, -0.0848,  ..., -0.1638, -0.0729, -0.2621]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.6997e-08, -1.5367e-08],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  1.1642e-09,
+          2.3283e-10,  2.3283e-10],
+        [ 0.0000e+00, -0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.8626e-09, -0.0000e+00],
+        ...,
+        [ 0.0000e+00, -9.5461e-09,  0.0000e+00,  ..., -1.2573e-08,
+          9.3132e-10,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          6.9849e-10,  4.6566e-10],
+        [ 0.0000e+00,  9.0804e-09,  0.0000e+00,  ...,  1.1642e-08,
+          4.8894e-09,  3.9581e-09]], device='cuda:0')
+Epoch 484, bias, value: tensor([-0.0149, -0.0364, -0.0090, -0.0098, -0.0340, -0.0006,  0.0302, -0.0145,
+         0.0517, -0.0134], device='cuda:0'), grad: tensor([-6.1234e-08,  4.6566e-09, -5.3551e-09,  5.3551e-09,  2.5611e-09,
+         3.1665e-08,  1.1642e-08, -2.0256e-08,  6.0536e-09,  3.7486e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 483, time 252.38, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4296 re_mapping 0.0024 re_causal 0.0084 /// teacc 99.13 lr 0.00001000
+Epoch 485, weight, value: tensor([[-0.1408, -0.2922, -0.0900,  ..., -0.0869,  0.1930,  0.2046],
+        [-0.2709, -0.2413, -0.0693,  ..., -0.2083, -0.2650, -0.1736],
+        [-0.0687, -0.2196,  0.1672,  ..., -0.2735,  0.3013,  0.1417],
+        ...,
+        [-0.2150,  0.1348,  0.0163,  ...,  0.2422, -0.2720, -0.3321],
+        [-0.3518,  0.0690, -0.1676,  ...,  0.0692, -0.1304, -0.2489],
+        [-0.0640, -0.1764, -0.0848,  ..., -0.1638, -0.0730, -0.2623]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-09,  2.3283e-10,  0.0000e+00,  ...,  2.3283e-10,
+          3.2596e-09,  6.9849e-10],
+        [ 0.0000e+00,  3.5856e-08,  0.0000e+00,  ...,  4.2608e-08,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-09,  0.0000e+00,  ...,  5.5879e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -4.2608e-08,  0.0000e+00,  ..., -5.0291e-08,
+          2.3283e-10,  0.0000e+00],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ..., -9.3132e-10,
+          4.6566e-10,  2.3283e-10],
+        [-1.3970e-09,  4.6566e-10,  0.0000e+00,  ...,  6.9849e-10,
+         -3.4925e-09, -6.9849e-10]], device='cuda:0')
+Epoch 485, bias, value: tensor([-0.0149, -0.0368, -0.0092, -0.0096, -0.0341, -0.0007,  0.0302, -0.0140,
+         0.0517, -0.0135], device='cuda:0'), grad: tensor([ 2.7707e-08,  1.4668e-07,  2.1420e-08,  4.1910e-09,  4.1910e-09,
+         2.5611e-09,  2.3283e-09, -1.7229e-07, -4.4238e-09, -2.7241e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 484, time 252.02, cls_loss 0.0007 cls_loss_mapping 0.0003 cls_loss_causal 0.4207 re_mapping 0.0024 re_causal 0.0082 /// teacc 99.13 lr 0.00001000
+Epoch 486, weight, value: tensor([[-0.1408, -0.2922, -0.0900,  ..., -0.0869,  0.1931,  0.2047],
+        [-0.2709, -0.2414, -0.0693,  ..., -0.2085, -0.2650, -0.1737],
+        [-0.0687, -0.2195,  0.1673,  ..., -0.2736,  0.3016,  0.1418],
+        ...,
+        [-0.2151,  0.1350,  0.0163,  ...,  0.2423, -0.2722, -0.3322],
+        [-0.3519,  0.0689, -0.1676,  ...,  0.0692, -0.1305, -0.2490],
+        [-0.0640, -0.1765, -0.0848,  ..., -0.1639, -0.0731, -0.2623]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+         -1.4761e-07, -1.1991e-07],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-10,  0.0000e+00],
+        ...,
+        [ 2.3283e-09, -1.3271e-08,  0.0000e+00,  ..., -1.5832e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          2.3283e-10,  0.0000e+00],
+        [-3.2596e-09,  1.3039e-08,  0.0000e+00,  ...,  1.4901e-08,
+          6.9849e-10,  4.6566e-10]], device='cuda:0')
+Epoch 486, bias, value: tensor([-0.0149, -0.0369, -0.0090, -0.0094, -0.0340, -0.0008,  0.0302, -0.0139,
+         0.0517, -0.0135], device='cuda:0'), grad: tensor([-2.4331e-07,  4.6566e-09,  4.6566e-10,  1.1642e-09, -7.0315e-08,
+         2.5611e-09,  2.5076e-07, -2.0955e-08,  2.0955e-09,  8.7544e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 485, time 252.11, cls_loss 0.0008 cls_loss_mapping 0.0003 cls_loss_causal 0.4364 re_mapping 0.0025 re_causal 0.0084 /// teacc 99.14 lr 0.00001000
+Epoch 487, weight, value: tensor([[-0.1410, -0.2922, -0.0900,  ..., -0.0869,  0.1931,  0.2046],
+        [-0.2710, -0.2415, -0.0692,  ..., -0.2085, -0.2651, -0.1737],
+        [-0.0687, -0.2196,  0.1673,  ..., -0.2737,  0.3017,  0.1419],
+        ...,
+        [-0.2151,  0.1351,  0.0162,  ...,  0.2424, -0.2723, -0.3323],
+        [-0.3520,  0.0689, -0.1676,  ...,  0.0691, -0.1306, -0.2490],
+        [-0.0641, -0.1766, -0.0848,  ..., -0.1640, -0.0732, -0.2625]],
+       device='cuda:0'), grad: tensor([[6.9849e-10, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 4.8894e-09,
+         1.3970e-09],
+        [2.3283e-10, 4.6566e-10, 0.0000e+00,  ..., 0.0000e+00, 1.3970e-09,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 6.9849e-10,
+         0.0000e+00],
+        ...,
+        [2.3283e-10, 2.3283e-10, 0.0000e+00,  ..., 0.0000e+00, 1.1642e-09,
+         0.0000e+00],
+        [2.3283e-10, 0.0000e+00, 0.0000e+00,  ..., 2.3283e-10, 0.0000e+00,
+         0.0000e+00],
+        [2.3283e-10, 4.6566e-10, 0.0000e+00,  ..., 0.0000e+00, 1.3970e-09,
+         0.0000e+00]], device='cuda:0')
+Epoch 487, bias, value: tensor([-0.0149, -0.0370, -0.0089, -0.0094, -0.0341, -0.0008,  0.0303, -0.0139,
+         0.0517, -0.0135], device='cuda:0'), grad: tensor([ 1.9092e-08,  3.4925e-09,  7.2177e-09, -1.1642e-09, -5.4017e-08,
+         2.7940e-09,  1.3970e-08,  5.8208e-09,  9.3132e-10,  6.7521e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 486, time 252.29, cls_loss 0.0008 cls_loss_mapping 0.0003 cls_loss_causal 0.4286 re_mapping 0.0025 re_causal 0.0081 /// teacc 99.13 lr 0.00001000
+Epoch 488, weight, value: tensor([[-0.1410, -0.2922, -0.0900,  ..., -0.0869,  0.1931,  0.2047],
+        [-0.2711, -0.2415, -0.0691,  ..., -0.2085, -0.2651, -0.1737],
+        [-0.0687, -0.2197,  0.1674,  ..., -0.2737,  0.3019,  0.1420],
+        ...,
+        [-0.2152,  0.1351,  0.0161,  ...,  0.2424, -0.2723, -0.3324],
+        [-0.3522,  0.0688, -0.1676,  ...,  0.0691, -0.1307, -0.2490],
+        [-0.0641, -0.1767, -0.0848,  ..., -0.1642, -0.0732, -0.2626]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -2.3283e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -4.6566e-09, -3.4925e-09],
+        [ 0.0000e+00,  1.1642e-09,  0.0000e+00,  ...,  1.1642e-09,
+          2.3283e-10,  2.3283e-10],
+        [ 0.0000e+00, -1.1642e-09,  0.0000e+00,  ..., -2.3283e-09,
+         -6.2864e-09, -3.4925e-09],
+        ...,
+        [ 2.3283e-10, -1.6601e-07,  0.0000e+00,  ..., -1.5902e-07,
+          5.3551e-09,  3.2596e-09],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  2.3283e-10,
+          6.9849e-10,  2.3283e-10],
+        [ 0.0000e+00,  1.6042e-07,  0.0000e+00,  ...,  1.5460e-07,
+          4.6566e-09,  3.4925e-09]], device='cuda:0')
+Epoch 488, bias, value: tensor([-0.0149, -0.0370, -0.0088, -0.0094, -0.0341, -0.0008,  0.0303, -0.0139,
+         0.0516, -0.0136], device='cuda:0'), grad: tensor([-1.0710e-08,  4.8894e-09, -2.7474e-08, -5.8208e-09, -3.7253e-09,
+         2.1886e-08,  1.1642e-09, -4.2585e-07,  3.2596e-09,  4.4378e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 487, time 252.33, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4353 re_mapping 0.0025 re_causal 0.0083 /// teacc 99.10 lr 0.00001000
+Epoch 489, weight, value: tensor([[-0.1411, -0.2922, -0.0900,  ..., -0.0868,  0.1932,  0.2048],
+        [-0.2712, -0.2416, -0.0691,  ..., -0.2086, -0.2652, -0.1737],
+        [-0.0688, -0.2197,  0.1674,  ..., -0.2737,  0.3019,  0.1420],
+        ...,
+        [-0.2152,  0.1352,  0.0161,  ...,  0.2425, -0.2724, -0.3325],
+        [-0.3523,  0.0688, -0.1676,  ...,  0.0690, -0.1308, -0.2491],
+        [-0.0641, -0.1768, -0.0848,  ..., -0.1643, -0.0733, -0.2627]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -2.7940e-09, -2.5611e-09],
+        [ 0.0000e+00,  1.1409e-08,  0.0000e+00,  ...,  2.9337e-08,
+          1.1642e-09,  4.6566e-10],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  9.3132e-10,
+         -4.6566e-09, -1.3970e-09],
+        ...,
+        [ 0.0000e+00, -1.2340e-08,  0.0000e+00,  ..., -3.1898e-08,
+          9.3132e-10,  2.3283e-10],
+        [-4.6566e-10, -1.3970e-09,  0.0000e+00,  ..., -1.4901e-08,
+          4.6566e-10,  2.3283e-10],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  1.1642e-09,
+          3.7253e-09,  2.7940e-09]], device='cuda:0')
+Epoch 489, bias, value: tensor([-0.0148, -0.0370, -0.0088, -0.0094, -0.0341, -0.0009,  0.0303, -0.0138,
+         0.0515, -0.0137], device='cuda:0'), grad: tensor([-3.9581e-09, -3.0571e-07,  5.9139e-08,  1.1409e-08,  1.2759e-07,
+         6.0536e-09,  4.9826e-08,  6.4261e-08, -4.4238e-08,  3.5390e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 488, time 252.07, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4126 re_mapping 0.0025 re_causal 0.0081 /// teacc 99.12 lr 0.00001000
+Epoch 490, weight, value: tensor([[-0.1411, -0.2922, -0.0900,  ..., -0.0867,  0.1933,  0.2049],
+        [-0.2712, -0.2416, -0.0689,  ..., -0.2085, -0.2653, -0.1738],
+        [-0.0688, -0.2197,  0.1674,  ..., -0.2738,  0.3021,  0.1422],
+        ...,
+        [-0.2152,  0.1352,  0.0159,  ...,  0.2424, -0.2725, -0.3326],
+        [-0.3524,  0.0688, -0.1676,  ...,  0.0691, -0.1309, -0.2492],
+        [-0.0641, -0.1769, -0.0848,  ..., -0.1644, -0.0734, -0.2629]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  6.9849e-10,  0.0000e+00,  ...,  2.3283e-10,
+          1.1642e-09,  4.6566e-10],
+        [ 4.6566e-10,  1.1642e-09,  0.0000e+00,  ...,  6.9849e-10,
+          6.9849e-10,  2.3283e-10],
+        [ 2.3283e-10, -2.5611e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -9.0804e-09, -3.0268e-09],
+        ...,
+        [ 4.6566e-10, -2.0722e-08,  0.0000e+00,  ..., -5.0524e-08,
+          2.5611e-09,  6.9849e-10],
+        [ 6.9849e-10,  1.8626e-09,  0.0000e+00,  ...,  2.3283e-10,
+          2.5611e-09,  9.3132e-10],
+        [ 2.7940e-09,  2.5379e-08,  0.0000e+00,  ...,  4.8429e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 490, bias, value: tensor([-0.0147, -0.0369, -0.0087, -0.0094, -0.0342, -0.0009,  0.0303, -0.0139,
+         0.0516, -0.0137], device='cuda:0'), grad: tensor([ 5.3551e-09,  6.9849e-09, -3.0268e-08, -1.6298e-08,  3.2363e-08,
+         5.1223e-09, -6.9849e-10, -7.1246e-08,  1.1642e-08,  5.8906e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 489, time 250.27, cls_loss 0.0008 cls_loss_mapping 0.0003 cls_loss_causal 0.3918 re_mapping 0.0025 re_causal 0.0080 /// teacc 99.15 lr 0.00001000
+Epoch 491, weight, value: tensor([[-0.1412, -0.2923, -0.0900,  ..., -0.0867,  0.1933,  0.2050],
+        [-0.2713, -0.2416, -0.0689,  ..., -0.2086, -0.2653, -0.1738],
+        [-0.0688, -0.2197,  0.1674,  ..., -0.2738,  0.3021,  0.1422],
+        ...,
+        [-0.2152,  0.1352,  0.0159,  ...,  0.2425, -0.2726, -0.3326],
+        [-0.3526,  0.0688, -0.1676,  ...,  0.0691, -0.1310, -0.2493],
+        [-0.0641, -0.1769, -0.0848,  ..., -0.1646, -0.0733, -0.2629]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+         -2.0955e-09, -1.5134e-09],
+        [ 0.0000e+00,  1.1642e-10,  0.0000e+00,  ...,  2.2119e-09,
+          1.1642e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+         -2.0955e-09,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.2387e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 1.1642e-10,  1.1642e-10,  0.0000e+00,  ..., -2.3167e-08,
+          1.0477e-09,  6.9849e-10],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  3.4925e-10,
+          3.2596e-09,  6.9849e-10]], device='cuda:0')
+Epoch 491, bias, value: tensor([-0.0148, -0.0369, -0.0086, -0.0093, -0.0341, -0.0010,  0.0303, -0.0139,
+         0.0515, -0.0137], device='cuda:0'), grad: tensor([-2.7940e-09,  5.8208e-09, -2.7823e-08,  4.0745e-09,  3.4925e-10,
+         2.8987e-08,  4.7730e-09,  1.1292e-08, -3.6671e-08,  2.0256e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 490, time 250.50, cls_loss 0.0007 cls_loss_mapping 0.0003 cls_loss_causal 0.4094 re_mapping 0.0024 re_causal 0.0082 /// teacc 99.15 lr 0.00001000
+Epoch 492, weight, value: tensor([[-0.1416, -0.2923, -0.0900,  ..., -0.0867,  0.1932,  0.2048],
+        [-0.2714, -0.2416, -0.0689,  ..., -0.2086, -0.2653, -0.1738],
+        [-0.0688, -0.2197,  0.1674,  ..., -0.2739,  0.3023,  0.1423],
+        ...,
+        [-0.2152,  0.1352,  0.0159,  ...,  0.2426, -0.2727, -0.3328],
+        [-0.3526,  0.0688, -0.1676,  ...,  0.0693, -0.1310, -0.2493],
+        [-0.0642, -0.1770, -0.0848,  ..., -0.1646, -0.0734, -0.2631]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -9.3132e-10,  0.0000e+00,  ..., -1.1642e-09,
+         -3.2713e-08, -2.9686e-08],
+        [ 0.0000e+00,  6.9849e-10,  0.0000e+00,  ...,  4.4238e-09,
+         -2.4447e-09,  4.6566e-10],
+        [ 0.0000e+00,  1.1642e-10,  0.0000e+00,  ...,  2.3283e-10,
+          4.3074e-09,  1.9791e-09],
+        ...,
+        [ 0.0000e+00, -4.3074e-09,  0.0000e+00,  ..., -2.6776e-09,
+          1.2806e-09,  8.1491e-10],
+        [ 1.1642e-10,  2.5611e-09,  0.0000e+00,  ...,  1.7462e-09,
+          1.4901e-08,  1.4086e-08],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          6.7521e-09,  5.9372e-09]], device='cuda:0')
+Epoch 492, bias, value: tensor([-0.0150, -0.0369, -0.0084, -0.0094, -0.0342, -0.0010,  0.0304, -0.0139,
+         0.0517, -0.0138], device='cuda:0'), grad: tensor([-8.0210e-08, -1.2806e-09,  7.3807e-08,  7.4506e-09, -8.5915e-08,
+         7.9162e-09,  2.6543e-08,  1.1409e-08,  4.0629e-08,  1.0477e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 491, time 250.49, cls_loss 0.0007 cls_loss_mapping 0.0003 cls_loss_causal 0.4578 re_mapping 0.0024 re_causal 0.0085 /// teacc 99.18 lr 0.00001000
+Epoch 493, weight, value: tensor([[-0.1416, -0.2923, -0.0900,  ..., -0.0865,  0.1935,  0.2051],
+        [-0.2714, -0.2416, -0.0688,  ..., -0.2086, -0.2654, -0.1739],
+        [-0.0688, -0.2198,  0.1674,  ..., -0.2740,  0.3023,  0.1424],
+        ...,
+        [-0.2153,  0.1352,  0.0158,  ...,  0.2426, -0.2728, -0.3329],
+        [-0.3528,  0.0688, -0.1676,  ...,  0.0692, -0.1311, -0.2494],
+        [-0.0642, -0.1771, -0.0848,  ..., -0.1648, -0.0735, -0.2632]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  8.1491e-10,  0.0000e+00,  ...,  1.3970e-09,
+         -2.8056e-08, -2.2817e-08],
+        [ 2.3283e-10,  5.3085e-08,  0.0000e+00,  ...,  9.3714e-08,
+          5.8208e-10,  4.6566e-10],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  4.6566e-10,
+         -6.9849e-10,  1.1642e-10],
+        ...,
+        [ 2.3283e-10, -6.2049e-08,  0.0000e+00,  ..., -1.1094e-07,
+          9.3132e-10,  1.1642e-10],
+        [ 4.6566e-10,  6.9849e-10,  0.0000e+00,  ...,  5.8208e-10,
+          4.6566e-10,  3.4925e-10],
+        [ 1.1642e-10,  3.7253e-09,  0.0000e+00,  ...,  6.4028e-09,
+          6.4028e-09,  5.2387e-09]], device='cuda:0')
+Epoch 493, bias, value: tensor([-0.0147, -0.0369, -0.0084, -0.0094, -0.0341, -0.0009,  0.0302, -0.0139,
+         0.0516, -0.0139], device='cuda:0'), grad: tensor([-6.1002e-08,  2.0408e-07, -2.3283e-10,  1.9558e-08, -2.3283e-09,
+         9.3132e-10,  4.2375e-08, -2.3213e-07,  3.9581e-09,  3.4110e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 492, time 250.41, cls_loss 0.0007 cls_loss_mapping 0.0003 cls_loss_causal 0.4151 re_mapping 0.0025 re_causal 0.0082 /// teacc 99.14 lr 0.00001000
+Epoch 494, weight, value: tensor([[-0.1416, -0.2923, -0.0900,  ..., -0.0866,  0.1935,  0.2052],
+        [-0.2716, -0.2416, -0.0688,  ..., -0.2087, -0.2655, -0.1739],
+        [-0.0688, -0.2197,  0.1674,  ..., -0.2740,  0.3024,  0.1424],
+        ...,
+        [-0.2153,  0.1353,  0.0158,  ...,  0.2427, -0.2729, -0.3330],
+        [-0.3530,  0.0687, -0.1676,  ...,  0.0692, -0.1313, -0.2495],
+        [-0.0642, -0.1772, -0.0848,  ..., -0.1649, -0.0733, -0.2632]],
+       device='cuda:0'), grad: tensor([[ 1.6298e-09, -1.1642e-10,  0.0000e+00,  ...,  5.8208e-10,
+         -9.4296e-09, -7.4506e-09],
+        [ 1.3458e-07,  1.1642e-10,  0.0000e+00,  ...,  4.4471e-08,
+          1.1642e-10,  1.1642e-10],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  1.1642e-10,
+          4.6566e-10,  3.4925e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.1642e-10,  1.1642e-10],
+        [ 3.2480e-08,  1.1642e-10,  0.0000e+00,  ...,  1.0710e-08,
+          4.6566e-10,  2.3283e-10],
+        [ 0.0000e+00,  3.4925e-10,  0.0000e+00,  ...,  5.8208e-10,
+          7.9162e-09,  6.2864e-09]], device='cuda:0')
+Epoch 494, bias, value: tensor([-0.0148, -0.0369, -0.0083, -0.0094, -0.0340, -0.0010,  0.0303, -0.0139,
+         0.0515, -0.0140], device='cuda:0'), grad: tensor([-1.7812e-08,  1.8859e-08,  6.7404e-08,  2.3283e-09, -4.6566e-10,
+         1.0170e-06, -1.3569e-06,  1.6915e-07,  7.9046e-08,  2.6077e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 493, time 250.37, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4489 re_mapping 0.0024 re_causal 0.0085 /// teacc 99.13 lr 0.00001000
+Epoch 495, weight, value: tensor([[-0.1417, -0.2924, -0.0900,  ..., -0.0866,  0.1935,  0.2052],
+        [-0.2717, -0.2416, -0.0688,  ..., -0.2087, -0.2655, -0.1740],
+        [-0.0689, -0.2198,  0.1674,  ..., -0.2742,  0.3024,  0.1424],
+        ...,
+        [-0.2153,  0.1353,  0.0158,  ...,  0.2427, -0.2730, -0.3330],
+        [-0.3531,  0.0687, -0.1676,  ...,  0.0693, -0.1314, -0.2495],
+        [-0.0643, -0.1773, -0.0848,  ..., -0.1651, -0.0734, -0.2634]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  3.4925e-10,
+         -8.1491e-10, -0.0000e+00],
+        [ 3.4925e-10,  1.1642e-10, -1.1642e-10,  ...,  1.1642e-10,
+          4.6566e-10,  6.9849e-10],
+        [ 3.4925e-10,  2.3283e-10,  1.1642e-10,  ...,  3.4925e-10,
+          3.4925e-10,  5.8208e-10],
+        ...,
+        [ 3.4925e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  5.8208e-10],
+        [-1.3970e-09,  0.0000e+00,  0.0000e+00,  ..., -1.8626e-09,
+          1.1642e-10, -1.6298e-09],
+        [ 2.8522e-08,  4.6566e-10,  0.0000e+00,  ...,  1.2806e-09,
+          3.5390e-08,  5.0175e-08]], device='cuda:0')
+Epoch 495, bias, value: tensor([-0.0148, -0.0369, -0.0084, -0.0092, -0.0338, -0.0011,  0.0303, -0.0139,
+         0.0516, -0.0142], device='cuda:0'), grad: tensor([ 2.4098e-08, -4.8894e-09,  1.8394e-08,  2.5611e-09, -5.0291e-07,
+         1.5134e-09,  4.0047e-08,  5.1223e-09, -1.9674e-08,  4.4215e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 494, time 250.46, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4220 re_mapping 0.0024 re_causal 0.0082 /// teacc 99.13 lr 0.00001000
+Epoch 496, weight, value: tensor([[-0.1417, -0.2924, -0.0900,  ..., -0.0865,  0.1936,  0.2053],
+        [-0.2717, -0.2416, -0.0688,  ..., -0.2087, -0.2656, -0.1740],
+        [-0.0689, -0.2198,  0.1674,  ..., -0.2742,  0.3025,  0.1424],
+        ...,
+        [-0.2154,  0.1353,  0.0158,  ...,  0.2427, -0.2730, -0.3331],
+        [-0.3532,  0.0686, -0.1676,  ...,  0.0693, -0.1314, -0.2495],
+        [-0.0643, -0.1774, -0.0849,  ..., -0.1653, -0.0735, -0.2635]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.1642e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  1.1642e-10],
+        [ 0.0000e+00,  1.6298e-09,  0.0000e+00,  ...,  6.6357e-09,
+          0.0000e+00,  1.5134e-09],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  4.3074e-09,
+          0.0000e+00,  1.1642e-09],
+        ...,
+        [ 0.0000e+00, -3.0268e-09,  0.0000e+00,  ..., -1.2689e-08,
+          0.0000e+00, -3.1432e-09],
+        [ 0.0000e+00,  1.1642e-10,  0.0000e+00,  ...,  3.4925e-10,
+          0.0000e+00,  1.1642e-10],
+        [ 0.0000e+00,  5.8208e-10,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  3.4925e-10]], device='cuda:0')
+Epoch 496, bias, value: tensor([-0.0147, -0.0369, -0.0084, -0.0091, -0.0338, -0.0012,  0.0303, -0.0139,
+         0.0517, -0.0142], device='cuda:0'), grad: tensor([ 1.0477e-09,  1.6764e-08,  1.1642e-08,  1.3970e-09,  9.3132e-10,
+         0.0000e+00,  1.1642e-10, -3.0035e-08,  9.3132e-10,  5.2387e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 495, time 249.88, cls_loss 0.0008 cls_loss_mapping 0.0003 cls_loss_causal 0.4342 re_mapping 0.0024 re_causal 0.0083 /// teacc 99.13 lr 0.00001000
+Epoch 497, weight, value: tensor([[-0.1417, -0.2924, -0.0900,  ..., -0.0864,  0.1937,  0.2054],
+        [-0.2718, -0.2416, -0.0687,  ..., -0.2086, -0.2657, -0.1740],
+        [-0.0690, -0.2199,  0.1675,  ..., -0.2744,  0.3026,  0.1424],
+        ...,
+        [-0.2154,  0.1353,  0.0157,  ...,  0.2427, -0.2731, -0.3331],
+        [-0.3534,  0.0686, -0.1676,  ...,  0.0693, -0.1315, -0.2496],
+        [-0.0643, -0.1775, -0.0849,  ..., -0.1654, -0.0736, -0.2637]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -9.5461e-09, -7.3342e-09],
+        [ 1.1642e-10,  1.1642e-10,  0.0000e+00,  ...,  1.1642e-10,
+          1.1642e-10,  1.1642e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.1642e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 5.8208e-10,  1.1642e-10,  0.0000e+00,  ..., -2.0955e-09,
+          1.1642e-10,  1.1642e-10],
+        [ 3.4925e-10,  0.0000e+00,  0.0000e+00,  ...,  5.8208e-10,
+          1.6298e-09,  1.2806e-09]], device='cuda:0')
+Epoch 497, bias, value: tensor([-0.0146, -0.0369, -0.0082, -0.0090, -0.0337, -0.0013,  0.0302, -0.0139,
+         0.0516, -0.0143], device='cuda:0'), grad: tensor([-1.7928e-08, -3.0501e-08,  4.5402e-09,  1.6741e-07,  4.6566e-10,
+        -1.5786e-07,  1.5600e-08,  2.5495e-08, -9.3132e-09,  6.6357e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 496, time 249.75, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4177 re_mapping 0.0024 re_causal 0.0081 /// teacc 99.14 lr 0.00001000
+Epoch 498, weight, value: tensor([[-0.1420, -0.2924, -0.0900,  ..., -0.0865,  0.1936,  0.2053],
+        [-0.2719, -0.2416, -0.0687,  ..., -0.2087, -0.2657, -0.1739],
+        [-0.0690, -0.2199,  0.1675,  ..., -0.2745,  0.3027,  0.1424],
+        ...,
+        [-0.2155,  0.1353,  0.0157,  ...,  0.2428, -0.2731, -0.3331],
+        [-0.3537,  0.0686, -0.1676,  ...,  0.0691, -0.1316, -0.2497],
+        [-0.0642, -0.1776, -0.0849,  ..., -0.1655, -0.0736, -0.2638]],
+       device='cuda:0'), grad: tensor([[ 8.1491e-09,  2.3283e-10,  0.0000e+00,  ...,  4.8894e-09,
+          1.4203e-08,  5.8208e-09],
+        [ 1.2806e-08,  2.5611e-09,  0.0000e+00,  ...,  4.6566e-10,
+          1.6764e-08,  7.9162e-09],
+        [ 1.8626e-09,  1.3970e-09,  0.0000e+00,  ...,  4.6566e-10,
+         -6.0536e-09, -4.6566e-10],
+        ...,
+        [ 5.5879e-09,  3.4925e-09,  0.0000e+00,  ...,  1.3970e-09,
+          6.9849e-10,  0.0000e+00],
+        [ 6.7521e-08,  1.1874e-08,  0.0000e+00,  ...,  3.2829e-08,
+         -1.6531e-08, -8.1491e-09],
+        [ 2.2585e-08,  4.1910e-09,  0.0000e+00,  ...,  7.2177e-09,
+          3.4925e-09,  1.6298e-09]], device='cuda:0')
+Epoch 498, bias, value: tensor([-0.0148, -0.0369, -0.0083, -0.0090, -0.0337, -0.0011,  0.0302, -0.0139,
+         0.0513, -0.0144], device='cuda:0'), grad: tensor([ 8.8708e-08,  7.6834e-08, -7.4506e-09,  6.8452e-07, -7.2177e-09,
+        -1.1483e-06,  1.5204e-07,  2.4680e-08,  6.0536e-08,  8.2189e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 497, time 250.23, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4486 re_mapping 0.0025 re_causal 0.0085 /// teacc 99.12 lr 0.00001000
+Epoch 499, weight, value: tensor([[-0.1420, -0.2925, -0.0900,  ..., -0.0865,  0.1937,  0.2053],
+        [-0.2720, -0.2416, -0.0687,  ..., -0.2088, -0.2659, -0.1740],
+        [-0.0690, -0.2199,  0.1675,  ..., -0.2745,  0.3029,  0.1424],
+        ...,
+        [-0.2156,  0.1353,  0.0157,  ...,  0.2429, -0.2732, -0.3332],
+        [-0.3538,  0.0685, -0.1676,  ...,  0.0691, -0.1317, -0.2498],
+        [-0.0643, -0.1777, -0.0849,  ..., -0.1656, -0.0737, -0.2640]],
+       device='cuda:0'), grad: tensor([[-1.3970e-09,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+         -2.8871e-08, -2.0489e-08],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          6.9849e-10,  4.6566e-10],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          6.9849e-10,  4.6566e-10],
+        ...,
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-10,  0.0000e+00],
+        [ 8.1956e-08,  0.0000e+00,  0.0000e+00,  ...,  5.3318e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  2.3283e-10,  0.0000e+00,  ...,  1.1642e-09,
+          1.8394e-08,  1.1642e-08]], device='cuda:0')
+Epoch 499, bias, value: tensor([-0.0147, -0.0369, -0.0083, -0.0088, -0.0337, -0.0012,  0.0302, -0.0139,
+         0.0513, -0.0145], device='cuda:0'), grad: tensor([-8.4983e-08,  3.7253e-09,  2.0955e-09,  2.5937e-07, -1.7462e-08,
+        -6.7800e-07,  2.9942e-07,  1.3970e-09,  1.5483e-07,  7.0781e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 498, time 249.84, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4336 re_mapping 0.0024 re_causal 0.0082 /// teacc 99.12 lr 0.00001000
+Epoch 500, weight, value: tensor([[-0.1422, -0.2925, -0.0900,  ..., -0.0865,  0.1936,  0.2053],
+        [-0.2721, -0.2417, -0.0687,  ..., -0.2088, -0.2660, -0.1740],
+        [-0.0690, -0.2199,  0.1676,  ..., -0.2745,  0.3031,  0.1425],
+        ...,
+        [-0.2157,  0.1353,  0.0157,  ...,  0.2430, -0.2734, -0.3333],
+        [-0.3539,  0.0685, -0.1676,  ...,  0.0691, -0.1318, -0.2499],
+        [-0.0643, -0.1778, -0.0849,  ..., -0.1657, -0.0736, -0.2641]],
+       device='cuda:0'), grad: tensor([[0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        ...,
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 2.3283e-10,
+         2.3283e-10],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 2.3283e-10, 6.9849e-10,
+         4.6566e-10]], device='cuda:0')
+Epoch 500, bias, value: tensor([-0.0149, -0.0369, -0.0083, -0.0088, -0.0336, -0.0012,  0.0302, -0.0139,
+         0.0514, -0.0145], device='cuda:0'), grad: tensor([ 2.3283e-10,  4.6566e-10,  9.3132e-10,  4.6566e-10, -6.9849e-09,
+         4.6566e-10,  2.3283e-10,  1.6298e-09,  1.6298e-09,  6.7521e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 499, time 250.06, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4281 re_mapping 0.0024 re_causal 0.0084 /// teacc 99.11 lr 0.00001000
+---------------------saving last model at epoch 499----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps2', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps2/14factor_best.csv', 'channels': 3, 'factor_num': 14, 'stride': 3, 'epoch': 'best', 'eval_mapping': True}
+loading weight of best
+randm: False
+stride: 3
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+Using downloaded and verified file: /home/yuqian_fu/.pytorch/SVHN/test_32x32.mat
+                         mnist   mnist_FA  ...    usps_FA        Avg
+ShearX               98.940002  98.900002  ...  81.913307  71.451877
+ShearY               98.830002  98.769997  ...  81.913307  70.115474
+AutoContrast         99.010002  99.110001  ...  81.913307  62.938438
+Invert               98.889999  81.290001  ...  81.913307  56.000196
+Equalize             98.400002  97.909996  ...  81.913307  71.951622
+Solarize             98.379997  96.630005  ...  81.913307  62.680078
+SolarizeAdd          98.529999  96.599998  ...  81.913307  68.729369
+Posterize            98.959999  99.029999  ...  81.913307  76.495037
+Contrast             99.119995  99.129997  ...  81.913307  69.983360
+Color                99.059998  99.180000  ...  81.913307  61.149043
+Brightness           99.040001  99.139999  ...  81.913307  70.621150
+Sharpness            99.029999  99.049995  ...  81.913307  71.066257
+NoiseSalt            98.900002  99.139999  ...  81.913307  60.974798
+NoiseGaussian        98.959999  99.180000  ...  81.913307  59.648846
+w/o do (original x)  99.180000   0.000000  ...   0.000000  65.803656
+
+[15 rows x 11 columns]
+    mnist       svhn    mnist_m   syndigit       usps        Avg
+do  99.12  66.318377  78.657927  77.336962  86.596911  77.227544
diff --git a/Meta-causal/code-withStyleAttack/66565.error b/Meta-causal/code-withStyleAttack/66565.error
new file mode 100644
index 0000000000000000000000000000000000000000..5b09d3d759b1a068653d824f401cf6b8e10ef88f
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/66565.error
@@ -0,0 +1 @@
+run_my_joint_test.sh: line 37: eduler: command not found
diff --git a/Meta-causal/code-withStyleAttack/66565.log b/Meta-causal/code-withStyleAttack/66565.log
new file mode 100644
index 0000000000000000000000000000000000000000..74162796e55ad743cfe7e8ef93c30c5c10cc7942
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/66565.log
@@ -0,0 +1,14131 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 500, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps3', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 3
+--------------------------CA_multiple--------------------------
+---------------------------14 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+Epoch 1, weight, value: tensor([[-0.0094, -0.0244,  0.0308,  ...,  0.0211,  0.0115,  0.0051],
+        [-0.0293,  0.0002,  0.0169,  ...,  0.0102, -0.0280,  0.0046],
+        [ 0.0241,  0.0062,  0.0289,  ...,  0.0189, -0.0016, -0.0282],
+        ...,
+        [ 0.0229, -0.0107, -0.0058,  ...,  0.0187,  0.0176, -0.0031],
+        [ 0.0023, -0.0012,  0.0263,  ..., -0.0122, -0.0144,  0.0034],
+        [-0.0090, -0.0070,  0.0110,  ...,  0.0217,  0.0004, -0.0025]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([-0.0112, -0.0106, -0.0244, -0.0266, -0.0124,  0.0053,  0.0089, -0.0239,
+        -0.0148,  0.0090], device='cuda:0'), grad: None
+100
+0.0001
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 223.10, cls_loss 1.1838 cls_loss_mapping 1.7620 cls_loss_causal 2.2054 re_mapping 0.1758 re_causal 0.1904 /// teacc 87.96 lr 0.00010000
+Epoch 2, weight, value: tensor([[-0.0102, -0.0302,  0.0347,  ...,  0.0147,  0.0101,  0.0058],
+        [-0.0288,  0.0037,  0.0112,  ...,  0.0028, -0.0296,  0.0049],
+        [ 0.0232,  0.0029,  0.0223,  ...,  0.0115, -0.0036, -0.0281],
+        ...,
+        [ 0.0221, -0.0058, -0.0028,  ...,  0.0245,  0.0157, -0.0037],
+        [ 0.0014, -0.0071,  0.0280,  ..., -0.0174, -0.0159,  0.0027],
+        [-0.0098, -0.0099,  0.0150,  ...,  0.0273, -0.0014, -0.0019]],
+       device='cuda:0'), grad: tensor([[ 0.0000, -0.0006, -0.0244,  ..., -0.0132,  0.0000,  0.0000],
+        [ 0.0000, -0.0006,  0.0034,  ...,  0.0035,  0.0000,  0.0000],
+        [ 0.0000,  0.0057,  0.0125,  ...,  0.0074,  0.0000,  0.0000],
+        ...,
+        [ 0.0000, -0.0370, -0.0328,  ..., -0.0488,  0.0000,  0.0000],
+        [ 0.0000,  0.0048, -0.0117,  ...,  0.0083,  0.0000,  0.0000],
+        [ 0.0000,  0.0233,  0.0095,  ...,  0.0180,  0.0000,  0.0000]],
+       device='cuda:0')
+Epoch 2, bias, value: tensor([-0.0133, -0.0088, -0.0258, -0.0262, -0.0123,  0.0054,  0.0089, -0.0243,
+        -0.0152,  0.0095], device='cuda:0'), grad: tensor([-0.0223,  0.0052, -0.0102,  0.0014,  0.0158,  0.0041,  0.0057, -0.0280,
+         0.0059,  0.0224], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 222.14, cls_loss 0.3420 cls_loss_mapping 0.6896 cls_loss_causal 1.8949 re_mapping 0.2106 re_causal 0.2836 /// teacc 93.35 lr 0.00010000
+Epoch 3, weight, value: tensor([[-0.0102, -0.0333,  0.0370,  ...,  0.0127,  0.0100,  0.0040],
+        [-0.0288,  0.0042,  0.0085,  ..., -0.0009, -0.0296,  0.0020],
+        [ 0.0232,  0.0022,  0.0201,  ...,  0.0104, -0.0037, -0.0317],
+        ...,
+        [ 0.0221, -0.0019, -0.0017,  ...,  0.0269,  0.0157, -0.0065],
+        [ 0.0014, -0.0097,  0.0313,  ..., -0.0202, -0.0159,  0.0017],
+        [-0.0098, -0.0135,  0.0188,  ...,  0.0291, -0.0014, -0.0024]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  6.3562e-04, -1.3481e-02,  ...,  1.4420e-03,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -1.4663e-04, -1.0521e-02,  ...,  3.3236e-04,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  9.9564e-04,  4.7150e-03,  ...,  2.2984e-03,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -5.7411e-03,  7.5054e-04,  ..., -4.2439e-05,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.5196e-03,  2.0004e-02,  ...,  9.8267e-03,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  8.3160e-03, -1.0891e-03,  ...,  8.2626e-03,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 3, bias, value: tensor([-0.0136, -0.0088, -0.0263, -0.0266, -0.0123,  0.0060,  0.0084, -0.0246,
+        -0.0148,  0.0101], device='cuda:0'), grad: tensor([-0.0090, -0.0100,  0.0161, -0.0004, -0.0300, -0.0151,  0.0059,  0.0083,
+         0.0104,  0.0238], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 222.14, cls_loss 0.2206 cls_loss_mapping 0.4132 cls_loss_causal 1.6410 re_mapping 0.1505 re_causal 0.2434 /// teacc 95.27 lr 0.00010000
+Epoch 4, weight, value: tensor([[-0.0102, -0.0355,  0.0397,  ...,  0.0110,  0.0100,  0.0043],
+        [-0.0288,  0.0033,  0.0065,  ..., -0.0033, -0.0296,  0.0016],
+        [ 0.0232,  0.0019,  0.0186,  ...,  0.0091, -0.0037, -0.0322],
+        ...,
+        [ 0.0221,  0.0012, -0.0015,  ...,  0.0283,  0.0157, -0.0069],
+        [ 0.0014, -0.0113,  0.0332,  ..., -0.0215, -0.0160,  0.0015],
+        [-0.0098, -0.0165,  0.0203,  ...,  0.0301, -0.0014, -0.0025]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -4.3035e-04, -4.9553e-03,  ...,  7.9489e-04,
+          0.0000e+00,  1.5929e-05],
+        [ 0.0000e+00,  3.3784e-04, -2.4147e-03,  ...,  1.3103e-03,
+          0.0000e+00,  4.8950e-06],
+        [ 0.0000e+00,  2.2662e-04, -6.0081e-03,  ...,  1.0223e-03,
+          0.0000e+00,  4.8205e-06],
+        ...,
+        [ 0.0000e+00, -4.8876e-04,  2.9030e-03,  ..., -3.5572e-04,
+          0.0000e+00,  2.2855e-06],
+        [ 0.0000e+00,  1.3504e-03,  7.3395e-03,  ...,  5.1498e-03,
+          0.0000e+00, -1.3342e-03],
+        [ 0.0000e+00,  1.2960e-03, -1.7517e-02,  ..., -1.7960e-02,
+          0.0000e+00,  1.3202e-05]], device='cuda:0')
+Epoch 4, bias, value: tensor([-0.0129, -0.0087, -0.0266, -0.0261, -0.0122,  0.0059,  0.0081, -0.0248,
+        -0.0148,  0.0098], device='cuda:0'), grad: tensor([ 0.0034, -0.0030, -0.0192,  0.0032,  0.0040, -0.0036,  0.0095,  0.0063,
+         0.0117, -0.0123], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 222.10, cls_loss 0.1628 cls_loss_mapping 0.2806 cls_loss_causal 1.4610 re_mapping 0.1172 re_causal 0.2083 /// teacc 96.23 lr 0.00010000
+Epoch 5, weight, value: tensor([[-0.0102, -0.0371,  0.0407,  ...,  0.0088,  0.0085,  0.0027],
+        [-0.0288,  0.0017,  0.0046,  ..., -0.0058, -0.0314, -0.0096],
+        [ 0.0232,  0.0019,  0.0177,  ...,  0.0077, -0.0053, -0.0411],
+        ...,
+        [ 0.0221,  0.0029, -0.0011,  ...,  0.0296,  0.0140, -0.0111],
+        [ 0.0014, -0.0124,  0.0343,  ..., -0.0232, -0.0198,  0.0009],
+        [-0.0098, -0.0180,  0.0221,  ...,  0.0316, -0.0029, -0.0077]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  5.4312e-04,  1.6203e-03,  ...,  1.5535e-03,
+          0.0000e+00,  3.6502e-04],
+        [ 0.0000e+00,  2.3639e-04, -1.1816e-03,  ...,  5.6601e-04,
+          0.0000e+00,  8.8155e-05],
+        [ 0.0000e+00,  1.7805e-03,  2.1248e-03,  ...,  1.9646e-03,
+          0.0000e+00,  1.6415e-04],
+        ...,
+        [ 0.0000e+00, -2.6798e-03,  1.2650e-02,  ...,  4.8103e-03,
+          0.0000e+00,  1.2474e-03],
+        [ 0.0000e+00,  1.2999e-03,  7.7782e-03,  ...,  5.3101e-03,
+          0.0000e+00,  5.9986e-04],
+        [ 0.0000e+00,  2.3403e-03, -2.6749e-02,  ..., -2.0981e-02,
+          0.0000e+00, -1.9569e-03]], device='cuda:0')
+Epoch 5, bias, value: tensor([-0.0128, -0.0091, -0.0265, -0.0258, -0.0123,  0.0058,  0.0079, -0.0247,
+        -0.0145,  0.0098], device='cuda:0'), grad: tensor([ 0.0049, -0.0069,  0.0021, -0.0152,  0.0052,  0.0053,  0.0014,  0.0087,
+         0.0106, -0.0161], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 222.46, cls_loss 0.1178 cls_loss_mapping 0.2042 cls_loss_causal 1.3494 re_mapping 0.0931 re_causal 0.1854 /// teacc 96.63 lr 0.00010000
+Epoch 6, weight, value: tensor([[-0.0102, -0.0377,  0.0420,  ...,  0.0074,  0.0108,  0.0013],
+        [-0.0288,  0.0008,  0.0034,  ..., -0.0066, -0.0332, -0.0179],
+        [ 0.0232,  0.0011,  0.0173,  ...,  0.0065, -0.0113, -0.0469],
+        ...,
+        [ 0.0221,  0.0053, -0.0012,  ...,  0.0306,  0.0100, -0.0171],
+        [ 0.0014, -0.0133,  0.0352,  ..., -0.0243, -0.0199,  0.0053],
+        [-0.0098, -0.0200,  0.0240,  ...,  0.0326, -0.0083, -0.0096]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.0282e-04, -5.1117e-04,  ...,  1.9741e-04,
+         -3.6335e-04,  3.5167e-05],
+        [ 0.0000e+00,  5.9986e-04,  1.0345e-02,  ...,  1.1072e-03,
+          4.6417e-06,  1.5659e-03],
+        [ 0.0000e+00,  1.9169e-03,  7.7591e-03,  ...,  2.5730e-03,
+          9.7036e-05,  7.6771e-05],
+        ...,
+        [ 0.0000e+00, -3.6316e-03, -2.2903e-02,  ..., -7.1907e-03,
+          5.6893e-05, -9.1743e-04],
+        [ 0.0000e+00,  1.2264e-03, -1.7147e-03,  ...,  2.7752e-03,
+          5.6714e-05, -1.0956e-02],
+        [ 0.0000e+00,  1.1806e-03,  1.5430e-03,  ..., -3.5839e-03,
+          6.1214e-05,  1.1034e-03]], device='cuda:0')
+Epoch 6, bias, value: tensor([-0.0128, -0.0090, -0.0265, -0.0258, -0.0120,  0.0053,  0.0076, -0.0248,
+        -0.0144,  0.0101], device='cuda:0'), grad: tensor([ 0.0010,  0.0238, -0.0146, -0.0152,  0.0044,  0.0085,  0.0042, -0.0163,
+         0.0046, -0.0004], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 5----------------------------------------------------
+epoch 5, time 222.53, cls_loss 0.1038 cls_loss_mapping 0.1739 cls_loss_causal 1.2566 re_mapping 0.0784 re_causal 0.1645 /// teacc 97.31 lr 0.00010000
+Epoch 7, weight, value: tensor([[-0.0102, -0.0384,  0.0434,  ...,  0.0062,  0.0153,  0.0021],
+        [-0.0288,  0.0005,  0.0026,  ..., -0.0087, -0.0386, -0.0227],
+        [ 0.0232,  0.0002,  0.0165,  ...,  0.0048, -0.0176, -0.0535],
+        ...,
+        [ 0.0221,  0.0068, -0.0014,  ...,  0.0317,  0.0040, -0.0231],
+        [ 0.0014, -0.0133,  0.0366,  ..., -0.0250, -0.0232,  0.0117],
+        [-0.0098, -0.0219,  0.0251,  ...,  0.0333, -0.0145, -0.0131]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.7881e-03, -4.2877e-03,  ...,  2.2125e-04,
+          1.0414e-02,  4.4227e-05],
+        [ 0.0000e+00,  2.7919e-04,  1.3857e-03,  ...,  1.9670e-04,
+          2.4247e-04,  2.6569e-03],
+        [ 0.0000e+00,  4.4327e-03,  4.9744e-03,  ...,  4.5853e-03,
+          7.8964e-04,  2.3270e-03],
+        ...,
+        [ 0.0000e+00, -7.0381e-03, -3.9024e-03,  ..., -8.3694e-03,
+          3.3855e-04,  8.6784e-04],
+        [ 0.0000e+00,  4.2295e-04, -3.5324e-03,  ..., -4.2677e-04,
+          2.3890e-04,  1.1196e-03],
+        [ 0.0000e+00,  1.8501e-03,  2.3727e-03,  ...,  2.0180e-03,
+          2.3007e-04,  1.9274e-03]], device='cuda:0')
+Epoch 7, bias, value: tensor([-0.0128, -0.0089, -0.0266, -0.0257, -0.0118,  0.0051,  0.0076, -0.0250,
+        -0.0140,  0.0098], device='cuda:0'), grad: tensor([ 0.0036,  0.0059,  0.0101,  0.0082,  0.0014, -0.0275, -0.0049, -0.0062,
+         0.0035,  0.0059], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 6, time 221.76, cls_loss 0.1073 cls_loss_mapping 0.1726 cls_loss_causal 1.2434 re_mapping 0.0640 re_causal 0.1467 /// teacc 97.28 lr 0.00010000
+Epoch 8, weight, value: tensor([[-1.0243e-02, -3.9061e-02,  4.4652e-02,  ...,  5.0099e-03,
+          1.7334e-02,  2.3563e-03],
+        [-2.8781e-02,  4.5420e-05,  1.5794e-03,  ..., -9.1317e-03,
+         -4.5100e-02, -2.4899e-02],
+        [ 2.3198e-02,  4.5113e-05,  1.5047e-02,  ...,  3.7007e-03,
+         -2.2945e-02, -6.0259e-02],
+        ...,
+        [ 2.2054e-02,  8.2435e-03, -1.5907e-03,  ...,  3.2357e-02,
+         -3.4719e-03, -2.6924e-02],
+        [ 1.4234e-03, -1.4464e-02,  3.8041e-02,  ..., -2.5661e-02,
+         -2.9706e-02,  1.5350e-02],
+        [-9.8281e-03, -2.2710e-02,  2.5992e-02,  ...,  3.4042e-02,
+         -2.3881e-02, -1.5346e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  9.3997e-05,  6.1493e-03,  ...,  3.3417e-03,
+         -9.2983e-06,  3.4695e-03],
+        [ 0.0000e+00,  2.1029e-04,  4.6468e-04,  ...,  3.7789e-04,
+          1.6636e-07,  1.3638e-04],
+        [ 0.0000e+00,  4.2892e-04,  3.8929e-03,  ...,  1.2379e-03,
+          3.1888e-06,  1.6861e-03],
+        ...,
+        [ 0.0000e+00, -7.6628e-04,  7.6218e-03,  ...,  2.9945e-03,
+          2.5518e-06,  4.9782e-03],
+        [ 0.0000e+00,  1.6892e-04, -4.7607e-02,  ..., -1.8585e-02,
+          3.1339e-07, -3.2349e-02],
+        [ 0.0000e+00,  8.4877e-04,  1.2276e-02,  ...,  8.6746e-03,
+          4.1490e-07,  9.2850e-03]], device='cuda:0')
+Epoch 8, bias, value: tensor([-0.0126, -0.0092, -0.0264, -0.0255, -0.0119,  0.0051,  0.0074, -0.0256,
+        -0.0137,  0.0099], device='cuda:0'), grad: tensor([ 0.0132,  0.0012,  0.0076, -0.0029, -0.0009,  0.0133, -0.0075,  0.0056,
+        -0.0480,  0.0183], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 7----------------------------------------------------
+epoch 7, time 222.34, cls_loss 0.0913 cls_loss_mapping 0.1452 cls_loss_causal 1.1394 re_mapping 0.0562 re_causal 0.1284 /// teacc 97.83 lr 0.00010000
+Epoch 9, weight, value: tensor([[-0.0102, -0.0393,  0.0454,  ...,  0.0038,  0.0197,  0.0022],
+        [-0.0288, -0.0001,  0.0007,  ..., -0.0098, -0.0513, -0.0270],
+        [ 0.0232, -0.0011,  0.0141,  ...,  0.0022, -0.0221, -0.0638],
+        ...,
+        [ 0.0221,  0.0100, -0.0016,  ...,  0.0340, -0.0119, -0.0300],
+        [ 0.0014, -0.0152,  0.0391,  ..., -0.0262, -0.0419,  0.0188],
+        [-0.0098, -0.0246,  0.0267,  ...,  0.0341, -0.0353, -0.0173]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.8358e-04, -7.5722e-03,  ...,  1.1629e-04,
+          6.6519e-05, -1.9970e-03],
+        [ 0.0000e+00,  4.9263e-05,  6.8521e-04,  ...,  8.8751e-05,
+          1.5154e-05,  3.6860e-04],
+        [ 0.0000e+00, -1.7989e-04,  2.6560e-04,  ...,  6.4969e-05,
+          3.0234e-05,  1.6956e-03],
+        ...,
+        [ 0.0000e+00, -6.5374e-04, -3.3045e-04,  ..., -1.7166e-03,
+          3.1859e-05,  3.7551e-04],
+        [ 0.0000e+00,  1.2016e-04, -5.6419e-03,  ..., -9.7215e-05,
+          8.0729e-04, -4.3335e-03],
+        [ 0.0000e+00,  5.5838e-04,  3.0613e-03,  ...,  2.4567e-03,
+          1.7536e-04,  2.4929e-03]], device='cuda:0')
+Epoch 9, bias, value: tensor([-0.0129, -0.0092, -0.0264, -0.0250, -0.0117,  0.0045,  0.0074, -0.0252,
+        -0.0135,  0.0094], device='cuda:0'), grad: tensor([-0.0085, -0.0006, -0.0001,  0.0066, -0.0010, -0.0028,  0.0025, -0.0002,
+        -0.0042,  0.0083], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 8----------------------------------------------------
+epoch 8, time 222.29, cls_loss 0.0680 cls_loss_mapping 0.1142 cls_loss_causal 1.1269 re_mapping 0.0524 re_causal 0.1266 /// teacc 98.02 lr 0.00010000
+Epoch 10, weight, value: tensor([[-1.0243e-02, -4.0390e-02,  4.6042e-02,  ...,  2.5107e-03,
+          2.0465e-02,  3.1441e-03],
+        [-2.8781e-02, -3.7975e-04, -5.2456e-06,  ..., -9.3388e-03,
+         -5.1943e-02, -2.9051e-02],
+        [ 2.3198e-02, -8.8327e-04,  1.3205e-02,  ...,  1.3086e-03,
+         -2.2454e-02, -6.7880e-02],
+        ...,
+        [ 2.2054e-02,  1.0954e-02, -1.4651e-03,  ...,  3.4792e-02,
+         -1.3332e-02, -3.1514e-02],
+        [ 1.4234e-03, -1.5573e-02,  4.0345e-02,  ..., -2.6844e-02,
+         -4.4691e-02,  2.1960e-02],
+        [-9.8281e-03, -2.5898e-02,  2.7957e-02,  ...,  3.4514e-02,
+         -3.8534e-02, -1.8399e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -3.5465e-05, -1.1673e-03,  ...,  1.3840e-04,
+         -9.9480e-05, -8.4257e-04],
+        [ 0.0000e+00, -6.3610e-04,  7.6056e-05,  ...,  1.6302e-05,
+          6.7428e-07,  4.5300e-05],
+        [ 0.0000e+00,  1.3542e-04,  4.6039e-04,  ...,  1.9436e-03,
+          7.3351e-06,  2.2686e-04],
+        ...,
+        [ 0.0000e+00, -4.0233e-05,  1.3661e-04,  ...,  1.3895e-03,
+          1.9968e-06,  1.1212e-04],
+        [ 0.0000e+00,  7.7367e-05,  5.9962e-05,  ...,  3.4189e-04,
+          5.2825e-06,  4.2152e-04],
+        [ 0.0000e+00,  2.6083e-04,  2.4348e-05,  ...,  2.0161e-03,
+          1.7941e-05,  1.7071e-04]], device='cuda:0')
+Epoch 10, bias, value: tensor([-0.0131, -0.0091, -0.0261, -0.0250, -0.0117,  0.0044,  0.0071, -0.0253,
+        -0.0132,  0.0094], device='cuda:0'), grad: tensor([-0.0010, -0.0046,  0.0032,  0.0024, -0.0084,  0.0006,  0.0001,  0.0027,
+         0.0013,  0.0037], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 9, time 221.74, cls_loss 0.0747 cls_loss_mapping 0.1213 cls_loss_causal 1.0785 re_mapping 0.0462 re_causal 0.1112 /// teacc 97.36 lr 0.00010000
+Epoch 11, weight, value: tensor([[-0.0102, -0.0406,  0.0467,  ...,  0.0018,  0.0202,  0.0046],
+        [-0.0288, -0.0011, -0.0010,  ..., -0.0100, -0.0526, -0.0331],
+        [ 0.0232, -0.0017,  0.0123,  ..., -0.0002, -0.0234, -0.0721],
+        ...,
+        [ 0.0221,  0.0119, -0.0016,  ...,  0.0356, -0.0156, -0.0328],
+        [ 0.0014, -0.0156,  0.0417,  ..., -0.0263, -0.0482,  0.0246],
+        [-0.0098, -0.0269,  0.0285,  ...,  0.0349, -0.0431, -0.0213]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.4687e-04,  3.8457e-04,  ...,  5.7316e-04,
+         -3.8981e-04, -2.1148e-04],
+        [ 0.0000e+00,  9.1267e-04,  3.9077e-04,  ...,  3.1400e-04,
+          2.1607e-05,  4.4227e-04],
+        [ 0.0000e+00, -1.0710e-03,  3.6383e-04,  ...,  3.7408e-04,
+          2.8744e-05, -3.4380e-04],
+        ...,
+        [ 0.0000e+00, -6.2895e-04, -2.0733e-03,  ..., -2.6417e-03,
+          1.9297e-05, -2.7657e-04],
+        [ 0.0000e+00,  4.4417e-04,  2.3518e-03,  ...,  1.2255e-03,
+          3.2067e-04,  1.2140e-03],
+        [ 0.0000e+00,  9.9754e-04, -1.2360e-03,  ..., -5.3978e-04,
+          9.8825e-05,  8.8155e-05]], device='cuda:0')
+Epoch 11, bias, value: tensor([-0.0130, -0.0093, -0.0265, -0.0248, -0.0120,  0.0043,  0.0072, -0.0252,
+        -0.0127,  0.0092], device='cuda:0'), grad: tensor([ 0.0005,  0.0089, -0.0119, -0.0398, -0.0009,  0.0359,  0.0014, -0.0014,
+         0.0058,  0.0016], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 10, time 221.48, cls_loss 0.0622 cls_loss_mapping 0.1063 cls_loss_causal 1.0394 re_mapping 0.0428 re_causal 0.1072 /// teacc 98.01 lr 0.00010000
+Epoch 12, weight, value: tensor([[-0.0102, -0.0417,  0.0473,  ...,  0.0008,  0.0199,  0.0058],
+        [-0.0288, -0.0018, -0.0016,  ..., -0.0113, -0.0525, -0.0337],
+        [ 0.0232, -0.0021,  0.0113,  ..., -0.0007, -0.0249, -0.0759],
+        ...,
+        [ 0.0221,  0.0130, -0.0017,  ...,  0.0364, -0.0178, -0.0331],
+        [ 0.0014, -0.0160,  0.0422,  ..., -0.0266, -0.0512,  0.0266],
+        [-0.0098, -0.0281,  0.0297,  ...,  0.0354, -0.0478, -0.0228]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.1873e-04,  2.4378e-04,  ...,  8.0109e-04,
+          1.6270e-03,  2.8782e-03],
+        [ 0.0000e+00,  6.4325e-04,  1.1129e-03,  ...,  8.1253e-04,
+          6.8963e-05,  4.5037e-04],
+        [ 0.0000e+00,  4.9782e-04,  1.1263e-03,  ...,  6.9571e-04,
+          2.4700e-04,  1.0624e-03],
+        ...,
+        [ 0.0000e+00, -1.7910e-03, -1.0061e-03,  ..., -1.2445e-03,
+          4.2677e-04,  1.3103e-03],
+        [ 0.0000e+00,  1.3471e-04, -1.2875e-03,  ...,  4.4084e-04,
+          5.3883e-04, -3.1395e-03],
+        [ 0.0000e+00,  3.3593e-04,  3.3140e-05,  ..., -8.6832e-04,
+          1.4770e-04,  1.7357e-03]], device='cuda:0')
+Epoch 12, bias, value: tensor([-0.0129, -0.0096, -0.0263, -0.0248, -0.0120,  0.0045,  0.0070, -0.0253,
+        -0.0127,  0.0093], device='cuda:0'), grad: tensor([ 0.0106, -0.0064,  0.0107, -0.0079, -0.0087, -0.0131,  0.0101,  0.0008,
+        -0.0002,  0.0042], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 11----------------------------------------------------
+epoch 11, time 222.29, cls_loss 0.0581 cls_loss_mapping 0.0946 cls_loss_causal 1.0517 re_mapping 0.0386 re_causal 0.1013 /// teacc 98.12 lr 0.00010000
+Epoch 13, weight, value: tensor([[-0.0102, -0.0425,  0.0478,  ..., -0.0002,  0.0206,  0.0062],
+        [-0.0288, -0.0027, -0.0025,  ..., -0.0111, -0.0523, -0.0354],
+        [ 0.0232, -0.0030,  0.0104,  ..., -0.0019, -0.0256, -0.0799],
+        ...,
+        [ 0.0221,  0.0142, -0.0018,  ...,  0.0373, -0.0201, -0.0333],
+        [ 0.0014, -0.0163,  0.0431,  ..., -0.0273, -0.0562,  0.0287],
+        [-0.0098, -0.0293,  0.0304,  ...,  0.0358, -0.0521, -0.0235]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  3.0327e-04, -2.8992e-04,  ...,  2.6178e-04,
+          4.5955e-05, -5.0008e-05],
+        [ 0.0000e+00,  2.4772e-04,  2.6894e-04,  ...,  3.1757e-04,
+          9.8068e-07,  5.8293e-05],
+        [ 0.0000e+00, -3.2091e-04,  6.8426e-04,  ...,  4.2105e-04,
+          8.8988e-07,  2.6679e-04],
+        ...,
+        [ 0.0000e+00, -2.7485e-03, -1.0834e-03,  ..., -3.9902e-03,
+          2.5332e-06,  1.6785e-04],
+        [ 0.0000e+00,  2.2590e-04, -3.7861e-03,  ..., -6.0081e-04,
+          4.6194e-06, -2.9564e-03],
+        [ 0.0000e+00,  8.8596e-04,  2.4223e-03,  ...,  1.1959e-03,
+          1.3411e-05,  2.3785e-03]], device='cuda:0')
+Epoch 13, bias, value: tensor([-0.0133, -0.0098, -0.0264, -0.0244, -0.0123,  0.0046,  0.0073, -0.0250,
+        -0.0126,  0.0090], device='cuda:0'), grad: tensor([ 0.0007,  0.0013, -0.0017, -0.0024, -0.0036,  0.0010,  0.0030, -0.0036,
+        -0.0003,  0.0055], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 12----------------------------------------------------
+epoch 12, time 222.24, cls_loss 0.0468 cls_loss_mapping 0.0808 cls_loss_causal 0.9970 re_mapping 0.0358 re_causal 0.0954 /// teacc 98.38 lr 0.00010000
+Epoch 14, weight, value: tensor([[-0.0102, -0.0435,  0.0486,  ..., -0.0006,  0.0206,  0.0072],
+        [-0.0288, -0.0035, -0.0030,  ..., -0.0124, -0.0525, -0.0352],
+        [ 0.0232, -0.0044,  0.0095,  ..., -0.0031, -0.0261, -0.0835],
+        ...,
+        [ 0.0221,  0.0157, -0.0019,  ...,  0.0379, -0.0215, -0.0345],
+        [ 0.0014, -0.0169,  0.0440,  ..., -0.0278, -0.0580,  0.0307],
+        [-0.0098, -0.0304,  0.0311,  ...,  0.0363, -0.0545, -0.0237]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.3723e-05, -2.0707e-04,  ...,  9.2506e-05,
+          1.0991e-04,  1.0672e-03],
+        [ 0.0000e+00,  6.0320e-05,  3.0851e-04,  ...,  3.9291e-04,
+          6.9924e-06,  6.1274e-05],
+        [ 0.0000e+00,  7.6711e-05,  2.6870e-04,  ...,  1.1873e-04,
+          1.7613e-05,  2.1064e-04],
+        ...,
+        [ 0.0000e+00, -1.1902e-03,  7.3147e-04,  ...,  1.2236e-03,
+          2.6867e-05,  2.1708e-04],
+        [ 0.0000e+00,  8.5354e-05,  1.2941e-03,  ...,  2.3389e-04,
+          4.4250e-04,  4.0321e-03],
+        [ 0.0000e+00,  2.5368e-04, -4.0627e-04,  ...,  1.2279e-04,
+          6.9320e-05,  8.9693e-04]], device='cuda:0')
+Epoch 14, bias, value: tensor([-0.0131, -0.0099, -0.0267, -0.0243, -0.0121,  0.0046,  0.0069, -0.0249,
+        -0.0123,  0.0088], device='cuda:0'), grad: tensor([ 0.0024,  0.0007, -0.0007,  0.0017, -0.0054, -0.0066, -0.0025,  0.0021,
+         0.0051,  0.0031], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 13----------------------------------------------------
+epoch 13, time 222.28, cls_loss 0.0430 cls_loss_mapping 0.0745 cls_loss_causal 0.9732 re_mapping 0.0335 re_causal 0.0909 /// teacc 98.40 lr 0.00010000
+Epoch 15, weight, value: tensor([[-0.0102, -0.0444,  0.0491,  ..., -0.0013,  0.0218,  0.0075],
+        [-0.0288, -0.0042, -0.0037,  ..., -0.0124, -0.0522, -0.0362],
+        [ 0.0232, -0.0046,  0.0087,  ..., -0.0032, -0.0263, -0.0867],
+        ...,
+        [ 0.0221,  0.0172, -0.0019,  ...,  0.0384, -0.0242, -0.0355],
+        [ 0.0014, -0.0177,  0.0452,  ..., -0.0284, -0.0609,  0.0333],
+        [-0.0098, -0.0316,  0.0318,  ...,  0.0367, -0.0590, -0.0250]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  3.8052e-04, -8.1863e-03,  ...,  2.5582e-04,
+         -5.2631e-05, -7.6141e-03],
+        [ 0.0000e+00,  8.3542e-04,  8.0299e-04,  ...,  6.4850e-05,
+          9.5926e-07,  3.5310e-04],
+        [ 0.0000e+00,  1.4954e-03,  1.4963e-03,  ...,  2.3413e-04,
+          1.2465e-05,  2.9230e-04],
+        ...,
+        [ 0.0000e+00,  4.3945e-03,  1.9350e-03,  ..., -5.7125e-04,
+          2.4829e-06,  1.5748e-04],
+        [ 0.0000e+00,  1.2960e-03,  1.8108e-04,  ..., -2.8163e-05,
+          1.7472e-06, -3.0541e-04],
+        [ 0.0000e+00,  2.2564e-03,  1.3342e-03,  ..., -2.6393e-04,
+          4.8243e-06,  7.5626e-04]], device='cuda:0')
+Epoch 15, bias, value: tensor([-0.0132, -0.0101, -0.0264, -0.0247, -0.0122,  0.0043,  0.0070, -0.0249,
+        -0.0117,  0.0089], device='cuda:0'), grad: tensor([-0.0105,  0.0027,  0.0030, -0.0222,  0.0007, -0.0007,  0.0106,  0.0087,
+         0.0029,  0.0048], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 14, time 221.47, cls_loss 0.0342 cls_loss_mapping 0.0605 cls_loss_causal 0.9607 re_mapping 0.0322 re_causal 0.0886 /// teacc 98.11 lr 0.00010000
+Epoch 16, weight, value: tensor([[-0.0102, -0.0449,  0.0498,  ..., -0.0018,  0.0219,  0.0077],
+        [-0.0288, -0.0049, -0.0041,  ..., -0.0133, -0.0520, -0.0359],
+        [ 0.0232, -0.0049,  0.0076,  ..., -0.0037, -0.0258, -0.0894],
+        ...,
+        [ 0.0221,  0.0181, -0.0017,  ...,  0.0391, -0.0293, -0.0375],
+        [ 0.0014, -0.0184,  0.0457,  ..., -0.0286, -0.0664,  0.0346],
+        [-0.0098, -0.0327,  0.0324,  ...,  0.0369, -0.0652, -0.0253]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  8.3745e-05,  2.6202e-04,  ...,  3.7241e-04,
+          1.4625e-05,  7.4387e-05],
+        [ 0.0000e+00,  5.4687e-05,  1.7703e-04,  ...,  2.3663e-04,
+          2.6412e-06,  2.8238e-06],
+        [ 0.0000e+00,  9.6381e-05,  3.3587e-05,  ...,  5.7077e-04,
+         -7.0989e-05,  1.8865e-05],
+        ...,
+        [ 0.0000e+00,  3.5477e-04,  1.6785e-03,  ...,  1.3418e-03,
+          9.2462e-06,  1.6689e-04],
+        [ 0.0000e+00,  1.4234e-04,  1.0500e-03,  ...,  7.0190e-04,
+          4.6223e-05,  2.5535e-04],
+        [ 0.0000e+00,  1.8969e-03,  3.7651e-03,  ...,  3.4885e-03,
+          8.2850e-06, -1.5825e-05]], device='cuda:0')
+Epoch 16, bias, value: tensor([-0.0131, -0.0101, -0.0264, -0.0244, -0.0120,  0.0041,  0.0070, -0.0251,
+        -0.0120,  0.0089], device='cuda:0'), grad: tensor([ 0.0012,  0.0006,  0.0004, -0.0017, -0.0162, -0.0011,  0.0003,  0.0035,
+         0.0018,  0.0113], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 15----------------------------------------------------
+epoch 15, time 222.11, cls_loss 0.0443 cls_loss_mapping 0.0782 cls_loss_causal 0.9163 re_mapping 0.0300 re_causal 0.0841 /// teacc 98.44 lr 0.00010000
+Epoch 17, weight, value: tensor([[-0.0102, -0.0455,  0.0501,  ..., -0.0025,  0.0221,  0.0078],
+        [-0.0288, -0.0056, -0.0051,  ..., -0.0138, -0.0538, -0.0371],
+        [ 0.0232, -0.0057,  0.0074,  ..., -0.0044, -0.0257, -0.0922],
+        ...,
+        [ 0.0221,  0.0192, -0.0020,  ...,  0.0397, -0.0285, -0.0393],
+        [ 0.0014, -0.0189,  0.0464,  ..., -0.0289, -0.0722,  0.0369],
+        [-0.0098, -0.0340,  0.0333,  ...,  0.0372, -0.0695, -0.0258]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.4150e-04, -3.8409e-04,  ...,  1.5032e-04,
+          9.3281e-06, -3.8886e-04],
+        [ 0.0000e+00,  1.0180e-04,  1.0270e-04,  ...,  1.2255e-04,
+          1.0476e-05,  2.9042e-05],
+        [ 0.0000e+00,  5.6458e-04,  5.9462e-04,  ...,  5.7316e-04,
+         -8.3208e-05,  3.2616e-04],
+        ...,
+        [ 0.0000e+00, -1.4238e-03, -9.2649e-04,  ..., -1.4534e-03,
+          1.3828e-05,  1.0973e-04],
+        [ 0.0000e+00,  9.9719e-05, -1.1759e-03,  ...,  1.1027e-04,
+          4.4070e-06, -2.2488e-03],
+        [ 0.0000e+00,  2.6369e-04,  2.3103e-04,  ...,  2.5463e-04,
+          1.7453e-06,  1.2076e-04]], device='cuda:0')
+Epoch 17, bias, value: tensor([-0.0136, -0.0107, -0.0264, -0.0245, -0.0119,  0.0044,  0.0071, -0.0249,
+        -0.0117,  0.0090], device='cuda:0'), grad: tensor([ 6.9253e-06,  2.5582e-04,  3.7146e-04,  4.9257e-04,  1.6689e-04,
+         1.1673e-03,  1.0824e-03, -2.4261e-03, -1.8377e-03,  7.2098e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 16----------------------------------------------------
+epoch 16, time 221.91, cls_loss 0.0319 cls_loss_mapping 0.0588 cls_loss_causal 0.8806 re_mapping 0.0283 re_causal 0.0804 /// teacc 98.46 lr 0.00010000
+Epoch 18, weight, value: tensor([[-0.0102, -0.0465,  0.0506,  ..., -0.0028,  0.0226,  0.0079],
+        [-0.0288, -0.0058, -0.0056,  ..., -0.0141, -0.0553, -0.0380],
+        [ 0.0232, -0.0061,  0.0066,  ..., -0.0050, -0.0243, -0.0947],
+        ...,
+        [ 0.0221,  0.0203, -0.0017,  ...,  0.0405, -0.0273, -0.0393],
+        [ 0.0014, -0.0192,  0.0472,  ..., -0.0290, -0.0772,  0.0380],
+        [-0.0098, -0.0353,  0.0337,  ...,  0.0375, -0.0725, -0.0267]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.0206e-05, -5.5504e-04,  ...,  6.8724e-05,
+         -1.5691e-05, -1.1492e-04],
+        [ 0.0000e+00,  4.6015e-05,  9.7096e-05,  ...,  3.9756e-05,
+          7.0892e-06,  6.7616e-04],
+        [ 0.0000e+00,  8.9288e-05,  1.1814e-04,  ..., -2.0134e-04,
+         -1.7738e-04,  3.2926e-04],
+        ...,
+        [ 0.0000e+00, -5.9652e-04, -1.0383e-04,  ..., -3.8409e-04,
+          4.5002e-05,  1.9348e-04],
+        [ 0.0000e+00,  3.7491e-05,  6.1989e-06,  ...,  7.7426e-05,
+          1.3299e-05,  5.4884e-04],
+        [ 0.0000e+00,  1.5652e-04, -1.1599e-04,  ..., -3.4198e-06,
+          2.8864e-05,  6.5041e-04]], device='cuda:0')
+Epoch 18, bias, value: tensor([-0.0134, -0.0107, -0.0265, -0.0244, -0.0119,  0.0043,  0.0071, -0.0249,
+        -0.0116,  0.0088], device='cuda:0'), grad: tensor([-9.1255e-05,  1.1120e-03, -7.4911e-04,  4.8599e-03,  2.0962e-03,
+        -1.9485e-02,  9.4376e-03,  9.1076e-05,  1.5030e-03,  1.2341e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 17----------------------------------------------------
+epoch 17, time 222.01, cls_loss 0.0265 cls_loss_mapping 0.0527 cls_loss_causal 0.8679 re_mapping 0.0277 re_causal 0.0802 /// teacc 98.50 lr 0.00010000
+Epoch 19, weight, value: tensor([[-0.0102, -0.0473,  0.0511,  ..., -0.0034,  0.0230,  0.0084],
+        [-0.0288, -0.0067, -0.0060,  ..., -0.0148, -0.0554, -0.0373],
+        [ 0.0232, -0.0068,  0.0060,  ..., -0.0057, -0.0252, -0.0978],
+        ...,
+        [ 0.0221,  0.0218, -0.0015,  ...,  0.0411, -0.0286, -0.0400],
+        [ 0.0014, -0.0197,  0.0477,  ..., -0.0296, -0.0798,  0.0395],
+        [-0.0098, -0.0363,  0.0342,  ...,  0.0377, -0.0779, -0.0278]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.1723e-06,  3.1024e-05,  ...,  1.6451e-05,
+          5.0128e-05,  3.0565e-04],
+        [ 0.0000e+00,  2.3067e-05, -5.0105e-07,  ...,  3.1412e-05,
+          1.4268e-05, -8.7976e-05],
+        [ 0.0000e+00,  1.1903e-04,  7.6115e-05,  ...,  3.2097e-05,
+         -8.6904e-05,  9.2924e-05],
+        ...,
+        [ 0.0000e+00, -2.3037e-05,  1.9670e-04,  ...,  1.9526e-04,
+          3.1829e-05,  1.2803e-04],
+        [ 0.0000e+00,  8.6248e-05,  1.4961e-04,  ...,  4.9496e-04,
+          5.8591e-05,  1.2565e-04],
+        [ 0.0000e+00,  3.8385e-05, -7.0238e-04,  ..., -3.6860e-04,
+          2.2307e-05, -2.0492e-04]], device='cuda:0')
+Epoch 19, bias, value: tensor([-0.0133, -0.0110, -0.0264, -0.0244, -0.0117,  0.0040,  0.0073, -0.0247,
+        -0.0115,  0.0084], device='cuda:0'), grad: tensor([ 5.4359e-04,  6.8069e-05, -2.5749e-04, -2.0370e-03, -9.8324e-04,
+         6.1464e-04, -3.4690e-04,  5.2881e-04,  1.2436e-03,  6.2704e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 18----------------------------------------------------
+epoch 18, time 222.27, cls_loss 0.0275 cls_loss_mapping 0.0500 cls_loss_causal 0.8878 re_mapping 0.0265 re_causal 0.0817 /// teacc 98.56 lr 0.00010000
+Epoch 20, weight, value: tensor([[-0.0102, -0.0482,  0.0515,  ..., -0.0039,  0.0231,  0.0086],
+        [-0.0288, -0.0073, -0.0069,  ..., -0.0155, -0.0566, -0.0388],
+        [ 0.0232, -0.0073,  0.0057,  ..., -0.0063, -0.0241, -0.1003],
+        ...,
+        [ 0.0221,  0.0227, -0.0018,  ...,  0.0415, -0.0269, -0.0404],
+        [ 0.0014, -0.0200,  0.0482,  ..., -0.0298, -0.0831,  0.0404],
+        [-0.0098, -0.0370,  0.0350,  ...,  0.0381, -0.0803, -0.0277]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.8965e-05, -8.6784e-04,  ...,  7.6413e-05,
+         -4.4167e-05, -7.4863e-04],
+        [ 0.0000e+00,  3.3170e-05,  1.5628e-04,  ...,  8.8513e-05,
+          3.1516e-06,  1.4079e-04],
+        [ 0.0000e+00,  1.0902e-04,  5.0926e-04,  ...,  1.2493e-04,
+         -8.2552e-06,  5.9223e-04],
+        ...,
+        [ 0.0000e+00, -9.5797e-04, -5.8222e-04,  ..., -8.4066e-04,
+          4.0308e-06,  2.9349e-04],
+        [ 0.0000e+00,  4.3184e-05,  2.7218e-03,  ...,  1.4601e-03,
+          5.0254e-06,  1.4830e-03],
+        [ 0.0000e+00,  1.4985e-04, -4.3488e-03,  ..., -1.7738e-03,
+          3.0752e-06, -2.4090e-03]], device='cuda:0')
+Epoch 20, bias, value: tensor([-0.0136, -0.0113, -0.0261, -0.0245, -0.0117,  0.0042,  0.0075, -0.0250,
+        -0.0116,  0.0088], device='cuda:0'), grad: tensor([-2.1019e-03, -1.4037e-05,  1.1406e-03,  2.3365e-03, -2.6321e-04,
+         5.6219e-04,  1.2922e-04, -6.2561e-04,  2.7504e-03, -3.9139e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 19, time 221.37, cls_loss 0.0294 cls_loss_mapping 0.0511 cls_loss_causal 0.8758 re_mapping 0.0254 re_causal 0.0775 /// teacc 98.38 lr 0.00010000
+Epoch 21, weight, value: tensor([[-0.0102, -0.0490,  0.0513,  ..., -0.0043,  0.0226,  0.0078],
+        [-0.0288, -0.0076, -0.0074,  ..., -0.0160, -0.0544, -0.0402],
+        [ 0.0232, -0.0075,  0.0051,  ..., -0.0069, -0.0235, -0.1032],
+        ...,
+        [ 0.0221,  0.0236, -0.0018,  ...,  0.0423, -0.0275, -0.0407],
+        [ 0.0014, -0.0207,  0.0489,  ..., -0.0300, -0.0842,  0.0419],
+        [-0.0098, -0.0383,  0.0359,  ...,  0.0382, -0.0802, -0.0268]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.3575e-05, -8.9931e-04,  ...,  1.6764e-05,
+          2.3270e-04, -1.3380e-03],
+        [ 0.0000e+00,  4.0650e-05,  1.3466e-03,  ...,  3.7938e-05,
+          1.2722e-06,  1.7948e-03],
+        [ 0.0000e+00,  1.1492e-04,  2.7037e-04,  ...,  8.3089e-05,
+         -8.6021e-04,  3.0541e-04],
+        ...,
+        [ 0.0000e+00, -3.6716e-04,  1.6463e-04,  ..., -3.9577e-05,
+          8.7261e-05,  1.5914e-04],
+        [ 0.0000e+00, -2.3134e-06, -2.0008e-03,  ...,  8.0109e-05,
+          5.5408e-04, -2.4719e-03],
+        [ 0.0000e+00,  1.4555e-04, -4.9210e-04,  ...,  1.8239e-04,
+          1.2815e-04,  6.6090e-04]], device='cuda:0')
+Epoch 21, bias, value: tensor([-0.0140, -0.0114, -0.0263, -0.0247, -0.0120,  0.0045,  0.0074, -0.0246,
+        -0.0112,  0.0089], device='cuda:0'), grad: tensor([-0.0014,  0.0018, -0.0033,  0.0011,  0.0004, -0.0018,  0.0030,  0.0004,
+        -0.0015,  0.0013], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 20, time 221.26, cls_loss 0.0270 cls_loss_mapping 0.0525 cls_loss_causal 0.8307 re_mapping 0.0250 re_causal 0.0737 /// teacc 98.31 lr 0.00010000
+Epoch 22, weight, value: tensor([[-0.0102, -0.0498,  0.0518,  ..., -0.0049,  0.0233,  0.0084],
+        [-0.0288, -0.0079, -0.0076,  ..., -0.0164, -0.0557, -0.0399],
+        [ 0.0232, -0.0085,  0.0044,  ..., -0.0078, -0.0234, -0.1054],
+        ...,
+        [ 0.0221,  0.0244, -0.0019,  ...,  0.0431, -0.0264, -0.0416],
+        [ 0.0014, -0.0205,  0.0493,  ..., -0.0300, -0.0867,  0.0425],
+        [-0.0098, -0.0404,  0.0363,  ...,  0.0382, -0.0836, -0.0279]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  8.1837e-05, -4.0829e-05,  ...,  9.5129e-05,
+         -3.0577e-05,  9.2447e-05],
+        [ 0.0000e+00,  6.0022e-05,  3.1173e-05,  ...,  8.6486e-05,
+          5.2527e-06, -6.1691e-05],
+        [ 0.0000e+00,  1.8489e-04, -1.3180e-05,  ...,  1.5008e-04,
+         -1.6296e-04,  4.0650e-05],
+        ...,
+        [ 0.0000e+00, -5.5695e-04, -2.2018e-04,  ..., -4.5252e-04,
+          7.9155e-05,  2.0489e-06],
+        [ 0.0000e+00,  4.2409e-05,  3.7217e-04,  ...,  2.9445e-04,
+          1.9014e-05, -4.4405e-05],
+        [ 0.0000e+00,  1.0085e-04, -6.4898e-04,  ..., -1.7512e-04,
+          1.1630e-05,  4.3750e-05]], device='cuda:0')
+Epoch 22, bias, value: tensor([-0.0138, -0.0113, -0.0263, -0.0243, -0.0119,  0.0046,  0.0073, -0.0245,
+        -0.0115,  0.0085], device='cuda:0'), grad: tensor([ 2.8992e-04, -4.5031e-05, -8.3733e-04, -2.7802e-02, -5.4502e-04,
+         2.8412e-02, -3.0071e-05, -6.5863e-05,  4.6039e-04,  1.6022e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 21, time 221.62, cls_loss 0.0261 cls_loss_mapping 0.0515 cls_loss_causal 0.8687 re_mapping 0.0234 re_causal 0.0715 /// teacc 98.51 lr 0.00010000
+Epoch 23, weight, value: tensor([[-0.0102, -0.0506,  0.0523,  ..., -0.0053,  0.0250,  0.0095],
+        [-0.0288, -0.0085, -0.0084,  ..., -0.0166, -0.0559, -0.0399],
+        [ 0.0232, -0.0094,  0.0036,  ..., -0.0082, -0.0229, -0.1096],
+        ...,
+        [ 0.0221,  0.0255, -0.0018,  ...,  0.0435, -0.0270, -0.0424],
+        [ 0.0014, -0.0209,  0.0500,  ..., -0.0303, -0.0877,  0.0441],
+        [-0.0098, -0.0414,  0.0370,  ...,  0.0384, -0.0868, -0.0282]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.4938e-05, -2.0289e-04,  ...,  1.0766e-05,
+          1.3031e-05, -1.7858e-04],
+        [ 0.0000e+00,  5.3942e-05,  8.0824e-05,  ...,  5.1022e-05,
+          3.4384e-06, -1.8632e-04],
+        [ 0.0000e+00, -3.3826e-06,  1.1587e-04,  ...,  1.2445e-04,
+         -1.2016e-04,  9.3937e-05],
+        ...,
+        [ 0.0000e+00, -1.8501e-04, -9.9063e-05,  ..., -1.2553e-04,
+          5.1558e-05,  1.3196e-04],
+        [ 0.0000e+00,  1.0586e-04,  1.0729e-05,  ...,  4.8280e-05,
+          4.2707e-05,  1.0508e-04],
+        [ 0.0000e+00,  5.3085e-08, -3.1495e-04,  ..., -2.6751e-04,
+          2.4717e-06,  1.0109e-04]], device='cuda:0')
+Epoch 23, bias, value: tensor([-0.0137, -0.0111, -0.0266, -0.0245, -0.0119,  0.0046,  0.0070, -0.0244,
+        -0.0112,  0.0085], device='cuda:0'), grad: tensor([-1.9997e-05, -3.1829e-04, -5.3644e-04,  1.9932e-04,  2.1565e-04,
+         3.0422e-04, -3.6550e-04,  4.3797e-04,  4.6587e-04, -3.8385e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 22----------------------------------------------------
+epoch 22, time 221.51, cls_loss 0.0279 cls_loss_mapping 0.0520 cls_loss_causal 0.8301 re_mapping 0.0219 re_causal 0.0648 /// teacc 98.57 lr 0.00010000
+Epoch 24, weight, value: tensor([[-0.0102, -0.0518,  0.0532,  ..., -0.0057,  0.0253,  0.0104],
+        [-0.0288, -0.0090, -0.0089,  ..., -0.0166, -0.0560, -0.0405],
+        [ 0.0232, -0.0099,  0.0031,  ..., -0.0088, -0.0231, -0.1120],
+        ...,
+        [ 0.0221,  0.0258, -0.0017,  ...,  0.0438, -0.0273, -0.0424],
+        [ 0.0014, -0.0205,  0.0506,  ..., -0.0303, -0.0886,  0.0453],
+        [-0.0098, -0.0423,  0.0371,  ...,  0.0386, -0.0881, -0.0294]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.1705e-05, -1.3173e-04,  ...,  7.6056e-05,
+         -1.0140e-05, -8.1122e-05],
+        [ 0.0000e+00,  1.8048e-04,  3.1447e-04,  ...,  3.6120e-04,
+          5.3411e-07, -1.6272e-04],
+        [ 0.0000e+00,  7.5579e-05,  6.5684e-05,  ...,  2.2805e-04,
+          4.2394e-06,  8.4758e-05],
+        ...,
+        [ 0.0000e+00,  2.4853e-03,  6.3171e-03,  ...,  7.3166e-03,
+          1.2470e-06,  3.6359e-05],
+        [ 0.0000e+00,  2.5940e-04,  3.8362e-04,  ...,  3.0899e-04,
+          1.2089e-06,  3.7217e-04],
+        [ 0.0000e+00, -3.5915e-03, -8.5449e-03,  ..., -9.8877e-03,
+          1.5832e-06, -8.9705e-06]], device='cuda:0')
+Epoch 24, bias, value: tensor([-0.0133, -0.0114, -0.0265, -0.0245, -0.0113,  0.0046,  0.0069, -0.0247,
+        -0.0110,  0.0079], device='cuda:0'), grad: tensor([-7.3314e-05,  3.2139e-04, -4.4799e-04,  7.0095e-04,  1.7262e-03,
+         2.1040e-04, -2.3746e-04,  1.2276e-02,  1.2541e-03, -1.5732e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 23----------------------------------------------------
+epoch 23, time 222.21, cls_loss 0.0224 cls_loss_mapping 0.0467 cls_loss_causal 0.8327 re_mapping 0.0222 re_causal 0.0680 /// teacc 98.68 lr 0.00010000
+Epoch 25, weight, value: tensor([[-0.0102, -0.0529,  0.0533,  ..., -0.0063,  0.0254,  0.0104],
+        [-0.0288, -0.0090, -0.0095,  ..., -0.0177, -0.0568, -0.0403],
+        [ 0.0232, -0.0107,  0.0025,  ..., -0.0095, -0.0227, -0.1139],
+        ...,
+        [ 0.0221,  0.0266, -0.0019,  ...,  0.0443, -0.0268, -0.0427],
+        [ 0.0014, -0.0206,  0.0513,  ..., -0.0304, -0.0897,  0.0461],
+        [-0.0098, -0.0429,  0.0380,  ...,  0.0390, -0.0892, -0.0295]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.3007e-05, -2.3861e-03,  ...,  1.4015e-05,
+         -8.4639e-06, -1.1292e-03],
+        [ 0.0000e+00,  2.9892e-05,  5.7310e-05,  ...,  2.1964e-05,
+          3.5688e-06, -1.2865e-03],
+        [ 0.0000e+00,  3.1352e-05,  3.3283e-03,  ...,  2.8238e-05,
+          8.7023e-04,  2.1267e-03],
+        ...,
+        [ 0.0000e+00, -6.5804e-05, -1.8626e-05,  ..., -1.5366e-04,
+          3.3796e-05,  1.3363e-04],
+        [ 0.0000e+00,  5.9843e-04, -2.0199e-03,  ...,  3.1829e-05,
+         -9.1505e-04, -1.3609e-03],
+        [ 0.0000e+00,  1.5478e-03,  3.5038e-03,  ...,  1.3399e-03,
+          1.7047e-05,  1.0071e-03]], device='cuda:0')
+Epoch 25, bias, value: tensor([-0.0139, -0.0118, -0.0264, -0.0243, -0.0112,  0.0045,  0.0070, -0.0245,
+        -0.0109,  0.0081], device='cuda:0'), grad: tensor([-0.0035, -0.0016,  0.0030, -0.0037, -0.0021, -0.0012,  0.0013,  0.0002,
+        -0.0005,  0.0080], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 24, time 221.01, cls_loss 0.0255 cls_loss_mapping 0.0496 cls_loss_causal 0.8450 re_mapping 0.0209 re_causal 0.0660 /// teacc 98.47 lr 0.00010000
+Epoch 26, weight, value: tensor([[-0.0102, -0.0539,  0.0537,  ..., -0.0067,  0.0249,  0.0106],
+        [-0.0288, -0.0092, -0.0100,  ..., -0.0185, -0.0586, -0.0400],
+        [ 0.0232, -0.0121,  0.0020,  ..., -0.0100, -0.0213, -0.1154],
+        ...,
+        [ 0.0221,  0.0273, -0.0019,  ...,  0.0450, -0.0254, -0.0427],
+        [ 0.0014, -0.0216,  0.0516,  ..., -0.0308, -0.0923,  0.0471],
+        [-0.0098, -0.0443,  0.0384,  ...,  0.0392, -0.0927, -0.0295]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.6819e-05,  3.4332e-04,  ...,  6.5506e-05,
+          1.9884e-04,  6.8045e-04],
+        [ 0.0000e+00,  2.9549e-05,  1.7715e-04,  ...,  8.5950e-05,
+          3.0100e-05,  2.0909e-04],
+        [ 0.0000e+00,  1.4603e-05,  1.0929e-03,  ...,  1.8132e-04,
+          3.8266e-04,  1.8244e-03],
+        ...,
+        [ 0.0000e+00, -2.6560e-04,  7.7534e-04,  ...,  4.4227e-04,
+          8.2135e-05,  2.4557e-04],
+        [ 0.0000e+00, -9.1456e-07, -2.6932e-03,  ..., -2.5129e-04,
+         -1.1272e-03, -5.0163e-03],
+        [ 0.0000e+00, -1.8370e-04, -1.5631e-03,  ..., -1.4019e-03,
+          7.7367e-05,  3.6216e-04]], device='cuda:0')
+Epoch 26, bias, value: tensor([-0.0141, -0.0120, -0.0265, -0.0236, -0.0116,  0.0041,  0.0066, -0.0243,
+        -0.0109,  0.0084], device='cuda:0'), grad: tensor([ 0.0012,  0.0004,  0.0029,  0.0019,  0.0005, -0.0004,  0.0018,  0.0011,
+        -0.0079, -0.0015], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 25, time 221.25, cls_loss 0.0216 cls_loss_mapping 0.0436 cls_loss_causal 0.8224 re_mapping 0.0205 re_causal 0.0617 /// teacc 98.66 lr 0.00010000
+Epoch 27, weight, value: tensor([[-0.0102, -0.0549,  0.0541,  ..., -0.0074,  0.0250,  0.0110],
+        [-0.0288, -0.0085, -0.0102,  ..., -0.0186, -0.0591, -0.0400],
+        [ 0.0232, -0.0131,  0.0015,  ..., -0.0109, -0.0205, -0.1181],
+        ...,
+        [ 0.0221,  0.0281, -0.0018,  ...,  0.0462, -0.0253, -0.0435],
+        [ 0.0014, -0.0223,  0.0521,  ..., -0.0311, -0.0936,  0.0477],
+        [-0.0098, -0.0450,  0.0393,  ...,  0.0395, -0.0941, -0.0288]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  3.0115e-05, -3.4261e-04,  ..., -4.3988e-05,
+         -9.0718e-05,  5.3883e-05],
+        [ 0.0000e+00,  8.3685e-05,  1.1092e-04,  ...,  7.2718e-05,
+          1.6056e-06,  3.2008e-05],
+        [ 0.0000e+00,  1.7560e-04,  2.5487e-04,  ...,  1.7416e-04,
+          2.3004e-06,  6.8247e-05],
+        ...,
+        [ 0.0000e+00,  2.6779e-03,  1.9569e-03,  ..., -6.3562e-04,
+          3.0659e-06,  3.5048e-05],
+        [ 0.0000e+00,  1.1474e-04, -1.1069e-04,  ...,  2.5436e-05,
+          8.8215e-06, -9.9778e-05],
+        [ 0.0000e+00,  1.5569e-04, -1.4976e-05,  ...,  7.6473e-05,
+          5.0254e-06,  5.3793e-05]], device='cuda:0')
+Epoch 27, bias, value: tensor([-0.0143, -0.0117, -0.0266, -0.0240, -0.0115,  0.0045,  0.0063, -0.0243,
+        -0.0110,  0.0087], device='cuda:0'), grad: tensor([-0.0002,  0.0002,  0.0002, -0.0031,  0.0002,  0.0004, -0.0005,  0.0025,
+         0.0002,  0.0001], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 26, time 221.30, cls_loss 0.0206 cls_loss_mapping 0.0410 cls_loss_causal 0.7796 re_mapping 0.0205 re_causal 0.0605 /// teacc 98.52 lr 0.00010000
+Epoch 28, weight, value: tensor([[-0.0102, -0.0561,  0.0545,  ..., -0.0078,  0.0252,  0.0111],
+        [-0.0288, -0.0082, -0.0103,  ..., -0.0184, -0.0592, -0.0402],
+        [ 0.0232, -0.0138,  0.0012,  ..., -0.0113, -0.0202, -0.1188],
+        ...,
+        [ 0.0221,  0.0291, -0.0018,  ...,  0.0465, -0.0255, -0.0441],
+        [ 0.0014, -0.0231,  0.0521,  ..., -0.0313, -0.0942,  0.0485],
+        [-0.0098, -0.0468,  0.0397,  ...,  0.0396, -0.0956, -0.0293]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -4.9174e-06, -3.0255e-04,  ...,  3.3528e-07,
+         -2.2009e-05, -1.6284e-04],
+        [ 0.0000e+00,  6.2771e-06,  2.7522e-05,  ...,  2.8729e-05,
+          5.6531e-07, -9.9850e-04],
+        [ 0.0000e+00,  2.4378e-05,  1.0425e-04,  ...,  4.8250e-05,
+         -4.5672e-06,  1.1075e-04],
+        ...,
+        [ 0.0000e+00,  3.0823e-03,  4.6730e-03,  ...,  5.3825e-03,
+          4.8839e-06,  1.1694e-04],
+        [ 0.0000e+00,  6.6519e-05, -2.9016e-04,  ...,  9.7230e-06,
+          5.6513e-06, -1.3411e-05],
+        [ 0.0000e+00, -3.2902e-03, -5.0278e-03,  ..., -6.0005e-03,
+          4.2506e-06,  4.1246e-04]], device='cuda:0')
+Epoch 28, bias, value: tensor([-0.0144, -0.0121, -0.0260, -0.0239, -0.0113,  0.0045,  0.0065, -0.0246,
+        -0.0111,  0.0086], device='cuda:0'), grad: tensor([-0.0003, -0.0039,  0.0002,  0.0009,  0.0009,  0.0006, -0.0001,  0.0070,
+         0.0013, -0.0066], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 27, time 221.17, cls_loss 0.0174 cls_loss_mapping 0.0388 cls_loss_causal 0.7790 re_mapping 0.0193 re_causal 0.0599 /// teacc 98.65 lr 0.00010000
+Epoch 29, weight, value: tensor([[-0.0194, -0.0569,  0.0551,  ..., -0.0084,  0.0259,  0.0119],
+        [-0.0262, -0.0091, -0.0108,  ..., -0.0192, -0.0599, -0.0397],
+        [ 0.0264, -0.0149,  0.0007,  ..., -0.0119, -0.0198, -0.1209],
+        ...,
+        [ 0.0160,  0.0306, -0.0018,  ...,  0.0473, -0.0254, -0.0444],
+        [-0.0017, -0.0234,  0.0524,  ..., -0.0315, -0.0951,  0.0492],
+        [-0.0144, -0.0475,  0.0401,  ...,  0.0398, -0.0979, -0.0293]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.3210e-05, -1.9586e-04,  ...,  1.0684e-05,
+         -3.8385e-05, -2.1803e-04],
+        [ 0.0000e+00,  2.9996e-05,  2.1845e-05,  ...,  9.4324e-06,
+          3.4384e-06, -1.0200e-05],
+        [ 0.0000e+00,  3.3230e-05,  4.0293e-05,  ...,  9.6858e-06,
+         -2.2352e-05,  7.6473e-05],
+        ...,
+        [ 0.0000e+00, -8.5533e-05,  1.1072e-05,  ..., -5.1409e-05,
+          1.1429e-05,  4.3631e-05],
+        [ 0.0000e+00,  2.4557e-04,  3.1680e-05,  ...,  1.1630e-05,
+          1.4156e-05,  1.6510e-04],
+        [ 0.0000e+00,  1.0693e-04, -9.4235e-05,  ..., -7.0512e-05,
+          9.6932e-06,  1.0651e-04]], device='cuda:0')
+Epoch 29, bias, value: tensor([-0.0141, -0.0119, -0.0263, -0.0243, -0.0113,  0.0044,  0.0066, -0.0241,
+        -0.0111,  0.0085], device='cuda:0'), grad: tensor([-2.4962e-04, -4.2289e-05,  8.6010e-05, -4.1313e-03,  1.5509e-04,
+         3.3150e-03, -1.5783e-04,  9.6083e-05,  7.7343e-04,  1.5187e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 28, time 221.43, cls_loss 0.0179 cls_loss_mapping 0.0371 cls_loss_causal 0.7640 re_mapping 0.0196 re_causal 0.0604 /// teacc 98.64 lr 0.00010000
+Epoch 30, weight, value: tensor([[-0.0195, -0.0580,  0.0552,  ..., -0.0094,  0.0258,  0.0122],
+        [-0.0264, -0.0085, -0.0109,  ..., -0.0195, -0.0601, -0.0395],
+        [ 0.0266, -0.0157,  0.0001,  ..., -0.0118, -0.0169, -0.1236],
+        ...,
+        [ 0.0160,  0.0312, -0.0019,  ...,  0.0477, -0.0267, -0.0453],
+        [-0.0017, -0.0238,  0.0532,  ..., -0.0314, -0.0963,  0.0502],
+        [-0.0144, -0.0483,  0.0406,  ...,  0.0399, -0.1018, -0.0300]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.5423e-05, -9.0957e-05,  ...,  2.9832e-05,
+         -7.8306e-06,  2.0489e-05],
+        [ 0.0000e+00,  3.0017e-04,  1.1319e-04,  ...,  2.1625e-04,
+          9.5427e-05, -1.2469e-04],
+        [ 0.0000e+00,  9.4354e-05,  3.4404e-04,  ...,  3.4785e-04,
+         -1.7583e-04,  3.4142e-04],
+        ...,
+        [ 0.0000e+00, -4.3845e-04,  1.3075e-03,  ...,  3.6573e-04,
+          9.4622e-06,  8.6129e-05],
+        [ 0.0000e+00,  6.3241e-05, -8.0681e-04,  ..., -3.8981e-04,
+          2.3216e-05, -2.5773e-04],
+        [ 0.0000e+00, -6.6805e-04, -1.7977e-03,  ..., -1.4868e-03,
+          6.3553e-06,  1.1146e-05]], device='cuda:0')
+Epoch 30, bias, value: tensor([-0.0143, -0.0117, -0.0256, -0.0243, -0.0114,  0.0044,  0.0064, -0.0245,
+        -0.0108,  0.0081], device='cuda:0'), grad: tensor([ 8.3029e-05,  6.9523e-04, -1.8454e-04,  1.5488e-03,  7.8773e-04,
+         1.6317e-03, -2.0504e-03,  8.2731e-04,  1.0705e-04, -3.4447e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 29, time 221.19, cls_loss 0.0218 cls_loss_mapping 0.0440 cls_loss_causal 0.7997 re_mapping 0.0187 re_causal 0.0597 /// teacc 98.61 lr 0.00010000
+Epoch 31, weight, value: tensor([[-0.0197, -0.0586,  0.0550,  ..., -0.0101,  0.0277,  0.0113],
+        [-0.0286, -0.0090, -0.0115,  ..., -0.0206, -0.0612, -0.0401],
+        [ 0.0293, -0.0160, -0.0002,  ..., -0.0122, -0.0164, -0.1254],
+        ...,
+        [ 0.0157,  0.0321, -0.0015,  ...,  0.0486, -0.0265, -0.0452],
+        [-0.0015, -0.0248,  0.0535,  ..., -0.0316, -0.0991,  0.0514],
+        [-0.0144, -0.0494,  0.0415,  ...,  0.0401, -0.1082, -0.0300]],
+       device='cuda:0'), grad: tensor([[ 2.5309e-07,  1.9300e-04,  3.3557e-05,  ...,  2.2495e-04,
+         -7.7784e-06, -3.0786e-05],
+        [ 1.0850e-07,  1.4603e-04,  5.0813e-05,  ...,  1.2219e-04,
+          8.9128e-07, -1.1069e-04],
+        [ 1.0547e-07, -2.9774e-03, -1.0437e-04,  ..., -2.0905e-03,
+         -1.8045e-05,  1.3649e-04],
+        ...,
+        [ 2.8010e-07,  3.1815e-03,  1.0748e-03,  ...,  1.6909e-03,
+          6.7838e-06,  9.0981e-04],
+        [ 1.0831e-06, -1.7805e-03, -1.5593e-03,  ..., -3.0828e-04,
+          3.1888e-06, -1.4696e-03],
+        [ 2.4959e-06,  2.4939e-04, -4.9543e-04,  ..., -3.3641e-04,
+          2.2165e-06,  1.6916e-04]], device='cuda:0')
+Epoch 31, bias, value: tensor([-0.0147, -0.0120, -0.0258, -0.0243, -0.0113,  0.0042,  0.0065, -0.0244,
+        -0.0105,  0.0083], device='cuda:0'), grad: tensor([ 0.0005, -0.0006, -0.0063,  0.0019,  0.0007,  0.0001, -0.0003,  0.0067,
+        -0.0025, -0.0002], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 30----------------------------------------------------
+epoch 30, time 221.83, cls_loss 0.0148 cls_loss_mapping 0.0338 cls_loss_causal 0.7667 re_mapping 0.0195 re_causal 0.0595 /// teacc 98.69 lr 0.00010000
+Epoch 32, weight, value: tensor([[-0.0205, -0.0593,  0.0555,  ..., -0.0108,  0.0282,  0.0117],
+        [-0.0316, -0.0090, -0.0120,  ..., -0.0208, -0.0615, -0.0402],
+        [ 0.0339, -0.0166, -0.0006,  ..., -0.0129, -0.0152, -0.1265],
+        ...,
+        [ 0.0146,  0.0330, -0.0016,  ...,  0.0492, -0.0267, -0.0460],
+        [-0.0008, -0.0250,  0.0543,  ..., -0.0310, -0.0998,  0.0525],
+        [-0.0145, -0.0512,  0.0416,  ...,  0.0399, -0.1103, -0.0310]],
+       device='cuda:0'), grad: tensor([[ 1.4901e-07,  1.1846e-05,  1.8626e-05,  ...,  7.5065e-06,
+          5.4054e-06, -6.5327e-05],
+        [ 8.1956e-08,  3.2157e-05,  8.8513e-05,  ...,  1.0088e-05,
+          3.2037e-06, -5.9038e-05],
+        [-2.1998e-06,  5.4985e-05, -3.3855e-04,  ...,  8.8215e-06,
+         -8.2612e-05,  6.9737e-05],
+        ...,
+        [ 1.6950e-06, -1.8597e-04,  2.1291e-04,  ..., -1.9014e-04,
+          1.7837e-05,  3.3069e-04],
+        [-6.5425e-07, -6.8426e-04, -4.3631e-04,  ...,  1.7673e-05,
+          5.4687e-05, -5.0497e-04],
+        [ 1.9302e-07,  3.4511e-05, -2.6369e-04,  ..., -1.0091e-04,
+          6.5863e-06, -7.7784e-05]], device='cuda:0')
+Epoch 32, bias, value: tensor([-0.0147, -0.0121, -0.0256, -0.0242, -0.0112,  0.0039,  0.0064, -0.0245,
+        -0.0099,  0.0081], device='cuda:0'), grad: tensor([ 2.8992e-04,  7.9572e-05, -1.1978e-03,  9.0361e-04,  1.4985e-04,
+         3.5048e-05,  4.2766e-06,  3.1257e-04, -4.1127e-04, -1.6403e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 31, time 221.61, cls_loss 0.0135 cls_loss_mapping 0.0301 cls_loss_causal 0.7681 re_mapping 0.0186 re_causal 0.0595 /// teacc 98.60 lr 0.00010000
+Epoch 33, weight, value: tensor([[-0.0221, -0.0600,  0.0557,  ..., -0.0113,  0.0289,  0.0119],
+        [-0.0324, -0.0081, -0.0120,  ..., -0.0212, -0.0619, -0.0406],
+        [ 0.0352, -0.0180, -0.0012,  ..., -0.0140, -0.0147, -0.1286],
+        ...,
+        [ 0.0129,  0.0341, -0.0014,  ...,  0.0498, -0.0270, -0.0466],
+        [ 0.0021, -0.0252,  0.0547,  ..., -0.0312, -0.1003,  0.0530],
+        [-0.0148, -0.0524,  0.0422,  ...,  0.0401, -0.1115, -0.0306]],
+       device='cuda:0'), grad: tensor([[ 1.0012e-07,  1.0692e-05, -4.0078e-04,  ..., -1.3016e-05,
+         -5.0813e-05, -5.8651e-04],
+        [ 3.5437e-07,  1.3433e-05,  3.0577e-05,  ..., -3.1441e-05,
+          8.7097e-06,  6.0806e-03],
+        [-3.2820e-06, -1.8883e-04,  3.9607e-05,  ...,  2.4691e-05,
+         -4.6879e-05,  1.2016e-04],
+        ...,
+        [ 9.9000e-07, -2.8515e-04, -1.3471e-04,  ..., -1.7047e-04,
+          1.5453e-05,  1.3578e-04],
+        [ 1.4286e-06,  4.4674e-05, -1.3602e-04,  ..., -4.8429e-05,
+          1.5095e-05,  2.6488e-04],
+        [ 2.3050e-08,  1.4186e-04,  1.3971e-04,  ...,  9.7275e-05,
+          7.1861e-06,  3.9601e-04]], device='cuda:0')
+Epoch 33, bias, value: tensor([-0.0148, -0.0120, -0.0259, -0.0245, -0.0114,  0.0041,  0.0066, -0.0243,
+        -0.0100,  0.0083], device='cuda:0'), grad: tensor([-0.0011,  0.0077, -0.0008,  0.0033,  0.0002, -0.0115,  0.0005,  0.0001,
+         0.0007,  0.0008], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 32----------------------------------------------------
+epoch 32, time 221.79, cls_loss 0.0131 cls_loss_mapping 0.0304 cls_loss_causal 0.7708 re_mapping 0.0173 re_causal 0.0567 /// teacc 98.74 lr 0.00010000
+Epoch 34, weight, value: tensor([[-0.0246, -0.0612,  0.0562,  ..., -0.0124,  0.0300,  0.0126],
+        [-0.0339, -0.0087, -0.0124,  ..., -0.0215, -0.0620, -0.0413],
+        [ 0.0370, -0.0185, -0.0018,  ..., -0.0144, -0.0147, -0.1306],
+        ...,
+        [ 0.0116,  0.0345, -0.0017,  ...,  0.0502, -0.0274, -0.0473],
+        [ 0.0024, -0.0258,  0.0551,  ..., -0.0313, -0.1008,  0.0538],
+        [-0.0150, -0.0533,  0.0425,  ...,  0.0403, -0.1137, -0.0309]],
+       device='cuda:0'), grad: tensor([[ 1.2051e-06,  6.5118e-06, -1.9896e-04,  ...,  4.5076e-06,
+         -3.6359e-05, -1.5211e-04],
+        [ 3.1829e-04,  2.6420e-05, -1.7136e-05,  ...,  8.0094e-06,
+          4.3511e-06, -1.4496e-04],
+        [-3.3617e-04,  1.5640e-04,  2.0623e-05,  ..., -2.1920e-05,
+         -9.6500e-05,  3.1352e-05],
+        ...,
+        [ 7.5288e-06,  1.3721e-04, -6.4850e-05,  ..., -2.4843e-04,
+          9.7573e-05,  5.3227e-05],
+        [ 3.5986e-06,  1.0744e-05, -2.4632e-05,  ...,  1.2591e-05,
+          3.4422e-05,  1.2122e-05],
+        [ 4.4331e-07,  1.2201e-04,  1.3971e-04,  ...,  2.5153e-04,
+          5.5321e-06,  4.3541e-05]], device='cuda:0')
+Epoch 34, bias, value: tensor([-0.0147, -0.0123, -0.0259, -0.0242, -0.0114,  0.0040,  0.0066, -0.0245,
+        -0.0098,  0.0082], device='cuda:0'), grad: tensor([-1.8144e-04,  7.2384e-04, -1.2417e-03, -3.3712e-04, -4.0650e-05,
+        -7.5400e-06,  1.5974e-04,  3.8600e-04,  1.5426e-04,  3.8528e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 33, time 221.33, cls_loss 0.0133 cls_loss_mapping 0.0301 cls_loss_causal 0.7677 re_mapping 0.0168 re_causal 0.0551 /// teacc 98.72 lr 0.00010000
+Epoch 35, weight, value: tensor([[-0.0267, -0.0620,  0.0567,  ..., -0.0130,  0.0312,  0.0131],
+        [-0.0323, -0.0095, -0.0131,  ..., -0.0220, -0.0620, -0.0417],
+        [ 0.0375, -0.0190, -0.0023,  ..., -0.0151, -0.0143, -0.1320],
+        ...,
+        [ 0.0099,  0.0358, -0.0015,  ...,  0.0512, -0.0279, -0.0480],
+        [ 0.0020, -0.0264,  0.0555,  ..., -0.0315, -0.1017,  0.0549],
+        [-0.0152, -0.0546,  0.0429,  ...,  0.0403, -0.1121, -0.0308]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  6.5982e-05, -5.9223e-04,  ...,  1.4104e-05,
+          0.0000e+00, -9.1600e-04],
+        [ 4.4238e-09,  9.1076e-05,  1.2800e-05,  ...,  1.1414e-04,
+          0.0000e+00, -1.9157e-04],
+        [ 1.4435e-08,  4.8599e-03,  1.7393e-04,  ...,  5.9128e-03,
+          0.0000e+00,  1.9312e-04],
+        ...,
+        [ 5.8208e-09, -4.2458e-03, -9.8825e-05,  ..., -5.8784e-03,
+          0.0000e+00,  1.6546e-04],
+        [-6.5193e-08,  1.0853e-03,  2.3115e-04,  ...,  1.7846e-04,
+          0.0000e+00,  5.3930e-04],
+        [ 1.1874e-08,  4.1270e-04,  2.0742e-04,  ...,  1.4269e-04,
+          0.0000e+00,  2.5964e-04]], device='cuda:0')
+Epoch 35, bias, value: tensor([-0.0146, -0.0124, -0.0256, -0.0247, -0.0110,  0.0040,  0.0067, -0.0242,
+        -0.0097,  0.0079], device='cuda:0'), grad: tensor([-1.1101e-03, -2.8968e-04,  1.0834e-02, -4.5624e-03, -9.6321e-04,
+         8.5533e-05,  1.5430e-03, -9.3384e-03,  2.6493e-03,  1.1597e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 34, time 221.31, cls_loss 0.0132 cls_loss_mapping 0.0335 cls_loss_causal 0.7453 re_mapping 0.0172 re_causal 0.0540 /// teacc 98.62 lr 0.00010000
+Epoch 36, weight, value: tensor([[-0.0301, -0.0628,  0.0568,  ..., -0.0136,  0.0319,  0.0132],
+        [-0.0326, -0.0096, -0.0135,  ..., -0.0226, -0.0622, -0.0414],
+        [ 0.0382, -0.0195, -0.0027,  ..., -0.0158, -0.0139, -0.1334],
+        ...,
+        [ 0.0091,  0.0362, -0.0013,  ...,  0.0521, -0.0283, -0.0488],
+        [ 0.0017, -0.0278,  0.0558,  ..., -0.0316, -0.1026,  0.0558],
+        [-0.0154, -0.0559,  0.0431,  ...,  0.0403, -0.1131, -0.0317]],
+       device='cuda:0'), grad: tensor([[ 6.9151e-08,  1.2517e-05, -1.9759e-05,  ...,  1.5184e-05,
+         -1.0252e-05, -4.7654e-05],
+        [ 1.1176e-08,  6.8605e-05,  5.4777e-05,  ...,  4.6581e-05,
+          4.0070e-07, -3.3408e-05],
+        [-6.5146e-07,  5.4121e-05,  6.7234e-05,  ...,  3.4422e-05,
+          1.4203e-07,  2.2784e-05],
+        ...,
+        [ 1.2410e-07, -2.3246e-04, -8.3089e-05,  ..., -1.7607e-04,
+          6.2399e-07,  3.4243e-05],
+        [ 3.7043e-07,  2.7940e-05,  5.3406e-05,  ...,  3.7342e-05,
+          1.0617e-06,  1.2986e-05],
+        [ 1.6298e-09,  8.9586e-05, -1.4734e-04,  ..., -8.4817e-05,
+          6.7148e-07, -4.2111e-05]], device='cuda:0')
+Epoch 36, bias, value: tensor([-0.0148, -0.0123, -0.0257, -0.0245, -0.0111,  0.0042,  0.0067, -0.0242,
+        -0.0096,  0.0075], device='cuda:0'), grad: tensor([-1.8492e-05,  1.1659e-04,  1.3888e-04, -3.0732e-04,  7.0989e-05,
+         1.7130e-04, -3.7760e-05, -1.8656e-04,  1.2314e-04, -7.1228e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 35----------------------------------------------------
+epoch 35, time 222.16, cls_loss 0.0109 cls_loss_mapping 0.0317 cls_loss_causal 0.7748 re_mapping 0.0169 re_causal 0.0552 /// teacc 98.78 lr 0.00010000
+Epoch 37, weight, value: tensor([[-0.0307, -0.0636,  0.0572,  ..., -0.0140,  0.0322,  0.0139],
+        [-0.0327, -0.0098, -0.0138,  ..., -0.0234, -0.0622, -0.0410],
+        [ 0.0384, -0.0204, -0.0033,  ..., -0.0163, -0.0137, -0.1348],
+        ...,
+        [ 0.0087,  0.0373, -0.0012,  ...,  0.0525, -0.0284, -0.0497],
+        [ 0.0013, -0.0273,  0.0563,  ..., -0.0317, -0.1028,  0.0562],
+        [-0.0156, -0.0574,  0.0441,  ...,  0.0410, -0.1135, -0.0314]],
+       device='cuda:0'), grad: tensor([[ 1.2562e-05,  2.2352e-05, -9.6083e-05,  ...,  2.3186e-05,
+         -4.6287e-07,  1.7989e-04],
+        [ 3.6269e-05, -8.1778e-04, -3.7742e-04,  ...,  3.6210e-05,
+         -7.4208e-05,  4.9770e-05],
+        [ 9.0599e-05, -1.4639e-03, -7.6532e-05,  ..., -1.0023e-03,
+          1.9986e-06,  1.3771e-03],
+        ...,
+        [ 1.5691e-05,  1.8358e-03,  4.3106e-04,  ...,  7.2050e-04,
+          3.6247e-06,  5.5742e-04],
+        [-4.2367e-04,  5.1379e-05,  1.8871e-04,  ...,  5.0187e-05,
+          8.7358e-07, -5.3825e-03],
+        [ 5.9493e-06,  2.2531e-04, -6.4659e-04,  ..., -6.4611e-04,
+          6.0834e-06,  2.2399e-04]], device='cuda:0')
+Epoch 37, bias, value: tensor([-0.0146, -0.0123, -0.0259, -0.0249, -0.0113,  0.0042,  0.0069, -0.0240,
+        -0.0096,  0.0078], device='cuda:0'), grad: tensor([ 0.0003, -0.0019, -0.0008,  0.0008,  0.0011,  0.0051, -0.0004,  0.0050,
+        -0.0089, -0.0002], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 36, time 221.58, cls_loss 0.0102 cls_loss_mapping 0.0251 cls_loss_causal 0.7310 re_mapping 0.0160 re_causal 0.0516 /// teacc 98.78 lr 0.00010000
+Epoch 38, weight, value: tensor([[-0.0343, -0.0640,  0.0577,  ..., -0.0146,  0.0328,  0.0146],
+        [-0.0330, -0.0106, -0.0142,  ..., -0.0236, -0.0623, -0.0407],
+        [ 0.0390, -0.0212, -0.0037,  ..., -0.0166, -0.0134, -0.1356],
+        ...,
+        [ 0.0043,  0.0385, -0.0016,  ...,  0.0525, -0.0285, -0.0517],
+        [ 0.0042, -0.0271,  0.0569,  ..., -0.0314, -0.1034,  0.0572],
+        [-0.0161, -0.0583,  0.0447,  ...,  0.0413, -0.1137, -0.0320]],
+       device='cuda:0'), grad: tensor([[ 1.8477e-05,  1.2711e-05, -4.5896e-05,  ...,  1.6704e-05,
+          8.0466e-06,  2.1124e-04],
+        [ 1.2433e-07,  4.7356e-05, -3.8207e-05,  ...,  8.4341e-05,
+          3.5507e-07, -1.9467e-04],
+        [ 3.4668e-07,  4.9382e-05,  7.3075e-05,  ...,  4.1306e-05,
+          2.6952e-06,  8.8573e-05],
+        ...,
+        [ 1.1958e-06, -3.1400e-04, -1.0407e-04,  ..., -3.1900e-04,
+          1.9139e-07,  3.8773e-05],
+        [ 1.3765e-06,  2.3797e-05,  3.7462e-05,  ...,  2.6777e-05,
+          9.0618e-07, -3.6061e-06],
+        [ 4.3958e-06, -1.3304e-04, -1.4811e-03,  ...,  5.5456e-04,
+          2.7637e-07, -3.5095e-04]], device='cuda:0')
+Epoch 38, bias, value: tensor([-0.0143, -0.0126, -0.0257, -0.0252, -0.0107,  0.0039,  0.0067, -0.0241,
+        -0.0093,  0.0076], device='cuda:0'), grad: tensor([ 4.0197e-04, -5.9795e-04,  3.4046e-04,  2.3384e-03, -4.4775e-04,
+        -8.0943e-05, -1.0216e-04, -3.0184e-04,  2.4116e-04, -1.7891e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 37, time 221.47, cls_loss 0.0107 cls_loss_mapping 0.0243 cls_loss_causal 0.7298 re_mapping 0.0164 re_causal 0.0516 /// teacc 98.73 lr 0.00010000
+Epoch 39, weight, value: tensor([[-0.0412, -0.0649,  0.0580,  ..., -0.0154,  0.0333,  0.0150],
+        [-0.0333, -0.0113, -0.0148,  ..., -0.0250, -0.0623, -0.0410],
+        [ 0.0397, -0.0221, -0.0041,  ..., -0.0174, -0.0132, -0.1370],
+        ...,
+        [-0.0011,  0.0398, -0.0015,  ...,  0.0536, -0.0287, -0.0524],
+        [ 0.0039, -0.0278,  0.0573,  ..., -0.0312, -0.1036,  0.0572],
+        [-0.0191, -0.0596,  0.0450,  ...,  0.0413, -0.1142, -0.0323]],
+       device='cuda:0'), grad: tensor([[ 1.0328e-06,  2.6560e-04,  9.8705e-04,  ...,  6.0606e-04,
+          6.2864e-09,  1.2302e-04],
+        [ 3.1129e-07, -4.2394e-06,  2.9039e-04,  ...,  4.0054e-04,
+          3.1432e-08,  1.3447e-04],
+        [ 2.5006e-07,  1.8883e-04,  3.2473e-04,  ...,  2.0611e-04,
+          5.3551e-08,  4.4793e-05],
+        ...,
+        [ 3.3621e-06,  3.4630e-05,  2.3804e-03,  ...,  1.3609e-03,
+          4.9826e-08,  4.5276e-04],
+        [ 6.0610e-06,  1.1253e-04,  2.6894e-04,  ...,  2.9969e-04,
+          8.7544e-08,  2.3246e-04],
+        [ 2.0862e-06, -8.6641e-04, -3.8643e-03,  ..., -1.7633e-03,
+          1.7695e-07,  6.5446e-05]], device='cuda:0')
+Epoch 39, bias, value: tensor([-0.0147, -0.0129, -0.0261, -0.0249, -0.0108,  0.0039,  0.0072, -0.0235,
+        -0.0095,  0.0074], device='cuda:0'), grad: tensor([ 2.0428e-03,  3.9744e-04,  7.0000e-04,  2.5463e-04, -1.6680e-03,
+        -3.3170e-05,  1.2058e-04,  5.0659e-03,  7.4530e-04, -7.6294e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 38----------------------------------------------------
+epoch 38, time 222.39, cls_loss 0.0096 cls_loss_mapping 0.0223 cls_loss_causal 0.7305 re_mapping 0.0154 re_causal 0.0492 /// teacc 98.80 lr 0.00010000
+Epoch 40, weight, value: tensor([[-0.0438, -0.0652,  0.0586,  ..., -0.0160,  0.0338,  0.0153],
+        [-0.0333, -0.0111, -0.0151,  ..., -0.0257, -0.0626, -0.0414],
+        [ 0.0399, -0.0227, -0.0047,  ..., -0.0179, -0.0131, -0.1387],
+        ...,
+        [-0.0018,  0.0404, -0.0015,  ...,  0.0544, -0.0286, -0.0529],
+        [ 0.0036, -0.0284,  0.0580,  ..., -0.0312, -0.1040,  0.0578],
+        [-0.0197, -0.0610,  0.0453,  ...,  0.0414, -0.1147, -0.0331]],
+       device='cuda:0'), grad: tensor([[ 2.8163e-06,  7.1637e-06, -1.2100e-04,  ...,  7.0035e-05,
+         -1.5339e-06, -5.6028e-05],
+        [ 4.4610e-07,  2.3186e-05,  1.5177e-05,  ...,  9.8109e-05,
+          2.8871e-08, -3.6168e-04],
+        [ 3.8883e-07,  5.2512e-05,  3.1054e-05,  ...,  1.5700e-04,
+          1.3318e-07,  5.9307e-05],
+        ...,
+        [ 3.6345e-07, -9.5308e-05,  1.7834e-04,  ...,  4.9496e-04,
+          1.0710e-07,  4.5329e-05],
+        [-7.3537e-06,  1.4693e-05,  5.0783e-05,  ...,  1.3006e-04,
+          1.9628e-07,  2.7478e-05],
+        [ 1.5311e-06, -3.4183e-05, -4.9210e-04,  ..., -1.8740e-04,
+          3.1199e-07, -1.9252e-05]], device='cuda:0')
+Epoch 40, bias, value: tensor([-0.0144, -0.0129, -0.0260, -0.0249, -0.0106,  0.0039,  0.0074, -0.0236,
+        -0.0094,  0.0070], device='cuda:0'), grad: tensor([ 0.0002, -0.0002,  0.0005,  0.0001, -0.0027,  0.0001,  0.0006,  0.0011,
+         0.0003, -0.0001], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 39, time 221.18, cls_loss 0.0095 cls_loss_mapping 0.0264 cls_loss_causal 0.7367 re_mapping 0.0145 re_causal 0.0485 /// teacc 98.74 lr 0.00010000
+Epoch 41, weight, value: tensor([[-0.0500, -0.0665,  0.0590,  ..., -0.0164,  0.0340,  0.0156],
+        [-0.0335, -0.0115, -0.0160,  ..., -0.0263, -0.0626, -0.0413],
+        [ 0.0404, -0.0230, -0.0048,  ..., -0.0181, -0.0129, -0.1402],
+        ...,
+        [-0.0066,  0.0414, -0.0016,  ...,  0.0547, -0.0286, -0.0538],
+        [ 0.0023, -0.0291,  0.0585,  ..., -0.0314, -0.1043,  0.0589],
+        [-0.0222, -0.0621,  0.0461,  ...,  0.0424, -0.1148, -0.0334]],
+       device='cuda:0'), grad: tensor([[ 5.7705e-06,  3.2037e-06, -4.7636e-04,  ...,  1.1912e-06,
+         -1.4508e-04, -3.5238e-04],
+        [ 1.3988e-06, -4.5848e-04, -5.0068e-05,  ...,  1.3717e-05,
+          6.2399e-08, -2.5797e-04],
+        [ 2.9653e-06,  2.2817e-04,  2.4959e-05,  ...,  5.0068e-06,
+          4.4750e-07,  6.7472e-05],
+        ...,
+        [ 2.4643e-06, -2.5377e-05, -3.0100e-05,  ..., -6.4313e-05,
+          1.5576e-07,  9.4414e-05],
+        [ 7.4804e-06,  3.6925e-05, -1.6546e-04,  ...,  9.8944e-06,
+          8.1491e-07,  1.9535e-05],
+        [ 2.2456e-05,  1.9163e-05,  3.1412e-05,  ..., -6.5342e-06,
+          1.6391e-06,  1.4639e-04]], device='cuda:0')
+Epoch 41, bias, value: tensor([-0.0144, -0.0131, -0.0257, -0.0252, -0.0110,  0.0040,  0.0072, -0.0236,
+        -0.0092,  0.0073], device='cuda:0'), grad: tensor([-0.0007, -0.0036,  0.0016,  0.0003,  0.0001, -0.0002,  0.0009,  0.0013,
+         0.0002,  0.0002], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 40----------------------------------------------------
+epoch 40, time 221.97, cls_loss 0.0080 cls_loss_mapping 0.0236 cls_loss_causal 0.7013 re_mapping 0.0157 re_causal 0.0509 /// teacc 98.86 lr 0.00010000
+Epoch 42, weight, value: tensor([[-5.6239e-02, -6.7219e-02,  5.9017e-02,  ..., -1.6961e-02,
+          3.3974e-02,  1.5501e-02],
+        [-3.3698e-02, -1.2168e-02, -1.6550e-02,  ..., -2.6520e-02,
+         -6.2712e-02, -4.0966e-02],
+        [ 3.9960e-02, -2.3497e-02, -5.2284e-03,  ..., -1.8055e-02,
+         -1.2972e-02, -1.4215e-01],
+        ...,
+        [-8.7664e-03,  4.2172e-02, -1.7169e-03,  ...,  5.4585e-02,
+         -2.8594e-02, -5.4580e-02],
+        [ 6.7347e-05, -2.9791e-02,  5.8638e-02,  ..., -3.1699e-02,
+         -1.0404e-01,  5.9027e-02],
+        [-2.0229e-02, -6.2979e-02,  4.6852e-02,  ...,  4.2775e-02,
+         -1.1516e-01, -3.3228e-02]], device='cuda:0'), grad: tensor([[ 9.9316e-06,  1.2390e-05, -8.3089e-05,  ...,  2.5090e-06,
+         -1.2731e-06, -3.7253e-05],
+        [ 1.8235e-06, -1.6105e-04,  1.2957e-05,  ...,  4.0419e-06,
+          2.7008e-08, -1.0687e-04],
+        [-2.8275e-06,  7.4029e-05,  6.0827e-05,  ...,  5.0738e-06,
+          3.1409e-07,  2.4632e-05],
+        ...,
+        [ 6.2995e-06,  5.6553e-04,  9.5248e-05,  ...,  5.8487e-07,
+          1.7905e-07,  3.0145e-05],
+        [ 1.0751e-05,  3.1114e-05,  1.8984e-05,  ...,  8.6799e-06,
+          6.8918e-08,  3.1739e-05],
+        [ 4.0442e-05,  2.0057e-05, -1.1593e-04,  ...,  1.4877e-04,
+          4.0396e-07,  1.0341e-04]], device='cuda:0')
+Epoch 42, bias, value: tensor([-0.0147, -0.0128, -0.0259, -0.0248, -0.0108,  0.0039,  0.0073, -0.0238,
+        -0.0097,  0.0075], device='cuda:0'), grad: tensor([-8.8930e-05, -6.5756e-04, -6.7997e-04, -4.8542e-04, -1.6618e-04,
+        -3.7026e-04,  3.7861e-04,  1.4973e-03,  1.1820e-04,  4.5419e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 41, time 221.03, cls_loss 0.0079 cls_loss_mapping 0.0219 cls_loss_causal 0.6764 re_mapping 0.0151 re_causal 0.0472 /// teacc 98.72 lr 0.00010000
+Epoch 43, weight, value: tensor([[-0.0547, -0.0680,  0.0595,  ..., -0.0174,  0.0343,  0.0161],
+        [-0.0339, -0.0122, -0.0167,  ..., -0.0272, -0.0631, -0.0407],
+        [ 0.0400, -0.0242, -0.0057,  ..., -0.0184, -0.0128, -0.1433],
+        ...,
+        [-0.0137,  0.0430, -0.0013,  ...,  0.0552, -0.0283, -0.0548],
+        [ 0.0032, -0.0302,  0.0591,  ..., -0.0319, -0.1047,  0.0598],
+        [-0.0207, -0.0640,  0.0471,  ...,  0.0428, -0.1158, -0.0337]],
+       device='cuda:0'), grad: tensor([[ 1.0361e-07,  4.7609e-06,  6.1244e-06,  ...,  6.6720e-06,
+         -5.5246e-06, -8.9109e-06],
+        [ 1.3737e-08,  1.3578e-04,  1.1951e-04,  ...,  1.9741e-04,
+          2.7241e-07, -1.6205e-07],
+        [ 1.1642e-08,  1.5020e-05,  1.4198e-04,  ...,  1.5482e-05,
+          2.5555e-06,  7.3075e-05],
+        ...,
+        [ 4.6799e-08, -4.2653e-04, -2.1100e-04,  ..., -6.1893e-04,
+          4.0047e-07,  2.1055e-05],
+        [ 2.5658e-07,  6.4038e-06, -6.2101e-06,  ...,  1.1571e-05,
+          1.3039e-06, -3.5822e-05],
+        [ 4.1001e-07,  7.2122e-05, -9.2220e-04,  ...,  9.1717e-06,
+          4.8429e-07, -4.0770e-04]], device='cuda:0')
+Epoch 43, bias, value: tensor([-0.0144, -0.0129, -0.0257, -0.0253, -0.0108,  0.0038,  0.0072, -0.0234,
+        -0.0094,  0.0071], device='cuda:0'), grad: tensor([ 0.0001, -0.0012,  0.0008,  0.0008,  0.0023,  0.0006,  0.0002, -0.0009,
+         0.0001, -0.0026], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 42----------------------------------------------------
+epoch 42, time 221.86, cls_loss 0.0076 cls_loss_mapping 0.0227 cls_loss_causal 0.7138 re_mapping 0.0146 re_causal 0.0502 /// teacc 98.90 lr 0.00010000
+Epoch 44, weight, value: tensor([[-0.0561, -0.0691,  0.0599,  ..., -0.0177,  0.0343,  0.0166],
+        [-0.0341, -0.0121, -0.0170,  ..., -0.0279, -0.0632, -0.0409],
+        [ 0.0400, -0.0245, -0.0062,  ..., -0.0188, -0.0130, -0.1446],
+        ...,
+        [-0.0158,  0.0435, -0.0015,  ...,  0.0556, -0.0284, -0.0553],
+        [ 0.0019, -0.0300,  0.0598,  ..., -0.0322, -0.1049,  0.0601],
+        [-0.0203, -0.0646,  0.0473,  ...,  0.0427, -0.1161, -0.0340]],
+       device='cuda:0'), grad: tensor([[ 8.7544e-06,  1.1437e-05,  1.5154e-05,  ...,  8.8662e-06,
+          7.4622e-08,  3.0458e-05],
+        [ 2.1197e-06,  4.9882e-06,  5.0850e-06,  ...,  5.0366e-06,
+          2.8056e-08, -4.8392e-06],
+        [ 1.4855e-06,  4.6268e-06,  1.5080e-05,  ...,  3.2280e-06,
+         -1.1567e-06,  3.6091e-05],
+        ...,
+        [ 4.4592e-06, -5.9903e-05, -2.8312e-05,  ..., -4.3750e-05,
+          8.8941e-07, -2.4941e-06],
+        [ 3.4064e-05,  1.1800e-06, -8.2731e-05,  ...,  5.6252e-06,
+          7.1479e-08, -3.9846e-05],
+        [ 1.0304e-05,  3.6448e-05, -2.7612e-05,  ..., -5.2154e-06,
+          4.6566e-09,  3.6687e-05]], device='cuda:0')
+Epoch 44, bias, value: tensor([-0.0142, -0.0126, -0.0259, -0.0252, -0.0101,  0.0038,  0.0071, -0.0235,
+        -0.0093,  0.0065], device='cuda:0'), grad: tensor([ 9.9182e-05, -8.5384e-06, -2.4462e-04,  5.5599e-04,  1.9297e-05,
+        -6.1417e-04,  1.1289e-04, -8.4490e-06,  5.8383e-05,  2.9683e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 43, time 221.11, cls_loss 0.0085 cls_loss_mapping 0.0243 cls_loss_causal 0.7035 re_mapping 0.0144 re_causal 0.0463 /// teacc 98.69 lr 0.00010000
+Epoch 45, weight, value: tensor([[-0.0580, -0.0699,  0.0598,  ..., -0.0184,  0.0345,  0.0167],
+        [-0.0345, -0.0123, -0.0172,  ..., -0.0285, -0.0632, -0.0405],
+        [ 0.0399, -0.0245, -0.0065,  ..., -0.0192, -0.0127, -0.1460],
+        ...,
+        [-0.0206,  0.0436, -0.0020,  ...,  0.0561, -0.0285, -0.0568],
+        [ 0.0002, -0.0292,  0.0604,  ..., -0.0325, -0.1051,  0.0610],
+        [-0.0167, -0.0659,  0.0487,  ...,  0.0435, -0.1163, -0.0332]],
+       device='cuda:0'), grad: tensor([[ 3.8370e-07,  1.9401e-05, -7.5638e-05,  ...,  2.1800e-05,
+         -4.1467e-07, -5.0783e-05],
+        [ 5.7276e-07,  9.9540e-06,  2.1040e-05,  ...,  1.2621e-05,
+          2.2002e-07,  5.1372e-06],
+        [ 2.3609e-07, -1.1221e-05,  5.6267e-05,  ..., -8.0466e-06,
+         -5.2154e-06,  4.3571e-05],
+        ...,
+        [ 9.0525e-07, -1.4317e-04, -7.0572e-05,  ..., -1.2660e-04,
+          3.8892e-06,  1.2442e-05],
+        [ 3.6322e-06,  2.8893e-05, -3.2276e-05,  ...,  3.7760e-05,
+          2.1956e-07, -3.0220e-05],
+        [-3.5726e-06,  6.0141e-05, -5.8532e-05,  ..., -1.6108e-05,
+          7.8231e-08,  3.0264e-05]], device='cuda:0')
+Epoch 45, bias, value: tensor([-0.0145, -0.0126, -0.0254, -0.0252, -0.0112,  0.0040,  0.0069, -0.0239,
+        -0.0091,  0.0073], device='cuda:0'), grad: tensor([-8.3864e-05,  4.0621e-05, -4.4322e-04,  1.7130e-04,  1.1468e-04,
+         7.6368e-06, -9.5963e-05, -1.2362e-04,  4.1008e-04,  3.3677e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 44, time 221.22, cls_loss 0.0085 cls_loss_mapping 0.0249 cls_loss_causal 0.7140 re_mapping 0.0140 re_causal 0.0458 /// teacc 98.78 lr 0.00010000
+Epoch 46, weight, value: tensor([[-0.0626, -0.0710,  0.0602,  ..., -0.0188,  0.0345,  0.0169],
+        [-0.0350, -0.0125, -0.0175,  ..., -0.0293, -0.0637, -0.0408],
+        [ 0.0395, -0.0257, -0.0069,  ..., -0.0198, -0.0123, -0.1469],
+        ...,
+        [-0.0248,  0.0445, -0.0018,  ...,  0.0570, -0.0287, -0.0571],
+        [ 0.0007, -0.0296,  0.0607,  ..., -0.0328, -0.1053,  0.0614],
+        [-0.0198, -0.0673,  0.0491,  ...,  0.0431, -0.1166, -0.0335]],
+       device='cuda:0'), grad: tensor([[ 7.2002e-05,  1.0945e-05, -1.5516e-03,  ...,  3.4332e-05,
+          6.8080e-07, -3.1948e-03],
+        [ 5.8115e-05,  1.9699e-05,  3.2872e-05,  ...,  2.1517e-05,
+          3.0012e-07, -1.4365e-04],
+        [ 1.6582e-04,  1.3006e-04,  2.7609e-04,  ...,  9.2328e-05,
+          1.2480e-05,  5.9128e-04],
+        ...,
+        [ 1.7837e-05, -4.5359e-05,  6.7241e-07,  ..., -3.6806e-05,
+          1.5218e-06,  4.0501e-05],
+        [ 2.2066e-04,  2.8205e-04, -1.7595e-04,  ..., -4.7982e-05,
+          7.7859e-07, -5.4741e-04],
+        [ 1.1355e-04,  1.5736e-04,  5.5361e-04,  ...,  4.1537e-06,
+          2.0210e-06,  7.2050e-04]], device='cuda:0')
+Epoch 46, bias, value: tensor([-0.0144, -0.0127, -0.0255, -0.0253, -0.0107,  0.0041,  0.0072, -0.0236,
+        -0.0094,  0.0067], device='cuda:0'), grad: tensor([-5.1613e-03, -3.4833e-04,  1.4801e-03, -1.9684e-03,  1.8816e-03,
+         8.9455e-04,  2.0638e-03,  8.7678e-05, -2.2757e-04,  1.2980e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 45----------------------------------------------------
+epoch 45, time 221.83, cls_loss 0.0078 cls_loss_mapping 0.0193 cls_loss_causal 0.6629 re_mapping 0.0132 re_causal 0.0425 /// teacc 98.94 lr 0.00010000
+Epoch 47, weight, value: tensor([[-0.0678, -0.0724,  0.0607,  ..., -0.0192,  0.0343,  0.0166],
+        [-0.0351, -0.0126, -0.0178,  ..., -0.0296, -0.0649, -0.0417],
+        [ 0.0378, -0.0266, -0.0071,  ..., -0.0202, -0.0119, -0.1493],
+        ...,
+        [-0.0261,  0.0456, -0.0017,  ...,  0.0574, -0.0285, -0.0575],
+        [-0.0024, -0.0301,  0.0609,  ..., -0.0331, -0.1059,  0.0619],
+        [-0.0193, -0.0684,  0.0494,  ...,  0.0433, -0.1168, -0.0336]],
+       device='cuda:0'), grad: tensor([[ 4.8101e-05,  6.6422e-06,  1.0334e-05,  ...,  1.9580e-05,
+          1.3737e-08,  1.6904e-04],
+        [ 1.4074e-05,  1.1846e-05,  1.8448e-05,  ...,  1.5616e-05,
+          9.3132e-10,  1.0677e-05],
+        [ 5.7429e-05,  3.5822e-05,  3.1859e-05,  ...,  4.7803e-05,
+          1.3970e-09,  7.0214e-05],
+        ...,
+        [ 5.9716e-06, -9.5665e-05, -1.7807e-05,  ..., -6.8188e-05,
+          0.0000e+00,  3.1441e-05],
+        [ 3.7163e-05, -4.2468e-06,  2.6798e-04,  ...,  9.7826e-06,
+          1.5367e-08,  1.0481e-03],
+        [ 2.0862e-05,  5.1498e-05,  2.7448e-05,  ...,  2.4140e-06,
+          1.1642e-09,  6.8009e-05]], device='cuda:0')
+Epoch 47, bias, value: tensor([-0.0146, -0.0124, -0.0260, -0.0253, -0.0105,  0.0043,  0.0070, -0.0235,
+        -0.0093,  0.0068], device='cuda:0'), grad: tensor([ 5.0163e-04, -1.2755e-04,  5.4836e-04,  5.7757e-05,  2.6817e-03,
+         4.1237e-03, -9.1476e-03,  4.8250e-05,  1.0233e-03,  2.8729e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 46, time 220.87, cls_loss 0.0079 cls_loss_mapping 0.0207 cls_loss_causal 0.7199 re_mapping 0.0135 re_causal 0.0434 /// teacc 98.84 lr 0.00010000
+Epoch 48, weight, value: tensor([[-0.0696, -0.0736,  0.0604,  ..., -0.0205,  0.0344,  0.0164],
+        [-0.0355, -0.0130, -0.0184,  ..., -0.0307, -0.0651, -0.0419],
+        [ 0.0380, -0.0273, -0.0077,  ..., -0.0213, -0.0116, -0.1505],
+        ...,
+        [-0.0290,  0.0459, -0.0019,  ...,  0.0580, -0.0285, -0.0583],
+        [-0.0040, -0.0303,  0.0614,  ..., -0.0330, -0.1061,  0.0620],
+        [-0.0209, -0.0694,  0.0503,  ...,  0.0439, -0.1170, -0.0340]],
+       device='cuda:0'), grad: tensor([[ 2.4289e-06,  3.0901e-06, -1.2469e-04,  ...,  3.3975e-06,
+         -2.2456e-05, -5.7071e-06],
+        [ 1.6704e-05,  1.8567e-05,  1.5640e-04,  ...,  1.4506e-05,
+          2.6263e-07, -3.3545e-04],
+        [ 5.3167e-05,  6.2346e-05,  3.9011e-05,  ...,  4.2319e-05,
+          3.2932e-06,  8.2314e-05],
+        ...,
+        [-2.2054e-05, -2.6369e-04, -2.0742e-04,  ..., -3.1447e-04,
+          1.4724e-06,  2.9594e-05],
+        [-3.7819e-05,  1.2353e-05, -2.7227e-04,  ...,  2.3901e-05,
+          7.6089e-07, -4.1389e-04],
+        [ 2.6274e-04,  1.5259e-04,  1.2529e-04,  ...,  2.6393e-04,
+          9.2387e-06,  4.4227e-05]], device='cuda:0')
+Epoch 48, bias, value: tensor([-0.0154, -0.0126, -0.0259, -0.0249, -0.0107,  0.0043,  0.0078, -0.0238,
+        -0.0096,  0.0071], device='cuda:0'), grad: tensor([-0.0001, -0.0008,  0.0001,  0.0002, -0.0004,  0.0002,  0.0005, -0.0004,
+        -0.0002,  0.0009], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 47, time 221.62, cls_loss 0.0068 cls_loss_mapping 0.0191 cls_loss_causal 0.6630 re_mapping 0.0129 re_causal 0.0418 /// teacc 98.72 lr 0.00010000
+Epoch 49, weight, value: tensor([[-0.0697, -0.0746,  0.0609,  ..., -0.0207,  0.0346,  0.0165],
+        [-0.0357, -0.0139, -0.0192,  ..., -0.0320, -0.0656, -0.0420],
+        [ 0.0381, -0.0281, -0.0081,  ..., -0.0216, -0.0115, -0.1518],
+        ...,
+        [-0.0306,  0.0473, -0.0018,  ...,  0.0587, -0.0282, -0.0589],
+        [-0.0043, -0.0305,  0.0620,  ..., -0.0331, -0.1068,  0.0637],
+        [-0.0205, -0.0706,  0.0506,  ...,  0.0439, -0.1174, -0.0345]],
+       device='cuda:0'), grad: tensor([[ 3.7136e-07,  3.8415e-05,  1.1377e-05,  ...,  1.5646e-06,
+          1.6913e-06,  2.9162e-05],
+        [ 5.2992e-07, -1.9705e-04,  2.1309e-05,  ...,  3.1870e-06,
+          1.6764e-07, -1.5318e-04],
+        [ 1.2293e-07, -6.8426e-04, -3.9554e-04,  ..., -6.5416e-06,
+         -6.5327e-05,  2.4021e-05],
+        ...,
+        [ 4.5402e-07,  1.5783e-04,  7.7665e-05,  ..., -5.3644e-06,
+          7.1060e-07,  2.5883e-05],
+        [ 4.4629e-06,  2.9898e-04,  1.1462e-04,  ...,  1.0826e-05,
+          5.8174e-05, -2.1780e-04],
+        [ 2.9150e-07,  6.1914e-06, -8.9228e-05,  ..., -7.3016e-05,
+          1.5786e-07,  4.2021e-05]], device='cuda:0')
+Epoch 49, bias, value: tensor([-0.0153, -0.0131, -0.0263, -0.0253, -0.0104,  0.0042,  0.0074, -0.0233,
+        -0.0087,  0.0069], device='cuda:0'), grad: tensor([ 2.0373e-04, -1.4105e-03, -1.3838e-03,  1.2455e-03,  2.2590e-04,
+        -8.2374e-05,  1.2457e-04,  5.1308e-04,  5.7220e-04, -6.8992e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 48, time 221.23, cls_loss 0.0086 cls_loss_mapping 0.0210 cls_loss_causal 0.7020 re_mapping 0.0132 re_causal 0.0422 /// teacc 98.91 lr 0.00010000
+Epoch 50, weight, value: tensor([[-0.0701, -0.0758,  0.0608,  ..., -0.0218,  0.0349,  0.0169],
+        [-0.0358, -0.0138, -0.0204,  ..., -0.0329, -0.0659, -0.0426],
+        [ 0.0380, -0.0284, -0.0087,  ..., -0.0223, -0.0106, -0.1529],
+        ...,
+        [-0.0311,  0.0484, -0.0013,  ...,  0.0595, -0.0283, -0.0594],
+        [-0.0048, -0.0307,  0.0626,  ..., -0.0331, -0.1078,  0.0641],
+        [-0.0204, -0.0721,  0.0513,  ...,  0.0441, -0.1177, -0.0345]],
+       device='cuda:0'), grad: tensor([[ 7.4692e-07,  2.1979e-05,  6.2287e-06,  ...,  9.5293e-06,
+          6.3479e-06,  4.3213e-05],
+        [ 1.8207e-07,  9.4399e-06,  9.7081e-06,  ...,  1.0863e-05,
+          1.3970e-05,  4.0233e-05],
+        [ 2.1770e-07,  6.8545e-05,  5.6505e-05,  ...,  5.6803e-05,
+          2.1622e-05,  1.4174e-04],
+        ...,
+        [ 1.2312e-06, -1.1814e-04, -6.1274e-05,  ..., -1.1331e-04,
+          8.9966e-07,  2.1562e-05],
+        [ 5.6215e-06,  1.1957e-04,  3.1382e-05,  ..., -1.6540e-05,
+          1.7554e-05,  2.4557e-04],
+        [ 9.3728e-06,  4.0740e-05,  5.7727e-05,  ...,  5.6237e-05,
+          5.6392e-07,  4.8637e-05]], device='cuda:0')
+Epoch 50, bias, value: tensor([-0.0151, -0.0135, -0.0256, -0.0256, -0.0105,  0.0038,  0.0072, -0.0231,
+        -0.0087,  0.0071], device='cuda:0'), grad: tensor([ 9.6619e-05,  8.7440e-05,  3.7432e-04, -8.1253e-04, -3.7819e-05,
+         1.8501e-04, -5.6791e-04, -1.0949e-04,  6.1655e-04,  1.6749e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 49, time 220.86, cls_loss 0.0061 cls_loss_mapping 0.0193 cls_loss_causal 0.6482 re_mapping 0.0129 re_causal 0.0405 /// teacc 98.86 lr 0.00010000
+Epoch 51, weight, value: tensor([[-0.0708, -0.0765,  0.0611,  ..., -0.0224,  0.0350,  0.0173],
+        [-0.0358, -0.0142, -0.0208,  ..., -0.0334, -0.0659, -0.0419],
+        [ 0.0381, -0.0291, -0.0092,  ..., -0.0229, -0.0105, -0.1544],
+        ...,
+        [-0.0313,  0.0493, -0.0012,  ...,  0.0599, -0.0284, -0.0600],
+        [-0.0056, -0.0314,  0.0628,  ..., -0.0332, -0.1082,  0.0642],
+        [-0.0208, -0.0730,  0.0518,  ...,  0.0443, -0.1179, -0.0351]],
+       device='cuda:0'), grad: tensor([[ 2.6114e-06,  2.5332e-05,  2.6852e-05,  ...,  2.0102e-05,
+          7.0259e-06,  7.3731e-05],
+        [ 4.4750e-07,  5.3614e-05,  1.2793e-05,  ...,  1.9699e-05,
+          2.4997e-06, -1.1808e-04],
+        [ 8.4843e-07, -1.6940e-04,  3.6836e-05,  ..., -7.2718e-05,
+          3.5763e-06,  1.1784e-04],
+        ...,
+        [ 4.3102e-06,  2.5058e-04,  7.5698e-05,  ..., -8.0228e-05,
+          3.3178e-07,  4.3273e-05],
+        [ 4.9397e-06,  1.1081e-04,  1.2290e-04,  ...,  4.9502e-05,
+          1.4722e-05,  1.0192e-04],
+        [-2.3823e-06,  7.5996e-05, -1.5700e-04,  ...,  2.2721e-04,
+          1.2117e-06, -1.1140e-04]], device='cuda:0')
+Epoch 51, bias, value: tensor([-0.0150, -0.0135, -0.0257, -0.0255, -0.0103,  0.0036,  0.0076, -0.0231,
+        -0.0090,  0.0070], device='cuda:0'), grad: tensor([ 0.0002, -0.0002, -0.0004, -0.0007, -0.0005,  0.0002, -0.0003,  0.0007,
+         0.0004,  0.0005], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 50, time 221.53, cls_loss 0.0066 cls_loss_mapping 0.0181 cls_loss_causal 0.7141 re_mapping 0.0126 re_causal 0.0411 /// teacc 98.62 lr 0.00010000
+Epoch 52, weight, value: tensor([[-0.0731, -0.0775,  0.0612,  ..., -0.0229,  0.0350,  0.0169],
+        [-0.0359, -0.0136, -0.0207,  ..., -0.0326, -0.0658, -0.0405],
+        [ 0.0382, -0.0291, -0.0096,  ..., -0.0231, -0.0105, -0.1560],
+        ...,
+        [-0.0319,  0.0495, -0.0014,  ...,  0.0597, -0.0284, -0.0614],
+        [-0.0062, -0.0321,  0.0636,  ..., -0.0331, -0.1085,  0.0655],
+        [-0.0216, -0.0742,  0.0522,  ...,  0.0447, -0.1183, -0.0363]],
+       device='cuda:0'), grad: tensor([[ 5.1036e-07,  2.3186e-05,  1.4916e-05,  ...,  1.1228e-05,
+          6.6757e-06,  4.2409e-05],
+        [ 5.3318e-08,  2.5749e-04,  2.0051e-04,  ...,  1.0580e-04,
+          1.6196e-06,  7.2002e-05],
+        [ 8.0327e-08,  4.4316e-05,  4.6521e-05,  ...,  1.8224e-05,
+         -1.0453e-05,  5.2452e-05],
+        ...,
+        [ 3.2969e-07, -6.3562e-04, -4.3464e-04,  ..., -2.1458e-04,
+          4.2096e-06, -2.2173e-04],
+        [ 8.6334e-07,  6.1572e-05,  2.8722e-06,  ...,  3.4034e-05,
+          1.2200e-06, -7.4387e-05],
+        [ 1.0580e-06,  1.4544e-04,  2.2650e-05,  ...,  2.2680e-05,
+          1.4645e-07,  4.2558e-05]], device='cuda:0')
+Epoch 52, bias, value: tensor([-0.0156, -0.0128, -0.0252, -0.0252, -0.0106,  0.0033,  0.0074, -0.0238,
+        -0.0084,  0.0070], device='cuda:0'), grad: tensor([ 1.1647e-04,  1.9860e-04,  7.9274e-05,  1.6809e-04,  3.7909e-05,
+         6.8367e-05, -8.9169e-05, -7.4673e-04,  1.1258e-05,  1.5557e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 51, time 221.36, cls_loss 0.0068 cls_loss_mapping 0.0206 cls_loss_causal 0.6648 re_mapping 0.0126 re_causal 0.0403 /// teacc 98.77 lr 0.00010000
+Epoch 53, weight, value: tensor([[-0.0744, -0.0780,  0.0614,  ..., -0.0235,  0.0350,  0.0165],
+        [-0.0360, -0.0141, -0.0212,  ..., -0.0335, -0.0665, -0.0406],
+        [ 0.0381, -0.0298, -0.0103,  ..., -0.0235, -0.0105, -0.1582],
+        ...,
+        [-0.0331,  0.0504, -0.0013,  ...,  0.0605, -0.0278, -0.0617],
+        [-0.0073, -0.0324,  0.0645,  ..., -0.0332, -0.1087,  0.0663],
+        [-0.0214, -0.0752,  0.0527,  ...,  0.0448, -0.1185, -0.0368]],
+       device='cuda:0'), grad: tensor([[ 1.3024e-05,  4.5523e-06,  7.9349e-07,  ...,  4.4852e-06,
+          0.0000e+00,  2.9296e-05],
+        [ 1.7844e-06,  3.6471e-06,  3.2801e-06,  ...,  4.4554e-06,
+          0.0000e+00, -2.7686e-05],
+        [ 1.2189e-05,  1.4424e-05,  1.2815e-05,  ...,  1.2532e-05,
+          0.0000e+00,  2.2545e-05],
+        ...,
+        [ 1.1615e-05, -5.3287e-05,  4.0233e-06,  ..., -1.5929e-05,
+          0.0000e+00,  1.6630e-05],
+        [ 1.8984e-05,  5.2825e-06, -4.6194e-05,  ..., -4.3362e-06,
+          0.0000e+00, -2.4408e-05],
+        [ 1.4710e-04,  2.9117e-05, -6.2764e-05,  ..., -6.5029e-05,
+          0.0000e+00,  1.6117e-04]], device='cuda:0')
+Epoch 53, bias, value: tensor([-0.0161, -0.0131, -0.0257, -0.0253, -0.0105,  0.0043,  0.0065, -0.0235,
+        -0.0080,  0.0070], device='cuda:0'), grad: tensor([ 7.5221e-05, -7.5817e-05,  2.4855e-05,  9.7752e-04,  8.0466e-05,
+        -1.5793e-03, -3.8266e-05,  3.4332e-05,  7.9393e-05,  4.2200e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 52, time 221.39, cls_loss 0.0060 cls_loss_mapping 0.0156 cls_loss_causal 0.6599 re_mapping 0.0127 re_causal 0.0395 /// teacc 98.84 lr 0.00010000
+Epoch 54, weight, value: tensor([[-0.0755, -0.0786,  0.0617,  ..., -0.0239,  0.0350,  0.0169],
+        [-0.0362, -0.0144, -0.0216,  ..., -0.0342, -0.0666, -0.0406],
+        [ 0.0384, -0.0305, -0.0108,  ..., -0.0239, -0.0105, -0.1609],
+        ...,
+        [-0.0343,  0.0511, -0.0013,  ...,  0.0605, -0.0279, -0.0622],
+        [-0.0082, -0.0329,  0.0651,  ..., -0.0328, -0.1089,  0.0666],
+        [-0.0210, -0.0760,  0.0529,  ...,  0.0449, -0.1185, -0.0377]],
+       device='cuda:0'), grad: tensor([[ 1.0327e-05,  1.8477e-05,  4.9407e-07,  ...,  1.0826e-05,
+          4.5411e-06,  3.1084e-05],
+        [ 4.5784e-06,  2.2531e-05,  1.4871e-05,  ...,  1.0774e-05,
+          2.0489e-06,  1.2107e-05],
+        [ 8.4750e-07, -4.7088e-05,  5.2273e-05,  ...,  1.4409e-05,
+         -8.2612e-05,  3.3736e-05],
+        ...,
+        [ 8.9779e-06,  1.2732e-04,  1.1295e-04,  ...,  5.0992e-05,
+          2.6196e-05,  1.0198e-04],
+        [ 9.0450e-06,  8.4519e-05, -2.0540e-04,  ..., -1.3030e-04,
+          9.7379e-06, -1.7512e-04],
+        [ 1.8024e-04,  4.5121e-05,  7.5996e-05,  ...,  1.1820e-04,
+          9.6858e-07,  4.2057e-04]], device='cuda:0')
+Epoch 54, bias, value: tensor([-0.0156, -0.0134, -0.0262, -0.0251, -0.0101,  0.0049,  0.0066, -0.0237,
+        -0.0080,  0.0066], device='cuda:0'), grad: tensor([ 8.8871e-05,  4.5061e-05, -3.6025e-04, -1.7996e-03,  5.6028e-06,
+         4.1699e-04,  4.1199e-04,  4.4823e-04, -1.3120e-05,  7.5626e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 53, time 221.18, cls_loss 0.0048 cls_loss_mapping 0.0144 cls_loss_causal 0.6426 re_mapping 0.0127 re_causal 0.0399 /// teacc 98.82 lr 0.00010000
+Epoch 55, weight, value: tensor([[-0.0772, -0.0785,  0.0622,  ..., -0.0243,  0.0358,  0.0177],
+        [-0.0364, -0.0147, -0.0218,  ..., -0.0349, -0.0668, -0.0401],
+        [ 0.0381, -0.0309, -0.0113,  ..., -0.0244, -0.0101, -0.1619],
+        ...,
+        [-0.0360,  0.0516, -0.0015,  ...,  0.0606, -0.0279, -0.0626],
+        [-0.0095, -0.0333,  0.0650,  ..., -0.0332, -0.1092,  0.0667],
+        [-0.0197, -0.0766,  0.0537,  ...,  0.0454, -0.1189, -0.0377]],
+       device='cuda:0'), grad: tensor([[ 3.0478e-07,  3.0249e-06, -6.8367e-05,  ...,  3.2801e-06,
+          6.3842e-07, -2.8387e-05],
+        [ 1.0841e-06,  1.8343e-05,  8.5905e-06,  ...,  1.2703e-05,
+          5.3691e-07, -1.4491e-05],
+        [ 6.7614e-07,  6.9201e-05,  5.6088e-05,  ...,  2.5347e-05,
+          1.2971e-05,  8.8751e-05],
+        ...,
+        [ 3.5703e-05, -6.9618e-05, -2.5213e-05,  ...,  1.2457e-04,
+          1.1129e-07,  1.4164e-05],
+        [ 3.3248e-06,  1.0207e-05, -4.9472e-05,  ...,  1.4957e-06,
+          9.2667e-07,  2.1029e-06],
+        [ 1.0245e-05,  1.9163e-05, -3.7588e-06,  ...,  3.6985e-05,
+          1.3923e-07,  2.6509e-05]], device='cuda:0')
+Epoch 55, bias, value: tensor([-0.0153, -0.0132, -0.0263, -0.0251, -0.0102,  0.0045,  0.0071, -0.0240,
+        -0.0087,  0.0070], device='cuda:0'), grad: tensor([-8.7321e-05,  1.7032e-05,  6.2609e-04, -3.2616e-04, -2.7552e-05,
+         3.3766e-05, -7.9727e-04,  3.1352e-04,  8.8632e-05,  1.5903e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 54----------------------------------------------------
+epoch 54, time 222.17, cls_loss 0.0061 cls_loss_mapping 0.0194 cls_loss_causal 0.6924 re_mapping 0.0119 re_causal 0.0388 /// teacc 99.00 lr 0.00010000
+Epoch 56, weight, value: tensor([[-0.0803, -0.0795,  0.0623,  ..., -0.0250,  0.0358,  0.0177],
+        [-0.0370, -0.0156, -0.0228,  ..., -0.0361, -0.0668, -0.0400],
+        [ 0.0383, -0.0315, -0.0119,  ..., -0.0247, -0.0101, -0.1634],
+        ...,
+        [-0.0371,  0.0523, -0.0009,  ...,  0.0612, -0.0279, -0.0627],
+        [-0.0116, -0.0337,  0.0655,  ..., -0.0334, -0.1094,  0.0670],
+        [-0.0191, -0.0782,  0.0541,  ...,  0.0457, -0.1190, -0.0377]],
+       device='cuda:0'), grad: tensor([[ 8.8587e-06,  5.5581e-05,  1.6764e-05,  ...,  3.4004e-05,
+          0.0000e+00,  2.5421e-05],
+        [ 8.5682e-07,  4.1202e-06,  3.5577e-06,  ...,  9.3162e-05,
+          0.0000e+00,  9.2387e-06],
+        [ 6.0583e-07, -4.1723e-05, -7.5519e-05,  ...,  2.2814e-05,
+          0.0000e+00,  2.0444e-05],
+        ...,
+        [-1.9029e-05, -1.2058e-04, -3.8743e-05,  ..., -5.4479e-05,
+          0.0000e+00, -1.1343e-04],
+        [ 8.4117e-06,  2.3007e-05,  3.7670e-05,  ...,  2.6405e-05,
+          0.0000e+00,  3.3706e-05],
+        [ 1.2759e-06,  6.9812e-06, -1.2413e-05,  ...,  3.6657e-05,
+          0.0000e+00,  2.2486e-05]], device='cuda:0')
+Epoch 56, bias, value: tensor([-0.0154, -0.0137, -0.0265, -0.0245, -0.0101,  0.0042,  0.0076, -0.0235,
+        -0.0088,  0.0067], device='cuda:0'), grad: tensor([ 1.8227e-04,  6.0177e-04, -3.6645e-04,  1.3912e-04, -1.5125e-03,
+         1.1253e-04,  1.8454e-04, -9.2983e-06,  4.1962e-04,  2.4819e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 55, time 220.79, cls_loss 0.0069 cls_loss_mapping 0.0173 cls_loss_causal 0.6373 re_mapping 0.0120 re_causal 0.0365 /// teacc 98.92 lr 0.00010000
+Epoch 57, weight, value: tensor([[-0.0815, -0.0810,  0.0626,  ..., -0.0255,  0.0357,  0.0180],
+        [-0.0374, -0.0161, -0.0234,  ..., -0.0368, -0.0670, -0.0407],
+        [ 0.0393, -0.0317, -0.0126,  ..., -0.0246, -0.0099, -0.1650],
+        ...,
+        [-0.0398,  0.0525, -0.0007,  ...,  0.0619, -0.0278, -0.0635],
+        [-0.0128, -0.0341,  0.0660,  ..., -0.0335, -0.1096,  0.0679],
+        [-0.0179, -0.0793,  0.0545,  ...,  0.0460, -0.1191, -0.0382]],
+       device='cuda:0'), grad: tensor([[ 4.3074e-07,  8.4098e-07, -2.1473e-05,  ...,  1.0896e-06,
+          0.0000e+00, -3.6927e-07],
+        [ 7.9395e-08, -1.4696e-06,  7.8231e-06,  ...,  2.0657e-06,
+          0.0000e+00,  2.2247e-05],
+        [ 5.9139e-08,  4.9844e-06,  2.0877e-05,  ...,  4.5076e-06,
+          0.0000e+00,  6.8665e-05],
+        ...,
+        [ 7.2271e-07, -1.7881e-05, -4.5262e-06,  ..., -1.2711e-05,
+          0.0000e+00,  2.7612e-05],
+        [ 2.3656e-07,  5.2759e-07, -1.8525e-04,  ..., -2.6152e-06,
+          0.0000e+00, -7.7152e-04],
+        [-3.9153e-06,  1.8366e-06,  1.4573e-05,  ..., -3.7942e-06,
+          0.0000e+00,  3.3885e-05]], device='cuda:0')
+Epoch 57, bias, value: tensor([-0.0152, -0.0144, -0.0259, -0.0242, -0.0104,  0.0042,  0.0079, -0.0235,
+        -0.0086,  0.0065], device='cuda:0'), grad: tensor([ 6.7689e-06,  3.1501e-05,  1.0920e-04,  4.6444e-04,  5.6362e-04,
+         1.0377e-04, -2.2873e-05,  6.6578e-05, -1.3742e-03,  5.2333e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 56, time 221.14, cls_loss 0.0050 cls_loss_mapping 0.0183 cls_loss_causal 0.6524 re_mapping 0.0121 re_causal 0.0392 /// teacc 98.84 lr 0.00010000
+Epoch 58, weight, value: tensor([[-0.0823, -0.0824,  0.0629,  ..., -0.0265,  0.0357,  0.0182],
+        [-0.0376, -0.0164, -0.0238,  ..., -0.0372, -0.0671, -0.0407],
+        [ 0.0394, -0.0321, -0.0132,  ..., -0.0251, -0.0097, -0.1664],
+        ...,
+        [-0.0412,  0.0533, -0.0006,  ...,  0.0621, -0.0278, -0.0639],
+        [-0.0136, -0.0344,  0.0665,  ..., -0.0336, -0.1100,  0.0689],
+        [-0.0170, -0.0802,  0.0553,  ...,  0.0465, -0.1191, -0.0386]],
+       device='cuda:0'), grad: tensor([[ 1.2806e-06,  2.6263e-06,  4.1217e-05,  ...,  4.7386e-06,
+          1.6997e-08,  7.3195e-05],
+        [ 5.3085e-07,  5.6922e-06,  9.4473e-06,  ...,  1.1161e-05,
+          1.0245e-08,  7.4469e-06],
+        [-5.8450e-06, -2.5168e-05,  1.1511e-05,  ..., -2.6956e-05,
+         -3.3760e-07,  3.8415e-05],
+        ...,
+        [ 5.3719e-06, -8.2478e-06,  2.8029e-05,  ...,  1.5333e-05,
+          1.9162e-07,  1.5140e-05],
+        [ 4.2886e-05,  4.9084e-05,  7.9041e-03,  ...,  3.2902e-04,
+          7.8697e-08,  1.2505e-02],
+        [-9.0957e-05, -1.6121e-06, -5.7077e-04,  ..., -4.2486e-04,
+          3.4925e-09, -2.3305e-04]], device='cuda:0')
+Epoch 58, bias, value: tensor([-0.0154, -0.0144, -0.0261, -0.0246, -0.0106,  0.0043,  0.0081, -0.0234,
+        -0.0083,  0.0066], device='cuda:0'), grad: tensor([ 6.4433e-05,  9.7930e-05, -2.0325e-04,  6.9514e-06, -1.7977e-04,
+         1.7905e-04, -1.4740e-02,  1.0967e-04,  1.5236e-02, -5.7220e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 57, time 220.81, cls_loss 0.0049 cls_loss_mapping 0.0150 cls_loss_causal 0.6467 re_mapping 0.0116 re_causal 0.0371 /// teacc 98.95 lr 0.00010000
+Epoch 59, weight, value: tensor([[-0.0838, -0.0838,  0.0632,  ..., -0.0271,  0.0356,  0.0186],
+        [-0.0379, -0.0166, -0.0240,  ..., -0.0377, -0.0672, -0.0405],
+        [ 0.0396, -0.0322, -0.0136,  ..., -0.0251, -0.0095, -0.1681],
+        ...,
+        [-0.0442,  0.0538, -0.0006,  ...,  0.0624, -0.0278, -0.0647],
+        [-0.0158, -0.0348,  0.0666,  ..., -0.0338, -0.1103,  0.0686],
+        [-0.0178, -0.0811,  0.0555,  ...,  0.0463, -0.1192, -0.0396]],
+       device='cuda:0'), grad: tensor([[-5.0012e-07,  6.9104e-07, -4.0047e-06,  ...,  1.6000e-06,
+          3.9185e-07,  4.9740e-05],
+        [-2.6021e-06,  6.6981e-06,  1.3918e-05,  ...,  1.4246e-05,
+          2.7940e-09, -1.4722e-04],
+        [ 1.1288e-06,  1.1377e-05,  1.2279e-05,  ..., -1.8347e-07,
+          4.1910e-09,  2.5630e-05],
+        ...,
+        [ 6.7707e-07, -1.0744e-05, -3.2075e-06,  ..., -7.8678e-06,
+          6.9849e-10,  1.2897e-05],
+        [-2.7061e-05,  7.0445e-06, -9.9599e-05,  ..., -8.6203e-06,
+          8.6147e-09, -2.0063e-04],
+        [ 1.0487e-06,  1.0669e-05,  2.6897e-05,  ...,  2.0638e-05,
+          9.3132e-10,  2.5347e-05]], device='cuda:0')
+Epoch 59, bias, value: tensor([-0.0155, -0.0147, -0.0256, -0.0248, -0.0101,  0.0049,  0.0085, -0.0238,
+        -0.0089,  0.0063], device='cuda:0'), grad: tensor([ 7.3791e-05, -1.1742e-04,  4.5806e-05,  3.7719e-06, -2.3782e-04,
+         1.1724e-04,  5.0694e-05,  6.2764e-05, -1.0830e-04,  1.0967e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 58----------------------------------------------------
+epoch 58, time 221.73, cls_loss 0.0053 cls_loss_mapping 0.0166 cls_loss_causal 0.6714 re_mapping 0.0116 re_causal 0.0375 /// teacc 99.04 lr 0.00010000
+Epoch 60, weight, value: tensor([[-0.0848, -0.0845,  0.0634,  ..., -0.0282,  0.0356,  0.0191],
+        [-0.0379, -0.0171, -0.0245,  ..., -0.0381, -0.0674, -0.0398],
+        [ 0.0395, -0.0342, -0.0141,  ..., -0.0254, -0.0095, -0.1694],
+        ...,
+        [-0.0457,  0.0555, -0.0003,  ...,  0.0629, -0.0275, -0.0654],
+        [-0.0163, -0.0351,  0.0671,  ..., -0.0338, -0.1104,  0.0692],
+        [-0.0173, -0.0821,  0.0559,  ...,  0.0464, -0.1192, -0.0399]],
+       device='cuda:0'), grad: tensor([[ 2.4810e-06,  1.0990e-06, -1.1295e-04,  ...,  9.3412e-07,
+          0.0000e+00, -1.7166e-05],
+        [ 6.0536e-06,  1.7732e-06,  7.7635e-06,  ...,  2.5518e-06,
+          0.0000e+00,  3.2485e-06],
+        [ 6.5472e-07,  2.5213e-05,  4.6551e-05,  ...,  4.3400e-06,
+          0.0000e+00,  1.4655e-05],
+        ...,
+        [ 6.0797e-06, -9.8795e-06,  9.4026e-06,  ..., -1.2688e-05,
+          0.0000e+00,  1.4648e-05],
+        [ 1.2688e-05,  5.6550e-06,  7.6368e-06,  ...,  7.6890e-06,
+          0.0000e+00,  1.7881e-05],
+        [-6.6683e-06,  1.2808e-05, -1.1817e-05,  ..., -2.2754e-05,
+          0.0000e+00,  1.3858e-05]], device='cuda:0')
+Epoch 60, bias, value: tensor([-0.0153, -0.0143, -0.0266, -0.0250, -0.0101,  0.0046,  0.0084, -0.0230,
+        -0.0087,  0.0062], device='cuda:0'), grad: tensor([-1.9073e-04, -8.6248e-05,  1.9014e-04, -5.2840e-05,  6.4611e-05,
+        -7.3254e-05, -1.1716e-06,  6.6340e-05,  6.0350e-05,  2.2903e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 59, time 221.07, cls_loss 0.0050 cls_loss_mapping 0.0152 cls_loss_causal 0.6401 re_mapping 0.0115 re_causal 0.0357 /// teacc 98.70 lr 0.00010000
+Epoch 61, weight, value: tensor([[-8.7586e-02, -8.5348e-02,  6.3669e-02,  ..., -2.8630e-02,
+          3.5521e-02,  1.8728e-02],
+        [-3.7998e-02, -1.7688e-02, -2.5157e-02,  ..., -3.8419e-02,
+         -6.7636e-02, -3.9765e-02],
+        [ 3.9595e-02, -3.4645e-02, -1.4802e-02,  ..., -2.5841e-02,
+         -9.1996e-03, -1.7051e-01],
+        ...,
+        [-4.7898e-02,  5.6211e-02, -9.4824e-05,  ...,  6.3397e-02,
+         -2.7647e-02, -6.6495e-02],
+        [-1.7915e-02, -3.5388e-02,  6.7867e-02,  ..., -3.3921e-02,
+         -1.1050e-01,  7.0252e-02],
+        [-1.6809e-02, -8.3604e-02,  5.5888e-02,  ...,  4.6394e-02,
+         -1.1937e-01, -4.0386e-02]], device='cuda:0'), grad: tensor([[ 4.2804e-06,  7.5027e-06,  6.4075e-05,  ...,  2.4103e-06,
+         -1.3653e-06,  9.1970e-05],
+        [ 3.5129e-06,  2.2724e-06,  1.1182e-04,  ...,  4.1462e-06,
+          9.6159e-08,  9.9897e-05],
+        [ 8.4788e-06,  2.5898e-05,  2.7871e-04,  ...,  3.2112e-06,
+         -1.2163e-06,  3.5381e-04],
+        ...,
+        [ 3.9004e-06, -2.0638e-05,  7.6294e-05,  ..., -6.0722e-07,
+          8.5495e-07,  1.2088e-04],
+        [-1.5885e-05, -3.9965e-05, -6.2704e-04,  ...,  3.5949e-06,
+          4.1490e-07, -7.7486e-04],
+        [ 6.9849e-06,  1.3098e-05,  4.3549e-06,  ...,  2.2918e-05,
+          1.2829e-07,  2.0817e-05]], device='cuda:0')
+Epoch 61, bias, value: tensor([-0.0151, -0.0139, -0.0270, -0.0251, -0.0104,  0.0051,  0.0078, -0.0229,
+        -0.0079,  0.0057], device='cuda:0'), grad: tensor([ 1.4710e-04, -1.8030e-05,  5.7602e-04, -8.5950e-05, -7.0274e-05,
+         1.9622e-04,  5.2750e-05,  2.5415e-04, -1.1501e-03,  9.7215e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 60, time 221.05, cls_loss 0.0050 cls_loss_mapping 0.0139 cls_loss_causal 0.6380 re_mapping 0.0114 re_causal 0.0361 /// teacc 98.90 lr 0.00010000
+Epoch 62, weight, value: tensor([[-8.9935e-02, -8.6741e-02,  6.3638e-02,  ..., -2.9091e-02,
+          3.5424e-02,  1.8451e-02],
+        [-3.8314e-02, -1.7649e-02, -2.5083e-02,  ..., -3.7885e-02,
+         -6.7814e-02, -3.9270e-02],
+        [ 3.9670e-02, -3.5146e-02, -1.5428e-02,  ..., -2.6617e-02,
+         -8.9856e-03, -1.7238e-01],
+        ...,
+        [-4.8691e-02,  5.6915e-02, -1.2902e-04,  ...,  6.3803e-02,
+         -2.7468e-02, -6.6767e-02],
+        [-1.8037e-02, -3.5685e-02,  6.8185e-02,  ..., -3.4353e-02,
+         -1.1063e-01,  7.1167e-02],
+        [-1.5477e-02, -8.4803e-02,  5.6596e-02,  ...,  4.6860e-02,
+         -1.1947e-01, -4.0722e-02]], device='cuda:0'), grad: tensor([[ 1.5497e-05,  6.2473e-06,  1.5497e-04,  ...,  6.3255e-06,
+          1.0765e-04,  4.2009e-04],
+        [ 5.0664e-07,  3.4511e-05,  2.4676e-05,  ...,  3.4511e-05,
+          7.1526e-07, -3.3528e-05],
+        [ 3.2061e-07,  1.7226e-05,  1.2994e-05,  ...,  1.3366e-05,
+         -6.7949e-06,  6.2026e-06],
+        ...,
+        [ 8.8383e-07, -1.0099e-03, -1.0519e-03,  ..., -1.0061e-03,
+          1.6466e-06, -7.7039e-06],
+        [ 8.3894e-06,  1.6272e-05,  3.2097e-05,  ...,  2.1622e-05,
+          8.3745e-06,  5.2243e-05],
+        [ 5.7667e-06,  8.7309e-04,  9.2268e-04,  ...,  9.9754e-04,
+          2.7735e-06,  4.3213e-05]], device='cuda:0')
+Epoch 62, bias, value: tensor([-0.0156, -0.0130, -0.0269, -0.0251, -0.0110,  0.0048,  0.0078, -0.0231,
+        -0.0077,  0.0059], device='cuda:0'), grad: tensor([ 5.1689e-04, -6.9976e-05,  6.9058e-07,  1.4412e-04, -3.5620e-04,
+         1.1826e-04, -6.5422e-04, -2.2984e-03,  1.2827e-04,  2.4681e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 61, time 220.74, cls_loss 0.0050 cls_loss_mapping 0.0175 cls_loss_causal 0.6167 re_mapping 0.0113 re_causal 0.0350 /// teacc 98.81 lr 0.00010000
+Epoch 63, weight, value: tensor([[-0.0911, -0.0882,  0.0642,  ..., -0.0294,  0.0358,  0.0187],
+        [-0.0388, -0.0173, -0.0250,  ..., -0.0378, -0.0683, -0.0389],
+        [ 0.0396, -0.0360, -0.0157,  ..., -0.0269, -0.0084, -0.1735],
+        ...,
+        [-0.0487,  0.0578, -0.0003,  ...,  0.0639, -0.0268, -0.0672],
+        [-0.0201, -0.0362,  0.0682,  ..., -0.0346, -0.1119,  0.0715],
+        [-0.0134, -0.0861,  0.0572,  ...,  0.0472, -0.1200, -0.0402]],
+       device='cuda:0'), grad: tensor([[ 3.4249e-07,  1.5190e-06,  1.9418e-07,  ...,  7.9162e-07,
+          2.8359e-07,  2.5053e-06],
+        [ 6.3796e-08,  8.6576e-06,  3.4738e-06,  ...,  3.9898e-06,
+          7.1246e-08, -3.4384e-06],
+        [ 1.1967e-07,  6.7130e-06,  1.8880e-05,  ...,  6.3609e-07,
+          3.8883e-08,  2.2277e-05],
+        ...,
+        [ 4.8522e-07, -2.5436e-05, -6.9439e-06,  ..., -1.3456e-05,
+          4.4238e-09,  3.6173e-06],
+        [ 3.4040e-07,  1.9576e-06, -3.1948e-05,  ...,  4.6147e-07,
+          2.3562e-07, -4.1008e-05],
+        [-1.2922e-07,  8.4192e-06,  2.8294e-06,  ...,  4.1048e-07,
+          2.3982e-08,  7.6182e-06]], device='cuda:0')
+Epoch 63, bias, value: tensor([-0.0154, -0.0130, -0.0267, -0.0252, -0.0111,  0.0043,  0.0079, -0.0232,
+        -0.0077,  0.0064], device='cuda:0'), grad: tensor([ 3.9786e-06,  1.4156e-06,  3.8862e-05,  3.9488e-06,  3.1795e-06,
+        -3.8929e-06,  2.8480e-06, -1.7554e-05, -4.9859e-05,  1.7032e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 62, time 220.62, cls_loss 0.0035 cls_loss_mapping 0.0118 cls_loss_causal 0.6114 re_mapping 0.0110 re_causal 0.0341 /// teacc 98.94 lr 0.00010000
+Epoch 64, weight, value: tensor([[-0.0920, -0.0888,  0.0641,  ..., -0.0308,  0.0357,  0.0191],
+        [-0.0395, -0.0178, -0.0255,  ..., -0.0386, -0.0689, -0.0389],
+        [ 0.0403, -0.0365, -0.0161,  ..., -0.0271, -0.0082, -0.1743],
+        ...,
+        [-0.0491,  0.0585, -0.0003,  ...,  0.0644, -0.0270, -0.0677],
+        [-0.0213, -0.0367,  0.0684,  ..., -0.0347, -0.1121,  0.0718],
+        [-0.0142, -0.0870,  0.0577,  ...,  0.0471, -0.1202, -0.0407]],
+       device='cuda:0'), grad: tensor([[ 9.9614e-06,  9.5963e-06, -4.3452e-05,  ...,  9.2909e-06,
+         -7.4739e-07, -3.3885e-05],
+        [ 4.6581e-05,  6.9812e-06,  6.6049e-06,  ...,  1.1690e-05,
+          8.7917e-06,  2.6878e-06],
+        [-5.1111e-05,  1.7792e-05,  1.9968e-05,  ...,  5.5492e-05,
+          2.2799e-05,  1.1109e-05],
+        ...,
+        [-2.7232e-06, -5.7817e-05, -7.0557e-06,  ..., -2.2173e-04,
+          7.8753e-06, -1.0513e-05],
+        [ 1.5736e-05,  2.2426e-05,  2.2545e-05,  ...,  6.7204e-06,
+          1.5087e-06,  1.1288e-05],
+        [ 7.4804e-05,  1.6272e-05,  3.7700e-05,  ..., -3.9250e-05,
+          8.2329e-07,  9.6500e-05]], device='cuda:0')
+Epoch 64, bias, value: tensor([-0.0157, -0.0132, -0.0268, -0.0252, -0.0099,  0.0046,  0.0076, -0.0231,
+        -0.0079,  0.0059], device='cuda:0'), grad: tensor([-9.4414e-05,  5.0545e-04, -2.8753e-04,  4.5300e-05,  1.7357e-04,
+        -1.8716e-04,  5.1796e-05, -4.3631e-04,  7.7307e-05,  1.5175e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 63, time 221.45, cls_loss 0.0045 cls_loss_mapping 0.0141 cls_loss_causal 0.6705 re_mapping 0.0113 re_causal 0.0358 /// teacc 98.92 lr 0.00010000
+Epoch 65, weight, value: tensor([[-0.0931, -0.0889,  0.0644,  ..., -0.0311,  0.0357,  0.0196],
+        [-0.0399, -0.0187, -0.0261,  ..., -0.0393, -0.0693, -0.0387],
+        [ 0.0401, -0.0367, -0.0165,  ..., -0.0274, -0.0079, -0.1755],
+        ...,
+        [-0.0498,  0.0582, -0.0005,  ...,  0.0646, -0.0266, -0.0690],
+        [-0.0223, -0.0371,  0.0692,  ..., -0.0341, -0.1128,  0.0726],
+        [-0.0140, -0.0877,  0.0581,  ...,  0.0474, -0.1207, -0.0415]],
+       device='cuda:0'), grad: tensor([[ 1.1288e-06, -2.1867e-06, -6.5804e-05,  ...,  8.2701e-07,
+          1.4983e-07, -5.1796e-05],
+        [ 7.2364e-07,  1.4678e-06,  4.3251e-06,  ...,  2.2091e-06,
+          8.2422e-08, -8.7768e-06],
+        [ 3.3062e-07,  2.3749e-06,  1.3240e-05,  ...,  1.2387e-06,
+         -1.1250e-05,  1.4104e-05],
+        ...,
+        [ 2.7437e-06,  2.8331e-06,  2.4378e-05,  ...,  1.5929e-05,
+          3.1409e-07,  1.8209e-05],
+        [ 7.1004e-06,  2.2501e-05,  4.2409e-05,  ...,  9.0227e-06,
+          9.7901e-06,  2.6941e-05],
+        [-1.2711e-05,  2.6420e-05, -5.5403e-05,  ..., -4.9025e-05,
+          6.5193e-09, -1.6555e-05]], device='cuda:0')
+Epoch 65, bias, value: tensor([-0.0155, -0.0140, -0.0261, -0.0248, -0.0098,  0.0046,  0.0072, -0.0236,
+        -0.0076,  0.0059], device='cuda:0'), grad: tensor([-1.0228e-04, -1.3299e-06, -7.1287e-05, -7.7128e-05,  1.5363e-05,
+         3.8669e-06,  1.2077e-05,  7.1824e-05,  1.7154e-04, -2.2575e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 64, time 220.71, cls_loss 0.0052 cls_loss_mapping 0.0170 cls_loss_causal 0.6611 re_mapping 0.0108 re_causal 0.0334 /// teacc 98.82 lr 0.00010000
+Epoch 66, weight, value: tensor([[-9.5910e-02, -8.9588e-02,  6.4716e-02,  ..., -3.1470e-02,
+          3.5619e-02,  1.9589e-02],
+        [-4.0356e-02, -1.8216e-02, -2.6165e-02,  ..., -4.0121e-02,
+         -6.9409e-02, -3.8593e-02],
+        [ 3.9682e-02, -3.8073e-02, -1.7227e-02,  ..., -2.8051e-02,
+         -7.5368e-03, -1.7700e-01],
+        ...,
+        [-5.1391e-02,  5.9070e-02, -1.7051e-04,  ...,  6.5523e-02,
+         -2.6714e-02, -6.9117e-02],
+        [-2.0215e-02, -3.7696e-02,  6.9631e-02,  ..., -3.4256e-02,
+         -1.1316e-01,  7.4453e-02],
+        [-1.4236e-02, -8.9063e-02,  5.8154e-02,  ...,  4.7135e-02,
+         -1.2092e-01, -4.2342e-02]], device='cuda:0'), grad: tensor([[ 3.0547e-06,  3.5763e-06, -9.6336e-06,  ...,  3.5707e-06,
+          3.8766e-07, -3.9414e-06],
+        [ 5.4911e-06,  4.1649e-06,  2.3320e-06,  ...,  3.2745e-06,
+         -5.2527e-07, -6.2771e-06],
+        [-7.6175e-05,  7.6182e-06,  4.7088e-06,  ...,  2.1923e-06,
+         -1.2922e-08,  2.9299e-06],
+        ...,
+        [ 8.0690e-06, -2.3261e-05, -1.2346e-05,  ..., -1.5885e-05,
+          3.5274e-07,  3.5539e-06],
+        [ 3.1024e-05,  9.6709e-06, -6.4857e-06,  ...,  3.6396e-06,
+          6.8638e-07, -9.5069e-06],
+        [ 2.4401e-06,  3.6597e-05,  3.1382e-05,  ...,  2.9945e-04,
+          1.2200e-07,  9.7603e-06]], device='cuda:0')
+Epoch 66, bias, value: tensor([-0.0157, -0.0138, -0.0266, -0.0249, -0.0094,  0.0043,  0.0070, -0.0229,
+        -0.0068,  0.0050], device='cuda:0'), grad: tensor([ 1.5691e-05,  3.3647e-05, -6.1035e-04, -1.0931e-04, -5.5122e-04,
+         2.1446e-04,  6.3121e-05,  8.3566e-05,  2.6560e-04,  5.9366e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 65, time 220.94, cls_loss 0.0043 cls_loss_mapping 0.0141 cls_loss_causal 0.6327 re_mapping 0.0108 re_causal 0.0334 /// teacc 98.86 lr 0.00010000
+Epoch 67, weight, value: tensor([[-0.0966, -0.0902,  0.0650,  ..., -0.0322,  0.0358,  0.0194],
+        [-0.0405, -0.0189, -0.0266,  ..., -0.0406, -0.0700, -0.0385],
+        [ 0.0396, -0.0382, -0.0176,  ..., -0.0281, -0.0068, -0.1782],
+        ...,
+        [-0.0520,  0.0601,  0.0002,  ...,  0.0662, -0.0267, -0.0695],
+        [-0.0206, -0.0385,  0.0702,  ..., -0.0340, -0.1151,  0.0751],
+        [-0.0144, -0.0909,  0.0583,  ...,  0.0473, -0.1216, -0.0436]],
+       device='cuda:0'), grad: tensor([[ 1.6214e-06,  9.0674e-06,  2.1085e-06,  ...,  1.3962e-05,
+          1.1467e-07,  1.3992e-05],
+        [ 3.0436e-06,  1.9348e-04,  6.0201e-05,  ...,  2.5797e-04,
+          7.6182e-07, -4.0698e-04],
+        [ 5.6997e-07,  4.9919e-05,  1.6585e-05,  ...,  1.5900e-05,
+         -2.5537e-06,  1.9521e-05],
+        ...,
+        [ 2.2314e-06, -3.5954e-04, -1.4818e-04,  ..., -4.5300e-04,
+          4.4424e-07, -2.6727e-04],
+        [ 7.9572e-06,  1.0258e-04,  8.2195e-05,  ...,  1.4198e-04,
+          7.3947e-07,  4.2200e-04],
+        [-5.2415e-06,  4.5002e-05, -1.7476e-04,  ...,  1.5945e-03,
+          2.3283e-08,  5.4884e-04]], device='cuda:0')
+Epoch 67, bias, value: tensor([-0.0158, -0.0139, -0.0265, -0.0249, -0.0097,  0.0043,  0.0075, -0.0227,
+        -0.0065,  0.0045], device='cuda:0'), grad: tensor([ 3.9697e-05, -2.0936e-05,  1.4150e-04, -2.2328e-04, -4.0092e-03,
+         1.4412e-04,  1.1539e-04, -9.1124e-04,  7.5865e-04,  3.9635e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 66, time 220.89, cls_loss 0.0036 cls_loss_mapping 0.0115 cls_loss_causal 0.6132 re_mapping 0.0105 re_causal 0.0332 /// teacc 98.82 lr 0.00010000
+Epoch 68, weight, value: tensor([[-0.0973, -0.0910,  0.0652,  ..., -0.0326,  0.0356,  0.0193],
+        [-0.0416, -0.0193, -0.0271,  ..., -0.0413, -0.0700, -0.0387],
+        [ 0.0395, -0.0389, -0.0180,  ..., -0.0285, -0.0057, -0.1788],
+        ...,
+        [-0.0528,  0.0606, -0.0002,  ...,  0.0661, -0.0270, -0.0699],
+        [-0.0213, -0.0392,  0.0701,  ..., -0.0348, -0.1161,  0.0754],
+        [-0.0131, -0.0914,  0.0597,  ...,  0.0483, -0.1223, -0.0436]],
+       device='cuda:0'), grad: tensor([[ 1.4054e-06,  1.2666e-05, -1.0245e-05,  ...,  4.8392e-06,
+         -1.3718e-06, -1.1474e-05],
+        [ 5.8208e-07,  9.3281e-06,  5.0403e-06,  ...,  2.3210e-04,
+          4.3074e-08, -5.4762e-06],
+        [-7.4580e-06,  6.6662e-04,  6.8471e-06,  ...,  3.0339e-05,
+          2.5658e-07,  1.4514e-05],
+        ...,
+        [ 2.2277e-06, -1.2562e-05, -1.6555e-05,  ..., -1.7017e-05,
+          1.5192e-07,  4.7833e-06],
+        [ 2.6226e-06,  3.7223e-05, -1.2740e-05,  ...,  1.2107e-05,
+          9.0455e-08, -1.8924e-05],
+        [-3.1367e-06,  2.9102e-05,  1.8124e-06,  ...,  3.7104e-05,
+          2.0128e-07,  8.2254e-06]], device='cuda:0')
+Epoch 68, bias, value: tensor([-0.0161, -0.0140, -0.0266, -0.0247, -0.0098,  0.0045,  0.0075, -0.0230,
+        -0.0070,  0.0053], device='cuda:0'), grad: tensor([ 2.7135e-05,  1.0939e-03,  1.6813e-03, -2.0046e-03, -1.3571e-03,
+         7.3731e-05,  3.6329e-05,  1.1641e-04,  1.6308e-04,  1.6844e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 67, time 220.91, cls_loss 0.0052 cls_loss_mapping 0.0138 cls_loss_causal 0.6095 re_mapping 0.0107 re_causal 0.0315 /// teacc 98.89 lr 0.00010000
+Epoch 69, weight, value: tensor([[-9.9328e-02, -9.2960e-02,  6.5479e-02,  ..., -3.3219e-02,
+          3.5898e-02,  1.9430e-02],
+        [-4.2223e-02, -1.9435e-02, -2.7322e-02,  ..., -4.2476e-02,
+         -7.0213e-02, -3.7225e-02],
+        [ 3.8645e-02, -3.9803e-02, -1.8525e-02,  ..., -2.8716e-02,
+         -5.1369e-03, -1.7998e-01],
+        ...,
+        [-5.4270e-02,  6.1442e-02,  7.7591e-05,  ...,  6.6688e-02,
+         -2.7054e-02, -7.0322e-02],
+        [-2.2508e-02, -3.9859e-02,  6.9951e-02,  ..., -3.5444e-02,
+         -1.1677e-01,  7.5236e-02],
+        [-1.1081e-02, -9.2710e-02,  6.0678e-02,  ...,  4.8831e-02,
+         -1.2263e-01, -4.2861e-02]], device='cuda:0'), grad: tensor([[ 1.4659e-06,  7.4245e-06, -1.0222e-04,  ...,  6.0163e-06,
+         -2.5183e-06, -4.1306e-05],
+        [ 4.2003e-07,  1.2025e-05,  1.6406e-05,  ...,  1.8757e-06,
+         -8.2329e-06, -2.2724e-06],
+        [ 8.0233e-07,  2.1607e-05,  2.3246e-05,  ...,  7.9945e-06,
+          1.7844e-06,  1.2398e-05],
+        ...,
+        [ 1.6708e-06, -8.1360e-05, -3.8087e-05,  ..., -9.9182e-05,
+          3.5577e-06,  9.6187e-06],
+        [ 6.3470e-07,  7.2047e-06, -9.1121e-06,  ...,  9.1502e-08,
+          6.6916e-07, -1.4260e-05],
+        [ 1.2539e-05,  7.4625e-05,  5.9277e-05,  ...,  4.8429e-05,
+          1.4780e-06,  2.9534e-05]], device='cuda:0')
+Epoch 69, bias, value: tensor([-0.0162, -0.0134, -0.0271, -0.0241, -0.0100,  0.0040,  0.0072, -0.0230,
+        -0.0078,  0.0062], device='cuda:0'), grad: tensor([-1.9825e-04, -1.3798e-05,  7.6771e-05, -7.8380e-05,  3.5167e-05,
+         1.5199e-05,  2.6479e-05, -9.0897e-05,  2.3872e-05,  2.0397e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 68, time 221.14, cls_loss 0.0041 cls_loss_mapping 0.0124 cls_loss_causal 0.6249 re_mapping 0.0107 re_causal 0.0326 /// teacc 98.93 lr 0.00010000
+Epoch 70, weight, value: tensor([[-1.0028e-01, -9.4065e-02,  6.5735e-02,  ..., -3.4036e-02,
+          3.5948e-02,  1.9471e-02],
+        [-4.3422e-02, -1.9520e-02, -2.7693e-02,  ..., -4.3268e-02,
+         -7.0333e-02, -3.7810e-02],
+        [ 3.8321e-02, -4.0124e-02, -1.8931e-02,  ..., -2.8981e-02,
+         -4.3879e-03, -1.8022e-01],
+        ...,
+        [-5.5846e-02,  6.1808e-02, -2.8262e-05,  ...,  6.7153e-02,
+         -2.7870e-02, -7.1521e-02],
+        [-2.5063e-02, -4.0118e-02,  7.0309e-02,  ..., -3.5769e-02,
+         -1.1718e-01,  7.5464e-02],
+        [-1.0742e-02, -9.3598e-02,  6.1329e-02,  ...,  4.9233e-02,
+         -1.2344e-01, -4.3237e-02]], device='cuda:0'), grad: tensor([[ 9.6634e-06,  7.7533e-08,  1.5721e-05,  ...,  1.4164e-05,
+          9.7556e-08,  1.2398e-05],
+        [ 2.0526e-06,  3.9837e-07,  1.7062e-05,  ...,  1.5780e-05,
+         -1.3085e-06,  3.6228e-06],
+        [ 8.8364e-06,  7.2550e-07, -6.6519e-05,  ..., -9.9897e-05,
+          3.7206e-07,  1.9699e-05],
+        ...,
+        [ 3.5353e-06, -1.7118e-06,  4.2021e-05,  ...,  4.0144e-05,
+          1.8510e-07,  1.3083e-05],
+        [ 3.1125e-06,  8.7777e-08,  5.0575e-05,  ...,  7.3612e-05,
+          1.8766e-07, -4.8503e-06],
+        [-4.8280e-05,  9.4669e-07, -1.5652e-04,  ..., -1.0288e-04,
+          3.8417e-08, -1.0014e-04]], device='cuda:0')
+Epoch 70, bias, value: tensor([-0.0163, -0.0143, -0.0261, -0.0243, -0.0101,  0.0049,  0.0071, -0.0233,
+        -0.0081,  0.0062], device='cuda:0'), grad: tensor([ 1.4114e-04,  2.3353e-04, -1.7042e-03,  2.2817e-04,  1.6201e-04,
+         4.4554e-05,  7.4744e-05,  4.4107e-04,  7.7963e-04, -3.9983e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 69, time 221.15, cls_loss 0.0042 cls_loss_mapping 0.0139 cls_loss_causal 0.6302 re_mapping 0.0103 re_causal 0.0303 /// teacc 99.03 lr 0.00010000
+Epoch 71, weight, value: tensor([[-1.0128e-01, -9.5025e-02,  6.6271e-02,  ..., -3.4453e-02,
+          3.5453e-02,  1.9490e-02],
+        [-4.4875e-02, -1.9944e-02, -2.8387e-02,  ..., -4.3862e-02,
+         -7.0604e-02, -3.8275e-02],
+        [ 3.9023e-02, -4.0689e-02, -1.9194e-02,  ..., -2.9701e-02,
+         -4.1942e-03, -1.8142e-01],
+        ...,
+        [-5.8773e-02,  6.2668e-02,  1.5886e-04,  ...,  6.7803e-02,
+         -2.7503e-02, -7.1914e-02],
+        [-2.5152e-02, -4.0960e-02,  7.0609e-02,  ..., -3.6206e-02,
+         -1.1760e-01,  7.6072e-02],
+        [-1.1733e-02, -9.4554e-02,  6.1799e-02,  ...,  4.9529e-02,
+         -1.2386e-01, -4.4147e-02]], device='cuda:0'), grad: tensor([[-3.9667e-05,  4.1761e-06, -2.1553e-04,  ..., -9.2527e-07,
+          0.0000e+00, -1.1730e-04],
+        [ 1.1874e-06,  7.5363e-06,  9.7752e-06,  ...,  5.8077e-06,
+          0.0000e+00, -1.0312e-05],
+        [ 8.1509e-06,  5.5432e-06,  3.7372e-05,  ...,  7.1637e-06,
+          0.0000e+00,  3.2157e-05],
+        ...,
+        [ 5.1782e-06, -1.0139e-04, -8.8155e-05,  ..., -5.9903e-05,
+          0.0000e+00,  6.8098e-06],
+        [-1.6034e-05,  2.6226e-05, -4.5270e-05,  ..., -5.3048e-06,
+          0.0000e+00, -7.4148e-05],
+        [ 3.0905e-05,  2.3305e-05,  2.0158e-04,  ...,  1.3709e-06,
+          0.0000e+00,  1.5104e-04]], device='cuda:0')
+Epoch 71, bias, value: tensor([-0.0158, -0.0146, -0.0259, -0.0252, -0.0101,  0.0058,  0.0073, -0.0232,
+        -0.0081,  0.0058], device='cuda:0'), grad: tensor([-3.5024e-04, -4.1485e-05,  9.1970e-05,  5.7399e-05,  3.3557e-05,
+         7.9155e-05, -5.0098e-05, -1.3900e-04, -2.5943e-05,  3.4428e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 70, time 221.02, cls_loss 0.0040 cls_loss_mapping 0.0122 cls_loss_causal 0.6702 re_mapping 0.0098 re_causal 0.0307 /// teacc 98.85 lr 0.00010000
+Epoch 72, weight, value: tensor([[-1.0383e-01, -9.6180e-02,  6.5927e-02,  ..., -3.6494e-02,
+          3.5432e-02,  1.9657e-02],
+        [-4.5761e-02, -1.9981e-02, -2.8816e-02,  ..., -4.4818e-02,
+         -7.0526e-02, -3.8264e-02],
+        [ 3.9723e-02, -4.1471e-02, -1.9756e-02,  ..., -3.0688e-02,
+         -4.1340e-03, -1.8225e-01],
+        ...,
+        [-6.2494e-02,  6.3408e-02, -7.6233e-05,  ...,  6.8104e-02,
+         -2.7516e-02, -7.2993e-02],
+        [-2.5614e-02, -4.1368e-02,  7.1568e-02,  ..., -3.5893e-02,
+         -1.1780e-01,  7.6823e-02],
+        [-1.1123e-02, -9.5848e-02,  6.2688e-02,  ...,  5.0189e-02,
+         -1.2414e-01, -4.4614e-02]], device='cuda:0'), grad: tensor([[ 9.2201e-07,  8.3074e-06, -7.1347e-05,  ...,  1.1548e-06,
+         -4.1956e-07, -4.2945e-05],
+        [ 1.0841e-06,  1.7822e-05,  8.2627e-06,  ...,  4.9025e-05,
+          1.6834e-07,  5.4613e-06],
+        [ 1.8198e-06,  3.8087e-05,  1.8492e-05,  ...,  3.3639e-06,
+         -1.1781e-07,  1.5005e-05],
+        ...,
+        [ 2.1011e-06,  3.0965e-05,  1.5914e-05,  ...,  4.3958e-06,
+          1.9884e-07,  6.2399e-06],
+        [-2.2948e-05,  8.3387e-05, -8.0690e-06,  ...,  2.7679e-06,
+          2.8871e-08, -1.7154e-04],
+        [-2.0877e-05,  3.9607e-05,  1.0163e-05,  ..., -5.3287e-05,
+          1.0314e-07,  2.7716e-05]], device='cuda:0')
+Epoch 72, bias, value: tensor([-0.0165, -0.0139, -0.0266, -0.0252, -0.0098,  0.0054,  0.0076, -0.0235,
+        -0.0077,  0.0060], device='cuda:0'), grad: tensor([-1.1939e-04,  3.4308e-04,  7.6294e-05, -4.5586e-04, -2.9516e-04,
+         2.3723e-04,  4.7684e-05,  1.1444e-04, -2.1517e-05,  7.2956e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 71, time 221.38, cls_loss 0.0029 cls_loss_mapping 0.0105 cls_loss_causal 0.6300 re_mapping 0.0102 re_causal 0.0316 /// teacc 98.96 lr 0.00010000
+Epoch 73, weight, value: tensor([[-1.0472e-01, -9.7094e-02,  6.6779e-02,  ..., -3.6808e-02,
+          3.5866e-02,  2.0704e-02],
+        [-4.6260e-02, -1.9846e-02, -2.9030e-02,  ..., -4.5041e-02,
+         -7.0563e-02, -3.8531e-02],
+        [ 3.9378e-02, -4.2009e-02, -2.0163e-02,  ..., -3.0945e-02,
+         -3.9697e-03, -1.8269e-01],
+        ...,
+        [-6.5326e-02,  6.3799e-02,  7.3742e-05,  ...,  6.8669e-02,
+         -2.7593e-02, -7.3399e-02],
+        [-2.5925e-02, -4.1601e-02,  7.1880e-02,  ..., -3.6257e-02,
+         -1.1793e-01,  7.7332e-02],
+        [-1.1195e-02, -9.6822e-02,  6.2974e-02,  ...,  5.0153e-02,
+         -1.2440e-01, -4.4980e-02]], device='cuda:0'), grad: tensor([[ 5.5879e-08,  3.8147e-06,  9.4948e-07,  ...,  9.6038e-06,
+          4.5868e-08,  4.9211e-06],
+        [ 5.3411e-07,  9.9242e-05,  4.6790e-05,  ...,  8.5711e-05,
+          1.3597e-07,  6.7353e-06],
+        [ 4.3074e-08,  8.4221e-05,  5.1677e-05,  ...,  2.9095e-06,
+         -4.2794e-07,  9.9316e-06],
+        ...,
+        [ 3.5367e-07, -2.2817e-04, -1.3697e-04,  ..., -1.2994e-04,
+          7.9162e-08,  3.1348e-06],
+        [ 7.7765e-08,  2.4110e-05,  1.8850e-05,  ...,  2.2829e-05,
+          3.5623e-08, -1.1146e-05],
+        [-1.1623e-06,  1.1042e-05, -5.0757e-07,  ...,  1.4216e-05,
+          1.0943e-08,  1.6475e-06]], device='cuda:0')
+Epoch 73, bias, value: tensor([-0.0158, -0.0137, -0.0265, -0.0254, -0.0096,  0.0055,  0.0076, -0.0236,
+        -0.0077,  0.0056], device='cuda:0'), grad: tensor([ 5.1349e-05,  1.9932e-04, -1.0353e-04,  9.8422e-06,  4.2510e-04,
+         1.0258e-04, -6.3467e-04, -1.4627e-04,  4.9919e-05,  4.5598e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 72, time 220.79, cls_loss 0.0034 cls_loss_mapping 0.0105 cls_loss_causal 0.6402 re_mapping 0.0099 re_causal 0.0318 /// teacc 98.96 lr 0.00010000
+Epoch 74, weight, value: tensor([[-1.0622e-01, -9.8084e-02,  6.7103e-02,  ..., -3.7010e-02,
+          3.5898e-02,  2.0848e-02],
+        [-4.6850e-02, -2.0325e-02, -2.9660e-02,  ..., -4.5662e-02,
+         -7.0578e-02, -3.8688e-02],
+        [ 3.9122e-02, -4.2322e-02, -2.0700e-02,  ..., -3.1431e-02,
+         -3.8751e-03, -1.8379e-01],
+        ...,
+        [-6.5980e-02,  6.4523e-02,  7.6562e-05,  ...,  6.9139e-02,
+         -2.7647e-02, -7.3702e-02],
+        [-2.5934e-02, -4.2124e-02,  7.2241e-02,  ..., -3.6740e-02,
+         -1.1800e-01,  7.8442e-02],
+        [-1.0924e-02, -9.7798e-02,  6.3615e-02,  ...,  5.0389e-02,
+         -1.2446e-01, -4.5077e-02]], device='cuda:0'), grad: tensor([[ 8.1491e-07,  8.2701e-07, -1.5783e-04,  ..., -1.2696e-05,
+         -4.8429e-05, -1.0395e-04],
+        [ 3.1125e-06,  6.3479e-06,  4.0419e-06,  ...,  7.9125e-06,
+          9.8161e-07,  3.0212e-06],
+        [ 1.7155e-06,  2.2545e-05,  9.9838e-05,  ...,  3.0667e-05,
+          2.3216e-05,  7.4863e-05],
+        ...,
+        [ 7.8371e-07, -4.6939e-05,  9.9763e-06,  ..., -3.7044e-05,
+          1.0990e-05,  1.5289e-05],
+        [ 2.9262e-06,  2.6915e-06,  5.1707e-06,  ...,  1.0645e-06,
+          9.1270e-07,  8.4341e-06],
+        [ 4.3884e-06,  8.9854e-06,  1.1161e-05,  ...,  1.0498e-05,
+          3.7495e-06,  9.6858e-06]], device='cuda:0')
+Epoch 74, bias, value: tensor([-0.0154, -0.0140, -0.0266, -0.0257, -0.0094,  0.0054,  0.0070, -0.0235,
+        -0.0070,  0.0055], device='cuda:0'), grad: tensor([-3.8552e-04,  7.0572e-05,  3.4356e-04,  4.8071e-05, -5.1558e-05,
+        -6.3926e-06, -1.1837e-04, -5.2191e-06,  3.0965e-05,  7.3433e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 73, time 221.18, cls_loss 0.0044 cls_loss_mapping 0.0136 cls_loss_causal 0.5990 re_mapping 0.0093 re_causal 0.0275 /// teacc 98.93 lr 0.00010000
+Epoch 75, weight, value: tensor([[-0.1078, -0.0998,  0.0673,  ..., -0.0377,  0.0358,  0.0214],
+        [-0.0468, -0.0204, -0.0301,  ..., -0.0460, -0.0706, -0.0382],
+        [ 0.0393, -0.0429, -0.0208,  ..., -0.0320, -0.0035, -0.1850],
+        ...,
+        [-0.0673,  0.0662,  0.0021,  ...,  0.0711, -0.0280, -0.0727],
+        [-0.0272, -0.0434,  0.0721,  ..., -0.0375, -0.1182,  0.0786],
+        [-0.0099, -0.1006,  0.0633,  ...,  0.0499, -0.1247, -0.0460]],
+       device='cuda:0'), grad: tensor([[ 7.0967e-07,  1.2731e-06, -1.2591e-05,  ...,  1.9465e-06,
+          1.0710e-08, -1.3702e-05],
+        [ 1.4789e-06,  8.8215e-06,  9.3365e-07,  ...,  5.6326e-06,
+          1.7276e-07,  3.6359e-06],
+        [ 6.0536e-07,  1.3039e-05,  1.1511e-05,  ...,  7.0781e-06,
+          1.5530e-07,  1.5438e-05],
+        ...,
+        [ 7.0296e-06, -2.0951e-05,  5.7012e-05,  ...,  1.9029e-05,
+         -8.7777e-07,  8.5756e-06],
+        [ 1.7826e-06,  6.4448e-07, -1.7896e-05,  ..., -4.1015e-06,
+          2.0256e-08, -1.7926e-05],
+        [ 7.0743e-06, -3.0547e-05, -3.0637e-05,  ...,  9.0837e-05,
+          1.3039e-08,  1.0520e-05]], device='cuda:0')
+Epoch 75, bias, value: tensor([-0.0158, -0.0137, -0.0263, -0.0247, -0.0099,  0.0040,  0.0076, -0.0221,
+        -0.0077,  0.0046], device='cuda:0'), grad: tensor([-1.9521e-05, -3.2485e-06,  4.9204e-05,  4.3303e-05, -2.5463e-04,
+         3.3945e-05, -7.7307e-05,  4.6074e-05, -1.0580e-06,  1.8299e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 74, time 220.59, cls_loss 0.0033 cls_loss_mapping 0.0101 cls_loss_causal 0.6326 re_mapping 0.0092 re_causal 0.0293 /// teacc 98.90 lr 0.00010000
+Epoch 76, weight, value: tensor([[-0.1085, -0.1008,  0.0676,  ..., -0.0383,  0.0359,  0.0224],
+        [-0.0479, -0.0204, -0.0307,  ..., -0.0469, -0.0703, -0.0379],
+        [ 0.0403, -0.0425, -0.0214,  ..., -0.0323, -0.0036, -0.1860],
+        ...,
+        [-0.0693,  0.0664,  0.0020,  ...,  0.0716, -0.0282, -0.0735],
+        [-0.0285, -0.0440,  0.0722,  ..., -0.0380, -0.1184,  0.0786],
+        [-0.0101, -0.1014,  0.0641,  ...,  0.0501, -0.1250, -0.0460]],
+       device='cuda:0'), grad: tensor([[-8.6799e-06,  9.8627e-07, -1.7092e-05,  ...,  3.2037e-06,
+          6.6403e-07, -7.4446e-05],
+        [ 8.3586e-07, -1.8165e-05,  1.4165e-06,  ..., -1.4706e-06,
+         -1.2070e-05, -2.9318e-06],
+        [ 1.1036e-06,  5.0887e-06,  4.5411e-06,  ...,  5.0776e-06,
+         -2.0256e-07,  7.2867e-06],
+        ...,
+        [ 3.6340e-06, -2.0862e-07, -9.2248e-07,  ...,  4.6864e-06,
+          6.3367e-06,  5.9046e-06],
+        [ 7.5437e-06,  1.4715e-06, -9.9540e-06,  ...,  1.1377e-05,
+          2.1197e-06, -4.0978e-06],
+        [-3.3919e-06,  3.6247e-06, -1.3530e-05,  ..., -9.7007e-06,
+          1.8161e-07,  8.3596e-06]], device='cuda:0')
+Epoch 76, bias, value: tensor([-0.0151, -0.0135, -0.0259, -0.0249, -0.0095,  0.0043,  0.0072, -0.0226,
+        -0.0081,  0.0045], device='cuda:0'), grad: tensor([-8.6725e-05, -1.6594e-04,  2.5973e-05,  2.6539e-05, -9.2626e-05,
+         8.2493e-05,  3.9995e-05,  1.2612e-04,  4.2826e-05,  1.4910e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 75, time 220.28, cls_loss 0.0050 cls_loss_mapping 0.0130 cls_loss_causal 0.6295 re_mapping 0.0091 re_causal 0.0292 /// teacc 98.90 lr 0.00010000
+Epoch 77, weight, value: tensor([[-0.1096, -0.1016,  0.0675,  ..., -0.0389,  0.0359,  0.0207],
+        [-0.0496, -0.0199, -0.0293,  ..., -0.0449, -0.0701, -0.0381],
+        [ 0.0401, -0.0447, -0.0237,  ..., -0.0329, -0.0036, -0.1892],
+        ...,
+        [-0.0706,  0.0669,  0.0015,  ...,  0.0710, -0.0280, -0.0729],
+        [-0.0316, -0.0421,  0.0733,  ..., -0.0385, -0.1186,  0.0775],
+        [-0.0090, -0.1022,  0.0648,  ...,  0.0503, -0.1251, -0.0461]],
+       device='cuda:0'), grad: tensor([[ 4.4182e-06,  3.7029e-06,  8.2478e-06,  ...,  7.6666e-06,
+          5.0757e-08, -1.9111e-06],
+        [ 1.0014e-05,  4.2580e-06,  2.6941e-05,  ...,  1.4380e-05,
+          4.7497e-08,  2.7958e-06],
+        [ 8.9360e-07,  3.0398e-06,  3.6862e-06,  ...,  1.2899e-06,
+         -1.7053e-06,  4.4517e-06],
+        ...,
+        [ 4.1842e-05,  2.7001e-05,  1.4150e-04,  ...,  7.5519e-05,
+          9.0711e-07,  5.6848e-06],
+        [-2.2769e-05,  2.4159e-06,  7.2941e-06,  ...,  1.2539e-05,
+          4.5355e-07, -1.0157e-04],
+        [-8.5831e-05, -6.8247e-05, -3.2806e-04,  ..., -1.8466e-04,
+          4.8894e-09,  6.0536e-06]], device='cuda:0')
+Epoch 77, bias, value: tensor([-0.0164, -0.0131, -0.0273, -0.0258, -0.0093,  0.0058,  0.0086, -0.0227,
+        -0.0082,  0.0045], device='cuda:0'), grad: tensor([ 2.4438e-05,  2.2888e-05,  3.5968e-06,  1.2350e-04,  3.1292e-05,
+         1.7726e-04,  3.6448e-05,  3.1805e-04, -8.8692e-05, -6.4898e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 76, time 220.71, cls_loss 0.0032 cls_loss_mapping 0.0093 cls_loss_causal 0.5902 re_mapping 0.0098 re_causal 0.0301 /// teacc 98.88 lr 0.00010000
+Epoch 78, weight, value: tensor([[-0.1101, -0.1025,  0.0678,  ..., -0.0393,  0.0359,  0.0209],
+        [-0.0504, -0.0203, -0.0302,  ..., -0.0458, -0.0703, -0.0385],
+        [ 0.0400, -0.0452, -0.0241,  ..., -0.0333, -0.0030, -0.1895],
+        ...,
+        [-0.0708,  0.0671,  0.0018,  ...,  0.0717, -0.0282, -0.0731],
+        [-0.0319, -0.0426,  0.0739,  ..., -0.0386, -0.1188,  0.0782],
+        [-0.0082, -0.1031,  0.0653,  ...,  0.0506, -0.1255, -0.0462]],
+       device='cuda:0'), grad: tensor([[ 2.7404e-07,  1.5542e-05,  2.7299e-05,  ...,  2.3078e-06,
+          1.1824e-05,  3.3796e-05],
+        [ 4.6240e-07,  6.9499e-05,  3.1710e-05,  ...,  3.4243e-05,
+          2.6412e-06,  6.3330e-06],
+        [ 5.9605e-08, -5.7876e-05,  4.9710e-05,  ...,  4.5329e-05,
+         -1.5199e-04,  1.8016e-05],
+        ...,
+        [ 9.3225e-07, -2.6345e-04, -1.0407e-04,  ..., -1.3864e-04,
+          1.8045e-05,  4.5523e-06],
+        [ 3.2000e-06,  2.8908e-05, -1.1230e-04,  ...,  4.5598e-06,
+          2.1726e-05, -1.4293e-04],
+        [-5.8487e-06,  1.3582e-05, -1.7196e-05,  ..., -1.0751e-05,
+          9.7416e-07,  8.6948e-06]], device='cuda:0')
+Epoch 78, bias, value: tensor([-0.0162, -0.0137, -0.0267, -0.0253, -0.0092,  0.0050,  0.0086, -0.0227,
+        -0.0081,  0.0046], device='cuda:0'), grad: tensor([ 1.1289e-04,  1.2720e-04, -3.6693e-04,  5.8460e-04,  5.5879e-05,
+         8.1956e-06,  1.9133e-05, -3.6001e-04, -1.7643e-04, -4.9211e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 77, time 220.51, cls_loss 0.0033 cls_loss_mapping 0.0126 cls_loss_causal 0.6020 re_mapping 0.0096 re_causal 0.0293 /// teacc 99.01 lr 0.00010000
+Epoch 79, weight, value: tensor([[-0.1123, -0.1038,  0.0674,  ..., -0.0405,  0.0361,  0.0211],
+        [-0.0514, -0.0207, -0.0307,  ..., -0.0463, -0.0712, -0.0389],
+        [ 0.0400, -0.0453, -0.0245,  ..., -0.0336, -0.0024, -0.1901],
+        ...,
+        [-0.0723,  0.0681,  0.0023,  ...,  0.0724, -0.0277, -0.0734],
+        [-0.0331, -0.0432,  0.0741,  ..., -0.0389, -0.1194,  0.0784],
+        [-0.0074, -0.1048,  0.0661,  ...,  0.0507, -0.1259, -0.0464]],
+       device='cuda:0'), grad: tensor([[ 1.4296e-07,  7.6648e-07, -4.8317e-06,  ...,  4.9686e-07,
+         -8.2422e-07, -2.5239e-06],
+        [ 3.8533e-07,  6.2361e-06,  2.0377e-06,  ...,  3.8706e-06,
+          9.5926e-08, -5.0589e-06],
+        [ 4.0862e-07,  1.0297e-05,  4.1053e-06,  ...,  2.8946e-06,
+          3.8673e-07,  3.0342e-06],
+        ...,
+        [ 2.7614e-07, -1.5222e-05, -1.1273e-05,  ..., -2.3320e-05,
+          4.2166e-07,  2.6282e-06],
+        [ 2.6282e-06,  6.1169e-06,  6.7465e-06,  ...,  6.1952e-06,
+          7.6322e-07,  6.9328e-06],
+        [-1.8403e-06,  1.3672e-05, -2.7977e-06,  ..., -4.3213e-07,
+          2.0326e-07,  1.0408e-07]], device='cuda:0')
+Epoch 79, bias, value: tensor([-0.0168, -0.0141, -0.0265, -0.0252, -0.0093,  0.0052,  0.0087, -0.0223,
+        -0.0083,  0.0047], device='cuda:0'), grad: tensor([-6.4410e-06, -1.7518e-06,  1.7568e-05, -5.4896e-05,  6.5900e-06,
+         2.9638e-05, -1.4208e-05, -1.6540e-05,  2.5243e-05,  1.4775e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 78, time 220.98, cls_loss 0.0034 cls_loss_mapping 0.0095 cls_loss_causal 0.5775 re_mapping 0.0090 re_causal 0.0276 /// teacc 98.96 lr 0.00010000
+Epoch 80, weight, value: tensor([[-0.1131, -0.1047,  0.0676,  ..., -0.0410,  0.0362,  0.0214],
+        [-0.0526, -0.0206, -0.0312,  ..., -0.0467, -0.0718, -0.0380],
+        [ 0.0396, -0.0456, -0.0247,  ..., -0.0337, -0.0021, -0.1907],
+        ...,
+        [-0.0735,  0.0678,  0.0023,  ...,  0.0726, -0.0278, -0.0738],
+        [-0.0338, -0.0437,  0.0742,  ..., -0.0392, -0.1197,  0.0780],
+        [-0.0063, -0.1059,  0.0668,  ...,  0.0513, -0.1266, -0.0465]],
+       device='cuda:0'), grad: tensor([[ 3.0873e-07,  1.0915e-06, -5.1521e-06,  ...,  9.9279e-07,
+         -8.2422e-08, -1.1675e-05],
+        [ 6.1933e-08,  1.3098e-05,  5.5432e-06,  ...,  1.0014e-05,
+          1.8775e-06,  7.2300e-05],
+        [-7.8185e-07,  2.6319e-06,  1.1791e-06,  ...,  8.0094e-07,
+         -1.6809e-05, -9.1493e-05],
+        ...,
+        [ 5.7556e-07, -3.5077e-05, -1.2867e-05,  ..., -2.6822e-05,
+          1.0477e-06,  7.6182e-07],
+        [ 7.7765e-07,  4.3809e-06,  4.3772e-08,  ...,  3.1982e-06,
+          9.2387e-07,  2.1860e-05],
+        [-2.7590e-07,  5.6624e-06, -3.7104e-06,  ..., -6.2771e-07,
+          6.3935e-07,  2.9355e-06]], device='cuda:0')
+Epoch 80, bias, value: tensor([-0.0171, -0.0139, -0.0266, -0.0241, -0.0097,  0.0051,  0.0091, -0.0226,
+        -0.0091,  0.0050], device='cuda:0'), grad: tensor([-4.3325e-06,  6.6519e-04, -8.3733e-04,  5.3979e-06,  3.1330e-06,
+         4.4823e-05,  1.6749e-05, -4.3303e-05,  1.3638e-04,  1.3039e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 79, time 220.47, cls_loss 0.0042 cls_loss_mapping 0.0111 cls_loss_causal 0.6112 re_mapping 0.0090 re_causal 0.0272 /// teacc 98.86 lr 0.00010000
+Epoch 81, weight, value: tensor([[-0.1132, -0.1052,  0.0684,  ..., -0.0415,  0.0368,  0.0224],
+        [-0.0532, -0.0213, -0.0320,  ..., -0.0472, -0.0717, -0.0381],
+        [ 0.0394, -0.0465, -0.0255,  ..., -0.0335, -0.0010, -0.1917],
+        ...,
+        [-0.0745,  0.0693,  0.0024,  ...,  0.0732, -0.0282, -0.0744],
+        [-0.0342, -0.0441,  0.0746,  ..., -0.0396, -0.1205,  0.0785],
+        [-0.0064, -0.1063,  0.0678,  ...,  0.0515, -0.1269, -0.0473]],
+       device='cuda:0'), grad: tensor([[-8.4098e-07,  1.5721e-05, -2.5943e-05,  ...,  3.3174e-06,
+         -4.2990e-06, -2.4796e-05],
+        [-1.5569e-04, -3.0708e-03, -1.5659e-03,  ..., -4.8518e-04,
+          6.9756e-07, -1.0565e-05],
+        [ 1.6373e-06,  5.8556e-04,  1.8179e-05,  ...,  1.8328e-05,
+         -4.0568e-06,  1.1146e-05],
+        ...,
+        [ 8.8274e-05,  8.5354e-04,  8.8406e-04,  ...,  2.1017e-04,
+          1.1111e-06,  9.1419e-06],
+        [-3.0901e-06,  1.0394e-05, -2.0549e-05,  ..., -3.6545e-06,
+          2.5742e-06, -2.8953e-05],
+        [ 6.4850e-05,  1.4420e-03,  6.4659e-04,  ...,  2.3103e-04,
+          2.3888e-07,  2.5004e-05]], device='cuda:0')
+Epoch 81, bias, value: tensor([-0.0165, -0.0153, -0.0253, -0.0249, -0.0095,  0.0047,  0.0088, -0.0222,
+        -0.0089,  0.0054], device='cuda:0'), grad: tensor([-1.9699e-05, -8.4839e-03,  7.6628e-04,  2.4486e-04,  1.1927e-04,
+         3.3647e-05,  1.3381e-05,  3.5477e-03,  1.2200e-06,  3.7804e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 80, time 220.65, cls_loss 0.0032 cls_loss_mapping 0.0105 cls_loss_causal 0.6311 re_mapping 0.0091 re_causal 0.0287 /// teacc 98.89 lr 0.00010000
+Epoch 82, weight, value: tensor([[-0.1150, -0.1059,  0.0685,  ..., -0.0421,  0.0365,  0.0224],
+        [-0.0537, -0.0215, -0.0321,  ..., -0.0477, -0.0719, -0.0380],
+        [ 0.0381, -0.0472, -0.0264,  ..., -0.0341, -0.0010, -0.1939],
+        ...,
+        [-0.0756,  0.0704,  0.0025,  ...,  0.0740, -0.0288, -0.0750],
+        [-0.0335, -0.0443,  0.0760,  ..., -0.0390, -0.1198,  0.0802],
+        [-0.0059, -0.1076,  0.0679,  ...,  0.0515, -0.1292, -0.0484]],
+       device='cuda:0'), grad: tensor([[ 3.9525e-06,  6.5565e-07, -2.9981e-05,  ...,  1.6224e-06,
+         -5.3179e-07, -2.2411e-05],
+        [ 7.5996e-07,  1.3364e-07,  2.3358e-06,  ...,  8.4490e-06,
+         -3.0827e-07, -4.8019e-06],
+        [-2.3887e-05,  3.8370e-06,  1.2465e-05,  ...,  4.0121e-06,
+          1.6275e-07,  1.0967e-05],
+        ...,
+        [ 9.1922e-07, -1.7017e-05,  4.9397e-06,  ...,  2.4736e-06,
+          2.9011e-07,  7.9051e-06],
+        [ 1.4894e-05,  1.0021e-06, -7.0371e-06,  ...,  5.0366e-06,
+          5.2154e-08, -1.0237e-05],
+        [ 7.9302e-07,  3.7700e-06, -5.5879e-06,  ...,  1.5751e-05,
+          7.8231e-08,  6.1505e-06]], device='cuda:0')
+Epoch 82, bias, value: tensor([-0.0168, -0.0151, -0.0261, -0.0258, -0.0094,  0.0049,  0.0084, -0.0218,
+        -0.0071,  0.0048], device='cuda:0'), grad: tensor([-6.1035e-05,  1.6466e-05, -1.0848e-04,  3.3677e-05, -1.4806e-04,
+         2.8566e-05,  5.1185e-06,  4.4912e-05,  8.6963e-05,  1.0163e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 81, time 220.60, cls_loss 0.0034 cls_loss_mapping 0.0094 cls_loss_causal 0.5551 re_mapping 0.0092 re_causal 0.0262 /// teacc 98.89 lr 0.00010000
+Epoch 83, weight, value: tensor([[-0.1156, -0.1067,  0.0689,  ..., -0.0425,  0.0365,  0.0226],
+        [-0.0541, -0.0216, -0.0323,  ..., -0.0480, -0.0716, -0.0379],
+        [ 0.0379, -0.0476, -0.0267,  ..., -0.0345, -0.0008, -0.1944],
+        ...,
+        [-0.0766,  0.0708,  0.0025,  ...,  0.0742, -0.0289, -0.0755],
+        [-0.0340, -0.0447,  0.0762,  ..., -0.0394, -0.1200,  0.0804],
+        [-0.0057, -0.1083,  0.0688,  ...,  0.0523, -0.1293, -0.0487]],
+       device='cuda:0'), grad: tensor([[ 1.6671e-07,  1.3607e-06, -1.2882e-05,  ...,  9.5740e-07,
+          2.9765e-06,  2.6412e-06],
+        [ 1.1385e-07,  2.5108e-06, -2.1402e-06,  ...,  2.1085e-06,
+          1.3621e-07, -7.6368e-06],
+        [ 1.4715e-07,  6.6273e-06,  3.7700e-06,  ...,  2.5574e-06,
+         -5.6848e-06,  1.2018e-05],
+        ...,
+        [ 2.8731e-07, -2.7671e-05, -8.6874e-06,  ..., -2.3350e-05,
+          4.9919e-07,  3.4850e-06],
+        [ 1.0490e-05,  4.9844e-06, -5.9903e-06,  ...,  9.3598e-07,
+          1.7509e-07,  2.6435e-05],
+        [-1.1530e-06,  6.8247e-06, -4.7009e-07,  ..., -1.3970e-07,
+          1.4668e-07,  9.8944e-06]], device='cuda:0')
+Epoch 83, bias, value: tensor([-0.0167, -0.0149, -0.0260, -0.0253, -0.0094,  0.0042,  0.0090, -0.0221,
+        -0.0075,  0.0050], device='cuda:0'), grad: tensor([ 6.5207e-05, -3.8326e-05,  4.5486e-06,  8.8587e-06,  5.0485e-05,
+         1.4162e-04, -2.9874e-04, -2.6450e-05,  6.7890e-05,  2.4796e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 82, time 220.69, cls_loss 0.0029 cls_loss_mapping 0.0110 cls_loss_causal 0.5669 re_mapping 0.0090 re_causal 0.0272 /// teacc 98.92 lr 0.00010000
+Epoch 84, weight, value: tensor([[-1.1605e-01, -1.0887e-01,  6.9048e-02,  ..., -4.3175e-02,
+          3.6572e-02,  2.2682e-02],
+        [-5.4631e-02, -2.0724e-02, -3.2177e-02,  ..., -4.8267e-02,
+         -7.1158e-02, -3.7393e-02],
+        [ 3.7713e-02, -4.9078e-02, -2.7272e-02,  ..., -3.5733e-02,
+          1.1970e-04, -1.9499e-01],
+        ...,
+        [-7.6891e-02,  7.1293e-02,  2.4593e-03,  ...,  7.5045e-02,
+         -2.8202e-02, -7.6081e-02],
+        [-3.4615e-02, -4.5182e-02,  7.6742e-02,  ..., -3.9170e-02,
+         -1.2020e-01,  8.0557e-02],
+        [-6.3753e-03, -1.0903e-01,  6.9221e-02,  ...,  5.2737e-02,
+         -1.2944e-01, -4.9051e-02]], device='cuda:0'), grad: tensor([[ 5.1223e-09,  1.0128e-07, -5.8254e-07,  ...,  4.7428e-07,
+          1.8161e-08, -3.5460e-07],
+        [ 1.0943e-08,  7.7579e-07,  7.7020e-07,  ...,  8.7358e-07,
+          4.6566e-10,  9.3132e-08],
+        [ 2.3283e-09,  3.2373e-06,  1.5274e-06,  ...,  1.1809e-06,
+         -2.4913e-08,  1.4529e-06],
+        ...,
+        [ 8.8941e-08, -2.2873e-06,  5.2201e-07,  ..., -1.4026e-06,
+          5.1223e-09,  7.0501e-07],
+        [ 4.7963e-08, -9.5461e-07, -1.1483e-06,  ...,  2.3972e-06,
+          2.0023e-08, -4.8578e-06],
+        [-2.8848e-07,  7.1619e-07, -5.2482e-05,  ..., -4.5419e-05,
+          2.5611e-09,  8.8615e-07]], device='cuda:0')
+Epoch 84, bias, value: tensor([-0.0166, -0.0146, -0.0263, -0.0255, -0.0099,  0.0044,  0.0091, -0.0220,
+        -0.0076,  0.0052], device='cuda:0'), grad: tensor([ 3.3062e-06,  1.9115e-07,  3.2876e-06,  1.1688e-06,  1.0478e-04,
+         9.1866e-06, -1.1154e-05,  1.9409e-06,  2.3842e-06, -1.1533e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 83, time 220.94, cls_loss 0.0027 cls_loss_mapping 0.0101 cls_loss_causal 0.5791 re_mapping 0.0091 re_causal 0.0271 /// teacc 98.86 lr 0.00010000
+Epoch 85, weight, value: tensor([[-0.1167, -0.1092,  0.0692,  ..., -0.0437,  0.0365,  0.0232],
+        [-0.0547, -0.0210, -0.0323,  ..., -0.0486, -0.0710, -0.0373],
+        [ 0.0379, -0.0496, -0.0278,  ..., -0.0362,  0.0006, -0.1962],
+        ...,
+        [-0.0783,  0.0720,  0.0025,  ...,  0.0755, -0.0284, -0.0767],
+        [-0.0345, -0.0454,  0.0777,  ..., -0.0388, -0.1204,  0.0815],
+        [-0.0060, -0.1096,  0.0694,  ...,  0.0524, -0.1298, -0.0499]],
+       device='cuda:0'), grad: tensor([[-1.0366e-06,  1.2212e-05, -3.5852e-05,  ...,  8.6501e-06,
+          2.3283e-10, -2.0161e-05],
+        [ 5.5833e-07,  4.6529e-06,  2.7753e-06,  ...,  4.0866e-06,
+          6.9849e-10, -4.3027e-06],
+        [ 1.3458e-06,  3.3770e-06,  1.5497e-05,  ...,  3.7402e-06,
+          6.9849e-10,  1.2554e-05],
+        ...,
+        [-3.7160e-06, -4.1574e-05, -1.4625e-05,  ..., -1.7956e-05,
+          1.3970e-09, -6.8620e-06],
+        [ 1.6466e-05,  1.1623e-06,  2.0787e-05,  ...,  2.1607e-05,
+          4.6566e-10,  1.0937e-05],
+        [-2.1815e-05,  4.1015e-06, -2.7984e-05,  ..., -5.5432e-06,
+          1.6298e-09, -1.2308e-05]], device='cuda:0')
+Epoch 85, bias, value: tensor([-0.0167, -0.0147, -0.0259, -0.0260, -0.0095,  0.0039,  0.0098, -0.0221,
+        -0.0069,  0.0046], device='cuda:0'), grad: tensor([-8.1837e-05,  5.9009e-06,  4.3511e-05,  5.8591e-05, -6.6638e-05,
+         1.3880e-05,  4.1239e-06, -4.7386e-05,  5.7936e-05,  1.1690e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 84, time 221.02, cls_loss 0.0030 cls_loss_mapping 0.0090 cls_loss_causal 0.5993 re_mapping 0.0089 re_causal 0.0276 /// teacc 99.00 lr 0.00010000
+Epoch 86, weight, value: tensor([[-0.1174, -0.1091,  0.0698,  ..., -0.0441,  0.0365,  0.0243],
+        [-0.0548, -0.0211, -0.0325,  ..., -0.0490, -0.0709, -0.0372],
+        [ 0.0377, -0.0490, -0.0267,  ..., -0.0368,  0.0032, -0.1969],
+        ...,
+        [-0.0772,  0.0727,  0.0029,  ...,  0.0773, -0.0282, -0.0773],
+        [-0.0351, -0.0467,  0.0771,  ..., -0.0394, -0.1234,  0.0819],
+        [-0.0053, -0.1113,  0.0701,  ...,  0.0525, -0.1300, -0.0502]],
+       device='cuda:0'), grad: tensor([[ 1.5171e-06,  2.0233e-07, -4.9211e-06,  ...,  1.3143e-05,
+          4.9137e-06, -7.3388e-06],
+        [ 6.8126e-07,  1.4575e-07,  4.4033e-06,  ...,  2.3600e-06,
+          7.5810e-07,  1.6680e-06],
+        [-1.8124e-06,  2.0079e-06, -1.5453e-05,  ..., -4.4435e-05,
+         -1.5065e-05,  2.9802e-06],
+        ...,
+        [ 7.9675e-07, -4.2617e-06,  8.5607e-06,  ...,  1.9386e-05,
+          9.5554e-07,  3.2559e-06],
+        [ 2.7735e-06,  3.1665e-07,  2.9281e-06,  ...,  9.0525e-06,
+          3.6750e-06, -6.9775e-06],
+        [-3.2876e-06,  1.6009e-06, -2.0579e-05,  ..., -9.8944e-06,
+          8.1398e-07,  1.9595e-06]], device='cuda:0')
+Epoch 86, bias, value: tensor([-0.0155, -0.0145, -0.0256, -0.0265, -0.0104,  0.0034,  0.0097, -0.0213,
+        -0.0073,  0.0046], device='cuda:0'), grad: tensor([ 4.3243e-05,  4.2133e-06, -1.8573e-04,  9.9540e-06,  6.0610e-06,
+         9.6619e-05, -6.8367e-05,  7.0512e-05,  3.4630e-05, -1.1630e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 85, time 220.61, cls_loss 0.0032 cls_loss_mapping 0.0099 cls_loss_causal 0.5822 re_mapping 0.0090 re_causal 0.0263 /// teacc 98.91 lr 0.00010000
+Epoch 87, weight, value: tensor([[-0.1201, -0.1115,  0.0699,  ..., -0.0444,  0.0363,  0.0239],
+        [-0.0552, -0.0207, -0.0326,  ..., -0.0489, -0.0713, -0.0377],
+        [ 0.0368, -0.0493, -0.0271,  ..., -0.0373,  0.0034, -0.1981],
+        ...,
+        [-0.0781,  0.0730,  0.0033,  ...,  0.0780, -0.0276, -0.0780],
+        [-0.0350, -0.0471,  0.0777,  ..., -0.0395, -0.1236,  0.0828],
+        [-0.0036, -0.1131,  0.0700,  ...,  0.0524, -0.1303, -0.0505]],
+       device='cuda:0'), grad: tensor([[-3.3760e-08,  4.9686e-07,  1.5823e-06,  ...,  6.5565e-07,
+          4.0680e-06,  2.6166e-05],
+        [ 1.3388e-07,  3.0287e-06,  4.6372e-04,  ...,  2.6915e-06,
+          3.3691e-07,  1.1606e-03],
+        [ 7.0315e-08,  2.0768e-06,  3.7503e-04,  ...,  1.0068e-06,
+          5.6438e-07,  9.3889e-04],
+        ...,
+        [ 3.9442e-07, -2.7075e-05,  1.8165e-05,  ..., -2.3142e-05,
+          1.2876e-07,  6.4552e-05],
+        [ 1.1805e-07,  4.6217e-07, -9.0790e-04,  ...,  6.3144e-07,
+          3.9823e-06, -2.2640e-03],
+        [-7.2643e-07,  1.4991e-05,  4.8019e-06,  ...,  7.5623e-06,
+          6.6403e-07,  9.7156e-06]], device='cuda:0')
+Epoch 87, bias, value: tensor([-0.0161, -0.0139, -0.0260, -0.0264, -0.0104,  0.0032,  0.0102, -0.0215,
+        -0.0069,  0.0045], device='cuda:0'), grad: tensor([ 7.2777e-05,  2.1763e-03,  1.7605e-03,  4.0680e-05,  8.7321e-06,
+         7.3910e-05, -6.0111e-05,  8.4400e-05, -4.2000e-03,  4.3720e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 86, time 220.47, cls_loss 0.0029 cls_loss_mapping 0.0108 cls_loss_causal 0.5926 re_mapping 0.0082 re_causal 0.0251 /// teacc 98.97 lr 0.00010000
+Epoch 88, weight, value: tensor([[-0.1209, -0.1122,  0.0702,  ..., -0.0446,  0.0363,  0.0235],
+        [-0.0557, -0.0203, -0.0332,  ..., -0.0496, -0.0714, -0.0383],
+        [ 0.0364, -0.0498, -0.0279,  ..., -0.0366,  0.0034, -0.2001],
+        ...,
+        [-0.0790,  0.0734,  0.0033,  ...,  0.0784, -0.0268, -0.0788],
+        [-0.0355, -0.0473,  0.0783,  ..., -0.0401, -0.1237,  0.0837],
+        [-0.0036, -0.1143,  0.0706,  ...,  0.0524, -0.1307, -0.0511]],
+       device='cuda:0'), grad: tensor([[ 1.5949e-07,  1.0364e-05, -7.0818e-06,  ...,  3.9581e-07,
+          5.5647e-08, -8.9705e-06],
+        [ 1.0221e-07,  5.4911e-06,  2.4401e-06,  ...,  3.3788e-06,
+          1.3104e-06,  2.3525e-06],
+        [ 9.3598e-07,  9.4175e-05,  2.9653e-06,  ...,  2.2724e-06,
+          3.4668e-07,  4.8131e-06],
+        ...,
+        [ 4.9081e-07,  8.4639e-06,  2.7847e-07,  ...,  1.8626e-08,
+          1.0878e-06,  1.8394e-06],
+        [ 4.9062e-06,  1.8589e-06, -1.5214e-05,  ..., -6.5267e-06,
+          1.1083e-06, -1.3843e-05],
+        [ 5.5879e-07,  3.5577e-06,  6.4373e-06,  ...,  2.6040e-06,
+          3.1688e-07,  9.8869e-06]], device='cuda:0')
+Epoch 88, bias, value: tensor([-0.0167, -0.0140, -0.0263, -0.0265, -0.0100,  0.0038,  0.0106, -0.0218,
+        -0.0064,  0.0040], device='cuda:0'), grad: tensor([ 7.9125e-06,  2.7239e-05,  2.7418e-04, -3.8600e-04, -2.4721e-05,
+         4.4465e-05, -4.5355e-07,  3.5971e-05, -6.1765e-06,  2.6971e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 87, time 220.13, cls_loss 0.0029 cls_loss_mapping 0.0103 cls_loss_causal 0.6152 re_mapping 0.0084 re_causal 0.0263 /// teacc 98.98 lr 0.00010000
+Epoch 89, weight, value: tensor([[-0.1219, -0.1127,  0.0708,  ..., -0.0450,  0.0364,  0.0236],
+        [-0.0564, -0.0209, -0.0336,  ..., -0.0506, -0.0722, -0.0383],
+        [ 0.0363, -0.0505, -0.0281,  ..., -0.0373,  0.0040, -0.2011],
+        ...,
+        [-0.0812,  0.0744,  0.0033,  ...,  0.0791, -0.0269, -0.0793],
+        [-0.0365, -0.0477,  0.0785,  ..., -0.0405, -0.1239,  0.0846],
+        [-0.0019, -0.1149,  0.0713,  ...,  0.0528, -0.1313, -0.0512]],
+       device='cuda:0'), grad: tensor([[ 8.6846e-07,  1.7649e-06, -8.9556e-06,  ...,  1.5087e-06,
+         -1.6382e-06, -1.1049e-05],
+        [ 3.0641e-07,  4.0904e-06,  3.3416e-06,  ...,  2.9039e-06,
+         -3.4436e-07, -2.6566e-07],
+        [ 1.2647e-06, -2.6077e-05,  4.6641e-05,  ..., -2.1160e-05,
+         -3.2480e-07,  4.2677e-05],
+        ...,
+        [ 1.1679e-06,  1.1019e-05,  2.7427e-07,  ...,  1.9431e-05,
+          4.4028e-07,  5.0180e-06],
+        [ 6.0052e-06,  3.6377e-06, -8.9586e-05,  ..., -4.5836e-05,
+          1.5064e-07, -8.2076e-05],
+        [-3.7309e-06,  9.2201e-07,  2.6584e-05,  ...,  3.2216e-05,
+          2.5611e-07,  4.8012e-05]], device='cuda:0')
+Epoch 89, bias, value: tensor([-0.0166, -0.0148, -0.0258, -0.0265, -0.0101,  0.0036,  0.0100, -0.0213,
+        -0.0060,  0.0042], device='cuda:0'), grad: tensor([-9.0897e-06,  9.0376e-06, -1.2887e-04,  2.2635e-05,  7.3969e-05,
+        -9.9540e-06, -4.4674e-05,  1.7655e-04, -1.4770e-04,  5.7995e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 88, time 220.83, cls_loss 0.0035 cls_loss_mapping 0.0114 cls_loss_causal 0.5983 re_mapping 0.0087 re_causal 0.0249 /// teacc 98.83 lr 0.00010000
+Epoch 90, weight, value: tensor([[-0.1236, -0.1138,  0.0712,  ..., -0.0454,  0.0359,  0.0236],
+        [-0.0578, -0.0208, -0.0340,  ..., -0.0510, -0.0715, -0.0386],
+        [ 0.0367, -0.0500, -0.0284,  ..., -0.0379,  0.0039, -0.2017],
+        ...,
+        [-0.0809,  0.0744,  0.0036,  ...,  0.0802, -0.0271, -0.0802],
+        [-0.0382, -0.0479,  0.0792,  ..., -0.0405, -0.1239,  0.0848],
+        [-0.0036, -0.1166,  0.0711,  ...,  0.0525, -0.1328, -0.0530]],
+       device='cuda:0'), grad: tensor([[ 1.3423e-07,  4.8662e-07, -7.0818e-06,  ...,  3.0966e-07,
+         -5.9837e-08, -6.3777e-06],
+        [ 1.1292e-07,  1.4510e-06,  1.2200e-06,  ...,  1.3532e-06,
+          4.6566e-09, -1.2256e-06],
+        [ 8.2538e-08,  1.4044e-06,  3.0659e-06,  ...,  7.8417e-07,
+         -5.4482e-08,  4.2394e-06],
+        ...,
+        [ 5.7183e-06, -8.2701e-06,  3.0771e-06,  ..., -1.2377e-06,
+          1.5716e-08,  2.2501e-06],
+        [ 2.0731e-06,  3.7141e-06, -4.0792e-06,  ...,  2.4401e-06,
+          3.6671e-08, -4.2915e-06],
+        [-1.1295e-05,  4.5933e-06, -3.3807e-06,  ..., -1.2033e-05,
+          7.6834e-09,  3.0342e-06]], device='cuda:0')
+Epoch 90, bias, value: tensor([-0.0169, -0.0146, -0.0250, -0.0257, -0.0100,  0.0041,  0.0101, -0.0220,
+        -0.0063,  0.0033], device='cuda:0'), grad: tensor([-1.2539e-05, -2.7604e-06,  4.7237e-06, -1.0610e-05,  7.8976e-06,
+         4.3422e-05, -3.4451e-05,  6.3181e-06,  4.1388e-06, -6.1728e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 89, time 220.52, cls_loss 0.0024 cls_loss_mapping 0.0062 cls_loss_causal 0.6230 re_mapping 0.0084 re_causal 0.0251 /// teacc 98.76 lr 0.00010000
+Epoch 91, weight, value: tensor([[-0.1243, -0.1148,  0.0716,  ..., -0.0458,  0.0360,  0.0240],
+        [-0.0583, -0.0212, -0.0344,  ..., -0.0515, -0.0712, -0.0387],
+        [ 0.0366, -0.0508, -0.0291,  ..., -0.0386,  0.0041, -0.2028],
+        ...,
+        [-0.0813,  0.0751,  0.0036,  ...,  0.0804, -0.0273, -0.0807],
+        [-0.0393, -0.0480,  0.0797,  ..., -0.0411, -0.1241,  0.0851],
+        [-0.0043, -0.1172,  0.0715,  ...,  0.0526, -0.1331, -0.0539]],
+       device='cuda:0'), grad: tensor([[ 7.0548e-08,  1.8150e-05,  5.6960e-06,  ...,  1.3694e-05,
+          2.9220e-08,  5.9744e-07],
+        [ 6.2166e-08,  5.5432e-05,  2.3142e-05,  ...,  2.0489e-05,
+         -1.9907e-08, -1.0347e-06],
+        [ 4.6217e-08,  2.8923e-05,  9.2313e-06,  ...,  1.4469e-05,
+         -1.4703e-07,  1.2843e-06],
+        ...,
+        [ 5.8487e-07, -1.6117e-04, -4.3929e-05,  ...,  3.5167e-05,
+          1.4005e-07,  1.2359e-06],
+        [ 3.6415e-07,  2.2724e-06,  2.0757e-05,  ...,  2.1219e-05,
+          6.1118e-08, -4.0941e-06],
+        [-3.6918e-06,  3.1799e-05, -5.8025e-05,  ...,  4.0323e-05,
+          7.4506e-09,  9.8534e-07]], device='cuda:0')
+Epoch 91, bias, value: tensor([-0.0166, -0.0149, -0.0253, -0.0255, -0.0093,  0.0042,  0.0101, -0.0221,
+        -0.0063,  0.0030], device='cuda:0'), grad: tensor([ 4.6045e-05,  1.0115e-04,  5.1498e-05,  7.3195e-05, -5.2500e-04,
+         2.9907e-05,  2.8014e-06,  1.9267e-05,  7.1824e-05,  1.2887e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 90, time 220.76, cls_loss 0.0024 cls_loss_mapping 0.0091 cls_loss_causal 0.5834 re_mapping 0.0085 re_causal 0.0252 /// teacc 98.78 lr 0.00010000
+Epoch 92, weight, value: tensor([[-0.1248, -0.1154,  0.0722,  ..., -0.0463,  0.0360,  0.0247],
+        [-0.0591, -0.0214, -0.0348,  ..., -0.0521, -0.0712, -0.0385],
+        [ 0.0362, -0.0515, -0.0299,  ..., -0.0392,  0.0042, -0.2037],
+        ...,
+        [-0.0818,  0.0758,  0.0039,  ...,  0.0810, -0.0274, -0.0810],
+        [-0.0396, -0.0483,  0.0804,  ..., -0.0413, -0.1241,  0.0858],
+        [-0.0038, -0.1182,  0.0721,  ...,  0.0529, -0.1335, -0.0544]],
+       device='cuda:0'), grad: tensor([[-9.4296e-08,  3.5018e-07, -6.7055e-06,  ...,  2.6077e-08,
+          6.4494e-08,  6.7115e-05],
+        [ 3.1525e-07, -1.3232e-04, -1.2022e-04,  ..., -2.4334e-05,
+         -3.3667e-07, -2.0361e-04],
+        [-3.9376e-06,  6.2920e-06,  2.8554e-06,  ...,  3.0585e-06,
+         -7.0315e-08,  3.1590e-05],
+        ...,
+        [ 3.3551e-07,  8.0884e-05,  7.7367e-05,  ...,  1.1928e-05,
+          9.9186e-08,  1.2982e-04],
+        [ 5.6531e-07,  1.4447e-05,  1.3553e-05,  ...,  3.3323e-06,
+          1.0361e-07,  2.0039e-04],
+        [ 2.3283e-07,  2.7820e-05,  2.1935e-05,  ...,  2.8051e-06,
+          2.4913e-08,  4.3392e-05]], device='cuda:0')
+Epoch 92, bias, value: tensor([-0.0147, -0.0154, -0.0257, -0.0258, -0.0094,  0.0041,  0.0093, -0.0218,
+        -0.0059,  0.0031], device='cuda:0'), grad: tensor([ 1.0765e-04, -5.0068e-04,  1.6108e-05,  2.0534e-05, -1.4174e-04,
+         1.2231e-04, -5.4121e-04,  4.0603e-04,  3.5095e-04,  1.6022e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 91, time 220.52, cls_loss 0.0033 cls_loss_mapping 0.0102 cls_loss_causal 0.5862 re_mapping 0.0085 re_causal 0.0253 /// teacc 98.87 lr 0.00010000
+Epoch 93, weight, value: tensor([[-0.1253, -0.1170,  0.0728,  ..., -0.0466,  0.0359,  0.0227],
+        [-0.0597, -0.0219, -0.0355,  ..., -0.0526, -0.0714, -0.0371],
+        [ 0.0355, -0.0520, -0.0307,  ..., -0.0388,  0.0041, -0.2055],
+        ...,
+        [-0.0805,  0.0772,  0.0048,  ...,  0.0826, -0.0268, -0.0816],
+        [-0.0398, -0.0488,  0.0815,  ..., -0.0412, -0.1242,  0.0863],
+        [-0.0029, -0.1205,  0.0717,  ...,  0.0523, -0.1339, -0.0555]],
+       device='cuda:0'), grad: tensor([[ 1.0431e-07,  1.7593e-06, -1.0960e-05,  ...,  9.4529e-07,
+          1.1642e-09, -2.8014e-06],
+        [ 4.4005e-08, -3.6001e-05,  2.4643e-06,  ...,  1.8105e-06,
+          3.4925e-09, -1.6659e-05],
+        [ 4.4471e-08,  4.4197e-05,  7.8455e-06,  ...,  2.8089e-06,
+          3.4925e-09,  1.6212e-05],
+        ...,
+        [-7.7672e-07, -1.3538e-05, -1.2070e-06,  ..., -9.6262e-06,
+          1.6764e-08,  1.7164e-06],
+        [ 4.5798e-07,  1.2390e-05,  4.7870e-06,  ...,  1.7304e-06,
+          6.9849e-10, -4.6194e-06],
+        [ 3.7532e-07,  7.3016e-06, -9.7528e-06,  ..., -5.1260e-06,
+          1.3970e-09,  1.7444e-06]], device='cuda:0')
+Epoch 93, bias, value: tensor([-0.0160, -0.0150, -0.0259, -0.0263, -0.0095,  0.0038,  0.0108, -0.0208,
+        -0.0059,  0.0022], device='cuda:0'), grad: tensor([-1.7121e-05, -5.1022e-04,  4.6182e-04, -1.7539e-05,  1.5814e-06,
+         1.5885e-05,  6.4485e-06,  3.2693e-05,  3.3200e-05, -7.1153e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 92, time 220.44, cls_loss 0.0034 cls_loss_mapping 0.0092 cls_loss_causal 0.6051 re_mapping 0.0083 re_causal 0.0247 /// teacc 98.78 lr 0.00010000
+Epoch 94, weight, value: tensor([[-0.1259, -0.1175,  0.0730,  ..., -0.0471,  0.0359,  0.0226],
+        [-0.0603, -0.0218, -0.0362,  ..., -0.0530, -0.0712, -0.0373],
+        [ 0.0362, -0.0525, -0.0309,  ..., -0.0392,  0.0043, -0.2061],
+        ...,
+        [-0.0814,  0.0775,  0.0046,  ...,  0.0829, -0.0269, -0.0820],
+        [-0.0401, -0.0491,  0.0822,  ..., -0.0415, -0.1243,  0.0871],
+        [-0.0013, -0.1215,  0.0733,  ...,  0.0533, -0.1343, -0.0557]],
+       device='cuda:0'), grad: tensor([[ 1.5832e-06,  2.6412e-06,  5.4799e-06,  ...,  4.5151e-06,
+          7.2177e-09,  3.7141e-06],
+        [ 2.6897e-06,  2.6841e-06,  5.0329e-06,  ...,  7.6741e-06,
+          3.7253e-09,  4.3795e-07],
+        [ 5.2992e-07,  4.4256e-06,  5.4426e-06,  ...,  6.8471e-06,
+         -5.5879e-08,  2.3469e-06],
+        ...,
+        [ 4.4778e-06, -5.5581e-05, -6.7592e-05,  ..., -8.7857e-05,
+          3.1199e-08, -2.3663e-05],
+        [ 1.2226e-05,  1.0140e-05,  1.2942e-05,  ...,  2.2337e-05,
+          8.8476e-09,  4.5868e-07],
+        [ 1.3806e-05,  2.2173e-05, -7.3195e-05,  ...,  6.7592e-05,
+          6.9849e-10, -9.1866e-06]], device='cuda:0')
+Epoch 94, bias, value: tensor([-0.0160, -0.0156, -0.0252, -0.0260, -0.0105,  0.0031,  0.0101, -0.0212,
+        -0.0057,  0.0040], device='cuda:0'), grad: tensor([ 1.9506e-05,  3.5286e-05,  2.0623e-05,  7.3135e-05, -2.2054e-04,
+         8.5354e-05,  2.5854e-05, -1.3101e-04,  6.1512e-05,  3.0428e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 93, time 220.77, cls_loss 0.0027 cls_loss_mapping 0.0080 cls_loss_causal 0.5983 re_mapping 0.0082 re_causal 0.0238 /// teacc 98.98 lr 0.00010000
+Epoch 95, weight, value: tensor([[-0.1266, -0.1188,  0.0727,  ..., -0.0479,  0.0358,  0.0223],
+        [-0.0603, -0.0230, -0.0365,  ..., -0.0538, -0.0716, -0.0368],
+        [ 0.0365, -0.0533, -0.0311,  ..., -0.0398,  0.0045, -0.2069],
+        ...,
+        [-0.0822,  0.0791,  0.0048,  ...,  0.0837, -0.0270, -0.0824],
+        [-0.0406, -0.0497,  0.0825,  ..., -0.0421, -0.1245,  0.0875],
+        [-0.0013, -0.1227,  0.0746,  ...,  0.0539, -0.1347, -0.0561]],
+       device='cuda:0'), grad: tensor([[ 1.1735e-07,  7.2457e-07, -1.0859e-06,  ...,  6.4541e-07,
+          2.6077e-08,  3.9488e-07],
+        [ 6.5193e-08,  9.3356e-06,  8.4424e-07,  ...,  6.4857e-06,
+         -1.8114e-07, -2.2184e-06],
+        [ 3.6974e-07,  1.3590e-05,  1.2644e-05,  ...,  9.4920e-06,
+         -4.4331e-07,  1.4879e-05],
+        ...,
+        [ 1.6880e-07, -2.3127e-05, -5.8021e-07,  ..., -1.8939e-05,
+          3.1036e-07, -3.0920e-07],
+        [-2.6692e-06,  1.5981e-06, -3.4988e-05,  ..., -1.8533e-06,
+          5.4250e-08, -5.2482e-05],
+        [ 1.0780e-07,  1.7602e-06,  6.5193e-06,  ...,  5.3365e-07,
+          2.6310e-08,  1.5393e-05]], device='cuda:0')
+Epoch 95, bias, value: tensor([-0.0167, -0.0160, -0.0249, -0.0260, -0.0109,  0.0027,  0.0105, -0.0206,
+        -0.0058,  0.0043], device='cuda:0'), grad: tensor([ 2.1625e-06,  7.1079e-06,  4.4078e-05, -9.9540e-06,  2.1383e-06,
+         2.2113e-05,  1.4469e-05, -2.6688e-05, -7.7248e-05,  2.1830e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 94, time 220.64, cls_loss 0.0037 cls_loss_mapping 0.0085 cls_loss_causal 0.5913 re_mapping 0.0077 re_causal 0.0233 /// teacc 98.89 lr 0.00010000
+Epoch 96, weight, value: tensor([[-0.1273, -0.1200,  0.0718,  ..., -0.0497,  0.0366,  0.0224],
+        [-0.0624, -0.0230, -0.0367,  ..., -0.0541, -0.0717, -0.0369],
+        [ 0.0372, -0.0542, -0.0316,  ..., -0.0404,  0.0047, -0.2077],
+        ...,
+        [-0.0826,  0.0798,  0.0043,  ...,  0.0839, -0.0269, -0.0836],
+        [-0.0412, -0.0503,  0.0826,  ..., -0.0425, -0.1247,  0.0872],
+        [-0.0007, -0.1244,  0.0765,  ...,  0.0546, -0.1352, -0.0558]],
+       device='cuda:0'), grad: tensor([[ 3.9279e-07,  9.1270e-07, -4.8503e-06,  ...,  9.5181e-07,
+          3.0268e-09, -3.2503e-06],
+        [ 3.3737e-07,  4.6380e-06,  1.2619e-06,  ...,  3.9414e-06,
+          4.1211e-08,  5.0385e-07],
+        [ 7.0967e-07,  5.7817e-06,  1.7863e-06,  ...,  2.5146e-06,
+         -7.1479e-08,  2.1271e-06],
+        ...,
+        [ 4.6683e-07, -2.5794e-05, -5.7183e-06,  ..., -4.7237e-05,
+          1.3039e-08,  1.8086e-06],
+        [ 1.4395e-05,  4.3958e-06, -5.5507e-07,  ...,  9.9372e-07,
+          6.7521e-09,  1.6913e-05],
+        [ 9.3952e-06,  1.6674e-05,  2.2706e-06,  ...,  1.7136e-05,
+          1.3970e-09,  1.4402e-05]], device='cuda:0')
+Epoch 96, bias, value: tensor([-0.0173, -0.0156, -0.0252, -0.0241, -0.0109,  0.0010,  0.0113, -0.0213,
+        -0.0067,  0.0052], device='cuda:0'), grad: tensor([ 4.5309e-07,  1.3232e-05, -3.4600e-05,  4.0740e-05,  3.0249e-05,
+        -8.5235e-05, -5.1968e-06, -4.1544e-05,  2.8446e-05,  5.3346e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 95, time 220.42, cls_loss 0.0026 cls_loss_mapping 0.0079 cls_loss_causal 0.5762 re_mapping 0.0079 re_causal 0.0240 /// teacc 98.91 lr 0.00010000
+Epoch 97, weight, value: tensor([[-0.1276, -0.1210,  0.0721,  ..., -0.0499,  0.0365,  0.0227],
+        [-0.0636, -0.0231, -0.0373,  ..., -0.0547, -0.0717, -0.0368],
+        [ 0.0369, -0.0544, -0.0319,  ..., -0.0409,  0.0048, -0.2085],
+        ...,
+        [-0.0827,  0.0801,  0.0037,  ...,  0.0841, -0.0269, -0.0846],
+        [-0.0416, -0.0507,  0.0830,  ..., -0.0422, -0.1248,  0.0877],
+        [-0.0008, -0.1254,  0.0772,  ...,  0.0549, -0.1353, -0.0560]],
+       device='cuda:0'), grad: tensor([[ 1.6931e-06,  5.0198e-07, -1.4892e-06,  ...,  1.0980e-06,
+          0.0000e+00,  2.3004e-06],
+        [ 5.9232e-07,  1.9539e-06,  1.6242e-06,  ...,  1.5171e-06,
+          0.0000e+00,  1.0151e-06],
+        [ 2.0582e-06,  1.0923e-05,  8.2776e-06,  ...,  8.1509e-06,
+          0.0000e+00,  1.7546e-06],
+        ...,
+        [ 7.4394e-06, -1.6600e-05, -6.9588e-06,  ..., -1.0639e-05,
+          0.0000e+00,  1.7568e-05],
+        [ 3.9876e-05,  6.4820e-06,  4.4674e-05,  ...,  2.6584e-05,
+          0.0000e+00,  3.9607e-05],
+        [-5.9038e-05,  2.6319e-06, -9.1732e-05,  ..., -5.0157e-05,
+          0.0000e+00, -1.6615e-05]], device='cuda:0')
+Epoch 97, bias, value: tensor([-0.0172, -0.0158, -0.0251, -0.0245, -0.0106,  0.0022,  0.0106, -0.0220,
+        -0.0066,  0.0054], device='cuda:0'), grad: tensor([ 4.3213e-06,  8.2701e-06,  2.7850e-05,  4.6104e-05,  4.4256e-05,
+        -1.4156e-05, -6.8605e-05,  6.1095e-06,  1.4162e-04, -1.9574e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 96, time 220.47, cls_loss 0.0027 cls_loss_mapping 0.0080 cls_loss_causal 0.5928 re_mapping 0.0080 re_causal 0.0239 /// teacc 98.83 lr 0.00010000
+Epoch 98, weight, value: tensor([[-1.2902e-01, -1.2323e-01,  7.1964e-02,  ..., -5.0926e-02,
+          3.6483e-02,  2.2723e-02],
+        [-6.5255e-02, -2.3615e-02, -3.7695e-02,  ..., -5.5340e-02,
+         -7.1735e-02, -3.7051e-02],
+        [ 3.6466e-02, -5.5314e-02, -3.2395e-02,  ..., -4.1621e-02,
+          4.8801e-03, -2.0956e-01],
+        ...,
+        [-8.3021e-02,  8.1728e-02,  4.1624e-03,  ...,  8.5183e-02,
+         -2.6903e-02, -8.5333e-02],
+        [-4.1732e-02, -5.1501e-02,  8.3464e-02,  ..., -4.2543e-02,
+         -1.2482e-01,  8.8447e-02],
+        [-1.8180e-04, -1.2707e-01,  7.7528e-02,  ...,  5.4682e-02,
+         -1.3581e-01, -5.6596e-02]], device='cuda:0'), grad: tensor([[ 1.7099e-06,  4.5518e-07, -8.6650e-06,  ...,  2.0899e-06,
+          2.3283e-10, -3.5316e-06],
+        [ 7.2876e-07,  8.6101e-07,  1.8170e-06,  ...,  3.6061e-06,
+          4.6566e-10,  2.5192e-07],
+        [ 4.2804e-06,  1.2591e-06,  7.4469e-06,  ...,  4.8801e-06,
+          2.0955e-09,  3.0901e-06],
+        ...,
+        [ 3.5286e-05, -1.0263e-06,  4.8727e-05,  ...,  4.1187e-05,
+          4.6566e-09,  1.9342e-05],
+        [ 1.8273e-06,  3.1441e-06, -1.3955e-05,  ...,  3.5446e-06,
+          4.6566e-10, -1.2614e-05],
+        [-5.5999e-05,  1.7453e-06, -6.1870e-05,  ..., -1.2249e-05,
+          9.3132e-10, -1.9819e-05]], device='cuda:0')
+Epoch 98, bias, value: tensor([-0.0173, -0.0163, -0.0256, -0.0250, -0.0104,  0.0022,  0.0108, -0.0210,
+        -0.0063,  0.0050], device='cuda:0'), grad: tensor([-7.8008e-06,  9.8869e-06,  2.3887e-05,  2.5313e-06, -1.3268e-04,
+         1.7166e-05,  5.5172e-06,  1.3983e-04, -1.0185e-05, -4.8161e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 97, time 220.78, cls_loss 0.0025 cls_loss_mapping 0.0076 cls_loss_causal 0.5469 re_mapping 0.0079 re_causal 0.0223 /// teacc 98.95 lr 0.00010000
+Epoch 99, weight, value: tensor([[-1.2927e-01, -1.2396e-01,  7.2616e-02,  ..., -5.1338e-02,
+          3.6392e-02,  2.2933e-02],
+        [-6.5970e-02, -2.4011e-02, -3.8223e-02,  ..., -5.6125e-02,
+         -7.1555e-02, -3.7248e-02],
+        [ 3.6582e-02, -5.5851e-02, -3.2798e-02,  ..., -4.2062e-02,
+          5.0595e-03, -2.1055e-01],
+        ...,
+        [-8.4358e-02,  8.2614e-02,  4.2962e-03,  ...,  8.5965e-02,
+         -2.6940e-02, -8.5672e-02],
+        [-4.2361e-02, -5.1977e-02,  8.4030e-02,  ..., -4.2685e-02,
+         -1.2489e-01,  8.9035e-02],
+        [ 9.0722e-05, -1.2806e-01,  7.7720e-02,  ...,  5.4486e-02,
+         -1.3632e-01, -5.7351e-02]], device='cuda:0'), grad: tensor([[ 7.6648e-07,  1.9674e-07, -3.6731e-06,  ...,  9.8487e-08,
+          1.1898e-07, -1.1930e-06],
+        [ 5.0198e-07,  7.4599e-07,  6.4261e-07,  ...,  1.8789e-07,
+          1.2596e-07, -3.0408e-07],
+        [-6.3956e-05, -1.1243e-05,  8.3726e-07,  ..., -1.3476e-06,
+         -1.3784e-06,  1.7984e-06],
+        ...,
+        [ 6.6264e-07,  4.3698e-06,  5.4296e-07,  ...,  1.3616e-06,
+          2.4471e-07,  9.3877e-07],
+        [ 1.1018e-06,  1.9856e-06,  1.2806e-06,  ...,  5.5972e-07,
+          5.3830e-07,  8.4341e-06],
+        [ 6.2346e-05,  6.3591e-06,  8.4378e-07,  ..., -9.7509e-07,
+          2.2585e-08,  3.7104e-06]], device='cuda:0')
+Epoch 99, bias, value: tensor([-0.0172, -0.0164, -0.0257, -0.0251, -0.0102,  0.0023,  0.0107, -0.0208,
+        -0.0060,  0.0047], device='cuda:0'), grad: tensor([ 4.9826e-08,  4.0904e-06, -3.4523e-04,  3.0577e-05,  3.5204e-06,
+        -9.1195e-05,  4.9025e-05,  2.1890e-05,  2.9325e-05,  2.9826e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 98, time 221.06, cls_loss 0.0027 cls_loss_mapping 0.0059 cls_loss_causal 0.5309 re_mapping 0.0075 re_causal 0.0221 /// teacc 98.88 lr 0.00010000
+Epoch 100, weight, value: tensor([[-0.1297, -0.1245,  0.0729,  ..., -0.0516,  0.0367,  0.0231],
+        [-0.0667, -0.0243, -0.0388,  ..., -0.0565, -0.0719, -0.0367],
+        [ 0.0366, -0.0562, -0.0330,  ..., -0.0419,  0.0055, -0.2112],
+        ...,
+        [-0.0848,  0.0833,  0.0046,  ...,  0.0864, -0.0259, -0.0862],
+        [-0.0432, -0.0528,  0.0843,  ..., -0.0430, -0.1251,  0.0892],
+        [-0.0024, -0.1292,  0.0778,  ...,  0.0533, -0.1371, -0.0586]],
+       device='cuda:0'), grad: tensor([[ 2.5821e-07,  5.2666e-07, -1.5604e-04,  ...,  1.4110e-07,
+         -2.4736e-06, -1.6475e-04],
+        [ 6.9849e-08,  1.3849e-06,  2.7213e-06,  ...,  2.4028e-07,
+          6.1700e-08, -6.1020e-06],
+        [ 5.3318e-08,  4.8056e-07,  7.6517e-06,  ...,  1.6298e-07,
+          4.3050e-07,  1.4357e-05],
+        ...,
+        [ 3.3784e-07,  7.9069e-07,  3.8184e-06,  ...,  8.5495e-07,
+          2.1094e-07,  4.1425e-06],
+        [ 1.7462e-06,  4.1723e-06, -2.9773e-05,  ...,  5.8580e-07,
+          1.9185e-07, -4.8429e-05],
+        [-4.2818e-07,  2.0433e-06,  1.1936e-05,  ..., -4.5970e-06,
+          5.4482e-07,  1.9372e-05]], device='cuda:0')
+Epoch 100, bias, value: tensor([-0.0172, -0.0161, -0.0255, -0.0248, -0.0087,  0.0030,  0.0097, -0.0207,
+        -0.0064,  0.0031], device='cuda:0'), grad: tensor([-3.7503e-04, -3.2872e-05,  2.2814e-05,  2.9393e-06,  1.2517e-05,
+         9.8571e-06,  3.7479e-04,  1.5616e-05, -5.6922e-05,  2.6435e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 99, time 220.53, cls_loss 0.0023 cls_loss_mapping 0.0060 cls_loss_causal 0.5899 re_mapping 0.0072 re_causal 0.0225 /// teacc 98.98 lr 0.00010000
+Epoch 101, weight, value: tensor([[-0.1291, -0.1247,  0.0739,  ..., -0.0519,  0.0368,  0.0237],
+        [-0.0690, -0.0246, -0.0392,  ..., -0.0569, -0.0719, -0.0367],
+        [ 0.0361, -0.0566, -0.0335,  ..., -0.0424,  0.0056, -0.2124],
+        ...,
+        [-0.0856,  0.0837,  0.0046,  ...,  0.0869, -0.0259, -0.0868],
+        [-0.0439, -0.0532,  0.0847,  ..., -0.0432, -0.1251,  0.0899],
+        [-0.0015, -0.1301,  0.0783,  ...,  0.0537, -0.1375, -0.0587]],
+       device='cuda:0'), grad: tensor([[ 3.1702e-06,  3.5405e-05, -8.6240e-07,  ...,  8.7321e-06,
+          6.9849e-10,  3.7737e-06],
+        [ 2.3637e-06, -7.8797e-05,  7.0315e-07,  ...,  6.2399e-06,
+          4.6566e-10, -1.4752e-05],
+        [ 8.0280e-07,  1.0036e-05,  4.5076e-06,  ...,  1.7593e-06,
+         -7.6834e-09,  1.6436e-05],
+        ...,
+        [-8.7693e-06, -5.9515e-05,  1.9595e-06,  ..., -3.5614e-05,
+          5.3551e-09,  1.2875e-05],
+        [ 1.2033e-05,  5.2787e-06,  2.1420e-06,  ...,  1.1828e-06,
+          9.3132e-10,  2.2709e-05],
+        [-3.9220e-05,  1.4715e-05, -1.9550e-05,  ..., -3.4750e-05,
+          0.0000e+00, -1.7151e-05]], device='cuda:0')
+Epoch 101, bias, value: tensor([-0.0166, -0.0163, -0.0255, -0.0250, -0.0091,  0.0027,  0.0101, -0.0208,
+        -0.0062,  0.0035], device='cuda:0'), grad: tensor([ 6.2048e-05, -1.9860e-04,  9.4473e-05,  4.3929e-05,  4.7565e-05,
+         7.1526e-05, -1.8048e-04,  3.7283e-05,  6.6042e-05, -4.3392e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 100, time 220.87, cls_loss 0.0027 cls_loss_mapping 0.0089 cls_loss_causal 0.5637 re_mapping 0.0078 re_causal 0.0227 /// teacc 98.88 lr 0.00010000
+Epoch 102, weight, value: tensor([[-0.1293, -0.1255,  0.0745,  ..., -0.0523,  0.0368,  0.0246],
+        [-0.0698, -0.0251, -0.0397,  ..., -0.0577, -0.0722, -0.0367],
+        [ 0.0361, -0.0569, -0.0339,  ..., -0.0423,  0.0057, -0.2128],
+        ...,
+        [-0.0878,  0.0847,  0.0047,  ...,  0.0869, -0.0253, -0.0869],
+        [-0.0454, -0.0541,  0.0847,  ..., -0.0439, -0.1255,  0.0910],
+        [-0.0011, -0.1309,  0.0790,  ...,  0.0539, -0.1376, -0.0590]],
+       device='cuda:0'), grad: tensor([[-2.6617e-06,  1.8580e-07, -6.1467e-06,  ...,  2.1397e-07,
+          3.9022e-07, -1.8954e-05],
+        [ 4.9826e-07,  1.7639e-06,  5.5553e-07,  ...,  5.4808e-07,
+         -2.7986e-07,  4.2804e-06],
+        [ 1.4622e-06,  9.7692e-05,  2.0087e-05,  ...,  1.0079e-04,
+         -4.2818e-07, -4.0643e-06],
+        ...,
+        [ 8.4657e-07, -1.0109e-04, -1.7703e-05,  ..., -1.0222e-04,
+          2.1607e-07,  6.6943e-06],
+        [ 1.2163e-06,  2.4238e-07,  2.0787e-06,  ...,  1.4603e-06,
+          2.7195e-07,  5.5283e-06],
+        [ 5.7369e-06,  1.8142e-06, -2.7250e-06,  ..., -1.8254e-06,
+          3.0035e-08,  5.3234e-06]], device='cuda:0')
+Epoch 102, bias, value: tensor([-0.0153, -0.0167, -0.0249, -0.0256, -0.0088,  0.0027,  0.0087, -0.0208,
+        -0.0058,  0.0034], device='cuda:0'), grad: tensor([-3.1769e-05,  3.6716e-05,  1.6963e-04,  8.7693e-06,  2.0135e-06,
+         1.1154e-05, -7.6666e-06, -2.1636e-04,  1.5870e-05,  1.1511e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 101, time 220.33, cls_loss 0.0028 cls_loss_mapping 0.0085 cls_loss_causal 0.5693 re_mapping 0.0075 re_causal 0.0222 /// teacc 98.86 lr 0.00010000
+Epoch 103, weight, value: tensor([[-0.1311, -0.1249,  0.0747,  ..., -0.0527,  0.0361,  0.0244],
+        [-0.0710, -0.0256, -0.0403,  ..., -0.0587, -0.0727, -0.0365],
+        [ 0.0356, -0.0576, -0.0343,  ..., -0.0428,  0.0057, -0.2135],
+        ...,
+        [-0.0900,  0.0850,  0.0034,  ...,  0.0870, -0.0246, -0.0897],
+        [-0.0463, -0.0533,  0.0864,  ..., -0.0425, -0.1254,  0.0912],
+        [-0.0005, -0.1321,  0.0796,  ...,  0.0542, -0.1385, -0.0594]],
+       device='cuda:0'), grad: tensor([[ 2.1383e-06,  1.0803e-06,  3.4254e-06,  ...,  3.3919e-06,
+          4.8894e-08,  2.6003e-06],
+        [ 1.0189e-06,  3.1926e-06,  2.3786e-06,  ...,  4.2766e-06,
+         -3.2596e-08, -6.7689e-06],
+        [ 8.5542e-07,  3.0156e-06,  2.9523e-06,  ...,  3.3360e-06,
+          4.8894e-08,  3.6284e-06],
+        ...,
+        [ 2.0433e-06, -2.1309e-05, -7.4394e-06,  ..., -1.8463e-05,
+          1.1409e-08, -1.6075e-06],
+        [ 1.4767e-05,  2.1998e-06,  2.7686e-05,  ...,  1.8761e-05,
+          1.0012e-08,  9.0301e-06],
+        [ 1.3137e-04,  7.9051e-06, -5.6624e-05,  ...,  3.9244e-04,
+          6.0536e-09, -1.8954e-05]], device='cuda:0')
+Epoch 103, bias, value: tensor([-0.0157, -0.0170, -0.0249, -0.0258, -0.0087,  0.0022,  0.0103, -0.0218,
+        -0.0054,  0.0037], device='cuda:0'), grad: tensor([ 1.2659e-05, -1.2286e-05,  1.5959e-05,  3.8296e-05, -9.6655e-04,
+         7.0706e-06,  1.5870e-06, -2.8253e-05,  6.3777e-05,  8.6880e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 102, time 220.72, cls_loss 0.0025 cls_loss_mapping 0.0070 cls_loss_causal 0.5962 re_mapping 0.0073 re_causal 0.0225 /// teacc 98.85 lr 0.00010000
+Epoch 104, weight, value: tensor([[-0.1334, -0.1256,  0.0752,  ..., -0.0538,  0.0365,  0.0242],
+        [-0.0717, -0.0259, -0.0407,  ..., -0.0593, -0.0728, -0.0363],
+        [ 0.0345, -0.0584, -0.0349,  ..., -0.0435,  0.0059, -0.2148],
+        ...,
+        [-0.0906,  0.0859,  0.0034,  ...,  0.0876, -0.0247, -0.0902],
+        [-0.0478, -0.0538,  0.0864,  ..., -0.0428, -0.1254,  0.0911],
+        [-0.0004, -0.1333,  0.0804,  ...,  0.0541, -0.1389, -0.0594]],
+       device='cuda:0'), grad: tensor([[ 5.4110e-07,  3.0305e-06, -2.1188e-08,  ...,  3.2485e-06,
+         -1.1222e-07,  5.2247e-07],
+        [ 5.7369e-07,  6.5304e-06,  6.6347e-06,  ...,  7.2159e-06,
+          3.8417e-08,  2.3507e-06],
+        [ 1.3807e-07,  1.0885e-05,  1.0714e-05,  ...,  1.1757e-05,
+          6.5193e-08,  4.4256e-06],
+        ...,
+        [ 5.4762e-07, -6.7234e-05, -6.3300e-05,  ..., -7.5340e-05,
+          1.3271e-08, -1.8835e-05],
+        [ 7.0333e-06,  1.4901e-05,  1.1653e-05,  ...,  1.2338e-05,
+          2.2352e-08,  1.0997e-05],
+        [ 8.1817e-07,  3.3945e-05,  3.1859e-05,  ...,  3.6329e-05,
+          7.7067e-08,  1.1928e-05]], device='cuda:0')
+Epoch 104, bias, value: tensor([-0.0162, -0.0171, -0.0252, -0.0261, -0.0082,  0.0033,  0.0102, -0.0218,
+        -0.0059,  0.0036], device='cuda:0'), grad: tensor([ 5.8375e-06,  1.6510e-05,  3.0547e-05, -2.7884e-06,  1.5870e-05,
+        -1.3076e-05, -1.9103e-05, -1.6904e-04,  4.6581e-05,  8.8573e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 103, time 220.80, cls_loss 0.0027 cls_loss_mapping 0.0076 cls_loss_causal 0.5501 re_mapping 0.0077 re_causal 0.0210 /// teacc 98.92 lr 0.00010000
+Epoch 105, weight, value: tensor([[-0.1337, -0.1268,  0.0750,  ..., -0.0559,  0.0380,  0.0256],
+        [-0.0717, -0.0271, -0.0412,  ..., -0.0605, -0.0728, -0.0363],
+        [ 0.0341, -0.0592, -0.0356,  ..., -0.0445,  0.0059, -0.2156],
+        ...,
+        [-0.0909,  0.0876,  0.0033,  ...,  0.0884, -0.0247, -0.0908],
+        [-0.0484, -0.0546,  0.0866,  ..., -0.0432, -0.1256,  0.0915],
+        [-0.0003, -0.1346,  0.0818,  ...,  0.0548, -0.1399, -0.0597]],
+       device='cuda:0'), grad: tensor([[ 7.9582e-07,  1.3532e-06, -1.3387e-04,  ...,  2.6990e-06,
+         -9.0659e-05, -2.0897e-04],
+        [ 9.0718e-05,  4.3698e-06,  4.3184e-05,  ...,  7.6219e-06,
+          1.3886e-06,  3.5852e-05],
+        [ 1.0908e-05, -1.4789e-05,  1.6734e-05,  ..., -4.9114e-05,
+          6.0536e-06,  2.2054e-05],
+        ...,
+        [ 2.3358e-06,  7.6322e-07,  3.6359e-06,  ...,  2.0489e-05,
+          2.5835e-06,  8.1137e-06],
+        [ 1.9232e-07,  9.6206e-07, -9.3654e-06,  ...,  1.7751e-06,
+          4.5337e-06, -3.4094e-05],
+        [-1.4532e-04,  4.5113e-06, -6.1095e-05,  ...,  4.9546e-06,
+          2.8592e-06, -3.9846e-05]], device='cuda:0')
+Epoch 105, bias, value: tensor([-0.0154, -0.0181, -0.0251, -0.0265, -0.0083,  0.0030,  0.0098, -0.0212,
+        -0.0059,  0.0041], device='cuda:0'), grad: tensor([-5.8270e-04,  4.1127e-04, -1.3196e-04,  1.8656e-04,  1.1760e-04,
+         3.9339e-04,  2.8729e-05,  1.4770e-04, -2.7940e-05, -5.4264e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 104, time 220.28, cls_loss 0.0037 cls_loss_mapping 0.0084 cls_loss_causal 0.5590 re_mapping 0.0073 re_causal 0.0208 /// teacc 98.98 lr 0.00010000
+Epoch 106, weight, value: tensor([[-1.3398e-01, -1.2755e-01,  7.5774e-02,  ..., -5.6171e-02,
+          3.8864e-02,  2.6090e-02],
+        [-7.2445e-02, -2.8048e-02, -4.2173e-02,  ..., -5.8669e-02,
+         -7.2861e-02, -3.6340e-02],
+        [ 3.3669e-02, -6.1068e-02, -3.6191e-02,  ..., -4.6640e-02,
+          5.8702e-03, -2.1739e-01],
+        ...,
+        [-9.1139e-02,  8.9187e-02,  3.6625e-03,  ...,  8.8551e-02,
+         -2.4946e-02, -9.1034e-02],
+        [-4.9131e-02, -5.5057e-02,  8.6511e-02,  ..., -4.3750e-02,
+         -1.2588e-01,  9.2437e-02],
+        [-8.9680e-06, -1.3590e-01,  8.2141e-02,  ...,  5.4388e-02,
+         -1.4077e-01, -6.0066e-02]], device='cuda:0'), grad: tensor([[ 6.5658e-08,  1.3877e-06,  1.0636e-06,  ...,  1.4761e-06,
+          2.0210e-07,  1.6531e-06],
+        [ 1.8859e-08,  7.0259e-06,  4.1611e-06,  ...,  5.5432e-06,
+         -9.1828e-07, -1.7434e-05],
+        [ 2.0722e-08,  9.1493e-06,  4.2319e-06,  ...,  3.5800e-06,
+         -1.1390e-06,  2.1253e-06],
+        ...,
+        [ 1.1339e-07, -5.7131e-05, -2.9117e-05,  ..., -3.2395e-05,
+          2.3656e-07, -9.5740e-07],
+        [ 4.1421e-07,  1.9073e-06,  3.7551e-05,  ...,  2.1830e-05,
+          8.2981e-07,  2.6926e-05],
+        [-5.0664e-07,  1.1228e-05, -6.6161e-05,  ..., -2.3931e-05,
+          4.8894e-08, -3.4034e-05]], device='cuda:0')
+Epoch 106, bias, value: tensor([-0.0150, -0.0183, -0.0267, -0.0272, -0.0077,  0.0031,  0.0101, -0.0203,
+        -0.0051,  0.0028], device='cuda:0'), grad: tensor([ 8.2701e-06, -1.7747e-05,  1.1280e-05,  4.1336e-05,  2.5123e-05,
+         1.1891e-05,  9.8161e-07, -9.0599e-05,  7.8738e-05, -6.9439e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 105, time 220.72, cls_loss 0.0020 cls_loss_mapping 0.0057 cls_loss_causal 0.5607 re_mapping 0.0075 re_causal 0.0216 /// teacc 98.87 lr 0.00010000
+Epoch 107, weight, value: tensor([[-0.1342, -0.1283,  0.0762,  ..., -0.0564,  0.0403,  0.0264],
+        [-0.0730, -0.0282, -0.0425,  ..., -0.0589, -0.0733, -0.0364],
+        [ 0.0334, -0.0617, -0.0366,  ..., -0.0471,  0.0060, -0.2175],
+        ...,
+        [-0.0920,  0.0896,  0.0037,  ...,  0.0887, -0.0250, -0.0915],
+        [-0.0499, -0.0557,  0.0864,  ..., -0.0443, -0.1260,  0.0924],
+        [ 0.0003, -0.1364,  0.0830,  ...,  0.0549, -0.1414, -0.0601]],
+       device='cuda:0'), grad: tensor([[ 1.9986e-06,  6.0303e-08,  6.9616e-07,  ...,  7.0874e-07,
+          2.3283e-10,  3.3416e-06],
+        [ 1.1995e-06,  1.5181e-07,  1.0720e-06,  ...,  1.7146e-06,
+          0.0000e+00, -2.2296e-06],
+        [ 1.1260e-06, -8.6380e-07,  5.5879e-07,  ...,  5.5134e-07,
+          0.0000e+00,  2.3227e-06],
+        ...,
+        [ 6.8471e-06,  5.2061e-07,  3.8110e-06,  ...,  5.4911e-06,
+          0.0000e+00,  6.4075e-06],
+        [-2.1644e-06,  1.2643e-07, -2.0146e-05,  ...,  1.5777e-06,
+          2.3283e-10, -5.7995e-05],
+        [-2.9225e-06,  1.5553e-07, -1.6838e-05,  ...,  1.8239e-05,
+          0.0000e+00,  3.4291e-06]], device='cuda:0')
+Epoch 107, bias, value: tensor([-0.0148, -0.0186, -0.0261, -0.0268, -0.0080,  0.0032,  0.0101, -0.0203,
+        -0.0059,  0.0031], device='cuda:0'), grad: tensor([ 1.0282e-05, -1.7080e-06, -7.6443e-06,  2.3961e-05, -8.6904e-05,
+         2.2590e-05,  2.9862e-05,  3.4809e-05, -7.7605e-05,  5.2303e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 106, time 220.60, cls_loss 0.0024 cls_loss_mapping 0.0074 cls_loss_causal 0.5928 re_mapping 0.0072 re_causal 0.0220 /// teacc 98.80 lr 0.00010000
+Epoch 108, weight, value: tensor([[-0.1346, -0.1290,  0.0763,  ..., -0.0567,  0.0405,  0.0262],
+        [-0.0735, -0.0275, -0.0426,  ..., -0.0593, -0.0739, -0.0354],
+        [ 0.0331, -0.0622, -0.0370,  ..., -0.0478,  0.0061, -0.2185],
+        ...,
+        [-0.0927,  0.0894,  0.0037,  ...,  0.0892, -0.0239, -0.0917],
+        [-0.0510, -0.0565,  0.0866,  ..., -0.0453, -0.1268,  0.0923],
+        [ 0.0005, -0.1371,  0.0836,  ...,  0.0554, -0.1416, -0.0600]],
+       device='cuda:0'), grad: tensor([[ 1.6456e-06,  2.0210e-06,  6.1393e-05,  ...,  1.6287e-05,
+          2.3283e-10,  5.7518e-05],
+        [ 2.8824e-07,  1.3374e-06,  4.1351e-06,  ...,  1.6978e-06,
+          0.0000e+00, -4.1239e-06],
+        [ 6.0350e-07,  2.7977e-06,  2.0698e-05,  ...,  5.6438e-06,
+         -9.3132e-09,  1.8343e-05],
+        ...,
+        [-6.2957e-06, -5.0634e-05,  6.9151e-07,  ..., -7.2062e-05,
+          6.9849e-10,  1.8492e-05],
+        [-2.2754e-05,  1.4612e-06, -1.4019e-03,  ..., -3.4213e-04,
+          2.3283e-09, -1.2980e-03],
+        [ 2.2531e-05,  2.6807e-05,  1.2207e-03,  ...,  3.0398e-04,
+          0.0000e+00,  1.1215e-03]], device='cuda:0')
+Epoch 108, bias, value: tensor([-0.0152, -0.0177, -0.0265, -0.0264, -0.0084,  0.0025,  0.0112, -0.0207,
+        -0.0064,  0.0035], device='cuda:0'), grad: tensor([ 1.2338e-04, -9.8422e-06,  4.9233e-05,  1.4186e-04,  1.0002e-04,
+         2.8327e-05,  9.6858e-06, -1.0961e-04, -2.7370e-03,  2.4071e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 107, time 220.69, cls_loss 0.0026 cls_loss_mapping 0.0068 cls_loss_causal 0.5484 re_mapping 0.0077 re_causal 0.0215 /// teacc 99.01 lr 0.00010000
+Epoch 109, weight, value: tensor([[-0.1346, -0.1293,  0.0764,  ..., -0.0571,  0.0406,  0.0260],
+        [-0.0739, -0.0285, -0.0431,  ..., -0.0596, -0.0741, -0.0356],
+        [ 0.0329, -0.0635, -0.0377,  ..., -0.0483,  0.0061, -0.2195],
+        ...,
+        [-0.0933,  0.0909,  0.0029,  ...,  0.0892, -0.0237, -0.0925],
+        [-0.0529, -0.0569,  0.0876,  ..., -0.0451, -0.1269,  0.0930],
+        [ 0.0005, -0.1374,  0.0844,  ...,  0.0559, -0.1417, -0.0613]],
+       device='cuda:0'), grad: tensor([[ 8.1491e-09,  6.1560e-07, -6.1980e-07,  ...,  6.4541e-07,
+          6.9849e-10, -1.1013e-07],
+        [ 9.5461e-09,  2.1290e-06,  1.1548e-06,  ...,  2.7679e-06,
+          1.1642e-09, -2.9579e-06],
+        [ 4.6566e-09,  1.8552e-06,  1.7704e-06,  ...,  3.7509e-07,
+         -5.2387e-08,  2.1439e-06],
+        ...,
+        [ 3.0268e-08, -2.1175e-05, -7.1786e-06,  ..., -2.0087e-05,
+          5.1223e-09,  2.1420e-06],
+        [ 3.0734e-08,  1.0766e-06, -3.0510e-06,  ...,  2.5285e-07,
+          4.0745e-08, -5.3346e-06],
+        [-3.2550e-07,  8.1211e-06,  4.2580e-06,  ...,  7.8529e-06,
+          2.3283e-10,  2.9337e-06]], device='cuda:0')
+Epoch 109, bias, value: tensor([-0.0159, -0.0186, -0.0269, -0.0274, -0.0087,  0.0029,  0.0126, -0.0204,
+        -0.0059,  0.0039], device='cuda:0'), grad: tensor([ 2.3209e-06, -6.3963e-06, -2.0459e-05,  5.4315e-06,  1.3359e-05,
+         6.4149e-06, -3.6433e-06, -1.4745e-05, -3.9041e-06,  2.1636e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 108, time 220.86, cls_loss 0.0025 cls_loss_mapping 0.0077 cls_loss_causal 0.5597 re_mapping 0.0070 re_causal 0.0205 /// teacc 98.94 lr 0.00010000
+Epoch 110, weight, value: tensor([[-0.1347, -0.1303,  0.0768,  ..., -0.0574,  0.0406,  0.0260],
+        [-0.0742, -0.0280, -0.0432,  ..., -0.0591, -0.0741, -0.0346],
+        [ 0.0324, -0.0644, -0.0384,  ..., -0.0491,  0.0063, -0.2210],
+        ...,
+        [-0.0937,  0.0912,  0.0028,  ...,  0.0893, -0.0238, -0.0941],
+        [-0.0532, -0.0573,  0.0878,  ..., -0.0456, -0.1269,  0.0944],
+        [ 0.0009, -0.1383,  0.0849,  ...,  0.0562, -0.1418, -0.0617]],
+       device='cuda:0'), grad: tensor([[ 8.1062e-06,  3.0897e-07,  4.7013e-06,  ...,  6.7335e-07,
+          1.0105e-07,  1.6969e-06],
+        [ 4.8988e-06,  1.8813e-07,  3.2336e-06,  ...,  8.8057e-07,
+          2.1188e-08, -5.3737e-07],
+        [ 6.3121e-05, -5.3272e-07,  3.8564e-05,  ...,  6.5286e-07,
+         -1.6037e-06,  1.0550e-05],
+        ...,
+        [ 2.9467e-06, -2.1197e-06,  8.5495e-07,  ..., -2.4699e-06,
+          3.9837e-07,  1.0515e-06],
+        [ 9.8944e-06,  3.3062e-07,  5.8115e-06,  ...,  1.3513e-06,
+          2.9593e-07,  1.0338e-06],
+        [-1.2884e-03,  1.0692e-06, -4.4823e-04,  ..., -1.4181e-03,
+          3.2829e-08, -5.7173e-04]], device='cuda:0')
+Epoch 110, bias, value: tensor([-0.0160, -0.0178, -0.0272, -0.0278, -0.0090,  0.0025,  0.0125, -0.0209,
+        -0.0049,  0.0039], device='cuda:0'), grad: tensor([ 2.9787e-05,  1.3575e-05,  2.2233e-04,  1.7416e-04,  4.1466e-03,
+         7.6652e-05,  5.7936e-05,  8.9854e-06,  3.5733e-05, -4.7684e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 109, time 220.86, cls_loss 0.0023 cls_loss_mapping 0.0071 cls_loss_causal 0.5800 re_mapping 0.0070 re_causal 0.0206 /// teacc 98.85 lr 0.00010000
+Epoch 111, weight, value: tensor([[-0.1357, -0.1313,  0.0767,  ..., -0.0580,  0.0407,  0.0260],
+        [-0.0762, -0.0277, -0.0437,  ..., -0.0597, -0.0743, -0.0348],
+        [ 0.0336, -0.0649, -0.0389,  ..., -0.0496,  0.0065, -0.2220],
+        ...,
+        [-0.0945,  0.0911,  0.0030,  ...,  0.0901, -0.0239, -0.0946],
+        [-0.0540, -0.0576,  0.0883,  ..., -0.0459, -0.1270,  0.0950],
+        [ 0.0012, -0.1395,  0.0853,  ...,  0.0561, -0.1421, -0.0618]],
+       device='cuda:0'), grad: tensor([[ 4.2724e-07,  3.2526e-07, -1.4789e-06,  ...,  1.7565e-06,
+         -4.0978e-08, -1.4296e-06],
+        [ 5.8766e-07,  1.4305e-06,  1.6503e-06,  ...,  3.5204e-06,
+          3.2596e-09,  3.0152e-07],
+        [ 3.3760e-07,  1.2526e-06,  2.8498e-06,  ...,  2.2165e-06,
+          4.8894e-09,  2.0619e-06],
+        ...,
+        [ 4.7311e-06, -6.1877e-06,  7.5474e-06,  ...,  9.6485e-06,
+          5.1223e-09,  6.4820e-07],
+        [ 2.2799e-06,  2.9802e-08,  3.5875e-06,  ...,  8.0690e-06,
+          3.2596e-09, -1.6149e-06],
+        [-4.4107e-05,  1.6075e-06, -8.7619e-05,  ..., -1.4758e-04,
+          3.4925e-09,  3.7742e-07]], device='cuda:0')
+Epoch 111, bias, value: tensor([-0.0160, -0.0174, -0.0270, -0.0279, -0.0086,  0.0030,  0.0122, -0.0214,
+        -0.0049,  0.0037], device='cuda:0'), grad: tensor([-3.0501e-08,  8.5384e-06,  1.9316e-06,  2.0146e-05,  2.6441e-04,
+         5.4091e-06, -3.1609e-06,  3.5763e-05,  1.7524e-05, -3.5095e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 110, time 220.83, cls_loss 0.0026 cls_loss_mapping 0.0070 cls_loss_causal 0.5335 re_mapping 0.0072 re_causal 0.0197 /// teacc 98.94 lr 0.00010000
+Epoch 112, weight, value: tensor([[-0.1359, -0.1307,  0.0757,  ..., -0.0606,  0.0407,  0.0270],
+        [-0.0766, -0.0280, -0.0443,  ..., -0.0603, -0.0750, -0.0350],
+        [ 0.0332, -0.0656, -0.0401,  ..., -0.0500,  0.0072, -0.2230],
+        ...,
+        [-0.0952,  0.0918,  0.0030,  ...,  0.0906, -0.0240, -0.0951],
+        [-0.0551, -0.0583,  0.0888,  ..., -0.0462, -0.1271,  0.0955],
+        [ 0.0018, -0.1416,  0.0869,  ...,  0.0569, -0.1422, -0.0625]],
+       device='cuda:0'), grad: tensor([[ 1.2908e-06,  1.2224e-07, -7.8678e-06,  ...,  7.6951e-08,
+         -2.1153e-07, -5.8375e-06],
+        [ 1.5628e-06,  3.3434e-07,  6.4000e-06,  ...,  2.2934e-07,
+          1.2002e-07,  3.2634e-06],
+        [ 8.7991e-06, -5.8971e-06,  2.4393e-05,  ...,  1.8964e-07,
+         -2.3097e-06,  7.7933e-06],
+        ...,
+        [ 9.1316e-07,  1.1399e-06,  2.5537e-06,  ..., -6.1560e-07,
+          6.6031e-07,  1.4147e-06],
+        [-8.7261e-05,  7.2643e-07, -2.5654e-04,  ...,  1.0477e-07,
+          4.4843e-07, -4.8667e-05],
+        [ 4.8637e-05,  8.5030e-07,  1.2082e-04,  ..., -3.7858e-07,
+          3.4226e-08,  3.7223e-05]], device='cuda:0')
+Epoch 112, bias, value: tensor([-0.0166, -0.0175, -0.0273, -0.0276, -0.0084,  0.0030,  0.0114, -0.0214,
+        -0.0048,  0.0043], device='cuda:0'), grad: tensor([-6.2734e-06,  1.5676e-05,  4.5806e-05,  1.8620e-04, -3.5972e-08,
+         2.8148e-05, -1.3344e-05,  1.1258e-05, -5.5408e-04,  2.8658e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 111, time 220.65, cls_loss 0.0020 cls_loss_mapping 0.0050 cls_loss_causal 0.5534 re_mapping 0.0067 re_causal 0.0204 /// teacc 98.93 lr 0.00010000
+Epoch 113, weight, value: tensor([[-0.1359, -0.1312,  0.0761,  ..., -0.0607,  0.0427,  0.0277],
+        [-0.0773, -0.0287, -0.0453,  ..., -0.0605, -0.0752, -0.0350],
+        [ 0.0323, -0.0662, -0.0405,  ..., -0.0504,  0.0074, -0.2239],
+        ...,
+        [-0.0957,  0.0922,  0.0031,  ...,  0.0909, -0.0242, -0.0958],
+        [-0.0564, -0.0583,  0.0897,  ..., -0.0462, -0.1273,  0.0956],
+        [ 0.0011, -0.1427,  0.0869,  ...,  0.0571, -0.1432, -0.0637]],
+       device='cuda:0'), grad: tensor([[ 5.3644e-07,  1.1770e-07,  3.7774e-06,  ...,  3.4962e-06,
+         -6.4145e-08,  4.2492e-07],
+        [ 8.7544e-08,  5.8580e-07,  7.6462e-07,  ...,  6.2305e-07,
+          1.9989e-07, -1.0328e-06],
+        [ 7.9861e-08, -5.6997e-07,  2.7958e-06,  ...,  1.1884e-06,
+         -9.5461e-07,  2.2706e-06],
+        ...,
+        [ 1.3039e-06,  3.8510e-07,  1.7434e-05,  ...,  1.3441e-05,
+          5.9232e-07,  2.4159e-06],
+        [ 7.7765e-07, -3.1013e-07, -5.9456e-06,  ...,  4.4284e-07,
+          6.8219e-08, -9.3505e-06],
+        [ 3.9116e-06,  1.1902e-06, -3.4809e-05,  ..., -2.7657e-05,
+          1.1874e-08,  1.4432e-05]], device='cuda:0')
+Epoch 113, bias, value: tensor([-0.0161, -0.0181, -0.0275, -0.0274, -0.0082,  0.0039,  0.0109, -0.0212,
+        -0.0047,  0.0038], device='cuda:0'), grad: tensor([ 8.9407e-06, -1.6391e-06, -1.6838e-06,  1.2994e-05,  1.1757e-05,
+        -1.7166e-05,  5.1484e-06,  4.2319e-05, -1.0118e-05, -5.0694e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 112, time 221.31, cls_loss 0.0021 cls_loss_mapping 0.0055 cls_loss_causal 0.5629 re_mapping 0.0070 re_causal 0.0204 /// teacc 98.92 lr 0.00010000
+Epoch 114, weight, value: tensor([[-0.1365, -0.1316,  0.0765,  ..., -0.0609,  0.0428,  0.0280],
+        [-0.0777, -0.0284, -0.0454,  ..., -0.0611, -0.0754, -0.0350],
+        [ 0.0319, -0.0667, -0.0411,  ..., -0.0509,  0.0079, -0.2247],
+        ...,
+        [-0.0960,  0.0923,  0.0028,  ...,  0.0915, -0.0243, -0.0962],
+        [-0.0574, -0.0587,  0.0904,  ..., -0.0463, -0.1277,  0.0960],
+        [ 0.0013, -0.1440,  0.0870,  ...,  0.0568, -0.1434, -0.0644]],
+       device='cuda:0'), grad: tensor([[-8.5915e-08,  1.7113e-07, -1.6140e-06,  ...,  4.8243e-07,
+          6.8266e-07,  1.1269e-07],
+        [ 2.5611e-08,  7.7765e-08,  1.2601e-06,  ...,  4.7544e-07,
+          2.2687e-06,  5.2117e-06],
+        [ 3.8650e-08, -8.3074e-07,  1.6242e-06,  ...,  7.9814e-07,
+          1.6531e-07,  2.0098e-06],
+        ...,
+        [ 1.6904e-07, -3.9372e-07,  2.7586e-06,  ...,  1.0459e-06,
+          4.5169e-08,  2.2575e-06],
+        [ 3.0850e-07, -1.0384e-07, -9.1866e-06,  ..., -2.1607e-06,
+          8.9873e-08, -8.7991e-06],
+        [ 1.9395e-07,  4.7125e-07,  1.1898e-07,  ...,  2.1257e-07,
+          3.2829e-08,  2.6207e-06]], device='cuda:0')
+Epoch 114, bias, value: tensor([-0.0159, -0.0183, -0.0270, -0.0272, -0.0078,  0.0038,  0.0110, -0.0215,
+        -0.0045,  0.0035], device='cuda:0'), grad: tensor([ 5.3123e-06, -4.6998e-05, -7.7486e-06,  4.7460e-06,  3.2663e-05,
+         4.6976e-06, -2.4855e-05,  1.8731e-05,  3.3788e-06,  9.9838e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 113, time 220.79, cls_loss 0.0021 cls_loss_mapping 0.0060 cls_loss_causal 0.5457 re_mapping 0.0067 re_causal 0.0196 /// teacc 99.00 lr 0.00010000
+Epoch 115, weight, value: tensor([[-0.1368, -0.1324,  0.0763,  ..., -0.0614,  0.0427,  0.0278],
+        [-0.0783, -0.0285, -0.0455,  ..., -0.0614, -0.0757, -0.0352],
+        [ 0.0324, -0.0673, -0.0417,  ..., -0.0516,  0.0091, -0.2256],
+        ...,
+        [-0.0964,  0.0925,  0.0024,  ...,  0.0919, -0.0244, -0.0976],
+        [-0.0585, -0.0587,  0.0906,  ..., -0.0472, -0.1289,  0.0959],
+        [ 0.0012, -0.1448,  0.0881,  ...,  0.0573, -0.1437, -0.0639]],
+       device='cuda:0'), grad: tensor([[ 6.8359e-06, -6.5705e-07,  2.6543e-08,  ...,  1.3644e-06,
+         -3.1665e-08,  3.3919e-06],
+        [ 2.6124e-07,  5.4343e-07,  2.3637e-06,  ...,  1.3094e-06,
+          2.8405e-08,  9.5367e-06],
+        [-1.3493e-05,  1.2433e-06,  1.6525e-05,  ...,  7.2196e-06,
+         -1.5199e-06,  1.5914e-05],
+        ...,
+        [ 5.0059e-07, -5.2080e-06,  8.2701e-07,  ..., -9.6112e-07,
+          3.3481e-07,  2.5183e-06],
+        [ 5.9009e-06,  1.6540e-06, -1.4448e-04,  ..., -6.7532e-05,
+          2.2165e-07, -2.4486e-04],
+        [ 1.0416e-05,  7.7160e-07,  9.3699e-05,  ...,  6.0827e-05,
+          5.9139e-08,  1.0049e-04]], device='cuda:0')
+Epoch 115, bias, value: tensor([-0.0164, -0.0183, -0.0268, -0.0272, -0.0079,  0.0042,  0.0114, -0.0217,
+        -0.0053,  0.0040], device='cuda:0'), grad: tensor([ 5.4002e-05,  1.7673e-05, -8.1062e-05,  9.0361e-05, -2.9892e-05,
+         6.5923e-05,  4.0889e-05,  4.5970e-06, -4.2152e-04,  2.5916e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 114, time 220.71, cls_loss 0.0017 cls_loss_mapping 0.0052 cls_loss_causal 0.5714 re_mapping 0.0067 re_causal 0.0207 /// teacc 98.98 lr 0.00010000
+Epoch 116, weight, value: tensor([[-0.1372, -0.1338,  0.0762,  ..., -0.0618,  0.0426,  0.0279],
+        [-0.0785, -0.0290, -0.0458,  ..., -0.0617, -0.0761, -0.0352],
+        [ 0.0323, -0.0676, -0.0418,  ..., -0.0514,  0.0094, -0.2261],
+        ...,
+        [-0.0967,  0.0932,  0.0020,  ...,  0.0920, -0.0245, -0.0982],
+        [-0.0591, -0.0589,  0.0911,  ..., -0.0475, -0.1292,  0.0962],
+        [ 0.0013, -0.1453,  0.0887,  ...,  0.0577, -0.1440, -0.0642]],
+       device='cuda:0'), grad: tensor([[ 5.3877e-07,  2.8331e-06,  3.9348e-07,  ...,  2.5406e-06,
+          1.1176e-07, -6.9384e-08],
+        [ 2.0117e-07,  1.1876e-05,  5.9754e-06,  ...,  6.5751e-06,
+          1.3039e-08, -6.0815e-07],
+        [ 1.7369e-07,  1.1131e-05,  5.5879e-06,  ...,  6.6087e-06,
+         -1.3281e-06,  1.1856e-06],
+        ...,
+        [ 1.0058e-07, -7.0274e-05, -3.1501e-05,  ..., -3.6180e-05,
+          1.5367e-07,  2.6636e-07],
+        [ 2.2668e-06,  1.7956e-05,  1.0803e-05,  ...,  2.8647e-06,
+          5.1083e-07,  8.7917e-07],
+        [-1.9185e-06,  1.2331e-05,  7.8930e-07,  ...,  9.5293e-06,
+          6.1002e-08, -8.8476e-08]], device='cuda:0')
+Epoch 116, bias, value: tensor([-0.0169, -0.0185, -0.0265, -0.0272, -0.0083,  0.0042,  0.0115, -0.0215,
+        -0.0053,  0.0042], device='cuda:0'), grad: tensor([ 1.0833e-05,  2.0668e-05,  2.9132e-06,  1.8612e-05, -3.7163e-05,
+         1.4529e-06,  2.0042e-05, -1.1253e-04,  5.0515e-05,  2.4676e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 115, time 220.72, cls_loss 0.0020 cls_loss_mapping 0.0063 cls_loss_causal 0.5355 re_mapping 0.0072 re_causal 0.0199 /// teacc 98.99 lr 0.00010000
+Epoch 117, weight, value: tensor([[-0.1375, -0.1366,  0.0763,  ..., -0.0620,  0.0425,  0.0279],
+        [-0.0792, -0.0300, -0.0462,  ..., -0.0621, -0.0765, -0.0351],
+        [ 0.0321, -0.0683, -0.0421,  ..., -0.0521,  0.0107, -0.2265],
+        ...,
+        [-0.0965,  0.0960,  0.0023,  ...,  0.0931, -0.0238, -0.0986],
+        [-0.0605, -0.0608,  0.0912,  ..., -0.0478, -0.1309,  0.0964],
+        [ 0.0014, -0.1474,  0.0893,  ...,  0.0580, -0.1442, -0.0644]],
+       device='cuda:0'), grad: tensor([[ 2.1420e-08,  9.2667e-08, -1.6764e-06,  ...,  8.3353e-08,
+          4.1910e-09, -2.2016e-06],
+        [ 1.0245e-08, -8.2403e-06,  3.0827e-07,  ...,  1.2666e-07,
+         -2.3283e-09,  1.0524e-07],
+        [ 2.5146e-08,  3.6974e-07,  2.4866e-07,  ...,  2.0955e-07,
+          1.3970e-08,  3.5390e-07],
+        ...,
+        [ 5.1688e-08, -9.3644e-07, -8.4285e-08,  ..., -1.2182e-06,
+          1.7695e-08,  4.0140e-07],
+        [ 5.7789e-07,  1.2573e-07,  2.1327e-07,  ...,  1.2899e-07,
+          2.2817e-08,  1.7863e-06],
+        [-4.7171e-07,  6.8638e-07, -1.4678e-06,  ..., -1.0058e-06,
+          7.9162e-09,  4.2189e-07]], device='cuda:0')
+Epoch 117, bias, value: tensor([-0.0177, -0.0191, -0.0266, -0.0278, -0.0091,  0.0040,  0.0114, -0.0195,
+        -0.0057,  0.0042], device='cuda:0'), grad: tensor([-4.7013e-06, -4.8488e-05,  1.2554e-06,  7.5735e-06,  4.7415e-05,
+        -1.4365e-05,  7.4059e-06,  1.3374e-06,  3.2037e-06, -6.5146e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 116, time 220.67, cls_loss 0.0024 cls_loss_mapping 0.0073 cls_loss_causal 0.5962 re_mapping 0.0067 re_causal 0.0200 /// teacc 98.98 lr 0.00010000
+Epoch 118, weight, value: tensor([[-0.1378, -0.1368,  0.0759,  ..., -0.0634,  0.0424,  0.0282],
+        [-0.0799, -0.0303, -0.0468,  ..., -0.0624, -0.0749, -0.0341],
+        [ 0.0321, -0.0684, -0.0429,  ..., -0.0526,  0.0107, -0.2282],
+        ...,
+        [-0.0969,  0.0965,  0.0024,  ...,  0.0936, -0.0240, -0.0994],
+        [-0.0614, -0.0613,  0.0919,  ..., -0.0482, -0.1312,  0.0970],
+        [ 0.0014, -0.1480,  0.0901,  ...,  0.0584, -0.1447, -0.0651]],
+       device='cuda:0'), grad: tensor([[ 4.6380e-07,  2.8173e-07, -1.3039e-08,  ...,  6.5193e-07,
+          4.6566e-10,  1.6866e-06],
+        [ 9.4110e-07,  1.3281e-06,  1.1884e-05,  ...,  1.3215e-06,
+          4.6566e-10,  2.7642e-05],
+        [ 4.6287e-07,  1.3541e-06,  1.0610e-04,  ...,  8.7125e-07,
+         -8.3819e-09,  2.7204e-04],
+        ...,
+        [ 1.6615e-06, -1.4901e-07,  4.6268e-06,  ...,  2.8871e-06,
+          2.7940e-09,  3.4459e-06],
+        [ 1.7229e-06,  8.0978e-07, -1.2279e-04,  ...,  2.0359e-06,
+          2.3283e-09, -3.2043e-04],
+        [-6.6400e-05,  3.2969e-07, -4.1336e-05,  ..., -5.0604e-05,
+          0.0000e+00, -3.7737e-06]], device='cuda:0')
+Epoch 118, bias, value: tensor([-0.0178, -0.0190, -0.0267, -0.0283, -0.0090,  0.0042,  0.0107, -0.0195,
+        -0.0055,  0.0043], device='cuda:0'), grad: tensor([ 7.1339e-06,  8.3745e-05,  6.9618e-04,  1.7583e-05,  1.2875e-04,
+         3.2842e-05,  1.0893e-05,  2.2724e-05, -8.2970e-04, -1.7047e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 117, time 220.75, cls_loss 0.0022 cls_loss_mapping 0.0058 cls_loss_causal 0.5815 re_mapping 0.0065 re_causal 0.0194 /// teacc 98.94 lr 0.00010000
+Epoch 119, weight, value: tensor([[-0.1382, -0.1370,  0.0761,  ..., -0.0636,  0.0433,  0.0283],
+        [-0.0800, -0.0303, -0.0472,  ..., -0.0628, -0.0753, -0.0346],
+        [ 0.0316, -0.0688, -0.0434,  ..., -0.0530,  0.0111, -0.2306],
+        ...,
+        [-0.0976,  0.0968,  0.0022,  ...,  0.0939, -0.0238, -0.0999],
+        [-0.0618, -0.0616,  0.0926,  ..., -0.0488, -0.1315,  0.0984],
+        [ 0.0020, -0.1488,  0.0907,  ...,  0.0588, -0.1461, -0.0659]],
+       device='cuda:0'), grad: tensor([[ 1.5926e-07,  1.5050e-06, -3.4692e-07,  ...,  5.8860e-07,
+          1.7136e-07, -9.9931e-07],
+        [ 1.1921e-07,  5.3048e-06,  1.7900e-06,  ...,  1.1967e-06,
+          5.2154e-08,  4.1910e-09],
+        [ 4.0000e-07,  2.9728e-06,  1.0747e-06,  ..., -6.9803e-07,
+         -7.7719e-07,  1.8813e-07],
+        ...,
+        [ 8.3679e-07, -1.6436e-05, -5.4128e-06,  ..., -1.7788e-06,
+          4.1444e-07,  3.4971e-07],
+        [ 1.1586e-06,  1.2480e-06,  3.5437e-07,  ...,  7.2736e-07,
+          6.3796e-08,  1.4976e-06],
+        [ 2.8759e-06,  5.5358e-06,  2.0489e-08,  ...,  4.6305e-06,
+          1.0245e-08,  8.4937e-07]], device='cuda:0')
+Epoch 119, bias, value: tensor([-0.0179, -0.0188, -0.0272, -0.0286, -0.0090,  0.0042,  0.0107, -0.0198,
+        -0.0042,  0.0043], device='cuda:0'), grad: tensor([ 1.0423e-05,  1.0565e-05, -2.4550e-06, -1.2163e-06, -1.6376e-05,
+        -3.2149e-06, -1.1325e-05, -1.9982e-05,  7.5586e-06,  2.6077e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 118, time 221.05, cls_loss 0.0028 cls_loss_mapping 0.0061 cls_loss_causal 0.5739 re_mapping 0.0072 re_causal 0.0197 /// teacc 99.02 lr 0.00010000
+Epoch 120, weight, value: tensor([[-0.1392, -0.1375,  0.0762,  ..., -0.0636,  0.0431,  0.0279],
+        [-0.0807, -0.0303, -0.0475,  ..., -0.0633, -0.0762, -0.0337],
+        [ 0.0305, -0.0695, -0.0439,  ..., -0.0535,  0.0119, -0.2326],
+        ...,
+        [-0.0984,  0.0972,  0.0022,  ...,  0.0943, -0.0246, -0.1009],
+        [-0.0622, -0.0622,  0.0938,  ..., -0.0490, -0.1321,  0.0997],
+        [ 0.0025, -0.1503,  0.0908,  ...,  0.0586, -0.1477, -0.0672]],
+       device='cuda:0'), grad: tensor([[ 2.7008e-07,  1.5292e-06, -5.0431e-07,  ...,  2.3656e-07,
+          1.5320e-07,  6.3423e-07],
+        [ 3.0221e-07,  1.6298e-06,  3.8045e-07,  ...,  3.6554e-07,
+          1.6410e-06,  9.9279e-07],
+        [ 5.5274e-07,  3.8221e-06,  2.9383e-07,  ...,  2.1420e-07,
+          3.9581e-07,  1.3858e-06],
+        ...,
+        [ 8.4843e-07,  2.9728e-06,  1.7341e-06,  ...,  8.1630e-07,
+          3.8138e-07,  1.6363e-06],
+        [ 4.9509e-06,  2.7433e-05,  1.2470e-06,  ...,  2.9225e-06,
+          1.0151e-07, -5.0098e-05],
+        [-1.1511e-06,  3.2634e-06, -9.5293e-06,  ..., -6.1691e-06,
+          6.0070e-07, -1.1642e-06]], device='cuda:0')
+Epoch 120, bias, value: tensor([-0.0182, -0.0184, -0.0277, -0.0287, -0.0085,  0.0037,  0.0113, -0.0199,
+        -0.0034,  0.0036], device='cuda:0'), grad: tensor([ 5.1931e-06,  2.2113e-05,  1.0520e-05, -9.5749e-04, -4.3201e-04,
+         9.4175e-04,  4.4227e-04,  1.2778e-05, -4.0859e-05, -5.5581e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 119, time 220.53, cls_loss 0.0027 cls_loss_mapping 0.0078 cls_loss_causal 0.5718 re_mapping 0.0068 re_causal 0.0192 /// teacc 98.86 lr 0.00010000
+Epoch 121, weight, value: tensor([[-0.1391, -0.1383,  0.0761,  ..., -0.0644,  0.0428,  0.0279],
+        [-0.0816, -0.0308, -0.0482,  ..., -0.0639, -0.0765, -0.0340],
+        [ 0.0327, -0.0711, -0.0444,  ..., -0.0541,  0.0118, -0.2337],
+        ...,
+        [-0.1003,  0.0976,  0.0022,  ...,  0.0949, -0.0246, -0.1016],
+        [-0.0637, -0.0640,  0.0938,  ..., -0.0495, -0.1322,  0.1002],
+        [ 0.0026, -0.1519,  0.0915,  ...,  0.0590, -0.1481, -0.0673]],
+       device='cuda:0'), grad: tensor([[-5.5879e-09,  7.7533e-07, -6.0583e-07,  ...,  1.2433e-07,
+          0.0000e+00, -1.3132e-06],
+        [ 4.1910e-09,  2.2706e-06,  2.5891e-07,  ...,  2.2678e-07,
+          4.6566e-10, -1.0496e-06],
+        [ 1.8626e-09,  3.4533e-06,  9.6299e-07,  ...,  2.9653e-06,
+         -2.1886e-08,  2.1979e-07],
+        ...,
+        [ 1.6764e-08,  1.6773e-04,  7.2062e-05,  ..., -7.0371e-06,
+          7.9162e-09,  3.3155e-07],
+        [ 1.7881e-07,  2.0321e-06,  9.8906e-07,  ...,  4.4284e-07,
+          6.5193e-09,  4.4517e-07],
+        [-6.8918e-08,  1.6969e-06, -1.1958e-06,  ..., -1.0654e-06,
+          9.3132e-10,  2.1560e-07]], device='cuda:0')
+Epoch 121, bias, value: tensor([-0.0188, -0.0193, -0.0269, -0.0262, -0.0080,  0.0030,  0.0115, -0.0199,
+        -0.0038,  0.0033], device='cuda:0'), grad: tensor([-1.8124e-06,  1.1519e-05, -1.7017e-05, -1.8764e-04,  2.1476e-06,
+         1.4631e-06,  2.1830e-06,  1.8442e-04,  4.8317e-06, -3.4506e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 120, time 220.98, cls_loss 0.0032 cls_loss_mapping 0.0063 cls_loss_causal 0.5652 re_mapping 0.0070 re_causal 0.0196 /// teacc 99.01 lr 0.00010000
+Epoch 122, weight, value: tensor([[-0.1396, -0.1387,  0.0763,  ..., -0.0647,  0.0428,  0.0281],
+        [-0.0798, -0.0312, -0.0481,  ..., -0.0634, -0.0766, -0.0303],
+        [ 0.0323, -0.0711, -0.0452,  ..., -0.0554,  0.0120, -0.2358],
+        ...,
+        [-0.1007,  0.0988,  0.0023,  ...,  0.0952, -0.0247, -0.1032],
+        [-0.0648, -0.0660,  0.0944,  ..., -0.0497, -0.1325,  0.1003],
+        [ 0.0033, -0.1534,  0.0919,  ...,  0.0591, -0.1485, -0.0678]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-08,  2.5611e-08, -6.2399e-07,  ...,  6.5193e-08,
+          1.3970e-09, -2.6124e-07],
+        [ 2.5611e-08,  1.5460e-07,  1.2713e-07,  ...,  1.1688e-07,
+         -6.0070e-08, -7.0455e-07],
+        [-2.1420e-07,  3.7272e-06,  1.4249e-06,  ...,  2.3693e-06,
+         -1.9558e-08,  1.3085e-07],
+        ...,
+        [ 7.4692e-07, -4.5188e-06, -1.5199e-06,  ..., -2.9635e-06,
+          5.1223e-09,  2.8126e-06],
+        [ 2.4252e-06,  4.2003e-07,  3.6275e-07,  ...,  3.3947e-07,
+          5.7276e-08,  8.3819e-06],
+        [-1.2619e-07,  1.0477e-07, -7.5530e-07,  ..., -3.2736e-07,
+          4.6566e-10,  4.8894e-08]], device='cuda:0')
+Epoch 122, bias, value: tensor([-0.0189, -0.0181, -0.0275, -0.0271, -0.0079,  0.0028,  0.0110, -0.0197,
+        -0.0048,  0.0034], device='cuda:0'), grad: tensor([-5.3365e-07, -9.1409e-07, -6.5565e-06,  3.3397e-06,  8.9454e-07,
+        -9.9838e-06,  6.5984e-07, -3.1404e-06,  1.6302e-05, -1.0384e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 121, time 220.59, cls_loss 0.0024 cls_loss_mapping 0.0043 cls_loss_causal 0.5396 re_mapping 0.0068 re_causal 0.0193 /// teacc 98.93 lr 0.00010000
+Epoch 123, weight, value: tensor([[-0.1400, -0.1389,  0.0766,  ..., -0.0648,  0.0427,  0.0282],
+        [-0.0802, -0.0306, -0.0482,  ..., -0.0638, -0.0769, -0.0301],
+        [ 0.0332, -0.0694, -0.0445,  ..., -0.0534,  0.0121, -0.2362],
+        ...,
+        [-0.1015,  0.0976,  0.0018,  ...,  0.0950, -0.0244, -0.1037],
+        [-0.0652, -0.0671,  0.0949,  ..., -0.0501, -0.1328,  0.1008],
+        [ 0.0035, -0.1544,  0.0920,  ...,  0.0589, -0.1487, -0.0678]],
+       device='cuda:0'), grad: tensor([[-1.6717e-07,  9.4855e-07, -1.2815e-05,  ...,  4.2422e-07,
+         -4.3772e-08, -8.6650e-06],
+        [ 2.2352e-08,  6.9523e-07,  1.2182e-06,  ...,  4.5775e-07,
+          1.3970e-09,  3.2177e-07],
+        [ 5.2620e-08,  2.0508e-06,  2.7362e-06,  ...,  1.0887e-06,
+          3.7253e-09,  2.1011e-06],
+        ...,
+        [-4.3306e-08, -1.2465e-05, -2.7623e-06,  ..., -6.3740e-06,
+          7.9162e-09,  1.6745e-06],
+        [ 1.2945e-07, -3.4785e-07, -8.2180e-06,  ...,  7.6974e-07,
+          1.8626e-09, -1.2189e-05],
+        [ 3.4925e-08,  6.0610e-06,  3.8594e-06,  ...,  1.3635e-06,
+          1.2107e-08,  5.1782e-06]], device='cuda:0')
+Epoch 123, bias, value: tensor([-0.0188, -0.0176, -0.0254, -0.0272, -0.0071,  0.0023,  0.0110, -0.0210,
+        -0.0048,  0.0027], device='cuda:0'), grad: tensor([-5.2214e-05,  2.6990e-06,  1.0259e-05,  3.9071e-05, -1.2685e-06,
+         9.4324e-06,  6.8061e-06, -1.2174e-05, -2.1979e-05,  1.9401e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 122, time 220.15, cls_loss 0.0022 cls_loss_mapping 0.0060 cls_loss_causal 0.5607 re_mapping 0.0067 re_causal 0.0192 /// teacc 98.93 lr 0.00010000
+Epoch 124, weight, value: tensor([[-0.1400, -0.1389,  0.0768,  ..., -0.0650,  0.0427,  0.0280],
+        [-0.0807, -0.0309, -0.0486,  ..., -0.0644, -0.0769, -0.0302],
+        [ 0.0330, -0.0698, -0.0449,  ..., -0.0541,  0.0122, -0.2367],
+        ...,
+        [-0.1022,  0.0983,  0.0025,  ...,  0.0960, -0.0245, -0.1038],
+        [-0.0659, -0.0676,  0.0953,  ..., -0.0504, -0.1328,  0.1013],
+        [ 0.0028, -0.1573,  0.0922,  ...,  0.0585, -0.1488, -0.0693]],
+       device='cuda:0'), grad: tensor([[ 2.7381e-06,  1.1455e-07,  1.5035e-05,  ...,  1.6406e-05,
+          7.9162e-09, -2.8824e-07],
+        [ 1.2266e-06,  4.8941e-07,  4.7162e-06,  ...,  1.0863e-05,
+          4.1910e-09, -1.3644e-07],
+        [ 3.2708e-06,  2.5239e-07,  3.6694e-06,  ...,  1.2062e-05,
+         -4.6100e-08,  4.5635e-08],
+        ...,
+        [ 2.2184e-06, -1.0114e-06,  1.4342e-06,  ...,  1.4889e-04,
+          5.1223e-09,  1.3690e-07],
+        [ 5.2117e-06,  9.5041e-07,  2.4270e-06,  ...,  1.8358e-05,
+          1.3039e-08,  3.5856e-08],
+        [-9.4175e-05,  9.0385e-07, -6.2883e-05,  ..., -6.7592e-05,
+          1.3970e-09,  1.9791e-07]], device='cuda:0')
+Epoch 124, bias, value: tensor([-0.0188, -0.0180, -0.0255, -0.0293, -0.0068,  0.0045,  0.0111, -0.0205,
+        -0.0046,  0.0019], device='cuda:0'), grad: tensor([ 6.7294e-05,  3.3557e-05,  3.6687e-05, -2.6628e-05, -3.7074e-04,
+         9.0182e-05,  1.4067e-04,  3.3498e-04,  5.2303e-05, -3.5763e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 123, time 220.41, cls_loss 0.0023 cls_loss_mapping 0.0063 cls_loss_causal 0.5327 re_mapping 0.0066 re_causal 0.0184 /// teacc 99.00 lr 0.00010000
+Epoch 125, weight, value: tensor([[-0.1401, -0.1391,  0.0771,  ..., -0.0651,  0.0427,  0.0280],
+        [-0.0812, -0.0309, -0.0494,  ..., -0.0652, -0.0771, -0.0308],
+        [ 0.0332, -0.0700, -0.0454,  ..., -0.0545,  0.0125, -0.2376],
+        ...,
+        [-0.1029,  0.0989,  0.0034,  ...,  0.0971, -0.0246, -0.1039],
+        [-0.0673, -0.0680,  0.0957,  ..., -0.0508, -0.1330,  0.1030],
+        [ 0.0026, -0.1599,  0.0921,  ...,  0.0582, -0.1488, -0.0701]],
+       device='cuda:0'), grad: tensor([[-3.4599e-07,  5.0897e-07, -4.7162e-06,  ...,  4.4703e-08,
+         -5.2573e-07, -6.1980e-07],
+        [ 1.0990e-06,  4.6678e-06,  5.2974e-06,  ...,  8.9873e-07,
+          1.8626e-09,  4.2468e-06],
+        [ 1.0058e-07,  8.7768e-06,  1.8820e-05,  ..., -3.0268e-08,
+          8.3353e-08,  1.3389e-05],
+        ...,
+        [ 9.2201e-08,  2.2221e-06,  3.7998e-06,  ...,  2.7148e-07,
+          9.3132e-10,  2.5928e-06],
+        [ 1.6997e-07, -1.5251e-05, -3.4034e-05,  ...,  1.4203e-07,
+          2.5611e-08, -2.4691e-05],
+        [ 2.9942e-07,  1.0077e-06,  1.1940e-06,  ...,  1.4063e-07,
+          2.1886e-08,  9.3924e-07]], device='cuda:0')
+Epoch 125, bias, value: tensor([-0.0188, -0.0180, -0.0257, -0.0288, -0.0069,  0.0039,  0.0103, -0.0203,
+        -0.0032,  0.0015], device='cuda:0'), grad: tensor([-1.2077e-05,  3.7879e-05,  4.5300e-05, -2.1756e-06, -1.9580e-05,
+         1.6987e-05, -4.2170e-06,  1.6004e-05, -8.4937e-05,  6.8657e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 124, time 220.41, cls_loss 0.0022 cls_loss_mapping 0.0056 cls_loss_causal 0.5346 re_mapping 0.0066 re_causal 0.0180 /// teacc 99.03 lr 0.00010000
+Epoch 126, weight, value: tensor([[-0.1399, -0.1392,  0.0796,  ..., -0.0640,  0.0429,  0.0300],
+        [-0.0817, -0.0315, -0.0500,  ..., -0.0660, -0.0784, -0.0315],
+        [ 0.0336, -0.0703, -0.0460,  ..., -0.0548,  0.0124, -0.2386],
+        ...,
+        [-0.1035,  0.0993,  0.0023,  ...,  0.0976, -0.0246, -0.1050],
+        [-0.0697, -0.0685,  0.0954,  ..., -0.0516, -0.1330,  0.1021],
+        [ 0.0032, -0.1606,  0.0923,  ...,  0.0586, -0.1490, -0.0714]],
+       device='cuda:0'), grad: tensor([[ 3.5856e-07,  2.2119e-07, -1.3970e-08,  ...,  2.0955e-08,
+          0.0000e+00,  4.6473e-07],
+        [ 1.9791e-07,  1.3551e-07,  2.2817e-08,  ...,  2.5146e-08,
+          0.0000e+00,  2.8033e-07],
+        [ 5.2899e-07, -3.9628e-07,  9.4529e-08,  ...,  7.9628e-08,
+          0.0000e+00,  7.3621e-07],
+        ...,
+        [ 3.1665e-07,  9.4995e-08, -7.9628e-08,  ..., -1.1362e-07,
+          0.0000e+00,  3.9535e-07],
+        [ 1.7229e-06,  6.8499e-07,  1.2061e-07,  ...,  8.5682e-08,
+          4.6566e-10,  2.6375e-06],
+        [ 2.3469e-06,  8.2236e-07, -3.3015e-07,  ..., -1.4063e-07,
+          0.0000e+00,  2.8722e-06]], device='cuda:0')
+Epoch 126, bias, value: tensor([-0.0160, -0.0186, -0.0258, -0.0281, -0.0072,  0.0037,  0.0112, -0.0204,
+        -0.0044,  0.0010], device='cuda:0'), grad: tensor([ 1.9427e-06,  1.0775e-06, -4.8243e-06,  1.7047e-05, -4.6473e-07,
+        -2.3663e-05, -4.8652e-06,  2.1737e-06,  6.4485e-06,  5.1297e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 125, time 220.53, cls_loss 0.0021 cls_loss_mapping 0.0046 cls_loss_causal 0.5821 re_mapping 0.0065 re_causal 0.0189 /// teacc 98.86 lr 0.00010000
+Epoch 127, weight, value: tensor([[-0.1414, -0.1394,  0.0796,  ..., -0.0642,  0.0432,  0.0299],
+        [-0.0821, -0.0316, -0.0515,  ..., -0.0669, -0.0788, -0.0319],
+        [ 0.0338, -0.0706, -0.0467,  ..., -0.0551,  0.0126, -0.2397],
+        ...,
+        [-0.1041,  0.0998,  0.0023,  ...,  0.0982, -0.0242, -0.1053],
+        [-0.0708, -0.0696,  0.0951,  ..., -0.0528, -0.1332,  0.1024],
+        [ 0.0041, -0.1612,  0.0938,  ...,  0.0595, -0.1494, -0.0704]],
+       device='cuda:0'), grad: tensor([[ 3.7858e-07,  1.2107e-07,  6.0983e-06,  ...,  9.4995e-08,
+          0.0000e+00,  2.7418e-05],
+        [ 1.8682e-06,  5.2527e-07, -4.1962e-05,  ...,  3.6601e-07,
+          0.0000e+00, -1.0389e-04],
+        [ 4.3027e-06,  3.5763e-06,  1.6615e-06,  ...,  3.0994e-06,
+          0.0000e+00,  1.1063e-04],
+        ...,
+        [ 3.2270e-07, -4.6045e-06,  1.5991e-06,  ..., -4.0457e-06,
+          0.0000e+00,  1.3940e-05],
+        [-2.1830e-05,  1.8766e-07,  2.1547e-05,  ...,  1.2806e-07,
+          0.0000e+00, -3.7503e-04],
+        [ 1.4575e-07,  4.4238e-07,  8.6520e-07,  ...,  2.9337e-08,
+          0.0000e+00,  5.5358e-06]], device='cuda:0')
+Epoch 127, bias, value: tensor([-0.0162, -0.0191, -0.0257, -0.0275, -0.0079,  0.0031,  0.0112, -0.0202,
+        -0.0047,  0.0023], device='cuda:0'), grad: tensor([ 7.9274e-05, -3.8099e-04,  2.2626e-04,  1.9819e-05,  3.0011e-05,
+         3.6454e-04,  2.5702e-04,  3.2127e-05, -6.4230e-04,  1.4432e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 126, time 220.99, cls_loss 0.0021 cls_loss_mapping 0.0065 cls_loss_causal 0.5581 re_mapping 0.0064 re_causal 0.0186 /// teacc 98.88 lr 0.00010000
+Epoch 128, weight, value: tensor([[-0.1416, -0.1397,  0.0798,  ..., -0.0645,  0.0431,  0.0299],
+        [-0.0823, -0.0316, -0.0517,  ..., -0.0673, -0.0789, -0.0315],
+        [ 0.0339, -0.0713, -0.0474,  ..., -0.0553,  0.0127, -0.2407],
+        ...,
+        [-0.1045,  0.1000,  0.0006,  ...,  0.0967, -0.0242, -0.1057],
+        [-0.0711, -0.0699,  0.0954,  ..., -0.0531, -0.1333,  0.1034],
+        [ 0.0041, -0.1627,  0.0961,  ...,  0.0623, -0.1496, -0.0709]],
+       device='cuda:0'), grad: tensor([[-2.5611e-08,  2.5239e-07, -3.3993e-08,  ...,  2.3562e-07,
+          1.3039e-08,  3.2596e-09],
+        [ 1.8626e-09,  1.3165e-05,  2.9374e-06,  ...,  5.4091e-06,
+          6.6124e-08, -7.7300e-08],
+        [ 2.3283e-09,  1.2042e-06,  5.4296e-07,  ...,  7.1293e-07,
+          7.5437e-08,  4.2235e-07],
+        ...,
+        [ 5.1223e-09, -3.7462e-05, -1.1541e-05,  ..., -2.1189e-05,
+          1.3039e-08,  1.9511e-07],
+        [ 1.8626e-09,  2.2352e-06, -4.2608e-07,  ...,  1.0431e-06,
+          1.5367e-08, -4.8522e-07],
+        [ 4.6566e-09,  8.3596e-06,  4.8354e-06,  ...,  8.9034e-06,
+          4.6566e-09,  2.1094e-07]], device='cuda:0')
+Epoch 128, bias, value: tensor([-0.0166, -0.0189, -0.0258, -0.0271, -0.0088,  0.0031,  0.0104, -0.0214,
+        -0.0040,  0.0043], device='cuda:0'), grad: tensor([ 9.2899e-07,  2.6315e-05, -2.0303e-07,  1.5691e-05,  8.2105e-06,
+         4.0159e-06, -8.1733e-06, -7.6354e-05,  6.7353e-06,  2.2933e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 127, time 220.50, cls_loss 0.0025 cls_loss_mapping 0.0060 cls_loss_causal 0.5463 re_mapping 0.0065 re_causal 0.0183 /// teacc 99.00 lr 0.00010000
+Epoch 129, weight, value: tensor([[-1.4290e-01, -1.4000e-01,  7.9997e-02,  ..., -6.4629e-02,
+          4.3052e-02,  2.9482e-02],
+        [-8.2983e-02, -3.2171e-02, -5.2553e-02,  ..., -6.8332e-02,
+         -7.9693e-02, -3.1947e-02],
+        [ 3.3566e-02, -7.1794e-02, -4.8039e-02,  ..., -5.5922e-02,
+          1.2678e-02, -2.4167e-01],
+        ...,
+        [-1.0481e-01,  9.9471e-02,  1.1697e-04,  ...,  9.7235e-02,
+         -2.3901e-02, -1.0618e-01],
+        [-7.4304e-02, -7.0558e-02,  9.6268e-02,  ..., -5.3398e-02,
+         -1.3333e-01,  1.0218e-01],
+        [ 4.1234e-03, -1.6389e-01,  9.6092e-02,  ...,  6.2147e-02,
+         -1.4965e-01, -7.1429e-02]], device='cuda:0'), grad: tensor([[ 2.8592e-07,  1.4119e-06,  1.5860e-06,  ...,  2.3097e-06,
+          0.0000e+00,  7.5251e-07],
+        [ 8.0559e-08,  1.9576e-06,  3.0287e-06,  ...,  4.8727e-06,
+          0.0000e+00,  1.6708e-06],
+        [ 2.0955e-07,  2.5406e-06,  2.9355e-06,  ...,  4.5225e-06,
+         -4.6566e-10,  4.0345e-06],
+        ...,
+        [ 3.3388e-07, -1.2064e-04, -1.9801e-04,  ..., -3.2663e-04,
+          0.0000e+00,  5.7230e-07],
+        [ 1.7472e-06,  7.2382e-06,  7.6890e-06,  ...,  8.5011e-06,
+          0.0000e+00,  2.7418e-06],
+        [ 1.8580e-07,  1.0020e-04,  1.7166e-04,  ...,  2.9206e-04,
+          0.0000e+00,  4.8848e-07]], device='cuda:0')
+Epoch 129, bias, value: tensor([-0.0164, -0.0193, -0.0261, -0.0253, -0.0086,  0.0023,  0.0124, -0.0216,
+        -0.0049,  0.0038], device='cuda:0'), grad: tensor([ 1.2085e-05,  1.5177e-05,  6.7651e-05,  2.0057e-05,  5.3018e-05,
+        -1.8980e-06, -1.4222e-04, -6.8712e-04,  3.8147e-05,  6.2513e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 128, time 221.14, cls_loss 0.0021 cls_loss_mapping 0.0053 cls_loss_causal 0.5017 re_mapping 0.0067 re_causal 0.0181 /// teacc 99.01 lr 0.00010000
+Epoch 130, weight, value: tensor([[-0.1436, -0.1402,  0.0802,  ..., -0.0650,  0.0431,  0.0297],
+        [-0.0840, -0.0324, -0.0543,  ..., -0.0698, -0.0798, -0.0345],
+        [ 0.0319, -0.0723, -0.0486,  ..., -0.0567,  0.0126, -0.2436],
+        ...,
+        [-0.1057,  0.1000,  0.0011,  ...,  0.0982, -0.0238, -0.1038],
+        [-0.0756, -0.0709,  0.0965,  ..., -0.0538, -0.1334,  0.1021],
+        [ 0.0043, -0.1648,  0.0963,  ...,  0.0621, -0.1498, -0.0718]],
+       device='cuda:0'), grad: tensor([[ 2.4028e-07,  1.2107e-07, -5.9046e-07,  ...,  1.0012e-07,
+          1.0245e-08, -5.6904e-07],
+        [ 1.2806e-07,  4.9919e-07,  6.1747e-07,  ...,  2.4028e-07,
+          9.7789e-09,  5.0757e-08],
+        [ 1.6717e-07,  1.6727e-06,  1.5348e-06,  ...,  1.8580e-07,
+          4.3772e-08,  9.2899e-07],
+        ...,
+        [ 1.9837e-07, -4.0680e-06, -3.2652e-06,  ..., -6.0424e-06,
+          2.4214e-08,  8.5169e-07],
+        [ 2.4633e-07,  3.0156e-06, -2.7463e-05,  ..., -1.3798e-05,
+          9.7789e-09, -3.2693e-05],
+        [ 5.9046e-07,  4.9174e-06,  2.9474e-05,  ...,  1.7807e-05,
+          3.6322e-08,  2.9176e-05]], device='cuda:0')
+Epoch 130, bias, value: tensor([-0.0165, -0.0199, -0.0266, -0.0263, -0.0085,  0.0033,  0.0130, -0.0209,
+        -0.0053,  0.0036], device='cuda:0'), grad: tensor([-8.0699e-07, -9.3319e-07,  6.0424e-06, -1.1459e-05,  1.5423e-06,
+        -2.3432e-06,  2.8852e-06, -6.4336e-06, -6.4611e-05,  7.6115e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 129, time 221.12, cls_loss 0.0020 cls_loss_mapping 0.0049 cls_loss_causal 0.5496 re_mapping 0.0064 re_causal 0.0181 /// teacc 98.96 lr 0.00010000
+Epoch 131, weight, value: tensor([[-0.1440, -0.1407,  0.0803,  ..., -0.0652,  0.0431,  0.0298],
+        [-0.0847, -0.0327, -0.0550,  ..., -0.0703, -0.0798, -0.0345],
+        [ 0.0318, -0.0721, -0.0487,  ..., -0.0572,  0.0127, -0.2441],
+        ...,
+        [-0.1063,  0.1007,  0.0020,  ...,  0.0989, -0.0239, -0.1034],
+        [-0.0763, -0.0724,  0.0963,  ..., -0.0548, -0.1334,  0.1021],
+        [ 0.0046, -0.1664,  0.0964,  ...,  0.0619, -0.1499, -0.0722]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09,  2.8238e-06,  2.2147e-06,  ...,  2.9709e-07,
+          0.0000e+00,  3.5614e-06],
+        [ 2.3283e-09,  4.6492e-06,  8.6473e-07,  ...,  7.1386e-07,
+          0.0000e+00, -3.1339e-07],
+        [ 1.8626e-09,  5.4352e-06,  1.2644e-05,  ...,  2.7288e-07,
+         -9.3132e-10,  2.1085e-05],
+        ...,
+        [ 1.0710e-08,  1.2359e-06,  3.1758e-06,  ..., -2.6561e-06,
+          0.0000e+00,  5.4836e-06],
+        [ 6.9849e-09,  3.4105e-06, -4.3988e-05,  ...,  6.1467e-08,
+          0.0000e+00, -7.0572e-05],
+        [-5.1223e-09,  4.8913e-06,  1.8030e-06,  ...,  2.5667e-06,
+          0.0000e+00,  1.6317e-06]], device='cuda:0')
+Epoch 131, bias, value: tensor([-0.0164, -0.0199, -0.0265, -0.0266, -0.0081,  0.0036,  0.0128, -0.0206,
+        -0.0058,  0.0033], device='cuda:0'), grad: tensor([ 1.0528e-05,  5.5991e-06,  3.7044e-05, -2.8038e-04,  8.8150e-07,
+         2.7895e-04,  7.7253e-07,  1.5587e-05, -8.4937e-05,  1.5676e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 130, time 221.11, cls_loss 0.0024 cls_loss_mapping 0.0056 cls_loss_causal 0.5521 re_mapping 0.0066 re_causal 0.0179 /// teacc 99.00 lr 0.00010000
+Epoch 132, weight, value: tensor([[-0.1463, -0.1413,  0.0804,  ..., -0.0655,  0.0430,  0.0294],
+        [-0.0852, -0.0330, -0.0555,  ..., -0.0711, -0.0798, -0.0348],
+        [ 0.0317, -0.0727, -0.0494,  ..., -0.0578,  0.0127, -0.2452],
+        ...,
+        [-0.1068,  0.1015,  0.0025,  ...,  0.0997, -0.0239, -0.1034],
+        [-0.0772, -0.0734,  0.0968,  ..., -0.0553, -0.1335,  0.1027],
+        [ 0.0041, -0.1687,  0.0964,  ...,  0.0619, -0.1499, -0.0733]],
+       device='cuda:0'), grad: tensor([[ 4.5933e-06,  3.6741e-07,  1.7896e-05,  ...,  1.1340e-05,
+          0.0000e+00,  7.1898e-06],
+        [ 2.5611e-08, -1.6158e-07,  7.5949e-07,  ...,  1.7947e-06,
+          0.0000e+00, -1.2875e-05],
+        [ 2.0070e-07,  1.1064e-06,  9.7975e-07,  ...,  2.3320e-06,
+         -4.6566e-10,  5.4855e-07],
+        ...,
+        [ 1.4994e-07, -4.9733e-06,  3.3733e-06,  ...,  5.1931e-06,
+          0.0000e+00,  1.3877e-06],
+        [ 5.5833e-07,  9.4017e-07,  1.2387e-06,  ...,  2.1402e-06,
+          4.6566e-10,  3.3658e-06],
+        [-1.3568e-05,  1.2778e-06, -6.6936e-05,  ..., -6.0916e-05,
+          0.0000e+00, -2.7176e-06]], device='cuda:0')
+Epoch 132, bias, value: tensor([-0.0168, -0.0200, -0.0269, -0.0259, -0.0081,  0.0049,  0.0120, -0.0202,
+        -0.0055,  0.0025], device='cuda:0'), grad: tensor([ 4.8548e-05, -3.4213e-05,  9.7007e-06,  8.3959e-07,  6.9916e-05,
+        -2.3559e-05,  2.4229e-05,  2.1845e-05,  1.9372e-05, -1.3673e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 131----------------------------------------------------
+epoch 131, time 221.44, cls_loss 0.0022 cls_loss_mapping 0.0061 cls_loss_causal 0.5876 re_mapping 0.0070 re_causal 0.0194 /// teacc 99.06 lr 0.00010000
+Epoch 133, weight, value: tensor([[-0.1459, -0.1404,  0.0813,  ..., -0.0659,  0.0430,  0.0296],
+        [-0.0860, -0.0331, -0.0559,  ..., -0.0715, -0.0819, -0.0356],
+        [ 0.0314, -0.0731, -0.0504,  ..., -0.0582,  0.0128, -0.2465],
+        ...,
+        [-0.1076,  0.1018,  0.0027,  ...,  0.1002, -0.0237, -0.1038],
+        [-0.0776, -0.0730,  0.0981,  ..., -0.0557, -0.1335,  0.1042],
+        [ 0.0022, -0.1716,  0.0944,  ...,  0.0616, -0.1500, -0.0746]],
+       device='cuda:0'), grad: tensor([[ 4.1910e-09, -1.1362e-06, -4.0010e-06,  ...,  1.0943e-07,
+          0.0000e+00, -3.7570e-06],
+        [ 2.7940e-09,  3.4645e-07,  5.4622e-07,  ...,  8.8476e-08,
+          0.0000e+00, -9.3132e-08],
+        [ 4.6566e-10,  4.7917e-07,  5.6112e-07,  ..., -5.2620e-08,
+         -9.3132e-10,  6.3237e-07],
+        ...,
+        [ 1.7229e-08, -2.6030e-07,  5.7556e-07,  ...,  1.1595e-07,
+          0.0000e+00,  4.5495e-07],
+        [ 5.5879e-09,  2.4959e-07,  2.8405e-07,  ...,  3.8790e-07,
+          0.0000e+00, -4.9546e-07],
+        [-1.8952e-07,  4.8196e-07, -2.4587e-06,  ...,  3.2466e-06,
+          0.0000e+00,  3.7719e-07]], device='cuda:0')
+Epoch 133, bias, value: tensor([-0.0159, -0.0204, -0.0272, -0.0242, -0.0069,  0.0041,  0.0122, -0.0202,
+        -0.0042,  0.0003], device='cuda:0'), grad: tensor([-8.0541e-06, -8.6520e-07,  1.4007e-06,  2.1923e-06, -2.0474e-05,
+         3.0342e-06, -7.6788e-07,  2.2538e-06,  1.2536e-06,  2.0042e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 132, time 220.42, cls_loss 0.0021 cls_loss_mapping 0.0059 cls_loss_causal 0.5416 re_mapping 0.0064 re_causal 0.0173 /// teacc 98.90 lr 0.00010000
+Epoch 134, weight, value: tensor([[-0.1462, -0.1409,  0.0816,  ..., -0.0663,  0.0430,  0.0300],
+        [-0.0867, -0.0329, -0.0556,  ..., -0.0721, -0.0825, -0.0354],
+        [ 0.0309, -0.0731, -0.0511,  ..., -0.0586,  0.0132, -0.2478],
+        ...,
+        [-0.1077,  0.1020,  0.0026,  ...,  0.1007, -0.0233, -0.1046],
+        [-0.0787, -0.0731,  0.0986,  ..., -0.0560, -0.1337,  0.1046],
+        [ 0.0021, -0.1721,  0.0946,  ...,  0.0613, -0.1502, -0.0750]],
+       device='cuda:0'), grad: tensor([[ 4.0978e-08,  2.3004e-07,  5.9837e-07,  ...,  9.0944e-07,
+          1.3970e-09,  8.5728e-07],
+        [ 1.3039e-08,  5.3644e-07,  2.0023e-07,  ...,  7.2969e-07,
+         -1.9558e-08, -1.4314e-06],
+        [ 2.7008e-08,  2.5388e-06,  3.6154e-06,  ..., -4.5123e-07,
+          3.7253e-09,  1.2638e-06],
+        ...,
+        [ 1.9558e-08,  3.0100e-06,  1.5832e-07,  ...,  9.5228e-07,
+          4.1910e-09,  6.3889e-07],
+        [ 4.6100e-08,  7.5297e-07,  5.3644e-06,  ...,  4.0717e-06,
+          3.7253e-09,  2.1867e-06],
+        [ 1.7509e-07,  5.4715e-07, -1.2748e-05,  ..., -1.6028e-06,
+          9.3132e-10, -3.0287e-06]], device='cuda:0')
+Epoch 134, bias, value: tensor([-1.5717e-02, -2.0013e-02, -2.7000e-02, -2.4380e-02, -6.2750e-03,
+         4.3196e-03,  1.1450e-02, -2.0538e-02, -3.7213e-03, -8.6620e-05],
+       device='cuda:0'), grad: tensor([ 5.7071e-06, -4.2701e-07,  1.6596e-06, -1.9744e-05, -1.9029e-05,
+         1.2740e-05, -5.3160e-06,  1.2703e-05,  2.0817e-05, -9.1568e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 133, time 220.73, cls_loss 0.0023 cls_loss_mapping 0.0052 cls_loss_causal 0.5491 re_mapping 0.0063 re_causal 0.0178 /// teacc 98.97 lr 0.00010000
+Epoch 135, weight, value: tensor([[-0.1465, -0.1417,  0.0815,  ..., -0.0667,  0.0433,  0.0301],
+        [-0.0868, -0.0336, -0.0563,  ..., -0.0731, -0.0832, -0.0364],
+        [ 0.0318, -0.0752, -0.0527,  ..., -0.0600,  0.0140, -0.2490],
+        ...,
+        [-0.1080,  0.1041,  0.0040,  ...,  0.1026, -0.0225, -0.1036],
+        [-0.0788, -0.0751,  0.0986,  ..., -0.0573, -0.1342,  0.1050],
+        [ 0.0023, -0.1735,  0.0949,  ...,  0.0612, -0.1507, -0.0758]],
+       device='cuda:0'), grad: tensor([[ 4.4238e-09,  2.0233e-07,  1.0058e-06,  ...,  2.4773e-07,
+          3.9139e-07,  3.2168e-06],
+        [ 4.4238e-09,  1.0291e-07,  1.1618e-07,  ...,  8.7311e-08,
+         -5.4250e-08, -1.4831e-07],
+        [ 9.3132e-10, -2.1812e-06,  4.3749e-07,  ..., -1.4938e-06,
+          2.1630e-07,  1.5264e-06],
+        ...,
+        [ 8.3819e-09,  1.3001e-06,  9.4995e-08,  ...,  9.7137e-07,
+          5.6578e-08,  2.8964e-07],
+        [ 1.6228e-07, -2.4983e-07, -2.9076e-06,  ..., -3.6415e-07,
+         -1.3434e-07, -4.8615e-06],
+        [-2.9337e-08,  1.0803e-07, -1.6540e-06,  ..., -1.1744e-06,
+          4.2375e-08,  7.7393e-07]], device='cuda:0')
+Epoch 135, bias, value: tensor([-0.0160, -0.0204, -0.0276, -0.0248, -0.0073,  0.0054,  0.0108, -0.0191,
+        -0.0039, -0.0002], device='cuda:0'), grad: tensor([ 1.1310e-05,  6.4261e-08, -1.0446e-05,  6.2585e-06,  2.4289e-05,
+         1.4799e-06, -3.2395e-05,  1.1675e-05, -1.0476e-05, -1.8254e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 134, time 220.67, cls_loss 0.0024 cls_loss_mapping 0.0056 cls_loss_causal 0.5407 re_mapping 0.0064 re_causal 0.0177 /// teacc 98.97 lr 0.00010000
+Epoch 136, weight, value: tensor([[-0.1467, -0.1420,  0.0815,  ..., -0.0671,  0.0433,  0.0301],
+        [-0.0874, -0.0355, -0.0584,  ..., -0.0734, -0.0835, -0.0368],
+        [ 0.0314, -0.0755, -0.0534,  ..., -0.0603,  0.0142, -0.2500],
+        ...,
+        [-0.1086,  0.1063,  0.0060,  ...,  0.1032, -0.0227, -0.1017],
+        [-0.0799, -0.0755,  0.0984,  ..., -0.0580, -0.1343,  0.1050],
+        [ 0.0030, -0.1743,  0.0956,  ...,  0.0620, -0.1510, -0.0757]],
+       device='cuda:0'), grad: tensor([[ 1.4529e-07,  2.4145e-07,  6.3796e-07,  ...,  7.3295e-07,
+          0.0000e+00,  5.7975e-08],
+        [ 1.7965e-06,  6.5472e-07,  9.2015e-06,  ...,  1.6913e-05,
+          0.0000e+00, -4.1351e-07],
+        [-1.1874e-07,  1.7667e-06, -1.8068e-07,  ...,  1.5739e-06,
+         -1.1642e-09, -3.0734e-08],
+        ...,
+        [ 6.4783e-06, -5.0701e-06,  3.2037e-05,  ...,  2.2113e-05,
+          4.6566e-10,  3.0291e-07],
+        [ 4.6985e-07,  3.1246e-07,  2.5202e-06,  ...,  3.7905e-06,
+          2.3283e-10,  2.4540e-07],
+        [-9.2685e-06, -9.1083e-07, -4.8965e-05,  ..., -1.8314e-05,
+          0.0000e+00, -2.1560e-07]], device='cuda:0')
+Epoch 136, bias, value: tensor([-0.0163, -0.0216, -0.0278, -0.0254, -0.0084,  0.0057,  0.0111, -0.0172,
+        -0.0046,  0.0004], device='cuda:0'), grad: tensor([ 3.3528e-06,  5.3912e-05, -4.7944e-06,  8.6278e-06, -8.5950e-05,
+         4.1127e-06,  1.3774e-06,  9.3877e-05,  1.4573e-05, -8.8930e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 135, time 220.55, cls_loss 0.0021 cls_loss_mapping 0.0041 cls_loss_causal 0.5660 re_mapping 0.0060 re_causal 0.0177 /// teacc 99.01 lr 0.00010000
+Epoch 137, weight, value: tensor([[-0.1471, -0.1424,  0.0818,  ..., -0.0673,  0.0434,  0.0304],
+        [-0.0877, -0.0352, -0.0581,  ..., -0.0739, -0.0836, -0.0363],
+        [ 0.0315, -0.0753, -0.0539,  ..., -0.0590,  0.0143, -0.2507],
+        ...,
+        [-0.1090,  0.1063,  0.0058,  ...,  0.1032, -0.0229, -0.1021],
+        [-0.0803, -0.0762,  0.0987,  ..., -0.0584, -0.1343,  0.1055],
+        [ 0.0033, -0.1749,  0.0959,  ...,  0.0614, -0.1514, -0.0763]],
+       device='cuda:0'), grad: tensor([[ 7.0082e-08,  1.6764e-08,  6.5193e-09,  ...,  8.3819e-09,
+          2.4028e-06,  3.5539e-06],
+        [ 1.5832e-08,  1.3807e-07,  4.6566e-08,  ...,  8.7544e-08,
+          1.7742e-07, -4.9081e-07],
+        [ 1.0943e-08,  5.1921e-08,  1.2806e-08,  ...,  2.2585e-08,
+          3.2131e-07,  5.1688e-07],
+        ...,
+        [ 6.7754e-08, -3.6834e-07, -1.2456e-07,  ..., -2.9383e-07,
+          3.8650e-08,  6.6403e-07],
+        [ 2.4363e-06,  2.2305e-07,  7.0781e-08,  ...,  3.7020e-08,
+          3.4049e-06,  9.3505e-06],
+        [ 2.0140e-07,  1.6321e-07, -2.3306e-07,  ...,  1.3970e-09,
+          7.8417e-07,  1.6401e-06]], device='cuda:0')
+Epoch 137, bias, value: tensor([-0.0159, -0.0208, -0.0279, -0.0255, -0.0077,  0.0056,  0.0108, -0.0178,
+        -0.0043, -0.0001], device='cuda:0'), grad: tensor([ 2.0191e-05, -1.3532e-06,  3.0957e-06,  1.3568e-05,  3.9749e-06,
+         3.5353e-06, -8.6725e-05,  2.0638e-06,  3.4332e-05,  7.2829e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 136, time 220.22, cls_loss 0.0020 cls_loss_mapping 0.0059 cls_loss_causal 0.5620 re_mapping 0.0060 re_causal 0.0180 /// teacc 98.98 lr 0.00010000
+Epoch 138, weight, value: tensor([[-0.1478, -0.1426,  0.0818,  ..., -0.0675,  0.0433,  0.0301],
+        [-0.0885, -0.0353, -0.0583,  ..., -0.0743, -0.0834, -0.0363],
+        [ 0.0315, -0.0754, -0.0540,  ..., -0.0592,  0.0144, -0.2513],
+        ...,
+        [-0.1096,  0.1060,  0.0052,  ...,  0.1036, -0.0227, -0.1023],
+        [-0.0829, -0.0766,  0.0992,  ..., -0.0589, -0.1346,  0.1050],
+        [ 0.0037, -0.1752,  0.0962,  ...,  0.0613, -0.1518, -0.0763]],
+       device='cuda:0'), grad: tensor([[ 3.3062e-08,  2.4680e-07, -9.5181e-07,  ...,  2.7940e-07,
+          9.7789e-09, -9.7090e-08],
+        [ 4.8894e-09, -8.6240e-07,  7.5437e-08,  ...,  5.7276e-07,
+         -3.7951e-08, -1.0341e-05],
+        [ 4.4238e-09,  1.5143e-06,  2.0047e-07,  ...,  1.0580e-06,
+         -1.8766e-07,  5.6392e-07],
+        ...,
+        [ 1.9558e-08, -1.9576e-06,  3.1060e-07,  ..., -2.1271e-06,
+          2.5146e-08,  4.3847e-06],
+        [ 2.0000e-07,  2.7567e-07,  8.5449e-08,  ...,  1.4203e-07,
+          1.5181e-07,  2.2687e-06],
+        [ 4.3074e-08,  4.2631e-07, -5.3179e-07,  ..., -6.1281e-07,
+          2.7940e-09,  1.3635e-06]], device='cuda:0')
+Epoch 138, bias, value: tensor([-1.6052e-02, -2.1034e-02, -2.7399e-02, -2.5140e-02, -7.1120e-03,
+         6.0711e-03,  1.0604e-02, -1.8083e-02, -5.0000e-03, -7.7302e-05],
+       device='cuda:0'), grad: tensor([-1.2033e-06, -4.0114e-05,  2.1365e-06,  2.4773e-06,  2.8964e-06,
+         5.3085e-07,  2.8647e-06,  1.5132e-05,  9.7752e-06,  5.5395e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 137, time 220.39, cls_loss 0.0015 cls_loss_mapping 0.0041 cls_loss_causal 0.5559 re_mapping 0.0061 re_causal 0.0178 /// teacc 98.95 lr 0.00010000
+Epoch 139, weight, value: tensor([[-0.1479, -0.1430,  0.0819,  ..., -0.0677,  0.0433,  0.0300],
+        [-0.0888, -0.0353, -0.0584,  ..., -0.0747, -0.0833, -0.0359],
+        [ 0.0314, -0.0756, -0.0542,  ..., -0.0593,  0.0145, -0.2519],
+        ...,
+        [-0.1103,  0.1063,  0.0053,  ...,  0.1042, -0.0227, -0.1024],
+        [-0.0832, -0.0768,  0.0994,  ..., -0.0596, -0.1349,  0.1053],
+        [ 0.0040, -0.1757,  0.0964,  ...,  0.0612, -0.1520, -0.0765]],
+       device='cuda:0'), grad: tensor([[ 3.0035e-08,  3.5390e-08, -1.2098e-06,  ...,  5.6112e-08,
+          0.0000e+00, -4.7721e-06],
+        [ 1.7695e-08,  9.4762e-08,  5.6345e-08,  ...,  9.4762e-08,
+          0.0000e+00, -1.6997e-07],
+        [ 8.6147e-09,  1.1967e-07,  3.8720e-07,  ...,  8.1491e-08,
+          0.0000e+00,  6.0257e-07],
+        ...,
+        [ 7.2410e-08, -4.9081e-07,  2.6077e-07,  ..., -1.4040e-07,
+          0.0000e+00,  5.6997e-07],
+        [ 1.7649e-07, -6.1467e-08, -7.2364e-07,  ...,  1.0198e-07,
+          0.0000e+00, -5.0617e-07],
+        [-2.6869e-07,  1.7113e-07, -6.5984e-07,  ..., -6.6496e-07,
+          0.0000e+00,  5.0664e-07]], device='cuda:0')
+Epoch 139, bias, value: tensor([-0.0163, -0.0210, -0.0270, -0.0253, -0.0068,  0.0058,  0.0107, -0.0180,
+        -0.0050, -0.0003], device='cuda:0'), grad: tensor([-1.5691e-05, -2.4028e-07,  2.2892e-06,  4.9695e-06, -9.2108e-07,
+        -8.1165e-07,  8.3596e-06,  2.1122e-06, -1.5320e-07,  4.6566e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 138, time 220.44, cls_loss 0.0018 cls_loss_mapping 0.0051 cls_loss_causal 0.5168 re_mapping 0.0063 re_causal 0.0178 /// teacc 98.98 lr 0.00010000
+Epoch 140, weight, value: tensor([[-0.1481, -0.1432,  0.0820,  ..., -0.0680,  0.0433,  0.0305],
+        [-0.0885, -0.0334, -0.0586,  ..., -0.0756, -0.0838, -0.0357],
+        [ 0.0311, -0.0761, -0.0553,  ..., -0.0596,  0.0145, -0.2537],
+        ...,
+        [-0.1107,  0.1048,  0.0054,  ...,  0.1048, -0.0226, -0.1025],
+        [-0.0835, -0.0759,  0.0999,  ..., -0.0600, -0.1350,  0.1056],
+        [ 0.0045, -0.1763,  0.0968,  ...,  0.0613, -0.1522, -0.0763]],
+       device='cuda:0'), grad: tensor([[ 3.2387e-07,  3.4808e-07, -4.2794e-07,  ...,  9.9419e-08,
+          6.2864e-09,  7.1526e-07],
+        [-3.0771e-06,  3.9786e-06,  1.5134e-07,  ...,  3.1311e-06,
+          6.9849e-10, -7.1302e-06],
+        [ 6.6357e-08,  2.5816e-06,  4.4820e-07,  ..., -2.3516e-08,
+         -1.1642e-08,  2.8312e-07],
+        ...,
+        [ 2.8801e-07, -2.8629e-06,  1.8161e-07,  ..., -3.2391e-06,
+          3.9581e-09,  2.0838e-07],
+        [ 4.5635e-07,  2.1234e-06,  3.9116e-07,  ...,  1.9209e-07,
+          1.8626e-09,  8.8196e-07],
+        [-1.2722e-06,  6.3796e-07, -2.0657e-06,  ..., -1.4137e-06,
+          2.3283e-10,  1.5739e-07]], device='cuda:0')
+Epoch 140, bias, value: tensor([-0.0161, -0.0194, -0.0275, -0.0260, -0.0068,  0.0060,  0.0112, -0.0193,
+        -0.0048, -0.0003], device='cuda:0'), grad: tensor([ 3.8482e-06, -5.5969e-05,  3.9607e-05, -3.6925e-05,  1.1854e-05,
+         2.5257e-05,  7.2159e-06, -1.6354e-06,  8.4266e-06, -1.7677e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 139, time 220.35, cls_loss 0.0020 cls_loss_mapping 0.0052 cls_loss_causal 0.5619 re_mapping 0.0057 re_causal 0.0173 /// teacc 98.92 lr 0.00010000
+Epoch 141, weight, value: tensor([[-0.1484, -0.1436,  0.0820,  ..., -0.0684,  0.0433,  0.0306],
+        [-0.0890, -0.0336, -0.0588,  ..., -0.0763, -0.0837, -0.0356],
+        [ 0.0309, -0.0754, -0.0557,  ..., -0.0596,  0.0147, -0.2545],
+        ...,
+        [-0.1112,  0.1050,  0.0054,  ...,  0.1051, -0.0225, -0.1025],
+        [-0.0833, -0.0763,  0.1004,  ..., -0.0611, -0.1351,  0.1063],
+        [ 0.0051, -0.1767,  0.0976,  ...,  0.0622, -0.1523, -0.0749]],
+       device='cuda:0'), grad: tensor([[ 4.8894e-09,  1.0049e-06, -2.1211e-07,  ...,  6.7102e-07,
+          1.0245e-08, -1.0291e-07],
+        [ 6.5193e-09,  1.0841e-05,  4.7265e-08,  ...,  7.4282e-06,
+         -1.4435e-08, -1.1194e-06],
+        [ 6.9849e-10,  4.0770e-05,  2.1886e-07,  ...,  2.8208e-05,
+         -1.3853e-07,  3.5926e-07],
+        ...,
+        [ 5.3551e-09, -6.1393e-05,  7.4506e-08,  ..., -4.2617e-05,
+          8.8476e-09,  3.4249e-07],
+        [ 2.4214e-08,  1.2554e-06,  5.0012e-07,  ...,  1.1120e-06,
+          3.1199e-08,  1.1176e-07],
+        [-1.0524e-07,  4.7125e-06, -1.0896e-06,  ...,  2.4997e-06,
+          3.4925e-09,  3.6787e-08]], device='cuda:0')
+Epoch 141, bias, value: tensor([-0.0161, -0.0197, -0.0266, -0.0258, -0.0074,  0.0048,  0.0109, -0.0193,
+        -0.0044,  0.0003], device='cuda:0'), grad: tensor([ 2.3413e-06,  1.9997e-05,  8.8215e-05,  5.7034e-06,  2.5891e-06,
+         1.3337e-06,  4.1979e-07, -1.3518e-04,  5.2452e-06,  9.1866e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 140, time 220.56, cls_loss 0.0018 cls_loss_mapping 0.0042 cls_loss_causal 0.5496 re_mapping 0.0060 re_causal 0.0174 /// teacc 98.97 lr 0.00010000
+Epoch 142, weight, value: tensor([[-0.1488, -0.1438,  0.0823,  ..., -0.0685,  0.0432,  0.0307],
+        [-0.0892, -0.0338, -0.0593,  ..., -0.0769, -0.0836, -0.0354],
+        [ 0.0308, -0.0758, -0.0563,  ..., -0.0601,  0.0146, -0.2555],
+        ...,
+        [-0.1118,  0.1054,  0.0052,  ...,  0.1055, -0.0223, -0.1028],
+        [-0.0836, -0.0765,  0.1012,  ..., -0.0616, -0.1352,  0.1068],
+        [ 0.0054, -0.1770,  0.0980,  ...,  0.0622, -0.1524, -0.0754]],
+       device='cuda:0'), grad: tensor([[ 8.6846e-08,  2.9919e-07, -4.2003e-07,  ...,  7.9861e-08,
+          3.0035e-08, -5.3830e-07],
+        [ 5.9139e-08,  3.7788e-07,  1.7486e-07,  ...,  6.6776e-07,
+          4.6566e-09, -2.0415e-06],
+        [ 6.0303e-08,  6.7614e-07,  1.6554e-07,  ...,  4.6100e-08,
+          5.1921e-08,  1.7229e-06],
+        ...,
+        [ 1.0966e-07,  1.2806e-08,  4.1444e-07,  ...,  3.3900e-07,
+          9.0804e-09,  1.5786e-07],
+        [ 5.0105e-07,  4.7660e-07,  3.4412e-07,  ...,  8.3726e-07,
+          8.8476e-09,  1.7649e-07],
+        [-1.8626e-09,  2.0070e-07, -1.8701e-06,  ..., -1.1660e-06,
+          1.2806e-08,  2.9500e-07]], device='cuda:0')
+Epoch 142, bias, value: tensor([-0.0160, -0.0197, -0.0264, -0.0260, -0.0072,  0.0046,  0.0110, -0.0193,
+        -0.0043,  0.0004], device='cuda:0'), grad: tensor([-1.2387e-06, -4.2394e-06,  3.8818e-06, -1.9401e-05, -3.5502e-06,
+         2.5600e-05, -7.0259e-06,  3.0994e-06,  3.5334e-06, -6.5099e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 141, time 220.51, cls_loss 0.0022 cls_loss_mapping 0.0053 cls_loss_causal 0.5694 re_mapping 0.0057 re_causal 0.0169 /// teacc 99.00 lr 0.00010000
+Epoch 143, weight, value: tensor([[-0.1484, -0.1441,  0.0825,  ..., -0.0693,  0.0432,  0.0315],
+        [-0.0892, -0.0338, -0.0596,  ..., -0.0773, -0.0830, -0.0351],
+        [ 0.0305, -0.0760, -0.0572,  ..., -0.0605,  0.0147, -0.2572],
+        ...,
+        [-0.1129,  0.1056,  0.0052,  ...,  0.1060, -0.0225, -0.1030],
+        [-0.0842, -0.0769,  0.1018,  ..., -0.0621, -0.1354,  0.1072],
+        [ 0.0059, -0.1775,  0.0986,  ...,  0.0624, -0.1528, -0.0759]],
+       device='cuda:0'), grad: tensor([[ 4.5449e-06,  5.8208e-08, -1.7986e-05,  ...,  1.3039e-08,
+          3.0757e-07, -3.5278e-06],
+        [ 9.6299e-07,  3.1758e-07,  2.8941e-07,  ...,  1.6554e-07,
+          1.3760e-07,  1.3057e-06],
+        [ 6.8806e-06,  1.7323e-07,  3.3923e-07,  ...,  2.6776e-08,
+          4.4191e-07,  9.1940e-06],
+        ...,
+        [ 8.0653e-07,  3.7951e-08,  2.7427e-07,  ...,  5.9139e-08,
+          1.7323e-07,  1.1912e-06],
+        [ 6.6273e-06,  4.7963e-07, -4.4703e-07,  ...,  5.7276e-08,
+          3.4738e-07,  7.1190e-06],
+        [ 3.9418e-07,  2.3586e-07,  1.6645e-05,  ..., -9.9884e-08,
+          5.9372e-08,  9.6187e-06]], device='cuda:0')
+Epoch 143, bias, value: tensor([-0.0155, -0.0186, -0.0284, -0.0257, -0.0074,  0.0039,  0.0104, -0.0193,
+        -0.0042,  0.0006], device='cuda:0'), grad: tensor([-2.9385e-05,  6.9253e-06,  1.8850e-05,  1.3113e-05,  7.6219e-06,
+         5.0992e-05, -1.4865e-04,  4.0233e-06,  2.8133e-05,  4.8429e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 142----------------------------------------------------
+epoch 142, time 221.18, cls_loss 0.0023 cls_loss_mapping 0.0047 cls_loss_causal 0.5552 re_mapping 0.0061 re_causal 0.0165 /// teacc 99.08 lr 0.00010000
+Epoch 144, weight, value: tensor([[-0.1486, -0.1444,  0.0836,  ..., -0.0695,  0.0435,  0.0335],
+        [-0.0907, -0.0339, -0.0598,  ..., -0.0777, -0.0836, -0.0350],
+        [ 0.0307, -0.0762, -0.0579,  ..., -0.0608,  0.0153, -0.2580],
+        ...,
+        [-0.1140,  0.1058,  0.0052,  ...,  0.1062, -0.0223, -0.1033],
+        [-0.0847, -0.0778,  0.1021,  ..., -0.0624, -0.1357,  0.1077],
+        [ 0.0061, -0.1776,  0.0988,  ...,  0.0627, -0.1536, -0.0768]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  8.9640e-08, -2.4051e-07,  ...,  4.5868e-08,
+          1.3504e-08, -4.4773e-07],
+        [ 9.3132e-10,  2.4796e-07,  1.4366e-07,  ...,  9.8022e-08,
+          9.3132e-09, -8.0280e-07],
+        [ 2.3283e-10,  1.8510e-07,  1.1316e-07,  ...,  6.1700e-08,
+         -5.8440e-08,  7.4971e-08],
+        ...,
+        [ 7.4506e-09, -8.2422e-08,  1.4878e-07,  ...,  1.0454e-07,
+          1.2573e-08,  2.4354e-07],
+        [ 4.1910e-09,  1.0012e-06,  3.5088e-07,  ...,  3.3528e-08,
+          2.5611e-09, -5.6811e-08],
+        [-9.3132e-09,  1.5059e-06,  3.4343e-07,  ..., -2.2002e-07,
+          3.2596e-09,  5.3784e-08]], device='cuda:0')
+Epoch 144, bias, value: tensor([-0.0133, -0.0182, -0.0286, -0.0243, -0.0076,  0.0024,  0.0089, -0.0195,
+        -0.0043,  0.0005], device='cuda:0'), grad: tensor([-1.9115e-07, -1.6093e-05, -8.3167e-07, -6.1207e-06,  1.2666e-05,
+         1.4547e-06, -3.5251e-07,  4.0904e-06,  2.3544e-06,  3.0380e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 143, time 220.33, cls_loss 0.0020 cls_loss_mapping 0.0051 cls_loss_causal 0.5599 re_mapping 0.0061 re_causal 0.0173 /// teacc 98.94 lr 0.00010000
+Epoch 145, weight, value: tensor([[-0.1490, -0.1447,  0.0836,  ..., -0.0698,  0.0434,  0.0327],
+        [-0.0919, -0.0336, -0.0596,  ..., -0.0789, -0.0838, -0.0346],
+        [ 0.0307, -0.0766, -0.0584,  ..., -0.0612,  0.0155, -0.2588],
+        ...,
+        [-0.1148,  0.1062,  0.0047,  ...,  0.1060, -0.0224, -0.1036],
+        [-0.0851, -0.0784,  0.1022,  ..., -0.0631, -0.1358,  0.1079],
+        [ 0.0063, -0.1787,  0.0996,  ...,  0.0632, -0.1540, -0.0769]],
+       device='cuda:0'), grad: tensor([[-5.3085e-08,  6.0769e-07, -9.1851e-05,  ..., -9.5591e-06,
+          6.9849e-09, -1.9923e-05],
+        [ 8.3819e-09,  2.8722e-06,  1.6559e-06,  ...,  1.4286e-06,
+          6.0536e-09,  3.5670e-07],
+        [ 1.1642e-08,  1.4370e-06,  2.2948e-06,  ...,  2.0629e-07,
+         -3.6787e-08,  1.3607e-06],
+        ...,
+        [ 1.6298e-08, -1.8269e-05, -6.9886e-06,  ..., -1.3068e-05,
+          6.0536e-09,  3.6834e-07],
+        [ 1.2107e-07,  4.0559e-07,  4.0233e-06,  ...,  1.5181e-07,
+          3.2596e-09,  3.7495e-06],
+        [ 7.5903e-08,  6.7502e-06,  8.3506e-05,  ...,  1.3299e-05,
+          3.2596e-09,  1.2971e-05]], device='cuda:0')
+Epoch 145, bias, value: tensor([-0.0143, -0.0177, -0.0286, -0.0249, -0.0075,  0.0027,  0.0095, -0.0199,
+        -0.0046,  0.0008], device='cuda:0'), grad: tensor([-1.8263e-04,  6.3144e-06,  7.5623e-06,  9.8944e-06,  2.9113e-06,
+         6.7167e-06, -6.3553e-06, -2.8014e-05,  1.1906e-05,  1.7190e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 144, time 220.51, cls_loss 0.0018 cls_loss_mapping 0.0045 cls_loss_causal 0.5484 re_mapping 0.0064 re_causal 0.0172 /// teacc 98.94 lr 0.00010000
+Epoch 146, weight, value: tensor([[-0.1493, -0.1450,  0.0839,  ..., -0.0700,  0.0434,  0.0328],
+        [-0.0935, -0.0332, -0.0590,  ..., -0.0794, -0.0839, -0.0341],
+        [ 0.0304, -0.0771, -0.0590,  ..., -0.0618,  0.0155, -0.2597],
+        ...,
+        [-0.1170,  0.1063,  0.0043,  ...,  0.1065, -0.0225, -0.1045],
+        [-0.0856, -0.0785,  0.1025,  ..., -0.0633, -0.1359,  0.1082],
+        [ 0.0072, -0.1797,  0.1001,  ...,  0.0632, -0.1542, -0.0770]],
+       device='cuda:0'), grad: tensor([[ 1.0710e-08,  7.8185e-07,  3.5577e-07,  ...,  6.2445e-07,
+          4.6566e-10,  2.1840e-07],
+        [ 3.2596e-09,  1.2191e-06,  1.0617e-06,  ...,  1.0058e-06,
+          0.0000e+00,  1.7267e-06],
+        [ 2.7940e-09,  1.2526e-07,  1.0394e-06,  ...,  6.0536e-08,
+         -7.4506e-09,  3.1926e-06],
+        ...,
+        [ 5.1223e-09, -3.5428e-06, -1.5981e-06,  ..., -2.9095e-06,
+          4.1910e-09, -4.4517e-07],
+        [ 2.7008e-08,  8.2888e-08, -1.9670e-06,  ...,  4.3306e-08,
+          1.3970e-09, -6.0275e-06],
+        [ 5.1223e-09,  7.8743e-07,  3.6415e-07,  ...,  6.3982e-07,
+          0.0000e+00,  1.8114e-07]], device='cuda:0')
+Epoch 146, bias, value: tensor([-0.0143, -0.0173, -0.0287, -0.0251, -0.0074,  0.0026,  0.0099, -0.0204,
+        -0.0044,  0.0009], device='cuda:0'), grad: tensor([ 1.7118e-06,  5.2936e-06,  7.0184e-06,  1.9837e-06,  3.8929e-07,
+         8.5309e-07, -3.4738e-07, -5.8711e-06, -1.2733e-05,  1.6540e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 145, time 220.16, cls_loss 0.0015 cls_loss_mapping 0.0044 cls_loss_causal 0.5361 re_mapping 0.0061 re_causal 0.0176 /// teacc 99.04 lr 0.00010000
+Epoch 147, weight, value: tensor([[-0.1492, -0.1454,  0.0840,  ..., -0.0704,  0.0435,  0.0333],
+        [-0.0935, -0.0333, -0.0593,  ..., -0.0800, -0.0841, -0.0338],
+        [ 0.0303, -0.0776, -0.0595,  ..., -0.0625,  0.0158, -0.2602],
+        ...,
+        [-0.1183,  0.1068,  0.0043,  ...,  0.1070, -0.0224, -0.1046],
+        [-0.0863, -0.0789,  0.1021,  ..., -0.0642, -0.1360,  0.1082],
+        [ 0.0077, -0.1802,  0.1007,  ...,  0.0633, -0.1545, -0.0770]],
+       device='cuda:0'), grad: tensor([[ 3.0780e-07,  1.1874e-07,  1.4575e-07,  ...,  9.4902e-07,
+          0.0000e+00,  1.8766e-07],
+        [ 2.3469e-06,  7.5623e-07,  5.6578e-07,  ...,  7.5549e-06,
+          0.0000e+00,  2.1840e-07],
+        [ 3.6834e-07,  1.3895e-06,  5.3085e-07,  ...,  2.7996e-06,
+          0.0000e+00,  1.1362e-07],
+        ...,
+        [ 8.8215e-06, -3.6210e-06, -1.9372e-07,  ...,  2.0310e-05,
+          0.0000e+00,  1.3085e-07],
+        [ 3.4319e-07,  3.3993e-08, -8.2003e-07,  ...,  9.2294e-07,
+          0.0000e+00, -2.6524e-06],
+        [ 1.8311e-04,  9.4157e-07,  1.8403e-05,  ...,  5.1737e-04,
+          0.0000e+00,  1.3411e-07]], device='cuda:0')
+Epoch 147, bias, value: tensor([-0.0141, -0.0173, -0.0288, -0.0251, -0.0073,  0.0024,  0.0097, -0.0202,
+        -0.0048,  0.0011], device='cuda:0'), grad: tensor([ 2.9057e-06,  1.9938e-05,  7.3835e-06,  1.5832e-06, -1.4210e-03,
+         2.0768e-06,  3.5018e-06,  5.3018e-05, -2.0731e-06,  1.3332e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 146, time 220.19, cls_loss 0.0021 cls_loss_mapping 0.0047 cls_loss_causal 0.5633 re_mapping 0.0056 re_causal 0.0161 /// teacc 99.02 lr 0.00010000
+Epoch 148, weight, value: tensor([[-0.1511, -0.1460,  0.0841,  ..., -0.0708,  0.0435,  0.0329],
+        [-0.0925, -0.0338, -0.0599,  ..., -0.0818, -0.0841, -0.0339],
+        [ 0.0298, -0.0782, -0.0603,  ..., -0.0633,  0.0159, -0.2619],
+        ...,
+        [-0.1189,  0.1077,  0.0045,  ...,  0.1081, -0.0225, -0.1045],
+        [-0.0874, -0.0793,  0.1025,  ..., -0.0648, -0.1362,  0.1085],
+        [ 0.0076, -0.1812,  0.1013,  ...,  0.0629, -0.1547, -0.0776]],
+       device='cuda:0'), grad: tensor([[ 2.2817e-07,  1.1083e-06,  4.8801e-07,  ...,  2.4680e-07,
+         -8.3819e-09,  7.7020e-07],
+        [ 1.8626e-07,  2.1920e-05,  2.2016e-06,  ...,  3.2969e-06,
+          9.3132e-10,  2.4252e-06],
+        [ 3.2131e-08,  5.8711e-06,  1.0803e-06,  ...,  1.1874e-06,
+          4.6566e-10,  6.0583e-07],
+        ...,
+        [ 1.2759e-07, -6.0320e-05, -2.5444e-06,  ..., -1.0878e-05,
+          4.6566e-10,  5.2527e-07],
+        [ 1.4901e-06,  1.4175e-06, -5.3495e-06,  ...,  1.4948e-07,
+          4.6566e-10, -5.7369e-06],
+        [ 1.1874e-07,  8.0094e-06,  1.6484e-06,  ...,  1.7565e-06,
+          1.8626e-09,  1.4650e-06]], device='cuda:0')
+Epoch 148, bias, value: tensor([-0.0147, -0.0176, -0.0287, -0.0255, -0.0071,  0.0030,  0.0095, -0.0197,
+        -0.0051,  0.0007], device='cuda:0'), grad: tensor([ 1.1586e-05,  4.5478e-05, -1.0423e-05,  3.0845e-05,  8.0690e-06,
+        -1.3575e-05,  2.0996e-05, -1.0127e-04, -9.5367e-06,  1.7703e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 147, time 220.29, cls_loss 0.0018 cls_loss_mapping 0.0046 cls_loss_causal 0.5142 re_mapping 0.0059 re_causal 0.0163 /// teacc 99.02 lr 0.00010000
+Epoch 149, weight, value: tensor([[-0.1518, -0.1464,  0.0845,  ..., -0.0710,  0.0438,  0.0326],
+        [-0.0910, -0.0340, -0.0603,  ..., -0.0825, -0.0845, -0.0333],
+        [ 0.0308, -0.0785, -0.0605,  ..., -0.0639,  0.0159, -0.2603],
+        ...,
+        [-0.1195,  0.1079,  0.0042,  ...,  0.1084, -0.0224, -0.1047],
+        [-0.0881, -0.0796,  0.1026,  ..., -0.0654, -0.1363,  0.1083],
+        [ 0.0085, -0.1816,  0.1024,  ...,  0.0634, -0.1552, -0.0768]],
+       device='cuda:0'), grad: tensor([[ 2.1933e-07,  2.0955e-08, -1.8626e-09,  ...,  4.2841e-08,
+          0.0000e+00,  1.9511e-07],
+        [ 5.9139e-07,  3.1712e-07,  4.1956e-07,  ...,  3.0082e-07,
+          0.0000e+00,  9.9186e-07],
+        [ 1.0012e-07,  2.6263e-07,  7.3109e-08,  ..., -1.7462e-07,
+          0.0000e+00,  1.3597e-07],
+        ...,
+        [ 4.5542e-07, -3.9348e-07,  3.9395e-07,  ..., -1.4901e-08,
+          0.0000e+00,  5.3365e-07],
+        [ 1.6205e-06,  2.8359e-07,  5.3458e-07,  ...,  6.4215e-07,
+          0.0000e+00,  6.6310e-07],
+        [ 3.0287e-06,  2.4959e-07, -5.5097e-06,  ..., -2.5257e-06,
+          0.0000e+00,  3.4589e-06]], device='cuda:0')
+Epoch 149, bias, value: tensor([-0.0153, -0.0176, -0.0278, -0.0251, -0.0080,  0.0026,  0.0096, -0.0197,
+        -0.0060,  0.0014], device='cuda:0'), grad: tensor([ 6.4820e-07,  2.8387e-06, -2.0899e-06,  7.2010e-06,  4.8056e-06,
+        -1.8701e-05,  7.9861e-07,  2.4028e-06,  4.7348e-06, -2.6729e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 148, time 220.19, cls_loss 0.0019 cls_loss_mapping 0.0059 cls_loss_causal 0.5536 re_mapping 0.0058 re_causal 0.0165 /// teacc 98.97 lr 0.00010000
+Epoch 150, weight, value: tensor([[-0.1520, -0.1466,  0.0847,  ..., -0.0713,  0.0452,  0.0330],
+        [-0.0904, -0.0346, -0.0622,  ..., -0.0831, -0.0845, -0.0341],
+        [ 0.0310, -0.0790, -0.0612,  ..., -0.0649,  0.0158, -0.2610],
+        ...,
+        [-0.1209,  0.1087,  0.0051,  ...,  0.1090, -0.0225, -0.1042],
+        [-0.0885, -0.0797,  0.1033,  ..., -0.0652, -0.1366,  0.1089],
+        [ 0.0086, -0.1823,  0.1027,  ...,  0.0629, -0.1559, -0.0770]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09,  7.5437e-08, -1.7695e-08,  ...,  4.2841e-08,
+          5.1223e-09, -3.4925e-08],
+        [ 8.3819e-09,  3.3667e-07,  1.0105e-07,  ...,  9.3598e-08,
+          1.9092e-08, -3.9116e-08],
+        [ 1.3970e-09,  6.2305e-07,  3.6322e-07,  ...,  1.0245e-07,
+          1.9558e-08,  7.0315e-07],
+        ...,
+        [ 5.5414e-08,  2.3004e-07,  4.3819e-07,  ...,  2.2491e-07,
+          3.5390e-08,  2.8126e-07],
+        [ 4.4703e-08,  2.5239e-07, -5.8580e-07,  ...,  1.4901e-07,
+          2.6077e-08, -1.7844e-06],
+        [-2.8824e-07,  3.3807e-07, -2.4419e-06,  ..., -1.8105e-06,
+          7.9162e-09, -2.5658e-07]], device='cuda:0')
+Epoch 150, bias, value: tensor([-0.0149, -0.0184, -0.0278, -0.0247, -0.0076,  0.0017,  0.0099, -0.0189,
+        -0.0056,  0.0009], device='cuda:0'), grad: tensor([ 1.1642e-07,  4.9267e-07,  2.0750e-06, -1.0878e-05,  2.9895e-06,
+         8.0168e-06,  2.2631e-07,  2.0079e-06, -1.1558e-06, -3.8892e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 149, time 220.13, cls_loss 0.0020 cls_loss_mapping 0.0046 cls_loss_causal 0.5281 re_mapping 0.0056 re_causal 0.0164 /// teacc 99.08 lr 0.00010000
+Epoch 151, weight, value: tensor([[-0.1529, -0.1473,  0.0848,  ..., -0.0715,  0.0452,  0.0330],
+        [-0.0906, -0.0356, -0.0637,  ..., -0.0850, -0.0846, -0.0360],
+        [ 0.0310, -0.0797, -0.0616,  ..., -0.0654,  0.0158, -0.2620],
+        ...,
+        [-0.1232,  0.1100,  0.0063,  ...,  0.1101, -0.0225, -0.1026],
+        [-0.0892, -0.0796,  0.1039,  ..., -0.0650, -0.1366,  0.1098],
+        [ 0.0087, -0.1830,  0.1029,  ...,  0.0626, -0.1561, -0.0770]],
+       device='cuda:0'), grad: tensor([[ 1.6764e-08,  6.7055e-08, -1.3784e-07,  ...,  4.0978e-08,
+          1.3970e-09, -1.3830e-07],
+        [ 2.1141e-07,  2.5034e-06,  2.0824e-06,  ...,  1.0571e-06,
+         -8.5682e-08,  4.8429e-08],
+        [ 7.9162e-09, -2.7986e-07,  1.1455e-07,  ...,  2.3749e-08,
+          2.7940e-09,  9.4064e-08],
+        ...,
+        [ 6.2399e-08, -4.7348e-06, -3.0156e-06,  ..., -1.4286e-06,
+          7.4040e-08,  2.1886e-07],
+        [ 1.9930e-07,  2.9290e-07,  1.4622e-07,  ...,  2.7241e-07,
+          4.6566e-10, -4.7637e-07],
+        [-7.4366e-07,  2.4913e-07, -1.4212e-06,  ..., -9.6764e-07,
+          2.3283e-09, -2.7847e-07]], device='cuda:0')
+Epoch 151, bias, value: tensor([-0.0149, -0.0192, -0.0279, -0.0252, -0.0075,  0.0023,  0.0094, -0.0179,
+        -0.0049,  0.0005], device='cuda:0'), grad: tensor([-1.8161e-08,  5.5842e-06, -1.0118e-05,  6.9551e-06,  8.8662e-07,
+         1.8999e-07, -4.0326e-07, -6.2957e-06,  5.1409e-06, -1.9558e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 150, time 220.57, cls_loss 0.0017 cls_loss_mapping 0.0031 cls_loss_causal 0.5114 re_mapping 0.0057 re_causal 0.0162 /// teacc 98.97 lr 0.00010000
+Epoch 152, weight, value: tensor([[-0.1540, -0.1478,  0.0851,  ..., -0.0716,  0.0458,  0.0327],
+        [-0.0914, -0.0357, -0.0648,  ..., -0.0854, -0.0845, -0.0373],
+        [ 0.0307, -0.0800, -0.0622,  ..., -0.0658,  0.0158, -0.2627],
+        ...,
+        [-0.1242,  0.1101,  0.0064,  ...,  0.1104, -0.0226, -0.1028],
+        [-0.0898, -0.0794,  0.1056,  ..., -0.0653, -0.1367,  0.1113],
+        [ 0.0089, -0.1834,  0.1034,  ...,  0.0624, -0.1566, -0.0770]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-08,  1.4435e-08,  1.8254e-07,  ...,  1.9558e-07,
+          0.0000e+00,  2.0815e-07],
+        [ 4.6566e-09,  2.2398e-07, -8.5160e-06,  ...,  2.1048e-07,
+          0.0000e+00, -6.6422e-06],
+        [ 1.8626e-09,  1.8813e-07,  1.7742e-07,  ...,  1.3597e-07,
+          0.0000e+00,  1.5413e-07],
+        ...,
+        [ 1.8626e-08, -3.7206e-07,  4.4405e-06,  ...,  5.9791e-07,
+          0.0000e+00,  3.4012e-06],
+        [ 1.5832e-08,  5.8673e-08, -3.3760e-07,  ...,  2.2678e-07,
+          0.0000e+00, -1.0012e-06],
+        [-1.5367e-08,  9.4995e-08,  2.9095e-06,  ...,  3.7365e-06,
+          0.0000e+00,  2.8089e-06]], device='cuda:0')
+Epoch 152, bias, value: tensor([-0.0150, -0.0200, -0.0280, -0.0255, -0.0077,  0.0027,  0.0096, -0.0180,
+        -0.0030,  0.0008], device='cuda:0'), grad: tensor([ 2.8647e-06, -7.4625e-05, -4.6752e-07,  1.3327e-06, -1.1809e-05,
+         3.3760e-07,  4.8010e-07,  4.0233e-05,  1.1846e-06,  4.0561e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 151, time 220.41, cls_loss 0.0018 cls_loss_mapping 0.0044 cls_loss_causal 0.5545 re_mapping 0.0057 re_causal 0.0165 /// teacc 98.97 lr 0.00010000
+Epoch 153, weight, value: tensor([[-0.1542, -0.1483,  0.0851,  ..., -0.0719,  0.0458,  0.0310],
+        [-0.0919, -0.0357, -0.0652,  ..., -0.0860, -0.0845, -0.0376],
+        [ 0.0310, -0.0803, -0.0627,  ..., -0.0662,  0.0162, -0.2633],
+        ...,
+        [-0.1249,  0.1101,  0.0060,  ...,  0.1116, -0.0227, -0.1030],
+        [-0.0911, -0.0798,  0.1048,  ..., -0.0657, -0.1370,  0.1114],
+        [ 0.0096, -0.1839,  0.1047,  ...,  0.0626, -0.1567, -0.0758]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.9558e-08, -3.3993e-08,  ...,  9.3132e-09,
+          0.0000e+00,  4.3772e-08],
+        [ 0.0000e+00,  2.7381e-07,  2.2352e-08,  ...,  1.0384e-07,
+          0.0000e+00, -3.6787e-08],
+        [ 0.0000e+00,  5.6811e-08,  8.8476e-09,  ...,  3.7253e-09,
+         -9.3132e-10,  8.2888e-08],
+        ...,
+        [ 4.6566e-10, -2.9244e-07, -4.2375e-08,  ..., -2.4633e-07,
+          4.6566e-10,  4.7497e-08],
+        [ 4.6566e-10,  2.7148e-07,  3.4459e-08,  ...,  1.0710e-08,
+          0.0000e+00,  1.7229e-07],
+        [-6.9849e-09,  4.6007e-07,  3.2596e-09,  ...,  1.3784e-07,
+          0.0000e+00,  4.7497e-08]], device='cuda:0')
+Epoch 153, bias, value: tensor([-0.0166, -0.0200, -0.0280, -0.0253, -0.0083,  0.0026,  0.0105, -0.0179,
+        -0.0032,  0.0012], device='cuda:0'), grad: tensor([ 3.7206e-07,  5.7369e-07,  3.7672e-07, -3.3025e-06,  1.0312e-05,
+         2.5108e-06, -1.3031e-05, -2.1979e-07,  1.0477e-06,  1.3197e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 152, time 220.43, cls_loss 0.0017 cls_loss_mapping 0.0041 cls_loss_causal 0.5196 re_mapping 0.0057 re_causal 0.0156 /// teacc 99.08 lr 0.00010000
+Epoch 154, weight, value: tensor([[-0.1550, -0.1499,  0.0854,  ..., -0.0722,  0.0460,  0.0310],
+        [-0.0917, -0.0357, -0.0648,  ..., -0.0868, -0.0844, -0.0375],
+        [ 0.0308, -0.0807, -0.0632,  ..., -0.0667,  0.0166, -0.2637],
+        ...,
+        [-0.1257,  0.1105,  0.0057,  ...,  0.1124, -0.0227, -0.1034],
+        [-0.0921, -0.0804,  0.1049,  ..., -0.0662, -0.1374,  0.1115],
+        [ 0.0092, -0.1848,  0.1048,  ...,  0.0625, -0.1572, -0.0763]],
+       device='cuda:0'), grad: tensor([[ 1.3085e-07,  1.2983e-06, -4.8662e-07,  ...,  7.1200e-07,
+         -1.3970e-08, -9.2667e-07],
+        [ 8.9873e-08,  5.5246e-06,  8.1956e-07,  ...,  1.9027e-06,
+          9.3132e-10,  4.6566e-08],
+        [ 3.2596e-08,  1.7256e-05,  2.0303e-06,  ...,  5.1223e-06,
+          4.6566e-10,  1.3877e-07],
+        ...,
+        [ 4.6333e-07, -3.1447e-04, -3.4004e-05,  ..., -8.9347e-05,
+          4.6566e-10, -3.7998e-07],
+        [ 1.8161e-07,  8.8587e-06,  1.0077e-06,  ...,  2.6189e-06,
+          4.6566e-10,  1.7462e-07],
+        [-6.8545e-07,  2.0918e-06, -2.2929e-06,  ..., -3.1348e-06,
+          4.1910e-09,  4.7544e-07]], device='cuda:0')
+Epoch 154, bias, value: tensor([-0.0168, -0.0198, -0.0278, -0.0254, -0.0084,  0.0033,  0.0103, -0.0180,
+        -0.0035,  0.0009], device='cuda:0'), grad: tensor([-1.6354e-06,  9.9167e-06,  2.1890e-05,  3.9911e-04,  2.1234e-06,
+         3.5465e-06,  4.7311e-06, -4.5085e-04,  1.3858e-05, -3.3360e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 153, time 220.69, cls_loss 0.0019 cls_loss_mapping 0.0040 cls_loss_causal 0.5296 re_mapping 0.0059 re_causal 0.0163 /// teacc 98.97 lr 0.00010000
+Epoch 155, weight, value: tensor([[-0.1563, -0.1501,  0.0859,  ..., -0.0724,  0.0462,  0.0326],
+        [-0.0920, -0.0360, -0.0650,  ..., -0.0875, -0.0846, -0.0372],
+        [ 0.0303, -0.0805, -0.0636,  ..., -0.0672,  0.0168, -0.2646],
+        ...,
+        [-0.1267,  0.1110,  0.0056,  ...,  0.1128, -0.0228, -0.1038],
+        [-0.0937, -0.0812,  0.1052,  ..., -0.0669, -0.1375,  0.1121],
+        [ 0.0089, -0.1852,  0.1054,  ...,  0.0622, -0.1577, -0.0771]],
+       device='cuda:0'), grad: tensor([[ 6.6590e-08,  4.0652e-07,  2.7008e-08,  ...,  9.4529e-08,
+          3.4459e-08,  4.6566e-08],
+        [ 2.3283e-08,  1.2815e-06,  2.1793e-07,  ...,  5.9558e-07,
+          6.8452e-08, -2.9383e-07],
+        [-1.1409e-07,  1.4119e-06,  9.6392e-08,  ..., -4.3400e-07,
+         -1.9046e-07,  4.2841e-08],
+        ...,
+        [ 8.9407e-08, -1.8999e-06, -9.4529e-07,  ..., -2.4885e-06,
+          3.5623e-07,  2.1607e-07],
+        [ 9.0804e-08,  5.7742e-07,  6.1002e-08,  ...,  2.6030e-07,
+          8.8476e-08,  9.3598e-08],
+        [ 1.2945e-07,  2.1774e-06,  3.5251e-07,  ...,  8.9640e-07,
+          8.8476e-09,  1.2200e-07]], device='cuda:0')
+Epoch 155, bias, value: tensor([-0.0150, -0.0200, -0.0271, -0.0258, -0.0079,  0.0056,  0.0063, -0.0181,
+        -0.0031,  0.0004], device='cuda:0'), grad: tensor([ 8.8096e-05,  2.1607e-06,  4.9263e-05, -1.7500e-04,  1.3448e-06,
+         8.6054e-06,  1.3314e-05,  1.6280e-06,  4.6678e-06,  5.8115e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 154, time 220.77, cls_loss 0.0014 cls_loss_mapping 0.0042 cls_loss_causal 0.5198 re_mapping 0.0057 re_causal 0.0163 /// teacc 98.86 lr 0.00010000
+Epoch 156, weight, value: tensor([[-0.1566, -0.1506,  0.0857,  ..., -0.0725,  0.0461,  0.0323],
+        [-0.0920, -0.0361, -0.0651,  ..., -0.0878, -0.0845, -0.0372],
+        [ 0.0302, -0.0801, -0.0639,  ..., -0.0671,  0.0171, -0.2650],
+        ...,
+        [-0.1271,  0.1111,  0.0057,  ...,  0.1129, -0.0232, -0.1039],
+        [-0.0950, -0.0824,  0.1054,  ..., -0.0673, -0.1375,  0.1122],
+        [ 0.0089, -0.1857,  0.1058,  ...,  0.0622, -0.1578, -0.0772]],
+       device='cuda:0'), grad: tensor([[ 8.0373e-07,  2.3888e-07,  2.7381e-06,  ...,  2.7344e-06,
+         -1.1176e-08,  3.3248e-07],
+        [ 2.8033e-07,  3.5623e-07,  1.0515e-06,  ...,  1.0645e-06,
+          5.5879e-09, -6.6077e-07],
+        [ 6.7335e-07, -2.0862e-07,  2.4289e-06,  ...,  4.0904e-06,
+         -7.4506e-09,  1.4855e-07],
+        ...,
+        [ 2.5593e-06, -9.5926e-08,  9.0897e-06,  ..., -6.0238e-06,
+          3.7253e-09,  2.4633e-07],
+        [ 7.9023e-07,  2.4959e-07,  1.2200e-06,  ...,  1.1511e-06,
+          9.3132e-10,  9.4855e-07],
+        [-7.1637e-06,  4.8801e-07, -2.6867e-05,  ..., -2.4378e-05,
+          2.3283e-09,  1.4529e-07]], device='cuda:0')
+Epoch 156, bias, value: tensor([-0.0154, -0.0199, -0.0267, -0.0252, -0.0076,  0.0057,  0.0062, -0.0183,
+        -0.0034,  0.0001], device='cuda:0'), grad: tensor([ 1.4357e-05,  3.8669e-06,  1.0364e-05,  4.8280e-06,  5.8591e-05,
+         4.6007e-06, -3.4813e-06,  8.0317e-06,  7.1526e-06, -1.0818e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 155, time 220.52, cls_loss 0.0026 cls_loss_mapping 0.0048 cls_loss_causal 0.5196 re_mapping 0.0057 re_causal 0.0152 /// teacc 99.08 lr 0.00010000
+Epoch 157, weight, value: tensor([[-0.1570, -0.1512,  0.0850,  ..., -0.0739,  0.0460,  0.0322],
+        [-0.0922, -0.0363, -0.0662,  ..., -0.0890, -0.0849, -0.0372],
+        [ 0.0303, -0.0827, -0.0652,  ..., -0.0689,  0.0168, -0.2659],
+        ...,
+        [-0.1279,  0.1119,  0.0033,  ...,  0.1126, -0.0234, -0.1041],
+        [-0.0957, -0.0831,  0.1071,  ..., -0.0667, -0.1377,  0.1127],
+        [ 0.0097, -0.1869,  0.1087,  ...,  0.0632, -0.1584, -0.0790]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09,  7.1712e-08, -1.3951e-06,  ...,  1.2852e-07,
+          0.0000e+00, -1.5711e-06],
+        [ 1.3039e-08,  7.9442e-07,  3.4273e-07,  ...,  3.2503e-07,
+          9.3132e-10, -2.8126e-07],
+        [ 2.7940e-09,  5.1595e-07,  1.7602e-07,  ...,  2.9802e-07,
+         -5.5879e-09,  1.1269e-07],
+        ...,
+        [ 5.8673e-08, -1.5749e-06,  4.8708e-07,  ..., -2.0396e-07,
+          2.7940e-09,  2.5053e-07],
+        [ 4.0978e-08,  4.0699e-07, -3.2503e-07,  ...,  3.5204e-07,
+          9.3132e-10, -9.9279e-07],
+        [-1.7975e-07,  2.7101e-07, -5.5850e-05,  ..., -7.2002e-05,
+          0.0000e+00,  7.1526e-07]], device='cuda:0')
+Epoch 157, bias, value: tensor([-0.0159, -0.0203, -0.0279, -0.0244, -0.0077,  0.0053,  0.0067, -0.0193,
+        -0.0033,  0.0021], device='cuda:0'), grad: tensor([-4.9621e-06,  1.1409e-06, -1.6075e-06,  7.1712e-07,  1.5318e-04,
+         2.9989e-06,  2.2687e-06,  1.0040e-06,  4.2468e-07, -1.5497e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 156, time 220.57, cls_loss 0.0015 cls_loss_mapping 0.0032 cls_loss_causal 0.5212 re_mapping 0.0055 re_causal 0.0158 /// teacc 98.98 lr 0.00010000
+Epoch 158, weight, value: tensor([[-0.1573, -0.1516,  0.0852,  ..., -0.0742,  0.0461,  0.0323],
+        [-0.0924, -0.0365, -0.0664,  ..., -0.0894, -0.0850, -0.0372],
+        [ 0.0302, -0.0833, -0.0663,  ..., -0.0700,  0.0170, -0.2665],
+        ...,
+        [-0.1283,  0.1125,  0.0035,  ...,  0.1136, -0.0235, -0.1041],
+        [-0.0960, -0.0838,  0.1077,  ..., -0.0669, -0.1378,  0.1129],
+        [ 0.0090, -0.1875,  0.1087,  ...,  0.0625, -0.1587, -0.0797]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-09,  1.5832e-08, -7.4506e-08,  ...,  9.2201e-08,
+         -6.5193e-09,  2.0310e-05],
+        [ 2.2352e-08,  7.2643e-08,  1.5553e-07,  ...,  1.8999e-07,
+          7.4506e-09,  1.2666e-07],
+        [ 1.8626e-09, -1.5553e-07,  2.7008e-08,  ...,  1.3039e-07,
+         -4.3027e-07,  7.9162e-08],
+        ...,
+        [ 5.6811e-08,  2.6822e-07,  1.1986e-06,  ...,  1.2424e-06,
+          4.8429e-08,  7.0781e-08],
+        [ 8.6613e-08,  2.3376e-07,  3.3807e-07,  ...,  3.2131e-07,
+          2.2631e-07,  1.6019e-07],
+        [-4.1537e-07, -3.3155e-07, -3.4701e-06,  ...,  5.8115e-07,
+          1.8626e-09,  1.2200e-07]], device='cuda:0')
+Epoch 158, bias, value: tensor([-0.0160, -0.0204, -0.0279, -0.0244, -0.0073,  0.0053,  0.0070, -0.0189,
+        -0.0034,  0.0015], device='cuda:0'), grad: tensor([ 4.4823e-05,  1.0058e-06, -4.2319e-06,  1.6624e-06, -9.1344e-06,
+         1.5572e-05, -5.9336e-05,  4.4592e-06,  3.3639e-06,  1.8319e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 157, time 220.31, cls_loss 0.0020 cls_loss_mapping 0.0043 cls_loss_causal 0.5309 re_mapping 0.0055 re_causal 0.0152 /// teacc 99.05 lr 0.00010000
+Epoch 159, weight, value: tensor([[-0.1576, -0.1520,  0.0853,  ..., -0.0745,  0.0462,  0.0324],
+        [-0.0928, -0.0365, -0.0665,  ..., -0.0901, -0.0849, -0.0368],
+        [ 0.0301, -0.0843, -0.0670,  ..., -0.0715,  0.0171, -0.2671],
+        ...,
+        [-0.1294,  0.1132,  0.0026,  ...,  0.1139, -0.0236, -0.1046],
+        [-0.0972, -0.0843,  0.1078,  ..., -0.0686, -0.1379,  0.1129],
+        [ 0.0092, -0.1890,  0.1100,  ...,  0.0635, -0.1589, -0.0806]],
+       device='cuda:0'), grad: tensor([[ 1.2107e-08,  1.4249e-07, -1.0710e-07,  ...,  1.5832e-08,
+          0.0000e+00,  1.3784e-07],
+        [ 1.9651e-07,  8.4843e-07,  2.2631e-07,  ...,  4.2003e-07,
+          0.0000e+00,  4.1910e-07],
+        [ 6.5193e-09,  1.7416e-07,  9.7789e-08,  ...,  5.8673e-08,
+         -1.3039e-08,  1.2014e-07],
+        ...,
+        [ 4.0047e-08, -1.9651e-07, -3.1013e-07,  ..., -8.5309e-07,
+          3.7253e-09,  1.9558e-07],
+        [ 2.0973e-06,  1.9260e-06, -3.3062e-07,  ...,  2.8871e-08,
+          9.3132e-10,  3.4831e-06],
+        [ 7.4320e-07,  3.9209e-07,  7.5437e-08,  ...,  3.2876e-07,
+          9.3132e-10,  8.8010e-07]], device='cuda:0')
+Epoch 159, bias, value: tensor([-0.0161, -0.0201, -0.0281, -0.0248, -0.0080,  0.0062,  0.0066, -0.0193,
+        -0.0040,  0.0023], device='cuda:0'), grad: tensor([ 4.4145e-07,  2.1625e-06,  2.5146e-07, -6.0499e-05,  6.1467e-07,
+         4.5002e-05,  3.5018e-07, -1.5646e-07,  9.4622e-06,  2.2389e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 158, time 220.26, cls_loss 0.0015 cls_loss_mapping 0.0031 cls_loss_causal 0.5131 re_mapping 0.0060 re_causal 0.0155 /// teacc 98.99 lr 0.00010000
+Epoch 160, weight, value: tensor([[-0.1578, -0.1525,  0.0854,  ..., -0.0748,  0.0462,  0.0324],
+        [-0.0931, -0.0365, -0.0664,  ..., -0.0905, -0.0848, -0.0367],
+        [ 0.0299, -0.0846, -0.0674,  ..., -0.0721,  0.0173, -0.2674],
+        ...,
+        [-0.1297,  0.1136,  0.0030,  ...,  0.1148, -0.0236, -0.1047],
+        [-0.0976, -0.0860,  0.1079,  ..., -0.0688, -0.1380,  0.1130],
+        [ 0.0090, -0.1905,  0.1099,  ...,  0.0629, -0.1589, -0.0811]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  1.1642e-07, -7.4506e-09,  ...,  3.1665e-08,
+         -9.3132e-10,  1.3690e-07],
+        [ 3.7253e-09,  6.7707e-07,  1.2387e-07,  ...,  1.8161e-07,
+          9.3132e-10,  1.2480e-07],
+        [ 0.0000e+00,  3.5111e-07,  4.7497e-08,  ...,  8.3819e-08,
+         -2.7940e-09,  4.1910e-08],
+        ...,
+        [ 5.5879e-09, -1.8952e-06, -2.3097e-07,  ..., -6.5845e-07,
+          1.8626e-09,  1.9558e-08],
+        [ 2.5146e-08,  1.7788e-07,  6.7055e-08,  ...,  9.5926e-08,
+          0.0000e+00,  1.2387e-07],
+        [-6.2399e-08,  1.1642e-07, -2.4866e-07,  ..., -6.2399e-08,
+          0.0000e+00,  9.3132e-09]], device='cuda:0')
+Epoch 160, bias, value: tensor([-0.0159, -0.0200, -0.0282, -0.0246, -0.0077,  0.0061,  0.0068, -0.0192,
+        -0.0042,  0.0018], device='cuda:0'), grad: tensor([ 7.7672e-07,  1.6438e-06,  6.8825e-07,  3.7532e-07,  1.5246e-06,
+         1.3607e-06, -4.0568e-06, -3.1888e-06,  1.0645e-06, -1.9465e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 159, time 220.70, cls_loss 0.0015 cls_loss_mapping 0.0041 cls_loss_causal 0.5278 re_mapping 0.0057 re_causal 0.0156 /// teacc 99.07 lr 0.00010000
+Epoch 161, weight, value: tensor([[-0.1582, -0.1529,  0.0855,  ..., -0.0750,  0.0463,  0.0323],
+        [-0.0934, -0.0367, -0.0667,  ..., -0.0910, -0.0848, -0.0367],
+        [ 0.0296, -0.0850, -0.0677,  ..., -0.0726,  0.0175, -0.2679],
+        ...,
+        [-0.1302,  0.1140,  0.0031,  ...,  0.1158, -0.0237, -0.1049],
+        [-0.0979, -0.0865,  0.1082,  ..., -0.0691, -0.1381,  0.1133],
+        [ 0.0092, -0.1909,  0.1104,  ...,  0.0629, -0.1591, -0.0812]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  2.7008e-08, -8.3819e-09,  ...,  3.0734e-08,
+          4.6566e-09,  8.6665e-05],
+        [ 1.8626e-09,  3.5390e-08,  1.6764e-08,  ...,  1.1642e-07,
+         -2.7474e-07,  1.6540e-06],
+        [ 0.0000e+00,  2.6077e-07,  6.3330e-08,  ...,  1.2666e-07,
+          1.8626e-08,  1.7602e-07],
+        ...,
+        [ 5.5879e-09, -3.7253e-07, -8.7544e-08,  ..., -1.8347e-07,
+          1.1083e-07,  3.2410e-07],
+        [ 2.7940e-09,  1.9558e-08,  1.0245e-08,  ...,  3.7253e-08,
+          1.3970e-08,  7.7579e-07],
+        [-2.3283e-08,  5.0291e-08, -5.8673e-08,  ...,  5.9325e-07,
+          5.5879e-09,  1.6671e-07]], device='cuda:0')
+Epoch 161, bias, value: tensor([-0.0163, -0.0201, -0.0283, -0.0240, -0.0083,  0.0055,  0.0068, -0.0189,
+        -0.0043,  0.0023], device='cuda:0'), grad: tensor([ 3.8171e-04,  7.1526e-06,  7.6834e-07,  2.3469e-07,  3.0756e-05,
+         1.3616e-06, -4.3201e-04,  1.6661e-06,  3.7253e-06,  5.2191e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 160, time 220.06, cls_loss 0.0016 cls_loss_mapping 0.0034 cls_loss_causal 0.5431 re_mapping 0.0058 re_causal 0.0156 /// teacc 99.01 lr 0.00010000
+Epoch 162, weight, value: tensor([[-0.1594, -0.1534,  0.0857,  ..., -0.0753,  0.0465,  0.0318],
+        [-0.0937, -0.0365, -0.0667,  ..., -0.0914, -0.0877, -0.0375],
+        [ 0.0294, -0.0855, -0.0686,  ..., -0.0731,  0.0176, -0.2687],
+        ...,
+        [-0.1308,  0.1142,  0.0033,  ...,  0.1164, -0.0238, -0.1049],
+        [-0.0982, -0.0874,  0.1083,  ..., -0.0707, -0.1383,  0.1136],
+        [ 0.0093, -0.1917,  0.1105,  ...,  0.0626, -0.1598, -0.0819]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-09,  1.0710e-07, -2.8126e-07,  ...,  8.3260e-07,
+         -1.8813e-07, -1.3942e-06],
+        [ 8.3819e-09,  3.6228e-07,  6.6776e-07,  ...,  1.0487e-06,
+          3.7253e-09,  1.1176e-07],
+        [ 1.2107e-08,  2.8498e-07,  3.4459e-07,  ...,  2.4121e-07,
+          3.3528e-08,  4.9639e-07],
+        ...,
+        [ 2.4214e-08, -2.0154e-06,  5.9605e-06,  ...,  1.0334e-05,
+          2.2352e-08,  2.5705e-07],
+        [-5.3085e-08,  8.8476e-08,  6.6217e-07,  ...,  1.5842e-06,
+          1.9558e-08, -1.8552e-06],
+        [-1.7602e-07,  4.0419e-07, -2.1160e-05,  ..., -3.6895e-05,
+          1.3970e-08,  4.8988e-07]], device='cuda:0')
+Epoch 162, bias, value: tensor([-0.0170, -0.0201, -0.0284, -0.0241, -0.0079,  0.0055,  0.0079, -0.0190,
+        -0.0046,  0.0019], device='cuda:0'), grad: tensor([-1.2591e-06,  3.7104e-06,  2.3227e-06,  1.4521e-05,  4.9084e-05,
+         6.1542e-06,  1.8105e-06,  3.2723e-05,  2.3171e-06, -1.1140e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 161, time 220.08, cls_loss 0.0016 cls_loss_mapping 0.0035 cls_loss_causal 0.5141 re_mapping 0.0056 re_causal 0.0154 /// teacc 98.99 lr 0.00010000
+Epoch 163, weight, value: tensor([[-0.1596, -0.1532,  0.0860,  ..., -0.0755,  0.0467,  0.0315],
+        [-0.0937, -0.0367, -0.0668,  ..., -0.0922, -0.0876, -0.0373],
+        [ 0.0292, -0.0856, -0.0692,  ..., -0.0731,  0.0178, -0.2691],
+        ...,
+        [-0.1313,  0.1146,  0.0034,  ...,  0.1166, -0.0243, -0.1051],
+        [-0.0987, -0.0876,  0.1090,  ..., -0.0711, -0.1386,  0.1138],
+        [ 0.0091, -0.1925,  0.1105,  ...,  0.0615, -0.1604, -0.0829]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-08,  1.3225e-07, -9.3132e-08,  ...,  8.5682e-08,
+          0.0000e+00, -4.3772e-08],
+        [ 6.0536e-08,  2.6785e-06,  8.4843e-07,  ...,  1.8151e-06,
+          0.0000e+00,  4.1910e-08],
+        [ 3.7253e-09,  4.1816e-07,  9.7789e-08,  ...,  2.5891e-07,
+          0.0000e+00,  1.1269e-07],
+        ...,
+        [ 5.9605e-08, -1.0610e-05, -1.8794e-06,  ..., -6.7018e-06,
+          0.0000e+00,  8.3819e-08],
+        [ 5.3085e-08,  8.2329e-07,  2.6915e-07,  ...,  2.5798e-07,
+          0.0000e+00,  9.4343e-07],
+        [-1.5814e-06,  1.4808e-06, -7.5325e-06,  ..., -4.2431e-06,
+          0.0000e+00, -2.0899e-06]], device='cuda:0')
+Epoch 163, bias, value: tensor([-0.0175, -0.0200, -0.0280, -0.0245, -0.0067,  0.0055,  0.0086, -0.0191,
+        -0.0050,  0.0009], device='cuda:0'), grad: tensor([ 8.2981e-07,  5.7705e-06, -3.1386e-07,  8.8587e-06,  2.5243e-05,
+         3.1330e-06, -3.7067e-06, -1.8701e-05,  4.3325e-06, -2.5481e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 162, time 220.18, cls_loss 0.0013 cls_loss_mapping 0.0031 cls_loss_causal 0.5428 re_mapping 0.0056 re_causal 0.0157 /// teacc 99.06 lr 0.00010000
+Epoch 164, weight, value: tensor([[-0.1605, -0.1540,  0.0862,  ..., -0.0757,  0.0478,  0.0316],
+        [-0.0938, -0.0367, -0.0670,  ..., -0.0927, -0.0878, -0.0370],
+        [ 0.0291, -0.0858, -0.0699,  ..., -0.0736,  0.0185, -0.2712],
+        ...,
+        [-0.1320,  0.1149,  0.0035,  ...,  0.1168, -0.0245, -0.1052],
+        [-0.0991, -0.0885,  0.1091,  ..., -0.0719, -0.1396,  0.1141],
+        [ 0.0093, -0.1929,  0.1108,  ...,  0.0608, -0.1624, -0.0832]],
+       device='cuda:0'), grad: tensor([[ 1.1176e-08, -2.9337e-07, -1.5786e-06,  ...,  1.1176e-08,
+         -1.0617e-07, -5.9325e-07],
+        [ 1.3039e-08,  3.9116e-08,  6.2399e-08,  ...,  3.9116e-08,
+         -3.7253e-09, -2.1420e-08],
+        [ 2.7940e-09,  7.5437e-08,  4.0047e-07,  ...,  4.4703e-08,
+          1.8626e-08,  2.0862e-07],
+        ...,
+        [ 3.0734e-08, -6.7055e-08,  1.3970e-07,  ..., -1.4901e-08,
+          8.3819e-09,  9.6858e-08],
+        [ 7.2643e-08,  9.6858e-08, -3.7998e-06,  ..., -1.3830e-06,
+          1.3970e-08, -2.7083e-06],
+        [-7.4506e-09,  4.5635e-08,  3.3304e-06,  ...,  1.0142e-06,
+          4.6566e-09,  2.6077e-06]], device='cuda:0')
+Epoch 164, bias, value: tensor([-0.0175, -0.0196, -0.0288, -0.0252, -0.0057,  0.0058,  0.0088, -0.0192,
+        -0.0051,  0.0004], device='cuda:0'), grad: tensor([-2.7679e-06, -3.1479e-07,  1.0096e-06,  2.1607e-06,  5.9325e-07,
+        -6.4354e-07,  1.6019e-07,  3.9209e-07, -8.0168e-06,  7.4357e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 163----------------------------------------------------
+epoch 163, time 220.89, cls_loss 0.0016 cls_loss_mapping 0.0031 cls_loss_causal 0.5121 re_mapping 0.0056 re_causal 0.0154 /// teacc 99.11 lr 0.00010000
+Epoch 165, weight, value: tensor([[-0.1603, -0.1545,  0.0868,  ..., -0.0760,  0.0480,  0.0318],
+        [-0.0940, -0.0344, -0.0644,  ..., -0.0933, -0.0878, -0.0371],
+        [ 0.0289, -0.0859, -0.0704,  ..., -0.0736,  0.0187, -0.2724],
+        ...,
+        [-0.1326,  0.1129,  0.0016,  ...,  0.1171, -0.0246, -0.1053],
+        [-0.0997, -0.0891,  0.1093,  ..., -0.0728, -0.1399,  0.1144],
+        [ 0.0102, -0.1938,  0.1112,  ...,  0.0611, -0.1628, -0.0834]],
+       device='cuda:0'), grad: tensor([[ 4.0978e-08,  2.8685e-07, -4.5542e-07,  ...,  1.0896e-07,
+          0.0000e+00, -3.9767e-07],
+        [ 5.4110e-07,  1.1260e-06,  1.2452e-06,  ...,  1.0412e-06,
+         -9.3132e-10,  1.2107e-07],
+        [-6.1560e-07,  4.7721e-06,  8.3819e-08,  ..., -3.1926e-06,
+          0.0000e+00,  5.5879e-08],
+        ...,
+        [ 1.7695e-07, -2.6077e-07,  4.4890e-07,  ..., -8.2422e-07,
+          9.3132e-10, -2.6077e-08],
+        [ 2.6263e-07,  8.1211e-07,  2.8778e-07,  ...,  2.0675e-07,
+          0.0000e+00,  6.9849e-08],
+        [-1.6496e-05,  8.4341e-06, -3.4302e-05,  ..., -2.3678e-05,
+          0.0000e+00, -1.6261e-06]], device='cuda:0')
+Epoch 165, bias, value: tensor([-0.0174, -0.0177, -0.0287, -0.0253, -0.0059,  0.0057,  0.0093, -0.0212,
+        -0.0053,  0.0006], device='cuda:0'), grad: tensor([-5.6066e-07,  6.6385e-06, -2.7746e-05, -2.7463e-05,  1.3375e-04,
+         3.7514e-06,  7.0594e-07,  7.1526e-07,  2.2184e-06, -9.1970e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 164, time 220.31, cls_loss 0.0014 cls_loss_mapping 0.0031 cls_loss_causal 0.5319 re_mapping 0.0055 re_causal 0.0158 /// teacc 99.01 lr 0.00010000
+Epoch 166, weight, value: tensor([[-0.1605, -0.1551,  0.0871,  ..., -0.0761,  0.0483,  0.0320],
+        [-0.0943, -0.0347, -0.0649,  ..., -0.0942, -0.0876, -0.0370],
+        [ 0.0287, -0.0860, -0.0711,  ..., -0.0739,  0.0195, -0.2728],
+        ...,
+        [-0.1333,  0.1135,  0.0020,  ...,  0.1175, -0.0249, -0.1054],
+        [-0.1003, -0.0907,  0.1093,  ..., -0.0734, -0.1407,  0.1147],
+        [ 0.0103, -0.1945,  0.1116,  ...,  0.0613, -0.1642, -0.0837]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09,  1.3039e-08, -5.7742e-08,  ...,  5.5879e-09,
+          2.8871e-08, -9.3132e-09],
+        [ 8.3819e-09, -8.7395e-06,  3.8184e-08,  ...,  4.9360e-08,
+          3.7253e-08, -7.1712e-08],
+        [ 1.8626e-09,  1.7034e-06,  4.5635e-08,  ...,  7.2643e-08,
+         -1.4342e-07,  4.6566e-08],
+        ...,
+        [ 1.2107e-08,  6.7428e-06, -5.5879e-08,  ..., -1.4156e-07,
+          1.2107e-08,  3.6322e-08],
+        [ 2.1793e-07,  2.5146e-08,  8.5682e-08,  ...,  2.1607e-07,
+          3.8184e-08, -3.1665e-08],
+        [-3.9861e-07,  3.4459e-08, -4.6100e-07,  ..., -4.7404e-07,
+          2.7940e-09, -1.2387e-07]], device='cuda:0')
+Epoch 166, bias, value: tensor([-0.0174, -0.0179, -0.0280, -0.0258, -0.0060,  0.0057,  0.0093, -0.0210,
+        -0.0056,  0.0008], device='cuda:0'), grad: tensor([ 8.2608e-07, -3.1263e-05,  9.8161e-07,  1.2079e-06,  7.1712e-07,
+         2.9150e-07, -7.0781e-08,  2.5630e-05,  1.7928e-06, -1.9185e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 165, time 220.15, cls_loss 0.0016 cls_loss_mapping 0.0028 cls_loss_causal 0.5153 re_mapping 0.0055 re_causal 0.0154 /// teacc 98.96 lr 0.00010000
+Epoch 167, weight, value: tensor([[-0.1606, -0.1553,  0.0874,  ..., -0.0763,  0.0486,  0.0320],
+        [-0.0945, -0.0351, -0.0653,  ..., -0.0950, -0.0875, -0.0366],
+        [ 0.0285, -0.0867, -0.0728,  ..., -0.0743,  0.0194, -0.2755],
+        ...,
+        [-0.1337,  0.1144,  0.0025,  ...,  0.1182, -0.0249, -0.1056],
+        [-0.1007, -0.0906,  0.1103,  ..., -0.0737, -0.1407,  0.1153],
+        [ 0.0104, -0.1958,  0.1116,  ...,  0.0610, -0.1649, -0.0843]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.3784e-07,  1.3709e-06,  ...,  7.3761e-07,
+          0.0000e+00,  5.5507e-07],
+        [ 0.0000e+00,  7.7859e-07,  6.5751e-07,  ...,  6.1933e-07,
+         -9.3132e-09,  3.8184e-08],
+        [ 0.0000e+00,  5.9605e-07,  2.4959e-07,  ...,  6.2864e-07,
+          0.0000e+00,  1.4529e-07],
+        ...,
+        [ 0.0000e+00, -1.7220e-06,  2.3283e-07,  ..., -8.2143e-07,
+          6.5193e-09, -1.0524e-07],
+        [ 1.8626e-09,  6.1467e-08,  2.9709e-07,  ...,  2.4959e-07,
+          0.0000e+00, -2.4494e-07],
+        [ 9.3132e-10,  8.1956e-08, -5.7481e-06,  ..., -2.7586e-06,
+          0.0000e+00,  1.9092e-07]], device='cuda:0')
+Epoch 167, bias, value: tensor([-0.0173, -0.0180, -0.0282, -0.0260, -0.0060,  0.0053,  0.0100, -0.0206,
+        -0.0055,  0.0004], device='cuda:0'), grad: tensor([ 5.6326e-06,  3.9600e-06, -7.0967e-06,  1.5963e-06,  5.7332e-06,
+         1.6335e-06, -2.3842e-06,  2.6301e-06,  9.6019e-07, -1.2696e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 166, time 220.15, cls_loss 0.0016 cls_loss_mapping 0.0033 cls_loss_causal 0.5337 re_mapping 0.0055 re_causal 0.0159 /// teacc 99.04 lr 0.00010000
+Epoch 168, weight, value: tensor([[-0.1608, -0.1556,  0.0876,  ..., -0.0766,  0.0486,  0.0321],
+        [-0.0948, -0.0351, -0.0652,  ..., -0.0958, -0.0874, -0.0366],
+        [ 0.0283, -0.0887, -0.0735,  ..., -0.0762,  0.0194, -0.2759],
+        ...,
+        [-0.1340,  0.1152,  0.0025,  ...,  0.1189, -0.0250, -0.1057],
+        [-0.1028, -0.0910,  0.1104,  ..., -0.0745, -0.1409,  0.1143],
+        [ 0.0109, -0.1975,  0.1119,  ...,  0.0610, -0.1653, -0.0843]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-08,  8.5682e-08,  9.4995e-08,  ...,  6.5193e-08,
+         -1.8626e-09,  7.7300e-08],
+        [ 1.1735e-07,  3.5390e-07,  4.4703e-07,  ...,  5.0664e-07,
+         -9.3132e-10,  7.5437e-07],
+        [ 8.3819e-09,  3.9581e-07,  2.4214e-07,  ...,  1.2573e-07,
+         -9.3132e-10,  2.1886e-07],
+        ...,
+        [ 6.4261e-08, -8.3633e-07,  1.3132e-07,  ..., -2.5146e-07,
+          0.0000e+00,  2.3562e-07],
+        [-4.3772e-07, -1.0990e-07, -3.3118e-06,  ..., -1.2759e-07,
+          0.0000e+00, -9.0450e-06],
+        [ 6.0052e-06,  2.4773e-07,  1.0822e-06,  ...,  1.1466e-05,
+          0.0000e+00,  4.0755e-06]], device='cuda:0')
+Epoch 168, bias, value: tensor([-0.0173, -0.0181, -0.0280, -0.0261, -0.0058,  0.0051,  0.0104, -0.0204,
+        -0.0062,  0.0003], device='cuda:0'), grad: tensor([ 4.5635e-07,  4.0233e-06,  1.0030e-06,  2.5108e-06, -4.2439e-05,
+         2.9020e-06,  1.4538e-06,  1.4342e-07, -1.6093e-05,  4.6074e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 167, time 220.36, cls_loss 0.0020 cls_loss_mapping 0.0038 cls_loss_causal 0.5034 re_mapping 0.0053 re_causal 0.0146 /// teacc 99.11 lr 0.00010000
+Epoch 169, weight, value: tensor([[-0.1611, -0.1570,  0.0876,  ..., -0.0774,  0.0489,  0.0321],
+        [-0.0960, -0.0357, -0.0658,  ..., -0.0977, -0.0873, -0.0367],
+        [ 0.0278, -0.0916, -0.0740,  ..., -0.0791,  0.0196, -0.2763],
+        ...,
+        [-0.1360,  0.1171,  0.0031,  ...,  0.1213, -0.0254, -0.1060],
+        [-0.1034, -0.0916,  0.1107,  ..., -0.0756, -0.1409,  0.1145],
+        [ 0.0103, -0.2001,  0.1120,  ...,  0.0607, -0.1655, -0.0849]],
+       device='cuda:0'), grad: tensor([[-5.5879e-09,  1.2666e-07, -1.0803e-07,  ...,  1.2107e-08,
+          9.3132e-10, -1.1642e-07],
+        [ 1.8626e-09,  2.3283e-06,  6.0536e-08,  ...,  3.0454e-07,
+          1.4901e-08, -1.0272e-06],
+        [ 9.3132e-10,  2.3544e-06,  3.7253e-08,  ...,  9.2201e-08,
+         -2.1420e-08,  4.1910e-08],
+        ...,
+        [ 2.7940e-09,  6.8955e-06, -3.3341e-07,  ..., -1.1139e-06,
+          2.7940e-09,  3.4831e-07],
+        [-9.4064e-08,  4.3027e-07, -4.6380e-07,  ...,  1.2107e-08,
+          9.3132e-10, -8.6240e-07],
+        [ 3.7253e-09,  6.2771e-07,  2.7847e-07,  ...,  2.8871e-07,
+          0.0000e+00,  4.3493e-07]], device='cuda:0')
+Epoch 169, bias, value: tensor([-0.0174, -0.0187, -0.0288, -0.0257, -0.0056,  0.0046,  0.0100, -0.0191,
+        -0.0063,  0.0001], device='cuda:0'), grad: tensor([ 1.2014e-07,  1.8636e-06,  2.3469e-06, -2.4214e-05,  1.7555e-06,
+         3.6061e-06, -7.6927e-07,  1.2845e-05, -1.6484e-07,  2.6114e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 168, time 220.34, cls_loss 0.0017 cls_loss_mapping 0.0035 cls_loss_causal 0.5102 re_mapping 0.0052 re_causal 0.0144 /// teacc 99.06 lr 0.00010000
+Epoch 170, weight, value: tensor([[-0.1618, -0.1575,  0.0875,  ..., -0.0777,  0.0494,  0.0320],
+        [-0.0963, -0.0353, -0.0655,  ..., -0.0986, -0.0874, -0.0360],
+        [ 0.0271, -0.0918, -0.0746,  ..., -0.0792,  0.0201, -0.2783],
+        ...,
+        [-0.1370,  0.1168,  0.0022,  ...,  0.1206, -0.0257, -0.1073],
+        [-0.1042, -0.0915,  0.1118,  ..., -0.0743, -0.1413,  0.1154],
+        [ 0.0104, -0.2013,  0.1129,  ...,  0.0610, -0.1660, -0.0857]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-07,  1.9707e-06,  9.6206e-07,  ...,  3.3621e-07,
+          0.0000e+00,  5.1223e-07],
+        [ 1.8068e-07,  1.4398e-06,  7.1786e-06,  ...,  5.3830e-07,
+         -1.8626e-09,  9.0897e-06],
+        [ 1.5739e-07,  2.1420e-06,  6.9663e-07,  ...,  3.1386e-07,
+          0.0000e+00,  6.2771e-07],
+        ...,
+        [ 1.4249e-06,  8.1062e-06,  3.0957e-06,  ..., -6.0815e-07,
+          9.3132e-10,  1.9036e-06],
+        [ 1.6233e-06,  2.9802e-07, -1.0133e-05,  ...,  2.6375e-06,
+          0.0000e+00, -1.7554e-05],
+        [-1.9222e-06,  7.8380e-06, -2.5406e-06,  ..., -2.9393e-06,
+          0.0000e+00,  1.6317e-06]], device='cuda:0')
+Epoch 170, bias, value: tensor([-0.0179, -0.0184, -0.0281, -0.0260, -0.0056,  0.0050,  0.0104, -0.0202,
+        -0.0060,  0.0003], device='cuda:0'), grad: tensor([ 6.2324e-06,  2.7701e-05,  8.7693e-06, -4.1485e-05, -1.7241e-05,
+         7.5139e-06,  3.6843e-06,  2.0072e-05, -3.0145e-05,  1.4886e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 169, time 220.43, cls_loss 0.0020 cls_loss_mapping 0.0041 cls_loss_causal 0.5085 re_mapping 0.0050 re_causal 0.0137 /// teacc 98.94 lr 0.00010000
+Epoch 171, weight, value: tensor([[-0.1622, -0.1582,  0.0868,  ..., -0.0791,  0.0495,  0.0321],
+        [-0.0966, -0.0359, -0.0670,  ..., -0.1018, -0.0873, -0.0358],
+        [ 0.0262, -0.0927, -0.0754,  ..., -0.0800,  0.0202, -0.2794],
+        ...,
+        [-0.1378,  0.1176,  0.0030,  ...,  0.1219, -0.0257, -0.1076],
+        [-0.1035, -0.0919,  0.1127,  ..., -0.0749, -0.1414,  0.1162],
+        [ 0.0106, -0.2022,  0.1136,  ...,  0.0618, -0.1663, -0.0866]],
+       device='cuda:0'), grad: tensor([[ 7.3574e-08,  6.5193e-09, -5.8487e-07,  ...,  8.5682e-08,
+         -1.9558e-08, -4.4517e-07],
+        [ 8.1956e-08,  9.9652e-08,  2.4214e-07,  ...,  1.8813e-07,
+          1.8626e-09,  5.0291e-08],
+        [ 8.8476e-08, -1.9558e-08,  3.4459e-07,  ...,  2.3376e-07,
+          1.8626e-09,  1.4994e-07],
+        ...,
+        [ 1.0524e-07,  9.2201e-08,  7.5698e-06,  ...,  6.3777e-06,
+          9.3132e-10,  2.0396e-07],
+        [ 6.8825e-07,  2.1420e-08,  4.9826e-07,  ...,  4.8056e-07,
+          9.3132e-10,  5.3924e-07],
+        [ 5.9977e-07,  1.3970e-08, -1.0386e-05,  ..., -9.0599e-06,
+          5.5879e-09,  5.5041e-07]], device='cuda:0')
+Epoch 171, bias, value: tensor([-0.0184, -0.0193, -0.0281, -0.0257, -0.0061,  0.0048,  0.0105, -0.0194,
+        -0.0055,  0.0007], device='cuda:0'), grad: tensor([-1.7565e-06,  1.4110e-06, -2.3395e-06,  2.3767e-06,  5.5358e-06,
+        -6.7316e-06,  2.3972e-06,  2.1666e-05,  2.7195e-06, -2.5257e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 170, time 220.26, cls_loss 0.0021 cls_loss_mapping 0.0041 cls_loss_causal 0.5368 re_mapping 0.0052 re_causal 0.0145 /// teacc 98.96 lr 0.00010000
+Epoch 172, weight, value: tensor([[-0.1634, -0.1588,  0.0863,  ..., -0.0804,  0.0496,  0.0319],
+        [-0.0983, -0.0361, -0.0674,  ..., -0.1036, -0.0875, -0.0358],
+        [ 0.0263, -0.0937, -0.0761,  ..., -0.0813,  0.0204, -0.2802],
+        ...,
+        [-0.1391,  0.1181,  0.0027,  ...,  0.1224, -0.0259, -0.1080],
+        [-0.1046, -0.0929,  0.1127,  ..., -0.0773, -0.1416,  0.1165],
+        [ 0.0122, -0.2031,  0.1149,  ...,  0.0638, -0.1667, -0.0845]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-08,  3.7253e-09,  1.6764e-08,  ...,  1.8440e-07,
+         -9.3132e-10,  2.9802e-08],
+        [ 5.5879e-09, -4.6566e-09, -5.1968e-07,  ...,  5.1223e-07,
+         -5.5879e-09, -7.4878e-07],
+        [ 3.7253e-09,  1.0245e-08,  2.1420e-08,  ...,  1.6298e-07,
+          0.0000e+00,  3.1665e-08],
+        ...,
+        [ 3.9116e-08,  2.3283e-08,  2.6915e-07,  ...,  1.2787e-06,
+          3.7253e-09,  3.3341e-07],
+        [ 1.0338e-07,  1.3970e-08,  1.3318e-07,  ...,  7.6927e-07,
+          0.0000e+00,  1.6857e-07],
+        [-5.1502e-07,  3.3528e-08, -8.0746e-07,  ...,  6.2063e-06,
+          0.0000e+00,  3.7160e-07]], device='cuda:0')
+Epoch 172, bias, value: tensor([-0.0192, -0.0195, -0.0286, -0.0256, -0.0071,  0.0043,  0.0106, -0.0196,
+        -0.0061,  0.0025], device='cuda:0'), grad: tensor([ 7.3668e-07, -3.5577e-07,  7.6182e-07, -5.2154e-08, -3.8475e-05,
+         1.3951e-06,  2.4028e-06,  5.6885e-06,  3.3639e-06,  2.4572e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 171, time 220.23, cls_loss 0.0018 cls_loss_mapping 0.0031 cls_loss_causal 0.5273 re_mapping 0.0054 re_causal 0.0148 /// teacc 99.09 lr 0.00010000
+Epoch 173, weight, value: tensor([[-0.1653, -0.1593,  0.0865,  ..., -0.0811,  0.0499,  0.0315],
+        [-0.0989, -0.0363, -0.0675,  ..., -0.1046, -0.0876, -0.0358],
+        [ 0.0259, -0.0941, -0.0773,  ..., -0.0828,  0.0221, -0.2812],
+        ...,
+        [-0.1401,  0.1189,  0.0031,  ...,  0.1243, -0.0261, -0.1084],
+        [-0.1056, -0.0942,  0.1129,  ..., -0.0780, -0.1434,  0.1166],
+        [ 0.0125, -0.2055,  0.1151,  ...,  0.0636, -0.1670, -0.0836]],
+       device='cuda:0'), grad: tensor([[ 4.1910e-08,  1.0058e-07,  1.8626e-08,  ...,  9.1270e-08,
+          0.0000e+00,  9.3132e-09],
+        [ 1.3411e-07, -4.7125e-06,  3.7253e-07,  ...,  5.6811e-07,
+         -1.3039e-08,  2.0489e-07],
+        [ 2.0489e-08,  3.1553e-06,  7.1116e-06,  ...,  3.3900e-07,
+          1.8626e-09,  9.3579e-06],
+        ...,
+        [ 6.4168e-07, -4.7348e-06,  1.1409e-06,  ..., -5.9903e-06,
+          1.8626e-09,  6.3051e-07],
+        [-1.2200e-07, -3.0417e-06, -8.9109e-06,  ..., -9.7789e-08,
+          0.0000e+00, -1.2539e-05],
+        [-1.5860e-06,  8.8103e-07, -1.8720e-06,  ..., -4.6939e-07,
+          0.0000e+00,  2.1420e-07]], device='cuda:0')
+Epoch 173, bias, value: tensor([-0.0196, -0.0198, -0.0284, -0.0258, -0.0072,  0.0044,  0.0106, -0.0190,
+        -0.0067,  0.0026], device='cuda:0'), grad: tensor([ 2.1830e-06, -1.8597e-05, -4.6939e-07,  2.8610e-06,  3.1471e-05,
+         4.2319e-06, -6.4448e-07,  1.4998e-05, -3.7193e-05,  1.2564e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 172, time 220.21, cls_loss 0.0014 cls_loss_mapping 0.0032 cls_loss_causal 0.5246 re_mapping 0.0050 re_causal 0.0149 /// teacc 98.99 lr 0.00010000
+Epoch 174, weight, value: tensor([[-0.1658, -0.1600,  0.0868,  ..., -0.0814,  0.0504,  0.0319],
+        [-0.0992, -0.0366, -0.0676,  ..., -0.1056, -0.0875, -0.0357],
+        [ 0.0255, -0.0943, -0.0777,  ..., -0.0832,  0.0226, -0.2817],
+        ...,
+        [-0.1416,  0.1196,  0.0033,  ...,  0.1253, -0.0264, -0.1086],
+        [-0.1066, -0.0947,  0.1134,  ..., -0.0783, -0.1439,  0.1168],
+        [ 0.0123, -0.2065,  0.1152,  ...,  0.0635, -0.1676, -0.0840]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09,  1.9558e-08, -4.1071e-07,  ...,  9.3132e-10,
+          0.0000e+00, -3.4925e-07],
+        [ 2.5146e-08, -1.0246e-04, -5.2959e-05,  ...,  4.2841e-08,
+          0.0000e+00,  3.9116e-08],
+        [ 1.2107e-08,  1.2387e-07,  1.9372e-07,  ...,  5.5879e-09,
+          1.8626e-09,  2.5332e-07],
+        ...,
+        [ 1.2107e-08,  1.0133e-04,  5.2512e-05,  ..., -2.2352e-08,
+          9.3132e-10,  9.5926e-08],
+        [ 1.3597e-07, -6.0629e-07, -5.6252e-07,  ..., -4.3772e-08,
+          0.0000e+00, -9.9372e-07],
+        [ 5.1223e-08,  4.7404e-07,  3.2410e-07,  ...,  1.9558e-08,
+          0.0000e+00,  1.9837e-07]], device='cuda:0')
+Epoch 174, bias, value: tensor([-0.0186, -0.0199, -0.0281, -0.0261, -0.0073,  0.0045,  0.0103, -0.0187,
+        -0.0070,  0.0024], device='cuda:0'), grad: tensor([-1.4454e-06, -2.8515e-04,  9.1176e-07,  5.3048e-06, -3.4831e-07,
+        -3.0212e-06,  1.7276e-06,  2.8253e-04, -2.8014e-06,  1.8403e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 173, time 220.45, cls_loss 0.0014 cls_loss_mapping 0.0035 cls_loss_causal 0.4998 re_mapping 0.0054 re_causal 0.0148 /// teacc 99.08 lr 0.00010000
+Epoch 175, weight, value: tensor([[-0.1662, -0.1594,  0.0873,  ..., -0.0817,  0.0506,  0.0327],
+        [-0.0996, -0.0372, -0.0684,  ..., -0.1067, -0.0875, -0.0356],
+        [ 0.0249, -0.0945, -0.0782,  ..., -0.0832,  0.0226, -0.2826],
+        ...,
+        [-0.1428,  0.1203,  0.0037,  ...,  0.1257, -0.0267, -0.1091],
+        [-0.1069, -0.0951,  0.1138,  ..., -0.0787, -0.1440,  0.1171],
+        [ 0.0122, -0.2071,  0.1154,  ...,  0.0636, -0.1682, -0.0846]],
+       device='cuda:0'), grad: tensor([[ 8.1025e-08,  1.6112e-07, -3.9116e-08,  ...,  4.4703e-08,
+          2.5146e-08,  7.3574e-08],
+        [ 3.4459e-08,  6.4261e-08,  2.7940e-08,  ...,  5.9605e-08,
+          1.8626e-09,  2.7008e-08],
+        [ 3.6322e-08,  4.9639e-07,  2.4121e-07,  ...,  1.5832e-08,
+         -1.6764e-07,  9.2387e-07],
+        ...,
+        [ 3.6322e-08,  2.0564e-06,  1.1455e-06,  ..., -1.8626e-08,
+          4.9360e-08,  4.5486e-06],
+        [ 5.4576e-07, -3.0082e-07, -1.7472e-06,  ...,  2.0768e-07,
+          1.4901e-08, -6.5491e-06],
+        [-1.7323e-07,  1.7229e-07, -3.2783e-07,  ...,  1.8720e-06,
+          6.5193e-09,  6.0536e-08]], device='cuda:0')
+Epoch 175, bias, value: tensor([-0.0176, -0.0205, -0.0279, -0.0265, -0.0075,  0.0049,  0.0103, -0.0183,
+        -0.0069,  0.0025], device='cuda:0'), grad: tensor([ 1.3746e-06,  5.1223e-07, -1.6391e-07, -1.1757e-05, -7.9423e-06,
+         4.4778e-06,  1.1176e-06,  8.8960e-06, -2.4326e-06,  5.8897e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 174, time 220.33, cls_loss 0.0016 cls_loss_mapping 0.0035 cls_loss_causal 0.5040 re_mapping 0.0052 re_causal 0.0143 /// teacc 99.08 lr 0.00010000
+Epoch 176, weight, value: tensor([[-0.1666, -0.1606,  0.0892,  ..., -0.0812,  0.0511,  0.0359],
+        [-0.0999, -0.0376, -0.0688,  ..., -0.1077, -0.0874, -0.0355],
+        [ 0.0246, -0.0949, -0.0790,  ..., -0.0840,  0.0223, -0.2836],
+        ...,
+        [-0.1436,  0.1209,  0.0042,  ...,  0.1273, -0.0270, -0.1093],
+        [-0.1083, -0.0955,  0.1139,  ..., -0.0797, -0.1441,  0.1171],
+        [ 0.0118, -0.2083,  0.1152,  ...,  0.0633, -0.1688, -0.0853]],
+       device='cuda:0'), grad: tensor([[ 2.7101e-07,  9.3132e-10, -1.1288e-06,  ...,  4.0159e-06,
+          2.1141e-07,  2.5220e-06],
+        [ 4.4703e-08,  5.5879e-09,  1.8626e-08,  ...,  2.8219e-07,
+          6.9849e-08, -3.5297e-07],
+        [ 2.4214e-08,  1.8626e-09,  5.8115e-07,  ...,  6.8452e-07,
+          6.1747e-07,  6.7055e-07],
+        ...,
+        [ 1.8720e-07, -6.5193e-09,  6.7055e-08,  ...,  2.1979e-07,
+          5.4948e-08,  5.7090e-07],
+        [ 5.8021e-07,  1.8626e-09,  6.2399e-08,  ...,  6.9663e-07,
+          1.8626e-07,  1.0626e-06],
+        [ 4.3865e-07,  3.7253e-09, -8.9407e-08,  ...,  8.8476e-07,
+          2.7288e-07,  1.2321e-06]], device='cuda:0')
+Epoch 176, bias, value: tensor([-0.0144, -0.0206, -0.0281, -0.0265, -0.0075,  0.0052,  0.0088, -0.0177,
+        -0.0075,  0.0019], device='cuda:0'), grad: tensor([ 1.0081e-05, -2.1085e-06,  7.7933e-06,  2.5295e-06,  2.0951e-05,
+         1.4871e-05, -6.7234e-05,  2.6412e-06,  4.6417e-06,  5.7928e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 175, time 220.37, cls_loss 0.0015 cls_loss_mapping 0.0030 cls_loss_causal 0.4922 re_mapping 0.0051 re_causal 0.0143 /// teacc 99.08 lr 0.00010000
+Epoch 177, weight, value: tensor([[-0.1668, -0.1614,  0.0895,  ..., -0.0817,  0.0510,  0.0360],
+        [-0.1003, -0.0372, -0.0687,  ..., -0.1084, -0.0873, -0.0355],
+        [ 0.0241, -0.0952, -0.0794,  ..., -0.0845,  0.0222, -0.2841],
+        ...,
+        [-0.1446,  0.1210,  0.0041,  ...,  0.1275, -0.0272, -0.1096],
+        [-0.1100, -0.0961,  0.1144,  ..., -0.0799, -0.1443,  0.1172],
+        [ 0.0117, -0.2102,  0.1153,  ...,  0.0626, -0.1692, -0.0858]],
+       device='cuda:0'), grad: tensor([[ 4.7684e-07,  1.0571e-07,  2.3749e-08,  ...,  3.7719e-08,
+          0.0000e+00,  2.0973e-06],
+        [ 6.4727e-08,  2.8126e-07,  9.8255e-08,  ...,  1.1828e-07,
+         -1.2573e-08,  7.5391e-07],
+        [ 1.4901e-08,  1.9884e-07,  1.5832e-07,  ...,  9.4995e-08,
+          9.3132e-10,  2.1933e-07],
+        ...,
+        [ 1.1642e-08, -9.0757e-07, -1.2899e-07,  ..., -4.9919e-07,
+         -3.3993e-08,  8.8476e-08],
+        [ 1.8021e-07,  3.6322e-08, -2.5015e-06,  ...,  1.3970e-09,
+          2.3283e-09, -2.7586e-06],
+        [ 1.6205e-07,  3.0361e-07,  1.2852e-06,  ...,  9.0338e-08,
+          4.6566e-10,  1.9502e-06]], device='cuda:0')
+Epoch 177, bias, value: tensor([-0.0143, -0.0202, -0.0279, -0.0273, -0.0066,  0.0065,  0.0085, -0.0182,
+        -0.0077,  0.0012], device='cuda:0'), grad: tensor([ 9.0450e-06,  4.0047e-06,  9.4296e-07,  4.3446e-07,  6.6496e-06,
+         3.2634e-05, -5.2214e-05, -1.0943e-06, -5.6773e-06,  5.2713e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 176, time 220.14, cls_loss 0.0015 cls_loss_mapping 0.0030 cls_loss_causal 0.5403 re_mapping 0.0050 re_causal 0.0146 /// teacc 98.96 lr 0.00010000
+Epoch 178, weight, value: tensor([[-0.1677, -0.1623,  0.0890,  ..., -0.0823,  0.0508,  0.0351],
+        [-0.1012, -0.0374, -0.0689,  ..., -0.1096, -0.0867, -0.0353],
+        [ 0.0239, -0.0953, -0.0797,  ..., -0.0841,  0.0225, -0.2845],
+        ...,
+        [-0.1459,  0.1215,  0.0040,  ...,  0.1278, -0.0275, -0.1098],
+        [-0.1102, -0.0966,  0.1149,  ..., -0.0805, -0.1446,  0.1176],
+        [ 0.0124, -0.2117,  0.1159,  ...,  0.0628, -0.1694, -0.0860]],
+       device='cuda:0'), grad: tensor([[ 4.0047e-08,  2.0582e-07,  1.8626e-09,  ...,  1.6298e-08,
+          0.0000e+00,  2.8871e-08],
+        [ 4.3306e-08,  5.5414e-07,  2.2305e-07,  ...,  7.1246e-08,
+          0.0000e+00, -4.7404e-07],
+        [ 1.0710e-08,  3.1199e-08,  8.6147e-08,  ...,  1.7695e-08,
+          0.0000e+00,  2.1840e-07],
+        ...,
+        [ 2.5146e-08,  2.3749e-07,  5.0757e-08,  ..., -1.4994e-07,
+          0.0000e+00,  6.0070e-08],
+        [ 3.3062e-08,  2.5239e-07, -7.2224e-07,  ...,  4.1910e-09,
+          0.0000e+00, -8.1770e-07],
+        [-6.5984e-07,  1.9651e-06, -1.1176e-08,  ...,  3.7253e-08,
+          0.0000e+00,  3.0594e-07]], device='cuda:0')
+Epoch 178, bias, value: tensor([-0.0154, -0.0205, -0.0274, -0.0272, -0.0067,  0.0065,  0.0088, -0.0182,
+        -0.0077,  0.0014], device='cuda:0'), grad: tensor([ 1.2033e-06,  2.8852e-06, -7.5847e-06, -5.0925e-06, -6.2399e-08,
+         2.2035e-06,  1.1539e-06,  3.6024e-06, -6.7800e-07,  2.3264e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 177, time 219.98, cls_loss 0.0016 cls_loss_mapping 0.0041 cls_loss_causal 0.5235 re_mapping 0.0049 re_causal 0.0141 /// teacc 99.09 lr 0.00010000
+Epoch 179, weight, value: tensor([[-0.1681, -0.1632,  0.0884,  ..., -0.0833,  0.0508,  0.0351],
+        [-0.1016, -0.0386, -0.0690,  ..., -0.1120, -0.0866, -0.0350],
+        [ 0.0238, -0.0959, -0.0805,  ..., -0.0847,  0.0226, -0.2853],
+        ...,
+        [-0.1465,  0.1231,  0.0043,  ...,  0.1292, -0.0277, -0.1101],
+        [-0.1109, -0.0980,  0.1153,  ..., -0.0813, -0.1446,  0.1184],
+        [ 0.0128, -0.2131,  0.1162,  ...,  0.0629, -0.1696, -0.0861]],
+       device='cuda:0'), grad: tensor([[ 3.2596e-08,  2.9337e-08,  2.7940e-09,  ...,  2.5611e-08,
+          0.0000e+00,  3.0734e-08],
+        [ 3.5856e-08,  1.4622e-07,  1.1642e-08,  ...,  3.1665e-08,
+         -3.2596e-09, -1.2759e-07],
+        [ 1.2713e-07, -1.2089e-06,  8.8476e-09,  ..., -2.1011e-06,
+          0.0000e+00,  3.3528e-08],
+        ...,
+        [ 9.7789e-08,  2.1867e-06,  2.4214e-08,  ...,  2.0172e-06,
+          9.3132e-10,  8.1025e-08],
+        [ 8.8010e-08,  1.1921e-07, -6.3330e-08,  ...,  1.0105e-07,
+          9.3132e-10, -3.7253e-08],
+        [-2.0489e-08,  2.4121e-07, -1.8394e-07,  ...,  1.9073e-06,
+          0.0000e+00,  4.5635e-08]], device='cuda:0')
+Epoch 179, bias, value: tensor([-0.0157, -0.0212, -0.0275, -0.0272, -0.0070,  0.0064,  0.0088, -0.0171,
+        -0.0073,  0.0014], device='cuda:0'), grad: tensor([ 4.3260e-07, -2.1234e-06, -7.1898e-06, -3.2242e-06, -7.8082e-06,
+        -6.9849e-08, -2.8545e-07,  1.0483e-05,  1.0580e-06,  8.7023e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 178, time 220.54, cls_loss 0.0011 cls_loss_mapping 0.0029 cls_loss_causal 0.4874 re_mapping 0.0053 re_causal 0.0145 /// teacc 98.99 lr 0.00010000
+Epoch 180, weight, value: tensor([[-0.1682, -0.1636,  0.0891,  ..., -0.0836,  0.0508,  0.0352],
+        [-0.1018, -0.0388, -0.0692,  ..., -0.1127, -0.0866, -0.0350],
+        [ 0.0239, -0.0963, -0.0811,  ..., -0.0850,  0.0228, -0.2857],
+        ...,
+        [-0.1469,  0.1236,  0.0045,  ...,  0.1300, -0.0278, -0.1103],
+        [-0.1111, -0.0980,  0.1158,  ..., -0.0815, -0.1446,  0.1188],
+        [ 0.0131, -0.2140,  0.1161,  ...,  0.0629, -0.1698, -0.0867]],
+       device='cuda:0'), grad: tensor([[-4.0978e-08,  8.3819e-09, -1.6913e-06,  ...,  6.3330e-08,
+          0.0000e+00, -1.9372e-06],
+        [ 3.7253e-08,  5.4948e-08,  7.5437e-08,  ...,  3.0734e-08,
+          0.0000e+00,  4.5635e-08],
+        [-3.1348e-06,  1.2945e-07, -2.1607e-07,  ..., -5.1176e-07,
+          0.0000e+00,  3.7765e-07],
+        ...,
+        [ 2.6077e-08, -1.0012e-07,  1.2200e-06,  ..., -1.2014e-07,
+          0.0000e+00,  1.3486e-06],
+        [ 1.6810e-07,  8.3819e-09,  1.6298e-08,  ...,  1.0896e-07,
+          0.0000e+00, -1.5041e-07],
+        [ 2.6822e-06,  4.3772e-08, -8.4937e-07,  ..., -1.0282e-06,
+          0.0000e+00,  6.0070e-08]], device='cuda:0')
+Epoch 180, bias, value: tensor([-0.0157, -0.0213, -0.0272, -0.0274, -0.0071,  0.0061,  0.0088, -0.0169,
+        -0.0068,  0.0011], device='cuda:0'), grad: tensor([-4.7944e-06,  2.9523e-07, -1.5795e-05,  1.7257e-06,  3.9116e-06,
+        -2.2836e-06,  1.8701e-06,  4.0978e-06,  1.4212e-06,  9.5442e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 179, time 220.06, cls_loss 0.0016 cls_loss_mapping 0.0036 cls_loss_causal 0.5433 re_mapping 0.0055 re_causal 0.0148 /// teacc 98.98 lr 0.00010000
+Epoch 181, weight, value: tensor([[-0.1683, -0.1644,  0.0897,  ..., -0.0838,  0.0508,  0.0353],
+        [-0.1022, -0.0392, -0.0693,  ..., -0.1141, -0.0869, -0.0351],
+        [ 0.0239, -0.0969, -0.0821,  ..., -0.0857,  0.0229, -0.2864],
+        ...,
+        [-0.1473,  0.1243,  0.0044,  ...,  0.1306, -0.0282, -0.1107],
+        [-0.1112, -0.0986,  0.1167,  ..., -0.0817, -0.1448,  0.1202],
+        [ 0.0132, -0.2148,  0.1164,  ...,  0.0628, -0.1700, -0.0870]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.7695e-08, -1.9073e-06,  ...,  2.4680e-08,
+          4.6566e-10, -7.1712e-08],
+        [ 0.0000e+00,  5.7742e-08,  1.0012e-07,  ...,  3.9581e-08,
+         -4.6566e-10, -2.8871e-08],
+        [ 0.0000e+00, -1.7956e-06,  1.1176e-07,  ..., -6.8545e-07,
+         -6.9849e-09,  2.0489e-08],
+        ...,
+        [ 4.6566e-10,  1.5013e-06,  7.4971e-08,  ...,  6.6543e-07,
+          2.3283e-09,  3.8650e-08],
+        [ 1.3970e-09,  1.2247e-07,  3.7253e-08,  ...,  5.0291e-08,
+          2.3283e-09, -5.9139e-08],
+        [ 4.6566e-10,  2.2352e-08,  1.0617e-06,  ...,  7.3574e-08,
+          0.0000e+00,  3.4925e-08]], device='cuda:0')
+Epoch 181, bias, value: tensor([-0.0156, -0.0218, -0.0271, -0.0272, -0.0069,  0.0031,  0.0116, -0.0166,
+        -0.0061,  0.0010], device='cuda:0'), grad: tensor([-3.7979e-06, -2.6077e-08, -7.4022e-06,  8.7265e-07, -1.2293e-06,
+         2.7055e-07,  1.7975e-07,  7.8529e-06,  6.4261e-07,  2.6319e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 180, time 220.54, cls_loss 0.0020 cls_loss_mapping 0.0034 cls_loss_causal 0.5467 re_mapping 0.0049 re_causal 0.0141 /// teacc 99.04 lr 0.00010000
+Epoch 182, weight, value: tensor([[-0.1684, -0.1648,  0.0900,  ..., -0.0844,  0.0508,  0.0355],
+        [-0.1027, -0.0398, -0.0699,  ..., -0.1152, -0.0869, -0.0347],
+        [ 0.0235, -0.0984, -0.0828,  ..., -0.0869,  0.0230, -0.2869],
+        ...,
+        [-0.1486,  0.1253,  0.0040,  ...,  0.1309, -0.0283, -0.1110],
+        [-0.1120, -0.0991,  0.1170,  ..., -0.0821, -0.1449,  0.1202],
+        [ 0.0149, -0.2157,  0.1175,  ...,  0.0642, -0.1702, -0.0874]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-09,  8.9407e-08,  1.0943e-07,  ...,  4.6985e-07,
+          0.0000e+00,  0.0000e+00],
+        [ 2.7940e-09,  8.1537e-07,  5.1130e-07,  ...,  1.0831e-06,
+          0.0000e+00,  1.5832e-08],
+        [ 4.6566e-10,  3.8091e-06,  9.1270e-08,  ...,  1.2945e-07,
+         -2.3283e-09,  2.7940e-08],
+        ...,
+        [ 8.8476e-09,  7.2382e-06,  4.6790e-06,  ...,  1.0841e-05,
+          4.6566e-10,  2.4214e-08],
+        [ 4.2841e-08,  2.1188e-07,  2.2585e-07,  ...,  8.5169e-07,
+          9.3132e-10, -1.5181e-07],
+        [-6.5193e-09, -5.9791e-07, -1.2323e-05,  ..., -2.8566e-05,
+          0.0000e+00,  8.5216e-08]], device='cuda:0')
+Epoch 182, bias, value: tensor([-0.0149, -0.0223, -0.0281, -0.0280, -0.0084,  0.0037,  0.0114, -0.0161,
+        -0.0064,  0.0023], device='cuda:0'), grad: tensor([ 1.6578e-06,  5.2825e-06,  8.7470e-06, -1.8477e-05,  4.2856e-05,
+         4.3996e-06,  8.9360e-07,  5.5552e-05,  3.2466e-06, -1.0425e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 181, time 220.20, cls_loss 0.0014 cls_loss_mapping 0.0027 cls_loss_causal 0.5216 re_mapping 0.0050 re_causal 0.0139 /// teacc 98.96 lr 0.00010000
+Epoch 183, weight, value: tensor([[-0.1688, -0.1661,  0.0906,  ..., -0.0846,  0.0508,  0.0356],
+        [-0.1028, -0.0405, -0.0703,  ..., -0.1156, -0.0869, -0.0342],
+        [ 0.0237, -0.0971, -0.0831,  ..., -0.0866,  0.0232, -0.2874],
+        ...,
+        [-0.1496,  0.1254,  0.0041,  ...,  0.1309, -0.0286, -0.1114],
+        [-0.1126, -0.0996,  0.1176,  ..., -0.0823, -0.1449,  0.1203],
+        [ 0.0147, -0.2162,  0.1176,  ...,  0.0640, -0.1704, -0.0879]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  4.7963e-08, -7.8697e-08,  ...,  2.1420e-08,
+          1.8626e-09, -3.8184e-08],
+        [ 4.6566e-10,  4.0000e-07,  2.0349e-07,  ...,  2.3423e-07,
+          4.6566e-10, -9.4064e-08],
+        [ 0.0000e+00, -7.4040e-08,  2.7940e-08,  ...,  3.5856e-08,
+         -1.9092e-08,  1.7229e-08],
+        ...,
+        [ 6.5193e-09, -1.9092e-07, -2.3143e-07,  ..., -5.0478e-07,
+          1.8626e-09,  5.3551e-08],
+        [ 5.5879e-09,  4.6566e-08, -1.1036e-07,  ...,  1.7695e-08,
+          9.3132e-10, -1.0990e-07],
+        [ 6.3330e-08,  1.8114e-07,  5.3085e-08,  ...,  9.6392e-08,
+          4.6566e-10,  7.5903e-08]], device='cuda:0')
+Epoch 183, bias, value: tensor([-0.0148, -0.0225, -0.0266, -0.0279, -0.0080,  0.0040,  0.0111, -0.0164,
+        -0.0068,  0.0020], device='cuda:0'), grad: tensor([ 3.2596e-08,  4.6706e-07, -1.1446e-06, -4.0419e-07,  9.1270e-08,
+         8.7079e-08,  1.3271e-07,  3.4925e-07, -3.5856e-08,  4.3679e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 182, time 220.31, cls_loss 0.0013 cls_loss_mapping 0.0029 cls_loss_causal 0.4984 re_mapping 0.0050 re_causal 0.0143 /// teacc 99.03 lr 0.00010000
+Epoch 184, weight, value: tensor([[-0.1694, -0.1665,  0.0915,  ..., -0.0848,  0.0507,  0.0359],
+        [-0.1038, -0.0400, -0.0699,  ..., -0.1162, -0.0869, -0.0336],
+        [ 0.0234, -0.0960, -0.0830,  ..., -0.0865,  0.0264, -0.2879],
+        ...,
+        [-0.1505,  0.1251,  0.0039,  ...,  0.1316, -0.0299, -0.1121],
+        [-0.1129, -0.1028,  0.1181,  ..., -0.0826, -0.1481,  0.1209],
+        [ 0.0150, -0.2174,  0.1174,  ...,  0.0637, -0.1707, -0.0882]],
+       device='cuda:0'), grad: tensor([[-2.3749e-08,  1.2433e-07,  1.2107e-08,  ...,  1.9930e-07,
+          0.0000e+00, -4.9360e-08],
+        [ 1.9558e-08,  1.7649e-07,  8.5682e-08,  ...,  1.4622e-07,
+          0.0000e+00, -2.9290e-07],
+        [ 7.9162e-09,  2.8312e-07,  1.2945e-07,  ...,  1.3784e-07,
+          0.0000e+00,  8.6613e-08],
+        ...,
+        [ 1.0245e-08, -2.4438e-06, -4.1090e-06,  ..., -4.4107e-06,
+          0.0000e+00,  7.4040e-08],
+        [ 3.2596e-09,  8.6613e-08,  1.0291e-07,  ...,  9.5461e-08,
+          0.0000e+00,  1.2852e-07],
+        [ 9.2667e-08,  2.0172e-06,  3.3174e-06,  ...,  3.6918e-06,
+          0.0000e+00,  3.2596e-08]], device='cuda:0')
+Epoch 184, bias, value: tensor([-0.0144, -0.0218, -0.0255, -0.0279, -0.0078,  0.0037,  0.0111, -0.0171,
+        -0.0075,  0.0018], device='cuda:0'), grad: tensor([ 5.5181e-07, -1.9073e-06,  1.2238e-06, -7.7626e-07, -2.9383e-07,
+         6.0443e-07,  4.1910e-09, -7.3574e-06,  7.1339e-07,  7.2494e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 183, time 220.41, cls_loss 0.0016 cls_loss_mapping 0.0031 cls_loss_causal 0.5063 re_mapping 0.0046 re_causal 0.0133 /// teacc 99.04 lr 0.00010000
+Epoch 185, weight, value: tensor([[-0.1697, -0.1677,  0.0937,  ..., -0.0845,  0.0507,  0.0372],
+        [-0.1037, -0.0395, -0.0694,  ..., -0.1169, -0.0869, -0.0333],
+        [ 0.0229, -0.0962, -0.0842,  ..., -0.0868,  0.0264, -0.2887],
+        ...,
+        [-0.1517,  0.1248,  0.0036,  ...,  0.1322, -0.0301, -0.1131],
+        [-0.1143, -0.1034,  0.1197,  ..., -0.0827, -0.1481,  0.1217],
+        [ 0.0149, -0.2180,  0.1174,  ...,  0.0636, -0.1710, -0.0895]],
+       device='cuda:0'), grad: tensor([[ 6.2073e-07,  1.1846e-06,  7.4320e-07,  ...,  7.5065e-07,
+         -8.8476e-09,  7.1200e-07],
+        [ 1.9604e-07,  3.1432e-07,  2.3516e-07,  ...,  2.1001e-07,
+          9.3132e-10,  1.5227e-07],
+        [ 4.9267e-07,  2.1420e-07,  2.0955e-07,  ...,  1.3877e-07,
+          0.0000e+00,  3.9302e-07],
+        ...,
+        [ 2.6962e-07, -1.1474e-05, -8.2403e-06,  ..., -7.4022e-06,
+          0.0000e+00,  1.4901e-07],
+        [ 5.0366e-06,  5.0385e-07, -6.4261e-08,  ...,  6.7987e-08,
+          0.0000e+00,  2.5239e-06],
+        [ 6.7800e-07,  9.3803e-06,  6.1579e-06,  ...,  6.3665e-06,
+          0.0000e+00,  8.3679e-07]], device='cuda:0')
+Epoch 185, bias, value: tensor([-0.0119, -0.0212, -0.0253, -0.0282, -0.0079,  0.0040,  0.0103, -0.0177,
+        -0.0073,  0.0015], device='cuda:0'), grad: tensor([ 5.7705e-06,  1.3970e-06,  1.6959e-06,  7.2062e-05,  5.5879e-06,
+        -9.5844e-05, -3.0994e-06, -2.0236e-05,  1.2651e-05,  1.9923e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 184, time 220.00, cls_loss 0.0014 cls_loss_mapping 0.0032 cls_loss_causal 0.5273 re_mapping 0.0048 re_causal 0.0147 /// teacc 99.05 lr 0.00010000
+Epoch 186, weight, value: tensor([[-0.1703, -0.1684,  0.0937,  ..., -0.0850,  0.0507,  0.0371],
+        [-0.1058, -0.0394, -0.0694,  ..., -0.1174, -0.0870, -0.0337],
+        [ 0.0245, -0.0964, -0.0852,  ..., -0.0870,  0.0265, -0.2893],
+        ...,
+        [-0.1529,  0.1248,  0.0032,  ...,  0.1320, -0.0304, -0.1132],
+        [-0.1174, -0.1038,  0.1207,  ..., -0.0834, -0.1481,  0.1201],
+        [ 0.0154, -0.2188,  0.1186,  ...,  0.0652, -0.1712, -0.0900]],
+       device='cuda:0'), grad: tensor([[-7.3574e-08,  1.6298e-08, -5.0105e-06,  ...,  2.1653e-07,
+          0.0000e+00, -2.3823e-06],
+        [ 4.4238e-08,  5.2201e-07,  1.3690e-07,  ...,  2.1840e-07,
+          0.0000e+00, -3.6368e-07],
+        [ 1.1176e-08,  1.2340e-07,  1.6345e-07,  ..., -1.3821e-06,
+         -1.3970e-09,  1.3411e-07],
+        ...,
+        [ 2.1886e-08, -7.6229e-07, -1.1129e-07,  ...,  1.0654e-06,
+          1.3970e-09,  1.6438e-07],
+        [ 2.0564e-06, -1.4855e-07,  1.8682e-06,  ...,  1.5516e-06,
+          0.0000e+00,  1.4110e-06],
+        [-5.4762e-07,  1.7602e-07,  2.2240e-06,  ..., -1.9334e-06,
+          0.0000e+00,  1.4473e-06]], device='cuda:0')
+Epoch 186, bias, value: tensor([-0.0121, -0.0210, -0.0254, -0.0284, -0.0093,  0.0051,  0.0102, -0.0181,
+        -0.0085,  0.0027], device='cuda:0'), grad: tensor([-8.3074e-06,  1.9092e-08, -7.7263e-06,  1.0438e-05,  4.9360e-07,
+        -1.2636e-05, -1.0785e-06,  6.6645e-06,  8.5384e-06,  3.5726e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 185, time 220.50, cls_loss 0.0013 cls_loss_mapping 0.0036 cls_loss_causal 0.5169 re_mapping 0.0050 re_causal 0.0146 /// teacc 98.96 lr 0.00010000
+Epoch 187, weight, value: tensor([[-0.1709, -0.1701,  0.0939,  ..., -0.0853,  0.0507,  0.0374],
+        [-0.1077, -0.0393, -0.0695,  ..., -0.1183, -0.0871, -0.0337],
+        [ 0.0247, -0.0965, -0.0859,  ..., -0.0872,  0.0265, -0.2899],
+        ...,
+        [-0.1549,  0.1249,  0.0031,  ...,  0.1322, -0.0306, -0.1134],
+        [-0.1180, -0.1043,  0.1213,  ..., -0.0837, -0.1481,  0.1205],
+        [ 0.0147, -0.2200,  0.1188,  ...,  0.0648, -0.1713, -0.0904]],
+       device='cuda:0'), grad: tensor([[ 6.9849e-09,  1.5367e-08, -3.3062e-08,  ...,  9.3132e-09,
+          9.3132e-10, -1.4901e-08],
+        [ 3.8184e-08,  1.4529e-07,  2.6077e-08,  ...,  8.8010e-08,
+          4.6566e-10, -2.1886e-08],
+        [ 6.0536e-09,  2.9104e-07,  1.2573e-08,  ...,  1.9092e-08,
+         -1.4435e-08,  1.6764e-08],
+        ...,
+        [ 1.2573e-08,  1.2573e-07,  1.5367e-08,  ...,  1.3039e-08,
+          2.7940e-09,  2.1886e-08],
+        [ 3.7719e-08,  2.3749e-08, -4.1910e-09,  ...,  2.7008e-08,
+          9.3132e-10,  3.2596e-09],
+        [ 2.6077e-08,  3.7253e-08, -1.1129e-07,  ..., -3.3528e-08,
+          4.6566e-10,  1.6298e-08]], device='cuda:0')
+Epoch 187, bias, value: tensor([-0.0121, -0.0210, -0.0250, -0.0282, -0.0086,  0.0054,  0.0100, -0.0185,
+        -0.0086,  0.0023], device='cuda:0'), grad: tensor([ 9.9186e-08,  6.6310e-07,  8.7870e-07, -1.3169e-06, -1.8645e-06,
+        -1.7807e-06,  1.9334e-06,  7.5949e-07,  2.1746e-07,  3.9861e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 186, time 220.75, cls_loss 0.0020 cls_loss_mapping 0.0038 cls_loss_causal 0.4810 re_mapping 0.0054 re_causal 0.0143 /// teacc 99.05 lr 0.00010000
+Epoch 188, weight, value: tensor([[-0.1718, -0.1717,  0.0940,  ..., -0.0857,  0.0507,  0.0374],
+        [-0.1084, -0.0395, -0.0697,  ..., -0.1191, -0.0871, -0.0337],
+        [ 0.0239, -0.0971, -0.0869,  ..., -0.0872,  0.0265, -0.2909],
+        ...,
+        [-0.1567,  0.1252,  0.0034,  ...,  0.1330, -0.0308, -0.1135],
+        [-0.1184, -0.1050,  0.1219,  ..., -0.0840, -0.1482,  0.1209],
+        [ 0.0152, -0.2223,  0.1195,  ...,  0.0646, -0.1714, -0.0909]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-09,  8.8476e-09,  1.2806e-07,  ...,  9.3132e-09,
+          0.0000e+00,  1.9092e-08],
+        [ 3.5856e-08,  2.1420e-08, -1.2875e-05,  ...,  1.1642e-08,
+          0.0000e+00,  3.1991e-07],
+        [ 1.3039e-08,  1.2852e-07,  6.1467e-07,  ...,  9.6392e-08,
+         -4.6566e-10,  1.5041e-07],
+        ...,
+        [ 1.8626e-09, -1.9139e-07,  1.8384e-06,  ..., -3.2503e-07,
+          0.0000e+00,  3.4925e-08],
+        [-4.4797e-07,  1.1036e-07, -8.1817e-07,  ...,  3.2596e-09,
+          1.8626e-09, -5.0105e-06],
+        [ 2.3283e-09,  1.1967e-07,  9.8497e-06,  ...,  1.5646e-07,
+          0.0000e+00,  2.5146e-08]], device='cuda:0')
+Epoch 188, bias, value: tensor([-0.0126, -0.0205, -0.0256, -0.0297, -0.0087,  0.0069,  0.0099, -0.0185,
+        -0.0088,  0.0019], device='cuda:0'), grad: tensor([ 1.0710e-06, -8.1122e-05,  3.3490e-06, -2.3143e-07,  3.3416e-06,
+        -7.1637e-06,  1.1764e-05,  1.1951e-05, -4.8429e-06,  6.1810e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 187, time 220.54, cls_loss 0.0020 cls_loss_mapping 0.0036 cls_loss_causal 0.4965 re_mapping 0.0047 re_causal 0.0134 /// teacc 98.97 lr 0.00010000
+Epoch 189, weight, value: tensor([[-0.1724, -0.1724,  0.0946,  ..., -0.0864,  0.0507,  0.0376],
+        [-0.1088, -0.0397, -0.0702,  ..., -0.1205, -0.0871, -0.0337],
+        [ 0.0232, -0.0976, -0.0888,  ..., -0.0881,  0.0265, -0.2917],
+        ...,
+        [-0.1580,  0.1260,  0.0033,  ...,  0.1332, -0.0308, -0.1139],
+        [-0.1190, -0.1054,  0.1232,  ..., -0.0848, -0.1482,  0.1221],
+        [ 0.0153, -0.2255,  0.1204,  ...,  0.0652, -0.1714, -0.0916]],
+       device='cuda:0'), grad: tensor([[-5.0245e-07,  2.3283e-09, -3.1888e-06,  ...,  1.1967e-07,
+          0.0000e+00, -4.3176e-06],
+        [ 2.6450e-07,  1.1642e-08,  8.3819e-08,  ...,  5.0990e-07,
+          0.0000e+00,  8.1956e-08],
+        [ 2.0117e-07,  2.8871e-08,  9.3179e-07,  ...,  6.4261e-08,
+          0.0000e+00,  1.3364e-06],
+        ...,
+        [ 8.8010e-08,  4.1910e-08,  4.0932e-07,  ...,  2.7567e-07,
+          0.0000e+00,  3.3900e-07],
+        [ 3.0221e-07,  1.8626e-09,  3.2131e-08,  ...,  1.0896e-07,
+          0.0000e+00,  6.7428e-07],
+        [ 2.8126e-07,  1.4901e-08,  9.6858e-08,  ...,  2.0163e-07,
+          0.0000e+00,  1.0245e-06]], device='cuda:0')
+Epoch 189, bias, value: tensor([-0.0126, -0.0191, -0.0281, -0.0295, -0.0089,  0.0068,  0.0095, -0.0186,
+        -0.0084,  0.0021], device='cuda:0'), grad: tensor([-1.1392e-05,  5.4352e-06,  4.0568e-06,  1.8831e-06, -1.2696e-05,
+        -5.5619e-06,  8.3670e-06,  2.4177e-06,  2.1737e-06,  5.2750e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 188, time 220.38, cls_loss 0.0014 cls_loss_mapping 0.0030 cls_loss_causal 0.5036 re_mapping 0.0048 re_causal 0.0137 /// teacc 99.05 lr 0.00010000
+Epoch 190, weight, value: tensor([[-0.1728, -0.1735,  0.0946,  ..., -0.0868,  0.0507,  0.0375],
+        [-0.1097, -0.0398, -0.0705,  ..., -0.1213, -0.0871, -0.0338],
+        [ 0.0231, -0.0983, -0.0900,  ..., -0.0890,  0.0265, -0.2923],
+        ...,
+        [-0.1594,  0.1265,  0.0029,  ...,  0.1334, -0.0309, -0.1141],
+        [-0.1197, -0.1058,  0.1238,  ..., -0.0851, -0.1482,  0.1221],
+        [ 0.0161, -0.2266,  0.1212,  ...,  0.0658, -0.1715, -0.0919]],
+       device='cuda:0'), grad: tensor([[ 1.9930e-07,  1.3504e-08, -4.7963e-08,  ...,  2.6543e-08,
+          0.0000e+00,  1.8394e-07],
+        [ 3.4925e-08,  1.6578e-07,  2.2352e-08,  ...,  6.4727e-08,
+          0.0000e+00, -2.3283e-09],
+        [ 6.1467e-08, -4.4703e-08,  2.2352e-08,  ..., -7.7253e-07,
+          0.0000e+00,  5.5879e-08],
+        ...,
+        [ 1.0990e-07,  3.3062e-08, -7.8231e-08,  ...,  6.4867e-07,
+          0.0000e+00,  1.4482e-07],
+        [ 8.7917e-07,  1.0384e-07,  2.8405e-08,  ...,  6.9849e-08,
+          0.0000e+00,  7.9582e-07],
+        [ 2.4168e-07,  4.0513e-08,  5.5879e-09,  ...,  4.6566e-10,
+          0.0000e+00,  2.1793e-07]], device='cuda:0')
+Epoch 190, bias, value: tensor([-0.0128, -0.0193, -0.0283, -0.0293, -0.0094,  0.0067,  0.0099, -0.0187,
+        -0.0088,  0.0027], device='cuda:0'), grad: tensor([ 1.6801e-06,  2.6748e-06, -1.3679e-05,  6.0312e-06,  2.1420e-07,
+        -1.3903e-05,  2.8629e-06,  9.4697e-06,  3.5428e-06,  1.0589e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 189, time 220.51, cls_loss 0.0014 cls_loss_mapping 0.0029 cls_loss_causal 0.5046 re_mapping 0.0048 re_causal 0.0135 /// teacc 99.07 lr 0.00010000
+Epoch 191, weight, value: tensor([[-0.1731, -0.1744,  0.0948,  ..., -0.0875,  0.0507,  0.0374],
+        [-0.1099, -0.0404, -0.0712,  ..., -0.1226, -0.0871, -0.0337],
+        [ 0.0231, -0.0993, -0.0917,  ..., -0.0901,  0.0265, -0.2932],
+        ...,
+        [-0.1602,  0.1280,  0.0045,  ...,  0.1354, -0.0309, -0.1144],
+        [-0.1205, -0.1060,  0.1244,  ..., -0.0855, -0.1482,  0.1223],
+        [ 0.0143, -0.2294,  0.1203,  ...,  0.0645, -0.1715, -0.0923]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  8.8057e-07,  1.9418e-07,  ...,  1.2573e-08,
+          0.0000e+00,  1.3644e-07],
+        [ 2.3283e-09, -6.1467e-07, -1.4286e-06,  ...,  8.8476e-09,
+          0.0000e+00, -2.5406e-06],
+        [ 9.3132e-10,  1.5041e-06,  3.4459e-07,  ...,  3.7253e-09,
+          0.0000e+00,  3.3341e-07],
+        ...,
+        [ 1.3039e-08,  1.1465e-06,  9.0804e-07,  ...,  9.3132e-10,
+          0.0000e+00,  1.4175e-06],
+        [ 4.6566e-09,  6.0676e-07, -5.0291e-07,  ...,  1.0710e-08,
+          0.0000e+00, -1.4044e-06],
+        [-1.5600e-07,  1.1399e-06,  1.0850e-07,  ..., -1.1455e-07,
+          0.0000e+00,  2.4773e-07]], device='cuda:0')
+Epoch 191, bias, value: tensor([-0.0132, -0.0198, -0.0285, -0.0294, -0.0081,  0.0067,  0.0101, -0.0175,
+        -0.0087,  0.0011], device='cuda:0'), grad: tensor([ 4.8652e-06, -1.6347e-05,  8.7321e-06, -2.3827e-05,  2.2613e-06,
+         2.2966e-06,  4.4294e-06,  1.2971e-05, -1.9167e-06,  6.4746e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 190----------------------------------------------------
+epoch 190, time 221.48, cls_loss 0.0018 cls_loss_mapping 0.0038 cls_loss_causal 0.5507 re_mapping 0.0048 re_causal 0.0140 /// teacc 99.12 lr 0.00010000
+Epoch 192, weight, value: tensor([[-0.1735, -0.1753,  0.0951,  ..., -0.0883,  0.0506,  0.0373],
+        [-0.1106, -0.0400, -0.0704,  ..., -0.1249, -0.0871, -0.0334],
+        [ 0.0231, -0.0997, -0.0925,  ..., -0.0904,  0.0265, -0.2935],
+        ...,
+        [-0.1607,  0.1282,  0.0041,  ...,  0.1367, -0.0310, -0.1146],
+        [-0.1211, -0.1065,  0.1242,  ..., -0.0868, -0.1482,  0.1224],
+        [ 0.0142, -0.2317,  0.1206,  ...,  0.0641, -0.1715, -0.0924]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  7.1712e-07,  1.3504e-07,  ...,  7.2643e-08,
+          0.0000e+00, -1.9558e-08],
+        [ 1.1176e-08,  1.1735e-06,  5.0850e-07,  ...,  3.4645e-07,
+          0.0000e+00, -1.8626e-08],
+        [ 1.8626e-09,  1.5059e-06,  3.9861e-07,  ...,  8.3819e-08,
+          0.0000e+00,  1.3039e-08],
+        ...,
+        [ 2.0489e-08, -1.0049e-06, -8.0839e-07,  ..., -9.9093e-07,
+          0.0000e+00,  2.3283e-08],
+        [ 3.0734e-08,  8.0373e-07,  4.3679e-07,  ...,  3.1292e-07,
+          0.0000e+00,  1.0710e-07],
+        [-2.2631e-07,  1.1148e-06, -2.6729e-07,  ..., -2.3376e-07,
+          0.0000e+00,  1.0245e-08]], device='cuda:0')
+Epoch 192, bias, value: tensor([-0.0128, -0.0196, -0.0281, -0.0290, -0.0077,  0.0063,  0.0104, -0.0177,
+        -0.0093,  0.0005], device='cuda:0'), grad: tensor([ 2.6245e-06,  3.9153e-06,  5.6960e-06, -1.9446e-05,  1.0971e-06,
+         1.8273e-06, -3.2503e-07, -1.1874e-06,  3.0771e-06,  2.7530e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 191, time 220.54, cls_loss 0.0012 cls_loss_mapping 0.0035 cls_loss_causal 0.5186 re_mapping 0.0047 re_causal 0.0138 /// teacc 99.08 lr 0.00010000
+Epoch 193, weight, value: tensor([[-0.1751, -0.1760,  0.0952,  ..., -0.0892,  0.0507,  0.0371],
+        [-0.1118, -0.0406, -0.0713,  ..., -0.1268, -0.0872, -0.0330],
+        [ 0.0229, -0.0999, -0.0931,  ..., -0.0903,  0.0265, -0.2940],
+        ...,
+        [-0.1615,  0.1292,  0.0049,  ...,  0.1379, -0.0310, -0.1151],
+        [-0.1213, -0.1071,  0.1253,  ..., -0.0874, -0.1482,  0.1233],
+        [ 0.0169, -0.2331,  0.1214,  ...,  0.0646, -0.1716, -0.0921]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00,  6.5193e-08,  ...,  2.2352e-08,
+          0.0000e+00,  4.0792e-07],
+        [ 1.8626e-09,  5.5879e-09,  4.0345e-06,  ...,  4.1910e-08,
+          0.0000e+00,  5.8599e-06],
+        [ 0.0000e+00,  9.3132e-10,  4.2934e-07,  ...,  3.3528e-08,
+          0.0000e+00,  5.8580e-07],
+        ...,
+        [ 1.4901e-08, -9.3132e-09,  1.2778e-06,  ...,  2.8033e-07,
+          0.0000e+00,  1.5087e-06],
+        [ 1.5832e-08,  0.0000e+00, -6.6794e-06,  ..., -2.0675e-07,
+          0.0000e+00, -9.5367e-06],
+        [-4.2841e-08,  9.3132e-10, -6.2399e-08,  ..., -4.1910e-08,
+          0.0000e+00,  7.4506e-08]], device='cuda:0')
+Epoch 193, bias, value: tensor([-0.0133, -0.0199, -0.0282, -0.0291, -0.0093,  0.0064,  0.0102, -0.0170,
+        -0.0090,  0.0016], device='cuda:0'), grad: tensor([ 2.3842e-07,  9.5442e-06,  1.1232e-06,  4.4703e-07, -7.6089e-07,
+         3.0641e-07,  1.4575e-06,  2.6394e-06, -1.5222e-05,  1.8068e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 192, time 220.28, cls_loss 0.0013 cls_loss_mapping 0.0022 cls_loss_causal 0.4918 re_mapping 0.0050 re_causal 0.0134 /// teacc 99.03 lr 0.00010000
+Epoch 194, weight, value: tensor([[-0.1754, -0.1770,  0.0949,  ..., -0.0898,  0.0507,  0.0369],
+        [-0.1123, -0.0403, -0.0711,  ..., -0.1275, -0.0871, -0.0331],
+        [ 0.0224, -0.1001, -0.0948,  ..., -0.0900,  0.0266, -0.2952],
+        ...,
+        [-0.1617,  0.1291,  0.0048,  ...,  0.1378, -0.0314, -0.1155],
+        [-0.1216, -0.1073,  0.1271,  ..., -0.0880, -0.1482,  0.1248],
+        [ 0.0168, -0.2338,  0.1215,  ...,  0.0647, -0.1717, -0.0926]],
+       device='cuda:0'), grad: tensor([[ 2.6077e-08,  8.3819e-09, -1.1176e-07,  ...,  5.5879e-09,
+          0.0000e+00, -1.9651e-06],
+        [ 2.9802e-08,  2.4959e-07,  9.3132e-10,  ...,  1.7881e-07,
+          0.0000e+00, -4.6566e-09],
+        [ 8.3819e-09,  2.4028e-07,  2.4214e-08,  ...,  1.7509e-07,
+          0.0000e+00,  2.2352e-08],
+        ...,
+        [ 8.3819e-09, -5.4948e-07, -3.4459e-08,  ..., -4.1537e-07,
+          0.0000e+00,  3.6322e-08],
+        [ 5.4017e-08,  1.1176e-08, -1.3039e-08,  ...,  0.0000e+00,
+          0.0000e+00,  3.1665e-08],
+        [ 2.2352e-08,  2.7940e-08,  5.5879e-09,  ...,  1.4901e-08,
+          0.0000e+00,  3.1665e-08]], device='cuda:0')
+Epoch 194, bias, value: tensor([-0.0138, -0.0196, -0.0280, -0.0291, -0.0092,  0.0064,  0.0097, -0.0174,
+        -0.0076,  0.0015], device='cuda:0'), grad: tensor([-2.8480e-06,  1.2647e-06, -1.5469e-06,  3.0734e-06,  7.4506e-08,
+        -2.2147e-06,  2.2575e-06, -7.1526e-07,  3.1479e-07,  3.0082e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 193, time 220.17, cls_loss 0.0018 cls_loss_mapping 0.0033 cls_loss_causal 0.5275 re_mapping 0.0047 re_causal 0.0130 /// teacc 99.06 lr 0.00010000
+Epoch 195, weight, value: tensor([[-0.1757, -0.1778,  0.0952,  ..., -0.0908,  0.0507,  0.0352],
+        [-0.1130, -0.0400, -0.0710,  ..., -0.1296, -0.0875, -0.0335],
+        [ 0.0224, -0.1010, -0.0960,  ..., -0.0910,  0.0266, -0.2963],
+        ...,
+        [-0.1641,  0.1293,  0.0052,  ...,  0.1384, -0.0311, -0.1158],
+        [-0.1226, -0.1077,  0.1285,  ..., -0.0886, -0.1483,  0.1254],
+        [ 0.0169, -0.2355,  0.1212,  ...,  0.0648, -0.1720, -0.0927]],
+       device='cuda:0'), grad: tensor([[-2.2352e-08,  2.7940e-09, -1.7323e-07,  ...,  3.7253e-09,
+          0.0000e+00, -1.4063e-07],
+        [ 1.8626e-09, -1.2349e-06,  1.2107e-08,  ..., -9.5647e-07,
+          0.0000e+00, -2.8871e-07],
+        [ 9.3132e-10,  6.5193e-08,  2.6077e-08,  ...,  2.7940e-08,
+          0.0000e+00,  1.7695e-08],
+        ...,
+        [ 5.5879e-09,  1.1763e-06, -6.5193e-09,  ...,  9.4622e-07,
+          0.0000e+00,  2.7567e-07],
+        [ 3.5390e-08,  2.8871e-08,  2.3283e-08,  ...,  4.8429e-08,
+          0.0000e+00,  2.5146e-08],
+        [-1.9558e-08,  1.0245e-08, -5.9605e-08,  ..., -3.2596e-08,
+          0.0000e+00,  1.5832e-08]], device='cuda:0')
+Epoch 195, bias, value: tensor([-0.0162, -0.0196, -0.0283, -0.0287, -0.0090,  0.0064,  0.0105, -0.0177,
+        -0.0075,  0.0012], device='cuda:0'), grad: tensor([-5.9512e-07, -5.2340e-06,  1.9930e-07, -1.2387e-07, -2.4401e-07,
+         1.9185e-07,  4.4238e-07,  5.1782e-06,  1.9651e-07,  3.0734e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 194----------------------------------------------------
+epoch 194, time 221.37, cls_loss 0.0012 cls_loss_mapping 0.0019 cls_loss_causal 0.5006 re_mapping 0.0049 re_causal 0.0135 /// teacc 99.15 lr 0.00010000
+Epoch 196, weight, value: tensor([[-0.1757, -0.1783,  0.0964,  ..., -0.0912,  0.0508,  0.0359],
+        [-0.1132, -0.0402, -0.0712,  ..., -0.1305, -0.0877, -0.0335],
+        [ 0.0222, -0.1013, -0.0965,  ..., -0.0913,  0.0267, -0.2968],
+        ...,
+        [-0.1649,  0.1297,  0.0053,  ...,  0.1389, -0.0314, -0.1165],
+        [-0.1231, -0.1078,  0.1290,  ..., -0.0896, -0.1483,  0.1258],
+        [ 0.0173, -0.2360,  0.1213,  ...,  0.0648, -0.1724, -0.0933]],
+       device='cuda:0'), grad: tensor([[-2.1514e-06,  3.4459e-08,  4.6566e-09,  ...,  5.4948e-08,
+          4.6566e-09, -3.9600e-06],
+        [ 5.5879e-09,  4.9919e-07, -3.9116e-08,  ...,  7.5717e-07,
+          4.4703e-08, -1.0803e-07],
+        [ 1.5832e-08,  1.6335e-06,  2.8871e-08,  ...,  2.6841e-06,
+          3.3528e-08,  6.5193e-08],
+        ...,
+        [ 3.1758e-07, -8.4490e-06, -1.6578e-07,  ..., -1.4067e-05,
+         -3.1665e-08,  6.9570e-07],
+        [ 6.5193e-09,  1.0896e-07,  2.7940e-09,  ...,  1.3784e-07,
+          5.0571e-07,  1.4184e-06],
+        [ 1.3970e-08,  3.3155e-06,  5.6811e-08,  ...,  5.6252e-06,
+          4.6566e-09,  7.4506e-08]], device='cuda:0')
+Epoch 196, bias, value: tensor([-0.0153, -0.0198, -0.0282, -0.0288, -0.0090,  0.0064,  0.0104, -0.0176,
+        -0.0076,  0.0012], device='cuda:0'), grad: tensor([-9.5740e-06,  1.3402e-06,  6.1169e-06,  5.1130e-07,  1.0043e-05,
+         7.9870e-06, -5.7593e-06, -2.9400e-05,  5.9642e-06,  1.2733e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 195, time 220.40, cls_loss 0.0011 cls_loss_mapping 0.0028 cls_loss_causal 0.4992 re_mapping 0.0048 re_causal 0.0135 /// teacc 99.04 lr 0.00010000
+Epoch 197, weight, value: tensor([[-0.1758, -0.1787,  0.0965,  ..., -0.0914,  0.0510,  0.0359],
+        [-0.1133, -0.0401, -0.0711,  ..., -0.1308, -0.0882, -0.0334],
+        [ 0.0221, -0.1016, -0.0967,  ..., -0.0914,  0.0268, -0.2977],
+        ...,
+        [-0.1654,  0.1297,  0.0051,  ...,  0.1391, -0.0324, -0.1169],
+        [-0.1233, -0.1078,  0.1297,  ..., -0.0898, -0.1484,  0.1264],
+        [ 0.0172, -0.2363,  0.1219,  ...,  0.0656, -0.1732, -0.0940]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  2.9802e-08,  8.3819e-09,  ...,  1.0245e-08,
+          0.0000e+00,  3.7253e-09],
+        [ 4.6566e-09,  9.4101e-06,  1.8207e-06,  ...,  7.9814e-07,
+          1.8626e-09, -5.4017e-08],
+        [ 9.3132e-10,  5.6345e-07,  1.1083e-07,  ...,  5.6811e-08,
+          1.8626e-09,  8.3819e-09],
+        ...,
+        [-1.7975e-07, -1.1459e-05, -2.1271e-06,  ..., -1.5628e-06,
+          1.8626e-09,  1.6764e-08],
+        [ 2.7940e-09,  4.0047e-08, -6.5193e-09,  ...,  1.6764e-08,
+          3.7253e-09, -2.7940e-08],
+        [-3.9116e-08,  5.1223e-08, -9.9652e-08,  ..., -1.6764e-08,
+          1.8626e-09,  2.5146e-08]], device='cuda:0')
+Epoch 197, bias, value: tensor([-0.0154, -0.0197, -0.0276, -0.0289, -0.0100,  0.0065,  0.0104, -0.0179,
+        -0.0073,  0.0018], device='cuda:0'), grad: tensor([ 9.1270e-08,  1.6272e-05,  8.5589e-07,  1.6922e-06,  9.6019e-07,
+         2.7567e-07, -2.7940e-08, -2.0236e-05,  1.1921e-07, -1.7695e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 196, time 220.05, cls_loss 0.0012 cls_loss_mapping 0.0032 cls_loss_causal 0.4959 re_mapping 0.0047 re_causal 0.0135 /// teacc 99.07 lr 0.00010000
+Epoch 198, weight, value: tensor([[-0.1760, -0.1791,  0.0967,  ..., -0.0917,  0.0509,  0.0358],
+        [-0.1133, -0.0406, -0.0716,  ..., -0.1319, -0.0885, -0.0335],
+        [ 0.0220, -0.1018, -0.0974,  ..., -0.0913,  0.0269, -0.2984],
+        ...,
+        [-0.1659,  0.1302,  0.0053,  ...,  0.1393, -0.0341, -0.1168],
+        [-0.1237, -0.1080,  0.1306,  ..., -0.0904, -0.1484,  0.1279],
+        [ 0.0174, -0.2367,  0.1222,  ...,  0.0657, -0.1741, -0.0942]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  9.3132e-10,  1.8626e-09,  ...,  1.8626e-09,
+          0.0000e+00,  1.1176e-08],
+        [ 9.3132e-09,  7.4506e-09,  1.5832e-08,  ...,  7.4506e-09,
+          0.0000e+00,  9.3132e-10],
+        [ 9.3132e-10, -5.5879e-09,  1.5832e-08,  ...,  1.8626e-09,
+         -2.2352e-08,  1.9558e-08],
+        ...,
+        [ 7.4506e-09,  1.6037e-06,  4.6492e-06,  ...,  7.6741e-07,
+          5.5879e-09,  3.6806e-06],
+        [ 1.2666e-07, -1.6242e-06, -4.7460e-06,  ..., -7.7952e-07,
+          1.7695e-08, -3.6061e-06],
+        [ 1.9558e-08,  7.4506e-09,  8.3819e-09,  ...,  3.3528e-08,
+          9.3132e-10,  4.0978e-08]], device='cuda:0')
+Epoch 198, bias, value: tensor([-0.0155, -0.0201, -0.0271, -0.0289, -0.0100,  0.0063,  0.0104, -0.0179,
+        -0.0063,  0.0019], device='cuda:0'), grad: tensor([ 3.8184e-08, -5.4948e-08, -7.5437e-08,  1.0710e-07, -1.0617e-07,
+        -3.5763e-07,  7.2643e-08,  7.4878e-06, -7.2792e-06,  1.8906e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 197, time 220.58, cls_loss 0.0014 cls_loss_mapping 0.0027 cls_loss_causal 0.5047 re_mapping 0.0049 re_causal 0.0134 /// teacc 99.06 lr 0.00010000
+Epoch 199, weight, value: tensor([[-0.1763, -0.1790,  0.0970,  ..., -0.0921,  0.0511,  0.0357],
+        [-0.1144, -0.0403, -0.0714,  ..., -0.1338, -0.0891, -0.0340],
+        [ 0.0216, -0.1021, -0.0987,  ..., -0.0920,  0.0270, -0.3006],
+        ...,
+        [-0.1665,  0.1304,  0.0055,  ...,  0.1408, -0.0326, -0.1171],
+        [-0.1247, -0.1081,  0.1315,  ..., -0.0910, -0.1484,  0.1284],
+        [ 0.0175, -0.2378,  0.1222,  ...,  0.0651, -0.1755, -0.0947]],
+       device='cuda:0'), grad: tensor([[ 2.4214e-08,  1.0245e-08,  2.7940e-08,  ...,  1.0896e-07,
+          3.7253e-09,  1.0179e-06],
+        [ 3.8184e-08,  1.6671e-07,  5.4948e-08,  ...,  2.4866e-07,
+          6.5193e-09,  1.9372e-07],
+        [ 4.6566e-09,  3.9563e-06,  6.9756e-07,  ...,  2.5295e-06,
+          7.4506e-09,  6.9290e-07],
+        ...,
+        [ 5.1223e-08, -4.1537e-06, -3.0734e-07,  ..., -2.5071e-06,
+          6.5193e-09,  5.7835e-07],
+        [ 1.1269e-07, -1.7695e-08, -3.9767e-07,  ...,  2.2072e-07,
+          1.3690e-07, -1.2275e-06],
+        [ 5.7556e-06,  6.5193e-08, -1.4054e-06,  ...,  1.8612e-05,
+          1.8626e-09,  2.0489e-08]], device='cuda:0')
+Epoch 199, bias, value: tensor([-0.0156, -0.0201, -0.0264, -0.0290, -0.0097,  0.0064,  0.0104, -0.0177,
+        -0.0058,  0.0011], device='cuda:0'), grad: tensor([ 5.9828e-06,  1.8701e-06,  1.0327e-05,  2.6822e-07, -6.0886e-05,
+        -2.1420e-06, -9.1717e-06, -8.4713e-06, -6.3796e-07,  6.2943e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 198, time 220.51, cls_loss 0.0012 cls_loss_mapping 0.0026 cls_loss_causal 0.5130 re_mapping 0.0049 re_causal 0.0139 /// teacc 99.10 lr 0.00010000
+Epoch 200, weight, value: tensor([[-0.1766, -0.1798,  0.0970,  ..., -0.0927,  0.0511,  0.0357],
+        [-0.1145, -0.0419, -0.0727,  ..., -0.1348, -0.0887, -0.0339],
+        [ 0.0218, -0.1022, -0.0996,  ..., -0.0924,  0.0270, -0.3018],
+        ...,
+        [-0.1677,  0.1319,  0.0060,  ...,  0.1409, -0.0332, -0.1175],
+        [-0.1250, -0.1081,  0.1323,  ..., -0.0916, -0.1484,  0.1291],
+        [ 0.0175, -0.2380,  0.1226,  ...,  0.0649, -0.1762, -0.0951]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  5.5879e-09, -3.9954e-07,  ...,  9.3132e-09,
+          9.3132e-10,  1.0245e-08],
+        [ 0.0000e+00,  1.7695e-08,  2.5146e-08,  ...,  2.4214e-08,
+          1.8626e-09, -6.5193e-08],
+        [ 0.0000e+00, -2.1420e-08,  6.1467e-08,  ..., -1.1828e-07,
+         -2.2352e-08,  5.5879e-08],
+        ...,
+        [ 3.7253e-09, -4.9360e-08,  1.8626e-09,  ...,  4.4703e-08,
+          1.6764e-08,  5.6811e-08],
+        [ 2.4214e-08,  3.7253e-09, -1.0617e-07,  ..., -1.9558e-08,
+          9.3132e-10, -1.1921e-07],
+        [ 3.7253e-09,  2.7008e-08,  3.3248e-07,  ...,  8.6613e-08,
+          9.3132e-10,  6.5193e-08]], device='cuda:0')
+Epoch 200, bias, value: tensor([-0.0157, -0.0212, -0.0263, -0.0291, -0.0093,  0.0064,  0.0104, -0.0168,
+        -0.0053,  0.0009], device='cuda:0'), grad: tensor([-9.3225e-07, -1.2871e-06, -6.8452e-07,  1.6391e-07,  1.5542e-05,
+        -7.5437e-08, -1.5125e-05,  1.3607e-06, -2.3562e-07,  1.2768e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 199, time 220.45, cls_loss 0.0018 cls_loss_mapping 0.0031 cls_loss_causal 0.4862 re_mapping 0.0050 re_causal 0.0133 /// teacc 99.01 lr 0.00010000
+Epoch 201, weight, value: tensor([[-0.1766, -0.1800,  0.0973,  ..., -0.0931,  0.0509,  0.0358],
+        [-0.1165, -0.0454, -0.0765,  ..., -0.1356, -0.0892, -0.0345],
+        [ 0.0216, -0.1013, -0.1013,  ..., -0.0935,  0.0272, -0.3036],
+        ...,
+        [-0.1678,  0.1355,  0.0092,  ...,  0.1417, -0.0353, -0.1177],
+        [-0.1260, -0.1088,  0.1330,  ..., -0.0927, -0.1485,  0.1296],
+        [ 0.0175, -0.2385,  0.1228,  ...,  0.0645, -0.1792, -0.0955]],
+       device='cuda:0'), grad: tensor([[-5.5879e-09,  9.3132e-10, -4.7497e-08,  ...,  9.8720e-08,
+          9.3132e-10, -2.0675e-07],
+        [-1.9278e-07, -1.3970e-08, -1.9185e-07,  ..., -2.2855e-06,
+          9.3132e-10, -7.4506e-09],
+        [ 3.7253e-09,  3.1665e-08,  8.5682e-08,  ...,  6.5193e-09,
+          9.3132e-10,  6.2473e-06],
+        ...,
+        [ 1.2293e-07,  2.7008e-08,  2.6543e-07,  ...,  2.2780e-06,
+          0.0000e+00,  1.7360e-06],
+        [ 7.2643e-08, -1.3039e-08,  2.4214e-08,  ...,  3.2596e-08,
+          1.8626e-09, -1.2547e-05],
+        [-8.4750e-08,  4.6566e-09, -8.0746e-07,  ..., -4.5728e-07,
+          0.0000e+00, -7.4506e-08]], device='cuda:0')
+Epoch 201, bias, value: tensor([-0.0158, -0.0244, -0.0243, -0.0306, -0.0088,  0.0065,  0.0102, -0.0135,
+        -0.0044,  0.0006], device='cuda:0'), grad: tensor([ 4.8429e-08, -4.5657e-05,  1.8120e-05,  4.0978e-06,  1.1735e-06,
+         7.9498e-06,  2.3842e-06,  4.9621e-05, -3.5912e-05, -1.8990e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 200, time 220.82, cls_loss 0.0014 cls_loss_mapping 0.0028 cls_loss_causal 0.5121 re_mapping 0.0048 re_causal 0.0137 /// teacc 99.00 lr 0.00010000
+Epoch 202, weight, value: tensor([[-0.1768, -0.1800,  0.0972,  ..., -0.0936,  0.0512,  0.0357],
+        [-0.1169, -0.0450, -0.0762,  ..., -0.1368, -0.0873, -0.0344],
+        [ 0.0233, -0.1020, -0.1033,  ..., -0.0947,  0.0271, -0.3051],
+        ...,
+        [-0.1687,  0.1353,  0.0089,  ...,  0.1424, -0.0369, -0.1182],
+        [-0.1262, -0.1091,  0.1354,  ..., -0.0927, -0.1484,  0.1306],
+        [ 0.0173, -0.2396,  0.1227,  ...,  0.0642, -0.1816, -0.0970]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  2.3283e-08,  6.5193e-09,  ...,  1.4901e-08,
+          0.0000e+00,  7.4506e-09],
+        [ 1.8626e-09,  4.2841e-08,  8.9407e-08,  ...,  1.2293e-07,
+          0.0000e+00, -6.6124e-08],
+        [ 1.8626e-09,  2.0768e-07,  3.4459e-08,  ...,  1.1735e-07,
+          0.0000e+00,  1.6764e-08],
+        ...,
+        [ 1.3039e-08, -5.2620e-07, -2.0862e-07,  ..., -3.5670e-07,
+          0.0000e+00,  6.7055e-08],
+        [ 3.7253e-08,  3.3528e-08, -8.3819e-09,  ...,  2.9802e-08,
+          0.0000e+00,  1.8626e-09],
+        [ 2.5146e-08,  1.2666e-07, -4.8429e-08,  ..., -3.9116e-08,
+          0.0000e+00,  2.3283e-08]], device='cuda:0')
+Epoch 202, bias, value: tensor([-1.6109e-02, -2.3727e-02, -2.4842e-02, -3.0751e-02, -8.5017e-03,
+         6.5119e-03,  1.0222e-02, -1.3897e-02, -3.2987e-03, -4.6578e-06],
+       device='cuda:0'), grad: tensor([ 1.3970e-07, -9.1828e-07,  2.0396e-07,  4.2655e-07,  3.3900e-07,
+        -3.5204e-07,  1.8626e-09,  1.4435e-07,  1.2945e-07, -1.0151e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 201, time 220.28, cls_loss 0.0012 cls_loss_mapping 0.0025 cls_loss_causal 0.4771 re_mapping 0.0048 re_causal 0.0131 /// teacc 98.98 lr 0.00010000
+Epoch 203, weight, value: tensor([[-0.1768, -0.1804,  0.0975,  ..., -0.0940,  0.0510,  0.0358],
+        [-0.1172, -0.0448, -0.0761,  ..., -0.1376, -0.0884, -0.0343],
+        [ 0.0236, -0.1025, -0.1050,  ..., -0.0957,  0.0273, -0.3059],
+        ...,
+        [-0.1694,  0.1349,  0.0082,  ...,  0.1426, -0.0377, -0.1187],
+        [-0.1265, -0.1093,  0.1364,  ..., -0.0934, -0.1485,  0.1314],
+        [ 0.0174, -0.2400,  0.1236,  ...,  0.0641, -0.1824, -0.0972]],
+       device='cuda:0'), grad: tensor([[ 1.4901e-08,  3.7253e-09,  1.7695e-08,  ...,  1.3970e-08,
+          0.0000e+00,  4.6566e-09],
+        [ 7.4506e-09,  4.8131e-06,  5.0291e-08,  ...,  3.9712e-06,
+          9.3132e-10, -3.1386e-07],
+        [ 6.6124e-08,  8.0094e-08,  8.4750e-08,  ...,  1.1362e-07,
+          9.3132e-10,  6.5193e-09],
+        ...,
+        [ 3.7625e-07, -4.9546e-06,  3.7346e-07,  ..., -3.8259e-06,
+         -4.6566e-09,  9.5926e-08],
+        [ 1.0245e-08,  7.4506e-09,  1.8626e-09,  ...,  1.3970e-08,
+          0.0000e+00, -2.7940e-09],
+        [-1.0990e-06, -5.4017e-08, -1.2470e-06,  ..., -8.0187e-07,
+          0.0000e+00,  3.7253e-09]], device='cuda:0')
+Epoch 203, bias, value: tensor([-1.6049e-02, -2.3541e-02, -2.4778e-02, -3.0594e-02, -8.1404e-03,
+         6.4418e-03,  1.0046e-02, -1.4275e-02, -2.7867e-03, -3.0324e-05],
+       device='cuda:0'), grad: tensor([ 8.9407e-08,  9.5889e-06,  3.5856e-07,  7.2084e-07,  6.3051e-07,
+         1.2023e-06,  8.1398e-07, -9.3430e-06,  7.5437e-08, -4.1425e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 202, time 220.70, cls_loss 0.0012 cls_loss_mapping 0.0028 cls_loss_causal 0.5164 re_mapping 0.0048 re_causal 0.0136 /// teacc 99.09 lr 0.00010000
+Epoch 204, weight, value: tensor([[-0.1772, -0.1814,  0.0977,  ..., -0.0946,  0.0509,  0.0356],
+        [-0.1164, -0.0448, -0.0762,  ..., -0.1389, -0.0889, -0.0336],
+        [ 0.0235, -0.1029, -0.1058,  ..., -0.0964,  0.0273, -0.3078],
+        ...,
+        [-0.1701,  0.1347,  0.0081,  ...,  0.1439, -0.0381, -0.1197],
+        [-0.1270, -0.1093,  0.1369,  ..., -0.0944, -0.1485,  0.1320],
+        [ 0.0165, -0.2419,  0.1238,  ...,  0.0640, -0.1828, -0.0988]],
+       device='cuda:0'), grad: tensor([[ 3.8184e-08,  3.7532e-07, -2.0210e-07,  ...,  1.5832e-08,
+          0.0000e+00, -1.1083e-07],
+        [ 2.2911e-07, -2.4587e-05, -7.2159e-06,  ...,  3.8184e-08,
+          0.0000e+00, -1.0066e-05],
+        [-7.6815e-06,  1.6484e-07,  6.3330e-08,  ..., -1.8347e-07,
+          0.0000e+00,  7.5437e-08],
+        ...,
+        [ 3.1292e-07,  2.2799e-05,  6.6906e-06,  ..., -1.1176e-07,
+          0.0000e+00,  9.3430e-06],
+        [ 1.0338e-07,  9.6858e-08,  1.5739e-07,  ...,  1.0245e-08,
+          0.0000e+00,  1.5832e-07],
+        [ 5.7705e-06,  1.0636e-06,  2.6077e-07,  ...,  1.8068e-07,
+          0.0000e+00,  4.6007e-07]], device='cuda:0')
+Epoch 204, bias, value: tensor([-0.0163, -0.0235, -0.0248, -0.0303, -0.0080,  0.0064,  0.0101, -0.0143,
+        -0.0026, -0.0005], device='cuda:0'), grad: tensor([ 9.5833e-07, -8.6904e-05, -5.7727e-05,  8.2701e-06,  1.2806e-06,
+         3.0734e-07,  2.6077e-07,  8.7678e-05,  2.4550e-06,  4.3601e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 203, time 220.46, cls_loss 0.0014 cls_loss_mapping 0.0029 cls_loss_causal 0.5090 re_mapping 0.0045 re_causal 0.0129 /// teacc 99.06 lr 0.00010000
+Epoch 205, weight, value: tensor([[-0.1774, -0.1819,  0.0990,  ..., -0.0950,  0.0507,  0.0365],
+        [-0.1169, -0.0445, -0.0760,  ..., -0.1397, -0.0918, -0.0331],
+        [ 0.0239, -0.1035, -0.1066,  ..., -0.0967,  0.0283, -0.3086],
+        ...,
+        [-0.1705,  0.1345,  0.0078,  ...,  0.1445, -0.0401, -0.1207],
+        [-0.1273, -0.1097,  0.1373,  ..., -0.0955, -0.1486,  0.1323],
+        [ 0.0165, -0.2428,  0.1238,  ...,  0.0640, -0.1834, -0.0994]],
+       device='cuda:0'), grad: tensor([[ 1.0245e-08,  5.5879e-09, -3.7253e-09,  ...,  7.4506e-09,
+         -1.8626e-09,  3.0734e-08],
+        [-2.7288e-07,  4.2841e-08,  2.4214e-08,  ...,  4.7497e-08,
+          0.0000e+00, -1.1204e-06],
+        [ 4.6566e-09,  1.6764e-07,  2.9802e-08,  ...,  2.2352e-07,
+          0.0000e+00,  4.8429e-08],
+        ...,
+        [ 8.3819e-09, -2.6822e-07, -1.9558e-08,  ..., -3.0920e-07,
+          0.0000e+00,  8.1956e-08],
+        [ 2.0955e-07,  3.7253e-09, -2.7660e-07,  ..., -1.6764e-08,
+          0.0000e+00,  6.5193e-08],
+        [ 3.7253e-09,  2.9802e-08, -5.3085e-08,  ..., -2.7008e-08,
+          0.0000e+00,  3.5390e-08]], device='cuda:0')
+Epoch 205, bias, value: tensor([-0.0149, -0.0232, -0.0241, -0.0303, -0.0082,  0.0065,  0.0098, -0.0148,
+        -0.0029, -0.0010], device='cuda:0'), grad: tensor([ 1.1735e-07, -2.9206e-06,  5.1502e-07,  9.3132e-08,  1.6484e-07,
+         8.1398e-07,  6.4075e-07, -2.2538e-07,  8.2236e-07, -1.1176e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 204, time 220.84, cls_loss 0.0010 cls_loss_mapping 0.0020 cls_loss_causal 0.4972 re_mapping 0.0046 re_causal 0.0131 /// teacc 99.01 lr 0.00010000
+Epoch 206, weight, value: tensor([[-0.1778, -0.1825,  0.0999,  ..., -0.0955,  0.0507,  0.0367],
+        [-0.1174, -0.0445, -0.0760,  ..., -0.1416, -0.0919, -0.0331],
+        [ 0.0238, -0.1040, -0.1071,  ..., -0.0978,  0.0284, -0.3091],
+        ...,
+        [-0.1713,  0.1347,  0.0078,  ...,  0.1461, -0.0405, -0.1210],
+        [-0.1274, -0.1098,  0.1374,  ..., -0.0960, -0.1486,  0.1327],
+        [ 0.0166, -0.2433,  0.1238,  ...,  0.0639, -0.1834, -0.0996]],
+       device='cuda:0'), grad: tensor([[-4.0978e-08,  2.9895e-07, -1.1455e-07,  ...,  1.6764e-08,
+          0.0000e+00, -5.0664e-07],
+        [ 3.7253e-09,  5.5134e-07,  1.2945e-07,  ...,  1.9558e-07,
+          1.8626e-09,  1.6578e-07],
+        [ 1.8626e-09,  3.9004e-06,  1.6764e-07,  ...,  1.2107e-07,
+         -1.8626e-09,  2.5425e-07],
+        ...,
+        [ 1.0245e-08,  1.1042e-05,  1.3784e-07,  ..., -1.3039e-08,
+          0.0000e+00,  2.3842e-07],
+        [ 1.8626e-09,  3.1162e-06, -1.8915e-06,  ...,  1.0431e-07,
+          0.0000e+00, -2.8443e-06],
+        [ 9.3132e-10,  2.8685e-07,  5.8115e-07,  ..., -9.3132e-08,
+          0.0000e+00,  6.0629e-07]], device='cuda:0')
+Epoch 206, bias, value: tensor([-0.0145, -0.0232, -0.0242, -0.0303, -0.0084,  0.0064,  0.0097, -0.0147,
+        -0.0028, -0.0011], device='cuda:0'), grad: tensor([-6.5938e-07,  1.1129e-06,  5.5917e-06, -2.1607e-05,  7.6927e-07,
+         3.4906e-06, -1.2834e-06,  1.3351e-05, -3.5241e-06,  2.7344e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 205, time 220.53, cls_loss 0.0012 cls_loss_mapping 0.0025 cls_loss_causal 0.4775 re_mapping 0.0048 re_causal 0.0132 /// teacc 99.03 lr 0.00010000
+Epoch 207, weight, value: tensor([[-0.1780, -0.1831,  0.0987,  ..., -0.0980,  0.0507,  0.0368],
+        [-0.1169, -0.0447, -0.0761,  ..., -0.1428, -0.0920, -0.0329],
+        [ 0.0236, -0.1045, -0.1076,  ..., -0.0989,  0.0286, -0.3097],
+        ...,
+        [-0.1718,  0.1350,  0.0079,  ...,  0.1459, -0.0414, -0.1213],
+        [-0.1276, -0.1102,  0.1377,  ..., -0.0963, -0.1486,  0.1331],
+        [ 0.0167, -0.2437,  0.1243,  ...,  0.0623, -0.1837, -0.1000]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.7940e-09, -3.2969e-07,  ...,  2.4214e-08,
+          0.0000e+00, -3.7812e-07],
+        [ 0.0000e+00,  1.0245e-08,  9.4995e-08,  ...,  4.3772e-08,
+          0.0000e+00,  4.4703e-08],
+        [ 0.0000e+00,  5.5879e-09,  1.8068e-07,  ...,  5.5879e-09,
+         -1.8626e-09,  2.7101e-07],
+        ...,
+        [ 0.0000e+00, -4.1910e-08,  1.3001e-06,  ...,  8.4378e-07,
+          0.0000e+00,  1.9185e-07],
+        [ 0.0000e+00,  9.3132e-10, -5.5600e-07,  ...,  7.1712e-08,
+          0.0000e+00, -9.7603e-07],
+        [ 0.0000e+00,  3.7253e-09, -1.4408e-06,  ..., -1.2470e-06,
+          0.0000e+00,  3.7905e-07]], device='cuda:0')
+Epoch 207, bias, value: tensor([-0.0151, -0.0232, -0.0242, -0.0302, -0.0067,  0.0061,  0.0105, -0.0147,
+        -0.0028, -0.0021], device='cuda:0'), grad: tensor([-6.9011e-07,  8.9407e-08,  7.3761e-07,  5.5321e-07,  5.6066e-07,
+         9.0525e-07, -2.7753e-07,  3.0454e-06, -2.2911e-06, -2.6375e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 206, time 220.70, cls_loss 0.0014 cls_loss_mapping 0.0031 cls_loss_causal 0.5256 re_mapping 0.0048 re_causal 0.0132 /// teacc 98.96 lr 0.00010000
+Epoch 208, weight, value: tensor([[-0.1786, -0.1836,  0.0990,  ..., -0.0984,  0.0509,  0.0368],
+        [-0.1168, -0.0447, -0.0762,  ..., -0.1435, -0.0926, -0.0328],
+        [ 0.0231, -0.1052, -0.1093,  ..., -0.0998,  0.0286, -0.3109],
+        ...,
+        [-0.1723,  0.1350,  0.0080,  ...,  0.1461, -0.0412, -0.1219],
+        [-0.1279, -0.1106,  0.1384,  ..., -0.0967, -0.1487,  0.1338],
+        [ 0.0174, -0.2442,  0.1249,  ...,  0.0623, -0.1842, -0.1004]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.6566e-09, -5.2154e-08,  ...,  2.5146e-08,
+          1.8626e-09,  1.1548e-07],
+        [ 0.0000e+00,  1.9558e-08,  7.4506e-09,  ...,  9.5926e-08,
+          3.5390e-08,  2.7008e-08],
+        [ 0.0000e+00,  2.7381e-07,  3.0734e-08,  ...,  1.9558e-08,
+         -1.5832e-08,  1.1176e-07],
+        ...,
+        [ 0.0000e+00,  4.0047e-08,  8.3819e-09,  ...,  6.5193e-09,
+          5.5879e-09,  4.5635e-08],
+        [ 0.0000e+00,  2.1420e-08, -4.7497e-08,  ...,  3.2596e-08,
+          0.0000e+00, -1.9558e-08],
+        [-9.3132e-10,  1.0245e-08,  1.8626e-09,  ...,  6.4261e-08,
+          3.7253e-09,  7.7300e-08]], device='cuda:0')
+Epoch 208, bias, value: tensor([-0.0153, -0.0231, -0.0242, -0.0302, -0.0070,  0.0063,  0.0098, -0.0149,
+        -0.0027, -0.0018], device='cuda:0'), grad: tensor([ 1.9651e-06,  1.7127e-06,  1.6307e-06, -2.9895e-07,  9.1270e-06,
+         1.3262e-06, -1.7822e-05,  6.4168e-07,  1.0123e-06,  6.9104e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 207, time 220.48, cls_loss 0.0012 cls_loss_mapping 0.0025 cls_loss_causal 0.4879 re_mapping 0.0046 re_causal 0.0127 /// teacc 99.08 lr 0.00010000
+Epoch 209, weight, value: tensor([[-0.1790, -0.1840,  0.0987,  ..., -0.0992,  0.0510,  0.0365],
+        [-0.1169, -0.0447, -0.0764,  ..., -0.1454, -0.0927, -0.0326],
+        [ 0.0229, -0.1055, -0.1106,  ..., -0.1001,  0.0286, -0.3112],
+        ...,
+        [-0.1727,  0.1351,  0.0079,  ...,  0.1463, -0.0412, -0.1228],
+        [-0.1284, -0.1113,  0.1387,  ..., -0.0976, -0.1487,  0.1338],
+        [ 0.0180, -0.2445,  0.1260,  ...,  0.0627, -0.1845, -0.1008]],
+       device='cuda:0'), grad: tensor([[ 2.7008e-08,  3.1665e-08, -5.0943e-07,  ...,  4.4703e-08,
+         -2.7940e-09, -1.5274e-07],
+        [ 7.4506e-09,  6.3330e-08,  5.0291e-08,  ...,  8.6613e-08,
+          0.0000e+00, -4.4703e-08],
+        [ 5.5879e-09,  4.1910e-08,  3.0827e-07,  ...,  5.3085e-08,
+          0.0000e+00,  1.4901e-07],
+        ...,
+        [ 2.3283e-08, -5.6997e-07, -4.3772e-08,  ..., -7.2177e-07,
+          0.0000e+00,  5.7742e-08],
+        [ 8.4750e-08,  2.9802e-08,  2.5146e-08,  ...,  8.0094e-08,
+          0.0000e+00,  1.1176e-08],
+        [-1.4622e-07,  1.2759e-07, -1.1362e-07,  ...,  3.8184e-08,
+          0.0000e+00, -5.8673e-08]], device='cuda:0')
+Epoch 209, bias, value: tensor([-0.0158, -0.0230, -0.0239, -0.0302, -0.0072,  0.0061,  0.0103, -0.0151,
+        -0.0034, -0.0010], device='cuda:0'), grad: tensor([-1.4110e-06,  5.0291e-08,  1.1306e-06,  2.5518e-07,  9.2853e-07,
+        -1.0245e-06,  1.3765e-06, -1.6363e-06,  1.5646e-07,  1.5087e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 208, time 220.01, cls_loss 0.0014 cls_loss_mapping 0.0032 cls_loss_causal 0.5218 re_mapping 0.0046 re_causal 0.0128 /// teacc 99.04 lr 0.00010000
+Epoch 210, weight, value: tensor([[-0.1804, -0.1852,  0.0988,  ..., -0.0995,  0.0510,  0.0353],
+        [-0.1149, -0.0448, -0.0764,  ..., -0.1461, -0.0927, -0.0310],
+        [ 0.0224, -0.1066, -0.1119,  ..., -0.1009,  0.0286, -0.3126],
+        ...,
+        [-0.1739,  0.1352,  0.0083,  ...,  0.1474, -0.0413, -0.1234],
+        [-0.1295, -0.1133,  0.1398,  ..., -0.0984, -0.1487,  0.1339],
+        [ 0.0179, -0.2465,  0.1253,  ...,  0.0612, -0.1851, -0.1016]],
+       device='cuda:0'), grad: tensor([[ 6.3237e-07,  6.5193e-09,  7.4506e-09,  ...,  7.4506e-09,
+          0.0000e+00,  1.0319e-06],
+        [ 3.8091e-07,  7.5437e-08,  8.3819e-09,  ...,  4.6566e-08,
+          0.0000e+00,  5.8208e-07],
+        [ 1.1269e-07,  3.8836e-07,  1.3039e-08,  ...,  1.2573e-07,
+          0.0000e+00,  1.9092e-07],
+        ...,
+        [ 1.5739e-07, -2.2724e-07, -9.3132e-09,  ..., -9.2201e-08,
+          0.0000e+00,  2.8126e-07],
+        [ 1.1563e-05,  3.0734e-08,  6.1467e-08,  ...,  2.7847e-07,
+          0.0000e+00,  2.5123e-05],
+        [ 1.4994e-07,  3.2596e-08, -1.6764e-07,  ...,  3.4459e-07,
+          0.0000e+00,  3.1479e-07]], device='cuda:0')
+Epoch 210, bias, value: tensor([-0.0168, -0.0228, -0.0242, -0.0301, -0.0062,  0.0063,  0.0105, -0.0151,
+        -0.0039, -0.0023], device='cuda:0'), grad: tensor([ 2.2128e-06,  1.8142e-06,  1.1278e-06,  8.1807e-06, -1.9576e-06,
+        -5.0217e-05, -3.0957e-06,  4.7684e-07,  3.8892e-05,  2.5742e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 209, time 220.47, cls_loss 0.0010 cls_loss_mapping 0.0022 cls_loss_causal 0.4678 re_mapping 0.0046 re_causal 0.0131 /// teacc 99.07 lr 0.00010000
+Epoch 211, weight, value: tensor([[-0.1812, -0.1856,  0.0983,  ..., -0.1009,  0.0510,  0.0356],
+        [-0.1161, -0.0448, -0.0765,  ..., -0.1473, -0.0927, -0.0312],
+        [ 0.0220, -0.1071, -0.1125,  ..., -0.1014,  0.0286, -0.3144],
+        ...,
+        [-0.1747,  0.1356,  0.0085,  ...,  0.1487, -0.0414, -0.1234],
+        [-0.1331, -0.1138,  0.1403,  ..., -0.0996, -0.1487,  0.1319],
+        [ 0.0179, -0.2471,  0.1256,  ...,  0.0613, -0.1852, -0.1022]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  9.3132e-10, -4.6566e-08,  ...,  0.0000e+00,
+          0.0000e+00, -1.8626e-08],
+        [ 0.0000e+00,  2.7008e-08,  5.5879e-09,  ...,  4.6566e-09,
+          0.0000e+00,  2.7940e-09],
+        [ 9.3132e-10,  3.0734e-08,  3.3528e-08,  ...,  1.8626e-09,
+          0.0000e+00,  1.5832e-08],
+        ...,
+        [ 9.3132e-10,  3.7253e-08,  3.7253e-09,  ..., -7.4506e-09,
+          0.0000e+00,  6.5193e-09],
+        [ 1.2107e-08,  6.5193e-09,  2.8871e-08,  ...,  2.5146e-08,
+          0.0000e+00,  1.5832e-08],
+        [-5.5879e-09,  6.5193e-09, -5.0291e-08,  ..., -2.9802e-08,
+          0.0000e+00, -1.2107e-08]], device='cuda:0')
+Epoch 211, bias, value: tensor([-0.0170, -0.0228, -0.0245, -0.0305, -0.0063,  0.0071,  0.0108, -0.0150,
+        -0.0064, -0.0024], device='cuda:0'), grad: tensor([-8.9407e-08,  8.3819e-08,  1.3970e-08, -1.9278e-07,  5.7742e-08,
+         1.2107e-08, -6.7987e-08,  9.7789e-08,  1.6764e-07, -8.0094e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 210, time 220.49, cls_loss 0.0012 cls_loss_mapping 0.0032 cls_loss_causal 0.5046 re_mapping 0.0045 re_causal 0.0126 /// teacc 99.08 lr 0.00010000
+Epoch 212, weight, value: tensor([[-0.1815, -0.1871,  0.0955,  ..., -0.1044,  0.0510,  0.0360],
+        [-0.1161, -0.0449, -0.0767,  ..., -0.1488, -0.0927, -0.0309],
+        [ 0.0218, -0.1078, -0.1137,  ..., -0.1035,  0.0286, -0.3156],
+        ...,
+        [-0.1755,  0.1358,  0.0079,  ...,  0.1489, -0.0415, -0.1255],
+        [-0.1335, -0.1143,  0.1406,  ..., -0.1012, -0.1487,  0.1326],
+        [ 0.0179, -0.2476,  0.1288,  ...,  0.0626, -0.1853, -0.1006]],
+       device='cuda:0'), grad: tensor([[ 5.1223e-08,  6.9849e-09,  1.1967e-07,  ...,  1.7695e-08,
+          0.0000e+00, -4.6566e-10],
+        [ 3.8650e-08,  5.6345e-08,  1.0477e-07,  ...,  3.0734e-08,
+         -5.1223e-09, -4.6566e-08],
+        [ 3.8883e-07,  4.1444e-08,  9.2946e-07,  ...,  1.1222e-07,
+         -9.3132e-10,  2.3283e-09],
+        ...,
+        [ 1.3039e-08, -6.2399e-08,  4.6566e-10,  ..., -4.1910e-08,
+          6.5193e-09,  1.2573e-08],
+        [ 7.5437e-08,  1.7695e-08,  1.8766e-07,  ...,  3.6787e-08,
+          9.3132e-10,  8.8476e-09],
+        [-1.0598e-06,  2.3283e-08, -2.5276e-06,  ..., -3.0175e-07,
+          4.6566e-10, -4.1910e-09]], device='cuda:0')
+Epoch 212, bias, value: tensor([-0.0188, -0.0228, -0.0247, -0.0307, -0.0063,  0.0072,  0.0106, -0.0152,
+        -0.0060, -0.0007], device='cuda:0'), grad: tensor([ 4.9500e-07,  6.0955e-07,  2.4494e-06,  9.9000e-07,  1.0021e-06,
+         1.3448e-06,  8.3214e-07,  2.3050e-07,  6.9616e-07, -8.6576e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 211, time 220.59, cls_loss 0.0012 cls_loss_mapping 0.0029 cls_loss_causal 0.5070 re_mapping 0.0047 re_causal 0.0129 /// teacc 99.08 lr 0.00010000
+Epoch 213, weight, value: tensor([[-0.1818, -0.1886,  0.0958,  ..., -0.1049,  0.0482,  0.0362],
+        [-0.1162, -0.0447, -0.0768,  ..., -0.1499, -0.0930, -0.0312],
+        [ 0.0217, -0.1083, -0.1147,  ..., -0.1035,  0.0290, -0.3172],
+        ...,
+        [-0.1756,  0.1358,  0.0079,  ...,  0.1502, -0.0407, -0.1256],
+        [-0.1341, -0.1149,  0.1411,  ..., -0.1034, -0.1489,  0.1333],
+        [ 0.0181, -0.2483,  0.1290,  ...,  0.0624, -0.1859, -0.1010]],
+       device='cuda:0'), grad: tensor([[ 8.3819e-09,  3.2596e-09,  1.1753e-06,  ...,  9.3924e-07,
+          4.6566e-10, -5.5879e-09],
+        [ 7.4506e-09,  2.0629e-07,  1.3504e-07,  ...,  1.0198e-07,
+          4.6566e-10, -2.6077e-08],
+        [ 0.0000e+00,  1.1176e-08,  6.8918e-08,  ...,  5.3085e-08,
+         -4.6566e-10,  1.9558e-08],
+        ...,
+        [ 6.5193e-09,  1.0729e-06,  3.2876e-07,  ...,  2.1560e-07,
+          1.3970e-09,  4.6566e-08],
+        [ 1.1176e-08,  3.7253e-09, -9.7789e-09,  ...,  2.3283e-09,
+          0.0000e+00,  2.3283e-09],
+        [ 8.8476e-09,  9.5461e-08, -2.1867e-06,  ..., -1.7043e-06,
+          0.0000e+00,  1.3970e-08]], device='cuda:0')
+Epoch 213, bias, value: tensor([-0.0183, -0.0226, -0.0247, -0.0307, -0.0064,  0.0071,  0.0107, -0.0153,
+        -0.0056, -0.0009], device='cuda:0'), grad: tensor([ 2.2613e-06,  2.8498e-07,  9.2667e-08, -1.8645e-06,  1.3560e-06,
+        -1.2061e-07, -8.2888e-08,  2.0452e-06,  5.6345e-08, -4.0270e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 212, time 220.41, cls_loss 0.0010 cls_loss_mapping 0.0019 cls_loss_causal 0.4699 re_mapping 0.0045 re_causal 0.0125 /// teacc 99.08 lr 0.00010000
+Epoch 214, weight, value: tensor([[-0.1820, -0.1893,  0.0960,  ..., -0.1050,  0.0482,  0.0363],
+        [-0.1159, -0.0448, -0.0768,  ..., -0.1505, -0.0932, -0.0311],
+        [ 0.0214, -0.1088, -0.1159,  ..., -0.1039,  0.0290, -0.3181],
+        ...,
+        [-0.1762,  0.1359,  0.0079,  ...,  0.1508, -0.0408, -0.1258],
+        [-0.1343, -0.1156,  0.1422,  ..., -0.1042, -0.1489,  0.1339],
+        [ 0.0181, -0.2485,  0.1291,  ...,  0.0625, -0.1862, -0.1018]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  2.1886e-08,  5.5879e-09,  ...,  1.8626e-08,
+          0.0000e+00,  3.2596e-09],
+        [ 4.6566e-10,  3.3528e-08,  7.4506e-09,  ...,  2.7008e-08,
+          0.0000e+00,  2.7940e-09],
+        [ 0.0000e+00,  3.3528e-08,  7.9162e-09,  ...,  1.8626e-08,
+          0.0000e+00,  2.3283e-09],
+        ...,
+        [ 9.3132e-10, -1.0291e-07, -1.9092e-08,  ..., -7.3574e-08,
+          0.0000e+00,  2.7940e-09],
+        [ 6.0536e-09, -4.6566e-10, -1.9558e-08,  ..., -4.6566e-10,
+          0.0000e+00,  1.8626e-08],
+        [ 2.3283e-09,  1.2107e-08, -1.3039e-08,  ..., -1.2573e-08,
+          0.0000e+00,  6.0536e-09]], device='cuda:0')
+Epoch 214, bias, value: tensor([-0.0181, -0.0226, -0.0248, -0.0306, -0.0060,  0.0069,  0.0101, -0.0153,
+        -0.0053, -0.0009], device='cuda:0'), grad: tensor([ 7.3574e-08,  7.3109e-08,  3.8650e-08,  3.2131e-08,  1.1642e-08,
+         1.2247e-07, -2.9942e-07, -1.4203e-07,  1.1735e-07, -1.3504e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 213, time 220.43, cls_loss 0.0011 cls_loss_mapping 0.0022 cls_loss_causal 0.4958 re_mapping 0.0045 re_causal 0.0126 /// teacc 99.03 lr 0.00010000
+Epoch 215, weight, value: tensor([[-0.1838, -0.1901,  0.0958,  ..., -0.1050,  0.0482,  0.0359],
+        [-0.1163, -0.0448, -0.0769,  ..., -0.1511, -0.0933, -0.0312],
+        [ 0.0223, -0.1098, -0.1174,  ..., -0.1046,  0.0290, -0.3199],
+        ...,
+        [-0.1771,  0.1362,  0.0080,  ...,  0.1513, -0.0409, -0.1260],
+        [-0.1339, -0.1158,  0.1443,  ..., -0.1032, -0.1489,  0.1361],
+        [ 0.0169, -0.2497,  0.1288,  ...,  0.0625, -0.1862, -0.1039]],
+       device='cuda:0'), grad: tensor([[ 1.0710e-08,  1.0710e-08,  1.2573e-08,  ...,  3.2131e-08,
+          0.0000e+00,  9.3132e-10],
+        [ 3.4925e-08,  6.9849e-08,  3.2131e-08,  ...,  1.2992e-07,
+          0.0000e+00,  1.8626e-09],
+        [ 1.2573e-08,  6.2399e-08,  1.4901e-08,  ...,  2.1420e-08,
+          0.0000e+00,  5.1223e-09],
+        ...,
+        [ 2.5611e-08,  6.4727e-08,  5.8208e-08,  ...,  9.2201e-08,
+          0.0000e+00,  2.3283e-09],
+        [ 6.3330e-08,  5.1223e-08,  1.2014e-07,  ...,  1.2293e-07,
+          0.0000e+00,  2.0489e-08],
+        [-7.0315e-08,  2.5611e-08, -5.8953e-07,  ..., -1.6624e-07,
+          0.0000e+00,  4.6566e-09]], device='cuda:0')
+Epoch 215, bias, value: tensor([-0.0184, -0.0227, -0.0251, -0.0308, -0.0061,  0.0071,  0.0104, -0.0152,
+        -0.0035, -0.0014], device='cuda:0'), grad: tensor([ 1.6904e-07,  1.0002e-06, -5.9605e-08,  6.4587e-07, -2.6561e-06,
+        -3.2783e-07,  6.7241e-07,  5.7882e-07,  7.3528e-07, -7.3435e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 214, time 220.73, cls_loss 0.0013 cls_loss_mapping 0.0030 cls_loss_causal 0.5174 re_mapping 0.0044 re_causal 0.0124 /// teacc 98.97 lr 0.00010000
+Epoch 216, weight, value: tensor([[-0.1842, -0.1905,  0.0960,  ..., -0.1052,  0.0470,  0.0359],
+        [-0.1166, -0.0449, -0.0776,  ..., -0.1529, -0.0934, -0.0314],
+        [ 0.0221, -0.1120, -0.1182,  ..., -0.1067,  0.0293, -0.3207],
+        ...,
+        [-0.1781,  0.1366,  0.0076,  ...,  0.1514, -0.0418, -0.1263],
+        [-0.1341, -0.1162,  0.1450,  ..., -0.1042, -0.1489,  0.1366],
+        [ 0.0145, -0.2502,  0.1303,  ...,  0.0602, -0.1865, -0.1043]],
+       device='cuda:0'), grad: tensor([[ 1.8161e-08,  1.0710e-08,  2.3283e-08,  ...,  5.4017e-08,
+          0.0000e+00,  3.8184e-08],
+        [ 5.1223e-09,  4.3912e-07,  4.7497e-08,  ...,  7.1013e-07,
+          0.0000e+00,  3.2596e-09],
+        [ 2.7940e-09,  8.8429e-07,  8.8476e-09,  ...,  1.3709e-06,
+          0.0000e+00,  5.1223e-09],
+        ...,
+        [ 1.5832e-08, -1.5404e-06,  8.1863e-07,  ..., -1.6093e-06,
+          0.0000e+00,  1.0245e-08],
+        [ 2.2352e-08,  3.3993e-08,  9.7323e-08,  ...,  1.2526e-07,
+          0.0000e+00,  2.5611e-08],
+        [-1.7695e-08,  5.5414e-08, -1.6121e-06,  ..., -1.4864e-06,
+          0.0000e+00,  2.3749e-08]], device='cuda:0')
+Epoch 216, bias, value: tensor([-0.0183, -0.0230, -0.0252, -0.0307, -0.0034,  0.0071,  0.0103, -0.0151,
+        -0.0034, -0.0035], device='cuda:0'), grad: tensor([ 1.9558e-07,  1.5311e-06,  2.8815e-06,  6.9477e-07,  1.6764e-06,
+        -1.5926e-07, -1.9092e-07, -2.4550e-06,  4.5402e-07, -4.6268e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 215, time 220.75, cls_loss 0.0011 cls_loss_mapping 0.0029 cls_loss_causal 0.4941 re_mapping 0.0045 re_causal 0.0125 /// teacc 98.97 lr 0.00010000
+Epoch 217, weight, value: tensor([[-0.1847, -0.1914,  0.0958,  ..., -0.1060,  0.0461,  0.0361],
+        [-0.1169, -0.0450, -0.0777,  ..., -0.1554, -0.0936, -0.0314],
+        [ 0.0222, -0.1124, -0.1192,  ..., -0.1071,  0.0297, -0.3214],
+        ...,
+        [-0.1791,  0.1368,  0.0075,  ...,  0.1520, -0.0428, -0.1265],
+        [-0.1341, -0.1169,  0.1460,  ..., -0.1053, -0.1490,  0.1381],
+        [ 0.0148, -0.2505,  0.1309,  ...,  0.0606, -0.1866, -0.1052]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  4.6566e-10,  4.2375e-08,  ...,  4.3772e-08,
+          0.0000e+00, -6.0536e-09],
+        [ 5.1223e-09,  3.7253e-09, -1.8766e-07,  ...,  2.5798e-07,
+          0.0000e+00, -2.1933e-07],
+        [ 0.0000e+00,  3.7253e-09,  4.0047e-08,  ...,  1.1176e-08,
+          4.6566e-10,  6.3796e-08],
+        ...,
+        [ 1.8626e-09,  4.1910e-09,  3.4217e-06,  ...,  2.6431e-06,
+          4.6566e-10,  1.0710e-07],
+        [ 1.1642e-08,  1.2107e-08,  8.3353e-08,  ...,  4.7637e-07,
+          0.0000e+00, -2.6915e-07],
+        [-1.5181e-07,  1.3970e-09, -6.0722e-06,  ..., -5.7146e-06,
+          0.0000e+00,  1.4575e-07]], device='cuda:0')
+Epoch 217, bias, value: tensor([-0.0184, -0.0232, -0.0252, -0.0310, -0.0037,  0.0073,  0.0098, -0.0151,
+        -0.0023, -0.0031], device='cuda:0'), grad: tensor([ 9.4064e-08, -2.9579e-06,  5.4296e-07,  1.2144e-06,  5.4725e-06,
+         2.1374e-07,  5.2294e-07,  9.3803e-06,  1.1967e-07, -1.4633e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 216, time 220.31, cls_loss 0.0014 cls_loss_mapping 0.0028 cls_loss_causal 0.5040 re_mapping 0.0046 re_causal 0.0122 /// teacc 99.09 lr 0.00010000
+Epoch 218, weight, value: tensor([[-0.1850, -0.1924,  0.0958,  ..., -0.1063,  0.0472,  0.0360],
+        [-0.1169, -0.0452, -0.0792,  ..., -0.1592, -0.0937, -0.0316],
+        [ 0.0220, -0.1127, -0.1219,  ..., -0.1075,  0.0299, -0.3226],
+        ...,
+        [-0.1797,  0.1371,  0.0095,  ...,  0.1548, -0.0431, -0.1266],
+        [-0.1346, -0.1189,  0.1461,  ..., -0.1110, -0.1492,  0.1387],
+        [ 0.0155, -0.2519,  0.1309,  ...,  0.0613, -0.1876, -0.1048]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  2.2352e-08,  2.6077e-08,  ...,  9.3132e-10,
+          0.0000e+00,  1.8626e-09],
+        [ 4.6566e-10,  8.3819e-09,  9.3132e-10,  ...,  1.2107e-08,
+          0.0000e+00, -2.4214e-08],
+        [ 0.0000e+00,  4.5169e-08,  5.4017e-08,  ...,  4.7963e-08,
+          0.0000e+00,  5.5879e-09],
+        ...,
+        [ 3.7253e-09, -3.8650e-08, -2.4680e-08,  ..., -3.8650e-08,
+          0.0000e+00,  1.7695e-08],
+        [ 6.5193e-09,  2.3795e-07,  3.3900e-07,  ...,  1.3039e-08,
+          4.6566e-10, -2.7940e-08],
+        [ 2.7940e-09,  4.1910e-09, -4.3772e-08,  ..., -4.1444e-08,
+          0.0000e+00,  1.2573e-08]], device='cuda:0')
+Epoch 218, bias, value: tensor([-0.0186, -0.0233, -0.0259, -0.0309, -0.0048,  0.0073,  0.0105, -0.0144,
+        -0.0029, -0.0026], device='cuda:0'), grad: tensor([ 1.7462e-07, -4.7963e-08,  3.0734e-08, -3.0007e-06, -1.3970e-09,
+         1.0785e-06,  2.4680e-08,  5.9139e-08,  1.7481e-06, -5.5414e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 217, time 220.42, cls_loss 0.0013 cls_loss_mapping 0.0027 cls_loss_causal 0.4942 re_mapping 0.0043 re_causal 0.0122 /// teacc 99.05 lr 0.00010000
+Epoch 219, weight, value: tensor([[-0.1855, -0.1929,  0.0962,  ..., -0.1064,  0.0472,  0.0363],
+        [-0.1166, -0.0453, -0.0792,  ..., -0.1607, -0.0938, -0.0315],
+        [ 0.0217, -0.1130, -0.1235,  ..., -0.1082,  0.0300, -0.3232],
+        ...,
+        [-0.1808,  0.1374,  0.0096,  ...,  0.1563, -0.0426, -0.1268],
+        [-0.1350, -0.1196,  0.1467,  ..., -0.1120, -0.1493,  0.1397],
+        [ 0.0153, -0.2530,  0.1309,  ...,  0.0616, -0.1879, -0.1059]],
+       device='cuda:0'), grad: tensor([[ 9.2667e-08,  6.0536e-09, -1.2107e-08,  ...,  8.8476e-09,
+          0.0000e+00,  3.7625e-07],
+        [ 3.5996e-07,  4.0047e-08,  1.8161e-08,  ...,  5.5414e-08,
+          0.0000e+00,  1.6065e-06],
+        [ 7.4506e-09,  3.7253e-08,  2.4680e-08,  ...,  3.6322e-08,
+         -2.7940e-09,  3.4925e-08],
+        ...,
+        [ 5.1223e-09, -1.7788e-07, -4.8429e-08,  ..., -2.3562e-07,
+          1.8626e-09,  2.0489e-08],
+        [ 2.2352e-08,  1.3970e-09, -9.0804e-08,  ...,  4.1910e-09,
+          0.0000e+00,  9.5461e-08],
+        [ 2.9802e-08,  7.0781e-08, -6.5193e-09,  ...,  4.4703e-08,
+          0.0000e+00,  4.0047e-08]], device='cuda:0')
+Epoch 219, bias, value: tensor([-0.0183, -0.0232, -0.0259, -0.0308, -0.0052,  0.0073,  0.0102, -0.0143,
+        -0.0027, -0.0026], device='cuda:0'), grad: tensor([ 1.2480e-06,  5.1484e-06, -4.8755e-07,  7.4646e-07,  5.0664e-07,
+         1.3970e-06, -8.7470e-06, -3.6787e-07,  3.5809e-07,  2.1886e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 218, time 219.89, cls_loss 0.0010 cls_loss_mapping 0.0018 cls_loss_causal 0.4738 re_mapping 0.0044 re_causal 0.0119 /// teacc 99.11 lr 0.00010000
+Epoch 220, weight, value: tensor([[-0.1859, -0.1933,  0.0955,  ..., -0.1072,  0.0472,  0.0365],
+        [-0.1168, -0.0454, -0.0795,  ..., -0.1616, -0.0939, -0.0314],
+        [ 0.0217, -0.1132, -0.1243,  ..., -0.1084,  0.0300, -0.3237],
+        ...,
+        [-0.1820,  0.1376,  0.0098,  ...,  0.1568, -0.0424, -0.1270],
+        [-0.1358, -0.1200,  0.1473,  ..., -0.1124, -0.1493,  0.1381],
+        [ 0.0156, -0.2533,  0.1315,  ...,  0.0617, -0.1882, -0.1062]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  6.9849e-09, -7.9162e-09,  ...,  6.5193e-09,
+          2.0955e-08,  2.1029e-06],
+        [ 1.3970e-09,  6.9384e-08,  3.6322e-08,  ...,  6.1933e-08,
+          1.3644e-07,  3.7253e-08],
+        [ 4.6566e-10,  3.0734e-08,  8.3819e-09,  ...,  7.9162e-09,
+          2.4680e-08,  3.0734e-08],
+        ...,
+        [ 1.8626e-09, -1.6019e-07, -9.9186e-08,  ..., -1.7183e-07,
+          2.8405e-08,  3.4459e-08],
+        [ 8.4285e-08,  4.7963e-08,  2.9663e-07,  ...,  1.9325e-07,
+          4.0978e-08,  3.7579e-07],
+        [-6.2864e-08,  1.0803e-07, -2.8173e-07,  ..., -1.1409e-07,
+          2.7008e-08,  4.6100e-08]], device='cuda:0')
+Epoch 220, bias, value: tensor([-0.0188, -0.0233, -0.0259, -0.0307, -0.0053,  0.0072,  0.0112, -0.0143,
+        -0.0040, -0.0024], device='cuda:0'), grad: tensor([ 1.0267e-05,  1.6084e-06,  1.0571e-07, -1.0757e-07, -2.6338e-06,
+         1.4864e-06, -1.3664e-05, -4.6100e-08,  2.8424e-06,  1.4948e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 219, time 220.35, cls_loss 0.0012 cls_loss_mapping 0.0020 cls_loss_causal 0.4763 re_mapping 0.0046 re_causal 0.0123 /// teacc 99.08 lr 0.00010000
+Epoch 221, weight, value: tensor([[-0.1885, -0.1950,  0.0960,  ..., -0.1072,  0.0473,  0.0365],
+        [-0.1171, -0.0455, -0.0798,  ..., -0.1626, -0.0941, -0.0311],
+        [ 0.0212, -0.1135, -0.1264,  ..., -0.1088,  0.0297, -0.3254],
+        ...,
+        [-0.1837,  0.1378,  0.0098,  ...,  0.1568, -0.0429, -0.1273],
+        [-0.1355, -0.1206,  0.1475,  ..., -0.1129, -0.1493,  0.1389],
+        [ 0.0159, -0.2538,  0.1324,  ...,  0.0619, -0.1890, -0.1064]],
+       device='cuda:0'), grad: tensor([[ 1.1409e-07,  4.1910e-09,  0.0000e+00,  ...,  6.9849e-09,
+          0.0000e+00,  3.3528e-07],
+        [ 7.0781e-08,  3.4925e-08,  9.3132e-09,  ...,  2.8871e-08,
+          0.0000e+00,  9.9186e-08],
+        [ 1.7229e-08,  3.2131e-08,  9.3132e-09,  ...,  2.4214e-08,
+          0.0000e+00,  2.5146e-08],
+        ...,
+        [ 4.1444e-08, -1.1595e-07, -4.8894e-08,  ..., -8.5682e-08,
+          0.0000e+00,  3.9581e-08],
+        [ 6.7521e-07,  9.7789e-09, -4.1910e-09,  ...,  1.8626e-09,
+          0.0000e+00,  6.9337e-07],
+        [ 1.8021e-07,  3.8650e-08,  2.7940e-09,  ...,  1.8859e-07,
+          0.0000e+00,  1.3039e-07]], device='cuda:0')
+Epoch 221, bias, value: tensor([-0.0182, -0.0233, -0.0260, -0.0311, -0.0052,  0.0072,  0.0109, -0.0144,
+        -0.0035, -0.0020], device='cuda:0'), grad: tensor([ 1.1493e-06,  3.6601e-07, -3.7253e-09,  2.0452e-06,  7.7393e-07,
+        -3.0845e-06, -3.6974e-06, -1.1129e-07,  1.6838e-06,  8.7684e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 220, time 219.98, cls_loss 0.0014 cls_loss_mapping 0.0027 cls_loss_causal 0.4747 re_mapping 0.0046 re_causal 0.0121 /// teacc 99.10 lr 0.00010000
+Epoch 222, weight, value: tensor([[-0.1907, -0.1962,  0.0963,  ..., -0.1074,  0.0473,  0.0363],
+        [-0.1176, -0.0457, -0.0801,  ..., -0.1640, -0.0943, -0.0308],
+        [ 0.0210, -0.1144, -0.1292,  ..., -0.1099,  0.0298, -0.3272],
+        ...,
+        [-0.1845,  0.1381,  0.0100,  ...,  0.1575, -0.0432, -0.1276],
+        [-0.1359, -0.1218,  0.1477,  ..., -0.1136, -0.1493,  0.1394],
+        [ 0.0156, -0.2553,  0.1326,  ...,  0.0618, -0.1893, -0.1069]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  4.6566e-10, -6.5193e-09,  ...,  1.4901e-08,
+          0.0000e+00, -2.7940e-09],
+        [ 2.3283e-09,  3.6322e-08,  2.5611e-08,  ...,  3.0641e-07,
+          0.0000e+00,  8.3819e-09],
+        [ 0.0000e+00,  4.6566e-09,  2.7940e-09,  ...,  1.6764e-08,
+          0.0000e+00,  1.8626e-09],
+        ...,
+        [ 7.4506e-09, -3.3993e-08, -1.3970e-08,  ...,  3.3062e-08,
+          0.0000e+00,  5.5879e-09],
+        [ 2.7940e-09,  9.3132e-09, -2.2212e-07,  ..., -8.7544e-08,
+          0.0000e+00, -2.1653e-07],
+        [ 1.1502e-07,  4.6566e-09,  1.9651e-07,  ...,  1.1967e-06,
+          0.0000e+00,  2.0629e-07]], device='cuda:0')
+Epoch 222, bias, value: tensor([-0.0182, -0.0234, -0.0261, -0.0310, -0.0049,  0.0072,  0.0105, -0.0144,
+        -0.0025, -0.0023], device='cuda:0'), grad: tensor([ 5.1688e-08,  1.8226e-06, -9.8720e-07, -8.8476e-09, -7.0482e-06,
+        -1.3039e-08,  4.0699e-07,  1.4715e-07,  4.6054e-07,  5.1856e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 221, time 220.05, cls_loss 0.0010 cls_loss_mapping 0.0021 cls_loss_causal 0.4874 re_mapping 0.0043 re_causal 0.0121 /// teacc 99.08 lr 0.00010000
+Epoch 223, weight, value: tensor([[-0.1909, -0.1967,  0.0964,  ..., -0.1075,  0.0472,  0.0366],
+        [-0.1175, -0.0458, -0.0801,  ..., -0.1654, -0.0944, -0.0307],
+        [ 0.0212, -0.1154, -0.1300,  ..., -0.1115,  0.0297, -0.3276],
+        ...,
+        [-0.1850,  0.1385,  0.0099,  ...,  0.1580, -0.0421, -0.1279],
+        [-0.1362, -0.1225,  0.1474,  ..., -0.1140, -0.1494,  0.1395],
+        [ 0.0156, -0.2555,  0.1330,  ...,  0.0618, -0.1896, -0.1071]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09,  6.9849e-09, -3.2131e-08,  ...,  7.4506e-09,
+          4.6566e-10, -1.9558e-08],
+        [ 1.3970e-09,  4.6100e-08,  1.0710e-08,  ...,  2.3283e-08,
+          0.0000e+00,  2.7940e-09],
+        [ 4.6566e-10,  5.0291e-08,  1.6298e-08,  ...,  3.3993e-08,
+         -1.3970e-09,  1.5832e-08],
+        ...,
+        [ 3.7253e-09, -6.7055e-08, -9.3132e-09,  ..., -5.9605e-08,
+          4.6566e-10,  1.3504e-08],
+        [ 5.5879e-09,  9.0338e-08, -1.4901e-08,  ...,  9.3132e-10,
+          4.6566e-10, -1.5367e-08],
+        [ 5.5879e-09,  1.4901e-08, -7.4506e-09,  ...,  1.0710e-08,
+          0.0000e+00,  1.9092e-08]], device='cuda:0')
+Epoch 223, bias, value: tensor([-0.0182, -0.0236, -0.0265, -0.0310, -0.0047,  0.0071,  0.0107, -0.0140,
+        -0.0028, -0.0024], device='cuda:0'), grad: tensor([-4.1910e-08,  1.2852e-07,  1.5087e-07, -7.5921e-06, -1.4156e-07,
+         6.8061e-06,  3.9814e-07, -6.9849e-08,  2.3143e-07,  1.4529e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 222, time 220.28, cls_loss 0.0010 cls_loss_mapping 0.0021 cls_loss_causal 0.5020 re_mapping 0.0044 re_causal 0.0127 /// teacc 99.07 lr 0.00010000
+Epoch 224, weight, value: tensor([[-0.1912, -0.1973,  0.0963,  ..., -0.1079,  0.0471,  0.0348],
+        [-0.1176, -0.0459, -0.0802,  ..., -0.1662, -0.0936, -0.0308],
+        [ 0.0215, -0.1160, -0.1305,  ..., -0.1123,  0.0299, -0.3281],
+        ...,
+        [-0.1856,  0.1387,  0.0098,  ...,  0.1585, -0.0438, -0.1282],
+        [-0.1361, -0.1234,  0.1474,  ..., -0.1144, -0.1495,  0.1412],
+        [ 0.0157, -0.2563,  0.1335,  ...,  0.0618, -0.1899, -0.1073]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  1.3970e-09, -1.1176e-08,  ...,  1.3970e-09,
+          0.0000e+00,  9.7789e-09],
+        [ 1.3970e-09,  8.3353e-08, -2.3982e-07,  ...,  7.9162e-08,
+          1.9558e-08, -6.8732e-07],
+        [ 9.3132e-10,  1.6764e-08,  6.9849e-09,  ...,  1.4435e-08,
+          4.1910e-09,  1.0710e-08],
+        ...,
+        [ 6.9849e-09, -8.9873e-08,  8.6613e-08,  ..., -1.0105e-07,
+         -3.3062e-08,  2.6356e-07],
+        [ 1.3970e-09,  9.4064e-08,  1.6717e-07,  ...,  2.3283e-09,
+          4.6566e-10,  3.7299e-07],
+        [ 1.8626e-08,  2.1420e-08, -1.1176e-08,  ...,  3.5856e-08,
+          9.3132e-10,  3.3528e-08]], device='cuda:0')
+Epoch 224, bias, value: tensor([-0.0193, -0.0236, -0.0266, -0.0309, -0.0047,  0.0067,  0.0110, -0.0141,
+        -0.0017, -0.0023], device='cuda:0'), grad: tensor([ 5.7230e-07, -3.2596e-09, -4.5486e-06,  1.7555e-07, -1.6391e-07,
+        -6.1467e-08,  7.9162e-08,  1.5236e-06,  1.4007e-06,  1.0021e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 223, time 220.42, cls_loss 0.0010 cls_loss_mapping 0.0017 cls_loss_causal 0.5024 re_mapping 0.0043 re_causal 0.0121 /// teacc 99.11 lr 0.00010000
+Epoch 225, weight, value: tensor([[-0.1917, -0.1984,  0.0965,  ..., -0.1080,  0.0471,  0.0349],
+        [-0.1173, -0.0461, -0.0804,  ..., -0.1672, -0.0938, -0.0306],
+        [ 0.0214, -0.1163, -0.1314,  ..., -0.1125,  0.0301, -0.3287],
+        ...,
+        [-0.1863,  0.1389,  0.0099,  ...,  0.1592, -0.0433, -0.1285],
+        [-0.1364, -0.1241,  0.1482,  ..., -0.1141, -0.1496,  0.1417],
+        [ 0.0159, -0.2570,  0.1340,  ...,  0.0620, -0.1902, -0.1075]],
+       device='cuda:0'), grad: tensor([[ 6.9849e-09,  1.3970e-09, -3.1665e-07,  ...,  1.5832e-08,
+         -4.6566e-10, -3.7532e-07],
+        [ 4.6566e-10,  2.5611e-08,  1.7229e-08,  ...,  4.7032e-08,
+          0.0000e+00, -3.9116e-07],
+        [ 0.0000e+00,  3.3062e-08,  2.4214e-08,  ...,  3.9116e-08,
+          0.0000e+00,  2.3283e-08],
+        ...,
+        [ 4.1910e-09, -2.0210e-07, -5.7276e-08,  ..., -1.9837e-07,
+          0.0000e+00,  2.1048e-07],
+        [ 8.8476e-09,  1.4901e-08,  2.1746e-07,  ...,  1.3970e-08,
+          0.0000e+00,  2.8266e-07],
+        [-2.3749e-08,  1.1222e-07,  2.9802e-08,  ...,  3.5912e-06,
+          0.0000e+00,  1.8161e-08]], device='cuda:0')
+Epoch 225, bias, value: tensor([-0.0193, -0.0236, -0.0266, -0.0307, -0.0049,  0.0066,  0.0107, -0.0141,
+        -0.0014, -0.0022], device='cuda:0'), grad: tensor([-9.6485e-07, -4.3213e-06,  2.5099e-07,  5.5879e-08, -5.9456e-06,
+        -1.2247e-06,  1.5851e-06,  2.0452e-06,  8.0932e-07,  7.6815e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 224, time 221.00, cls_loss 0.0011 cls_loss_mapping 0.0023 cls_loss_causal 0.4924 re_mapping 0.0043 re_causal 0.0122 /// teacc 99.05 lr 0.00010000
+Epoch 226, weight, value: tensor([[-0.1923, -0.1990,  0.0968,  ..., -0.1081,  0.0470,  0.0352],
+        [-0.1180, -0.0464, -0.0805,  ..., -0.1694, -0.0939, -0.0297],
+        [ 0.0220, -0.1170, -0.1319,  ..., -0.1133,  0.0302, -0.3297],
+        ...,
+        [-0.1868,  0.1394,  0.0100,  ...,  0.1608, -0.0435, -0.1291],
+        [-0.1366, -0.1246,  0.1483,  ..., -0.1146, -0.1496,  0.1418],
+        [ 0.0161, -0.2576,  0.1342,  ...,  0.0620, -0.1904, -0.1077]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-09,  0.0000e+00, -4.1910e-09,  ...,  2.7940e-09,
+          4.6566e-10, -7.9162e-09],
+        [ 3.2596e-09,  1.8626e-09,  1.9558e-08,  ...,  1.3039e-08,
+          1.3970e-09, -2.0023e-08],
+        [ 0.0000e+00,  4.6566e-10,  3.3528e-08,  ...,  0.0000e+00,
+         -4.0513e-08,  1.9185e-07],
+        ...,
+        [ 5.5879e-09,  1.8626e-09,  2.7008e-08,  ...,  1.8161e-08,
+          3.8184e-08,  2.1886e-08],
+        [ 5.1223e-09,  4.6566e-10, -3.3993e-08,  ...,  5.1223e-09,
+          9.3132e-10, -2.3050e-07],
+        [-9.7789e-09,  4.6566e-10, -1.0477e-07,  ..., -6.9849e-08,
+          0.0000e+00,  8.8476e-09]], device='cuda:0')
+Epoch 226, bias, value: tensor([-0.0192, -0.0237, -0.0259, -0.0309, -0.0051,  0.0068,  0.0106, -0.0140,
+        -0.0018, -0.0022], device='cuda:0'), grad: tensor([ 2.6543e-08, -5.5879e-09, -1.8347e-06,  2.4959e-07,  3.2596e-09,
+        -4.2841e-08,  1.7509e-07,  3.8743e-07,  1.2610e-06, -1.9977e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 225, time 220.00, cls_loss 0.0012 cls_loss_mapping 0.0028 cls_loss_causal 0.5211 re_mapping 0.0040 re_causal 0.0119 /// teacc 99.01 lr 0.00010000
+Epoch 227, weight, value: tensor([[-0.1925, -0.1997,  0.0971,  ..., -0.1085,  0.0466,  0.0357],
+        [-0.1185, -0.0465, -0.0807,  ..., -0.1701, -0.0940, -0.0301],
+        [ 0.0216, -0.1178, -0.1325,  ..., -0.1140,  0.0312, -0.3312],
+        ...,
+        [-0.1874,  0.1396,  0.0101,  ...,  0.1616, -0.0464, -0.1295],
+        [-0.1368, -0.1262,  0.1485,  ..., -0.1148, -0.1497,  0.1415],
+        [ 0.0172, -0.2584,  0.1348,  ...,  0.0623, -0.1906, -0.1081]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  1.9558e-08,  6.7567e-07,  ...,  1.0245e-08,
+          0.0000e+00,  8.2981e-07],
+        [ 1.3970e-09,  8.7544e-08,  3.3993e-08,  ...,  6.5193e-09,
+          0.0000e+00, -3.1665e-08],
+        [ 0.0000e+00,  4.2375e-08,  1.0245e-07,  ...,  9.3132e-10,
+          0.0000e+00,  1.2387e-07],
+        ...,
+        [ 9.3132e-10,  4.0047e-08,  9.7789e-09,  ..., -3.7253e-09,
+          0.0000e+00,  1.8626e-08],
+        [ 2.3283e-09,  7.0315e-08, -1.0170e-06,  ...,  4.6566e-10,
+          0.0000e+00, -1.2685e-06],
+        [-1.9558e-08,  2.0489e-08,  1.4994e-07,  ..., -5.8208e-08,
+          0.0000e+00,  2.8871e-07]], device='cuda:0')
+Epoch 227, bias, value: tensor([-0.0190, -0.0239, -0.0259, -0.0301, -0.0055,  0.0065,  0.0102, -0.0139,
+        -0.0023, -0.0019], device='cuda:0'), grad: tensor([ 1.5870e-06,  1.2526e-07, -2.0210e-07, -6.1281e-07,  1.7229e-07,
+         1.0477e-07, -7.1712e-08,  1.4622e-07, -1.6391e-06,  3.8836e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 226, time 220.54, cls_loss 0.0011 cls_loss_mapping 0.0024 cls_loss_causal 0.5220 re_mapping 0.0042 re_causal 0.0125 /// teacc 99.06 lr 0.00010000
+Epoch 228, weight, value: tensor([[-0.1926, -0.2009,  0.0977,  ..., -0.1087,  0.0465,  0.0361],
+        [-0.1191, -0.0456, -0.0798,  ..., -0.1719, -0.0944, -0.0294],
+        [ 0.0217, -0.1183, -0.1314,  ..., -0.1147,  0.0312, -0.3316],
+        ...,
+        [-0.1893,  0.1390,  0.0094,  ...,  0.1631, -0.0452, -0.1288],
+        [-0.1373, -0.1278,  0.1476,  ..., -0.1176, -0.1499,  0.1410],
+        [ 0.0170, -0.2592,  0.1349,  ...,  0.0622, -0.1907, -0.1093]],
+       device='cuda:0'), grad: tensor([[ 6.0536e-09,  1.7229e-08,  3.7253e-09,  ...,  1.3504e-08,
+          0.0000e+00,  1.2107e-08],
+        [ 9.3132e-10,  1.6205e-07,  3.7719e-08,  ...,  1.3271e-07,
+          0.0000e+00, -2.0955e-08],
+        [ 0.0000e+00,  1.0896e-07,  1.3970e-08,  ...,  1.0105e-07,
+          0.0000e+00,  9.3132e-09],
+        ...,
+        [ 1.8626e-09, -3.7206e-07, -5.7742e-08,  ..., -3.3481e-07,
+          0.0000e+00,  2.0489e-08],
+        [ 6.0536e-09,  1.0245e-07,  1.7695e-08,  ...,  4.1444e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  1.2806e-07, -3.6787e-08,  ..., -4.6566e-09,
+          0.0000e+00,  5.1223e-09]], device='cuda:0')
+Epoch 228, bias, value: tensor([-0.0186, -0.0229, -0.0257, -0.0302, -0.0054,  0.0068,  0.0100, -0.0148,
+        -0.0034, -0.0021], device='cuda:0'), grad: tensor([ 1.0477e-07,  3.1153e-07,  8.9873e-08, -4.9919e-07,  6.4727e-08,
+         2.2445e-07, -7.6368e-08, -6.4494e-07,  2.6962e-07,  1.6578e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 227, time 220.18, cls_loss 0.0013 cls_loss_mapping 0.0024 cls_loss_causal 0.5015 re_mapping 0.0043 re_causal 0.0122 /// teacc 99.09 lr 0.00010000
+Epoch 229, weight, value: tensor([[-0.1927, -0.2022,  0.0979,  ..., -0.1089,  0.0465,  0.0333],
+        [-0.1196, -0.0465, -0.0816,  ..., -0.1729, -0.0944, -0.0313],
+        [ 0.0219, -0.1198, -0.1332,  ..., -0.1154,  0.0313, -0.3320],
+        ...,
+        [-0.1899,  0.1400,  0.0110,  ...,  0.1638, -0.0454, -0.1272],
+        [-0.1379, -0.1288,  0.1475,  ..., -0.1186, -0.1499,  0.1408],
+        [ 0.0171, -0.2599,  0.1352,  ...,  0.0623, -0.1909, -0.1095]],
+       device='cuda:0'), grad: tensor([[ 1.8161e-08,  9.3132e-10, -4.3958e-07,  ...,  9.3132e-10,
+          4.6566e-10, -4.0838e-07],
+        [ 7.9162e-09,  6.0536e-09,  6.0536e-09,  ...,  5.1223e-09,
+          4.6566e-10, -5.5879e-08],
+        [ 4.6566e-09,  1.3970e-09,  3.4319e-07,  ...,  4.6566e-10,
+         -5.4482e-08,  3.2783e-07],
+        ...,
+        [ 1.5367e-08,  4.6566e-10,  2.9337e-08,  ...,  1.6764e-08,
+          4.6566e-10,  4.4238e-08],
+        [ 7.1712e-08,  4.1910e-09,  2.0023e-08,  ...,  8.3819e-09,
+          0.0000e+00,  8.0094e-08],
+        [ 2.5099e-07,  2.3283e-09,  5.1223e-09,  ..., -2.2352e-08,
+          0.0000e+00,  2.6217e-07]], device='cuda:0')
+Epoch 229, bias, value: tensor([-0.0206, -0.0238, -0.0251, -0.0297, -0.0053,  0.0061,  0.0130, -0.0143,
+        -0.0045, -0.0021], device='cuda:0'), grad: tensor([-1.7285e-06, -1.4389e-07, -2.3236e-07,  8.2422e-08,  1.5693e-06,
+        -1.6363e-06,  1.0338e-06,  2.1979e-07,  2.3749e-07,  5.9837e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 228----------------------------------------------------
+epoch 228, time 220.68, cls_loss 0.0010 cls_loss_mapping 0.0015 cls_loss_causal 0.4948 re_mapping 0.0046 re_causal 0.0124 /// teacc 99.16 lr 0.00010000
+Epoch 230, weight, value: tensor([[-0.1932, -0.2027,  0.0976,  ..., -0.1092,  0.0464,  0.0334],
+        [-0.1200, -0.0466, -0.0817,  ..., -0.1735, -0.0943, -0.0315],
+        [ 0.0216, -0.1197, -0.1337,  ..., -0.1151,  0.0313, -0.3324],
+        ...,
+        [-0.1949,  0.1400,  0.0110,  ...,  0.1636, -0.0455, -0.1277],
+        [-0.1389, -0.1294,  0.1478,  ..., -0.1194, -0.1500,  0.1406],
+        [ 0.0170, -0.2606,  0.1358,  ...,  0.0625, -0.1910, -0.1102]],
+       device='cuda:0'), grad: tensor([[ 1.0245e-08, -1.0245e-08, -9.7323e-08,  ...,  3.7253e-09,
+          0.0000e+00, -5.2107e-07],
+        [ 5.1223e-09,  6.0536e-09,  4.6566e-09,  ...,  9.3132e-09,
+          0.0000e+00,  1.0245e-08],
+        [ 4.6566e-10,  7.9162e-09,  2.3283e-08,  ...,  8.8476e-09,
+          0.0000e+00,  2.7008e-08],
+        ...,
+        [ 5.5879e-09, -7.9162e-09,  8.8476e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.4901e-08],
+        [ 7.9162e-09,  7.5903e-08,  7.9162e-09,  ...,  2.7474e-08,
+          0.0000e+00,  3.7253e-09],
+        [ 2.2817e-08,  1.3039e-08, -7.7300e-08,  ..., -5.4482e-08,
+          0.0000e+00,  3.2596e-08]], device='cuda:0')
+Epoch 230, bias, value: tensor([-0.0207, -0.0238, -0.0248, -0.0299, -0.0052,  0.0066,  0.0129, -0.0146,
+        -0.0049, -0.0020], device='cuda:0'), grad: tensor([-6.0117e-07,  6.6590e-08,  1.0896e-07,  3.7253e-08,  3.5763e-07,
+        -3.3854e-07,  7.9628e-08,  5.8673e-08,  2.1653e-07,  1.4435e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 229, time 220.43, cls_loss 0.0010 cls_loss_mapping 0.0021 cls_loss_causal 0.5204 re_mapping 0.0043 re_causal 0.0126 /// teacc 99.15 lr 0.00010000
+Epoch 231, weight, value: tensor([[-0.1931, -0.2032,  0.0983,  ..., -0.1090,  0.0464,  0.0343],
+        [-0.1194, -0.0467, -0.0819,  ..., -0.1745, -0.0944, -0.0312],
+        [ 0.0220, -0.1202, -0.1344,  ..., -0.1157,  0.0313, -0.3330],
+        ...,
+        [-0.1955,  0.1404,  0.0114,  ...,  0.1646, -0.0456, -0.1277],
+        [-0.1395, -0.1298,  0.1476,  ..., -0.1201, -0.1500,  0.1409],
+        [ 0.0168, -0.2612,  0.1358,  ...,  0.0624, -0.1914, -0.1108]],
+       device='cuda:0'), grad: tensor([[ 2.1886e-08,  7.5903e-08,  7.9162e-09,  ...,  4.1910e-09,
+          0.0000e+00,  2.8405e-08],
+        [ 3.4785e-07,  8.3819e-08,  2.9802e-08,  ...,  1.1642e-08,
+          0.0000e+00,  5.4576e-07],
+        [-1.1176e-08,  8.8010e-08,  5.2154e-08,  ...,  4.6566e-09,
+          0.0000e+00,  3.6787e-08],
+        ...,
+        [ 7.2177e-08,  1.1688e-07,  1.9558e-08,  ..., -1.5367e-08,
+          0.0000e+00,  7.0315e-08],
+        [ 1.2871e-06,  1.0384e-07, -1.1269e-07,  ...,  1.1642e-08,
+          0.0000e+00,  1.8924e-06],
+        [ 7.2224e-07,  4.9779e-07,  7.9162e-09,  ..., -1.2387e-07,
+          0.0000e+00,  6.4448e-07]], device='cuda:0')
+Epoch 231, bias, value: tensor([-0.0197, -0.0238, -0.0249, -0.0300, -0.0052,  0.0066,  0.0124, -0.0144,
+        -0.0050, -0.0021], device='cuda:0'), grad: tensor([ 3.6508e-07,  1.3243e-06, -3.7253e-09, -3.6154e-06,  7.4925e-07,
+        -7.8157e-06,  8.8057e-07,  6.7055e-07,  3.7700e-06,  3.6787e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 230, time 220.56, cls_loss 0.0008 cls_loss_mapping 0.0018 cls_loss_causal 0.4989 re_mapping 0.0044 re_causal 0.0124 /// teacc 99.14 lr 0.00010000
+Epoch 232, weight, value: tensor([[-0.1931, -0.2033,  0.0989,  ..., -0.1088,  0.0462,  0.0341],
+        [-0.1198, -0.0469, -0.0822,  ..., -0.1753, -0.0940, -0.0315],
+        [ 0.0220, -0.1201, -0.1351,  ..., -0.1156,  0.0316, -0.3335],
+        ...,
+        [-0.1961,  0.1408,  0.0116,  ...,  0.1650, -0.0460, -0.1277],
+        [-0.1398, -0.1300,  0.1478,  ..., -0.1202, -0.1502,  0.1410],
+        [ 0.0168, -0.2619,  0.1362,  ...,  0.0625, -0.1921, -0.1111]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-09,  1.6298e-09, -4.1910e-08,  ...,  1.6298e-09,
+          0.0000e+00, -1.1642e-08],
+        [ 1.1409e-08,  8.6147e-09,  3.7253e-09,  ...,  6.7521e-09,
+         -1.1642e-09,  1.4668e-08],
+        [ 2.3283e-10,  1.7928e-08,  3.9581e-09,  ..., -1.4901e-08,
+          2.3283e-10,  3.4925e-09],
+        ...,
+        [ 1.1642e-09,  2.1886e-08,  4.6566e-10,  ...,  2.3283e-09,
+          4.6566e-10,  4.4238e-09],
+        [ 1.2573e-08,  6.9849e-10, -6.0536e-09,  ...,  3.4925e-09,
+          0.0000e+00, -4.6566e-10],
+        [ 1.8626e-09,  4.6566e-09,  1.9092e-08,  ...,  6.9849e-09,
+          4.6566e-10,  1.0943e-08]], device='cuda:0')
+Epoch 232, bias, value: tensor([-0.0196, -0.0239, -0.0247, -0.0301, -0.0053,  0.0067,  0.0127, -0.0144,
+        -0.0051, -0.0021], device='cuda:0'), grad: tensor([-4.1444e-08,  1.3504e-07, -7.3388e-07,  2.7241e-08,  7.3109e-08,
+        -5.9372e-08,  7.7998e-08,  3.3388e-07,  7.9861e-08,  1.2270e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 231, time 220.56, cls_loss 0.0011 cls_loss_mapping 0.0021 cls_loss_causal 0.4844 re_mapping 0.0043 re_causal 0.0120 /// teacc 99.11 lr 0.00010000
+Epoch 233, weight, value: tensor([[-0.1924, -0.2036,  0.1000,  ..., -0.1088,  0.0476,  0.0344],
+        [-0.1206, -0.0482, -0.0837,  ..., -0.1783, -0.0949, -0.0324],
+        [ 0.0224, -0.1201, -0.1363,  ..., -0.1158,  0.0317, -0.3346],
+        ...,
+        [-0.1964,  0.1423,  0.0133,  ...,  0.1679, -0.0463, -0.1265],
+        [-0.1403, -0.1302,  0.1478,  ..., -0.1205, -0.1502,  0.1409],
+        [ 0.0168, -0.2631,  0.1361,  ...,  0.0625, -0.1949, -0.1116]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  2.7940e-09, -2.3283e-09,  ...,  2.7940e-09,
+          4.6566e-10,  2.3283e-10],
+        [ 2.3283e-10,  1.0710e-08,  2.0955e-09,  ...,  3.2363e-08,
+          8.6147e-09, -1.4668e-08],
+        [ 0.0000e+00,  2.4913e-08,  6.7521e-09,  ...,  1.3737e-08,
+          0.0000e+00,  2.5611e-09],
+        ...,
+        [ 1.3970e-09, -6.9151e-08, -1.3039e-08,  ..., -2.6543e-08,
+          5.5879e-09,  4.1910e-09],
+        [ 3.7253e-09,  2.3283e-09,  2.0955e-09,  ...,  7.2876e-08,
+          2.2817e-08,  6.9849e-09],
+        [-4.6566e-10,  7.2177e-09, -4.8894e-09,  ...,  2.0722e-08,
+          6.0536e-09,  4.1910e-09]], device='cuda:0')
+Epoch 233, bias, value: tensor([-0.0188, -0.0249, -0.0245, -0.0306, -0.0049,  0.0067,  0.0124, -0.0134,
+        -0.0055, -0.0022], device='cuda:0'), grad: tensor([ 2.2119e-08,  1.6484e-07,  4.5169e-08,  2.5146e-08, -1.1446e-06,
+         2.6776e-08, -1.1409e-08,  6.3330e-08,  6.2678e-07,  1.7812e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 232, time 220.37, cls_loss 0.0010 cls_loss_mapping 0.0028 cls_loss_causal 0.5050 re_mapping 0.0043 re_causal 0.0121 /// teacc 99.09 lr 0.00010000
+Epoch 234, weight, value: tensor([[-0.1919, -0.2045,  0.1010,  ..., -0.1089,  0.0474,  0.0344],
+        [-0.1208, -0.0485, -0.0840,  ..., -0.1788, -0.0931, -0.0315],
+        [ 0.0225, -0.1203, -0.1370,  ..., -0.1159,  0.0314, -0.3357],
+        ...,
+        [-0.1967,  0.1426,  0.0134,  ...,  0.1682, -0.0467, -0.1265],
+        [-0.1411, -0.1307,  0.1477,  ..., -0.1207, -0.1502,  0.1406],
+        [ 0.0168, -0.2636,  0.1364,  ...,  0.0625, -0.1951, -0.1122]],
+       device='cuda:0'), grad: tensor([[ 3.0268e-09,  2.2352e-08,  2.3283e-10,  ...,  1.7928e-08,
+          0.0000e+00, -3.7253e-09],
+        [ 6.7521e-09,  9.9884e-08,  3.2829e-08,  ...,  7.2410e-08,
+          0.0000e+00,  0.0000e+00],
+        [-4.6566e-10,  7.3388e-07,  6.7521e-09,  ...,  1.0477e-08,
+          0.0000e+00,  6.7521e-09],
+        ...,
+        [ 6.9849e-09,  7.1479e-08,  7.6834e-09,  ...,  7.2177e-08,
+          0.0000e+00,  3.7253e-09],
+        [ 2.0023e-08,  4.4238e-08,  7.2177e-09,  ...,  3.0268e-08,
+          0.0000e+00,  1.1176e-08],
+        [-6.8452e-08,  3.3528e-08, -2.3353e-07,  ...,  2.8890e-06,
+          0.0000e+00,  4.6566e-09]], device='cuda:0')
+Epoch 234, bias, value: tensor([-0.0182, -0.0249, -0.0239, -0.0307, -0.0048,  0.0063,  0.0130, -0.0135,
+        -0.0063, -0.0024], device='cuda:0'), grad: tensor([ 1.3807e-07,  8.2236e-07,  1.7807e-06, -5.8599e-06, -1.1623e-05,
+         2.2389e-06,  7.7998e-07,  6.9616e-07,  2.7148e-07,  1.0736e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 233, time 220.09, cls_loss 0.0010 cls_loss_mapping 0.0022 cls_loss_causal 0.4984 re_mapping 0.0043 re_causal 0.0123 /// teacc 99.02 lr 0.00010000
+Epoch 235, weight, value: tensor([[-0.1921, -0.2056,  0.1019,  ..., -0.1090,  0.0474,  0.0345],
+        [-0.1214, -0.0486, -0.0842,  ..., -0.1790, -0.0929, -0.0316],
+        [ 0.0221, -0.1206, -0.1378,  ..., -0.1162,  0.0314, -0.3362],
+        ...,
+        [-0.1981,  0.1427,  0.0134,  ...,  0.1684, -0.0469, -0.1266],
+        [-0.1415, -0.1310,  0.1482,  ..., -0.1210, -0.1503,  0.1409],
+        [ 0.0168, -0.2639,  0.1365,  ...,  0.0625, -0.1953, -0.1134]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  3.9581e-09,  1.6531e-08,  ...,  2.3283e-10,
+          0.0000e+00, -5.7742e-08],
+        [ 1.6298e-09,  2.8173e-08,  9.0804e-09,  ...,  1.2573e-08,
+          0.0000e+00, -6.2864e-09],
+        [ 1.3970e-09,  1.6065e-08, -8.6240e-07,  ...,  1.6298e-09,
+         -4.6566e-10,  6.0536e-09],
+        ...,
+        [ 2.2585e-08,  1.7975e-07,  1.5600e-08,  ..., -1.1409e-08,
+          4.6566e-10,  4.4238e-09],
+        [ 4.4238e-09,  2.7474e-08, -5.1316e-07,  ...,  1.3970e-09,
+          0.0000e+00, -3.1702e-06],
+        [-3.4925e-09,  3.7253e-09, -7.6834e-09,  ..., -8.6147e-09,
+          0.0000e+00,  4.4238e-09]], device='cuda:0')
+Epoch 235, bias, value: tensor([-0.0179, -0.0240, -0.0254, -0.0305, -0.0047,  0.0062,  0.0131, -0.0135,
+        -0.0063, -0.0027], device='cuda:0'), grad: tensor([ 1.4598e-07, -7.7765e-08, -4.4778e-06, -2.7497e-07,  3.7951e-08,
+         3.2689e-07,  6.7204e-06,  4.3376e-07, -2.8424e-06,  1.1409e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 234, time 220.59, cls_loss 0.0009 cls_loss_mapping 0.0025 cls_loss_causal 0.4984 re_mapping 0.0044 re_causal 0.0123 /// teacc 98.97 lr 0.00010000
+Epoch 236, weight, value: tensor([[-0.1922, -0.2063,  0.1023,  ..., -0.1091,  0.0474,  0.0346],
+        [-0.1225, -0.0487, -0.0844,  ..., -0.1793, -0.0929, -0.0318],
+        [ 0.0222, -0.1216, -0.1403,  ..., -0.1183,  0.0314, -0.3365],
+        ...,
+        [-0.1988,  0.1431,  0.0137,  ...,  0.1692, -0.0468, -0.1269],
+        [-0.1418, -0.1312,  0.1488,  ..., -0.1213, -0.1503,  0.1412],
+        [ 0.0169, -0.2657,  0.1367,  ...,  0.0622, -0.1954, -0.1137]],
+       device='cuda:0'), grad: tensor([[ 3.2596e-09,  1.1642e-09,  2.0722e-08,  ...,  3.6089e-08,
+          0.0000e+00,  1.2224e-07],
+        [ 2.3586e-07,  4.1910e-09,  1.5879e-06,  ...,  3.4925e-09,
+          0.0000e+00,  2.3060e-06],
+        [ 3.9581e-09,  5.8208e-09,  2.9104e-08,  ...,  2.7940e-09,
+          0.0000e+00,  4.0280e-08],
+        ...,
+        [ 1.7928e-08, -8.3819e-09,  1.1618e-07,  ..., -1.3039e-08,
+          0.0000e+00,  1.7509e-07],
+        [-2.2165e-07,  4.6566e-10, -2.2929e-06,  ...,  9.3132e-10,
+          0.0000e+00, -3.1907e-06],
+        [ 2.7940e-08,  5.1223e-09,  1.9325e-07,  ...,  5.3551e-09,
+          0.0000e+00,  2.8475e-07]], device='cuda:0')
+Epoch 236, bias, value: tensor([-0.0177, -0.0235, -0.0266, -0.0304, -0.0048,  0.0064,  0.0123, -0.0132,
+        -0.0061, -0.0027], device='cuda:0'), grad: tensor([ 7.2923e-07,  2.5257e-06,  1.0040e-06,  2.5821e-07,  2.1677e-07,
+         1.8114e-07, -3.6368e-07,  2.4606e-06, -7.6964e-06,  7.0035e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 235, time 220.87, cls_loss 0.0010 cls_loss_mapping 0.0026 cls_loss_causal 0.5046 re_mapping 0.0041 re_causal 0.0119 /// teacc 99.02 lr 0.00010000
+Epoch 237, weight, value: tensor([[-0.1925, -0.2072,  0.1041,  ..., -0.1092,  0.0476,  0.0347],
+        [-0.1229, -0.0492, -0.0846,  ..., -0.1801, -0.0929, -0.0321],
+        [ 0.0226, -0.1226, -0.1426,  ..., -0.1204,  0.0315, -0.3369],
+        ...,
+        [-0.1994,  0.1439,  0.0140,  ...,  0.1705, -0.0464, -0.1270],
+        [-0.1433, -0.1316,  0.1497,  ..., -0.1218, -0.1503,  0.1412],
+        [ 0.0169, -0.2675,  0.1363,  ...,  0.0621, -0.1955, -0.1140]],
+       device='cuda:0'), grad: tensor([[ 5.3551e-09,  2.8638e-08,  8.6147e-09,  ...,  2.1886e-08,
+          0.0000e+00,  1.2107e-08],
+        [ 4.1910e-09,  1.8794e-06,  1.7928e-08,  ...,  1.3029e-06,
+          0.0000e+00,  5.6112e-08],
+        [ 6.9849e-10,  2.1979e-06,  1.8626e-09,  ...,  1.5162e-06,
+          0.0000e+00,  3.7253e-09],
+        ...,
+        [ 1.6065e-08, -4.5858e-06,  5.2853e-08,  ..., -3.1460e-06,
+          0.0000e+00,  6.2864e-09],
+        [ 8.6846e-08,  1.8626e-08,  1.5274e-07,  ...,  1.1013e-07,
+          0.0000e+00,  6.2631e-08],
+        [-6.6124e-08,  8.6846e-08, -3.5646e-07,  ..., -1.6182e-07,
+          0.0000e+00,  1.1176e-08]], device='cuda:0')
+Epoch 237, bias, value: tensor([-0.0168, -0.0240, -0.0267, -0.0297, -0.0048,  0.0058,  0.0123, -0.0126,
+        -0.0062, -0.0031], device='cuda:0'), grad: tensor([ 2.5355e-07,  6.1989e-06,  4.6752e-06,  6.8359e-07,  5.3179e-07,
+        -1.7579e-07, -3.4403e-06, -9.3207e-06,  1.1427e-06, -5.3737e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 236, time 220.48, cls_loss 0.0011 cls_loss_mapping 0.0020 cls_loss_causal 0.4970 re_mapping 0.0040 re_causal 0.0115 /// teacc 99.16 lr 0.00010000
+Epoch 238, weight, value: tensor([[-0.1926, -0.2083,  0.1044,  ..., -0.1095,  0.0475,  0.0350],
+        [-0.1236, -0.0494, -0.0849,  ..., -0.1807, -0.0901, -0.0322],
+        [ 0.0223, -0.1229, -0.1432,  ..., -0.1207,  0.0304, -0.3375],
+        ...,
+        [-0.1997,  0.1443,  0.0143,  ...,  0.1712, -0.0471, -0.1272],
+        [-0.1475, -0.1320,  0.1501,  ..., -0.1222, -0.1503,  0.1400],
+        [ 0.0172, -0.2683,  0.1368,  ...,  0.0620, -0.1960, -0.1144]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  2.3982e-08,  8.3819e-09,  ...,  1.6531e-08,
+          0.0000e+00,  7.6834e-09],
+        [ 4.6566e-10,  4.0699e-07,  1.3807e-07,  ...,  4.0024e-07,
+          2.3283e-10,  5.5879e-09],
+        [ 2.3283e-10,  2.4494e-07,  2.4214e-08,  ...,  5.5647e-08,
+         -9.3132e-10,  1.1176e-08],
+        ...,
+        [ 2.3283e-10, -6.5379e-07, -3.0245e-07,  ..., -9.7416e-07,
+          4.6566e-10,  3.2596e-09],
+        [ 0.0000e+00,  1.3853e-07, -4.0745e-08,  ...,  1.1409e-08,
+          2.3283e-10, -6.1933e-08],
+        [ 2.3283e-10,  2.0186e-07,  6.7521e-08,  ...,  2.6426e-07,
+          0.0000e+00,  6.9849e-10]], device='cuda:0')
+Epoch 238, bias, value: tensor([-0.0163, -0.0240, -0.0268, -0.0304, -0.0048,  0.0075,  0.0118, -0.0125,
+        -0.0084, -0.0032], device='cuda:0'), grad: tensor([ 1.0594e-07,  1.1530e-06,  6.2585e-07, -2.1681e-06,  3.2014e-07,
+         9.9838e-07,  1.5879e-07, -2.2072e-06,  1.1805e-07,  9.0245e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 237, time 220.48, cls_loss 0.0009 cls_loss_mapping 0.0026 cls_loss_causal 0.5089 re_mapping 0.0041 re_causal 0.0120 /// teacc 98.99 lr 0.00010000
+Epoch 239, weight, value: tensor([[-0.1917, -0.2098,  0.1051,  ..., -0.1100,  0.0477,  0.0363],
+        [-0.1239, -0.0495, -0.0850,  ..., -0.1808, -0.0901, -0.0325],
+        [ 0.0254, -0.1232, -0.1436,  ..., -0.1204,  0.0306, -0.3379],
+        ...,
+        [-0.2002,  0.1444,  0.0143,  ...,  0.1715, -0.0473, -0.1275],
+        [-0.1477, -0.1329,  0.1510,  ..., -0.1226, -0.1503,  0.1410],
+        [ 0.0157, -0.2698,  0.1373,  ...,  0.0620, -0.1960, -0.1147]],
+       device='cuda:0'), grad: tensor([[ 3.2596e-09,  6.9849e-09, -9.9419e-08,  ...,  1.5832e-08,
+         -1.0477e-07, -9.5228e-08],
+        [ 3.9581e-09,  2.8638e-08,  7.9162e-09,  ...,  1.6205e-07,
+          6.9849e-09,  1.7462e-08],
+        [ 2.3283e-10,  7.2410e-08,  4.7497e-08,  ...,  7.2177e-09,
+          4.9826e-08,  5.6345e-08],
+        ...,
+        [ 2.3283e-09,  7.0781e-08,  4.8894e-09,  ...,  3.4692e-08,
+          2.0955e-09,  4.6566e-09],
+        [ 5.0990e-08,  3.4925e-09,  3.2596e-09,  ...,  2.1118e-07,
+          3.2596e-09,  2.7381e-07],
+        [ 8.6147e-09,  1.0012e-08,  4.6566e-10,  ...,  5.6252e-07,
+          2.2817e-08,  2.8173e-08]], device='cuda:0')
+Epoch 239, bias, value: tensor([-0.0150, -0.0240, -0.0261, -0.0302, -0.0048,  0.0072,  0.0109, -0.0125,
+        -0.0079, -0.0040], device='cuda:0'), grad: tensor([-5.5879e-07,  1.0636e-06,  5.2433e-07, -3.3830e-07, -5.6922e-06,
+         1.8328e-05, -1.8597e-05,  4.0140e-07,  1.6149e-06,  3.2485e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 238, time 220.56, cls_loss 0.0011 cls_loss_mapping 0.0021 cls_loss_causal 0.5179 re_mapping 0.0041 re_causal 0.0117 /// teacc 99.05 lr 0.00010000
+Epoch 240, weight, value: tensor([[-0.1919, -0.2102,  0.1055,  ..., -0.1101,  0.0479,  0.0364],
+        [-0.1243, -0.0495, -0.0851,  ..., -0.1811, -0.0903, -0.0332],
+        [ 0.0253, -0.1238, -0.1459,  ..., -0.1208,  0.0313, -0.3415],
+        ...,
+        [-0.2011,  0.1445,  0.0143,  ...,  0.1718, -0.0477, -0.1284],
+        [-0.1486, -0.1332,  0.1542,  ..., -0.1232, -0.1508,  0.1426],
+        [ 0.0158, -0.2707,  0.1375,  ...,  0.0617, -0.1964, -0.1153]],
+       device='cuda:0'), grad: tensor([[ 8.6147e-09,  3.7253e-09,  1.0361e-07,  ...,  5.8208e-08,
+          6.5193e-09,  2.2585e-08],
+        [ 1.5134e-08,  1.9558e-08,  3.2596e-08,  ...,  4.8894e-08,
+          1.1642e-09, -9.5461e-09],
+        [ 2.5611e-09,  1.0012e-08,  1.2573e-08,  ...,  1.2107e-08,
+         -1.5832e-08,  4.8894e-09],
+        ...,
+        [ 2.7008e-08,  8.8476e-09,  1.5018e-07,  ...,  1.1642e-07,
+          2.3283e-09,  2.7707e-08],
+        [ 5.1921e-08,  1.6298e-09,  1.0924e-06,  ...,  5.1968e-07,
+          2.3283e-09,  1.9697e-07],
+        [ 1.1642e-07,  1.2573e-08, -3.6657e-06,  ..., -1.1167e-06,
+          6.9849e-10, -6.3796e-07]], device='cuda:0')
+Epoch 240, bias, value: tensor([-0.0148, -0.0241, -0.0262, -0.0300, -0.0044,  0.0070,  0.0111, -0.0126,
+        -0.0068, -0.0043], device='cuda:0'), grad: tensor([ 4.2864e-07,  2.6217e-07, -2.8173e-08,  5.1297e-06, -7.2233e-06,
+         6.4913e-07,  4.4773e-07,  8.8103e-07,  2.8647e-06, -3.4012e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 239, time 221.02, cls_loss 0.0009 cls_loss_mapping 0.0020 cls_loss_causal 0.4587 re_mapping 0.0043 re_causal 0.0118 /// teacc 99.07 lr 0.00010000
+Epoch 241, weight, value: tensor([[-0.1920, -0.2122,  0.1056,  ..., -0.1102,  0.0478,  0.0371],
+        [-0.1246, -0.0500, -0.0855,  ..., -0.1814, -0.0905, -0.0339],
+        [ 0.0253, -0.1239, -0.1477,  ..., -0.1207,  0.0322, -0.3435],
+        ...,
+        [-0.2014,  0.1451,  0.0144,  ...,  0.1720, -0.0495, -0.1290],
+        [-0.1490, -0.1333,  0.1562,  ..., -0.1241, -0.1510,  0.1435],
+        [ 0.0160, -0.2710,  0.1383,  ...,  0.0616, -0.1967, -0.1153]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.1642e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.3970e-09],
+        [ 0.0000e+00,  6.9849e-10,  2.5611e-09,  ...,  0.0000e+00,
+         -1.8626e-09, -3.2596e-09],
+        [ 0.0000e+00,  1.8626e-09,  4.2841e-08,  ...,  0.0000e+00,
+          1.1642e-09,  4.0513e-08],
+        ...,
+        [ 6.9849e-10,  1.3970e-09,  1.5367e-08,  ...,  7.2177e-09,
+          4.6566e-10,  8.8476e-09],
+        [ 2.3283e-10,  3.2596e-09, -7.4971e-08,  ...,  0.0000e+00,
+          0.0000e+00, -6.7754e-08],
+        [-1.1642e-09,  4.6566e-10, -1.0245e-08,  ..., -1.1642e-08,
+          0.0000e+00,  2.3283e-09]], device='cuda:0')
+Epoch 241, bias, value: tensor([-0.0143, -0.0245, -0.0261, -0.0301, -0.0041,  0.0069,  0.0107, -0.0124,
+        -0.0063, -0.0044], device='cuda:0'), grad: tensor([ 8.1491e-09, -3.9116e-08,  1.2363e-07,  2.1188e-08,  1.2340e-08,
+         1.8859e-08, -4.6566e-10,  6.3563e-08, -1.7765e-07, -1.8859e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 240, time 220.68, cls_loss 0.0008 cls_loss_mapping 0.0022 cls_loss_causal 0.4840 re_mapping 0.0044 re_causal 0.0122 /// teacc 99.09 lr 0.00010000
+Epoch 242, weight, value: tensor([[-0.1922, -0.2132,  0.1058,  ..., -0.1103,  0.0478,  0.0371],
+        [-0.1252, -0.0500, -0.0856,  ..., -0.1815, -0.0906, -0.0337],
+        [ 0.0253, -0.1239, -0.1473,  ..., -0.1208,  0.0326, -0.3435],
+        ...,
+        [-0.2021,  0.1452,  0.0142,  ...,  0.1719, -0.0502, -0.1292],
+        [-0.1493, -0.1341,  0.1561,  ..., -0.1245, -0.1511,  0.1437],
+        [ 0.0162, -0.2710,  0.1395,  ...,  0.0618, -0.1967, -0.1154]],
+       device='cuda:0'), grad: tensor([[ 8.8476e-09,  1.5832e-08, -1.3015e-07,  ...,  3.0268e-09,
+          0.0000e+00,  2.4214e-06],
+        [ 4.9826e-08,  8.6147e-08,  5.8208e-09,  ...,  4.1910e-09,
+          0.0000e+00,  3.0664e-07],
+        [ 3.7253e-09,  6.9151e-07,  1.0012e-08,  ...,  1.8626e-09,
+         -4.6566e-10,  2.6776e-08],
+        ...,
+        [ 1.8394e-08,  3.1362e-07,  5.3551e-09,  ..., -1.1595e-07,
+          0.0000e+00,  2.9104e-08],
+        [ 8.2422e-07,  3.5390e-08, -4.4703e-08,  ...,  2.3283e-10,
+          0.0000e+00,  9.2154e-07],
+        [ 1.9325e-08,  2.0256e-08, -6.5193e-09,  ...,  6.2864e-09,
+          0.0000e+00,  3.0268e-08]], device='cuda:0')
+Epoch 242, bias, value: tensor([-0.0142, -0.0245, -0.0260, -0.0297, -0.0040,  0.0065,  0.0105, -0.0125,
+        -0.0065, -0.0042], device='cuda:0'), grad: tensor([ 1.7077e-05,  2.0638e-06,  1.8394e-06, -3.3285e-06,  6.6962e-07,
+        -1.1390e-06, -1.9938e-05,  9.8534e-07,  1.6233e-06,  1.2456e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 241, time 220.23, cls_loss 0.0010 cls_loss_mapping 0.0024 cls_loss_causal 0.5155 re_mapping 0.0043 re_causal 0.0121 /// teacc 99.16 lr 0.00010000
+Epoch 243, weight, value: tensor([[-0.1928, -0.2141,  0.1061,  ..., -0.1107,  0.0476,  0.0371],
+        [-0.1258, -0.0505, -0.0857,  ..., -0.1820, -0.0901, -0.0335],
+        [ 0.0252, -0.1244, -0.1473,  ..., -0.1212,  0.0328, -0.3439],
+        ...,
+        [-0.2025,  0.1457,  0.0141,  ...,  0.1724, -0.0510, -0.1296],
+        [-0.1503, -0.1345,  0.1564,  ..., -0.1249, -0.1513,  0.1438],
+        [ 0.0162, -0.2715,  0.1405,  ...,  0.0621, -0.1968, -0.1158]],
+       device='cuda:0'), grad: tensor([[-1.3970e-09,  4.6566e-10, -1.7229e-08,  ...,  1.1642e-09,
+          0.0000e+00, -2.2585e-08],
+        [ 0.0000e+00,  2.5611e-09,  1.3970e-09,  ...,  3.4925e-09,
+          2.3283e-10, -4.6566e-08],
+        [ 2.3283e-10,  6.9849e-10, -1.6298e-09,  ...,  0.0000e+00,
+         -1.1642e-09,  7.9162e-09],
+        ...,
+        [ 0.0000e+00,  2.3283e-10,  1.0012e-08,  ...,  6.5193e-09,
+          6.9849e-10,  3.0268e-09],
+        [ 4.6566e-10,  3.7253e-09,  2.0955e-09,  ...,  2.3283e-10,
+          0.0000e+00,  2.7707e-08],
+        [ 0.0000e+00,  1.1642e-09, -1.9791e-08,  ...,  2.2817e-08,
+          0.0000e+00,  3.4925e-09]], device='cuda:0')
+Epoch 243, bias, value: tensor([-0.0141, -0.0248, -0.0259, -0.0299, -0.0042,  0.0066,  0.0108, -0.0122,
+        -0.0069, -0.0040], device='cuda:0'), grad: tensor([ 1.4435e-08, -1.3993e-07, -3.5344e-07,  6.4960e-08, -2.1770e-07,
+         2.9802e-08,  7.1712e-08,  1.2969e-07,  2.0908e-07,  2.0349e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 242, time 220.14, cls_loss 0.0009 cls_loss_mapping 0.0022 cls_loss_causal 0.4903 re_mapping 0.0041 re_causal 0.0116 /// teacc 99.06 lr 0.00010000
+Epoch 244, weight, value: tensor([[-0.1927, -0.2157,  0.1067,  ..., -0.1108,  0.0486,  0.0372],
+        [-0.1261, -0.0506, -0.0858,  ..., -0.1821, -0.0905, -0.0334],
+        [ 0.0252, -0.1240, -0.1475,  ..., -0.1212,  0.0337, -0.3442],
+        ...,
+        [-0.2029,  0.1458,  0.0142,  ...,  0.1724, -0.0520, -0.1298],
+        [-0.1508, -0.1354,  0.1554,  ..., -0.1274, -0.1514,  0.1434],
+        [ 0.0163, -0.2721,  0.1418,  ...,  0.0624, -0.1975, -0.1157]],
+       device='cuda:0'), grad: tensor([[ 3.9116e-08,  1.3970e-09, -3.9116e-08,  ...,  9.3132e-10,
+          0.0000e+00, -3.7253e-09],
+        [ 1.4901e-08,  1.7695e-08,  1.4901e-08,  ...,  1.8626e-08,
+          0.0000e+00,  1.0710e-08],
+        [ 3.7719e-08,  5.1223e-09,  1.0710e-08,  ...,  2.7940e-09,
+          0.0000e+00,  2.4214e-08],
+        ...,
+        [ 8.5589e-07, -2.7474e-08, -3.2596e-09,  ..., -2.5611e-08,
+          4.6566e-10,  4.0932e-07],
+        [ 1.2619e-07,  6.5193e-09, -4.1910e-09,  ...,  3.7253e-09,
+          0.0000e+00,  3.6787e-08],
+        [ 4.9360e-08,  8.8476e-09, -4.0513e-08,  ..., -2.3283e-08,
+          0.0000e+00,  2.7474e-08]], device='cuda:0')
+Epoch 244, bias, value: tensor([-0.0141, -0.0249, -0.0255, -0.0299, -0.0042,  0.0066,  0.0112, -0.0124,
+        -0.0077, -0.0039], device='cuda:0'), grad: tensor([ 1.7229e-08,  9.5926e-08,  1.7881e-07,  4.9500e-07,  7.5111e-07,
+        -5.5507e-06,  3.1432e-07,  3.1479e-06,  4.5821e-07,  1.0803e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 243, time 220.42, cls_loss 0.0009 cls_loss_mapping 0.0022 cls_loss_causal 0.4849 re_mapping 0.0041 re_causal 0.0115 /// teacc 99.04 lr 0.00010000
+Epoch 245, weight, value: tensor([[-0.1930, -0.2167,  0.1067,  ..., -0.1112,  0.0485,  0.0370],
+        [-0.1264, -0.0507, -0.0860,  ..., -0.1823, -0.0900, -0.0335],
+        [ 0.0252, -0.1244, -0.1479,  ..., -0.1216,  0.0335, -0.3445],
+        ...,
+        [-0.2033,  0.1460,  0.0141,  ...,  0.1727, -0.0519, -0.1300],
+        [-0.1510, -0.1362,  0.1559,  ..., -0.1282, -0.1515,  0.1440],
+        [ 0.0163, -0.2728,  0.1429,  ...,  0.0627, -0.1977, -0.1166]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  8.3819e-09, -1.2573e-08,  ...,  9.3132e-10,
+          4.6566e-10,  1.3970e-09],
+        [-5.3551e-08,  1.3970e-08, -6.8452e-08,  ...,  2.7940e-09,
+         -1.0245e-08, -3.7858e-07],
+        [ 9.3132e-10,  4.6100e-08,  2.7940e-09,  ...,  4.6566e-10,
+          5.5879e-09,  1.5832e-08],
+        ...,
+        [ 1.4435e-08,  4.6566e-09,  2.9337e-08,  ..., -2.7940e-09,
+          1.3970e-09,  1.0058e-07],
+        [ 1.8161e-08,  9.3132e-10, -4.8429e-08,  ..., -6.0536e-09,
+          0.0000e+00,  4.6566e-09],
+        [ 5.1223e-09,  4.6566e-09,  3.2131e-08,  ...,  1.8626e-09,
+          0.0000e+00,  6.1933e-08]], device='cuda:0')
+Epoch 245, bias, value: tensor([-0.0145, -0.0249, -0.0256, -0.0298, -0.0042,  0.0066,  0.0112, -0.0124,
+        -0.0075, -0.0037], device='cuda:0'), grad: tensor([ 1.4901e-08, -1.3057e-06,  2.1979e-07, -6.7754e-07,  1.9558e-08,
+         8.9360e-07,  2.2631e-07,  3.9209e-07,  6.9849e-09,  2.0396e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 244, time 220.04, cls_loss 0.0012 cls_loss_mapping 0.0025 cls_loss_causal 0.4995 re_mapping 0.0043 re_causal 0.0117 /// teacc 99.01 lr 0.00010000
+Epoch 246, weight, value: tensor([[-0.1957, -0.2184,  0.1069,  ..., -0.1115,  0.0483,  0.0367],
+        [-0.1269, -0.0511, -0.0866,  ..., -0.1829, -0.0889, -0.0335],
+        [ 0.0252, -0.1249, -0.1484,  ..., -0.1219,  0.0333, -0.3450],
+        ...,
+        [-0.2037,  0.1465,  0.0141,  ...,  0.1731, -0.0523, -0.1309],
+        [-0.1523, -0.1372,  0.1571,  ..., -0.1287, -0.1516,  0.1437],
+        [ 0.0165, -0.2731,  0.1448,  ...,  0.0632, -0.1979, -0.1175]],
+       device='cuda:0'), grad: tensor([[-1.7602e-07,  4.9826e-08, -9.2201e-07,  ...,  4.2375e-08,
+          0.0000e+00, -8.6287e-07],
+        [ 6.0536e-09,  2.3143e-07,  9.4995e-08,  ...,  1.7835e-07,
+          0.0000e+00, -4.0978e-08],
+        [ 3.2596e-09,  2.0349e-07,  6.7987e-08,  ...,  2.3004e-07,
+          0.0000e+00,  4.0047e-08],
+        ...,
+        [ 1.1176e-08,  6.0536e-09, -1.0245e-07,  ..., -8.2841e-07,
+          0.0000e+00,  1.0757e-07],
+        [ 5.2620e-08,  5.4017e-08,  9.0804e-08,  ...,  1.5832e-08,
+          0.0000e+00,  1.3784e-07],
+        [ 3.8184e-08,  2.4401e-07,  1.7229e-07,  ...,  1.0291e-07,
+          0.0000e+00,  1.8533e-07]], device='cuda:0')
+Epoch 246, bias, value: tensor([-0.0151, -0.0245, -0.0263, -0.0297, -0.0048,  0.0071,  0.0107, -0.0125,
+        -0.0081, -0.0030], device='cuda:0'), grad: tensor([-2.7493e-06,  7.5810e-07, -2.4214e-07, -1.6475e-06, -1.0170e-06,
+         1.5479e-06,  1.5795e-06,  6.0536e-08,  5.7137e-07,  1.1390e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 245, time 220.49, cls_loss 0.0012 cls_loss_mapping 0.0022 cls_loss_causal 0.4990 re_mapping 0.0041 re_causal 0.0115 /// teacc 99.08 lr 0.00010000
+Epoch 247, weight, value: tensor([[-0.1962, -0.2215,  0.1068,  ..., -0.1122,  0.0480,  0.0368],
+        [-0.1271, -0.0513, -0.0868,  ..., -0.1833, -0.0880, -0.0313],
+        [ 0.0252, -0.1272, -0.1498,  ..., -0.1242,  0.0328, -0.3460],
+        ...,
+        [-0.2039,  0.1473,  0.0144,  ...,  0.1744, -0.0525, -0.1320],
+        [-0.1528, -0.1383,  0.1581,  ..., -0.1302, -0.1516,  0.1446],
+        [ 0.0166, -0.2744,  0.1452,  ...,  0.0633, -0.1980, -0.1181]],
+       device='cuda:0'), grad: tensor([[ 3.2596e-09,  2.3283e-09,  8.8476e-09,  ...,  1.3970e-09,
+          0.0000e+00,  8.8476e-09],
+        [ 3.7253e-09,  5.2107e-07,  1.5926e-07,  ...,  4.1444e-07,
+          0.0000e+00,  6.5193e-09],
+        [ 4.6566e-10,  8.1956e-08,  7.8697e-08,  ...,  6.2864e-08,
+          0.0000e+00,  5.5879e-08],
+        ...,
+        [ 1.8626e-09, -6.7567e-07, -1.9837e-07,  ..., -5.3644e-07,
+          0.0000e+00,  8.3819e-09],
+        [ 4.7963e-08,  8.3819e-09, -9.4064e-08,  ...,  2.7940e-09,
+          0.0000e+00, -9.2201e-08],
+        [-2.0629e-07,  9.3132e-09, -3.3574e-07,  ...,  2.1420e-08,
+          0.0000e+00, -8.3819e-08]], device='cuda:0')
+Epoch 247, bias, value: tensor([-0.0157, -0.0245, -0.0260, -0.0276, -0.0049,  0.0048,  0.0094, -0.0120,
+        -0.0080, -0.0032], device='cuda:0'), grad: tensor([ 3.9116e-08,  1.2061e-06,  3.3714e-07,  5.3132e-07,  1.6391e-07,
+         1.0105e-07,  3.0734e-08, -1.4789e-06, -2.0396e-07, -7.2364e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 246, time 220.24, cls_loss 0.0008 cls_loss_mapping 0.0019 cls_loss_causal 0.4755 re_mapping 0.0041 re_causal 0.0116 /// teacc 99.07 lr 0.00010000
+Epoch 248, weight, value: tensor([[-0.1963, -0.2227,  0.1073,  ..., -0.1124,  0.0481,  0.0367],
+        [-0.1272, -0.0513, -0.0869,  ..., -0.1835, -0.0880, -0.0313],
+        [ 0.0252, -0.1273, -0.1501,  ..., -0.1243,  0.0329, -0.3462],
+        ...,
+        [-0.2051,  0.1474,  0.0145,  ...,  0.1747, -0.0525, -0.1329],
+        [-0.1532, -0.1405,  0.1580,  ..., -0.1311, -0.1518,  0.1445],
+        [ 0.0165, -0.2753,  0.1454,  ...,  0.0633, -0.1983, -0.1186]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  9.3132e-10, -6.9384e-08,  ...,  1.3970e-09,
+          0.0000e+00, -4.3772e-08],
+        [ 5.5414e-08,  3.3062e-08,  3.6322e-08,  ...,  2.1886e-08,
+          0.0000e+00, -1.7695e-08],
+        [ 1.1642e-08,  4.6566e-09,  3.9581e-08,  ...,  3.7253e-09,
+          0.0000e+00,  2.2352e-08],
+        ...,
+        [ 1.8626e-09, -6.5658e-08, -2.5146e-08,  ..., -5.1223e-08,
+          0.0000e+00,  8.3819e-09],
+        [ 6.9849e-09,  2.7940e-09,  2.0023e-08,  ...,  2.7940e-09,
+          0.0000e+00,  1.0710e-08],
+        [-3.5064e-07,  1.0245e-08, -2.2631e-07,  ...,  7.9162e-09,
+          4.6566e-10,  2.0489e-08]], device='cuda:0')
+Epoch 248, bias, value: tensor([-0.0155, -0.0245, -0.0259, -0.0275, -0.0050,  0.0050,  0.0097, -0.0121,
+        -0.0087, -0.0033], device='cuda:0'), grad: tensor([-1.7881e-07,  8.0559e-08,  1.7043e-07,  5.1782e-07,  4.2049e-07,
+         2.7148e-07, -2.7753e-07, -4.7032e-08,  7.9628e-08, -1.0207e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 247, time 220.08, cls_loss 0.0008 cls_loss_mapping 0.0016 cls_loss_causal 0.4633 re_mapping 0.0042 re_causal 0.0118 /// teacc 99.11 lr 0.00010000
+Epoch 249, weight, value: tensor([[-0.1963, -0.2231,  0.1078,  ..., -0.1125,  0.0478,  0.0369],
+        [-0.1280, -0.0508, -0.0860,  ..., -0.1836, -0.0880, -0.0311],
+        [ 0.0252, -0.1277, -0.1508,  ..., -0.1246,  0.0332, -0.3466],
+        ...,
+        [-0.2063,  0.1471,  0.0138,  ...,  0.1751, -0.0526, -0.1335],
+        [-0.1535, -0.1411,  0.1588,  ..., -0.1314, -0.1518,  0.1447],
+        [ 0.0168, -0.2771,  0.1458,  ...,  0.0633, -0.1985, -0.1196]],
+       device='cuda:0'), grad: tensor([[ 6.9849e-09,  4.6566e-09,  3.5390e-08,  ...,  6.5193e-09,
+          0.0000e+00,  5.2154e-08],
+        [ 1.3970e-09,  3.7253e-09,  8.3819e-09,  ...,  9.3132e-09,
+          0.0000e+00,  9.3132e-10],
+        [ 1.3970e-09,  1.3970e-09,  1.1176e-08,  ..., -1.0710e-08,
+          0.0000e+00,  1.0245e-08],
+        ...,
+        [ 1.3970e-09, -1.6298e-08,  7.4506e-09,  ..., -4.1910e-09,
+          0.0000e+00,  1.0710e-08],
+        [ 1.3504e-08, -1.8626e-08, -7.9162e-08,  ...,  2.3749e-08,
+          0.0000e+00, -1.5367e-07],
+        [-1.4063e-07,  9.3132e-09, -6.1141e-07,  ..., -3.3574e-07,
+          0.0000e+00,  4.1910e-09]], device='cuda:0')
+Epoch 249, bias, value: tensor([-0.0153, -0.0238, -0.0261, -0.0259, -0.0054,  0.0035,  0.0097, -0.0127,
+        -0.0087, -0.0033], device='cuda:0'), grad: tensor([ 1.9232e-07,  4.9826e-08, -1.4063e-07,  3.2829e-07,  1.4957e-06,
+         3.7905e-07, -4.5355e-07,  6.3330e-08, -3.2829e-07, -1.5721e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 248, time 220.76, cls_loss 0.0011 cls_loss_mapping 0.0038 cls_loss_causal 0.5015 re_mapping 0.0040 re_causal 0.0113 /// teacc 99.16 lr 0.00010000
+Epoch 250, weight, value: tensor([[-0.1964, -0.2242,  0.1084,  ..., -0.1132,  0.0477,  0.0371],
+        [-0.1284, -0.0509, -0.0862,  ..., -0.1841, -0.0884, -0.0309],
+        [ 0.0252, -0.1281, -0.1509,  ..., -0.1249,  0.0344, -0.3472],
+        ...,
+        [-0.2066,  0.1478,  0.0145,  ...,  0.1763, -0.0526, -0.1339],
+        [-0.1538, -0.1415,  0.1602,  ..., -0.1316, -0.1519,  0.1457],
+        [ 0.0175, -0.2790,  0.1490,  ...,  0.0650, -0.1987, -0.1213]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00, -1.3504e-08,  ...,  0.0000e+00,
+         -3.7253e-09, -4.6566e-10],
+        [ 0.0000e+00,  6.5193e-09,  1.3970e-09,  ...,  6.0536e-09,
+          9.3132e-10,  1.3970e-09],
+        [ 0.0000e+00,  2.1420e-08,  1.2573e-08,  ...,  2.0489e-08,
+          5.1223e-09,  2.7940e-09],
+        ...,
+        [ 4.6566e-10, -2.9337e-08,  9.3132e-10,  ..., -2.7940e-08,
+         -3.7253e-09,  3.7253e-09],
+        [ 2.3283e-09,  4.6566e-10, -1.6298e-08,  ...,  0.0000e+00,
+          0.0000e+00, -1.3970e-08],
+        [ 4.6566e-10,  9.3132e-10,  4.6566e-10,  ..., -9.3132e-10,
+          0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 250, bias, value: tensor([-0.0153, -0.0240, -0.0254, -0.0261, -0.0071,  0.0035,  0.0093, -0.0125,
+        -0.0080, -0.0022], device='cuda:0'), grad: tensor([-4.3772e-08,  1.8626e-08,  6.3796e-08,  5.4482e-08,  1.8161e-08,
+        -4.4703e-08,  5.1223e-09, -4.0978e-08, -2.9802e-08,  5.5879e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 249----------------------------------------------------
+epoch 249, time 221.21, cls_loss 0.0008 cls_loss_mapping 0.0021 cls_loss_causal 0.4744 re_mapping 0.0040 re_causal 0.0116 /// teacc 99.18 lr 0.00010000
+Epoch 251, weight, value: tensor([[-0.1968, -0.2256,  0.1079,  ..., -0.1139,  0.0475,  0.0367],
+        [-0.1286, -0.0520, -0.0879,  ..., -0.1844, -0.0885, -0.0320],
+        [ 0.0252, -0.1284, -0.1516,  ..., -0.1250,  0.0344, -0.3480],
+        ...,
+        [-0.2071,  0.1491,  0.0163,  ...,  0.1769, -0.0523, -0.1326],
+        [-0.1537, -0.1419,  0.1621,  ..., -0.1318, -0.1518,  0.1469],
+        [ 0.0175, -0.2797,  0.1488,  ...,  0.0650, -0.1989, -0.1231]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  3.0268e-08,  1.3970e-09,  ...,  2.7940e-09,
+          1.8626e-09, -3.7253e-09],
+        [ 3.7253e-09,  2.1840e-07,  7.9628e-08,  ...,  2.2817e-08,
+          3.2596e-09,  4.6566e-10],
+        [ 4.6566e-10,  2.8964e-07,  1.1316e-07,  ..., -2.3283e-09,
+         -2.4214e-08,  3.2596e-09],
+        ...,
+        [ 8.3819e-09, -5.9418e-07, -2.1374e-07,  ...,  5.0291e-08,
+          1.3039e-08,  0.0000e+00],
+        [ 9.3132e-10,  2.3283e-09,  6.0536e-09,  ...,  6.5193e-09,
+          2.7940e-09,  3.7253e-09],
+        [ 2.0489e-08,  2.8405e-08, -3.2596e-09,  ...,  9.9652e-08,
+          0.0000e+00,  4.6566e-10]], device='cuda:0')
+Epoch 251, bias, value: tensor([-0.0159, -0.0247, -0.0252, -0.0263, -0.0071,  0.0033,  0.0095, -0.0117,
+        -0.0069, -0.0025], device='cuda:0'), grad: tensor([ 6.9384e-08,  5.0059e-07,  3.0221e-07,  5.2154e-08, -7.1758e-07,
+         5.0757e-08,  1.8906e-07, -8.4843e-07,  7.5903e-08,  3.3202e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 250, time 220.36, cls_loss 0.0011 cls_loss_mapping 0.0020 cls_loss_causal 0.4910 re_mapping 0.0039 re_causal 0.0108 /// teacc 99.10 lr 0.00010000
+Epoch 252, weight, value: tensor([[-0.1970, -0.2264,  0.1080,  ..., -0.1142,  0.0482,  0.0368],
+        [-0.1293, -0.0523, -0.0883,  ..., -0.1849, -0.0889, -0.0322],
+        [ 0.0253, -0.1282, -0.1522,  ..., -0.1250,  0.0345, -0.3483],
+        ...,
+        [-0.2084,  0.1494,  0.0166,  ...,  0.1773, -0.0516, -0.1330],
+        [-0.1539, -0.1423,  0.1627,  ..., -0.1327, -0.1519,  0.1473],
+        [ 0.0187, -0.2803,  0.1499,  ...,  0.0649, -0.1995, -0.1220]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  4.4238e-08,  ...,  1.8626e-09,
+          0.0000e+00,  1.8161e-08],
+        [ 1.6298e-08,  1.3970e-09,  6.0536e-09,  ...,  3.3528e-08,
+          0.0000e+00,  2.3283e-09],
+        [ 1.0245e-08,  9.3132e-10, -5.0291e-08,  ...,  5.1223e-09,
+          0.0000e+00,  8.8476e-09],
+        ...,
+        [-2.0023e-08, -1.7555e-07,  2.5146e-08,  ..., -1.6997e-07,
+          0.0000e+00,  1.4901e-08],
+        [ 9.3132e-10,  0.0000e+00, -1.5274e-07,  ...,  9.3132e-10,
+          0.0000e+00, -1.3411e-07],
+        [ 4.5868e-07,  1.3970e-09, -6.0536e-08,  ...,  1.2117e-06,
+          0.0000e+00,  3.3528e-08]], device='cuda:0')
+Epoch 252, bias, value: tensor([-0.0160, -0.0249, -0.0248, -0.0263, -0.0061,  0.0032,  0.0088, -0.0118,
+        -0.0070, -0.0027], device='cuda:0'), grad: tensor([ 3.3760e-07,  5.8487e-07, -1.3020e-06,  7.5437e-08, -3.7551e-06,
+         5.6578e-07,  5.1223e-08, -2.1141e-07,  9.6858e-08,  3.5539e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 251, time 220.51, cls_loss 0.0009 cls_loss_mapping 0.0021 cls_loss_causal 0.4835 re_mapping 0.0038 re_causal 0.0108 /// teacc 99.12 lr 0.00010000
+Epoch 253, weight, value: tensor([[-0.1971, -0.2270,  0.1088,  ..., -0.1144,  0.0483,  0.0369],
+        [-0.1296, -0.0524, -0.0883,  ..., -0.1852, -0.0891, -0.0320],
+        [ 0.0254, -0.1285, -0.1532,  ..., -0.1252,  0.0349, -0.3491],
+        ...,
+        [-0.2090,  0.1496,  0.0167,  ...,  0.1777, -0.0526, -0.1332],
+        [-0.1543, -0.1427,  0.1630,  ..., -0.1332, -0.1519,  0.1476],
+        [ 0.0187, -0.2810,  0.1499,  ...,  0.0646, -0.1996, -0.1226]],
+       device='cuda:0'), grad: tensor([[ 6.9849e-09,  6.4261e-08, -1.0878e-06,  ...,  5.4482e-08,
+          0.0000e+00, -2.3516e-07],
+        [ 1.0245e-08, -1.4100e-06, -8.8243e-07,  ...,  1.0449e-06,
+          0.0000e+00,  3.1665e-08],
+        [ 1.4435e-08,  1.8813e-07,  6.7055e-07,  ...,  1.4249e-07,
+          0.0000e+00,  1.7369e-07],
+        ...,
+        [ 3.5856e-08,  2.4820e-07,  5.8394e-07,  ..., -1.6689e-06,
+          0.0000e+00,  1.1455e-07],
+        [-4.1677e-07,  8.7544e-08, -1.0533e-06,  ...,  6.9849e-08,
+          0.0000e+00, -1.3635e-06],
+        [ 6.3796e-08,  4.4284e-07,  2.7055e-07,  ...,  3.6135e-07,
+          0.0000e+00,  2.3609e-07]], device='cuda:0')
+Epoch 253, bias, value: tensor([-0.0158, -0.0245, -0.0249, -0.0264, -0.0063,  0.0033,  0.0087, -0.0117,
+        -0.0070, -0.0033], device='cuda:0'), grad: tensor([-3.9972e-06, -6.5528e-06,  2.7642e-06,  1.4342e-06, -1.1642e-07,
+         1.7975e-06,  6.2445e-07,  3.6415e-06, -3.1069e-06,  3.5092e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 252, time 220.31, cls_loss 0.0009 cls_loss_mapping 0.0020 cls_loss_causal 0.5040 re_mapping 0.0039 re_causal 0.0115 /// teacc 99.07 lr 0.00010000
+Epoch 254, weight, value: tensor([[-0.1972, -0.2276,  0.1087,  ..., -0.1152,  0.0483,  0.0367],
+        [-0.1310, -0.0524, -0.0885,  ..., -0.1854, -0.0891, -0.0323],
+        [ 0.0253, -0.1286, -0.1537,  ..., -0.1252,  0.0351, -0.3496],
+        ...,
+        [-0.2095,  0.1497,  0.0163,  ...,  0.1770, -0.0528, -0.1337],
+        [-0.1548, -0.1427,  0.1634,  ..., -0.1337, -0.1520,  0.1478],
+        [ 0.0193, -0.2816,  0.1525,  ...,  0.0665, -0.1997, -0.1234]],
+       device='cuda:0'), grad: tensor([[-4.6566e-10,  0.0000e+00, -3.2876e-07,  ...,  0.0000e+00,
+          0.0000e+00, -1.1781e-07],
+        [ 0.0000e+00,  1.3970e-09,  2.2817e-08,  ...,  2.1420e-08,
+          0.0000e+00,  1.3039e-08],
+        [ 4.6566e-10,  1.8626e-09,  3.2131e-08,  ...,  2.3283e-09,
+          0.0000e+00,  2.2352e-08],
+        ...,
+        [ 4.6566e-10, -3.7253e-09,  4.6566e-09,  ..., -1.3970e-09,
+          0.0000e+00,  5.1223e-09],
+        [ 4.6566e-10,  0.0000e+00, -3.7719e-08,  ...,  0.0000e+00,
+          0.0000e+00, -5.8673e-08],
+        [ 9.3132e-10,  9.3132e-10,  2.3283e-08,  ...,  6.3796e-08,
+          0.0000e+00,  1.2107e-08]], device='cuda:0')
+Epoch 254, bias, value: tensor([-0.0161, -0.0247, -0.0241, -0.0272, -0.0077,  0.0042,  0.0089, -0.0125,
+        -0.0071, -0.0015], device='cuda:0'), grad: tensor([-1.0105e-06,  1.3970e-07,  1.1595e-07,  5.0757e-08, -2.8918e-07,
+         6.5193e-08,  7.1805e-07,  2.6543e-08, -1.2899e-07,  3.1572e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 253, time 220.02, cls_loss 0.0008 cls_loss_mapping 0.0016 cls_loss_causal 0.4937 re_mapping 0.0039 re_causal 0.0115 /// teacc 99.11 lr 0.00010000
+Epoch 255, weight, value: tensor([[-0.1976, -0.2281,  0.1077,  ..., -0.1163,  0.0483,  0.0364],
+        [-0.1315, -0.0524, -0.0885,  ..., -0.1856, -0.0892, -0.0322],
+        [ 0.0253, -0.1290, -0.1546,  ..., -0.1254,  0.0351, -0.3501],
+        ...,
+        [-0.2065,  0.1497,  0.0163,  ...,  0.1775, -0.0527, -0.1343],
+        [-0.1553, -0.1429,  0.1635,  ..., -0.1345, -0.1520,  0.1480],
+        [ 0.0194, -0.2818,  0.1534,  ...,  0.0668, -0.1997, -0.1232]],
+       device='cuda:0'), grad: tensor([[ 4.2841e-08,  8.7544e-08,  3.6322e-08,  ...,  7.8697e-08,
+          0.0000e+00,  2.3283e-09],
+        [ 4.8429e-08,  2.5565e-07,  1.0664e-07,  ...,  1.9651e-07,
+          0.0000e+00,  1.3504e-08],
+        [ 4.9360e-08,  1.1642e-07,  4.3772e-08,  ...,  1.0105e-07,
+          0.0000e+00,  2.7940e-09],
+        ...,
+        [-2.8266e-07, -7.9395e-07, -2.8685e-07,  ..., -6.6636e-07,
+          0.0000e+00,  5.1223e-09],
+        [ 3.6787e-08,  1.3970e-09, -1.0990e-07,  ...,  2.3283e-09,
+          0.0000e+00, -2.0443e-07],
+        [ 2.2817e-08,  4.7963e-08,  7.9162e-09,  ...,  1.0990e-07,
+          0.0000e+00,  1.0710e-08]], device='cuda:0')
+Epoch 255, bias, value: tensor([-0.0173, -0.0247, -0.0241, -0.0277, -0.0080,  0.0050,  0.0095, -0.0125,
+        -0.0072, -0.0013], device='cuda:0'), grad: tensor([ 2.8638e-07,  6.4308e-07,  3.6089e-07,  8.5356e-07, -2.3423e-07,
+        -4.0513e-08,  3.0734e-07, -2.2650e-06, -3.3062e-07,  4.1397e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 254----------------------------------------------------
+epoch 254, time 221.06, cls_loss 0.0009 cls_loss_mapping 0.0017 cls_loss_causal 0.4680 re_mapping 0.0042 re_causal 0.0112 /// teacc 99.19 lr 0.00010000
+Epoch 256, weight, value: tensor([[-0.1977, -0.2293,  0.1080,  ..., -0.1165,  0.0483,  0.0365],
+        [-0.1318, -0.0525, -0.0886,  ..., -0.1861, -0.0892, -0.0319],
+        [ 0.0252, -0.1295, -0.1551,  ..., -0.1259,  0.0351, -0.3505],
+        ...,
+        [-0.2037,  0.1500,  0.0163,  ...,  0.1785, -0.0527, -0.1347],
+        [-0.1559, -0.1432,  0.1637,  ..., -0.1350, -0.1520,  0.1479],
+        [ 0.0193, -0.2824,  0.1536,  ...,  0.0667, -0.1997, -0.1235]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  1.3970e-09,  9.3132e-10,  ...,  1.8626e-09,
+          0.0000e+00, -2.5146e-08],
+        [ 0.0000e+00,  1.3970e-09,  1.3970e-09,  ...,  2.3283e-09,
+          0.0000e+00,  9.3132e-10],
+        ...,
+        [ 4.6566e-10, -6.5193e-09, -5.1223e-09,  ..., -7.9162e-09,
+          0.0000e+00,  1.3504e-08],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  3.2596e-09],
+        [ 0.0000e+00,  1.8626e-09,  1.3970e-09,  ...,  4.1910e-09,
+          0.0000e+00,  4.6566e-09]], device='cuda:0')
+Epoch 256, bias, value: tensor([-0.0168, -0.0257, -0.0226, -0.0278, -0.0082,  0.0050,  0.0096, -0.0123,
+        -0.0075, -0.0014], device='cuda:0'), grad: tensor([ 3.3993e-08, -1.4016e-07, -3.0268e-08,  2.0955e-08,  3.9116e-08,
+        -1.3970e-09, -4.7963e-08,  7.4040e-08,  1.7695e-08,  3.9116e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 255, time 220.65, cls_loss 0.0009 cls_loss_mapping 0.0018 cls_loss_causal 0.4391 re_mapping 0.0040 re_causal 0.0108 /// teacc 99.15 lr 0.00010000
+Epoch 257, weight, value: tensor([[-0.1977, -0.2301,  0.1081,  ..., -0.1166,  0.0483,  0.0364],
+        [-0.1328, -0.0526, -0.0886,  ..., -0.1866, -0.0892, -0.0312],
+        [ 0.0255, -0.1298, -0.1555,  ..., -0.1261,  0.0351, -0.3509],
+        ...,
+        [-0.2041,  0.1503,  0.0165,  ...,  0.1787, -0.0526, -0.1354],
+        [-0.1566, -0.1436,  0.1639,  ..., -0.1355, -0.1520,  0.1477],
+        [ 0.0189, -0.2842,  0.1536,  ...,  0.0662, -0.1997, -0.1244]],
+       device='cuda:0'), grad: tensor([[-9.3132e-10,  4.6566e-10, -8.8476e-09,  ...,  4.6566e-10,
+          0.0000e+00, -2.0955e-08],
+        [ 0.0000e+00,  7.1712e-08,  1.5832e-08,  ...,  5.4017e-08,
+          1.1176e-08, -5.1223e-09],
+        [ 0.0000e+00,  4.7963e-08,  1.0710e-08,  ...,  3.5856e-08,
+          7.4506e-09,  5.5879e-09],
+        ...,
+        [ 0.0000e+00, -1.4715e-07, -2.5146e-08,  ..., -1.0896e-07,
+         -2.2817e-08,  6.0536e-09],
+        [ 0.0000e+00,  9.3132e-10, -1.4901e-08,  ...,  9.3132e-10,
+          0.0000e+00, -2.0023e-08],
+        [-1.3970e-09,  3.7253e-09, -3.7253e-09,  ..., -9.3132e-10,
+          4.6566e-10,  1.3970e-09]], device='cuda:0')
+Epoch 257, bias, value: tensor([-0.0168, -0.0258, -0.0224, -0.0285, -0.0073,  0.0058,  0.0095, -0.0124,
+        -0.0080, -0.0022], device='cuda:0'), grad: tensor([-3.4925e-08,  3.4412e-07, -2.7148e-07,  3.4459e-08,  3.4459e-08,
+         5.4482e-08,  1.5367e-08, -1.7881e-07,  4.6566e-10,  4.6566e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 256----------------------------------------------------
+epoch 256, time 221.31, cls_loss 0.0009 cls_loss_mapping 0.0020 cls_loss_causal 0.5087 re_mapping 0.0041 re_causal 0.0115 /// teacc 99.20 lr 0.00010000
+Epoch 258, weight, value: tensor([[-0.1979, -0.2308,  0.1083,  ..., -0.1168,  0.0483,  0.0364],
+        [-0.1328, -0.0523, -0.0885,  ..., -0.1868, -0.0891, -0.0312],
+        [ 0.0254, -0.1300, -0.1557,  ..., -0.1261,  0.0351, -0.3512],
+        ...,
+        [-0.2046,  0.1502,  0.0164,  ...,  0.1788, -0.0527, -0.1357],
+        [-0.1576, -0.1439,  0.1642,  ..., -0.1358, -0.1519,  0.1473],
+        [ 0.0190, -0.2856,  0.1540,  ...,  0.0662, -0.1997, -0.1247]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  3.2596e-08, -9.4064e-08,  ...,  2.1886e-08,
+          0.0000e+00,  1.9465e-07],
+        [ 2.7940e-09,  1.4249e-07,  8.7079e-08,  ...,  9.7323e-08,
+          0.0000e+00, -4.0978e-08],
+        [ 9.3132e-10,  2.1933e-07,  1.7090e-07,  ...,  1.4994e-07,
+          0.0000e+00,  1.5367e-08],
+        ...,
+        [ 4.6566e-10, -6.7055e-07, -3.9069e-07,  ..., -4.6333e-07,
+          0.0000e+00,  1.0710e-08],
+        [ 1.8626e-09,  6.0536e-08,  5.6811e-08,  ...,  4.0978e-08,
+          0.0000e+00,  3.3993e-08],
+        [ 1.7649e-07,  2.2259e-07,  8.6613e-08,  ...,  9.4995e-08,
+          0.0000e+00,  1.0151e-07]], device='cuda:0')
+Epoch 258, bias, value: tensor([-0.0170, -0.0247, -0.0229, -0.0289, -0.0077,  0.0067,  0.0083, -0.0128,
+        -0.0084, -0.0024], device='cuda:0'), grad: tensor([ 6.7707e-07,  4.0047e-07,  9.4576e-07,  3.1050e-06,  5.9372e-07,
+        -2.7996e-06, -2.5705e-06, -1.5814e-06,  3.7672e-07,  8.4611e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 257, time 220.23, cls_loss 0.0008 cls_loss_mapping 0.0017 cls_loss_causal 0.4767 re_mapping 0.0038 re_causal 0.0110 /// teacc 99.09 lr 0.00010000
+Epoch 259, weight, value: tensor([[-0.1981, -0.2315,  0.1080,  ..., -0.1173,  0.0483,  0.0361],
+        [-0.1330, -0.0525, -0.0887,  ..., -0.1872, -0.0891, -0.0311],
+        [ 0.0254, -0.1304, -0.1564,  ..., -0.1269,  0.0350, -0.3517],
+        ...,
+        [-0.2048,  0.1510,  0.0176,  ...,  0.1808, -0.0527, -0.1359],
+        [-0.1578, -0.1441,  0.1643,  ..., -0.1368, -0.1519,  0.1475],
+        [ 0.0199, -0.2892,  0.1534,  ...,  0.0652, -0.1997, -0.1247]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  1.3970e-09,  1.3970e-09,  ...,  4.6566e-10,
+          0.0000e+00,  2.3283e-09],
+        [ 0.0000e+00,  2.2352e-08,  8.3819e-09,  ...,  8.8476e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  3.2596e-09,  1.8626e-09,  ...,  1.3970e-09,
+          0.0000e+00,  1.3970e-09],
+        ...,
+        [ 4.6566e-10, -3.6322e-08, -1.3970e-08,  ..., -1.5367e-08,
+          0.0000e+00,  9.3132e-10],
+        [-4.6566e-09,  4.6566e-10, -4.5169e-08,  ...,  0.0000e+00,
+          0.0000e+00, -5.2154e-08],
+        [ 2.7940e-09,  2.7940e-09,  6.5193e-09,  ...,  1.8626e-09,
+          0.0000e+00,  8.3819e-09]], device='cuda:0')
+Epoch 259, bias, value: tensor([-0.0176, -0.0247, -0.0231, -0.0290, -0.0079,  0.0063,  0.0096, -0.0119,
+        -0.0087, -0.0031], device='cuda:0'), grad: tensor([ 3.9116e-08,  3.2363e-07, -4.5821e-07,  4.7032e-08,  1.2107e-08,
+         4.0513e-08,  3.3528e-08,  2.7940e-09, -7.2177e-08,  3.4459e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 258, time 220.70, cls_loss 0.0009 cls_loss_mapping 0.0025 cls_loss_causal 0.4658 re_mapping 0.0041 re_causal 0.0111 /// teacc 99.19 lr 0.00010000
+Epoch 260, weight, value: tensor([[-0.1983, -0.2329,  0.1087,  ..., -0.1176,  0.0483,  0.0363],
+        [-0.1332, -0.0525, -0.0888,  ..., -0.1874, -0.0891, -0.0307],
+        [ 0.0254, -0.1308, -0.1571,  ..., -0.1273,  0.0351, -0.3524],
+        ...,
+        [-0.2056,  0.1511,  0.0176,  ...,  0.1810, -0.0527, -0.1363],
+        [-0.1585, -0.1443,  0.1644,  ..., -0.1376, -0.1520,  0.1477],
+        [ 0.0201, -0.2899,  0.1539,  ...,  0.0653, -0.1997, -0.1254]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  4.6566e-10,  2.7940e-09,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  1.8161e-08,  9.3132e-09,  ...,  1.6764e-08,
+          0.0000e+00, -1.3970e-09],
+        [ 0.0000e+00,  3.7253e-09,  9.3132e-10,  ...,  4.6566e-10,
+          0.0000e+00,  9.3132e-10],
+        ...,
+        [ 4.6566e-10, -3.9116e-08, -1.5367e-08,  ..., -5.1688e-08,
+          0.0000e+00,  4.6566e-10],
+        [ 1.3970e-09,  4.1910e-09,  5.5879e-09,  ...,  3.7253e-09,
+          0.0000e+00, -1.3504e-08],
+        [-5.5879e-09,  3.8184e-08, -2.8871e-08,  ...,  1.5367e-08,
+          0.0000e+00, -1.3970e-09]], device='cuda:0')
+Epoch 260, bias, value: tensor([-0.0172, -0.0245, -0.0233, -0.0291, -0.0082,  0.0063,  0.0106, -0.0120,
+        -0.0089, -0.0032], device='cuda:0'), grad: tensor([ 1.3970e-08,  6.2864e-08, -1.1642e-07, -1.6857e-07,  5.6345e-08,
+         1.9372e-07,  6.5193e-09, -7.1246e-08,  1.7695e-08,  2.2817e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 259, time 220.39, cls_loss 0.0008 cls_loss_mapping 0.0016 cls_loss_causal 0.4810 re_mapping 0.0040 re_causal 0.0113 /// teacc 99.12 lr 0.00010000
+Epoch 261, weight, value: tensor([[-0.1986, -0.2335,  0.1090,  ..., -0.1180,  0.0483,  0.0351],
+        [-0.1337, -0.0526, -0.0887,  ..., -0.1877, -0.0891, -0.0299],
+        [ 0.0253, -0.1310, -0.1577,  ..., -0.1275,  0.0351, -0.3528],
+        ...,
+        [-0.2059,  0.1514,  0.0178,  ...,  0.1817, -0.0527, -0.1370],
+        [-0.1589, -0.1446,  0.1643,  ..., -0.1383, -0.1520,  0.1477],
+        [ 0.0194, -0.2913,  0.1539,  ...,  0.0642, -0.1998, -0.1258]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  4.6566e-10, -9.3132e-10,  ...,  4.6566e-10,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  7.4506e-08,  4.8429e-08,  ...,  5.6345e-08,
+          0.0000e+00,  4.2841e-08],
+        [ 0.0000e+00,  1.1642e-08,  8.7544e-08,  ...,  9.3132e-09,
+          0.0000e+00,  1.2014e-07],
+        ...,
+        [ 0.0000e+00, -1.9930e-07, -4.3772e-08,  ..., -1.5181e-07,
+          0.0000e+00,  9.3132e-09],
+        [ 0.0000e+00,  2.3283e-09, -1.6578e-07,  ...,  1.8626e-09,
+          0.0000e+00, -2.6030e-07],
+        [ 9.3132e-10,  3.6787e-08,  1.1176e-08,  ...,  2.7940e-08,
+          0.0000e+00,  6.5193e-09]], device='cuda:0')
+Epoch 261, bias, value: tensor([-0.0187, -0.0241, -0.0233, -0.0291, -0.0073,  0.0065,  0.0114, -0.0121,
+        -0.0093, -0.0043], device='cuda:0'), grad: tensor([-8.6799e-06,  2.9011e-07,  1.1306e-06,  3.0361e-07,  1.7975e-06,
+         4.1910e-09,  5.9418e-06, -3.7486e-07, -8.3260e-07,  4.2003e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 260, time 221.00, cls_loss 0.0010 cls_loss_mapping 0.0022 cls_loss_causal 0.4950 re_mapping 0.0039 re_causal 0.0111 /// teacc 99.05 lr 0.00010000
+Epoch 262, weight, value: tensor([[-0.1983, -0.2345,  0.1106,  ..., -0.1183,  0.0483,  0.0360],
+        [-0.1345, -0.0527, -0.0890,  ..., -0.1880, -0.0891, -0.0303],
+        [ 0.0252, -0.1315, -0.1588,  ..., -0.1277,  0.0351, -0.3581],
+        ...,
+        [-0.2062,  0.1516,  0.0179,  ...,  0.1819, -0.0527, -0.1379],
+        [-0.1593, -0.1449,  0.1652,  ..., -0.1391, -0.1520,  0.1508],
+        [ 0.0197, -0.2918,  0.1542,  ...,  0.0641, -0.1998, -0.1264]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  5.1223e-09,  2.3283e-09,  ...,  4.6566e-09,
+          0.0000e+00,  1.3970e-09],
+        [ 0.0000e+00,  2.7474e-08,  3.2596e-09,  ...,  1.7695e-08,
+          0.0000e+00, -3.2596e-09],
+        [-4.6566e-10,  1.0664e-07,  4.6566e-09,  ...,  3.9581e-08,
+          0.0000e+00,  2.7940e-09],
+        ...,
+        [ 9.3132e-10, -1.7416e-07,  7.9162e-09,  ..., -5.4948e-08,
+          0.0000e+00,  3.2596e-09],
+        [ 9.3132e-10,  2.3283e-09, -1.8626e-09,  ...,  6.9849e-09,
+          0.0000e+00, -3.7719e-08],
+        [-3.7253e-09,  5.1223e-09, -3.6787e-08,  ...,  8.4611e-07,
+          0.0000e+00,  2.6543e-08]], device='cuda:0')
+Epoch 262, bias, value: tensor([-0.0167, -0.0240, -0.0237, -0.0293, -0.0070,  0.0061,  0.0110, -0.0124,
+        -0.0069, -0.0046], device='cuda:0'), grad: tensor([ 2.7940e-08,  6.5658e-08,  1.4994e-07,  5.5879e-08, -2.4308e-06,
+         2.7474e-08, -5.5879e-09, -2.5379e-07, -8.3819e-09,  2.3842e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 261, time 220.38, cls_loss 0.0009 cls_loss_mapping 0.0022 cls_loss_causal 0.4957 re_mapping 0.0039 re_causal 0.0111 /// teacc 99.13 lr 0.00010000
+Epoch 263, weight, value: tensor([[-0.1987, -0.2357,  0.1099,  ..., -0.1185,  0.0483,  0.0354],
+        [-0.1348, -0.0527, -0.0890,  ..., -0.1883, -0.0891, -0.0294],
+        [ 0.0252, -0.1324, -0.1593,  ..., -0.1287,  0.0351, -0.3585],
+        ...,
+        [-0.2063,  0.1518,  0.0180,  ...,  0.1824, -0.0527, -0.1386],
+        [-0.1600, -0.1455,  0.1649,  ..., -0.1404, -0.1520,  0.1509],
+        [ 0.0195, -0.2921,  0.1547,  ...,  0.0639, -0.1998, -0.1273]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -9.7323e-08,  ...,  2.7008e-08,
+          0.0000e+00, -2.5658e-07],
+        [ 9.3132e-10,  1.8626e-09,  0.0000e+00,  ...,  1.3132e-07,
+          0.0000e+00, -2.3283e-09],
+        [ 0.0000e+00,  7.9162e-09,  4.6566e-10,  ...,  2.1420e-08,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [ 1.8626e-09, -2.3283e-09,  4.6566e-10,  ...,  1.9046e-07,
+          0.0000e+00,  3.2596e-09],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  1.9558e-08,
+          0.0000e+00,  4.6566e-10],
+        [ 4.6566e-08,  1.3970e-09,  0.0000e+00,  ...,  5.5805e-06,
+          0.0000e+00,  4.6566e-10]], device='cuda:0')
+Epoch 263, bias, value: tensor([-0.0181, -0.0237, -0.0239, -0.0295, -0.0068,  0.0067,  0.0111, -0.0125,
+        -0.0073, -0.0048], device='cuda:0'), grad: tensor([-6.6590e-07,  4.2142e-07, -3.8650e-08, -1.2619e-07, -1.8418e-05,
+         2.7660e-07,  8.7172e-07,  6.7474e-07,  7.8231e-08,  1.6928e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 262, time 220.25, cls_loss 0.0008 cls_loss_mapping 0.0021 cls_loss_causal 0.4853 re_mapping 0.0039 re_causal 0.0115 /// teacc 99.12 lr 0.00010000
+Epoch 264, weight, value: tensor([[-0.1992, -0.2373,  0.1104,  ..., -0.1187,  0.0484,  0.0355],
+        [-0.1351, -0.0545, -0.0901,  ..., -0.1891, -0.0891, -0.0290],
+        [ 0.0251, -0.1332, -0.1600,  ..., -0.1290,  0.0351, -0.3588],
+        ...,
+        [-0.2064,  0.1538,  0.0190,  ...,  0.1836, -0.0528, -0.1391],
+        [-0.1604, -0.1460,  0.1653,  ..., -0.1405, -0.1520,  0.1511],
+        [ 0.0194, -0.2936,  0.1549,  ...,  0.0636, -0.1998, -0.1278]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  3.7020e-08,  2.3283e-10,  ...,  1.6298e-09,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  7.0548e-08,  5.8208e-09,  ...,  1.1409e-08,
+          0.0000e+00, -7.4506e-09],
+        [ 6.9849e-10,  1.1805e-07,  8.8476e-09,  ...,  1.7462e-08,
+          0.0000e+00,  4.6566e-09],
+        ...,
+        [ 0.0000e+00,  8.1491e-09, -9.5461e-09,  ..., -2.0955e-08,
+          0.0000e+00,  5.1223e-09],
+        [-6.9849e-10,  1.8626e-08, -3.0268e-09,  ..., -1.3970e-09,
+          0.0000e+00, -6.9849e-10],
+        [ 2.3283e-10,  5.2154e-08,  2.3283e-09,  ...,  1.2107e-08,
+          0.0000e+00,  1.3970e-09]], device='cuda:0')
+Epoch 264, bias, value: tensor([-0.0180, -0.0249, -0.0238, -0.0294, -0.0070,  0.0078,  0.0090, -0.0109,
+        -0.0075, -0.0052], device='cuda:0'), grad: tensor([ 1.1991e-07,  1.6065e-07,  3.5926e-07, -9.4250e-07, -1.0757e-07,
+         9.8487e-08, -1.6997e-08,  7.6601e-08,  6.1467e-08,  1.9674e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 263, time 220.24, cls_loss 0.0006 cls_loss_mapping 0.0020 cls_loss_causal 0.4835 re_mapping 0.0041 re_causal 0.0117 /// teacc 99.13 lr 0.00010000
+Epoch 265, weight, value: tensor([[-0.1992, -0.2366,  0.1107,  ..., -0.1187,  0.0484,  0.0360],
+        [-0.1352, -0.0546, -0.0902,  ..., -0.1892, -0.0891, -0.0290],
+        [ 0.0251, -0.1334, -0.1603,  ..., -0.1292,  0.0351, -0.3590],
+        ...,
+        [-0.2065,  0.1538,  0.0190,  ...,  0.1837, -0.0528, -0.1393],
+        [-0.1605, -0.1464,  0.1656,  ..., -0.1407, -0.1520,  0.1513],
+        [ 0.0194, -0.2938,  0.1551,  ...,  0.0635, -0.1998, -0.1281]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  4.6566e-10,  ...,  2.3283e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 1.1642e-09,  6.9849e-09,  1.3970e-09,  ...,  6.5193e-09,
+          0.0000e+00,  6.9849e-10],
+        [ 0.0000e+00,  9.3132e-10,  2.3283e-10,  ...,  6.9849e-10,
+         -9.3132e-10,  0.0000e+00],
+        ...,
+        [ 2.3283e-10, -6.0536e-09,  4.6566e-10,  ..., -5.3551e-09,
+          6.9849e-10,  2.3283e-10],
+        [ 3.7253e-09,  2.3283e-10,  4.6566e-10,  ...,  2.3283e-10,
+          2.3283e-10,  3.0268e-09],
+        [-1.6298e-09,  2.3283e-10, -2.2352e-08,  ..., -1.2573e-08,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 265, bias, value: tensor([-0.0176, -0.0249, -0.0237, -0.0291, -0.0068,  0.0072,  0.0092, -0.0110,
+        -0.0074, -0.0053], device='cuda:0'), grad: tensor([ 5.5879e-09, -1.0198e-06,  1.5134e-08,  4.8662e-08,  8.3819e-07,
+        -5.4715e-08,  3.9581e-09,  2.0163e-07,  1.6065e-08, -3.2829e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 264, time 220.79, cls_loss 0.0009 cls_loss_mapping 0.0022 cls_loss_causal 0.4789 re_mapping 0.0041 re_causal 0.0112 /// teacc 99.12 lr 0.00010000
+Epoch 266, weight, value: tensor([[-0.1994, -0.2375,  0.1111,  ..., -0.1188,  0.0483,  0.0363],
+        [-0.1354, -0.0546, -0.0902,  ..., -0.1893, -0.0891, -0.0287],
+        [ 0.0251, -0.1338, -0.1612,  ..., -0.1294,  0.0353, -0.3594],
+        ...,
+        [-0.2067,  0.1539,  0.0191,  ...,  0.1838, -0.0531, -0.1399],
+        [-0.1609, -0.1470,  0.1673,  ..., -0.1410, -0.1522,  0.1518],
+        [ 0.0197, -0.2940,  0.1555,  ...,  0.0637, -0.1998, -0.1288]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  5.1223e-09, -8.2422e-08,  ...,  9.3132e-09,
+          6.9849e-10, -5.5181e-08],
+        [ 1.3039e-08,  1.2526e-07,  3.9348e-08,  ...,  1.3527e-07,
+          2.0955e-09, -2.3283e-10],
+        [ 9.3132e-10,  4.4238e-08,  6.2864e-09,  ...,  3.5390e-08,
+          7.2177e-08,  2.0955e-09],
+        ...,
+        [ 6.9849e-09, -4.5449e-07, -3.3062e-08,  ..., -3.8906e-07,
+          0.0000e+00,  1.6298e-09],
+        [ 2.2119e-08,  1.6298e-09,  1.1595e-07,  ...,  5.1688e-08,
+          1.3970e-09,  4.6333e-08],
+        [-1.3672e-06,  1.0361e-07, -2.9337e-06,  ..., -2.7716e-06,
+          0.0000e+00,  3.0268e-09]], device='cuda:0')
+Epoch 266, bias, value: tensor([-0.0173, -0.0245, -0.0239, -0.0291, -0.0069,  0.0066,  0.0104, -0.0113,
+        -0.0072, -0.0053], device='cuda:0'), grad: tensor([-3.6554e-08,  7.6322e-07,  1.0222e-05,  3.5553e-07,  1.0110e-05,
+         1.3458e-07, -1.1295e-05, -1.1409e-06,  5.7090e-07, -9.7305e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 265, time 220.71, cls_loss 0.0008 cls_loss_mapping 0.0017 cls_loss_causal 0.4769 re_mapping 0.0040 re_causal 0.0116 /// teacc 99.10 lr 0.00010000
+Epoch 267, weight, value: tensor([[-0.1995, -0.2388,  0.1114,  ..., -0.1189,  0.0483,  0.0363],
+        [-0.1364, -0.0550, -0.0909,  ..., -0.1899, -0.0891, -0.0289],
+        [ 0.0250, -0.1343, -0.1618,  ..., -0.1295,  0.0353, -0.3597],
+        ...,
+        [-0.2069,  0.1542,  0.0195,  ...,  0.1842, -0.0531, -0.1395],
+        [-0.1626, -0.1483,  0.1707,  ..., -0.1412, -0.1522,  0.1529],
+        [ 0.0184, -0.2949,  0.1548,  ...,  0.0632, -0.1998, -0.1317]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  6.9849e-10,  6.9849e-10,  ...,  2.3283e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 2.3283e-10,  8.3819e-09,  1.6298e-09,  ...,  6.9849e-10,
+          0.0000e+00, -7.9162e-09],
+        [ 0.0000e+00,  3.9581e-09,  2.3283e-10,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-10],
+        ...,
+        [ 0.0000e+00,  1.5134e-08,  2.7940e-09,  ...,  4.6566e-10,
+          0.0000e+00,  2.5611e-09],
+        [ 4.4703e-08,  9.3132e-10,  2.1886e-08,  ...,  8.6147e-09,
+          0.0000e+00,  6.3563e-08],
+        [-6.2864e-09,  2.0955e-09, -6.0070e-08,  ..., -2.1188e-08,
+          0.0000e+00, -3.4925e-08]], device='cuda:0')
+Epoch 267, bias, value: tensor([-0.0173, -0.0247, -0.0240, -0.0287, -0.0066,  0.0088,  0.0075, -0.0111,
+        -0.0065, -0.0062], device='cuda:0'), grad: tensor([ 5.5879e-09, -7.6834e-09, -4.7730e-08, -3.3993e-08, -7.6834e-09,
+        -4.4238e-09,  1.9558e-08,  5.7044e-08,  1.7928e-07, -1.5437e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 266, time 220.05, cls_loss 0.0009 cls_loss_mapping 0.0016 cls_loss_causal 0.4829 re_mapping 0.0041 re_causal 0.0111 /// teacc 99.08 lr 0.00010000
+Epoch 268, weight, value: tensor([[-0.1995, -0.2406,  0.1116,  ..., -0.1191,  0.0483,  0.0364],
+        [-0.1368, -0.0552, -0.0910,  ..., -0.1902, -0.0891, -0.0290],
+        [ 0.0250, -0.1341, -0.1626,  ..., -0.1298,  0.0355, -0.3604],
+        ...,
+        [-0.2069,  0.1544,  0.0196,  ...,  0.1846, -0.0531, -0.1398],
+        [-0.1630, -0.1507,  0.1713,  ..., -0.1425, -0.1524,  0.1542],
+        [ 0.0183, -0.2957,  0.1551,  ...,  0.0631, -0.1998, -0.1321]],
+       device='cuda:0'), grad: tensor([[ 5.3551e-09,  6.9849e-10,  3.4925e-09,  ...,  1.6065e-08,
+          0.0000e+00,  1.0617e-07],
+        [ 4.8894e-09,  8.6147e-09,  2.0349e-07,  ...,  4.1444e-08,
+          0.0000e+00,  2.3586e-07],
+        [ 2.3283e-09, -9.5461e-09,  2.0489e-08,  ...,  9.5461e-09,
+          0.0000e+00,  2.5611e-08],
+        ...,
+        [ 3.5623e-08,  4.4238e-09,  1.8161e-08,  ...,  9.0804e-09,
+          0.0000e+00,  2.9104e-08],
+        [ 1.8626e-08,  9.3132e-10, -3.9325e-07,  ...,  2.0955e-09,
+          0.0000e+00, -1.1874e-08],
+        [ 1.0477e-08,  2.0955e-09,  3.2829e-08,  ...,  1.1059e-07,
+          0.0000e+00,  2.0117e-07]], device='cuda:0')
+Epoch 268, bias, value: tensor([-0.0174, -0.0247, -0.0239, -0.0280, -0.0066,  0.0084,  0.0072, -0.0111,
+        -0.0060, -0.0063], device='cuda:0'), grad: tensor([ 4.4634e-07,  6.4913e-07,  1.3132e-07,  1.1828e-07, -7.2271e-07,
+         1.6958e-05, -1.9118e-05,  6.0443e-07, -3.4459e-07,  1.2498e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 267, time 220.31, cls_loss 0.0010 cls_loss_mapping 0.0019 cls_loss_causal 0.4768 re_mapping 0.0040 re_causal 0.0104 /// teacc 99.15 lr 0.00010000
+Epoch 269, weight, value: tensor([[-0.1997, -0.2422,  0.1115,  ..., -0.1193,  0.0483,  0.0361],
+        [-0.1375, -0.0553, -0.0912,  ..., -0.1905, -0.0892, -0.0292],
+        [ 0.0248, -0.1349, -0.1632,  ..., -0.1302,  0.0355, -0.3613],
+        ...,
+        [-0.2061,  0.1546,  0.0195,  ...,  0.1851, -0.0532, -0.1407],
+        [-0.1643, -0.1510,  0.1732,  ..., -0.1428, -0.1524,  0.1560],
+        [ 0.0177, -0.2962,  0.1553,  ...,  0.0631, -0.1999, -0.1333]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  0.0000e+00, -3.5390e-08,  ...,  7.4506e-09,
+          0.0000e+00,  4.0513e-08],
+        [ 1.5832e-08,  1.3970e-09,  1.4016e-07,  ...,  2.4680e-08,
+          0.0000e+00,  1.0757e-07],
+        [ 4.6566e-10,  4.6566e-10,  6.0536e-09,  ...,  2.3283e-09,
+          0.0000e+00, -6.0583e-07],
+        ...,
+        [ 9.3132e-10, -5.5879e-09,  2.7940e-09,  ..., -4.1910e-09,
+          0.0000e+00,  1.5832e-07],
+        [ 1.3970e-09,  4.6566e-10,  4.0513e-08,  ...,  3.0268e-08,
+          0.0000e+00,  1.3225e-07],
+        [-4.1910e-09,  9.3132e-10, -2.4494e-07,  ..., -7.4971e-08,
+          0.0000e+00,  1.1316e-07]], device='cuda:0')
+Epoch 269, bias, value: tensor([-0.0183, -0.0247, -0.0240, -0.0284, -0.0067,  0.0085,  0.0078, -0.0112,
+        -0.0047, -0.0068], device='cuda:0'), grad: tensor([ 9.3644e-07,  1.4734e-06, -8.3297e-06,  1.7043e-07,  3.3528e-08,
+         1.3970e-07,  1.9325e-07,  2.0210e-06,  2.3134e-06,  1.0468e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 268, time 220.81, cls_loss 0.0009 cls_loss_mapping 0.0026 cls_loss_causal 0.4686 re_mapping 0.0040 re_causal 0.0109 /// teacc 99.18 lr 0.00010000
+Epoch 270, weight, value: tensor([[-0.1998, -0.2435,  0.1120,  ..., -0.1196,  0.0482,  0.0364],
+        [-0.1377, -0.0559, -0.0915,  ..., -0.1911, -0.0893, -0.0306],
+        [ 0.0248, -0.1357, -0.1636,  ..., -0.1305,  0.0355, -0.3616],
+        ...,
+        [-0.2052,  0.1551,  0.0196,  ...,  0.1858, -0.0536, -0.1410],
+        [-0.1646, -0.1514,  0.1741,  ..., -0.1432, -0.1525,  0.1573],
+        [ 0.0177, -0.2968,  0.1555,  ...,  0.0631, -0.1999, -0.1336]],
+       device='cuda:0'), grad: tensor([[ 6.0536e-09,  2.3283e-09, -1.2573e-08,  ...,  4.6566e-10,
+          0.0000e+00, -4.6566e-10],
+        [ 8.2422e-08,  1.9558e-07,  4.1910e-09,  ...,  1.2852e-07,
+          0.0000e+00,  4.1910e-08],
+        [ 1.0245e-08,  8.4750e-08,  4.6566e-10,  ...,  1.3039e-08,
+          0.0000e+00,  5.1223e-09],
+        ...,
+        [ 9.7789e-09,  4.5123e-07, -1.3970e-09,  ..., -1.5041e-07,
+          0.0000e+00,  4.6566e-09],
+        [ 8.0559e-08,  1.0245e-08,  4.6566e-10,  ...,  9.3132e-10,
+          0.0000e+00,  4.0978e-08],
+        [ 1.6810e-07,  1.2573e-08, -2.0955e-08,  ..., -7.9162e-09,
+          0.0000e+00,  8.4285e-08]], device='cuda:0')
+Epoch 270, bias, value: tensor([-0.0180, -0.0253, -0.0236, -0.0283, -0.0067,  0.0085,  0.0075, -0.0109,
+        -0.0041, -0.0069], device='cuda:0'), grad: tensor([-1.8161e-08,  6.5612e-07,  1.4761e-07,  6.3740e-06,  7.3109e-08,
+        -8.1584e-06,  1.2247e-07,  2.5798e-07,  1.9930e-07,  3.6508e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 269, time 220.54, cls_loss 0.0008 cls_loss_mapping 0.0016 cls_loss_causal 0.4827 re_mapping 0.0039 re_causal 0.0113 /// teacc 98.95 lr 0.00010000
+Epoch 271, weight, value: tensor([[-0.1999, -0.2440,  0.1113,  ..., -0.1202,  0.0483,  0.0354],
+        [-0.1380, -0.0558, -0.0915,  ..., -0.1913, -0.0893, -0.0306],
+        [ 0.0248, -0.1357, -0.1636,  ..., -0.1308,  0.0356, -0.3623],
+        ...,
+        [-0.2055,  0.1550,  0.0195,  ...,  0.1860, -0.0536, -0.1411],
+        [-0.1648, -0.1523,  0.1754,  ..., -0.1448, -0.1525,  0.1586],
+        [ 0.0176, -0.2970,  0.1557,  ...,  0.0632, -0.1999, -0.1360]],
+       device='cuda:0'), grad: tensor([[ 8.3819e-09,  0.0000e+00, -1.9232e-07,  ...,  0.0000e+00,
+          0.0000e+00, -1.2107e-07],
+        [ 2.7940e-09,  1.8161e-08,  1.0245e-08,  ...,  1.1176e-08,
+          0.0000e+00, -5.1223e-09],
+        [ 1.1176e-08,  8.3819e-09,  1.2107e-08,  ...,  5.1223e-09,
+          0.0000e+00,  2.5611e-08],
+        ...,
+        [ 2.5611e-08, -2.9802e-08, -7.4506e-09,  ...,  1.3970e-08,
+          5.5879e-09,  4.7497e-08],
+        [ 4.2841e-08,  4.6566e-10,  1.5739e-07,  ...,  4.6566e-10,
+          0.0000e+00,  1.8161e-07],
+        [ 8.8802e-07,  2.3283e-09,  9.3132e-10,  ...,  2.8405e-08,
+          4.6566e-10,  1.3690e-06]], device='cuda:0')
+Epoch 271, bias, value: tensor([-0.0189, -0.0252, -0.0233, -0.0282, -0.0064,  0.0083,  0.0077, -0.0112,
+        -0.0034, -0.0073], device='cuda:0'), grad: tensor([-4.2655e-07, -1.0338e-06,  5.6578e-07,  5.2759e-07, -7.4506e-09,
+        -5.4576e-06,  5.7276e-07,  4.2887e-07,  6.4820e-07,  4.1537e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 270, time 220.29, cls_loss 0.0009 cls_loss_mapping 0.0020 cls_loss_causal 0.4727 re_mapping 0.0040 re_causal 0.0111 /// teacc 99.08 lr 0.00010000
+Epoch 272, weight, value: tensor([[-0.2004, -0.2452,  0.1112,  ..., -0.1205,  0.0483,  0.0352],
+        [-0.1394, -0.0557, -0.0914,  ..., -0.1916, -0.0893, -0.0303],
+        [ 0.0245, -0.1380, -0.1644,  ..., -0.1328,  0.0355, -0.3629],
+        ...,
+        [-0.2079,  0.1555,  0.0195,  ...,  0.1865, -0.0541, -0.1416],
+        [-0.1652, -0.1529,  0.1764,  ..., -0.1456, -0.1525,  0.1592],
+        [ 0.0138, -0.2973,  0.1558,  ...,  0.0617, -0.2000, -0.1378]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.9802e-08,  ...,  4.6566e-10,
+          0.0000e+00, -1.3970e-08],
+        [ 0.0000e+00,  1.1642e-08,  5.5879e-09,  ...,  9.7789e-09,
+          0.0000e+00,  2.3283e-09],
+        [ 0.0000e+00, -9.8255e-08,  4.6566e-10,  ..., -1.1781e-07,
+          0.0000e+00, -1.9418e-07],
+        ...,
+        [ 0.0000e+00,  4.8429e-08, -1.9558e-08,  ...,  7.4971e-08,
+          0.0000e+00,  1.9325e-07],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  1.3970e-09],
+        [ 0.0000e+00,  2.1886e-08,  3.2131e-08,  ...,  1.6298e-08,
+          0.0000e+00,  1.3039e-08]], device='cuda:0')
+Epoch 272, bias, value: tensor([-0.0196, -0.0250, -0.0234, -0.0286, -0.0052,  0.0091,  0.0075, -0.0115,
+        -0.0030, -0.0090], device='cuda:0'), grad: tensor([ 9.3132e-09,  4.6613e-07, -5.5134e-06,  1.5181e-07,  9.7789e-08,
+         4.9826e-08, -8.4285e-08,  4.4852e-06,  7.2177e-08,  2.6869e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 271, time 220.48, cls_loss 0.0010 cls_loss_mapping 0.0016 cls_loss_causal 0.4775 re_mapping 0.0039 re_causal 0.0108 /// teacc 99.05 lr 0.00010000
+Epoch 273, weight, value: tensor([[-0.2006, -0.2479,  0.1115,  ..., -0.1208,  0.0483,  0.0352],
+        [-0.1397, -0.0560, -0.0918,  ..., -0.1921, -0.0893, -0.0306],
+        [ 0.0242, -0.1389, -0.1653,  ..., -0.1338,  0.0355, -0.3639],
+        ...,
+        [-0.2083,  0.1565,  0.0197,  ...,  0.1875, -0.0541, -0.1426],
+        [-0.1657, -0.1532,  0.1777,  ..., -0.1438, -0.1525,  0.1601],
+        [ 0.0139, -0.2976,  0.1560,  ...,  0.0615, -0.2000, -0.1388]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.6566e-10, -2.6589e-07,  ...,  0.0000e+00,
+          0.0000e+00, -8.7079e-08],
+        [ 0.0000e+00,  6.1933e-08,  2.7474e-08,  ...,  3.7719e-08,
+          0.0000e+00,  3.7253e-09],
+        [ 0.0000e+00,  5.0291e-08,  6.0536e-09,  ..., -3.0268e-08,
+          0.0000e+00,  1.8626e-09],
+        ...,
+        [ 0.0000e+00, -2.1840e-07, -2.9802e-08,  ..., -6.1002e-08,
+          0.0000e+00,  2.3283e-09],
+        [ 0.0000e+00,  2.3283e-09,  3.7253e-09,  ...,  1.3970e-09,
+          0.0000e+00,  1.3970e-09],
+        [-4.6566e-10,  4.1910e-09,  1.0710e-08,  ...,  9.3132e-10,
+          0.0000e+00,  4.1910e-09]], device='cuda:0')
+Epoch 273, bias, value: tensor([-0.0190, -0.0234, -0.0255, -0.0295, -0.0051,  0.0094,  0.0076, -0.0111,
+        -0.0022, -0.0094], device='cuda:0'), grad: tensor([-8.4937e-07,  8.8476e-09, -1.1129e-06,  1.5274e-07, -9.7789e-08,
+         2.5146e-08,  8.0559e-07,  8.7824e-07,  1.4622e-07,  4.8894e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 272, time 220.50, cls_loss 0.0008 cls_loss_mapping 0.0016 cls_loss_causal 0.4886 re_mapping 0.0040 re_causal 0.0109 /// teacc 99.11 lr 0.00010000
+Epoch 274, weight, value: tensor([[-0.2006, -0.2485,  0.1124,  ..., -0.1211,  0.0483,  0.0355],
+        [-0.1409, -0.0561, -0.0923,  ..., -0.1926, -0.0893, -0.0306],
+        [ 0.0241, -0.1387, -0.1657,  ..., -0.1339,  0.0355, -0.3642],
+        ...,
+        [-0.2088,  0.1572,  0.0209,  ...,  0.1890, -0.0541, -0.1434],
+        [-0.1662, -0.1535,  0.1783,  ..., -0.1441, -0.1525,  0.1604],
+        [ 0.0139, -0.3005,  0.1550,  ...,  0.0611, -0.2000, -0.1395]],
+       device='cuda:0'), grad: tensor([[-7.4506e-09, -1.1642e-08, -7.4971e-08,  ...,  4.6566e-10,
+         -4.6566e-10, -4.5635e-08],
+        [ 0.0000e+00,  2.3283e-09,  8.3819e-09,  ...,  2.3283e-09,
+          0.0000e+00,  7.4506e-09],
+        [ 9.3132e-10,  5.5879e-09,  1.2107e-08,  ...,  9.3132e-10,
+          0.0000e+00,  7.9162e-09],
+        ...,
+        [ 1.8626e-09,  3.7253e-09,  3.7253e-08,  ...,  2.1420e-08,
+          0.0000e+00,  1.1642e-08],
+        [ 7.4506e-09,  1.8626e-09,  1.2247e-07,  ...,  8.8476e-08,
+          0.0000e+00,  2.2817e-08],
+        [-6.0536e-09,  0.0000e+00, -1.6531e-07,  ..., -1.3690e-07,
+          0.0000e+00,  8.8476e-09]], device='cuda:0')
+Epoch 274, bias, value: tensor([-0.0186, -0.0233, -0.0254, -0.0302, -0.0053,  0.0098,  0.0076, -0.0107,
+        -0.0022, -0.0100], device='cuda:0'), grad: tensor([-9.1270e-08,  4.0978e-08, -6.0070e-08,  2.0489e-08,  7.9162e-08,
+         6.6357e-07, -7.8836e-07,  1.2480e-07,  3.9162e-07, -3.8370e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 273, time 220.60, cls_loss 0.0008 cls_loss_mapping 0.0018 cls_loss_causal 0.4632 re_mapping 0.0038 re_causal 0.0108 /// teacc 99.12 lr 0.00010000
+Epoch 275, weight, value: tensor([[-0.2007, -0.2492,  0.1120,  ..., -0.1224,  0.0483,  0.0354],
+        [-0.1410, -0.0559, -0.0924,  ..., -0.1928, -0.0893, -0.0300],
+        [ 0.0241, -0.1393, -0.1662,  ..., -0.1346,  0.0355, -0.3652],
+        ...,
+        [-0.2089,  0.1572,  0.0208,  ...,  0.1901, -0.0541, -0.1442],
+        [-0.1666, -0.1541,  0.1786,  ..., -0.1443, -0.1525,  0.1606],
+        [ 0.0140, -0.3009,  0.1556,  ...,  0.0611, -0.2000, -0.1394]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  2.7940e-09,  4.6566e-10,  ...,  2.7940e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  7.7300e-08,  0.0000e+00,  ...,  8.1491e-08,
+          0.0000e+00, -1.8626e-09],
+        [ 0.0000e+00,  3.5465e-06,  0.0000e+00,  ...,  3.7942e-06,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [ 4.6566e-10, -3.6471e-06,  0.0000e+00,  ..., -3.9078e-06,
+          0.0000e+00,  1.8626e-09],
+        [ 9.7789e-09,  1.3970e-09,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  7.9162e-09],
+        [ 9.3132e-10,  1.7695e-08,  9.3132e-10,  ...,  7.4506e-09,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 275, bias, value: tensor([-0.0187, -0.0234, -0.0252, -0.0301, -0.0059,  0.0098,  0.0078, -0.0106,
+        -0.0021, -0.0101], device='cuda:0'), grad: tensor([ 9.7789e-09,  1.6764e-07,  8.9109e-06,  3.0408e-07,  5.1223e-09,
+        -3.3574e-07, -9.3132e-10, -9.1344e-06,  3.3528e-08,  4.1444e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 274, time 220.14, cls_loss 0.0008 cls_loss_mapping 0.0022 cls_loss_causal 0.4683 re_mapping 0.0040 re_causal 0.0108 /// teacc 99.16 lr 0.00010000
+Epoch 276, weight, value: tensor([[-0.2010, -0.2502,  0.1114,  ..., -0.1249,  0.0483,  0.0356],
+        [-0.1410, -0.0564, -0.0931,  ..., -0.1937, -0.0894, -0.0307],
+        [ 0.0241, -0.1406, -0.1670,  ..., -0.1369,  0.0355, -0.3656],
+        ...,
+        [-0.2092,  0.1579,  0.0213,  ...,  0.1912, -0.0541, -0.1437],
+        [-0.1669, -0.1549,  0.1801,  ..., -0.1446, -0.1525,  0.1626],
+        [ 0.0140, -0.3017,  0.1563,  ...,  0.0613, -0.2000, -0.1395]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  6.0536e-09,  4.6566e-09,  ...,  6.0536e-09,
+          0.0000e+00,  1.2107e-08],
+        [ 0.0000e+00,  9.5926e-08,  2.8405e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.3411e-07],
+        ...,
+        [ 4.6566e-10, -2.3283e-09, -5.5879e-09,  ..., -1.4901e-08,
+          0.0000e+00,  4.1910e-09],
+        [ 4.6566e-10,  4.6566e-10, -8.2422e-08,  ...,  0.0000e+00,
+          0.0000e+00, -3.8976e-07],
+        [ 1.8626e-09,  9.7789e-09,  4.1910e-09,  ...,  1.0245e-08,
+          0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 276, bias, value: tensor([-0.0192, -0.0238, -0.0250, -0.0299, -0.0059,  0.0095,  0.0071, -0.0103,
+        -0.0003, -0.0101], device='cuda:0'), grad: tensor([ 4.6566e-10,  3.6787e-08,  4.6473e-07, -1.8626e-09, -2.3283e-09,
+         4.2003e-07,  2.1420e-08,  1.0710e-08, -9.7137e-07,  2.3283e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 275, time 221.13, cls_loss 0.0009 cls_loss_mapping 0.0023 cls_loss_causal 0.4923 re_mapping 0.0038 re_causal 0.0109 /// teacc 99.07 lr 0.00010000
+Epoch 277, weight, value: tensor([[-0.2012, -0.2507,  0.1125,  ..., -0.1251,  0.0487,  0.0363],
+        [-0.1415, -0.0579, -0.0943,  ..., -0.1972, -0.0894, -0.0308],
+        [ 0.0241, -0.1408, -0.1675,  ..., -0.1371,  0.0354, -0.3659],
+        ...,
+        [-0.2087,  0.1598,  0.0226,  ...,  0.1949, -0.0541, -0.1439],
+        [-0.1690, -0.1558,  0.1801,  ..., -0.1456, -0.1526,  0.1621],
+        [ 0.0140, -0.3025,  0.1563,  ...,  0.0609, -0.2000, -0.1398]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  1.8720e-07,  ...,  1.1129e-07,
+          0.0000e+00, -4.6566e-09],
+        [ 4.6566e-10, -3.2596e-09,  1.3784e-07,  ...,  7.4971e-08,
+          0.0000e+00, -1.8626e-09],
+        [ 0.0000e+00,  9.3132e-10,  1.4901e-08,  ..., -6.5193e-09,
+          0.0000e+00,  1.3970e-09],
+        ...,
+        [ 4.6566e-10,  7.4506e-09,  2.3786e-06,  ...,  1.3039e-06,
+          0.0000e+00,  4.1910e-09],
+        [ 4.6566e-10,  0.0000e+00,  2.4214e-08,  ...,  1.5367e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00, -3.2019e-06,  ..., -1.7490e-06,
+          0.0000e+00,  1.3970e-09]], device='cuda:0')
+Epoch 277, bias, value: tensor([-0.0183, -0.0252, -0.0250, -0.0300, -0.0059,  0.0081,  0.0087, -0.0081,
+        -0.0010, -0.0106], device='cuda:0'), grad: tensor([ 5.1968e-07,  3.1665e-07, -3.0268e-08,  6.9151e-07,  1.0990e-07,
+         4.4284e-07, -1.8161e-08,  6.4969e-06,  6.6124e-08, -8.5607e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 276, time 220.53, cls_loss 0.0008 cls_loss_mapping 0.0013 cls_loss_causal 0.4916 re_mapping 0.0040 re_causal 0.0111 /// teacc 99.05 lr 0.00010000
+Epoch 278, weight, value: tensor([[-0.2014, -0.2514,  0.1135,  ..., -0.1255,  0.0489,  0.0369],
+        [-0.1420, -0.0583, -0.0944,  ..., -0.1976, -0.0894, -0.0307],
+        [ 0.0246, -0.1414, -0.1680,  ..., -0.1379,  0.0352, -0.3664],
+        ...,
+        [-0.2092,  0.1604,  0.0226,  ...,  0.1953, -0.0542, -0.1443],
+        [-0.1696, -0.1569,  0.1804,  ..., -0.1463, -0.1528,  0.1622],
+        [ 0.0139, -0.3028,  0.1568,  ...,  0.0608, -0.2002, -0.1400]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -1.0245e-08,  ...,  8.3819e-09,
+          0.0000e+00,  9.3132e-10],
+        [ 4.6566e-10,  1.6904e-07,  1.7649e-07,  ...,  4.7730e-07,
+          0.0000e+00, -6.0536e-09],
+        [ 9.3132e-10,  0.0000e+00,  4.6566e-09,  ...,  3.2596e-09,
+          0.0000e+00,  2.7940e-09],
+        ...,
+        [ 1.5832e-08, -1.8114e-07, -1.8720e-07,  ..., -4.5542e-07,
+          0.0000e+00,  2.4214e-08],
+        [ 2.7940e-09,  0.0000e+00,  9.3132e-10,  ...,  2.3283e-09,
+          0.0000e+00,  4.1910e-09],
+        [ 1.9558e-08,  1.2573e-08,  1.6298e-08,  ...,  2.2575e-06,
+          0.0000e+00,  2.5611e-08]], device='cuda:0')
+Epoch 278, bias, value: tensor([-0.0176, -0.0254, -0.0249, -0.0298, -0.0054,  0.0080,  0.0087, -0.0079,
+        -0.0014, -0.0108], device='cuda:0'), grad: tensor([ 6.5193e-09,  9.4529e-07,  4.3772e-08,  1.2293e-07, -7.8753e-06,
+        -2.5984e-07,  5.5414e-08, -7.7765e-07,  2.2817e-08,  7.7263e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 277, time 220.52, cls_loss 0.0008 cls_loss_mapping 0.0016 cls_loss_causal 0.5067 re_mapping 0.0037 re_causal 0.0108 /// teacc 99.13 lr 0.00010000
+Epoch 279, weight, value: tensor([[-0.2016, -0.2514,  0.1139,  ..., -0.1263,  0.0490,  0.0372],
+        [-0.1425, -0.0583, -0.0947,  ..., -0.1976, -0.0892, -0.0307],
+        [ 0.0245, -0.1418, -0.1686,  ..., -0.1386,  0.0351, -0.3670],
+        ...,
+        [-0.2095,  0.1606,  0.0225,  ...,  0.1954, -0.0539, -0.1446],
+        [-0.1698, -0.1576,  0.1807,  ..., -0.1471, -0.1529,  0.1624],
+        [ 0.0140, -0.3030,  0.1574,  ...,  0.0608, -0.2002, -0.1405]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.6298e-08,  ...,  7.4506e-09,
+         -4.6566e-10, -1.0245e-08],
+        [ 0.0000e+00,  1.8626e-09,  4.1910e-09,  ...,  4.6566e-09,
+          0.0000e+00, -4.6566e-10],
+        [ 0.0000e+00,  4.6566e-10,  3.7253e-09,  ...,  4.6566e-10,
+         -9.3132e-10,  9.3132e-10],
+        ...,
+        [ 0.0000e+00, -9.3132e-09,  4.6566e-09,  ..., -8.3819e-09,
+          0.0000e+00,  1.3970e-09],
+        [ 0.0000e+00,  4.6566e-10,  9.7789e-09,  ...,  8.8476e-09,
+          9.3132e-10, -3.7253e-09],
+        [ 0.0000e+00,  9.7789e-09, -4.6100e-08,  ..., -4.1444e-08,
+          4.6566e-10,  4.1910e-09]], device='cuda:0')
+Epoch 279, bias, value: tensor([-0.0171, -0.0252, -0.0249, -0.0300, -0.0053,  0.0079,  0.0088, -0.0083,
+        -0.0014, -0.0107], device='cuda:0'), grad: tensor([-4.4703e-08,  1.1176e-08, -4.1910e-09, -3.8184e-08,  5.2154e-08,
+         6.3796e-08,  1.6298e-08,  3.7253e-09,  2.7940e-08, -8.7079e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 278, time 220.88, cls_loss 0.0007 cls_loss_mapping 0.0015 cls_loss_causal 0.4800 re_mapping 0.0036 re_causal 0.0106 /// teacc 99.07 lr 0.00010000
+Epoch 280, weight, value: tensor([[-0.2023, -0.2525,  0.1146,  ..., -0.1268,  0.0490,  0.0373],
+        [-0.1433, -0.0584, -0.0948,  ..., -0.1977, -0.0893, -0.0306],
+        [ 0.0244, -0.1416, -0.1692,  ..., -0.1389,  0.0351, -0.3677],
+        ...,
+        [-0.2108,  0.1606,  0.0224,  ...,  0.1954, -0.0538, -0.1451],
+        [-0.1704, -0.1585,  0.1808,  ..., -0.1475, -0.1529,  0.1626],
+        [ 0.0160, -0.3031,  0.1587,  ...,  0.0614, -0.2003, -0.1407]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  4.6566e-09,  3.2596e-09,  ...,  3.2596e-09,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  5.1782e-07,  5.5879e-09,  ...,  5.9139e-07,
+          0.0000e+00, -2.7940e-09],
+        [ 0.0000e+00,  1.4622e-07,  6.0536e-09,  ...,  1.5739e-07,
+          0.0000e+00,  1.3970e-09],
+        ...,
+        [ 4.6566e-10, -6.8592e-07, -2.0023e-08,  ..., -7.7393e-07,
+          0.0000e+00,  4.6566e-10],
+        [ 4.6566e-10,  1.2573e-08,  6.0536e-09,  ...,  3.2596e-09,
+          0.0000e+00,  1.3970e-09],
+        [ 1.8626e-09,  4.0513e-08,  2.7940e-09,  ...,  2.3283e-09,
+          0.0000e+00,  2.3283e-09]], device='cuda:0')
+Epoch 280, bias, value: tensor([-0.0166, -0.0252, -0.0247, -0.0300, -0.0050,  0.0078,  0.0085, -0.0086,
+        -0.0014, -0.0102], device='cuda:0'), grad: tensor([ 1.9558e-08,  1.2107e-06,  3.6135e-07, -1.3690e-07,  2.1420e-08,
+         2.6543e-08, -5.1223e-09, -1.6121e-06,  4.1910e-08,  8.2422e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 279, time 220.50, cls_loss 0.0010 cls_loss_mapping 0.0018 cls_loss_causal 0.5053 re_mapping 0.0037 re_causal 0.0104 /// teacc 99.10 lr 0.00010000
+Epoch 281, weight, value: tensor([[-0.2037, -0.2532,  0.1143,  ..., -0.1276,  0.0484,  0.0369],
+        [-0.1457, -0.0569, -0.0946,  ..., -0.1979, -0.0891, -0.0300],
+        [ 0.0216, -0.1422, -0.1713,  ..., -0.1396,  0.0339, -0.3710],
+        ...,
+        [-0.2113,  0.1596,  0.0220,  ...,  0.1954, -0.0538, -0.1465],
+        [-0.1721, -0.1594,  0.1809,  ..., -0.1484, -0.1531,  0.1626],
+        [ 0.0164, -0.3033,  0.1614,  ...,  0.0637, -0.2003, -0.1406]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  1.8626e-09, -1.1642e-07,  ...,  6.5193e-09,
+          0.0000e+00, -5.8673e-08],
+        [ 9.3132e-10,  3.1199e-08,  2.3749e-08,  ...,  2.8405e-08,
+          0.0000e+00,  1.1176e-08],
+        [ 0.0000e+00, -7.2643e-08,  8.3819e-09,  ..., -7.2177e-08,
+          0.0000e+00, -7.9162e-09],
+        ...,
+        [ 1.3970e-09,  4.9360e-08,  5.8208e-08,  ...,  8.3353e-08,
+          0.0000e+00,  2.7008e-08],
+        [ 7.4506e-09,  5.5879e-09,  3.3993e-08,  ...,  2.5146e-08,
+          0.0000e+00,  2.2352e-08],
+        [-9.3132e-10,  9.3132e-10, -2.5099e-07,  ..., -3.6322e-07,
+          0.0000e+00, -1.2573e-08]], device='cuda:0')
+Epoch 281, bias, value: tensor([-0.0163, -0.0245, -0.0253, -0.0294, -0.0065,  0.0080,  0.0083, -0.0099,
+        -0.0018, -0.0081], device='cuda:0'), grad: tensor([-3.0873e-07,  3.7532e-07, -1.2759e-06,  2.7940e-08,  5.5647e-07,
+         1.2573e-08,  4.0047e-08,  1.0990e-06,  1.4668e-07, -6.7474e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 280, time 221.02, cls_loss 0.0007 cls_loss_mapping 0.0012 cls_loss_causal 0.4744 re_mapping 0.0037 re_causal 0.0109 /// teacc 99.11 lr 0.00010000
+Epoch 282, weight, value: tensor([[-0.2039, -0.2538,  0.1131,  ..., -0.1302,  0.0484,  0.0364],
+        [-0.1459, -0.0569, -0.0946,  ..., -0.1980, -0.0891, -0.0297],
+        [ 0.0216, -0.1422, -0.1721,  ..., -0.1388,  0.0341, -0.3708],
+        ...,
+        [-0.2117,  0.1596,  0.0220,  ...,  0.1953, -0.0542, -0.1477],
+        [-0.1722, -0.1597,  0.1811,  ..., -0.1490, -0.1531,  0.1629],
+        [ 0.0164, -0.3035,  0.1622,  ...,  0.0631, -0.2010, -0.1409]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  1.3970e-09, -1.9092e-08,  ...,  1.4901e-08,
+          0.0000e+00, -9.3132e-09],
+        [ 1.3970e-09,  1.0245e-08,  3.7253e-09,  ...,  5.4482e-08,
+          0.0000e+00, -1.8626e-09],
+        [ 1.3970e-09,  1.8161e-08,  6.0536e-09,  ...,  2.9337e-08,
+          0.0000e+00,  1.8626e-09],
+        ...,
+        [ 4.6566e-09,  1.0245e-08,  1.3504e-08,  ...,  3.0734e-08,
+          0.0000e+00,  5.1223e-09],
+        [ 2.3283e-09,  4.1910e-09,  1.1735e-07,  ...,  9.8720e-08,
+          0.0000e+00,  2.7474e-08],
+        [-2.2352e-08,  3.7253e-09, -2.2585e-07,  ...,  1.3039e-07,
+          0.0000e+00, -5.1223e-08]], device='cuda:0')
+Epoch 282, bias, value: tensor([-0.0177, -0.0244, -0.0250, -0.0295, -0.0058,  0.0079,  0.0086, -0.0103,
+        -0.0017, -0.0085], device='cuda:0'), grad: tensor([-1.1176e-08,  1.6671e-07,  1.0943e-07, -2.5937e-07, -1.2312e-06,
+         2.5472e-07,  6.4261e-08,  1.4668e-07,  2.6124e-07,  5.0152e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 281, time 220.64, cls_loss 0.0010 cls_loss_mapping 0.0021 cls_loss_causal 0.4430 re_mapping 0.0039 re_causal 0.0105 /// teacc 99.13 lr 0.00010000
+Epoch 283, weight, value: tensor([[-0.2044, -0.2545,  0.1155,  ..., -0.1310,  0.0485,  0.0372],
+        [-0.1462, -0.0569, -0.0948,  ..., -0.1982, -0.0888, -0.0294],
+        [ 0.0216, -0.1426, -0.1755,  ..., -0.1394,  0.0338, -0.3711],
+        ...,
+        [-0.2118,  0.1597,  0.0221,  ...,  0.1956, -0.0544, -0.1483],
+        [-0.1726, -0.1601,  0.1813,  ..., -0.1496, -0.1532,  0.1630],
+        [ 0.0162, -0.3040,  0.1618,  ...,  0.0623, -0.2018, -0.1422]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  9.3132e-10, -6.3563e-07,  ...,  1.3970e-09,
+          0.0000e+00, -1.7276e-07],
+        [ 0.0000e+00,  2.7008e-08,  1.7695e-08,  ...,  1.8626e-08,
+          0.0000e+00,  2.3283e-09],
+        [ 0.0000e+00,  1.3085e-07,  6.2585e-07,  ...,  5.9139e-08,
+          0.0000e+00,  1.2480e-07],
+        ...,
+        [ 0.0000e+00, -2.4494e-07, -1.0803e-07,  ..., -1.3458e-07,
+          0.0000e+00,  2.7940e-09],
+        [ 9.3132e-10,  5.3085e-08,  2.7008e-08,  ...,  2.3283e-08,
+          0.0000e+00,  2.4214e-08],
+        [-6.9849e-09,  2.5146e-08,  2.6543e-08,  ...,  2.4214e-08,
+          0.0000e+00,  6.0536e-09]], device='cuda:0')
+Epoch 283, bias, value: tensor([-0.0162, -0.0243, -0.0251, -0.0294, -0.0059,  0.0095,  0.0078, -0.0105,
+        -0.0018, -0.0098], device='cuda:0'), grad: tensor([-1.8757e-06,  8.7079e-08,  1.5115e-06,  1.1828e-07,  1.6298e-08,
+         3.2596e-08,  1.9558e-08, -5.2946e-07,  4.9733e-07,  1.2713e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 282, time 220.32, cls_loss 0.0007 cls_loss_mapping 0.0017 cls_loss_causal 0.4963 re_mapping 0.0039 re_causal 0.0109 /// teacc 99.12 lr 0.00010000
+Epoch 284, weight, value: tensor([[-0.2056, -0.2549,  0.1167,  ..., -0.1311,  0.0487,  0.0374],
+        [-0.1464, -0.0569, -0.0948,  ..., -0.1983, -0.0887, -0.0290],
+        [ 0.0215, -0.1428, -0.1773,  ..., -0.1394,  0.0338, -0.3716],
+        ...,
+        [-0.2119,  0.1598,  0.0222,  ...,  0.1957, -0.0547, -0.1486],
+        [-0.1733, -0.1610,  0.1812,  ..., -0.1511, -0.1532,  0.1631],
+        [ 0.0160, -0.3043,  0.1618,  ...,  0.0622, -0.2020, -0.1426]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -7.9162e-09,  ...,  4.6566e-10,
+          0.0000e+00,  2.6971e-06],
+        [ 0.0000e+00,  1.3970e-09,  4.6566e-10,  ...,  1.8626e-09,
+          0.0000e+00, -1.3039e-08],
+        [ 0.0000e+00, -4.6566e-09,  0.0000e+00,  ..., -9.7789e-09,
+          0.0000e+00,  2.7940e-09],
+        ...,
+        [ 0.0000e+00,  2.3283e-09,  2.1420e-08,  ...,  1.9092e-08,
+          0.0000e+00,  1.3970e-09],
+        [-9.3132e-10,  0.0000e+00, -4.1910e-09,  ...,  0.0000e+00,
+          0.0000e+00,  6.0536e-09],
+        [ 4.6566e-10,  0.0000e+00, -2.4680e-08,  ..., -9.7789e-09,
+          0.0000e+00,  4.6566e-09]], device='cuda:0')
+Epoch 284, bias, value: tensor([-0.0156, -0.0243, -0.0250, -0.0296, -0.0056,  0.0096,  0.0077, -0.0107,
+        -0.0023, -0.0102], device='cuda:0'), grad: tensor([ 9.8869e-06, -4.1910e-08, -7.2643e-08,  1.2107e-08,  2.7940e-08,
+        -4.6100e-08, -9.9093e-06,  1.0291e-07,  4.1444e-08, -1.1642e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 283, time 220.40, cls_loss 0.0009 cls_loss_mapping 0.0016 cls_loss_causal 0.4982 re_mapping 0.0037 re_causal 0.0105 /// teacc 99.05 lr 0.00010000
+Epoch 285, weight, value: tensor([[-0.2060, -0.2568,  0.1177,  ..., -0.1315,  0.0489,  0.0379],
+        [-0.1469, -0.0570, -0.0949,  ..., -0.1984, -0.0887, -0.0287],
+        [ 0.0217, -0.1436, -0.1778,  ..., -0.1398,  0.0339, -0.3719],
+        ...,
+        [-0.2123,  0.1601,  0.0226,  ...,  0.1960, -0.0548, -0.1490],
+        [-0.1741, -0.1621,  0.1808,  ..., -0.1523, -0.1532,  0.1630],
+        [ 0.0156, -0.3054,  0.1618,  ...,  0.0606, -0.2020, -0.1430]],
+       device='cuda:0'), grad: tensor([[ 3.2596e-09,  9.3132e-10, -4.6566e-10,  ...,  2.7940e-09,
+          0.0000e+00,  2.7940e-09],
+        [ 3.2596e-09,  1.1642e-08,  3.7253e-09,  ...,  1.5832e-08,
+          0.0000e+00,  2.3283e-09],
+        [ 3.3062e-08,  7.2643e-08,  1.8626e-09,  ...,  8.8941e-08,
+          0.0000e+00,  2.3283e-09],
+        ...,
+        [-3.9581e-08, -1.2107e-07, -9.3132e-09,  ..., -1.5972e-07,
+          0.0000e+00,  1.3970e-09],
+        [ 1.1176e-08,  4.6566e-10, -3.5390e-08,  ...,  9.3132e-10,
+          0.0000e+00, -2.5146e-08],
+        [ 2.8266e-07,  1.6764e-08,  3.2596e-08,  ...,  1.3970e-07,
+          0.0000e+00,  1.8626e-07]], device='cuda:0')
+Epoch 285, bias, value: tensor([-0.0150, -0.0243, -0.0250, -0.0290, -0.0045,  0.0096,  0.0077, -0.0106,
+        -0.0027, -0.0118], device='cuda:0'), grad: tensor([ 1.5832e-08,  6.3330e-08,  3.1479e-07,  1.0151e-07, -4.1956e-07,
+        -6.6776e-07,  3.8184e-08, -5.0524e-07, -3.7719e-08,  1.1064e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 284, time 220.21, cls_loss 0.0008 cls_loss_mapping 0.0026 cls_loss_causal 0.4685 re_mapping 0.0036 re_causal 0.0104 /// teacc 99.08 lr 0.00010000
+Epoch 286, weight, value: tensor([[-0.2062, -0.2578,  0.1156,  ..., -0.1341,  0.0487,  0.0380],
+        [-0.1473, -0.0574, -0.0953,  ..., -0.1986, -0.0887, -0.0287],
+        [ 0.0217, -0.1445, -0.1786,  ..., -0.1408,  0.0341, -0.3721],
+        ...,
+        [-0.2123,  0.1606,  0.0228,  ...,  0.1964, -0.0548, -0.1493],
+        [-0.1746, -0.1627,  0.1810,  ..., -0.1526, -0.1532,  0.1628],
+        [ 0.0156, -0.3057,  0.1637,  ...,  0.0612, -0.2020, -0.1431]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  4.6566e-10, -9.8441e-07,  ...,  9.7789e-09,
+          0.0000e+00, -1.3905e-06],
+        [ 1.3970e-09,  2.3283e-09,  1.0710e-08,  ...,  2.7940e-09,
+          0.0000e+00,  1.3970e-08],
+        [ 4.6566e-10,  9.3132e-10,  4.6566e-09,  ...,  4.1910e-09,
+          0.0000e+00,  6.5193e-09],
+        ...,
+        [ 4.6566e-09,  2.3283e-09,  3.0268e-08,  ...,  4.1910e-09,
+          0.0000e+00,  3.7253e-08],
+        [ 9.3132e-10,  9.3132e-10,  3.9442e-07,  ...,  1.3970e-09,
+          0.0000e+00,  5.5460e-07],
+        [-5.0291e-08,  9.3132e-09, -6.9849e-08,  ...,  3.5064e-07,
+          0.0000e+00,  1.7229e-08]], device='cuda:0')
+Epoch 286, bias, value: tensor([-0.0164, -0.0245, -0.0247, -0.0292, -0.0053,  0.0096,  0.0077, -0.0102,
+        -0.0033, -0.0111], device='cuda:0'), grad: tensor([-3.2671e-06,  5.0291e-08,  3.1199e-08, -1.4529e-07, -1.1008e-06,
+         7.9349e-07,  1.2573e-06,  1.1222e-07,  1.3318e-06,  9.4250e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 285, time 220.38, cls_loss 0.0008 cls_loss_mapping 0.0015 cls_loss_causal 0.4817 re_mapping 0.0037 re_causal 0.0105 /// teacc 99.04 lr 0.00010000
+Epoch 287, weight, value: tensor([[-0.2064, -0.2580,  0.1160,  ..., -0.1342,  0.0488,  0.0386],
+        [-0.1492, -0.0577, -0.0959,  ..., -0.1991, -0.0879, -0.0289],
+        [ 0.0218, -0.1449, -0.1793,  ..., -0.1409,  0.0337, -0.3720],
+        ...,
+        [-0.2131,  0.1608,  0.0228,  ...,  0.1969, -0.0549, -0.1501],
+        [-0.1748, -0.1629,  0.1816,  ..., -0.1524, -0.1532,  0.1631],
+        [ 0.0159, -0.3061,  0.1643,  ...,  0.0613, -0.2020, -0.1437]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  6.7987e-08,  4.9826e-08,  ...,  7.1246e-08,
+          0.0000e+00, -4.6566e-10],
+        [ 0.0000e+00,  4.6566e-10, -1.3970e-09,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 4.6566e-10, -8.8941e-08, -6.4261e-08,  ..., -9.2667e-08,
+          0.0000e+00, -1.3970e-09],
+        [ 4.6566e-10,  5.5879e-09,  5.1223e-09,  ...,  6.0536e-09,
+          0.0000e+00,  4.6566e-10],
+        [-4.1910e-09,  9.7789e-09,  1.3970e-09,  ...,  9.7789e-09,
+          0.0000e+00,  4.6566e-10]], device='cuda:0')
+Epoch 287, bias, value: tensor([-0.0161, -0.0249, -0.0244, -0.0293, -0.0055,  0.0096,  0.0078, -0.0101,
+        -0.0034, -0.0110], device='cuda:0'), grad: tensor([ 3.7719e-08,  1.8300e-07, -3.7253e-08,  9.3132e-09,  1.0096e-06,
+         1.5134e-07, -1.1791e-06, -2.5611e-07,  4.0047e-08,  4.0047e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 286, time 220.25, cls_loss 0.0007 cls_loss_mapping 0.0014 cls_loss_causal 0.4385 re_mapping 0.0038 re_causal 0.0101 /// teacc 99.12 lr 0.00010000
+Epoch 288, weight, value: tensor([[-0.2072, -0.2590,  0.1158,  ..., -0.1346,  0.0487,  0.0382],
+        [-0.1502, -0.0578, -0.0961,  ..., -0.1992, -0.0877, -0.0287],
+        [ 0.0218, -0.1453, -0.1797,  ..., -0.1413,  0.0336, -0.3722],
+        ...,
+        [-0.2133,  0.1609,  0.0228,  ...,  0.1970, -0.0550, -0.1504],
+        [-0.1756, -0.1632,  0.1817,  ..., -0.1528, -0.1532,  0.1630],
+        [ 0.0156, -0.3065,  0.1647,  ...,  0.0610, -0.2021, -0.1440]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  3.2596e-09,  4.6566e-10,  ...,  1.3970e-09,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ..., -4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  3.4925e-08,  2.7940e-09,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  9.3132e-10,  9.3132e-10,  ...,  9.3132e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  9.3132e-10, -3.7253e-09,  ..., -2.7940e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 288, bias, value: tensor([-0.0166, -0.0248, -0.0244, -0.0293, -0.0048,  0.0095,  0.0078, -0.0103,
+        -0.0037, -0.0115], device='cuda:0'), grad: tensor([ 5.1223e-09,  1.1409e-07, -1.1735e-07, -7.6368e-08,  3.7253e-09,
+         2.3749e-08, -1.8626e-09,  5.8208e-08,  6.9849e-09, -3.2596e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 287, time 220.48, cls_loss 0.0008 cls_loss_mapping 0.0016 cls_loss_causal 0.4865 re_mapping 0.0036 re_causal 0.0105 /// teacc 99.09 lr 0.00010000
+Epoch 289, weight, value: tensor([[-0.2088, -0.2603,  0.1156,  ..., -0.1349,  0.0487,  0.0378],
+        [-0.1507, -0.0580, -0.0962,  ..., -0.1993, -0.0876, -0.0293],
+        [ 0.0214, -0.1450, -0.1808,  ..., -0.1418,  0.0336, -0.3727],
+        ...,
+        [-0.2137,  0.1610,  0.0228,  ...,  0.1972, -0.0551, -0.1506],
+        [-0.1760, -0.1636,  0.1819,  ..., -0.1533, -0.1532,  0.1635],
+        [ 0.0161, -0.3068,  0.1663,  ...,  0.0619, -0.2021, -0.1442]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.5611e-09,  6.7521e-09,  ...,  9.3132e-10,
+          0.0000e+00,  2.3516e-08],
+        [ 9.3132e-10,  9.5228e-08,  6.9384e-08,  ...,  6.4960e-08,
+          0.0000e+00,  2.4005e-07],
+        [ 0.0000e+00,  3.5856e-08,  3.4925e-09,  ...,  2.5146e-08,
+         -1.1642e-09,  1.1874e-08],
+        ...,
+        [ 2.3283e-10, -1.1944e-07,  1.0710e-08,  ..., -9.1502e-08,
+          9.3132e-10,  3.7951e-08],
+        [ 1.6298e-09, -8.0559e-08, -2.3865e-07,  ...,  9.3132e-10,
+          0.0000e+00, -8.3260e-07],
+        [ 1.2340e-08,  4.6566e-09, -1.5367e-08,  ...,  2.5914e-07,
+          0.0000e+00,  2.3749e-08]], device='cuda:0')
+Epoch 289, bias, value: tensor([-0.0172, -0.0250, -0.0239, -0.0291, -0.0051,  0.0095,  0.0078, -0.0104,
+        -0.0041, -0.0111], device='cuda:0'), grad: tensor([ 8.3121e-08,  8.5169e-07,  9.8255e-08,  5.4948e-07, -1.3374e-06,
+         8.1584e-07,  2.3586e-07, -2.9337e-08, -2.6934e-06,  1.4259e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 288, time 220.84, cls_loss 0.0009 cls_loss_mapping 0.0016 cls_loss_causal 0.4893 re_mapping 0.0036 re_causal 0.0103 /// teacc 99.07 lr 0.00010000
+Epoch 290, weight, value: tensor([[-0.2095, -0.2627,  0.1153,  ..., -0.1352,  0.0486,  0.0372],
+        [-0.1515, -0.0579, -0.0963,  ..., -0.1995, -0.0876, -0.0296],
+        [ 0.0214, -0.1452, -0.1812,  ..., -0.1426,  0.0337, -0.3729],
+        ...,
+        [-0.2139,  0.1611,  0.0229,  ...,  0.1976, -0.0551, -0.1509],
+        [-0.1770, -0.1649,  0.1834,  ..., -0.1538, -0.1532,  0.1641],
+        [ 0.0162, -0.3078,  0.1666,  ...,  0.0620, -0.2021, -0.1461]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  6.9849e-10,  2.7940e-09,  ...,  2.2352e-08,
+          0.0000e+00,  3.7253e-09],
+        [ 6.3796e-08,  1.6997e-08,  8.6147e-09,  ...,  2.0629e-07,
+          0.0000e+00,  6.5193e-09],
+        [ 3.2596e-09,  4.1910e-09,  1.0012e-08,  ...,  2.3283e-08,
+          0.0000e+00,  2.0955e-09],
+        ...,
+        [ 6.1234e-08,  1.0012e-07,  1.2503e-07,  ...,  2.7358e-07,
+          0.0000e+00,  3.7253e-09],
+        [ 8.3819e-09,  4.6566e-10,  3.7253e-09,  ...,  2.9337e-08,
+          0.0000e+00, -1.8626e-09],
+        [ 3.3760e-08,  5.8208e-09, -1.9278e-07,  ..., -4.4471e-08,
+          0.0000e+00,  3.4925e-09]], device='cuda:0')
+Epoch 290, bias, value: tensor([-0.0184, -0.0250, -0.0237, -0.0293, -0.0054,  0.0095,  0.0079, -0.0105,
+        -0.0037, -0.0116], device='cuda:0'), grad: tensor([ 1.1176e-07,  9.7323e-07,  7.5903e-08, -1.5576e-07, -3.4329e-06,
+         2.3632e-07,  6.7707e-07,  1.2554e-06,  1.2689e-07,  1.4156e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 289, time 220.83, cls_loss 0.0011 cls_loss_mapping 0.0018 cls_loss_causal 0.4774 re_mapping 0.0035 re_causal 0.0100 /// teacc 99.04 lr 0.00010000
+Epoch 291, weight, value: tensor([[-0.2100, -0.2657,  0.1152,  ..., -0.1356,  0.0487,  0.0372],
+        [-0.1486, -0.0604, -0.0975,  ..., -0.2011, -0.0875, -0.0299],
+        [ 0.0207, -0.1461, -0.1830,  ..., -0.1442,  0.0337, -0.3734],
+        ...,
+        [-0.2174,  0.1636,  0.0234,  ...,  0.1992, -0.0552, -0.1520],
+        [-0.1780, -0.1656,  0.1854,  ..., -0.1535, -0.1532,  0.1655],
+        [ 0.0171, -0.3081,  0.1677,  ...,  0.0617, -0.2021, -0.1477]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  1.3271e-08,  4.1910e-09,  ...,  9.3132e-10,
+          0.0000e+00,  3.2596e-09],
+        [ 1.1642e-09,  1.8161e-08,  3.0268e-09,  ...,  4.6566e-10,
+          0.0000e+00,  2.4680e-07],
+        [ 4.6566e-10,  3.9581e-09,  3.4925e-09,  ...,  2.3283e-10,
+          0.0000e+00,  1.3504e-08],
+        ...,
+        [ 4.6566e-10,  1.9092e-08,  1.8626e-09,  ...,  6.9849e-10,
+          0.0000e+00,  1.1874e-08],
+        [ 2.0955e-09,  2.8173e-08, -9.7789e-09,  ...,  4.6566e-10,
+          0.0000e+00, -1.5022e-06],
+        [-1.9791e-08,  4.1910e-09, -4.4703e-08,  ..., -1.0477e-08,
+          0.0000e+00,  7.5204e-08]], device='cuda:0')
+Epoch 291, bias, value: tensor([-0.0188, -0.0263, -0.0238, -0.0300, -0.0050,  0.0095,  0.0079, -0.0092,
+        -0.0024, -0.0114], device='cuda:0'), grad: tensor([ 1.4063e-07,  7.9582e-07, -1.3150e-06, -1.5041e-06,  1.3458e-07,
+         3.1125e-06,  2.2016e-06,  1.2806e-07, -3.7737e-06,  8.8708e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 290, time 221.39, cls_loss 0.0010 cls_loss_mapping 0.0015 cls_loss_causal 0.4808 re_mapping 0.0037 re_causal 0.0101 /// teacc 99.06 lr 0.00010000
+Epoch 292, weight, value: tensor([[-0.2113, -0.2670,  0.1153,  ..., -0.1358,  0.0487,  0.0372],
+        [-0.1482, -0.0607, -0.0981,  ..., -0.2013, -0.0873, -0.0304],
+        [ 0.0207, -0.1466, -0.1838,  ..., -0.1446,  0.0336, -0.3737],
+        ...,
+        [-0.2187,  0.1638,  0.0236,  ...,  0.1993, -0.0553, -0.1526],
+        [-0.1828, -0.1670,  0.1858,  ..., -0.1539, -0.1533,  0.1623],
+        [ 0.0172, -0.3087,  0.1686,  ...,  0.0620, -0.2021, -0.1482]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.3283e-10, -1.2806e-08,  ...,  0.0000e+00,
+         -2.5611e-09, -1.2806e-08],
+        [ 0.0000e+00,  4.4238e-09,  2.3283e-10,  ...,  6.9849e-10,
+          0.0000e+00, -1.8859e-08],
+        [ 0.0000e+00, -1.6764e-08,  5.5879e-09,  ..., -1.7462e-08,
+          9.3132e-10,  1.2573e-08],
+        ...,
+        [ 0.0000e+00,  2.0256e-08, -2.3283e-10,  ...,  1.6065e-08,
+          0.0000e+00,  5.1223e-09],
+        [ 0.0000e+00,  9.3132e-10, -1.0245e-08,  ..., -3.0268e-09,
+          2.3283e-10, -1.1874e-08],
+        [ 2.3283e-10,  2.7940e-09,  7.9162e-09,  ...,  2.5611e-09,
+          2.3283e-10,  1.0012e-08]], device='cuda:0')
+Epoch 292, bias, value: tensor([-0.0191, -0.0259, -0.0238, -0.0299, -0.0062,  0.0099,  0.0078, -0.0100,
+        -0.0059, -0.0113], device='cuda:0'), grad: tensor([-4.1677e-08, -5.4715e-08, -7.4273e-08, -5.4017e-08,  2.6776e-08,
+         5.4948e-08, -4.4238e-09,  1.4040e-07, -1.4668e-08,  2.8405e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 291, time 220.68, cls_loss 0.0007 cls_loss_mapping 0.0011 cls_loss_causal 0.4471 re_mapping 0.0036 re_causal 0.0101 /// teacc 99.19 lr 0.00010000
+Epoch 293, weight, value: tensor([[-0.2115, -0.2677,  0.1153,  ..., -0.1359,  0.0486,  0.0371],
+        [-0.1483, -0.0606, -0.0979,  ..., -0.2014, -0.0872, -0.0290],
+        [ 0.0206, -0.1469, -0.1845,  ..., -0.1452,  0.0335, -0.3738],
+        ...,
+        [-0.2186,  0.1638,  0.0233,  ...,  0.1995, -0.0550, -0.1542],
+        [-0.1829, -0.1678,  0.1862,  ..., -0.1542, -0.1533,  0.1623],
+        [ 0.0175, -0.3089,  0.1691,  ...,  0.0623, -0.2022, -0.1485]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  8.4750e-08,  6.9849e-10,  ...,  1.3970e-09,
+          0.0000e+00,  9.3132e-10],
+        [ 6.9849e-10,  1.2317e-07,  2.3283e-10,  ...,  1.3970e-09,
+          0.0000e+00, -1.9558e-08],
+        [ 6.9849e-10,  2.8242e-07,  1.1642e-09,  ...,  2.3283e-09,
+          0.0000e+00,  6.9849e-10],
+        ...,
+        [ 6.5193e-09,  9.8255e-08,  2.3283e-09,  ...,  5.1223e-09,
+          0.0000e+00,  2.2585e-08],
+        [ 1.3970e-09,  2.3050e-08,  1.3970e-09,  ...,  3.0268e-09,
+          0.0000e+00, -1.6298e-09],
+        [ 3.2596e-08,  2.7707e-08, -2.7008e-08,  ...,  4.0513e-08,
+          0.0000e+00,  1.2340e-08]], device='cuda:0')
+Epoch 293, bias, value: tensor([-0.0193, -0.0255, -0.0236, -0.0295, -0.0066,  0.0099,  0.0078, -0.0104,
+        -0.0060, -0.0111], device='cuda:0'), grad: tensor([ 3.3597e-07,  3.0082e-07,  9.7696e-07, -2.6394e-06, -1.9395e-07,
+         1.8626e-09,  1.6973e-07,  6.6590e-07,  1.0105e-07,  2.7963e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 292, time 220.97, cls_loss 0.0007 cls_loss_mapping 0.0015 cls_loss_causal 0.4761 re_mapping 0.0036 re_causal 0.0102 /// teacc 99.10 lr 0.00010000
+Epoch 294, weight, value: tensor([[-0.2116, -0.2683,  0.1154,  ..., -0.1363,  0.0487,  0.0377],
+        [-0.1490, -0.0607, -0.0980,  ..., -0.2015, -0.0872, -0.0289],
+        [ 0.0204, -0.1478, -0.1855,  ..., -0.1461,  0.0334, -0.3742],
+        ...,
+        [-0.2184,  0.1641,  0.0231,  ...,  0.1998, -0.0548, -0.1548],
+        [-0.1829, -0.1683,  0.1865,  ..., -0.1547, -0.1534,  0.1624],
+        [ 0.0177, -0.3092,  0.1698,  ...,  0.0625, -0.2022, -0.1486]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  4.6566e-09,  ...,  4.6566e-10,
+          0.0000e+00,  7.2177e-09],
+        [ 6.9849e-10,  1.7229e-08,  4.4238e-09,  ...,  1.4901e-08,
+         -2.3283e-10, -4.6566e-09],
+        [ 2.3283e-10,  1.3970e-09,  4.6566e-10,  ...,  9.3132e-10,
+          0.0000e+00,  1.6298e-09],
+        ...,
+        [ 6.9849e-10, -1.7229e-08, -2.3283e-10,  ..., -1.3737e-08,
+          0.0000e+00,  2.5611e-09],
+        [ 9.3132e-10,  2.3283e-10, -6.9849e-10,  ...,  2.0955e-09,
+          0.0000e+00, -7.4506e-09],
+        [-1.7928e-08,  9.3132e-10, -5.4482e-08,  ..., -1.5367e-08,
+          0.0000e+00,  2.3283e-09]], device='cuda:0')
+Epoch 294, bias, value: tensor([-0.0189, -0.0255, -0.0240, -0.0300, -0.0068,  0.0099,  0.0078, -0.0102,
+        -0.0060, -0.0110], device='cuda:0'), grad: tensor([ 1.5134e-08,  1.2806e-08,  1.2573e-08,  7.0548e-08,  4.5169e-08,
+        -9.3132e-10, -1.9092e-08, -2.3283e-08,  1.8626e-09, -9.6159e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 293, time 220.61, cls_loss 0.0008 cls_loss_mapping 0.0013 cls_loss_causal 0.5011 re_mapping 0.0035 re_causal 0.0103 /// teacc 99.02 lr 0.00010000
+Epoch 295, weight, value: tensor([[-0.2120, -0.2694,  0.1156,  ..., -0.1368,  0.0487,  0.0380],
+        [-0.1491, -0.0618, -0.0981,  ..., -0.2028, -0.0871, -0.0278],
+        [ 0.0203, -0.1486, -0.1865,  ..., -0.1469,  0.0334, -0.3746],
+        ...,
+        [-0.2189,  0.1654,  0.0232,  ...,  0.2012, -0.0548, -0.1562],
+        [-0.1829, -0.1684,  0.1873,  ..., -0.1550, -0.1530,  0.1624],
+        [ 0.0179, -0.3096,  0.1700,  ...,  0.0625, -0.2023, -0.1490]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.3283e-10,  5.8208e-09,  ...,  3.4925e-09,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  2.0955e-09,  2.0955e-09,  ...,  1.8626e-09,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  9.5461e-09,  2.6776e-08,  ...,  1.3039e-08,
+          0.0000e+00,  2.4447e-08],
+        ...,
+        [-2.5611e-09, -1.6298e-08,  3.0268e-09,  ..., -1.7229e-08,
+          0.0000e+00,  2.0955e-09],
+        [ 0.0000e+00,  6.9849e-10, -5.7975e-08,  ..., -1.3039e-08,
+          0.0000e+00, -5.4250e-08],
+        [ 2.5611e-09,  6.5193e-09, -1.9791e-08,  ..., -3.7253e-09,
+          0.0000e+00,  4.1910e-09]], device='cuda:0')
+Epoch 295, bias, value: tensor([-0.0189, -0.0250, -0.0249, -0.0303, -0.0069,  0.0098,  0.0078, -0.0098,
+        -0.0059, -0.0111], device='cuda:0'), grad: tensor([ 1.5134e-08,  7.6834e-09,  1.0221e-07,  3.8883e-08,  6.5193e-09,
+         1.5367e-08,  7.1712e-08, -2.3516e-08, -1.7881e-07, -2.9337e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 294, time 220.69, cls_loss 0.0007 cls_loss_mapping 0.0015 cls_loss_causal 0.4783 re_mapping 0.0034 re_causal 0.0102 /// teacc 99.11 lr 0.00010000
+Epoch 296, weight, value: tensor([[-0.2123, -0.2695,  0.1160,  ..., -0.1369,  0.0485,  0.0386],
+        [-0.1493, -0.0624, -0.0990,  ..., -0.2028, -0.0869, -0.0285],
+        [ 0.0203, -0.1492, -0.1872,  ..., -0.1474,  0.0333, -0.3750],
+        ...,
+        [-0.2189,  0.1660,  0.0239,  ...,  0.2013, -0.0549, -0.1556],
+        [-0.1830, -0.1688,  0.1877,  ..., -0.1551, -0.1530,  0.1625],
+        [ 0.0175, -0.3098,  0.1700,  ...,  0.0625, -0.2023, -0.1498]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  9.3132e-10,  2.3283e-09,  ...,  1.3970e-09,
+          0.0000e+00,  6.0536e-09],
+        [ 0.0000e+00,  8.1491e-09, -9.3132e-09,  ...,  6.2864e-09,
+          0.0000e+00, -1.9209e-07],
+        [ 0.0000e+00,  3.9581e-09,  4.6566e-10,  ...,  6.9849e-10,
+          0.0000e+00,  2.3283e-09],
+        ...,
+        [ 6.9849e-10, -1.6298e-09,  3.4459e-08,  ...,  2.6310e-08,
+          0.0000e+00,  6.2864e-09],
+        [ 4.1910e-09,  4.8894e-09,  3.0035e-08,  ...,  2.5611e-08,
+          0.0000e+00,  7.5437e-08],
+        [-6.9849e-09,  6.7521e-09, -9.2434e-08,  ..., -8.4052e-08,
+          0.0000e+00, -2.4447e-08]], device='cuda:0')
+Epoch 296, bias, value: tensor([-0.0186, -0.0257, -0.0242, -0.0307, -0.0070,  0.0099,  0.0078, -0.0096,
+        -0.0059, -0.0114], device='cuda:0'), grad: tensor([ 3.5623e-08, -7.6834e-07, -4.2608e-08, -7.1898e-07,  1.9325e-08,
+         7.3155e-07,  4.8522e-07,  1.3295e-07,  3.8696e-07, -2.5542e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 295, time 220.73, cls_loss 0.0007 cls_loss_mapping 0.0016 cls_loss_causal 0.5134 re_mapping 0.0036 re_causal 0.0108 /// teacc 99.12 lr 0.00010000
+Epoch 297, weight, value: tensor([[-0.2125, -0.2697,  0.1161,  ..., -0.1370,  0.0487,  0.0384],
+        [-0.1493, -0.0624, -0.0989,  ..., -0.2030, -0.0865, -0.0268],
+        [ 0.0200, -0.1495, -0.1885,  ..., -0.1481,  0.0333, -0.3753],
+        ...,
+        [-0.2190,  0.1662,  0.0239,  ...,  0.2016, -0.0550, -0.1561],
+        [-0.1832, -0.1698,  0.1875,  ..., -0.1557, -0.1534,  0.1624],
+        [ 0.0173, -0.3101,  0.1706,  ...,  0.0624, -0.2024, -0.1503]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  2.3283e-09,  ...,  6.9849e-10,
+          0.0000e+00,  1.1874e-08],
+        [ 6.9849e-10,  0.0000e+00,  5.3551e-09,  ...,  2.3283e-10,
+          0.0000e+00,  9.0804e-09],
+        [-1.2806e-08,  0.0000e+00,  1.0245e-08,  ...,  4.6566e-10,
+          0.0000e+00,  1.6997e-08],
+        ...,
+        [ 1.1642e-09,  0.0000e+00,  3.9581e-09,  ...,  2.7940e-09,
+          0.0000e+00,  2.3283e-09],
+        [ 3.2596e-09,  0.0000e+00, -1.2573e-07,  ...,  6.9849e-10,
+          0.0000e+00, -3.0175e-07],
+        [ 1.3039e-08,  0.0000e+00, -6.9849e-09,  ..., -7.2177e-09,
+          0.0000e+00,  5.8208e-09]], device='cuda:0')
+Epoch 297, bias, value: tensor([-0.0189, -0.0248, -0.0249, -0.0323, -0.0067,  0.0100,  0.0078, -0.0099,
+        -0.0063, -0.0116], device='cuda:0'), grad: tensor([ 5.5647e-08,  3.3062e-08, -9.8022e-08,  5.5879e-08,  2.2119e-08,
+         9.3365e-08,  5.1269e-07,  1.6531e-08, -7.9721e-07,  1.0571e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 296, time 220.81, cls_loss 0.0008 cls_loss_mapping 0.0017 cls_loss_causal 0.4788 re_mapping 0.0037 re_causal 0.0099 /// teacc 99.12 lr 0.00010000
+Epoch 298, weight, value: tensor([[-0.2130, -0.2704,  0.1161,  ..., -0.1377,  0.0487,  0.0385],
+        [-0.1497, -0.0628, -0.0991,  ..., -0.2042, -0.0863, -0.0270],
+        [ 0.0199, -0.1500, -0.1890,  ..., -0.1493,  0.0333, -0.3756],
+        ...,
+        [-0.2194,  0.1666,  0.0237,  ...,  0.2027, -0.0548, -0.1571],
+        [-0.1833, -0.1699,  0.1881,  ..., -0.1558, -0.1536,  0.1623],
+        [ 0.0180, -0.3105,  0.1715,  ...,  0.0629, -0.2026, -0.1503]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  2.3283e-10,  3.9581e-09,  ...,  2.0955e-09,
+          4.6566e-10,  4.6566e-09],
+        [ 3.4925e-09,  4.1910e-09,  1.2573e-08,  ...,  4.4238e-09,
+         -3.0268e-09,  7.2177e-09],
+        [ 6.9849e-10,  4.6566e-10,  2.5611e-09,  ...,  4.6566e-10,
+          0.0000e+00,  3.7253e-09],
+        ...,
+        [ 4.4238e-08,  4.1910e-09,  1.2596e-07,  ...,  8.5915e-08,
+          2.3283e-10,  3.2596e-08],
+        [-5.4482e-08,  2.3283e-10, -1.7020e-07,  ...,  2.5611e-09,
+          2.3283e-10, -2.6333e-07],
+        [-5.0757e-08, -1.2107e-08, -1.4366e-07,  ..., -1.4668e-07,
+          0.0000e+00,  4.6100e-08]], device='cuda:0')
+Epoch 298, bias, value: tensor([-0.0192, -0.0252, -0.0249, -0.0323, -0.0069,  0.0100,  0.0078, -0.0097,
+        -0.0064, -0.0110], device='cuda:0'), grad: tensor([ 2.0955e-08,  2.6543e-08,  4.8894e-09,  9.4762e-08,  1.6228e-07,
+         4.2398e-07, -5.2387e-08,  4.0722e-07, -6.7893e-07, -4.0350e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 297, time 220.38, cls_loss 0.0007 cls_loss_mapping 0.0017 cls_loss_causal 0.4921 re_mapping 0.0038 re_causal 0.0104 /// teacc 99.13 lr 0.00010000
+Epoch 299, weight, value: tensor([[-0.2133, -0.2713,  0.1166,  ..., -0.1381,  0.0491,  0.0388],
+        [-0.1497, -0.0627, -0.0992,  ..., -0.2042, -0.0862, -0.0260],
+        [ 0.0199, -0.1502, -0.1904,  ..., -0.1497,  0.0334, -0.3759],
+        ...,
+        [-0.2195,  0.1666,  0.0236,  ...,  0.2027, -0.0552, -0.1585],
+        [-0.1834, -0.1699,  0.1885,  ..., -0.1560, -0.1536,  0.1623],
+        [ 0.0174, -0.3109,  0.1721,  ...,  0.0621, -0.2027, -0.1506]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00, -3.7253e-09,  ...,  4.6566e-10,
+          0.0000e+00, -4.1910e-09],
+        [ 2.3283e-09,  2.3283e-09,  2.3283e-09,  ...,  3.2596e-09,
+          0.0000e+00,  2.3283e-09],
+        [ 0.0000e+00,  4.6566e-10,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  9.3132e-10],
+        ...,
+        [ 4.6566e-09, -2.7940e-09,  8.3819e-09,  ...,  2.3283e-09,
+          0.0000e+00,  1.3970e-09],
+        [ 4.6566e-10, -4.6566e-10, -2.7940e-09,  ..., -4.6566e-10,
+          0.0000e+00, -9.3132e-10],
+        [-1.3970e-08,  4.6566e-10, -2.0023e-08,  ..., -1.2107e-08,
+          0.0000e+00,  1.3970e-09]], device='cuda:0')
+Epoch 299, bias, value: tensor([-0.0190, -0.0250, -0.0246, -0.0323, -0.0058,  0.0100,  0.0078, -0.0100,
+        -0.0064, -0.0118], device='cuda:0'), grad: tensor([-1.8161e-08,  1.6764e-08,  3.2596e-09,  1.0245e-08,  2.4680e-08,
+         7.9162e-08, -7.9162e-08,  1.7695e-08, -2.3283e-09, -5.4482e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 298, time 220.30, cls_loss 0.0008 cls_loss_mapping 0.0018 cls_loss_causal 0.4586 re_mapping 0.0036 re_causal 0.0099 /// teacc 99.08 lr 0.00010000
+Epoch 300, weight, value: tensor([[-0.2136, -0.2722,  0.1184,  ..., -0.1376,  0.0491,  0.0407],
+        [-0.1509, -0.0625, -0.1001,  ..., -0.2042, -0.0862, -0.0264],
+        [ 0.0199, -0.1518, -0.1923,  ..., -0.1517,  0.0337, -0.3764],
+        ...,
+        [-0.2192,  0.1667,  0.0234,  ...,  0.2030, -0.0555, -0.1598],
+        [-0.1834, -0.1700,  0.1905,  ..., -0.1565, -0.1539,  0.1625],
+        [ 0.0179, -0.3111,  0.1714,  ...,  0.0621, -0.2027, -0.1534]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00, -9.7789e-09, -2.4680e-08,  ...,  0.0000e+00,
+          0.0000e+00, -3.4459e-08],
+        [-9.3132e-10,  1.8626e-09,  0.0000e+00,  ..., -9.3132e-10,
+          0.0000e+00, -4.6566e-10],
+        ...,
+        [ 4.6566e-10,  9.3132e-09,  1.9092e-08,  ...,  1.3970e-09,
+          0.0000e+00,  2.3749e-08],
+        [ 0.0000e+00,  0.0000e+00, -1.3970e-09,  ...,  4.6566e-10,
+          0.0000e+00, -2.3283e-09],
+        [-4.6566e-10,  3.2596e-09,  3.2596e-09,  ..., -1.8626e-09,
+          0.0000e+00,  9.3132e-09]], device='cuda:0')
+Epoch 300, bias, value: tensor([-0.0172, -0.0251, -0.0249, -0.0322, -0.0059,  0.0100,  0.0078, -0.0101,
+        -0.0063, -0.0128], device='cuda:0'), grad: tensor([ 4.6566e-09, -7.1712e-08, -2.3469e-07,  1.2107e-08,  1.3504e-08,
+         3.3528e-08,  6.1933e-08,  1.4622e-07,  2.3283e-09,  4.2841e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 299, time 220.57, cls_loss 0.0008 cls_loss_mapping 0.0016 cls_loss_causal 0.4561 re_mapping 0.0035 re_causal 0.0100 /// teacc 99.08 lr 0.00010000
+Epoch 301, weight, value: tensor([[-0.2141, -0.2731,  0.1176,  ..., -0.1399,  0.0498,  0.0411],
+        [-0.1509, -0.0625, -0.1001,  ..., -0.2043, -0.0862, -0.0240],
+        [ 0.0197, -0.1527, -0.1936,  ..., -0.1524,  0.0337, -0.3770],
+        ...,
+        [-0.2194,  0.1671,  0.0233,  ...,  0.2032, -0.0555, -0.1616],
+        [-0.1836, -0.1705,  0.1907,  ..., -0.1573, -0.1539,  0.1624],
+        [ 0.0174, -0.3115,  0.1726,  ...,  0.0628, -0.2028, -0.1549]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  0.0000e+00, -1.7975e-07,  ...,  0.0000e+00,
+          0.0000e+00,  3.2596e-09],
+        [ 2.3283e-09,  4.6566e-10,  8.4285e-08,  ...,  0.0000e+00,
+          0.0000e+00, -5.5879e-08],
+        [ 9.3132e-10,  0.0000e+00,  5.1223e-09,  ...,  0.0000e+00,
+          0.0000e+00,  8.3819e-09],
+        ...,
+        [ 2.3283e-09,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  1.4435e-08],
+        [ 1.0291e-07,  0.0000e+00,  6.0536e-09,  ...,  1.8626e-09,
+          0.0000e+00,  8.3353e-08],
+        [ 3.2596e-09,  0.0000e+00, -9.3132e-09,  ..., -6.5193e-09,
+          0.0000e+00,  1.3970e-08]], device='cuda:0')
+Epoch 301, bias, value: tensor([-0.0178, -0.0244, -0.0250, -0.0326, -0.0059,  0.0100,  0.0078, -0.0107,
+        -0.0066, -0.0123], device='cuda:0'), grad: tensor([-1.1269e-06,  2.6077e-07,  7.9162e-08,  2.0815e-07,  5.5414e-08,
+        -4.4983e-07,  5.9512e-07,  7.8231e-08,  2.4866e-07,  4.9826e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 300, time 220.59, cls_loss 0.0011 cls_loss_mapping 0.0021 cls_loss_causal 0.5051 re_mapping 0.0036 re_causal 0.0099 /// teacc 99.08 lr 0.00010000
+Epoch 302, weight, value: tensor([[-0.2160, -0.2781,  0.1176,  ..., -0.1403,  0.0488,  0.0409],
+        [-0.1510, -0.0632, -0.0995,  ..., -0.2051, -0.0841, -0.0206],
+        [ 0.0195, -0.1567, -0.1957,  ..., -0.1547,  0.0328, -0.3782],
+        ...,
+        [-0.2197,  0.1692,  0.0245,  ...,  0.2048, -0.0568, -0.1623],
+        [-0.1839, -0.1742,  0.1886,  ..., -0.1581, -0.1545,  0.1619],
+        [ 0.0173, -0.3146,  0.1728,  ...,  0.0622, -0.2033, -0.1556]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  1.3970e-09, -2.1886e-08,  ...,  1.3970e-09,
+          0.0000e+00,  4.6566e-10],
+        [ 4.6566e-10, -2.2398e-07, -4.6100e-08,  ...,  2.0955e-08,
+         -2.3283e-09, -4.0047e-08],
+        [ 0.0000e+00,  5.1223e-09,  5.1223e-09,  ..., -2.7940e-09,
+          4.6566e-10,  1.6764e-08],
+        ...,
+        [ 4.6566e-10,  1.8673e-07,  2.7008e-08,  ..., -3.1665e-08,
+          1.3970e-09,  1.1176e-08],
+        [ 3.2596e-09,  0.0000e+00,  1.3970e-09,  ...,  0.0000e+00,
+          9.3132e-10,  1.1176e-08],
+        [-4.6566e-09,  2.1420e-08,  0.0000e+00,  ...,  6.5193e-09,
+          0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 302, bias, value: tensor([-0.0181, -0.0231, -0.0267, -0.0321, -0.0052,  0.0100,  0.0078, -0.0099,
+        -0.0081, -0.0130], device='cuda:0'), grad: tensor([-2.9802e-08, -9.8161e-07, -5.2527e-07,  9.0804e-08,  9.3132e-08,
+        -4.6194e-06,  4.9770e-06,  8.8103e-07,  4.0513e-08,  6.3330e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 301, time 220.28, cls_loss 0.0009 cls_loss_mapping 0.0018 cls_loss_causal 0.4722 re_mapping 0.0035 re_causal 0.0097 /// teacc 99.09 lr 0.00010000
+Epoch 303, weight, value: tensor([[-0.2162, -0.2793,  0.1177,  ..., -0.1405,  0.0490,  0.0412],
+        [-0.1511, -0.0633, -0.0997,  ..., -0.2052, -0.0841, -0.0206],
+        [ 0.0196, -0.1570, -0.1957,  ..., -0.1547,  0.0324, -0.3771],
+        ...,
+        [-0.2196,  0.1696,  0.0250,  ...,  0.2052, -0.0557, -0.1628],
+        [-0.1838, -0.1748,  0.1895,  ..., -0.1580, -0.1546,  0.1620],
+        [ 0.0176, -0.3155,  0.1727,  ...,  0.0614, -0.2035, -0.1566]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  1.2573e-08,  4.4238e-08,  ...,  2.2817e-08,
+          0.0000e+00,  5.9605e-08],
+        [ 5.5879e-09,  9.3132e-09,  3.5856e-08,  ...,  1.3504e-08,
+          0.0000e+00,  3.9581e-08],
+        [ 2.3283e-09,  1.7695e-08,  4.8894e-08,  ...,  1.3970e-08,
+          0.0000e+00,  4.6566e-08],
+        ...,
+        [ 6.9849e-09, -1.1967e-07, -1.8673e-07,  ..., -1.6345e-07,
+          0.0000e+00,  3.7719e-08],
+        [ 3.0268e-08,  4.6566e-09, -7.7579e-07,  ...,  2.6543e-08,
+          0.0000e+00, -1.0431e-06],
+        [-9.8255e-08,  4.1910e-08,  2.0023e-08,  ..., -1.5879e-07,
+          0.0000e+00,  1.2759e-07]], device='cuda:0')
+Epoch 303, bias, value: tensor([-0.0181, -0.0231, -0.0259, -0.0321, -0.0044,  0.0100,  0.0078, -0.0099,
+        -0.0082, -0.0141], device='cuda:0'), grad: tensor([ 2.9104e-07,  1.5227e-07,  1.8300e-07,  7.5437e-08,  7.4320e-07,
+         2.2314e-06, -8.5309e-07, -4.8755e-07, -2.2687e-06, -6.8452e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 302, time 220.39, cls_loss 0.0007 cls_loss_mapping 0.0011 cls_loss_causal 0.4841 re_mapping 0.0037 re_causal 0.0103 /// teacc 99.06 lr 0.00010000
+Epoch 304, weight, value: tensor([[-0.2164, -0.2822,  0.1176,  ..., -0.1408,  0.0488,  0.0410],
+        [-0.1513, -0.0633, -0.0997,  ..., -0.2054, -0.0838, -0.0208],
+        [ 0.0196, -0.1576, -0.1973,  ..., -0.1556,  0.0327, -0.3778],
+        ...,
+        [-0.2197,  0.1700,  0.0252,  ...,  0.2057, -0.0560, -0.1628],
+        [-0.1839, -0.1749,  0.1916,  ..., -0.1584, -0.1546,  0.1623],
+        [ 0.0176, -0.3163,  0.1727,  ...,  0.0609, -0.2039, -0.1581]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00, -1.8626e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  4.1910e-09],
+        ...,
+        [ 9.3132e-10,  4.6566e-10,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  5.5879e-09],
+        [ 2.3283e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09],
+        [-1.8626e-09,  0.0000e+00, -3.2596e-09,  ..., -1.3970e-09,
+          0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 304, bias, value: tensor([-0.0185, -0.0231, -0.0259, -0.0321, -0.0037,  0.0100,  0.0078, -0.0098,
+        -0.0076, -0.0149], device='cuda:0'), grad: tensor([ 1.6298e-08, -7.0874e-07,  1.5832e-07,  5.2620e-08,  3.5437e-07,
+        -2.2817e-08,  2.3283e-09,  1.2992e-07,  1.2573e-08,  1.4435e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 303, time 220.54, cls_loss 0.0006 cls_loss_mapping 0.0013 cls_loss_causal 0.4616 re_mapping 0.0037 re_causal 0.0101 /// teacc 99.07 lr 0.00010000
+Epoch 305, weight, value: tensor([[-0.2167, -0.2837,  0.1176,  ..., -0.1409,  0.0484,  0.0409],
+        [-0.1512, -0.0634, -0.0998,  ..., -0.2054, -0.0833, -0.0207],
+        [ 0.0196, -0.1576, -0.1981,  ..., -0.1556,  0.0325, -0.3787],
+        ...,
+        [-0.2200,  0.1702,  0.0247,  ...,  0.2056, -0.0562, -0.1634],
+        [-0.1840, -0.1750,  0.1919,  ..., -0.1588, -0.1546,  0.1624],
+        [ 0.0178, -0.3169,  0.1731,  ...,  0.0612, -0.2040, -0.1583]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.1176e-08,  1.3970e-09,  ...,  3.2596e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  3.2596e-09,  9.3132e-10,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.8626e-09, -9.3132e-10,  ..., -3.2596e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 305, bias, value: tensor([-0.0188, -0.0230, -0.0262, -0.0305, -0.0039,  0.0099,  0.0078, -0.0101,
+        -0.0076, -0.0150], device='cuda:0'), grad: tensor([ 6.9849e-09,  2.8871e-08,  6.5193e-09, -4.0978e-08,  4.7032e-08,
+         6.0536e-09, -5.9605e-08,  6.0536e-09,  2.3283e-09,  5.5879e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 304, time 220.62, cls_loss 0.0007 cls_loss_mapping 0.0016 cls_loss_causal 0.4944 re_mapping 0.0035 re_causal 0.0102 /// teacc 99.00 lr 0.00010000
+Epoch 306, weight, value: tensor([[-0.2170, -0.2869,  0.1176,  ..., -0.1411,  0.0484,  0.0411],
+        [-0.1512, -0.0655, -0.1013,  ..., -0.2058, -0.0835, -0.0206],
+        [ 0.0196, -0.1579, -0.1993,  ..., -0.1557,  0.0309, -0.3792],
+        ...,
+        [-0.2203,  0.1726,  0.0261,  ...,  0.2059, -0.0564, -0.1636],
+        [-0.1840, -0.1752,  0.1924,  ..., -0.1587, -0.1547,  0.1625],
+        [ 0.0178, -0.3178,  0.1733,  ...,  0.0609, -0.2040, -0.1588]],
+       device='cuda:0'), grad: tensor([[ 4.1444e-08,  1.8626e-09,  4.6566e-08,  ...,  9.7789e-09,
+          0.0000e+00,  8.8941e-08],
+        [ 1.8626e-09,  1.8161e-08,  2.0023e-08,  ...,  9.3132e-09,
+          0.0000e+00,  1.6764e-08],
+        [-6.0536e-09,  5.9139e-08,  2.4727e-07,  ...,  3.6787e-08,
+         -4.6566e-10,  2.7008e-07],
+        ...,
+        [ 2.3283e-09,  1.0710e-08,  1.5460e-06,  ...,  2.7986e-07,
+          0.0000e+00,  1.7043e-06],
+        [ 4.6566e-09,  4.6566e-10, -2.3581e-06,  ..., -4.6706e-07,
+          0.0000e+00, -2.5630e-06],
+        [ 1.1176e-08,  1.5832e-08,  3.9302e-07,  ...,  1.0291e-07,
+          0.0000e+00,  4.1490e-07]], device='cuda:0')
+Epoch 306, bias, value: tensor([-0.0190, -0.0241, -0.0263, -0.0307, -0.0034,  0.0099,  0.0079, -0.0085,
+        -0.0075, -0.0155], device='cuda:0'), grad: tensor([ 2.1188e-07,  1.3830e-07,  4.0140e-07,  3.4273e-07,  3.1665e-08,
+        -5.1921e-07,  1.3690e-07,  3.5018e-06, -5.1931e-06,  9.4110e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 305, time 220.55, cls_loss 0.0013 cls_loss_mapping 0.0021 cls_loss_causal 0.4690 re_mapping 0.0035 re_causal 0.0093 /// teacc 99.08 lr 0.00010000
+Epoch 307, weight, value: tensor([[-0.2206, -0.2879,  0.1178,  ..., -0.1413,  0.0465,  0.0394],
+        [-0.1520, -0.0657, -0.1016,  ..., -0.2059, -0.0837, -0.0210],
+        [ 0.0182, -0.1587, -0.2003,  ..., -0.1564,  0.0299, -0.3815],
+        ...,
+        [-0.2179,  0.1730,  0.0260,  ...,  0.2083, -0.0564, -0.1675],
+        [-0.1851, -0.1755,  0.1938,  ..., -0.1582, -0.1557,  0.1623],
+        [ 0.0166, -0.3188,  0.1738,  ...,  0.0604, -0.2045, -0.1604]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  3.7253e-09],
+        [ 0.0000e+00,  6.5658e-08,  0.0000e+00,  ...,  4.6566e-09,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  1.0710e-08,  0.0000e+00,  ..., -1.3970e-08,
+          0.0000e+00,  1.3970e-09],
+        ...,
+        [ 4.6566e-10, -1.1269e-07,  0.0000e+00,  ...,  3.7253e-09,
+          0.0000e+00,  4.6566e-10],
+        [ 3.2596e-09,  0.0000e+00, -1.8626e-09,  ...,  2.7940e-09,
+          0.0000e+00,  1.8626e-09],
+        [ 1.3504e-08,  2.1886e-08,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  1.0710e-08]], device='cuda:0')
+Epoch 307, bias, value: tensor([-0.0196, -0.0251, -0.0246, -0.0315, -0.0050,  0.0101,  0.0079, -0.0073,
+        -0.0083, -0.0166], device='cuda:0'), grad: tensor([ 1.2200e-07,  8.0047e-07, -2.1718e-06,  1.5181e-07,  7.2643e-08,
+         1.0151e-07, -9.3132e-10,  3.6135e-07,  4.0792e-07,  1.6531e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 306, time 220.36, cls_loss 0.0007 cls_loss_mapping 0.0018 cls_loss_causal 0.4795 re_mapping 0.0034 re_causal 0.0100 /// teacc 99.10 lr 0.00010000
+Epoch 308, weight, value: tensor([[-0.2209, -0.2887,  0.1178,  ..., -0.1415,  0.0465,  0.0392],
+        [-0.1514, -0.0659, -0.1018,  ..., -0.2062, -0.0837, -0.0208],
+        [ 0.0182, -0.1591, -0.2008,  ..., -0.1568,  0.0299, -0.3815],
+        ...,
+        [-0.2181,  0.1733,  0.0258,  ...,  0.2085, -0.0563, -0.1683],
+        [-0.1851, -0.1758,  0.1939,  ..., -0.1587, -0.1558,  0.1625],
+        [ 0.0166, -0.3191,  0.1743,  ...,  0.0608, -0.2045, -0.1602]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-09],
+        [ 0.0000e+00,  4.6566e-10, -1.3970e-09,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 308, bias, value: tensor([-0.0198, -0.0249, -0.0245, -0.0314, -0.0050,  0.0100,  0.0079, -0.0076,
+        -0.0083, -0.0164], device='cuda:0'), grad: tensor([ 4.6566e-10,  1.8626e-09,  9.3132e-10,  1.8626e-09, -2.7940e-09,
+         1.3970e-09, -6.0536e-09,  4.6566e-10,  1.1642e-08,  1.3970e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 307, time 220.87, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.4396 re_mapping 0.0034 re_causal 0.0098 /// teacc 99.05 lr 0.00010000
+Epoch 309, weight, value: tensor([[-0.2211, -0.2892,  0.1178,  ..., -0.1416,  0.0464,  0.0391],
+        [-0.1516, -0.0665, -0.1023,  ..., -0.2065, -0.0838, -0.0213],
+        [ 0.0182, -0.1593, -0.2011,  ..., -0.1571,  0.0298, -0.3816],
+        ...,
+        [-0.2183,  0.1737,  0.0255,  ...,  0.2085, -0.0560, -0.1684],
+        [-0.1853, -0.1762,  0.1945,  ..., -0.1598, -0.1558,  0.1627],
+        [ 0.0170, -0.3194,  0.1748,  ...,  0.0613, -0.2046, -0.1604]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.3283e-09,  ...,  9.3132e-10,
+          0.0000e+00, -3.7253e-09],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  1.1642e-08,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.0291e-08,
+          0.0000e+00,  9.3132e-10],
+        [ 4.6566e-10,  0.0000e+00, -1.3970e-09,  ...,  0.0000e+00,
+          0.0000e+00, -2.7940e-09],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  2.2352e-07,
+          0.0000e+00,  4.6566e-10]], device='cuda:0')
+Epoch 309, bias, value: tensor([-0.0200, -0.0252, -0.0244, -0.0310, -0.0051,  0.0100,  0.0079, -0.0075,
+        -0.0081, -0.0160], device='cuda:0'), grad: tensor([-8.3819e-09, -4.8429e-08, -5.1223e-09,  7.4506e-09, -5.9186e-07,
+         3.7253e-09,  2.0489e-08,  1.6997e-07, -5.1223e-09,  4.7358e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 308, time 220.49, cls_loss 0.0009 cls_loss_mapping 0.0026 cls_loss_causal 0.4588 re_mapping 0.0036 re_causal 0.0099 /// teacc 99.16 lr 0.00010000
+Epoch 310, weight, value: tensor([[-0.2211, -0.2901,  0.1184,  ..., -0.1418,  0.0464,  0.0415],
+        [-0.1517, -0.0668, -0.1026,  ..., -0.2082, -0.0838, -0.0198],
+        [ 0.0181, -0.1601, -0.2015,  ..., -0.1577,  0.0297, -0.3819],
+        ...,
+        [-0.2183,  0.1741,  0.0252,  ...,  0.2093, -0.0562, -0.1716],
+        [-0.1854, -0.1796,  0.1945,  ..., -0.1610, -0.1560,  0.1628],
+        [ 0.0170, -0.3199,  0.1753,  ...,  0.0608, -0.2046, -0.1609]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  3.7253e-09,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  5.2201e-07,  4.6566e-10,  ...,  2.3283e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.2375e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 4.6566e-10, -6.6264e-07,  1.3970e-09,  ..., -9.3132e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 4.6566e-10,  4.6566e-10,  9.3132e-10,  ...,  1.3970e-09,
+          0.0000e+00, -9.3132e-10],
+        [-2.7940e-09,  1.0384e-07, -1.1642e-08,  ..., -9.3132e-09,
+          0.0000e+00, -9.3132e-10]], device='cuda:0')
+Epoch 310, bias, value: tensor([-0.0182, -0.0252, -0.0244, -0.0306, -0.0041,  0.0099,  0.0079, -0.0083,
+        -0.0085, -0.0163], device='cuda:0'), grad: tensor([ 3.3062e-08,  1.7677e-06,  8.7544e-08, -1.4110e-07,  1.0291e-07,
+         1.1595e-07, -9.2201e-08, -2.1812e-06,  6.9849e-09,  3.0501e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 309, time 220.90, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4638 re_mapping 0.0036 re_causal 0.0100 /// teacc 99.15 lr 0.00010000
+Epoch 311, weight, value: tensor([[-0.2213, -0.2903,  0.1183,  ..., -0.1419,  0.0464,  0.0411],
+        [-0.1517, -0.0676, -0.1039,  ..., -0.2091, -0.0838, -0.0214],
+        [ 0.0180, -0.1605, -0.2021,  ..., -0.1580,  0.0299, -0.3822],
+        ...,
+        [-0.2183,  0.1748,  0.0252,  ...,  0.2097, -0.0564, -0.1713],
+        [-0.1854, -0.1798,  0.1959,  ..., -0.1607, -0.1560,  0.1632],
+        [ 0.0169, -0.3201,  0.1757,  ...,  0.0611, -0.2046, -0.1615]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  9.3132e-10,  9.3132e-10,  ...,  1.3970e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  6.9849e-08,  3.0268e-08,  ...,  5.3551e-08,
+         -4.6566e-10, -2.7940e-09],
+        [ 0.0000e+00,  1.3970e-09,  4.6566e-10,  ...,  9.3132e-10,
+          4.6566e-10,  1.3970e-09],
+        ...,
+        [ 0.0000e+00, -1.2061e-07, -6.2864e-08,  ..., -1.2154e-07,
+          4.6566e-10,  9.3132e-10],
+        [ 4.6566e-10,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  4.1910e-09],
+        [ 4.6566e-10,  4.6100e-08,  2.4214e-08,  ...,  5.8673e-08,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 311, bias, value: tensor([-0.0184, -0.0259, -0.0244, -0.0304, -0.0041,  0.0098,  0.0080, -0.0081,
+        -0.0080, -0.0158], device='cuda:0'), grad: tensor([ 2.1886e-08,  1.7742e-07, -1.7323e-07,  3.5390e-08,  1.3411e-07,
+        -3.8184e-08, -2.4214e-08, -3.2550e-07,  4.8429e-08,  1.3690e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 310, time 220.13, cls_loss 0.0007 cls_loss_mapping 0.0019 cls_loss_causal 0.4751 re_mapping 0.0034 re_causal 0.0098 /// teacc 99.05 lr 0.00010000
+Epoch 312, weight, value: tensor([[-0.2215, -0.2905,  0.1183,  ..., -0.1420,  0.0464,  0.0409],
+        [-0.1517, -0.0685, -0.1052,  ..., -0.2100, -0.0838, -0.0214],
+        [ 0.0180, -0.1610, -0.2026,  ..., -0.1586,  0.0300, -0.3825],
+        ...,
+        [-0.2184,  0.1757,  0.0262,  ...,  0.2104, -0.0566, -0.1711],
+        [-0.1855, -0.1799,  0.1961,  ..., -0.1609, -0.1560,  0.1631],
+        [ 0.0171, -0.3204,  0.1761,  ...,  0.0615, -0.2047, -0.1619]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  1.3970e-09,
+          0.0000e+00,  1.3970e-09],
+        [ 0.0000e+00,  1.4435e-08,  1.0710e-08,  ...,  2.4680e-08,
+          0.0000e+00,  2.2817e-08],
+        [ 0.0000e+00,  4.1910e-09,  2.3283e-09,  ...,  5.5879e-09,
+          0.0000e+00,  4.1910e-09],
+        ...,
+        [ 9.3132e-10, -2.2817e-08,  6.9849e-09,  ..., -3.3528e-08,
+          0.0000e+00,  4.6566e-10],
+        [ 3.2596e-09,  0.0000e+00, -7.1712e-08,  ...,  1.3970e-09,
+          0.0000e+00, -1.8347e-07],
+        [ 1.8626e-09,  1.8626e-09, -2.7474e-08,  ..., -2.0489e-08,
+          0.0000e+00,  6.5193e-09]], device='cuda:0')
+Epoch 312, bias, value: tensor([-0.0187, -0.0261, -0.0244, -0.0304, -0.0045,  0.0098,  0.0080, -0.0080,
+        -0.0082, -0.0156], device='cuda:0'), grad: tensor([ 9.3132e-09,  1.5507e-07,  2.7474e-08,  1.6205e-07,  4.2375e-08,
+         2.0955e-08,  3.7625e-07, -9.5461e-08, -6.4168e-07, -4.9360e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 311, time 220.66, cls_loss 0.0007 cls_loss_mapping 0.0012 cls_loss_causal 0.4662 re_mapping 0.0032 re_causal 0.0094 /// teacc 99.06 lr 0.00010000
+Epoch 313, weight, value: tensor([[-0.2217, -0.2906,  0.1182,  ..., -0.1424,  0.0464,  0.0409],
+        [-0.1518, -0.0688, -0.1054,  ..., -0.2104, -0.0832, -0.0215],
+        [ 0.0179, -0.1634, -0.2033,  ..., -0.1618,  0.0297, -0.3832],
+        ...,
+        [-0.2184,  0.1764,  0.0262,  ...,  0.2111, -0.0566, -0.1713],
+        [-0.1855, -0.1800,  0.1966,  ..., -0.1613, -0.1561,  0.1633],
+        [ 0.0181, -0.3207,  0.1770,  ...,  0.0620, -0.2047, -0.1622]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  2.3283e-09,  1.3970e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.3970e-09],
+        [ 0.0000e+00,  1.3970e-09,  1.8626e-09,  ...,  9.3132e-10,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  5.1223e-09,  3.2596e-09,  ...,  4.6566e-09,
+          0.0000e+00,  9.3132e-10],
+        ...,
+        [ 4.6566e-10, -6.9849e-09, -1.8626e-09,  ..., -6.5193e-09,
+          0.0000e+00,  1.3970e-09],
+        [ 4.1910e-09,  4.6566e-10, -3.5856e-08,  ...,  9.3132e-10,
+          0.0000e+00, -7.0781e-08],
+        [ 5.5879e-09,  1.8626e-09, -1.3970e-08,  ..., -1.0710e-08,
+          0.0000e+00,  6.9849e-09]], device='cuda:0')
+Epoch 313, bias, value: tensor([-0.0188, -0.0263, -0.0247, -0.0304, -0.0051,  0.0098,  0.0081, -0.0077,
+        -0.0079, -0.0150], device='cuda:0'), grad: tensor([ 9.7789e-09,  9.3132e-10,  5.5879e-09, -4.1910e-09,  3.9581e-08,
+        -7.4878e-07,  9.0478e-07,  8.8476e-09, -1.9372e-07, -1.1642e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 312, time 220.35, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.5017 re_mapping 0.0035 re_causal 0.0102 /// teacc 99.16 lr 0.00010000
+Epoch 314, weight, value: tensor([[-0.2218, -0.2908,  0.1183,  ..., -0.1425,  0.0463,  0.0409],
+        [-0.1519, -0.0690, -0.1056,  ..., -0.2107, -0.0833, -0.0215],
+        [ 0.0179, -0.1639, -0.2039,  ..., -0.1622,  0.0306, -0.3838],
+        ...,
+        [-0.2184,  0.1767,  0.0262,  ...,  0.2113, -0.0587, -0.1715],
+        [-0.1856, -0.1801,  0.1974,  ..., -0.1614, -0.1568,  0.1635],
+        [ 0.0182, -0.3209,  0.1772,  ...,  0.0622, -0.2047, -0.1626]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  2.3283e-09,  5.5879e-09,  ...,  5.1223e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.4214e-08,  1.3970e-09,  ...,  2.1886e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  3.7719e-08,  1.3970e-09,  ...,  4.0513e-08,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 2.7940e-09, -5.2620e-08,  1.5832e-08,  ..., -5.2620e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-5.5879e-09,  9.3132e-10, -3.3528e-08,  ..., -2.2817e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 314, bias, value: tensor([-0.0189, -0.0265, -0.0245, -0.0303, -0.0052,  0.0098,  0.0081, -0.0078,
+        -0.0076, -0.0150], device='cuda:0'), grad: tensor([ 2.1886e-08,  3.0734e-08,  1.2247e-07, -2.6878e-06,  2.2817e-08,
+         2.6505e-06,  9.3132e-10, -9.2667e-08,  1.2573e-08, -7.0315e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 313, time 220.82, cls_loss 0.0007 cls_loss_mapping 0.0010 cls_loss_causal 0.4663 re_mapping 0.0036 re_causal 0.0098 /// teacc 99.07 lr 0.00010000
+Epoch 315, weight, value: tensor([[-0.2219, -0.2911,  0.1184,  ..., -0.1426,  0.0464,  0.0412],
+        [-0.1520, -0.0694, -0.1060,  ..., -0.2111, -0.0833, -0.0214],
+        [ 0.0179, -0.1644, -0.2045,  ..., -0.1626,  0.0306, -0.3841],
+        ...,
+        [-0.2183,  0.1771,  0.0264,  ...,  0.2118, -0.0588, -0.1716],
+        [-0.1858, -0.1805,  0.1978,  ..., -0.1617, -0.1571,  0.1635],
+        [ 0.0184, -0.3212,  0.1775,  ...,  0.0623, -0.2048, -0.1630]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  1.3970e-09,  8.3819e-09,  ...,  3.2596e-09,
+          0.0000e+00,  9.3132e-10],
+        [ 9.3132e-10,  9.3132e-10,  1.4296e-07,  ...,  3.7253e-09,
+          0.0000e+00,  4.6566e-10],
+        [ 9.3132e-10,  0.0000e+00,  1.8626e-09,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 3.2596e-09, -7.4506e-09,  4.6566e-10,  ..., -1.3970e-09,
+          0.0000e+00, -1.3970e-09],
+        [ 9.3132e-10,  0.0000e+00,  3.7253e-09,  ...,  1.3970e-09,
+          0.0000e+00,  9.3132e-10],
+        [-2.4680e-08,  3.2596e-09, -3.4925e-07,  ..., -5.4948e-08,
+          0.0000e+00,  2.7940e-09]], device='cuda:0')
+Epoch 315, bias, value: tensor([-0.0187, -0.0264, -0.0249, -0.0303, -0.0053,  0.0098,  0.0081, -0.0076,
+        -0.0078, -0.0149], device='cuda:0'), grad: tensor([ 3.7253e-08,  5.7695e-07, -1.7695e-08,  1.3784e-07,  6.7009e-07,
+        -4.5169e-08,  9.3132e-09,  1.4901e-08,  1.9092e-08, -1.3970e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 314, time 220.43, cls_loss 0.0007 cls_loss_mapping 0.0016 cls_loss_causal 0.4788 re_mapping 0.0032 re_causal 0.0097 /// teacc 99.14 lr 0.00010000
+Epoch 316, weight, value: tensor([[-0.2221, -0.2913,  0.1186,  ..., -0.1427,  0.0465,  0.0416],
+        [-0.1520, -0.0697, -0.1062,  ..., -0.2114, -0.0833, -0.0213],
+        [ 0.0179, -0.1648, -0.2039,  ..., -0.1631,  0.0307, -0.3842],
+        ...,
+        [-0.2183,  0.1775,  0.0265,  ...,  0.2122, -0.0588, -0.1717],
+        [-0.1858, -0.1806,  0.1978,  ..., -0.1618, -0.1571,  0.1636],
+        [ 0.0184, -0.3216,  0.1777,  ...,  0.0618, -0.2049, -0.1633]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.3970e-09],
+        [ 0.0000e+00,  1.8626e-09,  4.6566e-10,  ...,  9.3132e-10,
+          2.3283e-09,  0.0000e+00],
+        [-3.7253e-09, -1.3970e-09,  4.6566e-10,  ...,  9.3132e-10,
+          4.6566e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -5.5879e-09, -2.3283e-09,  ..., -3.7253e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [ 3.7253e-09,  5.1223e-09,  9.3132e-10,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 316, bias, value: tensor([-0.0185, -0.0262, -0.0246, -0.0305, -0.0045,  0.0098,  0.0080, -0.0079,
+        -0.0078, -0.0155], device='cuda:0'), grad: tensor([ 1.9558e-08,  3.0268e-08, -1.9325e-07,  6.9849e-09, -1.2852e-07,
+         3.1665e-08,  2.9802e-08, -4.6566e-09,  1.8626e-09,  2.1094e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 315, time 220.70, cls_loss 0.0009 cls_loss_mapping 0.0028 cls_loss_causal 0.4688 re_mapping 0.0033 re_causal 0.0093 /// teacc 99.06 lr 0.00010000
+Epoch 317, weight, value: tensor([[-0.2223, -0.2917,  0.1187,  ..., -0.1428,  0.0466,  0.0417],
+        [-0.1522, -0.0734, -0.1098,  ..., -0.2118, -0.0834, -0.0242],
+        [ 0.0178, -0.1659, -0.2053,  ..., -0.1639,  0.0311, -0.3848],
+        ...,
+        [-0.2184,  0.1814,  0.0299,  ...,  0.2126, -0.0590, -0.1689],
+        [-0.1872, -0.1808,  0.1986,  ..., -0.1619, -0.1571,  0.1630],
+        [ 0.0182, -0.3230,  0.1777,  ...,  0.0613, -0.2052, -0.1642]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -2.9337e-08,  ..., -3.2596e-09,
+          0.0000e+00, -1.0245e-08],
+        [ 1.8626e-09,  4.6566e-10,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00, -6.9849e-09],
+        [ 4.6566e-10,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  1.3970e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  7.4506e-09],
+        [ 4.6566e-09,  0.0000e+00,  3.7253e-09,  ...,  4.6566e-10,
+          0.0000e+00,  4.6566e-09],
+        [ 3.7253e-09,  0.0000e+00,  1.8626e-08,  ...,  1.3970e-09,
+          0.0000e+00,  9.7789e-09]], device='cuda:0')
+Epoch 317, bias, value: tensor([-0.0185, -0.0291, -0.0251, -0.0298, -0.0039,  0.0097,  0.0082, -0.0047,
+        -0.0085, -0.0164], device='cuda:0'), grad: tensor([-6.5658e-08, -1.5972e-07,  1.2573e-08,  1.1176e-08, -4.2375e-08,
+        -1.8859e-07,  1.6717e-07,  1.8394e-07,  1.9092e-08,  6.4727e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 316, time 220.64, cls_loss 0.0007 cls_loss_mapping 0.0015 cls_loss_causal 0.4742 re_mapping 0.0036 re_causal 0.0099 /// teacc 99.13 lr 0.00010000
+Epoch 318, weight, value: tensor([[-0.2228, -0.2923,  0.1188,  ..., -0.1429,  0.0466,  0.0416],
+        [-0.1526, -0.0736, -0.1099,  ..., -0.2119, -0.0836, -0.0244],
+        [ 0.0175, -0.1664, -0.2075,  ..., -0.1645,  0.0311, -0.3856],
+        ...,
+        [-0.2186,  0.1816,  0.0300,  ...,  0.2130, -0.0592, -0.1688],
+        [-0.1881, -0.1810,  0.1993,  ..., -0.1621, -0.1575,  0.1625],
+        [ 0.0178, -0.3244,  0.1778,  ...,  0.0611, -0.2054, -0.1648]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.3970e-08,  ...,  4.6566e-10,
+          0.0000e+00, -8.3819e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  9.3132e-10,
+         -2.7940e-09, -8.8476e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+         -9.3132e-10,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.9092e-08,  ...,  1.3504e-08,
+          1.3970e-09,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  1.8626e-09,
+          0.0000e+00,  9.3132e-10],
+        [-9.3132e-10,  0.0000e+00, -3.3062e-08,  ..., -2.9337e-08,
+          0.0000e+00,  6.9849e-09]], device='cuda:0')
+Epoch 318, bias, value: tensor([-0.0185, -0.0292, -0.0255, -0.0297, -0.0039,  0.0098,  0.0081, -0.0046,
+        -0.0089, -0.0168], device='cuda:0'), grad: tensor([-3.3993e-08, -4.5169e-08, -4.6566e-10,  6.0536e-09,  5.1688e-08,
+         1.1176e-08, -7.9162e-09,  8.3819e-08,  1.3504e-08, -6.7521e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 317, time 220.74, cls_loss 0.0009 cls_loss_mapping 0.0014 cls_loss_causal 0.4557 re_mapping 0.0035 re_causal 0.0094 /// teacc 99.13 lr 0.00010000
+Epoch 319, weight, value: tensor([[-0.2234, -0.2930,  0.1191,  ..., -0.1430,  0.0461,  0.0416],
+        [-0.1530, -0.0736, -0.1099,  ..., -0.2120, -0.0809, -0.0244],
+        [ 0.0172, -0.1671, -0.2095,  ..., -0.1648,  0.0303, -0.3862],
+        ...,
+        [-0.2188,  0.1817,  0.0300,  ...,  0.2131, -0.0621, -0.1689],
+        [-0.1883, -0.1818,  0.1996,  ..., -0.1621, -0.1581,  0.1625],
+        [ 0.0174, -0.3252,  0.1785,  ...,  0.0615, -0.2055, -0.1660]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -6.4960e-08,  ...,  0.0000e+00,
+          0.0000e+00, -1.7462e-08],
+        [ 0.0000e+00, -1.0920e-07,  8.1491e-09,  ...,  0.0000e+00,
+          0.0000e+00,  7.2177e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.9814e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.6089e-07],
+        ...,
+        [ 0.0000e+00,  1.0384e-07,  8.8476e-09,  ...,  2.3283e-10,
+          0.0000e+00,  7.6834e-09],
+        [ 0.0000e+00,  2.3283e-10, -1.6205e-07,  ...,  0.0000e+00,
+          0.0000e+00, -1.7066e-07],
+        [ 0.0000e+00,  4.1910e-09,  2.5611e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-09]], device='cuda:0')
+Epoch 319, bias, value: tensor([-0.0177, -0.0291, -0.0260, -0.0297, -0.0042,  0.0099,  0.0081, -0.0047,
+        -0.0091, -0.0167], device='cuda:0'), grad: tensor([-2.0303e-07, -1.0105e-06,  7.0781e-07,  1.8626e-08, -1.4855e-07,
+         1.3039e-08,  2.3982e-08,  1.0738e-06, -5.8766e-07,  1.2759e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 318, time 220.36, cls_loss 0.0008 cls_loss_mapping 0.0021 cls_loss_causal 0.4661 re_mapping 0.0032 re_causal 0.0096 /// teacc 99.12 lr 0.00010000
+Epoch 320, weight, value: tensor([[-0.2245, -0.2933,  0.1182,  ..., -0.1431,  0.0462,  0.0406],
+        [-0.1538, -0.0736, -0.1100,  ..., -0.2122, -0.0809, -0.0245],
+        [ 0.0170, -0.1692, -0.2120,  ..., -0.1662,  0.0303, -0.3872],
+        ...,
+        [-0.2188,  0.1817,  0.0300,  ...,  0.2136, -0.0621, -0.1689],
+        [-0.1884, -0.1822,  0.2000,  ..., -0.1620, -0.1581,  0.1627],
+        [ 0.0182, -0.3265,  0.1807,  ...,  0.0614, -0.2056, -0.1635]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  2.3283e-10,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 2.3283e-10,  1.1642e-09,  6.9849e-10,  ...,  1.1642e-09,
+          0.0000e+00,  2.3283e-10],
+        [ 2.3283e-10,  2.3283e-09,  1.3970e-09,  ...,  2.3283e-09,
+          0.0000e+00,  2.3283e-10],
+        ...,
+        [ 4.6566e-10, -9.0804e-09, -3.7253e-09,  ..., -6.9849e-09,
+          0.0000e+00,  2.3283e-10],
+        [ 8.1491e-09,  0.0000e+00, -2.3283e-09,  ...,  2.3283e-10,
+          0.0000e+00,  5.3551e-09],
+        [ 3.7253e-09,  2.5611e-09, -6.9849e-10,  ...,  2.3283e-10,
+          0.0000e+00,  5.1223e-09]], device='cuda:0')
+Epoch 320, bias, value: tensor([-0.0191, -0.0291, -0.0269, -0.0313, -0.0044,  0.0107,  0.0081, -0.0047,
+        -0.0090, -0.0147], device='cuda:0'), grad: tensor([ 3.9581e-09,  4.6566e-09,  7.9162e-09,  3.3993e-08,  1.0012e-08,
+        -6.2631e-08,  1.1642e-09, -1.8161e-08,  1.3504e-08,  1.2806e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 319, time 220.61, cls_loss 0.0009 cls_loss_mapping 0.0014 cls_loss_causal 0.4883 re_mapping 0.0033 re_causal 0.0092 /// teacc 99.10 lr 0.00010000
+Epoch 321, weight, value: tensor([[-0.2249, -0.2936,  0.1186,  ..., -0.1431,  0.0463,  0.0408],
+        [-0.1533, -0.0737, -0.1101,  ..., -0.2125, -0.0810, -0.0245],
+        [ 0.0169, -0.1701, -0.2136,  ..., -0.1668,  0.0303, -0.3877],
+        ...,
+        [-0.2189,  0.1818,  0.0301,  ...,  0.2142, -0.0620, -0.1689],
+        [-0.1886, -0.1831,  0.2006,  ..., -0.1626, -0.1582,  0.1628],
+        [ 0.0185, -0.3281,  0.1811,  ...,  0.0610, -0.2056, -0.1638]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-10],
+        [ 0.0000e+00,  7.2177e-09,  2.0955e-09,  ...,  4.4238e-09,
+          4.6566e-10,  4.6566e-10],
+        [ 0.0000e+00,  1.8626e-09,  1.8626e-09,  ...,  1.1642e-09,
+          2.3283e-10,  2.0955e-09],
+        ...,
+        [ 0.0000e+00, -9.5461e-09, -2.3283e-09,  ..., -5.8208e-09,
+         -6.9849e-10,  2.3283e-10],
+        [ 2.3283e-10,  0.0000e+00, -1.1176e-08,  ...,  0.0000e+00,
+          0.0000e+00, -1.8161e-08],
+        [ 0.0000e+00,  6.9849e-10,  9.3132e-10,  ..., -1.3970e-09,
+          0.0000e+00,  6.5193e-09]], device='cuda:0')
+Epoch 321, bias, value: tensor([-0.0188, -0.0289, -0.0277, -0.0332, -0.0050,  0.0119,  0.0081, -0.0047,
+        -0.0090, -0.0149], device='cuda:0'), grad: tensor([ 1.6298e-09,  1.1176e-08,  9.5461e-09,  5.1223e-09,  1.6065e-08,
+        -2.0955e-08,  4.4703e-08, -1.4668e-08, -3.7020e-08,  7.6834e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 320, time 220.23, cls_loss 0.0007 cls_loss_mapping 0.0014 cls_loss_causal 0.4644 re_mapping 0.0034 re_causal 0.0097 /// teacc 99.17 lr 0.00010000
+Epoch 322, weight, value: tensor([[-0.2254, -0.2938,  0.1186,  ..., -0.1432,  0.0463,  0.0407],
+        [-0.1512, -0.0737, -0.1100,  ..., -0.2125, -0.0810, -0.0245],
+        [ 0.0168, -0.1706, -0.2142,  ..., -0.1673,  0.0304, -0.3881],
+        ...,
+        [-0.2192,  0.1819,  0.0301,  ...,  0.2144, -0.0621, -0.1689],
+        [-0.1887, -0.1833,  0.2009,  ..., -0.1634, -0.1582,  0.1629],
+        [ 0.0211, -0.3284,  0.1824,  ...,  0.0616, -0.2056, -0.1639]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  2.5611e-09,  1.8626e-09,  ...,  1.6298e-09,
+          0.0000e+00,  2.3283e-10],
+        [ 4.6566e-10,  1.1176e-08,  8.1491e-09,  ...,  9.3132e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10,  2.7940e-09,  1.1642e-09,  ...,  1.1642e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 6.9849e-10, -7.6834e-08, -6.7055e-08,  ..., -7.9861e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-09,  1.3970e-08,  3.7253e-09,  ...,  2.5611e-09,
+          0.0000e+00,  0.0000e+00],
+        [-9.3132e-10,  6.3796e-08, -1.7439e-07,  ..., -6.4960e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 322, bias, value: tensor([-0.0188, -0.0288, -0.0279, -0.0332, -0.0073,  0.0120,  0.0081, -0.0047,
+        -0.0090, -0.0133], device='cuda:0'), grad: tensor([ 1.1642e-08,  3.7719e-08,  8.6147e-09, -8.7544e-07,  7.0315e-07,
+         8.5495e-07, -6.0536e-09, -2.6100e-07,  4.5402e-08, -5.0105e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 321, time 220.59, cls_loss 0.0007 cls_loss_mapping 0.0016 cls_loss_causal 0.4961 re_mapping 0.0034 re_causal 0.0101 /// teacc 99.17 lr 0.00010000
+Epoch 323, weight, value: tensor([[-0.2260, -0.2941,  0.1186,  ..., -0.1433,  0.0463,  0.0405],
+        [-0.1513, -0.0736, -0.1100,  ..., -0.2126, -0.0810, -0.0245],
+        [ 0.0169, -0.1707, -0.2132,  ..., -0.1674,  0.0305, -0.3881],
+        ...,
+        [-0.2193,  0.1819,  0.0301,  ...,  0.2147, -0.0621, -0.1689],
+        [-0.1890, -0.1836,  0.2007,  ..., -0.1644, -0.1582,  0.1630],
+        [ 0.0213, -0.3297,  0.1828,  ...,  0.0618, -0.2056, -0.1638]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.3970e-09,  4.6566e-10,  ...,  9.7789e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 2.7940e-09,  1.0245e-08,  5.5879e-09,  ...,  2.3283e-08,
+          0.0000e+00,  4.6566e-10],
+        [-4.1910e-09,  2.3283e-09,  9.3132e-10,  ..., -3.5856e-08,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -2.3283e-08,  2.2352e-08,  ...,  3.4459e-08,
+          0.0000e+00,  0.0000e+00],
+        [-1.8626e-09,  0.0000e+00, -6.9849e-09,  ...,  9.3132e-10,
+          0.0000e+00, -1.1642e-08],
+        [ 0.0000e+00,  6.5193e-09, -5.6345e-08,  ..., -7.2177e-08,
+          0.0000e+00,  4.6566e-10]], device='cuda:0')
+Epoch 323, bias, value: tensor([-0.0190, -0.0286, -0.0274, -0.0332, -0.0073,  0.0120,  0.0081, -0.0049,
+        -0.0093, -0.0135], device='cuda:0'), grad: tensor([ 2.3376e-07,  4.8196e-07, -1.1176e-06,  3.0268e-08,  9.8255e-08,
+         3.5856e-08,  4.9826e-08,  3.5809e-07,  3.2596e-09, -1.7369e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 322, time 220.35, cls_loss 0.0009 cls_loss_mapping 0.0020 cls_loss_causal 0.4623 re_mapping 0.0033 re_causal 0.0092 /// teacc 99.06 lr 0.00010000
+Epoch 324, weight, value: tensor([[-0.2266, -0.2951,  0.1186,  ..., -0.1442,  0.0463,  0.0407],
+        [-0.1476, -0.0736, -0.1100,  ..., -0.2127, -0.0811, -0.0246],
+        [ 0.0171, -0.1712, -0.2141,  ..., -0.1678,  0.0306, -0.3886],
+        ...,
+        [-0.2200,  0.1819,  0.0300,  ...,  0.2150, -0.0621, -0.1690],
+        [-0.1890, -0.1841,  0.2020,  ..., -0.1648, -0.1583,  0.1639],
+        [ 0.0179, -0.3307,  0.1826,  ...,  0.0618, -0.2057, -0.1667]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.2352e-08,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-09],
+        [ 0.0000e+00,  4.6566e-10,  9.3132e-09,  ...,  0.0000e+00,
+          0.0000e+00, -6.0070e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  8.8476e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 4.6566e-10,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 1.1176e-08,  0.0000e+00,  3.2596e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09]], device='cuda:0')
+Epoch 324, bias, value: tensor([-0.0190, -0.0283, -0.0275, -0.0332, -0.0076,  0.0120,  0.0080, -0.0051,
+        -0.0077, -0.0155], device='cuda:0'), grad: tensor([-1.1642e-08, -4.9174e-07,  8.6147e-08,  2.7940e-09,  7.4506e-08,
+         1.2573e-08,  2.7474e-07,  1.5367e-08,  1.3970e-08,  2.7008e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 323, time 220.65, cls_loss 0.0012 cls_loss_mapping 0.0018 cls_loss_causal 0.4841 re_mapping 0.0032 re_causal 0.0092 /// teacc 99.18 lr 0.00010000
+Epoch 325, weight, value: tensor([[-0.2274, -0.2958,  0.1185,  ..., -0.1449,  0.0465,  0.0406],
+        [-0.1476, -0.0736, -0.1100,  ..., -0.2131, -0.0814, -0.0245],
+        [ 0.0171, -0.1727, -0.2152,  ..., -0.1690,  0.0358, -0.3898],
+        ...,
+        [-0.2203,  0.1819,  0.0300,  ...,  0.2154, -0.0663, -0.1691],
+        [-0.1899, -0.1849,  0.2022,  ..., -0.1667, -0.1583,  0.1640],
+        [ 0.0184, -0.3314,  0.1837,  ...,  0.0595, -0.2058, -0.1668]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00, -1.8859e-07,  ...,  0.0000e+00,
+          4.6566e-10, -2.4820e-07],
+        [ 4.6566e-10,  4.6566e-10,  2.0955e-08,  ...,  4.6566e-10,
+          2.3283e-09,  3.2131e-08],
+        [ 4.6566e-10,  4.6566e-10,  8.8476e-09,  ..., -4.1910e-09,
+         -1.4435e-08,  1.2107e-08],
+        ...,
+        [ 4.6566e-10,  9.3132e-10,  5.2620e-08,  ...,  2.7940e-09,
+          1.0245e-08,  7.0315e-08],
+        [-2.3283e-09,  2.3283e-09, -3.0268e-08,  ..., -2.3283e-09,
+          0.0000e+00, -1.7602e-07],
+        [ 1.3970e-09,  4.6566e-10,  3.7719e-08,  ...,  0.0000e+00,
+          0.0000e+00,  5.1688e-08]], device='cuda:0')
+Epoch 325, bias, value: tensor([-0.0194, -0.0281, -0.0269, -0.0330, -0.0050,  0.0120,  0.0078, -0.0053,
+        -0.0083, -0.0172], device='cuda:0'), grad: tensor([-1.8142e-06,  1.7229e-07,  2.7474e-08,  2.0536e-07,  6.1002e-08,
+         5.4017e-07,  1.9511e-07,  5.6019e-07, -3.2876e-07,  3.6974e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 324, time 220.78, cls_loss 0.0008 cls_loss_mapping 0.0011 cls_loss_causal 0.4363 re_mapping 0.0032 re_causal 0.0094 /// teacc 99.15 lr 0.00010000
+Epoch 326, weight, value: tensor([[-0.2287, -0.2960,  0.1192,  ..., -0.1450,  0.0463,  0.0415],
+        [-0.1478, -0.0737, -0.1100,  ..., -0.2134, -0.0820, -0.0245],
+        [ 0.0175, -0.1727, -0.2164,  ..., -0.1694,  0.0395, -0.3906],
+        ...,
+        [-0.2204,  0.1819,  0.0300,  ...,  0.2161, -0.0694, -0.1691],
+        [-0.1906, -0.1854,  0.2028,  ..., -0.1675, -0.1586,  0.1640],
+        [ 0.0184, -0.3337,  0.1837,  ...,  0.0592, -0.2063, -0.1669]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  6.0536e-09,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00, -1.3970e-09],
+        [ 3.8650e-08,  1.0151e-07,  3.0268e-08,  ...,  7.3574e-08,
+          0.0000e+00,  4.6566e-08],
+        [ 4.6566e-10,  1.8626e-08,  4.6566e-09,  ...,  9.3132e-10,
+          0.0000e+00,  4.1910e-09],
+        ...,
+        [ 1.3970e-09, -1.8440e-07, -6.0070e-08,  ..., -1.7183e-07,
+          0.0000e+00,  1.3970e-09],
+        [ 2.1653e-07,  1.4901e-08,  3.7253e-09,  ...,  8.3819e-09,
+          0.0000e+00,  2.3842e-07],
+        [ 5.7276e-08,  4.0513e-08,  6.9849e-09,  ...,  2.3283e-09,
+          0.0000e+00,  3.6322e-08]], device='cuda:0')
+Epoch 326, bias, value: tensor([-0.0175, -0.0281, -0.0259, -0.0330, -0.0051,  0.0121,  0.0077, -0.0054,
+        -0.0086, -0.0175], device='cuda:0'), grad: tensor([ 1.2107e-08,  4.1071e-07,  1.0431e-07, -4.0233e-07,  4.0699e-07,
+        -1.0263e-06,  4.1816e-07, -6.4727e-07,  5.0385e-07,  2.3982e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 325, time 220.55, cls_loss 0.0007 cls_loss_mapping 0.0011 cls_loss_causal 0.4543 re_mapping 0.0033 re_causal 0.0095 /// teacc 99.12 lr 0.00010000
+Epoch 327, weight, value: tensor([[-0.2289, -0.2963,  0.1192,  ..., -0.1451,  0.0461,  0.0413],
+        [-0.1479, -0.0737, -0.1100,  ..., -0.2138, -0.0821, -0.0245],
+        [ 0.0176, -0.1734, -0.2169,  ..., -0.1704,  0.0399, -0.3913],
+        ...,
+        [-0.2205,  0.1820,  0.0300,  ...,  0.2170, -0.0696, -0.1692],
+        [-0.1920, -0.1875,  0.2028,  ..., -0.1682, -0.1587,  0.1634],
+        [ 0.0184, -0.3363,  0.1838,  ...,  0.0590, -0.2064, -0.1670]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -6.1002e-08,  ...,  0.0000e+00,
+          0.0000e+00, -6.1467e-08],
+        [ 0.0000e+00,  1.8626e-09,  4.6566e-09,  ...,  9.3132e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-09],
+        ...,
+        [ 0.0000e+00, -1.8626e-09,  4.6566e-10,  ..., -4.6566e-10,
+          0.0000e+00,  2.3283e-09],
+        [ 3.7253e-09,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09],
+        [ 9.3132e-10,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.2596e-09]], device='cuda:0')
+Epoch 327, bias, value: tensor([-0.0178, -0.0281, -0.0263, -0.0330, -0.0051,  0.0122,  0.0077, -0.0054,
+        -0.0095, -0.0178], device='cuda:0'), grad: tensor([-5.6624e-07,  2.1420e-08,  2.1420e-08,  3.1199e-08,  6.0536e-09,
+         3.7719e-08,  4.1351e-07,  1.3504e-08,  1.2573e-08,  2.2352e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 326, time 220.86, cls_loss 0.0007 cls_loss_mapping 0.0013 cls_loss_causal 0.4539 re_mapping 0.0032 re_causal 0.0093 /// teacc 99.15 lr 0.00010000
+Epoch 328, weight, value: tensor([[-0.2293, -0.2964,  0.1192,  ..., -0.1454,  0.0456,  0.0412],
+        [-0.1480, -0.0737, -0.1101,  ..., -0.2139, -0.0821, -0.0245],
+        [ 0.0176, -0.1735, -0.2184,  ..., -0.1704,  0.0400, -0.3921],
+        ...,
+        [-0.2206,  0.1820,  0.0300,  ...,  0.2170, -0.0696, -0.1692],
+        [-0.1935, -0.1877,  0.2040,  ..., -0.1689, -0.1587,  0.1629],
+        [ 0.0185, -0.3367,  0.1844,  ...,  0.0592, -0.2064, -0.1671]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [-2.3283e-09,  5.5879e-09,  0.0000e+00,  ...,  5.1223e-09,
+          0.0000e+00, -4.6566e-09],
+        [ 0.0000e+00,  1.0245e-08,  1.3970e-09,  ...,  9.7789e-09,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [ 1.3970e-09, -1.8161e-08, -1.3970e-09,  ..., -1.6764e-08,
+          0.0000e+00,  3.7253e-09],
+        [ 1.3970e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 9.3132e-10,  2.7940e-09, -2.7940e-09,  ..., -9.3132e-10,
+          0.0000e+00,  1.3970e-09]], device='cuda:0')
+Epoch 328, bias, value: tensor([-0.0177, -0.0281, -0.0262, -0.0330, -0.0052,  0.0123,  0.0075, -0.0054,
+        -0.0101, -0.0175], device='cuda:0'), grad: tensor([ 1.3970e-09, -9.0059e-07,  6.9849e-07,  2.4214e-08,  2.1886e-08,
+        -3.3993e-08,  1.0245e-08,  1.8068e-07,  4.1910e-09,  4.6566e-10],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 327, time 220.27, cls_loss 0.0008 cls_loss_mapping 0.0015 cls_loss_causal 0.4823 re_mapping 0.0033 re_causal 0.0096 /// teacc 99.15 lr 0.00010000
+Epoch 329, weight, value: tensor([[-0.2302, -0.2976,  0.1189,  ..., -0.1464,  0.0449,  0.0410],
+        [-0.1481, -0.0740, -0.1103,  ..., -0.2157, -0.0824, -0.0245],
+        [ 0.0177, -0.1742, -0.2185,  ..., -0.1712,  0.0403, -0.3924],
+        ...,
+        [-0.2207,  0.1824,  0.0302,  ...,  0.2185, -0.0697, -0.1692],
+        [-0.1935, -0.1879,  0.2058,  ..., -0.1697, -0.1589,  0.1636],
+        [ 0.0185, -0.3372,  0.1850,  ...,  0.0596, -0.2066, -0.1673]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -8.3819e-09,  ...,  0.0000e+00,
+          0.0000e+00, -1.3504e-08],
+        [ 4.6566e-10,  2.3283e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-9.3132e-10,  1.2573e-08,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  2.8871e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.3970e-09,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 329, bias, value: tensor([-0.0184, -0.0283, -0.0259, -0.0330, -0.0053,  0.0123,  0.0075, -0.0052,
+        -0.0091, -0.0174], device='cuda:0'), grad: tensor([-5.4017e-08,  7.6834e-08, -1.2061e-07, -9.2201e-08,  3.2596e-09,
+         1.9558e-08,  2.9802e-08,  1.0710e-07,  1.9092e-08,  1.7229e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 328, time 220.16, cls_loss 0.0008 cls_loss_mapping 0.0014 cls_loss_causal 0.4913 re_mapping 0.0032 re_causal 0.0094 /// teacc 99.10 lr 0.00010000
+Epoch 330, weight, value: tensor([[-0.2306, -0.2987,  0.1187,  ..., -0.1470,  0.0449,  0.0407],
+        [-0.1481, -0.0741, -0.1103,  ..., -0.2160, -0.0826, -0.0245],
+        [ 0.0180, -0.1762, -0.2199,  ..., -0.1729,  0.0404, -0.3929],
+        ...,
+        [-0.2208,  0.1825,  0.0302,  ...,  0.2189, -0.0698, -0.1692],
+        [-0.1936, -0.1879,  0.2063,  ..., -0.1708, -0.1590,  0.1639],
+        [ 0.0186, -0.3377,  0.1868,  ...,  0.0609, -0.2072, -0.1674]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  9.3132e-10,
+         -4.6566e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00, -3.7253e-09],
+        [ 2.3283e-09,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-08,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 330, bias, value: tensor([-0.0189, -0.0283, -0.0265, -0.0330, -0.0061,  0.0123,  0.0076, -0.0052,
+        -0.0089, -0.0165], device='cuda:0'), grad: tensor([ 4.1910e-09,  3.9581e-08, -9.2201e-08,  5.4482e-08, -4.3772e-08,
+        -7.9162e-09, -2.9802e-08,  1.7229e-08, -1.3970e-09,  6.4261e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 329, time 220.89, cls_loss 0.0007 cls_loss_mapping 0.0016 cls_loss_causal 0.4467 re_mapping 0.0034 re_causal 0.0095 /// teacc 99.08 lr 0.00010000
+Epoch 331, weight, value: tensor([[-0.2325, -0.2988,  0.1184,  ..., -0.1479,  0.0449,  0.0401],
+        [-0.1481, -0.0741, -0.1103,  ..., -0.2161, -0.0826, -0.0244],
+        [ 0.0179, -0.1759, -0.2201,  ..., -0.1726,  0.0404, -0.3931],
+        ...,
+        [-0.2208,  0.1825,  0.0302,  ...,  0.2189, -0.0698, -0.1693],
+        [-0.1939, -0.1883,  0.2052,  ..., -0.1737, -0.1592,  0.1637],
+        [ 0.0183, -0.3382,  0.1878,  ...,  0.0614, -0.2073, -0.1673]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -9.3132e-09,  ...,  0.0000e+00,
+         -1.3970e-09, -4.6566e-10],
+        [ 0.0000e+00,  1.7229e-08,  5.5879e-09,  ...,  1.3970e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -4.6566e-10,  5.5879e-09,  ...,  0.0000e+00,
+          9.3132e-10,  9.3132e-10],
+        ...,
+        [ 0.0000e+00, -1.9092e-08, -4.1910e-09,  ..., -1.4901e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  4.6566e-10,  ...,  1.8626e-09,
+          4.6566e-10, -4.6566e-09],
+        [ 0.0000e+00,  9.3132e-10, -8.3819e-09,  ..., -4.6566e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 331, bias, value: tensor([-0.0194, -0.0283, -0.0258, -0.0331, -0.0063,  0.0124,  0.0075, -0.0052,
+        -0.0095, -0.0162], device='cuda:0'), grad: tensor([-2.5611e-08,  4.7032e-08,  2.0023e-08,  1.4435e-08,  1.3504e-08,
+         6.0536e-09,  3.7253e-09, -4.4703e-08, -5.5879e-09, -1.8626e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 330, time 220.46, cls_loss 0.0008 cls_loss_mapping 0.0015 cls_loss_causal 0.4762 re_mapping 0.0033 re_causal 0.0093 /// teacc 99.07 lr 0.00010000
+Epoch 332, weight, value: tensor([[-0.2327, -0.2991,  0.1183,  ..., -0.1485,  0.0445,  0.0401],
+        [-0.1482, -0.0741, -0.1103,  ..., -0.2163, -0.0827, -0.0245],
+        [ 0.0176, -0.1783, -0.2220,  ..., -0.1745,  0.0406, -0.3937],
+        ...,
+        [-0.2210,  0.1827,  0.0302,  ...,  0.2197, -0.0699, -0.1693],
+        [-0.1940, -0.1886,  0.2080,  ..., -0.1741, -0.1596,  0.1642],
+        [ 0.0183, -0.3387,  0.1884,  ...,  0.0614, -0.2073, -0.1675]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [ 4.6566e-10,  1.3970e-09,  9.3132e-10,  ...,  1.3970e-09,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -4.1910e-09, -2.7940e-09,  ..., -5.5879e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 3.7253e-09,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  3.2596e-09],
+        [ 4.6566e-10,  4.1910e-09,  1.3970e-09,  ...,  4.6566e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 332, bias, value: tensor([-0.0198, -0.0283, -0.0264, -0.0331, -0.0069,  0.0124,  0.0076, -0.0051,
+        -0.0086, -0.0162], device='cuda:0'), grad: tensor([ 1.3970e-09,  3.8650e-08, -1.8161e-08,  6.0536e-09,  5.0291e-08,
+        -4.4703e-08, -2.7474e-08, -8.3819e-09,  7.4506e-09,  7.4506e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 331, time 220.32, cls_loss 0.0007 cls_loss_mapping 0.0011 cls_loss_causal 0.4814 re_mapping 0.0032 re_causal 0.0092 /// teacc 99.05 lr 0.00010000
+Epoch 333, weight, value: tensor([[-0.2331, -0.2996,  0.1188,  ..., -0.1487,  0.0445,  0.0407],
+        [-0.1483, -0.0744, -0.1103,  ..., -0.2190, -0.0827, -0.0246],
+        [ 0.0175, -0.1783, -0.2224,  ..., -0.1748,  0.0407, -0.3940],
+        ...,
+        [-0.2211,  0.1831,  0.0302,  ...,  0.2224, -0.0699, -0.1693],
+        [-0.1942, -0.1888,  0.2084,  ..., -0.1744, -0.1597,  0.1644],
+        [ 0.0180, -0.3405,  0.1882,  ...,  0.0611, -0.2073, -0.1677]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.9558e-08,  0.0000e+00,  ...,  5.1223e-09,
+          0.0000e+00,  9.3132e-10],
+        [-9.3132e-10,  1.0338e-07,  0.0000e+00,  ...,  2.8871e-08,
+          0.0000e+00, -3.2596e-09],
+        [ 0.0000e+00,  5.1223e-09,  1.8626e-09,  ...,  1.3970e-09,
+          0.0000e+00,  1.8626e-09],
+        ...,
+        [ 4.6566e-10, -2.2771e-07,  0.0000e+00,  ..., -6.3330e-08,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  1.3970e-09, -3.7253e-09,  ...,  4.6566e-10,
+          0.0000e+00, -1.8626e-09],
+        [ 0.0000e+00,  9.7789e-09,  4.6566e-10,  ...,  3.7253e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 333, bias, value: tensor([-0.0189, -0.0288, -0.0262, -0.0332, -0.0068,  0.0125,  0.0075, -0.0047,
+        -0.0086, -0.0166], device='cuda:0'), grad: tensor([ 5.0757e-08,  2.0117e-07,  1.9092e-08,  3.8184e-08,  5.5879e-08,
+         1.5320e-07, -5.0757e-08, -4.9407e-07, -9.3132e-10,  2.4214e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 332, time 220.32, cls_loss 0.0007 cls_loss_mapping 0.0015 cls_loss_causal 0.4914 re_mapping 0.0031 re_causal 0.0094 /// teacc 99.13 lr 0.00010000
+Epoch 334, weight, value: tensor([[-0.2333, -0.2998,  0.1189,  ..., -0.1490,  0.0445,  0.0409],
+        [-0.1484, -0.0750, -0.1110,  ..., -0.2192, -0.0828, -0.0243],
+        [ 0.0175, -0.1785, -0.2226,  ..., -0.1750,  0.0407, -0.3942],
+        ...,
+        [-0.2211,  0.1837,  0.0309,  ...,  0.2225, -0.0700, -0.1696],
+        [-0.1943, -0.1890,  0.2089,  ..., -0.1749, -0.1597,  0.1645],
+        [ 0.0180, -0.3411,  0.1886,  ...,  0.0614, -0.2074, -0.1679]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-09],
+        [ 0.0000e+00,  4.6566e-10, -2.0070e-07,  ...,  9.3132e-10,
+          0.0000e+00, -2.9476e-07],
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.2573e-08],
+        ...,
+        [ 0.0000e+00,  2.7940e-09,  3.8184e-08,  ...,  1.8626e-09,
+          0.0000e+00,  5.3551e-08],
+        [ 4.6566e-10,  4.6566e-10,  1.3644e-07,  ...,  0.0000e+00,
+          0.0000e+00,  2.0023e-07],
+        [-9.3132e-10,  4.6566e-10,  3.7253e-09,  ..., -8.3819e-09,
+          0.0000e+00,  1.2107e-08]], device='cuda:0')
+Epoch 334, bias, value: tensor([-0.0191, -0.0294, -0.0257, -0.0332, -0.0068,  0.0125,  0.0075, -0.0042,
+        -0.0086, -0.0165], device='cuda:0'), grad: tensor([ 5.6345e-08, -3.3844e-06,  1.3970e-07, -2.7940e-09,  5.7276e-08,
+         4.4703e-08,  2.8405e-08,  6.2771e-07,  2.3041e-06,  1.2247e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 333, time 220.64, cls_loss 0.0007 cls_loss_mapping 0.0013 cls_loss_causal 0.4603 re_mapping 0.0033 re_causal 0.0095 /// teacc 99.07 lr 0.00010000
+Epoch 335, weight, value: tensor([[-0.2334, -0.3015,  0.1190,  ..., -0.1495,  0.0445,  0.0409],
+        [-0.1487, -0.0750, -0.1111,  ..., -0.2198, -0.0828, -0.0243],
+        [ 0.0174, -0.1787, -0.2232,  ..., -0.1755,  0.0407, -0.3946],
+        ...,
+        [-0.2212,  0.1838,  0.0309,  ...,  0.2231, -0.0700, -0.1696],
+        [-0.1943, -0.1893,  0.2095,  ..., -0.1764, -0.1598,  0.1648],
+        [ 0.0186, -0.3424,  0.1892,  ...,  0.0618, -0.2074, -0.1677]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  4.1910e-09,  0.0000e+00,  ...,  2.7940e-09,
+          0.0000e+00, -1.8626e-09],
+        [ 0.0000e+00,  2.3283e-09,  1.0245e-08,  ...,  1.3970e-09,
+          0.0000e+00,  1.8626e-08],
+        ...,
+        [ 0.0000e+00, -5.1223e-09, -4.6566e-10,  ..., -6.0536e-09,
+          0.0000e+00,  9.3132e-10],
+        [ 4.6566e-10,  0.0000e+00, -1.5832e-08,  ...,  0.0000e+00,
+          0.0000e+00, -2.5611e-08],
+        [ 0.0000e+00,  9.3132e-10,  2.3283e-09,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-09]], device='cuda:0')
+Epoch 335, bias, value: tensor([-0.0193, -0.0295, -0.0259, -0.0332, -0.0063,  0.0125,  0.0075, -0.0041,
+        -0.0088, -0.0163], device='cuda:0'), grad: tensor([ 3.2596e-08, -6.6590e-08,  1.2666e-07,  9.3132e-10,  3.0734e-08,
+         3.5856e-08, -1.1828e-07,  7.4506e-09, -6.1467e-08,  1.8161e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 334, time 220.45, cls_loss 0.0007 cls_loss_mapping 0.0013 cls_loss_causal 0.4741 re_mapping 0.0031 re_causal 0.0091 /// teacc 99.14 lr 0.00010000
+Epoch 336, weight, value: tensor([[-0.2340, -0.3024,  0.1190,  ..., -0.1497,  0.0445,  0.0403],
+        [-0.1488, -0.0751, -0.1111,  ..., -0.2199, -0.0828, -0.0242],
+        [ 0.0158, -0.1793, -0.2242,  ..., -0.1762,  0.0407, -0.3960],
+        ...,
+        [-0.2213,  0.1839,  0.0310,  ...,  0.2235, -0.0700, -0.1697],
+        [-0.1945, -0.1896,  0.2098,  ..., -0.1771, -0.1598,  0.1648],
+        [ 0.0182, -0.3439,  0.1896,  ...,  0.0620, -0.2074, -0.1682]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  3.7253e-09,  4.6566e-10,  ...,  2.3283e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -5.5879e-09,  2.7940e-09,  ..., -1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.7940e-09, -6.5193e-09,  ..., -3.2596e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 336, bias, value: tensor([-0.0199, -0.0294, -0.0264, -0.0332, -0.0065,  0.0125,  0.0076, -0.0041,
+        -0.0089, -0.0164], device='cuda:0'), grad: tensor([ 6.0536e-09,  9.3132e-09,  4.1910e-09,  1.8626e-09,  3.7253e-09,
+         8.3819e-09, -1.4901e-08, -4.6566e-09,  2.7940e-09, -1.3039e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 335, time 220.35, cls_loss 0.0007 cls_loss_mapping 0.0014 cls_loss_causal 0.4657 re_mapping 0.0031 re_causal 0.0090 /// teacc 99.12 lr 0.00010000
+Epoch 337, weight, value: tensor([[-0.2341, -0.3032,  0.1190,  ..., -0.1501,  0.0445,  0.0401],
+        [-0.1487, -0.0751, -0.1111,  ..., -0.2201, -0.0829, -0.0242],
+        [ 0.0153, -0.1794, -0.2251,  ..., -0.1762,  0.0407, -0.3968],
+        ...,
+        [-0.2213,  0.1840,  0.0309,  ...,  0.2235, -0.0700, -0.1697],
+        [-0.1946, -0.1916,  0.2104,  ..., -0.1773, -0.1598,  0.1651],
+        [ 0.0182, -0.3448,  0.1899,  ...,  0.0622, -0.2075, -0.1683]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.1420e-08,  ...,  0.0000e+00,
+          0.0000e+00, -8.3819e-09],
+        [ 0.0000e+00,  4.6566e-10,  2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.3970e-09],
+        ...,
+        [ 0.0000e+00,  4.6566e-10,  1.3970e-09,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  6.5193e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-09],
+        [-4.6566e-10,  0.0000e+00,  2.7940e-09,  ..., -2.3283e-09,
+          0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 337, bias, value: tensor([-0.0203, -0.0294, -0.0266, -0.0332, -0.0064,  0.0125,  0.0076, -0.0042,
+        -0.0087, -0.0164], device='cuda:0'), grad: tensor([ 4.6566e-09,  2.9337e-08, -2.6263e-07,  1.5181e-07,  9.7789e-09,
+         3.2596e-09,  8.3819e-09,  2.4680e-08,  1.4901e-08,  1.9558e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 336, time 220.33, cls_loss 0.0007 cls_loss_mapping 0.0018 cls_loss_causal 0.4826 re_mapping 0.0032 re_causal 0.0095 /// teacc 99.19 lr 0.00010000
+Epoch 338, weight, value: tensor([[-0.2342, -0.3021,  0.1195,  ..., -0.1503,  0.0444,  0.0402],
+        [-0.1488, -0.0751, -0.1111,  ..., -0.2205, -0.0828, -0.0241],
+        [ 0.0149, -0.1803, -0.2271,  ..., -0.1765,  0.0407, -0.3978],
+        ...,
+        [-0.2214,  0.1840,  0.0309,  ...,  0.2240, -0.0700, -0.1698],
+        [-0.1946, -0.1920,  0.2113,  ..., -0.1770, -0.1598,  0.1655],
+        [ 0.0183, -0.3475,  0.1899,  ...,  0.0622, -0.2076, -0.1685]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.3970e-09,  ...,  0.0000e+00,
+          0.0000e+00, -4.6566e-10],
+        [ 0.0000e+00,  4.6566e-10,  9.3132e-10,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00, -1.1642e-08,  ...,  0.0000e+00,
+          0.0000e+00, -6.5193e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-09]], device='cuda:0')
+Epoch 338, bias, value: tensor([-0.0199, -0.0292, -0.0270, -0.0331, -0.0064,  0.0125,  0.0076, -0.0043,
+        -0.0082, -0.0167], device='cuda:0'), grad: tensor([-3.7253e-09,  3.2596e-09,  1.8626e-09,  2.5146e-08,  1.3970e-09,
+        -1.2107e-08,  7.9162e-09,  1.8626e-09, -2.6077e-08,  9.3132e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 337, time 221.02, cls_loss 0.0006 cls_loss_mapping 0.0011 cls_loss_causal 0.4641 re_mapping 0.0033 re_causal 0.0096 /// teacc 99.12 lr 0.00010000
+Epoch 339, weight, value: tensor([[-0.2344, -0.3023,  0.1197,  ..., -0.1504,  0.0444,  0.0403],
+        [-0.1488, -0.0751, -0.1111,  ..., -0.2207, -0.0825, -0.0241],
+        [ 0.0145, -0.1811, -0.2280,  ..., -0.1775,  0.0404, -0.3992],
+        ...,
+        [-0.2214,  0.1842,  0.0310,  ...,  0.2249, -0.0701, -0.1698],
+        [-0.1947, -0.1923,  0.2119,  ..., -0.1763, -0.1602,  0.1656],
+        [ 0.0184, -0.3496,  0.1900,  ...,  0.0625, -0.2076, -0.1687]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  8.8476e-09,  1.8626e-09,  ...,  8.8476e-09,
+          0.0000e+00, -1.3970e-09],
+        [ 0.0000e+00,  9.3132e-10,  1.3970e-09,  ...,  9.3132e-10,
+          0.0000e+00,  9.3132e-10],
+        ...,
+        [ 0.0000e+00, -2.2817e-08, -5.1223e-09,  ..., -2.3283e-08,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00, -1.3970e-09,  ...,  0.0000e+00,
+          0.0000e+00, -9.3132e-10],
+        [ 0.0000e+00,  1.0710e-08,  2.7940e-09,  ...,  1.0710e-08,
+          0.0000e+00,  4.6566e-10]], device='cuda:0')
+Epoch 339, bias, value: tensor([-0.0198, -0.0293, -0.0277, -0.0331, -0.0071,  0.0124,  0.0078, -0.0042,
+        -0.0084, -0.0166], device='cuda:0'), grad: tensor([ 2.7940e-09, -9.1735e-08, -2.3050e-07,  3.2596e-09,  1.3318e-07,
+         6.0536e-09,  4.6566e-09, -5.2620e-08,  1.8999e-07,  4.3306e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 338, time 221.01, cls_loss 0.0007 cls_loss_mapping 0.0012 cls_loss_causal 0.4713 re_mapping 0.0031 re_causal 0.0089 /// teacc 99.20 lr 0.00010000
+Epoch 340, weight, value: tensor([[-0.2347, -0.3029,  0.1197,  ..., -0.1511,  0.0441,  0.0403],
+        [-0.1489, -0.0751, -0.1111,  ..., -0.2209, -0.0826, -0.0241],
+        [ 0.0115, -0.1846, -0.2290,  ..., -0.1782,  0.0403, -0.3999],
+        ...,
+        [-0.2215,  0.1842,  0.0310,  ...,  0.2253, -0.0701, -0.1698],
+        [-0.1948, -0.1929,  0.2127,  ..., -0.1767, -0.1603,  0.1663],
+        [ 0.0183, -0.3512,  0.1904,  ...,  0.0619, -0.2076, -0.1689]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.3283e-09,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -5.5879e-09,  4.6566e-10,  ..., -2.7940e-09,
+          0.0000e+00,  4.6566e-10],
+        [ 1.3970e-09,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  1.3970e-09],
+        [ 0.0000e+00,  4.6566e-10, -9.3132e-10,  ..., -1.3970e-09,
+          0.0000e+00,  4.6566e-10]], device='cuda:0')
+Epoch 340, bias, value: tensor([-0.0200, -0.0293, -0.0304, -0.0319, -0.0067,  0.0122,  0.0078, -0.0043,
+        -0.0079, -0.0172], device='cuda:0'), grad: tensor([ 3.2596e-09,  2.6776e-07, -2.6822e-07, -9.3132e-10,  3.7253e-09,
+        -2.3283e-09,  5.1223e-09, -6.0536e-09,  5.1223e-09, -4.6566e-10],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 339, time 220.47, cls_loss 0.0008 cls_loss_mapping 0.0014 cls_loss_causal 0.4786 re_mapping 0.0031 re_causal 0.0089 /// teacc 99.12 lr 0.00010000
+Epoch 341, weight, value: tensor([[-0.2349, -0.3036,  0.1200,  ..., -0.1514,  0.0438,  0.0400],
+        [-0.1490, -0.0752, -0.1111,  ..., -0.2211, -0.0790, -0.0239],
+        [ 0.0115, -0.1855, -0.2303,  ..., -0.1798,  0.0379, -0.4018],
+        ...,
+        [-0.2215,  0.1844,  0.0310,  ...,  0.2257, -0.0711, -0.1699],
+        [-0.1949, -0.1945,  0.2124,  ..., -0.1774, -0.1615,  0.1667],
+        [ 0.0182, -0.3522,  0.1906,  ...,  0.0618, -0.2077, -0.1690]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [ 0.0000e+00,  8.8476e-09,  0.0000e+00,  ...,  2.7940e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00, -4.1910e-09],
+        ...,
+        [ 0.0000e+00, -3.7253e-09,  0.0000e+00,  ..., -3.2596e-09,
+          0.0000e+00,  1.3970e-09],
+        [ 1.3970e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  3.2596e-09],
+        [ 4.6566e-10,  4.6566e-10, -1.3970e-09,  ..., -4.6566e-10,
+          0.0000e+00,  1.3970e-09]], device='cuda:0')
+Epoch 341, bias, value: tensor([-0.0203, -0.0290, -0.0316, -0.0318, -0.0063,  0.0121,  0.0079, -0.0043,
+        -0.0078, -0.0175], device='cuda:0'), grad: tensor([ 2.9337e-08,  2.9337e-08, -1.0105e-07, -1.2573e-08,  3.2596e-09,
+         1.0710e-08, -1.1176e-08,  2.0023e-08,  3.7719e-08,  4.1910e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 340, time 220.69, cls_loss 0.0007 cls_loss_mapping 0.0013 cls_loss_causal 0.4767 re_mapping 0.0031 re_causal 0.0090 /// teacc 99.13 lr 0.00010000
+Epoch 342, weight, value: tensor([[-0.2361, -0.3021,  0.1205,  ..., -0.1515,  0.0438,  0.0394],
+        [-0.1490, -0.0753, -0.1112,  ..., -0.2213, -0.0790, -0.0238],
+        [ 0.0116, -0.1852, -0.2307,  ..., -0.1790,  0.0378, -0.4024],
+        ...,
+        [-0.2216,  0.1844,  0.0310,  ...,  0.2257, -0.0711, -0.1700],
+        [-0.1950, -0.1949,  0.2136,  ..., -0.1774, -0.1616,  0.1671],
+        [ 0.0181, -0.3531,  0.1909,  ...,  0.0621, -0.2077, -0.1692]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  1.3970e-09,  4.6566e-10,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  1.5832e-08,  2.7940e-09,  ...,  1.1642e-08,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  1.2107e-08,  9.3132e-10,  ...,  8.3819e-09,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [ 0.0000e+00, -2.1979e-07, -3.0734e-08,  ..., -1.9278e-07,
+          0.0000e+00, -1.8626e-09],
+        [ 7.9162e-09,  9.3132e-10,  5.5879e-09,  ...,  4.1910e-09,
+          0.0000e+00, -9.3132e-10],
+        [-2.7008e-08,  9.3132e-10, -2.7474e-08,  ..., -1.2107e-08,
+          0.0000e+00, -3.2596e-09]], device='cuda:0')
+Epoch 342, bias, value: tensor([-0.0207, -0.0300, -0.0285, -0.0318, -0.0063,  0.0121,  0.0079, -0.0044,
+        -0.0077, -0.0175], device='cuda:0'), grad: tensor([ 9.3132e-09,  3.8184e-08,  4.6566e-08,  5.5879e-09,  4.8662e-07,
+         6.6590e-08,  3.2596e-09, -5.4762e-07,  3.3993e-08, -1.3364e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 341, time 220.76, cls_loss 0.0006 cls_loss_mapping 0.0011 cls_loss_causal 0.4716 re_mapping 0.0031 re_causal 0.0092 /// teacc 99.11 lr 0.00010000
+Epoch 343, weight, value: tensor([[-0.2375, -0.3028,  0.1204,  ..., -0.1518,  0.0432,  0.0386],
+        [-0.1491, -0.0753, -0.1112,  ..., -0.2215, -0.0760, -0.0238],
+        [ 0.0112, -0.1852, -0.2314,  ..., -0.1793,  0.0348, -0.4036],
+        ...,
+        [-0.2217,  0.1845,  0.0310,  ...,  0.2261, -0.0716, -0.1700],
+        [-0.1952, -0.1952,  0.2147,  ..., -0.1778, -0.1619,  0.1673],
+        [ 0.0165, -0.3543,  0.1913,  ...,  0.0597, -0.2078, -0.1695]],
+       device='cuda:0'), grad: tensor([[ 4.8894e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  5.3551e-09],
+        [ 4.6566e-10,  1.6298e-09,  2.3283e-10,  ...,  9.3132e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 4.6566e-10,  2.3283e-10,  2.3283e-10,  ...,  2.3283e-10,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [ 9.3132e-10, -1.5832e-08, -2.7940e-09,  ..., -1.4668e-08,
+          0.0000e+00,  9.3132e-10],
+        [ 1.0012e-08, -9.3132e-10, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.9581e-09],
+        [ 1.1642e-09,  2.3283e-10,  2.3283e-10,  ...,  0.0000e+00,
+          0.0000e+00,  1.3970e-09]], device='cuda:0')
+Epoch 343, bias, value: tensor([-0.0215, -0.0298, -0.0293, -0.0318, -0.0036,  0.0121,  0.0079, -0.0044,
+        -0.0077, -0.0202], device='cuda:0'), grad: tensor([ 1.4668e-08,  6.7521e-09, -4.6566e-10,  1.5367e-08,  3.2596e-08,
+        -3.5111e-07,  3.0315e-07, -2.5844e-08,  9.3132e-09,  4.8894e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 342, time 220.81, cls_loss 0.0005 cls_loss_mapping 0.0010 cls_loss_causal 0.4470 re_mapping 0.0031 re_causal 0.0094 /// teacc 99.14 lr 0.00010000
+Epoch 344, weight, value: tensor([[-0.2380, -0.3031,  0.1194,  ..., -0.1542,  0.0432,  0.0364],
+        [-0.1491, -0.0754, -0.1112,  ..., -0.2216, -0.0760, -0.0238],
+        [ 0.0113, -0.1849, -0.2315,  ..., -0.1788,  0.0349, -0.4036],
+        ...,
+        [-0.2218,  0.1846,  0.0310,  ...,  0.2265, -0.0716, -0.1700],
+        [-0.1954, -0.1972,  0.2145,  ..., -0.1782, -0.1625,  0.1672],
+        [ 0.0165, -0.3549,  0.1922,  ...,  0.0601, -0.2078, -0.1695]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.3283e-10, -1.8626e-09,  ...,  2.3283e-10,
+         -2.3283e-10, -1.8626e-09],
+        [ 0.0000e+00,  4.6566e-10,  4.6566e-10,  ...,  2.3283e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  9.3132e-10,  4.6566e-10,  ...,  6.9849e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 6.9849e-10,  2.3283e-10,  2.3283e-10,  ...,  9.3132e-10,
+          0.0000e+00,  6.9849e-10],
+        [ 2.3283e-10,  6.9849e-10, -4.1910e-09,  ..., -8.3819e-09,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 344, bias, value: tensor([-0.0246, -0.0298, -0.0290, -0.0317, -0.0041,  0.0120,  0.0084, -0.0043,
+        -0.0083, -0.0200], device='cuda:0'), grad: tensor([-5.8208e-09,  1.2340e-08, -5.8208e-09, -7.6834e-09,  1.2107e-08,
+         1.1176e-08, -1.2573e-08,  4.6566e-09,  8.1491e-09, -1.5134e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 343, time 220.47, cls_loss 0.0006 cls_loss_mapping 0.0010 cls_loss_causal 0.4618 re_mapping 0.0030 re_causal 0.0089 /// teacc 99.15 lr 0.00010000
+Epoch 345, weight, value: tensor([[-0.2381, -0.3032,  0.1199,  ..., -0.1541,  0.0432,  0.0370],
+        [-0.1492, -0.0754, -0.1112,  ..., -0.2218, -0.0760, -0.0238],
+        [ 0.0115, -0.1850, -0.2325,  ..., -0.1789,  0.0349, -0.4042],
+        ...,
+        [-0.2218,  0.1846,  0.0310,  ...,  0.2264, -0.0716, -0.1701],
+        [-0.1956, -0.1975,  0.2148,  ..., -0.1791, -0.1628,  0.1674],
+        [ 0.0165, -0.3553,  0.1925,  ...,  0.0604, -0.2078, -0.1700]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  4.6566e-10,  2.3283e-10,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  2.7940e-09,  6.9849e-10,  ...,  1.1642e-09,
+          0.0000e+00, -6.9849e-10],
+        [ 9.3132e-10,  2.0955e-09,  2.3283e-10,  ...,  4.6566e-10,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [ 9.3132e-10, -1.1176e-08, -5.3551e-09,  ..., -7.4506e-09,
+          0.0000e+00,  2.3283e-10],
+        [ 2.5611e-09,  2.0955e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 1.6298e-09,  1.4668e-08, -9.5228e-08,  ..., -2.2375e-07,
+          0.0000e+00,  4.6566e-10]], device='cuda:0')
+Epoch 345, bias, value: tensor([-0.0244, -0.0298, -0.0290, -0.0317, -0.0041,  0.0120,  0.0084, -0.0044,
+        -0.0084, -0.0199], device='cuda:0'), grad: tensor([ 1.1642e-09, -5.1223e-09,  1.0710e-08, -8.5915e-08,  4.4028e-07,
+         5.3551e-08,  2.7940e-09, -1.4668e-08,  8.8476e-09, -4.0978e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 344, time 220.82, cls_loss 0.0007 cls_loss_mapping 0.0011 cls_loss_causal 0.4953 re_mapping 0.0030 re_causal 0.0092 /// teacc 99.10 lr 0.00010000
+Epoch 346, weight, value: tensor([[-0.2382, -0.3038,  0.1179,  ..., -0.1566,  0.0430,  0.0368],
+        [-0.1493, -0.0754, -0.1113,  ..., -0.2219, -0.0758, -0.0242],
+        [ 0.0115, -0.1851, -0.2328,  ..., -0.1791,  0.0347, -0.4044],
+        ...,
+        [-0.2219,  0.1846,  0.0309,  ...,  0.2263, -0.0718, -0.1702],
+        [-0.1967, -0.1982,  0.2147,  ..., -0.1801, -0.1629,  0.1668],
+        [ 0.0167, -0.3560,  0.1951,  ...,  0.0617, -0.2079, -0.1699]],
+       device='cuda:0'), grad: tensor([[ 6.2864e-09,  1.1642e-09,  4.6566e-10,  ...,  6.9849e-10,
+          0.0000e+00,  2.7940e-09],
+        [ 1.2806e-08,  2.8638e-08, -1.8626e-08,  ...,  2.7940e-08,
+          0.0000e+00, -3.8184e-08],
+        [ 2.1886e-08,  6.2864e-08,  4.4238e-09,  ...,  6.1002e-08,
+          0.0000e+00,  7.6834e-09],
+        ...,
+        [ 1.0012e-08, -2.0862e-07, -1.1409e-08,  ..., -2.1211e-07,
+          0.0000e+00,  7.2177e-09],
+        [ 6.8918e-08,  6.7521e-09,  1.6531e-08,  ...,  1.3970e-09,
+          0.0000e+00,  6.7288e-08],
+        [ 3.1921e-07,  1.4435e-07, -1.5600e-08,  ...,  7.9861e-08,
+          0.0000e+00,  1.1176e-07]], device='cuda:0')
+Epoch 346, bias, value: tensor([-0.0258, -0.0299, -0.0290, -0.0316, -0.0041,  0.0120,  0.0086, -0.0045,
+        -0.0096, -0.0189], device='cuda:0'), grad: tensor([ 2.2817e-08, -1.7905e-07,  2.2654e-07,  3.0603e-06,  1.5856e-07,
+        -3.9935e-06,  8.8243e-08, -6.2864e-07,  3.6834e-07,  8.7172e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 345, time 220.68, cls_loss 0.0006 cls_loss_mapping 0.0011 cls_loss_causal 0.4507 re_mapping 0.0031 re_causal 0.0089 /// teacc 99.11 lr 0.00010000
+Epoch 347, weight, value: tensor([[-0.2385, -0.3045,  0.1175,  ..., -0.1572,  0.0429,  0.0367],
+        [-0.1494, -0.0754, -0.1113,  ..., -0.2221, -0.0758, -0.0241],
+        [ 0.0118, -0.1852, -0.2333,  ..., -0.1796,  0.0347, -0.4052],
+        ...,
+        [-0.2221,  0.1846,  0.0309,  ...,  0.2265, -0.0718, -0.1702],
+        [-0.1981, -0.1994,  0.2145,  ..., -0.1811, -0.1629,  0.1664],
+        [ 0.0164, -0.3571,  0.1960,  ...,  0.0620, -0.2079, -0.1701]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10, -1.6298e-09, -1.4203e-08,  ...,  0.0000e+00,
+          0.0000e+00, -1.8626e-09],
+        [ 6.9849e-10,  6.0536e-09,  5.8208e-09,  ...,  1.1642e-09,
+          0.0000e+00, -6.9849e-10],
+        [-1.1642e-09,  1.6298e-09,  2.5611e-09,  ...,  4.6566e-10,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [ 2.3283e-10, -6.5193e-09,  9.3132e-10,  ..., -2.0955e-09,
+          0.0000e+00,  1.3970e-09],
+        [ 2.0955e-09,  2.3283e-10,  4.6566e-10,  ...,  2.3283e-10,
+          0.0000e+00,  1.3970e-09],
+        [ 8.3819e-09,  9.3132e-10, -1.1409e-08,  ..., -1.4203e-08,
+          0.0000e+00,  6.2864e-09]], device='cuda:0')
+Epoch 347, bias, value: tensor([-0.0262, -0.0297, -0.0291, -0.0315, -0.0040,  0.0121,  0.0086, -0.0045,
+        -0.0109, -0.0189], device='cuda:0'), grad: tensor([-3.6322e-08,  6.9384e-08, -8.9966e-07,  8.3121e-08,  2.3912e-07,
+        -6.7521e-08,  1.4203e-08,  7.1246e-08,  5.5414e-07, -1.8161e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 346, time 220.28, cls_loss 0.0008 cls_loss_mapping 0.0014 cls_loss_causal 0.4360 re_mapping 0.0030 re_causal 0.0084 /// teacc 99.09 lr 0.00010000
+Epoch 348, weight, value: tensor([[-0.2386, -0.3047,  0.1178,  ..., -0.1573,  0.0429,  0.0369],
+        [-0.1497, -0.0754, -0.1113,  ..., -0.2223, -0.0758, -0.0241],
+        [ 0.0117, -0.1853, -0.2340,  ..., -0.1797,  0.0347, -0.4055],
+        ...,
+        [-0.2224,  0.1849,  0.0311,  ...,  0.2278, -0.0719, -0.1703],
+        [-0.1986, -0.1997,  0.2148,  ..., -0.1817, -0.1629,  0.1663],
+        [ 0.0163, -0.3582,  0.1975,  ...,  0.0636, -0.2079, -0.1699]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-09],
+        [ 0.0000e+00,  6.9849e-10,  2.3283e-10,  ...,  6.9849e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -9.7789e-09, -7.4506e-09,  ..., -1.4901e-08,
+          2.3283e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  8.3819e-09,  6.5193e-09,  ...,  1.3504e-08,
+          0.0000e+00,  2.3283e-10]], device='cuda:0')
+Epoch 348, bias, value: tensor([-0.0262, -0.0297, -0.0289, -0.0317, -0.0053,  0.0121,  0.0086, -0.0044,
+        -0.0116, -0.0179], device='cuda:0'), grad: tensor([ 1.2084e-07,  4.4238e-09,  2.0955e-09,  6.9849e-10,  1.6997e-08,
+         6.0536e-08, -2.0256e-07, -3.1432e-08,  2.7940e-09,  3.3062e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 347, time 220.47, cls_loss 0.0009 cls_loss_mapping 0.0015 cls_loss_causal 0.4739 re_mapping 0.0030 re_causal 0.0085 /// teacc 99.13 lr 0.00010000
+Epoch 349, weight, value: tensor([[-0.2390, -0.3049,  0.1181,  ..., -0.1574,  0.0430,  0.0366],
+        [-0.1491, -0.0756, -0.1113,  ..., -0.2230, -0.0733, -0.0237],
+        [ 0.0118, -0.1857, -0.2351,  ..., -0.1804,  0.0323, -0.4055],
+        ...,
+        [-0.2227,  0.1851,  0.0311,  ...,  0.2287, -0.0722, -0.1704],
+        [-0.1995, -0.1999,  0.2155,  ..., -0.1819, -0.1634,  0.1663],
+        [ 0.0163, -0.3587,  0.1995,  ...,  0.0654, -0.2080, -0.1704]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  0.0000e+00, -1.6764e-08,  ...,  0.0000e+00,
+          0.0000e+00, -1.6764e-08],
+        [ 7.6834e-09,  2.3283e-10,  1.1176e-08,  ...,  2.3283e-10,
+          0.0000e+00,  3.7719e-08],
+        [ 6.9849e-09,  0.0000e+00,  5.8208e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.0268e-08],
+        ...,
+        [ 1.8626e-09,  2.3283e-10,  3.9581e-09,  ...,  6.2864e-09,
+          0.0000e+00,  9.3132e-09],
+        [-3.5041e-07,  0.0000e+00, -2.5774e-07,  ...,  4.4238e-09,
+          0.0000e+00, -1.4678e-06],
+        [-2.3283e-09,  2.3283e-10, -5.8208e-09,  ..., -6.9849e-09,
+          0.0000e+00, -4.8894e-09]], device='cuda:0')
+Epoch 349, bias, value: tensor([-0.0265, -0.0290, -0.0300, -0.0317, -0.0071,  0.0121,  0.0085, -0.0043,
+        -0.0118, -0.0165], device='cuda:0'), grad: tensor([-6.9151e-08,  1.2456e-07,  9.5461e-08, -4.5868e-08, -2.7940e-08,
+         3.9414e-06,  3.1106e-07,  5.9837e-08, -4.3511e-06, -1.5600e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 348, time 220.19, cls_loss 0.0009 cls_loss_mapping 0.0013 cls_loss_causal 0.4619 re_mapping 0.0031 re_causal 0.0087 /// teacc 98.99 lr 0.00010000
+Epoch 350, weight, value: tensor([[-0.2392, -0.3050,  0.1184,  ..., -0.1573,  0.0430,  0.0377],
+        [-0.1493, -0.0766, -0.1129,  ..., -0.2234, -0.0732, -0.0266],
+        [ 0.0120, -0.1861, -0.2358,  ..., -0.1813,  0.0323, -0.4071],
+        ...,
+        [-0.2228,  0.1862,  0.0326,  ...,  0.2291, -0.0726, -0.1679],
+        [-0.1996, -0.2023,  0.2165,  ..., -0.1829, -0.1640,  0.1677],
+        [ 0.0163, -0.3592,  0.2004,  ...,  0.0659, -0.2080, -0.1706]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  3.4925e-09,  0.0000e+00,  ...,  1.1642e-09,
+          0.0000e+00, -1.2573e-08],
+        [ 0.0000e+00,  3.0268e-09,  2.3283e-10,  ...,  4.1910e-09,
+          0.0000e+00,  1.6298e-09],
+        ...,
+        [ 0.0000e+00,  3.3760e-07,  1.4435e-08,  ...,  4.6566e-10,
+          0.0000e+00,  1.0477e-08],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  1.1642e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  6.0536e-09,
+          0.0000e+00,  4.6566e-10]], device='cuda:0')
+Epoch 350, bias, value: tensor([-0.0260, -0.0307, -0.0298, -0.0317, -0.0071,  0.0120,  0.0084, -0.0027,
+        -0.0107, -0.0162], device='cuda:0'), grad: tensor([ 1.0012e-08, -1.6182e-07,  5.8440e-08, -5.7649e-07, -1.5530e-07,
+         3.0966e-08,  6.0536e-09,  7.2038e-07,  1.3271e-08,  6.2864e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 349, time 220.15, cls_loss 0.0007 cls_loss_mapping 0.0015 cls_loss_causal 0.4501 re_mapping 0.0032 re_causal 0.0090 /// teacc 99.10 lr 0.00010000
+Epoch 351, weight, value: tensor([[-0.2394, -0.3046,  0.1185,  ..., -0.1573,  0.0431,  0.0375],
+        [-0.1494, -0.0766, -0.1129,  ..., -0.2236, -0.0733, -0.0267],
+        [ 0.0119, -0.1857, -0.2363,  ..., -0.1819,  0.0324, -0.4093],
+        ...,
+        [-0.2229,  0.1863,  0.0326,  ...,  0.2294, -0.0726, -0.1680],
+        [-0.1996, -0.2027,  0.2167,  ..., -0.1830, -0.1642,  0.1682],
+        [ 0.0163, -0.3595,  0.2005,  ...,  0.0654, -0.2080, -0.1708]],
+       device='cuda:0'), grad: tensor([[ 6.9849e-10,  4.1910e-09,  2.7940e-09,  ...,  2.3283e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 2.3283e-10, -6.3563e-08,  7.2177e-09,  ...,  3.7253e-09,
+          1.3970e-09,  2.3283e-10],
+        [ 4.6566e-10,  5.4250e-08,  2.5146e-08,  ...,  9.3132e-10,
+         -1.6298e-09,  2.3283e-10],
+        ...,
+        [ 2.3283e-10,  5.8208e-08,  1.8626e-09,  ..., -6.9849e-09,
+          0.0000e+00,  2.3283e-10],
+        [ 1.9325e-08,  4.7265e-08,  2.9802e-08,  ...,  0.0000e+00,
+          0.0000e+00,  4.1910e-09],
+        [ 3.0734e-08,  2.3283e-09,  1.3970e-09,  ...,  4.6566e-10,
+          0.0000e+00,  1.7462e-08]], device='cuda:0')
+Epoch 351, bias, value: tensor([-0.0263, -0.0305, -0.0296, -0.0318, -0.0067,  0.0116,  0.0092, -0.0031,
+        -0.0107, -0.0167], device='cuda:0'), grad: tensor([ 1.7229e-08, -2.9709e-07,  9.1502e-08, -2.6356e-07,  3.7253e-09,
+        -8.5682e-08,  1.3504e-08,  3.3691e-07,  1.4203e-07,  4.8196e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 350, time 220.33, cls_loss 0.0010 cls_loss_mapping 0.0016 cls_loss_causal 0.4870 re_mapping 0.0031 re_causal 0.0086 /// teacc 99.16 lr 0.00010000
+Epoch 352, weight, value: tensor([[-0.2406, -0.3048,  0.1183,  ..., -0.1583,  0.0418,  0.0375],
+        [-0.1498, -0.0765, -0.1131,  ..., -0.2239, -0.0733, -0.0267],
+        [ 0.0115, -0.1858, -0.2370,  ..., -0.1824,  0.0322, -0.4108],
+        ...,
+        [-0.2230,  0.1862,  0.0327,  ...,  0.2298, -0.0727, -0.1681],
+        [-0.2005, -0.2032,  0.2169,  ..., -0.1830, -0.1647,  0.1681],
+        [ 0.0175, -0.3603,  0.2017,  ...,  0.0656, -0.2082, -0.1715]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  4.4238e-09,  1.6298e-09,  ...,  6.0536e-09,
+          0.0000e+00, -6.9849e-10],
+        [ 3.2596e-09,  1.7136e-07,  6.1700e-08,  ...,  2.0722e-07,
+          0.0000e+00,  1.6298e-09],
+        [ 1.3970e-09,  2.4214e-08,  6.2864e-09,  ...,  2.8173e-08,
+          0.0000e+00,  2.3283e-10],
+        ...,
+        [ 4.8894e-09, -4.5472e-07, -1.2666e-07,  ..., -6.7102e-07,
+          0.0000e+00,  2.0955e-09],
+        [ 8.8476e-09,  8.6147e-09,  2.3283e-09,  ...,  5.1223e-09,
+          0.0000e+00,  7.9162e-09],
+        [ 6.0536e-09,  7.6136e-08, -3.8417e-08,  ...,  6.6590e-08,
+          0.0000e+00,  3.7253e-09]], device='cuda:0')
+Epoch 352, bias, value: tensor([-0.0272, -0.0302, -0.0288, -0.0319, -0.0082,  0.0116,  0.0094, -0.0037,
+        -0.0118, -0.0150], device='cuda:0'), grad: tensor([ 4.3306e-08,  1.1642e-06, -1.0533e-06,  3.8324e-07,  1.7192e-06,
+         4.6031e-07,  7.5204e-08, -3.2559e-06,  6.5425e-08,  4.0815e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 351, time 220.59, cls_loss 0.0009 cls_loss_mapping 0.0014 cls_loss_causal 0.4645 re_mapping 0.0030 re_causal 0.0087 /// teacc 99.07 lr 0.00010000
+Epoch 353, weight, value: tensor([[-0.2408, -0.3050,  0.1191,  ..., -0.1583,  0.0418,  0.0383],
+        [-0.1499, -0.0769, -0.1133,  ..., -0.2254, -0.0733, -0.0269],
+        [ 0.0115, -0.1868, -0.2382,  ..., -0.1849,  0.0322, -0.4116],
+        ...,
+        [-0.2231,  0.1868,  0.0330,  ...,  0.2320, -0.0727, -0.1681],
+        [-0.2008, -0.2050,  0.2175,  ..., -0.1848, -0.1647,  0.1688],
+        [ 0.0188, -0.3615,  0.2024,  ...,  0.0655, -0.2082, -0.1718]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  2.3283e-10, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-10],
+        [ 0.0000e+00,  1.7928e-08,  6.0536e-09,  ...,  7.4506e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10,  3.4925e-09,  1.1642e-09,  ...,  1.3970e-09,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [ 0.0000e+00, -2.1420e-08, -8.6147e-09,  ..., -1.1176e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  6.9849e-10,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 7.6834e-09,  3.9581e-09,  1.3970e-09,  ...,  1.1642e-09,
+          0.0000e+00,  1.0245e-08]], device='cuda:0')
+Epoch 353, bias, value: tensor([-0.0269, -0.0306, -0.0285, -0.0319, -0.0097,  0.0114,  0.0096, -0.0035,
+        -0.0120, -0.0135], device='cuda:0'), grad: tensor([-3.9581e-09,  4.2375e-08,  9.0804e-09,  1.8394e-08,  6.5193e-09,
+        -5.9372e-08,  1.0943e-08, -4.9593e-08,  6.0536e-09,  2.7707e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 352, time 220.33, cls_loss 0.0006 cls_loss_mapping 0.0010 cls_loss_causal 0.4427 re_mapping 0.0031 re_causal 0.0088 /// teacc 99.09 lr 0.00010000
+Epoch 354, weight, value: tensor([[-0.2404, -0.3051,  0.1193,  ..., -0.1583,  0.0418,  0.0391],
+        [-0.1500, -0.0771, -0.1133,  ..., -0.2258, -0.0733, -0.0269],
+        [ 0.0118, -0.1868, -0.2382,  ..., -0.1847,  0.0322, -0.4119],
+        ...,
+        [-0.2231,  0.1870,  0.0330,  ...,  0.2323, -0.0727, -0.1681],
+        [-0.2010, -0.2052,  0.2176,  ..., -0.1852, -0.1647,  0.1690],
+        [ 0.0188, -0.3620,  0.2024,  ...,  0.0655, -0.2082, -0.1720]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  0.0000e+00,  6.9849e-10,  ...,  4.6566e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 4.6566e-10,  6.2864e-09,  3.0268e-09,  ...,  5.3551e-09,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  8.3819e-09,  2.3283e-10,  ...,  7.6834e-09,
+          0.0000e+00,  2.3283e-10],
+        ...,
+        [ 0.0000e+00, -2.1188e-08,  5.1223e-09,  ...,  2.3097e-07,
+          0.0000e+00,  4.4238e-09],
+        [ 9.3132e-10,  1.6298e-09, -1.3970e-09,  ...,  6.9849e-10,
+          0.0000e+00, -6.9849e-10],
+        [-1.7229e-08,  4.6566e-10, -7.6368e-08,  ..., -2.0955e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 354, bias, value: tensor([-0.0265, -0.0315, -0.0266, -0.0319, -0.0096,  0.0114,  0.0096, -0.0035,
+        -0.0123, -0.0135], device='cuda:0'), grad: tensor([ 7.6834e-09,  2.4913e-08,  2.4680e-08,  1.3970e-08, -4.3330e-07,
+         4.7497e-08, -4.7265e-08,  7.5251e-07,  4.1910e-08, -4.4378e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 353, time 220.72, cls_loss 0.0006 cls_loss_mapping 0.0011 cls_loss_causal 0.4593 re_mapping 0.0032 re_causal 0.0090 /// teacc 99.17 lr 0.00010000
+Epoch 355, weight, value: tensor([[-0.2404, -0.3051,  0.1194,  ..., -0.1583,  0.0418,  0.0393],
+        [-0.1500, -0.0771, -0.1134,  ..., -0.2259, -0.0732, -0.0269],
+        [ 0.0118, -0.1869, -0.2394,  ..., -0.1848,  0.0322, -0.4125],
+        ...,
+        [-0.2233,  0.1870,  0.0330,  ...,  0.2323, -0.0727, -0.1682],
+        [-0.2028, -0.2055,  0.2182,  ..., -0.1857, -0.1648,  0.1682],
+        [ 0.0188, -0.3622,  0.2025,  ...,  0.0656, -0.2083, -0.1722]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.3283e-10,  4.0559e-07,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10,  1.6298e-08,  5.8208e-09,  ...,  2.3283e-09,
+          0.0000e+00, -4.6566e-10],
+        [-9.3132e-10,  2.3283e-09,  3.4925e-09,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 2.3283e-10, -1.9092e-08, -7.4506e-09,  ..., -3.2596e-09,
+          0.0000e+00,  4.6566e-10],
+        [ 2.3283e-10,  2.3283e-10,  2.3283e-10,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-10],
+        [ 1.1642e-09,  2.0955e-09, -4.1374e-07,  ...,  4.6566e-10,
+          0.0000e+00,  2.3283e-10]], device='cuda:0')
+Epoch 355, bias, value: tensor([-0.0265, -0.0315, -0.0272, -0.0319, -0.0098,  0.0115,  0.0101, -0.0036,
+        -0.0130, -0.0135], device='cuda:0'), grad: tensor([ 8.6147e-07,  2.1420e-08,  1.0710e-08, -2.3050e-08, -1.3271e-08,
+         1.6997e-08,  1.3039e-08, -2.4447e-08,  2.5611e-09, -8.6613e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 354, time 221.33, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4350 re_mapping 0.0032 re_causal 0.0088 /// teacc 99.12 lr 0.00010000
+Epoch 356, weight, value: tensor([[-0.2412, -0.3053,  0.1195,  ..., -0.1583,  0.0417,  0.0393],
+        [-0.1500, -0.0771, -0.1134,  ..., -0.2261, -0.0732, -0.0269],
+        [ 0.0113, -0.1870, -0.2398,  ..., -0.1849,  0.0322, -0.4137],
+        ...,
+        [-0.2239,  0.1870,  0.0330,  ...,  0.2325, -0.0727, -0.1682],
+        [-0.2030, -0.2057,  0.2193,  ..., -0.1852, -0.1649,  0.1686],
+        [ 0.0192, -0.3635,  0.2026,  ...,  0.0657, -0.2083, -0.1729]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  0.0000e+00, -1.6764e-08,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [-5.0757e-08,  1.2806e-08,  1.1642e-09,  ...,  1.0245e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10,  1.1642e-09,  3.0268e-09,  ...,  9.3132e-10,
+          0.0000e+00,  2.3283e-10],
+        ...,
+        [ 1.3504e-08, -1.9558e-08,  2.0955e-09,  ..., -5.5879e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10,  0.0000e+00, -4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00, -1.1642e-09],
+        [ 2.5611e-08,  2.3283e-09,  1.8626e-09,  ...,  2.1863e-07,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 356, bias, value: tensor([-0.0266, -0.0315, -0.0270, -0.0315, -0.0098,  0.0113,  0.0101, -0.0037,
+        -0.0126, -0.0136], device='cuda:0'), grad: tensor([-4.4005e-08, -6.4494e-07,  2.3749e-08,  5.1223e-08, -9.7696e-07,
+         1.0012e-07, -1.8370e-07,  1.9139e-07,  1.4668e-08,  1.4687e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 355, time 220.53, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4610 re_mapping 0.0033 re_causal 0.0093 /// teacc 99.15 lr 0.00010000
+Epoch 357, weight, value: tensor([[-0.2424, -0.3053,  0.1198,  ..., -0.1583,  0.0417,  0.0393],
+        [-0.1497, -0.0771, -0.1134,  ..., -0.2262, -0.0732, -0.0268],
+        [ 0.0112, -0.1872, -0.2408,  ..., -0.1851,  0.0322, -0.4140],
+        ...,
+        [-0.2243,  0.1871,  0.0330,  ...,  0.2327, -0.0727, -0.1683],
+        [-0.2039, -0.2057,  0.2203,  ..., -0.1852, -0.1649,  0.1685],
+        [ 0.0192, -0.3645,  0.2026,  ...,  0.0655, -0.2083, -0.1739]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  1.3970e-09, -9.3132e-10,  ...,  4.4238e-09,
+          0.0000e+00, -2.3283e-10],
+        [ 0.0000e+00,  1.3970e-09, -1.6298e-09,  ...,  9.5461e-09,
+          0.0000e+00, -3.9581e-09],
+        [ 2.3283e-10,  1.4901e-08,  4.4238e-09,  ...,  2.7940e-09,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  4.4238e-09,  2.0955e-09,  ...,  6.0536e-09,
+          0.0000e+00,  1.1642e-09],
+        [ 4.1910e-09,  1.8626e-09,  1.1642e-09,  ...,  1.3970e-09,
+          0.0000e+00,  3.2596e-09],
+        [ 1.4435e-08,  1.6298e-09, -3.0268e-09,  ...,  9.7323e-08,
+          0.0000e+00,  9.5461e-09]], device='cuda:0')
+Epoch 357, bias, value: tensor([-0.0265, -0.0315, -0.0270, -0.0315, -0.0097,  0.0113,  0.0102, -0.0038,
+        -0.0128, -0.0137], device='cuda:0'), grad: tensor([ 2.6543e-08,  1.6065e-08,  5.9837e-08, -8.1491e-08, -8.1351e-07,
+         9.5461e-09,  1.2433e-07,  5.6578e-08,  2.9337e-08,  5.7276e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 356, time 220.38, cls_loss 0.0007 cls_loss_mapping 0.0012 cls_loss_causal 0.4666 re_mapping 0.0032 re_causal 0.0090 /// teacc 99.15 lr 0.00010000
+Epoch 358, weight, value: tensor([[-0.2427, -0.3061,  0.1199,  ..., -0.1584,  0.0417,  0.0391],
+        [-0.1491, -0.0776, -0.1135,  ..., -0.2273, -0.0732, -0.0268],
+        [ 0.0112, -0.1876, -0.2412,  ..., -0.1859,  0.0322, -0.4141],
+        ...,
+        [-0.2260,  0.1878,  0.0332,  ...,  0.2346, -0.0728, -0.1684],
+        [-0.2047, -0.2059,  0.2211,  ..., -0.1854, -0.1649,  0.1685],
+        [ 0.0184, -0.3685,  0.2026,  ...,  0.0651, -0.2083, -0.1756]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.1910e-09,  ...,  0.0000e+00,
+          0.0000e+00, -2.7940e-09],
+        [ 0.0000e+00,  1.8626e-09,  6.9849e-10,  ...,  9.3132e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 0.0000e+00,  6.9849e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.8626e-09,  9.3132e-10,  ..., -1.6298e-09,
+          0.0000e+00,  6.9849e-10],
+        [ 0.0000e+00,  6.9849e-10,  2.3283e-10,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-10],
+        [ 0.0000e+00,  9.3132e-10,  4.6566e-10,  ...,  2.3283e-10,
+          0.0000e+00,  2.3283e-10]], device='cuda:0')
+Epoch 358, bias, value: tensor([-0.0268, -0.0317, -0.0269, -0.0315, -0.0096,  0.0114,  0.0103, -0.0035,
+        -0.0131, -0.0139], device='cuda:0'), grad: tensor([-1.0245e-08, -4.6566e-09, -5.5879e-09, -2.1188e-08,  2.0955e-09,
+         1.7229e-08, -5.3551e-09,  2.6543e-08,  1.8626e-09,  4.1910e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 357, time 220.24, cls_loss 0.0006 cls_loss_mapping 0.0010 cls_loss_causal 0.4926 re_mapping 0.0031 re_causal 0.0093 /// teacc 99.12 lr 0.00010000
+Epoch 359, weight, value: tensor([[-0.2426, -0.3061,  0.1201,  ..., -0.1584,  0.0417,  0.0395],
+        [-0.1496, -0.0777, -0.1136,  ..., -0.2281, -0.0732, -0.0269],
+        [ 0.0108, -0.1878, -0.2414,  ..., -0.1861,  0.0322, -0.4142],
+        ...,
+        [-0.2279,  0.1879,  0.0332,  ...,  0.2354, -0.0728, -0.1685],
+        [-0.2054, -0.2063,  0.2215,  ..., -0.1850, -0.1649,  0.1686],
+        [ 0.0183, -0.3696,  0.2026,  ...,  0.0650, -0.2084, -0.1763]],
+       device='cuda:0'), grad: tensor([[-2.3283e-10,  0.0000e+00, -1.0245e-08,  ...,  0.0000e+00,
+          0.0000e+00, -3.4459e-08],
+        [ 0.0000e+00,  3.4925e-09,  9.3132e-10,  ...,  3.0268e-09,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [ 0.0000e+00, -6.9849e-10,  0.0000e+00,  ..., -1.3970e-09,
+          0.0000e+00,  2.3283e-10],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  5.3551e-09],
+        [ 2.3283e-10,  1.8626e-09,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  4.6566e-10]], device='cuda:0')
+Epoch 359, bias, value: tensor([-0.0266, -0.0319, -0.0267, -0.0313, -0.0096,  0.0112,  0.0105, -0.0035,
+        -0.0133, -0.0141], device='cuda:0'), grad: tensor([-9.1502e-08,  2.1188e-08, -5.1223e-09, -6.0536e-09,  1.6298e-09,
+         2.9569e-08,  2.5146e-08,  2.3283e-10,  3.2363e-08,  6.2864e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 358, time 220.48, cls_loss 0.0007 cls_loss_mapping 0.0017 cls_loss_causal 0.4444 re_mapping 0.0030 re_causal 0.0085 /// teacc 99.16 lr 0.00010000
+Epoch 360, weight, value: tensor([[-0.2429, -0.3061,  0.1231,  ..., -0.1585,  0.0417,  0.0418],
+        [-0.1499, -0.0779, -0.1137,  ..., -0.2287, -0.0733, -0.0271],
+        [ 0.0107, -0.1879, -0.2422,  ..., -0.1863,  0.0321, -0.4144],
+        ...,
+        [-0.2281,  0.1881,  0.0333,  ...,  0.2361, -0.0728, -0.1686],
+        [-0.2058, -0.2066,  0.2216,  ..., -0.1854, -0.1650,  0.1687],
+        [ 0.0183, -0.3706,  0.2006,  ...,  0.0649, -0.2084, -0.1778]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  4.4238e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -2.3283e-10],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.3271e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00, -1.1642e-09,  ...,  0.0000e+00,
+          0.0000e+00, -1.6298e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10]], device='cuda:0')
+Epoch 360, bias, value: tensor([-0.0238, -0.0319, -0.0266, -0.0312, -0.0095,  0.0111,  0.0108, -0.0036,
+        -0.0136, -0.0146], device='cuda:0'), grad: tensor([ 1.0477e-08,  5.3551e-09,  1.6298e-09, -4.5868e-08,  4.6566e-09,
+         3.9814e-08, -5.3551e-08,  4.1444e-08,  9.3132e-10,  2.5611e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 359, time 220.50, cls_loss 0.0007 cls_loss_mapping 0.0014 cls_loss_causal 0.4619 re_mapping 0.0030 re_causal 0.0087 /// teacc 99.12 lr 0.00010000
+Epoch 361, weight, value: tensor([[-0.2431, -0.3063,  0.1232,  ..., -0.1585,  0.0417,  0.0420],
+        [-0.1503, -0.0776, -0.1137,  ..., -0.2291, -0.0733, -0.0273],
+        [ 0.0108, -0.1878, -0.2424,  ..., -0.1859,  0.0321, -0.4145],
+        ...,
+        [-0.2283,  0.1878,  0.0333,  ...,  0.2365, -0.0728, -0.1686],
+        [-0.2068, -0.2068,  0.2228,  ..., -0.1854, -0.1650,  0.1654],
+        [ 0.0184, -0.3712,  0.2007,  ...,  0.0649, -0.2084, -0.1784]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.3283e-10,  6.9849e-10,  ...,  2.3283e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 2.3283e-10, -6.0536e-09,  1.6298e-09,  ...,  6.9849e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 0.0000e+00,  1.1176e-08,  6.9849e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 2.3283e-10,  7.4506e-09,  6.9849e-10,  ...,  4.6566e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 1.8626e-09,  9.5461e-09,  3.2596e-08,  ...,  1.9092e-08,
+          0.0000e+00,  1.0012e-08],
+        [ 9.3132e-10,  0.0000e+00, -3.7253e-08,  ..., -2.6310e-08,
+          0.0000e+00, -1.1874e-08]], device='cuda:0')
+Epoch 361, bias, value: tensor([-0.0236, -0.0317, -0.0262, -0.0312, -0.0095,  0.0110,  0.0124, -0.0042,
+        -0.0186, -0.0146], device='cuda:0'), grad: tensor([ 6.7521e-09, -1.7835e-07,  3.7020e-08, -6.9384e-08,  1.3062e-07,
+        -3.9581e-09,  2.3516e-08,  6.2864e-08,  1.3947e-07, -1.4110e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 360, time 220.66, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4665 re_mapping 0.0032 re_causal 0.0091 /// teacc 99.15 lr 0.00010000
+Epoch 362, weight, value: tensor([[-0.2433, -0.3065,  0.1232,  ..., -0.1587,  0.0417,  0.0421],
+        [-0.1500, -0.0777, -0.1138,  ..., -0.2299, -0.0733, -0.0273],
+        [ 0.0108, -0.1884, -0.2445,  ..., -0.1867,  0.0321, -0.4154],
+        ...,
+        [-0.2283,  0.1880,  0.0334,  ...,  0.2376, -0.0728, -0.1686],
+        [-0.2077, -0.2069,  0.2239,  ..., -0.1860, -0.1651,  0.1656],
+        [ 0.0183, -0.3722,  0.2008,  ...,  0.0649, -0.2084, -0.1786]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.3970e-09,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00, -4.6566e-10],
+        [ 0.0000e+00,  7.6834e-09,  1.6298e-09,  ...,  4.6566e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -7.6834e-09, -1.6298e-09,  ..., -5.5879e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  2.3283e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 362, bias, value: tensor([-0.0235, -0.0318, -0.0264, -0.0311, -0.0096,  0.0110,  0.0124, -0.0040,
+        -0.0186, -0.0146], device='cuda:0'), grad: tensor([ 2.7940e-09, -9.3132e-10,  3.0501e-08,  2.3283e-10, -1.8626e-09,
+         1.6298e-08, -4.0513e-08, -1.2107e-08,  4.6566e-09,  1.4435e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 361, time 220.63, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4606 re_mapping 0.0033 re_causal 0.0091 /// teacc 99.16 lr 0.00010000
+Epoch 363, weight, value: tensor([[-0.2435, -0.3067,  0.1242,  ..., -0.1587,  0.0419,  0.0423],
+        [-0.1500, -0.0777, -0.1139,  ..., -0.2303, -0.0733, -0.0270],
+        [ 0.0107, -0.1889, -0.2473,  ..., -0.1875,  0.0321, -0.4177],
+        ...,
+        [-0.2284,  0.1878,  0.0334,  ...,  0.2381, -0.0728, -0.1686],
+        [-0.2082, -0.2070,  0.2248,  ..., -0.1860, -0.1651,  0.1657],
+        [ 0.0185, -0.3726,  0.2005,  ...,  0.0650, -0.2084, -0.1790]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-10,  1.5134e-09,  5.8208e-10,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  7.6834e-09,  3.0268e-09,  ...,  5.1223e-09,
+          0.0000e+00,  1.0477e-09],
+        [ 0.0000e+00,  1.8626e-08,  3.8417e-09,  ...,  2.2817e-08,
+          0.0000e+00,  1.1642e-10],
+        ...,
+        [ 1.1642e-09, -3.5623e-08, -5.2387e-09,  ..., -4.8196e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 1.6298e-09,  6.4028e-09,  1.1642e-10,  ...,  1.1642e-10,
+          0.0000e+00, -3.2596e-09],
+        [ 5.1223e-09,  2.3516e-08,  8.6147e-09,  ...,  1.0477e-08,
+          0.0000e+00,  4.6566e-10]], device='cuda:0')
+Epoch 363, bias, value: tensor([-0.0227, -0.0303, -0.0282, -0.0311, -0.0097,  0.0111,  0.0124, -0.0048,
+        -0.0185, -0.0147], device='cuda:0'), grad: tensor([ 3.9581e-09,  2.5379e-08,  4.9360e-08, -8.9174e-08,  1.6065e-08,
+         2.7008e-08,  8.1491e-10, -1.1094e-07,  1.3039e-08,  6.6590e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 362, time 220.50, cls_loss 0.0006 cls_loss_mapping 0.0010 cls_loss_causal 0.4738 re_mapping 0.0031 re_causal 0.0091 /// teacc 99.16 lr 0.00010000
+Epoch 364, weight, value: tensor([[-0.2437, -0.3069,  0.1243,  ..., -0.1587,  0.0419,  0.0422],
+        [-0.1501, -0.0776, -0.1139,  ..., -0.2306, -0.0733, -0.0271],
+        [ 0.0108, -0.1888, -0.2471,  ..., -0.1871,  0.0321, -0.4179],
+        ...,
+        [-0.2285,  0.1878,  0.0334,  ...,  0.2385, -0.0728, -0.1688],
+        [-0.2083, -0.2076,  0.2257,  ..., -0.1872, -0.1651,  0.1659],
+        [ 0.0182, -0.3732,  0.2006,  ...,  0.0651, -0.2084, -0.1797]],
+       device='cuda:0'), grad: tensor([[2.3283e-10, 9.1968e-09, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         2.3283e-10],
+        [8.1491e-10, 2.8173e-08, 0.0000e+00,  ..., 5.8208e-10, 0.0000e+00,
+         6.9849e-10],
+        [1.1642e-10, 1.9209e-08, 1.1642e-10,  ..., 4.6566e-10, 0.0000e+00,
+         0.0000e+00],
+        ...,
+        [1.1642e-10, 9.5461e-09, 0.0000e+00,  ..., 1.1642e-10, 0.0000e+00,
+         1.1642e-10],
+        [6.5193e-09, 4.3074e-09, 0.0000e+00,  ..., 0.0000e+00, 1.1642e-10,
+         5.7044e-09],
+        [1.2806e-09, 2.2119e-09, 0.0000e+00,  ..., 1.1642e-10, 0.0000e+00,
+         8.1491e-10]], device='cuda:0')
+Epoch 364, bias, value: tensor([-0.0228, -0.0301, -0.0277, -0.0311, -0.0097,  0.0110,  0.0126, -0.0051,
+        -0.0187, -0.0147], device='cuda:0'), grad: tensor([ 3.5274e-08,  1.0617e-07,  6.8103e-08, -2.7521e-07,  7.2177e-09,
+        -7.3691e-08,  6.2864e-08,  3.7951e-08,  2.9220e-08,  1.2806e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 363, time 220.52, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4351 re_mapping 0.0031 re_causal 0.0087 /// teacc 99.06 lr 0.00010000
+Epoch 365, weight, value: tensor([[-0.2438, -0.3077,  0.1243,  ..., -0.1588,  0.0419,  0.0421],
+        [-0.1502, -0.0779, -0.1139,  ..., -0.2312, -0.0732, -0.0271],
+        [ 0.0108, -0.1891, -0.2475,  ..., -0.1877,  0.0320, -0.4181],
+        ...,
+        [-0.2285,  0.1880,  0.0334,  ...,  0.2394, -0.0728, -0.1688],
+        [-0.2092, -0.2084,  0.2257,  ..., -0.1873, -0.1651,  0.1656],
+        [ 0.0186, -0.3746,  0.2008,  ...,  0.0646, -0.2084, -0.1799]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  6.9849e-10,  1.0477e-09,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  2.6776e-09,  9.3132e-10,  ...,  1.1642e-10,
+          0.0000e+00,  1.0477e-09],
+        [ 0.0000e+00,  6.9849e-10,  2.2119e-09,  ...,  0.0000e+00,
+          0.0000e+00,  5.1223e-09],
+        ...,
+        [ 1.1642e-10,  7.7998e-09,  8.1491e-10,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [ 1.1642e-10,  2.4447e-09, -1.5483e-08,  ...,  0.0000e+00,
+          0.0000e+00, -2.0955e-08],
+        [ 0.0000e+00,  4.6566e-10,  3.3760e-09,  ...,  0.0000e+00,
+          0.0000e+00,  4.5402e-09]], device='cuda:0')
+Epoch 365, bias, value: tensor([-0.0231, -0.0302, -0.0277, -0.0310, -0.0096,  0.0110,  0.0127, -0.0050,
+        -0.0190, -0.0148], device='cuda:0'), grad: tensor([ 8.6147e-09,  1.1642e-09,  5.7044e-09, -4.9546e-07,  8.1491e-10,
+         4.6776e-07,  1.4086e-08,  3.5274e-08, -5.6112e-08,  1.5716e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 364, time 220.20, cls_loss 0.0007 cls_loss_mapping 0.0011 cls_loss_causal 0.4496 re_mapping 0.0030 re_causal 0.0085 /// teacc 98.98 lr 0.00010000
+Epoch 366, weight, value: tensor([[-0.2441, -0.3080,  0.1242,  ..., -0.1588,  0.0419,  0.0419],
+        [-0.1505, -0.0779, -0.1140,  ..., -0.2314, -0.0732, -0.0271],
+        [ 0.0109, -0.1898, -0.2483,  ..., -0.1882,  0.0320, -0.4185],
+        ...,
+        [-0.2288,  0.1878,  0.0334,  ...,  0.2395, -0.0728, -0.1689],
+        [-0.2096, -0.2092,  0.2262,  ..., -0.1879, -0.1651,  0.1657],
+        [ 0.0185, -0.3750,  0.2012,  ...,  0.0631, -0.2084, -0.1799]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  6.9849e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.0955e-09,  2.3283e-10,  ...,  4.6566e-10,
+          0.0000e+00, -3.7253e-09],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-10],
+        ...,
+        [ 0.0000e+00,  6.2864e-09,  6.9849e-10,  ...,  2.5611e-09,
+          0.0000e+00,  3.4925e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.3283e-10, -1.8626e-09,  ..., -1.8626e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 366, bias, value: tensor([-0.0233, -0.0302, -0.0278, -0.0306, -0.0088,  0.0109,  0.0128, -0.0054,
+        -0.0192, -0.0155], device='cuda:0'), grad: tensor([ 1.8626e-09, -1.0640e-07,  9.3132e-09, -2.7241e-08, -3.9581e-09,
+         8.1491e-09,  1.1642e-09,  1.2876e-07,  2.3283e-10, -6.7521e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 365, time 220.52, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4382 re_mapping 0.0031 re_causal 0.0087 /// teacc 99.18 lr 0.00010000
+Epoch 367, weight, value: tensor([[-0.2444, -0.3082,  0.1243,  ..., -0.1588,  0.0419,  0.0420],
+        [-0.1506, -0.0779, -0.1140,  ..., -0.2315, -0.0732, -0.0271],
+        [ 0.0111, -0.1899, -0.2482,  ..., -0.1884,  0.0320, -0.4188],
+        ...,
+        [-0.2293,  0.1877,  0.0334,  ...,  0.2395, -0.0728, -0.1691],
+        [-0.2098, -0.2095,  0.2266,  ..., -0.1879, -0.1651,  0.1659],
+        [ 0.0184, -0.3753,  0.2014,  ...,  0.0631, -0.2085, -0.1803]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.3283e-10, -2.5611e-09,  ...,  0.0000e+00,
+          0.0000e+00, -1.1642e-09],
+        [ 0.0000e+00,  1.3970e-09,  2.3283e-10,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.1642e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.5832e-08,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10,  1.1642e-09,  6.9849e-10,  ...,  6.9849e-10,
+          0.0000e+00,  4.6566e-10],
+        [-3.7253e-09,  2.3283e-10, -1.5367e-08,  ..., -2.3749e-08,
+          0.0000e+00, -4.6566e-10]], device='cuda:0')
+Epoch 367, bias, value: tensor([-0.0233, -0.0301, -0.0274, -0.0306, -0.0088,  0.0111,  0.0126, -0.0056,
+        -0.0192, -0.0155], device='cuda:0'), grad: tensor([-6.5193e-09,  4.8894e-09,  3.4925e-09, -4.3772e-08,  7.2410e-08,
+         4.6566e-09,  6.9849e-09,  3.7719e-08,  5.5879e-09, -8.2655e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 366, time 220.54, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4675 re_mapping 0.0029 re_causal 0.0085 /// teacc 99.17 lr 0.00010000
+Epoch 368, weight, value: tensor([[-0.2446, -0.3087,  0.1267,  ..., -0.1574,  0.0420,  0.0420],
+        [-0.1507, -0.0783, -0.1144,  ..., -0.2323, -0.0732, -0.0272],
+        [ 0.0111, -0.1902, -0.2487,  ..., -0.1888,  0.0320, -0.4189],
+        ...,
+        [-0.2293,  0.1880,  0.0337,  ...,  0.2404, -0.0728, -0.1690],
+        [-0.2102, -0.2102,  0.2271,  ..., -0.1881, -0.1651,  0.1660],
+        [ 0.0180, -0.3764,  0.1994,  ...,  0.0627, -0.2085, -0.1811]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  2.3283e-10,  4.6566e-10,  ...,  2.3283e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 0.0000e+00,  5.8906e-08,  4.6566e-09,  ...,  7.2643e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.2340e-08, -4.6566e-10,  ...,  1.1642e-08,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -1.0547e-07, -7.9162e-09,  ..., -1.2619e-07,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10,  2.0955e-09,  1.8626e-09,  ...,  2.7940e-09,
+          0.0000e+00,  2.3283e-10],
+        [-2.3283e-10,  6.9849e-10, -2.3283e-09,  ..., -6.9849e-10,
+          0.0000e+00,  4.6566e-10]], device='cuda:0')
+Epoch 368, bias, value: tensor([-0.0212, -0.0305, -0.0274, -0.0303, -0.0087,  0.0110,  0.0126, -0.0054,
+        -0.0192, -0.0162], device='cuda:0'), grad: tensor([ 5.5879e-09,  2.9383e-07,  2.4913e-08,  1.3970e-09,  1.6671e-07,
+        -8.9221e-07,  8.9779e-07, -5.0012e-07,  2.0023e-08, -2.0955e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 367, time 220.65, cls_loss 0.0007 cls_loss_mapping 0.0015 cls_loss_causal 0.4804 re_mapping 0.0028 re_causal 0.0084 /// teacc 99.16 lr 0.00010000
+Epoch 369, weight, value: tensor([[-0.2450, -0.3089,  0.1268,  ..., -0.1574,  0.0420,  0.0424],
+        [-0.1511, -0.0784, -0.1144,  ..., -0.2331, -0.0732, -0.0272],
+        [ 0.0110, -0.1927, -0.2521,  ..., -0.1922,  0.0320, -0.4203],
+        ...,
+        [-0.2295,  0.1885,  0.0337,  ...,  0.2423, -0.0728, -0.1691],
+        [-0.2100, -0.2105,  0.2308,  ..., -0.1875, -0.1651,  0.1673],
+        [ 0.0180, -0.3774,  0.1995,  ...,  0.0623, -0.2085, -0.1818]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  2.3283e-10,
+          0.0000e+00,  1.3970e-09],
+        [ 0.0000e+00,  4.1910e-09,  1.6298e-09,  ...,  3.7253e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  6.9849e-10, -3.0268e-09,  ...,  6.9849e-10,
+          0.0000e+00, -3.2596e-09],
+        ...,
+        [ 0.0000e+00, -6.0536e-09,  2.3283e-10,  ..., -5.3551e-09,
+          0.0000e+00,  4.6566e-10],
+        [ 2.3283e-10,  0.0000e+00,  4.6566e-10,  ...,  2.3283e-10,
+          0.0000e+00,  6.9849e-10],
+        [ 0.0000e+00,  2.3283e-10, -4.8894e-08,  ..., -5.4250e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 369, bias, value: tensor([-0.0211, -0.0306, -0.0282, -0.0303, -0.0085,  0.0110,  0.0123, -0.0049,
+        -0.0183, -0.0164], device='cuda:0'), grad: tensor([ 2.9802e-08,  1.1944e-07, -1.7090e-07,  1.1642e-09,  1.8859e-07,
+         9.3132e-09,  2.3283e-09, -4.8894e-09,  7.6834e-09, -1.8789e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 368, time 220.42, cls_loss 0.0007 cls_loss_mapping 0.0012 cls_loss_causal 0.4754 re_mapping 0.0029 re_causal 0.0086 /// teacc 99.19 lr 0.00010000
+Epoch 370, weight, value: tensor([[-0.2452, -0.3093,  0.1269,  ..., -0.1575,  0.0420,  0.0426],
+        [-0.1513, -0.0792, -0.1146,  ..., -0.2364, -0.0732, -0.0273],
+        [ 0.0110, -0.1935, -0.2533,  ..., -0.1936,  0.0320, -0.4209],
+        ...,
+        [-0.2296,  0.1894,  0.0338,  ...,  0.2456, -0.0728, -0.1691],
+        [-0.2101, -0.2111,  0.2333,  ..., -0.1878, -0.1651,  0.1683],
+        [ 0.0180, -0.3804,  0.1997,  ...,  0.0625, -0.2085, -0.1829]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  5.3551e-09, -1.3970e-09,  ...,  3.2596e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  8.3819e-09,  2.3283e-10,  ...,  5.1223e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -1.1828e-07,  0.0000e+00,  ..., -7.3807e-08,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  9.9419e-08,  0.0000e+00,  ...,  6.2166e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 370, bias, value: tensor([-0.0211, -0.0305, -0.0289, -0.0301, -0.0086,  0.0104,  0.0128, -0.0043,
+        -0.0179, -0.0164], device='cuda:0'), grad: tensor([ 1.1735e-07,  2.0931e-07, -3.0119e-06,  1.0291e-06,  3.5623e-08,
+        -9.6485e-07,  2.8173e-08,  2.1830e-06,  3.5577e-07,  2.3982e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 369, time 220.21, cls_loss 0.0005 cls_loss_mapping 0.0011 cls_loss_causal 0.4676 re_mapping 0.0029 re_causal 0.0091 /// teacc 99.09 lr 0.00010000
+Epoch 371, weight, value: tensor([[-0.2454, -0.3096,  0.1269,  ..., -0.1576,  0.0421,  0.0427],
+        [-0.1514, -0.0793, -0.1147,  ..., -0.2370, -0.0732, -0.0274],
+        [ 0.0107, -0.1939, -0.2537,  ..., -0.1947,  0.0320, -0.4210],
+        ...,
+        [-0.2297,  0.1896,  0.0339,  ...,  0.2477, -0.0728, -0.1691],
+        [-0.2101, -0.2113,  0.2348,  ..., -0.1882, -0.1651,  0.1692],
+        [ 0.0182, -0.3826,  0.1997,  ...,  0.0620, -0.2085, -0.1838]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -1.6298e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 371, bias, value: tensor([-0.0212, -0.0307, -0.0288, -0.0300, -0.0087,  0.0102,  0.0129, -0.0041,
+        -0.0174, -0.0166], device='cuda:0'), grad: tensor([ 5.5414e-08, -3.6787e-08,  4.1979e-07, -1.0710e-08, -5.2899e-07,
+         1.0477e-08,  2.9569e-08,  5.1688e-08,  9.3132e-10,  5.3551e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 370, time 220.79, cls_loss 0.0007 cls_loss_mapping 0.0016 cls_loss_causal 0.4774 re_mapping 0.0029 re_causal 0.0086 /// teacc 99.20 lr 0.00010000
+Epoch 372, weight, value: tensor([[-0.2458, -0.3102,  0.1270,  ..., -0.1578,  0.0424,  0.0429],
+        [-0.1520, -0.0793, -0.1148,  ..., -0.2374, -0.0732, -0.0275],
+        [ 0.0106, -0.1942, -0.2556,  ..., -0.1951,  0.0319, -0.4228],
+        ...,
+        [-0.2299,  0.1896,  0.0339,  ...,  0.2481, -0.0728, -0.1693],
+        [-0.2102, -0.2111,  0.2368,  ..., -0.1897, -0.1651,  0.1707],
+        [ 0.0183, -0.3832,  0.2000,  ...,  0.0602, -0.2085, -0.1844]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  3.9581e-09,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [ 1.3970e-09,  0.0000e+00,  2.3283e-10,  ...,  0.0000e+00,
+          0.0000e+00,  1.3970e-09],
+        [ 2.3283e-10,  0.0000e+00,  2.3283e-10,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.1642e-08,  ...,  0.0000e+00,
+          0.0000e+00, -2.7940e-09],
+        [ 6.0536e-09,  0.0000e+00, -1.7695e-08,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09]], device='cuda:0')
+Epoch 372, bias, value: tensor([-0.0211, -0.0312, -0.0279, -0.0304, -0.0069,  0.0106,  0.0124, -0.0043,
+        -0.0166, -0.0182], device='cuda:0'), grad: tensor([ 8.8476e-09,  1.0477e-08, -4.8894e-09,  3.0734e-07,  3.2596e-09,
+        -3.2643e-07,  4.1910e-09,  3.4925e-09,  1.8626e-08, -1.9092e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 371, time 220.54, cls_loss 0.0007 cls_loss_mapping 0.0010 cls_loss_causal 0.4394 re_mapping 0.0029 re_causal 0.0083 /// teacc 99.14 lr 0.00010000
+Epoch 373, weight, value: tensor([[-0.2472, -0.3102,  0.1271,  ..., -0.1579,  0.0425,  0.0426],
+        [-0.1522, -0.0794, -0.1149,  ..., -0.2379, -0.0733, -0.0275],
+        [ 0.0104, -0.1935, -0.2561,  ..., -0.1935,  0.0320, -0.4232],
+        ...,
+        [-0.2301,  0.1897,  0.0339,  ...,  0.2485, -0.0729, -0.1693],
+        [-0.2115, -0.2113,  0.2361,  ..., -0.1918, -0.1651,  0.1707],
+        [ 0.0186, -0.3845,  0.2006,  ...,  0.0604, -0.2085, -0.1847]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.3283e-10,  2.3283e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -1.0733e-07,  6.9849e-10,  ...,  1.6298e-09,
+          0.0000e+00,  2.3283e-10],
+        [ 0.0000e+00,  2.0023e-08,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  1.1642e-09],
+        ...,
+        [ 0.0000e+00,  8.7777e-08,  6.9849e-10,  ...,  4.6566e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00, -3.0268e-09,  ...,  2.3283e-10,
+          0.0000e+00, -5.1223e-09],
+        [ 2.3283e-10,  4.6566e-10, -2.0955e-09,  ..., -2.0955e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 373, bias, value: tensor([-0.0212, -0.0316, -0.0263, -0.0306, -0.0069,  0.0103,  0.0129, -0.0047,
+        -0.0172, -0.0181], device='cuda:0'), grad: tensor([ 3.0268e-09, -9.2667e-07,  1.7532e-07,  1.2340e-08,  4.4238e-09,
+         5.8208e-09,  3.0268e-09,  7.5111e-07, -9.5461e-09, -5.8208e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 372, time 220.71, cls_loss 0.0008 cls_loss_mapping 0.0011 cls_loss_causal 0.4515 re_mapping 0.0029 re_causal 0.0082 /// teacc 99.15 lr 0.00010000
+Epoch 374, weight, value: tensor([[-0.2485, -0.3106,  0.1258,  ..., -0.1580,  0.0425,  0.0395],
+        [-0.1521, -0.0794, -0.1150,  ..., -0.2384, -0.0733, -0.0271],
+        [ 0.0102, -0.1939, -0.2580,  ..., -0.1939,  0.0320, -0.4250],
+        ...,
+        [-0.2303,  0.1898,  0.0340,  ...,  0.2491, -0.0729, -0.1694],
+        [-0.2120, -0.2115,  0.2401,  ..., -0.1926, -0.1651,  0.1731],
+        [ 0.0159, -0.3848,  0.2010,  ...,  0.0605, -0.2085, -0.1858]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -6.9849e-10, -4.8894e-09,  ...,  0.0000e+00,
+          0.0000e+00, -1.1642e-09],
+        [ 0.0000e+00,  2.3283e-10,  1.6298e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.3283e-10,  2.3283e-09,  ...,  0.0000e+00,
+          0.0000e+00,  6.9849e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00, -2.5611e-09,  ...,  0.0000e+00,
+          0.0000e+00, -3.2596e-09],
+        [-4.6566e-10,  2.3283e-10, -2.7940e-09,  ..., -2.3283e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 374, bias, value: tensor([-0.0225, -0.0311, -0.0267, -0.0306, -0.0069,  0.0105,  0.0126, -0.0049,
+        -0.0152, -0.0184], device='cuda:0'), grad: tensor([-1.3039e-08, -1.3970e-09,  8.6147e-09,  5.3551e-09,  5.8208e-09,
+         6.5193e-09,  6.9849e-09,  4.1910e-09, -1.3737e-08, -2.3283e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 373, time 221.14, cls_loss 0.0009 cls_loss_mapping 0.0014 cls_loss_causal 0.4618 re_mapping 0.0029 re_causal 0.0080 /// teacc 99.13 lr 0.00010000
+Epoch 375, weight, value: tensor([[-0.2505, -0.3110,  0.1266,  ..., -0.1595,  0.0425,  0.0418],
+        [-0.1497, -0.0797, -0.1151,  ..., -0.2394, -0.0727, -0.0262],
+        [ 0.0102, -0.1942, -0.2588,  ..., -0.1935,  0.0313, -0.4266],
+        ...,
+        [-0.2307,  0.1902,  0.0340,  ...,  0.2502, -0.0731, -0.1695],
+        [-0.2128, -0.2121,  0.2405,  ..., -0.1926, -0.1652,  0.1731],
+        [ 0.0156, -0.3866,  0.2016,  ...,  0.0596, -0.2085, -0.1864]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  0.0000e+00, -1.1874e-08,  ...,  0.0000e+00,
+          0.0000e+00, -1.1409e-08],
+        [ 2.3283e-10,  1.3970e-09,  1.8626e-09,  ...,  9.3132e-10,
+          0.0000e+00,  1.3970e-09],
+        [ 0.0000e+00,  4.6566e-10,  2.0955e-09,  ...,  0.0000e+00,
+          0.0000e+00,  5.3551e-09],
+        ...,
+        [ 4.4238e-09, -4.6566e-10,  0.0000e+00,  ..., -1.3970e-09,
+          0.0000e+00,  4.6566e-09],
+        [ 4.6566e-10,  0.0000e+00, -3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00, -1.8626e-08],
+        [ 2.0955e-09,  6.9849e-10,  6.9849e-10,  ...,  4.6566e-10,
+          0.0000e+00,  2.3283e-09]], device='cuda:0')
+Epoch 375, bias, value: tensor([-0.0212, -0.0305, -0.0271, -0.0303, -0.0067,  0.0101,  0.0121, -0.0048,
+        -0.0154, -0.0187], device='cuda:0'), grad: tensor([-4.4238e-08,  1.9092e-08,  2.7940e-09,  1.8626e-09,  1.8626e-09,
+         5.8208e-09,  4.1444e-08,  1.3970e-08, -4.1444e-08,  8.6147e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 374----------------------------------------------------
+epoch 374, time 221.15, cls_loss 0.0007 cls_loss_mapping 0.0010 cls_loss_causal 0.4212 re_mapping 0.0029 re_causal 0.0083 /// teacc 99.25 lr 0.00010000
+Epoch 376, weight, value: tensor([[-0.2510, -0.3111,  0.1266,  ..., -0.1597,  0.0423,  0.0417],
+        [-0.1499, -0.0797, -0.1149,  ..., -0.2410, -0.0728, -0.0262],
+        [ 0.0100, -0.1944, -0.2592,  ..., -0.1936,  0.0313, -0.4273],
+        ...,
+        [-0.2312,  0.1903,  0.0338,  ...,  0.2514, -0.0732, -0.1696],
+        [-0.2133, -0.2122,  0.2409,  ..., -0.1927, -0.1652,  0.1735],
+        [ 0.0158, -0.3870,  0.2018,  ...,  0.0595, -0.2085, -0.1867]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -7.9162e-09,  ...,  0.0000e+00,
+          0.0000e+00, -4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  6.9849e-10],
+        ...,
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  1.1642e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8324e-07,  0.0000e+00,  2.0955e-09,  ...,  1.1642e-09,
+          0.0000e+00,  5.9372e-08]], device='cuda:0')
+Epoch 376, bias, value: tensor([-0.0214, -0.0299, -0.0270, -0.0304, -0.0073,  0.0101,  0.0132, -0.0055,
+        -0.0154, -0.0188], device='cuda:0'), grad: tensor([-2.2119e-08,  6.9849e-10,  3.0268e-09, -4.4238e-09, -3.9581e-09,
+        -2.5542e-07,  6.2864e-09,  3.4925e-09,  2.3283e-10,  2.7288e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 375, time 220.24, cls_loss 0.0008 cls_loss_mapping 0.0016 cls_loss_causal 0.4595 re_mapping 0.0029 re_causal 0.0083 /// teacc 99.20 lr 0.00010000
+Epoch 377, weight, value: tensor([[-0.2519, -0.3115,  0.1266,  ..., -0.1598,  0.0425,  0.0417],
+        [-0.1501, -0.0807, -0.1152,  ..., -0.2436, -0.0728, -0.0263],
+        [ 0.0101, -0.1948, -0.2604,  ..., -0.1941,  0.0313, -0.4285],
+        ...,
+        [-0.2313,  0.1911,  0.0339,  ...,  0.2534, -0.0733, -0.1697],
+        [-0.2146, -0.2127,  0.2415,  ..., -0.1927, -0.1652,  0.1706],
+        [ 0.0156, -0.3873,  0.2022,  ...,  0.0559, -0.2086, -0.1873]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  7.7067e-08,  ...,  0.0000e+00,
+          0.0000e+00,  8.8476e-08],
+        [ 2.3283e-10,  0.0000e+00, -7.8231e-08,  ...,  0.0000e+00,
+          0.0000e+00, -8.9640e-08],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-10]], device='cuda:0')
+Epoch 377, bias, value: tensor([-0.0207, -0.0307, -0.0272, -0.0303, -0.0058,  0.0125,  0.0142, -0.0051,
+        -0.0184, -0.0203], device='cuda:0'), grad: tensor([ 2.8405e-08,  3.2596e-09,  3.4925e-09, -2.3283e-09,  7.5903e-08,
+         6.2864e-09, -1.1385e-07,  1.4040e-07, -1.3388e-07,  9.3132e-10],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 376, time 220.44, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4587 re_mapping 0.0030 re_causal 0.0088 /// teacc 99.20 lr 0.00010000
+Epoch 378, weight, value: tensor([[-0.2523, -0.3120,  0.1268,  ..., -0.1599,  0.0429,  0.0420],
+        [-0.1500, -0.0810, -0.1157,  ..., -0.2444, -0.0728, -0.0272],
+        [ 0.0099, -0.1950, -0.2621,  ..., -0.1941,  0.0313, -0.4304],
+        ...,
+        [-0.2314,  0.1916,  0.0340,  ...,  0.2542, -0.0734, -0.1698],
+        [-0.2150, -0.2129,  0.2438,  ..., -0.1928, -0.1653,  0.1711],
+        [ 0.0156, -0.3880,  0.2021,  ...,  0.0556, -0.2086, -0.1890]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  6.9849e-10,  6.9849e-10,  ...,  9.3132e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 0.0000e+00,  2.3283e-10,  2.7940e-09,  ...,  2.3283e-10,
+          0.0000e+00,  5.1223e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00, -7.6834e-09,  ...,  0.0000e+00,
+          0.0000e+00, -1.3504e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 378, bias, value: tensor([-0.0206, -0.0309, -0.0276, -0.0305, -0.0057,  0.0131,  0.0136, -0.0049,
+        -0.0179, -0.0205], device='cuda:0'), grad: tensor([ 4.6566e-10,  3.2596e-09,  1.3737e-08, -4.8894e-09, -2.7940e-09,
+         1.9092e-08,  2.3283e-10,  1.3970e-09, -3.1432e-08,  2.3283e-10],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 377, time 220.11, cls_loss 0.0005 cls_loss_mapping 0.0010 cls_loss_causal 0.4538 re_mapping 0.0030 re_causal 0.0087 /// teacc 99.14 lr 0.00010000
+Epoch 379, weight, value: tensor([[-0.2535, -0.3121,  0.1268,  ..., -0.1600,  0.0430,  0.0416],
+        [-0.1501, -0.0816, -0.1161,  ..., -0.2459, -0.0728, -0.0273],
+        [ 0.0098, -0.1952, -0.2624,  ..., -0.1944,  0.0313, -0.4306],
+        ...,
+        [-0.2315,  0.1922,  0.0344,  ...,  0.2556, -0.0733, -0.1698],
+        [-0.2151, -0.2132,  0.2443,  ..., -0.1928, -0.1653,  0.1713],
+        [ 0.0156, -0.3882,  0.2023,  ...,  0.0556, -0.2086, -0.1895]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  2.3283e-09,  4.6566e-09,  ...,  6.5193e-09,
+          0.0000e+00, -2.0955e-09],
+        [ 3.4925e-09,  2.7241e-08,  7.5204e-08,  ...,  8.8010e-08,
+          0.0000e+00,  1.8626e-09],
+        [ 2.0955e-09,  2.3283e-09,  9.0804e-09,  ...,  4.6566e-09,
+          0.0000e+00,  2.3283e-10],
+        ...,
+        [-2.0210e-07, -1.8976e-07, -9.2480e-07,  ..., -5.6066e-07,
+          0.0000e+00, -1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00, -2.5611e-09,  ...,  0.0000e+00,
+          0.0000e+00, -5.1223e-09],
+        [ 1.6298e-07,  1.3364e-07,  7.0129e-07,  ...,  3.8790e-07,
+          0.0000e+00,  2.0955e-09]], device='cuda:0')
+Epoch 379, bias, value: tensor([-0.0209, -0.0314, -0.0274, -0.0305, -0.0057,  0.0131,  0.0136, -0.0045,
+        -0.0179, -0.0205], device='cuda:0'), grad: tensor([ 1.1176e-08,  2.5635e-07,  3.0268e-08,  1.8859e-08,  4.1910e-09,
+         3.2550e-07,  1.4668e-08, -2.4457e-06, -1.4203e-08,  1.8040e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 378, time 220.42, cls_loss 0.0007 cls_loss_mapping 0.0009 cls_loss_causal 0.4214 re_mapping 0.0029 re_causal 0.0081 /// teacc 99.08 lr 0.00010000
+Epoch 380, weight, value: tensor([[-0.2552, -0.3124,  0.1269,  ..., -0.1601,  0.0432,  0.0411],
+        [-0.1501, -0.0817, -0.1164,  ..., -0.2463, -0.0728, -0.0271],
+        [ 0.0104, -0.1956, -0.2636,  ..., -0.1950,  0.0313, -0.4317],
+        ...,
+        [-0.2314,  0.1925,  0.0346,  ...,  0.2563, -0.0728, -0.1699],
+        [-0.2153, -0.2134,  0.2448,  ..., -0.1929, -0.1653,  0.1714],
+        [ 0.0156, -0.3894,  0.2025,  ...,  0.0555, -0.2086, -0.1896]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -4.0722e-07,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00, -6.3330e-08],
+        [ 0.0000e+00,  2.5611e-09,  0.0000e+00,  ...,  2.3283e-10,
+          2.3283e-10,  2.3283e-10],
+        ...,
+        [ 0.0000e+00,  4.0000e-07,  2.3283e-10,  ..., -1.1642e-09,
+         -6.9849e-10,  6.2399e-08],
+        [ 2.3283e-10,  0.0000e+00,  2.3283e-10,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10,  2.3283e-10,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 380, bias, value: tensor([-0.0211, -0.0313, -0.0274, -0.0308, -0.0057,  0.0132,  0.0135, -0.0044,
+        -0.0177, -0.0206], device='cuda:0'), grad: tensor([ 4.4238e-09, -2.8554e-06,  1.8859e-08,  3.5157e-08,  6.7521e-09,
+        -4.0513e-08,  1.5367e-08,  2.8107e-06,  1.6298e-09,  3.7253e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 379, time 220.83, cls_loss 0.0008 cls_loss_mapping 0.0013 cls_loss_causal 0.4788 re_mapping 0.0029 re_causal 0.0085 /// teacc 99.12 lr 0.00010000
+Epoch 381, weight, value: tensor([[-0.2553, -0.3129,  0.1270,  ..., -0.1603,  0.0442,  0.0414],
+        [-0.1516, -0.0820, -0.1193,  ..., -0.2468, -0.0727, -0.0273],
+        [ 0.0101, -0.1968, -0.2665,  ..., -0.1962,  0.0312, -0.4341],
+        ...,
+        [-0.2315,  0.1929,  0.0320,  ...,  0.2539, -0.0728, -0.1700],
+        [-0.2158, -0.2139,  0.2458,  ..., -0.1926, -0.1653,  0.1716],
+        [ 0.0161, -0.3900,  0.2073,  ...,  0.0574, -0.2087, -0.1905]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.3970e-09,  4.6566e-10,  ...,  1.3970e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -4.1910e-09, -1.8626e-09,  ..., -4.1910e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 381, bias, value: tensor([-0.0210, -0.0334, -0.0287, -0.0302, -0.0058,  0.0134,  0.0132, -0.0065,
+        -0.0175, -0.0175], device='cuda:0'), grad: tensor([ 1.8626e-09,  3.7253e-09, -1.8626e-09,  2.3283e-09,  1.3970e-09,
+         2.7940e-09, -2.7940e-09, -6.9849e-09,  0.0000e+00,  3.2596e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 380, time 221.17, cls_loss 0.0007 cls_loss_mapping 0.0010 cls_loss_causal 0.4408 re_mapping 0.0029 re_causal 0.0084 /// teacc 99.12 lr 0.00010000
+Epoch 382, weight, value: tensor([[-0.2553, -0.3131,  0.1273,  ..., -0.1605,  0.0461,  0.0419],
+        [-0.1520, -0.0820, -0.1194,  ..., -0.2472, -0.0727, -0.0284],
+        [ 0.0101, -0.1972, -0.2678,  ..., -0.1968,  0.0312, -0.4351],
+        ...,
+        [-0.2316,  0.1930,  0.0321,  ...,  0.2543, -0.0730, -0.1701],
+        [-0.2161, -0.2137,  0.2471,  ..., -0.1928, -0.1654,  0.1718],
+        [ 0.0160, -0.3907,  0.2074,  ...,  0.0573, -0.2088, -0.1910]],
+       device='cuda:0'), grad: tensor([[0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 4.6566e-09, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 9.3132e-10, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 4.6566e-10, 0.0000e+00,
+         0.0000e+00],
+        ...,
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 9.3132e-10, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 9.3132e-10, 0.0000e+00,  ..., 7.1712e-08, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 4.6566e-10,  ..., 7.1712e-08, 0.0000e+00,
+         0.0000e+00]], device='cuda:0')
+Epoch 382, bias, value: tensor([-0.0209, -0.0336, -0.0289, -0.0303, -0.0058,  0.0135,  0.0133, -0.0065,
+        -0.0173, -0.0176], device='cuda:0'), grad: tensor([ 4.0047e-08,  7.4506e-09,  5.1223e-09, -7.6834e-08, -1.3597e-06,
+         8.9407e-08,  5.1688e-08,  1.0245e-08,  6.1793e-07,  6.1700e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 381, time 220.93, cls_loss 0.0009 cls_loss_mapping 0.0017 cls_loss_causal 0.4756 re_mapping 0.0029 re_causal 0.0081 /// teacc 99.11 lr 0.00010000
+Epoch 383, weight, value: tensor([[-0.2554, -0.3136,  0.1284,  ..., -0.1607,  0.0468,  0.0473],
+        [-0.1521, -0.0824, -0.1195,  ..., -0.2486, -0.0727, -0.0283],
+        [ 0.0100, -0.1976, -0.2698,  ..., -0.1973,  0.0311, -0.4362],
+        ...,
+        [-0.2320,  0.1936,  0.0323,  ...,  0.2551, -0.0730, -0.1704],
+        [-0.2163, -0.2143,  0.2473,  ..., -0.1934, -0.1654,  0.1720],
+        [ 0.0161, -0.3930,  0.2073,  ...,  0.0572, -0.2089, -0.1915]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.3283e-09,  ...,  9.3132e-10,
+          0.0000e+00,  9.3132e-10],
+        [-7.9162e-09,  1.3970e-09,  4.6566e-10,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -3.6322e-08,  9.3132e-10,  ..., -4.1910e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  6.9849e-09,  ...,  1.8626e-09,
+          0.0000e+00,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00, -1.3504e-08,  ..., -4.1910e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 383, bias, value: tensor([-0.0163, -0.0336, -0.0295, -0.0302, -0.0059,  0.0132,  0.0121, -0.0064,
+        -0.0172, -0.0177], device='cuda:0'), grad: tensor([ 2.4214e-08, -3.4925e-08,  7.4506e-09,  8.3819e-09,  1.0291e-07,
+         1.6764e-08, -4.4703e-08, -1.0571e-07,  3.6322e-08, -1.4435e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 382, time 220.95, cls_loss 0.0006 cls_loss_mapping 0.0008 cls_loss_causal 0.4514 re_mapping 0.0029 re_causal 0.0082 /// teacc 99.16 lr 0.00010000
+Epoch 384, weight, value: tensor([[-0.2576, -0.3140,  0.1285,  ..., -0.1609,  0.0468,  0.0472],
+        [-0.1522, -0.0827, -0.1195,  ..., -0.2492, -0.0727, -0.0283],
+        [ 0.0081, -0.1992, -0.2704,  ..., -0.1982,  0.0311, -0.4379],
+        ...,
+        [-0.2321,  0.1939,  0.0323,  ...,  0.2554, -0.0730, -0.1704],
+        [-0.2166, -0.2146,  0.2474,  ..., -0.1936, -0.1654,  0.1720],
+        [ 0.0160, -0.3931,  0.2074,  ...,  0.0573, -0.2089, -0.1917]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00, -1.3970e-09,  ..., -1.3970e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 384, bias, value: tensor([-0.0165, -0.0336, -0.0300, -0.0312, -0.0060,  0.0140,  0.0121, -0.0065,
+        -0.0172, -0.0177], device='cuda:0'), grad: tensor([ 6.0536e-09,  9.3132e-10, -2.1420e-08,  4.1910e-09,  1.0245e-08,
+         2.3283e-09, -6.0536e-09,  6.5193e-09,  4.6566e-09, -4.6566e-10],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 383, time 220.64, cls_loss 0.0008 cls_loss_mapping 0.0012 cls_loss_causal 0.4698 re_mapping 0.0031 re_causal 0.0083 /// teacc 99.06 lr 0.00010000
+Epoch 385, weight, value: tensor([[-0.2576, -0.3142,  0.1286,  ..., -0.1611,  0.0468,  0.0472],
+        [-0.1524, -0.0830, -0.1196,  ..., -0.2507, -0.0727, -0.0281],
+        [ 0.0082, -0.2025, -0.2730,  ..., -0.2019,  0.0310, -0.4381],
+        ...,
+        [-0.2323,  0.1958,  0.0327,  ...,  0.2578, -0.0730, -0.1705],
+        [-0.2170, -0.2149,  0.2475,  ..., -0.1940, -0.1655,  0.1720],
+        [ 0.0159, -0.3937,  0.2075,  ...,  0.0573, -0.2089, -0.1921]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  0.0000e+00,  4.2841e-08,  ...,  2.2817e-08,
+          0.0000e+00,  4.6566e-10],
+        [ 4.6566e-10,  4.6566e-10,  1.3039e-08,  ...,  6.0536e-09,
+          0.0000e+00,  2.3283e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.5530e-07,  ...,  2.7940e-09,
+          0.0000e+00,  3.0641e-07],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  1.0338e-07,  ...,  9.3132e-09,
+          0.0000e+00,  7.6368e-08],
+        [ 1.3970e-09,  0.0000e+00, -4.0140e-07,  ...,  4.0513e-08,
+          0.0000e+00, -3.9442e-07],
+        [-7.9162e-09,  0.0000e+00, -2.9150e-07,  ..., -5.3085e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 385, bias, value: tensor([-0.0165, -0.0336, -0.0326, -0.0314, -0.0061,  0.0139,  0.0123, -0.0047,
+        -0.0173, -0.0178], device='cuda:0'), grad: tensor([ 1.7462e-07,  4.8429e-08,  1.0114e-06,  4.4843e-07, -5.9418e-07,
+         9.6858e-08,  3.2596e-08,  3.1944e-07, -9.8720e-07, -5.3877e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 384, time 220.59, cls_loss 0.0007 cls_loss_mapping 0.0010 cls_loss_causal 0.4586 re_mapping 0.0028 re_causal 0.0080 /// teacc 99.12 lr 0.00010000
+Epoch 386, weight, value: tensor([[-0.2577, -0.3146,  0.1286,  ..., -0.1612,  0.0467,  0.0473],
+        [-0.1524, -0.0849, -0.1202,  ..., -0.2527, -0.0727, -0.0281],
+        [ 0.0082, -0.2028, -0.2738,  ..., -0.2022,  0.0309, -0.4389],
+        ...,
+        [-0.2324,  0.1976,  0.0334,  ...,  0.2585, -0.0729, -0.1706],
+        [-0.2173, -0.2153,  0.2481,  ..., -0.1940, -0.1655,  0.1721],
+        [ 0.0159, -0.3939,  0.2076,  ...,  0.0573, -0.2089, -0.1923]],
+       device='cuda:0'), grad: tensor([[0.0000e+00, 3.2596e-09, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 8.3819e-09, 0.0000e+00,  ..., 4.6566e-10, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 2.6543e-08, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        ...,
+        [0.0000e+00, 2.8871e-08, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 1.1642e-08, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 9.3132e-10, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00]], device='cuda:0')
+Epoch 386, bias, value: tensor([-0.0165, -0.0347, -0.0328, -0.0314, -0.0060,  0.0139,  0.0123, -0.0033,
+        -0.0173, -0.0178], device='cuda:0'), grad: tensor([ 1.1642e-08,  3.1199e-08,  9.3132e-08, -5.2527e-07,  4.1910e-09,
+         2.5379e-07, -1.8626e-09,  9.9652e-08,  3.9116e-08,  4.1910e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 385, time 220.74, cls_loss 0.0007 cls_loss_mapping 0.0012 cls_loss_causal 0.4737 re_mapping 0.0028 re_causal 0.0081 /// teacc 99.07 lr 0.00010000
+Epoch 387, weight, value: tensor([[-0.2579, -0.3151,  0.1286,  ..., -0.1615,  0.0468,  0.0471],
+        [-0.1526, -0.0859, -0.1207,  ..., -0.2540, -0.0727, -0.0283],
+        [ 0.0094, -0.2034, -0.2741,  ..., -0.2023,  0.0309, -0.4392],
+        ...,
+        [-0.2326,  0.1986,  0.0339,  ...,  0.2591, -0.0728, -0.1707],
+        [-0.2175, -0.2159,  0.2491,  ..., -0.1942, -0.1655,  0.1723],
+        [ 0.0157, -0.3944,  0.2076,  ...,  0.0573, -0.2089, -0.1933]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  6.0536e-08,  2.4680e-08,  ...,  5.4948e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 2.9802e-08,  1.6764e-08,  6.0536e-09,  ...,  1.4435e-08,
+          0.0000e+00,  3.0268e-08],
+        [ 0.0000e+00,  5.0757e-08,  2.0489e-08,  ...,  4.5635e-08,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 4.6566e-10, -1.8580e-07, -6.8452e-08,  ..., -1.5553e-07,
+          0.0000e+00,  4.6566e-10],
+        [ 7.4506e-09,  0.0000e+00, -4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  6.0536e-09],
+        [ 9.3132e-10,  2.0489e-08,  8.3819e-09,  ...,  1.8161e-08,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 387, bias, value: tensor([-0.0172, -0.0354, -0.0329, -0.0311, -0.0061,  0.0138,  0.0126, -0.0025,
+        -0.0172, -0.0179], device='cuda:0'), grad: tensor([ 2.3143e-07,  1.3877e-07,  1.9465e-07,  7.1712e-08,  5.1223e-09,
+        -2.6962e-07,  1.9046e-07, -6.6357e-07,  1.5832e-08,  8.1491e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 386, time 221.28, cls_loss 0.0006 cls_loss_mapping 0.0010 cls_loss_causal 0.4724 re_mapping 0.0026 re_causal 0.0080 /// teacc 99.18 lr 0.00010000
+Epoch 388, weight, value: tensor([[-0.2580, -0.3160,  0.1286,  ..., -0.1617,  0.0468,  0.0471],
+        [-0.1521, -0.0862, -0.1207,  ..., -0.2548, -0.0727, -0.0282],
+        [ 0.0097, -0.2041, -0.2744,  ..., -0.2020,  0.0309, -0.4396],
+        ...,
+        [-0.2326,  0.1988,  0.0339,  ...,  0.2593, -0.0728, -0.1708],
+        [-0.2180, -0.2163,  0.2496,  ..., -0.1942, -0.1655,  0.1725],
+        [ 0.0157, -0.3947,  0.2077,  ...,  0.0574, -0.2089, -0.1935]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.3970e-09],
+        [ 4.6566e-10,  2.5565e-07,  2.3283e-09,  ...,  1.7975e-07,
+          0.0000e+00,  2.7940e-09],
+        [ 0.0000e+00,  4.1910e-09,  0.0000e+00,  ...,  3.2596e-09,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [ 0.0000e+00, -2.7567e-07, -4.6566e-10,  ..., -1.9372e-07,
+          0.0000e+00,  4.6566e-10],
+        [ 4.6566e-10,  0.0000e+00, -2.3283e-08,  ...,  0.0000e+00,
+          0.0000e+00, -3.2131e-08],
+        [ 4.6566e-10,  0.0000e+00,  4.6566e-10,  ...,  1.3970e-09,
+          0.0000e+00,  4.6566e-10]], device='cuda:0')
+Epoch 388, bias, value: tensor([-0.0173, -0.0351, -0.0331, -0.0305, -0.0063,  0.0137,  0.0125, -0.0026,
+        -0.0171, -0.0179], device='cuda:0'), grad: tensor([ 7.4506e-09,  6.1747e-07,  1.2107e-08,  7.9628e-08, -4.1910e-09,
+         1.5367e-08,  6.1933e-08, -6.4820e-07, -1.4948e-07,  1.2107e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 387, time 220.49, cls_loss 0.0008 cls_loss_mapping 0.0017 cls_loss_causal 0.4601 re_mapping 0.0028 re_causal 0.0081 /// teacc 99.18 lr 0.00010000
+Epoch 389, weight, value: tensor([[-0.2585, -0.3183,  0.1283,  ..., -0.1622,  0.0468,  0.0469],
+        [-0.1522, -0.0866, -0.1211,  ..., -0.2559, -0.0727, -0.0288],
+        [ 0.0095, -0.2042, -0.2718,  ..., -0.2020,  0.0309, -0.4377],
+        ...,
+        [-0.2328,  0.1992,  0.0341,  ...,  0.2598, -0.0729, -0.1709],
+        [-0.2191, -0.2186,  0.2501,  ..., -0.1943, -0.1655,  0.1726],
+        [ 0.0158, -0.3953,  0.2078,  ...,  0.0574, -0.2089, -0.1938]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.2107e-08,  0.0000e+00,  ...,  7.4506e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  3.3062e-08,  0.0000e+00,  ...,  2.0955e-08,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -4.4703e-08,  4.6566e-10,  ..., -2.7940e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00, -1.8626e-09,  ..., -1.8626e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 389, bias, value: tensor([-0.0179, -0.0361, -0.0313, -0.0274, -0.0062,  0.0109,  0.0123, -0.0024,
+        -0.0171, -0.0180], device='cuda:0'), grad: tensor([ 9.3132e-10,  3.2131e-08,  8.5682e-08,  5.5879e-09,  6.9849e-09,
+         6.0536e-09, -6.9849e-09, -1.1269e-07,  9.3132e-10, -6.5193e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 388, time 221.15, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4542 re_mapping 0.0030 re_causal 0.0085 /// teacc 99.17 lr 0.00010000
+Epoch 390, weight, value: tensor([[-0.2588, -0.3186,  0.1283,  ..., -0.1623,  0.0468,  0.0469],
+        [-0.1523, -0.0866, -0.1211,  ..., -0.2562, -0.0727, -0.0287],
+        [ 0.0094, -0.2044, -0.2727,  ..., -0.2021,  0.0309, -0.4392],
+        ...,
+        [-0.2331,  0.1988,  0.0340,  ...,  0.2599, -0.0729, -0.1711],
+        [-0.2196, -0.2190,  0.2513,  ..., -0.1944, -0.1655,  0.1728],
+        [ 0.0138, -0.3956,  0.2079,  ...,  0.0558, -0.2089, -0.1961]],
+       device='cuda:0'), grad: tensor([[9.3132e-10, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         4.6566e-10],
+        [0.0000e+00, 2.3283e-09, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [1.3970e-09, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         9.3132e-10],
+        ...,
+        [0.0000e+00, 1.3970e-09, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [1.7695e-08, 4.6566e-10, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         1.2107e-08],
+        [5.1223e-09, 4.6566e-10, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         3.2596e-09]], device='cuda:0')
+Epoch 390, bias, value: tensor([-0.0180, -0.0358, -0.0316, -0.0275, -0.0051,  0.0109,  0.0123, -0.0028,
+        -0.0170, -0.0191], device='cuda:0'), grad: tensor([ 2.7940e-09,  5.5879e-09,  5.1223e-09,  1.6019e-06,  4.6566e-10,
+        -1.6885e-06,  4.1910e-09,  4.1910e-09,  5.1688e-08,  1.2107e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 389, time 220.79, cls_loss 0.0006 cls_loss_mapping 0.0019 cls_loss_causal 0.4765 re_mapping 0.0029 re_causal 0.0085 /// teacc 99.15 lr 0.00010000
+Epoch 391, weight, value: tensor([[-0.2589, -0.3190,  0.1283,  ..., -0.1625,  0.0468,  0.0469],
+        [-0.1523, -0.0864, -0.1211,  ..., -0.2566, -0.0728, -0.0286],
+        [ 0.0094, -0.2044, -0.2728,  ..., -0.2020,  0.0310, -0.4393],
+        ...,
+        [-0.2332,  0.1988,  0.0341,  ...,  0.2604, -0.0730, -0.1712],
+        [-0.2202, -0.2188,  0.2516,  ..., -0.1946, -0.1655,  0.1728],
+        [ 0.0138, -0.3969,  0.2079,  ...,  0.0557, -0.2090, -0.1963]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  1.3970e-09,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  4.6566e-10,  1.3970e-09,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 1.6764e-08,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  2.0955e-08],
+        [ 5.5879e-09,  4.6566e-10, -5.1223e-09,  ..., -2.3283e-09,
+          0.0000e+00,  3.7253e-09]], device='cuda:0')
+Epoch 391, bias, value: tensor([-0.0181, -0.0355, -0.0315, -0.0275, -0.0051,  0.0109,  0.0122, -0.0030,
+        -0.0169, -0.0191], device='cuda:0'), grad: tensor([ 3.7253e-09,  8.8476e-09, -2.5146e-08,  7.4506e-09,  4.1910e-09,
+        -6.6217e-07,  5.8720e-07,  1.1176e-08,  8.3819e-08, -6.9849e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 390, time 220.81, cls_loss 0.0006 cls_loss_mapping 0.0011 cls_loss_causal 0.4527 re_mapping 0.0029 re_causal 0.0080 /// teacc 99.17 lr 0.00010000
+Epoch 392, weight, value: tensor([[-0.2590, -0.3190,  0.1285,  ..., -0.1625,  0.0468,  0.0469],
+        [-0.1535, -0.0865, -0.1211,  ..., -0.2567, -0.0728, -0.0289],
+        [ 0.0093, -0.2045, -0.2729,  ..., -0.2020,  0.0310, -0.4395],
+        ...,
+        [-0.2334,  0.1988,  0.0341,  ...,  0.2604, -0.0730, -0.1714],
+        [-0.2212, -0.2189,  0.2521,  ..., -0.1947, -0.1655,  0.1730],
+        [ 0.0137, -0.3972,  0.2080,  ...,  0.0559, -0.2090, -0.1965]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -5.7742e-08,  ...,  0.0000e+00,
+          0.0000e+00, -3.2596e-09],
+        [ 0.0000e+00,  4.6566e-10,  3.2596e-09,  ...,  1.3970e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.3993e-08,  ..., -1.8626e-09,
+          0.0000e+00,  2.3283e-09]], device='cuda:0')
+Epoch 392, bias, value: tensor([-0.0181, -0.0356, -0.0312, -0.0275, -0.0053,  0.0110,  0.0121, -0.0032,
+        -0.0168, -0.0191], device='cuda:0'), grad: tensor([-1.7323e-07, -6.4261e-08,  7.4506e-09,  3.4459e-08, -3.7253e-09,
+         1.8626e-09,  1.2107e-08,  8.0094e-08,  4.1910e-09,  1.1269e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 391, time 220.55, cls_loss 0.0007 cls_loss_mapping 0.0008 cls_loss_causal 0.4605 re_mapping 0.0028 re_causal 0.0081 /// teacc 99.13 lr 0.00010000
+Epoch 393, weight, value: tensor([[-0.2591, -0.3192,  0.1287,  ..., -0.1626,  0.0468,  0.0469],
+        [-0.1536, -0.0858, -0.1212,  ..., -0.2574, -0.0728, -0.0287],
+        [ 0.0094, -0.2051, -0.2738,  ..., -0.2027,  0.0310, -0.4400],
+        ...,
+        [-0.2335,  0.1982,  0.0342,  ...,  0.2610, -0.0730, -0.1716],
+        [-0.2214, -0.2189,  0.2529,  ..., -0.1948, -0.1655,  0.1731],
+        [ 0.0137, -0.3976,  0.2080,  ...,  0.0559, -0.2090, -0.1967]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.2596e-09,  ...,  2.7940e-09,
+          0.0000e+00,  4.6566e-10],
+        [ 1.3970e-09,  0.0000e+00,  1.3970e-09,  ...,  5.1223e-09,
+          0.0000e+00, -9.3132e-09],
+        [-4.1910e-09,  0.0000e+00, -2.2352e-08,  ..., -2.0489e-08,
+          0.0000e+00, -3.7253e-09]], device='cuda:0')
+Epoch 393, bias, value: tensor([-0.0182, -0.0345, -0.0314, -0.0275, -0.0053,  0.0110,  0.0121, -0.0044,
+        -0.0167, -0.0191], device='cuda:0'), grad: tensor([ 1.8626e-09,  4.6566e-09, -6.5193e-09,  1.0710e-08,  3.7253e-08,
+         2.2352e-08,  2.7940e-09,  1.2107e-08, -4.6566e-10, -8.2422e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 392, time 220.99, cls_loss 0.0006 cls_loss_mapping 0.0013 cls_loss_causal 0.4416 re_mapping 0.0029 re_causal 0.0082 /// teacc 99.16 lr 0.00010000
+Epoch 394, weight, value: tensor([[-0.2591, -0.3194,  0.1287,  ..., -0.1627,  0.0468,  0.0468],
+        [-0.1547, -0.0859, -0.1213,  ..., -0.2581, -0.0728, -0.0291],
+        [ 0.0094, -0.2055, -0.2743,  ..., -0.2029,  0.0310, -0.4414],
+        ...,
+        [-0.2335,  0.1984,  0.0344,  ...,  0.2615, -0.0730, -0.1717],
+        [-0.2217, -0.2193,  0.2538,  ..., -0.1948, -0.1655,  0.1734],
+        [ 0.0137, -0.3978,  0.2082,  ...,  0.0559, -0.2090, -0.1969]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  0.0000e+00,  8.3819e-09,  ...,  3.2596e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-4.1444e-08,  0.0000e+00, -2.8685e-07,  ..., -1.1083e-07,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 394, bias, value: tensor([-0.0183, -0.0347, -0.0316, -0.0275, -0.0053,  0.0110,  0.0122, -0.0043,
+        -0.0165, -0.0191], device='cuda:0'), grad: tensor([ 1.9558e-08,  3.2596e-09, -6.9849e-09,  3.7253e-09,  6.0350e-07,
+         3.4459e-08,  1.3970e-08,  4.1910e-09,  0.0000e+00, -6.7428e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 393, time 220.70, cls_loss 0.0006 cls_loss_mapping 0.0009 cls_loss_causal 0.4572 re_mapping 0.0028 re_causal 0.0084 /// teacc 99.14 lr 0.00010000
+Epoch 395, weight, value: tensor([[-0.2593, -0.3193,  0.1287,  ..., -0.1628,  0.0468,  0.0468],
+        [-0.1547, -0.0860, -0.1213,  ..., -0.2591, -0.0728, -0.0289],
+        [ 0.0093, -0.2061, -0.2746,  ..., -0.2033,  0.0310, -0.4426],
+        ...,
+        [-0.2336,  0.1988,  0.0344,  ...,  0.2622, -0.0730, -0.1719],
+        [-0.2221, -0.2196,  0.2538,  ..., -0.1948, -0.1655,  0.1736],
+        [ 0.0141, -0.3988,  0.2085,  ...,  0.0560, -0.2090, -0.1969]],
+       device='cuda:0'), grad: tensor([[ 3.2596e-09,  0.0000e+00, -7.9162e-09,  ...,  0.0000e+00,
+          0.0000e+00, -9.3132e-10],
+        [ 9.3132e-10,  4.6566e-10,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09],
+        [ 4.6566e-10,  0.0000e+00, -1.2107e-08,  ...,  0.0000e+00,
+          0.0000e+00, -1.1642e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 395, bias, value: tensor([-0.0184, -0.0347, -0.0319, -0.0275, -0.0055,  0.0109,  0.0122, -0.0042,
+        -0.0163, -0.0189], device='cuda:0'), grad: tensor([-9.3132e-09,  1.1642e-08,  3.7253e-09,  3.2596e-09,  2.7008e-08,
+         4.2841e-08, -4.3772e-08,  9.3132e-09, -3.3993e-08,  4.6566e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 394, time 220.47, cls_loss 0.0006 cls_loss_mapping 0.0010 cls_loss_causal 0.4652 re_mapping 0.0028 re_causal 0.0083 /// teacc 99.01 lr 0.00010000
+Epoch 396, weight, value: tensor([[-0.2595, -0.3195,  0.1285,  ..., -0.1629,  0.0468,  0.0467],
+        [-0.1548, -0.0860, -0.1213,  ..., -0.2594, -0.0728, -0.0289],
+        [ 0.0092, -0.2063, -0.2749,  ..., -0.2034,  0.0309, -0.4431],
+        ...,
+        [-0.2337,  0.1988,  0.0344,  ...,  0.2625, -0.0729, -0.1719],
+        [-0.2228, -0.2202,  0.2539,  ..., -0.1951, -0.1658,  0.1737],
+        [ 0.0139, -0.3997,  0.2089,  ...,  0.0561, -0.2090, -0.1976]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00, -4.6566e-10],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 396, bias, value: tensor([-0.0188, -0.0346, -0.0320, -0.0275, -0.0057,  0.0111,  0.0116, -0.0043,
+        -0.0163, -0.0188], device='cuda:0'), grad: tensor([ 9.3132e-10, -2.1979e-07,  5.9605e-08, -6.5193e-09,  0.0000e+00,
+         6.9849e-09,  4.6566e-10,  1.6298e-07,  0.0000e+00,  4.6566e-10],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 395, time 220.72, cls_loss 0.0007 cls_loss_mapping 0.0014 cls_loss_causal 0.4588 re_mapping 0.0028 re_causal 0.0080 /// teacc 99.14 lr 0.00010000
+Epoch 397, weight, value: tensor([[-0.2596, -0.3209,  0.1285,  ..., -0.1632,  0.0469,  0.0467],
+        [-0.1550, -0.0865, -0.1214,  ..., -0.2602, -0.0728, -0.0287],
+        [ 0.0091, -0.2064, -0.2752,  ..., -0.2035,  0.0310, -0.4436],
+        ...,
+        [-0.2340,  0.1995,  0.0343,  ...,  0.2628, -0.0729, -0.1723],
+        [-0.2259, -0.2205,  0.2545,  ..., -0.1952, -0.1658,  0.1736],
+        [ 0.0138, -0.4008,  0.2093,  ...,  0.0561, -0.2090, -0.1984]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09, -1.8626e-09,  2.5611e-08,  ...,  0.0000e+00,
+          0.0000e+00, -1.7695e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  1.3970e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [-2.7940e-09,  0.0000e+00, -3.8650e-08,  ...,  0.0000e+00,
+          0.0000e+00, -1.3970e-09]], device='cuda:0')
+Epoch 397, bias, value: tensor([-0.0189, -0.0348, -0.0319, -0.0275, -0.0057,  0.0111,  0.0116, -0.0042,
+        -0.0164, -0.0188], device='cuda:0'), grad: tensor([ 5.1223e-09, -2.5239e-07,  2.6543e-08,  1.0710e-08,  4.3306e-08,
+         6.0536e-09,  1.8673e-07,  6.8918e-08,  2.0023e-08, -1.1316e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 396, time 220.72, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4805 re_mapping 0.0029 re_causal 0.0084 /// teacc 99.09 lr 0.00010000
+Epoch 398, weight, value: tensor([[-0.2596, -0.3212,  0.1268,  ..., -0.1653,  0.0469,  0.0468],
+        [-0.1551, -0.0862, -0.1213,  ..., -0.2606, -0.0728, -0.0261],
+        [ 0.0084, -0.2065, -0.2757,  ..., -0.2036,  0.0310, -0.4442],
+        ...,
+        [-0.2340,  0.1994,  0.0343,  ...,  0.2632, -0.0729, -0.1750],
+        [-0.2262, -0.2206,  0.2546,  ..., -0.1954, -0.1658,  0.1737],
+        [ 0.0146, -0.4014,  0.2101,  ...,  0.0555, -0.2090, -0.1988]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.3970e-08],
+        [ 0.0000e+00,  1.3970e-09,  9.3132e-10,  ...,  1.3970e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -9.7789e-09,  0.0000e+00,  ..., -2.3283e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.2107e-08,  1.8626e-09,  ...,  2.7940e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-9.3132e-09,  0.0000e+00, -2.0955e-08,  ..., -2.0955e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 398, bias, value: tensor([-0.0194, -0.0336, -0.0319, -0.0275, -0.0043,  0.0110,  0.0117, -0.0053,
+        -0.0164, -0.0196], device='cuda:0'), grad: tensor([ 1.3877e-07,  2.3283e-08, -6.4727e-08,  5.8673e-08,  6.5658e-08,
+         7.8743e-07, -1.2629e-06,  8.7544e-08,  2.3097e-07, -6.7521e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 397, time 220.75, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4498 re_mapping 0.0029 re_causal 0.0083 /// teacc 99.10 lr 0.00010000
+Epoch 399, weight, value: tensor([[-0.2598, -0.3214,  0.1269,  ..., -0.1655,  0.0468,  0.0469],
+        [-0.1551, -0.0857, -0.1213,  ..., -0.2606, -0.0728, -0.0248],
+        [ 0.0080, -0.2065, -0.2758,  ..., -0.2036,  0.0308, -0.4455],
+        ...,
+        [-0.2342,  0.1991,  0.0342,  ...,  0.2634, -0.0729, -0.1763],
+        [-0.2266, -0.2209,  0.2553,  ..., -0.1955, -0.1663,  0.1738],
+        [ 0.0161, -0.4032,  0.2108,  ...,  0.0572, -0.2090, -0.1996]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  1.3970e-09, -1.7229e-08,  ...,  9.3132e-10,
+          0.0000e+00, -2.3283e-08],
+        [ 4.6566e-10,  9.3132e-10,  4.6566e-10,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  5.5879e-09,  4.6566e-10,  ...,  5.1223e-09,
+          0.0000e+00,  9.3132e-10],
+        ...,
+        [ 4.6566e-10, -9.3132e-09, -1.3970e-09,  ..., -8.3819e-09,
+          0.0000e+00, -9.3132e-10],
+        [ 3.2596e-09,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  1.8626e-09],
+        [ 1.3970e-09,  4.6566e-10,  1.8626e-09,  ...,  4.6566e-10,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 399, bias, value: tensor([-0.0194, -0.0329, -0.0320, -0.0275, -0.0056,  0.0111,  0.0117, -0.0060,
+        -0.0164, -0.0186], device='cuda:0'), grad: tensor([-6.5658e-08,  3.7253e-09,  1.5367e-08,  9.1270e-08,  2.7940e-09,
+        -1.0198e-07,  5.5414e-08, -1.9092e-08,  5.5879e-09,  8.8476e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 398, time 220.77, cls_loss 0.0005 cls_loss_mapping 0.0009 cls_loss_causal 0.4224 re_mapping 0.0027 re_causal 0.0077 /// teacc 99.18 lr 0.00010000
+Epoch 400, weight, value: tensor([[-0.2599, -0.3215,  0.1272,  ..., -0.1655,  0.0468,  0.0471],
+        [-0.1551, -0.0858, -0.1213,  ..., -0.2610, -0.0728, -0.0249],
+        [ 0.0082, -0.2065, -0.2759,  ..., -0.2036,  0.0308, -0.4456],
+        ...,
+        [-0.2346,  0.1994,  0.0343,  ...,  0.2640, -0.0729, -0.1763],
+        [-0.2269, -0.2204,  0.2557,  ..., -0.1955, -0.1663,  0.1738],
+        [ 0.0161, -0.4048,  0.2108,  ...,  0.0570, -0.2090, -0.1998]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [-4.6566e-10,  0.0000e+00, -3.2596e-09,  ...,  0.0000e+00,
+          0.0000e+00, -7.4506e-09],
+        [ 4.6566e-10,  0.0000e+00,  2.7940e-09,  ...,  1.3970e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 400, bias, value: tensor([-0.0192, -0.0328, -0.0320, -0.0275, -0.0055,  0.0111,  0.0115, -0.0059,
+        -0.0164, -0.0188], device='cuda:0'), grad: tensor([ 1.8626e-09,  6.0070e-08, -1.5832e-08,  3.7253e-09,  1.3113e-06,
+         6.9849e-09, -1.3448e-06,  2.7940e-09, -2.0955e-08,  9.7789e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 399, time 220.62, cls_loss 0.0006 cls_loss_mapping 0.0009 cls_loss_causal 0.4706 re_mapping 0.0028 re_causal 0.0082 /// teacc 99.14 lr 0.00001000
+Epoch 401, weight, value: tensor([[-0.2608, -0.3219,  0.1270,  ..., -0.1658,  0.0469,  0.0470],
+        [-0.1562, -0.0858, -0.1216,  ..., -0.2614, -0.0728, -0.0249],
+        [ 0.0081, -0.2066, -0.2763,  ..., -0.2037,  0.0308, -0.4459],
+        ...,
+        [-0.2349,  0.1994,  0.0342,  ...,  0.2641, -0.0729, -0.1763],
+        [-0.2272, -0.2207,  0.2557,  ..., -0.1958, -0.1663,  0.1739],
+        [ 0.0168, -0.4057,  0.2114,  ...,  0.0571, -0.2090, -0.1999]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  1.6298e-09,  2.5611e-09,  ...,  1.6298e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.1910e-09,  2.5611e-09,  ...,  2.7940e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.3970e-09,  4.6566e-10,  ...,  1.1642e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 2.3283e-10, -1.2573e-08, -8.3819e-09,  ..., -1.0477e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  4.6566e-10,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-10],
+        [ 2.3283e-10,  6.7521e-09,  3.0268e-09,  ...,  3.9581e-09,
+          0.0000e+00,  4.6566e-10]], device='cuda:0')
+Epoch 401, bias, value: tensor([-0.0194, -0.0332, -0.0319, -0.0275, -0.0057,  0.0111,  0.0116, -0.0061,
+        -0.0164, -0.0184], device='cuda:0'), grad: tensor([ 7.4506e-09,  1.0012e-08,  3.2596e-09,  1.6298e-09,  2.5611e-09,
+        -6.5193e-09,  2.5611e-09, -3.0734e-08,  2.3283e-09,  1.3737e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 400, time 220.37, cls_loss 0.0005 cls_loss_mapping 0.0008 cls_loss_causal 0.4582 re_mapping 0.0028 re_causal 0.0084 /// teacc 99.19 lr 0.00001000
+Epoch 402, weight, value: tensor([[-0.2608, -0.3219,  0.1270,  ..., -0.1658,  0.0469,  0.0470],
+        [-0.1562, -0.0857, -0.1215,  ..., -0.2614, -0.0728, -0.0249],
+        [ 0.0081, -0.2066, -0.2763,  ..., -0.2037,  0.0308, -0.4459],
+        ...,
+        [-0.2349,  0.1993,  0.0342,  ...,  0.2641, -0.0729, -0.1764],
+        [-0.2273, -0.2207,  0.2557,  ..., -0.1958, -0.1663,  0.1739],
+        [ 0.0167, -0.4057,  0.2114,  ...,  0.0571, -0.2090, -0.1999]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  0.0000e+00, -1.2340e-08,  ...,  0.0000e+00,
+         -4.6566e-10, -6.7521e-09],
+        [ 0.0000e+00,  1.9791e-08,  9.3132e-09,  ...,  1.3970e-08,
+          0.0000e+00,  2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -2.1420e-08, -1.0012e-08,  ..., -1.5600e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 5.5879e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [ 1.8161e-08,  2.3283e-10,  1.8626e-09,  ...,  9.3132e-10,
+          0.0000e+00,  9.5461e-09]], device='cuda:0')
+Epoch 402, bias, value: tensor([-0.0194, -0.0331, -0.0319, -0.0275, -0.0056,  0.0111,  0.0116, -0.0061,
+        -0.0164, -0.0184], device='cuda:0'), grad: tensor([-3.7020e-08,  4.5635e-08,  2.3283e-10,  3.4925e-09, -1.3970e-09,
+        -3.7951e-08,  4.0745e-08, -4.7497e-08,  9.3132e-09,  3.3062e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 401, time 220.67, cls_loss 0.0005 cls_loss_mapping 0.0005 cls_loss_causal 0.4141 re_mapping 0.0027 re_causal 0.0079 /// teacc 99.21 lr 0.00001000
+Epoch 403, weight, value: tensor([[-0.2608, -0.3219,  0.1270,  ..., -0.1658,  0.0469,  0.0470],
+        [-0.1563, -0.0857, -0.1215,  ..., -0.2615, -0.0728, -0.0249],
+        [ 0.0081, -0.2066, -0.2763,  ..., -0.2037,  0.0308, -0.4459],
+        ...,
+        [-0.2350,  0.1994,  0.0342,  ...,  0.2642, -0.0729, -0.1764],
+        [-0.2273, -0.2207,  0.2558,  ..., -0.1958, -0.1663,  0.1739],
+        [ 0.0165, -0.4058,  0.2114,  ...,  0.0570, -0.2090, -0.2001]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.6566e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.7940e-09,  5.1223e-09,  ...,  2.7940e-09,
+          0.0000e+00, -4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -4.6566e-09, -9.3132e-10,  ..., -3.7253e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00, -4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ..., -1.8626e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 403, bias, value: tensor([-0.0194, -0.0331, -0.0319, -0.0275, -0.0055,  0.0111,  0.0116, -0.0061,
+        -0.0164, -0.0185], device='cuda:0'), grad: tensor([-1.0710e-08,  8.3819e-09,  1.8626e-09,  6.0536e-09,  2.7940e-09,
+        -8.3819e-09,  1.4901e-08, -5.5879e-09, -9.3132e-10, -4.6566e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 402, time 220.85, cls_loss 0.0005 cls_loss_mapping 0.0005 cls_loss_causal 0.4405 re_mapping 0.0027 re_causal 0.0079 /// teacc 99.22 lr 0.00001000
+Epoch 404, weight, value: tensor([[-0.2608, -0.3219,  0.1270,  ..., -0.1658,  0.0468,  0.0470],
+        [-0.1564, -0.0857, -0.1216,  ..., -0.2616, -0.0728, -0.0249],
+        [ 0.0081, -0.2066, -0.2763,  ..., -0.2037,  0.0308, -0.4460],
+        ...,
+        [-0.2350,  0.1994,  0.0342,  ...,  0.2642, -0.0729, -0.1764],
+        [-0.2276, -0.2207,  0.2558,  ..., -0.1959, -0.1663,  0.1739],
+        [ 0.0164, -0.4058,  0.2114,  ...,  0.0570, -0.2090, -0.2002]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.3970e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.3039e-08,  4.1910e-09,  ...,  9.3132e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [ 0.0000e+00, -2.7474e-08, -8.8476e-09,  ..., -1.6298e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  5.1223e-09,  3.7253e-09,  ...,  3.2596e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 404, bias, value: tensor([-0.0194, -0.0331, -0.0319, -0.0275, -0.0055,  0.0111,  0.0116, -0.0061,
+        -0.0164, -0.0185], device='cuda:0'), grad: tensor([-3.7253e-09,  1.0571e-07,  3.7253e-09,  1.6764e-08, -7.5903e-08,
+         2.3283e-09,  2.7940e-09, -5.9139e-08,  4.6566e-10,  1.8626e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 403, time 220.28, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4493 re_mapping 0.0026 re_causal 0.0079 /// teacc 99.21 lr 0.00001000
+Epoch 405, weight, value: tensor([[-0.2609, -0.3219,  0.1270,  ..., -0.1658,  0.0468,  0.0470],
+        [-0.1564, -0.0857, -0.1215,  ..., -0.2616, -0.0728, -0.0249],
+        [ 0.0081, -0.2066, -0.2763,  ..., -0.2037,  0.0308, -0.4460],
+        ...,
+        [-0.2350,  0.1994,  0.0342,  ...,  0.2642, -0.0729, -0.1764],
+        [-0.2276, -0.2207,  0.2558,  ..., -0.1959, -0.1663,  0.1739],
+        [ 0.0163, -0.4059,  0.2114,  ...,  0.0570, -0.2090, -0.2003]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.6566e-10, -5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.3970e-09,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 3.7253e-09,  9.3132e-10,  5.1223e-09,  ...,  2.0955e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 405, bias, value: tensor([-0.0195, -0.0331, -0.0319, -0.0275, -0.0055,  0.0111,  0.0115, -0.0061,
+        -0.0164, -0.0185], device='cuda:0'), grad: tensor([-8.8476e-09,  7.9162e-09, -4.6566e-10, -1.6764e-08, -1.3784e-07,
+         8.3819e-09,  4.1910e-09,  6.0536e-09,  1.8626e-09,  1.3877e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 404, time 220.43, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4240 re_mapping 0.0024 re_causal 0.0077 /// teacc 99.19 lr 0.00001000
+Epoch 406, weight, value: tensor([[-0.2609, -0.3220,  0.1270,  ..., -0.1658,  0.0468,  0.0470],
+        [-0.1565, -0.0858, -0.1216,  ..., -0.2617, -0.0728, -0.0249],
+        [ 0.0080, -0.2066, -0.2764,  ..., -0.2037,  0.0308, -0.4461],
+        ...,
+        [-0.2350,  0.1994,  0.0342,  ...,  0.2643, -0.0729, -0.1764],
+        [-0.2278, -0.2208,  0.2558,  ..., -0.1959, -0.1664,  0.1738],
+        [ 0.0162, -0.4059,  0.2114,  ...,  0.0570, -0.2090, -0.2005]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10, -4.6566e-10,  ...,  9.3132e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 4.6566e-10,  0.0000e+00,  3.2596e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.2596e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ..., -9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [-1.3970e-09,  0.0000e+00, -6.5193e-09,  ...,  0.0000e+00,
+          0.0000e+00, -6.9849e-09],
+        [-9.3132e-10,  9.3132e-10, -4.1910e-09,  ...,  1.2573e-08,
+          0.0000e+00,  4.6566e-10]], device='cuda:0')
+Epoch 406, bias, value: tensor([-0.0195, -0.0332, -0.0319, -0.0275, -0.0055,  0.0111,  0.0115, -0.0061,
+        -0.0164, -0.0185], device='cuda:0'), grad: tensor([ 2.7940e-09, -1.0710e-08,  1.5367e-08,  9.3132e-09, -7.6368e-08,
+        -3.0501e-07,  3.2037e-07,  1.6298e-08, -2.7008e-08,  5.9605e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 405, time 220.71, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4448 re_mapping 0.0024 re_causal 0.0078 /// teacc 99.21 lr 0.00001000
+Epoch 407, weight, value: tensor([[-0.2609, -0.3220,  0.1270,  ..., -0.1658,  0.0468,  0.0470],
+        [-0.1565, -0.0858, -0.1216,  ..., -0.2618, -0.0728, -0.0249],
+        [ 0.0080, -0.2067, -0.2764,  ..., -0.2037,  0.0308, -0.4461],
+        ...,
+        [-0.2350,  0.1994,  0.0342,  ...,  0.2643, -0.0729, -0.1764],
+        [-0.2278, -0.2208,  0.2559,  ..., -0.1959, -0.1664,  0.1739],
+        [ 0.0161, -0.4060,  0.2114,  ...,  0.0570, -0.2090, -0.2006]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00, -4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  3.2596e-09,  1.8626e-09,  ..., -9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00, -4.6566e-09,  ..., -4.6566e-10,
+          0.0000e+00, -3.7253e-09],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  6.5193e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 407, bias, value: tensor([-0.0195, -0.0332, -0.0319, -0.0275, -0.0055,  0.0111,  0.0115, -0.0061,
+        -0.0164, -0.0186], device='cuda:0'), grad: tensor([ 9.3132e-10,  4.6566e-10,  3.7253e-09, -7.4506e-09, -5.2620e-08,
+        -1.8626e-08,  2.8871e-08,  6.5193e-09, -1.5832e-08,  4.6566e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 406, time 220.57, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4385 re_mapping 0.0024 re_causal 0.0077 /// teacc 99.20 lr 0.00001000
+Epoch 408, weight, value: tensor([[-0.2609, -0.3220,  0.1270,  ..., -0.1658,  0.0468,  0.0470],
+        [-0.1566, -0.0858, -0.1216,  ..., -0.2619, -0.0728, -0.0249],
+        [ 0.0080, -0.2067, -0.2764,  ..., -0.2037,  0.0308, -0.4461],
+        ...,
+        [-0.2351,  0.1995,  0.0342,  ...,  0.2644, -0.0729, -0.1764],
+        [-0.2278, -0.2208,  0.2559,  ..., -0.1959, -0.1664,  0.1739],
+        [ 0.0161, -0.4061,  0.2114,  ...,  0.0569, -0.2090, -0.2006]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -3.7253e-09,  ...,  0.0000e+00,
+         -4.6566e-10, -1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -4.6566e-10,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.3970e-09,  4.6566e-10,  1.8626e-09,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [-9.3132e-10,  0.0000e+00, -5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00, -5.1223e-09],
+        [-3.7253e-09,  0.0000e+00, -4.6566e-09,  ..., -1.3970e-09,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 408, bias, value: tensor([-0.0195, -0.0332, -0.0319, -0.0275, -0.0055,  0.0111,  0.0115, -0.0061,
+        -0.0164, -0.0186], device='cuda:0'), grad: tensor([-1.4435e-08,  1.3970e-09, -3.7253e-09,  3.2596e-09, -3.2596e-09,
+         1.6764e-08,  1.0710e-08,  1.3039e-08, -1.2573e-08, -7.4506e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 407, time 220.66, cls_loss 0.0005 cls_loss_mapping 0.0005 cls_loss_causal 0.4437 re_mapping 0.0023 re_causal 0.0077 /// teacc 99.20 lr 0.00001000
+Epoch 409, weight, value: tensor([[-0.2609, -0.3220,  0.1270,  ..., -0.1659,  0.0468,  0.0470],
+        [-0.1566, -0.0858, -0.1216,  ..., -0.2619, -0.0728, -0.0250],
+        [ 0.0080, -0.2067, -0.2764,  ..., -0.2038,  0.0308, -0.4461],
+        ...,
+        [-0.2351,  0.1995,  0.0342,  ...,  0.2644, -0.0729, -0.1764],
+        [-0.2279, -0.2208,  0.2559,  ..., -0.1959, -0.1664,  0.1739],
+        [ 0.0160, -0.4061,  0.2115,  ...,  0.0569, -0.2090, -0.2007]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  1.2107e-08,  4.6566e-09,  ...,  1.0245e-08,
+          0.0000e+00,  0.0000e+00],
+        [-4.6566e-10, -1.3970e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 4.6566e-10, -1.4901e-08, -6.0536e-09,  ..., -1.3504e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  3.7253e-09,  1.8626e-09,  ...,  3.7253e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 409, bias, value: tensor([-0.0195, -0.0332, -0.0319, -0.0275, -0.0054,  0.0111,  0.0115, -0.0061,
+        -0.0164, -0.0186], device='cuda:0'), grad: tensor([ 1.3970e-09,  3.7253e-08, -1.3504e-08,  1.3970e-08, -1.8626e-09,
+        -9.7789e-09,  1.8626e-09, -3.3993e-08,  9.3132e-10,  1.4435e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 408, time 220.53, cls_loss 0.0005 cls_loss_mapping 0.0005 cls_loss_causal 0.4458 re_mapping 0.0023 re_causal 0.0075 /// teacc 99.20 lr 0.00001000
+Epoch 410, weight, value: tensor([[-0.2609, -0.3220,  0.1270,  ..., -0.1659,  0.0468,  0.0470],
+        [-0.1567, -0.0858, -0.1216,  ..., -0.2620, -0.0728, -0.0250],
+        [ 0.0080, -0.2067, -0.2765,  ..., -0.2038,  0.0308, -0.4462],
+        ...,
+        [-0.2351,  0.1995,  0.0342,  ...,  0.2645, -0.0729, -0.1764],
+        [-0.2280, -0.2208,  0.2559,  ..., -0.1960, -0.1664,  0.1739],
+        [ 0.0160, -0.4062,  0.2115,  ...,  0.0569, -0.2090, -0.2007]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.6566e-10,  4.6566e-10,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [-4.6566e-10,  9.3132e-10,  4.6566e-10,  ...,  9.3132e-10,
+          0.0000e+00, -9.3132e-10],
+        [ 0.0000e+00,  9.3132e-10,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  4.6566e-10,  1.3970e-09,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  4.6566e-10, -4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00, -4.6566e-10],
+        [ 9.3132e-10,  4.6566e-10, -6.1467e-08,  ..., -7.4971e-08,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 410, bias, value: tensor([-0.0195, -0.0332, -0.0319, -0.0275, -0.0054,  0.0111,  0.0114, -0.0061,
+        -0.0164, -0.0186], device='cuda:0'), grad: tensor([ 1.1176e-08,  1.1502e-07, -1.4575e-07,  6.9849e-09,  2.7847e-07,
+         3.4459e-08, -4.9826e-08,  2.3749e-08,  2.7008e-08, -2.9523e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 409, time 220.40, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4504 re_mapping 0.0023 re_causal 0.0077 /// teacc 99.19 lr 0.00001000
+Epoch 411, weight, value: tensor([[-0.2610, -0.3220,  0.1270,  ..., -0.1659,  0.0468,  0.0470],
+        [-0.1567, -0.0858, -0.1216,  ..., -0.2621, -0.0728, -0.0250],
+        [ 0.0079, -0.2067, -0.2765,  ..., -0.2038,  0.0308, -0.4462],
+        ...,
+        [-0.2351,  0.1996,  0.0342,  ...,  0.2646, -0.0729, -0.1764],
+        [-0.2281, -0.2208,  0.2559,  ..., -0.1960, -0.1664,  0.1738],
+        [ 0.0160, -0.4062,  0.2115,  ...,  0.0569, -0.2090, -0.2007]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00, -2.7940e-09],
+        [ 0.0000e+00, -3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  4.6566e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [-4.6566e-10,  0.0000e+00, -1.3970e-09,  ..., -9.3132e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 411, bias, value: tensor([-0.0195, -0.0332, -0.0319, -0.0275, -0.0054,  0.0111,  0.0114, -0.0061,
+        -0.0165, -0.0186], device='cuda:0'), grad: tensor([-1.4901e-08, -2.0489e-08, -6.9849e-09, -1.4435e-08,  9.3132e-10,
+         1.8161e-08,  1.1642e-08,  2.7474e-08,  2.3283e-09, -3.7253e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 410, time 220.34, cls_loss 0.0005 cls_loss_mapping 0.0005 cls_loss_causal 0.4415 re_mapping 0.0024 re_causal 0.0077 /// teacc 99.18 lr 0.00001000
+Epoch 412, weight, value: tensor([[-0.2610, -0.3220,  0.1271,  ..., -0.1659,  0.0468,  0.0470],
+        [-0.1567, -0.0859, -0.1216,  ..., -0.2622, -0.0728, -0.0250],
+        [ 0.0079, -0.2068, -0.2765,  ..., -0.2038,  0.0308, -0.4463],
+        ...,
+        [-0.2351,  0.1996,  0.0342,  ...,  0.2646, -0.0729, -0.1764],
+        [-0.2281, -0.2208,  0.2559,  ..., -0.1960, -0.1664,  0.1739],
+        [ 0.0160, -0.4062,  0.2115,  ...,  0.0569, -0.2090, -0.2008]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  9.3132e-10,
+          0.0000e+00,  9.3132e-10],
+        ...,
+        [ 0.0000e+00, -3.1665e-08,  2.3283e-09,  ..., -3.6275e-07,
+          0.0000e+00,  1.3970e-09],
+        [ 0.0000e+00, -4.6566e-10, -5.1223e-09,  ..., -1.8626e-09,
+          0.0000e+00, -3.2596e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  4.6566e-10]], device='cuda:0')
+Epoch 412, bias, value: tensor([-0.0195, -0.0332, -0.0319, -0.0275, -0.0054,  0.0111,  0.0114, -0.0061,
+        -0.0165, -0.0186], device='cuda:0'), grad: tensor([ 9.3132e-10,  3.2596e-09,  6.0536e-09,  2.7940e-09,  9.9093e-07,
+         1.1642e-08,  6.9849e-09, -1.0002e-06, -1.3039e-08,  5.1223e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 411, time 220.51, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4385 re_mapping 0.0023 re_causal 0.0074 /// teacc 99.19 lr 0.00001000
+Epoch 413, weight, value: tensor([[-0.2610, -0.3221,  0.1271,  ..., -0.1659,  0.0468,  0.0470],
+        [-0.1567, -0.0858, -0.1216,  ..., -0.2622, -0.0728, -0.0250],
+        [ 0.0079, -0.2068, -0.2765,  ..., -0.2039,  0.0308, -0.4463],
+        ...,
+        [-0.2351,  0.1996,  0.0342,  ...,  0.2647, -0.0729, -0.1764],
+        [-0.2281, -0.2208,  0.2560,  ..., -0.1960, -0.1664,  0.1739],
+        [ 0.0159, -0.4063,  0.2115,  ...,  0.0569, -0.2090, -0.2009]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09],
+        [ 0.0000e+00,  9.3132e-10,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -2.7940e-09, -2.3283e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.3970e-09,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  4.6566e-10,  4.6566e-10,  ...,  6.0536e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 413, bias, value: tensor([-0.0194, -0.0332, -0.0319, -0.0275, -0.0054,  0.0111,  0.0114, -0.0061,
+        -0.0165, -0.0187], device='cuda:0'), grad: tensor([ 9.3132e-09,  3.7253e-09,  2.7940e-09,  4.6566e-10, -6.7055e-08,
+        -2.5053e-07,  2.4540e-07, -1.8626e-09,  1.1176e-08,  5.1688e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 412, time 220.16, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4277 re_mapping 0.0023 re_causal 0.0075 /// teacc 99.19 lr 0.00001000
+Epoch 414, weight, value: tensor([[-0.2610, -0.3221,  0.1271,  ..., -0.1659,  0.0468,  0.0470],
+        [-0.1567, -0.0859, -0.1216,  ..., -0.2624, -0.0728, -0.0250],
+        [ 0.0079, -0.2068, -0.2766,  ..., -0.2039,  0.0308, -0.4464],
+        ...,
+        [-0.2352,  0.1997,  0.0342,  ...,  0.2648, -0.0729, -0.1764],
+        [-0.2282, -0.2208,  0.2560,  ..., -0.1960, -0.1664,  0.1739],
+        [ 0.0159, -0.4063,  0.2116,  ...,  0.0569, -0.2090, -0.2009]],
+       device='cuda:0'), grad: tensor([[1.3970e-09, 9.3132e-10, 9.3132e-10,  ..., 0.0000e+00, 0.0000e+00,
+         4.6566e-10],
+        [0.0000e+00, 1.8626e-09, 0.0000e+00,  ..., 9.3132e-10, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 4.6566e-10, 0.0000e+00,  ..., 4.6566e-10, 0.0000e+00,
+         0.0000e+00],
+        ...,
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 2.3283e-09, 1.8626e-09,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [4.6566e-10, 4.6566e-10, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00]], device='cuda:0')
+Epoch 414, bias, value: tensor([-0.0194, -0.0332, -0.0319, -0.0275, -0.0054,  0.0111,  0.0114, -0.0061,
+        -0.0165, -0.0187], device='cuda:0'), grad: tensor([ 8.3819e-09,  4.1910e-09,  2.3283e-09, -5.3551e-08,  1.3970e-09,
+         2.8871e-08,  9.3132e-10,  0.0000e+00,  1.3504e-08,  1.3970e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 413, time 220.50, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4228 re_mapping 0.0022 re_causal 0.0073 /// teacc 99.19 lr 0.00001000
+Epoch 415, weight, value: tensor([[-0.2610, -0.3221,  0.1271,  ..., -0.1659,  0.0468,  0.0470],
+        [-0.1567, -0.0859, -0.1216,  ..., -0.2625, -0.0728, -0.0250],
+        [ 0.0078, -0.2068, -0.2766,  ..., -0.2039,  0.0307, -0.4465],
+        ...,
+        [-0.2352,  0.1997,  0.0342,  ...,  0.2649, -0.0729, -0.1764],
+        [-0.2282, -0.2208,  0.2560,  ..., -0.1961, -0.1665,  0.1739],
+        [ 0.0159, -0.4063,  0.2116,  ...,  0.0569, -0.2090, -0.2009]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [-4.6566e-10,  0.0000e+00, -2.7940e-09,  ..., -1.3970e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 415, bias, value: tensor([-0.0194, -0.0332, -0.0319, -0.0275, -0.0054,  0.0111,  0.0114, -0.0061,
+        -0.0165, -0.0187], device='cuda:0'), grad: tensor([ 4.1910e-09,  1.2899e-07, -2.1793e-07,  8.3819e-09,  8.3819e-08,
+        -1.1642e-08, -7.9162e-09,  3.2596e-09,  1.3970e-08, -7.4506e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 414, time 220.49, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4249 re_mapping 0.0022 re_causal 0.0070 /// teacc 99.16 lr 0.00001000
+Epoch 416, weight, value: tensor([[-0.2610, -0.3221,  0.1271,  ..., -0.1659,  0.0468,  0.0470],
+        [-0.1567, -0.0860, -0.1217,  ..., -0.2626, -0.0728, -0.0250],
+        [ 0.0078, -0.2069, -0.2766,  ..., -0.2039,  0.0307, -0.4465],
+        ...,
+        [-0.2352,  0.1998,  0.0342,  ...,  0.2649, -0.0729, -0.1764],
+        [-0.2283, -0.2208,  0.2560,  ..., -0.1961, -0.1665,  0.1739],
+        [ 0.0159, -0.4064,  0.2116,  ...,  0.0569, -0.2090, -0.2010]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  9.3132e-09, -3.7253e-09,  ...,  1.3970e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.3516e-07,  4.2375e-08,  ...,  3.8184e-08,
+          0.0000e+00, -1.7229e-08],
+        [ 0.0000e+00,  2.7940e-09,  4.1910e-09,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -2.8219e-07, -5.2620e-08,  ..., -4.5635e-08,
+          0.0000e+00,  1.6298e-08],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  2.7940e-09,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 416, bias, value: tensor([-0.0194, -0.0333, -0.0319, -0.0275, -0.0054,  0.0111,  0.0114, -0.0061,
+        -0.0165, -0.0187], device='cuda:0'), grad: tensor([-1.0710e-08,  4.0978e-07,  2.5611e-08,  2.5146e-08,  8.8476e-09,
+         3.3993e-08,  4.6566e-09, -5.1083e-07,  4.1910e-09,  7.9162e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 415, time 220.76, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4488 re_mapping 0.0022 re_causal 0.0072 /// teacc 99.17 lr 0.00001000
+Epoch 417, weight, value: tensor([[-0.2611, -0.3221,  0.1272,  ..., -0.1659,  0.0468,  0.0470],
+        [-0.1568, -0.0860, -0.1217,  ..., -0.2626, -0.0728, -0.0250],
+        [ 0.0078, -0.2069, -0.2766,  ..., -0.2039,  0.0307, -0.4465],
+        ...,
+        [-0.2352,  0.1998,  0.0342,  ...,  0.2649, -0.0729, -0.1764],
+        [-0.2284, -0.2208,  0.2560,  ..., -0.1961, -0.1665,  0.1739],
+        [ 0.0158, -0.4064,  0.2116,  ...,  0.0569, -0.2090, -0.2011]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.7940e-09,  9.3132e-10,  ...,  2.7940e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -4.1910e-09, -1.3970e-09,  ..., -3.7253e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 417, bias, value: tensor([-0.0194, -0.0333, -0.0319, -0.0275, -0.0054,  0.0111,  0.0113, -0.0060,
+        -0.0165, -0.0187], device='cuda:0'), grad: tensor([ 1.3970e-09, -2.0815e-07,  1.0990e-07,  1.3970e-09,  1.1176e-08,
+         1.8626e-09,  2.7940e-09,  7.4040e-08,  4.6566e-09,  1.8626e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 416, time 220.01, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4483 re_mapping 0.0021 re_causal 0.0074 /// teacc 99.17 lr 0.00001000
+Epoch 418, weight, value: tensor([[-0.2611, -0.3221,  0.1272,  ..., -0.1659,  0.0468,  0.0470],
+        [-0.1569, -0.0860, -0.1217,  ..., -0.2627, -0.0728, -0.0250],
+        [ 0.0078, -0.2069, -0.2766,  ..., -0.2039,  0.0307, -0.4465],
+        ...,
+        [-0.2352,  0.1998,  0.0342,  ...,  0.2650, -0.0729, -0.1764],
+        [-0.2285, -0.2209,  0.2561,  ..., -0.1961, -0.1665,  0.1739],
+        [ 0.0158, -0.4065,  0.2116,  ...,  0.0569, -0.2090, -0.2011]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  0.0000e+00, -1.0245e-08,  ...,  0.0000e+00,
+          0.0000e+00, -9.3132e-10],
+        [ 9.3132e-09,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09],
+        [ 3.2596e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        ...,
+        [ 6.9849e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 5.1223e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.3970e-09],
+        [ 9.7789e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09]], device='cuda:0')
+Epoch 418, bias, value: tensor([-0.0194, -0.0333, -0.0318, -0.0275, -0.0054,  0.0111,  0.0113, -0.0061,
+        -0.0165, -0.0187], device='cuda:0'), grad: tensor([-2.7474e-08,  3.8650e-08,  7.9162e-09,  3.4506e-07,  1.4435e-08,
+        -5.4715e-07,  1.0664e-07,  1.7695e-08,  1.3039e-08,  3.1665e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 417, time 220.58, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4427 re_mapping 0.0021 re_causal 0.0073 /// teacc 99.17 lr 0.00001000
+Epoch 419, weight, value: tensor([[-0.2611, -0.3222,  0.1272,  ..., -0.1659,  0.0468,  0.0470],
+        [-0.1570, -0.0860, -0.1217,  ..., -0.2628, -0.0728, -0.0250],
+        [ 0.0078, -0.2069, -0.2767,  ..., -0.2039,  0.0307, -0.4466],
+        ...,
+        [-0.2353,  0.1999,  0.0343,  ...,  0.2651, -0.0729, -0.1764],
+        [-0.2286, -0.2209,  0.2561,  ..., -0.1961, -0.1665,  0.1738],
+        [ 0.0157, -0.4067,  0.2116,  ...,  0.0569, -0.2090, -0.2012]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00, -1.3970e-09],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 419, bias, value: tensor([-0.0194, -0.0333, -0.0319, -0.0275, -0.0054,  0.0111,  0.0112, -0.0060,
+        -0.0165, -0.0187], device='cuda:0'), grad: tensor([ 4.6566e-10,  6.5193e-09, -4.6566e-09,  9.3132e-10,  2.3283e-09,
+         1.8626e-09,  4.6566e-09,  0.0000e+00, -3.2596e-09,  9.3132e-10],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 418, time 220.49, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4269 re_mapping 0.0022 re_causal 0.0072 /// teacc 99.19 lr 0.00001000
+Epoch 420, weight, value: tensor([[-0.2611, -0.3222,  0.1272,  ..., -0.1660,  0.0468,  0.0470],
+        [-0.1570, -0.0861, -0.1217,  ..., -0.2629, -0.0728, -0.0250],
+        [ 0.0078, -0.2069, -0.2767,  ..., -0.2040,  0.0307, -0.4466],
+        ...,
+        [-0.2353,  0.2000,  0.0343,  ...,  0.2652, -0.0729, -0.1764],
+        [-0.2286, -0.2209,  0.2561,  ..., -0.1962, -0.1665,  0.1739],
+        [ 0.0157, -0.4068,  0.2117,  ...,  0.0569, -0.2090, -0.2014]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -9.3132e-10,  0.0000e+00,  ..., -4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [ 3.2596e-09,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-09,
+          0.0000e+00,  2.3283e-09]], device='cuda:0')
+Epoch 420, bias, value: tensor([-0.0194, -0.0333, -0.0318, -0.0275, -0.0054,  0.0111,  0.0111, -0.0060,
+        -0.0165, -0.0187], device='cuda:0'), grad: tensor([ 3.2596e-09,  6.0536e-09, -4.3306e-08,  2.7940e-08, -4.7963e-08,
+        -8.3819e-09,  2.7940e-09,  9.7789e-09,  5.5879e-09,  3.6322e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 419, time 221.21, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.3942 re_mapping 0.0022 re_causal 0.0070 /// teacc 99.17 lr 0.00001000
+Epoch 421, weight, value: tensor([[-0.2611, -0.3222,  0.1272,  ..., -0.1660,  0.0468,  0.0470],
+        [-0.1570, -0.0861, -0.1217,  ..., -0.2629, -0.0728, -0.0250],
+        [ 0.0078, -0.2069, -0.2767,  ..., -0.2040,  0.0307, -0.4467],
+        ...,
+        [-0.2353,  0.2000,  0.0343,  ...,  0.2652, -0.0729, -0.1764],
+        [-0.2287, -0.2209,  0.2561,  ..., -0.1962, -0.1665,  0.1739],
+        [ 0.0156, -0.4069,  0.2117,  ...,  0.0569, -0.2090, -0.2015]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.3283e-09,  4.6566e-10,  ...,  4.1910e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.3970e-09,  4.6566e-10,  ...,  1.3970e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -5.1223e-09, -1.3970e-09,  ..., -7.4506e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 421, bias, value: tensor([-0.0194, -0.0333, -0.0318, -0.0275, -0.0054,  0.0111,  0.0111, -0.0060,
+        -0.0165, -0.0187], device='cuda:0'), grad: tensor([ 4.6566e-10,  2.2817e-08,  1.3970e-09,  9.3132e-10, -2.2817e-08,
+         3.2596e-09,  1.3970e-09, -1.8626e-08,  9.3132e-10,  1.3970e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 420, time 221.22, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4547 re_mapping 0.0022 re_causal 0.0075 /// teacc 99.17 lr 0.00001000
+Epoch 422, weight, value: tensor([[-0.2612, -0.3222,  0.1271,  ..., -0.1661,  0.0468,  0.0470],
+        [-0.1570, -0.0861, -0.1217,  ..., -0.2630, -0.0728, -0.0250],
+        [ 0.0078, -0.2069, -0.2767,  ..., -0.2040,  0.0307, -0.4468],
+        ...,
+        [-0.2353,  0.2000,  0.0343,  ...,  0.2653, -0.0729, -0.1764],
+        [-0.2287, -0.2209,  0.2561,  ..., -0.1962, -0.1665,  0.1739],
+        [ 0.0156, -0.4069,  0.2118,  ...,  0.0569, -0.2090, -0.2015]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-2.3283e-09,  0.0000e+00, -7.4506e-09,  ..., -6.5193e-09,
+          0.0000e+00,  4.6566e-10]], device='cuda:0')
+Epoch 422, bias, value: tensor([-0.0195, -0.0333, -0.0318, -0.0275, -0.0053,  0.0112,  0.0111, -0.0060,
+        -0.0165, -0.0187], device='cuda:0'), grad: tensor([ 8.8476e-09,  9.3132e-09, -5.1223e-09,  1.4435e-08, -5.6345e-08,
+        -9.3132e-10,  2.6077e-08,  4.6566e-09,  4.6566e-10,  2.3283e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 421, time 220.41, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4403 re_mapping 0.0022 re_causal 0.0074 /// teacc 99.17 lr 0.00001000
+Epoch 423, weight, value: tensor([[-0.2612, -0.3223,  0.1271,  ..., -0.1661,  0.0467,  0.0470],
+        [-0.1570, -0.0861, -0.1218,  ..., -0.2631, -0.0728, -0.0250],
+        [ 0.0077, -0.2070, -0.2768,  ..., -0.2040,  0.0307, -0.4469],
+        ...,
+        [-0.2354,  0.2001,  0.0343,  ...,  0.2653, -0.0729, -0.1764],
+        [-0.2288, -0.2209,  0.2562,  ..., -0.1962, -0.1665,  0.1739],
+        [ 0.0155, -0.4069,  0.2118,  ...,  0.0569, -0.2090, -0.2016]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -6.9849e-09, -2.5611e-09,  ..., -7.4506e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  2.3283e-10,
+          0.0000e+00,  2.3283e-10],
+        [-1.1642e-09,  6.5193e-09, -1.3970e-09,  ...,  3.4925e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 423, bias, value: tensor([-0.0195, -0.0333, -0.0319, -0.0275, -0.0054,  0.0112,  0.0111, -0.0060,
+        -0.0165, -0.0187], device='cuda:0'), grad: tensor([ 1.3970e-09,  4.4238e-09, -6.7521e-09,  6.9849e-09,  7.9162e-09,
+         6.9849e-09, -6.7521e-09, -1.2573e-08,  5.1223e-09, -9.3132e-10],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 422, time 220.23, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4176 re_mapping 0.0021 re_causal 0.0071 /// teacc 99.14 lr 0.00001000
+Epoch 424, weight, value: tensor([[-0.2613, -0.3223,  0.1271,  ..., -0.1661,  0.0467,  0.0470],
+        [-0.1571, -0.0862, -0.1218,  ..., -0.2632, -0.0728, -0.0250],
+        [ 0.0077, -0.2069, -0.2768,  ..., -0.2040,  0.0307, -0.4469],
+        ...,
+        [-0.2354,  0.2001,  0.0343,  ...,  0.2654, -0.0729, -0.1764],
+        [-0.2288, -0.2209,  0.2562,  ..., -0.1962, -0.1665,  0.1739],
+        [ 0.0153, -0.4070,  0.2118,  ...,  0.0569, -0.2090, -0.2018]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.3283e-10, -1.8626e-09,  ...,  2.3283e-10,
+         -6.9849e-10, -1.3970e-09],
+        [ 2.0955e-09,  7.6368e-08,  6.4727e-08,  ...,  3.0966e-08,
+          0.0000e+00,  5.1223e-09],
+        [ 2.3283e-10,  3.4925e-09,  3.0268e-09,  ...,  1.1642e-09,
+          0.0000e+00,  6.9849e-10],
+        ...,
+        [ 4.6566e-10, -7.6136e-08, -6.4727e-08,  ..., -2.9337e-08,
+          0.0000e+00,  9.3132e-10],
+        [ 1.1642e-09, -1.1642e-08, -1.5600e-08,  ...,  1.3970e-09,
+          0.0000e+00, -3.0035e-08],
+        [ 1.8626e-09,  4.6566e-10,  2.3283e-10,  ...,  2.0955e-09,
+          2.3283e-10,  1.3970e-09]], device='cuda:0')
+Epoch 424, bias, value: tensor([-0.0195, -0.0334, -0.0318, -0.0275, -0.0054,  0.0112,  0.0111, -0.0060,
+        -0.0165, -0.0187], device='cuda:0'), grad: tensor([-4.6566e-09,  2.3772e-07,  1.3039e-08,  1.3039e-08, -1.3295e-07,
+         6.0303e-08,  8.6613e-08, -2.0000e-07, -8.7079e-08,  2.0023e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 423, time 220.89, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4180 re_mapping 0.0021 re_causal 0.0072 /// teacc 99.15 lr 0.00001000
+Epoch 425, weight, value: tensor([[-0.2613, -0.3223,  0.1271,  ..., -0.1661,  0.0467,  0.0470],
+        [-0.1571, -0.0862, -0.1218,  ..., -0.2632, -0.0728, -0.0251],
+        [ 0.0077, -0.2070, -0.2768,  ..., -0.2040,  0.0307, -0.4469],
+        ...,
+        [-0.2354,  0.2002,  0.0343,  ...,  0.2654, -0.0729, -0.1764],
+        [-0.2288, -0.2209,  0.2562,  ..., -0.1962, -0.1665,  0.1739],
+        [ 0.0153, -0.4071,  0.2119,  ...,  0.0569, -0.2090, -0.2018]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  6.7521e-09,  2.3283e-09,  ...,  4.8894e-09,
+          0.0000e+00,  2.3283e-10],
+        [ 0.0000e+00,  2.0955e-08,  1.3970e-09,  ...,  1.3970e-08,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -2.7707e-08, -3.4925e-09,  ..., -2.0256e-08,
+          0.0000e+00, -2.3283e-10],
+        [ 6.9849e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  6.9849e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 425, bias, value: tensor([-0.0195, -0.0334, -0.0318, -0.0275, -0.0054,  0.0112,  0.0111, -0.0060,
+        -0.0165, -0.0187], device='cuda:0'), grad: tensor([ 6.9849e-10,  1.5832e-08,  4.9360e-08, -6.9849e-10,  2.3283e-09,
+        -8.8476e-09,  1.0012e-08, -6.2631e-08,  2.0955e-09,  2.3283e-10],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 424, time 220.38, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4032 re_mapping 0.0021 re_causal 0.0072 /// teacc 99.14 lr 0.00001000
+Epoch 426, weight, value: tensor([[-0.2614, -0.3223,  0.1272,  ..., -0.1661,  0.0467,  0.0470],
+        [-0.1571, -0.0862, -0.1218,  ..., -0.2633, -0.0728, -0.0251],
+        [ 0.0076, -0.2070, -0.2769,  ..., -0.2040,  0.0307, -0.4470],
+        ...,
+        [-0.2355,  0.2002,  0.0343,  ...,  0.2655, -0.0729, -0.1764],
+        [-0.2289, -0.2209,  0.2563,  ..., -0.1963, -0.1665,  0.1739],
+        [ 0.0152, -0.4071,  0.2119,  ...,  0.0569, -0.2090, -0.2019]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-10],
+        [ 4.6566e-10,  1.3970e-09,  2.3283e-10,  ...,  2.3283e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 0.0000e+00, -2.6310e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 2.3283e-10,  2.4680e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  2.3283e-10,  1.1642e-09,  ...,  6.9849e-10,
+          0.0000e+00,  6.9849e-10],
+        [-6.9849e-09,  0.0000e+00, -9.5461e-09,  ..., -8.6147e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 426, bias, value: tensor([-0.0195, -0.0334, -0.0318, -0.0275, -0.0054,  0.0112,  0.0111, -0.0060,
+        -0.0166, -0.0187], device='cuda:0'), grad: tensor([ 3.4925e-09,  9.5461e-09, -1.2456e-07,  2.6543e-08,  2.7241e-08,
+        -1.4901e-08, -9.3132e-10,  1.1781e-07,  9.0804e-09, -4.4005e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 425, time 220.71, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4473 re_mapping 0.0021 re_causal 0.0074 /// teacc 99.17 lr 0.00001000
+Epoch 427, weight, value: tensor([[-0.2614, -0.3223,  0.1272,  ..., -0.1662,  0.0467,  0.0470],
+        [-0.1571, -0.0863, -0.1218,  ..., -0.2633, -0.0728, -0.0251],
+        [ 0.0076, -0.2070, -0.2769,  ..., -0.2040,  0.0306, -0.4471],
+        ...,
+        [-0.2355,  0.2002,  0.0343,  ...,  0.2655, -0.0729, -0.1764],
+        [-0.2290, -0.2209,  0.2563,  ..., -0.1963, -0.1666,  0.1739],
+        [ 0.0151, -0.4072,  0.2120,  ...,  0.0570, -0.2090, -0.2020]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.9849e-10,
+          0.0000e+00,  9.3132e-10],
+        [ 1.1642e-09,  2.3283e-10,  4.6566e-10,  ...,  2.3283e-10,
+          0.0000e+00,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ..., -1.6298e-09,
+          0.0000e+00, -1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  4.6566e-10,
+          0.0000e+00,  9.3132e-10],
+        [ 9.3132e-10,  0.0000e+00, -9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00, -4.6566e-10],
+        [-4.6566e-10,  0.0000e+00, -9.3132e-10,  ..., -2.3283e-10,
+          0.0000e+00,  2.3283e-10]], device='cuda:0')
+Epoch 427, bias, value: tensor([-0.0195, -0.0334, -0.0318, -0.0275, -0.0054,  0.0112,  0.0110, -0.0060,
+        -0.0166, -0.0187], device='cuda:0'), grad: tensor([ 2.5146e-08,  1.6531e-08,  7.9162e-09,  2.0023e-08, -1.8859e-08,
+        -3.9348e-08, -1.4435e-08,  1.5367e-08,  1.8626e-09, -1.6298e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 426, time 220.27, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.3990 re_mapping 0.0021 re_causal 0.0072 /// teacc 99.17 lr 0.00001000
+Epoch 428, weight, value: tensor([[-0.2615, -0.3224,  0.1271,  ..., -0.1663,  0.0467,  0.0470],
+        [-0.1571, -0.0863, -0.1218,  ..., -0.2634, -0.0728, -0.0250],
+        [ 0.0075, -0.2070, -0.2769,  ..., -0.2040,  0.0306, -0.4471],
+        ...,
+        [-0.2355,  0.2003,  0.0344,  ...,  0.2656, -0.0729, -0.1765],
+        [-0.2290, -0.2210,  0.2563,  ..., -0.1963, -0.1666,  0.1739],
+        [ 0.0151, -0.4072,  0.2120,  ...,  0.0570, -0.2090, -0.2021]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -6.9849e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  2.3283e-10,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-10],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  6.9849e-10,  ...,  2.3283e-10,
+          0.0000e+00,  4.6566e-10]], device='cuda:0')
+Epoch 428, bias, value: tensor([-0.0196, -0.0334, -0.0318, -0.0275, -0.0054,  0.0112,  0.0110, -0.0059,
+        -0.0166, -0.0187], device='cuda:0'), grad: tensor([-3.0268e-09,  1.3970e-09,  1.8626e-09,  2.5611e-09,  1.3970e-09,
+         1.6298e-09,  1.6298e-09,  1.6298e-09,  1.1642e-09,  5.1223e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 427, time 220.36, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4038 re_mapping 0.0021 re_causal 0.0071 /// teacc 99.18 lr 0.00001000
+Epoch 429, weight, value: tensor([[-0.2616, -0.3224,  0.1269,  ..., -0.1665,  0.0467,  0.0470],
+        [-0.1571, -0.0863, -0.1218,  ..., -0.2635, -0.0728, -0.0250],
+        [ 0.0075, -0.2070, -0.2770,  ..., -0.2040,  0.0306, -0.4472],
+        ...,
+        [-0.2356,  0.2004,  0.0344,  ...,  0.2657, -0.0729, -0.1765],
+        [-0.2290, -0.2210,  0.2563,  ..., -0.1963, -0.1666,  0.1739],
+        [ 0.0151, -0.4073,  0.2122,  ...,  0.0570, -0.2090, -0.2021]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  1.3970e-09,  2.3283e-10,  ...,  1.3970e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 1.1642e-09,  3.0268e-09,  6.9849e-10,  ...,  3.2596e-09,
+          0.0000e+00, -2.3283e-10],
+        [-1.0710e-08,  1.8626e-09,  4.6566e-10,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 9.3132e-10, -9.7789e-09, -9.3132e-10,  ..., -9.3132e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 5.1223e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.7940e-09, -6.9849e-10,  ...,  1.6298e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 429, bias, value: tensor([-0.0196, -0.0334, -0.0318, -0.0275, -0.0054,  0.0112,  0.0110, -0.0059,
+        -0.0166, -0.0187], device='cuda:0'), grad: tensor([ 6.2864e-09,  1.0943e-08, -4.2375e-08,  2.7940e-09,  1.0943e-08,
+         2.3283e-09,  3.7253e-09, -1.9558e-08,  2.3749e-08,  4.4238e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 428, time 220.39, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4428 re_mapping 0.0021 re_causal 0.0073 /// teacc 99.17 lr 0.00001000
+Epoch 430, weight, value: tensor([[-0.2616, -0.3224,  0.1269,  ..., -0.1665,  0.0467,  0.0470],
+        [-0.1572, -0.0864, -0.1219,  ..., -0.2635, -0.0728, -0.0251],
+        [ 0.0075, -0.2070, -0.2770,  ..., -0.2041,  0.0306, -0.4472],
+        ...,
+        [-0.2356,  0.2004,  0.0344,  ...,  0.2658, -0.0729, -0.1765],
+        [-0.2291, -0.2210,  0.2563,  ..., -0.1963, -0.1666,  0.1739],
+        [ 0.0151, -0.4074,  0.2122,  ...,  0.0570, -0.2090, -0.2022]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.3283e-10, -1.3970e-09,  ...,  2.3283e-10,
+          0.0000e+00, -2.3283e-10],
+        [ 2.3283e-10, -1.8626e-09,  6.9849e-10,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  6.9849e-10,  6.9849e-10,  ...,  4.6566e-10,
+          0.0000e+00,  2.3283e-10],
+        ...,
+        [ 0.0000e+00, -4.6566e-10,  2.3283e-10,  ..., -2.0955e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-1.3970e-09,  2.3283e-10, -3.2596e-09,  ..., -1.6298e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 430, bias, value: tensor([-0.0196, -0.0335, -0.0318, -0.0275, -0.0055,  0.0112,  0.0110, -0.0059,
+        -0.0166, -0.0187], device='cuda:0'), grad: tensor([-2.0955e-09, -7.9162e-09,  4.4238e-09,  1.3970e-09,  1.0245e-08,
+         1.3970e-09,  4.6566e-10,  3.9581e-09,  2.3283e-10, -9.7789e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 429, time 219.93, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4230 re_mapping 0.0021 re_causal 0.0074 /// teacc 99.16 lr 0.00001000
+Epoch 431, weight, value: tensor([[-0.2616, -0.3224,  0.1269,  ..., -0.1665,  0.0467,  0.0470],
+        [-0.1573, -0.0864, -0.1219,  ..., -0.2636, -0.0728, -0.0251],
+        [ 0.0075, -0.2071, -0.2770,  ..., -0.2041,  0.0306, -0.4472],
+        ...,
+        [-0.2356,  0.2004,  0.0344,  ...,  0.2658, -0.0729, -0.1765],
+        [-0.2292, -0.2210,  0.2563,  ..., -0.1964, -0.1666,  0.1739],
+        [ 0.0151, -0.4074,  0.2122,  ...,  0.0570, -0.2090, -0.2022]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.0012e-08,  ...,  0.0000e+00,
+          0.0000e+00, -6.9849e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  0.0000e+00,
+          0.0000e+00, -2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  4.4238e-09,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-1.1642e-09,  0.0000e+00, -1.1642e-09,  ...,  0.0000e+00,
+          0.0000e+00, -3.0268e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-09,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10]], device='cuda:0')
+Epoch 431, bias, value: tensor([-0.0196, -0.0335, -0.0318, -0.0275, -0.0054,  0.0112,  0.0110, -0.0059,
+        -0.0166, -0.0187], device='cuda:0'), grad: tensor([-1.0431e-07,  5.1223e-09,  4.9826e-08,  4.1910e-09,  1.2806e-08,
+         2.0955e-09,  2.2817e-08,  3.2596e-09, -6.7521e-09,  5.5879e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 430, time 220.27, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4234 re_mapping 0.0021 re_causal 0.0071 /// teacc 99.16 lr 0.00001000
+Epoch 432, weight, value: tensor([[-0.2616, -0.3224,  0.1269,  ..., -0.1665,  0.0467,  0.0471],
+        [-0.1573, -0.0864, -0.1219,  ..., -0.2636, -0.0728, -0.0251],
+        [ 0.0075, -0.2071, -0.2771,  ..., -0.2041,  0.0306, -0.4472],
+        ...,
+        [-0.2356,  0.2004,  0.0344,  ...,  0.2658, -0.0729, -0.1765],
+        [-0.2293, -0.2210,  0.2564,  ..., -0.1964, -0.1666,  0.1739],
+        [ 0.0151, -0.4074,  0.2123,  ...,  0.0571, -0.2090, -0.2023]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00, -1.1176e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  6.9849e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  6.0536e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-09]], device='cuda:0')
+Epoch 432, bias, value: tensor([-0.0196, -0.0335, -0.0318, -0.0275, -0.0054,  0.0112,  0.0109, -0.0060,
+        -0.0166, -0.0186], device='cuda:0'), grad: tensor([ 5.8208e-09, -3.9814e-08,  3.0268e-09, -1.9325e-08, -3.0268e-09,
+         2.2585e-08, -7.4506e-09,  3.4925e-09,  2.6776e-08,  1.1874e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 431, time 220.41, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4287 re_mapping 0.0021 re_causal 0.0073 /// teacc 99.17 lr 0.00001000
+Epoch 433, weight, value: tensor([[-0.2616, -0.3224,  0.1269,  ..., -0.1666,  0.0467,  0.0471],
+        [-0.1573, -0.0864, -0.1219,  ..., -0.2637, -0.0728, -0.0251],
+        [ 0.0076, -0.2071, -0.2771,  ..., -0.2041,  0.0306, -0.4473],
+        ...,
+        [-0.2356,  0.2005,  0.0344,  ...,  0.2659, -0.0729, -0.1765],
+        [-0.2294, -0.2210,  0.2564,  ..., -0.1964, -0.1666,  0.1739],
+        [ 0.0151, -0.4076,  0.2123,  ...,  0.0571, -0.2090, -0.2023]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  6.9849e-10,  ...,  6.9849e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  7.2177e-08,  6.4727e-08,  ...,  2.8173e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.1910e-09,  3.2596e-09,  ...,  2.0955e-09,
+          0.0000e+00,  2.3283e-10],
+        ...,
+        [ 0.0000e+00, -7.8231e-08, -4.4936e-08,  ..., -1.3039e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  6.9849e-10,  3.0268e-09,  ...,  2.0955e-09,
+          0.0000e+00,  0.0000e+00],
+        [-1.8626e-09,  4.6566e-10, -6.1467e-08,  ..., -4.7497e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 433, bias, value: tensor([-0.0196, -0.0335, -0.0318, -0.0275, -0.0054,  0.0112,  0.0109, -0.0059,
+        -0.0167, -0.0187], device='cuda:0'), grad: tensor([ 3.4925e-09,  2.0117e-07,  1.1642e-08,  3.1898e-08,  8.8708e-08,
+        -2.1653e-08,  2.8173e-08, -1.3178e-07,  1.0245e-08, -2.1514e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 432, time 220.36, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4437 re_mapping 0.0021 re_causal 0.0074 /// teacc 99.17 lr 0.00001000
+Epoch 434, weight, value: tensor([[-0.2616, -0.3224,  0.1269,  ..., -0.1666,  0.0467,  0.0471],
+        [-0.1574, -0.0865, -0.1219,  ..., -0.2638, -0.0728, -0.0251],
+        [ 0.0076, -0.2071, -0.2771,  ..., -0.2041,  0.0306, -0.4473],
+        ...,
+        [-0.2356,  0.2005,  0.0344,  ...,  0.2659, -0.0729, -0.1765],
+        [-0.2294, -0.2210,  0.2564,  ..., -0.1964, -0.1666,  0.1739],
+        [ 0.0150, -0.4076,  0.2124,  ...,  0.0571, -0.2090, -0.2024]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.5367e-08,  ...,  0.0000e+00,
+          0.0000e+00, -3.4925e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.0955e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.1642e-09],
+        [ 0.0000e+00,  0.0000e+00,  6.7521e-09,  ...,  0.0000e+00,
+          0.0000e+00,  6.9849e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  6.9849e-10,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-10],
+        [ 2.3283e-10,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 4.6566e-10,  0.0000e+00,  6.9849e-10,  ...,  1.6298e-09,
+          0.0000e+00,  2.3283e-10]], device='cuda:0')
+Epoch 434, bias, value: tensor([-0.0196, -0.0335, -0.0317, -0.0275, -0.0054,  0.0112,  0.0109, -0.0060,
+        -0.0167, -0.0186], device='cuda:0'), grad: tensor([-3.9814e-08,  9.5461e-09,  1.4435e-08,  8.8476e-09, -4.4238e-09,
+         1.4203e-08, -1.7695e-08,  3.0268e-09,  8.8476e-09,  9.0804e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 433, time 220.22, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4170 re_mapping 0.0020 re_causal 0.0073 /// teacc 99.17 lr 0.00001000
+Epoch 435, weight, value: tensor([[-0.2617, -0.3224,  0.1270,  ..., -0.1666,  0.0467,  0.0471],
+        [-0.1574, -0.0865, -0.1219,  ..., -0.2639, -0.0728, -0.0251],
+        [ 0.0076, -0.2071, -0.2772,  ..., -0.2041,  0.0306, -0.4473],
+        ...,
+        [-0.2356,  0.2005,  0.0344,  ...,  0.2660, -0.0729, -0.1765],
+        [-0.2295, -0.2211,  0.2564,  ..., -0.1964, -0.1666,  0.1739],
+        [ 0.0150, -0.4076,  0.2124,  ...,  0.0571, -0.2090, -0.2025]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 3.2596e-09,  2.3283e-10,  2.3283e-10,  ...,  2.3283e-10,
+          0.0000e+00, -5.5879e-09],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  1.8626e-09],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  4.4238e-09,
+          0.0000e+00,  4.6566e-10],
+        [ 2.0955e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  6.5193e-09],
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  3.4226e-08,
+          0.0000e+00,  4.6566e-10]], device='cuda:0')
+Epoch 435, bias, value: tensor([-0.0196, -0.0336, -0.0316, -0.0275, -0.0055,  0.0112,  0.0109, -0.0060,
+        -0.0167, -0.0187], device='cuda:0'), grad: tensor([ 3.7253e-09, -8.3121e-08,  2.3516e-08,  1.8161e-08, -1.8044e-07,
+        -3.3062e-08,  8.6147e-09,  2.4680e-08,  6.4494e-08,  1.5832e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 434, time 220.74, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4147 re_mapping 0.0021 re_causal 0.0072 /// teacc 99.16 lr 0.00001000
+Epoch 436, weight, value: tensor([[-0.2617, -0.3225,  0.1270,  ..., -0.1666,  0.0467,  0.0471],
+        [-0.1575, -0.0866, -0.1220,  ..., -0.2640, -0.0728, -0.0251],
+        [ 0.0076, -0.2071, -0.2772,  ..., -0.2041,  0.0306, -0.4473],
+        ...,
+        [-0.2357,  0.2006,  0.0345,  ...,  0.2661, -0.0729, -0.1765],
+        [-0.2296, -0.2211,  0.2564,  ..., -0.1964, -0.1666,  0.1739],
+        [ 0.0150, -0.4077,  0.2124,  ...,  0.0570, -0.2090, -0.2025]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  6.9849e-10],
+        [ 0.0000e+00,  1.6298e-09,  1.1642e-09,  ...,  2.0955e-09,
+          0.0000e+00,  2.3283e-10],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -1.3970e-09, -6.9849e-10,  ..., -1.6298e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  1.1642e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 436, bias, value: tensor([-0.0196, -0.0336, -0.0316, -0.0275, -0.0055,  0.0112,  0.0108, -0.0060,
+        -0.0167, -0.0187], device='cuda:0'), grad: tensor([ 2.3283e-09,  6.2864e-09, -1.0477e-08,  6.5193e-09, -1.1642e-09,
+        -7.5437e-08,  7.4739e-08, -3.2596e-09,  3.0268e-09,  3.7253e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 435, time 220.66, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4283 re_mapping 0.0020 re_causal 0.0072 /// teacc 99.17 lr 0.00001000
+Epoch 437, weight, value: tensor([[-0.2617, -0.3225,  0.1270,  ..., -0.1667,  0.0467,  0.0471],
+        [-0.1575, -0.0866, -0.1220,  ..., -0.2641, -0.0728, -0.0252],
+        [ 0.0076, -0.2071, -0.2772,  ..., -0.2041,  0.0306, -0.4473],
+        ...,
+        [-0.2357,  0.2006,  0.0345,  ...,  0.2661, -0.0729, -0.1765],
+        [-0.2297, -0.2211,  0.2565,  ..., -0.1964, -0.1666,  0.1739],
+        [ 0.0150, -0.4078,  0.2124,  ...,  0.0570, -0.2090, -0.2026]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.9581e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00, -7.4506e-09,  ...,  0.0000e+00,
+          0.0000e+00, -3.9581e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 437, bias, value: tensor([-0.0196, -0.0336, -0.0316, -0.0275, -0.0055,  0.0112,  0.0108, -0.0060,
+        -0.0167, -0.0187], device='cuda:0'), grad: tensor([ 0.0000e+00, -3.7253e-09,  1.5134e-08,  4.6566e-10,  6.9849e-10,
+         2.7940e-09,  1.1642e-09,  3.4925e-09, -1.4901e-08,  6.9849e-10],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 436, time 220.66, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4060 re_mapping 0.0020 re_causal 0.0069 /// teacc 99.17 lr 0.00001000
+Epoch 438, weight, value: tensor([[-0.2617, -0.3225,  0.1270,  ..., -0.1667,  0.0467,  0.0471],
+        [-0.1575, -0.0868, -0.1221,  ..., -0.2644, -0.0728, -0.0251],
+        [ 0.0077, -0.2071, -0.2773,  ..., -0.2041,  0.0306, -0.4474],
+        ...,
+        [-0.2357,  0.2008,  0.0346,  ...,  0.2663, -0.0729, -0.1765],
+        [-0.2297, -0.2211,  0.2566,  ..., -0.1965, -0.1666,  0.1739],
+        [ 0.0150, -0.4080,  0.2125,  ...,  0.0570, -0.2090, -0.2027]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  4.6566e-10,  4.6566e-10,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10, -1.3970e-09,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00, -2.0955e-09],
+        [ 0.0000e+00, -2.3283e-09,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  2.3283e-10],
+        ...,
+        [ 0.0000e+00,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 2.3283e-10,  0.0000e+00, -2.7940e-09,  ...,  2.3283e-10,
+          0.0000e+00, -7.6834e-09],
+        [ 2.3283e-10,  4.6566e-10, -1.6298e-09,  ..., -9.3132e-10,
+          0.0000e+00,  2.3283e-10]], device='cuda:0')
+Epoch 438, bias, value: tensor([-0.0196, -0.0337, -0.0315, -0.0275, -0.0054,  0.0112,  0.0108, -0.0059,
+        -0.0168, -0.0187], device='cuda:0'), grad: tensor([ 4.8894e-09, -1.7928e-08, -3.5157e-08,  1.3039e-08,  3.7253e-09,
+        -2.3283e-10,  3.1898e-08,  3.7486e-08, -3.0268e-08,  1.3970e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 437, time 220.97, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4003 re_mapping 0.0020 re_causal 0.0069 /// teacc 99.18 lr 0.00001000
+Epoch 439, weight, value: tensor([[-0.2618, -0.3225,  0.1270,  ..., -0.1667,  0.0467,  0.0471],
+        [-0.1576, -0.0869, -0.1221,  ..., -0.2645, -0.0728, -0.0251],
+        [ 0.0076, -0.2071, -0.2773,  ..., -0.2041,  0.0306, -0.4475],
+        ...,
+        [-0.2357,  0.2009,  0.0346,  ...,  0.2664, -0.0729, -0.1765],
+        [-0.2298, -0.2212,  0.2566,  ..., -0.1965, -0.1666,  0.1739],
+        [ 0.0150, -0.4080,  0.2125,  ...,  0.0571, -0.2090, -0.2027]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.3283e-10,  2.3283e-10,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10,  2.3283e-10, -3.2596e-09,  ...,  7.4506e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  6.9849e-10,  2.3283e-10,  ...,  4.6566e-10,
+          0.0000e+00,  2.3283e-10],
+        ...,
+        [ 2.3283e-10, -3.9581e-09,  2.7940e-09,  ..., -9.5461e-09,
+          0.0000e+00,  2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-1.0710e-08,  2.3283e-09, -1.8859e-08,  ..., -2.2119e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 439, bias, value: tensor([-0.0196, -0.0337, -0.0315, -0.0275, -0.0055,  0.0112,  0.0107, -0.0059,
+        -0.0168, -0.0187], device='cuda:0'), grad: tensor([ 1.6298e-09, -5.1921e-08,  3.0268e-09,  3.7253e-09,  7.3807e-08,
+         8.1491e-09,  4.6566e-10,  4.9593e-08,  1.3970e-09, -8.0094e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 438, time 220.34, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4363 re_mapping 0.0020 re_causal 0.0072 /// teacc 99.18 lr 0.00001000
+Epoch 440, weight, value: tensor([[-0.2619, -0.3225,  0.1271,  ..., -0.1667,  0.0467,  0.0471],
+        [-0.1576, -0.0869, -0.1221,  ..., -0.2646, -0.0728, -0.0251],
+        [ 0.0074, -0.2072, -0.2773,  ..., -0.2041,  0.0306, -0.4477],
+        ...,
+        [-0.2357,  0.2009,  0.0346,  ...,  0.2665, -0.0729, -0.1765],
+        [-0.2299, -0.2212,  0.2566,  ..., -0.1965, -0.1666,  0.1738],
+        [ 0.0150, -0.4081,  0.2125,  ...,  0.0571, -0.2090, -0.2027]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  6.9849e-10,
+          0.0000e+00, -2.5611e-09],
+        [ 0.0000e+00, -2.6310e-08,  0.0000e+00,  ..., -1.8161e-08,
+          0.0000e+00,  2.3283e-10],
+        ...,
+        [ 6.9849e-10,  2.5844e-08,  1.1642e-09,  ...,  1.8161e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  2.3283e-10,  1.1642e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-3.0268e-09,  0.0000e+00, -5.1223e-09,  ..., -1.6298e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 440, bias, value: tensor([-0.0196, -0.0337, -0.0315, -0.0275, -0.0055,  0.0113,  0.0107, -0.0059,
+        -0.0168, -0.0187], device='cuda:0'), grad: tensor([ 2.0955e-09, -1.0245e-08, -1.7462e-07,  6.9849e-10,  2.5611e-09,
+         5.8208e-09,  1.6997e-08,  1.7462e-07,  4.1910e-09, -1.3504e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 439, time 220.84, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4151 re_mapping 0.0020 re_causal 0.0069 /// teacc 99.19 lr 0.00001000
+Epoch 441, weight, value: tensor([[-0.2619, -0.3226,  0.1271,  ..., -0.1667,  0.0467,  0.0471],
+        [-0.1576, -0.0869, -0.1221,  ..., -0.2646, -0.0728, -0.0251],
+        [ 0.0074, -0.2072, -0.2774,  ..., -0.2042,  0.0306, -0.4478],
+        ...,
+        [-0.2358,  0.2010,  0.0346,  ...,  0.2666, -0.0729, -0.1765],
+        [-0.2300, -0.2212,  0.2566,  ..., -0.1965, -0.1666,  0.1738],
+        [ 0.0150, -0.4082,  0.2126,  ...,  0.0571, -0.2090, -0.2028]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  2.3283e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-10],
+        [ 4.6566e-10,  4.6566e-10,  2.3283e-10,  ...,  2.3283e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 2.3283e-10,  9.3132e-10,  2.3283e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 2.3283e-10,  6.9849e-10,  1.8626e-09,  ...,  9.3132e-10,
+          0.0000e+00,  2.0955e-09],
+        [ 6.9849e-10,  4.6566e-10, -2.3283e-09,  ..., -1.1642e-09,
+          0.0000e+00, -2.5611e-09],
+        [ 1.3970e-09,  1.1642e-09,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  1.1642e-09]], device='cuda:0')
+Epoch 441, bias, value: tensor([-0.0196, -0.0337, -0.0314, -0.0276, -0.0055,  0.0113,  0.0106, -0.0059,
+        -0.0169, -0.0187], device='cuda:0'), grad: tensor([ 2.5611e-09,  3.9581e-09,  3.2596e-09, -1.2107e-08,  2.5611e-09,
+        -2.3283e-10, -1.1176e-08,  9.3132e-09, -3.9581e-09,  7.4506e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 440, time 220.74, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4120 re_mapping 0.0019 re_causal 0.0069 /// teacc 99.16 lr 0.00001000
+Epoch 442, weight, value: tensor([[-0.2619, -0.3226,  0.1271,  ..., -0.1667,  0.0467,  0.0471],
+        [-0.1577, -0.0870, -0.1222,  ..., -0.2648, -0.0728, -0.0251],
+        [ 0.0074, -0.2072, -0.2774,  ..., -0.2042,  0.0306, -0.4478],
+        ...,
+        [-0.2358,  0.2011,  0.0346,  ...,  0.2667, -0.0729, -0.1765],
+        [-0.2301, -0.2212,  0.2566,  ..., -0.1965, -0.1666,  0.1738],
+        [ 0.0150, -0.4082,  0.2126,  ...,  0.0571, -0.2090, -0.2028]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -6.9849e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 6.9849e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [-1.3970e-09,  0.0000e+00, -1.8626e-09,  ..., -1.3970e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 442, bias, value: tensor([-0.0196, -0.0337, -0.0314, -0.0276, -0.0056,  0.0113,  0.0106, -0.0059,
+        -0.0169, -0.0186], device='cuda:0'), grad: tensor([ 6.9849e-10,  1.3970e-09, -3.4925e-09,  3.7951e-08,  6.7521e-09,
+        -4.7265e-08,  1.1176e-08,  2.3283e-09,  2.3283e-09, -6.7521e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 441, time 220.58, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4422 re_mapping 0.0020 re_causal 0.0071 /// teacc 99.18 lr 0.00001000
+Epoch 443, weight, value: tensor([[-0.2619, -0.3226,  0.1272,  ..., -0.1667,  0.0467,  0.0471],
+        [-0.1578, -0.0871, -0.1222,  ..., -0.2649, -0.0728, -0.0252],
+        [ 0.0074, -0.2072, -0.2774,  ..., -0.2042,  0.0306, -0.4478],
+        ...,
+        [-0.2358,  0.2011,  0.0347,  ...,  0.2667, -0.0729, -0.1766],
+        [-0.2302, -0.2213,  0.2566,  ..., -0.1966, -0.1666,  0.1738],
+        [ 0.0150, -0.4082,  0.2127,  ...,  0.0572, -0.2090, -0.2028]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.1642e-10],
+        [ 0.0000e+00,  1.1642e-10,  4.6566e-10,  ...,  1.1642e-10,
+          0.0000e+00,  6.9849e-10],
+        [ 0.0000e+00,  1.1642e-10,  1.1642e-10,  ...,  0.0000e+00,
+          0.0000e+00,  1.1642e-10],
+        ...,
+        [ 0.0000e+00,  1.1642e-10,  5.8208e-10,  ...,  2.3283e-10,
+          0.0000e+00,  1.0477e-09],
+        [ 0.0000e+00,  1.1642e-10, -2.5611e-09,  ...,  0.0000e+00,
+          0.0000e+00, -4.0745e-09],
+        [ 0.0000e+00,  1.1642e-10,  0.0000e+00,  ...,  1.1525e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 443, bias, value: tensor([-0.0196, -0.0338, -0.0313, -0.0276, -0.0056,  0.0113,  0.0106, -0.0059,
+        -0.0170, -0.0186], device='cuda:0'), grad: tensor([ 5.8208e-10,  3.4925e-09, -1.4086e-08, -4.3074e-09, -3.2480e-08,
+         2.1886e-08,  3.2596e-09,  5.1223e-09, -1.4552e-08,  3.3411e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 442, time 220.64, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4424 re_mapping 0.0020 re_causal 0.0071 /// teacc 99.17 lr 0.00001000
+Epoch 444, weight, value: tensor([[-0.2620, -0.3226,  0.1271,  ..., -0.1668,  0.0467,  0.0471],
+        [-0.1578, -0.0872, -0.1223,  ..., -0.2650, -0.0728, -0.0252],
+        [ 0.0074, -0.2072, -0.2775,  ..., -0.2042,  0.0306, -0.4478],
+        ...,
+        [-0.2358,  0.2012,  0.0347,  ...,  0.2668, -0.0729, -0.1766],
+        [-0.2303, -0.2213,  0.2565,  ..., -0.1966, -0.1666,  0.1738],
+        [ 0.0151, -0.4083,  0.2128,  ...,  0.0572, -0.2090, -0.2028]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  0.0000e+00,  8.1491e-10,  ...,  4.6566e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  1.1642e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 6.9849e-10,  0.0000e+00,  2.9104e-09,  ...,  1.7462e-09,
+          0.0000e+00,  9.3132e-10],
+        [ 3.9581e-09,  0.0000e+00, -4.5402e-09,  ..., -2.6776e-09,
+          0.0000e+00,  1.6298e-09]], device='cuda:0')
+Epoch 444, bias, value: tensor([-0.0197, -0.0338, -0.0313, -0.0276, -0.0056,  0.0113,  0.0106, -0.0059,
+        -0.0170, -0.0185], device='cuda:0'), grad: tensor([ 2.2119e-09,  5.8208e-10,  1.1642e-10,  1.7462e-09,  4.4238e-09,
+        -1.0245e-08,  1.9791e-09,  4.6566e-10,  7.5670e-09, -3.7253e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 443, time 220.45, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4196 re_mapping 0.0020 re_causal 0.0070 /// teacc 99.22 lr 0.00001000
+Epoch 445, weight, value: tensor([[-0.2620, -0.3227,  0.1271,  ..., -0.1668,  0.0467,  0.0471],
+        [-0.1578, -0.0873, -0.1223,  ..., -0.2652, -0.0728, -0.0252],
+        [ 0.0074, -0.2072, -0.2775,  ..., -0.2042,  0.0306, -0.4479],
+        ...,
+        [-0.2358,  0.2013,  0.0348,  ...,  0.2669, -0.0729, -0.1766],
+        [-0.2303, -0.2213,  0.2566,  ..., -0.1967, -0.1666,  0.1738],
+        [ 0.0151, -0.4083,  0.2129,  ...,  0.0573, -0.2090, -0.2029]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10,  4.6566e-10,  0.0000e+00,  ...,  3.4925e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.3283e-10,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [ 1.1642e-10,  2.3283e-10,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  1.1642e-10, -3.4925e-10,  ...,  0.0000e+00,
+          0.0000e+00, -8.1491e-10],
+        [ 9.3132e-10,  2.3283e-10, -2.7940e-09,  ...,  3.7253e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 445, bias, value: tensor([-0.0197, -0.0339, -0.0312, -0.0276, -0.0057,  0.0113,  0.0106, -0.0059,
+        -0.0170, -0.0185], device='cuda:0'), grad: tensor([ 1.5134e-09,  3.4925e-09,  3.0268e-09, -5.0059e-09, -2.5495e-08,
+         6.8685e-09,  4.6566e-09,  2.2119e-09, -1.3970e-09,  9.4296e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 444, time 220.32, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4099 re_mapping 0.0019 re_causal 0.0070 /// teacc 99.19 lr 0.00001000
+Epoch 446, weight, value: tensor([[-0.2620, -0.3227,  0.1272,  ..., -0.1668,  0.0467,  0.0471],
+        [-0.1578, -0.0873, -0.1224,  ..., -0.2652, -0.0728, -0.0252],
+        [ 0.0074, -0.2072, -0.2775,  ..., -0.2042,  0.0305, -0.4479],
+        ...,
+        [-0.2359,  0.2013,  0.0348,  ...,  0.2670, -0.0729, -0.1766],
+        [-0.2304, -0.2213,  0.2566,  ..., -0.1967, -0.1666,  0.1738],
+        [ 0.0151, -0.4084,  0.2129,  ...,  0.0573, -0.2090, -0.2030]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  3.4925e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  8.1491e-10,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -1.1642e-09,  0.0000e+00,  ..., -1.7462e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 8.1491e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [ 2.3283e-10,  3.4925e-10,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  1.1642e-10]], device='cuda:0')
+Epoch 446, bias, value: tensor([-0.0197, -0.0339, -0.0312, -0.0276, -0.0057,  0.0113,  0.0106, -0.0059,
+        -0.0170, -0.0185], device='cuda:0'), grad: tensor([ 1.2806e-09,  1.8626e-09,  2.2119e-09,  3.6089e-09, -4.7730e-09,
+        -2.5611e-09, -1.5134e-09, -2.7940e-09,  2.0955e-09,  8.3819e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 445, time 220.54, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4225 re_mapping 0.0020 re_causal 0.0071 /// teacc 99.21 lr 0.00001000
+Epoch 447, weight, value: tensor([[-0.2620, -0.3227,  0.1272,  ..., -0.1668,  0.0467,  0.0472],
+        [-0.1579, -0.0873, -0.1224,  ..., -0.2653, -0.0728, -0.0253],
+        [ 0.0074, -0.2073, -0.2776,  ..., -0.2042,  0.0305, -0.4480],
+        ...,
+        [-0.2359,  0.2014,  0.0348,  ...,  0.2670, -0.0729, -0.1766],
+        [-0.2305, -0.2213,  0.2566,  ..., -0.1967, -0.1666,  0.1738],
+        [ 0.0151, -0.4084,  0.2129,  ...,  0.0573, -0.2090, -0.2030]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.1642e-10,  2.3283e-10,  0.0000e+00,  ...,  1.1642e-10,
+          0.0000e+00,  1.1642e-10],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  1.1642e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.1642e-10,  4.6566e-10,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10,  0.0000e+00,  3.4925e-10,  ...,  4.6566e-10,
+          0.0000e+00,  1.1642e-10],
+        [-6.9849e-10,  0.0000e+00, -1.6298e-09,  ..., -2.2119e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 447, bias, value: tensor([-0.0196, -0.0339, -0.0312, -0.0276, -0.0056,  0.0113,  0.0105, -0.0059,
+        -0.0171, -0.0185], device='cuda:0'), grad: tensor([ 4.6566e-10,  1.5134e-09,  1.0477e-09,  2.0955e-09,  8.0327e-09,
+        -8.1491e-10, -1.6298e-09,  2.9104e-09,  2.3283e-09, -6.7521e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 446, time 220.14, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4263 re_mapping 0.0019 re_causal 0.0070 /// teacc 99.18 lr 0.00001000
+Epoch 448, weight, value: tensor([[-0.2621, -0.3227,  0.1273,  ..., -0.1668,  0.0467,  0.0472],
+        [-0.1579, -0.0873, -0.1224,  ..., -0.2654, -0.0728, -0.0252],
+        [ 0.0074, -0.2073, -0.2776,  ..., -0.2042,  0.0305, -0.4481],
+        ...,
+        [-0.2359,  0.2014,  0.0348,  ...,  0.2670, -0.0729, -0.1766],
+        [-0.2306, -0.2213,  0.2567,  ..., -0.1967, -0.1666,  0.1738],
+        [ 0.0151, -0.4085,  0.2130,  ...,  0.0573, -0.2090, -0.2031]],
+       device='cuda:0'), grad: tensor([[ 3.4925e-10,  0.0000e+00,  3.4925e-10,  ...,  1.1642e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 2.3283e-10,  2.3283e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-10],
+        [ 1.1642e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.1642e-10],
+        ...,
+        [ 5.8208e-10,  1.1642e-10,  1.8626e-09,  ...,  8.1491e-10,
+          0.0000e+00,  1.1642e-10],
+        [ 3.9581e-09,  1.1642e-10,  1.5134e-09,  ...,  1.1642e-09,
+          0.0000e+00,  2.2119e-09],
+        [ 1.1409e-08,  0.0000e+00, -5.0059e-09,  ..., -3.0268e-09,
+          0.0000e+00,  8.6147e-09]], device='cuda:0')
+Epoch 448, bias, value: tensor([-0.0196, -0.0339, -0.0311, -0.0276, -0.0057,  0.0113,  0.0105, -0.0059,
+        -0.0171, -0.0185], device='cuda:0'), grad: tensor([ 1.3970e-09,  2.9104e-09,  4.6566e-10,  8.0559e-08,  5.8208e-09,
+        -1.1746e-07,  9.0804e-09,  4.6566e-09,  1.1292e-08,  1.5250e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 447, time 220.69, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.3927 re_mapping 0.0020 re_causal 0.0067 /// teacc 99.21 lr 0.00001000
+Epoch 449, weight, value: tensor([[-0.2621, -0.3226,  0.1273,  ..., -0.1668,  0.0467,  0.0472],
+        [-0.1580, -0.0874, -0.1224,  ..., -0.2655, -0.0728, -0.0252],
+        [ 0.0074, -0.2073, -0.2776,  ..., -0.2042,  0.0305, -0.4481],
+        ...,
+        [-0.2359,  0.2015,  0.0348,  ...,  0.2671, -0.0729, -0.1766],
+        [-0.2306, -0.2214,  0.2567,  ..., -0.1967, -0.1666,  0.1738],
+        [ 0.0151, -0.4085,  0.2131,  ...,  0.0573, -0.2090, -0.2031]],
+       device='cuda:0'), grad: tensor([[1.1642e-10, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         1.1642e-10],
+        [1.1642e-10, 1.1642e-10, 1.1642e-10,  ..., 0.0000e+00, 0.0000e+00,
+         1.1642e-10],
+        [1.1642e-10, 1.1642e-10, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        ...,
+        [2.3283e-10, 1.1642e-10, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         1.1642e-10],
+        [3.4925e-09, 1.1642e-10, 2.3283e-10,  ..., 0.0000e+00, 0.0000e+00,
+         1.9791e-09],
+        [4.0745e-09, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         2.3283e-09]], device='cuda:0')
+Epoch 449, bias, value: tensor([-0.0196, -0.0340, -0.0311, -0.0276, -0.0057,  0.0113,  0.0105, -0.0059,
+        -0.0171, -0.0185], device='cuda:0'), grad: tensor([ 6.0536e-09,  1.9791e-09,  1.1642e-09,  1.5832e-08, -2.7940e-09,
+        -2.9569e-08, -3.2596e-09,  1.3970e-09,  8.7311e-09,  9.4296e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 448, time 220.50, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4387 re_mapping 0.0020 re_causal 0.0072 /// teacc 99.20 lr 0.00001000
+Epoch 450, weight, value: tensor([[-0.2621, -0.3227,  0.1273,  ..., -0.1668,  0.0467,  0.0472],
+        [-0.1580, -0.0875, -0.1225,  ..., -0.2655, -0.0728, -0.0252],
+        [ 0.0073, -0.2074, -0.2777,  ..., -0.2043,  0.0305, -0.4482],
+        ...,
+        [-0.2360,  0.2016,  0.0348,  ...,  0.2672, -0.0729, -0.1766],
+        [-0.2307, -0.2214,  0.2567,  ..., -0.1967, -0.1666,  0.1738],
+        [ 0.0151, -0.4085,  0.2131,  ...,  0.0573, -0.2090, -0.2032]],
+       device='cuda:0'), grad: tensor([[0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 1.1642e-10, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 9.3132e-10, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        ...,
+        [0.0000e+00, 1.1642e-10, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 3.4925e-10, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 1.1642e-10, 0.0000e+00,
+         0.0000e+00]], device='cuda:0')
+Epoch 450, bias, value: tensor([-0.0196, -0.0340, -0.0311, -0.0276, -0.0057,  0.0113,  0.0105, -0.0059,
+        -0.0171, -0.0185], device='cuda:0'), grad: tensor([ 2.3283e-10,  1.2806e-09, -1.1642e-09, -7.4506e-09,  1.1642e-10,
+         2.4447e-09,  1.1642e-10,  1.8626e-09,  1.1642e-09,  8.1491e-10],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 449, time 220.58, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4178 re_mapping 0.0020 re_causal 0.0070 /// teacc 99.19 lr 0.00001000
+Epoch 451, weight, value: tensor([[-0.2621, -0.3227,  0.1274,  ..., -0.1668,  0.0467,  0.0472],
+        [-0.1580, -0.0875, -0.1225,  ..., -0.2656, -0.0728, -0.0252],
+        [ 0.0073, -0.2074, -0.2777,  ..., -0.2043,  0.0305, -0.4482],
+        ...,
+        [-0.2360,  0.2016,  0.0349,  ...,  0.2673, -0.0729, -0.1766],
+        [-0.2307, -0.2214,  0.2567,  ..., -0.1968, -0.1666,  0.1738],
+        [ 0.0152, -0.4086,  0.2132,  ...,  0.0573, -0.2090, -0.2032]],
+       device='cuda:0'), grad: tensor([[0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 1.1642e-10, 0.0000e+00,
+         0.0000e+00],
+        [1.7462e-09, 0.0000e+00, 0.0000e+00,  ..., 6.4028e-09, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        ...,
+        [1.1642e-10, 0.0000e+00, 0.0000e+00,  ..., 3.4925e-10, 0.0000e+00,
+         0.0000e+00],
+        [2.3283e-10, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         1.1642e-10],
+        [2.5611e-09, 0.0000e+00, 0.0000e+00,  ..., 9.4296e-09, 0.0000e+00,
+         0.0000e+00]], device='cuda:0')
+Epoch 451, bias, value: tensor([-0.0195, -0.0341, -0.0311, -0.0276, -0.0056,  0.0114,  0.0105, -0.0059,
+        -0.0171, -0.0184], device='cuda:0'), grad: tensor([ 9.1968e-09,  4.5053e-08, -1.1059e-08,  1.2806e-09, -1.1432e-07,
+         1.2806e-09,  4.0745e-09,  6.7521e-09,  4.6566e-10,  6.6822e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 450, time 220.50, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4171 re_mapping 0.0019 re_causal 0.0071 /// teacc 99.21 lr 0.00001000
+Epoch 452, weight, value: tensor([[-0.2621, -0.3227,  0.1274,  ..., -0.1669,  0.0467,  0.0473],
+        [-0.1580, -0.0875, -0.1225,  ..., -0.2657, -0.0728, -0.0252],
+        [ 0.0073, -0.2074, -0.2778,  ..., -0.2043,  0.0305, -0.4482],
+        ...,
+        [-0.2360,  0.2016,  0.0349,  ...,  0.2673, -0.0729, -0.1767],
+        [-0.2308, -0.2214,  0.2567,  ..., -0.1968, -0.1666,  0.1739],
+        [ 0.0152, -0.4086,  0.2133,  ...,  0.0574, -0.2090, -0.2033]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.1642e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.1642e-10, -5.2387e-09,  1.1642e-10,  ...,  3.4925e-10,
+          0.0000e+00, -1.9791e-09],
+        [ 0.0000e+00,  1.1642e-10,  3.4925e-10,  ...,  1.1642e-10,
+          0.0000e+00,  2.3283e-10],
+        ...,
+        [ 1.1642e-10,  1.1642e-09, -2.6776e-09,  ..., -3.8417e-09,
+          0.0000e+00,  1.3970e-09],
+        [ 1.0012e-08,  1.1642e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  7.4506e-09],
+        [ 9.3132e-10,  3.9581e-09,  3.1432e-09,  ...,  4.6566e-09,
+          0.0000e+00,  8.1491e-10]], device='cuda:0')
+Epoch 452, bias, value: tensor([-0.0195, -0.0340, -0.0310, -0.0276, -0.0056,  0.0113,  0.0105, -0.0060,
+        -0.0172, -0.0184], device='cuda:0'), grad: tensor([ 1.0477e-09, -2.8638e-08,  1.5134e-09,  5.9372e-09,  3.7253e-09,
+        -2.6193e-08,  4.7730e-09,  1.5716e-08,  1.6298e-08,  1.2922e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 451, time 220.47, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4111 re_mapping 0.0019 re_causal 0.0070 /// teacc 99.20 lr 0.00001000
+Epoch 453, weight, value: tensor([[-0.2621, -0.3227,  0.1275,  ..., -0.1669,  0.0467,  0.0473],
+        [-0.1581, -0.0876, -0.1226,  ..., -0.2658, -0.0728, -0.0252],
+        [ 0.0073, -0.2075, -0.2778,  ..., -0.2044,  0.0305, -0.4483],
+        ...,
+        [-0.2360,  0.2017,  0.0349,  ...,  0.2674, -0.0729, -0.1767],
+        [-0.2309, -0.2214,  0.2567,  ..., -0.1968, -0.1666,  0.1738],
+        [ 0.0152, -0.4087,  0.2134,  ...,  0.0574, -0.2090, -0.2033]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.2119e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.2596e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  1.1642e-10,
+          0.0000e+00,  3.4925e-10],
+        [ 0.0000e+00,  1.1642e-10,  1.1642e-10,  ...,  0.0000e+00,
+          0.0000e+00,  1.1642e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.8208e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 1.1642e-10,  0.0000e+00, -1.1642e-09,  ...,  1.1642e-10,
+          0.0000e+00, -2.6776e-09],
+        [ 1.1642e-10,  0.0000e+00,  5.8208e-10,  ...,  3.4925e-10,
+          0.0000e+00,  1.1642e-09]], device='cuda:0')
+Epoch 453, bias, value: tensor([-0.0195, -0.0341, -0.0310, -0.0276, -0.0056,  0.0114,  0.0105, -0.0060,
+        -0.0172, -0.0184], device='cuda:0'), grad: tensor([ 2.5728e-08,  3.7253e-09, -1.3737e-08,  5.9372e-09, -2.4447e-09,
+         1.6764e-08, -4.5518e-08,  4.1910e-09, -2.9104e-09,  1.4319e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 452, time 220.39, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4163 re_mapping 0.0019 re_causal 0.0070 /// teacc 99.18 lr 0.00001000
+Epoch 454, weight, value: tensor([[-0.2621, -0.3227,  0.1275,  ..., -0.1669,  0.0467,  0.0473],
+        [-0.1581, -0.0876, -0.1226,  ..., -0.2659, -0.0728, -0.0252],
+        [ 0.0073, -0.2075, -0.2779,  ..., -0.2044,  0.0305, -0.4483],
+        ...,
+        [-0.2360,  0.2018,  0.0349,  ...,  0.2675, -0.0729, -0.1767],
+        [-0.2309, -0.2214,  0.2567,  ..., -0.1968, -0.1666,  0.1738],
+        [ 0.0152, -0.4087,  0.2134,  ...,  0.0574, -0.2090, -0.2034]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-4.6566e-10,  0.0000e+00,  1.1642e-10,  ...,  0.0000e+00,
+          0.0000e+00, -1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.1642e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.1642e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.1642e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.1642e-10,  ...,  8.1491e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 454, bias, value: tensor([-0.0195, -0.0341, -0.0309, -0.0276, -0.0057,  0.0114,  0.0104, -0.0060,
+        -0.0173, -0.0184], device='cuda:0'), grad: tensor([ 1.5134e-09, -6.5193e-09,  1.1642e-09,  2.3283e-10, -1.0477e-09,
+         1.9791e-09,  7.3342e-09,  5.8208e-10,  6.9849e-10,  3.9581e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 453, time 220.47, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4152 re_mapping 0.0019 re_causal 0.0068 /// teacc 99.19 lr 0.00001000
+Epoch 455, weight, value: tensor([[-0.2621, -0.3227,  0.1276,  ..., -0.1669,  0.0467,  0.0473],
+        [-0.1581, -0.0877, -0.1226,  ..., -0.2660, -0.0728, -0.0252],
+        [ 0.0073, -0.2075, -0.2779,  ..., -0.2044,  0.0305, -0.4483],
+        ...,
+        [-0.2361,  0.2018,  0.0349,  ...,  0.2676, -0.0729, -0.1767],
+        [-0.2310, -0.2214,  0.2567,  ..., -0.1968, -0.1666,  0.1739],
+        [ 0.0153, -0.4088,  0.2135,  ...,  0.0575, -0.2090, -0.2034]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-10,  1.1642e-10, -1.8626e-09,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10,  2.4447e-09,  2.5611e-09,  ...,  3.3760e-09,
+          0.0000e+00,  1.8626e-09],
+        [ 1.1642e-10,  5.8208e-10,  4.1910e-09,  ...,  5.8208e-10,
+          0.0000e+00,  6.8685e-09],
+        ...,
+        [ 6.9849e-10, -5.1223e-09,  5.8208e-10,  ..., -1.9791e-09,
+          0.0000e+00,  3.4925e-10],
+        [ 6.4028e-09,  0.0000e+00, -5.8208e-09,  ...,  2.3283e-10,
+          0.0000e+00, -7.9162e-09],
+        [-2.0955e-09,  2.3283e-10, -8.7311e-09,  ..., -1.3737e-08,
+          0.0000e+00,  6.9849e-10]], device='cuda:0')
+Epoch 455, bias, value: tensor([-0.0194, -0.0341, -0.0310, -0.0276, -0.0057,  0.0114,  0.0104, -0.0060,
+        -0.0173, -0.0183], device='cuda:0'), grad: tensor([-4.3772e-08,  4.3889e-08,  3.9116e-08,  3.4692e-08,  1.6764e-08,
+        -4.1095e-08,  1.9209e-08, -5.0059e-09, -2.0722e-08, -3.3877e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 454, time 220.49, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4294 re_mapping 0.0019 re_causal 0.0072 /// teacc 99.19 lr 0.00001000
+Epoch 456, weight, value: tensor([[-0.2622, -0.3227,  0.1276,  ..., -0.1669,  0.0467,  0.0473],
+        [-0.1581, -0.0877, -0.1227,  ..., -0.2661, -0.0727, -0.0253],
+        [ 0.0073, -0.2075, -0.2780,  ..., -0.2044,  0.0305, -0.4484],
+        ...,
+        [-0.2361,  0.2018,  0.0350,  ...,  0.2676, -0.0729, -0.1767],
+        [-0.2311, -0.2215,  0.2568,  ..., -0.1969, -0.1666,  0.1738],
+        [ 0.0153, -0.4089,  0.2136,  ...,  0.0575, -0.2090, -0.2034]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.1642e-10,  2.3283e-10,  ...,  2.3283e-10,
+          0.0000e+00,  5.8208e-10],
+        [-5.8208e-10,  8.1491e-10,  3.4925e-10,  ...,  6.9849e-10,
+          0.0000e+00, -5.5879e-09],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.1642e-10],
+        ...,
+        [ 0.0000e+00,  1.1642e-10,  6.9849e-10,  ...,  8.1491e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 3.4925e-10,  0.0000e+00,  1.1642e-10,  ...,  1.1642e-10,
+          0.0000e+00,  3.2596e-09],
+        [ 1.1642e-10,  8.1491e-10, -1.1874e-08,  ..., -1.4435e-08,
+          0.0000e+00,  1.2806e-09]], device='cuda:0')
+Epoch 456, bias, value: tensor([-0.0194, -0.0341, -0.0309, -0.0276, -0.0057,  0.0114,  0.0104, -0.0061,
+        -0.0173, -0.0183], device='cuda:0'), grad: tensor([ 3.7253e-09, -1.9441e-08,  1.6298e-09, -1.1642e-10,  4.8778e-08,
+         5.2387e-09,  9.3132e-10,  6.9849e-09,  1.3504e-08, -4.7032e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 455, time 220.49, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4543 re_mapping 0.0019 re_causal 0.0073 /// teacc 99.19 lr 0.00001000
+Epoch 457, weight, value: tensor([[-0.2622, -0.3227,  0.1277,  ..., -0.1669,  0.0467,  0.0473],
+        [-0.1582, -0.0878, -0.1228,  ..., -0.2662, -0.0727, -0.0253],
+        [ 0.0073, -0.2075, -0.2780,  ..., -0.2044,  0.0305, -0.4485],
+        ...,
+        [-0.2361,  0.2019,  0.0350,  ...,  0.2678, -0.0729, -0.1767],
+        [-0.2311, -0.2215,  0.2568,  ..., -0.1969, -0.1666,  0.1738],
+        [ 0.0153, -0.4090,  0.2136,  ...,  0.0574, -0.2090, -0.2035]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.1642e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  6.9849e-10,  3.4925e-10,  ...,  3.1432e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.3283e-10,  2.0955e-09,  ...,  2.3283e-10,
+          0.0000e+00,  1.5134e-09],
+        ...,
+        [ 0.0000e+00,  1.1642e-10,  5.8208e-10,  ...,  1.6298e-09,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  8.1491e-10, -3.1432e-09,  ...,  0.0000e+00,
+          0.0000e+00, -2.2119e-09],
+        [ 0.0000e+00,  1.1642e-10,  1.1642e-10,  ...,  8.1491e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 457, bias, value: tensor([-0.0194, -0.0343, -0.0308, -0.0276, -0.0057,  0.0114,  0.0106, -0.0061,
+        -0.0174, -0.0184], device='cuda:0'), grad: tensor([ 3.4925e-10,  1.4086e-08,  6.1700e-09, -2.9104e-09, -3.7020e-08,
+         2.2119e-09,  1.5716e-08,  8.4983e-09, -4.3074e-09,  3.8417e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 456, time 220.33, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4151 re_mapping 0.0019 re_causal 0.0072 /// teacc 99.19 lr 0.00001000
+Epoch 458, weight, value: tensor([[-0.2622, -0.3227,  0.1277,  ..., -0.1669,  0.0467,  0.0474],
+        [-0.1582, -0.0879, -0.1228,  ..., -0.2662, -0.0727, -0.0253],
+        [ 0.0073, -0.2076, -0.2781,  ..., -0.2045,  0.0305, -0.4485],
+        ...,
+        [-0.2361,  0.2020,  0.0350,  ...,  0.2678, -0.0729, -0.1767],
+        [-0.2312, -0.2215,  0.2568,  ..., -0.1969, -0.1666,  0.1739],
+        [ 0.0153, -0.4090,  0.2137,  ...,  0.0574, -0.2090, -0.2035]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-10,  5.8208e-10,  1.1642e-10,  ...,  2.3283e-10,
+          0.0000e+00,  1.1642e-10],
+        [ 2.3283e-10,  3.2596e-09,  5.8208e-10,  ...,  1.0477e-09,
+          0.0000e+00,  0.0000e+00],
+        [-2.3283e-10,  2.4447e-09,  2.3283e-10,  ...,  4.6566e-10,
+          0.0000e+00, -1.1642e-10],
+        ...,
+        [ 1.1642e-10,  2.2375e-07,  0.0000e+00,  ...,  3.4808e-08,
+          0.0000e+00,  1.1642e-10],
+        [ 5.8208e-10,  1.1642e-10,  4.6566e-10,  ...,  6.9849e-10,
+          0.0000e+00,  1.1642e-10],
+        [-6.0536e-09,  6.6357e-09, -5.8208e-09,  ..., -5.5879e-09,
+          0.0000e+00, -1.6298e-09]], device='cuda:0')
+Epoch 458, bias, value: tensor([-0.0194, -0.0343, -0.0307, -0.0276, -0.0057,  0.0113,  0.0106, -0.0061,
+        -0.0174, -0.0183], device='cuda:0'), grad: tensor([ 3.4925e-09,  9.6625e-09, -5.2387e-09, -4.5076e-07,  1.4668e-08,
+         2.2119e-08,  1.3970e-09,  4.1630e-07,  4.5402e-09, -1.3039e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 457, time 220.56, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4032 re_mapping 0.0020 re_causal 0.0071 /// teacc 99.20 lr 0.00001000
+Epoch 459, weight, value: tensor([[-0.2622, -0.3227,  0.1278,  ..., -0.1670,  0.0467,  0.0474],
+        [-0.1582, -0.0879, -0.1228,  ..., -0.2664, -0.0727, -0.0253],
+        [ 0.0073, -0.2076, -0.2781,  ..., -0.2045,  0.0305, -0.4485],
+        ...,
+        [-0.2362,  0.2020,  0.0350,  ...,  0.2679, -0.0729, -0.1768],
+        [-0.2312, -0.2215,  0.2569,  ..., -0.1969, -0.1666,  0.1739],
+        [ 0.0154, -0.4091,  0.2138,  ...,  0.0575, -0.2090, -0.2035]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -3.4925e-10, -7.6834e-09,  ...,  1.1642e-10,
+          0.0000e+00, -9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  3.4925e-10],
+        [ 0.0000e+00,  1.1642e-10,  3.2596e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.6776e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  1.1642e-10],
+        [ 1.1642e-10,  0.0000e+00, -5.8208e-10,  ...,  1.1642e-10,
+          0.0000e+00, -3.9581e-09],
+        [ 0.0000e+00,  0.0000e+00, -5.8208e-10,  ..., -6.9849e-10,
+          0.0000e+00,  8.1491e-10]], device='cuda:0')
+Epoch 459, bias, value: tensor([-0.0193, -0.0343, -0.0306, -0.0276, -0.0057,  0.0113,  0.0106, -0.0062,
+        -0.0174, -0.0183], device='cuda:0'), grad: tensor([-1.9441e-08,  2.2119e-09,  1.2806e-08,  7.7998e-09,  2.5611e-09,
+        -5.8208e-10,  2.3283e-09,  3.1432e-09, -5.7044e-09, -2.3283e-10],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 458, time 220.77, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.3960 re_mapping 0.0019 re_causal 0.0068 /// teacc 99.19 lr 0.00001000
+Epoch 460, weight, value: tensor([[-0.2622, -0.3228,  0.1279,  ..., -0.1670,  0.0467,  0.0474],
+        [-0.1582, -0.0879, -0.1228,  ..., -0.2664, -0.0727, -0.0253],
+        [ 0.0073, -0.2076, -0.2781,  ..., -0.2045,  0.0305, -0.4486],
+        ...,
+        [-0.2362,  0.2020,  0.0350,  ...,  0.2679, -0.0729, -0.1768],
+        [-0.2312, -0.2215,  0.2569,  ..., -0.1969, -0.1666,  0.1739],
+        [ 0.0153, -0.4092,  0.2138,  ...,  0.0575, -0.2090, -0.2036]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.1642e-10,  0.0000e+00,  ...,  1.1642e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.0477e-09,  ...,  3.4925e-10,
+          0.0000e+00, -1.8626e-09],
+        [ 0.0000e+00,  1.1642e-10,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -3.2596e-09,  2.3283e-10,  ..., -6.5193e-09,
+          0.0000e+00,  6.9849e-10],
+        [ 1.1642e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.5134e-09,  2.3283e-10,  ...,  3.1432e-09,
+          0.0000e+00,  4.6566e-10]], device='cuda:0')
+Epoch 460, bias, value: tensor([-0.0193, -0.0344, -0.0305, -0.0276, -0.0057,  0.0114,  0.0106, -0.0062,
+        -0.0174, -0.0183], device='cuda:0'), grad: tensor([ 2.3283e-10, -6.8685e-09,  5.8208e-10,  3.4925e-10,  1.6298e-09,
+         5.0059e-09,  1.6298e-09, -7.5670e-09,  3.4925e-10,  7.2177e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 459, time 220.39, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4120 re_mapping 0.0019 re_causal 0.0068 /// teacc 99.21 lr 0.00001000
+Epoch 461, weight, value: tensor([[-0.2623, -0.3228,  0.1279,  ..., -0.1670,  0.0467,  0.0475],
+        [-0.1582, -0.0879, -0.1228,  ..., -0.2664, -0.0727, -0.0253],
+        [ 0.0073, -0.2076, -0.2782,  ..., -0.2045,  0.0305, -0.4486],
+        ...,
+        [-0.2362,  0.2019,  0.0350,  ...,  0.2679, -0.0729, -0.1768],
+        [-0.2313, -0.2215,  0.2569,  ..., -0.1969, -0.1666,  0.1739],
+        [ 0.0153, -0.4092,  0.2139,  ...,  0.0575, -0.2090, -0.2036]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  2.3283e-10,  9.3132e-10,  ...,  8.1491e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  8.1491e-10,  3.4925e-10,  ...,  8.1491e-10,
+          0.0000e+00,  0.0000e+00],
+        [-3.3760e-09, -1.1642e-09,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.1642e-10, -5.0059e-09, -1.6298e-09,  ..., -3.7253e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 1.1642e-10,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 2.7940e-09,  1.8626e-09, -1.0477e-09,  ...,  1.0827e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 461, bias, value: tensor([-0.0192, -0.0344, -0.0305, -0.0276, -0.0057,  0.0114,  0.0105, -0.0063,
+        -0.0174, -0.0183], device='cuda:0'), grad: tensor([ 6.6357e-09,  3.0268e-09, -2.6659e-08,  7.4506e-09, -6.2981e-08,
+         1.7462e-09,  2.5611e-09, -8.4983e-09,  1.1642e-09,  7.8930e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 460, time 220.64, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4124 re_mapping 0.0019 re_causal 0.0070 /// teacc 99.20 lr 0.00001000
+Epoch 462, weight, value: tensor([[-0.2623, -0.3228,  0.1279,  ..., -0.1670,  0.0467,  0.0475],
+        [-0.1582, -0.0880, -0.1229,  ..., -0.2665, -0.0727, -0.0253],
+        [ 0.0073, -0.2076, -0.2782,  ..., -0.2045,  0.0305, -0.4486],
+        ...,
+        [-0.2362,  0.2020,  0.0350,  ...,  0.2680, -0.0729, -0.1768],
+        [-0.2313, -0.2215,  0.2570,  ..., -0.1969, -0.1666,  0.1740],
+        [ 0.0153, -0.4093,  0.2140,  ...,  0.0575, -0.2090, -0.2037]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.3388e-08,  ...,  0.0000e+00,
+          0.0000e+00, -5.5879e-09],
+        [ 0.0000e+00,  2.3283e-10,  1.1642e-10,  ...,  3.4925e-10,
+          0.0000e+00,  1.1642e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [-1.5134e-09,  0.0000e+00, -4.5402e-09,  ...,  0.0000e+00,
+          0.0000e+00, -4.7730e-09],
+        [ 1.1642e-10,  1.1642e-10,  2.3283e-10,  ...,  1.1642e-10,
+          0.0000e+00,  2.3283e-10]], device='cuda:0')
+Epoch 462, bias, value: tensor([-0.0192, -0.0344, -0.0302, -0.0277, -0.0057,  0.0114,  0.0105, -0.0063,
+        -0.0175, -0.0183], device='cuda:0'), grad: tensor([-6.0769e-08,  2.7940e-09,  2.3283e-10,  6.9849e-10, -3.0268e-09,
+         2.4447e-09,  7.6485e-08,  3.0268e-09, -2.2352e-08,  2.2119e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 461, time 220.19, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4267 re_mapping 0.0019 re_causal 0.0070 /// teacc 99.20 lr 0.00001000
+Epoch 463, weight, value: tensor([[-0.2623, -0.3228,  0.1280,  ..., -0.1670,  0.0467,  0.0475],
+        [-0.1582, -0.0881, -0.1229,  ..., -0.2667, -0.0727, -0.0253],
+        [ 0.0073, -0.2076, -0.2783,  ..., -0.2045,  0.0305, -0.4487],
+        ...,
+        [-0.2362,  0.2020,  0.0350,  ...,  0.2681, -0.0729, -0.1768],
+        [-0.2314, -0.2216,  0.2571,  ..., -0.1970, -0.1666,  0.1740],
+        [ 0.0153, -0.4093,  0.2140,  ...,  0.0575, -0.2090, -0.2037]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  8.1491e-10,  2.3283e-10,  ...,  9.3132e-10,
+          3.0268e-09,  0.0000e+00],
+        [ 0.0000e+00,  2.2701e-09,  5.2387e-10,  ...,  2.9104e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 5.8208e-11,  8.0909e-09,  2.9104e-10,  ...,  1.1059e-09,
+          1.7462e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -5.1223e-09, -1.3388e-09,  ..., -5.4133e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 8.1491e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          5.8208e-11,  6.9849e-10],
+        [ 5.8208e-11,  2.1537e-09,  6.4028e-10,  ...,  3.2596e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 463, bias, value: tensor([-0.0192, -0.0345, -0.0302, -0.0277, -0.0057,  0.0114,  0.0105, -0.0064,
+        -0.0175, -0.0183], device='cuda:0'), grad: tensor([ 1.1787e-07,  1.3446e-08,  3.3644e-08, -3.9523e-08, -6.1700e-09,
+         3.0443e-08, -1.4773e-07, -1.3446e-08,  2.7358e-09,  1.2049e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 462, time 220.34, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4351 re_mapping 0.0019 re_causal 0.0072 /// teacc 99.20 lr 0.00001000
+Epoch 464, weight, value: tensor([[-0.2623, -0.3228,  0.1281,  ..., -0.1670,  0.0467,  0.0476],
+        [-0.1583, -0.0881, -0.1229,  ..., -0.2667, -0.0727, -0.0253],
+        [ 0.0074, -0.2077, -0.2783,  ..., -0.2045,  0.0305, -0.4487],
+        ...,
+        [-0.2363,  0.2021,  0.0350,  ...,  0.2681, -0.0729, -0.1768],
+        [-0.2314, -0.2216,  0.2571,  ..., -0.1970, -0.1666,  0.1741],
+        [ 0.0153, -0.4094,  0.2141,  ...,  0.0575, -0.2090, -0.2038]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  3.4925e-10,  0.0000e+00,  ...,  1.1642e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  3.4925e-10,  0.0000e+00,  ...,  1.1642e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -2.0373e-09,  0.0000e+00,  ..., -1.5134e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.9104e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.7462e-10,  0.0000e+00,  ...,  5.8208e-11,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 464, bias, value: tensor([-0.0191, -0.0345, -0.0300, -0.0277, -0.0057,  0.0114,  0.0104, -0.0064,
+        -0.0175, -0.0183], device='cuda:0'), grad: tensor([ 1.7462e-10,  8.7311e-10,  8.7311e-10, -3.3120e-08,  2.6193e-09,
+         3.5157e-08,  4.6566e-10, -3.2014e-09,  6.9849e-10,  4.6566e-10],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 463, time 220.41, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4037 re_mapping 0.0019 re_causal 0.0067 /// teacc 99.22 lr 0.00001000
+Epoch 465, weight, value: tensor([[-0.2623, -0.3228,  0.1281,  ..., -0.1670,  0.0467,  0.0476],
+        [-0.1583, -0.0882, -0.1230,  ..., -0.2669, -0.0727, -0.0253],
+        [ 0.0074, -0.2077, -0.2783,  ..., -0.2045,  0.0305, -0.4488],
+        ...,
+        [-0.2363,  0.2022,  0.0351,  ...,  0.2682, -0.0729, -0.1768],
+        [-0.2314, -0.2216,  0.2571,  ..., -0.1970, -0.1666,  0.1741],
+        [ 0.0153, -0.4094,  0.2141,  ...,  0.0575, -0.2090, -0.2039]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.8208e-11,
+          0.0000e+00,  0.0000e+00],
+        [ 5.8208e-11,  1.2224e-09,  2.9104e-10,  ...,  1.1642e-09,
+          0.0000e+00,  5.8208e-11],
+        [ 0.0000e+00, -1.4552e-09,  0.0000e+00,  ..., -1.4435e-08,
+          0.0000e+00, -4.7148e-09],
+        ...,
+        [ 5.8208e-11, -4.0745e-10, -4.0745e-10,  ...,  1.2456e-08,
+          0.0000e+00,  4.6566e-09],
+        [ 5.8208e-10,  0.0000e+00,  0.0000e+00,  ...,  5.8208e-11,
+          0.0000e+00,  4.0745e-10],
+        [ 1.5134e-09,  0.0000e+00,  1.1642e-10,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 465, bias, value: tensor([-0.0191, -0.0346, -0.0299, -0.0277, -0.0057,  0.0114,  0.0104, -0.0064,
+        -0.0175, -0.0184], device='cuda:0'), grad: tensor([ 5.2387e-10,  3.9581e-09, -6.1293e-08,  4.0163e-09,  1.0477e-09,
+        -4.0745e-09, -2.0955e-09,  5.0291e-08,  4.1910e-09,  3.4925e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 464, time 220.67, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4162 re_mapping 0.0019 re_causal 0.0069 /// teacc 99.21 lr 0.00001000
+Epoch 466, weight, value: tensor([[-0.2623, -0.3228,  0.1281,  ..., -0.1671,  0.0467,  0.0476],
+        [-0.1583, -0.0883, -0.1231,  ..., -0.2670, -0.0727, -0.0253],
+        [ 0.0074, -0.2077, -0.2784,  ..., -0.2046,  0.0305, -0.4488],
+        ...,
+        [-0.2363,  0.2023,  0.0351,  ...,  0.2683, -0.0729, -0.1768],
+        [-0.2315, -0.2216,  0.2572,  ..., -0.1970, -0.1666,  0.1741],
+        [ 0.0153, -0.4095,  0.2143,  ...,  0.0576, -0.2090, -0.2039]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  0.0000e+00, -9.7207e-09,  ...,  5.8208e-11,
+          0.0000e+00, -2.9104e-09],
+        [ 2.3283e-10,  1.7462e-10,  7.5670e-09,  ...,  2.3283e-10,
+          0.0000e+00,  1.9791e-09],
+        [ 2.2119e-09,  5.8208e-11,  2.6193e-09,  ...,  5.8208e-10,
+          0.0000e+00,  1.1642e-10],
+        ...,
+        [ 4.6566e-10, -1.1642e-09,  2.3283e-10,  ..., -1.3970e-09,
+          0.0000e+00,  5.8208e-11],
+        [ 9.3132e-10,  0.0000e+00,  3.4925e-10,  ...,  1.1642e-10,
+          0.0000e+00,  6.4028e-10],
+        [-9.0222e-09,  5.2387e-10, -8.3237e-09,  ..., -2.0955e-09,
+          0.0000e+00,  3.4925e-10]], device='cuda:0')
+Epoch 466, bias, value: tensor([-0.0191, -0.0347, -0.0298, -0.0277, -0.0057,  0.0114,  0.0103, -0.0064,
+        -0.0176, -0.0183], device='cuda:0'), grad: tensor([-2.4971e-08,  2.0082e-08,  1.0128e-08,  1.8685e-08,  8.9058e-09,
+         1.1642e-10,  5.4715e-09, -8.1491e-10,  3.7835e-09, -3.2713e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 465, time 220.47, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4149 re_mapping 0.0019 re_causal 0.0069 /// teacc 99.20 lr 0.00001000
+Epoch 467, weight, value: tensor([[-0.2623, -0.3228,  0.1282,  ..., -0.1671,  0.0467,  0.0477],
+        [-0.1584, -0.0884, -0.1231,  ..., -0.2671, -0.0727, -0.0253],
+        [ 0.0074, -0.2077, -0.2784,  ..., -0.2045,  0.0305, -0.4488],
+        ...,
+        [-0.2363,  0.2023,  0.0350,  ...,  0.2683, -0.0729, -0.1769],
+        [-0.2316, -0.2216,  0.2573,  ..., -0.1970, -0.1666,  0.1742],
+        [ 0.0152, -0.4095,  0.2144,  ...,  0.0576, -0.2090, -0.2040]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.2224e-09,  ...,  5.8208e-11,
+          0.0000e+00,  5.8208e-11],
+        [-5.8208e-11,  1.1642e-10,  1.1642e-10,  ...,  3.4925e-10,
+          0.0000e+00, -6.4028e-10],
+        [ 0.0000e+00,  0.0000e+00,  3.0850e-09,  ..., -2.4447e-09,
+          0.0000e+00,  5.3551e-09],
+        ...,
+        [ 0.0000e+00,  2.9104e-10,  3.4925e-10,  ...,  1.9209e-09,
+          0.0000e+00,  5.2387e-10],
+        [ 0.0000e+00,  0.0000e+00, -4.3074e-09,  ...,  0.0000e+00,
+          0.0000e+00, -7.5088e-09],
+        [ 2.3283e-10,  5.8208e-11,  1.1642e-10,  ...,  5.2387e-10,
+          0.0000e+00,  5.8208e-11]], device='cuda:0')
+Epoch 467, bias, value: tensor([-0.0190, -0.0347, -0.0296, -0.0277, -0.0057,  0.0114,  0.0101, -0.0065,
+        -0.0175, -0.0183], device='cuda:0'), grad: tensor([-2.9104e-09, -2.3283e-10, -1.3039e-08,  6.0536e-09, -2.0373e-09,
+         2.8522e-09,  6.5193e-09,  2.4796e-08, -2.0082e-08,  3.4925e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 466, time 220.11, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4157 re_mapping 0.0019 re_causal 0.0069 /// teacc 99.20 lr 0.00001000
+Epoch 468, weight, value: tensor([[-0.2623, -0.3228,  0.1282,  ..., -0.1671,  0.0467,  0.0477],
+        [-0.1584, -0.0884, -0.1232,  ..., -0.2671, -0.0727, -0.0253],
+        [ 0.0074, -0.2077, -0.2785,  ..., -0.2045,  0.0304, -0.4489],
+        ...,
+        [-0.2363,  0.2023,  0.0351,  ...,  0.2684, -0.0729, -0.1769],
+        [-0.2316, -0.2216,  0.2574,  ..., -0.1970, -0.1666,  0.1743],
+        [ 0.0152, -0.4095,  0.2144,  ...,  0.0576, -0.2090, -0.2041]],
+       device='cuda:0'), grad: tensor([[ 5.8208e-11,  0.0000e+00,  2.3283e-10,  ...,  1.1642e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 0.0000e+00,  1.7462e-10,  1.1642e-10,  ...,  5.8208e-11,
+          0.0000e+00,  1.1642e-10],
+        [ 5.8208e-11, -1.7462e-10,  5.8208e-11,  ...,  0.0000e+00,
+          0.0000e+00,  1.1642e-10],
+        ...,
+        [ 5.8208e-11,  2.3283e-10,  7.5670e-10,  ...,  4.6566e-10,
+          0.0000e+00,  1.1642e-10],
+        [-1.6880e-09,  1.1642e-10, -3.1432e-09,  ...,  5.8208e-11,
+          0.0000e+00, -4.5984e-09],
+        [ 1.2224e-09,  0.0000e+00,  7.5670e-10,  ..., -9.8953e-10,
+          0.0000e+00,  2.9104e-09]], device='cuda:0')
+Epoch 468, bias, value: tensor([-0.0190, -0.0348, -0.0295, -0.0277, -0.0057,  0.0114,  0.0101, -0.0066,
+        -0.0174, -0.0183], device='cuda:0'), grad: tensor([ 1.3970e-09,  4.9477e-09, -3.2596e-09,  2.7358e-09,  2.4447e-09,
+         3.7719e-08, -3.1025e-08,  5.5879e-09, -9.6625e-09,  3.0268e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 467, time 220.04, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4119 re_mapping 0.0019 re_causal 0.0068 /// teacc 99.21 lr 0.00001000
+Epoch 469, weight, value: tensor([[-0.2623, -0.3228,  0.1283,  ..., -0.1672,  0.0467,  0.0478],
+        [-0.1584, -0.0885, -0.1232,  ..., -0.2672, -0.0727, -0.0253],
+        [ 0.0075, -0.2077, -0.2785,  ..., -0.2046,  0.0304, -0.4489],
+        ...,
+        [-0.2364,  0.2024,  0.0351,  ...,  0.2685, -0.0729, -0.1769],
+        [-0.2316, -0.2216,  0.2575,  ..., -0.1970, -0.1666,  0.1743],
+        [ 0.0152, -0.4096,  0.2145,  ...,  0.0576, -0.2090, -0.2042]],
+       device='cuda:0'), grad: tensor([[ 5.8208e-11,  0.0000e+00,  0.0000e+00,  ...,  5.8208e-11,
+          0.0000e+00,  5.8208e-11],
+        [ 5.8208e-11, -3.7835e-09, -6.5193e-09,  ...,  0.0000e+00,
+          0.0000e+00, -1.1642e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  5.8208e-11],
+        ...,
+        [ 5.8208e-11,  3.5507e-09,  6.1700e-09,  ...,  9.3132e-10,
+          0.0000e+00,  1.1001e-08],
+        [ 2.9104e-10,  5.8208e-11,  1.1642e-10,  ...,  0.0000e+00,
+          0.0000e+00,  1.6880e-09],
+        [ 5.8208e-11,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  5.8208e-11]], device='cuda:0')
+Epoch 469, bias, value: tensor([-0.0190, -0.0348, -0.0294, -0.0277, -0.0057,  0.0115,  0.0101, -0.0066,
+        -0.0174, -0.0184], device='cuda:0'), grad: tensor([ 1.1642e-09, -6.0827e-08,  1.3388e-09,  4.3656e-09, -9.0222e-09,
+         2.8522e-09, -1.0710e-08,  6.1700e-08,  1.7288e-08,  4.6566e-10],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 468, time 220.57, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4249 re_mapping 0.0019 re_causal 0.0069 /// teacc 99.21 lr 0.00001000
+Epoch 470, weight, value: tensor([[-0.2623, -0.3228,  0.1283,  ..., -0.1672,  0.0467,  0.0478],
+        [-0.1584, -0.0885, -0.1232,  ..., -0.2673, -0.0727, -0.0253],
+        [ 0.0074, -0.2077, -0.2786,  ..., -0.2046,  0.0304, -0.4490],
+        ...,
+        [-0.2364,  0.2024,  0.0351,  ...,  0.2686, -0.0729, -0.1769],
+        [-0.2316, -0.2216,  0.2575,  ..., -0.1970, -0.1666,  0.1744],
+        [ 0.0151, -0.4097,  0.2146,  ...,  0.0577, -0.2090, -0.2043]],
+       device='cuda:0'), grad: tensor([[ 5.8208e-11,  0.0000e+00,  0.0000e+00,  ...,  5.8208e-11,
+          0.0000e+00,  1.1642e-10],
+        [ 1.2806e-09,  7.7998e-09,  3.4925e-09,  ...,  1.1292e-08,
+          1.1642e-10,  1.7462e-10],
+        [ 5.8208e-11,  2.3283e-10,  1.1642e-10,  ...,  2.3283e-10,
+          0.0000e+00,  1.7462e-10],
+        ...,
+        [ 1.7462e-10, -8.2655e-09, -3.5507e-09,  ..., -6.9267e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 6.4028e-10,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          1.1642e-10,  8.7311e-10],
+        [ 1.5716e-09,  1.1642e-10,  5.8208e-11,  ...,  5.4133e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 470, bias, value: tensor([-0.0189, -0.0349, -0.0294, -0.0277, -0.0057,  0.0114,  0.0102, -0.0067,
+        -0.0174, -0.0184], device='cuda:0'), grad: tensor([ 1.5134e-09,  4.3074e-08,  2.2701e-09,  1.9791e-09, -6.1525e-08,
+         1.1793e-07, -1.1799e-07, -1.7812e-08,  9.6625e-09,  2.7474e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 469, time 220.27, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4142 re_mapping 0.0019 re_causal 0.0067 /// teacc 99.19 lr 0.00001000
+Epoch 471, weight, value: tensor([[-0.2624, -0.3229,  0.1283,  ..., -0.1672,  0.0467,  0.0479],
+        [-0.1585, -0.0886, -0.1233,  ..., -0.2674, -0.0727, -0.0253],
+        [ 0.0075, -0.2078, -0.2786,  ..., -0.2046,  0.0304, -0.4490],
+        ...,
+        [-0.2364,  0.2024,  0.0351,  ...,  0.2686, -0.0729, -0.1770],
+        [-0.2317, -0.2216,  0.2576,  ..., -0.1970, -0.1666,  0.1745],
+        [ 0.0152, -0.4097,  0.2147,  ...,  0.0577, -0.2090, -0.2043]],
+       device='cuda:0'), grad: tensor([[ 5.8208e-11,  0.0000e+00, -4.4238e-09,  ...,  5.8208e-10,
+          0.0000e+00, -1.8626e-09],
+        [ 1.1642e-10,  3.9581e-09,  1.1059e-09,  ...,  3.4925e-09,
+          0.0000e+00,  5.8208e-11],
+        [ 5.8208e-11,  0.0000e+00,  2.9104e-10,  ...,  5.8208e-11,
+          0.0000e+00,  1.1642e-10],
+        ...,
+        [ 5.8208e-11, -4.4820e-09, -1.1059e-09,  ..., -4.0163e-09,
+          0.0000e+00,  5.8208e-11],
+        [ 4.0745e-10,  0.0000e+00,  4.8894e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.4447e-09],
+        [ 2.3283e-10,  5.8208e-11,  8.1491e-10,  ...,  1.7462e-10,
+          0.0000e+00,  5.2387e-10]], device='cuda:0')
+Epoch 471, bias, value: tensor([-0.0189, -0.0350, -0.0292, -0.0277, -0.0057,  0.0114,  0.0102, -0.0067,
+        -0.0174, -0.0183], device='cuda:0'), grad: tensor([-5.3551e-09,  1.0827e-08,  1.6880e-09,  7.9162e-09, -2.9686e-09,
+        -6.4028e-09,  3.4343e-09, -9.4878e-09,  1.3446e-08,  3.2014e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 470, time 220.83, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4075 re_mapping 0.0018 re_causal 0.0066 /// teacc 99.20 lr 0.00001000
+Epoch 472, weight, value: tensor([[-0.2624, -0.3229,  0.1284,  ..., -0.1672,  0.0467,  0.0479],
+        [-0.1586, -0.0887, -0.1234,  ..., -0.2675, -0.0727, -0.0254],
+        [ 0.0075, -0.2078, -0.2787,  ..., -0.2046,  0.0304, -0.4491],
+        ...,
+        [-0.2365,  0.2025,  0.0351,  ...,  0.2687, -0.0729, -0.1770],
+        [-0.2318, -0.2216,  0.2577,  ..., -0.1971, -0.1666,  0.1745],
+        [ 0.0152, -0.4097,  0.2149,  ...,  0.0579, -0.2090, -0.2044]],
+       device='cuda:0'), grad: tensor([[ 5.8208e-11,  5.2387e-10, -5.0641e-09,  ...,  6.9849e-10,
+          0.0000e+00, -4.1327e-09],
+        [ 1.7462e-10,  2.0373e-09,  4.4238e-09,  ...,  1.4552e-09,
+          0.0000e+00,  4.0745e-09],
+        [ 5.8208e-11,  2.6193e-09,  1.3970e-09,  ...,  1.3970e-09,
+          0.0000e+00,  6.9849e-10],
+        ...,
+        [ 1.1642e-10, -5.6461e-09, -5.1805e-09,  ..., -6.0536e-09,
+          0.0000e+00,  1.7462e-10],
+        [ 4.3074e-09,  1.7462e-10, -4.8196e-08,  ...,  0.0000e+00,
+          0.0000e+00, -5.9488e-08],
+        [ 2.9104e-10,  1.4552e-09,  4.0978e-08,  ...,  7.5670e-10,
+          0.0000e+00,  5.3435e-08]], device='cuda:0')
+Epoch 472, bias, value: tensor([-0.0188, -0.0352, -0.0292, -0.0277, -0.0058,  0.0115,  0.0099, -0.0067,
+        -0.0174, -0.0182], device='cuda:0'), grad: tensor([-2.4738e-08,  1.2573e-08,  9.5461e-09,  1.7462e-09,  1.5716e-09,
+         1.2224e-08,  2.8347e-08, -1.5600e-08, -1.3434e-07,  1.2270e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 471, time 220.43, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4303 re_mapping 0.0018 re_causal 0.0069 /// teacc 99.22 lr 0.00001000
+Epoch 473, weight, value: tensor([[-0.2624, -0.3229,  0.1284,  ..., -0.1673,  0.0467,  0.0480],
+        [-0.1586, -0.0888, -0.1235,  ..., -0.2677, -0.0727, -0.0254],
+        [ 0.0075, -0.2079, -0.2787,  ..., -0.2047,  0.0304, -0.4492],
+        ...,
+        [-0.2365,  0.2027,  0.0351,  ...,  0.2687, -0.0729, -0.1770],
+        [-0.2319, -0.2217,  0.2578,  ..., -0.1971, -0.1666,  0.1746],
+        [ 0.0153, -0.4098,  0.2151,  ...,  0.0580, -0.2090, -0.2045]],
+       device='cuda:0'), grad: tensor([[0.0000e+00, 0.0000e+00, 5.8208e-11,  ..., 0.0000e+00, 0.0000e+00,
+         5.8208e-11],
+        [0.0000e+00, 1.7462e-10, 5.8208e-11,  ..., 2.9104e-10, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 1.7462e-10, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        ...,
+        [1.7462e-10, 5.8208e-11, 8.7311e-10,  ..., 6.4028e-10, 0.0000e+00,
+         5.8208e-11],
+        [5.8208e-11, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         1.1642e-10],
+        [1.1642e-10, 1.1642e-10, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         1.1642e-10]], device='cuda:0')
+Epoch 473, bias, value: tensor([-0.0189, -0.0353, -0.0292, -0.0277, -0.0058,  0.0115,  0.0099, -0.0067,
+        -0.0174, -0.0181], device='cuda:0'), grad: tensor([ 3.7253e-09,  4.3248e-08,  1.3970e-09,  2.3865e-09, -5.3493e-08,
+         5.4133e-09, -5.5297e-09,  4.7730e-09,  4.2492e-09,  4.8894e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 472, time 220.39, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4139 re_mapping 0.0019 re_causal 0.0068 /// teacc 99.20 lr 0.00001000
+Epoch 474, weight, value: tensor([[-0.2624, -0.3229,  0.1285,  ..., -0.1673,  0.0467,  0.0480],
+        [-0.1586, -0.0889, -0.1235,  ..., -0.2678, -0.0727, -0.0254],
+        [ 0.0075, -0.2079, -0.2788,  ..., -0.2047,  0.0304, -0.4493],
+        ...,
+        [-0.2365,  0.2027,  0.0350,  ...,  0.2688, -0.0729, -0.1770],
+        [-0.2320, -0.2217,  0.2579,  ..., -0.1971, -0.1666,  0.1746],
+        [ 0.0152, -0.4099,  0.2153,  ...,  0.0580, -0.2090, -0.2046]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  5.8208e-11],
+        [ 1.7462e-10,  8.1491e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.1642e-10],
+        [ 1.7462e-10,  5.8208e-11,  5.8208e-11,  ...,  0.0000e+00,
+          0.0000e+00,  5.8208e-11],
+        ...,
+        [ 0.0000e+00, -2.7940e-09,  5.8208e-11,  ..., -1.2515e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10,  0.0000e+00,  5.8208e-11,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-10],
+        [ 5.8208e-11,  5.8208e-11,  1.1642e-10,  ...,  0.0000e+00,
+          0.0000e+00,  5.8208e-11]], device='cuda:0')
+Epoch 474, bias, value: tensor([-0.0188, -0.0354, -0.0292, -0.0277, -0.0058,  0.0115,  0.0098, -0.0068,
+        -0.0175, -0.0180], device='cuda:0'), grad: tensor([ 1.5716e-09,  4.1327e-09,  1.7462e-09, -3.4925e-09,  3.2713e-08,
+         1.1059e-08, -1.0768e-08, -2.9162e-08,  3.2014e-09,  6.4028e-10],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 473, time 220.19, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4239 re_mapping 0.0019 re_causal 0.0068 /// teacc 99.21 lr 0.00001000
+Epoch 475, weight, value: tensor([[-0.2624, -0.3229,  0.1285,  ..., -0.1673,  0.0467,  0.0480],
+        [-0.1587, -0.0890, -0.1236,  ..., -0.2679, -0.0727, -0.0255],
+        [ 0.0074, -0.2080, -0.2788,  ..., -0.2047,  0.0304, -0.4493],
+        ...,
+        [-0.2365,  0.2029,  0.0351,  ...,  0.2689, -0.0729, -0.1770],
+        [-0.2321, -0.2217,  0.2580,  ..., -0.1971, -0.1666,  0.1746],
+        [ 0.0153, -0.4099,  0.2154,  ...,  0.0580, -0.2090, -0.2047]],
+       device='cuda:0'), grad: tensor([[ 5.8208e-11,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  5.8208e-11],
+        [ 5.8208e-11,  9.8953e-10,  2.9104e-10,  ...,  1.0477e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -1.3388e-09,  5.8208e-11,  ...,  5.8208e-11,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.1642e-10,  0.0000e+00,  0.0000e+00,  ...,  5.8208e-11,
+          0.0000e+00,  5.8208e-11],
+        [ 1.1642e-10,  1.2806e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 5.8208e-11,  1.7462e-10,  5.8208e-11,  ...,  1.7462e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 475, bias, value: tensor([-0.0188, -0.0355, -0.0293, -0.0277, -0.0058,  0.0116,  0.0097, -0.0068,
+        -0.0175, -0.0179], device='cuda:0'), grad: tensor([ 2.3283e-09,  3.2596e-09, -1.4494e-08,  1.3388e-09,  2.1537e-09,
+         6.5193e-09, -5.0059e-09,  7.5670e-10,  1.4319e-08,  9.8953e-10],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 474, time 220.24, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4219 re_mapping 0.0019 re_causal 0.0069 /// teacc 99.20 lr 0.00001000
+Epoch 476, weight, value: tensor([[-0.2624, -0.3229,  0.1286,  ..., -0.1673,  0.0467,  0.0481],
+        [-0.1587, -0.0892, -0.1237,  ..., -0.2680, -0.0727, -0.0254],
+        [ 0.0074, -0.2080, -0.2789,  ..., -0.2048,  0.0304, -0.4494],
+        ...,
+        [-0.2366,  0.2031,  0.0352,  ...,  0.2691, -0.0729, -0.1770],
+        [-0.2322, -0.2217,  0.2580,  ..., -0.1971, -0.1666,  0.1746],
+        [ 0.0153, -0.4100,  0.2155,  ...,  0.0581, -0.2090, -0.2047]],
+       device='cuda:0'), grad: tensor([[ 5.8208e-11,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 3.4925e-10,  2.3283e-10,  1.7462e-10,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 5.8208e-11,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.1642e-10,  0.0000e+00,  2.3283e-10,  ...,  1.1642e-10,
+          0.0000e+00,  1.7462e-10],
+        [ 1.7462e-10,  0.0000e+00,  5.8208e-11,  ...,  0.0000e+00,
+          0.0000e+00,  5.8208e-11],
+        [-6.9849e-10,  1.1642e-10, -9.8953e-10,  ..., -4.6566e-10,
+          0.0000e+00,  5.8208e-11]], device='cuda:0')
+Epoch 476, bias, value: tensor([-0.0188, -0.0356, -0.0293, -0.0277, -0.0058,  0.0116,  0.0096, -0.0066,
+        -0.0175, -0.0179], device='cuda:0'), grad: tensor([ 6.4028e-10,  1.0070e-08, -1.0477e-08,  1.2806e-09, -2.9686e-09,
+        -9.8953e-10,  3.9581e-09,  4.2492e-09,  3.4925e-10, -2.7358e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 475, time 220.49, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4242 re_mapping 0.0018 re_causal 0.0067 /// teacc 99.19 lr 0.00001000
+Epoch 477, weight, value: tensor([[-0.2625, -0.3229,  0.1286,  ..., -0.1673,  0.0467,  0.0481],
+        [-0.1588, -0.0893, -0.1238,  ..., -0.2681, -0.0727, -0.0254],
+        [ 0.0074, -0.2081, -0.2789,  ..., -0.2048,  0.0304, -0.4495],
+        ...,
+        [-0.2366,  0.2031,  0.0352,  ...,  0.2692, -0.0729, -0.1771],
+        [-0.2322, -0.2218,  0.2581,  ..., -0.1971, -0.1666,  0.1747],
+        [ 0.0153, -0.4101,  0.2156,  ...,  0.0581, -0.2090, -0.2047]],
+       device='cuda:0'), grad: tensor([[0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        ...,
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [1.2806e-09, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         8.1491e-10],
+        [1.1642e-10, 0.0000e+00, 0.0000e+00,  ..., 1.1642e-10, 0.0000e+00,
+         0.0000e+00]], device='cuda:0')
+Epoch 477, bias, value: tensor([-0.0187, -0.0357, -0.0294, -0.0277, -0.0059,  0.0116,  0.0095, -0.0066,
+        -0.0175, -0.0179], device='cuda:0'), grad: tensor([ 2.3283e-10,  6.9849e-10,  1.1642e-10,  8.1491e-10,  1.1642e-10,
+        -2.3283e-09,  2.0955e-09,  8.1491e-10,  1.9791e-09,  8.1491e-10],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 476, time 220.66, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4191 re_mapping 0.0018 re_causal 0.0069 /// teacc 99.20 lr 0.00001000
+Epoch 478, weight, value: tensor([[-0.2625, -0.3230,  0.1287,  ..., -0.1673,  0.0467,  0.0481],
+        [-0.1588, -0.0894, -0.1238,  ..., -0.2682, -0.0727, -0.0254],
+        [ 0.0074, -0.2081, -0.2790,  ..., -0.2049,  0.0304, -0.4495],
+        ...,
+        [-0.2366,  0.2032,  0.0352,  ...,  0.2693, -0.0729, -0.1771],
+        [-0.2322, -0.2218,  0.2581,  ..., -0.1971, -0.1666,  0.1747],
+        [ 0.0152, -0.4102,  0.2156,  ...,  0.0580, -0.2090, -0.2049]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.3970e-09,  5.8208e-10,  ...,  1.1642e-10,
+          1.1642e-10,  0.0000e+00],
+        [ 0.0000e+00,  1.0477e-09,  3.4925e-10,  ...,  9.3132e-10,
+          1.0477e-09,  0.0000e+00],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  1.1642e-10,
+          9.1968e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -1.3970e-09, -5.8208e-10,  ..., -1.3970e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 1.1642e-10,  6.9849e-10,  3.4925e-10,  ...,  0.0000e+00,
+          6.9849e-10,  1.1642e-10],
+        [ 1.1642e-10,  8.1491e-10,  3.4925e-10,  ...,  8.1491e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 478, bias, value: tensor([-0.0188, -0.0358, -0.0293, -0.0277, -0.0059,  0.0116,  0.0096, -0.0066,
+        -0.0175, -0.0180], device='cuda:0'), grad: tensor([ 4.5402e-09,  8.4983e-09,  5.0291e-08, -1.7462e-09,  1.0710e-08,
+         9.1968e-09, -7.1712e-08, -3.2596e-09,  5.9372e-09,  2.3283e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 477, time 220.67, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4027 re_mapping 0.0019 re_causal 0.0067 /// teacc 99.18 lr 0.00001000
+Epoch 479, weight, value: tensor([[-0.2625, -0.3230,  0.1287,  ..., -0.1674,  0.0467,  0.0481],
+        [-0.1588, -0.0894, -0.1239,  ..., -0.2684, -0.0727, -0.0254],
+        [ 0.0074, -0.2082, -0.2790,  ..., -0.2049,  0.0303, -0.4496],
+        ...,
+        [-0.2366,  0.2034,  0.0353,  ...,  0.2695, -0.0729, -0.1771],
+        [-0.2323, -0.2218,  0.2582,  ..., -0.1972, -0.1666,  0.1747],
+        [ 0.0153, -0.4103,  0.2157,  ...,  0.0581, -0.2090, -0.2049]],
+       device='cuda:0'), grad: tensor([[-2.4447e-09,  0.0000e+00, -1.0245e-08,  ...,  0.0000e+00,
+          0.0000e+00, -2.1188e-08],
+        [ 5.8208e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  5.8208e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.1642e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.1642e-10],
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  1.1642e-10,
+          0.0000e+00,  2.4447e-09],
+        [ 1.9791e-09,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  1.5134e-09]], device='cuda:0')
+Epoch 479, bias, value: tensor([-0.0188, -0.0358, -0.0294, -0.0277, -0.0059,  0.0117,  0.0094, -0.0066,
+        -0.0176, -0.0179], device='cuda:0'), grad: tensor([-7.0548e-08,  1.9791e-09,  2.3283e-10,  1.0827e-07, -3.1432e-09,
+        -1.1781e-07,  6.6124e-08,  9.3132e-10,  6.4028e-09,  7.9162e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 478, time 220.68, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4252 re_mapping 0.0019 re_causal 0.0070 /// teacc 99.17 lr 0.00001000
+Epoch 480, weight, value: tensor([[-0.2625, -0.3230,  0.1288,  ..., -0.1674,  0.0467,  0.0481],
+        [-0.1589, -0.0895, -0.1239,  ..., -0.2684, -0.0727, -0.0254],
+        [ 0.0074, -0.2082, -0.2791,  ..., -0.2049,  0.0303, -0.4496],
+        ...,
+        [-0.2366,  0.2034,  0.0353,  ...,  0.2695, -0.0729, -0.1771],
+        [-0.2324, -0.2218,  0.2582,  ..., -0.1972, -0.1666,  0.1747],
+        [ 0.0154, -0.4103,  0.2158,  ...,  0.0581, -0.2090, -0.2049]],
+       device='cuda:0'), grad: tensor([[0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         2.3283e-10],
+        [0.0000e+00, 1.1642e-10, 0.0000e+00,  ..., 1.1642e-10, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 1.1642e-10, 0.0000e+00,
+         0.0000e+00],
+        ...,
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [1.1642e-10, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 1.1642e-10, 0.0000e+00,  ..., 1.1642e-10, 0.0000e+00,
+         0.0000e+00]], device='cuda:0')
+Epoch 480, bias, value: tensor([-0.0187, -0.0358, -0.0293, -0.0277, -0.0060,  0.0117,  0.0093, -0.0066,
+        -0.0176, -0.0179], device='cuda:0'), grad: tensor([ 2.4447e-09,  1.8626e-09,  1.1642e-09,  6.9849e-10, -3.4925e-09,
+         1.3970e-09,  3.2596e-09,  6.9849e-10,  4.6566e-10,  8.1491e-10],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 479, time 220.64, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4246 re_mapping 0.0019 re_causal 0.0068 /// teacc 99.18 lr 0.00001000
+Epoch 481, weight, value: tensor([[-0.2625, -0.3230,  0.1288,  ..., -0.1674,  0.0467,  0.0482],
+        [-0.1589, -0.0895, -0.1240,  ..., -0.2685, -0.0727, -0.0255],
+        [ 0.0075, -0.2083, -0.2791,  ..., -0.2050,  0.0303, -0.4497],
+        ...,
+        [-0.2367,  0.2034,  0.0353,  ...,  0.2696, -0.0729, -0.1771],
+        [-0.2324, -0.2218,  0.2583,  ..., -0.1972, -0.1666,  0.1748],
+        [ 0.0153, -0.4103,  0.2159,  ...,  0.0581, -0.2090, -0.2050]],
+       device='cuda:0'), grad: tensor([[ 3.4925e-10,  1.1642e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  3.4925e-10],
+        [ 2.3283e-10, -2.5611e-09, -3.4925e-10,  ...,  2.3283e-10,
+          0.0000e+00, -1.2806e-09],
+        [ 1.1642e-10,  0.0000e+00,  1.1642e-10,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-10],
+        ...,
+        [ 5.8208e-10,  6.9849e-10,  2.3283e-10,  ..., -1.2806e-09,
+          0.0000e+00,  1.3970e-09],
+        [ 1.9791e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.6298e-09],
+        [ 9.3132e-10,  5.8208e-10, -9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  1.5134e-09]], device='cuda:0')
+Epoch 481, bias, value: tensor([-0.0187, -0.0358, -0.0292, -0.0278, -0.0060,  0.0117,  0.0093, -0.0067,
+        -0.0176, -0.0179], device='cuda:0'), grad: tensor([ 2.0955e-09, -1.3155e-08,  2.3283e-09,  8.1491e-09,  6.9849e-10,
+        -1.0675e-07,  8.7428e-08,  1.2456e-08,  6.8685e-09,  3.9581e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 480, time 220.62, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4308 re_mapping 0.0018 re_causal 0.0069 /// teacc 99.20 lr 0.00001000
+Epoch 482, weight, value: tensor([[-0.2626, -0.3230,  0.1288,  ..., -0.1674,  0.0467,  0.0482],
+        [-0.1589, -0.0895, -0.1240,  ..., -0.2686, -0.0727, -0.0254],
+        [ 0.0074, -0.2083, -0.2791,  ..., -0.2050,  0.0303, -0.4498],
+        ...,
+        [-0.2367,  0.2034,  0.0353,  ...,  0.2696, -0.0729, -0.1772],
+        [-0.2325, -0.2218,  0.2583,  ..., -0.1972, -0.1666,  0.1748],
+        [ 0.0153, -0.4103,  0.2160,  ...,  0.0581, -0.2090, -0.2050]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.1642e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.1642e-10, -1.1642e-10,  ...,  2.3283e-10,
+          0.0000e+00, -5.8208e-10],
+        [ 0.0000e+00,  3.4925e-10,  2.3283e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  8.1491e-10,  4.6566e-10,  ...,  2.3283e-10,
+          0.0000e+00,  5.8208e-10],
+        [ 0.0000e+00,  3.4925e-10,  1.1642e-10,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [-6.9849e-10,  3.4925e-10, -2.2119e-09,  ..., -3.6089e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 482, bias, value: tensor([-0.0188, -0.0358, -0.0291, -0.0278, -0.0061,  0.0118,  0.0093, -0.0069,
+        -0.0177, -0.0179], device='cuda:0'), grad: tensor([ 5.8208e-10, -5.1223e-09,  1.7462e-09, -2.9104e-09,  9.8953e-09,
+         3.7253e-09,  1.7462e-09,  8.0327e-09,  1.7462e-09, -1.0594e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 481, time 220.69, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4029 re_mapping 0.0019 re_causal 0.0066 /// teacc 99.16 lr 0.00001000
+Epoch 483, weight, value: tensor([[-0.2626, -0.3230,  0.1289,  ..., -0.1674,  0.0467,  0.0482],
+        [-0.1590, -0.0897, -0.1240,  ..., -0.2687, -0.0727, -0.0255],
+        [ 0.0074, -0.2083, -0.2792,  ..., -0.2050,  0.0303, -0.4498],
+        ...,
+        [-0.2367,  0.2035,  0.0353,  ...,  0.2697, -0.0729, -0.1772],
+        [-0.2326, -0.2219,  0.2584,  ..., -0.1972, -0.1666,  0.1748],
+        [ 0.0153, -0.4104,  0.2161,  ...,  0.0582, -0.2090, -0.2051]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.0827e-08,  ...,  0.0000e+00,
+         -2.3283e-10, -1.4203e-08],
+        [ 1.1642e-10,  3.4925e-10,  6.9849e-10,  ...,  1.1642e-10,
+          0.0000e+00,  3.4925e-10],
+        [-2.3283e-09, -4.6566e-10,  2.6776e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.9104e-09],
+        ...,
+        [ 0.0000e+00,  2.3283e-10,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  8.1491e-10,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 9.3132e-10,  4.6566e-10,  5.8208e-10,  ...,  0.0000e+00,
+          0.0000e+00,  5.8208e-10]], device='cuda:0')
+Epoch 483, bias, value: tensor([-0.0188, -0.0359, -0.0290, -0.0278, -0.0061,  0.0119,  0.0092, -0.0069,
+        -0.0179, -0.0179], device='cuda:0'), grad: tensor([-5.5530e-08,  4.3074e-09, -9.8953e-09,  3.1432e-09,  1.5134e-09,
+         2.0838e-08,  2.4564e-08,  3.2596e-09,  3.8417e-09,  1.2340e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 482, time 220.32, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4415 re_mapping 0.0019 re_causal 0.0069 /// teacc 99.17 lr 0.00001000
+Epoch 484, weight, value: tensor([[-0.2626, -0.3230,  0.1289,  ..., -0.1674,  0.0467,  0.0482],
+        [-0.1590, -0.0898, -0.1241,  ..., -0.2688, -0.0727, -0.0255],
+        [ 0.0074, -0.2084, -0.2792,  ..., -0.2050,  0.0303, -0.4499],
+        ...,
+        [-0.2367,  0.2036,  0.0353,  ...,  0.2698, -0.0729, -0.1772],
+        [-0.2327, -0.2219,  0.2584,  ..., -0.1972, -0.1666,  0.1748],
+        [ 0.0154, -0.4104,  0.2163,  ...,  0.0582, -0.2090, -0.2051]],
+       device='cuda:0'), grad: tensor([[2.3283e-10, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         1.1642e-10],
+        [2.3283e-10, 2.3283e-10, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         1.1642e-10],
+        [1.1642e-10, 2.3283e-10, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        ...,
+        [2.3283e-10, 1.1642e-10, 1.1642e-10,  ..., 2.3283e-10, 0.0000e+00,
+         1.1642e-10],
+        [1.5134e-09, 3.4925e-10, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         9.3132e-10],
+        [6.0536e-09, 4.6566e-10, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         3.8417e-09]], device='cuda:0')
+Epoch 484, bias, value: tensor([-0.0188, -0.0361, -0.0289, -0.0278, -0.0063,  0.0119,  0.0092, -0.0069,
+        -0.0178, -0.0177], device='cuda:0'), grad: tensor([ 6.9849e-10,  1.2806e-09,  1.0477e-09, -3.1083e-08,  2.0955e-09,
+         8.0327e-09,  6.4028e-09,  1.7462e-09,  3.4925e-09,  1.3039e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 483, time 220.57, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4020 re_mapping 0.0019 re_causal 0.0066 /// teacc 99.19 lr 0.00001000
+Epoch 485, weight, value: tensor([[-0.2626, -0.3230,  0.1290,  ..., -0.1674,  0.0467,  0.0482],
+        [-0.1591, -0.0899, -0.1243,  ..., -0.2690, -0.0727, -0.0255],
+        [ 0.0074, -0.2085, -0.2793,  ..., -0.2051,  0.0303, -0.4499],
+        ...,
+        [-0.2368,  0.2037,  0.0354,  ...,  0.2700, -0.0729, -0.1772],
+        [-0.2328, -0.2219,  0.2584,  ..., -0.1972, -0.1666,  0.1748],
+        [ 0.0154, -0.4105,  0.2164,  ...,  0.0583, -0.2090, -0.2052]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -9.8953e-09,  ..., -2.0955e-09,
+          0.0000e+00, -8.1491e-09],
+        [ 0.0000e+00,  6.9849e-10,  2.3283e-09,  ...,  1.5134e-09,
+          0.0000e+00,  8.1491e-10],
+        [ 0.0000e+00, -8.1491e-10,  5.8208e-10,  ...,  1.1642e-10,
+          0.0000e+00,  8.1491e-10],
+        ...,
+        [ 0.0000e+00,  6.9849e-10,  1.6531e-08,  ...,  1.3621e-08,
+          0.0000e+00,  1.2806e-09],
+        [ 2.3283e-10,  2.6776e-09,  2.3283e-10,  ...,  4.6566e-10,
+          0.0000e+00, -1.5134e-09],
+        [ 2.3283e-10,  9.3132e-10, -3.0152e-08,  ..., -2.8522e-08,
+          0.0000e+00,  2.5611e-09]], device='cuda:0')
+Epoch 485, bias, value: tensor([-0.0188, -0.0363, -0.0289, -0.0278, -0.0063,  0.0120,  0.0090, -0.0068,
+        -0.0180, -0.0176], device='cuda:0'), grad: tensor([-3.5157e-08,  1.0477e-08, -2.0606e-08, -7.4506e-09,  4.6799e-08,
+         5.5181e-08, -2.1770e-08,  6.4028e-08,  2.2934e-08, -1.0629e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 484, time 220.50, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4091 re_mapping 0.0018 re_causal 0.0068 /// teacc 99.18 lr 0.00001000
+Epoch 486, weight, value: tensor([[-0.2626, -0.3230,  0.1291,  ..., -0.1675,  0.0467,  0.0483],
+        [-0.1591, -0.0900, -0.1243,  ..., -0.2691, -0.0727, -0.0256],
+        [ 0.0074, -0.2085, -0.2793,  ..., -0.2051,  0.0303, -0.4500],
+        ...,
+        [-0.2368,  0.2038,  0.0354,  ...,  0.2701, -0.0729, -0.1772],
+        [-0.2329, -0.2219,  0.2585,  ..., -0.1972, -0.1666,  0.1748],
+        [ 0.0154, -0.4106,  0.2166,  ...,  0.0583, -0.2090, -0.2052]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.1642e-10,  2.3283e-10,  ...,  2.3283e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.1642e-10],
+        [ 0.0000e+00, -1.2806e-09, -1.5134e-09,  ..., -1.1642e-09,
+          0.0000e+00, -1.1642e-09],
+        ...,
+        [ 0.0000e+00,  2.3283e-10,  5.8208e-10,  ...,  4.6566e-10,
+          0.0000e+00,  3.4925e-10],
+        [ 2.3283e-10,  3.4925e-10,  6.9849e-10,  ...,  5.8208e-10,
+          0.0000e+00,  6.9849e-10],
+        [ 0.0000e+00,  1.1642e-10,  1.1642e-10,  ...,  1.1642e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 486, bias, value: tensor([-0.0187, -0.0364, -0.0289, -0.0278, -0.0063,  0.0119,  0.0091, -0.0069,
+        -0.0181, -0.0176], device='cuda:0'), grad: tensor([ 2.0955e-09,  2.1886e-08, -3.5157e-08,  2.4447e-09,  1.8626e-09,
+         2.7940e-09, -2.7940e-09,  5.0059e-09,  6.4028e-09,  5.8208e-10],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 485, time 220.61, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4117 re_mapping 0.0019 re_causal 0.0067 /// teacc 99.18 lr 0.00001000
+Epoch 487, weight, value: tensor([[-0.2627, -0.3230,  0.1291,  ..., -0.1675,  0.0467,  0.0484],
+        [-0.1591, -0.0900, -0.1244,  ..., -0.2691, -0.0727, -0.0256],
+        [ 0.0074, -0.2085, -0.2793,  ..., -0.2051,  0.0303, -0.4500],
+        ...,
+        [-0.2368,  0.2038,  0.0354,  ...,  0.2702, -0.0729, -0.1773],
+        [-0.2329, -0.2220,  0.2585,  ..., -0.1972, -0.1666,  0.1748],
+        [ 0.0155, -0.4106,  0.2167,  ...,  0.0584, -0.2090, -0.2053]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.1642e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.1642e-10,  ...,  1.1642e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.0477e-09,  ...,  1.5134e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 1.1642e-10,  0.0000e+00,  1.1642e-10,  ...,  1.1642e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 1.1642e-10,  0.0000e+00, -2.4098e-08,  ..., -3.3993e-08,
+          0.0000e+00,  1.1642e-10]], device='cuda:0')
+Epoch 487, bias, value: tensor([-0.0186, -0.0365, -0.0288, -0.0278, -0.0065,  0.0119,  0.0090, -0.0070,
+        -0.0181, -0.0175], device='cuda:0'), grad: tensor([ 4.6566e-10,  1.9791e-09,  1.8626e-09,  1.9791e-09,  8.8592e-08,
+         1.1642e-09,  9.1968e-09,  6.5193e-09,  9.3132e-10, -9.9652e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 486, time 220.27, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4382 re_mapping 0.0019 re_causal 0.0068 /// teacc 99.20 lr 0.00001000
+Epoch 488, weight, value: tensor([[-0.2627, -0.3230,  0.1292,  ..., -0.1675,  0.0467,  0.0484],
+        [-0.1592, -0.0901, -0.1245,  ..., -0.2692, -0.0727, -0.0255],
+        [ 0.0074, -0.2086, -0.2794,  ..., -0.2052,  0.0303, -0.4500],
+        ...,
+        [-0.2368,  0.2039,  0.0354,  ...,  0.2702, -0.0729, -0.1773],
+        [-0.2329, -0.2220,  0.2585,  ..., -0.1972, -0.1666,  0.1748],
+        [ 0.0155, -0.4107,  0.2169,  ...,  0.0585, -0.2090, -0.2053]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-10,  0.0000e+00],
+        [ 0.0000e+00,  1.2806e-09,  4.6566e-10,  ...,  9.3132e-10,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00, -3.4925e-10, -6.9849e-10,  ...,  0.0000e+00,
+          1.7462e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -2.4447e-09, -8.1491e-10,  ..., -1.0477e-09,
+          0.0000e+00, -3.4925e-10],
+        [ 0.0000e+00,  1.6298e-09,  0.0000e+00,  ...,  2.3283e-10,
+          1.1642e-09, -1.2806e-09],
+        [ 0.0000e+00,  3.4925e-10, -3.9581e-09,  ..., -3.7253e-09,
+          0.0000e+00,  1.1642e-10]], device='cuda:0')
+Epoch 488, bias, value: tensor([-0.0185, -0.0365, -0.0287, -0.0278, -0.0067,  0.0119,  0.0091, -0.0071,
+        -0.0182, -0.0174], device='cuda:0'), grad: tensor([ 2.4447e-09,  1.4086e-08,  2.4913e-08,  6.7055e-08,  2.0140e-08,
+         5.1572e-08, -1.6892e-07, -1.9791e-09,  6.9849e-09, -9.5461e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 487, time 220.21, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4160 re_mapping 0.0018 re_causal 0.0066 /// teacc 99.18 lr 0.00001000
+Epoch 489, weight, value: tensor([[-0.2627, -0.3231,  0.1293,  ..., -0.1675,  0.0467,  0.0485],
+        [-0.1592, -0.0901, -0.1245,  ..., -0.2694, -0.0727, -0.0256],
+        [ 0.0075, -0.2086, -0.2794,  ..., -0.2052,  0.0303, -0.4501],
+        ...,
+        [-0.2369,  0.2040,  0.0353,  ...,  0.2704, -0.0729, -0.1773],
+        [-0.2330, -0.2220,  0.2586,  ..., -0.1973, -0.1666,  0.1749],
+        [ 0.0155, -0.4108,  0.2171,  ...,  0.0586, -0.2090, -0.2054]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-10],
+        [ 0.0000e+00,  3.4925e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00, -6.9849e-10],
+        [ 0.0000e+00,  2.3283e-10,  1.1642e-10,  ...,  3.4925e-10,
+          0.0000e+00,  2.3283e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.1642e-10,
+          0.0000e+00,  1.1642e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.1642e-10,  ...,  1.8626e-09,
+          0.0000e+00,  1.1642e-10]], device='cuda:0')
+Epoch 489, bias, value: tensor([-0.0185, -0.0366, -0.0286, -0.0279, -0.0068,  0.0120,  0.0090, -0.0071,
+        -0.0182, -0.0173], device='cuda:0'), grad: tensor([ 3.3760e-09, -4.6566e-09,  9.1968e-09,  3.4925e-10, -8.3819e-09,
+         5.1223e-09, -9.3132e-09,  2.6776e-09,  1.8626e-09,  9.4296e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 488, time 220.51, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4301 re_mapping 0.0018 re_causal 0.0067 /// teacc 99.18 lr 0.00001000
+Epoch 490, weight, value: tensor([[-0.2627, -0.3231,  0.1294,  ..., -0.1675,  0.0467,  0.0486],
+        [-0.1592, -0.0902, -0.1246,  ..., -0.2695, -0.0727, -0.0255],
+        [ 0.0074, -0.2087, -0.2795,  ..., -0.2053,  0.0303, -0.4502],
+        ...,
+        [-0.2369,  0.2041,  0.0353,  ...,  0.2705, -0.0729, -0.1773],
+        [-0.2331, -0.2220,  0.2586,  ..., -0.1973, -0.1666,  0.1748],
+        [ 0.0155, -0.4109,  0.2173,  ...,  0.0587, -0.2090, -0.2055]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  5.8208e-10,  1.1642e-10,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 1.1642e-10, -8.4983e-09,  2.6776e-09,  ...,  5.8208e-09,
+          0.0000e+00, -2.3283e-09],
+        [-3.4925e-10,  2.4447e-09,  5.8208e-10,  ...,  1.2806e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.0477e-09, -3.6089e-09,  ..., -8.1491e-09,
+          0.0000e+00,  1.9791e-09],
+        [ 2.3283e-10,  2.3283e-10,  4.6566e-10,  ...,  3.4925e-10,
+          0.0000e+00,  0.0000e+00],
+        [-5.8208e-10,  1.2806e-09, -9.3132e-10,  ..., -4.6566e-10,
+          0.0000e+00,  1.1642e-10]], device='cuda:0')
+Epoch 490, bias, value: tensor([-0.0183, -0.0366, -0.0286, -0.0279, -0.0069,  0.0120,  0.0089, -0.0071,
+        -0.0184, -0.0172], device='cuda:0'), grad: tensor([ 2.9104e-09, -7.7649e-08,  3.4925e-09,  6.0536e-09,  5.4715e-09,
+         4.5402e-09,  2.7940e-09,  4.9127e-08,  3.6089e-09,  2.6776e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 489, time 220.47, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4347 re_mapping 0.0019 re_causal 0.0068 /// teacc 99.19 lr 0.00001000
+Epoch 491, weight, value: tensor([[-0.2627, -0.3231,  0.1296,  ..., -0.1675,  0.0467,  0.0487],
+        [-0.1592, -0.0902, -0.1247,  ..., -0.2696, -0.0727, -0.0256],
+        [ 0.0075, -0.2087, -0.2795,  ..., -0.2053,  0.0303, -0.4503],
+        ...,
+        [-0.2369,  0.2041,  0.0354,  ...,  0.2706, -0.0729, -0.1774],
+        [-0.2332, -0.2220,  0.2586,  ..., -0.1973, -0.1666,  0.1748],
+        [ 0.0154, -0.4109,  0.2174,  ...,  0.0588, -0.2090, -0.2056]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.1642e-10,  1.1642e-10],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  4.6566e-10,
+         -9.0804e-09, -7.9162e-09],
+        [ 0.0000e+00,  1.9791e-09,  0.0000e+00,  ...,  0.0000e+00,
+          4.8894e-09,  7.7998e-09],
+        ...,
+        [ 1.1642e-10,  1.1642e-10,  1.1642e-10,  ...,  1.1642e-10,
+          3.7253e-09,  1.1642e-10],
+        [ 1.0477e-09,  1.5134e-09,  6.9849e-10,  ...,  0.0000e+00,
+          1.1642e-10,  9.3132e-10],
+        [ 0.0000e+00,  4.6566e-10,  1.1642e-10,  ...,  2.3283e-10,
+          0.0000e+00,  1.1642e-10]], device='cuda:0')
+Epoch 491, bias, value: tensor([-0.0181, -0.0367, -0.0283, -0.0280, -0.0071,  0.0121,  0.0090, -0.0072,
+        -0.0186, -0.0172], device='cuda:0'), grad: tensor([ 2.9104e-09, -2.4168e-07,  1.6158e-07,  4.5402e-09,  2.7940e-09,
+        -5.1921e-08,  3.3178e-08,  8.2888e-08,  9.4296e-09,  4.0745e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 490, time 220.82, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4055 re_mapping 0.0018 re_causal 0.0067 /// teacc 99.18 lr 0.00001000
+Epoch 492, weight, value: tensor([[-0.2627, -0.3231,  0.1297,  ..., -0.1675,  0.0467,  0.0487],
+        [-0.1593, -0.0903, -0.1247,  ..., -0.2696, -0.0727, -0.0255],
+        [ 0.0075, -0.2087, -0.2796,  ..., -0.2053,  0.0302, -0.4504],
+        ...,
+        [-0.2369,  0.2042,  0.0354,  ...,  0.2707, -0.0729, -0.1774],
+        [-0.2333, -0.2221,  0.2587,  ..., -0.1973, -0.1666,  0.1748],
+        [ 0.0154, -0.4110,  0.2176,  ...,  0.0589, -0.2090, -0.2056]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.2806e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-10],
+        [ 2.3283e-10,  0.0000e+00,  1.1642e-10,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ..., -3.4925e-10,
+          0.0000e+00,  2.3283e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 6.9849e-10,  0.0000e+00,  1.0012e-08,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 1.8626e-09,  1.1642e-10, -1.2573e-08,  ...,  3.0268e-09,
+          0.0000e+00, -1.3970e-09]], device='cuda:0')
+Epoch 492, bias, value: tensor([-0.0180, -0.0367, -0.0283, -0.0280, -0.0073,  0.0121,  0.0089, -0.0073,
+        -0.0188, -0.0171], device='cuda:0'), grad: tensor([ 3.3760e-09,  2.5611e-09, -2.6776e-09,  2.5611e-09, -2.0838e-08,
+         2.7940e-09,  5.9372e-09,  3.9581e-09,  2.3632e-08, -1.2224e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 491, time 220.64, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4043 re_mapping 0.0018 re_causal 0.0067 /// teacc 99.18 lr 0.00001000
+Epoch 493, weight, value: tensor([[-0.2627, -0.3231,  0.1298,  ..., -0.1675,  0.0467,  0.0488],
+        [-0.1593, -0.0903, -0.1248,  ..., -0.2697, -0.0727, -0.0255],
+        [ 0.0075, -0.2088, -0.2797,  ..., -0.2053,  0.0302, -0.4505],
+        ...,
+        [-0.2370,  0.2042,  0.0354,  ...,  0.2707, -0.0729, -0.1775],
+        [-0.2334, -0.2221,  0.2587,  ..., -0.1973, -0.1666,  0.1748],
+        [ 0.0154, -0.4110,  0.2177,  ...,  0.0590, -0.2090, -0.2057]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  1.7462e-09,  ...,  1.3970e-09,
+          0.0000e+00,  1.1642e-10],
+        [ 0.0000e+00,  1.1642e-10,  3.4925e-10,  ...,  1.1642e-10,
+          0.0000e+00, -1.8626e-09],
+        [ 0.0000e+00,  2.3283e-10,  6.9849e-10,  ...,  2.3283e-10,
+          1.1642e-10,  1.3970e-09],
+        ...,
+        [ 0.0000e+00,  1.1642e-10,  1.6298e-09,  ...,  1.0477e-09,
+          0.0000e+00,  5.8208e-10],
+        [ 0.0000e+00, -3.4925e-10, -2.6776e-09,  ..., -9.3132e-10,
+          0.0000e+00, -1.5134e-09],
+        [-8.1491e-10,  0.0000e+00, -4.0745e-09,  ..., -3.3760e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 493, bias, value: tensor([-0.0178, -0.0365, -0.0284, -0.0280, -0.0074,  0.0122,  0.0088, -0.0075,
+        -0.0189, -0.0170], device='cuda:0'), grad: tensor([ 6.0536e-09, -2.8173e-08,  1.9441e-08,  1.1642e-09,  2.6776e-09,
+         2.5611e-09,  5.2387e-09,  7.3342e-09, -3.3760e-09, -1.0827e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 492, time 220.60, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4123 re_mapping 0.0018 re_causal 0.0067 /// teacc 99.20 lr 0.00001000
+Epoch 494, weight, value: tensor([[-0.2628, -0.3231,  0.1299,  ..., -0.1675,  0.0467,  0.0489],
+        [-0.1594, -0.0904, -0.1249,  ..., -0.2698, -0.0727, -0.0255],
+        [ 0.0075, -0.2089, -0.2797,  ..., -0.2054,  0.0302, -0.4505],
+        ...,
+        [-0.2370,  0.2043,  0.0354,  ...,  0.2708, -0.0729, -0.1775],
+        [-0.2335, -0.2221,  0.2587,  ..., -0.1974, -0.1666,  0.1748],
+        [ 0.0155, -0.4111,  0.2179,  ...,  0.0592, -0.2090, -0.2058]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  5.8208e-10, -6.9849e-10,  ...,  1.1642e-10,
+         -1.1642e-10, -8.1491e-10],
+        [ 0.0000e+00, -2.0256e-08,  4.6566e-10,  ...,  1.0477e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  2.3283e-10,  ...,  1.1642e-10,
+          0.0000e+00,  1.1642e-10],
+        ...,
+        [ 0.0000e+00,  1.7462e-08, -1.7462e-09,  ..., -3.2596e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 1.1642e-10,  3.4925e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-10],
+        [ 1.1642e-10,  3.3760e-09,  1.6298e-09,  ...,  2.4447e-09,
+          0.0000e+00,  1.1642e-10]], device='cuda:0')
+Epoch 494, bias, value: tensor([-0.0177, -0.0366, -0.0284, -0.0280, -0.0075,  0.0122,  0.0089, -0.0075,
+        -0.0190, -0.0168], device='cuda:0'), grad: tensor([-2.2119e-09, -1.3667e-07,  4.3074e-09,  8.6147e-09,  8.1491e-10,
+        -5.4715e-09,  3.3760e-09,  1.2596e-07,  1.3970e-09,  9.1968e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 493, time 220.59, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4101 re_mapping 0.0018 re_causal 0.0067 /// teacc 99.19 lr 0.00001000
+Epoch 495, weight, value: tensor([[-0.2628, -0.3231,  0.1299,  ..., -0.1676,  0.0467,  0.0489],
+        [-0.1594, -0.0904, -0.1249,  ..., -0.2698, -0.0727, -0.0255],
+        [ 0.0075, -0.2089, -0.2797,  ..., -0.2054,  0.0302, -0.4505],
+        ...,
+        [-0.2370,  0.2043,  0.0354,  ...,  0.2709, -0.0729, -0.1775],
+        [-0.2335, -0.2221,  0.2588,  ..., -0.1974, -0.1666,  0.1749],
+        [ 0.0155, -0.4111,  0.2180,  ...,  0.0592, -0.2090, -0.2058]],
+       device='cuda:0'), grad: tensor([[0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 1.1642e-10, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        ...,
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00]], device='cuda:0')
+Epoch 495, bias, value: tensor([-0.0176, -0.0367, -0.0283, -0.0280, -0.0076,  0.0122,  0.0089, -0.0076,
+        -0.0191, -0.0168], device='cuda:0'), grad: tensor([ 1.1642e-09,  2.9104e-09, -3.7253e-09,  4.6566e-10,  3.4925e-10,
+         5.8208e-10,  2.3283e-10,  9.3132e-10,  1.1642e-10,  2.3283e-10],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 494, time 221.21, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4283 re_mapping 0.0019 re_causal 0.0069 /// teacc 99.20 lr 0.00001000
+Epoch 496, weight, value: tensor([[-0.2628, -0.3231,  0.1301,  ..., -0.1676,  0.0467,  0.0490],
+        [-0.1594, -0.0905, -0.1250,  ..., -0.2699, -0.0727, -0.0256],
+        [ 0.0075, -0.2090, -0.2798,  ..., -0.2055,  0.0302, -0.4505],
+        ...,
+        [-0.2370,  0.2043,  0.0354,  ...,  0.2709, -0.0729, -0.1776],
+        [-0.2336, -0.2221,  0.2588,  ..., -0.1974, -0.1666,  0.1749],
+        [ 0.0155, -0.4112,  0.2181,  ...,  0.0593, -0.2090, -0.2059]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.3970e-09, -3.2596e-09,  ..., -5.8208e-10,
+          0.0000e+00, -4.3074e-09],
+        [ 0.0000e+00,  1.3970e-09,  3.4925e-10,  ...,  6.9849e-10,
+          0.0000e+00,  1.1642e-10],
+        [ 0.0000e+00,  3.7253e-09,  9.3132e-10,  ...,  1.3970e-09,
+          0.0000e+00,  6.9849e-10],
+        ...,
+        [ 4.6566e-10, -5.8208e-10,  2.3283e-09,  ..., -1.1642e-09,
+          0.0000e+00,  5.8208e-10],
+        [ 0.0000e+00,  2.3283e-10, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00, -1.9791e-09],
+        [-5.8208e-10,  3.4925e-10, -2.4447e-09,  ..., -1.9791e-09,
+          0.0000e+00,  6.9849e-10]], device='cuda:0')
+Epoch 496, bias, value: tensor([-0.0174, -0.0367, -0.0282, -0.0280, -0.0076,  0.0121,  0.0089, -0.0077,
+        -0.0193, -0.0168], device='cuda:0'), grad: tensor([-1.0827e-08,  4.8894e-09,  1.3504e-08, -2.6892e-08,  3.6089e-09,
+         1.5716e-08,  4.8894e-09,  8.2655e-09, -6.6357e-09, -2.7940e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 495, time 220.80, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4348 re_mapping 0.0018 re_causal 0.0068 /// teacc 99.18 lr 0.00001000
+Epoch 497, weight, value: tensor([[-0.2628, -0.3231,  0.1302,  ..., -0.1676,  0.0467,  0.0491],
+        [-0.1594, -0.0905, -0.1250,  ..., -0.2700, -0.0727, -0.0256],
+        [ 0.0075, -0.2090, -0.2798,  ..., -0.2055,  0.0302, -0.4506],
+        ...,
+        [-0.2370,  0.2043,  0.0354,  ...,  0.2710, -0.0729, -0.1776],
+        [-0.2337, -0.2222,  0.2589,  ..., -0.1974, -0.1666,  0.1749],
+        [ 0.0155, -0.4112,  0.2182,  ...,  0.0593, -0.2090, -0.2060]],
+       device='cuda:0'), grad: tensor([[ 4.0745e-10,  0.0000e+00,  5.2387e-10,  ...,  5.8208e-11,
+          0.0000e+00,  4.3074e-09],
+        [ 5.0641e-09,  5.8208e-11,  5.8208e-09,  ...,  2.3283e-10,
+          0.0000e+00,  5.8208e-11],
+        [ 1.1642e-10,  0.0000e+00,  1.1642e-10,  ...,  0.0000e+00,
+          1.7462e-10,  0.0000e+00],
+        ...,
+        [ 5.8208e-11,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 1.7462e-10,  1.1642e-10,  2.3283e-10,  ...,  0.0000e+00,
+          0.0000e+00,  5.8208e-11],
+        [-1.0710e-08,  0.0000e+00, -1.2398e-08,  ...,  4.6566e-10,
+          0.0000e+00,  5.8208e-11]], device='cuda:0')
+Epoch 497, bias, value: tensor([-0.0173, -0.0367, -0.0282, -0.0280, -0.0077,  0.0122,  0.0089, -0.0078,
+        -0.0193, -0.0168], device='cuda:0'), grad: tensor([ 3.8242e-08,  4.0105e-08,  2.7940e-09,  1.3446e-08,  1.5774e-08,
+         3.0268e-08, -5.2736e-08,  2.2701e-09,  1.9209e-09, -8.1898e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 496, time 220.10, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4339 re_mapping 0.0018 re_causal 0.0069 /// teacc 99.21 lr 0.00001000
+Epoch 498, weight, value: tensor([[-0.2628, -0.3231,  0.1302,  ..., -0.1676,  0.0467,  0.0491],
+        [-0.1595, -0.0905, -0.1250,  ..., -0.2700, -0.0727, -0.0256],
+        [ 0.0075, -0.2090, -0.2798,  ..., -0.2055,  0.0302, -0.4506],
+        ...,
+        [-0.2371,  0.2044,  0.0354,  ...,  0.2710, -0.0729, -0.1776],
+        [-0.2337, -0.2222,  0.2589,  ..., -0.1974, -0.1666,  0.1749],
+        [ 0.0154, -0.4113,  0.2182,  ...,  0.0593, -0.2090, -0.2061]],
+       device='cuda:0'), grad: tensor([[ 5.8208e-11,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.7462e-10],
+        [-5.8208e-11,  1.1642e-10,  5.8208e-11,  ...,  1.1642e-10,
+          0.0000e+00, -4.0745e-10],
+        [ 0.0000e+00,  5.8208e-11,  0.0000e+00,  ...,  5.8208e-11,
+          0.0000e+00,  5.8208e-11],
+        ...,
+        [ 5.8208e-11,  0.0000e+00,  3.4925e-10,  ...,  1.7462e-10,
+          0.0000e+00,  5.8208e-11],
+        [ 0.0000e+00,  0.0000e+00,  1.1642e-10,  ...,  5.8208e-11,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 498, bias, value: tensor([-0.0173, -0.0367, -0.0281, -0.0280, -0.0076,  0.0122,  0.0088, -0.0078,
+        -0.0193, -0.0169], device='cuda:0'), grad: tensor([ 1.8626e-09, -2.8522e-09,  5.2387e-10,  1.5716e-09,  1.6298e-09,
+         1.3970e-09,  5.8208e-10,  1.9209e-09,  5.8208e-10,  3.4925e-10],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 497, time 219.92, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4140 re_mapping 0.0018 re_causal 0.0066 /// teacc 99.21 lr 0.00001000
+Epoch 499, weight, value: tensor([[-0.2628, -0.3231,  0.1303,  ..., -0.1676,  0.0467,  0.0492],
+        [-0.1595, -0.0905, -0.1251,  ..., -0.2701, -0.0727, -0.0256],
+        [ 0.0075, -0.2091, -0.2799,  ..., -0.2055,  0.0302, -0.4507],
+        ...,
+        [-0.2371,  0.2044,  0.0354,  ...,  0.2711, -0.0729, -0.1776],
+        [-0.2338, -0.2222,  0.2590,  ..., -0.1974, -0.1666,  0.1750],
+        [ 0.0155, -0.4114,  0.2183,  ...,  0.0594, -0.2090, -0.2062]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.1642e-10,  0.0000e+00,  5.8208e-11,  ...,  5.8208e-11,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  5.8208e-11,  ...,  0.0000e+00,
+          0.0000e+00,  5.8208e-11],
+        ...,
+        [ 0.0000e+00,  1.1642e-10,  5.8208e-11,  ...,  1.7462e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-1.1525e-08,  0.0000e+00, -8.2073e-09,  ..., -2.6193e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 499, bias, value: tensor([-0.0171, -0.0369, -0.0280, -0.0281, -0.0075,  0.0123,  0.0087, -0.0079,
+        -0.0194, -0.0169], device='cuda:0'), grad: tensor([ 2.3283e-10,  7.9744e-09, -7.1013e-09,  2.9104e-10,  3.9756e-08,
+         5.2387e-10,  8.7311e-10,  2.2701e-09,  1.1642e-10, -3.6962e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 498, time 219.92, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4347 re_mapping 0.0018 re_causal 0.0068 /// teacc 99.19 lr 0.00001000
+Epoch 500, weight, value: tensor([[-0.2628, -0.3231,  0.1304,  ..., -0.1676,  0.0467,  0.0492],
+        [-0.1595, -0.0905, -0.1251,  ..., -0.2702, -0.0727, -0.0256],
+        [ 0.0075, -0.2091, -0.2799,  ..., -0.2055,  0.0302, -0.4507],
+        ...,
+        [-0.2371,  0.2044,  0.0354,  ...,  0.2712, -0.0729, -0.1777],
+        [-0.2339, -0.2222,  0.2590,  ..., -0.1974, -0.1666,  0.1750],
+        [ 0.0154, -0.4114,  0.2185,  ...,  0.0595, -0.2090, -0.2062]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -5.2387e-10,  ...,  0.0000e+00,
+          0.0000e+00, -1.2806e-09],
+        [ 1.1642e-10,  2.3283e-10,  0.0000e+00,  ...,  1.1642e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.9104e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  3.4925e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 5.8208e-11,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  5.8208e-11],
+        [ 1.1642e-10,  0.0000e+00,  0.0000e+00,  ...,  1.7462e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 500, bias, value: tensor([-0.0170, -0.0369, -0.0279, -0.0281, -0.0076,  0.0123,  0.0087, -0.0081,
+        -0.0195, -0.0169], device='cuda:0'), grad: tensor([-3.2596e-09,  2.6776e-09,  1.0477e-09,  9.8953e-10, -5.8790e-09,
+         5.4715e-09,  5.8208e-09,  1.6298e-09,  5.8208e-10,  2.0955e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 499, time 219.98, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4091 re_mapping 0.0018 re_causal 0.0065 /// teacc 99.19 lr 0.00001000
+---------------------saving last model at epoch 499----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps3', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps3/14factor_best.csv', 'channels': 3, 'factor_num': 14, 'stride': 3, 'epoch': 'best', 'eval_mapping': True}
+loading weight of best
+randm: False
+stride: 3
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+Using downloaded and verified file: /home/yuqian_fu/.pytorch/SVHN/test_32x32.mat
+                         mnist   mnist_FA  ...    usps_FA        Avg
+ShearX               98.790001  99.040001  ...  87.045341  69.751637
+ShearY               98.809998  98.830002  ...  87.045341  65.730553
+AutoContrast         98.799995  99.190002  ...  87.045341  56.790876
+Invert               98.699997  95.540001  ...  87.045341  55.481846
+Equalize             98.000000  98.369995  ...  87.045341  68.588643
+Solarize             98.150002  98.220001  ...  87.045341  56.272267
+SolarizeAdd          98.449997  98.119995  ...  87.045341  66.457808
+Posterize            98.930000  99.049995  ...  87.045341  73.027880
+Contrast             98.979996  99.209999  ...  87.045341  68.391936
+Color                99.010002  99.250000  ...  87.045341  63.124621
+Brightness           98.940002  99.239998  ...  87.045341  67.506813
+Sharpness            99.059998  99.129997  ...  87.045341  71.598598
+NoiseSalt            99.150002  99.180000  ...  87.045341  60.771899
+NoiseGaussian        99.070000  99.250000  ...  87.045341  58.463491
+w/o do (original x)  99.250000   0.000000  ...   0.000000  71.863251
+
+[15 rows x 11 columns]
+    mnist       svhn    mnist_m   syndigit       usps        Avg
+do  99.08  66.345267  78.791245  75.379462  85.749875  76.566463
diff --git a/Meta-causal/code-withStyleAttack/66566.error b/Meta-causal/code-withStyleAttack/66566.error
new file mode 100644
index 0000000000000000000000000000000000000000..5b09d3d759b1a068653d824f401cf6b8e10ef88f
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/66566.error
@@ -0,0 +1 @@
+run_my_joint_test.sh: line 37: eduler: command not found
diff --git a/Meta-causal/code-withStyleAttack/66566.log b/Meta-causal/code-withStyleAttack/66566.log
new file mode 100644
index 0000000000000000000000000000000000000000..ce0c6762af4e08207b8326369013efffcd186858
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/66566.log
@@ -0,0 +1,14134 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 500, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps4', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 3
+--------------------------CA_multiple--------------------------
+---------------------------14 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+Epoch 1, weight, value: tensor([[ 0.0040, -0.0094,  0.0302,  ..., -0.0206, -0.0094, -0.0237],
+        [-0.0110,  0.0086, -0.0225,  ..., -0.0102,  0.0209, -0.0099],
+        [ 0.0143,  0.0205,  0.0170,  ...,  0.0053,  0.0092, -0.0274],
+        ...,
+        [-0.0212, -0.0267,  0.0230,  ..., -0.0150, -0.0215,  0.0058],
+        [ 0.0261,  0.0148, -0.0223,  ..., -0.0261, -0.0155, -0.0265],
+        [-0.0272,  0.0137, -0.0300,  ..., -0.0267, -0.0201,  0.0062]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([-0.0209, -0.0213, -0.0202, -0.0011, -0.0063,  0.0021,  0.0005, -0.0190,
+         0.0223, -0.0304], device='cuda:0'), grad: None
+100
+0.0001
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 221.49, cls_loss 1.1811 cls_loss_mapping 1.7556 cls_loss_causal 2.2091 re_mapping 0.1709 re_causal 0.1857 /// teacc 86.97 lr 0.00010000
+Epoch 2, weight, value: tensor([[ 0.0059, -0.0149,  0.0355,  ..., -0.0193, -0.0173, -0.0243],
+        [-0.0201,  0.0044, -0.0295,  ..., -0.0047,  0.0274, -0.0105],
+        [ 0.0085,  0.0153,  0.0148,  ...,  0.0009,  0.0133, -0.0280],
+        ...,
+        [-0.0297, -0.0292,  0.0219,  ..., -0.0223, -0.0262,  0.0052],
+        [ 0.0289,  0.0163, -0.0248,  ..., -0.0320, -0.0158, -0.0271],
+        [-0.0289,  0.0160, -0.0292,  ..., -0.0333, -0.0233,  0.0056]],
+       device='cuda:0'), grad: tensor([[ 2.6306e-02,  1.6357e-02,  8.7128e-03,  ...,  1.2924e-02,
+          8.2092e-03,  0.0000e+00],
+        [ 1.0490e-02,  7.7400e-03,  9.6416e-04,  ..., -1.1187e-03,
+         -3.4065e-03,  0.0000e+00],
+        [ 1.1681e-02,  8.8882e-03,  5.1231e-03,  ...,  7.8278e-03,
+         -1.0071e-02,  0.0000e+00],
+        ...,
+        [ 4.7607e-03,  2.8610e-03, -4.9114e-05,  ...,  2.0638e-03,
+          9.2621e-03,  0.0000e+00],
+        [-2.2049e-02, -2.0157e-02,  1.7044e-02,  ...,  1.4984e-02,
+         -9.9792e-03,  0.0000e+00],
+        [ 3.1281e-02,  3.7262e-02,  1.1818e-02,  ...,  3.8681e-03,
+          4.2236e-02,  0.0000e+00]], device='cuda:0')
+Epoch 2, bias, value: tensor([-0.0229, -0.0193, -0.0201, -0.0019, -0.0060,  0.0019,  0.0006, -0.0186,
+         0.0216, -0.0302], device='cuda:0'), grad: tensor([ 0.0220,  0.0046,  0.0021, -0.0116, -0.0584, -0.0240,  0.0173,  0.0075,
+        -0.0140,  0.0545], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 221.15, cls_loss 0.3725 cls_loss_mapping 0.7320 cls_loss_causal 1.9172 re_mapping 0.2041 re_causal 0.2720 /// teacc 92.86 lr 0.00010000
+Epoch 3, weight, value: tensor([[ 0.0051, -0.0169,  0.0385,  ..., -0.0202, -0.0192, -0.0243],
+        [-0.0251,  0.0003, -0.0315,  ..., -0.0027,  0.0308, -0.0105],
+        [ 0.0056,  0.0118,  0.0123,  ..., -0.0026,  0.0137, -0.0280],
+        ...,
+        [-0.0343, -0.0323,  0.0211,  ..., -0.0256, -0.0267,  0.0052],
+        [ 0.0316,  0.0192, -0.0261,  ..., -0.0355, -0.0161, -0.0271],
+        [-0.0273,  0.0172, -0.0305,  ..., -0.0338, -0.0289,  0.0056]],
+       device='cuda:0'), grad: tensor([[ 0.0027,  0.0011, -0.0009,  ...,  0.0028,  0.0048,  0.0000],
+        [ 0.0039,  0.0006,  0.0018,  ..., -0.0023,  0.0010,  0.0000],
+        [ 0.0022,  0.0011, -0.0193,  ..., -0.0172, -0.0197,  0.0000],
+        ...,
+        [-0.0198, -0.0021, -0.0063,  ..., -0.0084, -0.0246,  0.0000],
+        [-0.0043, -0.0004, -0.0155,  ...,  0.0024,  0.0054,  0.0000],
+        [ 0.0059,  0.0017,  0.0037,  ...,  0.0040,  0.0193,  0.0000]],
+       device='cuda:0')
+Epoch 3, bias, value: tensor([-0.0236, -0.0189, -0.0203, -0.0018, -0.0057,  0.0022,  0.0002, -0.0187,
+         0.0214, -0.0298], device='cuda:0'), grad: tensor([ 0.0042,  0.0059, -0.0139,  0.0147, -0.0131,  0.0050,  0.0282, -0.0587,
+         0.0051,  0.0225], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 220.46, cls_loss 0.2282 cls_loss_mapping 0.4342 cls_loss_causal 1.7166 re_mapping 0.1476 re_causal 0.2397 /// teacc 95.14 lr 0.00010000
+Epoch 4, weight, value: tensor([[ 0.0039, -0.0186,  0.0403,  ..., -0.0204, -0.0206, -0.0226],
+        [-0.0289, -0.0026, -0.0339,  ..., -0.0020,  0.0322, -0.0111],
+        [ 0.0035,  0.0092,  0.0097,  ..., -0.0051,  0.0145, -0.0295],
+        ...,
+        [-0.0380, -0.0350,  0.0210,  ..., -0.0295, -0.0281,  0.0046],
+        [ 0.0334,  0.0209, -0.0272,  ..., -0.0378, -0.0154, -0.0286],
+        [-0.0253,  0.0186, -0.0309,  ..., -0.0327, -0.0322,  0.0049]],
+       device='cuda:0'), grad: tensor([[ 0.0005, -0.0003, -0.0033,  ..., -0.0003,  0.0016,  0.0000],
+        [ 0.0042,  0.0006,  0.0002,  ..., -0.0022, -0.0005,  0.0000],
+        [ 0.0077,  0.0024,  0.0012,  ...,  0.0001, -0.0306,  0.0000],
+        ...,
+        [-0.0072,  0.0011, -0.0024,  ..., -0.0040, -0.0245,  0.0000],
+        [ 0.0044,  0.0008,  0.0014,  ...,  0.0057,  0.0084,  0.0000],
+        [ 0.0082,  0.0037,  0.0030,  ...,  0.0020,  0.0066,  0.0000]],
+       device='cuda:0')
+Epoch 4, bias, value: tensor([-0.0234, -0.0191, -0.0204, -0.0016, -0.0054,  0.0018, -0.0001, -0.0190,
+         0.0216, -0.0293], device='cuda:0'), grad: tensor([ 0.0003,  0.0037, -0.0182,  0.0059,  0.0154,  0.0054,  0.0099, -0.0401,
+         0.0058,  0.0119], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 220.48, cls_loss 0.1618 cls_loss_mapping 0.2946 cls_loss_causal 1.5369 re_mapping 0.1186 re_causal 0.2086 /// teacc 96.21 lr 0.00010000
+Epoch 5, weight, value: tensor([[ 0.0028, -0.0204,  0.0418,  ..., -0.0201, -0.0215, -0.0226],
+        [-0.0315, -0.0050, -0.0356,  ..., -0.0015,  0.0337, -0.0111],
+        [ 0.0019,  0.0073,  0.0071,  ..., -0.0070,  0.0153, -0.0295],
+        ...,
+        [-0.0411, -0.0379,  0.0215,  ..., -0.0324, -0.0293,  0.0046],
+        [ 0.0343,  0.0216, -0.0282,  ..., -0.0405, -0.0148, -0.0286],
+        [-0.0241,  0.0204, -0.0316,  ..., -0.0315, -0.0349,  0.0049]],
+       device='cuda:0'), grad: tensor([[ 0.0016,  0.0008, -0.0007,  ...,  0.0004,  0.0015,  0.0000],
+        [ 0.0161,  0.0047,  0.0002,  ...,  0.0205,  0.0262,  0.0000],
+        [ 0.0045,  0.0022,  0.0008,  ...,  0.0025, -0.0004,  0.0000],
+        ...,
+        [ 0.0033,  0.0022, -0.0006,  ...,  0.0015,  0.0033,  0.0000],
+        [-0.0151, -0.0074,  0.0010,  ...,  0.0020, -0.0120,  0.0000],
+        [-0.0119, -0.0036, -0.0021,  ..., -0.0256, -0.0225,  0.0000]],
+       device='cuda:0')
+Epoch 5, bias, value: tensor([-0.0233, -0.0191, -0.0205, -0.0011, -0.0055,  0.0013, -0.0003, -0.0192,
+         0.0218, -0.0292], device='cuda:0'), grad: tensor([ 0.0020,  0.0303,  0.0024,  0.0002,  0.0002,  0.0045,  0.0012,  0.0024,
+        -0.0155, -0.0276], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 220.71, cls_loss 0.1348 cls_loss_mapping 0.2192 cls_loss_causal 1.3486 re_mapping 0.0959 re_causal 0.1773 /// teacc 96.58 lr 0.00010000
+Epoch 6, weight, value: tensor([[ 0.0018, -0.0221,  0.0435,  ..., -0.0193, -0.0221, -0.0226],
+        [-0.0335, -0.0073, -0.0372,  ..., -0.0017,  0.0345, -0.0111],
+        [ 0.0004,  0.0058,  0.0045,  ..., -0.0090,  0.0159, -0.0295],
+        ...,
+        [-0.0435, -0.0400,  0.0219,  ..., -0.0360, -0.0299,  0.0046],
+        [ 0.0352,  0.0222, -0.0287,  ..., -0.0425, -0.0146, -0.0286],
+        [-0.0227,  0.0220, -0.0320,  ..., -0.0301, -0.0373,  0.0049]],
+       device='cuda:0'), grad: tensor([[-2.3353e-04, -4.9734e-04, -5.7411e-03,  ..., -4.4746e-03,
+          3.0708e-03,  0.0000e+00],
+        [ 3.3379e-04, -6.4492e-05,  1.0462e-03,  ..., -2.3537e-03,
+         -6.3400e-03,  0.0000e+00],
+        [-9.6893e-04,  1.0271e-03,  2.2221e-03,  ...,  2.7828e-03,
+         -9.8953e-03,  0.0000e+00],
+        ...,
+        [ 1.4925e-03,  1.2484e-03,  1.0242e-03,  ...,  2.5997e-03,
+          3.2539e-03,  0.0000e+00],
+        [ 6.2408e-03,  4.3259e-03,  7.3586e-03,  ...,  7.3776e-03,
+          4.5242e-03,  0.0000e+00],
+        [ 4.3602e-03,  3.0956e-03,  4.9934e-03,  ...,  4.8294e-03,
+          3.3417e-03,  0.0000e+00]], device='cuda:0')
+Epoch 6, bias, value: tensor([-0.0229, -0.0194, -0.0205, -0.0011, -0.0053,  0.0009, -0.0006, -0.0191,
+         0.0219, -0.0290], device='cuda:0'), grad: tensor([-0.0039, -0.0034, -0.0064,  0.0164,  0.0041, -0.0250, -0.0048,  0.0037,
+         0.0114,  0.0078], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 5----------------------------------------------------
+epoch 5, time 220.42, cls_loss 0.1034 cls_loss_mapping 0.1745 cls_loss_causal 1.3033 re_mapping 0.0769 re_causal 0.1612 /// teacc 97.17 lr 0.00010000
+Epoch 7, weight, value: tensor([[ 0.0011, -0.0231,  0.0447,  ..., -0.0190, -0.0228, -0.0226],
+        [-0.0352, -0.0092, -0.0395,  ..., -0.0013,  0.0356, -0.0111],
+        [-0.0004,  0.0045,  0.0025,  ..., -0.0106,  0.0161, -0.0295],
+        ...,
+        [-0.0454, -0.0416,  0.0218,  ..., -0.0386, -0.0314,  0.0046],
+        [ 0.0360,  0.0229, -0.0293,  ..., -0.0445, -0.0144, -0.0286],
+        [-0.0218,  0.0229, -0.0326,  ..., -0.0288, -0.0391,  0.0049]],
+       device='cuda:0'), grad: tensor([[-0.0028, -0.0014, -0.0095,  ..., -0.0036,  0.0013,  0.0000],
+        [ 0.0022,  0.0013,  0.0005,  ..., -0.0169, -0.0372,  0.0000],
+        [ 0.0011,  0.0008,  0.0011,  ...,  0.0135,  0.0279,  0.0000],
+        ...,
+        [ 0.0044,  0.0025,  0.0029,  ...,  0.0035,  0.0023,  0.0000],
+        [ 0.0002, -0.0003,  0.0021,  ...,  0.0011, -0.0003,  0.0000],
+        [-0.0098, -0.0056,  0.0032,  ..., -0.0070, -0.0045,  0.0000]],
+       device='cuda:0')
+Epoch 7, bias, value: tensor([-0.0230, -0.0192, -0.0205, -0.0010, -0.0052,  0.0009, -0.0008, -0.0191,
+         0.0219, -0.0291], device='cuda:0'), grad: tensor([-6.0272e-03, -2.5040e-02,  2.4506e-02,  8.4229e-03,  3.5381e-03,
+         2.7802e-02, -2.3956e-02,  7.2122e-05,  1.7719e-03, -1.1093e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 6----------------------------------------------------
+epoch 6, time 220.70, cls_loss 0.0983 cls_loss_mapping 0.1655 cls_loss_causal 1.2166 re_mapping 0.0664 re_causal 0.1403 /// teacc 97.26 lr 0.00010000
+Epoch 8, weight, value: tensor([[-0.0001, -0.0240,  0.0463,  ..., -0.0182, -0.0236, -0.0233],
+        [-0.0376, -0.0115, -0.0411,  ..., -0.0013,  0.0364, -0.0123],
+        [-0.0013,  0.0034,  0.0009,  ..., -0.0117,  0.0166, -0.0289],
+        ...,
+        [-0.0473, -0.0434,  0.0220,  ..., -0.0411, -0.0325,  0.0017],
+        [ 0.0367,  0.0229, -0.0305,  ..., -0.0462, -0.0136, -0.0293],
+        [-0.0206,  0.0243, -0.0334,  ..., -0.0282, -0.0404,  0.0024]],
+       device='cuda:0'), grad: tensor([[-1.0185e-03,  4.8542e-04, -1.6375e-03,  ..., -4.5151e-05,
+         -4.9591e-04,  0.0000e+00],
+        [ 2.7275e-04,  1.0467e-04,  2.3186e-04,  ..., -5.3263e-04,
+         -1.2283e-03,  0.0000e+00],
+        [-1.3094e-03, -1.0309e-03,  1.9112e-03,  ...,  1.8978e-03,
+         -2.8658e-04,  0.0000e+00],
+        ...,
+        [ 1.3523e-03,  7.9155e-04,  4.6563e-04,  ...,  1.1129e-03,
+          3.7193e-04,  0.0000e+00],
+        [-1.6205e-02, -4.5633e-04, -2.5970e-02,  ..., -2.4063e-02,
+         -9.8495e-03,  0.0000e+00],
+        [-5.8794e-04, -6.4421e-04, -1.4693e-05,  ..., -3.3498e-04,
+          2.4104e-04,  0.0000e+00]], device='cuda:0')
+Epoch 8, bias, value: tensor([-0.0229, -0.0194, -0.0202, -0.0007, -0.0054,  0.0007, -0.0011, -0.0190,
+         0.0219, -0.0291], device='cuda:0'), grad: tensor([-0.0032, -0.0006, -0.0001,  0.0026,  0.0008, -0.0003,  0.0241,  0.0014,
+        -0.0242, -0.0004], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 7----------------------------------------------------
+epoch 7, time 220.54, cls_loss 0.0731 cls_loss_mapping 0.1247 cls_loss_causal 1.1419 re_mapping 0.0608 re_causal 0.1358 /// teacc 97.77 lr 0.00010000
+Epoch 9, weight, value: tensor([[-0.0005, -0.0251,  0.0478,  ..., -0.0176, -0.0243, -0.0233],
+        [-0.0392, -0.0131, -0.0422,  ..., -0.0003,  0.0371, -0.0123],
+        [-0.0023,  0.0021, -0.0004,  ..., -0.0131,  0.0170, -0.0289],
+        ...,
+        [-0.0492, -0.0449,  0.0222,  ..., -0.0434, -0.0330,  0.0017],
+        [ 0.0375,  0.0234, -0.0311,  ..., -0.0480, -0.0135, -0.0293],
+        [-0.0202,  0.0248, -0.0345,  ..., -0.0276, -0.0414,  0.0024]],
+       device='cuda:0'), grad: tensor([[ 5.4407e-04,  5.0306e-04,  2.9011e-03,  ...,  2.4033e-03,
+          8.0252e-04,  0.0000e+00],
+        [ 3.1757e-04,  3.6359e-04,  4.2772e-04,  ...,  7.0152e-03,
+          1.4442e-02,  0.0000e+00],
+        [ 3.7026e-04,  2.8443e-04,  3.6454e-04,  ...,  3.0975e-03,
+          5.7449e-03,  0.0000e+00],
+        ...,
+        [ 9.2697e-04,  7.9441e-04,  8.6352e-06,  ...,  8.2588e-04,
+          1.1635e-03,  0.0000e+00],
+        [ 4.6425e-03,  4.4708e-03,  7.5722e-04,  ...,  2.7981e-03,
+          1.9407e-03,  0.0000e+00],
+        [-1.7151e-02, -1.6342e-02,  5.4550e-04,  ..., -6.4163e-03,
+          1.0757e-03,  0.0000e+00]], device='cuda:0')
+Epoch 9, bias, value: tensor([-0.0226, -0.0195, -0.0201, -0.0007, -0.0056,  0.0008, -0.0014, -0.0189,
+         0.0219, -0.0291], device='cuda:0'), grad: tensor([ 0.0022,  0.0116,  0.0048,  0.0102, -0.0271,  0.0025,  0.0018,  0.0009,
+         0.0057, -0.0126], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 8, time 220.08, cls_loss 0.0763 cls_loss_mapping 0.1265 cls_loss_causal 1.1270 re_mapping 0.0519 re_causal 0.1186 /// teacc 97.55 lr 0.00010000
+Epoch 10, weight, value: tensor([[-9.4165e-04, -2.5567e-02,  4.8835e-02,  ..., -1.7152e-02,
+         -2.4587e-02, -2.3264e-02],
+        [-4.0173e-02, -1.4588e-02, -4.3807e-02,  ...,  4.4619e-05,
+          3.7624e-02, -1.2302e-02],
+        [-3.2320e-03,  8.7407e-04, -1.5643e-03,  ..., -1.4620e-02,
+          1.7067e-02, -2.8891e-02],
+        ...,
+        [-5.0981e-02, -4.6098e-02,  2.2313e-02,  ..., -4.5784e-02,
+         -3.3669e-02,  1.6602e-03],
+        [ 3.8122e-02,  2.3588e-02, -3.1482e-02,  ..., -4.9262e-02,
+         -1.3223e-02, -2.9330e-02],
+        [-1.9152e-02,  2.5907e-02, -3.5265e-02,  ..., -2.6991e-02,
+         -4.2645e-02,  2.4479e-03]], device='cuda:0'), grad: tensor([[ 3.4690e-04,  8.0645e-05, -6.7234e-05,  ...,  1.3304e-04,
+          1.0986e-03,  0.0000e+00],
+        [ 4.7541e-04,  2.3961e-04,  8.1122e-05,  ..., -2.2626e-04,
+          5.9724e-05,  0.0000e+00],
+        [-6.6996e-05,  1.3657e-03, -7.4339e-04,  ..., -1.0529e-03,
+         -8.4229e-03,  0.0000e+00],
+        ...,
+        [ 3.8218e-04,  1.6356e-04,  7.1406e-05,  ...,  3.2926e-04,
+          1.6918e-03,  0.0000e+00],
+        [-2.2769e-05, -3.2234e-04,  4.1485e-04,  ...,  9.8991e-04,
+          2.2984e-03,  0.0000e+00],
+        [ 9.8896e-04,  5.9509e-04,  1.8859e-04,  ...,  4.8280e-04,
+          1.1196e-03,  0.0000e+00]], device='cuda:0')
+Epoch 10, bias, value: tensor([-0.0225, -0.0193, -0.0200, -0.0006, -0.0056,  0.0005, -0.0015, -0.0190,
+         0.0220, -0.0291], device='cuda:0'), grad: tensor([ 0.0009,  0.0004, -0.0106,  0.0010, -0.0003, -0.0001,  0.0006,  0.0043,
+         0.0021,  0.0016], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 9----------------------------------------------------
+epoch 9, time 220.80, cls_loss 0.0687 cls_loss_mapping 0.1145 cls_loss_causal 1.0487 re_mapping 0.0474 re_causal 0.1112 /// teacc 97.84 lr 0.00010000
+Epoch 11, weight, value: tensor([[-1.2253e-03, -2.6097e-02,  4.9519e-02,  ..., -1.6645e-02,
+         -2.5348e-02, -2.3871e-02],
+        [-4.1476e-02, -1.6130e-02, -4.5295e-02,  ..., -5.3146e-05,
+          3.7956e-02, -2.1434e-02],
+        [-4.0241e-03,  3.6048e-04, -2.7722e-03,  ..., -1.5528e-02,
+          1.7524e-02, -3.3136e-02],
+        ...,
+        [-5.2076e-02, -4.6983e-02,  2.3109e-02,  ..., -4.7417e-02,
+         -3.4181e-02, -1.5165e-02],
+        [ 3.9169e-02,  2.4468e-02, -3.1636e-02,  ..., -4.9980e-02,
+         -1.3242e-02, -3.5135e-02],
+        [-1.9152e-02,  2.5997e-02, -3.5879e-02,  ..., -2.6443e-02,
+         -4.3814e-02, -4.1340e-03]], device='cuda:0'), grad: tensor([[ 2.4152e-04,  2.7752e-04,  1.4806e-04,  ...,  1.7405e-04,
+          1.4257e-04,  0.0000e+00],
+        [ 1.1766e-04,  5.6326e-05,  1.2493e-04,  ..., -4.5896e-04,
+         -8.8215e-04,  0.0000e+00],
+        [-2.7704e-04, -1.1015e-04,  1.5104e-04,  ...,  1.5128e-04,
+         -5.6028e-04,  0.0000e+00],
+        ...,
+        [ 1.3933e-03,  7.6342e-04, -8.6367e-05,  ...,  8.2207e-04,
+          6.4945e-04,  0.0000e+00],
+        [ 1.2293e-03,  7.7343e-04,  1.6136e-03,  ...,  1.1549e-03,
+          1.0061e-03,  0.0000e+00],
+        [-2.7409e-03, -1.3304e-03,  6.4421e-04,  ..., -1.3552e-03,
+          1.0281e-03,  0.0000e+00]], device='cuda:0')
+Epoch 11, bias, value: tensor([-0.0226, -0.0195, -0.0199, -0.0005, -0.0054,  0.0003, -0.0019, -0.0188,
+         0.0223, -0.0294], device='cuda:0'), grad: tensor([ 0.0004, -0.0006, -0.0010,  0.0026, -0.0018,  0.0035, -0.0063,  0.0014,
+         0.0031, -0.0014], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 10----------------------------------------------------
+epoch 10, time 220.68, cls_loss 0.0652 cls_loss_mapping 0.1110 cls_loss_causal 1.0764 re_mapping 0.0428 re_causal 0.1062 /// teacc 98.16 lr 0.00010000
+Epoch 12, weight, value: tensor([[-0.0013, -0.0264,  0.0505,  ..., -0.0159, -0.0257, -0.0224],
+        [-0.0427, -0.0177, -0.0466,  ...,  0.0002,  0.0382, -0.0246],
+        [-0.0044, -0.0005, -0.0040,  ..., -0.0162,  0.0179, -0.0361],
+        ...,
+        [-0.0534, -0.0480,  0.0234,  ..., -0.0489, -0.0349, -0.0202],
+        [ 0.0396,  0.0245, -0.0319,  ..., -0.0514, -0.0129, -0.0334],
+        [-0.0187,  0.0266, -0.0362,  ..., -0.0255, -0.0449, -0.0064]],
+       device='cuda:0'), grad: tensor([[ 1.3609e-03,  3.6192e-04,  9.6893e-04,  ...,  1.0834e-03,
+          8.5640e-04,  2.7637e-07],
+        [ 3.5238e-04,  2.3127e-04,  8.7619e-05,  ..., -3.3879e-04,
+         -5.9175e-04,  1.2945e-07],
+        [-7.9117e-03, -1.4210e-03, -3.1910e-03,  ..., -3.7098e-03,
+         -4.2458e-03,  3.2550e-07],
+        ...,
+        [ 8.2159e-04,  3.5214e-04,  3.5048e-04,  ...,  5.7364e-04,
+          6.9666e-04,  5.9418e-07],
+        [-8.5640e-04, -6.0844e-04,  4.7159e-04,  ...,  6.2656e-04,
+          1.6820e-04,  6.2108e-08],
+        [ 3.0842e-03,  1.5202e-03,  1.3056e-03,  ...,  1.5068e-03,
+          1.5974e-03,  6.6161e-06]], device='cuda:0')
+Epoch 12, bias, value: tensor([-2.2334e-02, -1.9536e-02, -2.0071e-02, -3.8515e-04, -5.6846e-03,
+         3.5607e-05, -1.7969e-03, -1.8514e-02,  2.2573e-02, -2.9588e-02],
+       device='cuda:0'), grad: tensor([ 2.3251e-03, -6.2180e-04, -1.4931e-02,  1.2760e-03, -3.3998e-04,
+         3.7785e-03, -3.5429e-04,  5.4970e-03, -6.6698e-05,  3.4428e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 11----------------------------------------------------
+epoch 11, time 220.95, cls_loss 0.0462 cls_loss_mapping 0.0811 cls_loss_causal 1.0166 re_mapping 0.0395 re_causal 0.1034 /// teacc 98.17 lr 0.00010000
+Epoch 13, weight, value: tensor([[-0.0019, -0.0270,  0.0510,  ..., -0.0158, -0.0261, -0.0226],
+        [-0.0436, -0.0188, -0.0481,  ...,  0.0002,  0.0384, -0.0248],
+        [-0.0050, -0.0010, -0.0049,  ..., -0.0170,  0.0181, -0.0367],
+        ...,
+        [-0.0541, -0.0491,  0.0235,  ..., -0.0509, -0.0355, -0.0226],
+        [ 0.0400,  0.0246, -0.0313,  ..., -0.0525, -0.0127, -0.0327],
+        [-0.0183,  0.0273, -0.0364,  ..., -0.0242, -0.0459, -0.0077]],
+       device='cuda:0'), grad: tensor([[-6.1560e-04, -1.0815e-03, -1.6575e-03,  ..., -1.7757e-03,
+          3.1877e-04,  0.0000e+00],
+        [ 5.0831e-04,  4.1842e-04,  2.2471e-04,  ...,  9.8705e-04,
+          2.8648e-03,  0.0000e+00],
+        [ 2.9540e-04,  2.4724e-04,  4.6229e-04,  ...,  6.0701e-04,
+          5.4264e-04,  0.0000e+00],
+        ...,
+        [ 4.2725e-04,  3.5930e-04,  9.1195e-05,  ..., -1.2445e-03,
+         -3.0689e-03,  0.0000e+00],
+        [-4.6539e-03, -2.1992e-03, -2.2621e-03,  ...,  5.4657e-05,
+         -2.2011e-03,  0.0000e+00],
+        [ 1.2264e-03,  2.2488e-03,  5.3263e-04,  ...,  1.2379e-03,
+          6.3858e-03,  0.0000e+00]], device='cuda:0')
+Epoch 13, bias, value: tensor([-2.2753e-02, -1.9538e-02, -2.0149e-02, -2.3593e-04, -5.7608e-03,
+        -5.2678e-05, -2.1927e-03, -1.8378e-02,  2.2796e-02, -2.9327e-02],
+       device='cuda:0'), grad: tensor([-0.0018,  0.0146,  0.0014,  0.0028, -0.0070,  0.0043, -0.0011, -0.0174,
+        -0.0048,  0.0091], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 12, time 220.04, cls_loss 0.0487 cls_loss_mapping 0.0823 cls_loss_causal 0.9818 re_mapping 0.0359 re_causal 0.0944 /// teacc 98.11 lr 0.00010000
+Epoch 14, weight, value: tensor([[-0.0021, -0.0273,  0.0519,  ..., -0.0150, -0.0268, -0.0229],
+        [-0.0439, -0.0198, -0.0489,  ...,  0.0006,  0.0385, -0.0236],
+        [-0.0053, -0.0005, -0.0059,  ..., -0.0176,  0.0183, -0.0347],
+        ...,
+        [-0.0552, -0.0504,  0.0238,  ..., -0.0524, -0.0365, -0.0247],
+        [ 0.0405,  0.0245, -0.0318,  ..., -0.0535, -0.0124, -0.0332],
+        [-0.0180,  0.0276, -0.0374,  ..., -0.0239, -0.0469, -0.0091]],
+       device='cuda:0'), grad: tensor([[ 2.0540e-04,  1.4937e-04, -2.9421e-04,  ..., -1.9979e-04,
+          8.6904e-05,  0.0000e+00],
+        [ 5.5075e-04,  3.9172e-04,  1.5998e-04,  ..., -1.0079e-04,
+         -3.5548e-04,  0.0000e+00],
+        [ 5.3101e-03,  2.7905e-03,  3.1447e-04,  ...,  9.9373e-04,
+          2.2316e-03,  0.0000e+00],
+        ...,
+        [ 1.8330e-03,  1.7328e-03, -1.2436e-03,  ...,  2.5511e-04,
+         -1.5473e-04,  0.0000e+00],
+        [ 3.3493e-03,  1.9817e-03,  3.0947e-04,  ...,  8.8692e-04,
+          1.4973e-03,  0.0000e+00],
+        [-2.2221e-03, -2.3289e-03,  3.8052e-04,  ..., -1.3566e-04,
+          3.1090e-04,  0.0000e+00]], device='cuda:0')
+Epoch 14, bias, value: tensor([-0.0228, -0.0195, -0.0197, -0.0004, -0.0058, -0.0001, -0.0020, -0.0187,
+         0.0230, -0.0295], device='cuda:0'), grad: tensor([ 0.0002,  0.0008,  0.0065, -0.0099,  0.0015, -0.0001,  0.0006,  0.0042,
+         0.0054, -0.0092], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 13----------------------------------------------------
+epoch 13, time 220.79, cls_loss 0.0490 cls_loss_mapping 0.0800 cls_loss_causal 0.9607 re_mapping 0.0330 re_causal 0.0881 /// teacc 98.24 lr 0.00010000
+Epoch 15, weight, value: tensor([[-0.0024, -0.0276,  0.0527,  ..., -0.0144, -0.0273, -0.0230],
+        [-0.0445, -0.0208, -0.0498,  ...,  0.0008,  0.0387, -0.0167],
+        [-0.0062, -0.0016, -0.0067,  ..., -0.0187,  0.0187, -0.0350],
+        ...,
+        [-0.0562, -0.0513,  0.0236,  ..., -0.0539, -0.0371, -0.0278],
+        [ 0.0412,  0.0248, -0.0319,  ..., -0.0546, -0.0125, -0.0327],
+        [-0.0176,  0.0281, -0.0379,  ..., -0.0234, -0.0477, -0.0097]],
+       device='cuda:0'), grad: tensor([[-6.3229e-04, -4.2343e-04, -1.3518e-04,  ..., -8.2588e-04,
+          6.1941e-04,  7.3791e-05],
+        [ 4.0245e-04,  4.0317e-04,  2.9516e-04,  ...,  3.5620e-04,
+          1.1177e-03,  8.9258e-06],
+        [ 3.8218e-04,  2.9707e-04,  4.6372e-04,  ...,  2.4152e-04,
+         -1.7433e-03,  1.0580e-04],
+        ...,
+        [ 8.4925e-04,  6.9046e-04,  5.5313e-04,  ...,  2.7800e-04,
+          2.0847e-03,  7.0155e-05],
+        [-6.2609e-04, -1.7929e-04,  3.7074e-04,  ...,  4.6468e-04,
+          4.5955e-05,  7.7426e-05],
+        [-7.5388e-04, -5.0354e-04,  7.4673e-04,  ..., -1.5080e-05,
+          9.8228e-04,  2.7001e-05]], device='cuda:0')
+Epoch 15, bias, value: tensor([-2.2635e-02, -1.9713e-02, -1.9907e-02,  6.2496e-05, -5.5963e-03,
+        -4.7145e-05, -2.5151e-03, -1.8588e-02,  2.3083e-02, -2.9806e-02],
+       device='cuda:0'), grad: tensor([-0.0006,  0.0018, -0.0047, -0.0016, -0.0053,  0.0035,  0.0018,  0.0038,
+         0.0005,  0.0009], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 14----------------------------------------------------
+epoch 14, time 220.77, cls_loss 0.0470 cls_loss_mapping 0.0782 cls_loss_causal 0.9508 re_mapping 0.0305 re_causal 0.0856 /// teacc 98.27 lr 0.00010000
+Epoch 16, weight, value: tensor([[-0.0028, -0.0280,  0.0537,  ..., -0.0136, -0.0275, -0.0224],
+        [-0.0451, -0.0222, -0.0504,  ...,  0.0013,  0.0392, -0.0074],
+        [-0.0065, -0.0018, -0.0081,  ..., -0.0193,  0.0185, -0.0370],
+        ...,
+        [-0.0570, -0.0522,  0.0235,  ..., -0.0549, -0.0376, -0.0314],
+        [ 0.0416,  0.0249, -0.0328,  ..., -0.0556, -0.0124, -0.0336],
+        [-0.0171,  0.0287, -0.0378,  ..., -0.0229, -0.0485, -0.0103]],
+       device='cuda:0'), grad: tensor([[ 3.2574e-05, -1.2531e-03, -4.5052e-03,  ..., -1.3885e-03,
+          1.8859e-04,  2.9430e-06],
+        [ 5.1022e-05, -3.6073e-04, -3.5524e-04,  ..., -1.3313e-03,
+         -1.1539e-03, -2.3091e-04],
+        [-8.1182e-05,  6.4194e-05,  1.6189e-04,  ...,  1.2732e-04,
+         -8.9407e-04,  5.5097e-06],
+        ...,
+        [-1.5044e-04,  9.6858e-05,  1.7798e-04,  ...,  1.2159e-04,
+          4.6039e-04,  5.8748e-06],
+        [ 7.4029e-05,  2.7657e-04,  5.4932e-04,  ...,  1.0929e-03,
+          1.0138e-03,  1.5080e-04],
+        [ 1.4961e-04,  1.1057e-04,  2.7895e-04,  ...,  1.5247e-04,
+          1.7750e-04,  3.8221e-06]], device='cuda:0')
+Epoch 16, bias, value: tensor([-0.0222, -0.0196, -0.0200, -0.0001, -0.0058,  0.0003, -0.0031, -0.0183,
+         0.0230, -0.0299], device='cuda:0'), grad: tensor([-0.0025, -0.0011, -0.0007,  0.0014,  0.0014,  0.0013,  0.0004, -0.0044,
+         0.0024,  0.0019], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 15----------------------------------------------------
+epoch 15, time 220.62, cls_loss 0.0423 cls_loss_mapping 0.0752 cls_loss_causal 0.9295 re_mapping 0.0297 re_causal 0.0820 /// teacc 98.43 lr 0.00010000
+Epoch 17, weight, value: tensor([[-0.0033, -0.0283,  0.0536,  ..., -0.0134, -0.0277, -0.0228],
+        [-0.0458, -0.0238, -0.0515,  ...,  0.0009,  0.0393,  0.0002],
+        [-0.0070, -0.0025, -0.0090,  ..., -0.0199,  0.0188, -0.0384],
+        ...,
+        [-0.0579, -0.0534,  0.0234,  ..., -0.0561, -0.0381, -0.0344],
+        [ 0.0422,  0.0254, -0.0332,  ..., -0.0563, -0.0123, -0.0354],
+        [-0.0164,  0.0295, -0.0376,  ..., -0.0216, -0.0489, -0.0108]],
+       device='cuda:0'), grad: tensor([[ 1.9574e-04, -5.7220e-05, -7.7295e-04,  ..., -1.5283e-04,
+          2.3949e-04,  2.9523e-06],
+        [ 1.7571e-04,  1.3041e-04,  9.1553e-05,  ..., -2.4724e-04,
+         -1.8585e-04, -1.4400e-04],
+        [-4.2114e-03, -2.6073e-03,  1.0580e-04,  ..., -1.6279e-03,
+         -2.8687e-03,  1.4134e-05],
+        ...,
+        [ 7.8392e-04,  6.0129e-04,  9.9301e-05,  ...,  6.1131e-04,
+          6.0558e-04,  4.4972e-05],
+        [-4.2801e-03, -2.9488e-03, -8.9979e-04,  ..., -7.1812e-04,
+         -3.3951e-03,  2.4438e-05],
+        [ 3.4599e-03,  2.5139e-03,  6.5422e-04,  ...,  1.3523e-03,
+          3.0022e-03,  1.3083e-05]], device='cuda:0')
+Epoch 17, bias, value: tensor([-0.0223, -0.0199, -0.0198, -0.0004, -0.0059,  0.0002, -0.0027, -0.0182,
+         0.0232, -0.0297], device='cuda:0'), grad: tensor([-6.4671e-06, -8.0884e-05, -7.5874e-03,  4.0512e-03,  2.1858e-03,
+         1.1444e-03,  5.2500e-04,  1.0595e-03, -7.4692e-03,  6.1760e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 16, time 219.99, cls_loss 0.0341 cls_loss_mapping 0.0590 cls_loss_causal 0.9120 re_mapping 0.0280 re_causal 0.0806 /// teacc 98.41 lr 0.00010000
+Epoch 18, weight, value: tensor([[-0.0035, -0.0284,  0.0545,  ..., -0.0128, -0.0281, -0.0224],
+        [-0.0466, -0.0249, -0.0524,  ...,  0.0011,  0.0397,  0.0093],
+        [-0.0077, -0.0034, -0.0099,  ..., -0.0208,  0.0189, -0.0410],
+        ...,
+        [-0.0586, -0.0541,  0.0235,  ..., -0.0576, -0.0387, -0.0353],
+        [ 0.0428,  0.0259, -0.0335,  ..., -0.0569, -0.0123, -0.0379],
+        [-0.0161,  0.0296, -0.0385,  ..., -0.0211, -0.0495, -0.0116]],
+       device='cuda:0'), grad: tensor([[ 4.4656e-04,  9.0170e-04,  4.4327e-03,  ...,  1.8530e-03,
+          2.5368e-04,  2.2560e-05],
+        [ 3.0231e-04,  2.5463e-04,  1.2863e-04,  ...,  1.9407e-04,
+          1.2267e-04, -2.4095e-05],
+        [ 7.1096e-04,  4.8757e-04,  4.0531e-04,  ...,  6.1417e-04,
+          3.5858e-04,  1.5959e-05],
+        ...,
+        [ 5.8212e-03,  4.0741e-03,  2.4676e-04,  ...,  4.3259e-03,
+          2.7990e-04,  9.2164e-06],
+        [ 5.1594e-04,  1.3838e-03,  2.2984e-03,  ...,  8.2684e-04,
+         -1.7703e-05,  1.4871e-05],
+        [-9.9468e-04, -8.5497e-04,  8.9526e-05,  ..., -1.0443e-03,
+         -2.0874e-04,  6.7912e-06]], device='cuda:0')
+Epoch 18, bias, value: tensor([-2.2324e-02, -1.9855e-02, -1.9607e-02, -5.1715e-04, -5.8483e-03,
+         5.3230e-05, -2.8812e-03, -1.8256e-02,  2.3400e-02, -2.9867e-02],
+       device='cuda:0'), grad: tensor([ 0.0038,  0.0006,  0.0007, -0.0001,  0.0012, -0.0161, -0.0005,  0.0093,
+         0.0025, -0.0013], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 17----------------------------------------------------
+epoch 17, time 220.41, cls_loss 0.0330 cls_loss_mapping 0.0570 cls_loss_causal 0.8765 re_mapping 0.0265 re_causal 0.0769 /// teacc 98.55 lr 0.00010000
+Epoch 19, weight, value: tensor([[-0.0036, -0.0283,  0.0553,  ..., -0.0122, -0.0285, -0.0219],
+        [-0.0473, -0.0259, -0.0529,  ...,  0.0012,  0.0397,  0.0109],
+        [-0.0079, -0.0040, -0.0107,  ..., -0.0216,  0.0191, -0.0432],
+        ...,
+        [-0.0597, -0.0551,  0.0240,  ..., -0.0588, -0.0388, -0.0367],
+        [ 0.0431,  0.0258, -0.0339,  ..., -0.0581, -0.0121, -0.0362],
+        [-0.0154,  0.0303, -0.0393,  ..., -0.0202, -0.0502, -0.0112]],
+       device='cuda:0'), grad: tensor([[ 4.0207e-03,  4.6778e-04,  1.1911e-03,  ...,  2.6302e-03,
+          8.7357e-04,  5.7742e-06],
+        [ 5.0974e-04,  5.4264e-04,  2.1696e-04,  ...,  4.5586e-04,
+          6.9666e-04, -1.3316e-04],
+        [ 6.1684e-03,  6.3133e-04,  1.1387e-03,  ...,  3.3836e-03,
+          2.8725e-03,  1.8016e-05],
+        ...,
+        [ 2.2352e-04,  2.2471e-04,  3.6091e-05,  ...,  2.3472e-04,
+          1.4007e-04,  1.0751e-05],
+        [-1.3565e-02, -9.7275e-05, -2.6245e-03,  ..., -6.8474e-03,
+         -5.4073e-04,  4.1872e-05],
+        [ 6.5851e-04, -4.4179e-04,  8.1658e-05,  ...,  3.5524e-05,
+          5.1498e-04,  1.0662e-05]], device='cuda:0')
+Epoch 19, bias, value: tensor([-2.2243e-02, -1.9986e-02, -1.9706e-02, -3.3146e-04, -6.0938e-03,
+         6.2519e-06, -2.8947e-03, -1.7964e-02,  2.3210e-02, -2.9736e-02],
+       device='cuda:0'), grad: tensor([ 0.0036,  0.0016,  0.0067, -0.0080,  0.0006,  0.0063, -0.0033, -0.0003,
+        -0.0074,  0.0004], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 18----------------------------------------------------
+epoch 18, time 220.31, cls_loss 0.0276 cls_loss_mapping 0.0525 cls_loss_causal 0.8589 re_mapping 0.0260 re_causal 0.0777 /// teacc 98.57 lr 0.00010000
+Epoch 20, weight, value: tensor([[-0.0043, -0.0283,  0.0560,  ..., -0.0118, -0.0289, -0.0216],
+        [-0.0481, -0.0269, -0.0534,  ...,  0.0012,  0.0398,  0.0136],
+        [-0.0087, -0.0047, -0.0115,  ..., -0.0223,  0.0190, -0.0449],
+        ...,
+        [-0.0608, -0.0560,  0.0236,  ..., -0.0601, -0.0395, -0.0381],
+        [ 0.0438,  0.0256, -0.0344,  ..., -0.0589, -0.0118, -0.0373],
+        [-0.0149,  0.0309, -0.0394,  ..., -0.0192, -0.0507, -0.0104]],
+       device='cuda:0'), grad: tensor([[-8.4734e-04, -1.8625e-03, -1.2718e-02,  ..., -1.0666e-02,
+         -2.7504e-03,  5.1595e-06],
+        [ 1.5211e-04,  7.9513e-05,  7.7248e-04,  ..., -5.1677e-05,
+          7.5054e-04, -1.1213e-05],
+        [ 5.1212e-04,  2.4378e-04,  1.1797e-03,  ...,  2.9135e-04,
+          1.6251e-03,  2.0996e-05],
+        ...,
+        [ 4.0412e-04, -5.2564e-06,  7.8738e-05,  ...,  2.1493e-04,
+          1.4858e-03,  5.0068e-05],
+        [ 4.8071e-05,  7.1955e-04,  1.0986e-03,  ...,  1.0004e-03,
+          7.5483e-04,  3.4302e-05],
+        [ 7.5758e-05,  4.0412e-05,  5.2881e-04,  ...,  2.1040e-04,
+          9.8705e-04,  8.7172e-06]], device='cuda:0')
+Epoch 20, bias, value: tensor([-0.0225, -0.0202, -0.0199, -0.0001, -0.0059,  0.0001, -0.0029, -0.0181,
+         0.0234, -0.0297], device='cuda:0'), grad: tensor([-0.0110,  0.0011,  0.0021, -0.0034, -0.0045,  0.0026,  0.0109, -0.0005,
+         0.0019,  0.0009], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 19, time 219.58, cls_loss 0.0282 cls_loss_mapping 0.0559 cls_loss_causal 0.8187 re_mapping 0.0248 re_causal 0.0710 /// teacc 98.40 lr 0.00010000
+Epoch 21, weight, value: tensor([[-0.0045, -0.0282,  0.0564,  ..., -0.0115, -0.0293, -0.0220],
+        [-0.0490, -0.0280, -0.0543,  ...,  0.0014,  0.0399,  0.0188],
+        [-0.0094, -0.0054, -0.0124,  ..., -0.0231,  0.0194, -0.0452],
+        ...,
+        [-0.0613, -0.0568,  0.0236,  ..., -0.0611, -0.0396, -0.0402],
+        [ 0.0443,  0.0258, -0.0346,  ..., -0.0598, -0.0117, -0.0382],
+        [-0.0148,  0.0309, -0.0401,  ..., -0.0191, -0.0517, -0.0112]],
+       device='cuda:0'), grad: tensor([[ 5.8460e-04,  2.7776e-04,  7.3016e-05,  ...,  1.1557e-04,
+          6.0940e-04,  8.5980e-06],
+        [ 2.3282e-04,  9.1553e-05,  2.3067e-04,  ...,  1.1605e-04,
+          3.4595e-04, -5.6237e-05],
+        [ 1.0309e-03,  4.0483e-04,  5.7793e-04,  ...,  7.0190e-04,
+         -3.5143e-04,  2.4870e-05],
+        ...,
+        [ 6.2895e-04,  2.0528e-04, -4.3631e-05,  ...,  2.7680e-04,
+          4.9925e-04,  7.3463e-06],
+        [-2.6646e-03, -2.3270e-03, -1.9875e-03,  ...,  6.3705e-04,
+         -4.1885e-03,  1.5073e-05],
+        [-6.2408e-03, -1.1301e-03,  3.0780e-04,  ..., -2.5444e-03,
+         -1.0719e-03,  1.0021e-06]], device='cuda:0')
+Epoch 21, bias, value: tensor([-0.0227, -0.0206, -0.0194, -0.0003, -0.0059,  0.0007, -0.0029, -0.0178,
+         0.0232, -0.0301], device='cuda:0'), grad: tensor([ 0.0012,  0.0008,  0.0032,  0.0101, -0.0003, -0.0016,  0.0008, -0.0026,
+        -0.0039, -0.0076], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 20----------------------------------------------------
+epoch 20, time 220.37, cls_loss 0.0258 cls_loss_mapping 0.0491 cls_loss_causal 0.8721 re_mapping 0.0231 re_causal 0.0714 /// teacc 98.66 lr 0.00010000
+Epoch 22, weight, value: tensor([[-0.0044, -0.0281,  0.0571,  ..., -0.0103, -0.0293, -0.0218],
+        [-0.0495, -0.0286, -0.0551,  ...,  0.0016,  0.0399,  0.0250],
+        [-0.0100, -0.0062, -0.0132,  ..., -0.0237,  0.0196, -0.0467],
+        ...,
+        [-0.0619, -0.0575,  0.0233,  ..., -0.0627, -0.0400, -0.0404],
+        [ 0.0447,  0.0260, -0.0350,  ..., -0.0607, -0.0115, -0.0408],
+        [-0.0147,  0.0312, -0.0403,  ..., -0.0184, -0.0524, -0.0121]],
+       device='cuda:0'), grad: tensor([[ 3.5071e-04,  2.1338e-04,  3.4976e-04,  ...,  3.7336e-04,
+          2.1362e-04,  6.2212e-06],
+        [ 2.9397e-04,  2.0523e-03,  5.1379e-05,  ...,  3.9139e-03,
+          3.5210e-03, -1.1873e-04],
+        [ 1.0691e-03,  8.0681e-04, -1.5542e-05,  ...,  1.7290e-03,
+          1.1644e-03,  4.1693e-05],
+        ...,
+        [ 1.1438e-04,  2.4700e-04,  1.2386e-04,  ...,  5.2595e-04,
+          5.2118e-04,  2.7344e-05],
+        [-2.2244e-04, -2.4509e-04, -8.8692e-05,  ...,  4.8113e-04,
+          3.9744e-04,  5.5641e-05],
+        [-5.2166e-04, -2.7771e-03, -8.4579e-05,  ..., -5.1155e-03,
+         -4.5853e-03, -7.6532e-05]], device='cuda:0')
+Epoch 22, bias, value: tensor([-0.0223, -0.0207, -0.0192, -0.0005, -0.0055,  0.0003, -0.0031, -0.0179,
+         0.0231, -0.0300], device='cuda:0'), grad: tensor([ 0.0010,  0.0183,  0.0026, -0.0029,  0.0024,  0.0006, -0.0012,  0.0020,
+         0.0008, -0.0236], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 21, time 219.77, cls_loss 0.0251 cls_loss_mapping 0.0487 cls_loss_causal 0.8708 re_mapping 0.0228 re_causal 0.0673 /// teacc 98.60 lr 0.00010000
+Epoch 23, weight, value: tensor([[-0.0044, -0.0281,  0.0576,  ..., -0.0104, -0.0298, -0.0221],
+        [-0.0500, -0.0291, -0.0558,  ...,  0.0020,  0.0403,  0.0306],
+        [-0.0106, -0.0071, -0.0140,  ..., -0.0248,  0.0193, -0.0485],
+        ...,
+        [-0.0628, -0.0584,  0.0235,  ..., -0.0639, -0.0403, -0.0415],
+        [ 0.0453,  0.0264, -0.0354,  ..., -0.0612, -0.0115, -0.0426],
+        [-0.0143,  0.0317, -0.0407,  ..., -0.0175, -0.0530, -0.0128]],
+       device='cuda:0'), grad: tensor([[ 9.3460e-05,  1.4055e-04,  1.0866e-04,  ...,  6.3181e-05,
+          9.5844e-05,  1.9476e-05],
+        [ 7.1287e-05,  6.5684e-05, -7.5054e-04,  ..., -1.6508e-03,
+         -2.8992e-03, -1.1339e-03],
+        [ 9.6226e-04,  6.8331e-04,  1.5152e-04,  ...,  5.2738e-04,
+          7.9250e-04,  1.0085e-04],
+        ...,
+        [ 1.1511e-06, -4.3392e-04,  1.0639e-05,  ...,  5.2071e-04,
+          1.0157e-03,  2.5582e-04],
+        [ 4.6730e-04,  3.4666e-04,  1.5450e-04,  ...,  5.4216e-04,
+          4.7803e-04,  2.1064e-04],
+        [-2.3282e-04,  9.0957e-05,  2.7728e-04,  ...,  2.7943e-04,
+          5.2500e-04,  1.1879e-04]], device='cuda:0')
+Epoch 23, bias, value: tensor([-0.0227, -0.0208, -0.0195, -0.0002, -0.0057,  0.0005, -0.0032, -0.0179,
+         0.0232, -0.0298], device='cuda:0'), grad: tensor([ 0.0005, -0.0045,  0.0022, -0.0001,  0.0019, -0.0008, -0.0005, -0.0014,
+         0.0017,  0.0010], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 22----------------------------------------------------
+epoch 22, time 220.33, cls_loss 0.0211 cls_loss_mapping 0.0446 cls_loss_causal 0.7895 re_mapping 0.0229 re_causal 0.0676 /// teacc 98.67 lr 0.00010000
+Epoch 24, weight, value: tensor([[-0.0043, -0.0278,  0.0582,  ..., -0.0103, -0.0301, -0.0222],
+        [-0.0504, -0.0302, -0.0564,  ...,  0.0027,  0.0404,  0.0342],
+        [-0.0112, -0.0081, -0.0146,  ..., -0.0255,  0.0196, -0.0505],
+        ...,
+        [-0.0633, -0.0586,  0.0235,  ..., -0.0648, -0.0408, -0.0428],
+        [ 0.0456,  0.0266, -0.0353,  ..., -0.0621, -0.0113, -0.0422],
+        [-0.0141,  0.0321, -0.0411,  ..., -0.0165, -0.0536, -0.0135]],
+       device='cuda:0'), grad: tensor([[ 6.8188e-05,  1.6257e-05, -6.4552e-05,  ..., -9.7156e-05,
+          5.8830e-05,  2.5630e-06],
+        [ 7.0393e-05,  8.8453e-05,  5.4419e-05,  ...,  7.2956e-05,
+          7.0930e-05, -3.2336e-05],
+        [ 9.5069e-05,  6.6996e-05,  8.1301e-05,  ...,  1.4818e-04,
+         -2.8181e-04,  5.8487e-06],
+        ...,
+        [ 9.3031e-04,  8.4114e-04,  5.3120e-04,  ...,  1.6403e-03,
+          1.4868e-03,  7.1786e-06],
+        [ 1.1110e-03,  1.1539e-03,  3.7837e-04,  ...,  1.0824e-03,
+          1.7929e-04,  1.6689e-05],
+        [-1.0214e-03, -8.4209e-04,  1.0431e-04,  ..., -4.0078e-04,
+          3.0208e-04,  2.9039e-06]], device='cuda:0')
+Epoch 24, bias, value: tensor([-0.0229, -0.0209, -0.0194, -0.0001, -0.0060,  0.0004, -0.0033, -0.0176,
+         0.0233, -0.0297], device='cuda:0'), grad: tensor([-7.1414e-06,  3.7909e-04, -1.7309e-03, -1.6060e-03, -1.7719e-03,
+        -9.1314e-04,  2.7671e-05,  4.1695e-03,  1.9064e-03, -4.5228e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 23, time 219.60, cls_loss 0.0213 cls_loss_mapping 0.0442 cls_loss_causal 0.8028 re_mapping 0.0213 re_causal 0.0642 /// teacc 98.54 lr 0.00010000
+Epoch 25, weight, value: tensor([[-0.0046, -0.0275,  0.0588,  ..., -0.0096, -0.0305, -0.0225],
+        [-0.0507, -0.0307, -0.0569,  ...,  0.0033,  0.0405,  0.0384],
+        [-0.0116, -0.0089, -0.0152,  ..., -0.0261,  0.0196, -0.0516],
+        ...,
+        [-0.0640, -0.0592,  0.0237,  ..., -0.0660, -0.0407, -0.0443],
+        [ 0.0457,  0.0264, -0.0359,  ..., -0.0632, -0.0114, -0.0422],
+        [-0.0136,  0.0325, -0.0416,  ..., -0.0162, -0.0542, -0.0143]],
+       device='cuda:0'), grad: tensor([[ 2.2459e-04,  1.7607e-04,  7.1669e-04,  ...,  5.5045e-05,
+          5.7793e-04,  2.4056e-04],
+        [ 2.5773e-04,  2.8324e-04,  2.0528e-04,  ...,  2.0039e-04,
+          2.1303e-04,  3.0875e-05],
+        [-5.8222e-04, -2.6250e-04,  4.2295e-04,  ...,  4.8310e-05,
+         -1.3638e-04,  1.6975e-04],
+        ...,
+        [ 2.5511e-04,  2.4104e-04,  1.3120e-05,  ...,  4.0591e-05,
+         -2.3007e-04,  7.2896e-05],
+        [ 7.0691e-05,  1.5891e-04,  1.7822e-04,  ...,  2.7800e-04,
+          4.0501e-05,  3.5763e-05],
+        [ 9.9468e-04,  1.2684e-03,  5.1975e-04,  ...,  8.3542e-04,
+          1.6069e-04,  1.9044e-05]], device='cuda:0')
+Epoch 25, bias, value: tensor([-2.2794e-02, -2.0575e-02, -1.9383e-02, -9.0776e-05, -5.9636e-03,
+         3.1688e-04, -3.0130e-03, -1.7527e-02,  2.2929e-02, -2.9919e-02],
+       device='cuda:0'), grad: tensor([ 0.0015,  0.0011, -0.0031, -0.0008, -0.0005, -0.0003,  0.0005, -0.0023,
+         0.0009,  0.0030], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 24, time 219.45, cls_loss 0.0211 cls_loss_mapping 0.0444 cls_loss_causal 0.8315 re_mapping 0.0210 re_causal 0.0647 /// teacc 98.65 lr 0.00010000
+Epoch 26, weight, value: tensor([[-0.0048, -0.0277,  0.0594,  ..., -0.0092, -0.0310, -0.0228],
+        [-0.0517, -0.0320, -0.0583,  ...,  0.0026,  0.0405,  0.0415],
+        [-0.0123, -0.0097, -0.0163,  ..., -0.0263,  0.0198, -0.0539],
+        ...,
+        [-0.0645, -0.0597,  0.0240,  ..., -0.0667, -0.0413, -0.0456],
+        [ 0.0462,  0.0267, -0.0361,  ..., -0.0634, -0.0109, -0.0426],
+        [-0.0129,  0.0333, -0.0422,  ..., -0.0158, -0.0545, -0.0132]],
+       device='cuda:0'), grad: tensor([[ 6.3372e-04,  4.0698e-04,  3.4595e-04,  ...,  1.0711e-04,
+          4.9639e-04,  1.9316e-06],
+        [ 1.4091e-04,  7.8082e-05,  1.0413e-04,  ...,  2.2322e-05,
+          1.4794e-04, -3.0309e-05],
+        [ 3.4928e-04,  2.1315e-04,  2.0659e-04,  ...,  6.9559e-05,
+          2.7466e-04,  7.0632e-06],
+        ...,
+        [ 3.5810e-04, -5.5939e-05, -4.5180e-04,  ...,  2.5320e-04,
+          1.5748e-04,  7.8678e-06],
+        [-2.6970e-03, -1.2741e-03, -5.4121e-04,  ..., -1.5688e-04,
+         -1.9646e-03,  6.7987e-06],
+        [-3.4618e-04, -5.6028e-05,  3.5644e-04,  ..., -5.8746e-04,
+          4.7469e-04,  2.2128e-06]], device='cuda:0')
+Epoch 26, bias, value: tensor([-0.0227, -0.0211, -0.0194, -0.0001, -0.0060,  0.0003, -0.0031, -0.0174,
+         0.0231, -0.0298], device='cuda:0'), grad: tensor([ 0.0011,  0.0005,  0.0006,  0.0012,  0.0002,  0.0008,  0.0005, -0.0004,
+        -0.0043, -0.0002], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 25----------------------------------------------------
+epoch 25, time 220.15, cls_loss 0.0184 cls_loss_mapping 0.0395 cls_loss_causal 0.8051 re_mapping 0.0204 re_causal 0.0641 /// teacc 98.91 lr 0.00010000
+Epoch 27, weight, value: tensor([[-0.0050, -0.0274,  0.0600,  ..., -0.0090, -0.0312, -0.0232],
+        [-0.0521, -0.0325, -0.0597,  ...,  0.0028,  0.0406,  0.0441],
+        [-0.0128, -0.0106, -0.0166,  ..., -0.0271,  0.0199, -0.0555],
+        ...,
+        [-0.0650, -0.0601,  0.0242,  ..., -0.0675, -0.0418, -0.0462],
+        [ 0.0465,  0.0265, -0.0366,  ..., -0.0643, -0.0108, -0.0431],
+        [-0.0124,  0.0336, -0.0426,  ..., -0.0150, -0.0553, -0.0140]],
+       device='cuda:0'), grad: tensor([[ 2.7597e-05, -7.8619e-05, -1.1152e-04,  ..., -1.0216e-04,
+          1.3769e-04,  1.9580e-05],
+        [ 5.5611e-05,  2.0385e-05,  2.3155e-03,  ..., -1.6105e-04,
+          9.9792e-03,  1.9484e-03],
+        [ 3.3641e-04,  1.1474e-04, -2.5139e-03,  ...,  1.2636e-04,
+         -1.1322e-02, -2.1725e-03],
+        ...,
+        [ 1.1301e-04,  7.5340e-05, -3.6880e-06,  ...,  1.1563e-04,
+          6.0225e-04,  1.0520e-04],
+        [-1.1587e-03, -4.5061e-04,  1.0006e-05,  ...,  1.9878e-05,
+         -6.5851e-04, -6.6102e-05],
+        [-6.8903e-05, -4.5747e-05,  1.3173e-04,  ..., -9.3281e-05,
+          1.1122e-04,  8.9630e-06]], device='cuda:0')
+Epoch 27, bias, value: tensor([-0.0229, -0.0215, -0.0194, -0.0003, -0.0061,  0.0003, -0.0029, -0.0170,
+         0.0230, -0.0296], device='cuda:0'), grad: tensor([ 0.0001,  0.0122, -0.0141,  0.0012,  0.0005,  0.0003,  0.0002,  0.0010,
+        -0.0016,  0.0002], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 26, time 219.39, cls_loss 0.0229 cls_loss_mapping 0.0422 cls_loss_causal 0.8035 re_mapping 0.0193 re_causal 0.0598 /// teacc 98.72 lr 0.00010000
+Epoch 28, weight, value: tensor([[-0.0053, -0.0275,  0.0601,  ..., -0.0090, -0.0317, -0.0235],
+        [-0.0527, -0.0334, -0.0605,  ...,  0.0031,  0.0407,  0.0484],
+        [-0.0136, -0.0110, -0.0173,  ..., -0.0276,  0.0197, -0.0573],
+        ...,
+        [-0.0660, -0.0611,  0.0246,  ..., -0.0687, -0.0418, -0.0482],
+        [ 0.0471,  0.0265, -0.0370,  ..., -0.0648, -0.0107, -0.0433],
+        [-0.0124,  0.0337, -0.0433,  ..., -0.0149, -0.0558, -0.0150]],
+       device='cuda:0'), grad: tensor([[ 1.7619e-04,  1.4818e-04, -1.1528e-04,  ..., -2.9302e-04,
+          1.0538e-04,  3.5251e-07],
+        [ 4.1485e-05,  5.5015e-05,  3.7134e-05,  ..., -1.5616e-05,
+         -1.0610e-05, -2.3365e-05],
+        [ 9.0480e-05,  1.2827e-04,  1.1098e-04,  ...,  6.5565e-05,
+          2.1800e-05,  4.0233e-06],
+        ...,
+        [ 5.1689e-04,  5.6505e-04,  3.6448e-05,  ...,  2.6441e-04,
+          2.9892e-05,  8.1360e-06],
+        [-3.5787e-04, -6.3229e-04, -6.5327e-04,  ...,  1.2445e-04,
+         -2.4092e-04,  4.0531e-06],
+        [-8.6308e-04, -8.1062e-04,  1.3554e-04,  ..., -1.9586e-04,
+          4.2289e-05,  1.4938e-06]], device='cuda:0')
+Epoch 28, bias, value: tensor([-0.0233, -0.0217, -0.0195, -0.0001, -0.0059,  0.0007, -0.0026, -0.0170,
+         0.0231, -0.0299], device='cuda:0'), grad: tensor([ 1.8454e-04,  7.2181e-05,  2.1756e-04,  8.5235e-06,  8.0442e-04,
+         4.2796e-04,  1.9372e-04,  9.3842e-04, -9.4748e-04, -1.9026e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 27, time 219.55, cls_loss 0.0165 cls_loss_mapping 0.0374 cls_loss_causal 0.8007 re_mapping 0.0192 re_causal 0.0601 /// teacc 98.76 lr 0.00010000
+Epoch 29, weight, value: tensor([[-0.0057, -0.0275,  0.0604,  ..., -0.0092, -0.0322, -0.0237],
+        [-0.0528, -0.0336, -0.0607,  ...,  0.0040,  0.0410,  0.0518],
+        [-0.0140, -0.0118, -0.0179,  ..., -0.0281,  0.0199, -0.0586],
+        ...,
+        [-0.0666, -0.0616,  0.0249,  ..., -0.0701, -0.0423, -0.0490],
+        [ 0.0476,  0.0266, -0.0370,  ..., -0.0653, -0.0106, -0.0445],
+        [-0.0121,  0.0340, -0.0440,  ..., -0.0143, -0.0565, -0.0154]],
+       device='cuda:0'), grad: tensor([[ 2.2128e-05, -4.6253e-05, -8.6188e-05,  ..., -8.3208e-05,
+          2.4229e-05,  3.8594e-06],
+        [ 1.1742e-05,  2.0623e-05,  1.0081e-05,  ..., -7.2420e-05,
+         -6.7890e-05, -6.5088e-05],
+        [ 6.6698e-05,  3.8505e-05,  6.8918e-06,  ...,  6.3419e-05,
+          3.9816e-05,  2.4348e-05],
+        ...,
+        [ 6.2287e-05,  1.4871e-05,  3.2067e-04,  ...,  2.6703e-05,
+          3.8218e-04,  1.4883e-06],
+        [-4.2081e-04, -3.8981e-04,  3.8713e-05,  ..., -5.2959e-05,
+          1.1720e-05,  2.0772e-05],
+        [ 4.1533e-04,  4.1389e-04,  3.8099e-04,  ...,  2.3055e-04,
+          2.1338e-04,  9.0897e-07]], device='cuda:0')
+Epoch 29, bias, value: tensor([-2.3827e-02, -2.1447e-02, -1.9447e-02, -2.9188e-05, -5.9508e-03,
+         8.6953e-04, -2.9948e-03, -1.7191e-02,  2.3226e-02, -2.9735e-02],
+       device='cuda:0'), grad: tensor([-2.3227e-06, -2.5406e-06,  7.0512e-05, -1.5676e-04, -9.9659e-04,
+         2.1207e-04,  1.5885e-05, -4.3654e-04, -3.3069e-04,  1.6270e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 28, time 219.66, cls_loss 0.0150 cls_loss_mapping 0.0309 cls_loss_causal 0.7713 re_mapping 0.0187 re_causal 0.0585 /// teacc 98.90 lr 0.00010000
+Epoch 30, weight, value: tensor([[-0.0058, -0.0273,  0.0609,  ..., -0.0087, -0.0323, -0.0240],
+        [-0.0533, -0.0340, -0.0611,  ...,  0.0042,  0.0410,  0.0560],
+        [-0.0146, -0.0127, -0.0186,  ..., -0.0288,  0.0200, -0.0600],
+        ...,
+        [-0.0672, -0.0625,  0.0253,  ..., -0.0709, -0.0420, -0.0505],
+        [ 0.0480,  0.0268, -0.0371,  ..., -0.0658, -0.0106, -0.0456],
+        [-0.0117,  0.0341, -0.0442,  ..., -0.0141, -0.0568, -0.0160]],
+       device='cuda:0'), grad: tensor([[-8.7619e-05, -4.9171e-03, -1.0834e-02,  ..., -8.1711e-03,
+          3.7014e-05,  6.9737e-06],
+        [ 1.0747e-04,  7.9691e-05,  5.2661e-05,  ..., -1.8537e-04,
+         -1.3137e-04, -2.5439e-04],
+        [ 2.5526e-05,  3.5524e-05, -3.2449e-04,  ...,  4.6909e-05,
+         -1.5993e-03,  2.7508e-05],
+        ...,
+        [ 1.4693e-05,  3.5286e-05,  1.5724e-04,  ...,  9.3341e-05,
+          5.6982e-04,  7.9453e-05],
+        [-2.9397e-04, -1.1957e-04,  2.6369e-04,  ...,  1.1671e-04,
+          7.7391e-04,  1.4827e-05],
+        [ 3.0637e-05,  1.4293e-04,  2.4557e-04,  ...,  1.3173e-04,
+          8.1062e-05,  2.8223e-05]], device='cuda:0')
+Epoch 30, bias, value: tensor([-2.3563e-02, -2.1745e-02, -1.9390e-02, -7.9219e-05, -5.9359e-03,
+         6.2990e-04, -3.2675e-03, -1.6970e-02,  2.3242e-02, -2.9532e-02],
+       device='cuda:0'), grad: tensor([-0.0090, -0.0001, -0.0028,  0.0006,  0.0004,  0.0070,  0.0015,  0.0008,
+         0.0012,  0.0004], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 29, time 219.67, cls_loss 0.0179 cls_loss_mapping 0.0366 cls_loss_causal 0.7344 re_mapping 0.0181 re_causal 0.0555 /// teacc 98.84 lr 0.00010000
+Epoch 31, weight, value: tensor([[-0.0059, -0.0270,  0.0618,  ..., -0.0081, -0.0325, -0.0242],
+        [-0.0536, -0.0348, -0.0621,  ...,  0.0046,  0.0409,  0.0583],
+        [-0.0152, -0.0133, -0.0192,  ..., -0.0295,  0.0200, -0.0614],
+        ...,
+        [-0.0678, -0.0630,  0.0249,  ..., -0.0717, -0.0425, -0.0517],
+        [ 0.0485,  0.0273, -0.0372,  ..., -0.0662, -0.0104, -0.0463],
+        [-0.0114,  0.0341, -0.0447,  ..., -0.0137, -0.0576, -0.0169]],
+       device='cuda:0'), grad: tensor([[-1.0071e-03, -1.8978e-03, -2.2717e-03,  ..., -1.6336e-03,
+         -5.6887e-04,  1.5097e-06],
+        [ 1.1533e-04,  1.8656e-04,  2.1601e-04,  ...,  9.8348e-05,
+         -1.0163e-05, -9.6440e-05],
+        [-3.0413e-05,  5.8144e-05,  5.4300e-05,  ...,  1.1373e-04,
+         -1.3816e-04,  3.0205e-05],
+        ...,
+        [ 4.0591e-05,  3.7551e-05, -9.0152e-07,  ...,  4.5329e-05,
+          5.2959e-05,  1.5318e-05],
+        [ 3.4881e-04,  5.8889e-04,  6.3848e-04,  ...,  5.0640e-04,
+          2.3019e-04,  9.1940e-06],
+        [ 6.0916e-05,  8.7440e-05,  2.4986e-04,  ...,  8.5652e-05,
+          8.9526e-05,  7.6964e-06]], device='cuda:0')
+Epoch 31, bias, value: tensor([-2.3240e-02, -2.2042e-02, -1.9281e-02, -3.8417e-05, -6.0768e-03,
+         8.6962e-04, -3.0596e-03, -1.7329e-02,  2.3506e-02, -2.9813e-02],
+       device='cuda:0'), grad: tensor([-0.0029,  0.0002, -0.0001,  0.0011, -0.0006, -0.0002,  0.0012, -0.0001,
+         0.0010,  0.0004], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 30, time 219.78, cls_loss 0.0143 cls_loss_mapping 0.0308 cls_loss_causal 0.7170 re_mapping 0.0183 re_causal 0.0555 /// teacc 98.89 lr 0.00010000
+Epoch 32, weight, value: tensor([[-0.0057, -0.0268,  0.0618,  ..., -0.0083, -0.0328, -0.0245],
+        [-0.0539, -0.0353, -0.0626,  ...,  0.0052,  0.0410,  0.0625],
+        [-0.0156, -0.0137, -0.0198,  ..., -0.0301,  0.0199, -0.0644],
+        ...,
+        [-0.0686, -0.0638,  0.0248,  ..., -0.0725, -0.0429, -0.0527],
+        [ 0.0487,  0.0273, -0.0372,  ..., -0.0671, -0.0102, -0.0465],
+        [-0.0114,  0.0342, -0.0450,  ..., -0.0132, -0.0582, -0.0176]],
+       device='cuda:0'), grad: tensor([[ 2.4080e-05, -3.0957e-06,  2.8431e-05,  ...,  6.5982e-05,
+          4.3362e-05,  7.3202e-07],
+        [ 1.9833e-05, -9.4950e-05,  5.5619e-06,  ..., -4.4441e-04,
+         -5.4073e-04, -4.6968e-05],
+        [ 7.1824e-05,  8.1599e-05,  7.6890e-06,  ...,  2.8539e-04,
+          2.4843e-04,  1.5765e-05],
+        ...,
+        [-7.8753e-06,  2.7746e-05,  3.1553e-06,  ...,  8.5235e-05,
+          1.3781e-04,  4.9509e-06],
+        [ 5.4747e-05,  5.5999e-05,  4.3988e-05,  ...,  1.3542e-04,
+          1.1408e-04,  7.7933e-06],
+        [-4.6420e-04, -4.6587e-04, -1.4029e-05,  ..., -9.4175e-05,
+          4.1938e-04,  3.7849e-06]], device='cuda:0')
+Epoch 32, bias, value: tensor([-0.0236, -0.0222, -0.0195,  0.0003, -0.0058,  0.0006, -0.0028, -0.0174,
+         0.0238, -0.0300], device='cuda:0'), grad: tensor([ 3.9649e-04, -1.3590e-03, -1.5726e-03,  4.8709e-04, -1.3161e-04,
+        -3.2544e-05,  9.9182e-05,  6.4135e-04,  5.5456e-04,  9.1887e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 31, time 219.60, cls_loss 0.0142 cls_loss_mapping 0.0343 cls_loss_causal 0.7776 re_mapping 0.0173 re_causal 0.0552 /// teacc 98.67 lr 0.00010000
+Epoch 33, weight, value: tensor([[-0.0056, -0.0265,  0.0624,  ..., -0.0079, -0.0331, -0.0246],
+        [-0.0543, -0.0360, -0.0633,  ...,  0.0057,  0.0411,  0.0647],
+        [-0.0162, -0.0147, -0.0205,  ..., -0.0311,  0.0200, -0.0648],
+        ...,
+        [-0.0691, -0.0644,  0.0249,  ..., -0.0729, -0.0430, -0.0542],
+        [ 0.0492,  0.0276, -0.0376,  ..., -0.0679, -0.0101, -0.0479],
+        [-0.0110,  0.0345, -0.0453,  ..., -0.0128, -0.0588, -0.0182]],
+       device='cuda:0'), grad: tensor([[ 8.8140e-06, -9.6202e-05, -2.4223e-04,  ..., -9.9123e-05,
+          4.3005e-05,  1.7881e-05],
+        [-3.4422e-05,  9.2238e-06, -7.6532e-05,  ..., -4.4751e-04,
+         -1.0719e-03, -6.0320e-04],
+        [ 3.2455e-05,  4.5091e-05,  5.1260e-05,  ...,  7.9155e-05,
+          2.4378e-04,  1.1843e-04],
+        ...,
+        [ 7.3075e-05,  7.7128e-05,  3.9726e-05,  ...,  1.1468e-04,
+          1.7250e-04,  9.3818e-05],
+        [ 4.1509e-04,  7.4053e-04,  2.1374e-04,  ...,  3.3164e-04,
+          4.5347e-04,  2.1505e-04],
+        [-2.4652e-04, -1.0949e-04,  4.3929e-05,  ..., -1.2529e-04,
+          1.2958e-04,  1.0483e-05]], device='cuda:0')
+Epoch 33, bias, value: tensor([-0.0235, -0.0223, -0.0197,  0.0001, -0.0060,  0.0012, -0.0033, -0.0171,
+         0.0239, -0.0301], device='cuda:0'), grad: tensor([-1.7071e-04, -1.7376e-03,  5.1308e-04,  2.5673e-03,  1.2338e-05,
+        -2.7905e-03,  4.8995e-05,  1.4496e-04,  1.5249e-03, -1.1241e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 32, time 219.52, cls_loss 0.0121 cls_loss_mapping 0.0304 cls_loss_causal 0.7599 re_mapping 0.0174 re_causal 0.0545 /// teacc 98.76 lr 0.00010000
+Epoch 34, weight, value: tensor([[-0.0059, -0.0263,  0.0629,  ..., -0.0076, -0.0335, -0.0248],
+        [-0.0545, -0.0364, -0.0642,  ...,  0.0063,  0.0410,  0.0680],
+        [-0.0167, -0.0154, -0.0209,  ..., -0.0317,  0.0201, -0.0666],
+        ...,
+        [-0.0696, -0.0650,  0.0253,  ..., -0.0740, -0.0426, -0.0556],
+        [ 0.0493,  0.0272, -0.0376,  ..., -0.0684, -0.0099, -0.0488],
+        [-0.0106,  0.0349, -0.0461,  ..., -0.0122, -0.0595, -0.0188]],
+       device='cuda:0'), grad: tensor([[-2.3365e-05,  3.4422e-05,  2.2829e-04,  ...,  5.1945e-05,
+          1.2875e-04,  2.1998e-06],
+        [ 2.7359e-05,  8.1182e-05,  1.1384e-04,  ...,  5.9754e-05,
+          5.6416e-05, -4.9472e-05],
+        [-2.2516e-05, -3.1829e-05,  1.1718e-04,  ..., -5.0738e-06,
+         -2.7442e-04,  1.6734e-05],
+        ...,
+        [ 8.9467e-05,  1.1533e-04,  5.9605e-05,  ...,  7.7546e-05,
+          1.5438e-04,  8.4043e-06],
+        [ 1.3959e-04,  3.3283e-03,  2.7046e-03,  ...,  1.5135e-03,
+          1.3280e-04,  1.5870e-05],
+        [-3.4714e-04, -1.5879e-04,  1.4651e-04,  ..., -2.7251e-04,
+          2.8086e-04,  2.2277e-06]], device='cuda:0')
+Epoch 34, bias, value: tensor([-0.0235, -0.0223, -0.0195,  0.0005, -0.0060,  0.0010, -0.0034, -0.0169,
+         0.0240, -0.0304], device='cuda:0'), grad: tensor([ 0.0003,  0.0004, -0.0006,  0.0010, -0.0011, -0.0051,  0.0003, -0.0004,
+         0.0045,  0.0007], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 33, time 219.54, cls_loss 0.0118 cls_loss_mapping 0.0292 cls_loss_causal 0.7482 re_mapping 0.0163 re_causal 0.0520 /// teacc 98.88 lr 0.00010000
+Epoch 35, weight, value: tensor([[-0.0061, -0.0262,  0.0633,  ..., -0.0072, -0.0339, -0.0250],
+        [-0.0550, -0.0369, -0.0645,  ...,  0.0063,  0.0409,  0.0710],
+        [-0.0168, -0.0155, -0.0214,  ..., -0.0315,  0.0202, -0.0673],
+        ...,
+        [-0.0702, -0.0657,  0.0252,  ..., -0.0751, -0.0425, -0.0567],
+        [ 0.0498,  0.0271, -0.0382,  ..., -0.0694, -0.0095, -0.0499],
+        [-0.0102,  0.0351, -0.0465,  ..., -0.0115, -0.0602, -0.0193]],
+       device='cuda:0'), grad: tensor([[ 7.9775e-04,  7.4339e-04,  4.0674e-04,  ...,  7.0047e-04,
+          4.0674e-04,  2.9728e-06],
+        [ 3.2395e-05,  5.9605e-05,  9.5189e-05,  ..., -9.4652e-05,
+         -1.0169e-04, -2.1827e-04],
+        [ 2.7299e-04,  3.4571e-04,  2.8753e-04,  ...,  2.0874e-04,
+          3.9697e-04,  3.4064e-05],
+        ...,
+        [ 8.7857e-05,  1.3828e-04,  1.5938e-04,  ...,  1.0002e-04,
+          2.5392e-04,  1.2286e-05],
+        [ 3.1891e-03,  2.8286e-03,  1.1873e-03,  ...,  3.1681e-03,
+         -1.1492e-03,  8.3745e-05],
+        [-6.1836e-03, -5.9204e-03, -2.9697e-03,  ..., -5.1880e-03,
+         -9.5272e-04,  1.1668e-05]], device='cuda:0')
+Epoch 35, bias, value: tensor([-0.0234, -0.0226, -0.0196,  0.0003, -0.0061,  0.0008, -0.0032, -0.0166,
+         0.0241, -0.0304], device='cuda:0'), grad: tensor([ 0.0013,  0.0003,  0.0003,  0.0011,  0.0039,  0.0011, -0.0010, -0.0002,
+         0.0020, -0.0088], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 34, time 219.71, cls_loss 0.0122 cls_loss_mapping 0.0291 cls_loss_causal 0.7240 re_mapping 0.0159 re_causal 0.0498 /// teacc 98.82 lr 0.00010000
+Epoch 36, weight, value: tensor([[-0.0064, -0.0264,  0.0636,  ..., -0.0072, -0.0343, -0.0255],
+        [-0.0553, -0.0372, -0.0649,  ...,  0.0068,  0.0410,  0.0758],
+        [-0.0171, -0.0163, -0.0222,  ..., -0.0322,  0.0203, -0.0692],
+        ...,
+        [-0.0707, -0.0663,  0.0251,  ..., -0.0757, -0.0427, -0.0591],
+        [ 0.0502,  0.0273, -0.0383,  ..., -0.0701, -0.0095, -0.0522],
+        [-0.0098,  0.0354, -0.0469,  ..., -0.0111, -0.0608, -0.0204]],
+       device='cuda:0'), grad: tensor([[ 2.6539e-05, -9.7632e-05, -3.0470e-04,  ..., -2.1553e-04,
+          3.0361e-06,  7.8324e-07],
+        [ 3.5912e-05,  6.0022e-05,  7.3671e-05,  ...,  5.4628e-05,
+         -6.7616e-04, -3.1412e-05],
+        [ 1.1247e-04,  1.3542e-04, -5.8293e-05,  ...,  1.2779e-04,
+          3.2616e-04,  2.7772e-06],
+        ...,
+        [ 6.1274e-05,  6.5088e-05,  2.1911e-04,  ...,  5.9098e-05,
+          2.2125e-04,  5.6997e-06],
+        [ 2.5296e-04,  3.0470e-04,  1.3626e-04,  ...,  2.2697e-04,
+          2.7013e-04,  5.5507e-06],
+        [-2.9230e-04, -2.1541e-04,  1.4460e-04,  ..., -1.0276e-04,
+          1.4174e-04,  1.0403e-06]], device='cuda:0')
+Epoch 36, bias, value: tensor([-2.3718e-02, -2.2638e-02, -1.9088e-02,  7.9559e-05, -6.2840e-03,
+         1.0021e-03, -2.9039e-03, -1.6538e-02,  2.4004e-02, -3.0642e-02],
+       device='cuda:0'), grad: tensor([-3.4428e-04, -8.6832e-04, -5.1260e-05, -5.9652e-04, -1.6332e-04,
+         2.2745e-04,  7.6354e-05,  9.3937e-04,  8.7929e-04, -9.7752e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 35, time 219.72, cls_loss 0.0134 cls_loss_mapping 0.0288 cls_loss_causal 0.7445 re_mapping 0.0157 re_causal 0.0493 /// teacc 98.74 lr 0.00010000
+Epoch 37, weight, value: tensor([[-0.0066, -0.0263,  0.0641,  ..., -0.0072, -0.0346, -0.0256],
+        [-0.0556, -0.0382, -0.0657,  ...,  0.0072,  0.0411,  0.0780],
+        [-0.0176, -0.0171, -0.0228,  ..., -0.0330,  0.0202, -0.0689],
+        ...,
+        [-0.0717, -0.0673,  0.0254,  ..., -0.0768, -0.0430, -0.0615],
+        [ 0.0504,  0.0271, -0.0390,  ..., -0.0708, -0.0094, -0.0527],
+        [-0.0093,  0.0362, -0.0469,  ..., -0.0102, -0.0613, -0.0210]],
+       device='cuda:0'), grad: tensor([[ 4.6670e-05,  1.7628e-05, -4.1991e-05,  ..., -3.6597e-05,
+          2.8357e-05,  1.3690e-06],
+        [ 2.0519e-05,  2.1830e-05,  1.7926e-05,  ..., -2.6390e-05,
+         -1.3947e-05, -5.6565e-05],
+        [ 1.3983e-04,  1.5152e-04,  2.9907e-05,  ...,  8.7321e-05,
+          4.2468e-06,  5.1968e-06],
+        ...,
+        [ 4.2468e-05,  4.6730e-05,  9.7007e-06,  ...,  3.6776e-05,
+          7.0572e-05,  1.4454e-05],
+        [-3.9887e-04, -3.1853e-04, -2.2006e-04,  ...,  4.3869e-05,
+         -1.5402e-04,  1.4074e-05],
+        [ 3.4428e-04,  3.3355e-04,  2.9206e-04,  ...,  1.2255e-04,
+          2.9445e-04,  4.5411e-06]], device='cuda:0')
+Epoch 37, bias, value: tensor([-0.0239, -0.0229, -0.0192,  0.0004, -0.0061,  0.0007, -0.0025, -0.0165,
+         0.0237, -0.0304], device='cuda:0'), grad: tensor([ 1.2827e-04,  4.0591e-05, -3.2330e-04, -5.3940e-03, -3.0541e-04,
+         5.2986e-03,  1.5962e-04,  1.3554e-04, -6.2799e-04,  8.9121e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 36----------------------------------------------------
+epoch 36, time 220.66, cls_loss 0.0093 cls_loss_mapping 0.0249 cls_loss_causal 0.7233 re_mapping 0.0157 re_causal 0.0507 /// teacc 98.99 lr 0.00010000
+Epoch 38, weight, value: tensor([[-0.0067, -0.0261,  0.0644,  ..., -0.0069, -0.0349, -0.0257],
+        [-0.0561, -0.0388, -0.0665,  ...,  0.0075,  0.0413,  0.0812],
+        [-0.0182, -0.0178, -0.0234,  ..., -0.0335,  0.0201, -0.0703],
+        ...,
+        [-0.0723, -0.0682,  0.0252,  ..., -0.0778, -0.0435, -0.0636],
+        [ 0.0509,  0.0271, -0.0393,  ..., -0.0713, -0.0093, -0.0537],
+        [-0.0091,  0.0364, -0.0474,  ..., -0.0099, -0.0620, -0.0219]],
+       device='cuda:0'), grad: tensor([[ 2.9653e-05,  2.4945e-05, -1.0061e-04,  ..., -6.4969e-05,
+          1.7345e-05,  2.4922e-06],
+        [ 2.2113e-05,  3.2097e-05,  7.1414e-06,  ..., -4.0126e-04,
+         -2.8110e-04, -2.6560e-04],
+        [ 4.5031e-05,  6.8426e-05,  3.3081e-05,  ...,  5.4926e-05,
+          7.5027e-06,  2.2471e-05],
+        ...,
+        [ 3.0828e-04,  3.8075e-04,  4.2498e-05,  ...,  3.7670e-04,
+          1.7595e-04,  1.5032e-04],
+        [ 6.2823e-05,  1.1790e-04,  1.2732e-04,  ...,  1.9217e-04,
+         -6.8963e-05,  2.8059e-05],
+        [-1.6251e-03, -1.7433e-03, -1.3554e-04,  ..., -5.6028e-04,
+          2.6762e-05,  1.7852e-05]], device='cuda:0')
+Epoch 38, bias, value: tensor([-0.0240, -0.0228, -0.0196,  0.0005, -0.0058,  0.0008, -0.0025, -0.0164,
+         0.0238, -0.0307], device='cuda:0'), grad: tensor([ 3.8855e-06, -8.8358e-04,  2.1696e-04,  1.2817e-03,  9.3126e-04,
+         1.0204e-03, -4.3917e-04,  1.1654e-03,  2.5797e-04, -3.5534e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 37, time 219.74, cls_loss 0.0085 cls_loss_mapping 0.0231 cls_loss_causal 0.7267 re_mapping 0.0151 re_causal 0.0494 /// teacc 98.87 lr 0.00010000
+Epoch 39, weight, value: tensor([[-0.0070, -0.0262,  0.0646,  ..., -0.0070, -0.0350, -0.0256],
+        [-0.0564, -0.0392, -0.0667,  ...,  0.0080,  0.0417,  0.0850],
+        [-0.0187, -0.0183, -0.0237,  ..., -0.0336,  0.0201, -0.0724],
+        ...,
+        [-0.0727, -0.0688,  0.0252,  ..., -0.0787, -0.0439, -0.0649],
+        [ 0.0514,  0.0273, -0.0396,  ..., -0.0719, -0.0092, -0.0548],
+        [-0.0085,  0.0368, -0.0477,  ..., -0.0089, -0.0625, -0.0224]],
+       device='cuda:0'), grad: tensor([[-4.6104e-05, -1.4997e-04, -1.3387e-04,  ..., -1.1921e-04,
+          3.7313e-05,  5.6298e-07],
+        [ 2.3752e-05,  2.7329e-05,  1.6344e-04,  ...,  1.8203e-04,
+          3.4285e-04, -3.4839e-05],
+        [ 1.7017e-05,  4.0948e-05,  5.0735e-04,  ...,  6.2323e-04,
+          1.1282e-03,  1.4082e-06],
+        ...,
+        [ 2.6613e-05,  2.5973e-05,  1.9446e-05,  ...,  3.7819e-05,
+          4.8250e-05,  1.3806e-05],
+        [-1.6558e-04, -1.1182e-04,  1.5128e-04,  ...,  2.3282e-04,
+          2.6441e-04,  3.7365e-06],
+        [ 2.4989e-05,  1.3125e-04,  1.5569e-04,  ...,  3.7640e-05,
+          1.0353e-04,  1.2498e-06]], device='cuda:0')
+Epoch 39, bias, value: tensor([-0.0242, -0.0226, -0.0192,  0.0004, -0.0060,  0.0005, -0.0023, -0.0166,
+         0.0239, -0.0305], device='cuda:0'), grad: tensor([-2.0146e-04,  5.2786e-04,  1.6470e-03,  4.1032e-04,  3.5095e-04,
+        -6.2704e-05, -3.2597e-03, -3.2902e-05,  2.8157e-04,  3.4022e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 38, time 219.31, cls_loss 0.0117 cls_loss_mapping 0.0286 cls_loss_causal 0.7104 re_mapping 0.0150 re_causal 0.0477 /// teacc 98.89 lr 0.00010000
+Epoch 40, weight, value: tensor([[-0.0074, -0.0259,  0.0650,  ..., -0.0068, -0.0354, -0.0253],
+        [-0.0574, -0.0405, -0.0672,  ...,  0.0071,  0.0413,  0.0873],
+        [-0.0191, -0.0186, -0.0242,  ..., -0.0338,  0.0204, -0.0732],
+        ...,
+        [-0.0731, -0.0694,  0.0256,  ..., -0.0792, -0.0438, -0.0666],
+        [ 0.0516,  0.0273, -0.0399,  ..., -0.0725, -0.0093, -0.0559],
+        [-0.0074,  0.0375, -0.0479,  ..., -0.0077, -0.0629, -0.0220]],
+       device='cuda:0'), grad: tensor([[-1.2684e-04, -4.8780e-04, -8.0538e-04,  ..., -5.9462e-04,
+          3.3677e-05,  7.5623e-07],
+        [-1.4808e-07,  2.4959e-05,  2.6021e-06,  ..., -3.5906e-04,
+         -6.6471e-04, -2.0921e-04],
+        [ 1.9252e-05,  5.0783e-05,  4.9412e-05,  ...,  1.6046e-04,
+          1.8811e-04,  2.7627e-05],
+        ...,
+        [ 4.8846e-05,  7.1526e-05,  4.8935e-05,  ...,  1.2982e-04,
+          2.0134e-04,  6.3479e-05],
+        [-1.2922e-04,  1.2082e-04,  1.2970e-04,  ...,  1.6093e-04,
+          2.3916e-05,  4.3184e-05],
+        [ 2.2203e-05,  2.4247e-04,  1.7309e-04,  ...,  1.7333e-04,
+          4.7058e-05,  2.0027e-05]], device='cuda:0')
+Epoch 40, bias, value: tensor([-2.4196e-02, -2.3602e-02, -1.9108e-02, -5.6704e-05, -6.4744e-03,
+         8.1751e-04, -2.4925e-03, -1.5650e-02,  2.3544e-02, -2.9902e-02],
+       device='cuda:0'), grad: tensor([-0.0012, -0.0012,  0.0003,  0.0004,  0.0002, -0.0006,  0.0008,  0.0005,
+         0.0003,  0.0006], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 39, time 219.56, cls_loss 0.0090 cls_loss_mapping 0.0260 cls_loss_causal 0.7121 re_mapping 0.0149 re_causal 0.0469 /// teacc 98.83 lr 0.00010000
+Epoch 41, weight, value: tensor([[-0.0073, -0.0254,  0.0656,  ..., -0.0062, -0.0358, -0.0253],
+        [-0.0577, -0.0409, -0.0675,  ...,  0.0076,  0.0420,  0.0914],
+        [-0.0195, -0.0193, -0.0246,  ..., -0.0344,  0.0203, -0.0747],
+        ...,
+        [-0.0735, -0.0700,  0.0257,  ..., -0.0801, -0.0446, -0.0693],
+        [ 0.0519,  0.0271, -0.0402,  ..., -0.0730, -0.0092, -0.0579],
+        [-0.0072,  0.0377, -0.0484,  ..., -0.0071, -0.0637, -0.0221]],
+       device='cuda:0'), grad: tensor([[-2.7530e-06, -5.1260e-05, -1.0639e-04,  ..., -5.5462e-05,
+          1.6108e-05,  4.7460e-06],
+        [ 4.8578e-06, -1.1586e-05, -3.3498e-04,  ..., -3.3349e-05,
+         -6.1369e-04, -4.5753e-04],
+        [ 1.4558e-05,  3.6746e-05,  5.5373e-05,  ...,  4.0084e-05,
+          5.4449e-05,  5.7310e-05],
+        ...,
+        [ 3.0413e-05,  2.9698e-05,  1.7002e-05,  ...,  5.7071e-05,
+          1.3483e-04,  6.6459e-05],
+        [ 2.6435e-05,  6.0469e-05,  4.6700e-05,  ...,  4.5896e-05,
+          5.6475e-05,  3.1948e-05],
+        [-7.9751e-05, -2.5406e-05,  2.7120e-05,  ..., -8.3148e-05,
+          1.3493e-05,  5.2974e-06]], device='cuda:0')
+Epoch 41, bias, value: tensor([-0.0240, -0.0227, -0.0192, -0.0002, -0.0059,  0.0007, -0.0025, -0.0160,
+         0.0233, -0.0302], device='cuda:0'), grad: tensor([ 4.6581e-05, -1.4086e-03, -4.2272e-04,  3.0327e-04,  5.0402e-04,
+         4.9531e-05,  2.0516e-04,  4.5252e-04,  2.7418e-04, -4.3996e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 40, time 219.77, cls_loss 0.0098 cls_loss_mapping 0.0239 cls_loss_causal 0.7020 re_mapping 0.0145 re_causal 0.0449 /// teacc 98.86 lr 0.00010000
+Epoch 42, weight, value: tensor([[-0.0073, -0.0253,  0.0661,  ..., -0.0056, -0.0353, -0.0257],
+        [-0.0580, -0.0412, -0.0681,  ...,  0.0077,  0.0421,  0.0948],
+        [-0.0200, -0.0200, -0.0252,  ..., -0.0351,  0.0204, -0.0760],
+        ...,
+        [-0.0740, -0.0708,  0.0259,  ..., -0.0812, -0.0450, -0.0706],
+        [ 0.0521,  0.0273, -0.0398,  ..., -0.0734, -0.0091, -0.0594],
+        [-0.0070,  0.0379, -0.0489,  ..., -0.0064, -0.0641, -0.0209]],
+       device='cuda:0'), grad: tensor([[ 1.8179e-04,  2.5344e-04,  1.0359e-04,  ...,  1.0389e-04,
+          2.3678e-05,  5.3830e-07],
+        [ 1.8075e-05,  1.7777e-05,  1.4879e-05,  ..., -7.1079e-06,
+          5.9158e-06, -2.4885e-05],
+        [ 1.2118e-04,  1.5748e-04,  6.2585e-05,  ...,  6.9022e-05,
+         -7.0477e-04,  4.2208e-06],
+        ...,
+        [ 4.7028e-05,  5.5581e-05,  3.2455e-05,  ...,  3.5822e-05,
+          8.1062e-05,  6.4000e-06],
+        [ 6.3372e-04,  1.4086e-03,  8.5449e-04,  ...,  7.7963e-04,
+         -9.0659e-05,  4.3474e-06],
+        [-1.6870e-03, -2.7752e-03, -1.2255e-03,  ..., -1.2960e-03,
+          1.5378e-04,  1.1250e-06]], device='cuda:0')
+Epoch 42, bias, value: tensor([-0.0238, -0.0231, -0.0194,  0.0003, -0.0056,  0.0003, -0.0030, -0.0159,
+         0.0236, -0.0303], device='cuda:0'), grad: tensor([ 3.9768e-04,  4.2528e-05, -6.1131e-04,  3.8218e-04,  6.8140e-04,
+         6.2752e-04, -3.8505e-05,  2.0266e-04,  2.1381e-03, -3.8242e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 41, time 219.62, cls_loss 0.0099 cls_loss_mapping 0.0267 cls_loss_causal 0.6996 re_mapping 0.0137 re_causal 0.0455 /// teacc 98.93 lr 0.00010000
+Epoch 43, weight, value: tensor([[-0.0077, -0.0249,  0.0661,  ..., -0.0057, -0.0356, -0.0261],
+        [-0.0583, -0.0416, -0.0683,  ...,  0.0082,  0.0423,  0.0969],
+        [-0.0207, -0.0214, -0.0257,  ..., -0.0358,  0.0202, -0.0766],
+        ...,
+        [-0.0749, -0.0713,  0.0258,  ..., -0.0819, -0.0453, -0.0722],
+        [ 0.0522,  0.0269, -0.0404,  ..., -0.0743, -0.0089, -0.0600],
+        [-0.0065,  0.0380, -0.0492,  ..., -0.0061, -0.0648, -0.0212]],
+       device='cuda:0'), grad: tensor([[ 5.8264e-05, -7.8506e-03, -8.6594e-03,  ..., -8.7280e-03,
+          1.8388e-05,  3.6526e-06],
+        [ 6.2399e-06,  3.8117e-05,  3.8058e-05,  ..., -1.4079e-04,
+         -2.2316e-04, -2.7204e-04],
+        [ 3.0130e-05,  1.5330e-04,  1.3733e-04,  ...,  1.1647e-04,
+         -1.5187e-04,  8.1480e-05],
+        ...,
+        [-1.9765e-04, -3.4899e-05,  5.3078e-05,  ...,  1.2290e-04,
+          1.7452e-04,  6.9141e-05],
+        [ 4.5776e-04,  6.8903e-04,  1.5402e-04,  ...,  4.1986e-04,
+          5.4240e-05,  2.7359e-05],
+        [-6.7091e-04, -8.3780e-04, -4.8205e-06,  ..., -4.0078e-04,
+          8.5115e-05,  2.3380e-05]], device='cuda:0')
+Epoch 43, bias, value: tensor([-0.0244, -0.0230, -0.0196,  0.0006, -0.0057,  0.0009, -0.0026, -0.0155,
+         0.0232, -0.0307], device='cuda:0'), grad: tensor([-0.0114, -0.0004, -0.0009,  0.0012,  0.0002,  0.0062,  0.0042,  0.0003,
+         0.0010, -0.0004], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 42, time 219.93, cls_loss 0.0073 cls_loss_mapping 0.0192 cls_loss_causal 0.6782 re_mapping 0.0142 re_causal 0.0451 /// teacc 98.85 lr 0.00010000
+Epoch 44, weight, value: tensor([[-0.0079, -0.0239,  0.0668,  ..., -0.0047, -0.0359, -0.0261],
+        [-0.0585, -0.0420, -0.0689,  ...,  0.0086,  0.0423,  0.0991],
+        [-0.0210, -0.0221, -0.0262,  ..., -0.0364,  0.0203, -0.0781],
+        ...,
+        [-0.0756, -0.0719,  0.0256,  ..., -0.0827, -0.0456, -0.0749],
+        [ 0.0527,  0.0270, -0.0406,  ..., -0.0747, -0.0089, -0.0605],
+        [-0.0062,  0.0379, -0.0496,  ..., -0.0057, -0.0654, -0.0219]],
+       device='cuda:0'), grad: tensor([[ 1.0179e-06, -2.1070e-05,  1.3351e-05,  ..., -8.9109e-06,
+          7.2084e-06,  2.4326e-06],
+        [ 4.5151e-06,  4.5709e-06,  2.3931e-05,  ..., -3.1614e-04,
+         -9.8944e-06, -3.0661e-04],
+        [ 2.3589e-05,  2.0772e-05,  1.2791e-04,  ...,  7.0333e-05,
+          1.4350e-05,  2.8923e-05],
+        ...,
+        [ 1.0885e-05,  1.9297e-05,  4.4733e-05,  ...,  2.5606e-04,
+          3.5077e-05,  2.2399e-04],
+        [-3.2540e-06,  1.2085e-05,  9.6440e-05,  ...,  3.8326e-05,
+          2.2024e-05,  1.1459e-05],
+        [ 1.2359e-06,  9.0674e-06,  2.5630e-05,  ...,  2.1651e-05,
+          1.5646e-05,  1.4581e-05]], device='cuda:0')
+Epoch 44, bias, value: tensor([-0.0240, -0.0231, -0.0197,  0.0006, -0.0053,  0.0008, -0.0025, -0.0158,
+         0.0234, -0.0310], device='cuda:0'), grad: tensor([ 8.2850e-05, -1.6165e-03,  2.8849e-04,  5.9456e-05,  4.1455e-05,
+         6.0320e-05, -6.1941e-04,  1.3695e-03,  1.9467e-04,  1.3888e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 43, time 219.54, cls_loss 0.0090 cls_loss_mapping 0.0255 cls_loss_causal 0.7274 re_mapping 0.0135 re_causal 0.0438 /// teacc 98.95 lr 0.00010000
+Epoch 45, weight, value: tensor([[-0.0080, -0.0236,  0.0678,  ..., -0.0041, -0.0360, -0.0269],
+        [-0.0590, -0.0429, -0.0691,  ...,  0.0089,  0.0425,  0.1015],
+        [-0.0215, -0.0229, -0.0266,  ..., -0.0369,  0.0203, -0.0794],
+        ...,
+        [-0.0766, -0.0726,  0.0260,  ..., -0.0843, -0.0461, -0.0779],
+        [ 0.0531,  0.0272, -0.0412,  ..., -0.0751, -0.0086, -0.0605],
+        [-0.0054,  0.0384, -0.0500,  ..., -0.0049, -0.0657, -0.0216]],
+       device='cuda:0'), grad: tensor([[ 2.0698e-05,  9.7692e-05,  6.9916e-05,  ...,  7.4148e-05,
+          3.9697e-05,  4.5449e-06],
+        [ 9.9018e-06,  1.1176e-05, -5.7407e-06,  ..., -1.5092e-04,
+          3.1739e-05, -1.7297e-04],
+        [ 1.8939e-05,  1.7151e-05,  1.1109e-05,  ...,  2.8476e-05,
+         -1.9753e-04,  1.1832e-05],
+        ...,
+        [ 1.6198e-05,  2.2545e-05,  9.9018e-06,  ...,  3.7014e-05,
+         -7.7724e-05,  1.7866e-05],
+        [-2.0251e-05,  1.6630e-05,  5.3257e-05,  ...,  1.0252e-04,
+          9.8169e-05,  2.5272e-05],
+        [-1.4734e-04, -1.1712e-04,  4.1425e-05,  ..., -4.8429e-05,
+          1.5974e-04,  1.3500e-05]], device='cuda:0')
+Epoch 45, bias, value: tensor([-2.3655e-02, -2.2926e-02, -1.9637e-02,  8.4637e-04, -5.6999e-03,
+         6.9748e-05, -2.5480e-03, -1.6004e-02,  2.3440e-02, -3.0521e-02],
+       device='cuda:0'), grad: tensor([ 2.8539e-04,  5.7125e-04, -7.5388e-04,  3.0327e-04,  2.2328e-04,
+        -1.9205e-04, -2.8431e-05, -1.0834e-03,  3.9792e-04,  2.7776e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 44, time 219.69, cls_loss 0.0064 cls_loss_mapping 0.0209 cls_loss_causal 0.7112 re_mapping 0.0135 re_causal 0.0442 /// teacc 98.93 lr 0.00010000
+Epoch 46, weight, value: tensor([[-0.0081, -0.0233,  0.0680,  ..., -0.0039, -0.0363, -0.0270],
+        [-0.0591, -0.0434, -0.0694,  ...,  0.0098,  0.0425,  0.1034],
+        [-0.0219, -0.0234, -0.0271,  ..., -0.0373,  0.0206, -0.0795],
+        ...,
+        [-0.0771, -0.0732,  0.0258,  ..., -0.0854, -0.0464, -0.0793],
+        [ 0.0533,  0.0273, -0.0415,  ..., -0.0757, -0.0086, -0.0610],
+        [-0.0051,  0.0385, -0.0505,  ..., -0.0044, -0.0663, -0.0220]],
+       device='cuda:0'), grad: tensor([[ 8.3148e-06, -2.2069e-05, -7.3612e-05,  ..., -6.2168e-05,
+          4.7050e-06, -2.1979e-06],
+        [ 1.7658e-05,  3.3557e-05,  3.0398e-06,  ...,  6.3479e-06,
+          9.0972e-06, -1.2264e-05],
+        [ 3.3617e-05,  4.1902e-05,  4.7646e-06,  ...,  1.6302e-05,
+          1.3866e-05,  4.3102e-06],
+        ...,
+        [ 7.1824e-06,  1.9774e-05,  6.3814e-06,  ...,  6.5044e-06,
+          1.1310e-05,  1.5805e-06],
+        [-3.5524e-05, -3.3714e-06,  1.0997e-05,  ...,  3.5763e-05,
+         -4.5091e-05,  2.4643e-06],
+        [ 1.2644e-05,  9.2447e-05,  2.9027e-05,  ...,  2.5600e-05,
+          3.4153e-05,  7.7952e-07]], device='cuda:0')
+Epoch 46, bias, value: tensor([-0.0240, -0.0230, -0.0194,  0.0009, -0.0058,  0.0002, -0.0023, -0.0160,
+         0.0233, -0.0306], device='cuda:0'), grad: tensor([-6.3300e-05,  4.5836e-05,  3.9309e-05, -2.5654e-04,  5.1141e-05,
+         4.5925e-05,  1.4448e-04, -6.2346e-05, -4.8339e-05,  1.0449e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 45, time 219.65, cls_loss 0.0076 cls_loss_mapping 0.0190 cls_loss_causal 0.6688 re_mapping 0.0134 re_causal 0.0424 /// teacc 98.93 lr 0.00010000
+Epoch 47, weight, value: tensor([[-0.0081, -0.0230,  0.0684,  ..., -0.0036, -0.0364, -0.0272],
+        [-0.0595, -0.0443, -0.0708,  ...,  0.0098,  0.0424,  0.1044],
+        [-0.0225, -0.0247, -0.0280,  ..., -0.0377,  0.0207, -0.0810],
+        ...,
+        [-0.0776, -0.0739,  0.0259,  ..., -0.0863, -0.0467, -0.0809],
+        [ 0.0537,  0.0275, -0.0419,  ..., -0.0761, -0.0085, -0.0632],
+        [-0.0047,  0.0386, -0.0509,  ..., -0.0039, -0.0668, -0.0223]],
+       device='cuda:0'), grad: tensor([[ 3.8934e-04,  7.6675e-04,  3.7122e-04,  ...,  4.4203e-04,
+          1.4961e-05,  1.9278e-06],
+        [ 1.1468e-04,  1.5199e-04,  5.5544e-06,  ..., -8.2552e-06,
+          9.3132e-06, -7.4685e-05],
+        [ 1.6046e-04,  3.0398e-04,  1.2815e-04,  ...,  1.7822e-04,
+         -3.8624e-05,  1.2219e-05],
+        ...,
+        [ 8.2135e-05,  1.4842e-04,  5.4121e-05,  ...,  9.3222e-05,
+          2.5243e-05,  8.9929e-06],
+        [ 9.7871e-05,  1.5128e-04,  3.8177e-05,  ...,  1.0896e-04,
+          3.1412e-05,  1.2599e-05],
+        [-7.2908e-04, -1.4830e-03, -7.5436e-04,  ..., -8.4925e-04,
+          4.0233e-05,  1.5393e-05]], device='cuda:0')
+Epoch 47, bias, value: tensor([-0.0235, -0.0234, -0.0194,  0.0004, -0.0058,  0.0011, -0.0021, -0.0161,
+         0.0232, -0.0308], device='cuda:0'), grad: tensor([ 1.8826e-03,  4.1461e-04,  4.4489e-04, -6.3944e-04,  5.1022e-04,
+         5.3740e-04, -9.5427e-05,  2.0289e-04,  3.4857e-04, -3.6087e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 46, time 219.79, cls_loss 0.0065 cls_loss_mapping 0.0208 cls_loss_causal 0.6651 re_mapping 0.0138 re_causal 0.0421 /// teacc 98.90 lr 0.00010000
+Epoch 48, weight, value: tensor([[-0.0083, -0.0230,  0.0686,  ..., -0.0036, -0.0367, -0.0272],
+        [-0.0597, -0.0448, -0.0714,  ...,  0.0103,  0.0423,  0.1062],
+        [-0.0231, -0.0254, -0.0286,  ..., -0.0387,  0.0206, -0.0816],
+        ...,
+        [-0.0781, -0.0745,  0.0258,  ..., -0.0872, -0.0469, -0.0833],
+        [ 0.0538,  0.0272, -0.0422,  ..., -0.0767, -0.0084, -0.0636],
+        [-0.0042,  0.0389, -0.0511,  ..., -0.0032, -0.0671, -0.0227]],
+       device='cuda:0'), grad: tensor([[-8.6501e-06, -6.0380e-05, -9.2983e-05,  ..., -9.6381e-05,
+         -3.2177e-07,  5.5740e-07],
+        [ 7.7486e-06,  2.0117e-05,  3.1948e-05,  ...,  2.3142e-05,
+         -1.3977e-05, -2.9653e-05],
+        [ 1.3582e-05,  2.2814e-05,  4.0144e-05,  ...,  4.5240e-05,
+          1.3165e-05,  1.0341e-05],
+        ...,
+        [ 1.8090e-05,  1.8492e-05,  9.2536e-06,  ...,  2.5123e-05,
+          1.4573e-05,  8.7917e-06],
+        [-1.4432e-05,  5.9694e-05,  4.9442e-05,  ...,  3.2246e-05,
+          8.0541e-06,  4.0047e-06],
+        [-1.3217e-05,  5.6028e-06,  1.4469e-05,  ..., -1.7099e-06,
+          1.4879e-05,  1.3448e-06]], device='cuda:0')
+Epoch 48, bias, value: tensor([-0.0238, -0.0237, -0.0196,  0.0006, -0.0056,  0.0013, -0.0018, -0.0159,
+         0.0230, -0.0310], device='cuda:0'), grad: tensor([-1.3018e-04,  8.2493e-05,  3.5501e-04,  2.4629e-04,  2.2411e-04,
+         1.6987e-05, -1.8871e-04, -8.1348e-04,  1.3316e-04,  7.4863e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 47, time 219.67, cls_loss 0.0075 cls_loss_mapping 0.0210 cls_loss_causal 0.6638 re_mapping 0.0132 re_causal 0.0412 /// teacc 98.72 lr 0.00010000
+Epoch 49, weight, value: tensor([[-0.0083, -0.0227,  0.0685,  ..., -0.0036, -0.0369, -0.0275],
+        [-0.0599, -0.0458, -0.0725,  ...,  0.0107,  0.0424,  0.1094],
+        [-0.0234, -0.0260, -0.0292,  ..., -0.0394,  0.0204, -0.0840],
+        ...,
+        [-0.0785, -0.0750,  0.0256,  ..., -0.0882, -0.0472, -0.0866],
+        [ 0.0541,  0.0276, -0.0424,  ..., -0.0772, -0.0080, -0.0647],
+        [-0.0037,  0.0392, -0.0516,  ..., -0.0028, -0.0675, -0.0232]],
+       device='cuda:0'), grad: tensor([[-2.4751e-05, -6.3539e-05, -1.0300e-04,  ..., -9.5367e-05,
+          7.7933e-06,  7.7561e-06],
+        [ 1.7956e-06,  5.4747e-05,  2.9713e-05,  ..., -5.4836e-05,
+         -5.7220e-05, -8.0466e-05],
+        [ 1.0401e-05,  9.8884e-05,  6.3181e-05,  ...,  6.1512e-05,
+          2.4408e-05,  2.0415e-05],
+        ...,
+        [ 1.0543e-05,  7.6056e-05,  5.6356e-05,  ...,  3.4064e-05,
+          1.8284e-05,  7.4208e-06],
+        [ 4.7497e-06,  3.7611e-05,  2.7165e-05,  ...,  4.6164e-05,
+          1.5244e-05,  2.4289e-05],
+        [-1.3053e-05,  4.0144e-05,  5.2720e-05,  ...,  2.1353e-05,
+          2.7299e-05,  3.1162e-06]], device='cuda:0')
+Epoch 49, bias, value: tensor([-0.0240, -0.0238, -0.0200,  0.0010, -0.0057,  0.0005, -0.0009, -0.0155,
+         0.0234, -0.0313], device='cuda:0'), grad: tensor([-1.0997e-04,  3.5077e-05, -3.1292e-05,  4.8256e-04,  2.5049e-05,
+        -1.0834e-03,  7.8201e-05,  3.2711e-04,  1.3494e-04,  1.4162e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 48, time 219.55, cls_loss 0.0064 cls_loss_mapping 0.0165 cls_loss_causal 0.6787 re_mapping 0.0123 re_causal 0.0389 /// teacc 98.86 lr 0.00010000
+Epoch 50, weight, value: tensor([[-0.0083, -0.0219,  0.0692,  ..., -0.0031, -0.0372, -0.0277],
+        [-0.0601, -0.0464, -0.0731,  ...,  0.0113,  0.0426,  0.1110],
+        [-0.0239, -0.0270, -0.0295,  ..., -0.0401,  0.0207, -0.0850],
+        ...,
+        [-0.0790, -0.0756,  0.0258,  ..., -0.0892, -0.0475, -0.0880],
+        [ 0.0545,  0.0279, -0.0426,  ..., -0.0775, -0.0076, -0.0649],
+        [-0.0032,  0.0395, -0.0521,  ..., -0.0019, -0.0680, -0.0234]],
+       device='cuda:0'), grad: tensor([[ 4.3996e-06,  9.2834e-06,  2.2173e-05,  ...,  1.4424e-05,
+          1.1712e-05,  1.0937e-05],
+        [ 7.8082e-06,  5.3719e-06, -2.4140e-05,  ..., -1.2016e-04,
+         -1.0955e-04, -1.4472e-04],
+        [ 6.3740e-06,  1.0520e-05,  2.5108e-05,  ...,  3.3468e-05,
+          3.5495e-05,  2.5719e-05],
+        ...,
+        [ 2.0161e-05, -8.0228e-05, -3.0589e-04,  ..., -4.0674e-04,
+          1.7807e-05,  1.2010e-05],
+        [ 6.4790e-05,  9.7513e-05,  4.8637e-05,  ...,  9.4652e-05,
+          2.2411e-05,  3.2157e-05],
+        [-2.1040e-04, -4.1246e-05,  2.9945e-04,  ...,  2.4652e-04,
+          1.1928e-05,  8.0243e-06]], device='cuda:0')
+Epoch 50, bias, value: tensor([-0.0238, -0.0236, -0.0198,  0.0007, -0.0063,  0.0009, -0.0013, -0.0158,
+         0.0236, -0.0311], device='cuda:0'), grad: tensor([ 9.1970e-05, -8.4937e-05,  1.2815e-04,  2.5439e-04,  2.7943e-04,
+        -4.4823e-04,  3.5071e-04, -2.3460e-03,  2.9993e-04,  1.4753e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 49, time 219.52, cls_loss 0.0088 cls_loss_mapping 0.0211 cls_loss_causal 0.6786 re_mapping 0.0133 re_causal 0.0410 /// teacc 98.94 lr 0.00010000
+Epoch 51, weight, value: tensor([[-0.0087, -0.0220,  0.0692,  ..., -0.0032, -0.0375, -0.0279],
+        [-0.0605, -0.0474, -0.0739,  ...,  0.0112,  0.0427,  0.1140],
+        [-0.0243, -0.0276, -0.0298,  ..., -0.0405,  0.0209, -0.0864],
+        ...,
+        [-0.0796, -0.0763,  0.0258,  ..., -0.0902, -0.0478, -0.0902],
+        [ 0.0549,  0.0281, -0.0430,  ..., -0.0780, -0.0075, -0.0663],
+        [-0.0029,  0.0397, -0.0525,  ..., -0.0009, -0.0685, -0.0237]],
+       device='cuda:0'), grad: tensor([[ 3.7458e-06, -1.6880e-04, -1.3943e-03,  ..., -8.2588e-04,
+          1.5751e-05,  3.8883e-07],
+        [ 1.8522e-05,  2.9713e-05,  4.1366e-05,  ...,  3.9011e-05,
+          2.2292e-05, -2.1741e-05],
+        [ 2.8983e-05,  5.1439e-05,  4.9353e-05,  ...,  7.3314e-05,
+          3.9220e-05,  4.3772e-06],
+        ...,
+        [ 2.0891e-05,  3.4213e-05,  6.2883e-05,  ...,  5.7310e-05,
+          4.8667e-05,  4.6864e-06],
+        [-1.5944e-06,  2.1234e-05,  1.0943e-04,  ...,  6.9141e-05,
+          1.1407e-05,  2.0154e-06],
+        [-6.4000e-06,  1.2510e-05,  3.4153e-05,  ...,  1.9103e-05,
+          4.3213e-05,  3.6675e-06]], device='cuda:0')
+Epoch 51, bias, value: tensor([-0.0242, -0.0239, -0.0198,  0.0009, -0.0060,  0.0006, -0.0009, -0.0164,
+         0.0237, -0.0305], device='cuda:0'), grad: tensor([-1.8091e-03,  1.5533e-04, -1.1140e-04, -2.7251e-04, -9.3877e-05,
+         6.8760e-04,  8.5878e-04,  3.0589e-04,  1.7691e-04,  1.0586e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 50, time 219.32, cls_loss 0.0068 cls_loss_mapping 0.0144 cls_loss_causal 0.6500 re_mapping 0.0123 re_causal 0.0372 /// teacc 98.80 lr 0.00010000
+Epoch 52, weight, value: tensor([[-0.0087, -0.0216,  0.0695,  ..., -0.0029, -0.0377, -0.0283],
+        [-0.0606, -0.0479, -0.0743,  ...,  0.0116,  0.0428,  0.1183],
+        [-0.0247, -0.0283, -0.0303,  ..., -0.0410,  0.0211, -0.0884],
+        ...,
+        [-0.0801, -0.0771,  0.0258,  ..., -0.0905, -0.0478, -0.0925],
+        [ 0.0551,  0.0281, -0.0435,  ..., -0.0788, -0.0076, -0.0681],
+        [-0.0023,  0.0402, -0.0529,  ..., -0.0005, -0.0691, -0.0246]],
+       device='cuda:0'), grad: tensor([[ 2.3991e-06, -9.7081e-06, -3.1620e-05,  ..., -2.0593e-05,
+          7.9572e-06, -2.2911e-06],
+        [ 2.7642e-06,  4.5113e-06,  6.5900e-06,  ..., -5.8293e-05,
+         -7.1883e-05, -1.1563e-04],
+        [ 7.0520e-06,  1.1429e-05,  1.1750e-05,  ...,  2.0593e-05,
+         -7.6056e-05,  2.5019e-05],
+        ...,
+        [ 6.9916e-05,  7.9513e-05,  1.5363e-05,  ...,  6.3896e-05,
+          1.1706e-04,  1.2800e-05],
+        [ 5.2601e-05,  7.9334e-05,  9.4593e-05,  ...,  6.4075e-05,
+          1.2648e-04,  4.5598e-05],
+        [-7.3493e-05, -5.9098e-05,  1.6773e-04,  ..., -8.7142e-05,
+          1.7667e-04,  4.5560e-06]], device='cuda:0')
+Epoch 52, bias, value: tensor([-0.0241, -0.0243, -0.0196,  0.0006, -0.0062,  0.0006, -0.0007, -0.0158,
+         0.0235, -0.0306], device='cuda:0'), grad: tensor([-1.6123e-05, -7.8917e-05,  1.3332e-03,  8.8692e-05, -8.4639e-04,
+        -4.9919e-06,  7.1406e-05, -1.1978e-03,  4.3273e-04,  2.2030e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 51, time 219.75, cls_loss 0.0063 cls_loss_mapping 0.0187 cls_loss_causal 0.6361 re_mapping 0.0121 re_causal 0.0385 /// teacc 98.93 lr 0.00010000
+Epoch 53, weight, value: tensor([[-0.0088, -0.0209,  0.0701,  ..., -0.0025, -0.0379, -0.0284],
+        [-0.0609, -0.0485, -0.0751,  ...,  0.0121,  0.0425,  0.1199],
+        [-0.0251, -0.0290, -0.0307,  ..., -0.0415,  0.0213, -0.0895],
+        ...,
+        [-0.0808, -0.0780,  0.0257,  ..., -0.0917, -0.0481, -0.0942],
+        [ 0.0556,  0.0282, -0.0438,  ..., -0.0796, -0.0072, -0.0700],
+        [-0.0021,  0.0402, -0.0535,  ..., -0.0001, -0.0699, -0.0249]],
+       device='cuda:0'), grad: tensor([[ 1.6093e-04,  1.1915e-04,  1.2165e-04,  ...,  2.4176e-04,
+          9.0122e-05,  1.0859e-06],
+        [ 9.4995e-06,  1.0520e-05,  2.5347e-05,  ...,  2.0564e-06,
+         -1.8865e-05, -4.1395e-05],
+        [ 1.1392e-05,  2.1368e-05,  4.3750e-05,  ...,  6.2168e-05,
+         -1.9044e-05,  8.8215e-06],
+        ...,
+        [ 2.8163e-05,  3.7491e-05,  2.7537e-05,  ...,  8.3148e-06,
+         -3.5852e-05,  7.1377e-06],
+        [ 9.6917e-05,  9.7811e-05,  8.9109e-05,  ...,  1.2189e-04,
+          4.4972e-05,  1.2957e-05],
+        [-3.7146e-04, -3.1996e-04, -2.1636e-05,  ..., -2.2292e-04,
+         -3.9607e-05,  2.4699e-06]], device='cuda:0')
+Epoch 53, bias, value: tensor([-0.0237, -0.0245, -0.0194,  0.0004, -0.0060,  0.0010, -0.0008, -0.0162,
+         0.0238, -0.0309], device='cuda:0'), grad: tensor([ 4.6015e-04,  7.4208e-05, -2.4056e-04,  4.8065e-04,  7.8964e-04,
+         3.2878e-04, -1.3685e-03, -9.1600e-04,  3.1495e-04,  7.5161e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 52----------------------------------------------------
+epoch 52, time 220.30, cls_loss 0.0051 cls_loss_mapping 0.0162 cls_loss_causal 0.6490 re_mapping 0.0119 re_causal 0.0383 /// teacc 99.02 lr 0.00010000
+Epoch 54, weight, value: tensor([[-0.0090, -0.0206,  0.0707,  ..., -0.0020, -0.0382, -0.0287],
+        [-0.0612, -0.0490, -0.0754,  ...,  0.0126,  0.0427,  0.1226],
+        [-0.0255, -0.0296, -0.0311,  ..., -0.0420,  0.0215, -0.0909],
+        ...,
+        [-0.0812, -0.0787,  0.0253,  ..., -0.0922, -0.0483, -0.0960],
+        [ 0.0560,  0.0284, -0.0441,  ..., -0.0799, -0.0071, -0.0707],
+        [-0.0017,  0.0404, -0.0538,  ...,  0.0007, -0.0705, -0.0256]],
+       device='cuda:0'), grad: tensor([[ 5.7817e-06, -2.0117e-06,  3.0696e-06,  ...,  1.4432e-05,
+          3.9302e-06,  2.7493e-06],
+        [ 7.1190e-06,  6.9849e-06,  3.3081e-06,  ..., -5.3495e-05,
+         -4.4137e-05, -1.1235e-04],
+        [ 1.9923e-05,  1.8567e-05,  2.0236e-05,  ...,  2.3380e-05,
+          1.8463e-05,  9.5814e-06],
+        ...,
+        [ 1.9222e-05,  1.9565e-05,  9.7305e-06,  ...,  3.0547e-05,
+          2.0176e-05,  2.6956e-05],
+        [-8.4341e-06, -4.7572e-06,  1.1437e-05,  ...,  3.1084e-05,
+          3.8967e-06,  2.1651e-05],
+        [-7.5293e-04, -7.4911e-04, -1.9133e-04,  ..., -6.4373e-04,
+         -1.5557e-05,  1.7926e-05]], device='cuda:0')
+Epoch 54, bias, value: tensor([-0.0237, -0.0246, -0.0193,  0.0004, -0.0056,  0.0010, -0.0013, -0.0161,
+         0.0238, -0.0310], device='cuda:0'), grad: tensor([ 3.3587e-05, -1.2922e-04,  1.0979e-04,  3.9726e-05,  1.7500e-03,
+         9.1612e-05, -1.0628e-04,  7.8857e-05,  7.9051e-06, -1.8768e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 53, time 220.04, cls_loss 0.0042 cls_loss_mapping 0.0147 cls_loss_causal 0.6571 re_mapping 0.0121 re_causal 0.0385 /// teacc 98.86 lr 0.00010000
+Epoch 55, weight, value: tensor([[-0.0092, -0.0207,  0.0706,  ..., -0.0021, -0.0384, -0.0291],
+        [-0.0615, -0.0496, -0.0758,  ...,  0.0133,  0.0430,  0.1258],
+        [-0.0258, -0.0298, -0.0313,  ..., -0.0424,  0.0217, -0.0924],
+        ...,
+        [-0.0815, -0.0792,  0.0252,  ..., -0.0931, -0.0490, -0.0983],
+        [ 0.0563,  0.0284, -0.0444,  ..., -0.0802, -0.0070, -0.0724],
+        [-0.0009,  0.0409, -0.0539,  ...,  0.0013, -0.0710, -0.0259]],
+       device='cuda:0'), grad: tensor([[ 6.0312e-06, -1.7196e-05, -2.4885e-05,  ..., -2.3425e-05,
+          6.1169e-06,  2.4168e-07],
+        [ 7.5400e-06,  1.1981e-05,  9.0450e-06,  ...,  6.2585e-07,
+          7.5959e-06, -1.2323e-05],
+        [ 1.5199e-04,  2.9087e-04,  1.1757e-05,  ...,  1.9407e-04,
+          1.5020e-04,  1.3644e-06],
+        ...,
+        [ 1.4409e-05,  1.7107e-05, -1.5393e-05,  ...,  1.4067e-05,
+          2.1368e-05,  1.4547e-06],
+        [-2.1666e-05,  1.0204e-04,  8.1062e-05,  ...,  5.7906e-05,
+          1.0706e-05,  4.7050e-06],
+        [-3.4511e-05,  2.1458e-06,  2.3186e-05,  ..., -7.5921e-06,
+          4.7386e-05,  1.3011e-06]], device='cuda:0')
+Epoch 55, bias, value: tensor([-0.0241, -0.0241, -0.0190,  0.0005, -0.0060,  0.0006, -0.0012, -0.0160,
+         0.0236, -0.0309], device='cuda:0'), grad: tensor([-1.7628e-05,  6.3121e-05,  6.0749e-04, -6.3705e-04, -9.1374e-05,
+        -2.6393e-04,  1.8847e-04, -6.5565e-05,  1.2082e-04,  9.4950e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 54, time 219.87, cls_loss 0.0055 cls_loss_mapping 0.0173 cls_loss_causal 0.6553 re_mapping 0.0121 re_causal 0.0389 /// teacc 98.96 lr 0.00010000
+Epoch 56, weight, value: tensor([[-0.0093, -0.0204,  0.0708,  ..., -0.0020, -0.0387, -0.0294],
+        [-0.0617, -0.0498, -0.0759,  ...,  0.0139,  0.0433,  0.1283],
+        [-0.0263, -0.0310, -0.0315,  ..., -0.0435,  0.0215, -0.0939],
+        ...,
+        [-0.0822, -0.0798,  0.0252,  ..., -0.0935, -0.0489, -0.0995],
+        [ 0.0568,  0.0286, -0.0447,  ..., -0.0807, -0.0071, -0.0742],
+        [-0.0009,  0.0406, -0.0547,  ...,  0.0012, -0.0716, -0.0263]],
+       device='cuda:0'), grad: tensor([[ 3.3099e-06, -1.0893e-05, -1.7539e-05,  ..., -1.1802e-05,
+          4.4741e-06,  1.3085e-06],
+        [-1.7494e-05,  9.0431e-07,  5.2527e-06,  ..., -4.5776e-05,
+         -3.5226e-05, -5.9813e-05],
+        [-1.3269e-05,  6.7875e-06,  9.2328e-05,  ...,  5.8115e-06,
+          1.9133e-04,  4.5858e-06],
+        ...,
+        [ 7.0632e-06, -1.0900e-05, -7.8157e-06,  ...,  8.1956e-06,
+          1.3940e-05,  4.2357e-06],
+        [ 1.1735e-06, -2.0675e-06,  1.2860e-05,  ...,  3.6716e-05,
+          2.2292e-05,  3.3468e-05],
+        [-6.4075e-05, -3.9905e-05,  3.4720e-05,  ..., -3.9726e-05,
+          2.4468e-05,  1.1899e-05]], device='cuda:0')
+Epoch 56, bias, value: tensor([-0.0243, -0.0239, -0.0190,  0.0010, -0.0056,  0.0005, -0.0011, -0.0162,
+         0.0237, -0.0316], device='cuda:0'), grad: tensor([ 4.2394e-06, -1.0872e-04,  1.7130e-04,  9.3341e-05, -3.5048e-04,
+         4.8488e-05,  3.8117e-05, -1.0741e-04,  1.1951e-04,  9.1851e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 55, time 219.69, cls_loss 0.0049 cls_loss_mapping 0.0164 cls_loss_causal 0.6450 re_mapping 0.0117 re_causal 0.0386 /// teacc 98.74 lr 0.00010000
+Epoch 57, weight, value: tensor([[-0.0097, -0.0204,  0.0715,  ..., -0.0011, -0.0384, -0.0279],
+        [-0.0620, -0.0503, -0.0767,  ...,  0.0142,  0.0435,  0.1308],
+        [-0.0269, -0.0315, -0.0320,  ..., -0.0441,  0.0213, -0.0957],
+        ...,
+        [-0.0826, -0.0803,  0.0254,  ..., -0.0948, -0.0493, -0.1010],
+        [ 0.0573,  0.0292, -0.0452,  ..., -0.0814, -0.0068, -0.0752],
+        [-0.0002,  0.0410, -0.0551,  ...,  0.0021, -0.0721, -0.0267]],
+       device='cuda:0'), grad: tensor([[ 1.8135e-05, -6.1274e-05, -9.1374e-05,  ..., -8.1718e-05,
+          2.3514e-05,  1.2433e-06],
+        [ 3.1590e-05,  2.2665e-05,  9.8795e-06,  ...,  1.4544e-05,
+          3.4273e-05,  5.2750e-06],
+        [ 2.0278e-04,  9.6798e-05,  5.1111e-05,  ...,  5.3138e-05,
+          2.1362e-04,  1.5438e-05],
+        ...,
+        [ 1.4782e-05,  2.3350e-05,  9.4026e-06,  ...,  2.6599e-05,
+          6.2287e-06,  8.3307e-07],
+        [-3.0041e-04, -1.2040e-04, -1.8850e-05,  ..., -1.2167e-05,
+         -3.4547e-04, -2.8268e-05],
+        [-4.3201e-04, -2.2590e-04,  1.4037e-05,  ..., -3.5501e-04,
+         -1.7929e-04,  8.3633e-07]], device='cuda:0')
+Epoch 57, bias, value: tensor([-2.3827e-02, -2.2864e-02, -1.9049e-02,  9.7030e-04, -5.4276e-03,
+        -8.1272e-05, -1.7233e-03, -1.6652e-02,  2.3911e-02, -3.1519e-02],
+       device='cuda:0'), grad: tensor([-1.9705e-04,  1.5044e-04,  4.8542e-04,  1.2708e-04,  8.3303e-04,
+         1.5393e-05,  1.0276e-04, -5.1588e-05, -6.6566e-04, -8.0013e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 56, time 219.96, cls_loss 0.0065 cls_loss_mapping 0.0180 cls_loss_causal 0.6375 re_mapping 0.0119 re_causal 0.0373 /// teacc 98.92 lr 0.00010000
+Epoch 58, weight, value: tensor([[-0.0097, -0.0202,  0.0715,  ..., -0.0015, -0.0388, -0.0288],
+        [-0.0623, -0.0509, -0.0770,  ...,  0.0146,  0.0437,  0.1328],
+        [-0.0273, -0.0323, -0.0328,  ..., -0.0446,  0.0212, -0.0965],
+        ...,
+        [-0.0833, -0.0807,  0.0255,  ..., -0.0948, -0.0494, -0.1019],
+        [ 0.0577,  0.0292, -0.0455,  ..., -0.0820, -0.0067, -0.0762],
+        [ 0.0004,  0.0411, -0.0553,  ...,  0.0031, -0.0724, -0.0273]],
+       device='cuda:0'), grad: tensor([[ 1.8300e-06, -1.8835e-05, -5.9456e-05,  ..., -4.9740e-05,
+          5.0925e-06,  7.2364e-07],
+        [ 1.2470e-06,  2.9784e-06,  5.1856e-06,  ..., -9.8348e-06,
+         -1.1191e-05, -2.6301e-05],
+        [ 6.0685e-06,  1.2673e-05,  3.0130e-05,  ...,  2.4915e-05,
+          1.5631e-05,  4.8019e-06],
+        ...,
+        [ 1.8813e-06,  5.6811e-06,  7.5847e-06,  ...,  3.8445e-06,
+          1.0788e-05,  3.6675e-06],
+        [ 2.1413e-05,  9.6262e-05,  4.8339e-05,  ...,  2.0385e-05,
+          3.5882e-05,  7.3463e-06],
+        [ 1.0103e-05,  2.8223e-05,  2.6897e-05,  ...,  2.3395e-05,
+          9.6485e-06,  2.1663e-06]], device='cuda:0')
+Epoch 58, bias, value: tensor([-0.0243, -0.0232, -0.0197,  0.0009, -0.0056,  0.0002, -0.0017, -0.0167,
+         0.0242, -0.0307], device='cuda:0'), grad: tensor([-9.8348e-05, -1.3828e-05,  6.1095e-05,  7.8559e-05,  9.1344e-06,
+        -2.7823e-04, -3.4839e-05, -1.2434e-04,  2.1279e-04,  1.8799e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 57, time 219.55, cls_loss 0.0061 cls_loss_mapping 0.0173 cls_loss_causal 0.6703 re_mapping 0.0111 re_causal 0.0355 /// teacc 98.87 lr 0.00010000
+Epoch 59, weight, value: tensor([[-0.0099, -0.0197,  0.0718,  ..., -0.0013, -0.0390, -0.0289],
+        [-0.0631, -0.0527, -0.0780,  ...,  0.0141,  0.0437,  0.1344],
+        [-0.0278, -0.0332, -0.0335,  ..., -0.0451,  0.0218, -0.0972],
+        ...,
+        [-0.0837, -0.0814,  0.0256,  ..., -0.0957, -0.0500, -0.1036],
+        [ 0.0581,  0.0292, -0.0456,  ..., -0.0823, -0.0069, -0.0768],
+        [ 0.0009,  0.0416, -0.0554,  ...,  0.0045, -0.0725, -0.0278]],
+       device='cuda:0'), grad: tensor([[ 2.4781e-05,  4.1813e-05, -1.5348e-05,  ...,  1.9409e-06,
+          2.0899e-06,  1.7881e-07],
+        [ 1.2651e-05,  2.6017e-05,  8.7768e-06,  ..., -2.1793e-06,
+         -1.1623e-05, -2.1905e-05],
+        [ 3.5524e-05,  7.5996e-05,  1.1832e-05,  ...,  2.3752e-05,
+         -5.2974e-06,  1.3728e-06],
+        ...,
+        [ 5.7280e-05,  1.0252e-04,  2.5809e-05,  ...,  3.4779e-05,
+          2.1219e-05,  8.1584e-06],
+        [ 1.3363e-04,  2.7490e-04,  6.0171e-05,  ...,  9.3460e-05,
+          5.6103e-06,  1.8915e-06],
+        [-5.7012e-05,  5.2482e-05,  7.7844e-05,  ..., -4.1693e-05,
+          4.4465e-05,  3.8594e-06]], device='cuda:0')
+Epoch 59, bias, value: tensor([-0.0244, -0.0233, -0.0194,  0.0010, -0.0058,  0.0003, -0.0023, -0.0161,
+         0.0237, -0.0306], device='cuda:0'), grad: tensor([ 6.7174e-05,  2.3156e-05,  1.0192e-04, -1.9588e-03, -3.3081e-05,
+         9.0742e-04,  4.9591e-05,  1.8549e-04,  4.8208e-04,  1.7452e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 58, time 219.55, cls_loss 0.0051 cls_loss_mapping 0.0149 cls_loss_causal 0.6408 re_mapping 0.0113 re_causal 0.0358 /// teacc 98.91 lr 0.00010000
+Epoch 60, weight, value: tensor([[-0.0099, -0.0194,  0.0723,  ..., -0.0011, -0.0393, -0.0290],
+        [-0.0635, -0.0534, -0.0787,  ...,  0.0143,  0.0438,  0.1361],
+        [-0.0284, -0.0339, -0.0340,  ..., -0.0458,  0.0221, -0.0986],
+        ...,
+        [-0.0841, -0.0821,  0.0258,  ..., -0.0961, -0.0504, -0.1045],
+        [ 0.0584,  0.0293, -0.0459,  ..., -0.0826, -0.0066, -0.0777],
+        [ 0.0013,  0.0415, -0.0559,  ...,  0.0049, -0.0729, -0.0284]],
+       device='cuda:0'), grad: tensor([[ 5.3197e-06, -9.8646e-06, -1.0699e-05,  ...,  5.4017e-06,
+          1.2174e-05,  8.9221e-07],
+        [ 2.8778e-06,  3.0939e-06,  3.8892e-06,  ..., -4.9174e-05,
+         -3.0458e-05, -5.9962e-05],
+        [ 6.9961e-06,  8.9779e-06,  1.1444e-05,  ...,  1.1474e-05,
+         -1.1325e-04,  9.5442e-06],
+        ...,
+        [ 2.0117e-05,  1.7807e-05,  4.3884e-06,  ...,  2.8327e-05,
+          2.6435e-05,  1.3337e-05],
+        [ 4.8935e-05,  5.4628e-05,  4.7460e-06,  ...,  6.6817e-05,
+          3.6120e-05,  8.3894e-06],
+        [-1.2046e-04, -9.4652e-05,  1.4618e-05,  ..., -7.5102e-05,
+          1.7583e-05,  1.4409e-05]], device='cuda:0')
+Epoch 60, bias, value: tensor([-0.0241, -0.0236, -0.0192,  0.0012, -0.0062,  0.0006, -0.0030, -0.0162,
+         0.0239, -0.0304], device='cuda:0'), grad: tensor([ 3.3617e-05, -1.1122e-04, -3.3259e-04,  1.1188e-04,  2.4050e-05,
+         4.9695e-06,  4.8876e-05,  6.7830e-05,  2.7442e-04, -1.2165e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 59, time 219.59, cls_loss 0.0045 cls_loss_mapping 0.0145 cls_loss_causal 0.6248 re_mapping 0.0115 re_causal 0.0359 /// teacc 98.83 lr 0.00010000
+Epoch 61, weight, value: tensor([[-1.0150e-02, -1.9187e-02,  7.2744e-02,  ..., -7.7151e-05,
+         -3.8802e-02, -2.9051e-02],
+        [-6.3748e-02, -5.3834e-02, -7.9327e-02,  ...,  1.4305e-02,
+          4.3806e-02,  1.3715e-01],
+        [-2.9081e-02, -3.4738e-02, -3.4402e-02,  ..., -4.6660e-02,
+          2.1635e-02, -9.9023e-02],
+        ...,
+        [-8.4705e-02, -8.2390e-02,  2.5934e-02,  ..., -9.6079e-02,
+         -5.0727e-02, -1.0554e-01],
+        [ 5.9385e-02,  3.0106e-02, -4.6109e-02,  ..., -8.2789e-02,
+         -6.0182e-03, -7.8373e-02],
+        [ 1.4368e-03,  4.1156e-02, -5.6534e-02,  ...,  4.7414e-03,
+         -7.3724e-02, -2.8866e-02]], device='cuda:0'), grad: tensor([[ 1.6958e-05,  2.7958e-06,  1.0151e-04,  ...,  8.7321e-05,
+          6.8359e-06,  2.1653e-07],
+        [ 5.9456e-06,  3.4571e-06,  1.6004e-05,  ...,  2.3693e-06,
+         -2.1547e-05, -1.0937e-05],
+        [ 2.8476e-05,  1.7628e-05,  1.8492e-05,  ...,  3.0294e-05,
+          3.0115e-05,  1.7434e-06],
+        ...,
+        [ 2.5764e-05,  1.3396e-05, -8.6380e-07,  ...,  2.2173e-05,
+          2.1741e-05,  6.5304e-06],
+        [-1.5125e-05,  2.8405e-06,  6.2346e-05,  ...,  9.5665e-05,
+         -3.3915e-05,  6.2166e-07],
+        [-1.9819e-05, -8.4043e-06,  1.0915e-05,  ..., -1.7643e-05,
+          2.0206e-05,  3.8906e-07]], device='cuda:0')
+Epoch 61, bias, value: tensor([-0.0234, -0.0239, -0.0199,  0.0006, -0.0060,  0.0003, -0.0025, -0.0152,
+         0.0245, -0.0313], device='cuda:0'), grad: tensor([ 3.1590e-04,  1.6810e-06,  1.1373e-04,  2.1718e-06,  1.7500e-04,
+         1.4007e-04, -9.5177e-04, -2.3827e-05,  2.0874e-04,  1.8686e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 60, time 219.64, cls_loss 0.0068 cls_loss_mapping 0.0181 cls_loss_causal 0.6501 re_mapping 0.0114 re_causal 0.0360 /// teacc 98.86 lr 0.00010000
+Epoch 62, weight, value: tensor([[-0.0104, -0.0194,  0.0726,  ..., -0.0002, -0.0391, -0.0294],
+        [-0.0640, -0.0538, -0.0799,  ...,  0.0149,  0.0439,  0.1385],
+        [-0.0295, -0.0352, -0.0352,  ..., -0.0472,  0.0218, -0.0996],
+        ...,
+        [-0.0865, -0.0843,  0.0264,  ..., -0.0980, -0.0513, -0.1073],
+        [ 0.0597,  0.0301, -0.0464,  ..., -0.0835, -0.0058, -0.0790],
+        [ 0.0023,  0.0415, -0.0568,  ...,  0.0053, -0.0743, -0.0296]],
+       device='cuda:0'), grad: tensor([[-1.0766e-06, -2.2948e-05,  5.8442e-05,  ...,  1.4052e-05,
+          1.6063e-05, -1.2964e-06],
+        [ 3.0585e-06,  3.8631e-06,  1.2867e-05,  ..., -3.0294e-05,
+         -4.0650e-05, -5.8323e-05],
+        [ 4.1500e-06,  5.7518e-06,  1.5600e-06,  ...,  2.5928e-05,
+          1.9178e-05,  3.0994e-05],
+        ...,
+        [-4.4368e-06,  4.3437e-06,  3.5949e-06,  ..., -3.5465e-06,
+          7.9721e-06,  7.0520e-06],
+        [ 3.6985e-05,  7.2002e-05,  1.8373e-05,  ...,  3.4928e-05,
+          2.6554e-05,  7.5065e-06],
+        [ 4.9025e-06,  2.5421e-05,  2.1398e-05,  ...,  1.3366e-05,
+          1.5318e-05,  3.2634e-06]], device='cuda:0')
+Epoch 62, bias, value: tensor([-0.0240, -0.0249, -0.0194,  0.0007, -0.0063,  0.0006, -0.0019, -0.0155,
+         0.0242, -0.0306], device='cuda:0'), grad: tensor([ 5.6267e-05, -7.1049e-05,  5.9038e-05,  4.6819e-05,  1.0145e-04,
+        -2.3413e-06, -2.5606e-04, -1.5080e-04,  1.3149e-04,  8.4519e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 61, time 219.45, cls_loss 0.0043 cls_loss_mapping 0.0120 cls_loss_causal 0.6512 re_mapping 0.0106 re_causal 0.0352 /// teacc 98.87 lr 0.00010000
+Epoch 63, weight, value: tensor([[-1.0480e-02, -1.8722e-02,  7.2897e-02,  ..., -1.2312e-04,
+         -3.9482e-02, -2.9536e-02],
+        [-6.4445e-02, -5.4326e-02, -8.0617e-02,  ...,  1.5488e-02,
+          4.4137e-02,  1.4105e-01],
+        [-3.0154e-02, -3.6561e-02, -3.6052e-02,  ..., -4.7672e-02,
+          2.1526e-02, -1.0123e-01],
+        ...,
+        [-8.6611e-02, -8.4553e-02,  2.6363e-02,  ..., -9.8868e-02,
+         -5.1532e-02, -1.0894e-01],
+        [ 5.9679e-02,  2.9708e-02, -4.6802e-02,  ..., -8.4162e-02,
+         -5.8878e-03, -7.9723e-02],
+        [ 2.6605e-03,  4.1653e-02, -5.7320e-02,  ...,  5.7699e-03,
+         -7.4748e-02, -3.0532e-02]], device='cuda:0'), grad: tensor([[ 2.0146e-05,  2.1979e-05, -1.8450e-06,  ...,  1.8522e-05,
+          1.4655e-05,  2.7707e-08],
+        [ 3.0175e-05,  2.4721e-05,  1.0446e-05,  ...,  2.7269e-05,
+          6.6340e-05, -1.6168e-06],
+        [ 2.0355e-05,  2.2128e-05,  9.8646e-06,  ...,  2.1935e-05,
+          1.8388e-05,  1.7392e-07],
+        ...,
+        [ 9.5814e-06,  1.0535e-05,  5.7280e-05,  ...,  3.0905e-05,
+          8.2135e-05,  4.5449e-07],
+        [-2.7418e-04, -1.8358e-04,  5.0031e-06,  ..., -2.1136e-04,
+         -6.2847e-04,  2.2619e-07],
+        [ 1.0192e-04,  1.6069e-04,  1.4889e-04,  ...,  1.5461e-04,
+          2.3055e-04,  2.9616e-07]], device='cuda:0')
+Epoch 63, bias, value: tensor([-0.0242, -0.0246, -0.0204,  0.0005, -0.0064,  0.0010, -0.0011, -0.0153,
+         0.0238, -0.0303], device='cuda:0'), grad: tensor([ 4.8727e-05,  1.3649e-04,  5.0873e-05,  4.8727e-05, -7.4387e-04,
+         3.1400e-04,  3.1352e-04,  2.0897e-04, -1.0977e-03,  7.2002e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 62, time 219.33, cls_loss 0.0046 cls_loss_mapping 0.0156 cls_loss_causal 0.6318 re_mapping 0.0109 re_causal 0.0342 /// teacc 99.01 lr 0.00010000
+Epoch 64, weight, value: tensor([[-9.6093e-03, -1.8601e-02,  7.3532e-02,  ..., -4.1594e-05,
+         -3.9237e-02, -2.9668e-02],
+        [-6.4791e-02, -5.4968e-02, -8.1079e-02,  ...,  1.6164e-02,
+          4.4140e-02,  1.4255e-01],
+        [-3.0405e-02, -3.6393e-02, -3.6875e-02,  ..., -4.8027e-02,
+          2.1701e-02, -1.0115e-01],
+        ...,
+        [-8.6852e-02, -8.4881e-02,  2.6272e-02,  ..., -9.9533e-02,
+         -5.2002e-02, -1.1082e-01],
+        [ 6.0135e-02,  2.9950e-02, -4.7212e-02,  ..., -8.4199e-02,
+         -5.4413e-03, -8.0637e-02],
+        [ 3.7669e-03,  4.2496e-02, -5.7546e-02,  ...,  6.1397e-03,
+         -7.5217e-02, -3.1091e-02]], device='cuda:0'), grad: tensor([[ 1.3374e-05, -2.8163e-06, -9.7752e-06,  ...,  2.0206e-05,
+          2.6137e-05,  1.5810e-05],
+        [ 2.5377e-05, -1.1504e-04, -1.2422e-04,  ..., -7.8487e-04,
+         -2.6321e-04, -2.9802e-04],
+        [ 6.7532e-05,  5.7817e-05,  1.7178e-04,  ...,  1.0896e-04,
+          1.7679e-04,  4.5180e-05],
+        ...,
+        [ 2.1085e-05,  1.2755e-04, -1.0535e-05,  ...,  3.7932e-04,
+          2.4348e-05,  1.0222e-05],
+        [ 8.1539e-05,  8.3685e-05,  4.7922e-05,  ...,  1.2898e-04,
+          1.1778e-04,  7.0453e-05],
+        [ 5.1670e-06,  1.5587e-05,  2.8566e-05,  ...,  3.7014e-05,
+          3.1769e-05,  1.2644e-05]], device='cuda:0')
+Epoch 64, bias, value: tensor([-0.0234, -0.0244, -0.0202,  0.0005, -0.0070,  0.0004, -0.0012, -0.0153,
+         0.0240, -0.0302], device='cuda:0'), grad: tensor([ 7.4267e-05, -2.5921e-03,  4.7541e-04, -3.6693e-04,  9.0241e-05,
+         9.5010e-05, -8.3745e-06,  1.5745e-03,  4.4703e-04,  2.0981e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 63, time 219.60, cls_loss 0.0042 cls_loss_mapping 0.0135 cls_loss_causal 0.6259 re_mapping 0.0106 re_causal 0.0337 /// teacc 98.90 lr 0.00010000
+Epoch 65, weight, value: tensor([[-0.0098, -0.0184,  0.0737,  ..., -0.0003, -0.0394, -0.0298],
+        [-0.0650, -0.0554, -0.0815,  ...,  0.0166,  0.0442,  0.1439],
+        [-0.0307, -0.0369, -0.0371,  ..., -0.0482,  0.0217, -0.1014],
+        ...,
+        [-0.0873, -0.0856,  0.0264,  ..., -0.1002, -0.0519, -0.1124],
+        [ 0.0602,  0.0296, -0.0477,  ..., -0.0848, -0.0054, -0.0813],
+        [ 0.0042,  0.0431, -0.0580,  ...,  0.0069, -0.0759, -0.0316]],
+       device='cuda:0'), grad: tensor([[ 1.2800e-05,  1.6615e-06, -2.6673e-06,  ..., -4.8019e-06,
+          3.0063e-06,  5.5833e-07],
+        [ 1.2189e-05,  3.6974e-06,  1.0952e-06,  ..., -1.5043e-05,
+         -8.0019e-06, -2.7850e-05],
+        [ 3.0398e-05,  1.8835e-05,  1.0729e-05,  ...,  5.1782e-06,
+         -3.4943e-06,  3.6936e-06],
+        ...,
+        [ 1.0023e-03,  4.3035e-05, -1.6373e-06,  ...,  5.9940e-06,
+          4.1090e-06,  4.4480e-06],
+        [ 6.2883e-06, -3.5852e-05,  1.0484e-04,  ...,  3.5197e-05,
+          5.0157e-05,  9.1866e-06],
+        [-1.2302e-03, -9.3043e-05, -1.2922e-04,  ..., -5.3734e-05,
+         -1.8418e-05,  2.8666e-06]], device='cuda:0')
+Epoch 65, bias, value: tensor([-0.0237, -0.0245, -0.0203,  0.0003, -0.0065,  0.0014, -0.0022, -0.0150,
+         0.0237, -0.0304], device='cuda:0'), grad: tensor([ 2.5764e-05,  1.7032e-05,  8.5890e-05,  1.7607e-04,  2.0051e-04,
+         3.7700e-05,  2.8890e-06,  3.6964e-03,  8.3327e-05, -4.3297e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 64, time 219.58, cls_loss 0.0045 cls_loss_mapping 0.0142 cls_loss_causal 0.6020 re_mapping 0.0101 re_causal 0.0313 /// teacc 98.96 lr 0.00010000
+Epoch 66, weight, value: tensor([[-0.0100, -0.0175,  0.0744,  ...,  0.0007, -0.0397, -0.0299],
+        [-0.0651, -0.0555, -0.0821,  ...,  0.0170,  0.0443,  0.1457],
+        [-0.0310, -0.0373, -0.0376,  ..., -0.0486,  0.0217, -0.1021],
+        ...,
+        [-0.0885, -0.0863,  0.0266,  ..., -0.1012, -0.0523, -0.1141],
+        [ 0.0604,  0.0296, -0.0483,  ..., -0.0853, -0.0051, -0.0823],
+        [ 0.0054,  0.0435, -0.0588,  ...,  0.0072, -0.0768, -0.0322]],
+       device='cuda:0'), grad: tensor([[ 2.2173e-05,  9.9167e-06, -2.8580e-05,  ..., -3.7514e-06,
+          2.7157e-06,  7.3016e-07],
+        [ 2.3946e-05,  1.4909e-05,  6.6608e-06,  ...,  3.9488e-06,
+         -1.9863e-05, -3.9428e-05],
+        [ 1.3918e-05,  1.4231e-05,  5.7295e-06,  ...,  1.3031e-05,
+          1.7807e-05,  1.5929e-05],
+        ...,
+        [ 2.8849e-05,  2.0012e-05,  1.3441e-05,  ...,  2.3514e-05,
+          1.2383e-05,  3.4217e-06],
+        [ 2.4581e-04,  1.5080e-04,  4.5359e-05,  ...,  8.6546e-05,
+          4.0084e-05,  9.7528e-06],
+        [-8.2159e-04, -4.8518e-04, -1.9515e-04,  ..., -4.8828e-04,
+         -2.4414e-04,  2.5891e-06]], device='cuda:0')
+Epoch 66, bias, value: tensor([-0.0232, -0.0245, -0.0200, -0.0003, -0.0063,  0.0014, -0.0024, -0.0153,
+         0.0236, -0.0302], device='cuda:0'), grad: tensor([-8.5905e-06, -6.9365e-06,  1.3697e-04, -4.4525e-05,  1.0767e-03,
+         1.0121e-04,  1.8775e-05, -2.5898e-05,  5.2738e-04, -1.7748e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 65, time 219.59, cls_loss 0.0032 cls_loss_mapping 0.0095 cls_loss_causal 0.6176 re_mapping 0.0101 re_causal 0.0327 /// teacc 99.01 lr 0.00010000
+Epoch 67, weight, value: tensor([[-0.0103, -0.0172,  0.0747,  ...,  0.0010, -0.0400, -0.0300],
+        [-0.0656, -0.0560, -0.0825,  ...,  0.0173,  0.0442,  0.1472],
+        [-0.0314, -0.0379, -0.0380,  ..., -0.0490,  0.0218, -0.1029],
+        ...,
+        [-0.0887, -0.0868,  0.0264,  ..., -0.1017, -0.0524, -0.1154],
+        [ 0.0606,  0.0296, -0.0485,  ..., -0.0857, -0.0048, -0.0829],
+        [ 0.0061,  0.0439, -0.0594,  ...,  0.0074, -0.0775, -0.0328]],
+       device='cuda:0'), grad: tensor([[ 2.0247e-06, -4.5943e-04, -5.4693e-04,  ..., -2.5249e-04,
+          1.5367e-06,  2.1141e-07],
+        [ 2.5239e-06,  2.9281e-06,  1.7732e-06,  ..., -2.7604e-06,
+         -4.9919e-06, -1.2398e-05],
+        [ 3.3006e-06,  4.4852e-06,  2.5723e-06,  ...,  5.2191e-06,
+          3.8818e-06,  3.5726e-06],
+        ...,
+        [ 6.8843e-06,  5.9158e-06,  3.6322e-06,  ...,  7.4431e-06,
+          2.5406e-06,  1.3513e-06],
+        [ 1.1966e-05,  1.0364e-05,  6.4932e-06,  ...,  1.5855e-05,
+          4.9770e-06,  3.6955e-06],
+        [-9.5844e-05, -2.8253e-05,  2.7418e-06,  ..., -7.3195e-05,
+         -3.0790e-06,  8.4238e-07]], device='cuda:0')
+Epoch 67, bias, value: tensor([-0.0231, -0.0248, -0.0200, -0.0005, -0.0060,  0.0012, -0.0022, -0.0150,
+         0.0236, -0.0303], device='cuda:0'), grad: tensor([-7.3433e-04, -9.7379e-06,  1.7077e-05, -2.6271e-05,  1.4675e-04,
+         5.8842e-04,  1.3316e-04,  1.4707e-05,  3.6240e-05, -1.6546e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 66----------------------------------------------------
+epoch 66, time 220.32, cls_loss 0.0037 cls_loss_mapping 0.0118 cls_loss_causal 0.6276 re_mapping 0.0101 re_causal 0.0325 /// teacc 99.03 lr 0.00010000
+Epoch 68, weight, value: tensor([[-0.0104, -0.0171,  0.0749,  ...,  0.0007, -0.0402, -0.0304],
+        [-0.0660, -0.0566, -0.0826,  ...,  0.0177,  0.0445,  0.1508],
+        [-0.0319, -0.0387, -0.0385,  ..., -0.0492,  0.0218, -0.1063],
+        ...,
+        [-0.0892, -0.0873,  0.0262,  ..., -0.1022, -0.0528, -0.1174],
+        [ 0.0613,  0.0303, -0.0487,  ..., -0.0858, -0.0048, -0.0834],
+        [ 0.0064,  0.0437, -0.0599,  ...,  0.0084, -0.0781, -0.0338]],
+       device='cuda:0'), grad: tensor([[ 5.4128e-06, -1.2375e-05, -1.0155e-05,  ..., -1.3947e-05,
+          1.0014e-05,  2.5518e-07],
+        [ 8.9183e-06,  4.8354e-06,  6.7949e-06,  ...,  2.4904e-06,
+          2.3060e-06, -8.8364e-06],
+        [ 1.1466e-05,  1.2420e-05, -2.1785e-05,  ...,  5.4985e-06,
+         -6.6042e-05,  1.2573e-06],
+        ...,
+        [ 2.1189e-05,  7.4804e-06,  1.2182e-05,  ...,  1.8090e-05,
+          1.0684e-05,  9.2480e-07],
+        [-2.6450e-07, -2.8178e-05,  3.1382e-05,  ...,  3.0443e-05,
+          1.1012e-05,  1.2582e-06],
+        [-1.3721e-04, -3.4750e-05, -6.0707e-05,  ..., -1.1539e-04,
+         -1.9908e-05,  9.7603e-07]], device='cuda:0')
+Epoch 68, bias, value: tensor([-0.0235, -0.0246, -0.0200, -0.0007, -0.0061,  0.0012, -0.0020, -0.0148,
+         0.0237, -0.0302], device='cuda:0'), grad: tensor([ 4.0606e-06,  3.4988e-05, -1.1039e-04,  6.3002e-05,  1.1218e-04,
+         8.4758e-05,  7.4565e-05, -4.0650e-05,  1.0513e-05, -2.3293e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 67, time 219.36, cls_loss 0.0053 cls_loss_mapping 0.0145 cls_loss_causal 0.5877 re_mapping 0.0100 re_causal 0.0311 /// teacc 98.97 lr 0.00010000
+Epoch 69, weight, value: tensor([[-0.0101, -0.0159,  0.0760,  ...,  0.0019, -0.0399, -0.0307],
+        [-0.0664, -0.0571, -0.0839,  ...,  0.0176,  0.0444,  0.1521],
+        [-0.0323, -0.0392, -0.0391,  ..., -0.0497,  0.0218, -0.1063],
+        ...,
+        [-0.0892, -0.0874,  0.0263,  ..., -0.1019, -0.0532, -0.1186],
+        [ 0.0616,  0.0304, -0.0491,  ..., -0.0862, -0.0046, -0.0839],
+        [ 0.0065,  0.0434, -0.0611,  ...,  0.0085, -0.0790, -0.0342]],
+       device='cuda:0'), grad: tensor([[ 4.2208e-06,  3.3733e-06,  1.2480e-05,  ...,  6.9030e-06,
+          1.3031e-05,  1.7637e-07],
+        [ 8.8960e-06,  1.0915e-05,  2.5462e-06,  ...,  4.1611e-06,
+          8.3596e-06, -6.4336e-06],
+        [-2.8685e-05,  9.8273e-06,  7.3165e-06,  ...,  1.2346e-05,
+         -5.0128e-05,  8.0094e-07],
+        ...,
+        [ 1.2606e-05,  1.1727e-05,  3.4831e-06,  ...,  1.0051e-05,
+          1.3016e-05,  1.9204e-06],
+        [ 9.8825e-05,  1.1951e-04,  6.8322e-06,  ...,  6.0767e-05,
+          1.0437e-04,  6.5519e-07],
+        [-9.3039e-07,  1.2204e-05,  3.0901e-06,  ..., -3.8184e-08,
+          1.4335e-05,  1.0431e-06]], device='cuda:0')
+Epoch 69, bias, value: tensor([-0.0222, -0.0250, -0.0200,  0.0004, -0.0058,  0.0003, -0.0017, -0.0157,
+         0.0237, -0.0303], device='cuda:0'), grad: tensor([ 4.3213e-05,  3.3647e-05, -3.5238e-04, -2.2316e-04,  6.0014e-06,
+         3.1412e-05, -4.6968e-05,  4.4733e-05,  4.1962e-04,  4.3482e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 68, time 219.40, cls_loss 0.0042 cls_loss_mapping 0.0137 cls_loss_causal 0.6517 re_mapping 0.0096 re_causal 0.0313 /// teacc 98.99 lr 0.00010000
+Epoch 70, weight, value: tensor([[-0.0104, -0.0154,  0.0764,  ...,  0.0024, -0.0402, -0.0312],
+        [-0.0668, -0.0577, -0.0846,  ...,  0.0178,  0.0441,  0.1543],
+        [-0.0327, -0.0396, -0.0396,  ..., -0.0503,  0.0224, -0.1069],
+        ...,
+        [-0.0897, -0.0877,  0.0257,  ..., -0.1028, -0.0538, -0.1214],
+        [ 0.0618,  0.0311, -0.0488,  ..., -0.0865, -0.0042, -0.0845],
+        [ 0.0076,  0.0440, -0.0616,  ...,  0.0091, -0.0795, -0.0350]],
+       device='cuda:0'), grad: tensor([[ 6.7204e-06,  2.0694e-06,  2.2724e-05,  ...,  2.9169e-06,
+          1.6689e-05,  1.5935e-06],
+        [ 4.6566e-06,  1.4538e-06,  8.4862e-06,  ..., -6.4746e-06,
+          3.2857e-06, -3.5733e-05],
+        [ 9.3132e-06,  8.3223e-06,  2.3380e-05,  ...,  8.6948e-06,
+          8.9765e-05,  1.7360e-05],
+        ...,
+        [ 6.3777e-06,  2.8498e-06,  6.5625e-05,  ...,  5.9828e-06,
+          1.9282e-05,  3.1572e-06],
+        [ 2.0772e-05,  1.9461e-05,  1.7077e-05,  ...,  2.8655e-05,
+          2.5049e-05,  2.2519e-06],
+        [ 6.7532e-05, -3.1218e-06,  2.3985e-04,  ...,  5.8293e-05,
+          3.4976e-04,  1.3644e-06]], device='cuda:0')
+Epoch 70, bias, value: tensor([-0.0222, -0.0259, -0.0193, -0.0003, -0.0053,  0.0004, -0.0025, -0.0155,
+         0.0242, -0.0301], device='cuda:0'), grad: tensor([ 1.0842e-04,  4.6730e-05,  4.6682e-04,  1.5819e-04, -1.4696e-03,
+        -7.5519e-05,  6.7830e-05, -4.0984e-04,  1.6093e-04,  9.4604e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 69, time 219.42, cls_loss 0.0034 cls_loss_mapping 0.0113 cls_loss_causal 0.6086 re_mapping 0.0092 re_causal 0.0301 /// teacc 98.87 lr 0.00010000
+Epoch 71, weight, value: tensor([[-0.0105, -0.0151,  0.0763,  ...,  0.0023, -0.0408, -0.0316],
+        [-0.0677, -0.0597, -0.0862,  ...,  0.0166,  0.0442,  0.1545],
+        [-0.0332, -0.0405, -0.0402,  ..., -0.0510,  0.0222, -0.1075],
+        ...,
+        [-0.0901, -0.0885,  0.0254,  ..., -0.1034, -0.0541, -0.1238],
+        [ 0.0622,  0.0310, -0.0497,  ..., -0.0872, -0.0039, -0.0871],
+        [ 0.0080,  0.0445, -0.0617,  ...,  0.0108, -0.0799, -0.0330]],
+       device='cuda:0'), grad: tensor([[ 1.0114e-06,  7.0706e-06,  1.0625e-05,  ..., -3.4925e-08,
+          1.2666e-05,  1.2584e-07],
+        [ 6.3842e-07,  1.0192e-05,  1.7598e-05,  ..., -1.6447e-06,
+          1.9312e-05, -4.2245e-06],
+        [ 1.0595e-05,  2.3186e-05,  3.2037e-05,  ...,  7.8185e-07,
+          3.9101e-05,  7.1293e-07],
+        ...,
+        [ 2.3656e-06,  5.3570e-06, -4.4465e-05,  ...,  1.7500e-06,
+         -1.2137e-05,  7.0734e-07],
+        [-1.6108e-05, -1.7107e-04, -2.8110e-04,  ...,  1.0952e-06,
+         -3.4118e-04,  4.9779e-07],
+        [-2.4829e-06,  4.9174e-06,  4.1157e-05,  ..., -2.5742e-06,
+          3.9488e-05,  8.4052e-07]], device='cuda:0')
+Epoch 71, bias, value: tensor([-0.0224, -0.0266, -0.0196,  0.0002, -0.0054,  0.0004, -0.0019, -0.0153,
+         0.0239, -0.0298], device='cuda:0'), grad: tensor([ 4.8667e-05,  7.1883e-05,  1.7166e-04,  3.8296e-05,  2.2799e-05,
+         7.1001e-04,  1.5748e-04, -1.1432e-04, -1.2217e-03,  1.1402e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 70, time 219.51, cls_loss 0.0031 cls_loss_mapping 0.0116 cls_loss_causal 0.6094 re_mapping 0.0097 re_causal 0.0317 /// teacc 99.00 lr 0.00010000
+Epoch 72, weight, value: tensor([[-0.0105, -0.0150,  0.0765,  ...,  0.0023, -0.0410, -0.0318],
+        [-0.0679, -0.0600, -0.0865,  ...,  0.0168,  0.0444,  0.1564],
+        [-0.0337, -0.0412, -0.0408,  ..., -0.0514,  0.0222, -0.1084],
+        ...,
+        [-0.0905, -0.0893,  0.0255,  ..., -0.1039, -0.0546, -0.1262],
+        [ 0.0625,  0.0310, -0.0499,  ..., -0.0876, -0.0034, -0.0873],
+        [ 0.0085,  0.0450, -0.0623,  ...,  0.0113, -0.0808, -0.0334]],
+       device='cuda:0'), grad: tensor([[ 9.1419e-06,  4.1313e-06,  7.3947e-07,  ...,  7.2792e-06,
+          1.5222e-05,  1.8720e-06],
+        [ 2.0154e-06,  1.5097e-06, -4.1202e-06,  ..., -1.6019e-05,
+         -1.1280e-05, -2.8640e-05],
+        [ 1.0604e-04,  6.2585e-05,  9.6709e-06,  ...,  7.0274e-05,
+          1.6654e-04,  6.7875e-06],
+        ...,
+        [ 8.7246e-06,  5.5954e-06,  3.4738e-06,  ...,  7.4059e-06,
+         -6.9067e-06,  3.3323e-06],
+        [-6.5193e-06, -5.1260e-06,  7.1377e-06,  ...,  1.5080e-05,
+          1.1139e-05,  4.2468e-06],
+        [ 8.8895e-07,  2.9728e-06,  1.4804e-05,  ..., -1.1805e-07,
+          2.5526e-05,  3.3528e-06]], device='cuda:0')
+Epoch 72, bias, value: tensor([-0.0226, -0.0267, -0.0193, -0.0003, -0.0049,  0.0004, -0.0016, -0.0153,
+         0.0240, -0.0302], device='cuda:0'), grad: tensor([ 3.2127e-05, -2.2262e-05,  4.0698e-04, -2.8205e-04, -2.0385e-05,
+         3.9816e-05, -2.9147e-05, -2.3210e-04,  3.4839e-05,  7.2539e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 71, time 219.22, cls_loss 0.0038 cls_loss_mapping 0.0124 cls_loss_causal 0.6211 re_mapping 0.0096 re_causal 0.0305 /// teacc 98.97 lr 0.00010000
+Epoch 73, weight, value: tensor([[-0.0109, -0.0152,  0.0765,  ...,  0.0021, -0.0414, -0.0322],
+        [-0.0686, -0.0605, -0.0863,  ...,  0.0174,  0.0446,  0.1595],
+        [-0.0342, -0.0417, -0.0413,  ..., -0.0519,  0.0219, -0.1096],
+        ...,
+        [-0.0909, -0.0896,  0.0262,  ..., -0.1044, -0.0540, -0.1312],
+        [ 0.0628,  0.0311, -0.0503,  ..., -0.0881, -0.0035, -0.0881],
+        [ 0.0102,  0.0459, -0.0625,  ...,  0.0123, -0.0806, -0.0340]],
+       device='cuda:0'), grad: tensor([[ 2.7269e-06, -1.3839e-06, -8.0243e-06,  ..., -2.5257e-06,
+          5.7220e-06,  7.0734e-07],
+        [ 1.9409e-06,  3.6135e-06,  5.6345e-07,  ..., -1.6168e-06,
+         -1.0395e-04, -1.4198e-04],
+        [ 2.4512e-05,  1.3985e-05,  4.9509e-06,  ...,  4.0084e-06,
+          1.4961e-05,  1.1474e-05],
+        ...,
+        [ 8.1137e-06,  7.2718e-06,  3.2037e-06,  ...,  8.8885e-06,
+          2.2292e-05,  1.7509e-05],
+        [-3.7819e-05, -6.5714e-06,  7.8902e-06,  ...,  5.1148e-06,
+         -3.9876e-05,  1.5106e-06],
+        [-2.7522e-05, -6.2212e-06,  7.3761e-06,  ..., -3.1292e-05,
+          1.0341e-05,  2.9299e-06]], device='cuda:0')
+Epoch 73, bias, value: tensor([-0.0231, -0.0266, -0.0195, -0.0007, -0.0060,  0.0006, -0.0013, -0.0145,
+         0.0237, -0.0296], device='cuda:0'), grad: tensor([ 9.7975e-07, -1.8156e-04,  6.4850e-05,  5.0664e-05,  1.8597e-04,
+        -9.4175e-05,  5.2661e-05,  5.9187e-05, -1.1480e-04, -2.3872e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 72----------------------------------------------------
+epoch 72, time 220.25, cls_loss 0.0035 cls_loss_mapping 0.0106 cls_loss_causal 0.6097 re_mapping 0.0098 re_causal 0.0305 /// teacc 99.06 lr 0.00010000
+Epoch 74, weight, value: tensor([[-0.0109, -0.0150,  0.0765,  ...,  0.0021, -0.0419, -0.0327],
+        [-0.0692, -0.0609, -0.0869,  ...,  0.0175,  0.0444,  0.1613],
+        [-0.0349, -0.0423, -0.0419,  ..., -0.0524,  0.0217, -0.1105],
+        ...,
+        [-0.0918, -0.0901,  0.0264,  ..., -0.1055, -0.0542, -0.1336],
+        [ 0.0631,  0.0309, -0.0508,  ..., -0.0886, -0.0031, -0.0881],
+        [ 0.0102,  0.0453, -0.0637,  ...,  0.0125, -0.0818, -0.0350]],
+       device='cuda:0'), grad: tensor([[ 6.3330e-06,  1.2204e-05,  2.5006e-07,  ...,  3.7104e-06,
+          4.3064e-06,  3.4086e-06],
+        [ 3.3826e-06,  4.7497e-06,  7.2457e-07,  ..., -3.0637e-05,
+         -2.5973e-05, -4.7207e-05],
+        [ 2.8014e-05,  2.4900e-05,  7.1246e-07,  ...,  8.3819e-06,
+          1.6347e-05,  9.4324e-06],
+        ...,
+        [ 2.7418e-05,  2.7463e-05,  5.3877e-07,  ...,  1.7479e-05,
+          8.0466e-06,  5.9009e-06],
+        [-8.8736e-06,  3.8981e-05,  3.0305e-06,  ...,  1.4231e-05,
+         -6.7241e-06,  1.1310e-05],
+        [-2.3823e-06,  9.7036e-05,  3.3379e-06,  ..., -3.0488e-05,
+          1.0133e-05,  5.8524e-06]], device='cuda:0')
+Epoch 74, bias, value: tensor([-0.0236, -0.0272, -0.0197, -0.0006, -0.0048,  0.0011, -0.0010, -0.0144,
+         0.0232, -0.0301], device='cuda:0'), grad: tensor([ 3.5197e-05, -5.5641e-05,  8.7798e-05,  8.2350e-04,  5.1647e-05,
+        -1.2798e-03,  8.8394e-05,  2.0340e-05,  4.5568e-05,  1.8334e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 73, time 219.01, cls_loss 0.0029 cls_loss_mapping 0.0098 cls_loss_causal 0.6053 re_mapping 0.0094 re_causal 0.0294 /// teacc 98.91 lr 0.00010000
+Epoch 75, weight, value: tensor([[-0.0110, -0.0149,  0.0767,  ...,  0.0022, -0.0423, -0.0330],
+        [-0.0699, -0.0616, -0.0875,  ...,  0.0181,  0.0448,  0.1629],
+        [-0.0355, -0.0429, -0.0427,  ..., -0.0532,  0.0212, -0.1113],
+        ...,
+        [-0.0923, -0.0906,  0.0263,  ..., -0.1066, -0.0549, -0.1354],
+        [ 0.0636,  0.0308, -0.0511,  ..., -0.0888, -0.0027, -0.0887],
+        [ 0.0105,  0.0454, -0.0641,  ...,  0.0129, -0.0823, -0.0353]],
+       device='cuda:0'), grad: tensor([[ 2.5406e-05, -7.6145e-06, -4.4256e-05,  ..., -6.0141e-05,
+          5.3234e-06,  2.8498e-07],
+        [ 2.0768e-06,  7.3984e-06,  2.1949e-05,  ...,  1.5676e-05,
+         -1.2107e-05, -1.6287e-05],
+        [ 1.2144e-05,  8.3521e-06,  1.2346e-05,  ...,  1.1794e-05,
+          1.1355e-05,  3.4161e-06],
+        ...,
+        [ 1.0133e-06,  1.5050e-06,  1.0289e-05,  ...,  5.1446e-06,
+          1.5721e-05,  4.9546e-06],
+        [-9.2685e-05, -5.3495e-05, -4.4405e-06,  ..., -1.4365e-05,
+         -1.7613e-05,  1.9046e-06],
+        [ 2.8968e-05,  2.0772e-05,  1.0276e-04,  ...,  1.8418e-05,
+          5.8830e-05,  1.8487e-06]], device='cuda:0')
+Epoch 75, bias, value: tensor([-0.0237, -0.0269, -0.0202, -0.0005, -0.0048,  0.0011, -0.0008, -0.0145,
+         0.0238, -0.0304], device='cuda:0'), grad: tensor([-1.0139e-04,  2.3499e-05,  4.3184e-05,  2.2545e-05, -3.1376e-04,
+         6.5923e-05,  8.1480e-05,  4.4376e-05, -1.2815e-04,  2.6250e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 74, time 218.28, cls_loss 0.0034 cls_loss_mapping 0.0107 cls_loss_causal 0.6381 re_mapping 0.0092 re_causal 0.0294 /// teacc 99.02 lr 0.00010000
+Epoch 76, weight, value: tensor([[-0.0114, -0.0153,  0.0771,  ...,  0.0023, -0.0424, -0.0333],
+        [-0.0704, -0.0624, -0.0881,  ...,  0.0186,  0.0451,  0.1651],
+        [-0.0360, -0.0436, -0.0433,  ..., -0.0539,  0.0210, -0.1121],
+        ...,
+        [-0.0927, -0.0912,  0.0260,  ..., -0.1078, -0.0549, -0.1385],
+        [ 0.0641,  0.0310, -0.0514,  ..., -0.0893, -0.0028, -0.0893],
+        [ 0.0108,  0.0457, -0.0646,  ...,  0.0137, -0.0829, -0.0357]],
+       device='cuda:0'), grad: tensor([[ 3.0138e-06, -1.0217e-06, -5.0738e-06,  ..., -3.2261e-06,
+          1.7788e-06,  2.2743e-06],
+        [ 4.1015e-06,  3.8259e-06, -2.1383e-06,  ..., -4.0144e-05,
+         -1.9789e-05, -4.4823e-05],
+        [ 3.9563e-06,  4.3213e-06,  1.1474e-06,  ...,  5.5954e-06,
+          3.1777e-06,  4.9993e-06],
+        ...,
+        [ 3.1199e-06,  2.9784e-06,  7.5204e-07,  ...,  1.2085e-05,
+          6.3665e-06,  1.1615e-05],
+        [-9.2149e-05, -8.1718e-05,  1.4501e-06,  ..., -6.3702e-07,
+         -1.3344e-05,  6.5975e-06],
+        [ 5.0753e-05,  5.4985e-05,  2.9691e-06,  ...,  1.3277e-05,
+          1.3240e-05,  5.9754e-06]], device='cuda:0')
+Epoch 76, bias, value: tensor([-0.0237, -0.0268, -0.0208, -0.0007, -0.0047,  0.0009, -0.0006, -0.0139,
+         0.0236, -0.0304], device='cuda:0'), grad: tensor([ 3.3081e-06, -6.9141e-05,  2.3142e-05,  3.4243e-05,  2.1413e-05,
+         3.0220e-05,  1.8239e-05, -1.4268e-06, -2.1636e-04,  1.5616e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 75, time 218.41, cls_loss 0.0025 cls_loss_mapping 0.0080 cls_loss_causal 0.6022 re_mapping 0.0091 re_causal 0.0289 /// teacc 98.97 lr 0.00010000
+Epoch 77, weight, value: tensor([[-0.0118, -0.0155,  0.0773,  ...,  0.0024, -0.0428, -0.0338],
+        [-0.0707, -0.0627, -0.0885,  ...,  0.0190,  0.0450,  0.1666],
+        [-0.0364, -0.0441, -0.0438,  ..., -0.0542,  0.0212, -0.1118],
+        ...,
+        [-0.0932, -0.0917,  0.0260,  ..., -0.1085, -0.0553, -0.1411],
+        [ 0.0641,  0.0308, -0.0515,  ..., -0.0899, -0.0028, -0.0899],
+        [ 0.0107,  0.0452, -0.0650,  ...,  0.0137, -0.0836, -0.0362]],
+       device='cuda:0'), grad: tensor([[ 2.2650e-06, -3.6269e-05, -4.7714e-05,  ..., -7.8678e-06,
+          6.1747e-07, -4.2841e-06],
+        [ 1.0878e-06,  1.2750e-06,  8.2189e-07,  ..., -4.2245e-06,
+         -1.1511e-06, -9.9689e-06],
+        [ 3.8631e-06,  1.5154e-05,  1.6958e-05,  ...,  5.6885e-06,
+          2.0508e-06,  2.7753e-06],
+        ...,
+        [ 3.5968e-06,  4.0121e-06,  1.7760e-06,  ...,  4.4666e-06,
+         -5.3458e-07,  2.6152e-06],
+        [-3.5428e-06,  1.1265e-05,  2.1532e-05,  ...,  9.7379e-06,
+         -2.3395e-06,  3.1553e-06],
+        [-4.0263e-05, -2.6658e-05,  8.7023e-06,  ..., -3.1203e-05,
+          4.8764e-06,  2.3097e-06]], device='cuda:0')
+Epoch 77, bias, value: tensor([-0.0239, -0.0266, -0.0203,  0.0004, -0.0046,  0.0005, -0.0006, -0.0145,
+         0.0234, -0.0308], device='cuda:0'), grad: tensor([-9.0599e-05,  1.8761e-05,  8.8036e-05,  2.7061e-05,  5.6356e-05,
+         3.2008e-05, -9.9167e-06, -1.3113e-04,  4.4823e-05, -3.5226e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 76, time 218.50, cls_loss 0.0030 cls_loss_mapping 0.0096 cls_loss_causal 0.6168 re_mapping 0.0091 re_causal 0.0283 /// teacc 98.90 lr 0.00010000
+Epoch 78, weight, value: tensor([[-0.0120, -0.0154,  0.0774,  ...,  0.0024, -0.0432, -0.0341],
+        [-0.0713, -0.0630, -0.0890,  ...,  0.0193,  0.0453,  0.1683],
+        [-0.0369, -0.0446, -0.0445,  ..., -0.0548,  0.0210, -0.1124],
+        ...,
+        [-0.0939, -0.0925,  0.0263,  ..., -0.1096, -0.0555, -0.1430],
+        [ 0.0643,  0.0308, -0.0518,  ..., -0.0906, -0.0029, -0.0905],
+        [ 0.0114,  0.0453, -0.0655,  ...,  0.0146, -0.0844, -0.0367]],
+       device='cuda:0'), grad: tensor([[ 1.8608e-06, -4.4852e-06, -3.4999e-06,  ..., -5.5023e-06,
+          5.1446e-06,  5.9139e-07],
+        [ 6.9514e-06,  3.0976e-06,  3.4988e-05,  ...,  7.5735e-06,
+          4.3511e-05, -2.3380e-05],
+        [ 2.3562e-06,  2.6524e-06,  1.1742e-05,  ...,  1.1131e-05,
+          1.3530e-05,  4.4443e-06],
+        ...,
+        [ 4.9807e-06,  2.6524e-06,  1.0375e-06,  ...,  8.8438e-06,
+          2.0415e-05,  5.6587e-06],
+        [-3.1311e-06,  1.6196e-06,  2.3872e-05,  ...,  3.2842e-05,
+          2.9668e-05,  3.1814e-06],
+        [-1.3745e-04, -6.6936e-05,  1.5885e-05,  ..., -1.5771e-04,
+          9.0078e-06,  3.6135e-06]], device='cuda:0')
+Epoch 78, bias, value: tensor([-0.0244, -0.0265, -0.0204,  0.0004, -0.0047,  0.0006, -0.0002, -0.0146,
+         0.0232, -0.0304], device='cuda:0'), grad: tensor([ 1.2890e-05,  1.4067e-04,  6.0350e-05,  2.4974e-05,  4.3869e-05,
+         1.2141e-04, -2.6774e-04, -1.7428e-04,  1.3769e-04, -9.9897e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 77, time 218.10, cls_loss 0.0034 cls_loss_mapping 0.0096 cls_loss_causal 0.5961 re_mapping 0.0089 re_causal 0.0276 /// teacc 98.96 lr 0.00010000
+Epoch 79, weight, value: tensor([[-0.0117, -0.0155,  0.0783,  ...,  0.0029, -0.0428, -0.0341],
+        [-0.0717, -0.0635, -0.0898,  ...,  0.0194,  0.0453,  0.1694],
+        [-0.0376, -0.0456, -0.0453,  ..., -0.0554,  0.0207, -0.1127],
+        ...,
+        [-0.0945, -0.0933,  0.0271,  ..., -0.1104, -0.0556, -0.1452],
+        [ 0.0649,  0.0310, -0.0524,  ..., -0.0911, -0.0025, -0.0907],
+        [ 0.0117,  0.0452, -0.0662,  ...,  0.0149, -0.0850, -0.0370]],
+       device='cuda:0'), grad: tensor([[ 5.8830e-05,  5.8442e-05, -2.6003e-06,  ...,  2.8208e-05,
+          2.3693e-05,  5.5181e-08],
+        [ 4.9382e-05,  5.1737e-05,  9.7379e-06,  ...,  7.8797e-05,
+          1.4501e-06, -2.0675e-06],
+        [ 1.0757e-06,  1.4212e-06,  1.0338e-06,  ...,  1.6820e-06,
+         -9.6709e-06,  1.0850e-07],
+        ...,
+        [ 9.5963e-06,  6.5006e-06,  2.6692e-06,  ...,  8.9854e-06,
+          9.6858e-06,  5.3504e-07],
+        [-8.0168e-05, -7.7844e-05,  8.1807e-06,  ..., -2.5466e-05,
+         -3.2485e-05,  5.1502e-07],
+        [-7.8082e-05, -7.6294e-05, -1.4663e-05,  ..., -1.3113e-04,
+          4.2729e-06,  2.8964e-07]], device='cuda:0')
+Epoch 79, bias, value: tensor([-0.0236, -0.0268, -0.0211,  0.0004, -0.0058,  0.0014, -0.0001, -0.0142,
+         0.0233, -0.0305], device='cuda:0'), grad: tensor([ 1.0777e-04,  2.1660e-04, -2.8744e-05,  2.2739e-05,  7.2062e-05,
+         2.1949e-05, -8.1882e-06,  3.7819e-05, -1.1396e-04, -3.2830e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 78, time 218.42, cls_loss 0.0027 cls_loss_mapping 0.0099 cls_loss_causal 0.6210 re_mapping 0.0093 re_causal 0.0287 /// teacc 99.01 lr 0.00010000
+Epoch 80, weight, value: tensor([[-0.0124, -0.0169,  0.0783,  ...,  0.0025, -0.0431, -0.0344],
+        [-0.0720, -0.0639, -0.0904,  ...,  0.0198,  0.0453,  0.1714],
+        [-0.0375, -0.0451, -0.0456,  ..., -0.0556,  0.0206, -0.1132],
+        ...,
+        [-0.0947, -0.0936,  0.0266,  ..., -0.1112, -0.0557, -0.1482],
+        [ 0.0657,  0.0313, -0.0526,  ..., -0.0910, -0.0023, -0.0915],
+        [ 0.0121,  0.0452, -0.0665,  ...,  0.0153, -0.0855, -0.0375]],
+       device='cuda:0'), grad: tensor([[ 6.0163e-06,  3.5409e-06, -6.2101e-06,  ...,  2.3022e-06,
+          1.5311e-06,  1.6764e-08],
+        [ 2.2873e-06,  2.5574e-06,  9.8627e-07,  ...,  1.2927e-06,
+          5.8766e-07, -1.3234e-06],
+        [ 1.4134e-05,  8.4862e-06,  3.0622e-06,  ...,  3.6620e-06,
+          5.9828e-06,  9.4529e-08],
+        ...,
+        [ 1.9550e-05,  1.3269e-05,  1.7677e-06,  ...,  8.8960e-06,
+          6.7614e-06,  2.1141e-07],
+        [-3.1680e-05, -1.2536e-06,  2.5947e-06,  ...,  8.9854e-06,
+         -1.1697e-05,  1.9558e-07],
+        [-7.2122e-06, -1.7546e-06,  2.3525e-06,  ..., -1.5959e-05,
+          4.7497e-06,  2.5891e-07]], device='cuda:0')
+Epoch 80, bias, value: tensor([-0.0246, -0.0272, -0.0210,  0.0003, -0.0057,  0.0014,  0.0003, -0.0138,
+         0.0237, -0.0309], device='cuda:0'), grad: tensor([ 1.1787e-05,  6.9067e-06, -5.6103e-06,  2.1100e-05,  2.1592e-05,
+        -8.5354e-05, -4.1276e-06,  4.1574e-05,  8.0839e-06, -1.6049e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 79, time 218.22, cls_loss 0.0027 cls_loss_mapping 0.0098 cls_loss_causal 0.6117 re_mapping 0.0091 re_causal 0.0280 /// teacc 99.02 lr 0.00010000
+Epoch 81, weight, value: tensor([[-0.0125, -0.0167,  0.0788,  ...,  0.0028, -0.0433, -0.0354],
+        [-0.0723, -0.0649, -0.0905,  ...,  0.0205,  0.0445,  0.1736],
+        [-0.0378, -0.0448, -0.0460,  ..., -0.0558,  0.0218, -0.1127],
+        ...,
+        [-0.0956, -0.0941,  0.0263,  ..., -0.1122, -0.0560, -0.1520],
+        [ 0.0658,  0.0311, -0.0530,  ..., -0.0916, -0.0023, -0.0924],
+        [ 0.0125,  0.0452, -0.0672,  ...,  0.0156, -0.0863, -0.0382]],
+       device='cuda:0'), grad: tensor([[ 9.3039e-07, -1.7872e-06, -1.0114e-06,  ..., -1.0775e-06,
+          1.5907e-06,  1.2759e-07],
+        [ 6.9803e-07,  1.5609e-06,  1.8477e-06,  ..., -4.2398e-07,
+          2.6124e-07, -3.6694e-06],
+        [ 5.0217e-06,  8.0913e-06,  1.3866e-05,  ...,  1.1340e-05,
+          1.2383e-05,  4.8336e-07],
+        ...,
+        [ 3.8482e-06,  5.1260e-06,  1.4286e-06,  ...,  2.7940e-06,
+          2.0303e-06,  8.5309e-07],
+        [-2.4363e-06,  8.1062e-06,  1.4812e-05,  ...,  1.0066e-05,
+          7.2047e-06,  7.9442e-07],
+        [-2.7232e-06,  2.1979e-06,  2.4382e-06,  ..., -2.1663e-06,
+          1.8450e-06,  3.0361e-07]], device='cuda:0')
+Epoch 81, bias, value: tensor([-0.0244, -0.0282, -0.0196,  0.0002, -0.0050,  0.0017, -0.0007, -0.0137,
+         0.0232, -0.0310], device='cuda:0'), grad: tensor([ 6.7130e-06,  4.9025e-06,  5.0813e-05, -1.8728e-04,  1.5423e-05,
+         9.2566e-05, -5.9277e-05,  1.2666e-05,  5.6654e-05,  6.5193e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 80, time 218.50, cls_loss 0.0033 cls_loss_mapping 0.0120 cls_loss_causal 0.6396 re_mapping 0.0087 re_causal 0.0274 /// teacc 99.03 lr 0.00010000
+Epoch 82, weight, value: tensor([[-0.0127, -0.0166,  0.0793,  ...,  0.0031, -0.0436, -0.0357],
+        [-0.0724, -0.0653, -0.0913,  ...,  0.0213,  0.0450,  0.1759],
+        [-0.0383, -0.0446, -0.0463,  ..., -0.0563,  0.0217, -0.1133],
+        ...,
+        [-0.0957, -0.0949,  0.0259,  ..., -0.1134, -0.0567, -0.1558],
+        [ 0.0657,  0.0305, -0.0536,  ..., -0.0924, -0.0024, -0.0929],
+        [ 0.0128,  0.0452, -0.0675,  ...,  0.0160, -0.0870, -0.0387]],
+       device='cuda:0'), grad: tensor([[ 7.5903e-07, -3.7695e-07,  4.1910e-06,  ...,  4.2506e-06,
+          7.7114e-07,  2.0396e-07],
+        [ 6.1048e-07,  7.2923e-07,  8.1491e-07,  ..., -4.8876e-06,
+         -6.1430e-06, -1.3024e-05],
+        [ 2.5947e-06,  2.5015e-06,  1.7742e-06,  ...,  3.9339e-06,
+         -3.5353e-06,  3.0417e-06],
+        ...,
+        [ 3.3855e-05,  2.4930e-05,  2.7437e-06,  ...,  3.2276e-05,
+          1.2591e-05,  5.6103e-06],
+        [ 5.3830e-06,  1.1377e-05,  2.5071e-06,  ...,  7.2382e-06,
+          1.5479e-06,  1.0999e-06],
+        [-5.9128e-05, -3.3289e-05,  2.7586e-06,  ..., -5.0485e-05,
+          4.6603e-06,  9.8255e-07]], device='cuda:0')
+Epoch 82, bias, value: tensor([-0.0243, -0.0278, -0.0194,  0.0002, -0.0047,  0.0024, -0.0011, -0.0136,
+         0.0225, -0.0316], device='cuda:0'), grad: tensor([ 1.0520e-05, -1.5408e-05, -2.0549e-05,  6.1154e-05,  1.4678e-05,
+        -7.2122e-05, -1.3322e-05,  1.2827e-04,  2.7135e-05, -1.2016e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 81, time 218.53, cls_loss 0.0027 cls_loss_mapping 0.0103 cls_loss_causal 0.5931 re_mapping 0.0093 re_causal 0.0288 /// teacc 98.95 lr 0.00010000
+Epoch 83, weight, value: tensor([[-0.0130, -0.0166,  0.0795,  ...,  0.0031, -0.0441, -0.0361],
+        [-0.0727, -0.0656, -0.0918,  ...,  0.0218,  0.0455,  0.1787],
+        [-0.0389, -0.0452, -0.0467,  ..., -0.0569,  0.0216, -0.1145],
+        ...,
+        [-0.0961, -0.0956,  0.0259,  ..., -0.1141, -0.0572, -0.1600],
+        [ 0.0660,  0.0305, -0.0539,  ..., -0.0930, -0.0023, -0.0935],
+        [ 0.0136,  0.0453, -0.0677,  ...,  0.0170, -0.0873, -0.0392]],
+       device='cuda:0'), grad: tensor([[ 9.9838e-06,  1.5959e-05, -1.0403e-06,  ...,  1.9431e-05,
+          1.6177e-06,  2.2119e-08],
+        [ 6.4373e-05,  1.3673e-04,  4.2543e-06,  ...,  1.7786e-04,
+          4.0680e-06, -7.1246e-07],
+        [ 8.7544e-06,  1.1854e-05,  1.3066e-06,  ...,  1.1258e-05,
+          1.8971e-06,  1.1385e-07],
+        ...,
+        [ 1.0617e-05,  1.3649e-05,  1.5572e-06,  ...,  1.5140e-05,
+          3.0082e-06,  1.6834e-07],
+        [ 1.7107e-05,  1.9044e-05,  6.1058e-06,  ...,  2.1011e-05,
+          5.1856e-06,  1.3644e-07],
+        [-4.5276e-04, -4.8876e-04, -8.7082e-05,  ..., -8.0538e-04,
+         -8.1778e-05,  5.7276e-08]], device='cuda:0')
+Epoch 83, bias, value: tensor([-0.0247, -0.0274, -0.0192,  0.0003, -0.0048,  0.0019, -0.0004, -0.0138,
+         0.0222, -0.0315], device='cuda:0'), grad: tensor([ 5.5552e-05,  4.5061e-04,  3.4928e-05,  6.8605e-05,  1.1301e-03,
+         1.5819e-04,  4.1008e-05,  1.6257e-05,  6.3658e-05, -2.0199e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 82, time 218.57, cls_loss 0.0045 cls_loss_mapping 0.0131 cls_loss_causal 0.6193 re_mapping 0.0088 re_causal 0.0277 /// teacc 98.89 lr 0.00010000
+Epoch 84, weight, value: tensor([[-0.0130, -0.0164,  0.0797,  ...,  0.0030, -0.0443, -0.0368],
+        [-0.0730, -0.0660, -0.0928,  ...,  0.0214,  0.0458,  0.1810],
+        [-0.0396, -0.0459, -0.0473,  ..., -0.0579,  0.0210, -0.1151],
+        ...,
+        [-0.0975, -0.0963,  0.0255,  ..., -0.1171, -0.0580, -0.1634],
+        [ 0.0664,  0.0307, -0.0543,  ..., -0.0937, -0.0022, -0.0946],
+        [ 0.0155,  0.0455, -0.0677,  ...,  0.0185, -0.0872, -0.0399]],
+       device='cuda:0'), grad: tensor([[ 7.7635e-06,  3.2425e-05, -7.0706e-06,  ...,  1.2629e-05,
+          8.8662e-06,  5.2620e-08],
+        [ 6.8210e-06,  1.3091e-05,  1.2824e-06,  ...,  7.0557e-06,
+         -1.8489e-04, -5.7230e-07],
+        [ 2.1398e-05,  3.4034e-05,  1.6605e-06,  ...,  1.5751e-05,
+          1.7190e-04,  4.9593e-08],
+        ...,
+        [ 4.8541e-06,  3.0309e-05,  6.3963e-06,  ...,  1.9088e-05,
+          3.0875e-05,  8.0559e-08],
+        [ 1.0836e-04,  1.6725e-04,  9.2387e-07,  ...,  9.2804e-05,
+          5.0396e-05,  8.1956e-08],
+        [ 1.9819e-05,  2.9758e-05,  9.0182e-05,  ...,  8.1420e-05,
+          7.6234e-05,  6.6124e-08]], device='cuda:0')
+Epoch 84, bias, value: tensor([-2.4774e-02, -2.7211e-02, -1.9935e-02,  4.0391e-05, -4.0641e-03,
+         2.2523e-03, -2.0202e-04, -1.5410e-02,  2.2319e-02, -3.0677e-02],
+       device='cuda:0'), grad: tensor([ 1.6427e-04, -4.7755e-04,  2.6188e-03, -1.2674e-03, -2.4581e-04,
+         5.5170e-04,  6.9261e-05, -2.0771e-03,  3.5453e-04,  3.1042e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 83, time 218.57, cls_loss 0.0039 cls_loss_mapping 0.0114 cls_loss_causal 0.6168 re_mapping 0.0084 re_causal 0.0271 /// teacc 99.03 lr 0.00010000
+Epoch 85, weight, value: tensor([[-0.0131, -0.0167,  0.0796,  ...,  0.0017, -0.0445, -0.0375],
+        [-0.0742, -0.0672, -0.0932,  ...,  0.0219,  0.0461,  0.1833],
+        [-0.0402, -0.0466, -0.0477,  ..., -0.0587,  0.0206, -0.1159],
+        ...,
+        [-0.0973, -0.0966,  0.0259,  ..., -0.1172, -0.0583, -0.1660],
+        [ 0.0668,  0.0302, -0.0545,  ..., -0.0935, -0.0016, -0.0949],
+        [ 0.0156,  0.0460, -0.0677,  ...,  0.0198, -0.0882, -0.0408]],
+       device='cuda:0'), grad: tensor([[ 2.6636e-07, -6.9499e-05, -4.2021e-05,  ..., -8.6844e-05,
+          1.0505e-06,  3.6159e-07],
+        [ 3.0990e-07,  9.5926e-07,  8.1584e-07,  ..., -1.0684e-05,
+         -7.9945e-06, -1.6838e-05],
+        [ 8.7451e-07,  2.6479e-05,  1.5162e-05,  ...,  3.3230e-05,
+         -4.8894e-07,  6.0350e-07],
+        ...,
+        [ 1.3169e-06,  3.4384e-06,  1.9055e-06,  ...,  4.3400e-06,
+          1.9185e-06,  1.4035e-06],
+        [ 3.0827e-06,  4.6864e-06,  1.7937e-06,  ...,  4.7833e-06,
+          3.4925e-06,  1.2293e-06],
+        [-8.1677e-07,  2.4721e-05,  1.5318e-05,  ...,  3.1531e-05,
+          2.9020e-06,  2.4326e-06]], device='cuda:0')
+Epoch 85, bias, value: tensor([-0.0260, -0.0272, -0.0207,  0.0003, -0.0035,  0.0019, -0.0002, -0.0141,
+         0.0224, -0.0314], device='cuda:0'), grad: tensor([-1.5426e-04, -1.9118e-05,  5.2601e-05,  1.9029e-05,  3.5129e-06,
+         1.0230e-05,  1.6212e-05, -1.5855e-05,  1.4246e-05,  7.3373e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 84, time 218.59, cls_loss 0.0025 cls_loss_mapping 0.0077 cls_loss_causal 0.5625 re_mapping 0.0088 re_causal 0.0259 /// teacc 99.01 lr 0.00010000
+Epoch 86, weight, value: tensor([[-0.0131, -0.0164,  0.0798,  ...,  0.0017, -0.0446, -0.0386],
+        [-0.0745, -0.0675, -0.0934,  ...,  0.0233,  0.0463,  0.1856],
+        [-0.0408, -0.0471, -0.0482,  ..., -0.0593,  0.0206, -0.1164],
+        ...,
+        [-0.0976, -0.0969,  0.0260,  ..., -0.1183, -0.0588, -0.1676],
+        [ 0.0671,  0.0303, -0.0550,  ..., -0.0943, -0.0013, -0.0957],
+        [ 0.0161,  0.0460, -0.0681,  ...,  0.0203, -0.0889, -0.0417]],
+       device='cuda:0'), grad: tensor([[ 4.2543e-06,  4.7162e-06, -3.4049e-06,  ...,  1.9427e-06,
+          8.1584e-07,  1.0198e-07],
+        [ 1.3784e-06, -6.7167e-06,  3.9418e-07,  ..., -2.3097e-06,
+         -1.4767e-05, -1.2279e-05],
+        [ 1.8757e-06,  5.4464e-06,  6.3283e-07,  ...,  2.7549e-06,
+          6.9626e-06,  5.3346e-06],
+        ...,
+        [ 3.5539e-06,  4.5635e-06,  1.2768e-06,  ...,  5.1409e-06,
+          2.8424e-06,  2.0806e-06],
+        [ 8.0913e-06,  9.3356e-06,  5.3458e-07,  ...,  8.1584e-06,
+          1.2759e-06,  3.4086e-07],
+        [-7.9572e-05, -6.7830e-05,  3.5334e-06,  ..., -6.7770e-05,
+         -5.1260e-06,  2.1998e-06]], device='cuda:0')
+Epoch 86, bias, value: tensor([-0.0260, -0.0266, -0.0208, -0.0002, -0.0035,  0.0018, -0.0003, -0.0140,
+         0.0225, -0.0315], device='cuda:0'), grad: tensor([ 4.0606e-06, -5.5730e-05,  3.0786e-05,  3.2485e-05,  8.5652e-05,
+        -8.9407e-04,  9.1124e-04,  1.9729e-05,  2.1994e-05, -1.5664e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 85, time 218.46, cls_loss 0.0033 cls_loss_mapping 0.0095 cls_loss_causal 0.6054 re_mapping 0.0077 re_causal 0.0253 /// teacc 98.97 lr 0.00010000
+Epoch 87, weight, value: tensor([[-0.0134, -0.0162,  0.0798,  ...,  0.0018, -0.0450, -0.0390],
+        [-0.0751, -0.0678, -0.0939,  ...,  0.0242,  0.0469,  0.1875],
+        [-0.0416, -0.0475, -0.0486,  ..., -0.0599,  0.0200, -0.1169],
+        ...,
+        [-0.0978, -0.0973,  0.0259,  ..., -0.1190, -0.0587, -0.1692],
+        [ 0.0674,  0.0303, -0.0555,  ..., -0.0949, -0.0009, -0.0963],
+        [ 0.0168,  0.0465, -0.0684,  ...,  0.0207, -0.0896, -0.0424]],
+       device='cuda:0'), grad: tensor([[ 2.6897e-06, -5.4270e-05, -7.4565e-05,  ..., -8.3089e-05,
+          2.2389e-06,  1.4273e-07],
+        [ 5.2489e-06,  7.8082e-06,  1.9222e-06,  ..., -1.2051e-06,
+          2.7437e-06, -7.4618e-06],
+        [ 3.8631e-06,  1.7211e-05,  1.9893e-05,  ...,  2.1383e-05,
+          2.0079e-06,  6.7614e-07],
+        ...,
+        [ 5.9493e-06,  5.2527e-06,  1.1094e-05,  ...,  5.4091e-06,
+          1.2763e-05,  2.5164e-06],
+        [ 8.8215e-06,  3.6657e-05,  3.3230e-06,  ...,  2.9147e-05,
+          2.7925e-05,  1.1334e-06],
+        [ 3.6368e-07,  3.7968e-05,  5.1439e-05,  ...,  4.5210e-05,
+          1.4700e-05,  1.2610e-06]], device='cuda:0')
+Epoch 87, bias, value: tensor([-0.0264, -0.0264, -0.0216, -0.0005, -0.0038,  0.0019,  0.0004, -0.0132,
+         0.0226, -0.0317], device='cuda:0'), grad: tensor([-1.6677e-04,  1.4558e-05,  7.8499e-05, -7.8821e-04, -6.9916e-05,
+         7.5054e-04,  1.8269e-05, -1.6615e-05,  3.7581e-05,  1.4210e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 86, time 218.82, cls_loss 0.0019 cls_loss_mapping 0.0068 cls_loss_causal 0.5700 re_mapping 0.0080 re_causal 0.0257 /// teacc 98.95 lr 0.00010000
+Epoch 88, weight, value: tensor([[-0.0136, -0.0159,  0.0802,  ...,  0.0021, -0.0452, -0.0402],
+        [-0.0752, -0.0681, -0.0940,  ...,  0.0249,  0.0470,  0.1898],
+        [-0.0424, -0.0484, -0.0491,  ..., -0.0605,  0.0201, -0.1174],
+        ...,
+        [-0.0982, -0.0979,  0.0259,  ..., -0.1192, -0.0589, -0.1712],
+        [ 0.0671,  0.0299, -0.0560,  ..., -0.0960, -0.0011, -0.0978],
+        [ 0.0176,  0.0470, -0.0680,  ...,  0.0211, -0.0900, -0.0433]],
+       device='cuda:0'), grad: tensor([[ 5.0059e-07,  4.3819e-07,  6.2585e-06,  ...,  7.0184e-06,
+          1.3504e-06,  1.0710e-08],
+        [ 2.8615e-07,  6.6310e-07,  1.2536e-06,  ...,  1.1809e-06,
+          2.3711e-06, -3.5460e-07],
+        [ 5.9418e-07,  1.3364e-06,  4.8764e-06,  ...,  4.0978e-06,
+         -1.7032e-05,  7.3342e-08],
+        ...,
+        [ 1.0002e-06,  1.3504e-06,  8.7172e-07,  ...,  1.3988e-06,
+          1.4029e-05,  6.2399e-08],
+        [ 1.0058e-06,  1.7844e-06,  3.9227e-06,  ...,  4.9435e-06,
+          1.2126e-06,  5.6345e-08],
+        [-1.5376e-06,  6.3702e-06,  2.9150e-06,  ...,  2.4959e-06,
+          1.3765e-06,  5.5879e-08]], device='cuda:0')
+Epoch 88, bias, value: tensor([-2.6400e-02, -2.6197e-02, -2.1541e-02,  2.2103e-05, -4.1389e-03,
+         1.6026e-03,  6.5071e-04, -1.3013e-02,  2.1647e-02, -3.1433e-02],
+       device='cuda:0'), grad: tensor([ 3.2514e-05,  1.3456e-05, -6.2883e-05,  8.5384e-06,  7.2271e-06,
+         4.0717e-06, -8.9943e-05,  4.9591e-05,  1.7434e-05,  1.9893e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 87, time 218.42, cls_loss 0.0018 cls_loss_mapping 0.0081 cls_loss_causal 0.5945 re_mapping 0.0081 re_causal 0.0268 /// teacc 99.05 lr 0.00010000
+Epoch 89, weight, value: tensor([[-0.0141, -0.0158,  0.0807,  ...,  0.0024, -0.0456, -0.0403],
+        [-0.0755, -0.0684, -0.0938,  ...,  0.0255,  0.0473,  0.1931],
+        [-0.0427, -0.0488, -0.0495,  ..., -0.0608,  0.0201, -0.1177],
+        ...,
+        [-0.0996, -0.0998,  0.0257,  ..., -0.1201, -0.0593, -0.1764],
+        [ 0.0682,  0.0307, -0.0561,  ..., -0.0960, -0.0009, -0.0987],
+        [ 0.0175,  0.0468, -0.0684,  ...,  0.0212, -0.0906, -0.0446]],
+       device='cuda:0'), grad: tensor([[ 2.2948e-06, -1.1316e-06, -4.7833e-06,  ..., -3.7625e-07,
+          7.2196e-06,  4.5747e-06],
+        [ 6.6217e-07,  8.7172e-07,  5.1688e-07,  ..., -1.8179e-06,
+          1.0815e-03,  6.8188e-04],
+        [ 4.8522e-07,  1.0533e-06,  9.2573e-07,  ...,  1.2275e-06,
+         -1.1349e-03, -7.2050e-04],
+        ...,
+        [ 4.0717e-06,  5.1670e-06,  8.9407e-07,  ...,  5.2936e-06,
+          1.2405e-05,  9.5889e-06],
+        [ 1.6699e-06,  2.2575e-06,  1.0505e-06,  ...,  2.8536e-06,
+          6.1318e-06,  4.2059e-06],
+        [-1.6421e-05, -1.1250e-05,  2.5760e-06,  ..., -1.4342e-05,
+          2.5779e-06,  1.4920e-06]], device='cuda:0')
+Epoch 89, bias, value: tensor([-0.0264, -0.0257, -0.0213,  0.0003, -0.0042,  0.0018,  0.0003, -0.0136,
+         0.0222, -0.0318], device='cuda:0'), grad: tensor([ 1.7703e-05,  2.9564e-03, -3.0956e-03,  2.0504e-05,  5.1439e-05,
+        -6.2920e-06,  1.5408e-05,  3.9786e-05,  2.3022e-05, -2.4796e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 88, time 218.49, cls_loss 0.0031 cls_loss_mapping 0.0130 cls_loss_causal 0.5684 re_mapping 0.0081 re_causal 0.0256 /// teacc 98.90 lr 0.00010000
+Epoch 90, weight, value: tensor([[-0.0149, -0.0160,  0.0812,  ...,  0.0021, -0.0459, -0.0396],
+        [-0.0760, -0.0696, -0.0945,  ...,  0.0256,  0.0477,  0.1961],
+        [-0.0434, -0.0491, -0.0507,  ..., -0.0617,  0.0195, -0.1193],
+        ...,
+        [-0.1006, -0.1012,  0.0259,  ..., -0.1207, -0.0595, -0.1798],
+        [ 0.0688,  0.0308, -0.0566,  ..., -0.0966, -0.0003, -0.0995],
+        [ 0.0178,  0.0473, -0.0688,  ...,  0.0221, -0.0919, -0.0452]],
+       device='cuda:0'), grad: tensor([[ 1.8459e-06,  2.3730e-06, -2.6450e-06,  ...,  1.8533e-07,
+          2.7120e-06,  1.0133e-06],
+        [ 1.3644e-06,  2.2687e-06,  9.7975e-07,  ..., -7.7263e-06,
+         -2.2501e-06, -1.4767e-05],
+        [ 2.4617e-05,  6.3777e-05,  1.1679e-06,  ...,  7.7784e-06,
+          3.0413e-05,  1.0617e-06],
+        ...,
+        [ 3.3583e-06,  5.8971e-06,  1.2722e-06,  ...,  5.2415e-06,
+          4.3586e-06,  4.0345e-06],
+        [-1.3061e-05, -1.3687e-05,  7.5996e-07,  ..., -1.0692e-05,
+         -2.1547e-05,  3.3788e-06],
+        [-1.4879e-05, -1.2353e-05,  1.8179e-05,  ..., -7.8306e-06,
+          1.3508e-05,  1.9334e-06]], device='cuda:0')
+Epoch 90, bias, value: tensor([-2.6562e-02, -2.5616e-02, -2.1955e-02,  3.1365e-05, -3.6911e-03,
+         2.2127e-03,  2.7310e-04, -1.3563e-02,  2.2562e-02, -3.2157e-02],
+       device='cuda:0'), grad: tensor([ 1.0148e-05, -8.7991e-06,  1.2922e-04, -1.6809e-04, -5.1558e-05,
+         3.9220e-05,  5.2869e-05,  1.5765e-05, -5.3048e-05,  3.4511e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 89, time 218.34, cls_loss 0.0027 cls_loss_mapping 0.0088 cls_loss_causal 0.5911 re_mapping 0.0077 re_causal 0.0254 /// teacc 98.98 lr 0.00010000
+Epoch 91, weight, value: tensor([[-1.4960e-02, -1.6695e-02,  8.0342e-02,  ...,  1.4680e-03,
+         -4.6905e-02, -3.9990e-02],
+        [-7.6850e-02, -7.0190e-02, -9.5295e-02,  ...,  2.5631e-02,
+          4.7845e-02,  1.9733e-01],
+        [-4.3648e-02, -4.9553e-02, -5.1229e-02,  ..., -6.2035e-02,
+          1.9511e-02, -1.1917e-01],
+        ...,
+        [-1.0151e-01, -1.0165e-01,  2.5926e-02,  ..., -1.2189e-01,
+         -5.9759e-02, -1.8154e-01],
+        [ 6.9167e-02,  3.0689e-02, -5.7051e-02,  ..., -9.7042e-02,
+         -1.2919e-04, -1.0082e-01],
+        [ 1.8712e-02,  4.7687e-02, -6.9359e-02,  ...,  2.2813e-02,
+         -9.2588e-02, -4.5859e-02]], device='cuda:0'), grad: tensor([[-2.9588e-04,  1.3493e-05, -9.9277e-04,  ..., -1.5736e-04,
+         -4.2820e-04,  1.6298e-09],
+        [ 4.9546e-06,  3.5912e-06,  6.7316e-06,  ...,  4.9919e-06,
+          6.1952e-06, -2.2841e-07],
+        [ 1.4925e-04,  3.6895e-05,  3.7479e-04,  ...,  1.0657e-04,
+          1.8406e-04,  1.1176e-08],
+        ...,
+        [ 4.0196e-06,  3.2242e-06,  4.1164e-06,  ...,  3.5819e-06,
+          5.7556e-06,  8.6147e-09],
+        [ 6.5088e-05,  1.0379e-05,  1.9300e-04,  ...,  5.4657e-05,
+          9.0182e-05,  3.0966e-08],
+        [ 3.7283e-05,  2.6692e-06,  1.4222e-04,  ...,  6.1877e-06,
+          9.1791e-05,  5.2387e-08]], device='cuda:0')
+Epoch 91, bias, value: tensor([-0.0276, -0.0259, -0.0214, -0.0001, -0.0036,  0.0026,  0.0009, -0.0141,
+         0.0221, -0.0317], device='cuda:0'), grad: tensor([-2.7504e-03,  2.3484e-05,  1.0977e-03, -1.1629e-04,  6.7139e-04,
+         6.7532e-05,  1.3709e-04,  1.6645e-05,  5.3358e-04,  3.2020e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 90, time 218.28, cls_loss 0.0024 cls_loss_mapping 0.0091 cls_loss_causal 0.5988 re_mapping 0.0079 re_causal 0.0248 /// teacc 98.91 lr 0.00010000
+Epoch 92, weight, value: tensor([[-1.5069e-02, -1.6743e-02,  8.0770e-02,  ...,  1.3270e-03,
+         -4.6842e-02, -4.0025e-02],
+        [-7.7238e-02, -7.0436e-02, -9.5869e-02,  ...,  2.5897e-02,
+          4.7847e-02,  1.9869e-01],
+        [-4.4231e-02, -5.0242e-02, -5.2391e-02,  ..., -6.2678e-02,
+          1.9534e-02, -1.1905e-01],
+        ...,
+        [-1.0191e-01, -1.0237e-01,  2.5854e-02,  ..., -1.2242e-01,
+         -5.9829e-02, -1.8323e-01],
+        [ 6.9597e-02,  3.1021e-02, -5.7602e-02,  ..., -9.7787e-02,
+          1.0676e-05, -1.0185e-01],
+        [ 1.9195e-02,  4.7898e-02, -7.0084e-02,  ...,  2.2987e-02,
+         -9.3154e-02, -4.6787e-02]], device='cuda:0'), grad: tensor([[ 4.7009e-07,  3.3667e-07,  1.2713e-06,  ...,  6.8359e-07,
+          1.3430e-06,  1.1432e-07],
+        [ 7.3249e-07,  4.4121e-07,  3.9637e-06,  ..., -9.6485e-07,
+          2.8685e-06, -4.3660e-06],
+        [ 3.1069e-06,  1.7434e-06,  1.2415e-06,  ...,  2.7604e-06,
+          2.5257e-06,  9.8906e-07],
+        ...,
+        [ 2.1402e-06,  1.2191e-06,  6.7689e-06,  ...,  1.9781e-06,
+          2.7902e-06,  8.3772e-07],
+        [ 7.9628e-07,  5.2201e-07,  1.0356e-06,  ...,  1.3905e-06,
+          1.4640e-06,  8.1584e-07],
+        [ 5.6345e-08,  1.1199e-07,  1.0245e-05,  ..., -8.4424e-07,
+          3.1386e-06,  2.1956e-07]], device='cuda:0')
+Epoch 92, bias, value: tensor([-0.0275, -0.0260, -0.0210, -0.0002, -0.0041,  0.0022,  0.0028, -0.0140,
+         0.0217, -0.0321], device='cuda:0'), grad: tensor([ 4.3176e-06,  5.5656e-06,  8.2254e-06, -1.5602e-05, -6.2048e-05,
+         1.7080e-06,  7.7263e-06,  1.9923e-05,  5.0664e-06,  2.5094e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 91, time 218.29, cls_loss 0.0028 cls_loss_mapping 0.0090 cls_loss_causal 0.5810 re_mapping 0.0078 re_causal 0.0249 /// teacc 98.90 lr 0.00010000
+Epoch 93, weight, value: tensor([[-0.0153, -0.0168,  0.0806,  ...,  0.0016, -0.0466, -0.0375],
+        [-0.0778, -0.0710, -0.0974,  ...,  0.0256,  0.0477,  0.1992],
+        [-0.0448, -0.0510, -0.0530,  ..., -0.0632,  0.0199, -0.1194],
+        ...,
+        [-0.1032, -0.1032,  0.0257,  ..., -0.1227, -0.0604, -0.1839],
+        [ 0.0704,  0.0313, -0.0579,  ..., -0.0982,  0.0008, -0.1023],
+        [ 0.0196,  0.0479, -0.0705,  ...,  0.0233, -0.0937, -0.0472]],
+       device='cuda:0'), grad: tensor([[ 1.9949e-06, -3.4478e-06, -5.7369e-06,  ..., -2.2855e-06,
+          1.0310e-06,  1.9139e-07],
+        [ 1.2785e-05,  7.9274e-06,  1.1027e-06,  ...,  8.9183e-06,
+          9.3952e-06,  1.1008e-06],
+        [ 1.8269e-05,  9.5665e-06,  2.5444e-06,  ...,  4.1947e-06,
+          2.0373e-07, -3.5986e-06],
+        ...,
+        [ 1.0413e-04,  1.5533e-04,  2.3507e-06,  ...,  2.1648e-04,
+         -9.8348e-07,  7.6508e-07],
+        [-3.6489e-06,  2.0787e-06,  1.6969e-06,  ...,  3.3434e-06,
+         -8.2701e-06,  6.3563e-07],
+        [ 8.0705e-05,  6.3419e-05,  1.6406e-05,  ...,  8.9884e-05,
+          2.5719e-05,  1.0058e-07]], device='cuda:0')
+Epoch 93, bias, value: tensor([-0.0276, -0.0265, -0.0197,  0.0007, -0.0040,  0.0031,  0.0019, -0.0157,
+         0.0221, -0.0324], device='cuda:0'), grad: tensor([-4.4554e-06,  7.8440e-05,  1.7206e-07, -5.1737e-04, -6.2048e-05,
+         5.4181e-05,  5.8813e-07,  1.9550e-04, -4.4517e-07,  2.5535e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 92, time 218.09, cls_loss 0.0021 cls_loss_mapping 0.0059 cls_loss_causal 0.5659 re_mapping 0.0079 re_causal 0.0250 /// teacc 98.99 lr 0.00010000
+Epoch 94, weight, value: tensor([[-0.0158, -0.0171,  0.0809,  ...,  0.0015, -0.0469, -0.0379],
+        [-0.0790, -0.0717, -0.0976,  ...,  0.0257,  0.0478,  0.2017],
+        [-0.0455, -0.0516, -0.0534,  ..., -0.0638,  0.0198, -0.1203],
+        ...,
+        [-0.1031, -0.1038,  0.0257,  ..., -0.1231, -0.0603, -0.1865],
+        [ 0.0708,  0.0317, -0.0582,  ..., -0.0987,  0.0006, -0.1047],
+        [ 0.0203,  0.0484, -0.0706,  ...,  0.0241, -0.0940, -0.0481]],
+       device='cuda:0'), grad: tensor([[ 5.4054e-06, -3.6299e-05, -3.5793e-05,  ..., -1.5542e-05,
+          2.1309e-06,  1.2340e-08],
+        [ 1.9483e-06,  2.8480e-06,  1.6214e-06,  ...,  4.5355e-07,
+          8.5402e-07, -5.5972e-07],
+        [ 9.3639e-05,  3.7670e-05,  3.6471e-06,  ...,  2.3246e-06,
+          1.7002e-05,  5.3085e-08],
+        ...,
+        [ 2.0474e-05,  1.1288e-05,  2.4233e-06,  ...,  9.0152e-07,
+          5.4725e-06,  8.3586e-08],
+        [-2.4581e-04, -7.7367e-05,  1.9923e-05,  ...,  7.6741e-06,
+         -5.8860e-05,  1.5972e-07],
+        [ 2.9318e-06,  3.8564e-05,  4.5419e-05,  ...,  2.3730e-06,
+          2.2024e-05,  4.9826e-08]], device='cuda:0')
+Epoch 94, bias, value: tensor([-0.0279, -0.0270, -0.0198,  0.0006, -0.0045,  0.0032,  0.0021, -0.0150,
+         0.0219, -0.0321], device='cuda:0'), grad: tensor([-6.3360e-05,  2.6509e-05,  2.1672e-04,  4.1342e-04, -1.2159e-04,
+        -1.8030e-06,  3.1013e-06, -7.2956e-05, -5.4932e-04,  1.4901e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 93, time 218.56, cls_loss 0.0024 cls_loss_mapping 0.0088 cls_loss_causal 0.5621 re_mapping 0.0081 re_causal 0.0246 /// teacc 98.92 lr 0.00010000
+Epoch 95, weight, value: tensor([[-0.0136, -0.0157,  0.0826,  ...,  0.0034, -0.0472, -0.0382],
+        [-0.0791, -0.0721, -0.0978,  ...,  0.0261,  0.0480,  0.2033],
+        [-0.0457, -0.0518, -0.0541,  ..., -0.0644,  0.0196, -0.1207],
+        ...,
+        [-0.1035, -0.1047,  0.0262,  ..., -0.1236, -0.0604, -0.1892],
+        [ 0.0710,  0.0323, -0.0580,  ..., -0.0997,  0.0009, -0.1063],
+        [ 0.0196,  0.0483, -0.0725,  ...,  0.0233, -0.0946, -0.0487]],
+       device='cuda:0'), grad: tensor([[ 5.3784e-07, -4.8913e-06, -7.2643e-06,  ..., -2.3991e-06,
+          6.2957e-07,  5.5647e-08],
+        [ 1.9055e-06,  1.1018e-06,  4.3237e-07,  ...,  3.1665e-08,
+          4.9360e-07, -1.1241e-06],
+        [ 6.6422e-06,  2.8498e-06,  1.6242e-06,  ...,  1.1520e-06,
+         -2.2277e-06,  1.1222e-07],
+        ...,
+        [ 7.3731e-05,  6.5453e-06,  8.3959e-07,  ...,  1.9930e-06,
+          9.6764e-07,  3.6275e-07],
+        [ 1.2098e-06,  2.0817e-05,  3.9339e-06,  ...,  5.5544e-06,
+          3.2294e-07,  1.9558e-07],
+        [-7.5437e-06, -1.1353e-06,  2.2426e-06,  ..., -5.9344e-06,
+          7.0501e-07,  1.0058e-07]], device='cuda:0')
+Epoch 95, bias, value: tensor([-0.0256, -0.0268, -0.0199,  0.0006, -0.0047,  0.0030,  0.0017, -0.0148,
+         0.0221, -0.0332], device='cuda:0'), grad: tensor([-6.3330e-06,  1.4231e-05,  1.6794e-05, -3.1185e-04,  1.0505e-05,
+        -8.2433e-05,  9.0972e-06,  3.0661e-04,  4.2796e-05, -8.4052e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 94, time 218.91, cls_loss 0.0022 cls_loss_mapping 0.0084 cls_loss_causal 0.5578 re_mapping 0.0080 re_causal 0.0240 /// teacc 98.95 lr 0.00010000
+Epoch 96, weight, value: tensor([[-0.0137, -0.0158,  0.0830,  ...,  0.0035, -0.0474, -0.0384],
+        [-0.0798, -0.0730, -0.0989,  ...,  0.0258,  0.0478,  0.2037],
+        [-0.0462, -0.0523, -0.0547,  ..., -0.0648,  0.0198, -0.1210],
+        ...,
+        [-0.1043, -0.1054,  0.0261,  ..., -0.1245, -0.0607, -0.1908],
+        [ 0.0711,  0.0322, -0.0583,  ..., -0.1005,  0.0012, -0.1066],
+        [ 0.0203,  0.0485, -0.0732,  ...,  0.0242, -0.0954, -0.0492]],
+       device='cuda:0'), grad: tensor([[ 1.4738e-07,  3.4925e-07,  1.4547e-06,  ..., -7.2550e-07,
+          3.1702e-06,  2.6589e-07],
+        [ 2.5192e-07,  4.0755e-06,  4.9397e-06,  ..., -2.8126e-07,
+          5.7667e-06, -1.9241e-06],
+        [ 4.8941e-07,  9.7696e-07,  4.9137e-06,  ...,  5.5786e-07,
+          5.3048e-06,  1.0487e-06],
+        ...,
+        [ 4.4261e-07,  8.0690e-06,  1.7762e-05,  ...,  3.1129e-07,
+          1.5259e-05,  1.2536e-06],
+        [-1.0226e-06, -6.1747e-07,  1.5408e-05,  ...,  7.1619e-07,
+         -7.1451e-06,  2.8289e-07],
+        [ 2.7772e-06,  9.7826e-06,  1.5236e-05,  ...,  2.9919e-07,
+          2.3678e-05,  9.2108e-07]], device='cuda:0')
+Epoch 96, bias, value: tensor([-0.0257, -0.0274, -0.0192,  0.0005, -0.0042,  0.0028,  0.0023, -0.0153,
+         0.0218, -0.0331], device='cuda:0'), grad: tensor([ 1.3694e-05,  3.4690e-05,  1.2279e-05,  1.1139e-05, -4.5681e-04,
+         1.6257e-05,  2.4986e-04,  6.5804e-05, -5.3227e-05,  1.0592e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 95, time 218.17, cls_loss 0.0023 cls_loss_mapping 0.0077 cls_loss_causal 0.5739 re_mapping 0.0074 re_causal 0.0236 /// teacc 98.95 lr 0.00010000
+Epoch 97, weight, value: tensor([[-0.0134, -0.0148,  0.0839,  ...,  0.0040, -0.0476, -0.0387],
+        [-0.0803, -0.0737, -0.0990,  ...,  0.0263,  0.0481,  0.2056],
+        [-0.0468, -0.0532, -0.0551,  ..., -0.0654,  0.0196, -0.1216],
+        ...,
+        [-0.1053, -0.1060,  0.0267,  ..., -0.1245, -0.0609, -0.1923],
+        [ 0.0713,  0.0322, -0.0589,  ..., -0.1013,  0.0016, -0.1077],
+        [ 0.0210,  0.0484, -0.0742,  ...,  0.0243, -0.0959, -0.0498]],
+       device='cuda:0'), grad: tensor([[ 2.4326e-06, -1.1921e-06, -3.3323e-06,  ..., -8.0559e-07,
+          1.6298e-06,  0.0000e+00],
+        [ 2.1309e-06,  2.6990e-06,  5.5553e-07,  ...,  8.7917e-06,
+          4.2915e-06,  0.0000e+00],
+        [-9.6858e-06,  1.3877e-06,  1.4370e-06,  ...,  1.6699e-06,
+         -1.3268e-04,  0.0000e+00],
+        ...,
+        [ 1.7155e-06,  4.8950e-06, -3.8780e-06,  ..., -8.1658e-06,
+          1.1206e-04,  0.0000e+00],
+        [ 5.2661e-05,  6.0797e-05,  4.8950e-06,  ...,  3.8892e-05,
+          8.9407e-06,  0.0000e+00],
+        [-7.2777e-05, -6.2406e-05,  2.7157e-06,  ..., -4.0799e-05,
+          1.2247e-06,  0.0000e+00]], device='cuda:0')
+Epoch 97, bias, value: tensor([-0.0252, -0.0272, -0.0194,  0.0004, -0.0041,  0.0028,  0.0018, -0.0149,
+         0.0219, -0.0334], device='cuda:0'), grad: tensor([ 3.3677e-05,  5.4693e-04, -9.6321e-04,  4.1819e-04,  1.9014e-05,
+        -7.1287e-05, -1.1183e-05, -5.7727e-05,  2.0182e-04, -1.1563e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 96, time 218.28, cls_loss 0.0018 cls_loss_mapping 0.0078 cls_loss_causal 0.5552 re_mapping 0.0076 re_causal 0.0237 /// teacc 99.05 lr 0.00010000
+Epoch 98, weight, value: tensor([[-0.0136, -0.0145,  0.0844,  ...,  0.0041, -0.0478, -0.0396],
+        [-0.0810, -0.0740, -0.0985,  ...,  0.0270,  0.0483,  0.2079],
+        [-0.0475, -0.0537, -0.0555,  ..., -0.0658,  0.0197, -0.1220],
+        ...,
+        [-0.1061, -0.1065,  0.0265,  ..., -0.1252, -0.0613, -0.1957],
+        [ 0.0714,  0.0317, -0.0591,  ..., -0.1020,  0.0018, -0.1084],
+        [ 0.0213,  0.0483, -0.0745,  ...,  0.0248, -0.0965, -0.0510]],
+       device='cuda:0'), grad: tensor([[ 5.1549e-07, -3.5726e-06, -5.0152e-07,  ...,  1.1614e-06,
+          2.7120e-06,  5.9139e-08],
+        [ 3.9376e-06,  3.8813e-07,  6.5744e-05,  ...,  7.1883e-05,
+          8.2143e-07, -1.4659e-06],
+        [ 4.6082e-06,  1.2051e-06,  5.5805e-06,  ...,  3.2559e-06,
+          4.7758e-06,  1.8417e-07],
+        ...,
+        [-8.1241e-05,  5.1130e-07, -1.0657e-04,  ..., -1.1939e-04,
+         -5.5321e-06,  1.7160e-07],
+        [-3.2596e-06, -1.2880e-06,  5.2117e-06,  ...,  2.9709e-06,
+         -7.3574e-07,  3.5157e-07],
+        [ 9.3728e-06,  4.7125e-07,  2.6181e-05,  ...,  2.4751e-05,
+          2.0117e-06,  6.7754e-08]], device='cuda:0')
+Epoch 98, bias, value: tensor([-0.0251, -0.0271, -0.0194,  0.0007, -0.0037,  0.0025,  0.0010, -0.0148,
+         0.0219, -0.0336], device='cuda:0'), grad: tensor([ 1.2055e-05,  4.9591e-04,  3.4243e-05,  3.0303e-04,  1.8656e-04,
+         5.1379e-05, -1.5616e-04, -1.1559e-03,  7.0557e-06,  2.2185e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 97, time 218.54, cls_loss 0.0023 cls_loss_mapping 0.0078 cls_loss_causal 0.5886 re_mapping 0.0072 re_causal 0.0230 /// teacc 98.80 lr 0.00010000
+Epoch 99, weight, value: tensor([[-0.0141, -0.0146,  0.0844,  ...,  0.0040, -0.0488, -0.0401],
+        [-0.0815, -0.0752, -0.0991,  ...,  0.0270,  0.0483,  0.2093],
+        [-0.0485, -0.0560, -0.0564,  ..., -0.0664,  0.0195, -0.1227],
+        ...,
+        [-0.1073, -0.1069,  0.0276,  ..., -0.1258, -0.0615, -0.1970],
+        [ 0.0720,  0.0314, -0.0593,  ..., -0.1029,  0.0024, -0.1087],
+        [ 0.0222,  0.0488, -0.0742,  ...,  0.0256, -0.0971, -0.0515]],
+       device='cuda:0'), grad: tensor([[ 7.9162e-07,  1.8207e-07, -7.3249e-07,  ...,  5.7742e-08,
+          2.8289e-07,  1.9255e-07],
+        [ 2.4121e-07,  4.0047e-07,  3.2922e-07,  ..., -1.8366e-06,
+         -3.9227e-06, -8.3521e-06],
+        [ 2.6496e-07,  7.0408e-07,  5.0012e-07,  ...,  7.9535e-07,
+         -2.6375e-06,  1.6438e-06],
+        ...,
+        [ 1.9632e-06,  1.9372e-06, -1.0729e-06,  ...,  2.3786e-06,
+          3.9637e-06,  2.7902e-06],
+        [ 4.5775e-07,  2.6710e-06,  4.3050e-07,  ...,  8.6892e-07,
+          5.2480e-07,  7.0408e-07],
+        [-1.0237e-05, -6.3777e-06,  8.0001e-07,  ..., -8.2701e-06,
+          4.8708e-07,  4.7614e-07]], device='cuda:0')
+Epoch 99, bias, value: tensor([-0.0256, -0.0275, -0.0197,  0.0004, -0.0044,  0.0030,  0.0010, -0.0142,
+         0.0226, -0.0333], device='cuda:0'), grad: tensor([ 4.2506e-06, -5.3160e-06, -5.7876e-05,  5.4240e-05,  2.0251e-05,
+        -1.8430e-04,  1.3793e-04,  3.4332e-05,  9.0450e-06, -1.2808e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 98, time 218.45, cls_loss 0.0023 cls_loss_mapping 0.0073 cls_loss_causal 0.5788 re_mapping 0.0074 re_causal 0.0236 /// teacc 98.94 lr 0.00010000
+Epoch 100, weight, value: tensor([[-0.0143, -0.0145,  0.0847,  ...,  0.0039, -0.0490, -0.0402],
+        [-0.0822, -0.0762, -0.0996,  ...,  0.0270,  0.0479,  0.2104],
+        [-0.0494, -0.0568, -0.0568,  ..., -0.0670,  0.0201, -0.1235],
+        ...,
+        [-0.1083, -0.1074,  0.0274,  ..., -0.1266, -0.0618, -0.1985],
+        [ 0.0721,  0.0318, -0.0597,  ..., -0.1035,  0.0027, -0.1091],
+        [ 0.0225,  0.0487, -0.0745,  ...,  0.0260, -0.0979, -0.0520]],
+       device='cuda:0'), grad: tensor([[ 1.6391e-07, -4.5076e-07, -8.6706e-07,  ..., -4.2235e-07,
+          7.4971e-07,  5.1269e-07],
+        [ 1.1846e-06,  1.0822e-06,  1.9581e-07,  ...,  3.3411e-07,
+         -3.2163e-04, -3.1066e-04],
+        [ 1.0617e-06,  1.1455e-06,  4.0093e-07,  ...,  1.0841e-06,
+          2.8801e-04,  2.7752e-04],
+        ...,
+        [ 4.6603e-06,  3.8296e-06, -1.4819e-05,  ..., -7.8157e-06,
+          2.0221e-05,  1.9729e-05],
+        [ 1.0962e-06,  2.2762e-06,  2.5658e-07,  ...,  8.1025e-07,
+          2.2314e-06,  1.7155e-06],
+        [-1.4730e-05, -9.8646e-06,  1.2569e-05,  ..., -9.5088e-07,
+          1.4119e-06,  1.0133e-06]], device='cuda:0')
+Epoch 100, bias, value: tensor([-0.0256, -0.0283, -0.0189,  0.0009, -0.0042,  0.0025,  0.0013, -0.0144,
+         0.0230, -0.0336], device='cuda:0'), grad: tensor([ 5.4985e-06, -1.5726e-03,  1.4219e-03,  3.4124e-05,  3.1024e-05,
+         1.3418e-05,  6.3740e-06, -8.9556e-06,  1.5274e-05,  5.3108e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 99, time 218.46, cls_loss 0.0023 cls_loss_mapping 0.0074 cls_loss_causal 0.5747 re_mapping 0.0073 re_causal 0.0233 /// teacc 99.02 lr 0.00010000
+Epoch 101, weight, value: tensor([[-0.0145, -0.0142,  0.0852,  ...,  0.0042, -0.0496, -0.0406],
+        [-0.0829, -0.0771, -0.1001,  ...,  0.0287,  0.0487,  0.2125],
+        [-0.0498, -0.0575, -0.0576,  ..., -0.0676,  0.0197, -0.1252],
+        ...,
+        [-0.1088, -0.1080,  0.0274,  ..., -0.1289, -0.0627, -0.2002],
+        [ 0.0721,  0.0319, -0.0596,  ..., -0.1043,  0.0032, -0.1092],
+        [ 0.0235,  0.0491, -0.0744,  ...,  0.0271, -0.0983, -0.0529]],
+       device='cuda:0'), grad: tensor([[ 6.8918e-07, -3.3155e-06,  3.2365e-05,  ...,  1.1437e-05,
+          7.8008e-06,  2.3693e-05],
+        [ 3.2457e-07,  6.1793e-07,  3.0082e-06,  ...,  7.5437e-07,
+         -1.4281e-04, -1.7822e-04],
+        [ 2.1346e-06,  2.2724e-06,  4.0829e-06,  ...,  2.0079e-06,
+          1.1730e-04,  1.1623e-04],
+        ...,
+        [-1.0412e-06,  7.7160e-07,  2.0419e-07,  ...,  8.6986e-07,
+          1.5542e-05,  1.8612e-05],
+        [-4.7907e-06, -9.3225e-07,  5.2005e-06,  ...,  3.5297e-06,
+         -2.3469e-06,  1.5395e-06],
+        [-3.3919e-06,  2.3805e-06,  6.4112e-06,  ..., -9.4110e-07,
+          4.4927e-06,  2.3283e-06]], device='cuda:0')
+Epoch 101, bias, value: tensor([-0.0257, -0.0279, -0.0189,  0.0003, -0.0043,  0.0029,  0.0009, -0.0147,
+         0.0235, -0.0332], device='cuda:0'), grad: tensor([ 2.7633e-04, -3.6192e-04,  9.4533e-05,  4.5627e-05,  6.1154e-05,
+         9.5427e-05, -2.3544e-04, -4.9286e-06,  7.0594e-06,  2.1890e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 100, time 218.34, cls_loss 0.0025 cls_loss_mapping 0.0093 cls_loss_causal 0.5774 re_mapping 0.0075 re_causal 0.0236 /// teacc 98.97 lr 0.00010000
+Epoch 102, weight, value: tensor([[-0.0144, -0.0134,  0.0861,  ...,  0.0054, -0.0486, -0.0382],
+        [-0.0821, -0.0768, -0.1023,  ...,  0.0287,  0.0491,  0.2144],
+        [-0.0505, -0.0593, -0.0595,  ..., -0.0694,  0.0198, -0.1260],
+        ...,
+        [-0.1095, -0.1088,  0.0282,  ..., -0.1298, -0.0636, -0.2038],
+        [ 0.0731,  0.0329, -0.0601,  ..., -0.1039,  0.0035, -0.1107],
+        [ 0.0230,  0.0478, -0.0755,  ...,  0.0266, -0.1000, -0.0540]],
+       device='cuda:0'), grad: tensor([[ 5.2573e-07, -7.4320e-07, -3.6526e-06,  ..., -1.3979e-06,
+          1.1548e-06,  3.8161e-07],
+        [ 6.6031e-07,  4.9546e-07,  2.2165e-06,  ..., -3.0585e-06,
+          4.6231e-06, -7.9498e-06],
+        [ 2.6617e-06,  3.4142e-06,  4.6417e-06,  ...,  4.5225e-06,
+          4.5113e-06,  1.4920e-06],
+        ...,
+        [-1.3830e-06,  7.9442e-07,  1.2182e-06,  ...,  1.9893e-06,
+         -2.0906e-05,  1.7928e-06],
+        [ 3.3025e-06,  3.1795e-06,  3.4515e-06,  ...,  5.6587e-06,
+          4.1090e-06,  9.8161e-07],
+        [-6.7838e-06, -2.2259e-06,  6.1691e-06,  ..., -6.0387e-06,
+          9.5814e-06,  1.2415e-06]], device='cuda:0')
+Epoch 102, bias, value: tensor([-0.0247, -0.0278, -0.0190, -0.0002, -0.0039,  0.0033,  0.0007, -0.0143,
+         0.0238, -0.0346], device='cuda:0'), grad: tensor([-5.4948e-06,  2.2039e-05,  2.8387e-05,  4.1217e-05,  1.8841e-06,
+         3.9935e-05, -4.5896e-05, -1.4496e-04,  3.3498e-05,  2.9519e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 101, time 218.67, cls_loss 0.0020 cls_loss_mapping 0.0079 cls_loss_causal 0.5706 re_mapping 0.0074 re_causal 0.0236 /// teacc 98.99 lr 0.00010000
+Epoch 103, weight, value: tensor([[-0.0145, -0.0131,  0.0862,  ...,  0.0055, -0.0490, -0.0384],
+        [-0.0825, -0.0770, -0.1030,  ...,  0.0293,  0.0487,  0.2155],
+        [-0.0511, -0.0600, -0.0605,  ..., -0.0701,  0.0202, -0.1262],
+        ...,
+        [-0.1103, -0.1092,  0.0296,  ..., -0.1305, -0.0633, -0.2053],
+        [ 0.0734,  0.0327, -0.0604,  ..., -0.1044,  0.0038, -0.1117],
+        [ 0.0237,  0.0477, -0.0762,  ...,  0.0272, -0.1007, -0.0545]],
+       device='cuda:0'), grad: tensor([[ 8.6613e-07, -2.0694e-06, -4.0010e-06,  ..., -2.6859e-06,
+          2.9267e-07,  3.8883e-08],
+        [ 2.2650e-06,  1.1958e-06,  4.1001e-07,  ...,  6.0536e-07,
+         -9.2853e-07, -3.1814e-06],
+        [ 7.3798e-06,  3.7402e-06,  8.7218e-07,  ...,  6.0722e-06,
+          1.5274e-06,  1.2517e-06],
+        ...,
+        [ 9.0748e-06,  4.5858e-06,  2.0466e-07,  ...,  7.4357e-06,
+          1.9483e-06,  1.0747e-06],
+        [ 1.3839e-06,  1.2349e-06,  2.8573e-06,  ...,  4.0159e-06,
+         -3.5157e-07,  2.0722e-07],
+        [-2.7552e-05, -8.5961e-07, -1.4886e-05,  ..., -2.1935e-05,
+         -4.1202e-06,  1.8603e-07]], device='cuda:0')
+Epoch 103, bias, value: tensor([-0.0248, -0.0281, -0.0192, -0.0004, -0.0039,  0.0032,  0.0009, -0.0137,
+         0.0236, -0.0347], device='cuda:0'), grad: tensor([-4.4256e-06,  4.8243e-06,  1.6719e-05, -6.0111e-05,  1.1218e-04,
+         2.4483e-05, -2.4989e-05,  2.4512e-06,  1.1079e-05, -8.2195e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 102, time 218.58, cls_loss 0.0019 cls_loss_mapping 0.0076 cls_loss_causal 0.5683 re_mapping 0.0073 re_causal 0.0229 /// teacc 99.01 lr 0.00010000
+Epoch 104, weight, value: tensor([[-0.0147, -0.0126,  0.0865,  ...,  0.0057, -0.0496, -0.0386],
+        [-0.0828, -0.0774, -0.1037,  ...,  0.0294,  0.0491,  0.2177],
+        [-0.0526, -0.0604, -0.0611,  ..., -0.0706,  0.0200, -0.1277],
+        ...,
+        [-0.1111, -0.1096,  0.0296,  ..., -0.1314, -0.0635, -0.2069],
+        [ 0.0739,  0.0325, -0.0609,  ..., -0.1050,  0.0042, -0.1125],
+        [ 0.0243,  0.0478, -0.0766,  ...,  0.0281, -0.1013, -0.0553]],
+       device='cuda:0'), grad: tensor([[ 7.5717e-07, -2.0340e-05, -4.4912e-05,  ..., -3.0875e-05,
+          1.3057e-06, -9.5367e-07],
+        [ 5.1707e-06,  9.7230e-07,  8.8941e-07,  ..., -1.1295e-05,
+          5.8524e-06, -1.6853e-05],
+        [ 2.0377e-06,  1.3895e-06,  2.0582e-06,  ...,  2.9393e-06,
+          2.8368e-06,  1.0850e-06],
+        ...,
+        [-2.5630e-05,  2.0377e-06,  7.0734e-07,  ...,  5.3979e-06,
+         -7.0930e-05,  4.1761e-06],
+        [ 6.0052e-06,  9.4064e-07,  1.7453e-06,  ...,  4.4554e-06,
+          1.2986e-05,  2.2780e-06],
+        [-1.3359e-05, -3.0156e-06,  2.7269e-06,  ..., -4.8131e-06,
+          5.3756e-06,  4.2953e-06]], device='cuda:0')
+Epoch 104, bias, value: tensor([-0.0248, -0.0281, -0.0198,  0.0003, -0.0040,  0.0022,  0.0019, -0.0137,
+         0.0237, -0.0344], device='cuda:0'), grad: tensor([-7.3850e-05,  4.0293e-05, -1.1986e-06,  1.8609e-04,  4.1962e-05,
+         2.2158e-05,  4.9323e-05, -3.6383e-04,  6.9082e-05,  2.9907e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 103, time 218.14, cls_loss 0.0019 cls_loss_mapping 0.0061 cls_loss_causal 0.5615 re_mapping 0.0074 re_causal 0.0229 /// teacc 98.86 lr 0.00010000
+Epoch 105, weight, value: tensor([[-0.0149, -0.0126,  0.0867,  ...,  0.0057, -0.0500, -0.0388],
+        [-0.0832, -0.0788, -0.1040,  ...,  0.0298,  0.0495,  0.2187],
+        [-0.0532, -0.0609, -0.0619,  ..., -0.0712,  0.0198, -0.1282],
+        ...,
+        [-0.1113, -0.1102,  0.0282,  ..., -0.1324, -0.0641, -0.2086],
+        [ 0.0742,  0.0325, -0.0612,  ..., -0.1052,  0.0043, -0.1130],
+        [ 0.0251,  0.0482, -0.0763,  ...,  0.0292, -0.1018, -0.0560]],
+       device='cuda:0'), grad: tensor([[ 1.3933e-06,  9.4902e-07, -4.6799e-08,  ...,  5.9791e-07,
+          1.0608e-06,  1.8673e-07],
+        [ 9.7696e-07,  9.8255e-07,  9.6858e-08,  ..., -1.6978e-06,
+         -1.0952e-06, -6.0163e-06],
+        [ 2.3432e-06,  7.2690e-07,  3.6554e-08,  ...,  9.3505e-07,
+          9.5461e-07,  8.0140e-07],
+        ...,
+        [ 8.2254e-06,  1.3612e-05,  2.9756e-07,  ...,  1.5676e-05,
+          1.3486e-06,  2.6356e-06],
+        [-5.1074e-06,  1.1548e-06,  2.2817e-08,  ...,  5.1223e-07,
+         -3.4813e-06,  5.0478e-07],
+        [-9.6634e-06, -1.3322e-05,  3.4347e-06,  ..., -1.5289e-05,
+          3.6992e-06,  8.8615e-07]], device='cuda:0')
+Epoch 105, bias, value: tensor([-0.0251, -0.0278, -0.0205,  0.0002, -0.0041,  0.0018,  0.0027, -0.0136,
+         0.0237, -0.0340], device='cuda:0'), grad: tensor([ 5.1409e-06, -3.8743e-06,  6.0238e-06, -1.5721e-05, -4.5635e-06,
+         1.2964e-05,  5.6922e-06, -4.5598e-06, -3.9116e-06,  2.7996e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 104, time 218.37, cls_loss 0.0027 cls_loss_mapping 0.0089 cls_loss_causal 0.5741 re_mapping 0.0069 re_causal 0.0217 /// teacc 98.89 lr 0.00010000
+Epoch 106, weight, value: tensor([[-0.0164, -0.0141,  0.0866,  ...,  0.0054, -0.0498, -0.0375],
+        [-0.0836, -0.0790, -0.1059,  ...,  0.0292,  0.0490,  0.2197],
+        [-0.0543, -0.0616, -0.0627,  ..., -0.0721,  0.0203, -0.1287],
+        ...,
+        [-0.1119, -0.1107,  0.0277,  ..., -0.1331, -0.0649, -0.2112],
+        [ 0.0741,  0.0322, -0.0621,  ..., -0.1060,  0.0043, -0.1136],
+        [ 0.0261,  0.0493, -0.0767,  ...,  0.0304, -0.1034, -0.0565]],
+       device='cuda:0'), grad: tensor([[-6.0201e-06, -3.0234e-05, -5.4955e-05,  ..., -3.5375e-05,
+          1.1688e-06,  1.8161e-07],
+        [ 5.9325e-07,  2.1812e-06,  3.2466e-06,  ...,  2.3516e-07,
+         -9.3784e-07, -4.4852e-06],
+        [ 1.5916e-06,  4.8466e-06,  9.6858e-06,  ...,  6.5714e-06,
+         -3.0249e-06,  2.6985e-07],
+        ...,
+        [ 3.0063e-06,  2.1961e-06,  2.3730e-06,  ...,  4.2990e-06,
+          1.6484e-06,  8.1770e-07],
+        [-4.6380e-06,  4.8652e-06,  1.3612e-05,  ...,  1.0222e-05,
+          1.1269e-06,  3.9535e-07],
+        [-2.4140e-06,  3.4999e-06,  6.9030e-06,  ..., -4.0717e-06,
+          1.7229e-06,  9.0431e-07]], device='cuda:0')
+Epoch 106, bias, value: tensor([-0.0259, -0.0286, -0.0204,  0.0013, -0.0031,  0.0013,  0.0023, -0.0133,
+         0.0231, -0.0339], device='cuda:0'), grad: tensor([-1.3685e-04,  7.1861e-06, -6.8955e-06,  4.3601e-05,  1.6615e-05,
+        -6.4597e-06,  1.6347e-05,  2.0161e-05,  3.5435e-05,  1.0729e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 105, time 218.47, cls_loss 0.0021 cls_loss_mapping 0.0069 cls_loss_causal 0.5703 re_mapping 0.0072 re_causal 0.0223 /// teacc 98.98 lr 0.00010000
+Epoch 107, weight, value: tensor([[-0.0167, -0.0142,  0.0864,  ...,  0.0051, -0.0502, -0.0376],
+        [-0.0843, -0.0801, -0.1066,  ...,  0.0297,  0.0494,  0.2209],
+        [-0.0551, -0.0632, -0.0637,  ..., -0.0728,  0.0202, -0.1290],
+        ...,
+        [-0.1123, -0.1114,  0.0275,  ..., -0.1345, -0.0658, -0.2141],
+        [ 0.0742,  0.0318, -0.0631,  ..., -0.1069,  0.0044, -0.1142],
+        [ 0.0267,  0.0491, -0.0768,  ...,  0.0314, -0.1038, -0.0571]],
+       device='cuda:0'), grad: tensor([[-6.2585e-05, -2.1541e-04, -1.8501e-04,  ..., -1.8167e-04,
+          4.0536e-07,  1.7299e-07],
+        [ 1.5385e-06,  2.8517e-06,  2.5276e-06,  ...,  6.4680e-07,
+         -6.7800e-07, -4.3847e-06],
+        [ 4.6194e-06,  9.1940e-06,  1.1437e-05,  ...,  1.1548e-05,
+         -4.9584e-06,  3.5367e-07],
+        ...,
+        [ 1.1787e-05,  1.2584e-05,  2.3976e-05,  ...,  1.5363e-05,
+         -1.9521e-06,  6.5099e-07],
+        [ 5.1782e-06,  1.2808e-05,  1.0498e-05,  ...,  1.1355e-05,
+          2.3805e-06,  1.0626e-06],
+        [-1.6883e-05,  8.3074e-06,  5.8651e-05,  ..., -3.2075e-06,
+          4.5449e-07,  5.5972e-07]], device='cuda:0')
+Epoch 107, bias, value: tensor([-0.0265, -0.0287, -0.0203,  0.0009, -0.0034,  0.0027,  0.0024, -0.0137,
+         0.0229, -0.0338], device='cuda:0'), grad: tensor([-5.3549e-04,  7.1116e-06,  1.4737e-05,  1.2875e-04, -1.8430e-04,
+         2.3985e-04,  5.4806e-05,  7.9393e-05,  4.8727e-05,  1.4663e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 106, time 218.48, cls_loss 0.0019 cls_loss_mapping 0.0068 cls_loss_causal 0.5598 re_mapping 0.0070 re_causal 0.0217 /// teacc 98.96 lr 0.00010000
+Epoch 108, weight, value: tensor([[-0.0167, -0.0131,  0.0875,  ...,  0.0059, -0.0504, -0.0378],
+        [-0.0841, -0.0808, -0.1074,  ...,  0.0306,  0.0493,  0.2218],
+        [-0.0557, -0.0639, -0.0642,  ..., -0.0736,  0.0204, -0.1294],
+        ...,
+        [-0.1135, -0.1123,  0.0271,  ..., -0.1358, -0.0665, -0.2162],
+        [ 0.0746,  0.0323, -0.0631,  ..., -0.1079,  0.0045, -0.1146],
+        [ 0.0274,  0.0489, -0.0772,  ...,  0.0314, -0.1044, -0.0591]],
+       device='cuda:0'), grad: tensor([[ 6.2678e-07, -4.2305e-07, -1.5236e-06,  ..., -6.0303e-08,
+          8.8755e-07,  1.4491e-06],
+        [ 6.4960e-07,  9.1735e-07, -9.0152e-07,  ..., -4.6976e-06,
+         -1.0833e-05, -1.8403e-05],
+        [ 1.6382e-06,  2.3320e-06,  1.0505e-06,  ...,  9.4576e-07,
+          5.9493e-06,  3.3937e-06],
+        ...,
+        [ 2.5053e-06,  3.0939e-06,  7.7905e-07,  ...,  1.6578e-06,
+         -4.3772e-06,  2.5146e-06],
+        [ 5.2191e-06,  9.2238e-06,  3.9767e-07,  ...,  1.9874e-06,
+         -4.9314e-07,  2.7195e-06],
+        [-2.8126e-06,  2.3730e-06,  7.9209e-07,  ..., -8.6054e-06,
+          1.3886e-06,  1.0710e-06]], device='cuda:0')
+Epoch 108, bias, value: tensor([-0.0259, -0.0285, -0.0198,  0.0006, -0.0032,  0.0026,  0.0025, -0.0139,
+         0.0230, -0.0343], device='cuda:0'), grad: tensor([ 2.5798e-06, -5.5507e-06,  2.7478e-05,  3.7432e-04,  2.1547e-05,
+        -3.8338e-04,  6.2026e-06, -6.8843e-05,  2.0221e-05,  4.7274e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 107, time 218.34, cls_loss 0.0015 cls_loss_mapping 0.0060 cls_loss_causal 0.5577 re_mapping 0.0073 re_causal 0.0218 /// teacc 98.86 lr 0.00010000
+Epoch 109, weight, value: tensor([[-0.0168, -0.0126,  0.0880,  ...,  0.0062, -0.0505, -0.0381],
+        [-0.0846, -0.0812, -0.1080,  ...,  0.0312,  0.0495,  0.2234],
+        [-0.0560, -0.0645, -0.0650,  ..., -0.0744,  0.0207, -0.1297],
+        ...,
+        [-0.1138, -0.1134,  0.0269,  ..., -0.1365, -0.0670, -0.2184],
+        [ 0.0748,  0.0323, -0.0638,  ..., -0.1087,  0.0043, -0.1157],
+        [ 0.0279,  0.0493, -0.0776,  ...,  0.0319, -0.1050, -0.0601]],
+       device='cuda:0'), grad: tensor([[ 6.9570e-07, -7.3854e-07, -3.4068e-06,  ..., -1.1455e-07,
+          1.0403e-06,  5.8021e-07],
+        [ 1.6866e-06,  3.1316e-07,  8.0932e-07,  ...,  4.5402e-08,
+          3.1274e-06, -3.9376e-06],
+        [ 1.0822e-06,  1.5376e-06,  1.5600e-06,  ...,  1.3020e-06,
+         -2.6405e-05,  1.1232e-06],
+        ...,
+        [ 5.3421e-06,  1.0068e-06,  1.0934e-06,  ...,  8.1658e-06,
+          3.2391e-06,  6.0722e-07],
+        [-3.9749e-06, -6.7689e-06,  4.9639e-07,  ...,  1.2778e-06,
+          1.4022e-05,  6.7148e-07],
+        [-1.1504e-05,  1.4557e-06,  2.9579e-06,  ..., -1.6838e-05,
+          2.8666e-06,  2.0047e-07]], device='cuda:0')
+Epoch 109, bias, value: tensor([-0.0256, -0.0284, -0.0193,  0.0003, -0.0032,  0.0024,  0.0032, -0.0140,
+         0.0225, -0.0345], device='cuda:0'), grad: tensor([-2.2836e-06,  1.4707e-05, -6.6280e-05,  1.3150e-05, -5.2573e-07,
+         3.7979e-06,  5.0366e-06,  2.8059e-05,  2.3380e-05, -1.9014e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 108, time 218.35, cls_loss 0.0023 cls_loss_mapping 0.0086 cls_loss_causal 0.5702 re_mapping 0.0069 re_causal 0.0214 /// teacc 98.92 lr 0.00010000
+Epoch 110, weight, value: tensor([[-0.0170, -0.0122,  0.0885,  ...,  0.0063, -0.0510, -0.0382],
+        [-0.0854, -0.0818, -0.1084,  ...,  0.0313,  0.0491,  0.2242],
+        [-0.0563, -0.0650, -0.0660,  ..., -0.0752,  0.0211, -0.1290],
+        ...,
+        [-0.1158, -0.1141,  0.0270,  ..., -0.1374, -0.0672, -0.2197],
+        [ 0.0755,  0.0327, -0.0642,  ..., -0.1089,  0.0046, -0.1159],
+        [ 0.0299,  0.0502, -0.0788,  ...,  0.0312, -0.1072, -0.0607]],
+       device='cuda:0'), grad: tensor([[ 7.2122e-06,  1.1865e-06,  5.9512e-07,  ...,  6.1542e-06,
+          3.1572e-06,  4.0815e-07],
+        [ 5.9992e-05,  3.5428e-06,  6.5677e-06,  ...,  5.1826e-05,
+          1.9506e-05, -9.6411e-06],
+        [ 5.9865e-06,  2.5723e-06,  7.4413e-07,  ...,  4.5411e-06,
+          8.4639e-06,  2.3488e-06],
+        ...,
+        [ 1.2554e-05,  1.7658e-06,  1.3737e-06,  ...,  1.1846e-05,
+         -6.0014e-06,  1.9837e-06],
+        [ 8.5607e-06,  3.0119e-06,  1.1595e-06,  ...,  9.0525e-06,
+          2.1234e-06,  8.9128e-07],
+        [-5.4073e-04, -4.6849e-05, -4.9204e-05,  ..., -4.8184e-04,
+         -1.9991e-04,  9.2294e-07]], device='cuda:0')
+Epoch 110, bias, value: tensor([-0.0257, -0.0290, -0.0189,  0.0005, -0.0025,  0.0024,  0.0034, -0.0144,
+         0.0227, -0.0349], device='cuda:0'), grad: tensor([ 3.4928e-05,  2.9159e-04,  1.0175e-04,  5.1916e-05,  1.9398e-03,
+         5.8413e-05,  6.1616e-06, -1.4853e-04,  3.2395e-05, -2.3708e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 109, time 218.40, cls_loss 0.0019 cls_loss_mapping 0.0057 cls_loss_causal 0.5719 re_mapping 0.0071 re_causal 0.0220 /// teacc 98.93 lr 0.00010000
+Epoch 111, weight, value: tensor([[-0.0177, -0.0128,  0.0881,  ...,  0.0058, -0.0513, -0.0385],
+        [-0.0858, -0.0827, -0.1088,  ...,  0.0325,  0.0496,  0.2258],
+        [-0.0560, -0.0651, -0.0668,  ..., -0.0756,  0.0210, -0.1294],
+        ...,
+        [-0.1156, -0.1146,  0.0267,  ..., -0.1382, -0.0677, -0.2222],
+        [ 0.0754,  0.0331, -0.0640,  ..., -0.1098,  0.0047, -0.1151],
+        [ 0.0310,  0.0509, -0.0788,  ...,  0.0321, -0.1076, -0.0622]],
+       device='cuda:0'), grad: tensor([[ 3.1339e-07, -3.2759e-07,  1.6093e-06,  ...,  8.0606e-07,
+          1.9046e-07,  8.1956e-08],
+        [ 4.1276e-06,  6.1542e-06,  1.0291e-06,  ...,  1.5683e-06,
+          8.6706e-07, -1.5935e-06],
+        [ 1.8943e-06,  2.7101e-06,  1.4957e-06,  ...,  1.7453e-06,
+          7.3388e-07,  2.7893e-07],
+        ...,
+        [ 1.0096e-06,  1.5413e-06,  3.1013e-07,  ...,  8.2375e-07,
+          5.1828e-07,  4.2701e-07],
+        [ 7.8678e-06,  1.4484e-05,  3.2280e-06,  ...,  6.3628e-06,
+          1.8571e-06,  2.4750e-07],
+        [ 1.6727e-06,  2.5295e-06,  3.4831e-06,  ...,  1.1036e-06,
+          2.4494e-06,  1.9465e-07]], device='cuda:0')
+Epoch 111, bias, value: tensor([-0.0263, -0.0287, -0.0185,  0.0002, -0.0027,  0.0018,  0.0042, -0.0143,
+         0.0228, -0.0348], device='cuda:0'), grad: tensor([ 5.7891e-06,  1.3970e-05,  1.0177e-05, -5.8174e-04, -6.2492e-07,
+         5.2547e-04, -2.1651e-05,  5.7556e-07,  3.6001e-05,  1.2085e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 110----------------------------------------------------
+epoch 110, time 219.32, cls_loss 0.0019 cls_loss_mapping 0.0058 cls_loss_causal 0.5679 re_mapping 0.0069 re_causal 0.0207 /// teacc 99.08 lr 0.00010000
+Epoch 112, weight, value: tensor([[-0.0183, -0.0128,  0.0885,  ...,  0.0058, -0.0520, -0.0387],
+        [-0.0866, -0.0839, -0.1096,  ...,  0.0325,  0.0498,  0.2287],
+        [-0.0568, -0.0660, -0.0673,  ..., -0.0765,  0.0207, -0.1323],
+        ...,
+        [-0.1166, -0.1158,  0.0267,  ..., -0.1391, -0.0681, -0.2241],
+        [ 0.0761,  0.0332, -0.0642,  ..., -0.1103,  0.0056, -0.1153],
+        [ 0.0317,  0.0515, -0.0791,  ...,  0.0331, -0.1081, -0.0631]],
+       device='cuda:0'), grad: tensor([[ 8.1025e-07,  1.5218e-06,  3.2913e-06,  ..., -1.6931e-06,
+          1.3169e-06,  1.3481e-07],
+        [ 6.3237e-07,  4.2431e-06,  5.4650e-06,  ..., -1.8831e-06,
+         -5.3179e-07, -5.0925e-06],
+        [ 9.7882e-07,  2.8629e-06,  2.1290e-06,  ...,  1.1930e-06,
+         -1.1742e-05,  9.3412e-07],
+        ...,
+        [ 9.8255e-07, -9.5367e-06, -2.8461e-05,  ...,  1.4286e-06,
+          7.9209e-07,  8.7079e-07],
+        [-7.4804e-05, -3.3307e-04,  7.8371e-07,  ...,  1.6233e-06,
+         -8.1301e-05,  1.4491e-06],
+        [-4.5449e-06,  6.2957e-07,  3.5614e-06,  ..., -4.6417e-06,
+          1.6252e-06,  5.8161e-07]], device='cuda:0')
+Epoch 112, bias, value: tensor([-2.6519e-02, -2.8234e-02, -1.9693e-02,  8.9110e-05, -2.9717e-03,
+         1.9723e-03,  3.9479e-03, -1.4073e-02,  2.3597e-02, -3.4553e-02],
+       device='cuda:0'), grad: tensor([ 7.3791e-05,  7.4029e-05,  3.2395e-05,  6.1572e-05,  6.5386e-05,
+         6.6042e-04,  3.4857e-04, -4.1938e-04, -9.4032e-04,  4.2856e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 111, time 218.46, cls_loss 0.0021 cls_loss_mapping 0.0072 cls_loss_causal 0.5975 re_mapping 0.0067 re_causal 0.0216 /// teacc 99.00 lr 0.00010000
+Epoch 113, weight, value: tensor([[-0.0182, -0.0122,  0.0888,  ...,  0.0060, -0.0523, -0.0387],
+        [-0.0872, -0.0848, -0.1100,  ...,  0.0328,  0.0499,  0.2302],
+        [-0.0575, -0.0666, -0.0678,  ..., -0.0774,  0.0208, -0.1330],
+        ...,
+        [-0.1177, -0.1173,  0.0267,  ..., -0.1405, -0.0682, -0.2259],
+        [ 0.0760,  0.0330, -0.0647,  ..., -0.1113,  0.0055, -0.1162],
+        [ 0.0328,  0.0521, -0.0793,  ...,  0.0343, -0.1081, -0.0641]],
+       device='cuda:0'), grad: tensor([[ 1.3122e-06,  1.1073e-06, -9.9093e-07,  ...,  1.2219e-06,
+          4.1798e-06,  1.5674e-06],
+        [ 1.9800e-06,  3.2280e-06,  1.3586e-07,  ...,  3.9816e-04,
+          1.7624e-03,  1.3285e-03],
+        [ 9.8497e-06,  1.7628e-05,  2.3621e-07,  ...,  1.8016e-05,
+          4.1604e-05,  2.1428e-05],
+        ...,
+        [ 2.9784e-06,  4.3325e-06,  1.3458e-07,  ..., -4.1413e-04,
+         -1.8501e-03, -1.3981e-03],
+        [ 2.3432e-06,  4.6343e-06,  4.0606e-07,  ...,  1.0364e-05,
+          3.3319e-05,  2.2784e-05],
+        [-8.8103e-07,  9.8906e-07,  1.9546e-07,  ...,  6.7241e-07,
+          7.2382e-06,  4.0457e-06]], device='cuda:0')
+Epoch 113, bias, value: tensor([-0.0264, -0.0283, -0.0198, -0.0002, -0.0031,  0.0021,  0.0037, -0.0138,
+         0.0230, -0.0341], device='cuda:0'), grad: tensor([ 1.3843e-05,  8.2779e-03,  1.7273e-04,  2.8834e-05,  1.2986e-05,
+         1.5929e-05, -2.3860e-06, -8.6975e-03,  1.5306e-04,  2.7463e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 112, time 218.24, cls_loss 0.0015 cls_loss_mapping 0.0050 cls_loss_causal 0.5790 re_mapping 0.0065 re_causal 0.0209 /// teacc 98.99 lr 0.00010000
+Epoch 114, weight, value: tensor([[-0.0180, -0.0120,  0.0893,  ...,  0.0061, -0.0526, -0.0387],
+        [-0.0877, -0.0849, -0.1104,  ...,  0.0351,  0.0494,  0.2313],
+        [-0.0576, -0.0668, -0.0685,  ..., -0.0782,  0.0210, -0.1332],
+        ...,
+        [-0.1179, -0.1183,  0.0264,  ..., -0.1430, -0.0676, -0.2263],
+        [ 0.0765,  0.0332, -0.0650,  ..., -0.1115,  0.0060, -0.1167],
+        [ 0.0328,  0.0518, -0.0799,  ...,  0.0343, -0.1089, -0.0649]],
+       device='cuda:0'), grad: tensor([[ 8.2282e-07, -4.7497e-06, -4.4554e-06,  ..., -5.1968e-06,
+          6.7614e-07,  1.7288e-07],
+        [ 9.3691e-07,  2.4531e-06,  5.8208e-09,  ..., -6.0014e-06,
+         -1.4804e-05, -3.0786e-05],
+        [ 3.4943e-06,  6.0610e-06,  1.3802e-06,  ...,  6.8657e-06,
+          8.4266e-06,  1.5020e-05],
+        ...,
+        [ 1.8692e-06,  2.3264e-06,  5.6624e-07,  ...,  2.8647e-06,
+          3.0398e-06,  2.4214e-06],
+        [ 7.0482e-06,  8.5384e-06,  4.2748e-07,  ...,  5.9120e-06,
+          5.1595e-06,  1.0487e-06],
+        [-1.7295e-06,  3.2000e-06,  1.8626e-06,  ..., -2.8871e-07,
+          3.3602e-06,  1.6792e-06]], device='cuda:0')
+Epoch 114, bias, value: tensor([-0.0264, -0.0281, -0.0200, -0.0003, -0.0028,  0.0021,  0.0038, -0.0135,
+         0.0230, -0.0346], device='cuda:0'), grad: tensor([-1.6332e-05, -4.8012e-05,  3.4004e-05, -4.6343e-05,  1.5192e-05,
+        -1.1288e-06,  1.4625e-05,  1.4797e-05,  2.8402e-05,  4.6417e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 113, time 218.39, cls_loss 0.0022 cls_loss_mapping 0.0066 cls_loss_causal 0.5701 re_mapping 0.0063 re_causal 0.0196 /// teacc 99.02 lr 0.00010000
+Epoch 115, weight, value: tensor([[-0.0183, -0.0118,  0.0897,  ...,  0.0060, -0.0529, -0.0390],
+        [-0.0885, -0.0856, -0.1108,  ...,  0.0369,  0.0502,  0.2332],
+        [-0.0584, -0.0678, -0.0694,  ..., -0.0793,  0.0211, -0.1335],
+        ...,
+        [-0.1191, -0.1205,  0.0253,  ..., -0.1453, -0.0689, -0.2274],
+        [ 0.0765,  0.0332, -0.0651,  ..., -0.1130,  0.0063, -0.1178],
+        [ 0.0337,  0.0524, -0.0798,  ...,  0.0354, -0.1106, -0.0656]],
+       device='cuda:0'), grad: tensor([[ 1.0070e-07, -1.9252e-05, -1.5244e-05,  ..., -1.7643e-05,
+          5.3830e-07,  6.5309e-08],
+        [ 6.5472e-07,  8.4983e-07,  3.6927e-07,  ...,  1.4808e-07,
+          3.5530e-07, -1.9614e-06],
+        [ 6.6776e-07,  6.9290e-07,  4.7125e-07,  ...,  8.1817e-07,
+          1.0924e-06,  3.0780e-07],
+        ...,
+        [ 3.9814e-07,  2.8173e-07, -9.4296e-09,  ...,  5.2946e-07,
+          5.9977e-07,  5.7463e-07],
+        [ 2.3842e-07,  1.4966e-06,  4.7358e-07,  ...,  1.8459e-06,
+          5.9605e-07,  3.6904e-07],
+        [ 5.2713e-07,  1.4603e-06,  1.1623e-06,  ...,  1.1194e-06,
+          1.2591e-06,  1.5146e-07]], device='cuda:0')
+Epoch 115, bias, value: tensor([-0.0265, -0.0277, -0.0197, -0.0007, -0.0021,  0.0025,  0.0032, -0.0138,
+         0.0225, -0.0349], device='cuda:0'), grad: tensor([-3.7223e-05,  4.8708e-07,  3.2559e-06, -6.0908e-06, -4.7148e-07,
+         2.2382e-05,  1.1511e-05, -6.8964e-07,  1.4333e-06,  5.4687e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 114----------------------------------------------------
+epoch 114, time 219.08, cls_loss 0.0017 cls_loss_mapping 0.0061 cls_loss_causal 0.5646 re_mapping 0.0067 re_causal 0.0204 /// teacc 99.11 lr 0.00010000
+Epoch 116, weight, value: tensor([[-0.0183, -0.0113,  0.0900,  ...,  0.0062, -0.0535, -0.0391],
+        [-0.0892, -0.0863, -0.1109,  ...,  0.0381,  0.0505,  0.2348],
+        [-0.0587, -0.0683, -0.0702,  ..., -0.0808,  0.0210, -0.1341],
+        ...,
+        [-0.1195, -0.1206,  0.0250,  ..., -0.1463, -0.0693, -0.2285],
+        [ 0.0768,  0.0330, -0.0654,  ..., -0.1135,  0.0068, -0.1184],
+        [ 0.0343,  0.0525, -0.0801,  ...,  0.0359, -0.1110, -0.0665]],
+       device='cuda:0'), grad: tensor([[ 1.1455e-06, -1.6928e-05, -2.8297e-05,  ..., -1.4283e-05,
+         -3.6992e-06,  7.7765e-08],
+        [ 9.6485e-07,  1.6019e-06,  8.1491e-07,  ..., -1.2442e-06,
+          1.3663e-06, -6.1095e-06],
+        [ 4.8690e-06,  8.9630e-06,  4.7088e-06,  ...,  4.6194e-06,
+         -4.7505e-05,  4.2422e-07],
+        ...,
+        [ 1.4100e-06,  3.2280e-06,  2.7008e-06,  ...,  2.4624e-06,
+          4.6790e-05,  9.1735e-07],
+        [-6.2138e-06, -2.3749e-06,  2.4624e-06,  ...,  5.7667e-06,
+         -4.7497e-06,  5.3551e-07],
+        [ 6.6049e-06,  9.9763e-06,  5.7928e-06,  ...,  9.6112e-07,
+          6.0052e-06,  2.8256e-06]], device='cuda:0')
+Epoch 116, bias, value: tensor([-0.0265, -0.0271, -0.0200, -0.0006, -0.0025,  0.0026,  0.0031, -0.0138,
+         0.0223, -0.0348], device='cuda:0'), grad: tensor([-5.3883e-05,  9.5665e-06, -3.8815e-04, -4.4376e-05,  1.5512e-05,
+         3.1561e-05,  9.3058e-06,  3.9029e-04, -2.9877e-05,  5.9187e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 115, time 218.46, cls_loss 0.0022 cls_loss_mapping 0.0083 cls_loss_causal 0.5426 re_mapping 0.0069 re_causal 0.0191 /// teacc 98.97 lr 0.00010000
+Epoch 117, weight, value: tensor([[-0.0185, -0.0110,  0.0902,  ...,  0.0062, -0.0540, -0.0392],
+        [-0.0906, -0.0872, -0.1119,  ...,  0.0382,  0.0503,  0.2360],
+        [-0.0595, -0.0696, -0.0711,  ..., -0.0824,  0.0214, -0.1339],
+        ...,
+        [-0.1201, -0.1215,  0.0247,  ..., -0.1470, -0.0697, -0.2291],
+        [ 0.0768,  0.0324, -0.0659,  ..., -0.1143,  0.0068, -0.1200],
+        [ 0.0350,  0.0528, -0.0810,  ...,  0.0365, -0.1122, -0.0674]],
+       device='cuda:0'), grad: tensor([[ 2.9448e-06, -1.6876e-06, -2.0508e-06,  ...,  6.1095e-07,
+          3.7067e-06,  2.2911e-06],
+        [ 3.6396e-06,  4.6007e-06,  2.4475e-06,  ..., -5.8077e-06,
+         -1.5208e-06, -1.4812e-05],
+        [ 1.4317e-04,  1.6010e-04,  1.0151e-06,  ...,  1.1945e-04,
+          8.3923e-05,  4.8615e-06],
+        ...,
+        [ 5.5619e-06,  5.9195e-06,  1.8310e-06,  ...,  5.3681e-06,
+          4.6380e-06,  1.0906e-06],
+        [-1.2852e-07,  5.0198e-07,  1.7118e-06,  ...,  3.6694e-06,
+          4.9826e-07,  1.7006e-06],
+        [ 1.0058e-05,  1.2040e-05,  1.1796e-04,  ...,  2.0206e-05,
+          8.8871e-05,  1.7518e-06]], device='cuda:0')
+Epoch 117, bias, value: tensor([-0.0268, -0.0280, -0.0192, -0.0011, -0.0020,  0.0031,  0.0032, -0.0135,
+         0.0215, -0.0349], device='cuda:0'), grad: tensor([ 1.6928e-05,  2.8157e-04,  7.5960e-04, -8.3685e-04, -5.4264e-04,
+         4.7922e-05,  2.8744e-05, -3.0303e-04,  1.7658e-05,  5.2977e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 116, time 218.35, cls_loss 0.0019 cls_loss_mapping 0.0067 cls_loss_causal 0.5883 re_mapping 0.0062 re_causal 0.0203 /// teacc 99.08 lr 0.00010000
+Epoch 118, weight, value: tensor([[-0.0185, -0.0107,  0.0911,  ...,  0.0072, -0.0533, -0.0378],
+        [-0.0910, -0.0876, -0.1132,  ...,  0.0386,  0.0501,  0.2378],
+        [-0.0601, -0.0705, -0.0725,  ..., -0.0838,  0.0216, -0.1344],
+        ...,
+        [-0.1217, -0.1220,  0.0252,  ..., -0.1489, -0.0700, -0.2300],
+        [ 0.0775,  0.0339, -0.0657,  ..., -0.1149,  0.0084, -0.1201],
+        [ 0.0363,  0.0532, -0.0813,  ...,  0.0379, -0.1127, -0.0687]],
+       device='cuda:0'), grad: tensor([[ 7.2992e-08, -2.5937e-07,  9.2783e-08,  ...,  1.1874e-08,
+          2.9523e-07, -1.6880e-08],
+        [ 5.8440e-08,  1.0512e-07,  1.9767e-07,  ..., -3.4808e-08,
+         -1.1188e-07, -8.4005e-07],
+        [ 1.3690e-07,  2.0198e-07,  6.8778e-07,  ...,  4.3889e-07,
+          5.9698e-07,  2.0140e-07],
+        ...,
+        [ 2.3039e-07,  2.3842e-07,  2.3982e-08,  ...,  3.1153e-07,
+         -1.2340e-07,  3.6927e-07],
+        [ 9.3970e-07,  1.1846e-06,  5.0850e-07,  ...,  1.0906e-06,
+          2.9895e-07,  5.7626e-08],
+        [-2.8182e-06, -2.7958e-06,  1.0291e-07,  ..., -2.5705e-06,
+          7.4506e-08,  6.6590e-08]], device='cuda:0')
+Epoch 118, bias, value: tensor([-0.0260, -0.0285, -0.0188, -0.0012, -0.0023,  0.0028,  0.0016, -0.0139,
+         0.0230, -0.0342], device='cuda:0'), grad: tensor([ 1.3057e-06,  1.5413e-06,  4.5598e-06,  3.5278e-06,  6.5565e-06,
+         1.3011e-06, -6.8732e-06, -1.2137e-05,  4.2841e-06, -4.1127e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 117, time 218.67, cls_loss 0.0013 cls_loss_mapping 0.0048 cls_loss_causal 0.5145 re_mapping 0.0064 re_causal 0.0198 /// teacc 99.02 lr 0.00010000
+Epoch 119, weight, value: tensor([[-0.0186, -0.0107,  0.0912,  ...,  0.0070, -0.0537, -0.0380],
+        [-0.0923, -0.0888, -0.1139,  ...,  0.0386,  0.0500,  0.2387],
+        [-0.0607, -0.0716, -0.0732,  ..., -0.0848,  0.0214, -0.1349],
+        ...,
+        [-0.1221, -0.1227,  0.0247,  ..., -0.1492, -0.0704, -0.2305],
+        [ 0.0787,  0.0356, -0.0658,  ..., -0.1144,  0.0094, -0.1205],
+        [ 0.0361,  0.0518, -0.0818,  ...,  0.0379, -0.1135, -0.0693]],
+       device='cuda:0'), grad: tensor([[ 1.9781e-06,  1.5870e-06, -3.3854e-07,  ...,  3.0035e-07,
+          1.2554e-06,  2.6077e-08],
+        [ 7.3109e-07,  6.5891e-07,  6.5099e-07,  ...,  3.5809e-07,
+          1.3579e-06, -5.8208e-07],
+        [ 7.3388e-06,  7.2606e-06,  3.2783e-07,  ...,  7.5996e-07,
+          1.2922e-07,  8.3703e-08],
+        ...,
+        [ 3.6340e-06,  2.4959e-06,  1.2899e-06,  ...,  3.1497e-06,
+          2.1383e-06,  8.9640e-08],
+        [-6.8881e-06, -8.8513e-06,  2.1455e-07,  ...,  5.2750e-06,
+         -5.5917e-06,  1.7066e-07],
+        [-1.9327e-05, -9.8273e-06,  1.0496e-06,  ..., -1.9222e-05,
+          2.6282e-06,  4.1793e-08]], device='cuda:0')
+Epoch 119, bias, value: tensor([-0.0262, -0.0286, -0.0191, -0.0014, -0.0021,  0.0030,  0.0019, -0.0139,
+         0.0240, -0.0348], device='cuda:0'), grad: tensor([ 3.0026e-05,  4.9353e-05, -1.3208e-04,  4.9025e-05,  9.4771e-06,
+         2.4632e-05,  6.8173e-06,  1.7643e-05, -2.4885e-05, -3.0220e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 118, time 218.49, cls_loss 0.0016 cls_loss_mapping 0.0056 cls_loss_causal 0.5525 re_mapping 0.0066 re_causal 0.0204 /// teacc 99.01 lr 0.00010000
+Epoch 120, weight, value: tensor([[-0.0187, -0.0120,  0.0904,  ...,  0.0052, -0.0539, -0.0380],
+        [-0.0932, -0.0899, -0.1140,  ...,  0.0387,  0.0500,  0.2403],
+        [-0.0616, -0.0733, -0.0736,  ..., -0.0856,  0.0216, -0.1354],
+        ...,
+        [-0.1226, -0.1240,  0.0245,  ..., -0.1497, -0.0707, -0.2317],
+        [ 0.0779,  0.0340, -0.0666,  ..., -0.1157,  0.0088, -0.1212],
+        [ 0.0371,  0.0535, -0.0807,  ...,  0.0403, -0.1137, -0.0697]],
+       device='cuda:0'), grad: tensor([[-1.1042e-05, -3.5673e-05, -3.2663e-05,  ..., -6.0886e-05,
+          3.4459e-07,  1.8347e-07],
+        [ 1.2210e-06,  2.2445e-06,  1.7164e-06,  ...,  1.8142e-06,
+          3.4925e-07, -2.3842e-06],
+        [ 1.6158e-06,  2.6692e-06,  1.9390e-06,  ...,  3.9339e-06,
+          1.4063e-06,  4.9733e-07],
+        ...,
+        [ 2.0824e-06,  3.5353e-06,  4.0345e-06,  ...,  5.4203e-06,
+          2.8331e-06,  6.0676e-07],
+        [ 9.5144e-06,  1.1295e-05,  1.8729e-06,  ...,  8.8066e-06,
+          1.0021e-05,  2.2224e-07],
+        [ 5.8152e-06,  2.0385e-05,  1.9908e-05,  ...,  3.3975e-05,
+          1.3001e-06,  2.6450e-07]], device='cuda:0')
+Epoch 120, bias, value: tensor([-0.0277, -0.0287, -0.0191, -0.0008, -0.0024,  0.0035,  0.0013, -0.0139,
+         0.0228, -0.0335], device='cuda:0'), grad: tensor([-1.4484e-04,  5.5023e-06,  1.1921e-05, -2.8729e-05, -1.6866e-06,
+         5.1148e-06,  1.6943e-05,  1.8597e-05,  3.2276e-05,  8.4758e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 119, time 218.41, cls_loss 0.0018 cls_loss_mapping 0.0049 cls_loss_causal 0.5617 re_mapping 0.0067 re_causal 0.0208 /// teacc 99.01 lr 0.00010000
+Epoch 121, weight, value: tensor([[-0.0183, -0.0114,  0.0908,  ...,  0.0055, -0.0539, -0.0382],
+        [-0.0939, -0.0910, -0.1146,  ...,  0.0391,  0.0500,  0.2412],
+        [-0.0621, -0.0743, -0.0744,  ..., -0.0863,  0.0217, -0.1357],
+        ...,
+        [-0.1232, -0.1252,  0.0238,  ..., -0.1502, -0.0710, -0.2324],
+        [ 0.0777,  0.0337, -0.0678,  ..., -0.1166,  0.0086, -0.1217],
+        [ 0.0391,  0.0546, -0.0797,  ...,  0.0407, -0.1150, -0.0705]],
+       device='cuda:0'), grad: tensor([[ 3.5996e-07,  5.3197e-06, -5.3644e-06,  ..., -2.4308e-06,
+          1.0066e-05,  2.7940e-09],
+        [ 3.5996e-07,  2.2184e-06,  1.7881e-06,  ...,  7.2643e-07,
+          1.2135e-06, -1.0955e-07],
+        [ 1.3243e-06, -1.5885e-05,  1.0943e-06,  ..., -9.5069e-06,
+         -1.5825e-05,  1.3039e-08],
+        ...,
+        [ 7.6508e-07,  2.3454e-05,  6.4587e-07,  ...,  5.2061e-07,
+          8.0094e-07,  2.9919e-08],
+        [ 5.7835e-07,  3.2395e-05,  2.9001e-06,  ...,  3.3136e-06,
+          3.3472e-06,  2.0140e-08],
+        [ 7.7393e-07,  2.5500e-06,  2.8223e-05,  ...,  3.5483e-06,
+          1.1243e-05,  1.4552e-08]], device='cuda:0')
+Epoch 121, bias, value: tensor([-0.0274, -0.0287, -0.0190, -0.0009, -0.0036,  0.0036,  0.0013, -0.0142,
+         0.0220, -0.0322], device='cuda:0'), grad: tensor([ 4.2260e-05,  1.0610e-05, -9.0837e-05,  2.3887e-05, -8.7380e-05,
+        -1.3673e-04,  5.0247e-05,  5.3674e-05,  7.4983e-05,  5.9336e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 120, time 218.30, cls_loss 0.0017 cls_loss_mapping 0.0046 cls_loss_causal 0.5455 re_mapping 0.0063 re_causal 0.0193 /// teacc 98.98 lr 0.00010000
+Epoch 122, weight, value: tensor([[-0.0185, -0.0113,  0.0913,  ...,  0.0058, -0.0539, -0.0380],
+        [-0.0943, -0.0917, -0.1168,  ...,  0.0400,  0.0497,  0.2422],
+        [-0.0628, -0.0755, -0.0756,  ..., -0.0872,  0.0213, -0.1360],
+        ...,
+        [-0.1242, -0.1264,  0.0231,  ..., -0.1517, -0.0716, -0.2336],
+        [ 0.0779,  0.0332, -0.0684,  ..., -0.1171,  0.0088, -0.1213],
+        [ 0.0396,  0.0548, -0.0802,  ...,  0.0412, -0.1157, -0.0712]],
+       device='cuda:0'), grad: tensor([[ 2.3730e-06,  5.9954e-08,  3.2425e-05,  ...,  1.9390e-06,
+          4.8503e-06,  4.8778e-08],
+        [ 8.7265e-07,  1.8661e-07,  1.1645e-05,  ..., -6.7148e-07,
+          1.3486e-06, -2.2780e-06],
+        [ 2.1718e-06,  2.1199e-07,  3.1888e-05,  ...,  3.5251e-07,
+          4.8876e-06,  4.8522e-07],
+        ...,
+        [ 5.3737e-07,  8.8941e-07,  2.9560e-06,  ...,  7.0361e-07,
+          9.6485e-07,  6.3283e-07],
+        [ 3.7961e-06,  1.9725e-06,  2.1815e-05,  ...,  1.9725e-06,
+          2.7940e-06,  1.5693e-07],
+        [-5.7779e-06, -2.0172e-06,  1.4797e-05,  ..., -2.7791e-06,
+          7.1190e-06,  2.5844e-07]], device='cuda:0')
+Epoch 122, bias, value: tensor([-0.0270, -0.0280, -0.0195, -0.0005, -0.0030,  0.0036,  0.0013, -0.0155,
+         0.0220, -0.0323], device='cuda:0'), grad: tensor([ 8.6248e-05,  2.8476e-05,  8.3864e-05,  8.6948e-06,  4.1747e-04,
+         1.0476e-05, -7.3385e-04,  7.3612e-06,  6.3956e-05,  2.6435e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 121, time 218.52, cls_loss 0.0018 cls_loss_mapping 0.0052 cls_loss_causal 0.5506 re_mapping 0.0063 re_causal 0.0195 /// teacc 99.02 lr 0.00010000
+Epoch 123, weight, value: tensor([[-0.0189, -0.0112,  0.0918,  ...,  0.0064, -0.0533, -0.0371],
+        [-0.0951, -0.0928, -0.1188,  ...,  0.0403,  0.0507,  0.2437],
+        [-0.0637, -0.0766, -0.0765,  ..., -0.0897,  0.0200, -0.1376],
+        ...,
+        [-0.1249, -0.1275,  0.0229,  ..., -0.1522, -0.0718, -0.2340],
+        [ 0.0785,  0.0335, -0.0689,  ..., -0.1178,  0.0093, -0.1217],
+        [ 0.0394,  0.0537, -0.0805,  ...,  0.0412, -0.1164, -0.0719]],
+       device='cuda:0'), grad: tensor([[ 1.0654e-06, -1.1906e-05, -1.8403e-05,  ..., -2.3529e-05,
+          2.2422e-07,  5.0059e-08],
+        [ 6.5565e-07,  9.7696e-07,  2.5565e-07,  ...,  4.1956e-07,
+         -7.1479e-08, -9.9279e-07],
+        [ 8.1817e-07,  1.4519e-06,  4.6473e-07,  ...,  1.4342e-06,
+          2.8033e-07,  1.9372e-07],
+        ...,
+        [ 1.0217e-06,  1.2275e-06,  1.4598e-07,  ...,  1.2275e-06,
+          2.5099e-07,  2.8359e-07],
+        [ 5.7071e-06,  7.1637e-06,  1.3795e-07,  ...,  6.2995e-06,
+          1.9209e-08,  1.6857e-07],
+        [-1.7714e-06,  1.0759e-05,  2.4319e-05,  ...,  1.9789e-05,
+          8.7023e-06,  1.4959e-07]], device='cuda:0')
+Epoch 123, bias, value: tensor([-0.0265, -0.0272, -0.0214,  0.0006, -0.0033,  0.0029,  0.0023, -0.0152,
+         0.0225, -0.0329], device='cuda:0'), grad: tensor([-3.8326e-05,  2.4065e-06,  1.1958e-06, -1.4499e-05, -1.8910e-05,
+        -4.8615e-06,  4.2357e-06,  1.2284e-06,  1.5661e-05,  5.1796e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 122, time 218.25, cls_loss 0.0015 cls_loss_mapping 0.0061 cls_loss_causal 0.5462 re_mapping 0.0062 re_causal 0.0191 /// teacc 99.02 lr 0.00010000
+Epoch 124, weight, value: tensor([[-0.0189, -0.0093,  0.0932,  ...,  0.0079, -0.0536, -0.0372],
+        [-0.0955, -0.0937, -0.1193,  ...,  0.0407,  0.0508,  0.2451],
+        [-0.0645, -0.0780, -0.0776,  ..., -0.0908,  0.0199, -0.1378],
+        ...,
+        [-0.1254, -0.1285,  0.0227,  ..., -0.1529, -0.0720, -0.2351],
+        [ 0.0787,  0.0335, -0.0693,  ..., -0.1184,  0.0096, -0.1222],
+        [ 0.0397,  0.0531, -0.0818,  ...,  0.0406, -0.1174, -0.0741]],
+       device='cuda:0'), grad: tensor([[ 3.2014e-08,  9.5461e-09,  5.4017e-08,  ..., -4.2026e-08,
+          3.3062e-07,  6.5309e-08],
+        [ 4.2492e-08,  1.4761e-07,  1.4913e-07,  ..., -2.5379e-07,
+         -3.1549e-08, -6.9616e-07],
+        [ 1.1234e-07, -9.0618e-07,  3.7905e-07,  ...,  6.4611e-08,
+          1.7439e-07,  5.6112e-08],
+        ...,
+        [ 1.1176e-07,  2.8568e-07,  1.6494e-06,  ...,  1.5332e-07,
+          3.5334e-06,  1.4016e-07],
+        [-3.1386e-07, -7.0431e-08,  6.7055e-08,  ...,  1.1385e-07,
+          3.2014e-08,  9.9186e-08],
+        [-5.1642e-07, -1.6380e-07,  6.1274e-05,  ..., -7.1991e-07,
+          1.2529e-04,  9.4529e-08]], device='cuda:0')
+Epoch 124, bias, value: tensor([-0.0252, -0.0271, -0.0213,  0.0006, -0.0030,  0.0032,  0.0021, -0.0155,
+         0.0225, -0.0339], device='cuda:0'), grad: tensor([ 1.1912e-06,  4.0932e-07, -1.5935e-06,  3.8408e-06, -4.7445e-04,
+        -1.3411e-07,  8.6799e-07,  1.3575e-05, -6.7637e-08,  4.5633e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 123, time 218.19, cls_loss 0.0012 cls_loss_mapping 0.0053 cls_loss_causal 0.5370 re_mapping 0.0063 re_causal 0.0202 /// teacc 99.06 lr 0.00010000
+Epoch 125, weight, value: tensor([[-0.0192, -0.0094,  0.0935,  ...,  0.0078, -0.0538, -0.0377],
+        [-0.0968, -0.0959, -0.1207,  ...,  0.0402,  0.0506,  0.2451],
+        [-0.0649, -0.0786, -0.0782,  ..., -0.0906,  0.0202, -0.1379],
+        ...,
+        [-0.1256, -0.1289,  0.0228,  ..., -0.1531, -0.0721, -0.2354],
+        [ 0.0788,  0.0335, -0.0698,  ..., -0.1193,  0.0099, -0.1225],
+        [ 0.0401,  0.0535, -0.0819,  ...,  0.0412, -0.1180, -0.0724]],
+       device='cuda:0'), grad: tensor([[-1.8729e-06, -4.5449e-06, -4.7050e-06,  ..., -4.7199e-06,
+          1.6149e-06,  1.6298e-08],
+        [ 1.1045e-06,  1.5534e-06,  3.8347e-07,  ...,  6.2585e-07,
+          1.8887e-06, -6.9989e-07],
+        [ 4.7963e-07,  1.2293e-06,  1.0757e-06,  ...,  1.7062e-06,
+          2.1495e-06,  1.0838e-07],
+        ...,
+        [ 2.1316e-07,  3.0897e-07,  1.7730e-07,  ...,  2.1246e-07,
+          4.8708e-07,  1.9930e-07],
+        [-2.1547e-05, -2.8968e-05, -2.5220e-06,  ..., -1.1943e-05,
+         -4.4614e-05,  6.6939e-08],
+        [ 1.5041e-06,  2.8946e-06,  1.4445e-06,  ...,  1.0096e-06,
+          6.0871e-06,  5.9372e-08]], device='cuda:0')
+Epoch 125, bias, value: tensor([-0.0253, -0.0275, -0.0210,  0.0010, -0.0031,  0.0030,  0.0024, -0.0154,
+         0.0224, -0.0338], device='cuda:0'), grad: tensor([-7.9945e-06,  5.3160e-06, -1.1688e-06,  5.5194e-05,  7.3202e-06,
+         8.0094e-06,  1.1496e-05, -6.7893e-07, -8.9586e-05,  1.1988e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 124, time 218.17, cls_loss 0.0014 cls_loss_mapping 0.0060 cls_loss_causal 0.5401 re_mapping 0.0065 re_causal 0.0199 /// teacc 99.02 lr 0.00010000
+Epoch 126, weight, value: tensor([[-0.0194, -0.0092,  0.0936,  ...,  0.0078, -0.0544, -0.0379],
+        [-0.0976, -0.0973, -0.1215,  ...,  0.0405,  0.0500,  0.2461],
+        [-0.0652, -0.0795, -0.0786,  ..., -0.0911,  0.0200, -0.1386],
+        ...,
+        [-0.1256, -0.1294,  0.0224,  ..., -0.1536, -0.0715, -0.2353],
+        [ 0.0794,  0.0341, -0.0711,  ..., -0.1202,  0.0091, -0.1228],
+        [ 0.0402,  0.0537, -0.0827,  ...,  0.0413, -0.1193, -0.0732]],
+       device='cuda:0'), grad: tensor([[ 9.1968e-08, -8.5402e-07, -1.4920e-06,  ..., -7.0315e-07,
+          1.3399e-07,  1.9767e-07],
+        [ 3.0221e-07,  5.4203e-07,  5.0059e-08,  ..., -1.4352e-06,
+         -1.8403e-06, -4.8764e-06],
+        [ 8.7079e-08, -7.2643e-08,  1.5914e-07,  ...,  3.4575e-07,
+         -1.9942e-07,  4.0047e-07],
+        ...,
+        [ 4.5146e-07,  8.3214e-07,  7.9512e-08,  ...,  6.5472e-07,
+          1.7136e-07,  3.5367e-07],
+        [ 1.9986e-06,  3.4589e-06,  2.4494e-07,  ...,  2.5015e-06,
+          2.3807e-07,  3.9302e-07],
+        [-8.1778e-05, -1.3292e-04,  3.0827e-07,  ..., -8.6427e-05,
+          3.7020e-07,  8.8848e-07]], device='cuda:0')
+Epoch 126, bias, value: tensor([-0.0254, -0.0283, -0.0211,  0.0003, -0.0023,  0.0031,  0.0035, -0.0147,
+         0.0222, -0.0344], device='cuda:0'), grad: tensor([-9.5810e-08,  4.6864e-06, -3.4943e-06,  8.3372e-06,  1.5438e-05,
+         2.6393e-04,  1.6913e-06, -1.4767e-05,  1.0595e-05, -2.8634e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 125----------------------------------------------------
+epoch 125, time 219.04, cls_loss 0.0013 cls_loss_mapping 0.0047 cls_loss_causal 0.5400 re_mapping 0.0062 re_causal 0.0196 /// teacc 99.12 lr 0.00010000
+Epoch 127, weight, value: tensor([[-0.0195, -0.0090,  0.0937,  ...,  0.0078, -0.0547, -0.0383],
+        [-0.0992, -0.0992, -0.1217,  ...,  0.0399,  0.0501,  0.2469],
+        [-0.0656, -0.0801, -0.0792,  ..., -0.0916,  0.0201, -0.1385],
+        ...,
+        [-0.1263, -0.1297,  0.0222,  ..., -0.1538, -0.0717, -0.2358],
+        [ 0.0795,  0.0339, -0.0716,  ..., -0.1209,  0.0091, -0.1240],
+        [ 0.0411,  0.0541, -0.0831,  ...,  0.0422, -0.1196, -0.0726]],
+       device='cuda:0'), grad: tensor([[ 1.6275e-07, -2.2817e-06, -2.6058e-06,  ..., -1.0245e-06,
+          3.9442e-07,  8.5915e-07],
+        [ 3.0478e-07, -3.9861e-07,  1.4249e-07,  ..., -4.7460e-06,
+         -4.4890e-06, -1.3597e-05],
+        [ 3.6228e-07,  2.0582e-06,  1.5330e-06,  ...,  2.0359e-06,
+          1.7118e-06,  3.8184e-06],
+        ...,
+        [ 4.1677e-07, -8.0885e-07,  2.6636e-07,  ...,  1.3206e-06,
+          5.3551e-07,  1.8775e-06],
+        [-1.0664e-07,  5.4110e-07,  3.9628e-07,  ...,  1.0021e-06,
+          3.6927e-07,  1.6829e-06],
+        [-1.1760e-04,  4.7311e-07, -5.3257e-05,  ..., -1.2982e-04,
+         -2.7701e-05,  2.5667e-06]], device='cuda:0')
+Epoch 127, bias, value: tensor([-2.5533e-02, -2.9178e-02, -2.0428e-02,  5.9478e-06, -2.1568e-03,
+         3.1594e-03,  3.7151e-03, -1.4561e-02,  2.1754e-02, -3.3942e-02],
+       device='cuda:0'), grad: tensor([-1.0887e-06, -1.7494e-05, -6.5775e-08,  1.7956e-05,  5.2404e-04,
+        -4.3097e-07,  3.1460e-06, -1.8641e-05,  8.1211e-06, -5.1594e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 126----------------------------------------------------
+epoch 126, time 219.12, cls_loss 0.0017 cls_loss_mapping 0.0042 cls_loss_causal 0.5461 re_mapping 0.0064 re_causal 0.0190 /// teacc 99.15 lr 0.00010000
+Epoch 128, weight, value: tensor([[-0.0196, -0.0092,  0.0932,  ...,  0.0075, -0.0551, -0.0388],
+        [-0.0996, -0.1000, -0.1218,  ...,  0.0400,  0.0502,  0.2483],
+        [-0.0660, -0.0794, -0.0798,  ..., -0.0920,  0.0205, -0.1384],
+        ...,
+        [-0.1264, -0.1298,  0.0244,  ..., -0.1540, -0.0722, -0.2364],
+        [ 0.0795,  0.0333, -0.0721,  ..., -0.1216,  0.0087, -0.1249],
+        [ 0.0416,  0.0543, -0.0833,  ...,  0.0429, -0.1200, -0.0737]],
+       device='cuda:0'), grad: tensor([[ 4.6827e-06, -1.7518e-06, -5.6401e-06,  ...,  8.1137e-06,
+          5.0152e-07,  7.2760e-08],
+        [ 8.7544e-08,  1.6147e-07,  2.8871e-07,  ..., -2.6170e-06,
+         -5.3905e-06, -5.9940e-06],
+        [ 2.1583e-07,  3.3900e-07,  4.7032e-07,  ...,  2.1718e-06,
+         -6.2846e-06,  3.3174e-06],
+        ...,
+        [ 1.9278e-07,  2.7008e-07,  5.5414e-08,  ...,  8.4890e-07,
+          1.3793e-06,  9.0664e-07],
+        [-3.7835e-08,  3.3760e-07,  5.7705e-06,  ...,  3.8259e-06,
+          4.1462e-06,  5.4156e-07],
+        [-8.1360e-06, -7.9945e-06, -7.3314e-06,  ..., -2.4274e-05,
+          4.4890e-07,  3.0454e-07]], device='cuda:0')
+Epoch 128, bias, value: tensor([-0.0260, -0.0294, -0.0189, -0.0002, -0.0028,  0.0033,  0.0039, -0.0137,
+         0.0206, -0.0340], device='cuda:0'), grad: tensor([ 1.3664e-05, -2.2367e-05, -2.0713e-05,  4.2915e-06,  2.6390e-05,
+         8.5473e-05, -7.6115e-05, -2.3358e-06,  3.7462e-05, -4.5657e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 127, time 218.35, cls_loss 0.0012 cls_loss_mapping 0.0053 cls_loss_causal 0.5596 re_mapping 0.0064 re_causal 0.0195 /// teacc 99.06 lr 0.00010000
+Epoch 129, weight, value: tensor([[-0.0198, -0.0083,  0.0942,  ...,  0.0076, -0.0554, -0.0391],
+        [-0.0995, -0.1000, -0.1223,  ...,  0.0406,  0.0503,  0.2496],
+        [-0.0665, -0.0793, -0.0804,  ..., -0.0923,  0.0206, -0.1386],
+        ...,
+        [-0.1271, -0.1311,  0.0243,  ..., -0.1546, -0.0725, -0.2372],
+        [ 0.0799,  0.0327, -0.0738,  ..., -0.1224,  0.0087, -0.1255],
+        [ 0.0420,  0.0545, -0.0835,  ...,  0.0432, -0.1204, -0.0742]],
+       device='cuda:0'), grad: tensor([[ 1.6287e-05,  1.1273e-05, -5.6950e-07,  ..., -3.3970e-07,
+          1.1951e-05,  1.0477e-08],
+        [ 1.7006e-06,  1.4491e-06,  1.2340e-07,  ...,  9.2899e-08,
+          9.6671e-07, -3.7299e-07],
+        [ 2.4382e-06,  2.0880e-06,  2.6589e-07,  ...,  5.7416e-07,
+          1.3271e-06,  3.6554e-08],
+        ...,
+        [ 1.0431e-05,  1.6198e-05, -1.3933e-06,  ...,  4.5402e-07,
+          6.9700e-06,  7.3109e-08],
+        [-5.6952e-05, -5.3674e-05,  2.5076e-07,  ...,  4.7428e-07,
+         -4.1693e-05,  2.4214e-08],
+        [ 2.9411e-06,  2.8759e-06,  8.5402e-07,  ..., -3.6950e-07,
+          2.7064e-06,  7.3342e-08]], device='cuda:0')
+Epoch 129, bias, value: tensor([-0.0257, -0.0290, -0.0187, -0.0001, -0.0029,  0.0034,  0.0038, -0.0138,
+         0.0197, -0.0341], device='cuda:0'), grad: tensor([ 4.1872e-05,  4.6901e-06,  8.1286e-06,  4.6074e-05,  1.1176e-06,
+         1.6823e-05,  5.0589e-06,  4.0859e-05, -1.7619e-04,  1.1578e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 128, time 217.96, cls_loss 0.0013 cls_loss_mapping 0.0037 cls_loss_causal 0.5197 re_mapping 0.0061 re_causal 0.0188 /// teacc 99.04 lr 0.00010000
+Epoch 130, weight, value: tensor([[-0.0201, -0.0080,  0.0944,  ...,  0.0077, -0.0557, -0.0393],
+        [-0.0999, -0.1004, -0.1228,  ...,  0.0408,  0.0504,  0.2503],
+        [-0.0680, -0.0810, -0.0812,  ..., -0.0932,  0.0205, -0.1390],
+        ...,
+        [-0.1269, -0.1307,  0.0240,  ..., -0.1544, -0.0728, -0.2375],
+        [ 0.0804,  0.0332, -0.0742,  ..., -0.1228,  0.0090, -0.1258],
+        [ 0.0423,  0.0544, -0.0839,  ...,  0.0433, -0.1212, -0.0746]],
+       device='cuda:0'), grad: tensor([[ 1.1437e-06,  2.2314e-06, -9.4716e-07,  ...,  1.0990e-07,
+          1.8463e-07,  3.4925e-09],
+        [ 3.9041e-05,  1.5485e-04,  7.4739e-08,  ...,  5.9634e-05,
+          1.7555e-07, -5.9605e-08],
+        [ 3.9414e-06,  6.2585e-06,  9.2899e-08,  ...,  6.7055e-07,
+          9.5926e-08,  9.3132e-09],
+        ...,
+        [-1.3983e-04, -3.2282e-04,  1.0221e-07,  ..., -8.1658e-05,
+          1.8231e-07,  1.2107e-08],
+        [ 1.4831e-07,  2.8685e-06,  1.1409e-07,  ...,  2.1476e-06,
+         -1.0822e-06,  4.1910e-09],
+        [ 5.7489e-05,  8.7619e-05,  6.5472e-07,  ...,  6.3218e-06,
+          8.3074e-07,  1.6298e-08]], device='cuda:0')
+Epoch 130, bias, value: tensor([-2.5805e-02, -2.9070e-02, -1.9362e-02, -4.7532e-05, -2.6411e-03,
+         3.0547e-03,  4.2037e-03, -1.3054e-02,  1.9995e-02, -3.4561e-02],
+       device='cuda:0'), grad: tensor([ 1.7449e-05,  6.8855e-04,  4.7475e-05,  3.8576e-04,  2.4900e-05,
+        -1.1120e-06,  6.5155e-06, -1.7347e-03,  2.1905e-05,  5.4312e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 129, time 218.40, cls_loss 0.0020 cls_loss_mapping 0.0049 cls_loss_causal 0.5606 re_mapping 0.0060 re_causal 0.0180 /// teacc 99.07 lr 0.00010000
+Epoch 131, weight, value: tensor([[-0.0205, -0.0072,  0.0951,  ...,  0.0080, -0.0560, -0.0395],
+        [-0.1006, -0.1014, -0.1231,  ...,  0.0413,  0.0509,  0.2516],
+        [-0.0695, -0.0835, -0.0822,  ..., -0.0939,  0.0204, -0.1393],
+        ...,
+        [-0.1283, -0.1305,  0.0234,  ..., -0.1555, -0.0735, -0.2383],
+        [ 0.0806,  0.0332, -0.0745,  ..., -0.1234,  0.0092, -0.1262],
+        [ 0.0440,  0.0544, -0.0842,  ...,  0.0439, -0.1217, -0.0752]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-07, -3.1330e-06, -3.4422e-06,  ..., -1.3951e-06,
+          3.7719e-07,  1.0235e-06],
+        [ 1.3574e-07,  2.0908e-07, -1.9465e-07,  ..., -7.5437e-06,
+         -3.2447e-06, -1.3165e-05],
+        [ 1.8673e-07, -8.4518e-08,  1.3653e-06,  ...,  1.0962e-06,
+         -4.4797e-07,  3.9418e-07],
+        ...,
+        [ 3.0827e-07,  3.5553e-07,  8.3866e-07,  ...,  5.3737e-07,
+          7.9814e-07,  4.9826e-07],
+        [ 3.5367e-07,  1.9055e-06,  5.0804e-07,  ...,  2.4829e-06,
+          1.3011e-06,  3.0063e-06],
+        [-5.6718e-07,  5.0338e-07,  1.5795e-06,  ...,  8.2841e-07,
+          9.8720e-07,  6.7148e-07]], device='cuda:0')
+Epoch 131, bias, value: tensor([-0.0256, -0.0288, -0.0204,  0.0011, -0.0027,  0.0025,  0.0045, -0.0138,
+         0.0200, -0.0340], device='cuda:0'), grad: tensor([-5.0291e-06, -2.1189e-05, -1.6302e-05,  2.2119e-07, -1.5926e-06,
+         7.7412e-06,  3.3081e-06,  3.6731e-06,  2.5123e-05,  4.0010e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 130, time 218.27, cls_loss 0.0017 cls_loss_mapping 0.0066 cls_loss_causal 0.5321 re_mapping 0.0063 re_causal 0.0183 /// teacc 99.06 lr 0.00010000
+Epoch 132, weight, value: tensor([[-0.0207, -0.0070,  0.0954,  ...,  0.0080, -0.0563, -0.0397],
+        [-0.1011, -0.1024, -0.1236,  ...,  0.0415,  0.0509,  0.2526],
+        [-0.0700, -0.0842, -0.0828,  ..., -0.0943,  0.0205, -0.1397],
+        ...,
+        [-0.1286, -0.1313,  0.0232,  ..., -0.1558, -0.0739, -0.2388],
+        [ 0.0807,  0.0332, -0.0748,  ..., -0.1242,  0.0094, -0.1268],
+        [ 0.0449,  0.0551, -0.0846,  ...,  0.0444, -0.1231, -0.0759]],
+       device='cuda:0'), grad: tensor([[ 1.6205e-06,  7.5437e-06,  6.7195e-07,  ...,  3.6769e-06,
+          9.4436e-07,  5.5367e-07],
+        [ 7.1200e-07, -1.4398e-06,  1.6810e-07,  ..., -1.1653e-05,
+         -7.9125e-06, -1.1079e-05],
+        [ 8.9640e-07,  1.5572e-06,  3.5297e-07,  ...,  1.6484e-06,
+         -4.9770e-06,  1.5311e-06],
+        ...,
+        [ 2.1290e-06,  2.6114e-06,  2.1653e-07,  ...,  3.8221e-06,
+          1.6689e-06,  1.0878e-06],
+        [ 2.0131e-05,  1.9863e-05,  7.4059e-06,  ...,  1.0170e-05,
+          8.0001e-07,  7.7300e-07],
+        [-7.6517e-06,  2.6155e-04, -4.9621e-06,  ...,  7.0512e-05,
+         -2.4587e-06,  2.6673e-06]], device='cuda:0')
+Epoch 132, bias, value: tensor([-0.0257, -0.0290, -0.0194,  0.0006, -0.0026,  0.0034,  0.0041, -0.0145,
+         0.0200, -0.0341], device='cuda:0'), grad: tensor([ 1.8179e-05, -2.0131e-05, -1.8552e-05,  2.8551e-05,  1.1760e-04,
+        -5.2261e-04, -4.3511e-05,  6.3255e-06,  6.4790e-05,  3.6979e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 131, time 218.39, cls_loss 0.0025 cls_loss_mapping 0.0052 cls_loss_causal 0.5189 re_mapping 0.0058 re_causal 0.0168 /// teacc 98.96 lr 0.00010000
+Epoch 133, weight, value: tensor([[-0.0214, -0.0079,  0.0949,  ...,  0.0077, -0.0568, -0.0398],
+        [-0.1016, -0.1030, -0.1242,  ...,  0.0421,  0.0516,  0.2539],
+        [-0.0705, -0.0854, -0.0835,  ..., -0.0951,  0.0204, -0.1408],
+        ...,
+        [-0.1294, -0.1324,  0.0232,  ..., -0.1568, -0.0749, -0.2392],
+        [ 0.0814,  0.0338, -0.0751,  ..., -0.1245,  0.0098, -0.1274],
+        [ 0.0463,  0.0552, -0.0846,  ...,  0.0454, -0.1245, -0.0767]],
+       device='cuda:0'), grad: tensor([[ 1.4370e-06,  5.7649e-07, -2.6189e-06,  ..., -1.0096e-06,
+          1.9185e-06,  1.3039e-08],
+        [ 2.1067e-06,  2.7381e-06,  3.8883e-07,  ...,  8.5356e-07,
+          1.9930e-06, -7.2224e-07],
+        [ 2.4363e-06,  2.1905e-06,  4.0233e-07,  ...,  1.4566e-06,
+          3.4235e-06,  6.6590e-08],
+        ...,
+        [ 4.5151e-06,  4.8615e-06,  7.1758e-07,  ...,  2.9579e-06,
+          3.2168e-06,  2.7940e-07],
+        [-4.6015e-05, -8.6486e-05, -2.5164e-06,  ...,  1.5302e-06,
+         -8.0884e-05,  6.9849e-08],
+        [-2.5108e-05, -2.8744e-05,  2.0191e-06,  ..., -2.2694e-05,
+         -3.4869e-06,  9.7789e-08]], device='cuda:0')
+Epoch 133, bias, value: tensor([-0.0267, -0.0285, -0.0220,  0.0013, -0.0029,  0.0028,  0.0039, -0.0121,
+         0.0203, -0.0338], device='cuda:0'), grad: tensor([ 1.9418e-07,  1.1094e-05,  1.0878e-05,  4.1313e-06,  4.8608e-05,
+         9.8169e-05,  2.7132e-04,  1.9357e-05, -3.8075e-04, -8.2552e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 132, time 218.21, cls_loss 0.0016 cls_loss_mapping 0.0036 cls_loss_causal 0.5773 re_mapping 0.0063 re_causal 0.0182 /// teacc 98.99 lr 0.00010000
+Epoch 134, weight, value: tensor([[-0.0212, -0.0075,  0.0951,  ...,  0.0078, -0.0573, -0.0401],
+        [-0.1022, -0.1037, -0.1242,  ...,  0.0427,  0.0525,  0.2551],
+        [-0.0709, -0.0855, -0.0843,  ..., -0.0956,  0.0211, -0.1414],
+        ...,
+        [-0.1297, -0.1334,  0.0225,  ..., -0.1580, -0.0761, -0.2397],
+        [ 0.0820,  0.0340, -0.0754,  ..., -0.1249,  0.0100, -0.1279],
+        [ 0.0466,  0.0554, -0.0853,  ...,  0.0457, -0.1251, -0.0772]],
+       device='cuda:0'), grad: tensor([[ 1.0145e-04,  1.2314e-04,  7.2181e-05,  ...,  2.7013e-04,
+          2.1048e-07,  6.1933e-08],
+        [ 2.8359e-07,  3.2224e-07,  5.3598e-07,  ...,  3.0687e-07,
+          4.8429e-08, -1.1306e-06],
+        [ 3.1898e-07,  3.9255e-07,  4.3027e-07,  ...,  8.1258e-07,
+          1.7276e-07,  1.3271e-07],
+        ...,
+        [ 8.1072e-07,  8.2562e-07,  7.0874e-07,  ...,  1.8077e-06,
+          3.5809e-07,  2.1607e-07],
+        [ 6.7800e-07,  9.1875e-07,  4.0494e-06,  ...,  2.2519e-06,
+          4.7777e-07,  1.5507e-07],
+        [-1.0824e-04, -1.3101e-04, -7.1347e-05,  ..., -2.8729e-04,
+          5.3644e-06,  1.6205e-07]], device='cuda:0')
+Epoch 134, bias, value: tensor([-0.0267, -0.0278, -0.0223,  0.0014, -0.0029,  0.0022,  0.0039, -0.0117,
+         0.0202, -0.0341], device='cuda:0'), grad: tensor([ 6.1846e-04,  1.5516e-06,  3.8445e-06,  3.5912e-06,  7.8790e-07,
+         4.1686e-06, -1.1124e-05, -2.3516e-07,  1.7077e-05, -6.3753e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 133, time 218.37, cls_loss 0.0018 cls_loss_mapping 0.0051 cls_loss_causal 0.5867 re_mapping 0.0060 re_causal 0.0187 /// teacc 99.00 lr 0.00010000
+Epoch 135, weight, value: tensor([[-0.0217, -0.0074,  0.0953,  ...,  0.0076, -0.0576, -0.0403],
+        [-0.1031, -0.1042, -0.1251,  ...,  0.0431,  0.0528,  0.2575],
+        [-0.0714, -0.0860, -0.0848,  ..., -0.0960,  0.0208, -0.1426],
+        ...,
+        [-0.1303, -0.1341,  0.0226,  ..., -0.1587, -0.0766, -0.2410],
+        [ 0.0820,  0.0337, -0.0761,  ..., -0.1256,  0.0102, -0.1286],
+        [ 0.0467,  0.0547, -0.0869,  ...,  0.0457, -0.1266, -0.0783]],
+       device='cuda:0'), grad: tensor([[ 9.8161e-07,  5.2294e-07, -4.0419e-06,  ..., -4.5868e-07,
+          8.2795e-07,  2.1048e-07],
+        [ 2.6710e-06,  3.4980e-06, -1.5022e-06,  ..., -3.0864e-06,
+         -2.7753e-07, -7.1079e-06],
+        [ 1.2837e-05,  1.6555e-05,  3.8370e-07,  ...,  8.8811e-06,
+          1.0282e-05, -3.8743e-07],
+        ...,
+        [ 2.8498e-06,  3.7719e-06,  3.6834e-07,  ...,  2.4308e-06,
+          2.2128e-06,  2.9244e-07],
+        [-3.7113e-07, -9.0571e-07,  8.2888e-07,  ...,  2.0787e-06,
+          1.0747e-06,  2.6673e-06],
+        [-1.2629e-06, -8.3400e-07,  3.7812e-07,  ..., -2.5183e-06,
+          6.4680e-07,  2.8918e-07]], device='cuda:0')
+Epoch 135, bias, value: tensor([-0.0271, -0.0268, -0.0222,  0.0011, -0.0009,  0.0029,  0.0034, -0.0124,
+         0.0197, -0.0354], device='cuda:0'), grad: tensor([ 7.0333e-06,  2.1160e-05,  1.0544e-04, -2.2578e-04,  9.6560e-06,
+         2.4900e-05,  9.3654e-06,  4.4376e-05,  1.7127e-06,  2.3451e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 134, time 218.33, cls_loss 0.0018 cls_loss_mapping 0.0043 cls_loss_causal 0.5328 re_mapping 0.0060 re_causal 0.0175 /// teacc 98.84 lr 0.00010000
+Epoch 136, weight, value: tensor([[-0.0224, -0.0079,  0.0951,  ...,  0.0072, -0.0586, -0.0405],
+        [-0.1040, -0.1050, -0.1260,  ...,  0.0430,  0.0522,  0.2569],
+        [-0.0722, -0.0871, -0.0860,  ..., -0.0971,  0.0213, -0.1409],
+        ...,
+        [-0.1306, -0.1348,  0.0218,  ..., -0.1590, -0.0768, -0.2415],
+        [ 0.0822,  0.0335, -0.0761,  ..., -0.1262,  0.0104, -0.1284],
+        [ 0.0471,  0.0545, -0.0881,  ...,  0.0459, -0.1280, -0.0787]],
+       device='cuda:0'), grad: tensor([[ 8.4285e-08, -5.2759e-07, -4.5821e-07,  ..., -3.3574e-07,
+          7.4971e-07,  1.1688e-07],
+        [ 1.1874e-07,  1.0896e-07,  5.3085e-08,  ..., -6.9290e-07,
+         -7.2122e-05, -4.2692e-06],
+        [ 3.5996e-07,  4.4052e-07,  7.8510e-07,  ...,  5.1083e-07,
+          2.5958e-05,  1.2573e-06],
+        ...,
+        [ 5.3318e-07,  3.6648e-07,  1.0571e-07,  ...,  5.3365e-07,
+          3.1531e-05,  9.1875e-07],
+        [-4.1584e-07,  8.2515e-07,  4.0885e-07,  ...,  2.7195e-07,
+          1.0282e-06,  3.3015e-07],
+        [-2.5472e-07,  5.1223e-08,  2.3330e-07,  ..., -1.7695e-07,
+          2.3246e-06,  3.3155e-07]], device='cuda:0')
+Epoch 136, bias, value: tensor([-0.0279, -0.0278, -0.0218,  0.0015,  0.0002,  0.0031,  0.0032, -0.0123,
+         0.0197, -0.0361], device='cuda:0'), grad: tensor([ 1.6689e-06, -5.1975e-04,  1.8525e-04,  7.2658e-05,  8.9034e-06,
+         3.9265e-06, -3.8333e-06,  2.2769e-04,  9.4101e-06,  1.4760e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 135, time 218.33, cls_loss 0.0022 cls_loss_mapping 0.0053 cls_loss_causal 0.5484 re_mapping 0.0060 re_causal 0.0172 /// teacc 99.02 lr 0.00010000
+Epoch 137, weight, value: tensor([[-0.0225, -0.0074,  0.0957,  ...,  0.0073, -0.0595, -0.0408],
+        [-0.1049, -0.1057, -0.1267,  ...,  0.0434,  0.0520,  0.2585],
+        [-0.0729, -0.0874, -0.0871,  ..., -0.0976,  0.0220, -0.1406],
+        ...,
+        [-0.1317, -0.1360,  0.0208,  ..., -0.1601, -0.0764, -0.2420],
+        [ 0.0829,  0.0337, -0.0769,  ..., -0.1268,  0.0102, -0.1290],
+        [ 0.0495,  0.0550, -0.0876,  ...,  0.0473, -0.1287, -0.0795]],
+       device='cuda:0'), grad: tensor([[ 1.6764e-07,  1.0757e-07,  2.0489e-08,  ...,  8.8476e-08,
+          7.4506e-08,  3.2596e-09],
+        [ 1.4398e-06,  1.6904e-07,  2.0955e-08,  ...,  1.0282e-06,
+          9.4995e-08, -1.2433e-07],
+        [ 5.8766e-07,  4.7963e-07,  2.3749e-08,  ...,  7.9628e-08,
+          1.4948e-07,  3.2131e-08],
+        ...,
+        [-3.2745e-06,  2.7195e-07,  2.4214e-08,  ..., -2.7232e-06,
+          2.2911e-07,  1.2107e-08],
+        [-5.2452e-06, -3.3565e-06,  7.0781e-08,  ...,  9.4064e-08,
+         -2.5891e-06,  1.3970e-08],
+        [ 3.0883e-06,  9.4390e-07, -1.5832e-08,  ...,  6.0070e-07,
+          1.0133e-06,  2.0023e-08]], device='cuda:0')
+Epoch 137, bias, value: tensor([-0.0278, -0.0259, -0.0214,  0.0008, -0.0014,  0.0032,  0.0031, -0.0144,
+         0.0196, -0.0345], device='cuda:0'), grad: tensor([ 1.2945e-06,  4.1276e-05, -9.9465e-07,  3.7141e-06,  4.5821e-06,
+         3.1572e-07,  4.9314e-07, -1.1593e-04, -1.0490e-05,  7.5817e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 136, time 218.30, cls_loss 0.0014 cls_loss_mapping 0.0048 cls_loss_causal 0.5448 re_mapping 0.0061 re_causal 0.0186 /// teacc 98.95 lr 0.00010000
+Epoch 138, weight, value: tensor([[-0.0226, -0.0072,  0.0957,  ...,  0.0072, -0.0596, -0.0408],
+        [-0.1048, -0.1063, -0.1271,  ...,  0.0439,  0.0522,  0.2596],
+        [-0.0737, -0.0887, -0.0877,  ..., -0.0981,  0.0218, -0.1409],
+        ...,
+        [-0.1318, -0.1364,  0.0205,  ..., -0.1603, -0.0768, -0.2424],
+        [ 0.0837,  0.0342, -0.0775,  ..., -0.1274,  0.0107, -0.1297],
+        [ 0.0495,  0.0550, -0.0882,  ...,  0.0474, -0.1296, -0.0805]],
+       device='cuda:0'), grad: tensor([[ 3.6508e-07,  3.7579e-07,  4.4657e-07,  ...,  5.0850e-07,
+          3.8277e-07,  2.3283e-09],
+        [ 5.6811e-07,  7.5903e-07,  3.7393e-07,  ...,  5.2014e-07,
+          1.3094e-06, -1.9604e-07],
+        [ 8.7265e-07,  1.1101e-06,  8.3027e-07,  ...,  1.0673e-06,
+         -4.1164e-07,  1.7695e-08],
+        ...,
+        [ 6.6496e-07,  5.4296e-07,  1.5274e-07,  ...,  5.7695e-07,
+          4.7823e-07,  1.2107e-08],
+        [-3.6303e-06, -5.8375e-06,  6.5612e-07,  ..., -1.0580e-06,
+         -9.0674e-06,  3.4925e-08],
+        [-2.4773e-06, -8.1537e-07,  1.2852e-07,  ..., -2.3916e-06,
+          1.3951e-06,  3.1665e-08]], device='cuda:0')
+Epoch 138, bias, value: tensor([-0.0281, -0.0257, -0.0216,  0.0012, -0.0008,  0.0032,  0.0029, -0.0145,
+         0.0201, -0.0350], device='cuda:0'), grad: tensor([ 3.7272e-06,  1.1377e-05,  4.6566e-06,  4.3549e-06,  7.5251e-06,
+         1.4290e-05, -6.4597e-06, -1.9282e-05, -2.0564e-05,  2.8173e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 137, time 218.34, cls_loss 0.0014 cls_loss_mapping 0.0048 cls_loss_causal 0.5380 re_mapping 0.0060 re_causal 0.0179 /// teacc 99.09 lr 0.00010000
+Epoch 139, weight, value: tensor([[-0.0228, -0.0070,  0.0959,  ...,  0.0072, -0.0598, -0.0410],
+        [-0.1056, -0.1070, -0.1274,  ...,  0.0441,  0.0523,  0.2609],
+        [-0.0745, -0.0903, -0.0886,  ..., -0.0994,  0.0216, -0.1414],
+        ...,
+        [-0.1320, -0.1368,  0.0205,  ..., -0.1605, -0.0766, -0.2429],
+        [ 0.0841,  0.0340, -0.0785,  ..., -0.1282,  0.0108, -0.1307],
+        [ 0.0500,  0.0554, -0.0884,  ...,  0.0480, -0.1301, -0.0807]],
+       device='cuda:0'), grad: tensor([[ 4.3306e-08,  4.4070e-06,  4.3921e-06,  ...,  4.7721e-06,
+          4.8801e-07,  3.5390e-08],
+        [ 6.9384e-08,  1.8626e-07,  1.0803e-07,  ..., -3.3854e-07,
+         -2.5891e-07, -1.7351e-06],
+        [ 1.2293e-07,  1.9046e-07,  1.1129e-07,  ...,  2.0396e-07,
+          2.0396e-07,  2.3982e-07],
+        ...,
+        [ 7.1712e-08,  7.0781e-08,  2.6077e-08,  ...,  1.8114e-07,
+          1.3364e-07,  4.8941e-07],
+        [-5.4250e-07,  2.0489e-06,  2.5667e-06,  ...,  2.8238e-06,
+         -4.7125e-07,  1.6065e-07],
+        [-1.8394e-07,  1.1642e-07,  1.9511e-07,  ...,  8.6147e-08,
+          3.8417e-07,  4.8243e-07]], device='cuda:0')
+Epoch 139, bias, value: tensor([-0.0281, -0.0259, -0.0218,  0.0009, -0.0010,  0.0033,  0.0034, -0.0142,
+         0.0197, -0.0349], device='cuda:0'), grad: tensor([ 1.5020e-05, -1.6540e-06,  1.0990e-06,  2.7940e-06,  1.6652e-06,
+         4.2200e-05, -7.0155e-05,  6.1654e-07,  6.7204e-06,  1.6354e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 138, time 218.45, cls_loss 0.0019 cls_loss_mapping 0.0051 cls_loss_causal 0.5193 re_mapping 0.0058 re_causal 0.0174 /// teacc 98.98 lr 0.00010000
+Epoch 140, weight, value: tensor([[-0.0230, -0.0067,  0.0964,  ...,  0.0069, -0.0601, -0.0410],
+        [-0.1061, -0.1079, -0.1286,  ...,  0.0441,  0.0525,  0.2615],
+        [-0.0756, -0.0909, -0.0904,  ..., -0.1004,  0.0208, -0.1421],
+        ...,
+        [-0.1345, -0.1375,  0.0200,  ..., -0.1625, -0.0761, -0.2428],
+        [ 0.0840,  0.0333, -0.0790,  ..., -0.1291,  0.0108, -0.1311],
+        [ 0.0522,  0.0559, -0.0884,  ...,  0.0497, -0.1303, -0.0811]],
+       device='cuda:0'), grad: tensor([[ 5.7369e-07,  1.5646e-07,  1.2204e-05,  ...,  4.5784e-06,
+          8.6147e-08, -1.3970e-08],
+        [ 1.7341e-06,  6.5332e-07,  2.4848e-06,  ...,  1.1269e-06,
+          5.9092e-07, -2.5239e-07],
+        [ 1.5181e-06,  3.1013e-07,  1.1437e-06,  ...,  5.1921e-07,
+          1.6391e-07,  2.4680e-08],
+        ...,
+        [-7.1943e-05,  7.6136e-07,  2.3143e-07,  ...,  1.1567e-06,
+          3.1758e-07,  4.0513e-08],
+        [-7.9628e-07, -1.2172e-06,  1.6153e-05,  ...,  6.0871e-06,
+         -2.0787e-06,  4.6100e-08],
+        [ 6.2943e-05, -9.9093e-07,  1.3104e-06,  ..., -3.7458e-06,
+          1.7239e-06,  6.0070e-08]], device='cuda:0')
+Epoch 140, bias, value: tensor([-0.0282, -0.0261, -0.0222,  0.0019, -0.0012,  0.0032,  0.0026, -0.0153,
+         0.0193, -0.0327], device='cuda:0'), grad: tensor([ 3.8177e-05,  2.1681e-05,  1.3620e-05,  6.5088e-05,  1.1109e-05,
+         4.1991e-05, -1.6677e-04, -7.6437e-04,  6.1333e-05,  6.7854e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 139, time 218.41, cls_loss 0.0016 cls_loss_mapping 0.0047 cls_loss_causal 0.5181 re_mapping 0.0057 re_causal 0.0173 /// teacc 99.03 lr 0.00010000
+Epoch 141, weight, value: tensor([[-0.0234, -0.0065,  0.0974,  ...,  0.0075, -0.0585, -0.0415],
+        [-0.1069, -0.1091, -0.1313,  ...,  0.0433,  0.0509,  0.2616],
+        [-0.0763, -0.0910, -0.0921,  ..., -0.1014,  0.0220, -0.1403],
+        ...,
+        [-0.1350, -0.1382,  0.0196,  ..., -0.1633, -0.0757, -0.2437],
+        [ 0.0851,  0.0341, -0.0798,  ..., -0.1296,  0.0108, -0.1322],
+        [ 0.0524,  0.0557, -0.0893,  ...,  0.0504, -0.1309, -0.0826]],
+       device='cuda:0'), grad: tensor([[ 2.1495e-06,  1.6447e-06,  1.2238e-06,  ...,  1.9260e-06,
+          1.6717e-07,  2.0023e-08],
+        [ 9.4995e-08,  7.4040e-08,  9.1270e-08,  ..., -3.3062e-08,
+         -3.2596e-09, -1.9232e-07],
+        [-6.9290e-06, -4.8913e-06,  1.3113e-06,  ...,  1.3784e-07,
+          7.4413e-07,  2.6543e-08],
+        ...,
+        [ 3.3760e-07,  2.8079e-07,  4.0606e-07,  ...,  3.1292e-07,
+          1.7136e-07,  4.8429e-08],
+        [ 5.8394e-07,  5.0012e-07,  3.7253e-07,  ...,  6.4634e-07,
+         -1.9092e-08,  2.4680e-08],
+        [ 4.8429e-08, -2.3469e-07, -2.9225e-06,  ..., -5.9381e-06,
+          5.9605e-08,  3.8184e-08]], device='cuda:0')
+Epoch 141, bias, value: tensor([-0.0276, -0.0270, -0.0216,  0.0013, -0.0011,  0.0039,  0.0029, -0.0150,
+         0.0197, -0.0333], device='cuda:0'), grad: tensor([ 9.2164e-06,  8.2981e-07, -3.7134e-05,  8.3297e-06, -1.4622e-06,
+        -2.6077e-06,  2.6394e-06,  2.5947e-06,  2.8871e-06,  1.4745e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 140, time 218.22, cls_loss 0.0015 cls_loss_mapping 0.0044 cls_loss_causal 0.5323 re_mapping 0.0057 re_causal 0.0179 /// teacc 99.07 lr 0.00010000
+Epoch 142, weight, value: tensor([[-0.0234, -0.0058,  0.0985,  ...,  0.0080, -0.0585, -0.0421],
+        [-0.1073, -0.1094, -0.1322,  ...,  0.0437,  0.0514,  0.2641],
+        [-0.0767, -0.0914, -0.0930,  ..., -0.1022,  0.0214, -0.1425],
+        ...,
+        [-0.1353, -0.1387,  0.0193,  ..., -0.1639, -0.0760, -0.2451],
+        [ 0.0854,  0.0337, -0.0814,  ..., -0.1306,  0.0109, -0.1347],
+        [ 0.0526,  0.0555, -0.0895,  ...,  0.0505, -0.1313, -0.0837]],
+       device='cuda:0'), grad: tensor([[ 4.7218e-07, -1.0626e-06, -1.1418e-06,  ..., -9.1642e-07,
+          1.2526e-07,  2.0489e-08],
+        [ 5.1875e-07,  1.3690e-07,  6.8452e-08,  ...,  2.7148e-07,
+          2.9150e-07, -1.9651e-07],
+        [ 1.0841e-06,  5.1828e-07,  8.9873e-08,  ...,  8.2236e-07,
+          2.1048e-07,  9.3132e-09],
+        ...,
+        [-4.3167e-07,  5.8953e-07,  1.3597e-07,  ...,  3.8650e-08,
+         -1.3262e-06,  2.2352e-08],
+        [ 2.1141e-07,  1.0571e-07,  6.9849e-08,  ...,  5.6811e-07,
+         -4.6566e-08,  1.6298e-08],
+        [ 4.0885e-07,  6.9849e-09,  2.6776e-07,  ..., -1.1735e-07,
+          1.0030e-06,  3.7253e-08]], device='cuda:0')
+Epoch 142, bias, value: tensor([-0.0269, -0.0266, -0.0221,  0.0033, -0.0014,  0.0033,  0.0022, -0.0150,
+         0.0188, -0.0334], device='cuda:0'), grad: tensor([-1.0021e-06,  7.7263e-06,  3.0417e-06,  5.9567e-06,  1.3243e-06,
+         2.9579e-06,  1.4054e-06, -3.8177e-05,  1.4398e-06,  1.5303e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 141, time 218.45, cls_loss 0.0013 cls_loss_mapping 0.0040 cls_loss_causal 0.5376 re_mapping 0.0061 re_causal 0.0176 /// teacc 99.07 lr 0.00010000
+Epoch 143, weight, value: tensor([[-0.0235, -0.0050,  0.0991,  ...,  0.0083, -0.0588, -0.0424],
+        [-0.1089, -0.1096, -0.1323,  ...,  0.0421,  0.0503,  0.2648],
+        [-0.0772, -0.0918, -0.0940,  ..., -0.1028,  0.0212, -0.1432],
+        ...,
+        [-0.1352, -0.1395,  0.0220,  ..., -0.1624, -0.0735, -0.2445],
+        [ 0.0859,  0.0339, -0.0818,  ..., -0.1310,  0.0111, -0.1349],
+        [ 0.0529,  0.0557, -0.0899,  ...,  0.0506, -0.1317, -0.0842]],
+       device='cuda:0'), grad: tensor([[ 9.2108e-07,  4.6985e-07, -5.1223e-08,  ...,  6.5751e-07,
+          1.6764e-08,  1.9092e-08],
+        [ 4.5728e-07,  2.1746e-07, -4.6566e-09,  ...,  9.5461e-08,
+         -9.6392e-08, -5.8347e-07],
+        [ 2.4633e-07,  1.1502e-07,  3.0734e-08,  ...,  1.6950e-07,
+          5.9139e-08,  6.7521e-08],
+        ...,
+        [ 5.0142e-06,  2.7344e-06,  4.3306e-08,  ...,  3.7290e-06,
+          8.9407e-08,  5.6811e-08],
+        [ 1.9725e-06,  5.4436e-07,  1.7276e-07,  ...,  1.2591e-06,
+         -1.9092e-07,  5.3551e-08],
+        [-5.3406e-05, -1.0528e-05, -4.1313e-06,  ..., -2.6420e-05,
+          9.6392e-08,  1.4063e-07]], device='cuda:0')
+Epoch 143, bias, value: tensor([-0.0266, -0.0277, -0.0223,  0.0028, -0.0022,  0.0033,  0.0023, -0.0136,
+         0.0192, -0.0335], device='cuda:0'), grad: tensor([ 2.4829e-06,  6.7521e-07, -1.4137e-06,  8.6650e-06,  8.1062e-05,
+         6.0908e-06,  5.3132e-07,  1.2778e-05,  4.7162e-06, -1.1569e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 142, time 218.57, cls_loss 0.0018 cls_loss_mapping 0.0046 cls_loss_causal 0.5203 re_mapping 0.0055 re_causal 0.0161 /// teacc 99.05 lr 0.00010000
+Epoch 144, weight, value: tensor([[-0.0242, -0.0061,  0.0990,  ...,  0.0077, -0.0588, -0.0430],
+        [-0.1114, -0.1127, -0.1327,  ...,  0.0426,  0.0498,  0.2662],
+        [-0.0781, -0.0926, -0.0950,  ..., -0.1035,  0.0211, -0.1435],
+        ...,
+        [-0.1353, -0.1402,  0.0220,  ..., -0.1627, -0.0737, -0.2458],
+        [ 0.0878,  0.0361, -0.0821,  ..., -0.1302,  0.0129, -0.1338],
+        [ 0.0530,  0.0562, -0.0903,  ...,  0.0512, -0.1326, -0.0865]],
+       device='cuda:0'), grad: tensor([[ 1.3737e-07, -4.5868e-07, -7.2131e-07,  ..., -5.1130e-07,
+          6.5193e-08,  1.3039e-08],
+        [ 1.2293e-07,  2.4820e-07,  3.3062e-08,  ..., -2.2817e-08,
+         -4.8429e-08, -2.9616e-07],
+        [ 1.0207e-06,  8.4378e-07,  1.1874e-07,  ...,  1.5274e-07,
+          5.8301e-07,  5.1223e-08],
+        ...,
+        [ 1.1995e-06,  2.0508e-06,  2.9802e-08,  ...,  7.9395e-07,
+          7.2690e-07,  7.2643e-08],
+        [-1.6373e-06,  7.0315e-08,  9.4529e-08,  ...,  1.4435e-07,
+         -9.2853e-07,  2.1420e-08],
+        [-2.5332e-06, -1.5385e-06,  2.4214e-07,  ..., -2.0657e-06,
+          9.3598e-08,  2.2817e-08]], device='cuda:0')
+Epoch 144, bias, value: tensor([-0.0275, -0.0280, -0.0223,  0.0022, -0.0020,  0.0031,  0.0026, -0.0132,
+         0.0213, -0.0341], device='cuda:0'), grad: tensor([-5.2247e-07,  9.1596e-07, -8.9929e-06, -1.1083e-06,  2.3935e-06,
+        -1.1642e-06,  2.3544e-06,  7.9423e-06,  4.4554e-06, -6.3106e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 143, time 218.50, cls_loss 0.0014 cls_loss_mapping 0.0044 cls_loss_causal 0.5492 re_mapping 0.0057 re_causal 0.0175 /// teacc 99.13 lr 0.00010000
+Epoch 145, weight, value: tensor([[-0.0243, -0.0052,  0.0995,  ...,  0.0080, -0.0591, -0.0432],
+        [-0.1117, -0.1130, -0.1332,  ...,  0.0436,  0.0498,  0.2671],
+        [-0.0787, -0.0932, -0.0956,  ..., -0.1040,  0.0212, -0.1437],
+        ...,
+        [-0.1357, -0.1413,  0.0220,  ..., -0.1636, -0.0740, -0.2467],
+        [ 0.0879,  0.0358, -0.0833,  ..., -0.1312,  0.0130, -0.1340],
+        [ 0.0534,  0.0563, -0.0907,  ...,  0.0514, -0.1332, -0.0872]],
+       device='cuda:0'), grad: tensor([[ 9.0338e-08, -1.5959e-05, -2.1264e-05,  ..., -2.1502e-05,
+         -4.4033e-06,  1.8580e-07],
+        [ 6.6590e-08,  2.7800e-07,  2.7753e-07,  ..., -2.1746e-07,
+         -1.8013e-04, -1.0282e-04],
+        [ 1.1735e-07,  2.3544e-06,  3.0454e-06,  ...,  3.2000e-06,
+          1.5891e-04,  8.9467e-05],
+        ...,
+        [ 3.3062e-07,  3.7858e-07,  9.8255e-08,  ...,  4.7637e-07,
+          1.5453e-05,  8.8140e-06],
+        [ 4.6473e-07,  1.4566e-06,  1.1846e-06,  ...,  1.6112e-06,
+          5.5507e-07,  2.1514e-07],
+        [-8.4238e-07, -4.0047e-07,  5.7556e-07,  ..., -4.4378e-07,
+          1.1623e-06,  5.2853e-07]], device='cuda:0')
+Epoch 145, bias, value: tensor([-0.0273, -0.0278, -0.0221,  0.0017, -0.0017,  0.0025,  0.0047, -0.0132,
+         0.0208, -0.0346], device='cuda:0'), grad: tensor([-7.0691e-05, -4.3440e-04,  3.9053e-04,  6.6683e-06,  3.7644e-06,
+         3.8482e-06,  5.3227e-05,  3.8534e-05,  6.1467e-06,  1.8748e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 144, time 218.09, cls_loss 0.0013 cls_loss_mapping 0.0028 cls_loss_causal 0.5235 re_mapping 0.0056 re_causal 0.0162 /// teacc 99.12 lr 0.00010000
+Epoch 146, weight, value: tensor([[-0.0242, -0.0039,  0.1004,  ...,  0.0087, -0.0593, -0.0435],
+        [-0.1119, -0.1130, -0.1330,  ...,  0.0443,  0.0503,  0.2687],
+        [-0.0790, -0.0934, -0.0961,  ..., -0.1046,  0.0214, -0.1441],
+        ...,
+        [-0.1354, -0.1415,  0.0218,  ..., -0.1639, -0.0743, -0.2474],
+        [ 0.0881,  0.0358, -0.0839,  ..., -0.1319,  0.0125, -0.1349],
+        [ 0.0533,  0.0562, -0.0911,  ...,  0.0516, -0.1337, -0.0880]],
+       device='cuda:0'), grad: tensor([[ 2.7008e-08, -7.1293e-07, -8.4611e-07,  ..., -6.7102e-07,
+          5.9139e-08,  1.5832e-08],
+        [ 6.7521e-08,  5.8673e-08,  1.2154e-07,  ...,  1.5832e-08,
+          3.3528e-08, -2.3469e-07],
+        [ 1.4668e-07,  1.3504e-07,  2.1094e-07,  ...,  2.5518e-07,
+         -1.6950e-07,  1.7229e-08],
+        ...,
+        [ 1.5814e-06,  1.1167e-06,  4.5169e-08,  ...,  1.8626e-07,
+          8.3819e-08,  4.7497e-08],
+        [-1.7602e-07, -2.6263e-07,  7.5297e-07,  ...,  9.9093e-07,
+         -7.5437e-08,  4.4238e-08],
+        [-2.8219e-07, -4.7497e-08,  1.0524e-07,  ..., -2.8405e-07,
+          9.9652e-08,  3.0268e-08]], device='cuda:0')
+Epoch 146, bias, value: tensor([-0.0267, -0.0276, -0.0218,  0.0012, -0.0014,  0.0026,  0.0038, -0.0128,
+         0.0201, -0.0351], device='cuda:0'), grad: tensor([ 3.5912e-06,  8.2105e-06, -4.0382e-05, -3.0138e-06,  5.0031e-06,
+         3.9965e-05, -3.8713e-05,  8.0764e-06,  5.6997e-06,  1.1563e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 145, time 217.39, cls_loss 0.0013 cls_loss_mapping 0.0047 cls_loss_causal 0.5464 re_mapping 0.0054 re_causal 0.0166 /// teacc 99.04 lr 0.00010000
+Epoch 147, weight, value: tensor([[-0.0254, -0.0038,  0.1010,  ...,  0.0092, -0.0602, -0.0437],
+        [-0.1124, -0.1134, -0.1330,  ...,  0.0446,  0.0500,  0.2700],
+        [-0.0796, -0.0940, -0.0968,  ..., -0.1052,  0.0218, -0.1443],
+        ...,
+        [-0.1357, -0.1422,  0.0216,  ..., -0.1641, -0.0741, -0.2482],
+        [ 0.0881,  0.0355, -0.0850,  ..., -0.1331,  0.0123, -0.1355],
+        [ 0.0536,  0.0561, -0.0913,  ...,  0.0519, -0.1343, -0.0885]],
+       device='cuda:0'), grad: tensor([[ 7.4357e-06, -1.3374e-06, -1.6391e-05,  ..., -1.0274e-05,
+          1.1120e-06,  8.6147e-08],
+        [ 8.7358e-07,  1.3663e-06, -1.6205e-07,  ..., -1.2713e-07,
+         -1.7397e-06, -4.6678e-06],
+        [ 1.8552e-06,  1.8496e-06,  4.2561e-07,  ...,  8.8476e-07,
+          1.4585e-06,  4.5681e-07],
+        ...,
+        [ 4.9733e-07,  4.4610e-07,  1.7695e-07,  ...,  4.7451e-07,
+          3.2410e-07,  1.8021e-07],
+        [-6.5923e-05, -6.4850e-05, -4.0308e-06,  ..., -2.1592e-05,
+         -4.1097e-05,  9.8534e-07],
+        [ 1.9729e-05,  1.9729e-05,  1.7099e-06,  ...,  5.9418e-06,
+          1.3173e-05,  6.8918e-08]], device='cuda:0')
+Epoch 147, bias, value: tensor([-0.0267, -0.0278, -0.0212,  0.0022, -0.0009,  0.0021,  0.0024, -0.0128,
+         0.0197, -0.0352], device='cuda:0'), grad: tensor([-1.3307e-05, -9.5647e-07,  7.2420e-06,  5.7518e-06,  5.6848e-06,
+         7.7128e-05,  3.4600e-05, -4.4964e-06, -1.6057e-04,  4.8727e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 146, time 217.66, cls_loss 0.0012 cls_loss_mapping 0.0026 cls_loss_causal 0.5539 re_mapping 0.0054 re_causal 0.0168 /// teacc 99.09 lr 0.00010000
+Epoch 148, weight, value: tensor([[-0.0259, -0.0036,  0.1014,  ...,  0.0093, -0.0608, -0.0439],
+        [-0.1129, -0.1138, -0.1333,  ...,  0.0446,  0.0505,  0.2709],
+        [-0.0802, -0.0946, -0.0984,  ..., -0.1063,  0.0216, -0.1448],
+        ...,
+        [-0.1359, -0.1434,  0.0214,  ..., -0.1643, -0.0745, -0.2486],
+        [ 0.0885,  0.0356, -0.0856,  ..., -0.1337,  0.0123, -0.1358],
+        [ 0.0539,  0.0562, -0.0916,  ...,  0.0524, -0.1351, -0.0889]],
+       device='cuda:0'), grad: tensor([[ 2.0117e-07, -1.5413e-07, -3.0827e-07,  ...,  7.4971e-08,
+          2.1281e-07,  7.8697e-08],
+        [ 6.3796e-08,  1.2247e-07, -2.1933e-07,  ..., -7.2829e-07,
+         -1.7323e-06, -3.4068e-06],
+        [ 5.1083e-07,  1.1753e-06,  5.8115e-07,  ...,  8.7917e-07,
+         -5.4389e-06,  1.9111e-06],
+        ...,
+        [ 2.3516e-07,  4.0280e-07,  7.5437e-08,  ...,  2.4401e-07,
+          5.3942e-06,  3.7067e-07],
+        [-8.3260e-07, -1.9837e-06,  2.0117e-07,  ...,  3.5856e-07,
+         -1.2061e-07,  2.2538e-07],
+        [-6.4075e-07,  3.2485e-06,  2.9057e-07,  ..., -2.5565e-07,
+          1.8161e-07,  9.7789e-08]], device='cuda:0')
+Epoch 148, bias, value: tensor([-0.0267, -0.0276, -0.0214,  0.0023, -0.0009,  0.0021,  0.0025, -0.0128,
+         0.0196, -0.0352], device='cuda:0'), grad: tensor([ 9.6299e-07, -4.6752e-06, -9.0301e-06,  2.4326e-06,  3.7029e-06,
+        -3.7327e-06, -3.8929e-06,  1.3031e-05, -3.3416e-06,  4.5300e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 147, time 217.17, cls_loss 0.0012 cls_loss_mapping 0.0033 cls_loss_causal 0.5354 re_mapping 0.0055 re_causal 0.0160 /// teacc 98.93 lr 0.00010000
+Epoch 149, weight, value: tensor([[-0.0260, -0.0032,  0.1017,  ...,  0.0096, -0.0612, -0.0442],
+        [-0.1132, -0.1141, -0.1339,  ...,  0.0448,  0.0507,  0.2716],
+        [-0.0801, -0.0931, -0.0999,  ..., -0.1074,  0.0228, -0.1453],
+        ...,
+        [-0.1360, -0.1445,  0.0214,  ..., -0.1645, -0.0751, -0.2491],
+        [ 0.0889,  0.0358, -0.0867,  ..., -0.1342,  0.0126, -0.1358],
+        [ 0.0540,  0.0560, -0.0923,  ...,  0.0525, -0.1362, -0.0893]],
+       device='cuda:0'), grad: tensor([[ 1.3923e-06,  1.7453e-06, -5.0757e-08,  ...,  8.6147e-07,
+          9.6206e-07,  1.4761e-07],
+        [ 2.4252e-06,  2.4047e-06, -2.2212e-07,  ...,  4.7265e-07,
+         -4.3446e-07, -2.9318e-06],
+        [ 9.1195e-06,  9.4622e-06,  1.0896e-07,  ...,  5.0701e-06,
+          3.1888e-06,  5.9698e-07],
+        ...,
+        [ 2.7698e-06,  2.5257e-06,  3.4738e-07,  ...,  2.6375e-06,
+          2.1532e-06,  8.6986e-07],
+        [ 7.2941e-06,  8.3372e-06,  9.7323e-08,  ...,  4.9435e-06,
+          3.1069e-06,  3.9022e-07],
+        [-6.9737e-06, -3.5837e-06, -6.9197e-07,  ..., -7.7710e-06,
+         -1.2089e-06,  1.7835e-07]], device='cuda:0')
+Epoch 149, bias, value: tensor([-0.0267, -0.0276, -0.0208,  0.0014, -0.0004,  0.0021,  0.0032, -0.0129,
+         0.0194, -0.0357], device='cuda:0'), grad: tensor([ 7.9423e-06,  3.5726e-06,  1.2890e-05, -4.8548e-05,  1.4417e-05,
+        -1.8388e-05,  5.3793e-06,  1.5259e-05,  2.4155e-05, -1.6764e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 148, time 217.14, cls_loss 0.0013 cls_loss_mapping 0.0045 cls_loss_causal 0.5349 re_mapping 0.0054 re_causal 0.0160 /// teacc 98.98 lr 0.00010000
+Epoch 150, weight, value: tensor([[-0.0265, -0.0031,  0.1021,  ...,  0.0097, -0.0617, -0.0446],
+        [-0.1136, -0.1146, -0.1342,  ...,  0.0450,  0.0507,  0.2722],
+        [-0.0816, -0.0945, -0.1009,  ..., -0.1085,  0.0228, -0.1456],
+        ...,
+        [-0.1367, -0.1476,  0.0203,  ..., -0.1652, -0.0754, -0.2494],
+        [ 0.0896,  0.0366, -0.0870,  ..., -0.1348,  0.0133, -0.1361],
+        [ 0.0547,  0.0570, -0.0919,  ...,  0.0532, -0.1368, -0.0895]],
+       device='cuda:0'), grad: tensor([[ 1.9837e-07, -2.9849e-07, -1.1502e-06,  ..., -6.5053e-07,
+          1.4901e-07, -6.6124e-08],
+        [ 2.1467e-07,  1.8114e-07,  1.7416e-07,  ..., -1.0552e-06,
+         -9.9372e-07, -3.2224e-06],
+        [ 1.1222e-07,  2.0955e-07,  4.1956e-07,  ...,  5.9325e-07,
+          2.4633e-07,  6.2352e-07],
+        ...,
+        [ 1.6652e-06,  1.2536e-06,  1.2852e-07,  ...,  1.9409e-06,
+          3.6601e-07,  8.3353e-07],
+        [ 9.0804e-08,  1.1595e-07,  4.1071e-07,  ...,  7.0594e-07,
+          5.6345e-08,  3.6648e-07],
+        [-4.3213e-06, -3.2708e-06,  4.2990e-06,  ..., -3.0007e-06,
+          1.7453e-06,  5.8068e-07]], device='cuda:0')
+Epoch 150, bias, value: tensor([-0.0269, -0.0276, -0.0208,  0.0016, -0.0006,  0.0022,  0.0029, -0.0130,
+         0.0198, -0.0355], device='cuda:0'), grad: tensor([-2.1625e-06, -4.5076e-06,  1.6047e-06,  2.4755e-06, -1.1519e-05,
+         6.1803e-06, -2.7567e-06,  6.2846e-06,  2.0657e-06,  2.3097e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 149, time 217.34, cls_loss 0.0012 cls_loss_mapping 0.0045 cls_loss_causal 0.5261 re_mapping 0.0055 re_causal 0.0164 /// teacc 99.03 lr 0.00010000
+Epoch 151, weight, value: tensor([[-0.0265, -0.0014,  0.1033,  ...,  0.0102, -0.0619, -0.0448],
+        [-0.1140, -0.1149, -0.1348,  ...,  0.0453,  0.0508,  0.2730],
+        [-0.0830, -0.0957, -0.1018,  ..., -0.1096,  0.0226, -0.1458],
+        ...,
+        [-0.1369, -0.1484,  0.0205,  ..., -0.1654, -0.0756, -0.2498],
+        [ 0.0896,  0.0364, -0.0880,  ..., -0.1358,  0.0134, -0.1367],
+        [ 0.0549,  0.0572, -0.0924,  ...,  0.0535, -0.1373, -0.0900]],
+       device='cuda:0'), grad: tensor([[ 4.0233e-07,  2.9616e-07,  4.9919e-07,  ...,  2.1094e-07,
+          1.2973e-06,  3.3993e-08],
+        [ 2.5379e-07,  3.8603e-07,  1.1483e-06,  ...,  6.5193e-08,
+          5.9716e-06, -7.3155e-07],
+        [ 8.8848e-07, -2.0582e-07,  4.6054e-07,  ...,  4.1351e-07,
+         -2.9400e-05,  1.2061e-07],
+        ...,
+        [ 5.8254e-07,  2.8079e-07,  4.0699e-07,  ...,  1.6810e-07,
+          8.6194e-07,  9.3598e-08],
+        [ 2.7195e-06,  3.0044e-06,  1.4901e-07,  ...,  2.0918e-06,
+          3.7029e-06,  1.6298e-07],
+        [-5.2936e-06, -3.2522e-06, -1.9139e-07,  ..., -3.6117e-06,
+          6.1607e-07,  5.6345e-08]], device='cuda:0')
+Epoch 151, bias, value: tensor([-0.0260, -0.0277, -0.0206,  0.0018, -0.0006,  0.0012,  0.0040, -0.0130,
+         0.0194, -0.0357], device='cuda:0'), grad: tensor([ 4.9956e-06,  2.7761e-05, -1.4067e-04, -2.5988e-05,  1.0423e-05,
+         2.1815e-05,  8.7202e-05,  3.6266e-06,  1.7911e-05, -7.1861e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 150, time 217.07, cls_loss 0.0011 cls_loss_mapping 0.0033 cls_loss_causal 0.5081 re_mapping 0.0054 re_causal 0.0162 /// teacc 99.06 lr 0.00010000
+Epoch 152, weight, value: tensor([[-0.0267, -0.0012,  0.1039,  ...,  0.0102, -0.0625, -0.0452],
+        [-0.1144, -0.1153, -0.1336,  ...,  0.0461,  0.0514,  0.2749],
+        [-0.0840, -0.0968, -0.1037,  ..., -0.1108,  0.0224, -0.1467],
+        ...,
+        [-0.1371, -0.1490,  0.0203,  ..., -0.1657, -0.0759, -0.2503],
+        [ 0.0902,  0.0367, -0.0901,  ..., -0.1366,  0.0139, -0.1373],
+        [ 0.0553,  0.0577, -0.0927,  ...,  0.0541, -0.1380, -0.0907]],
+       device='cuda:0'), grad: tensor([[ 8.1956e-08, -8.2236e-07, -9.2015e-07,  ..., -6.8406e-07,
+          1.2573e-08,  2.0722e-08],
+        [ 5.0990e-08,  2.0210e-07,  6.7754e-08,  ..., -9.5693e-08,
+         -9.8022e-08, -6.4913e-07],
+        [ 3.9581e-08,  1.3341e-07,  1.2200e-07,  ...,  1.3155e-07,
+          2.6077e-08,  3.2131e-08],
+        ...,
+        [ 1.8883e-07,  2.0349e-07,  5.9605e-08,  ...,  2.2259e-07,
+          3.5157e-08,  9.6625e-08],
+        [ 1.4156e-07,  2.3958e-07,  2.0466e-07,  ...,  3.4040e-07,
+          1.1176e-08,  1.1572e-07],
+        [-5.9698e-07,  1.1548e-07,  5.5041e-07,  ..., -1.7742e-07,
+          1.7718e-07,  9.6392e-08]], device='cuda:0')
+Epoch 152, bias, value: tensor([-0.0258, -0.0273, -0.0208,  0.0016, -0.0010,  0.0013,  0.0043, -0.0130,
+         0.0191, -0.0357], device='cuda:0'), grad: tensor([-1.9036e-06, -3.7299e-07,  4.2934e-07,  3.0617e-07,  6.1467e-07,
+         2.1085e-06, -2.9895e-06,  6.5193e-07,  9.7603e-07,  1.7090e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 151, time 217.49, cls_loss 0.0018 cls_loss_mapping 0.0044 cls_loss_causal 0.5292 re_mapping 0.0053 re_causal 0.0166 /// teacc 99.05 lr 0.00010000
+Epoch 153, weight, value: tensor([[-0.0270, -0.0010,  0.1044,  ...,  0.0105, -0.0631, -0.0454],
+        [-0.1120, -0.1130, -0.1344,  ...,  0.0456,  0.0485,  0.2756],
+        [-0.0850, -0.0976, -0.1047,  ..., -0.1119,  0.0225, -0.1470],
+        ...,
+        [-0.1384, -0.1520,  0.0202,  ..., -0.1652, -0.0730, -0.2510],
+        [ 0.0914,  0.0373, -0.0908,  ..., -0.1372,  0.0142, -0.1386],
+        [ 0.0548,  0.0567, -0.0938,  ...,  0.0535, -0.1397, -0.0917]],
+       device='cuda:0'), grad: tensor([[ 1.5297e-07,  7.0082e-08,  3.1665e-08,  ...,  8.7544e-08,
+          4.3074e-08,  8.8476e-09],
+        [ 2.2049e-07,  2.0606e-07,  2.4447e-08,  ...,  3.1199e-08,
+         -2.3982e-08, -3.4086e-07],
+        [ 1.7392e-07,  1.9092e-07,  6.2631e-08,  ...,  5.8673e-08,
+          1.1036e-07,  1.0128e-07],
+        ...,
+        [ 5.0478e-07,  4.1490e-07,  1.1874e-08,  ...,  3.3062e-07,
+          1.4808e-07,  1.1013e-07],
+        [ 5.7137e-07,  6.0350e-07,  1.3271e-07,  ...,  1.9744e-07,
+          4.0187e-07,  2.9337e-08],
+        [-2.2240e-06, -1.5879e-06,  9.4529e-08,  ..., -1.7090e-06,
+          6.3097e-08,  2.5379e-08]], device='cuda:0')
+Epoch 153, bias, value: tensor([-0.0258, -0.0289, -0.0207,  0.0015, -0.0005,  0.0015,  0.0050, -0.0114,
+         0.0194, -0.0370], device='cuda:0'), grad: tensor([ 1.0505e-06,  5.8562e-05,  3.0324e-06,  2.7604e-06,  3.2689e-06,
+         3.9116e-06, -7.5623e-06, -7.0810e-05,  4.1015e-06,  1.7481e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 152, time 217.53, cls_loss 0.0011 cls_loss_mapping 0.0039 cls_loss_causal 0.5151 re_mapping 0.0053 re_causal 0.0165 /// teacc 99.02 lr 0.00010000
+Epoch 154, weight, value: tensor([[-0.0273, -0.0012,  0.1045,  ...,  0.0102, -0.0635, -0.0458],
+        [-0.1122, -0.1132, -0.1349,  ...,  0.0459,  0.0486,  0.2764],
+        [-0.0855, -0.0981, -0.1055,  ..., -0.1125,  0.0228, -0.1470],
+        ...,
+        [-0.1388, -0.1526,  0.0203,  ..., -0.1655, -0.0731, -0.2515],
+        [ 0.0914,  0.0365, -0.0916,  ..., -0.1384,  0.0141, -0.1394],
+        [ 0.0559,  0.0580, -0.0936,  ...,  0.0544, -0.1401, -0.0923]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-08,  9.3132e-09, -7.0082e-08,  ...,  7.1013e-08,
+          1.6438e-07,  2.6776e-07],
+        [ 2.2724e-07, -1.7537e-06, -1.0505e-06,  ..., -4.9286e-06,
+         -2.9262e-06, -9.8944e-06],
+        [ 7.3807e-08,  1.3178e-07,  1.2200e-07,  ...,  1.7718e-07,
+          3.8813e-07,  4.5123e-07],
+        ...,
+        [ 4.1872e-06,  4.0270e-06,  6.6869e-07,  ...,  5.8301e-06,
+          1.6987e-06,  5.7034e-06],
+        [-2.7614e-07, -4.6566e-09,  3.9022e-07,  ...,  9.7882e-07,
+          7.4273e-08,  1.1101e-06],
+        [-5.2564e-06, -3.0026e-06,  1.5390e-07,  ..., -2.9411e-06,
+          4.2352e-07,  1.0757e-06]], device='cuda:0')
+Epoch 154, bias, value: tensor([-0.0261, -0.0288, -0.0204,  0.0007, -0.0010,  0.0025,  0.0050, -0.0115,
+         0.0187, -0.0365], device='cuda:0'), grad: tensor([ 8.0001e-07, -2.5213e-05, -6.6776e-07,  2.4531e-06,  3.9265e-06,
+        -9.7696e-07, -5.3551e-07,  2.9236e-05,  2.5406e-06, -1.1571e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 153, time 217.26, cls_loss 0.0013 cls_loss_mapping 0.0048 cls_loss_causal 0.5365 re_mapping 0.0054 re_causal 0.0162 /// teacc 98.95 lr 0.00010000
+Epoch 155, weight, value: tensor([[-0.0282, -0.0014,  0.1044,  ...,  0.0098, -0.0639, -0.0461],
+        [-0.1124, -0.1133, -0.1350,  ...,  0.0467,  0.0490,  0.2773],
+        [-0.0866, -0.0991, -0.1068,  ..., -0.1135,  0.0227, -0.1472],
+        ...,
+        [-0.1397, -0.1531,  0.0202,  ..., -0.1661, -0.0735, -0.2520],
+        [ 0.0913,  0.0355, -0.0920,  ..., -0.1408,  0.0140, -0.1402],
+        [ 0.0576,  0.0601, -0.0934,  ...,  0.0557, -0.1407, -0.0927]],
+       device='cuda:0'), grad: tensor([[ 1.3737e-07, -7.9162e-09, -2.3004e-07,  ..., -1.6647e-07,
+          5.3830e-07,  9.0804e-09],
+        [ 3.1620e-05,  7.9628e-08,  1.0803e-07,  ..., -9.4995e-08,
+          5.4911e-06, -6.3609e-07],
+        [ 6.6124e-07,  6.1607e-07,  7.0082e-08,  ...,  9.0804e-08,
+         -3.0249e-06,  4.7358e-07],
+        ...,
+        [-4.3273e-05,  4.0345e-06,  1.8976e-07,  ...,  3.1898e-08,
+         -5.9791e-06,  5.2154e-08],
+        [ 3.6135e-06, -5.9977e-06,  2.9942e-07,  ...,  3.9814e-08,
+          2.4475e-06,  3.8417e-08],
+        [ 5.7518e-06,  1.3439e-06,  3.4235e-06,  ...,  1.5576e-07,
+          2.9225e-06,  1.4203e-08]], device='cuda:0')
+Epoch 155, bias, value: tensor([-0.0265, -0.0286, -0.0206,  0.0026, -0.0012,  0.0007,  0.0050, -0.0119,
+         0.0193, -0.0360], device='cuda:0'), grad: tensor([ 3.1833e-06,  1.7524e-04, -1.4298e-05,  1.3366e-05, -9.0972e-06,
+        -1.6112e-06,  4.0010e-06, -2.2757e-04,  2.3589e-05,  3.2932e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 154, time 217.34, cls_loss 0.0012 cls_loss_mapping 0.0030 cls_loss_causal 0.5169 re_mapping 0.0054 re_causal 0.0158 /// teacc 99.04 lr 0.00010000
+Epoch 156, weight, value: tensor([[-0.0288, -0.0017,  0.1044,  ...,  0.0098, -0.0639, -0.0462],
+        [-0.1129, -0.1135, -0.1355,  ...,  0.0466,  0.0489,  0.2785],
+        [-0.0896, -0.1016, -0.1082,  ..., -0.1144,  0.0214, -0.1476],
+        ...,
+        [-0.1398, -0.1534,  0.0201,  ..., -0.1663, -0.0735, -0.2523],
+        [ 0.0911,  0.0354, -0.0926,  ..., -0.1417,  0.0139, -0.1413],
+        [ 0.0582,  0.0605, -0.0938,  ...,  0.0563, -0.1416, -0.0930]],
+       device='cuda:0'), grad: tensor([[ 2.7427e-07,  1.1828e-07,  1.2228e-06,  ...,  3.0035e-07,
+          1.6904e-07,  4.7730e-08],
+        [ 1.2722e-06,  1.3616e-06,  1.3341e-07,  ...,  8.8476e-07,
+          1.4296e-06, -1.0505e-06],
+        [ 1.1045e-06,  1.2303e-06,  3.4156e-07,  ...,  9.7882e-07,
+          1.6745e-06,  1.1944e-07],
+        ...,
+        [ 2.0973e-06,  1.3346e-06, -3.0119e-06,  ...,  1.7593e-06,
+          9.2108e-07,  2.9523e-07],
+        [ 2.4657e-07,  1.6298e-09,  9.3598e-08,  ...,  5.5972e-07,
+         -9.9884e-08,  8.9174e-08],
+        [-5.1893e-06, -2.6226e-06,  1.4631e-06,  ..., -3.9861e-06,
+          8.4192e-07,  8.1258e-08]], device='cuda:0')
+Epoch 156, bias, value: tensor([-0.0268, -0.0287, -0.0211,  0.0029, -0.0012,  0.0011,  0.0049, -0.0118,
+         0.0190, -0.0360], device='cuda:0'), grad: tensor([ 7.1488e-06,  5.0701e-06,  6.7465e-06, -1.1049e-05,  4.0010e-06,
+         3.7570e-06,  1.0477e-08, -1.1064e-05,  4.1351e-07, -5.0440e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 155, time 217.35, cls_loss 0.0013 cls_loss_mapping 0.0039 cls_loss_causal 0.5047 re_mapping 0.0052 re_causal 0.0154 /// teacc 99.08 lr 0.00010000
+Epoch 157, weight, value: tensor([[-0.0285, -0.0017,  0.1043,  ...,  0.0099, -0.0639, -0.0464],
+        [-0.1137, -0.1140, -0.1360,  ...,  0.0465,  0.0488,  0.2792],
+        [-0.0908, -0.1029, -0.1092,  ..., -0.1164,  0.0208, -0.1478],
+        ...,
+        [-0.1403, -0.1539,  0.0202,  ..., -0.1665, -0.0734, -0.2531],
+        [ 0.0914,  0.0356, -0.0930,  ..., -0.1422,  0.0138, -0.1416],
+        [ 0.0595,  0.0614, -0.0941,  ...,  0.0576, -0.1421, -0.0937]],
+       device='cuda:0'), grad: tensor([[ 1.7136e-07, -7.4971e-08, -1.9092e-07,  ..., -9.2899e-08,
+          2.3074e-07,  2.8173e-08],
+        [ 2.4098e-07,  2.6124e-07,  2.5146e-08,  ..., -2.7614e-07,
+         -8.3353e-08, -9.4809e-07],
+        [ 7.1898e-07,  9.5740e-07,  8.4285e-08,  ...,  4.4121e-07,
+         -2.9318e-06,  6.8685e-08],
+        ...,
+        [ 8.2422e-07,  8.7405e-07,  2.1886e-08,  ...,  5.6997e-07,
+          1.3970e-06,  2.6543e-07],
+        [ 5.2433e-07,  5.6904e-07,  2.8405e-08,  ...,  3.4203e-07,
+          1.2526e-06,  6.1700e-08],
+        [-1.1781e-06, -8.0327e-08,  4.0792e-07,  ..., -1.2107e-06,
+          4.2119e-07,  2.0792e-07]], device='cuda:0')
+Epoch 157, bias, value: tensor([-0.0266, -0.0289, -0.0215,  0.0029, -0.0018,  0.0015,  0.0051, -0.0117,
+         0.0189, -0.0355], device='cuda:0'), grad: tensor([ 1.2191e-06,  2.9262e-06, -1.5512e-05, -3.7290e-06,  2.5760e-06,
+         4.0419e-06,  4.8429e-07, -7.1339e-07,  8.4937e-06,  1.7812e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 156, time 217.17, cls_loss 0.0012 cls_loss_mapping 0.0042 cls_loss_causal 0.5141 re_mapping 0.0052 re_causal 0.0158 /// teacc 99.04 lr 0.00010000
+Epoch 158, weight, value: tensor([[-0.0291, -0.0017,  0.1046,  ...,  0.0098, -0.0642, -0.0466],
+        [-0.1146, -0.1148, -0.1366,  ...,  0.0465,  0.0490,  0.2804],
+        [-0.0919, -0.1044, -0.1099,  ..., -0.1187,  0.0204, -0.1481],
+        ...,
+        [-0.1399, -0.1544,  0.0205,  ..., -0.1664, -0.0736, -0.2545],
+        [ 0.0915,  0.0355, -0.0935,  ..., -0.1430,  0.0142, -0.1418],
+        [ 0.0602,  0.0620, -0.0939,  ...,  0.0583, -0.1426, -0.0947]],
+       device='cuda:0'), grad: tensor([[ 3.9348e-08,  1.1874e-08,  4.6566e-09,  ...,  5.8208e-08,
+          3.9558e-07,  1.6997e-08],
+        [ 4.4936e-08,  4.4703e-08,  2.7707e-08,  ..., -1.7323e-07,
+          6.9151e-08, -4.8708e-07],
+        [ 5.8906e-08,  6.7521e-08,  2.3283e-08,  ...,  6.4028e-08,
+         -2.9076e-06,  6.2631e-08],
+        ...,
+        [ 1.3947e-07,  1.2782e-07,  7.6834e-09,  ...,  1.5600e-07,
+          2.0172e-06,  1.1805e-07],
+        [ 2.6589e-07,  2.3935e-07,  2.9802e-08,  ...,  2.4005e-07,
+          3.2969e-07,  5.3318e-08],
+        [-4.6287e-07, -4.0443e-07,  7.8464e-08,  ..., -3.9767e-07,
+          1.3225e-07,  7.9395e-08]], device='cuda:0')
+Epoch 158, bias, value: tensor([-0.0269, -0.0289, -0.0218,  0.0031, -0.0029,  0.0021,  0.0048, -0.0115,
+         0.0187, -0.0357], device='cuda:0'), grad: tensor([ 4.8243e-06,  1.0535e-05, -3.1888e-05,  1.1697e-06,  1.8086e-06,
+         5.0105e-06, -1.2969e-07, -3.6717e-07,  3.8445e-06,  5.1446e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 157, time 217.19, cls_loss 0.0011 cls_loss_mapping 0.0048 cls_loss_causal 0.5373 re_mapping 0.0051 re_causal 0.0161 /// teacc 99.04 lr 0.00010000
+Epoch 159, weight, value: tensor([[-0.0294, -0.0016,  0.1047,  ...,  0.0098, -0.0644, -0.0469],
+        [-0.1149, -0.1151, -0.1371,  ...,  0.0466,  0.0476,  0.2821],
+        [-0.0922, -0.1048, -0.1105,  ..., -0.1194,  0.0227, -0.1487],
+        ...,
+        [-0.1404, -0.1548,  0.0211,  ..., -0.1665, -0.0737, -0.2555],
+        [ 0.0914,  0.0351, -0.0938,  ..., -0.1435,  0.0146, -0.1422],
+        [ 0.0607,  0.0623, -0.0949,  ...,  0.0585, -0.1435, -0.0953]],
+       device='cuda:0'), grad: tensor([[ 9.8487e-08, -3.0734e-07, -1.1344e-06,  ..., -6.5146e-07,
+          1.8906e-07,  1.8231e-07],
+        [ 9.3132e-08,  1.8906e-07,  1.0431e-07,  ..., -1.1530e-06,
+         -8.3912e-07, -2.2519e-06],
+        [ 1.8370e-07,  2.7474e-07,  2.7218e-07,  ...,  2.2934e-07,
+          9.3132e-09,  3.0431e-07],
+        ...,
+        [ 1.3178e-07,  2.3120e-07, -1.1073e-06,  ...,  3.7136e-07,
+          3.5740e-07,  4.8522e-07],
+        [-7.3295e-07,  1.3807e-07,  3.9651e-07,  ...,  2.3539e-07,
+         -6.4075e-07,  2.5658e-07],
+        [-1.1036e-07,  3.9139e-07,  6.2026e-07,  ...,  3.7160e-07,
+          2.6310e-07,  3.6554e-07]], device='cuda:0')
+Epoch 159, bias, value: tensor([-0.0271, -0.0298, -0.0199,  0.0030, -0.0028,  0.0024,  0.0046, -0.0114,
+         0.0186, -0.0360], device='cuda:0'), grad: tensor([-1.2172e-06, -3.4459e-06,  2.3991e-06,  7.1106e-07,  8.3074e-06,
+        -3.8296e-06,  2.6301e-06, -6.6385e-06, -1.6466e-06,  2.7437e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 158, time 216.96, cls_loss 0.0017 cls_loss_mapping 0.0038 cls_loss_causal 0.5520 re_mapping 0.0050 re_causal 0.0157 /// teacc 98.96 lr 0.00010000
+Epoch 160, weight, value: tensor([[-0.0298, -0.0015,  0.1052,  ...,  0.0098, -0.0648, -0.0471],
+        [-0.1159, -0.1163, -0.1374,  ...,  0.0472,  0.0481,  0.2842],
+        [-0.0925, -0.1052, -0.1119,  ..., -0.1202,  0.0228, -0.1491],
+        ...,
+        [-0.1408, -0.1559,  0.0202,  ..., -0.1680, -0.0743, -0.2575],
+        [ 0.0913,  0.0348, -0.0942,  ..., -0.1440,  0.0148, -0.1425],
+        [ 0.0621,  0.0639, -0.0963,  ...,  0.0609, -0.1444, -0.0959]],
+       device='cuda:0'), grad: tensor([[ 2.2119e-08, -3.1441e-06, -8.1956e-06,  ..., -8.8215e-06,
+          1.4133e-07,  1.1618e-07],
+        [ 3.9814e-08,  1.8650e-07,  2.3260e-07,  ..., -2.3432e-06,
+         -2.6971e-06, -6.4597e-06],
+        [ 1.8138e-07,  3.0454e-07,  2.2282e-07,  ...,  3.3970e-07,
+          4.6100e-08,  1.9511e-07],
+        ...,
+        [ 9.0105e-08,  4.5728e-07,  2.8452e-07,  ...,  3.0361e-07,
+          2.2864e-07,  7.4971e-08],
+        [ 9.6159e-08,  1.3448e-06,  1.1805e-07,  ...,  2.2948e-06,
+          2.5574e-06,  5.5358e-06],
+        [ 2.1122e-06,  6.4969e-05,  3.9637e-05,  ...,  3.2514e-05,
+          2.2739e-05,  6.8918e-08]], device='cuda:0')
+Epoch 160, bias, value: tensor([-0.0272, -0.0300, -0.0197,  0.0026, -0.0022,  0.0024,  0.0049, -0.0112,
+         0.0184, -0.0359], device='cuda:0'), grad: tensor([-1.8343e-05, -7.2978e-06,  1.3714e-07,  5.6863e-05, -2.0421e-04,
+        -5.7459e-05,  1.7047e-05,  1.5432e-06,  9.6634e-06,  2.0170e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 159, time 217.10, cls_loss 0.0011 cls_loss_mapping 0.0032 cls_loss_causal 0.5430 re_mapping 0.0053 re_causal 0.0164 /// teacc 99.03 lr 0.00010000
+Epoch 161, weight, value: tensor([[-0.0300, -0.0013,  0.1056,  ...,  0.0098, -0.0650, -0.0476],
+        [-0.1162, -0.1165, -0.1393,  ...,  0.0469,  0.0480,  0.2835],
+        [-0.0927, -0.1054, -0.1136,  ..., -0.1209,  0.0227, -0.1494],
+        ...,
+        [-0.1410, -0.1562,  0.0202,  ..., -0.1683, -0.0744, -0.2578],
+        [ 0.0918,  0.0351, -0.0937,  ..., -0.1436,  0.0152, -0.1433],
+        [ 0.0625,  0.0638, -0.0974,  ...,  0.0610, -0.1457, -0.0966]],
+       device='cuda:0'), grad: tensor([[ 2.7707e-08, -5.9372e-08, -2.8033e-07,  ..., -2.1700e-07,
+          3.5623e-08,  2.5611e-09],
+        [ 4.8429e-08,  4.9360e-08,  7.9628e-08,  ..., -6.0303e-08,
+         -1.6298e-07, -3.6997e-07],
+        [ 5.4017e-08,  6.7288e-08,  1.4529e-07,  ...,  6.7288e-08,
+          6.1933e-08,  2.8173e-08],
+        ...,
+        [ 2.5518e-07,  2.2654e-07, -1.5460e-07,  ...,  2.5658e-07,
+          2.8173e-07,  1.0035e-07],
+        [ 1.0058e-07,  3.0268e-08, -1.3970e-09,  ...,  1.6904e-07,
+          1.7462e-08,  4.2841e-08],
+        [-1.0314e-07,  8.0792e-08,  1.4426e-06,  ..., -3.0966e-08,
+          9.2620e-07,  1.3248e-07]], device='cuda:0')
+Epoch 161, bias, value: tensor([-0.0272, -0.0303, -0.0196,  0.0016, -0.0016,  0.0032,  0.0052, -0.0112,
+         0.0188, -0.0363], device='cuda:0'), grad: tensor([-4.1141e-07, -1.5693e-07,  1.4026e-06,  8.6240e-07, -4.3102e-06,
+         3.7812e-07,  1.9819e-06, -3.0678e-06,  3.9674e-07,  2.9318e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 160, time 217.33, cls_loss 0.0014 cls_loss_mapping 0.0049 cls_loss_causal 0.5002 re_mapping 0.0052 re_causal 0.0157 /// teacc 99.03 lr 0.00010000
+Epoch 162, weight, value: tensor([[-0.0299, -0.0009,  0.1065,  ...,  0.0100, -0.0649, -0.0477],
+        [-0.1164, -0.1166, -0.1400,  ...,  0.0471,  0.0481,  0.2843],
+        [-0.0929, -0.1058, -0.1150,  ..., -0.1222,  0.0226, -0.1498],
+        ...,
+        [-0.1411, -0.1566,  0.0197,  ..., -0.1685, -0.0747, -0.2585],
+        [ 0.0920,  0.0370, -0.0947,  ..., -0.1445,  0.0153, -0.1445],
+        [ 0.0644,  0.0651, -0.0967,  ...,  0.0630, -0.1473, -0.0973]],
+       device='cuda:0'), grad: tensor([[ 1.6065e-08,  3.7951e-08,  1.1176e-08,  ...,  2.7474e-08,
+          3.3528e-08,  1.1874e-08],
+        [ 4.7497e-08,  5.5181e-08,  1.2107e-08,  ..., -3.8184e-08,
+         -6.3563e-08, -2.2189e-07],
+        [ 2.1909e-07,  2.0931e-07,  4.8894e-08,  ...,  2.8498e-07,
+          2.7637e-07,  5.7742e-08],
+        ...,
+        [ 8.0792e-08,  1.2410e-07,  2.4913e-08,  ...,  1.2014e-07,
+          1.7253e-07,  7.2177e-08],
+        [ 3.8417e-08,  6.4494e-08,  6.7521e-09,  ...,  5.9372e-08,
+          6.2399e-08,  2.2585e-08],
+        [-4.4936e-08,  3.6089e-08,  3.5623e-08,  ..., -2.3283e-08,
+          9.2899e-08,  1.8394e-08]], device='cuda:0')
+Epoch 162, bias, value: tensor([-0.0267, -0.0303, -0.0199,  0.0026, -0.0025,  0.0012,  0.0051, -0.0110,
+         0.0202, -0.0353], device='cuda:0'), grad: tensor([ 1.7183e-07,  4.7730e-08,  6.9896e-07, -7.4506e-08, -1.9488e-07,
+        -1.4426e-06,  2.8871e-08,  7.8231e-08,  3.6927e-07,  3.1572e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 161, time 217.32, cls_loss 0.0011 cls_loss_mapping 0.0033 cls_loss_causal 0.5166 re_mapping 0.0054 re_causal 0.0160 /// teacc 99.07 lr 0.00010000
+Epoch 163, weight, value: tensor([[-0.0307, -0.0010,  0.1066,  ...,  0.0100, -0.0652, -0.0480],
+        [-0.1166, -0.1169, -0.1402,  ...,  0.0471,  0.0480,  0.2852],
+        [-0.0933, -0.1073, -0.1162,  ..., -0.1232,  0.0229, -0.1501],
+        ...,
+        [-0.1412, -0.1569,  0.0195,  ..., -0.1688, -0.0747, -0.2597],
+        [ 0.0930,  0.0377, -0.0946,  ..., -0.1445,  0.0160, -0.1446],
+        [ 0.0646,  0.0652, -0.0970,  ...,  0.0635, -0.1479, -0.0979]],
+       device='cuda:0'), grad: tensor([[ 1.3504e-08, -5.6345e-08, -5.6345e-08,  ...,  6.0629e-07,
+          4.5658e-07,  8.7917e-07],
+        [ 8.3586e-08,  8.4518e-08,  1.5367e-08,  ..., -3.0175e-06,
+         -2.4177e-06, -5.0738e-06],
+        [ 2.8405e-08,  4.8894e-08,  4.0280e-08,  ...,  3.2340e-07,
+          2.1746e-07,  6.1188e-07],
+        ...,
+        [ 2.5076e-07,  2.4145e-07,  9.0804e-09,  ...,  4.2887e-07,
+          2.8638e-07,  4.6613e-07],
+        [-1.3504e-08, -8.6147e-09,  2.7008e-08,  ...,  1.5190e-06,
+          9.9558e-07,  2.0992e-06],
+        [-8.0001e-07, -6.5472e-07,  5.5647e-08,  ..., -5.8068e-07,
+         -3.2363e-08,  1.6810e-07]], device='cuda:0')
+Epoch 163, bias, value: tensor([-0.0271, -0.0304, -0.0195,  0.0007, -0.0024,  0.0025,  0.0045, -0.0108,
+         0.0209, -0.0355], device='cuda:0'), grad: tensor([ 1.6708e-06, -8.3968e-06, -5.6531e-07,  5.2340e-07,  3.1926e-06,
+        -9.3132e-10, -9.0990e-07,  2.0824e-06,  4.0606e-06, -1.6652e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 162, time 217.22, cls_loss 0.0012 cls_loss_mapping 0.0031 cls_loss_causal 0.5361 re_mapping 0.0050 re_causal 0.0155 /// teacc 99.06 lr 0.00010000
+Epoch 164, weight, value: tensor([[-0.0301, -0.0006,  0.1068,  ...,  0.0101, -0.0657, -0.0483],
+        [-0.1167, -0.1170, -0.1405,  ...,  0.0473,  0.0482,  0.2866],
+        [-0.0936, -0.1078, -0.1175,  ..., -0.1241,  0.0228, -0.1504],
+        ...,
+        [-0.1414, -0.1573,  0.0199,  ..., -0.1690, -0.0748, -0.2611],
+        [ 0.0936,  0.0380, -0.0952,  ..., -0.1452,  0.0161, -0.1453],
+        [ 0.0647,  0.0657, -0.0983,  ...,  0.0635, -0.1496, -0.0987]],
+       device='cuda:0'), grad: tensor([[ 7.0035e-07,  6.8778e-07,  1.7434e-06,  ...,  1.6168e-06,
+          2.2119e-08,  1.8626e-09],
+        [ 3.2596e-09,  5.1223e-09,  8.2655e-08,  ..., -4.2375e-08,
+          1.7183e-07, -1.4575e-07],
+        [ 1.8626e-09,  9.7789e-09,  9.4762e-08,  ...,  4.5169e-08,
+         -2.3586e-07,  6.7521e-09],
+        ...,
+        [ 1.9558e-08,  1.4203e-08,  3.8184e-08,  ...,  3.5157e-08,
+         -1.5716e-07,  4.3772e-08],
+        [ 1.4203e-08,  1.1176e-08,  3.9581e-08,  ...,  5.5181e-08,
+          9.6159e-08,  2.3283e-08],
+        [-3.1199e-08, -7.9162e-09,  1.2526e-07,  ..., -1.0710e-08,
+          1.3364e-07,  2.5146e-08]], device='cuda:0')
+Epoch 164, bias, value: tensor([-0.0271, -0.0304, -0.0191,  0.0007, -0.0013,  0.0025,  0.0048, -0.0110,
+         0.0210, -0.0365], device='cuda:0'), grad: tensor([ 2.9486e-06,  1.5292e-06, -1.4622e-06,  1.3337e-06, -1.8477e-06,
+         2.9821e-06, -4.4741e-06, -2.7642e-06,  9.1083e-07,  8.4564e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 163, time 217.32, cls_loss 0.0011 cls_loss_mapping 0.0038 cls_loss_causal 0.5410 re_mapping 0.0053 re_causal 0.0162 /// teacc 99.00 lr 0.00010000
+Epoch 165, weight, value: tensor([[-0.0301, -0.0007,  0.1069,  ...,  0.0102, -0.0660, -0.0488],
+        [-0.1169, -0.1171, -0.1411,  ...,  0.0476,  0.0487,  0.2890],
+        [-0.0939, -0.1084, -0.1180,  ..., -0.1247,  0.0224, -0.1526],
+        ...,
+        [-0.1416, -0.1577,  0.0200,  ..., -0.1693, -0.0750, -0.2624],
+        [ 0.0932,  0.0376, -0.0959,  ..., -0.1463,  0.0160, -0.1461],
+        [ 0.0649,  0.0660, -0.0990,  ...,  0.0636, -0.1505, -0.0996]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09, -4.4773e-07, -5.3551e-07,  ..., -4.5169e-07,
+         -7.4273e-08,  4.0047e-08],
+        [ 2.1188e-08,  5.3085e-08,  2.2515e-07,  ..., -1.0338e-06,
+         -1.2405e-06, -9.0059e-07],
+        [ 5.8208e-08,  1.1898e-07,  5.6718e-07,  ...,  3.2620e-07,
+          4.6240e-07,  1.1572e-07],
+        ...,
+        [ 3.9116e-08,  8.7079e-08, -1.5043e-05,  ...,  3.3132e-07,
+          4.1095e-07,  2.0838e-07],
+        [ 2.0256e-08,  6.9849e-07,  5.9046e-07,  ...,  3.9884e-07,
+          1.5809e-07,  1.6089e-07],
+        [-2.6915e-07, -1.5227e-07,  1.1399e-06,  ..., -9.3831e-08,
+          1.1665e-07,  9.2434e-08]], device='cuda:0')
+Epoch 165, bias, value: tensor([-0.0274, -0.0301, -0.0195,  0.0008, -0.0006,  0.0023,  0.0054, -0.0110,
+         0.0205, -0.0371], device='cuda:0'), grad: tensor([-5.6159e-07, -3.5353e-06,  3.9823e-06,  2.4252e-06,  4.2170e-05,
+         3.4422e-05,  7.7579e-07, -9.0957e-05,  4.5672e-06,  6.6683e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 164, time 217.29, cls_loss 0.0011 cls_loss_mapping 0.0032 cls_loss_causal 0.5108 re_mapping 0.0050 re_causal 0.0152 /// teacc 99.06 lr 0.00010000
+Epoch 166, weight, value: tensor([[-0.0306, -0.0008,  0.1069,  ...,  0.0101, -0.0667, -0.0492],
+        [-0.1175, -0.1177, -0.1417,  ...,  0.0479,  0.0490,  0.2906],
+        [-0.0940, -0.1087, -0.1186,  ..., -0.1262,  0.0221, -0.1531],
+        ...,
+        [-0.1419, -0.1573,  0.0209,  ..., -0.1693, -0.0752, -0.2635],
+        [ 0.0929,  0.0377, -0.0968,  ..., -0.1476,  0.0159, -0.1480],
+        [ 0.0660,  0.0667, -0.0994,  ...,  0.0643, -0.1509, -0.1005]],
+       device='cuda:0'), grad: tensor([[ 9.5461e-07,  8.1072e-07, -2.1188e-08,  ...,  9.5228e-07,
+          2.0396e-07,  2.3749e-08],
+        [ 9.4809e-07,  7.3202e-07,  5.7928e-07,  ...,  1.8626e-08,
+          6.8452e-07, -3.1781e-07],
+        [ 4.2701e-07,  4.1747e-07,  9.8255e-08,  ...,  3.6694e-07,
+         -6.1188e-07,  1.9860e-07],
+        ...,
+        [ 2.7586e-06,  2.2985e-06,  1.2596e-07,  ...,  1.4259e-06,
+          4.9826e-07,  4.2305e-07],
+        [-1.3746e-06,  1.1711e-07,  4.7497e-08,  ...,  3.6578e-07,
+          3.2037e-07, -1.2154e-06],
+        [-3.7681e-06, -1.1511e-06,  3.8650e-07,  ..., -7.0222e-06,
+          1.0831e-06,  6.3283e-07]], device='cuda:0')
+Epoch 166, bias, value: tensor([-0.0278, -0.0301, -0.0195,  0.0007, -0.0010,  0.0025,  0.0049, -0.0106,
+         0.0201, -0.0371], device='cuda:0'), grad: tensor([ 4.9546e-06,  7.3835e-06, -2.9076e-06, -5.2936e-06,  5.2638e-06,
+        -2.1644e-06,  1.2154e-06,  6.1840e-06, -3.6433e-06, -1.1057e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 165, time 217.21, cls_loss 0.0010 cls_loss_mapping 0.0029 cls_loss_causal 0.5349 re_mapping 0.0051 re_causal 0.0159 /// teacc 99.02 lr 0.00010000
+Epoch 167, weight, value: tensor([[-0.0300,  0.0004,  0.1073,  ...,  0.0105, -0.0670, -0.0491],
+        [-0.1179, -0.1180, -0.1420,  ...,  0.0483,  0.0495,  0.2916],
+        [-0.0943, -0.1092, -0.1193,  ..., -0.1280,  0.0216, -0.1536],
+        ...,
+        [-0.1426, -0.1580,  0.0210,  ..., -0.1698, -0.0753, -0.2646],
+        [ 0.0930,  0.0375, -0.0972,  ..., -0.1482,  0.0163, -0.1481],
+        [ 0.0664,  0.0667, -0.0996,  ...,  0.0648, -0.1512, -0.1011]],
+       device='cuda:0'), grad: tensor([[ 4.4261e-07,  9.7789e-08,  4.6566e-08,  ...,  2.6845e-07,
+          8.5449e-08,  6.0536e-08],
+        [ 5.7556e-07,  6.6683e-07,  1.3644e-07,  ..., -1.3388e-07,
+          3.2187e-06,  1.4855e-06],
+        [ 6.6357e-08,  1.1339e-07,  2.1840e-07,  ...,  2.8382e-07,
+          8.0140e-07,  6.0489e-07],
+        ...,
+        [ 4.2468e-06,  8.7591e-07,  6.6496e-07,  ...,  2.6915e-06,
+          1.6717e-07,  1.6927e-07],
+        [ 8.4192e-07, -4.4750e-07,  1.6927e-07,  ...,  6.5984e-07,
+         -4.4145e-06, -2.7250e-06],
+        [-1.2621e-05, -2.3153e-06, -1.7956e-06,  ..., -7.7933e-06,
+          1.8766e-07,  5.8673e-08]], device='cuda:0')
+Epoch 167, bias, value: tensor([-0.0272, -0.0298, -0.0196,  0.0009, -0.0012,  0.0027,  0.0048, -0.0112,
+         0.0200, -0.0370], device='cuda:0'), grad: tensor([ 1.3020e-06,  1.8030e-05,  3.4738e-06,  8.5542e-07,  9.9540e-06,
+         3.7067e-06,  7.6275e-07,  1.0282e-05, -2.0534e-05, -2.7820e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 166, time 217.44, cls_loss 0.0010 cls_loss_mapping 0.0035 cls_loss_causal 0.4965 re_mapping 0.0050 re_causal 0.0151 /// teacc 99.01 lr 0.00010000
+Epoch 168, weight, value: tensor([[-3.0801e-02,  1.3499e-04,  1.0699e-01,  ...,  1.0014e-02,
+         -6.7260e-02, -4.9806e-02],
+        [-1.1822e-01, -1.1830e-01, -1.4235e-01,  ...,  4.8629e-02,
+          4.9542e-02,  2.9262e-01],
+        [-9.4628e-02, -1.0964e-01, -1.1994e-01,  ..., -1.2914e-01,
+          2.1490e-02, -1.5402e-01],
+        ...,
+        [-1.4281e-01, -1.5838e-01,  2.0631e-02,  ..., -1.7008e-01,
+         -7.5419e-02, -2.6556e-01],
+        [ 9.3824e-02,  3.8050e-02, -9.7013e-02,  ..., -1.4806e-01,
+          1.7467e-02, -1.4819e-01],
+        [ 6.6645e-02,  6.6955e-02, -1.0032e-01,  ...,  6.5119e-02,
+         -1.5165e-01, -1.0206e-01]], device='cuda:0'), grad: tensor([[ 1.1129e-07,  1.3411e-07,  1.0850e-07,  ...,  8.5682e-08,
+          3.8650e-07,  5.8673e-08],
+        [ 1.3318e-07, -2.4214e-08,  7.7300e-08,  ..., -3.3062e-07,
+          6.8918e-08, -1.2731e-06],
+        [ 4.6100e-08, -5.6811e-08,  3.4459e-08,  ...,  1.3551e-07,
+         -1.7993e-06,  1.9697e-07],
+        ...,
+        [ 2.9290e-07,  3.9907e-07,  1.5507e-07,  ...,  3.2177e-07,
+          2.6915e-07,  3.8417e-07],
+        [ 8.7731e-07,  1.1846e-06,  6.9384e-08,  ...,  6.3190e-07,
+          6.8452e-07,  2.0768e-07],
+        [ 2.6058e-06,  3.0827e-06,  1.7248e-06,  ...,  1.5618e-06,
+          1.1800e-06,  2.2165e-07]], device='cuda:0')
+Epoch 168, bias, value: tensor([-0.0281, -0.0298, -0.0195,  0.0008, -0.0007,  0.0028,  0.0041, -0.0112,
+         0.0210, -0.0372], device='cuda:0'), grad: tensor([ 2.4736e-06,  9.4529e-08, -9.4771e-06, -7.5363e-06, -1.1697e-05,
+         3.7979e-06,  4.6566e-06,  1.3383e-06,  5.4277e-06,  1.0893e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 167, time 217.52, cls_loss 0.0011 cls_loss_mapping 0.0031 cls_loss_causal 0.5187 re_mapping 0.0054 re_causal 0.0154 /// teacc 99.04 lr 0.00010000
+Epoch 169, weight, value: tensor([[-3.1158e-02,  1.6366e-04,  1.0749e-01,  ...,  1.0017e-02,
+         -6.7811e-02, -5.0016e-02],
+        [-1.1861e-01, -1.1818e-01, -1.4260e-01,  ...,  4.9119e-02,
+          5.0074e-02,  2.9500e-01],
+        [-9.4975e-02, -1.1021e-01, -1.2065e-01,  ..., -1.3008e-01,
+          2.1012e-02, -1.5457e-01],
+        ...,
+        [-1.4308e-01, -1.5753e-01,  2.1615e-02,  ..., -1.6993e-01,
+         -7.5690e-02, -2.6698e-01],
+        [ 9.3649e-02,  3.7825e-02, -9.7406e-02,  ..., -1.4897e-01,
+          1.7187e-02, -1.4933e-01],
+        [ 6.7027e-02,  6.6550e-02, -1.0126e-01,  ...,  6.5002e-02,
+         -1.5232e-01, -1.0406e-01]], device='cuda:0'), grad: tensor([[ 6.9849e-09,  5.3551e-08,  3.2410e-07,  ...,  2.5611e-07,
+          1.2061e-07,  1.3364e-07],
+        [ 2.2352e-08, -2.8145e-06, -3.6992e-06,  ..., -2.0429e-05,
+         -1.1951e-05, -1.5825e-05],
+        [ 1.8161e-08,  4.0047e-08,  1.8673e-07,  ...,  2.9104e-07,
+          1.3784e-07,  1.9092e-07],
+        ...,
+        [ 5.1549e-07,  2.5034e-06,  3.2410e-06,  ...,  1.7345e-05,
+          9.6932e-06,  1.2688e-05],
+        [ 1.0710e-08,  3.5530e-07,  3.5241e-06,  ...,  1.8366e-06,
+          9.8255e-07,  8.8941e-08],
+        [-5.7369e-07,  2.5891e-07,  3.6927e-07,  ...,  1.0841e-06,
+          1.0282e-06,  1.3728e-06]], device='cuda:0')
+Epoch 169, bias, value: tensor([-0.0280, -0.0295, -0.0200,  0.0010, -0.0006,  0.0026,  0.0041, -0.0108,
+         0.0207, -0.0379], device='cuda:0'), grad: tensor([ 1.8971e-06, -1.0198e-04,  2.1867e-06,  2.3358e-06,  7.0371e-06,
+        -3.0501e-07, -1.2055e-05,  8.3029e-05,  1.0625e-05,  7.1451e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 168, time 217.22, cls_loss 0.0013 cls_loss_mapping 0.0031 cls_loss_causal 0.4690 re_mapping 0.0052 re_causal 0.0143 /// teacc 99.09 lr 0.00010000
+Epoch 170, weight, value: tensor([[-0.0320,  0.0005,  0.1082,  ...,  0.0102, -0.0681, -0.0501],
+        [-0.1189, -0.1178, -0.1429,  ...,  0.0503,  0.0503,  0.2987],
+        [-0.0955, -0.1089, -0.1212,  ..., -0.1305,  0.0213, -0.1543],
+        ...,
+        [-0.1433, -0.1579,  0.0216,  ..., -0.1703, -0.0758, -0.2708],
+        [ 0.0924,  0.0364, -0.0986,  ..., -0.1533,  0.0164, -0.1519],
+        [ 0.0681,  0.0682, -0.1013,  ...,  0.0659, -0.1555, -0.1055]],
+       device='cuda:0'), grad: tensor([[ 1.3178e-07,  3.5763e-07, -7.4785e-07,  ..., -8.4285e-08,
+          1.5134e-07,  9.0804e-08],
+        [ 1.5413e-07,  3.9861e-07,  3.3993e-08,  ..., -2.8722e-06,
+         -2.4810e-06, -4.3400e-06],
+        [ 4.4797e-07,  7.3621e-07,  1.1548e-07,  ...,  1.6838e-06,
+          1.3309e-06,  1.6121e-06],
+        ...,
+        [ 7.4599e-07,  1.2815e-06,  5.9605e-08,  ...,  2.0228e-06,
+          1.4976e-06,  1.5441e-06],
+        [-1.7555e-07,  1.4203e-07,  1.4435e-08,  ...,  4.1677e-07,
+          2.1886e-08,  4.7544e-07],
+        [ 4.1304e-07,  3.5278e-06,  1.1921e-07,  ...,  8.7637e-07,
+          7.3528e-07,  3.8370e-07]], device='cuda:0')
+Epoch 170, bias, value: tensor([-2.8087e-02, -2.9013e-02, -1.8642e-02, -5.7026e-05,  7.7173e-04,
+         2.6446e-03,  3.7380e-03, -1.0654e-02,  1.8685e-02, -3.9012e-02],
+       device='cuda:0'), grad: tensor([ 2.2389e-06, -1.5542e-05, -5.0701e-06, -1.3635e-05,  1.3653e-06,
+        -8.0233e-07,  1.5805e-06,  1.6272e-05,  2.9355e-06,  1.0528e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 169, time 216.94, cls_loss 0.0011 cls_loss_mapping 0.0035 cls_loss_causal 0.5261 re_mapping 0.0052 re_causal 0.0157 /// teacc 99.01 lr 0.00010000
+Epoch 171, weight, value: tensor([[-0.0329,  0.0013,  0.1086,  ...,  0.0104, -0.0688, -0.0502],
+        [-0.1193, -0.1184, -0.1434,  ...,  0.0505,  0.0494,  0.2994],
+        [-0.0958, -0.1093, -0.1233,  ..., -0.1318,  0.0226, -0.1548],
+        ...,
+        [-0.1439, -0.1585,  0.0215,  ..., -0.1707, -0.0759, -0.2714],
+        [ 0.0923,  0.0360, -0.0993,  ..., -0.1542,  0.0160, -0.1522],
+        [ 0.0684,  0.0681, -0.1018,  ...,  0.0662, -0.1561, -0.1060]],
+       device='cuda:0'), grad: tensor([[ 1.8720e-07,  5.8906e-07,  1.4547e-06,  ...,  9.2667e-08,
+          5.1223e-09,  1.0245e-08],
+        [ 6.9477e-07,  8.9733e-07,  1.3271e-07,  ...,  4.0000e-07,
+         -1.6205e-07, -5.6345e-07],
+        [ 5.8673e-08,  1.2247e-07,  6.1467e-08,  ...,  4.6566e-08,
+          3.6787e-08,  1.0151e-07],
+        ...,
+        [ 1.1940e-06,  1.0822e-06, -2.3693e-06,  ...,  9.9558e-07,
+          7.2643e-08,  2.0396e-07],
+        [ 2.5891e-07,  9.8813e-07,  1.1176e-08,  ...,  9.9186e-08,
+          1.9092e-08,  5.4482e-08],
+        [-3.4962e-06, -3.8464e-07,  5.4808e-07,  ..., -3.4217e-06,
+          2.6543e-08,  6.9849e-09]], device='cuda:0')
+Epoch 171, bias, value: tensor([-0.0279, -0.0301, -0.0175,  0.0005,  0.0009,  0.0023,  0.0042, -0.0103,
+         0.0183, -0.0393], device='cuda:0'), grad: tensor([ 1.3478e-05,  2.9337e-06, -7.5579e-05,  1.1384e-04,  1.4268e-06,
+        -4.9859e-05,  1.2694e-06, -8.3148e-06,  2.3842e-06, -1.6559e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 170, time 217.32, cls_loss 0.0010 cls_loss_mapping 0.0026 cls_loss_causal 0.5364 re_mapping 0.0049 re_causal 0.0150 /// teacc 99.05 lr 0.00010000
+Epoch 172, weight, value: tensor([[-0.0333,  0.0009,  0.1081,  ...,  0.0098, -0.0691, -0.0503],
+        [-0.1200, -0.1187, -0.1438,  ...,  0.0506,  0.0493,  0.3003],
+        [-0.0963, -0.1096, -0.1238,  ..., -0.1326,  0.0227, -0.1551],
+        ...,
+        [-0.1449, -0.1592,  0.0212,  ..., -0.1712, -0.0761, -0.2719],
+        [ 0.0931,  0.0362, -0.0995,  ..., -0.1545,  0.0167, -0.1523],
+        [ 0.0690,  0.0674, -0.1024,  ...,  0.0667, -0.1567, -0.1063]],
+       device='cuda:0'), grad: tensor([[ 2.9244e-07,  4.6287e-07,  2.7241e-07,  ...,  2.3004e-07,
+          1.5646e-07,  1.4435e-08],
+        [ 3.4226e-07,  7.6788e-07,  2.5751e-07,  ...,  8.1956e-08,
+          2.1420e-08, -4.4703e-07],
+        [ 6.5193e-08,  8.1118e-07,  8.1817e-07,  ...,  2.6030e-07,
+          5.6066e-07,  9.7323e-08],
+        ...,
+        [ 2.8703e-06,  4.7572e-06,  5.4482e-07,  ...,  1.0077e-06,
+          7.7346e-07,  1.3458e-07],
+        [ 6.8918e-07,  1.1753e-06,  3.1758e-07,  ...,  3.9442e-07,
+          6.0070e-08,  9.1270e-08],
+        [-1.2539e-05, -1.2800e-05, -1.2759e-07,  ..., -2.4736e-06,
+          1.4808e-07,  2.8405e-08]], device='cuda:0')
+Epoch 172, bias, value: tensor([-0.0287, -0.0302, -0.0173,  0.0003,  0.0013,  0.0027,  0.0045, -0.0105,
+         0.0186, -0.0395], device='cuda:0'), grad: tensor([ 3.6620e-06,  2.8685e-06,  9.7156e-06, -2.7597e-05,  1.9759e-05,
+         2.4781e-05, -9.6709e-06,  7.7039e-06,  4.8093e-06, -3.6061e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 171----------------------------------------------------
+epoch 171, time 218.11, cls_loss 0.0011 cls_loss_mapping 0.0032 cls_loss_causal 0.4955 re_mapping 0.0050 re_causal 0.0152 /// teacc 99.21 lr 0.00010000
+Epoch 173, weight, value: tensor([[-3.3891e-02, -1.8215e-05,  1.0613e-01,  ...,  8.0183e-03,
+         -6.9624e-02, -5.0109e-02],
+        [-1.2083e-01, -1.1909e-01, -1.4411e-01,  ...,  5.0624e-02,
+          4.9432e-02,  3.0119e-01],
+        [-9.6735e-02, -1.1008e-01, -1.2465e-01,  ..., -1.3337e-01,
+          2.2600e-02, -1.5586e-01],
+        ...,
+        [-1.4582e-01, -1.5980e-01,  2.0835e-02,  ..., -1.7159e-01,
+         -7.6243e-02, -2.7247e-01],
+        [ 9.3707e-02,  3.6453e-02, -9.9995e-02,  ..., -1.5472e-01,
+          1.7073e-02, -1.5259e-01],
+        [ 7.0433e-02,  6.7883e-02, -1.0297e-01,  ...,  6.7227e-02,
+         -1.5724e-01, -1.0673e-01]], device='cuda:0'), grad: tensor([[ 4.6566e-09, -2.1961e-06, -2.6934e-06,  ..., -1.5646e-06,
+          6.6590e-08, -2.3935e-07],
+        [ 2.1420e-08,  2.3562e-07,  1.3737e-07,  ..., -9.9838e-07,
+         -2.0936e-06, -2.2277e-06],
+        [ 6.2864e-08,  6.4168e-07,  7.5391e-07,  ...,  4.9779e-07,
+          1.0245e-07,  2.4261e-07],
+        ...,
+        [ 2.1420e-08,  1.8720e-07,  3.4086e-07,  ...,  3.4925e-07,
+          5.3458e-07,  5.0385e-07],
+        [ 4.6100e-08,  3.9488e-07,  2.2491e-07,  ...,  5.7416e-07,
+          9.4855e-07,  1.0077e-06],
+        [-5.1688e-08,  6.1793e-07,  9.4436e-07,  ...,  3.2969e-07,
+          3.5996e-07,  1.9697e-07]], device='cuda:0')
+Epoch 173, bias, value: tensor([-0.0306, -0.0303, -0.0178,  0.0001,  0.0011,  0.0026,  0.0065, -0.0105,
+         0.0187, -0.0391], device='cuda:0'), grad: tensor([-7.8380e-06, -7.4506e-09, -4.5836e-05,  5.0366e-06,  8.1072e-07,
+         7.4552e-07,  1.6559e-06,  2.5421e-05,  6.3106e-06,  1.3754e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 172, time 217.17, cls_loss 0.0009 cls_loss_mapping 0.0024 cls_loss_causal 0.5017 re_mapping 0.0048 re_causal 0.0145 /// teacc 99.05 lr 0.00010000
+Epoch 174, weight, value: tensor([[-0.0339,  0.0012,  0.1071,  ...,  0.0087, -0.0697, -0.0485],
+        [-0.1211, -0.1194, -0.1446,  ...,  0.0507,  0.0496,  0.3020],
+        [-0.0972, -0.1107, -0.1266,  ..., -0.1342,  0.0224, -0.1563],
+        ...,
+        [-0.1463, -0.1605,  0.0213,  ..., -0.1718, -0.0765, -0.2732],
+        [ 0.0941,  0.0367, -0.1005,  ..., -0.1550,  0.0174, -0.1529],
+        [ 0.0709,  0.0678, -0.1033,  ...,  0.0677, -0.1576, -0.1075]],
+       device='cuda:0'), grad: tensor([[ 1.5767e-06,  1.1846e-06,  3.0315e-07,  ...,  1.9744e-06,
+          3.6554e-07,  2.8871e-08],
+        [ 4.3819e-07,  2.2259e-07,  5.3085e-08,  ..., -5.0105e-06,
+         -2.0266e-06, -1.1146e-05],
+        [ 2.6636e-07,  2.5565e-07,  3.8184e-08,  ...,  2.8592e-07,
+          1.0617e-07,  8.1956e-08],
+        ...,
+        [ 8.4611e-07,  7.2876e-07,  9.5926e-08,  ...,  5.9493e-06,
+          2.0899e-06,  1.0334e-05],
+        [-5.6904e-07,  8.3353e-07,  1.1642e-08,  ...,  3.3481e-07,
+         -9.6485e-07,  2.2817e-08],
+        [-2.3805e-06,  8.5905e-06, -7.8976e-07,  ..., -8.3670e-06,
+         -5.1316e-07,  3.5577e-07]], device='cuda:0')
+Epoch 174, bias, value: tensor([-0.0296, -0.0303, -0.0179,  0.0003,  0.0005,  0.0027,  0.0063, -0.0104,
+         0.0189, -0.0391], device='cuda:0'), grad: tensor([ 6.2026e-06, -2.5198e-05,  9.2993e-07, -2.5272e-05,  1.1109e-05,
+         5.4538e-06,  1.6708e-06,  2.7284e-05, -3.3667e-07, -1.8552e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 173, time 217.58, cls_loss 0.0009 cls_loss_mapping 0.0036 cls_loss_causal 0.5210 re_mapping 0.0048 re_causal 0.0146 /// teacc 99.12 lr 0.00010000
+Epoch 175, weight, value: tensor([[-0.0341,  0.0013,  0.1072,  ...,  0.0086, -0.0701, -0.0486],
+        [-0.1214, -0.1195, -0.1448,  ...,  0.0509,  0.0499,  0.3041],
+        [-0.0979, -0.1112, -0.1274,  ..., -0.1354,  0.0222, -0.1571],
+        ...,
+        [-0.1468, -0.1611,  0.0210,  ..., -0.1723, -0.0769, -0.2755],
+        [ 0.0942,  0.0367, -0.1009,  ..., -0.1554,  0.0177, -0.1532],
+        [ 0.0712,  0.0680, -0.1045,  ...,  0.0681, -0.1592, -0.1083]],
+       device='cuda:0'), grad: tensor([[ 1.0757e-07, -4.6566e-10,  9.7789e-09,  ...,  1.3504e-07,
+          1.4389e-07,  1.6950e-07],
+        [ 8.3074e-07,  4.5216e-07,  4.6100e-08,  ..., -2.8871e-08,
+         -1.3150e-06, -2.9244e-06],
+        [ 4.2561e-07,  2.1048e-07,  9.8255e-08,  ...,  3.1712e-07,
+          7.9069e-07,  1.0906e-06],
+        ...,
+        [ 7.7719e-07,  4.7963e-07,  1.0477e-07,  ...,  6.5519e-07,
+          3.7998e-07,  5.3598e-07],
+        [ 1.3150e-06,  7.8464e-07,  1.0524e-07,  ...,  1.1176e-06,
+          1.5367e-08,  2.4447e-07],
+        [-1.6138e-05, -8.6129e-06,  7.5437e-08,  ..., -1.0200e-05,
+         -4.3632e-07,  7.2643e-08]], device='cuda:0')
+Epoch 175, bias, value: tensor([-0.0297, -0.0302, -0.0181,  0.0003,  0.0011,  0.0028,  0.0064, -0.0104,
+         0.0188, -0.0396], device='cuda:0'), grad: tensor([ 8.7311e-07, -1.5255e-06,  3.7514e-06,  1.0803e-07,  4.1991e-05,
+         1.8813e-07, -1.2256e-06,  1.7900e-06,  3.8780e-06, -4.9889e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 174, time 217.32, cls_loss 0.0010 cls_loss_mapping 0.0033 cls_loss_causal 0.5173 re_mapping 0.0045 re_causal 0.0142 /// teacc 99.15 lr 0.00010000
+Epoch 176, weight, value: tensor([[-0.0345,  0.0015,  0.1072,  ...,  0.0084, -0.0709, -0.0494],
+        [-0.1226, -0.1203, -0.1453,  ...,  0.0512,  0.0503,  0.3060],
+        [-0.0984, -0.1115, -0.1282,  ..., -0.1361,  0.0221, -0.1576],
+        ...,
+        [-0.1474, -0.1617,  0.0209,  ..., -0.1726, -0.0778, -0.2772],
+        [ 0.0946,  0.0369, -0.1012,  ..., -0.1553,  0.0189, -0.1527],
+        [ 0.0723,  0.0688, -0.1045,  ...,  0.0689, -0.1595, -0.1091]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-09, -9.7789e-09,  1.4948e-07,  ...,  1.5413e-07,
+          2.8405e-08,  8.3819e-09],
+        [ 3.2131e-08,  3.2596e-08,  4.7497e-08,  ..., -8.5542e-07,
+         -8.5402e-07, -1.7257e-06],
+        [ 5.6811e-08,  4.9360e-08,  4.7032e-08,  ...,  5.1223e-08,
+          4.4703e-08,  1.9092e-08],
+        ...,
+        [ 5.3085e-08,  4.2841e-08,  3.2596e-08,  ...,  1.0477e-07,
+          1.2992e-07,  2.0303e-07],
+        [ 2.4587e-07,  2.2957e-07,  4.3306e-07,  ...,  4.1118e-07,
+          1.7835e-07,  1.2107e-08],
+        [ 0.0000e+00,  2.8871e-08,  3.3528e-08,  ...,  3.8184e-08,
+          9.5926e-08,  1.1548e-07]], device='cuda:0')
+Epoch 176, bias, value: tensor([-0.0300, -0.0299, -0.0182,  0.0003,  0.0006,  0.0028,  0.0066, -0.0107,
+         0.0190, -0.0393], device='cuda:0'), grad: tensor([ 5.5041e-07, -2.6673e-06,  2.9569e-07, -8.9314e-07,  2.6729e-06,
+         1.2130e-05, -1.4447e-05,  5.1642e-07,  1.5236e-06,  3.0454e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 175, time 217.27, cls_loss 0.0009 cls_loss_mapping 0.0025 cls_loss_causal 0.5231 re_mapping 0.0048 re_causal 0.0144 /// teacc 99.08 lr 0.00010000
+Epoch 177, weight, value: tensor([[-0.0333,  0.0030,  0.1086,  ...,  0.0091, -0.0713, -0.0501],
+        [-0.1229, -0.1205, -0.1456,  ...,  0.0516,  0.0506,  0.3074],
+        [-0.0989, -0.1120, -0.1302,  ..., -0.1373,  0.0220, -0.1580],
+        ...,
+        [-0.1480, -0.1627,  0.0207,  ..., -0.1730, -0.0780, -0.2781],
+        [ 0.0949,  0.0369, -0.1023,  ..., -0.1561,  0.0190, -0.1531],
+        [ 0.0726,  0.0684, -0.1052,  ...,  0.0692, -0.1597, -0.1100]],
+       device='cuda:0'), grad: tensor([[ 9.3598e-08,  1.3364e-07,  3.7253e-09,  ...,  3.8184e-08,
+          2.3749e-08,  1.0245e-08],
+        [ 1.6112e-07,  2.8079e-07,  5.3551e-08,  ..., -1.0617e-07,
+         -4.7963e-08, -4.5169e-07],
+        [ 1.8440e-07,  1.5507e-07,  5.7276e-08,  ...,  7.0315e-08,
+         -1.5460e-07,  3.5390e-08],
+        ...,
+        [ 3.7014e-05,  2.4289e-05,  1.2713e-07,  ...,  1.3784e-07,
+          2.3050e-07,  1.8394e-07],
+        [ 1.0068e-06,  1.4007e-06,  2.9383e-07,  ...,  5.7975e-07,
+          3.2131e-08,  3.2596e-08],
+        [ 4.5914e-07,  1.0841e-06,  4.4890e-07,  ...,  2.9942e-07,
+          4.0233e-07,  8.1956e-08]], device='cuda:0')
+Epoch 177, bias, value: tensor([-0.0293, -0.0298, -0.0184,  0.0006,  0.0003,  0.0025,  0.0070, -0.0108,
+         0.0190, -0.0393], device='cuda:0'), grad: tensor([ 9.9182e-05,  3.3565e-06, -1.5664e-04, -1.1086e-04, -1.1269e-06,
+        -2.4512e-05,  2.1979e-07,  1.6773e-04,  1.7762e-05,  5.0701e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 176, time 217.27, cls_loss 0.0010 cls_loss_mapping 0.0030 cls_loss_causal 0.5254 re_mapping 0.0049 re_causal 0.0150 /// teacc 99.12 lr 0.00010000
+Epoch 178, weight, value: tensor([[-0.0339,  0.0027,  0.1084,  ...,  0.0086, -0.0715, -0.0508],
+        [-0.1229, -0.1207, -0.1466,  ...,  0.0523,  0.0502,  0.3090],
+        [-0.0992, -0.1122, -0.1310,  ..., -0.1368,  0.0228, -0.1582],
+        ...,
+        [-0.1489, -0.1635,  0.0205,  ..., -0.1735, -0.0783, -0.2789],
+        [ 0.0949,  0.0369, -0.1029,  ..., -0.1570,  0.0189, -0.1543],
+        [ 0.0734,  0.0690, -0.1052,  ...,  0.0698, -0.1599, -0.1111]],
+       device='cuda:0'), grad: tensor([[ 3.9116e-08, -3.6228e-07, -1.3057e-06,  ..., -6.4960e-07,
+          4.3772e-08, -8.3353e-08],
+        [ 2.2771e-07,  1.8347e-07,  6.6124e-08,  ..., -6.0536e-09,
+         -3.5530e-07, -8.7917e-07],
+        [ 1.9604e-07,  3.3714e-07,  6.2352e-07,  ...,  5.7789e-07,
+          1.9046e-07,  1.3411e-07],
+        ...,
+        [ 2.3330e-07,  1.7416e-07,  3.3062e-07,  ...,  4.0419e-07,
+          7.7253e-07,  4.3213e-07],
+        [ 9.4064e-08,  1.0664e-07,  7.7765e-08,  ...,  2.1281e-07,
+          1.6112e-07,  1.8533e-07],
+        [ 1.0710e-07,  1.4715e-07,  7.1526e-07,  ...,  3.1386e-07,
+          4.3213e-07,  5.5879e-08]], device='cuda:0')
+Epoch 178, bias, value: tensor([-0.0300, -0.0299, -0.0176,  0.0003,  0.0003,  0.0028,  0.0070, -0.0109,
+         0.0186, -0.0392], device='cuda:0'), grad: tensor([-2.7195e-06, -9.5554e-07,  2.4401e-06, -4.2468e-06, -1.8794e-06,
+         1.4417e-06,  4.4797e-07, -6.1281e-07,  1.0338e-06,  5.0291e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 177, time 217.28, cls_loss 0.0018 cls_loss_mapping 0.0057 cls_loss_causal 0.5192 re_mapping 0.0047 re_causal 0.0140 /// teacc 99.11 lr 0.00010000
+Epoch 179, weight, value: tensor([[-0.0334,  0.0005,  0.1078,  ...,  0.0081, -0.0688, -0.0514],
+        [-0.1234, -0.1211, -0.1495,  ...,  0.0547,  0.0473,  0.3089],
+        [-0.0996, -0.1127, -0.1348,  ..., -0.1396,  0.0257, -0.1561],
+        ...,
+        [-0.1493, -0.1640,  0.0205,  ..., -0.1765, -0.0789, -0.2794],
+        [ 0.0951,  0.0368, -0.1043,  ..., -0.1579,  0.0185, -0.1560],
+        [ 0.0735,  0.0715, -0.1030,  ...,  0.0726, -0.1604, -0.1118]],
+       device='cuda:0'), grad: tensor([[ 1.2806e-07, -9.0431e-07, -1.0841e-06,  ..., -1.4761e-06,
+          3.2317e-07,  1.3039e-08],
+        [ 1.7304e-06,  2.3358e-06,  6.6217e-07,  ...,  2.0042e-06,
+          3.9265e-06, -4.4424e-07],
+        [ 1.2591e-06,  1.7919e-06,  3.5251e-07,  ...,  1.6596e-06,
+          2.6058e-06,  1.3411e-07],
+        ...,
+        [ 4.0745e-07,  5.4203e-07,  8.5123e-07,  ...,  5.0571e-07,
+          1.4920e-06,  1.3132e-07],
+        [ 1.4435e-08,  1.0524e-07,  1.7369e-07,  ...,  2.7660e-07,
+          4.0606e-07,  1.7229e-08],
+        [ 2.3283e-08,  4.3539e-07,  3.1963e-06,  ...,  4.5635e-07,
+          2.1718e-06,  2.2352e-08]], device='cuda:0')
+Epoch 179, bias, value: tensor([-0.0308, -0.0302, -0.0148,  0.0002,  0.0004,  0.0030,  0.0058, -0.0126,
+         0.0180, -0.0367], device='cuda:0'), grad: tensor([-1.3039e-08,  3.1114e-05,  4.9055e-05, -1.8150e-05, -1.0736e-05,
+         8.0094e-06,  2.0415e-06, -7.4565e-05,  2.0284e-06,  1.1012e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 178, time 217.43, cls_loss 0.0008 cls_loss_mapping 0.0023 cls_loss_causal 0.5248 re_mapping 0.0049 re_causal 0.0153 /// teacc 99.06 lr 0.00010000
+Epoch 180, weight, value: tensor([[-0.0337,  0.0007,  0.1078,  ...,  0.0082, -0.0689, -0.0515],
+        [-0.1236, -0.1214, -0.1494,  ...,  0.0548,  0.0474,  0.3096],
+        [-0.1000, -0.1133, -0.1367,  ..., -0.1415,  0.0257, -0.1563],
+        ...,
+        [-0.1496, -0.1645,  0.0211,  ..., -0.1767, -0.0790, -0.2798],
+        [ 0.0955,  0.0369, -0.1045,  ..., -0.1583,  0.0186, -0.1565],
+        [ 0.0742,  0.0715, -0.1030,  ...,  0.0726, -0.1607, -0.1124]],
+       device='cuda:0'), grad: tensor([[ 1.0710e-08, -3.0342e-06, -2.0228e-06,  ..., -5.1074e-06,
+          6.9849e-09,  2.3283e-09],
+        [ 2.9802e-08,  7.7300e-08,  6.4261e-08,  ...,  5.6345e-08,
+         -3.2596e-08, -1.6019e-07],
+        [ 1.1921e-07,  3.5902e-07,  1.7975e-07,  ...,  3.7625e-07,
+          5.6345e-08,  4.2375e-08],
+        ...,
+        [ 7.4506e-08,  6.4261e-08,  1.7695e-08,  ...,  1.0710e-07,
+          4.0513e-08,  6.2399e-08],
+        [-4.8429e-08, -8.2422e-08,  2.5146e-06,  ...,  7.1712e-07,
+          2.7940e-09,  5.1223e-09],
+        [-3.8091e-07,  1.9725e-06,  1.6913e-06,  ...,  3.5986e-06,
+          2.2817e-07,  1.4435e-08]], device='cuda:0')
+Epoch 180, bias, value: tensor([-0.0307, -0.0302, -0.0149,  0.0004,  0.0001,  0.0027,  0.0056, -0.0125,
+         0.0180, -0.0367], device='cuda:0'), grad: tensor([-1.0282e-05,  1.0291e-07,  1.3988e-06, -1.6484e-07,  6.9384e-08,
+         5.0627e-06, -1.3173e-05,  1.3970e-07,  8.8662e-06,  8.0243e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 179, time 217.25, cls_loss 0.0010 cls_loss_mapping 0.0032 cls_loss_causal 0.5406 re_mapping 0.0049 re_causal 0.0147 /// teacc 99.06 lr 0.00010000
+Epoch 181, weight, value: tensor([[-0.0337,  0.0008,  0.1079,  ...,  0.0083, -0.0689, -0.0512],
+        [-0.1239, -0.1214, -0.1495,  ...,  0.0555,  0.0479,  0.3126],
+        [-0.1006, -0.1148, -0.1391,  ..., -0.1452,  0.0255, -0.1580],
+        ...,
+        [-0.1500, -0.1650,  0.0209,  ..., -0.1768, -0.0793, -0.2806],
+        [ 0.0954,  0.0365, -0.1050,  ..., -0.1605,  0.0170, -0.1594],
+        [ 0.0747,  0.0715, -0.1031,  ...,  0.0726, -0.1613, -0.1137]],
+       device='cuda:0'), grad: tensor([[ 1.6717e-07, -3.2363e-07, -6.9849e-07,  ..., -2.2817e-07,
+          7.7765e-08,  3.7253e-09],
+        [ 1.0654e-06,  7.6508e-07,  3.7672e-07,  ...,  7.1246e-08,
+          8.5542e-07, -8.4750e-08],
+        [ 1.2154e-07,  1.0850e-07,  6.1002e-08,  ...,  5.6811e-08,
+         -2.0303e-07,  1.8161e-08],
+        ...,
+        [ 9.0385e-07,  4.7497e-07,  2.8312e-07,  ...,  1.0859e-06,
+          2.0396e-07,  2.4680e-08],
+        [-2.9523e-06, -2.2892e-06, -4.6566e-07,  ...,  2.6077e-08,
+         -1.4026e-06,  8.8476e-09],
+        [-1.5059e-06, -4.3167e-07,  1.3821e-06,  ..., -2.2464e-06,
+          1.6522e-06,  7.4506e-09]], device='cuda:0')
+Epoch 181, bias, value: tensor([-0.0306, -0.0297, -0.0153,  0.0001,  0.0001,  0.0032,  0.0055, -0.0125,
+         0.0166, -0.0368], device='cuda:0'), grad: tensor([-1.8394e-07,  6.3032e-06, -3.8221e-06,  1.4827e-06, -1.6596e-06,
+         4.9807e-06,  2.1327e-06,  3.2485e-06, -1.4417e-05,  1.8757e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 180, time 217.16, cls_loss 0.0011 cls_loss_mapping 0.0030 cls_loss_causal 0.5346 re_mapping 0.0052 re_causal 0.0148 /// teacc 99.13 lr 0.00010000
+Epoch 182, weight, value: tensor([[-0.0343,  0.0008,  0.1079,  ...,  0.0083, -0.0690, -0.0517],
+        [-0.1245, -0.1218, -0.1498,  ...,  0.0556,  0.0479,  0.3132],
+        [-0.1016, -0.1155, -0.1405,  ..., -0.1468,  0.0254, -0.1583],
+        ...,
+        [-0.1514, -0.1653,  0.0210,  ..., -0.1769, -0.0794, -0.2810],
+        [ 0.0970,  0.0367, -0.1052,  ..., -0.1607,  0.0172, -0.1597],
+        [ 0.0754,  0.0715, -0.1032,  ...,  0.0726, -0.1622, -0.1145]],
+       device='cuda:0'), grad: tensor([[ 2.2817e-08,  1.7229e-08,  3.9116e-08,  ...,  7.1246e-08,
+          4.2375e-08,  8.1956e-08],
+        [ 4.5169e-08,  4.7497e-08,  6.9058e-07,  ..., -1.0505e-06,
+          1.1642e-06, -2.6934e-06],
+        [ 3.4925e-08,  4.6100e-08,  3.3528e-08,  ...,  8.0792e-07,
+          3.8976e-07,  1.8720e-06],
+        ...,
+        [ 2.4308e-07,  8.7079e-08,  4.5635e-08,  ...,  3.7998e-07,
+          1.9185e-07,  4.8801e-07],
+        [-6.2445e-07, -1.4221e-06,  2.1420e-08,  ...,  4.1910e-08,
+         -9.1642e-07,  2.3283e-08],
+        [-3.7812e-07, -6.8452e-08,  4.4797e-07,  ..., -4.0513e-07,
+          8.5216e-07,  5.0291e-08]], device='cuda:0')
+Epoch 182, bias, value: tensor([-0.0306, -0.0297, -0.0154,  0.0005,  0.0001,  0.0034,  0.0051, -0.0127,
+         0.0177, -0.0369], device='cuda:0'), grad: tensor([ 4.4703e-07, -1.1027e-06,  3.6377e-06,  4.3120e-07, -7.2978e-06,
+         5.9009e-06,  7.2271e-07,  2.2613e-06, -6.4597e-06,  1.3933e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 181, time 217.30, cls_loss 0.0009 cls_loss_mapping 0.0025 cls_loss_causal 0.5359 re_mapping 0.0051 re_causal 0.0150 /// teacc 99.11 lr 0.00010000
+Epoch 183, weight, value: tensor([[-0.0347,  0.0009,  0.1079,  ...,  0.0083, -0.0691, -0.0523],
+        [-0.1249, -0.1220, -0.1501,  ...,  0.0556,  0.0480,  0.3137],
+        [-0.1021, -0.1161, -0.1424,  ..., -0.1479,  0.0254, -0.1586],
+        ...,
+        [-0.1523, -0.1659,  0.0206,  ..., -0.1770, -0.0797, -0.2814],
+        [ 0.0977,  0.0365, -0.1056,  ..., -0.1611,  0.0173, -0.1599],
+        [ 0.0766,  0.0717, -0.1033,  ...,  0.0727, -0.1634, -0.1152]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-09, -1.6904e-07, -2.9569e-07,  ..., -2.1420e-07,
+          1.3504e-08, -1.3970e-08],
+        [ 4.2375e-08,  4.0047e-08,  1.2713e-07,  ...,  4.6566e-09,
+          1.4203e-07, -3.7719e-08],
+        [ 2.8824e-07,  2.4727e-07,  1.1176e-07,  ...,  8.7079e-08,
+          2.8592e-07,  9.3132e-09],
+        ...,
+        [ 4.4703e-08,  3.6322e-08,  5.4482e-08,  ...,  1.9558e-08,
+          9.2201e-08,  1.6764e-08],
+        [ 4.6566e-10,  4.9826e-08,  1.3504e-08,  ...,  1.3970e-08,
+         -1.5832e-08,  1.3970e-09],
+        [-8.3819e-08,  5.7742e-08,  1.9791e-07,  ...,  2.6077e-08,
+          6.7987e-08,  1.1176e-08]], device='cuda:0')
+Epoch 183, bias, value: tensor([-0.0306, -0.0297, -0.0155,  0.0003,  0.0015,  0.0034,  0.0052, -0.0129,
+         0.0181, -0.0370], device='cuda:0'), grad: tensor([-6.5006e-07,  6.3842e-07,  2.3730e-06, -1.4249e-06, -3.8836e-07,
+        -5.6159e-07,  5.8534e-07, -1.3690e-06,  2.0070e-07,  6.0024e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 182, time 217.19, cls_loss 0.0010 cls_loss_mapping 0.0037 cls_loss_causal 0.5023 re_mapping 0.0049 re_causal 0.0147 /// teacc 99.06 lr 0.00010000
+Epoch 184, weight, value: tensor([[-0.0361,  0.0008,  0.1079,  ...,  0.0083, -0.0697, -0.0524],
+        [-0.1252, -0.1222, -0.1503,  ...,  0.0557,  0.0480,  0.3145],
+        [-0.1026, -0.1165, -0.1434,  ..., -0.1485,  0.0255, -0.1589],
+        ...,
+        [-0.1525, -0.1662,  0.0213,  ..., -0.1771, -0.0800, -0.2822],
+        [ 0.0977,  0.0384, -0.1035,  ..., -0.1616,  0.0176, -0.1600],
+        [ 0.0779,  0.0718, -0.1033,  ...,  0.0728, -0.1636, -0.1159]],
+       device='cuda:0'), grad: tensor([[ 9.4995e-08,  1.1735e-07,  3.5390e-08,  ...,  4.9360e-08,
+          1.6252e-07,  9.3132e-09],
+        [ 2.3702e-07,  2.9523e-07,  2.5611e-07,  ...,  2.4680e-08,
+          6.2771e-07, -6.0350e-07],
+        [ 4.8522e-07,  6.0489e-07,  4.6100e-08,  ...,  2.3656e-07,
+          5.1502e-07,  5.6345e-08],
+        ...,
+        [ 2.8452e-07,  3.4971e-07,  5.4948e-08,  ...,  1.4948e-07,
+          4.1351e-07,  4.0513e-08],
+        [-2.4680e-08,  2.0489e-08,  1.2107e-07,  ...,  1.2806e-07,
+          1.9977e-07,  2.9942e-07],
+        [-2.7427e-07, -9.7789e-08,  7.6136e-07,  ..., -2.4214e-07,
+          1.0077e-06,  1.3039e-08]], device='cuda:0')
+Epoch 184, bias, value: tensor([-0.0306, -0.0297, -0.0154,  0.0008,  0.0009,  0.0032,  0.0026, -0.0128,
+         0.0206, -0.0370], device='cuda:0'), grad: tensor([ 6.3330e-07,  1.6429e-06,  8.5728e-07, -6.0052e-06, -3.7849e-06,
+         2.0228e-06,  7.9162e-09,  1.5423e-06,  9.1363e-07,  2.1495e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 183, time 217.27, cls_loss 0.0015 cls_loss_mapping 0.0039 cls_loss_causal 0.5211 re_mapping 0.0046 re_causal 0.0143 /// teacc 99.06 lr 0.00010000
+Epoch 185, weight, value: tensor([[-0.0374,  0.0006,  0.1079,  ...,  0.0082, -0.0700, -0.0527],
+        [-0.1258, -0.1228, -0.1506,  ...,  0.0565,  0.0481,  0.3154],
+        [-0.1034, -0.1173, -0.1448,  ..., -0.1500,  0.0255, -0.1593],
+        ...,
+        [-0.1532, -0.1669,  0.0206,  ..., -0.1780, -0.0804, -0.2829],
+        [ 0.0982,  0.0373, -0.1054,  ..., -0.1623,  0.0177, -0.1628],
+        [ 0.0791,  0.0720, -0.1035,  ...,  0.0729, -0.1657, -0.1171]],
+       device='cuda:0'), grad: tensor([[ 4.1910e-09, -2.3283e-07, -5.1036e-07,  ..., -2.6915e-07,
+         -1.2806e-07, -1.8114e-07],
+        [ 7.9162e-09,  1.4435e-08,  1.2852e-07,  ..., -7.2643e-08,
+         -5.2750e-06, -3.7253e-07],
+        [ 9.3132e-09,  1.3039e-08,  2.2817e-08,  ...,  3.9116e-08,
+          4.3176e-06,  1.6950e-07],
+        ...,
+        [ 1.3039e-08,  1.2573e-08,  1.8021e-07,  ...,  2.4680e-08,
+          1.2405e-06,  5.9139e-08],
+        [-4.0047e-08,  7.0315e-08,  1.4296e-07,  ...,  9.4529e-08,
+          6.0536e-09,  9.0804e-08],
+        [-7.9162e-08, -3.2131e-08,  1.1362e-07,  ..., -2.8871e-08,
+          1.3085e-07,  2.6543e-08]], device='cuda:0')
+Epoch 185, bias, value: tensor([-0.0307, -0.0290, -0.0153,  0.0008,  0.0025,  0.0047,  0.0024, -0.0137,
+         0.0196, -0.0372], device='cuda:0'), grad: tensor([ 1.5879e-07, -1.6257e-05,  9.9540e-06,  4.4238e-07, -2.2491e-07,
+         6.1002e-07,  9.8720e-07,  3.3993e-07,  9.8348e-07,  2.9691e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 184, time 217.26, cls_loss 0.0010 cls_loss_mapping 0.0036 cls_loss_causal 0.5467 re_mapping 0.0046 re_causal 0.0144 /// teacc 99.09 lr 0.00010000
+Epoch 186, weight, value: tensor([[-0.0377,  0.0006,  0.1078,  ...,  0.0082, -0.0702, -0.0531],
+        [-0.1266, -0.1234, -0.1509,  ...,  0.0571,  0.0482,  0.3167],
+        [-0.1036, -0.1176, -0.1455,  ..., -0.1504,  0.0256, -0.1599],
+        ...,
+        [-0.1534, -0.1672,  0.0206,  ..., -0.1785, -0.0807, -0.2834],
+        [ 0.0988,  0.0376, -0.1057,  ..., -0.1628,  0.0178, -0.1634],
+        [ 0.0800,  0.0723, -0.1035,  ...,  0.0729, -0.1662, -0.1179]],
+       device='cuda:0'), grad: tensor([[ 6.8452e-08,  1.0664e-07,  5.6345e-08,  ...,  0.0000e+00,
+          1.4994e-07,  7.4506e-09],
+        [ 3.3388e-07,  7.1293e-07,  1.2200e-07,  ...,  3.3528e-08,
+          3.2783e-07, -3.8277e-07],
+        [ 6.7195e-07,  1.0747e-06,  1.2899e-07,  ...,  2.0862e-07,
+          6.8219e-07,  4.7032e-08],
+        ...,
+        [-1.4640e-06, -1.4082e-06,  2.8592e-07,  ...,  1.1688e-07,
+          5.6112e-07,  1.6764e-07],
+        [ 2.2165e-07,  3.8417e-07,  8.6613e-08,  ...,  8.5682e-08,
+          1.3085e-07,  3.3993e-08],
+        [ 5.6205e-07,  1.5255e-06,  3.1944e-07,  ..., -3.7253e-08,
+          4.6007e-07,  8.9407e-08]], device='cuda:0')
+Epoch 186, bias, value: tensor([-0.0308, -0.0279, -0.0153,  0.0008,  0.0014,  0.0044,  0.0029, -0.0147,
+         0.0195, -0.0371], device='cuda:0'), grad: tensor([ 1.3039e-06,  5.5283e-06,  1.0796e-05, -6.3889e-06, -7.5530e-07,
+         1.0403e-06,  8.4704e-07, -3.2604e-05,  4.0978e-06,  1.6108e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 185, time 217.46, cls_loss 0.0011 cls_loss_mapping 0.0026 cls_loss_causal 0.5242 re_mapping 0.0046 re_causal 0.0141 /// teacc 99.08 lr 0.00010000
+Epoch 187, weight, value: tensor([[-0.0379,  0.0006,  0.1078,  ...,  0.0082, -0.0705, -0.0539],
+        [-0.1263, -0.1239, -0.1514,  ...,  0.0557,  0.0468,  0.3146],
+        [-0.1043, -0.1181, -0.1469,  ..., -0.1515,  0.0255, -0.1603],
+        ...,
+        [-0.1540, -0.1676,  0.0204,  ..., -0.1788, -0.0810, -0.2845],
+        [ 0.0991,  0.0376, -0.1065,  ..., -0.1645,  0.0166, -0.1647],
+        [ 0.0811,  0.0725, -0.1036,  ...,  0.0730, -0.1667, -0.1200]],
+       device='cuda:0'), grad: tensor([[ 8.8476e-09, -4.1910e-09, -1.2107e-08,  ..., -3.2596e-09,
+          5.5879e-09,  6.9849e-09],
+        [ 9.7789e-09,  7.9162e-09,  1.8626e-09,  ..., -4.7963e-08,
+         -1.8626e-08, -1.7881e-07],
+        [ 2.8871e-08,  1.7695e-08,  7.4506e-09,  ...,  2.3283e-08,
+         -5.9139e-08,  3.4459e-08],
+        ...,
+        [ 6.8452e-08,  4.4703e-08,  0.0000e+00,  ...,  6.4727e-08,
+          2.2817e-08,  5.1688e-08],
+        [ 9.4064e-08,  9.4995e-08,  4.1910e-09,  ...,  7.5437e-08,
+          1.3039e-08,  2.1886e-08],
+        [-2.2352e-07, -1.9465e-07,  2.7940e-09,  ..., -1.6810e-07,
+          1.0245e-08,  1.8161e-08]], device='cuda:0')
+Epoch 187, bias, value: tensor([-0.0309, -0.0288, -0.0152,  0.0008,  0.0009,  0.0038,  0.0068, -0.0147,
+         0.0188, -0.0371], device='cuda:0'), grad: tensor([ 9.2201e-08,  9.7416e-07,  7.2224e-07,  6.8452e-08,  2.5285e-07,
+         1.4110e-07,  4.9360e-08, -2.6003e-06,  3.8603e-07, -8.1956e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 186, time 217.21, cls_loss 0.0009 cls_loss_mapping 0.0028 cls_loss_causal 0.5164 re_mapping 0.0049 re_causal 0.0147 /// teacc 99.14 lr 0.00010000
+Epoch 188, weight, value: tensor([[-0.0380,  0.0008,  0.1079,  ...,  0.0082, -0.0707, -0.0543],
+        [-0.1272, -0.1244, -0.1517,  ...,  0.0557,  0.0468,  0.3149],
+        [-0.1049, -0.1186, -0.1477,  ..., -0.1521,  0.0255, -0.1606],
+        ...,
+        [-0.1555, -0.1679,  0.0205,  ..., -0.1789, -0.0812, -0.2850],
+        [ 0.0994,  0.0374, -0.1067,  ..., -0.1651,  0.0170, -0.1649],
+        [ 0.0819,  0.0727, -0.1036,  ...,  0.0731, -0.1668, -0.1210]],
+       device='cuda:0'), grad: tensor([[ 6.9849e-09, -2.7614e-07, -3.1665e-07,  ..., -2.1630e-07,
+          2.4447e-08,  3.7253e-09],
+        [ 3.5856e-08,  3.4226e-08,  6.2166e-08,  ..., -8.9873e-08,
+         -1.1977e-06, -3.0808e-06],
+        [ 1.8161e-08,  1.9697e-07,  2.9174e-07,  ...,  2.3260e-07,
+          8.0420e-07,  1.9055e-06],
+        ...,
+        [-6.8685e-08,  2.5844e-08,  4.2608e-08,  ...,  5.2154e-08,
+          4.0885e-07,  9.5647e-07],
+        [-1.3108e-07, -9.4995e-08,  4.7497e-08,  ...,  4.5169e-08,
+          2.0955e-08,  6.2864e-09],
+        [ 4.4703e-08,  1.1339e-07,  2.3516e-07,  ..., -3.9116e-08,
+          3.6322e-07,  3.7020e-08]], device='cuda:0')
+Epoch 188, bias, value: tensor([-0.0308, -0.0289, -0.0150,  0.0015,  0.0011,  0.0036,  0.0066, -0.0148,
+         0.0187, -0.0371], device='cuda:0'), grad: tensor([-4.5565e-07,  1.0028e-05,  7.1265e-06,  2.3525e-06, -2.6412e-06,
+        -2.4773e-07,  1.6647e-07, -1.9625e-05,  9.1502e-08,  3.1926e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 187, time 217.05, cls_loss 0.0011 cls_loss_mapping 0.0027 cls_loss_causal 0.4863 re_mapping 0.0047 re_causal 0.0135 /// teacc 99.12 lr 0.00010000
+Epoch 189, weight, value: tensor([[-0.0382,  0.0008,  0.1081,  ...,  0.0083, -0.0687, -0.0550],
+        [-0.1277, -0.1248, -0.1524,  ...,  0.0559,  0.0470,  0.3157],
+        [-0.1054, -0.1191, -0.1516,  ..., -0.1559,  0.0250, -0.1616],
+        ...,
+        [-0.1561, -0.1683,  0.0205,  ..., -0.1790, -0.0817, -0.2862],
+        [ 0.0996,  0.0372, -0.1070,  ..., -0.1658,  0.0171, -0.1653],
+        [ 0.0831,  0.0727, -0.1037,  ...,  0.0731, -0.1674, -0.1231]],
+       device='cuda:0'), grad: tensor([[ 1.5367e-08, -1.0501e-07, -1.4040e-07,  ..., -1.2247e-07,
+          9.7789e-09,  1.2806e-08],
+        [ 1.8859e-08,  1.7928e-08,  2.1420e-08,  ..., -3.4319e-07,
+         -2.2119e-07, -8.5216e-07],
+        [ 1.4901e-08,  2.0256e-08,  5.4250e-08,  ...,  6.4494e-08,
+          1.0245e-08,  4.3772e-08],
+        ...,
+        [ 5.1456e-08,  4.1677e-08,  9.3132e-09,  ...,  2.5751e-07,
+          1.3434e-07,  4.5262e-07],
+        [-6.0536e-09,  1.5367e-08,  4.7265e-08,  ...,  8.7544e-08,
+         -5.1921e-08,  1.1409e-08],
+        [-2.2817e-07, -1.1083e-07,  5.5414e-08,  ..., -5.6112e-08,
+          6.7987e-08,  2.1886e-07]], device='cuda:0')
+Epoch 189, bias, value: tensor([-0.0306, -0.0289, -0.0157,  0.0014,  0.0008,  0.0036,  0.0066, -0.0145,
+         0.0184, -0.0371], device='cuda:0'), grad: tensor([-1.2061e-07,  6.4969e-06,  1.3551e-07,  6.4773e-07,  1.4277e-06,
+         2.6985e-07, -1.2331e-06, -1.1295e-05,  3.0058e-07,  3.3658e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 188, time 217.21, cls_loss 0.0010 cls_loss_mapping 0.0024 cls_loss_causal 0.5227 re_mapping 0.0044 re_causal 0.0136 /// teacc 99.09 lr 0.00010000
+Epoch 190, weight, value: tensor([[-0.0383,  0.0009,  0.1081,  ...,  0.0083, -0.0689, -0.0555],
+        [-0.1279, -0.1252, -0.1526,  ...,  0.0560,  0.0475,  0.3161],
+        [-0.1057, -0.1192, -0.1521,  ..., -0.1564,  0.0247, -0.1618],
+        ...,
+        [-0.1566, -0.1690,  0.0203,  ..., -0.1792, -0.0823, -0.2872],
+        [ 0.0998,  0.0371, -0.1074,  ..., -0.1662,  0.0174, -0.1654],
+        [ 0.0840,  0.0728, -0.1037,  ...,  0.0732, -0.1677, -0.1257]],
+       device='cuda:0'), grad: tensor([[-4.5146e-07, -3.5856e-06, -3.1609e-06,  ..., -3.9227e-06,
+          8.3353e-08,  1.3970e-09],
+        [ 8.6799e-07,  2.9569e-08,  5.9325e-07,  ...,  0.0000e+00,
+          1.1604e-06, -9.4762e-08],
+        [ 1.5600e-08,  2.6310e-08,  5.4017e-08,  ...,  3.3295e-08,
+          3.7951e-08,  7.6834e-09],
+        ...,
+        [ 2.2352e-08,  1.8394e-08,  5.1456e-08,  ...,  3.7951e-08,
+          5.7975e-08,  4.7497e-08],
+        [-1.5311e-06,  3.1432e-08, -7.7114e-07,  ...,  7.4273e-08,
+         -2.0191e-06,  2.7940e-09],
+        [ 4.8894e-07,  2.7195e-06,  3.6154e-06,  ...,  2.9169e-06,
+          1.0980e-06,  1.7462e-08]], device='cuda:0')
+Epoch 190, bias, value: tensor([-3.0595e-02, -2.8477e-02, -1.6047e-02,  1.1960e-03, -4.2502e-05,
+         4.5360e-03,  6.4396e-03, -1.4688e-02,  1.8372e-02, -3.7117e-02],
+       device='cuda:0'), grad: tensor([-8.1658e-06,  4.5151e-06,  2.9686e-07,  6.5705e-07, -5.2564e-06,
+         1.1008e-06,  3.3211e-06, -1.6647e-07, -7.0632e-06,  1.0736e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 189, time 217.22, cls_loss 0.0011 cls_loss_mapping 0.0026 cls_loss_causal 0.4893 re_mapping 0.0049 re_causal 0.0136 /// teacc 99.05 lr 0.00010000
+Epoch 191, weight, value: tensor([[-0.0388,  0.0010,  0.1081,  ...,  0.0083, -0.0691, -0.0562],
+        [-0.1287, -0.1258, -0.1534,  ...,  0.0562,  0.0478,  0.3168],
+        [-0.1063, -0.1195, -0.1525,  ..., -0.1572,  0.0245, -0.1628],
+        ...,
+        [-0.1569, -0.1697,  0.0209,  ..., -0.1794, -0.0829, -0.2880],
+        [ 0.1001,  0.0372, -0.1083,  ..., -0.1671,  0.0173, -0.1657],
+        [ 0.0849,  0.0730, -0.1037,  ...,  0.0733, -0.1685, -0.1276]],
+       device='cuda:0'), grad: tensor([[ 2.4657e-07,  2.4843e-07, -3.0501e-08,  ...,  1.4971e-07,
+          4.4238e-08,  0.0000e+00],
+        [ 2.1933e-07,  1.9744e-06,  2.0186e-07,  ...,  1.0128e-07,
+          4.4378e-07, -2.5146e-08],
+        [ 2.5611e-07,  2.9313e-07,  2.0256e-08,  ...,  1.9907e-07,
+          6.6822e-08,  9.3132e-10],
+        ...,
+        [ 1.2363e-07, -2.9281e-06,  2.6776e-08,  ...,  9.0105e-08,
+          1.1688e-07,  8.6147e-09],
+        [ 2.3679e-07,  2.8801e-07,  4.8894e-08,  ...,  1.8161e-07,
+          5.4948e-08,  6.9849e-10],
+        [ 1.0971e-06,  2.3227e-06,  2.5518e-07,  ...,  9.5554e-07,
+          5.4995e-07,  9.3132e-09]], device='cuda:0')
+Epoch 191, bias, value: tensor([-0.0307, -0.0282, -0.0164,  0.0014, -0.0003,  0.0043,  0.0065, -0.0147,
+         0.0182, -0.0371], device='cuda:0'), grad: tensor([ 9.4064e-07,  9.2089e-05,  1.1958e-06,  2.5481e-06, -1.5786e-06,
+         1.2266e-06, -2.0210e-07, -1.3959e-04,  2.5146e-06,  4.1008e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 190, time 217.03, cls_loss 0.0008 cls_loss_mapping 0.0024 cls_loss_causal 0.5609 re_mapping 0.0049 re_causal 0.0151 /// teacc 99.11 lr 0.00010000
+Epoch 192, weight, value: tensor([[-0.0390,  0.0010,  0.1082,  ...,  0.0083, -0.0692, -0.0564],
+        [-0.1293, -0.1262, -0.1538,  ...,  0.0562,  0.0478,  0.3169],
+        [-0.1074, -0.1206, -0.1527,  ..., -0.1575,  0.0243, -0.1626],
+        ...,
+        [-0.1576, -0.1710,  0.0209,  ..., -0.1795, -0.0834, -0.2885],
+        [ 0.1014,  0.0376, -0.1087,  ..., -0.1672,  0.0179, -0.1658],
+        [ 0.0848,  0.0729, -0.1037,  ...,  0.0733, -0.1689, -0.1285]],
+       device='cuda:0'), grad: tensor([[ 2.0955e-08, -1.6647e-07,  7.8138e-07,  ...,  4.5449e-07,
+          1.6997e-08,  3.0268e-09],
+        [ 1.3970e-08,  4.4238e-08,  4.5402e-08,  ..., -4.1910e-09,
+          1.6764e-08, -8.2888e-08],
+        [ 2.0023e-08, -2.1886e-08,  5.0990e-08,  ...,  4.4703e-08,
+          1.5134e-08,  9.0804e-09],
+        ...,
+        [ 1.4226e-07,  1.1805e-07,  1.6298e-08,  ...,  1.5111e-07,
+          2.0489e-08,  1.1176e-08],
+        [-1.5367e-07, -9.7323e-08,  6.8685e-08,  ...,  5.9372e-08,
+         -1.5087e-07,  8.1491e-09],
+        [-1.8277e-07,  1.3807e-07,  4.9174e-07,  ...,  6.2864e-09,
+          3.3760e-07,  1.4668e-08]], device='cuda:0')
+Epoch 192, bias, value: tensor([-3.0652e-02, -2.8257e-02, -1.6616e-02,  1.2821e-03, -7.6303e-05,
+         4.5300e-03,  6.5501e-03, -1.4596e-02,  1.8562e-02, -3.7201e-02],
+       device='cuda:0'), grad: tensor([ 2.1644e-06,  2.9453e-07, -2.7800e-07,  4.7730e-07, -1.0673e-06,
+         4.7428e-07, -3.3602e-06,  1.0268e-07, -7.1479e-08,  1.2983e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 191, time 217.03, cls_loss 0.0009 cls_loss_mapping 0.0023 cls_loss_causal 0.4977 re_mapping 0.0047 re_causal 0.0143 /// teacc 99.13 lr 0.00010000
+Epoch 193, weight, value: tensor([[-0.0397,  0.0010,  0.1082,  ...,  0.0083, -0.0690, -0.0562],
+        [-0.1316, -0.1270, -0.1543,  ...,  0.0578,  0.0479,  0.3172],
+        [-0.1082, -0.1212, -0.1530,  ..., -0.1583,  0.0242, -0.1632],
+        ...,
+        [-0.1582, -0.1714,  0.0208,  ..., -0.1816, -0.0836, -0.2888],
+        [ 0.1020,  0.0381, -0.1087,  ..., -0.1674,  0.0183, -0.1659],
+        [ 0.0861,  0.0731, -0.1037,  ...,  0.0734, -0.1696, -0.1290]],
+       device='cuda:0'), grad: tensor([[ 1.5832e-08, -6.0536e-09, -4.6566e-10,  ...,  7.9162e-09,
+          4.8894e-09,  1.1642e-09],
+        [ 7.7561e-06,  5.5879e-09,  4.4238e-09,  ..., -1.0943e-08,
+          1.3970e-08, -5.2387e-08],
+        [ 1.8533e-07,  1.3271e-08,  5.8208e-09,  ...,  7.2177e-09,
+         -2.9337e-08,  1.3504e-08],
+        ...,
+        [-1.3746e-05,  3.3760e-08,  1.0245e-08,  ...,  7.7067e-08,
+          2.2585e-08,  1.4435e-08],
+        [-1.1409e-08, -3.9581e-08,  9.7789e-09,  ...,  2.4913e-08,
+         -3.7486e-08,  6.2864e-09],
+        [ 5.5581e-06, -8.6613e-08,  9.3132e-08,  ..., -2.0722e-07,
+          1.2154e-07,  6.2864e-09]], device='cuda:0')
+Epoch 193, bias, value: tensor([-0.0306, -0.0268, -0.0170,  0.0012,  0.0001,  0.0041,  0.0065, -0.0161,
+         0.0190, -0.0371], device='cuda:0'), grad: tensor([ 2.6892e-07,  1.8907e-04,  3.7495e-06,  9.7416e-07,  1.5255e-06,
+         1.2456e-07, -1.5995e-07, -3.3379e-04,  4.1025e-07,  1.3781e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 192, time 217.27, cls_loss 0.0007 cls_loss_mapping 0.0029 cls_loss_causal 0.4883 re_mapping 0.0043 re_causal 0.0136 /// teacc 99.06 lr 0.00010000
+Epoch 194, weight, value: tensor([[-0.0403,  0.0009,  0.1082,  ...,  0.0083, -0.0692, -0.0565],
+        [-0.1326, -0.1274, -0.1544,  ...,  0.0578,  0.0479,  0.3173],
+        [-0.1087, -0.1217, -0.1531,  ..., -0.1588,  0.0242, -0.1633],
+        ...,
+        [-0.1588, -0.1720,  0.0206,  ..., -0.1820, -0.0837, -0.2891],
+        [ 0.1020,  0.0382, -0.1089,  ..., -0.1678,  0.0184, -0.1660],
+        [ 0.0875,  0.0734, -0.1037,  ...,  0.0736, -0.1698, -0.1295]],
+       device='cuda:0'), grad: tensor([[ 6.1560e-07,  1.2219e-06, -1.3434e-07,  ..., -2.7008e-08,
+          5.6857e-07,  7.6834e-09],
+        [ 8.0094e-08,  1.1292e-07,  6.3330e-08,  ..., -7.7067e-08,
+          1.2503e-07, -1.7602e-07],
+        [ 2.8871e-08, -4.1304e-07,  1.4505e-07,  ...,  1.3737e-08,
+         -2.8522e-07,  1.5367e-08],
+        ...,
+        [ 9.6159e-08,  5.2387e-08,  1.0547e-07,  ...,  2.9104e-08,
+          3.2154e-07,  3.7951e-08],
+        [-7.0455e-07, -7.9675e-07,  5.3551e-08,  ..., -7.2643e-08,
+         -1.4435e-07,  4.6799e-08],
+        [ 2.5276e-06,  3.8464e-07,  2.0210e-06,  ...,  3.7719e-08,
+          7.0781e-06,  2.2119e-08]], device='cuda:0')
+Epoch 194, bias, value: tensor([-3.0727e-02, -2.7567e-02, -1.6955e-02,  6.0893e-04, -7.2062e-05,
+         4.2131e-03,  6.6394e-03, -1.5283e-02,  1.8897e-02, -3.6955e-02],
+       device='cuda:0'), grad: tensor([ 3.1050e-06,  7.3854e-07, -3.7905e-06, -1.1944e-07, -2.4825e-05,
+        -4.6194e-07,  6.7800e-07,  1.1958e-06,  2.4750e-07,  2.3216e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 193, time 217.25, cls_loss 0.0010 cls_loss_mapping 0.0034 cls_loss_causal 0.4944 re_mapping 0.0046 re_causal 0.0138 /// teacc 99.10 lr 0.00010000
+Epoch 195, weight, value: tensor([[-0.0429,  0.0006,  0.1082,  ...,  0.0080, -0.0693, -0.0576],
+        [-0.1332, -0.1283, -0.1549,  ...,  0.0578,  0.0481,  0.3176],
+        [-0.1092, -0.1221, -0.1534,  ..., -0.1596,  0.0240, -0.1635],
+        ...,
+        [-0.1591, -0.1724,  0.0206,  ..., -0.1821, -0.0839, -0.2896],
+        [ 0.1020,  0.0375, -0.1093,  ..., -0.1688,  0.0183, -0.1664],
+        [ 0.0887,  0.0738, -0.1037,  ...,  0.0739, -0.1704, -0.1310]],
+       device='cuda:0'), grad: tensor([[ 4.1444e-08, -2.1653e-08, -9.2899e-08,  ..., -2.3283e-10,
+          2.0955e-08,  6.9849e-10],
+        [ 7.4506e-08,  4.2608e-08,  8.1491e-09,  ...,  6.9384e-08,
+          2.1653e-08, -1.5367e-08],
+        [ 1.6531e-08,  1.5600e-08,  1.4668e-08,  ...,  2.0256e-08,
+         -1.3178e-07,  3.0268e-09],
+        ...,
+        [ 1.8557e-07,  8.2888e-08,  1.3039e-08,  ...,  1.6810e-07,
+          6.2864e-09,  1.0245e-08],
+        [ 6.9849e-10,  2.7940e-09,  1.3504e-08,  ...,  7.1246e-08,
+         -4.6566e-09,  1.6298e-09],
+        [-2.4084e-06, -1.0971e-06,  1.7229e-08,  ..., -2.2314e-06,
+          2.3749e-08,  1.6298e-09]], device='cuda:0')
+Epoch 195, bias, value: tensor([-0.0311, -0.0276, -0.0172,  0.0005, -0.0005,  0.0042,  0.0072, -0.0150,
+         0.0185, -0.0367], device='cuda:0'), grad: tensor([ 1.5832e-08,  3.8929e-07, -4.6170e-07,  1.8859e-07,  6.9998e-06,
+         1.1083e-07,  1.3458e-07,  6.0443e-07,  2.4633e-07, -8.2180e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 194, time 217.03, cls_loss 0.0012 cls_loss_mapping 0.0031 cls_loss_causal 0.5290 re_mapping 0.0047 re_causal 0.0146 /// teacc 99.10 lr 0.00010000
+Epoch 196, weight, value: tensor([[-0.0427,  0.0008,  0.1083,  ...,  0.0081, -0.0693, -0.0590],
+        [-0.1348, -0.1289, -0.1552,  ...,  0.0580,  0.0481,  0.3181],
+        [-0.1100, -0.1229, -0.1540,  ..., -0.1612,  0.0241, -0.1635],
+        ...,
+        [-0.1603, -0.1730,  0.0206,  ..., -0.1824, -0.0840, -0.2904],
+        [ 0.1022,  0.0375, -0.1097,  ..., -0.1692,  0.0188, -0.1666],
+        [ 0.0889,  0.0738, -0.1038,  ...,  0.0740, -0.1724, -0.1317]],
+       device='cuda:0'), grad: tensor([[ 1.4831e-07,  4.6566e-10, -4.8429e-08,  ...,  1.0547e-07,
+          1.7928e-08,  2.2817e-08],
+        [ 9.2853e-07,  2.8126e-07,  1.8626e-08,  ...,  1.6089e-07,
+         -5.3039e-07, -1.3523e-06],
+        [ 2.1071e-07,  1.5879e-07,  1.9092e-08,  ...,  2.5821e-07,
+          1.3295e-07,  2.1001e-07],
+        ...,
+        [ 6.5193e-07,  2.1630e-07,  3.2596e-09,  ...,  8.7963e-07,
+          3.9558e-07,  8.6520e-07],
+        [ 1.3481e-07,  5.7044e-08,  2.4401e-07,  ...,  5.7463e-07,
+         -4.4238e-08,  1.7928e-08],
+        [-3.1404e-06, -6.6496e-07,  1.9791e-08,  ..., -2.2613e-06,
+          5.9139e-08,  9.5461e-08]], device='cuda:0')
+Epoch 196, bias, value: tensor([-0.0310, -0.0277, -0.0172,  0.0002,  0.0001,  0.0049,  0.0068, -0.0151,
+         0.0186, -0.0368], device='cuda:0'), grad: tensor([ 4.7660e-07, -2.0955e-08,  1.2936e-06, -2.9374e-06,  2.0694e-06,
+         5.5134e-06, -4.5262e-06,  2.1197e-06,  2.0228e-06, -6.0312e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 195, time 216.87, cls_loss 0.0009 cls_loss_mapping 0.0021 cls_loss_causal 0.5193 re_mapping 0.0044 re_causal 0.0138 /// teacc 99.13 lr 0.00010000
+Epoch 197, weight, value: tensor([[-0.0428,  0.0008,  0.1084,  ...,  0.0081, -0.0695, -0.0598],
+        [-0.1363, -0.1309, -0.1553,  ...,  0.0582,  0.0482,  0.3187],
+        [-0.1104, -0.1234, -0.1543,  ..., -0.1619,  0.0241, -0.1641],
+        ...,
+        [-0.1601, -0.1707,  0.0206,  ..., -0.1825, -0.0837, -0.2913],
+        [ 0.1024,  0.0375, -0.1100,  ..., -0.1697,  0.0193, -0.1668],
+        [ 0.0912,  0.0741, -0.1039,  ...,  0.0741, -0.1727, -0.1324]],
+       device='cuda:0'), grad: tensor([[ 3.6787e-08, -4.3539e-07, -2.4005e-07,  ..., -2.5635e-07,
+          1.3504e-08, -7.8231e-08],
+        [ 5.4482e-08,  7.7765e-08,  8.2189e-08,  ...,  1.9791e-08,
+         -3.0501e-08, -1.6694e-07],
+        [ 1.1339e-07,  1.1781e-07,  1.0990e-07,  ...,  1.8370e-07,
+          6.7055e-08,  4.1910e-08],
+        ...,
+        [ 9.4529e-08,  9.0571e-08,  3.9814e-08,  ...,  1.0873e-07,
+          3.8184e-08,  5.7742e-08],
+        [ 1.2340e-07,  1.1013e-07,  5.9139e-08,  ...,  1.2945e-07,
+          3.6322e-08,  2.5379e-08],
+        [-2.9895e-07, -3.7253e-09,  4.5891e-07,  ...,  3.0524e-07,
+          2.8871e-08,  6.9849e-08]], device='cuda:0')
+Epoch 197, bias, value: tensor([-0.0310, -0.0279, -0.0171, -0.0009, -0.0009,  0.0049,  0.0066, -0.0145,
+         0.0186, -0.0366], device='cuda:0'), grad: tensor([ 1.4007e-06,  9.2853e-07, -8.4266e-06,  2.8359e-07,  9.1735e-07,
+         2.1942e-06, -3.2149e-06,  2.7008e-06,  2.3879e-06,  8.2189e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 196, time 217.06, cls_loss 0.0012 cls_loss_mapping 0.0031 cls_loss_causal 0.4994 re_mapping 0.0041 re_causal 0.0131 /// teacc 99.05 lr 0.00010000
+Epoch 198, weight, value: tensor([[-0.0430,  0.0009,  0.1084,  ...,  0.0082, -0.0697, -0.0604],
+        [-0.1371, -0.1322, -0.1555,  ...,  0.0585,  0.0482,  0.3194],
+        [-0.1113, -0.1241, -0.1545,  ..., -0.1626,  0.0240, -0.1645],
+        ...,
+        [-0.1610, -0.1713,  0.0204,  ..., -0.1827, -0.0837, -0.2921],
+        [ 0.1023,  0.0373, -0.1104,  ..., -0.1706,  0.0194, -0.1670],
+        [ 0.0923,  0.0743, -0.1040,  ...,  0.0742, -0.1737, -0.1336]],
+       device='cuda:0'), grad: tensor([[ 2.1188e-08,  1.2806e-08, -7.5288e-06,  ..., -7.6666e-06,
+         -3.1944e-06,  9.5461e-09],
+        [ 1.0617e-07,  1.9721e-07,  3.8147e-06,  ...,  3.6694e-06,
+          1.6103e-06, -5.9977e-07],
+        [ 1.0710e-07,  2.0955e-07,  2.1122e-06,  ...,  2.2240e-06,
+          1.0487e-06,  6.8685e-08],
+        ...,
+        [ 3.6554e-08,  8.3586e-08,  1.1362e-07,  ...,  2.4308e-07,
+          1.4482e-07,  3.0431e-07],
+        [ 3.1665e-08,  1.5227e-07,  1.4063e-07,  ...,  1.9907e-07,
+          2.2585e-08,  3.1432e-08],
+        [-1.5367e-07,  9.0571e-08,  2.6287e-07,  ...,  7.4506e-09,
+          1.1711e-07,  1.0547e-07]], device='cuda:0')
+Epoch 198, bias, value: tensor([-0.0310, -0.0281, -0.0171,  0.0021, -0.0005,  0.0020,  0.0065, -0.0142,
+         0.0185, -0.0367], device='cuda:0'), grad: tensor([-2.3246e-05,  1.1466e-05,  9.2946e-07, -6.3032e-06, -1.0408e-07,
+         5.1185e-06,  3.1851e-06,  6.5528e-06,  1.3579e-06,  1.0449e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 197, time 217.02, cls_loss 0.0010 cls_loss_mapping 0.0019 cls_loss_causal 0.4955 re_mapping 0.0044 re_causal 0.0135 /// teacc 99.04 lr 0.00010000
+Epoch 199, weight, value: tensor([[-0.0434,  0.0008,  0.1084,  ...,  0.0082, -0.0697, -0.0611],
+        [-0.1378, -0.1331, -0.1559,  ...,  0.0589,  0.0483,  0.3198],
+        [-0.1119, -0.1245, -0.1549,  ..., -0.1632,  0.0240, -0.1647],
+        ...,
+        [-0.1595, -0.1724,  0.0202,  ..., -0.1825, -0.0843, -0.2936],
+        [ 0.1024,  0.0370, -0.1108,  ..., -0.1712,  0.0195, -0.1674],
+        [ 0.0911,  0.0744, -0.1042,  ...,  0.0741, -0.1748, -0.1345]],
+       device='cuda:0'), grad: tensor([[ 7.6601e-08,  1.0733e-07,  4.5402e-08,  ...,  1.5786e-07,
+          7.5903e-08,  5.5879e-09],
+        [ 1.0082e-07,  1.3737e-07,  2.5844e-08,  ..., -1.3737e-07,
+         -1.8161e-08, -5.2247e-07],
+        [ 4.0978e-08,  1.0221e-07,  7.1246e-08,  ...,  1.3085e-07,
+          5.9372e-08,  5.1223e-08],
+        ...,
+        [ 1.7956e-06,  3.0622e-06,  5.9605e-08,  ...,  5.5786e-07,
+          1.6578e-06,  4.1025e-07],
+        [-2.4661e-06, -4.4592e-06,  3.9116e-08,  ...,  7.4739e-08,
+         -2.4792e-06,  6.7521e-09],
+        [ 5.2620e-08,  1.8720e-07, -2.6450e-06,  ..., -9.7379e-06,
+          7.8417e-07,  2.0722e-08]], device='cuda:0')
+Epoch 199, bias, value: tensor([-0.0310, -0.0280, -0.0167,  0.0022,  0.0003,  0.0020,  0.0063, -0.0139,
+         0.0183, -0.0374], device='cuda:0'), grad: tensor([ 1.4249e-06,  4.2329e-07,  1.0673e-06,  1.1856e-06,  2.6971e-05,
+        -4.7199e-06,  6.3367e-06,  2.5198e-05, -3.7372e-05, -2.0504e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 198, time 217.05, cls_loss 0.0011 cls_loss_mapping 0.0029 cls_loss_causal 0.4551 re_mapping 0.0044 re_causal 0.0128 /// teacc 99.04 lr 0.00010000
+Epoch 200, weight, value: tensor([[-0.0445,  0.0006,  0.1085,  ...,  0.0081, -0.0698, -0.0627],
+        [-0.1385, -0.1339, -0.1562,  ...,  0.0591,  0.0486,  0.3199],
+        [-0.1120, -0.1252, -0.1555,  ..., -0.1633,  0.0256, -0.1629],
+        ...,
+        [-0.1601, -0.1751,  0.0201,  ..., -0.1830, -0.0867, -0.2954],
+        [ 0.1025,  0.0372, -0.1113,  ..., -0.1725,  0.0179, -0.1679],
+        [ 0.0923,  0.0752, -0.1042,  ...,  0.0743, -0.1754, -0.1360]],
+       device='cuda:0'), grad: tensor([[ 3.0268e-09, -4.2608e-08, -3.1898e-08,  ..., -2.9104e-08,
+          1.0943e-08,  1.9558e-08],
+        [ 1.2969e-07,  6.0536e-09,  2.3283e-09,  ..., -2.8056e-07,
+         -2.2142e-07, -7.2224e-07],
+        [ 2.4680e-08,  2.3050e-08,  1.1642e-08,  ...,  1.3434e-07,
+          1.0012e-07,  1.1991e-07],
+        ...,
+        [-3.1595e-07,  6.0536e-09,  4.6566e-10,  ...,  1.8999e-07,
+          1.4319e-07,  4.5751e-07],
+        [-6.7987e-08, -8.8941e-08,  1.5832e-08,  ...,  1.3597e-07,
+          5.7509e-08,  1.9558e-08],
+        [ 5.0757e-08,  4.8894e-09,  1.1642e-08,  ...,  8.1491e-09,
+          2.1188e-08,  6.1234e-08]], device='cuda:0')
+Epoch 200, bias, value: tensor([-0.0311, -0.0284, -0.0139,  0.0021,  0.0001,  0.0020,  0.0061, -0.0148,
+         0.0175, -0.0371], device='cuda:0'), grad: tensor([ 6.6822e-08,  3.3621e-06,  1.1222e-06,  4.2282e-06,  2.6473e-07,
+         6.5193e-07, -1.8217e-06, -1.1712e-05,  7.2038e-07,  3.1255e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 199, time 217.05, cls_loss 0.0010 cls_loss_mapping 0.0025 cls_loss_causal 0.4963 re_mapping 0.0045 re_causal 0.0134 /// teacc 99.06 lr 0.00010000
+Epoch 201, weight, value: tensor([[-0.0448,  0.0007,  0.1085,  ...,  0.0082, -0.0700, -0.0635],
+        [-0.1392, -0.1345, -0.1564,  ...,  0.0594,  0.0490,  0.3205],
+        [-0.1142, -0.1270, -0.1558,  ..., -0.1648,  0.0253, -0.1634],
+        ...,
+        [-0.1606, -0.1759,  0.0199,  ..., -0.1834, -0.0868, -0.2964],
+        [ 0.1021,  0.0370, -0.1116,  ..., -0.1738,  0.0177, -0.1684],
+        [ 0.0928,  0.0755, -0.1042,  ...,  0.0744, -0.1760, -0.1371]],
+       device='cuda:0'), grad: tensor([[ 1.8161e-08, -6.1467e-08,  4.2655e-07,  ...,  1.2293e-06,
+          1.4901e-08,  3.7253e-09],
+        [ 1.4855e-07,  3.6322e-08,  1.9558e-08,  ..., -9.4995e-08,
+          3.7253e-09, -1.7835e-07],
+        [ 7.9162e-08,  4.4238e-08,  1.1176e-08,  ...,  6.3330e-08,
+          1.2573e-08,  2.1886e-08],
+        ...,
+        [-2.7940e-08,  3.5390e-08,  7.4506e-09,  ...,  9.6392e-08,
+          1.0710e-07,  8.0094e-08],
+        [ 6.2864e-08,  1.8626e-08,  1.6764e-08,  ...,  7.7300e-08,
+          1.6298e-08,  2.7940e-09],
+        [-2.1374e-07, -1.0245e-07,  3.8650e-08,  ..., -2.9802e-08,
+          5.7276e-08,  4.7032e-08]], device='cuda:0')
+Epoch 201, bias, value: tensor([-0.0310, -0.0283, -0.0146,  0.0023, -0.0002,  0.0020,  0.0061, -0.0145,
+         0.0172, -0.0370], device='cuda:0'), grad: tensor([ 3.1441e-06,  8.1182e-05,  4.2934e-07,  2.2585e-07,  3.7160e-07,
+         3.3667e-07, -3.5353e-06, -8.9526e-05,  2.5481e-06,  4.7982e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 200, time 217.01, cls_loss 0.0010 cls_loss_mapping 0.0029 cls_loss_causal 0.5225 re_mapping 0.0044 re_causal 0.0135 /// teacc 99.08 lr 0.00010000
+Epoch 202, weight, value: tensor([[-0.0450,  0.0008,  0.1087,  ...,  0.0083, -0.0701, -0.0636],
+        [-0.1420, -0.1355, -0.1576,  ...,  0.0593,  0.0485,  0.3208],
+        [-0.1149, -0.1276, -0.1561,  ..., -0.1654,  0.0252, -0.1637],
+        ...,
+        [-0.1612, -0.1768,  0.0195,  ..., -0.1835, -0.0870, -0.2973],
+        [ 0.1014,  0.0367, -0.1118,  ..., -0.1748,  0.0177, -0.1685],
+        [ 0.0940,  0.0758, -0.1043,  ...,  0.0746, -0.1768, -0.1374]],
+       device='cuda:0'), grad: tensor([[ 3.1991e-07,  2.6543e-07, -2.7474e-08,  ...,  2.3935e-07,
+          4.5868e-07,  5.4948e-08],
+        [ 1.2573e-07,  1.5041e-07,  3.8650e-07,  ...,  7.6042e-07,
+          7.1106e-07,  4.8894e-08],
+        [-2.7614e-07, -3.4459e-08,  5.7276e-08,  ...,  3.0315e-07,
+         -3.6974e-07,  2.9290e-07],
+        ...,
+        [ 1.0803e-07,  1.1316e-07,  8.3819e-09,  ...,  1.0803e-07,
+          1.3225e-07,  1.9092e-08],
+        [ 5.5041e-07,  5.9558e-07,  4.0978e-07,  ...,  1.3737e-06,
+          1.4491e-06,  4.2282e-07],
+        [ 3.6545e-06,  4.4033e-06,  3.2131e-08,  ...,  3.1907e-06,
+          2.6524e-06,  7.4506e-09]], device='cuda:0')
+Epoch 202, bias, value: tensor([-0.0309, -0.0288, -0.0147,  0.0022,  0.0006,  0.0020,  0.0057, -0.0144,
+         0.0168, -0.0367], device='cuda:0'), grad: tensor([ 1.8384e-06,  5.4911e-06, -1.3988e-06, -1.5117e-05,  2.9653e-06,
+         9.6187e-06, -2.0742e-05, -5.3551e-07,  7.6592e-06,  1.0170e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 201, time 217.01, cls_loss 0.0011 cls_loss_mapping 0.0035 cls_loss_causal 0.5005 re_mapping 0.0046 re_causal 0.0131 /// teacc 99.04 lr 0.00010000
+Epoch 203, weight, value: tensor([[-0.0450,  0.0009,  0.1087,  ...,  0.0083, -0.0705, -0.0639],
+        [-0.1427, -0.1366, -0.1579,  ...,  0.0596,  0.0487,  0.3213],
+        [-0.1154, -0.1281, -0.1565,  ..., -0.1664,  0.0253, -0.1640],
+        ...,
+        [-0.1619, -0.1771,  0.0204,  ..., -0.1838, -0.0874, -0.2985],
+        [ 0.1017,  0.0368, -0.1120,  ..., -0.1754,  0.0184, -0.1687],
+        [ 0.0935,  0.0754, -0.1046,  ...,  0.0746, -0.1796, -0.1391]],
+       device='cuda:0'), grad: tensor([[ 4.0978e-08, -1.2107e-07, -3.7206e-07,  ..., -3.2969e-07,
+          4.0047e-08,  4.6566e-10],
+        [ 1.1036e-07,  8.1491e-08,  1.7229e-08,  ...,  4.0978e-08,
+          6.7521e-08, -4.0513e-08],
+        [ 1.9791e-07,  1.4948e-07,  1.9558e-08,  ...,  6.6590e-08,
+         -1.5507e-07,  7.4506e-09],
+        ...,
+        [ 5.5134e-07,  2.1327e-07,  1.1176e-08,  ...,  3.1525e-07,
+          1.2945e-07,  8.8476e-09],
+        [-9.2667e-08, -6.9384e-08,  4.1910e-09,  ...,  5.8208e-08,
+         -1.2200e-07,  3.2596e-09],
+        [-6.6217e-07, -1.4808e-07,  4.7963e-08,  ..., -3.1479e-07,
+          6.9384e-08,  2.7940e-09]], device='cuda:0')
+Epoch 203, bias, value: tensor([-0.0309, -0.0289, -0.0147,  0.0021,  0.0012,  0.0021,  0.0061, -0.0138,
+         0.0167, -0.0379], device='cuda:0'), grad: tensor([-4.1630e-07,  7.4925e-07, -8.6147e-08, -1.1893e-06,  5.6019e-07,
+         1.0561e-06,  5.1269e-07,  4.1910e-09,  1.3085e-07, -1.2927e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 202, time 217.21, cls_loss 0.0009 cls_loss_mapping 0.0034 cls_loss_causal 0.4953 re_mapping 0.0044 re_causal 0.0129 /// teacc 99.09 lr 0.00010000
+Epoch 204, weight, value: tensor([[-0.0452,  0.0009,  0.1089,  ...,  0.0084, -0.0706, -0.0641],
+        [-0.1434, -0.1376, -0.1588,  ...,  0.0596,  0.0483,  0.3217],
+        [-0.1159, -0.1288, -0.1571,  ..., -0.1672,  0.0253, -0.1641],
+        ...,
+        [-0.1624, -0.1778,  0.0202,  ..., -0.1842, -0.0870, -0.3001],
+        [ 0.1020,  0.0362, -0.1131,  ..., -0.1765,  0.0192, -0.1700],
+        [ 0.0937,  0.0753, -0.1047,  ...,  0.0747, -0.1804, -0.1404]],
+       device='cuda:0'), grad: tensor([[ 9.7789e-09,  6.0536e-08,  6.0536e-09,  ...,  1.1642e-08,
+          1.1642e-08,  6.5193e-09],
+        [-4.6100e-08,  5.5879e-08,  8.3819e-09,  ..., -3.0734e-07,
+         -3.5996e-07, -5.0850e-07],
+        [ 5.4017e-08,  5.5414e-08,  1.9092e-08,  ...,  8.2422e-08,
+          5.9605e-08, -1.2107e-08],
+        ...,
+        [ 6.2399e-08,  9.7789e-08,  1.8626e-09,  ...,  1.8440e-07,
+          2.5425e-07,  3.2876e-07],
+        [ 4.6566e-10,  2.0955e-07,  6.9849e-09,  ...,  2.5611e-08,
+         -9.3132e-10,  2.7940e-09],
+        [ 7.5437e-08,  2.0443e-07,  9.3132e-10,  ...,  9.5461e-08,
+          1.0198e-07,  1.1036e-07]], device='cuda:0')
+Epoch 204, bias, value: tensor([-0.0308, -0.0294, -0.0149,  0.0020,  0.0013,  0.0021,  0.0067, -0.0133,
+         0.0164, -0.0382], device='cuda:0'), grad: tensor([ 2.9290e-07, -9.7416e-07, -5.3225e-07,  4.9174e-06,  1.7788e-07,
+        -7.3351e-06,  4.8848e-07,  1.1623e-06,  6.1095e-07,  1.1846e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 203, time 216.99, cls_loss 0.0010 cls_loss_mapping 0.0024 cls_loss_causal 0.5110 re_mapping 0.0045 re_causal 0.0131 /// teacc 98.96 lr 0.00010000
+Epoch 205, weight, value: tensor([[-0.0457,  0.0010,  0.1091,  ...,  0.0085, -0.0709, -0.0646],
+        [-0.1446, -0.1392, -0.1595,  ...,  0.0599,  0.0486,  0.3222],
+        [-0.1168, -0.1299, -0.1576,  ..., -0.1679,  0.0252, -0.1644],
+        ...,
+        [-0.1627, -0.1782,  0.0201,  ..., -0.1845, -0.0876, -0.3014],
+        [ 0.1036,  0.0372, -0.1135,  ..., -0.1773,  0.0201, -0.1706],
+        [ 0.0960,  0.0760, -0.1045,  ...,  0.0750, -0.1795, -0.1417]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  3.5856e-08,  1.8580e-07,  ...,  1.5553e-07,
+          2.3283e-08,  1.8626e-09],
+        [ 4.1910e-09,  1.1642e-08,  5.4948e-08,  ..., -7.9162e-09,
+         -2.6543e-08, -1.3458e-07],
+        [ 3.7253e-09,  8.8476e-09,  2.1234e-07,  ...,  1.7229e-07,
+          3.9581e-08,  2.0023e-08],
+        ...,
+        [ 4.6566e-09,  1.7695e-08,  1.2573e-08,  ...,  2.3283e-08,
+          3.4925e-08,  5.5879e-08],
+        [-1.8626e-08,  1.7136e-07,  3.2131e-08,  ...,  4.2841e-08,
+         -7.9162e-09,  1.3970e-09],
+        [-4.1910e-09,  5.6345e-08,  9.9652e-08,  ...,  1.4901e-08,
+          1.1548e-07,  1.0710e-08]], device='cuda:0')
+Epoch 205, bias, value: tensor([-0.0307, -0.0293, -0.0149,  0.0023,  0.0002,  0.0018,  0.0065, -0.0133,
+         0.0171, -0.0377], device='cuda:0'), grad: tensor([ 7.6974e-07,  5.4482e-08,  5.4343e-07,  1.4585e-06,  4.3865e-07,
+        -1.8207e-06, -2.7455e-06,  4.4517e-07,  3.9348e-07,  4.7917e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 204, time 217.21, cls_loss 0.0008 cls_loss_mapping 0.0021 cls_loss_causal 0.5015 re_mapping 0.0042 re_causal 0.0131 /// teacc 99.01 lr 0.00010000
+Epoch 206, weight, value: tensor([[-0.0458,  0.0012,  0.1092,  ...,  0.0086, -0.0712, -0.0648],
+        [-0.1439, -0.1401, -0.1598,  ...,  0.0613,  0.0496,  0.3228],
+        [-0.1177, -0.1317, -0.1583,  ..., -0.1685,  0.0251, -0.1646],
+        ...,
+        [-0.1628, -0.1784,  0.0196,  ..., -0.1859, -0.0892, -0.3031],
+        [ 0.1044,  0.0373, -0.1151,  ..., -0.1780,  0.0202, -0.1707],
+        [ 0.0962,  0.0759, -0.1046,  ...,  0.0750, -0.1798, -0.1428]],
+       device='cuda:0'), grad: tensor([[ 2.6124e-07,  4.9360e-08, -2.4168e-07,  ..., -3.3528e-08,
+          3.5856e-07,  1.0384e-07],
+        [ 2.1234e-07,  1.3085e-07,  3.4459e-08,  ..., -3.1572e-06,
+         -2.9001e-06, -2.0117e-06],
+        [ 9.0804e-08,  8.8476e-08,  4.9826e-08,  ...,  1.3951e-06,
+          1.2657e-06,  7.9628e-07],
+        ...,
+        [ 2.2585e-07,  1.1222e-07,  9.7789e-09,  ...,  7.1758e-07,
+          4.1956e-07,  2.9616e-07],
+        [-1.2573e-06, -9.9652e-07, -5.7276e-08,  ...,  2.5844e-07,
+         -8.4378e-07,  1.2666e-07],
+        [-9.5740e-07, -1.9185e-07,  1.6578e-07,  ..., -1.0878e-06,
+          2.1001e-07,  6.3796e-08]], device='cuda:0')
+Epoch 206, bias, value: tensor([-3.0532e-02, -2.8676e-02, -1.5140e-02,  2.1309e-03,  2.4091e-06,
+         1.9951e-03,  6.6160e-03, -1.3774e-02,  1.6945e-02, -3.7748e-02],
+       device='cuda:0'), grad: tensor([ 6.1514e-07, -9.3952e-06,  4.4629e-06,  2.2650e-06,  4.1574e-06,
+        -2.9709e-07,  1.1045e-06,  2.1514e-06, -2.8554e-06, -2.2296e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 205, time 217.20, cls_loss 0.0018 cls_loss_mapping 0.0033 cls_loss_causal 0.5146 re_mapping 0.0043 re_causal 0.0129 /// teacc 99.05 lr 0.00010000
+Epoch 207, weight, value: tensor([[-0.0461,  0.0015,  0.1093,  ...,  0.0087, -0.0716, -0.0650],
+        [-0.1455, -0.1417, -0.1606,  ...,  0.0615,  0.0498,  0.3231],
+        [-0.1187, -0.1289, -0.1590,  ..., -0.1692,  0.0294, -0.1648],
+        ...,
+        [-0.1638, -0.1791,  0.0184,  ..., -0.1865, -0.0905, -0.3044],
+        [ 0.1054,  0.0338, -0.1162,  ..., -0.1790,  0.0157, -0.1711],
+        [ 0.0967,  0.0760, -0.1047,  ...,  0.0751, -0.1808, -0.1437]],
+       device='cuda:0'), grad: tensor([[ 1.2573e-08, -4.9826e-08, -4.6566e-07,  ..., -1.4668e-07,
+          7.9162e-09,  7.9162e-09],
+        [ 1.3504e-08,  1.3039e-08,  1.4435e-08,  ..., -1.7788e-07,
+         -2.2212e-07, -6.1467e-07],
+        [ 2.2817e-08,  2.7474e-08,  4.9360e-08,  ...,  1.1176e-07,
+          1.2061e-07,  2.6496e-07],
+        ...,
+        [ 4.3306e-08,  4.9826e-08,  2.8266e-07,  ...,  1.6950e-07,
+          5.8208e-08,  1.3923e-07],
+        [-4.5635e-08, -5.7742e-08,  2.0023e-08,  ...,  1.9092e-08,
+         -3.2596e-08,  6.5193e-09],
+        [-4.6566e-10, -9.7789e-09,  2.7753e-07,  ..., -2.8871e-08,
+          2.6356e-07,  2.7474e-08]], device='cuda:0')
+Epoch 207, bias, value: tensor([-0.0305, -0.0288, -0.0109,  0.0020,  0.0008,  0.0022,  0.0064, -0.0140,
+         0.0122, -0.0380], device='cuda:0'), grad: tensor([-1.3430e-06, -9.2527e-07,  6.3982e-07,  4.4703e-08, -4.9733e-07,
+         1.1176e-07, -1.1409e-07,  1.0952e-06, -1.3364e-07,  1.1269e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 206, time 217.43, cls_loss 0.0009 cls_loss_mapping 0.0024 cls_loss_causal 0.5199 re_mapping 0.0043 re_causal 0.0130 /// teacc 99.09 lr 0.00010000
+Epoch 208, weight, value: tensor([[-0.0457,  0.0016,  0.1095,  ...,  0.0088, -0.0718, -0.0654],
+        [-0.1463, -0.1429, -0.1609,  ...,  0.0619,  0.0500,  0.3237],
+        [-0.1218, -0.1291, -0.1597,  ..., -0.1704,  0.0295, -0.1652],
+        ...,
+        [-0.1642, -0.1798,  0.0182,  ..., -0.1870, -0.0911, -0.3058],
+        [ 0.1074,  0.0341, -0.1166,  ..., -0.1797,  0.0156, -0.1712],
+        [ 0.0971,  0.0761, -0.1048,  ...,  0.0752, -0.1815, -0.1451]],
+       device='cuda:0'), grad: tensor([[ 4.1910e-08,  1.5181e-07,  6.5938e-07,  ...,  3.9255e-07,
+          3.4925e-08,  3.2596e-08],
+        [-9.2667e-08, -3.7765e-07,  1.3504e-08,  ..., -9.9838e-07,
+         -3.9674e-07, -2.4121e-06],
+        [ 4.1537e-07,  3.5809e-07,  6.0536e-09,  ...,  1.7835e-07,
+          3.5996e-07,  8.0559e-08],
+        ...,
+        [ 1.2992e-07,  2.6915e-07,  8.3819e-09,  ...,  4.9034e-07,
+          2.3469e-07,  1.0524e-06],
+        [ 7.7020e-07,  1.2368e-06,  5.8673e-07,  ...,  4.4843e-07,
+          4.8755e-07,  9.7789e-08],
+        [ 2.8079e-07,  9.7603e-07,  6.4587e-07,  ...,  5.3318e-07,
+          1.8394e-07,  7.4878e-07]], device='cuda:0')
+Epoch 208, bias, value: tensor([-0.0303, -0.0288, -0.0109,  0.0020,  0.0007,  0.0022,  0.0061, -0.0140,
+         0.0122, -0.0380], device='cuda:0'), grad: tensor([ 1.4715e-06, -1.1578e-05,  1.2759e-06, -2.1979e-06,  1.7462e-07,
+        -2.5164e-06, -1.0170e-06,  5.6475e-06,  3.2336e-06,  5.4911e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 207, time 217.34, cls_loss 0.0010 cls_loss_mapping 0.0030 cls_loss_causal 0.5371 re_mapping 0.0041 re_causal 0.0133 /// teacc 98.97 lr 0.00010000
+Epoch 209, weight, value: tensor([[-0.0460,  0.0016,  0.1095,  ...,  0.0088, -0.0721, -0.0656],
+        [-0.1463, -0.1437, -0.1610,  ...,  0.0622,  0.0502,  0.3243],
+        [-0.1223, -0.1292, -0.1599,  ..., -0.1708,  0.0295, -0.1654],
+        ...,
+        [-0.1648, -0.1805,  0.0179,  ..., -0.1872, -0.0912, -0.3070],
+        [ 0.1077,  0.0343, -0.1170,  ..., -0.1813,  0.0156, -0.1714],
+        [ 0.0985,  0.0766, -0.1048,  ...,  0.0754, -0.1816, -0.1491]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09, -3.5390e-08, -2.7940e-08,  ..., -9.3132e-09,
+          1.0710e-08,  1.3970e-09],
+        [ 5.0291e-08,  1.9558e-08,  1.9092e-08,  ...,  8.3819e-09,
+          6.0536e-09, -1.2433e-07],
+        [ 1.8626e-08,  1.5832e-08,  1.8626e-08,  ...,  2.1886e-08,
+          3.9116e-08,  4.1910e-08],
+        ...,
+        [ 1.6987e-06,  3.8836e-07,  2.0023e-08,  ...,  1.5507e-06,
+          4.1444e-08,  6.0070e-08],
+        [-1.8161e-08, -1.8161e-08,  5.5879e-09,  ...,  5.5879e-09,
+         -2.5611e-08, -7.4506e-09],
+        [-1.8133e-06, -3.8277e-07,  8.6613e-08,  ..., -1.6298e-06,
+          1.2247e-07,  8.8476e-09]], device='cuda:0')
+Epoch 209, bias, value: tensor([-0.0303, -0.0297, -0.0109,  0.0013,  0.0003,  0.0028,  0.0060, -0.0130,
+         0.0123, -0.0378], device='cuda:0'), grad: tensor([ 6.8964e-07,  7.7039e-06,  5.8673e-06,  9.2536e-06, -1.4389e-07,
+         1.3877e-07,  7.9162e-08, -2.1711e-05, -5.8208e-08, -1.8254e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 208, time 217.13, cls_loss 0.0010 cls_loss_mapping 0.0021 cls_loss_causal 0.5015 re_mapping 0.0041 re_causal 0.0123 /// teacc 99.05 lr 0.00010000
+Epoch 210, weight, value: tensor([[-0.0463,  0.0016,  0.1097,  ...,  0.0088, -0.0717, -0.0652],
+        [-0.1466, -0.1448, -0.1614,  ...,  0.0621,  0.0502,  0.3247],
+        [-0.1233, -0.1293, -0.1611,  ..., -0.1724,  0.0295, -0.1659],
+        ...,
+        [-0.1650, -0.1809,  0.0175,  ..., -0.1875, -0.0915, -0.3078],
+        [ 0.1090,  0.0347, -0.1180,  ..., -0.1819,  0.0157, -0.1715],
+        [ 0.0991,  0.0769, -0.1049,  ...,  0.0755, -0.1819, -0.1499]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-09, -4.2422e-07, -5.5507e-07,  ..., -1.7043e-07,
+          1.3039e-08,  4.1910e-09],
+        [ 9.7789e-09,  7.6834e-08,  1.9511e-07,  ..., -3.6322e-08,
+          6.6590e-08, -2.4308e-07],
+        [ 1.5367e-08,  5.7742e-08,  1.1362e-07,  ...,  3.6787e-08,
+          8.1025e-08,  3.5390e-08],
+        ...,
+        [ 5.5879e-09,  4.0978e-08,  2.0955e-08,  ...,  6.1933e-08,
+          6.6124e-08,  1.4715e-07],
+        [-4.4703e-08,  1.1409e-07,  4.2189e-07,  ...,  2.2631e-07,
+         -5.1223e-08,  6.5193e-09],
+        [ 8.3819e-09,  9.6858e-08,  1.5181e-07,  ...,  5.3085e-08,
+          3.7253e-08,  1.6298e-08]], device='cuda:0')
+Epoch 210, bias, value: tensor([-3.0341e-02, -3.0034e-02, -1.0942e-02,  4.1137e-04,  7.7389e-05,
+         3.6310e-03,  6.2156e-03, -1.2507e-02,  1.2375e-02, -3.7897e-02],
+       device='cuda:0'), grad: tensor([-1.0757e-06,  3.6368e-07,  2.9849e-07,  1.1036e-07, -5.1176e-07,
+         2.1281e-07, -5.2666e-07, -3.9116e-07,  7.5856e-07,  7.8138e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 209, time 217.37, cls_loss 0.0010 cls_loss_mapping 0.0022 cls_loss_causal 0.5222 re_mapping 0.0043 re_causal 0.0133 /// teacc 99.10 lr 0.00010000
+Epoch 211, weight, value: tensor([[-0.0467,  0.0016,  0.1097,  ...,  0.0088, -0.0721, -0.0655],
+        [-0.1472, -0.1456, -0.1625,  ...,  0.0637,  0.0505,  0.3258],
+        [-0.1239, -0.1294, -0.1615,  ..., -0.1731,  0.0295, -0.1663],
+        ...,
+        [-0.1655, -0.1817,  0.0185,  ..., -0.1893, -0.0917, -0.3106],
+        [ 0.1095,  0.0348, -0.1192,  ..., -0.1831,  0.0157, -0.1716],
+        [ 0.0997,  0.0772, -0.1049,  ...,  0.0756, -0.1823, -0.1526]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09, -7.8231e-08, -7.4040e-08,  ..., -9.7789e-08,
+          1.3970e-09,  0.0000e+00],
+        [ 2.7940e-09,  5.1223e-09,  3.7253e-09,  ...,  5.5879e-09,
+          2.7940e-09,  0.0000e+00],
+        [ 6.5193e-09,  8.3819e-09,  3.2596e-09,  ...,  4.6566e-09,
+         -1.3970e-09,  0.0000e+00],
+        ...,
+        [ 4.6566e-09,  1.3504e-08,  2.7940e-09,  ...,  6.5193e-09,
+          4.1910e-09,  0.0000e+00],
+        [-5.8673e-08, -5.0757e-08,  6.5193e-09,  ...,  1.1642e-08,
+         -2.5611e-08,  0.0000e+00],
+        [-2.7940e-09,  6.2864e-08,  5.8208e-08,  ...,  6.2399e-08,
+          4.6566e-09,  0.0000e+00]], device='cuda:0')
+Epoch 211, bias, value: tensor([-0.0304, -0.0292, -0.0110,  0.0003, -0.0004,  0.0037,  0.0071, -0.0132,
+         0.0124, -0.0378], device='cuda:0'), grad: tensor([-2.1048e-07,  4.2515e-07, -6.3749e-07,  1.1176e-07,  2.4680e-08,
+         2.7418e-06, -2.7083e-06,  1.2340e-07, -1.2759e-07,  2.6403e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 210, time 217.04, cls_loss 0.0009 cls_loss_mapping 0.0027 cls_loss_causal 0.5063 re_mapping 0.0042 re_causal 0.0130 /// teacc 99.12 lr 0.00010000
+Epoch 212, weight, value: tensor([[-0.0469,  0.0018,  0.1098,  ...,  0.0088, -0.0724, -0.0655],
+        [-0.1480, -0.1463, -0.1628,  ...,  0.0639,  0.0505,  0.3264],
+        [-0.1247, -0.1294, -0.1619,  ..., -0.1735,  0.0295, -0.1665],
+        ...,
+        [-0.1655, -0.1821,  0.0184,  ..., -0.1896, -0.0918, -0.3130],
+        [ 0.1100,  0.0348, -0.1196,  ..., -0.1839,  0.0157, -0.1718],
+        [ 0.1002,  0.0773, -0.1050,  ...,  0.0757, -0.1826, -0.1533]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09, -2.0023e-08, -2.7940e-08,  ..., -1.6298e-08,
+          6.5193e-09,  2.7940e-09],
+        [ 2.2817e-08,  5.5879e-09,  4.1910e-09,  ..., -5.7742e-08,
+         -6.2399e-08, -2.6636e-07],
+        [ 9.3132e-09,  9.7789e-09,  3.2596e-09,  ...,  4.1444e-08,
+          2.5146e-08,  1.5879e-07],
+        ...,
+        [-1.3039e-08,  1.0245e-08,  4.1910e-09,  ...,  3.4925e-08,
+          3.8650e-08,  6.7521e-08],
+        [-1.2573e-08, -1.7695e-08,  3.3062e-08,  ...,  3.7253e-08,
+         -6.9849e-09,  2.7940e-09],
+        [-7.4506e-09,  1.0710e-08,  7.4040e-08,  ..., -6.9849e-09,
+          6.7521e-08,  9.3132e-09]], device='cuda:0')
+Epoch 212, bias, value: tensor([-0.0304, -0.0291, -0.0112,  0.0002, -0.0005,  0.0037,  0.0071, -0.0127,
+         0.0124, -0.0379], device='cuda:0'), grad: tensor([-2.7008e-08, -1.7229e-07,  6.6124e-08, -2.5146e-08, -1.0524e-07,
+         4.4238e-08, -1.2107e-07,  2.7940e-08,  7.1712e-08,  2.5565e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 211, time 217.39, cls_loss 0.0007 cls_loss_mapping 0.0021 cls_loss_causal 0.4816 re_mapping 0.0045 re_causal 0.0133 /// teacc 99.10 lr 0.00010000
+Epoch 213, weight, value: tensor([[-0.0464,  0.0023,  0.1100,  ...,  0.0089, -0.0731, -0.0657],
+        [-0.1494, -0.1473, -0.1632,  ...,  0.0638,  0.0504,  0.3269],
+        [-0.1252, -0.1295, -0.1630,  ..., -0.1743,  0.0295, -0.1670],
+        ...,
+        [-0.1658, -0.1826,  0.0182,  ..., -0.1897, -0.0920, -0.3135],
+        [ 0.1106,  0.0350, -0.1185,  ..., -0.1839,  0.0158, -0.1719],
+        [ 0.1006,  0.0773, -0.1051,  ...,  0.0759, -0.1830, -0.1538]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09, -7.0315e-08, -9.2667e-08,  ..., -1.0617e-07,
+          9.3132e-09,  3.7253e-09],
+        [ 6.5193e-09,  2.5146e-08,  3.3528e-08,  ..., -1.3039e-08,
+         -1.0990e-07, -3.2922e-07],
+        [ 9.7789e-09,  1.0245e-08,  7.4506e-09,  ...,  2.1886e-08,
+          2.5146e-08,  4.4238e-08],
+        ...,
+        [ 1.6764e-08,  1.3504e-08,  8.8476e-09,  ...,  3.5390e-08,
+          5.1223e-08,  9.9186e-08],
+        [ 2.3283e-09,  5.5879e-09,  7.9162e-09,  ...,  1.4435e-08,
+          1.3970e-08,  2.6077e-08],
+        [-3.3993e-08, -6.5193e-09,  6.3330e-08,  ..., -1.3039e-08,
+          7.6834e-08,  1.4435e-08]], device='cuda:0')
+Epoch 213, bias, value: tensor([-3.0219e-02, -2.9289e-02, -1.1152e-02,  8.2337e-05, -6.4182e-04,
+         3.6797e-03,  6.8922e-03, -1.2694e-02,  1.2478e-02, -3.7782e-02],
+       device='cuda:0'), grad: tensor([-2.8685e-07,  2.4401e-06,  1.9744e-07,  4.7963e-08,  1.1232e-06,
+         4.2841e-08,  1.5507e-07, -4.3996e-06,  1.0151e-07,  5.7928e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 212, time 217.27, cls_loss 0.0009 cls_loss_mapping 0.0036 cls_loss_causal 0.4988 re_mapping 0.0046 re_causal 0.0134 /// teacc 99.11 lr 0.00010000
+Epoch 214, weight, value: tensor([[-0.0466,  0.0024,  0.1099,  ...,  0.0088, -0.0739, -0.0655],
+        [-0.1518, -0.1496, -0.1637,  ...,  0.0635,  0.0504,  0.3277],
+        [-0.1260, -0.1296, -0.1634,  ..., -0.1749,  0.0295, -0.1675],
+        ...,
+        [-0.1659, -0.1831,  0.0179,  ..., -0.1898, -0.0924, -0.3149],
+        [ 0.1113,  0.0352, -0.1186,  ..., -0.1843,  0.0158, -0.1720],
+        [ 0.1020,  0.0782, -0.1050,  ...,  0.0763, -0.1838, -0.1560]],
+       device='cuda:0'), grad: tensor([[ 3.2596e-09, -3.4925e-08, -6.0536e-08,  ..., -5.8673e-08,
+          2.7474e-08,  8.8476e-09],
+        [ 6.5193e-09,  2.5146e-08,  1.4901e-08,  ..., -4.8196e-07,
+          8.8476e-09, -5.4808e-07],
+        [ 1.1176e-08, -4.1956e-07,  5.3085e-08,  ...,  3.0734e-08,
+         -8.4518e-07,  2.0955e-08],
+        ...,
+        [ 3.1199e-08,  1.5181e-07,  3.0966e-07,  ...,  2.9523e-07,
+          4.4517e-07,  2.9616e-07],
+        [-1.3504e-08,  1.3970e-08,  2.4214e-08,  ...,  6.9849e-09,
+          5.8673e-08,  4.1910e-09],
+        [-5.4017e-08,  1.3504e-08,  2.6356e-07,  ...,  1.4575e-07,
+          1.6438e-07,  1.8114e-07]], device='cuda:0')
+Epoch 214, bias, value: tensor([-3.0328e-02, -2.9536e-02, -1.1143e-02,  1.9435e-05, -1.6688e-03,
+         3.6965e-03,  7.3846e-03, -1.2631e-02,  1.2550e-02, -3.7208e-02],
+       device='cuda:0'), grad: tensor([ 1.8626e-09, -1.2247e-06, -4.2841e-06,  9.4483e-07, -1.5860e-06,
+         1.3895e-06,  3.4878e-07,  3.0212e-06,  3.0082e-07,  1.0841e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 213, time 217.35, cls_loss 0.0009 cls_loss_mapping 0.0031 cls_loss_causal 0.5230 re_mapping 0.0043 re_causal 0.0128 /// teacc 99.04 lr 0.00010000
+Epoch 215, weight, value: tensor([[-0.0467,  0.0025,  0.1106,  ...,  0.0092, -0.0716, -0.0624],
+        [-0.1528, -0.1511, -0.1673,  ...,  0.0627,  0.0498,  0.3275],
+        [-0.1277, -0.1298, -0.1643,  ..., -0.1765,  0.0295, -0.1684],
+        ...,
+        [-0.1663, -0.1835,  0.0177,  ..., -0.1900, -0.0927, -0.3164],
+        [ 0.1134,  0.0356, -0.1191,  ..., -0.1850,  0.0159, -0.1723],
+        [ 0.1022,  0.0773, -0.1051,  ...,  0.0764, -0.1843, -0.1574]],
+       device='cuda:0'), grad: tensor([[ 3.0268e-08, -6.2864e-08,  2.7940e-09,  ...,  4.6566e-10,
+          1.9092e-08,  4.1910e-08],
+        [ 1.4622e-07,  4.3772e-08,  4.8429e-08,  ..., -3.8603e-07,
+          4.9826e-08, -9.2154e-07],
+        [ 1.1530e-06,  7.2317e-07,  5.9139e-08,  ...,  1.7881e-07,
+          7.1339e-07,  1.2107e-07],
+        ...,
+        [ 1.7649e-07,  1.9139e-07, -4.3167e-07,  ...,  2.6403e-07,
+          9.9186e-08,  5.0943e-07],
+        [-1.1176e-08, -2.7008e-08,  2.5146e-08,  ...,  2.7940e-08,
+         -1.9092e-08,  2.6543e-08],
+        [-9.4529e-08, -4.0047e-08,  3.1618e-07,  ..., -4.8429e-08,
+          5.6811e-08,  9.6858e-08]], device='cuda:0')
+Epoch 215, bias, value: tensor([-0.0298, -0.0302, -0.0112,  0.0001, -0.0018,  0.0036,  0.0075, -0.0125,
+         0.0127, -0.0375], device='cuda:0'), grad: tensor([ 6.6869e-07, -7.0222e-07,  4.7348e-06, -6.3777e-06,  6.0070e-07,
+         7.4739e-07,  1.2107e-08, -2.0023e-06,  1.5227e-07,  2.1495e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 214, time 217.23, cls_loss 0.0008 cls_loss_mapping 0.0023 cls_loss_causal 0.4873 re_mapping 0.0045 re_causal 0.0134 /// teacc 99.11 lr 0.00010000
+Epoch 216, weight, value: tensor([[-0.0468,  0.0026,  0.1108,  ...,  0.0093, -0.0715, -0.0623],
+        [-0.1534, -0.1519, -0.1680,  ...,  0.0626,  0.0497,  0.3279],
+        [-0.1290, -0.1299, -0.1648,  ..., -0.1779,  0.0295, -0.1690],
+        ...,
+        [-0.1667, -0.1840,  0.0177,  ..., -0.1903, -0.0928, -0.3173],
+        [ 0.1142,  0.0355, -0.1223,  ..., -0.1880,  0.0159, -0.1724],
+        [ 0.1025,  0.0773, -0.1053,  ...,  0.0764, -0.1846, -0.1588]],
+       device='cuda:0'), grad: tensor([[ 1.3923e-07,  1.7462e-07, -3.4571e-06,  ..., -6.7195e-07,
+          4.1910e-09,  0.0000e+00],
+        [ 3.3528e-08,  6.2864e-08,  4.1910e-08,  ...,  2.1886e-08,
+          3.7253e-09,  0.0000e+00],
+        [ 1.9837e-07,  1.9418e-07,  4.2282e-07,  ...,  9.6858e-08,
+          1.0338e-07,  0.0000e+00],
+        ...,
+        [ 1.2247e-07,  1.7276e-07,  4.0513e-08,  ...,  6.8452e-08,
+          1.7695e-08,  0.0000e+00],
+        [-2.1700e-07, -8.8010e-08,  7.3249e-07,  ...,  2.7241e-07,
+         -1.8394e-07,  0.0000e+00],
+        [-9.1596e-07, -9.7789e-07,  4.1956e-07,  ..., -5.8115e-07,
+         -1.2107e-08,  0.0000e+00]], device='cuda:0')
+Epoch 216, bias, value: tensor([-0.0297, -0.0305, -0.0111,  0.0002, -0.0019,  0.0034,  0.0091, -0.0122,
+         0.0126, -0.0377], device='cuda:0'), grad: tensor([-4.9472e-06,  2.1141e-07,  1.3877e-06, -4.0710e-05,  7.8324e-07,
+         4.1783e-05,  2.2128e-06,  4.9826e-07,  2.4633e-07, -1.5981e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 215, time 217.22, cls_loss 0.0009 cls_loss_mapping 0.0030 cls_loss_causal 0.4842 re_mapping 0.0043 re_causal 0.0128 /// teacc 99.09 lr 0.00010000
+Epoch 217, weight, value: tensor([[-0.0470,  0.0026,  0.1108,  ...,  0.0093, -0.0717, -0.0624],
+        [-0.1542, -0.1527, -0.1682,  ...,  0.0628,  0.0500,  0.3294],
+        [-0.1281, -0.1287, -0.1617,  ..., -0.1796,  0.0302, -0.1713],
+        ...,
+        [-0.1674, -0.1856,  0.0179,  ..., -0.1905, -0.0930, -0.3184],
+        [ 0.1145,  0.0345, -0.1254,  ..., -0.1883,  0.0153, -0.1725],
+        [ 0.1027,  0.0771, -0.1056,  ...,  0.0766, -0.1853, -0.1600]],
+       device='cuda:0'), grad: tensor([[ 1.3504e-08, -1.8626e-08,  8.2888e-07,  ...,  2.2445e-07,
+          2.7940e-09,  1.1176e-08],
+        [ 2.4214e-08,  1.4435e-08,  2.5705e-07,  ..., -4.6659e-07,
+         -1.4156e-07, -1.0803e-06],
+        [ 7.1712e-08,  7.7765e-08,  1.1045e-06,  ...,  4.1304e-07,
+          4.7963e-08,  1.7695e-07],
+        ...,
+        [ 1.5786e-07,  7.6368e-08,  1.1642e-07,  ...,  4.8941e-07,
+          8.1956e-08,  6.4261e-07],
+        [-7.8697e-08, -4.1910e-08,  5.4482e-07,  ...,  1.7881e-07,
+         -3.0268e-08,  3.1199e-08],
+        [-4.4284e-07, -1.3830e-07, -2.7940e-08,  ..., -2.6729e-07,
+          1.9092e-08,  1.4761e-07]], device='cuda:0')
+Epoch 217, bias, value: tensor([-0.0297, -0.0305, -0.0103,  0.0002, -0.0017,  0.0035,  0.0094, -0.0120,
+         0.0116, -0.0381], device='cuda:0'), grad: tensor([ 2.4103e-06, -1.6503e-06,  3.9525e-06,  2.9430e-07,  2.9355e-06,
+         9.6112e-06, -1.9938e-05,  1.8626e-06,  1.2927e-06, -7.4692e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 216, time 217.25, cls_loss 0.0008 cls_loss_mapping 0.0021 cls_loss_causal 0.5116 re_mapping 0.0043 re_causal 0.0125 /// teacc 99.11 lr 0.00010000
+Epoch 218, weight, value: tensor([[-0.0471,  0.0032,  0.1111,  ...,  0.0094, -0.0718, -0.0624],
+        [-0.1543, -0.1538, -0.1684,  ...,  0.0631,  0.0501,  0.3301],
+        [-0.1291, -0.1288, -0.1619,  ..., -0.1811,  0.0301, -0.1722],
+        ...,
+        [-0.1677, -0.1861,  0.0171,  ..., -0.1908, -0.0932, -0.3191],
+        [ 0.1145,  0.0343, -0.1258,  ..., -0.1892,  0.0153, -0.1728],
+        [ 0.1031,  0.0770, -0.1059,  ...,  0.0766, -0.1858, -0.1606]],
+       device='cuda:0'), grad: tensor([[ 1.1409e-07,  8.6473e-07,  4.8755e-07,  ...,  1.9092e-08,
+          5.1223e-08,  7.4506e-09],
+        [ 2.1374e-07,  3.0622e-06,  3.7719e-08,  ...,  1.3039e-08,
+          6.7987e-08, -9.9186e-08],
+        [ 4.1677e-07,  1.7872e-06,  7.8697e-07,  ...,  1.0943e-07,
+          3.1479e-07,  1.9558e-08],
+        ...,
+        [ 5.5879e-08, -5.0925e-06,  7.9628e-08,  ...,  9.4995e-08,
+          1.1316e-07,  1.1642e-08],
+        [-1.7975e-07,  6.4541e-07,  2.5844e-07,  ...,  7.3109e-08,
+          4.7032e-08,  2.6543e-08],
+        [ 4.6566e-08,  4.2329e-07,  4.8429e-08,  ..., -5.4482e-08,
+          4.5169e-08,  1.8626e-09]], device='cuda:0')
+Epoch 218, bias, value: tensor([-0.0294, -0.0304, -0.0103,  0.0002, -0.0013,  0.0035,  0.0097, -0.0121,
+         0.0116, -0.0384], device='cuda:0'), grad: tensor([ 2.0415e-06,  2.2233e-05,  4.9248e-06,  1.6510e-05,  2.4727e-07,
+        -1.1429e-05,  4.5123e-07, -4.0293e-05,  2.8182e-06,  2.5183e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 217, time 217.34, cls_loss 0.0009 cls_loss_mapping 0.0023 cls_loss_causal 0.4770 re_mapping 0.0043 re_causal 0.0126 /// teacc 99.14 lr 0.00010000
+Epoch 219, weight, value: tensor([[-0.0474,  0.0032,  0.1112,  ...,  0.0094, -0.0721, -0.0624],
+        [-0.1551, -0.1548, -0.1687,  ...,  0.0636,  0.0503,  0.3306],
+        [-0.1306, -0.1290, -0.1620,  ..., -0.1821,  0.0301, -0.1726],
+        ...,
+        [-0.1685, -0.1867,  0.0170,  ..., -0.1916, -0.0938, -0.3197],
+        [ 0.1179,  0.0347, -0.1258,  ..., -0.1895,  0.0153, -0.1730],
+        [ 0.1027,  0.0767, -0.1066,  ...,  0.0765, -0.1871, -0.1616]],
+       device='cuda:0'), grad: tensor([[ 7.7765e-08, -4.9826e-07, -1.6876e-06,  ..., -1.0552e-06,
+          3.1665e-08, -3.7765e-07],
+        [ 2.2352e-08,  3.5856e-08,  6.2864e-08,  ...,  4.8429e-08,
+          9.3132e-09,  7.9162e-09],
+        [ 7.9162e-08,  5.3085e-08,  9.6392e-08,  ...,  4.6100e-08,
+          6.9384e-08,  1.3504e-08],
+        ...,
+        [ 1.2945e-07,  6.1933e-08,  1.0710e-08,  ...,  9.5461e-08,
+          5.5879e-09,  2.3283e-09],
+        [ 1.8999e-07,  1.4389e-07,  3.0734e-08,  ...,  1.3551e-07,
+         -5.1688e-08,  4.6566e-09],
+        [-6.9616e-07, -2.2817e-08,  2.2072e-07,  ..., -2.4308e-07,
+          5.0291e-08,  3.6787e-08]], device='cuda:0')
+Epoch 219, bias, value: tensor([-2.9466e-02, -3.0425e-02, -1.0354e-02,  7.6214e-05, -5.0525e-04,
+         3.5466e-03,  9.8483e-03, -1.2111e-02,  1.1776e-02, -3.9061e-02],
+       device='cuda:0'), grad: tensor([-3.2913e-06,  3.1758e-07,  8.1863e-07,  3.3481e-07, -1.2107e-08,
+        -1.5628e-06,  3.5763e-06, -2.0349e-07,  7.6508e-07, -7.5903e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 218, time 217.20, cls_loss 0.0007 cls_loss_mapping 0.0016 cls_loss_causal 0.5125 re_mapping 0.0040 re_causal 0.0129 /// teacc 99.03 lr 0.00010000
+Epoch 220, weight, value: tensor([[-0.0479,  0.0034,  0.1114,  ...,  0.0095, -0.0722, -0.0622],
+        [-0.1561, -0.1558, -0.1688,  ...,  0.0637,  0.0503,  0.3310],
+        [-0.1322, -0.1291, -0.1622,  ..., -0.1829,  0.0301, -0.1730],
+        ...,
+        [-0.1692, -0.1869,  0.0167,  ..., -0.1918, -0.0939, -0.3204],
+        [ 0.1191,  0.0357, -0.1257,  ..., -0.1879,  0.0154, -0.1731],
+        [ 0.1036,  0.0769, -0.1066,  ...,  0.0766, -0.1873, -0.1625]],
+       device='cuda:0'), grad: tensor([[ 2.3330e-07,  1.0803e-07,  3.8650e-08,  ...,  2.8871e-08,
+          4.5635e-08,  9.3132e-10],
+        [ 5.1688e-08,  3.3993e-08,  2.1420e-08,  ...,  1.1642e-08,
+          2.1886e-08, -3.0268e-08],
+        [ 1.4203e-07,  8.9407e-08,  4.4703e-08,  ...,  2.8871e-08,
+          5.9139e-08,  4.1910e-09],
+        ...,
+        [ 2.6077e-08,  4.1444e-08,  1.8626e-08,  ...,  4.3306e-08,
+          2.6077e-08,  1.3504e-08],
+        [-5.6252e-07, -3.3481e-07, -1.4482e-07,  ..., -3.3993e-08,
+         -2.0256e-07,  1.8626e-09],
+        [ 3.8650e-08,  2.6543e-08,  4.2729e-06,  ..., -7.1712e-08,
+          4.0978e-08,  2.7940e-09]], device='cuda:0')
+Epoch 220, bias, value: tensor([-2.9374e-02, -3.0543e-02, -1.0421e-02,  4.3541e-05, -5.3197e-04,
+         3.4600e-03,  8.1794e-03, -1.2119e-02,  1.2232e-02, -3.8959e-02],
+       device='cuda:0'), grad: tensor([ 6.6543e-07,  6.2911e-07, -1.0207e-06, -2.1467e-07, -1.1444e-05,
+         8.5682e-07,  1.8300e-07,  9.2853e-07, -2.4736e-06,  1.1913e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 219, time 217.28, cls_loss 0.0007 cls_loss_mapping 0.0016 cls_loss_causal 0.4766 re_mapping 0.0040 re_causal 0.0121 /// teacc 99.08 lr 0.00010000
+Epoch 221, weight, value: tensor([[-0.0485,  0.0032,  0.1114,  ...,  0.0094, -0.0724, -0.0622],
+        [-0.1570, -0.1574, -0.1689,  ...,  0.0641,  0.0502,  0.3315],
+        [-0.1333, -0.1292, -0.1622,  ..., -0.1837,  0.0300, -0.1733],
+        ...,
+        [-0.1698, -0.1874,  0.0164,  ..., -0.1925, -0.0939, -0.3215],
+        [ 0.1211,  0.0358, -0.1258,  ..., -0.1874,  0.0155, -0.1726],
+        [ 0.1041,  0.0773, -0.1066,  ...,  0.0769, -0.1876, -0.1640]],
+       device='cuda:0'), grad: tensor([[ 2.0955e-09, -3.5856e-08, -2.6852e-05,  ..., -2.7269e-05,
+          1.5134e-08,  9.7789e-09],
+        [ 3.9581e-09,  6.9849e-09,  9.8953e-08,  ..., -1.6298e-09,
+         -6.1002e-08, -2.3982e-07],
+        [ 6.7521e-09,  7.9162e-09,  5.4762e-07,  ...,  5.6624e-07,
+          1.7695e-08,  4.0280e-08],
+        ...,
+        [ 1.1874e-08,  9.7789e-09,  1.3039e-08,  ...,  5.1688e-08,
+          1.6997e-08,  6.4261e-08],
+        [ 3.4925e-09,  7.5670e-08,  3.2131e-08,  ...,  5.3784e-08,
+          1.0245e-08,  3.8650e-08],
+        [-7.4739e-08, -5.3551e-09,  1.4948e-07,  ...,  9.3132e-08,
+          1.2107e-08,  3.4925e-08]], device='cuda:0')
+Epoch 221, bias, value: tensor([-0.0295, -0.0303, -0.0105, -0.0001, -0.0009,  0.0036,  0.0084, -0.0123,
+         0.0124, -0.0388], device='cuda:0'), grad: tensor([-6.8367e-05, -9.2667e-08,  1.6931e-06,  1.4203e-08,  2.6147e-07,
+        -3.7230e-07,  6.6519e-05, -1.6973e-07,  3.5111e-07,  2.6007e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 220, time 217.29, cls_loss 0.0009 cls_loss_mapping 0.0019 cls_loss_causal 0.5069 re_mapping 0.0041 re_causal 0.0122 /// teacc 99.08 lr 0.00010000
+Epoch 222, weight, value: tensor([[-0.0482,  0.0035,  0.1118,  ...,  0.0096, -0.0725, -0.0623],
+        [-0.1584, -0.1580, -0.1690,  ...,  0.0643,  0.0505,  0.3328],
+        [-0.1342, -0.1293, -0.1623,  ..., -0.1849,  0.0300, -0.1742],
+        ...,
+        [-0.1705, -0.1880,  0.0161,  ..., -0.1928, -0.0941, -0.3226],
+        [ 0.1214,  0.0358, -0.1258,  ..., -0.1882,  0.0155, -0.1740],
+        [ 0.1050,  0.0775, -0.1067,  ...,  0.0771, -0.1883, -0.1657]],
+       device='cuda:0'), grad: tensor([[ 1.6913e-06,  6.1393e-06,  3.9972e-06,  ...,  1.0356e-05,
+          7.9162e-09,  7.4506e-09],
+        [ 3.2131e-08,  5.4250e-08,  5.0059e-08,  ..., -1.1874e-08,
+         -6.4261e-08, -8.8243e-08],
+        [ 5.3318e-08,  8.5216e-08,  1.1688e-07,  ...,  1.5320e-07,
+          1.8859e-08,  1.7928e-08],
+        ...,
+        [ 5.0059e-08,  7.7300e-08,  7.5903e-08,  ...,  1.4389e-07,
+          2.4214e-08,  3.3062e-08],
+        [ 2.7544e-07,  1.8440e-07,  2.6077e-08,  ...,  3.0105e-07,
+          3.2596e-09,  6.0536e-09],
+        [-4.1388e-06, -8.2180e-06, -4.4517e-06,  ..., -1.2964e-05,
+          1.6345e-07,  7.4506e-09]], device='cuda:0')
+Epoch 222, bias, value: tensor([-0.0293, -0.0304, -0.0105,  0.0003, -0.0008,  0.0033,  0.0077, -0.0121,
+         0.0123, -0.0388], device='cuda:0'), grad: tensor([ 2.1785e-05, -1.1665e-07,  4.6683e-07,  4.1686e-06,  1.6252e-07,
+         9.1502e-08,  7.1619e-07,  4.6846e-07,  5.9605e-07, -2.8297e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 221, time 217.16, cls_loss 0.0010 cls_loss_mapping 0.0024 cls_loss_causal 0.5118 re_mapping 0.0040 re_causal 0.0121 /// teacc 99.09 lr 0.00010000
+Epoch 223, weight, value: tensor([[-0.0473,  0.0042,  0.1123,  ...,  0.0102, -0.0731, -0.0629],
+        [-0.1594, -0.1588, -0.1693,  ...,  0.0651,  0.0484,  0.3353],
+        [-0.1322, -0.1294, -0.1624,  ..., -0.1868,  0.0298, -0.1757],
+        ...,
+        [-0.1715, -0.1889,  0.0194,  ..., -0.1932, -0.0909, -0.3240],
+        [ 0.1215,  0.0357, -0.1260,  ..., -0.1889,  0.0154, -0.1753],
+        [ 0.1059,  0.0772, -0.1071,  ...,  0.0771, -0.1887, -0.1673]],
+       device='cuda:0'), grad: tensor([[ 1.4296e-06,  1.7062e-06,  7.5996e-07,  ...,  4.2431e-06,
+          9.4296e-07,  3.3975e-06],
+        [ 1.4668e-08,  1.5134e-08,  1.4901e-08,  ..., -1.3784e-05,
+         -4.1239e-06, -1.5378e-05],
+        [ 1.6764e-08,  2.1420e-08,  1.2107e-08,  ...,  2.8964e-07,
+         -1.6298e-07,  3.1409e-07],
+        ...,
+        [ 5.9837e-08,  3.8184e-08,  5.2387e-08,  ...,  2.0000e-07,
+          1.7788e-07,  1.5274e-07],
+        [ 2.3022e-06,  3.0622e-06,  1.3858e-06,  ...,  5.5060e-06,
+          1.0692e-06,  3.7700e-06],
+        [-3.8296e-06, -4.7013e-06, -1.8254e-06,  ..., -3.2783e-06,
+          2.9989e-07,  1.5274e-07]], device='cuda:0')
+Epoch 223, bias, value: tensor([-2.8865e-02, -3.1918e-02, -1.0795e-02,  5.1149e-05, -1.3629e-03,
+         3.3954e-03,  6.9416e-03, -9.8029e-03,  1.2214e-02, -3.8911e-02],
+       device='cuda:0'), grad: tensor([ 1.3687e-05, -3.3975e-05, -1.5855e-05,  2.5034e-06, -1.2759e-06,
+         1.1018e-06,  1.6838e-05,  6.3181e-06,  1.9774e-05, -9.0972e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 222, time 217.30, cls_loss 0.0009 cls_loss_mapping 0.0024 cls_loss_causal 0.4891 re_mapping 0.0042 re_causal 0.0123 /// teacc 99.07 lr 0.00010000
+Epoch 224, weight, value: tensor([[-0.0472,  0.0045,  0.1125,  ...,  0.0103, -0.0733, -0.0632],
+        [-0.1600, -0.1601, -0.1693,  ...,  0.0656,  0.0486,  0.3365],
+        [-0.1327, -0.1296, -0.1625,  ..., -0.1880,  0.0297, -0.1761],
+        ...,
+        [-0.1720, -0.1893,  0.0186,  ..., -0.1936, -0.0910, -0.3254],
+        [ 0.1220,  0.0357, -0.1261,  ..., -0.1896,  0.0155, -0.1761],
+        [ 0.1065,  0.0770, -0.1073,  ...,  0.0771, -0.1891, -0.1693]],
+       device='cuda:0'), grad: tensor([[ 3.3993e-08, -2.1886e-08, -3.3528e-08,  ..., -3.3760e-08,
+          1.3737e-08,  3.4925e-09],
+        [ 3.9814e-08,  5.5414e-08,  4.8894e-09,  ..., -5.3551e-09,
+          1.1409e-08, -5.1688e-08],
+        [ 2.1677e-07,  1.3411e-07,  2.7940e-09,  ...,  2.5146e-08,
+          8.0792e-08,  2.1420e-08],
+        ...,
+        [ 1.0291e-07,  3.2363e-08,  4.1910e-09,  ...,  5.9139e-08,
+          4.8894e-08,  1.8161e-08],
+        [-1.2182e-06, -6.2957e-07,  2.0955e-09,  ...,  7.4506e-09,
+         -3.8696e-07,  1.6298e-09],
+        [ 1.7975e-07,  1.9302e-07,  2.3050e-08,  ..., -6.1467e-08,
+          5.6345e-08,  3.7253e-09]], device='cuda:0')
+Epoch 224, bias, value: tensor([-0.0288, -0.0319, -0.0109,  0.0004, -0.0013,  0.0038,  0.0048, -0.0096,
+         0.0122, -0.0390], device='cuda:0'), grad: tensor([ 2.7940e-09,  2.7590e-07,  2.1793e-07,  1.2424e-06, -3.2363e-08,
+         1.9139e-07,  1.2736e-07,  1.5507e-07, -2.9039e-06,  7.4599e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 223, time 217.26, cls_loss 0.0008 cls_loss_mapping 0.0026 cls_loss_causal 0.4814 re_mapping 0.0043 re_causal 0.0123 /// teacc 98.95 lr 0.00010000
+Epoch 225, weight, value: tensor([[-0.0468,  0.0047,  0.1126,  ...,  0.0104, -0.0735, -0.0632],
+        [-0.1618, -0.1612, -0.1694,  ...,  0.0662,  0.0488,  0.3378],
+        [-0.1331, -0.1297, -0.1626,  ..., -0.1889,  0.0298, -0.1764],
+        ...,
+        [-0.1730, -0.1905,  0.0181,  ..., -0.1948, -0.0912, -0.3289],
+        [ 0.1229,  0.0359, -0.1262,  ..., -0.1900,  0.0155, -0.1763],
+        [ 0.1087,  0.0779, -0.1073,  ...,  0.0776, -0.1894, -0.1722]],
+       device='cuda:0'), grad: tensor([[ 5.2853e-08,  7.1013e-08,  2.3283e-10,  ...,  2.0256e-08,
+          1.7695e-08,  1.8394e-08],
+        [ 1.3574e-07,  1.7765e-07,  4.6566e-10,  ..., -7.4506e-09,
+          5.0757e-08, -1.0128e-07],
+        [-8.6706e-07, -1.4491e-06,  0.0000e+00,  ...,  1.1176e-08,
+          5.2154e-08,  1.4435e-08],
+        ...,
+        [ 3.4203e-07,  2.9500e-07,  5.5879e-09,  ...,  2.7940e-07,
+         -1.6461e-07,  3.8883e-08],
+        [-2.1141e-07, -2.3888e-07,  0.0000e+00,  ...,  1.0012e-08,
+         -1.8929e-07,  7.4506e-09],
+        [ 4.4797e-07,  1.0375e-06,  1.3970e-09,  ..., -3.0594e-07,
+          1.5134e-07,  6.5193e-09]], device='cuda:0')
+Epoch 225, bias, value: tensor([-0.0287, -0.0320, -0.0108,  0.0003, -0.0022,  0.0037,  0.0044, -0.0099,
+         0.0124, -0.0383], device='cuda:0'), grad: tensor([ 3.9209e-07,  1.2610e-06, -7.2382e-06,  5.2340e-07,  3.8324e-07,
+         5.4343e-07,  1.1595e-07, -3.7090e-07, -7.7579e-07,  5.1819e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 224, time 217.50, cls_loss 0.0010 cls_loss_mapping 0.0029 cls_loss_causal 0.4846 re_mapping 0.0043 re_causal 0.0124 /// teacc 99.06 lr 0.00010000
+Epoch 226, weight, value: tensor([[-0.0474,  0.0046,  0.1126,  ...,  0.0103, -0.0739, -0.0635],
+        [-0.1627, -0.1625, -0.1696,  ...,  0.0666,  0.0502,  0.3389],
+        [-0.1335, -0.1298, -0.1627,  ..., -0.1910,  0.0295, -0.1773],
+        ...,
+        [-0.1734, -0.1909,  0.0176,  ..., -0.1952, -0.0917, -0.3295],
+        [ 0.1242,  0.0358, -0.1262,  ..., -0.1903,  0.0155, -0.1772],
+        [ 0.1104,  0.0787, -0.1073,  ...,  0.0781, -0.1897, -0.1734]],
+       device='cuda:0'), grad: tensor([[ 2.4913e-08,  2.8405e-08,  4.6799e-08,  ...,  5.0757e-08,
+          3.2829e-08,  1.2340e-08],
+        [ 1.8114e-07,  2.2631e-07,  6.0536e-09,  ..., -6.2864e-09,
+         -6.4727e-08, -1.0971e-06],
+        [ 1.7229e-07,  1.9069e-07,  2.0955e-09,  ...,  4.1910e-09,
+          3.2643e-07,  4.4820e-07],
+        ...,
+        [ 1.2270e-07,  1.3108e-07,  5.3784e-08,  ...,  1.0710e-08,
+          1.5809e-07,  3.7556e-07],
+        [-1.0729e-06, -1.2787e-06,  1.3039e-08,  ...,  1.5134e-08,
+         -1.5059e-06,  7.9162e-09],
+        [ 6.7288e-08,  1.0151e-07,  1.5018e-07,  ..., -2.1653e-08,
+          5.1456e-08,  6.9849e-09]], device='cuda:0')
+Epoch 226, bias, value: tensor([-0.0289, -0.0312, -0.0105, -0.0012, -0.0030,  0.0051,  0.0032, -0.0104,
+         0.0124, -0.0379], device='cuda:0'), grad: tensor([ 4.4052e-07,  3.5577e-06, -1.9632e-06,  8.2701e-07,  1.3225e-07,
+         4.1425e-06,  2.4540e-07,  1.3048e-06, -1.0394e-05,  1.6857e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 225, time 217.05, cls_loss 0.0010 cls_loss_mapping 0.0032 cls_loss_causal 0.5393 re_mapping 0.0041 re_causal 0.0125 /// teacc 98.99 lr 0.00010000
+Epoch 227, weight, value: tensor([[-0.0480,  0.0048,  0.1128,  ...,  0.0103, -0.0736, -0.0637],
+        [-0.1637, -0.1639, -0.1700,  ...,  0.0670,  0.0504,  0.3397],
+        [-0.1339, -0.1299, -0.1630,  ..., -0.1925,  0.0296, -0.1778],
+        ...,
+        [-0.1746, -0.1913,  0.0172,  ..., -0.1960, -0.0920, -0.3303],
+        [ 0.1246,  0.0356, -0.1264,  ..., -0.1911,  0.0155, -0.1776],
+        [ 0.1121,  0.0794, -0.1073,  ...,  0.0783, -0.1901, -0.1743]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09, -1.6531e-08,  1.5926e-07,  ...,  2.3120e-07,
+          2.3516e-08,  8.7544e-08],
+        [ 4.8894e-09,  3.7253e-09,  4.8196e-08,  ..., -8.9407e-07,
+         -2.8149e-07, -1.3793e-06],
+        [ 2.0489e-08,  6.0536e-09,  1.8626e-09,  ...,  1.3644e-07,
+          4.0978e-08,  1.9884e-07],
+        ...,
+        [ 1.9092e-08,  9.5461e-09,  1.1642e-08,  ...,  2.9872e-07,
+          1.4459e-07,  4.4145e-07],
+        [-3.9348e-08,  9.0804e-09,  4.7265e-08,  ...,  1.2829e-07,
+         -4.7032e-08,  1.0012e-07],
+        [-6.6822e-08, -3.2363e-08,  7.1479e-08,  ...,  1.8766e-07,
+          1.5087e-07,  3.5227e-07]], device='cuda:0')
+Epoch 227, bias, value: tensor([-0.0288, -0.0313, -0.0119, -0.0016, -0.0032,  0.0053,  0.0032, -0.0085,
+         0.0123, -0.0374], device='cuda:0'), grad: tensor([ 6.2771e-07, -2.8890e-06,  3.2689e-07,  1.3295e-07, -3.0594e-07,
+         2.6380e-07, -5.9605e-07,  1.1986e-06,  1.8347e-07,  1.0757e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 226, time 217.22, cls_loss 0.0008 cls_loss_mapping 0.0022 cls_loss_causal 0.4660 re_mapping 0.0043 re_causal 0.0122 /// teacc 99.03 lr 0.00010000
+Epoch 228, weight, value: tensor([[-0.0486,  0.0048,  0.1128,  ...,  0.0103, -0.0739, -0.0639],
+        [-0.1647, -0.1652, -0.1702,  ...,  0.0680,  0.0506,  0.3415],
+        [-0.1352, -0.1302, -0.1631,  ..., -0.1942,  0.0295, -0.1792],
+        ...,
+        [-0.1746, -0.1904,  0.0166,  ..., -0.1964, -0.0921, -0.3329],
+        [ 0.1261,  0.0358, -0.1265,  ..., -0.1922,  0.0156, -0.1773],
+        [ 0.1123,  0.0793, -0.1074,  ...,  0.0783, -0.1909, -0.1776]],
+       device='cuda:0'), grad: tensor([[ 2.2096e-07,  1.5483e-07, -3.1665e-08,  ...,  2.2002e-07,
+          2.3283e-09,  4.1910e-09],
+        [ 4.7265e-08,  3.7951e-08,  4.1910e-09,  ...,  1.8626e-09,
+         -3.6089e-08, -1.1455e-07],
+        [ 1.2573e-08,  7.4506e-09,  9.3132e-10,  ...,  1.6298e-08,
+          1.5367e-08,  2.5146e-08],
+        ...,
+        [ 2.4308e-07,  1.5483e-07,  1.3853e-07,  ...,  2.7800e-07,
+          2.2119e-08,  5.1456e-08],
+        [ 4.6589e-07,  4.1397e-07,  2.7940e-09,  ...,  5.1828e-07,
+          6.9849e-10,  6.5193e-09],
+        [-1.1427e-06, -8.9640e-07,  1.9185e-07,  ..., -1.2154e-06,
+          7.2177e-09,  1.0477e-08]], device='cuda:0')
+Epoch 228, bias, value: tensor([-0.0289, -0.0311, -0.0124, -0.0015, -0.0032,  0.0052,  0.0034, -0.0079,
+         0.0125, -0.0377], device='cuda:0'), grad: tensor([ 5.3551e-07,  4.5495e-07, -8.4052e-08,  3.6787e-07, -6.9477e-07,
+         7.1712e-08,  4.8894e-08,  4.4028e-07,  1.2862e-06, -2.4214e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 227, time 217.19, cls_loss 0.0009 cls_loss_mapping 0.0030 cls_loss_causal 0.4975 re_mapping 0.0042 re_causal 0.0124 /// teacc 99.17 lr 0.00010000
+Epoch 229, weight, value: tensor([[-0.0485,  0.0051,  0.1129,  ...,  0.0103, -0.0741, -0.0640],
+        [-0.1654, -0.1656, -0.1706,  ...,  0.0685,  0.0506,  0.3428],
+        [-0.1360, -0.1304, -0.1632,  ..., -0.1955,  0.0295, -0.1799],
+        ...,
+        [-0.1759, -0.1918,  0.0154,  ..., -0.1980, -0.0923, -0.3348],
+        [ 0.1273,  0.0359, -0.1267,  ..., -0.1931,  0.0157, -0.1780],
+        [ 0.1135,  0.0795, -0.1084,  ...,  0.0782, -0.1918, -0.1795]],
+       device='cuda:0'), grad: tensor([[ 1.1176e-08, -3.6322e-08, -7.3109e-08,  ..., -6.1467e-08,
+          1.1642e-08,  2.3283e-09],
+        [ 2.9802e-08,  1.6298e-08,  3.7253e-09,  ..., -5.3085e-08,
+          2.8405e-08, -1.2061e-07],
+        [ 1.2200e-07,  5.6345e-08,  5.5879e-09,  ...,  2.5146e-08,
+          1.0990e-07,  8.8476e-09],
+        ...,
+        [ 3.0268e-08,  2.1420e-08,  3.2596e-09,  ...,  4.0978e-08,
+          1.1642e-08,  3.4925e-08],
+        [-2.0070e-07, -5.3085e-08,  4.6566e-09,  ...,  1.4901e-08,
+         -2.4447e-07,  3.7253e-09],
+        [-3.9581e-08,  1.1642e-08,  4.1910e-08,  ...,  2.6077e-08,
+          6.9849e-09,  4.6566e-08]], device='cuda:0')
+Epoch 229, bias, value: tensor([-0.0288, -0.0310, -0.0124, -0.0015, -0.0018,  0.0053,  0.0032, -0.0083,
+         0.0126, -0.0383], device='cuda:0'), grad: tensor([-1.3551e-07, -4.6100e-08,  2.9476e-07, -9.2667e-08,  1.4529e-07,
+         1.0291e-07,  1.1642e-07,  1.6298e-07, -6.5472e-07,  1.2107e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 228, time 217.44, cls_loss 0.0008 cls_loss_mapping 0.0024 cls_loss_causal 0.5426 re_mapping 0.0040 re_causal 0.0125 /// teacc 99.19 lr 0.00010000
+Epoch 230, weight, value: tensor([[-0.0484,  0.0054,  0.1131,  ...,  0.0105, -0.0742, -0.0641],
+        [-0.1659, -0.1661, -0.1707,  ...,  0.0696,  0.0508,  0.3438],
+        [-0.1362, -0.1305, -0.1633,  ..., -0.1966,  0.0294, -0.1807],
+        ...,
+        [-0.1766, -0.1929,  0.0158,  ..., -0.1992, -0.0924, -0.3364],
+        [ 0.1281,  0.0360, -0.1269,  ..., -0.1936,  0.0158, -0.1781],
+        [ 0.1136,  0.0789, -0.1094,  ...,  0.0780, -0.1925, -0.1814]],
+       device='cuda:0'), grad: tensor([[ 5.1223e-09, -4.4238e-08, -7.7765e-08,  ..., -4.5169e-08,
+          9.3132e-09, -5.1223e-09],
+        [ 9.0804e-08,  5.4017e-08,  6.5193e-09,  ...,  4.8894e-08,
+          5.9605e-08, -2.0489e-08],
+        [ 1.1129e-07,  6.9849e-08,  5.1223e-09,  ...,  3.7719e-08,
+          1.2340e-07,  1.4435e-08],
+        ...,
+        [ 5.2154e-08,  3.0268e-08,  9.3132e-10,  ...,  3.3993e-08,
+          3.4459e-08,  9.7789e-09],
+        [-3.5390e-08, -2.2817e-08,  3.8650e-08,  ...,  6.6590e-08,
+         -8.9407e-08, -8.8476e-09],
+        [-6.5658e-08, -2.5611e-08,  1.7695e-08,  ..., -4.7032e-08,
+          1.3970e-08,  3.2596e-09]], device='cuda:0')
+Epoch 230, bias, value: tensor([-0.0286, -0.0306, -0.0125, -0.0014, -0.0008,  0.0052,  0.0031, -0.0085,
+         0.0127, -0.0393], device='cuda:0'), grad: tensor([-1.1781e-07,  2.7753e-07,  4.5169e-07, -6.9942e-07,  1.3784e-07,
+         3.0687e-07, -1.9651e-07,  5.0757e-08, -1.3085e-07, -7.9628e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 229, time 217.36, cls_loss 0.0007 cls_loss_mapping 0.0017 cls_loss_causal 0.5020 re_mapping 0.0042 re_causal 0.0128 /// teacc 99.12 lr 0.00010000
+Epoch 231, weight, value: tensor([[-0.0488,  0.0053,  0.1132,  ...,  0.0105, -0.0748, -0.0640],
+        [-0.1667, -0.1669, -0.1709,  ...,  0.0698,  0.0508,  0.3444],
+        [-0.1368, -0.1306, -0.1633,  ..., -0.1975,  0.0294, -0.1810],
+        ...,
+        [-0.1774, -0.1941,  0.0151,  ..., -0.1995, -0.0925, -0.3372],
+        [ 0.1285,  0.0360, -0.1271,  ..., -0.1947,  0.0158, -0.1783],
+        [ 0.1138,  0.0789, -0.1096,  ...,  0.0781, -0.1931, -0.1827]],
+       device='cuda:0'), grad: tensor([[ 5.1223e-09, -3.6787e-08, -1.2666e-07,  ..., -6.9849e-08,
+          9.7789e-09, -1.4435e-08],
+        [ 1.0431e-07,  7.8231e-08,  1.3970e-09,  ...,  1.2154e-07,
+         -6.7521e-08, -1.4994e-07],
+        [ 1.3039e-08,  1.2107e-08,  6.5193e-09,  ...,  3.6322e-08,
+          4.1444e-08,  4.0978e-08],
+        ...,
+        [ 3.9581e-08,  2.0489e-08,  9.3132e-10,  ...,  5.4482e-08,
+          9.7789e-09,  1.8626e-08],
+        [ 2.4214e-08,  1.2573e-08,  1.3970e-09,  ...,  5.3085e-08,
+         -6.7987e-08,  4.3772e-08],
+        [-1.9139e-07, -8.1025e-08,  1.1129e-07,  ..., -2.6869e-07,
+          2.7940e-09,  3.5390e-08]], device='cuda:0')
+Epoch 231, bias, value: tensor([-0.0287, -0.0307, -0.0125, -0.0010, -0.0006,  0.0051,  0.0035, -0.0086,
+         0.0127, -0.0395], device='cuda:0'), grad: tensor([-2.6356e-07,  1.1409e-07,  1.9139e-07, -1.1455e-06,  2.3609e-07,
+         1.2126e-06,  5.8673e-08, -5.6205e-07, -2.4680e-08,  2.0023e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 230, time 217.32, cls_loss 0.0012 cls_loss_mapping 0.0030 cls_loss_causal 0.4902 re_mapping 0.0043 re_causal 0.0122 /// teacc 99.10 lr 0.00010000
+Epoch 232, weight, value: tensor([[-0.0491,  0.0056,  0.1140,  ...,  0.0107, -0.0751, -0.0639],
+        [-0.1694, -0.1690, -0.1713,  ...,  0.0692,  0.0505,  0.3446],
+        [-0.1373, -0.1307, -0.1635,  ..., -0.1987,  0.0294, -0.1812],
+        ...,
+        [-0.1785, -0.1961,  0.0125,  ..., -0.2004, -0.0926, -0.3376],
+        [ 0.1295,  0.0361, -0.1272,  ..., -0.1948,  0.0159, -0.1785],
+        [ 0.1154,  0.0800, -0.1094,  ...,  0.0787, -0.1934, -0.1835]],
+       device='cuda:0'), grad: tensor([[ 5.2853e-07,  3.7579e-07, -2.1001e-07,  ..., -1.4575e-07,
+          3.3667e-07, -5.5879e-09],
+        [ 3.7765e-07,  3.5157e-07,  1.0245e-08,  ...,  8.8476e-09,
+          3.8045e-07, -4.6100e-08],
+        [ 2.6729e-06,  1.7667e-06,  2.1420e-08,  ...,  2.2352e-08,
+          1.5935e-06,  1.2107e-08],
+        ...,
+        [ 5.6392e-07,  3.8324e-07,  7.4506e-09,  ...,  1.3504e-08,
+          4.8801e-07,  1.2107e-08],
+        [ 1.1018e-06,  1.1828e-07,  2.3283e-09,  ...,  1.0245e-08,
+         -9.2341e-07,  1.8626e-09],
+        [ 6.1188e-07,  7.0175e-07,  1.2526e-07,  ...,  4.9360e-08,
+          4.2701e-07,  1.3504e-08]], device='cuda:0')
+Epoch 232, bias, value: tensor([-0.0282, -0.0314, -0.0125,  0.0023, -0.0014,  0.0017,  0.0037, -0.0086,
+         0.0128, -0.0385], device='cuda:0'), grad: tensor([ 1.5739e-06,  2.1085e-06,  8.7023e-06, -2.0832e-05,  2.3469e-07,
+        -6.4494e-07,  2.5667e-06,  2.5406e-06,  8.8569e-07,  2.8480e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 231, time 217.31, cls_loss 0.0007 cls_loss_mapping 0.0017 cls_loss_causal 0.4848 re_mapping 0.0041 re_causal 0.0122 /// teacc 99.11 lr 0.00010000
+Epoch 233, weight, value: tensor([[-0.0496,  0.0057,  0.1149,  ...,  0.0114, -0.0725, -0.0639],
+        [-0.1699, -0.1701, -0.1737,  ...,  0.0685,  0.0501,  0.3464],
+        [-0.1381, -0.1309, -0.1645,  ..., -0.2024,  0.0292, -0.1829],
+        ...,
+        [-0.1790, -0.1967,  0.0124,  ..., -0.2009, -0.0927, -0.3391],
+        [ 0.1310,  0.0362, -0.1272,  ..., -0.1951,  0.0159, -0.1790],
+        [ 0.1160,  0.0801, -0.1095,  ...,  0.0788, -0.1938, -0.1846]],
+       device='cuda:0'), grad: tensor([[ 1.8161e-08,  1.1176e-08, -9.3132e-09,  ...,  8.8476e-09,
+          2.0023e-08,  1.0710e-08],
+        [ 4.2375e-08,  3.2596e-08,  9.3132e-09,  ..., -7.2177e-08,
+         -4.6100e-08, -2.9663e-07],
+        [ 1.4342e-07,  1.1083e-07,  4.6566e-10,  ...,  1.1129e-07,
+          1.4948e-07,  1.2759e-07],
+        ...,
+        [ 3.9581e-08,  3.0268e-08,  5.1223e-09,  ...,  5.6345e-08,
+          6.4261e-08,  1.0198e-07],
+        [ 3.7253e-09,  5.1223e-09,  4.6566e-10,  ...,  9.3132e-09,
+          4.6566e-09,  5.5879e-09],
+        [-1.1176e-08, -7.4506e-09,  2.5146e-08,  ..., -1.2573e-08,
+          4.4238e-08,  1.3970e-08]], device='cuda:0')
+Epoch 233, bias, value: tensor([-0.0269, -0.0315, -0.0128,  0.0019, -0.0015,  0.0021,  0.0035, -0.0087,
+         0.0129, -0.0385], device='cuda:0'), grad: tensor([ 9.4995e-08, -1.4529e-07,  1.0710e-06, -9.4110e-07, -1.2899e-07,
+         1.3923e-07,  4.9826e-08, -2.9802e-07,  4.1910e-08,  1.3271e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 232, time 217.41, cls_loss 0.0006 cls_loss_mapping 0.0020 cls_loss_causal 0.4882 re_mapping 0.0042 re_causal 0.0124 /// teacc 99.07 lr 0.00010000
+Epoch 234, weight, value: tensor([[-0.0498,  0.0057,  0.1150,  ...,  0.0113, -0.0726, -0.0640],
+        [-0.1701, -0.1715, -0.1738,  ...,  0.0687,  0.0502,  0.3472],
+        [-0.1384, -0.1309, -0.1645,  ..., -0.2029,  0.0291, -0.1835],
+        ...,
+        [-0.1792, -0.1962,  0.0120,  ..., -0.2012, -0.0928, -0.3405],
+        [ 0.1310,  0.0362, -0.1274,  ..., -0.1957,  0.0161, -0.1791],
+        [ 0.1163,  0.0802, -0.1098,  ...,  0.0789, -0.1945, -0.1851]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09, -1.3318e-07, -5.1456e-07,  ..., -1.9046e-07,
+          7.9162e-09,  2.1886e-08],
+        [ 9.3132e-09,  1.4435e-08,  2.8871e-08,  ..., -2.4168e-07,
+         -1.4855e-07, -6.4261e-07],
+        [ 7.9162e-09,  1.4901e-08,  3.2596e-08,  ...,  1.5227e-07,
+          7.5903e-08,  3.2783e-07],
+        ...,
+        [ 3.1665e-08,  5.6345e-08,  1.2293e-07,  ...,  1.4016e-07,
+          4.0047e-08,  1.5693e-07],
+        [ 1.7695e-08,  2.2352e-08,  1.4901e-08,  ...,  4.3306e-08,
+          1.2107e-08,  4.5635e-08],
+        [-1.0384e-07, -4.1910e-08,  1.4575e-07,  ..., -4.1444e-08,
+          9.7789e-09,  2.4680e-08]], device='cuda:0')
+Epoch 234, bias, value: tensor([-0.0270, -0.0315, -0.0128,  0.0019, -0.0012,  0.0021,  0.0036, -0.0087,
+         0.0130, -0.0387], device='cuda:0'), grad: tensor([-1.2033e-06, -1.1874e-06,  6.5099e-07,  8.8941e-08,  1.9930e-07,
+         6.1002e-08,  3.1060e-07,  6.7847e-07,  2.8079e-07,  1.2806e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 233, time 217.36, cls_loss 0.0007 cls_loss_mapping 0.0026 cls_loss_causal 0.5102 re_mapping 0.0040 re_causal 0.0121 /// teacc 99.14 lr 0.00010000
+Epoch 235, weight, value: tensor([[-0.0500,  0.0061,  0.1152,  ...,  0.0114, -0.0728, -0.0640],
+        [-0.1705, -0.1733, -0.1741,  ...,  0.0691,  0.0505,  0.3475],
+        [-0.1387, -0.1310, -0.1647,  ..., -0.2052,  0.0290, -0.1838],
+        ...,
+        [-0.1795, -0.1968,  0.0118,  ..., -0.2015, -0.0930, -0.3412],
+        [ 0.1312,  0.0361, -0.1276,  ..., -0.1974,  0.0161, -0.1794],
+        [ 0.1172,  0.0806, -0.1102,  ...,  0.0791, -0.1947, -0.1857]],
+       device='cuda:0'), grad: tensor([[-1.8720e-07, -2.7008e-07, -1.7416e-07,  ...,  6.7055e-08,
+          9.3132e-09,  3.0734e-08],
+        [ 1.7229e-08,  3.8650e-08,  3.6787e-08,  ..., -1.6345e-07,
+          1.8626e-08, -3.5437e-07],
+        [ 4.6566e-08,  9.6858e-08,  7.6368e-08,  ...,  5.0291e-08,
+          1.5507e-07,  6.3796e-08],
+        ...,
+        [ 6.1002e-08,  4.9360e-08,  7.0781e-08,  ...,  1.0012e-07,
+          6.4261e-08,  1.2014e-07],
+        [ 2.0023e-08,  4.8429e-08,  7.4971e-08,  ...,  9.5926e-08,
+         -2.0256e-07,  2.3749e-08],
+        [-6.6124e-08, -1.3970e-09,  5.7742e-08,  ..., -3.0734e-08,
+          8.3819e-09,  5.5414e-08]], device='cuda:0')
+Epoch 235, bias, value: tensor([-0.0268, -0.0313, -0.0129,  0.0018, -0.0014,  0.0021,  0.0043, -0.0088,
+         0.0129, -0.0386], device='cuda:0'), grad: tensor([-5.8394e-07, -5.0385e-07,  1.0040e-06,  5.9558e-07, -1.4156e-07,
+        -9.9186e-08, -4.3167e-07,  3.2037e-07, -2.5798e-07,  1.0524e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 234, time 217.42, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.4865 re_mapping 0.0040 re_causal 0.0123 /// teacc 99.10 lr 0.00010000
+Epoch 236, weight, value: tensor([[-0.0484,  0.0066,  0.1156,  ...,  0.0117, -0.0729, -0.0641],
+        [-0.1712, -0.1753, -0.1743,  ...,  0.0692,  0.0508,  0.3482],
+        [-0.1392, -0.1311, -0.1648,  ..., -0.2057,  0.0289, -0.1844],
+        ...,
+        [-0.1798, -0.1967,  0.0112,  ..., -0.2018, -0.0933, -0.3423],
+        [ 0.1326,  0.0367, -0.1277,  ..., -0.1974,  0.0162, -0.1795],
+        [ 0.1171,  0.0804, -0.1106,  ...,  0.0791, -0.1949, -0.1866]],
+       device='cuda:0'), grad: tensor([[ 1.0710e-08,  5.1223e-09, -8.8476e-09,  ...,  1.8626e-09,
+          2.3283e-09,  3.2596e-09],
+        [ 1.4901e-08,  1.2573e-08, -1.4761e-07,  ..., -6.0676e-07,
+         -2.2491e-07, -4.4983e-07],
+        [ 4.1910e-09,  4.1910e-09,  5.1223e-09,  ...,  1.2107e-08,
+          6.5193e-09,  7.4506e-09],
+        ...,
+        [ 1.1129e-07,  8.5216e-08,  7.4971e-08,  ...,  4.5262e-07,
+          1.4901e-07,  2.9011e-07],
+        [ 1.7276e-07,  1.2945e-07,  8.3819e-09,  ...,  7.2643e-08,
+         -4.6566e-10,  1.3970e-09],
+        [-4.7591e-07, -3.4086e-07,  2.1886e-08,  ..., -1.2899e-07,
+          2.6077e-08,  5.5414e-08]], device='cuda:0')
+Epoch 236, bias, value: tensor([-0.0265, -0.0311, -0.0129,  0.0018, -0.0012,  0.0021,  0.0041, -0.0090,
+         0.0131, -0.0389], device='cuda:0'), grad: tensor([ 2.8405e-08, -2.1979e-06,  6.6124e-08,  3.1199e-08,  7.6555e-07,
+         4.7497e-08,  5.3085e-08,  1.6391e-06,  5.0897e-07, -9.2434e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 235, time 217.13, cls_loss 0.0007 cls_loss_mapping 0.0025 cls_loss_causal 0.4931 re_mapping 0.0041 re_causal 0.0122 /// teacc 99.14 lr 0.00010000
+Epoch 237, weight, value: tensor([[-0.0486,  0.0067,  0.1158,  ...,  0.0118, -0.0728, -0.0640],
+        [-0.1722, -0.1783, -0.1749,  ...,  0.0690,  0.0506,  0.3488],
+        [-0.1409, -0.1317, -0.1649,  ..., -0.2062,  0.0290, -0.1847],
+        ...,
+        [-0.1824, -0.1973,  0.0085,  ..., -0.2027, -0.0935, -0.3431],
+        [ 0.1336,  0.0372, -0.1277,  ..., -0.1973,  0.0163, -0.1796],
+        [ 0.1190,  0.0804, -0.1102,  ...,  0.0794, -0.1951, -0.1878]],
+       device='cuda:0'), grad: tensor([[-1.8626e-09, -2.2352e-08, -9.7789e-09,  ...,  1.6298e-08,
+          6.0536e-09,  2.0489e-08],
+        [ 1.3970e-09,  1.8626e-09,  3.7253e-09,  ..., -5.5414e-08,
+         -3.3341e-07, -9.1409e-07],
+        [ 3.2596e-09,  3.7253e-09,  8.8476e-09,  ...,  3.8184e-08,
+          8.6613e-08,  3.0687e-07],
+        ...,
+        [ 5.1223e-09,  3.2596e-09,  4.6566e-10,  ...,  1.1642e-08,
+          8.4750e-08,  1.8161e-07],
+        [-4.1910e-09, -3.7253e-09,  4.7497e-08,  ...,  7.5437e-08,
+          6.0536e-09,  3.3993e-08],
+        [-5.1223e-09,  1.0710e-08,  2.7940e-08,  ...,  2.3749e-08,
+          1.6298e-08,  2.5611e-08]], device='cuda:0')
+Epoch 237, bias, value: tensor([-0.0264, -0.0317, -0.0128,  0.0018, -0.0016,  0.0021,  0.0047, -0.0097,
+         0.0133, -0.0378], device='cuda:0'), grad: tensor([ 1.1222e-07, -1.3867e-06,  5.4017e-07,  4.4238e-08,  5.8906e-07,
+         8.2888e-08, -4.4471e-07, -1.8673e-06,  3.0082e-07,  2.0377e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 236, time 217.39, cls_loss 0.0008 cls_loss_mapping 0.0023 cls_loss_causal 0.4775 re_mapping 0.0040 re_causal 0.0120 /// teacc 99.18 lr 0.00010000
+Epoch 238, weight, value: tensor([[-0.0470,  0.0068,  0.1162,  ...,  0.0118, -0.0729, -0.0641],
+        [-0.1725, -0.1788, -0.1751,  ...,  0.0691,  0.0506,  0.3495],
+        [-0.1410, -0.1318, -0.1650,  ..., -0.2065,  0.0290, -0.1852],
+        ...,
+        [-0.1835, -0.1981,  0.0086,  ..., -0.2040, -0.0936, -0.3439],
+        [ 0.1333,  0.0370, -0.1281,  ..., -0.1981,  0.0163, -0.1798],
+        [ 0.1196,  0.0802, -0.1105,  ...,  0.0798, -0.1955, -0.1883]],
+       device='cuda:0'), grad: tensor([[ 1.8161e-08,  1.9092e-08, -1.0245e-08,  ...,  4.1910e-09,
+          3.7253e-09,  2.7940e-09],
+        [ 9.6858e-08,  1.0058e-07,  4.6566e-10,  ..., -3.7253e-09,
+          2.4214e-08, -5.6811e-08],
+        [ 8.8941e-08,  8.5216e-08,  0.0000e+00,  ...,  1.8626e-08,
+         -1.2945e-07,  1.1176e-08],
+        ...,
+        [ 1.9837e-07,  1.9884e-07,  4.6566e-10,  ...,  4.2375e-08,
+          2.5565e-07,  3.1665e-08],
+        [ 3.4459e-08,  4.5635e-08,  0.0000e+00,  ...,  1.2107e-08,
+          1.3039e-08,  3.2596e-09],
+        [ 4.7032e-08,  7.4506e-08,  8.8476e-09,  ...,  3.4459e-08,
+          1.3039e-08,  9.3132e-09]], device='cuda:0')
+Epoch 238, bias, value: tensor([-0.0262, -0.0318, -0.0128,  0.0017, -0.0017,  0.0022,  0.0050, -0.0100,
+         0.0132, -0.0375], device='cuda:0'), grad: tensor([ 2.6962e-07,  2.3283e-06, -6.2026e-07, -1.7136e-06,  2.7940e-08,
+         3.7765e-07,  3.6322e-08, -1.4585e-06,  1.5739e-07,  6.0117e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 237, time 217.38, cls_loss 0.0012 cls_loss_mapping 0.0030 cls_loss_causal 0.4560 re_mapping 0.0041 re_causal 0.0116 /// teacc 99.01 lr 0.00010000
+Epoch 239, weight, value: tensor([[-0.0476,  0.0068,  0.1164,  ...,  0.0119, -0.0730, -0.0641],
+        [-0.1749, -0.1814, -0.1754,  ...,  0.0718,  0.0524,  0.3501],
+        [-0.1414, -0.1320, -0.1651,  ..., -0.2070,  0.0283, -0.1852],
+        ...,
+        [-0.1834, -0.1966,  0.0087,  ..., -0.2068, -0.0952, -0.3450],
+        [ 0.1308,  0.0344, -0.1304,  ..., -0.2016,  0.0164, -0.1803],
+        [ 0.1200,  0.0801, -0.1107,  ...,  0.0799, -0.1959, -0.1897]],
+       device='cuda:0'), grad: tensor([[ 4.4703e-08, -2.9337e-08, -1.8161e-08,  ..., -1.5367e-08,
+          1.8394e-07,  6.5193e-09],
+        [ 1.8300e-07,  4.7032e-08,  1.4203e-07,  ...,  7.4040e-08,
+          1.2014e-07, -3.3807e-07],
+        [ 1.0710e-07,  8.2888e-08,  2.4773e-07,  ...,  2.6543e-08,
+          2.2957e-07,  5.7276e-08],
+        ...,
+        [ 1.6345e-07,  1.0058e-07,  2.8731e-07,  ...,  8.5216e-08,
+          4.2655e-07,  1.5507e-07],
+        [ 8.3121e-07,  4.4890e-07,  7.0781e-08,  ...,  2.8312e-07,
+         -3.7253e-09,  1.1176e-08],
+        [-1.3635e-06, -5.5414e-07,  6.1002e-08,  ..., -4.6520e-07,
+          3.6322e-08,  5.7276e-08]], device='cuda:0')
+Epoch 239, bias, value: tensor([-0.0263, -0.0323, -0.0133,  0.0019, -0.0018,  0.0025,  0.0023, -0.0090,
+         0.0125, -0.0377], device='cuda:0'), grad: tensor([ 4.1863e-07,  7.8371e-07,  5.8161e-07, -3.9861e-07, -3.8669e-06,
+         2.6589e-07,  9.3086e-07,  2.1495e-06,  2.4065e-06, -3.2801e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 238, time 217.14, cls_loss 0.0010 cls_loss_mapping 0.0016 cls_loss_causal 0.4838 re_mapping 0.0042 re_causal 0.0119 /// teacc 99.01 lr 0.00010000
+Epoch 240, weight, value: tensor([[-0.0480,  0.0067,  0.1159,  ...,  0.0115, -0.0730, -0.0642],
+        [-0.1755, -0.1833, -0.1758,  ...,  0.0717,  0.0531,  0.3507],
+        [-0.1415, -0.1321, -0.1652,  ..., -0.2073,  0.0283, -0.1855],
+        ...,
+        [-0.1836, -0.1970,  0.0084,  ..., -0.2070, -0.0960, -0.3460],
+        [ 0.1303,  0.0337, -0.1310,  ..., -0.2020,  0.0165, -0.1806],
+        [ 0.1215,  0.0806, -0.1109,  ...,  0.0800, -0.1964, -0.1911]],
+       device='cuda:0'), grad: tensor([[ 4.8289e-07,  1.4808e-07, -3.6787e-08,  ...,  1.8626e-07,
+          8.6147e-08,  5.1223e-09],
+        [ 1.9651e-07,  7.3574e-08,  2.3283e-09,  ...,  4.0978e-08,
+          3.7253e-09, -1.1967e-07],
+        [ 4.5542e-07,  1.9232e-07,  3.8650e-08,  ...,  1.8161e-07,
+          1.2526e-07,  5.1688e-08],
+        ...,
+        [ 2.2165e-07,  9.1735e-08,  9.3132e-10,  ...,  1.0012e-07,
+          4.4238e-08,  2.8871e-08],
+        [ 1.8626e-09, -3.2131e-08,  4.6566e-10,  ...,  1.1921e-07,
+         -1.1735e-07,  6.0536e-09],
+        [ 2.7474e-08, -2.6543e-08,  1.0710e-08,  ...,  2.3283e-09,
+          6.4261e-08,  1.0710e-08]], device='cuda:0')
+Epoch 240, bias, value: tensor([-0.0270, -0.0311, -0.0131,  0.0019, -0.0017,  0.0026,  0.0030, -0.0101,
+         0.0122, -0.0378], device='cuda:0'), grad: tensor([ 1.4231e-06,  3.2550e-07,  8.8103e-07, -3.6396e-06,  4.4284e-07,
+         2.1420e-08, -3.1665e-08,  4.9779e-07, -2.0955e-08,  9.1270e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 239, time 217.76, cls_loss 0.0009 cls_loss_mapping 0.0027 cls_loss_causal 0.5082 re_mapping 0.0040 re_causal 0.0123 /// teacc 99.10 lr 0.00010000
+Epoch 241, weight, value: tensor([[-0.0491,  0.0065,  0.1161,  ...,  0.0116, -0.0730, -0.0642],
+        [-0.1764, -0.1841, -0.1762,  ...,  0.0719,  0.0532,  0.3525],
+        [-0.1422, -0.1322, -0.1655,  ..., -0.2090,  0.0282, -0.1862],
+        ...,
+        [-0.1849, -0.1975,  0.0084,  ..., -0.2074, -0.0961, -0.3476],
+        [ 0.1322,  0.0351, -0.1310,  ..., -0.2018,  0.0168, -0.1813],
+        [ 0.1207,  0.0793, -0.1111,  ...,  0.0801, -0.1985, -0.1944]],
+       device='cuda:0'), grad: tensor([[ 5.5600e-07,  6.7521e-08,  1.8300e-07,  ..., -7.9162e-08,
+          3.1199e-08,  0.0000e+00],
+        [ 9.4064e-08,  3.7253e-08,  1.9511e-07,  ...,  6.3330e-08,
+          4.5029e-07, -3.2596e-09],
+        [ 6.2957e-07,  2.6543e-07,  4.3446e-07,  ...,  8.3819e-09,
+          3.9116e-08,  4.6566e-10],
+        ...,
+        [ 4.9360e-08,  4.3306e-08,  1.7323e-06,  ...,  2.4680e-08,
+          7.8231e-07,  9.3132e-10],
+        [-1.3541e-06, -5.4110e-07, -7.0175e-07,  ...,  9.3132e-09,
+          8.5216e-08,  0.0000e+00],
+        [ 8.1025e-08,  1.4389e-07,  1.3523e-05,  ..., -2.2352e-08,
+          8.7172e-06,  9.3132e-10]], device='cuda:0')
+Epoch 241, bias, value: tensor([-0.0271, -0.0312, -0.0131,  0.0016, -0.0014,  0.0028,  0.0034, -0.0102,
+         0.0129, -0.0383], device='cuda:0'), grad: tensor([ 2.7735e-06,  8.8364e-06,  3.7625e-06,  1.9511e-07, -9.1970e-05,
+         1.0012e-07,  5.6298e-07,  2.4326e-06, -6.7577e-06,  8.0049e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 240, time 217.43, cls_loss 0.0008 cls_loss_mapping 0.0020 cls_loss_causal 0.5048 re_mapping 0.0037 re_causal 0.0120 /// teacc 99.16 lr 0.00010000
+Epoch 242, weight, value: tensor([[-0.0496,  0.0066,  0.1163,  ...,  0.0116, -0.0732, -0.0643],
+        [-0.1772, -0.1849, -0.1765,  ...,  0.0720,  0.0532,  0.3534],
+        [-0.1428, -0.1324, -0.1656,  ..., -0.2095,  0.0282, -0.1867],
+        ...,
+        [-0.1849, -0.1977,  0.0082,  ..., -0.2075, -0.0962, -0.3483],
+        [ 0.1321,  0.0350, -0.1312,  ..., -0.2023,  0.0168, -0.1815],
+        [ 0.1207,  0.0791, -0.1114,  ...,  0.0802, -0.1996, -0.1977]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -3.2596e-09, -5.5879e-09,  ..., -1.3970e-09,
+          2.3283e-09,  2.7940e-09],
+        [ 1.3970e-09,  1.3970e-09,  4.6566e-10,  ..., -5.9139e-08,
+         -3.8184e-08, -2.0675e-07],
+        [ 1.8626e-09,  1.3970e-09,  0.0000e+00,  ...,  3.2596e-09,
+         -1.7788e-07,  2.1886e-08],
+        ...,
+        [ 3.7253e-09,  2.3283e-09,  4.6566e-10,  ...,  2.3283e-08,
+          3.1199e-08,  6.9384e-08],
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  1.8626e-09],
+        [-9.3132e-09, -1.8626e-09,  4.1910e-09,  ...,  2.4214e-08,
+          1.8626e-08,  9.0804e-08]], device='cuda:0')
+Epoch 242, bias, value: tensor([-0.0271, -0.0314, -0.0130,  0.0016, -0.0010,  0.0028,  0.0041, -0.0101,
+         0.0129, -0.0389], device='cuda:0'), grad: tensor([ 9.3132e-09, -2.7800e-07, -4.3400e-07,  1.3039e-08,  6.9104e-07,
+         1.2107e-08,  6.5193e-09, -1.7835e-07,  3.3062e-08,  1.5320e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 241, time 217.44, cls_loss 0.0006 cls_loss_mapping 0.0020 cls_loss_causal 0.4800 re_mapping 0.0039 re_causal 0.0122 /// teacc 99.14 lr 0.00010000
+Epoch 243, weight, value: tensor([[-0.0495,  0.0069,  0.1166,  ...,  0.0118, -0.0731, -0.0642],
+        [-0.1778, -0.1854, -0.1777,  ...,  0.0717,  0.0531,  0.3537],
+        [-0.1434, -0.1325, -0.1657,  ..., -0.2099,  0.0282, -0.1872],
+        ...,
+        [-0.1851, -0.1981,  0.0079,  ..., -0.2075, -0.0963, -0.3489],
+        [ 0.1321,  0.0349, -0.1315,  ..., -0.2025,  0.0169, -0.1817],
+        [ 0.1211,  0.0792, -0.1116,  ...,  0.0802, -0.1999, -0.1990]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09, -1.3970e-09,  4.6566e-10,  ...,  9.3132e-10,
+          1.0710e-08,  2.7940e-09],
+        [ 6.9849e-09,  2.7940e-09,  1.2107e-08,  ..., -6.5193e-09,
+          7.2643e-08, -1.4435e-08],
+        [ 6.9849e-09,  4.1910e-09,  2.3283e-09,  ...,  4.6566e-09,
+         -1.3364e-07,  3.2596e-09],
+        ...,
+        [ 1.3970e-08,  6.5193e-09,  1.1642e-08,  ...,  6.5193e-09,
+          5.1223e-08,  1.8626e-09],
+        [ 6.5193e-09,  2.7940e-09,  1.8626e-09,  ...,  5.1223e-09,
+          2.1886e-08,  2.3283e-09],
+        [ 6.0536e-09,  1.8626e-09,  6.1002e-08,  ...,  9.3132e-10,
+          3.5856e-08,  4.1910e-09]], device='cuda:0')
+Epoch 243, bias, value: tensor([-0.0269, -0.0318, -0.0131,  0.0016, -0.0011,  0.0027,  0.0049, -0.0097,
+         0.0128, -0.0390], device='cuda:0'), grad: tensor([ 5.7742e-08,  4.8056e-07, -1.0114e-06, -9.0804e-08, -2.3050e-07,
+         3.9116e-08,  6.7055e-08,  2.5425e-07,  1.6158e-07,  2.6356e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 242, time 217.58, cls_loss 0.0009 cls_loss_mapping 0.0026 cls_loss_causal 0.5022 re_mapping 0.0040 re_causal 0.0121 /// teacc 99.08 lr 0.00010000
+Epoch 244, weight, value: tensor([[-0.0494,  0.0079,  0.1173,  ...,  0.0123, -0.0733, -0.0643],
+        [-0.1781, -0.1863, -0.1781,  ...,  0.0719,  0.0533,  0.3552],
+        [-0.1443, -0.1327, -0.1659,  ..., -0.2107,  0.0282, -0.1887],
+        ...,
+        [-0.1856, -0.1982,  0.0056,  ..., -0.2078, -0.0965, -0.3504],
+        [ 0.1321,  0.0348, -0.1317,  ..., -0.2029,  0.0169, -0.1826],
+        [ 0.1204,  0.0788, -0.1141,  ...,  0.0799, -0.2015, -0.2004]],
+       device='cuda:0'), grad: tensor([[ 5.1223e-09, -1.1921e-07, -2.0163e-07,  ..., -1.1409e-07,
+          3.5390e-08,  0.0000e+00],
+        [ 6.9849e-09,  1.3970e-08,  2.3283e-08,  ...,  1.6298e-08,
+          2.4820e-07, -5.1223e-09],
+        [ 1.4435e-08,  9.7789e-09,  1.6252e-07,  ...,  1.0757e-07,
+         -4.1444e-07,  1.3970e-09],
+        ...,
+        [ 3.9116e-08,  2.6543e-08,  1.0245e-08,  ...,  3.1199e-08,
+          1.5832e-08,  2.3283e-09],
+        [-4.5169e-08,  5.8673e-08,  5.5879e-08,  ...,  4.0047e-08,
+         -5.1223e-09,  1.3970e-09],
+        [-7.0315e-08,  2.0023e-08,  1.2387e-07,  ...,  1.0710e-08,
+          7.9162e-09,  1.3970e-09]], device='cuda:0')
+Epoch 244, bias, value: tensor([-0.0262, -0.0317, -0.0131,  0.0016,  0.0017,  0.0027,  0.0049, -0.0099,
+         0.0127, -0.0414], device='cuda:0'), grad: tensor([-2.8871e-07,  1.1530e-06, -1.5199e-06,  1.2452e-06,  4.8103e-07,
+        -1.1763e-06, -1.5227e-07,  1.9139e-07,  5.3085e-08,  2.5611e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 243, time 217.69, cls_loss 0.0007 cls_loss_mapping 0.0025 cls_loss_causal 0.4963 re_mapping 0.0042 re_causal 0.0126 /// teacc 99.06 lr 0.00010000
+Epoch 245, weight, value: tensor([[-0.0493,  0.0082,  0.1176,  ...,  0.0124, -0.0734, -0.0650],
+        [-0.1784, -0.1869, -0.1783,  ...,  0.0724,  0.0533,  0.3570],
+        [-0.1446, -0.1327, -0.1660,  ..., -0.2111,  0.0283, -0.1891],
+        ...,
+        [-0.1859, -0.1995,  0.0056,  ..., -0.2081, -0.0967, -0.3525],
+        [ 0.1322,  0.0351, -0.1318,  ..., -0.2032,  0.0169, -0.1835],
+        [ 0.1208,  0.0789, -0.1145,  ...,  0.0799, -0.2024, -0.2028]],
+       device='cuda:0'), grad: tensor([[ 2.3749e-08,  2.8405e-08,  4.6566e-10,  ...,  5.5879e-09,
+          6.0536e-09,  2.3283e-09],
+        [ 2.9523e-07,  3.5251e-07,  6.9849e-09,  ...,  8.3819e-09,
+          3.3993e-08, -4.5635e-08],
+        [ 1.2070e-06,  1.4380e-06,  4.6566e-10,  ...,  1.5367e-08,
+         -1.7695e-08,  9.7789e-09],
+        ...,
+        [ 9.7230e-07,  1.0785e-06,  4.6566e-10,  ...,  1.4575e-07,
+          5.2620e-08,  2.4214e-08],
+        [ 3.7253e-08,  1.0431e-07,  4.6566e-10,  ...,  2.0955e-08,
+         -7.3109e-08,  3.7253e-09],
+        [-3.9116e-08, -9.3132e-10,  1.6764e-08,  ..., -8.5216e-08,
+          1.8161e-08,  3.2596e-09]], device='cuda:0')
+Epoch 245, bias, value: tensor([-0.0262, -0.0316, -0.0127,  0.0016,  0.0019,  0.0027,  0.0051, -0.0100,
+         0.0127, -0.0418], device='cuda:0'), grad: tensor([ 7.6927e-07,  1.1101e-05, -5.6773e-06, -1.5706e-05,  2.1746e-07,
+         2.3544e-06,  8.2422e-08,  6.2548e-06,  3.7625e-07,  2.1467e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 244, time 217.52, cls_loss 0.0007 cls_loss_mapping 0.0013 cls_loss_causal 0.5015 re_mapping 0.0039 re_causal 0.0121 /// teacc 99.13 lr 0.00010000
+Epoch 246, weight, value: tensor([[-0.0483,  0.0090,  0.1181,  ...,  0.0129, -0.0735, -0.0652],
+        [-0.1789, -0.1875, -0.1789,  ...,  0.0723,  0.0534,  0.3576],
+        [-0.1450, -0.1328, -0.1661,  ..., -0.2118,  0.0284, -0.1893],
+        ...,
+        [-0.1861, -0.1999,  0.0062,  ..., -0.2083, -0.0968, -0.3533],
+        [ 0.1322,  0.0351, -0.1321,  ..., -0.2036,  0.0169, -0.1836],
+        [ 0.1210,  0.0786, -0.1150,  ...,  0.0797, -0.2032, -0.2035]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09,  7.4506e-09, -2.7940e-09,  ..., -9.3132e-10,
+          7.4506e-09,  0.0000e+00],
+        [ 1.2107e-08,  1.5367e-08,  1.1642e-08,  ...,  6.5193e-09,
+          2.5146e-08,  0.0000e+00],
+        [ 3.5856e-08,  2.7008e-08,  2.7940e-09,  ...,  1.7695e-08,
+          2.7940e-08,  4.6566e-10],
+        ...,
+        [ 9.7789e-09,  8.8476e-09,  1.8626e-09,  ...,  5.1223e-09,
+          6.9849e-09,  0.0000e+00],
+        [ 1.5832e-08,  1.5320e-07,  4.6566e-10,  ...,  1.8626e-09,
+         -1.3039e-08,  0.0000e+00],
+        [ 3.5856e-08,  1.8859e-07,  1.9092e-08,  ..., -9.3132e-10,
+          2.5611e-08,  0.0000e+00]], device='cuda:0')
+Epoch 246, bias, value: tensor([-0.0257, -0.0319, -0.0126,  0.0015,  0.0018,  0.0027,  0.0059, -0.0099,
+         0.0127, -0.0423], device='cuda:0'), grad: tensor([ 7.4040e-08,  2.4028e-07, -3.3807e-07,  7.2271e-07, -1.3504e-07,
+        -1.3616e-06,  1.3178e-07,  2.4680e-08,  2.2585e-07,  4.4564e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 245, time 217.61, cls_loss 0.0006 cls_loss_mapping 0.0017 cls_loss_causal 0.4930 re_mapping 0.0041 re_causal 0.0121 /// teacc 99.15 lr 0.00010000
+Epoch 247, weight, value: tensor([[-0.0491,  0.0092,  0.1183,  ...,  0.0130, -0.0737, -0.0654],
+        [-0.1793, -0.1880, -0.1790,  ...,  0.0724,  0.0534,  0.3585],
+        [-0.1456, -0.1330, -0.1662,  ..., -0.2124,  0.0283, -0.1898],
+        ...,
+        [-0.1866, -0.2005,  0.0062,  ..., -0.2085, -0.0969, -0.3544],
+        [ 0.1321,  0.0350, -0.1322,  ..., -0.2040,  0.0169, -0.1844],
+        [ 0.1216,  0.0786, -0.1152,  ...,  0.0798, -0.2036, -0.2044]],
+       device='cuda:0'), grad: tensor([[ 5.1223e-09,  7.9162e-09,  3.2596e-09,  ...,  3.5390e-08,
+          1.3970e-08,  3.2131e-08],
+        [ 6.9849e-09, -7.3109e-08,  3.3993e-08,  ..., -2.8918e-07,
+         -1.1548e-07, -3.7765e-07],
+        [ 1.5832e-08,  2.1886e-08,  3.2596e-09,  ...,  3.1199e-08,
+          1.8626e-08,  2.6543e-08],
+        ...,
+        [ 8.3819e-09,  2.2817e-08,  1.3970e-09,  ...,  5.4482e-08,
+          2.6077e-08,  5.9605e-08],
+        [-1.3504e-08, -1.8161e-08,  2.0303e-07,  ...,  2.2864e-07,
+         -2.1886e-08,  1.0710e-08],
+        [-2.1420e-08,  1.1642e-08,  2.5146e-08,  ...,  7.4506e-08,
+          6.3796e-08,  1.0384e-07]], device='cuda:0')
+Epoch 247, bias, value: tensor([-0.0256, -0.0319, -0.0126,  0.0016,  0.0017,  0.0026,  0.0060, -0.0100,
+         0.0127, -0.0423], device='cuda:0'), grad: tensor([ 1.4482e-07, -1.2014e-07,  2.7753e-07, -2.0489e-08, -4.6566e-08,
+         6.5677e-06, -7.1004e-06, -7.4925e-07,  6.4680e-07,  4.1211e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 246, time 217.73, cls_loss 0.0007 cls_loss_mapping 0.0017 cls_loss_causal 0.4996 re_mapping 0.0039 re_causal 0.0117 /// teacc 99.08 lr 0.00010000
+Epoch 248, weight, value: tensor([[-0.0495,  0.0092,  0.1183,  ...,  0.0130, -0.0739, -0.0656],
+        [-0.1798, -0.1886, -0.1793,  ...,  0.0725,  0.0536,  0.3605],
+        [-0.1469, -0.1332, -0.1665,  ..., -0.2132,  0.0283, -0.1915],
+        ...,
+        [-0.1868, -0.2008,  0.0063,  ..., -0.2087, -0.0970, -0.3558],
+        [ 0.1322,  0.0350, -0.1320,  ..., -0.2044,  0.0170, -0.1852],
+        [ 0.1223,  0.0787, -0.1153,  ...,  0.0800, -0.2042, -0.2057]],
+       device='cuda:0'), grad: tensor([[ 1.0477e-07,  4.1863e-07,  7.8697e-08,  ...,  1.1586e-06,
+          1.0710e-08,  6.9849e-08],
+        [ 5.8673e-08,  1.4901e-08, -1.3970e-08,  ..., -1.3988e-06,
+         -3.3062e-07, -2.6189e-06],
+        [ 8.0559e-08,  6.5193e-09,  2.7940e-09,  ...,  2.1886e-08,
+          6.9849e-09,  2.7008e-08],
+        ...,
+        [-1.4417e-06,  1.2573e-08,  8.8476e-09,  ...,  6.3330e-08,
+          1.2573e-08,  5.7276e-08],
+        [ 2.3283e-08,  1.2107e-08,  1.2107e-08,  ...,  3.5390e-07,
+          8.5216e-08,  6.4587e-07],
+        [ 1.1511e-06, -4.7404e-07, -5.8208e-08,  ..., -1.2582e-06,
+          1.2107e-08,  2.0023e-08]], device='cuda:0')
+Epoch 248, bias, value: tensor([-0.0257, -0.0320, -0.0128,  0.0016,  0.0013,  0.0026,  0.0058, -0.0096,
+         0.0130, -0.0423], device='cuda:0'), grad: tensor([ 2.2501e-06, -3.5111e-06,  1.0021e-06,  2.9756e-07,  1.5274e-07,
+        -5.3179e-07,  3.1348e-06, -1.7226e-05,  1.4119e-06,  1.3031e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 247, time 217.49, cls_loss 0.0007 cls_loss_mapping 0.0028 cls_loss_causal 0.4840 re_mapping 0.0040 re_causal 0.0118 /// teacc 99.17 lr 0.00010000
+Epoch 249, weight, value: tensor([[-0.0509,  0.0093,  0.1184,  ...,  0.0130, -0.0741, -0.0657],
+        [-0.1811, -0.1899, -0.1795,  ...,  0.0727,  0.0535,  0.3616],
+        [-0.1477, -0.1334, -0.1666,  ..., -0.2139,  0.0283, -0.1919],
+        ...,
+        [-0.1876, -0.2016,  0.0060,  ..., -0.2089, -0.0971, -0.3571],
+        [ 0.1325,  0.0353, -0.1319,  ..., -0.2049,  0.0170, -0.1864],
+        [ 0.1229,  0.0788, -0.1155,  ...,  0.0801, -0.2048, -0.2064]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10, -2.3749e-08, -2.5379e-08,  ..., -3.8650e-08,
+          2.2352e-08,  9.3132e-10],
+        [ 5.1223e-09,  9.0804e-09,  1.6298e-09,  ..., -9.5461e-09,
+          1.8626e-07, -2.4913e-08],
+        [ 1.8626e-09,  3.0268e-09,  6.9849e-10,  ...,  2.0955e-09,
+         -3.4925e-07,  2.7940e-09],
+        ...,
+        [ 1.8626e-09,  2.0955e-09,  4.6566e-10,  ...,  9.3132e-09,
+          7.4506e-09,  1.8394e-08],
+        [-2.8173e-07, -5.2387e-07,  5.5879e-09,  ...,  4.4238e-09,
+         -6.3563e-07,  1.8626e-09],
+        [ 1.6298e-09,  2.7008e-08,  5.1456e-08,  ...,  4.3306e-08,
+          4.6100e-08,  3.0268e-09]], device='cuda:0')
+Epoch 249, bias, value: tensor([-0.0259, -0.0324, -0.0125,  0.0017,  0.0012,  0.0026,  0.0060, -0.0098,
+         0.0132, -0.0425], device='cuda:0'), grad: tensor([ 7.7533e-08,  1.0217e-06, -2.1048e-06,  3.9348e-08, -5.7509e-08,
+         1.5181e-07,  3.4571e-06,  1.5576e-07, -2.9728e-06,  2.4587e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 248, time 217.50, cls_loss 0.0006 cls_loss_mapping 0.0015 cls_loss_causal 0.4822 re_mapping 0.0039 re_causal 0.0117 /// teacc 99.13 lr 0.00010000
+Epoch 250, weight, value: tensor([[-0.0510,  0.0097,  0.1203,  ...,  0.0140, -0.0742, -0.0658],
+        [-0.1818, -0.1905, -0.1798,  ...,  0.0729,  0.0534,  0.3630],
+        [-0.1488, -0.1338, -0.1670,  ..., -0.2147,  0.0282, -0.1922],
+        ...,
+        [-0.1880, -0.2022,  0.0061,  ..., -0.2091, -0.0972, -0.3579],
+        [ 0.1331,  0.0356, -0.1319,  ..., -0.2051,  0.0172, -0.1875],
+        [ 0.1229,  0.0784, -0.1160,  ...,  0.0800, -0.2064, -0.2068]],
+       device='cuda:0'), grad: tensor([[ 4.7963e-07,  8.2562e-07, -1.1064e-06,  ..., -2.3283e-08,
+          2.5891e-07,  0.0000e+00],
+        [ 6.2399e-08,  1.0524e-07,  3.2131e-08,  ...,  3.4925e-08,
+          5.8208e-08, -9.3132e-09],
+        [ 3.0780e-07,  5.0338e-07,  4.1071e-07,  ...,  9.3132e-09,
+          2.9057e-07,  0.0000e+00],
+        ...,
+        [ 1.1921e-07,  1.4761e-07,  3.2596e-08,  ...,  3.9116e-08,
+          4.5635e-08,  2.3283e-09],
+        [-1.8794e-06, -3.1423e-06, -9.4576e-07,  ..., -3.0361e-07,
+         -1.6615e-06,  4.6566e-10],
+        [-3.7253e-08,  5.4017e-08,  5.8208e-08,  ..., -8.9873e-08,
+          4.9826e-08,  4.6566e-10]], device='cuda:0')
+Epoch 250, bias, value: tensor([-0.0241, -0.0325, -0.0126,  0.0016,  0.0016,  0.0026,  0.0044, -0.0098,
+         0.0137, -0.0431], device='cuda:0'), grad: tensor([-2.1746e-07,  9.9279e-07,  1.9427e-06,  5.6159e-07,  1.1194e-06,
+         3.6620e-06,  7.4506e-06,  7.1386e-07, -1.6466e-05,  2.3283e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 249, time 217.36, cls_loss 0.0006 cls_loss_mapping 0.0015 cls_loss_causal 0.4682 re_mapping 0.0038 re_causal 0.0115 /// teacc 99.19 lr 0.00010000
+Epoch 251, weight, value: tensor([[-0.0525,  0.0093,  0.1204,  ...,  0.0136, -0.0744, -0.0662],
+        [-0.1815, -0.1905, -0.1801,  ...,  0.0734,  0.0534,  0.3646],
+        [-0.1496, -0.1340, -0.1672,  ..., -0.2157,  0.0282, -0.1926],
+        ...,
+        [-0.1863, -0.2028,  0.0065,  ..., -0.2094, -0.0973, -0.3595],
+        [ 0.1333,  0.0358, -0.1319,  ..., -0.2056,  0.0174, -0.1897],
+        [ 0.1238,  0.0804, -0.1160,  ...,  0.0812, -0.2064, -0.2072]],
+       device='cuda:0'), grad: tensor([[-4.6566e-10, -4.3306e-08, -5.3551e-08,  ..., -6.2864e-08,
+          2.3283e-09, -6.9849e-09],
+        [ 7.9162e-09,  5.5879e-09,  6.5193e-09,  ..., -1.2573e-08,
+         -1.0710e-08, -6.4261e-08],
+        [-1.3504e-08,  1.8626e-09,  3.7253e-09,  ...,  6.5193e-09,
+         -1.9092e-08,  6.9849e-09],
+        ...,
+        [ 1.1642e-07,  5.4482e-08,  1.0710e-08,  ...,  8.3819e-08,
+          1.8626e-08,  4.6100e-08],
+        [-5.0291e-08, -2.4680e-08,  3.2596e-09,  ...,  1.9558e-08,
+          5.5879e-09,  5.1223e-09],
+        [-9.8720e-08, -1.8626e-08,  3.3528e-08,  ..., -5.0757e-08,
+          4.6566e-10,  6.9849e-09]], device='cuda:0')
+Epoch 251, bias, value: tensor([-0.0245, -0.0324, -0.0125,  0.0016,  0.0002,  0.0026,  0.0042, -0.0091,
+         0.0138, -0.0430], device='cuda:0'), grad: tensor([ 3.4496e-06,  6.0536e-08, -7.9796e-06,  4.2748e-07,  2.1514e-07,
+         4.4703e-08,  1.2713e-07,  5.0711e-07,  3.0249e-06,  1.2433e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 250, time 217.61, cls_loss 0.0005 cls_loss_mapping 0.0014 cls_loss_causal 0.4596 re_mapping 0.0041 re_causal 0.0118 /// teacc 99.18 lr 0.00010000
+Epoch 252, weight, value: tensor([[-0.0533,  0.0092,  0.1222,  ...,  0.0146, -0.0745, -0.0663],
+        [-0.1819, -0.1909, -0.1804,  ...,  0.0735,  0.0535,  0.3657],
+        [-0.1510, -0.1342, -0.1674,  ..., -0.2169,  0.0281, -0.1931],
+        ...,
+        [-0.1866, -0.2032,  0.0061,  ..., -0.2096, -0.0974, -0.3612],
+        [ 0.1333,  0.0357, -0.1320,  ..., -0.2060,  0.0174, -0.1903],
+        [ 0.1250,  0.0813, -0.1160,  ...,  0.0817, -0.2066, -0.2083]],
+       device='cuda:0'), grad: tensor([[ 6.9849e-09, -5.0757e-08, -8.8941e-08,  ..., -5.4948e-08,
+          4.6566e-10,  4.6566e-10],
+        [ 8.8941e-08,  7.0315e-08,  1.1176e-08,  ...,  1.7229e-08,
+          6.9849e-09, -1.1642e-08],
+        [ 5.7369e-07,  4.0280e-07,  2.8405e-08,  ...,  2.0955e-08,
+          6.9849e-09,  4.1910e-09],
+        ...,
+        [ 3.3528e-08,  2.6543e-08,  1.3970e-08,  ...,  1.9558e-08,
+          7.4506e-09,  6.9849e-09],
+        [-1.1157e-06, -7.8185e-07,  4.6566e-10,  ..., -4.7497e-08,
+         -2.8871e-08,  1.8626e-09],
+        [-2.1420e-08,  1.9558e-08,  2.9337e-08,  ..., -3.4459e-08,
+          1.8626e-09,  9.3132e-10]], device='cuda:0')
+Epoch 252, bias, value: tensor([-0.0230, -0.0323, -0.0125,  0.0016, -0.0002,  0.0026,  0.0027, -0.0092,
+         0.0138, -0.0426], device='cuda:0'), grad: tensor([-1.8906e-07,  3.9535e-07,  1.9819e-06,  8.6147e-07,  4.5169e-08,
+         3.9814e-07,  3.3341e-07,  1.2666e-07, -4.0531e-06,  9.3598e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 251, time 217.39, cls_loss 0.0007 cls_loss_mapping 0.0017 cls_loss_causal 0.4805 re_mapping 0.0040 re_causal 0.0116 /// teacc 99.12 lr 0.00010000
+Epoch 253, weight, value: tensor([[-0.0538,  0.0092,  0.1222,  ...,  0.0145, -0.0747, -0.0664],
+        [-0.1811, -0.1929, -0.1805,  ...,  0.0743,  0.0522,  0.3689],
+        [-0.1521, -0.1345, -0.1677,  ..., -0.2161,  0.0286, -0.1947],
+        ...,
+        [-0.1880, -0.2023,  0.0060,  ..., -0.2110, -0.0975, -0.3645],
+        [ 0.1333,  0.0357, -0.1321,  ..., -0.2064,  0.0174, -0.1906],
+        [ 0.1256,  0.0817, -0.1162,  ...,  0.0820, -0.2073, -0.2088]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09,  4.1910e-09,  0.0000e+00,  ...,  4.6566e-09,
+          3.2596e-09,  9.7789e-09],
+        [ 1.3970e-08,  1.2573e-08,  0.0000e+00,  ..., -6.7987e-08,
+         -9.5461e-08, -2.9802e-07],
+        [ 2.0023e-08,  1.8626e-08,  0.0000e+00,  ...,  1.0245e-08,
+          1.3970e-08,  2.6077e-08],
+        ...,
+        [ 2.4214e-08,  2.1886e-08,  0.0000e+00,  ...,  3.2596e-08,
+          4.4238e-08,  1.1502e-07],
+        [ 2.4214e-08,  1.9558e-08,  4.6566e-10,  ...,  1.3504e-08,
+          4.1910e-09,  9.7789e-09],
+        [-3.3993e-08, -2.1886e-08,  1.8626e-09,  ..., -9.3132e-09,
+          6.0536e-09,  1.5832e-08]], device='cuda:0')
+Epoch 253, bias, value: tensor([-0.0231, -0.0321, -0.0122,  0.0016, -0.0001,  0.0026,  0.0030, -0.0099,
+         0.0137, -0.0426], device='cuda:0'), grad: tensor([ 1.1688e-07, -2.4494e-07, -4.2096e-06, -1.9651e-07,  2.5425e-07,
+         1.3737e-07,  1.3830e-07,  2.6170e-07,  3.6899e-06,  4.5635e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 252, time 217.34, cls_loss 0.0008 cls_loss_mapping 0.0021 cls_loss_causal 0.5002 re_mapping 0.0040 re_causal 0.0113 /// teacc 99.17 lr 0.00010000
+Epoch 254, weight, value: tensor([[-0.0559,  0.0076,  0.1215,  ...,  0.0135, -0.0746, -0.0665],
+        [-0.1812, -0.1936, -0.1812,  ...,  0.0743,  0.0521,  0.3695],
+        [-0.1531, -0.1347, -0.1680,  ..., -0.2167,  0.0286, -0.1957],
+        ...,
+        [-0.1886, -0.2032,  0.0059,  ..., -0.2114, -0.0975, -0.3648],
+        [ 0.1330,  0.0351, -0.1326,  ..., -0.2075,  0.0174, -0.1913],
+        [ 0.1270,  0.0830, -0.1165,  ...,  0.0826, -0.2080, -0.2092]],
+       device='cuda:0'), grad: tensor([[ 4.1910e-09,  4.6566e-09, -2.7940e-09,  ...,  2.3283e-09,
+          1.3970e-09,  2.3283e-09],
+        [ 5.1223e-09,  1.1642e-08,  4.6566e-10,  ..., -1.3504e-08,
+         -3.2596e-09, -4.7497e-08],
+        [ 1.4901e-08,  1.5367e-08,  4.6566e-10,  ...,  7.9162e-09,
+          1.2107e-08,  9.3132e-09],
+        ...,
+        [ 9.3132e-09,  8.8476e-09,  0.0000e+00,  ...,  7.9162e-09,
+          2.3283e-09,  6.0536e-09],
+        [ 4.5169e-08,  1.6624e-07,  0.0000e+00,  ...,  3.9581e-08,
+         -1.0710e-08,  5.5879e-09],
+        [-7.7300e-08, -5.3085e-08,  3.2596e-09,  ..., -5.8208e-08,
+          1.3970e-09,  2.7940e-09]], device='cuda:0')
+Epoch 254, bias, value: tensor([-0.0243, -0.0326, -0.0118,  0.0017,  0.0002,  0.0025,  0.0042, -0.0099,
+         0.0134, -0.0424], device='cuda:0'), grad: tensor([ 5.9605e-08,  1.7043e-06,  9.2620e-07,  8.8941e-08,  7.7765e-08,
+        -1.0557e-05,  9.9689e-06, -3.4794e-06,  1.0561e-06,  1.3644e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 253, time 217.05, cls_loss 0.0006 cls_loss_mapping 0.0023 cls_loss_causal 0.4799 re_mapping 0.0038 re_causal 0.0115 /// teacc 99.11 lr 0.00010000
+Epoch 255, weight, value: tensor([[-0.0562,  0.0078,  0.1215,  ...,  0.0135, -0.0747, -0.0668],
+        [-0.1813, -0.1943, -0.1815,  ...,  0.0744,  0.0521,  0.3704],
+        [-0.1541, -0.1351, -0.1682,  ..., -0.2174,  0.0286, -0.1968],
+        ...,
+        [-0.1892, -0.2041,  0.0073,  ..., -0.2117, -0.0976, -0.3651],
+        [ 0.1331,  0.0352, -0.1326,  ..., -0.2077,  0.0175, -0.1919],
+        [ 0.1278,  0.0832, -0.1169,  ...,  0.0828, -0.2082, -0.2115]],
+       device='cuda:0'), grad: tensor([[ 6.9849e-09, -4.6566e-09, -2.8405e-08,  ..., -1.5832e-08,
+          7.4506e-09,  9.3132e-10],
+        [ 1.4901e-08,  1.3504e-08,  6.8452e-08,  ...,  1.7695e-08,
+          4.2375e-08, -4.3306e-08],
+        [ 1.8626e-08,  2.5611e-08,  4.6566e-09,  ...,  6.5193e-09,
+          6.0536e-09,  5.5879e-09],
+        ...,
+        [ 3.3993e-08,  3.1665e-08,  3.9581e-08,  ...,  3.9581e-08,
+          2.8871e-08,  1.2573e-08],
+        [ 4.0047e-08,  2.3283e-07,  4.1910e-09,  ...,  1.3039e-08,
+         -1.4901e-08,  1.4435e-08],
+        [-3.6787e-08, -1.2107e-08,  8.2422e-08,  ..., -1.3970e-09,
+          5.4482e-08,  3.7253e-09]], device='cuda:0')
+Epoch 255, bias, value: tensor([-0.0244, -0.0326, -0.0118,  0.0016,  0.0001,  0.0026,  0.0041, -0.0096,
+         0.0135, -0.0428], device='cuda:0'), grad: tensor([-7.4506e-09,  2.6822e-07,  5.7276e-08, -4.1462e-06, -8.9407e-07,
+         3.6247e-06,  1.7136e-07,  2.7195e-07,  4.0838e-07,  2.5099e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 254, time 217.29, cls_loss 0.0006 cls_loss_mapping 0.0018 cls_loss_causal 0.4808 re_mapping 0.0037 re_causal 0.0111 /// teacc 99.14 lr 0.00010000
+Epoch 256, weight, value: tensor([[-0.0565,  0.0078,  0.1216,  ...,  0.0136, -0.0748, -0.0669],
+        [-0.1793, -0.1927, -0.1817,  ...,  0.0770,  0.0524,  0.3725],
+        [-0.1546, -0.1353, -0.1685,  ..., -0.2178,  0.0285, -0.1980],
+        ...,
+        [-0.1911, -0.2064,  0.0072,  ..., -0.2144, -0.0976, -0.3669],
+        [ 0.1333,  0.0353, -0.1333,  ..., -0.2083,  0.0174, -0.1942],
+        [ 0.1278,  0.0829, -0.1170,  ...,  0.0829, -0.2086, -0.2122]],
+       device='cuda:0'), grad: tensor([[ 7.9162e-09, -2.7940e-09, -1.5832e-08,  ..., -1.4435e-08,
+          2.7940e-09,  1.4901e-08],
+        [-1.5348e-06, -1.6317e-06,  1.8626e-09,  ..., -5.6438e-07,
+         -1.0245e-08, -4.4741e-06],
+        [ 3.1665e-08,  4.0978e-08,  2.7940e-09,  ...,  1.8626e-08,
+          1.2107e-08,  6.4727e-08],
+        ...,
+        [ 1.3541e-06,  1.4678e-06,  0.0000e+00,  ...,  4.5402e-07,
+          8.8476e-09,  3.8706e-06],
+        [ 1.2387e-07,  1.5367e-07,  4.6566e-10,  ...,  5.4482e-08,
+          8.3819e-09,  3.0966e-07],
+        [ 2.1886e-08,  3.4459e-08,  1.1176e-08,  ...,  4.8429e-08,
+          3.2596e-09,  9.0338e-08]], device='cuda:0')
+Epoch 256, bias, value: tensor([-0.0244, -0.0306, -0.0117,  0.0016,  0.0002,  0.0026,  0.0044, -0.0115,
+         0.0133, -0.0430], device='cuda:0'), grad: tensor([ 2.3749e-08, -2.1890e-05,  3.3528e-07, -2.5611e-07,  1.7695e-08,
+        -6.8918e-08,  6.9290e-07,  1.9163e-05,  1.6652e-06,  2.7474e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 255, time 217.38, cls_loss 0.0006 cls_loss_mapping 0.0020 cls_loss_causal 0.5013 re_mapping 0.0037 re_causal 0.0114 /// teacc 99.17 lr 0.00010000
+Epoch 257, weight, value: tensor([[-0.0570,  0.0079,  0.1216,  ...,  0.0136, -0.0750, -0.0670],
+        [-0.1794, -0.1930, -0.1819,  ...,  0.0770,  0.0524,  0.3733],
+        [-0.1576, -0.1363, -0.1686,  ..., -0.2185,  0.0284, -0.1999],
+        ...,
+        [-0.1917, -0.2072,  0.0071,  ..., -0.2146, -0.0977, -0.3672],
+        [ 0.1333,  0.0352, -0.1333,  ..., -0.2081,  0.0175, -0.1948],
+        [ 0.1287,  0.0831, -0.1171,  ...,  0.0832, -0.2089, -0.2127]],
+       device='cuda:0'), grad: tensor([[ 1.0245e-08,  5.1223e-09,  4.6566e-10,  ...,  2.3283e-08,
+          6.0536e-09,  2.1886e-08],
+        [ 2.7940e-09,  1.3970e-09, -3.2596e-09,  ..., -6.2305e-07,
+         -2.2585e-07, -9.1316e-07],
+        [-1.3970e-09,  1.3970e-09,  0.0000e+00,  ...,  1.0710e-08,
+         -5.5414e-08,  1.6764e-08],
+        ...,
+        [ 2.2817e-08,  8.8476e-09,  4.6566e-10,  ...,  1.7229e-08,
+          6.0536e-09,  6.9849e-09],
+        [ 1.9092e-08,  2.1420e-08,  0.0000e+00,  ...,  4.3772e-08,
+          1.3970e-08,  5.3551e-08],
+        [-1.9744e-07, -6.7987e-08,  1.8626e-09,  ..., -1.7043e-07,
+          1.8626e-09,  2.3283e-09]], device='cuda:0')
+Epoch 257, bias, value: tensor([-2.4453e-02, -3.0728e-02, -1.1687e-02,  1.7160e-03, -6.7318e-05,
+         2.6795e-03,  3.6791e-03, -1.1682e-02,  1.3500e-02, -4.2743e-02],
+       device='cuda:0'), grad: tensor([ 9.0804e-08, -1.7602e-06, -5.1744e-06,  7.2876e-07,  4.2375e-07,
+        -4.2701e-07,  1.5367e-06,  4.8913e-06,  2.0629e-07, -5.0198e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 256, time 217.55, cls_loss 0.0008 cls_loss_mapping 0.0017 cls_loss_causal 0.4712 re_mapping 0.0039 re_causal 0.0114 /// teacc 99.14 lr 0.00010000
+Epoch 258, weight, value: tensor([[-0.0589,  0.0075,  0.1220,  ...,  0.0137, -0.0750, -0.0654],
+        [-0.1797, -0.1933, -0.1840,  ...,  0.0766,  0.0523,  0.3737],
+        [-0.1591, -0.1366, -0.1692,  ..., -0.2197,  0.0283, -0.2010],
+        ...,
+        [-0.1921, -0.2078,  0.0071,  ..., -0.2148, -0.0979, -0.3673],
+        [ 0.1339,  0.0352, -0.1334,  ..., -0.2082,  0.0177, -0.1953],
+        [ 0.1298,  0.0835, -0.1176,  ...,  0.0840, -0.2123, -0.2130]],
+       device='cuda:0'), grad: tensor([[ 1.3039e-08,  0.0000e+00, -1.5832e-08,  ..., -3.7253e-09,
+          5.5879e-09,  5.5879e-09],
+        [ 9.1270e-08,  4.7497e-08,  9.3132e-10,  ..., -3.6322e-08,
+         -1.3970e-08, -4.5635e-08],
+        [ 5.4948e-08,  3.3528e-08,  5.5879e-09,  ...,  9.3132e-09,
+          2.3283e-08,  6.5193e-09],
+        ...,
+        [-1.8580e-06, -9.4902e-07,  9.3132e-10,  ...,  3.7253e-09,
+          2.7940e-09,  4.6566e-09],
+        [ 9.0338e-08,  4.1910e-08, -1.8626e-09,  ...,  5.5879e-09,
+         -3.8184e-08,  1.8626e-09],
+        [ 1.4333e-06,  7.3947e-07,  1.4529e-07,  ...,  8.3819e-09,
+          1.4715e-07,  2.7940e-09]], device='cuda:0')
+Epoch 258, bias, value: tensor([-0.0243, -0.0311, -0.0118,  0.0016,  0.0007,  0.0028,  0.0034, -0.0117,
+         0.0138, -0.0430], device='cuda:0'), grad: tensor([ 7.2643e-08,  9.4064e-07,  3.6135e-07,  9.9652e-07, -1.4901e-07,
+         2.9337e-07,  4.0978e-08, -1.9684e-05,  1.5227e-06,  1.5587e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 257, time 217.64, cls_loss 0.0006 cls_loss_mapping 0.0018 cls_loss_causal 0.4732 re_mapping 0.0038 re_causal 0.0114 /// teacc 99.20 lr 0.00010000
+Epoch 259, weight, value: tensor([[-0.0596,  0.0073,  0.1220,  ...,  0.0135, -0.0752, -0.0660],
+        [-0.1804, -0.1944, -0.1841,  ...,  0.0766,  0.0521,  0.3745],
+        [-0.1612, -0.1374, -0.1694,  ..., -0.2206,  0.0282, -0.2025],
+        ...,
+        [-0.1922, -0.2080,  0.0070,  ..., -0.2149, -0.0981, -0.3675],
+        [ 0.1345,  0.0354, -0.1333,  ..., -0.2077,  0.0180, -0.1968],
+        [ 0.1311,  0.0840, -0.1179,  ...,  0.0845, -0.2130, -0.2138]],
+       device='cuda:0'), grad: tensor([[ 3.5390e-08,  1.0245e-08,  0.0000e+00,  ...,  4.8429e-08,
+          2.2352e-08,  2.8871e-08],
+        [ 1.3970e-08,  8.3819e-09,  9.3132e-10,  ..., -3.1106e-07,
+         -3.3621e-07, -6.4634e-07],
+        [ 1.1269e-07,  2.9802e-08,  0.0000e+00,  ...,  4.3772e-08,
+          1.4994e-07,  6.8918e-08],
+        ...,
+        [ 1.3225e-07,  2.2352e-08, -9.3132e-09,  ...,  1.5646e-07,
+         -9.9652e-08,  4.4703e-08],
+        [-1.0245e-07, -2.4214e-08,  0.0000e+00,  ...,  1.7136e-07,
+          1.0617e-07,  3.3248e-07],
+        [-2.8405e-07, -5.1223e-08,  0.0000e+00,  ..., -2.9244e-07,
+          1.3039e-08,  5.5879e-09]], device='cuda:0')
+Epoch 259, bias, value: tensor([-0.0246, -0.0314, -0.0120,  0.0016,  0.0004,  0.0028,  0.0036, -0.0116,
+         0.0144, -0.0429], device='cuda:0'), grad: tensor([ 2.3469e-07, -5.6624e-07,  5.0850e-07,  2.1420e-08,  6.5379e-07,
+         1.4622e-07,  2.0396e-07, -1.8720e-07,  9.6858e-08, -1.0952e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 258, time 217.66, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.4787 re_mapping 0.0038 re_causal 0.0114 /// teacc 99.15 lr 0.00010000
+Epoch 260, weight, value: tensor([[-0.0607,  0.0067,  0.1219,  ...,  0.0133, -0.0758, -0.0662],
+        [-0.1805, -0.1950, -0.1843,  ...,  0.0767,  0.0517,  0.3750],
+        [-0.1626, -0.1377, -0.1695,  ..., -0.2209,  0.0285, -0.2039],
+        ...,
+        [-0.1925, -0.2083,  0.0068,  ..., -0.2150, -0.0983, -0.3675],
+        [ 0.1348,  0.0354, -0.1334,  ..., -0.2080,  0.0179, -0.1972],
+        [ 0.1316,  0.0842, -0.1180,  ...,  0.0847, -0.2132, -0.2141]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  9.3132e-10,  9.3132e-10,  ...,  5.5879e-09,
+          5.5879e-09,  8.3819e-09],
+        [ 2.7940e-09,  1.8626e-09,  0.0000e+00,  ..., -1.6112e-07,
+         -1.6764e-08, -3.7067e-07],
+        [ 6.5193e-09,  5.5879e-09,  9.3132e-10,  ...,  2.2352e-08,
+         -1.6484e-07,  3.4459e-08],
+        ...,
+        [ 6.5193e-09,  5.5879e-09,  0.0000e+00,  ...,  8.4750e-08,
+          7.8231e-08,  1.6391e-07],
+        [ 2.5146e-08,  4.1910e-08,  9.3132e-10,  ...,  5.0291e-08,
+          7.7300e-08,  1.0617e-07],
+        [-1.4901e-08, -2.7940e-09,  0.0000e+00,  ...,  8.3819e-09,
+          5.5879e-09,  2.5146e-08]], device='cuda:0')
+Epoch 260, bias, value: tensor([-0.0249, -0.0322, -0.0114,  0.0016,  0.0003,  0.0028,  0.0038, -0.0115,
+         0.0145, -0.0428], device='cuda:0'), grad: tensor([ 7.1712e-08,  9.8720e-08, -2.3283e-06,  3.6322e-08,  9.1270e-08,
+        -4.6566e-09,  8.9407e-08,  7.4785e-07,  1.0794e-06,  9.1270e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 259, time 217.59, cls_loss 0.0006 cls_loss_mapping 0.0021 cls_loss_causal 0.4576 re_mapping 0.0038 re_causal 0.0111 /// teacc 99.11 lr 0.00010000
+Epoch 261, weight, value: tensor([[-0.0611,  0.0066,  0.1218,  ...,  0.0131, -0.0759, -0.0670],
+        [-0.1795, -0.1954, -0.1843,  ...,  0.0770,  0.0517,  0.3777],
+        [-0.1633, -0.1379, -0.1696,  ..., -0.2215,  0.0284, -0.2055],
+        ...,
+        [-0.1936, -0.2087,  0.0067,  ..., -0.2152, -0.0983, -0.3700],
+        [ 0.1350,  0.0354, -0.1335,  ..., -0.2082,  0.0181, -0.1981],
+        [ 0.1321,  0.0844, -0.1180,  ...,  0.0850, -0.2133, -0.2147]],
+       device='cuda:0'), grad: tensor([[ 1.2107e-08,  3.6322e-08,  9.3132e-10,  ...,  0.0000e+00,
+          2.7940e-09,  1.8626e-09],
+        [ 3.2596e-08,  3.8184e-08,  0.0000e+00,  ..., -4.4703e-08,
+         -2.7940e-09, -1.1362e-07],
+        [ 1.0524e-07,  1.0990e-07,  0.0000e+00,  ...,  1.6764e-08,
+          4.6566e-09,  1.6764e-08],
+        ...,
+        [ 2.5146e-08,  3.0734e-08,  0.0000e+00,  ...,  4.3772e-08,
+          3.2596e-08,  6.8918e-08],
+        [-1.2480e-07, -7.4506e-08,  9.3132e-10,  ...,  8.3819e-09,
+          9.3132e-10,  6.5193e-09],
+        [ 3.7253e-09,  1.7695e-08,  1.8626e-09,  ...,  7.4506e-09,
+          3.7253e-09,  1.0245e-08]], device='cuda:0')
+Epoch 261, bias, value: tensor([-0.0251, -0.0313, -0.0119,  0.0016,  0.0001,  0.0027,  0.0044, -0.0124,
+         0.0155, -0.0426], device='cuda:0'), grad: tensor([ 1.5181e-07,  6.5193e-08, -1.2834e-06,  1.3262e-06,  3.8184e-08,
+        -1.7136e-06,  1.6484e-07,  1.5758e-06, -4.8522e-07,  1.7975e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 260, time 217.33, cls_loss 0.0007 cls_loss_mapping 0.0023 cls_loss_causal 0.4870 re_mapping 0.0036 re_causal 0.0112 /// teacc 99.19 lr 0.00010000
+Epoch 262, weight, value: tensor([[-0.0616,  0.0065,  0.1217,  ...,  0.0130, -0.0760, -0.0673],
+        [-0.1795, -0.1968, -0.1853,  ...,  0.0772,  0.0518,  0.3781],
+        [-0.1640, -0.1381, -0.1700,  ..., -0.2221,  0.0283, -0.2064],
+        ...,
+        [-0.1938, -0.2088,  0.0070,  ..., -0.2153, -0.0984, -0.3702],
+        [ 0.1351,  0.0356, -0.1337,  ..., -0.2084,  0.0182, -0.2001],
+        [ 0.1324,  0.0845, -0.1185,  ...,  0.0850, -0.2149, -0.2154]],
+       device='cuda:0'), grad: tensor([[ 3.2596e-08,  1.8626e-08, -1.3970e-08,  ...,  4.6566e-09,
+          1.2107e-08,  2.7940e-09],
+        [ 2.5146e-08,  2.7008e-08,  4.6566e-09,  ..., -3.8184e-08,
+          0.0000e+00, -1.2107e-07],
+        [ 1.6205e-07,  1.3784e-07,  3.7253e-09,  ...,  3.4459e-08,
+         -6.5193e-09,  2.6077e-08],
+        ...,
+        [ 9.3132e-09,  1.0245e-08,  7.4506e-09,  ...,  2.7008e-08,
+          3.0734e-08,  4.0047e-08],
+        [-2.9523e-07, -7.9162e-08,  3.7253e-09,  ..., -7.4506e-09,
+         -6.9849e-08,  1.1176e-08],
+        [ 5.4017e-08,  6.9849e-08,  8.5682e-08,  ...,  2.6077e-08,
+          9.6858e-08,  1.1176e-08]], device='cuda:0')
+Epoch 262, bias, value: tensor([-0.0253, -0.0312, -0.0124,  0.0016,  0.0006,  0.0032,  0.0024, -0.0124,
+         0.0162, -0.0430], device='cuda:0'), grad: tensor([ 1.0617e-07, -6.5193e-09,  4.5635e-08,  1.8906e-06, -2.3190e-07,
+        -2.1532e-06,  1.9744e-07,  5.6811e-08, -4.5076e-07,  5.8021e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 261, time 217.52, cls_loss 0.0005 cls_loss_mapping 0.0014 cls_loss_causal 0.4505 re_mapping 0.0035 re_causal 0.0107 /// teacc 99.18 lr 0.00010000
+Epoch 263, weight, value: tensor([[-0.0619,  0.0068,  0.1218,  ...,  0.0130, -0.0760, -0.0673],
+        [-0.1797, -0.1972, -0.1854,  ...,  0.0772,  0.0517,  0.3786],
+        [-0.1650, -0.1384, -0.1702,  ..., -0.2225,  0.0284, -0.2073],
+        ...,
+        [-0.1941, -0.2093,  0.0068,  ..., -0.2154, -0.0986, -0.3704],
+        [ 0.1353,  0.0356, -0.1340,  ..., -0.2088,  0.0183, -0.2004],
+        [ 0.1333,  0.0847, -0.1189,  ...,  0.0853, -0.2159, -0.2158]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  1.8626e-09,  8.3819e-09,  ...,  8.3819e-09,
+          4.6566e-09,  3.7253e-09],
+        [ 4.6566e-09,  9.3132e-10, -3.2596e-08,  ..., -1.1083e-07,
+         -4.6566e-08, -1.4249e-07],
+        [ 3.7253e-09,  2.7940e-09,  3.7253e-09,  ...,  5.5879e-09,
+          8.3819e-09,  4.6566e-09],
+        ...,
+        [ 1.0245e-08,  5.5879e-09,  2.8871e-08,  ...,  1.8626e-08,
+          5.5879e-08,  1.3039e-08],
+        [-2.7940e-09,  9.3132e-10,  3.7253e-09,  ...,  1.0245e-08,
+         -9.3132e-10,  6.5193e-09],
+        [-1.9558e-08, -5.5879e-09,  7.5437e-08,  ...,  1.2107e-08,
+          1.4715e-07,  3.2596e-08]], device='cuda:0')
+Epoch 263, bias, value: tensor([-0.0252, -0.0314, -0.0122,  0.0015,  0.0006,  0.0032,  0.0026, -0.0124,
+         0.0164, -0.0431], device='cuda:0'), grad: tensor([ 5.4017e-08, -2.0582e-07, -2.0023e-07, -2.6077e-08,  1.3504e-07,
+        -2.2352e-08, -2.5798e-07,  1.8161e-07,  5.6811e-08,  2.8778e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 262, time 217.47, cls_loss 0.0005 cls_loss_mapping 0.0015 cls_loss_causal 0.4566 re_mapping 0.0035 re_causal 0.0108 /// teacc 99.19 lr 0.00010000
+Epoch 264, weight, value: tensor([[-0.0626,  0.0068,  0.1219,  ...,  0.0130, -0.0762, -0.0674],
+        [-0.1801, -0.1980, -0.1855,  ...,  0.0773,  0.0515,  0.3791],
+        [-0.1653, -0.1386, -0.1704,  ..., -0.2228,  0.0284, -0.2075],
+        ...,
+        [-0.1940, -0.2094,  0.0070,  ..., -0.2154, -0.0983, -0.3706],
+        [ 0.1353,  0.0353, -0.1342,  ..., -0.2095,  0.0183, -0.2021],
+        [ 0.1337,  0.0850, -0.1189,  ...,  0.0855, -0.2161, -0.2165]],
+       device='cuda:0'), grad: tensor([[-2.2352e-08, -5.7742e-08, -3.6322e-08,  ..., -1.9558e-08,
+          0.0000e+00,  9.3132e-10],
+        [ 1.8626e-09,  1.5832e-08,  6.7987e-08,  ..., -2.7940e-09,
+         -1.8626e-09, -1.5832e-08],
+        [ 5.5879e-09,  5.5879e-09,  8.3819e-09,  ...,  2.7940e-09,
+          6.5193e-09,  3.7253e-09],
+        ...,
+        [ 4.6566e-09, -1.9558e-08, -1.4435e-07,  ...,  5.5879e-09,
+          0.0000e+00,  2.7940e-09],
+        [ 6.5193e-09,  2.7940e-08,  2.5146e-08,  ...,  1.3970e-08,
+         -4.6566e-09,  2.7940e-09],
+        [-2.7940e-09,  2.7008e-08,  4.9360e-08,  ...,  9.3132e-10,
+          9.3132e-10,  1.8626e-09]], device='cuda:0')
+Epoch 264, bias, value: tensor([-0.0254, -0.0322, -0.0120,  0.0017,  0.0003,  0.0030,  0.0028, -0.0118,
+         0.0161, -0.0430], device='cuda:0'), grad: tensor([ 6.7987e-08,  5.7928e-07,  3.6322e-08,  7.4506e-09,  1.1548e-07,
+         3.6322e-08, -4.5635e-08, -1.0170e-06,  8.1956e-08,  1.3970e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 263, time 217.44, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4895 re_mapping 0.0036 re_causal 0.0112 /// teacc 99.10 lr 0.00010000
+Epoch 265, weight, value: tensor([[-0.0626,  0.0069,  0.1216,  ...,  0.0128, -0.0762, -0.0674],
+        [-0.1802, -0.1986, -0.1856,  ...,  0.0773,  0.0516,  0.3797],
+        [-0.1679, -0.1410, -0.1707,  ..., -0.2234,  0.0283, -0.2093],
+        ...,
+        [-0.1946, -0.2106,  0.0069,  ..., -0.2156, -0.0983, -0.3707],
+        [ 0.1352,  0.0351, -0.1344,  ..., -0.2099,  0.0183, -0.2025],
+        [ 0.1344,  0.0856, -0.1191,  ...,  0.0858, -0.2164, -0.2173]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  3.7253e-09, -2.7940e-09,  ...,  1.8626e-09,
+          4.6566e-09,  1.8626e-09],
+        [ 1.0245e-08,  1.4901e-08,  9.3132e-10,  ..., -1.3970e-08,
+          4.6566e-09, -3.9116e-08],
+        [ 1.2107e-08,  1.7695e-08,  1.8626e-09,  ...,  1.2107e-08,
+          1.8626e-08,  9.3132e-09],
+        ...,
+        [ 4.6566e-09,  7.4506e-09,  4.8429e-08,  ...,  5.5879e-09,
+          1.1642e-07,  3.7253e-09],
+        [ 5.5879e-09,  4.7591e-07,  0.0000e+00,  ...,  1.8626e-08,
+         -1.8626e-09,  1.8626e-08],
+        [-1.2107e-08, -1.8626e-09,  8.7544e-08,  ..., -1.0245e-08,
+          1.9837e-07,  1.8626e-09]], device='cuda:0')
+Epoch 265, bias, value: tensor([-0.0257, -0.0322, -0.0124,  0.0018,  0.0003,  0.0031,  0.0031, -0.0117,
+         0.0160, -0.0430], device='cuda:0'), grad: tensor([ 1.5832e-08,  2.5146e-08,  7.6368e-08, -2.2817e-07, -5.4110e-07,
+        -9.4436e-07,  1.0710e-07,  9.1270e-08,  1.0123e-06,  3.8557e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 264, time 217.77, cls_loss 0.0007 cls_loss_mapping 0.0015 cls_loss_causal 0.4882 re_mapping 0.0039 re_causal 0.0111 /// teacc 99.17 lr 0.00010000
+Epoch 266, weight, value: tensor([[-0.0629,  0.0066,  0.1213,  ...,  0.0125, -0.0764, -0.0677],
+        [-0.1805, -0.2001, -0.1861,  ...,  0.0773,  0.0517,  0.3807],
+        [-0.1685, -0.1413, -0.1712,  ..., -0.2239,  0.0282, -0.2122],
+        ...,
+        [-0.1950, -0.2106,  0.0075,  ..., -0.2156, -0.0982, -0.3709],
+        [ 0.1352,  0.0349, -0.1347,  ..., -0.2102,  0.0183, -0.2034],
+        [ 0.1351,  0.0861, -0.1194,  ...,  0.0860, -0.2169, -0.2180]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  9.3132e-09,  1.8626e-09,  ...,  2.7940e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 8.3819e-09,  1.4901e-08,  0.0000e+00,  ...,  9.3132e-10,
+          5.5879e-09, -5.5879e-09],
+        [ 4.6566e-09,  5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -3.3528e-08,  1.8626e-09],
+        ...,
+        [ 4.1723e-07,  3.7998e-07,  0.0000e+00,  ...,  1.6857e-07,
+          9.3132e-09,  1.8626e-09],
+        [-3.1665e-08,  1.4715e-07,  0.0000e+00,  ...,  0.0000e+00,
+         -3.7253e-09,  0.0000e+00],
+        [-2.5146e-08,  5.3085e-08,  9.3132e-10,  ..., -2.9802e-08,
+          7.4506e-09,  9.3132e-10]], device='cuda:0')
+Epoch 266, bias, value: tensor([-0.0261, -0.0324, -0.0131,  0.0019, -0.0002,  0.0031,  0.0035, -0.0109,
+         0.0158, -0.0430], device='cuda:0'), grad: tensor([ 4.2841e-08,  1.2666e-07, -4.4517e-07, -2.8312e-07,  6.6124e-08,
+        -1.6224e-06,  3.5204e-07,  1.2200e-06,  4.3865e-07,  9.2201e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 265, time 217.66, cls_loss 0.0006 cls_loss_mapping 0.0019 cls_loss_causal 0.4526 re_mapping 0.0039 re_causal 0.0109 /// teacc 99.14 lr 0.00010000
+Epoch 267, weight, value: tensor([[-0.0627,  0.0061,  0.1212,  ...,  0.0121, -0.0765, -0.0678],
+        [-0.1807, -0.2007, -0.1864,  ...,  0.0775,  0.0518,  0.3814],
+        [-0.1691, -0.1418, -0.1715,  ..., -0.2245,  0.0282, -0.2125],
+        ...,
+        [-0.1954, -0.2114,  0.0080,  ..., -0.2159, -0.0985, -0.3712],
+        [ 0.1353,  0.0348, -0.1349,  ..., -0.2106,  0.0185, -0.2037],
+        [ 0.1362,  0.0866, -0.1199,  ...,  0.0870, -0.2181, -0.2197]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -5.2247e-07, -8.8476e-07,  ..., -2.4308e-07,
+          0.0000e+00, -5.5879e-09],
+        [ 1.8626e-09,  6.0536e-08,  9.9652e-08,  ...,  2.5146e-08,
+          0.0000e+00, -6.5193e-09],
+        [ 2.7940e-09,  3.7253e-08,  5.7742e-08,  ...,  1.6764e-08,
+          1.8626e-09,  9.3132e-10],
+        ...,
+        [ 9.3132e-10,  9.3132e-09,  1.3970e-08,  ...,  7.4506e-09,
+          9.3132e-10,  3.7253e-09],
+        [-7.4506e-09,  3.3248e-07,  5.6531e-07,  ...,  1.3970e-07,
+         -6.5193e-09,  5.5879e-09],
+        [-2.7940e-09,  6.9849e-08,  9.7789e-08,  ...,  3.5390e-08,
+          1.8626e-09,  9.3132e-10]], device='cuda:0')
+Epoch 267, bias, value: tensor([-0.0264, -0.0324, -0.0131,  0.0017, -0.0006,  0.0033,  0.0037, -0.0109,
+         0.0159, -0.0430], device='cuda:0'), grad: tensor([-1.9055e-06,  2.7195e-07, -2.9430e-07,  1.0990e-07,  3.8184e-08,
+        -2.7008e-08,  5.9605e-08, -3.4459e-08,  1.3094e-06,  4.7125e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 266, time 217.51, cls_loss 0.0006 cls_loss_mapping 0.0021 cls_loss_causal 0.5045 re_mapping 0.0037 re_causal 0.0113 /// teacc 99.16 lr 0.00010000
+Epoch 268, weight, value: tensor([[-0.0631,  0.0060,  0.1212,  ...,  0.0120, -0.0767, -0.0677],
+        [-0.1808, -0.2012, -0.1866,  ...,  0.0777,  0.0522,  0.3822],
+        [-0.1693, -0.1419, -0.1718,  ..., -0.2251,  0.0281, -0.2140],
+        ...,
+        [-0.1957, -0.2121,  0.0079,  ..., -0.2161, -0.0988, -0.3716],
+        [ 0.1354,  0.0346, -0.1353,  ..., -0.2110,  0.0185, -0.2040],
+        [ 0.1366,  0.0867, -0.1200,  ...,  0.0872, -0.2185, -0.2209]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-09,  9.3132e-09,  0.0000e+00,  ...,  1.8626e-09,
+          7.4506e-09,  9.3132e-10],
+        [ 9.0338e-08,  6.1467e-08,  6.5193e-09,  ...,  9.3132e-08,
+          8.0094e-08, -1.8626e-09],
+        [ 4.1910e-08,  5.0291e-08,  9.3132e-09,  ...,  1.8626e-08,
+          3.5390e-08,  9.3132e-10],
+        ...,
+        [ 3.1665e-08,  2.3283e-08,  2.1420e-08,  ...,  2.7940e-08,
+          4.3772e-08,  9.3132e-10],
+        [-2.7940e-08, -4.9360e-08,  6.5193e-09,  ...,  1.4901e-08,
+         -2.5146e-08,  9.3132e-10],
+        [-8.3819e-09,  9.3132e-09,  4.6566e-09,  ..., -8.3819e-09,
+          6.5193e-09,  9.3132e-10]], device='cuda:0')
+Epoch 268, bias, value: tensor([-0.0265, -0.0323, -0.0128,  0.0017, -0.0007,  0.0034,  0.0034, -0.0111,
+         0.0158, -0.0431], device='cuda:0'), grad: tensor([ 1.0338e-07,  1.0878e-06,  4.0513e-07, -5.0291e-08, -1.1269e-07,
+        -2.7195e-07, -8.5682e-08, -1.0300e-06, -2.2445e-07,  1.9930e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 267, time 217.80, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4675 re_mapping 0.0039 re_causal 0.0111 /// teacc 99.12 lr 0.00010000
+Epoch 269, weight, value: tensor([[-0.0634,  0.0063,  0.1213,  ...,  0.0121, -0.0768, -0.0676],
+        [-0.1823, -0.2017, -0.1868,  ...,  0.0779,  0.0522,  0.3828],
+        [-0.1696, -0.1420, -0.1722,  ..., -0.2255,  0.0282, -0.2151],
+        ...,
+        [-0.1926, -0.2121,  0.0080,  ..., -0.2152, -0.0990, -0.3717],
+        [ 0.1354,  0.0345, -0.1357,  ..., -0.2119,  0.0186, -0.2046],
+        [ 0.1338,  0.0876, -0.1200,  ...,  0.0865, -0.2187, -0.2214]],
+       device='cuda:0'), grad: tensor([[ 2.2352e-08,  7.4506e-09,  1.8626e-09,  ...,  6.6124e-08,
+          2.8871e-08,  8.9407e-08],
+        [-4.3772e-08,  3.7253e-09,  9.3132e-10,  ..., -2.3935e-07,
+         -1.0990e-07, -3.6974e-07],
+        [ 3.2596e-08,  2.3283e-08,  1.0245e-08,  ...,  3.6322e-08,
+          2.2352e-08,  5.4017e-08],
+        ...,
+        [ 1.7695e-08,  1.0245e-08,  0.0000e+00,  ...,  1.7695e-08,
+          4.6566e-09,  1.6764e-08],
+        [-6.7987e-08, -1.5926e-07, -9.0338e-08,  ...,  9.1270e-08,
+          5.5879e-09,  1.3318e-07],
+        [-2.4214e-08,  3.3528e-08,  2.7940e-09,  ..., -1.8626e-08,
+          4.6566e-09,  1.3039e-08]], device='cuda:0')
+Epoch 269, bias, value: tensor([-0.0265, -0.0333, -0.0127,  0.0018, -0.0015,  0.0033,  0.0037, -0.0079,
+         0.0157, -0.0460], device='cuda:0'), grad: tensor([ 2.4680e-07, -5.8673e-07,  2.6356e-07,  0.0000e+00,  6.3330e-08,
+         2.1420e-07,  4.0419e-07, -4.0419e-07, -4.0419e-07,  2.0303e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 268, time 217.36, cls_loss 0.0006 cls_loss_mapping 0.0020 cls_loss_causal 0.4776 re_mapping 0.0038 re_causal 0.0112 /// teacc 99.16 lr 0.00010000
+Epoch 270, weight, value: tensor([[-0.0647,  0.0047,  0.1212,  ...,  0.0119, -0.0770, -0.0679],
+        [-0.1823, -0.2019, -0.1869,  ...,  0.0781,  0.0525,  0.3838],
+        [-0.1719, -0.1424, -0.1728,  ..., -0.2263,  0.0280, -0.2161],
+        ...,
+        [-0.1927, -0.2127,  0.0080,  ..., -0.2153, -0.0991, -0.3722],
+        [ 0.1357,  0.0341, -0.1354,  ..., -0.2123,  0.0188, -0.2050],
+        [ 0.1339,  0.0877, -0.1202,  ...,  0.0868, -0.2190, -0.2236]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09, -4.6566e-09, -9.3132e-09,  ..., -1.8626e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 3.7253e-09,  1.8626e-09,  0.0000e+00,  ..., -1.8626e-09,
+          9.3132e-09, -4.6566e-09],
+        [ 1.8626e-09,  1.8626e-09,  9.3132e-10,  ...,  9.3132e-10,
+         -8.8476e-08,  9.3132e-10],
+        ...,
+        [ 2.7940e-09,  1.8626e-09,  9.3132e-10,  ...,  2.7940e-09,
+          5.2154e-08,  2.7940e-09],
+        [-1.8626e-09,  4.3772e-08,  4.6566e-09,  ...,  7.4506e-09,
+          1.6764e-08,  0.0000e+00],
+        [-4.2841e-08, -1.3970e-08,  5.5879e-09,  ..., -2.3283e-08,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 270, bias, value: tensor([-0.0269, -0.0332, -0.0132,  0.0018, -0.0017,  0.0035,  0.0035, -0.0079,
+         0.0161, -0.0460], device='cuda:0'), grad: tensor([-5.5879e-09,  1.0617e-07, -8.6706e-07,  6.2399e-08,  1.0431e-07,
+        -1.5926e-07,  7.9162e-08,  5.0664e-07,  2.5518e-07, -8.4750e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 269, time 217.45, cls_loss 0.0006 cls_loss_mapping 0.0015 cls_loss_causal 0.4844 re_mapping 0.0037 re_causal 0.0111 /// teacc 99.04 lr 0.00010000
+Epoch 271, weight, value: tensor([[-0.0652,  0.0039,  0.1215,  ...,  0.0111, -0.0772, -0.0681],
+        [-0.1827, -0.2027, -0.1871,  ...,  0.0781,  0.0525,  0.3842],
+        [-0.1726, -0.1427, -0.1733,  ..., -0.2267,  0.0280, -0.2166],
+        ...,
+        [-0.1927, -0.2138,  0.0077,  ..., -0.2155, -0.0994, -0.3723],
+        [ 0.1354,  0.0337, -0.1357,  ..., -0.2132,  0.0191, -0.2051],
+        [ 0.1340,  0.0888, -0.1207,  ...,  0.0882, -0.2195, -0.2241]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-09,  8.3819e-09,  0.0000e+00,  ...,  1.8626e-09,
+          5.5879e-09,  9.3132e-10],
+        [ 1.3690e-07,  1.8440e-07, -9.3132e-10,  ...,  3.4459e-08,
+          1.1083e-07, -2.4214e-08],
+        [ 2.4214e-08,  3.1665e-08,  9.3132e-10,  ...,  7.4506e-09,
+          2.3283e-08,  9.3132e-10],
+        ...,
+        [ 1.5181e-07,  1.5553e-07,  5.5879e-09,  ...,  8.6613e-08,
+          8.4750e-08,  1.5832e-08],
+        [ 7.4506e-08,  2.2072e-07,  0.0000e+00,  ...,  3.9116e-08,
+          9.4995e-08,  1.8626e-09],
+        [ 2.5146e-08,  2.3283e-08,  9.3132e-09,  ...,  1.7695e-08,
+          1.6764e-08,  1.8626e-09]], device='cuda:0')
+Epoch 271, bias, value: tensor([-0.0274, -0.0333, -0.0128,  0.0018, -0.0021,  0.0035,  0.0032, -0.0079,
+         0.0162, -0.0459], device='cuda:0'), grad: tensor([ 2.3283e-08,  4.2282e-07,  6.0536e-08, -1.3243e-06, -9.3132e-10,
+        -6.1095e-07,  4.0606e-07,  4.6473e-07,  4.5635e-07,  9.6858e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 270, time 217.52, cls_loss 0.0006 cls_loss_mapping 0.0013 cls_loss_causal 0.4905 re_mapping 0.0036 re_causal 0.0110 /// teacc 99.10 lr 0.00010000
+Epoch 272, weight, value: tensor([[-0.0656,  0.0041,  0.1216,  ...,  0.0111, -0.0775, -0.0683],
+        [-0.1830, -0.2040, -0.1878,  ...,  0.0780,  0.0523,  0.3846],
+        [-0.1728, -0.1429, -0.1736,  ..., -0.2271,  0.0280, -0.2170],
+        ...,
+        [-0.1928, -0.2146,  0.0070,  ..., -0.2157, -0.0997, -0.3725],
+        [ 0.1353,  0.0332, -0.1359,  ..., -0.2137,  0.0191, -0.2054],
+        [ 0.1341,  0.0882, -0.1214,  ...,  0.0883, -0.2220, -0.2244]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.2387e-07, -1.6484e-07,  ..., -1.2480e-07,
+          4.6566e-09,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  6.5193e-09,  ..., -2.7940e-09,
+          4.6566e-09, -1.0245e-08],
+        [ 0.0000e+00,  1.0431e-07,  1.9930e-07,  ...,  1.0431e-07,
+          6.0536e-08,  2.7940e-09],
+        ...,
+        [ 5.5879e-09,  5.5879e-09,  1.5832e-08,  ...,  1.0245e-08,
+          1.6764e-08,  9.3132e-09],
+        [-9.3132e-09, -6.5193e-09,  1.8626e-09,  ...,  1.8626e-09,
+         -5.5879e-09,  1.8626e-09],
+        [-5.5879e-09,  1.0245e-08,  1.1371e-06,  ...,  7.4506e-09,
+          1.2098e-06,  0.0000e+00]], device='cuda:0')
+Epoch 272, bias, value: tensor([-0.0274, -0.0335, -0.0125,  0.0018, -0.0011,  0.0037,  0.0030, -0.0080,
+         0.0160, -0.0460], device='cuda:0'), grad: tensor([-8.2795e-07,  6.6124e-08,  1.4594e-06,  4.0978e-08, -1.4991e-05,
+         2.3283e-08,  2.4214e-08,  2.0117e-07, -1.7695e-08,  1.4015e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 271, time 217.93, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4798 re_mapping 0.0036 re_causal 0.0111 /// teacc 99.11 lr 0.00010000
+Epoch 273, weight, value: tensor([[-0.0663,  0.0041,  0.1216,  ...,  0.0110, -0.0777, -0.0685],
+        [-0.1831, -0.2042, -0.1880,  ...,  0.0780,  0.0524,  0.3852],
+        [-0.1728, -0.1430, -0.1737,  ..., -0.2276,  0.0280, -0.2175],
+        ...,
+        [-0.1928, -0.2152,  0.0069,  ..., -0.2159, -0.0997, -0.3728],
+        [ 0.1352,  0.0330, -0.1360,  ..., -0.2142,  0.0191, -0.2058],
+        [ 0.1343,  0.0888, -0.1217,  ...,  0.0886, -0.2228, -0.2255]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09, -1.4901e-08, -2.1420e-08,  ..., -1.5832e-08,
+          2.7940e-09,  2.7940e-09],
+        [ 2.7940e-09,  3.7253e-09,  0.0000e+00,  ..., -2.2352e-08,
+         -4.6566e-09, -6.5193e-08],
+        [ 1.4901e-08,  8.3819e-09,  9.3132e-10,  ...,  1.3039e-08,
+          8.3819e-09,  2.5146e-08],
+        ...,
+        [ 3.7253e-09, -3.7253e-09,  9.3132e-10,  ...,  1.1176e-08,
+          4.6566e-09,  2.7940e-08],
+        [-1.2852e-07, -7.5437e-08,  9.3132e-10,  ...,  6.5193e-09,
+         -4.0047e-08,  4.6566e-09],
+        [ 3.8184e-08,  4.0978e-08,  1.3970e-08,  ...,  1.3970e-08,
+          1.2107e-08,  9.3132e-10]], device='cuda:0')
+Epoch 273, bias, value: tensor([-0.0276, -0.0336, -0.0121,  0.0017, -0.0011,  0.0037,  0.0032, -0.0081,
+         0.0158, -0.0460], device='cuda:0'), grad: tensor([-3.3528e-08,  4.3772e-08,  2.8685e-07,  3.2317e-07,  1.5832e-08,
+        -2.7940e-09, -1.6764e-08, -6.4634e-07, -3.0547e-07,  3.3900e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 272----------------------------------------------------
+epoch 272, time 218.24, cls_loss 0.0006 cls_loss_mapping 0.0018 cls_loss_causal 0.4843 re_mapping 0.0037 re_causal 0.0113 /// teacc 99.23 lr 0.00010000
+Epoch 274, weight, value: tensor([[-0.0671,  0.0043,  0.1217,  ...,  0.0111, -0.0778, -0.0687],
+        [-0.1833, -0.2046, -0.1882,  ...,  0.0782,  0.0525,  0.3856],
+        [-0.1737, -0.1433, -0.1740,  ..., -0.2283,  0.0278, -0.2185],
+        ...,
+        [-0.1929, -0.2157,  0.0069,  ..., -0.2164, -0.0999, -0.3729],
+        [ 0.1356,  0.0331, -0.1362,  ..., -0.2145,  0.0193, -0.2058],
+        [ 0.1345,  0.0889, -0.1219,  ...,  0.0893, -0.2243, -0.2258]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.2107e-08, -1.1176e-08,  ..., -1.3970e-08,
+          9.3132e-10,  0.0000e+00],
+        [ 2.7940e-09,  2.7940e-09,  1.8626e-09,  ...,  2.7940e-09,
+         -1.8626e-09, -4.6566e-09],
+        [ 0.0000e+00,  1.8626e-09,  4.6566e-09,  ...,  9.3132e-10,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 1.3970e-08,  4.6566e-09,  5.1223e-08,  ...,  1.8626e-08,
+          4.0047e-08,  3.7253e-09],
+        [ 0.0000e+00,  9.3132e-10,  9.3132e-10,  ...,  2.7940e-09,
+          0.0000e+00,  0.0000e+00],
+        [-1.6764e-08, -1.8626e-09,  1.0245e-08,  ..., -1.8626e-08,
+          5.5879e-09,  0.0000e+00]], device='cuda:0')
+Epoch 274, bias, value: tensor([-0.0277, -0.0337, -0.0124,  0.0015, -0.0012,  0.0039,  0.0034, -0.0079,
+         0.0160, -0.0460], device='cuda:0'), grad: tensor([-5.4017e-08,  1.1176e-08, -6.2399e-07,  5.5879e-09, -1.5739e-07,
+         1.9558e-08, -1.4901e-08,  7.7114e-07,  1.6764e-08,  2.1420e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 273, time 217.23, cls_loss 0.0007 cls_loss_mapping 0.0028 cls_loss_causal 0.4962 re_mapping 0.0037 re_causal 0.0110 /// teacc 99.19 lr 0.00010000
+Epoch 275, weight, value: tensor([[-0.0679,  0.0044,  0.1222,  ...,  0.0112, -0.0779, -0.0690],
+        [-0.1833, -0.2049, -0.1891,  ...,  0.0785,  0.0528,  0.3872],
+        [-0.1747, -0.1440, -0.1745,  ..., -0.2294,  0.0277, -0.2204],
+        ...,
+        [-0.1930, -0.2181,  0.0058,  ..., -0.2171, -0.1005, -0.3738],
+        [ 0.1360,  0.0334, -0.1364,  ..., -0.2149,  0.0195, -0.2067],
+        [ 0.1348,  0.0897, -0.1224,  ...,  0.0900, -0.2247, -0.2277]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09, -1.8626e-09, -6.5193e-09,  ..., -3.7253e-09,
+          0.0000e+00,  9.3132e-10],
+        [ 2.7940e-09,  1.8626e-09,  0.0000e+00,  ..., -3.7253e-09,
+         -2.1420e-08, -4.5635e-08],
+        [ 2.7940e-09,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  1.8626e-09],
+        ...,
+        [ 7.4506e-09,  1.0245e-08,  0.0000e+00,  ...,  4.6566e-09,
+          2.0489e-08,  3.8184e-08],
+        [ 1.1176e-08, -1.1176e-08,  0.0000e+00,  ...,  1.6764e-08,
+         -1.3039e-08,  0.0000e+00],
+        [-9.6858e-08, -6.4261e-08,  8.3819e-09,  ..., -5.3085e-08,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 275, bias, value: tensor([-0.0274, -0.0334, -0.0124,  0.0013, -0.0011,  0.0039,  0.0034, -0.0083,
+         0.0165, -0.0460], device='cuda:0'), grad: tensor([ 1.0245e-07,  3.7253e-09, -2.1551e-06,  2.6450e-07,  3.1199e-07,
+         1.2293e-07,  6.7055e-07,  6.9290e-07,  7.3574e-08, -8.1956e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 274, time 217.46, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.4772 re_mapping 0.0036 re_causal 0.0109 /// teacc 99.14 lr 0.00010000
+Epoch 276, weight, value: tensor([[-0.0685,  0.0048,  0.1228,  ...,  0.0115, -0.0778, -0.0692],
+        [-0.1833, -0.2051, -0.1897,  ...,  0.0790,  0.0530,  0.3888],
+        [-0.1755, -0.1444, -0.1748,  ..., -0.2299,  0.0277, -0.2213],
+        ...,
+        [-0.1933, -0.2205,  0.0054,  ..., -0.2176, -0.1008, -0.3746],
+        [ 0.1359,  0.0333, -0.1366,  ..., -0.2154,  0.0196, -0.2076],
+        [ 0.1346,  0.0886, -0.1228,  ...,  0.0896, -0.2250, -0.2334]],
+       device='cuda:0'), grad: tensor([[ 8.1025e-08,  8.8476e-08, -1.7043e-07,  ..., -9.5926e-08,
+          4.6566e-09, -2.7940e-09],
+        [ 5.0291e-08,  5.6811e-08,  5.0291e-08,  ...,  2.7008e-08,
+          7.4506e-09,  0.0000e+00],
+        [ 7.4506e-08,  8.4750e-08,  7.4506e-09,  ...,  4.6566e-09,
+          1.1176e-08,  9.3132e-10],
+        ...,
+        [ 4.7497e-08,  5.0291e-08, -1.1176e-08,  ...,  9.3132e-10,
+          1.4901e-08,  9.3132e-10],
+        [ 1.2703e-06,  1.5041e-06,  4.5635e-08,  ...,  2.7940e-08,
+          2.7008e-08,  0.0000e+00],
+        [ 1.1548e-07,  1.3877e-07,  3.6322e-08,  ...,  2.7940e-09,
+          8.3819e-09,  1.8626e-09]], device='cuda:0')
+Epoch 276, bias, value: tensor([-0.0270, -0.0332, -0.0121, -0.0009, -0.0013,  0.0064,  0.0035, -0.0086,
+         0.0165, -0.0463], device='cuda:0'), grad: tensor([-2.6356e-07,  1.0012e-06,  4.1351e-07, -7.9647e-06,  1.0245e-07,
+         3.4794e-06,  1.4622e-07, -1.2685e-06,  3.5875e-06,  7.4785e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 275, time 217.44, cls_loss 0.0006 cls_loss_mapping 0.0017 cls_loss_causal 0.4947 re_mapping 0.0037 re_causal 0.0111 /// teacc 99.13 lr 0.00010000
+Epoch 277, weight, value: tensor([[-0.0703,  0.0053,  0.1235,  ...,  0.0118, -0.0778, -0.0692],
+        [-0.1835, -0.2058, -0.1909,  ...,  0.0791,  0.0530,  0.3895],
+        [-0.1765, -0.1449, -0.1754,  ..., -0.2308,  0.0276, -0.2218],
+        ...,
+        [-0.1935, -0.2226,  0.0051,  ..., -0.2182, -0.1009, -0.3750],
+        [ 0.1364,  0.0334, -0.1372,  ..., -0.2162,  0.0198, -0.2082],
+        [ 0.1345,  0.0878, -0.1235,  ...,  0.0899, -0.2266, -0.2347]],
+       device='cuda:0'), grad: tensor([[ 1.1176e-08, -4.6566e-09, -6.1467e-08,  ..., -2.5146e-08,
+          2.7940e-09,  0.0000e+00],
+        [ 5.1223e-08,  4.2841e-08,  2.7940e-09,  ...,  3.2596e-08,
+          6.7055e-08, -2.7940e-09],
+        [ 1.5087e-07,  1.6112e-07,  5.5879e-09,  ...,  9.3132e-10,
+         -1.0524e-07,  0.0000e+00],
+        ...,
+        [ 1.0338e-07,  9.1270e-08, -3.7253e-09,  ...,  4.6566e-08,
+          2.4214e-08,  2.7940e-09],
+        [-3.8184e-07, -4.0233e-07,  0.0000e+00,  ...,  2.7940e-09,
+          0.0000e+00,  0.0000e+00],
+        [-1.7323e-07, -1.1362e-07,  8.3819e-09,  ..., -2.0117e-07,
+          2.7940e-09,  0.0000e+00]], device='cuda:0')
+Epoch 277, bias, value: tensor([-0.0264, -0.0333, -0.0121, -0.0008, -0.0005,  0.0062,  0.0038, -0.0088,
+         0.0166, -0.0467], device='cuda:0'), grad: tensor([-2.2352e-08,  1.1772e-06, -8.9034e-07,  1.6019e-07,  2.7381e-07,
+         9.5274e-07,  4.3400e-07,  1.7453e-06, -3.5390e-06, -3.0454e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 276, time 217.60, cls_loss 0.0006 cls_loss_mapping 0.0017 cls_loss_causal 0.4690 re_mapping 0.0036 re_causal 0.0107 /// teacc 99.13 lr 0.00010000
+Epoch 278, weight, value: tensor([[-0.0714,  0.0060,  0.1242,  ...,  0.0120, -0.0781, -0.0693],
+        [-0.1836, -0.2073, -0.1913,  ...,  0.0794,  0.0534,  0.3905],
+        [-0.1778, -0.1454, -0.1759,  ..., -0.2319,  0.0273, -0.2248],
+        ...,
+        [-0.1936, -0.2237,  0.0049,  ..., -0.2186, -0.1012, -0.3755],
+        [ 0.1392,  0.0363, -0.1378,  ..., -0.2150,  0.0203, -0.2089],
+        [ 0.1346,  0.0876, -0.1242,  ...,  0.0901, -0.2274, -0.2356]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09, -2.5146e-08, -5.1223e-09,  ...,  5.5879e-09,
+          1.3970e-09,  4.6566e-10],
+        [ 1.3877e-07,  1.0571e-07,  3.2596e-09,  ...,  7.2177e-08,
+          1.2387e-07, -4.6566e-09],
+        [ 2.3097e-07,  1.7742e-07,  1.8626e-09,  ...,  1.2154e-07,
+          2.1048e-07,  9.3132e-10],
+        ...,
+        [ 3.0734e-08,  2.0023e-08,  0.0000e+00,  ...,  2.0955e-08,
+          1.5832e-08,  2.7940e-09],
+        [ 1.1176e-07,  8.5216e-08,  2.9802e-08,  ...,  9.7789e-08,
+          1.0151e-07,  2.3283e-09],
+        [-7.1246e-08, -1.3970e-08,  2.3749e-08,  ..., -4.0047e-08,
+          4.6566e-09,  4.6566e-10]], device='cuda:0')
+Epoch 278, bias, value: tensor([-2.6068e-02, -3.3088e-02, -1.2604e-02, -7.4336e-04,  3.1777e-05,
+         5.7711e-03,  1.9292e-03, -8.8935e-03,  1.9330e-02, -4.6858e-02],
+       device='cuda:0'), grad: tensor([ 4.6566e-08,  5.8766e-07,  9.8348e-07, -2.2240e-06,  1.1688e-07,
+         1.8068e-07, -3.1898e-07,  9.2667e-08,  6.3097e-07, -8.4285e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 277, time 217.41, cls_loss 0.0006 cls_loss_mapping 0.0025 cls_loss_causal 0.4789 re_mapping 0.0039 re_causal 0.0112 /// teacc 99.07 lr 0.00010000
+Epoch 279, weight, value: tensor([[-0.0704,  0.0070,  0.1246,  ...,  0.0123, -0.0785, -0.0703],
+        [-0.1839, -0.2080, -0.1912,  ...,  0.0800,  0.0538,  0.3915],
+        [-0.1787, -0.1458, -0.1763,  ..., -0.2329,  0.0272, -0.2264],
+        ...,
+        [-0.1937, -0.2245,  0.0046,  ..., -0.2192, -0.1017, -0.3759],
+        [ 0.1396,  0.0365, -0.1380,  ..., -0.2150,  0.0205, -0.2087],
+        [ 0.1339,  0.0855, -0.1252,  ...,  0.0892, -0.2321, -0.2374]],
+       device='cuda:0'), grad: tensor([[ 3.2596e-09, -2.9802e-08, -3.9581e-08,  ..., -3.1665e-08,
+          1.3970e-09,  9.7789e-09],
+        [-2.7940e-09,  7.4506e-09,  1.8626e-09,  ..., -4.3260e-07,
+         -1.5367e-08, -4.6566e-07],
+        [ 1.1921e-07,  3.0734e-08,  9.3132e-10,  ...,  1.2107e-08,
+          3.3062e-08,  8.8476e-09],
+        ...,
+        [ 1.3970e-08,  4.1910e-09,  9.3132e-10,  ...,  2.4354e-07,
+          1.4435e-08,  2.5099e-07],
+        [-3.2596e-09, -2.3283e-09,  4.6566e-10,  ...,  1.2573e-08,
+         -1.3970e-09,  1.1176e-08],
+        [ 5.3085e-08,  5.6811e-08,  3.1199e-08,  ...,  2.4913e-07,
+          3.3993e-08,  1.6531e-07]], device='cuda:0')
+Epoch 279, bias, value: tensor([-0.0258, -0.0329, -0.0127, -0.0005,  0.0039,  0.0055,  0.0019, -0.0091,
+         0.0195, -0.0486], device='cuda:0'), grad: tensor([-8.8476e-08, -1.3057e-06, -1.5507e-07, -6.4541e-07, -2.7940e-09,
+         1.6345e-07,  2.2352e-08,  1.2107e-06,  8.3353e-08,  7.1386e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 278, time 217.46, cls_loss 0.0005 cls_loss_mapping 0.0015 cls_loss_causal 0.5053 re_mapping 0.0038 re_causal 0.0113 /// teacc 99.15 lr 0.00010000
+Epoch 280, weight, value: tensor([[-0.0706,  0.0077,  0.1249,  ...,  0.0124, -0.0790, -0.0715],
+        [-0.1843, -0.2089, -0.1913,  ...,  0.0805,  0.0539,  0.3932],
+        [-0.1793, -0.1463, -0.1766,  ..., -0.2340,  0.0271, -0.2269],
+        ...,
+        [-0.1937, -0.2249,  0.0045,  ..., -0.2195, -0.1019, -0.3771],
+        [ 0.1396,  0.0366, -0.1384,  ..., -0.2153,  0.0210, -0.2104],
+        [ 0.1340,  0.0854, -0.1255,  ...,  0.0893, -0.2322, -0.2382]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09, -9.3132e-08, -1.7975e-07,  ..., -9.3598e-08,
+          4.6566e-10, -3.5390e-08],
+        [ 3.7253e-09,  6.9849e-09,  4.1910e-09,  ..., -2.3283e-09,
+          4.6566e-10, -1.7229e-08],
+        [ 1.7229e-08,  2.3749e-08,  3.2596e-09,  ...,  2.7940e-09,
+          2.9337e-08,  2.3283e-09],
+        ...,
+        [ 1.2107e-08,  7.9162e-09,  4.6566e-10,  ...,  9.7789e-09,
+          1.7229e-08,  1.2573e-08],
+        [-1.9185e-07, -2.3469e-07,  4.6566e-09,  ...,  3.2596e-09,
+         -3.1246e-07,  1.8626e-09],
+        [-1.8626e-08,  1.8626e-09,  1.7229e-08,  ..., -9.3132e-09,
+          9.3132e-10,  4.1910e-09]], device='cuda:0')
+Epoch 280, bias, value: tensor([-0.0257, -0.0324, -0.0128, -0.0004,  0.0038,  0.0055,  0.0017, -0.0092,
+         0.0197, -0.0487], device='cuda:0'), grad: tensor([-3.5716e-07,  1.9325e-07,  1.6997e-07,  2.3469e-07,  4.8429e-08,
+         6.7893e-07,  2.9756e-07, -2.9290e-07, -9.5554e-07,  2.7940e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 279, time 217.58, cls_loss 0.0004 cls_loss_mapping 0.0012 cls_loss_causal 0.4628 re_mapping 0.0036 re_causal 0.0109 /// teacc 99.03 lr 0.00010000
+Epoch 281, weight, value: tensor([[-0.0706,  0.0083,  0.1251,  ...,  0.0126, -0.0792, -0.0720],
+        [-0.1845, -0.2092, -0.1913,  ...,  0.0807,  0.0540,  0.3940],
+        [-0.1800, -0.1466, -0.1767,  ..., -0.2347,  0.0269, -0.2271],
+        ...,
+        [-0.1939, -0.2259,  0.0063,  ..., -0.2202, -0.1020, -0.3774],
+        [ 0.1398,  0.0366, -0.1387,  ..., -0.2158,  0.0212, -0.2115],
+        [ 0.1343,  0.0855, -0.1257,  ...,  0.0898, -0.2323, -0.2388]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-09,  9.3132e-10,  1.9837e-07,  ...,  4.9220e-07,
+          9.3132e-10,  1.0477e-07],
+        [ 6.0536e-09,  3.2596e-09,  1.1409e-07,  ...,  2.6403e-07,
+         -9.7789e-09, -5.1223e-09],
+        [ 2.3283e-09,  2.3283e-09,  1.6764e-08,  ...,  4.3306e-08,
+          2.7940e-09,  1.4435e-08],
+        ...,
+        [ 2.4214e-08,  8.8476e-09,  9.3132e-10,  ...,  3.3993e-08,
+          8.8476e-09,  3.3993e-08],
+        [ 2.7940e-09,  4.1910e-09,  2.3283e-09,  ...,  1.0710e-08,
+          3.7253e-09,  1.0710e-08],
+        [-3.6787e-08, -1.1176e-08,  1.3970e-09,  ..., -3.0268e-08,
+          9.3132e-10,  3.2596e-09]], device='cuda:0')
+Epoch 281, bias, value: tensor([-0.0255, -0.0331, -0.0125, -0.0004,  0.0034,  0.0054,  0.0016, -0.0089,
+         0.0198, -0.0486], device='cuda:0'), grad: tensor([ 1.0002e-06,  5.1269e-07,  9.7789e-08, -1.8626e-08,  3.3062e-08,
+         3.1665e-08, -1.6820e-06,  5.6811e-08,  3.7719e-08, -6.9384e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 280, time 217.43, cls_loss 0.0007 cls_loss_mapping 0.0020 cls_loss_causal 0.4604 re_mapping 0.0034 re_causal 0.0101 /// teacc 99.16 lr 0.00010000
+Epoch 282, weight, value: tensor([[-0.0752,  0.0049,  0.1232,  ...,  0.0098, -0.0820, -0.0729],
+        [-0.1849, -0.2102, -0.1918,  ...,  0.0828,  0.0558,  0.3973],
+        [-0.1816, -0.1471, -0.1770,  ..., -0.2363,  0.0267, -0.2281],
+        ...,
+        [-0.1940, -0.2288,  0.0066,  ..., -0.2213, -0.1032, -0.3781],
+        [ 0.1392,  0.0362, -0.1391,  ..., -0.2193,  0.0213, -0.2152],
+        [ 0.1352,  0.0873, -0.1256,  ...,  0.0938, -0.2320, -0.2395]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  9.3132e-10,  1.2340e-07,  ...,  7.0315e-08,
+          3.5856e-08,  2.6543e-08],
+        [ 3.2596e-09,  4.6566e-09,  6.2399e-08,  ...,  3.3528e-08,
+          2.0489e-08,  6.9849e-09],
+        [ 1.8626e-09,  4.6566e-09,  3.0734e-08,  ...,  1.9092e-08,
+          1.2107e-08,  7.4506e-09],
+        ...,
+        [ 1.0245e-08,  5.5879e-09,  2.3283e-09,  ...,  1.1176e-08,
+          2.3283e-09,  3.7253e-09],
+        [ 2.7940e-09,  3.7253e-09,  1.7928e-07,  ...,  1.0151e-07,
+          5.3551e-08,  3.8650e-08],
+        [-4.3772e-08, -1.5832e-08,  1.3970e-09,  ..., -3.8184e-08,
+          1.3970e-09,  3.2596e-09]], device='cuda:0')
+Epoch 282, bias, value: tensor([-0.0284, -0.0326, -0.0127, -0.0004,  0.0020,  0.0055,  0.0023, -0.0088,
+         0.0193, -0.0475], device='cuda:0'), grad: tensor([ 4.2841e-07,  3.0641e-07,  1.4529e-07, -8.7544e-08,  1.9651e-07,
+         4.8010e-07, -1.8552e-06, -4.7171e-07,  6.0955e-07,  2.6124e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 281, time 217.27, cls_loss 0.0007 cls_loss_mapping 0.0016 cls_loss_causal 0.4535 re_mapping 0.0037 re_causal 0.0107 /// teacc 98.98 lr 0.00010000
+Epoch 283, weight, value: tensor([[-0.0757,  0.0047,  0.1231,  ...,  0.0096, -0.0825, -0.0730],
+        [-0.1853, -0.2092, -0.1924,  ...,  0.0838,  0.0560,  0.3987],
+        [-0.1824, -0.1475, -0.1772,  ..., -0.2371,  0.0265, -0.2285],
+        ...,
+        [-0.1941, -0.2308,  0.0064,  ..., -0.2225, -0.1038, -0.3803],
+        [ 0.1389,  0.0356, -0.1395,  ..., -0.2201,  0.0211, -0.2158],
+        [ 0.1353,  0.0872, -0.1261,  ...,  0.0944, -0.2331, -0.2400]],
+       device='cuda:0'), grad: tensor([[ 4.1910e-09,  4.6566e-09,  5.4017e-08,  ...,  7.7765e-08,
+          5.8673e-08,  1.1735e-07],
+        [ 3.7253e-09,  2.7940e-09,  6.0396e-07,  ...,  5.0990e-07,
+          7.6089e-07, -4.0233e-07],
+        [ 2.3283e-09,  1.8626e-09,  4.3772e-08,  ...,  1.9092e-08,
+          4.6566e-08,  2.9802e-08],
+        ...,
+        [ 6.5193e-09,  5.1223e-09,  1.9278e-07,  ...,  2.4680e-08,
+          2.0768e-07,  5.4482e-08],
+        [ 8.3819e-09,  1.3970e-08,  2.1560e-07,  ...,  7.1153e-07,
+          1.9977e-07,  1.5078e-06],
+        [-2.8871e-08, -1.9092e-08,  6.1141e-07,  ..., -1.5832e-08,
+          6.6170e-07,  1.8626e-08]], device='cuda:0')
+Epoch 283, bias, value: tensor([-0.0287, -0.0333, -0.0127, -0.0004,  0.0024,  0.0056,  0.0024, -0.0083,
+         0.0190, -0.0477], device='cuda:0'), grad: tensor([ 4.6054e-07,  1.1660e-06,  4.9360e-08,  9.2667e-08, -5.2936e-06,
+         5.7183e-06, -1.0416e-05,  1.2293e-06,  3.6061e-06,  3.3956e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 282, time 217.54, cls_loss 0.0007 cls_loss_mapping 0.0018 cls_loss_causal 0.4915 re_mapping 0.0036 re_causal 0.0107 /// teacc 99.15 lr 0.00010000
+Epoch 284, weight, value: tensor([[-0.0762,  0.0054,  0.1241,  ...,  0.0099, -0.0826, -0.0727],
+        [-0.1858, -0.2092, -0.1934,  ...,  0.0841,  0.0563,  0.4003],
+        [-0.1834, -0.1479, -0.1784,  ..., -0.2387,  0.0264, -0.2299],
+        ...,
+        [-0.1942, -0.2318,  0.0069,  ..., -0.2231, -0.1044, -0.3817],
+        [ 0.1383,  0.0352, -0.1399,  ..., -0.2211,  0.0209, -0.2177],
+        [ 0.1355,  0.0874, -0.1266,  ...,  0.0950, -0.2336, -0.2408]],
+       device='cuda:0'), grad: tensor([[-1.9558e-08, -9.7789e-08, -1.4575e-07,  ..., -1.1316e-07,
+          1.5367e-08,  4.6566e-10],
+        [ 1.2573e-08,  8.8476e-09,  1.7695e-08,  ...,  9.3132e-10,
+          5.0291e-08, -5.1223e-09],
+        [ 3.0734e-08,  1.6298e-08,  1.6764e-08,  ...,  4.1910e-09,
+          7.6368e-08,  1.8626e-09],
+        ...,
+        [ 5.1223e-09,  3.7253e-09,  6.5193e-09,  ...,  1.8626e-09,
+          1.7695e-08,  2.7940e-09],
+        [-8.1491e-08, -2.7940e-08,  6.9849e-09,  ...,  6.0536e-09,
+         -1.4529e-07,  2.3283e-09],
+        [-9.6392e-08, -1.0617e-07,  6.9849e-08,  ..., -2.3749e-08,
+          1.0058e-07,  0.0000e+00]], device='cuda:0')
+Epoch 284, bias, value: tensor([-0.0283, -0.0333, -0.0124, -0.0003,  0.0028,  0.0055,  0.0021, -0.0083,
+         0.0185, -0.0477], device='cuda:0'), grad: tensor([-3.2643e-07,  1.8766e-07,  1.4249e-07,  6.9849e-08, -3.8138e-07,
+         4.2655e-07,  2.6682e-07,  8.5682e-08, -4.3446e-07, -2.3749e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 283, time 217.63, cls_loss 0.0007 cls_loss_mapping 0.0014 cls_loss_causal 0.4724 re_mapping 0.0035 re_causal 0.0106 /// teacc 99.06 lr 0.00010000
+Epoch 285, weight, value: tensor([[-0.0770,  0.0053,  0.1242,  ...,  0.0098, -0.0829, -0.0728],
+        [-0.1867, -0.2099, -0.1944,  ...,  0.0839,  0.0559,  0.4006],
+        [-0.1847, -0.1486, -0.1791,  ..., -0.2408,  0.0262, -0.2310],
+        ...,
+        [-0.1946, -0.2329,  0.0069,  ..., -0.2238, -0.1049, -0.3821],
+        [ 0.1384,  0.0352, -0.1407,  ..., -0.2216,  0.0209, -0.2181],
+        [ 0.1361,  0.0877, -0.1273,  ...,  0.0958, -0.2344, -0.2413]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  9.3132e-10,  1.3970e-09,  ...,  9.7789e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 9.3132e-10,  2.3283e-09,  4.6566e-10,  ...,  8.3819e-09,
+          2.7940e-09,  0.0000e+00],
+        [ 1.3970e-09,  1.3970e-09,  4.1910e-09,  ..., -5.5414e-08,
+          8.3819e-09,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  1.8626e-09,  0.0000e+00,  ...,  4.1444e-08,
+          0.0000e+00,  0.0000e+00],
+        [-4.6566e-10,  1.2107e-08,  4.6566e-09,  ...,  1.4435e-08,
+         -2.7940e-09,  0.0000e+00],
+        [-1.8626e-09,  9.3132e-10,  0.0000e+00,  ...,  4.6566e-10,
+          4.6566e-10,  0.0000e+00]], device='cuda:0')
+Epoch 285, bias, value: tensor([-2.8351e-02, -3.3530e-02, -1.2366e-02, -2.3023e-05,  3.2461e-03,
+         5.2888e-03,  2.1953e-03, -8.5822e-03,  1.8369e-02, -4.7609e-02],
+       device='cuda:0'), grad: tensor([ 7.4506e-08,  9.3132e-08, -9.3644e-07,  7.4878e-07,  2.7940e-08,
+        -6.3283e-07, -5.4482e-08,  5.4715e-07,  1.2061e-07,  1.3970e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 284, time 217.54, cls_loss 0.0007 cls_loss_mapping 0.0015 cls_loss_causal 0.4920 re_mapping 0.0035 re_causal 0.0104 /// teacc 99.15 lr 0.00010000
+Epoch 286, weight, value: tensor([[-0.0774,  0.0054,  0.1246,  ...,  0.0101, -0.0825, -0.0724],
+        [-0.1882, -0.2113, -0.1956,  ...,  0.0833,  0.0553,  0.4011],
+        [-0.1870, -0.1494, -0.1804,  ..., -0.2429,  0.0264, -0.2315],
+        ...,
+        [-0.1947, -0.2335,  0.0070,  ..., -0.2242, -0.1053, -0.3823],
+        [ 0.1392,  0.0353, -0.1410,  ..., -0.2220,  0.0212, -0.2184],
+        [ 0.1363,  0.0877, -0.1277,  ...,  0.0967, -0.2347, -0.2427]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09, -2.5332e-07, -5.8394e-07,  ..., -3.4319e-07,
+          6.9849e-09,  1.6158e-07],
+        [ 2.4214e-08,  5.2154e-08, -8.7684e-07,  ..., -4.9733e-07,
+          3.0268e-08, -3.1665e-06],
+        [ 9.7789e-08,  1.4668e-07,  2.9895e-07,  ...,  1.8254e-07,
+          1.4994e-07,  8.2003e-07],
+        ...,
+        [ 3.4925e-08,  4.7963e-08,  3.9162e-07,  ...,  2.2771e-07,
+          5.2620e-08,  1.3132e-06],
+        [ 8.3819e-09,  9.5461e-08,  1.5320e-07,  ...,  1.1036e-07,
+          3.3993e-08,  6.9849e-08],
+        [ 2.3283e-09,  1.4901e-08,  8.7544e-08,  ...,  4.1444e-08,
+          1.1176e-08,  1.8207e-07]], device='cuda:0')
+Epoch 286, bias, value: tensor([-2.8035e-02, -3.4053e-02, -1.2450e-02, -6.3765e-05,  3.1482e-03,
+         5.3886e-03,  2.2422e-03, -8.6133e-03,  1.8569e-02, -4.7515e-02],
+       device='cuda:0'), grad: tensor([-1.0692e-06, -6.2995e-06,  2.3134e-06, -1.0170e-06,  2.4959e-07,
+         1.0692e-06,  7.2643e-07,  2.8573e-06,  6.8080e-07,  4.7637e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 285, time 217.64, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4607 re_mapping 0.0035 re_causal 0.0106 /// teacc 99.13 lr 0.00010000
+Epoch 287, weight, value: tensor([[-0.0778,  0.0055,  0.1248,  ...,  0.0101, -0.0827, -0.0727],
+        [-0.1899, -0.2124, -0.1959,  ...,  0.0833,  0.0549,  0.4013],
+        [-0.1881, -0.1499, -0.1811,  ..., -0.2438,  0.0262, -0.2332],
+        ...,
+        [-0.1947, -0.2347,  0.0068,  ..., -0.2243, -0.1055, -0.3826],
+        [ 0.1401,  0.0356, -0.1409,  ..., -0.2220,  0.0219, -0.2158],
+        [ 0.1365,  0.0877, -0.1278,  ...,  0.0969, -0.2349, -0.2433]],
+       device='cuda:0'), grad: tensor([[ 1.9092e-08,  1.6764e-08,  1.2573e-08,  ...,  1.3970e-08,
+          6.0536e-09, -4.6566e-10],
+        [ 1.1176e-08,  1.3504e-08,  1.4901e-08,  ...,  9.3132e-09,
+          5.5879e-09,  0.0000e+00],
+        [ 4.6566e-10,  3.7253e-09,  8.3819e-09,  ...,  9.3132e-10,
+          3.7253e-09,  9.3132e-10],
+        ...,
+        [ 3.4645e-07,  2.4214e-07,  3.9581e-08,  ...,  2.8452e-07,
+          1.3039e-08,  3.2596e-09],
+        [ 1.3970e-09,  1.9558e-08,  7.3574e-08,  ...,  3.4925e-08,
+          1.3970e-08,  4.6566e-10],
+        [-4.0885e-07,  6.7428e-07,  2.6058e-06,  ..., -3.8836e-07,
+          1.0943e-06,  4.6566e-10]], device='cuda:0')
+Epoch 287, bias, value: tensor([-2.8044e-02, -3.4831e-02, -1.2592e-02, -3.8633e-05,  2.7945e-03,
+         5.3607e-03,  2.3705e-03, -8.3422e-03,  1.9084e-02, -4.7445e-02],
+       device='cuda:0'), grad: tensor([ 8.2888e-08,  7.4971e-08,  3.7719e-08,  1.2899e-07, -8.5309e-06,
+        -3.2131e-08, -9.4529e-08,  8.5216e-07,  2.2771e-07,  7.2420e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 286, time 217.60, cls_loss 0.0006 cls_loss_mapping 0.0011 cls_loss_causal 0.4886 re_mapping 0.0037 re_causal 0.0110 /// teacc 99.09 lr 0.00010000
+Epoch 288, weight, value: tensor([[-0.0794,  0.0052,  0.1246,  ...,  0.0099, -0.0830, -0.0733],
+        [-0.1906, -0.2159, -0.1983,  ...,  0.0829,  0.0549,  0.3999],
+        [-0.1891, -0.1506, -0.1825,  ..., -0.2452,  0.0260, -0.2337],
+        ...,
+        [-0.1948, -0.2359,  0.0066,  ..., -0.2247, -0.1059, -0.3829],
+        [ 0.1402,  0.0355, -0.1424,  ..., -0.2236,  0.0221, -0.2176],
+        [ 0.1367,  0.0879, -0.1286,  ...,  0.0975, -0.2354, -0.2439]],
+       device='cuda:0'), grad: tensor([[ 7.9162e-09, -1.5274e-07, -2.8824e-07,  ..., -1.0803e-07,
+          5.1223e-09, -1.0803e-07],
+        [ 6.7055e-08,  9.0338e-08,  5.1223e-09,  ...,  1.8626e-08,
+          9.4995e-08, -4.3306e-08],
+        [ 1.6997e-07,  2.6776e-07,  8.5682e-08,  ...,  1.0012e-07,
+          2.6915e-07,  5.7276e-08],
+        ...,
+        [ 4.4238e-07,  6.3796e-07,  3.2596e-09,  ...,  2.3702e-07,
+          5.4808e-07,  1.6764e-08],
+        [-3.8650e-08,  7.3109e-08,  6.1933e-08,  ...,  3.7253e-08,
+         -2.0210e-07,  2.9802e-08],
+        [-5.3551e-08,  6.1467e-08,  7.1712e-08,  ..., -4.9826e-08,
+          5.7276e-08,  3.3528e-08]], device='cuda:0')
+Epoch 288, bias, value: tensor([-2.8504e-02, -3.5946e-02, -1.2423e-02, -4.7324e-05,  2.9058e-03,
+         5.7517e-03,  2.5184e-03, -8.2940e-03,  1.8934e-02, -4.7448e-02],
+       device='cuda:0'), grad: tensor([-6.7474e-07,  2.8871e-07,  1.0962e-06, -2.8796e-06,  9.3132e-08,
+        -1.9372e-07,  7.3388e-07,  1.8040e-06, -3.6275e-07,  7.0315e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 287, time 217.62, cls_loss 0.0006 cls_loss_mapping 0.0013 cls_loss_causal 0.4600 re_mapping 0.0036 re_causal 0.0105 /// teacc 99.17 lr 0.00010000
+Epoch 289, weight, value: tensor([[-0.0800,  0.0046,  0.1240,  ...,  0.0092, -0.0834, -0.0743],
+        [-0.1911, -0.2180, -0.2007,  ...,  0.0825,  0.0553,  0.3994],
+        [-0.1913, -0.1515, -0.1833,  ..., -0.2465,  0.0258, -0.2349],
+        ...,
+        [-0.1951, -0.2378,  0.0062,  ..., -0.2252, -0.1065, -0.3838],
+        [ 0.1405,  0.0350, -0.1443,  ..., -0.2249,  0.0223, -0.2207],
+        [ 0.1369,  0.0882, -0.1287,  ...,  0.0981, -0.2355, -0.2443]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-09, -1.5367e-08,  2.1886e-08,  ...,  6.0536e-09,
+          2.3749e-08,  3.2596e-08],
+        [ 3.4925e-08,  3.4925e-08, -1.1176e-08,  ..., -9.8255e-08,
+          2.7008e-08, -1.8859e-07],
+        [ 4.3306e-08,  7.8697e-08,  4.6566e-10,  ...,  9.7789e-09,
+          2.0955e-08,  3.2596e-09],
+        ...,
+        [ 3.5856e-07,  4.3120e-07,  1.0710e-08,  ...,  2.0023e-08,
+          5.7742e-08,  1.8626e-08],
+        [ 5.6811e-08,  4.1164e-06,  2.9989e-07,  ...,  1.3318e-07,
+          1.0151e-07,  9.6392e-08],
+        [ 4.6566e-10,  1.0850e-07,  2.9802e-08,  ...,  1.6764e-08,
+          5.1223e-09,  7.4506e-09]], device='cuda:0')
+Epoch 289, bias, value: tensor([-2.9473e-02, -3.6608e-02, -1.2539e-02, -1.0262e-05,  2.7585e-03,
+         7.8030e-03, -2.3370e-04, -8.5232e-03,  1.8508e-02, -4.7310e-02],
+       device='cuda:0'), grad: tensor([ 2.7986e-07, -4.9826e-08,  1.9185e-07,  3.8054e-06,  1.2014e-07,
+        -1.3880e-05, -2.1271e-06,  1.6699e-06,  9.7379e-06,  2.9849e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 288, time 217.61, cls_loss 0.0007 cls_loss_mapping 0.0014 cls_loss_causal 0.4741 re_mapping 0.0037 re_causal 0.0105 /// teacc 99.07 lr 0.00010000
+Epoch 290, weight, value: tensor([[-0.0804,  0.0047,  0.1241,  ...,  0.0092, -0.0837, -0.0751],
+        [-0.1904, -0.2178, -0.2009,  ...,  0.0837,  0.0559,  0.4005],
+        [-0.1920, -0.1521, -0.1845,  ..., -0.2478,  0.0256, -0.2367],
+        ...,
+        [-0.1953, -0.2400,  0.0045,  ..., -0.2263, -0.1079, -0.3846],
+        [ 0.1408,  0.0351, -0.1439,  ..., -0.2258,  0.0226, -0.2218],
+        [ 0.1370,  0.0880, -0.1307,  ...,  0.0984, -0.2360, -0.2451]],
+       device='cuda:0'), grad: tensor([[ 2.2352e-08, -1.7695e-08, -4.4238e-08,  ..., -1.6298e-08,
+          7.9162e-09,  0.0000e+00],
+        [ 3.8184e-08,  7.8231e-08,  2.1420e-08,  ...,  1.8626e-09,
+          1.1642e-08, -4.6566e-09],
+        [ 1.6764e-08,  4.3306e-08,  6.0536e-08,  ...,  1.5832e-08,
+          8.3819e-09,  4.6566e-10],
+        ...,
+        [ 3.5856e-08,  2.9802e-08, -3.5856e-08,  ...,  1.5367e-08,
+          5.5879e-09,  4.6566e-10],
+        [ 3.6089e-07,  2.6310e-07,  1.0524e-07,  ...,  1.3551e-07,
+          3.7253e-08,  9.3132e-10],
+        [-4.5542e-07, -2.6729e-07,  3.3062e-08,  ..., -1.9139e-07,
+          3.2596e-09,  4.6566e-10]], device='cuda:0')
+Epoch 290, bias, value: tensor([-2.9584e-02, -3.5955e-02, -1.2713e-02, -8.5790e-05,  3.8995e-03,
+         7.6141e-03,  1.6536e-04, -8.9637e-03,  1.8612e-02, -4.7790e-02],
+       device='cuda:0'), grad: tensor([-2.0955e-08,  2.9476e-07,  1.1222e-07, -1.1206e-05,  4.9081e-07,
+         1.0952e-05, -7.9721e-07, -2.1234e-07,  1.5013e-06, -1.1353e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 289, time 217.56, cls_loss 0.0006 cls_loss_mapping 0.0021 cls_loss_causal 0.4770 re_mapping 0.0034 re_causal 0.0105 /// teacc 99.18 lr 0.00010000
+Epoch 291, weight, value: tensor([[-0.0797,  0.0053,  0.1251,  ...,  0.0095, -0.0841, -0.0754],
+        [-0.1918, -0.2181, -0.2011,  ...,  0.0836,  0.0555,  0.4008],
+        [-0.1923, -0.1524, -0.1853,  ..., -0.2489,  0.0258, -0.2369],
+        ...,
+        [-0.1953, -0.2414,  0.0043,  ..., -0.2268, -0.1074, -0.3847],
+        [ 0.1405,  0.0349, -0.1440,  ..., -0.2262,  0.0228, -0.2221],
+        [ 0.1373,  0.0883, -0.1317,  ...,  0.0993, -0.2362, -0.2453]],
+       device='cuda:0'), grad: tensor([[ 5.1223e-09,  1.0431e-07,  1.8626e-08,  ...,  2.3283e-09,
+          1.8626e-09,  9.3132e-10],
+        [ 2.9337e-08,  2.0955e-08,  0.0000e+00,  ...,  1.0710e-08,
+          5.5879e-09, -4.3772e-08],
+        [-8.8476e-09,  6.9849e-09,  0.0000e+00,  ...,  8.8476e-09,
+          6.0536e-09,  1.3970e-09],
+        ...,
+        [ 1.9558e-08,  1.0245e-08,  4.6566e-10,  ...,  1.1642e-08,
+          4.6566e-09,  2.7940e-09],
+        [ 2.4680e-08,  3.9581e-08,  9.3132e-10,  ...,  2.6543e-08,
+          1.2573e-08,  3.3062e-08],
+        [ 2.3749e-08,  1.8626e-08,  2.3283e-09,  ...,  2.2817e-08,
+          1.4901e-08,  3.7253e-09]], device='cuda:0')
+Epoch 291, bias, value: tensor([-0.0291, -0.0370, -0.0124, -0.0001,  0.0039,  0.0076,  0.0001, -0.0084,
+         0.0185, -0.0476], device='cuda:0'), grad: tensor([ 2.3935e-07,  6.4261e-08, -1.1008e-06,  2.1234e-07,  2.0023e-08,
+        -5.4855e-07,  1.6764e-08,  4.9267e-07,  5.2899e-07,  7.8231e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 290, time 217.62, cls_loss 0.0006 cls_loss_mapping 0.0022 cls_loss_causal 0.4612 re_mapping 0.0036 re_causal 0.0108 /// teacc 99.09 lr 0.00010000
+Epoch 292, weight, value: tensor([[-0.0799,  0.0053,  0.1251,  ...,  0.0093, -0.0845, -0.0758],
+        [-0.1920, -0.2182, -0.2012,  ...,  0.0840,  0.0562,  0.4015],
+        [-0.1927, -0.1526, -0.1866,  ..., -0.2501,  0.0256, -0.2381],
+        ...,
+        [-0.1954, -0.2421,  0.0039,  ..., -0.2272, -0.1077, -0.3852],
+        [ 0.1404,  0.0347, -0.1444,  ..., -0.2271,  0.0227, -0.2227],
+        [ 0.1363,  0.0873, -0.1338,  ...,  0.0969, -0.2385, -0.2456]],
+       device='cuda:0'), grad: tensor([[ 1.4296e-07,  1.1269e-07,  2.0489e-08,  ..., -1.8626e-09,
+          1.3970e-09,  0.0000e+00],
+        [ 8.0094e-08,  6.5193e-08,  1.4901e-08,  ..., -4.6566e-10,
+         -2.7940e-09, -1.0710e-08],
+        [ 2.4680e-08,  3.1199e-08,  2.7940e-09,  ...,  1.8626e-09,
+          1.5367e-08,  2.7940e-09],
+        ...,
+        [ 2.1281e-07,  1.7695e-07,  3.4925e-08,  ...,  2.4680e-08,
+          9.3132e-09,  3.7253e-09],
+        [ 4.9360e-08,  2.0023e-08,  1.6764e-08,  ...,  1.3970e-09,
+         -3.2596e-08,  9.3132e-10],
+        [-5.5408e-04, -4.2677e-04, -1.0669e-04,  ..., -5.1456e-07,
+          4.6566e-09,  4.6566e-10]], device='cuda:0')
+Epoch 292, bias, value: tensor([-0.0293, -0.0371, -0.0123, -0.0001,  0.0052,  0.0076,  0.0003, -0.0084,
+         0.0182, -0.0492], device='cuda:0'), grad: tensor([ 5.0711e-07,  3.1339e-07,  1.0943e-07,  1.0720e-06,  1.9217e-03,
+        -8.8941e-07,  8.6147e-08,  2.8824e-07,  1.3551e-07, -1.9255e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 291, time 217.54, cls_loss 0.0005 cls_loss_mapping 0.0010 cls_loss_causal 0.4649 re_mapping 0.0036 re_causal 0.0107 /// teacc 99.21 lr 0.00010000
+Epoch 293, weight, value: tensor([[-0.0801,  0.0053,  0.1254,  ...,  0.0090, -0.0847, -0.0764],
+        [-0.1924, -0.2185, -0.2015,  ...,  0.0841,  0.0565,  0.4020],
+        [-0.1932, -0.1530, -0.1874,  ..., -0.2514,  0.0255, -0.2389],
+        ...,
+        [-0.1954, -0.2425,  0.0019,  ..., -0.2275, -0.1080, -0.3855],
+        [ 0.1404,  0.0347, -0.1445,  ..., -0.2275,  0.0227, -0.2229],
+        [ 0.1390,  0.0900, -0.1321,  ...,  0.0970, -0.2389, -0.2460]],
+       device='cuda:0'), grad: tensor([[ 2.2352e-08,  1.0245e-08,  1.1642e-08,  ...,  2.7474e-08,
+          2.0023e-08,  1.2107e-08],
+        [ 1.4435e-08,  1.1176e-08,  7.4506e-09,  ..., -8.9128e-07,
+         -6.3889e-07, -1.2247e-06],
+        [ 6.9849e-09,  1.3039e-08,  1.9092e-08,  ...,  5.6205e-07,
+          4.3865e-07,  7.1246e-07],
+        ...,
+        [ 1.9558e-08,  1.5367e-08, -4.1910e-09,  ...,  3.1758e-07,
+          2.3656e-07,  4.0885e-07],
+        [ 4.6566e-09, -1.3039e-08,  1.0710e-08,  ...,  2.2817e-08,
+         -7.4971e-08,  2.1420e-08],
+        [-4.6566e-07, -2.6822e-07,  1.7229e-08,  ..., -4.2235e-07,
+          1.8626e-08,  1.0710e-08]], device='cuda:0')
+Epoch 293, bias, value: tensor([-0.0294, -0.0372, -0.0124, -0.0001,  0.0028,  0.0076,  0.0004, -0.0085,
+         0.0181, -0.0468], device='cuda:0'), grad: tensor([ 1.8114e-07, -4.1462e-06,  3.0585e-06,  3.4180e-07,  7.4180e-07,
+         2.3935e-07, -6.4727e-08,  6.8219e-07, -2.4447e-07, -7.9302e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 292, time 217.98, cls_loss 0.0006 cls_loss_mapping 0.0013 cls_loss_causal 0.4380 re_mapping 0.0037 re_causal 0.0103 /// teacc 99.11 lr 0.00010000
+Epoch 294, weight, value: tensor([[-0.0808,  0.0054,  0.1257,  ...,  0.0090, -0.0852, -0.0774],
+        [-0.1928, -0.2188, -0.2016,  ...,  0.0845,  0.0570,  0.4033],
+        [-0.1936, -0.1535, -0.1881,  ..., -0.2533,  0.0253, -0.2413],
+        ...,
+        [-0.1955, -0.2420,  0.0018,  ..., -0.2282, -0.1085, -0.3865],
+        [ 0.1405,  0.0349, -0.1448,  ..., -0.2281,  0.0229, -0.2234],
+        [ 0.1392,  0.0901, -0.1322,  ...,  0.0974, -0.2390, -0.2474]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10, -1.8626e-09, -3.2596e-09,  ..., -1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 1.3970e-09,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  4.6566e-10,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 3.2596e-09,  1.8626e-09,  0.0000e+00,  ...,  1.3970e-09,
+          0.0000e+00,  0.0000e+00],
+        [-3.7253e-09, -1.8626e-09,  0.0000e+00,  ...,  9.3132e-10,
+         -1.4435e-08,  0.0000e+00],
+        [-1.4435e-08, -4.6566e-09,  2.7940e-09,  ..., -6.5193e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 294, bias, value: tensor([-0.0294, -0.0363, -0.0127, -0.0003,  0.0028,  0.0075,  0.0005, -0.0088,
+         0.0182, -0.0467], device='cuda:0'), grad: tensor([ 5.1223e-08,  5.3272e-07, -3.3202e-07,  3.2596e-08,  3.8231e-07,
+         3.2596e-08,  8.8476e-09, -1.0170e-06,  3.7719e-08,  2.7288e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 293, time 217.88, cls_loss 0.0005 cls_loss_mapping 0.0016 cls_loss_causal 0.4713 re_mapping 0.0035 re_causal 0.0103 /// teacc 99.06 lr 0.00010000
+Epoch 295, weight, value: tensor([[-0.0815,  0.0053,  0.1255,  ...,  0.0087, -0.0856, -0.0774],
+        [-0.1930, -0.2190, -0.2016,  ...,  0.0851,  0.0575,  0.4040],
+        [-0.1945, -0.1541, -0.1889,  ..., -0.2546,  0.0252, -0.2428],
+        ...,
+        [-0.1958, -0.2434,  0.0026,  ..., -0.2293, -0.1088, -0.3867],
+        [ 0.1406,  0.0350, -0.1451,  ..., -0.2285,  0.0229, -0.2236],
+        [ 0.1393,  0.0902, -0.1323,  ...,  0.0978, -0.2391, -0.2478]],
+       device='cuda:0'), grad: tensor([[ 1.1176e-08,  4.6566e-09, -1.9092e-08,  ...,  2.7008e-08,
+          1.3970e-09,  5.5879e-09],
+        [ 2.3283e-09,  1.1176e-08,  1.3970e-09,  ..., -7.8697e-08,
+         -7.4971e-08, -3.2317e-07],
+        [ 4.6566e-10,  4.1910e-09,  3.7253e-09,  ...,  3.3528e-08,
+          4.1444e-08,  2.0117e-07],
+        ...,
+        [ 7.9162e-09,  1.2107e-08,  4.6566e-10,  ...,  6.3330e-08,
+          2.7474e-08,  9.5926e-08],
+        [ 1.0710e-08,  5.0291e-08,  1.8626e-09,  ...,  9.3132e-09,
+          4.6566e-10,  4.6566e-09],
+        [-1.0757e-07, -8.2422e-08,  7.9162e-09,  ..., -3.2177e-07,
+          1.3970e-09,  4.1910e-09]], device='cuda:0')
+Epoch 295, bias, value: tensor([-0.0298, -0.0361, -0.0130, -0.0003,  0.0027,  0.0075,  0.0006, -0.0088,
+         0.0183, -0.0467], device='cuda:0'), grad: tensor([ 7.7300e-08, -5.8347e-07,  2.7893e-07,  1.9651e-07,  6.8638e-07,
+        -4.8941e-07,  7.2643e-08,  3.3155e-07,  2.5239e-07, -8.0653e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 294, time 217.85, cls_loss 0.0005 cls_loss_mapping 0.0011 cls_loss_causal 0.4575 re_mapping 0.0034 re_causal 0.0101 /// teacc 99.11 lr 0.00010000
+Epoch 296, weight, value: tensor([[-0.0818,  0.0055,  0.1257,  ...,  0.0087, -0.0857, -0.0779],
+        [-0.1935, -0.2191, -0.2018,  ...,  0.0855,  0.0578,  0.4047],
+        [-0.1954, -0.1545, -0.1895,  ..., -0.2561,  0.0254, -0.2436],
+        ...,
+        [-0.1959, -0.2437,  0.0026,  ..., -0.2296, -0.1091, -0.3870],
+        [ 0.1407,  0.0350, -0.1453,  ..., -0.2291,  0.0228, -0.2241],
+        [ 0.1394,  0.0903, -0.1324,  ...,  0.0980, -0.2393, -0.2491]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10, -1.3970e-09, -2.7940e-09,  ...,  5.1223e-09,
+          4.6566e-10,  0.0000e+00],
+        [ 1.3970e-09,  4.6566e-10,  3.7253e-09,  ...,  5.7742e-08,
+         -9.3132e-10, -6.5193e-09],
+        [ 1.8626e-09,  1.8626e-09,  4.6566e-10,  ...,  5.1223e-09,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  1.8626e-09, -1.1642e-08,  ..., -2.0489e-07,
+          2.3283e-09,  5.5879e-09],
+        [-1.3970e-08, -1.3039e-08,  4.6566e-10,  ..., -4.6566e-10,
+         -1.4901e-08,  0.0000e+00],
+        [-4.1910e-09, -1.8626e-09,  9.3132e-09,  ...,  1.0990e-07,
+          1.8626e-09,  1.3970e-09]], device='cuda:0')
+Epoch 296, bias, value: tensor([-0.0297, -0.0361, -0.0126, -0.0003,  0.0027,  0.0075,  0.0006, -0.0087,
+         0.0181, -0.0467], device='cuda:0'), grad: tensor([ 7.5437e-08,  6.7567e-07, -4.5169e-07,  1.2573e-07,  2.4773e-07,
+         5.8208e-08, -1.4901e-08, -1.8645e-06,  4.2375e-08,  1.1250e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 295, time 217.90, cls_loss 0.0006 cls_loss_mapping 0.0017 cls_loss_causal 0.4638 re_mapping 0.0033 re_causal 0.0097 /// teacc 99.19 lr 0.00010000
+Epoch 297, weight, value: tensor([[-0.0823,  0.0050,  0.1259,  ...,  0.0074, -0.0861, -0.0780],
+        [-0.1944, -0.2194, -0.2020,  ...,  0.0850,  0.0579,  0.4050],
+        [-0.1959, -0.1548, -0.1899,  ..., -0.2573,  0.0253, -0.2443],
+        ...,
+        [-0.1960, -0.2441,  0.0025,  ..., -0.2299, -0.1095, -0.3873],
+        [ 0.1410,  0.0352, -0.1456,  ..., -0.2295,  0.0232, -0.2241],
+        [ 0.1395,  0.0904, -0.1324,  ...,  0.0991, -0.2395, -0.2495]],
+       device='cuda:0'), grad: tensor([[ 6.0536e-09,  6.0536e-09,  9.3132e-10,  ...,  1.0245e-08,
+          9.3132e-10,  9.3132e-10],
+        [ 1.5832e-08,  1.5367e-08,  1.3970e-09,  ...,  1.4435e-08,
+         -4.1910e-09, -2.7008e-08],
+        [ 2.0955e-08,  1.4901e-08,  6.5193e-09,  ...,  7.9162e-09,
+          4.1910e-09,  3.7253e-09],
+        ...,
+        [ 3.8650e-08,  3.5856e-08,  4.6566e-10,  ...,  4.8894e-08,
+          1.0710e-08,  1.8161e-08],
+        [-3.2131e-08, -7.4506e-09,  9.3132e-10,  ...,  6.0536e-09,
+         -5.5879e-09,  1.3970e-09],
+        [-4.6147e-07, -4.1258e-07,  3.6787e-08,  ..., -5.7463e-07,
+          2.2352e-08,  9.3132e-10]], device='cuda:0')
+Epoch 297, bias, value: tensor([-0.0306, -0.0365, -0.0125, -0.0003,  0.0025,  0.0075,  0.0007, -0.0087,
+         0.0183, -0.0465], device='cuda:0'), grad: tensor([ 4.3772e-08,  4.7963e-08, -5.9046e-07,  4.4750e-07,  1.0524e-06,
+        -2.4680e-08,  1.5832e-08,  2.3097e-07,  1.0431e-07, -1.3225e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 296, time 217.82, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4680 re_mapping 0.0035 re_causal 0.0102 /// teacc 99.08 lr 0.00010000
+Epoch 298, weight, value: tensor([[-0.0830,  0.0052,  0.1263,  ...,  0.0076, -0.0864, -0.0785],
+        [-0.1949, -0.2197, -0.2022,  ...,  0.0838,  0.0584,  0.4056],
+        [-0.1965, -0.1551, -0.1905,  ..., -0.2592,  0.0256, -0.2455],
+        ...,
+        [-0.1962, -0.2450,  0.0023,  ..., -0.2314, -0.1110, -0.3880],
+        [ 0.1413,  0.0352, -0.1461,  ..., -0.2299,  0.0232, -0.2242],
+        [ 0.1396,  0.0904, -0.1327,  ...,  0.1002, -0.2404, -0.2502]],
+       device='cuda:0'), grad: tensor([[ 2.0955e-09,  1.3039e-08,  3.1199e-08,  ...,  4.4238e-09,
+          3.2363e-08,  9.3132e-10],
+        [ 8.8476e-09,  1.1642e-06,  1.9558e-08,  ...,  3.0035e-08,
+          2.7008e-08, -2.5146e-08],
+        [ 5.8208e-09,  2.7241e-08,  3.1432e-08,  ...,  7.6834e-09,
+          6.0769e-08,  9.5461e-09],
+        ...,
+        [-1.4668e-08, -2.0880e-06,  5.8208e-08,  ..., -6.7055e-08,
+          9.0105e-08,  5.5879e-09],
+        [-9.7789e-09,  6.5658e-08,  2.5611e-09,  ...,  4.6566e-09,
+         -1.7928e-08,  2.3283e-09],
+        [ 5.1223e-09,  1.6615e-06,  3.0901e-06,  ...,  2.6310e-08,
+          2.8647e-06,  3.4925e-09]], device='cuda:0')
+Epoch 298, bias, value: tensor([-0.0307, -0.0370, -0.0117, -0.0004,  0.0026,  0.0076,  0.0009, -0.0092,
+         0.0181, -0.0464], device='cuda:0'), grad: tensor([ 1.7020e-07,  7.4171e-06,  2.7544e-07,  4.4610e-07, -1.4648e-05,
+         1.3504e-07,  1.6415e-07, -1.2808e-05,  4.2794e-07,  1.8418e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 297, time 217.81, cls_loss 0.0007 cls_loss_mapping 0.0015 cls_loss_causal 0.4812 re_mapping 0.0035 re_causal 0.0100 /// teacc 99.17 lr 0.00010000
+Epoch 299, weight, value: tensor([[-0.0839,  0.0055,  0.1265,  ...,  0.0075, -0.0870, -0.0788],
+        [-0.1956, -0.2201, -0.2024,  ...,  0.0845,  0.0577,  0.4062],
+        [-0.1978, -0.1559, -0.1919,  ..., -0.2629,  0.0254, -0.2463],
+        ...,
+        [-0.1964, -0.2462,  0.0026,  ..., -0.2337, -0.1109, -0.3887],
+        [ 0.1412,  0.0349, -0.1465,  ..., -0.2309,  0.0231, -0.2243],
+        [ 0.1396,  0.0904, -0.1338,  ...,  0.1004, -0.2429, -0.2509]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10, -2.0489e-08, -3.3993e-08,  ..., -1.9325e-08,
+          9.3132e-10,  4.6566e-10],
+        [ 3.0268e-09,  4.6566e-09,  2.3283e-09,  ..., -3.0268e-09,
+          1.8626e-09, -9.7789e-09],
+        [ 2.3283e-09,  4.1910e-09,  2.5611e-09,  ...,  1.8626e-09,
+          2.5844e-08,  9.3132e-10],
+        ...,
+        [ 8.1956e-08,  2.3050e-08,  4.6566e-09,  ...,  6.2864e-09,
+          9.7789e-09,  4.4238e-09],
+        [-4.6566e-09, -6.0536e-09,  1.3970e-09,  ...,  1.6298e-09,
+         -6.3563e-08,  1.6298e-09],
+        [-1.6531e-08, -6.5193e-09,  2.1653e-08,  ..., -7.6834e-09,
+          2.0955e-09,  1.8626e-09]], device='cuda:0')
+Epoch 299, bias, value: tensor([-3.0974e-02, -3.7755e-02, -1.2167e-02, -8.0047e-05,  2.8039e-03,
+         7.7094e-03,  7.2783e-04, -8.9296e-03,  1.7812e-02, -4.6612e-02],
+       device='cuda:0'), grad: tensor([-5.6112e-08,  1.1642e-07,  2.4633e-07,  8.1724e-08,  6.4028e-08,
+        -6.9849e-09,  6.6357e-08, -3.8790e-07, -1.5995e-07,  5.3784e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 298, time 217.80, cls_loss 0.0007 cls_loss_mapping 0.0014 cls_loss_causal 0.4463 re_mapping 0.0035 re_causal 0.0100 /// teacc 99.19 lr 0.00010000
+Epoch 300, weight, value: tensor([[-0.0845,  0.0068,  0.1276,  ...,  0.0078, -0.0879, -0.0811],
+        [-0.1963, -0.2206, -0.2026,  ...,  0.0849,  0.0578,  0.4069],
+        [-0.1985, -0.1565, -0.1924,  ..., -0.2637,  0.0252, -0.2466],
+        ...,
+        [-0.1966, -0.2465,  0.0024,  ..., -0.2346, -0.1113, -0.3890],
+        [ 0.1415,  0.0349, -0.1466,  ..., -0.2316,  0.0240, -0.2245],
+        [ 0.1397,  0.0904, -0.1340,  ...,  0.1010, -0.2431, -0.2524]],
+       device='cuda:0'), grad: tensor([[ 3.4226e-08,  1.0943e-08, -2.8638e-08,  ..., -1.0477e-08,
+          2.3283e-08,  1.8626e-09],
+        [ 3.2363e-08,  1.6997e-08, -1.1642e-09,  ..., -1.5134e-08,
+          5.8208e-09, -3.2829e-08],
+        [ 3.7253e-08,  2.1420e-08,  4.1910e-09,  ...,  9.3132e-09,
+          2.2352e-08,  4.4238e-09],
+        ...,
+        [ 3.8184e-08,  5.8673e-08,  9.3132e-10,  ...,  1.8394e-08,
+          5.2154e-08,  4.6566e-09],
+        [-9.4995e-08, -5.7044e-08,  7.9162e-09,  ...,  2.7940e-09,
+         -6.4960e-08,  3.9581e-09],
+        [ 2.4447e-08,  1.5134e-08,  1.1874e-08,  ...,  4.4238e-09,
+          1.5832e-08,  1.8626e-09]], device='cuda:0')
+Epoch 300, bias, value: tensor([-0.0304, -0.0393, -0.0116, -0.0008,  0.0028,  0.0082,  0.0006, -0.0081,
+         0.0181, -0.0466], device='cuda:0'), grad: tensor([ 6.7754e-08,  4.2794e-07,  4.1700e-07, -1.9092e-07,  1.1967e-07,
+         2.2259e-07, -1.1176e-08, -1.2545e-06, -2.0768e-07,  4.0908e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 299, time 217.59, cls_loss 0.0006 cls_loss_mapping 0.0010 cls_loss_causal 0.4622 re_mapping 0.0036 re_causal 0.0102 /// teacc 99.05 lr 0.00010000
+Epoch 301, weight, value: tensor([[-0.0852,  0.0068,  0.1280,  ...,  0.0078, -0.0883, -0.0816],
+        [-0.1966, -0.2210, -0.2027,  ...,  0.0856,  0.0582,  0.4082],
+        [-0.2001, -0.1573, -0.1933,  ..., -0.2672,  0.0248, -0.2489],
+        ...,
+        [-0.1967, -0.2472,  0.0021,  ..., -0.2352, -0.1116, -0.3898],
+        [ 0.1416,  0.0346, -0.1494,  ..., -0.2343,  0.0247, -0.2250],
+        [ 0.1398,  0.0905, -0.1341,  ...,  0.1014, -0.2433, -0.2539]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-09,  9.3132e-10, -2.7940e-09,  ..., -2.3283e-10,
+          1.1642e-09,  0.0000e+00],
+        [ 6.5193e-09,  9.0804e-09,  4.6566e-10,  ...,  4.8894e-09,
+          4.1910e-09, -2.3283e-09],
+        [ 2.1886e-08,  3.0734e-08,  4.6566e-10,  ...,  2.0023e-08,
+          1.7695e-08,  4.6566e-10],
+        ...,
+        [ 1.8161e-08,  2.6776e-08,  4.6566e-10,  ...,  1.6997e-08,
+          1.3271e-08,  2.7940e-09],
+        [ 3.7253e-09,  4.6566e-09,  0.0000e+00,  ...,  3.7253e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 3.2596e-09,  7.9162e-09,  1.6298e-09,  ...,  1.8626e-09,
+          1.0477e-08,  2.3283e-10]], device='cuda:0')
+Epoch 301, bias, value: tensor([-0.0304, -0.0392, -0.0119, -0.0005,  0.0027,  0.0081,  0.0008, -0.0082,
+         0.0177, -0.0465], device='cuda:0'), grad: tensor([ 3.4925e-09,  3.7253e-08,  1.4412e-07, -4.7591e-07,  8.3819e-09,
+         1.5879e-07,  3.2596e-09,  9.8953e-08,  1.6997e-08,  2.4447e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 300, time 217.87, cls_loss 0.0005 cls_loss_mapping 0.0014 cls_loss_causal 0.4713 re_mapping 0.0035 re_causal 0.0105 /// teacc 99.14 lr 0.00010000
+Epoch 302, weight, value: tensor([[-0.0857,  0.0072,  0.1287,  ...,  0.0081, -0.0886, -0.0827],
+        [-0.1968, -0.2212, -0.2029,  ...,  0.0876,  0.0607,  0.4111],
+        [-0.2008, -0.1579, -0.1941,  ..., -0.2714,  0.0233, -0.2530],
+        ...,
+        [-0.1968, -0.2480,  0.0020,  ..., -0.2357, -0.1123, -0.3910],
+        [ 0.1416,  0.0344, -0.1495,  ..., -0.2350,  0.0250, -0.2260],
+        [ 0.1398,  0.0904, -0.1343,  ...,  0.1014, -0.2438, -0.2545]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10, -1.7928e-08, -2.0023e-08,  ..., -2.4214e-08,
+          1.1642e-09,  2.3283e-09],
+        [ 6.5193e-09,  1.8626e-09,  9.3132e-10,  ..., -2.4191e-07,
+         -3.8184e-08, -1.8533e-07],
+        [ 3.7253e-08, -2.7940e-09,  3.0268e-09,  ...,  3.4226e-08,
+         -1.1642e-09,  2.1886e-08],
+        ...,
+        [ 6.9849e-10,  6.9849e-10,  0.0000e+00,  ...,  1.9162e-07,
+          3.3062e-08,  1.4598e-07],
+        [-4.8196e-08,  2.0955e-09, -2.5611e-09,  ...,  1.3970e-09,
+          3.9581e-09,  2.3283e-10],
+        [-6.9849e-10,  1.1642e-08,  1.3504e-08,  ...,  2.3283e-08,
+          1.3970e-09,  3.4925e-09]], device='cuda:0')
+Epoch 302, bias, value: tensor([-0.0301, -0.0380, -0.0142, -0.0001,  0.0027,  0.0080,  0.0007, -0.0084,
+         0.0177, -0.0466], device='cuda:0'), grad: tensor([-4.9360e-08, -6.2026e-07,  2.0373e-07,  2.7707e-08,  1.7229e-08,
+         4.8662e-08,  5.7742e-08,  6.0443e-07, -3.5297e-07,  6.5425e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 301, time 217.55, cls_loss 0.0006 cls_loss_mapping 0.0021 cls_loss_causal 0.4742 re_mapping 0.0035 re_causal 0.0107 /// teacc 99.11 lr 0.00010000
+Epoch 303, weight, value: tensor([[-0.0859,  0.0076,  0.1288,  ...,  0.0081, -0.0890, -0.0835],
+        [-0.1969, -0.2213, -0.2029,  ...,  0.0861,  0.0613,  0.4118],
+        [-0.2010, -0.1581, -0.1945,  ..., -0.2715,  0.0232, -0.2534],
+        ...,
+        [-0.1968, -0.2482,  0.0019,  ..., -0.2341, -0.1128, -0.3919],
+        [ 0.1416,  0.0344, -0.1520,  ..., -0.2378,  0.0250, -0.2261],
+        [ 0.1398,  0.0904, -0.1343,  ...,  0.1017, -0.2439, -0.2553]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09, -2.3283e-08, -3.7486e-08,  ..., -1.9325e-08,
+          2.5611e-09,  9.3132e-10],
+        [ 7.2177e-09,  3.9581e-09,  9.3132e-10,  ..., -2.7940e-09,
+          4.6799e-08, -3.0734e-08],
+        [ 2.1397e-07,  1.9395e-07,  7.2177e-09,  ..., -6.9849e-10,
+          5.9512e-07,  6.0536e-09],
+        ...,
+        [ 7.4739e-08,  3.2596e-09,  1.3970e-09,  ...,  1.2899e-07,
+         -6.1747e-07,  1.2340e-08],
+        [-2.7218e-07, -2.7800e-07, -6.1234e-08,  ...,  4.4238e-09,
+         -2.7381e-07,  2.0955e-09],
+        [-5.1223e-08,  4.0280e-08,  2.2119e-08,  ..., -1.3621e-07,
+          4.4005e-08,  2.3283e-09]], device='cuda:0')
+Epoch 303, bias, value: tensor([-0.0304, -0.0401, -0.0111, -0.0002,  0.0026,  0.0078,  0.0022, -0.0084,
+         0.0159, -0.0466], device='cuda:0'), grad: tensor([ 3.2154e-07,  1.7416e-06,  1.1399e-05,  5.9232e-07,  2.5462e-06,
+         2.0093e-07,  3.1083e-07, -1.6466e-05, -1.4119e-06,  7.1479e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 302, time 217.44, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4865 re_mapping 0.0035 re_causal 0.0103 /// teacc 99.10 lr 0.00010000
+Epoch 304, weight, value: tensor([[-0.0868,  0.0085,  0.1298,  ...,  0.0087, -0.0904, -0.0859],
+        [-0.1972, -0.2210, -0.2027,  ...,  0.0887,  0.0622,  0.4135],
+        [-0.2025, -0.1587, -0.1952,  ..., -0.2719,  0.0230, -0.2538],
+        ...,
+        [-0.1969, -0.2493,  0.0015,  ..., -0.2367, -0.1137, -0.3945],
+        [ 0.1421,  0.0345, -0.1529,  ..., -0.2389,  0.0257, -0.2264],
+        [ 0.1399,  0.0905, -0.1345,  ...,  0.1020, -0.2442, -0.2576]],
+       device='cuda:0'), grad: tensor([[ 1.6298e-09,  2.0955e-09,  4.4238e-09,  ...,  2.7940e-09,
+          4.6566e-09,  6.9849e-10],
+        [ 5.5879e-09,  6.0536e-09,  3.0268e-09,  ..., -4.1910e-09,
+         -2.0955e-09, -2.4680e-08],
+        [ 3.7253e-09,  3.9581e-09,  2.0955e-09,  ...,  3.2596e-09,
+          7.2177e-09,  1.1642e-09],
+        ...,
+        [ 1.3271e-08,  1.3039e-08,  1.8626e-09,  ...,  2.3283e-08,
+          3.2596e-09,  5.8208e-09],
+        [ 9.3132e-10,  1.1176e-08,  1.3970e-09,  ...,  2.3283e-09,
+          1.8626e-09,  1.8626e-09],
+        [-2.6170e-07, -2.3702e-07,  2.0955e-09,  ..., -3.3644e-07,
+         -3.3528e-08,  9.3132e-10]], device='cuda:0')
+Epoch 304, bias, value: tensor([-0.0302, -0.0392, -0.0112, -0.0003,  0.0026,  0.0078,  0.0026, -0.0089,
+         0.0152, -0.0466], device='cuda:0'), grad: tensor([ 2.1188e-08, -2.5611e-09,  2.4680e-08, -6.0769e-08,  7.3295e-07,
+         2.9802e-08,  3.0268e-08,  2.3050e-08,  3.6089e-08, -8.1398e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 303, time 217.59, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4464 re_mapping 0.0035 re_causal 0.0101 /// teacc 99.22 lr 0.00010000
+Epoch 305, weight, value: tensor([[-0.0872,  0.0087,  0.1303,  ...,  0.0088, -0.0910, -0.0872],
+        [-0.1975, -0.2208, -0.2028,  ...,  0.0895,  0.0623,  0.4142],
+        [-0.2032, -0.1594, -0.1959,  ..., -0.2718,  0.0229, -0.2539],
+        ...,
+        [-0.1970, -0.2503,  0.0014,  ..., -0.2374, -0.1133, -0.3950],
+        [ 0.1422,  0.0342, -0.1529,  ..., -0.2392,  0.0259, -0.2276],
+        [ 0.1402,  0.0907, -0.1344,  ...,  0.1028, -0.2442, -0.2584]],
+       device='cuda:0'), grad: tensor([[ 2.2817e-08,  3.5390e-08,  0.0000e+00,  ...,  7.6834e-09,
+          4.1910e-09,  0.0000e+00],
+        [ 5.0757e-08,  8.5915e-08,  0.0000e+00,  ...,  2.5611e-09,
+          1.3970e-08,  0.0000e+00],
+        [ 1.3201e-07,  2.2748e-07,  0.0000e+00,  ...,  9.3132e-10,
+          1.5600e-08,  2.3283e-10],
+        ...,
+        [ 1.1246e-07,  1.9232e-07,  2.3283e-09,  ...,  2.0955e-09,
+          2.9104e-08,  1.6298e-09],
+        [ 9.8720e-08,  1.6764e-07,  0.0000e+00,  ...,  1.0245e-08,
+          2.4447e-08,  0.0000e+00],
+        [-2.1420e-08,  1.2806e-07,  6.2864e-09,  ..., -3.0035e-08,
+          2.7940e-09,  2.3283e-10]], device='cuda:0')
+Epoch 305, bias, value: tensor([-0.0301, -0.0394, -0.0112, -0.0004,  0.0024,  0.0080,  0.0025, -0.0087,
+         0.0150, -0.0464], device='cuda:0'), grad: tensor([ 1.1385e-07,  3.0012e-07, -2.5611e-07, -2.5943e-05,  4.2608e-08,
+         2.3916e-05,  4.5169e-08,  9.9931e-07,  6.3516e-07,  2.1490e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 304, time 217.74, cls_loss 0.0007 cls_loss_mapping 0.0014 cls_loss_causal 0.4851 re_mapping 0.0032 re_causal 0.0096 /// teacc 99.21 lr 0.00010000
+Epoch 306, weight, value: tensor([[-0.0880,  0.0083,  0.1302,  ...,  0.0081, -0.0915, -0.0878],
+        [-0.1981, -0.2210, -0.2035,  ...,  0.0896,  0.0623,  0.4150],
+        [-0.2043, -0.1603, -0.1969,  ..., -0.2723,  0.0227, -0.2539],
+        ...,
+        [-0.1972, -0.2510,  0.0016,  ..., -0.2377, -0.1138, -0.3959],
+        [ 0.1420,  0.0337, -0.1535,  ..., -0.2397,  0.0261, -0.2282],
+        [ 0.1404,  0.0910, -0.1345,  ...,  0.1037, -0.2442, -0.2625]],
+       device='cuda:0'), grad: tensor([[ 6.0536e-09,  2.5611e-09,  2.0955e-09,  ...,  8.3819e-09,
+          6.7521e-09,  0.0000e+00],
+        [ 4.5169e-08,  1.5832e-08,  1.3970e-09,  ...,  5.2154e-08,
+          5.5879e-08, -7.4506e-09],
+        [ 9.9884e-08,  5.4250e-08,  2.0955e-09,  ...,  4.8894e-09,
+          6.3097e-08,  2.3283e-10],
+        ...,
+        [ 1.6997e-08,  1.0943e-08,  1.3970e-09,  ...,  2.1653e-08,
+          6.3330e-08,  7.6834e-09],
+        [-8.9640e-08, -4.8662e-08,  1.0710e-08,  ...,  1.8626e-08,
+         -1.1479e-07,  4.6566e-10],
+        [-3.0501e-08, -1.6298e-08,  3.9581e-09,  ..., -1.0291e-07,
+          1.9325e-08,  4.6566e-10]], device='cuda:0')
+Epoch 306, bias, value: tensor([-0.0308, -0.0395, -0.0113, -0.0003,  0.0021,  0.0077,  0.0031, -0.0086,
+         0.0146, -0.0461], device='cuda:0'), grad: tensor([ 3.5390e-08,  2.8056e-07, -1.9628e-07, -3.7858e-07,  2.2585e-07,
+        -2.0955e-08, -1.5367e-08,  4.6706e-07, -2.3097e-07, -1.5390e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 305, time 217.69, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4676 re_mapping 0.0034 re_causal 0.0099 /// teacc 99.20 lr 0.00010000
+Epoch 307, weight, value: tensor([[-0.0881,  0.0087,  0.1305,  ...,  0.0083, -0.0923, -0.0900],
+        [-0.1982, -0.2211, -0.2039,  ...,  0.0898,  0.0624,  0.4154],
+        [-0.2053, -0.1608, -0.1975,  ..., -0.2725,  0.0231, -0.2541],
+        ...,
+        [-0.1972, -0.2514,  0.0015,  ..., -0.2380, -0.1144, -0.3966],
+        [ 0.1419,  0.0335, -0.1537,  ..., -0.2400,  0.0260, -0.2284],
+        [ 0.1405,  0.0911, -0.1346,  ...,  0.1040, -0.2441, -0.2648]],
+       device='cuda:0'), grad: tensor([[ 2.8871e-08, -2.0023e-08, -3.6322e-08,  ...,  2.8871e-08,
+          6.0536e-09,  0.0000e+00],
+        [ 7.4506e-09,  7.4506e-09,  8.3819e-09,  ...,  9.7789e-09,
+          1.3504e-08, -2.7940e-09],
+        [ 3.6322e-08,  3.8650e-08,  2.2352e-08,  ...,  1.6764e-08,
+          5.2620e-08,  4.6566e-10],
+        ...,
+        [ 3.2131e-08,  1.5832e-08,  7.9162e-09,  ...,  3.7719e-08,
+          3.3528e-08,  3.2596e-09],
+        [-6.8918e-08, -5.1688e-08, -1.3970e-09,  ...,  7.9162e-09,
+         -1.1222e-07,  0.0000e+00],
+        [-1.0151e-07, -8.8476e-09,  8.8476e-09,  ..., -2.0070e-07,
+          1.6298e-08,  4.6566e-10]], device='cuda:0')
+Epoch 307, bias, value: tensor([-0.0308, -0.0394, -0.0110, -0.0002,  0.0021,  0.0077,  0.0031, -0.0087,
+         0.0144, -0.0461], device='cuda:0'), grad: tensor([-6.4261e-08,  1.1874e-07,  2.9430e-07,  1.6764e-08,  1.0803e-07,
+         1.4203e-07,  1.3132e-07, -2.3004e-07, -4.3958e-07, -6.6590e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 306, time 217.53, cls_loss 0.0006 cls_loss_mapping 0.0015 cls_loss_causal 0.4739 re_mapping 0.0035 re_causal 0.0100 /// teacc 99.09 lr 0.00010000
+Epoch 308, weight, value: tensor([[-0.0885,  0.0090,  0.1305,  ...,  0.0085, -0.0927, -0.0910],
+        [-0.1985, -0.2213, -0.2041,  ...,  0.0899,  0.0625,  0.4158],
+        [-0.2065, -0.1616, -0.1973,  ..., -0.2728,  0.0232, -0.2541],
+        ...,
+        [-0.1976, -0.2525,  0.0011,  ..., -0.2387, -0.1154, -0.3971],
+        [ 0.1418,  0.0333, -0.1538,  ..., -0.2401,  0.0260, -0.2286],
+        [ 0.1406,  0.0911, -0.1347,  ...,  0.1043, -0.2445, -0.2660]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  3.2596e-09, -2.3283e-09,  ..., -1.3970e-09,
+          9.3132e-10,  4.6566e-10],
+        [ 3.7253e-09,  1.9092e-08,  5.1223e-09,  ...,  9.1735e-08,
+         -4.6566e-10, -6.9849e-09],
+        [ 8.8476e-09,  4.6566e-09,  1.3970e-09,  ...,  2.3283e-09,
+          5.5879e-09,  4.6566e-10],
+        ...,
+        [ 6.5193e-09,  7.9162e-09,  4.6566e-10,  ..., -8.6613e-08,
+          2.3283e-09,  2.7940e-09],
+        [-6.5658e-08, -2.4214e-08,  1.8626e-09,  ...,  3.7253e-09,
+         -4.2841e-08,  0.0000e+00],
+        [ 1.1176e-08,  6.9849e-09,  7.9162e-09,  ..., -2.7940e-09,
+          2.1420e-08,  1.8626e-09]], device='cuda:0')
+Epoch 308, bias, value: tensor([-0.0309, -0.0396, -0.0108,  0.0005,  0.0021,  0.0073,  0.0029, -0.0087,
+         0.0143, -0.0461], device='cuda:0'), grad: tensor([ 1.0245e-08,  2.1011e-06,  7.6368e-08,  1.4752e-06,  6.5193e-08,
+        -1.2666e-06,  4.5169e-08, -2.5481e-06, -2.0862e-07,  2.4261e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 307, time 217.66, cls_loss 0.0006 cls_loss_mapping 0.0019 cls_loss_causal 0.4585 re_mapping 0.0035 re_causal 0.0100 /// teacc 99.13 lr 0.00010000
+Epoch 309, weight, value: tensor([[-8.9001e-02,  9.4323e-03,  1.3089e-01,  ...,  8.7768e-03,
+         -9.3003e-02, -9.0977e-02],
+        [-1.9885e-01, -2.2149e-01, -2.0413e-01,  ...,  9.0122e-02,
+          6.2587e-02,  4.1637e-01],
+        [-2.0785e-01, -1.6240e-01, -1.9838e-01,  ..., -2.7313e-01,
+          2.2853e-02, -2.5422e-01],
+        ...,
+        [-1.9766e-01, -2.5319e-01,  3.8456e-04,  ..., -2.3916e-01,
+         -1.1619e-01, -3.9836e-01],
+        [ 1.4271e-01,  3.3523e-02, -1.5381e-01,  ..., -2.4004e-01,
+          2.7375e-02, -2.2862e-01],
+        [ 1.4148e-01,  9.1950e-02, -1.3411e-01,  ...,  1.0723e-01,
+         -2.4191e-01, -2.6633e-01]], device='cuda:0'), grad: tensor([[ 1.8626e-09,  9.3132e-10,  2.7940e-09,  ...,  5.5879e-09,
+          3.7253e-09,  2.7940e-09],
+        [ 4.6566e-10,  4.6566e-10,  9.3132e-09,  ..., -2.5146e-08,
+         -5.5879e-09, -5.1688e-08],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  2.3283e-09,
+          3.2596e-09,  4.6566e-10],
+        ...,
+        [ 1.3970e-09,  4.6566e-10,  4.1910e-09,  ...,  1.6298e-08,
+          2.2352e-08,  2.3283e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  2.7940e-09,
+          1.8626e-09,  3.2596e-09],
+        [-9.3132e-09, -3.7253e-09,  1.8114e-07,  ...,  1.0012e-07,
+          2.0023e-07,  1.3970e-08]], device='cuda:0')
+Epoch 309, bias, value: tensor([-0.0305, -0.0397, -0.0111,  0.0004,  0.0005,  0.0075,  0.0030, -0.0087,
+         0.0146, -0.0446], device='cuda:0'), grad: tensor([ 2.7940e-08, -2.7474e-08,  3.3528e-08,  1.0710e-08, -6.9989e-07,
+         9.7789e-09, -1.1967e-07,  2.5146e-08,  1.1176e-08,  7.5297e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 308, time 217.79, cls_loss 0.0007 cls_loss_mapping 0.0017 cls_loss_causal 0.4786 re_mapping 0.0035 re_causal 0.0098 /// teacc 99.17 lr 0.00010000
+Epoch 310, weight, value: tensor([[-8.9404e-02,  1.0055e-02,  1.3138e-01,  ...,  9.4183e-03,
+         -9.3965e-02, -9.2785e-02],
+        [-2.0034e-01, -2.2238e-01, -2.0504e-01,  ...,  9.0401e-02,
+          6.5659e-02,  4.1941e-01],
+        [-2.0947e-01, -1.6313e-01, -1.9903e-01,  ..., -2.7276e-01,
+          1.9661e-02, -2.5751e-01],
+        ...,
+        [-1.9803e-01, -2.5427e-01,  1.3077e-04,  ..., -2.4013e-01,
+         -1.1794e-01, -4.0113e-01],
+        [ 1.4260e-01,  3.3274e-02, -1.5405e-01,  ..., -2.4123e-01,
+          2.7202e-02, -2.3247e-01],
+        [ 1.4161e-01,  9.1923e-02, -1.3486e-01,  ...,  1.0737e-01,
+         -2.4238e-01, -2.6780e-01]], device='cuda:0'), grad: tensor([[ 7.4506e-09, -1.3504e-08, -1.7695e-08,  ..., -1.0710e-08,
+          3.7253e-09, -2.3283e-09],
+        [ 1.8626e-08,  1.4901e-08,  1.8626e-09,  ...,  1.0710e-08,
+          8.8476e-09, -7.4506e-09],
+        [ 4.0978e-08,  2.9802e-08,  1.3970e-09,  ...,  2.4680e-08,
+          2.3283e-08,  1.3970e-09],
+        ...,
+        [ 3.9861e-07,  2.7800e-07,  0.0000e+00,  ...,  2.2212e-07,
+          2.2259e-07,  6.9849e-09],
+        [ 2.0489e-08,  1.6298e-08,  1.8626e-09,  ...,  1.3504e-08,
+          1.1642e-08,  9.3132e-10],
+        [-1.0245e-08, -3.7253e-09,  3.7253e-09,  ..., -1.3970e-08,
+          5.1223e-09,  1.3970e-09]], device='cuda:0')
+Epoch 310, bias, value: tensor([-0.0303, -0.0367, -0.0145,  0.0006,  0.0006,  0.0077,  0.0030, -0.0089,
+         0.0141, -0.0447], device='cuda:0'), grad: tensor([-4.4238e-08,  1.7229e-07,  1.8207e-07, -2.2613e-06,  2.7474e-08,
+         1.9372e-07,  3.7719e-08,  1.5255e-06,  1.0943e-07,  6.9849e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 309, time 217.69, cls_loss 0.0007 cls_loss_mapping 0.0017 cls_loss_causal 0.4750 re_mapping 0.0034 re_causal 0.0099 /// teacc 99.15 lr 0.00010000
+Epoch 311, weight, value: tensor([[-0.0893,  0.0110,  0.1320,  ...,  0.0101, -0.0948, -0.0932],
+        [-0.2006, -0.2226, -0.2054,  ...,  0.0911,  0.0657,  0.4195],
+        [-0.2104, -0.1637, -0.1998,  ..., -0.2729,  0.0197, -0.2575],
+        ...,
+        [-0.1982, -0.2550, -0.0019,  ..., -0.2411, -0.1188, -0.4025],
+        [ 0.1426,  0.0332, -0.1543,  ..., -0.2416,  0.0273, -0.2326],
+        [ 0.1417,  0.0919, -0.1360,  ...,  0.1075, -0.2429, -0.2692]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -9.3132e-10, -4.6566e-10,  ...,  4.6566e-10,
+          9.3132e-10,  9.3132e-10],
+        [ 4.6566e-10,  0.0000e+00,  4.6566e-09,  ..., -4.6566e-09,
+         -4.6566e-10, -8.3819e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.0710e-08,  ...,  9.3132e-10,
+          8.8476e-09,  1.3970e-09],
+        ...,
+        [ 4.1910e-09,  3.2596e-09,  6.6124e-08,  ...,  6.5193e-09,
+          5.8208e-08,  3.7253e-09],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  4.6566e-10],
+        [-1.6298e-08, -8.8476e-09,  3.2596e-09,  ..., -1.7695e-08,
+          9.3132e-10,  1.3970e-09]], device='cuda:0')
+Epoch 311, bias, value: tensor([-0.0303, -0.0367, -0.0145,  0.0008,  0.0008,  0.0076,  0.0032, -0.0092,
+         0.0138, -0.0449], device='cuda:0'), grad: tensor([ 6.0536e-09,  2.3749e-08,  3.0734e-08,  1.7229e-08, -2.1560e-07,
+        -1.3504e-08,  9.7789e-09,  1.4296e-07,  6.9849e-09, -8.3819e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 310, time 217.48, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4900 re_mapping 0.0032 re_causal 0.0099 /// teacc 99.22 lr 0.00010000
+Epoch 312, weight, value: tensor([[-0.0899,  0.0113,  0.1323,  ...,  0.0105, -0.0954, -0.0946],
+        [-0.2012, -0.2228, -0.2053,  ...,  0.0914,  0.0657,  0.4195],
+        [-0.2111, -0.1642, -0.2005,  ..., -0.2730,  0.0197, -0.2575],
+        ...,
+        [-0.1988, -0.2574, -0.0023,  ..., -0.2423, -0.1195, -0.4034],
+        [ 0.1427,  0.0333, -0.1544,  ..., -0.2419,  0.0275, -0.2328],
+        [ 0.1418,  0.0919, -0.1364,  ...,  0.1076, -0.2431, -0.2711]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09, -7.4506e-09, -1.3970e-08,  ..., -1.1642e-08,
+          4.6566e-10,  1.8626e-09],
+        [ 1.3970e-09,  1.0245e-08,  1.8626e-09,  ..., -2.4214e-08,
+         -1.4901e-08, -5.3085e-08],
+        [ 0.0000e+00, -5.6811e-08, -1.0245e-08,  ...,  6.0536e-09,
+         -6.0536e-09,  1.1642e-08],
+        ...,
+        [ 2.7940e-09,  2.1420e-08,  5.1223e-09,  ...,  6.0536e-09,
+          6.9849e-09,  1.1642e-08],
+        [-5.1223e-09,  1.6298e-08,  6.0536e-09,  ...,  1.8626e-09,
+         -1.8626e-09,  3.7253e-09],
+        [-9.7789e-09,  9.3132e-10,  6.9849e-09,  ..., -2.7940e-09,
+          2.7940e-09,  1.3970e-09]], device='cuda:0')
+Epoch 312, bias, value: tensor([-0.0306, -0.0367, -0.0144,  0.0011,  0.0009,  0.0075,  0.0032, -0.0096,
+         0.0138, -0.0449], device='cuda:0'), grad: tensor([-1.5367e-08, -2.0023e-08, -3.4086e-07,  8.8941e-08,  1.4435e-08,
+        -6.7987e-08,  1.0896e-07, -3.4506e-07,  1.1455e-07,  4.5542e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 311----------------------------------------------------
+epoch 311, time 218.60, cls_loss 0.0004 cls_loss_mapping 0.0011 cls_loss_causal 0.4692 re_mapping 0.0034 re_causal 0.0104 /// teacc 99.24 lr 0.00010000
+Epoch 313, weight, value: tensor([[-0.0906,  0.0116,  0.1327,  ...,  0.0109, -0.0957, -0.0948],
+        [-0.2014, -0.2228, -0.2050,  ...,  0.0918,  0.0657,  0.4195],
+        [-0.2117, -0.1646, -0.2011,  ..., -0.2734,  0.0197, -0.2575],
+        ...,
+        [-0.1989, -0.2579, -0.0028,  ..., -0.2428, -0.1201, -0.4044],
+        [ 0.1428,  0.0333, -0.1546,  ..., -0.2420,  0.0278, -0.2330],
+        [ 0.1419,  0.0919, -0.1365,  ...,  0.1077, -0.2433, -0.2722]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  1.8161e-08,  2.3283e-08,  ...,  2.3283e-09,
+          1.8626e-09,  2.3283e-09],
+        [ 4.6566e-10,  5.8208e-08,  7.4040e-08,  ..., -6.6590e-08,
+         -3.4459e-08, -1.0477e-07],
+        [ 0.0000e+00,  2.3283e-09,  2.7940e-09,  ...,  1.8626e-08,
+          9.7789e-09,  2.9337e-08],
+        ...,
+        [ 0.0000e+00, -8.8941e-08, -1.1502e-07,  ...,  9.3132e-10,
+          4.6566e-10,  1.3970e-09],
+        [ 2.3283e-09,  5.5879e-09,  0.0000e+00,  ...,  3.7253e-09,
+          1.8626e-09,  3.2596e-09],
+        [-9.3132e-10,  6.5193e-09,  1.2107e-08,  ...,  9.3132e-10,
+          3.7253e-09,  1.8626e-09]], device='cuda:0')
+Epoch 313, bias, value: tensor([-0.0303, -0.0367, -0.0144,  0.0013,  0.0009,  0.0074,  0.0031, -0.0096,
+         0.0138, -0.0449], device='cuda:0'), grad: tensor([ 1.6391e-07,  3.5716e-07,  6.4261e-08, -1.7229e-08,  2.8405e-08,
+         2.1886e-08,  1.2107e-07, -8.3726e-07,  3.2596e-08,  7.2643e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 312, time 217.86, cls_loss 0.0006 cls_loss_mapping 0.0018 cls_loss_causal 0.4657 re_mapping 0.0034 re_causal 0.0098 /// teacc 99.15 lr 0.00010000
+Epoch 314, weight, value: tensor([[-0.0914,  0.0118,  0.1326,  ...,  0.0107, -0.0963, -0.0948],
+        [-0.2018, -0.2232, -0.2054,  ...,  0.0924,  0.0657,  0.4196],
+        [-0.2128, -0.1653, -0.2028,  ..., -0.2741,  0.0196, -0.2575],
+        ...,
+        [-0.1990, -0.2583, -0.0026,  ..., -0.2436, -0.1212, -0.4058],
+        [ 0.1430,  0.0330, -0.1554,  ..., -0.2425,  0.0281, -0.2331],
+        [ 0.1420,  0.0918, -0.1364,  ...,  0.1080, -0.2432, -0.2727]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  1.3970e-09,  7.4506e-09,  ...,  1.3970e-08,
+          4.6566e-10,  4.6566e-10],
+        [ 6.5193e-09,  7.4506e-09,  1.6484e-07,  ...,  4.3306e-08,
+         -6.9849e-09, -5.5414e-08],
+        [ 4.3772e-08,  5.9605e-08,  2.7940e-09,  ...,  6.0536e-09,
+          1.3970e-09,  1.3970e-09],
+        ...,
+        [ 2.4214e-08,  2.9337e-08, -3.6089e-07,  ..., -1.0012e-07,
+          1.2573e-08,  3.3528e-08],
+        [-7.0315e-08, -9.2667e-08,  1.3970e-09,  ...,  2.7940e-09,
+          9.3132e-10,  4.6566e-10],
+        [-4.5169e-08, -2.1886e-08,  1.7369e-07,  ...,  4.6566e-09,
+          6.0536e-09,  1.7229e-08]], device='cuda:0')
+Epoch 314, bias, value: tensor([-0.0308, -0.0366, -0.0145,  0.0012,  0.0007,  0.0077,  0.0037, -0.0097,
+         0.0133, -0.0449], device='cuda:0'), grad: tensor([ 4.9826e-08,  1.1800e-06,  2.9709e-07,  1.3458e-07,  2.8266e-07,
+        -5.1223e-08, -1.0850e-07, -2.5183e-06, -4.3027e-07,  1.1707e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 313, time 217.80, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4195 re_mapping 0.0037 re_causal 0.0105 /// teacc 99.22 lr 0.00010000
+Epoch 315, weight, value: tensor([[-0.0916,  0.0119,  0.1327,  ...,  0.0107, -0.0966, -0.0949],
+        [-0.2023, -0.2255, -0.2057,  ...,  0.0921,  0.0656,  0.4196],
+        [-0.2131, -0.1627, -0.2037,  ..., -0.2743,  0.0196, -0.2575],
+        ...,
+        [-0.1991, -0.2588, -0.0028,  ..., -0.2435, -0.1197, -0.4061],
+        [ 0.1433,  0.0331, -0.1555,  ..., -0.2427,  0.0279, -0.2331],
+        [ 0.1421,  0.0919, -0.1366,  ...,  0.1081, -0.2434, -0.2732]],
+       device='cuda:0'), grad: tensor([[ 1.1036e-07,  3.8091e-07,  1.1316e-07,  ...,  9.2387e-07,
+          0.0000e+00,  0.0000e+00],
+        [ 2.7940e-09,  3.7253e-09,  4.6566e-10,  ..., -6.0536e-09,
+         -2.3283e-09, -2.4680e-08],
+        [ 1.3970e-09,  1.8626e-09,  0.0000e+00,  ...,  2.3283e-09,
+          1.3970e-09,  4.6566e-10],
+        ...,
+        [ 1.0710e-08,  1.0245e-08,  4.6566e-10,  ...,  2.9802e-08,
+          7.9162e-09,  2.4680e-08],
+        [ 9.3132e-10,  9.3132e-10,  1.8626e-09,  ...,  3.2596e-09,
+          9.3132e-10,  4.6566e-10],
+        [-1.2992e-07, -4.0932e-07, -1.1828e-07,  ..., -9.9000e-07,
+          1.3970e-09,  9.3132e-10]], device='cuda:0')
+Epoch 315, bias, value: tensor([-0.0309, -0.0373, -0.0139,  0.0006,  0.0007,  0.0076,  0.0038, -0.0086,
+         0.0131, -0.0449], device='cuda:0'), grad: tensor([ 1.7509e-06, -2.3749e-08, -1.2666e-07, -2.0955e-08,  7.3109e-08,
+         1.4808e-07, -1.4342e-07,  2.0675e-07,  2.0955e-08, -1.8757e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 314, time 217.62, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4450 re_mapping 0.0034 re_causal 0.0100 /// teacc 99.21 lr 0.00010000
+Epoch 316, weight, value: tensor([[-0.0920,  0.0123,  0.1332,  ...,  0.0109, -0.0969, -0.0949],
+        [-0.2027, -0.2257, -0.2059,  ...,  0.0921,  0.0657,  0.4196],
+        [-0.2134, -0.1627, -0.2040,  ..., -0.2744,  0.0196, -0.2575],
+        ...,
+        [-0.1992, -0.2591, -0.0029,  ..., -0.2436, -0.1201, -0.4064],
+        [ 0.1445,  0.0340, -0.1555,  ..., -0.2426,  0.0285, -0.2332],
+        [ 0.1425,  0.0920, -0.1367,  ...,  0.1087, -0.2431, -0.2734]],
+       device='cuda:0'), grad: tensor([[ 2.5332e-07,  6.8964e-07,  3.1898e-07,  ...,  5.3039e-07,
+          5.7695e-07,  0.0000e+00],
+        [ 1.0710e-08,  1.3504e-08,  2.7940e-09,  ..., -5.4017e-08,
+         -5.8673e-08, -7.4506e-08],
+        [ 2.4214e-08,  4.9360e-08,  2.0489e-08,  ...,  3.6322e-08,
+          4.7497e-08,  4.6566e-09],
+        ...,
+        [ 2.4214e-08,  2.4214e-08,  9.3132e-10,  ...,  6.1467e-08,
+          8.4750e-08,  6.8918e-08],
+        [-5.4017e-08, -5.1688e-08,  8.8476e-09,  ...,  2.4214e-08,
+         -6.9384e-08,  0.0000e+00],
+        [-2.1979e-07, -1.3132e-07,  1.8626e-09,  ..., -1.6298e-07,
+          1.0245e-08,  9.3132e-10]], device='cuda:0')
+Epoch 316, bias, value: tensor([-0.0307, -0.0373, -0.0139,  0.0006,  0.0003,  0.0075,  0.0038, -0.0085,
+         0.0135, -0.0446], device='cuda:0'), grad: tensor([ 2.6654e-06, -2.3656e-07,  2.3609e-07, -3.1684e-06,  5.8347e-07,
+         2.5565e-07,  3.5902e-07,  3.9162e-07, -3.1758e-07, -7.5577e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 315, time 217.33, cls_loss 0.0005 cls_loss_mapping 0.0015 cls_loss_causal 0.4690 re_mapping 0.0033 re_causal 0.0098 /// teacc 99.22 lr 0.00010000
+Epoch 317, weight, value: tensor([[-0.0928,  0.0129,  0.1353,  ...,  0.0122, -0.0968, -0.0946],
+        [-0.2031, -0.2260, -0.2072,  ...,  0.0918,  0.0656,  0.4196],
+        [-0.2139, -0.1628, -0.2046,  ..., -0.2748,  0.0196, -0.2575],
+        ...,
+        [-0.1995, -0.2600, -0.0028,  ..., -0.2443, -0.1206, -0.4070],
+        [ 0.1447,  0.0340, -0.1557,  ..., -0.2427,  0.0286, -0.2334],
+        [ 0.1428,  0.0922, -0.1368,  ...,  0.1092, -0.2430, -0.2738]],
+       device='cuda:0'), grad: tensor([[-1.5460e-07, -1.7555e-07, -4.2561e-07,  ..., -2.8824e-07,
+         -2.7940e-09,  0.0000e+00],
+        [ 9.3132e-10,  2.3283e-09,  6.0536e-09,  ...,  2.7940e-09,
+          4.1910e-09, -2.3283e-09],
+        [ 3.2596e-09,  3.7253e-09,  1.3970e-08,  ...,  5.5879e-09,
+         -5.4948e-08,  9.3132e-10],
+        ...,
+        [ 4.6566e-10,  9.3132e-10,  3.7253e-09,  ...,  2.3283e-09,
+          4.2841e-08,  2.7940e-09],
+        [ 3.0268e-08,  2.8405e-08,  7.4506e-08,  ...,  5.0757e-08,
+          1.0710e-08,  0.0000e+00],
+        [ 8.8010e-08,  8.2888e-08,  2.1560e-07,  ...,  1.4342e-07,
+          1.8161e-08,  4.6566e-10]], device='cuda:0')
+Epoch 317, bias, value: tensor([-2.9444e-02, -3.7395e-02, -1.3889e-02,  7.2543e-04,  4.5095e-05,
+         7.5157e-03,  3.6122e-03, -8.2224e-03,  1.3433e-02, -4.4423e-02],
+       device='cuda:0'), grad: tensor([-1.0040e-06,  7.5437e-08,  1.3970e-08,  5.3365e-07, -9.9186e-08,
+         4.9360e-08,  1.8347e-07, -5.7742e-07,  2.9057e-07,  5.3877e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 316----------------------------------------------------
+epoch 316, time 218.51, cls_loss 0.0006 cls_loss_mapping 0.0018 cls_loss_causal 0.4852 re_mapping 0.0035 re_causal 0.0104 /// teacc 99.28 lr 0.00010000
+Epoch 318, weight, value: tensor([[-0.0931,  0.0130,  0.1357,  ...,  0.0122, -0.0973, -0.0952],
+        [-0.2036, -0.2262, -0.2076,  ...,  0.0924,  0.0657,  0.4197],
+        [-0.2149, -0.1630, -0.2053,  ..., -0.2766,  0.0196, -0.2576],
+        ...,
+        [-0.2001, -0.2620, -0.0029,  ..., -0.2456, -0.1223, -0.4079],
+        [ 0.1453,  0.0339, -0.1556,  ..., -0.2429,  0.0294, -0.2335],
+        [ 0.1428,  0.0922, -0.1370,  ...,  0.1093, -0.2432, -0.2743]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  4.6566e-10,  1.3970e-09,  ...,  8.6613e-08,
+          0.0000e+00,  1.4016e-07],
+        [ 1.3970e-09,  9.3132e-10,  4.6566e-10,  ..., -2.0070e-07,
+          0.0000e+00, -3.5251e-07],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  1.0710e-08,
+          0.0000e+00,  1.5367e-08],
+        ...,
+        [ 2.7940e-09,  1.8626e-09,  0.0000e+00,  ...,  2.8405e-08,
+          0.0000e+00,  4.0513e-08],
+        [ 4.6566e-10,  0.0000e+00,  3.2596e-09,  ...,  5.0291e-08,
+          0.0000e+00,  7.3109e-08],
+        [-5.3085e-08, -3.6322e-08,  1.3970e-09,  ..., -8.5682e-08,
+          4.6566e-10,  2.2817e-08]], device='cuda:0')
+Epoch 318, bias, value: tensor([-2.9446e-02, -3.7196e-02, -1.3949e-02,  1.0028e-03,  1.7857e-05,
+         9.6802e-03,  9.4074e-04, -9.2173e-03,  1.3513e-02, -4.4438e-02],
+       device='cuda:0'), grad: tensor([ 3.5902e-07, -8.4611e-07,  3.3528e-08,  1.7695e-08,  1.9511e-07,
+         1.2247e-07, -1.9092e-08, -6.0536e-09,  2.0349e-07, -4.4238e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 317, time 217.72, cls_loss 0.0005 cls_loss_mapping 0.0015 cls_loss_causal 0.4534 re_mapping 0.0038 re_causal 0.0103 /// teacc 99.16 lr 0.00010000
+Epoch 319, weight, value: tensor([[-0.0935,  0.0125,  0.1357,  ...,  0.0119, -0.0989, -0.0955],
+        [-0.2038, -0.2266, -0.2085,  ...,  0.0930,  0.0657,  0.4197],
+        [-0.2154, -0.1632, -0.2064,  ..., -0.2769,  0.0196, -0.2576],
+        ...,
+        [-0.2003, -0.2623, -0.0031,  ..., -0.2465, -0.1236, -0.4095],
+        [ 0.1449,  0.0338, -0.1555,  ..., -0.2432,  0.0298, -0.2337],
+        [ 0.1435,  0.0925, -0.1373,  ...,  0.1103, -0.2436, -0.2764]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09, -1.3970e-09, -1.8626e-09,  ...,  2.3283e-09,
+          2.3283e-09,  4.6566e-10],
+        [ 3.2596e-09,  3.2596e-09,  3.2596e-08,  ...,  9.3132e-10,
+          6.5658e-08, -1.5367e-08],
+        [ 1.8626e-09,  1.8626e-09,  1.8626e-09,  ...,  6.9849e-09,
+          3.2596e-09,  4.6566e-10],
+        ...,
+        [ 1.2107e-08, -1.3970e-09,  1.8626e-09,  ...,  1.7695e-08,
+          6.5193e-09,  7.9162e-09],
+        [ 2.7707e-07,  1.8766e-07,  9.3132e-10,  ...,  2.3283e-09,
+          1.2852e-07,  1.3970e-09],
+        [-7.0781e-08, -3.4459e-08,  6.0536e-09,  ..., -9.4064e-08,
+          6.9849e-09,  2.7940e-09]], device='cuda:0')
+Epoch 319, bias, value: tensor([-0.0300, -0.0372, -0.0139,  0.0010, -0.0003,  0.0096,  0.0009, -0.0095,
+         0.0137, -0.0440], device='cuda:0'), grad: tensor([ 1.1642e-08,  2.0256e-07,  3.9116e-08, -6.2538e-07,  6.0536e-09,
+         3.0268e-08, -5.7276e-08, -7.4506e-08,  6.6170e-07, -2.0023e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 318, time 217.73, cls_loss 0.0006 cls_loss_mapping 0.0020 cls_loss_causal 0.4469 re_mapping 0.0034 re_causal 0.0097 /// teacc 99.19 lr 0.00010000
+Epoch 320, weight, value: tensor([[-0.0937,  0.0126,  0.1351,  ...,  0.0114, -0.0995, -0.0956],
+        [-0.2040, -0.2267, -0.2086,  ...,  0.0941,  0.0658,  0.4198],
+        [-0.2159, -0.1637, -0.2070,  ..., -0.2776,  0.0196, -0.2576],
+        ...,
+        [-0.2005, -0.2631, -0.0029,  ..., -0.2472, -0.1248, -0.4103],
+        [ 0.1448,  0.0337, -0.1556,  ..., -0.2442,  0.0290, -0.2350],
+        [ 0.1437,  0.0926, -0.1375,  ...,  0.1106, -0.2439, -0.2772]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  9.3132e-09,  0.0000e+00,  ...,  1.8626e-09,
+          4.6566e-10,  0.0000e+00],
+        [ 3.2596e-09,  8.8476e-09,  0.0000e+00,  ...,  1.3970e-09,
+          3.7253e-09,  0.0000e+00],
+        [ 5.5879e-09,  6.9849e-09,  0.0000e+00,  ...,  1.8626e-09,
+          2.5146e-08,  0.0000e+00],
+        ...,
+        [ 2.2817e-08,  3.0734e-08,  0.0000e+00,  ...,  6.9849e-09,
+          3.7253e-09,  0.0000e+00],
+        [-7.4040e-08,  1.1642e-08,  0.0000e+00,  ...,  4.6566e-10,
+         -4.5635e-08,  0.0000e+00],
+        [ 9.3132e-09,  5.1688e-08, -4.6566e-10,  ..., -3.7253e-08,
+          1.3970e-09,  0.0000e+00]], device='cuda:0')
+Epoch 320, bias, value: tensor([-0.0308, -0.0371, -0.0139,  0.0014, -0.0003,  0.0095,  0.0010, -0.0098,
+         0.0131, -0.0439], device='cuda:0'), grad: tensor([ 3.8184e-08,  3.8184e-08,  7.4971e-08, -3.8184e-08,  8.1025e-08,
+        -1.6093e-06,  1.2470e-06,  9.9652e-08,  7.4506e-09,  7.3574e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 319, time 217.55, cls_loss 0.0005 cls_loss_mapping 0.0014 cls_loss_causal 0.4944 re_mapping 0.0033 re_causal 0.0103 /// teacc 99.13 lr 0.00010000
+Epoch 321, weight, value: tensor([[-0.0943,  0.0126,  0.1356,  ...,  0.0115, -0.0990, -0.0954],
+        [-0.2042, -0.2269, -0.2099,  ...,  0.0949,  0.0658,  0.4198],
+        [-0.2168, -0.1639, -0.2081,  ..., -0.2778,  0.0196, -0.2576],
+        ...,
+        [-0.2007, -0.2634, -0.0020,  ..., -0.2487, -0.1252, -0.4107],
+        [ 0.1452,  0.0340, -0.1556,  ..., -0.2444,  0.0298, -0.2350],
+        [ 0.1439,  0.0928, -0.1376,  ...,  0.1109, -0.2439, -0.2776]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -9.3132e-10,  1.3970e-08,  ...,  2.3283e-08,
+          9.3132e-10,  9.3132e-10],
+        [ 1.8626e-09,  3.7253e-09,  4.6566e-09,  ..., -1.7229e-08,
+         -3.5390e-08, -6.4261e-08],
+        [ 1.3970e-09,  3.2596e-09,  7.9162e-09,  ...,  1.4901e-08,
+          9.3132e-09,  1.1176e-08],
+        ...,
+        [ 3.7253e-09,  7.9162e-09, -8.1491e-08,  ...,  2.0955e-08,
+          3.3528e-08,  4.3306e-08],
+        [-6.9849e-09, -7.9162e-09,  2.8405e-08,  ...,  4.0513e-08,
+         -4.6566e-10,  1.3970e-09],
+        [-1.5832e-08, -7.9162e-09,  5.1223e-09,  ..., -1.2107e-08,
+          2.7940e-09,  2.7940e-09]], device='cuda:0')
+Epoch 321, bias, value: tensor([-0.0306, -0.0371, -0.0139,  0.0014, -0.0005,  0.0094,  0.0010, -0.0101,
+         0.0133, -0.0437], device='cuda:0'), grad: tensor([ 6.5658e-08, -1.1222e-07,  6.1467e-08, -1.1828e-07,  3.7719e-07,
+         2.6124e-07, -3.9348e-07, -1.8952e-07,  8.1956e-08, -2.4680e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 320, time 217.78, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4609 re_mapping 0.0034 re_causal 0.0102 /// teacc 99.15 lr 0.00010000
+Epoch 322, weight, value: tensor([[-0.0945,  0.0130,  0.1359,  ...,  0.0118, -0.0993, -0.0960],
+        [-0.2045, -0.2270, -0.2104,  ...,  0.0964,  0.0660,  0.4199],
+        [-0.2178, -0.1640, -0.2098,  ..., -0.2805,  0.0194, -0.2577],
+        ...,
+        [-0.2008, -0.2638, -0.0013,  ..., -0.2493, -0.1263, -0.4115],
+        [ 0.1453,  0.0338, -0.1560,  ..., -0.2446,  0.0300, -0.2355],
+        [ 0.1440,  0.0928, -0.1380,  ...,  0.1110, -0.2442, -0.2787]],
+       device='cuda:0'), grad: tensor([[ 6.9849e-09,  7.4506e-09,  4.6566e-10,  ...,  9.7789e-09,
+          3.2596e-09,  0.0000e+00],
+        [ 1.0710e-08,  1.7695e-08,  1.8626e-09,  ...,  6.9849e-09,
+          1.3504e-08, -1.1176e-08],
+        [ 1.1642e-08,  1.7695e-08,  0.0000e+00,  ...,  1.0710e-08,
+          1.4901e-08,  4.6566e-10],
+        ...,
+        [ 2.2817e-08,  2.7940e-08,  1.8626e-09,  ...,  2.7474e-08,
+          2.3749e-08,  7.4506e-09],
+        [ 2.3283e-09,  3.2596e-09,  4.6566e-10,  ...,  9.7789e-09,
+          1.3970e-09,  0.0000e+00],
+        [-6.2399e-08, -1.8161e-08,  1.8161e-08,  ..., -3.4459e-08,
+          3.3993e-08,  2.3283e-09]], device='cuda:0')
+Epoch 322, bias, value: tensor([-0.0306, -0.0369, -0.0141,  0.0015, -0.0005,  0.0094,  0.0010, -0.0099,
+         0.0132, -0.0438], device='cuda:0'), grad: tensor([ 4.0513e-08,  6.8452e-08,  1.4156e-07, -8.3540e-07,  2.6077e-08,
+         5.5740e-07,  7.4506e-09,  1.7229e-08,  1.6764e-08, -4.6100e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 321, time 217.67, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4563 re_mapping 0.0034 re_causal 0.0099 /// teacc 99.16 lr 0.00010000
+Epoch 323, weight, value: tensor([[-0.0949,  0.0129,  0.1362,  ...,  0.0117, -0.1005, -0.0961],
+        [-0.2048, -0.2272, -0.2105,  ...,  0.0972,  0.0661,  0.4200],
+        [-0.2187, -0.1644, -0.2107,  ..., -0.2809,  0.0193, -0.2577],
+        ...,
+        [-0.2009, -0.2639, -0.0026,  ..., -0.2502, -0.1268, -0.4121],
+        [ 0.1454,  0.0338, -0.1561,  ..., -0.2448,  0.0303, -0.2355],
+        [ 0.1442,  0.0928, -0.1384,  ...,  0.1111, -0.2444, -0.2793]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.3970e-09,  1.2061e-07,  ...,  9.0338e-08,
+          9.3132e-10,  1.3970e-09],
+        [ 4.1910e-09,  1.3970e-09,  9.3132e-10,  ..., -4.1444e-08,
+         -2.2352e-08, -4.9826e-08],
+        [ 7.9162e-09,  9.3132e-09,  4.6566e-10,  ...,  2.3283e-09,
+          6.0536e-09,  1.3970e-09],
+        ...,
+        [ 4.7032e-08,  1.0710e-08,  2.7940e-09,  ..., -5.4529e-07,
+          1.6298e-08,  1.9558e-08],
+        [-3.2596e-09, -4.1910e-09,  4.6566e-10,  ...,  4.6566e-10,
+         -3.7253e-09,  0.0000e+00],
+        [ 9.3132e-10,  1.3970e-09,  3.2596e-09,  ...,  5.6811e-07,
+          1.0245e-08,  1.8626e-08]], device='cuda:0')
+Epoch 323, bias, value: tensor([-0.0307, -0.0369, -0.0141,  0.0016, -0.0005,  0.0094,  0.0011, -0.0100,
+         0.0133, -0.0439], device='cuda:0'), grad: tensor([ 3.0827e-07, -6.0536e-09, -2.6496e-07, -8.6473e-07, -9.3132e-10,
+         9.4157e-07, -2.5285e-07, -1.7181e-05,  3.4459e-08,  1.7270e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 322, time 217.93, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4716 re_mapping 0.0033 re_causal 0.0097 /// teacc 99.18 lr 0.00010000
+Epoch 324, weight, value: tensor([[-0.0954,  0.0131,  0.1366,  ...,  0.0118, -0.1011, -0.0962],
+        [-0.2050, -0.2274, -0.2109,  ...,  0.0975,  0.0661,  0.4200],
+        [-0.2192, -0.1645, -0.2114,  ..., -0.2809,  0.0193, -0.2577],
+        ...,
+        [-0.2011, -0.2641, -0.0029,  ..., -0.2505, -0.1277, -0.4128],
+        [ 0.1457,  0.0342, -0.1558,  ..., -0.2449,  0.0313, -0.2356],
+        [ 0.1443,  0.0930, -0.1392,  ...,  0.1113, -0.2454, -0.2799]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10, -9.3132e-10, -2.7940e-09,  ..., -1.8626e-09,
+          4.6566e-10,  0.0000e+00],
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 3.2596e-09,  3.7253e-09,  1.3970e-09,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          9.3132e-10,  4.6566e-10],
+        [-1.2573e-08, -1.2107e-08,  2.3283e-09,  ...,  1.8626e-09,
+         -9.3132e-09,  0.0000e+00],
+        [-6.9849e-09, -4.1910e-09,  9.3132e-10,  ..., -7.9162e-09,
+          1.3970e-09,  0.0000e+00]], device='cuda:0')
+Epoch 324, bias, value: tensor([-0.0307, -0.0369, -0.0141,  0.0013, -0.0004,  0.0095,  0.0010, -0.0099,
+         0.0137, -0.0441], device='cuda:0'), grad: tensor([ 4.6566e-09,  5.7742e-08, -1.0235e-06,  1.5926e-07,  2.0023e-08,
+         3.8184e-08, -1.6764e-08,  5.5740e-07,  2.2119e-07, -1.2107e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 323, time 217.91, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4577 re_mapping 0.0032 re_causal 0.0097 /// teacc 99.23 lr 0.00010000
+Epoch 325, weight, value: tensor([[-0.0959,  0.0131,  0.1355,  ...,  0.0108, -0.1019, -0.0970],
+        [-0.2055, -0.2276, -0.2110,  ...,  0.0989,  0.0661,  0.4201],
+        [-0.2196, -0.1647, -0.2117,  ..., -0.2816,  0.0193, -0.2577],
+        ...,
+        [-0.2012, -0.2622, -0.0031,  ..., -0.2514, -0.1256, -0.4145],
+        [ 0.1459,  0.0341, -0.1560,  ..., -0.2457,  0.0302, -0.2372],
+        [ 0.1446,  0.0932, -0.1392,  ...,  0.1116, -0.2456, -0.2805]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 2.7940e-09,  7.4506e-09,  3.7253e-09,  ..., -1.8626e-09,
+          0.0000e+00, -8.3819e-09],
+        [ 1.1176e-08,  1.6764e-08,  0.0000e+00,  ...,  8.3819e-09,
+          1.5832e-08,  2.7940e-09],
+        ...,
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  3.7253e-09,
+          5.5879e-09,  5.5879e-09],
+        [-1.8626e-08, -1.1409e-06, -2.2352e-06,  ...,  9.3132e-10,
+         -1.0710e-06, -5.2154e-08],
+        [-6.5193e-09, -2.0489e-08,  1.7975e-07,  ..., -2.1420e-08,
+          2.3842e-07,  0.0000e+00]], device='cuda:0')
+Epoch 325, bias, value: tensor([-0.0316, -0.0370, -0.0141,  0.0007, -0.0007,  0.0094,  0.0012, -0.0081,
+         0.0130, -0.0439], device='cuda:0'), grad: tensor([ 9.3132e-09,  2.7008e-08,  2.6077e-08,  3.0734e-08, -5.3644e-07,
+         1.7881e-07,  5.0813e-06,  3.7253e-09, -5.2974e-06,  4.9081e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 324, time 217.96, cls_loss 0.0005 cls_loss_mapping 0.0010 cls_loss_causal 0.4763 re_mapping 0.0032 re_causal 0.0095 /// teacc 99.22 lr 0.00010000
+Epoch 326, weight, value: tensor([[-0.0969,  0.0130,  0.1351,  ...,  0.0105, -0.1026, -0.0973],
+        [-0.2082, -0.2282, -0.2114,  ...,  0.0984,  0.0660,  0.4202],
+        [-0.2202, -0.1648, -0.2124,  ..., -0.2818,  0.0193, -0.2577],
+        ...,
+        [-0.2014, -0.2624, -0.0033,  ..., -0.2520, -0.1260, -0.4157],
+        [ 0.1458,  0.0345, -0.1558,  ..., -0.2462,  0.0304, -0.2374],
+        [ 0.1451,  0.0933, -0.1394,  ...,  0.1123, -0.2452, -0.2811]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09, -7.7300e-08, -1.3877e-07,  ..., -7.7300e-08,
+          7.4506e-09,  0.0000e+00],
+        [ 1.8626e-08,  3.9116e-08,  5.7742e-08,  ...,  2.5146e-08,
+          4.1910e-08, -1.2107e-08],
+        [ 1.3970e-08, -1.0245e-08,  3.7253e-09,  ...,  4.6566e-09,
+          1.7695e-08,  7.4506e-09],
+        ...,
+        [ 3.7253e-09,  3.7253e-09,  4.6566e-09,  ...,  3.7253e-09,
+          1.0245e-08,  1.8626e-09],
+        [-1.0151e-07,  1.6764e-08,  6.4261e-08,  ...,  3.6322e-08,
+         -2.4959e-07,  2.7940e-09],
+        [ 0.0000e+00,  5.5879e-09,  1.5832e-08,  ...,  3.7253e-09,
+          7.4506e-09,  0.0000e+00]], device='cuda:0')
+Epoch 326, bias, value: tensor([-0.0323, -0.0371, -0.0142,  0.0007, -0.0008,  0.0092,  0.0015, -0.0081,
+         0.0130, -0.0436], device='cuda:0'), grad: tensor([-4.7032e-07,  3.3528e-07, -3.2596e-08,  6.4261e-08, -2.3283e-08,
+         1.5460e-07,  3.0175e-07,  5.7742e-08, -4.5169e-07,  6.5193e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 325, time 217.89, cls_loss 0.0007 cls_loss_mapping 0.0017 cls_loss_causal 0.4702 re_mapping 0.0032 re_causal 0.0089 /// teacc 99.25 lr 0.00010000
+Epoch 327, weight, value: tensor([[-0.0987,  0.0132,  0.1362,  ...,  0.0109, -0.1044, -0.0974],
+        [-0.2095, -0.2286, -0.2129,  ...,  0.0977,  0.0659,  0.4202],
+        [-0.2234, -0.1660, -0.2157,  ..., -0.2829,  0.0191, -0.2578],
+        ...,
+        [-0.2020, -0.2636, -0.0033,  ..., -0.2531, -0.1268, -0.4166],
+        [ 0.1444,  0.0332, -0.1558,  ..., -0.2470,  0.0316, -0.2362],
+        [ 0.1454,  0.0933, -0.1398,  ...,  0.1130, -0.2455, -0.2814]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  1.8626e-09,  0.0000e+00,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10,  9.3132e-10,  3.7253e-09,  ..., -9.3132e-10,
+          5.7742e-08, -4.6566e-09],
+        [ 8.3819e-09,  9.3132e-09,  0.0000e+00,  ...,  4.6566e-09,
+         -5.4948e-08,  9.3132e-10],
+        ...,
+        [ 2.7940e-09,  1.8626e-09,  0.0000e+00,  ...,  2.7940e-09,
+          9.3132e-10,  9.3132e-10],
+        [ 1.3039e-08,  1.5832e-08,  1.8626e-09,  ...,  8.3819e-09,
+          1.3039e-08,  9.3132e-10],
+        [-9.3132e-09, -4.6566e-09,  4.6566e-09,  ..., -9.3132e-09,
+          3.7253e-09,  9.3132e-10]], device='cuda:0')
+Epoch 327, bias, value: tensor([-0.0321, -0.0372, -0.0143,  0.0012, -0.0008,  0.0094,  0.0016, -0.0083,
+         0.0133, -0.0433], device='cuda:0'), grad: tensor([ 2.1420e-08,  5.2713e-07, -6.0257e-07, -8.0094e-08,  2.7940e-09,
+        -4.8354e-06,  4.8801e-06,  2.0489e-08,  6.7055e-08, -1.0245e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 326, time 217.54, cls_loss 0.0006 cls_loss_mapping 0.0015 cls_loss_causal 0.4801 re_mapping 0.0030 re_causal 0.0095 /// teacc 99.21 lr 0.00010000
+Epoch 328, weight, value: tensor([[-0.0991,  0.0133,  0.1364,  ...,  0.0101, -0.1059, -0.0975],
+        [-0.2102, -0.2290, -0.2142,  ...,  0.0980,  0.0659,  0.4203],
+        [-0.2255, -0.1665, -0.2176,  ..., -0.2834,  0.0191, -0.2578],
+        ...,
+        [-0.2022, -0.2637, -0.0033,  ..., -0.2540, -0.1269, -0.4176],
+        [ 0.1454,  0.0334, -0.1560,  ..., -0.2471,  0.0333, -0.2361],
+        [ 0.1456,  0.0934, -0.1401,  ...,  0.1133, -0.2457, -0.2820]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -6.5193e-09, -1.8626e-08,  ..., -1.1176e-08,
+          9.3132e-10,  9.3132e-10],
+        [ 4.6566e-09,  9.3132e-10,  1.8626e-09,  ..., -4.6566e-09,
+          8.6613e-08, -4.6566e-09],
+        [ 6.5193e-09,  1.8626e-09,  0.0000e+00,  ...,  1.8626e-09,
+          2.5146e-08,  8.3819e-09],
+        ...,
+        [ 2.7940e-09,  1.8626e-09,  2.7940e-09,  ...,  6.5193e-09,
+          8.3819e-09,  1.2107e-08],
+        [-4.5635e-08, -1.0245e-08,  9.3132e-10,  ...,  1.8626e-09,
+         -1.6112e-07, -1.3970e-08],
+        [-6.5193e-09, -1.8626e-09,  1.6764e-08,  ..., -5.5879e-09,
+          1.0245e-08,  9.3132e-10]], device='cuda:0')
+Epoch 328, bias, value: tensor([-0.0326, -0.0377, -0.0143,  0.0008, -0.0011,  0.0099,  0.0014, -0.0066,
+         0.0140, -0.0433], device='cuda:0'), grad: tensor([-4.3772e-08,  2.2817e-07,  7.8231e-08,  3.4459e-08, -5.1223e-08,
+         1.6764e-08,  1.2387e-07,  4.7497e-08, -4.5914e-07,  2.0489e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 327, time 217.90, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4661 re_mapping 0.0030 re_causal 0.0094 /// teacc 99.18 lr 0.00010000
+Epoch 329, weight, value: tensor([[-0.0994,  0.0136,  0.1376,  ...,  0.0108, -0.1069, -0.0978],
+        [-0.2105, -0.2292, -0.2151,  ...,  0.0986,  0.0658,  0.4203],
+        [-0.2266, -0.1667, -0.2176,  ..., -0.2846,  0.0190, -0.2578],
+        ...,
+        [-0.2025, -0.2643, -0.0040,  ..., -0.2545, -0.1272, -0.4182],
+        [ 0.1466,  0.0335, -0.1562,  ..., -0.2473,  0.0353, -0.2348],
+        [ 0.1457,  0.0934, -0.1406,  ...,  0.1134, -0.2459, -0.2829]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.8626e-09, -4.6566e-09,  ..., -1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  9.3132e-10,  2.0955e-07,  ...,  1.8626e-09,
+          3.5390e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  2.7940e-09,
+         -9.3132e-10,  0.0000e+00],
+        [-6.5193e-09, -1.8626e-09,  3.7253e-09,  ..., -4.6566e-09,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 329, bias, value: tensor([-0.0317, -0.0378, -0.0143,  0.0010, -0.0011,  0.0098,  0.0012, -0.0067,
+         0.0150, -0.0433], device='cuda:0'), grad: tensor([-9.3132e-09,  4.6566e-09,  2.7940e-09,  1.3039e-08, -5.3365e-07,
+        -1.3039e-08, -9.3132e-09,  5.3737e-07,  8.3819e-09, -2.7940e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 328, time 217.76, cls_loss 0.0004 cls_loss_mapping 0.0011 cls_loss_causal 0.4743 re_mapping 0.0030 re_causal 0.0094 /// teacc 99.22 lr 0.00010000
+Epoch 330, weight, value: tensor([[-0.0999,  0.0141,  0.1384,  ...,  0.0112, -0.1073, -0.0979],
+        [-0.2108, -0.2294, -0.2166,  ...,  0.0986,  0.0658,  0.4203],
+        [-0.2283, -0.1673, -0.2181,  ..., -0.2847,  0.0190, -0.2578],
+        ...,
+        [-0.2026, -0.2645, -0.0043,  ..., -0.2548, -0.1275, -0.4192],
+        [ 0.1467,  0.0333, -0.1566,  ..., -0.2479,  0.0350, -0.2357],
+        [ 0.1457,  0.0934, -0.1408,  ...,  0.1134, -0.2460, -0.2833]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.6566e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.3970e-08,  0.0000e+00,  ..., -4.6566e-09,
+         -1.4901e-08, -1.1176e-08],
+        [ 0.0000e+00,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  6.5193e-09, -9.3132e-10,  ...,  9.3132e-10,
+          1.8626e-09,  4.6566e-09],
+        [ 0.0000e+00,  9.6858e-08,  1.8626e-09,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [-9.3132e-10,  1.8626e-09,  0.0000e+00,  ..., -9.3132e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 330, bias, value: tensor([-0.0313, -0.0378, -0.0143,  0.0013, -0.0011,  0.0095,  0.0018, -0.0069,
+         0.0145, -0.0433], device='cuda:0'), grad: tensor([ 1.6764e-08,  7.4506e-09,  1.0245e-08,  3.3341e-06,  2.8871e-08,
+        -4.4554e-06,  7.1712e-07,  1.5832e-08,  3.0268e-07,  1.3039e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 329----------------------------------------------------
+epoch 329, time 218.76, cls_loss 0.0005 cls_loss_mapping 0.0009 cls_loss_causal 0.4728 re_mapping 0.0032 re_causal 0.0095 /// teacc 99.29 lr 0.00010000
+Epoch 331, weight, value: tensor([[-0.1004,  0.0147,  0.1385,  ...,  0.0114, -0.1075, -0.0980],
+        [-0.2109, -0.2295, -0.2171,  ...,  0.1010,  0.0658,  0.4204],
+        [-0.2284, -0.1674, -0.2182,  ..., -0.2849,  0.0190, -0.2579],
+        ...,
+        [-0.2027, -0.2647, -0.0044,  ..., -0.2574, -0.1277, -0.4204],
+        [ 0.1471,  0.0332, -0.1567,  ..., -0.2479,  0.0353, -0.2358],
+        [ 0.1459,  0.0936, -0.1410,  ...,  0.1136, -0.2462, -0.2847]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -9.3132e-10, -9.3132e-10,  ...,  2.7940e-09,
+          1.8626e-09,  1.8626e-09],
+        [ 4.6566e-09,  5.5879e-09,  1.9558e-08,  ...,  2.0489e-08,
+          2.7008e-08,  1.4901e-08],
+        [ 1.8626e-09,  1.8626e-09,  2.7940e-09,  ...,  9.3132e-10,
+         -4.8429e-08,  9.3132e-10],
+        ...,
+        [ 1.2107e-08,  1.1176e-08,  0.0000e+00,  ...,  9.3132e-10,
+          1.0245e-08,  1.8626e-09],
+        [-8.1956e-08, -7.8231e-08,  1.0245e-08,  ...,  1.5832e-08,
+          8.3819e-09,  8.3819e-09],
+        [ 1.6764e-08,  1.8626e-08,  2.7940e-09,  ..., -9.3132e-09,
+          1.8626e-09,  9.3132e-10]], device='cuda:0')
+Epoch 331, bias, value: tensor([-0.0313, -0.0375, -0.0142,  0.0008, -0.0012,  0.0096,  0.0018, -0.0079,
+         0.0145, -0.0433], device='cuda:0'), grad: tensor([ 1.3970e-08,  2.5611e-07, -2.8033e-07,  5.7742e-08, -1.5832e-08,
+         2.5500e-06, -2.4587e-06,  1.1828e-07, -3.4645e-07,  1.2573e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 330, time 217.79, cls_loss 0.0005 cls_loss_mapping 0.0015 cls_loss_causal 0.4532 re_mapping 0.0033 re_causal 0.0097 /// teacc 99.17 lr 0.00010000
+Epoch 332, weight, value: tensor([[-0.1008,  0.0146,  0.1386,  ...,  0.0110, -0.1077, -0.0986],
+        [-0.2111, -0.2296, -0.2172,  ...,  0.1013,  0.0658,  0.4205],
+        [-0.2295, -0.1678, -0.2196,  ..., -0.2852,  0.0190, -0.2579],
+        ...,
+        [-0.2028, -0.2652, -0.0059,  ..., -0.2576, -0.1279, -0.4211],
+        [ 0.1473,  0.0325, -0.1580,  ..., -0.2482,  0.0354, -0.2363],
+        [ 0.1460,  0.0935, -0.1420,  ...,  0.1137, -0.2469, -0.2865]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ..., -9.3132e-10,
+          0.0000e+00,  9.3132e-10],
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -9.3132e-10, -4.6566e-09],
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  1.8626e-09],
+        ...,
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 9.3132e-10,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  9.3132e-10],
+        [ 9.3132e-10,  9.3132e-10,  9.3132e-10,  ...,  9.3132e-10,
+          9.3132e-10,  9.3132e-10]], device='cuda:0')
+Epoch 332, bias, value: tensor([-0.0319, -0.0374, -0.0142,  0.0004, -0.0008,  0.0119, -0.0004, -0.0081,
+         0.0140, -0.0436], device='cuda:0'), grad: tensor([ 3.7253e-09,  2.3823e-06,  2.3749e-07, -1.4808e-07,  5.5879e-09,
+         1.8533e-07,  8.3819e-09, -2.9206e-06,  2.3004e-07,  2.0489e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 331, time 217.52, cls_loss 0.0005 cls_loss_mapping 0.0011 cls_loss_causal 0.4603 re_mapping 0.0030 re_causal 0.0096 /// teacc 99.25 lr 0.00010000
+Epoch 333, weight, value: tensor([[-0.1012,  0.0148,  0.1389,  ...,  0.0111, -0.1079, -0.0989],
+        [-0.2114, -0.2299, -0.2171,  ...,  0.1018,  0.0659,  0.4205],
+        [-0.2304, -0.1681, -0.2204,  ..., -0.2853,  0.0190, -0.2579],
+        ...,
+        [-0.2028, -0.2654, -0.0046,  ..., -0.2576, -0.1280, -0.4218],
+        [ 0.1469,  0.0321, -0.1581,  ..., -0.2492,  0.0355, -0.2373],
+        [ 0.1462,  0.0936, -0.1433,  ...,  0.1139, -0.2474, -0.2870]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  9.3132e-10,  5.5879e-09,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  9.3132e-10,  0.0000e+00,  ...,  1.8626e-09,
+         -9.3132e-10,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-08,  ...,  9.3132e-09,
+          0.0000e+00,  0.0000e+00],
+        [-3.1665e-08, -1.5832e-08, -1.8626e-09,  ..., -3.3528e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 333, bias, value: tensor([-3.1827e-02, -3.7383e-02, -1.4210e-02,  5.7662e-05, -6.2588e-04,
+         1.2480e-02, -8.9661e-04, -7.5800e-03,  1.3585e-02, -4.4142e-02],
+       device='cuda:0'), grad: tensor([ 1.9558e-08,  4.2841e-08,  3.7253e-09, -9.3132e-10,  8.8476e-08,
+         6.6776e-07, -8.8196e-07, -2.7940e-08,  1.9185e-07, -9.8720e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 332, time 217.25, cls_loss 0.0006 cls_loss_mapping 0.0013 cls_loss_causal 0.5091 re_mapping 0.0030 re_causal 0.0095 /// teacc 99.15 lr 0.00010000
+Epoch 334, weight, value: tensor([[-0.1020,  0.0148,  0.1391,  ...,  0.0104, -0.1084, -0.0989],
+        [-0.2119, -0.2302, -0.2172,  ...,  0.1018,  0.0659,  0.4205],
+        [-0.2315, -0.1685, -0.2210,  ..., -0.2855,  0.0191, -0.2579],
+        ...,
+        [-0.2030, -0.2657, -0.0043,  ..., -0.2577, -0.1282, -0.4223],
+        [ 0.1471,  0.0319, -0.1586,  ..., -0.2496,  0.0355, -0.2373],
+        [ 0.1462,  0.0935, -0.1437,  ...,  0.1140, -0.2478, -0.2874]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  9.3132e-10,
+          2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.2107e-08,  ...,  1.8626e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 4.6566e-09,  9.3132e-10,  1.8626e-09,  ...,  9.3132e-10,
+         -2.3935e-07,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00, -3.7253e-08,  ..., -3.7253e-09,
+          2.7940e-09,  0.0000e+00],
+        [-4.6566e-09, -9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-07,  0.0000e+00],
+        [-9.3132e-10,  0.0000e+00,  4.0978e-08,  ...,  1.8626e-09,
+          1.6764e-08,  0.0000e+00]], device='cuda:0')
+Epoch 334, bias, value: tensor([-0.0324, -0.0374, -0.0140,  0.0006, -0.0007,  0.0121, -0.0007, -0.0076,
+         0.0129, -0.0442], device='cuda:0'), grad: tensor([ 3.2596e-08,  9.2201e-08, -1.1334e-06,  1.4901e-08, -5.7742e-08,
+         1.4901e-08,  6.5193e-09, -3.0082e-07,  1.1139e-06,  2.1979e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 333, time 217.40, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.4884 re_mapping 0.0032 re_causal 0.0093 /// teacc 99.19 lr 0.00010000
+Epoch 335, weight, value: tensor([[-0.1027,  0.0139,  0.1390,  ...,  0.0089, -0.1094, -0.1014],
+        [-0.2124, -0.2305, -0.2161,  ...,  0.1023,  0.0660,  0.4207],
+        [-0.2327, -0.1687, -0.2218,  ..., -0.2863,  0.0191, -0.2579],
+        ...,
+        [-0.2031, -0.2661, -0.0050,  ..., -0.2579, -0.1287, -0.4238],
+        [ 0.1479,  0.0322, -0.1591,  ..., -0.2495,  0.0357, -0.2379],
+        [ 0.1463,  0.0936, -0.1441,  ...,  0.1143, -0.2483, -0.2883]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  2.7940e-09,  ..., -9.3132e-10,
+          9.3132e-09,  1.8626e-09],
+        [ 2.7940e-09,  8.3819e-09,  2.7940e-08,  ..., -2.7940e-09,
+          4.1910e-08, -2.6077e-08],
+        [ 2.0489e-08,  1.3970e-08,  3.7253e-09,  ...,  9.3132e-10,
+          2.2352e-08,  3.7253e-09],
+        ...,
+        [ 2.7940e-09,  2.7940e-09,  4.6566e-09,  ...,  2.7940e-09,
+          1.3039e-08,  1.2107e-08],
+        [-6.6124e-08, -4.0978e-08,  5.5879e-09,  ...,  2.7940e-09,
+         -5.3085e-08,  0.0000e+00],
+        [ 3.7253e-09,  9.3132e-09,  7.0781e-08,  ...,  1.8626e-09,
+          9.8720e-08,  3.7253e-09]], device='cuda:0')
+Epoch 335, bias, value: tensor([-0.0337, -0.0373, -0.0140,  0.0003, -0.0006,  0.0121, -0.0005, -0.0077,
+         0.0127, -0.0443], device='cuda:0'), grad: tensor([ 2.1420e-08,  9.7789e-08, -1.2014e-07, -6.5193e-09, -4.9733e-07,
+         1.7323e-07,  5.3085e-08,  2.7008e-08, -4.4703e-08,  2.9337e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 334, time 217.50, cls_loss 0.0005 cls_loss_mapping 0.0008 cls_loss_causal 0.4370 re_mapping 0.0031 re_causal 0.0090 /// teacc 99.20 lr 0.00010000
+Epoch 336, weight, value: tensor([[-0.1043,  0.0135,  0.1392,  ...,  0.0083, -0.1101, -0.1025],
+        [-0.2129, -0.2308, -0.2163,  ...,  0.1026,  0.0660,  0.4208],
+        [-0.2334, -0.1690, -0.2227,  ..., -0.2867,  0.0191, -0.2579],
+        ...,
+        [-0.2032, -0.2664, -0.0050,  ..., -0.2580, -0.1290, -0.4244],
+        [ 0.1484,  0.0320, -0.1608,  ..., -0.2506,  0.0367, -0.2384],
+        [ 0.1465,  0.0939, -0.1442,  ...,  0.1146, -0.2484, -0.2889]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10,  1.8626e-09,  1.8626e-08,  ...,  0.0000e+00,
+          3.3528e-08,  9.3132e-10],
+        [ 9.3132e-10,  1.8626e-09,  1.8626e-09,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  1.8626e-09,  0.0000e+00,  ...,  9.3132e-10,
+         -1.8626e-08,  0.0000e+00],
+        [ 2.5146e-08,  2.5146e-08,  9.3132e-10,  ...,  1.3970e-08,
+         -8.3819e-09,  0.0000e+00],
+        [-3.9116e-08, -3.6322e-08,  1.8626e-09,  ..., -1.8626e-08,
+          4.6566e-09,  0.0000e+00]], device='cuda:0')
+Epoch 336, bias, value: tensor([-0.0344, -0.0373, -0.0140, -0.0001, -0.0006,  0.0129, -0.0012, -0.0078,
+         0.0122, -0.0441], device='cuda:0'), grad: tensor([ 1.0245e-08,  4.8243e-07,  2.2538e-07,  1.1548e-07, -7.1712e-08,
+         3.6322e-08,  1.3970e-08, -8.5589e-07,  6.7987e-08, -2.3283e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 335, time 217.61, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4793 re_mapping 0.0032 re_causal 0.0098 /// teacc 99.22 lr 0.00010000
+Epoch 337, weight, value: tensor([[-0.1050,  0.0135,  0.1393,  ...,  0.0082, -0.1106, -0.1026],
+        [-0.2139, -0.2355, -0.2208,  ...,  0.1015,  0.0650,  0.4198],
+        [-0.2359, -0.1698, -0.2237,  ..., -0.2870,  0.0190, -0.2579],
+        ...,
+        [-0.2035, -0.2669, -0.0051,  ..., -0.2582, -0.1294, -0.4246],
+        [ 0.1493,  0.0345, -0.1580,  ..., -0.2504,  0.0402, -0.2358],
+        [ 0.1468,  0.0942, -0.1443,  ...,  0.1148, -0.2485, -0.2890]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 3.7253e-09,  9.3132e-10,  0.0000e+00,  ...,  1.8626e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 7.4506e-09,  5.5879e-09,  0.0000e+00,  ...,  4.6566e-09,
+          5.5879e-09,  9.3132e-10],
+        ...,
+        [ 2.6077e-08,  1.1176e-08,  0.0000e+00,  ...,  1.1176e-08,
+          5.5879e-09,  9.3132e-10],
+        [ 4.6566e-09,  3.7253e-09,  9.3132e-10,  ...,  4.6566e-09,
+          0.0000e+00,  0.0000e+00],
+        [-5.5879e-08, -3.4459e-08,  0.0000e+00,  ..., -3.5390e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 337, bias, value: tensor([-3.4663e-02, -3.9074e-02, -1.3987e-02, -4.9964e-06, -6.9308e-04,
+         1.3304e-02, -1.5729e-03, -7.8389e-03,  1.5363e-02, -4.3956e-02],
+       device='cuda:0'), grad: tensor([ 6.5193e-09,  1.0245e-08,  2.6077e-08, -9.3132e-08,  3.3528e-08,
+         7.5437e-08,  0.0000e+00,  9.3132e-08,  2.1420e-08, -1.6298e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 336, time 217.59, cls_loss 0.0005 cls_loss_mapping 0.0014 cls_loss_causal 0.4655 re_mapping 0.0032 re_causal 0.0097 /// teacc 99.10 lr 0.00010000
+Epoch 338, weight, value: tensor([[-0.1054,  0.0144,  0.1392,  ...,  0.0082, -0.1116, -0.1033],
+        [-0.2146, -0.2356, -0.2209,  ...,  0.1017,  0.0650,  0.4199],
+        [-0.2370, -0.1702, -0.2259,  ..., -0.2873,  0.0190, -0.2580],
+        ...,
+        [-0.2036, -0.2673, -0.0053,  ..., -0.2585, -0.1297, -0.4255],
+        [ 0.1480,  0.0339, -0.1587,  ..., -0.2518,  0.0400, -0.2363],
+        [ 0.1470,  0.0943, -0.1444,  ...,  0.1150, -0.2486, -0.2894]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-09, -2.7008e-08, -3.8184e-08,  ..., -5.1223e-08,
+          4.6566e-09,  0.0000e+00],
+        [ 3.9116e-08,  2.7008e-08,  9.3132e-10,  ...,  9.3132e-09,
+          7.4506e-09, -4.9360e-08],
+        [ 3.5390e-08,  2.2352e-08,  9.3132e-10,  ...,  2.4214e-08,
+          1.4901e-08,  0.0000e+00],
+        ...,
+        [ 1.7695e-08,  1.1176e-08,  2.7940e-09,  ...,  2.8871e-08,
+          1.9558e-08,  3.7253e-08],
+        [ 5.5879e-08,  3.7253e-08,  1.8626e-09,  ...,  3.9116e-08,
+          3.0734e-08,  9.3132e-10],
+        [ 2.4214e-08,  3.1665e-08,  1.9558e-08,  ...,  4.6566e-08,
+          1.6764e-08,  7.4506e-09]], device='cuda:0')
+Epoch 338, bias, value: tensor([-0.0349, -0.0391, -0.0140,  0.0002, -0.0008,  0.0132, -0.0010, -0.0080,
+         0.0151, -0.0439], device='cuda:0'), grad: tensor([-8.1956e-08,  4.9360e-08, -9.3132e-10, -7.3854e-07,  2.1420e-08,
+         2.1793e-07,  1.3039e-08,  1.3970e-07,  2.0862e-07,  1.6857e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 337, time 217.85, cls_loss 0.0006 cls_loss_mapping 0.0013 cls_loss_causal 0.4769 re_mapping 0.0031 re_causal 0.0095 /// teacc 99.24 lr 0.00010000
+Epoch 339, weight, value: tensor([[-0.1095,  0.0122,  0.1374,  ...,  0.0065, -0.1127, -0.1049],
+        [-0.2150, -0.2357, -0.2210,  ...,  0.1019,  0.0651,  0.4200],
+        [-0.2381, -0.1705, -0.2278,  ..., -0.2876,  0.0190, -0.2580],
+        ...,
+        [-0.2039, -0.2680, -0.0067,  ..., -0.2588, -0.1302, -0.4267],
+        [ 0.1475,  0.0334, -0.1594,  ..., -0.2527,  0.0398, -0.2368],
+        [ 0.1474,  0.0947, -0.1448,  ...,  0.1154, -0.2489, -0.2908]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.8626e-09, -2.7940e-09,  ...,  0.0000e+00,
+          1.8626e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00, -9.3132e-10,  ..., -1.1176e-08,
+          3.7253e-09, -3.3528e-08],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+          6.6496e-07,  5.5879e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+         -1.0841e-06,  6.5193e-09],
+        [-9.3132e-10, -9.3132e-10,  0.0000e+00,  ...,  2.7940e-09,
+          9.3132e-10,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          2.7940e-09,  2.7940e-09]], device='cuda:0')
+Epoch 339, bias, value: tensor([-0.0383, -0.0390, -0.0140,  0.0002, -0.0005,  0.0130, -0.0002, -0.0082,
+         0.0148, -0.0437], device='cuda:0'), grad: tensor([ 2.7940e-09, -2.2352e-08,  3.0436e-06, -6.3330e-08,  1.7630e-06,
+         1.4156e-07, -3.7253e-09, -4.8988e-06,  1.3039e-08,  1.7695e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 338, time 217.78, cls_loss 0.0005 cls_loss_mapping 0.0011 cls_loss_causal 0.4830 re_mapping 0.0034 re_causal 0.0099 /// teacc 99.14 lr 0.00010000
+Epoch 340, weight, value: tensor([[-0.1109,  0.0117,  0.1382,  ...,  0.0046, -0.1125, -0.1051],
+        [-0.2157, -0.2360, -0.2210,  ...,  0.1022,  0.0651,  0.4200],
+        [-0.2411, -0.1714, -0.2286,  ..., -0.2881,  0.0189, -0.2580],
+        ...,
+        [-0.2050, -0.2704, -0.0069,  ..., -0.2601, -0.1303, -0.4284],
+        [ 0.1479,  0.0334, -0.1596,  ..., -0.2532,  0.0399, -0.2368],
+        [ 0.1479,  0.0955, -0.1448,  ...,  0.1167, -0.2488, -0.2916]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -3.7253e-09, -1.3039e-08,  ..., -1.2107e-08,
+          0.0000e+00,  9.3132e-10],
+        [ 9.3132e-10,  9.3132e-10,  1.8626e-09,  ..., -2.7940e-09,
+         -2.7940e-09, -1.3039e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  3.7253e-09,
+          1.8626e-09,  7.4506e-09],
+        ...,
+        [ 9.3132e-10,  9.3132e-10, -2.4214e-08,  ...,  3.7253e-09,
+          1.8626e-09,  5.5879e-09],
+        [ 8.3819e-09,  7.4506e-09,  9.3132e-10,  ...,  4.6566e-09,
+          2.7940e-09,  9.3132e-10],
+        [-2.7940e-09,  9.3132e-10,  4.6566e-09,  ...,  1.8626e-09,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 340, bias, value: tensor([-0.0393, -0.0391, -0.0140,  0.0006, -0.0010,  0.0129, -0.0001, -0.0086,
+         0.0148, -0.0430], device='cuda:0'), grad: tensor([-5.1223e-08,  3.7253e-09, -3.7253e-09, -2.5146e-08,  1.4249e-07,
+         1.1176e-08,  2.7940e-09, -1.1083e-07,  1.9558e-08,  1.3970e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 339, time 217.54, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4581 re_mapping 0.0032 re_causal 0.0089 /// teacc 99.20 lr 0.00010000
+Epoch 341, weight, value: tensor([[-0.1110,  0.0122,  0.1400,  ...,  0.0057, -0.1129, -0.1033],
+        [-0.2166, -0.2362, -0.2217,  ...,  0.1017,  0.0650,  0.4200],
+        [-0.2426, -0.1718, -0.2305,  ..., -0.2887,  0.0189, -0.2580],
+        ...,
+        [-0.2055, -0.2716, -0.0069,  ..., -0.2605, -0.1308, -0.4297],
+        [ 0.1484,  0.0322, -0.1599,  ..., -0.2532,  0.0401, -0.2369],
+        [ 0.1480,  0.0955, -0.1462,  ...,  0.1168, -0.2497, -0.2924]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  6.5193e-09,  ...,  9.3132e-10,
+          2.7940e-09,  9.3132e-10],
+        [ 0.0000e+00,  2.7940e-09,  1.8626e-09,  ..., -4.6566e-09,
+         -2.7940e-09, -1.5832e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          9.3132e-10,  3.7253e-09],
+        ...,
+        [ 0.0000e+00,  2.7940e-09,  7.4506e-09,  ...,  2.7940e-09,
+          5.5879e-09,  7.4506e-09],
+        [ 9.3132e-10,  1.3970e-08,  1.1176e-08,  ...,  5.5879e-09,
+          2.7940e-09,  1.8626e-09],
+        [-7.4506e-09,  5.3085e-08,  2.2165e-07,  ..., -8.3819e-09,
+          1.0058e-07,  9.3132e-10]], device='cuda:0')
+Epoch 341, bias, value: tensor([-3.8235e-02, -3.9247e-02, -1.3799e-02, -3.3703e-04, -7.1460e-04,
+         1.3432e-02,  1.6923e-05, -8.9485e-03,  1.4767e-02, -4.3258e-02],
+       device='cuda:0'), grad: tensor([ 2.7940e-08, -1.1176e-08, -1.3970e-08,  3.3528e-08, -9.9652e-07,
+        -6.5193e-08,  3.6322e-08,  5.2154e-08,  8.3819e-08,  8.5961e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 340, time 217.58, cls_loss 0.0007 cls_loss_mapping 0.0010 cls_loss_causal 0.4530 re_mapping 0.0032 re_causal 0.0092 /// teacc 99.25 lr 0.00010000
+Epoch 342, weight, value: tensor([[-0.1131,  0.0102,  0.1402,  ...,  0.0046, -0.1133, -0.1036],
+        [-0.2177, -0.2364, -0.2217,  ...,  0.1023,  0.0650,  0.4203],
+        [-0.2441, -0.1727, -0.2312,  ..., -0.2910,  0.0189, -0.2581],
+        ...,
+        [-0.2057, -0.2724, -0.0068,  ..., -0.2609, -0.1315, -0.4309],
+        [ 0.1480,  0.0313, -0.1606,  ..., -0.2542,  0.0403, -0.2374],
+        [ 0.1493,  0.0976, -0.1469,  ...,  0.1180, -0.2505, -0.2941]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.6566e-09,  3.7253e-09,  ...,  1.8626e-09,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ..., -2.0489e-08,
+         -2.1420e-08, -9.3132e-08],
+        [ 2.1420e-08,  1.7695e-08,  0.0000e+00,  ...,  5.5879e-09,
+          2.3283e-08,  3.5390e-08],
+        ...,
+        [ 3.7253e-09,  4.6566e-09,  1.8626e-09,  ...,  7.4506e-09,
+          1.2107e-08,  2.9802e-08],
+        [-3.2596e-08, -3.3528e-08,  6.5193e-09,  ...,  6.5193e-09,
+         -3.2596e-08,  1.2107e-08],
+        [ 9.3132e-10,  9.3132e-10,  9.3132e-10,  ...,  9.3132e-10,
+          9.3132e-10,  3.7253e-09]], device='cuda:0')
+Epoch 342, bias, value: tensor([-0.0400, -0.0392, -0.0138,  0.0011, -0.0008,  0.0120,  0.0002, -0.0092,
+         0.0145, -0.0418], device='cuda:0'), grad: tensor([ 8.1956e-08, -1.6484e-07, -9.3132e-08,  1.2759e-07,  9.3132e-09,
+        -4.4983e-07,  1.8720e-07,  7.0781e-08,  2.0117e-07,  3.6322e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 341, time 217.63, cls_loss 0.0009 cls_loss_mapping 0.0012 cls_loss_causal 0.4509 re_mapping 0.0031 re_causal 0.0090 /// teacc 99.12 lr 0.00010000
+Epoch 343, weight, value: tensor([[-0.1141,  0.0093,  0.1398,  ...,  0.0036, -0.1139, -0.1041],
+        [-0.2182, -0.2366, -0.2219,  ...,  0.1028,  0.0650,  0.4205],
+        [-0.2452, -0.1732, -0.2319,  ..., -0.2923,  0.0188, -0.2582],
+        ...,
+        [-0.2059, -0.2728, -0.0074,  ..., -0.2613, -0.1323, -0.4333],
+        [ 0.1485,  0.0313, -0.1609,  ..., -0.2548,  0.0406, -0.2377],
+        [ 0.1499,  0.0978, -0.1533,  ...,  0.1177, -0.2583, -0.2961]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -9.3132e-10,  5.5879e-09,  ...,  3.7253e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 2.7940e-09,  9.3132e-10,  4.6566e-09,  ...,  4.6566e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 2.7940e-09,  9.3132e-10,  1.8626e-09,  ...,  9.3132e-10,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 3.7253e-09,  9.3132e-10, -4.6566e-09,  ...,  6.5193e-09,
+          9.3132e-10,  0.0000e+00],
+        [-1.3039e-08, -5.5879e-09,  2.7940e-09,  ...,  3.7253e-09,
+         -1.5832e-08,  0.0000e+00],
+        [-1.6764e-08, -5.5879e-09,  2.7940e-09,  ..., -2.8033e-07,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 343, bias, value: tensor([-0.0411, -0.0394, -0.0139,  0.0014,  0.0043,  0.0110,  0.0013, -0.0081,
+         0.0145, -0.0465], device='cuda:0'), grad: tensor([ 2.3283e-08,  5.8673e-08,  4.6566e-08, -1.3970e-08,  9.7696e-07,
+         1.1083e-07, -2.3283e-08, -4.1258e-07, -5.0291e-08, -7.0687e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 342, time 217.77, cls_loss 0.0007 cls_loss_mapping 0.0014 cls_loss_causal 0.4616 re_mapping 0.0033 re_causal 0.0092 /// teacc 99.23 lr 0.00010000
+Epoch 344, weight, value: tensor([[-0.1146,  0.0096,  0.1409,  ...,  0.0038, -0.1143, -0.1046],
+        [-0.2186, -0.2367, -0.2221,  ...,  0.1031,  0.0649,  0.4206],
+        [-0.2459, -0.1734, -0.2329,  ..., -0.2928,  0.0188, -0.2582],
+        ...,
+        [-0.2065, -0.2732, -0.0078,  ..., -0.2622, -0.1331, -0.4347],
+        [ 0.1487,  0.0312, -0.1613,  ..., -0.2556,  0.0408, -0.2384],
+        [ 0.1503,  0.0980, -0.1528,  ...,  0.1202, -0.2590, -0.2969]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 8.3819e-09,  9.3132e-10,  2.7008e-08,  ...,  1.0245e-08,
+          1.4901e-08,  0.0000e+00],
+        [ 9.3132e-10,  5.5879e-09,  1.2107e-08,  ...,  0.0000e+00,
+          8.3819e-09,  0.0000e+00],
+        ...,
+        [ 5.5879e-09,  7.1712e-08, -5.9605e-08,  ...,  2.7940e-09,
+         -3.1665e-08,  0.0000e+00],
+        [-1.8626e-09, -7.2643e-08,  1.0245e-08,  ...,  1.8626e-09,
+          2.7940e-09,  0.0000e+00],
+        [-1.0151e-07,  9.3132e-10,  3.7253e-09,  ..., -1.1269e-07,
+          2.7940e-09,  0.0000e+00]], device='cuda:0')
+Epoch 344, bias, value: tensor([-0.0408, -0.0394, -0.0136,  0.0011,  0.0037,  0.0110,  0.0012, -0.0089,
+         0.0143, -0.0456], device='cuda:0'), grad: tensor([ 8.3819e-09,  2.5425e-07,  1.0710e-07, -9.1270e-07,  4.2841e-07,
+         9.1363e-07,  5.5879e-09, -7.8231e-08, -3.1013e-07, -4.2561e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 343, time 217.74, cls_loss 0.0007 cls_loss_mapping 0.0012 cls_loss_causal 0.4818 re_mapping 0.0032 re_causal 0.0094 /// teacc 99.24 lr 0.00010000
+Epoch 345, weight, value: tensor([[-0.1146,  0.0096,  0.1410,  ...,  0.0037, -0.1145, -0.1046],
+        [-0.2190, -0.2368, -0.2222,  ...,  0.1058,  0.0649,  0.4207],
+        [-0.2462, -0.1735, -0.2333,  ..., -0.2931,  0.0188, -0.2582],
+        ...,
+        [-0.2066, -0.2734, -0.0069,  ..., -0.2652, -0.1334, -0.4358],
+        [ 0.1489,  0.0314, -0.1615,  ..., -0.2560,  0.0409, -0.2386],
+        [ 0.1505,  0.0975, -0.1527,  ...,  0.1213, -0.2608, -0.2976]],
+       device='cuda:0'), grad: tensor([[ 1.3504e-08,  2.7940e-09,  0.0000e+00,  ...,  2.7940e-09,
+          4.6566e-10,  9.3132e-10],
+        [ 8.8476e-09,  2.3283e-09,  4.6566e-10,  ...,  4.6566e-10,
+         -7.9162e-09, -3.9116e-08],
+        [ 6.5193e-09,  1.3970e-09,  0.0000e+00,  ...,  9.3132e-10,
+          1.8626e-09,  8.3819e-09],
+        ...,
+        [ 1.0664e-07,  9.3132e-09,  0.0000e+00,  ...,  1.5367e-08,
+          4.1910e-09,  2.1886e-08],
+        [ 3.2131e-08,  6.0536e-09,  0.0000e+00,  ...,  6.5193e-09,
+         -1.8626e-09,  4.6566e-09],
+        [-5.2107e-07, -2.8871e-08,  9.7789e-09,  ..., -4.3306e-08,
+          7.9162e-09,  9.3132e-10]], device='cuda:0')
+Epoch 345, bias, value: tensor([-0.0410, -0.0416, -0.0136,  0.0012,  0.0040,  0.0109,  0.0014, -0.0077,
+         0.0143, -0.0461], device='cuda:0'), grad: tensor([ 6.5658e-08, -2.0023e-08, -8.2422e-08,  3.1758e-07,  1.1753e-06,
+         1.0524e-07,  3.3993e-08,  6.4727e-07,  1.6810e-07, -2.4028e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 344, time 217.80, cls_loss 0.0005 cls_loss_mapping 0.0008 cls_loss_causal 0.4662 re_mapping 0.0032 re_causal 0.0094 /// teacc 99.24 lr 0.00010000
+Epoch 346, weight, value: tensor([[-0.1149,  0.0096,  0.1409,  ...,  0.0034, -0.1152, -0.1049],
+        [-0.2195, -0.2369, -0.2223,  ...,  0.1064,  0.0650,  0.4209],
+        [-0.2472, -0.1739, -0.2336,  ..., -0.2934,  0.0188, -0.2583],
+        ...,
+        [-0.2070, -0.2742, -0.0070,  ..., -0.2657, -0.1341, -0.4408],
+        [ 0.1500,  0.0318, -0.1617,  ..., -0.2565,  0.0410, -0.2388],
+        [ 0.1506,  0.0976, -0.1528,  ...,  0.1214, -0.2608, -0.3007]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  9.3132e-10, -1.3970e-09,  ..., -9.3132e-10,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  1.3970e-09,  0.0000e+00,  ..., -2.3283e-09,
+          2.3283e-09, -1.1176e-08],
+        [ 0.0000e+00,  3.2596e-09,  0.0000e+00,  ...,  0.0000e+00,
+          7.1386e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  1.8626e-09,
+          1.5832e-08,  6.9849e-09],
+        [ 4.6566e-10,  3.2596e-09,  0.0000e+00,  ...,  4.6566e-10,
+         -7.4878e-07,  1.8626e-09],
+        [ 0.0000e+00,  2.3283e-09,  4.6566e-10,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00]], device='cuda:0')
+Epoch 346, bias, value: tensor([-0.0414, -0.0417, -0.0136,  0.0009,  0.0040,  0.0109,  0.0015, -0.0075,
+         0.0144, -0.0461], device='cuda:0'), grad: tensor([ 1.3970e-09, -4.6566e-10,  1.2806e-06,  1.8114e-06,  7.9162e-09,
+        -1.8626e-06,  6.1467e-08,  5.8208e-08, -1.3635e-06,  1.2573e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 345, time 217.78, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.4860 re_mapping 0.0030 re_causal 0.0092 /// teacc 99.18 lr 0.00010000
+Epoch 347, weight, value: tensor([[-0.1153,  0.0104,  0.1432,  ...,  0.0055, -0.1155, -0.1050],
+        [-0.2198, -0.2370, -0.2224,  ...,  0.1077,  0.0651,  0.4211],
+        [-0.2479, -0.1742, -0.2340,  ..., -0.2940,  0.0188, -0.2583],
+        ...,
+        [-0.2072, -0.2742, -0.0071,  ..., -0.2670, -0.1346, -0.4429],
+        [ 0.1505,  0.0318, -0.1618,  ..., -0.2569,  0.0412, -0.2389],
+        [ 0.1509,  0.0976, -0.1533,  ...,  0.1212, -0.2609, -0.3023]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  1.3970e-09,  1.0850e-07,  ..., -5.5879e-09,
+          1.3970e-09,  0.0000e+00],
+        [ 7.4506e-09,  1.6764e-08,  6.0536e-09,  ..., -2.3283e-09,
+          6.5193e-09, -6.9849e-09],
+        [ 2.5611e-08,  2.0489e-08, -6.6962e-07,  ...,  4.6566e-10,
+          3.1199e-08,  0.0000e+00],
+        ...,
+        [ 2.3283e-09,  1.8626e-09,  5.0757e-07,  ...,  1.3970e-09,
+          2.7940e-09,  2.7940e-09],
+        [-6.8918e-08, -4.6566e-08,  6.0536e-09,  ...,  4.6566e-10,
+         -8.6613e-08,  4.6566e-10],
+        [-1.0710e-08, -2.3283e-09,  1.2573e-08,  ..., -9.3132e-09,
+          1.8626e-09,  9.3132e-10]], device='cuda:0')
+Epoch 347, bias, value: tensor([-0.0403, -0.0417, -0.0135,  0.0005,  0.0039,  0.0110,  0.0017, -0.0076,
+         0.0144, -0.0463], device='cuda:0'), grad: tensor([ 3.8836e-07,  6.8452e-08, -2.1514e-06,  3.0175e-07,  6.1467e-08,
+        -1.7835e-07,  4.4703e-08,  1.6149e-06, -2.3842e-07,  8.6613e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 346, time 217.53, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4501 re_mapping 0.0031 re_causal 0.0094 /// teacc 99.16 lr 0.00010000
+Epoch 348, weight, value: tensor([[-0.1155,  0.0103,  0.1430,  ...,  0.0053, -0.1157, -0.1053],
+        [-0.2200, -0.2371, -0.2231,  ...,  0.1089,  0.0652,  0.4212],
+        [-0.2483, -0.1749, -0.2337,  ..., -0.2949,  0.0187, -0.2583],
+        ...,
+        [-0.2072, -0.2739, -0.0054,  ..., -0.2679, -0.1354, -0.4450],
+        [ 0.1511,  0.0322, -0.1620,  ..., -0.2574,  0.0415, -0.2391],
+        [ 0.1516,  0.0977, -0.1530,  ...,  0.1217, -0.2610, -0.3044]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-09,  7.9162e-09,  9.3132e-10,  ...,  6.9849e-09,
+          9.7789e-09,  0.0000e+00],
+        [ 1.1176e-08,  9.7789e-09,  4.6566e-10,  ...,  1.9092e-08,
+          9.7789e-09, -5.1223e-09],
+        [ 1.5832e-08,  1.3970e-08,  4.6566e-10,  ...,  1.1642e-08,
+          1.6298e-08,  1.8626e-09],
+        ...,
+        [ 1.1176e-08,  9.7789e-09,  0.0000e+00,  ..., -5.1223e-09,
+          1.2107e-08,  3.2596e-09],
+        [ 1.2387e-07,  1.0710e-07,  1.3970e-09,  ...,  8.2888e-08,
+          1.2340e-07,  4.6566e-10],
+        [ 1.7229e-08,  1.4901e-08,  0.0000e+00,  ...,  1.1176e-08,
+          1.6764e-08,  0.0000e+00]], device='cuda:0')
+Epoch 348, bias, value: tensor([-0.0407, -0.0417, -0.0136,  0.0002,  0.0036,  0.0111,  0.0017, -0.0075,
+         0.0146, -0.0461], device='cuda:0'), grad: tensor([ 3.6787e-08,  2.3283e-07,  7.1246e-08, -1.5423e-06,  2.0023e-08,
+         8.5821e-07, -1.5367e-08, -1.9977e-07,  4.4890e-07,  8.8010e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 347, time 217.44, cls_loss 0.0005 cls_loss_mapping 0.0009 cls_loss_causal 0.4232 re_mapping 0.0031 re_causal 0.0090 /// teacc 99.19 lr 0.00010000
+Epoch 349, weight, value: tensor([[-0.1157,  0.0102,  0.1430,  ...,  0.0052, -0.1161, -0.1054],
+        [-0.2201, -0.2372, -0.2232,  ...,  0.1089,  0.0653,  0.4214],
+        [-0.2489, -0.1752, -0.2349,  ..., -0.2955,  0.0186, -0.2584],
+        ...,
+        [-0.2074, -0.2733, -0.0052,  ..., -0.2679, -0.1361, -0.4467],
+        [ 0.1507,  0.0322, -0.1629,  ..., -0.2588,  0.0414, -0.2391],
+        [ 0.1519,  0.0979, -0.1534,  ...,  0.1218, -0.2611, -0.3047]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  1.3970e-09,  3.7253e-08,  ...,  2.0955e-08,
+          8.3819e-09,  0.0000e+00],
+        [ 4.6566e-10,  1.3970e-09,  9.7789e-09,  ...,  2.7940e-09,
+          1.3970e-09, -7.9162e-09],
+        [ 3.7253e-09,  7.4506e-09,  9.3132e-09,  ...,  5.1223e-09,
+          1.0245e-08,  5.1223e-09],
+        ...,
+        [ 9.3132e-10,  2.3283e-09,  1.0710e-08,  ...,  9.3132e-10,
+          6.0536e-09,  1.8626e-09],
+        [-8.3819e-09, -1.6298e-08,  1.0803e-07,  ...,  1.7649e-07,
+         -4.1910e-09,  0.0000e+00],
+        [ 1.1642e-08,  6.1002e-08,  1.7136e-07,  ...,  9.3132e-10,
+          1.3504e-08,  4.6566e-10]], device='cuda:0')
+Epoch 349, bias, value: tensor([-0.0409, -0.0417, -0.0138,  0.0002,  0.0038,  0.0108,  0.0022, -0.0075,
+         0.0145, -0.0464], device='cuda:0'), grad: tensor([ 1.2387e-07,  3.0734e-08,  8.8476e-08,  1.5367e-08, -8.4657e-07,
+         5.7137e-07, -1.1874e-06, -7.4971e-08,  5.5926e-07,  7.4506e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 348, time 217.73, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4787 re_mapping 0.0029 re_causal 0.0092 /// teacc 99.24 lr 0.00010000
+Epoch 350, weight, value: tensor([[-0.1156,  0.0118,  0.1446,  ...,  0.0062, -0.1164, -0.1055],
+        [-0.2212, -0.2373, -0.2232,  ...,  0.1097,  0.0654,  0.4217],
+        [-0.2497, -0.1754, -0.2357,  ..., -0.2962,  0.0185, -0.2585],
+        ...,
+        [-0.2078, -0.2739, -0.0053,  ..., -0.2689, -0.1372, -0.4501],
+        [ 0.1506,  0.0319, -0.1633,  ..., -0.2596,  0.0414, -0.2392],
+        [ 0.1521,  0.0977, -0.1541,  ...,  0.1218, -0.2612, -0.3053]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -4.6566e-10, -2.3283e-09],
+        [ 4.6566e-10,  2.7940e-09,  0.0000e+00,  ...,  4.6566e-10,
+          4.6566e-10,  4.6566e-10],
+        ...,
+        [ 3.7253e-09, -1.3970e-09,  0.0000e+00,  ...,  2.3283e-09,
+          9.3132e-10,  2.3283e-09],
+        [ 1.3970e-09,  9.3132e-09,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [-2.5146e-08, -1.9092e-08, -3.7253e-09,  ..., -2.4680e-08,
+          4.6566e-10,  4.6566e-10]], device='cuda:0')
+Epoch 350, bias, value: tensor([-0.0394, -0.0417, -0.0139,  0.0002,  0.0039,  0.0107,  0.0027, -0.0075,
+         0.0143, -0.0466], device='cuda:0'), grad: tensor([ 5.1223e-09,  1.3039e-08,  1.4435e-08,  6.7055e-08,  9.7789e-08,
+        -2.6217e-07,  1.5646e-07, -3.4459e-08,  3.0734e-08, -7.8697e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 349, time 217.69, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4587 re_mapping 0.0030 re_causal 0.0088 /// teacc 99.15 lr 0.00010000
+Epoch 351, weight, value: tensor([[-0.1157,  0.0120,  0.1449,  ...,  0.0062, -0.1170, -0.1060],
+        [-0.2217, -0.2376, -0.2233,  ...,  0.1106,  0.0657,  0.4219],
+        [-0.2505, -0.1759, -0.2372,  ..., -0.2993,  0.0183, -0.2585],
+        ...,
+        [-0.2074, -0.2719, -0.0054,  ..., -0.2695, -0.1387, -0.4525],
+        [ 0.1504,  0.0306, -0.1636,  ..., -0.2602,  0.0414, -0.2396],
+        [ 0.1522,  0.0977, -0.1542,  ...,  0.1221, -0.2614, -0.3059]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  7.9162e-09, -6.9849e-09,  ...,  4.1910e-09,
+          8.3819e-09,  0.0000e+00],
+        [ 9.3132e-10,  1.8626e-09,  1.3970e-09,  ...,  4.6566e-10,
+          4.6566e-10, -5.1223e-09],
+        [ 9.3132e-10,  1.3970e-09,  9.3132e-10,  ...,  1.3970e-09,
+          9.3132e-10,  9.3132e-10],
+        ...,
+        [ 2.3283e-09,  2.7940e-09, -4.6566e-10,  ...,  4.1910e-09,
+          1.3970e-09,  4.1910e-09],
+        [ 4.1910e-09,  6.5193e-09,  0.0000e+00,  ...,  6.0536e-09,
+          5.1223e-09,  4.6566e-10],
+        [ 4.6566e-10,  9.3132e-10,  3.2596e-09,  ...,  9.3132e-10,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 351, bias, value: tensor([-0.0394, -0.0416, -0.0141, -0.0010,  0.0039,  0.0119,  0.0020, -0.0075,
+         0.0138, -0.0468], device='cuda:0'), grad: tensor([ 1.7695e-08,  1.6298e-08, -1.3970e-08, -1.0943e-07,  1.8626e-09,
+         2.8871e-08,  1.0710e-08,  1.2573e-08,  3.1199e-08,  1.1176e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 350, time 217.69, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4323 re_mapping 0.0030 re_causal 0.0088 /// teacc 99.09 lr 0.00010000
+Epoch 352, weight, value: tensor([[-0.1158,  0.0120,  0.1450,  ...,  0.0062, -0.1175, -0.1067],
+        [-0.2234, -0.2378, -0.2233,  ...,  0.1121,  0.0661,  0.4224],
+        [-0.2513, -0.1763, -0.2377,  ..., -0.3016,  0.0182, -0.2587],
+        ...,
+        [-0.2106, -0.2745, -0.0055,  ..., -0.2723, -0.1406, -0.4579],
+        [ 0.1509,  0.0304, -0.1637,  ..., -0.2606,  0.0415, -0.2400],
+        [ 0.1536,  0.0982, -0.1543,  ...,  0.1229, -0.2614, -0.3062]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00, -3.2596e-09,  ..., -4.6566e-09,
+         -1.8626e-09, -1.6298e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-09,  ...,  3.7253e-09,
+          1.3970e-09,  1.3039e-08],
+        [-3.2596e-09, -4.1910e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.8626e-09,  4.6566e-10],
+        [ 1.3970e-09,  2.3283e-09,  4.6566e-10,  ...,  4.6566e-10,
+          4.6566e-10,  1.3970e-09]], device='cuda:0')
+Epoch 352, bias, value: tensor([-0.0396, -0.0418, -0.0143, -0.0011,  0.0040,  0.0121,  0.0018, -0.0073,
+         0.0136, -0.0464], device='cuda:0'), grad: tensor([ 3.2596e-09, -2.8405e-08, -2.7008e-08,  6.5193e-09,  1.8626e-09,
+        -3.7253e-09,  8.8476e-09,  2.7474e-08,  9.7789e-09,  7.9162e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 351, time 217.56, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4686 re_mapping 0.0029 re_causal 0.0090 /// teacc 99.14 lr 0.00010000
+Epoch 353, weight, value: tensor([[-0.1160,  0.0122,  0.1455,  ...,  0.0063, -0.1180, -0.1069],
+        [-0.2257, -0.2380, -0.2231,  ...,  0.1125,  0.0662,  0.4226],
+        [-0.2528, -0.1767, -0.2385,  ..., -0.3019,  0.0182, -0.2587],
+        ...,
+        [-0.2115, -0.2750, -0.0059,  ..., -0.2735, -0.1416, -0.4592],
+        [ 0.1507,  0.0301, -0.1638,  ..., -0.2613,  0.0415, -0.2402],
+        [ 0.1544,  0.0985, -0.1544,  ...,  0.1235, -0.2615, -0.3070]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 4.6566e-10,  4.6566e-10,  4.6566e-10,  ..., -5.2154e-08,
+         -9.7789e-09, -1.9092e-08],
+        [ 9.3132e-10,  9.3132e-10,  4.6566e-10,  ...,  9.3132e-10,
+         -4.1444e-08,  1.8626e-09],
+        ...,
+        [ 4.6566e-10,  4.6566e-10,  4.6566e-10,  ...,  5.3551e-08,
+          5.4482e-08,  1.7229e-08],
+        [-6.0536e-09, -4.1910e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.7695e-08,  4.6566e-10],
+        [ 0.0000e+00,  4.6566e-10,  2.3283e-09,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 353, bias, value: tensor([-0.0395, -0.0420, -0.0141, -0.0005,  0.0039,  0.0120,  0.0016, -0.0072,
+         0.0134, -0.0461], device='cuda:0'), grad: tensor([ 2.7940e-09, -1.0151e-07, -2.0862e-07,  7.4506e-09, -1.0245e-08,
+         2.6543e-08,  1.0710e-08,  3.0734e-07, -4.2375e-08,  1.4901e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 352, time 217.35, cls_loss 0.0006 cls_loss_mapping 0.0013 cls_loss_causal 0.4500 re_mapping 0.0031 re_causal 0.0089 /// teacc 99.20 lr 0.00010000
+Epoch 354, weight, value: tensor([[-0.1159,  0.0132,  0.1472,  ...,  0.0071, -0.1184, -0.1072],
+        [-0.2259, -0.2395, -0.2231,  ...,  0.1120,  0.0662,  0.4227],
+        [-0.2541, -0.1774, -0.2389,  ..., -0.3024,  0.0182, -0.2587],
+        ...,
+        [-0.2116, -0.2737, -0.0060,  ..., -0.2731, -0.1422, -0.4605],
+        [ 0.1509,  0.0303, -0.1639,  ..., -0.2615,  0.0417, -0.2402],
+        [ 0.1545,  0.0985, -0.1546,  ...,  0.1235, -0.2617, -0.3077]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -5.5879e-09, -4.6566e-09,  ..., -2.7940e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 9.3132e-10,  3.7253e-09,  2.7940e-09,  ...,  2.7940e-09,
+          1.8626e-09, -1.8626e-09],
+        [ 0.0000e+00,  9.3132e-10,  1.8626e-09,  ...,  1.8626e-09,
+          2.7940e-09,  9.3132e-10],
+        ...,
+        [ 5.5879e-09,  1.1176e-08,  0.0000e+00,  ...,  8.3819e-09,
+          4.6566e-09,  2.7940e-09],
+        [ 3.7253e-09,  9.3132e-09,  1.8626e-08,  ...,  1.6764e-08,
+          1.5832e-08,  0.0000e+00],
+        [-7.0781e-08, -1.4342e-07,  2.7940e-09,  ..., -8.8476e-08,
+         -5.1223e-08,  0.0000e+00]], device='cuda:0')
+Epoch 354, bias, value: tensor([-0.0384, -0.0423, -0.0140, -0.0006,  0.0039,  0.0120,  0.0013, -0.0068,
+         0.0134, -0.0462], device='cuda:0'), grad: tensor([-7.4506e-09,  1.7695e-08,  1.9558e-08,  4.3772e-08,  2.5053e-07,
+         6.9849e-08, -1.5274e-07, -1.2480e-07,  9.7789e-08, -2.1234e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 353, time 217.92, cls_loss 0.0005 cls_loss_mapping 0.0009 cls_loss_causal 0.4550 re_mapping 0.0031 re_causal 0.0091 /// teacc 99.19 lr 0.00010000
+Epoch 355, weight, value: tensor([[-0.1161,  0.0132,  0.1466,  ...,  0.0060, -0.1202, -0.1082],
+        [-0.2263, -0.2398, -0.2236,  ...,  0.1122,  0.0664,  0.4230],
+        [-0.2551, -0.1783, -0.2410,  ..., -0.3035,  0.0180, -0.2588],
+        ...,
+        [-0.2118, -0.2740, -0.0060,  ..., -0.2736, -0.1430, -0.4622],
+        [ 0.1512,  0.0307, -0.1639,  ..., -0.2624,  0.0421, -0.2405],
+        [ 0.1550,  0.0989, -0.1549,  ...,  0.1237, -0.2618, -0.3091]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-09,
+          9.3132e-09,  9.3132e-09],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ..., -2.1607e-07,
+         -2.1979e-07, -2.1420e-07],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  8.6613e-08,
+          8.8476e-08,  8.5682e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.0524e-07,
+          1.0803e-07,  1.0617e-07],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+          1.8626e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          9.3132e-10,  9.3132e-10]], device='cuda:0')
+Epoch 355, bias, value: tensor([-0.0394, -0.0424, -0.0141, -0.0008,  0.0038,  0.0118,  0.0020, -0.0068,
+         0.0136, -0.0462], device='cuda:0'), grad: tensor([ 6.7055e-08, -6.6590e-07, -3.5763e-06,  3.7253e-08,  9.3132e-09,
+         2.8964e-07,  1.9558e-08,  3.7104e-06,  8.0094e-08,  2.2352e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 354, time 217.67, cls_loss 0.0005 cls_loss_mapping 0.0015 cls_loss_causal 0.4712 re_mapping 0.0030 re_causal 0.0091 /// teacc 99.13 lr 0.00010000
+Epoch 356, weight, value: tensor([[-0.1161,  0.0140,  0.1472,  ...,  0.0063, -0.1207, -0.1089],
+        [-0.2273, -0.2401, -0.2237,  ...,  0.1126,  0.0665,  0.4233],
+        [-0.2558, -0.1789, -0.2418,  ..., -0.3051,  0.0179, -0.2589],
+        ...,
+        [-0.2119, -0.2742, -0.0059,  ..., -0.2738, -0.1439, -0.4642],
+        [ 0.1521,  0.0316, -0.1639,  ..., -0.2626,  0.0425, -0.2406],
+        [ 0.1553,  0.0989, -0.1551,  ...,  0.1240, -0.2618, -0.3100]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  2.7940e-09],
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [-1.9558e-08, -2.4214e-08,  0.0000e+00,  ..., -3.2596e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 356, bias, value: tensor([-0.0392, -0.0423, -0.0142, -0.0005,  0.0037,  0.0114,  0.0022, -0.0068,
+         0.0138, -0.0462], device='cuda:0'), grad: tensor([ 6.5193e-09,  1.2200e-07, -2.0489e-07, -2.7940e-09,  2.3283e-08,
+         5.9605e-08,  2.7940e-09,  3.8184e-08,  1.7695e-08, -5.4948e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 355, time 217.68, cls_loss 0.0005 cls_loss_mapping 0.0010 cls_loss_causal 0.4321 re_mapping 0.0031 re_causal 0.0090 /// teacc 99.17 lr 0.00010000
+Epoch 357, weight, value: tensor([[-0.1164,  0.0143,  0.1474,  ...,  0.0063, -0.1211, -0.1091],
+        [-0.2276, -0.2403, -0.2237,  ...,  0.1138,  0.0670,  0.4238],
+        [-0.2569, -0.1794, -0.2420,  ..., -0.3056,  0.0179, -0.2589],
+        ...,
+        [-0.2119, -0.2751, -0.0059,  ..., -0.2749, -0.1474, -0.4680],
+        [ 0.1526,  0.0322, -0.1639,  ..., -0.2631,  0.0428, -0.2411],
+        [ 0.1558,  0.0996, -0.1552,  ...,  0.1244, -0.2618, -0.3118]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  3.0734e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ..., -5.5879e-09,
+         -5.5879e-09, -8.3819e-09],
+        [ 2.7940e-09,  9.3132e-10, -1.3690e-07,  ...,  2.7940e-09,
+          9.3132e-09,  9.3132e-10],
+        ...,
+        [ 9.3132e-10,  1.8626e-09,  9.1270e-08,  ...,  3.7253e-09,
+          2.7940e-09,  6.5193e-09],
+        [-9.3132e-10,  9.3132e-10,  7.4506e-09,  ...,  9.3132e-10,
+         -4.6566e-09,  0.0000e+00],
+        [-7.3574e-08, -1.7043e-07,  9.3132e-10,  ..., -1.1176e-08,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 357, bias, value: tensor([-0.0398, -0.0425, -0.0140, -0.0004,  0.0035,  0.0112,  0.0021, -0.0066,
+         0.0139, -0.0462], device='cuda:0'), grad: tensor([ 1.6578e-07, -6.5193e-09, -7.0315e-07, -9.3132e-10,  6.7987e-08,
+         4.6566e-07, -8.3819e-09,  4.9174e-07,  2.2352e-08, -5.0571e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 356, time 217.80, cls_loss 0.0005 cls_loss_mapping 0.0009 cls_loss_causal 0.4465 re_mapping 0.0033 re_causal 0.0095 /// teacc 99.19 lr 0.00010000
+Epoch 358, weight, value: tensor([[-0.1173,  0.0131,  0.1470,  ...,  0.0055, -0.1237, -0.1119],
+        [-0.2279, -0.2404, -0.2236,  ...,  0.1145,  0.0672,  0.4240],
+        [-0.2581, -0.1800, -0.2419,  ..., -0.3059,  0.0178, -0.2589],
+        ...,
+        [-0.2121, -0.2755, -0.0080,  ..., -0.2754, -0.1488, -0.4698],
+        [ 0.1527,  0.0321, -0.1641,  ..., -0.2639,  0.0430, -0.2413],
+        [ 0.1564,  0.1001, -0.1556,  ...,  0.1247, -0.2620, -0.3132]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  1.8626e-09,  0.0000e+00,  ..., -9.3132e-10,
+         -9.3132e-10, -1.8626e-09],
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          9.3132e-10,  3.7253e-09],
+        [-1.1455e-07, -1.4342e-07,  0.0000e+00,  ...,  0.0000e+00,
+         -2.4214e-08,  9.3132e-10],
+        [ 1.0245e-07,  1.2852e-07,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-08,  2.7940e-09]], device='cuda:0')
+Epoch 358, bias, value: tensor([-0.0409, -0.0424, -0.0140, -0.0004,  0.0036,  0.0113,  0.0019, -0.0067,
+         0.0140, -0.0462], device='cuda:0'), grad: tensor([ 1.8626e-09,  1.5832e-08,  2.3283e-08,  1.3039e-08,  3.9116e-08,
+         2.7008e-08,  6.5193e-09, -8.8476e-08, -5.3085e-07,  4.9919e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 357, time 217.53, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4483 re_mapping 0.0030 re_causal 0.0088 /// teacc 99.14 lr 0.00010000
+Epoch 359, weight, value: tensor([[-0.1175,  0.0130,  0.1473,  ...,  0.0050, -0.1242, -0.1120],
+        [-0.2283, -0.2405, -0.2237,  ...,  0.1147,  0.0673,  0.4242],
+        [-0.2586, -0.1792, -0.2429,  ..., -0.3061,  0.0176, -0.2590],
+        ...,
+        [-0.2126, -0.2768, -0.0099,  ..., -0.2759, -0.1497, -0.4707],
+        [ 0.1532,  0.0324, -0.1642,  ..., -0.2642,  0.0437, -0.2414],
+        [ 0.1566,  0.1002, -0.1557,  ...,  0.1249, -0.2622, -0.3140]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  1.8626e-09,  1.8626e-09,  ..., -8.3819e-09,
+         -4.6566e-09, -6.5193e-09],
+        [ 4.6566e-09,  1.4901e-08,  0.0000e+00,  ...,  9.3132e-10,
+          5.5879e-09,  1.8626e-09],
+        ...,
+        [ 1.3970e-08,  4.2841e-08,  1.8626e-09,  ...,  4.6566e-09,
+          2.0489e-08,  4.6566e-09],
+        [-9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  7.7300e-08,  ...,  0.0000e+00,
+          3.7253e-08,  9.3132e-10]], device='cuda:0')
+Epoch 359, bias, value: tensor([-0.0413, -0.0427, -0.0142, -0.0003,  0.0038,  0.0112,  0.0019, -0.0064,
+         0.0142, -0.0463], device='cuda:0'), grad: tensor([ 5.5879e-09, -1.3970e-08,  3.6322e-08, -1.7229e-07, -5.1130e-07,
+         3.9116e-08,  1.0245e-08,  1.2852e-07,  4.6566e-09,  4.7963e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 358, time 218.09, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4631 re_mapping 0.0031 re_causal 0.0092 /// teacc 99.07 lr 0.00010000
+Epoch 360, weight, value: tensor([[-0.1175,  0.0134,  0.1476,  ...,  0.0050, -0.1245, -0.1125],
+        [-0.2284, -0.2406, -0.2238,  ...,  0.1185,  0.0675,  0.4245],
+        [-0.2587, -0.1786, -0.2433,  ..., -0.3067,  0.0177, -0.2590],
+        ...,
+        [-0.2127, -0.2770, -0.0105,  ..., -0.2794, -0.1506, -0.4726],
+        [ 0.1534,  0.0325, -0.1642,  ..., -0.2650,  0.0437, -0.2420],
+        [ 0.1566,  0.1001, -0.1561,  ...,  0.1247, -0.2623, -0.3155]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        ...,
+        [ 1.0245e-08,  7.4506e-09,  0.0000e+00,  ...,  6.5193e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -7.4506e-09,  0.0000e+00],
+        [-2.6077e-08, -1.8626e-08,  0.0000e+00,  ..., -2.1420e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 360, bias, value: tensor([-0.0415, -0.0417, -0.0136, -0.0010,  0.0041,  0.0111,  0.0020, -0.0074,
+         0.0140, -0.0467], device='cuda:0'), grad: tensor([ 1.8626e-09,  8.3819e-08,  1.3970e-08,  1.3039e-08,  5.4948e-08,
+         2.7940e-09, -1.8626e-09, -4.0978e-08, -4.0047e-08, -8.1025e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 359, time 217.99, cls_loss 0.0005 cls_loss_mapping 0.0015 cls_loss_causal 0.4506 re_mapping 0.0030 re_causal 0.0089 /// teacc 99.14 lr 0.00010000
+Epoch 361, weight, value: tensor([[-0.1177,  0.0136,  0.1477,  ...,  0.0050, -0.1246, -0.1125],
+        [-0.2287, -0.2407, -0.2239,  ...,  0.1189,  0.0676,  0.4247],
+        [-0.2594, -0.1784, -0.2438,  ..., -0.3071,  0.0178, -0.2591],
+        ...,
+        [-0.2131, -0.2776, -0.0107,  ..., -0.2799, -0.1514, -0.4731],
+        [ 0.1534,  0.0318, -0.1647,  ..., -0.2668,  0.0437, -0.2421],
+        [ 0.1570,  0.1004, -0.1562,  ...,  0.1251, -0.2624, -0.3157]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -1.7695e-08, -2.7940e-08,  ..., -1.9558e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  1.8626e-09,  9.3132e-10,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -3.3528e-08,  2.7940e-09,  ...,  1.8626e-09,
+         -4.6566e-09,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  4.6566e-09,  2.7940e-09,  ...,  3.7253e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 6.5193e-09,  1.1176e-08,  6.5193e-09,  ...,  6.5193e-09,
+          0.0000e+00,  0.0000e+00],
+        [-3.1665e-08, -1.3970e-08,  6.5193e-09,  ..., -1.3970e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 361, bias, value: tensor([-0.0416, -0.0416, -0.0126, -0.0020,  0.0041,  0.0113,  0.0027, -0.0077,
+         0.0136, -0.0465], device='cuda:0'), grad: tensor([-8.2888e-08,  9.3132e-09, -1.5181e-07,  1.4342e-07,  6.7987e-08,
+         1.0245e-08,  2.0489e-08,  2.3283e-08,  5.3085e-08, -7.3574e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 360, time 217.60, cls_loss 0.0005 cls_loss_mapping 0.0010 cls_loss_causal 0.4335 re_mapping 0.0030 re_causal 0.0087 /// teacc 99.11 lr 0.00010000
+Epoch 362, weight, value: tensor([[-0.1178,  0.0138,  0.1476,  ...,  0.0049, -0.1248, -0.1126],
+        [-0.2291, -0.2409, -0.2240,  ...,  0.1189,  0.0676,  0.4248],
+        [-0.2601, -0.1789, -0.2442,  ..., -0.3073,  0.0178, -0.2591],
+        ...,
+        [-0.2132, -0.2777, -0.0108,  ..., -0.2800, -0.1514, -0.4736],
+        [ 0.1539,  0.0320, -0.1650,  ..., -0.2676,  0.0438, -0.2422],
+        [ 0.1571,  0.1004, -0.1563,  ...,  0.1252, -0.2624, -0.3159]],
+       device='cuda:0'), grad: tensor([[1.8626e-09, 2.7940e-08, 0.0000e+00,  ..., 0.0000e+00, 2.7940e-09,
+         0.0000e+00],
+        [6.5193e-09, 1.0245e-08, 0.0000e+00,  ..., 4.6566e-09, 1.0245e-08,
+         0.0000e+00],
+        [9.3132e-09, 1.4901e-08, 0.0000e+00,  ..., 1.8626e-09, 1.0245e-08,
+         0.0000e+00],
+        ...,
+        [5.5879e-09, 1.5832e-08, 0.0000e+00,  ..., 2.7940e-09, 4.6566e-09,
+         0.0000e+00],
+        [2.7940e-09, 4.7497e-08, 0.0000e+00,  ..., 1.8626e-09, 3.7253e-09,
+         0.0000e+00],
+        [8.3819e-09, 2.1420e-08, 3.2596e-08,  ..., 9.3132e-10, 6.0536e-08,
+         0.0000e+00]], device='cuda:0')
+Epoch 362, bias, value: tensor([-0.0419, -0.0416, -0.0128, -0.0022,  0.0040,  0.0111,  0.0033, -0.0077,
+         0.0136, -0.0466], device='cuda:0'), grad: tensor([ 1.3132e-07,  5.7742e-08,  2.7008e-08, -7.4506e-09, -1.8626e-07,
+        -8.9593e-07,  3.5204e-07,  7.4506e-08,  1.9465e-07,  2.5611e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 361, time 217.67, cls_loss 0.0005 cls_loss_mapping 0.0010 cls_loss_causal 0.4662 re_mapping 0.0031 re_causal 0.0091 /// teacc 99.13 lr 0.00010000
+Epoch 363, weight, value: tensor([[-0.1180,  0.0137,  0.1479,  ...,  0.0048, -0.1251, -0.1122],
+        [-0.2296, -0.2411, -0.2242,  ...,  0.1190,  0.0676,  0.4249],
+        [-0.2615, -0.1797, -0.2443,  ..., -0.3076,  0.0177, -0.2591],
+        ...,
+        [-0.2135, -0.2784, -0.0109,  ..., -0.2801, -0.1518, -0.4745],
+        [ 0.1541,  0.0320, -0.1656,  ..., -0.2691,  0.0440, -0.2424],
+        [ 0.1573,  0.0995, -0.1571,  ...,  0.1253, -0.2626, -0.3162]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -3.7253e-09,
+         -6.5193e-09, -1.3039e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  3.7253e-09],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          9.3132e-10,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          3.7253e-09,  5.5879e-09],
+        [-4.6566e-09, -3.7253e-09,  9.3132e-10,  ..., -6.5193e-09,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 363, bias, value: tensor([-0.0422, -0.0416, -0.0127, -0.0035,  0.0044,  0.0118,  0.0039, -0.0077,
+         0.0134, -0.0470], device='cuda:0'), grad: tensor([ 9.3132e-10, -1.8626e-09, -2.7940e-09,  4.6566e-09,  2.3283e-08,
+        -3.7253e-09,  2.7940e-09, -1.7695e-08,  1.8626e-08, -1.3039e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 362, time 217.84, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4789 re_mapping 0.0028 re_causal 0.0085 /// teacc 99.15 lr 0.00010000
+Epoch 364, weight, value: tensor([[-0.1178,  0.0151,  0.1494,  ...,  0.0063, -0.1255, -0.1125],
+        [-0.2307, -0.2414, -0.2243,  ...,  0.1190,  0.0676,  0.4251],
+        [-0.2635, -0.1806, -0.2450,  ..., -0.3082,  0.0177, -0.2592],
+        ...,
+        [-0.2138, -0.2793, -0.0108,  ..., -0.2801, -0.1524, -0.4751],
+        [ 0.1572,  0.0349, -0.1662,  ..., -0.2730,  0.0457, -0.2429],
+        [ 0.1574,  0.0993, -0.1573,  ...,  0.1253, -0.2628, -0.3167]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09, -1.5832e-08, -3.3528e-08,  ..., -1.9558e-08,
+          1.8626e-09,  0.0000e+00],
+        [ 6.5193e-09,  1.5832e-08,  4.6566e-09,  ...,  2.7940e-09,
+          2.7940e-09, -4.6566e-09],
+        [ 1.0245e-08,  2.4214e-08,  4.6566e-09,  ...,  5.5879e-09,
+          7.4506e-09,  9.3132e-10],
+        ...,
+        [ 3.7253e-09,  7.4506e-09,  9.3132e-10,  ...,  2.7940e-09,
+          2.7940e-09,  1.8626e-09],
+        [ 2.7940e-09,  7.4506e-09,  1.8626e-09,  ...,  9.3132e-10,
+          1.8626e-09,  0.0000e+00],
+        [ 2.0489e-08,  4.5635e-08,  7.4506e-09,  ...,  6.5193e-09,
+          1.5832e-08,  9.3132e-10]], device='cuda:0')
+Epoch 364, bias, value: tensor([-0.0412, -0.0416, -0.0127, -0.0027,  0.0045,  0.0106,  0.0046, -0.0077,
+         0.0135, -0.0472], device='cuda:0'), grad: tensor([-5.1223e-08,  3.3341e-07, -4.6566e-09, -3.1702e-06,  3.1665e-08,
+         2.9318e-06,  2.8871e-08, -3.0361e-07,  4.4703e-08,  1.6484e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 363, time 217.34, cls_loss 0.0005 cls_loss_mapping 0.0009 cls_loss_causal 0.4275 re_mapping 0.0030 re_causal 0.0083 /// teacc 99.17 lr 0.00010000
+Epoch 365, weight, value: tensor([[-0.1178,  0.0162,  0.1505,  ...,  0.0068, -0.1261, -0.1127],
+        [-0.2336, -0.2438, -0.2244,  ...,  0.1189,  0.0674,  0.4255],
+        [-0.2659, -0.1818, -0.2454,  ..., -0.3091,  0.0178, -0.2593],
+        ...,
+        [-0.2143, -0.2803, -0.0109,  ..., -0.2803, -0.1543, -0.4767],
+        [ 0.1577,  0.0353, -0.1665,  ..., -0.2730,  0.0463, -0.2431],
+        [ 0.1574,  0.0990, -0.1576,  ...,  0.1252, -0.2632, -0.3173]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.8626e-09,
+         -1.8626e-09, -4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          9.3132e-10,  2.7940e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          1.8626e-09,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  9.3132e-10,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 365, bias, value: tensor([-0.0403, -0.0417, -0.0127,  0.0013,  0.0045,  0.0091,  0.0042, -0.0077,
+         0.0139, -0.0475], device='cuda:0'), grad: tensor([ 2.7940e-09, -4.6566e-09,  4.6566e-09,  5.5879e-09, -9.3132e-09,
+        -6.5193e-09,  0.0000e+00,  7.4506e-09,  2.7940e-09,  8.3819e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 364, time 217.58, cls_loss 0.0005 cls_loss_mapping 0.0010 cls_loss_causal 0.4443 re_mapping 0.0030 re_causal 0.0088 /// teacc 99.18 lr 0.00010000
+Epoch 366, weight, value: tensor([[-0.1180,  0.0157,  0.1505,  ...,  0.0061, -0.1270, -0.1129],
+        [-0.2343, -0.2442, -0.2245,  ...,  0.1189,  0.0675,  0.4258],
+        [-0.2666, -0.1822, -0.2461,  ..., -0.3102,  0.0177, -0.2594],
+        ...,
+        [-0.2146, -0.2807, -0.0110,  ..., -0.2803, -0.1549, -0.4775],
+        [ 0.1579,  0.0354, -0.1665,  ..., -0.2731,  0.0463, -0.2441],
+        [ 0.1565,  0.0979, -0.1595,  ...,  0.1249, -0.2649, -0.3178]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  1.8626e-09,  0.0000e+00,  ..., -9.3132e-10,
+         -3.7253e-09, -1.3039e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  1.8626e-09],
+        ...,
+        [ 1.8626e-09,  2.7940e-09,  0.0000e+00,  ...,  2.7940e-09,
+          9.3132e-10,  1.8626e-09],
+        [ 4.6566e-09,  5.5879e-09,  0.0000e+00,  ...,  5.5879e-09,
+          9.3132e-10,  5.5879e-09],
+        [-1.3411e-07, -1.6112e-07,  0.0000e+00,  ..., -1.3784e-07,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 366, bias, value: tensor([-0.0409, -0.0417, -0.0128,  0.0015,  0.0053,  0.0094,  0.0041, -0.0077,
+         0.0140, -0.0483], device='cuda:0'), grad: tensor([ 2.7940e-09, -1.4901e-08,  4.6566e-09,  2.6543e-07,  1.0245e-08,
+         1.1921e-07,  4.6566e-09,  1.1176e-08,  2.2352e-08, -4.2003e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 365, time 217.53, cls_loss 0.0006 cls_loss_mapping 0.0015 cls_loss_causal 0.4895 re_mapping 0.0027 re_causal 0.0085 /// teacc 99.07 lr 0.00010000
+Epoch 367, weight, value: tensor([[-0.1198,  0.0167,  0.1511,  ...,  0.0059, -0.1281, -0.1135],
+        [-0.2348, -0.2445, -0.2247,  ...,  0.1192,  0.0679,  0.4266],
+        [-0.2703, -0.1842, -0.2474,  ..., -0.3116,  0.0171, -0.2596],
+        ...,
+        [-0.2153, -0.2812, -0.0112,  ..., -0.2807, -0.1563, -0.4811],
+        [ 0.1582,  0.0354, -0.1666,  ..., -0.2733,  0.0470, -0.2452],
+        [ 0.1578,  0.0986, -0.1600,  ...,  0.1259, -0.2654, -0.3186]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  9.3132e-10, -3.7253e-09,  ...,  4.6566e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 5.1223e-08,  1.8626e-09,  6.5193e-09,  ...,  2.7940e-09,
+          7.5437e-08,  0.0000e+00],
+        [ 5.5879e-09,  1.8626e-09,  1.8626e-09,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          9.3132e-10,  9.3132e-10],
+        [-1.8440e-07, -3.0734e-08, -1.9558e-08,  ...,  9.3132e-10,
+         -2.4308e-07,  9.3132e-10],
+        [-5.5879e-09, -4.6566e-09,  9.3132e-10,  ..., -2.1420e-08,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 367, bias, value: tensor([-0.0409, -0.0414, -0.0132,  0.0003,  0.0055,  0.0099,  0.0040, -0.0080,
+         0.0141, -0.0480], device='cuda:0'), grad: tensor([ 1.2107e-08,  3.1106e-07,  3.6322e-08,  2.8871e-08,  2.9802e-08,
+         2.4121e-07,  4.0792e-07,  1.1176e-08, -1.0403e-06, -3.2596e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 366, time 217.68, cls_loss 0.0006 cls_loss_mapping 0.0009 cls_loss_causal 0.4444 re_mapping 0.0030 re_causal 0.0087 /// teacc 99.12 lr 0.00010000
+Epoch 368, weight, value: tensor([[-0.1207,  0.0167,  0.1516,  ...,  0.0063, -0.1297, -0.1136],
+        [-0.2363, -0.2450, -0.2248,  ...,  0.1193,  0.0680,  0.4269],
+        [-0.2728, -0.1869, -0.2487,  ..., -0.3129,  0.0168, -0.2597],
+        ...,
+        [-0.2165, -0.2822, -0.0113,  ..., -0.2808, -0.1562, -0.4815],
+        [ 0.1585,  0.0356, -0.1667,  ..., -0.2736,  0.0476, -0.2457],
+        [ 0.1603,  0.1003, -0.1601,  ...,  0.1274, -0.2655, -0.3189]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  2.7940e-09,  3.7253e-09,  ...,  9.3132e-10,
+          5.5879e-09,  0.0000e+00],
+        [ 2.7940e-09,  3.7253e-09,  4.6566e-09,  ...,  1.8626e-09,
+          6.5193e-09,  0.0000e+00],
+        [ 3.7253e-09,  5.5879e-09,  5.5879e-09,  ...,  2.7940e-09,
+          8.3819e-09,  9.3132e-10],
+        ...,
+        [ 2.3283e-08,  3.2596e-08,  3.5390e-08,  ...,  1.9558e-08,
+          5.9605e-08,  9.3132e-10],
+        [ 9.3132e-10,  9.3132e-10,  9.3132e-10,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [-1.0245e-08,  3.1665e-08,  7.5437e-08,  ..., -1.4901e-08,
+          1.2387e-07,  0.0000e+00]], device='cuda:0')
+Epoch 368, bias, value: tensor([-0.0412, -0.0414, -0.0133, -0.0002,  0.0049,  0.0101,  0.0038, -0.0080,
+         0.0142, -0.0469], device='cuda:0'), grad: tensor([ 1.5832e-08,  2.2352e-08,  2.5146e-08, -2.7940e-09, -4.5449e-07,
+        -1.1176e-08,  1.2107e-08,  1.8440e-07,  3.7253e-09,  2.1141e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 367, time 217.51, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4369 re_mapping 0.0032 re_causal 0.0087 /// teacc 99.28 lr 0.00010000
+Epoch 369, weight, value: tensor([[-0.1209,  0.0168,  0.1517,  ...,  0.0062, -0.1301, -0.1139],
+        [-0.2365, -0.2453, -0.2248,  ...,  0.1194,  0.0682,  0.4273],
+        [-0.2731, -0.1871, -0.2490,  ..., -0.3138,  0.0166, -0.2599],
+        ...,
+        [-0.2165, -0.2822, -0.0113,  ..., -0.2809, -0.1562, -0.4819],
+        [ 0.1585,  0.0355, -0.1668,  ..., -0.2738,  0.0476, -0.2475],
+        [ 0.1637,  0.1032, -0.1583,  ...,  0.1306, -0.2650, -0.3191]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.2107e-08,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 369, bias, value: tensor([-0.0424, -0.0414, -0.0131, -0.0004,  0.0020,  0.0104,  0.0038, -0.0080,
+         0.0141, -0.0441], device='cuda:0'), grad: tensor([ 1.1176e-08,  6.7055e-08,  4.6566e-09,  5.6997e-07,  4.0047e-07,
+        -1.4529e-06,  2.9802e-08,  2.7753e-07,  9.6858e-08,  9.3132e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 368, time 217.67, cls_loss 0.0005 cls_loss_mapping 0.0010 cls_loss_causal 0.4639 re_mapping 0.0033 re_causal 0.0094 /// teacc 99.21 lr 0.00010000
+Epoch 370, weight, value: tensor([[-0.1211,  0.0171,  0.1519,  ...,  0.0062, -0.1309, -0.1143],
+        [-0.2367, -0.2454, -0.2250,  ...,  0.1194,  0.0677,  0.4275],
+        [-0.2735, -0.1872, -0.2495,  ..., -0.3141,  0.0168, -0.2600],
+        ...,
+        [-0.2161, -0.2817, -0.0114,  ..., -0.2809, -0.1553, -0.4824],
+        [ 0.1586,  0.0355, -0.1670,  ..., -0.2739,  0.0478, -0.2478],
+        [ 0.1637,  0.1032, -0.1585,  ...,  0.1307, -0.2652, -0.3196]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [-9.3132e-10, -1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 370, bias, value: tensor([-0.0432, -0.0415, -0.0125, -0.0018,  0.0020,  0.0111,  0.0040, -0.0079,
+         0.0141, -0.0441], device='cuda:0'), grad: tensor([ 0.0000e+00,  2.7940e-08, -2.3283e-08,  7.4506e-09, -2.7940e-09,
+        -1.8626e-08,  9.3132e-09,  5.5879e-09, -5.5879e-09,  2.7940e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 369, time 217.60, cls_loss 0.0005 cls_loss_mapping 0.0010 cls_loss_causal 0.4626 re_mapping 0.0031 re_causal 0.0092 /// teacc 99.15 lr 0.00010000
+Epoch 371, weight, value: tensor([[-0.1212,  0.0177,  0.1525,  ...,  0.0065, -0.1311, -0.1142],
+        [-0.2369, -0.2455, -0.2254,  ...,  0.1195,  0.0674,  0.4278],
+        [-0.2739, -0.1875, -0.2527,  ..., -0.3148,  0.0165, -0.2600],
+        ...,
+        [-0.2164, -0.2821, -0.0114,  ..., -0.2810, -0.1544, -0.4839],
+        [ 0.1585,  0.0355, -0.1676,  ..., -0.2741,  0.0477, -0.2483],
+        [ 0.1639,  0.1033, -0.1585,  ...,  0.1307, -0.2652, -0.3204]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-09,
+          0.0000e+00,  9.3132e-10],
+        [ 1.6764e-08,  5.5879e-09,  0.0000e+00,  ...,  6.5193e-09,
+         -1.1176e-08, -4.9360e-08],
+        [ 2.7940e-09,  1.8626e-09,  0.0000e+00,  ...,  4.6566e-09,
+          4.6566e-09,  1.8626e-09],
+        ...,
+        [ 1.8626e-08,  8.3819e-09,  0.0000e+00,  ...,  2.5146e-08,
+          8.3819e-09,  1.8626e-08],
+        [-7.4506e-09, -1.0245e-08,  0.0000e+00,  ...,  1.1176e-08,
+         -7.4506e-09,  0.0000e+00],
+        [-1.0524e-07, -2.4214e-08,  0.0000e+00,  ..., -1.1735e-07,
+          9.3132e-10,  9.3132e-10]], device='cuda:0')
+Epoch 371, bias, value: tensor([-0.0428, -0.0416, -0.0125, -0.0019,  0.0019,  0.0110,  0.0043, -0.0079,
+         0.0140, -0.0441], device='cuda:0'), grad: tensor([ 2.4214e-08,  1.3039e-08,  4.0978e-08, -5.6811e-08,  3.1292e-07,
+         7.5065e-07, -8.1304e-07,  1.2200e-07,  2.7940e-08, -4.2655e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 370, time 217.79, cls_loss 0.0004 cls_loss_mapping 0.0008 cls_loss_causal 0.4562 re_mapping 0.0029 re_causal 0.0092 /// teacc 99.12 lr 0.00010000
+Epoch 372, weight, value: tensor([[-0.1230,  0.0174,  0.1528,  ...,  0.0057, -0.1312, -0.1143],
+        [-0.2371, -0.2456, -0.2254,  ...,  0.1195,  0.0675,  0.4279],
+        [-0.2741, -0.1878, -0.2531,  ..., -0.3151,  0.0164, -0.2600],
+        ...,
+        [-0.2165, -0.2824, -0.0115,  ..., -0.2810, -0.1549, -0.4844],
+        [ 0.1587,  0.0355, -0.1676,  ..., -0.2741,  0.0482, -0.2483],
+        [ 0.1640,  0.1035, -0.1585,  ...,  0.1309, -0.2653, -0.3205]],
+       device='cuda:0'), grad: tensor([[0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        ...,
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 9.3132e-10,
+         9.3132e-10],
+        [0.0000e+00, 2.7940e-09, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 3.7253e-09,
+         0.0000e+00]], device='cuda:0')
+Epoch 372, bias, value: tensor([-0.0433, -0.0415, -0.0125, -0.0020,  0.0019,  0.0109,  0.0042, -0.0079,
+         0.0141, -0.0440], device='cuda:0'), grad: tensor([ 2.7940e-09,  1.6764e-08, -6.6124e-08,  7.8231e-08, -1.2107e-08,
+        -7.4506e-08,  5.5879e-09,  1.5832e-08,  2.6077e-08,  1.6764e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 371, time 217.75, cls_loss 0.0004 cls_loss_mapping 0.0009 cls_loss_causal 0.4756 re_mapping 0.0029 re_causal 0.0092 /// teacc 99.10 lr 0.00010000
+Epoch 373, weight, value: tensor([[-0.1231,  0.0178,  0.1526,  ...,  0.0062, -0.1311, -0.1142],
+        [-0.2373, -0.2458, -0.2257,  ...,  0.1195,  0.0675,  0.4282],
+        [-0.2744, -0.1881, -0.2535,  ..., -0.3157,  0.0163, -0.2601],
+        ...,
+        [-0.2167, -0.2826, -0.0117,  ..., -0.2810, -0.1548, -0.4850],
+        [ 0.1584,  0.0354, -0.1677,  ..., -0.2743,  0.0483, -0.2486],
+        [ 0.1643,  0.1036, -0.1587,  ...,  0.1310, -0.2654, -0.3208]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -9.3132e-10, -2.7940e-09,  ..., -2.7940e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ..., -8.3819e-09,
+          0.0000e+00, -1.7695e-08],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          9.3132e-10,  5.5879e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+          0.0000e+00,  7.4506e-09],
+        [-6.5193e-09, -6.5193e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -8.3819e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          9.3132e-10,  4.6566e-09]], device='cuda:0')
+Epoch 373, bias, value: tensor([-0.0432, -0.0412, -0.0125, -0.0025,  0.0020,  0.0113,  0.0042, -0.0083,
+         0.0140, -0.0440], device='cuda:0'), grad: tensor([-6.5193e-09,  2.1048e-07, -1.8161e-07,  9.3132e-09,  3.7253e-09,
+         1.3970e-08,  1.6764e-08, -4.0792e-07, -2.7008e-08,  3.6508e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 372, time 217.55, cls_loss 0.0006 cls_loss_mapping 0.0015 cls_loss_causal 0.4610 re_mapping 0.0031 re_causal 0.0090 /// teacc 99.20 lr 0.00010000
+Epoch 374, weight, value: tensor([[-0.1233,  0.0180,  0.1530,  ...,  0.0064, -0.1318, -0.1144],
+        [-0.2383, -0.2462, -0.2260,  ...,  0.1195,  0.0685,  0.4289],
+        [-0.2754, -0.1888, -0.2540,  ..., -0.3158,  0.0162, -0.2602],
+        ...,
+        [-0.2161, -0.2826, -0.0119,  ..., -0.2810, -0.1574, -0.4874],
+        [ 0.1621,  0.0371, -0.1678,  ..., -0.2731,  0.0491, -0.2487],
+        [ 0.1630,  0.1025, -0.1589,  ...,  0.1307, -0.2661, -0.3241]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.8626e-09, -4.6566e-09,  ..., -4.1910e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -9.3132e-10,
+         -9.3132e-10, -1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [ 9.3132e-10,  4.6566e-10,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  1.3970e-09,
+          4.6566e-10,  9.3132e-10],
+        [-2.7940e-09, -9.3132e-10,  3.7253e-09,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 374, bias, value: tensor([-0.0432, -0.0411, -0.0123, -0.0033,  0.0019,  0.0113,  0.0041, -0.0084,
+         0.0156, -0.0449], device='cuda:0'), grad: tensor([-1.3970e-08,  7.4506e-09,  2.7940e-09,  1.8626e-09,  1.4435e-08,
+         4.1910e-09, -6.0536e-09, -2.3283e-08,  5.1223e-09,  5.5879e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 373, time 217.68, cls_loss 0.0004 cls_loss_mapping 0.0011 cls_loss_causal 0.4149 re_mapping 0.0030 re_causal 0.0089 /// teacc 99.11 lr 0.00010000
+Epoch 375, weight, value: tensor([[-0.1235,  0.0184,  0.1536,  ...,  0.0066, -0.1322, -0.1146],
+        [-0.2385, -0.2463, -0.2260,  ...,  0.1200,  0.0686,  0.4293],
+        [-0.2757, -0.1890, -0.2534,  ..., -0.3163,  0.0170, -0.2603],
+        ...,
+        [-0.2162, -0.2827, -0.0117,  ..., -0.2813, -0.1590, -0.4886],
+        [ 0.1623,  0.0371, -0.1683,  ..., -0.2735,  0.0491, -0.2493],
+        [ 0.1631,  0.1025, -0.1592,  ...,  0.1307, -0.2662, -0.3251]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          6.5193e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.5367e-08,  0.0000e+00],
+        ...,
+        [ 2.7940e-09,  4.6566e-10,  0.0000e+00,  ...,  9.3132e-10,
+          4.6566e-10,  4.6566e-10],
+        [-6.5193e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-09,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ..., -2.7940e-09,
+          4.6566e-10,  0.0000e+00]], device='cuda:0')
+Epoch 375, bias, value: tensor([-0.0428, -0.0410, -0.0115, -0.0034,  0.0019,  0.0111,  0.0042, -0.0086,
+         0.0156, -0.0450], device='cuda:0'), grad: tensor([ 1.8626e-09,  3.9116e-08, -8.1491e-08,  3.6787e-08,  3.2596e-09,
+        -3.5856e-08,  7.9162e-09,  1.6764e-08,  6.9849e-09,  4.6566e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 374, time 217.88, cls_loss 0.0004 cls_loss_mapping 0.0009 cls_loss_causal 0.4528 re_mapping 0.0029 re_causal 0.0088 /// teacc 99.12 lr 0.00010000
+Epoch 376, weight, value: tensor([[-0.1235,  0.0186,  0.1535,  ...,  0.0064, -0.1331, -0.1147],
+        [-0.2388, -0.2464, -0.2264,  ...,  0.1201,  0.0686,  0.4296],
+        [-0.2759, -0.1892, -0.2535,  ..., -0.3180,  0.0169, -0.2603],
+        ...,
+        [-0.2164, -0.2831, -0.0120,  ..., -0.2816, -0.1592, -0.4901],
+        [ 0.1625,  0.0373, -0.1685,  ..., -0.2736,  0.0493, -0.2497],
+        [ 0.1631,  0.1025, -0.1594,  ...,  0.1308, -0.2666, -0.3260]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  4.6566e-09,
+          3.7253e-09,  0.0000e+00],
+        [ 9.3132e-10,  2.3283e-09,  1.8626e-09,  ...,  5.1223e-09,
+          5.1223e-09,  4.6566e-10],
+        [ 9.3132e-10,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          4.6566e-10,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  9.3132e-10,  4.6566e-10,  ...,  4.6566e-10,
+          4.6566e-10,  0.0000e+00],
+        [-4.1910e-09,  5.1223e-09,  3.2596e-09,  ...,  2.3283e-09,
+         -1.8626e-09, -2.7940e-09],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00]], device='cuda:0')
+Epoch 376, bias, value: tensor([-0.0429, -0.0409, -0.0113, -0.0036,  0.0019,  0.0110,  0.0046, -0.0086,
+         0.0156, -0.0451], device='cuda:0'), grad: tensor([ 2.0023e-08,  3.1665e-08,  4.6566e-10,  6.9849e-09,  5.1223e-09,
+        -3.3993e-08, -2.1886e-08,  6.5193e-09, -6.0536e-09,  4.1910e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 375, time 217.41, cls_loss 0.0005 cls_loss_mapping 0.0008 cls_loss_causal 0.4625 re_mapping 0.0029 re_causal 0.0084 /// teacc 99.11 lr 0.00010000
+Epoch 377, weight, value: tensor([[-0.1238,  0.0186,  0.1540,  ...,  0.0066, -0.1336, -0.1148],
+        [-0.2399, -0.2467, -0.2268,  ...,  0.1201,  0.0685,  0.4297],
+        [-0.2768, -0.1898, -0.2542,  ..., -0.3187,  0.0171, -0.2604],
+        ...,
+        [-0.2164, -0.2838, -0.0120,  ..., -0.2816, -0.1594, -0.4904],
+        [ 0.1627,  0.0372, -0.1683,  ..., -0.2738,  0.0496, -0.2499],
+        [ 0.1634,  0.1026, -0.1596,  ...,  0.1310, -0.2668, -0.3261]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.3970e-09,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  9.3132e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [ 3.7253e-09,  2.7940e-09,  0.0000e+00,  ...,  3.7253e-09,
+          0.0000e+00,  1.3970e-09],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [-5.1223e-09, -2.3283e-09,  0.0000e+00,  ..., -5.1223e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 377, bias, value: tensor([-0.0430, -0.0411, -0.0112, -0.0037,  0.0019,  0.0114,  0.0044, -0.0085,
+         0.0157, -0.0450], device='cuda:0'), grad: tensor([ 4.6566e-10,  4.6566e-09,  6.5193e-09, -9.7789e-09,  6.0536e-09,
+         1.3039e-08, -8.8476e-09,  9.7789e-09,  3.2596e-09, -1.3039e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 376, time 217.64, cls_loss 0.0006 cls_loss_mapping 0.0010 cls_loss_causal 0.4313 re_mapping 0.0029 re_causal 0.0083 /// teacc 99.17 lr 0.00010000
+Epoch 378, weight, value: tensor([[-0.1240,  0.0187,  0.1539,  ...,  0.0065, -0.1342, -0.1147],
+        [-0.2407, -0.2470, -0.2270,  ...,  0.1199,  0.0684,  0.4297],
+        [-0.2775, -0.1903, -0.2546,  ..., -0.3189,  0.0171, -0.2604],
+        ...,
+        [-0.2176, -0.2843, -0.0118,  ..., -0.2816, -0.1594, -0.4905],
+        [ 0.1624,  0.0373, -0.1684,  ..., -0.2741,  0.0501, -0.2501],
+        [ 0.1641,  0.1029, -0.1598,  ...,  0.1314, -0.2670, -0.3262]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10, -5.5879e-09, -5.1223e-09,  ..., -5.1223e-09,
+         -1.8626e-09,  0.0000e+00],
+        [ 9.3132e-10,  1.8626e-09,  5.1223e-09,  ...,  0.0000e+00,
+          4.6566e-10, -1.8626e-09],
+        [ 0.0000e+00,  9.3132e-10,  1.1642e-08,  ...,  1.3970e-09,
+          3.2596e-09,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  9.3132e-10, -4.6566e-09,  ...,  1.3970e-09,
+          1.3970e-09,  2.3283e-09],
+        [ 4.1910e-09,  4.6566e-09,  1.3970e-09,  ...,  4.6566e-09,
+          1.8626e-09,  4.6566e-10],
+        [ 8.3819e-09,  8.8476e-09,  7.4506e-09,  ...,  6.5193e-09,
+          6.0536e-09,  0.0000e+00]], device='cuda:0')
+Epoch 378, bias, value: tensor([-0.0434, -0.0416, -0.0113, -0.0035,  0.0018,  0.0108,  0.0045, -0.0080,
+         0.0156, -0.0447], device='cuda:0'), grad: tensor([-2.7940e-08,  4.7963e-08,  5.6345e-08, -3.0268e-08, -3.8138e-07,
+         2.1420e-08,  2.9849e-07, -4.8429e-08,  2.0489e-08,  5.6811e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 377, time 217.95, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4601 re_mapping 0.0029 re_causal 0.0086 /// teacc 99.24 lr 0.00010000
+Epoch 379, weight, value: tensor([[-0.1241,  0.0191,  0.1544,  ...,  0.0069, -0.1346, -0.1147],
+        [-0.2413, -0.2473, -0.2271,  ...,  0.1199,  0.0689,  0.4301],
+        [-0.2780, -0.1906, -0.2551,  ..., -0.3194,  0.0172, -0.2604],
+        ...,
+        [-0.2179, -0.2847, -0.0119,  ..., -0.2817, -0.1605, -0.4920],
+        [ 0.1624,  0.0373, -0.1687,  ..., -0.2744,  0.0502, -0.2503],
+        [ 0.1643,  0.1029, -0.1599,  ...,  0.1315, -0.2671, -0.3265]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 4.1910e-09,  3.2596e-09,  0.0000e+00,  ...,  3.7253e-09,
+          8.8476e-09,  0.0000e+00],
+        [ 1.2107e-08,  4.1910e-09,  4.6566e-10,  ...,  2.7940e-09,
+          7.4506e-09,  0.0000e+00],
+        ...,
+        [ 7.9162e-09,  1.8626e-09,  0.0000e+00,  ...,  7.9162e-09,
+          0.0000e+00,  4.6566e-10],
+        [-1.4435e-08, -1.2107e-08,  0.0000e+00,  ...,  4.6566e-10,
+         -2.7940e-08,  0.0000e+00],
+        [-6.2399e-08, -1.3970e-09,  0.0000e+00,  ..., -2.7008e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 379, bias, value: tensor([-0.0430, -0.0416, -0.0113, -0.0036,  0.0018,  0.0106,  0.0047, -0.0081,
+         0.0156, -0.0447], device='cuda:0'), grad: tensor([ 2.1886e-08,  3.9116e-08,  6.1467e-08,  2.2817e-08,  1.5367e-07,
+         2.4680e-08,  1.3504e-08,  1.8626e-08, -1.1595e-07, -2.2817e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 378, time 217.83, cls_loss 0.0005 cls_loss_mapping 0.0011 cls_loss_causal 0.4357 re_mapping 0.0029 re_causal 0.0085 /// teacc 99.19 lr 0.00010000
+Epoch 380, weight, value: tensor([[-0.1243,  0.0195,  0.1550,  ...,  0.0072, -0.1350, -0.1150],
+        [-0.2425, -0.2480, -0.2272,  ...,  0.1199,  0.0689,  0.4306],
+        [-0.2798, -0.1903, -0.2556,  ..., -0.3203,  0.0169, -0.2607],
+        ...,
+        [-0.2179, -0.2849, -0.0120,  ..., -0.2817, -0.1607, -0.4928],
+        [ 0.1629,  0.0375, -0.1688,  ..., -0.2744,  0.0509, -0.2501],
+        [ 0.1646,  0.1032, -0.1601,  ...,  0.1318, -0.2673, -0.3285]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -9.3132e-10,
+         -4.6566e-10, -2.7940e-09],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  4.6566e-10],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          4.6566e-10,  2.3283e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [-1.3970e-09, -4.6566e-10,  3.7253e-09,  ..., -9.3132e-10,
+          5.1223e-09,  4.6566e-10]], device='cuda:0')
+Epoch 380, bias, value: tensor([-0.0429, -0.0416, -0.0113, -0.0037,  0.0015,  0.0101,  0.0049, -0.0080,
+         0.0159, -0.0446], device='cuda:0'), grad: tensor([ 0.0000e+00,  3.7253e-09,  3.2596e-09,  9.7789e-09, -1.7695e-08,
+        -6.9849e-09,  9.3132e-10, -3.2596e-09,  4.6566e-10,  2.0955e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 379, time 217.71, cls_loss 0.0004 cls_loss_mapping 0.0013 cls_loss_causal 0.4912 re_mapping 0.0029 re_causal 0.0091 /// teacc 99.21 lr 0.00010000
+Epoch 381, weight, value: tensor([[-0.1243,  0.0197,  0.1559,  ...,  0.0080, -0.1346, -0.1138],
+        [-0.2433, -0.2481, -0.2279,  ...,  0.1199,  0.0689,  0.4308],
+        [-0.2800, -0.1906, -0.2558,  ..., -0.3209,  0.0169, -0.2609],
+        ...,
+        [-0.2179, -0.2854, -0.0121,  ..., -0.2817, -0.1607, -0.4931],
+        [ 0.1629,  0.0375, -0.1690,  ..., -0.2746,  0.0511, -0.2503],
+        [ 0.1648,  0.1033, -0.1602,  ...,  0.1319, -0.2675, -0.3294]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -9.7789e-09, -1.4435e-08,  ..., -1.3039e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 1.3970e-09,  1.3970e-09,  1.3504e-08,  ..., -1.3504e-08,
+          1.6298e-08, -3.2596e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  1.0710e-08,
+          4.6566e-10,  4.6566e-10],
+        ...,
+        [ 4.6566e-09,  2.3283e-09,  1.3970e-09,  ...,  2.5611e-08,
+          9.7789e-09,  3.1199e-08],
+        [-9.3132e-10, -9.3132e-10,  1.4435e-08,  ...,  5.6811e-08,
+          1.3970e-09,  1.8626e-09],
+        [-1.9092e-08, -1.3039e-08,  2.7940e-09,  ..., -1.7229e-08,
+          3.7253e-09,  2.3283e-09]], device='cuda:0')
+Epoch 381, bias, value: tensor([-0.0421, -0.0418, -0.0114, -0.0041,  0.0015,  0.0099,  0.0052, -0.0078,
+         0.0159, -0.0446], device='cuda:0'), grad: tensor([-4.2375e-08,  3.4552e-07,  4.6100e-08,  1.5832e-08, -5.3085e-08,
+         4.8429e-08, -3.4319e-07, -2.3982e-07,  2.6124e-07, -3.3528e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 380, time 217.54, cls_loss 0.0006 cls_loss_mapping 0.0019 cls_loss_causal 0.4739 re_mapping 0.0030 re_causal 0.0086 /// teacc 99.18 lr 0.00010000
+Epoch 382, weight, value: tensor([[-0.1248,  0.0202,  0.1568,  ...,  0.0090, -0.1347, -0.1139],
+        [-0.2446, -0.2486, -0.2280,  ...,  0.1199,  0.0690,  0.4310],
+        [-0.2807, -0.1911, -0.2565,  ..., -0.3212,  0.0168, -0.2609],
+        ...,
+        [-0.2182, -0.2857, -0.0116,  ..., -0.2818, -0.1607, -0.4934],
+        [ 0.1629,  0.0375, -0.1692,  ..., -0.2752,  0.0512, -0.2511],
+        [ 0.1658,  0.1044, -0.1605,  ...,  0.1325, -0.2677, -0.3301]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -2.7940e-09, -2.3283e-09,  ..., -2.3283e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 6.0536e-09,  7.9162e-09,  3.2596e-09,  ...,  2.7940e-09,
+          1.3039e-08, -1.5367e-08],
+        [ 1.3970e-09,  9.3132e-10,  0.0000e+00,  ...,  3.2596e-09,
+         -1.3504e-08,  9.3132e-10],
+        ...,
+        [-8.3819e-09,  0.0000e+00, -1.9092e-08,  ...,  9.3132e-10,
+          1.4901e-08,  1.7695e-08],
+        [-1.5832e-08, -2.7940e-08,  1.8161e-08,  ...,  5.5879e-09,
+         -5.0757e-08, -6.9849e-09],
+        [ 9.3132e-10,  9.3132e-10,  6.9849e-09,  ...,  3.2596e-09,
+          6.5193e-09,  0.0000e+00]], device='cuda:0')
+Epoch 382, bias, value: tensor([-0.0416, -0.0418, -0.0102, -0.0056,  0.0008,  0.0096,  0.0053, -0.0078,
+         0.0157, -0.0440], device='cuda:0'), grad: tensor([-8.8476e-09,  5.0757e-08, -3.7719e-08,  1.4901e-08, -3.7253e-09,
+         1.1362e-07, -4.5635e-08,  1.3970e-09, -1.1595e-07,  3.2596e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 381, time 217.46, cls_loss 0.0005 cls_loss_mapping 0.0015 cls_loss_causal 0.4089 re_mapping 0.0031 re_causal 0.0083 /// teacc 99.14 lr 0.00010000
+Epoch 383, weight, value: tensor([[-0.1250,  0.0205,  0.1578,  ...,  0.0095, -0.1343, -0.1133],
+        [-0.2455, -0.2491, -0.2288,  ...,  0.1199,  0.0688,  0.4312],
+        [-0.2810, -0.1914, -0.2580,  ..., -0.3216,  0.0168, -0.2609],
+        ...,
+        [-0.2183, -0.2859, -0.0118,  ..., -0.2819, -0.1606, -0.4941],
+        [ 0.1631,  0.0375, -0.1697,  ..., -0.2754,  0.0512, -0.2510],
+        [ 0.1660,  0.1044, -0.1608,  ...,  0.1327, -0.2679, -0.3309]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.3970e-09,  3.2596e-09,  4.6566e-10,  ..., -9.3132e-10,
+         -9.3132e-10, -4.1910e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [ 9.3132e-10,  1.8626e-09,  4.6566e-10,  ...,  9.3132e-10,
+          9.3132e-10,  2.7940e-09],
+        [ 1.3970e-09,  2.7940e-09,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  1.3970e-09],
+        [ 2.3283e-09,  8.8476e-09,  1.8626e-09,  ..., -1.3970e-09,
+          4.6566e-10,  9.3132e-10]], device='cuda:0')
+Epoch 383, bias, value: tensor([-0.0410, -0.0420, -0.0096, -0.0064,  0.0009,  0.0099,  0.0052, -0.0077,
+         0.0156, -0.0440], device='cuda:0'), grad: tensor([ 4.6566e-10,  2.3283e-09,  4.6566e-10,  1.4156e-07, -3.7253e-09,
+        -1.8021e-07,  3.2596e-09,  9.7789e-09,  1.0710e-08,  2.1886e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 382, time 217.26, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4478 re_mapping 0.0029 re_causal 0.0084 /// teacc 99.26 lr 0.00010000
+Epoch 384, weight, value: tensor([[-0.1252,  0.0211,  0.1590,  ...,  0.0103, -0.1338, -0.1125],
+        [-0.2498, -0.2503, -0.2296,  ...,  0.1196,  0.0688,  0.4315],
+        [-0.2823, -0.1923, -0.2589,  ..., -0.3222,  0.0166, -0.2611],
+        ...,
+        [-0.2205, -0.2897, -0.0147,  ..., -0.2822, -0.1609, -0.4953],
+        [ 0.1633,  0.0377, -0.1700,  ..., -0.2756,  0.0517, -0.2519],
+        [ 0.1673,  0.1046, -0.1619,  ...,  0.1340, -0.2681, -0.3311]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09, -5.1223e-09, -1.1642e-08,  ..., -4.1910e-09,
+          1.3970e-09,  0.0000e+00],
+        [ 2.8405e-08,  3.0268e-08,  1.3970e-09,  ...,  3.2596e-09,
+          3.1199e-08,  1.0710e-08],
+        [ 3.2596e-09,  3.7253e-09,  9.3132e-10,  ...,  4.6566e-10,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 4.1910e-09,  4.1910e-09,  0.0000e+00,  ...,  2.3283e-09,
+          1.8626e-09,  4.6566e-10],
+        [-1.7136e-07, -1.8394e-07,  0.0000e+00,  ...,  3.7253e-09,
+         -2.0023e-07, -7.3574e-08],
+        [-1.4901e-08, -3.7253e-09,  0.0000e+00,  ..., -1.5832e-08,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 384, bias, value: tensor([-0.0402, -0.0421, -0.0099, -0.0067,  0.0018,  0.0096,  0.0053, -0.0080,
+         0.0159, -0.0436], device='cuda:0'), grad: tensor([-9.7789e-09,  2.3935e-07,  4.9826e-08,  4.2841e-08,  8.7079e-08,
+         6.1048e-07,  4.6566e-10, -5.9186e-07, -8.1072e-07,  3.8184e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 383, time 217.54, cls_loss 0.0005 cls_loss_mapping 0.0015 cls_loss_causal 0.4675 re_mapping 0.0029 re_causal 0.0087 /// teacc 99.11 lr 0.00010000
+Epoch 385, weight, value: tensor([[-0.1260,  0.0212,  0.1593,  ...,  0.0102, -0.1343, -0.1125],
+        [-0.2504, -0.2507, -0.2297,  ...,  0.1196,  0.0687,  0.4317],
+        [-0.2837, -0.1931, -0.2596,  ..., -0.3226,  0.0166, -0.2611],
+        ...,
+        [-0.2208, -0.2899, -0.0146,  ..., -0.2822, -0.1610, -0.4957],
+        [ 0.1640,  0.0381, -0.1701,  ..., -0.2756,  0.0528, -0.2517],
+        [ 0.1676,  0.1048, -0.1622,  ...,  0.1343, -0.2684, -0.3316]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -4.6566e-10, -1.3970e-09,  ...,  3.7253e-09,
+          4.6566e-10,  6.0536e-09],
+        [-3.2596e-09, -1.1176e-08,  0.0000e+00,  ..., -7.1712e-08,
+         -5.5879e-09, -1.0245e-07],
+        [ 4.6566e-10,  1.3970e-09,  4.6566e-10,  ...,  3.2596e-09,
+          1.8626e-09,  4.6566e-09],
+        ...,
+        [ 4.6566e-09,  6.9849e-09,  0.0000e+00,  ...,  3.5390e-08,
+         -9.3132e-10,  4.3772e-08],
+        [ 1.3970e-09,  1.3970e-09,  0.0000e+00,  ...,  6.9849e-09,
+          3.2596e-09,  1.2573e-08],
+        [-7.9162e-09, -4.6566e-09,  9.3132e-10,  ...,  1.0245e-08,
+          9.3132e-10,  2.2352e-08]], device='cuda:0')
+Epoch 385, bias, value: tensor([-0.0404, -0.0421, -0.0099, -0.0073,  0.0018,  0.0098,  0.0052, -0.0080,
+         0.0164, -0.0437], device='cuda:0'), grad: tensor([ 1.2573e-08, -2.3609e-07,  2.2817e-08, -2.1420e-08,  3.0268e-08,
+         4.2375e-08,  1.8161e-08,  8.5216e-08,  2.8871e-08,  3.1199e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 384, time 217.73, cls_loss 0.0005 cls_loss_mapping 0.0018 cls_loss_causal 0.4630 re_mapping 0.0029 re_causal 0.0087 /// teacc 99.12 lr 0.00010000
+Epoch 386, weight, value: tensor([[-0.1259,  0.0215,  0.1600,  ...,  0.0109, -0.1339, -0.1116],
+        [-0.2497, -0.2504, -0.2301,  ...,  0.1202,  0.0689,  0.4343],
+        [-0.2841, -0.1934, -0.2595,  ..., -0.3230,  0.0167, -0.2612],
+        ...,
+        [-0.2198, -0.2877, -0.0147,  ..., -0.2826, -0.1615, -0.5011],
+        [ 0.1646,  0.0386, -0.1701,  ..., -0.2757,  0.0530, -0.2518],
+        [ 0.1676,  0.1046, -0.1629,  ...,  0.1342, -0.2688, -0.3332]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-09, -9.3132e-10, -1.2107e-08,  ...,  0.0000e+00,
+          7.9162e-09, -9.3132e-10],
+        [ 9.7789e-09, -7.0781e-08, -1.9511e-07,  ..., -8.0746e-07,
+         -3.6927e-07, -1.7006e-06],
+        [ 4.1444e-08,  3.7719e-08,  1.2573e-08,  ...,  2.5146e-08,
+          3.2131e-08,  4.1910e-09],
+        ...,
+        [ 3.2596e-09,  8.1491e-08,  1.9651e-07,  ...,  8.0187e-07,
+          3.7253e-07,  1.6745e-06],
+        [-1.9604e-07, -1.7276e-07, -4.8429e-08,  ..., -1.0524e-07,
+         -1.4622e-07,  2.7940e-09],
+        [ 3.4459e-08,  3.3993e-08,  1.3504e-08,  ...,  2.5611e-08,
+          2.8405e-08,  1.2107e-08]], device='cuda:0')
+Epoch 386, bias, value: tensor([-0.0400, -0.0416, -0.0098, -0.0098,  0.0022,  0.0093,  0.0048, -0.0081,
+         0.0166, -0.0442], device='cuda:0'), grad: tensor([ 1.3039e-08, -4.5262e-06,  2.4540e-07,  3.9581e-08,  1.5367e-08,
+         1.1316e-07,  4.0792e-07,  4.5262e-06, -1.0766e-06,  2.3609e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 385, time 217.68, cls_loss 0.0004 cls_loss_mapping 0.0009 cls_loss_causal 0.4531 re_mapping 0.0032 re_causal 0.0091 /// teacc 99.05 lr 0.00010000
+Epoch 387, weight, value: tensor([[-0.1259,  0.0220,  0.1609,  ...,  0.0116, -0.1341, -0.1115],
+        [-0.2497, -0.2505, -0.2299,  ...,  0.1205,  0.0695,  0.4351],
+        [-0.2848, -0.1938, -0.2596,  ..., -0.3246,  0.0168, -0.2615],
+        ...,
+        [-0.2200, -0.2878, -0.0149,  ..., -0.2829, -0.1625, -0.5019],
+        [ 0.1652,  0.0389, -0.1703,  ..., -0.2757,  0.0531, -0.2520],
+        [ 0.1677,  0.1047, -0.1634,  ...,  0.1343, -0.2692, -0.3340]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 4.6566e-10,  7.9162e-09,  2.3283e-09,  ...,  4.6566e-10,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  4.6566e-10,  ...,  0.0000e+00,
+          9.3132e-10,  4.6566e-10],
+        ...,
+        [ 9.3132e-10,  9.3132e-10,  9.3132e-10,  ...,  4.6566e-10,
+          1.3970e-09,  0.0000e+00],
+        [ 0.0000e+00,  7.4971e-08,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  4.6566e-10],
+        [-1.3970e-09,  0.0000e+00,  2.0489e-08,  ..., -1.3970e-09,
+          2.5611e-08,  0.0000e+00]], device='cuda:0')
+Epoch 387, bias, value: tensor([-0.0394, -0.0415, -0.0098, -0.0097,  0.0022,  0.0089,  0.0047, -0.0080,
+         0.0168, -0.0450], device='cuda:0'), grad: tensor([ 4.1910e-09,  8.6613e-08,  1.0198e-07,  4.1910e-09, -1.2992e-07,
+        -4.6827e-06,  4.0904e-06, -1.1967e-07,  5.5088e-07,  9.4064e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 386, time 218.03, cls_loss 0.0005 cls_loss_mapping 0.0011 cls_loss_causal 0.4337 re_mapping 0.0029 re_causal 0.0086 /// teacc 99.08 lr 0.00010000
+Epoch 388, weight, value: tensor([[-0.1264,  0.0207,  0.1605,  ...,  0.0099, -0.1345, -0.1117],
+        [-0.2487, -0.2518, -0.2304,  ...,  0.1209,  0.0696,  0.4354],
+        [-0.2853, -0.1941, -0.2602,  ..., -0.3252,  0.0179, -0.2617],
+        ...,
+        [-0.2214, -0.2880, -0.0148,  ..., -0.2833, -0.1626, -0.5023],
+        [ 0.1652,  0.0388, -0.1708,  ..., -0.2759,  0.0515, -0.2529],
+        [ 0.1679,  0.1049, -0.1636,  ...,  0.1346, -0.2696, -0.3360]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  2.7940e-09,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 1.3970e-09,  7.4506e-09,  0.0000e+00,  ..., -8.8476e-09,
+         -6.5193e-09, -1.6298e-08],
+        [ 9.3132e-10,  6.0536e-09,  0.0000e+00,  ...,  6.0536e-09,
+          5.1223e-09,  8.8476e-09],
+        ...,
+        [ 3.7253e-09,  6.0536e-09,  0.0000e+00,  ...,  6.0536e-09,
+          1.3970e-09,  3.2596e-09],
+        [ 4.6566e-10,  3.7253e-09,  0.0000e+00,  ...,  1.3970e-09,
+          9.3132e-10,  1.8626e-09],
+        [-1.0710e-08,  6.0536e-09,  0.0000e+00,  ..., -1.2107e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 388, bias, value: tensor([-0.0408, -0.0414, -0.0089, -0.0102,  0.0023,  0.0079,  0.0065, -0.0080,
+         0.0156, -0.0450], device='cuda:0'), grad: tensor([ 1.3970e-08, -7.4506e-09,  5.7742e-08,  5.7183e-07,  4.5635e-08,
+        -9.0990e-07,  1.6857e-07,  2.2817e-08,  2.3283e-08,  3.7253e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 387, time 217.74, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4519 re_mapping 0.0028 re_causal 0.0086 /// teacc 99.16 lr 0.00010000
+Epoch 389, weight, value: tensor([[-0.1272,  0.0204,  0.1617,  ...,  0.0102, -0.1349, -0.1118],
+        [-0.2492, -0.2523, -0.2305,  ...,  0.1211,  0.0700,  0.4360],
+        [-0.2864, -0.1958, -0.2609,  ..., -0.3268,  0.0180, -0.2619],
+        ...,
+        [-0.2217, -0.2881, -0.0148,  ..., -0.2834, -0.1629, -0.5027],
+        [ 0.1654,  0.0388, -0.1711,  ..., -0.2760,  0.0512, -0.2538],
+        [ 0.1680,  0.1058, -0.1644,  ...,  0.1354, -0.2700, -0.3374]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  1.3970e-09,  ...,  1.1176e-08,
+          4.7497e-08, -5.3085e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  3.2596e-09],
+        ...,
+        [ 0.0000e+00, -4.6566e-10,  4.6566e-10,  ...,  0.0000e+00,
+          1.4901e-08,  5.0757e-08],
+        [ 4.1910e-09,  4.1910e-09,  4.6566e-10,  ...,  4.1910e-09,
+          0.0000e+00,  4.6566e-10],
+        [-6.9849e-09, -6.9849e-09,  2.6962e-07,  ..., -5.5879e-09,
+          3.3015e-07, -9.3132e-10]], device='cuda:0')
+Epoch 389, bias, value: tensor([-0.0408, -0.0413, -0.0089, -0.0089,  0.0026,  0.0071,  0.0067, -0.0080,
+         0.0155, -0.0450], device='cuda:0'), grad: tensor([ 2.3283e-09,  8.5682e-08,  9.3132e-10,  4.6566e-09, -2.0936e-06,
+         4.6566e-09,  9.3132e-09,  7.4971e-08,  1.8161e-08,  1.8906e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 388, time 217.51, cls_loss 0.0005 cls_loss_mapping 0.0008 cls_loss_causal 0.4855 re_mapping 0.0028 re_causal 0.0091 /// teacc 99.19 lr 0.00010000
+Epoch 390, weight, value: tensor([[-0.1276,  0.0204,  0.1621,  ...,  0.0103, -0.1352, -0.1119],
+        [-0.2498, -0.2527, -0.2307,  ...,  0.1211,  0.0701,  0.4363],
+        [-0.2869, -0.1961, -0.2610,  ..., -0.3271,  0.0182, -0.2620],
+        ...,
+        [-0.2222, -0.2883, -0.0149,  ..., -0.2836, -0.1634, -0.5030],
+        [ 0.1654,  0.0385, -0.1718,  ..., -0.2762,  0.0513, -0.2539],
+        [ 0.1683,  0.1060, -0.1666,  ...,  0.1357, -0.2708, -0.3380]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-09,  4.6566e-10,  1.8626e-09,  ...,  1.8626e-09,
+          1.3970e-09,  0.0000e+00],
+        [ 1.3970e-09,  7.9628e-08,  4.6566e-10,  ...,  9.3132e-10,
+          1.8626e-09,  5.0291e-08],
+        [ 6.5193e-09, -9.3132e-10,  3.7253e-09,  ...,  1.3970e-09,
+          7.4506e-09,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          9.3132e-10,  1.3970e-09],
+        [-1.5367e-08, -9.3132e-10, -1.1176e-08,  ..., -1.2573e-08,
+         -9.3132e-09,  0.0000e+00],
+        [ 9.3132e-10,  5.1223e-09,  4.6566e-10,  ...,  3.7253e-09,
+          4.6566e-10,  0.0000e+00]], device='cuda:0')
+Epoch 390, bias, value: tensor([-0.0409, -0.0414, -0.0085, -0.0086,  0.0040,  0.0067,  0.0071, -0.0081,
+         0.0152, -0.0464], device='cuda:0'), grad: tensor([ 2.2817e-08,  2.1001e-07, -5.9605e-08, -5.5414e-08,  9.3132e-09,
+        -1.9325e-07,  8.1491e-08,  8.8476e-09, -9.0338e-08,  7.9162e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 389, time 217.63, cls_loss 0.0005 cls_loss_mapping 0.0009 cls_loss_causal 0.4484 re_mapping 0.0029 re_causal 0.0087 /// teacc 99.15 lr 0.00010000
+Epoch 391, weight, value: tensor([[-0.1281,  0.0200,  0.1621,  ...,  0.0101, -0.1356, -0.1119],
+        [-0.2502, -0.2531, -0.2310,  ...,  0.1211,  0.0701,  0.4365],
+        [-0.2875, -0.1966, -0.2611,  ..., -0.3274,  0.0183, -0.2620],
+        ...,
+        [-0.2226, -0.2885, -0.0149,  ..., -0.2837, -0.1636, -0.5032],
+        [ 0.1655,  0.0385, -0.1720,  ..., -0.2763,  0.0512, -0.2539],
+        [ 0.1686,  0.1062, -0.1667,  ...,  0.1360, -0.2710, -0.3381]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  1.3970e-09,  5.5879e-09,  ...,  1.1642e-08,
+          9.3132e-10,  5.1223e-09],
+        [ 4.6566e-10,  4.6566e-10,  1.2945e-07,  ...,  2.7381e-07,
+          0.0000e+00,  1.1735e-07],
+        [ 4.6566e-10,  0.0000e+00,  4.6566e-10,  ...,  9.3132e-10,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [-6.9849e-09, -4.6566e-09,  9.3132e-10,  ...,  2.7940e-09,
+         -3.7253e-09,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 391, bias, value: tensor([-0.0414, -0.0427, -0.0080, -0.0082,  0.0037,  0.0071,  0.0066, -0.0069,
+         0.0151, -0.0462], device='cuda:0'), grad: tensor([ 2.7940e-08,  5.5134e-07,  2.7940e-09,  9.3132e-09,  1.8626e-09,
+         3.2596e-09, -5.7509e-07, -2.7940e-09, -1.5832e-08,  2.7940e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 390, time 218.05, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4553 re_mapping 0.0029 re_causal 0.0087 /// teacc 99.14 lr 0.00010000
+Epoch 392, weight, value: tensor([[-0.1290,  0.0211,  0.1643,  ...,  0.0107, -0.1361, -0.1119],
+        [-0.2503, -0.2534, -0.2313,  ...,  0.1211,  0.0701,  0.4367],
+        [-0.2882, -0.1972, -0.2615,  ..., -0.3276,  0.0183, -0.2620],
+        ...,
+        [-0.2229, -0.2888, -0.0150,  ..., -0.2837, -0.1637, -0.5034],
+        [ 0.1656,  0.0385, -0.1725,  ..., -0.2765,  0.0513, -0.2540],
+        [ 0.1687,  0.1062, -0.1669,  ...,  0.1360, -0.2717, -0.3391]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.7940e-09,  1.3970e-08,  ...,  3.7253e-09,
+          1.8626e-08, -8.3819e-09],
+        [ 9.3132e-10,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.1176e-08,  9.3132e-10],
+        ...,
+        [ 9.3132e-10,  2.7940e-09,  0.0000e+00,  ...,  9.3132e-10,
+         -5.5879e-08,  3.7253e-09],
+        [ 3.7253e-09,  5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  9.3132e-10],
+        [-5.5879e-09,  3.7253e-09, -1.8626e-09,  ..., -1.5832e-08,
+          1.8626e-09,  9.3132e-10]], device='cuda:0')
+Epoch 392, bias, value: tensor([-0.0403, -0.0428, -0.0075, -0.0089,  0.0038,  0.0073,  0.0067, -0.0069,
+         0.0151, -0.0464], device='cuda:0'), grad: tensor([ 1.0245e-08,  7.0781e-08,  4.7497e-08,  7.2643e-08,  1.3039e-07,
+        -2.4680e-07,  6.7055e-08, -1.8254e-07,  2.4214e-08, -2.7940e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 391, time 217.97, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4628 re_mapping 0.0029 re_causal 0.0085 /// teacc 99.17 lr 0.00010000
+Epoch 393, weight, value: tensor([[-0.1294,  0.0209,  0.1643,  ...,  0.0103, -0.1366, -0.1121],
+        [-0.2506, -0.2535, -0.2314,  ...,  0.1212,  0.0705,  0.4373],
+        [-0.2892, -0.1977, -0.2622,  ..., -0.3287,  0.0180, -0.2626],
+        ...,
+        [-0.2233, -0.2889, -0.0149,  ..., -0.2838, -0.1638, -0.5036],
+        [ 0.1657,  0.0385, -0.1726,  ..., -0.2765,  0.0516, -0.2541],
+        [ 0.1690,  0.1064, -0.1670,  ...,  0.1363, -0.2719, -0.3394]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        ...,
+        [-1.7695e-08, -6.5193e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 3.7253e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 1.1176e-08,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 393, bias, value: tensor([-0.0409, -0.0427, -0.0082, -0.0094,  0.0037,  0.0075,  0.0067, -0.0068,
+         0.0151, -0.0463], device='cuda:0'), grad: tensor([ 0.0000e+00,  3.7253e-09,  7.4506e-09,  2.3469e-07,  1.0245e-08,
+        -2.4028e-07,  2.7940e-09, -9.4064e-08,  1.7695e-08,  6.5193e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 392, time 217.61, cls_loss 0.0006 cls_loss_mapping 0.0011 cls_loss_causal 0.4822 re_mapping 0.0028 re_causal 0.0084 /// teacc 99.14 lr 0.00010000
+Epoch 394, weight, value: tensor([[-0.1297,  0.0213,  0.1658,  ...,  0.0102, -0.1368, -0.1118],
+        [-0.2509, -0.2537, -0.2322,  ...,  0.1212,  0.0705,  0.4378],
+        [-0.2900, -0.1982, -0.2627,  ..., -0.3292,  0.0179, -0.2627],
+        ...,
+        [-0.2235, -0.2891, -0.0147,  ..., -0.2838, -0.1641, -0.5044],
+        [ 0.1659,  0.0384, -0.1731,  ..., -0.2767,  0.0520, -0.2543],
+        [ 0.1691,  0.1063, -0.1675,  ...,  0.1364, -0.2724, -0.3402]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 6.1467e-08,  1.6764e-08,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-6.4261e-08, -1.8626e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -2.5146e-08, -9.3132e-10],
+        [ 9.3132e-10,  0.0000e+00,  4.4703e-08,  ...,  9.3132e-10,
+          4.0978e-08,  0.0000e+00]], device='cuda:0')
+Epoch 394, bias, value: tensor([-0.0401, -0.0427, -0.0078, -0.0095,  0.0037,  0.0076,  0.0067, -0.0068,
+         0.0152, -0.0467], device='cuda:0'), grad: tensor([ 9.3132e-10,  3.7253e-09,  3.8836e-07,  9.3132e-10, -2.4308e-07,
+        -1.8626e-09,  0.0000e+00, -2.7940e-09, -4.0419e-07,  2.5984e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 393, time 217.90, cls_loss 0.0005 cls_loss_mapping 0.0010 cls_loss_causal 0.4262 re_mapping 0.0029 re_causal 0.0082 /// teacc 99.24 lr 0.00010000
+Epoch 395, weight, value: tensor([[-0.1298,  0.0220,  0.1661,  ...,  0.0103, -0.1374, -0.1118],
+        [-0.2511, -0.2539, -0.2325,  ...,  0.1214,  0.0706,  0.4392],
+        [-0.2907, -0.1988, -0.2629,  ..., -0.3294,  0.0178, -0.2628],
+        ...,
+        [-0.2243, -0.2895, -0.0146,  ..., -0.2842, -0.1643, -0.5064],
+        [ 0.1663,  0.0388, -0.1732,  ..., -0.2768,  0.0523, -0.2544],
+        [ 0.1693,  0.1064, -0.1676,  ...,  0.1367, -0.2725, -0.3405]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -3.7253e-09, -2.7940e-08,  ..., -8.3819e-09,
+          0.0000e+00,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ..., -9.3132e-09,
+         -2.1420e-08, -7.9162e-08],
+        [ 0.0000e+00,  9.3132e-10,  4.6566e-09,  ...,  4.6566e-09,
+          4.6566e-09,  1.7695e-08],
+        ...,
+        [ 9.3132e-10,  9.3132e-10,  9.3132e-10,  ...,  2.7940e-09,
+          1.8626e-09,  1.0245e-08],
+        [ 9.3132e-10,  2.7940e-09,  1.1176e-08,  ...,  8.3819e-09,
+         -9.3132e-10,  1.3039e-08],
+        [-1.2107e-08, -9.3132e-09,  2.7940e-09,  ..., -3.7253e-09,
+          2.7940e-09,  6.5193e-09]], device='cuda:0')
+Epoch 395, bias, value: tensor([-0.0401, -0.0422, -0.0079, -0.0094,  0.0035,  0.0074,  0.0067, -0.0073,
+         0.0155, -0.0465], device='cuda:0'), grad: tensor([-4.4703e-08, -5.9605e-08,  5.9605e-08,  3.7253e-09,  3.7253e-08,
+         3.5390e-08,  4.7497e-08, -2.2911e-07,  5.2154e-08,  1.0245e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 394, time 217.48, cls_loss 0.0005 cls_loss_mapping 0.0010 cls_loss_causal 0.4750 re_mapping 0.0028 re_causal 0.0084 /// teacc 99.20 lr 0.00010000
+Epoch 396, weight, value: tensor([[-0.1302,  0.0220,  0.1672,  ...,  0.0107, -0.1385, -0.1120],
+        [-0.2515, -0.2542, -0.2329,  ...,  0.1215,  0.0707,  0.4397],
+        [-0.2924, -0.2007, -0.2642,  ..., -0.3316,  0.0175, -0.2628],
+        ...,
+        [-0.2246, -0.2897, -0.0145,  ..., -0.2843, -0.1645, -0.5067],
+        [ 0.1664,  0.0387, -0.1737,  ..., -0.2770,  0.0527, -0.2542],
+        [ 0.1696,  0.1067, -0.1677,  ...,  0.1370, -0.2726, -0.3408]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  9.3132e-10,  9.3132e-10,  ...,  9.3132e-10,
+          1.8626e-09,  0.0000e+00],
+        [ 5.5879e-09,  3.7253e-09,  0.0000e+00,  ...,  3.7253e-09,
+          2.7940e-09,  0.0000e+00],
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [-1.2107e-08, -1.2107e-08,  0.0000e+00,  ...,  1.8626e-09,
+         -1.9558e-08,  0.0000e+00],
+        [-8.3819e-09, -1.8626e-09,  0.0000e+00,  ..., -1.3970e-08,
+          9.3132e-09,  0.0000e+00]], device='cuda:0')
+Epoch 396, bias, value: tensor([-0.0399, -0.0422, -0.0081, -0.0085,  0.0033,  0.0074,  0.0067, -0.0073,
+         0.0155, -0.0464], device='cuda:0'), grad: tensor([ 1.5832e-08,  1.3225e-07, -7.4506e-08,  3.1665e-08,  2.1420e-08,
+         1.6764e-08,  1.0245e-08, -7.2643e-08, -1.0617e-07,  3.2596e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 395, time 217.81, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4754 re_mapping 0.0027 re_causal 0.0085 /// teacc 99.15 lr 0.00010000
+Epoch 397, weight, value: tensor([[-0.1315,  0.0217,  0.1677,  ...,  0.0104, -0.1388, -0.1120],
+        [-0.2518, -0.2545, -0.2328,  ...,  0.1216,  0.0708,  0.4401],
+        [-0.2940, -0.2021, -0.2643,  ..., -0.3328,  0.0177, -0.2629],
+        ...,
+        [-0.2250, -0.2900, -0.0145,  ..., -0.2843, -0.1649, -0.5069],
+        [ 0.1667,  0.0389, -0.1739,  ..., -0.2770,  0.0527, -0.2542],
+        [ 0.1703,  0.1071, -0.1681,  ...,  0.1371, -0.2739, -0.3410]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  2.7940e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 9.3132e-10,  9.3132e-10,  4.6566e-09,  ...,  0.0000e+00,
+          1.3039e-08, -9.8720e-08],
+        [ 1.8626e-09,  1.8626e-09,  9.3132e-10,  ...,  3.7253e-09,
+          2.7940e-09,  2.5146e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-09,
+          9.3132e-10,  7.4506e-08],
+        [-5.5879e-09, -5.5879e-09,  5.5879e-08,  ...,  1.9930e-07,
+          7.1712e-08, -1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  9.3132e-10,
+          1.1176e-08,  9.3132e-10]], device='cuda:0')
+Epoch 397, bias, value: tensor([-0.0403, -0.0423, -0.0077, -0.0080,  0.0031,  0.0072,  0.0069, -0.0073,
+         0.0156, -0.0463], device='cuda:0'), grad: tensor([ 2.8871e-08, -1.3225e-07,  8.3819e-08,  1.0617e-07, -6.7055e-08,
+         2.1420e-07, -1.8580e-06,  1.6484e-07,  1.4035e-06,  5.4017e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 396, time 217.74, cls_loss 0.0004 cls_loss_mapping 0.0007 cls_loss_causal 0.4165 re_mapping 0.0031 re_causal 0.0085 /// teacc 99.17 lr 0.00010000
+Epoch 398, weight, value: tensor([[-0.1320,  0.0215,  0.1679,  ...,  0.0103, -0.1390, -0.1121],
+        [-0.2522, -0.2546, -0.2330,  ...,  0.1216,  0.0708,  0.4404],
+        [-0.2943, -0.2021, -0.2645,  ..., -0.3330,  0.0178, -0.2630],
+        ...,
+        [-0.2259, -0.2903, -0.0144,  ..., -0.2844, -0.1651, -0.5072],
+        [ 0.1668,  0.0390, -0.1741,  ..., -0.2773,  0.0528, -0.2544],
+        [ 0.1706,  0.1072, -0.1682,  ...,  0.1373, -0.2741, -0.3411]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  9.3132e-10, -9.3132e-10,  ..., -9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 5.5879e-09,  9.3132e-10,  5.5879e-09,  ..., -9.3132e-10,
+          1.5832e-08, -5.5879e-09],
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+          9.3132e-10,  3.7253e-09],
+        ...,
+        [ 1.8626e-09,  1.8626e-09,  9.3132e-10,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [-2.0489e-08,  5.5879e-09, -2.1420e-08,  ...,  9.3132e-10,
+         -7.3574e-08,  9.3132e-10],
+        [-9.3132e-10,  1.5832e-08,  0.0000e+00,  ..., -9.3132e-10,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 398, bias, value: tensor([-0.0408, -0.0423, -0.0072, -0.0081,  0.0031,  0.0067,  0.0073, -0.0074,
+         0.0156, -0.0463], device='cuda:0'), grad: tensor([ 2.7940e-09,  9.6858e-08,  2.1420e-08, -3.1665e-08,  4.6566e-09,
+         4.1910e-08,  1.3411e-07, -1.6764e-07, -2.7753e-07,  1.7602e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 397, time 217.65, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4966 re_mapping 0.0029 re_causal 0.0087 /// teacc 99.12 lr 0.00010000
+Epoch 399, weight, value: tensor([[-0.1322,  0.0216,  0.1679,  ...,  0.0102, -0.1396, -0.1124],
+        [-0.2527, -0.2549, -0.2331,  ...,  0.1223,  0.0719,  0.4409],
+        [-0.2957, -0.2023, -0.2649,  ..., -0.3333,  0.0176, -0.2631],
+        ...,
+        [-0.2266, -0.2906, -0.0144,  ..., -0.2851, -0.1669, -0.5077],
+        [ 0.1671,  0.0392, -0.1741,  ..., -0.2774,  0.0536, -0.2544],
+        [ 0.1707,  0.1071, -0.1684,  ...,  0.1374, -0.2748, -0.3413]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          0.0000e+00, -2.7940e-09],
+        [ 6.5193e-09,  3.7253e-09,  0.0000e+00,  ...,  3.7253e-09,
+          1.1176e-08,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          9.3132e-10,  9.3132e-10],
+        [-7.4506e-09, -4.6566e-09,  0.0000e+00,  ...,  9.3132e-10,
+         -1.2107e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 399, bias, value: tensor([-0.0413, -0.0422, -0.0078, -0.0070,  0.0031,  0.0063,  0.0074, -0.0074,
+         0.0160, -0.0466], device='cuda:0'), grad: tensor([ 3.4459e-08,  5.0291e-08,  1.1548e-07,  9.3132e-10,  1.1735e-07,
+         6.5193e-09, -3.2317e-07,  6.5193e-09, -1.3970e-08,  8.3819e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 398, time 217.68, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4535 re_mapping 0.0029 re_causal 0.0084 /// teacc 99.14 lr 0.00010000
+Epoch 400, weight, value: tensor([[-0.1323,  0.0198,  0.1677,  ...,  0.0078, -0.1401, -0.1130],
+        [-0.2536, -0.2550, -0.2337,  ...,  0.1223,  0.0720,  0.4414],
+        [-0.2965, -0.2024, -0.2668,  ..., -0.3337,  0.0165, -0.2635],
+        ...,
+        [-0.2270, -0.2908, -0.0143,  ..., -0.2852, -0.1670, -0.5079],
+        [ 0.1672,  0.0392, -0.1739,  ..., -0.2776,  0.0550, -0.2534],
+        [ 0.1735,  0.1086, -0.1686,  ...,  0.1382, -0.2754, -0.3418]],
+       device='cuda:0'), grad: tensor([[ 5.4948e-08,  4.5635e-08,  1.6764e-08,  ...,  1.0803e-07,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  1.8626e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 4.6566e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-4.6566e-09, -2.7940e-09,  9.3132e-10,  ...,  3.7253e-09,
+         -4.6566e-09,  0.0000e+00],
+        [-5.7742e-08, -4.7497e-08, -1.6764e-08,  ..., -1.1269e-07,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 400, bias, value: tensor([-0.0438, -0.0423, -0.0079, -0.0070,  0.0007,  0.0064,  0.0074, -0.0073,
+         0.0164, -0.0441], device='cuda:0'), grad: tensor([ 2.5518e-07,  8.3819e-09,  4.0047e-08,  1.8626e-09,  3.4459e-08,
+         1.8626e-08, -4.2841e-08,  7.4506e-09, -5.3085e-08, -2.6263e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 399, time 217.79, cls_loss 0.0004 cls_loss_mapping 0.0009 cls_loss_causal 0.4494 re_mapping 0.0028 re_causal 0.0082 /// teacc 99.15 lr 0.00001000
+Epoch 401, weight, value: tensor([[-0.1325,  0.0202,  0.1689,  ...,  0.0081, -0.1405, -0.1130],
+        [-0.2540, -0.2553, -0.2343,  ...,  0.1224,  0.0718,  0.4416],
+        [-0.2968, -0.2024, -0.2671,  ..., -0.3337,  0.0166, -0.2636],
+        ...,
+        [-0.2273, -0.2909, -0.0144,  ..., -0.2854, -0.1671, -0.5083],
+        [ 0.1658,  0.0384, -0.1744,  ..., -0.2778,  0.0544, -0.2534],
+        [ 0.1738,  0.1088, -0.1687,  ...,  0.1383, -0.2756, -0.3420]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.7416e-07,  ...,  0.0000e+00,
+          8.4750e-08,  6.5193e-09],
+        [ 9.3132e-10,  0.0000e+00,  7.4506e-09,  ..., -2.7940e-09,
+          9.3132e-10, -1.4901e-08],
+        [ 0.0000e+00,  0.0000e+00,  7.8231e-08,  ...,  1.8626e-09,
+          4.0047e-08,  1.3039e-08],
+        ...,
+        [ 2.7940e-09,  1.8626e-09,  4.6566e-09,  ...,  9.3132e-10,
+          3.7253e-09,  3.7253e-09],
+        [-6.5193e-09, -4.6566e-09,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 9.3132e-10,  1.8626e-09,  2.7940e-09,  ..., -1.8626e-09,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 401, bias, value: tensor([-0.0431, -0.0423, -0.0075, -0.0061,  0.0005,  0.0063,  0.0074, -0.0074,
+         0.0159, -0.0439], device='cuda:0'), grad: tensor([ 4.5728e-07,  1.8626e-09,  2.1514e-07,  8.3819e-09, -8.5682e-07,
+         5.5879e-09,  1.4808e-07,  2.7940e-08, -1.3039e-08,  1.3970e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 400, time 217.83, cls_loss 0.0005 cls_loss_mapping 0.0007 cls_loss_causal 0.4416 re_mapping 0.0026 re_causal 0.0079 /// teacc 99.16 lr 0.00001000
+Epoch 402, weight, value: tensor([[-0.1324,  0.0203,  0.1690,  ...,  0.0081, -0.1406, -0.1130],
+        [-0.2540, -0.2553, -0.2344,  ...,  0.1224,  0.0718,  0.4417],
+        [-0.2969, -0.2024, -0.2673,  ..., -0.3337,  0.0166, -0.2636],
+        ...,
+        [-0.2273, -0.2909, -0.0144,  ..., -0.2855, -0.1672, -0.5083],
+        [ 0.1658,  0.0385, -0.1744,  ..., -0.2778,  0.0544, -0.2534],
+        [ 0.1738,  0.1088, -0.1687,  ...,  0.1384, -0.2756, -0.3420]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  2.7940e-09,  0.0000e+00,  ...,  1.8626e-09,
+          1.8626e-09,  9.3132e-10],
+        [ 9.3132e-09,  4.6566e-09,  0.0000e+00,  ...,  9.3132e-10,
+         -4.6566e-09, -3.0734e-08],
+        [ 4.6566e-09,  1.8626e-09,  0.0000e+00,  ...,  5.5879e-09,
+          2.7940e-09,  5.5879e-09],
+        ...,
+        [ 1.8626e-09,  9.3132e-10,  0.0000e+00,  ...,  3.7253e-09,
+          2.7940e-09,  8.3819e-09],
+        [-7.1712e-08, -7.0781e-08, -2.7940e-09,  ..., -7.4506e-09,
+         -4.0978e-08,  9.3132e-10],
+        [ 5.9605e-08,  5.7742e-08,  3.7253e-09,  ...,  1.2107e-08,
+          3.4459e-08,  9.3132e-10]], device='cuda:0')
+Epoch 402, bias, value: tensor([-0.0430, -0.0423, -0.0075, -0.0060,  0.0005,  0.0063,  0.0074, -0.0074,
+         0.0159, -0.0439], device='cuda:0'), grad: tensor([ 1.3039e-08,  3.0734e-08, -7.6368e-08, -8.6613e-08,  1.3970e-08,
+         4.0978e-08,  2.5146e-08,  5.6811e-08, -2.2165e-07,  2.0955e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 401, time 217.77, cls_loss 0.0004 cls_loss_mapping 0.0005 cls_loss_causal 0.4499 re_mapping 0.0025 re_causal 0.0080 /// teacc 99.14 lr 0.00001000
+Epoch 403, weight, value: tensor([[-0.1325,  0.0202,  0.1691,  ...,  0.0081, -0.1406, -0.1130],
+        [-0.2540, -0.2553, -0.2344,  ...,  0.1224,  0.0718,  0.4417],
+        [-0.2969, -0.2024, -0.2673,  ..., -0.3337,  0.0166, -0.2636],
+        ...,
+        [-0.2273, -0.2909, -0.0144,  ..., -0.2855, -0.1672, -0.5084],
+        [ 0.1658,  0.0385, -0.1744,  ..., -0.2778,  0.0545, -0.2534],
+        [ 0.1738,  0.1088, -0.1687,  ...,  0.1384, -0.2757, -0.3420]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  1.8626e-09,  0.0000e+00,  ...,  1.8626e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -9.9652e-08,
+         -5.4948e-08, -2.0489e-08],
+        [ 1.8626e-09,  9.3132e-10,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.5926e-08,
+          5.3085e-08,  2.0489e-08],
+        [-2.7940e-09,  9.3132e-10,  1.8626e-09,  ...,  3.7253e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10,  9.3132e-10,  1.8626e-09,  ...,  5.5879e-09,
+          3.7253e-09,  9.3132e-10]], device='cuda:0')
+Epoch 403, bias, value: tensor([-0.0430, -0.0425, -0.0075, -0.0060,  0.0005,  0.0063,  0.0074, -0.0072,
+         0.0159, -0.0439], device='cuda:0'), grad: tensor([ 8.3819e-09, -2.4214e-07, -3.7253e-09, -1.2107e-08, -7.4506e-09,
+         1.2107e-08, -1.7695e-08,  2.0210e-07,  4.0047e-08,  1.8626e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 402, time 217.56, cls_loss 0.0005 cls_loss_mapping 0.0005 cls_loss_causal 0.4139 re_mapping 0.0025 re_causal 0.0078 /// teacc 99.11 lr 0.00001000
+Epoch 404, weight, value: tensor([[-0.1326,  0.0202,  0.1692,  ...,  0.0081, -0.1406, -0.1130],
+        [-0.2542, -0.2554, -0.2345,  ...,  0.1224,  0.0718,  0.4418],
+        [-0.2969, -0.2024, -0.2674,  ..., -0.3337,  0.0166, -0.2637],
+        ...,
+        [-0.2274, -0.2910, -0.0144,  ..., -0.2855, -0.1672, -0.5084],
+        [ 0.1659,  0.0385, -0.1745,  ..., -0.2778,  0.0545, -0.2535],
+        [ 0.1738,  0.1088, -0.1688,  ...,  0.1384, -0.2758, -0.3421]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -9.3132e-10,  ..., -9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 3.7253e-09,  9.3132e-10,  5.5879e-09,  ...,  9.3132e-10,
+          1.3970e-08,  2.7940e-09],
+        [ 1.4901e-08,  0.0000e+00,  8.3819e-09,  ...,  0.0000e+00,
+          5.6811e-08,  3.3528e-08],
+        ...,
+        [ 1.8626e-09,  1.8626e-09,  0.0000e+00,  ...,  1.8626e-09,
+          9.3132e-10,  1.8626e-09],
+        [-1.8626e-08,  9.3132e-10, -1.0245e-08,  ...,  9.3132e-10,
+         -6.7055e-08, -3.8184e-08],
+        [-1.6764e-08, -1.0245e-08,  1.0245e-08,  ..., -1.7695e-08,
+          1.3039e-08,  0.0000e+00]], device='cuda:0')
+Epoch 404, bias, value: tensor([-0.0430, -0.0425, -0.0074, -0.0059,  0.0005,  0.0063,  0.0074, -0.0072,
+         0.0159, -0.0439], device='cuda:0'), grad: tensor([-9.3132e-10,  4.9360e-08,  1.7416e-07,  6.4261e-08, -3.0734e-08,
+        -7.8231e-08,  1.1176e-08,  9.3132e-09, -2.0023e-07,  1.8626e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 403, time 217.85, cls_loss 0.0005 cls_loss_mapping 0.0005 cls_loss_causal 0.4298 re_mapping 0.0025 re_causal 0.0076 /// teacc 99.14 lr 0.00001000
+Epoch 405, weight, value: tensor([[-0.1327,  0.0201,  0.1692,  ...,  0.0081, -0.1406, -0.1130],
+        [-0.2542, -0.2554, -0.2345,  ...,  0.1225,  0.0718,  0.4418],
+        [-0.2970, -0.2024, -0.2674,  ..., -0.3337,  0.0166, -0.2637],
+        ...,
+        [-0.2274, -0.2910, -0.0144,  ..., -0.2855, -0.1672, -0.5085],
+        [ 0.1659,  0.0385, -0.1745,  ..., -0.2778,  0.0545, -0.2535],
+        [ 0.1738,  0.1088, -0.1688,  ...,  0.1385, -0.2759, -0.3421]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  9.3132e-10,  9.3132e-10,  ...,  0.0000e+00,
+         -9.3132e-10, -1.0245e-08],
+        [ 2.7940e-09,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+          2.7940e-09,  9.3132e-10],
+        ...,
+        [ 1.3039e-08,  6.5193e-09,  0.0000e+00,  ...,  1.3039e-08,
+          8.3819e-09,  5.5879e-09],
+        [ 1.8626e-09,  1.8626e-09,  1.8626e-09,  ...,  4.6566e-09,
+          9.3132e-10,  9.3132e-10],
+        [ 2.7940e-09,  9.3132e-10,  0.0000e+00,  ...,  2.7940e-09,
+          1.8626e-09,  9.3132e-10]], device='cuda:0')
+Epoch 405, bias, value: tensor([-0.0430, -0.0425, -0.0074, -0.0059,  0.0005,  0.0063,  0.0074, -0.0072,
+         0.0159, -0.0439], device='cuda:0'), grad: tensor([ 4.6566e-09,  0.0000e+00,  1.2107e-08, -1.2759e-07,  5.5879e-09,
+         5.5879e-09, -2.5146e-08,  7.6368e-08,  2.2352e-08,  1.8626e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 404, time 217.70, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4610 re_mapping 0.0024 re_causal 0.0078 /// teacc 99.16 lr 0.00001000
+Epoch 406, weight, value: tensor([[-0.1329,  0.0200,  0.1692,  ...,  0.0079, -0.1406, -0.1130],
+        [-0.2543, -0.2554, -0.2345,  ...,  0.1225,  0.0718,  0.4419],
+        [-0.2970, -0.2025, -0.2674,  ..., -0.3338,  0.0166, -0.2637],
+        ...,
+        [-0.2275, -0.2910, -0.0144,  ..., -0.2855, -0.1672, -0.5085],
+        [ 0.1659,  0.0385, -0.1745,  ..., -0.2778,  0.0546, -0.2535],
+        [ 0.1738,  0.1088, -0.1688,  ...,  0.1385, -0.2759, -0.3421]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ..., -6.5193e-09,
+         -5.5879e-09, -2.2352e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          1.8626e-09,  7.4506e-09],
+        ...,
+        [ 9.3132e-10,  1.8626e-09,  0.0000e+00,  ...,  1.8626e-09,
+          1.8626e-09,  7.4506e-09],
+        [-9.3132e-10, -9.3132e-10,  1.9558e-08,  ...,  1.9558e-08,
+         -1.8626e-09,  9.3132e-10],
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 406, bias, value: tensor([-0.0431, -0.0425, -0.0073, -0.0059,  0.0005,  0.0063,  0.0074, -0.0072,
+         0.0160, -0.0439], device='cuda:0'), grad: tensor([ 1.2107e-08, -2.6077e-08, -1.8626e-08,  1.4901e-07,  5.5879e-09,
+        -1.5460e-07, -1.2573e-07,  3.4459e-08,  1.2014e-07,  6.5193e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 405, time 217.78, cls_loss 0.0004 cls_loss_mapping 0.0005 cls_loss_causal 0.4287 re_mapping 0.0024 re_causal 0.0075 /// teacc 99.20 lr 0.00001000
+Epoch 407, weight, value: tensor([[-0.1329,  0.0200,  0.1692,  ...,  0.0079, -0.1407, -0.1130],
+        [-0.2543, -0.2554, -0.2345,  ...,  0.1225,  0.0718,  0.4419],
+        [-0.2970, -0.2025, -0.2675,  ..., -0.3338,  0.0166, -0.2637],
+        ...,
+        [-0.2275, -0.2910, -0.0144,  ..., -0.2855, -0.1673, -0.5085],
+        [ 0.1659,  0.0385, -0.1745,  ..., -0.2779,  0.0546, -0.2535],
+        [ 0.1739,  0.1088, -0.1688,  ...,  0.1385, -0.2760, -0.3422]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  1.8626e-09,  0.0000e+00,  ...,  3.7253e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 2.7940e-09,  2.7940e-09,  0.0000e+00,  ...,  2.7940e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  9.3132e-10],
+        [-1.3039e-08, -7.4506e-09,  0.0000e+00,  ..., -1.6764e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 407, bias, value: tensor([-0.0432, -0.0425, -0.0073, -0.0059,  0.0005,  0.0063,  0.0074, -0.0072,
+         0.0160, -0.0439], device='cuda:0'), grad: tensor([ 2.7940e-09,  2.1420e-08, -1.0710e-07,  2.5239e-07,  1.0245e-08,
+        -2.2631e-07, -9.3132e-10,  7.1712e-08,  2.0489e-08, -3.8184e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 406, time 217.58, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4136 re_mapping 0.0024 re_causal 0.0076 /// teacc 99.20 lr 0.00001000
+Epoch 408, weight, value: tensor([[-0.1330,  0.0200,  0.1692,  ...,  0.0079, -0.1407, -0.1130],
+        [-0.2543, -0.2554, -0.2346,  ...,  0.1225,  0.0718,  0.4420],
+        [-0.2970, -0.2025, -0.2675,  ..., -0.3338,  0.0166, -0.2637],
+        ...,
+        [-0.2275, -0.2910, -0.0144,  ..., -0.2856, -0.1673, -0.5086],
+        [ 0.1659,  0.0385, -0.1746,  ..., -0.2779,  0.0546, -0.2536],
+        [ 0.1739,  0.1088, -0.1689,  ...,  0.1386, -0.2761, -0.3422]],
+       device='cuda:0'), grad: tensor([[-1.8626e-09, -3.7253e-09,  6.8918e-08,  ...,  9.0338e-08,
+          2.6077e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.5832e-08,  ...,  1.7695e-08,
+          5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  5.5879e-09,
+          3.7253e-09,  0.0000e+00],
+        [-9.3132e-10,  0.0000e+00,  3.6322e-08,  ...,  9.3132e-10,
+          3.2596e-08,  0.0000e+00]], device='cuda:0')
+Epoch 408, bias, value: tensor([-0.0432, -0.0425, -0.0073, -0.0059,  0.0005,  0.0063,  0.0074, -0.0072,
+         0.0160, -0.0439], device='cuda:0'), grad: tensor([ 3.1386e-07,  6.7055e-08, -1.0245e-08, -3.7253e-09,  4.1910e-08,
+         1.0151e-07, -6.5565e-07,  0.0000e+00,  2.7940e-08,  1.1828e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 407, time 217.88, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4217 re_mapping 0.0024 re_causal 0.0075 /// teacc 99.21 lr 0.00001000
+Epoch 409, weight, value: tensor([[-0.1330,  0.0199,  0.1692,  ...,  0.0078, -0.1408, -0.1131],
+        [-0.2544, -0.2555, -0.2346,  ...,  0.1225,  0.0719,  0.4421],
+        [-0.2971, -0.2025, -0.2675,  ..., -0.3338,  0.0166, -0.2638],
+        ...,
+        [-0.2276, -0.2911, -0.0144,  ..., -0.2856, -0.1673, -0.5087],
+        [ 0.1660,  0.0386, -0.1746,  ..., -0.2779,  0.0546, -0.2536],
+        [ 0.1739,  0.1089, -0.1689,  ...,  0.1386, -0.2761, -0.3423]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 2.7940e-09,  1.8626e-09,  0.0000e+00,  ...,  9.3132e-10,
+          9.3132e-10, -2.7940e-09],
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  9.3132e-10],
+        ...,
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          9.3132e-10,  1.8626e-09],
+        [-2.7940e-09, -9.3132e-10,  1.8626e-09,  ...,  2.7940e-09,
+         -2.7940e-09,  9.3132e-10],
+        [-1.8626e-09, -9.3132e-10,  0.0000e+00,  ..., -2.7940e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 409, bias, value: tensor([-0.0433, -0.0425, -0.0073, -0.0059,  0.0005,  0.0063,  0.0074, -0.0072,
+         0.0160, -0.0439], device='cuda:0'), grad: tensor([ 3.7253e-09,  1.3970e-08, -1.0990e-07, -1.2573e-07,  2.7940e-09,
+         1.1362e-07, -7.4506e-09,  1.1642e-07, -3.7253e-09, -4.6566e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 408, time 217.78, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4255 re_mapping 0.0024 re_causal 0.0077 /// teacc 99.24 lr 0.00001000
+Epoch 410, weight, value: tensor([[-0.1330,  0.0200,  0.1692,  ...,  0.0078, -0.1408, -0.1131],
+        [-0.2544, -0.2555, -0.2346,  ...,  0.1225,  0.0719,  0.4421],
+        [-0.2971, -0.2025, -0.2676,  ..., -0.3338,  0.0166, -0.2638],
+        ...,
+        [-0.2276, -0.2911, -0.0144,  ..., -0.2856, -0.1673, -0.5088],
+        [ 0.1660,  0.0386, -0.1746,  ..., -0.2779,  0.0547, -0.2536],
+        [ 0.1739,  0.1089, -0.1689,  ...,  0.1386, -0.2762, -0.3423]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 7.4506e-09,  5.5879e-09,  9.3132e-10,  ...,  6.5193e-09,
+          0.0000e+00, -2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -9.3132e-10,  2.7940e-09],
+        ...,
+        [ 1.0245e-08,  7.4506e-09, -9.3132e-10,  ...,  9.3132e-09,
+          1.8626e-09,  1.8626e-09],
+        [ 9.3132e-10,  1.8626e-09,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [-1.8626e-09, -9.3132e-10,  0.0000e+00,  ..., -1.4901e-08,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 410, bias, value: tensor([-0.0433, -0.0425, -0.0073, -0.0059,  0.0005,  0.0063,  0.0074, -0.0072,
+         0.0160, -0.0439], device='cuda:0'), grad: tensor([ 8.3819e-09,  5.3085e-08, -3.4459e-08, -1.3970e-07,  5.2154e-08,
+         2.2352e-08,  7.4506e-09,  4.0978e-08,  1.9558e-08, -1.9558e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 409, time 217.47, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4259 re_mapping 0.0024 re_causal 0.0077 /// teacc 99.24 lr 0.00001000
+Epoch 411, weight, value: tensor([[-0.1330,  0.0200,  0.1694,  ...,  0.0079, -0.1408, -0.1131],
+        [-0.2545, -0.2555, -0.2346,  ...,  0.1225,  0.0719,  0.4422],
+        [-0.2971, -0.2025, -0.2676,  ..., -0.3339,  0.0166, -0.2638],
+        ...,
+        [-0.2277, -0.2911, -0.0144,  ..., -0.2856, -0.1673, -0.5088],
+        [ 0.1660,  0.0386, -0.1746,  ..., -0.2779,  0.0547, -0.2537],
+        [ 0.1739,  0.1089, -0.1689,  ...,  0.1387, -0.2762, -0.3424]],
+       device='cuda:0'), grad: tensor([[0.0000e+00, 0.0000e+00, 9.3132e-10,  ..., 9.3132e-10, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 9.3132e-10, 9.3132e-10,  ..., 0.0000e+00, 9.3132e-10,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        ...,
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 2.7940e-09, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 6.5193e-09,  ..., 0.0000e+00, 7.4506e-09,
+         0.0000e+00]], device='cuda:0')
+Epoch 411, bias, value: tensor([-0.0432, -0.0425, -0.0073, -0.0059,  0.0005,  0.0063,  0.0074, -0.0072,
+         0.0160, -0.0439], device='cuda:0'), grad: tensor([ 2.7940e-09,  1.0245e-08,  1.8626e-09,  1.9558e-08, -3.4459e-08,
+        -6.3330e-08,  2.0489e-08, -6.5193e-09,  1.3039e-08,  3.7253e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 410, time 217.34, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4379 re_mapping 0.0023 re_causal 0.0075 /// teacc 99.22 lr 0.00001000
+Epoch 412, weight, value: tensor([[-0.1330,  0.0200,  0.1694,  ...,  0.0079, -0.1409, -0.1131],
+        [-0.2545, -0.2555, -0.2347,  ...,  0.1226,  0.0719,  0.4423],
+        [-0.2972, -0.2025, -0.2677,  ..., -0.3339,  0.0166, -0.2638],
+        ...,
+        [-0.2278, -0.2912, -0.0144,  ..., -0.2856, -0.1673, -0.5089],
+        [ 0.1658,  0.0384, -0.1746,  ..., -0.2780,  0.0546, -0.2537],
+        [ 0.1739,  0.1089, -0.1689,  ...,  0.1387, -0.2762, -0.3424]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -9.3132e-10,
+         -1.8626e-09, -5.1223e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          4.6566e-10,  1.8626e-09],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          4.6566e-10,  1.8626e-09],
+        [-9.3132e-10, -9.3132e-10,  0.0000e+00,  ..., -1.3970e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 412, bias, value: tensor([-0.0432, -0.0425, -0.0073, -0.0058,  0.0005,  0.0063,  0.0074, -0.0072,
+         0.0159, -0.0439], device='cuda:0'), grad: tensor([ 0.0000e+00, -4.6566e-09,  4.6566e-10, -2.7940e-09,  1.8626e-09,
+         2.7940e-09,  9.3132e-10,  9.3132e-10,  3.2596e-09, -9.3132e-10],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 411, time 217.49, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4403 re_mapping 0.0024 re_causal 0.0076 /// teacc 99.25 lr 0.00001000
+Epoch 413, weight, value: tensor([[-0.1330,  0.0200,  0.1694,  ...,  0.0079, -0.1409, -0.1131],
+        [-0.2546, -0.2556, -0.2347,  ...,  0.1226,  0.0719,  0.4423],
+        [-0.2972, -0.2025, -0.2677,  ..., -0.3340,  0.0166, -0.2638],
+        ...,
+        [-0.2279, -0.2912, -0.0144,  ..., -0.2857, -0.1674, -0.5089],
+        [ 0.1658,  0.0384, -0.1747,  ..., -0.2780,  0.0546, -0.2538],
+        [ 0.1739,  0.1089, -0.1690,  ...,  0.1387, -0.2763, -0.3424]],
+       device='cuda:0'), grad: tensor([[1.8626e-09, 0.0000e+00, 1.8161e-08,  ..., 2.7008e-08, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 4.6566e-10,  ..., 9.3132e-10, 0.0000e+00,
+         0.0000e+00],
+        [4.6566e-10, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        ...,
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 2.3283e-09,  ..., 4.1910e-09, 0.0000e+00,
+         0.0000e+00],
+        [4.6566e-10, 0.0000e+00, 2.7940e-09,  ..., 3.7253e-09, 0.0000e+00,
+         0.0000e+00]], device='cuda:0')
+Epoch 413, bias, value: tensor([-0.0432, -0.0425, -0.0072, -0.0058,  0.0005,  0.0063,  0.0074, -0.0072,
+         0.0159, -0.0439], device='cuda:0'), grad: tensor([ 6.5193e-08,  4.1910e-09,  1.8626e-09, -2.2352e-08,  4.6566e-10,
+         2.9802e-08, -9.2667e-08, -3.2596e-09,  1.0245e-08,  1.0710e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 412, time 217.82, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4235 re_mapping 0.0023 re_causal 0.0076 /// teacc 99.24 lr 0.00001000
+Epoch 414, weight, value: tensor([[-0.1331,  0.0200,  0.1694,  ...,  0.0079, -0.1410, -0.1132],
+        [-0.2546, -0.2556, -0.2347,  ...,  0.1226,  0.0719,  0.4424],
+        [-0.2973, -0.2025, -0.2677,  ..., -0.3340,  0.0165, -0.2639],
+        ...,
+        [-0.2279, -0.2912, -0.0144,  ..., -0.2857, -0.1674, -0.5090],
+        [ 0.1658,  0.0384, -0.1747,  ..., -0.2780,  0.0546, -0.2538],
+        [ 0.1739,  0.1089, -0.1690,  ...,  0.1387, -0.2764, -0.3425]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  4.6566e-10,  1.3970e-09,  ...,  4.6566e-10,
+          1.3970e-09,  4.6566e-10],
+        [ 1.3970e-09,  2.3283e-09,  1.3970e-09,  ..., -1.8626e-09,
+          4.6566e-10, -4.1910e-09],
+        [ 6.5193e-09,  7.4506e-09,  1.0710e-08,  ...,  4.6566e-10,
+          1.4901e-08,  4.6566e-10],
+        ...,
+        [ 4.6566e-10,  9.3132e-10,  9.3132e-10,  ...,  4.6566e-10,
+          1.3970e-09,  4.6566e-10],
+        [-1.6764e-08, -2.0023e-08, -2.8405e-08,  ...,  2.3283e-09,
+         -3.8184e-08,  2.7940e-09],
+        [ 9.3132e-10,  1.3970e-09,  2.7940e-09,  ...,  0.0000e+00,
+          3.2596e-09,  0.0000e+00]], device='cuda:0')
+Epoch 414, bias, value: tensor([-0.0432, -0.0425, -0.0073, -0.0057,  0.0005,  0.0063,  0.0074, -0.0072,
+         0.0158, -0.0439], device='cuda:0'), grad: tensor([ 1.1642e-08,  2.0489e-08,  1.1036e-07, -3.3062e-08,  4.1910e-09,
+         6.4727e-08,  7.1246e-08, -1.8626e-08, -2.5518e-07,  2.2817e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 413, time 217.55, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4146 re_mapping 0.0023 re_causal 0.0075 /// teacc 99.26 lr 0.00001000
+Epoch 415, weight, value: tensor([[-0.1331,  0.0200,  0.1694,  ...,  0.0078, -0.1410, -0.1132],
+        [-0.2547, -0.2556, -0.2347,  ...,  0.1226,  0.0719,  0.4425],
+        [-0.2974, -0.2026, -0.2678,  ..., -0.3341,  0.0165, -0.2639],
+        ...,
+        [-0.2280, -0.2913, -0.0144,  ..., -0.2857, -0.1674, -0.5091],
+        [ 0.1657,  0.0383, -0.1747,  ..., -0.2781,  0.0546, -0.2538],
+        [ 0.1739,  0.1089, -0.1690,  ...,  0.1388, -0.2764, -0.3425]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  9.3132e-10],
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ..., -5.5879e-09,
+         -9.3132e-10, -8.8476e-09],
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  1.3970e-09,
+          4.6566e-10,  2.3283e-09],
+        ...,
+        [ 1.3970e-09,  4.6566e-10,  0.0000e+00,  ...,  3.2596e-09,
+          4.6566e-10,  3.2596e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  4.6566e-10],
+        [-9.3132e-10, -4.6566e-10,  0.0000e+00,  ..., -4.6566e-10,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 415, bias, value: tensor([-0.0432, -0.0426, -0.0073, -0.0056,  0.0005,  0.0063,  0.0074, -0.0072,
+         0.0157, -0.0439], device='cuda:0'), grad: tensor([ 3.2596e-09, -1.3039e-08, -7.9162e-09, -2.3283e-09,  4.6566e-10,
+         3.7253e-09,  4.6566e-10,  1.6764e-08,  4.6566e-10,  4.6566e-10],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 414, time 217.58, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4011 re_mapping 0.0023 re_causal 0.0073 /// teacc 99.25 lr 0.00001000
+Epoch 416, weight, value: tensor([[-0.1331,  0.0200,  0.1695,  ...,  0.0079, -0.1410, -0.1132],
+        [-0.2547, -0.2556, -0.2348,  ...,  0.1226,  0.0719,  0.4425],
+        [-0.2974, -0.2026, -0.2678,  ..., -0.3341,  0.0165, -0.2639],
+        ...,
+        [-0.2280, -0.2913, -0.0144,  ..., -0.2857, -0.1674, -0.5091],
+        [ 0.1657,  0.0383, -0.1748,  ..., -0.2781,  0.0547, -0.2539],
+        [ 0.1740,  0.1089, -0.1691,  ...,  0.1388, -0.2765, -0.3425]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.0536e-09,
+          2.3283e-09,  2.3283e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -4.0978e-08,
+         -1.8161e-08, -2.0489e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          1.3970e-09,  2.3283e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -4.6566e-10,  ...,  3.7253e-09,
+          1.8626e-09,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.4680e-08,
+          1.0710e-08,  9.7789e-09],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          4.6566e-10,  4.6566e-10]], device='cuda:0')
+Epoch 416, bias, value: tensor([-0.0432, -0.0426, -0.0073, -0.0056,  0.0005,  0.0063,  0.0074, -0.0072,
+         0.0158, -0.0439], device='cuda:0'), grad: tensor([ 1.7229e-08, -9.0338e-08,  3.6787e-08,  2.7474e-08,  1.3970e-09,
+        -1.5367e-08,  1.3970e-09, -4.9360e-08,  7.1246e-08,  8.3819e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 415, time 217.58, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4230 re_mapping 0.0023 re_causal 0.0076 /// teacc 99.25 lr 0.00001000
+Epoch 417, weight, value: tensor([[-0.1331,  0.0201,  0.1696,  ...,  0.0079, -0.1410, -0.1132],
+        [-0.2548, -0.2556, -0.2348,  ...,  0.1226,  0.0720,  0.4426],
+        [-0.2974, -0.2026, -0.2679,  ..., -0.3341,  0.0165, -0.2640],
+        ...,
+        [-0.2281, -0.2913, -0.0144,  ..., -0.2857, -0.1675, -0.5091],
+        [ 0.1657,  0.0383, -0.1748,  ..., -0.2781,  0.0547, -0.2539],
+        [ 0.1740,  0.1089, -0.1691,  ...,  0.1388, -0.2766, -0.3425]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  3.2596e-09,  2.3283e-09,  ..., -4.6566e-10,
+          1.3039e-08, -1.8626e-09],
+        [ 4.6566e-10,  4.1910e-09,  3.2596e-09,  ...,  4.6566e-10,
+          1.8626e-08,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  9.3132e-10,  7.4506e-09,  ...,  0.0000e+00,
+          6.0536e-09,  4.6566e-10],
+        [ 3.2596e-09, -5.1223e-09, -6.9849e-09,  ...,  4.1910e-09,
+         -4.0047e-08,  0.0000e+00],
+        [-1.2107e-08, -8.8476e-09,  0.0000e+00,  ..., -1.7695e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 417, bias, value: tensor([-0.0432, -0.0426, -0.0073, -0.0056,  0.0005,  0.0063,  0.0074, -0.0072,
+         0.0158, -0.0439], device='cuda:0'), grad: tensor([ 2.3283e-09,  5.7276e-08,  7.0315e-08,  5.1223e-09, -1.4435e-08,
+         2.2817e-08,  6.5193e-09,  2.5146e-08, -1.5087e-07, -2.2352e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 416, time 217.69, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4210 re_mapping 0.0023 re_causal 0.0076 /// teacc 99.27 lr 0.00001000
+Epoch 418, weight, value: tensor([[-0.1331,  0.0201,  0.1696,  ...,  0.0079, -0.1411, -0.1132],
+        [-0.2548, -0.2557, -0.2348,  ...,  0.1226,  0.0720,  0.4426],
+        [-0.2975, -0.2026, -0.2680,  ..., -0.3342,  0.0165, -0.2640],
+        ...,
+        [-0.2281, -0.2913, -0.0144,  ..., -0.2857, -0.1675, -0.5092],
+        [ 0.1658,  0.0383, -0.1748,  ..., -0.2781,  0.0547, -0.2540],
+        [ 0.1740,  0.1089, -0.1691,  ...,  0.1388, -0.2767, -0.3425]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -2.3283e-09,
+         -9.3132e-10, -6.5193e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+          4.6566e-10,  4.6566e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.3970e-09],
+        [-9.3132e-10, -9.3132e-10,  0.0000e+00,  ...,  4.6566e-10,
+         -4.6566e-10,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 418, bias, value: tensor([-0.0432, -0.0426, -0.0073, -0.0056,  0.0005,  0.0063,  0.0074, -0.0072,
+         0.0158, -0.0440], device='cuda:0'), grad: tensor([ 1.8626e-09, -8.3819e-09,  7.9162e-09,  4.6566e-10, -1.8626e-09,
+         2.1886e-08, -1.3970e-08,  1.8626e-09, -1.3970e-09,  3.2596e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 417, time 217.52, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4305 re_mapping 0.0023 re_causal 0.0076 /// teacc 99.24 lr 0.00001000
+Epoch 419, weight, value: tensor([[-0.1331,  0.0201,  0.1698,  ...,  0.0079, -0.1411, -0.1132],
+        [-0.2549, -0.2557, -0.2349,  ...,  0.1227,  0.0720,  0.4427],
+        [-0.2975, -0.2026, -0.2681,  ..., -0.3342,  0.0164, -0.2640],
+        ...,
+        [-0.2281, -0.2913, -0.0144,  ..., -0.2858, -0.1675, -0.5093],
+        [ 0.1657,  0.0383, -0.1749,  ..., -0.2782,  0.0547, -0.2540],
+        [ 0.1740,  0.1089, -0.1692,  ...,  0.1389, -0.2767, -0.3426]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 2.7940e-09,  1.8626e-09,  0.0000e+00,  ...,  4.6566e-10,
+         -9.3132e-10, -4.6566e-09],
+        [ 4.6566e-10,  4.6566e-10,  4.6566e-10,  ...,  4.6566e-10,
+          9.3132e-10,  9.3132e-10],
+        ...,
+        [ 3.7253e-09,  1.3970e-09,  0.0000e+00,  ...,  3.2596e-09,
+          2.3283e-09,  5.5879e-09],
+        [ 0.0000e+00, -9.3132e-10,  0.0000e+00,  ...,  4.1910e-09,
+         -5.1223e-09,  0.0000e+00],
+        [-1.5832e-08, -6.0536e-09,  0.0000e+00,  ..., -1.3039e-08,
+          4.6566e-10,  0.0000e+00]], device='cuda:0')
+Epoch 419, bias, value: tensor([-0.0431, -0.0426, -0.0073, -0.0056,  0.0005,  0.0063,  0.0074, -0.0072,
+         0.0157, -0.0440], device='cuda:0'), grad: tensor([ 2.3283e-09,  8.3819e-09,  5.1223e-09,  1.8161e-08,  1.1176e-08,
+        -2.5146e-08,  1.9558e-08,  1.6764e-08, -6.0536e-09, -4.6100e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 418, time 217.44, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4242 re_mapping 0.0022 re_causal 0.0074 /// teacc 99.27 lr 0.00001000
+Epoch 420, weight, value: tensor([[-0.1331,  0.0202,  0.1698,  ...,  0.0079, -0.1411, -0.1132],
+        [-0.2549, -0.2557, -0.2349,  ...,  0.1227,  0.0720,  0.4428],
+        [-0.2976, -0.2026, -0.2682,  ..., -0.3343,  0.0164, -0.2640],
+        ...,
+        [-0.2282, -0.2914, -0.0144,  ..., -0.2858, -0.1675, -0.5093],
+        [ 0.1657,  0.0383, -0.1749,  ..., -0.2782,  0.0548, -0.2540],
+        [ 0.1740,  0.1089, -0.1692,  ...,  0.1389, -0.2768, -0.3426]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10, -4.6566e-10,  0.0000e+00,  ..., -3.2596e-09,
+         -1.8626e-09, -1.1642e-08],
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  9.3132e-10,
+          4.6566e-10,  1.3970e-09],
+        ...,
+        [ 1.3970e-09,  9.3132e-10,  0.0000e+00,  ...,  1.8626e-09,
+          4.6566e-10,  2.7940e-09],
+        [ 4.6566e-10,  1.8626e-09,  0.0000e+00,  ...,  1.3970e-09,
+          4.6566e-10,  2.3283e-09],
+        [-2.7940e-09,  0.0000e+00,  0.0000e+00,  ..., -1.8626e-09,
+          9.3132e-10,  4.6566e-10]], device='cuda:0')
+Epoch 420, bias, value: tensor([-0.0431, -0.0425, -0.0074, -0.0056,  0.0005,  0.0063,  0.0074, -0.0072,
+         0.0157, -0.0440], device='cuda:0'), grad: tensor([ 1.8626e-09, -1.5367e-08, -3.3993e-08, -6.5193e-09,  6.0536e-09,
+        -1.8626e-09,  1.1176e-08,  4.5169e-08,  1.0710e-08, -5.5879e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 419, time 217.63, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4295 re_mapping 0.0022 re_causal 0.0076 /// teacc 99.27 lr 0.00001000
+Epoch 421, weight, value: tensor([[-0.1331,  0.0202,  0.1699,  ...,  0.0079, -0.1411, -0.1132],
+        [-0.2550, -0.2558, -0.2349,  ...,  0.1227,  0.0721,  0.4429],
+        [-0.2976, -0.2026, -0.2682,  ..., -0.3344,  0.0164, -0.2641],
+        ...,
+        [-0.2283, -0.2914, -0.0144,  ..., -0.2858, -0.1676, -0.5094],
+        [ 0.1657,  0.0383, -0.1749,  ..., -0.2782,  0.0548, -0.2541],
+        [ 0.1740,  0.1089, -0.1692,  ...,  0.1389, -0.2768, -0.3426]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10, -9.3132e-10, -2.3283e-09,  ...,  0.0000e+00,
+          1.3970e-09,  2.3283e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -2.2352e-08,
+         -1.4435e-08, -4.0513e-08],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  1.6764e-08,
+          1.1642e-08,  2.9337e-08],
+        ...,
+        [ 1.3970e-09,  4.6566e-10,  0.0000e+00,  ...,  2.3283e-09,
+          1.8626e-09,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  1.3970e-09,
+          4.6566e-10,  1.3970e-09],
+        [ 0.0000e+00,  4.6566e-10,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 421, bias, value: tensor([-0.0430, -0.0425, -0.0074, -0.0055,  0.0005,  0.0063,  0.0074, -0.0072,
+         0.0157, -0.0440], device='cuda:0'), grad: tensor([-4.6566e-10, -7.4506e-08,  8.7544e-08, -1.2573e-08,  3.7253e-09,
+         6.0536e-09,  8.3819e-09, -2.7940e-08,  7.9162e-09,  7.4506e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 420, time 217.50, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4132 re_mapping 0.0021 re_causal 0.0074 /// teacc 99.27 lr 0.00001000
+Epoch 422, weight, value: tensor([[-0.1331,  0.0202,  0.1700,  ...,  0.0079, -0.1411, -0.1132],
+        [-0.2550, -0.2558, -0.2349,  ...,  0.1228,  0.0721,  0.4430],
+        [-0.2977, -0.2026, -0.2682,  ..., -0.3344,  0.0164, -0.2641],
+        ...,
+        [-0.2283, -0.2914, -0.0144,  ..., -0.2859, -0.1676, -0.5095],
+        [ 0.1657,  0.0383, -0.1749,  ..., -0.2783,  0.0548, -0.2541],
+        [ 0.1740,  0.1090, -0.1693,  ...,  0.1390, -0.2768, -0.3427]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  9.3132e-10,  0.0000e+00,  ..., -4.6566e-10,
+          4.6566e-10, -5.1223e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  9.3132e-10],
+        ...,
+        [ 1.3970e-09,  1.3970e-09,  0.0000e+00,  ...,  1.8626e-09,
+          4.6566e-10,  2.7940e-09],
+        [ 4.1910e-09,  9.3132e-10,  0.0000e+00,  ...,  3.2596e-09,
+         -3.7253e-09,  0.0000e+00],
+        [-5.1223e-09, -2.7940e-09,  0.0000e+00,  ..., -4.1910e-09,
+          0.0000e+00,  4.6566e-10]], device='cuda:0')
+Epoch 422, bias, value: tensor([-0.0430, -0.0425, -0.0074, -0.0055,  0.0005,  0.0063,  0.0074, -0.0072,
+         0.0157, -0.0439], device='cuda:0'), grad: tensor([ 9.3132e-10,  7.9162e-09, -6.2864e-08, -2.2817e-08,  6.5193e-09,
+         3.2596e-08,  3.2596e-09,  4.5169e-08,  7.9162e-09, -9.3132e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 421, time 217.56, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4291 re_mapping 0.0022 re_causal 0.0074 /// teacc 99.26 lr 0.00001000
+Epoch 423, weight, value: tensor([[-0.1331,  0.0202,  0.1700,  ...,  0.0079, -0.1412, -0.1133],
+        [-0.2551, -0.2558, -0.2350,  ...,  0.1228,  0.0721,  0.4431],
+        [-0.2977, -0.2027, -0.2683,  ..., -0.3344,  0.0163, -0.2641],
+        ...,
+        [-0.2284, -0.2915, -0.0144,  ..., -0.2859, -0.1676, -0.5096],
+        [ 0.1657,  0.0383, -0.1749,  ..., -0.2783,  0.0548, -0.2542],
+        [ 0.1740,  0.1090, -0.1693,  ...,  0.1390, -0.2769, -0.3427]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -9.3132e-10,
+         -4.6566e-10, -1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          4.6566e-10,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          4.6566e-10,  2.3283e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  9.3132e-10],
+        [-1.3970e-09, -4.6566e-10,  9.3132e-10,  ..., -2.7940e-09,
+          9.3132e-10,  4.6566e-10]], device='cuda:0')
+Epoch 423, bias, value: tensor([-0.0430, -0.0425, -0.0074, -0.0055,  0.0005,  0.0063,  0.0074, -0.0072,
+         0.0157, -0.0440], device='cuda:0'), grad: tensor([ 9.3132e-10, -3.7253e-09,  3.7253e-09, -1.1176e-08,  5.1223e-09,
+         1.0710e-08,  1.3970e-09,  4.1910e-09,  1.8626e-09, -1.8626e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 422, time 217.49, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.3983 re_mapping 0.0022 re_causal 0.0075 /// teacc 99.25 lr 0.00001000
+Epoch 424, weight, value: tensor([[-0.1332,  0.0203,  0.1701,  ...,  0.0080, -0.1412, -0.1133],
+        [-0.2551, -0.2559, -0.2350,  ...,  0.1228,  0.0721,  0.4433],
+        [-0.2977, -0.2027, -0.2683,  ..., -0.3345,  0.0163, -0.2642],
+        ...,
+        [-0.2284, -0.2915, -0.0144,  ..., -0.2859, -0.1677, -0.5098],
+        [ 0.1657,  0.0383, -0.1750,  ..., -0.2784,  0.0549, -0.2542],
+        [ 0.1741,  0.1090, -0.1693,  ...,  0.1391, -0.2770, -0.3427]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  4.6566e-10,  1.3970e-09,  ...,  1.8626e-09,
+          4.6566e-10,  0.0000e+00],
+        [ 1.8626e-09,  1.8626e-09,  4.6566e-10,  ...,  0.0000e+00,
+          1.3970e-09, -3.7253e-09],
+        [ 2.3283e-09,  9.3132e-10,  4.6566e-10,  ...,  1.8626e-09,
+          1.8626e-09,  1.3970e-09],
+        ...,
+        [ 1.8626e-09,  2.3283e-09,  0.0000e+00,  ...,  2.3283e-09,
+          1.8626e-09,  9.3132e-10],
+        [-1.8626e-08, -1.4435e-08,  4.6566e-10,  ..., -1.0245e-08,
+         -1.7229e-08,  2.7940e-09],
+        [ 1.3970e-09,  1.3970e-09,  4.6566e-10,  ...,  1.8626e-09,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 424, bias, value: tensor([-0.0429, -0.0425, -0.0075, -0.0055,  0.0005,  0.0063,  0.0074, -0.0073,
+         0.0157, -0.0440], device='cuda:0'), grad: tensor([ 1.2107e-08,  1.5367e-08,  3.0268e-08,  4.7032e-08,  3.7253e-09,
+         5.2620e-08, -5.7742e-08, -1.0710e-08, -1.0105e-07,  1.9558e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 423, time 217.48, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.3898 re_mapping 0.0022 re_causal 0.0073 /// teacc 99.25 lr 0.00001000
+Epoch 425, weight, value: tensor([[-0.1332,  0.0203,  0.1701,  ...,  0.0080, -0.1412, -0.1133],
+        [-0.2552, -0.2559, -0.2350,  ...,  0.1228,  0.0721,  0.4433],
+        [-0.2978, -0.2027, -0.2684,  ..., -0.3346,  0.0163, -0.2642],
+        ...,
+        [-0.2285, -0.2915, -0.0144,  ..., -0.2859, -0.1677, -0.5098],
+        [ 0.1657,  0.0383, -0.1749,  ..., -0.2784,  0.0549, -0.2543],
+        [ 0.1741,  0.1090, -0.1693,  ...,  0.1391, -0.2770, -0.3428]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -2.5146e-08,
+         -1.7229e-08, -5.3085e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          4.6566e-10,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  2.4214e-08,
+          1.6764e-08,  5.2620e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [-9.3132e-10, -4.6566e-10,  0.0000e+00,  ..., -1.3970e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 425, bias, value: tensor([-0.0429, -0.0426, -0.0075, -0.0054,  0.0005,  0.0062,  0.0074, -0.0072,
+         0.0157, -0.0440], device='cuda:0'), grad: tensor([ 0.0000e+00, -1.1548e-07,  2.3283e-09, -2.7940e-08,  3.7253e-09,
+         2.9337e-08,  9.3132e-10,  1.1595e-07,  1.8626e-09, -2.3283e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 424, time 217.79, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4251 re_mapping 0.0022 re_causal 0.0075 /// teacc 99.24 lr 0.00001000
+Epoch 426, weight, value: tensor([[-0.1332,  0.0203,  0.1701,  ...,  0.0080, -0.1412, -0.1133],
+        [-0.2552, -0.2559, -0.2351,  ...,  0.1229,  0.0722,  0.4435],
+        [-0.2978, -0.2027, -0.2684,  ..., -0.3347,  0.0163, -0.2643],
+        ...,
+        [-0.2285, -0.2916, -0.0144,  ..., -0.2860, -0.1678, -0.5100],
+        [ 0.1657,  0.0382, -0.1749,  ..., -0.2784,  0.0549, -0.2543],
+        [ 0.1741,  0.1090, -0.1694,  ...,  0.1391, -0.2770, -0.3428]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10, -4.6566e-10, -2.7940e-09,  ..., -9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 2.7940e-09,  2.3283e-09,  1.3970e-09,  ..., -2.7940e-09,
+         -2.3283e-09, -1.6764e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          9.3132e-10,  5.1223e-09],
+        ...,
+        [ 7.9162e-09,  4.6566e-09,  0.0000e+00,  ...,  9.3132e-09,
+          1.3970e-09,  9.3132e-09],
+        [ 4.6566e-09,  3.2596e-09,  4.6566e-10,  ...,  6.0536e-09,
+          0.0000e+00,  9.3132e-10],
+        [-3.6322e-08, -2.0023e-08,  8.3819e-09,  ..., -3.6322e-08,
+          6.5193e-09,  9.3132e-10]], device='cuda:0')
+Epoch 426, bias, value: tensor([-0.0429, -0.0426, -0.0075, -0.0053,  0.0005,  0.0062,  0.0074, -0.0072,
+         0.0157, -0.0440], device='cuda:0'), grad: tensor([-8.3819e-09, -9.7789e-09,  1.3970e-08,  4.1910e-09,  3.4459e-08,
+         6.9849e-09,  2.3283e-09,  2.4214e-08,  2.1420e-08, -8.3353e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 425, time 217.63, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4032 re_mapping 0.0022 re_causal 0.0073 /// teacc 99.20 lr 0.00001000
+Epoch 427, weight, value: tensor([[-0.1332,  0.0203,  0.1702,  ...,  0.0079, -0.1412, -0.1133],
+        [-0.2553, -0.2559, -0.2351,  ...,  0.1229,  0.0722,  0.4436],
+        [-0.2979, -0.2027, -0.2684,  ..., -0.3347,  0.0162, -0.2643],
+        ...,
+        [-0.2286, -0.2916, -0.0144,  ..., -0.2860, -0.1678, -0.5101],
+        [ 0.1657,  0.0382, -0.1750,  ..., -0.2785,  0.0550, -0.2544],
+        [ 0.1741,  0.1090, -0.1694,  ...,  0.1391, -0.2770, -0.3428]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  4.6566e-10,  4.6566e-10,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  4.6566e-10,  ...,  1.3970e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [-2.7940e-09, -3.7253e-09,  4.6566e-10,  ...,  4.6566e-10,
+         -1.8626e-09,  0.0000e+00],
+        [-1.3970e-09,  0.0000e+00,  9.3132e-10,  ..., -3.2596e-09,
+          1.3970e-09,  0.0000e+00]], device='cuda:0')
+Epoch 427, bias, value: tensor([-0.0429, -0.0426, -0.0075, -0.0053,  0.0005,  0.0062,  0.0074, -0.0072,
+         0.0157, -0.0440], device='cuda:0'), grad: tensor([ 4.6566e-09,  4.1910e-09,  3.2596e-09,  1.8626e-09,  4.1910e-09,
+         1.8626e-08, -2.0023e-08,  1.8626e-09, -7.9162e-09, -3.2596e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 426, time 217.72, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4205 re_mapping 0.0021 re_causal 0.0074 /// teacc 99.19 lr 0.00001000
+Epoch 428, weight, value: tensor([[-0.1332,  0.0203,  0.1702,  ...,  0.0079, -0.1413, -0.1134],
+        [-0.2553, -0.2560, -0.2351,  ...,  0.1229,  0.0722,  0.4437],
+        [-0.2979, -0.2027, -0.2685,  ..., -0.3348,  0.0162, -0.2644],
+        ...,
+        [-0.2286, -0.2916, -0.0144,  ..., -0.2860, -0.1678, -0.5102],
+        [ 0.1657,  0.0382, -0.1750,  ..., -0.2785,  0.0550, -0.2544],
+        [ 0.1741,  0.1090, -0.1694,  ...,  0.1392, -0.2771, -0.3428]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.3970e-09,  1.3970e-09,  0.0000e+00,  ..., -4.0047e-08,
+         -9.3132e-10, -4.7497e-08],
+        [ 0.0000e+00,  9.3132e-10,  4.6566e-10,  ...,  1.3970e-09,
+          4.6566e-10,  1.8626e-09],
+        ...,
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  4.0978e-08,
+          0.0000e+00,  4.5635e-08],
+        [ 9.3132e-10,  2.3283e-09,  4.6566e-10,  ...,  9.3132e-10,
+          0.0000e+00,  4.6566e-10],
+        [-7.9162e-09, -1.8626e-09,  4.6566e-10,  ..., -1.2107e-08,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 428, bias, value: tensor([-0.0430, -0.0426, -0.0075, -0.0053,  0.0005,  0.0062,  0.0074, -0.0072,
+         0.0157, -0.0440], device='cuda:0'), grad: tensor([ 1.8626e-09, -1.8720e-07,  6.9849e-09,  4.9826e-08,  6.5193e-09,
+        -7.4971e-08,  1.5832e-08,  1.9278e-07,  1.0245e-08, -1.2573e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 427, time 217.51, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4151 re_mapping 0.0021 re_causal 0.0073 /// teacc 99.22 lr 0.00001000
+Epoch 429, weight, value: tensor([[-0.1332,  0.0204,  0.1703,  ...,  0.0080, -0.1413, -0.1134],
+        [-0.2554, -0.2560, -0.2352,  ...,  0.1229,  0.0723,  0.4438],
+        [-0.2980, -0.2028, -0.2685,  ..., -0.3348,  0.0162, -0.2644],
+        ...,
+        [-0.2286, -0.2916, -0.0144,  ..., -0.2861, -0.1679, -0.5103],
+        [ 0.1657,  0.0382, -0.1750,  ..., -0.2786,  0.0550, -0.2544],
+        [ 0.1741,  0.1090, -0.1694,  ...,  0.1392, -0.2772, -0.3428]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  9.3132e-10],
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ..., -4.0047e-08,
+         -5.1223e-09, -4.5169e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          4.6566e-10,  1.3970e-09],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+          4.6566e-10,  4.1910e-09],
+        [ 9.3132e-10,  4.6566e-10,  0.0000e+00,  ...,  9.3132e-10,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  3.0734e-08,
+          4.6566e-09,  3.3993e-08]], device='cuda:0')
+Epoch 429, bias, value: tensor([-0.0429, -0.0426, -0.0075, -0.0053,  0.0005,  0.0062,  0.0074, -0.0072,
+         0.0157, -0.0440], device='cuda:0'), grad: tensor([ 3.2596e-09, -1.2061e-07,  6.0536e-09, -7.9162e-09, -4.1910e-09,
+         3.7253e-09,  1.7229e-08,  5.1223e-09,  3.7253e-09,  1.0571e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 428, time 217.55, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4060 re_mapping 0.0021 re_causal 0.0073 /// teacc 99.20 lr 0.00001000
+Epoch 430, weight, value: tensor([[-0.1332,  0.0204,  0.1703,  ...,  0.0080, -0.1413, -0.1134],
+        [-0.2554, -0.2561, -0.2352,  ...,  0.1230,  0.0723,  0.4439],
+        [-0.2980, -0.2028, -0.2686,  ..., -0.3349,  0.0162, -0.2644],
+        ...,
+        [-0.2287, -0.2917, -0.0144,  ..., -0.2861, -0.1679, -0.5103],
+        [ 0.1657,  0.0382, -0.1751,  ..., -0.2786,  0.0550, -0.2545],
+        [ 0.1741,  0.1090, -0.1695,  ...,  0.1393, -0.2773, -0.3429]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ..., -9.3132e-10,
+         -9.3132e-10, -2.3283e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          4.6566e-10,  2.3283e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          4.6566e-10,  1.8626e-09],
+        [-2.3283e-09,  9.3132e-10, -4.6566e-10,  ...,  0.0000e+00,
+         -9.3132e-10,  4.6566e-10],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00]], device='cuda:0')
+Epoch 430, bias, value: tensor([-0.0429, -0.0426, -0.0075, -0.0052,  0.0005,  0.0062,  0.0074, -0.0071,
+         0.0156, -0.0440], device='cuda:0'), grad: tensor([ 0.0000e+00,  5.1223e-09, -7.4506e-09,  9.3132e-10,  4.6566e-10,
+        -6.5193e-09,  7.4506e-09,  6.0536e-09, -3.7253e-09,  1.8626e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 429, time 217.38, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4242 re_mapping 0.0020 re_causal 0.0072 /// teacc 99.19 lr 0.00001000
+Epoch 431, weight, value: tensor([[-0.1332,  0.0204,  0.1704,  ...,  0.0080, -0.1414, -0.1134],
+        [-0.2555, -0.2561, -0.2352,  ...,  0.1230,  0.0723,  0.4440],
+        [-0.2981, -0.2028, -0.2686,  ..., -0.3350,  0.0162, -0.2645],
+        ...,
+        [-0.2287, -0.2917, -0.0144,  ..., -0.2861, -0.1679, -0.5104],
+        [ 0.1657,  0.0382, -0.1751,  ..., -0.2787,  0.0551, -0.2546],
+        [ 0.1742,  0.1090, -0.1695,  ...,  0.1393, -0.2773, -0.3429]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -6.5193e-09,
+         -6.5193e-09, -2.3283e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          4.6566e-10,  2.3283e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.1223e-09,
+          4.6566e-09,  1.7695e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  4.6566e-10,
+          9.3132e-10,  9.3132e-10]], device='cuda:0')
+Epoch 431, bias, value: tensor([-0.0429, -0.0426, -0.0075, -0.0052,  0.0005,  0.0062,  0.0074, -0.0071,
+         0.0156, -0.0440], device='cuda:0'), grad: tensor([ 9.3132e-10, -3.5856e-08,  3.7253e-09,  1.3970e-09,  3.7253e-09,
+         4.6566e-09, -2.7940e-09,  2.4680e-08,  1.3970e-09,  4.6566e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 430, time 217.58, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4387 re_mapping 0.0021 re_causal 0.0074 /// teacc 99.20 lr 0.00001000
+Epoch 432, weight, value: tensor([[-0.1333,  0.0205,  0.1705,  ...,  0.0080, -0.1414, -0.1134],
+        [-0.2556, -0.2562, -0.2353,  ...,  0.1230,  0.0723,  0.4441],
+        [-0.2981, -0.2028, -0.2687,  ..., -0.3350,  0.0162, -0.2645],
+        ...,
+        [-0.2288, -0.2917, -0.0145,  ..., -0.2861, -0.1680, -0.5104],
+        [ 0.1657,  0.0382, -0.1752,  ..., -0.2787,  0.0551, -0.2547],
+        [ 0.1742,  0.1091, -0.1696,  ...,  0.1394, -0.2774, -0.3429]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.3970e-09, -1.6298e-09,  ..., -1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+         -4.6566e-10, -2.5611e-09],
+        [ 0.0000e+00,  2.3283e-10,  2.3283e-10,  ...,  2.3283e-10,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          2.3283e-10,  1.8626e-09],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-10],
+        [ 0.0000e+00,  1.1642e-09,  1.3970e-09,  ...,  1.6298e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 432, bias, value: tensor([-0.0428, -0.0426, -0.0075, -0.0052,  0.0005,  0.0062,  0.0074, -0.0071,
+         0.0156, -0.0440], device='cuda:0'), grad: tensor([-6.5193e-09,  2.3283e-10,  1.3271e-08,  3.9581e-09,  4.6566e-10,
+        -1.6298e-09, -6.9849e-10, -1.6531e-08,  3.4925e-09,  6.7521e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 431, time 217.61, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4204 re_mapping 0.0021 re_causal 0.0072 /// teacc 99.19 lr 0.00001000
+Epoch 433, weight, value: tensor([[-0.1333,  0.0205,  0.1705,  ...,  0.0080, -0.1414, -0.1134],
+        [-0.2556, -0.2562, -0.2353,  ...,  0.1230,  0.0724,  0.4442],
+        [-0.2981, -0.2028, -0.2687,  ..., -0.3351,  0.0161, -0.2646],
+        ...,
+        [-0.2288, -0.2918, -0.0145,  ..., -0.2862, -0.1680, -0.5105],
+        [ 0.1657,  0.0382, -0.1752,  ..., -0.2788,  0.0551, -0.2547],
+        [ 0.1742,  0.1091, -0.1696,  ...,  0.1394, -0.2775, -0.3429]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.8626e-09,
+         -2.0955e-09, -6.0536e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          4.6566e-10,  1.3970e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          6.9849e-10,  2.5611e-09],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          4.6566e-10,  2.0955e-09],
+        [-1.1642e-09, -4.6566e-10,  0.0000e+00,  ..., -1.1642e-09,
+          0.0000e+00,  2.3283e-10]], device='cuda:0')
+Epoch 433, bias, value: tensor([-0.0428, -0.0426, -0.0075, -0.0052,  0.0006,  0.0062,  0.0073, -0.0071,
+         0.0156, -0.0440], device='cuda:0'), grad: tensor([ 1.1642e-09,  1.0710e-08,  8.2422e-07,  2.0955e-09,  4.1910e-09,
+         3.2596e-09,  2.3283e-09, -8.4750e-07,  7.6834e-09, -2.3283e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 432, time 217.42, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4055 re_mapping 0.0021 re_causal 0.0071 /// teacc 99.20 lr 0.00001000
+Epoch 434, weight, value: tensor([[-0.1332,  0.0206,  0.1708,  ...,  0.0082, -0.1414, -0.1134],
+        [-0.2557, -0.2563, -0.2354,  ...,  0.1231,  0.0724,  0.4444],
+        [-0.2982, -0.2028, -0.2688,  ..., -0.3351,  0.0161, -0.2646],
+        ...,
+        [-0.2289, -0.2918, -0.0145,  ..., -0.2862, -0.1681, -0.5108],
+        [ 0.1657,  0.0382, -0.1753,  ..., -0.2788,  0.0552, -0.2548],
+        [ 0.1742,  0.1091, -0.1697,  ...,  0.1394, -0.2776, -0.3430]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+          9.3132e-10,  1.8626e-09],
+        [ 4.6566e-10,  2.3283e-10,  0.0000e+00,  ..., -6.5193e-09,
+         -4.8894e-09, -8.6147e-09],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  1.6298e-09,
+          1.1642e-09,  2.5611e-09],
+        ...,
+        [ 2.3283e-09,  2.3283e-10,  0.0000e+00,  ...,  3.9581e-09,
+          6.9849e-10,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+          9.3132e-10,  1.8626e-09],
+        [-1.6298e-09,  0.0000e+00,  4.6566e-10,  ..., -1.8626e-09,
+          6.9849e-10,  6.9849e-10]], device='cuda:0')
+Epoch 434, bias, value: tensor([-0.0425, -0.0426, -0.0075, -0.0052,  0.0006,  0.0062,  0.0073, -0.0072,
+         0.0156, -0.0440], device='cuda:0'), grad: tensor([ 5.1223e-09, -1.0710e-08,  1.3970e-08, -2.5611e-09,  3.7253e-09,
+         9.5461e-09,  2.7940e-09, -3.8184e-08,  5.8208e-09,  2.5611e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 433, time 217.61, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4363 re_mapping 0.0021 re_causal 0.0074 /// teacc 99.19 lr 0.00001000
+Epoch 435, weight, value: tensor([[-0.1332,  0.0207,  0.1708,  ...,  0.0082, -0.1415, -0.1135],
+        [-0.2557, -0.2563, -0.2354,  ...,  0.1231,  0.0725,  0.4445],
+        [-0.2982, -0.2029, -0.2688,  ..., -0.3352,  0.0161, -0.2647],
+        ...,
+        [-0.2289, -0.2918, -0.0145,  ..., -0.2863, -0.1682, -0.5109],
+        [ 0.1657,  0.0382, -0.1753,  ..., -0.2789,  0.0552, -0.2548],
+        [ 0.1742,  0.1091, -0.1698,  ...,  0.1394, -0.2777, -0.3430]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.4901e-08, -1.7229e-08,  ..., -1.4203e-08,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  9.3132e-10,  1.3970e-09,  ..., -2.5611e-09,
+         -1.8626e-09, -1.3737e-08],
+        [ 0.0000e+00,  6.9849e-10,  6.9849e-10,  ...,  1.1642e-09,
+          4.6566e-10,  2.3283e-09],
+        ...,
+        [ 0.0000e+00,  4.6566e-10, -2.3283e-10,  ...,  1.1642e-09,
+          0.0000e+00,  2.7940e-09],
+        [ 0.0000e+00,  6.9849e-10,  9.3132e-10,  ...,  1.6298e-09,
+          4.6566e-10,  3.7253e-09],
+        [ 0.0000e+00,  4.6566e-09,  6.9849e-09,  ...,  4.6566e-09,
+          9.3132e-10,  2.3283e-10]], device='cuda:0')
+Epoch 435, bias, value: tensor([-0.0425, -0.0426, -0.0075, -0.0052,  0.0006,  0.0062,  0.0073, -0.0072,
+         0.0156, -0.0441], device='cuda:0'), grad: tensor([-6.5891e-08, -1.7695e-08,  2.2119e-08,  1.4203e-08,  1.3970e-09,
+         2.3050e-08,  9.7789e-09, -1.5832e-08,  1.1409e-08,  2.7008e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 434, time 217.60, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4438 re_mapping 0.0021 re_causal 0.0074 /// teacc 99.20 lr 0.00001000
+Epoch 436, weight, value: tensor([[-0.1332,  0.0207,  0.1708,  ...,  0.0082, -0.1415, -0.1135],
+        [-0.2558, -0.2563, -0.2355,  ...,  0.1232,  0.0725,  0.4448],
+        [-0.2983, -0.2029, -0.2688,  ..., -0.3353,  0.0160, -0.2647],
+        ...,
+        [-0.2290, -0.2919, -0.0145,  ..., -0.2863, -0.1682, -0.5110],
+        [ 0.1657,  0.0382, -0.1753,  ..., -0.2789,  0.0552, -0.2549],
+        [ 0.1742,  0.1091, -0.1699,  ...,  0.1395, -0.2778, -0.3431]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -4.6566e-10, -1.1642e-09,  ..., -1.3970e-09,
+          0.0000e+00,  2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.3970e-09,
+         -1.3970e-09, -1.0245e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          2.3283e-10,  2.3283e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.9849e-10,
+          6.9849e-10,  4.8894e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  2.3283e-10,
+          4.6566e-10,  1.3970e-09],
+        [ 0.0000e+00,  4.6566e-10,  2.0955e-09,  ...,  6.9849e-10,
+          1.3970e-09,  2.3283e-10]], device='cuda:0')
+Epoch 436, bias, value: tensor([-0.0425, -0.0426, -0.0075, -0.0052,  0.0006,  0.0062,  0.0073, -0.0072,
+         0.0156, -0.0441], device='cuda:0'), grad: tensor([-3.2596e-09, -1.1176e-08,  4.4238e-09,  1.1642e-09, -1.0710e-08,
+         1.3970e-09,  2.0955e-09,  3.4925e-09,  3.7253e-09,  9.7789e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 435, time 217.33, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4348 re_mapping 0.0020 re_causal 0.0075 /// teacc 99.24 lr 0.00001000
+Epoch 437, weight, value: tensor([[-0.1332,  0.0207,  0.1709,  ...,  0.0082, -0.1415, -0.1135],
+        [-0.2558, -0.2564, -0.2355,  ...,  0.1233,  0.0725,  0.4449],
+        [-0.2983, -0.2029, -0.2689,  ..., -0.3353,  0.0160, -0.2648],
+        ...,
+        [-0.2290, -0.2919, -0.0145,  ..., -0.2864, -0.1683, -0.5111],
+        [ 0.1657,  0.0382, -0.1754,  ..., -0.2790,  0.0553, -0.2549],
+        [ 0.1742,  0.1090, -0.1700,  ...,  0.1395, -0.2780, -0.3431]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10, -1.1642e-09, -2.3283e-09,  ..., -1.3970e-09,
+          0.0000e+00,  2.3283e-10],
+        [ 2.7940e-09,  1.6298e-09,  2.3283e-10,  ...,  3.0268e-09,
+         -1.3970e-09, -4.1910e-09],
+        [ 4.6566e-10,  4.6566e-10,  2.3283e-10,  ...,  4.6566e-10,
+          2.3283e-10,  4.6566e-10],
+        ...,
+        [ 6.5193e-09,  3.0268e-09,  0.0000e+00,  ...,  1.0012e-08,
+          4.6566e-10,  1.1642e-09],
+        [ 1.0710e-08,  7.4506e-09,  2.3283e-10,  ...,  4.6566e-10,
+          3.0268e-09,  2.3283e-10],
+        [-1.5367e-08, -5.8208e-09,  2.3283e-10,  ..., -2.3283e-08,
+          4.6566e-10,  2.3283e-10]], device='cuda:0')
+Epoch 437, bias, value: tensor([-0.0426, -0.0427, -0.0076, -0.0051,  0.0007,  0.0062,  0.0073, -0.0070,
+         0.0155, -0.0441], device='cuda:0'), grad: tensor([-5.5879e-09,  1.0012e-08,  3.4925e-09, -2.0023e-08,  3.2131e-08,
+        -1.5832e-08,  1.2573e-08,  1.6764e-08,  2.8638e-08, -5.3085e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 436, time 217.94, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.3991 re_mapping 0.0020 re_causal 0.0072 /// teacc 99.23 lr 0.00001000
+Epoch 438, weight, value: tensor([[-0.1332,  0.0207,  0.1709,  ...,  0.0082, -0.1415, -0.1135],
+        [-0.2559, -0.2564, -0.2356,  ...,  0.1233,  0.0726,  0.4450],
+        [-0.2984, -0.2029, -0.2689,  ..., -0.3354,  0.0160, -0.2648],
+        ...,
+        [-0.2291, -0.2919, -0.0145,  ..., -0.2864, -0.1683, -0.5113],
+        [ 0.1657,  0.0382, -0.1754,  ..., -0.2790,  0.0553, -0.2550],
+        [ 0.1743,  0.1091, -0.1701,  ...,  0.1395, -0.2781, -0.3432]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -9.3132e-10, -1.6298e-09,  ..., -2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 3.2596e-09,  0.0000e+00,  0.0000e+00,  ..., -6.9849e-10,
+          3.7253e-09, -2.3283e-09],
+        [ 0.0000e+00,  2.3283e-10,  4.6566e-10,  ...,  4.6566e-10,
+          2.3283e-10,  1.3970e-09],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  6.9849e-10,
+          4.6566e-10,  1.6298e-09],
+        [-5.5879e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -6.7521e-09,  2.3283e-10],
+        [-1.8626e-09, -2.3283e-10,  0.0000e+00,  ..., -2.5611e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 438, bias, value: tensor([-0.0425, -0.0427, -0.0076, -0.0051,  0.0007,  0.0061,  0.0073, -0.0070,
+         0.0155, -0.0441], device='cuda:0'), grad: tensor([ 1.1642e-09,  2.1188e-08, -2.1420e-07,  3.1665e-08,  4.8894e-09,
+         3.4925e-09,  9.0804e-09,  1.5693e-07, -2.3283e-09, -2.5611e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 437, time 217.59, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4324 re_mapping 0.0020 re_causal 0.0074 /// teacc 99.22 lr 0.00001000
+Epoch 439, weight, value: tensor([[-0.1333,  0.0208,  0.1709,  ...,  0.0082, -0.1416, -0.1135],
+        [-0.2559, -0.2564, -0.2356,  ...,  0.1233,  0.0726,  0.4451],
+        [-0.2984, -0.2029, -0.2689,  ..., -0.3354,  0.0160, -0.2649],
+        ...,
+        [-0.2291, -0.2920, -0.0145,  ..., -0.2865, -0.1684, -0.5114],
+        [ 0.1657,  0.0382, -0.1755,  ..., -0.2791,  0.0553, -0.2551],
+        [ 0.1743,  0.1091, -0.1701,  ...,  0.1396, -0.2781, -0.3432]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 6.5193e-09,  2.7940e-09,  0.0000e+00,  ...,  1.3970e-09,
+          0.0000e+00, -1.4901e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        ...,
+        [ 1.8626e-09,  4.6566e-10,  0.0000e+00,  ...,  2.7940e-09,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [-1.1176e-08, -4.6566e-09,  0.0000e+00,  ..., -1.5367e-08,
+          0.0000e+00,  4.6566e-10]], device='cuda:0')
+Epoch 439, bias, value: tensor([-0.0425, -0.0428, -0.0076, -0.0050,  0.0007,  0.0060,  0.0074, -0.0069,
+         0.0155, -0.0441], device='cuda:0'), grad: tensor([ 0.0000e+00, -6.9849e-09,  9.3132e-10, -9.3132e-10,  5.1223e-09,
+         1.6764e-08,  1.7229e-08,  7.9162e-09,  3.7253e-09, -3.8650e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 438, time 217.66, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4146 re_mapping 0.0020 re_causal 0.0071 /// teacc 99.22 lr 0.00001000
+Epoch 440, weight, value: tensor([[-0.1333,  0.0208,  0.1709,  ...,  0.0082, -0.1416, -0.1135],
+        [-0.2559, -0.2565, -0.2357,  ...,  0.1234,  0.0727,  0.4453],
+        [-0.2984, -0.2030, -0.2690,  ..., -0.3355,  0.0159, -0.2649],
+        ...,
+        [-0.2292, -0.2920, -0.0145,  ..., -0.2866, -0.1685, -0.5115],
+        [ 0.1657,  0.0382, -0.1755,  ..., -0.2791,  0.0554, -0.2551],
+        [ 0.1743,  0.1091, -0.1701,  ...,  0.1396, -0.2782, -0.3432]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ..., -2.3283e-09,
+         -1.3970e-09, -3.2596e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          4.6566e-10,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  1.3970e-09,
+          1.3970e-09,  2.3283e-09],
+        [ 9.3132e-10,  9.3132e-10,  1.3970e-09,  ...,  2.7940e-09,
+          4.6566e-10,  4.6566e-10],
+        [-1.9558e-08, -1.9558e-08,  1.3039e-08,  ..., -9.3132e-09,
+          7.4506e-09,  0.0000e+00]], device='cuda:0')
+Epoch 440, bias, value: tensor([-0.0426, -0.0428, -0.0076, -0.0050,  0.0006,  0.0060,  0.0074, -0.0070,
+         0.0155, -0.0441], device='cuda:0'), grad: tensor([ 2.3283e-09, -1.8626e-09,  9.7789e-09,  4.6566e-10, -1.2573e-08,
+         1.2619e-07, -1.2992e-07,  4.6566e-09,  1.3504e-08, -4.6566e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 439, time 217.48, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4032 re_mapping 0.0020 re_causal 0.0072 /// teacc 99.22 lr 0.00001000
+Epoch 441, weight, value: tensor([[-0.1333,  0.0208,  0.1710,  ...,  0.0082, -0.1416, -0.1135],
+        [-0.2560, -0.2565, -0.2358,  ...,  0.1235,  0.0727,  0.4455],
+        [-0.2985, -0.2030, -0.2690,  ..., -0.3355,  0.0159, -0.2649],
+        ...,
+        [-0.2292, -0.2920, -0.0145,  ..., -0.2866, -0.1685, -0.5117],
+        [ 0.1657,  0.0382, -0.1756,  ..., -0.2792,  0.0554, -0.2552],
+        [ 0.1744,  0.1092, -0.1702,  ...,  0.1397, -0.2782, -0.3433]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  4.6566e-10,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 2.7940e-09,  1.8626e-09,  0.0000e+00,  ...,  1.3970e-09,
+          0.0000e+00,  0.0000e+00],
+        [-1.6764e-08, -5.5879e-09,  0.0000e+00,  ..., -1.4435e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 441, bias, value: tensor([-0.0426, -0.0428, -0.0076, -0.0050,  0.0006,  0.0060,  0.0074, -0.0070,
+         0.0155, -0.0441], device='cuda:0'), grad: tensor([ 5.1223e-09,  1.4435e-08,  6.0536e-09,  2.7940e-09,  3.8184e-08,
+        -2.7940e-09,  1.3970e-09, -5.2154e-08,  1.0245e-08, -1.6764e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 440, time 217.83, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4177 re_mapping 0.0020 re_causal 0.0071 /// teacc 99.21 lr 0.00001000
+Epoch 442, weight, value: tensor([[-0.1333,  0.0209,  0.1710,  ...,  0.0082, -0.1416, -0.1135],
+        [-0.2561, -0.2566, -0.2358,  ...,  0.1235,  0.0727,  0.4456],
+        [-0.2985, -0.2030, -0.2691,  ..., -0.3356,  0.0159, -0.2650],
+        ...,
+        [-0.2293, -0.2921, -0.0145,  ..., -0.2867, -0.1686, -0.5118],
+        [ 0.1658,  0.0382, -0.1756,  ..., -0.2792,  0.0555, -0.2552],
+        [ 0.1744,  0.1092, -0.1702,  ...,  0.1398, -0.2783, -0.3433]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.6566e-10,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  2.7940e-09,  4.6566e-10,  ..., -2.3283e-09,
+         -1.8626e-09, -6.5193e-09],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  1.8626e-09,
+          1.3970e-09,  3.7253e-09],
+        ...,
+        [ 4.6566e-10,  3.2596e-09,  0.0000e+00,  ...,  1.8626e-09,
+          9.3132e-10,  2.3283e-09],
+        [ 0.0000e+00,  4.6566e-09,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  4.6566e-10],
+        [-1.3970e-09,  4.1910e-09,  0.0000e+00,  ..., -1.3970e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 442, bias, value: tensor([-0.0425, -0.0428, -0.0075, -0.0050,  0.0006,  0.0060,  0.0074, -0.0070,
+         0.0155, -0.0441], device='cuda:0'), grad: tensor([ 4.6566e-09,  6.5193e-09,  6.0536e-09,  6.6590e-08,  8.8476e-09,
+        -1.4948e-07, -4.6566e-10,  2.1420e-08,  2.3749e-08,  1.8161e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 441, time 217.77, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4642 re_mapping 0.0020 re_causal 0.0076 /// teacc 99.22 lr 0.00001000
+Epoch 443, weight, value: tensor([[-0.1333,  0.0209,  0.1711,  ...,  0.0082, -0.1417, -0.1136],
+        [-0.2561, -0.2566, -0.2359,  ...,  0.1236,  0.0728,  0.4458],
+        [-0.2985, -0.2030, -0.2691,  ..., -0.3356,  0.0159, -0.2651],
+        ...,
+        [-0.2294, -0.2921, -0.0145,  ..., -0.2868, -0.1687, -0.5120],
+        [ 0.1658,  0.0382, -0.1757,  ..., -0.2793,  0.0555, -0.2553],
+        [ 0.1744,  0.1093, -0.1703,  ...,  0.1399, -0.2784, -0.3433]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  9.3132e-10],
+        [-4.6566e-10, -4.6566e-10,  0.0000e+00,  ..., -4.6566e-10,
+         -4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 443, bias, value: tensor([-0.0425, -0.0428, -0.0074, -0.0050,  0.0006,  0.0060,  0.0074, -0.0070,
+         0.0155, -0.0441], device='cuda:0'), grad: tensor([ 4.6566e-10,  0.0000e+00, -9.3132e-09,  0.0000e+00, -3.2596e-09,
+         1.3970e-09,  9.3132e-10,  5.1223e-09,  3.7253e-09,  5.1223e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 442, time 217.77, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4212 re_mapping 0.0020 re_causal 0.0072 /// teacc 99.25 lr 0.00001000
+Epoch 444, weight, value: tensor([[-0.1333,  0.0210,  0.1712,  ...,  0.0082, -0.1417, -0.1136],
+        [-0.2562, -0.2567, -0.2359,  ...,  0.1237,  0.0729,  0.4460],
+        [-0.2986, -0.2030, -0.2691,  ..., -0.3357,  0.0158, -0.2651],
+        ...,
+        [-0.2295, -0.2922, -0.0146,  ..., -0.2869, -0.1687, -0.5122],
+        [ 0.1658,  0.0383, -0.1758,  ..., -0.2794,  0.0555, -0.2553],
+        [ 0.1745,  0.1093, -0.1704,  ...,  0.1400, -0.2785, -0.3433]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.0850e-07,
+         -4.6566e-10, -2.9057e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+          0.0000e+00,  3.7253e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.0617e-07,
+          0.0000e+00,  2.8452e-07],
+        [-4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 444, bias, value: tensor([-0.0425, -0.0428, -0.0074, -0.0050,  0.0006,  0.0060,  0.0074, -0.0070,
+         0.0154, -0.0441], device='cuda:0'), grad: tensor([ 0.0000e+00, -1.0245e-06,  1.3970e-08,  4.1910e-09,  4.6566e-10,
+         3.2596e-09,  1.3970e-09,  1.0068e-06, -6.0536e-09,  4.6566e-10],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 443, time 217.59, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4202 re_mapping 0.0020 re_causal 0.0072 /// teacc 99.23 lr 0.00001000
+Epoch 445, weight, value: tensor([[-0.1333,  0.0211,  0.1714,  ...,  0.0084, -0.1417, -0.1136],
+        [-0.2562, -0.2567, -0.2360,  ...,  0.1237,  0.0730,  0.4462],
+        [-0.2986, -0.2030, -0.2692,  ..., -0.3358,  0.0158, -0.2652],
+        ...,
+        [-0.2295, -0.2922, -0.0146,  ..., -0.2870, -0.1688, -0.5124],
+        [ 0.1658,  0.0382, -0.1759,  ..., -0.2795,  0.0556, -0.2554],
+        [ 0.1745,  0.1094, -0.1705,  ...,  0.1400, -0.2785, -0.3434]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 9.3132e-10,  4.6566e-10,  0.0000e+00,  ..., -1.3970e-09,
+          4.6566e-10, -1.3970e-09],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -2.3283e-09,  4.6566e-10],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+          9.3132e-10,  1.3970e-09],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.2596e-09,  ...,  0.0000e+00,
+          3.2596e-09,  0.0000e+00]], device='cuda:0')
+Epoch 445, bias, value: tensor([-0.0423, -0.0427, -0.0073, -0.0050,  0.0006,  0.0060,  0.0074, -0.0070,
+         0.0154, -0.0441], device='cuda:0'), grad: tensor([ 4.1910e-09,  1.6298e-08, -5.3551e-08,  0.0000e+00, -1.9092e-08,
+         2.7940e-09,  4.1910e-09,  1.3970e-08,  1.5367e-08,  1.3504e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 444, time 217.64, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4117 re_mapping 0.0020 re_causal 0.0072 /// teacc 99.21 lr 0.00001000
+Epoch 446, weight, value: tensor([[-0.1333,  0.0211,  0.1714,  ...,  0.0084, -0.1417, -0.1136],
+        [-0.2563, -0.2567, -0.2361,  ...,  0.1238,  0.0730,  0.4464],
+        [-0.2986, -0.2031, -0.2692,  ..., -0.3359,  0.0158, -0.2652],
+        ...,
+        [-0.2296, -0.2923, -0.0146,  ..., -0.2871, -0.1689, -0.5125],
+        [ 0.1658,  0.0383, -0.1760,  ..., -0.2796,  0.0556, -0.2555],
+        [ 0.1746,  0.1094, -0.1705,  ...,  0.1401, -0.2786, -0.3434]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  1.3970e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  9.3132e-10,  4.6566e-10,  ..., -9.3132e-10,
+          4.6566e-10, -1.8626e-09],
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  1.3970e-09,
+          0.0000e+00,  2.7940e-09],
+        ...,
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  9.3132e-10],
+        [-1.8626e-09, -4.6566e-10,  4.6566e-10,  ...,  9.3132e-10,
+         -1.3970e-09,  4.6566e-10],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 446, bias, value: tensor([-0.0423, -0.0427, -0.0072, -0.0050,  0.0006,  0.0059,  0.0074, -0.0071,
+         0.0153, -0.0441], device='cuda:0'), grad: tensor([ 6.0536e-09,  4.6566e-09, -2.6077e-08,  4.6566e-09,  3.2596e-09,
+        -2.1886e-08,  8.8476e-09,  2.7474e-08, -4.6566e-10,  2.7940e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 445, time 217.85, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4120 re_mapping 0.0020 re_causal 0.0069 /// teacc 99.22 lr 0.00001000
+Epoch 447, weight, value: tensor([[-0.1333,  0.0211,  0.1715,  ...,  0.0084, -0.1418, -0.1136],
+        [-0.2563, -0.2568, -0.2361,  ...,  0.1239,  0.0730,  0.4466],
+        [-0.2987, -0.2031, -0.2692,  ..., -0.3359,  0.0158, -0.2653],
+        ...,
+        [-0.2297, -0.2924, -0.0146,  ..., -0.2872, -0.1689, -0.5127],
+        [ 0.1659,  0.0383, -0.1760,  ..., -0.2796,  0.0557, -0.2555],
+        [ 0.1746,  0.1095, -0.1706,  ...,  0.1402, -0.2786, -0.3434]],
+       device='cuda:0'), grad: tensor([[0.0000e+00, 0.0000e+00, 4.6566e-10,  ..., 0.0000e+00, 9.3132e-10,
+         0.0000e+00],
+        [4.6566e-10, 0.0000e+00, 2.7940e-09,  ..., 0.0000e+00, 6.0536e-09,
+         0.0000e+00],
+        [4.6566e-10, 4.6566e-10, 0.0000e+00,  ..., 0.0000e+00, 9.3132e-10,
+         0.0000e+00],
+        ...,
+        [9.3132e-10, 4.6566e-10, 4.6566e-10,  ..., 0.0000e+00, 9.3132e-10,
+         0.0000e+00],
+        [9.3132e-10, 4.6566e-10, 0.0000e+00,  ..., 0.0000e+00, 9.3132e-10,
+         0.0000e+00],
+        [4.6566e-10, 0.0000e+00, 1.1176e-08,  ..., 0.0000e+00, 1.5367e-08,
+         0.0000e+00]], device='cuda:0')
+Epoch 447, bias, value: tensor([-0.0423, -0.0428, -0.0073, -0.0050,  0.0006,  0.0059,  0.0074, -0.0070,
+         0.0153, -0.0441], device='cuda:0'), grad: tensor([ 3.7253e-09,  2.5611e-08,  5.1223e-09, -1.4901e-08, -1.1502e-07,
+         7.4506e-09,  1.1642e-08,  7.9162e-09,  4.6566e-09,  7.1712e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 446, time 217.86, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4174 re_mapping 0.0020 re_causal 0.0072 /// teacc 99.24 lr 0.00001000
+Epoch 448, weight, value: tensor([[-0.1333,  0.0212,  0.1715,  ...,  0.0084, -0.1418, -0.1136],
+        [-0.2564, -0.2568, -0.2362,  ...,  0.1240,  0.0731,  0.4468],
+        [-0.2987, -0.2031, -0.2693,  ..., -0.3360,  0.0157, -0.2654],
+        ...,
+        [-0.2298, -0.2924, -0.0146,  ..., -0.2872, -0.1690, -0.5128],
+        [ 0.1659,  0.0383, -0.1760,  ..., -0.2797,  0.0557, -0.2556],
+        [ 0.1747,  0.1096, -0.1706,  ...,  0.1404, -0.2787, -0.3434]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-09,  ..., -4.6566e-10,
+         -1.3970e-09, -4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          4.6566e-10,  3.2596e-09],
+        [ 0.0000e+00,  1.3970e-09,  1.1176e-08,  ...,  9.3132e-09,
+          4.6566e-10,  1.3970e-09],
+        [-2.7940e-09, -9.3132e-10,  1.8626e-09,  ..., -3.7253e-09,
+          1.3970e-09,  4.6566e-10]], device='cuda:0')
+Epoch 448, bias, value: tensor([-0.0423, -0.0428, -0.0072, -0.0050,  0.0006,  0.0059,  0.0074, -0.0070,
+         0.0153, -0.0441], device='cuda:0'), grad: tensor([ 4.6566e-09, -1.8626e-09,  4.6566e-09,  2.3283e-09,  6.5193e-09,
+         1.6298e-08, -7.9162e-08,  9.3132e-09,  4.7497e-08, -4.1910e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 447, time 217.91, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4213 re_mapping 0.0020 re_causal 0.0072 /// teacc 99.25 lr 0.00001000
+Epoch 449, weight, value: tensor([[-0.1333,  0.0212,  0.1715,  ...,  0.0084, -0.1418, -0.1137],
+        [-0.2565, -0.2569, -0.2362,  ...,  0.1240,  0.0731,  0.4469],
+        [-0.2988, -0.2031, -0.2693,  ..., -0.3360,  0.0157, -0.2654],
+        ...,
+        [-0.2299, -0.2925, -0.0146,  ..., -0.2873, -0.1690, -0.5129],
+        [ 0.1659,  0.0382, -0.1762,  ..., -0.2798,  0.0557, -0.2557],
+        [ 0.1748,  0.1096, -0.1706,  ...,  0.1405, -0.2787, -0.3435]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  9.3132e-10,  4.6566e-10,  ..., -1.3970e-09,
+         -4.6566e-10, -4.1910e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  1.3970e-09],
+        ...,
+        [ 0.0000e+00,  2.7940e-09,  6.5193e-09,  ...,  9.3132e-10,
+          4.6566e-10,  2.3283e-09],
+        [-6.0536e-09, -6.5193e-09,  0.0000e+00,  ..., -1.8626e-09,
+         -4.1910e-09,  4.6566e-10],
+        [ 3.2596e-09,  8.8476e-09,  1.3970e-08,  ...,  9.3132e-10,
+          2.3283e-09,  0.0000e+00]], device='cuda:0')
+Epoch 449, bias, value: tensor([-0.0423, -0.0428, -0.0072, -0.0049,  0.0005,  0.0058,  0.0075, -0.0071,
+         0.0152, -0.0441], device='cuda:0'), grad: tensor([ 1.3970e-09, -2.3283e-09,  3.2596e-09,  3.7253e-09, -1.0198e-07,
+         7.4506e-09,  7.4506e-09,  3.5390e-08, -2.9337e-08,  8.1956e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 448, time 217.64, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4214 re_mapping 0.0020 re_causal 0.0072 /// teacc 99.23 lr 0.00001000
+Epoch 450, weight, value: tensor([[-0.1333,  0.0213,  0.1716,  ...,  0.0085, -0.1418, -0.1137],
+        [-0.2565, -0.2569, -0.2363,  ...,  0.1241,  0.0732,  0.4472],
+        [-0.2988, -0.2031, -0.2693,  ..., -0.3361,  0.0157, -0.2655],
+        ...,
+        [-0.2300, -0.2926, -0.0146,  ..., -0.2874, -0.1691, -0.5131],
+        [ 0.1659,  0.0383, -0.1762,  ..., -0.2799,  0.0558, -0.2557],
+        [ 0.1748,  0.1097, -0.1707,  ...,  0.1405, -0.2788, -0.3435]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 1.3970e-09,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [-1.1176e-08, -1.8626e-09,  0.0000e+00,  ..., -5.5879e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 450, bias, value: tensor([-0.0422, -0.0428, -0.0071, -0.0050,  0.0005,  0.0058,  0.0075, -0.0070,
+         0.0152, -0.0441], device='cuda:0'), grad: tensor([ 1.3970e-09,  2.7940e-09,  2.7940e-09, -1.3970e-08,  2.3283e-08,
+         1.6298e-08,  1.3970e-09, -4.6566e-10,  4.6566e-09, -2.6077e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 449, time 217.37, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4425 re_mapping 0.0020 re_causal 0.0074 /// teacc 99.24 lr 0.00001000
+Epoch 451, weight, value: tensor([[-0.1333,  0.0214,  0.1717,  ...,  0.0085, -0.1419, -0.1137],
+        [-0.2565, -0.2570, -0.2364,  ...,  0.1242,  0.0733,  0.4474],
+        [-0.2988, -0.2032, -0.2694,  ..., -0.3361,  0.0157, -0.2655],
+        ...,
+        [-0.2301, -0.2926, -0.0146,  ..., -0.2875, -0.1692, -0.5133],
+        [ 0.1659,  0.0383, -0.1763,  ..., -0.2800,  0.0558, -0.2558],
+        [ 0.1748,  0.1097, -0.1708,  ...,  0.1406, -0.2789, -0.3435]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.3970e-09,  ..., -9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -9.3132e-10,
+         -4.6566e-10, -1.8626e-09],
+        [ 9.3132e-10,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          9.3132e-10,  1.8626e-09],
+        ...,
+        [ 4.6566e-10,  4.6566e-10, -4.6566e-10,  ...,  4.6566e-10,
+          4.6566e-10,  1.3970e-09],
+        [-2.3283e-09, -1.8626e-09,  9.3132e-10,  ...,  1.3970e-09,
+         -2.7940e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10]], device='cuda:0')
+Epoch 451, bias, value: tensor([-0.0421, -0.0428, -0.0070, -0.0050,  0.0005,  0.0057,  0.0076, -0.0071,
+         0.0152, -0.0441], device='cuda:0'), grad: tensor([-3.7253e-09, -4.6566e-10,  2.3283e-09,  5.5879e-09,  0.0000e+00,
+         3.7253e-09,  1.8626e-09,  2.7940e-09, -1.3970e-08,  5.1223e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 450, time 217.51, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4027 re_mapping 0.0020 re_causal 0.0070 /// teacc 99.22 lr 0.00001000
+Epoch 452, weight, value: tensor([[-0.1333,  0.0214,  0.1717,  ...,  0.0085, -0.1419, -0.1137],
+        [-0.2566, -0.2570, -0.2364,  ...,  0.1244,  0.0734,  0.4478],
+        [-0.2988, -0.2032, -0.2694,  ..., -0.3362,  0.0157, -0.2656],
+        ...,
+        [-0.2302, -0.2927, -0.0146,  ..., -0.2877, -0.1694, -0.5137],
+        [ 0.1659,  0.0383, -0.1763,  ..., -0.2801,  0.0559, -0.2558],
+        [ 0.1748,  0.1097, -0.1708,  ...,  0.1406, -0.2789, -0.3436]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 3.7253e-09,  2.3283e-09,  0.0000e+00,  ...,  1.8626e-09,
+          4.1910e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  9.3132e-10],
+        ...,
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  1.3970e-09],
+        [-6.0536e-09, -4.6566e-09,  0.0000e+00,  ..., -1.8626e-09,
+         -9.3132e-09,  4.6566e-10],
+        [-6.0536e-09, -3.7253e-09,  0.0000e+00,  ..., -6.0536e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 452, bias, value: tensor([-0.0421, -0.0427, -0.0070, -0.0050,  0.0005,  0.0058,  0.0076, -0.0071,
+         0.0151, -0.0441], device='cuda:0'), grad: tensor([ 9.3132e-10,  2.1420e-08,  2.7940e-09,  4.6566e-10,  1.3504e-08,
+         1.3970e-08,  4.6566e-09,  3.2596e-09, -3.8650e-08, -2.0023e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 451, time 217.43, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4351 re_mapping 0.0020 re_causal 0.0071 /// teacc 99.23 lr 0.00001000
+Epoch 453, weight, value: tensor([[-0.1333,  0.0215,  0.1717,  ...,  0.0085, -0.1419, -0.1137],
+        [-0.2566, -0.2570, -0.2365,  ...,  0.1244,  0.0735,  0.4479],
+        [-0.2989, -0.2032, -0.2694,  ..., -0.3363,  0.0156, -0.2657],
+        ...,
+        [-0.2303, -0.2927, -0.0146,  ..., -0.2878, -0.1695, -0.5138],
+        [ 0.1660,  0.0383, -0.1764,  ..., -0.2801,  0.0559, -0.2559],
+        [ 0.1749,  0.1097, -0.1709,  ...,  0.1407, -0.2790, -0.3437]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -6.5193e-09, -1.5367e-08,  ..., -8.8476e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  4.6566e-10,  ..., -4.6566e-10,
+         -4.6566e-10, -1.8626e-09],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [ 2.7940e-09,  3.2596e-09,  1.3970e-09,  ...,  4.6566e-10,
+          4.6566e-10,  1.3970e-09],
+        [-2.3283e-09, -1.8626e-09,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  4.6566e-10,  9.3132e-10,  ...,  4.6566e-10,
+          0.0000e+00,  4.6566e-10]], device='cuda:0')
+Epoch 453, bias, value: tensor([-0.0421, -0.0427, -0.0069, -0.0050,  0.0005,  0.0058,  0.0077, -0.0072,
+         0.0151, -0.0441], device='cuda:0'), grad: tensor([-3.9581e-08,  0.0000e+00,  3.7253e-09,  2.2585e-07,  9.3132e-10,
+        -2.3050e-07,  3.1199e-08,  1.3970e-08, -7.4506e-09,  7.9162e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 452, time 217.51, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4159 re_mapping 0.0020 re_causal 0.0071 /// teacc 99.22 lr 0.00001000
+Epoch 454, weight, value: tensor([[-0.1333,  0.0215,  0.1718,  ...,  0.0085, -0.1419, -0.1137],
+        [-0.2567, -0.2571, -0.2366,  ...,  0.1245,  0.0735,  0.4481],
+        [-0.2989, -0.2032, -0.2695,  ..., -0.3363,  0.0156, -0.2657],
+        ...,
+        [-0.2303, -0.2928, -0.0146,  ..., -0.2878, -0.1696, -0.5140],
+        [ 0.1660,  0.0382, -0.1764,  ..., -0.2802,  0.0560, -0.2560],
+        [ 0.1749,  0.1097, -0.1709,  ...,  0.1407, -0.2791, -0.3437]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [-2.3283e-09, -1.8626e-09,  0.0000e+00,  ..., -1.8626e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 454, bias, value: tensor([-0.0421, -0.0427, -0.0068, -0.0051,  0.0005,  0.0058,  0.0077, -0.0072,
+         0.0151, -0.0441], device='cuda:0'), grad: tensor([ 4.6566e-10,  6.5193e-09,  5.1223e-09,  1.0710e-08,  4.1910e-09,
+        -2.7940e-09,  1.3970e-09, -1.4901e-08,  1.8626e-09, -4.1910e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 453, time 217.49, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4161 re_mapping 0.0020 re_causal 0.0071 /// teacc 99.23 lr 0.00001000
+Epoch 455, weight, value: tensor([[-0.1333,  0.0216,  0.1718,  ...,  0.0086, -0.1419, -0.1137],
+        [-0.2567, -0.2571, -0.2366,  ...,  0.1246,  0.0736,  0.4483],
+        [-0.2989, -0.2032, -0.2695,  ..., -0.3364,  0.0156, -0.2658],
+        ...,
+        [-0.2304, -0.2928, -0.0146,  ..., -0.2880, -0.1696, -0.5142],
+        [ 0.1660,  0.0382, -0.1765,  ..., -0.2803,  0.0561, -0.2560],
+        [ 0.1750,  0.1098, -0.1710,  ...,  0.1409, -0.2792, -0.3438]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -9.3132e-10,
+         -4.6566e-10, -2.3283e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.3970e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          4.6566e-10,  2.3283e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 455, bias, value: tensor([-0.0421, -0.0427, -0.0068, -0.0051,  0.0005,  0.0059,  0.0077, -0.0072,
+         0.0150, -0.0441], device='cuda:0'), grad: tensor([ 0.0000e+00,  1.8626e-09, -6.0536e-09,  9.3132e-10,  0.0000e+00,
+         4.6566e-10,  1.3970e-09,  4.1910e-09,  9.3132e-10,  0.0000e+00],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 454, time 217.59, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4016 re_mapping 0.0019 re_causal 0.0069 /// teacc 99.23 lr 0.00001000
+Epoch 456, weight, value: tensor([[-0.1333,  0.0216,  0.1718,  ...,  0.0085, -0.1419, -0.1137],
+        [-0.2568, -0.2572, -0.2367,  ...,  0.1247,  0.0736,  0.4485],
+        [-0.2990, -0.2033, -0.2696,  ..., -0.3364,  0.0156, -0.2658],
+        ...,
+        [-0.2305, -0.2929, -0.0146,  ..., -0.2881, -0.1697, -0.5143],
+        [ 0.1660,  0.0382, -0.1765,  ..., -0.2803,  0.0561, -0.2560],
+        [ 0.1750,  0.1098, -0.1711,  ...,  0.1410, -0.2793, -0.3438]],
+       device='cuda:0'), grad: tensor([[0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 4.6566e-10,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         4.6566e-10],
+        ...,
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         9.3132e-10],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 4.6566e-10, 4.6566e-10,
+         4.6566e-10],
+        [0.0000e+00, 0.0000e+00, 4.6566e-10,  ..., 0.0000e+00, 4.6566e-10,
+         0.0000e+00]], device='cuda:0')
+Epoch 456, bias, value: tensor([-0.0421, -0.0427, -0.0068, -0.0052,  0.0005,  0.0059,  0.0077, -0.0073,
+         0.0150, -0.0441], device='cuda:0'), grad: tensor([ 1.3970e-08,  1.0710e-08, -4.2375e-08,  9.3132e-10, -2.7940e-09,
+        -4.6566e-10,  4.6566e-09,  1.9092e-08,  4.6566e-10,  2.7940e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 455, time 217.57, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4250 re_mapping 0.0019 re_causal 0.0071 /// teacc 99.25 lr 0.00001000
+Epoch 457, weight, value: tensor([[-0.1334,  0.0216,  0.1718,  ...,  0.0085, -0.1420, -0.1137],
+        [-0.2569, -0.2572, -0.2367,  ...,  0.1248,  0.0737,  0.4486],
+        [-0.2990, -0.2033, -0.2696,  ..., -0.3365,  0.0155, -0.2659],
+        ...,
+        [-0.2306, -0.2930, -0.0146,  ..., -0.2882, -0.1698, -0.5144],
+        [ 0.1660,  0.0382, -0.1766,  ..., -0.2804,  0.0562, -0.2561],
+        [ 0.1751,  0.1099, -0.1712,  ...,  0.1411, -0.2794, -0.3439]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.3970e-09,  ..., -3.2596e-09,
+         -2.7940e-09, -8.8476e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  2.3283e-09,
+          1.8626e-09,  6.9849e-09],
+        ...,
+        [ 4.6566e-10,  9.3132e-10,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  2.3283e-09],
+        [-4.6566e-10, -4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+         -9.3132e-10,  4.6566e-10],
+        [-1.8626e-09, -2.3283e-09,  0.0000e+00,  ..., -2.3283e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 457, bias, value: tensor([-0.0421, -0.0426, -0.0068, -0.0052,  0.0005,  0.0059,  0.0077, -0.0073,
+         0.0150, -0.0441], device='cuda:0'), grad: tensor([ 1.8626e-09, -3.2596e-09, -3.1199e-08,  3.7253e-09,  3.7253e-09,
+        -4.6566e-10,  4.6566e-09, -3.2596e-09,  8.3819e-09,  1.9092e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 456, time 217.61, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4142 re_mapping 0.0019 re_causal 0.0070 /// teacc 99.24 lr 0.00001000
+Epoch 458, weight, value: tensor([[-0.1334,  0.0216,  0.1719,  ...,  0.0085, -0.1420, -0.1138],
+        [-0.2569, -0.2572, -0.2368,  ...,  0.1249,  0.0737,  0.4489],
+        [-0.2990, -0.2033, -0.2696,  ..., -0.3366,  0.0155, -0.2660],
+        ...,
+        [-0.2307, -0.2930, -0.0146,  ..., -0.2883, -0.1699, -0.5147],
+        [ 0.1660,  0.0382, -0.1766,  ..., -0.2805,  0.0562, -0.2562],
+        [ 0.1751,  0.1100, -0.1712,  ...,  0.1412, -0.2795, -0.3439]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -5.1223e-09, -9.7789e-09,  ..., -9.7789e-09,
+          0.0000e+00, -4.6566e-10],
+        [ 0.0000e+00,  4.6566e-10,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  4.6566e-10,  ...,  4.6566e-10,
+         -4.6566e-10,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  3.2596e-09,  6.0536e-09,  ...,  6.0536e-09,
+          0.0000e+00,  0.0000e+00],
+        [-1.8626e-09,  0.0000e+00,  2.3283e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 458, bias, value: tensor([-0.0421, -0.0426, -0.0068, -0.0052,  0.0005,  0.0059,  0.0077, -0.0073,
+         0.0149, -0.0441], device='cuda:0'), grad: tensor([-3.6787e-08,  4.6566e-09, -4.6566e-09,  2.3283e-09,  6.0536e-09,
+         4.6566e-10,  4.1910e-09,  3.2596e-09,  2.6077e-08,  2.3283e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 457, time 217.58, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4003 re_mapping 0.0019 re_causal 0.0070 /// teacc 99.23 lr 0.00001000
+Epoch 459, weight, value: tensor([[-0.1334,  0.0217,  0.1719,  ...,  0.0086, -0.1420, -0.1138],
+        [-0.2570, -0.2573, -0.2368,  ...,  0.1250,  0.0738,  0.4490],
+        [-0.2991, -0.2033, -0.2696,  ..., -0.3366,  0.0155, -0.2661],
+        ...,
+        [-0.2308, -0.2931, -0.0146,  ..., -0.2884, -0.1700, -0.5148],
+        [ 0.1660,  0.0382, -0.1767,  ..., -0.2806,  0.0563, -0.2562],
+        [ 0.1752,  0.1100, -0.1713,  ...,  0.1413, -0.2796, -0.3439]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.6298e-09,
+          2.3283e-10,  6.2864e-09],
+        [ 0.0000e+00,  2.3283e-10, -1.1642e-09,  ..., -4.7032e-08,
+         -2.0955e-08, -1.3295e-07],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  1.5134e-08,
+          7.2177e-09,  3.6322e-08],
+        ...,
+        [ 2.3283e-10,  0.0000e+00,  4.6566e-10,  ...,  6.9849e-09,
+          9.3132e-10,  3.3295e-08],
+        [ 0.0000e+00,  6.9849e-10,  1.8626e-09,  ...,  2.2352e-08,
+          1.1874e-08,  4.2142e-08],
+        [-1.1642e-09, -6.9849e-10,  4.6566e-10,  ..., -9.3132e-10,
+          4.6566e-10,  1.8626e-09]], device='cuda:0')
+Epoch 459, bias, value: tensor([-0.0421, -0.0426, -0.0068, -0.0052,  0.0005,  0.0059,  0.0077, -0.0073,
+         0.0149, -0.0441], device='cuda:0'), grad: tensor([ 1.0245e-08, -2.4727e-07,  7.3342e-08,  9.0804e-09,  6.0536e-09,
+         9.3132e-09, -3.0268e-09,  5.1456e-08,  1.0175e-07,  2.0955e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 458, time 217.87, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4076 re_mapping 0.0020 re_causal 0.0071 /// teacc 99.23 lr 0.00001000
+Epoch 460, weight, value: tensor([[-0.1334,  0.0217,  0.1720,  ...,  0.0086, -0.1420, -0.1138],
+        [-0.2570, -0.2574, -0.2369,  ...,  0.1250,  0.0738,  0.4492],
+        [-0.2991, -0.2034, -0.2697,  ..., -0.3367,  0.0154, -0.2661],
+        ...,
+        [-0.2309, -0.2932, -0.0146,  ..., -0.2885, -0.1700, -0.5149],
+        [ 0.1661,  0.0382, -0.1768,  ..., -0.2807,  0.0564, -0.2563],
+        [ 0.1752,  0.1100, -0.1714,  ...,  0.1414, -0.2797, -0.3439]],
+       device='cuda:0'), grad: tensor([[-2.3283e-10, -9.3132e-10,  1.3970e-09,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-09,  ..., -2.5611e-09,
+         -4.6566e-10, -3.4925e-09],
+        [ 2.3283e-10,  2.3283e-10,  4.6566e-10,  ...,  3.0268e-09,
+          1.3970e-09,  2.0955e-09],
+        ...,
+        [ 2.3283e-10,  0.0000e+00, -4.6566e-10,  ...,  1.8626e-09,
+          4.6566e-10,  1.6298e-09],
+        [-6.9849e-10, -4.6566e-10,  3.2596e-09,  ...,  3.4925e-09,
+         -6.9849e-10,  0.0000e+00],
+        [-4.6566e-10, -2.3283e-10,  6.2864e-09,  ...,  4.6566e-10,
+          6.0536e-09,  0.0000e+00]], device='cuda:0')
+Epoch 460, bias, value: tensor([-0.0421, -0.0426, -0.0068, -0.0052,  0.0005,  0.0059,  0.0078, -0.0073,
+         0.0149, -0.0442], device='cuda:0'), grad: tensor([ 6.5193e-09, -1.6298e-09,  1.0012e-08,  1.6298e-09, -1.6065e-08,
+         1.8859e-08, -4.7265e-08,  2.0955e-09,  9.3132e-09,  2.0256e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 459, time 217.59, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4076 re_mapping 0.0020 re_causal 0.0071 /// teacc 99.23 lr 0.00001000
+Epoch 461, weight, value: tensor([[-0.1334,  0.0217,  0.1720,  ...,  0.0086, -0.1420, -0.1138],
+        [-0.2571, -0.2574, -0.2369,  ...,  0.1252,  0.0739,  0.4495],
+        [-0.2991, -0.2034, -0.2697,  ..., -0.3368,  0.0154, -0.2662],
+        ...,
+        [-0.2309, -0.2932, -0.0146,  ..., -0.2886, -0.1701, -0.5151],
+        [ 0.1661,  0.0382, -0.1768,  ..., -0.2808,  0.0564, -0.2563],
+        [ 0.1753,  0.1101, -0.1715,  ...,  0.1415, -0.2798, -0.3440]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  2.3283e-10,  0.0000e+00,  ...,  6.9849e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 1.1642e-09,  9.3132e-10, -4.6566e-10,  ..., -6.9849e-10,
+         -1.3970e-09, -7.2177e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  9.3132e-10,
+          1.1642e-09,  3.9581e-09],
+        ...,
+        [ 1.3970e-09,  1.1642e-09,  0.0000e+00,  ...,  2.0955e-09,
+          4.6566e-10,  1.6298e-09],
+        [-4.8894e-09, -5.3551e-09,  2.3283e-10,  ..., -1.3970e-09,
+         -3.0268e-09,  6.9849e-10],
+        [-4.4238e-09, -2.5611e-09,  0.0000e+00,  ..., -8.8476e-09,
+          1.3970e-09,  0.0000e+00]], device='cuda:0')
+Epoch 461, bias, value: tensor([-0.0421, -0.0426, -0.0069, -0.0052,  0.0005,  0.0060,  0.0078, -0.0074,
+         0.0148, -0.0442], device='cuda:0'), grad: tensor([ 2.7940e-09, -5.8208e-09,  6.9849e-09,  4.1910e-09,  1.5134e-08,
+         5.3551e-09,  2.0955e-09,  8.8476e-09, -1.8394e-08, -1.7229e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 460, time 217.58, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4106 re_mapping 0.0020 re_causal 0.0071 /// teacc 99.23 lr 0.00001000
+Epoch 462, weight, value: tensor([[-0.1334,  0.0218,  0.1720,  ...,  0.0086, -0.1421, -0.1138],
+        [-0.2571, -0.2574, -0.2370,  ...,  0.1253,  0.0740,  0.4496],
+        [-0.2992, -0.2034, -0.2697,  ..., -0.3369,  0.0153, -0.2663],
+        ...,
+        [-0.2310, -0.2932, -0.0146,  ..., -0.2887, -0.1702, -0.5152],
+        [ 0.1661,  0.0382, -0.1768,  ..., -0.2809,  0.0566, -0.2564],
+        [ 0.1753,  0.1101, -0.1716,  ...,  0.1415, -0.2799, -0.3440]],
+       device='cuda:0'), grad: tensor([[ 6.9849e-10,  4.6566e-10,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  2.3283e-10,  0.0000e+00,  ..., -6.9849e-10,
+         -1.3970e-09, -5.1223e-09],
+        [ 6.9849e-10,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          4.6566e-10,  9.3132e-10],
+        ...,
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  1.1642e-09],
+        [ 2.3283e-10, -2.3283e-10,  0.0000e+00,  ...,  6.9849e-10,
+         -4.6566e-10,  0.0000e+00],
+        [-1.8626e-08, -1.3039e-08, -9.3132e-10,  ..., -2.2119e-08,
+          2.3283e-10,  0.0000e+00]], device='cuda:0')
+Epoch 462, bias, value: tensor([-0.0421, -0.0425, -0.0069, -0.0053,  0.0005,  0.0060,  0.0078, -0.0074,
+         0.0149, -0.0442], device='cuda:0'), grad: tensor([ 3.2596e-09,  2.4214e-08,  2.5611e-09,  9.5461e-09,  5.8440e-08,
+         3.2596e-09,  1.1642e-09, -3.7020e-08,  0.0000e+00, -5.8440e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 461, time 217.53, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4341 re_mapping 0.0020 re_causal 0.0071 /// teacc 99.25 lr 0.00001000
+Epoch 463, weight, value: tensor([[-0.1334,  0.0218,  0.1721,  ...,  0.0086, -0.1421, -0.1138],
+        [-0.2572, -0.2575, -0.2370,  ...,  0.1253,  0.0740,  0.4497],
+        [-0.2992, -0.2035, -0.2698,  ..., -0.3370,  0.0153, -0.2664],
+        ...,
+        [-0.2310, -0.2933, -0.0146,  ..., -0.2888, -0.1703, -0.5153],
+        [ 0.1662,  0.0382, -0.1770,  ..., -0.2810,  0.0566, -0.2564],
+        [ 0.1754,  0.1101, -0.1717,  ...,  0.1417, -0.2800, -0.3440]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ..., -6.9849e-10,
+         -4.6566e-10, -2.3283e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  4.6566e-10,
+          2.3283e-10,  6.9849e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          2.3283e-10,  6.9849e-10],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-10]], device='cuda:0')
+Epoch 463, bias, value: tensor([-0.0420, -0.0425, -0.0069, -0.0053,  0.0005,  0.0060,  0.0078, -0.0074,
+         0.0149, -0.0442], device='cuda:0'), grad: tensor([ 1.6298e-09, -1.8626e-09,  2.2352e-08,  1.8626e-09,  1.3970e-08,
+         6.0536e-09, -1.8859e-08, -2.6543e-08,  4.6566e-09,  3.7253e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 462, time 217.45, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.3808 re_mapping 0.0020 re_causal 0.0068 /// teacc 99.22 lr 0.00001000
+Epoch 464, weight, value: tensor([[-0.1335,  0.0218,  0.1721,  ...,  0.0086, -0.1421, -0.1138],
+        [-0.2573, -0.2575, -0.2371,  ...,  0.1254,  0.0740,  0.4498],
+        [-0.2993, -0.2035, -0.2698,  ..., -0.3370,  0.0153, -0.2665],
+        ...,
+        [-0.2311, -0.2934, -0.0147,  ..., -0.2889, -0.1704, -0.5154],
+        [ 0.1662,  0.0383, -0.1770,  ..., -0.2811,  0.0568, -0.2564],
+        [ 0.1755,  0.1101, -0.1718,  ...,  0.1418, -0.2802, -0.3440]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10,  2.3283e-10,  2.3283e-10,  ..., -4.6566e-10,
+         -4.6566e-10, -2.3283e-09],
+        [ 2.3283e-10,  2.3283e-10,  0.0000e+00,  ...,  2.3283e-10,
+          4.6566e-10,  1.1642e-09],
+        ...,
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  2.3283e-10,
+          6.9849e-10,  1.1642e-09],
+        [-1.6298e-09, -1.6298e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.8626e-09,  2.3283e-10],
+        [ 0.0000e+00,  4.6566e-10,  8.1491e-09,  ...,  0.0000e+00,
+          2.5611e-09,  2.3283e-10]], device='cuda:0')
+Epoch 464, bias, value: tensor([-0.0421, -0.0425, -0.0069, -0.0054,  0.0005,  0.0060,  0.0078, -0.0074,
+         0.0149, -0.0443], device='cuda:0'), grad: tensor([ 4.6566e-10, -1.8626e-09,  3.9581e-09,  6.9849e-10, -1.9092e-08,
+         5.8208e-09,  3.7253e-09,  5.1223e-09, -1.0943e-08,  1.9092e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 463, time 217.54, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4227 re_mapping 0.0019 re_causal 0.0071 /// teacc 99.24 lr 0.00001000
+Epoch 465, weight, value: tensor([[-0.1335,  0.0219,  0.1721,  ...,  0.0087, -0.1421, -0.1138],
+        [-0.2573, -0.2576, -0.2372,  ...,  0.1254,  0.0741,  0.4499],
+        [-0.2993, -0.2035, -0.2699,  ..., -0.3371,  0.0152, -0.2666],
+        ...,
+        [-0.2312, -0.2934, -0.0147,  ..., -0.2889, -0.1704, -0.5154],
+        [ 0.1662,  0.0383, -0.1771,  ..., -0.2812,  0.0569, -0.2564],
+        [ 0.1755,  0.1102, -0.1719,  ...,  0.1419, -0.2802, -0.3440]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10,  2.3283e-10,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -1.1642e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-6.9849e-10, -4.6566e-10,  6.9849e-10,  ...,  6.9849e-10,
+         -2.3283e-10,  0.0000e+00],
+        [ 4.6566e-10,  2.3283e-10,  6.9849e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 465, bias, value: tensor([-0.0421, -0.0426, -0.0070, -0.0053,  0.0005,  0.0058,  0.0079, -0.0073,
+         0.0149, -0.0443], device='cuda:0'), grad: tensor([ 2.5611e-09,  8.8476e-09, -3.7253e-09,  5.1223e-09,  5.8208e-09,
+         9.3132e-09, -7.4506e-09, -4.6799e-08,  7.9162e-09,  2.1188e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 464, time 217.72, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4228 re_mapping 0.0019 re_causal 0.0071 /// teacc 99.24 lr 0.00001000
+Epoch 466, weight, value: tensor([[-0.1335,  0.0219,  0.1722,  ...,  0.0087, -0.1421, -0.1139],
+        [-0.2573, -0.2576, -0.2373,  ...,  0.1254,  0.0741,  0.4500],
+        [-0.2994, -0.2036, -0.2699,  ..., -0.3371,  0.0152, -0.2666],
+        ...,
+        [-0.2312, -0.2935, -0.0146,  ..., -0.2890, -0.1705, -0.5156],
+        [ 0.1662,  0.0383, -0.1771,  ..., -0.2812,  0.0569, -0.2565],
+        [ 0.1756,  0.1102, -0.1720,  ...,  0.1420, -0.2804, -0.3441]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -6.9849e-10, -3.7253e-09,  ..., -2.3283e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 6.9849e-10,  2.3283e-10, -2.5611e-09,  ...,  0.0000e+00,
+          4.6566e-10,  4.6566e-10],
+        ...,
+        [ 2.3283e-10,  0.0000e+00,  2.3283e-09,  ..., -2.3283e-10,
+          4.6566e-10,  9.3132e-10],
+        [-2.5611e-09, -1.3970e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.1642e-09,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  6.9849e-10,
+          0.0000e+00,  2.3283e-10]], device='cuda:0')
+Epoch 466, bias, value: tensor([-0.0421, -0.0426, -0.0071, -0.0053,  0.0006,  0.0058,  0.0080, -0.0073,
+         0.0149, -0.0444], device='cuda:0'), grad: tensor([-4.4238e-09,  2.6310e-08, -1.3364e-07,  7.2177e-09,  1.1642e-09,
+        -2.0955e-09,  9.3132e-09,  9.4995e-08, -6.0536e-09,  1.9791e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 465, time 217.51, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.3785 re_mapping 0.0019 re_causal 0.0068 /// teacc 99.22 lr 0.00001000
+Epoch 467, weight, value: tensor([[-0.1335,  0.0219,  0.1722,  ...,  0.0086, -0.1421, -0.1139],
+        [-0.2574, -0.2576, -0.2373,  ...,  0.1255,  0.0741,  0.4501],
+        [-0.2994, -0.2036, -0.2700,  ..., -0.3371,  0.0151, -0.2667],
+        ...,
+        [-0.2313, -0.2935, -0.0146,  ..., -0.2890, -0.1705, -0.5156],
+        [ 0.1663,  0.0383, -0.1772,  ..., -0.2813,  0.0570, -0.2565],
+        [ 0.1757,  0.1103, -0.1721,  ...,  0.1422, -0.2805, -0.3441]],
+       device='cuda:0'), grad: tensor([[0.0000e+00, 0.0000e+00, 2.3283e-10,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 4.6566e-10, 6.9849e-10,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 2.3283e-10, 2.3283e-10,  ..., 0.0000e+00, 0.0000e+00,
+         2.3283e-10],
+        ...,
+        [2.3283e-10, 3.9581e-09, 7.6834e-09,  ..., 2.3283e-10, 0.0000e+00,
+         2.3283e-10],
+        [0.0000e+00, 2.3283e-10, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 1.5134e-08, 2.8871e-08,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00]], device='cuda:0')
+Epoch 467, bias, value: tensor([-0.0421, -0.0427, -0.0071, -0.0054,  0.0006,  0.0058,  0.0080, -0.0072,
+         0.0148, -0.0444], device='cuda:0'), grad: tensor([ 6.9849e-10,  5.8208e-09,  2.3283e-09,  1.1642e-09, -1.8836e-07,
+         5.8208e-09,  3.4925e-09,  3.8417e-08,  4.6566e-10,  1.4226e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 466, time 217.54, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4161 re_mapping 0.0019 re_causal 0.0070 /// teacc 99.25 lr 0.00001000
+Epoch 468, weight, value: tensor([[-0.1335,  0.0220,  0.1724,  ...,  0.0088, -0.1422, -0.1139],
+        [-0.2574, -0.2577, -0.2374,  ...,  0.1255,  0.0742,  0.4503],
+        [-0.2994, -0.2036, -0.2700,  ..., -0.3372,  0.0151, -0.2668],
+        ...,
+        [-0.2314, -0.2936, -0.0147,  ..., -0.2891, -0.1706, -0.5157],
+        [ 0.1663,  0.0383, -0.1772,  ..., -0.2814,  0.0570, -0.2566],
+        [ 0.1757,  0.1103, -0.1723,  ...,  0.1423, -0.2806, -0.3441]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  9.3132e-10,  6.9849e-09,  ...,  5.1223e-09,
+          1.3970e-09,  0.0000e+00],
+        [ 2.5611e-09,  1.6298e-09,  2.3283e-09,  ...,  1.8626e-09,
+          2.7940e-09,  0.0000e+00],
+        [ 9.3132e-10,  4.6566e-10,  2.7940e-09,  ...,  2.3283e-09,
+          6.9849e-10,  2.3283e-10],
+        ...,
+        [ 9.3132e-10,  4.6566e-10,  0.0000e+00,  ...,  2.3283e-10,
+          6.9849e-10,  4.6566e-10],
+        [-1.5600e-08, -1.0710e-08,  2.0722e-08,  ...,  1.5600e-08,
+         -1.6531e-08,  0.0000e+00],
+        [ 2.0955e-09,  1.6298e-09,  1.8626e-09,  ...,  2.3283e-10,
+          4.1910e-09,  0.0000e+00]], device='cuda:0')
+Epoch 468, bias, value: tensor([-0.0419, -0.0427, -0.0070, -0.0054,  0.0006,  0.0059,  0.0079, -0.0073,
+         0.0148, -0.0445], device='cuda:0'), grad: tensor([ 4.1444e-08,  2.8405e-08,  1.2107e-08,  1.9092e-08,  8.8476e-09,
+         6.6590e-08, -2.1909e-07, -4.1910e-09,  2.7474e-08,  2.6077e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 467, time 217.13, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4220 re_mapping 0.0019 re_causal 0.0069 /// teacc 99.26 lr 0.00001000
+Epoch 469, weight, value: tensor([[-0.1335,  0.0221,  0.1724,  ...,  0.0088, -0.1422, -0.1139],
+        [-0.2575, -0.2577, -0.2374,  ...,  0.1256,  0.0742,  0.4504],
+        [-0.2995, -0.2036, -0.2700,  ..., -0.3373,  0.0151, -0.2668],
+        ...,
+        [-0.2314, -0.2936, -0.0147,  ..., -0.2892, -0.1706, -0.5158],
+        [ 0.1663,  0.0383, -0.1773,  ..., -0.2815,  0.0572, -0.2566],
+        [ 0.1758,  0.1104, -0.1724,  ...,  0.1424, -0.2807, -0.3441]],
+       device='cuda:0'), grad: tensor([[ 6.9849e-10, -4.1910e-09, -1.1176e-08,  ..., -4.4238e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 1.6298e-09,  1.3970e-09,  2.3283e-10,  ...,  2.3283e-10,
+         -4.6566e-10, -1.0477e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          2.3283e-10,  1.1642e-09],
+        ...,
+        [ 3.0268e-09,  2.3283e-09,  2.3283e-10,  ...,  5.1223e-09,
+          6.9849e-10,  5.8208e-09],
+        [ 9.3132e-10,  6.9849e-10,  4.6566e-10,  ...,  1.3970e-09,
+          0.0000e+00,  6.9849e-10],
+        [-1.4668e-08, -1.0477e-08,  7.9162e-09,  ..., -1.3970e-08,
+          6.2864e-09,  1.1642e-09]], device='cuda:0')
+Epoch 469, bias, value: tensor([-0.0419, -0.0427, -0.0070, -0.0055,  0.0006,  0.0058,  0.0079, -0.0072,
+         0.0148, -0.0445], device='cuda:0'), grad: tensor([-2.9104e-08, -1.0477e-08, -9.0804e-09, -3.7253e-09,  7.9162e-09,
+         1.4435e-08,  2.5379e-08,  2.5611e-08,  6.0536e-09, -2.0722e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 468, time 217.33, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4433 re_mapping 0.0019 re_causal 0.0071 /// teacc 99.25 lr 0.00001000
+Epoch 470, weight, value: tensor([[-0.1335,  0.0220,  0.1724,  ...,  0.0088, -0.1422, -0.1139],
+        [-0.2575, -0.2578, -0.2374,  ...,  0.1257,  0.0742,  0.4505],
+        [-0.2995, -0.2037, -0.2701,  ..., -0.3373,  0.0150, -0.2669],
+        ...,
+        [-0.2315, -0.2937, -0.0147,  ..., -0.2893, -0.1707, -0.5159],
+        [ 0.1663,  0.0383, -0.1773,  ..., -0.2816,  0.0573, -0.2567],
+        [ 0.1759,  0.1105, -0.1725,  ...,  0.1426, -0.2808, -0.3442]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-10],
+        [ 6.9849e-10,  4.6566e-10,  0.0000e+00,  ..., -4.6566e-10,
+         -1.6298e-09, -3.9581e-09],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          4.6566e-10,  1.1642e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          2.3283e-10,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          1.1642e-09,  2.3283e-09],
+        [-9.3132e-09, -8.3819e-09,  0.0000e+00,  ..., -8.1491e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 470, bias, value: tensor([-0.0420, -0.0428, -0.0072, -0.0055,  0.0005,  0.0058,  0.0079, -0.0071,
+         0.0149, -0.0445], device='cuda:0'), grad: tensor([ 4.6566e-10, -3.7253e-09,  2.7940e-09,  4.6566e-10,  2.7940e-08,
+         1.6298e-09,  1.3970e-09,  2.0955e-09,  4.1910e-09, -2.4214e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 469, time 217.60, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.3989 re_mapping 0.0019 re_causal 0.0069 /// teacc 99.25 lr 0.00001000
+Epoch 471, weight, value: tensor([[-0.1335,  0.0221,  0.1724,  ...,  0.0087, -0.1422, -0.1139],
+        [-0.2576, -0.2578, -0.2375,  ...,  0.1259,  0.0744,  0.4508],
+        [-0.2995, -0.2037, -0.2701,  ..., -0.3375,  0.0149, -0.2671],
+        ...,
+        [-0.2316, -0.2937, -0.0146,  ..., -0.2894, -0.1708, -0.5161],
+        [ 0.1664,  0.0383, -0.1773,  ..., -0.2817,  0.0573, -0.2567],
+        [ 0.1759,  0.1105, -0.1726,  ...,  0.1427, -0.2809, -0.3442]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10, -2.3283e-10, -9.3132e-10,  ..., -6.9849e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 1.1642e-09,  6.9849e-10,  0.0000e+00,  ...,  2.3283e-10,
+          2.3283e-10,  0.0000e+00],
+        [ 1.6298e-09,  9.3132e-10,  0.0000e+00,  ...,  2.3283e-10,
+          4.6566e-10,  4.6566e-10],
+        ...,
+        [ 2.5611e-09,  1.6298e-09,  0.0000e+00,  ...,  6.9849e-10,
+          9.3132e-10,  9.3132e-10],
+        [ 1.6997e-08,  1.0245e-08,  0.0000e+00,  ...,  2.3283e-09,
+          5.3551e-09,  4.6566e-10],
+        [ 2.3283e-10,  2.3283e-10,  6.2864e-09,  ...,  2.3283e-10,
+          4.1910e-09,  0.0000e+00]], device='cuda:0')
+Epoch 471, bias, value: tensor([-0.0420, -0.0427, -0.0073, -0.0055,  0.0005,  0.0058,  0.0079, -0.0071,
+         0.0148, -0.0446], device='cuda:0'), grad: tensor([-2.7940e-09,  5.5879e-09,  6.0536e-09, -1.3784e-07, -1.6997e-08,
+         6.2399e-08,  7.2177e-09,  1.0245e-08,  5.5414e-08,  1.9325e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 470, time 217.48, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4026 re_mapping 0.0019 re_causal 0.0069 /// teacc 99.24 lr 0.00001000
+Epoch 472, weight, value: tensor([[-0.1335,  0.0222,  0.1725,  ...,  0.0088, -0.1422, -0.1139],
+        [-0.2576, -0.2579, -0.2375,  ...,  0.1260,  0.0744,  0.4510],
+        [-0.2996, -0.2038, -0.2701,  ..., -0.3376,  0.0149, -0.2672],
+        ...,
+        [-0.2316, -0.2938, -0.0146,  ..., -0.2895, -0.1708, -0.5162],
+        [ 0.1664,  0.0382, -0.1774,  ..., -0.2817,  0.0574, -0.2568],
+        [ 0.1760,  0.1106, -0.1727,  ...,  0.1428, -0.2810, -0.3443]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  2.3283e-10,  2.3283e-10,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 1.1642e-09,  4.6566e-10,  0.0000e+00,  ...,  6.9849e-10,
+         -6.9849e-09, -5.2387e-08],
+        [ 4.6566e-10,  2.3283e-10,  2.3283e-10,  ...,  0.0000e+00,
+          1.3970e-09,  2.5611e-09],
+        ...,
+        [ 1.3970e-09,  1.1642e-09,  0.0000e+00,  ...,  1.6298e-09,
+          8.6147e-09,  5.0059e-08],
+        [-2.5611e-09,  4.6566e-10,  2.3283e-10,  ...,  1.8626e-09,
+         -1.0710e-08, -6.9849e-10],
+        [-7.2177e-09, -6.5193e-09,  0.0000e+00,  ..., -9.0804e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 472, bias, value: tensor([-0.0419, -0.0427, -0.0074, -0.0056,  0.0005,  0.0058,  0.0079, -0.0071,
+         0.0148, -0.0446], device='cuda:0'), grad: tensor([ 1.8626e-09, -9.5693e-08,  8.6147e-09,  5.3551e-09,  2.1188e-08,
+         8.1491e-09,  1.4668e-08,  1.0617e-07, -2.6077e-08, -3.0966e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 471, time 217.48, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4217 re_mapping 0.0019 re_causal 0.0071 /// teacc 99.23 lr 0.00001000
+Epoch 473, weight, value: tensor([[-0.1335,  0.0222,  0.1726,  ...,  0.0089, -0.1422, -0.1139],
+        [-0.2576, -0.2579, -0.2376,  ...,  0.1261,  0.0745,  0.4512],
+        [-0.2996, -0.2038, -0.2702,  ..., -0.3376,  0.0149, -0.2673],
+        ...,
+        [-0.2317, -0.2938, -0.0146,  ..., -0.2897, -0.1709, -0.5163],
+        [ 0.1664,  0.0382, -0.1774,  ..., -0.2818,  0.0574, -0.2568],
+        [ 0.1761,  0.1106, -0.1728,  ...,  0.1428, -0.2811, -0.3443]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.0012e-08,  ...,  8.1491e-09,
+          1.1642e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  2.3283e-10,
+          2.3283e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.3737e-08,  ...,  2.3283e-10,
+          2.3283e-10,  6.9849e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  0.0000e+00,
+          0.0000e+00,  6.9849e-10],
+        [ 0.0000e+00,  0.0000e+00,  6.2864e-09,  ...,  4.6566e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  6.9849e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 473, bias, value: tensor([-0.0418, -0.0429, -0.0074, -0.0057,  0.0005,  0.0058,  0.0079, -0.0068,
+         0.0147, -0.0447], device='cuda:0'), grad: tensor([ 7.7533e-08,  4.8894e-08, -3.6415e-07,  5.6811e-08,  1.6065e-08,
+         6.9849e-09,  2.5611e-09, -3.7486e-08,  1.7183e-07,  4.2375e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 472, time 217.42, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4185 re_mapping 0.0019 re_causal 0.0070 /// teacc 99.24 lr 0.00001000
+Epoch 474, weight, value: tensor([[-0.1335,  0.0223,  0.1727,  ...,  0.0089, -0.1422, -0.1139],
+        [-0.2577, -0.2580, -0.2376,  ...,  0.1262,  0.0746,  0.4514],
+        [-0.2997, -0.2038, -0.2702,  ..., -0.3377,  0.0148, -0.2674],
+        ...,
+        [-0.2318, -0.2939, -0.0147,  ..., -0.2898, -0.1710, -0.5165],
+        [ 0.1665,  0.0382, -0.1775,  ..., -0.2819,  0.0575, -0.2569],
+        [ 0.1762,  0.1107, -0.1729,  ...,  0.1430, -0.2812, -0.3444]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10,  2.3283e-10,  4.4238e-09,  ...,  0.0000e+00,
+          2.3283e-10,  0.0000e+00],
+        [ 4.6566e-10,  2.3283e-10,  6.9849e-10,  ...,  0.0000e+00,
+          4.6566e-10,  4.6566e-10],
+        ...,
+        [ 4.6566e-10,  6.9849e-10, -1.0245e-08,  ...,  4.6566e-10,
+          4.6566e-10,  6.9849e-10],
+        [-1.3970e-09, -6.9849e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -1.3970e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ..., -4.6566e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 474, bias, value: tensor([-0.0418, -0.0429, -0.0074, -0.0058,  0.0004,  0.0059,  0.0078, -0.0069,
+         0.0147, -0.0447], device='cuda:0'), grad: tensor([ 1.8626e-09,  3.0966e-08,  1.7928e-08, -3.2596e-09,  1.5832e-08,
+         5.1223e-09,  2.7940e-09, -8.0559e-08, -5.3551e-09,  2.1420e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 473, time 217.52, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4465 re_mapping 0.0019 re_causal 0.0072 /// teacc 99.22 lr 0.00001000
+Epoch 475, weight, value: tensor([[-0.1335,  0.0224,  0.1728,  ...,  0.0089, -0.1423, -0.1139],
+        [-0.2578, -0.2580, -0.2377,  ...,  0.1264,  0.0747,  0.4517],
+        [-0.2997, -0.2039, -0.2703,  ..., -0.3378,  0.0147, -0.2675],
+        ...,
+        [-0.2318, -0.2940, -0.0147,  ..., -0.2899, -0.1711, -0.5168],
+        [ 0.1666,  0.0383, -0.1775,  ..., -0.2820,  0.0576, -0.2569],
+        [ 0.1763,  0.1107, -0.1730,  ...,  0.1431, -0.2813, -0.3444]],
+       device='cuda:0'), grad: tensor([[0.0000e+00, 4.6566e-10, 9.3132e-10,  ..., 6.9849e-10, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         2.3283e-10],
+        ...,
+        [2.3283e-10, 2.3283e-10, 0.0000e+00,  ..., 2.3283e-10, 0.0000e+00,
+         4.6566e-10],
+        [0.0000e+00, 9.3132e-10, 6.9849e-10,  ..., 6.9849e-10, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 6.9849e-10,  ..., 0.0000e+00, 6.9849e-10,
+         0.0000e+00]], device='cuda:0')
+Epoch 475, bias, value: tensor([-0.0417, -0.0428, -0.0073, -0.0059,  0.0004,  0.0060,  0.0078, -0.0070,
+         0.0147, -0.0447], device='cuda:0'), grad: tensor([ 1.0477e-08,  1.0245e-08,  2.5611e-09,  2.0256e-08, -1.8626e-09,
+        -8.1491e-08,  3.6554e-08, -7.4506e-09,  1.4668e-08,  3.7253e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 474, time 217.51, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4307 re_mapping 0.0019 re_causal 0.0071 /// teacc 99.24 lr 0.00001000
+Epoch 476, weight, value: tensor([[-0.1335,  0.0226,  0.1731,  ...,  0.0092, -0.1423, -0.1139],
+        [-0.2578, -0.2581, -0.2378,  ...,  0.1265,  0.0747,  0.4519],
+        [-0.2997, -0.2039, -0.2704,  ..., -0.3379,  0.0147, -0.2675],
+        ...,
+        [-0.2319, -0.2940, -0.0146,  ..., -0.2901, -0.1711, -0.5170],
+        [ 0.1665,  0.0382, -0.1776,  ..., -0.2821,  0.0577, -0.2569],
+        [ 0.1764,  0.1107, -0.1733,  ...,  0.1431, -0.2814, -0.3444]],
+       device='cuda:0'), grad: tensor([[-2.5844e-08, -1.0501e-07, -5.7369e-07,  ..., -4.6263e-07,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  9.3132e-10,  3.9581e-09,  ...,  3.2596e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 1.6298e-09,  6.9849e-09,  3.8417e-08,  ...,  3.0966e-08,
+          0.0000e+00,  2.3283e-10],
+        ...,
+        [ 2.5611e-09,  9.3132e-10,  2.3283e-10,  ...,  2.3283e-09,
+          0.0000e+00,  2.3283e-10],
+        [ 1.3970e-09,  6.9849e-09,  2.6310e-08,  ...,  2.1420e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 8.6147e-09,  4.3306e-08,  2.3982e-07,  ...,  1.9139e-07,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 476, bias, value: tensor([-0.0413, -0.0428, -0.0074, -0.0061,  0.0004,  0.0062,  0.0076, -0.0070,
+         0.0146, -0.0449], device='cuda:0'), grad: tensor([-1.6261e-06,  1.5600e-08,  9.8255e-08,  1.1246e-07,  3.3528e-08,
+         2.0955e-08,  5.8394e-07,  1.2340e-08,  8.2189e-08,  6.7521e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 475, time 217.45, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4513 re_mapping 0.0019 re_causal 0.0073 /// teacc 99.26 lr 0.00001000
+Epoch 477, weight, value: tensor([[-0.1335,  0.0227,  0.1733,  ...,  0.0093, -0.1423, -0.1139],
+        [-0.2578, -0.2582, -0.2379,  ...,  0.1266,  0.0748,  0.4522],
+        [-0.2998, -0.2040, -0.2705,  ..., -0.3380,  0.0147, -0.2677],
+        ...,
+        [-0.2320, -0.2941, -0.0146,  ..., -0.2903, -0.1712, -0.5173],
+        [ 0.1666,  0.0382, -0.1776,  ..., -0.2822,  0.0578, -0.2570],
+        [ 0.1764,  0.1107, -0.1735,  ...,  0.1431, -0.2815, -0.3444]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -3.0268e-09, -6.5193e-09,  ..., -2.3283e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.3283e-10,  6.9849e-10,  ..., -5.5879e-09,
+         -3.0268e-09, -8.8476e-09],
+        [ 0.0000e+00,  9.3132e-10,  2.5611e-09,  ...,  6.9849e-09,
+          3.0268e-09,  8.6147e-09],
+        ...,
+        [ 0.0000e+00,  6.9849e-10,  1.3970e-09,  ...,  9.3132e-10,
+          2.3283e-10,  6.9849e-10],
+        [ 0.0000e+00,  2.3283e-10,  2.3283e-10,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  1.8626e-09,  ...,  6.9849e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 477, bias, value: tensor([-0.0412, -0.0427, -0.0074, -0.0061,  0.0004,  0.0063,  0.0074, -0.0070,
+         0.0146, -0.0450], device='cuda:0'), grad: tensor([-2.1886e-08, -1.7928e-08,  3.1199e-08,  1.6298e-09,  1.6298e-09,
+         9.3132e-10,  4.6566e-10,  6.2864e-09,  1.6298e-09,  7.2177e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 476, time 217.50, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.3972 re_mapping 0.0019 re_causal 0.0069 /// teacc 99.24 lr 0.00001000
+Epoch 478, weight, value: tensor([[-0.1334,  0.0228,  0.1734,  ...,  0.0095, -0.1423, -0.1139],
+        [-0.2579, -0.2582, -0.2379,  ...,  0.1267,  0.0748,  0.4524],
+        [-0.2998, -0.2040, -0.2705,  ..., -0.3381,  0.0146, -0.2677],
+        ...,
+        [-0.2320, -0.2941, -0.0146,  ..., -0.2904, -0.1712, -0.5174],
+        [ 0.1666,  0.0382, -0.1777,  ..., -0.2823,  0.0578, -0.2571],
+        [ 0.1765,  0.1107, -0.1736,  ...,  0.1431, -0.2816, -0.3445]],
+       device='cuda:0'), grad: tensor([[ 3.4925e-09,  0.0000e+00,  2.3283e-10,  ...,  2.0955e-09,
+          2.3283e-10,  0.0000e+00],
+        [ 4.6566e-10,  2.3283e-10,  4.6566e-10,  ...,  0.0000e+00,
+          6.9849e-10,  0.0000e+00],
+        [ 2.3283e-09,  2.3283e-10,  0.0000e+00,  ...,  6.9849e-10,
+          6.9849e-10,  0.0000e+00],
+        ...,
+        [ 6.9849e-10,  2.3283e-10,  3.7253e-09,  ...,  2.3283e-10,
+          3.4925e-09,  0.0000e+00],
+        [ 0.0000e+00, -1.1642e-09,  4.6566e-10,  ...,  1.1642e-09,
+         -9.3132e-10,  0.0000e+00],
+        [-2.2817e-08, -2.5611e-09,  3.0268e-09,  ..., -1.7695e-08,
+          2.7940e-09,  0.0000e+00]], device='cuda:0')
+Epoch 478, bias, value: tensor([-0.0410, -0.0428, -0.0075, -0.0061,  0.0004,  0.0062,  0.0074, -0.0070,
+         0.0145, -0.0451], device='cuda:0'), grad: tensor([ 1.9791e-08,  5.8208e-09,  1.0245e-08, -2.0955e-09,  2.1420e-08,
+         1.0477e-08,  6.2864e-09,  2.3749e-08,  6.2864e-09, -9.8720e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 477, time 217.49, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4062 re_mapping 0.0019 re_causal 0.0070 /// teacc 99.26 lr 0.00001000
+Epoch 479, weight, value: tensor([[-0.1334,  0.0229,  0.1735,  ...,  0.0096, -0.1423, -0.1139],
+        [-0.2579, -0.2583, -0.2380,  ...,  0.1268,  0.0748,  0.4526],
+        [-0.2999, -0.2041, -0.2706,  ..., -0.3381,  0.0146, -0.2678],
+        ...,
+        [-0.2321, -0.2941, -0.0146,  ..., -0.2905, -0.1713, -0.5176],
+        [ 0.1666,  0.0382, -0.1777,  ..., -0.2824,  0.0579, -0.2571],
+        [ 0.1766,  0.1107, -0.1738,  ...,  0.1432, -0.2817, -0.3445]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.1642e-10, -2.7940e-09,  ..., -1.1642e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10,  2.3283e-10,  0.0000e+00,  ...,  1.1642e-10,
+          1.1642e-10,  0.0000e+00],
+        [ 0.0000e+00,  1.1642e-10,  0.0000e+00,  ...,  0.0000e+00,
+          1.1642e-10,  0.0000e+00],
+        ...,
+        [ 5.8208e-10,  5.8208e-10,  2.3283e-10,  ...,  6.9849e-10,
+          1.1642e-10,  1.1642e-10],
+        [-2.3283e-10, -3.4925e-10,  0.0000e+00,  ...,  1.1642e-10,
+         -3.4925e-10,  0.0000e+00],
+        [-1.2806e-09, -4.6566e-10,  4.6566e-10,  ..., -1.1642e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 479, bias, value: tensor([-0.0409, -0.0427, -0.0075, -0.0062,  0.0004,  0.0062,  0.0073, -0.0070,
+         0.0145, -0.0452], device='cuda:0'), grad: tensor([-6.8685e-09,  4.5402e-09, -1.2806e-09,  1.2107e-08,  2.6776e-09,
+        -5.3551e-09,  1.2573e-08, -2.2817e-08, -9.3132e-10,  5.2387e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 478, time 217.60, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.3960 re_mapping 0.0019 re_causal 0.0068 /// teacc 99.24 lr 0.00001000
+Epoch 480, weight, value: tensor([[-0.1334,  0.0230,  0.1736,  ...,  0.0096, -0.1423, -0.1139],
+        [-0.2580, -0.2583, -0.2380,  ...,  0.1269,  0.0749,  0.4527],
+        [-0.2999, -0.2041, -0.2706,  ..., -0.3382,  0.0145, -0.2679],
+        ...,
+        [-0.2321, -0.2942, -0.0146,  ..., -0.2906, -0.1713, -0.5176],
+        [ 0.1666,  0.0382, -0.1778,  ..., -0.2825,  0.0580, -0.2572],
+        [ 0.1767,  0.1108, -0.1739,  ...,  0.1433, -0.2818, -0.3445]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-09,  1.5134e-09,  1.1642e-09,  ...,  6.9849e-10,
+          2.2119e-09,  6.9849e-10],
+        [ 1.3970e-09,  2.5611e-09,  2.2119e-09,  ..., -8.4983e-09,
+         -3.3760e-09, -1.7113e-08],
+        [ 4.8894e-09,  7.2177e-09,  9.3132e-09,  ...,  1.1642e-09,
+          1.2922e-08,  2.3283e-09],
+        ...,
+        [ 1.6298e-09,  1.3970e-09,  1.5134e-09,  ...,  1.8626e-09,
+          2.5611e-09,  2.5611e-09],
+        [-1.2922e-08, -1.1758e-08, -2.8405e-08,  ...,  3.3760e-09,
+         -3.4459e-08,  6.1700e-09],
+        [-2.3283e-10,  1.3970e-09,  3.4808e-08,  ..., -9.3132e-10,
+          6.2049e-08,  1.1642e-10]], device='cuda:0')
+Epoch 480, bias, value: tensor([-0.0409, -0.0428, -0.0076, -0.0062,  0.0003,  0.0062,  0.0073, -0.0068,
+         0.0144, -0.0452], device='cuda:0'), grad: tensor([ 1.4435e-08, -1.1409e-08,  8.8359e-08,  1.2247e-07, -2.0198e-07,
+        -1.1805e-07,  9.5926e-08,  2.0838e-08, -2.1479e-07,  2.1572e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 479, time 217.51, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4395 re_mapping 0.0019 re_causal 0.0072 /// teacc 99.25 lr 0.00001000
+Epoch 481, weight, value: tensor([[-0.1334,  0.0230,  0.1736,  ...,  0.0096, -0.1423, -0.1139],
+        [-0.2580, -0.2584, -0.2381,  ...,  0.1270,  0.0750,  0.4529],
+        [-0.3000, -0.2041, -0.2707,  ..., -0.3382,  0.0145, -0.2680],
+        ...,
+        [-0.2322, -0.2942, -0.0145,  ..., -0.2907, -0.1714, -0.5178],
+        [ 0.1667,  0.0382, -0.1778,  ..., -0.2826,  0.0581, -0.2573],
+        [ 0.1768,  0.1108, -0.1740,  ...,  0.1434, -0.2819, -0.3445]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  1.1642e-10,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 8.1491e-10,  5.8208e-10,  5.8208e-10,  ..., -1.5134e-09,
+         -1.1642e-09, -1.2224e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.4925e-10,
+          1.1642e-10,  6.9849e-10],
+        ...,
+        [ 1.2806e-09,  8.1491e-10,  0.0000e+00,  ...,  4.7730e-09,
+          1.2806e-09,  9.3132e-09],
+        [ 1.1642e-10,  1.1642e-10,  0.0000e+00,  ...,  3.4925e-10,
+          1.1642e-10,  5.8208e-10],
+        [-4.8894e-09, -3.3760e-09,  0.0000e+00,  ..., -7.5670e-09,
+          1.1642e-10,  3.4925e-10]], device='cuda:0')
+Epoch 481, bias, value: tensor([-0.0409, -0.0428, -0.0077, -0.0063,  0.0003,  0.0062,  0.0073, -0.0068,
+         0.0145, -0.0453], device='cuda:0'), grad: tensor([ 1.3970e-09, -9.4296e-09, -5.5879e-09,  9.3132e-09,  1.5949e-08,
+        -8.7311e-09, -3.3760e-09,  2.2352e-08,  1.0012e-08, -2.0722e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 480, time 217.42, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4514 re_mapping 0.0019 re_causal 0.0072 /// teacc 99.24 lr 0.00001000
+Epoch 482, weight, value: tensor([[-0.1334,  0.0230,  0.1736,  ...,  0.0096, -0.1423, -0.1139],
+        [-0.2581, -0.2584, -0.2382,  ...,  0.1271,  0.0750,  0.4531],
+        [-0.3000, -0.2042, -0.2707,  ..., -0.3383,  0.0144, -0.2680],
+        ...,
+        [-0.2323, -0.2943, -0.0146,  ..., -0.2908, -0.1715, -0.5180],
+        [ 0.1667,  0.0382, -0.1779,  ..., -0.2827,  0.0582, -0.2573],
+        [ 0.1768,  0.1108, -0.1742,  ...,  0.1435, -0.2822, -0.3445]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  3.6089e-09,  ...,  1.1642e-09,
+          1.5134e-09,  1.3970e-09],
+        [ 1.1642e-09,  3.4925e-10, -3.4925e-10,  ..., -1.4435e-08,
+         -6.0536e-09, -2.1071e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.0477e-09,  ...,  1.7462e-09,
+          1.3970e-09,  4.3074e-09],
+        ...,
+        [ 1.1642e-10,  0.0000e+00,  2.3283e-10,  ...,  5.2387e-09,
+          1.8626e-09,  5.8208e-09],
+        [ 2.3283e-10,  2.3283e-10,  2.2119e-09,  ...,  6.6357e-09,
+          1.7462e-09,  5.8208e-09],
+        [-1.1642e-09, -1.1642e-10,  2.5611e-09,  ...,  0.0000e+00,
+          1.6298e-09,  1.9791e-09]], device='cuda:0')
+Epoch 482, bias, value: tensor([-0.0409, -0.0428, -0.0075, -0.0062,  0.0005,  0.0062,  0.0074, -0.0069,
+         0.0143, -0.0455], device='cuda:0'), grad: tensor([ 1.3504e-08, -4.4703e-08,  9.0804e-09, -2.5611e-09, -1.8277e-08,
+         4.4238e-09, -1.0477e-09,  8.4983e-09,  2.6659e-08,  1.1176e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 481, time 217.42, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.3907 re_mapping 0.0019 re_causal 0.0069 /// teacc 99.24 lr 0.00001000
+Epoch 483, weight, value: tensor([[-0.1334,  0.0231,  0.1738,  ...,  0.0098, -0.1424, -0.1140],
+        [-0.2581, -0.2585, -0.2382,  ...,  0.1272,  0.0751,  0.4533],
+        [-0.3000, -0.2042, -0.2708,  ..., -0.3385,  0.0144, -0.2682],
+        ...,
+        [-0.2324, -0.2944, -0.0146,  ..., -0.2909, -0.1716, -0.5181],
+        [ 0.1667,  0.0381, -0.1780,  ..., -0.2828,  0.0582, -0.2574],
+        [ 0.1770,  0.1109, -0.1744,  ...,  0.1435, -0.2823, -0.3445]],
+       device='cuda:0'), grad: tensor([[ 1.0477e-09,  2.3283e-10,  0.0000e+00,  ...,  1.0477e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 1.1642e-08,  2.9104e-09,  0.0000e+00,  ...,  1.0943e-08,
+          1.1642e-10,  0.0000e+00],
+        [ 3.4925e-10,  0.0000e+00,  1.1642e-10,  ...,  2.3283e-10,
+         -9.3132e-10,  1.1642e-10],
+        ...,
+        [ 4.0745e-09,  1.1642e-09,  0.0000e+00,  ...,  3.9581e-09,
+          1.1642e-10,  2.3283e-10],
+        [ 1.9791e-09,  2.3283e-09,  1.1642e-10,  ...,  1.7462e-09,
+          6.9849e-10,  1.1642e-10],
+        [-6.8918e-08, -1.7229e-08,  0.0000e+00,  ..., -6.4494e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 483, bias, value: tensor([-0.0407, -0.0427, -0.0077, -0.0062,  0.0005,  0.0062,  0.0073, -0.0069,
+         0.0143, -0.0456], device='cuda:0'), grad: tensor([ 4.7730e-09,  4.9942e-08, -1.2224e-08,  1.9791e-09,  1.9651e-07,
+        -9.3132e-10,  7.9162e-09,  1.8044e-08,  2.6543e-08, -2.8242e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 482, time 217.82, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4318 re_mapping 0.0018 re_causal 0.0069 /// teacc 99.27 lr 0.00001000
+Epoch 484, weight, value: tensor([[-0.1334,  0.0232,  0.1738,  ...,  0.0098, -0.1424, -0.1140],
+        [-0.2582, -0.2585, -0.2383,  ...,  0.1272,  0.0751,  0.4534],
+        [-0.3001, -0.2042, -0.2708,  ..., -0.3385,  0.0144, -0.2683],
+        ...,
+        [-0.2324, -0.2944, -0.0145,  ..., -0.2910, -0.1716, -0.5181],
+        [ 0.1667,  0.0381, -0.1780,  ..., -0.2829,  0.0582, -0.2574],
+        [ 0.1770,  0.1109, -0.1744,  ...,  0.1436, -0.2824, -0.3446]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.1642e-10],
+        [ 3.4925e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -2.3283e-10, -2.2119e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.1642e-10,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  3.4925e-10],
+        [ 0.0000e+00,  6.9849e-10,  0.0000e+00,  ...,  2.3283e-10,
+          1.1642e-10,  8.1491e-10],
+        [-2.6776e-09, -1.1642e-10, -3.4925e-10,  ..., -4.6566e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 484, bias, value: tensor([-0.0407, -0.0428, -0.0077, -0.0062,  0.0005,  0.0063,  0.0072, -0.0069,
+         0.0142, -0.0456], device='cuda:0'), grad: tensor([ 3.4925e-10, -5.8208e-10,  8.1491e-10,  3.6089e-09,  1.1176e-08,
+        -5.5879e-09,  3.8417e-09,  2.6776e-09,  3.7253e-09, -1.0594e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 483, time 217.66, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4224 re_mapping 0.0019 re_causal 0.0071 /// teacc 99.24 lr 0.00001000
+Epoch 485, weight, value: tensor([[-0.1334,  0.0232,  0.1738,  ...,  0.0098, -0.1424, -0.1140],
+        [-0.2582, -0.2586, -0.2383,  ...,  0.1273,  0.0752,  0.4536],
+        [-0.3001, -0.2043, -0.2709,  ..., -0.3386,  0.0143, -0.2684],
+        ...,
+        [-0.2325, -0.2945, -0.0145,  ..., -0.2910, -0.1717, -0.5182],
+        [ 0.1667,  0.0381, -0.1781,  ..., -0.2830,  0.0582, -0.2576],
+        [ 0.1771,  0.1110, -0.1746,  ...,  0.1438, -0.2825, -0.3446]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.9791e-09,  ...,  1.6298e-09,
+          3.4925e-10,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  3.2713e-08,  ...,  2.5844e-08,
+          8.6147e-09,  1.6298e-08],
+        [ 1.1642e-10,  0.0000e+00,  1.1642e-10,  ...,  2.3283e-10,
+          8.1491e-10,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.1642e-10,  ...,  1.1642e-10,
+          2.3283e-10,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-09,  ...,  2.0955e-09,
+         -6.1700e-09, -2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  3.4925e-10,  ...,  2.3283e-10,
+          0.0000e+00,  2.3283e-10]], device='cuda:0')
+Epoch 485, bias, value: tensor([-0.0407, -0.0427, -0.0079, -0.0062,  0.0005,  0.0064,  0.0072, -0.0068,
+         0.0141, -0.0457], device='cuda:0'), grad: tensor([ 8.0327e-09,  1.3213e-07, -9.6625e-09,  3.4925e-10,  1.7579e-08,
+         1.5926e-07, -3.0384e-07,  6.1700e-09, -1.0477e-08,  3.0268e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 484, time 217.62, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4193 re_mapping 0.0019 re_causal 0.0069 /// teacc 99.26 lr 0.00001000
+Epoch 486, weight, value: tensor([[-0.1334,  0.0232,  0.1738,  ...,  0.0098, -0.1424, -0.1140],
+        [-0.2583, -0.2586, -0.2384,  ...,  0.1274,  0.0752,  0.4539],
+        [-0.3002, -0.2043, -0.2709,  ..., -0.3386,  0.0143, -0.2685],
+        ...,
+        [-0.2326, -0.2945, -0.0145,  ..., -0.2912, -0.1718, -0.5185],
+        [ 0.1668,  0.0381, -0.1781,  ..., -0.2831,  0.0583, -0.2576],
+        [ 0.1774,  0.1112, -0.1746,  ...,  0.1440, -0.2827, -0.3446]],
+       device='cuda:0'), grad: tensor([[0.0000e+00, 0.0000e+00, 2.3283e-10,  ..., 2.3283e-10, 0.0000e+00,
+         0.0000e+00],
+        [1.1642e-10, 1.1642e-10, 4.6566e-10,  ..., 4.6566e-10, 0.0000e+00,
+         0.0000e+00],
+        [1.1642e-10, 0.0000e+00, 3.4925e-10,  ..., 4.6566e-10, 0.0000e+00,
+         2.3283e-10],
+        ...,
+        [1.1642e-10, 1.1642e-10, 0.0000e+00,  ..., 3.4925e-10, 2.3283e-10,
+         4.6566e-10],
+        [1.1642e-10, 2.3283e-10, 2.6776e-09,  ..., 2.4447e-09, 1.1642e-10,
+         0.0000e+00],
+        [3.4925e-10, 4.6566e-10, 0.0000e+00,  ..., 3.4925e-10, 0.0000e+00,
+         0.0000e+00]], device='cuda:0')
+Epoch 486, bias, value: tensor([-0.0408, -0.0427, -0.0079, -0.0062,  0.0003,  0.0063,  0.0072, -0.0069,
+         0.0141, -0.0456], device='cuda:0'), grad: tensor([ 1.0477e-09,  3.7253e-09,  1.1642e-08, -3.2596e-09,  4.6566e-10,
+         6.6357e-09, -1.4552e-08, -1.3271e-08,  1.1292e-08,  1.7462e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 485, time 217.49, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4013 re_mapping 0.0019 re_causal 0.0068 /// teacc 99.26 lr 0.00001000
+Epoch 487, weight, value: tensor([[-0.1335,  0.0232,  0.1739,  ...,  0.0098, -0.1424, -0.1140],
+        [-0.2584, -0.2587, -0.2385,  ...,  0.1276,  0.0754,  0.4541],
+        [-0.3002, -0.2043, -0.2709,  ..., -0.3387,  0.0142, -0.2686],
+        ...,
+        [-0.2327, -0.2946, -0.0146,  ..., -0.2914, -0.1719, -0.5186],
+        [ 0.1668,  0.0381, -0.1782,  ..., -0.2833,  0.0584, -0.2577],
+        [ 0.1776,  0.1113, -0.1747,  ...,  0.1441, -0.2827, -0.3446]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  5.8208e-10,
+          2.3283e-10,  6.9849e-10],
+        [ 1.1642e-10,  5.8208e-10,  1.1642e-10,  ..., -3.7951e-08,
+         -1.7579e-08, -5.9023e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.4447e-09,
+          1.2806e-09,  4.4238e-09],
+        ...,
+        [ 1.1642e-10,  1.1642e-10,  0.0000e+00,  ...,  2.6426e-08,
+          1.2340e-08,  4.2142e-08],
+        [ 1.1642e-10,  3.4925e-10,  1.0477e-09,  ...,  4.0745e-09,
+          1.5134e-09,  5.7044e-09],
+        [-1.3970e-09, -1.0477e-09,  0.0000e+00,  ...,  2.5611e-09,
+          1.9791e-09,  6.7521e-09]], device='cuda:0')
+Epoch 487, bias, value: tensor([-0.0408, -0.0427, -0.0079, -0.0062,  0.0002,  0.0063,  0.0073, -0.0069,
+         0.0139, -0.0456], device='cuda:0'), grad: tensor([ 2.7940e-09, -1.4238e-07,  7.5670e-09,  5.9372e-09,  9.4296e-09,
+        -5.5879e-09,  5.1223e-09,  1.0733e-07,  1.9209e-08,  9.5461e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 486, time 217.73, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4272 re_mapping 0.0018 re_causal 0.0071 /// teacc 99.25 lr 0.00001000
+Epoch 488, weight, value: tensor([[-0.1335,  0.0232,  0.1739,  ...,  0.0098, -0.1425, -0.1141],
+        [-0.2584, -0.2587, -0.2385,  ...,  0.1278,  0.0756,  0.4545],
+        [-0.3002, -0.2044, -0.2709,  ..., -0.3388,  0.0142, -0.2688],
+        ...,
+        [-0.2328, -0.2947, -0.0146,  ..., -0.2916, -0.1721, -0.5189],
+        [ 0.1668,  0.0380, -0.1783,  ..., -0.2834,  0.0583, -0.2579],
+        [ 0.1777,  0.1114, -0.1748,  ...,  0.1443, -0.2828, -0.3447]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-10,  1.1642e-10,  6.9849e-10,  ...,  6.9849e-10,
+          3.4925e-10,  4.6566e-10],
+        [ 6.9849e-10,  4.6566e-10,  3.4925e-10,  ..., -1.5832e-08,
+         -3.8417e-09, -2.5728e-08],
+        [ 8.1491e-10,  9.3132e-10,  4.6566e-10,  ...,  1.3970e-09,
+          1.7462e-09,  2.4447e-09],
+        ...,
+        [ 1.2806e-09,  9.3132e-10, -1.1642e-10,  ...,  9.3132e-09,
+          1.5134e-09,  1.1292e-08],
+        [-8.1491e-10, -1.5134e-09,  3.2596e-09,  ...,  4.6566e-09,
+          1.0477e-09,  7.4506e-09],
+        [ 3.4925e-10,  3.4925e-10,  0.0000e+00,  ...,  3.7253e-09,
+          2.3283e-10,  3.8417e-09]], device='cuda:0')
+Epoch 488, bias, value: tensor([-0.0408, -0.0425, -0.0079, -0.0062,  0.0001,  0.0063,  0.0074, -0.0070,
+         0.0136, -0.0456], device='cuda:0'), grad: tensor([ 3.6089e-09, -6.2631e-08,  1.2573e-08, -1.0128e-08,  6.7521e-09,
+         1.1292e-08, -1.4668e-08,  3.6089e-08,  1.5832e-08,  1.4319e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 487, time 217.54, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4215 re_mapping 0.0019 re_causal 0.0070 /// teacc 99.26 lr 0.00001000
+Epoch 489, weight, value: tensor([[-0.1335,  0.0233,  0.1739,  ...,  0.0098, -0.1425, -0.1141],
+        [-0.2585, -0.2588, -0.2386,  ...,  0.1279,  0.0757,  0.4547],
+        [-0.3003, -0.2044, -0.2709,  ..., -0.3388,  0.0141, -0.2688],
+        ...,
+        [-0.2328, -0.2947, -0.0146,  ..., -0.2917, -0.1722, -0.5191],
+        [ 0.1668,  0.0380, -0.1784,  ..., -0.2836,  0.0584, -0.2580],
+        [ 0.1779,  0.1115, -0.1749,  ...,  0.1444, -0.2829, -0.3447]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.1642e-10,  1.1642e-10,  ...,  3.4925e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 8.1491e-10,  1.0477e-09,  1.1642e-10,  ...,  1.3970e-09,
+          3.4925e-10,  0.0000e+00],
+        [ 1.1642e-10,  2.3283e-10,  2.3283e-10,  ...,  2.3283e-10,
+          1.1642e-10,  1.1642e-10],
+        ...,
+        [ 4.6566e-10,  6.9849e-10, -3.4925e-10,  ...,  9.3132e-10,
+          2.3283e-10,  1.1642e-10],
+        [ 0.0000e+00,  3.4925e-10,  1.1642e-10,  ...,  2.3283e-10,
+          0.0000e+00,  1.1642e-10],
+        [-8.6147e-09, -6.2864e-09,  3.4925e-10,  ..., -1.3853e-08,
+          1.1642e-10,  0.0000e+00]], device='cuda:0')
+Epoch 489, bias, value: tensor([-0.0408, -0.0424, -0.0079, -0.0062,  0.0001,  0.0063,  0.0074, -0.0071,
+         0.0134, -0.0456], device='cuda:0'), grad: tensor([ 8.1491e-10,  1.0012e-08,  5.7044e-09, -6.2864e-09,  3.7020e-08,
+         9.3132e-10,  2.0955e-09, -3.2596e-09,  1.8626e-09, -4.1327e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 488, time 217.67, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4100 re_mapping 0.0019 re_causal 0.0069 /// teacc 99.23 lr 0.00001000
+Epoch 490, weight, value: tensor([[-0.1335,  0.0233,  0.1739,  ...,  0.0098, -0.1425, -0.1141],
+        [-0.2585, -0.2588, -0.2386,  ...,  0.1281,  0.0758,  0.4548],
+        [-0.3003, -0.2044, -0.2709,  ..., -0.3389,  0.0141, -0.2689],
+        ...,
+        [-0.2329, -0.2948, -0.0146,  ..., -0.2919, -0.1722, -0.5191],
+        [ 0.1667,  0.0379, -0.1785,  ..., -0.2838,  0.0584, -0.2580],
+        [ 0.1780,  0.1116, -0.1750,  ...,  0.1446, -0.2830, -0.3448]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-10,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          1.1642e-10,  4.6566e-10],
+        [ 5.8208e-10,  2.3283e-10, -5.8208e-10,  ..., -3.1432e-09,
+         -5.9372e-09, -1.8277e-08],
+        [ 1.1642e-10,  1.1642e-10,  1.1642e-10,  ...,  9.3132e-10,
+          1.6298e-09,  4.5402e-09],
+        ...,
+        [ 5.8208e-10,  2.3283e-10,  1.1642e-10,  ...,  1.5134e-09,
+          1.1642e-09,  3.4925e-09],
+        [ 1.1642e-10,  2.3283e-10,  0.0000e+00,  ...,  5.8208e-10,
+          4.6566e-10,  1.2806e-09],
+        [-3.4925e-09, -1.5134e-09,  1.1642e-10,  ..., -4.7730e-09,
+          2.3283e-10,  4.6566e-10]], device='cuda:0')
+Epoch 490, bias, value: tensor([-4.0773e-02, -4.2563e-02, -7.7614e-03, -6.2187e-03,  7.5489e-05,
+         6.3689e-03,  7.3327e-03, -6.9412e-03,  1.3092e-02, -4.5542e-02],
+       device='cuda:0'), grad: tensor([ 1.1642e-09, -2.8755e-08,  8.7311e-09,  1.2806e-09,  1.1176e-08,
+         2.2119e-09,  4.5402e-09,  8.9640e-09,  3.0268e-09, -1.3388e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 489, time 217.91, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4028 re_mapping 0.0018 re_causal 0.0068 /// teacc 99.21 lr 0.00001000
+Epoch 491, weight, value: tensor([[-0.1335,  0.0233,  0.1739,  ...,  0.0098, -0.1425, -0.1141],
+        [-0.2586, -0.2589, -0.2386,  ...,  0.1282,  0.0759,  0.4551],
+        [-0.3003, -0.2044, -0.2710,  ..., -0.3390,  0.0141, -0.2690],
+        ...,
+        [-0.2330, -0.2949, -0.0146,  ..., -0.2921, -0.1724, -0.5193],
+        [ 0.1667,  0.0379, -0.1786,  ..., -0.2839,  0.0584, -0.2581],
+        [ 0.1782,  0.1118, -0.1751,  ...,  0.1448, -0.2831, -0.3448]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-10,  0.0000e+00,  4.6566e-10,  ...,  5.8208e-10,
+          2.3283e-10,  8.1491e-10],
+        [ 3.4925e-10,  0.0000e+00,  6.9849e-10,  ..., -4.5402e-09,
+         -3.3760e-09, -2.0955e-08],
+        [ 5.8208e-10,  2.3283e-10,  2.3283e-10,  ...,  8.1491e-10,
+          9.3132e-10,  3.3760e-09],
+        ...,
+        [ 2.2119e-09,  0.0000e+00,  1.2806e-09,  ...,  3.3760e-09,
+          2.9104e-09,  1.1409e-08],
+        [ 9.3132e-10,  2.3283e-10,  2.3283e-10,  ...,  8.1491e-10,
+          4.6566e-10,  1.6298e-09],
+        [-5.5879e-09,  0.0000e+00,  1.1292e-08,  ..., -1.2806e-09,
+          7.4506e-09,  2.3283e-09]], device='cuda:0')
+Epoch 491, bias, value: tensor([-4.0819e-02, -4.2616e-02, -7.7872e-03, -6.2157e-03,  4.3897e-05,
+         6.3607e-03,  7.2601e-03, -6.8821e-03,  1.3030e-02, -4.5478e-02],
+       device='cuda:0'), grad: tensor([ 8.6147e-09, -3.1199e-08, -1.4086e-08,  3.0268e-09, -5.2736e-08,
+         8.7311e-09,  1.8626e-09,  4.4121e-08,  1.7462e-08,  3.0501e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 490, time 217.80, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.3950 re_mapping 0.0019 re_causal 0.0068 /// teacc 99.21 lr 0.00001000
+Epoch 492, weight, value: tensor([[-0.1335,  0.0233,  0.1739,  ...,  0.0098, -0.1425, -0.1141],
+        [-0.2586, -0.2589, -0.2387,  ...,  0.1283,  0.0760,  0.4552],
+        [-0.3004, -0.2045, -0.2710,  ..., -0.3390,  0.0140, -0.2691],
+        ...,
+        [-0.2332, -0.2949, -0.0146,  ..., -0.2922, -0.1725, -0.5194],
+        [ 0.1667,  0.0378, -0.1786,  ..., -0.2840,  0.0585, -0.2581],
+        [ 0.1784,  0.1118, -0.1752,  ...,  0.1450, -0.2833, -0.3448]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-10,  1.1642e-10,  0.0000e+00,  ...,  4.6566e-10,
+          2.3283e-10,  1.0477e-09],
+        [ 3.4925e-10,  2.3283e-10,  0.0000e+00,  ..., -6.6357e-09,
+         -4.7730e-09, -2.4447e-08],
+        [ 3.4925e-10,  2.3283e-10,  0.0000e+00,  ...,  1.5134e-09,
+          9.3132e-10,  4.1910e-09],
+        ...,
+        [ 9.3132e-10,  5.8208e-10,  0.0000e+00,  ...,  3.6089e-09,
+          2.2119e-09,  1.1176e-08],
+        [ 2.3283e-10,  3.4925e-10,  0.0000e+00,  ...,  1.1642e-09,
+          4.6566e-10,  2.3283e-09],
+        [-5.5879e-09, -3.0268e-09, -2.3283e-10,  ..., -2.9104e-09,
+          5.8208e-10,  2.4447e-09]], device='cuda:0')
+Epoch 492, bias, value: tensor([-4.0819e-02, -4.2615e-02, -7.8146e-03, -6.1641e-03,  5.2491e-05,
+         6.4032e-03,  7.1880e-03, -6.8993e-03,  1.2928e-02, -4.5462e-02],
+       device='cuda:0'), grad: tensor([ 2.6776e-09, -4.2142e-08,  9.4296e-09, -6.0536e-09,  2.2817e-08,
+        -3.9209e-07,  3.9442e-07,  2.3516e-08,  6.0536e-09, -1.4203e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 491, time 217.68, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4414 re_mapping 0.0018 re_causal 0.0072 /// teacc 99.23 lr 0.00001000
+Epoch 493, weight, value: tensor([[-0.1336,  0.0233,  0.1740,  ...,  0.0098, -0.1425, -0.1141],
+        [-0.2587, -0.2589, -0.2387,  ...,  0.1285,  0.0760,  0.4554],
+        [-0.3004, -0.2045, -0.2710,  ..., -0.3391,  0.0140, -0.2691],
+        ...,
+        [-0.2332, -0.2950, -0.0146,  ..., -0.2924, -0.1725, -0.5196],
+        [ 0.1667,  0.0378, -0.1787,  ..., -0.2841,  0.0585, -0.2582],
+        [ 0.1785,  0.1119, -0.1753,  ...,  0.1451, -0.2834, -0.3448]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.1642e-10],
+        [ 1.1642e-10,  1.1642e-10,  9.3132e-10,  ..., -1.0477e-09,
+          5.8208e-10, -4.1910e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.1432e-09,  ...,  2.3283e-10,
+          3.0268e-09,  1.5134e-09],
+        ...,
+        [ 3.4925e-10,  3.4925e-10, -5.2387e-09,  ...,  9.3132e-10,
+         -4.1910e-09,  1.1642e-09],
+        [ 0.0000e+00,  3.4925e-10,  3.4925e-10,  ...,  0.0000e+00,
+          3.4925e-10,  3.4925e-10],
+        [-6.9849e-10, -4.6566e-10,  5.0059e-09,  ..., -1.5134e-09,
+          3.4925e-09,  1.1642e-10]], device='cuda:0')
+Epoch 493, bias, value: tensor([-0.0408, -0.0426, -0.0078, -0.0062,  0.0001,  0.0065,  0.0071, -0.0069,
+         0.0128, -0.0456], device='cuda:0'), grad: tensor([ 4.6566e-10, -5.8208e-10,  2.6193e-08,  1.7462e-09, -8.1491e-09,
+         4.6566e-09,  2.3283e-09, -3.3528e-08,  3.3760e-09,  1.2107e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 492, time 217.69, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4182 re_mapping 0.0019 re_causal 0.0071 /// teacc 99.23 lr 0.00001000
+Epoch 494, weight, value: tensor([[-0.1336,  0.0234,  0.1740,  ...,  0.0098, -0.1426, -0.1141],
+        [-0.2587, -0.2590, -0.2388,  ...,  0.1285,  0.0761,  0.4555],
+        [-0.3004, -0.2045, -0.2710,  ..., -0.3391,  0.0140, -0.2692],
+        ...,
+        [-0.2333, -0.2951, -0.0146,  ..., -0.2925, -0.1726, -0.5197],
+        [ 0.1667,  0.0378, -0.1787,  ..., -0.2842,  0.0586, -0.2582],
+        [ 0.1787,  0.1120, -0.1754,  ...,  0.1453, -0.2835, -0.3449]],
+       device='cuda:0'), grad: tensor([[0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 1.1642e-10, 0.0000e+00,
+         0.0000e+00],
+        [2.3283e-10, 1.1642e-10, 0.0000e+00,  ..., 5.8208e-10, 1.1642e-10,
+         1.1642e-10],
+        ...,
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 1.1642e-10, 0.0000e+00,
+         2.3283e-10],
+        [0.0000e+00, 1.1642e-10, 0.0000e+00,  ..., 1.1642e-09, 0.0000e+00,
+         0.0000e+00],
+        [1.1642e-10, 1.1642e-10, 2.3283e-10,  ..., 1.1642e-10, 2.3283e-10,
+         0.0000e+00]], device='cuda:0')
+Epoch 494, bias, value: tensor([-4.0828e-02, -4.2549e-02, -7.7843e-03, -6.1556e-03,  2.5391e-05,
+         6.4926e-03,  7.1603e-03, -6.9491e-03,  1.2596e-02, -4.5518e-02],
+       device='cuda:0'), grad: tensor([ 2.2119e-09,  7.3342e-09, -1.5949e-08,  3.0268e-09,  8.1491e-10,
+         4.1910e-09, -1.4435e-08,  7.6834e-09,  9.3132e-09,  2.6776e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 493, time 217.73, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4007 re_mapping 0.0019 re_causal 0.0070 /// teacc 99.23 lr 0.00001000
+Epoch 495, weight, value: tensor([[-0.1336,  0.0234,  0.1740,  ...,  0.0098, -0.1426, -0.1141],
+        [-0.2588, -0.2590, -0.2388,  ...,  0.1286,  0.0761,  0.4557],
+        [-0.3005, -0.2046, -0.2711,  ..., -0.3392,  0.0140, -0.2693],
+        ...,
+        [-0.2334, -0.2951, -0.0146,  ..., -0.2926, -0.1726, -0.5197],
+        [ 0.1668,  0.0378, -0.1788,  ..., -0.2843,  0.0586, -0.2583],
+        [ 0.1788,  0.1121, -0.1755,  ...,  0.1454, -0.2836, -0.3449]],
+       device='cuda:0'), grad: tensor([[ 2.4447e-09,  1.9791e-09,  5.8208e-10,  ...,  3.8417e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 1.0477e-09,  1.0477e-09,  6.9849e-10,  ...,  1.0477e-09,
+         -3.4925e-10, -1.6298e-09],
+        [ 1.1642e-10,  2.3283e-10,  6.9849e-10,  ...,  3.4925e-10,
+          0.0000e+00,  1.1642e-10],
+        ...,
+        [ 4.6566e-10, -5.8208e-10, -2.5611e-09,  ...,  8.1491e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 6.9849e-10,  4.6566e-10,  3.4925e-10,  ...,  1.3970e-09,
+          2.3283e-10,  0.0000e+00],
+        [-1.3388e-08, -1.0012e-08,  2.3283e-10,  ..., -2.2119e-08,
+          1.1642e-10,  2.3283e-10]], device='cuda:0')
+Epoch 495, bias, value: tensor([-4.0821e-02, -4.2541e-02, -7.8652e-03, -6.1364e-03, -4.2546e-05,
+         6.4397e-03,  7.1976e-03, -6.9497e-03,  1.2545e-02, -4.5493e-02],
+       device='cuda:0'), grad: tensor([ 1.4668e-08,  6.7521e-09,  4.8894e-09,  1.3970e-08,  2.1770e-08,
+         1.2806e-08, -3.0268e-09, -1.6647e-08,  5.3551e-09, -5.7160e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 494, time 217.65, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4383 re_mapping 0.0019 re_causal 0.0072 /// teacc 99.24 lr 0.00001000
+Epoch 496, weight, value: tensor([[-0.1336,  0.0235,  0.1741,  ...,  0.0099, -0.1426, -0.1142],
+        [-0.2588, -0.2591, -0.2389,  ...,  0.1287,  0.0762,  0.4558],
+        [-0.3006, -0.2046, -0.2711,  ..., -0.3392,  0.0139, -0.2693],
+        ...,
+        [-0.2335, -0.2952, -0.0146,  ..., -0.2927, -0.1727, -0.5198],
+        [ 0.1668,  0.0377, -0.1789,  ..., -0.2844,  0.0586, -0.2583],
+        [ 0.1789,  0.1122, -0.1756,  ...,  0.1456, -0.2837, -0.3449]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  2.3283e-10,  0.0000e+00,  ...,  1.1642e-10,
+          3.4925e-10,  0.0000e+00],
+        [ 3.4925e-10,  1.1642e-10,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  2.3283e-10],
+        ...,
+        [ 1.2806e-09,  6.9849e-10,  0.0000e+00,  ...,  9.3132e-10,
+          5.8208e-10,  5.8208e-10],
+        [-4.0745e-09, -1.1642e-09,  0.0000e+00,  ...,  5.8208e-10,
+         -5.0059e-09,  2.3283e-10],
+        [-2.3283e-09, -1.8626e-09,  0.0000e+00,  ..., -1.8626e-09,
+          1.1642e-10,  0.0000e+00]], device='cuda:0')
+Epoch 496, bias, value: tensor([-0.0408, -0.0425, -0.0079, -0.0060, -0.0001,  0.0064,  0.0073, -0.0070,
+         0.0124, -0.0455], device='cuda:0'), grad: tensor([ 4.6566e-10,  1.6065e-08,  4.0745e-09,  1.3271e-08,  1.3970e-09,
+         4.3074e-09,  2.9104e-09, -1.3039e-08, -2.4564e-08, -2.7940e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 495, time 217.65, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.3996 re_mapping 0.0019 re_causal 0.0069 /// teacc 99.24 lr 0.00001000
+Epoch 497, weight, value: tensor([[-0.1336,  0.0235,  0.1741,  ...,  0.0099, -0.1426, -0.1142],
+        [-0.2589, -0.2592, -0.2389,  ...,  0.1288,  0.0762,  0.4559],
+        [-0.3006, -0.2047, -0.2712,  ..., -0.3393,  0.0139, -0.2694],
+        ...,
+        [-0.2336, -0.2953, -0.0145,  ..., -0.2928, -0.1727, -0.5198],
+        [ 0.1669,  0.0377, -0.1790,  ..., -0.2845,  0.0587, -0.2584],
+        [ 0.1791,  0.1122, -0.1757,  ...,  0.1458, -0.2838, -0.3449]],
+       device='cuda:0'), grad: tensor([[ 1.5134e-09,  1.8626e-09,  0.0000e+00,  ...,  9.3132e-10,
+          2.3283e-10,  0.0000e+00],
+        [ 1.0477e-09,  9.3132e-10,  0.0000e+00,  ...,  8.1491e-10,
+          4.6566e-10,  0.0000e+00],
+        [ 5.8208e-10,  5.8208e-10,  0.0000e+00,  ...,  3.4925e-10,
+          2.3283e-10,  1.1642e-10],
+        ...,
+        [ 1.8626e-09,  1.3970e-09,  0.0000e+00,  ...,  1.6298e-09,
+          5.8208e-10,  0.0000e+00],
+        [ 2.4447e-09,  2.2119e-09,  0.0000e+00,  ...,  1.2806e-09,
+          1.3970e-09,  1.1642e-10],
+        [ 1.2806e-09,  3.6089e-09,  1.2806e-09,  ..., -5.8208e-10,
+          1.5134e-09,  0.0000e+00]], device='cuda:0')
+Epoch 497, bias, value: tensor([-0.0408, -0.0426, -0.0081, -0.0059, -0.0001,  0.0063,  0.0073, -0.0070,
+         0.0123, -0.0455], device='cuda:0'), grad: tensor([ 5.7044e-09,  2.7241e-08, -3.2596e-09, -2.4796e-08,  2.7940e-09,
+         1.5134e-08,  6.9849e-10, -1.7218e-07,  1.5832e-08,  1.4796e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 496, time 217.73, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.3912 re_mapping 0.0018 re_causal 0.0068 /// teacc 99.23 lr 0.00001000
+Epoch 498, weight, value: tensor([[-0.1336,  0.0236,  0.1742,  ...,  0.0099, -0.1426, -0.1142],
+        [-0.2589, -0.2592, -0.2389,  ...,  0.1288,  0.0762,  0.4560],
+        [-0.3007, -0.2047, -0.2712,  ..., -0.3394,  0.0138, -0.2695],
+        ...,
+        [-0.2337, -0.2954, -0.0146,  ..., -0.2928, -0.1728, -0.5199],
+        [ 0.1669,  0.0377, -0.1790,  ..., -0.2846,  0.0587, -0.2584],
+        [ 0.1791,  0.1122, -0.1759,  ...,  0.1458, -0.2838, -0.3450]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.1642e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.1642e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.1642e-10,  ...,  0.0000e+00,
+         -4.6566e-10,  1.1642e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.1642e-10,
+          0.0000e+00,  3.4925e-10],
+        [ 0.0000e+00,  1.1642e-10,  1.1642e-10,  ...,  1.1642e-10,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.1642e-09,  ...,  1.1642e-10,
+          2.3283e-10,  1.1642e-10]], device='cuda:0')
+Epoch 498, bias, value: tensor([-4.0681e-02, -4.2569e-02, -8.1047e-03, -5.8771e-03, -8.1411e-05,
+         6.2939e-03,  7.3545e-03, -6.9353e-03,  1.2329e-02, -4.5701e-02],
+       device='cuda:0'), grad: tensor([ 1.9791e-09,  2.3283e-09, -2.1770e-08,  1.1642e-09, -3.4925e-09,
+         4.6566e-10,  1.1642e-09,  8.6147e-09,  9.7789e-09,  3.7253e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 497, time 217.72, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4033 re_mapping 0.0019 re_causal 0.0069 /// teacc 99.23 lr 0.00001000
+Epoch 499, weight, value: tensor([[-0.1336,  0.0236,  0.1743,  ...,  0.0100, -0.1426, -0.1142],
+        [-0.2590, -0.2593, -0.2390,  ...,  0.1289,  0.0763,  0.4560],
+        [-0.3007, -0.2048, -0.2713,  ..., -0.3394,  0.0138, -0.2695],
+        ...,
+        [-0.2338, -0.2954, -0.0146,  ..., -0.2930, -0.1729, -0.5199],
+        [ 0.1670,  0.0377, -0.1791,  ..., -0.2846,  0.0588, -0.2584],
+        [ 0.1792,  0.1123, -0.1760,  ...,  0.1459, -0.2839, -0.3450]],
+       device='cuda:0'), grad: tensor([[ 5.8208e-11,  5.8208e-11,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 5.8208e-11,  5.8208e-11,  1.1642e-10,  ...,  0.0000e+00,
+          5.8208e-11,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.1642e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 5.8208e-11,  5.8208e-11, -2.3283e-10,  ...,  1.1642e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 4.6566e-10,  7.5670e-10,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [-9.8371e-09, -8.8476e-09,  8.7311e-10,  ..., -4.8894e-09,
+          6.4028e-10,  0.0000e+00]], device='cuda:0')
+Epoch 499, bias, value: tensor([-4.0610e-02, -4.2564e-02, -8.1439e-03, -5.8141e-03, -8.4912e-05,
+         6.2664e-03,  7.2158e-03, -6.9572e-03,  1.2412e-02, -4.5755e-02],
+       device='cuda:0'), grad: tensor([ 2.9104e-10,  1.1642e-09,  5.8208e-10,  6.9849e-10,  3.1258e-08,
+         3.4925e-10,  9.3132e-10, -2.4447e-09,  2.6776e-09, -2.5670e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 498, time 217.70, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4026 re_mapping 0.0019 re_causal 0.0070 /// teacc 99.25 lr 0.00001000
+Epoch 500, weight, value: tensor([[-0.1337,  0.0236,  0.1743,  ...,  0.0100, -0.1426, -0.1142],
+        [-0.2591, -0.2593, -0.2390,  ...,  0.1291,  0.0763,  0.4563],
+        [-0.3007, -0.2048, -0.2713,  ..., -0.3395,  0.0138, -0.2696],
+        ...,
+        [-0.2338, -0.2955, -0.0146,  ..., -0.2932, -0.1729, -0.5202],
+        [ 0.1671,  0.0378, -0.1791,  ..., -0.2847,  0.0589, -0.2584],
+        [ 0.1793,  0.1123, -0.1760,  ...,  0.1460, -0.2840, -0.3450]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.9791e-09,  ..., -1.1059e-09,
+          0.0000e+00,  1.1642e-10],
+        [ 0.0000e+00,  5.8208e-11,  1.7462e-10,  ..., -1.6298e-09,
+         -1.4552e-09, -9.2550e-09],
+        [ 5.8208e-11,  1.7462e-10,  2.9104e-10,  ...,  8.1491e-10,
+          3.4925e-10,  2.7358e-09],
+        ...,
+        [ 5.8208e-11,  5.8208e-11,  0.0000e+00,  ...,  1.5716e-09,
+          1.3388e-09,  7.7998e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.8208e-11,
+          1.1642e-10,  3.4925e-10],
+        [ 5.8208e-11,  5.8208e-11,  1.7462e-10,  ...,  2.3283e-10,
+          1.7462e-10,  5.2387e-10]], device='cuda:0')
+Epoch 500, bias, value: tensor([-0.0406, -0.0424, -0.0082, -0.0059, -0.0001,  0.0062,  0.0072, -0.0071,
+         0.0125, -0.0458], device='cuda:0'), grad: tensor([-3.4925e-09, -1.4203e-08,  5.5297e-09,  4.0745e-10,  1.3388e-09,
+         1.3388e-09,  7.5670e-09,  1.2747e-08,  8.1491e-10,  1.7462e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 499, time 217.48, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4309 re_mapping 0.0019 re_causal 0.0072 /// teacc 99.27 lr 0.00001000
+---------------------saving last model at epoch 499----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps4', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps4/14factor_best.csv', 'channels': 3, 'factor_num': 14, 'stride': 3, 'epoch': 'best', 'eval_mapping': True}
+loading weight of best
+randm: False
+stride: 3
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+Using downloaded and verified file: /home/yuqian_fu/.pytorch/SVHN/test_32x32.mat
+                         mnist   mnist_FA  ...    usps_FA        Avg
+ShearX               99.089996  99.209999  ...  86.945686  69.764622
+ShearY               98.669998  98.909996  ...  86.945686  67.276324
+AutoContrast         99.089996  99.129997  ...  86.945686  61.274684
+Invert               98.720001  93.839996  ...  86.945686  50.101730
+Equalize             98.220001  98.409996  ...  86.945686  73.226051
+Solarize             98.059998  97.689995  ...  86.945686  63.925620
+SolarizeAdd          98.250000  97.829994  ...  86.945686  70.808240
+Posterize            99.010002  99.159996  ...  86.945686  73.015031
+Contrast             98.989998  99.260002  ...  86.945686  67.801760
+Color                99.049995  99.269997  ...  86.945686  59.026607
+Brightness           98.839996  99.279999  ...  86.945686  66.790533
+Sharpness            99.070000  99.209999  ...  86.945686  69.948109
+NoiseSalt            99.159996  99.220001  ...  86.945686  56.808372
+NoiseGaussian        99.070000  99.279999  ...  86.945686  58.316548
+w/o do (original x)  99.270000   0.000000  ...   0.000000  73.227632
+
+[15 rows x 11 columns]
+    mnist       svhn    mnist_m   syndigit       usps        Avg
+do  99.21  68.461893  78.657927  76.499529  86.098655  77.429501
diff --git a/Meta-causal/code-withStyleAttack/66567.error b/Meta-causal/code-withStyleAttack/66567.error
new file mode 100644
index 0000000000000000000000000000000000000000..5b09d3d759b1a068653d824f401cf6b8e10ef88f
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/66567.error
@@ -0,0 +1 @@
+run_my_joint_test.sh: line 37: eduler: command not found
diff --git a/Meta-causal/code-withStyleAttack/66567.log b/Meta-causal/code-withStyleAttack/66567.log
new file mode 100644
index 0000000000000000000000000000000000000000..70dd75ed682b118b030b317fe053d42981749b47
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/66567.log
@@ -0,0 +1,14349 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 500, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps4', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 3
+--------------------------CA_multiple--------------------------
+---------------------------14 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+Epoch 1, weight, value: tensor([[-0.0271,  0.0207,  0.0215,  ..., -0.0289,  0.0029, -0.0146],
+        [-0.0148,  0.0150, -0.0160,  ..., -0.0022,  0.0053,  0.0148],
+        [-0.0263, -0.0228, -0.0024,  ...,  0.0142, -0.0181,  0.0305],
+        ...,
+        [ 0.0153,  0.0045,  0.0014,  ...,  0.0168,  0.0223,  0.0115],
+        [ 0.0200,  0.0085,  0.0071,  ...,  0.0254,  0.0155,  0.0160],
+        [-0.0279,  0.0077, -0.0190,  ...,  0.0294, -0.0245, -0.0030]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([ 0.0260, -0.0171,  0.0127, -0.0213,  0.0291,  0.0182,  0.0038, -0.0096,
+        -0.0190, -0.0048], device='cuda:0'), grad: None
+100
+0.0001
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 222.47, cls_loss 1.1909 cls_loss_mapping 1.7588 cls_loss_causal 2.2050 re_mapping 0.1691 re_causal 0.1843 /// teacc 89.91 lr 0.00010000
+Epoch 2, weight, value: tensor([[-0.0326,  0.0279,  0.0215,  ..., -0.0361,  0.0006, -0.0122],
+        [-0.0113,  0.0079, -0.0160,  ...,  0.0018,  0.0068,  0.0058],
+        [-0.0321, -0.0242, -0.0024,  ...,  0.0165, -0.0124,  0.0228],
+        ...,
+        [ 0.0152,  0.0090,  0.0014,  ...,  0.0114,  0.0157,  0.0141],
+        [ 0.0207,  0.0022,  0.0071,  ...,  0.0225,  0.0163,  0.0124],
+        [-0.0240,  0.0069, -0.0190,  ...,  0.0340, -0.0324,  0.0001]],
+       device='cuda:0'), grad: tensor([[ 0.0077, -0.0236,  0.0000,  ...,  0.0048, -0.0097, -0.0010],
+        [ 0.0134,  0.0004,  0.0000,  ...,  0.0023,  0.0079,  0.0174],
+        [ 0.0138,  0.0122,  0.0000,  ...,  0.0147,  0.0112,  0.0086],
+        ...,
+        [-0.0009, -0.0062,  0.0000,  ..., -0.0022,  0.0072, -0.0067],
+        [ 0.0082,  0.0028,  0.0000,  ...,  0.0154,  0.0054,  0.0232],
+        [-0.0198,  0.0028,  0.0000,  ..., -0.0201, -0.0074, -0.0303]],
+       device='cuda:0')
+Epoch 2, bias, value: tensor([ 0.0228, -0.0146,  0.0122, -0.0209,  0.0288,  0.0188,  0.0038, -0.0104,
+        -0.0199, -0.0033], device='cuda:0'), grad: tensor([ 0.0010,  0.0184,  0.0276, -0.0201, -0.0305, -0.0240,  0.0409, -0.0018,
+         0.0214, -0.0328], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 222.00, cls_loss 0.3407 cls_loss_mapping 0.7050 cls_loss_causal 1.9079 re_mapping 0.2080 re_causal 0.2844 /// teacc 92.91 lr 0.00010000
+Epoch 3, weight, value: tensor([[-0.0358,  0.0322,  0.0215,  ..., -0.0381, -0.0007, -0.0125],
+        [-0.0099,  0.0067, -0.0160,  ...,  0.0039,  0.0045,  0.0019],
+        [-0.0357, -0.0267, -0.0024,  ...,  0.0153, -0.0102,  0.0202],
+        ...,
+        [ 0.0149,  0.0123,  0.0014,  ...,  0.0080,  0.0149,  0.0163],
+        [ 0.0217, -0.0006,  0.0071,  ...,  0.0202,  0.0183,  0.0095],
+        [-0.0267,  0.0057, -0.0190,  ...,  0.0360, -0.0359,  0.0032]],
+       device='cuda:0'), grad: tensor([[ 2.3308e-03, -7.9575e-03,  0.0000e+00,  ...,  1.4915e-03,
+         -4.8661e-04,  1.0872e-03],
+        [ 4.4365e-03,  2.1458e-04,  0.0000e+00,  ...,  2.0695e-04,
+          2.3708e-03,  2.4624e-03],
+        [-1.2329e-02,  2.8343e-03,  0.0000e+00,  ..., -1.1711e-03,
+         -1.9417e-03,  4.4594e-03],
+        ...,
+        [-6.1035e-03, -6.1684e-03,  0.0000e+00,  ...,  3.7308e-03,
+          4.6539e-03,  1.9140e-03],
+        [ 2.2400e-02,  9.2936e-04,  0.0000e+00,  ...,  3.5534e-03,
+          2.3961e-04, -5.1193e-03],
+        [-4.1008e-05,  3.6716e-03,  0.0000e+00,  ..., -1.6174e-02,
+          3.4447e-03, -1.3779e-02]], device='cuda:0')
+Epoch 3, bias, value: tensor([ 0.0225, -0.0144,  0.0119, -0.0210,  0.0290,  0.0191,  0.0033, -0.0110,
+        -0.0196, -0.0029], device='cuda:0'), grad: tensor([-0.0027,  0.0048, -0.0056, -0.0110,  0.0160, -0.0029, -0.0032,  0.0054,
+         0.0090, -0.0099], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 222.00, cls_loss 0.2320 cls_loss_mapping 0.4427 cls_loss_causal 1.6614 re_mapping 0.1442 re_causal 0.2336 /// teacc 95.20 lr 0.00010000
+Epoch 4, weight, value: tensor([[-0.0380,  0.0355,  0.0215,  ..., -0.0396, -0.0006, -0.0129],
+        [-0.0085,  0.0056, -0.0160,  ...,  0.0053,  0.0039, -0.0004],
+        [-0.0376, -0.0298, -0.0024,  ...,  0.0145, -0.0091,  0.0186],
+        ...,
+        [ 0.0152,  0.0148,  0.0014,  ...,  0.0064,  0.0162,  0.0176],
+        [ 0.0216, -0.0013,  0.0071,  ...,  0.0192,  0.0179,  0.0079],
+        [-0.0292,  0.0044, -0.0190,  ...,  0.0368, -0.0395,  0.0051]],
+       device='cuda:0'), grad: tensor([[ 0.0021, -0.0089,  0.0000,  ...,  0.0013, -0.0018,  0.0009],
+        [-0.0088,  0.0003,  0.0000,  ..., -0.0040, -0.0026,  0.0010],
+        [ 0.0073,  0.0024,  0.0000,  ...,  0.0046, -0.0022,  0.0019],
+        ...,
+        [ 0.0068,  0.0019,  0.0000,  ...,  0.0227,  0.0046,  0.0399],
+        [ 0.0047,  0.0007,  0.0000,  ...,  0.0109,  0.0025,  0.0096],
+        [-0.0223, -0.0034,  0.0000,  ..., -0.0535, -0.0038, -0.0618]],
+       device='cuda:0')
+Epoch 4, bias, value: tensor([ 0.0225, -0.0145,  0.0122, -0.0210,  0.0290,  0.0192,  0.0031, -0.0112,
+        -0.0196, -0.0027], device='cuda:0'), grad: tensor([-0.0027, -0.0086,  0.0042, -0.0007,  0.0146,  0.0085, -0.0024,  0.0344,
+         0.0138, -0.0609], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 222.12, cls_loss 0.1640 cls_loss_mapping 0.3067 cls_loss_causal 1.5048 re_mapping 0.1139 re_causal 0.2005 /// teacc 95.96 lr 0.00010000
+Epoch 5, weight, value: tensor([[-0.0401,  0.0390,  0.0215,  ..., -0.0411, -0.0011, -0.0130],
+        [-0.0080,  0.0043, -0.0160,  ...,  0.0066,  0.0038, -0.0017],
+        [-0.0384, -0.0314, -0.0024,  ...,  0.0140, -0.0083,  0.0172],
+        ...,
+        [ 0.0151,  0.0168,  0.0014,  ...,  0.0043,  0.0181,  0.0185],
+        [ 0.0217, -0.0033,  0.0071,  ...,  0.0180,  0.0178,  0.0068],
+        [-0.0305,  0.0029, -0.0190,  ...,  0.0383, -0.0430,  0.0064]],
+       device='cuda:0'), grad: tensor([[ 0.0030,  0.0018,  0.0000,  ...,  0.0017,  0.0019,  0.0055],
+        [-0.0059,  0.0001,  0.0000,  ..., -0.0061, -0.0265,  0.0037],
+        [ 0.0032,  0.0016,  0.0000,  ...,  0.0042,  0.0309,  0.0083],
+        ...,
+        [ 0.0005,  0.0014,  0.0000,  ...,  0.0061,  0.0051,  0.0076],
+        [-0.0012, -0.0092,  0.0000,  ..., -0.0075, -0.0070, -0.0121],
+        [ 0.0052,  0.0022,  0.0000,  ...,  0.0061,  0.0097,  0.0072]],
+       device='cuda:0')
+Epoch 5, bias, value: tensor([ 0.0228, -0.0143,  0.0121, -0.0211,  0.0292,  0.0190,  0.0028, -0.0114,
+        -0.0195, -0.0025], device='cuda:0'), grad: tensor([ 0.0086, -0.0283,  0.0347, -0.0283, -0.0015,  0.0189, -0.0077,  0.0100,
+        -0.0221,  0.0156], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 222.00, cls_loss 0.1243 cls_loss_mapping 0.2199 cls_loss_causal 1.3502 re_mapping 0.0925 re_causal 0.1784 /// teacc 96.79 lr 0.00010000
+Epoch 6, weight, value: tensor([[-0.0407,  0.0416,  0.0215,  ..., -0.0420, -0.0016, -0.0131],
+        [-0.0067,  0.0029, -0.0160,  ...,  0.0073,  0.0043, -0.0032],
+        [-0.0398, -0.0331, -0.0024,  ...,  0.0132, -0.0078,  0.0158],
+        ...,
+        [ 0.0160,  0.0179,  0.0014,  ...,  0.0028,  0.0188,  0.0187],
+        [ 0.0222, -0.0044,  0.0071,  ...,  0.0173,  0.0172,  0.0059],
+        [-0.0323,  0.0021, -0.0190,  ...,  0.0391, -0.0461,  0.0078]],
+       device='cuda:0'), grad: tensor([[-4.9706e-03, -8.4686e-03,  0.0000e+00,  ..., -2.0862e-05,
+          5.5885e-04, -7.4577e-03],
+        [ 9.9564e-04,  1.8239e-04,  0.0000e+00,  ..., -2.9945e-04,
+          2.3899e-03,  2.3460e-03],
+        [ 1.3552e-03,  1.9455e-03,  0.0000e+00,  ...,  2.3518e-03,
+          2.0008e-03,  4.8714e-03],
+        ...,
+        [-5.6314e-04, -9.5510e-04,  0.0000e+00,  ...,  1.1177e-03,
+         -2.4147e-03, -3.9864e-03],
+        [ 6.9332e-04,  1.4420e-03,  0.0000e+00,  ...,  2.3537e-03,
+         -6.9275e-03, -7.4043e-03],
+        [ 6.1722e-03,  2.6741e-03,  0.0000e+00,  ..., -6.6681e-03,
+          4.5166e-03,  4.8904e-03]], device='cuda:0')
+Epoch 6, bias, value: tensor([ 0.0231, -0.0141,  0.0120, -0.0207,  0.0293,  0.0185,  0.0024, -0.0117,
+        -0.0193, -0.0025], device='cuda:0'), grad: tensor([-0.0271,  0.0043,  0.0108,  0.0197,  0.0048, -0.0041,  0.0053, -0.0024,
+        -0.0189,  0.0076], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 5----------------------------------------------------
+epoch 5, time 222.09, cls_loss 0.1065 cls_loss_mapping 0.1843 cls_loss_causal 1.2670 re_mapping 0.0778 re_causal 0.1577 /// teacc 97.39 lr 0.00010000
+Epoch 7, weight, value: tensor([[-0.0426,  0.0440,  0.0215,  ..., -0.0440, -0.0018, -0.0133],
+        [-0.0069,  0.0020, -0.0160,  ...,  0.0081,  0.0038, -0.0046],
+        [-0.0406, -0.0340, -0.0024,  ...,  0.0130, -0.0071,  0.0148],
+        ...,
+        [ 0.0165,  0.0187,  0.0014,  ...,  0.0015,  0.0192,  0.0196],
+        [ 0.0227, -0.0054,  0.0071,  ...,  0.0166,  0.0170,  0.0050],
+        [-0.0335,  0.0012, -0.0190,  ...,  0.0403, -0.0486,  0.0086]],
+       device='cuda:0'), grad: tensor([[ 0.0007, -0.0082,  0.0000,  ..., -0.0015, -0.0017, -0.0008],
+        [-0.0002,  0.0002,  0.0000,  ..., -0.0008,  0.0006,  0.0001],
+        [ 0.0011,  0.0014,  0.0000,  ...,  0.0012, -0.0013,  0.0003],
+        ...,
+        [ 0.0005,  0.0010,  0.0000,  ...,  0.0010,  0.0014,  0.0004],
+        [-0.0048,  0.0004,  0.0000,  ...,  0.0007, -0.0009,  0.0001],
+        [ 0.0003,  0.0010,  0.0000,  ..., -0.0010,  0.0003, -0.0006]],
+       device='cuda:0')
+Epoch 7, bias, value: tensor([ 0.0229, -0.0146,  0.0124, -0.0205,  0.0291,  0.0183,  0.0024, -0.0118,
+        -0.0191, -0.0024], device='cuda:0'), grad: tensor([-0.0069,  0.0006, -0.0007, -0.0041,  0.0023,  0.0112, -0.0027,  0.0025,
+        -0.0024,  0.0004], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 6----------------------------------------------------
+epoch 6, time 222.37, cls_loss 0.0928 cls_loss_mapping 0.1614 cls_loss_causal 1.2338 re_mapping 0.0651 re_causal 0.1447 /// teacc 97.51 lr 0.00010000
+Epoch 8, weight, value: tensor([[-0.0441,  0.0462,  0.0215,  ..., -0.0454, -0.0017, -0.0132],
+        [-0.0065,  0.0005, -0.0160,  ...,  0.0085,  0.0040, -0.0059],
+        [-0.0414, -0.0361, -0.0024,  ...,  0.0124, -0.0070,  0.0137],
+        ...,
+        [ 0.0173,  0.0192,  0.0014,  ...,  0.0007,  0.0207,  0.0205],
+        [ 0.0229, -0.0051,  0.0071,  ...,  0.0162,  0.0169,  0.0043],
+        [-0.0345,  0.0012, -0.0190,  ...,  0.0413, -0.0513,  0.0095]],
+       device='cuda:0'), grad: tensor([[ 3.0446e-04, -1.6165e-03,  0.0000e+00,  ...,  3.4046e-04,
+         -1.3649e-04, -1.8895e-04],
+        [-7.6771e-04,  5.5313e-05,  0.0000e+00,  ..., -8.4114e-04,
+          3.6383e-04,  2.1732e-04],
+        [-2.6398e-03,  2.6870e-04,  0.0000e+00,  ...,  3.9434e-04,
+         -6.9351e-03,  5.4455e-04],
+        ...,
+        [ 1.1574e-02,  4.8971e-04,  0.0000e+00,  ...,  1.8814e-02,
+          1.2941e-03,  2.9160e-02],
+        [ 3.5267e-03,  2.2662e-04,  0.0000e+00,  ...,  1.9932e-03,
+          5.0011e-03,  1.0605e-03],
+        [-1.0948e-02, -2.4959e-05,  0.0000e+00,  ..., -2.2629e-02,
+         -1.6987e-04, -3.2471e-02]], device='cuda:0')
+Epoch 8, bias, value: tensor([ 0.0230, -0.0145,  0.0122, -0.0205,  0.0289,  0.0178,  0.0023, -0.0113,
+        -0.0188, -0.0024], device='cuda:0'), grad: tensor([-0.0002, -0.0002, -0.0075,  0.0015,  0.0019, -0.0008, -0.0003,  0.0285,
+         0.0059, -0.0288], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 7----------------------------------------------------
+epoch 7, time 222.24, cls_loss 0.0855 cls_loss_mapping 0.1470 cls_loss_causal 1.1677 re_mapping 0.0560 re_causal 0.1304 /// teacc 97.79 lr 0.00010000
+Epoch 9, weight, value: tensor([[-0.0450,  0.0481,  0.0215,  ..., -0.0463, -0.0028, -0.0126],
+        [-0.0063, -0.0007, -0.0160,  ...,  0.0092,  0.0037, -0.0069],
+        [-0.0412, -0.0376, -0.0024,  ...,  0.0121, -0.0061,  0.0128],
+        ...,
+        [ 0.0174,  0.0196,  0.0014,  ..., -0.0004,  0.0206,  0.0207],
+        [ 0.0230, -0.0060,  0.0071,  ...,  0.0155,  0.0167,  0.0035],
+        [-0.0357,  0.0005, -0.0190,  ...,  0.0418, -0.0533,  0.0103]],
+       device='cuda:0'), grad: tensor([[ 1.1559e-03, -4.4346e-04,  0.0000e+00,  ...,  9.0504e-04,
+          8.9550e-04,  1.1873e-03],
+        [-1.2362e-04,  9.0301e-05,  0.0000e+00,  ...,  7.8559e-05,
+          1.0328e-03,  1.0757e-03],
+        [ 4.4203e-04,  2.8157e-04,  0.0000e+00,  ..., -2.6894e-04,
+          5.2605e-03,  2.0447e-03],
+        ...,
+        [-1.2188e-03, -1.3704e-03,  0.0000e+00,  ...,  2.8839e-03,
+         -1.3542e-03, -1.2016e-03],
+        [ 1.1787e-03,  4.7177e-05,  0.0000e+00,  ...,  2.5387e-03,
+          1.3018e-03,  1.4200e-03],
+        [ 1.0376e-03,  5.7268e-04,  0.0000e+00,  ..., -3.2825e-03,
+          1.0462e-03, -3.1834e-03]], device='cuda:0')
+Epoch 9, bias, value: tensor([ 0.0231, -0.0146,  0.0128, -0.0204,  0.0290,  0.0177,  0.0019, -0.0118,
+        -0.0184, -0.0025], device='cuda:0'), grad: tensor([ 0.0026,  0.0014,  0.0020, -0.0085, -0.0035,  0.0015,  0.0012,  0.0005,
+         0.0035, -0.0008], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 8----------------------------------------------------
+epoch 8, time 222.05, cls_loss 0.0748 cls_loss_mapping 0.1289 cls_loss_causal 1.1284 re_mapping 0.0504 re_causal 0.1194 /// teacc 97.84 lr 0.00010000
+Epoch 10, weight, value: tensor([[-0.0464,  0.0494,  0.0215,  ..., -0.0470, -0.0029, -0.0125],
+        [-0.0058, -0.0019, -0.0160,  ...,  0.0099,  0.0036, -0.0075],
+        [-0.0423, -0.0398, -0.0024,  ...,  0.0115, -0.0058,  0.0116],
+        ...,
+        [ 0.0181,  0.0202,  0.0014,  ..., -0.0012,  0.0211,  0.0212],
+        [ 0.0232, -0.0065,  0.0071,  ...,  0.0150,  0.0165,  0.0024],
+        [-0.0369,  0.0009, -0.0190,  ...,  0.0428, -0.0554,  0.0110]],
+       device='cuda:0'), grad: tensor([[-1.7166e-03, -7.5150e-03,  0.0000e+00,  ...,  2.3043e-04,
+         -2.4414e-03, -3.3408e-05],
+        [-5.3406e-04,  3.9124e-04,  0.0000e+00,  ..., -1.1396e-03,
+          6.8712e-04,  5.7364e-04],
+        [ 2.0676e-03,  4.6806e-03,  0.0000e+00,  ...,  8.5783e-04,
+          1.7509e-03,  5.2261e-04],
+        ...,
+        [ 5.0640e-04,  2.5964e-04,  0.0000e+00,  ...,  1.4687e-03,
+          7.4768e-04,  1.5736e-03],
+        [ 7.0715e-04,  7.4053e-04,  0.0000e+00,  ...,  2.1992e-03,
+          1.9531e-03,  2.8839e-03],
+        [ 6.6102e-05,  1.9240e-04,  0.0000e+00,  ..., -5.3558e-03,
+          2.6345e-04, -3.4599e-03]], device='cuda:0')
+Epoch 10, bias, value: tensor([ 0.0230, -0.0147,  0.0129, -0.0204,  0.0288,  0.0175,  0.0022, -0.0118,
+        -0.0183, -0.0023], device='cuda:0'), grad: tensor([-0.0118,  0.0004,  0.0085, -0.0050, -0.0004,  0.0026,  0.0023,  0.0028,
+         0.0051, -0.0045], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 9----------------------------------------------------
+epoch 9, time 222.12, cls_loss 0.0710 cls_loss_mapping 0.1232 cls_loss_causal 1.0820 re_mapping 0.0462 re_causal 0.1106 /// teacc 97.88 lr 0.00010000
+Epoch 11, weight, value: tensor([[-0.0472,  0.0510,  0.0215,  ..., -0.0474, -0.0029, -0.0123],
+        [-0.0059, -0.0028, -0.0160,  ...,  0.0103,  0.0033, -0.0087],
+        [-0.0430, -0.0412, -0.0024,  ...,  0.0111, -0.0059,  0.0106],
+        ...,
+        [ 0.0185,  0.0208,  0.0014,  ..., -0.0021,  0.0222,  0.0220],
+        [ 0.0236, -0.0071,  0.0071,  ...,  0.0143,  0.0161,  0.0017],
+        [-0.0375,  0.0004, -0.0190,  ...,  0.0436, -0.0577,  0.0117]],
+       device='cuda:0'), grad: tensor([[ 2.8419e-04, -1.2035e-03,  0.0000e+00,  ...,  2.3735e-04,
+          3.0175e-05,  8.2076e-05],
+        [ 2.9812e-03,  2.7552e-05,  0.0000e+00,  ...,  1.2207e-04,
+          1.2703e-03,  1.1188e-04],
+        [ 5.9891e-04,  3.1257e-04,  0.0000e+00,  ...,  1.5879e-04,
+          4.6194e-05,  1.2898e-04],
+        ...,
+        [ 6.1131e-04,  1.3542e-04,  0.0000e+00,  ...,  1.8034e-03,
+          2.9278e-04,  1.5326e-03],
+        [-9.4299e-03,  1.1575e-04,  0.0000e+00,  ...,  3.1018e-04,
+         -4.1161e-03, -3.9399e-05],
+        [ 7.4100e-04,  1.1611e-04,  0.0000e+00,  ..., -2.9678e-03,
+          2.0480e-04, -3.5019e-03]], device='cuda:0')
+Epoch 11, bias, value: tensor([ 0.0233, -0.0151,  0.0128, -0.0199,  0.0287,  0.0173,  0.0018, -0.0117,
+        -0.0183, -0.0024], device='cuda:0'), grad: tensor([ 6.6876e-05,  4.1542e-03,  8.0156e-04, -4.5052e-03,  3.0577e-05,
+         1.4893e-02, -2.6608e-03,  2.4548e-03, -1.3496e-02, -1.7366e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 10----------------------------------------------------
+epoch 10, time 222.41, cls_loss 0.0545 cls_loss_mapping 0.0974 cls_loss_causal 1.0696 re_mapping 0.0414 re_causal 0.1082 /// teacc 98.07 lr 0.00010000
+Epoch 12, weight, value: tensor([[-4.8286e-02,  5.2557e-02,  2.1474e-02,  ..., -4.7808e-02,
+         -3.0306e-03, -1.2115e-02],
+        [-5.4672e-03, -3.8802e-03, -1.6035e-02,  ...,  1.0723e-02,
+          3.2854e-03, -9.2491e-03],
+        [-4.3902e-02, -4.2428e-02, -2.3694e-03,  ...,  1.0608e-02,
+         -6.0441e-03,  9.4452e-03],
+        ...,
+        [ 1.8583e-02,  2.1708e-02,  1.4217e-03,  ..., -3.4607e-03,
+          2.2753e-02,  2.2221e-02],
+        [ 2.4385e-02, -7.3145e-03,  7.1494e-03,  ...,  1.3876e-02,
+          1.6189e-02,  1.0914e-03],
+        [-3.8162e-02, -6.2173e-05, -1.9007e-02,  ...,  4.4448e-02,
+         -5.9792e-02,  1.2404e-02]], device='cuda:0'), grad: tensor([[-7.8630e-04, -2.9335e-03,  0.0000e+00,  ...,  5.9891e-04,
+         -1.6081e-04, -3.9520e-03],
+        [-1.4770e-04,  5.3793e-05,  0.0000e+00,  ..., -6.9761e-04,
+          6.5517e-04,  1.2672e-04],
+        [ 1.0176e-03,  3.5095e-04,  0.0000e+00,  ...,  9.7847e-04,
+         -2.0294e-03,  7.2956e-04],
+        ...,
+        [-4.4464e-02, -1.1883e-03,  0.0000e+00,  ..., -2.3727e-02,
+         -1.9264e-03, -2.0065e-03],
+        [-1.4400e-03,  6.2799e-04,  0.0000e+00,  ...,  1.2726e-02,
+          4.1795e-04,  1.1139e-02],
+        [ 1.5688e-03,  1.2665e-03,  0.0000e+00,  ..., -1.5625e-02,
+          8.6975e-04, -1.2680e-02]], device='cuda:0')
+Epoch 12, bias, value: tensor([ 0.0233, -0.0150,  0.0128, -0.0200,  0.0286,  0.0174,  0.0017, -0.0120,
+        -0.0179, -0.0023], device='cuda:0'), grad: tensor([-0.0041,  0.0007, -0.0025,  0.0027,  0.0276,  0.0106,  0.0019, -0.0316,
+         0.0140, -0.0193], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 11----------------------------------------------------
+epoch 11, time 222.50, cls_loss 0.0579 cls_loss_mapping 0.1039 cls_loss_causal 1.0564 re_mapping 0.0377 re_causal 0.1009 /// teacc 98.28 lr 0.00010000
+Epoch 13, weight, value: tensor([[-0.0492,  0.0537,  0.0215,  ..., -0.0487, -0.0036, -0.0120],
+        [-0.0054, -0.0046, -0.0160,  ...,  0.0110,  0.0028, -0.0103],
+        [-0.0445, -0.0434, -0.0024,  ...,  0.0101, -0.0055,  0.0088],
+        ...,
+        [ 0.0194,  0.0224,  0.0014,  ..., -0.0040,  0.0231,  0.0227],
+        [ 0.0244, -0.0078,  0.0071,  ...,  0.0133,  0.0160,  0.0001],
+        [-0.0391, -0.0004, -0.0190,  ...,  0.0454, -0.0618,  0.0131]],
+       device='cuda:0'), grad: tensor([[ 5.8603e-04, -4.7159e-04,  0.0000e+00,  ...,  1.7023e-04,
+          1.1712e-04,  5.8472e-05],
+        [ 1.5383e-03,  2.5958e-05,  0.0000e+00,  ...,  1.2159e-04,
+          7.6389e-04,  1.5078e-03],
+        [ 1.0037e-04,  9.7871e-05,  0.0000e+00,  ...,  1.5783e-04,
+         -9.9373e-04,  3.2759e-04],
+        ...,
+        [-6.1188e-03, -1.3602e-04,  0.0000e+00,  ..., -1.4839e-03,
+         -1.4687e-03, -3.5534e-03],
+        [-1.4982e-03,  8.7202e-05,  0.0000e+00,  ...,  1.2045e-03,
+          8.2874e-04,  5.2834e-04],
+        [ 3.0785e-03,  1.3697e-04,  0.0000e+00,  ...,  1.4362e-03,
+          5.7268e-04,  1.6379e-04]], device='cuda:0')
+Epoch 13, bias, value: tensor([ 0.0230, -0.0153,  0.0131, -0.0199,  0.0285,  0.0174,  0.0014, -0.0118,
+        -0.0179, -0.0022], device='cuda:0'), grad: tensor([ 5.5790e-04,  2.6817e-03, -2.3556e-03,  1.1420e-04, -1.3399e-04,
+         2.9736e-03,  7.7486e-05, -6.6147e-03, -2.1672e-04,  2.9163e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 12, time 221.59, cls_loss 0.0477 cls_loss_mapping 0.0857 cls_loss_causal 1.0102 re_mapping 0.0346 re_causal 0.0943 /// teacc 98.28 lr 0.00010000
+Epoch 14, weight, value: tensor([[-4.9821e-02,  5.4745e-02,  2.1474e-02,  ..., -4.8854e-02,
+         -4.3319e-03, -1.2319e-02],
+        [-5.0357e-03, -5.4368e-03, -1.6035e-02,  ...,  1.1131e-02,
+          2.3343e-03, -1.0792e-02],
+        [-4.4913e-02, -4.4125e-02, -2.3694e-03,  ...,  9.4166e-03,
+         -5.3669e-03,  7.5606e-03],
+        ...,
+        [ 2.0087e-02,  2.2409e-02,  1.4217e-03,  ..., -4.8106e-03,
+          2.4123e-02,  2.3376e-02],
+        [ 2.4623e-02, -7.8029e-03,  7.1494e-03,  ...,  1.3405e-02,
+          1.5700e-02,  1.1892e-05],
+        [-3.9960e-02, -8.8761e-04, -1.9007e-02,  ...,  4.6218e-02,
+         -6.3923e-02,  1.3724e-02]], device='cuda:0'), grad: tensor([[ 3.7622e-04, -1.0414e-03,  0.0000e+00,  ...,  2.5344e-04,
+         -4.8709e-04, -2.1970e-04],
+        [ 3.5381e-04,  1.8328e-05,  0.0000e+00,  ..., -1.6522e-04,
+          9.1851e-05,  1.8048e-04],
+        [ 2.0180e-03,  6.8855e-04,  0.0000e+00,  ...,  1.0653e-03,
+          9.4032e-04,  8.0681e-04],
+        ...,
+        [ 6.7472e-04,  3.7163e-05,  0.0000e+00,  ...,  7.4720e-04,
+         -4.4894e-04, -8.6975e-04],
+        [-2.4338e-03,  2.7761e-05,  0.0000e+00,  ..., -8.1420e-05,
+         -3.1509e-03, -3.7842e-03],
+        [ 4.0054e-03,  6.0081e-05,  0.0000e+00,  ...,  3.3398e-03,
+          2.3174e-03,  3.6068e-03]], device='cuda:0')
+Epoch 14, bias, value: tensor([ 0.0228, -0.0154,  0.0130, -0.0199,  0.0285,  0.0174,  0.0014, -0.0115,
+        -0.0178, -0.0022], device='cuda:0'), grad: tensor([-0.0003,  0.0005,  0.0033,  0.0018, -0.0029,  0.0081, -0.0123,  0.0002,
+        -0.0069,  0.0084], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 13----------------------------------------------------
+epoch 13, time 222.17, cls_loss 0.0438 cls_loss_mapping 0.0797 cls_loss_causal 0.9708 re_mapping 0.0332 re_causal 0.0900 /// teacc 98.30 lr 0.00010000
+Epoch 15, weight, value: tensor([[-0.0506,  0.0561,  0.0215,  ..., -0.0489, -0.0047, -0.0122],
+        [-0.0048, -0.0062, -0.0160,  ...,  0.0115,  0.0021, -0.0112],
+        [-0.0458, -0.0449, -0.0024,  ...,  0.0089, -0.0052,  0.0069],
+        ...,
+        [ 0.0208,  0.0225,  0.0014,  ..., -0.0055,  0.0247,  0.0235],
+        [ 0.0251, -0.0082,  0.0071,  ...,  0.0127,  0.0157, -0.0005],
+        [-0.0406, -0.0011, -0.0190,  ...,  0.0465, -0.0657,  0.0144]],
+       device='cuda:0'), grad: tensor([[ 1.8919e-04, -6.3705e-04,  0.0000e+00,  ...,  5.1141e-05,
+          2.7791e-05, -3.0637e-05],
+        [-7.7438e-04,  4.4890e-06,  0.0000e+00,  ..., -8.8406e-04,
+          6.4850e-04,  6.0463e-04],
+        [ 7.5054e-04,  7.9751e-05,  0.0000e+00,  ...,  1.1158e-04,
+          2.0142e-02,  4.3144e-03],
+        ...,
+        [-3.8300e-03,  2.0653e-05,  0.0000e+00,  ...,  2.5392e-04,
+         -2.7054e-02, -1.1108e-02],
+        [ 2.2526e-03,  1.1462e-04,  0.0000e+00,  ...,  1.1015e-03,
+          2.4681e-03,  3.1166e-03],
+        [ 7.1526e-04,  1.2141e-04,  0.0000e+00,  ..., -1.1072e-03,
+          1.6623e-03,  8.7786e-04]], device='cuda:0')
+Epoch 15, bias, value: tensor([ 0.0228, -0.0156,  0.0129, -0.0198,  0.0284,  0.0171,  0.0016, -0.0115,
+        -0.0176, -0.0021], device='cuda:0'), grad: tensor([-1.4365e-04,  4.1783e-05,  3.2684e-02,  3.5286e-03,  5.2834e-04,
+         2.2793e-03, -2.4261e-03, -4.4861e-02,  6.3324e-03,  2.0504e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 14----------------------------------------------------
+epoch 14, time 222.14, cls_loss 0.0416 cls_loss_mapping 0.0777 cls_loss_causal 0.9779 re_mapping 0.0303 re_causal 0.0858 /// teacc 98.45 lr 0.00010000
+Epoch 16, weight, value: tensor([[-0.0518,  0.0571,  0.0215,  ..., -0.0493, -0.0051, -0.0120],
+        [-0.0044, -0.0068, -0.0160,  ...,  0.0120,  0.0021, -0.0113],
+        [-0.0459, -0.0458, -0.0024,  ...,  0.0086, -0.0052,  0.0059],
+        ...,
+        [ 0.0212,  0.0229,  0.0014,  ..., -0.0065,  0.0252,  0.0237],
+        [ 0.0253, -0.0090,  0.0071,  ...,  0.0122,  0.0154, -0.0012],
+        [-0.0413, -0.0016, -0.0190,  ...,  0.0469, -0.0675,  0.0150]],
+       device='cuda:0'), grad: tensor([[-5.5981e-04, -6.2103e-03,  0.0000e+00,  ..., -6.6185e-04,
+         -3.6621e-04, -2.8563e-04],
+        [ 1.6737e-04,  6.2227e-05,  0.0000e+00,  ..., -6.5708e-04,
+         -3.1686e-04,  6.6102e-05],
+        [ 4.8876e-04,  6.6948e-04,  0.0000e+00,  ...,  3.3236e-04,
+          2.5439e-04,  1.2720e-04],
+        ...,
+        [-5.6362e-04,  4.4823e-05,  0.0000e+00,  ...,  1.5497e-04,
+         -1.8382e-04, -5.2166e-04],
+        [-2.0618e-03,  9.7871e-05,  0.0000e+00,  ..., -5.9605e-07,
+          4.9889e-05,  2.5773e-04],
+        [ 8.7309e-04,  1.4079e-04,  0.0000e+00,  ..., -7.6294e-04,
+          1.8573e-04, -1.0133e-04]], device='cuda:0')
+Epoch 16, bias, value: tensor([ 0.0228, -0.0155,  0.0130, -0.0197,  0.0287,  0.0171,  0.0017, -0.0114,
+        -0.0177, -0.0026], device='cuda:0'), grad: tensor([-0.0067, -0.0007,  0.0017,  0.0028,  0.0017, -0.0011,  0.0047, -0.0005,
+        -0.0022,  0.0005], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 15----------------------------------------------------
+epoch 15, time 222.53, cls_loss 0.0405 cls_loss_mapping 0.0761 cls_loss_causal 0.9295 re_mapping 0.0297 re_causal 0.0825 /// teacc 98.59 lr 0.00010000
+Epoch 17, weight, value: tensor([[-0.0523,  0.0580,  0.0215,  ..., -0.0499, -0.0047, -0.0117],
+        [-0.0043, -0.0073, -0.0160,  ...,  0.0121,  0.0019, -0.0120],
+        [-0.0470, -0.0469, -0.0024,  ...,  0.0080, -0.0056,  0.0049],
+        ...,
+        [ 0.0226,  0.0229,  0.0014,  ..., -0.0071,  0.0263,  0.0239],
+        [ 0.0255, -0.0100,  0.0071,  ...,  0.0118,  0.0153, -0.0015],
+        [-0.0422, -0.0010, -0.0190,  ...,  0.0475, -0.0695,  0.0156]],
+       device='cuda:0'), grad: tensor([[ 8.8155e-05, -1.9526e-04,  0.0000e+00,  ...,  8.3685e-05,
+         -2.6062e-05, -1.9297e-06],
+        [-1.2903e-03,  2.3749e-06,  0.0000e+00,  ..., -1.6613e-03,
+         -1.2321e-03, -5.2071e-04],
+        [ 4.6945e-04,  2.9624e-05,  0.0000e+00,  ...,  5.7316e-04,
+          6.2990e-04,  3.0184e-04],
+        ...,
+        [ 3.5381e-04, -9.4771e-06,  0.0000e+00,  ...,  5.7173e-04,
+          3.7408e-04,  2.5773e-04],
+        [ 5.7077e-04,  5.0180e-06,  0.0000e+00,  ...,  7.0620e-04,
+         -6.0558e-05,  2.9135e-04],
+        [ 2.7990e-04,  3.0577e-05,  0.0000e+00,  ..., -7.7629e-04,
+          2.3812e-05, -8.9455e-04]], device='cuda:0')
+Epoch 17, bias, value: tensor([ 0.0229, -0.0156,  0.0126, -0.0197,  0.0284,  0.0168,  0.0020, -0.0111,
+        -0.0174, -0.0026], device='cuda:0'), grad: tensor([ 6.4373e-05, -4.6043e-03,  1.9817e-03,  4.8041e-04,  3.5477e-04,
+        -1.0061e-03,  1.5345e-03,  1.4563e-03,  3.6716e-04, -6.2704e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 16, time 221.28, cls_loss 0.0343 cls_loss_mapping 0.0651 cls_loss_causal 0.8965 re_mapping 0.0283 re_causal 0.0798 /// teacc 98.34 lr 0.00010000
+Epoch 18, weight, value: tensor([[-0.0527,  0.0588,  0.0215,  ..., -0.0506, -0.0049, -0.0118],
+        [-0.0037, -0.0080, -0.0160,  ...,  0.0126,  0.0018, -0.0129],
+        [-0.0481, -0.0478, -0.0024,  ...,  0.0075, -0.0058,  0.0043],
+        ...,
+        [ 0.0230,  0.0230,  0.0014,  ..., -0.0075,  0.0267,  0.0242],
+        [ 0.0263, -0.0096,  0.0071,  ...,  0.0112,  0.0155, -0.0017],
+        [-0.0429, -0.0007, -0.0190,  ...,  0.0481, -0.0711,  0.0163]],
+       device='cuda:0'), grad: tensor([[ 2.7680e-04, -9.0241e-05,  0.0000e+00,  ...,  1.3649e-04,
+          1.2839e-04,  1.7035e-04],
+        [-1.6193e-03,  1.3016e-05,  0.0000e+00,  ..., -1.9627e-03,
+         -1.2894e-03, -9.7466e-04],
+        [ 5.1737e-05,  2.6286e-05,  0.0000e+00,  ...,  3.1304e-04,
+          3.4630e-05,  4.5109e-04],
+        ...,
+        [ 2.1183e-04, -2.8920e-04,  0.0000e+00,  ...,  8.9025e-04,
+          6.5231e-04,  4.7350e-04],
+        [ 4.9162e-04,  2.8074e-05,  0.0000e+00,  ...,  3.6812e-04,
+          1.0860e-04,  1.1134e-04],
+        [ 2.0301e-04,  8.2552e-05,  0.0000e+00,  ..., -7.5150e-04,
+          6.5267e-05, -8.1539e-04]], device='cuda:0')
+Epoch 18, bias, value: tensor([ 0.0227, -0.0154,  0.0123, -0.0197,  0.0284,  0.0170,  0.0017, -0.0111,
+        -0.0171, -0.0025], device='cuda:0'), grad: tensor([ 0.0005, -0.0044, -0.0004,  0.0010,  0.0007,  0.0195, -0.0193,  0.0019,
+         0.0008, -0.0005], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 17, time 221.34, cls_loss 0.0330 cls_loss_mapping 0.0648 cls_loss_causal 0.9057 re_mapping 0.0267 re_causal 0.0775 /// teacc 98.37 lr 0.00010000
+Epoch 19, weight, value: tensor([[-0.0533,  0.0599,  0.0215,  ..., -0.0509, -0.0055, -0.0112],
+        [-0.0035, -0.0088, -0.0160,  ...,  0.0126,  0.0022, -0.0127],
+        [-0.0483, -0.0486, -0.0024,  ...,  0.0073, -0.0057,  0.0035],
+        ...,
+        [ 0.0229,  0.0232,  0.0014,  ..., -0.0084,  0.0272,  0.0245],
+        [ 0.0266, -0.0100,  0.0071,  ...,  0.0115,  0.0152, -0.0020],
+        [-0.0433, -0.0012, -0.0190,  ...,  0.0485, -0.0726,  0.0166]],
+       device='cuda:0'), grad: tensor([[ 8.3208e-05, -2.7847e-04,  0.0000e+00,  ...,  1.0031e-04,
+         -2.1145e-05, -3.6180e-05],
+        [-1.4601e-03,  8.8587e-06,  0.0000e+00,  ..., -1.4009e-03,
+          1.0538e-04,  5.8293e-05],
+        [ 5.8442e-05,  4.1664e-05,  0.0000e+00,  ...,  1.3959e-04,
+         -4.9829e-04,  7.5877e-05],
+        ...,
+        [ 8.0228e-05, -3.6061e-05,  0.0000e+00,  ...,  2.8801e-04,
+         -1.4579e-04, -1.0443e-04],
+        [ 9.4032e-04,  1.3448e-05,  0.0000e+00,  ...,  1.4725e-03,
+          3.3402e-04,  9.0075e-04],
+        [-5.1260e-04,  4.8816e-05,  0.0000e+00,  ..., -1.8234e-03,
+          1.4591e-04, -1.4648e-03]], device='cuda:0')
+Epoch 19, bias, value: tensor([ 0.0228, -0.0152,  0.0124, -0.0197,  0.0284,  0.0169,  0.0015, -0.0114,
+        -0.0169, -0.0026], device='cuda:0'), grad: tensor([-8.8960e-06, -2.0504e-03, -5.3930e-04,  1.5509e-04,  7.0858e-04,
+         5.4073e-04,  5.7173e-04,  2.1386e-04,  2.5806e-03, -2.1744e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 18, time 221.23, cls_loss 0.0323 cls_loss_mapping 0.0640 cls_loss_causal 0.9150 re_mapping 0.0256 re_causal 0.0750 /// teacc 98.37 lr 0.00010000
+Epoch 20, weight, value: tensor([[-0.0540,  0.0614,  0.0215,  ..., -0.0511, -0.0053, -0.0108],
+        [-0.0037, -0.0097, -0.0160,  ...,  0.0129,  0.0019, -0.0131],
+        [-0.0488, -0.0494, -0.0024,  ...,  0.0071, -0.0054,  0.0028],
+        ...,
+        [ 0.0235,  0.0234,  0.0014,  ..., -0.0092,  0.0278,  0.0250],
+        [ 0.0269, -0.0105,  0.0071,  ...,  0.0111,  0.0148, -0.0027],
+        [-0.0439, -0.0014, -0.0190,  ...,  0.0490, -0.0745,  0.0170]],
+       device='cuda:0'), grad: tensor([[ 1.9431e-04, -7.9632e-05,  0.0000e+00,  ...,  1.0687e-04,
+          9.5189e-05,  1.3041e-04],
+        [ 7.4615e-03,  6.5416e-06,  0.0000e+00,  ...,  3.6836e-04,
+          2.8362e-03,  2.3890e-04],
+        [ 5.5361e-04,  5.0366e-05,  0.0000e+00,  ...,  3.7813e-04,
+          1.7774e-04,  1.5891e-04],
+        ...,
+        [-8.9798e-03, -1.4806e-04,  0.0000e+00,  ...,  1.3256e-03,
+         -5.0247e-05,  1.5821e-03],
+        [-8.9798e-03,  6.1765e-06,  0.0000e+00,  ...,  7.0286e-04,
+         -3.2272e-03,  7.1526e-04],
+        [-1.5283e-04,  1.2457e-04,  0.0000e+00,  ..., -6.4850e-03,
+         -5.3940e-03, -8.5220e-03]], device='cuda:0')
+Epoch 20, bias, value: tensor([ 0.0232, -0.0155,  0.0127, -0.0198,  0.0283,  0.0169,  0.0013, -0.0112,
+        -0.0168, -0.0027], device='cuda:0'), grad: tensor([ 0.0004,  0.0104,  0.0010,  0.0084,  0.0078,  0.0022,  0.0010, -0.0053,
+        -0.0119, -0.0140], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 19, time 221.32, cls_loss 0.0314 cls_loss_mapping 0.0634 cls_loss_causal 0.8812 re_mapping 0.0250 re_causal 0.0728 /// teacc 98.28 lr 0.00010000
+Epoch 21, weight, value: tensor([[-0.0548,  0.0624,  0.0215,  ..., -0.0514, -0.0053, -0.0108],
+        [-0.0037, -0.0102, -0.0160,  ...,  0.0130,  0.0019, -0.0137],
+        [-0.0496, -0.0507, -0.0024,  ...,  0.0067, -0.0054,  0.0024],
+        ...,
+        [ 0.0241,  0.0236,  0.0014,  ..., -0.0098,  0.0283,  0.0254],
+        [ 0.0273, -0.0107,  0.0071,  ...,  0.0107,  0.0146, -0.0031],
+        [-0.0447, -0.0017, -0.0190,  ...,  0.0496, -0.0756,  0.0176]],
+       device='cuda:0'), grad: tensor([[ 8.5950e-05, -8.2970e-04,  0.0000e+00,  ...,  1.7285e-05,
+         -2.2995e-04, -1.2755e-04],
+        [-5.0497e-04,  5.1588e-05,  0.0000e+00,  ..., -2.7871e-04,
+          4.2200e-04,  1.3983e-04],
+        [ 2.2340e-04,  2.1231e-04,  0.0000e+00,  ...,  7.3791e-05,
+         -4.5466e-04,  6.6817e-05],
+        ...,
+        [ 8.1968e-04,  2.7871e-04,  0.0000e+00,  ...,  5.4789e-04,
+          8.2493e-04,  1.0128e-03],
+        [ 3.2616e-04,  6.5327e-05,  0.0000e+00,  ...,  1.8668e-04,
+          5.3453e-04,  8.6737e-04],
+        [ 1.0222e-04,  6.4373e-05,  0.0000e+00,  ..., -4.4322e-04,
+          2.6169e-03,  2.4757e-03]], device='cuda:0')
+Epoch 21, bias, value: tensor([ 0.0229, -0.0156,  0.0125, -0.0203,  0.0284,  0.0171,  0.0013, -0.0108,
+        -0.0165, -0.0028], device='cuda:0'), grad: tensor([-5.7459e-04, -2.8920e-04, -4.3058e-04, -5.3139e-03, -5.7459e-05,
+        -3.5620e-04,  7.7963e-04,  2.1324e-03,  1.2169e-03,  2.8973e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 20, time 221.31, cls_loss 0.0286 cls_loss_mapping 0.0520 cls_loss_causal 0.9051 re_mapping 0.0227 re_causal 0.0712 /// teacc 98.38 lr 0.00010000
+Epoch 22, weight, value: tensor([[-0.0553,  0.0633,  0.0215,  ..., -0.0508, -0.0056, -0.0106],
+        [-0.0040, -0.0107, -0.0160,  ...,  0.0130,  0.0018, -0.0142],
+        [-0.0504, -0.0512, -0.0024,  ...,  0.0063, -0.0053,  0.0018],
+        ...,
+        [ 0.0240,  0.0238,  0.0014,  ..., -0.0104,  0.0283,  0.0255],
+        [ 0.0276, -0.0101,  0.0071,  ...,  0.0100,  0.0147, -0.0033],
+        [-0.0450, -0.0020, -0.0190,  ...,  0.0501, -0.0772,  0.0183]],
+       device='cuda:0'), grad: tensor([[ 1.0121e-04, -3.4761e-04,  0.0000e+00,  ...,  2.0516e-04,
+         -1.6773e-04, -2.4414e-04],
+        [-8.0526e-05,  1.8343e-05,  0.0000e+00,  ..., -1.2636e-04,
+          3.5524e-05,  2.8357e-05],
+        [ 5.1856e-05,  7.6771e-05,  0.0000e+00,  ...,  1.0157e-04,
+          7.2837e-05,  5.8979e-05],
+        ...,
+        [ 1.4350e-05,  2.2039e-05,  0.0000e+00,  ...,  3.7402e-05,
+          5.2154e-05,  7.1347e-05],
+        [ 2.4724e-04,  8.2850e-05,  0.0000e+00,  ...,  1.8859e-04,
+          6.2227e-05,  9.6202e-05],
+        [ 4.4048e-05,  8.2433e-05,  0.0000e+00,  ..., -1.4269e-04,
+          8.5771e-05, -1.0371e-04]], device='cuda:0')
+Epoch 22, bias, value: tensor([ 0.0230, -0.0159,  0.0123, -0.0196,  0.0284,  0.0166,  0.0012, -0.0113,
+        -0.0164, -0.0023], device='cuda:0'), grad: tensor([-1.2124e-04, -1.5187e-04,  2.4748e-04,  2.1422e-04,  3.8338e-04,
+         3.0369e-05, -1.3084e-03,  1.1969e-04,  5.8079e-04,  6.0089e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 21----------------------------------------------------
+epoch 21, time 222.31, cls_loss 0.0292 cls_loss_mapping 0.0582 cls_loss_causal 0.8706 re_mapping 0.0225 re_causal 0.0687 /// teacc 98.73 lr 0.00010000
+Epoch 23, weight, value: tensor([[-0.0559,  0.0643,  0.0215,  ..., -0.0511, -0.0058, -0.0103],
+        [-0.0042, -0.0112, -0.0160,  ...,  0.0131,  0.0011, -0.0151],
+        [-0.0512, -0.0517, -0.0024,  ...,  0.0060, -0.0053,  0.0011],
+        ...,
+        [ 0.0246,  0.0241,  0.0014,  ..., -0.0111,  0.0289,  0.0259],
+        [ 0.0277, -0.0105,  0.0071,  ...,  0.0095,  0.0144, -0.0039],
+        [-0.0454, -0.0025, -0.0190,  ...,  0.0504, -0.0785,  0.0187]],
+       device='cuda:0'), grad: tensor([[ 3.8266e-05, -2.5773e-04,  0.0000e+00,  ...,  3.2276e-05,
+         -3.5346e-05, -1.7092e-05],
+        [-2.1088e-04,  7.9274e-06,  0.0000e+00,  ..., -9.8228e-05,
+          3.1769e-05,  5.6475e-05],
+        [ 5.9277e-05,  5.8591e-05,  0.0000e+00,  ...,  3.5971e-05,
+         -3.8433e-04,  4.5985e-05],
+        ...,
+        [-1.9813e-04, -4.6194e-05,  0.0000e+00,  ...,  1.9395e-04,
+          6.4850e-05, -1.6677e-04],
+        [ 9.6202e-05,  3.5912e-05,  0.0000e+00,  ...,  8.6367e-05,
+          8.2254e-05,  9.3400e-05],
+        [ 1.9336e-04,  5.8353e-05,  0.0000e+00,  ..., -6.4659e-03,
+         -6.5422e-04, -7.2327e-03]], device='cuda:0')
+Epoch 23, bias, value: tensor([ 0.0230, -0.0164,  0.0121, -0.0198,  0.0288,  0.0169,  0.0010, -0.0108,
+        -0.0163, -0.0025], device='cuda:0'), grad: tensor([-6.5863e-05, -1.8454e-04, -5.2881e-04,  1.1116e-02,  4.5443e-04,
+         6.0976e-05,  9.3699e-05,  1.5509e-04,  2.7657e-04, -1.1375e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 22, time 221.47, cls_loss 0.0250 cls_loss_mapping 0.0526 cls_loss_causal 0.8822 re_mapping 0.0222 re_causal 0.0668 /// teacc 98.56 lr 0.00010000
+Epoch 24, weight, value: tensor([[-0.0565,  0.0651,  0.0215,  ..., -0.0512, -0.0053, -0.0103],
+        [-0.0039, -0.0118, -0.0160,  ...,  0.0138,  0.0013, -0.0145],
+        [-0.0519, -0.0524, -0.0024,  ...,  0.0053, -0.0054,  0.0005],
+        ...,
+        [ 0.0252,  0.0244,  0.0014,  ..., -0.0118,  0.0289,  0.0261],
+        [ 0.0278, -0.0107,  0.0071,  ...,  0.0089,  0.0143, -0.0046],
+        [-0.0458, -0.0027, -0.0190,  ...,  0.0512, -0.0801,  0.0190]],
+       device='cuda:0'), grad: tensor([[ 2.4188e-04,  1.4031e-04,  0.0000e+00,  ...,  1.1396e-04,
+          3.1447e-04,  3.2377e-04],
+        [ 2.2447e-04,  3.3766e-05,  0.0000e+00,  ...,  3.9935e-04,
+          1.1253e-04,  2.0671e-04],
+        [ 9.2566e-05,  2.4021e-05,  0.0000e+00,  ...,  1.1420e-04,
+         -7.1573e-04,  5.4866e-05],
+        ...,
+        [-6.8331e-04, -6.4993e-04,  0.0000e+00,  ...,  6.1035e-04,
+         -1.4997e-04, -3.6240e-04],
+        [ 4.4942e-04,  7.1108e-05,  0.0000e+00,  ...,  5.8222e-04,
+          2.8491e-04,  2.4152e-04],
+        [-6.7997e-04,  2.6536e-04,  0.0000e+00,  ..., -1.0887e-02,
+          1.5414e-04, -3.8185e-03]], device='cuda:0')
+Epoch 24, bias, value: tensor([ 0.0229, -0.0159,  0.0119, -0.0198,  0.0286,  0.0167,  0.0014, -0.0109,
+        -0.0164, -0.0024], device='cuda:0'), grad: tensor([ 0.0010,  0.0007, -0.0013,  0.0015,  0.0087, -0.0009, -0.0012, -0.0007,
+         0.0014, -0.0092], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 23, time 221.35, cls_loss 0.0205 cls_loss_mapping 0.0444 cls_loss_causal 0.8495 re_mapping 0.0209 re_causal 0.0642 /// teacc 98.60 lr 0.00010000
+Epoch 25, weight, value: tensor([[-5.7242e-02,  6.6043e-02,  2.1474e-02,  ..., -5.1369e-02,
+         -4.6786e-03, -1.0276e-02],
+        [-3.5799e-03, -1.2495e-02, -1.6035e-02,  ...,  1.4097e-02,
+          8.7243e-04, -1.4583e-02],
+        [-5.2669e-02, -5.2875e-02, -2.3694e-03,  ...,  4.7535e-03,
+         -5.3805e-03, -7.5696e-05],
+        ...,
+        [ 2.5545e-02,  2.4855e-02,  1.4217e-03,  ..., -1.2643e-02,
+          2.9314e-02,  2.6116e-02],
+        [ 2.8137e-02, -1.1221e-02,  7.1494e-03,  ...,  8.7158e-03,
+          1.4116e-02, -4.9226e-03],
+        [-4.6163e-02, -3.1379e-03, -1.9007e-02,  ...,  5.1910e-02,
+         -8.1943e-02,  1.9632e-02]], device='cuda:0'), grad: tensor([[ 1.1671e-04, -1.8978e-04,  0.0000e+00,  ...,  6.8784e-05,
+          4.9782e-04,  2.1386e-04],
+        [-4.7874e-03,  8.8662e-06,  0.0000e+00,  ..., -5.4626e-03,
+         -3.5114e-03, -6.2103e-03],
+        [ 3.0971e-04,  3.8087e-05,  0.0000e+00,  ...,  2.0587e-04,
+         -3.4943e-03, -9.0647e-04],
+        ...,
+        [-5.5170e-04, -4.3058e-04,  0.0000e+00,  ...,  9.1791e-04,
+          7.2050e-04, -8.6641e-04],
+        [ 5.7411e-04,  3.7611e-05,  0.0000e+00,  ...,  1.0414e-03,
+          7.8440e-04,  1.0872e-03],
+        [ 3.0155e-03,  2.4509e-04,  0.0000e+00,  ...,  1.5745e-03,
+          2.8877e-03,  4.2038e-03]], device='cuda:0')
+Epoch 25, bias, value: tensor([ 0.0231, -0.0160,  0.0117, -0.0200,  0.0285,  0.0169,  0.0011, -0.0110,
+        -0.0162, -0.0022], device='cuda:0'), grad: tensor([ 0.0007, -0.0137, -0.0039,  0.0028,  0.0008,  0.0015,  0.0008,  0.0012,
+         0.0026,  0.0073], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 24, time 221.03, cls_loss 0.0180 cls_loss_mapping 0.0395 cls_loss_causal 0.8501 re_mapping 0.0209 re_causal 0.0649 /// teacc 98.70 lr 0.00010000
+Epoch 26, weight, value: tensor([[-0.0577,  0.0669,  0.0215,  ..., -0.0514, -0.0049, -0.0102],
+        [-0.0034, -0.0130, -0.0160,  ...,  0.0141,  0.0008, -0.0150],
+        [-0.0533, -0.0535, -0.0024,  ...,  0.0044, -0.0053, -0.0004],
+        ...,
+        [ 0.0260,  0.0253,  0.0014,  ..., -0.0131,  0.0297,  0.0265],
+        [ 0.0282, -0.0117,  0.0071,  ...,  0.0082,  0.0138, -0.0054],
+        [-0.0467, -0.0035, -0.0190,  ...,  0.0524, -0.0839,  0.0200]],
+       device='cuda:0'), grad: tensor([[ 1.3578e-04, -2.2221e-04,  0.0000e+00,  ...,  1.4400e-04,
+         -2.6718e-05, -6.1989e-06],
+        [ 1.3089e-04,  7.8827e-06,  0.0000e+00,  ..., -4.1872e-05,
+          9.7871e-05,  4.9978e-05],
+        [ 5.6863e-05,  5.2184e-05,  0.0000e+00,  ...,  2.8104e-05,
+          2.0355e-05,  3.9518e-05],
+        ...,
+        [-4.1306e-05, -9.7990e-05,  0.0000e+00,  ...,  9.0539e-05,
+         -3.5733e-05, -7.7367e-05],
+        [ 3.3617e-04,  2.4974e-05,  0.0000e+00,  ..., -3.2926e-04,
+         -2.4259e-04, -1.9014e-04],
+        [ 1.1688e-04,  1.3721e-04,  0.0000e+00,  ..., -3.4571e-05,
+          1.1373e-04, -1.3912e-04]], device='cuda:0')
+Epoch 26, bias, value: tensor([ 0.0230, -0.0159,  0.0118, -0.0199,  0.0283,  0.0170,  0.0011, -0.0108,
+        -0.0164, -0.0023], device='cuda:0'), grad: tensor([ 2.2304e-04,  4.6277e-04,  9.2208e-05,  1.1063e-03,  9.4891e-05,
+         1.7796e-03, -3.3169e-03,  2.6196e-05, -7.0858e-04,  2.3973e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 25, time 221.56, cls_loss 0.0217 cls_loss_mapping 0.0452 cls_loss_causal 0.8418 re_mapping 0.0202 re_causal 0.0643 /// teacc 98.52 lr 0.00010000
+Epoch 27, weight, value: tensor([[-0.0585,  0.0674,  0.0215,  ..., -0.0518, -0.0051, -0.0104],
+        [-0.0030, -0.0136, -0.0160,  ...,  0.0144,  0.0006, -0.0144],
+        [-0.0536, -0.0538, -0.0024,  ...,  0.0041, -0.0049, -0.0009],
+        ...,
+        [ 0.0266,  0.0255,  0.0014,  ..., -0.0135,  0.0297,  0.0267],
+        [ 0.0286, -0.0122,  0.0071,  ...,  0.0080,  0.0136, -0.0056],
+        [-0.0473, -0.0038, -0.0190,  ...,  0.0526, -0.0850,  0.0201]],
+       device='cuda:0'), grad: tensor([[ 6.4194e-05, -4.2009e-04,  0.0000e+00,  ...,  1.8048e-04,
+         -2.3329e-04, -8.5175e-05],
+        [ 1.7846e-04,  2.4647e-05,  0.0000e+00,  ...,  4.6164e-05,
+          2.7990e-04,  2.5916e-04],
+        [ 1.2529e-04,  4.5151e-05,  0.0000e+00,  ...,  1.1861e-04,
+          2.2173e-04,  2.5463e-04],
+        ...,
+        [ 5.2786e-04, -1.8156e-04,  0.0000e+00,  ...,  4.7135e-04,
+         -8.3208e-04, -9.5701e-04],
+        [ 3.8326e-05,  3.0458e-05,  0.0000e+00,  ..., -8.8644e-04,
+         -2.9635e-04, -1.5230e-03],
+        [ 7.3004e-04,  1.1194e-04,  0.0000e+00,  ...,  6.2084e-04,
+          8.0633e-04,  1.1702e-03]], device='cuda:0')
+Epoch 27, bias, value: tensor([ 0.0225, -0.0159,  0.0120, -0.0196,  0.0284,  0.0167,  0.0014, -0.0108,
+        -0.0162, -0.0026], device='cuda:0'), grad: tensor([ 0.0002,  0.0006,  0.0007,  0.0013, -0.0016,  0.0007, -0.0002, -0.0006,
+        -0.0049,  0.0038], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 26----------------------------------------------------
+epoch 26, time 221.92, cls_loss 0.0208 cls_loss_mapping 0.0435 cls_loss_causal 0.8071 re_mapping 0.0190 re_causal 0.0591 /// teacc 98.87 lr 0.00010000
+Epoch 28, weight, value: tensor([[-0.0590,  0.0680,  0.0215,  ..., -0.0517, -0.0048, -0.0105],
+        [-0.0032, -0.0143, -0.0160,  ...,  0.0144,  0.0007, -0.0149],
+        [-0.0542, -0.0547, -0.0024,  ...,  0.0038, -0.0050, -0.0015],
+        ...,
+        [ 0.0272,  0.0257,  0.0014,  ..., -0.0140,  0.0303,  0.0269],
+        [ 0.0289, -0.0128,  0.0071,  ...,  0.0076,  0.0131, -0.0054],
+        [-0.0480, -0.0032, -0.0190,  ...,  0.0529, -0.0864,  0.0204]],
+       device='cuda:0'), grad: tensor([[ 5.8979e-05, -4.3273e-04,  0.0000e+00,  ...,  6.4909e-05,
+         -4.8250e-05, -1.5783e-04],
+        [ 4.9233e-05,  6.8545e-06,  0.0000e+00,  ...,  3.1561e-05,
+          1.4156e-05,  6.2808e-06],
+        [ 4.5985e-05,  4.2170e-05,  0.0000e+00,  ...,  2.4512e-05,
+         -8.3208e-05,  1.9938e-05],
+        ...,
+        [ 1.1450e-04,  3.7923e-06,  0.0000e+00,  ...,  1.7035e-04,
+          6.5491e-06,  3.2693e-05],
+        [-5.0187e-05,  4.0591e-05,  0.0000e+00,  ...,  8.8453e-05,
+         -1.2945e-06,  4.2737e-05],
+        [ 1.2994e-04,  1.0192e-04,  0.0000e+00,  ..., -1.9372e-07,
+          3.6240e-05, -7.0930e-05]], device='cuda:0')
+Epoch 28, bias, value: tensor([ 0.0224, -0.0161,  0.0120, -0.0201,  0.0286,  0.0168,  0.0014, -0.0106,
+        -0.0159, -0.0027], device='cuda:0'), grad: tensor([-3.1757e-04,  9.8228e-05,  8.3447e-07,  1.5223e-04, -7.7710e-06,
+         1.2517e-04, -3.6216e-04,  2.3365e-04, -1.1969e-04,  1.9693e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 27, time 221.23, cls_loss 0.0164 cls_loss_mapping 0.0368 cls_loss_causal 0.8083 re_mapping 0.0191 re_causal 0.0601 /// teacc 98.76 lr 0.00010000
+Epoch 29, weight, value: tensor([[-5.9608e-02,  6.8900e-02,  2.1474e-02,  ..., -5.1820e-02,
+         -4.8102e-03, -1.0217e-02],
+        [-3.1428e-03, -1.4941e-02, -1.6035e-02,  ...,  1.4709e-02,
+          7.7120e-05, -1.5244e-02],
+        [-5.4266e-02, -5.5666e-02, -2.3694e-03,  ...,  3.2383e-03,
+         -4.2649e-03, -2.1302e-03],
+        ...,
+        [ 2.7268e-02,  2.6016e-02,  1.4217e-03,  ..., -1.4595e-02,
+          3.0371e-02,  2.6945e-02],
+        [ 2.9114e-02, -1.3270e-02,  7.1494e-03,  ...,  7.2195e-03,
+          1.2816e-02, -5.6487e-03],
+        [-4.8255e-02, -3.1679e-03, -1.9007e-02,  ...,  5.3250e-02,
+         -8.7291e-02,  2.0705e-02]], device='cuda:0'), grad: tensor([[ 2.3246e-04, -4.6539e-04,  0.0000e+00,  ...,  5.6887e-04,
+          4.8041e-05, -4.9353e-05],
+        [-8.5115e-05,  2.4229e-05,  0.0000e+00,  ..., -1.5438e-04,
+          2.0519e-05,  2.3112e-05],
+        [ 1.0687e-04,  1.5545e-04,  0.0000e+00,  ...,  2.0909e-04,
+          1.1969e-04,  9.0420e-05],
+        ...,
+        [-6.4149e-06,  2.8670e-05,  0.0000e+00,  ...,  1.0484e-04,
+          8.8736e-06, -1.9506e-05],
+        [-1.6257e-05,  5.1439e-05,  0.0000e+00,  ...,  1.4842e-04,
+          2.3723e-05,  7.0870e-05],
+        [ 2.3758e-04,  1.5342e-04,  0.0000e+00,  ...,  3.1233e-04,
+          4.6802e-04,  2.2733e-04]], device='cuda:0')
+Epoch 29, bias, value: tensor([ 0.0225, -0.0165,  0.0125, -0.0201,  0.0289,  0.0166,  0.0014, -0.0110,
+        -0.0158, -0.0027], device='cuda:0'), grad: tensor([ 5.9223e-04, -1.9848e-04,  6.3086e-04, -2.8419e-03,  2.4815e-03,
+         1.4210e-03, -3.6526e-03,  1.3745e-04,  7.5161e-05,  1.3533e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 28, time 221.58, cls_loss 0.0155 cls_loss_mapping 0.0351 cls_loss_causal 0.7662 re_mapping 0.0183 re_causal 0.0564 /// teacc 98.67 lr 0.00010000
+Epoch 30, weight, value: tensor([[-6.0235e-02,  6.9886e-02,  2.1474e-02,  ..., -5.1922e-02,
+         -4.8931e-03, -9.7667e-03],
+        [-2.9859e-03, -1.5341e-02, -1.6035e-02,  ...,  1.5390e-02,
+         -8.1908e-05, -1.5872e-02],
+        [-5.4863e-02, -5.6175e-02, -2.3694e-03,  ...,  2.9079e-03,
+         -4.2371e-03, -2.5689e-03],
+        ...,
+        [ 2.7616e-02,  2.6457e-02,  1.4217e-03,  ..., -1.5213e-02,
+          3.0804e-02,  2.7380e-02],
+        [ 2.9388e-02, -1.3704e-02,  7.1494e-03,  ...,  6.9659e-03,
+          1.2675e-02, -6.0729e-03],
+        [-4.8932e-02, -3.5080e-03, -1.9007e-02,  ...,  5.3486e-02,
+         -8.8450e-02,  2.0943e-02]], device='cuda:0'), grad: tensor([[ 3.9887e-04, -7.4148e-04,  0.0000e+00,  ...,  2.8044e-05,
+         -1.1069e-04, -2.0432e-04],
+        [-8.3017e-04,  4.1157e-05,  0.0000e+00,  ..., -7.5936e-05,
+         -1.3876e-03,  3.6031e-05],
+        [ 7.8440e-04,  2.6870e-04,  0.0000e+00,  ...,  1.0753e-04,
+          1.1578e-03,  1.2201e-04],
+        ...,
+        [-6.0701e-04, -4.2796e-04,  0.0000e+00,  ...,  8.0705e-05,
+         -1.6212e-04, -3.7599e-04],
+        [ 1.6749e-04,  1.6379e-04,  0.0000e+00,  ...,  3.4750e-05,
+          1.3840e-04,  1.2153e-04],
+        [ 2.9182e-04,  2.7704e-04,  0.0000e+00,  ..., -1.2207e-04,
+          1.7154e-04,  6.2585e-05]], device='cuda:0')
+Epoch 30, bias, value: tensor([ 0.0225, -0.0163,  0.0123, -0.0204,  0.0291,  0.0167,  0.0014, -0.0107,
+        -0.0158, -0.0030], device='cuda:0'), grad: tensor([-0.0006, -0.0033,  0.0030,  0.0007,  0.0002, -0.0009,  0.0006, -0.0007,
+         0.0004,  0.0005], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 29, time 220.98, cls_loss 0.0178 cls_loss_mapping 0.0387 cls_loss_causal 0.7877 re_mapping 0.0180 re_causal 0.0550 /// teacc 98.85 lr 0.00010000
+Epoch 31, weight, value: tensor([[-0.0610,  0.0706,  0.0215,  ..., -0.0522, -0.0045, -0.0094],
+        [-0.0032, -0.0159, -0.0160,  ...,  0.0153, -0.0006, -0.0166],
+        [-0.0552, -0.0571, -0.0024,  ...,  0.0027, -0.0039, -0.0031],
+        ...,
+        [ 0.0289,  0.0268,  0.0014,  ..., -0.0157,  0.0320,  0.0281],
+        [ 0.0297, -0.0143,  0.0071,  ...,  0.0068,  0.0118, -0.0066],
+        [-0.0494, -0.0033, -0.0190,  ...,  0.0543, -0.0904,  0.0214]],
+       device='cuda:0'), grad: tensor([[ 1.6963e-04, -1.1539e-04,  0.0000e+00,  ...,  2.1601e-04,
+         -4.8459e-05, -5.9366e-05],
+        [-8.8394e-05,  2.3633e-05,  0.0000e+00,  ...,  2.4572e-05,
+          3.9712e-06,  2.9296e-05],
+        [ 9.7752e-05,  4.3780e-05,  0.0000e+00,  ...,  8.6486e-05,
+          2.1905e-05,  3.8594e-05],
+        ...,
+        [-2.5535e-04, -1.7655e-04,  0.0000e+00,  ...,  3.4899e-05,
+         -1.5092e-04, -2.3866e-04],
+        [ 2.4509e-04,  1.2469e-04,  0.0000e+00,  ...,  2.9945e-04,
+          9.7096e-05,  9.0778e-05],
+        [ 1.7107e-04,  1.0687e-04,  0.0000e+00,  ...,  1.2338e-04,
+          1.3065e-04,  1.4031e-04]], device='cuda:0')
+Epoch 31, bias, value: tensor([ 0.0224, -0.0165,  0.0127, -0.0206,  0.0286,  0.0168,  0.0008, -0.0100,
+        -0.0158, -0.0028], device='cuda:0'), grad: tensor([ 2.0432e-04, -6.3002e-05,  1.8549e-04, -2.8682e-04,  2.0275e-03,
+         1.8191e-04, -3.1414e-03, -3.5357e-04,  7.3671e-04,  5.0974e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 30, time 221.50, cls_loss 0.0147 cls_loss_mapping 0.0345 cls_loss_causal 0.7589 re_mapping 0.0180 re_causal 0.0547 /// teacc 98.85 lr 0.00010000
+Epoch 32, weight, value: tensor([[-0.0614,  0.0713,  0.0215,  ..., -0.0522, -0.0038, -0.0094],
+        [-0.0033, -0.0169, -0.0160,  ...,  0.0154, -0.0009, -0.0170],
+        [-0.0558, -0.0579, -0.0024,  ...,  0.0024, -0.0038, -0.0035],
+        ...,
+        [ 0.0291,  0.0269,  0.0014,  ..., -0.0163,  0.0320,  0.0278],
+        [ 0.0299, -0.0147,  0.0071,  ...,  0.0064,  0.0113, -0.0073],
+        [-0.0497, -0.0030, -0.0190,  ...,  0.0545, -0.0914,  0.0221]],
+       device='cuda:0'), grad: tensor([[ 1.0026e-04, -1.8883e-04,  0.0000e+00,  ...,  3.3319e-05,
+         -1.3396e-05, -9.7394e-05],
+        [ 1.2314e-04,  3.6899e-06,  0.0000e+00,  ...,  6.1393e-05,
+          6.1333e-05,  5.4926e-05],
+        [ 4.9591e-05,  2.2665e-05,  0.0000e+00,  ...,  1.9148e-05,
+         -1.0049e-04,  6.5446e-05],
+        ...,
+        [ 3.6001e-05, -2.6356e-06,  0.0000e+00,  ...,  4.7415e-05,
+          1.1814e-04,  1.8287e-04],
+        [-1.9491e-04,  7.1824e-06,  0.0000e+00,  ...,  8.1301e-05,
+         -3.3259e-05, -3.6210e-05],
+        [ 1.1700e-04,  2.5004e-05,  0.0000e+00,  ...,  1.2779e-04,
+          8.8358e-04,  1.5059e-03]], device='cuda:0')
+Epoch 32, bias, value: tensor([ 0.0225, -0.0166,  0.0126, -0.0204,  0.0284,  0.0167,  0.0012, -0.0105,
+        -0.0160, -0.0022], device='cuda:0'), grad: tensor([ 0.0003,  0.0005, -0.0001, -0.0015, -0.0002,  0.0005, -0.0003,  0.0003,
+        -0.0013,  0.0019], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 31, time 221.61, cls_loss 0.0155 cls_loss_mapping 0.0341 cls_loss_causal 0.7861 re_mapping 0.0176 re_causal 0.0551 /// teacc 98.78 lr 0.00010000
+Epoch 33, weight, value: tensor([[-0.0621,  0.0718,  0.0215,  ..., -0.0525, -0.0040, -0.0093],
+        [-0.0035, -0.0172, -0.0160,  ...,  0.0158, -0.0014, -0.0168],
+        [-0.0561, -0.0583, -0.0024,  ...,  0.0022, -0.0034, -0.0039],
+        ...,
+        [ 0.0295,  0.0274,  0.0014,  ..., -0.0169,  0.0325,  0.0281],
+        [ 0.0301, -0.0150,  0.0071,  ...,  0.0061,  0.0112, -0.0075],
+        [-0.0503, -0.0034, -0.0190,  ...,  0.0547, -0.0929,  0.0223]],
+       device='cuda:0'), grad: tensor([[ 3.9250e-05, -1.2481e-04,  0.0000e+00,  ...,  6.3181e-05,
+          5.8040e-06,  6.1244e-06],
+        [ 5.3406e-04,  3.0771e-06,  0.0000e+00,  ...,  1.0407e-04,
+          4.6492e-04,  5.8889e-04],
+        [ 3.3164e-04,  3.0041e-05,  0.0000e+00,  ...,  3.6418e-05,
+          1.0204e-03,  9.9468e-04],
+        ...,
+        [-9.1791e-04, -6.1803e-06,  0.0000e+00,  ...,  4.8846e-05,
+         -2.8458e-03, -3.1013e-03],
+        [ 1.0580e-04,  2.1234e-05,  0.0000e+00,  ...,  1.7202e-04,
+          7.0751e-05,  2.4199e-04],
+        [ 5.4550e-04,  3.0786e-05,  0.0000e+00,  ..., -2.7013e-04,
+          2.9659e-04,  2.7990e-04]], device='cuda:0')
+Epoch 33, bias, value: tensor([ 0.0221, -0.0167,  0.0129, -0.0206,  0.0285,  0.0169,  0.0013, -0.0105,
+        -0.0156, -0.0026], device='cuda:0'), grad: tensor([ 5.6744e-05,  1.6975e-03,  1.7691e-03,  5.1689e-03,  8.7559e-05,
+        -5.4474e-03,  1.5163e-04, -5.0850e-03,  7.0858e-04,  8.8549e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 32, time 221.43, cls_loss 0.0150 cls_loss_mapping 0.0368 cls_loss_causal 0.7783 re_mapping 0.0168 re_causal 0.0546 /// teacc 98.70 lr 0.00010000
+Epoch 34, weight, value: tensor([[-0.0625,  0.0721,  0.0107,  ..., -0.0528, -0.0042, -0.0097],
+        [-0.0029, -0.0178, -0.0210,  ...,  0.0165, -0.0015, -0.0167],
+        [-0.0565, -0.0588, -0.0007,  ...,  0.0020, -0.0034, -0.0047],
+        ...,
+        [ 0.0295,  0.0277, -0.0062,  ..., -0.0177,  0.0331,  0.0285],
+        [ 0.0301, -0.0154, -0.0022,  ...,  0.0057,  0.0106, -0.0082],
+        [-0.0507, -0.0030, -0.0300,  ...,  0.0553, -0.0937,  0.0227]],
+       device='cuda:0'), grad: tensor([[ 3.6925e-05, -6.3705e-04,  0.0000e+00,  ..., -1.7524e-04,
+         -3.8028e-04, -7.1287e-04],
+        [ 2.9278e-03,  5.6699e-06,  0.0000e+00,  ...,  2.4452e-03,
+          1.4746e-04,  2.8953e-05],
+        [ 2.3150e-04,  4.2021e-05,  0.0000e+00,  ...,  2.4128e-04,
+          1.2791e-04,  1.1277e-04],
+        ...,
+        [ 3.7289e-04, -1.1005e-05,  0.0000e+00,  ...,  3.2687e-04,
+          1.6749e-05, -2.6360e-05],
+        [-1.2360e-03,  9.8869e-06,  0.0000e+00,  ..., -9.1553e-04,
+         -2.4068e-04, -7.1824e-05],
+        [ 4.8804e-04,  4.9782e-04,  0.0000e+00,  ...,  7.6294e-04,
+          4.8614e-04,  6.5231e-04]], device='cuda:0')
+Epoch 34, bias, value: tensor([ 0.0216, -0.0166,  0.0129, -0.0203,  0.0285,  0.0170,  0.0010, -0.0102,
+        -0.0160, -0.0024], device='cuda:0'), grad: tensor([-0.0011,  0.0034,  0.0007, -0.0002, -0.0038,  0.0005,  0.0012,  0.0005,
+        -0.0034,  0.0022], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 33, time 221.26, cls_loss 0.0153 cls_loss_mapping 0.0356 cls_loss_causal 0.7715 re_mapping 0.0164 re_causal 0.0539 /// teacc 98.84 lr 0.00010000
+Epoch 35, weight, value: tensor([[-0.0628,  0.0729,  0.0107,  ..., -0.0531, -0.0039, -0.0094],
+        [-0.0028, -0.0184, -0.0210,  ...,  0.0166, -0.0012, -0.0163],
+        [-0.0569, -0.0594, -0.0007,  ...,  0.0017, -0.0033, -0.0056],
+        ...,
+        [ 0.0296,  0.0280, -0.0062,  ..., -0.0181,  0.0330,  0.0288],
+        [ 0.0301, -0.0158, -0.0022,  ...,  0.0054,  0.0100, -0.0085],
+        [-0.0513, -0.0034, -0.0300,  ...,  0.0557, -0.0953,  0.0231]],
+       device='cuda:0'), grad: tensor([[ 2.4468e-05, -5.9336e-05,  0.0000e+00,  ...,  1.9073e-05,
+         -5.8115e-06, -1.3769e-05],
+        [ 2.2784e-05,  3.0678e-06,  0.0000e+00,  ...,  9.1851e-05,
+          2.5034e-05,  2.3574e-05],
+        [ 3.1531e-05,  8.4862e-06,  0.0000e+00,  ...,  2.8551e-05,
+          1.1750e-05,  2.7061e-05],
+        ...,
+        [ 3.9309e-05, -3.0264e-05,  0.0000e+00,  ...,  7.3433e-05,
+          3.4899e-05,  8.2105e-06],
+        [ 1.2589e-04,  5.5470e-06,  0.0000e+00,  ...,  3.5495e-05,
+          7.1764e-05,  3.0413e-05],
+        [ 2.7847e-04,  2.5854e-05,  0.0000e+00,  ...,  5.8603e-04,
+          1.1796e-04,  1.0818e-04]], device='cuda:0')
+Epoch 35, bias, value: tensor([ 0.0217, -0.0166,  0.0131, -0.0199,  0.0286,  0.0165,  0.0012, -0.0102,
+        -0.0160, -0.0028], device='cuda:0'), grad: tensor([ 3.4451e-05,  1.5855e-04,  3.0875e-05, -3.2949e-04, -9.9277e-04,
+         5.1975e-05, -5.1689e-04,  1.7905e-04,  3.6645e-04,  1.0195e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 34, time 221.34, cls_loss 0.0107 cls_loss_mapping 0.0303 cls_loss_causal 0.7347 re_mapping 0.0162 re_causal 0.0508 /// teacc 98.79 lr 0.00010000
+Epoch 36, weight, value: tensor([[-0.0632,  0.0736,  0.0107,  ..., -0.0532, -0.0034, -0.0092],
+        [-0.0027, -0.0190, -0.0209,  ...,  0.0165, -0.0014, -0.0170],
+        [-0.0572, -0.0599, -0.0008,  ...,  0.0016, -0.0030, -0.0062],
+        ...,
+        [ 0.0297,  0.0282, -0.0063,  ..., -0.0186,  0.0332,  0.0289],
+        [ 0.0303, -0.0163, -0.0022,  ...,  0.0051,  0.0096, -0.0086],
+        [-0.0517, -0.0037, -0.0300,  ...,  0.0563, -0.0966,  0.0235]],
+       device='cuda:0'), grad: tensor([[ 2.2471e-04, -8.0466e-06,  0.0000e+00,  ...,  3.4952e-04,
+         -1.4281e-04, -1.4901e-07],
+        [ 4.0442e-05,  1.7807e-05,  0.0000e+00,  ...,  4.7058e-05,
+          1.4007e-05,  1.1086e-05],
+        [ 9.2328e-05,  9.1553e-05,  0.0000e+00,  ...,  7.8142e-05,
+          4.0054e-05,  5.6684e-05],
+        ...,
+        [-4.5568e-05,  4.8243e-06,  0.0000e+00,  ...,  4.1157e-05,
+         -9.6023e-05, -1.5664e-04],
+        [ 8.5831e-05,  4.3750e-05,  0.0000e+00,  ...,  2.7120e-05,
+          6.0767e-05,  5.6088e-05],
+        [ 1.1677e-04,  5.6565e-05,  0.0000e+00,  ..., -1.1927e-04,
+          5.3734e-05, -1.9419e-04]], device='cuda:0')
+Epoch 36, bias, value: tensor([ 0.0218, -0.0167,  0.0131, -0.0198,  0.0285,  0.0163,  0.0013, -0.0103,
+        -0.0161, -0.0025], device='cuda:0'), grad: tensor([ 1.2569e-03,  1.5962e-04,  3.6454e-04,  7.3481e-04,  4.9204e-05,
+         3.3259e-04, -3.0460e-03, -5.2929e-05,  2.3460e-04, -3.3736e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 35----------------------------------------------------
+epoch 35, time 221.94, cls_loss 0.0124 cls_loss_mapping 0.0302 cls_loss_causal 0.6983 re_mapping 0.0160 re_causal 0.0488 /// teacc 98.88 lr 0.00010000
+Epoch 37, weight, value: tensor([[-0.0639,  0.0739,  0.0104,  ..., -0.0533, -0.0029, -0.0090],
+        [-0.0028, -0.0194, -0.0205,  ...,  0.0164, -0.0018, -0.0171],
+        [-0.0579, -0.0605, -0.0010,  ...,  0.0009, -0.0029, -0.0071],
+        ...,
+        [ 0.0302,  0.0289, -0.0064,  ..., -0.0191,  0.0332,  0.0290],
+        [ 0.0306, -0.0167, -0.0024,  ...,  0.0049,  0.0094, -0.0090],
+        [-0.0523, -0.0036, -0.0302,  ...,  0.0564, -0.0978,  0.0237]],
+       device='cuda:0'), grad: tensor([[ 3.0845e-05, -2.4065e-05,  0.0000e+00,  ...,  5.1931e-06,
+          5.4501e-06,  1.3851e-05],
+        [ 9.2089e-05,  3.2559e-06,  0.0000e+00,  ..., -1.8433e-05,
+          4.9770e-05,  4.8399e-05],
+        [ 6.2168e-05,  1.2785e-05,  0.0000e+00,  ...,  1.8716e-05,
+          4.9323e-05,  1.7440e-04],
+        ...,
+        [-3.7098e-04, -2.1026e-05,  0.0000e+00,  ...,  3.2842e-05,
+         -3.0398e-05, -2.2614e-04],
+        [-1.3053e-05,  3.0231e-06,  0.0000e+00,  ...,  1.2562e-05,
+          2.5600e-05,  3.2723e-05],
+        [ 1.1754e-04,  8.7321e-06,  0.0000e+00,  ..., -8.5473e-05,
+          4.4107e-05, -8.3923e-05]], device='cuda:0')
+Epoch 37, bias, value: tensor([ 0.0216, -0.0171,  0.0129, -0.0200,  0.0293,  0.0164,  0.0017, -0.0104,
+        -0.0160, -0.0027], device='cuda:0'), grad: tensor([ 6.4075e-05,  4.0984e-04, -8.9109e-05, -8.5354e-05,  1.9360e-04,
+        -3.5167e-05,  1.8644e-04, -7.0620e-04, -4.7863e-05,  1.0961e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 36, time 221.25, cls_loss 0.0119 cls_loss_mapping 0.0281 cls_loss_causal 0.7292 re_mapping 0.0154 re_causal 0.0481 /// teacc 98.67 lr 0.00010000
+Epoch 38, weight, value: tensor([[-0.0644,  0.0748,  0.0102,  ..., -0.0533, -0.0026, -0.0089],
+        [-0.0027, -0.0198, -0.0205,  ...,  0.0165, -0.0019, -0.0176],
+        [-0.0586, -0.0613, -0.0010,  ...,  0.0004, -0.0032, -0.0077],
+        ...,
+        [ 0.0308,  0.0293, -0.0064,  ..., -0.0196,  0.0338,  0.0295],
+        [ 0.0306, -0.0168, -0.0024,  ...,  0.0049,  0.0090, -0.0092],
+        [-0.0527, -0.0040, -0.0303,  ...,  0.0566, -0.0989,  0.0244]],
+       device='cuda:0'), grad: tensor([[ 1.3614e-04, -3.4404e-04,  0.0000e+00,  ...,  1.2130e-04,
+          5.5075e-05,  2.6017e-05],
+        [ 8.2397e-03,  6.2324e-06,  0.0000e+00,  ...,  7.2556e-03,
+          8.7917e-05,  2.1565e-04],
+        [ 7.4863e-05,  1.0657e-04,  0.0000e+00,  ...,  6.5207e-05,
+         -3.7098e-04,  9.3699e-05],
+        ...,
+        [ 3.0403e-03, -7.8529e-06,  0.0000e+00,  ...,  3.3150e-03,
+          6.8235e-04,  2.2640e-03],
+        [-6.4201e-03,  2.3812e-05,  0.0000e+00,  ..., -6.6185e-03,
+          3.0565e-04, -4.0436e-03],
+        [ 2.7771e-03,  1.5128e-04,  0.0000e+00,  ...,  2.7370e-03,
+          4.5300e-04,  2.1076e-03]], device='cuda:0')
+Epoch 38, bias, value: tensor([ 0.0217, -0.0171,  0.0126, -0.0201,  0.0296,  0.0168,  0.0011, -0.0101,
+        -0.0161, -0.0028], device='cuda:0'), grad: tensor([ 8.1718e-05,  1.1063e-02, -4.7278e-04, -5.7745e-04, -1.0658e-02,
+        -6.1464e-04,  5.2595e-04,  7.0610e-03, -1.2627e-02,  6.2256e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 37----------------------------------------------------
+epoch 37, time 221.99, cls_loss 0.0090 cls_loss_mapping 0.0248 cls_loss_causal 0.7195 re_mapping 0.0150 re_causal 0.0487 /// teacc 98.93 lr 0.00010000
+Epoch 39, weight, value: tensor([[-0.0648,  0.0753,  0.0080,  ..., -0.0536, -0.0024, -0.0090],
+        [-0.0026, -0.0205, -0.0196,  ...,  0.0168, -0.0020, -0.0179],
+        [-0.0591, -0.0619, -0.0030,  ...,  0.0001, -0.0031, -0.0082],
+        ...,
+        [ 0.0313,  0.0300, -0.0069,  ..., -0.0205,  0.0345,  0.0298],
+        [ 0.0308, -0.0171, -0.0036,  ...,  0.0048,  0.0087, -0.0096],
+        [-0.0533, -0.0040, -0.0312,  ...,  0.0571, -0.1002,  0.0250]],
+       device='cuda:0'), grad: tensor([[ 9.9421e-05, -1.6522e-04,  0.0000e+00,  ...,  6.0529e-05,
+         -4.6372e-05,  3.4273e-05],
+        [-2.7210e-05,  2.2009e-05,  0.0000e+00,  ..., -4.8369e-05,
+          2.2411e-05,  2.1577e-05],
+        [ 1.2159e-04,  1.2374e-04,  0.0000e+00,  ...,  8.6427e-05,
+          7.4863e-05,  4.8995e-05],
+        ...,
+        [-1.8954e-04, -2.0850e-04,  0.0000e+00,  ...,  3.9637e-05,
+         -5.0694e-05, -1.6320e-04],
+        [-3.6526e-04,  8.8513e-05,  0.0000e+00,  ..., -1.5044e-04,
+         -4.5091e-05,  8.9049e-05],
+        [ 5.6362e-04,  8.9049e-05,  0.0000e+00,  ...,  3.1638e-04,
+          3.7026e-04,  7.2765e-04]], device='cuda:0')
+Epoch 39, bias, value: tensor([ 0.0214, -0.0168,  0.0125, -0.0206,  0.0297,  0.0171,  0.0010, -0.0101,
+        -0.0162, -0.0026], device='cuda:0'), grad: tensor([ 5.5999e-05, -2.5570e-05,  4.4775e-04, -3.3259e-04,  3.3021e-04,
+        -1.0128e-03, -8.6427e-05, -2.8348e-04, -9.1600e-04,  1.8225e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 38, time 221.10, cls_loss 0.0082 cls_loss_mapping 0.0224 cls_loss_causal 0.7292 re_mapping 0.0149 re_causal 0.0487 /// teacc 98.91 lr 0.00010000
+Epoch 40, weight, value: tensor([[-6.5262e-02,  7.6111e-02,  7.1190e-03,  ..., -5.3943e-02,
+         -2.1221e-03, -8.7471e-03],
+        [-2.4465e-03, -2.1303e-02, -1.9655e-02,  ...,  1.7238e-02,
+         -2.1946e-03, -1.7789e-02],
+        [-5.9595e-02, -6.2375e-02, -2.9460e-03,  ..., -1.2674e-05,
+         -3.2499e-03, -8.6540e-03],
+        ...,
+        [ 3.1424e-02,  3.0306e-02, -6.9804e-03,  ..., -2.1184e-02,
+          3.4483e-02,  2.9966e-02],
+        [ 3.0894e-02, -1.7569e-02, -3.7024e-03,  ...,  4.3204e-03,
+          8.3091e-03, -1.0087e-02],
+        [-5.3773e-02, -4.3447e-03, -3.1355e-02,  ...,  5.7592e-02,
+         -1.0164e-01,  2.5250e-02]], device='cuda:0'), grad: tensor([[ 7.1824e-05, -5.3495e-05,  0.0000e+00,  ...,  5.9932e-05,
+          2.8908e-05, -7.7188e-06],
+        [ 1.7548e-04,  2.4606e-06,  0.0000e+00,  ...,  7.3612e-05,
+          1.2922e-04,  5.6982e-05],
+        [ 5.5122e-04,  4.3884e-06,  0.0000e+00,  ..., -2.4319e-04,
+         -1.7810e-04,  4.2248e-04],
+        ...,
+        [-1.4153e-03,  7.4878e-06,  0.0000e+00,  ..., -2.5868e-04,
+         -1.0548e-03, -7.8535e-04],
+        [ 1.3840e-04,  1.0513e-05,  0.0000e+00,  ...,  7.9036e-05,
+          1.3161e-04,  7.1049e-05],
+        [ 1.2255e-04,  1.0066e-05,  0.0000e+00,  ..., -6.8009e-05,
+          1.3304e-04, -3.9786e-05]], device='cuda:0')
+Epoch 40, bias, value: tensor([ 0.0215, -0.0166,  0.0126, -0.0200,  0.0293,  0.0169,  0.0014, -0.0105,
+        -0.0164, -0.0027], device='cuda:0'), grad: tensor([ 0.0003,  0.0007, -0.0005,  0.0006,  0.0014,  0.0004, -0.0014, -0.0021,
+         0.0004,  0.0001], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 39, time 221.36, cls_loss 0.0079 cls_loss_mapping 0.0229 cls_loss_causal 0.7067 re_mapping 0.0142 re_causal 0.0460 /// teacc 98.82 lr 0.00010000
+Epoch 41, weight, value: tensor([[-0.0658,  0.0769,  0.0050,  ..., -0.0541, -0.0018, -0.0085],
+        [-0.0020, -0.0221, -0.0197,  ...,  0.0176, -0.0023, -0.0182],
+        [-0.0601, -0.0632, -0.0033,  ..., -0.0003, -0.0033, -0.0094],
+        ...,
+        [ 0.0317,  0.0309, -0.0072,  ..., -0.0217,  0.0347,  0.0304],
+        [ 0.0313, -0.0180, -0.0038,  ...,  0.0040,  0.0081, -0.0104],
+        [-0.0546, -0.0046, -0.0325,  ...,  0.0576, -0.1027,  0.0255]],
+       device='cuda:0'), grad: tensor([[ 2.3633e-05, -1.3538e-05,  2.3283e-10,  ...,  2.6494e-05,
+          2.4229e-05,  4.5240e-05],
+        [ 4.1783e-05,  3.9637e-06,  2.3283e-10,  ...,  3.2783e-05,
+          1.2219e-04,  1.2410e-04],
+        [ 3.1620e-05,  4.2021e-06, -2.0955e-09,  ...,  9.4771e-06,
+          8.1539e-05,  7.7844e-05],
+        ...,
+        [ 6.6817e-05, -8.7097e-06,  6.9849e-10,  ...,  2.1875e-04,
+          1.7035e-04,  4.3774e-04],
+        [ 1.8167e-04,  4.6827e-06,  4.6566e-10,  ...,  2.4527e-05,
+          2.3866e-04,  1.9300e-04],
+        [-8.6546e-05,  7.4133e-06,  0.0000e+00,  ..., -1.6727e-03,
+          5.7757e-05, -9.3842e-04]], device='cuda:0')
+Epoch 41, bias, value: tensor([ 0.0214, -0.0163,  0.0124, -0.0200,  0.0299,  0.0169,  0.0009, -0.0104,
+        -0.0161, -0.0031], device='cuda:0'), grad: tensor([ 1.0985e-04,  2.8968e-04,  1.2481e-04, -1.2474e-03,  1.9913e-03,
+         1.4174e-04,  2.9337e-06,  7.9155e-04,  4.9496e-04, -2.6989e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 40, time 221.43, cls_loss 0.0120 cls_loss_mapping 0.0299 cls_loss_causal 0.7175 re_mapping 0.0140 re_causal 0.0453 /// teacc 98.59 lr 0.00010000
+Epoch 42, weight, value: tensor([[-0.0665,  0.0773,  0.0044,  ..., -0.0553, -0.0014, -0.0090],
+        [-0.0022, -0.0230, -0.0232,  ...,  0.0176, -0.0031, -0.0180],
+        [-0.0600, -0.0639,  0.0005,  ..., -0.0006, -0.0027, -0.0099],
+        ...,
+        [ 0.0318,  0.0311, -0.0131,  ..., -0.0223,  0.0351,  0.0305],
+        [ 0.0317, -0.0183, -0.0067,  ...,  0.0039,  0.0071, -0.0103],
+        [-0.0553, -0.0043, -0.0373,  ...,  0.0583, -0.1035,  0.0261]],
+       device='cuda:0'), grad: tensor([[ 5.8144e-05, -2.2137e-04,  5.0291e-08,  ..., -8.5905e-06,
+         -1.8686e-05, -4.2468e-05],
+        [-1.3037e-03,  3.3647e-05,  3.0734e-08,  ..., -7.8297e-04,
+          3.3438e-05,  5.7429e-05],
+        [ 5.6744e-05,  1.8373e-05, -4.2911e-07,  ...,  2.1189e-05,
+         -2.7686e-05,  1.5944e-05],
+        ...,
+        [-1.2919e-05, -1.9717e-04,  7.6136e-08,  ...,  1.2410e-04,
+         -1.2362e-04, -2.4581e-04],
+        [-4.7898e-04,  9.1493e-05,  1.0547e-07,  ..., -3.5286e-04,
+          2.8268e-05,  1.6183e-05],
+        [ 6.8092e-04,  1.2875e-04,  4.8894e-09,  ...,  9.6798e-04,
+          5.1916e-05,  1.7762e-04]], device='cuda:0')
+Epoch 42, bias, value: tensor([ 0.0206, -0.0171,  0.0132, -0.0200,  0.0300,  0.0165,  0.0010, -0.0103,
+        -0.0157, -0.0029], device='cuda:0'), grad: tensor([-7.7844e-05, -1.4973e-03, -6.0111e-05,  2.5964e-04,  6.8045e-04,
+        -1.9989e-03,  2.3613e-03, -1.8346e-04, -9.9087e-04,  1.5030e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 41, time 221.15, cls_loss 0.0095 cls_loss_mapping 0.0236 cls_loss_causal 0.6774 re_mapping 0.0151 re_causal 0.0451 /// teacc 98.82 lr 0.00010000
+Epoch 43, weight, value: tensor([[-0.0669,  0.0780,  0.0011,  ..., -0.0554, -0.0012, -0.0086],
+        [-0.0022, -0.0238, -0.0233,  ...,  0.0180, -0.0035, -0.0191],
+        [-0.0606, -0.0645,  0.0013,  ..., -0.0011, -0.0031, -0.0111],
+        ...,
+        [ 0.0325,  0.0313, -0.0159,  ..., -0.0228,  0.0357,  0.0312],
+        [ 0.0316, -0.0186, -0.0064,  ...,  0.0038,  0.0066, -0.0106],
+        [-0.0556, -0.0047, -0.0400,  ...,  0.0589, -0.1046,  0.0265]],
+       device='cuda:0'), grad: tensor([[ 1.5295e-04, -2.9624e-05,  9.7811e-05,  ...,  9.3758e-05,
+         -5.1856e-05,  1.7047e-05],
+        [ 5.4896e-05,  2.1100e-05,  5.9679e-06,  ...,  6.5528e-06,
+          4.0114e-05,  1.3277e-05],
+        [-1.2341e-03,  8.4281e-05, -2.5302e-05,  ...,  2.2799e-06,
+         -1.0586e-03,  2.9534e-05],
+        ...,
+        [ 1.0786e-03, -1.7393e-04,  8.5160e-06,  ...,  1.4082e-05,
+          8.3542e-04, -1.0645e-04],
+        [ 2.2650e-05,  2.1547e-05,  5.9679e-06,  ...,  4.8317e-06,
+          7.1943e-05,  1.2137e-05],
+        [ 4.6968e-05,  6.0737e-05,  2.4997e-06,  ...,  6.0908e-06,
+          8.8394e-05,  2.9817e-05]], device='cuda:0')
+Epoch 43, bias, value: tensor([ 0.0206, -0.0170,  0.0127, -0.0200,  0.0294,  0.0166,  0.0008, -0.0098,
+        -0.0156, -0.0028], device='cuda:0'), grad: tensor([ 3.6597e-04,  1.8382e-04, -4.3907e-03,  1.4746e-04,  1.5885e-05,
+         7.9453e-05, -2.9588e-04,  3.1757e-03,  2.9588e-04,  4.2176e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 42, time 221.06, cls_loss 0.0073 cls_loss_mapping 0.0221 cls_loss_causal 0.6960 re_mapping 0.0141 re_causal 0.0444 /// teacc 98.83 lr 0.00010000
+Epoch 44, weight, value: tensor([[-0.0672,  0.0787,  0.0002,  ..., -0.0554, -0.0010, -0.0083],
+        [-0.0024, -0.0252, -0.0231,  ...,  0.0179, -0.0038, -0.0194],
+        [-0.0607, -0.0650,  0.0015,  ..., -0.0013, -0.0027, -0.0115],
+        ...,
+        [ 0.0329,  0.0316, -0.0174,  ..., -0.0231,  0.0361,  0.0313],
+        [ 0.0318, -0.0191, -0.0067,  ...,  0.0035,  0.0060, -0.0109],
+        [-0.0561, -0.0050, -0.0408,  ...,  0.0593, -0.1056,  0.0268]],
+       device='cuda:0'), grad: tensor([[ 3.3289e-05, -4.0293e-05,  0.0000e+00,  ...,  5.3525e-05,
+          2.8491e-05,  6.9290e-06],
+        [ 1.9133e-05,  7.6368e-06,  0.0000e+00,  ..., -1.0870e-05,
+          5.3763e-05,  4.3422e-05],
+        [ 1.0049e-04,  1.4484e-05,  0.0000e+00,  ...,  4.3362e-05,
+         -1.1522e-04,  4.5061e-05],
+        ...,
+        [-9.6798e-05, -7.8857e-05,  0.0000e+00,  ...,  2.3827e-05,
+         -1.4651e-04, -2.2733e-04],
+        [-3.7718e-04,  3.5316e-05,  0.0000e+00,  ..., -1.4156e-05,
+         -7.0214e-05,  1.8299e-05],
+        [ 1.3053e-04,  5.0426e-05,  0.0000e+00,  ...,  3.3289e-05,
+          7.6115e-05,  7.1228e-05]], device='cuda:0')
+Epoch 44, bias, value: tensor([ 0.0207, -0.0172,  0.0131, -0.0203,  0.0292,  0.0169,  0.0008, -0.0100,
+        -0.0154, -0.0027], device='cuda:0'), grad: tensor([ 0.0001,  0.0001,  0.0001,  0.0003,  0.0002,  0.0002, -0.0003, -0.0004,
+        -0.0008,  0.0004], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 43, time 221.18, cls_loss 0.0081 cls_loss_mapping 0.0217 cls_loss_causal 0.6877 re_mapping 0.0135 re_causal 0.0420 /// teacc 98.84 lr 0.00010000
+Epoch 45, weight, value: tensor([[-0.0678,  0.0793, -0.0035,  ..., -0.0559, -0.0005, -0.0083],
+        [-0.0024, -0.0263, -0.0231,  ...,  0.0180, -0.0040, -0.0196],
+        [-0.0611, -0.0660,  0.0011,  ..., -0.0017, -0.0025, -0.0122],
+        ...,
+        [ 0.0333,  0.0319, -0.0176,  ..., -0.0235,  0.0364,  0.0317],
+        [ 0.0320, -0.0191, -0.0071,  ...,  0.0033,  0.0055, -0.0113],
+        [-0.0570, -0.0048, -0.0421,  ...,  0.0593, -0.1066,  0.0270]],
+       device='cuda:0'), grad: tensor([[ 4.8459e-05, -1.3679e-05,  0.0000e+00,  ...,  1.3314e-05,
+          3.4541e-05,  2.1592e-05],
+        [ 1.2589e-04,  1.4208e-05,  0.0000e+00,  ...,  2.8983e-05,
+          1.4138e-04,  1.6212e-04],
+        [ 1.2064e-04,  2.8104e-05,  0.0000e+00,  ...,  1.4096e-05,
+          4.1127e-04,  2.1243e-04],
+        ...,
+        [-2.4056e-04, -3.2157e-05,  0.0000e+00,  ...,  1.5900e-05,
+         -5.2261e-04, -5.9032e-04],
+        [-3.2353e-04, -4.0114e-05,  0.0000e+00,  ...,  6.4135e-05,
+         -8.5458e-06,  7.6652e-05],
+        [ 6.7428e-06,  2.3525e-06,  0.0000e+00,  ..., -5.1975e-04,
+          1.0383e-04, -2.3365e-04]], device='cuda:0')
+Epoch 45, bias, value: tensor([ 0.0204, -0.0171,  0.0130, -0.0206,  0.0300,  0.0170,  0.0008, -0.0098,
+        -0.0152, -0.0033], device='cuda:0'), grad: tensor([ 1.5557e-04,  3.2496e-04,  9.1457e-04, -8.7559e-05,  3.8362e-04,
+         5.9456e-05,  3.0541e-04, -9.6798e-04, -7.1430e-04, -3.7408e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 44, time 220.93, cls_loss 0.0059 cls_loss_mapping 0.0184 cls_loss_causal 0.6791 re_mapping 0.0135 re_causal 0.0429 /// teacc 98.82 lr 0.00010000
+Epoch 46, weight, value: tensor([[-6.8233e-02,  8.0117e-02, -4.3298e-03,  ..., -5.6040e-02,
+          7.6915e-05, -8.0567e-03],
+        [-2.3160e-03, -2.7044e-02, -2.3154e-02,  ...,  1.8236e-02,
+         -4.3729e-03, -2.0043e-02],
+        [-6.1246e-02, -6.6555e-02,  1.0193e-03,  ..., -2.1805e-03,
+         -2.4769e-03, -1.2742e-02],
+        ...,
+        [ 3.3516e-02,  3.1953e-02, -1.7660e-02,  ..., -2.3926e-02,
+          3.7032e-02,  3.2286e-02],
+        [ 3.2228e-02, -1.9606e-02, -7.1846e-03,  ...,  2.9861e-03,
+          5.0148e-03, -1.1506e-02],
+        [-5.7243e-02, -5.0434e-03, -4.2215e-02,  ...,  5.9838e-02,
+         -1.0774e-01,  2.7391e-02]], device='cuda:0'), grad: tensor([[ 1.6958e-05, -4.3726e-04,  0.0000e+00,  ..., -1.3626e-04,
+         -7.5638e-05, -2.2799e-05],
+        [ 6.5422e-04,  6.0685e-06,  0.0000e+00,  ...,  2.0042e-06,
+          8.8453e-05,  1.3375e-04],
+        [ 3.9250e-05,  3.7849e-05,  0.0000e+00,  ...,  2.8893e-05,
+         -1.8537e-05,  2.1026e-05],
+        ...,
+        [-2.5153e-04,  1.0766e-05,  0.0000e+00,  ..., -7.7188e-06,
+         -2.0730e-04, -2.9063e-04],
+        [-6.8140e-04,  3.4124e-05,  0.0000e+00,  ...,  3.9965e-05,
+          3.7998e-05,  4.3660e-05],
+        [ 9.1910e-05,  2.2888e-05,  0.0000e+00,  ..., -2.1267e-04,
+          5.3406e-05, -1.6272e-04]], device='cuda:0')
+Epoch 46, bias, value: tensor([ 0.0205, -0.0173,  0.0128, -0.0209,  0.0296,  0.0173,  0.0008, -0.0096,
+        -0.0149, -0.0033], device='cuda:0'), grad: tensor([-3.9816e-04,  1.0509e-03,  2.8998e-05,  3.3116e-04,  4.6223e-05,
+         1.8454e-04,  3.6597e-04, -3.8981e-04, -9.0742e-04, -3.1257e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 45, time 221.26, cls_loss 0.0097 cls_loss_mapping 0.0268 cls_loss_causal 0.7394 re_mapping 0.0129 re_causal 0.0422 /// teacc 98.77 lr 0.00010000
+Epoch 47, weight, value: tensor([[-0.0687,  0.0808, -0.0044,  ..., -0.0551,  0.0008, -0.0081],
+        [-0.0020, -0.0300, -0.0232,  ...,  0.0182, -0.0048, -0.0206],
+        [-0.0617, -0.0679,  0.0010,  ..., -0.0025, -0.0021, -0.0135],
+        ...,
+        [ 0.0338,  0.0320, -0.0177,  ..., -0.0246,  0.0374,  0.0327],
+        [ 0.0324, -0.0204, -0.0072,  ...,  0.0024,  0.0046, -0.0120],
+        [-0.0580, -0.0048, -0.0424,  ...,  0.0601, -0.1083,  0.0282]],
+       device='cuda:0'), grad: tensor([[ 1.6958e-05, -2.4825e-05,  0.0000e+00,  ...,  2.4453e-05,
+          9.4771e-06,  6.7651e-06],
+        [-1.6287e-05,  2.2314e-06,  0.0000e+00,  ...,  4.4666e-06,
+         -7.1712e-06,  2.6569e-05],
+        [ 3.2723e-05,  7.9274e-06,  0.0000e+00,  ...,  1.1005e-05,
+          1.4186e-04,  4.4674e-05],
+        ...,
+        [ 1.4633e-05, -3.0026e-06,  0.0000e+00,  ...,  7.2300e-05,
+          7.6115e-05,  7.8380e-05],
+        [ 5.5969e-05,  1.3247e-05,  0.0000e+00,  ...,  8.3208e-05,
+          1.1128e-04,  6.1154e-05],
+        [ 1.5587e-05,  7.6070e-06,  0.0000e+00,  ..., -2.2900e-04,
+          4.1664e-05, -1.3959e-04]], device='cuda:0')
+Epoch 47, bias, value: tensor([ 0.0210, -0.0177,  0.0131, -0.0208,  0.0299,  0.0164,  0.0012, -0.0095,
+        -0.0152, -0.0031], device='cuda:0'), grad: tensor([ 5.0694e-05, -7.2956e-05,  2.4247e-04, -5.1165e-04,  2.3246e-04,
+        -3.1257e-04,  8.4877e-05,  2.3329e-04,  3.0780e-04, -2.5344e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 46----------------------------------------------------
+epoch 46, time 221.37, cls_loss 0.0047 cls_loss_mapping 0.0153 cls_loss_causal 0.6930 re_mapping 0.0133 re_causal 0.0425 /// teacc 98.95 lr 0.00010000
+Epoch 48, weight, value: tensor([[-0.0690,  0.0815, -0.0046,  ..., -0.0552,  0.0009, -0.0080],
+        [-0.0019, -0.0305, -0.0232,  ...,  0.0187, -0.0049, -0.0208],
+        [-0.0621, -0.0685,  0.0010,  ..., -0.0027, -0.0018, -0.0141],
+        ...,
+        [ 0.0342,  0.0325, -0.0178,  ..., -0.0252,  0.0375,  0.0329],
+        [ 0.0325, -0.0209, -0.0073,  ...,  0.0022,  0.0041, -0.0123],
+        [-0.0584, -0.0051, -0.0424,  ...,  0.0604, -0.1096,  0.0286]],
+       device='cuda:0'), grad: tensor([[ 3.2842e-05, -2.7016e-05,  3.0710e-07,  ...,  2.6435e-05,
+         -8.2701e-06,  2.3860e-06],
+        [ 6.3002e-05,  1.2498e-06,  4.6683e-08,  ...,  7.1116e-06,
+          6.1870e-05,  4.0978e-05],
+        [ 1.2565e-04,  6.4671e-06,  2.1537e-08,  ...,  7.3127e-06,
+          1.0663e-04,  4.3839e-05],
+        ...,
+        [-2.8417e-05,  3.4692e-07,  3.7253e-09,  ...,  3.5882e-05,
+          7.3463e-06,  3.1114e-05],
+        [-6.3992e-04,  9.8124e-06,  1.0198e-07,  ..., -5.3227e-05,
+         -2.8396e-04, -3.7360e-04],
+        [ 2.4235e-04,  8.9929e-06,  1.0012e-08,  ..., -5.2166e-04,
+          9.4712e-05, -9.3162e-05]], device='cuda:0')
+Epoch 48, bias, value: tensor([ 0.0210, -0.0177,  0.0132, -0.0207,  0.0296,  0.0166,  0.0012, -0.0095,
+        -0.0153, -0.0033], device='cuda:0'), grad: tensor([ 0.0002,  0.0002,  0.0003,  0.0002,  0.0008,  0.0003, -0.0003,  0.0001,
+        -0.0020,  0.0002], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 47, time 221.09, cls_loss 0.0086 cls_loss_mapping 0.0256 cls_loss_causal 0.6915 re_mapping 0.0135 re_causal 0.0431 /// teacc 98.74 lr 0.00010000
+Epoch 49, weight, value: tensor([[-0.0695,  0.0822, -0.0046,  ..., -0.0555,  0.0011, -0.0080],
+        [-0.0012, -0.0310, -0.0232,  ...,  0.0185, -0.0043, -0.0203],
+        [-0.0622, -0.0691,  0.0010,  ..., -0.0029, -0.0023, -0.0149],
+        ...,
+        [ 0.0338,  0.0333, -0.0178,  ..., -0.0262,  0.0376,  0.0323],
+        [ 0.0325, -0.0214, -0.0073,  ...,  0.0019,  0.0038, -0.0126],
+        [-0.0584, -0.0055, -0.0424,  ...,  0.0612, -0.1107,  0.0297]],
+       device='cuda:0'), grad: tensor([[ 6.7770e-05, -8.2329e-06,  0.0000e+00,  ...,  2.9340e-05,
+          7.7963e-05,  5.8383e-05],
+        [-2.3413e-04,  1.1884e-05,  0.0000e+00,  ..., -1.1128e-04,
+         -3.4541e-05, -4.0859e-05],
+        [ 1.0854e-04,  8.7395e-06,  0.0000e+00,  ...,  1.8135e-05,
+          1.7852e-05,  1.0215e-05],
+        ...,
+        [ 1.6844e-04, -4.0457e-06,  0.0000e+00,  ...,  1.0455e-04,
+          2.3514e-05,  3.1352e-05],
+        [-1.4341e-04,  1.3649e-05,  0.0000e+00,  ...,  1.7360e-05,
+          1.1707e-06,  1.5602e-05],
+        [ 1.8090e-05, -1.3992e-05,  0.0000e+00,  ..., -5.1260e-04,
+          5.6893e-05, -1.1998e-04]], device='cuda:0')
+Epoch 49, bias, value: tensor([ 0.0210, -0.0170,  0.0129, -0.0208,  0.0298,  0.0169,  0.0009, -0.0103,
+        -0.0155, -0.0027], device='cuda:0'), grad: tensor([ 2.2578e-04, -6.2704e-04,  2.5249e-04,  2.1458e-04,  5.4646e-04,
+        -4.9019e-04,  2.8927e-06,  4.9591e-04, -2.7919e-04, -3.4332e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 48, time 221.13, cls_loss 0.0077 cls_loss_mapping 0.0199 cls_loss_causal 0.6518 re_mapping 0.0132 re_causal 0.0399 /// teacc 98.91 lr 0.00010000
+Epoch 50, weight, value: tensor([[-0.0698,  0.0832, -0.0045,  ..., -0.0552,  0.0014, -0.0077],
+        [-0.0021, -0.0315, -0.0232,  ...,  0.0179, -0.0052, -0.0212],
+        [-0.0630, -0.0697,  0.0010,  ..., -0.0032, -0.0025, -0.0155],
+        ...,
+        [ 0.0343,  0.0343, -0.0179,  ..., -0.0265,  0.0384,  0.0329],
+        [ 0.0327, -0.0218, -0.0073,  ...,  0.0017,  0.0032, -0.0126],
+        [-0.0583, -0.0060, -0.0425,  ...,  0.0614, -0.1114,  0.0297]],
+       device='cuda:0'), grad: tensor([[-5.8532e-05, -3.0708e-04,  0.0000e+00,  ...,  6.2995e-06,
+         -4.1664e-05, -4.0978e-05],
+        [-1.3471e-05,  9.3086e-07,  0.0000e+00,  ..., -2.4319e-05,
+          8.2031e-06,  1.3702e-05],
+        [ 1.0401e-05,  6.8396e-06,  0.0000e+00,  ...,  3.2820e-06,
+          6.9737e-06,  1.1593e-05],
+        ...,
+        [-5.7369e-05,  2.4717e-06,  0.0000e+00,  ...,  2.3067e-05,
+         -5.9456e-05,  6.3360e-05],
+        [-6.5845e-07,  6.7428e-06,  0.0000e+00,  ...,  8.8140e-06,
+          5.9754e-06,  9.6709e-06],
+        [ 3.2812e-05,  1.4916e-05,  0.0000e+00,  ..., -3.3587e-05,
+          3.4183e-05, -1.5759e-04]], device='cuda:0')
+Epoch 50, bias, value: tensor([ 0.0215, -0.0182,  0.0126, -0.0206,  0.0295,  0.0169,  0.0015, -0.0097,
+        -0.0153, -0.0029], device='cuda:0'), grad: tensor([-3.3402e-04, -1.2130e-05,  1.1683e-05,  5.1111e-05,  7.8559e-05,
+         9.4026e-06,  2.8801e-04,  1.0437e-04,  3.7607e-06, -2.0182e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 49, time 220.58, cls_loss 0.0056 cls_loss_mapping 0.0188 cls_loss_causal 0.6506 re_mapping 0.0124 re_causal 0.0404 /// teacc 98.87 lr 0.00010000
+Epoch 51, weight, value: tensor([[-0.0702,  0.0840, -0.0052,  ..., -0.0551,  0.0018, -0.0076],
+        [-0.0012, -0.0333, -0.0237,  ...,  0.0184, -0.0054, -0.0213],
+        [-0.0631, -0.0703,  0.0026,  ..., -0.0033, -0.0020, -0.0161],
+        ...,
+        [ 0.0343,  0.0346, -0.0183,  ..., -0.0271,  0.0383,  0.0331],
+        [ 0.0329, -0.0222, -0.0073,  ...,  0.0014,  0.0028, -0.0129],
+        [-0.0589, -0.0062, -0.0432,  ...,  0.0616, -0.1124,  0.0299]],
+       device='cuda:0'), grad: tensor([[ 1.2241e-05, -2.0817e-05,  0.0000e+00,  ...,  1.6049e-05,
+          2.3358e-06, -2.1011e-06],
+        [-4.7423e-06,  2.8443e-06,  0.0000e+00,  ...,  1.7658e-05,
+          7.7933e-06,  7.5512e-06],
+        [-1.6568e-06,  5.7705e-06,  0.0000e+00,  ...,  1.9684e-05,
+         -6.3002e-05,  8.4713e-06],
+        ...,
+        [ 8.2701e-06, -1.2808e-05,  0.0000e+00,  ...,  4.2886e-05,
+          1.2152e-05, -3.6597e-05],
+        [ 9.8348e-05,  2.6766e-06,  0.0000e+00,  ...,  1.8740e-04,
+          4.2200e-05,  6.6042e-05],
+        [-2.3060e-06,  8.3447e-06,  0.0000e+00,  ..., -1.9765e-04,
+          2.2113e-05, -9.1612e-05]], device='cuda:0')
+Epoch 51, bias, value: tensor([ 0.0218, -0.0181,  0.0133, -0.0202,  0.0293,  0.0164,  0.0015, -0.0099,
+        -0.0153, -0.0032], device='cuda:0'), grad: tensor([ 4.6819e-05,  5.2214e-05, -1.6236e-04,  3.4642e-04,  7.4387e-05,
+        -2.0576e-04, -4.8065e-04,  9.2268e-05,  5.3883e-04, -3.0208e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 50, time 221.17, cls_loss 0.0074 cls_loss_mapping 0.0228 cls_loss_causal 0.6920 re_mapping 0.0124 re_causal 0.0391 /// teacc 98.74 lr 0.00010000
+Epoch 52, weight, value: tensor([[-7.0674e-02,  8.5008e-02, -5.8993e-03,  ..., -5.4769e-02,
+          2.0804e-03, -7.5159e-03],
+        [-3.3988e-06, -3.4676e-02, -2.3881e-02,  ...,  1.9237e-02,
+         -5.1566e-03, -2.1151e-02],
+        [-6.3981e-02, -7.1344e-02,  2.9943e-03,  ..., -3.8594e-03,
+         -2.9203e-03, -1.6955e-02],
+        ...,
+        [ 3.3825e-02,  3.4966e-02, -1.8558e-02,  ..., -2.8273e-02,
+          3.8029e-02,  3.2884e-02],
+        [ 3.3201e-02, -2.2031e-02, -7.4828e-03,  ...,  9.6565e-04,
+          2.4571e-03, -1.2991e-02],
+        [-5.9303e-02, -6.4522e-03, -4.3781e-02,  ...,  6.2167e-02,
+         -1.1311e-01,  3.0492e-02]], device='cuda:0'), grad: tensor([[ 5.6624e-06, -2.1343e-03,  0.0000e+00,  ..., -7.8869e-04,
+          9.6634e-06,  9.0003e-06],
+        [ 3.4750e-05,  5.5456e-04,  0.0000e+00,  ...,  2.3067e-04,
+          1.6421e-05,  1.3486e-05],
+        [ 1.4924e-05,  6.5446e-05,  0.0000e+00,  ...,  2.6152e-05,
+          2.2098e-05,  1.8716e-05],
+        ...,
+        [ 7.3435e-07, -9.4473e-06,  0.0000e+00,  ...,  2.3663e-05,
+         -3.9525e-06, -1.0379e-05],
+        [-4.1515e-05,  4.7922e-05,  0.0000e+00,  ...,  2.6748e-05,
+          4.1723e-05,  3.4958e-05],
+        [ 2.3127e-05,  2.0340e-05,  0.0000e+00,  ..., -4.5374e-06,
+          6.3419e-05,  4.2975e-05]], device='cuda:0')
+Epoch 52, bias, value: tensor([ 0.0221, -0.0170,  0.0123, -0.0197,  0.0295,  0.0163,  0.0011, -0.0110,
+        -0.0150, -0.0029], device='cuda:0'), grad: tensor([-3.7441e-03,  1.0796e-03,  1.7357e-04, -1.1711e-03,  2.1830e-05,
+         1.0281e-03,  2.3479e-03,  2.2814e-05,  6.7174e-05,  1.7095e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 51, time 221.29, cls_loss 0.0056 cls_loss_mapping 0.0191 cls_loss_causal 0.6691 re_mapping 0.0123 re_causal 0.0380 /// teacc 98.94 lr 0.00010000
+Epoch 53, weight, value: tensor([[-0.0711,  0.0860, -0.0053,  ..., -0.0553,  0.0023, -0.0075],
+        [-0.0002, -0.0364, -0.0239,  ...,  0.0195, -0.0059, -0.0215],
+        [-0.0646, -0.0721,  0.0030,  ..., -0.0041, -0.0031, -0.0176],
+        ...,
+        [ 0.0345,  0.0359, -0.0187,  ..., -0.0287,  0.0389,  0.0333],
+        [ 0.0336, -0.0233, -0.0075,  ...,  0.0006,  0.0018, -0.0134],
+        [-0.0603, -0.0067, -0.0440,  ...,  0.0624, -0.1140,  0.0308]],
+       device='cuda:0'), grad: tensor([[ 2.0355e-05, -2.8431e-05,  0.0000e+00,  ...,  2.3112e-05,
+         -4.2543e-06,  1.9267e-05],
+        [ 3.3341e-06,  1.0565e-05,  0.0000e+00,  ...,  6.4746e-06,
+          5.2117e-06,  1.3337e-05],
+        [ 1.6749e-05,  1.2681e-05,  0.0000e+00,  ...,  7.5512e-06,
+         -1.1420e-04,  1.4141e-05],
+        ...,
+        [-5.0098e-05, -9.9957e-05,  0.0000e+00,  ...,  1.7142e-04,
+          1.1086e-04,  9.0659e-05],
+        [ 1.3597e-06,  1.3635e-05,  0.0000e+00,  ...,  8.4996e-05,
+          1.0788e-05,  5.2184e-05],
+        [ 3.3796e-05,  5.3376e-05,  0.0000e+00,  ..., -5.1451e-04,
+          5.6550e-06, -3.9101e-04]], device='cuda:0')
+Epoch 53, bias, value: tensor([ 0.0221, -0.0174,  0.0122, -0.0201,  0.0298,  0.0164,  0.0012, -0.0105,
+        -0.0148, -0.0031], device='cuda:0'), grad: tensor([ 4.4376e-05,  3.2902e-05, -3.5357e-04,  8.3029e-05,  2.7680e-04,
+         1.0800e-04, -8.1956e-05,  5.4598e-04,  2.7791e-05, -6.8331e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 52, time 220.99, cls_loss 0.0055 cls_loss_mapping 0.0188 cls_loss_causal 0.6613 re_mapping 0.0128 re_causal 0.0396 /// teacc 98.91 lr 0.00010000
+Epoch 54, weight, value: tensor([[-0.0716,  0.0861, -0.0052,  ..., -0.0543,  0.0026, -0.0078],
+        [-0.0002, -0.0365, -0.0239,  ...,  0.0194, -0.0060, -0.0219],
+        [-0.0648, -0.0730,  0.0030,  ..., -0.0043, -0.0029, -0.0180],
+        ...,
+        [ 0.0350,  0.0362, -0.0188,  ..., -0.0288,  0.0388,  0.0336],
+        [ 0.0340, -0.0239, -0.0075,  ...,  0.0002,  0.0016, -0.0136],
+        [-0.0613, -0.0059, -0.0441,  ...,  0.0623, -0.1150,  0.0311]],
+       device='cuda:0'), grad: tensor([[ 3.2544e-05, -1.2204e-05,  0.0000e+00,  ...,  3.4302e-05,
+          4.1397e-07,  2.4214e-06],
+        [ 4.6206e-04, -3.7968e-05,  0.0000e+00,  ..., -1.3685e-04,
+          1.9526e-04,  2.9850e-04],
+        [-1.5140e-04,  5.1931e-06,  0.0000e+00,  ...,  1.7494e-05,
+         -2.6774e-04,  2.5555e-05],
+        ...,
+        [-1.4515e-03, -5.6140e-06,  0.0000e+00,  ..., -1.2338e-04,
+         -3.8838e-04, -7.9298e-04],
+        [ 5.7507e-04,  1.0535e-05,  0.0000e+00,  ...,  1.0288e-04,
+          2.3496e-04,  2.3663e-04],
+        [ 2.4629e-04,  6.7204e-06,  0.0000e+00,  ...,  3.0264e-05,
+          8.2374e-05,  1.2106e-04]], device='cuda:0')
+Epoch 54, bias, value: tensor([ 0.0219, -0.0175,  0.0126, -0.0203,  0.0297,  0.0169,  0.0010, -0.0106,
+        -0.0147, -0.0034], device='cuda:0'), grad: tensor([ 8.5950e-05,  7.4053e-04, -5.3024e-04,  1.4269e-04,  2.6822e-04,
+         2.1017e-04, -2.9802e-05, -2.4853e-03,  1.1349e-03,  4.6301e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 53, time 221.39, cls_loss 0.0046 cls_loss_mapping 0.0149 cls_loss_causal 0.7017 re_mapping 0.0120 re_causal 0.0390 /// teacc 98.93 lr 0.00010000
+Epoch 55, weight, value: tensor([[-7.2176e-02,  8.6397e-02, -5.4029e-03,  ..., -5.4611e-02,
+          2.0133e-03, -7.9563e-03],
+        [-1.0996e-04, -3.7073e-02, -2.3919e-02,  ...,  1.9474e-02,
+         -5.8294e-03, -2.1906e-02],
+        [-6.5552e-02, -7.4036e-02,  2.9647e-03,  ..., -4.6805e-03,
+         -3.1414e-03, -1.8535e-02],
+        ...,
+        [ 3.5616e-02,  3.7037e-02, -1.8806e-02,  ..., -2.9336e-02,
+          3.9233e-02,  3.3840e-02],
+        [ 3.4053e-02, -2.4045e-02, -7.5287e-03,  ..., -3.1543e-05,
+          1.1349e-03, -1.4024e-02],
+        [-6.1832e-02, -6.1282e-03, -4.4135e-02,  ...,  6.2954e-02,
+         -1.1622e-01,  3.1481e-02]], device='cuda:0'), grad: tensor([[ 1.4044e-05, -7.2196e-06,  0.0000e+00,  ...,  7.2531e-06,
+          7.6145e-06,  7.1265e-06],
+        [ 9.9897e-05,  3.6508e-06,  0.0000e+00,  ...,  4.1015e-06,
+          9.5308e-05,  6.0320e-05],
+        [ 3.9041e-05,  7.7635e-06,  0.0000e+00,  ...,  5.7630e-06,
+          1.0327e-05,  2.4930e-05],
+        ...,
+        [-2.5940e-04, -4.4197e-05,  0.0000e+00,  ...,  2.6286e-05,
+         -2.3961e-04, -1.6153e-04],
+        [-5.3570e-06,  3.9302e-06,  0.0000e+00,  ...,  3.3826e-05,
+          2.5675e-05,  2.9653e-05],
+        [ 5.7101e-05,  1.1347e-05,  0.0000e+00,  ..., -5.7489e-05,
+          3.1501e-05, -4.7207e-05]], device='cuda:0')
+Epoch 55, bias, value: tensor([ 0.0214, -0.0174,  0.0122, -0.0203,  0.0296,  0.0172,  0.0014, -0.0102,
+        -0.0149, -0.0036], device='cuda:0'), grad: tensor([ 4.2766e-05,  2.6202e-04, -1.3327e-06,  1.5759e-04, -2.7597e-05,
+         1.9407e-04, -1.0073e-04, -5.6505e-04,  4.6164e-05, -8.5905e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 54, time 220.91, cls_loss 0.0046 cls_loss_mapping 0.0161 cls_loss_causal 0.6731 re_mapping 0.0115 re_causal 0.0376 /// teacc 98.87 lr 0.00010000
+Epoch 56, weight, value: tensor([[-7.2568e-02,  8.6877e-02, -5.8136e-03,  ..., -5.4798e-02,
+          2.1685e-03, -7.8439e-03],
+        [ 5.4685e-05, -3.7505e-02, -2.3951e-02,  ...,  1.9525e-02,
+         -6.0424e-03, -2.2274e-02],
+        [-6.6257e-02, -7.4615e-02,  2.8815e-03,  ..., -4.8897e-03,
+         -3.1396e-03, -1.9128e-02],
+        ...,
+        [ 3.6129e-02,  3.7681e-02, -1.9107e-02,  ..., -2.9752e-02,
+          3.9771e-02,  3.4251e-02],
+        [ 3.4081e-02, -2.4505e-02, -7.7546e-03,  ..., -2.8677e-04,
+          5.6306e-04, -1.4653e-02],
+        [-6.2432e-02, -6.3567e-03, -4.4707e-02,  ...,  6.3389e-02,
+         -1.1683e-01,  3.2167e-02]], device='cuda:0'), grad: tensor([[ 1.1027e-05, -2.1949e-05,  0.0000e+00,  ..., -1.6112e-06,
+          4.4145e-06, -7.8231e-06],
+        [ 1.4153e-03,  2.5798e-07,  0.0000e+00,  ...,  3.1495e-04,
+          5.6252e-06,  5.2340e-06],
+        [-4.1187e-05,  2.2277e-06,  0.0000e+00,  ...,  1.1101e-05,
+         -1.5938e-04, -5.9940e-06],
+        ...,
+        [ 5.8919e-05,  4.7637e-07,  0.0000e+00,  ...,  2.3007e-05,
+          1.6582e-04,  1.0276e-04],
+        [-1.5736e-03,  3.4133e-07,  0.0000e+00,  ..., -3.5214e-04,
+          1.2076e-04,  8.1718e-05],
+        [ 8.0943e-05,  1.1519e-05,  0.0000e+00,  ..., -9.3699e-05,
+          1.5259e-05, -5.7757e-05]], device='cuda:0')
+Epoch 56, bias, value: tensor([ 0.0212, -0.0176,  0.0120, -0.0204,  0.0296,  0.0173,  0.0018, -0.0098,
+        -0.0150, -0.0036], device='cuda:0'), grad: tensor([ 1.2912e-05,  2.8934e-03, -4.9067e-04, -9.1076e-05,  2.1863e-04,
+        -2.5839e-05,  4.1932e-05,  4.3964e-04, -3.0365e-03,  3.6120e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 55, time 221.28, cls_loss 0.0058 cls_loss_mapping 0.0182 cls_loss_causal 0.6790 re_mapping 0.0119 re_causal 0.0370 /// teacc 98.81 lr 0.00010000
+Epoch 57, weight, value: tensor([[-7.2897e-02,  8.7638e-02, -6.2224e-03,  ..., -5.5206e-02,
+          1.6315e-03, -7.6453e-03],
+        [ 4.2282e-04, -3.7886e-02, -2.3964e-02,  ...,  2.0465e-02,
+         -6.3355e-03, -2.2256e-02],
+        [-6.6745e-02, -7.5230e-02,  2.8744e-03,  ..., -5.2249e-03,
+         -2.2338e-03, -1.9102e-02],
+        ...,
+        [ 3.6460e-02,  3.7862e-02, -1.9204e-02,  ..., -3.0786e-02,
+          3.9187e-02,  3.4333e-02],
+        [ 3.4271e-02, -2.5016e-02, -7.9140e-03,  ..., -6.8168e-04,
+          4.1204e-05, -1.5379e-02],
+        [-6.3125e-02, -6.6369e-03, -4.4907e-02,  ...,  6.3702e-02,
+         -1.1782e-01,  3.2361e-02]], device='cuda:0'), grad: tensor([[ 1.3046e-05, -1.4372e-05,  3.5344e-07,  ...,  2.8741e-06,
+          1.1593e-05,  2.2119e-07],
+        [-1.0896e-04,  6.0862e-07,  5.6997e-07,  ..., -5.3614e-05,
+         -2.4773e-06, -1.1548e-05],
+        [ 4.4584e-05,  2.4512e-06,  1.8184e-07,  ...,  9.7081e-06,
+         -6.1452e-05,  4.1187e-05],
+        ...,
+        [-1.4555e-04,  1.6438e-07,  3.3178e-08,  ...,  3.8445e-05,
+         -7.8976e-06, -1.1301e-04],
+        [ 4.8310e-05,  8.4797e-07,  1.5479e-06,  ...,  1.7211e-05,
+          5.0515e-05,  4.5598e-05],
+        [ 4.0561e-05,  4.3139e-06,  2.1223e-07,  ..., -3.1024e-05,
+          1.9997e-05, -1.2487e-05]], device='cuda:0')
+Epoch 57, bias, value: tensor([ 0.0211, -0.0169,  0.0123, -0.0204,  0.0297,  0.0172,  0.0022, -0.0104,
+        -0.0149, -0.0039], device='cuda:0'), grad: tensor([ 5.3793e-05, -1.4246e-04, -2.2018e-04, -4.1686e-06,  7.2360e-05,
+         2.7925e-05,  4.7386e-05, -5.2720e-05,  1.9383e-04,  2.4691e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 56, time 220.61, cls_loss 0.0051 cls_loss_mapping 0.0148 cls_loss_causal 0.6433 re_mapping 0.0113 re_causal 0.0349 /// teacc 98.78 lr 0.00010000
+Epoch 58, weight, value: tensor([[-0.0732,  0.0885, -0.0064,  ..., -0.0555,  0.0020, -0.0074],
+        [ 0.0009, -0.0383, -0.0240,  ...,  0.0206, -0.0066, -0.0227],
+        [-0.0673, -0.0757,  0.0029,  ..., -0.0054, -0.0020, -0.0195],
+        ...,
+        [ 0.0363,  0.0380, -0.0198,  ..., -0.0314,  0.0389,  0.0344],
+        [ 0.0343, -0.0253, -0.0081,  ..., -0.0010, -0.0004, -0.0158],
+        [-0.0638, -0.0070, -0.0453,  ...,  0.0636, -0.1187,  0.0327]],
+       device='cuda:0'), grad: tensor([[ 2.8163e-05,  1.5646e-06,  4.4703e-08,  ...,  2.9460e-05,
+         -1.8906e-06,  2.2590e-05],
+        [ 1.6436e-05,  6.8024e-06,  1.3039e-08,  ...,  2.4229e-05,
+          7.0445e-06,  1.1824e-05],
+        [ 1.9684e-05,  1.7174e-06,  1.0361e-08,  ...,  2.3037e-05,
+         -5.7295e-06,  9.3877e-06],
+        ...,
+        [-5.2750e-05, -5.0426e-05,  1.6764e-08,  ...,  2.7761e-05,
+         -7.5884e-06, -3.7134e-05],
+        [ 1.1995e-05,  2.1346e-06,  3.2363e-07,  ...,  8.7619e-05,
+          1.0133e-05,  5.1439e-05],
+        [ 2.3156e-05,  1.2085e-05,  5.5181e-08,  ..., -2.1422e-04,
+          1.0118e-05, -1.2791e-04]], device='cuda:0')
+Epoch 58, bias, value: tensor([ 0.0211, -0.0168,  0.0128, -0.0202,  0.0304,  0.0172,  0.0021, -0.0108,
+        -0.0152, -0.0044], device='cuda:0'), grad: tensor([ 9.2745e-05,  7.1764e-05,  2.8452e-07,  1.9595e-05,  1.3220e-04,
+        -6.2346e-05, -8.4758e-05, -5.2392e-05,  1.7893e-04, -2.9612e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 57, time 221.21, cls_loss 0.0050 cls_loss_mapping 0.0151 cls_loss_causal 0.6316 re_mapping 0.0110 re_causal 0.0343 /// teacc 98.91 lr 0.00010000
+Epoch 59, weight, value: tensor([[-0.0736,  0.0899, -0.0064,  ..., -0.0555,  0.0028, -0.0073],
+        [ 0.0006, -0.0401, -0.0240,  ...,  0.0204, -0.0070, -0.0231],
+        [-0.0682, -0.0769,  0.0029,  ..., -0.0056, -0.0024, -0.0209],
+        ...,
+        [ 0.0369,  0.0383, -0.0200,  ..., -0.0320,  0.0398,  0.0351],
+        [ 0.0345, -0.0258, -0.0082,  ..., -0.0015, -0.0008, -0.0163],
+        [-0.0641, -0.0072, -0.0457,  ...,  0.0643, -0.1194,  0.0334]],
+       device='cuda:0'), grad: tensor([[ 3.1330e-06, -9.5293e-06,  0.0000e+00,  ...,  3.6396e-06,
+          1.9139e-07, -3.5297e-06],
+        [-1.2958e-04,  4.8662e-07,  0.0000e+00,  ..., -2.1189e-05,
+         -6.0439e-05, -3.4630e-05],
+        [ 1.3322e-05,  2.0713e-06,  0.0000e+00,  ...,  4.0308e-06,
+          3.3947e-07,  7.4357e-06],
+        ...,
+        [ 8.9049e-05, -2.4810e-06,  0.0000e+00,  ...,  8.8364e-06,
+          4.5598e-05,  1.9237e-05],
+        [ 5.5246e-06,  9.6671e-07,  0.0000e+00,  ...,  6.9961e-06,
+          7.7635e-06,  2.9653e-06],
+        [ 2.7895e-05,  6.9998e-06,  0.0000e+00,  ...,  3.2037e-05,
+          6.5975e-06,  2.9467e-06]], device='cuda:0')
+Epoch 59, bias, value: tensor([ 0.0216, -0.0175,  0.0121, -0.0208,  0.0300,  0.0175,  0.0023, -0.0102,
+        -0.0153, -0.0038], device='cuda:0'), grad: tensor([ 6.5975e-06, -2.9588e-04,  1.8969e-05,  2.1726e-05, -4.9144e-05,
+        -9.5814e-06,  8.1509e-06,  2.1935e-04,  1.4439e-05,  6.5029e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 58, time 220.80, cls_loss 0.0041 cls_loss_mapping 0.0144 cls_loss_causal 0.6365 re_mapping 0.0111 re_causal 0.0340 /// teacc 98.95 lr 0.00010000
+Epoch 60, weight, value: tensor([[-0.0739,  0.0906, -0.0065,  ..., -0.0557,  0.0034, -0.0070],
+        [ 0.0003, -0.0400, -0.0240,  ...,  0.0204, -0.0073, -0.0235],
+        [-0.0686, -0.0778,  0.0029,  ..., -0.0059, -0.0024, -0.0219],
+        ...,
+        [ 0.0373,  0.0383, -0.0201,  ..., -0.0325,  0.0402,  0.0356],
+        [ 0.0346, -0.0264, -0.0079,  ..., -0.0018, -0.0015, -0.0166],
+        [-0.0646, -0.0073, -0.0462,  ...,  0.0647, -0.1200,  0.0339]],
+       device='cuda:0'), grad: tensor([[ 2.4904e-06, -3.8773e-05, -2.2370e-06,  ...,  5.8338e-06,
+         -1.7155e-06, -7.2718e-06],
+        [-1.0175e-04,  1.6382e-06,  2.3574e-07,  ..., -8.0824e-05,
+          2.1264e-05,  2.0549e-05],
+        [ 9.7454e-06,  4.2096e-06,  6.7893e-07,  ...,  8.9854e-06,
+         -3.7432e-05,  2.2367e-05],
+        ...,
+        [ 3.4332e-05, -4.8336e-07,  1.0803e-07,  ...,  3.5465e-05,
+          2.0817e-05,  8.0541e-06],
+        [-4.3780e-05,  1.8179e-06,  9.0851e-07,  ..., -9.4250e-06,
+          1.3471e-05,  1.0982e-05],
+        [ 2.0847e-05,  1.4119e-05,  5.4855e-07,  ..., -6.0558e-05,
+          1.8150e-05, -4.7199e-06]], device='cuda:0')
+Epoch 60, bias, value: tensor([ 0.0217, -0.0177,  0.0123, -0.0212,  0.0301,  0.0177,  0.0024, -0.0100,
+        -0.0156, -0.0038], device='cuda:0'), grad: tensor([-1.5736e-05, -1.1361e-04, -6.2168e-05, -1.2708e-04,  1.4091e-04,
+         9.4891e-05,  1.6496e-05,  1.2386e-04, -5.8353e-05,  5.8208e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 59, time 220.94, cls_loss 0.0043 cls_loss_mapping 0.0153 cls_loss_causal 0.6697 re_mapping 0.0116 re_causal 0.0368 /// teacc 98.93 lr 0.00010000
+Epoch 61, weight, value: tensor([[-0.0745,  0.0911, -0.0066,  ..., -0.0560,  0.0034, -0.0072],
+        [ 0.0004, -0.0406, -0.0247,  ...,  0.0206, -0.0075, -0.0238],
+        [-0.0692, -0.0783,  0.0028,  ..., -0.0061, -0.0023, -0.0223],
+        ...,
+        [ 0.0374,  0.0388, -0.0205,  ..., -0.0334,  0.0404,  0.0355],
+        [ 0.0347, -0.0269, -0.0079,  ..., -0.0023, -0.0020, -0.0171],
+        [-0.0652, -0.0073, -0.0470,  ...,  0.0650, -0.1208,  0.0347]],
+       device='cuda:0'), grad: tensor([[ 8.3268e-05,  5.1320e-05,  3.7812e-07,  ...,  4.9889e-05,
+          8.3447e-06,  5.0403e-06],
+        [ 1.6820e-04,  5.3555e-05,  2.1455e-07,  ..., -5.4926e-05,
+          7.0669e-06, -3.1549e-07],
+        [ 3.5137e-05,  6.4932e-06, -3.0501e-08,  ...,  8.1956e-06,
+          6.5006e-06,  6.2585e-06],
+        ...,
+        [ 4.9353e-05,  1.8603e-07,  3.9069e-07,  ...,  1.8820e-05,
+         -2.4065e-06, -3.2008e-05],
+        [-6.3276e-04, -1.4412e-04,  7.4506e-07,  ...,  9.4101e-06,
+          1.7598e-05, -1.2815e-05],
+        [ 7.9274e-05,  1.0036e-05,  2.6496e-07,  ...,  3.5409e-06,
+          1.8567e-05,  1.6272e-05]], device='cuda:0')
+Epoch 61, bias, value: tensor([ 0.0214, -0.0176,  0.0121, -0.0213,  0.0304,  0.0178,  0.0031, -0.0104,
+        -0.0159, -0.0035], device='cuda:0'), grad: tensor([ 3.4070e-04,  6.8331e-04,  1.0777e-04,  2.7180e-04,  9.3579e-05,
+         2.0409e-04,  2.1279e-04,  1.6057e-04, -2.2717e-03,  1.9467e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 60, time 220.74, cls_loss 0.0059 cls_loss_mapping 0.0188 cls_loss_causal 0.6592 re_mapping 0.0106 re_causal 0.0334 /// teacc 98.86 lr 0.00010000
+Epoch 62, weight, value: tensor([[-7.4889e-02,  9.2146e-02, -6.7970e-03,  ..., -5.6346e-02,
+          3.8993e-03, -6.9587e-03],
+        [ 7.0992e-05, -4.1111e-02, -2.5225e-02,  ...,  2.0566e-02,
+         -7.6503e-03, -2.4275e-02],
+        [-6.9238e-02, -7.9071e-02,  2.8112e-03,  ..., -6.5107e-03,
+         -2.0477e-03, -2.3439e-02],
+        ...,
+        [ 3.7938e-02,  3.9203e-02, -2.1067e-02,  ..., -3.4214e-02,
+          4.0797e-02,  3.5874e-02],
+        [ 3.4964e-02, -2.7258e-02, -1.0568e-02,  ..., -2.7603e-03,
+         -2.5984e-03, -1.7847e-02],
+        [-6.5653e-02, -7.6623e-03, -4.8064e-02,  ...,  6.5061e-02,
+         -1.2154e-01,  3.5581e-02]], device='cuda:0'), grad: tensor([[ 8.1286e-06, -5.2862e-06,  0.0000e+00,  ...,  7.8529e-06,
+          4.7982e-06,  1.9185e-06],
+        [-4.2915e-06,  7.4832e-07,  0.0000e+00,  ..., -5.0552e-06,
+          5.5209e-06,  3.7849e-06],
+        [ 7.1883e-05,  2.9206e-06,  0.0000e+00,  ...,  1.2666e-05,
+          4.9233e-05,  1.8939e-05],
+        ...,
+        [-1.8701e-05, -3.0622e-06,  0.0000e+00,  ...,  1.0401e-05,
+         -1.3053e-05, -1.0870e-05],
+        [-1.0830e-04,  1.0468e-05,  0.0000e+00,  ...,  1.1705e-05,
+         -4.5121e-05,  2.2158e-05],
+        [ 2.3142e-05,  4.3139e-06,  0.0000e+00,  ..., -9.5785e-05,
+          1.5013e-05, -6.6042e-05]], device='cuda:0')
+Epoch 62, bias, value: tensor([ 0.0217, -0.0180,  0.0123, -0.0215,  0.0311,  0.0181,  0.0023, -0.0107,
+        -0.0158, -0.0034], device='cuda:0'), grad: tensor([ 3.7909e-05,  5.1744e-06,  2.4652e-04, -1.0192e-05,  1.3208e-04,
+        -1.6600e-05, -8.4043e-06, -3.1859e-05, -2.8920e-04, -6.5267e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 61, time 220.84, cls_loss 0.0033 cls_loss_mapping 0.0120 cls_loss_causal 0.6874 re_mapping 0.0102 re_causal 0.0346 /// teacc 98.74 lr 0.00010000
+Epoch 63, weight, value: tensor([[-0.0752,  0.0928, -0.0069,  ..., -0.0563,  0.0040, -0.0067],
+        [ 0.0004, -0.0416, -0.0253,  ...,  0.0207, -0.0077, -0.0245],
+        [-0.0698, -0.0797,  0.0030,  ..., -0.0067, -0.0017, -0.0236],
+        ...,
+        [ 0.0382,  0.0398, -0.0218,  ..., -0.0345,  0.0410,  0.0362],
+        [ 0.0352, -0.0276, -0.0107,  ..., -0.0031, -0.0032, -0.0182],
+        [-0.0660, -0.0081, -0.0492,  ...,  0.0656, -0.1225,  0.0359]],
+       device='cuda:0'), grad: tensor([[ 7.4208e-06,  3.5986e-06,  0.0000e+00,  ...,  1.4871e-05,
+          3.5707e-06,  3.0417e-06],
+        [-1.1057e-04,  4.8503e-06,  0.0000e+00,  ...,  5.2035e-05,
+         -6.1512e-05,  1.3816e-04],
+        [ 1.3757e-04,  2.1458e-06,  0.0000e+00,  ...,  7.3798e-06,
+          6.8367e-05,  7.6294e-06],
+        ...,
+        [-2.8276e-04, -1.1764e-05,  0.0000e+00,  ..., -9.9719e-05,
+         -1.1265e-04, -1.8811e-04],
+        [ 2.4021e-05,  1.2200e-06,  0.0000e+00,  ...,  1.7852e-05,
+          1.2130e-05,  6.2734e-06],
+        [ 7.2062e-05,  4.1574e-06,  0.0000e+00,  ...,  6.8426e-05,
+          1.7971e-05, -1.0645e-06]], device='cuda:0')
+Epoch 63, bias, value: tensor([ 0.0216, -0.0178,  0.0128, -0.0216,  0.0306,  0.0177,  0.0026, -0.0106,
+        -0.0158, -0.0034], device='cuda:0'), grad: tensor([ 4.0442e-05, -2.9349e-04,  3.1853e-04,  6.9141e-05,  1.4591e-04,
+        -1.4603e-05,  5.3614e-05, -5.7983e-04,  6.8307e-05,  1.9193e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 62, time 221.01, cls_loss 0.0035 cls_loss_mapping 0.0134 cls_loss_causal 0.6306 re_mapping 0.0104 re_causal 0.0331 /// teacc 98.87 lr 0.00010000
+Epoch 64, weight, value: tensor([[-7.5496e-02,  9.3501e-02, -6.9794e-03,  ..., -5.6648e-02,
+          4.1431e-03, -6.7076e-03],
+        [ 5.6886e-05, -4.2313e-02, -2.5277e-02,  ...,  2.0711e-02,
+         -7.7130e-03, -2.4739e-02],
+        [-6.9950e-02, -8.0322e-02,  2.9624e-03,  ..., -6.9391e-03,
+         -1.8660e-03, -2.4268e-02],
+        ...,
+        [ 3.8577e-02,  4.0461e-02, -2.1767e-02,  ..., -3.5000e-02,
+          4.1174e-02,  3.6529e-02],
+        [ 3.5262e-02, -2.7934e-02, -1.0756e-02,  ..., -3.5484e-03,
+         -3.6464e-03, -1.8947e-02],
+        [-6.6322e-02, -8.4466e-03, -4.9238e-02,  ...,  6.6246e-02,
+         -1.2344e-01,  3.6481e-02]], device='cuda:0'), grad: tensor([[ 2.3581e-06, -4.2152e-04,  9.9302e-08,  ...,  4.2208e-06,
+         -2.0874e-04, -1.0949e-04],
+        [-4.1366e-05,  1.8012e-06,  1.3900e-07,  ..., -7.4625e-05,
+          2.2985e-06,  2.0675e-06],
+        [ 1.2830e-05,  3.6979e-04,  3.0710e-07,  ...,  1.3500e-05,
+          1.8859e-04,  1.0049e-04],
+        ...,
+        [-4.2208e-06,  1.6600e-05,  2.1770e-08,  ...,  7.3649e-06,
+         -3.1777e-06, -5.1185e-06],
+        [-2.5779e-05,  3.5409e-06, -1.4538e-06,  ...,  8.0541e-06,
+          4.0121e-06,  7.2345e-06],
+        [ 1.5825e-05,  9.6560e-06,  5.7509e-08,  ..., -2.4348e-05,
+          9.9912e-06, -2.6464e-05]], device='cuda:0')
+Epoch 64, bias, value: tensor([ 0.0216, -0.0185,  0.0133, -0.0218,  0.0304,  0.0180,  0.0024, -0.0105,
+        -0.0159, -0.0031], device='cuda:0'), grad: tensor([-4.5371e-04, -1.4985e-04,  4.6754e-04,  1.8418e-05,  9.7573e-05,
+         7.0453e-05,  5.1051e-05,  1.5497e-05, -1.1784e-04,  1.2089e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 63, time 220.98, cls_loss 0.0045 cls_loss_mapping 0.0146 cls_loss_causal 0.6192 re_mapping 0.0106 re_causal 0.0330 /// teacc 98.94 lr 0.00010000
+Epoch 65, weight, value: tensor([[-0.0761,  0.0944, -0.0076,  ..., -0.0567,  0.0043, -0.0068],
+        [-0.0002, -0.0426, -0.0271,  ...,  0.0206, -0.0077, -0.0246],
+        [-0.0702, -0.0811,  0.0029,  ..., -0.0063, -0.0017, -0.0248],
+        ...,
+        [ 0.0391,  0.0407, -0.0228,  ..., -0.0356,  0.0418,  0.0372],
+        [ 0.0355, -0.0284, -0.0113,  ..., -0.0037, -0.0043, -0.0195],
+        [-0.0671, -0.0087, -0.0506,  ...,  0.0666, -0.1246,  0.0367]],
+       device='cuda:0'), grad: tensor([[ 2.4848e-06, -6.9011e-07,  1.3749e-07,  ...,  2.1085e-06,
+          4.8801e-06,  1.8459e-06],
+        [ 5.5283e-06,  4.7637e-07,  3.3644e-08,  ..., -9.1502e-07,
+          1.5125e-05,  1.8016e-05],
+        [ 6.6869e-06,  6.3283e-07,  5.9605e-08,  ...,  4.2915e-06,
+         -3.2961e-05,  5.1856e-06],
+        ...,
+        [-3.9041e-05, -4.2990e-06,  6.6473e-08,  ...,  4.0382e-06,
+         -6.1572e-05, -1.0842e-04],
+        [ 4.5747e-06,  3.8650e-07,  6.1141e-07,  ...,  4.4137e-05,
+          9.1419e-06,  3.6985e-05],
+        [ 3.8981e-05,  1.9409e-06,  3.4552e-07,  ...,  1.2964e-05,
+          1.9297e-05, -1.6183e-05]], device='cuda:0')
+Epoch 65, bias, value: tensor([ 0.0217, -0.0186,  0.0139, -0.0219,  0.0296,  0.0175,  0.0035, -0.0103,
+        -0.0159, -0.0034], device='cuda:0'), grad: tensor([ 2.0221e-05,  3.5256e-05, -1.3494e-04,  1.1396e-04, -1.0800e-04,
+         6.4485e-06,  1.5944e-05, -1.0711e-04,  9.5785e-05,  6.3062e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 64----------------------------------------------------
+epoch 64, time 221.38, cls_loss 0.0041 cls_loss_mapping 0.0146 cls_loss_causal 0.6342 re_mapping 0.0102 re_causal 0.0320 /// teacc 99.00 lr 0.00010000
+Epoch 66, weight, value: tensor([[-0.0765,  0.0949, -0.0101,  ..., -0.0574,  0.0047, -0.0071],
+        [-0.0002, -0.0431, -0.0272,  ...,  0.0205, -0.0079, -0.0247],
+        [-0.0706, -0.0821,  0.0028,  ..., -0.0067, -0.0018, -0.0256],
+        ...,
+        [ 0.0395,  0.0412, -0.0247,  ..., -0.0361,  0.0420,  0.0378],
+        [ 0.0359, -0.0284, -0.0117,  ..., -0.0036, -0.0049, -0.0190],
+        [-0.0678, -0.0086, -0.0530,  ...,  0.0670, -0.1263,  0.0366]],
+       device='cuda:0'), grad: tensor([[ 2.0579e-05, -4.3586e-06,  4.8708e-07,  ...,  2.1189e-05,
+          9.6932e-06,  2.6882e-05],
+        [ 7.1228e-05,  1.5751e-07,  1.4249e-07,  ...,  5.3287e-05,
+          4.2766e-05,  1.1384e-04],
+        [ 6.0499e-06,  1.1567e-06,  1.2713e-07,  ...,  4.6313e-05,
+          9.1642e-06,  1.1683e-05],
+        ...,
+        [-1.0166e-03, -7.5437e-07,  6.7870e-08,  ..., -7.2050e-04,
+         -4.8709e-04, -1.4629e-03],
+        [ 1.0580e-05,  4.9267e-07,  1.4603e-06,  ...,  2.2948e-05,
+          1.4894e-05,  1.6481e-05],
+        [ 7.5960e-04,  1.8822e-06,  1.7381e-07,  ...,  5.3167e-04,
+          3.6454e-04,  1.0710e-03]], device='cuda:0')
+Epoch 66, bias, value: tensor([ 0.0212, -0.0187,  0.0138, -0.0221,  0.0297,  0.0177,  0.0035, -0.0098,
+        -0.0153, -0.0039], device='cuda:0'), grad: tensor([ 7.9572e-05,  2.1839e-04,  2.0039e-04,  6.9857e-05,  2.5654e-04,
+         2.4045e-04, -4.3392e-04, -2.8152e-03,  7.6354e-05,  2.1057e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 65, time 220.87, cls_loss 0.0050 cls_loss_mapping 0.0155 cls_loss_causal 0.6177 re_mapping 0.0103 re_causal 0.0309 /// teacc 98.94 lr 0.00010000
+Epoch 67, weight, value: tensor([[-0.0777,  0.0952, -0.0120,  ..., -0.0580,  0.0048, -0.0075],
+        [-0.0002, -0.0440, -0.0263,  ...,  0.0199, -0.0077, -0.0256],
+        [-0.0709, -0.0829,  0.0024,  ..., -0.0070, -0.0020, -0.0262],
+        ...,
+        [ 0.0397,  0.0420, -0.0310,  ..., -0.0366,  0.0420,  0.0380],
+        [ 0.0357, -0.0291, -0.0104,  ..., -0.0042, -0.0057, -0.0194],
+        [-0.0677, -0.0087, -0.0616,  ...,  0.0678, -0.1272,  0.0373]],
+       device='cuda:0'), grad: tensor([[ 4.1872e-06, -8.3387e-05,  1.5097e-06,  ...,  4.8243e-06,
+         -1.5438e-05, -3.2902e-05],
+        [-1.4342e-05, -9.6858e-06, -4.3660e-06,  ..., -2.9579e-05,
+          1.3128e-05,  1.7986e-05],
+        [ 1.2688e-05,  2.0131e-05,  7.5735e-06,  ...,  2.4915e-05,
+          5.8934e-06,  1.9968e-05],
+        ...,
+        [-5.6177e-05, -1.2763e-05,  4.5192e-07,  ...,  5.5321e-07,
+         -2.8521e-05, -4.4733e-05],
+        [ 6.8136e-06,  7.0743e-06,  3.0175e-06,  ...,  1.5348e-05,
+          1.3784e-05,  1.2159e-05],
+        [ 1.6183e-05,  5.2392e-05,  2.9849e-07,  ..., -3.6478e-05,
+          3.2395e-05,  5.1484e-06]], device='cuda:0')
+Epoch 67, bias, value: tensor([ 0.0204, -0.0182,  0.0130, -0.0220,  0.0297,  0.0186,  0.0027, -0.0100,
+        -0.0154, -0.0033], device='cuda:0'), grad: tensor([-6.3300e-05, -4.0203e-05,  6.3181e-05, -4.7773e-05,  8.3029e-05,
+         4.6760e-05, -8.4102e-05, -8.3625e-05,  6.8545e-05,  5.7369e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 66, time 220.97, cls_loss 0.0031 cls_loss_mapping 0.0138 cls_loss_causal 0.5931 re_mapping 0.0103 re_causal 0.0315 /// teacc 98.79 lr 0.00010000
+Epoch 68, weight, value: tensor([[-0.0780,  0.0960, -0.0106,  ..., -0.0582,  0.0054, -0.0072],
+        [ 0.0004, -0.0443, -0.0264,  ...,  0.0207, -0.0082, -0.0252],
+        [-0.0714, -0.0837,  0.0022,  ..., -0.0072, -0.0020, -0.0269],
+        ...,
+        [ 0.0389,  0.0423, -0.0335,  ..., -0.0380,  0.0420,  0.0382],
+        [ 0.0359, -0.0294, -0.0106,  ..., -0.0044, -0.0061, -0.0197],
+        [-0.0690, -0.0090, -0.0651,  ...,  0.0674, -0.1285,  0.0371]],
+       device='cuda:0'), grad: tensor([[ 5.7705e-06,  8.7544e-07,  1.7462e-09,  ...,  1.1593e-05,
+          2.7008e-06,  2.5351e-06],
+        [ 1.6809e-05,  2.8983e-06,  3.4925e-09,  ...,  2.4110e-05,
+          2.5295e-06,  2.8852e-06],
+        [ 4.0680e-05,  3.2037e-06, -2.5146e-08,  ...,  7.4506e-05,
+         -1.1973e-05,  3.0864e-06],
+        ...,
+        [-5.1670e-06, -1.2308e-05,  3.8417e-09,  ...,  2.2516e-05,
+         -6.7577e-06, -1.6913e-05],
+        [ 5.8450e-06,  1.4156e-06,  8.6147e-09,  ...,  3.8862e-05,
+          3.5539e-06,  8.7619e-06],
+        [ 3.9995e-05,  5.2750e-06,  1.1642e-10,  ...,  3.8117e-05,
+          4.0270e-06, -1.4350e-05]], device='cuda:0')
+Epoch 68, bias, value: tensor([ 0.0205, -0.0181,  0.0130, -0.0216,  0.0309,  0.0185,  0.0026, -0.0106,
+        -0.0153, -0.0041], device='cuda:0'), grad: tensor([ 2.7537e-05,  5.2989e-05,  8.7023e-05,  2.8566e-05, -4.8447e-04,
+         2.9832e-05,  1.0926e-04,  4.7013e-06,  5.2571e-05,  9.1791e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 67, time 221.12, cls_loss 0.0030 cls_loss_mapping 0.0112 cls_loss_causal 0.6020 re_mapping 0.0103 re_causal 0.0317 /// teacc 98.92 lr 0.00010000
+Epoch 69, weight, value: tensor([[-0.0783,  0.0966, -0.0138,  ..., -0.0584,  0.0056, -0.0068],
+        [ 0.0004, -0.0444, -0.0267,  ...,  0.0207, -0.0084, -0.0253],
+        [-0.0723, -0.0841,  0.0013,  ..., -0.0076, -0.0019, -0.0273],
+        ...,
+        [ 0.0393,  0.0425, -0.0374,  ..., -0.0383,  0.0421,  0.0382],
+        [ 0.0364, -0.0301, -0.0085,  ..., -0.0046, -0.0068, -0.0201],
+        [-0.0695, -0.0092, -0.0687,  ...,  0.0675, -0.1293,  0.0374]],
+       device='cuda:0'), grad: tensor([[ 1.4482e-06, -1.7807e-05,  9.2317e-08,  ...,  1.1725e-06,
+          3.5074e-06, -2.6566e-07],
+        [-2.6390e-05,  3.1805e-07, -3.5483e-06,  ..., -2.8759e-05,
+          9.1642e-06,  9.8124e-06],
+        [ 2.0619e-06,  1.0803e-06,  3.3760e-08,  ...,  1.3774e-06,
+         -2.3276e-05, -1.9461e-05],
+        ...,
+        [-7.2531e-06, -2.1439e-06,  2.0128e-07,  ...,  2.8625e-05,
+          1.9252e-05,  2.4408e-05],
+        [ 1.8328e-06,  4.9137e-06,  3.8813e-07,  ...,  1.0617e-05,
+          1.8701e-05,  2.6971e-05],
+        [-2.6301e-06,  5.3085e-06,  5.6345e-08,  ..., -3.6836e-05,
+          8.7142e-05,  7.1228e-05]], device='cuda:0')
+Epoch 69, bias, value: tensor([ 0.0205, -0.0181,  0.0128, -0.0218,  0.0315,  0.0182,  0.0031, -0.0107,
+        -0.0150, -0.0043], device='cuda:0'), grad: tensor([-5.6103e-06, -2.4483e-05, -1.4770e-04, -2.7823e-04,  4.1127e-05,
+         4.0233e-05,  2.6047e-05,  1.6057e-04,  5.3406e-05,  1.3471e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 68----------------------------------------------------
+epoch 68, time 221.57, cls_loss 0.0045 cls_loss_mapping 0.0136 cls_loss_causal 0.6285 re_mapping 0.0097 re_causal 0.0292 /// teacc 99.03 lr 0.00010000
+Epoch 70, weight, value: tensor([[-0.0786,  0.0982, -0.0137,  ..., -0.0583,  0.0062, -0.0065],
+        [ 0.0002, -0.0453, -0.0298,  ...,  0.0206, -0.0082, -0.0254],
+        [-0.0721, -0.0854,  0.0048,  ..., -0.0081, -0.0018, -0.0279],
+        ...,
+        [ 0.0390,  0.0428, -0.0404,  ..., -0.0390,  0.0417,  0.0383],
+        [ 0.0366, -0.0313, -0.0081,  ..., -0.0052, -0.0074, -0.0207],
+        [-0.0697, -0.0097, -0.0712,  ...,  0.0688, -0.1306,  0.0383]],
+       device='cuda:0'), grad: tensor([[ 7.0184e-06, -1.0207e-05,  1.3330e-07,  ...,  7.4133e-06,
+         -1.6093e-06,  3.9674e-06],
+        [-5.3167e-05, -7.5027e-06, -9.4101e-06,  ..., -3.6925e-05,
+         -3.1739e-06,  4.1090e-06],
+        [ 9.1046e-06,  3.7402e-06,  1.2722e-06,  ...,  7.1414e-06,
+          5.4836e-06,  4.2245e-06],
+        ...,
+        [-2.1353e-05, -1.6272e-05,  2.4214e-06,  ...,  2.5004e-05,
+         -7.7635e-06, -1.1422e-05],
+        [ 1.4760e-05,  8.0690e-06,  5.9418e-07,  ...,  3.1918e-05,
+          8.5980e-06,  3.0369e-05],
+        [ 1.5959e-05,  1.1623e-05,  3.2922e-07,  ..., -1.1110e-04,
+          7.5661e-06, -7.9393e-05]], device='cuda:0')
+Epoch 70, bias, value: tensor([ 0.0214, -0.0184,  0.0133, -0.0218,  0.0310,  0.0180,  0.0027, -0.0114,
+        -0.0153, -0.0033], device='cuda:0'), grad: tensor([ 1.4052e-05, -1.3661e-04,  3.2991e-05,  2.2814e-05,  1.0157e-04,
+         4.3541e-05,  2.3797e-05,  2.1294e-05,  1.0139e-04, -2.2483e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 69----------------------------------------------------
+epoch 69, time 221.71, cls_loss 0.0032 cls_loss_mapping 0.0108 cls_loss_causal 0.6136 re_mapping 0.0093 re_causal 0.0298 /// teacc 99.09 lr 0.00010000
+Epoch 71, weight, value: tensor([[-0.0794,  0.0984, -0.0135,  ..., -0.0583,  0.0063, -0.0064],
+        [ 0.0003, -0.0462, -0.0298,  ...,  0.0208, -0.0084, -0.0258],
+        [-0.0729, -0.0861,  0.0048,  ..., -0.0084, -0.0019, -0.0284],
+        ...,
+        [ 0.0399,  0.0437, -0.0399,  ..., -0.0392,  0.0422,  0.0390],
+        [ 0.0370, -0.0320, -0.0081,  ..., -0.0054, -0.0079, -0.0211],
+        [-0.0709, -0.0100, -0.0734,  ...,  0.0685, -0.1317,  0.0383]],
+       device='cuda:0'), grad: tensor([[ 2.5108e-06, -6.2823e-05,  0.0000e+00,  ...,  6.0312e-06,
+         -1.6749e-05, -2.3335e-05],
+        [-2.9758e-05,  2.0079e-06,  0.0000e+00,  ..., -2.6584e-05,
+          2.9081e-07,  3.5837e-06],
+        [ 1.8924e-05,  8.6650e-06,  0.0000e+00,  ...,  1.2606e-05,
+         -1.8537e-05,  7.6033e-06],
+        ...,
+        [ 9.9167e-06, -7.4226e-07,  0.0000e+00,  ...,  4.6343e-05,
+         -7.1973e-06,  1.8269e-05],
+        [ 3.7123e-06,  2.1327e-06,  0.0000e+00,  ...,  2.2307e-05,
+          4.7907e-06,  1.8626e-05],
+        [-1.0073e-04,  2.5794e-05,  0.0000e+00,  ..., -3.4547e-04,
+          1.2748e-05, -2.8205e-04]], device='cuda:0')
+Epoch 71, bias, value: tensor([ 0.0208, -0.0183,  0.0130, -0.0218,  0.0320,  0.0179,  0.0028, -0.0108,
+        -0.0151, -0.0043], device='cuda:0'), grad: tensor([-6.0290e-05, -1.0377e-04, -3.3498e-05,  7.2658e-05,  1.7941e-04,
+         2.9898e-04,  8.0466e-06,  7.9513e-05,  7.1824e-05, -5.1308e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 70, time 221.09, cls_loss 0.0032 cls_loss_mapping 0.0122 cls_loss_causal 0.6522 re_mapping 0.0096 re_causal 0.0311 /// teacc 98.99 lr 0.00010000
+Epoch 72, weight, value: tensor([[-0.0798,  0.0994, -0.0139,  ..., -0.0586,  0.0063, -0.0060],
+        [ 0.0003, -0.0465, -0.0298,  ...,  0.0210, -0.0088, -0.0261],
+        [-0.0735, -0.0871,  0.0041,  ..., -0.0087, -0.0024, -0.0288],
+        ...,
+        [ 0.0405,  0.0440, -0.0413,  ..., -0.0397,  0.0427,  0.0392],
+        [ 0.0373, -0.0323, -0.0081,  ..., -0.0057, -0.0082, -0.0215],
+        [-0.0713, -0.0102, -0.0745,  ...,  0.0690, -0.1325,  0.0390]],
+       device='cuda:0'), grad: tensor([[ 5.4725e-06, -1.5408e-05,  0.0000e+00,  ...,  4.4219e-06,
+         -8.4266e-06, -1.9036e-06],
+        [-1.8910e-05,  5.3905e-06,  0.0000e+00,  ..., -2.2620e-05,
+          1.7732e-05,  4.1611e-06],
+        [ 1.3031e-05,  5.5395e-06,  0.0000e+00,  ...,  5.3495e-06,
+          1.6659e-05,  1.6719e-05],
+        ...,
+        [-1.1325e-04, -4.6641e-05,  0.0000e+00,  ...,  1.8284e-05,
+         -1.6719e-05, -8.0407e-05],
+        [ 2.3648e-05,  1.4767e-05,  0.0000e+00,  ...,  1.6838e-05,
+          6.4261e-06,  2.5630e-05],
+        [ 6.5923e-05,  1.2808e-05,  0.0000e+00,  ..., -2.9743e-05,
+          1.4663e-05,  1.4350e-05]], device='cuda:0')
+Epoch 72, bias, value: tensor([ 0.0208, -0.0184,  0.0125, -0.0226,  0.0315,  0.0186,  0.0033, -0.0105,
+        -0.0149, -0.0041], device='cuda:0'), grad: tensor([-2.8405e-06, -6.0856e-05,  6.9976e-05, -1.8314e-05,  5.0157e-05,
+         1.0759e-05, -5.3532e-06, -2.6917e-04,  9.4652e-05,  1.3089e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 71, time 221.18, cls_loss 0.0039 cls_loss_mapping 0.0143 cls_loss_causal 0.6273 re_mapping 0.0098 re_causal 0.0306 /// teacc 98.99 lr 0.00010000
+Epoch 73, weight, value: tensor([[-0.0803,  0.0998, -0.0144,  ..., -0.0591,  0.0063, -0.0063],
+        [ 0.0001, -0.0466, -0.0303,  ...,  0.0214, -0.0093, -0.0266],
+        [-0.0737, -0.0876,  0.0042,  ..., -0.0089, -0.0023, -0.0291],
+        ...,
+        [ 0.0409,  0.0448, -0.0403,  ..., -0.0406,  0.0425,  0.0391],
+        [ 0.0376, -0.0329, -0.0083,  ..., -0.0062, -0.0086, -0.0221],
+        [-0.0718, -0.0103, -0.0758,  ...,  0.0697, -0.1332,  0.0399]],
+       device='cuda:0'), grad: tensor([[ 5.2154e-06, -1.4164e-05,  0.0000e+00,  ...,  1.1750e-05,
+          1.4171e-05, -3.6694e-06],
+        [-5.5581e-06,  2.2389e-06,  0.0000e+00,  ..., -8.7246e-06,
+          5.2527e-06,  2.3358e-06],
+        [-5.9716e-06, -1.1533e-05,  0.0000e+00,  ...,  3.5986e-06,
+         -1.0389e-04,  1.2644e-05],
+        ...,
+        [-3.1646e-06,  7.3984e-06,  0.0000e+00,  ...,  1.1370e-05,
+          2.3276e-05, -3.3230e-05],
+        [ 2.2966e-06,  3.3304e-06,  0.0000e+00,  ...,  1.4685e-05,
+          1.1548e-05,  2.8126e-06],
+        [ 3.6955e-05,  9.0897e-06,  0.0000e+00,  ...,  1.8135e-05,
+          9.5665e-06,  1.0757e-06]], device='cuda:0')
+Epoch 73, bias, value: tensor([ 0.0202, -0.0185,  0.0127, -0.0223,  0.0313,  0.0186,  0.0031, -0.0109,
+        -0.0147, -0.0037], device='cuda:0'), grad: tensor([ 9.3818e-05,  6.7847e-07, -3.7456e-04,  9.6679e-05, -4.2856e-05,
+         4.8369e-05, -4.4405e-05,  1.4055e-04, -1.7462e-07,  8.1658e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 72, time 221.14, cls_loss 0.0034 cls_loss_mapping 0.0126 cls_loss_causal 0.6044 re_mapping 0.0099 re_causal 0.0310 /// teacc 98.85 lr 0.00010000
+Epoch 74, weight, value: tensor([[-0.0806,  0.0995, -0.0145,  ..., -0.0593,  0.0064, -0.0062],
+        [ 0.0013, -0.0473, -0.0304,  ...,  0.0219, -0.0086, -0.0256],
+        [-0.0749, -0.0884,  0.0042,  ..., -0.0091, -0.0029, -0.0300],
+        ...,
+        [ 0.0417,  0.0457, -0.0405,  ..., -0.0413,  0.0431,  0.0390],
+        [ 0.0377, -0.0334, -0.0083,  ..., -0.0066, -0.0092, -0.0226],
+        [-0.0719, -0.0106, -0.0767,  ...,  0.0706, -0.1342,  0.0407]],
+       device='cuda:0'), grad: tensor([[ 8.1956e-06, -1.2565e-04, -1.2694e-06,  ...,  5.4948e-06,
+         -4.9770e-05, -3.0175e-06],
+        [-5.9605e-05, -6.2808e-06,  7.3342e-09,  ...,  6.1691e-05,
+         -1.2979e-05,  7.1451e-06],
+        [ 1.3068e-05,  1.4231e-05,  1.0442e-07,  ...,  5.2862e-06,
+          6.1616e-06,  9.9535e-08],
+        ...,
+        [ 1.2569e-05, -3.7998e-06,  1.4785e-08,  ...,  2.9325e-05,
+          9.2667e-07,  1.2673e-05],
+        [ 5.3912e-05,  1.3366e-05,  8.5216e-08,  ...,  1.4581e-05,
+          1.0788e-05,  1.3307e-05],
+        [ 2.2694e-05,  1.6570e-05,  1.4051e-07,  ..., -3.4904e-04,
+          6.0052e-06, -3.7956e-04]], device='cuda:0')
+Epoch 74, bias, value: tensor([ 0.0196, -0.0174,  0.0119, -0.0222,  0.0303,  0.0182,  0.0035, -0.0105,
+        -0.0150, -0.0031], device='cuda:0'), grad: tensor([-1.2827e-04, -3.5334e-04,  9.7081e-06,  7.0477e-04, -7.0238e-04,
+         1.1158e-04,  8.4209e-04,  8.8274e-05,  2.6727e-04, -8.3828e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 73, time 221.10, cls_loss 0.0030 cls_loss_mapping 0.0110 cls_loss_causal 0.6055 re_mapping 0.0093 re_causal 0.0296 /// teacc 98.98 lr 0.00010000
+Epoch 75, weight, value: tensor([[-0.0805,  0.1012, -0.0139,  ..., -0.0596,  0.0072, -0.0053],
+        [ 0.0015, -0.0478, -0.0304,  ...,  0.0221, -0.0087, -0.0259],
+        [-0.0752, -0.0891,  0.0041,  ..., -0.0092, -0.0027, -0.0303],
+        ...,
+        [ 0.0419,  0.0461, -0.0410,  ..., -0.0423,  0.0433,  0.0390],
+        [ 0.0376, -0.0339, -0.0084,  ..., -0.0073, -0.0097, -0.0233],
+        [-0.0725, -0.0109, -0.0777,  ...,  0.0710, -0.1352,  0.0414]],
+       device='cuda:0'), grad: tensor([[ 2.9542e-06,  1.1586e-06,  0.0000e+00,  ...,  6.5193e-06,
+          1.9260e-06, -1.0536e-07],
+        [-1.5438e-05,  2.0545e-06,  0.0000e+00,  ..., -1.4536e-05,
+          2.6412e-06,  3.0585e-06],
+        [ 5.8208e-08,  5.8226e-06,  0.0000e+00,  ..., -2.0508e-06,
+         -8.7172e-06,  2.5611e-06],
+        ...,
+        [-4.7684e-07, -9.9838e-07,  0.0000e+00,  ...,  3.8482e-06,
+         -9.1642e-06, -1.2293e-05],
+        [-3.8967e-06,  4.7199e-06,  0.0000e+00,  ...,  7.4506e-06,
+          6.2063e-06,  2.7027e-06],
+        [ 1.1101e-05,  3.2075e-06,  0.0000e+00,  ...,  4.1164e-06,
+          6.0834e-06, -3.9302e-06]], device='cuda:0')
+Epoch 75, bias, value: tensor([ 0.0205, -0.0172,  0.0121, -0.0220,  0.0301,  0.0183,  0.0032, -0.0108,
+        -0.0156, -0.0030], device='cuda:0'), grad: tensor([ 5.4061e-05, -1.8433e-05, -1.3545e-05,  1.3077e-04,  1.6344e-04,
+        -8.6308e-05, -2.9421e-04, -1.0520e-05,  4.4286e-05,  3.0458e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 74, time 221.08, cls_loss 0.0028 cls_loss_mapping 0.0105 cls_loss_causal 0.6049 re_mapping 0.0092 re_causal 0.0292 /// teacc 98.89 lr 0.00010000
+Epoch 76, weight, value: tensor([[-0.0810,  0.1020, -0.0137,  ..., -0.0598,  0.0075, -0.0053],
+        [ 0.0012, -0.0483, -0.0304,  ...,  0.0220, -0.0092, -0.0261],
+        [-0.0751, -0.0896,  0.0042,  ..., -0.0095, -0.0025, -0.0308],
+        ...,
+        [ 0.0419,  0.0466, -0.0417,  ..., -0.0428,  0.0433,  0.0392],
+        [ 0.0386, -0.0345, -0.0085,  ..., -0.0074, -0.0095, -0.0235],
+        [-0.0732, -0.0110, -0.0780,  ...,  0.0709, -0.1359,  0.0416]],
+       device='cuda:0'), grad: tensor([[ 4.4964e-06, -4.4852e-06,  0.0000e+00,  ...,  4.1388e-06,
+          1.2532e-05,  1.3322e-05],
+        [-1.8144e-04,  3.3015e-07,  0.0000e+00,  ..., -1.5235e-04,
+         -2.8715e-05, -3.7849e-05],
+        [ 2.1368e-05,  1.2927e-06,  0.0000e+00,  ...,  1.6183e-05,
+         -1.7928e-06,  8.3223e-06],
+        ...,
+        [ 5.6118e-05, -1.8170e-06,  0.0000e+00,  ...,  4.4733e-05,
+          1.2822e-05,  1.2167e-05],
+        [ 1.7345e-05,  4.6054e-07,  0.0000e+00,  ...,  2.1115e-05,
+          8.5086e-06,  9.4697e-06],
+        [ 9.6679e-05,  2.4680e-06,  0.0000e+00,  ...,  1.5998e-04,
+          4.0770e-05,  4.9680e-05]], device='cuda:0')
+Epoch 76, bias, value: tensor([ 0.0205, -0.0177,  0.0124, -0.0217,  0.0306,  0.0177,  0.0031, -0.0110,
+        -0.0145, -0.0034], device='cuda:0'), grad: tensor([ 4.0859e-05, -5.4502e-04,  4.8280e-05, -1.6928e-04, -1.2839e-04,
+         1.3113e-04,  1.6883e-05,  1.7226e-04,  5.4300e-05,  3.7932e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 75, time 220.97, cls_loss 0.0036 cls_loss_mapping 0.0123 cls_loss_causal 0.6271 re_mapping 0.0088 re_causal 0.0287 /// teacc 98.82 lr 0.00010000
+Epoch 77, weight, value: tensor([[-0.0812,  0.1025, -0.0138,  ..., -0.0602,  0.0074, -0.0053],
+        [ 0.0010, -0.0488, -0.0305,  ...,  0.0227, -0.0096, -0.0263],
+        [-0.0748, -0.0903,  0.0043,  ..., -0.0096, -0.0022, -0.0314],
+        ...,
+        [ 0.0421,  0.0474, -0.0421,  ..., -0.0437,  0.0436,  0.0392],
+        [ 0.0388, -0.0348, -0.0086,  ..., -0.0077, -0.0100, -0.0233],
+        [-0.0739, -0.0114, -0.0782,  ...,  0.0713, -0.1371,  0.0422]],
+       device='cuda:0'), grad: tensor([[ 1.5423e-05, -2.4922e-06,  0.0000e+00,  ...,  5.9903e-06,
+          2.1998e-06,  6.5640e-06],
+        [-2.5973e-05,  2.4540e-07,  0.0000e+00,  ..., -6.0171e-05,
+          1.2398e-05, -3.5584e-05],
+        [ 1.2763e-05,  4.6100e-07,  0.0000e+00,  ...,  5.7109e-06,
+         -8.5905e-06,  4.1388e-06],
+        ...,
+        [ 8.4192e-06, -3.1246e-07,  0.0000e+00,  ...,  1.0245e-05,
+          3.6836e-05,  4.2588e-05],
+        [-3.1561e-05,  1.9069e-07,  0.0000e+00,  ...,  4.0494e-06,
+          2.9765e-06,  5.8860e-06],
+        [ 5.3674e-05,  7.7812e-07,  0.0000e+00,  ...,  1.8752e-04,
+          1.7703e-05,  3.8862e-05]], device='cuda:0')
+Epoch 77, bias, value: tensor([ 0.0203, -0.0176,  0.0132, -0.0221,  0.0304,  0.0178,  0.0032, -0.0115,
+        -0.0143, -0.0033], device='cuda:0'), grad: tensor([ 9.3102e-05, -1.0329e-04, -1.4119e-05, -4.5091e-05, -2.0003e-04,
+        -3.9315e-04,  2.3687e-04,  1.1122e-04, -1.0794e-04,  4.2319e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 76, time 220.78, cls_loss 0.0035 cls_loss_mapping 0.0107 cls_loss_causal 0.6077 re_mapping 0.0088 re_causal 0.0276 /// teacc 98.92 lr 0.00010000
+Epoch 78, weight, value: tensor([[-0.0816,  0.1028, -0.0135,  ..., -0.0598,  0.0082, -0.0063],
+        [ 0.0003, -0.0513, -0.0305,  ...,  0.0223, -0.0106, -0.0283],
+        [-0.0751, -0.0916,  0.0042,  ..., -0.0099, -0.0021, -0.0318],
+        ...,
+        [ 0.0431,  0.0482, -0.0431,  ..., -0.0441,  0.0444,  0.0402],
+        [ 0.0391, -0.0353, -0.0088,  ..., -0.0081, -0.0105, -0.0238],
+        [-0.0746, -0.0102, -0.0772,  ...,  0.0717, -0.1384,  0.0435]],
+       device='cuda:0'), grad: tensor([[ 1.1928e-05, -1.8477e-04,  1.9791e-09,  ...,  1.7196e-05,
+         -3.5137e-05, -3.2187e-05],
+        [-1.0066e-05,  6.2697e-06,  5.8208e-10,  ..., -1.2875e-05,
+          1.0915e-05,  1.8194e-05],
+        [ 2.0862e-05,  3.2604e-05, -8.9640e-09,  ...,  9.0301e-06,
+          3.3639e-06,  1.4767e-05],
+        ...,
+        [-1.9133e-05,  7.9349e-06,  1.1642e-09,  ...,  3.2246e-05,
+         -1.8463e-05, -3.4839e-05],
+        [ 1.2338e-05,  1.6794e-05,  2.0955e-09,  ...,  1.8880e-05,
+          9.3579e-06,  9.7081e-06],
+        [ 5.9068e-05,  8.1003e-05,  1.1642e-10,  ..., -2.3574e-05,
+          8.6963e-05,  5.4538e-05]], device='cuda:0')
+Epoch 78, bias, value: tensor([ 0.0201, -0.0188,  0.0134, -0.0223,  0.0304,  0.0177,  0.0028, -0.0108,
+        -0.0139, -0.0026], device='cuda:0'), grad: tensor([-2.7418e-04, -4.1574e-05,  7.7069e-05,  7.5400e-05,  1.4257e-04,
+        -3.4046e-04, -5.3704e-05,  1.1211e-07,  1.0121e-04,  3.1304e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 77, time 220.94, cls_loss 0.0027 cls_loss_mapping 0.0097 cls_loss_causal 0.5898 re_mapping 0.0096 re_causal 0.0283 /// teacc 98.94 lr 0.00010000
+Epoch 79, weight, value: tensor([[-0.0819,  0.1037, -0.0144,  ..., -0.0603,  0.0096, -0.0061],
+        [ 0.0004, -0.0521, -0.0305,  ...,  0.0225, -0.0111, -0.0285],
+        [-0.0753, -0.0927,  0.0044,  ..., -0.0101, -0.0024, -0.0323],
+        ...,
+        [ 0.0432,  0.0485, -0.0443,  ..., -0.0449,  0.0448,  0.0406],
+        [ 0.0389, -0.0357, -0.0089,  ..., -0.0088, -0.0112, -0.0243],
+        [-0.0754, -0.0104, -0.0752,  ...,  0.0720, -0.1400,  0.0439]],
+       device='cuda:0'), grad: tensor([[ 4.6231e-06, -1.1533e-05,  1.4820e-07,  ...,  9.6299e-07,
+         -2.4941e-06, -2.8815e-06],
+        [-3.7146e-04, -3.2187e-05,  3.8836e-07,  ..., -1.9476e-05,
+         -2.4691e-05, -1.2803e-04],
+        [ 3.3617e-05,  2.6152e-06,  3.0510e-06,  ...,  5.3085e-06,
+         -2.4766e-05,  2.9415e-05],
+        ...,
+        [ 1.6868e-04,  1.9968e-05, -9.3728e-06,  ...,  9.2760e-06,
+          8.0690e-06,  2.6345e-05],
+        [ 8.3387e-05,  7.6890e-06,  1.3541e-06,  ...,  8.6427e-06,
+          3.7283e-05,  3.6329e-05],
+        [ 1.8120e-05,  5.7444e-06, -2.0742e-05,  ..., -8.4341e-05,
+          1.4775e-05, -2.2769e-05]], device='cuda:0')
+Epoch 79, bias, value: tensor([ 0.0201, -0.0191,  0.0136, -0.0223,  0.0306,  0.0178,  0.0037, -0.0109,
+        -0.0146, -0.0028], device='cuda:0'), grad: tensor([ 7.4245e-06, -1.2426e-03, -1.0118e-05,  1.3566e-04,  1.1504e-04,
+        -1.5303e-05,  1.8597e-05,  6.5136e-04,  3.6597e-04, -2.6196e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 78, time 220.84, cls_loss 0.0031 cls_loss_mapping 0.0090 cls_loss_causal 0.6186 re_mapping 0.0092 re_causal 0.0294 /// teacc 99.07 lr 0.00010000
+Epoch 80, weight, value: tensor([[-0.0822,  0.1048, -0.0150,  ..., -0.0586,  0.0104, -0.0047],
+        [ 0.0006, -0.0523, -0.0306,  ...,  0.0226, -0.0120, -0.0289],
+        [-0.0756, -0.0935,  0.0048,  ..., -0.0106, -0.0027, -0.0336],
+        ...,
+        [ 0.0433,  0.0486, -0.0489,  ..., -0.0454,  0.0455,  0.0411],
+        [ 0.0390, -0.0362, -0.0091,  ..., -0.0090, -0.0119, -0.0247],
+        [-0.0760, -0.0112, -0.0699,  ...,  0.0717, -0.1408,  0.0437]],
+       device='cuda:0'), grad: tensor([[ 4.7013e-06, -2.0933e-04,  2.4261e-07,  ...,  2.0817e-05,
+         -7.5817e-05, -6.6936e-05],
+        [-6.6087e-06,  4.7795e-06,  7.2410e-08,  ...,  2.9542e-06,
+          5.6177e-06,  8.4043e-06],
+        [ 4.0084e-06,  5.4985e-06, -1.7253e-07,  ...,  9.9912e-06,
+          1.3418e-05,  1.0714e-05],
+        ...,
+        [ 4.9546e-07, -1.9139e-07,  7.5623e-07,  ...,  5.7757e-05,
+         -9.5740e-06,  3.9414e-06],
+        [ 3.3170e-05,  9.5367e-06,  1.6834e-07,  ...,  1.7130e-04,
+          9.6112e-06,  6.1035e-05],
+        [-2.2364e-04,  8.1897e-05, -2.1029e-06,  ..., -1.0204e-03,
+          2.7835e-05, -3.0994e-04]], device='cuda:0')
+Epoch 80, bias, value: tensor([ 0.0213, -0.0196,  0.0135, -0.0223,  0.0308,  0.0179,  0.0032, -0.0103,
+        -0.0147, -0.0034], device='cuda:0'), grad: tensor([-2.1386e-04,  1.4819e-05,  4.4137e-05,  4.6670e-05,  1.8435e-03,
+         1.4043e-04,  1.4913e-04,  1.1510e-04,  4.2272e-04, -2.5635e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 79, time 220.84, cls_loss 0.0030 cls_loss_mapping 0.0120 cls_loss_causal 0.6440 re_mapping 0.0092 re_causal 0.0294 /// teacc 98.93 lr 0.00010000
+Epoch 81, weight, value: tensor([[-0.0824,  0.1050, -0.0155,  ..., -0.0590,  0.0107, -0.0050],
+        [ 0.0012, -0.0526, -0.0310,  ...,  0.0231, -0.0123, -0.0279],
+        [-0.0757, -0.0941,  0.0054,  ..., -0.0108, -0.0024, -0.0343],
+        ...,
+        [ 0.0431,  0.0489, -0.0488,  ..., -0.0462,  0.0451,  0.0406],
+        [ 0.0392, -0.0365, -0.0092,  ..., -0.0092, -0.0121, -0.0250],
+        [-0.0764, -0.0107, -0.0700,  ...,  0.0721, -0.1413,  0.0444]],
+       device='cuda:0'), grad: tensor([[ 5.8524e-06, -6.2466e-05, -4.0978e-08,  ...,  1.7673e-05,
+         -2.6003e-05, -1.9997e-05],
+        [-9.0376e-06,  1.1595e-06,  8.1491e-10,  ..., -1.5900e-05,
+          3.3192e-06,  3.4496e-06],
+        [ 5.2676e-06,  8.2627e-06,  7.7998e-09,  ...,  1.0505e-05,
+          1.5572e-05,  1.2837e-05],
+        ...,
+        [ 3.4664e-06,  3.7551e-06,  5.9372e-09,  ...,  5.2005e-06,
+          1.1839e-05,  8.9556e-06],
+        [-4.5560e-06,  3.0417e-06,  3.8417e-09,  ...,  3.9749e-06,
+          3.2429e-06,  3.9153e-06],
+        [ 1.0602e-05,  2.2665e-05,  2.3283e-09,  ...,  3.1050e-06,
+          1.0535e-05,  3.1274e-06]], device='cuda:0')
+Epoch 81, bias, value: tensor([ 0.0209, -0.0199,  0.0148, -0.0225,  0.0307,  0.0180,  0.0029, -0.0113,
+        -0.0145, -0.0030], device='cuda:0'), grad: tensor([-2.7061e-05, -5.5999e-05,  8.3506e-05, -5.0694e-05,  2.0564e-05,
+         1.0335e-04, -1.5008e-04,  4.1217e-05, -1.0765e-04,  1.4305e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 80----------------------------------------------------
+epoch 80, time 221.48, cls_loss 0.0035 cls_loss_mapping 0.0098 cls_loss_causal 0.5995 re_mapping 0.0085 re_causal 0.0261 /// teacc 99.14 lr 0.00010000
+Epoch 82, weight, value: tensor([[-0.0827,  0.1055, -0.0154,  ..., -0.0592,  0.0108, -0.0047],
+        [ 0.0003, -0.0530, -0.0308,  ...,  0.0222, -0.0120, -0.0281],
+        [-0.0757, -0.0948,  0.0055,  ..., -0.0112, -0.0020, -0.0350],
+        ...,
+        [ 0.0439,  0.0494, -0.0499,  ..., -0.0467,  0.0447,  0.0411],
+        [ 0.0391, -0.0369, -0.0094,  ..., -0.0096, -0.0127, -0.0259],
+        [-0.0766, -0.0109, -0.0708,  ...,  0.0727, -0.1425,  0.0445]],
+       device='cuda:0'), grad: tensor([[ 3.3118e-06,  5.0813e-06,  4.0629e-08,  ...,  7.7784e-06,
+          2.4531e-06, -3.8557e-06],
+        [-6.1244e-06,  5.6578e-07,  1.7229e-08,  ..., -6.9439e-06,
+         -2.2507e-04, -8.6248e-05],
+        [ 8.8066e-06,  9.4436e-07,  1.1758e-08,  ...,  3.1125e-06,
+          1.1975e-04,  5.0455e-05],
+        ...,
+        [-5.7444e-06, -2.1560e-07,  4.9011e-08,  ...,  1.8198e-06,
+          8.7321e-05,  3.1114e-05],
+        [ 1.8459e-06,  2.4009e-06,  6.8569e-08,  ...,  9.7677e-06,
+          1.3202e-05,  3.6731e-06],
+        [ 7.3835e-06,  4.6231e-06,  1.0885e-07,  ...,  3.7719e-06,
+          2.0862e-05,  1.0550e-05]], device='cuda:0')
+Epoch 82, bias, value: tensor([ 0.0207, -0.0206,  0.0149, -0.0230,  0.0307,  0.0182,  0.0033, -0.0105,
+        -0.0150, -0.0028], device='cuda:0'), grad: tensor([ 5.3972e-05, -9.6273e-04,  4.8804e-04,  9.4652e-05,  4.2260e-05,
+        -8.2254e-05, -1.1313e-04,  3.6550e-04,  5.5373e-05,  5.8323e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 81, time 220.72, cls_loss 0.0035 cls_loss_mapping 0.0122 cls_loss_causal 0.6171 re_mapping 0.0082 re_causal 0.0261 /// teacc 98.95 lr 0.00010000
+Epoch 83, weight, value: tensor([[-0.0832,  0.1068, -0.0149,  ..., -0.0595,  0.0118, -0.0043],
+        [ 0.0005, -0.0528, -0.0312,  ...,  0.0224, -0.0122, -0.0286],
+        [-0.0765, -0.0960,  0.0058,  ..., -0.0116, -0.0020, -0.0361],
+        ...,
+        [ 0.0442,  0.0501, -0.0513,  ..., -0.0472,  0.0452,  0.0416],
+        [ 0.0385, -0.0381, -0.0098,  ..., -0.0100, -0.0143, -0.0266],
+        [-0.0771, -0.0116, -0.0711,  ...,  0.0730, -0.1442,  0.0449]],
+       device='cuda:0'), grad: tensor([[ 3.3360e-06, -3.8669e-06, -3.0873e-07,  ...,  1.8952e-06,
+         -3.5600e-07, -6.5472e-07],
+        [-3.2544e-05, -3.4012e-06, -1.1793e-07,  ..., -2.2411e-05,
+          4.1872e-06,  6.9179e-06],
+        [ 8.4490e-06,  9.6858e-07,  3.1665e-08,  ...,  2.7008e-06,
+          4.9174e-07,  1.9148e-06],
+        ...,
+        [-2.2069e-05,  4.7358e-07,  4.5751e-08,  ...,  6.6124e-06,
+         -2.1800e-05, -3.1829e-05],
+        [ 1.6659e-05,  1.3122e-06,  1.6519e-07,  ...,  4.6752e-06,
+          7.6108e-06,  2.7642e-06],
+        [ 9.1866e-06,  1.3346e-06,  4.5868e-08,  ...,  1.1418e-06,
+          3.9712e-06, -2.0873e-07]], device='cuda:0')
+Epoch 83, bias, value: tensor([ 0.0209, -0.0203,  0.0147, -0.0220,  0.0307,  0.0176,  0.0037, -0.0102,
+        -0.0161, -0.0031], device='cuda:0'), grad: tensor([ 5.9940e-06, -9.1136e-05,  2.2009e-05,  6.2048e-05,  1.5140e-05,
+        -1.6943e-05,  5.2154e-06, -3.7909e-05,  1.5795e-05,  1.9729e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 82, time 220.61, cls_loss 0.0029 cls_loss_mapping 0.0092 cls_loss_causal 0.5959 re_mapping 0.0082 re_causal 0.0254 /// teacc 98.94 lr 0.00010000
+Epoch 84, weight, value: tensor([[-0.0839,  0.1077, -0.0151,  ..., -0.0598,  0.0124, -0.0040],
+        [ 0.0006, -0.0526, -0.0317,  ...,  0.0224, -0.0123, -0.0288],
+        [-0.0767, -0.0970,  0.0064,  ..., -0.0120, -0.0019, -0.0371],
+        ...,
+        [ 0.0446,  0.0502, -0.0508,  ..., -0.0477,  0.0452,  0.0418],
+        [ 0.0381, -0.0385, -0.0105,  ..., -0.0102, -0.0155, -0.0264],
+        [-0.0778, -0.0119, -0.0714,  ...,  0.0734, -0.1455,  0.0455]],
+       device='cuda:0'), grad: tensor([[ 6.6683e-06, -5.0180e-06,  9.5367e-07,  ...,  1.3642e-05,
+         -1.0617e-06, -1.5309e-07],
+        [-5.6505e-05,  1.7812e-07,  7.1758e-07,  ..., -6.7234e-05,
+         -1.5488e-06,  2.0508e-06],
+        [ 3.1769e-05,  1.7406e-06,  5.2564e-06,  ...,  6.1750e-05,
+          3.2596e-06,  3.2224e-06],
+        ...,
+        [ 6.3777e-06, -6.4494e-07,  2.1365e-06,  ...,  3.0294e-05,
+         -7.2867e-06, -9.2164e-06],
+        [ 2.4617e-05,  1.3607e-06,  3.7346e-06,  ...,  5.1498e-05,
+          2.0973e-06,  5.8338e-06],
+        [ 3.9279e-05,  6.0257e-07,  4.6901e-06,  ...,  3.6657e-05,
+          1.3165e-05, -8.2031e-06]], device='cuda:0')
+Epoch 84, bias, value: tensor([ 0.0209, -0.0202,  0.0149, -0.0219,  0.0306,  0.0177,  0.0042, -0.0103,
+        -0.0165, -0.0033], device='cuda:0'), grad: tensor([ 2.2069e-05, -1.7333e-04,  1.2720e-04,  5.0329e-06, -5.1546e-04,
+        -7.9023e-07,  2.8563e-04,  3.7819e-05,  1.0449e-04,  1.0735e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 83, time 220.55, cls_loss 0.0029 cls_loss_mapping 0.0107 cls_loss_causal 0.6312 re_mapping 0.0082 re_causal 0.0265 /// teacc 98.95 lr 0.00010000
+Epoch 85, weight, value: tensor([[-0.0846,  0.1085, -0.0148,  ..., -0.0600,  0.0129, -0.0039],
+        [ 0.0009, -0.0536, -0.0314,  ...,  0.0228, -0.0126, -0.0289],
+        [-0.0775, -0.0980,  0.0066,  ..., -0.0123, -0.0021, -0.0383],
+        ...,
+        [ 0.0449,  0.0511, -0.0508,  ..., -0.0488,  0.0457,  0.0421],
+        [ 0.0383, -0.0392, -0.0107,  ..., -0.0107, -0.0161, -0.0268],
+        [-0.0788, -0.0122, -0.0719,  ...,  0.0736, -0.1467,  0.0464]],
+       device='cuda:0'), grad: tensor([[ 3.6526e-06, -4.1816e-07,  4.1211e-07,  ...,  1.2122e-05,
+          1.9237e-05, -6.6170e-07],
+        [-2.6131e-04,  1.7472e-06, -3.4094e-05,  ...,  3.5107e-05,
+          6.3814e-06,  3.1274e-06],
+        [ 9.0659e-05,  3.8370e-06,  1.0677e-05,  ...,  4.6119e-06,
+          1.9848e-05,  9.7901e-06],
+        ...,
+        [ 8.1733e-06,  2.3663e-05,  9.7789e-07,  ...,  3.1292e-05,
+          9.8586e-05,  2.2626e-04],
+        [-1.1615e-05,  2.4997e-06,  7.7859e-07,  ...,  1.7853e-06,
+         -3.3099e-06,  3.6042e-06],
+        [ 2.2352e-05, -2.4602e-05,  1.1956e-07,  ...,  3.7402e-05,
+          1.7613e-05, -1.1164e-04]], device='cuda:0')
+Epoch 85, bias, value: tensor([ 0.0207, -0.0200,  0.0145, -0.0220,  0.0312,  0.0174,  0.0043, -0.0104,
+        -0.0164, -0.0034], device='cuda:0'), grad: tensor([ 1.3459e-04, -6.0511e-04,  2.9016e-04, -1.1247e-04,  8.0168e-06,
+         1.4842e-04, -7.1228e-05,  3.2115e-04, -5.7191e-05, -5.7012e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 84, time 220.61, cls_loss 0.0028 cls_loss_mapping 0.0083 cls_loss_causal 0.5845 re_mapping 0.0084 re_causal 0.0262 /// teacc 98.99 lr 0.00010000
+Epoch 86, weight, value: tensor([[-0.0852,  0.1097, -0.0152,  ..., -0.0604,  0.0135, -0.0034],
+        [ 0.0010, -0.0540, -0.0316,  ...,  0.0228, -0.0128, -0.0291],
+        [-0.0779, -0.0986,  0.0066,  ..., -0.0126, -0.0019, -0.0388],
+        ...,
+        [ 0.0453,  0.0521, -0.0508,  ..., -0.0492,  0.0458,  0.0425],
+        [ 0.0385, -0.0398, -0.0109,  ..., -0.0107, -0.0166, -0.0273],
+        [-0.0794, -0.0126, -0.0721,  ...,  0.0737, -0.1478,  0.0466]],
+       device='cuda:0'), grad: tensor([[ 1.5780e-05, -6.0834e-06,  1.6857e-07,  ...,  2.3857e-05,
+          6.5193e-08,  1.3530e-05],
+        [-1.3602e-04,  7.4431e-06, -1.0297e-05,  ..., -1.2290e-04,
+         -2.0489e-06,  2.4199e-05],
+        [ 4.2260e-05,  1.2010e-05,  3.9637e-06,  ...,  2.4334e-05,
+          9.8050e-06,  3.2336e-05],
+        ...,
+        [-3.4285e-04, -4.5347e-04,  2.1956e-07,  ...,  3.2157e-05,
+         -2.4164e-04, -1.5593e-03],
+        [ 6.1512e-05,  1.8522e-05,  5.1260e-06,  ...,  6.9141e-05,
+          1.1601e-05,  6.3360e-05],
+        [ 3.2496e-04,  3.9601e-04,  4.5169e-08,  ...,  1.7643e-04,
+          2.0230e-04,  1.3752e-03]], device='cuda:0')
+Epoch 86, bias, value: tensor([ 0.0208, -0.0201,  0.0144, -0.0222,  0.0314,  0.0191,  0.0024, -0.0102,
+        -0.0163, -0.0037], device='cuda:0'), grad: tensor([ 1.0574e-04, -4.8232e-04,  2.1863e-04,  7.0810e-05, -3.1304e-04,
+         1.9658e-04, -1.6403e-04, -4.7569e-03,  4.0030e-04,  4.7226e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 85, time 220.41, cls_loss 0.0024 cls_loss_mapping 0.0098 cls_loss_causal 0.5999 re_mapping 0.0081 re_causal 0.0251 /// teacc 99.01 lr 0.00010000
+Epoch 87, weight, value: tensor([[-0.0857,  0.1108, -0.0154,  ..., -0.0606,  0.0151, -0.0030],
+        [ 0.0015, -0.0543, -0.0311,  ...,  0.0233, -0.0130, -0.0292],
+        [-0.0784, -0.1001,  0.0065,  ..., -0.0131, -0.0020, -0.0397],
+        ...,
+        [ 0.0455,  0.0539, -0.0513,  ..., -0.0501,  0.0463,  0.0434],
+        [ 0.0388, -0.0404, -0.0110,  ..., -0.0110, -0.0174, -0.0278],
+        [-0.0804, -0.0134, -0.0724,  ...,  0.0738, -0.1496,  0.0464]],
+       device='cuda:0'), grad: tensor([[ 5.4948e-07,  1.0394e-05,  0.0000e+00,  ...,  4.7684e-06,
+          1.7146e-06,  1.0375e-06],
+        [-3.7067e-06,  9.5868e-08,  0.0000e+00,  ..., -2.6878e-06,
+          7.2597e-07,  8.3260e-07],
+        [ 2.1700e-06,  1.6857e-07,  0.0000e+00,  ...,  1.1427e-06,
+          2.1923e-06,  2.5369e-06],
+        ...,
+        [ 3.6992e-06,  8.1898e-08,  0.0000e+00,  ...,  4.2655e-06,
+          9.5135e-07,  1.4650e-06],
+        [-4.6901e-06,  3.6461e-07,  0.0000e+00,  ...,  6.6608e-06,
+          2.3674e-06,  5.7854e-06],
+        [ 4.4964e-06,  1.5588e-07,  0.0000e+00,  ..., -2.6748e-05,
+          2.2594e-06, -2.2247e-05]], device='cuda:0')
+Epoch 87, bias, value: tensor([ 0.0210, -0.0197,  0.0140, -0.0221,  0.0318,  0.0188,  0.0024, -0.0096,
+        -0.0160, -0.0047], device='cuda:0'), grad: tensor([ 3.5167e-05, -7.8902e-06,  9.6411e-06,  1.1943e-05,  4.8988e-06,
+         1.7881e-05, -4.5985e-05,  1.3970e-05,  6.7381e-07, -4.0352e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 86, time 220.80, cls_loss 0.0025 cls_loss_mapping 0.0089 cls_loss_causal 0.6006 re_mapping 0.0085 re_causal 0.0264 /// teacc 99.06 lr 0.00010000
+Epoch 88, weight, value: tensor([[-0.0864,  0.1112, -0.0154,  ..., -0.0608,  0.0155, -0.0030],
+        [ 0.0018, -0.0533, -0.0310,  ...,  0.0236, -0.0131, -0.0292],
+        [-0.0789, -0.1007,  0.0067,  ..., -0.0135, -0.0019, -0.0401],
+        ...,
+        [ 0.0457,  0.0541, -0.0517,  ..., -0.0509,  0.0464,  0.0435],
+        [ 0.0390, -0.0410, -0.0110,  ..., -0.0115, -0.0178, -0.0284],
+        [-0.0815, -0.0134, -0.0723,  ...,  0.0744, -0.1502,  0.0478]],
+       device='cuda:0'), grad: tensor([[ 5.8580e-07, -5.5879e-06,  0.0000e+00,  ...,  2.6785e-06,
+          1.6123e-05, -7.0874e-07],
+        [-9.2983e-06,  2.1094e-07,  0.0000e+00,  ..., -5.3272e-06,
+          2.4781e-05,  3.4273e-06],
+        [ 4.0308e-06,  9.1270e-07,  0.0000e+00,  ...,  1.4575e-06,
+         -3.8052e-04,  2.5164e-06],
+        ...,
+        [-9.0599e-05,  1.1089e-07,  0.0000e+00,  ...,  2.0973e-06,
+         -7.9095e-05, -1.8275e-04],
+        [-2.5649e-06,  6.4634e-07,  0.0000e+00,  ...,  1.0677e-05,
+          5.5544e-06,  6.1654e-06],
+        [ 1.5527e-05,  1.7434e-06,  0.0000e+00,  ..., -7.5102e-06,
+          2.0012e-05,  2.3156e-05]], device='cuda:0')
+Epoch 88, bias, value: tensor([ 0.0207, -0.0194,  0.0140, -0.0220,  0.0317,  0.0183,  0.0029, -0.0099,
+        -0.0161, -0.0043], device='cuda:0'), grad: tensor([ 4.3392e-05,  3.4630e-05, -7.8011e-04,  8.5831e-04,  2.6077e-05,
+         2.3201e-05, -2.7984e-05, -2.3687e-04,  1.7926e-05,  4.0859e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 87, time 220.28, cls_loss 0.0024 cls_loss_mapping 0.0084 cls_loss_causal 0.6018 re_mapping 0.0084 re_causal 0.0258 /// teacc 98.99 lr 0.00010000
+Epoch 89, weight, value: tensor([[-0.0867,  0.1120, -0.0155,  ..., -0.0611,  0.0160, -0.0027],
+        [ 0.0018, -0.0535, -0.0310,  ...,  0.0236, -0.0136, -0.0297],
+        [-0.0798, -0.1017,  0.0068,  ..., -0.0138, -0.0021, -0.0411],
+        ...,
+        [ 0.0459,  0.0543, -0.0520,  ..., -0.0515,  0.0461,  0.0436],
+        [ 0.0391, -0.0414, -0.0111,  ..., -0.0118, -0.0183, -0.0287],
+        [-0.0817, -0.0135, -0.0721,  ...,  0.0750, -0.1509,  0.0484]],
+       device='cuda:0'), grad: tensor([[ 4.6119e-06, -6.1393e-05,  1.0952e-06,  ...,  1.6484e-06,
+         -3.5819e-06, -3.6824e-06],
+        [ 3.5297e-06,  1.6823e-05,  1.5879e-07,  ...,  4.1798e-06,
+          4.1686e-06,  2.0638e-05],
+        [ 1.3746e-05,  1.4290e-05, -1.2107e-05,  ...,  3.9721e-07,
+         -1.2713e-06,  1.2524e-05],
+        ...,
+        [ 1.0226e-06, -1.0908e-05,  4.7730e-07,  ...,  5.2899e-05,
+         -9.7556e-08,  8.4877e-05],
+        [ 5.5611e-05,  2.2784e-05,  2.3693e-06,  ...,  3.2540e-06,
+          2.8268e-05,  2.4393e-05],
+        [ 1.6138e-05,  5.1707e-06,  4.2543e-06,  ..., -7.5161e-05,
+          1.5765e-05, -1.1098e-04]], device='cuda:0')
+Epoch 89, bias, value: tensor([ 0.0209, -0.0197,  0.0138, -0.0214,  0.0315,  0.0177,  0.0037, -0.0102,
+        -0.0162, -0.0038], device='cuda:0'), grad: tensor([-5.6893e-05,  5.6744e-05, -1.8477e-05,  3.4857e-04,  3.8624e-05,
+        -7.1573e-04,  4.0323e-05,  1.5891e-04,  2.4629e-04, -9.8705e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 88, time 220.67, cls_loss 0.0030 cls_loss_mapping 0.0094 cls_loss_causal 0.5944 re_mapping 0.0083 re_causal 0.0250 /// teacc 99.00 lr 0.00010000
+Epoch 90, weight, value: tensor([[-0.0872,  0.1128, -0.0157,  ..., -0.0611,  0.0165, -0.0030],
+        [ 0.0020, -0.0526, -0.0310,  ...,  0.0238, -0.0137, -0.0296],
+        [-0.0804, -0.1028,  0.0069,  ..., -0.0143, -0.0025, -0.0419],
+        ...,
+        [ 0.0469,  0.0547, -0.0524,  ..., -0.0519,  0.0466,  0.0443],
+        [ 0.0392, -0.0413, -0.0113,  ..., -0.0120, -0.0188, -0.0289],
+        [-0.0831, -0.0136, -0.0717,  ...,  0.0744, -0.1517,  0.0482]],
+       device='cuda:0'), grad: tensor([[ 2.5611e-06, -1.7345e-05,  1.4610e-07,  ...,  1.7080e-06,
+          1.9185e-06, -3.2429e-06],
+        [-1.2910e-04,  2.4978e-06, -1.8612e-05,  ...,  3.9548e-05,
+         -3.6418e-05, -7.8231e-06],
+        [ 9.3281e-05,  1.5581e-06,  9.5591e-06,  ...,  4.4346e-05,
+          2.5660e-05,  1.1943e-05],
+        ...,
+        [ 7.1190e-06, -5.6140e-06,  5.3644e-07,  ...,  1.2569e-05,
+          1.6615e-05, -1.1347e-05],
+        [ 6.7353e-06,  1.2293e-06,  3.9418e-07,  ...,  7.8753e-06,
+          1.4767e-05,  5.3942e-06],
+        [ 5.9977e-06,  1.3195e-05,  6.6299e-08,  ..., -2.6915e-07,
+          2.2054e-05,  5.8040e-06]], device='cuda:0')
+Epoch 90, bias, value: tensor([ 0.0209, -0.0193,  0.0131, -0.0211,  0.0322,  0.0173,  0.0036, -0.0094,
+        -0.0160, -0.0050], device='cuda:0'), grad: tensor([ 6.0201e-06, -6.3801e-04,  4.2272e-04, -1.5128e-04, -1.6344e-04,
+         1.4043e-04,  1.2130e-04,  9.9897e-05,  7.9870e-05,  8.2314e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 89, time 220.83, cls_loss 0.0027 cls_loss_mapping 0.0091 cls_loss_causal 0.5901 re_mapping 0.0080 re_causal 0.0234 /// teacc 99.14 lr 0.00010000
+Epoch 91, weight, value: tensor([[-0.0877,  0.1142, -0.0157,  ..., -0.0611,  0.0173, -0.0031],
+        [ 0.0018, -0.0549, -0.0318,  ...,  0.0238, -0.0141, -0.0302],
+        [-0.0806, -0.1058,  0.0079,  ..., -0.0149, -0.0026, -0.0427],
+        ...,
+        [ 0.0475,  0.0560, -0.0527,  ..., -0.0523,  0.0467,  0.0451],
+        [ 0.0395, -0.0419, -0.0113,  ..., -0.0122, -0.0196, -0.0292],
+        [-0.0837, -0.0137, -0.0721,  ...,  0.0746, -0.1529,  0.0482]],
+       device='cuda:0'), grad: tensor([[ 6.2352e-07, -3.8370e-06,  0.0000e+00,  ...,  1.1278e-06,
+          2.1025e-07, -2.9104e-07],
+        [ 1.0012e-06,  2.6566e-07,  0.0000e+00,  ...,  1.0021e-06,
+          3.1292e-06,  1.9521e-06],
+        [ 3.1572e-06,  4.9733e-07,  0.0000e+00,  ...,  4.7423e-06,
+          6.2026e-06,  3.7998e-06],
+        ...,
+        [-5.1931e-06, -1.7211e-06,  0.0000e+00,  ...,  2.8033e-06,
+         -6.6683e-06, -1.1064e-05],
+        [ 1.9372e-06,  5.1828e-07,  0.0000e+00,  ...,  3.2280e-06,
+          7.5251e-06,  3.9898e-06],
+        [ 5.5283e-06,  1.7071e-06,  0.0000e+00,  ..., -2.5183e-06,
+          7.0781e-06,  2.9244e-06]], device='cuda:0')
+Epoch 91, bias, value: tensor([ 0.0215, -0.0199,  0.0130, -0.0215,  0.0317,  0.0178,  0.0037, -0.0086,
+        -0.0157, -0.0056], device='cuda:0'), grad: tensor([ 2.6394e-06,  9.6560e-06,  2.0698e-05,  1.8626e-05, -2.0877e-05,
+        -4.8876e-05, -7.8231e-06, -1.8731e-05,  2.4065e-05,  2.0519e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 90, time 220.35, cls_loss 0.0021 cls_loss_mapping 0.0078 cls_loss_causal 0.6056 re_mapping 0.0078 re_causal 0.0258 /// teacc 98.98 lr 0.00010000
+Epoch 92, weight, value: tensor([[-0.0880,  0.1146, -0.0155,  ..., -0.0614,  0.0175, -0.0031],
+        [ 0.0019, -0.0552, -0.0321,  ...,  0.0240, -0.0144, -0.0302],
+        [-0.0809, -0.1064,  0.0080,  ..., -0.0151, -0.0023, -0.0433],
+        ...,
+        [ 0.0477,  0.0564, -0.0529,  ..., -0.0531,  0.0468,  0.0452],
+        [ 0.0393, -0.0425, -0.0116,  ..., -0.0126, -0.0204, -0.0297],
+        [-0.0839, -0.0138, -0.0723,  ...,  0.0752, -0.1539,  0.0486]],
+       device='cuda:0'), grad: tensor([[ 1.2079e-06, -2.7250e-06,  4.5309e-07,  ...,  7.4953e-06,
+          4.6217e-07,  2.9150e-07],
+        [ 2.2743e-06,  9.6217e-08,  9.6508e-08,  ...,  6.2920e-06,
+          1.4352e-06,  1.2657e-06],
+        [ 3.1497e-06,  1.9663e-07,  1.2014e-07,  ...,  4.3288e-06,
+         -1.1794e-05,  1.0040e-06],
+        ...,
+        [ 3.6489e-06,  2.2957e-07,  1.5774e-08,  ...,  1.0714e-05,
+          4.6915e-07,  3.4529e-07],
+        [ 1.0274e-05,  2.5961e-07,  4.2655e-06,  ...,  5.1856e-05,
+          2.4270e-06,  4.1761e-06],
+        [ 1.2946e-04,  1.4864e-06,  9.5693e-08,  ...,  2.1827e-04,
+          1.9073e-06, -2.0877e-05]], device='cuda:0')
+Epoch 92, bias, value: tensor([ 0.0213, -0.0200,  0.0136, -0.0218,  0.0311,  0.0185,  0.0039, -0.0088,
+        -0.0162, -0.0055], device='cuda:0'), grad: tensor([ 2.0370e-05,  1.6853e-05, -2.8849e-05,  1.2624e-04, -4.5538e-04,
+        -7.3075e-05, -1.2517e-04,  2.5958e-05,  1.3566e-04,  3.5787e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 91, time 220.55, cls_loss 0.0022 cls_loss_mapping 0.0067 cls_loss_causal 0.6204 re_mapping 0.0079 re_causal 0.0248 /// teacc 98.93 lr 0.00010000
+Epoch 93, weight, value: tensor([[-0.0883,  0.1150, -0.0157,  ..., -0.0620,  0.0176, -0.0029],
+        [ 0.0019, -0.0556, -0.0317,  ...,  0.0240, -0.0142, -0.0305],
+        [-0.0808, -0.1069,  0.0075,  ..., -0.0154, -0.0018, -0.0439],
+        ...,
+        [ 0.0476,  0.0567, -0.0531,  ..., -0.0537,  0.0463,  0.0453],
+        [ 0.0395, -0.0429, -0.0119,  ..., -0.0131, -0.0211, -0.0302],
+        [-0.0845, -0.0143, -0.0722,  ...,  0.0753, -0.1548,  0.0489]],
+       device='cuda:0'), grad: tensor([[ 1.1008e-06,  1.8179e-05,  1.0186e-08,  ...,  6.6578e-05,
+          6.1281e-07,  5.0277e-05],
+        [ 2.0489e-07,  3.6065e-07,  2.2701e-09,  ..., -4.4284e-07,
+          1.3094e-06,  1.5665e-06],
+        [ 3.2298e-06,  2.4540e-07, -3.2596e-08,  ...,  3.3975e-06,
+         -4.0941e-06,  2.1104e-06],
+        ...,
+        [ 1.6481e-05,  6.4634e-07,  1.4843e-08,  ...,  1.9133e-05,
+          6.2399e-08,  1.8356e-06],
+        [-4.0919e-05,  2.7642e-05,  2.3108e-08,  ...,  8.6427e-05,
+         -8.3148e-06,  6.7413e-05],
+        [ 9.5814e-06, -5.2065e-05,  1.7288e-08,  ..., -1.6785e-04,
+          2.0545e-06, -1.3065e-04]], device='cuda:0')
+Epoch 93, bias, value: tensor([ 0.0208, -0.0195,  0.0136, -0.0212,  0.0316,  0.0184,  0.0039, -0.0093,
+        -0.0163, -0.0058], device='cuda:0'), grad: tensor([ 1.1057e-04, -3.7998e-06, -3.6545e-06,  5.6714e-05, -2.7448e-05,
+         2.0042e-05,  5.1446e-06,  4.5508e-05,  5.0277e-05, -2.5296e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 92, time 220.72, cls_loss 0.0021 cls_loss_mapping 0.0086 cls_loss_causal 0.5993 re_mapping 0.0077 re_causal 0.0246 /// teacc 99.00 lr 0.00010000
+Epoch 94, weight, value: tensor([[-0.0887,  0.1156, -0.0160,  ..., -0.0626,  0.0177, -0.0031],
+        [ 0.0018, -0.0562, -0.0328,  ...,  0.0239, -0.0144, -0.0306],
+        [-0.0805, -0.1076,  0.0094,  ..., -0.0157, -0.0014, -0.0443],
+        ...,
+        [ 0.0476,  0.0569, -0.0541,  ..., -0.0544,  0.0460,  0.0453],
+        [ 0.0400, -0.0438, -0.0121,  ..., -0.0136, -0.0221, -0.0309],
+        [-0.0851, -0.0140, -0.0723,  ...,  0.0759, -0.1560,  0.0494]],
+       device='cuda:0'), grad: tensor([[ 1.2433e-06, -1.6820e-06, -2.1688e-07,  ...,  8.9966e-07,
+          2.7148e-07,  8.4867e-08],
+        [ 7.8455e-06,  1.8964e-07,  1.5716e-08,  ...,  7.2606e-06,
+          6.7335e-07,  1.2703e-06],
+        [ 9.9093e-07,  3.6438e-07, -5.4133e-08,  ...,  1.2890e-06,
+          8.9081e-07,  9.2341e-07],
+        ...,
+        [ 5.8860e-06, -2.7451e-07,  3.0734e-08,  ...,  9.2164e-06,
+          3.6508e-07,  2.7772e-06],
+        [ 9.4995e-06,  2.5029e-07,  1.8044e-08,  ...,  1.6570e-05,
+          2.5518e-06,  6.1803e-06],
+        [ 5.0031e-06,  7.5996e-07,  6.9733e-08,  ..., -7.2122e-05,
+          1.6829e-06, -3.8505e-05]], device='cuda:0')
+Epoch 94, bias, value: tensor([ 0.0205, -0.0199,  0.0144, -0.0216,  0.0316,  0.0189,  0.0041, -0.0099,
+        -0.0163, -0.0056], device='cuda:0'), grad: tensor([ 4.8615e-06,  1.5989e-05,  6.0983e-06,  2.5496e-05,  3.4779e-05,
+        -3.8773e-05,  1.2510e-05,  1.9342e-05,  3.8058e-05, -1.1832e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 93, time 220.65, cls_loss 0.0021 cls_loss_mapping 0.0072 cls_loss_causal 0.5920 re_mapping 0.0077 re_causal 0.0240 /// teacc 99.06 lr 0.00010000
+Epoch 95, weight, value: tensor([[-0.0890,  0.1167, -0.0161,  ..., -0.0628,  0.0194, -0.0027],
+        [ 0.0019, -0.0572, -0.0334,  ...,  0.0238, -0.0144, -0.0306],
+        [-0.0806, -0.1087,  0.0109,  ..., -0.0159, -0.0012, -0.0448],
+        ...,
+        [ 0.0479,  0.0572, -0.0549,  ..., -0.0547,  0.0461,  0.0455],
+        [ 0.0399, -0.0444, -0.0124,  ..., -0.0142, -0.0230, -0.0314],
+        [-0.0855, -0.0143, -0.0724,  ...,  0.0763, -0.1567,  0.0497]],
+       device='cuda:0'), grad: tensor([[ 4.9127e-07, -4.0084e-06, -3.2154e-07,  ...,  2.1942e-06,
+         -1.0151e-07,  8.1584e-07],
+        [-1.5600e-08,  5.5460e-07,  2.7474e-08,  ...,  3.4384e-06,
+          6.5239e-07,  2.3302e-06],
+        [ 1.5004e-06,  2.0247e-06, -8.7311e-07,  ...,  1.1902e-06,
+         -1.4380e-06,  1.0952e-06],
+        ...,
+        [-2.0470e-06, -3.4645e-06,  8.9174e-08,  ...,  1.3851e-05,
+         -2.6710e-06,  1.4724e-06],
+        [ 2.5686e-06,  1.2163e-06,  2.5332e-07,  ...,  5.2303e-06,
+          6.4867e-07,  1.0477e-06],
+        [ 1.1072e-05,  1.4305e-06,  4.9826e-08,  ...,  3.0380e-06,
+          9.5367e-07, -2.1368e-05]], device='cuda:0')
+Epoch 95, bias, value: tensor([ 0.0210, -0.0197,  0.0149, -0.0222,  0.0314,  0.0188,  0.0044, -0.0101,
+        -0.0167, -0.0056], device='cuda:0'), grad: tensor([ 1.1278e-06,  1.1332e-05, -6.3144e-06,  1.1779e-05, -2.3901e-05,
+         1.4439e-05, -1.7276e-06,  2.3663e-05,  9.8124e-06, -4.0233e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 94, time 220.65, cls_loss 0.0023 cls_loss_mapping 0.0081 cls_loss_causal 0.6184 re_mapping 0.0077 re_causal 0.0237 /// teacc 99.07 lr 0.00010000
+Epoch 96, weight, value: tensor([[-0.0893,  0.1170, -0.0161,  ..., -0.0633,  0.0193, -0.0027],
+        [ 0.0020, -0.0582, -0.0340,  ...,  0.0241, -0.0151, -0.0309],
+        [-0.0807, -0.1094,  0.0114,  ..., -0.0162, -0.0012, -0.0454],
+        ...,
+        [ 0.0481,  0.0590, -0.0555,  ..., -0.0556,  0.0464,  0.0457],
+        [ 0.0398, -0.0449, -0.0126,  ..., -0.0147, -0.0235, -0.0318],
+        [-0.0863, -0.0150, -0.0725,  ...,  0.0768, -0.1582,  0.0501]],
+       device='cuda:0'), grad: tensor([[ 3.7393e-07, -1.9923e-05, -5.1409e-07,  ..., -5.3085e-06,
+         -1.9337e-07, -6.5416e-06],
+        [ 2.0582e-06,  1.8310e-06,  1.1059e-08,  ..., -8.2981e-07,
+          7.6517e-06,  6.7800e-06],
+        [ 9.9763e-06,  1.7891e-06,  6.1234e-08,  ...,  2.2314e-06,
+          1.0259e-05,  7.2382e-06],
+        ...,
+        [-1.4603e-05, -6.6496e-06,  7.2061e-08,  ...,  3.9712e-06,
+         -3.2961e-05, -2.3082e-05],
+        [-1.3341e-07,  1.4491e-06,  3.2922e-07,  ...,  1.5451e-06,
+          3.4235e-06,  2.5611e-06],
+        [ 2.6114e-06,  1.6093e-05,  8.0094e-08,  ..., -2.8685e-06,
+          9.6634e-06,  3.5912e-06]], device='cuda:0')
+Epoch 96, bias, value: tensor([ 0.0205, -0.0198,  0.0151, -0.0220,  0.0313,  0.0188,  0.0051, -0.0100,
+        -0.0172, -0.0058], device='cuda:0'), grad: tensor([-2.5481e-05,  1.4789e-05,  3.0756e-05,  2.0906e-05, -3.0696e-05,
+        -1.1779e-05,  3.6269e-05, -6.6817e-05,  5.2936e-06,  2.6807e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 95, time 220.68, cls_loss 0.0024 cls_loss_mapping 0.0078 cls_loss_causal 0.5855 re_mapping 0.0078 re_causal 0.0231 /// teacc 98.96 lr 0.00010000
+Epoch 97, weight, value: tensor([[-0.0896,  0.1182, -0.0159,  ..., -0.0632,  0.0203, -0.0025],
+        [ 0.0020, -0.0614, -0.0340,  ...,  0.0244, -0.0164, -0.0319],
+        [-0.0811, -0.1107,  0.0117,  ..., -0.0167, -0.0005, -0.0464],
+        ...,
+        [ 0.0489,  0.0608, -0.0559,  ..., -0.0564,  0.0473,  0.0471],
+        [ 0.0397, -0.0464, -0.0127,  ..., -0.0152, -0.0241, -0.0324],
+        [-0.0870, -0.0153, -0.0728,  ...,  0.0773, -0.1595,  0.0504]],
+       device='cuda:0'), grad: tensor([[ 1.6391e-07, -1.4333e-06,  6.4028e-09,  ...,  1.7984e-06,
+         -1.1362e-07,  1.1409e-06],
+        [ 7.7672e-07,  8.8941e-08,  1.8626e-09,  ...,  1.7822e-05,
+          7.3249e-07,  1.4894e-05],
+        [ 2.2743e-06,  3.4063e-07, -3.6787e-08,  ...,  1.9092e-06,
+          3.5167e-06,  3.4235e-06],
+        ...,
+        [-7.4226e-07,  2.0023e-07,  8.0327e-09,  ...,  4.6007e-06,
+         -2.0191e-06,  2.3358e-06],
+        [ 5.5879e-08,  2.9826e-07,  2.2119e-09,  ...,  3.3285e-06,
+          1.1856e-06,  3.9451e-06],
+        [ 1.0729e-06,  2.0501e-07,  6.9849e-10,  ..., -4.3005e-05,
+          3.1712e-07, -3.7253e-05]], device='cuda:0')
+Epoch 97, bias, value: tensor([ 0.0212, -0.0202,  0.0159, -0.0221,  0.0313,  0.0184,  0.0047, -0.0098,
+        -0.0174, -0.0059], device='cuda:0'), grad: tensor([ 3.3602e-06,  3.8564e-05,  1.0140e-05, -1.3644e-06,  1.0498e-05,
+         4.6864e-06,  5.9046e-06,  8.4564e-06,  9.1866e-06, -8.9467e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 96, time 220.56, cls_loss 0.0022 cls_loss_mapping 0.0078 cls_loss_causal 0.6119 re_mapping 0.0075 re_causal 0.0242 /// teacc 99.05 lr 0.00010000
+Epoch 98, weight, value: tensor([[-0.0902,  0.1193, -0.0155,  ..., -0.0631,  0.0210, -0.0022],
+        [ 0.0021, -0.0627, -0.0340,  ...,  0.0247, -0.0168, -0.0322],
+        [-0.0819, -0.1121,  0.0118,  ..., -0.0171, -0.0009, -0.0476],
+        ...,
+        [ 0.0495,  0.0621, -0.0558,  ..., -0.0573,  0.0481,  0.0474],
+        [ 0.0397, -0.0472, -0.0128,  ..., -0.0157, -0.0244, -0.0327],
+        [-0.0881, -0.0156, -0.0730,  ...,  0.0774, -0.1604,  0.0513]],
+       device='cuda:0'), grad: tensor([[ 5.9418e-07, -1.2481e-04,  1.7695e-08,  ...,  7.7859e-06,
+         -3.4928e-05, -3.8594e-05],
+        [-5.2862e-06,  3.2913e-06,  3.4925e-09,  ..., -2.6710e-06,
+          1.7853e-06,  2.3898e-06],
+        [ 2.2259e-06,  1.4611e-05, -5.0873e-08,  ...,  5.6587e-06,
+          4.6454e-06,  5.9418e-06],
+        ...,
+        [-5.8264e-06,  2.6301e-06,  4.1910e-09,  ...,  2.5313e-06,
+         -1.7583e-06, -5.2601e-06],
+        [ 1.2163e-06,  1.0811e-05,  8.4983e-09,  ...,  2.8908e-06,
+          4.0382e-06,  5.0180e-06],
+        [ 3.8408e-06,  3.3021e-05,  8.1491e-10,  ..., -7.0594e-07,
+          9.8497e-06,  7.4059e-06]], device='cuda:0')
+Epoch 98, bias, value: tensor([ 0.0217, -0.0202,  0.0157, -0.0227,  0.0320,  0.0190,  0.0040, -0.0097,
+        -0.0178, -0.0059], device='cuda:0'), grad: tensor([-1.4091e-04, -9.4473e-06,  3.4243e-05,  3.8981e-05,  8.2552e-05,
+        -4.7743e-05, -4.0382e-05,  2.0256e-07,  2.9132e-05,  5.3138e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 97, time 220.44, cls_loss 0.0019 cls_loss_mapping 0.0085 cls_loss_causal 0.5781 re_mapping 0.0080 re_causal 0.0238 /// teacc 99.01 lr 0.00010000
+Epoch 99, weight, value: tensor([[-0.0906,  0.1179, -0.0185,  ..., -0.0650,  0.0207, -0.0019],
+        [ 0.0023, -0.0630, -0.0341,  ...,  0.0248, -0.0172, -0.0325],
+        [-0.0829, -0.1136,  0.0117,  ..., -0.0174, -0.0012, -0.0484],
+        ...,
+        [ 0.0500,  0.0626, -0.0553,  ..., -0.0578,  0.0484,  0.0476],
+        [ 0.0400, -0.0479, -0.0128,  ..., -0.0160, -0.0249, -0.0332],
+        [-0.0889, -0.0159, -0.0731,  ...,  0.0776, -0.1614,  0.0517]],
+       device='cuda:0'), grad: tensor([[ 1.1325e-06, -1.0058e-06,  2.3888e-07,  ...,  1.7546e-06,
+         -2.4331e-08,  2.1327e-06],
+        [ 1.8324e-07,  8.8941e-07,  1.1297e-06,  ..., -3.1316e-08,
+          2.6040e-06,  1.8664e-06],
+        [-3.2447e-06,  6.5658e-07, -4.4554e-06,  ...,  2.1923e-06,
+         -5.7481e-06,  2.4140e-06],
+        ...,
+        [-5.7667e-06, -1.5527e-05,  9.2946e-07,  ...,  1.0364e-05,
+          2.1625e-06, -5.6028e-06],
+        [ 1.9129e-06,  6.2119e-07,  4.4378e-07,  ...,  4.6156e-06,
+          1.6894e-06,  3.6452e-06],
+        [ 7.4022e-06,  8.6427e-06,  1.5309e-07,  ..., -3.4124e-05,
+          2.6505e-06, -1.8775e-05]], device='cuda:0')
+Epoch 99, bias, value: tensor([ 0.0199, -0.0200,  0.0147, -0.0229,  0.0321,  0.0193,  0.0055, -0.0095,
+        -0.0173, -0.0060], device='cuda:0'), grad: tensor([ 7.2792e-06,  1.0490e-05, -3.5733e-05, -3.6024e-06,  1.1921e-05,
+         3.4302e-05,  4.4480e-06,  1.6596e-06,  2.2605e-05, -5.3436e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 98, time 220.34, cls_loss 0.0024 cls_loss_mapping 0.0080 cls_loss_causal 0.5691 re_mapping 0.0075 re_causal 0.0221 /// teacc 98.99 lr 0.00010000
+Epoch 100, weight, value: tensor([[-0.0909,  0.1193, -0.0185,  ..., -0.0639,  0.0220, -0.0011],
+        [ 0.0022, -0.0633, -0.0356,  ...,  0.0247, -0.0179, -0.0331],
+        [-0.0836, -0.1146,  0.0135,  ..., -0.0176, -0.0009, -0.0494],
+        ...,
+        [ 0.0509,  0.0628, -0.0559,  ..., -0.0590,  0.0490,  0.0479],
+        [ 0.0403, -0.0486, -0.0123,  ..., -0.0163, -0.0254, -0.0338],
+        [-0.0889, -0.0165, -0.0725,  ...,  0.0792, -0.1626,  0.0532]],
+       device='cuda:0'), grad: tensor([[ 1.3625e-06, -5.8115e-07,  0.0000e+00,  ...,  1.0096e-06,
+          1.4564e-07,  6.3702e-07],
+        [-6.2995e-06,  6.8336e-08,  0.0000e+00,  ..., -2.6301e-06,
+          6.9477e-07, -2.8424e-06],
+        [ 1.0096e-06,  1.0943e-07,  0.0000e+00,  ...,  7.8930e-07,
+          6.4410e-06,  3.3174e-06],
+        ...,
+        [ 2.7865e-06, -3.2946e-08,  0.0000e+00,  ...,  2.2799e-06,
+         -1.6054e-07,  5.9791e-07],
+        [-4.0948e-05, -2.9523e-07,  0.0000e+00,  ...,  2.1793e-06,
+          1.7174e-06,  2.4885e-06],
+        [ 1.3402e-06,  1.7288e-07,  0.0000e+00,  ..., -1.7315e-05,
+          9.7882e-07, -1.2226e-05]], device='cuda:0')
+Epoch 100, bias, value: tensor([ 0.0209, -0.0207,  0.0155, -0.0228,  0.0313,  0.0187,  0.0047, -0.0097,
+        -0.0170, -0.0049], device='cuda:0'), grad: tensor([ 6.1058e-06, -2.3618e-05,  1.5303e-05,  1.7703e-05,  2.0087e-05,
+         2.8670e-05,  2.5675e-05,  1.2547e-05, -7.0453e-05, -3.2008e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 99, time 220.44, cls_loss 0.0023 cls_loss_mapping 0.0080 cls_loss_causal 0.5889 re_mapping 0.0076 re_causal 0.0225 /// teacc 98.98 lr 0.00010000
+Epoch 101, weight, value: tensor([[-0.0914,  0.1202, -0.0186,  ..., -0.0640,  0.0221, -0.0009],
+        [ 0.0021, -0.0641, -0.0356,  ...,  0.0247, -0.0181, -0.0335],
+        [-0.0839, -0.1143,  0.0135,  ..., -0.0181, -0.0003, -0.0499],
+        ...,
+        [ 0.0515,  0.0636, -0.0563,  ..., -0.0597,  0.0487,  0.0480],
+        [ 0.0411, -0.0490, -0.0124,  ..., -0.0164, -0.0257, -0.0341],
+        [-0.0900, -0.0167, -0.0726,  ...,  0.0791, -0.1634,  0.0536]],
+       device='cuda:0'), grad: tensor([[ 8.2608e-07, -1.2912e-05,  2.7940e-09,  ...,  2.2016e-06,
+         -4.6417e-06, -1.7211e-06],
+        [ 3.6117e-06,  4.2841e-07,  6.8569e-08,  ...,  3.3490e-06,
+          1.5497e-06,  2.0005e-06],
+        [ 1.6680e-06,  7.8510e-07, -9.0338e-08,  ...,  2.8629e-06,
+         -1.4761e-06,  1.9502e-06],
+        ...,
+        [ 8.5449e-07, -2.3283e-08,  3.0268e-09,  ...,  1.2890e-05,
+         -5.6485e-07,  5.3309e-06],
+        [-4.9055e-05,  3.3062e-07,  4.7730e-09,  ..., -8.1807e-06,
+         -2.8824e-07,  5.2415e-06],
+        [ 1.7853e-06,  6.9141e-06,  1.2806e-09,  ..., -1.8668e-04,
+          3.7290e-06, -9.5785e-05]], device='cuda:0')
+Epoch 101, bias, value: tensor([ 0.0208, -0.0208,  0.0165, -0.0229,  0.0317,  0.0186,  0.0041, -0.0104,
+        -0.0160, -0.0052], device='cuda:0'), grad: tensor([-1.8803e-06,  2.1055e-05, -6.4559e-06,  5.2333e-05,  2.9039e-04,
+         5.0277e-05,  3.6538e-05,  3.1054e-05, -1.1826e-04, -3.5477e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 100, time 220.77, cls_loss 0.0019 cls_loss_mapping 0.0066 cls_loss_causal 0.5607 re_mapping 0.0075 re_causal 0.0230 /// teacc 99.05 lr 0.00010000
+Epoch 102, weight, value: tensor([[-0.0916,  0.1208, -0.0187,  ..., -0.0639,  0.0230,  0.0003],
+        [ 0.0022, -0.0643, -0.0356,  ...,  0.0247, -0.0183, -0.0337],
+        [-0.0845, -0.1146,  0.0135,  ..., -0.0184, -0.0007, -0.0508],
+        ...,
+        [ 0.0519,  0.0640, -0.0566,  ..., -0.0603,  0.0492,  0.0486],
+        [ 0.0415, -0.0494, -0.0146,  ..., -0.0170, -0.0263, -0.0348],
+        [-0.0905, -0.0177, -0.0728,  ...,  0.0793, -0.1649,  0.0534]],
+       device='cuda:0'), grad: tensor([[ 3.5297e-06, -2.5749e-05,  1.7462e-09,  ...,  4.3167e-07,
+         -1.0200e-05, -9.6485e-06],
+        [-1.5395e-06,  2.1532e-06,  8.1491e-10,  ..., -4.8615e-06,
+          1.2703e-06,  1.4883e-06],
+        [ 1.1757e-05,  9.7677e-06, -8.8476e-09,  ...,  9.0711e-07,
+          5.0254e-06,  6.0201e-06],
+        ...,
+        [-5.3942e-05, -4.4294e-06,  8.1491e-10,  ...,  3.7719e-06,
+         -8.9109e-06, -3.3025e-06],
+        [ 2.8238e-06,  2.4978e-06,  2.0955e-09,  ...,  2.2538e-06,
+          1.7295e-06,  2.3674e-06],
+        [ 1.8412e-06,  6.5304e-06,  0.0000e+00,  ..., -5.6624e-06,
+          5.0440e-06,  1.7695e-07]], device='cuda:0')
+Epoch 102, bias, value: tensor([ 0.0208, -0.0206,  0.0157, -0.0232,  0.0317,  0.0186,  0.0033, -0.0097,
+        -0.0146, -0.0054], device='cuda:0'), grad: tensor([-2.4751e-05, -1.1288e-05,  3.7938e-05, -3.0667e-05,  5.5969e-05,
+         2.9206e-05,  1.8943e-06, -7.7844e-05,  1.4976e-05,  4.5411e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 101, time 220.43, cls_loss 0.0022 cls_loss_mapping 0.0074 cls_loss_causal 0.5463 re_mapping 0.0071 re_causal 0.0213 /// teacc 98.91 lr 0.00010000
+Epoch 103, weight, value: tensor([[-0.0920,  0.1219, -0.0186,  ..., -0.0641,  0.0240,  0.0003],
+        [ 0.0025, -0.0647, -0.0364,  ...,  0.0251, -0.0188, -0.0346],
+        [-0.0849, -0.1153,  0.0147,  ..., -0.0188, -0.0009, -0.0514],
+        ...,
+        [ 0.0523,  0.0642, -0.0572,  ..., -0.0611,  0.0497,  0.0490],
+        [ 0.0414, -0.0499, -0.0149,  ..., -0.0177, -0.0269, -0.0355],
+        [-0.0916, -0.0179, -0.0736,  ...,  0.0797, -0.1660,  0.0539]],
+       device='cuda:0'), grad: tensor([[ 5.0012e-07, -4.1910e-06,  0.0000e+00,  ...,  4.7730e-07,
+          5.6326e-06,  1.5472e-07],
+        [ 1.2070e-06,  4.9779e-07,  0.0000e+00,  ..., -1.3120e-07,
+          4.9695e-06,  3.0361e-06],
+        [ 8.1211e-06,  5.0198e-07,  0.0000e+00,  ...,  1.5181e-06,
+         -1.4909e-05,  1.2200e-06],
+        ...,
+        [-2.1625e-06,  1.9674e-07,  0.0000e+00,  ...,  2.7902e-06,
+          1.9162e-07, -5.2620e-07],
+        [-1.9431e-05,  4.9593e-07,  0.0000e+00,  ...,  6.0303e-07,
+          5.8413e-06,  1.8645e-06],
+        [ 1.2033e-06, -2.2119e-09,  0.0000e+00,  ..., -4.2133e-06,
+          1.9874e-06, -2.7344e-06]], device='cuda:0')
+Epoch 103, bias, value: tensor([ 0.0214, -0.0205,  0.0156, -0.0233,  0.0313,  0.0189,  0.0029, -0.0094,
+        -0.0149, -0.0054], device='cuda:0'), grad: tensor([ 5.4926e-05,  3.2812e-05, -5.6863e-05,  4.0859e-05,  5.4538e-06,
+         2.5719e-05,  1.9193e-05,  1.3851e-05, -1.3936e-04,  3.4086e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 102, time 220.91, cls_loss 0.0025 cls_loss_mapping 0.0097 cls_loss_causal 0.6108 re_mapping 0.0074 re_causal 0.0238 /// teacc 98.99 lr 0.00010000
+Epoch 104, weight, value: tensor([[-0.0925,  0.1222, -0.0187,  ..., -0.0647,  0.0243,  0.0004],
+        [ 0.0022, -0.0649, -0.0368,  ...,  0.0252, -0.0197, -0.0350],
+        [-0.0855, -0.1161,  0.0148,  ..., -0.0193, -0.0007, -0.0520],
+        ...,
+        [ 0.0530,  0.0644, -0.0575,  ..., -0.0610,  0.0499,  0.0505],
+        [ 0.0417, -0.0503, -0.0152,  ..., -0.0184, -0.0275, -0.0360],
+        [-0.0927, -0.0181, -0.0740,  ...,  0.0797, -0.1667,  0.0535]],
+       device='cuda:0'), grad: tensor([[ 3.3248e-07, -6.2678e-07,  1.3970e-08,  ...,  4.4005e-07,
+          9.2164e-06, -1.5600e-08],
+        [-3.6228e-06,  1.6938e-07,  2.1188e-08,  ..., -4.4368e-06,
+          6.5506e-05,  1.0468e-06],
+        [ 7.9535e-07,  2.0198e-07, -1.5635e-07,  ...,  6.0350e-07,
+          1.2267e-04,  6.5146e-07],
+        ...,
+        [-3.1348e-06, -1.6652e-06,  3.5740e-08,  ...,  1.7928e-06,
+          2.1160e-06, -7.2941e-06],
+        [ 3.7309e-06,  1.5111e-07,  1.5367e-08,  ...,  1.1861e-05,
+          1.6510e-05,  5.6364e-06],
+        [ 4.4852e-06,  1.4659e-06,  3.7253e-09,  ..., -1.1154e-05,
+          1.5542e-05,  2.6729e-07]], device='cuda:0')
+Epoch 104, bias, value: tensor([ 0.0209, -0.0210,  0.0156, -0.0227,  0.0317,  0.0181,  0.0041, -0.0085,
+        -0.0150, -0.0063], device='cuda:0'), grad: tensor([ 3.4571e-05,  2.2388e-04,  4.3797e-04, -9.1743e-04,  1.1019e-05,
+         7.3075e-05,  5.9456e-06,  5.1642e-07,  8.3148e-05,  4.6015e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 103, time 220.67, cls_loss 0.0020 cls_loss_mapping 0.0070 cls_loss_causal 0.5876 re_mapping 0.0071 re_causal 0.0218 /// teacc 99.00 lr 0.00010000
+Epoch 105, weight, value: tensor([[-0.0929,  0.1222, -0.0187,  ..., -0.0656,  0.0247,  0.0004],
+        [ 0.0025, -0.0653, -0.0371,  ...,  0.0255, -0.0204, -0.0354],
+        [-0.0862, -0.1172,  0.0151,  ..., -0.0197, -0.0011, -0.0529],
+        ...,
+        [ 0.0535,  0.0652, -0.0579,  ..., -0.0622,  0.0505,  0.0508],
+        [ 0.0418, -0.0510, -0.0155,  ..., -0.0197, -0.0278, -0.0366],
+        [-0.0936, -0.0182, -0.0742,  ...,  0.0802, -0.1677,  0.0543]],
+       device='cuda:0'), grad: tensor([[ 1.1211e-07, -9.1419e-06, -5.0850e-07,  ..., -4.1304e-07,
+         -1.7658e-06, -1.8906e-06],
+        [-1.5041e-06,  1.3062e-07,  6.5193e-09,  ..., -1.0990e-06,
+          1.1101e-06,  1.3812e-06],
+        [ 3.1432e-07,  9.1596e-07,  3.7020e-08,  ...,  4.6054e-07,
+         -6.3982e-07,  1.9409e-06],
+        ...,
+        [ 1.7777e-07, -9.2434e-08,  4.5402e-09,  ...,  3.2075e-06,
+          1.6959e-06,  4.3884e-06],
+        [-3.1758e-07,  5.6019e-07,  2.0140e-08,  ...,  9.4529e-07,
+          6.7055e-06,  4.8950e-06],
+        [ 4.3726e-07,  5.7444e-06,  3.5227e-07,  ..., -5.4352e-06,
+          2.1551e-06, -5.5209e-06]], device='cuda:0')
+Epoch 105, bias, value: tensor([ 0.0203, -0.0212,  0.0151, -0.0235,  0.0318,  0.0184,  0.0054, -0.0082,
+        -0.0152, -0.0063], device='cuda:0'), grad: tensor([-9.5442e-06, -1.0012e-08, -4.0196e-06, -2.1607e-05,  4.5933e-06,
+         5.6848e-06,  1.5670e-07,  1.2346e-05,  1.5467e-05, -3.1684e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 104, time 220.97, cls_loss 0.0015 cls_loss_mapping 0.0059 cls_loss_causal 0.5443 re_mapping 0.0072 re_causal 0.0217 /// teacc 99.03 lr 0.00010000
+Epoch 106, weight, value: tensor([[-0.0933,  0.1227, -0.0187,  ..., -0.0655,  0.0240,  0.0004],
+        [ 0.0029, -0.0656, -0.0372,  ...,  0.0257, -0.0205, -0.0353],
+        [-0.0866, -0.1179,  0.0152,  ..., -0.0201, -0.0010, -0.0533],
+        ...,
+        [ 0.0536,  0.0657, -0.0583,  ..., -0.0628,  0.0504,  0.0506],
+        [ 0.0416, -0.0519, -0.0158,  ..., -0.0202, -0.0284, -0.0370],
+        [-0.0941, -0.0185, -0.0746,  ...,  0.0804, -0.1688,  0.0547]],
+       device='cuda:0'), grad: tensor([[ 8.0327e-07, -9.0152e-06,  7.4506e-08,  ...,  3.8147e-06,
+         -9.9745e-07,  3.7439e-07],
+        [-4.7758e-06,  2.7493e-06,  2.3749e-08,  ..., -8.3074e-06,
+          1.2964e-06,  5.9721e-08],
+        [ 1.5870e-06,  2.9635e-06, -1.0547e-07,  ...,  7.4878e-06,
+          2.5029e-08,  6.1048e-07],
+        ...,
+        [ 1.3085e-06,  3.5809e-07,  8.0792e-08,  ...,  1.7891e-06,
+         -2.9197e-07, -7.0874e-07],
+        [ 8.2515e-07,  1.4147e-06,  6.4168e-07,  ...,  1.2517e-06,
+          2.6245e-06,  1.2200e-06],
+        [ 3.8296e-06,  1.0282e-06,  3.2596e-08,  ...,  2.9299e-06,
+          1.3942e-06, -1.3388e-08]], device='cuda:0')
+Epoch 106, bias, value: tensor([ 0.0202, -0.0209,  0.0151, -0.0237,  0.0318,  0.0190,  0.0056, -0.0086,
+        -0.0156, -0.0065], device='cuda:0'), grad: tensor([-2.2911e-07, -1.6704e-05,  2.2665e-05,  6.8210e-06,  9.4548e-06,
+        -2.8238e-05, -1.9595e-05,  6.4857e-06,  3.6899e-06,  1.5616e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 105, time 220.79, cls_loss 0.0015 cls_loss_mapping 0.0061 cls_loss_causal 0.5838 re_mapping 0.0074 re_causal 0.0226 /// teacc 98.97 lr 0.00010000
+Epoch 107, weight, value: tensor([[-9.3715e-02,  1.2358e-01, -1.8597e-02,  ..., -6.5391e-02,
+          2.4342e-02,  7.5395e-04],
+        [ 2.5178e-03, -6.6111e-02, -3.7216e-02,  ...,  2.5703e-02,
+         -2.0907e-02, -3.5493e-02],
+        [-8.7000e-02, -1.1843e-01,  1.6030e-02,  ..., -2.0451e-02,
+         -2.9550e-05, -5.3902e-02],
+        ...,
+        [ 5.3872e-02,  6.6164e-02, -5.8684e-02,  ..., -6.3178e-02,
+          5.0525e-02,  5.0905e-02],
+        [ 4.1980e-02, -5.3026e-02, -1.6616e-02,  ..., -2.1096e-02,
+         -2.8867e-02, -3.7698e-02],
+        [-9.4526e-02, -1.8773e-02, -7.5252e-02,  ...,  8.1105e-02,
+         -1.6960e-01,  5.5257e-02]], device='cuda:0'), grad: tensor([[ 4.9546e-07, -1.8105e-05, -6.6357e-08,  ...,  1.5134e-06,
+         -3.0510e-06,  1.2191e-06],
+        [ 2.4363e-06,  2.0303e-06,  2.0536e-07,  ...,  4.3698e-06,
+          1.8701e-06,  1.6261e-06],
+        [ 1.1809e-06,  5.3607e-06,  1.9791e-07,  ...,  2.4699e-06,
+          2.2218e-05,  1.0081e-05],
+        ...,
+        [ 9.5740e-07,  6.1374e-07,  9.0338e-08,  ...,  4.8168e-06,
+          3.2838e-06,  3.7029e-06],
+        [ 5.5786e-07,  1.2619e-06,  1.6973e-07,  ...,  4.2431e-06,
+          1.6820e-06,  4.2431e-06],
+        [-7.4692e-06,  2.8755e-07,  3.7090e-07,  ..., -4.3416e-04,
+          4.0233e-06, -2.4164e-04]], device='cuda:0')
+Epoch 107, bias, value: tensor([ 0.0206, -0.0213,  0.0158, -0.0243,  0.0311,  0.0193,  0.0056, -0.0087,
+        -0.0158, -0.0061], device='cuda:0'), grad: tensor([-1.7479e-05,  1.4067e-05,  4.2319e-05, -3.4362e-05,  6.7759e-04,
+        -6.0126e-06,  2.1324e-05,  1.7464e-05,  3.5968e-06, -7.1907e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 106, time 220.80, cls_loss 0.0022 cls_loss_mapping 0.0064 cls_loss_causal 0.5457 re_mapping 0.0071 re_causal 0.0202 /// teacc 99.04 lr 0.00010000
+Epoch 108, weight, value: tensor([[-9.4231e-02,  1.2426e-01, -1.8423e-02,  ..., -6.5438e-02,
+          2.4460e-02,  7.9014e-04],
+        [ 3.1821e-03, -6.5055e-02, -3.8028e-02,  ...,  2.5876e-02,
+         -2.0493e-02, -3.5400e-02],
+        [-8.7990e-02, -1.1898e-01,  1.6350e-02,  ..., -2.1196e-02,
+         -9.4269e-05, -5.4634e-02],
+        ...,
+        [ 5.3773e-02,  6.6105e-02, -5.9064e-02,  ..., -6.3832e-02,
+          5.0405e-02,  5.0946e-02],
+        [ 4.2024e-02, -5.3797e-02, -1.6914e-02,  ..., -2.1493e-02,
+         -3.0128e-02, -3.8407e-02],
+        [-9.5116e-02, -1.9066e-02, -7.5213e-02,  ...,  8.1397e-02,
+         -1.7119e-01,  5.5579e-02]], device='cuda:0'), grad: tensor([[ 4.0559e-07, -3.3509e-06,  3.0501e-08,  ...,  8.6892e-07,
+         -1.0123e-06, -6.4867e-07],
+        [-2.7474e-06,  6.5193e-08,  1.6531e-08,  ..., -4.9882e-06,
+         -3.3993e-06,  2.9150e-07],
+        [ 1.3700e-06,  4.8848e-07,  4.0047e-08,  ...,  1.2824e-06,
+          9.9000e-07,  3.6089e-07],
+        ...,
+        [ 3.2764e-06,  1.0571e-07,  9.3132e-10,  ...,  2.2352e-06,
+          9.2760e-07,  7.4133e-07],
+        [-1.0477e-07,  3.0058e-07,  2.9337e-08,  ...,  3.4310e-06,
+          6.4960e-07,  1.6456e-06],
+        [ 1.6987e-06,  1.5218e-06,  1.3970e-09,  ..., -4.1276e-06,
+          1.5693e-06, -3.1795e-06]], device='cuda:0')
+Epoch 108, bias, value: tensor([ 0.0206, -0.0203,  0.0151, -0.0230,  0.0311,  0.0180,  0.0065, -0.0093,
+        -0.0158, -0.0063], device='cuda:0'), grad: tensor([ 1.2387e-06, -4.2349e-05,  9.2685e-06,  1.4216e-05, -5.9307e-06,
+         5.2340e-06,  8.0559e-07,  1.1861e-05,  5.5805e-06,  1.9092e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 107, time 220.45, cls_loss 0.0016 cls_loss_mapping 0.0060 cls_loss_causal 0.5883 re_mapping 0.0069 re_causal 0.0221 /// teacc 98.90 lr 0.00010000
+Epoch 109, weight, value: tensor([[-0.0948,  0.1245, -0.0184,  ..., -0.0659,  0.0248,  0.0006],
+        [ 0.0038, -0.0653, -0.0381,  ...,  0.0263, -0.0215, -0.0354],
+        [-0.0885, -0.1196,  0.0164,  ..., -0.0216,  0.0005, -0.0551],
+        ...,
+        [ 0.0538,  0.0666, -0.0592,  ..., -0.0645,  0.0504,  0.0511],
+        [ 0.0419, -0.0543, -0.0170,  ..., -0.0221, -0.0313, -0.0390],
+        [-0.0960, -0.0191, -0.0748,  ...,  0.0817, -0.1724,  0.0558]],
+       device='cuda:0'), grad: tensor([[ 1.0934e-06, -3.2242e-06,  3.6554e-08,  ...,  1.7113e-07,
+         -1.1828e-07, -4.8801e-07],
+        [-2.5742e-06,  2.8149e-07,  4.0978e-08,  ..., -2.5202e-06,
+          2.5867e-07,  3.8580e-07],
+        [ 4.1276e-06,  1.0217e-06,  6.9849e-08,  ...,  3.4925e-06,
+          5.1921e-07,  7.8324e-07],
+        ...,
+        [ 2.2426e-05, -2.0750e-06,  9.0338e-08,  ...,  2.2426e-05,
+         -1.1232e-06, -1.4366e-07],
+        [-2.0579e-05,  1.7369e-07,  6.8825e-07,  ...,  5.1316e-07,
+          2.3693e-06, -3.1814e-06],
+        [ 2.4781e-05,  1.8775e-06,  8.3819e-08,  ...,  1.1519e-05,
+          1.3029e-06,  5.5647e-07]], device='cuda:0')
+Epoch 109, bias, value: tensor([ 0.0203, -0.0212,  0.0166, -0.0231,  0.0314,  0.0187,  0.0061, -0.0095,
+        -0.0164, -0.0065], device='cuda:0'), grad: tensor([ 2.4680e-08, -9.5069e-06,  1.3702e-05,  8.9854e-06, -7.7486e-05,
+        -9.5248e-05,  9.0480e-05,  6.6102e-05, -6.3837e-05,  6.6817e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 108, time 220.47, cls_loss 0.0024 cls_loss_mapping 0.0076 cls_loss_causal 0.5528 re_mapping 0.0071 re_causal 0.0211 /// teacc 98.87 lr 0.00010000
+Epoch 110, weight, value: tensor([[-0.0957,  0.1252, -0.0185,  ..., -0.0658,  0.0253,  0.0005],
+        [ 0.0040, -0.0671, -0.0385,  ...,  0.0256, -0.0212, -0.0354],
+        [-0.0894, -0.1205,  0.0168,  ..., -0.0224,  0.0003, -0.0556],
+        ...,
+        [ 0.0534,  0.0677, -0.0595,  ..., -0.0663,  0.0504,  0.0513],
+        [ 0.0424, -0.0550, -0.0155,  ..., -0.0229, -0.0318, -0.0395],
+        [-0.0951, -0.0196, -0.0727,  ...,  0.0846, -0.1738,  0.0577]],
+       device='cuda:0'), grad: tensor([[ 4.4890e-06, -6.1691e-06,  3.5134e-07,  ...,  3.7830e-06,
+         -5.6205e-07,  1.6559e-06],
+        [ 3.0637e-05,  1.0086e-06,  5.4128e-06,  ...,  3.4064e-05,
+          2.2594e-06,  3.7868e-06],
+        [ 4.1127e-06,  2.3469e-06, -3.2899e-07,  ...,  3.4031e-06,
+          1.1530e-06,  1.9111e-06],
+        ...,
+        [-1.3858e-06, -6.7614e-06,  3.8277e-07,  ...,  5.9754e-06,
+         -7.7039e-06, -5.9046e-06],
+        [ 2.4244e-05,  1.4566e-06,  3.2745e-06,  ...,  2.0936e-05,
+          5.0515e-06,  7.2382e-06],
+        [ 2.1577e-05,  1.2405e-06,  9.3365e-08,  ..., -7.0455e-07,
+          7.8976e-06, -3.2806e-07]], device='cuda:0')
+Epoch 110, bias, value: tensor([ 0.0206, -0.0214,  0.0162, -0.0235,  0.0298,  0.0193,  0.0050, -0.0098,
+        -0.0156, -0.0042], device='cuda:0'), grad: tensor([ 1.6302e-05,  1.6415e-04,  1.6421e-05,  8.6486e-05, -3.5733e-05,
+        -1.7357e-04, -2.7776e-04, -5.2787e-06,  1.3328e-04,  7.6056e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 109, time 220.94, cls_loss 0.0019 cls_loss_mapping 0.0072 cls_loss_causal 0.5952 re_mapping 0.0068 re_causal 0.0215 /// teacc 99.10 lr 0.00010000
+Epoch 111, weight, value: tensor([[-0.0962,  0.1264, -0.0186,  ..., -0.0657,  0.0262,  0.0006],
+        [ 0.0045, -0.0679, -0.0387,  ...,  0.0255, -0.0209, -0.0350],
+        [-0.0899, -0.1216,  0.0173,  ..., -0.0231,  0.0002, -0.0563],
+        ...,
+        [ 0.0532,  0.0683, -0.0597,  ..., -0.0672,  0.0506,  0.0512],
+        [ 0.0422, -0.0560, -0.0148,  ..., -0.0243, -0.0325, -0.0402],
+        [-0.0971, -0.0201, -0.0722,  ...,  0.0839, -0.1750,  0.0583]],
+       device='cuda:0'), grad: tensor([[ 2.6030e-07,  6.0759e-06,  1.5181e-07,  ...,  1.1744e-06,
+          3.9846e-05,  8.0541e-06],
+        [-2.3376e-06,  9.2201e-07,  3.2829e-08,  ..., -2.4531e-06,
+          1.0710e-06,  1.7378e-06],
+        [ 1.0198e-06,  2.6990e-06,  2.9569e-08,  ...,  6.8219e-07,
+          4.8503e-06,  2.6580e-06],
+        ...,
+        [-2.1476e-06, -2.1324e-05,  1.1642e-09,  ...,  1.6876e-06,
+         -1.0379e-05, -2.6196e-05],
+        [-3.7067e-07,  3.8021e-07,  1.6321e-07,  ...,  1.7332e-06,
+          8.0233e-07,  6.7987e-07],
+        [ 1.9781e-06,  9.5814e-06,  3.7253e-09,  ..., -1.0110e-05,
+          6.2957e-06,  2.2426e-06]], device='cuda:0')
+Epoch 111, bias, value: tensor([ 0.0212, -0.0211,  0.0159, -0.0238,  0.0311,  0.0192,  0.0050, -0.0102,
+        -0.0159, -0.0052], device='cuda:0'), grad: tensor([ 8.1658e-05, -8.2105e-06,  1.6108e-05,  2.0730e-04,  1.6823e-05,
+        -2.7752e-04,  4.0494e-06, -5.2750e-05,  2.3544e-06,  1.0550e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 110, time 221.14, cls_loss 0.0016 cls_loss_mapping 0.0061 cls_loss_causal 0.5565 re_mapping 0.0070 re_causal 0.0212 /// teacc 99.06 lr 0.00010000
+Epoch 112, weight, value: tensor([[-9.6783e-02,  1.2696e-01, -1.8516e-02,  ..., -6.5924e-02,
+          2.6452e-02,  8.2896e-04],
+        [ 4.4556e-03, -6.8293e-02, -3.9653e-02,  ...,  2.5114e-02,
+         -2.1135e-02, -3.5397e-02],
+        [-9.0321e-02, -1.2218e-01,  1.7537e-02,  ..., -2.3388e-02,
+         -1.6888e-06, -5.7135e-02],
+        ...,
+        [ 5.3522e-02,  6.9029e-02, -6.1251e-02,  ..., -6.7670e-02,
+          5.1099e-02,  5.1791e-02],
+        [ 4.2486e-02, -5.6541e-02, -1.4784e-02,  ..., -2.4909e-02,
+         -3.2881e-02, -4.0576e-02],
+        [-9.6299e-02, -2.0254e-02, -7.0767e-02,  ...,  8.5230e-02,
+         -1.7611e-01,  5.9111e-02]], device='cuda:0'), grad: tensor([[ 1.2945e-07, -9.3058e-06,  0.0000e+00,  ...,  1.3746e-06,
+         -9.3691e-07, -6.6124e-07],
+        [-7.2923e-07,  7.8557e-07,  0.0000e+00,  ..., -1.9604e-07,
+          1.7881e-06,  8.9779e-07],
+        [ 5.2620e-07,  6.7893e-07,  0.0000e+00,  ...,  4.3144e-07,
+         -3.1292e-05, -2.9877e-06],
+        ...,
+        [-1.4743e-06, -6.4261e-06,  0.0000e+00,  ...,  4.4075e-07,
+          9.0674e-06, -4.3474e-06],
+        [-3.1595e-07,  4.1025e-07,  0.0000e+00,  ...,  1.1045e-06,
+          1.3620e-05,  1.8068e-06],
+        [ 1.3243e-06,  5.3756e-06,  0.0000e+00,  ..., -1.4035e-06,
+          1.0319e-06,  2.7809e-06]], device='cuda:0')
+Epoch 112, bias, value: tensor([ 0.0213, -0.0212,  0.0156, -0.0238,  0.0299,  0.0193,  0.0047, -0.0098,
+        -0.0159, -0.0040], device='cuda:0'), grad: tensor([-4.2319e-06,  4.1425e-06, -9.4116e-05,  1.4193e-05,  4.3325e-06,
+         4.9472e-06,  1.1250e-06,  1.9297e-05,  4.1366e-05,  8.9481e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 111, time 220.75, cls_loss 0.0014 cls_loss_mapping 0.0063 cls_loss_causal 0.5776 re_mapping 0.0071 re_causal 0.0213 /// teacc 98.98 lr 0.00010000
+Epoch 113, weight, value: tensor([[-0.0973,  0.1276, -0.0187,  ..., -0.0662,  0.0271,  0.0010],
+        [ 0.0043, -0.0691, -0.0399,  ...,  0.0248, -0.0214, -0.0357],
+        [-0.0907, -0.1233,  0.0176,  ..., -0.0240, -0.0002, -0.0576],
+        ...,
+        [ 0.0537,  0.0698, -0.0618,  ..., -0.0683,  0.0513,  0.0520],
+        [ 0.0423, -0.0578, -0.0150,  ..., -0.0256, -0.0338, -0.0412],
+        [-0.0967, -0.0206, -0.0701,  ...,  0.0853, -0.1772,  0.0592]],
+       device='cuda:0'), grad: tensor([[ 4.7078e-07, -2.1197e-06, -3.0501e-08,  ...,  9.0618e-07,
+         -5.0012e-07,  2.2352e-08],
+        [-1.7649e-07,  1.3504e-07,  2.7870e-07,  ...,  1.5749e-06,
+          4.7009e-07,  4.3362e-06],
+        [-2.6971e-06,  4.0070e-07, -1.0617e-05,  ...,  8.9779e-07,
+         -7.4953e-06,  3.8254e-07],
+        ...,
+        [ 3.3025e-06, -2.7171e-07,  9.7007e-06,  ...,  4.2729e-06,
+          6.9998e-06,  5.5172e-06],
+        [-1.6559e-06, -3.4459e-08,  1.7369e-07,  ...,  1.8720e-06,
+         -6.1467e-07,  1.7937e-06],
+        [ 2.8238e-06,  1.3355e-06,  1.7020e-07,  ..., -5.9158e-06,
+          1.1809e-06, -1.6510e-05]], device='cuda:0')
+Epoch 113, bias, value: tensor([ 0.0214, -0.0215,  0.0154, -0.0245,  0.0301,  0.0202,  0.0051, -0.0097,
+        -0.0165, -0.0042], device='cuda:0'), grad: tensor([ 2.0918e-06,  6.8210e-06, -2.3305e-05,  1.3495e-06, -3.1106e-06,
+         9.4399e-06, -5.2266e-06,  3.8803e-05, -5.3868e-06, -2.1547e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 112, time 220.65, cls_loss 0.0019 cls_loss_mapping 0.0071 cls_loss_causal 0.6030 re_mapping 0.0068 re_causal 0.0208 /// teacc 99.05 lr 0.00010000
+Epoch 114, weight, value: tensor([[-9.8338e-02,  1.2833e-01, -1.8725e-02,  ..., -6.6373e-02,
+          2.7028e-02,  1.0439e-03],
+        [ 4.9620e-03, -6.8916e-02, -4.0215e-02,  ...,  2.5429e-02,
+         -2.0912e-02, -3.5232e-02],
+        [-9.1127e-02, -1.2470e-01,  1.8010e-02,  ..., -2.4485e-02,
+         -5.5518e-05, -5.8218e-02],
+        ...,
+        [ 5.2495e-02,  7.1102e-02, -6.3368e-02,  ..., -6.9819e-02,
+          5.0847e-02,  5.2038e-02],
+        [ 4.2890e-02, -5.8494e-02, -1.5217e-02,  ..., -2.4575e-02,
+         -3.4673e-02, -4.1255e-02],
+        [-9.7580e-02, -2.1138e-02, -7.1239e-02,  ...,  8.4884e-02,
+         -1.7924e-01,  5.9122e-02]], device='cuda:0'), grad: tensor([[ 1.1064e-06, -1.1465e-06,  1.2596e-07,  ...,  5.2936e-06,
+          3.0617e-07,  1.4091e-06],
+        [ 1.6727e-06,  6.9477e-07,  1.8626e-08,  ...,  2.7684e-07,
+          9.3598e-07,  2.4084e-06],
+        [ 7.3835e-06,  2.6431e-06,  1.7695e-08,  ...,  1.4305e-05,
+          3.2615e-06,  7.3686e-06],
+        ...,
+        [-3.4302e-05, -8.7619e-06,  2.6543e-08,  ...,  9.3970e-07,
+         -9.3281e-06, -2.7984e-05],
+        [ 1.9111e-06,  4.6799e-07,  6.7288e-08,  ...,  9.1270e-06,
+          1.5665e-06,  2.2445e-06],
+        [ 2.0847e-05,  5.0776e-06, -3.7625e-07,  ..., -4.3958e-07,
+          6.1207e-06,  1.4998e-05]], device='cuda:0')
+Epoch 114, bias, value: tensor([ 0.0211, -0.0210,  0.0153, -0.0248,  0.0308,  0.0203,  0.0052, -0.0104,
+        -0.0154, -0.0050], device='cuda:0'), grad: tensor([ 1.9759e-05,  1.0438e-05,  7.7963e-05, -8.1658e-06,  2.0611e-04,
+         6.0081e-05, -3.4618e-04, -1.4353e-04,  3.6061e-05,  8.6963e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 113, time 220.49, cls_loss 0.0015 cls_loss_mapping 0.0056 cls_loss_causal 0.5785 re_mapping 0.0069 re_causal 0.0208 /// teacc 99.05 lr 0.00010000
+Epoch 115, weight, value: tensor([[-0.0991,  0.1290, -0.0187,  ..., -0.0670,  0.0277,  0.0014],
+        [ 0.0052, -0.0691, -0.0403,  ...,  0.0258, -0.0216, -0.0358],
+        [-0.0915, -0.1252,  0.0180,  ..., -0.0250,  0.0005, -0.0587],
+        ...,
+        [ 0.0527,  0.0718, -0.0652,  ..., -0.0701,  0.0507,  0.0523],
+        [ 0.0429, -0.0591, -0.0154,  ..., -0.0249, -0.0355, -0.0419],
+        [-0.0980, -0.0214, -0.0719,  ...,  0.0850, -0.1804,  0.0593]],
+       device='cuda:0'), grad: tensor([[ 3.4906e-06, -2.9877e-05,  1.1409e-08,  ...,  2.3656e-06,
+         -7.7859e-06, -1.2763e-05],
+        [-1.8880e-05, -2.4084e-06,  1.0245e-08,  ..., -1.7956e-05,
+          4.2543e-06,  3.7737e-06],
+        [ 2.9728e-06,  1.2591e-06,  2.7474e-08,  ...,  2.2668e-06,
+          1.7546e-06,  1.5851e-06],
+        ...,
+        [ 1.7881e-07,  1.0775e-06,  1.6298e-09,  ...,  5.2378e-06,
+         -3.6862e-06, -2.8778e-06],
+        [ 1.3951e-06,  9.0748e-06,  2.7940e-08,  ...,  3.3025e-06,
+          5.5097e-06,  6.3516e-06],
+        [ 3.4850e-06,  5.2676e-06,  5.5879e-09,  ...,  3.3733e-06,
+          2.0154e-06, -6.6776e-07]], device='cuda:0')
+Epoch 115, bias, value: tensor([ 0.0210, -0.0209,  0.0156, -0.0247,  0.0306,  0.0203,  0.0058, -0.0106,
+        -0.0156, -0.0051], device='cuda:0'), grad: tensor([-3.3438e-05, -8.6725e-05,  1.7524e-05, -1.1228e-05, -1.4812e-05,
+         1.7688e-05,  4.9651e-05,  1.4618e-05,  2.6360e-05,  2.0251e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 114, time 220.60, cls_loss 0.0018 cls_loss_mapping 0.0061 cls_loss_causal 0.5819 re_mapping 0.0066 re_causal 0.0203 /// teacc 98.99 lr 0.00010000
+Epoch 116, weight, value: tensor([[-0.0997,  0.1302, -0.0186,  ..., -0.0676,  0.0285,  0.0013],
+        [ 0.0055, -0.0694, -0.0403,  ...,  0.0256, -0.0220, -0.0360],
+        [-0.0918, -0.1266,  0.0184,  ..., -0.0255,  0.0010, -0.0594],
+        ...,
+        [ 0.0534,  0.0720, -0.0649,  ..., -0.0706,  0.0509,  0.0528],
+        [ 0.0430, -0.0602, -0.0155,  ..., -0.0256, -0.0362, -0.0427],
+        [-0.0986, -0.0212, -0.0716,  ...,  0.0852, -0.1815,  0.0598]],
+       device='cuda:0'), grad: tensor([[ 2.8349e-06, -8.2850e-06,  2.6776e-08,  ...,  8.8438e-06,
+         -2.5984e-06,  2.6859e-06],
+        [ 2.0266e-06,  1.0328e-06,  1.6298e-08,  ...,  1.2182e-05,
+          2.1365e-06,  5.4240e-06],
+        [ 2.8387e-06,  2.2557e-06,  4.3074e-08,  ...,  6.5789e-06,
+         -3.5819e-06,  3.8967e-06],
+        ...,
+        [ 1.7956e-05, -6.0014e-06,  1.1642e-09,  ...,  1.1516e-04,
+         -1.2191e-06,  3.9965e-05],
+        [-1.3687e-05,  3.9348e-07,  3.1898e-08,  ...,  5.0664e-06,
+          2.0582e-06,  3.4273e-06],
+        [-1.6224e-04,  3.4329e-06,  6.7521e-09,  ..., -1.0757e-03,
+          5.0962e-06, -4.0984e-04]], device='cuda:0')
+Epoch 116, bias, value: tensor([ 0.0211, -0.0210,  0.0162, -0.0244,  0.0305,  0.0194,  0.0062, -0.0107,
+        -0.0158, -0.0050], device='cuda:0'), grad: tensor([ 3.6240e-05,  4.0531e-05, -3.4389e-07,  5.9038e-05,  1.9760e-03,
+         5.3704e-05,  2.9892e-05,  2.5558e-04, -2.2602e-04, -2.2240e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 115, time 220.37, cls_loss 0.0022 cls_loss_mapping 0.0080 cls_loss_causal 0.5687 re_mapping 0.0063 re_causal 0.0194 /// teacc 99.06 lr 0.00010000
+Epoch 117, weight, value: tensor([[-0.1004,  0.1311, -0.0187,  ..., -0.0676,  0.0290,  0.0016],
+        [ 0.0058, -0.0698, -0.0402,  ...,  0.0257, -0.0222, -0.0361],
+        [-0.0927, -0.1292,  0.0181,  ..., -0.0264,  0.0008, -0.0609],
+        ...,
+        [ 0.0538,  0.0741, -0.0652,  ..., -0.0717,  0.0518,  0.0535],
+        [ 0.0431, -0.0607, -0.0156,  ..., -0.0260, -0.0368, -0.0432],
+        [-0.0989, -0.0219, -0.0707,  ...,  0.0850, -0.1829,  0.0603]],
+       device='cuda:0'), grad: tensor([[ 6.6832e-06, -3.1642e-07,  0.0000e+00,  ...,  5.1744e-06,
+          2.5565e-07,  7.3481e-07],
+        [-7.4923e-05,  8.0792e-08,  0.0000e+00,  ..., -5.9247e-05,
+         -9.9242e-06, -1.3433e-05],
+        [ 6.5379e-06,  1.3784e-07,  0.0000e+00,  ...,  3.6750e-06,
+          2.0005e-06,  3.3136e-06],
+        ...,
+        [ 6.5863e-06, -3.8394e-07,  0.0000e+00,  ...,  4.6715e-06,
+          2.6040e-06,  2.3376e-06],
+        [ 2.9579e-05,  4.6333e-08,  0.0000e+00,  ...,  2.7880e-05,
+          1.3486e-06,  1.7621e-06],
+        [ 9.8273e-06,  1.8184e-07,  0.0000e+00,  ...,  3.1628e-06,
+          3.8296e-06,  2.9579e-06]], device='cuda:0')
+Epoch 117, bias, value: tensor([ 0.0213, -0.0208,  0.0158, -0.0249,  0.0315,  0.0198,  0.0056, -0.0103,
+        -0.0159, -0.0059], device='cuda:0'), grad: tensor([ 3.9577e-05, -4.4847e-04,  3.3587e-05,  3.9190e-05,  3.8952e-05,
+        -1.1347e-05,  3.9816e-05,  4.6223e-05,  1.7035e-04,  5.2392e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 116, time 220.71, cls_loss 0.0014 cls_loss_mapping 0.0051 cls_loss_causal 0.5392 re_mapping 0.0066 re_causal 0.0198 /// teacc 99.05 lr 0.00010000
+Epoch 118, weight, value: tensor([[-0.1011,  0.1315, -0.0187,  ..., -0.0681,  0.0290,  0.0015],
+        [ 0.0057, -0.0702, -0.0403,  ...,  0.0257, -0.0224, -0.0365],
+        [-0.0930, -0.1296,  0.0181,  ..., -0.0269,  0.0008, -0.0618],
+        ...,
+        [ 0.0542,  0.0753, -0.0648,  ..., -0.0725,  0.0520,  0.0540],
+        [ 0.0428, -0.0616, -0.0156,  ..., -0.0265, -0.0376, -0.0442],
+        [-0.0993, -0.0221, -0.0708,  ...,  0.0851, -0.1840,  0.0607]],
+       device='cuda:0'), grad: tensor([[ 5.7044e-08, -2.7916e-07,  4.3306e-08,  ...,  1.9781e-06,
+          2.6077e-08, -1.0128e-07],
+        [-4.0513e-07,  6.5193e-08,  1.3039e-08,  ..., -2.0489e-08,
+         -9.5461e-09,  8.7311e-08],
+        [ 2.8103e-07,  9.4064e-08,  1.8161e-08,  ...,  2.5961e-07,
+          5.3924e-07,  3.1851e-07],
+        ...,
+        [-7.7998e-08, -3.8580e-07,  3.0268e-09,  ...,  1.6927e-07,
+         -6.9151e-08, -2.2002e-07],
+        [-3.6089e-08,  8.4285e-08,  6.2166e-08,  ...,  5.1036e-07,
+          3.2433e-07,  2.5146e-07],
+        [ 9.6392e-08,  3.0315e-07,  1.9791e-08,  ..., -1.1530e-06,
+          1.1595e-07, -5.4995e-07]], device='cuda:0')
+Epoch 118, bias, value: tensor([ 0.0210, -0.0208,  0.0160, -0.0249,  0.0317,  0.0203,  0.0055, -0.0102,
+        -0.0163, -0.0061], device='cuda:0'), grad: tensor([ 3.9153e-06, -3.1013e-06,  3.2075e-06, -1.5739e-06,  8.8010e-07,
+         4.3064e-06, -8.5756e-06,  4.6869e-07,  1.6512e-06, -1.2117e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 117, time 220.63, cls_loss 0.0016 cls_loss_mapping 0.0059 cls_loss_causal 0.5700 re_mapping 0.0064 re_causal 0.0199 /// teacc 98.98 lr 0.00010000
+Epoch 119, weight, value: tensor([[-0.1016,  0.1319, -0.0187,  ..., -0.0689,  0.0291,  0.0012],
+        [ 0.0061, -0.0710, -0.0403,  ...,  0.0261, -0.0225, -0.0363],
+        [-0.0932, -0.1304,  0.0185,  ..., -0.0273,  0.0010, -0.0625],
+        ...,
+        [ 0.0544,  0.0782, -0.0649,  ..., -0.0735,  0.0522,  0.0549],
+        [ 0.0432, -0.0629, -0.0156,  ..., -0.0269, -0.0379, -0.0443],
+        [-0.0998, -0.0228, -0.0706,  ...,  0.0853, -0.1848,  0.0607]],
+       device='cuda:0'), grad: tensor([[ 2.7963e-07, -1.6913e-06,  7.4506e-09,  ...,  8.8941e-07,
+         -3.7043e-07, -2.1467e-07],
+        [-4.1336e-05,  6.4308e-07,  1.2643e-07,  ..., -1.5050e-05,
+          5.0571e-07,  8.3912e-07],
+        [ 6.9570e-07,  3.2759e-07,  1.3737e-08,  ...,  1.3998e-06,
+          2.6566e-07,  2.1514e-07],
+        ...,
+        [ 1.8608e-06, -8.5682e-07,  2.3283e-10,  ...,  1.5181e-06,
+         -5.0617e-07, -9.8720e-07],
+        [ 1.3202e-05,  2.1979e-07,  2.7241e-08,  ...,  1.1057e-05,
+          1.8976e-07,  1.8207e-07],
+        [ 1.1362e-06,  2.8871e-07,  1.3970e-09,  ...,  3.0361e-07,
+          2.1607e-07, -3.4296e-07]], device='cuda:0')
+Epoch 119, bias, value: tensor([ 0.0203, -0.0206,  0.0160, -0.0249,  0.0317,  0.0195,  0.0061, -0.0099,
+        -0.0160, -0.0061], device='cuda:0'), grad: tensor([ 1.6093e-06, -3.4451e-05,  7.0371e-06, -6.5193e-08,  4.5687e-05,
+         9.0450e-06, -6.9082e-05,  2.3525e-06,  3.4899e-05,  3.0436e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 118, time 220.76, cls_loss 0.0015 cls_loss_mapping 0.0044 cls_loss_causal 0.5576 re_mapping 0.0062 re_causal 0.0191 /// teacc 98.99 lr 0.00010000
+Epoch 120, weight, value: tensor([[-0.1015,  0.1330, -0.0187,  ..., -0.0693,  0.0292,  0.0027],
+        [ 0.0057, -0.0717, -0.0404,  ...,  0.0260, -0.0229, -0.0372],
+        [-0.0935, -0.1311,  0.0190,  ..., -0.0278,  0.0009, -0.0633],
+        ...,
+        [ 0.0550,  0.0795, -0.0651,  ..., -0.0738,  0.0523,  0.0556],
+        [ 0.0435, -0.0635, -0.0157,  ..., -0.0274, -0.0390, -0.0449],
+        [-0.1004, -0.0231, -0.0695,  ...,  0.0853, -0.1855,  0.0611]],
+       device='cuda:0'), grad: tensor([[ 6.0489e-07, -1.2550e-07,  5.4855e-07,  ...,  5.4389e-07,
+          7.0315e-07,  2.2189e-07],
+        [-1.4156e-06, -4.0559e-07,  7.7765e-08,  ..., -6.7335e-07,
+          1.8775e-06,  1.8096e-06],
+        [ 5.3877e-07,  2.3516e-08,  8.8941e-08,  ...,  4.6706e-07,
+          2.1122e-06,  3.3081e-06],
+        ...,
+        [ 5.0385e-07, -1.0245e-07,  3.3760e-08,  ...,  9.4809e-07,
+          4.7423e-06,  4.3362e-06],
+        [ 2.0601e-06,  1.8068e-07,  2.7120e-06,  ...,  2.1830e-06,
+          8.1360e-06,  8.3670e-06],
+        [ 8.6203e-06,  2.1583e-07,  1.1316e-07,  ...,  1.7807e-05,
+          5.0897e-07,  6.1607e-07]], device='cuda:0')
+Epoch 120, bias, value: tensor([ 0.0215, -0.0214,  0.0160, -0.0250,  0.0319,  0.0185,  0.0061, -0.0095,
+        -0.0153, -0.0064], device='cuda:0'), grad: tensor([ 6.5789e-06,  9.5833e-07,  1.4111e-05, -9.1732e-05, -3.2306e-05,
+         4.2230e-05, -5.3227e-05,  2.6494e-05,  5.2750e-05,  3.4124e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 119, time 220.75, cls_loss 0.0019 cls_loss_mapping 0.0062 cls_loss_causal 0.5633 re_mapping 0.0063 re_causal 0.0195 /// teacc 99.02 lr 0.00010000
+Epoch 121, weight, value: tensor([[-0.1020,  0.1339, -0.0188,  ..., -0.0699,  0.0291,  0.0032],
+        [ 0.0051, -0.0721, -0.0404,  ...,  0.0251, -0.0233, -0.0381],
+        [-0.0939, -0.1317,  0.0190,  ..., -0.0282,  0.0014, -0.0640],
+        ...,
+        [ 0.0549,  0.0775, -0.0653,  ..., -0.0766,  0.0525,  0.0545],
+        [ 0.0435, -0.0642, -0.0159,  ..., -0.0279, -0.0399, -0.0459],
+        [-0.1006, -0.0216, -0.0678,  ...,  0.0858, -0.1862,  0.0631]],
+       device='cuda:0'), grad: tensor([[ 3.5879e-07, -7.2569e-06,  3.2596e-08,  ...,  2.2221e-06,
+         -1.2363e-07, -3.6862e-06],
+        [ 3.4133e-07,  5.4482e-07,  1.2084e-07,  ...,  1.5544e-06,
+          9.3551e-07,  1.3020e-06],
+        [ 8.6240e-07,  5.4063e-07,  5.3318e-08,  ...,  1.3560e-06,
+          1.5395e-06,  1.7937e-06],
+        ...,
+        [ 1.2107e-06, -4.1910e-09,  2.0396e-07,  ...,  4.0792e-06,
+          4.8801e-07,  1.0394e-06],
+        [-1.0524e-07,  7.0967e-07,  5.4948e-08,  ...,  3.6154e-06,
+          3.6880e-06,  4.0941e-06],
+        [ 7.5661e-06,  4.1090e-06,  8.4238e-07,  ..., -1.9640e-05,
+          8.5775e-07, -8.0317e-06]], device='cuda:0')
+Epoch 121, bias, value: tensor([ 0.0217, -0.0217,  0.0159, -0.0272,  0.0318,  0.0204,  0.0070, -0.0107,
+        -0.0158, -0.0057], device='cuda:0'), grad: tensor([-5.0897e-07,  5.8226e-06,  1.0043e-05, -1.9729e-05, -1.9506e-05,
+         9.3132e-06,  2.2724e-06,  1.1832e-05,  1.1221e-05, -1.0602e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 120, time 220.74, cls_loss 0.0017 cls_loss_mapping 0.0057 cls_loss_causal 0.5452 re_mapping 0.0063 re_causal 0.0192 /// teacc 99.00 lr 0.00010000
+Epoch 122, weight, value: tensor([[-0.1022,  0.1336, -0.0187,  ..., -0.0715,  0.0296,  0.0014],
+        [ 0.0043, -0.0725, -0.0405,  ...,  0.0233, -0.0236, -0.0383],
+        [-0.0943, -0.1336,  0.0191,  ..., -0.0286,  0.0014, -0.0651],
+        ...,
+        [ 0.0550,  0.0782, -0.0654,  ..., -0.0772,  0.0528,  0.0552],
+        [ 0.0432, -0.0650, -0.0160,  ..., -0.0288, -0.0404, -0.0468],
+        [-0.1015, -0.0201, -0.0677,  ...,  0.0866, -0.1874,  0.0642]],
+       device='cuda:0'), grad: tensor([[ 6.2725e-07, -7.4565e-05,  2.3283e-09,  ...,  5.2787e-06,
+         -3.3438e-05, -4.0270e-06],
+        [ 1.3877e-07,  4.4852e-06,  2.3982e-08,  ...,  1.4771e-06,
+          2.0470e-06,  2.3060e-06],
+        [ 2.2333e-06,  2.8521e-05,  7.8930e-08,  ...,  2.6710e-06,
+          1.3687e-05,  7.2867e-06],
+        ...,
+        [-1.9874e-06, -3.4086e-06,  2.0955e-09,  ...,  8.1118e-07,
+         -4.7148e-07, -8.0392e-06],
+        [ 2.2352e-06, -1.8049e-06,  2.3283e-10,  ..., -7.5549e-06,
+          5.0887e-06, -5.4874e-06],
+        [ 4.4778e-06,  1.4864e-05,  1.5600e-08,  ...,  8.4937e-06,
+          9.8124e-06,  8.2701e-06]], device='cuda:0')
+Epoch 122, bias, value: tensor([ 0.0205, -0.0225,  0.0160, -0.0274,  0.0318,  0.0205,  0.0073, -0.0104,
+        -0.0165, -0.0049], device='cuda:0'), grad: tensor([-9.0778e-05,  4.9733e-06,  6.0558e-05,  2.9849e-07, -2.3857e-05,
+         1.2338e-05,  1.1615e-05, -1.1772e-05, -2.2516e-05,  5.9158e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 121, time 220.46, cls_loss 0.0022 cls_loss_mapping 0.0072 cls_loss_causal 0.5797 re_mapping 0.0064 re_causal 0.0194 /// teacc 98.99 lr 0.00010000
+Epoch 123, weight, value: tensor([[-0.1026,  0.1347, -0.0185,  ..., -0.0710,  0.0301,  0.0022],
+        [ 0.0045, -0.0731, -0.0405,  ...,  0.0229, -0.0238, -0.0385],
+        [-0.0954, -0.1344,  0.0192,  ..., -0.0293,  0.0015, -0.0676],
+        ...,
+        [ 0.0553,  0.0794, -0.0655,  ..., -0.0777,  0.0535,  0.0565],
+        [ 0.0447, -0.0645, -0.0161,  ..., -0.0272, -0.0409, -0.0457],
+        [-0.1026, -0.0207, -0.0661,  ...,  0.0864, -0.1886,  0.0640]],
+       device='cuda:0'), grad: tensor([[ 9.5833e-07,  1.2596e-07,  0.0000e+00,  ...,  5.4855e-07,
+          3.0268e-07,  5.4948e-07],
+        [-2.7418e-06,  4.7521e-07,  0.0000e+00,  ...,  1.2806e-07,
+          4.5192e-07, -1.9632e-06],
+        [ 1.6289e-06,  7.4413e-07,  0.0000e+00,  ...,  5.2247e-07,
+          5.9698e-07,  1.0263e-06],
+        ...,
+        [-2.6263e-06, -4.2841e-06,  0.0000e+00,  ...,  2.0489e-07,
+         -2.2370e-06, -3.2652e-06],
+        [-1.4238e-05,  1.3364e-07,  0.0000e+00,  ..., -1.2122e-05,
+          9.7230e-07,  9.7230e-07],
+        [ 4.8801e-06,  1.2387e-06,  0.0000e+00,  ...,  1.0263e-06,
+          4.7982e-06,  8.0988e-06]], device='cuda:0')
+Epoch 123, bias, value: tensor([ 0.0210, -0.0228,  0.0157, -0.0272,  0.0330,  0.0195,  0.0051, -0.0099,
+        -0.0138, -0.0057], device='cuda:0'), grad: tensor([ 7.2606e-06, -1.4968e-05, -1.0058e-06,  2.2829e-05,  8.6576e-06,
+        -3.3498e-05,  3.6806e-05,  2.8103e-07, -7.7903e-05,  5.1320e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 122, time 220.35, cls_loss 0.0016 cls_loss_mapping 0.0044 cls_loss_causal 0.5348 re_mapping 0.0064 re_causal 0.0194 /// teacc 99.01 lr 0.00010000
+Epoch 124, weight, value: tensor([[-0.1033,  0.1355, -0.0185,  ..., -0.0707,  0.0298,  0.0025],
+        [ 0.0022, -0.0735, -0.0432,  ...,  0.0211, -0.0241, -0.0389],
+        [-0.0927, -0.1341,  0.0216,  ..., -0.0279,  0.0015, -0.0684],
+        ...,
+        [ 0.0555,  0.0802, -0.0655,  ..., -0.0781,  0.0535,  0.0571],
+        [ 0.0444, -0.0657, -0.0163,  ..., -0.0276, -0.0415, -0.0461],
+        [-0.1034, -0.0210, -0.0665,  ...,  0.0865, -0.1895,  0.0641]],
+       device='cuda:0'), grad: tensor([[ 3.7486e-07, -1.0520e-05,  4.6333e-08,  ...,  8.5915e-08,
+          1.2964e-06, -8.7731e-07],
+        [ 2.3586e-07,  1.3914e-06,  3.1223e-07,  ..., -8.6054e-07,
+          1.3048e-06,  8.6008e-07],
+        [ 1.2051e-06,  3.8520e-06,  3.8417e-08,  ...,  4.5658e-07,
+          2.3648e-05,  3.8333e-06],
+        ...,
+        [-3.1712e-07, -9.8422e-06,  1.4738e-07,  ...,  8.7777e-08,
+         -8.9332e-06, -1.6183e-05],
+        [-4.9062e-06,  1.7043e-06, -1.5143e-06,  ...,  1.8487e-07,
+          2.6878e-06,  1.2275e-06],
+        [ 9.6112e-07,  6.5044e-06,  9.0804e-09,  ..., -3.1432e-08,
+          3.3285e-06,  3.5930e-06]], device='cuda:0')
+Epoch 124, bias, value: tensor([ 0.0210, -0.0253,  0.0187, -0.0270,  0.0332,  0.0196,  0.0049, -0.0097,
+        -0.0142, -0.0061], device='cuda:0'), grad: tensor([-7.5065e-06,  5.0403e-06,  5.9634e-05, -5.5641e-05,  7.3686e-06,
+         2.1420e-06,  2.9057e-06, -3.0488e-05,  4.0070e-07,  1.6108e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 123, time 220.91, cls_loss 0.0019 cls_loss_mapping 0.0063 cls_loss_causal 0.5523 re_mapping 0.0062 re_causal 0.0181 /// teacc 99.01 lr 0.00010000
+Epoch 125, weight, value: tensor([[-0.1042,  0.1365, -0.0199,  ..., -0.0707,  0.0300,  0.0028],
+        [ 0.0028, -0.0746, -0.0428,  ...,  0.0217, -0.0233, -0.0381],
+        [-0.0929, -0.1364,  0.0216,  ..., -0.0283,  0.0017, -0.0720],
+        ...,
+        [ 0.0557,  0.0816, -0.0659,  ..., -0.0788,  0.0536,  0.0586],
+        [ 0.0444, -0.0651, -0.0168,  ..., -0.0289, -0.0423, -0.0475],
+        [-0.1043, -0.0214, -0.0668,  ...,  0.0866, -0.1907,  0.0639]],
+       device='cuda:0'), grad: tensor([[ 1.0105e-07, -6.4727e-07,  1.9325e-08,  ...,  3.6787e-06,
+          7.9162e-08,  1.2037e-07],
+        [ 3.0664e-07,  3.5111e-07,  3.4925e-08,  ..., -1.6531e-08,
+          8.5402e-07,  7.3668e-07],
+        [ 3.4906e-06,  1.2852e-07, -5.1688e-08,  ...,  6.5565e-07,
+          6.5975e-06,  4.4629e-06],
+        ...,
+        [ 9.7044e-07, -7.3668e-07,  4.2422e-07,  ...,  1.2182e-06,
+          4.7218e-07,  4.0070e-07],
+        [-4.0345e-06,  6.7754e-08,  3.4226e-08,  ...,  3.4589e-06,
+          1.0449e-06,  1.5059e-06],
+        [ 4.2445e-07, -3.0501e-08, -2.5146e-07,  ..., -5.1521e-06,
+          4.6310e-07, -2.8200e-06]], device='cuda:0')
+Epoch 125, bias, value: tensor([ 0.0211, -0.0252,  0.0183, -0.0272,  0.0332,  0.0191,  0.0056, -0.0084,
+        -0.0143, -0.0064], device='cuda:0'), grad: tensor([ 1.7002e-05,  3.2727e-06,  3.2812e-05, -2.9713e-05,  1.5693e-06,
+         6.6869e-06, -2.9117e-05,  6.7540e-06,  2.1029e-06, -1.1399e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 124, time 220.45, cls_loss 0.0021 cls_loss_mapping 0.0078 cls_loss_causal 0.5791 re_mapping 0.0062 re_causal 0.0188 /// teacc 99.02 lr 0.00010000
+Epoch 126, weight, value: tensor([[-0.1049,  0.1372, -0.0198,  ..., -0.0712,  0.0302,  0.0027],
+        [ 0.0027, -0.0751, -0.0428,  ...,  0.0217, -0.0236, -0.0388],
+        [-0.0932, -0.1375,  0.0216,  ..., -0.0287,  0.0012, -0.0731],
+        ...,
+        [ 0.0571,  0.0823, -0.0662,  ..., -0.0794,  0.0541,  0.0595],
+        [ 0.0442, -0.0664, -0.0171,  ..., -0.0299, -0.0441, -0.0486],
+        [-0.1053, -0.0215, -0.0669,  ...,  0.0870, -0.1920,  0.0646]],
+       device='cuda:0'), grad: tensor([[ 4.9826e-07, -9.1270e-07,  1.3062e-07,  ...,  4.2468e-07,
+         -2.9942e-07,  2.6589e-07],
+        [ 3.0398e-06,  1.1292e-07,  9.1270e-08,  ..., -2.1923e-06,
+          5.2080e-06,  7.7859e-06],
+        [ 1.5972e-06,  1.3900e-07,  2.7288e-07,  ...,  1.3867e-06,
+          1.2284e-06,  1.6307e-06],
+        ...,
+        [-1.0118e-05, -9.2015e-07,  4.6799e-08,  ...,  6.7288e-07,
+         -1.1183e-05, -1.8284e-05],
+        [-1.6103e-06,  2.8405e-08, -1.3243e-06,  ...,  2.6636e-07,
+          1.6233e-06,  1.2014e-06],
+        [ 3.0957e-06,  9.7789e-07,  2.7078e-07,  ...,  1.4873e-06,
+          1.9046e-06,  3.1646e-06]], device='cuda:0')
+Epoch 126, bias, value: tensor([ 0.0211, -0.0255,  0.0179, -0.0251,  0.0329,  0.0174,  0.0060, -0.0070,
+        -0.0154, -0.0064], device='cuda:0'), grad: tensor([ 3.8184e-06,  2.0519e-05,  1.4059e-05,  1.0505e-05,  4.4033e-06,
+         7.9349e-06, -6.4410e-06, -5.4121e-05, -2.5198e-05,  2.4512e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 125, time 220.33, cls_loss 0.0016 cls_loss_mapping 0.0058 cls_loss_causal 0.5259 re_mapping 0.0060 re_causal 0.0184 /// teacc 99.02 lr 0.00010000
+Epoch 127, weight, value: tensor([[-0.1056,  0.1381, -0.0199,  ..., -0.0713,  0.0308,  0.0031],
+        [ 0.0029, -0.0755, -0.0428,  ...,  0.0231, -0.0238, -0.0391],
+        [-0.0935, -0.1392,  0.0215,  ..., -0.0292,  0.0009, -0.0740],
+        ...,
+        [ 0.0576,  0.0824, -0.0662,  ..., -0.0803,  0.0543,  0.0600],
+        [ 0.0445, -0.0673, -0.0173,  ..., -0.0302, -0.0445, -0.0491],
+        [-0.1059, -0.0218, -0.0663,  ...,  0.0869, -0.1927,  0.0646]],
+       device='cuda:0'), grad: tensor([[ 1.5390e-07, -1.9714e-05,  1.4203e-08,  ...,  3.0035e-07,
+         -3.6340e-06, -1.0446e-05],
+        [-2.7530e-06,  3.7067e-07,  1.7462e-09,  ..., -5.3458e-06,
+          7.4622e-08, -7.3621e-07],
+        [ 4.5146e-07,  1.2275e-06, -2.2119e-09,  ...,  8.1351e-07,
+          1.9232e-07,  8.7544e-07],
+        ...,
+        [-3.6834e-07, -1.1027e-06,  8.1491e-10,  ...,  8.2143e-07,
+         -1.5064e-07, -7.3295e-07],
+        [ 2.6915e-07,  3.7951e-07,  1.4785e-08,  ...,  6.4913e-07,
+          1.0571e-07,  2.4773e-07],
+        [ 9.5367e-07,  1.5706e-05,  1.9791e-09,  ...,  4.6976e-06,
+          2.6021e-06,  6.6608e-06]], device='cuda:0')
+Epoch 127, bias, value: tensor([ 0.0215, -0.0252,  0.0176, -0.0251,  0.0327,  0.0179,  0.0059, -0.0068,
+        -0.0154, -0.0068], device='cuda:0'), grad: tensor([-2.0415e-05, -2.3499e-05,  4.0345e-06,  8.2552e-06,  9.5293e-06,
+         5.2005e-06, -2.1964e-05, -6.9197e-07,  3.4291e-06,  3.6091e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 126, time 220.49, cls_loss 0.0012 cls_loss_mapping 0.0046 cls_loss_causal 0.5561 re_mapping 0.0059 re_causal 0.0190 /// teacc 99.06 lr 0.00010000
+Epoch 128, weight, value: tensor([[-0.1064,  0.1384, -0.0201,  ..., -0.0716,  0.0305,  0.0028],
+        [ 0.0029, -0.0758, -0.0428,  ...,  0.0232, -0.0239, -0.0393],
+        [-0.0939, -0.1404,  0.0215,  ..., -0.0297,  0.0008, -0.0745],
+        ...,
+        [ 0.0580,  0.0830, -0.0662,  ..., -0.0808,  0.0545,  0.0604],
+        [ 0.0452, -0.0677, -0.0158,  ..., -0.0304, -0.0449, -0.0495],
+        [-0.1063, -0.0218, -0.0662,  ...,  0.0870, -0.1933,  0.0648]],
+       device='cuda:0'), grad: tensor([[ 6.7009e-07, -1.4587e-07,  5.8208e-10,  ...,  5.2620e-07,
+          7.1013e-09,  4.2957e-08],
+        [-5.3160e-06,  8.6147e-09,  4.6566e-10,  ..., -3.1237e-06,
+          1.3097e-07,  1.2130e-07],
+        [ 3.1143e-06,  2.0489e-08, -1.0827e-08,  ...,  7.2457e-07,
+         -1.6263e-07,  1.5832e-07],
+        ...,
+        [ 2.1551e-06, -4.1793e-08,  2.5611e-09,  ...,  1.3243e-06,
+          2.2282e-07,  4.1630e-07],
+        [-8.6948e-06,  1.5483e-08,  4.6566e-10,  ..., -9.5833e-07,
+         -1.5879e-07,  1.3504e-07],
+        [ 1.2182e-06,  4.3306e-08,  2.3283e-10,  ..., -8.2515e-07,
+          1.8440e-07, -8.5775e-07]], device='cuda:0')
+Epoch 128, bias, value: tensor([ 0.0212, -0.0251,  0.0172, -0.0252,  0.0327,  0.0182,  0.0050, -0.0066,
+        -0.0141, -0.0069], device='cuda:0'), grad: tensor([ 4.3623e-06, -1.3947e-05,  8.5905e-06,  9.1344e-06,  1.8016e-05,
+         1.5914e-05, -1.2577e-05,  1.1899e-05, -4.4793e-05,  3.4273e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 127, time 220.35, cls_loss 0.0012 cls_loss_mapping 0.0047 cls_loss_causal 0.5526 re_mapping 0.0060 re_causal 0.0181 /// teacc 98.95 lr 0.00010000
+Epoch 129, weight, value: tensor([[-0.1070,  0.1398, -0.0201,  ..., -0.0719,  0.0309,  0.0033],
+        [ 0.0032, -0.0760, -0.0428,  ...,  0.0235, -0.0240, -0.0393],
+        [-0.0939, -0.1413,  0.0215,  ..., -0.0301,  0.0008, -0.0749],
+        ...,
+        [ 0.0579,  0.0829, -0.0663,  ..., -0.0815,  0.0544,  0.0603],
+        [ 0.0454, -0.0687, -0.0148,  ..., -0.0314, -0.0457, -0.0502],
+        [-0.1067, -0.0225, -0.0663,  ...,  0.0873, -0.1939,  0.0653]],
+       device='cuda:0'), grad: tensor([[ 5.3179e-07,  1.8033e-07,  0.0000e+00,  ...,  2.6450e-06,
+         -3.9698e-08, -7.7998e-08],
+        [ 4.1783e-05,  1.0128e-07,  0.0000e+00,  ...,  1.9523e-07,
+          2.6217e-07,  1.9942e-07],
+        [ 2.4457e-06,  2.4377e-07,  0.0000e+00,  ...,  9.8720e-07,
+          2.4750e-07,  2.3155e-07],
+        ...,
+        [ 2.5071e-06, -2.5425e-07,  0.0000e+00,  ...,  9.9465e-07,
+          6.3097e-07, -4.0862e-08],
+        [-4.8757e-05,  2.8615e-07,  0.0000e+00,  ...,  3.6834e-07,
+          2.1746e-07,  1.3725e-07],
+        [ 2.3413e-06,  5.8999e-07,  0.0000e+00,  ...,  2.5295e-06,
+          6.5239e-07,  5.6392e-07]], device='cuda:0')
+Epoch 129, bias, value: tensor([ 0.0217, -0.0249,  0.0171, -0.0256,  0.0328,  0.0182,  0.0044, -0.0070,
+        -0.0135, -0.0067], device='cuda:0'), grad: tensor([ 7.8902e-06,  9.9421e-05,  6.4522e-06, -3.4422e-06, -7.0445e-06,
+         1.8356e-06, -8.0839e-06,  8.0243e-06, -1.1456e-04,  9.3356e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 128, time 220.36, cls_loss 0.0015 cls_loss_mapping 0.0044 cls_loss_causal 0.5311 re_mapping 0.0059 re_causal 0.0178 /// teacc 99.11 lr 0.00010000
+Epoch 130, weight, value: tensor([[-0.1074,  0.1406, -0.0202,  ..., -0.0721,  0.0293,  0.0034],
+        [ 0.0036, -0.0763, -0.0428,  ...,  0.0237, -0.0242, -0.0394],
+        [-0.0942, -0.1417,  0.0215,  ..., -0.0303,  0.0009, -0.0753],
+        ...,
+        [ 0.0581,  0.0834, -0.0663,  ..., -0.0820,  0.0546,  0.0607],
+        [ 0.0451, -0.0679, -0.0150,  ..., -0.0317, -0.0466, -0.0503],
+        [-0.1071, -0.0232, -0.0658,  ...,  0.0874, -0.1955,  0.0652]],
+       device='cuda:0'), grad: tensor([[ 5.9791e-07, -2.2620e-05,  0.0000e+00,  ...,  1.0319e-06,
+         -8.5980e-06, -4.7944e-06],
+        [ 2.7986e-07,  1.0757e-06,  0.0000e+00,  ...,  2.6217e-07,
+          3.9791e-07,  1.0151e-06],
+        [ 2.9244e-07,  6.4634e-07,  0.0000e+00,  ...,  3.9721e-07,
+         -3.1013e-07,  5.6531e-07],
+        ...,
+        [-1.0163e-05, -2.2173e-05,  0.0000e+00,  ...,  2.2613e-06,
+          8.6334e-07, -1.8463e-05],
+        [ 1.0002e-06,  2.1365e-06,  0.0000e+00,  ...,  1.6950e-06,
+          6.5099e-07,  2.5555e-06],
+        [ 7.2047e-06,  1.6049e-05,  0.0000e+00,  ..., -5.7593e-06,
+          6.2631e-07,  1.0341e-05]], device='cuda:0')
+Epoch 130, bias, value: tensor([ 0.0214, -0.0246,  0.0172, -0.0261,  0.0327,  0.0189,  0.0048, -0.0070,
+        -0.0137, -0.0071], device='cuda:0'), grad: tensor([-3.1799e-05,  4.2096e-06, -3.8296e-06,  0.0000e+00,  1.4707e-05,
+         2.6494e-05, -2.0023e-06, -4.7714e-05,  1.1139e-05,  2.8744e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 129, time 220.67, cls_loss 0.0015 cls_loss_mapping 0.0044 cls_loss_causal 0.5101 re_mapping 0.0061 re_causal 0.0184 /// teacc 99.01 lr 0.00010000
+Epoch 131, weight, value: tensor([[-0.1076,  0.1411, -0.0202,  ..., -0.0722,  0.0294,  0.0034],
+        [ 0.0034, -0.0767, -0.0428,  ...,  0.0235, -0.0244, -0.0399],
+        [-0.0943, -0.1422,  0.0215,  ..., -0.0306,  0.0007, -0.0757],
+        ...,
+        [ 0.0585,  0.0838, -0.0664,  ..., -0.0824,  0.0547,  0.0609],
+        [ 0.0448, -0.0682, -0.0150,  ..., -0.0319, -0.0475, -0.0510],
+        [-0.1075, -0.0234, -0.0652,  ...,  0.0875, -0.1965,  0.0659]],
+       device='cuda:0'), grad: tensor([[ 4.3749e-07,  0.0000e+00,  2.3283e-10,  ...,  8.0466e-06,
+          1.9133e-05,  7.4767e-06],
+        [-1.5035e-05,  0.0000e+00,  1.1642e-10,  ..., -4.9099e-06,
+          5.5134e-06,  1.7416e-06],
+        [ 4.6045e-06,  0.0000e+00, -1.6298e-09,  ...,  1.4147e-06,
+         -2.7362e-06,  1.7304e-06],
+        ...,
+        [ 4.4890e-06,  0.0000e+00,  3.4925e-10,  ...,  3.5688e-06,
+          6.0275e-06,  6.0396e-07],
+        [ 1.5078e-06,  0.0000e+00,  3.4925e-10,  ...,  6.7912e-06,
+          2.3752e-05,  7.5959e-06],
+        [ 3.2671e-06,  0.0000e+00,  0.0000e+00,  ...,  2.4997e-06,
+          4.0941e-06,  5.5786e-07]], device='cuda:0')
+Epoch 131, bias, value: tensor([ 0.0215, -0.0249,  0.0170, -0.0255,  0.0329,  0.0192,  0.0040, -0.0070,
+        -0.0137, -0.0070], device='cuda:0'), grad: tensor([ 8.8036e-05, -2.3797e-05, -8.5458e-06, -1.9464e-03,  7.5661e-06,
+         1.7090e-03,  8.0988e-06,  4.1395e-05,  1.0002e-04,  2.5496e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 130, time 220.22, cls_loss 0.0014 cls_loss_mapping 0.0057 cls_loss_causal 0.5552 re_mapping 0.0060 re_causal 0.0179 /// teacc 98.93 lr 0.00010000
+Epoch 132, weight, value: tensor([[-0.1093,  0.1414, -0.0202,  ..., -0.0734,  0.0291,  0.0031],
+        [ 0.0045, -0.0769, -0.0427,  ...,  0.0235, -0.0246, -0.0397],
+        [-0.0944, -0.1432,  0.0216,  ..., -0.0313,  0.0008, -0.0762],
+        ...,
+        [ 0.0575,  0.0837, -0.0665,  ..., -0.0830,  0.0548,  0.0607],
+        [ 0.0447, -0.0688, -0.0150,  ..., -0.0327, -0.0481, -0.0517],
+        [-0.1082, -0.0228, -0.0652,  ...,  0.0873, -0.1966,  0.0669]],
+       device='cuda:0'), grad: tensor([[ 1.0594e-07, -3.9116e-07,  1.9325e-08,  ...,  2.8778e-07,
+          2.0722e-08,  1.7113e-08],
+        [-1.0617e-06,  7.5670e-08,  1.3970e-08,  ..., -7.5484e-07,
+          2.7241e-07,  5.0897e-07],
+        [ 2.9430e-07,  6.1700e-08, -2.5425e-07,  ...,  4.8475e-07,
+         -2.3399e-08,  2.2142e-07],
+        ...,
+        [ 4.6683e-08, -1.4144e-07,  1.3737e-08,  ...,  2.0005e-06,
+         -3.4343e-08,  2.1718e-06],
+        [ 2.7753e-06,  4.4005e-08,  1.4482e-07,  ...,  1.1519e-05,
+          2.7940e-06,  6.7465e-06],
+        [-1.1716e-06,  1.0384e-07,  5.2387e-09,  ..., -1.5676e-05,
+          4.4005e-07, -9.6783e-06]], device='cuda:0')
+Epoch 132, bias, value: tensor([ 0.0203, -0.0242,  0.0170, -0.0255,  0.0334,  0.0194,  0.0043, -0.0080,
+        -0.0142, -0.0070], device='cuda:0'), grad: tensor([ 1.0068e-06, -2.2128e-06, -6.6832e-06, -4.6611e-05,  4.2506e-06,
+         3.8683e-05,  9.6485e-07,  6.1318e-06,  4.0710e-05, -3.6329e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 131, time 220.37, cls_loss 0.0015 cls_loss_mapping 0.0057 cls_loss_causal 0.5402 re_mapping 0.0060 re_causal 0.0181 /// teacc 99.07 lr 0.00010000
+Epoch 133, weight, value: tensor([[-0.1099,  0.1421, -0.0203,  ..., -0.0736,  0.0291,  0.0031],
+        [ 0.0042, -0.0777, -0.0429,  ...,  0.0237, -0.0248, -0.0409],
+        [-0.0949, -0.1446,  0.0216,  ..., -0.0319,  0.0012, -0.0767],
+        ...,
+        [ 0.0583,  0.0841, -0.0665,  ..., -0.0842,  0.0551,  0.0612],
+        [ 0.0456, -0.0698, -0.0154,  ..., -0.0333, -0.0487, -0.0527],
+        [-0.1088, -0.0229, -0.0653,  ...,  0.0875, -0.1973,  0.0679]],
+       device='cuda:0'), grad: tensor([[ 6.8825e-07, -5.5544e-06,  2.3283e-10,  ...,  1.5348e-05,
+         -6.7404e-08, -3.5111e-07],
+        [ 5.9605e-06,  4.5635e-06,  1.1642e-10,  ...,  7.0110e-06,
+          4.3809e-06,  7.6182e-06],
+        [ 4.1611e-06,  1.3728e-06,  1.1642e-10,  ...,  3.5893e-06,
+          3.5092e-06,  3.3062e-06],
+        ...,
+        [-1.2487e-05, -1.1757e-05,  0.0000e+00,  ...,  1.6754e-06,
+         -2.0400e-05, -2.8446e-05],
+        [ 6.6496e-07,  9.3970e-07,  2.3283e-10,  ...,  2.9579e-06,
+          1.2387e-06,  8.8336e-07],
+        [ 1.8686e-05,  7.4804e-06,  0.0000e+00,  ...,  2.5451e-05,
+          5.4166e-06,  8.5309e-06]], device='cuda:0')
+Epoch 133, bias, value: tensor([ 0.0204, -0.0243,  0.0164, -0.0257,  0.0335,  0.0191,  0.0042, -0.0075,
+        -0.0136, -0.0068], device='cuda:0'), grad: tensor([ 3.9876e-05,  3.9756e-05,  2.0266e-05,  2.7955e-05, -5.4568e-05,
+         1.4462e-05, -7.5936e-05, -9.9480e-05,  9.5442e-06,  7.8022e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 132, time 220.26, cls_loss 0.0015 cls_loss_mapping 0.0051 cls_loss_causal 0.5369 re_mapping 0.0061 re_causal 0.0181 /// teacc 98.98 lr 0.00010000
+Epoch 134, weight, value: tensor([[-0.1104,  0.1427, -0.0203,  ..., -0.0739,  0.0292,  0.0032],
+        [ 0.0045, -0.0779, -0.0429,  ...,  0.0237, -0.0251, -0.0411],
+        [-0.0950, -0.1452,  0.0216,  ..., -0.0324,  0.0012, -0.0771],
+        ...,
+        [ 0.0567,  0.0846, -0.0665,  ..., -0.0849,  0.0537,  0.0595],
+        [ 0.0483, -0.0702, -0.0154,  ..., -0.0338, -0.0466, -0.0501],
+        [-0.1090, -0.0231, -0.0651,  ...,  0.0863, -0.1980,  0.0682]],
+       device='cuda:0'), grad: tensor([[ 1.0128e-07, -3.9265e-06,  0.0000e+00,  ...,  5.1130e-07,
+         -1.3802e-06, -1.8859e-08],
+        [-2.5798e-07,  1.6368e-07,  0.0000e+00,  ...,  3.7765e-07,
+          1.3942e-06,  1.1101e-06],
+        [ 2.7148e-07,  1.5218e-06,  0.0000e+00,  ...,  2.4983e-07,
+          1.5809e-07,  6.8732e-07],
+        ...,
+        [-1.9907e-07, -2.6939e-07,  0.0000e+00,  ...,  2.0843e-06,
+          1.9260e-06,  5.0627e-06],
+        [-1.7951e-07,  4.8708e-07,  0.0000e+00,  ...,  1.4305e-06,
+          1.7490e-06,  2.3432e-06],
+        [ 8.7917e-07,  7.2690e-07,  0.0000e+00,  ..., -6.3069e-06,
+          3.5716e-07, -9.1866e-06]], device='cuda:0')
+Epoch 134, bias, value: tensor([ 0.0204, -0.0239,  0.0160, -0.0257,  0.0349,  0.0190,  0.0042, -0.0096,
+        -0.0112, -0.0082], device='cuda:0'), grad: tensor([-4.8913e-06,  2.7075e-05, -2.8551e-05, -2.5585e-05,  1.8319e-06,
+         1.1683e-05,  3.1423e-06,  2.3380e-05,  4.2766e-06, -1.2480e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 133, time 220.62, cls_loss 0.0017 cls_loss_mapping 0.0065 cls_loss_causal 0.5752 re_mapping 0.0058 re_causal 0.0180 /// teacc 99.03 lr 0.00010000
+Epoch 135, weight, value: tensor([[-0.1109,  0.1432, -0.0204,  ..., -0.0742,  0.0295,  0.0031],
+        [ 0.0051, -0.0782, -0.0429,  ...,  0.0236, -0.0249, -0.0411],
+        [-0.0953, -0.1463,  0.0216,  ..., -0.0328,  0.0009, -0.0780],
+        ...,
+        [ 0.0565,  0.0857, -0.0665,  ..., -0.0869,  0.0547,  0.0597],
+        [ 0.0478, -0.0713, -0.0155,  ..., -0.0348, -0.0475, -0.0508],
+        [-0.1091, -0.0231, -0.0651,  ...,  0.0871, -0.2004,  0.0695]],
+       device='cuda:0'), grad: tensor([[ 1.4976e-06, -1.6779e-05,  1.2806e-08,  ...,  9.2387e-07,
+          4.1188e-07,  3.4506e-07],
+        [-2.5526e-05,  6.7800e-07,  1.4203e-08,  ..., -9.1419e-06,
+          5.0990e-07, -9.0804e-08],
+        [ 7.0967e-06, -9.0944e-07, -1.9022e-07,  ...,  3.5670e-06,
+          1.8012e-06,  1.1055e-06],
+        ...,
+        [ 7.8380e-06, -3.6159e-07,  2.0955e-09,  ...,  3.1181e-06,
+          4.4750e-07,  4.7497e-08],
+        [ 1.7714e-06,  8.1956e-07,  3.4692e-08,  ...,  5.5656e-06,
+          5.1269e-07,  4.2957e-07],
+        [ 2.6729e-06,  8.9733e-07,  1.8626e-09,  ...,  1.0813e-06,
+          5.8301e-07,  5.3365e-07]], device='cuda:0')
+Epoch 135, bias, value: tensor([ 0.0203, -0.0230,  0.0159, -0.0262,  0.0346,  0.0197,  0.0037, -0.0100,
+        -0.0120, -0.0075], device='cuda:0'), grad: tensor([-7.7933e-06, -7.5340e-05, -2.5928e-05, -1.6868e-05,  1.6391e-04,
+         6.6608e-06, -1.3125e-04,  3.9816e-05,  3.2127e-05,  1.4357e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 134, time 220.52, cls_loss 0.0014 cls_loss_mapping 0.0043 cls_loss_causal 0.5540 re_mapping 0.0058 re_causal 0.0174 /// teacc 99.10 lr 0.00010000
+Epoch 136, weight, value: tensor([[-0.1113,  0.1436, -0.0207,  ..., -0.0751,  0.0295,  0.0029],
+        [ 0.0053, -0.0785, -0.0429,  ...,  0.0237, -0.0250, -0.0419],
+        [-0.0955, -0.1471,  0.0216,  ..., -0.0331,  0.0006, -0.0788],
+        ...,
+        [ 0.0566,  0.0862, -0.0665,  ..., -0.0878,  0.0547,  0.0600],
+        [ 0.0476, -0.0720, -0.0155,  ..., -0.0355, -0.0482, -0.0510],
+        [-0.1095, -0.0232, -0.0638,  ...,  0.0876, -0.2016,  0.0703]],
+       device='cuda:0'), grad: tensor([[ 5.4250e-07, -1.0252e-05,  0.0000e+00,  ...,  5.3179e-07,
+         -1.2759e-07,  1.9302e-07],
+        [ 5.9307e-06,  4.0489e-07,  0.0000e+00,  ...,  3.1851e-07,
+          4.2003e-07,  4.2655e-07],
+        [ 1.9348e-04,  2.8908e-06,  0.0000e+00,  ...,  2.9127e-07,
+          1.3206e-06,  5.5972e-07],
+        ...,
+        [-1.1153e-07,  9.9884e-08,  0.0000e+00,  ...,  8.5123e-07,
+         -1.8831e-06, -1.8217e-06],
+        [-2.2161e-04,  8.3027e-07,  0.0000e+00,  ...,  1.7099e-06,
+          1.9614e-06,  1.3700e-06],
+        [ 3.7672e-07,  2.1607e-06,  0.0000e+00,  ..., -1.0014e-05,
+          2.9639e-07, -5.4277e-06]], device='cuda:0')
+Epoch 136, bias, value: tensor([ 0.0199, -0.0230,  0.0158, -0.0248,  0.0343,  0.0188,  0.0043, -0.0101,
+        -0.0126, -0.0072], device='cuda:0'), grad: tensor([-1.5944e-05,  1.2882e-05,  3.0875e-04, -2.3134e-06,  2.0415e-05,
+         2.3961e-05,  8.8215e-06,  3.1176e-07, -3.3903e-04, -1.7405e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 135, time 220.53, cls_loss 0.0013 cls_loss_mapping 0.0048 cls_loss_causal 0.5511 re_mapping 0.0055 re_causal 0.0175 /// teacc 99.06 lr 0.00010000
+Epoch 137, weight, value: tensor([[-0.1117,  0.1444, -0.0208,  ..., -0.0757,  0.0300,  0.0029],
+        [ 0.0065, -0.0788, -0.0429,  ...,  0.0251, -0.0252, -0.0408],
+        [-0.0960, -0.1482,  0.0216,  ..., -0.0336,  0.0003, -0.0796],
+        ...,
+        [ 0.0558,  0.0865, -0.0665,  ..., -0.0896,  0.0549,  0.0595],
+        [ 0.0478, -0.0725, -0.0156,  ..., -0.0362, -0.0484, -0.0512],
+        [-0.1104, -0.0234, -0.0628,  ...,  0.0877, -0.2022,  0.0709]],
+       device='cuda:0'), grad: tensor([[ 1.3039e-08, -8.3353e-08,  0.0000e+00,  ...,  5.2340e-07,
+          2.0489e-08,  1.5413e-07],
+        [ 7.8464e-08,  6.0536e-09,  0.0000e+00,  ...,  3.4156e-07,
+          2.2841e-07,  3.7858e-07],
+        [ 4.4471e-07,  2.5844e-08,  0.0000e+00,  ...,  1.2219e-06,
+          4.7241e-07,  1.3039e-06],
+        ...,
+        [-5.5181e-07, -3.6322e-08,  0.0000e+00,  ...,  1.1921e-07,
+         -1.2694e-06, -2.0601e-06],
+        [ 5.7509e-08,  2.1886e-08,  0.0000e+00,  ...,  1.6382e-06,
+          3.4855e-07,  4.7963e-07],
+        [ 1.7835e-07,  7.1945e-08,  0.0000e+00,  ..., -5.8673e-06,
+          9.8255e-08, -2.9393e-06]], device='cuda:0')
+Epoch 137, bias, value: tensor([ 0.0200, -0.0221,  0.0153, -0.0247,  0.0343,  0.0184,  0.0051, -0.0106,
+        -0.0127, -0.0072], device='cuda:0'), grad: tensor([ 1.5534e-06,  2.5611e-06,  4.3847e-06,  6.6161e-06,  2.5099e-07,
+         4.1053e-06, -1.2636e-05, -4.2841e-06,  1.0535e-05, -1.3113e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 136, time 220.36, cls_loss 0.0017 cls_loss_mapping 0.0049 cls_loss_causal 0.5559 re_mapping 0.0062 re_causal 0.0184 /// teacc 98.87 lr 0.00010000
+Epoch 138, weight, value: tensor([[-1.1200e-01,  1.4502e-01, -2.0914e-02,  ..., -7.6035e-02,
+          3.0057e-02,  2.8392e-03],
+        [ 6.4162e-03, -7.8966e-02, -4.3028e-02,  ...,  2.5370e-02,
+         -2.5310e-02, -4.0940e-02],
+        [-9.5724e-02, -1.4927e-01,  2.1733e-02,  ..., -3.3942e-02,
+          7.8999e-05, -8.0287e-02],
+        ...,
+        [ 5.5779e-02,  8.6508e-02, -6.6598e-02,  ..., -9.0418e-02,
+          5.4424e-02,  5.9070e-02],
+        [ 4.7582e-02, -7.3131e-02, -1.5641e-02,  ..., -3.7032e-02,
+         -4.8818e-02, -5.1496e-02],
+        [-1.1080e-01, -2.3532e-02, -6.2216e-02,  ...,  8.8183e-02,
+         -2.0258e-01,  7.1984e-02]], device='cuda:0'), grad: tensor([[ 8.7824e-07, -2.7753e-06,  8.9407e-08,  ..., -1.9348e-07,
+          8.6147e-09, -1.0827e-07],
+        [ 1.6438e-06,  1.2713e-07,  4.6799e-07,  ..., -1.3458e-07,
+          6.2678e-07,  1.2591e-06],
+        [ 1.1194e-06,  7.4785e-07, -1.6317e-06,  ...,  4.7032e-08,
+          3.9185e-07,  1.0375e-06],
+        ...,
+        [-4.4331e-07, -1.2759e-07,  6.2864e-09,  ...,  1.2363e-07,
+         -9.0944e-07, -2.8014e-06],
+        [ 2.6803e-06,  2.8685e-07,  2.2585e-08,  ...,  7.4506e-08,
+          9.7556e-08,  1.4203e-07],
+        [ 7.7672e-07,  7.5996e-07,  1.0943e-08,  ..., -9.2201e-08,
+          6.5425e-08,  7.1246e-08]], device='cuda:0')
+Epoch 138, bias, value: tensor([ 0.0201, -0.0236,  0.0174, -0.0256,  0.0341,  0.0189,  0.0054, -0.0114,
+        -0.0128, -0.0068], device='cuda:0'), grad: tensor([ 1.5777e-06,  1.3173e-05,  9.5274e-07,  4.4028e-07,  1.3113e-06,
+        -8.4877e-05,  4.5747e-05, -5.1335e-06,  2.1026e-05,  5.6922e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 137, time 220.26, cls_loss 0.0019 cls_loss_mapping 0.0075 cls_loss_causal 0.5772 re_mapping 0.0058 re_causal 0.0177 /// teacc 99.05 lr 0.00010000
+Epoch 139, weight, value: tensor([[-1.1231e-01,  1.4571e-01, -2.1060e-02,  ..., -7.6400e-02,
+          3.0040e-02,  2.8314e-03],
+        [ 6.4603e-03, -7.9176e-02, -4.3148e-02,  ...,  2.5405e-02,
+         -2.5346e-02, -4.1241e-02],
+        [-9.5789e-02, -1.5016e-01,  2.1835e-02,  ..., -3.5122e-02,
+         -9.1360e-05, -8.1008e-02],
+        ...,
+        [ 5.6407e-02,  8.7159e-02, -6.6612e-02,  ..., -9.1657e-02,
+          5.4724e-02,  5.9709e-02],
+        [ 4.6026e-02, -7.3698e-02, -1.5670e-02,  ..., -3.8075e-02,
+         -4.8984e-02, -5.1849e-02],
+        [-1.1158e-01, -2.4067e-02, -6.2085e-02,  ...,  8.8306e-02,
+         -2.0378e-01,  7.2323e-02]], device='cuda:0'), grad: tensor([[ 1.0268e-07, -2.5798e-07,  0.0000e+00,  ...,  4.0885e-07,
+          1.3039e-08,  1.0966e-07],
+        [-4.9919e-07,  1.9954e-07,  0.0000e+00,  ...,  1.5972e-07,
+          5.0291e-08, -6.9849e-09],
+        [ 6.9886e-06,  2.2817e-08,  0.0000e+00,  ...,  1.1967e-07,
+         -2.5309e-07,  4.6864e-06],
+        ...,
+        [-8.2105e-06, -7.8557e-07,  0.0000e+00,  ...,  2.0005e-06,
+          6.4494e-08, -4.7721e-06],
+        [ 5.2433e-07,  3.4459e-08,  0.0000e+00,  ...,  4.8392e-06,
+          2.8405e-08,  4.4424e-07],
+        [ 5.0943e-07,  5.5972e-07,  0.0000e+00,  ..., -5.1484e-06,
+          1.8394e-08, -2.8126e-06]], device='cuda:0')
+Epoch 139, bias, value: tensor([ 0.0201, -0.0239,  0.0176, -0.0264,  0.0341,  0.0210,  0.0049, -0.0110,
+        -0.0140, -0.0070], device='cuda:0'), grad: tensor([ 1.7919e-06, -7.2345e-06,  2.4512e-05,  2.2501e-06,  8.4639e-06,
+         2.3935e-06, -3.2902e-05, -1.8179e-05,  3.2544e-05, -1.3635e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 138, time 220.60, cls_loss 0.0012 cls_loss_mapping 0.0039 cls_loss_causal 0.5055 re_mapping 0.0059 re_causal 0.0169 /// teacc 99.06 lr 0.00010000
+Epoch 140, weight, value: tensor([[-0.1127,  0.1466, -0.0211,  ..., -0.0769,  0.0300,  0.0028],
+        [ 0.0066, -0.0795, -0.0432,  ...,  0.0253, -0.0258, -0.0412],
+        [-0.0962, -0.1517,  0.0218,  ..., -0.0360, -0.0003, -0.0815],
+        ...,
+        [ 0.0566,  0.0876, -0.0666,  ..., -0.0922,  0.0551,  0.0599],
+        [ 0.0459, -0.0748, -0.0157,  ..., -0.0391, -0.0492, -0.0521],
+        [-0.1121, -0.0245, -0.0615,  ...,  0.0885, -0.2044,  0.0727]],
+       device='cuda:0'), grad: tensor([[ 4.9593e-08, -6.5658e-08,  2.8405e-08,  ...,  2.3912e-07,
+          1.4435e-08,  1.7695e-08],
+        [-1.8650e-07,  6.3796e-08,  3.0268e-08,  ..., -1.2852e-07,
+          1.6997e-08,  6.9384e-08],
+        [ 1.9418e-07,  5.7509e-08,  9.5228e-08,  ...,  5.9931e-07,
+          2.3050e-08,  6.2631e-08],
+        ...,
+        [-1.0896e-07, -3.2014e-07,  9.3132e-10,  ...,  3.5577e-07,
+         -3.2363e-08, -1.5320e-07],
+        [-8.2888e-08,  1.6531e-08,  5.5879e-09,  ...,  1.0803e-07,
+          4.4005e-08,  2.9802e-08],
+        [ 3.8790e-07,  1.4063e-07,  1.1642e-09,  ..., -3.5297e-07,
+          5.0990e-08, -4.5192e-07]], device='cuda:0')
+Epoch 140, bias, value: tensor([ 0.0204, -0.0237,  0.0174, -0.0263,  0.0340,  0.0203,  0.0060, -0.0110,
+        -0.0145, -0.0069], device='cuda:0'), grad: tensor([ 1.0449e-06,  4.6799e-08,  4.1514e-07,  1.5087e-06,  1.0747e-06,
+        -5.6252e-07, -4.6752e-06,  6.4075e-07,  3.8301e-07,  9.7090e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 139----------------------------------------------------
+epoch 139, time 221.49, cls_loss 0.0012 cls_loss_mapping 0.0042 cls_loss_causal 0.5312 re_mapping 0.0058 re_causal 0.0172 /// teacc 99.18 lr 0.00010000
+Epoch 141, weight, value: tensor([[-1.1309e-01,  1.4734e-01, -2.1516e-02,  ..., -7.7231e-02,
+          2.9374e-02,  2.9644e-03],
+        [ 6.7303e-03, -8.0517e-02, -4.3395e-02,  ...,  2.5133e-02,
+         -2.6092e-02, -4.1443e-02],
+        [-9.6459e-02, -1.5269e-01,  2.2012e-02,  ..., -3.6246e-02,
+         -2.0173e-04, -8.1947e-02],
+        ...,
+        [ 5.6776e-02,  8.8541e-02, -6.6595e-02,  ..., -9.2721e-02,
+          5.5296e-02,  6.0273e-02],
+        [ 4.5529e-02, -7.5276e-02, -1.5705e-02,  ..., -3.9834e-02,
+         -4.9406e-02, -5.2312e-02],
+        [-1.1276e-01, -2.4922e-02, -6.1620e-02,  ...,  8.8474e-02,
+         -2.0507e-01,  7.2641e-02]], device='cuda:0'), grad: tensor([[ 1.6578e-07, -6.7661e-07,  5.5879e-09,  ...,  3.1013e-07,
+         -8.3353e-08,  2.6077e-08],
+        [-2.3544e-06,  1.7835e-07,  1.9558e-08,  ..., -2.4047e-06,
+          5.5879e-08,  1.8161e-07],
+        [ 1.4361e-06,  1.7788e-07,  2.8871e-08,  ...,  1.4286e-06,
+          4.6566e-08,  8.5216e-08],
+        ...,
+        [ 1.3085e-07, -3.7672e-07,  1.3970e-09,  ...,  7.0361e-07,
+         -1.3132e-07, -2.2585e-07],
+        [-1.8524e-06,  6.4261e-08,  4.6566e-10,  ...,  3.1274e-06,
+          3.5856e-08,  1.0598e-06],
+        [ 5.9605e-07,  1.3970e-07,  8.5216e-08,  ..., -6.5602e-06,
+          4.1444e-08, -3.1386e-06]], device='cuda:0')
+Epoch 141, bias, value: tensor([ 0.0202, -0.0239,  0.0173, -0.0263,  0.0343,  0.0201,  0.0067, -0.0108,
+        -0.0146, -0.0072], device='cuda:0'), grad: tensor([ 4.4378e-07, -1.1660e-05,  8.8513e-06,  1.9342e-05,  1.6876e-06,
+         1.3851e-05,  3.2857e-06,  2.2873e-06, -2.6345e-05, -1.1727e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 140, time 220.65, cls_loss 0.0013 cls_loss_mapping 0.0042 cls_loss_causal 0.5280 re_mapping 0.0056 re_causal 0.0169 /// teacc 99.06 lr 0.00010000
+Epoch 142, weight, value: tensor([[-1.1344e-01,  1.4859e-01, -2.1881e-02,  ..., -7.7339e-02,
+          2.9855e-02,  3.1426e-03],
+        [ 6.7061e-03, -8.2356e-02, -4.3544e-02,  ...,  2.4862e-02,
+         -2.6215e-02, -4.2262e-02],
+        [-9.6682e-02, -1.5177e-01,  2.2230e-02,  ..., -3.6772e-02,
+         -1.6289e-04, -8.2255e-02],
+        ...,
+        [ 5.7100e-02,  8.9886e-02, -6.6671e-02,  ..., -9.3984e-02,
+          5.5337e-02,  6.0171e-02],
+        [ 4.5753e-02, -7.6188e-02, -1.5780e-02,  ..., -4.0380e-02,
+         -4.9739e-02, -5.2543e-02],
+        [-1.1344e-01, -2.5733e-02, -6.1893e-02,  ...,  8.8781e-02,
+         -2.0564e-01,  7.3483e-02]], device='cuda:0'), grad: tensor([[ 4.0978e-07, -4.6134e-05,  6.5193e-09,  ..., -3.9667e-05,
+          1.1642e-08,  1.2852e-07],
+        [-8.6874e-06,  1.0300e-06,  6.0536e-09,  ..., -5.5954e-06,
+          8.8941e-08,  7.3621e-07],
+        [ 3.6508e-06,  4.0755e-06,  1.8626e-09,  ...,  5.9009e-06,
+          6.8452e-08,  3.3760e-07],
+        ...,
+        [ 2.2817e-08, -8.9733e-07,  4.6566e-10,  ...,  2.8796e-06,
+          3.0268e-08,  7.5344e-07],
+        [ 1.4426e-06,  2.2687e-06,  2.7940e-09,  ...,  5.8934e-06,
+          5.9139e-08,  1.8422e-06],
+        [ 1.2759e-06,  2.0117e-05,  9.3132e-10,  ...,  9.4026e-06,
+          5.8673e-08, -7.9572e-06]], device='cuda:0')
+Epoch 142, bias, value: tensor([ 0.0205, -0.0241,  0.0177, -0.0263,  0.0344,  0.0199,  0.0065, -0.0109,
+        -0.0147, -0.0071], device='cuda:0'), grad: tensor([-1.8561e-04, -3.1054e-05,  2.7820e-05,  2.8446e-05,  1.8224e-05,
+         9.7156e-06,  4.2349e-05,  9.4175e-06,  1.8373e-05,  6.2108e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 141, time 221.05, cls_loss 0.0016 cls_loss_mapping 0.0056 cls_loss_causal 0.5557 re_mapping 0.0057 re_causal 0.0168 /// teacc 98.92 lr 0.00010000
+Epoch 143, weight, value: tensor([[-0.1139,  0.1495, -0.0219,  ..., -0.0783,  0.0304,  0.0029],
+        [ 0.0057, -0.0843, -0.0439,  ...,  0.0249, -0.0266, -0.0444],
+        [-0.0968, -0.1529,  0.0227,  ..., -0.0372, -0.0003, -0.0831],
+        ...,
+        [ 0.0583,  0.0913, -0.0665,  ..., -0.0952,  0.0559,  0.0609],
+        [ 0.0460, -0.0769, -0.0159,  ..., -0.0407, -0.0499, -0.0526],
+        [-0.1146, -0.0257, -0.0621,  ...,  0.0893, -0.2076,  0.0750]],
+       device='cuda:0'), grad: tensor([[ 5.9372e-07, -2.7288e-06, -4.4238e-08,  ...,  5.3504e-07,
+         -1.4110e-07,  6.1747e-07],
+        [-1.0673e-06,  1.6764e-07,  4.6566e-10,  ...,  6.6217e-07,
+          2.0675e-07,  1.8939e-05],
+        [ 4.7823e-07,  8.2422e-07,  3.2596e-09,  ...,  6.4913e-07,
+          2.2911e-07,  1.4240e-06],
+        ...,
+        [-9.1735e-08, -5.6392e-07,  0.0000e+00,  ...,  1.1712e-05,
+         -2.1793e-07,  6.7353e-05],
+        [-2.9858e-06,  1.6112e-07,  2.7940e-09,  ..., -8.1817e-07,
+          1.4435e-07,  2.2873e-06],
+        [ 8.7023e-06,  1.2703e-06,  2.1420e-08,  ..., -1.7196e-05,
+          4.6678e-06, -9.7513e-05]], device='cuda:0')
+Epoch 143, bias, value: tensor([ 0.0203, -0.0255,  0.0181, -0.0265,  0.0343,  0.0195,  0.0069, -0.0101,
+        -0.0145, -0.0067], device='cuda:0'), grad: tensor([ 4.5821e-06,  4.0054e-05,  1.0058e-05,  1.5736e-05,  3.0428e-05,
+        -6.1452e-05,  4.9800e-05,  1.7452e-04, -5.7518e-05, -2.0587e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 142, time 220.44, cls_loss 0.0012 cls_loss_mapping 0.0043 cls_loss_causal 0.5439 re_mapping 0.0055 re_causal 0.0168 /// teacc 99.01 lr 0.00010000
+Epoch 144, weight, value: tensor([[-0.1147,  0.1502, -0.0220,  ..., -0.0786,  0.0303,  0.0032],
+        [ 0.0060, -0.0844, -0.0440,  ...,  0.0260, -0.0270, -0.0448],
+        [-0.0973, -0.1536,  0.0228,  ..., -0.0378, -0.0003, -0.0838],
+        ...,
+        [ 0.0587,  0.0915, -0.0666,  ..., -0.0959,  0.0562,  0.0612],
+        [ 0.0460, -0.0768, -0.0160,  ..., -0.0412, -0.0502, -0.0528],
+        [-0.1156, -0.0261, -0.0616,  ...,  0.0893, -0.2085,  0.0754]],
+       device='cuda:0'), grad: tensor([[ 4.1444e-08, -3.4180e-06,  0.0000e+00,  ...,  4.2329e-07,
+         -6.9430e-07, -7.8557e-07],
+        [ 2.2305e-07,  8.0094e-08,  0.0000e+00,  ...,  6.3563e-07,
+          3.9116e-08,  2.4168e-07],
+        [ 2.3749e-07,  2.7753e-07,  0.0000e+00,  ...,  2.2259e-07,
+          6.5193e-08,  1.5693e-07],
+        ...,
+        [ 1.2666e-07,  7.0781e-08,  0.0000e+00,  ...,  8.2655e-07,
+          3.9581e-08,  5.9837e-07],
+        [-5.2946e-07,  1.1874e-07,  0.0000e+00,  ...,  4.8243e-07,
+          7.2643e-08,  3.2363e-07],
+        [-7.4394e-06,  2.3004e-06,  0.0000e+00,  ..., -1.5783e-04,
+          4.6426e-07, -7.9811e-05]], device='cuda:0')
+Epoch 144, bias, value: tensor([ 0.0200, -0.0253,  0.0181, -0.0258,  0.0343,  0.0191,  0.0068, -0.0100,
+        -0.0145, -0.0069], device='cuda:0'), grad: tensor([-3.9674e-06,  1.8114e-06,  1.2973e-06,  1.0654e-06,  3.7813e-04,
+         1.4063e-06, -2.2445e-07,  2.3618e-06, -1.1288e-06, -3.8052e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 143, time 220.65, cls_loss 0.0011 cls_loss_mapping 0.0031 cls_loss_causal 0.5251 re_mapping 0.0057 re_causal 0.0165 /// teacc 98.96 lr 0.00010000
+Epoch 145, weight, value: tensor([[-0.1151,  0.1510, -0.0220,  ..., -0.0787,  0.0302,  0.0033],
+        [ 0.0057, -0.0856, -0.0443,  ...,  0.0258, -0.0273, -0.0457],
+        [-0.0976, -0.1545,  0.0230,  ..., -0.0381, -0.0003, -0.0844],
+        ...,
+        [ 0.0594,  0.0930, -0.0667,  ..., -0.0963,  0.0563,  0.0619],
+        [ 0.0457, -0.0773, -0.0161,  ..., -0.0415, -0.0504, -0.0530],
+        [-0.1162, -0.0267, -0.0613,  ...,  0.0898, -0.2094,  0.0758]],
+       device='cuda:0'), grad: tensor([[ 5.4948e-08,  0.0000e+00,  0.0000e+00,  ...,  6.5193e-08,
+          9.5926e-08,  8.3353e-08],
+        [ 7.7300e-08,  0.0000e+00,  0.0000e+00,  ..., -6.8918e-08,
+          3.3621e-06,  2.2966e-06],
+        [ 1.9372e-07,  0.0000e+00,  0.0000e+00,  ...,  2.0489e-07,
+          1.5991e-06,  1.0692e-06],
+        ...,
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  3.3714e-07,
+          1.2014e-06,  5.4669e-07],
+        [ 1.7602e-07,  0.0000e+00,  0.0000e+00,  ...,  2.0396e-07,
+          5.5209e-06,  3.5483e-06],
+        [ 1.0468e-06,  0.0000e+00,  0.0000e+00,  ...,  1.3113e-06,
+          2.8312e-07,  1.6065e-07]], device='cuda:0')
+Epoch 145, bias, value: tensor([ 0.0201, -0.0256,  0.0180, -0.0258,  0.0339,  0.0192,  0.0068, -0.0094,
+        -0.0148, -0.0066], device='cuda:0'), grad: tensor([ 5.9046e-07,  8.7768e-06,  4.4964e-06, -3.4362e-05, -6.8732e-06,
+        -1.1176e-08,  2.2575e-06,  4.1798e-06,  1.6347e-05,  4.5709e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 144, time 220.16, cls_loss 0.0012 cls_loss_mapping 0.0039 cls_loss_causal 0.5303 re_mapping 0.0056 re_causal 0.0166 /// teacc 99.01 lr 0.00010000
+Epoch 146, weight, value: tensor([[-0.1156,  0.1517, -0.0221,  ..., -0.0789,  0.0303,  0.0037],
+        [ 0.0057, -0.0857, -0.0444,  ...,  0.0259, -0.0276, -0.0459],
+        [-0.0978, -0.1551,  0.0233,  ..., -0.0384, -0.0005, -0.0850],
+        ...,
+        [ 0.0595,  0.0932, -0.0668,  ..., -0.0970,  0.0563,  0.0620],
+        [ 0.0456, -0.0777, -0.0161,  ..., -0.0421, -0.0513, -0.0533],
+        [-0.1169, -0.0271, -0.0599,  ...,  0.0899, -0.2106,  0.0761]],
+       device='cuda:0'), grad: tensor([[ 1.4761e-07, -5.1130e-07, -5.1223e-08,  ...,  2.3711e-06,
+          1.4342e-07,  8.3819e-08],
+        [-8.5682e-08,  1.2107e-08, -4.1910e-09,  ..., -2.8592e-07,
+          7.3202e-07,  9.0851e-07],
+        [-4.0755e-06,  3.1199e-08,  1.0245e-08,  ...,  1.3830e-07,
+          2.3283e-08,  5.4576e-07],
+        ...,
+        [-1.1642e-08, -9.3132e-08,  3.7253e-09,  ...,  6.4401e-07,
+         -2.8014e-06, -2.5034e-06],
+        [ 6.2026e-07,  1.3504e-08,  4.6566e-09,  ...,  2.1234e-07,
+          4.2748e-07,  4.1816e-07],
+        [ 3.5902e-07,  1.3178e-07,  1.2573e-08,  ..., -1.3560e-06,
+          5.3225e-07, -2.0787e-06]], device='cuda:0')
+Epoch 146, bias, value: tensor([ 0.0202, -0.0253,  0.0180, -0.0247,  0.0344,  0.0187,  0.0063, -0.0096,
+        -0.0152, -0.0068], device='cuda:0'), grad: tensor([ 8.5384e-06,  1.5125e-06, -1.6838e-05,  6.5677e-06,  7.4431e-06,
+         2.9858e-06, -1.1146e-05,  5.1223e-09,  3.5204e-06, -2.5798e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 145, time 220.70, cls_loss 0.0013 cls_loss_mapping 0.0037 cls_loss_causal 0.5041 re_mapping 0.0053 re_causal 0.0160 /// teacc 99.01 lr 0.00010000
+Epoch 147, weight, value: tensor([[-0.1159,  0.1520, -0.0222,  ..., -0.0799,  0.0309,  0.0043],
+        [ 0.0061, -0.0860, -0.0444,  ...,  0.0270, -0.0278, -0.0453],
+        [-0.0981, -0.1560,  0.0233,  ..., -0.0389, -0.0008, -0.0857],
+        ...,
+        [ 0.0594,  0.0933, -0.0669,  ..., -0.0982,  0.0561,  0.0615],
+        [ 0.0467, -0.0781, -0.0161,  ..., -0.0407, -0.0514, -0.0534],
+        [-0.1180, -0.0276, -0.0573,  ...,  0.0897, -0.2123,  0.0765]],
+       device='cuda:0'), grad: tensor([[ 8.2422e-08,  1.6391e-07,  5.1223e-09,  ...,  4.9919e-07,
+          1.1409e-07,  1.4622e-07],
+        [ 5.2294e-07,  1.4761e-07,  1.3970e-09,  ..., -3.0268e-08,
+          1.8254e-07,  3.7346e-07],
+        [ 7.5623e-07,  1.4529e-07,  9.3132e-10,  ...,  4.9919e-07,
+          4.6566e-07,  4.3865e-07],
+        ...,
+        [-8.4285e-08, -9.9465e-07,  0.0000e+00,  ...,  5.3085e-07,
+          4.0047e-07, -5.3458e-07],
+        [-2.1551e-06,  1.0943e-07,  3.2596e-09,  ...,  4.1025e-07,
+          3.1618e-07,  2.3982e-07],
+        [ 7.8976e-07,  7.2923e-07,  4.6566e-10,  ..., -1.7565e-06,
+          1.8859e-07, -7.6089e-07]], device='cuda:0')
+Epoch 147, bias, value: tensor([ 0.0199, -0.0250,  0.0177, -0.0251,  0.0348,  0.0190,  0.0062, -0.0102,
+        -0.0140, -0.0074], device='cuda:0'), grad: tensor([ 2.4624e-06,  1.6401e-06,  4.0978e-06, -5.0068e-06,  2.6897e-06,
+         5.0711e-07, -4.7088e-06,  2.0023e-08, -8.2143e-07, -8.6846e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 146, time 220.47, cls_loss 0.0013 cls_loss_mapping 0.0040 cls_loss_causal 0.5412 re_mapping 0.0057 re_causal 0.0169 /// teacc 99.07 lr 0.00010000
+Epoch 148, weight, value: tensor([[-0.1164,  0.1532, -0.0228,  ..., -0.0805,  0.0316,  0.0041],
+        [ 0.0063, -0.0863, -0.0444,  ...,  0.0270, -0.0281, -0.0454],
+        [-0.0983, -0.1582,  0.0236,  ..., -0.0394, -0.0004, -0.0863],
+        ...,
+        [ 0.0595,  0.0935, -0.0673,  ..., -0.0992,  0.0563,  0.0615],
+        [ 0.0467, -0.0791, -0.0162,  ..., -0.0412, -0.0524, -0.0536],
+        [-0.1185, -0.0278, -0.0576,  ...,  0.0903, -0.2134,  0.0773]],
+       device='cuda:0'), grad: tensor([[ 3.3528e-08, -8.0047e-07,  0.0000e+00,  ...,  3.4738e-07,
+         -1.1316e-07,  2.7940e-09],
+        [ 7.7300e-08,  2.2817e-08,  0.0000e+00,  ...,  1.1502e-07,
+          9.5926e-07,  1.0561e-06],
+        [ 1.0571e-06,  3.3528e-08,  0.0000e+00,  ...,  5.7695e-07,
+          3.3434e-07,  2.9150e-07],
+        ...,
+        [-9.9652e-08, -7.5437e-08,  0.0000e+00,  ...,  1.8114e-07,
+          1.2919e-05,  1.4223e-05],
+        [-2.7334e-07,  2.4214e-08,  0.0000e+00,  ...,  4.3213e-07,
+          1.7788e-07,  2.6310e-07],
+        [ 1.5600e-07,  2.3050e-07,  0.0000e+00,  ..., -2.5202e-06,
+          2.6869e-07, -1.0096e-06]], device='cuda:0')
+Epoch 148, bias, value: tensor([ 0.0198, -0.0251,  0.0182, -0.0253,  0.0345,  0.0184,  0.0074, -0.0103,
+        -0.0147, -0.0070], device='cuda:0'), grad: tensor([-4.0047e-08,  2.9467e-06,  3.5781e-06, -3.6150e-05,  6.1607e-07,
+         2.6189e-06, -3.1330e-06,  3.4750e-05, -6.8452e-08, -5.1931e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 147, time 220.22, cls_loss 0.0015 cls_loss_mapping 0.0060 cls_loss_causal 0.5296 re_mapping 0.0059 re_causal 0.0164 /// teacc 98.96 lr 0.00010000
+Epoch 149, weight, value: tensor([[-0.1172,  0.1555, -0.0238,  ..., -0.0787,  0.0316,  0.0038],
+        [ 0.0064, -0.0891, -0.0451,  ...,  0.0259, -0.0284, -0.0454],
+        [-0.0986, -0.1608,  0.0240,  ..., -0.0408, -0.0005, -0.0869],
+        ...,
+        [ 0.0597,  0.0943, -0.0679,  ..., -0.0997,  0.0564,  0.0616],
+        [ 0.0468, -0.0801, -0.0164,  ..., -0.0421, -0.0529, -0.0539],
+        [-0.1188, -0.0278, -0.0563,  ...,  0.0919, -0.2143,  0.0790]],
+       device='cuda:0'), grad: tensor([[ 6.7521e-08, -7.9647e-06,  2.5611e-08,  ...,  1.2014e-07,
+         -3.5316e-06, -2.1718e-06],
+        [ 2.3842e-07,  5.5414e-08,  1.3039e-08,  ..., -4.7125e-07,
+          2.9523e-07,  1.6112e-07],
+        [ 6.8871e-07,  1.9092e-08, -8.9873e-08,  ...,  1.6158e-07,
+          8.0094e-08,  1.4016e-07],
+        ...,
+        [-1.6559e-06,  2.6543e-08,  2.0489e-08,  ...,  1.0291e-07,
+         -5.9698e-07, -3.6275e-07],
+        [ 4.1444e-08,  9.6392e-08,  4.8429e-08,  ...,  3.1665e-08,
+          2.2771e-07,  9.3132e-08],
+        [ 3.4459e-07,  5.0664e-07,  9.7789e-09,  ...,  4.2375e-07,
+          2.8359e-07,  1.5413e-07]], device='cuda:0')
+Epoch 149, bias, value: tensor([ 0.0219, -0.0257,  0.0179, -0.0252,  0.0329,  0.0182,  0.0075, -0.0105,
+        -0.0150, -0.0055], device='cuda:0'), grad: tensor([-1.1526e-05,  6.2166e-07,  5.8394e-07,  1.3188e-06,  2.7800e-07,
+         8.2552e-06,  2.2817e-06, -4.3102e-06,  1.3318e-07,  2.3730e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 148, time 220.28, cls_loss 0.0011 cls_loss_mapping 0.0048 cls_loss_causal 0.5443 re_mapping 0.0053 re_causal 0.0163 /// teacc 99.04 lr 0.00010000
+Epoch 150, weight, value: tensor([[-0.1179,  0.1579, -0.0235,  ..., -0.0788,  0.0330,  0.0053],
+        [ 0.0064, -0.0896, -0.0450,  ...,  0.0259, -0.0287, -0.0458],
+        [-0.0988, -0.1618,  0.0241,  ..., -0.0411, -0.0007, -0.0874],
+        ...,
+        [ 0.0598,  0.0946, -0.0681,  ..., -0.1000,  0.0552,  0.0614],
+        [ 0.0467, -0.0823, -0.0164,  ..., -0.0428, -0.0534, -0.0542],
+        [-0.1200, -0.0290, -0.0564,  ...,  0.0926, -0.2162,  0.0796]],
+       device='cuda:0'), grad: tensor([[ 2.6543e-08, -1.2554e-06,  0.0000e+00,  ...,  1.3113e-06,
+          7.9162e-09, -7.5437e-08],
+        [ 3.4459e-08,  8.3353e-08,  0.0000e+00,  ...,  1.8012e-06,
+          4.6706e-07,  2.5239e-07],
+        [ 1.5413e-07,  9.4064e-08,  0.0000e+00,  ...,  3.5942e-05,
+          6.9896e-07,  3.7067e-07],
+        ...,
+        [-4.7032e-07, -2.5798e-07,  0.0000e+00,  ...,  5.7742e-08,
+         -7.0315e-08, -4.0792e-07],
+        [ 7.7765e-08,  2.0023e-08,  0.0000e+00,  ...,  2.5937e-07,
+          7.6555e-07,  2.6124e-07],
+        [ 8.0559e-08,  7.2643e-08,  0.0000e+00,  ...,  1.0710e-08,
+          1.3085e-07, -2.4680e-08]], device='cuda:0')
+Epoch 150, bias, value: tensor([ 0.0227, -0.0256,  0.0178, -0.0247,  0.0323,  0.0187,  0.0076, -0.0111,
+        -0.0153, -0.0054], device='cuda:0'), grad: tensor([ 4.1276e-06,  7.5959e-06,  1.3018e-04, -1.2672e-04,  5.2676e-06,
+         1.2118e-04, -1.4389e-04, -8.2608e-07,  2.6505e-06,  4.9779e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 149, time 220.73, cls_loss 0.0010 cls_loss_mapping 0.0033 cls_loss_causal 0.5163 re_mapping 0.0054 re_causal 0.0162 /// teacc 99.13 lr 0.00010000
+Epoch 151, weight, value: tensor([[-0.1183,  0.1587, -0.0236,  ..., -0.0785,  0.0331,  0.0055],
+        [ 0.0062, -0.0899, -0.0448,  ...,  0.0257, -0.0289, -0.0463],
+        [-0.0991, -0.1624,  0.0238,  ..., -0.0420, -0.0012, -0.0881],
+        ...,
+        [ 0.0603,  0.0953, -0.0683,  ..., -0.1005,  0.0554,  0.0616],
+        [ 0.0469, -0.0832, -0.0165,  ..., -0.0432, -0.0536, -0.0544],
+        [-0.1206, -0.0293, -0.0564,  ...,  0.0926, -0.2168,  0.0802]],
+       device='cuda:0'), grad: tensor([[ 1.2713e-07, -3.3993e-08,  0.0000e+00,  ...,  1.1036e-07,
+          8.8476e-08,  2.0489e-08],
+        [-2.4606e-06, -1.3690e-07,  0.0000e+00,  ..., -1.5032e-06,
+          1.6578e-07, -2.9383e-07],
+        [ 2.2259e-07,  2.7940e-08,  0.0000e+00,  ...,  1.9325e-07,
+         -3.1618e-07,  4.8429e-08],
+        ...,
+        [ 2.5798e-07, -1.1548e-07,  0.0000e+00,  ...,  3.4133e-07,
+         -8.5682e-08, -1.4203e-07],
+        [ 8.0513e-07,  5.9605e-08,  0.0000e+00,  ...,  5.9698e-07,
+          5.5414e-08,  1.7742e-07],
+        [ 3.2857e-06,  1.5041e-07,  0.0000e+00,  ...,  3.6638e-06,
+          6.1607e-07, -4.3074e-07]], device='cuda:0')
+Epoch 151, bias, value: tensor([ 0.0232, -0.0254,  0.0167, -0.0247,  0.0325,  0.0186,  0.0076, -0.0107,
+        -0.0153, -0.0056], device='cuda:0'), grad: tensor([ 1.3076e-06, -1.3068e-05, -1.2126e-06,  1.9670e-06, -7.3910e-06,
+        -3.9041e-06,  5.6811e-07,  1.4193e-06,  5.0031e-06,  1.5274e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 150, time 220.90, cls_loss 0.0010 cls_loss_mapping 0.0036 cls_loss_causal 0.5156 re_mapping 0.0051 re_causal 0.0164 /// teacc 99.10 lr 0.00010000
+Epoch 152, weight, value: tensor([[-0.1185,  0.1595, -0.0236,  ..., -0.0784,  0.0332,  0.0055],
+        [ 0.0061, -0.0903, -0.0449,  ...,  0.0256, -0.0293, -0.0469],
+        [-0.0993, -0.1631,  0.0240,  ..., -0.0423, -0.0011, -0.0888],
+        ...,
+        [ 0.0607,  0.0961, -0.0682,  ..., -0.1023,  0.0560,  0.0606],
+        [ 0.0470, -0.0837, -0.0165,  ..., -0.0440, -0.0538, -0.0546],
+        [-0.1211, -0.0296, -0.0564,  ...,  0.0929, -0.2174,  0.0820]],
+       device='cuda:0'), grad: tensor([[ 1.9697e-07, -3.7393e-07,  0.0000e+00,  ...,  3.6135e-07,
+          5.8208e-08,  1.2107e-08],
+        [ 5.5879e-09,  4.0978e-08, -9.3132e-10,  ..., -5.0245e-07,
+          3.3481e-07,  2.7521e-07],
+        [ 2.6356e-07,  9.0804e-08,  0.0000e+00,  ...,  4.9081e-07,
+          9.5740e-07,  4.8801e-07],
+        ...,
+        [ 1.7136e-07,  1.0710e-08,  4.6566e-10,  ...,  3.4180e-07,
+         -1.4585e-06, -4.6268e-06],
+        [ 3.6322e-07,  2.5611e-08,  0.0000e+00,  ...,  2.0070e-07,
+          7.8604e-07,  3.5902e-07],
+        [ 2.5947e-06,  2.3795e-07,  0.0000e+00,  ...,  5.1744e-06,
+          9.5833e-07,  2.5649e-06]], device='cuda:0')
+Epoch 152, bias, value: tensor([ 0.0237, -0.0257,  0.0168, -0.0249,  0.0325,  0.0183,  0.0076, -0.0113,
+        -0.0155, -0.0050], device='cuda:0'), grad: tensor([ 6.8918e-07, -7.4599e-07,  4.0829e-06, -5.3234e-06, -1.6347e-05,
+        -1.7313e-06,  5.7854e-06, -6.1952e-06,  3.7663e-06,  1.5974e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 151, time 220.32, cls_loss 0.0012 cls_loss_mapping 0.0045 cls_loss_causal 0.5172 re_mapping 0.0051 re_causal 0.0156 /// teacc 99.10 lr 0.00010000
+Epoch 153, weight, value: tensor([[-0.1192,  0.1602, -0.0235,  ..., -0.0785,  0.0330,  0.0057],
+        [ 0.0055, -0.0903, -0.0456,  ...,  0.0247, -0.0296, -0.0471],
+        [-0.0996, -0.1635,  0.0248,  ..., -0.0430, -0.0016, -0.0900],
+        ...,
+        [ 0.0609,  0.0964, -0.0683,  ..., -0.1029,  0.0561,  0.0606],
+        [ 0.0468, -0.0841, -0.0163,  ..., -0.0450, -0.0543, -0.0548],
+        [-0.1241, -0.0299, -0.0565,  ...,  0.0920, -0.2187,  0.0817]],
+       device='cuda:0'), grad: tensor([[ 1.6624e-07, -2.7940e-09,  0.0000e+00,  ...,  1.7043e-07,
+          1.1455e-07,  3.8184e-08],
+        [-6.6031e-07,  1.3970e-09,  0.0000e+00,  ..., -3.4133e-07,
+          6.1467e-08,  8.9407e-08],
+        [ 7.0920e-07,  1.5693e-07,  0.0000e+00,  ...,  5.6997e-07,
+         -1.7229e-08,  1.2899e-07],
+        ...,
+        [ 2.1560e-07, -4.5262e-07,  0.0000e+00,  ...,  4.5775e-07,
+         -5.7276e-08, -4.8662e-07],
+        [-2.2585e-07,  1.2107e-08,  0.0000e+00,  ...,  2.1048e-07,
+          4.5635e-08,  8.0094e-08],
+        [ 2.9933e-06,  1.6857e-07,  0.0000e+00,  ...,  4.8839e-06,
+          7.0315e-08,  5.2154e-08]], device='cuda:0')
+Epoch 153, bias, value: tensor([ 0.0237, -0.0264,  0.0168, -0.0245,  0.0339,  0.0181,  0.0080, -0.0114,
+        -0.0154, -0.0062], device='cuda:0'), grad: tensor([ 1.3318e-06, -2.2687e-06,  9.5740e-07,  1.7453e-06, -1.7151e-05,
+         1.1940e-06,  1.7006e-06,  2.1085e-06, -4.8243e-06,  1.5192e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 152, time 220.05, cls_loss 0.0010 cls_loss_mapping 0.0031 cls_loss_causal 0.5115 re_mapping 0.0052 re_causal 0.0158 /// teacc 99.05 lr 0.00010000
+Epoch 154, weight, value: tensor([[-0.1197,  0.1606, -0.0236,  ..., -0.0786,  0.0324,  0.0057],
+        [ 0.0053, -0.0906, -0.0458,  ...,  0.0245, -0.0301, -0.0474],
+        [-0.0998, -0.1641,  0.0249,  ..., -0.0436, -0.0020, -0.0905],
+        ...,
+        [ 0.0613,  0.0969, -0.0683,  ..., -0.1033,  0.0563,  0.0608],
+        [ 0.0470, -0.0846, -0.0164,  ..., -0.0453, -0.0550, -0.0551],
+        [-0.1248, -0.0302, -0.0565,  ...,  0.0920, -0.2198,  0.0817]],
+       device='cuda:0'), grad: tensor([[ 3.6648e-07, -4.4778e-06, -1.4417e-06,  ...,  2.1793e-07,
+         -7.0641e-07, -2.4103e-06],
+        [-9.7752e-06, -1.5367e-08,  1.5367e-08,  ..., -9.2164e-06,
+          7.6834e-08,  2.0489e-07],
+        [ 4.9248e-06,  4.0932e-07,  5.3551e-08,  ...,  1.7444e-06,
+          3.7067e-07,  1.4659e-06],
+        ...,
+        [-1.6898e-05,  2.4214e-07,  6.5658e-08,  ..., -2.0992e-06,
+         -9.5740e-07, -4.8429e-06],
+        [ 9.6671e-07,  2.3609e-07,  9.7323e-08,  ...,  1.5078e-06,
+          7.6834e-08,  6.1654e-07],
+        [ 6.8769e-06,  7.6788e-07,  1.3737e-07,  ...,  1.3439e-06,
+          4.8988e-07,  1.4659e-06]], device='cuda:0')
+Epoch 154, bias, value: tensor([ 0.0236, -0.0267,  0.0169, -0.0239,  0.0340,  0.0180,  0.0081, -0.0113,
+        -0.0152, -0.0064], device='cuda:0'), grad: tensor([-6.6534e-06, -1.7154e-04,  1.3983e-04,  5.8934e-06,  1.9386e-05,
+         1.0461e-05,  1.0416e-05, -2.9951e-05,  4.1276e-06,  1.7956e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 153, time 220.55, cls_loss 0.0015 cls_loss_mapping 0.0041 cls_loss_causal 0.5583 re_mapping 0.0057 re_causal 0.0171 /// teacc 99.15 lr 0.00010000
+Epoch 155, weight, value: tensor([[-0.1205,  0.1613, -0.0234,  ..., -0.0788,  0.0325,  0.0060],
+        [ 0.0038, -0.0931, -0.0455,  ...,  0.0238, -0.0304, -0.0492],
+        [-0.1005, -0.1648,  0.0244,  ..., -0.0449, -0.0021, -0.0909],
+        ...,
+        [ 0.0631,  0.0994, -0.0689,  ..., -0.1034,  0.0564,  0.0615],
+        [ 0.0474, -0.0871, -0.0165,  ..., -0.0480, -0.0555, -0.0558],
+        [-0.1284, -0.0302, -0.0549,  ...,  0.0895, -0.2206,  0.0795]],
+       device='cuda:0'), grad: tensor([[ 2.0023e-07,  3.0268e-08,  9.3132e-10,  ...,  5.0571e-07,
+          2.6915e-07,  1.2433e-07],
+        [-2.3037e-05, -5.1223e-08,  0.0000e+00,  ..., -3.6299e-05,
+          2.6776e-07,  1.1642e-07],
+        [ 1.6531e-07,  7.1712e-08,  0.0000e+00,  ...,  1.7229e-07,
+         -1.0006e-05,  1.3364e-07],
+        ...,
+        [ 4.0745e-07, -4.6380e-07,  0.0000e+00,  ...,  1.3215e-06,
+          1.8300e-07,  1.7695e-07],
+        [ 4.3400e-07,  5.4948e-08,  4.6566e-10,  ...,  7.2923e-07,
+          7.1665e-07,  3.2084e-07],
+        [ 8.8057e-07,  6.1002e-08,  0.0000e+00,  ..., -2.2072e-06,
+          5.1688e-08, -2.7064e-06]], device='cuda:0')
+Epoch 155, bias, value: tensor([ 0.0237, -0.0280,  0.0161, -0.0239,  0.0368,  0.0174,  0.0084, -0.0101,
+        -0.0150, -0.0089], device='cuda:0'), grad: tensor([ 2.4568e-06, -8.0407e-05, -3.6836e-05,  3.2753e-05,  7.4148e-05,
+         4.9695e-06,  8.1165e-07,  3.9041e-06,  3.0082e-06, -4.7386e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 154, time 220.24, cls_loss 0.0012 cls_loss_mapping 0.0039 cls_loss_causal 0.5270 re_mapping 0.0051 re_causal 0.0153 /// teacc 99.08 lr 0.00010000
+Epoch 156, weight, value: tensor([[-0.1213,  0.1615, -0.0249,  ..., -0.0798,  0.0323,  0.0054],
+        [ 0.0042, -0.0930, -0.0457,  ...,  0.0242, -0.0306, -0.0495],
+        [-0.1008, -0.1656,  0.0247,  ..., -0.0455, -0.0017, -0.0915],
+        ...,
+        [ 0.0631,  0.0997, -0.0691,  ..., -0.1038,  0.0566,  0.0618],
+        [ 0.0475, -0.0880, -0.0166,  ..., -0.0484, -0.0561, -0.0561],
+        [-0.1286, -0.0301, -0.0547,  ...,  0.0896, -0.2216,  0.0798]],
+       device='cuda:0'), grad: tensor([[ 8.3819e-08, -8.3121e-07,  9.3132e-10,  ...,  3.5251e-07,
+         -5.3551e-08,  6.2864e-08],
+        [-1.2014e-06,  9.3132e-08,  1.3970e-09,  ..., -2.0340e-06,
+          6.9384e-08,  2.0908e-07],
+        [ 6.4913e-07,  4.3726e-07,  9.3132e-10,  ...,  9.6485e-07,
+         -2.1048e-07,  3.1898e-07],
+        ...,
+        [-4.7358e-07, -5.9698e-07, -2.2352e-08,  ...,  5.8394e-07,
+         -2.7334e-07, -4.3679e-07],
+        [ 2.3283e-08,  6.4727e-08,  9.3132e-10,  ...,  3.0268e-07,
+          2.5146e-08,  1.2992e-07],
+        [ 1.6065e-07,  3.2177e-07,  1.8626e-09,  ..., -6.0238e-06,
+          6.4261e-08, -4.7013e-06]], device='cuda:0')
+Epoch 156, bias, value: tensor([ 0.0227, -0.0271,  0.0156, -0.0239,  0.0368,  0.0170,  0.0091, -0.0102,
+        -0.0151, -0.0088], device='cuda:0'), grad: tensor([ 1.9372e-07, -8.6203e-06,  3.7253e-06,  1.3728e-06,  1.2703e-05,
+         1.0692e-06,  2.1420e-06, -3.0827e-07,  8.2701e-07, -1.3128e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 155, time 220.21, cls_loss 0.0012 cls_loss_mapping 0.0034 cls_loss_causal 0.5310 re_mapping 0.0053 re_causal 0.0156 /// teacc 99.09 lr 0.00010000
+Epoch 157, weight, value: tensor([[-0.1224,  0.1621, -0.0259,  ..., -0.0805,  0.0323,  0.0056],
+        [ 0.0048, -0.0922, -0.0464,  ...,  0.0245, -0.0306, -0.0491],
+        [-0.1010, -0.1662,  0.0254,  ..., -0.0458, -0.0024, -0.0922],
+        ...,
+        [ 0.0629,  0.0993, -0.0691,  ..., -0.1043,  0.0572,  0.0617],
+        [ 0.0477, -0.0885, -0.0167,  ..., -0.0484, -0.0568, -0.0563],
+        [-0.1289, -0.0306, -0.0546,  ...,  0.0896, -0.2228,  0.0799]],
+       device='cuda:0'), grad: tensor([[ 7.8231e-08, -2.3648e-05,  9.3132e-10,  ..., -1.1604e-06,
+         -4.5113e-06, -5.4725e-06],
+        [ 1.2573e-07,  6.3749e-07,  4.6566e-10,  ..., -1.7695e-08,
+          8.6427e-07,  1.1045e-06],
+        [ 5.0897e-07,  1.2387e-06,  4.6566e-10,  ...,  3.1758e-07,
+          8.2655e-07,  1.0952e-06],
+        ...,
+        [-2.3581e-06, -3.6396e-06,  0.0000e+00,  ...,  1.5367e-07,
+         -2.2039e-05, -3.0220e-05],
+        [ 8.3307e-07,  1.3404e-05,  2.3283e-09,  ...,  7.1246e-07,
+          1.0960e-05,  1.4670e-05],
+        [ 2.8731e-07,  2.2147e-06,  0.0000e+00,  ..., -1.1269e-07,
+          2.7716e-06,  3.4329e-06]], device='cuda:0')
+Epoch 157, bias, value: tensor([ 0.0222, -0.0266,  0.0155, -0.0242,  0.0370,  0.0174,  0.0089, -0.0104,
+        -0.0148, -0.0090], device='cuda:0'), grad: tensor([-5.5403e-05,  3.8967e-06,  6.1952e-06,  4.2766e-05, -1.1316e-06,
+         4.4610e-07,  1.1466e-05, -8.1062e-05,  6.0260e-05,  1.2510e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 156, time 220.28, cls_loss 0.0012 cls_loss_mapping 0.0041 cls_loss_causal 0.5048 re_mapping 0.0056 re_causal 0.0152 /// teacc 98.98 lr 0.00010000
+Epoch 158, weight, value: tensor([[-0.1229,  0.1627, -0.0259,  ..., -0.0809,  0.0312,  0.0060],
+        [ 0.0045, -0.0923, -0.0464,  ...,  0.0242, -0.0310, -0.0498],
+        [-0.1014, -0.1668,  0.0255,  ..., -0.0468, -0.0032, -0.0943],
+        ...,
+        [ 0.0638,  0.0998, -0.0691,  ..., -0.1047,  0.0590,  0.0633],
+        [ 0.0474, -0.0893, -0.0167,  ..., -0.0491, -0.0580, -0.0570],
+        [-0.1295, -0.0311, -0.0546,  ...,  0.0894, -0.2244,  0.0797]],
+       device='cuda:0'), grad: tensor([[ 7.3109e-08, -1.0051e-05,  9.3132e-10,  ...,  9.7789e-08,
+          1.6978e-06, -2.9616e-07],
+        [ 2.1281e-07,  5.0850e-07, -8.3819e-09,  ..., -3.2131e-08,
+          3.6322e-07,  3.2736e-07],
+        [-2.3097e-07,  3.2820e-06, -5.8208e-08,  ...,  7.2643e-08,
+          5.4436e-07,  3.7765e-07],
+        ...,
+        [-1.3653e-06, -7.0920e-07,  6.1467e-08,  ...,  1.6950e-07,
+         -9.4157e-07, -1.4016e-06],
+        [ 6.9570e-07,  1.4622e-06,  6.0536e-09,  ...,  8.4750e-08,
+          9.0711e-07,  8.4331e-07],
+        [ 2.9579e-06,  6.2119e-07,  3.2596e-09,  ...,  1.2726e-05,
+          4.9593e-07,  2.4447e-07]], device='cuda:0')
+Epoch 158, bias, value: tensor([ 0.0220, -0.0266,  0.0144, -0.0248,  0.0375,  0.0178,  0.0088, -0.0091,
+        -0.0153, -0.0094], device='cuda:0'), grad: tensor([-1.2033e-05,  4.4890e-06, -1.4715e-06, -1.4409e-05, -2.0832e-05,
+         7.4320e-06,  5.4017e-06, -1.4063e-06,  7.6368e-06,  2.5168e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 157, time 220.47, cls_loss 0.0012 cls_loss_mapping 0.0033 cls_loss_causal 0.5353 re_mapping 0.0053 re_causal 0.0157 /// teacc 99.00 lr 0.00010000
+Epoch 159, weight, value: tensor([[-0.1238,  0.1635, -0.0260,  ..., -0.0808,  0.0312,  0.0061],
+        [ 0.0048, -0.0927, -0.0465,  ...,  0.0244, -0.0315, -0.0500],
+        [-0.1020, -0.1677,  0.0256,  ..., -0.0472, -0.0038, -0.0952],
+        ...,
+        [ 0.0642,  0.1002, -0.0691,  ..., -0.1053,  0.0594,  0.0635],
+        [ 0.0472, -0.0898, -0.0167,  ..., -0.0499, -0.0586, -0.0573],
+        [-0.1297, -0.0314, -0.0541,  ...,  0.0899, -0.2244,  0.0802]],
+       device='cuda:0'), grad: tensor([[ 2.3516e-07,  2.1281e-07,  2.0023e-08,  ...,  4.5635e-08,
+          2.3283e-09,  2.1234e-07],
+        [ 3.0641e-07,  1.6857e-07,  8.3819e-09,  ...,  1.7835e-07,
+          2.7008e-08,  1.9046e-07],
+        [ 1.0524e-07,  2.6543e-08,  4.6566e-09,  ...,  2.4214e-08,
+          1.9558e-08,  6.1002e-08],
+        ...,
+        [-6.4773e-07, -1.1437e-06,  4.6566e-10,  ...,  4.1304e-07,
+         -1.1828e-07, -9.3505e-07],
+        [ 5.5619e-06,  5.5879e-08,  6.9570e-07,  ...,  3.0501e-07,
+          8.4750e-08,  3.1013e-07],
+        [ 4.9919e-07,  4.8662e-07,  7.9162e-09,  ..., -1.0487e-06,
+          2.0023e-08, -5.9931e-07]], device='cuda:0')
+Epoch 159, bias, value: tensor([ 0.0222, -0.0287,  0.0166, -0.0246,  0.0371,  0.0180,  0.0085, -0.0090,
+        -0.0158, -0.0090], device='cuda:0'), grad: tensor([ 7.3807e-07,  9.3691e-07,  2.8685e-07,  6.0210e-07,  5.6252e-07,
+        -9.6440e-05,  8.3566e-05, -1.5311e-06,  1.2711e-05, -1.5134e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 158, time 220.57, cls_loss 0.0013 cls_loss_mapping 0.0041 cls_loss_causal 0.5594 re_mapping 0.0052 re_causal 0.0159 /// teacc 99.02 lr 0.00010000
+Epoch 160, weight, value: tensor([[-0.1248,  0.1643, -0.0260,  ..., -0.0808,  0.0317,  0.0062],
+        [ 0.0063, -0.0929, -0.0465,  ...,  0.0254, -0.0304, -0.0487],
+        [-0.1023, -0.1693,  0.0257,  ..., -0.0475, -0.0038, -0.0968],
+        ...,
+        [ 0.0630,  0.1005, -0.0696,  ..., -0.1067,  0.0588,  0.0627],
+        [ 0.0464, -0.0901, -0.0170,  ..., -0.0506, -0.0597, -0.0577],
+        [-0.1300, -0.0309, -0.0541,  ...,  0.0898, -0.2253,  0.0805]],
+       device='cuda:0'), grad: tensor([[ 6.9849e-08,  8.5216e-08,  0.0000e+00,  ...,  5.6811e-08,
+          2.3423e-07,  1.8068e-07],
+        [ 1.7975e-07,  1.4110e-07,  0.0000e+00,  ..., -7.9162e-09,
+          2.1001e-07,  3.8138e-07],
+        [ 9.6951e-07,  6.2864e-07,  0.0000e+00,  ...,  3.2131e-08,
+          8.0653e-07,  1.3374e-06],
+        ...,
+        [-3.4124e-06, -2.1849e-06,  0.0000e+00,  ...,  2.9290e-07,
+         -2.4103e-06, -4.9137e-06],
+        [ 3.1386e-07,  3.5390e-08,  0.0000e+00,  ...,  1.2107e-07,
+          2.9802e-07,  5.1735e-07],
+        [ 1.8338e-06,  8.0513e-07,  0.0000e+00,  ...,  1.5236e-06,
+          5.0152e-07,  1.5125e-06]], device='cuda:0')
+Epoch 160, bias, value: tensor([ 0.0222, -0.0276,  0.0164, -0.0236,  0.0372,  0.0169,  0.0089, -0.0100,
+        -0.0168, -0.0090], device='cuda:0'), grad: tensor([ 7.8836e-07,  1.1064e-06,  4.7982e-06,  3.3509e-06, -4.9286e-06,
+         8.5635e-07,  1.9521e-06, -1.4968e-05,  9.0757e-07,  6.0946e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 159, time 220.41, cls_loss 0.0011 cls_loss_mapping 0.0040 cls_loss_causal 0.5331 re_mapping 0.0049 re_causal 0.0156 /// teacc 99.11 lr 0.00010000
+Epoch 161, weight, value: tensor([[-0.1255,  0.1648, -0.0260,  ..., -0.0810,  0.0318,  0.0049],
+        [ 0.0069, -0.0930, -0.0466,  ...,  0.0258, -0.0282, -0.0488],
+        [-0.1025, -0.1699,  0.0257,  ..., -0.0477, -0.0059, -0.0975],
+        ...,
+        [ 0.0627,  0.1010, -0.0697,  ..., -0.1071,  0.0592,  0.0629],
+        [ 0.0467, -0.0906, -0.0163,  ..., -0.0511, -0.0602, -0.0581],
+        [-0.1305, -0.0306, -0.0543,  ...,  0.0897, -0.2263,  0.0808]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-08, -1.1906e-05, -5.9232e-06,  ...,  1.4901e-08,
+         -4.3563e-07, -6.9216e-06],
+        [-1.4086e-07,  1.6624e-07,  4.7963e-08,  ..., -1.4435e-07,
+          2.0722e-08,  7.3574e-08],
+        [ 4.4238e-08,  7.8604e-07,  5.5879e-08,  ...,  3.6322e-08,
+          1.4366e-07,  1.8044e-07],
+        ...,
+        [ 6.7521e-09,  3.4482e-07,  1.7066e-07,  ...,  2.5146e-08,
+          1.1176e-08,  1.8114e-07],
+        [ 1.0477e-07,  4.0308e-06,  2.3376e-06,  ...,  3.5623e-08,
+          6.8685e-08,  2.5798e-06],
+        [ 2.5379e-08,  3.2689e-06,  1.5730e-06,  ..., -1.2410e-07,
+          1.7858e-07,  1.9073e-06]], device='cuda:0')
+Epoch 161, bias, value: tensor([ 0.0218, -0.0266,  0.0158, -0.0239,  0.0374,  0.0172,  0.0076, -0.0102,
+        -0.0164, -0.0090], device='cuda:0'), grad: tensor([-3.1799e-05, -6.9616e-08,  1.3439e-06,  9.6112e-07,  4.2212e-07,
+         5.2042e-06,  2.4531e-06,  9.6578e-07,  1.1832e-05,  8.6650e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 160, time 220.16, cls_loss 0.0010 cls_loss_mapping 0.0038 cls_loss_causal 0.5554 re_mapping 0.0049 re_causal 0.0163 /// teacc 99.05 lr 0.00010000
+Epoch 162, weight, value: tensor([[-0.1261,  0.1654, -0.0259,  ..., -0.0814,  0.0315,  0.0052],
+        [ 0.0058, -0.0933, -0.0478,  ...,  0.0244, -0.0284, -0.0490],
+        [-0.1028, -0.1710,  0.0259,  ..., -0.0480, -0.0061, -0.0989],
+        ...,
+        [ 0.0635,  0.1023, -0.0705,  ..., -0.1076,  0.0600,  0.0634],
+        [ 0.0461, -0.0914, -0.0161,  ..., -0.0518, -0.0607, -0.0584],
+        [-0.1314, -0.0315, -0.0543,  ...,  0.0896, -0.2285,  0.0808]],
+       device='cuda:0'), grad: tensor([[ 4.1793e-07,  2.1141e-07,  0.0000e+00,  ...,  7.7207e-07,
+          7.0501e-07,  6.4494e-08],
+        [-4.4852e-06,  3.8650e-08,  0.0000e+00,  ...,  3.2363e-08,
+         -1.5125e-05,  2.6659e-07],
+        [ 4.8988e-06,  2.3097e-07,  0.0000e+00,  ...,  2.8452e-07,
+         -1.4566e-06,  9.0571e-08],
+        ...,
+        [ 1.0366e-06, -1.2410e-07,  0.0000e+00,  ...,  2.1663e-06,
+          2.8759e-06,  5.3495e-06],
+        [-1.6123e-05, -1.5330e-06,  0.0000e+00,  ..., -1.8878e-06,
+          9.2480e-07,  2.5169e-07],
+        [ 5.5879e-08,  4.7009e-07,  0.0000e+00,  ..., -3.0380e-06,
+          1.9441e-07, -7.0892e-06]], device='cuda:0')
+Epoch 162, bias, value: tensor([ 0.0215, -0.0270,  0.0157, -0.0240,  0.0378,  0.0174,  0.0085, -0.0099,
+        -0.0169, -0.0094], device='cuda:0'), grad: tensor([ 9.6932e-06, -8.0884e-05,  1.0699e-05,  6.0230e-05,  4.5747e-06,
+         2.2516e-05,  1.5073e-05,  2.7731e-05, -5.8621e-05, -1.1057e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 161, time 220.56, cls_loss 0.0011 cls_loss_mapping 0.0035 cls_loss_causal 0.5347 re_mapping 0.0051 re_causal 0.0153 /// teacc 99.07 lr 0.00010000
+Epoch 163, weight, value: tensor([[-0.1270,  0.1662, -0.0260,  ..., -0.0817,  0.0321,  0.0057],
+        [ 0.0046, -0.0947, -0.0487,  ...,  0.0239, -0.0292, -0.0501],
+        [-0.1007, -0.1715,  0.0263,  ..., -0.0483, -0.0060, -0.0994],
+        ...,
+        [ 0.0644,  0.1037, -0.0706,  ..., -0.1083,  0.0608,  0.0638],
+        [ 0.0442, -0.0918, -0.0162,  ..., -0.0522, -0.0610, -0.0586],
+        [-0.1307, -0.0318, -0.0537,  ...,  0.0902, -0.2278,  0.0818]],
+       device='cuda:0'), grad: tensor([[ 4.4657e-07, -1.6042e-07, -6.9849e-10,  ...,  1.7229e-08,
+          1.3760e-07,  6.7707e-07],
+        [-1.1805e-07,  4.4238e-09,  7.6834e-09,  ..., -1.9977e-07,
+          2.6752e-07,  3.0966e-07],
+        [ 1.8114e-07,  6.5193e-09, -1.8626e-08,  ...,  6.5193e-08,
+          1.8487e-07,  3.5740e-07],
+        ...,
+        [-9.1493e-06, -9.7789e-09,  2.0955e-09,  ...,  8.8010e-07,
+          2.4820e-07, -1.3813e-05],
+        [ 5.2713e-07,  3.7253e-09,  5.1223e-09,  ...,  2.4913e-08,
+          4.4145e-07,  3.0315e-07],
+        [ 4.7311e-06,  1.0151e-07,  1.1642e-09,  ..., -1.6317e-06,
+          8.7265e-07,  5.9530e-06]], device='cuda:0')
+Epoch 163, bias, value: tensor([ 0.0216, -0.0276,  0.0173, -0.0242,  0.0372,  0.0174,  0.0084, -0.0096,
+        -0.0190, -0.0087], device='cuda:0'), grad: tensor([ 1.9781e-06,  4.8522e-07,  3.8301e-07, -5.9716e-06,  1.5497e-06,
+         1.4283e-05,  1.0412e-06, -3.3081e-05,  2.2985e-06,  1.6958e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 162, time 220.41, cls_loss 0.0009 cls_loss_mapping 0.0032 cls_loss_causal 0.5287 re_mapping 0.0050 re_causal 0.0153 /// teacc 99.07 lr 0.00010000
+Epoch 164, weight, value: tensor([[-0.1281,  0.1666, -0.0258,  ..., -0.0819,  0.0320,  0.0057],
+        [ 0.0043, -0.0947, -0.0488,  ...,  0.0231, -0.0291, -0.0508],
+        [-0.1009, -0.1718,  0.0264,  ..., -0.0486, -0.0062, -0.0997],
+        ...,
+        [ 0.0640,  0.1039, -0.0735,  ..., -0.1088,  0.0604,  0.0640],
+        [ 0.0445, -0.0922, -0.0164,  ..., -0.0527, -0.0615, -0.0589],
+        [-0.1313, -0.0321, -0.0541,  ...,  0.0901, -0.2284,  0.0820]],
+       device='cuda:0'), grad: tensor([[ 7.3574e-08, -4.7288e-07,  0.0000e+00,  ...,  1.4016e-07,
+         -7.4506e-09,  9.8487e-08],
+        [-3.3528e-06,  6.2166e-08, -2.0955e-09,  ..., -1.8431e-06,
+         -6.1234e-07, -6.8685e-07],
+        [ 2.6682e-07,  8.6613e-08,  0.0000e+00,  ...,  1.5879e-07,
+          1.5227e-07,  2.3656e-07],
+        ...,
+        [ 1.5572e-06, -2.3656e-07,  6.9849e-10,  ...,  1.1772e-06,
+          3.7532e-07,  3.1688e-07],
+        [-4.2515e-07,  3.2363e-08,  0.0000e+00,  ...,  1.9115e-07,
+          2.7940e-08,  1.7742e-07],
+        [ 8.3447e-07,  2.8941e-07,  0.0000e+00,  ..., -7.9162e-08,
+          1.5786e-07, -6.2678e-07]], device='cuda:0')
+Epoch 164, bias, value: tensor([ 0.0214, -0.0278,  0.0174, -0.0244,  0.0374,  0.0180,  0.0083, -0.0101,
+        -0.0188, -0.0087], device='cuda:0'), grad: tensor([ 1.4622e-07, -7.9796e-06,  1.4268e-06, -8.0373e-07,  1.3644e-06,
+         1.4603e-06,  6.6590e-07,  4.9509e-06, -1.0207e-06, -2.4284e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 163, time 220.31, cls_loss 0.0010 cls_loss_mapping 0.0053 cls_loss_causal 0.5174 re_mapping 0.0052 re_causal 0.0151 /// teacc 99.05 lr 0.00010000
+Epoch 165, weight, value: tensor([[-0.1299,  0.1670, -0.0256,  ..., -0.0823,  0.0323,  0.0060],
+        [ 0.0056, -0.0948, -0.0486,  ...,  0.0233, -0.0292, -0.0508],
+        [-0.1021, -0.1741,  0.0263,  ..., -0.0496, -0.0062, -0.1005],
+        ...,
+        [ 0.0643,  0.1048, -0.0736,  ..., -0.1101,  0.0605,  0.0634],
+        [ 0.0442, -0.0914, -0.0165,  ..., -0.0531, -0.0620, -0.0590],
+        [-0.1313, -0.0324, -0.0542,  ...,  0.0904, -0.2294,  0.0824]],
+       device='cuda:0'), grad: tensor([[ 5.3085e-08, -4.0159e-06, -9.7789e-09,  ...,  1.3039e-07,
+         -1.0268e-07, -5.5134e-07],
+        [-8.5449e-08,  6.9942e-07,  1.1176e-08,  ..., -1.0268e-07,
+          2.6776e-08,  1.1991e-07],
+        [ 1.1362e-07,  4.0024e-07,  7.2177e-09,  ...,  5.1223e-08,
+          6.7987e-08,  1.0827e-07],
+        ...,
+        [ 9.7789e-09,  4.7963e-08,  2.7940e-09,  ...,  8.1491e-08,
+         -1.1059e-07, -9.7090e-08],
+        [ 2.1397e-07,  2.2608e-07,  2.7358e-07,  ...,  8.3819e-08,
+          1.3527e-07,  5.3784e-08],
+        [ 8.0792e-08,  6.9989e-07,  2.2585e-08,  ..., -4.1886e-07,
+          7.0082e-08, -3.0990e-07]], device='cuda:0')
+Epoch 165, bias, value: tensor([ 0.0210, -0.0270,  0.0167, -0.0243,  0.0373,  0.0180,  0.0083, -0.0104,
+        -0.0190, -0.0085], device='cuda:0'), grad: tensor([-6.1244e-06,  8.8941e-07,  2.5947e-06,  1.7714e-06,  1.1344e-06,
+        -7.1973e-06,  8.6576e-06,  4.6659e-07, -2.3656e-06,  1.7718e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 164, time 220.39, cls_loss 0.0012 cls_loss_mapping 0.0035 cls_loss_causal 0.5404 re_mapping 0.0049 re_causal 0.0150 /// teacc 99.00 lr 0.00010000
+Epoch 166, weight, value: tensor([[-0.1307,  0.1692, -0.0263,  ..., -0.0825,  0.0290,  0.0059],
+        [ 0.0054, -0.0951, -0.0490,  ...,  0.0235, -0.0300, -0.0514],
+        [-0.1023, -0.1750,  0.0283,  ..., -0.0499, -0.0054, -0.1012],
+        ...,
+        [ 0.0647,  0.1051, -0.0747,  ..., -0.1117,  0.0613,  0.0630],
+        [ 0.0447, -0.0916, -0.0171,  ..., -0.0535, -0.0625, -0.0594],
+        [-0.1316, -0.0324, -0.0543,  ...,  0.0906, -0.2303,  0.0832]],
+       device='cuda:0'), grad: tensor([[ 6.0536e-08, -6.1318e-06, -5.1688e-08,  ..., -1.7229e-08,
+         -5.4389e-07, -2.0908e-07],
+        [ 2.7986e-07,  4.2608e-07, -1.1874e-08,  ...,  1.8789e-07,
+          6.3051e-07,  7.3668e-07],
+        [ 5.2107e-07,  3.2899e-07,  8.3819e-09,  ...,  1.8673e-07,
+          9.0571e-07,  1.0831e-06],
+        ...,
+        [-2.8666e-06,  3.2852e-07,  4.1910e-09,  ...,  4.0210e-07,
+         -5.5730e-06, -6.8992e-06],
+        [ 1.5320e-07,  4.8522e-07,  1.1176e-08,  ...,  6.9477e-07,
+          3.6578e-07,  7.1200e-07],
+        [ 1.8375e-06,  6.6031e-07,  6.9849e-09,  ..., -8.8755e-07,
+          3.0808e-06,  2.8145e-06]], device='cuda:0')
+Epoch 166, bias, value: tensor([ 0.0214, -0.0269,  0.0170, -0.0241,  0.0372,  0.0177,  0.0071, -0.0112,
+        -0.0185, -0.0082], device='cuda:0'), grad: tensor([-1.2085e-05,  7.0222e-06, -4.0941e-06,  7.7337e-06, -1.4426e-06,
+         4.2021e-06,  5.1484e-06, -3.1769e-05,  6.1914e-06,  1.9133e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 165, time 220.54, cls_loss 0.0009 cls_loss_mapping 0.0034 cls_loss_causal 0.5118 re_mapping 0.0052 re_causal 0.0149 /// teacc 99.01 lr 0.00010000
+Epoch 167, weight, value: tensor([[-0.1312,  0.1700, -0.0262,  ..., -0.0826,  0.0279,  0.0059],
+        [ 0.0053, -0.0954, -0.0494,  ...,  0.0233, -0.0304, -0.0518],
+        [-0.1025, -0.1753,  0.0289,  ..., -0.0504, -0.0055, -0.1025],
+        ...,
+        [ 0.0653,  0.1051, -0.0744,  ..., -0.1122,  0.0618,  0.0634],
+        [ 0.0445, -0.0917, -0.0168,  ..., -0.0545, -0.0630, -0.0596],
+        [-0.1319, -0.0325, -0.0546,  ...,  0.0907, -0.2311,  0.0835]],
+       device='cuda:0'), grad: tensor([[ 2.1327e-06, -2.4331e-07,  1.1008e-06,  ...,  1.7025e-06,
+          2.0433e-06, -1.6531e-08],
+        [ 1.3066e-06,  6.0536e-09,  6.7940e-07,  ...,  2.4983e-07,
+          1.5236e-06,  2.3260e-07],
+        [ 1.8757e-06,  7.6834e-09,  9.1130e-07,  ...,  7.1200e-07,
+          1.8803e-06,  8.6846e-08],
+        ...,
+        [ 2.4557e-05,  5.3551e-09,  1.3046e-05,  ...,  1.2387e-07,
+          2.4542e-05,  1.5600e-07],
+        [ 2.2314e-06,  2.3516e-08,  1.1371e-06,  ...,  8.0913e-06,
+          2.5500e-06,  5.4203e-07],
+        [ 3.3956e-06,  1.0198e-07,  1.7295e-06,  ..., -1.0338e-07,
+          6.2659e-06,  2.3600e-06]], device='cuda:0')
+Epoch 167, bias, value: tensor([ 0.0213, -0.0270,  0.0169, -0.0247,  0.0372,  0.0183,  0.0070, -0.0109,
+        -0.0186, -0.0081], device='cuda:0'), grad: tensor([ 1.7688e-05,  9.1866e-06,  1.2510e-05,  2.8804e-05,  1.3329e-05,
+        -2.4819e-04, -4.2945e-05,  1.3626e-04,  4.3333e-05,  3.0085e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 166, time 220.19, cls_loss 0.0011 cls_loss_mapping 0.0044 cls_loss_causal 0.5427 re_mapping 0.0051 re_causal 0.0150 /// teacc 99.11 lr 0.00010000
+Epoch 168, weight, value: tensor([[-0.1318,  0.1708, -0.0261,  ..., -0.0827,  0.0281,  0.0054],
+        [ 0.0054, -0.0958, -0.0495,  ...,  0.0231, -0.0312, -0.0522],
+        [-0.1027, -0.1759,  0.0290,  ..., -0.0508, -0.0055, -0.1032],
+        ...,
+        [ 0.0655,  0.1067, -0.0748,  ..., -0.1129,  0.0635,  0.0642],
+        [ 0.0445, -0.0923, -0.0169,  ..., -0.0552, -0.0634, -0.0600],
+        [-0.1321, -0.0329, -0.0546,  ...,  0.0907, -0.2325,  0.0837]],
+       device='cuda:0'), grad: tensor([[ 3.5856e-08,  1.5483e-07,  1.2117e-06,  ...,  5.3868e-06,
+         -3.4925e-09,  3.2261e-06],
+        [ 5.7090e-07,  2.1304e-07, -3.7253e-09,  ..., -7.6834e-08,
+          4.2375e-08,  1.0990e-07],
+        [-3.1968e-07,  1.1455e-07,  6.2864e-09,  ...,  6.4261e-08,
+          1.0547e-07,  1.2130e-07],
+        ...,
+        [ 2.8173e-07, -2.4331e-07,  6.7521e-09,  ...,  8.7544e-08,
+         -2.8079e-07, -4.1607e-07],
+        [-1.2554e-06,  3.5390e-08,  1.0710e-08,  ...,  1.8161e-07,
+          5.5879e-09,  1.1781e-07],
+        [ 8.0559e-08, -5.6252e-07, -1.2694e-06,  ..., -6.2101e-06,
+          7.9395e-08, -3.7160e-06]], device='cuda:0')
+Epoch 168, bias, value: tensor([ 0.0213, -0.0272,  0.0171, -0.0247,  0.0372,  0.0179,  0.0071, -0.0104,
+        -0.0188, -0.0082], device='cuda:0'), grad: tensor([ 1.0215e-05,  3.4645e-06, -8.7023e-06,  8.3214e-07,  1.3523e-06,
+         1.9707e-06,  6.8732e-07,  7.8157e-06, -5.3942e-06, -1.2197e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 167, time 220.21, cls_loss 0.0010 cls_loss_mapping 0.0036 cls_loss_causal 0.5315 re_mapping 0.0047 re_causal 0.0147 /// teacc 99.11 lr 0.00010000
+Epoch 169, weight, value: tensor([[-0.1325,  0.1713, -0.0261,  ..., -0.0830,  0.0283,  0.0054],
+        [ 0.0054, -0.0960, -0.0498,  ...,  0.0229, -0.0315, -0.0525],
+        [-0.1027, -0.1762,  0.0292,  ..., -0.0488, -0.0047, -0.1037],
+        ...,
+        [ 0.0661,  0.1071, -0.0751,  ..., -0.1131,  0.0634,  0.0646],
+        [ 0.0446, -0.0926, -0.0171,  ..., -0.0562, -0.0640, -0.0603],
+        [-0.1325, -0.0333, -0.0546,  ...,  0.0907, -0.2338,  0.0838]],
+       device='cuda:0'), grad: tensor([[ 1.7020e-07, -2.0955e-08,  1.0263e-06,  ...,  8.8476e-07,
+          1.5111e-07,  2.8661e-07],
+        [ 1.6741e-07,  2.0955e-08,  1.3057e-06,  ...,  2.4051e-07,
+          1.2005e-06,  5.9698e-07],
+        [ 9.3877e-07,  3.4459e-08, -7.0296e-06,  ...,  3.1479e-07,
+         -1.7853e-06,  1.2293e-07],
+        ...,
+        [-3.4925e-09, -1.5832e-07,  7.3295e-07,  ...,  2.4885e-06,
+          1.6135e-07,  3.1721e-06],
+        [-1.8254e-06,  7.6834e-09,  1.9204e-06,  ...,  1.5097e-06,
+          4.8848e-07,  1.9884e-07],
+        [ 1.8859e-07,  6.1002e-08,  2.0000e-07,  ..., -5.5656e-06,
+          1.8603e-07, -6.3144e-06]], device='cuda:0')
+Epoch 169, bias, value: tensor([ 0.0212, -0.0274,  0.0184, -0.0265,  0.0371,  0.0193,  0.0061, -0.0105,
+        -0.0187, -0.0083], device='cuda:0'), grad: tensor([ 8.8364e-06,  1.9848e-05, -5.9754e-05,  2.4661e-05,  1.2942e-05,
+        -1.1533e-05, -2.2817e-06,  1.6108e-05,  8.4862e-06, -1.7419e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 168, time 220.14, cls_loss 0.0009 cls_loss_mapping 0.0029 cls_loss_causal 0.5086 re_mapping 0.0047 re_causal 0.0143 /// teacc 99.03 lr 0.00010000
+Epoch 170, weight, value: tensor([[-0.1333,  0.1716, -0.0263,  ..., -0.0832,  0.0269,  0.0054],
+        [ 0.0054, -0.0961, -0.0498,  ...,  0.0227, -0.0311, -0.0526],
+        [-0.1030, -0.1763,  0.0300,  ..., -0.0491, -0.0072, -0.1072],
+        ...,
+        [ 0.0663,  0.1074, -0.0762,  ..., -0.1135,  0.0649,  0.0660],
+        [ 0.0449, -0.0929, -0.0174,  ..., -0.0568, -0.0645, -0.0605],
+        [-0.1327, -0.0336, -0.0545,  ...,  0.0908, -0.2346,  0.0839]],
+       device='cuda:0'), grad: tensor([[ 8.3819e-09, -6.2399e-07,  4.6566e-10,  ...,  6.8685e-08,
+          3.9767e-07, -7.9162e-08],
+        [ 3.0710e-07,  1.5832e-08,  5.2387e-08,  ...,  2.9011e-07,
+          3.8650e-08,  2.5146e-08],
+        [ 2.1886e-08,  2.3516e-08, -4.4121e-07,  ...,  3.3062e-08,
+         -1.5097e-06,  8.1491e-09],
+        ...,
+        [ 3.3993e-08,  2.1420e-08,  2.5122e-07,  ...,  2.3819e-07,
+          1.5320e-07,  2.2934e-07],
+        [-6.0536e-09,  7.7067e-08,  5.6345e-08,  ...,  2.1188e-07,
+          7.1712e-08,  9.3132e-08],
+        [ 1.3388e-07,  1.5274e-07,  5.6811e-08,  ..., -4.6240e-07,
+          4.8894e-09, -6.5332e-07]], device='cuda:0')
+Epoch 170, bias, value: tensor([ 0.0208, -0.0272,  0.0165, -0.0263,  0.0372,  0.0191,  0.0063, -0.0088,
+        -0.0182, -0.0083], device='cuda:0'), grad: tensor([ 6.7614e-07,  1.4044e-06, -7.2159e-06,  2.0806e-06, -6.0210e-07,
+         5.2154e-07,  9.8022e-08,  2.6636e-06,  1.1148e-06, -7.2317e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 169, time 220.65, cls_loss 0.0014 cls_loss_mapping 0.0041 cls_loss_causal 0.5418 re_mapping 0.0049 re_causal 0.0145 /// teacc 99.01 lr 0.00010000
+Epoch 171, weight, value: tensor([[-0.1358,  0.1727, -0.0272,  ..., -0.0828,  0.0257,  0.0060],
+        [ 0.0058, -0.0959, -0.0504,  ...,  0.0242, -0.0318, -0.0533],
+        [-0.1028, -0.1771,  0.0325,  ..., -0.0497, -0.0065, -0.1080],
+        ...,
+        [ 0.0663,  0.1077, -0.0793,  ..., -0.1143,  0.0646,  0.0665],
+        [ 0.0455, -0.0933, -0.0178,  ..., -0.0568, -0.0651, -0.0602],
+        [-0.1330, -0.0340, -0.0548,  ...,  0.0909, -0.2353,  0.0842]],
+       device='cuda:0'), grad: tensor([[ 3.4226e-08, -5.4017e-06,  2.3283e-10,  ...,  1.6794e-05,
+         -6.6962e-07, -5.1921e-08],
+        [ 6.9849e-08,  2.3935e-07,  0.0000e+00,  ...,  2.4233e-06,
+          8.9640e-08,  1.5600e-08],
+        [ 3.0571e-07,  1.1940e-06, -2.3283e-10,  ...,  1.2945e-06,
+          2.6985e-07,  1.4203e-08],
+        ...,
+        [ 1.9372e-07,  1.4342e-07,  2.3283e-10,  ...,  7.9535e-07,
+          4.2841e-08,  1.1292e-07],
+        [-1.0841e-06,  2.1374e-07,  2.3283e-10,  ...,  3.3583e-06,
+          4.5635e-08,  5.9372e-08],
+        [ 1.3690e-07,  3.7975e-07,  0.0000e+00,  ...,  1.1541e-05,
+          3.7719e-08, -5.7742e-07]], device='cuda:0')
+Epoch 171, bias, value: tensor([ 0.0208, -0.0266,  0.0164, -0.0264,  0.0367,  0.0201,  0.0052, -0.0089,
+        -0.0175, -0.0083], device='cuda:0'), grad: tensor([ 4.7147e-05,  9.0674e-06,  7.3574e-06,  5.0664e-06,  1.5748e-04,
+         6.0126e-06, -2.8348e-04,  4.2841e-06,  5.7407e-06,  4.1336e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 170, time 220.64, cls_loss 0.0009 cls_loss_mapping 0.0028 cls_loss_causal 0.5286 re_mapping 0.0052 re_causal 0.0155 /// teacc 98.93 lr 0.00010000
+Epoch 172, weight, value: tensor([[-0.1367,  0.1740, -0.0277,  ..., -0.0828,  0.0260,  0.0058],
+        [ 0.0057, -0.0975, -0.0504,  ...,  0.0235, -0.0320, -0.0534],
+        [-0.1031, -0.1790,  0.0327,  ..., -0.0504, -0.0064, -0.1082],
+        ...,
+        [ 0.0662,  0.1081, -0.0799,  ..., -0.1151,  0.0643,  0.0665],
+        [ 0.0458, -0.0936, -0.0181,  ..., -0.0577, -0.0655, -0.0606],
+        [-0.1332, -0.0341, -0.0542,  ...,  0.0911, -0.2358,  0.0846]],
+       device='cuda:0'), grad: tensor([[ 2.0452e-06, -1.8328e-05,  8.3819e-07,  ...,  5.0105e-07,
+         -1.4357e-05, -2.4792e-06],
+        [ 1.1278e-06,  1.4924e-07,  5.0478e-07,  ...,  8.8476e-09,
+          8.8336e-07,  1.5926e-07],
+        [ 2.1309e-06,  1.1310e-05, -5.0291e-08,  ...,  1.0710e-07,
+          1.0036e-05,  1.6922e-06],
+        ...,
+        [ 1.2234e-05,  3.1851e-07,  4.5151e-06,  ...,  3.4925e-08,
+          6.8098e-06,  7.1898e-07],
+        [ 3.7942e-06,  5.0478e-07,  1.4966e-06,  ...,  6.6822e-08,
+          2.6412e-06,  3.8766e-07],
+        [ 2.7269e-06,  4.7684e-07,  9.8720e-07,  ..., -7.6788e-07,
+          2.1346e-06,  9.7323e-08]], device='cuda:0')
+Epoch 172, bias, value: tensor([ 0.0212, -0.0275,  0.0168, -0.0266,  0.0366,  0.0201,  0.0057, -0.0093,
+        -0.0173, -0.0081], device='cuda:0'), grad: tensor([-2.3171e-05,  6.1691e-06,  1.8820e-05,  2.5317e-05,  2.3529e-05,
+        -1.3208e-04,  3.7625e-06,  4.9233e-05,  1.7196e-05,  1.1094e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 171, time 220.37, cls_loss 0.0009 cls_loss_mapping 0.0029 cls_loss_causal 0.5132 re_mapping 0.0050 re_causal 0.0145 /// teacc 98.95 lr 0.00010000
+Epoch 173, weight, value: tensor([[-0.1373,  0.1733, -0.0277,  ..., -0.0838,  0.0250,  0.0030],
+        [ 0.0054, -0.0979, -0.0504,  ...,  0.0233, -0.0326, -0.0538],
+        [-0.1033, -0.1799,  0.0330,  ..., -0.0506, -0.0061, -0.1083],
+        ...,
+        [ 0.0662,  0.1082, -0.0803,  ..., -0.1156,  0.0640,  0.0667],
+        [ 0.0460, -0.0928, -0.0184,  ..., -0.0584, -0.0658, -0.0608],
+        [-0.1337, -0.0317, -0.0541,  ...,  0.0913, -0.2343,  0.0857]],
+       device='cuda:0'), grad: tensor([[ 4.8196e-08, -1.1083e-06,  0.0000e+00,  ...,  5.2853e-08,
+         -3.4785e-07,  1.7346e-07],
+        [ 1.8859e-08,  4.4843e-07, -4.6566e-10,  ...,  2.2585e-08,
+          2.6287e-07,  4.5518e-07],
+        [ 9.0338e-08,  6.5099e-07,  2.3283e-10,  ...,  1.9791e-08,
+          3.9814e-07,  2.9220e-07],
+        ...,
+        [-5.3272e-07, -1.9278e-06,  0.0000e+00,  ...,  3.0035e-08,
+         -6.6403e-07, -2.0359e-06],
+        [ 5.1456e-08,  1.5809e-07,  0.0000e+00,  ...,  4.0047e-08,
+          8.3121e-08,  9.9652e-08],
+        [ 2.8405e-07,  9.2806e-07,  0.0000e+00,  ..., -1.7486e-07,
+          2.5821e-07,  3.3784e-07]], device='cuda:0')
+Epoch 173, bias, value: tensor([ 0.0194, -0.0278,  0.0169, -0.0267,  0.0368,  0.0201,  0.0055, -0.0095,
+        -0.0169, -0.0075], device='cuda:0'), grad: tensor([-1.4286e-06,  1.5004e-06,  1.8086e-06,  3.0007e-06,  5.2992e-07,
+        -1.6447e-06, -5.1782e-07, -5.8748e-06,  5.9046e-07,  2.0340e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 172, time 220.19, cls_loss 0.0009 cls_loss_mapping 0.0030 cls_loss_causal 0.5329 re_mapping 0.0047 re_causal 0.0148 /// teacc 98.95 lr 0.00010000
+Epoch 174, weight, value: tensor([[-0.1378,  0.1735, -0.0278,  ..., -0.0840,  0.0250,  0.0029],
+        [ 0.0051, -0.0982, -0.0504,  ...,  0.0232, -0.0331, -0.0546],
+        [-0.1034, -0.1797,  0.0332,  ..., -0.0508, -0.0060, -0.1085],
+        ...,
+        [ 0.0672,  0.1098, -0.0806,  ..., -0.1157,  0.0645,  0.0681],
+        [ 0.0459, -0.0934, -0.0185,  ..., -0.0589, -0.0663, -0.0609],
+        [-0.1346, -0.0327, -0.0543,  ...,  0.0906, -0.2362,  0.0849]],
+       device='cuda:0'), grad: tensor([[ 1.5600e-08, -1.0841e-06,  1.1642e-09,  ...,  1.8510e-07,
+         -1.6368e-07, -3.9744e-07],
+        [ 1.0803e-07,  5.5647e-08,  2.3283e-10,  ...,  1.2619e-07,
+          1.6345e-07,  1.3597e-07],
+        [ 3.2596e-08,  1.7276e-07, -1.3970e-09,  ...,  9.4296e-08,
+          5.7928e-07,  2.9453e-07],
+        ...,
+        [-5.8208e-08, -1.8021e-07,  2.3283e-10,  ...,  1.3923e-07,
+          1.6578e-07,  3.2363e-08],
+        [ 2.1420e-08,  8.6380e-08,  3.2596e-09,  ...,  1.4640e-06,
+          1.2172e-06,  1.2107e-06],
+        [ 2.2072e-07,  4.1584e-07,  0.0000e+00,  ..., -4.9826e-07,
+          1.4342e-07, -4.9267e-07]], device='cuda:0')
+Epoch 174, bias, value: tensor([ 0.0192, -0.0280,  0.0170, -0.0271,  0.0375,  0.0205,  0.0056, -0.0090,
+        -0.0171, -0.0085], device='cuda:0'), grad: tensor([-7.7579e-07,  7.2736e-07,  1.8422e-06, -6.4783e-06, -2.3395e-06,
+         1.8403e-06, -3.7011e-06,  5.4296e-07,  9.2238e-06, -8.9221e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 173, time 220.71, cls_loss 0.0012 cls_loss_mapping 0.0040 cls_loss_causal 0.5264 re_mapping 0.0049 re_causal 0.0146 /// teacc 99.08 lr 0.00010000
+Epoch 175, weight, value: tensor([[-0.1389,  0.1744, -0.0280,  ..., -0.0839,  0.0250,  0.0033],
+        [ 0.0047, -0.0988, -0.0513,  ...,  0.0232, -0.0336, -0.0553],
+        [-0.1039, -0.1808,  0.0326,  ..., -0.0511, -0.0057, -0.1088],
+        ...,
+        [ 0.0681,  0.1112, -0.0807,  ..., -0.1173,  0.0648,  0.0685],
+        [ 0.0458, -0.0950, -0.0187,  ..., -0.0601, -0.0671, -0.0617],
+        [-0.1350, -0.0334, -0.0550,  ...,  0.0911, -0.2372,  0.0859]],
+       device='cuda:0'), grad: tensor([[ 3.2596e-09, -2.7451e-07,  0.0000e+00,  ...,  8.8708e-08,
+          5.3551e-09, -2.3749e-08],
+        [ 1.5832e-08,  1.4435e-08,  0.0000e+00,  ...,  7.6368e-08,
+          7.2876e-08,  6.0769e-08],
+        [ 2.7707e-08,  2.6077e-08, -2.3283e-10,  ...,  1.7649e-07,
+          8.5915e-08,  6.2166e-08],
+        ...,
+        [-3.2363e-08, -6.7055e-08,  0.0000e+00,  ...,  4.0513e-08,
+          1.3737e-08, -5.3318e-08],
+        [-9.0804e-09,  6.5193e-09,  0.0000e+00,  ...,  5.0757e-08,
+          2.1188e-08,  2.5611e-08],
+        [ 3.4412e-07,  2.2841e-07,  0.0000e+00,  ...,  8.8941e-07,
+          3.5157e-08,  1.6391e-07]], device='cuda:0')
+Epoch 175, bias, value: tensor([ 0.0194, -0.0282,  0.0169, -0.0278,  0.0372,  0.0205,  0.0059, -0.0088,
+        -0.0173, -0.0080], device='cuda:0'), grad: tensor([-1.6764e-08,  4.4773e-07,  8.5402e-07, -1.0952e-06, -2.2482e-06,
+         7.5996e-07, -1.3085e-06,  1.9558e-08,  1.5600e-07,  2.4289e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 174, time 220.74, cls_loss 0.0008 cls_loss_mapping 0.0029 cls_loss_causal 0.5213 re_mapping 0.0049 re_causal 0.0146 /// teacc 99.03 lr 0.00010000
+Epoch 176, weight, value: tensor([[-0.1392,  0.1749, -0.0279,  ..., -0.0841,  0.0250,  0.0034],
+        [ 0.0046, -0.0993, -0.0512,  ...,  0.0232, -0.0340, -0.0559],
+        [-0.1042, -0.1821,  0.0323,  ..., -0.0515, -0.0059, -0.1091],
+        ...,
+        [ 0.0686,  0.1125, -0.0805,  ..., -0.1177,  0.0651,  0.0691],
+        [ 0.0459, -0.0953, -0.0189,  ..., -0.0610, -0.0675, -0.0623],
+        [-0.1354, -0.0340, -0.0549,  ...,  0.0917, -0.2381,  0.0864]],
+       device='cuda:0'), grad: tensor([[ 8.4285e-08, -2.8638e-08,  0.0000e+00,  ...,  1.1176e-07,
+          3.4925e-09,  8.2655e-08],
+        [ 3.1106e-07,  9.3132e-09,  0.0000e+00,  ...,  2.9593e-07,
+          2.7567e-07,  7.9442e-07],
+        [ 2.8405e-07,  6.2864e-09,  0.0000e+00,  ...,  1.6787e-07,
+          4.9127e-08,  7.0082e-08],
+        ...,
+        [ 5.1316e-07, -1.4179e-07,  0.0000e+00,  ...,  9.9558e-07,
+         -4.9081e-07, -7.1945e-07],
+        [ 5.1688e-08,  5.5879e-09,  0.0000e+00,  ..., -4.8615e-07,
+          3.0734e-08, -8.6799e-07],
+        [ 5.8766e-07,  1.1083e-07,  0.0000e+00,  ...,  1.0827e-07,
+          8.3819e-08,  8.6613e-08]], device='cuda:0')
+Epoch 176, bias, value: tensor([ 0.0194, -0.0283,  0.0167, -0.0277,  0.0370,  0.0205,  0.0052, -0.0085,
+        -0.0172, -0.0076], device='cuda:0'), grad: tensor([ 5.2107e-07,  2.2557e-06,  9.4529e-07,  7.4226e-07, -8.9109e-06,
+         1.1921e-06,  1.6913e-06,  2.2110e-06, -9.0078e-06,  8.3148e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 175, time 220.81, cls_loss 0.0013 cls_loss_mapping 0.0053 cls_loss_causal 0.5393 re_mapping 0.0050 re_causal 0.0148 /// teacc 99.04 lr 0.00010000
+Epoch 177, weight, value: tensor([[-0.1397,  0.1754, -0.0281,  ..., -0.0843,  0.0250,  0.0034],
+        [ 0.0043, -0.0998, -0.0513,  ...,  0.0231, -0.0342, -0.0564],
+        [-0.1043, -0.1824,  0.0326,  ..., -0.0518, -0.0059, -0.1092],
+        ...,
+        [ 0.0689,  0.1113, -0.0806,  ..., -0.1215,  0.0623,  0.0666],
+        [ 0.0460, -0.0957, -0.0189,  ..., -0.0635, -0.0684, -0.0640],
+        [-0.1361, -0.0325, -0.0551,  ...,  0.0941, -0.2358,  0.0894]],
+       device='cuda:0'), grad: tensor([[ 4.8662e-08, -2.2608e-07, -1.1409e-08,  ...,  3.1223e-07,
+          4.9081e-07,  9.1642e-07],
+        [ 3.3993e-08,  8.3586e-08,  2.3283e-10,  ...,  3.5460e-07,
+          1.1064e-06,  2.2072e-06],
+        [ 8.3586e-08,  1.0058e-07,  3.7253e-09,  ...,  2.1677e-07,
+          4.8894e-07,  9.4436e-07],
+        ...,
+        [ 1.9427e-06,  4.8429e-07, -1.1642e-09,  ...,  2.6003e-06,
+          2.1216e-06,  4.8801e-06],
+        [-9.2760e-07, -2.4540e-07,  4.6566e-10,  ...,  6.8452e-07,
+          1.1176e-07, -1.9325e-07],
+        [ 7.9647e-06,  1.5292e-06,  2.3283e-09,  ...,  1.6049e-05,
+          1.2308e-05,  2.1473e-05]], device='cuda:0')
+Epoch 177, bias, value: tensor([ 0.0194, -0.0286,  0.0168, -0.0276,  0.0371,  0.0210,  0.0049, -0.0112,
+        -0.0178, -0.0050], device='cuda:0'), grad: tensor([ 3.2950e-06,  8.4490e-06,  4.1127e-06, -1.2118e-04, -3.6120e-05,
+         1.1817e-05,  5.7090e-07,  2.3127e-05, -4.2357e-06,  1.1027e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 176, time 220.33, cls_loss 0.0010 cls_loss_mapping 0.0049 cls_loss_causal 0.5488 re_mapping 0.0048 re_causal 0.0147 /// teacc 99.06 lr 0.00010000
+Epoch 178, weight, value: tensor([[-0.1404,  0.1784, -0.0281,  ..., -0.0838,  0.0259,  0.0047],
+        [ 0.0030, -0.1000, -0.0514,  ...,  0.0231, -0.0360, -0.0576],
+        [-0.1045, -0.1845,  0.0330,  ..., -0.0524, -0.0060, -0.1094],
+        ...,
+        [ 0.0706,  0.1113, -0.0806,  ..., -0.1217,  0.0624,  0.0665],
+        [ 0.0476, -0.0977, -0.0191,  ..., -0.0641, -0.0690, -0.0641],
+        [-0.1369, -0.0331, -0.0553,  ...,  0.0941, -0.2357,  0.0895]],
+       device='cuda:0'), grad: tensor([[ 6.9616e-08, -7.8380e-06,  6.2864e-09,  ..., -4.5113e-06,
+         -4.9360e-08, -1.6848e-06],
+        [-3.3993e-08,  2.4447e-08,  5.8208e-09,  ..., -9.3365e-08,
+          3.6322e-08,  2.6543e-08],
+        [ 5.8906e-08,  1.0128e-07, -1.3364e-07,  ...,  6.8918e-08,
+         -3.9581e-09,  4.6799e-08],
+        ...,
+        [-1.1199e-07, -8.2655e-08,  3.0035e-08,  ...,  5.2620e-08,
+         -1.6298e-08, -4.5751e-07],
+        [ 3.1199e-07,  1.3760e-07,  7.2410e-08,  ...,  3.8324e-07,
+          6.4075e-07,  4.0676e-07],
+        [ 3.0245e-07,  6.9328e-06,  1.3970e-09,  ...,  3.4012e-06,
+          2.6333e-07,  1.5656e-06]], device='cuda:0')
+Epoch 178, bias, value: tensor([ 0.0206, -0.0293,  0.0167, -0.0276,  0.0372,  0.0204,  0.0047, -0.0112,
+        -0.0164, -0.0050], device='cuda:0'), grad: tensor([-1.9506e-05,  1.1642e-07, -2.4848e-06,  3.0883e-06,  1.4128e-06,
+         5.5581e-06, -1.0729e-05, -4.2608e-08,  4.7833e-06,  1.7792e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 177, time 220.09, cls_loss 0.0008 cls_loss_mapping 0.0031 cls_loss_causal 0.4763 re_mapping 0.0051 re_causal 0.0143 /// teacc 98.99 lr 0.00010000
+Epoch 179, weight, value: tensor([[-0.1414,  0.1788, -0.0282,  ..., -0.0839,  0.0260,  0.0051],
+        [ 0.0026, -0.0998, -0.0516,  ...,  0.0227, -0.0361, -0.0576],
+        [-0.1046, -0.1849,  0.0331,  ..., -0.0529, -0.0059, -0.1096],
+        ...,
+        [ 0.0707,  0.1114, -0.0805,  ..., -0.1217,  0.0624,  0.0665],
+        [ 0.0480, -0.0958, -0.0192,  ..., -0.0645, -0.0695, -0.0642],
+        [-0.1377, -0.0334, -0.0553,  ...,  0.0940, -0.2358,  0.0895]],
+       device='cuda:0'), grad: tensor([[ 1.9721e-07,  7.0548e-08,  2.0489e-08,  ...,  1.6298e-08,
+          8.2655e-08,  1.4203e-07],
+        [ 9.7230e-07,  5.1828e-07,  1.2713e-07,  ...,  1.2922e-07,
+          3.2829e-08,  5.1782e-07],
+        [ 5.1456e-07,  1.8254e-07, -2.7474e-07,  ...,  2.6543e-08,
+          3.5344e-07,  3.4785e-07],
+        ...,
+        [-4.9293e-05, -1.8403e-06,  2.2352e-08,  ...,  4.1211e-08,
+         -1.7315e-05, -2.4244e-05],
+        [ 6.4261e-08,  3.3760e-08,  2.1653e-08,  ...,  2.1653e-08,
+          7.3574e-08,  7.9395e-08],
+        [ 1.6484e-06,  8.2329e-07,  4.4238e-09,  ..., -1.3947e-07,
+          4.8056e-07,  1.1465e-06]], device='cuda:0')
+Epoch 179, bias, value: tensor([ 0.0202, -0.0293,  0.0167, -0.0277,  0.0376,  0.0203,  0.0049, -0.0112,
+        -0.0157, -0.0052], device='cuda:0'), grad: tensor([ 7.1432e-07,  7.9907e-07,  1.6093e-06,  1.3337e-06,  7.7307e-05,
+         1.0394e-05,  4.2096e-07, -9.8228e-05,  5.2154e-07,  5.1372e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 178, time 220.05, cls_loss 0.0010 cls_loss_mapping 0.0030 cls_loss_causal 0.4839 re_mapping 0.0049 re_causal 0.0137 /// teacc 99.09 lr 0.00010000
+Epoch 180, weight, value: tensor([[-0.1422,  0.1798, -0.0283,  ..., -0.0838,  0.0264,  0.0055],
+        [ 0.0033, -0.0993, -0.0532,  ...,  0.0237, -0.0362, -0.0577],
+        [-0.1050, -0.1855,  0.0348,  ..., -0.0531, -0.0059, -0.1098],
+        ...,
+        [ 0.0713,  0.1114, -0.0804,  ..., -0.1217,  0.0626,  0.0666],
+        [ 0.0480, -0.0964, -0.0195,  ..., -0.0650, -0.0702, -0.0646],
+        [-0.1382, -0.0337, -0.0555,  ...,  0.0939, -0.2359,  0.0894]],
+       device='cuda:0'), grad: tensor([[ 8.6147e-09, -5.2512e-05,  2.3283e-09,  ..., -4.1761e-06,
+         -2.2933e-05, -2.5585e-05],
+        [-1.3201e-07,  7.9162e-07,  2.3283e-10,  ..., -3.0035e-08,
+          3.8277e-07,  4.9639e-07],
+        [ 3.5390e-08,  2.7046e-06,  4.8894e-09,  ...,  5.4762e-07,
+          1.4789e-06,  1.5497e-06],
+        ...,
+        [ 2.6543e-08,  2.5593e-06,  4.6566e-10,  ...,  4.2398e-07,
+          1.0999e-06,  1.4901e-06],
+        [ 1.8394e-08,  1.5721e-06,  2.3283e-10,  ...,  2.5821e-07,
+          8.8662e-07,  7.9256e-07],
+        [ 3.8650e-08,  1.6496e-05, -2.7940e-08,  ..., -1.0552e-06,
+          5.9642e-06,  5.6624e-06]], device='cuda:0')
+Epoch 180, bias, value: tensor([ 0.0205, -0.0294,  0.0171, -0.0308,  0.0376,  0.0230,  0.0046, -0.0111,
+        -0.0157, -0.0053], device='cuda:0'), grad: tensor([-1.1241e-04,  1.4706e-06,  7.4171e-06,  1.3366e-05,  5.2080e-06,
+         3.7491e-05,  1.1563e-05,  6.1467e-06,  4.0494e-06,  2.5615e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 179, time 220.20, cls_loss 0.0009 cls_loss_mapping 0.0026 cls_loss_causal 0.5208 re_mapping 0.0047 re_causal 0.0137 /// teacc 99.03 lr 0.00010000
+Epoch 181, weight, value: tensor([[-0.1429,  0.1809, -0.0275,  ..., -0.0839,  0.0271,  0.0059],
+        [ 0.0033, -0.0994, -0.0532,  ...,  0.0242, -0.0364, -0.0578],
+        [-0.1057, -0.1860,  0.0350,  ..., -0.0536, -0.0062, -0.1102],
+        ...,
+        [ 0.0720,  0.1115, -0.0804,  ..., -0.1218,  0.0627,  0.0667],
+        [ 0.0477, -0.0968, -0.0201,  ..., -0.0652, -0.0707, -0.0650],
+        [-0.1387, -0.0339, -0.0560,  ...,  0.0939, -0.2360,  0.0894]],
+       device='cuda:0'), grad: tensor([[ 9.1968e-08,  5.5879e-09,  7.5903e-08,  ...,  2.3190e-07,
+          1.2561e-07,  2.3050e-08],
+        [ 2.7684e-07,  1.5367e-08,  2.6776e-08,  ...,  1.5385e-06,
+          7.0781e-08,  4.4471e-08],
+        [-3.1665e-07, -1.7113e-07, -4.6194e-07,  ...,  1.9688e-06,
+         -2.5928e-06,  2.2468e-08],
+        ...,
+        [ 9.9186e-08, -1.0000e-07,  1.4552e-08,  ...,  1.7730e-07,
+          3.0780e-07, -1.9604e-07],
+        [ 4.1118e-07,  1.4307e-07,  9.4296e-09,  ...,  4.7078e-07,
+          1.6633e-06,  1.0815e-07],
+        [ 1.6880e-07,  7.1712e-08,  5.8208e-10,  ..., -2.7791e-06,
+          7.9162e-08, -1.3933e-06]], device='cuda:0')
+Epoch 181, bias, value: tensor([ 0.0208, -0.0292,  0.0168, -0.0308,  0.0375,  0.0233,  0.0040, -0.0111,
+        -0.0160, -0.0054], device='cuda:0'), grad: tensor([ 2.4531e-06,  7.4022e-06, -1.2301e-05,  5.6699e-06,  8.4192e-06,
+         3.7607e-06, -2.2978e-05,  3.0212e-06,  8.2925e-06, -3.7607e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 180, time 220.36, cls_loss 0.0009 cls_loss_mapping 0.0039 cls_loss_causal 0.5250 re_mapping 0.0049 re_causal 0.0144 /// teacc 98.91 lr 0.00010000
+Epoch 182, weight, value: tensor([[-0.1437,  0.1814, -0.0281,  ..., -0.0841,  0.0271,  0.0061],
+        [ 0.0047, -0.0993, -0.0519,  ...,  0.0255, -0.0362, -0.0572],
+        [-0.1061, -0.1863,  0.0353,  ..., -0.0542, -0.0062, -0.1103],
+        ...,
+        [ 0.0715,  0.1115, -0.0818,  ..., -0.1219,  0.0627,  0.0667],
+        [ 0.0477, -0.0971, -0.0203,  ..., -0.0655, -0.0713, -0.0654],
+        [-0.1395, -0.0340, -0.0573,  ...,  0.0940, -0.2361,  0.0894]],
+       device='cuda:0'), grad: tensor([[ 7.1945e-08, -2.3679e-07,  0.0000e+00,  ...,  6.8918e-08,
+          2.0955e-09, -6.5193e-09],
+        [-2.3283e-09,  4.0047e-08,  0.0000e+00,  ..., -1.2061e-07,
+          3.1246e-07,  5.0943e-07],
+        [ 4.7730e-08,  2.4680e-08,  0.0000e+00,  ...,  5.5181e-08,
+          9.7230e-07,  2.2701e-07],
+        ...,
+        [ 3.1828e-07, -1.8463e-07,  0.0000e+00,  ...,  6.6357e-08,
+          1.4389e-07,  9.7556e-08],
+        [ 2.0186e-07,  3.2596e-08,  0.0000e+00,  ...,  2.3283e-08,
+          1.4040e-07,  1.8417e-07],
+        [ 3.2852e-07,  2.4098e-07,  0.0000e+00,  ..., -2.9872e-07,
+          2.1094e-07,  1.3364e-07]], device='cuda:0')
+Epoch 182, bias, value: tensor([ 0.0206, -0.0288,  0.0171, -0.0305,  0.0374,  0.0223,  0.0057, -0.0111,
+        -0.0160, -0.0055], device='cuda:0'), grad: tensor([ 7.8510e-07,  2.0172e-06, -7.5102e-05,  5.8208e-08,  2.7586e-06,
+        -3.7532e-06,  4.1351e-07,  6.3360e-05,  6.8992e-06,  2.7027e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 181, time 220.11, cls_loss 0.0010 cls_loss_mapping 0.0047 cls_loss_causal 0.5385 re_mapping 0.0047 re_causal 0.0144 /// teacc 99.05 lr 0.00010000
+Epoch 183, weight, value: tensor([[-0.1442,  0.1847, -0.0282,  ..., -0.0842,  0.0268,  0.0090],
+        [ 0.0051, -0.0996, -0.0520,  ...,  0.0261, -0.0360, -0.0571],
+        [-0.1064, -0.1868,  0.0354,  ..., -0.0544, -0.0062, -0.1106],
+        ...,
+        [ 0.0719,  0.1116, -0.0818,  ..., -0.1220,  0.0628,  0.0668],
+        [ 0.0479, -0.0982, -0.0201,  ..., -0.0664, -0.0719, -0.0666],
+        [-0.1402, -0.0370, -0.0574,  ...,  0.0938, -0.2363,  0.0888]],
+       device='cuda:0'), grad: tensor([[ 8.7544e-08, -7.5204e-07,  0.0000e+00,  ...,  2.8126e-07,
+         -1.3504e-07, -5.1688e-08],
+        [ 1.0617e-06,  1.2023e-06,  0.0000e+00,  ..., -1.1758e-07,
+          2.3050e-07,  1.2089e-06],
+        [ 2.1188e-07,  4.3190e-07,  0.0000e+00,  ...,  2.9290e-07,
+          1.6135e-07,  4.9453e-07],
+        ...,
+        [-2.4159e-06, -2.5369e-06,  0.0000e+00,  ...,  5.8906e-08,
+         -4.1095e-07, -2.8815e-06],
+        [ 2.3516e-08,  6.0769e-08,  0.0000e+00,  ...,  7.5903e-07,
+          2.7358e-07,  1.7323e-07],
+        [ 4.0629e-07,  6.4820e-07,  0.0000e+00,  ...,  4.1910e-08,
+          1.6368e-07,  4.3935e-07]], device='cuda:0')
+Epoch 183, bias, value: tensor([ 0.0234, -0.0285,  0.0172, -0.0306,  0.0377,  0.0220,  0.0062, -0.0111,
+        -0.0158, -0.0067], device='cuda:0'), grad: tensor([-1.6857e-07,  4.2468e-06,  2.7940e-06, -7.2002e-05,  4.0159e-06,
+         7.3135e-05, -7.4990e-06, -1.0230e-05,  2.9020e-06,  2.6487e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 182, time 220.57, cls_loss 0.0010 cls_loss_mapping 0.0038 cls_loss_causal 0.5246 re_mapping 0.0047 re_causal 0.0142 /// teacc 99.04 lr 0.00010000
+Epoch 184, weight, value: tensor([[-0.1452,  0.1845, -0.0284,  ..., -0.0858,  0.0266,  0.0085],
+        [ 0.0054, -0.1002, -0.0520,  ...,  0.0268, -0.0363, -0.0573],
+        [-0.1069, -0.1874,  0.0353,  ..., -0.0552, -0.0064, -0.1110],
+        ...,
+        [ 0.0727,  0.1120, -0.0818,  ..., -0.1220,  0.0632,  0.0669],
+        [ 0.0482, -0.0982, -0.0199,  ..., -0.0664, -0.0725, -0.0667],
+        [-0.1408, -0.0367, -0.0568,  ...,  0.0939, -0.2364,  0.0889]],
+       device='cuda:0'), grad: tensor([[ 3.9581e-09, -4.8429e-08,  0.0000e+00,  ...,  1.0943e-08,
+          7.2177e-09,  2.0722e-08],
+        [-6.1700e-08,  3.0268e-09,  0.0000e+00,  ..., -5.1688e-08,
+          6.7521e-08,  1.0268e-07],
+        [ 6.1467e-08,  7.6834e-09,  0.0000e+00,  ...,  2.7940e-08,
+          8.6147e-08,  1.2643e-07],
+        ...,
+        [-1.0128e-07, -1.0943e-08,  0.0000e+00,  ...,  4.4936e-08,
+          2.7008e-08, -7.6601e-08],
+        [ 1.2573e-08,  4.6566e-09,  0.0000e+00,  ...,  1.5832e-08,
+          6.9384e-08,  9.5693e-08],
+        [ 5.3318e-08,  2.2352e-08,  0.0000e+00,  ..., -8.1491e-08,
+          7.4040e-08, -3.0268e-09]], device='cuda:0')
+Epoch 184, bias, value: tensor([ 0.0229, -0.0284,  0.0170, -0.0306,  0.0376,  0.0215,  0.0062, -0.0109,
+        -0.0140, -0.0066], device='cuda:0'), grad: tensor([ 8.1025e-08, -4.3074e-08,  2.8219e-07, -1.3538e-05,  1.2037e-07,
+         1.2681e-05, -7.5670e-08, -2.0023e-08,  3.8301e-07,  1.5437e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 183, time 220.36, cls_loss 0.0011 cls_loss_mapping 0.0030 cls_loss_causal 0.5038 re_mapping 0.0047 re_causal 0.0137 /// teacc 99.09 lr 0.00010000
+Epoch 185, weight, value: tensor([[-0.1464,  0.1848, -0.0285,  ..., -0.0867,  0.0285,  0.0086],
+        [ 0.0052, -0.1010, -0.0521,  ...,  0.0268, -0.0369, -0.0586],
+        [-0.1076, -0.1889,  0.0356,  ..., -0.0557, -0.0069, -0.1122],
+        ...,
+        [ 0.0721,  0.1121, -0.0820,  ..., -0.1222,  0.0631,  0.0670],
+        [ 0.0474, -0.0988, -0.0199,  ..., -0.0677, -0.0738, -0.0677],
+        [-0.1412, -0.0366, -0.0569,  ...,  0.0941, -0.2364,  0.0890]],
+       device='cuda:0'), grad: tensor([[-2.3749e-08, -3.5297e-07,  0.0000e+00,  ...,  2.6077e-08,
+          6.3097e-08, -6.6590e-08],
+        [-1.2338e-04, -8.2701e-06,  0.0000e+00,  ..., -2.8871e-08,
+          2.0792e-07, -8.6427e-05],
+        [ 1.4226e-07,  1.5367e-08,  0.0000e+00,  ...,  1.6764e-08,
+          9.1642e-07,  7.9349e-07],
+        ...,
+        [ 1.1915e-04,  8.0094e-06,  0.0000e+00,  ...,  1.6065e-08,
+          5.0291e-07,  8.4043e-05],
+        [ 2.4494e-06,  2.5122e-07,  0.0000e+00,  ..., -1.5856e-07,
+          1.0687e-07,  2.0936e-06],
+        [ 4.6776e-07,  5.3551e-08,  0.0000e+00,  ...,  3.7951e-08,
+          3.3365e-07,  6.0070e-07]], device='cuda:0')
+Epoch 185, bias, value: tensor([ 0.0230, -0.0291,  0.0170, -0.0302,  0.0377,  0.0207,  0.0075, -0.0109,
+        -0.0150, -0.0065], device='cuda:0'), grad: tensor([-2.9989e-07, -3.1137e-04, -3.5320e-07, -6.7428e-06,  6.0815e-07,
+         3.3900e-06, -8.6147e-09,  3.0541e-04,  6.8098e-06,  2.2799e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 184, time 220.03, cls_loss 0.0011 cls_loss_mapping 0.0029 cls_loss_causal 0.5304 re_mapping 0.0047 re_causal 0.0142 /// teacc 99.11 lr 0.00010000
+Epoch 186, weight, value: tensor([[-0.1481,  0.1849, -0.0285,  ..., -0.0868,  0.0284,  0.0086],
+        [ 0.0018, -0.1010, -0.0536,  ...,  0.0265, -0.0388, -0.0623],
+        [-0.1075, -0.1893,  0.0370,  ..., -0.0556, -0.0072, -0.1129],
+        ...,
+        [ 0.0756,  0.1121, -0.0821,  ..., -0.1222,  0.0634,  0.0677],
+        [ 0.0470, -0.0992, -0.0200,  ..., -0.0683, -0.0753, -0.0685],
+        [-0.1417, -0.0367, -0.0569,  ...,  0.0942, -0.2366,  0.0890]],
+       device='cuda:0'), grad: tensor([[ 1.0943e-07, -6.7661e-07,  0.0000e+00,  ...,  1.5320e-07,
+          3.2829e-08,  6.8918e-08],
+        [-8.5123e-07,  3.9814e-08,  0.0000e+00,  ..., -6.2026e-07,
+          2.4983e-07,  2.5448e-07],
+        [ 3.2596e-09,  2.2701e-07,  0.0000e+00,  ...,  3.7509e-07,
+          3.8464e-07,  4.0489e-07],
+        ...,
+        [ 6.1374e-07,  3.7253e-09,  0.0000e+00,  ...,  4.5006e-07,
+          4.5821e-07,  4.3726e-07],
+        [ 2.2817e-07,  4.1211e-08,  0.0000e+00,  ...,  1.1176e-07,
+          5.1921e-07,  4.1933e-07],
+        [ 4.2492e-07,  1.7369e-07,  0.0000e+00,  ...,  5.4203e-07,
+          2.2585e-07,  5.4715e-08]], device='cuda:0')
+Epoch 186, bias, value: tensor([ 0.0229, -0.0330,  0.0174, -0.0296,  0.0375,  0.0205,  0.0079, -0.0095,
+        -0.0155, -0.0066], device='cuda:0'), grad: tensor([ 5.5367e-07,  1.5777e-06, -1.0125e-05, -6.2734e-06, -1.8189e-06,
+         4.8336e-07,  4.3539e-07,  7.4543e-06,  2.7195e-06,  4.9509e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 185, time 220.12, cls_loss 0.0010 cls_loss_mapping 0.0026 cls_loss_causal 0.5157 re_mapping 0.0047 re_causal 0.0138 /// teacc 99.10 lr 0.00010000
+Epoch 187, weight, value: tensor([[-0.1491,  0.1851, -0.0285,  ..., -0.0864,  0.0284,  0.0087],
+        [ 0.0020, -0.1011, -0.0536,  ...,  0.0266, -0.0391, -0.0624],
+        [-0.1078, -0.1899,  0.0371,  ..., -0.0558, -0.0073, -0.1131],
+        ...,
+        [ 0.0765,  0.1122, -0.0824,  ..., -0.1222,  0.0638,  0.0678],
+        [ 0.0469, -0.0997, -0.0200,  ..., -0.0688, -0.0764, -0.0692],
+        [-0.1416, -0.0368, -0.0570,  ...,  0.0942, -0.2368,  0.0892]],
+       device='cuda:0'), grad: tensor([[ 1.7462e-08, -2.6659e-07,  0.0000e+00,  ...,  7.8231e-08,
+          1.2107e-08,  1.3039e-08],
+        [ 1.1595e-07,  7.9162e-09,  0.0000e+00,  ...,  4.9127e-08,
+          6.4727e-08,  6.2631e-08],
+        [ 4.1211e-08,  2.2585e-08,  0.0000e+00,  ...,  2.9802e-08,
+          3.1199e-08,  2.2352e-08],
+        ...,
+        [ 3.5623e-08,  7.4506e-09,  0.0000e+00,  ...,  1.1432e-07,
+          2.3562e-07,  3.2433e-07],
+        [-2.3167e-07,  5.0291e-08,  0.0000e+00,  ..., -9.5461e-09,
+          3.4692e-08,  5.5647e-08],
+        [ 1.0175e-07,  9.0338e-08,  0.0000e+00,  ..., -3.7509e-07,
+          2.0186e-07, -1.4668e-07]], device='cuda:0')
+Epoch 187, bias, value: tensor([ 0.0231, -0.0330,  0.0175, -0.0297,  0.0367,  0.0207,  0.0078, -0.0093,
+        -0.0156, -0.0065], device='cuda:0'), grad: tensor([-2.2282e-07,  5.2806e-07,  2.5705e-07, -4.7944e-06,  3.7486e-07,
+         2.0564e-06,  1.2200e-06,  8.6613e-07, -4.0373e-07,  8.5449e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 186, time 220.50, cls_loss 0.0010 cls_loss_mapping 0.0027 cls_loss_causal 0.4927 re_mapping 0.0045 re_causal 0.0136 /// teacc 99.05 lr 0.00010000
+Epoch 188, weight, value: tensor([[-0.1499,  0.1852, -0.0285,  ..., -0.0865,  0.0285,  0.0088],
+        [ 0.0034, -0.1013, -0.0521,  ...,  0.0282, -0.0379, -0.0610],
+        [-0.1080, -0.1903,  0.0373,  ..., -0.0559, -0.0073, -0.1133],
+        ...,
+        [ 0.0755,  0.1123, -0.0840,  ..., -0.1234,  0.0632,  0.0671],
+        [ 0.0471, -0.1000, -0.0200,  ..., -0.0688, -0.0770, -0.0694],
+        [-0.1425, -0.0368, -0.0584,  ...,  0.0944, -0.2372,  0.0890]],
+       device='cuda:0'), grad: tensor([[ 8.1258e-07,  1.0058e-07,  3.9116e-08,  ...,  1.4598e-07,
+          5.7183e-07,  7.7626e-07],
+        [ 2.8405e-07,  7.6136e-08,  2.7940e-09,  ..., -1.2852e-07,
+          2.5565e-07,  3.2689e-07],
+        [ 2.0675e-07,  5.0291e-08,  4.4238e-09,  ...,  5.6578e-08,
+          1.3318e-07,  1.8231e-07],
+        ...,
+        [-2.7586e-06, -6.5612e-07,  2.3283e-10,  ...,  2.7474e-08,
+         -2.0452e-06, -2.8685e-06],
+        [-1.1851e-07,  1.7229e-08,  4.4936e-08,  ...,  1.1921e-07,
+          8.7079e-08,  7.1479e-08],
+        [ 5.6252e-07,  1.4808e-07,  3.9581e-09,  ...,  6.2864e-09,
+          3.9465e-07,  5.0198e-07]], device='cuda:0')
+Epoch 188, bias, value: tensor([ 0.0231, -0.0316,  0.0177, -0.0282,  0.0364,  0.0193,  0.0078, -0.0103,
+        -0.0154, -0.0067], device='cuda:0'), grad: tensor([ 3.9004e-06,  1.2163e-06,  7.8976e-07,  8.9779e-07,  4.0196e-06,
+        -6.0257e-07, -1.6508e-07, -1.2554e-05, -1.0966e-07,  2.5667e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 187, time 220.85, cls_loss 0.0013 cls_loss_mapping 0.0044 cls_loss_causal 0.5083 re_mapping 0.0046 re_causal 0.0132 /// teacc 99.00 lr 0.00010000
+Epoch 189, weight, value: tensor([[-0.1524,  0.1852, -0.0287,  ..., -0.0876,  0.0284,  0.0085],
+        [ 0.0049, -0.1017, -0.0504,  ...,  0.0297, -0.0363, -0.0594],
+        [-0.1089, -0.1906,  0.0373,  ..., -0.0599, -0.0075, -0.1137],
+        ...,
+        [ 0.0740,  0.1126, -0.0857,  ..., -0.1247,  0.0620,  0.0662],
+        [ 0.0475, -0.1003, -0.0191,  ..., -0.0700, -0.0780, -0.0702],
+        [-0.1442, -0.0368, -0.0596,  ...,  0.0945, -0.2374,  0.0891]],
+       device='cuda:0'), grad: tensor([[ 2.0466e-07, -2.4680e-06,  1.6298e-09,  ...,  4.8429e-08,
+          1.6764e-08, -8.2236e-07],
+        [ 1.4687e-04,  1.6810e-07,  2.3283e-10,  ...,  1.8597e-05,
+          1.0571e-07,  1.9255e-07],
+        [ 4.2911e-07,  1.4366e-07, -2.1886e-08,  ...,  7.0315e-08,
+          1.4389e-07,  2.6869e-07],
+        ...,
+        [-1.1572e-07,  4.4936e-08,  2.5611e-09,  ...,  7.1479e-08,
+          9.9652e-08,  7.7998e-08],
+        [ 7.1488e-06,  9.5926e-08,  2.3283e-09,  ...,  9.7416e-07,
+          4.6799e-08,  1.1199e-07],
+        [ 2.1793e-06,  1.2238e-06,  2.3283e-10,  ..., -1.2899e-07,
+          5.5647e-08,  2.5518e-07]], device='cuda:0')
+Epoch 189, bias, value: tensor([ 0.0228, -0.0302,  0.0171, -0.0279,  0.0368,  0.0193,  0.0070, -0.0115,
+        -0.0148, -0.0066], device='cuda:0'), grad: tensor([-3.3267e-06,  3.4380e-04,  1.6931e-06,  4.9502e-05,  8.9221e-07,
+        -4.2343e-04,  7.0184e-06,  4.2957e-07,  1.6943e-05,  6.3814e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 188, time 220.09, cls_loss 0.0008 cls_loss_mapping 0.0037 cls_loss_causal 0.5026 re_mapping 0.0049 re_causal 0.0146 /// teacc 99.03 lr 0.00010000
+Epoch 190, weight, value: tensor([[-0.1535,  0.1850, -0.0288,  ..., -0.0884,  0.0284,  0.0081],
+        [ 0.0048, -0.1018, -0.0504,  ...,  0.0298, -0.0364, -0.0595],
+        [-0.1097, -0.1920,  0.0373,  ..., -0.0616, -0.0078, -0.1139],
+        ...,
+        [ 0.0740,  0.1140, -0.0857,  ..., -0.1247,  0.0621,  0.0667],
+        [ 0.0475, -0.1007, -0.0189,  ..., -0.0708, -0.0785, -0.0708],
+        [-0.1447, -0.0370, -0.0595,  ...,  0.0946, -0.2374,  0.0887]],
+       device='cuda:0'), grad: tensor([[ 1.0012e-08, -1.9209e-07,  4.6566e-10,  ...,  2.0023e-08,
+          5.7509e-08, -7.7300e-08],
+        [ 4.4238e-09,  3.7253e-09,  2.3283e-10,  ...,  5.5879e-09,
+          2.8173e-08,  1.6065e-08],
+        [ 6.0536e-09,  3.0268e-09, -1.4435e-08,  ...,  2.2352e-08,
+         -8.7637e-07,  2.3749e-08],
+        ...,
+        [-6.0769e-08, -2.0955e-09,  9.3132e-10,  ...,  6.7521e-09,
+          3.9162e-07, -2.3120e-07],
+        [ 4.2841e-08,  3.2596e-09,  5.5879e-09,  ...,  6.1234e-08,
+          2.7171e-07,  5.0291e-08],
+        [ 9.0804e-08,  1.6950e-07,  2.3283e-10,  ..., -2.4214e-07,
+          1.1991e-07,  1.5600e-08]], device='cuda:0')
+Epoch 190, bias, value: tensor([ 0.0224, -0.0302,  0.0166, -0.0280,  0.0369,  0.0200,  0.0062, -0.0112,
+        -0.0149, -0.0070], device='cuda:0'), grad: tensor([ 1.3015e-07,  2.3330e-07, -5.4538e-06,  1.2405e-06,  5.5972e-07,
+        -1.3756e-06,  9.4529e-08,  2.5444e-06,  1.8245e-06,  2.0256e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 189, time 219.78, cls_loss 0.0010 cls_loss_mapping 0.0032 cls_loss_causal 0.5114 re_mapping 0.0046 re_causal 0.0138 /// teacc 99.13 lr 0.00010000
+Epoch 191, weight, value: tensor([[-0.1543,  0.1852, -0.0289,  ..., -0.0886,  0.0282,  0.0082],
+        [ 0.0049, -0.1022, -0.0504,  ...,  0.0298, -0.0364, -0.0594],
+        [-0.1100, -0.1924,  0.0374,  ..., -0.0621, -0.0077, -0.1142],
+        ...,
+        [ 0.0740,  0.1141, -0.0857,  ..., -0.1248,  0.0621,  0.0667],
+        [ 0.0472, -0.1008, -0.0191,  ..., -0.0713, -0.0792, -0.0713],
+        [-0.1452, -0.0371, -0.0595,  ...,  0.0953, -0.2375,  0.0889]],
+       device='cuda:0'), grad: tensor([[ 7.4040e-08, -1.4203e-07,  4.7032e-08,  ...,  2.2212e-07,
+         -1.1642e-08, -3.6787e-08],
+        [ 7.1479e-07,  7.9162e-09, -8.4750e-08,  ...,  4.6752e-07,
+          5.3085e-08,  6.3330e-08],
+        [ 2.6124e-07,  1.1176e-08,  4.3772e-08,  ...,  1.5134e-07,
+          1.8300e-07,  2.9523e-07],
+        ...,
+        [ 1.6615e-06,  1.1176e-08,  7.8231e-08,  ...,  8.7637e-07,
+          2.2165e-07, -2.4866e-07],
+        [ 2.2110e-06,  1.4435e-08,  4.6752e-07,  ...,  1.4296e-06,
+          8.5123e-07, -3.0734e-08],
+        [ 5.0152e-07,  5.4482e-08,  1.0710e-08,  ...,  5.1782e-07,
+          3.3062e-08,  1.9837e-07]], device='cuda:0')
+Epoch 191, bias, value: tensor([ 0.0224, -0.0301,  0.0172, -0.0281,  0.0360,  0.0203,  0.0062, -0.0114,
+        -0.0151, -0.0067], device='cuda:0'), grad: tensor([ 6.7241e-07, -4.9174e-07,  2.6487e-06,  8.7544e-08, -8.4043e-06,
+        -1.5706e-05,  7.7412e-06,  4.1351e-06,  5.6215e-06,  3.6992e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 190, time 220.54, cls_loss 0.0008 cls_loss_mapping 0.0025 cls_loss_causal 0.5011 re_mapping 0.0046 re_causal 0.0139 /// teacc 99.04 lr 0.00010000
+Epoch 192, weight, value: tensor([[-0.1553,  0.1853, -0.0290,  ..., -0.0888,  0.0281,  0.0082],
+        [ 0.0050, -0.1022, -0.0504,  ...,  0.0299, -0.0364, -0.0594],
+        [-0.1106, -0.1930,  0.0376,  ..., -0.0624, -0.0079, -0.1146],
+        ...,
+        [ 0.0739,  0.1142, -0.0857,  ..., -0.1249,  0.0621,  0.0667],
+        [ 0.0469, -0.1013, -0.0194,  ..., -0.0724, -0.0799, -0.0720],
+        [-0.1439, -0.0371, -0.0595,  ...,  0.0966, -0.2376,  0.0893]],
+       device='cuda:0'), grad: tensor([[ 1.3039e-07, -2.4680e-08,  9.3132e-10,  ...,  8.6147e-08,
+          2.5146e-08,  1.3970e-09],
+        [ 1.4901e-07,  7.9162e-09,  5.1223e-09,  ...,  2.2817e-08,
+          9.7323e-08,  2.1886e-07],
+        [ 2.0862e-07,  8.3819e-09,  7.4506e-09,  ...,  1.4203e-07,
+          4.8429e-08,  5.5414e-08],
+        ...,
+        [ 4.8894e-08, -2.4214e-08, -6.8918e-08,  ...,  6.8452e-08,
+         -9.3132e-10, -5.2247e-07],
+        [-9.7789e-07,  1.8626e-09,  1.3970e-09,  ...,  8.9873e-08,
+          1.7183e-07,  2.3283e-08],
+        [ 5.2247e-07,  2.1886e-08,  1.6298e-08,  ..., -2.9337e-08,
+          8.0094e-08,  7.1246e-08]], device='cuda:0')
+Epoch 192, bias, value: tensor([ 0.0224, -0.0300,  0.0170, -0.0280,  0.0344,  0.0204,  0.0060, -0.0114,
+        -0.0154, -0.0058], device='cuda:0'), grad: tensor([ 1.2908e-06,  1.2806e-06,  1.8291e-06,  5.5619e-06,  4.2617e-06,
+        -4.0680e-05,  3.2097e-05,  9.9931e-07, -1.0923e-05,  4.2841e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 191, time 220.31, cls_loss 0.0009 cls_loss_mapping 0.0030 cls_loss_causal 0.5024 re_mapping 0.0045 re_causal 0.0132 /// teacc 99.02 lr 0.00010000
+Epoch 193, weight, value: tensor([[-0.1565,  0.1853, -0.0291,  ..., -0.0897,  0.0270,  0.0079],
+        [ 0.0049, -0.1026, -0.0504,  ...,  0.0299, -0.0366, -0.0595],
+        [-0.1102, -0.1934,  0.0381,  ..., -0.0631, -0.0080, -0.1149],
+        ...,
+        [ 0.0740,  0.1144, -0.0857,  ..., -0.1249,  0.0623,  0.0667],
+        [ 0.0468, -0.1019, -0.0196,  ..., -0.0726, -0.0811, -0.0725],
+        [-0.1447, -0.0371, -0.0597,  ...,  0.0966, -0.2377,  0.0893]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-08, -2.5611e-08,  0.0000e+00,  ...,  3.6787e-08,
+          0.0000e+00, -5.1223e-09],
+        [ 2.7940e-09,  7.4506e-09, -4.6566e-10,  ..., -2.0023e-08,
+          2.5611e-08,  3.0268e-08],
+        [ 7.1712e-08,  4.6566e-09, -4.6566e-10,  ...,  9.7789e-09,
+          6.1933e-08,  4.1910e-08],
+        ...,
+        [-1.4901e-08, -3.1665e-08,  0.0000e+00,  ...,  1.3039e-08,
+         -5.7276e-08, -1.2200e-07],
+        [-4.3400e-07,  5.5879e-09,  0.0000e+00,  ...,  1.5832e-08,
+          6.9849e-09,  5.1223e-09],
+        [ 1.4156e-07,  4.7032e-08,  0.0000e+00,  ...,  3.6322e-08,
+          6.4727e-08,  1.1409e-07]], device='cuda:0')
+Epoch 193, bias, value: tensor([ 0.0220, -0.0300,  0.0171, -0.0279,  0.0346,  0.0207,  0.0054, -0.0114,
+        -0.0154, -0.0059], device='cuda:0'), grad: tensor([ 1.6624e-07,  1.8766e-07,  6.2073e-07,  2.2212e-07,  1.5367e-08,
+         9.4017e-07,  2.0023e-08, -4.2375e-08, -2.9076e-06,  7.9395e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 192, time 220.56, cls_loss 0.0007 cls_loss_mapping 0.0021 cls_loss_causal 0.4897 re_mapping 0.0046 re_causal 0.0137 /// teacc 99.05 lr 0.00010000
+Epoch 194, weight, value: tensor([[-0.1571,  0.1854, -0.0292,  ..., -0.0898,  0.0267,  0.0079],
+        [ 0.0049, -0.1029, -0.0504,  ...,  0.0299, -0.0366, -0.0595],
+        [-0.1105, -0.1939,  0.0381,  ..., -0.0633, -0.0081, -0.1151],
+        ...,
+        [ 0.0741,  0.1145, -0.0857,  ..., -0.1250,  0.0624,  0.0668],
+        [ 0.0469, -0.1023, -0.0199,  ..., -0.0729, -0.0818, -0.0730],
+        [-0.1449, -0.0372, -0.0597,  ...,  0.0967, -0.2378,  0.0894]],
+       device='cuda:0'), grad: tensor([[ 4.4843e-07,  1.8161e-08,  1.9558e-08,  ...,  1.8515e-06,
+          3.0734e-08,  2.3702e-07],
+        [ 2.9104e-07,  4.5169e-08,  2.7940e-09,  ...,  1.0990e-06,
+          2.6636e-07,  2.8545e-07],
+        [ 1.4575e-07,  1.8161e-08, -2.6077e-08,  ...,  6.1095e-07,
+         -8.2050e-07,  8.0559e-08],
+        ...,
+        [ 9.9465e-07, -2.3842e-07,  2.3283e-09,  ...,  5.7407e-06,
+          1.7975e-07,  3.9022e-07],
+        [ 4.5635e-06,  3.6787e-08,  5.5879e-09,  ...,  1.7166e-05,
+          9.6858e-08,  1.2796e-06],
+        [-1.3542e-04, -2.2771e-07,  1.3970e-09,  ..., -5.2309e-04,
+          5.5414e-08, -3.7730e-05]], device='cuda:0')
+Epoch 194, bias, value: tensor([ 0.0220, -0.0300,  0.0170, -0.0279,  0.0345,  0.0206,  0.0055, -0.0113,
+        -0.0154, -0.0059], device='cuda:0'), grad: tensor([ 4.4927e-06,  3.7178e-06, -1.6680e-06, -9.8906e-07,  1.1301e-03,
+         7.2233e-06,  8.0690e-06,  1.3113e-05,  4.0084e-05, -1.2054e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 193, time 220.19, cls_loss 0.0012 cls_loss_mapping 0.0043 cls_loss_causal 0.5225 re_mapping 0.0044 re_causal 0.0133 /// teacc 99.06 lr 0.00010000
+Epoch 195, weight, value: tensor([[-0.1583,  0.1859, -0.0312,  ..., -0.0894,  0.0268,  0.0078],
+        [ 0.0049, -0.1047, -0.0505,  ...,  0.0297, -0.0367, -0.0596],
+        [-0.1108, -0.1964,  0.0390,  ..., -0.0645, -0.0083, -0.1156],
+        ...,
+        [ 0.0741,  0.1146, -0.0857,  ..., -0.1250,  0.0624,  0.0669],
+        [ 0.0470, -0.1035, -0.0193,  ..., -0.0734, -0.0817, -0.0732],
+        [-0.1460, -0.0373, -0.0589,  ...,  0.0973, -0.2380,  0.0894]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09,  0.0000e+00,  0.0000e+00,  ...,  3.9954e-07,
+          3.2596e-09,  6.7521e-08],
+        [-4.7963e-08,  1.3970e-09,  0.0000e+00,  ..., -4.5169e-08,
+          8.8476e-09,  5.0757e-08],
+        [ 3.1199e-08,  9.3132e-10,  0.0000e+00,  ...,  8.4285e-08,
+          1.3504e-08,  2.2817e-08],
+        ...,
+        [-3.8184e-08, -8.8476e-09,  0.0000e+00,  ...,  2.6729e-07,
+         -3.3528e-08,  1.5041e-07],
+        [-1.3970e-08,  9.3132e-10,  0.0000e+00,  ...,  1.5181e-07,
+          4.6566e-09,  5.4948e-08],
+        [ 3.1199e-08,  3.7253e-09,  0.0000e+00,  ..., -3.1665e-06,
+          2.7008e-08, -1.4938e-06]], device='cuda:0')
+Epoch 195, bias, value: tensor([ 0.0223, -0.0302,  0.0170, -0.0270,  0.0345,  0.0201,  0.0046, -0.0113,
+        -0.0148, -0.0058], device='cuda:0'), grad: tensor([ 1.2219e-06, -7.8231e-08,  4.6985e-07,  3.2829e-07,  5.2005e-06,
+         3.6042e-07, -1.1846e-06,  5.2899e-07, -1.6373e-06, -5.2229e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 194, time 220.58, cls_loss 0.0007 cls_loss_mapping 0.0022 cls_loss_causal 0.4951 re_mapping 0.0046 re_causal 0.0137 /// teacc 99.03 lr 0.00010000
+Epoch 196, weight, value: tensor([[-0.1592,  0.1861, -0.0312,  ..., -0.0895,  0.0268,  0.0078],
+        [ 0.0049, -0.1048, -0.0505,  ...,  0.0297, -0.0367, -0.0595],
+        [-0.1121, -0.1974,  0.0386,  ..., -0.0660, -0.0083, -0.1162],
+        ...,
+        [ 0.0741,  0.1147, -0.0857,  ..., -0.1251,  0.0625,  0.0669],
+        [ 0.0479, -0.1041, -0.0197,  ..., -0.0734, -0.0819, -0.0735],
+        [-0.1465, -0.0374, -0.0589,  ...,  0.0973, -0.2381,  0.0894]],
+       device='cuda:0'), grad: tensor([[ 9.7789e-08, -6.6170e-07,  8.3819e-09,  ...,  1.0245e-07,
+          9.3132e-10, -8.6147e-08],
+        [-2.2296e-06,  2.0489e-08,  4.7963e-08,  ..., -2.2966e-06,
+          2.7940e-09,  1.1642e-08],
+        [ 2.1234e-07,  5.0757e-08, -1.0347e-06,  ...,  2.1467e-07,
+          3.2596e-09,  2.2352e-08],
+        ...,
+        [ 9.6858e-08,  3.4459e-08,  8.4890e-07,  ...,  1.5972e-07,
+         -1.8626e-09, -9.2667e-08],
+        [ 3.5251e-07,  3.1665e-08,  6.4261e-08,  ...,  2.7614e-07,
+          2.2817e-08,  9.7789e-09],
+        [ 1.0123e-06,  4.2655e-07,  1.3970e-09,  ...,  1.5069e-06,
+          1.2107e-08, -6.3377e-07]], device='cuda:0')
+Epoch 196, bias, value: tensor([ 0.0224, -0.0301,  0.0165, -0.0271,  0.0346,  0.0200,  0.0047, -0.0113,
+        -0.0140, -0.0059], device='cuda:0'), grad: tensor([-6.5798e-07, -9.4250e-06, -6.7092e-06,  4.0699e-07, -3.7011e-06,
+         7.0035e-07,  6.4820e-06,  7.0371e-06,  1.6764e-06,  4.1835e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 195, time 220.40, cls_loss 0.0009 cls_loss_mapping 0.0034 cls_loss_causal 0.4958 re_mapping 0.0044 re_causal 0.0129 /// teacc 98.99 lr 0.00010000
+Epoch 197, weight, value: tensor([[-0.1601,  0.1861, -0.0313,  ..., -0.0898,  0.0267,  0.0078],
+        [ 0.0050, -0.1055, -0.0505,  ...,  0.0298, -0.0368, -0.0596],
+        [-0.1131, -0.1985,  0.0377,  ..., -0.0666, -0.0085, -0.1168],
+        ...,
+        [ 0.0742,  0.1151, -0.0856,  ..., -0.1251,  0.0626,  0.0670],
+        [ 0.0475, -0.1044, -0.0200,  ..., -0.0745, -0.0826, -0.0742],
+        [-0.1469, -0.0374, -0.0590,  ...,  0.0974, -0.2382,  0.0895]],
+       device='cuda:0'), grad: tensor([[ 6.7521e-08, -6.1933e-08,  2.1420e-08,  ...,  8.6613e-08,
+          7.9162e-09, -6.5193e-09],
+        [ 3.8370e-06,  1.0245e-08,  1.8161e-08,  ...,  3.5632e-06,
+          1.1642e-08,  3.0901e-06],
+        [ 8.5682e-08,  1.7695e-08, -3.9395e-07,  ...,  5.9139e-08,
+         -2.2631e-07,  8.5682e-08],
+        ...,
+        [-1.2470e-06, -3.8184e-08,  1.0710e-08,  ...,  2.3749e-07,
+         -1.3970e-09, -4.3288e-06],
+        [ 2.3749e-07,  1.9092e-08,  1.0245e-08,  ...,  1.7788e-07,
+          1.8161e-08,  3.1292e-07],
+        [ 7.8464e-07,  7.9162e-08,  1.8626e-09,  ...,  9.6671e-07,
+          3.1665e-08,  1.8533e-07]], device='cuda:0')
+Epoch 197, bias, value: tensor([ 0.0222, -0.0300,  0.0154, -0.0279,  0.0347,  0.0206,  0.0041, -0.0111,
+        -0.0134, -0.0060], device='cuda:0'), grad: tensor([ 2.9569e-07,  1.6898e-05, -2.3488e-06,  3.4496e-06, -1.5289e-05,
+         1.2061e-07,  1.1362e-06, -8.5533e-06,  1.1157e-06,  3.1646e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 196, time 220.41, cls_loss 0.0008 cls_loss_mapping 0.0025 cls_loss_causal 0.5293 re_mapping 0.0044 re_causal 0.0134 /// teacc 99.10 lr 0.00010000
+Epoch 198, weight, value: tensor([[-0.1615,  0.1862, -0.0314,  ..., -0.0906,  0.0266,  0.0078],
+        [ 0.0050, -0.1058, -0.0505,  ...,  0.0298, -0.0369, -0.0596],
+        [-0.1135, -0.1990,  0.0382,  ..., -0.0668, -0.0086, -0.1170],
+        ...,
+        [ 0.0742,  0.1153, -0.0856,  ..., -0.1251,  0.0626,  0.0671],
+        [ 0.0472, -0.1050, -0.0204,  ..., -0.0757, -0.0836, -0.0746],
+        [-0.1475, -0.0375, -0.0590,  ...,  0.0973, -0.2383,  0.0895]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-08, -7.2177e-08,  0.0000e+00,  ...,  2.4866e-07,
+          3.1199e-08,  2.4680e-07],
+        [-4.8708e-07,  7.4506e-09, -3.1665e-08,  ..., -3.2969e-07,
+          2.5658e-07,  9.2341e-07],
+        [ 3.1665e-08,  1.6764e-08,  9.3132e-10,  ...,  4.3772e-08,
+          3.4831e-07,  5.7463e-07],
+        ...,
+        [-2.4168e-07, -1.6764e-08,  3.7253e-09,  ...,  1.4789e-06,
+         -7.3481e-07, -4.4629e-06],
+        [ 2.1840e-07,  3.2596e-09,  2.0489e-08,  ...,  1.4342e-06,
+          8.8476e-08,  1.2405e-06],
+        [-2.9942e-07,  4.4238e-08,  0.0000e+00,  ..., -8.0764e-06,
+          1.1604e-06, -2.3153e-06]], device='cuda:0')
+Epoch 198, bias, value: tensor([ 0.0220, -0.0300,  0.0156, -0.0285,  0.0349,  0.0211,  0.0047, -0.0111,
+        -0.0138, -0.0061], device='cuda:0'), grad: tensor([ 8.7218e-07,  7.5530e-07,  1.4305e-06, -2.3581e-06,  1.5706e-05,
+         1.7583e-06,  1.8161e-07, -8.1286e-06,  4.7572e-06, -1.5028e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 197, time 220.37, cls_loss 0.0009 cls_loss_mapping 0.0034 cls_loss_causal 0.4928 re_mapping 0.0046 re_causal 0.0130 /// teacc 99.08 lr 0.00010000
+Epoch 199, weight, value: tensor([[-0.1624,  0.1865, -0.0318,  ..., -0.0908,  0.0267,  0.0079],
+        [ 0.0050, -0.1062, -0.0505,  ...,  0.0298, -0.0369, -0.0597],
+        [-0.1138, -0.1998,  0.0400,  ..., -0.0672, -0.0088, -0.1173],
+        ...,
+        [ 0.0742,  0.1155, -0.0856,  ..., -0.1252,  0.0626,  0.0671],
+        [ 0.0468, -0.1059, -0.0208,  ..., -0.0765, -0.0860, -0.0757],
+        [-0.1485, -0.0377, -0.0590,  ...,  0.0968, -0.2384,  0.0895]],
+       device='cuda:0'), grad: tensor([[ 4.9826e-08, -1.9558e-08,  0.0000e+00,  ...,  9.2667e-08,
+          1.4435e-08,  2.4214e-08],
+        [ 4.3772e-08,  1.3970e-09,  0.0000e+00,  ...,  1.4761e-07,
+          1.4435e-08,  4.5635e-08],
+        [ 1.8161e-08,  3.2596e-09,  0.0000e+00,  ...,  4.7032e-08,
+          3.7253e-09,  2.6077e-08],
+        ...,
+        [ 6.7521e-08, -1.8626e-09,  0.0000e+00,  ...,  1.4063e-07,
+          1.8161e-08,  1.4575e-07],
+        [ 1.3737e-07,  3.7253e-09,  0.0000e+00,  ...,  1.2433e-07,
+          7.2177e-08,  9.3132e-08],
+        [ 7.6834e-08,  3.7253e-09,  0.0000e+00,  ..., -6.6916e-07,
+          3.8650e-08, -6.8778e-07]], device='cuda:0')
+Epoch 199, bias, value: tensor([ 0.0221, -0.0301,  0.0158, -0.0254,  0.0357,  0.0182,  0.0051, -0.0112,
+        -0.0146, -0.0065], device='cuda:0'), grad: tensor([ 4.3306e-07,  5.3225e-07,  2.1746e-07,  8.8289e-06,  9.8906e-07,
+        -1.1623e-05,  4.1584e-07,  7.4925e-07,  9.6299e-07, -1.5013e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 198, time 220.46, cls_loss 0.0008 cls_loss_mapping 0.0024 cls_loss_causal 0.4819 re_mapping 0.0044 re_causal 0.0130 /// teacc 99.09 lr 0.00010000
+Epoch 200, weight, value: tensor([[-0.1634,  0.1864, -0.0323,  ..., -0.0919,  0.0240,  0.0076],
+        [ 0.0051, -0.1070, -0.0505,  ...,  0.0298, -0.0370, -0.0597],
+        [-0.1140, -0.2008,  0.0414,  ..., -0.0670, -0.0088, -0.1175],
+        ...,
+        [ 0.0742,  0.1158, -0.0858,  ..., -0.1254,  0.0626,  0.0670],
+        [ 0.0451, -0.1069, -0.0210,  ..., -0.0777, -0.0870, -0.0769],
+        [-0.1489, -0.0376, -0.0591,  ...,  0.0969, -0.2385,  0.0897]],
+       device='cuda:0'), grad: tensor([[ 7.7765e-08, -1.3830e-07,  0.0000e+00,  ...,  2.0582e-07,
+         -2.6077e-08, -5.0757e-08],
+        [-4.8336e-07,  5.2154e-08, -1.5832e-08,  ..., -5.2992e-07,
+          4.2375e-08,  9.7789e-09],
+        [ 1.4855e-07,  9.1270e-08,  4.6566e-10,  ...,  3.1712e-07,
+          6.6124e-08,  2.5146e-08],
+        ...,
+        [ 2.3330e-07, -2.7940e-09,  9.3132e-10,  ...,  2.5332e-07,
+          4.2375e-08, -6.0536e-09],
+        [ 2.7800e-07,  1.3504e-08,  9.7789e-09,  ...,  1.7695e-07,
+          9.4995e-08,  1.2573e-08],
+        [ 3.7393e-07,  8.3819e-08,  4.6566e-10,  ...,  5.7789e-07,
+          4.4703e-08,  2.4214e-08]], device='cuda:0')
+Epoch 200, bias, value: tensor([ 0.0210, -0.0301,  0.0162, -0.0256,  0.0358,  0.0189,  0.0055, -0.0112,
+        -0.0158, -0.0065], device='cuda:0'), grad: tensor([ 1.0487e-06, -1.7527e-06, -5.5209e-06,  1.9461e-05, -4.9174e-06,
+        -2.2039e-05,  5.6773e-06,  4.5896e-06,  1.5991e-06,  1.8729e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 199, time 220.53, cls_loss 0.0009 cls_loss_mapping 0.0029 cls_loss_causal 0.4864 re_mapping 0.0043 re_causal 0.0124 /// teacc 99.10 lr 0.00010000
+Epoch 201, weight, value: tensor([[-0.1645,  0.1868, -0.0326,  ..., -0.0919,  0.0244,  0.0077],
+        [ 0.0052, -0.1074, -0.0505,  ...,  0.0299, -0.0370, -0.0597],
+        [-0.1143, -0.2033,  0.0420,  ..., -0.0681, -0.0090, -0.1178],
+        ...,
+        [ 0.0741,  0.1158, -0.0858,  ..., -0.1255,  0.0627,  0.0670],
+        [ 0.0448, -0.1075, -0.0232,  ..., -0.0791, -0.0884, -0.0778],
+        [-0.1496, -0.0376, -0.0591,  ...,  0.0969, -0.2386,  0.0898]],
+       device='cuda:0'), grad: tensor([[ 3.5390e-08,  1.7229e-08,  1.8626e-09,  ...,  4.0187e-07,
+          8.3819e-09,  5.1223e-09],
+        [-5.3607e-06,  1.8626e-08,  4.6566e-10,  ..., -6.5565e-06,
+          8.8476e-09,  1.4435e-08],
+        [ 4.4238e-08,  8.2422e-08, -1.3970e-09,  ...,  2.3330e-07,
+         -3.4925e-08,  1.6298e-08],
+        ...,
+        [ 1.7509e-07, -9.3132e-10,  4.6566e-10,  ...,  2.8219e-07,
+         -4.6566e-09,  1.0896e-07],
+        [-2.5705e-07,  5.4017e-08,  1.8626e-09,  ...,  1.6019e-07,
+          4.1910e-09, -3.3528e-08],
+        [ 1.0263e-06,  2.2352e-08,  0.0000e+00,  ...,  1.4901e-06,
+          5.1223e-09, -1.6904e-07]], device='cuda:0')
+Epoch 201, bias, value: tensor([ 0.0213, -0.0300,  0.0163, -0.0258,  0.0359,  0.0191,  0.0057, -0.0114,
+        -0.0165, -0.0064], device='cuda:0'), grad: tensor([ 2.1905e-06, -1.4000e-05,  1.0226e-06,  5.2480e-07,  1.2331e-05,
+         9.3225e-07, -6.4336e-06,  9.2667e-07, -2.2948e-06,  4.8019e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 200, time 220.23, cls_loss 0.0007 cls_loss_mapping 0.0020 cls_loss_causal 0.4946 re_mapping 0.0042 re_causal 0.0134 /// teacc 99.13 lr 0.00010000
+Epoch 202, weight, value: tensor([[-0.1655,  0.1864, -0.0327,  ..., -0.0931,  0.0243,  0.0066],
+        [ 0.0052, -0.1080, -0.0505,  ...,  0.0299, -0.0371, -0.0598],
+        [-0.1150, -0.2038,  0.0418,  ..., -0.0690, -0.0086, -0.1182],
+        ...,
+        [ 0.0742,  0.1159, -0.0858,  ..., -0.1257,  0.0628,  0.0667],
+        [ 0.0445, -0.1078, -0.0233,  ..., -0.0802, -0.0895, -0.0783],
+        [-0.1500, -0.0372, -0.0592,  ...,  0.0973, -0.2387,  0.0906]],
+       device='cuda:0'), grad: tensor([[ 1.2107e-08, -1.2899e-07,  7.4506e-09,  ...,  1.5600e-07,
+          1.1176e-08,  8.8476e-09],
+        [-3.0734e-08,  4.1910e-09,  4.6100e-08,  ..., -1.6298e-08,
+          8.2422e-08,  1.8626e-08],
+        [ 4.6566e-08,  2.2817e-08, -2.1188e-07,  ...,  2.9802e-08,
+         -3.3807e-07,  3.3528e-08],
+        ...,
+        [ 3.3528e-08, -2.7474e-08,  5.2154e-08,  ...,  7.6834e-08,
+          6.4261e-08,  9.3132e-10],
+        [-3.0175e-07,  1.8626e-09,  1.2107e-08,  ...,  1.8813e-07,
+          2.2817e-08,  1.0850e-07],
+        [ 3.7253e-08,  1.2107e-08,  4.6566e-10,  ..., -5.1968e-07,
+          6.5193e-09, -4.3027e-07]], device='cuda:0')
+Epoch 202, bias, value: tensor([ 0.0203, -0.0299,  0.0164, -0.0260,  0.0358,  0.0190,  0.0066, -0.0117,
+        -0.0172, -0.0056], device='cuda:0'), grad: tensor([ 6.5751e-07,  9.1596e-07, -3.5353e-06,  2.8182e-06,  1.1362e-06,
+         6.1002e-08, -1.3104e-06,  1.2424e-06, -7.3761e-07, -1.2433e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 201, time 220.04, cls_loss 0.0007 cls_loss_mapping 0.0023 cls_loss_causal 0.4997 re_mapping 0.0041 re_causal 0.0129 /// teacc 99.08 lr 0.00010000
+Epoch 203, weight, value: tensor([[-0.1663,  0.1866, -0.0332,  ..., -0.0932,  0.0242,  0.0066],
+        [ 0.0052, -0.1083, -0.0505,  ...,  0.0299, -0.0372, -0.0598],
+        [-0.1157, -0.2042,  0.0420,  ..., -0.0697, -0.0086, -0.1185],
+        ...,
+        [ 0.0743,  0.1160, -0.0858,  ..., -0.1258,  0.0628,  0.0668],
+        [ 0.0444, -0.1081, -0.0235,  ..., -0.0808, -0.0903, -0.0788],
+        [-0.1508, -0.0373, -0.0592,  ...,  0.0975, -0.2388,  0.0906]],
+       device='cuda:0'), grad: tensor([[ 4.1444e-08, -1.5600e-07,  9.3132e-10,  ...,  5.9605e-08,
+         -1.5367e-08, -5.5879e-08],
+        [-4.1910e-09,  4.1910e-09,  9.3132e-10,  ...,  6.9197e-07,
+          4.1910e-08,  8.3260e-07],
+        [ 2.4680e-08,  1.2107e-08,  1.3970e-09,  ...,  5.6345e-08,
+         -2.7940e-09,  3.5856e-08],
+        ...,
+        [ 2.1886e-08, -1.8626e-09,  0.0000e+00,  ...,  6.9011e-07,
+          1.1548e-07,  7.9907e-07],
+        [ 2.8871e-08,  5.5879e-09,  4.6566e-10,  ...,  8.1956e-08,
+          5.0291e-08,  1.3132e-07],
+        [ 4.1910e-09,  1.0151e-07,  0.0000e+00,  ..., -2.9393e-06,
+          3.1060e-07, -2.3376e-06]], device='cuda:0')
+Epoch 203, bias, value: tensor([ 0.0203, -0.0299,  0.0164, -0.0260,  0.0357,  0.0191,  0.0063, -0.0116,
+        -0.0173, -0.0057], device='cuda:0'), grad: tensor([ 4.6566e-10,  2.4289e-06,  1.5041e-07, -2.4140e-06,  3.8333e-06,
+        -7.2457e-07,  1.2992e-07,  2.6543e-06,  5.4389e-07, -6.5900e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 202, time 220.61, cls_loss 0.0008 cls_loss_mapping 0.0025 cls_loss_causal 0.5045 re_mapping 0.0044 re_causal 0.0131 /// teacc 99.04 lr 0.00010000
+Epoch 204, weight, value: tensor([[-0.1670,  0.1870, -0.0337,  ..., -0.0932,  0.0240,  0.0066],
+        [ 0.0052, -0.1097, -0.0505,  ...,  0.0299, -0.0373, -0.0599],
+        [-0.1161, -0.2062,  0.0425,  ..., -0.0700, -0.0086, -0.1189],
+        ...,
+        [ 0.0744,  0.1162, -0.0858,  ..., -0.1259,  0.0626,  0.0668],
+        [ 0.0443, -0.1098, -0.0235,  ..., -0.0822, -0.0909, -0.0803],
+        [-0.1512, -0.0373, -0.0592,  ...,  0.0977, -0.2389,  0.0908]],
+       device='cuda:0'), grad: tensor([[ 6.0536e-09, -1.1828e-07,  4.6566e-09,  ...,  1.5367e-08,
+         -9.3132e-10, -3.3993e-08],
+        [-8.3819e-08,  3.7253e-09,  6.5193e-09,  ..., -1.5646e-07,
+          4.3772e-08,  3.1665e-08],
+        [ 2.2817e-08,  1.0710e-08, -1.3970e-07,  ...,  3.5390e-08,
+         -1.1921e-07,  1.1222e-07],
+        ...,
+        [ 1.2573e-08,  6.9849e-09,  1.6298e-08,  ...,  3.3993e-08,
+          2.6915e-07,  1.7695e-07],
+        [ 1.4435e-08,  6.9849e-09,  1.3039e-08,  ...,  3.3528e-08,
+          1.9232e-07,  1.4948e-07],
+        [ 1.0710e-08,  5.5414e-08,  1.8626e-09,  ...,  1.2107e-08,
+          5.1223e-08,  5.9139e-08]], device='cuda:0')
+Epoch 204, bias, value: tensor([ 0.0203, -0.0300,  0.0166, -0.0258,  0.0355,  0.0190,  0.0061, -0.0117,
+        -0.0175, -0.0055], device='cuda:0'), grad: tensor([ 5.2154e-08, -6.0676e-07, -2.0936e-06, -4.3726e-07,  1.4715e-07,
+         3.6554e-07,  1.0431e-07,  1.3150e-06,  8.6986e-07,  3.0082e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 203, time 220.11, cls_loss 0.0009 cls_loss_mapping 0.0016 cls_loss_causal 0.5175 re_mapping 0.0044 re_causal 0.0127 /// teacc 99.17 lr 0.00010000
+Epoch 205, weight, value: tensor([[-0.1696,  0.1875, -0.0338,  ..., -0.0935,  0.0240,  0.0069],
+        [ 0.0054, -0.1100, -0.0505,  ...,  0.0300, -0.0374, -0.0598],
+        [-0.1171, -0.2078,  0.0425,  ..., -0.0710, -0.0086, -0.1197],
+        ...,
+        [ 0.0745,  0.1164, -0.0858,  ..., -0.1259,  0.0626,  0.0670],
+        [ 0.0414, -0.1108, -0.0237,  ..., -0.0856, -0.0918, -0.0819],
+        [-0.1520, -0.0375, -0.0592,  ...,  0.0976, -0.2390,  0.0906]],
+       device='cuda:0'), grad: tensor([[ 1.1176e-08, -5.0850e-07,  0.0000e+00,  ...,  3.6461e-07,
+         -2.7008e-08, -6.0536e-08],
+        [ 3.7253e-09,  9.1270e-08,  0.0000e+00,  ...,  2.2817e-08,
+          5.3551e-08,  8.2422e-08],
+        [ 1.7229e-08,  9.3598e-08, -4.6566e-10,  ...,  2.1420e-08,
+          6.4727e-08,  6.8918e-08],
+        ...,
+        [-3.2596e-08, -1.3923e-07,  0.0000e+00,  ...,  1.8626e-08,
+         -1.3970e-07, -2.5611e-07],
+        [ 2.7008e-08,  2.3935e-07,  0.0000e+00,  ...,  5.9139e-08,
+          3.3528e-08,  2.3283e-08],
+        [ 7.1060e-07,  1.6252e-07,  0.0000e+00,  ...,  1.1828e-06,
+          8.4285e-08,  1.1269e-07]], device='cuda:0')
+Epoch 205, bias, value: tensor([ 0.0205, -0.0298,  0.0164, -0.0257,  0.0357,  0.0189,  0.0083, -0.0115,
+        -0.0202, -0.0060], device='cuda:0'), grad: tensor([ 1.3504e-08,  3.3621e-07,  3.7393e-07, -8.8010e-08, -2.7381e-06,
+         2.0955e-07, -1.1409e-06, -6.1234e-07,  6.3470e-07,  2.9970e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 204, time 220.32, cls_loss 0.0006 cls_loss_mapping 0.0024 cls_loss_causal 0.5079 re_mapping 0.0045 re_causal 0.0133 /// teacc 99.11 lr 0.00010000
+Epoch 206, weight, value: tensor([[-0.1702,  0.1876, -0.0338,  ..., -0.0935,  0.0241,  0.0070],
+        [ 0.0055, -0.1103, -0.0505,  ...,  0.0300, -0.0375, -0.0599],
+        [-0.1173, -0.2084,  0.0435,  ..., -0.0713, -0.0086, -0.1214],
+        ...,
+        [ 0.0745,  0.1165, -0.0859,  ..., -0.1260,  0.0626,  0.0671],
+        [ 0.0415, -0.1108, -0.0237,  ..., -0.0859, -0.0926, -0.0824],
+        [-0.1524, -0.0376, -0.0592,  ...,  0.0976, -0.2392,  0.0906]],
+       device='cuda:0'), grad: tensor([[ 1.9092e-08, -7.6415e-07,  1.3970e-09,  ...,  1.5926e-07,
+         -2.2165e-07, -2.1514e-07],
+        [ 1.6717e-07,  6.4727e-08,  1.7695e-08,  ...,  1.4435e-08,
+          5.1688e-08,  1.0571e-07],
+        [ 1.4249e-07,  3.8184e-07,  2.4214e-08,  ...,  3.4459e-08,
+          2.4633e-07,  2.1560e-07],
+        ...,
+        [-2.9895e-07, -1.5041e-07, -5.9605e-08,  ...,  6.9849e-09,
+         -1.3504e-07, -3.1013e-07],
+        [-5.9465e-07,  2.8405e-08,  6.9849e-09,  ...,  3.6927e-07,
+          2.1886e-08,  3.0268e-08],
+        [ 4.5169e-07,  3.9395e-07,  3.2596e-09,  ...,  1.3411e-07,
+          3.1199e-08,  1.1781e-07]], device='cuda:0')
+Epoch 206, bias, value: tensor([ 0.0205, -0.0298,  0.0165, -0.0256,  0.0358,  0.0189,  0.0084, -0.0116,
+        -0.0202, -0.0061], device='cuda:0'), grad: tensor([-9.6019e-07,  1.1642e-06,  1.8394e-06,  4.2608e-07,  3.0268e-08,
+         1.9092e-06, -3.4180e-06, -1.1828e-06, -4.4070e-06,  4.6007e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 205, time 220.04, cls_loss 0.0009 cls_loss_mapping 0.0029 cls_loss_causal 0.5436 re_mapping 0.0044 re_causal 0.0137 /// teacc 99.08 lr 0.00010000
+Epoch 207, weight, value: tensor([[-0.1710,  0.1878, -0.0338,  ..., -0.0939,  0.0239,  0.0070],
+        [ 0.0054, -0.1118, -0.0505,  ...,  0.0299, -0.0376, -0.0600],
+        [-0.1192, -0.2106,  0.0439,  ..., -0.0717, -0.0093, -0.1239],
+        ...,
+        [ 0.0747,  0.1175, -0.0859,  ..., -0.1260,  0.0631,  0.0674],
+        [ 0.0413, -0.1115, -0.0238,  ..., -0.0862, -0.0935, -0.0836],
+        [-0.1542, -0.0378, -0.0592,  ...,  0.0958, -0.2395,  0.0903]],
+       device='cuda:0'), grad: tensor([[ 5.0757e-08, -2.1886e-08,  0.0000e+00,  ...,  3.4459e-08,
+          9.3132e-10,  3.8650e-08],
+        [ 1.5320e-07,  7.0315e-08,  0.0000e+00,  ...,  1.2340e-07,
+          2.3283e-09,  2.1420e-07],
+        [ 1.9092e-08,  1.2107e-08,  0.0000e+00,  ...,  1.3970e-08,
+          1.0710e-08,  3.6787e-08],
+        ...,
+        [ 1.4529e-07, -5.7509e-07,  0.0000e+00,  ...,  1.6950e-07,
+         -1.8626e-09, -1.2647e-06],
+        [-4.8149e-07,  8.8476e-09,  0.0000e+00,  ...,  3.0734e-08,
+          2.7940e-09, -1.8673e-07],
+        [ 3.3900e-07,  4.5169e-07,  0.0000e+00,  ..., -2.5500e-06,
+          2.7940e-09, -5.5460e-07]], device='cuda:0')
+Epoch 207, bias, value: tensor([ 0.0205, -0.0298,  0.0157, -0.0256,  0.0377,  0.0188,  0.0084, -0.0112,
+        -0.0204, -0.0075], device='cuda:0'), grad: tensor([ 2.8405e-07,  1.4715e-06,  2.0303e-07,  3.4738e-07,  5.4538e-06,
+        -8.4788e-06,  8.5309e-06, -1.0058e-06, -5.0366e-06, -1.7863e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 206, time 220.42, cls_loss 0.0009 cls_loss_mapping 0.0029 cls_loss_causal 0.4760 re_mapping 0.0045 re_causal 0.0130 /// teacc 99.09 lr 0.00010000
+Epoch 208, weight, value: tensor([[-0.1721,  0.1886, -0.0323,  ..., -0.0943,  0.0235,  0.0071],
+        [ 0.0053, -0.1144, -0.0505,  ...,  0.0299, -0.0377, -0.0604],
+        [-0.1198, -0.2127,  0.0440,  ..., -0.0729, -0.0104, -0.1253],
+        ...,
+        [ 0.0749,  0.1186, -0.0859,  ..., -0.1261,  0.0629,  0.0678],
+        [ 0.0417, -0.1119, -0.0239,  ..., -0.0864, -0.0943, -0.0842],
+        [-0.1544, -0.0380, -0.0593,  ...,  0.0959, -0.2396,  0.0904]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-08, -1.6997e-07,  1.3970e-09,  ...,  7.0315e-08,
+         -1.3504e-08,  5.3085e-08],
+        [ 1.7695e-08,  5.5879e-09, -1.3970e-09,  ..., -9.7789e-09,
+          2.6077e-08,  5.1223e-08],
+        [ 1.7695e-07,  2.9337e-08,  3.9581e-08,  ...,  1.2107e-08,
+          4.9826e-07,  7.7020e-07],
+        ...,
+        [-3.0966e-07, -4.9826e-08, -6.4727e-08,  ...,  1.7509e-07,
+         -8.3027e-07, -1.0151e-06],
+        [ 2.4214e-08,  1.1176e-08,  3.2596e-09,  ...,  1.7695e-07,
+          3.3993e-08,  1.7323e-07],
+        [ 4.5635e-08,  1.8161e-08,  7.4506e-09,  ..., -7.5297e-07,
+          1.0291e-07, -8.0094e-07]], device='cuda:0')
+Epoch 208, bias, value: tensor([ 0.0210, -0.0301,  0.0151, -0.0255,  0.0377,  0.0190,  0.0068, -0.0109,
+        -0.0198, -0.0075], device='cuda:0'), grad: tensor([-6.6590e-08,  9.8720e-08,  3.2075e-06,  7.9488e-07,  9.2061e-07,
+         7.9954e-07, -2.3330e-07, -4.6045e-06,  6.5379e-07, -1.5665e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 207, time 220.23, cls_loss 0.0013 cls_loss_mapping 0.0032 cls_loss_causal 0.5242 re_mapping 0.0043 re_causal 0.0129 /// teacc 99.13 lr 0.00010000
+Epoch 209, weight, value: tensor([[-0.1737,  0.1887, -0.0327,  ..., -0.0953,  0.0229,  0.0070],
+        [ 0.0056, -0.1153, -0.0501,  ...,  0.0302, -0.0374, -0.0598],
+        [-0.1207, -0.2135,  0.0435,  ..., -0.0738, -0.0118, -0.1268],
+        ...,
+        [ 0.0747,  0.1192, -0.0862,  ..., -0.1265,  0.0635,  0.0676],
+        [ 0.0419, -0.1118, -0.0246,  ..., -0.0891, -0.0954, -0.0861],
+        [-0.1549, -0.0381, -0.0597,  ...,  0.0973, -0.2399,  0.0910]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09, -4.6892e-07,  0.0000e+00,  ..., -1.2107e-08,
+          3.7253e-09, -2.7474e-08],
+        [-9.3132e-09,  1.0245e-08,  0.0000e+00,  ..., -1.0710e-08,
+          7.9162e-09,  1.0841e-06],
+        [ 3.7253e-09,  1.2107e-07,  0.0000e+00,  ...,  3.2596e-09,
+          2.7940e-08,  3.3900e-07],
+        ...,
+        [ 4.6566e-10,  6.5193e-09,  0.0000e+00,  ...,  1.8626e-09,
+          4.6147e-07, -1.4845e-06],
+        [ 1.7695e-08,  2.8405e-08,  0.0000e+00,  ...,  6.0536e-09,
+          8.3819e-09,  2.0256e-07],
+        [ 6.5193e-09,  1.1502e-07,  0.0000e+00,  ...,  1.0245e-08,
+          3.3062e-08,  1.4063e-07]], device='cuda:0')
+Epoch 209, bias, value: tensor([ 0.0204, -0.0293,  0.0148, -0.0256,  0.0363,  0.0181,  0.0080, -0.0113,
+        -0.0192, -0.0064], device='cuda:0'), grad: tensor([-6.8452e-07,  2.3469e-06,  8.5542e-07, -8.8802e-07,  1.1176e-08,
+         1.9092e-08,  3.7951e-07, -3.0920e-06,  5.8115e-07,  4.8522e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 208, time 220.35, cls_loss 0.0007 cls_loss_mapping 0.0024 cls_loss_causal 0.4771 re_mapping 0.0044 re_causal 0.0130 /// teacc 99.07 lr 0.00010000
+Epoch 210, weight, value: tensor([[-0.1750,  0.1891, -0.0327,  ..., -0.0953,  0.0229,  0.0071],
+        [ 0.0056, -0.1156, -0.0500,  ...,  0.0300, -0.0375, -0.0598],
+        [-0.1211, -0.2144,  0.0441,  ..., -0.0741, -0.0119, -0.1272],
+        ...,
+        [ 0.0748,  0.1196, -0.0864,  ..., -0.1267,  0.0637,  0.0678],
+        [ 0.0416, -0.1121, -0.0250,  ..., -0.0895, -0.0963, -0.0866],
+        [-0.1556, -0.0382, -0.0598,  ...,  0.0982, -0.2401,  0.0909]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-09, -4.1910e-09,  2.3283e-08,  ...,  1.5832e-08,
+          2.3283e-09,  1.8626e-09],
+        [ 1.0990e-07,  1.6298e-08,  8.3819e-09,  ...,  2.5611e-08,
+          6.8452e-08,  1.2293e-07],
+        [ 1.3039e-08,  1.8626e-09, -6.4727e-08,  ...,  1.3039e-08,
+          1.3039e-08,  1.5832e-08],
+        ...,
+        [-1.5507e-07, -2.8405e-08,  4.6566e-10,  ...,  2.7474e-08,
+         -1.1502e-07, -2.2585e-07],
+        [ 1.3039e-08,  1.3970e-09,  2.7940e-09,  ...,  7.9162e-09,
+          9.7789e-09,  8.3819e-09],
+        [ 6.6077e-07,  9.3132e-09,  9.3132e-10,  ...,  1.4361e-06,
+          3.2596e-08,  4.9826e-08]], device='cuda:0')
+Epoch 210, bias, value: tensor([ 0.0206, -0.0293,  0.0148, -0.0256,  0.0356,  0.0180,  0.0075, -0.0112,
+        -0.0189, -0.0060], device='cuda:0'), grad: tensor([ 1.7323e-07,  4.7358e-07, -2.3702e-07,  1.2759e-07, -3.7160e-06,
+        -7.3574e-08,  3.2596e-09, -5.6066e-07,  8.7079e-08,  3.7309e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 209, time 220.67, cls_loss 0.0008 cls_loss_mapping 0.0021 cls_loss_causal 0.5284 re_mapping 0.0042 re_causal 0.0131 /// teacc 99.13 lr 0.00010000
+Epoch 211, weight, value: tensor([[-0.1771,  0.1883, -0.0327,  ..., -0.0983,  0.0228,  0.0071],
+        [ 0.0057, -0.1160, -0.0500,  ...,  0.0299, -0.0376, -0.0598],
+        [-0.1216, -0.2154,  0.0442,  ..., -0.0743, -0.0123, -0.1275],
+        ...,
+        [ 0.0747,  0.1198, -0.0864,  ..., -0.1268,  0.0636,  0.0677],
+        [ 0.0414, -0.1125, -0.0251,  ..., -0.0898, -0.0977, -0.0868],
+        [-0.1560, -0.0383, -0.0598,  ...,  0.0981, -0.2402,  0.0910]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-09, -6.8452e-07,  2.3283e-10,  ..., -3.5856e-08,
+          3.5786e-07,  1.0058e-07],
+        [-2.6007e-07,  9.3132e-09, -2.5379e-08,  ..., -9.1037e-08,
+          1.1502e-07,  1.4086e-07],
+        [ 8.1258e-08,  3.9581e-09,  8.1491e-09,  ...,  1.2340e-08,
+          1.5297e-07,  1.6484e-07],
+        ...,
+        [-1.1642e-08, -1.5832e-08,  2.3283e-10,  ...,  4.3074e-08,
+          5.4576e-07,  6.2492e-07],
+        [ 3.9581e-09,  2.4913e-08,  4.6566e-10,  ...,  2.1188e-08,
+          1.6089e-07,  1.9255e-07],
+        [ 2.1188e-08,  2.0210e-07,  0.0000e+00,  ..., -6.9616e-08,
+          2.8964e-06,  3.1721e-06]], device='cuda:0')
+Epoch 211, bias, value: tensor([ 0.0184, -0.0294,  0.0151, -0.0256,  0.0358,  0.0181,  0.0099, -0.0114,
+        -0.0190, -0.0060], device='cuda:0'), grad: tensor([ 4.0862e-07, -4.0489e-07,  1.2256e-06, -2.1368e-05,  4.4657e-07,
+         5.0180e-06,  8.9873e-07,  2.2724e-06, -1.0710e-08,  1.1489e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 210, time 220.45, cls_loss 0.0006 cls_loss_mapping 0.0019 cls_loss_causal 0.5074 re_mapping 0.0041 re_causal 0.0128 /// teacc 99.03 lr 0.00010000
+Epoch 212, weight, value: tensor([[-0.1783,  0.1885, -0.0330,  ..., -0.0986,  0.0226,  0.0070],
+        [ 0.0057, -0.1163, -0.0500,  ...,  0.0299, -0.0377, -0.0598],
+        [-0.1219, -0.2163,  0.0445,  ..., -0.0745, -0.0123, -0.1278],
+        ...,
+        [ 0.0747,  0.1200, -0.0864,  ..., -0.1269,  0.0635,  0.0677],
+        [ 0.0426, -0.1130, -0.0252,  ..., -0.0887, -0.0984, -0.0846],
+        [-0.1570, -0.0383, -0.0599,  ...,  0.0980, -0.2403,  0.0910]],
+       device='cuda:0'), grad: tensor([[ 4.4703e-08, -3.5297e-07,  0.0000e+00,  ...,  7.8930e-08,
+          6.9849e-09, -4.9826e-08],
+        [ 3.3062e-08,  1.5832e-08,  0.0000e+00,  ...,  5.4017e-08,
+          4.8429e-08,  1.2340e-07],
+        [ 2.1886e-08,  1.2107e-08, -4.6566e-10,  ...,  3.1432e-08,
+          2.1653e-08,  4.0513e-08],
+        ...,
+        [ 1.1642e-09,  3.9581e-09,  0.0000e+00,  ...,  1.3527e-07,
+         -1.2456e-07, -3.4319e-07],
+        [ 2.3493e-07,  1.7229e-08,  0.0000e+00,  ...,  1.5809e-07,
+          7.4971e-08,  5.9372e-08],
+        [ 1.0408e-07,  4.8894e-08,  0.0000e+00,  ..., -6.7502e-06,
+          9.6858e-08, -3.4031e-06]], device='cuda:0')
+Epoch 212, bias, value: tensor([ 0.0183, -0.0294,  0.0152, -0.0255,  0.0361,  0.0182,  0.0099, -0.0114,
+        -0.0180, -0.0063], device='cuda:0'), grad: tensor([-4.1677e-08,  5.0850e-07,  2.8755e-07,  6.1207e-06,  1.4991e-05,
+        -1.0207e-05,  9.3179e-07, -2.7171e-07,  1.4119e-06, -1.3724e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 211, time 220.55, cls_loss 0.0008 cls_loss_mapping 0.0026 cls_loss_causal 0.4735 re_mapping 0.0042 re_causal 0.0123 /// teacc 99.12 lr 0.00010000
+Epoch 213, weight, value: tensor([[-0.1797,  0.1905, -0.0331,  ..., -0.0986,  0.0224,  0.0074],
+        [ 0.0057, -0.1169, -0.0501,  ...,  0.0299, -0.0375, -0.0598],
+        [-0.1221, -0.2174,  0.0454,  ..., -0.0745, -0.0120, -0.1280],
+        ...,
+        [ 0.0748,  0.1205, -0.0864,  ..., -0.1270,  0.0636,  0.0679],
+        [ 0.0427, -0.1147, -0.0254,  ..., -0.0890, -0.0991, -0.0849],
+        [-0.1574, -0.0386, -0.0598,  ...,  0.0979, -0.2409,  0.0908]],
+       device='cuda:0'), grad: tensor([[ 1.9092e-08, -2.6380e-07,  0.0000e+00,  ...,  2.5611e-09,
+          1.0245e-08, -2.6776e-08],
+        [ 2.3283e-09,  3.0268e-09, -6.9849e-10,  ..., -2.9104e-08,
+          1.7928e-08,  6.7521e-09],
+        [ 1.3737e-07,  5.8906e-08,  0.0000e+00,  ...,  1.3271e-08,
+          7.8930e-08,  1.0827e-07],
+        ...,
+        [ 7.7067e-08,  2.7940e-09,  2.3283e-10,  ...,  2.1886e-08,
+          5.2387e-08, -8.8476e-08],
+        [ 2.8638e-07,  1.8859e-08,  0.0000e+00,  ...,  1.3271e-08,
+          1.7229e-07,  1.1874e-08],
+        [ 5.6112e-08,  8.3353e-08,  0.0000e+00,  ...,  5.5647e-08,
+          1.7462e-08,  1.6531e-08]], device='cuda:0')
+Epoch 213, bias, value: tensor([ 0.0197, -0.0294,  0.0164, -0.0256,  0.0363,  0.0183,  0.0080, -0.0116,
+        -0.0179, -0.0067], device='cuda:0'), grad: tensor([-3.7905e-07,  9.0804e-09,  8.0280e-07,  6.6170e-07, -1.3015e-07,
+        -2.8163e-06,  2.2841e-07,  2.1467e-07,  9.5461e-07,  4.4797e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 212, time 220.16, cls_loss 0.0009 cls_loss_mapping 0.0028 cls_loss_causal 0.5074 re_mapping 0.0043 re_causal 0.0125 /// teacc 99.12 lr 0.00010000
+Epoch 214, weight, value: tensor([[-0.1803,  0.1910, -0.0332,  ..., -0.0988,  0.0228,  0.0075],
+        [ 0.0056, -0.1175, -0.0501,  ...,  0.0298, -0.0377, -0.0599],
+        [-0.1222, -0.2191,  0.0458,  ..., -0.0752, -0.0122, -0.1287],
+        ...,
+        [ 0.0748,  0.1207, -0.0864,  ..., -0.1270,  0.0637,  0.0680],
+        [ 0.0433, -0.1170, -0.0257,  ..., -0.0900, -0.0998, -0.0856],
+        [-0.1581, -0.0387, -0.0576,  ...,  0.0980, -0.2411,  0.0911]],
+       device='cuda:0'), grad: tensor([[ 8.6147e-09, -3.7998e-07,  6.0536e-09,  ...,  6.6357e-08,
+          1.2852e-07, -6.9849e-10],
+        [-2.7637e-07,  1.6997e-08, -5.9558e-07,  ..., -8.6334e-07,
+          1.4482e-07,  1.1292e-07],
+        [ 1.8394e-08,  1.3970e-08,  2.0489e-08,  ...,  1.0571e-07,
+          6.5053e-07,  4.8336e-07],
+        ...,
+        [ 7.6834e-09,  7.4506e-09,  1.4435e-08,  ...,  6.5658e-08,
+          5.5460e-07,  4.8056e-07],
+        [ 1.5972e-07,  4.9826e-08,  3.2200e-07,  ...,  5.3504e-07,
+          1.9884e-07,  1.4901e-07],
+        [ 1.5832e-08,  8.6613e-08,  2.5611e-09,  ...,  2.2817e-07,
+          2.1863e-07, -3.7719e-08]], device='cuda:0')
+Epoch 214, bias, value: tensor([ 0.0199, -0.0296,  0.0165, -0.0256,  0.0367,  0.0183,  0.0079, -0.0115,
+        -0.0178, -0.0069], device='cuda:0'), grad: tensor([-1.3784e-07, -2.9225e-06,  2.3525e-06, -2.0787e-05,  1.6280e-06,
+         1.4670e-05, -9.0338e-07,  1.9111e-06,  2.8666e-06,  1.2890e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 213, time 220.92, cls_loss 0.0007 cls_loss_mapping 0.0022 cls_loss_causal 0.5057 re_mapping 0.0041 re_causal 0.0124 /// teacc 99.08 lr 0.00010000
+Epoch 215, weight, value: tensor([[-0.1810,  0.1912, -0.0334,  ..., -0.0990,  0.0229,  0.0076],
+        [ 0.0056, -0.1177, -0.0501,  ...,  0.0298, -0.0377, -0.0599],
+        [-0.1228, -0.2201,  0.0459,  ..., -0.0760, -0.0125, -0.1298],
+        ...,
+        [ 0.0749,  0.1211, -0.0864,  ..., -0.1271,  0.0638,  0.0682],
+        [ 0.0433, -0.1174, -0.0258,  ..., -0.0901, -0.1005, -0.0860],
+        [-0.1584, -0.0388, -0.0576,  ...,  0.0982, -0.2413,  0.0912]],
+       device='cuda:0'), grad: tensor([[ 3.0268e-09, -2.5984e-07,  4.6566e-10,  ...,  1.9558e-08,
+         -3.4925e-08, -7.1479e-08],
+        [ 2.7986e-07,  5.9837e-08,  3.9581e-09,  ...,  1.9791e-08,
+          3.4971e-07,  9.1409e-07],
+        [ 1.4435e-08,  6.6357e-08, -1.1874e-08,  ...,  3.9581e-09,
+          2.7940e-08,  4.6799e-08],
+        ...,
+        [-3.8021e-07, -6.9849e-08,  4.8894e-09,  ...,  5.1223e-08,
+         -4.0443e-07, -1.0394e-06],
+        [ 3.6089e-08,  1.2107e-08,  1.3970e-09,  ...,  1.7229e-08,
+          1.8999e-07,  1.9744e-07],
+        [ 3.3062e-08,  1.2992e-07,  0.0000e+00,  ..., -1.4044e-06,
+          5.3551e-08, -4.3656e-07]], device='cuda:0')
+Epoch 215, bias, value: tensor([ 0.0199, -0.0296,  0.0163, -0.0257,  0.0365,  0.0184,  0.0079, -0.0114,
+        -0.0178, -0.0068], device='cuda:0'), grad: tensor([-2.8056e-07,  2.3190e-06, -5.6298e-07, -6.0955e-07,  3.0901e-06,
+         3.4692e-08,  1.7672e-07, -2.0619e-06,  8.8289e-07, -2.9821e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 214, time 220.50, cls_loss 0.0007 cls_loss_mapping 0.0023 cls_loss_causal 0.5061 re_mapping 0.0042 re_causal 0.0126 /// teacc 99.05 lr 0.00010000
+Epoch 216, weight, value: tensor([[-0.1824,  0.1913, -0.0338,  ..., -0.0994,  0.0228,  0.0076],
+        [ 0.0054, -0.1183, -0.0503,  ...,  0.0297, -0.0378, -0.0601],
+        [-0.1235, -0.2205,  0.0458,  ..., -0.0769, -0.0129, -0.1304],
+        ...,
+        [ 0.0749,  0.1225, -0.0864,  ..., -0.1273,  0.0644,  0.0686],
+        [ 0.0427, -0.1177, -0.0281,  ..., -0.0905, -0.1014, -0.0867],
+        [-0.1585, -0.0393, -0.0576,  ...,  0.0986, -0.2419,  0.0911]],
+       device='cuda:0'), grad: tensor([[ 2.0955e-08, -6.7521e-08,  6.7521e-09,  ...,  8.8476e-09,
+          2.3749e-08,  2.7707e-08],
+        [ 1.9465e-07,  3.9581e-09,  7.2177e-09,  ..., -1.8626e-09,
+          3.4785e-07,  4.4424e-07],
+        [ 8.7777e-08,  1.4668e-08,  2.0955e-09,  ...,  7.9162e-09,
+          1.4226e-07,  2.2096e-07],
+        ...,
+        [-1.0338e-06,  1.1642e-09,  6.9849e-10,  ...,  3.3062e-08,
+         -1.7108e-06, -2.6282e-06],
+        [ 7.7998e-08,  2.7940e-09,  3.5390e-08,  ...,  1.1874e-08,
+          8.7079e-08,  1.4226e-07],
+        [ 4.6613e-07,  2.2585e-08,  1.3970e-09,  ..., -8.6147e-09,
+          6.9290e-07,  1.0850e-06]], device='cuda:0')
+Epoch 216, bias, value: tensor([ 0.0198, -0.0299,  0.0161, -0.0261,  0.0361,  0.0180,  0.0099, -0.0109,
+        -0.0185, -0.0069], device='cuda:0'), grad: tensor([ 7.7533e-08,  1.5534e-06,  7.3016e-07,  1.7723e-06,  5.1921e-08,
+         5.0962e-06, -4.6119e-06, -9.7305e-06,  6.7614e-07,  4.3586e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 215, time 220.69, cls_loss 0.0007 cls_loss_mapping 0.0028 cls_loss_causal 0.5043 re_mapping 0.0043 re_causal 0.0125 /// teacc 99.06 lr 0.00010000
+Epoch 217, weight, value: tensor([[-0.1831,  0.1917, -0.0338,  ..., -0.0995,  0.0226,  0.0076],
+        [ 0.0055, -0.1186, -0.0503,  ...,  0.0297, -0.0379, -0.0601],
+        [-0.1240, -0.2215,  0.0457,  ..., -0.0777, -0.0131, -0.1307],
+        ...,
+        [ 0.0750,  0.1227, -0.0864,  ..., -0.1274,  0.0646,  0.0688],
+        [ 0.0428, -0.1182, -0.0283,  ..., -0.0910, -0.1023, -0.0871],
+        [-0.1590, -0.0394, -0.0576,  ...,  0.0988, -0.2421,  0.0911]],
+       device='cuda:0'), grad: tensor([[ 1.4203e-08, -1.5767e-06,  0.0000e+00,  ..., -3.8417e-08,
+         -1.8184e-07, -6.0163e-07],
+        [ 5.4482e-08,  4.7032e-08,  0.0000e+00,  ...,  1.2084e-07,
+          1.5367e-08,  4.0047e-08],
+        [ 6.0536e-09,  5.9139e-08, -6.9849e-10,  ...,  2.2585e-08,
+          2.3516e-08,  3.7020e-08],
+        ...,
+        [ 3.3528e-08,  2.2817e-08,  2.3283e-10,  ...,  1.1269e-07,
+          1.6298e-09, -3.2596e-09],
+        [ 4.2841e-08,  8.0094e-08,  2.3283e-10,  ...,  1.5832e-08,
+          2.2352e-08,  2.7241e-08],
+        [ 6.4261e-08,  4.0606e-07,  0.0000e+00,  ..., -1.6228e-07,
+          2.2119e-08, -2.5844e-08]], device='cuda:0')
+Epoch 217, bias, value: tensor([ 0.0198, -0.0299,  0.0160, -0.0264,  0.0360,  0.0186,  0.0095, -0.0108,
+        -0.0185, -0.0070], device='cuda:0'), grad: tensor([-3.5502e-06,  7.6275e-07,  1.4203e-08,  5.3551e-07, -8.1165e-07,
+        -1.2368e-06,  2.3469e-06,  5.7789e-07,  2.5053e-07,  1.1204e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 216, time 220.64, cls_loss 0.0008 cls_loss_mapping 0.0023 cls_loss_causal 0.4941 re_mapping 0.0044 re_causal 0.0123 /// teacc 99.07 lr 0.00010000
+Epoch 218, weight, value: tensor([[-0.1842,  0.1920, -0.0343,  ..., -0.0996,  0.0224,  0.0076],
+        [ 0.0054, -0.1194, -0.0503,  ...,  0.0297, -0.0381, -0.0602],
+        [-0.1247, -0.2225,  0.0459,  ..., -0.0783, -0.0148, -0.1312],
+        ...,
+        [ 0.0751,  0.1229, -0.0864,  ..., -0.1274,  0.0646,  0.0688],
+        [ 0.0426, -0.1188, -0.0285,  ..., -0.0914, -0.1043, -0.0876],
+        [-0.1593, -0.0396, -0.0577,  ...,  0.0991, -0.2423,  0.0912]],
+       device='cuda:0'), grad: tensor([[ 4.4703e-08, -1.9856e-06,  2.7707e-08,  ...,  4.8103e-07,
+         -9.4064e-08,  6.9849e-09],
+        [-2.1653e-08,  1.6484e-07,  4.6566e-10,  ...,  2.8405e-08,
+          8.8476e-09,  2.1653e-08],
+        [ 1.8161e-08,  1.1735e-07,  9.3132e-10,  ...,  8.7079e-08,
+          1.2340e-08,  3.6787e-08],
+        ...,
+        [ 2.9104e-07,  1.1688e-07,  0.0000e+00,  ...,  1.1995e-06,
+          6.2864e-09,  1.9488e-07],
+        [ 2.3446e-07,  5.7276e-08,  2.5146e-08,  ...,  1.2573e-06,
+          6.7521e-09,  1.8929e-07],
+        [ 8.8215e-06,  1.3341e-07,  4.8894e-09,  ...,  3.3170e-05,
+          9.3132e-09,  2.4624e-06]], device='cuda:0')
+Epoch 218, bias, value: tensor([ 0.0196, -0.0300,  0.0153, -0.0244,  0.0358,  0.0171,  0.0097, -0.0107,
+        -0.0188, -0.0069], device='cuda:0'), grad: tensor([-4.7944e-06,  6.1467e-07,  5.9186e-07,  4.3772e-07, -9.8705e-05,
+         1.1325e-06,  2.9877e-06,  4.0531e-06,  3.9414e-06,  8.9705e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 217, time 220.24, cls_loss 0.0010 cls_loss_mapping 0.0033 cls_loss_causal 0.5378 re_mapping 0.0043 re_causal 0.0127 /// teacc 99.05 lr 0.00010000
+Epoch 219, weight, value: tensor([[-0.1864,  0.1926, -0.0350,  ..., -0.0998,  0.0222,  0.0078],
+        [ 0.0051, -0.1216, -0.0504,  ...,  0.0293, -0.0382, -0.0609],
+        [-0.1247, -0.2238,  0.0470,  ..., -0.0786, -0.0153, -0.1320],
+        ...,
+        [ 0.0756,  0.1238, -0.0864,  ..., -0.1277,  0.0650,  0.0693],
+        [ 0.0422, -0.1198, -0.0302,  ..., -0.0921, -0.1055, -0.0884],
+        [-0.1598, -0.0399, -0.0552,  ...,  0.1008, -0.2427,  0.0920]],
+       device='cuda:0'), grad: tensor([[ 1.8394e-07, -2.0862e-06,  1.0710e-08,  ...,  1.1479e-07,
+          2.7940e-09, -2.8638e-08],
+        [-2.2519e-06,  3.2759e-07, -7.1619e-07,  ..., -1.8133e-06,
+          1.6298e-09,  1.8394e-08],
+        [ 6.8918e-08,  7.5670e-08,  4.0769e-07,  ...,  2.9290e-07,
+          2.0955e-09,  7.2177e-09],
+        ...,
+        [ 6.7241e-07,  1.3388e-07,  1.5600e-08,  ...,  4.0885e-07,
+         -1.7229e-08, -2.9849e-07],
+        [ 5.1968e-07,  1.4692e-07,  6.5425e-08,  ...,  2.4191e-07,
+          4.6566e-10,  1.8626e-09],
+        [ 1.6438e-07,  3.0501e-07,  1.8324e-07,  ...,  2.1933e-07,
+          3.2829e-08,  2.5798e-07]], device='cuda:0')
+Epoch 219, bias, value: tensor([ 0.0198, -0.0310,  0.0152, -0.0240,  0.0341,  0.0166,  0.0103, -0.0099,
+        -0.0195, -0.0057], device='cuda:0'), grad: tensor([-5.4464e-06, -2.2233e-05,  7.4357e-06,  2.0117e-06,  2.0191e-06,
+        -6.9663e-07,  4.5002e-06,  3.6657e-06,  3.6713e-06,  5.0664e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 218, time 220.86, cls_loss 0.0011 cls_loss_mapping 0.0035 cls_loss_causal 0.5303 re_mapping 0.0042 re_causal 0.0124 /// teacc 99.05 lr 0.00010000
+Epoch 220, weight, value: tensor([[-0.1900,  0.1933, -0.0353,  ..., -0.1007,  0.0223,  0.0084],
+        [ 0.0078, -0.1190, -0.0475,  ...,  0.0310, -0.0383, -0.0590],
+        [-0.1256, -0.2253,  0.0469,  ..., -0.0798, -0.0157, -0.1325],
+        ...,
+        [ 0.0731,  0.1231, -0.0893,  ..., -0.1293,  0.0653,  0.0679],
+        [ 0.0417, -0.1211, -0.0307,  ..., -0.0938, -0.1063, -0.0887],
+        [-0.1610, -0.0407, -0.0558,  ...,  0.0996, -0.2429,  0.0922]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-09, -6.2864e-09,  0.0000e+00,  ...,  7.7998e-08,
+          7.6834e-09,  5.3551e-09],
+        [ 1.0477e-08,  1.3271e-08,  6.9849e-10,  ...,  1.2573e-08,
+          1.7695e-08,  3.3295e-08],
+        [ 2.3516e-08,  1.5832e-08, -3.4925e-09,  ...,  1.1642e-08,
+         -9.0804e-09,  4.5169e-08],
+        ...,
+        [-3.5134e-07, -4.1677e-08,  2.3283e-09,  ...,  1.2340e-08,
+         -4.1910e-08, -9.3365e-08],
+        [ 1.6298e-09,  2.5611e-09,  0.0000e+00,  ...,  6.9849e-09,
+          1.3271e-08,  1.0012e-08],
+        [ 3.3295e-08,  1.2806e-08,  0.0000e+00,  ..., -5.5647e-08,
+          7.9628e-08,  5.5181e-08]], device='cuda:0')
+Epoch 220, bias, value: tensor([ 0.0201, -0.0279,  0.0148, -0.0243,  0.0353,  0.0168,  0.0105, -0.0126,
+        -0.0207, -0.0068], device='cuda:0'), grad: tensor([ 3.8045e-07,  2.8708e-07, -1.6196e-06, -6.8825e-07,  6.7428e-07,
+         5.2433e-07, -2.0140e-07,  1.4366e-07,  3.0478e-07,  2.1281e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 219, time 220.51, cls_loss 0.0007 cls_loss_mapping 0.0025 cls_loss_causal 0.4928 re_mapping 0.0042 re_causal 0.0128 /// teacc 99.10 lr 0.00010000
+Epoch 221, weight, value: tensor([[-0.1914,  0.1953, -0.0355,  ..., -0.1008,  0.0222,  0.0101],
+        [ 0.0079, -0.1194, -0.0475,  ...,  0.0309, -0.0383, -0.0590],
+        [-0.1261, -0.2264,  0.0467,  ..., -0.0801, -0.0159, -0.1329],
+        ...,
+        [ 0.0731,  0.1233, -0.0893,  ..., -0.1293,  0.0654,  0.0679],
+        [ 0.0418, -0.1214, -0.0308,  ..., -0.0940, -0.1066, -0.0889],
+        [-0.1616, -0.0425, -0.0559,  ...,  0.0998, -0.2430,  0.0919]],
+       device='cuda:0'), grad: tensor([[ 9.7789e-09, -6.5379e-06,  0.0000e+00,  ..., -1.3402e-06,
+          2.1188e-08, -2.3283e-06],
+        [-4.8662e-08, -2.3283e-09, -1.6298e-09,  ...,  1.2363e-07,
+          3.7951e-08,  2.9337e-08],
+        [ 3.2363e-08,  9.0804e-09, -2.3283e-10,  ...,  6.4494e-08,
+          5.4948e-08,  2.8638e-08],
+        ...,
+        [-4.9360e-08, -4.4238e-09,  2.3283e-10,  ...,  4.7265e-08,
+         -3.5390e-08, -6.7288e-08],
+        [ 8.1491e-09,  8.8476e-09,  2.3283e-10,  ...,  9.5461e-09,
+          4.6566e-08,  2.0955e-08],
+        [ 4.3958e-07,  1.3201e-07,  2.3283e-10,  ...,  8.8941e-07,
+          3.8417e-08,  5.4482e-08]], device='cuda:0')
+Epoch 221, bias, value: tensor([ 0.0219, -0.0278,  0.0144, -0.0237,  0.0351,  0.0162,  0.0103, -0.0126,
+        -0.0206, -0.0074], device='cuda:0'), grad: tensor([-1.1005e-05,  1.0128e-07,  5.3132e-07, -1.1930e-06, -2.8387e-06,
+         6.9197e-07,  1.0885e-05, -2.4727e-07,  2.5984e-07,  2.8089e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 220, time 220.51, cls_loss 0.0008 cls_loss_mapping 0.0030 cls_loss_causal 0.5245 re_mapping 0.0043 re_causal 0.0129 /// teacc 99.05 lr 0.00010000
+Epoch 222, weight, value: tensor([[-0.1921,  0.1960, -0.0356,  ..., -0.1010,  0.0221,  0.0106],
+        [ 0.0079, -0.1199, -0.0475,  ...,  0.0309, -0.0384, -0.0590],
+        [-0.1265, -0.2280,  0.0467,  ..., -0.0804, -0.0163, -0.1338],
+        ...,
+        [ 0.0732,  0.1238, -0.0893,  ..., -0.1294,  0.0655,  0.0680],
+        [ 0.0417, -0.1219, -0.0309,  ..., -0.0946, -0.1077, -0.0893],
+        [-0.1622, -0.0431, -0.0560,  ...,  0.0998, -0.2432,  0.0919]],
+       device='cuda:0'), grad: tensor([[ 5.3551e-09, -6.1234e-08,  1.1642e-09,  ...,  8.8476e-09,
+          1.3970e-09, -3.9581e-09],
+        [-5.0059e-08,  7.9162e-09,  2.1653e-08,  ..., -7.3574e-08,
+          3.4925e-09,  6.9849e-09],
+        [ 1.3271e-08,  1.3271e-08, -5.2527e-07,  ...,  1.5600e-08,
+          1.6065e-08,  9.3132e-09],
+        ...,
+        [-2.3516e-08, -6.3796e-08,  4.9779e-07,  ...,  2.3516e-08,
+         -1.7928e-08, -8.3121e-08],
+        [ 3.2596e-09,  6.7521e-09,  2.3283e-10,  ...,  6.9849e-09,
+          2.3283e-09,  1.8626e-09],
+        [ 1.0105e-07,  6.4261e-08,  2.3283e-10,  ...,  1.9558e-07,
+          1.8626e-08,  6.3097e-08]], device='cuda:0')
+Epoch 222, bias, value: tensor([ 0.0225, -0.0278,  0.0142, -0.0266,  0.0353,  0.0189,  0.0104, -0.0125,
+        -0.0209, -0.0077], device='cuda:0'), grad: tensor([-9.0105e-08, -1.6578e-07, -2.2445e-06, -7.9861e-08, -3.4040e-07,
+         9.2899e-08,  1.4296e-07,  2.1495e-06, -7.1712e-08,  6.2399e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 221, time 220.28, cls_loss 0.0010 cls_loss_mapping 0.0027 cls_loss_causal 0.4942 re_mapping 0.0039 re_causal 0.0119 /// teacc 99.08 lr 0.00010000
+Epoch 223, weight, value: tensor([[-0.1934,  0.1965, -0.0358,  ..., -0.1012,  0.0220,  0.0108],
+        [ 0.0078, -0.1199, -0.0474,  ...,  0.0309, -0.0385, -0.0591],
+        [-0.1267, -0.2285,  0.0464,  ..., -0.0811, -0.0165, -0.1342],
+        ...,
+        [ 0.0732,  0.1240, -0.0893,  ..., -0.1295,  0.0655,  0.0681],
+        [ 0.0416, -0.1224, -0.0313,  ..., -0.0951, -0.1062, -0.0889],
+        [-0.1631, -0.0432, -0.0560,  ...,  0.0999, -0.2434,  0.0920]],
+       device='cuda:0'), grad: tensor([[ 8.6147e-09, -3.3528e-08,  0.0000e+00,  ...,  1.3970e-08,
+          6.7521e-09,  2.3283e-09],
+        [-2.9104e-08,  1.1642e-09,  0.0000e+00,  ..., -3.9348e-08,
+          4.2142e-08,  7.2876e-08],
+        [ 1.2107e-08,  1.3970e-09,  0.0000e+00,  ...,  1.0012e-08,
+          1.9092e-08,  2.5611e-08],
+        ...,
+        [-9.4902e-07,  1.8626e-09,  0.0000e+00,  ..., -6.2259e-07,
+         -8.0839e-07, -2.3376e-06],
+        [ 6.0536e-09,  6.9849e-10,  0.0000e+00,  ...,  1.3970e-08,
+          3.0268e-09,  2.5611e-09],
+        [ 9.0897e-07,  1.0245e-08,  0.0000e+00,  ...,  6.6590e-07,
+          7.6089e-07,  2.1402e-06]], device='cuda:0')
+Epoch 223, bias, value: tensor([ 0.0229, -0.0277,  0.0137, -0.0238,  0.0355,  0.0162,  0.0099, -0.0126,
+        -0.0207, -0.0077], device='cuda:0'), grad: tensor([ 1.8394e-08,  7.4506e-08,  1.0571e-07, -2.2538e-07,  3.2573e-07,
+         1.7998e-07,  4.6566e-10, -8.5160e-06, -1.1176e-08,  8.0839e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 222, time 220.23, cls_loss 0.0006 cls_loss_mapping 0.0021 cls_loss_causal 0.4894 re_mapping 0.0040 re_causal 0.0122 /// teacc 99.04 lr 0.00010000
+Epoch 224, weight, value: tensor([[-0.1944,  0.1968, -0.0331,  ..., -0.1014,  0.0219,  0.0109],
+        [ 0.0077, -0.1213, -0.0474,  ...,  0.0309, -0.0386, -0.0592],
+        [-0.1271, -0.2290,  0.0470,  ..., -0.0813, -0.0167, -0.1347],
+        ...,
+        [ 0.0733,  0.1252, -0.0893,  ..., -0.1296,  0.0656,  0.0683],
+        [ 0.0414, -0.1247, -0.0316,  ..., -0.0953, -0.1065, -0.0896],
+        [-0.1639, -0.0433, -0.0561,  ...,  0.1000, -0.2436,  0.0919]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10, -5.5879e-08,  0.0000e+00,  ...,  7.4506e-09,
+          1.2107e-08, -4.1910e-09],
+        [ 1.1176e-08,  3.7253e-09,  0.0000e+00,  ..., -1.3970e-08,
+          2.0023e-08,  9.6392e-08],
+        [ 1.6298e-08,  5.1223e-09,  0.0000e+00,  ...,  8.3819e-09,
+          5.9605e-08,  1.0477e-07],
+        ...,
+        [-4.7497e-08, -4.6566e-10,  0.0000e+00,  ...,  7.4506e-09,
+         -2.3749e-08, -2.4680e-07],
+        [-7.9162e-09,  6.9849e-09,  0.0000e+00,  ...,  8.7079e-08,
+          2.0722e-07,  1.4016e-07],
+        [ 1.9558e-08,  1.9558e-08,  0.0000e+00,  ..., -5.7323e-07,
+          1.3970e-08, -4.9826e-08]], device='cuda:0')
+Epoch 224, bias, value: tensor([ 0.0235, -0.0278,  0.0137, -0.0238,  0.0355,  0.0161,  0.0100, -0.0124,
+        -0.0209, -0.0079], device='cuda:0'), grad: tensor([ 2.2817e-08,  1.7509e-07,  6.0955e-07, -2.2203e-06,  6.9058e-07,
+         3.7719e-07,  5.6345e-08, -5.6904e-07,  1.4650e-06, -6.1793e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 223, time 220.40, cls_loss 0.0007 cls_loss_mapping 0.0016 cls_loss_causal 0.4934 re_mapping 0.0039 re_causal 0.0119 /// teacc 99.08 lr 0.00010000
+Epoch 225, weight, value: tensor([[-0.1959,  0.1970, -0.0335,  ..., -0.1017,  0.0218,  0.0109],
+        [ 0.0077, -0.1216, -0.0474,  ...,  0.0308, -0.0387, -0.0593],
+        [-0.1274, -0.2295,  0.0471,  ..., -0.0814, -0.0170, -0.1351],
+        ...,
+        [ 0.0733,  0.1253, -0.0894,  ..., -0.1296,  0.0657,  0.0684],
+        [ 0.0402, -0.1253, -0.0317,  ..., -0.0956, -0.1081, -0.0901],
+        [-0.1651, -0.0433, -0.0559,  ...,  0.0996, -0.2439,  0.0919]],
+       device='cuda:0'), grad: tensor([[ 2.9802e-08, -5.8264e-06, -6.2399e-07,  ...,  1.3551e-07,
+          2.0955e-08, -2.5798e-07],
+        [ 6.9384e-08,  1.2200e-07,  5.1223e-09,  ...,  6.2864e-08,
+          8.9873e-08,  1.4761e-07],
+        [ 7.1246e-08,  3.0035e-07,  2.8405e-08,  ...,  6.4261e-08,
+          6.9849e-08,  1.2293e-07],
+        ...,
+        [-5.4855e-07, -5.6578e-07,  3.7253e-09,  ...,  6.3330e-08,
+         -6.8871e-07, -8.6334e-07],
+        [-1.8161e-08,  1.1967e-07,  3.7253e-09,  ...,  1.7378e-06,
+          6.2399e-08,  1.1129e-06],
+        [ 3.7113e-07,  6.4727e-07,  2.0489e-08,  ..., -7.0482e-06,
+          3.5157e-07, -3.5185e-06]], device='cuda:0')
+Epoch 225, bias, value: tensor([ 0.0235, -0.0279,  0.0140, -0.0238,  0.0359,  0.0162,  0.0101, -0.0124,
+        -0.0217, -0.0083], device='cuda:0'), grad: tensor([-1.1809e-05,  9.9186e-07,  1.8273e-06,  1.0105e-06,  7.2382e-06,
+         9.6392e-07,  1.3568e-05, -3.7197e-06,  2.3060e-06, -1.2428e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 224, time 220.46, cls_loss 0.0010 cls_loss_mapping 0.0027 cls_loss_causal 0.5052 re_mapping 0.0040 re_causal 0.0117 /// teacc 99.04 lr 0.00010000
+Epoch 226, weight, value: tensor([[-0.1977,  0.1997, -0.0335,  ..., -0.1019,  0.0212,  0.0122],
+        [ 0.0077, -0.1221, -0.0474,  ...,  0.0304, -0.0388, -0.0594],
+        [-0.1286, -0.2314,  0.0471,  ..., -0.0817, -0.0178, -0.1362],
+        ...,
+        [ 0.0734,  0.1258, -0.0894,  ..., -0.1297,  0.0661,  0.0686],
+        [ 0.0400, -0.1261, -0.0315,  ..., -0.0966, -0.1089, -0.0912],
+        [-0.1651, -0.0436, -0.0559,  ...,  0.0998, -0.2442,  0.0919]],
+       device='cuda:0'), grad: tensor([[ 1.0245e-08, -2.6450e-07,  2.7940e-08,  ...,  8.9407e-08,
+          2.3283e-09, -1.3504e-08],
+        [-2.8871e-08,  3.8650e-07,  4.6566e-09,  ...,  4.6566e-08,
+          9.3132e-09,  5.7276e-07],
+        [ 6.0536e-09,  2.8685e-07, -9.3598e-08,  ...,  1.9558e-08,
+          3.7253e-09,  3.4925e-07],
+        ...,
+        [-1.8626e-08, -1.2275e-06,  9.3132e-09,  ...,  4.3772e-08,
+         -3.0268e-08, -1.8282e-06],
+        [ 2.6077e-08,  1.3504e-08,  1.9092e-08,  ...,  6.5193e-08,
+          2.3283e-09,  9.7789e-09],
+        [ 2.0023e-08,  6.6962e-07,  6.5193e-09,  ...,  3.6210e-06,
+          9.7789e-09,  8.2050e-07]], device='cuda:0')
+Epoch 226, bias, value: tensor([ 0.0250, -0.0281,  0.0139, -0.0238,  0.0359,  0.0162,  0.0093, -0.0122,
+        -0.0219, -0.0085], device='cuda:0'), grad: tensor([ 3.3062e-08,  2.0433e-06,  8.7172e-07,  2.3562e-07, -9.1270e-06,
+        -1.0896e-07,  9.8348e-07, -6.7577e-06,  5.1875e-07,  1.1310e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 225, time 219.97, cls_loss 0.0008 cls_loss_mapping 0.0027 cls_loss_causal 0.5222 re_mapping 0.0039 re_causal 0.0120 /// teacc 99.07 lr 0.00010000
+Epoch 227, weight, value: tensor([[-0.1989,  0.2003, -0.0340,  ..., -0.1015,  0.0209,  0.0124],
+        [ 0.0077, -0.1227, -0.0474,  ...,  0.0304, -0.0389, -0.0595],
+        [-0.1303, -0.2325,  0.0474,  ..., -0.0826, -0.0190, -0.1375],
+        ...,
+        [ 0.0735,  0.1265, -0.0894,  ..., -0.1298,  0.0667,  0.0689],
+        [ 0.0414, -0.1263, -0.0316,  ..., -0.0950, -0.1093, -0.0903],
+        [-0.1663, -0.0437, -0.0559,  ...,  0.0997, -0.2447,  0.0918]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09, -4.1910e-09,  7.4506e-09,  ...,  4.8988e-07,
+          5.9605e-08,  9.0338e-08],
+        [ 2.7940e-09,  1.3970e-09,  9.3132e-10,  ...,  1.6857e-07,
+          5.7742e-08,  8.5682e-08],
+        [ 1.8626e-09,  9.3132e-10,  4.6566e-10,  ...,  3.7719e-08,
+          4.9826e-08,  7.1712e-08],
+        ...,
+        [-4.9826e-08, -5.5879e-09,  0.0000e+00,  ...,  2.2352e-08,
+          8.2888e-08,  4.1910e-08],
+        [ 4.1910e-09,  0.0000e+00,  1.6764e-08,  ...,  6.6496e-07,
+          1.6484e-07,  2.4168e-07],
+        [ 8.2422e-08,  3.7253e-09,  9.3132e-10,  ...,  1.4668e-07,
+          3.2131e-07,  4.8662e-07]], device='cuda:0')
+Epoch 227, bias, value: tensor([ 0.0253, -0.0282,  0.0133, -0.0238,  0.0362,  0.0162,  0.0087, -0.0119,
+        -0.0200, -0.0091], device='cuda:0'), grad: tensor([ 2.0526e-06,  8.0653e-07,  2.2724e-07, -2.0933e-04,  3.1432e-07,
+         2.0921e-04, -9.2983e-06,  4.7078e-07,  3.0361e-06,  2.5518e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 226, time 220.29, cls_loss 0.0009 cls_loss_mapping 0.0022 cls_loss_causal 0.5315 re_mapping 0.0041 re_causal 0.0121 /// teacc 99.04 lr 0.00010000
+Epoch 228, weight, value: tensor([[-0.2004,  0.2003, -0.0345,  ..., -0.1016,  0.0208,  0.0124],
+        [ 0.0076, -0.1236, -0.0477,  ...,  0.0304, -0.0390, -0.0599],
+        [-0.1309, -0.2332,  0.0494,  ..., -0.0816, -0.0194, -0.1380],
+        ...,
+        [ 0.0736,  0.1271, -0.0894,  ..., -0.1299,  0.0668,  0.0693],
+        [ 0.0411, -0.1268, -0.0321,  ..., -0.0960, -0.1098, -0.0906],
+        [-0.1666, -0.0438, -0.0559,  ...,  0.0999, -0.2448,  0.0920]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  2.3283e-09,  0.0000e+00,  ...,  5.0291e-08,
+          4.6566e-10,  2.6543e-08],
+        [ 1.1967e-07,  5.5879e-09,  0.0000e+00,  ...,  7.9162e-09,
+          3.2596e-09,  3.7346e-07],
+        [ 3.3993e-08,  2.3283e-09,  0.0000e+00,  ...,  1.5832e-08,
+          1.3970e-09,  8.7079e-08],
+        ...,
+        [-2.1420e-07, -3.7253e-09,  0.0000e+00,  ...,  4.1910e-08,
+         -1.4901e-08, -6.5984e-07],
+        [-4.7963e-08, -3.5390e-08,  0.0000e+00,  ..., -1.6950e-07,
+          9.3132e-10,  1.4901e-08],
+        [ 1.0664e-07,  1.1176e-08,  0.0000e+00,  ..., -7.7765e-08,
+          1.1176e-08, -3.9581e-08]], device='cuda:0')
+Epoch 228, bias, value: tensor([ 0.0253, -0.0296,  0.0156, -0.0238,  0.0361,  0.0162,  0.0087, -0.0115,
+        -0.0205, -0.0090], device='cuda:0'), grad: tensor([ 7.0129e-07,  1.6969e-06,  6.3051e-07,  4.4797e-07,  4.7404e-07,
+         5.5507e-07,  1.2480e-06, -1.5236e-06, -5.6252e-06,  1.4128e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 227, time 220.32, cls_loss 0.0007 cls_loss_mapping 0.0023 cls_loss_causal 0.4969 re_mapping 0.0040 re_causal 0.0122 /// teacc 99.08 lr 0.00010000
+Epoch 229, weight, value: tensor([[-0.2019,  0.2004, -0.0347,  ..., -0.1018,  0.0207,  0.0122],
+        [ 0.0076, -0.1237, -0.0477,  ...,  0.0305, -0.0392, -0.0600],
+        [-0.1313, -0.2335,  0.0495,  ..., -0.0817, -0.0196, -0.1382],
+        ...,
+        [ 0.0737,  0.1273, -0.0894,  ..., -0.1301,  0.0671,  0.0694],
+        [ 0.0410, -0.1271, -0.0323,  ..., -0.0965, -0.1103, -0.0911],
+        [-0.1670, -0.0438, -0.0559,  ...,  0.1000, -0.2450,  0.0921]],
+       device='cuda:0'), grad: tensor([[ 6.8452e-08, -1.4855e-07,  5.3085e-08,  ...,  2.1607e-07,
+          3.9116e-08,  4.1910e-08],
+        [ 8.2254e-05,  8.3819e-09,  6.9384e-08,  ...,  2.6776e-07,
+          6.5804e-05,  1.1146e-04],
+        [ 2.3702e-07,  6.5193e-09,  7.9162e-09,  ...,  3.5856e-08,
+          1.9977e-07,  3.4319e-07],
+        ...,
+        [-8.3566e-05, -2.3749e-08,  1.3970e-09,  ..., -3.1199e-08,
+         -6.7890e-05, -1.1504e-04],
+        [-2.2314e-06,  1.2107e-08,  6.5193e-09,  ...,  3.0268e-08,
+          1.5087e-07, -2.7567e-07],
+        [ 2.3395e-06,  2.3749e-08,  2.3283e-09,  ..., -1.1269e-07,
+          1.0142e-06,  2.0675e-06]], device='cuda:0')
+Epoch 229, bias, value: tensor([ 0.0252, -0.0296,  0.0156, -0.0238,  0.0362,  0.0161,  0.0090, -0.0115,
+        -0.0208, -0.0090], device='cuda:0'), grad: tensor([ 8.7637e-07,  4.7708e-04,  4.3726e-07,  4.7609e-06,  1.4640e-06,
+         4.0643e-06, -4.9099e-06, -4.7326e-04, -4.4137e-05,  3.4124e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 228, time 220.35, cls_loss 0.0007 cls_loss_mapping 0.0024 cls_loss_causal 0.4945 re_mapping 0.0040 re_causal 0.0121 /// teacc 99.08 lr 0.00010000
+Epoch 230, weight, value: tensor([[-0.2041,  0.2004, -0.0349,  ..., -0.1020,  0.0205,  0.0121],
+        [ 0.0074, -0.1243, -0.0477,  ...,  0.0305, -0.0406, -0.0616],
+        [-0.1319, -0.2350,  0.0495,  ..., -0.0820, -0.0200, -0.1396],
+        ...,
+        [ 0.0740,  0.1285, -0.0894,  ..., -0.1301,  0.0684,  0.0709],
+        [ 0.0410, -0.1283, -0.0323,  ..., -0.0973, -0.1110, -0.0934],
+        [-0.1676, -0.0441, -0.0559,  ...,  0.1001, -0.2454,  0.0921]],
+       device='cuda:0'), grad: tensor([[ 1.4435e-08, -1.8207e-07,  0.0000e+00,  ...,  3.0315e-07,
+         -1.6298e-08, -5.7276e-08],
+        [-2.7940e-08,  1.7695e-08,  0.0000e+00,  ..., -1.7229e-08,
+          3.2596e-09,  9.3132e-09],
+        [ 4.1910e-09,  1.3039e-08,  0.0000e+00,  ...,  3.1665e-08,
+          1.8626e-09,  5.1223e-09],
+        ...,
+        [ 4.6566e-10,  3.2131e-08,  0.0000e+00,  ...,  1.1176e-08,
+         -1.2107e-08, -2.0023e-08],
+        [-1.8626e-08,  1.0245e-08,  0.0000e+00,  ..., -2.6077e-08,
+          9.3132e-10,  2.7940e-09],
+        [ 1.4435e-08,  4.2375e-08,  0.0000e+00,  ...,  8.8476e-09,
+          1.8161e-08,  3.3993e-08]], device='cuda:0')
+Epoch 230, bias, value: tensor([ 0.0251, -0.0308,  0.0155, -0.0238,  0.0361,  0.0160,  0.0096, -0.0099,
+        -0.0217, -0.0091], device='cuda:0'), grad: tensor([ 5.3924e-07, -1.2107e-07,  1.2480e-07,  1.3690e-07,  6.3628e-06,
+         2.2724e-07, -7.1973e-06,  4.4703e-08, -3.1339e-07,  2.1141e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 229, time 220.47, cls_loss 0.0007 cls_loss_mapping 0.0025 cls_loss_causal 0.5087 re_mapping 0.0040 re_causal 0.0123 /// teacc 99.05 lr 0.00010000
+Epoch 231, weight, value: tensor([[-0.2048,  0.2005, -0.0355,  ..., -0.1022,  0.0204,  0.0120],
+        [ 0.0074, -0.1244, -0.0477,  ...,  0.0306, -0.0407, -0.0639],
+        [-0.1324, -0.2359,  0.0495,  ..., -0.0821, -0.0202, -0.1418],
+        ...,
+        [ 0.0741,  0.1290, -0.0894,  ..., -0.1302,  0.0691,  0.0731],
+        [ 0.0415, -0.1287, -0.0314,  ..., -0.0973, -0.1116, -0.0936],
+        [-0.1682, -0.0443, -0.0559,  ...,  0.1001, -0.2459,  0.0920]],
+       device='cuda:0'), grad: tensor([[ 1.1176e-08, -5.5879e-08,  0.0000e+00,  ...,  4.4238e-08,
+          0.0000e+00, -2.4214e-08],
+        [ 4.6566e-09,  9.3132e-10,  0.0000e+00,  ...,  2.7940e-09,
+          4.6566e-10,  3.2596e-09],
+        [ 1.8161e-08,  4.6566e-10,  0.0000e+00,  ...,  3.0268e-08,
+          3.7253e-09,  9.3132e-09],
+        ...,
+        [ 3.2596e-09,  4.6566e-10,  0.0000e+00,  ...,  4.0513e-08,
+         -4.6566e-09, -1.2573e-08],
+        [ 1.2107e-08,  1.3970e-09,  0.0000e+00,  ...,  3.1199e-08,
+          3.7253e-09,  8.8476e-09],
+        [ 4.1863e-07,  3.3528e-08,  0.0000e+00,  ...,  9.5041e-07,
+          1.8626e-09, -3.4925e-08]], device='cuda:0')
+Epoch 231, bias, value: tensor([ 0.0250, -0.0321,  0.0153, -0.0239,  0.0361,  0.0160,  0.0096, -0.0082,
+        -0.0207, -0.0094], device='cuda:0'), grad: tensor([ 8.8476e-09, -7.8231e-08,  1.2852e-07,  7.1246e-08, -2.6673e-06,
+         2.5611e-08,  4.0652e-07,  6.7521e-08,  8.8476e-08,  1.9409e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 230, time 220.23, cls_loss 0.0009 cls_loss_mapping 0.0035 cls_loss_causal 0.4867 re_mapping 0.0041 re_causal 0.0118 /// teacc 99.03 lr 0.00010000
+Epoch 232, weight, value: tensor([[-0.2052,  0.2009, -0.0356,  ..., -0.1021,  0.0203,  0.0124],
+        [ 0.0074, -0.1246, -0.0477,  ...,  0.0307, -0.0408, -0.0640],
+        [-0.1327, -0.2363,  0.0496,  ..., -0.0822, -0.0203, -0.1423],
+        ...,
+        [ 0.0741,  0.1295, -0.0894,  ..., -0.1300,  0.0681,  0.0732],
+        [ 0.0414, -0.1295, -0.0313,  ..., -0.0956, -0.1097, -0.0913],
+        [-0.1695, -0.0445, -0.0559,  ...,  0.1003, -0.2474,  0.0914]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10, -3.3528e-08,  9.3132e-10,  ...,  4.3772e-08,
+          2.3283e-09, -5.1223e-09],
+        [ 1.5832e-08,  4.1910e-09,  1.3970e-08,  ..., -2.0303e-07,
+         -4.1910e-09, -1.9558e-08],
+        [-2.1886e-07, -4.1910e-09, -1.3923e-07,  ...,  1.1176e-08,
+         -2.7474e-08,  3.7253e-09],
+        ...,
+        [ 1.7229e-08,  1.8626e-09,  1.2573e-08,  ...,  7.8231e-08,
+          9.7789e-09,  3.7719e-08],
+        [ 1.7323e-07,  7.4506e-09,  1.0664e-07,  ...,  2.5146e-08,
+          7.9162e-09,  9.7789e-09],
+        [ 2.3283e-09,  1.1642e-08,  0.0000e+00,  ..., -4.7963e-08,
+          7.9162e-09, -9.9652e-08]], device='cuda:0')
+Epoch 232, bias, value: tensor([ 0.0253, -0.0321,  0.0154, -0.0236,  0.0356,  0.0159,  0.0091, -0.0083,
+        -0.0173, -0.0104], device='cuda:0'), grad: tensor([ 2.4540e-07, -5.5647e-07, -2.5518e-06,  3.2363e-07,  8.3353e-08,
+         6.4727e-08,  1.1642e-08,  8.8476e-07,  1.4286e-06,  6.5658e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 231, time 220.52, cls_loss 0.0007 cls_loss_mapping 0.0018 cls_loss_causal 0.4994 re_mapping 0.0039 re_causal 0.0124 /// teacc 99.01 lr 0.00010000
+Epoch 233, weight, value: tensor([[-0.2056,  0.2009, -0.0358,  ..., -0.1023,  0.0203,  0.0121],
+        [ 0.0075, -0.1247, -0.0477,  ...,  0.0308, -0.0409, -0.0639],
+        [-0.1332, -0.2367,  0.0496,  ..., -0.0823, -0.0207, -0.1425],
+        ...,
+        [ 0.0741,  0.1296, -0.0894,  ..., -0.1303,  0.0678,  0.0731],
+        [ 0.0413, -0.1303, -0.0314,  ..., -0.0964, -0.1100, -0.0915],
+        [-0.1702, -0.0445, -0.0560,  ...,  0.1011, -0.2476,  0.0922]],
+       device='cuda:0'), grad: tensor([[ 1.2107e-08, -2.8405e-08, -1.3970e-09,  ...,  4.0978e-08,
+          3.7253e-09, -1.0245e-08],
+        [ 3.8184e-08,  9.3132e-10,  0.0000e+00,  ...,  4.1258e-07,
+          4.1910e-09,  3.7253e-09],
+        [ 9.7789e-09,  1.3970e-09,  0.0000e+00,  ...,  1.5367e-08,
+          4.0047e-08,  4.7497e-08],
+        ...,
+        [ 2.5146e-08,  1.8626e-09,  0.0000e+00,  ...,  3.3528e-08,
+          3.4459e-08,  4.2375e-08],
+        [ 8.6147e-08,  3.2596e-09,  0.0000e+00,  ...,  9.3132e-08,
+          1.3551e-07,  1.4296e-07],
+        [ 1.1595e-07,  1.7695e-08,  9.3132e-10,  ...,  1.2526e-07,
+          1.9092e-08, -3.7253e-09]], device='cuda:0')
+Epoch 233, bias, value: tensor([ 0.0252, -0.0320,  0.0155, -0.0237,  0.0357,  0.0159,  0.0093, -0.0085,
+        -0.0174, -0.0099], device='cuda:0'), grad: tensor([ 1.1781e-07,  1.0952e-06,  1.8999e-07,  9.3924e-07, -9.2760e-07,
+        -2.8107e-06, -3.7206e-07,  2.4214e-07,  8.9686e-07,  6.3516e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 232, time 220.51, cls_loss 0.0008 cls_loss_mapping 0.0022 cls_loss_causal 0.5300 re_mapping 0.0040 re_causal 0.0126 /// teacc 98.99 lr 0.00010000
+Epoch 234, weight, value: tensor([[-0.2063,  0.2010, -0.0359,  ..., -0.1026,  0.0202,  0.0121],
+        [ 0.0075, -0.1249, -0.0477,  ...,  0.0309, -0.0410, -0.0640],
+        [-0.1337, -0.2377,  0.0517,  ..., -0.0824, -0.0214, -0.1400],
+        ...,
+        [ 0.0741,  0.1298, -0.0900,  ..., -0.1305,  0.0680,  0.0730],
+        [ 0.0412, -0.1311, -0.0315,  ..., -0.0972, -0.1107, -0.0918],
+        [-0.1707, -0.0445, -0.0560,  ...,  0.1013, -0.2478,  0.0924]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09, -2.1681e-06,  0.0000e+00,  ..., -2.9011e-07,
+          4.0978e-08,  1.8487e-07],
+        [-1.2107e-08,  5.5879e-09,  0.0000e+00,  ...,  4.0280e-07,
+          6.8452e-08,  3.0780e-07],
+        [ 1.8626e-09,  6.1002e-08,  0.0000e+00,  ...,  1.0617e-07,
+          2.8405e-08,  8.1025e-08],
+        ...,
+        [ 5.1223e-09, -8.3819e-09,  0.0000e+00,  ...,  1.0148e-05,
+          1.1362e-06,  6.5155e-06],
+        [ 9.7789e-09,  2.8219e-07,  0.0000e+00,  ...,  6.8126e-07,
+          8.4285e-08,  4.2887e-07],
+        [ 3.7253e-09,  1.5553e-07,  0.0000e+00,  ..., -5.3495e-05,
+         -7.3500e-06, -3.7402e-05]], device='cuda:0')
+Epoch 234, bias, value: tensor([ 0.0250, -0.0320,  0.0184, -0.0238,  0.0356,  0.0159,  0.0100, -0.0105,
+        -0.0181, -0.0099], device='cuda:0'), grad: tensor([-5.2005e-06,  1.2740e-06,  4.0373e-07,  2.5351e-06,  1.1933e-04,
+        -1.8040e-06,  7.2047e-06,  2.8446e-05,  2.0508e-06, -1.5414e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 233, time 220.36, cls_loss 0.0007 cls_loss_mapping 0.0028 cls_loss_causal 0.4884 re_mapping 0.0040 re_causal 0.0117 /// teacc 99.11 lr 0.00010000
+Epoch 235, weight, value: tensor([[-0.2068,  0.2012, -0.0359,  ..., -0.1026,  0.0201,  0.0122],
+        [ 0.0075, -0.1251, -0.0477,  ...,  0.0309, -0.0411, -0.0640],
+        [-0.1340, -0.2384,  0.0517,  ..., -0.0824, -0.0217, -0.1404],
+        ...,
+        [ 0.0741,  0.1298, -0.0900,  ..., -0.1306,  0.0681,  0.0730],
+        [ 0.0411, -0.1311, -0.0316,  ..., -0.0977, -0.1111, -0.0921],
+        [-0.1709, -0.0447, -0.0559,  ...,  0.1017, -0.2477,  0.0927]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-09, -1.9092e-08,  0.0000e+00,  ...,  2.2352e-08,
+          2.3283e-08,  4.4238e-08],
+        [-3.2596e-09,  4.6566e-10,  0.0000e+00,  ...,  2.0023e-08,
+          2.2352e-08,  4.8894e-08],
+        [ 5.1223e-09,  1.8626e-09,  0.0000e+00,  ...,  6.9849e-09,
+          1.1176e-08,  2.3283e-08],
+        ...,
+        [ 1.8626e-09, -2.3283e-09,  0.0000e+00,  ...,  7.7300e-08,
+          2.0489e-08,  4.8894e-08],
+        [-5.1223e-09,  9.3132e-10,  0.0000e+00,  ...,  7.4506e-08,
+          1.2107e-08,  5.7276e-08],
+        [ 2.2352e-08,  8.3819e-09,  0.0000e+00,  ..., -1.4156e-06,
+          2.3749e-08, -7.1712e-07]], device='cuda:0')
+Epoch 235, bias, value: tensor([ 0.0250, -0.0320,  0.0188, -0.0238,  0.0353,  0.0160,  0.0099, -0.0107,
+        -0.0184, -0.0097], device='cuda:0'), grad: tensor([ 1.7416e-07,  1.6298e-07,  3.4925e-08, -2.4270e-06,  2.6077e-06,
+         1.8869e-06,  9.7323e-08,  3.1572e-07,  1.9604e-07, -3.0175e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 234, time 220.41, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.4965 re_mapping 0.0038 re_causal 0.0118 /// teacc 99.10 lr 0.00010000
+Epoch 236, weight, value: tensor([[-0.2077,  0.2012, -0.0360,  ..., -0.1026,  0.0200,  0.0122],
+        [ 0.0079, -0.1251, -0.0475,  ...,  0.0320, -0.0409, -0.0638],
+        [-0.1342, -0.2387,  0.0517,  ..., -0.0825, -0.0220, -0.1407],
+        ...,
+        [ 0.0738,  0.1299, -0.0901,  ..., -0.1317,  0.0677,  0.0729],
+        [ 0.0409, -0.1315, -0.0316,  ..., -0.0982, -0.1117, -0.0925],
+        [-0.1716, -0.0447, -0.0562,  ...,  0.1017, -0.2480,  0.0927]],
+       device='cuda:0'), grad: tensor([[ 4.1910e-09,  2.3283e-09,  0.0000e+00,  ...,  2.0489e-08,
+          2.3283e-09,  1.4435e-08],
+        [ 2.3283e-09,  3.3062e-08,  0.0000e+00,  ..., -1.2573e-08,
+          2.0023e-08,  6.1002e-08],
+        [ 1.5367e-08,  4.1910e-09,  0.0000e+00,  ...,  1.7695e-08,
+          6.0536e-09,  1.2107e-08],
+        ...,
+        [-8.0094e-08, -1.5227e-07,  0.0000e+00,  ...,  4.6566e-08,
+         -8.7079e-08, -2.0815e-07],
+        [ 8.8476e-09,  1.0245e-08,  0.0000e+00,  ...,  1.0710e-08,
+          9.3132e-09,  2.6077e-08],
+        [ 4.7032e-08,  4.4703e-08,  0.0000e+00,  ..., -2.8983e-06,
+          2.5146e-08, -2.1160e-06]], device='cuda:0')
+Epoch 236, bias, value: tensor([ 0.0250, -0.0317,  0.0188, -0.0240,  0.0355,  0.0163,  0.0099, -0.0110,
+        -0.0188, -0.0099], device='cuda:0'), grad: tensor([ 7.7300e-08,  2.6077e-08,  3.8184e-07, -1.4761e-07,  5.5209e-06,
+         6.6264e-07,  4.1910e-08, -3.5251e-07, -1.6615e-06, -4.5188e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 235, time 220.65, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.4997 re_mapping 0.0039 re_causal 0.0119 /// teacc 99.04 lr 0.00010000
+Epoch 237, weight, value: tensor([[-0.2089,  0.2013, -0.0361,  ..., -0.1028,  0.0199,  0.0121],
+        [ 0.0079, -0.1252, -0.0475,  ...,  0.0320, -0.0411, -0.0639],
+        [-0.1351, -0.2392,  0.0518,  ..., -0.0826, -0.0225, -0.1413],
+        ...,
+        [ 0.0738,  0.1301, -0.0901,  ..., -0.1318,  0.0680,  0.0730],
+        [ 0.0394, -0.1320, -0.0317,  ..., -0.0990, -0.1124, -0.0929],
+        [-0.1720, -0.0448, -0.0562,  ...,  0.1020, -0.2483,  0.0929]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09, -1.1297e-06,  0.0000e+00,  ...,  5.1223e-09,
+         -1.2573e-08, -1.8580e-07],
+        [ 8.3819e-08,  1.1781e-07,  0.0000e+00,  ..., -5.5879e-09,
+          1.1548e-07,  1.7928e-07],
+        [ 7.4506e-09,  1.7229e-08,  0.0000e+00,  ...,  2.3283e-09,
+          1.0245e-08,  1.7695e-08],
+        ...,
+        [-1.0245e-07,  1.3970e-08,  0.0000e+00,  ...,  1.1176e-08,
+         -1.1222e-07, -1.6904e-07],
+        [-1.7695e-08,  4.2375e-08,  0.0000e+00,  ...,  1.8626e-09,
+          2.0955e-08,  3.3062e-08],
+        [ 7.4506e-09,  6.1467e-08,  0.0000e+00,  ..., -1.3970e-08,
+          1.3504e-08,  2.2352e-08]], device='cuda:0')
+Epoch 237, bias, value: tensor([ 0.0249, -0.0317,  0.0188, -0.0241,  0.0352,  0.0165,  0.0094, -0.0110,
+        -0.0198, -0.0098], device='cuda:0'), grad: tensor([-2.8666e-06,  6.9942e-07,  9.3598e-08,  9.3132e-09,  6.0070e-08,
+         1.0058e-06,  1.1791e-06, -3.6415e-07,  6.0536e-09,  1.8347e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 236, time 220.38, cls_loss 0.0008 cls_loss_mapping 0.0024 cls_loss_causal 0.5048 re_mapping 0.0038 re_causal 0.0116 /// teacc 99.09 lr 0.00010000
+Epoch 238, weight, value: tensor([[-0.2104,  0.2016, -0.0363,  ..., -0.1028,  0.0200,  0.0126],
+        [ 0.0079, -0.1255, -0.0474,  ...,  0.0317, -0.0412, -0.0644],
+        [-0.1357, -0.2411,  0.0525,  ..., -0.0826, -0.0227, -0.1419],
+        ...,
+        [ 0.0738,  0.1304, -0.0904,  ..., -0.1323,  0.0677,  0.0733],
+        [ 0.0394, -0.1328, -0.0318,  ..., -0.1005, -0.1113, -0.0928],
+        [-0.1722, -0.0453, -0.0565,  ...,  0.1022, -0.2486,  0.0931]],
+       device='cuda:0'), grad: tensor([[ 1.6298e-08, -6.9384e-08,  0.0000e+00,  ...,  1.9139e-07,
+         -7.4506e-09,  9.5461e-08],
+        [-3.5856e-08,  7.4506e-09,  0.0000e+00,  ...,  2.1886e-08,
+          3.7253e-09,  2.3283e-08],
+        [ 6.2399e-08,  2.6077e-08, -9.7789e-09,  ...,  7.7765e-08,
+          1.0710e-08,  4.8894e-08],
+        ...,
+        [ 1.4808e-07, -3.8184e-08,  9.3132e-10,  ...,  2.8452e-07,
+         -2.4680e-08, -4.8894e-08],
+        [ 3.4925e-08,  4.6566e-09,  3.2596e-09,  ...,  1.9046e-07,
+          2.7940e-09,  1.1874e-07],
+        [ 4.7311e-07,  2.0955e-08,  0.0000e+00,  ..., -4.2981e-07,
+          6.0536e-09, -8.8988e-07]], device='cuda:0')
+Epoch 238, bias, value: tensor([ 0.0250, -0.0320,  0.0189, -0.0241,  0.0353,  0.0166,  0.0097, -0.0110,
+        -0.0198, -0.0097], device='cuda:0'), grad: tensor([ 4.1723e-07, -5.1223e-08,  2.8545e-07,  1.0366e-06, -2.8536e-06,
+         1.0878e-06, -1.0757e-07,  5.7183e-07,  5.8720e-07, -9.8441e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 237, time 220.33, cls_loss 0.0007 cls_loss_mapping 0.0015 cls_loss_causal 0.4870 re_mapping 0.0037 re_causal 0.0110 /// teacc 99.04 lr 0.00010000
+Epoch 239, weight, value: tensor([[-0.2118,  0.2018, -0.0366,  ..., -0.1029,  0.0200,  0.0127],
+        [ 0.0079, -0.1257, -0.0474,  ...,  0.0316, -0.0413, -0.0645],
+        [-0.1366, -0.2420,  0.0525,  ..., -0.0827, -0.0230, -0.1423],
+        ...,
+        [ 0.0738,  0.1305, -0.0904,  ..., -0.1326,  0.0675,  0.0732],
+        [ 0.0393, -0.1336, -0.0321,  ..., -0.1023, -0.1116, -0.0936],
+        [-0.1734, -0.0454, -0.0565,  ...,  0.1024, -0.2488,  0.0935]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-08, -1.5832e-07,  4.6566e-10,  ...,  8.3819e-08,
+         -6.0536e-09,  5.5879e-09],
+        [ 2.7660e-07,  4.6566e-09,  0.0000e+00,  ...,  3.3760e-07,
+          3.1665e-08,  6.3330e-08],
+        [ 2.3283e-08,  2.1886e-08, -1.8626e-09,  ...,  4.2375e-08,
+          7.3109e-08,  4.7497e-07],
+        ...,
+        [ 1.0850e-07, -9.3132e-10,  9.3132e-10,  ...,  3.2969e-07,
+          7.9162e-09, -2.7614e-07],
+        [ 2.8871e-08,  1.8626e-08,  4.6566e-10,  ...,  3.5390e-08,
+          3.6322e-08,  3.4459e-08],
+        [ 3.0547e-07,  7.8697e-08,  0.0000e+00,  ..., -4.0280e-07,
+          8.8476e-09, -8.2888e-07]], device='cuda:0')
+Epoch 239, bias, value: tensor([ 0.0250, -0.0321,  0.0190, -0.0242,  0.0357,  0.0166,  0.0097, -0.0112,
+        -0.0206, -0.0096], device='cuda:0'), grad: tensor([-1.2107e-08,  9.8720e-07,  1.2256e-06,  9.3132e-10, -1.3933e-06,
+        -1.6484e-07,  3.8650e-07, -1.3690e-07,  3.7625e-07, -1.2787e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 238, time 220.18, cls_loss 0.0007 cls_loss_mapping 0.0030 cls_loss_causal 0.5050 re_mapping 0.0039 re_causal 0.0114 /// teacc 99.09 lr 0.00010000
+Epoch 240, weight, value: tensor([[-0.2136,  0.2022, -0.0368,  ..., -0.1032,  0.0212,  0.0131],
+        [ 0.0080, -0.1261, -0.0474,  ...,  0.0316, -0.0414, -0.0646],
+        [-0.1374, -0.2435,  0.0525,  ..., -0.0829, -0.0233, -0.1441],
+        ...,
+        [ 0.0738,  0.1304, -0.0904,  ..., -0.1329,  0.0672,  0.0733],
+        [ 0.0392, -0.1351, -0.0322,  ..., -0.1028, -0.1120, -0.0940],
+        [-0.1756, -0.0456, -0.0561,  ...,  0.1023, -0.2491,  0.0937]],
+       device='cuda:0'), grad: tensor([[ 1.2871e-06,  1.2219e-06,  0.0000e+00,  ...,  1.6447e-06,
+          4.6566e-10,  9.7789e-08],
+        [-1.7975e-06, -1.5916e-06,  0.0000e+00,  ..., -1.8682e-06,
+          1.8626e-09,  1.7835e-07],
+        [ 7.3574e-08,  2.5611e-08,  0.0000e+00,  ...,  7.0315e-08,
+          2.3283e-09,  1.8161e-08],
+        ...,
+        [ 1.0375e-06,  2.9802e-08,  0.0000e+00,  ...,  8.2254e-06,
+          3.2596e-09,  6.6459e-06],
+        [ 6.0536e-09,  3.1199e-08,  0.0000e+00,  ...,  8.4750e-08,
+          9.3132e-10,  3.1199e-08],
+        [-2.2799e-06,  1.0245e-08,  0.0000e+00,  ..., -2.0370e-05,
+          1.3970e-09, -1.6674e-05]], device='cuda:0')
+Epoch 240, bias, value: tensor([ 0.0251, -0.0321,  0.0190, -0.0241,  0.0362,  0.0165,  0.0096, -0.0112,
+        -0.0207, -0.0099], device='cuda:0'), grad: tensor([ 7.6443e-06, -9.3952e-06,  3.9395e-07,  1.6391e-07,  3.1292e-05,
+         2.1886e-08,  1.4426e-06,  2.1800e-05, -9.9652e-08, -5.3227e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 239, time 220.24, cls_loss 0.0007 cls_loss_mapping 0.0020 cls_loss_causal 0.4875 re_mapping 0.0037 re_causal 0.0111 /// teacc 99.18 lr 0.00010000
+Epoch 241, weight, value: tensor([[-0.2169,  0.2023, -0.0370,  ..., -0.1033,  0.0211,  0.0131],
+        [ 0.0082, -0.1264, -0.0474,  ...,  0.0318, -0.0416, -0.0646],
+        [-0.1400, -0.2463,  0.0524,  ..., -0.0831, -0.0246, -0.1448],
+        ...,
+        [ 0.0739,  0.1312, -0.0903,  ..., -0.1348,  0.0676,  0.0726],
+        [ 0.0391, -0.1356, -0.0324,  ..., -0.1033, -0.1118, -0.0940],
+        [-0.1766, -0.0458, -0.0560,  ...,  0.1034, -0.2494,  0.0951]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09, -4.9220e-07,  0.0000e+00,  ...,  1.3895e-06,
+         -5.0757e-08, -2.2771e-07],
+        [-2.0489e-08,  1.0710e-08,  0.0000e+00,  ..., -5.5879e-09,
+          5.1223e-09,  9.7789e-09],
+        [ 2.3283e-09,  1.3551e-07,  0.0000e+00,  ...,  5.5879e-09,
+          2.1420e-08,  7.1246e-08],
+        ...,
+        [ 5.1223e-09,  8.8476e-09,  0.0000e+00,  ...,  1.1642e-08,
+          5.1223e-09,  4.6566e-09],
+        [ 5.5879e-09,  3.4459e-08,  0.0000e+00,  ...,  4.3772e-08,
+          1.3970e-08,  2.7474e-08],
+        [ 4.8894e-08,  1.9465e-07,  0.0000e+00,  ...,  1.0431e-07,
+          2.8405e-08,  8.7079e-08]], device='cuda:0')
+Epoch 241, bias, value: tensor([ 0.0251, -0.0320,  0.0188, -0.0241,  0.0361,  0.0165,  0.0096, -0.0117,
+        -0.0206, -0.0086], device='cuda:0'), grad: tensor([ 2.4661e-06,  2.1886e-08,  3.1525e-07,  1.9884e-07, -1.1828e-07,
+        -9.4529e-08, -3.7402e-06,  6.6124e-08,  2.2305e-07,  6.7474e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 240, time 220.69, cls_loss 0.0007 cls_loss_mapping 0.0020 cls_loss_causal 0.4950 re_mapping 0.0036 re_causal 0.0111 /// teacc 99.06 lr 0.00010000
+Epoch 242, weight, value: tensor([[-0.2186,  0.2024, -0.0374,  ..., -0.1036,  0.0208,  0.0132],
+        [ 0.0081, -0.1267, -0.0478,  ...,  0.0311, -0.0417, -0.0647],
+        [-0.1434, -0.2490,  0.0538,  ..., -0.0821, -0.0271, -0.1470],
+        ...,
+        [ 0.0743,  0.1319, -0.0903,  ..., -0.1350,  0.0682,  0.0729],
+        [ 0.0400, -0.1366, -0.0326,  ..., -0.1036, -0.1120, -0.0942],
+        [-0.1779, -0.0460, -0.0558,  ...,  0.1037, -0.2497,  0.0954]],
+       device='cuda:0'), grad: tensor([[ 2.7474e-08, -5.9605e-08,  4.6566e-09,  ...,  1.0245e-07,
+          4.6566e-10, -7.9162e-09],
+        [-4.7963e-08, -1.0151e-07,  1.8626e-09,  ..., -2.1653e-07,
+          1.8626e-09,  5.1223e-09],
+        [ 8.8476e-09,  1.6764e-08, -4.6566e-10,  ...,  3.2131e-08,
+          4.6566e-10,  9.3132e-10],
+        ...,
+        [ 2.0023e-08,  5.1223e-09,  9.3132e-10,  ...,  2.4680e-08,
+          5.1223e-09,  1.4435e-08],
+        [-5.0291e-08,  2.1420e-08,  1.3970e-09,  ...,  1.9372e-07,
+          3.2596e-09,  9.7789e-08],
+        [ 9.0338e-08,  4.7497e-08,  0.0000e+00,  ..., -6.1933e-08,
+          9.3132e-10, -1.2619e-07]], device='cuda:0')
+Epoch 242, bias, value: tensor([ 0.0249, -0.0324,  0.0190, -0.0240,  0.0358,  0.0165,  0.0097, -0.0115,
+        -0.0201, -0.0086], device='cuda:0'), grad: tensor([ 2.2957e-07, -1.0151e-06,  3.3015e-07, -9.8199e-06, -4.6659e-07,
+         1.0043e-05,  5.1409e-07,  1.7881e-07,  7.4971e-08, -4.7963e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 241, time 220.80, cls_loss 0.0008 cls_loss_mapping 0.0023 cls_loss_causal 0.5090 re_mapping 0.0038 re_causal 0.0114 /// teacc 99.09 lr 0.00010000
+Epoch 243, weight, value: tensor([[-0.2200,  0.2024, -0.0377,  ..., -0.1037,  0.0207,  0.0131],
+        [ 0.0082, -0.1271, -0.0481,  ...,  0.0310, -0.0420, -0.0648],
+        [-0.1457, -0.2507,  0.0549,  ..., -0.0815, -0.0290, -0.1489],
+        ...,
+        [ 0.0745,  0.1330, -0.0904,  ..., -0.1352,  0.0691,  0.0732],
+        [ 0.0398, -0.1372, -0.0326,  ..., -0.1030, -0.1137, -0.0952],
+        [-0.1789, -0.0461, -0.0557,  ...,  0.1041, -0.2499,  0.0957]],
+       device='cuda:0'), grad: tensor([[ 7.6834e-08,  1.8161e-07,  3.4925e-08,  ...,  3.5251e-07,
+          4.6566e-10,  2.6636e-07],
+        [ 1.9791e-07,  4.8149e-07,  6.9849e-09,  ...,  8.2608e-07,
+         -1.7695e-08,  7.1153e-07],
+        [ 4.1444e-08,  2.3749e-08, -2.5146e-08,  ...,  1.6810e-07,
+          4.6566e-09,  4.4238e-08],
+        ...,
+        [-1.0785e-06, -5.8636e-06,  0.0000e+00,  ...,  1.2573e-07,
+          2.3283e-09, -8.6650e-06],
+        [ 4.3306e-08,  1.6252e-07,  2.0815e-07,  ...,  6.3470e-07,
+          4.6566e-09,  2.4680e-07],
+        [ 1.0561e-06,  4.8131e-06,  0.0000e+00,  ...,  3.3993e-07,
+          3.2596e-09,  7.0967e-06]], device='cuda:0')
+Epoch 243, bias, value: tensor([ 0.0248, -0.0328,  0.0194, -0.0243,  0.0355,  0.0167,  0.0090, -0.0112,
+        -0.0190, -0.0085], device='cuda:0'), grad: tensor([ 2.3432e-06,  3.9898e-06,  2.2724e-07,  8.5216e-08, -3.2224e-06,
+         7.7114e-07, -4.1835e-06, -3.2395e-05,  4.5896e-06,  2.7761e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 242, time 220.45, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.4912 re_mapping 0.0037 re_causal 0.0116 /// teacc 99.13 lr 0.00010000
+Epoch 244, weight, value: tensor([[-0.2211,  0.2027, -0.0381,  ..., -0.1039,  0.0205,  0.0132],
+        [ 0.0082, -0.1274, -0.0481,  ...,  0.0311, -0.0421, -0.0649],
+        [-0.1469, -0.2513,  0.0549,  ..., -0.0816, -0.0294, -0.1494],
+        ...,
+        [ 0.0746,  0.1335, -0.0904,  ..., -0.1355,  0.0691,  0.0733],
+        [ 0.0397, -0.1380, -0.0329,  ..., -0.1034, -0.1149, -0.0959],
+        [-0.1792, -0.0463, -0.0556,  ...,  0.1045, -0.2501,  0.0959]],
+       device='cuda:0'), grad: tensor([[ 8.3819e-09,  0.0000e+00,  9.3132e-10,  ...,  2.1420e-08,
+          1.3970e-09,  2.7940e-09],
+        [ 1.6913e-05,  1.6298e-09,  5.7276e-08,  ...,  2.7850e-05,
+          1.2573e-08,  2.6310e-08],
+        [ 8.8476e-09,  2.3283e-10,  4.6566e-10,  ...,  1.4901e-08,
+          2.0955e-09,  2.0955e-09],
+        ...,
+        [ 6.5193e-09, -4.8894e-09,  4.6566e-10,  ...,  4.4238e-08,
+         -1.4203e-08, -6.4494e-08],
+        [ 5.3551e-09,  4.6566e-10,  2.3283e-10,  ...,  1.3970e-09,
+          7.6834e-09,  9.3132e-09],
+        [ 1.7998e-07,  1.8626e-09,  2.0955e-09,  ...,  2.6892e-07,
+          2.3516e-08,  8.8476e-09]], device='cuda:0')
+Epoch 244, bias, value: tensor([ 0.0249, -0.0328,  0.0193, -0.0242,  0.0352,  0.0167,  0.0090, -0.0112,
+        -0.0192, -0.0083], device='cuda:0'), grad: tensor([ 6.7055e-08,  5.5432e-05, -4.2375e-08,  4.0412e-05, -5.6326e-05,
+        -4.0323e-05,  2.4401e-07,  1.0012e-08,  3.7253e-08,  6.6124e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 243, time 220.45, cls_loss 0.0007 cls_loss_mapping 0.0016 cls_loss_causal 0.5173 re_mapping 0.0036 re_causal 0.0113 /// teacc 99.15 lr 0.00010000
+Epoch 245, weight, value: tensor([[-0.2236,  0.2029, -0.0389,  ..., -0.1041,  0.0203,  0.0133],
+        [ 0.0080, -0.1278, -0.0483,  ...,  0.0305, -0.0422, -0.0649],
+        [-0.1477, -0.2521,  0.0549,  ..., -0.0817, -0.0298, -0.1498],
+        ...,
+        [ 0.0747,  0.1337, -0.0904,  ..., -0.1356,  0.0692,  0.0735],
+        [ 0.0393, -0.1380, -0.0323,  ..., -0.1034, -0.1158, -0.0965],
+        [-0.1810, -0.0464, -0.0558,  ...,  0.1042, -0.2506,  0.0958]],
+       device='cuda:0'), grad: tensor([[ 1.4668e-08,  1.2759e-07,  0.0000e+00,  ...,  1.2927e-06,
+          1.1409e-08,  1.4459e-07],
+        [-1.0477e-08,  9.0804e-09,  0.0000e+00,  ...,  8.5915e-08,
+          5.8208e-09,  6.4028e-08],
+        [ 3.7253e-09,  1.3970e-09,  0.0000e+00,  ...,  1.8859e-08,
+          6.5193e-09,  1.2107e-08],
+        ...,
+        [ 1.7462e-08,  3.9581e-09,  0.0000e+00,  ...,  1.0803e-07,
+          1.8394e-08,  9.2667e-08],
+        [ 5.8208e-09,  7.6834e-09,  0.0000e+00,  ...,  1.5600e-07,
+          4.8894e-09,  1.5832e-07],
+        [ 1.3341e-07, -7.8697e-08,  0.0000e+00,  ..., -8.0094e-07,
+          2.9802e-08, -1.1288e-06]], device='cuda:0')
+Epoch 245, bias, value: tensor([ 0.0248, -0.0330,  0.0194, -0.0242,  0.0358,  0.0168,  0.0089, -0.0112,
+        -0.0185, -0.0088], device='cuda:0'), grad: tensor([ 5.2787e-06, -1.5376e-06,  1.7649e-06,  1.3616e-06, -2.7730e-07,
+        -4.0536e-07, -4.9137e-06,  4.8289e-07,  4.3935e-07, -2.1458e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 244, time 220.37, cls_loss 0.0006 cls_loss_mapping 0.0018 cls_loss_causal 0.4972 re_mapping 0.0038 re_causal 0.0115 /// teacc 99.14 lr 0.00010000
+Epoch 246, weight, value: tensor([[-0.2248,  0.2028, -0.0392,  ..., -0.1041,  0.0202,  0.0113],
+        [ 0.0080, -0.1281, -0.0484,  ...,  0.0304, -0.0424, -0.0655],
+        [-0.1485, -0.2524,  0.0549,  ..., -0.0818, -0.0302, -0.1502],
+        ...,
+        [ 0.0749,  0.1341, -0.0904,  ..., -0.1357,  0.0702,  0.0741],
+        [ 0.0391, -0.1385, -0.0324,  ..., -0.1036, -0.1166, -0.0970],
+        [-0.1816, -0.0457, -0.0558,  ...,  0.1045, -0.2512,  0.0966]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09, -2.3609e-07,  0.0000e+00,  ...,  4.1910e-09,
+          2.9104e-08,  4.6566e-10],
+        [ 6.7521e-09,  3.7719e-08,  0.0000e+00,  ...,  7.2177e-09,
+          4.6566e-08,  5.1688e-08],
+        [ 9.0804e-09,  3.8883e-08,  0.0000e+00,  ...,  1.5367e-08,
+          3.7486e-08,  4.3539e-08],
+        ...,
+        [ 1.1642e-09, -1.7299e-07,  0.0000e+00,  ...,  2.0722e-08,
+         -6.2166e-08, -1.0757e-07],
+        [-3.0268e-09,  2.5611e-09,  0.0000e+00,  ...,  7.4506e-09,
+          6.5193e-09,  9.5461e-09],
+        [ 2.8638e-08,  1.5949e-07,  0.0000e+00,  ...,  1.4203e-08,
+          7.2876e-08,  9.3132e-08]], device='cuda:0')
+Epoch 246, bias, value: tensor([ 0.0239, -0.0333,  0.0197, -0.0243,  0.0355,  0.0168,  0.0091, -0.0109,
+        -0.0197, -0.0080], device='cuda:0'), grad: tensor([-3.2224e-07,  2.4168e-07,  3.1409e-07, -8.0559e-07, -3.1432e-07,
+         5.3085e-07,  2.6636e-07, -2.5937e-07, -1.9814e-07,  5.5507e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 245, time 220.81, cls_loss 0.0006 cls_loss_mapping 0.0017 cls_loss_causal 0.4981 re_mapping 0.0038 re_causal 0.0114 /// teacc 99.11 lr 0.00010000
+Epoch 247, weight, value: tensor([[-0.2259,  0.2034, -0.0364,  ..., -0.1041,  0.0225,  0.0124],
+        [ 0.0080, -0.1289, -0.0484,  ...,  0.0304, -0.0428, -0.0657],
+        [-0.1494, -0.2536,  0.0550,  ..., -0.0817, -0.0315, -0.1510],
+        ...,
+        [ 0.0751,  0.1351, -0.0904,  ..., -0.1358,  0.0709,  0.0743],
+        [ 0.0391, -0.1400, -0.0329,  ..., -0.1039, -0.1175, -0.0973],
+        [-0.1820, -0.0463, -0.0559,  ...,  0.1047, -0.2521,  0.0965]],
+       device='cuda:0'), grad: tensor([[ 1.6298e-09, -2.6310e-08,  2.7940e-09,  ...,  6.4727e-08,
+          1.6298e-09,  6.9849e-10],
+        [-2.5611e-07,  4.8894e-09, -1.4435e-08,  ..., -1.5087e-07,
+          7.6834e-09,  7.4506e-09],
+        [ 5.1921e-08,  6.0536e-09, -3.0501e-08,  ...,  8.6147e-09,
+          2.5611e-08,  1.3504e-08],
+        ...,
+        [ 9.3132e-10, -2.0955e-08,  6.9849e-09,  ...,  4.8196e-08,
+          6.9849e-10, -1.3271e-08],
+        [-2.3283e-10,  1.6298e-09,  9.3132e-10,  ...,  1.6787e-07,
+          5.3318e-08,  3.3062e-08],
+        [ 8.1491e-09,  3.6322e-08,  0.0000e+00,  ..., -7.8138e-07,
+          2.0023e-08, -2.6310e-08]], device='cuda:0')
+Epoch 247, bias, value: tensor([ 0.0246, -0.0333,  0.0196, -0.0242,  0.0353,  0.0166,  0.0092, -0.0108,
+        -0.0195, -0.0081], device='cuda:0'), grad: tensor([ 1.6694e-07, -5.4296e-07,  5.5181e-08, -1.1353e-06,  1.0096e-06,
+         1.6838e-06,  8.8243e-08,  1.1269e-07,  5.9884e-07, -2.0154e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 246, time 220.78, cls_loss 0.0006 cls_loss_mapping 0.0024 cls_loss_causal 0.4820 re_mapping 0.0037 re_causal 0.0110 /// teacc 99.07 lr 0.00010000
+Epoch 248, weight, value: tensor([[-0.2268,  0.2035, -0.0364,  ..., -0.1043,  0.0221,  0.0124],
+        [ 0.0082, -0.1281, -0.0484,  ...,  0.0306, -0.0429, -0.0656],
+        [-0.1503, -0.2544,  0.0551,  ..., -0.0821, -0.0339, -0.1526],
+        ...,
+        [ 0.0751,  0.1351, -0.0904,  ..., -0.1361,  0.0710,  0.0743],
+        [ 0.0386, -0.1416, -0.0332,  ..., -0.1049, -0.1180, -0.0975],
+        [-0.1830, -0.0466, -0.0559,  ...,  0.1039, -0.2527,  0.0964]],
+       device='cuda:0'), grad: tensor([[ 5.3551e-09, -5.8562e-06,  2.4680e-08,  ...,  2.8871e-08,
+          1.3970e-09, -2.3339e-06],
+        [-2.5611e-08,  7.4040e-08,  4.9826e-08,  ..., -4.0047e-08,
+          2.5379e-08,  1.1083e-07],
+        [ 3.8650e-08,  1.1642e-08, -5.8115e-06,  ...,  1.9325e-08,
+          1.2573e-08,  3.6787e-08],
+        ...,
+        [-7.4040e-08,  2.7264e-07,  5.0617e-07,  ...,  4.0280e-08,
+         -6.0769e-08, -4.5868e-08],
+        [-2.7474e-08,  2.8173e-08,  3.0035e-08,  ...,  3.0734e-08,
+          2.3283e-09,  2.2119e-08],
+        [ 3.4226e-08,  3.6843e-06,  3.3760e-08,  ..., -5.6345e-08,
+          1.6298e-08,  1.4696e-06]], device='cuda:0')
+Epoch 248, bias, value: tensor([ 0.0246, -0.0332,  0.0193, -0.0241,  0.0367,  0.0166,  0.0093, -0.0108,
+        -0.0201, -0.0091], device='cuda:0'), grad: tensor([-9.0078e-06,  6.6031e-07, -2.7716e-05,  2.4274e-05,  2.5937e-07,
+         1.3988e-06,  1.1362e-06,  2.4717e-06,  2.9220e-07,  6.1691e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 247, time 220.55, cls_loss 0.0007 cls_loss_mapping 0.0019 cls_loss_causal 0.4831 re_mapping 0.0037 re_causal 0.0108 /// teacc 99.16 lr 0.00010000
+Epoch 249, weight, value: tensor([[-0.2286,  0.2038, -0.0364,  ..., -0.1045,  0.0220,  0.0124],
+        [ 0.0083, -0.1279, -0.0484,  ...,  0.0306, -0.0430, -0.0657],
+        [-0.1532, -0.2570,  0.0553,  ..., -0.0824, -0.0343, -0.1544],
+        ...,
+        [ 0.0751,  0.1356, -0.0904,  ..., -0.1367,  0.0704,  0.0743],
+        [ 0.0390, -0.1436, -0.0336,  ..., -0.1057, -0.1185, -0.0978],
+        [-0.1841, -0.0468, -0.0557,  ...,  0.1045, -0.2526,  0.0971]],
+       device='cuda:0'), grad: tensor([[ 3.2596e-09, -5.7044e-08,  0.0000e+00,  ...,  1.6298e-08,
+          5.3551e-09, -4.6566e-09],
+        [-3.9581e-09,  5.1223e-09,  0.0000e+00,  ..., -1.3271e-08,
+          2.0489e-08,  2.8173e-08],
+        [ 8.1491e-09,  2.7940e-09,  0.0000e+00,  ...,  1.3504e-08,
+          3.7253e-09,  5.3551e-09],
+        ...,
+        [-4.7730e-08, -2.3050e-08,  0.0000e+00,  ...,  6.6590e-08,
+         -8.9174e-08, -5.3085e-08],
+        [-5.8208e-09,  3.0268e-09,  0.0000e+00,  ...,  7.2177e-09,
+          4.1910e-09,  8.1491e-09],
+        [ 7.9162e-08,  3.6787e-08,  0.0000e+00,  ...,  4.2492e-07,
+          3.0734e-08, -5.3318e-08]], device='cuda:0')
+Epoch 249, bias, value: tensor([ 0.0246, -0.0332,  0.0193, -0.0241,  0.0363,  0.0166,  0.0096, -0.0110,
+        -0.0203, -0.0085], device='cuda:0'), grad: tensor([ 1.0245e-08,  9.0105e-08, -7.4180e-07,  5.2527e-07, -1.5274e-06,
+         4.5169e-08,  7.0082e-08, -4.6100e-08,  2.0489e-07,  1.3784e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 248, time 220.85, cls_loss 0.0009 cls_loss_mapping 0.0026 cls_loss_causal 0.4940 re_mapping 0.0039 re_causal 0.0108 /// teacc 99.12 lr 0.00010000
+Epoch 250, weight, value: tensor([[-0.2298,  0.2041, -0.0364,  ..., -0.1050,  0.0220,  0.0125],
+        [ 0.0087, -0.1244, -0.0484,  ...,  0.0304, -0.0425, -0.0652],
+        [-0.1545, -0.2576,  0.0554,  ..., -0.0827, -0.0347, -0.1548],
+        ...,
+        [ 0.0745,  0.1338, -0.0904,  ..., -0.1380,  0.0707,  0.0736],
+        [ 0.0409, -0.1462, -0.0339,  ..., -0.1062, -0.1168, -0.0961],
+        [-0.1854, -0.0471, -0.0554,  ...,  0.1054, -0.2533,  0.0979]],
+       device='cuda:0'), grad: tensor([[ 1.4924e-07,  1.1642e-09,  2.3283e-10,  ...,  3.1106e-07,
+          9.3132e-10,  3.7486e-08],
+        [ 1.4054e-06, -3.1432e-08,  2.3283e-10,  ...,  2.7521e-07,
+          1.1176e-08,  1.1083e-06],
+        [ 4.0676e-07,  4.4238e-09, -4.6566e-10,  ...,  1.2778e-06,
+          3.0501e-08,  3.2061e-07],
+        ...,
+        [-1.9334e-06,  1.0012e-08,  0.0000e+00,  ...,  2.8429e-07,
+         -1.0408e-07, -2.0359e-06],
+        [ 1.7905e-07,  6.5193e-09,  0.0000e+00,  ...,  2.4540e-07,
+          1.8626e-09, -2.1071e-07],
+        [ 5.1856e-06,  2.5611e-09,  0.0000e+00,  ...,  1.2323e-05,
+          6.6590e-08,  6.6822e-07]], device='cuda:0')
+Epoch 250, bias, value: tensor([ 0.0246, -0.0327,  0.0195, -0.0244,  0.0362,  0.0168,  0.0090, -0.0121,
+        -0.0190, -0.0080], device='cuda:0'), grad: tensor([ 1.4137e-06,  8.5682e-06,  6.7316e-06,  4.5751e-07, -5.2869e-05,
+         8.4285e-07, -3.5912e-06, -1.1742e-05, -1.5413e-07,  5.0396e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 249, time 220.27, cls_loss 0.0007 cls_loss_mapping 0.0019 cls_loss_causal 0.4958 re_mapping 0.0040 re_causal 0.0114 /// teacc 99.16 lr 0.00010000
+Epoch 251, weight, value: tensor([[-0.2318,  0.2042, -0.0365,  ..., -0.1053,  0.0220,  0.0119],
+        [ 0.0094, -0.1246, -0.0483,  ...,  0.0321, -0.0423, -0.0650],
+        [-0.1557, -0.2582,  0.0554,  ..., -0.0830, -0.0350, -0.1550],
+        ...,
+        [ 0.0737,  0.1343, -0.0906,  ..., -0.1396,  0.0700,  0.0731],
+        [ 0.0416, -0.1459, -0.0337,  ..., -0.1080, -0.1163, -0.0957],
+        [-0.1855, -0.0472, -0.0556,  ...,  0.1061, -0.2537,  0.0987]],
+       device='cuda:0'), grad: tensor([[ 3.2596e-09, -6.5193e-08,  4.6566e-10,  ...,  1.7812e-07,
+          1.1642e-09, -1.3039e-08],
+        [-1.5553e-07,  4.6566e-09,  9.3132e-10,  ..., -2.4866e-07,
+         -1.6764e-08,  4.2608e-08],
+        [ 9.5461e-09,  5.8208e-09, -1.1176e-08,  ...,  6.8219e-08,
+          9.3132e-10,  7.2177e-09],
+        ...,
+        [ 5.4017e-08, -9.7789e-09,  1.8626e-09,  ...,  1.3341e-07,
+          3.9581e-09, -5.2853e-08],
+        [ 1.0012e-08,  2.0955e-09,  9.3132e-10,  ..., -1.6000e-06,
+          1.3504e-08,  1.5832e-08],
+        [ 1.0338e-07,  4.1444e-08,  4.6566e-10,  ...,  6.0070e-07,
+          8.3121e-08,  7.1246e-08]], device='cuda:0')
+Epoch 251, bias, value: tensor([ 0.0242, -0.0322,  0.0195, -0.0244,  0.0363,  0.0167,  0.0090, -0.0129,
+        -0.0185, -0.0072], device='cuda:0'), grad: tensor([ 1.8533e-06, -7.0501e-07,  5.4762e-07,  4.0978e-06,  1.1446e-06,
+         1.4920e-06,  1.5292e-06,  4.5961e-07, -1.7926e-05,  7.5214e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 250, time 220.43, cls_loss 0.0009 cls_loss_mapping 0.0031 cls_loss_causal 0.4964 re_mapping 0.0039 re_causal 0.0113 /// teacc 99.12 lr 0.00010000
+Epoch 252, weight, value: tensor([[-0.2329,  0.2047, -0.0365,  ..., -0.1057,  0.0219,  0.0122],
+        [ 0.0095, -0.1247, -0.0483,  ...,  0.0323, -0.0425, -0.0651],
+        [-0.1561, -0.2589,  0.0554,  ..., -0.0831, -0.0351, -0.1556],
+        ...,
+        [ 0.0737,  0.1345, -0.0906,  ..., -0.1401,  0.0694,  0.0732],
+        [ 0.0415, -0.1463, -0.0338,  ..., -0.1084, -0.1164, -0.0959],
+        [-0.1860, -0.0475, -0.0556,  ...,  0.1074, -0.2546,  0.0988]],
+       device='cuda:0'), grad: tensor([[ 4.8894e-09, -1.5134e-07,  1.4366e-07,  ...,  2.9523e-07,
+          0.0000e+00, -9.3132e-10],
+        [ 1.6135e-07,  3.4925e-09,  1.0245e-08,  ..., -3.9302e-07,
+          4.6566e-10,  2.0955e-09],
+        [ 6.0536e-09,  4.4238e-09,  1.8626e-09,  ...,  1.3201e-07,
+          4.6566e-10,  1.1642e-09],
+        ...,
+        [ 1.2340e-08, -2.3283e-10,  1.3970e-09,  ...,  5.7044e-08,
+         -2.5611e-09, -2.3283e-09],
+        [ 1.4668e-08,  1.6298e-08,  9.5461e-09,  ...,  3.4925e-08,
+          0.0000e+00,  4.6566e-10],
+        [ 3.6554e-08,  4.7963e-08,  7.2177e-09,  ...,  5.5181e-08,
+          9.3132e-10, -1.4435e-08]], device='cuda:0')
+Epoch 252, bias, value: tensor([ 0.0243, -0.0322,  0.0195, -0.0242,  0.0349,  0.0166,  0.0088, -0.0130,
+        -0.0183, -0.0064], device='cuda:0'), grad: tensor([ 6.9011e-07,  7.4785e-07, -7.6368e-07,  6.0443e-07,  3.4319e-07,
+        -1.0952e-06, -1.3439e-06,  1.6601e-07,  3.2387e-07,  3.2084e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 251, time 220.77, cls_loss 0.0006 cls_loss_mapping 0.0019 cls_loss_causal 0.4781 re_mapping 0.0040 re_causal 0.0113 /// teacc 99.09 lr 0.00010000
+Epoch 253, weight, value: tensor([[-0.2337,  0.2050, -0.0365,  ..., -0.1059,  0.0220,  0.0121],
+        [ 0.0095, -0.1250, -0.0483,  ...,  0.0323, -0.0427, -0.0651],
+        [-0.1565, -0.2597,  0.0554,  ..., -0.0832, -0.0353, -0.1562],
+        ...,
+        [ 0.0741,  0.1363, -0.0906,  ..., -0.1403,  0.0695,  0.0740],
+        [ 0.0415, -0.1489, -0.0343,  ..., -0.1088, -0.1169, -0.0962],
+        [-0.1878, -0.0485, -0.0556,  ...,  0.1080, -0.2550,  0.0981]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  0.0000e+00,  1.6298e-09,  ...,  1.3271e-08,
+          4.4238e-08,  1.0035e-07],
+        [ 2.2119e-08,  1.6298e-09,  6.9849e-10,  ...,  2.1653e-08,
+          1.5320e-07,  3.6461e-07],
+        [ 1.3737e-08,  2.3283e-10, -7.9162e-09,  ...,  1.0710e-08,
+          4.5053e-07,  1.3467e-06],
+        ...,
+        [-4.9174e-07, -1.5134e-08, -2.7032e-07,  ...,  1.9441e-07,
+         -5.7230e-07, -3.2876e-06],
+        [-1.2573e-08,  0.0000e+00,  7.9162e-09,  ...,  5.1223e-09,
+          2.5774e-07,  8.4750e-07],
+        [ 5.3365e-07,  1.2107e-08,  2.2817e-08,  ...,  7.3435e-07,
+          1.6140e-06,  3.7551e-06]], device='cuda:0')
+Epoch 253, bias, value: tensor([ 0.0243, -0.0322,  0.0196, -0.0239,  0.0344,  0.0164,  0.0088, -0.0124,
+        -0.0187, -0.0068], device='cuda:0'), grad: tensor([ 4.6077e-07,  1.7779e-06,  7.6108e-06, -4.5985e-05, -1.1390e-06,
+         2.9206e-05,  8.0327e-08, -8.9258e-06,  4.6492e-06,  1.2219e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 252, time 220.29, cls_loss 0.0009 cls_loss_mapping 0.0017 cls_loss_causal 0.4788 re_mapping 0.0037 re_causal 0.0108 /// teacc 99.10 lr 0.00010000
+Epoch 254, weight, value: tensor([[-0.2357,  0.2053, -0.0363,  ..., -0.1063,  0.0220,  0.0122],
+        [ 0.0094, -0.1254, -0.0482,  ...,  0.0322, -0.0429, -0.0653],
+        [-0.1572, -0.2613,  0.0554,  ..., -0.0834, -0.0357, -0.1568],
+        ...,
+        [ 0.0745,  0.1385, -0.0906,  ..., -0.1406,  0.0698,  0.0750],
+        [ 0.0412, -0.1503, -0.0354,  ..., -0.1092, -0.1170, -0.0964],
+        [-0.1908, -0.0498, -0.0557,  ...,  0.1055, -0.2561,  0.0976]],
+       device='cuda:0'), grad: tensor([[ 1.8859e-08, -1.2238e-06,  0.0000e+00,  ...,  4.4238e-09,
+         -3.0687e-07, -5.3365e-07],
+        [-3.3760e-08,  1.3039e-08,  0.0000e+00,  ..., -4.6566e-08,
+          6.6124e-08,  8.3353e-08],
+        [ 5.3551e-09,  2.0256e-08,  0.0000e+00,  ...,  3.9581e-09,
+          3.2829e-08,  4.0978e-08],
+        ...,
+        [ 2.4214e-08,  3.2131e-08,  0.0000e+00,  ...,  2.5146e-08,
+          3.3528e-08,  3.6089e-08],
+        [ 5.3225e-07,  4.6566e-08,  0.0000e+00,  ...,  5.5879e-09,
+          1.3039e-08,  1.3597e-07],
+        [ 1.3597e-07,  2.5937e-07,  0.0000e+00,  ...,  6.7055e-08,
+          7.0548e-08,  1.4482e-07]], device='cuda:0')
+Epoch 254, bias, value: tensor([ 0.0244, -0.0323,  0.0195, -0.0239,  0.0377,  0.0166,  0.0088, -0.0117,
+        -0.0190, -0.0105], device='cuda:0'), grad: tensor([-3.2745e-06,  3.5157e-07, -3.0338e-07,  6.6590e-07, -4.0536e-07,
+        -2.2370e-06,  8.8941e-07,  4.2794e-07,  2.3823e-06,  1.4985e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 253, time 220.20, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.5041 re_mapping 0.0039 re_causal 0.0113 /// teacc 99.11 lr 0.00010000
+Epoch 255, weight, value: tensor([[-0.2371,  0.2057, -0.0357,  ..., -0.1060,  0.0220,  0.0124],
+        [ 0.0088, -0.1255, -0.0483,  ...,  0.0322, -0.0434, -0.0655],
+        [-0.1576, -0.2615,  0.0555,  ..., -0.0834, -0.0360, -0.1572],
+        ...,
+        [ 0.0747,  0.1386, -0.0907,  ..., -0.1412,  0.0699,  0.0748],
+        [ 0.0414, -0.1505, -0.0331,  ..., -0.1099, -0.1171, -0.0965],
+        [-0.1911, -0.0500, -0.0560,  ...,  0.1060, -0.2563,  0.0985]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -3.9581e-09,  0.0000e+00,  ...,  1.3737e-08,
+          0.0000e+00,  2.3283e-10],
+        [-1.0477e-08,  1.8626e-09,  0.0000e+00,  ...,  9.7789e-09,
+          6.0536e-09,  1.4901e-08],
+        [ 4.3306e-08,  4.6566e-10,  0.0000e+00,  ...,  2.7940e-09,
+          2.4913e-08,  5.6578e-08],
+        ...,
+        [-3.3760e-08, -2.0955e-09,  0.0000e+00,  ...,  2.6310e-08,
+         -6.3796e-08, -1.1153e-07],
+        [ 5.5879e-09,  4.6566e-10,  0.0000e+00,  ...,  3.0268e-09,
+          6.0536e-09,  1.2806e-08],
+        [ 3.7253e-08,  4.4238e-09,  0.0000e+00,  ..., -6.5193e-09,
+          6.9849e-09, -4.6100e-08]], device='cuda:0')
+Epoch 255, bias, value: tensor([ 0.0246, -0.0326,  0.0194, -0.0238,  0.0374,  0.0167,  0.0078, -0.0119,
+        -0.0189, -0.0100], device='cuda:0'), grad: tensor([ 4.5868e-08, -8.6147e-08,  2.8173e-07,  7.4273e-08, -5.4250e-08,
+         1.3993e-07, -1.3993e-07, -2.5495e-07, -2.3283e-09,  1.7695e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 254, time 220.62, cls_loss 0.0007 cls_loss_mapping 0.0023 cls_loss_causal 0.4719 re_mapping 0.0039 re_causal 0.0112 /// teacc 99.12 lr 0.00010000
+Epoch 256, weight, value: tensor([[-0.2382,  0.2058, -0.0361,  ..., -0.1063,  0.0220,  0.0124],
+        [ 0.0083, -0.1283, -0.0483,  ...,  0.0322, -0.0436, -0.0680],
+        [-0.1579, -0.2618,  0.0555,  ..., -0.0836, -0.0357, -0.1580],
+        ...,
+        [ 0.0752,  0.1410, -0.0907,  ..., -0.1415,  0.0700,  0.0769],
+        [ 0.0413, -0.1507, -0.0347,  ..., -0.1104, -0.1171, -0.0966],
+        [-0.1941, -0.0501, -0.0562,  ...,  0.1052, -0.2565,  0.0984]],
+       device='cuda:0'), grad: tensor([[ 3.8184e-08,  0.0000e+00,  2.3283e-10,  ...,  3.8673e-07,
+          1.1642e-09,  1.1642e-09],
+        [ 3.9581e-09,  6.9849e-10,  4.6566e-10,  ...,  7.4506e-09,
+         -3.3993e-08, -2.0415e-06],
+        [ 1.9558e-08,  2.0955e-09, -1.6298e-09,  ...,  2.1188e-08,
+          2.5611e-09,  1.8161e-08],
+        ...,
+        [ 3.0268e-09, -5.8208e-09,  2.3283e-10,  ...,  1.2340e-08,
+          3.0268e-08,  1.8077e-06],
+        [-6.6217e-07,  0.0000e+00,  2.3283e-10,  ...,  1.6298e-09,
+          2.3283e-10, -3.9581e-09],
+        [ 1.5716e-07,  2.3283e-09,  0.0000e+00,  ...,  1.1101e-06,
+          4.6566e-09,  4.6566e-09]], device='cuda:0')
+Epoch 256, bias, value: tensor([ 0.0245, -0.0344,  0.0194, -0.0239,  0.0384,  0.0168,  0.0082, -0.0104,
+        -0.0189, -0.0110], device='cuda:0'), grad: tensor([ 1.8720e-06, -5.1856e-06,  3.4226e-07,  6.6962e-07, -3.9898e-06,
+         1.1750e-05,  1.0841e-06,  4.9062e-06, -1.6943e-05,  5.4613e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 255, time 220.66, cls_loss 0.0007 cls_loss_mapping 0.0024 cls_loss_causal 0.5158 re_mapping 0.0038 re_causal 0.0118 /// teacc 99.07 lr 0.00010000
+Epoch 257, weight, value: tensor([[-0.2406,  0.2059, -0.0360,  ..., -0.1065,  0.0220,  0.0120],
+        [ 0.0090, -0.1291, -0.0483,  ...,  0.0348, -0.0419, -0.0678],
+        [-0.1622, -0.2649,  0.0554,  ..., -0.0837, -0.0388, -0.1592],
+        ...,
+        [ 0.0754,  0.1420, -0.0907,  ..., -0.1433,  0.0707,  0.0772],
+        [ 0.0411, -0.1515, -0.0352,  ..., -0.1113, -0.1173, -0.0967],
+        [-0.1951, -0.0502, -0.0537,  ...,  0.1050, -0.2589,  0.0981]],
+       device='cuda:0'), grad: tensor([[ 3.0268e-09, -2.3283e-09,  4.6566e-10,  ...,  4.7032e-08,
+          2.3283e-10,  4.2841e-08],
+        [ 4.8429e-08,  2.9337e-08,  1.6298e-09,  ...,  1.4971e-07,
+          1.3737e-08,  2.2282e-07],
+        [ 2.6776e-08,  1.8626e-09,  2.3283e-09,  ...,  1.3737e-08,
+          1.1642e-09,  2.7474e-08],
+        ...,
+        [-1.8626e-07, -8.7311e-08, -4.8894e-09,  ...,  8.3586e-08,
+         -4.1444e-08, -2.1327e-07],
+        [ 5.3551e-08,  9.3132e-10,  3.4925e-09,  ...,  5.7742e-08,
+          2.3283e-10,  9.4064e-08],
+        [ 9.5926e-08,  4.9826e-08,  2.5844e-08,  ..., -3.3528e-07,
+          2.3283e-08, -3.3295e-07]], device='cuda:0')
+Epoch 257, bias, value: tensor([ 0.0242, -0.0332,  0.0191, -0.0239,  0.0383,  0.0171,  0.0074, -0.0106,
+        -0.0193, -0.0116], device='cuda:0'), grad: tensor([ 1.9348e-07,  1.1781e-06,  3.4738e-07,  1.1479e-07,  9.3132e-10,
+         1.3644e-07, -5.5879e-09, -2.0824e-06,  9.0804e-07, -7.9768e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 256, time 220.57, cls_loss 0.0010 cls_loss_mapping 0.0021 cls_loss_causal 0.4828 re_mapping 0.0039 re_causal 0.0112 /// teacc 99.16 lr 0.00010000
+Epoch 258, weight, value: tensor([[-0.2429,  0.2061, -0.0360,  ..., -0.1066,  0.0218,  0.0120],
+        [ 0.0119, -0.1291, -0.0453,  ...,  0.0379, -0.0428, -0.0654],
+        [-0.1628, -0.2653,  0.0554,  ..., -0.0838, -0.0385, -0.1659],
+        ...,
+        [ 0.0725,  0.1423, -0.0937,  ..., -0.1467,  0.0712,  0.0757],
+        [ 0.0406, -0.1517, -0.0358,  ..., -0.1124, -0.1177, -0.0971],
+        [-0.1955, -0.0504, -0.0541,  ...,  0.1050, -0.2599,  0.0980]],
+       device='cuda:0'), grad: tensor([[ 3.2596e-09, -9.3132e-10,  0.0000e+00,  ...,  3.3528e-08,
+          6.5193e-09,  1.3039e-08],
+        [-3.7253e-08,  1.0524e-07, -1.3970e-09,  ..., -1.2573e-08,
+          3.0734e-08,  8.9407e-08],
+        [ 5.5879e-09,  1.4435e-08,  0.0000e+00,  ...,  4.1910e-09,
+          4.6566e-09,  1.3504e-08],
+        ...,
+        [-1.3504e-08, -2.8778e-07,  0.0000e+00,  ...,  3.3993e-08,
+         -8.6613e-08, -2.0908e-07],
+        [-2.1420e-08,  5.5879e-09,  0.0000e+00,  ...,  1.9139e-07,
+          1.3970e-09,  1.5460e-07],
+        [ 2.7474e-08,  1.3970e-07,  0.0000e+00,  ..., -2.9383e-07,
+          3.5856e-08, -1.3551e-07]], device='cuda:0')
+Epoch 258, bias, value: tensor([ 0.0242, -0.0303,  0.0178, -0.0239,  0.0383,  0.0173,  0.0074, -0.0132,
+        -0.0200, -0.0117], device='cuda:0'), grad: tensor([ 1.6717e-07,  4.9174e-07, -4.3539e-07,  8.1025e-08,  2.4494e-07,
+         2.4587e-07, -3.1153e-07, -4.8289e-07,  3.6322e-07, -3.6880e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 257, time 220.87, cls_loss 0.0007 cls_loss_mapping 0.0024 cls_loss_causal 0.4996 re_mapping 0.0039 re_causal 0.0115 /// teacc 99.17 lr 0.00010000
+Epoch 259, weight, value: tensor([[-0.2446,  0.2063, -0.0361,  ..., -0.1070,  0.0219,  0.0120],
+        [ 0.0119, -0.1293, -0.0458,  ...,  0.0378, -0.0429, -0.0653],
+        [-0.1624, -0.2671,  0.0583,  ..., -0.0813, -0.0396, -0.1664],
+        ...,
+        [ 0.0724,  0.1426, -0.0938,  ..., -0.1467,  0.0719,  0.0757],
+        [ 0.0404, -0.1524, -0.0358,  ..., -0.1129, -0.1178, -0.0972],
+        [-0.1959, -0.0508, -0.0542,  ...,  0.1052, -0.2605,  0.0982]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -9.3132e-09,  0.0000e+00,  ...,  5.1223e-09,
+          9.3132e-10,  2.7940e-09],
+        [-9.7789e-09,  2.3283e-09,  0.0000e+00,  ...,  6.5193e-09,
+          2.3283e-09,  2.0023e-08],
+        [ 5.5879e-09,  1.8626e-09, -3.2596e-09,  ...,  6.9849e-09,
+          1.8626e-09,  9.3132e-10],
+        ...,
+        [ 1.3970e-09, -4.1910e-09,  9.3132e-10,  ...,  5.3085e-08,
+          1.8626e-09,  4.0047e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  1.3970e-09,
+          1.3970e-09,  2.7940e-09],
+        [ 1.3970e-09,  3.7253e-09,  0.0000e+00,  ..., -2.9802e-07,
+          2.7940e-09, -2.3935e-07]], device='cuda:0')
+Epoch 259, bias, value: tensor([ 0.0241, -0.0308,  0.0200, -0.0239,  0.0383,  0.0173,  0.0078, -0.0132,
+        -0.0203, -0.0117], device='cuda:0'), grad: tensor([ 1.2107e-08,  3.1665e-08, -9.9186e-08, -1.8021e-07,  5.9605e-07,
+         1.2806e-07,  2.4680e-08,  2.2538e-07,  2.8871e-08, -7.5670e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 258----------------------------------------------------
+epoch 258, time 221.17, cls_loss 0.0006 cls_loss_mapping 0.0019 cls_loss_causal 0.4954 re_mapping 0.0036 re_causal 0.0111 /// teacc 99.22 lr 0.00010000
+Epoch 260, weight, value: tensor([[-0.2454,  0.2068, -0.0361,  ..., -0.1069,  0.0218,  0.0123],
+        [ 0.0119, -0.1294, -0.0458,  ...,  0.0378, -0.0431, -0.0653],
+        [-0.1632, -0.2680,  0.0583,  ..., -0.0815, -0.0399, -0.1666],
+        ...,
+        [ 0.0724,  0.1428, -0.0938,  ..., -0.1467,  0.0721,  0.0757],
+        [ 0.0403, -0.1528, -0.0358,  ..., -0.1127, -0.1178, -0.0973],
+        [-0.1960, -0.0512, -0.0542,  ...,  0.1053, -0.2608,  0.0985]],
+       device='cuda:0'), grad: tensor([[ 3.3528e-08, -1.0477e-07,  3.7253e-09,  ...,  2.2817e-08,
+         -6.0536e-09,  3.8650e-08],
+        [ 2.3982e-07, -5.7509e-07,  0.0000e+00,  ...,  2.1514e-07,
+          2.7940e-09,  2.8405e-08],
+        [ 2.0489e-08,  3.6461e-07,  0.0000e+00,  ...,  1.8626e-08,
+          6.0536e-09,  1.3039e-07],
+        ...,
+        [ 7.4506e-08, -2.5891e-07, -1.7229e-08,  ...,  1.0896e-07,
+          1.3039e-08, -4.0745e-07],
+        [ 6.7987e-08,  3.3528e-08,  4.6566e-10,  ...,  1.0710e-08,
+          6.5193e-09,  1.5367e-08],
+        [ 4.2282e-07,  3.9302e-07,  9.7789e-09,  ...,  7.7067e-07,
+          7.9162e-09,  1.5646e-07]], device='cuda:0')
+Epoch 260, bias, value: tensor([ 0.0243, -0.0308,  0.0200, -0.0239,  0.0382,  0.0173,  0.0076, -0.0132,
+        -0.0203, -0.0117], device='cuda:0'), grad: tensor([ 1.0384e-07, -9.7789e-07,  1.0524e-06,  4.8280e-06, -2.2929e-06,
+        -6.5006e-06,  3.7346e-07,  3.4738e-07,  3.9069e-07,  2.6859e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 259, time 220.58, cls_loss 0.0006 cls_loss_mapping 0.0023 cls_loss_causal 0.5173 re_mapping 0.0038 re_causal 0.0118 /// teacc 99.20 lr 0.00010000
+Epoch 261, weight, value: tensor([[-0.2463,  0.2072, -0.0361,  ..., -0.1069,  0.0211,  0.0123],
+        [ 0.0119, -0.1297, -0.0458,  ...,  0.0377, -0.0435, -0.0654],
+        [-0.1635, -0.2690,  0.0583,  ..., -0.0817, -0.0403, -0.1668],
+        ...,
+        [ 0.0726,  0.1433, -0.0938,  ..., -0.1467,  0.0724,  0.0760],
+        [ 0.0402, -0.1533, -0.0359,  ..., -0.1129, -0.1179, -0.0974],
+        [-0.1964, -0.0515, -0.0542,  ...,  0.1054, -0.2610,  0.0990]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10, -9.4995e-08,  0.0000e+00,  ..., -7.4506e-09,
+          0.0000e+00, -4.1910e-08],
+        [-6.0536e-09,  9.7789e-09,  0.0000e+00,  ..., -2.7940e-08,
+          1.8161e-08,  5.7742e-08],
+        [ 2.3283e-09,  9.3132e-10,  0.0000e+00,  ...,  4.1910e-09,
+          1.3970e-09,  2.7940e-09],
+        ...,
+        [-2.5146e-08, -1.8626e-08,  4.6566e-10,  ...,  9.3132e-09,
+         -3.5856e-08, -1.1222e-07],
+        [-9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+          4.6566e-10, -1.1642e-08],
+        [ 5.0291e-08,  7.9162e-08,  9.3132e-10,  ...,  2.4168e-07,
+          1.9558e-08,  9.6392e-08]], device='cuda:0')
+Epoch 261, bias, value: tensor([ 0.0244, -0.0308,  0.0200, -0.0239,  0.0377,  0.0174,  0.0073, -0.0131,
+        -0.0204, -0.0116], device='cuda:0'), grad: tensor([-1.5879e-07,  1.1036e-07,  0.0000e+00,  1.7229e-08, -3.4925e-07,
+         2.7940e-08,  4.3772e-08, -2.9989e-07, -1.8626e-07,  8.1072e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 260, time 220.74, cls_loss 0.0006 cls_loss_mapping 0.0019 cls_loss_causal 0.4822 re_mapping 0.0038 re_causal 0.0111 /// teacc 99.14 lr 0.00010000
+Epoch 262, weight, value: tensor([[-0.2472,  0.2077, -0.0363,  ..., -0.1070,  0.0208,  0.0124],
+        [ 0.0119, -0.1300, -0.0458,  ...,  0.0377, -0.0437, -0.0655],
+        [-0.1637, -0.2701,  0.0585,  ..., -0.0819, -0.0403, -0.1669],
+        ...,
+        [ 0.0726,  0.1435, -0.0938,  ..., -0.1467,  0.0725,  0.0761],
+        [ 0.0402, -0.1538, -0.0368,  ..., -0.1132, -0.1180, -0.0975],
+        [-0.1966, -0.0518, -0.0543,  ...,  0.1054, -0.2611,  0.0991]],
+       device='cuda:0'), grad: tensor([[ 1.3504e-08,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          2.7940e-09,  1.4901e-08],
+        [ 1.6671e-07,  9.5926e-08,  1.4435e-08,  ...,  6.0536e-09,
+          2.8871e-08,  1.7509e-07],
+        [ 2.7008e-08,  8.8476e-09, -4.6566e-10,  ...,  4.6566e-10,
+          4.1910e-09,  3.3528e-08],
+        ...,
+        [-7.9069e-07, -5.4389e-07,  2.3283e-09,  ...,  8.3819e-09,
+         -1.4156e-07, -1.1502e-06],
+        [ 4.9826e-08,  7.1246e-08, -1.9558e-08,  ...,  1.8626e-09,
+          1.8626e-08,  1.6578e-07],
+        [ 5.5740e-07,  2.7753e-07,  0.0000e+00,  ...,  6.9384e-08,
+          1.2526e-07,  7.4459e-07]], device='cuda:0')
+Epoch 262, bias, value: tensor([ 0.0245, -0.0308,  0.0201, -0.0239,  0.0378,  0.0175,  0.0072, -0.0130,
+        -0.0206, -0.0117], device='cuda:0'), grad: tensor([ 5.2620e-08,  8.2469e-07, -2.7008e-07,  1.9409e-06,  3.3947e-07,
+        -2.6003e-06,  2.4680e-07, -2.7902e-06,  1.0105e-07,  2.1495e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 261, time 220.51, cls_loss 0.0007 cls_loss_mapping 0.0023 cls_loss_causal 0.5206 re_mapping 0.0039 re_causal 0.0115 /// teacc 99.16 lr 0.00010000
+Epoch 263, weight, value: tensor([[-0.2488,  0.2080, -0.0363,  ..., -0.1071,  0.0209,  0.0123],
+        [ 0.0119, -0.1303, -0.0459,  ...,  0.0377, -0.0438, -0.0656],
+        [-0.1652, -0.2716,  0.0592,  ..., -0.0806, -0.0406, -0.1672],
+        ...,
+        [ 0.0726,  0.1439, -0.0938,  ..., -0.1468,  0.0728,  0.0762],
+        [ 0.0393, -0.1553, -0.0368,  ..., -0.1148, -0.1181, -0.0977],
+        [-0.1970, -0.0519, -0.0542,  ...,  0.1053, -0.2617,  0.0992]],
+       device='cuda:0'), grad: tensor([[ 8.3819e-09, -4.6566e-09,  0.0000e+00,  ...,  2.7940e-09,
+          2.3283e-09,  9.3132e-09],
+        [ 7.9162e-08,  1.1874e-07,  0.0000e+00,  ..., -1.3504e-08,
+          4.0978e-08,  1.8673e-07],
+        [ 7.8604e-07,  1.7919e-06,  0.0000e+00,  ...,  6.9849e-09,
+          3.0268e-08,  1.7583e-06],
+        ...,
+        [-1.0123e-06, -2.1067e-06,  0.0000e+00,  ...,  4.6566e-09,
+         -8.4285e-08, -2.1681e-06],
+        [ 3.3062e-08,  4.2841e-08,  0.0000e+00,  ..., -2.3283e-09,
+          1.2573e-08,  6.3330e-08],
+        [ 6.0070e-08,  5.6345e-08,  0.0000e+00,  ..., -2.3283e-08,
+          3.0734e-08,  9.7323e-08]], device='cuda:0')
+Epoch 263, bias, value: tensor([ 0.0246, -0.0310,  0.0209, -0.0237,  0.0380,  0.0173,  0.0066, -0.0130,
+        -0.0212, -0.0119], device='cuda:0'), grad: tensor([ 6.9849e-08,  9.9093e-07,  1.1370e-05,  1.9325e-07,  1.4203e-07,
+        -2.7902e-06,  2.9318e-06, -1.3851e-05,  3.3481e-07,  5.9092e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 262, time 220.60, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.4900 re_mapping 0.0038 re_causal 0.0113 /// teacc 99.12 lr 0.00010000
+Epoch 264, weight, value: tensor([[-0.2528,  0.2081, -0.0363,  ..., -0.1073,  0.0203,  0.0122],
+        [ 0.0119, -0.1307, -0.0459,  ...,  0.0377, -0.0442, -0.0656],
+        [-0.1663, -0.2727,  0.0592,  ..., -0.0808, -0.0408, -0.1674],
+        ...,
+        [ 0.0726,  0.1449, -0.0938,  ..., -0.1468,  0.0734,  0.0764],
+        [ 0.0393, -0.1563, -0.0368,  ..., -0.1145, -0.1182, -0.0978],
+        [-0.1972, -0.0523, -0.0542,  ...,  0.1073, -0.2626,  0.1011]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-08,  5.1223e-09,  0.0000e+00,  ...,  1.3504e-08,
+          5.1223e-09,  4.6566e-09],
+        [-8.8476e-09,  9.3132e-10,  0.0000e+00,  ..., -3.5390e-08,
+          1.8626e-09,  3.2596e-09],
+        [ 4.6566e-09,  0.0000e+00,  0.0000e+00,  ...,  1.6298e-08,
+         -1.8626e-09,  9.3132e-10],
+        ...,
+        [ 3.7253e-09, -4.6566e-10,  0.0000e+00,  ...,  1.3504e-08,
+          2.3283e-09, -1.3970e-09],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-09,  9.3132e-10,  0.0000e+00,  ..., -4.6566e-09,
+          1.8626e-09, -1.3970e-09]], device='cuda:0')
+Epoch 264, bias, value: tensor([ 0.0244, -0.0310,  0.0213, -0.0236,  0.0363,  0.0172,  0.0064, -0.0130,
+        -0.0209, -0.0104], device='cuda:0'), grad: tensor([ 1.2200e-07, -5.2620e-08, -5.1223e-07,  5.6345e-08,  1.7229e-08,
+        -1.8720e-07,  1.6298e-08,  5.2294e-07,  1.1176e-08,  2.1886e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 263, time 221.39, cls_loss 0.0006 cls_loss_mapping 0.0017 cls_loss_causal 0.4908 re_mapping 0.0039 re_causal 0.0110 /// teacc 99.13 lr 0.00010000
+Epoch 265, weight, value: tensor([[-0.2535,  0.2083, -0.0364,  ..., -0.1077,  0.0202,  0.0124],
+        [ 0.0119, -0.1309, -0.0459,  ...,  0.0377, -0.0444, -0.0657],
+        [-0.1670, -0.2731,  0.0592,  ..., -0.0809, -0.0410, -0.1676],
+        ...,
+        [ 0.0727,  0.1453, -0.0937,  ..., -0.1468,  0.0738,  0.0767],
+        [ 0.0393, -0.1586, -0.0370,  ..., -0.1146, -0.1182, -0.0980],
+        [-0.1973, -0.0527, -0.0544,  ...,  0.1073, -0.2636,  0.1010]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -6.6822e-07, -7.4506e-08,  ...,  1.8626e-09,
+          2.0955e-08, -2.2119e-07],
+        [-1.8626e-09,  5.5879e-09,  9.3132e-10,  ..., -4.1910e-09,
+          3.7253e-09,  2.2352e-08],
+        [ 2.3283e-09,  1.3970e-09, -3.7253e-09,  ...,  3.7253e-09,
+          1.8626e-09,  5.5879e-09],
+        ...,
+        [ 0.0000e+00,  9.3132e-10,  4.6566e-10,  ...,  7.4506e-09,
+          2.3283e-09, -8.4750e-08],
+        [ 4.6566e-10,  2.1420e-08,  3.7253e-09,  ...,  4.6566e-10,
+          3.3528e-08,  3.0268e-08],
+        [ 6.9849e-09,  8.1491e-08,  4.6566e-09,  ...,  1.1176e-08,
+          9.7789e-09,  1.0198e-07]], device='cuda:0')
+Epoch 265, bias, value: tensor([ 0.0243, -0.0310,  0.0212, -0.0236,  0.0362,  0.0172,  0.0063, -0.0129,
+        -0.0210, -0.0105], device='cuda:0'), grad: tensor([-1.2154e-06,  1.9511e-07, -4.4098e-07,  1.0729e-06, -4.6566e-10,
+        -1.1045e-06,  6.0257e-07,  3.2224e-07,  1.8999e-07,  3.7532e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 264, time 220.60, cls_loss 0.0007 cls_loss_mapping 0.0019 cls_loss_causal 0.4762 re_mapping 0.0038 re_causal 0.0107 /// teacc 99.16 lr 0.00010000
+Epoch 266, weight, value: tensor([[-0.2542,  0.2085, -0.0366,  ..., -0.1079,  0.0203,  0.0125],
+        [ 0.0119, -0.1312, -0.0458,  ...,  0.0378, -0.0445, -0.0659],
+        [-0.1684, -0.2743,  0.0590,  ..., -0.0812, -0.0415, -0.1689],
+        ...,
+        [ 0.0728,  0.1457, -0.0936,  ..., -0.1468,  0.0742,  0.0774],
+        [ 0.0394, -0.1590, -0.0372,  ..., -0.1145, -0.1182, -0.0980],
+        [-0.1978, -0.0529, -0.0551,  ...,  0.1072, -0.2643,  0.1007]],
+       device='cuda:0'), grad: tensor([[ 8.8476e-09, -2.0955e-08,  0.0000e+00,  ...,  5.0757e-08,
+          1.1176e-08,  3.6787e-08],
+        [ 2.3283e-09,  3.2596e-09,  0.0000e+00,  ...,  0.0000e+00,
+          2.8871e-08,  8.1491e-08],
+        [ 1.8161e-08,  2.7940e-09,  0.0000e+00,  ...,  6.5193e-09,
+          2.3982e-07,  2.7986e-07],
+        ...,
+        [-2.1420e-08, -1.8626e-09,  0.0000e+00,  ...,  1.3970e-08,
+          1.2619e-07,  1.0757e-07],
+        [ 1.2433e-07,  1.8626e-09,  0.0000e+00,  ...,  3.2596e-09,
+          2.3283e-08,  2.7940e-08],
+        [ 7.9162e-09,  5.5879e-09,  0.0000e+00,  ..., -1.9651e-07,
+          1.1642e-08, -1.1316e-07]], device='cuda:0')
+Epoch 266, bias, value: tensor([ 0.0243, -0.0310,  0.0208, -0.0241,  0.0358,  0.0178,  0.0060, -0.0126,
+        -0.0205, -0.0109], device='cuda:0'), grad: tensor([ 1.6857e-07,  2.3562e-07,  6.8359e-07, -1.7276e-07,  9.5926e-08,
+        -2.7679e-06,  4.6520e-07,  3.4366e-07,  9.9652e-07, -5.5879e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 265, time 220.63, cls_loss 0.0007 cls_loss_mapping 0.0020 cls_loss_causal 0.4817 re_mapping 0.0037 re_causal 0.0108 /// teacc 99.12 lr 0.00010000
+Epoch 267, weight, value: tensor([[-0.2549,  0.2102, -0.0355,  ..., -0.1080,  0.0203,  0.0149],
+        [ 0.0119, -0.1314, -0.0458,  ...,  0.0378, -0.0447, -0.0660],
+        [-0.1705, -0.2784,  0.0589,  ..., -0.0818, -0.0421, -0.1714],
+        ...,
+        [ 0.0729,  0.1461, -0.0935,  ..., -0.1468,  0.0748,  0.0779],
+        [ 0.0394, -0.1603, -0.0373,  ..., -0.1142, -0.1186, -0.0983],
+        [-0.1988, -0.0533, -0.0553,  ...,  0.1068, -0.2652,  0.1001]],
+       device='cuda:0'), grad: tensor([[ 1.4901e-08, -5.2154e-07,  0.0000e+00,  ...,  3.9581e-08,
+          0.0000e+00, -1.4808e-07],
+        [-1.3923e-07,  2.8405e-08,  0.0000e+00,  ..., -1.8766e-07,
+          9.3132e-10, -9.6392e-08],
+        [ 1.5367e-08,  2.2352e-08, -4.6566e-10,  ...,  2.3283e-08,
+          1.3970e-09,  1.2573e-08],
+        ...,
+        [ 5.0291e-08,  5.1223e-09,  0.0000e+00,  ...,  2.4214e-07,
+          1.3970e-09,  1.9930e-07],
+        [-1.0338e-07,  2.1420e-08,  0.0000e+00,  ..., -7.5158e-07,
+          0.0000e+00,  2.1886e-08],
+        [ 5.1223e-08,  1.0198e-07,  0.0000e+00,  ..., -5.0291e-08,
+          0.0000e+00, -9.3132e-08]], device='cuda:0')
+Epoch 267, bias, value: tensor([ 0.0259, -0.0309,  0.0198, -0.0243,  0.0363,  0.0180,  0.0055, -0.0125,
+        -0.0206, -0.0116], device='cuda:0'), grad: tensor([-8.2608e-07,  2.8033e-07, -6.5193e-07,  3.0035e-07,  1.6904e-07,
+         3.0966e-07,  2.0862e-06,  8.2096e-07, -2.5444e-06,  6.1002e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 266, time 220.64, cls_loss 0.0007 cls_loss_mapping 0.0012 cls_loss_causal 0.4725 re_mapping 0.0037 re_causal 0.0106 /// teacc 99.06 lr 0.00010000
+Epoch 268, weight, value: tensor([[-0.2565,  0.2106, -0.0354,  ..., -0.1086,  0.0205,  0.0151],
+        [ 0.0119, -0.1317, -0.0458,  ...,  0.0377, -0.0445, -0.0660],
+        [-0.1711, -0.2789,  0.0590,  ..., -0.0820, -0.0425, -0.1716],
+        ...,
+        [ 0.0729,  0.1462, -0.0935,  ..., -0.1469,  0.0744,  0.0778],
+        [ 0.0394, -0.1609, -0.0368,  ..., -0.1142, -0.1186, -0.0984],
+        [-0.1990, -0.0535, -0.0553,  ...,  0.1069, -0.2657,  0.1004]],
+       device='cuda:0'), grad: tensor([[ 7.9162e-09, -1.6764e-08,  0.0000e+00,  ...,  1.3970e-08,
+          4.1910e-09,  5.1223e-09],
+        [ 3.8417e-07,  1.5832e-08,  0.0000e+00,  ...,  9.7789e-09,
+          1.8952e-07,  4.4797e-07],
+        [ 4.9826e-08,  3.7253e-09,  0.0000e+00,  ...,  7.4506e-09,
+          2.1886e-08,  5.2154e-08],
+        ...,
+        [-5.5833e-07, -2.5146e-08,  0.0000e+00,  ...,  1.2107e-08,
+         -2.7893e-07, -6.5938e-07],
+        [-9.3132e-09,  2.3283e-09,  0.0000e+00,  ...,  8.8476e-09,
+          5.5879e-09,  1.2107e-08],
+        [ 7.2643e-08,  1.1176e-08,  0.0000e+00,  ...,  2.3283e-09,
+          3.2596e-08,  6.8452e-08]], device='cuda:0')
+Epoch 268, bias, value: tensor([ 0.0258, -0.0309,  0.0199, -0.0243,  0.0362,  0.0183,  0.0050, -0.0126,
+        -0.0203, -0.0116], device='cuda:0'), grad: tensor([ 7.0781e-08,  1.7136e-06,  1.8952e-07,  9.8720e-08,  2.4214e-08,
+         2.8387e-06, -2.8145e-06, -2.4289e-06,  0.0000e+00,  3.0687e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 267, time 220.58, cls_loss 0.0005 cls_loss_mapping 0.0014 cls_loss_causal 0.4723 re_mapping 0.0037 re_causal 0.0109 /// teacc 99.14 lr 0.00010000
+Epoch 269, weight, value: tensor([[-0.2573,  0.2108, -0.0355,  ..., -0.1088,  0.0205,  0.0151],
+        [ 0.0119, -0.1319, -0.0458,  ...,  0.0377, -0.0448, -0.0660],
+        [-0.1725, -0.2791,  0.0590,  ..., -0.0821, -0.0428, -0.1720],
+        ...,
+        [ 0.0729,  0.1465, -0.0935,  ..., -0.1469,  0.0745,  0.0779],
+        [ 0.0395, -0.1614, -0.0366,  ..., -0.1143, -0.1187, -0.0985],
+        [-0.1993, -0.0537, -0.0554,  ...,  0.1070, -0.2660,  0.1004]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10, -1.8626e-09,  0.0000e+00,  ...,  1.4901e-08,
+          0.0000e+00,  6.0536e-09],
+        [ 9.3132e-10,  1.4435e-08,  0.0000e+00,  ..., -6.9849e-09,
+          1.7229e-08,  3.1665e-08],
+        [ 4.1910e-09,  3.2596e-09,  0.0000e+00,  ...,  3.7253e-09,
+          2.7940e-09,  3.7253e-09],
+        ...,
+        [-7.4506e-09, -3.0734e-08,  0.0000e+00,  ...,  6.1467e-08,
+         -2.7940e-08, -1.1642e-08],
+        [-9.3132e-09,  4.6566e-10,  0.0000e+00,  ...,  9.3132e-09,
+          4.6566e-10,  7.4506e-09],
+        [ 4.6566e-09,  6.9849e-09,  0.0000e+00,  ..., -1.6112e-07,
+          6.5193e-09, -1.1176e-07]], device='cuda:0')
+Epoch 269, bias, value: tensor([ 0.0258, -0.0310,  0.0199, -0.0244,  0.0362,  0.0184,  0.0051, -0.0125,
+        -0.0202, -0.0116], device='cuda:0'), grad: tensor([ 4.5635e-08,  3.8184e-08,  3.3528e-08,  9.7323e-08,  1.9185e-07,
+        -2.3283e-08, -6.8452e-08,  6.1002e-08, -3.6787e-08, -3.2783e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 268, time 220.75, cls_loss 0.0006 cls_loss_mapping 0.0019 cls_loss_causal 0.4758 re_mapping 0.0040 re_causal 0.0111 /// teacc 99.04 lr 0.00010000
+Epoch 270, weight, value: tensor([[-0.2577,  0.2109, -0.0363,  ..., -0.1092,  0.0202,  0.0149],
+        [ 0.0120, -0.1322, -0.0458,  ...,  0.0378, -0.0451, -0.0662],
+        [-0.1729, -0.2792,  0.0589,  ..., -0.0822, -0.0431, -0.1721],
+        ...,
+        [ 0.0729,  0.1470, -0.0936,  ..., -0.1470,  0.0748,  0.0782],
+        [ 0.0396, -0.1616, -0.0375,  ..., -0.1139, -0.1184, -0.0985],
+        [-0.1996, -0.0540, -0.0555,  ...,  0.1071, -0.2666,  0.1009]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09, -2.3283e-09,  5.1223e-09,  ...,  9.3132e-09,
+          4.6566e-10,  3.2596e-09],
+        [ 2.7940e-08,  4.6566e-10,  9.9186e-08,  ...,  5.9605e-08,
+          2.7940e-09,  7.4506e-09],
+        [ 8.8476e-09,  4.6566e-10, -3.0873e-07,  ...,  8.3819e-09,
+          2.3283e-09,  1.1642e-08],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  2.0862e-07,  ...,  3.6322e-08,
+          8.3819e-09,  1.3970e-08],
+        [ 4.6566e-10,  0.0000e+00,  4.6566e-10,  ...,  2.7940e-09,
+          1.3970e-09,  3.2596e-09],
+        [ 8.6613e-08,  2.7940e-09,  0.0000e+00,  ...,  1.0198e-07,
+          1.3970e-09, -7.9162e-08]], device='cuda:0')
+Epoch 270, bias, value: tensor([ 0.0255, -0.0310,  0.0199, -0.0248,  0.0362,  0.0191,  0.0036, -0.0125,
+        -0.0199, -0.0114], device='cuda:0'), grad: tensor([ 3.6322e-08,  6.2212e-07, -1.3839e-06,  1.4110e-07, -6.1514e-07,
+        -1.7835e-07,  6.6590e-08,  1.0543e-06,  1.6764e-08,  2.4168e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 269, time 220.55, cls_loss 0.0006 cls_loss_mapping 0.0015 cls_loss_causal 0.4951 re_mapping 0.0039 re_causal 0.0111 /// teacc 99.17 lr 0.00010000
+Epoch 271, weight, value: tensor([[-0.2587,  0.2107, -0.0364,  ..., -0.1099,  0.0198,  0.0124],
+        [ 0.0120, -0.1326, -0.0458,  ...,  0.0378, -0.0454, -0.0664],
+        [-0.1732, -0.2792,  0.0594,  ..., -0.0823, -0.0431, -0.1728],
+        ...,
+        [ 0.0729,  0.1474, -0.0936,  ..., -0.1470,  0.0751,  0.0787],
+        [ 0.0396, -0.1626, -0.0375,  ..., -0.1139, -0.1179, -0.0986],
+        [-0.1999, -0.0533, -0.0549,  ...,  0.1072, -0.2669,  0.1018]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-09, -7.9162e-09,  0.0000e+00,  ...,  2.0955e-08,
+          4.6566e-10,  2.0489e-08],
+        [ 6.9849e-09,  8.3819e-09, -4.6566e-10,  ..., -6.0536e-09,
+          2.3283e-09,  3.5390e-08],
+        [ 3.7253e-09,  3.7253e-09,  0.0000e+00,  ...,  2.3283e-09,
+          9.3132e-10,  1.3970e-08],
+        ...,
+        [-9.5926e-08, -7.6368e-08,  0.0000e+00,  ...,  1.7695e-08,
+          3.7253e-09, -3.3341e-07],
+        [ 4.6566e-09,  4.1910e-09,  0.0000e+00,  ..., -2.3283e-08,
+          4.6566e-10,  1.6764e-08],
+        [ 6.3330e-08,  5.5879e-08,  0.0000e+00,  ...,  4.7032e-08,
+          1.8626e-09,  2.2352e-07]], device='cuda:0')
+Epoch 271, bias, value: tensor([ 0.0239, -0.0310,  0.0203, -0.0251,  0.0362,  0.0193,  0.0034, -0.0125,
+        -0.0192, -0.0111], device='cuda:0'), grad: tensor([ 1.1548e-07,  1.0245e-07, -2.0117e-06, -2.9337e-08, -1.6531e-07,
+         1.2154e-07,  2.2957e-07,  7.5484e-07, -1.3551e-07,  1.0375e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 270, time 220.34, cls_loss 0.0006 cls_loss_mapping 0.0019 cls_loss_causal 0.4638 re_mapping 0.0037 re_causal 0.0104 /// teacc 99.17 lr 0.00010000
+Epoch 272, weight, value: tensor([[-0.2592,  0.2108, -0.0373,  ..., -0.1103,  0.0198,  0.0120],
+        [ 0.0120, -0.1326, -0.0458,  ...,  0.0378, -0.0455, -0.0666],
+        [-0.1736, -0.2791,  0.0594,  ..., -0.0824, -0.0431, -0.1739],
+        ...,
+        [ 0.0729,  0.1474, -0.0936,  ..., -0.1471,  0.0749,  0.0789],
+        [ 0.0397, -0.1628, -0.0383,  ..., -0.1141, -0.1179, -0.0987],
+        [-0.2004, -0.0533, -0.0553,  ...,  0.1071, -0.2672,  0.1020]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-09, -3.2596e-09,  0.0000e+00,  ...,  3.7253e-09,
+          4.6566e-10, -4.6566e-10],
+        [ 5.1223e-09,  0.0000e+00,  0.0000e+00,  ..., -1.8626e-09,
+          4.6566e-10,  5.5879e-09],
+        [ 5.9139e-08,  4.6566e-10,  0.0000e+00,  ...,  1.8161e-08,
+          0.0000e+00,  5.4482e-08],
+        ...,
+        [ 9.2667e-08,  4.6566e-10,  0.0000e+00,  ...,  2.0396e-07,
+          1.3970e-09, -5.2620e-08],
+        [ 5.1223e-09,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          4.6566e-10,  1.3970e-09],
+        [ 1.0664e-07,  4.1910e-09,  0.0000e+00,  ...,  8.5216e-08,
+          1.3970e-09, -4.5635e-08]], device='cuda:0')
+Epoch 272, bias, value: tensor([ 0.0235, -0.0311,  0.0202, -0.0251,  0.0364,  0.0192,  0.0033, -0.0124,
+        -0.0185, -0.0112], device='cuda:0'), grad: tensor([ 6.4727e-08,  1.6764e-08, -1.0105e-07,  3.7253e-07, -1.0412e-06,
+        -4.7870e-07,  1.3039e-07,  4.2561e-07,  2.7800e-07,  3.3434e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 271, time 220.69, cls_loss 0.0007 cls_loss_mapping 0.0024 cls_loss_causal 0.5039 re_mapping 0.0039 re_causal 0.0109 /// teacc 99.22 lr 0.00010000
+Epoch 273, weight, value: tensor([[-0.2604,  0.2109, -0.0378,  ..., -0.1109,  0.0196,  0.0119],
+        [ 0.0120, -0.1327, -0.0458,  ...,  0.0378, -0.0456, -0.0667],
+        [-0.1746, -0.2792,  0.0592,  ..., -0.0828, -0.0433, -0.1741],
+        ...,
+        [ 0.0729,  0.1474, -0.0936,  ..., -0.1471,  0.0747,  0.0790],
+        [ 0.0396, -0.1630, -0.0385,  ..., -0.1151, -0.1181, -0.0989],
+        [-0.2010, -0.0534, -0.0553,  ...,  0.1070, -0.2674,  0.1023]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09, -2.5611e-08,  0.0000e+00,  ...,  1.5832e-08,
+         -4.6566e-10, -4.6566e-09],
+        [ 1.5832e-08,  4.1910e-09,  1.8626e-09,  ...,  5.4948e-08,
+          1.8626e-09,  2.2352e-08],
+        [ 1.3504e-08,  6.9849e-09,  6.5193e-09,  ...,  3.0734e-08,
+          2.7940e-09,  2.4214e-08],
+        ...,
+        [ 5.0291e-08, -6.5193e-09, -1.0710e-08,  ...,  2.8452e-07,
+         -9.3132e-10,  1.3970e-08],
+        [ 1.8626e-09,  4.6566e-10,  4.6566e-10,  ..., -1.4901e-08,
+          1.8626e-09,  6.9849e-09],
+        [ 1.2731e-06,  9.3132e-09,  4.6566e-10,  ...,  4.7758e-06,
+         -1.8626e-09,  6.1980e-07]], device='cuda:0')
+Epoch 273, bias, value: tensor([ 0.0230, -0.0310,  0.0202, -0.0256,  0.0367,  0.0200,  0.0027, -0.0125,
+        -0.0187, -0.0113], device='cuda:0'), grad: tensor([ 1.0384e-07,  1.9511e-07,  3.9954e-07,  2.9756e-07, -1.3769e-05,
+         7.7998e-07,  2.5425e-07,  6.0769e-07, -1.6727e-06,  1.2808e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 272----------------------------------------------------
+epoch 272, time 221.36, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4852 re_mapping 0.0036 re_causal 0.0105 /// teacc 99.23 lr 0.00010000
+Epoch 274, weight, value: tensor([[-0.2608,  0.2111, -0.0383,  ..., -0.1115,  0.0199,  0.0120],
+        [ 0.0119, -0.1333, -0.0457,  ...,  0.0378, -0.0458, -0.0672],
+        [-0.1764, -0.2793,  0.0589,  ..., -0.0833, -0.0436, -0.1745],
+        ...,
+        [ 0.0730,  0.1480, -0.0936,  ..., -0.1472,  0.0749,  0.0796],
+        [ 0.0396, -0.1634, -0.0386,  ..., -0.1155, -0.1182, -0.0991],
+        [-0.2013, -0.0537, -0.0554,  ...,  0.1071, -0.2680,  0.1021]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  9.3132e-10,  0.0000e+00,  ...,  4.1444e-08,
+          4.6566e-10,  3.3993e-08],
+        [-1.2107e-08, -3.2596e-09,  0.0000e+00,  ...,  2.8871e-08,
+         -9.7789e-09,  7.0781e-08],
+        [ 5.1223e-09,  4.6566e-10, -4.6566e-10,  ...,  1.5832e-08,
+          3.6322e-08,  3.6787e-08],
+        ...,
+        [ 9.3132e-09,  1.3970e-09,  0.0000e+00,  ...,  1.2293e-07,
+          8.8476e-09,  1.1129e-07],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  2.1886e-08,
+          8.9873e-08,  1.2899e-07],
+        [-5.8627e-07,  4.6566e-10,  0.0000e+00,  ..., -1.6928e-05,
+          3.2596e-09, -1.7211e-05]], device='cuda:0')
+Epoch 274, bias, value: tensor([ 0.0227, -0.0312,  0.0200, -0.0253,  0.0368,  0.0196,  0.0031, -0.0122,
+        -0.0186, -0.0115], device='cuda:0'), grad: tensor([ 1.9697e-07, -1.0161e-06,  7.0874e-07, -7.1619e-07,  6.0409e-05,
+         5.7975e-07,  3.2596e-09,  8.3167e-07,  7.0268e-07, -6.1750e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 273, time 220.83, cls_loss 0.0006 cls_loss_mapping 0.0013 cls_loss_causal 0.4712 re_mapping 0.0037 re_causal 0.0106 /// teacc 99.16 lr 0.00010000
+Epoch 275, weight, value: tensor([[-0.2612,  0.2112, -0.0383,  ..., -0.1118,  0.0199,  0.0118],
+        [ 0.0119, -0.1334, -0.0457,  ...,  0.0379, -0.0460, -0.0676],
+        [-0.1770, -0.2795,  0.0590,  ..., -0.0835, -0.0438, -0.1748],
+        ...,
+        [ 0.0731,  0.1483, -0.0936,  ..., -0.1473,  0.0753,  0.0804],
+        [ 0.0388, -0.1637, -0.0389,  ..., -0.1166, -0.1183, -0.0995],
+        [-0.2019, -0.0538, -0.0555,  ...,  0.1070, -0.2686,  0.1018]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09, -4.6566e-09,  0.0000e+00,  ...,  4.1910e-09,
+         -4.6566e-10,  0.0000e+00],
+        [-1.7835e-07,  1.8626e-09,  0.0000e+00,  ..., -2.7334e-07,
+          4.1910e-09, -5.1688e-08],
+        [ 1.4435e-08,  9.3132e-10,  0.0000e+00,  ...,  3.0268e-08,
+          2.0955e-08,  5.5414e-08],
+        ...,
+        [ 6.9384e-08, -1.8626e-09,  0.0000e+00,  ...,  1.2107e-07,
+         -1.0245e-08, -2.9337e-08],
+        [ 5.5879e-09,  4.6566e-10,  0.0000e+00,  ...,  1.0245e-08,
+          4.6566e-10,  3.7253e-09],
+        [ 6.4261e-08,  2.3283e-09,  0.0000e+00,  ...,  6.0070e-08,
+          5.5879e-09,  4.5169e-08]], device='cuda:0')
+Epoch 275, bias, value: tensor([ 0.0225, -0.0312,  0.0200, -0.0256,  0.0369,  0.0200,  0.0030, -0.0121,
+        -0.0191, -0.0118], device='cuda:0'), grad: tensor([ 2.6543e-08, -1.0561e-06, -7.1013e-07, -1.5367e-08,  8.8010e-08,
+         3.9116e-08,  4.0513e-08,  1.1232e-06,  1.2573e-07,  3.4366e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 274, time 220.66, cls_loss 0.0007 cls_loss_mapping 0.0020 cls_loss_causal 0.4857 re_mapping 0.0036 re_causal 0.0103 /// teacc 99.00 lr 0.00010000
+Epoch 276, weight, value: tensor([[-0.2617,  0.2116, -0.0385,  ..., -0.1118,  0.0191,  0.0121],
+        [ 0.0120, -0.1336, -0.0457,  ...,  0.0379, -0.0463, -0.0675],
+        [-0.1775, -0.2797,  0.0590,  ..., -0.0838, -0.0446, -0.1750],
+        ...,
+        [ 0.0730,  0.1486, -0.0936,  ..., -0.1473,  0.0755,  0.0804],
+        [ 0.0387, -0.1643, -0.0395,  ..., -0.1175, -0.1185, -0.0998],
+        [-0.2024, -0.0546, -0.0556,  ...,  0.1069, -0.2691,  0.1018]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.9092e-08,  2.7940e-09,  ...,  5.5414e-08,
+          2.7940e-09,  2.5611e-08],
+        [-1.3970e-09,  4.6566e-10,  4.6566e-10,  ...,  2.6776e-07,
+          7.9162e-09,  6.2771e-07],
+        [ 0.0000e+00,  4.6566e-10, -6.5193e-09,  ...,  1.3504e-08,
+          5.1223e-09,  4.2375e-08],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  4.6566e-10,  ...,  6.6590e-08,
+         -9.3132e-10, -1.4110e-07],
+        [ 1.3970e-09,  9.3132e-10,  1.3970e-09,  ...,  6.5658e-08,
+          2.6077e-08, -9.3132e-10],
+        [ 9.3132e-10,  3.7253e-09,  4.6566e-10,  ..., -4.0000e-07,
+          2.3283e-08, -6.8033e-07]], device='cuda:0')
+Epoch 276, bias, value: tensor([ 0.0226, -0.0311,  0.0201, -0.0260,  0.0370,  0.0203,  0.0033, -0.0122,
+        -0.0191, -0.0121], device='cuda:0'), grad: tensor([ 2.4075e-07,  1.4696e-06,  4.3306e-08,  1.7062e-06,  2.2585e-07,
+        -1.7732e-06, -6.7987e-07, -2.3702e-07,  2.7660e-07, -1.2796e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 275, time 220.81, cls_loss 0.0007 cls_loss_mapping 0.0019 cls_loss_causal 0.4917 re_mapping 0.0037 re_causal 0.0111 /// teacc 99.22 lr 0.00010000
+Epoch 277, weight, value: tensor([[-0.2623,  0.2120, -0.0385,  ..., -0.1122,  0.0189,  0.0121],
+        [ 0.0120, -0.1339, -0.0458,  ...,  0.0378, -0.0466, -0.0677],
+        [-0.1780, -0.2799,  0.0590,  ..., -0.0841, -0.0451, -0.1754],
+        ...,
+        [ 0.0730,  0.1490, -0.0936,  ..., -0.1474,  0.0761,  0.0806],
+        [ 0.0386, -0.1648, -0.0433,  ..., -0.1190, -0.1187, -0.1002],
+        [-0.2025, -0.0550, -0.0557,  ...,  0.1073, -0.2698,  0.1026]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.1910e-09,  ...,  1.3039e-08,
+          0.0000e+00,  4.6566e-09],
+        [ 2.7940e-09,  2.7940e-09,  4.6566e-10,  ...,  2.7940e-09,
+          1.3970e-09,  7.4506e-09],
+        [ 1.8626e-09,  1.3970e-09,  4.6566e-10,  ...,  6.9849e-09,
+          9.3132e-10,  1.3970e-09],
+        ...,
+        [ 4.6566e-10, -5.1223e-09,  0.0000e+00,  ...,  2.7474e-08,
+         -9.3132e-10,  8.8476e-09],
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          0.0000e+00,  1.3970e-09],
+        [ 8.8476e-09,  1.8626e-09,  0.0000e+00,  ..., -3.2503e-07,
+          9.3132e-10, -1.8487e-07]], device='cuda:0')
+Epoch 277, bias, value: tensor([ 0.0223, -0.0312,  0.0199, -0.0269,  0.0368,  0.0198,  0.0068, -0.0121,
+        -0.0199, -0.0118], device='cuda:0'), grad: tensor([ 6.1467e-08, -3.2131e-08,  5.9605e-08, -1.4901e-08,  5.2899e-07,
+         1.6904e-07,  1.0291e-07,  8.4750e-08,  2.5146e-08, -9.7044e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 276, time 220.88, cls_loss 0.0006 cls_loss_mapping 0.0024 cls_loss_causal 0.5029 re_mapping 0.0037 re_causal 0.0112 /// teacc 99.17 lr 0.00010000
+Epoch 278, weight, value: tensor([[-0.2627,  0.2130, -0.0383,  ..., -0.1127,  0.0187,  0.0116],
+        [ 0.0120, -0.1344, -0.0458,  ...,  0.0380, -0.0470, -0.0677],
+        [-0.1788, -0.2801,  0.0591,  ..., -0.0843, -0.0456, -0.1758],
+        ...,
+        [ 0.0730,  0.1499, -0.0936,  ..., -0.1475,  0.0764,  0.0807],
+        [ 0.0374, -0.1655, -0.0434,  ..., -0.1223, -0.1189, -0.1005],
+        [-0.2027, -0.0569, -0.0558,  ...,  0.1074, -0.2704,  0.1029]],
+       device='cuda:0'), grad: tensor([[ 6.9849e-10, -8.7544e-08,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  2.3283e-10],
+        [ 1.1642e-09,  2.6310e-08,  0.0000e+00,  ..., -1.8626e-09,
+          1.0710e-08,  2.6077e-08],
+        [ 2.0955e-09,  1.3970e-08,  0.0000e+00,  ...,  9.3132e-10,
+          3.4925e-09,  1.4668e-08],
+        ...,
+        [-2.0955e-08, -1.2806e-08,  0.0000e+00,  ...,  1.3039e-08,
+         -3.7253e-08, -6.1700e-08],
+        [ 4.6566e-10,  4.4238e-09,  0.0000e+00,  ...,  1.3970e-09,
+          4.6566e-10,  1.1642e-09],
+        [ 1.3970e-09,  1.6065e-08,  0.0000e+00,  ..., -1.8859e-08,
+          1.8626e-09, -1.2107e-08]], device='cuda:0')
+Epoch 278, bias, value: tensor([ 0.0222, -0.0310,  0.0198, -0.0266,  0.0368,  0.0193,  0.0073, -0.0121,
+        -0.0216, -0.0119], device='cuda:0'), grad: tensor([-9.1968e-08,  1.7202e-06, -5.6773e-06,  1.3504e-08,  2.5183e-06,
+         2.4447e-08,  1.5441e-06, -1.1059e-07,  6.4727e-08,  0.0000e+00],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 277, time 220.45, cls_loss 0.0006 cls_loss_mapping 0.0022 cls_loss_causal 0.4973 re_mapping 0.0036 re_causal 0.0109 /// teacc 99.17 lr 0.00010000
+Epoch 279, weight, value: tensor([[-0.2633,  0.2134, -0.0383,  ..., -0.1129,  0.0186,  0.0116],
+        [ 0.0120, -0.1348, -0.0457,  ...,  0.0380, -0.0472, -0.0680],
+        [-0.1792, -0.2806,  0.0592,  ..., -0.0844, -0.0457, -0.1761],
+        ...,
+        [ 0.0731,  0.1511, -0.0937,  ..., -0.1475,  0.0767,  0.0814],
+        [ 0.0375, -0.1667, -0.0435,  ..., -0.1224, -0.1190, -0.1008],
+        [-0.2033, -0.0575, -0.0564,  ...,  0.1073, -0.2708,  0.1023]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  1.6298e-09,  6.9849e-10,  ...,  2.2585e-08,
+          6.9849e-10,  2.7940e-09],
+        [-1.7462e-08,  7.7300e-08,  1.3970e-09,  ..., -4.4471e-08,
+          2.3050e-08,  4.9826e-08],
+        [ 1.1874e-08,  1.4668e-08,  6.7521e-09,  ...,  1.6531e-08,
+          5.5879e-09,  1.5600e-08],
+        ...,
+        [-2.0955e-09, -1.3527e-07,  1.1176e-08,  ...,  2.1188e-08,
+         -3.9116e-08, -8.7079e-08],
+        [ 1.3970e-09,  4.6566e-10, -9.4296e-08,  ...,  3.2596e-09,
+          2.3283e-09,  1.3970e-09],
+        [ 3.4925e-09,  4.1211e-08,  4.4238e-09,  ..., -1.2573e-08,
+          1.1874e-08,  1.2107e-08]], device='cuda:0')
+Epoch 279, bias, value: tensor([ 0.0222, -0.0311,  0.0199, -0.0245,  0.0369,  0.0173,  0.0074, -0.0118,
+        -0.0215, -0.0127], device='cuda:0'), grad: tensor([ 1.1455e-07,  1.2130e-07, -1.1325e-06,  9.8906e-07,  5.7509e-08,
+        -6.3982e-07, -5.2154e-08,  6.2725e-07, -1.7718e-07,  1.1153e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 278, time 220.40, cls_loss 0.0005 cls_loss_mapping 0.0017 cls_loss_causal 0.4912 re_mapping 0.0036 re_causal 0.0106 /// teacc 99.13 lr 0.00010000
+Epoch 280, weight, value: tensor([[-0.2637,  0.2139, -0.0379,  ..., -0.1130,  0.0186,  0.0117],
+        [ 0.0120, -0.1349, -0.0457,  ...,  0.0381, -0.0473, -0.0682],
+        [-0.1795, -0.2807,  0.0593,  ..., -0.0844, -0.0459, -0.1777],
+        ...,
+        [ 0.0731,  0.1513, -0.0937,  ..., -0.1476,  0.0765,  0.0818],
+        [ 0.0376, -0.1674, -0.0435,  ..., -0.1227, -0.1192, -0.1010],
+        [-0.2034, -0.0577, -0.0565,  ...,  0.1073, -0.2710,  0.1023]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10, -3.0268e-09,  0.0000e+00,  ...,  6.0536e-09,
+          6.9849e-10,  1.0943e-08],
+        [ 6.9849e-10,  7.2177e-09,  0.0000e+00,  ..., -8.1491e-09,
+          5.1223e-09,  9.7789e-09],
+        [ 3.9581e-09,  8.6147e-09,  0.0000e+00,  ...,  4.6566e-09,
+          3.0291e-07,  3.6787e-07],
+        ...,
+        [ 9.5461e-09, -2.7474e-08,  2.3283e-10,  ...,  8.3121e-08,
+         -1.3737e-08,  1.1781e-07],
+        [ 1.3271e-08,  2.3283e-10,  0.0000e+00,  ...,  1.8626e-09,
+          9.3132e-10,  2.3283e-09],
+        [ 7.6834e-09,  2.3283e-09,  0.0000e+00,  ..., -9.4296e-08,
+          9.3132e-10, -1.7532e-07]], device='cuda:0')
+Epoch 280, bias, value: tensor([ 0.0225, -0.0311,  0.0195, -0.0246,  0.0369,  0.0172,  0.0076, -0.0117,
+        -0.0216, -0.0128], device='cuda:0'), grad: tensor([ 1.8859e-08,  2.5844e-08,  2.0899e-06, -2.0824e-06, -2.4214e-08,
+         2.1420e-08,  5.4250e-08,  2.8871e-07, -4.6799e-08, -3.2829e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 279, time 220.32, cls_loss 0.0007 cls_loss_mapping 0.0024 cls_loss_causal 0.5112 re_mapping 0.0035 re_causal 0.0103 /// teacc 99.16 lr 0.00010000
+Epoch 281, weight, value: tensor([[-0.2646,  0.2142, -0.0382,  ..., -0.1134,  0.0180,  0.0115],
+        [ 0.0120, -0.1352, -0.0458,  ...,  0.0380, -0.0476, -0.0682],
+        [-0.1806, -0.2810,  0.0595,  ..., -0.0846, -0.0466, -0.1782],
+        ...,
+        [ 0.0731,  0.1520, -0.0937,  ..., -0.1477,  0.0767,  0.0819],
+        [ 0.0384, -0.1677, -0.0433,  ..., -0.1226, -0.1193, -0.1012],
+        [-0.2038, -0.0578, -0.0567,  ...,  0.1075, -0.2717,  0.1028]],
+       device='cuda:0'), grad: tensor([[ 1.6298e-09, -3.6997e-07,  0.0000e+00,  ...,  1.0477e-08,
+          0.0000e+00,  1.3970e-09],
+        [-8.6147e-08,  7.3574e-08,  6.9849e-10,  ..., -1.9209e-07,
+          4.6566e-10,  4.4238e-09],
+        [ 4.9593e-08,  3.3528e-08, -5.3551e-09,  ...,  9.5461e-08,
+          2.3283e-10,  2.3283e-09],
+        ...,
+        [ 1.6531e-08,  1.6764e-08,  4.6566e-09,  ...,  5.7509e-08,
+         -2.0955e-09, -1.7695e-08],
+        [ 2.0955e-09,  1.6484e-07,  0.0000e+00,  ...,  8.1491e-09,
+          0.0000e+00,  9.3132e-10],
+        [ 3.4226e-08,  2.0489e-08,  0.0000e+00,  ...,  1.1153e-07,
+          6.9849e-10,  1.2107e-08]], device='cuda:0')
+Epoch 281, bias, value: tensor([ 0.0224, -0.0311,  0.0193, -0.0246,  0.0369,  0.0172,  0.0074, -0.0117,
+        -0.0201, -0.0126], device='cuda:0'), grad: tensor([-6.6031e-07, -1.1222e-06,  6.7847e-07,  4.1444e-08, -2.1071e-07,
+         7.9861e-08,  6.5425e-08,  4.0513e-07,  3.6275e-07,  3.6135e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 280, time 220.60, cls_loss 0.0006 cls_loss_mapping 0.0015 cls_loss_causal 0.5230 re_mapping 0.0036 re_causal 0.0104 /// teacc 99.19 lr 0.00010000
+Epoch 282, weight, value: tensor([[-0.2653,  0.2158, -0.0384,  ..., -0.1139,  0.0177,  0.0116],
+        [ 0.0120, -0.1355, -0.0458,  ...,  0.0380, -0.0480, -0.0683],
+        [-0.1817, -0.2814,  0.0593,  ..., -0.0850, -0.0471, -0.1783],
+        ...,
+        [ 0.0731,  0.1522, -0.0937,  ..., -0.1477,  0.0774,  0.0820],
+        [ 0.0386, -0.1685, -0.0431,  ..., -0.1223, -0.1196, -0.1013],
+        [-0.2040, -0.0585, -0.0570,  ...,  0.1076, -0.2725,  0.1030]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10, -6.1467e-08,  0.0000e+00,  ...,  2.0955e-09,
+          1.8626e-09, -1.3970e-09],
+        [ 6.9849e-10,  1.6298e-09,  0.0000e+00,  ...,  9.3132e-10,
+          6.7521e-09,  2.7940e-09],
+        [ 4.6566e-10,  2.7940e-09,  0.0000e+00,  ...,  2.3283e-10,
+          4.4238e-09,  1.8626e-09],
+        ...,
+        [ 4.1910e-09,  1.1642e-09,  0.0000e+00,  ...,  5.1223e-09,
+          3.2829e-08,  1.3039e-08],
+        [ 2.4680e-08,  1.3970e-09,  0.0000e+00,  ..., -2.3283e-10,
+          6.8266e-07,  2.6217e-07],
+        [ 1.1642e-08,  1.3970e-08,  0.0000e+00,  ..., -2.8638e-08,
+          4.1211e-08, -1.6065e-08]], device='cuda:0')
+Epoch 282, bias, value: tensor([ 0.0228, -0.0311,  0.0193, -0.0248,  0.0368,  0.0172,  0.0078, -0.0118,
+        -0.0196, -0.0127], device='cuda:0'), grad: tensor([-1.1176e-07,  5.7742e-08,  4.6799e-08,  3.4153e-05,  7.6601e-08,
+        -3.9011e-05,  6.9523e-07,  2.3888e-07,  3.5316e-06,  2.7567e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 281, time 220.17, cls_loss 0.0006 cls_loss_mapping 0.0019 cls_loss_causal 0.4793 re_mapping 0.0036 re_causal 0.0102 /// teacc 99.17 lr 0.00010000
+Epoch 283, weight, value: tensor([[-0.2666,  0.2164, -0.0384,  ..., -0.1140,  0.0174,  0.0117],
+        [ 0.0122, -0.1358, -0.0452,  ...,  0.0381, -0.0482, -0.0683],
+        [-0.1866, -0.2817,  0.0568,  ..., -0.0869, -0.0473, -0.1787],
+        ...,
+        [ 0.0731,  0.1528, -0.0938,  ..., -0.1478,  0.0776,  0.0821],
+        [ 0.0387, -0.1690, -0.0433,  ..., -0.1227, -0.1198, -0.1015],
+        [-0.2043, -0.0592, -0.0577,  ...,  0.1077, -0.2731,  0.1031]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  1.3970e-09,  0.0000e+00,  ...,  6.9849e-10,
+          8.3819e-09,  8.8476e-09],
+        [ 6.0536e-09,  2.4517e-07, -4.6566e-10,  ..., -3.0268e-09,
+          1.5204e-07,  3.7765e-07],
+        [ 3.7253e-09,  8.8476e-09,  0.0000e+00,  ...,  3.7253e-09,
+          4.1211e-08,  4.3306e-08],
+        ...,
+        [-4.6566e-10, -3.1246e-07,  0.0000e+00,  ...,  9.7789e-09,
+         -9.1968e-08, -3.8720e-07],
+        [ 4.6566e-10,  2.3283e-10,  0.0000e+00,  ...,  4.6566e-10,
+          4.8894e-09,  4.4238e-09],
+        [ 8.3819e-09,  5.4482e-08,  0.0000e+00,  ...,  3.4925e-09,
+          3.4925e-08,  7.6601e-08]], device='cuda:0')
+Epoch 283, bias, value: tensor([ 0.0229, -0.0308,  0.0179, -0.0250,  0.0368,  0.0169,  0.0091, -0.0118,
+        -0.0189, -0.0128], device='cuda:0'), grad: tensor([ 3.3528e-08,  1.1884e-06,  1.8603e-07, -5.3318e-07, -1.2689e-07,
+         1.8929e-07,  2.7241e-08, -1.0617e-06, -1.8207e-07,  3.0082e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 282, time 220.32, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4377 re_mapping 0.0035 re_causal 0.0099 /// teacc 99.13 lr 0.00010000
+Epoch 284, weight, value: tensor([[-0.2695,  0.2174, -0.0385,  ..., -0.1129,  0.0171,  0.0117],
+        [ 0.0123, -0.1370, -0.0450,  ...,  0.0384, -0.0487, -0.0684],
+        [-0.1870, -0.2820,  0.0569,  ..., -0.0872, -0.0474, -0.1788],
+        ...,
+        [ 0.0730,  0.1539, -0.0939,  ..., -0.1481,  0.0779,  0.0822],
+        [ 0.0388, -0.1706, -0.0435,  ..., -0.1230, -0.1199, -0.1016],
+        [-0.2049, -0.0596, -0.0583,  ...,  0.1074, -0.2735,  0.1033]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          2.3283e-10,  4.6566e-10],
+        [ 1.1642e-09,  2.0955e-09,  0.0000e+00,  ...,  6.9849e-10,
+          2.0955e-09,  2.7940e-09],
+        [ 9.3132e-10,  4.6566e-10,  0.0000e+00,  ...,  1.6298e-09,
+          6.9849e-10,  9.3132e-10],
+        ...,
+        [ 4.6566e-10, -3.2596e-09,  0.0000e+00,  ...,  2.3283e-09,
+          3.7253e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          6.9849e-10,  4.6566e-10],
+        [ 5.8208e-09,  9.3132e-10,  0.0000e+00,  ..., -9.7789e-09,
+          3.0268e-09, -4.4238e-09]], device='cuda:0')
+Epoch 284, bias, value: tensor([ 0.0238, -0.0306,  0.0181, -0.0251,  0.0372,  0.0169,  0.0090, -0.0120,
+        -0.0187, -0.0133], device='cuda:0'), grad: tensor([ 3.2596e-08,  2.1188e-08, -1.1176e-08,  7.8930e-08,  1.4435e-08,
+        -2.8638e-07,  1.3271e-08,  2.8405e-08, -5.5879e-09,  1.2433e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 283, time 220.54, cls_loss 0.0004 cls_loss_mapping 0.0013 cls_loss_causal 0.4711 re_mapping 0.0034 re_causal 0.0104 /// teacc 99.21 lr 0.00010000
+Epoch 285, weight, value: tensor([[-0.2699,  0.2179, -0.0382,  ..., -0.1130,  0.0170,  0.0118],
+        [ 0.0123, -0.1373, -0.0450,  ...,  0.0384, -0.0489, -0.0685],
+        [-0.1871, -0.2822,  0.0574,  ..., -0.0872, -0.0470, -0.1789],
+        ...,
+        [ 0.0730,  0.1541, -0.0940,  ..., -0.1482,  0.0779,  0.0823],
+        [ 0.0388, -0.1721, -0.0435,  ..., -0.1230, -0.1200, -0.1017],
+        [-0.2051, -0.0599, -0.0584,  ...,  0.1074, -0.2738,  0.1034]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10, -7.7765e-08,  0.0000e+00,  ...,  1.1642e-09,
+          0.0000e+00, -1.8626e-09],
+        [-1.6298e-09,  3.4925e-09,  0.0000e+00,  ...,  9.3132e-10,
+          6.9849e-10, -8.3819e-08],
+        [ 1.8626e-09,  7.9162e-09,  0.0000e+00,  ...,  3.2596e-09,
+          2.3283e-10,  1.3039e-08],
+        ...,
+        [ 2.7940e-09,  1.1642e-09,  0.0000e+00,  ...,  8.1491e-09,
+         -9.3132e-10,  7.0082e-08],
+        [ 4.6566e-10,  6.5193e-09,  0.0000e+00,  ...,  1.1642e-09,
+          0.0000e+00,  6.9849e-10],
+        [ 7.6834e-09,  3.4226e-08,  0.0000e+00,  ...,  1.0477e-08,
+          4.6566e-10, -4.8894e-09]], device='cuda:0')
+Epoch 285, bias, value: tensor([ 0.0241, -0.0306,  0.0184, -0.0252,  0.0373,  0.0170,  0.0086, -0.0121,
+        -0.0182, -0.0133], device='cuda:0'), grad: tensor([-1.6438e-07, -6.7148e-07,  1.3015e-07,  2.3283e-08, -8.2422e-08,
+         1.1642e-08,  6.8685e-08,  5.7463e-07,  2.0489e-08,  1.1688e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 284, time 220.96, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4878 re_mapping 0.0032 re_causal 0.0099 /// teacc 99.12 lr 0.00010000
+Epoch 286, weight, value: tensor([[-0.2704,  0.2181, -0.0383,  ..., -0.1132,  0.0163,  0.0117],
+        [ 0.0123, -0.1372, -0.0451,  ...,  0.0383, -0.0491, -0.0685],
+        [-0.1874, -0.2823,  0.0575,  ..., -0.0873, -0.0472, -0.1790],
+        ...,
+        [ 0.0730,  0.1539, -0.0940,  ..., -0.1484,  0.0777,  0.0816],
+        [ 0.0387, -0.1730, -0.0435,  ..., -0.1233, -0.1199, -0.1018],
+        [-0.2052, -0.0600, -0.0585,  ...,  0.1076, -0.2747,  0.1048]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10, -2.0955e-09,  0.0000e+00,  ...,  2.3283e-09,
+          2.3283e-10,  1.1642e-09],
+        [-2.3749e-08,  2.3283e-09,  0.0000e+00,  ..., -2.5611e-08,
+          4.1910e-09,  5.5879e-09],
+        [ 1.4435e-08,  1.1642e-09,  0.0000e+00,  ...,  2.0256e-08,
+          1.6298e-09,  2.0955e-09],
+        ...,
+        [ 3.2596e-08,  1.5134e-08,  0.0000e+00,  ...,  1.4668e-08,
+         -2.0955e-09,  2.3283e-10],
+        [-2.6077e-08, -1.9092e-08,  0.0000e+00,  ..., -9.3132e-10,
+         -1.8626e-09,  6.9849e-10],
+        [ 2.0955e-09,  3.4925e-09,  0.0000e+00,  ..., -4.3772e-08,
+          4.4238e-09, -3.6787e-08]], device='cuda:0')
+Epoch 286, bias, value: tensor([ 0.0240, -0.0306,  0.0184, -0.0252,  0.0373,  0.0171,  0.0084, -0.0123,
+        -0.0181, -0.0127], device='cuda:0'), grad: tensor([ 9.7789e-09, -9.8255e-08,  9.6625e-08,  2.9593e-07,  5.8906e-08,
+        -4.4284e-07,  1.4063e-07,  1.8161e-07, -1.6973e-07, -6.0536e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 285, time 220.48, cls_loss 0.0008 cls_loss_mapping 0.0019 cls_loss_causal 0.4930 re_mapping 0.0036 re_causal 0.0101 /// teacc 99.07 lr 0.00010000
+Epoch 287, weight, value: tensor([[-0.2712,  0.2186, -0.0383,  ..., -0.1135,  0.0158,  0.0115],
+        [ 0.0123, -0.1377, -0.0452,  ...,  0.0382, -0.0496, -0.0689],
+        [-0.1876, -0.2826,  0.0583,  ..., -0.0876, -0.0476, -0.1792],
+        ...,
+        [ 0.0730,  0.1542, -0.0941,  ..., -0.1486,  0.0766,  0.0812],
+        [ 0.0386, -0.1741, -0.0435,  ..., -0.1239, -0.1204, -0.1024],
+        [-0.2054, -0.0602, -0.0561,  ...,  0.1095, -0.2758,  0.1076]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10, -4.0513e-08,  1.6298e-09,  ...,  2.3283e-08,
+          9.3132e-10,  1.6065e-08],
+        [-5.5879e-09,  2.3283e-09,  5.3551e-09,  ...,  1.4203e-08,
+          3.9581e-09,  2.0256e-08],
+        [ 5.3551e-09,  3.9581e-09,  7.9162e-09,  ...,  1.1409e-08,
+          3.7253e-09,  1.1176e-08],
+        ...,
+        [-1.9558e-08, -2.7940e-09, -1.7532e-07,  ...,  3.5367e-07,
+         -6.0303e-08,  9.3132e-08],
+        [ 2.3283e-10,  9.3132e-10,  2.3283e-10,  ...,  5.5879e-09,
+          2.8405e-08,  3.4925e-09],
+        [ 2.0489e-08,  1.5134e-08,  1.0245e-08,  ..., -2.0955e-06,
+          1.3271e-08, -1.4855e-06]], device='cuda:0')
+Epoch 287, bias, value: tensor([ 0.0239, -0.0308,  0.0187, -0.0251,  0.0358,  0.0171,  0.0085, -0.0125,
+        -0.0187, -0.0106], device='cuda:0'), grad: tensor([ 2.7940e-09,  3.6554e-08,  5.5181e-08,  7.2718e-06,  4.0382e-06,
+        -6.9775e-06,  6.3796e-08,  2.6426e-07,  1.7579e-07, -4.9099e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 286, time 220.46, cls_loss 0.0007 cls_loss_mapping 0.0020 cls_loss_causal 0.4887 re_mapping 0.0038 re_causal 0.0106 /// teacc 99.12 lr 0.00010000
+Epoch 288, weight, value: tensor([[-0.2721,  0.2187, -0.0384,  ..., -0.1139,  0.0148,  0.0114],
+        [ 0.0124, -0.1382, -0.0441,  ...,  0.0387, -0.0511, -0.0692],
+        [-0.1882, -0.2828,  0.0583,  ..., -0.0878, -0.0483, -0.1796],
+        ...,
+        [ 0.0730,  0.1549, -0.0950,  ..., -0.1491,  0.0782,  0.0816],
+        [ 0.0384, -0.1746, -0.0431,  ..., -0.1242, -0.1208, -0.1027],
+        [-0.2059, -0.0605, -0.0584,  ...,  0.1093, -0.2771,  0.1077]],
+       device='cuda:0'), grad: tensor([[ 3.0268e-09, -2.1281e-07, -3.4925e-09,  ...,  9.3132e-10,
+         -4.5635e-08, -4.8429e-08],
+        [-9.6858e-08,  9.0804e-09,  4.6566e-10,  ..., -8.8476e-08,
+          3.7253e-09,  4.1910e-09],
+        [ 3.2131e-08,  7.4506e-09, -4.6566e-10,  ...,  2.7241e-08,
+          3.2596e-09,  3.0268e-09],
+        ...,
+        [ 2.5146e-08,  8.8476e-09,  2.3283e-10,  ...,  2.0489e-08,
+         -9.3132e-10, -4.4238e-09],
+        [-9.0804e-09,  1.1874e-08,  4.6566e-10,  ...,  4.4238e-09,
+          2.7940e-09,  3.9581e-09],
+        [ 1.6065e-08,  5.0990e-08,  6.9849e-10,  ...,  1.3970e-08,
+          8.8476e-09,  1.0477e-08]], device='cuda:0')
+Epoch 288, bias, value: tensor([ 0.0235, -0.0305,  0.0188, -0.0256,  0.0362,  0.0175,  0.0084, -0.0127,
+        -0.0187, -0.0110], device='cuda:0'), grad: tensor([-5.4389e-07,  3.2410e-07, -1.0617e-06,  1.2387e-07,  9.3132e-08,
+         1.6461e-07,  2.6845e-07,  3.7928e-07,  9.0804e-09,  2.4703e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 287, time 220.29, cls_loss 0.0008 cls_loss_mapping 0.0027 cls_loss_causal 0.4796 re_mapping 0.0035 re_causal 0.0100 /// teacc 99.13 lr 0.00010000
+Epoch 289, weight, value: tensor([[-0.2728,  0.2189, -0.0389,  ..., -0.1143,  0.0147,  0.0114],
+        [ 0.0124, -0.1383, -0.0442,  ...,  0.0385, -0.0515, -0.0698],
+        [-0.1886, -0.2830,  0.0584,  ..., -0.0881, -0.0488, -0.1802],
+        ...,
+        [ 0.0730,  0.1554, -0.0950,  ..., -0.1495,  0.0784,  0.0814],
+        [ 0.0382, -0.1757, -0.0431,  ..., -0.1245, -0.1213, -0.1031],
+        [-0.2063, -0.0608, -0.0585,  ...,  0.1062, -0.2777,  0.1050]],
+       device='cuda:0'), grad: tensor([[ 1.6298e-09, -1.9325e-08,  0.0000e+00,  ...,  6.9849e-10,
+          1.6298e-09,  0.0000e+00],
+        [ 6.2864e-09,  1.8626e-09,  1.3970e-09,  ...,  4.6566e-10,
+          1.4668e-08,  1.2806e-08],
+        [ 2.3283e-10,  1.6298e-09,  0.0000e+00,  ...,  4.6566e-10,
+          3.9581e-09,  2.7940e-09],
+        ...,
+        [-5.8208e-09, -2.0955e-09,  4.6566e-10,  ...,  1.1642e-09,
+         -2.7241e-08, -5.1456e-08],
+        [ 7.6834e-09,  2.3283e-09, -4.1910e-09,  ...,  9.3132e-10,
+          3.0268e-08,  9.3132e-10],
+        [ 7.2177e-09,  2.7940e-09,  0.0000e+00,  ..., -2.0955e-09,
+          2.2352e-08,  3.2131e-08]], device='cuda:0')
+Epoch 289, bias, value: tensor([ 0.0233, -0.0308,  0.0189, -0.0264,  0.0395,  0.0184,  0.0082, -0.0129,
+        -0.0190, -0.0142], device='cuda:0'), grad: tensor([-2.1420e-08,  9.4995e-08,  1.6531e-08,  7.9582e-07, -6.0536e-09,
+        -1.0338e-06,  1.8207e-07, -1.3970e-07,  1.6298e-09,  1.2456e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 288, time 220.85, cls_loss 0.0005 cls_loss_mapping 0.0010 cls_loss_causal 0.5005 re_mapping 0.0037 re_causal 0.0110 /// teacc 99.10 lr 0.00010000
+Epoch 290, weight, value: tensor([[-0.2735,  0.2192, -0.0391,  ..., -0.1149,  0.0148,  0.0113],
+        [ 0.0124, -0.1388, -0.0442,  ...,  0.0385, -0.0522, -0.0700],
+        [-0.1889, -0.2832,  0.0584,  ..., -0.0884, -0.0490, -0.1808],
+        ...,
+        [ 0.0730,  0.1572, -0.0950,  ..., -0.1496,  0.0804,  0.0825],
+        [ 0.0381, -0.1782, -0.0432,  ..., -0.1251, -0.1219, -0.1037],
+        [-0.2068, -0.0620, -0.0587,  ...,  0.1062, -0.2816,  0.1048]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -3.2131e-08, -9.3132e-09,  ...,  2.5146e-08,
+          6.2864e-09,  7.4506e-09],
+        [ 1.0710e-08,  8.1491e-09,  6.5193e-09,  ...,  6.5193e-09,
+          4.6333e-08,  9.3831e-08],
+        [ 1.1642e-09,  2.3283e-09,  6.9849e-10,  ...,  1.6298e-09,
+          4.1910e-09,  6.2864e-09],
+        ...,
+        [-1.3039e-08, -8.3819e-09, -8.1491e-09,  ...,  1.2340e-08,
+         -3.9116e-08, -1.1688e-07],
+        [ 4.1910e-09,  1.3970e-09,  2.3283e-10,  ...,  4.4238e-09,
+          3.1199e-08,  5.8208e-09],
+        [ 6.0536e-09,  2.0955e-08,  6.9849e-09,  ..., -4.1653e-07,
+          1.8859e-08, -2.2701e-07]], device='cuda:0')
+Epoch 290, bias, value: tensor([ 0.0230, -0.0308,  0.0187, -0.0265,  0.0395,  0.0185,  0.0085, -0.0125,
+        -0.0195, -0.0143], device='cuda:0'), grad: tensor([ 1.5134e-08,  7.1712e-07, -3.5134e-07,  4.4480e-06,  2.1397e-07,
+        -4.2841e-06,  1.9162e-07, -2.2980e-07,  4.2142e-08, -7.4599e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 289, time 221.23, cls_loss 0.0006 cls_loss_mapping 0.0018 cls_loss_causal 0.4884 re_mapping 0.0036 re_causal 0.0102 /// teacc 99.16 lr 0.00010000
+Epoch 291, weight, value: tensor([[-0.2743,  0.2193, -0.0396,  ..., -0.1157,  0.0153,  0.0115],
+        [ 0.0123, -0.1391, -0.0443,  ...,  0.0385, -0.0532, -0.0709],
+        [-0.1902, -0.2838,  0.0585,  ..., -0.0887, -0.0501, -0.1814],
+        ...,
+        [ 0.0732,  0.1580, -0.0949,  ..., -0.1497,  0.0815,  0.0835],
+        [ 0.0381, -0.1794, -0.0435,  ..., -0.1253, -0.1220, -0.1040],
+        [-0.2075, -0.0623, -0.0591,  ...,  0.1061, -0.2827,  0.1047]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09, -1.2573e-08,  1.6298e-09,  ...,  1.9558e-08,
+          3.2596e-09,  1.9558e-08],
+        [ 4.9546e-07,  1.3271e-08,  4.5635e-08,  ...,  5.4529e-07,
+          8.8243e-08,  3.0175e-07],
+        [ 2.5146e-08,  1.3970e-08,  7.6834e-09,  ...,  8.8476e-09,
+          6.4727e-08,  7.4739e-08],
+        ...,
+        [-1.9558e-08, -2.3982e-08, -3.0734e-08,  ...,  8.8708e-08,
+          1.0524e-07,  6.7987e-08],
+        [ 9.7789e-09,  1.6298e-09,  9.3132e-10,  ...,  1.5600e-08,
+          1.3039e-08,  2.2817e-08],
+        [ 1.6275e-07,  4.1910e-09, -3.9814e-08,  ..., -2.4401e-07,
+          1.0943e-08, -3.5460e-07]], device='cuda:0')
+Epoch 291, bias, value: tensor([ 0.0218, -0.0311,  0.0187, -0.0265,  0.0396,  0.0184,  0.0091, -0.0121,
+        -0.0195, -0.0143], device='cuda:0'), grad: tensor([ 8.0327e-08,  3.3509e-06,  1.8184e-07, -1.7509e-06, -3.0771e-06,
+         9.8534e-07,  3.6089e-08,  5.4296e-07,  1.3225e-07, -4.6473e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 290, time 220.86, cls_loss 0.0006 cls_loss_mapping 0.0018 cls_loss_causal 0.4890 re_mapping 0.0035 re_causal 0.0104 /// teacc 99.19 lr 0.00010000
+Epoch 292, weight, value: tensor([[-0.2750,  0.2231, -0.0396,  ..., -0.1128,  0.0158,  0.0147],
+        [ 0.0122, -0.1410, -0.0442,  ...,  0.0385, -0.0549, -0.0720],
+        [-0.1916, -0.2840,  0.0582,  ..., -0.0889, -0.0503, -0.1818],
+        ...,
+        [ 0.0734,  0.1597, -0.0947,  ..., -0.1497,  0.0823,  0.0846],
+        [ 0.0367, -0.1818, -0.0457,  ..., -0.1254, -0.1223, -0.1043],
+        [-0.2078, -0.0629, -0.0592,  ...,  0.1061, -0.2837,  0.1047]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-09,  1.1958e-06,  0.0000e+00,  ...,  6.4541e-07,
+          0.0000e+00,  1.0012e-08],
+        [ 1.2107e-08,  6.3563e-08,  0.0000e+00,  ...,  1.9558e-08,
+          3.2596e-09,  7.6834e-08],
+        [ 3.7253e-09,  9.9419e-08,  0.0000e+00,  ...,  5.1921e-08,
+          9.3132e-10,  1.7928e-08],
+        ...,
+        [-5.3318e-08, -7.9861e-08,  0.0000e+00,  ...,  8.1491e-09,
+         -7.9162e-09, -3.0827e-07],
+        [ 1.6298e-09,  2.8405e-08,  0.0000e+00,  ...,  1.4668e-08,
+          0.0000e+00,  5.5879e-09],
+        [ 3.6089e-08,  9.4296e-08,  0.0000e+00,  ...,  1.0012e-08,
+          2.5611e-09,  1.8044e-07]], device='cuda:0')
+Epoch 292, bias, value: tensor([ 0.0253, -0.0314,  0.0187, -0.0265,  0.0396,  0.0184,  0.0059, -0.0118,
+        -0.0205, -0.0143], device='cuda:0'), grad: tensor([ 4.3511e-06,  4.6333e-07,  3.1595e-07,  1.7579e-07,  6.5751e-07,
+         1.3234e-06, -7.0930e-06, -1.2051e-06,  1.0431e-07,  9.2667e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 291, time 220.88, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4911 re_mapping 0.0034 re_causal 0.0105 /// teacc 99.16 lr 0.00010000
+Epoch 293, weight, value: tensor([[-0.2762,  0.2232, -0.0402,  ..., -0.1129,  0.0157,  0.0148],
+        [ 0.0123, -0.1413, -0.0432,  ...,  0.0388, -0.0555, -0.0722],
+        [-0.1920, -0.2841,  0.0583,  ..., -0.0891, -0.0508, -0.1821],
+        ...,
+        [ 0.0733,  0.1601, -0.0958,  ..., -0.1501,  0.0825,  0.0848],
+        [ 0.0366, -0.1826, -0.0459,  ..., -0.1257, -0.1227, -0.1047],
+        [-0.2081, -0.0631, -0.0595,  ...,  0.1061, -0.2847,  0.1047]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  0.0000e+00,  5.1456e-08,  ...,  2.0489e-07,
+          2.3283e-10,  4.4238e-09],
+        [ 7.4506e-09,  0.0000e+00,  3.2596e-09,  ...,  1.6531e-08,
+          1.3504e-08,  5.4715e-08],
+        [ 6.2864e-09,  0.0000e+00,  6.7521e-09,  ...,  2.7940e-08,
+          6.2864e-09,  1.1642e-08],
+        ...,
+        [-1.3504e-08, -2.3283e-10,  0.0000e+00,  ...,  3.0268e-09,
+         -3.0734e-08, -1.4063e-07],
+        [-6.7521e-09,  0.0000e+00,  3.0268e-09,  ...,  1.3504e-08,
+          4.6566e-10,  2.7940e-09],
+        [ 5.5879e-09,  0.0000e+00,  4.6566e-10,  ..., -1.0873e-07,
+          2.0955e-08,  3.0268e-09]], device='cuda:0')
+Epoch 293, bias, value: tensor([ 0.0253, -0.0312,  0.0190, -0.0265,  0.0396,  0.0185,  0.0058, -0.0120,
+        -0.0206, -0.0144], device='cuda:0'), grad: tensor([ 1.0226e-06,  2.4540e-07,  1.1036e-07,  6.8219e-08,  1.9185e-07,
+        -1.4831e-07, -1.2852e-06, -2.7358e-07,  1.1362e-07, -3.6089e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 292, time 221.52, cls_loss 0.0008 cls_loss_mapping 0.0018 cls_loss_causal 0.4814 re_mapping 0.0034 re_causal 0.0099 /// teacc 99.16 lr 0.00010000
+Epoch 294, weight, value: tensor([[-0.2772,  0.2233, -0.0390,  ..., -0.1129,  0.0189,  0.0139],
+        [ 0.0124, -0.1425, -0.0432,  ...,  0.0389, -0.0560, -0.0722],
+        [-0.1923, -0.2849,  0.0581,  ..., -0.0897, -0.0516, -0.1825],
+        ...,
+        [ 0.0733,  0.1602, -0.0956,  ..., -0.1503,  0.0836,  0.0859],
+        [ 0.0365, -0.1845, -0.0461,  ..., -0.1268, -0.1236, -0.1053],
+        [-0.2084, -0.0626, -0.0596,  ...,  0.1061, -0.2871,  0.1044]],
+       device='cuda:0'), grad: tensor([[ 2.7264e-07,  5.2387e-07,  0.0000e+00,  ...,  2.3330e-07,
+         -1.3504e-08, -5.3551e-09],
+        [-3.3458e-07, -7.0268e-07,  2.3283e-10,  ..., -2.9290e-07,
+          1.2340e-08,  2.3516e-08],
+        [ 1.5367e-08,  5.1456e-08, -1.3970e-09,  ...,  1.7462e-08,
+          3.8650e-08,  4.2841e-08],
+        ...,
+        [ 1.8859e-08,  3.1432e-08,  1.1642e-09,  ...,  1.0035e-07,
+          2.6077e-08,  1.6857e-07],
+        [ 1.3039e-08,  2.8405e-08,  0.0000e+00,  ...,  1.0245e-08,
+          2.3283e-09,  2.3283e-09],
+        [ 2.0955e-09,  1.0012e-08,  0.0000e+00,  ..., -9.1968e-08,
+          5.1223e-09, -1.6904e-07]], device='cuda:0')
+Epoch 294, bias, value: tensor([ 0.0252, -0.0311,  0.0188, -0.0263,  0.0396,  0.0184,  0.0057, -0.0117,
+        -0.0213, -0.0145], device='cuda:0'), grad: tensor([ 2.5705e-06, -3.2019e-06,  2.9686e-07, -1.1409e-07,  5.6578e-08,
+        -2.0117e-07,  1.9185e-07,  6.1747e-07,  1.5344e-07, -3.6275e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 293, time 220.77, cls_loss 0.0004 cls_loss_mapping 0.0012 cls_loss_causal 0.4736 re_mapping 0.0037 re_causal 0.0105 /// teacc 99.10 lr 0.00010000
+Epoch 295, weight, value: tensor([[-0.2783,  0.2234, -0.0395,  ..., -0.1129,  0.0191,  0.0140],
+        [ 0.0124, -0.1426, -0.0432,  ...,  0.0389, -0.0562, -0.0723],
+        [-0.1930, -0.2851,  0.0580,  ..., -0.0900, -0.0520, -0.1827],
+        ...,
+        [ 0.0733,  0.1604, -0.0956,  ..., -0.1504,  0.0836,  0.0860],
+        [ 0.0363, -0.1838, -0.0461,  ..., -0.1270, -0.1238, -0.1052],
+        [-0.2088, -0.0629, -0.0596,  ...,  0.1061, -0.2874,  0.1044]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10, -1.6531e-08,  0.0000e+00,  ...,  1.0710e-08,
+          0.0000e+00,  4.1910e-09],
+        [-5.1688e-08,  9.3132e-10,  0.0000e+00,  ..., -1.0431e-07,
+          9.3132e-10,  4.4238e-09],
+        [ 5.3085e-08,  2.3283e-10,  0.0000e+00,  ...,  1.2014e-07,
+          2.3283e-10,  4.6566e-10],
+        ...,
+        [ 1.8626e-09,  2.3283e-10,  0.0000e+00,  ...,  5.5181e-08,
+          4.6566e-09,  4.5169e-08],
+        [ 1.1642e-09,  4.6566e-10,  0.0000e+00,  ...,  5.1223e-09,
+          4.6566e-10,  1.3970e-09],
+        [ 2.4214e-08,  3.2596e-09,  0.0000e+00,  ..., -2.4447e-07,
+          4.6566e-10, -2.8056e-07]], device='cuda:0')
+Epoch 295, bias, value: tensor([ 0.0252, -0.0311,  0.0187, -0.0264,  0.0396,  0.0185,  0.0057, -0.0117,
+        -0.0211, -0.0145], device='cuda:0'), grad: tensor([ 3.2596e-09, -8.5775e-07,  8.5263e-07,  9.3132e-09,  4.4703e-07,
+         4.9360e-08, -1.8626e-08,  1.6275e-07, -7.6834e-09, -6.3330e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 294, time 220.86, cls_loss 0.0006 cls_loss_mapping 0.0019 cls_loss_causal 0.4724 re_mapping 0.0036 re_causal 0.0102 /// teacc 99.11 lr 0.00010000
+Epoch 296, weight, value: tensor([[-0.2793,  0.2234, -0.0395,  ..., -0.1134,  0.0184,  0.0136],
+        [ 0.0124, -0.1428, -0.0432,  ...,  0.0389, -0.0566, -0.0724],
+        [-0.1934, -0.2855,  0.0581,  ..., -0.0902, -0.0548, -0.1842],
+        ...,
+        [ 0.0733,  0.1609, -0.0956,  ..., -0.1505,  0.0833,  0.0859],
+        [ 0.0356, -0.1877, -0.0463,  ..., -0.1298, -0.1246, -0.1081],
+        [-0.2094, -0.0620, -0.0597,  ...,  0.1062, -0.2881,  0.1049]],
+       device='cuda:0'), grad: tensor([[ 4.4238e-09, -5.6811e-08,  0.0000e+00,  ...,  3.0035e-08,
+          9.3132e-10, -2.0955e-09],
+        [ 2.1234e-07,  1.6298e-09,  0.0000e+00,  ...,  2.5542e-07,
+          1.6298e-09,  2.3283e-09],
+        [ 5.3551e-09,  1.3970e-09,  0.0000e+00,  ...,  7.9162e-09,
+          4.1910e-09,  4.6566e-09],
+        ...,
+        [ 1.9325e-08,  2.7940e-09,  0.0000e+00,  ...,  2.4447e-08,
+          2.0023e-08,  2.3749e-08],
+        [ 3.3760e-08,  2.7940e-09,  0.0000e+00,  ...,  4.8662e-08,
+          6.7521e-09,  7.2177e-09],
+        [ 3.7742e-07,  1.7462e-08,  0.0000e+00,  ...,  4.2492e-07,
+          3.7253e-08,  3.2131e-08]], device='cuda:0')
+Epoch 296, bias, value: tensor([ 0.0250, -0.0311,  0.0169, -0.0257,  0.0396,  0.0187,  0.0058, -0.0118,
+        -0.0230, -0.0143], device='cuda:0'), grad: tensor([ 3.7253e-09,  1.3858e-06,  3.1898e-08, -2.2096e-07, -3.9414e-06,
+        -9.4064e-08, -1.9092e-07,  2.0326e-07,  2.9732e-07,  2.5313e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 295, time 220.43, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4324 re_mapping 0.0035 re_causal 0.0102 /// teacc 99.17 lr 0.00010000
+Epoch 297, weight, value: tensor([[-0.2799,  0.2234, -0.0396,  ..., -0.1134,  0.0180,  0.0136],
+        [ 0.0124, -0.1432, -0.0423,  ...,  0.0391, -0.0559, -0.0724],
+        [-0.1942, -0.2856,  0.0581,  ..., -0.0903, -0.0550, -0.1846],
+        ...,
+        [ 0.0733,  0.1615, -0.0965,  ..., -0.1511,  0.0830,  0.0857],
+        [ 0.0356, -0.1878, -0.0463,  ..., -0.1299, -0.1250, -0.1083],
+        [-0.2102, -0.0623, -0.0603,  ...,  0.1062, -0.2890,  0.1050]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10, -2.0256e-08,  0.0000e+00,  ...,  1.1479e-07,
+         -4.6566e-10, -4.6566e-10],
+        [-1.6298e-09,  4.6566e-10,  0.0000e+00,  ...,  8.1491e-09,
+          4.6566e-10,  1.1642e-09],
+        [ 1.6298e-09,  5.1223e-09,  0.0000e+00,  ...,  5.1223e-09,
+          2.0955e-09,  1.6298e-09],
+        ...,
+        [ 6.0536e-09,  4.6566e-10,  2.3283e-10,  ...,  1.7229e-08,
+          1.1642e-09,  2.0955e-09],
+        [ 6.9849e-10,  4.6566e-10,  0.0000e+00,  ...,  5.4017e-08,
+          4.6566e-10,  6.9849e-10],
+        [ 1.3271e-08,  7.4506e-09,  6.9849e-10,  ...,  7.9162e-08,
+          4.6566e-10, -5.1223e-09]], device='cuda:0')
+Epoch 297, bias, value: tensor([ 0.0250, -0.0308,  0.0168, -0.0259,  0.0396,  0.0190,  0.0058, -0.0121,
+        -0.0231, -0.0143], device='cuda:0'), grad: tensor([ 5.8254e-07,  5.0990e-08,  3.7253e-09, -2.2352e-08, -1.8650e-07,
+         1.6555e-05, -1.7598e-05,  8.6613e-08,  2.9476e-07,  2.8475e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 296, time 221.22, cls_loss 0.0009 cls_loss_mapping 0.0022 cls_loss_causal 0.4990 re_mapping 0.0034 re_causal 0.0099 /// teacc 99.16 lr 0.00010000
+Epoch 298, weight, value: tensor([[-0.2825,  0.2235, -0.0397,  ..., -0.1136,  0.0200,  0.0135],
+        [ 0.0125, -0.1464, -0.0412,  ...,  0.0399, -0.0568, -0.0746],
+        [-0.1956, -0.2863,  0.0580,  ..., -0.0907, -0.0553, -0.1857],
+        ...,
+        [ 0.0737,  0.1647, -0.0969,  ..., -0.1515,  0.0853,  0.0880],
+        [ 0.0347, -0.1885, -0.0464,  ..., -0.1322, -0.1261, -0.1108],
+        [-0.2117, -0.0626, -0.0630,  ...,  0.1063, -0.2908,  0.1053]],
+       device='cuda:0'), grad: tensor([[ 3.4925e-10,  0.0000e+00,  6.9849e-10,  ...,  1.9791e-09,
+          1.1642e-10,  1.6298e-09],
+        [ 4.1910e-09,  1.8626e-09, -5.8208e-10,  ...,  5.9372e-09,
+          2.4447e-09,  6.4028e-09],
+        [ 1.8626e-09,  5.8208e-10, -1.7462e-09,  ..., -5.0059e-09,
+          5.8208e-10,  1.7462e-09],
+        ...,
+        [ 2.7125e-08, -3.8417e-09,  6.9849e-10,  ...,  1.1642e-08,
+          6.2864e-09, -8.2655e-09],
+        [ 1.1525e-08,  2.3283e-10,  2.3283e-10,  ...,  1.2806e-09,
+          4.6566e-09,  1.3970e-09],
+        [ 1.0245e-08,  1.9791e-09,  2.3283e-10,  ..., -1.2107e-08,
+          1.3970e-09, -1.6065e-08]], device='cuda:0')
+Epoch 298, bias, value: tensor([ 0.0250, -0.0309,  0.0165, -0.0261,  0.0395,  0.0191,  0.0058, -0.0110,
+        -0.0258, -0.0143], device='cuda:0'), grad: tensor([ 1.0023e-07,  7.5321e-08, -4.1071e-07,  1.9628e-07, -5.2969e-08,
+        -2.8918e-07,  1.2550e-07,  1.6694e-07,  6.5193e-08,  3.4226e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 297----------------------------------------------------
+epoch 297, time 221.42, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4844 re_mapping 0.0034 re_causal 0.0099 /// teacc 99.24 lr 0.00010000
+Epoch 299, weight, value: tensor([[-0.2836,  0.2235, -0.0397,  ..., -0.1138,  0.0206,  0.0135],
+        [ 0.0125, -0.1464, -0.0412,  ...,  0.0399, -0.0569, -0.0746],
+        [-0.1960, -0.2865,  0.0581,  ..., -0.0909, -0.0554, -0.1858],
+        ...,
+        [ 0.0737,  0.1648, -0.0969,  ..., -0.1516,  0.0854,  0.0881],
+        [ 0.0344, -0.1886, -0.0463,  ..., -0.1341, -0.1263, -0.1117],
+        [-0.2121, -0.0628, -0.0630,  ...,  0.1063, -0.2912,  0.1054]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10, -5.3551e-09,  0.0000e+00,  ...,  1.4203e-08,
+         -1.0477e-09,  2.0489e-08],
+        [ 3.8417e-09,  4.6566e-10,  0.0000e+00,  ...,  3.1432e-09,
+          1.0477e-09,  7.7998e-09],
+        [ 5.8208e-10,  3.4925e-10,  0.0000e+00,  ...,  6.9849e-10,
+          5.8208e-10,  1.0477e-09],
+        ...,
+        [ 3.6089e-09,  2.3283e-10,  0.0000e+00,  ...,  1.5949e-08,
+          3.8417e-09,  2.2235e-08],
+        [-1.9791e-08,  0.0000e+00,  0.0000e+00,  ...,  1.8976e-08,
+          9.3132e-10,  2.1770e-08],
+        [ 3.8417e-09,  4.8894e-09,  0.0000e+00,  ..., -1.2259e-07,
+          1.3970e-09, -1.5122e-07]], device='cuda:0')
+Epoch 299, bias, value: tensor([ 0.0250, -0.0308,  0.0166, -0.0263,  0.0395,  0.0193,  0.0057, -0.0110,
+        -0.0269, -0.0143], device='cuda:0'), grad: tensor([ 6.7637e-08, -5.7416e-07,  4.0862e-08,  1.1723e-07,  1.8708e-07,
+         1.4447e-07,  2.0023e-08,  6.3609e-07, -2.4564e-07, -3.7975e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 298, time 220.84, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4572 re_mapping 0.0035 re_causal 0.0102 /// teacc 99.12 lr 0.00010000
+Epoch 300, weight, value: tensor([[-0.2840,  0.2237, -0.0397,  ..., -0.1141,  0.0166,  0.0134],
+        [ 0.0125, -0.1466, -0.0412,  ...,  0.0397, -0.0573, -0.0747],
+        [-0.1966, -0.2869,  0.0582,  ..., -0.0910, -0.0551, -0.1874],
+        ...,
+        [ 0.0737,  0.1649, -0.0969,  ..., -0.1518,  0.0846,  0.0879],
+        [ 0.0343, -0.1894, -0.0464,  ..., -0.1356, -0.1267, -0.1113],
+        [-0.2123, -0.0630, -0.0630,  ...,  0.1064, -0.2915,  0.1057]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-09, -4.8894e-09,  0.0000e+00,  ...,  3.4925e-09,
+          4.4238e-09,  2.3283e-09],
+        [ 3.0501e-08,  3.2596e-09,  0.0000e+00,  ...,  6.9849e-09,
+          8.4052e-08,  5.0524e-08],
+        [ 4.6217e-07,  2.5611e-09,  0.0000e+00,  ...,  1.8626e-09,
+          2.0228e-06,  1.1381e-06],
+        ...,
+        [-7.5484e-07, -6.7521e-09,  0.0000e+00,  ...,  6.7521e-09,
+         -2.5667e-06, -1.4426e-06],
+        [ 1.8161e-08,  4.6566e-10,  0.0000e+00,  ...,  2.7940e-09,
+          7.5437e-08,  4.3074e-08],
+        [ 3.0268e-09,  3.9581e-09,  0.0000e+00,  ...,  4.1444e-08,
+          6.0536e-09, -1.6298e-09]], device='cuda:0')
+Epoch 300, bias, value: tensor([ 0.0249, -0.0311,  0.0173, -0.0262,  0.0394,  0.0194,  0.0060, -0.0113,
+        -0.0270, -0.0142], device='cuda:0'), grad: tensor([ 2.3050e-08,  4.0373e-07,  7.8827e-06,  1.0589e-06,  7.5856e-07,
+        -9.5228e-08,  1.2107e-07, -1.0580e-05,  3.1176e-07,  1.5600e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 299, time 220.75, cls_loss 0.0010 cls_loss_mapping 0.0017 cls_loss_causal 0.4847 re_mapping 0.0034 re_causal 0.0098 /// teacc 99.22 lr 0.00010000
+Epoch 301, weight, value: tensor([[-0.2851,  0.2240, -0.0397,  ..., -0.1145,  0.0163,  0.0137],
+        [ 0.0125, -0.1469, -0.0410,  ...,  0.0399, -0.0596, -0.0750],
+        [-0.1977, -0.2871,  0.0581,  ..., -0.0918, -0.0554, -0.1883],
+        ...,
+        [ 0.0738,  0.1662, -0.0970,  ..., -0.1518,  0.0880,  0.0909],
+        [ 0.0333, -0.1894, -0.0465,  ..., -0.1358, -0.1297, -0.1143],
+        [-0.2125, -0.0645, -0.0635,  ...,  0.1064, -0.2943,  0.1056]],
+       device='cuda:0'), grad: tensor([[ 9.0804e-09,  1.3271e-08,  0.0000e+00,  ...,  2.8173e-08,
+          9.3132e-10,  6.9849e-10],
+        [-1.7695e-08, -2.5146e-08,  0.0000e+00,  ..., -5.8906e-08,
+          6.7521e-09,  8.1491e-09],
+        [ 2.3283e-10,  4.6566e-10,  0.0000e+00,  ...,  1.6298e-09,
+          4.6566e-09,  4.1910e-09],
+        ...,
+        [ 4.6566e-10,  3.0268e-09,  0.0000e+00,  ...,  4.4238e-09,
+          1.7462e-08,  1.5832e-08],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  2.3283e-10,
+          4.6566e-10,  4.6566e-10],
+        [ 4.6566e-10,  2.5611e-09,  0.0000e+00,  ...,  2.0955e-09,
+          1.4668e-08,  1.3737e-08]], device='cuda:0')
+Epoch 301, bias, value: tensor([ 0.0249, -0.0313,  0.0179, -0.0268,  0.0394,  0.0192,  0.0048, -0.0084,
+        -0.0291, -0.0143], device='cuda:0'), grad: tensor([ 8.7079e-08, -7.9162e-08, -7.1945e-08, -1.0035e-07,  3.9814e-08,
+        -7.1712e-08,  6.6357e-08,  3.4925e-09,  2.5844e-08,  1.1595e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 300, time 221.09, cls_loss 0.0005 cls_loss_mapping 0.0011 cls_loss_causal 0.4467 re_mapping 0.0038 re_causal 0.0104 /// teacc 99.10 lr 0.00010000
+Epoch 302, weight, value: tensor([[-0.2855,  0.2240, -0.0398,  ..., -0.1146,  0.0164,  0.0137],
+        [ 0.0125, -0.1468, -0.0409,  ...,  0.0401, -0.0579, -0.0752],
+        [-0.1980, -0.2869,  0.0581,  ..., -0.0916, -0.0552, -0.1885],
+        ...,
+        [ 0.0738,  0.1664, -0.0970,  ..., -0.1519,  0.0880,  0.0911],
+        [ 0.0334, -0.1895, -0.0464,  ..., -0.1357, -0.1297, -0.1143],
+        [-0.2126, -0.0653, -0.0636,  ...,  0.1063, -0.2961,  0.1055]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-09,  0.0000e+00,  6.9849e-10,  ...,  2.7008e-08,
+          4.6566e-10,  2.2119e-08],
+        [ 4.2841e-08,  0.0000e+00,  2.0489e-08,  ...,  4.0513e-08,
+          6.0536e-09,  1.4435e-08],
+        [ 4.8662e-08,  0.0000e+00,  2.1188e-08,  ...,  3.5390e-08,
+          6.7521e-09,  7.2177e-09],
+        ...,
+        [ 2.4773e-07,  0.0000e+00,  1.1781e-07,  ...,  3.0175e-07,
+          7.4506e-09,  1.0384e-07],
+        [ 4.8894e-09,  0.0000e+00,  3.2596e-09,  ...,  2.7474e-08,
+          8.3819e-09,  1.9791e-08],
+        [ 2.9104e-08,  6.9849e-10,  1.1409e-08,  ..., -1.3495e-06,
+          3.7253e-09, -1.1818e-06]], device='cuda:0')
+Epoch 302, bias, value: tensor([ 0.0249, -0.0313,  0.0183, -0.0267,  0.0394,  0.0193,  0.0048, -0.0085,
+        -0.0291, -0.0144], device='cuda:0'), grad: tensor([ 9.1037e-08,  2.8731e-07,  6.7987e-08, -5.7975e-08,  1.1064e-06,
+         8.3214e-07, -2.1583e-07,  1.5181e-06,  1.8394e-07, -3.8072e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 301, time 220.40, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.4838 re_mapping 0.0035 re_causal 0.0104 /// teacc 99.12 lr 0.00010000
+Epoch 303, weight, value: tensor([[-0.2859,  0.2243, -0.0397,  ..., -0.1148,  0.0171,  0.0138],
+        [ 0.0125, -0.1468, -0.0410,  ...,  0.0401, -0.0581, -0.0753],
+        [-0.1983, -0.2873,  0.0581,  ..., -0.0921, -0.0553, -0.1890],
+        ...,
+        [ 0.0738,  0.1664, -0.0970,  ..., -0.1527,  0.0880,  0.0909],
+        [ 0.0333, -0.1903, -0.0465,  ..., -0.1359, -0.1297, -0.1144],
+        [-0.2134, -0.0662, -0.0636,  ...,  0.1064, -0.2962,  0.1058]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -4.0745e-08,  0.0000e+00,  ...,  9.7789e-09,
+         -4.8894e-09, -5.5879e-09],
+        [ 3.2596e-09,  3.2596e-09,  0.0000e+00,  ..., -2.6124e-07,
+         -9.2667e-08, -3.6624e-07],
+        [ 3.4925e-09,  9.0804e-09,  0.0000e+00,  ...,  5.8208e-09,
+          1.8626e-09,  8.6147e-09],
+        ...,
+        [-1.7928e-08, -6.5193e-09,  0.0000e+00,  ...,  2.5495e-07,
+          8.6380e-08,  3.1316e-07],
+        [ 2.3283e-10,  9.3132e-10,  2.3283e-10,  ...,  6.7521e-09,
+          2.3283e-10,  4.6566e-10],
+        [ 3.0268e-09,  2.5379e-08,  0.0000e+00,  ...,  1.8370e-07,
+          4.6566e-09,  2.5611e-08]], device='cuda:0')
+Epoch 303, bias, value: tensor([ 0.0251, -0.0313,  0.0180, -0.0271,  0.0395,  0.0196,  0.0047, -0.0087,
+        -0.0291, -0.0144], device='cuda:0'), grad: tensor([-3.2131e-08, -2.7064e-06,  7.0082e-08,  2.2515e-07, -7.3109e-07,
+         1.7267e-06, -1.7108e-06,  2.5053e-06, -2.1001e-07,  8.6986e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 302, time 220.67, cls_loss 0.0006 cls_loss_mapping 0.0018 cls_loss_causal 0.4640 re_mapping 0.0035 re_causal 0.0101 /// teacc 99.17 lr 0.00010000
+Epoch 304, weight, value: tensor([[-0.2892,  0.2243, -0.0394,  ..., -0.1150,  0.0171,  0.0138],
+        [ 0.0126, -0.1466, -0.0409,  ...,  0.0404, -0.0584, -0.0753],
+        [-0.1989, -0.2874,  0.0581,  ..., -0.0927, -0.0553, -0.1893],
+        ...,
+        [ 0.0737,  0.1662, -0.0971,  ..., -0.1530,  0.0880,  0.0909],
+        [ 0.0333, -0.1903, -0.0465,  ..., -0.1360, -0.1297, -0.1144],
+        [-0.2140, -0.0664, -0.0636,  ...,  0.1065, -0.2966,  0.1064]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10, -5.1223e-09,  0.0000e+00,  ...,  2.0955e-09,
+          0.0000e+00,  2.3283e-10],
+        [ 5.3551e-09,  4.6566e-10,  0.0000e+00,  ...,  1.0245e-08,
+          2.5611e-09,  6.0536e-09],
+        [ 6.9849e-10,  4.6566e-10,  0.0000e+00,  ...,  1.6298e-09,
+          3.2596e-09,  2.7940e-09],
+        ...,
+        [ 1.3201e-07,  6.9849e-10,  0.0000e+00,  ...,  2.0489e-07,
+          1.3970e-09,  1.4692e-07],
+        [ 2.3283e-10,  2.3283e-10,  0.0000e+00,  ...,  2.7940e-09,
+          0.0000e+00,  4.6566e-10],
+        [ 2.8266e-07,  6.9849e-10,  0.0000e+00,  ...,  4.6194e-07,
+          0.0000e+00,  2.9430e-07]], device='cuda:0')
+Epoch 304, bias, value: tensor([ 0.0251, -0.0310,  0.0181, -0.0273,  0.0394,  0.0196,  0.0046, -0.0087,
+        -0.0291, -0.0143], device='cuda:0'), grad: tensor([ 5.3085e-08,  6.6357e-08, -2.7218e-07,  1.7951e-07, -2.2575e-06,
+        -1.6810e-07, -6.5193e-09,  7.0501e-07,  1.1106e-07,  1.5991e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 303, time 220.59, cls_loss 0.0005 cls_loss_mapping 0.0011 cls_loss_causal 0.4552 re_mapping 0.0033 re_causal 0.0099 /// teacc 99.19 lr 0.00010000
+Epoch 305, weight, value: tensor([[-0.2899,  0.2244, -0.0391,  ..., -0.1153,  0.0171,  0.0137],
+        [ 0.0126, -0.1467, -0.0409,  ...,  0.0404, -0.0586, -0.0755],
+        [-0.1992, -0.2877,  0.0581,  ..., -0.0931, -0.0553, -0.1895],
+        ...,
+        [ 0.0738,  0.1664, -0.0971,  ..., -0.1530,  0.0881,  0.0911],
+        [ 0.0332, -0.1904, -0.0465,  ..., -0.1360, -0.1297, -0.1144],
+        [-0.2144, -0.0665, -0.0637,  ...,  0.1065, -0.2969,  0.1064]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -9.0804e-09,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00, -1.8626e-09],
+        [-6.9849e-10,  2.3283e-10,  0.0000e+00,  ...,  7.9162e-09,
+          2.3283e-10,  4.6566e-09],
+        [ 1.1642e-09,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  2.3283e-10],
+        ...,
+        [ 9.3132e-10,  4.6566e-10,  0.0000e+00,  ...,  3.9581e-09,
+          0.0000e+00,  1.1642e-09],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  6.9849e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 2.5611e-09,  4.6566e-09,  0.0000e+00,  ..., -2.0489e-08,
+          0.0000e+00, -8.6147e-09]], device='cuda:0')
+Epoch 305, bias, value: tensor([ 0.0251, -0.0310,  0.0183, -0.0270,  0.0394,  0.0192,  0.0048, -0.0087,
+        -0.0291, -0.0143], device='cuda:0'), grad: tensor([-1.3737e-08,  1.1642e-08,  9.0804e-09,  1.9092e-08,  1.6531e-08,
+        -1.8626e-08,  7.4506e-09,  1.1642e-08, -1.8626e-09, -1.8626e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 304, time 220.68, cls_loss 0.0005 cls_loss_mapping 0.0010 cls_loss_causal 0.4593 re_mapping 0.0037 re_causal 0.0105 /// teacc 99.11 lr 0.00010000
+Epoch 306, weight, value: tensor([[-0.2902,  0.2244, -0.0392,  ..., -0.1154,  0.0171,  0.0137],
+        [ 0.0127, -0.1467, -0.0409,  ...,  0.0403, -0.0588, -0.0755],
+        [-0.2013, -0.2879,  0.0581,  ..., -0.0932, -0.0554, -0.1897],
+        ...,
+        [ 0.0738,  0.1665, -0.0972,  ..., -0.1531,  0.0880,  0.0910],
+        [ 0.0331, -0.1904, -0.0465,  ..., -0.1365, -0.1297, -0.1145],
+        [-0.2155, -0.0667, -0.0637,  ...,  0.1066, -0.2971,  0.1066]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.3504e-08,  0.0000e+00,  ...,  1.6298e-09,
+          0.0000e+00, -2.0955e-09],
+        [ 9.3132e-10,  4.4238e-09,  0.0000e+00,  ..., -6.9849e-10,
+          9.3132e-10,  6.7521e-09],
+        [ 4.6566e-10,  1.3970e-09,  0.0000e+00,  ...,  2.3283e-10,
+          2.3283e-10,  1.6298e-09],
+        ...,
+        [-9.5461e-09, -2.6310e-08,  0.0000e+00,  ...,  3.0268e-09,
+         -9.3132e-10, -3.7253e-08],
+        [ 2.3283e-10,  1.1642e-09,  0.0000e+00,  ...,  9.5461e-09,
+          0.0000e+00,  7.2177e-09],
+        [ 9.0804e-09,  2.5379e-08,  0.0000e+00,  ..., -1.3830e-07,
+          2.3283e-10, -6.6590e-08]], device='cuda:0')
+Epoch 306, bias, value: tensor([ 0.0250, -0.0309,  0.0178, -0.0268,  0.0394,  0.0190,  0.0047, -0.0087,
+        -0.0291, -0.0142], device='cuda:0'), grad: tensor([-2.0489e-08,  1.5832e-08, -2.8871e-08,  4.7497e-08,  3.7532e-07,
+         1.0012e-08,  8.1491e-09, -8.9174e-08,  1.3737e-08, -3.1851e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 305, time 221.01, cls_loss 0.0007 cls_loss_mapping 0.0021 cls_loss_causal 0.4676 re_mapping 0.0035 re_causal 0.0097 /// teacc 99.15 lr 0.00010000
+Epoch 307, weight, value: tensor([[-0.2912,  0.2245, -0.0393,  ..., -0.1160,  0.0172,  0.0136],
+        [ 0.0126, -0.1470, -0.0409,  ...,  0.0402, -0.0595, -0.0760],
+        [-0.2018, -0.2884,  0.0581,  ..., -0.0934, -0.0555, -0.1900],
+        ...,
+        [ 0.0740,  0.1670, -0.0972,  ..., -0.1539,  0.0881,  0.0909],
+        [ 0.0329, -0.1914, -0.0466,  ..., -0.1367, -0.1298, -0.1146],
+        [-0.2172, -0.0670, -0.0636,  ...,  0.1069, -0.2977,  0.1075]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  2.3283e-10,  0.0000e+00,  ...,  9.5461e-09,
+          2.3283e-10,  1.1642e-08],
+        [ 7.4506e-09,  3.7253e-09,  0.0000e+00,  ...,  3.0268e-09,
+          7.9162e-09,  1.3737e-08],
+        [ 2.7940e-09,  4.4238e-09,  0.0000e+00,  ...,  2.3283e-10,
+          5.1223e-09,  6.0536e-09],
+        ...,
+        [-2.2119e-08, -1.8626e-08,  0.0000e+00,  ...,  1.3039e-08,
+         -1.9092e-08, -2.3982e-08],
+        [ 2.3283e-10,  2.3283e-10,  0.0000e+00,  ...,  8.3819e-09,
+          4.6566e-10,  2.0955e-09],
+        [ 4.3539e-08,  7.9162e-09,  0.0000e+00,  ...,  4.7032e-08,
+          6.7521e-09, -5.7044e-08]], device='cuda:0')
+Epoch 307, bias, value: tensor([ 0.0249, -0.0312,  0.0179, -0.0267,  0.0391,  0.0190,  0.0051, -0.0088,
+        -0.0292, -0.0139], device='cuda:0'), grad: tensor([ 4.2841e-08,  9.6159e-08, -3.5414e-07,  4.0513e-08, -2.0931e-07,
+         1.5786e-07, -8.5682e-08,  1.4785e-07,  5.1456e-08,  1.3853e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 306, time 220.85, cls_loss 0.0006 cls_loss_mapping 0.0024 cls_loss_causal 0.4671 re_mapping 0.0033 re_causal 0.0096 /// teacc 99.16 lr 0.00010000
+Epoch 308, weight, value: tensor([[-0.2914,  0.2246, -0.0393,  ..., -0.1161,  0.0172,  0.0136],
+        [ 0.0126, -0.1471, -0.0409,  ...,  0.0402, -0.0597, -0.0762],
+        [-0.2021, -0.2886,  0.0582,  ..., -0.0936, -0.0556, -0.1903],
+        ...,
+        [ 0.0739,  0.1671, -0.0972,  ..., -0.1542,  0.0882,  0.0909],
+        [ 0.0331, -0.1915, -0.0467,  ..., -0.1368, -0.1298, -0.1146],
+        [-0.2185, -0.0674, -0.0636,  ...,  0.1068, -0.2981,  0.1076]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10, -2.3283e-09,  0.0000e+00,  ...,  2.3283e-09,
+          1.6298e-09,  1.8626e-09],
+        [ 2.3283e-09,  2.3283e-10,  0.0000e+00,  ...,  2.3283e-10,
+          1.6298e-08,  1.9325e-08],
+        [ 2.3283e-10,  2.3283e-10,  0.0000e+00,  ...,  3.2596e-09,
+          3.2363e-08,  4.3074e-08],
+        ...,
+        [-1.6298e-09, -4.6566e-10,  0.0000e+00,  ...,  4.1910e-09,
+          2.0955e-09, -4.1910e-09],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  3.0268e-09,
+          6.0536e-09,  1.0012e-08],
+        [ 2.7940e-09,  6.9849e-10,  0.0000e+00,  ..., -1.5236e-06,
+          5.3551e-09, -1.8883e-07]], device='cuda:0')
+Epoch 308, bias, value: tensor([ 0.0250, -0.0310,  0.0178, -0.0269,  0.0392,  0.0190,  0.0051, -0.0089,
+        -0.0292, -0.0140], device='cuda:0'), grad: tensor([ 1.3504e-08,  1.1385e-07,  1.7206e-07, -3.3202e-07,  3.1162e-06,
+        -6.9849e-10,  5.2154e-08,  2.4913e-08, -7.6368e-08, -3.0585e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 307, time 221.09, cls_loss 0.0005 cls_loss_mapping 0.0014 cls_loss_causal 0.4554 re_mapping 0.0035 re_causal 0.0100 /// teacc 99.15 lr 0.00010000
+Epoch 309, weight, value: tensor([[-0.2919,  0.2247, -0.0393,  ..., -0.1163,  0.0172,  0.0135],
+        [ 0.0126, -0.1473, -0.0409,  ...,  0.0402, -0.0601, -0.0763],
+        [-0.2030, -0.2892,  0.0582,  ..., -0.0938, -0.0556, -0.1906],
+        ...,
+        [ 0.0740,  0.1676, -0.0972,  ..., -0.1542,  0.0882,  0.0910],
+        [ 0.0332, -0.1916, -0.0467,  ..., -0.1369, -0.1298, -0.1146],
+        [-0.2190, -0.0677, -0.0636,  ...,  0.1068, -0.2984,  0.1076]],
+       device='cuda:0'), grad: tensor([[ 6.0536e-09, -1.1874e-08,  0.0000e+00,  ...,  1.7928e-08,
+          6.9849e-10,  3.9581e-09],
+        [ 4.7032e-08,  9.3132e-10,  4.6566e-10,  ...,  9.0105e-08,
+          7.9209e-07,  1.0924e-06],
+        [ 1.1642e-08,  4.6566e-10,  4.6566e-10,  ...,  2.0256e-08,
+          1.6531e-08,  2.1420e-08],
+        ...,
+        [ 1.0803e-07, -1.6298e-09,  7.4506e-09,  ...,  1.9767e-07,
+         -1.0803e-06, -1.4957e-06],
+        [ 1.9092e-08,  4.6566e-10,  2.3283e-10,  ...,  5.5647e-08,
+          6.9151e-08,  1.1432e-07],
+        [ 3.5483e-07,  3.4925e-09,  2.3283e-10,  ...,  5.5647e-07,
+          1.9092e-08, -3.3062e-08]], device='cuda:0')
+Epoch 309, bias, value: tensor([ 0.0251, -0.0312,  0.0179, -0.0267,  0.0392,  0.0190,  0.0050, -0.0088,
+        -0.0292, -0.0140], device='cuda:0'), grad: tensor([ 5.1688e-08,  4.0457e-06,  1.6950e-07,  8.4285e-07, -4.5411e-06,
+         1.4435e-07,  1.1642e-07, -4.0531e-06,  5.7463e-07,  2.6431e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 308, time 220.84, cls_loss 0.0006 cls_loss_mapping 0.0015 cls_loss_causal 0.4953 re_mapping 0.0032 re_causal 0.0097 /// teacc 99.12 lr 0.00010000
+Epoch 310, weight, value: tensor([[-0.2923,  0.2248, -0.0395,  ..., -0.1163,  0.0170,  0.0127],
+        [ 0.0127, -0.1475, -0.0408,  ...,  0.0402, -0.0609, -0.0768],
+        [-0.2043, -0.2896,  0.0577,  ..., -0.0941, -0.0557, -0.1908],
+        ...,
+        [ 0.0739,  0.1680, -0.0976,  ..., -0.1549,  0.0882,  0.0908],
+        [ 0.0331, -0.1916, -0.0472,  ..., -0.1370, -0.1298, -0.1146],
+        [-0.2197, -0.0682, -0.0638,  ...,  0.1069, -0.2986,  0.1083]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.0943e-08,  0.0000e+00,  ...,  1.7229e-08,
+          2.3283e-10, -9.3132e-10],
+        [ 3.2596e-09,  2.5611e-09,  0.0000e+00,  ...,  6.5193e-09,
+          1.3039e-08,  3.5856e-08],
+        [ 9.3132e-10, -1.1642e-09,  0.0000e+00,  ...,  4.8894e-09,
+          8.1491e-09,  4.0280e-08],
+        ...,
+        [-8.6147e-09, -3.0268e-09,  0.0000e+00,  ...,  2.6310e-08,
+         -3.8883e-08, -1.1898e-07],
+        [ 9.3132e-10,  2.3283e-10,  0.0000e+00,  ...,  2.7241e-08,
+          3.9581e-09,  5.8208e-09],
+        [ 3.4925e-09,  9.7789e-09,  0.0000e+00,  ...,  8.3353e-08,
+          1.2340e-08,  1.8161e-08]], device='cuda:0')
+Epoch 310, bias, value: tensor([ 0.0248, -0.0313,  0.0178, -0.0269,  0.0392,  0.0191,  0.0050, -0.0090,
+        -0.0292, -0.0138], device='cuda:0'), grad: tensor([ 2.1211e-07,  1.8906e-06, -2.2519e-06,  1.2363e-07, -3.7136e-07,
+         1.1874e-07, -1.5739e-07, -9.5926e-08,  1.0710e-07,  4.2818e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 309, time 220.92, cls_loss 0.0006 cls_loss_mapping 0.0017 cls_loss_causal 0.4910 re_mapping 0.0034 re_causal 0.0100 /// teacc 99.19 lr 0.00010000
+Epoch 311, weight, value: tensor([[-0.2927,  0.2249, -0.0395,  ..., -0.1165,  0.0170,  0.0127],
+        [ 0.0128, -0.1476, -0.0407,  ...,  0.0404, -0.0614, -0.0771],
+        [-0.2048, -0.2899,  0.0577,  ..., -0.0947, -0.0558, -0.1913],
+        ...,
+        [ 0.0740,  0.1684, -0.0976,  ..., -0.1551,  0.0883,  0.0910],
+        [ 0.0329, -0.1917, -0.0473,  ..., -0.1370, -0.1298, -0.1147],
+        [-0.2201, -0.0688, -0.0639,  ...,  0.1069, -0.2991,  0.1085]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -4.1910e-09,  0.0000e+00,  ...,  2.0955e-09,
+          0.0000e+00, -2.3283e-10],
+        [-8.1491e-09,  6.9849e-10,  0.0000e+00,  ..., -1.0501e-07,
+          6.9849e-10,  1.6298e-09],
+        [ 3.2596e-09,  1.3970e-09,  0.0000e+00,  ...,  9.2434e-08,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [ 5.1223e-09, -4.6566e-10,  0.0000e+00,  ...,  1.0710e-08,
+         -9.3132e-10, -1.8626e-09],
+        [ 2.3283e-10,  2.3283e-10,  0.0000e+00,  ...,  2.3283e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 1.3271e-08,  1.8626e-09,  0.0000e+00,  ...,  3.5856e-08,
+          0.0000e+00, -1.8626e-09]], device='cuda:0')
+Epoch 311, bias, value: tensor([ 0.0248, -0.0313,  0.0177, -0.0270,  0.0392,  0.0191,  0.0051, -0.0089,
+        -0.0292, -0.0138], device='cuda:0'), grad: tensor([ 1.1642e-09, -9.6671e-07,  8.6240e-07,  7.2177e-09, -7.5437e-08,
+         3.6554e-08, -2.9569e-08,  4.1910e-08,  9.0804e-09,  1.1618e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 310, time 220.56, cls_loss 0.0005 cls_loss_mapping 0.0016 cls_loss_causal 0.4830 re_mapping 0.0032 re_causal 0.0096 /// teacc 99.20 lr 0.00010000
+Epoch 312, weight, value: tensor([[-0.2930,  0.2251, -0.0395,  ..., -0.1166,  0.0171,  0.0128],
+        [ 0.0128, -0.1476, -0.0408,  ...,  0.0404, -0.0618, -0.0774],
+        [-0.2053, -0.2904,  0.0576,  ..., -0.0953, -0.0558, -0.1915],
+        ...,
+        [ 0.0740,  0.1684, -0.0975,  ..., -0.1554,  0.0883,  0.0910],
+        [ 0.0327, -0.1921, -0.0472,  ..., -0.1371, -0.1298, -0.1147],
+        [-0.2216, -0.0697, -0.0640,  ...,  0.1066, -0.2992,  0.1087]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -5.3551e-09,  0.0000e+00,  ...,  9.3132e-10,
+          2.3283e-10, -2.3283e-10],
+        [ 1.6298e-09,  0.0000e+00,  0.0000e+00,  ..., -6.7521e-09,
+          4.2142e-08,  5.1223e-08],
+        [ 4.1910e-09,  0.0000e+00,  0.0000e+00,  ...,  1.1642e-09,
+          2.7474e-08,  3.0734e-08],
+        ...,
+        [-1.1176e-08,  0.0000e+00,  0.0000e+00,  ...,  6.7521e-09,
+         -9.0105e-08, -1.0850e-07],
+        [ 4.1910e-09,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          2.5611e-08,  3.1199e-08],
+        [ 1.6298e-09,  0.0000e+00,  0.0000e+00,  ..., -4.8894e-09,
+          3.0268e-09, -1.3970e-09]], device='cuda:0')
+Epoch 312, bias, value: tensor([ 0.0250, -0.0313,  0.0176, -0.0271,  0.0395,  0.0189,  0.0051, -0.0090,
+        -0.0292, -0.0141], device='cuda:0'), grad: tensor([-5.8208e-09,  1.6321e-07,  1.2014e-07, -3.3062e-08,  1.3504e-08,
+         8.8476e-09,  6.7521e-09, -3.7369e-07,  1.1316e-07,  3.9581e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 311, time 220.77, cls_loss 0.0005 cls_loss_mapping 0.0014 cls_loss_causal 0.4880 re_mapping 0.0032 re_causal 0.0100 /// teacc 99.17 lr 0.00010000
+Epoch 313, weight, value: tensor([[-0.2933,  0.2253, -0.0395,  ..., -0.1167,  0.0172,  0.0129],
+        [ 0.0130, -0.1478, -0.0407,  ...,  0.0404, -0.0635, -0.0777],
+        [-0.2059, -0.2909,  0.0576,  ..., -0.0958, -0.0567, -0.1936],
+        ...,
+        [ 0.0739,  0.1685, -0.0976,  ..., -0.1557,  0.0885,  0.0912],
+        [ 0.0326, -0.1922, -0.0473,  ..., -0.1372, -0.1298, -0.1147],
+        [-0.2227, -0.0702, -0.0640,  ...,  0.1066, -0.2994,  0.1089]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  3.0035e-08,  ...,  8.8476e-09,
+          2.3283e-10,  1.1642e-09],
+        [-7.4506e-09,  0.0000e+00,  3.9861e-07,  ...,  8.7544e-08,
+          2.5611e-09,  1.8161e-08],
+        [ 2.7940e-09,  0.0000e+00,  3.4226e-08,  ...,  1.1409e-08,
+          1.8626e-09,  1.6578e-07],
+        ...,
+        [ 5.8208e-09,  0.0000e+00,  1.3970e-09,  ...,  1.0291e-07,
+          3.2596e-09, -2.1770e-07],
+        [-6.7521e-09,  0.0000e+00,  1.5972e-07,  ...,  4.2608e-08,
+          7.6834e-09,  8.6147e-09],
+        [ 1.1642e-09,  4.6566e-10,  5.1223e-09,  ..., -1.2317e-07,
+          6.9849e-10, -1.5250e-07]], device='cuda:0')
+Epoch 313, bias, value: tensor([ 0.0251, -0.0311,  0.0165, -0.0272,  0.0395,  0.0191,  0.0049, -0.0089,
+        -0.0292, -0.0141], device='cuda:0'), grad: tensor([ 1.6461e-07,  2.1234e-06,  8.8150e-07, -2.3376e-07,  7.9628e-07,
+         1.5289e-05, -1.7539e-05, -8.6101e-07, -1.0873e-07, -5.0152e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 312, time 220.53, cls_loss 0.0007 cls_loss_mapping 0.0016 cls_loss_causal 0.5109 re_mapping 0.0031 re_causal 0.0094 /// teacc 99.16 lr 0.00010000
+Epoch 314, weight, value: tensor([[-0.2943,  0.2254, -0.0396,  ..., -0.1172,  0.0175,  0.0129],
+        [ 0.0130, -0.1480, -0.0407,  ...,  0.0404, -0.0641, -0.0781],
+        [-0.2066, -0.2913,  0.0578,  ..., -0.0963, -0.0568, -0.1940],
+        ...,
+        [ 0.0740,  0.1690, -0.0976,  ..., -0.1565,  0.0886,  0.0911],
+        [ 0.0324, -0.1926, -0.0475,  ..., -0.1376, -0.1298, -0.1147],
+        [-0.2250, -0.0713, -0.0641,  ...,  0.1067, -0.3004,  0.1093]],
+       device='cuda:0'), grad: tensor([[ 6.9849e-10, -1.2834e-06,  4.6566e-10,  ...,  1.1642e-09,
+          0.0000e+00, -4.9034e-07],
+        [-1.6065e-08,  1.1409e-08, -1.3271e-08,  ..., -1.0012e-08,
+          8.6147e-09,  1.8626e-08],
+        [ 3.9581e-09,  1.3970e-09,  2.3283e-09,  ...,  3.2596e-09,
+          4.6566e-10,  9.3132e-10],
+        ...,
+        [ 4.6566e-10,  2.7940e-09,  1.3970e-09,  ...,  3.2596e-09,
+         -8.6147e-09, -1.3504e-08],
+        [ 9.7789e-09,  3.4925e-09,  6.9849e-09,  ...,  3.4925e-09,
+          1.1642e-09,  2.0955e-09],
+        [ 3.7253e-09,  5.5879e-08,  2.3283e-10,  ...,  7.9162e-09,
+          1.3970e-09,  2.1188e-08]], device='cuda:0')
+Epoch 314, bias, value: tensor([ 0.0251, -0.0312,  0.0167, -0.0275,  0.0396,  0.0185,  0.0056, -0.0091,
+        -0.0292, -0.0140], device='cuda:0'), grad: tensor([-2.7381e-06, -1.8859e-08,  9.6159e-08,  7.3574e-08,  2.8405e-08,
+         1.8366e-06,  1.2694e-06,  3.5390e-08, -1.8943e-06,  1.3309e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 313, time 220.56, cls_loss 0.0004 cls_loss_mapping 0.0011 cls_loss_causal 0.4956 re_mapping 0.0033 re_causal 0.0103 /// teacc 99.08 lr 0.00010000
+Epoch 315, weight, value: tensor([[-0.2945,  0.2255, -0.0396,  ..., -0.1173,  0.0173,  0.0129],
+        [ 0.0128, -0.1482, -0.0407,  ...,  0.0402, -0.0645, -0.0783],
+        [-0.2069, -0.2916,  0.0578,  ..., -0.0966, -0.0568, -0.1941],
+        ...,
+        [ 0.0740,  0.1695, -0.0976,  ..., -0.1567,  0.0887,  0.0912],
+        [ 0.0323, -0.1927, -0.0475,  ..., -0.1377, -0.1298, -0.1147],
+        [-0.2261, -0.0722, -0.0641,  ...,  0.1067, -0.3010,  0.1093]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  4.6566e-10,  0.0000e+00,  ...,  1.1642e-09,
+          0.0000e+00,  1.1642e-09],
+        [-4.8894e-09,  1.0477e-08,  0.0000e+00,  ..., -2.1188e-08,
+          3.4925e-09,  8.3819e-09],
+        [ 4.6566e-10,  2.0955e-09,  0.0000e+00,  ...,  1.1642e-09,
+          9.3132e-10,  1.6298e-09],
+        ...,
+        [ 4.6566e-10, -1.8161e-08,  0.0000e+00,  ...,  1.7229e-08,
+         -6.9849e-09, -8.8476e-09],
+        [-2.3283e-10, -2.3283e-10,  0.0000e+00,  ...,  1.1642e-09,
+          0.0000e+00, -3.2131e-08],
+        [ 1.6298e-09,  6.7521e-09,  0.0000e+00,  ..., -6.9849e-09,
+          2.5611e-09,  1.9325e-08]], device='cuda:0')
+Epoch 315, bias, value: tensor([ 0.0252, -0.0315,  0.0170, -0.0276,  0.0397,  0.0186,  0.0056, -0.0091,
+        -0.0291, -0.0141], device='cuda:0'), grad: tensor([ 6.0536e-09, -3.7486e-08, -3.8650e-08,  1.1362e-07,  3.2596e-09,
+         1.0477e-08,  1.9791e-08,  4.9127e-08, -3.8324e-07,  2.6589e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 314, time 220.65, cls_loss 0.0005 cls_loss_mapping 0.0011 cls_loss_causal 0.4564 re_mapping 0.0034 re_causal 0.0099 /// teacc 99.17 lr 0.00010000
+Epoch 316, weight, value: tensor([[-0.2950,  0.2256, -0.0399,  ..., -0.1175,  0.0172,  0.0129],
+        [ 0.0128, -0.1487, -0.0407,  ...,  0.0402, -0.0652, -0.0785],
+        [-0.2072, -0.2918,  0.0577,  ..., -0.0968, -0.0568, -0.1943],
+        ...,
+        [ 0.0740,  0.1702, -0.0976,  ..., -0.1569,  0.0881,  0.0908],
+        [ 0.0322, -0.1928, -0.0476,  ..., -0.1378, -0.1299, -0.1148],
+        [-0.2273, -0.0726, -0.0642,  ...,  0.1067, -0.3017,  0.1092]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.5134e-08,  0.0000e+00,  ...,  1.6298e-09,
+          6.9849e-10,  2.3283e-10],
+        [-9.3132e-09,  2.5611e-09,  0.0000e+00,  ..., -1.2340e-08,
+          5.3551e-09,  5.8208e-09],
+        [ 9.3132e-10,  4.6566e-10,  0.0000e+00,  ...,  1.3970e-09,
+          1.8626e-09,  1.1642e-09],
+        ...,
+        [ 1.2806e-08, -2.5611e-09,  0.0000e+00,  ...,  2.8638e-08,
+          1.1409e-08,  8.8476e-09],
+        [ 2.3283e-10,  6.9849e-10,  0.0000e+00,  ...,  6.9849e-10,
+          2.1420e-08,  1.1874e-08],
+        [ 3.7253e-09,  4.6566e-09,  0.0000e+00,  ..., -1.0501e-07,
+          3.4925e-09, -5.0990e-08]], device='cuda:0')
+Epoch 316, bias, value: tensor([ 0.0251, -0.0316,  0.0175, -0.0264,  0.0397,  0.0186,  0.0056, -0.0095,
+        -0.0291, -0.0142], device='cuda:0'), grad: tensor([-1.6298e-08, -1.0408e-07, -1.8091e-07, -2.8703e-06,  1.4273e-07,
+         2.7493e-06,  2.8405e-08,  3.6880e-07,  6.7288e-08, -1.5739e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 315, time 221.19, cls_loss 0.0008 cls_loss_mapping 0.0021 cls_loss_causal 0.4648 re_mapping 0.0033 re_causal 0.0095 /// teacc 99.13 lr 0.00010000
+Epoch 317, weight, value: tensor([[-0.2960,  0.2257, -0.0399,  ..., -0.1180,  0.0171,  0.0127],
+        [ 0.0116, -0.1516, -0.0411,  ...,  0.0401, -0.0676, -0.0808],
+        [-0.2081, -0.2921,  0.0577,  ..., -0.0976, -0.0568, -0.1956],
+        ...,
+        [ 0.0753,  0.1733, -0.0970,  ..., -0.1572,  0.0883,  0.0924],
+        [ 0.0321, -0.1929, -0.0477,  ..., -0.1384, -0.1299, -0.1148],
+        [-0.2290, -0.0736, -0.0641,  ...,  0.1067, -0.3024,  0.1092]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10, -6.9477e-07,  0.0000e+00,  ..., -1.0873e-07,
+          0.0000e+00, -1.1642e-09],
+        [ 2.1164e-07,  3.3528e-08,  0.0000e+00,  ...,  7.6834e-09,
+          0.0000e+00,  6.9849e-10],
+        [ 1.8626e-09,  1.4715e-07,  0.0000e+00,  ...,  3.2363e-08,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.2806e-08,  2.8638e-08,  0.0000e+00,  ...,  6.9849e-09,
+          4.6566e-10,  1.8626e-09],
+        [ 1.8626e-09,  9.0571e-08,  0.0000e+00,  ...,  1.8161e-08,
+          0.0000e+00,  2.3283e-10],
+        [ 2.0955e-09,  2.3027e-07,  0.0000e+00,  ...,  3.2363e-08,
+          0.0000e+00, -5.8208e-09]], device='cuda:0')
+Epoch 317, bias, value: tensor([ 0.0250, -0.0337,  0.0201, -0.0266,  0.0397,  0.0192,  0.0052, -0.0085,
+        -0.0293, -0.0142], device='cuda:0'), grad: tensor([-2.0452e-06,  6.3935e-07,  3.7020e-07,  3.4203e-07,  7.0315e-08,
+        -4.8243e-07, -5.7975e-08,  1.5576e-07,  2.9057e-07,  7.2736e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 316, time 220.97, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4756 re_mapping 0.0033 re_causal 0.0097 /// teacc 99.18 lr 0.00010000
+Epoch 318, weight, value: tensor([[-0.2968,  0.2257, -0.0402,  ..., -0.1185,  0.0169,  0.0127],
+        [ 0.0114, -0.1522, -0.0411,  ...,  0.0400, -0.0679, -0.0813],
+        [-0.2085, -0.2922,  0.0577,  ..., -0.0982, -0.0569, -0.1958],
+        ...,
+        [ 0.0755,  0.1739, -0.0971,  ..., -0.1573,  0.0883,  0.0927],
+        [ 0.0320, -0.1931, -0.0478,  ..., -0.1385, -0.1299, -0.1148],
+        [-0.2302, -0.0741, -0.0641,  ...,  0.1068, -0.3027,  0.1093]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  3.9581e-09,
+          2.3283e-10,  1.6298e-09],
+        [-8.6147e-09,  6.9849e-10,  0.0000e+00,  ..., -7.6834e-09,
+          2.3283e-09,  4.1910e-09],
+        [ 2.5611e-09,  6.9849e-10,  0.0000e+00,  ...,  4.4238e-09,
+          2.3283e-09,  3.2596e-09],
+        ...,
+        [ 6.2864e-09, -1.1642e-09,  0.0000e+00,  ...,  4.8662e-08,
+          5.9837e-08,  9.5461e-08],
+        [ 1.3970e-09,  0.0000e+00,  0.0000e+00,  ...,  9.0804e-09,
+          9.3132e-10,  5.1223e-09],
+        [ 2.9104e-08,  9.3132e-10,  0.0000e+00,  ..., -9.0338e-08,
+          1.1642e-09, -9.5228e-08]], device='cuda:0')
+Epoch 318, bias, value: tensor([ 0.0248, -0.0342,  0.0206, -0.0262,  0.0397,  0.0187,  0.0057, -0.0083,
+        -0.0293, -0.0142], device='cuda:0'), grad: tensor([ 1.9558e-08,  7.9162e-09, -3.7113e-07, -2.1327e-07, -5.4063e-07,
+         2.7171e-07,  1.2107e-08,  3.8813e-07,  2.5146e-08,  4.0862e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 317, time 220.93, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.4983 re_mapping 0.0031 re_causal 0.0093 /// teacc 99.21 lr 0.00010000
+Epoch 319, weight, value: tensor([[-0.2974,  0.2259, -0.0402,  ..., -0.1189,  0.0169,  0.0128],
+        [ 0.0115, -0.1522, -0.0411,  ...,  0.0403, -0.0682, -0.0817],
+        [-0.2098, -0.2928,  0.0577,  ..., -0.1001, -0.0569, -0.1984],
+        ...,
+        [ 0.0755,  0.1741, -0.0971,  ..., -0.1575,  0.0883,  0.0932],
+        [ 0.0317, -0.1934, -0.0477,  ..., -0.1387, -0.1299, -0.1149],
+        [-0.2315, -0.0746, -0.0642,  ...,  0.1067, -0.3037,  0.1094]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09, -1.0477e-08,  0.0000e+00,  ...,  2.0955e-09,
+         -2.3283e-10, -2.0955e-09],
+        [ 1.9092e-08,  3.0966e-08,  0.0000e+00,  ...,  2.0489e-08,
+          1.9092e-08,  2.9104e-08],
+        [ 6.9849e-09,  6.5193e-09,  0.0000e+00,  ...,  6.2864e-09,
+          7.6834e-09,  1.2806e-08],
+        ...,
+        [ 1.3039e-07, -4.1211e-08,  0.0000e+00,  ...,  1.1059e-07,
+         -2.3982e-08, -5.1921e-08],
+        [ 1.6298e-09,  4.6566e-10,  0.0000e+00,  ...,  1.6298e-09,
+          2.5146e-08,  1.5134e-08],
+        [ 9.2201e-08,  6.0536e-09,  0.0000e+00,  ...,  1.5041e-07,
+          3.9581e-09,  1.2806e-08]], device='cuda:0')
+Epoch 319, bias, value: tensor([ 0.0248, -0.0341,  0.0192, -0.0242,  0.0397,  0.0169,  0.0056, -0.0081,
+        -0.0293, -0.0142], device='cuda:0'), grad: tensor([-7.9162e-09,  1.9162e-07,  8.4518e-08, -1.3667e-07, -1.2275e-06,
+         4.6333e-08,  4.9826e-08,  3.7998e-07,  1.1409e-07,  5.1502e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 318, time 220.83, cls_loss 0.0006 cls_loss_mapping 0.0013 cls_loss_causal 0.4771 re_mapping 0.0033 re_causal 0.0094 /// teacc 99.13 lr 0.00010000
+Epoch 320, weight, value: tensor([[-0.2976,  0.2260, -0.0402,  ..., -0.1192,  0.0174,  0.0128],
+        [ 0.0116, -0.1522, -0.0411,  ...,  0.0403, -0.0684, -0.0818],
+        [-0.2101, -0.2936,  0.0577,  ..., -0.1004, -0.0569, -0.1985],
+        ...,
+        [ 0.0754,  0.1740, -0.0971,  ..., -0.1577,  0.0883,  0.0932],
+        [ 0.0318, -0.1936, -0.0476,  ..., -0.1401, -0.1299, -0.1149],
+        [-0.2321, -0.0751, -0.0642,  ...,  0.1068, -0.3040,  0.1097]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-10, -3.6322e-08,  0.0000e+00,  ...,  8.1491e-10,
+         -1.1642e-10, -4.6566e-10],
+        [-5.3551e-09,  2.4447e-09,  0.0000e+00,  ..., -5.9372e-09,
+          1.3970e-09,  2.7940e-09],
+        [ 3.4925e-10,  2.5611e-09,  0.0000e+00,  ...,  5.8208e-10,
+         -3.7253e-09,  4.6566e-10],
+        ...,
+        [ 3.2596e-09, -2.0955e-09,  0.0000e+00,  ...,  5.7044e-09,
+          2.3283e-09, -1.6298e-09],
+        [ 1.5134e-09,  9.3132e-10,  0.0000e+00,  ...,  1.2806e-09,
+          0.0000e+00,  8.1491e-10],
+        [ 1.7462e-09,  1.4319e-08,  0.0000e+00,  ..., -9.1968e-09,
+          8.1491e-10, -6.1700e-09]], device='cuda:0')
+Epoch 320, bias, value: tensor([ 0.0249, -0.0340,  0.0193, -0.0240,  0.0397,  0.0162,  0.0061, -0.0082,
+        -0.0294, -0.0142], device='cuda:0'), grad: tensor([-6.6007e-08, -1.0361e-08, -1.3656e-07,  1.9325e-08,  1.6880e-08,
+        -2.9104e-09,  6.7404e-08,  1.5285e-07, -2.9104e-08,  1.1176e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 319, time 220.69, cls_loss 0.0006 cls_loss_mapping 0.0011 cls_loss_causal 0.4987 re_mapping 0.0032 re_causal 0.0094 /// teacc 99.21 lr 0.00010000
+Epoch 321, weight, value: tensor([[-0.2984,  0.2262, -0.0406,  ..., -0.1196,  0.0173,  0.0123],
+        [ 0.0118, -0.1527, -0.0409,  ...,  0.0407, -0.0670, -0.0819],
+        [-0.2111, -0.2944,  0.0577,  ..., -0.1008, -0.0572, -0.1988],
+        ...,
+        [ 0.0753,  0.1746, -0.0972,  ..., -0.1583,  0.0882,  0.0931],
+        [ 0.0318, -0.1938, -0.0476,  ..., -0.1407, -0.1300, -0.1149],
+        [-0.2342, -0.0751, -0.0637,  ...,  0.1068, -0.3044,  0.1101]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  8.1491e-10,
+          1.1642e-10,  1.1642e-10],
+        [ 6.9849e-10,  4.6566e-10,  0.0000e+00,  ...,  8.1491e-10,
+          1.3970e-09,  2.7940e-09],
+        [ 3.7253e-09,  1.1642e-10,  0.0000e+00,  ...,  5.8208e-10,
+          2.5146e-08,  4.5402e-09],
+        ...,
+        [-1.1059e-08, -4.4238e-09,  0.0000e+00,  ...,  1.7462e-09,
+         -5.8208e-09, -3.5157e-08],
+        [ 3.2596e-09,  2.3283e-10,  2.3283e-10,  ...,  1.6298e-09,
+          2.6776e-09,  5.2387e-09],
+        [ 4.7730e-09,  4.6566e-09,  0.0000e+00,  ..., -4.3423e-08,
+          5.9372e-09,  2.3283e-10]], device='cuda:0')
+Epoch 321, bias, value: tensor([ 0.0248, -0.0338,  0.0194, -0.0239,  0.0398,  0.0161,  0.0060, -0.0085,
+        -0.0293, -0.0142], device='cuda:0'), grad: tensor([ 4.5402e-09,  2.0955e-08,  1.8545e-07, -1.9313e-07,  1.0279e-07,
+         1.2456e-08, -2.5611e-09, -1.1444e-07,  4.5053e-08, -4.0978e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 320, time 220.54, cls_loss 0.0004 cls_loss_mapping 0.0022 cls_loss_causal 0.4672 re_mapping 0.0034 re_causal 0.0099 /// teacc 99.17 lr 0.00010000
+Epoch 322, weight, value: tensor([[-0.2986,  0.2262, -0.0406,  ..., -0.1212,  0.0175,  0.0122],
+        [ 0.0118, -0.1527, -0.0409,  ...,  0.0408, -0.0673, -0.0821],
+        [-0.2114, -0.2947,  0.0579,  ..., -0.1011, -0.0568, -0.1989],
+        ...,
+        [ 0.0753,  0.1747, -0.0972,  ..., -0.1587,  0.0882,  0.0931],
+        [ 0.0323, -0.1938, -0.0477,  ..., -0.1408, -0.1299, -0.1149],
+        [-0.2347, -0.0755, -0.0637,  ...,  0.1068, -0.3048,  0.1103]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-09,  1.1642e-09,  1.1642e-10,  ...,  1.4552e-08,
+          1.1642e-10,  6.2864e-09],
+        [ 4.9011e-08,  0.0000e+00,  5.3551e-09,  ...,  5.1339e-08,
+          2.3283e-09,  3.2596e-09],
+        [ 4.3074e-09,  1.1642e-10,  2.3283e-10,  ...,  8.4983e-09,
+         -1.0128e-08,  5.8208e-10],
+        ...,
+        [ 4.5635e-08,  0.0000e+00,  4.0745e-09,  ...,  8.0210e-08,
+          2.9104e-09,  1.2340e-08],
+        [ 1.0477e-09,  0.0000e+00,  1.1642e-10,  ...,  3.0734e-08,
+          3.9581e-09,  1.6531e-08],
+        [ 1.6415e-08,  0.0000e+00,  1.5134e-09,  ..., -5.0431e-07,
+          3.4925e-10, -2.9942e-07]], device='cuda:0')
+Epoch 322, bias, value: tensor([ 0.0245, -0.0336,  0.0198, -0.0240,  0.0398,  0.0160,  0.0063, -0.0087,
+        -0.0292, -0.0141], device='cuda:0'), grad: tensor([ 4.8312e-08,  1.5332e-07, -1.5169e-07,  5.0152e-07,  8.6147e-09,
+         5.2620e-07,  7.6834e-08,  2.7567e-07,  3.1781e-08, -1.4529e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 321, time 220.94, cls_loss 0.0005 cls_loss_mapping 0.0015 cls_loss_causal 0.4760 re_mapping 0.0033 re_causal 0.0092 /// teacc 99.19 lr 0.00010000
+Epoch 323, weight, value: tensor([[-0.2991,  0.2264, -0.0408,  ..., -0.1215,  0.0181,  0.0123],
+        [ 0.0118, -0.1528, -0.0409,  ...,  0.0408, -0.0677, -0.0822],
+        [-0.2125, -0.2956,  0.0580,  ..., -0.1007, -0.0566, -0.1990],
+        ...,
+        [ 0.0753,  0.1748, -0.0972,  ..., -0.1589,  0.0882,  0.0932],
+        [ 0.0326, -0.1940, -0.0479,  ..., -0.1409, -0.1299, -0.1149],
+        [-0.2360, -0.0761, -0.0634,  ...,  0.1068, -0.3051,  0.1104]],
+       device='cuda:0'), grad: tensor([[ 3.4925e-10,  1.1642e-10,  0.0000e+00,  ...,  1.6298e-09,
+          5.8208e-10,  4.6566e-10],
+        [ 3.6089e-09,  5.1223e-09,  0.0000e+00,  ...,  3.2596e-09,
+          2.2119e-09,  1.9791e-09],
+        [ 8.1491e-10,  1.0477e-09,  0.0000e+00,  ...,  2.7940e-09,
+          3.4925e-10,  3.4925e-10],
+        ...,
+        [-2.2119e-09, -9.6625e-09,  0.0000e+00,  ...,  1.1642e-08,
+         -1.7462e-09,  5.7044e-09],
+        [ 5.3551e-09,  1.1642e-10,  0.0000e+00,  ...,  1.3970e-09,
+          1.2456e-08,  9.3132e-10],
+        [ 3.6205e-08,  1.8626e-09,  0.0000e+00,  ...,  5.6112e-08,
+          1.6182e-08, -1.2573e-08]], device='cuda:0')
+Epoch 323, bias, value: tensor([ 0.0247, -0.0338,  0.0208, -0.0242,  0.0398,  0.0159,  0.0061, -0.0088,
+        -0.0289, -0.0141], device='cuda:0'), grad: tensor([ 1.1874e-08,  2.6426e-08,  2.2002e-08,  1.9316e-06, -1.2666e-07,
+        -2.0899e-06, -6.4028e-08,  2.1537e-08,  6.5309e-08,  2.2596e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 322, time 221.16, cls_loss 0.0004 cls_loss_mapping 0.0012 cls_loss_causal 0.4550 re_mapping 0.0033 re_causal 0.0097 /// teacc 99.22 lr 0.00010000
+Epoch 324, weight, value: tensor([[-0.2993,  0.2265, -0.0408,  ..., -0.1219,  0.0182,  0.0123],
+        [ 0.0118, -0.1529, -0.0412,  ...,  0.0408, -0.0685, -0.0823],
+        [-0.2132, -0.2959,  0.0580,  ..., -0.1009, -0.0566, -0.1991],
+        ...,
+        [ 0.0754,  0.1750, -0.0972,  ..., -0.1591,  0.0882,  0.0932],
+        [ 0.0325, -0.1941, -0.0480,  ..., -0.1412, -0.1299, -0.1150],
+        [-0.2368, -0.0765, -0.0634,  ...,  0.1069, -0.3056,  0.1106]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-10, -2.0373e-08,  0.0000e+00,  ...,  6.9849e-10,
+         -3.7253e-09, -3.4925e-10],
+        [-2.3283e-09,  6.9849e-10,  0.0000e+00,  ..., -5.7044e-09,
+          4.6566e-10,  8.1491e-10],
+        [ 4.6566e-10,  1.6298e-09,  0.0000e+00,  ...,  1.5134e-09,
+          5.8208e-10,  1.1642e-10],
+        ...,
+        [ 1.7462e-09,  5.8208e-10,  1.1642e-10,  ...,  9.1968e-09,
+          3.4925e-10,  3.3760e-09],
+        [-1.2806e-09,  5.8208e-10,  0.0000e+00,  ...,  1.8277e-08,
+          1.1642e-10,  1.0245e-08],
+        [ 3.4925e-10,  1.6298e-09,  0.0000e+00,  ..., -3.0035e-08,
+          3.4925e-10, -1.9907e-08]], device='cuda:0')
+Epoch 324, bias, value: tensor([ 0.0246, -0.0339,  0.0210, -0.0243,  0.0397,  0.0158,  0.0064, -0.0089,
+        -0.0289, -0.0141], device='cuda:0'), grad: tensor([-4.4121e-08,  2.7940e-08, -8.6147e-09,  2.7823e-08,  3.1199e-08,
+         2.8173e-08,  1.9791e-08,  3.9698e-08, -4.6217e-08, -6.0536e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 323, time 221.08, cls_loss 0.0003 cls_loss_mapping 0.0007 cls_loss_causal 0.4725 re_mapping 0.0034 re_causal 0.0101 /// teacc 99.18 lr 0.00010000
+Epoch 325, weight, value: tensor([[-0.2996,  0.2265, -0.0408,  ..., -0.1220,  0.0183,  0.0123],
+        [ 0.0118, -0.1529, -0.0412,  ...,  0.0410, -0.0688, -0.0823],
+        [-0.2137, -0.2962,  0.0582,  ..., -0.1022, -0.0560, -0.1992],
+        ...,
+        [ 0.0754,  0.1751, -0.0972,  ..., -0.1593,  0.0882,  0.0933],
+        [ 0.0324, -0.1943, -0.0480,  ..., -0.1414, -0.1299, -0.1150],
+        [-0.2374, -0.0770, -0.0635,  ...,  0.1069, -0.3059,  0.1107]],
+       device='cuda:0'), grad: tensor([[ 5.8208e-10, -3.1316e-08,  0.0000e+00,  ...,  1.7462e-09,
+          0.0000e+00, -4.8894e-09],
+        [-9.7789e-09,  1.0477e-09,  0.0000e+00,  ..., -4.4936e-08,
+          1.9791e-09,  7.3342e-09],
+        [ 1.6298e-09,  6.9849e-10,  0.0000e+00,  ...,  5.5879e-09,
+          1.1642e-10,  3.4925e-10],
+        ...,
+        [-2.7707e-08,  1.0477e-09,  0.0000e+00,  ...,  6.5193e-09,
+         -1.3039e-08, -5.8906e-08],
+        [ 1.6298e-09,  1.7462e-09,  0.0000e+00,  ..., -1.2573e-08,
+         -3.4925e-09,  1.7462e-09],
+        [ 2.0722e-08,  1.1525e-08,  0.0000e+00,  ...,  8.1491e-10,
+          8.7311e-09,  3.9814e-08]], device='cuda:0')
+Epoch 325, bias, value: tensor([ 0.0246, -0.0338,  0.0212, -0.0245,  0.0398,  0.0159,  0.0060, -0.0090,
+        -0.0288, -0.0141], device='cuda:0'), grad: tensor([-5.7276e-08,  2.6589e-07, -1.4696e-06,  5.4389e-07,  3.8301e-08,
+         5.5879e-09,  2.4587e-07,  4.5821e-07, -1.6287e-07,  1.5832e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 324, time 221.24, cls_loss 0.0006 cls_loss_mapping 0.0025 cls_loss_causal 0.4854 re_mapping 0.0034 re_causal 0.0096 /// teacc 99.02 lr 0.00010000
+Epoch 326, weight, value: tensor([[-0.3002,  0.2268, -0.0407,  ..., -0.1223,  0.0183,  0.0123],
+        [ 0.0124, -0.1528, -0.0411,  ...,  0.0432, -0.0658, -0.0810],
+        [-0.2138, -0.2969,  0.0583,  ..., -0.1037, -0.0554, -0.1994],
+        ...,
+        [ 0.0750,  0.1752, -0.0971,  ..., -0.1614,  0.0870,  0.0928],
+        [ 0.0305, -0.1948, -0.0483,  ..., -0.1419, -0.1301, -0.1154],
+        [-0.2398, -0.0779, -0.0636,  ...,  0.1069, -0.3089,  0.1106]],
+       device='cuda:0'), grad: tensor([[ 3.4925e-10, -1.1676e-07,  0.0000e+00,  ...,  5.8208e-10,
+          0.0000e+00, -3.6089e-09],
+        [-2.6193e-08, -1.6298e-09,  0.0000e+00,  ..., -2.0606e-08,
+          3.4925e-10,  6.9849e-10],
+        [ 1.1642e-09,  2.0955e-09,  0.0000e+00,  ...,  2.7940e-09,
+          4.6566e-10,  4.6566e-10],
+        ...,
+        [ 1.7812e-08,  2.3283e-10,  0.0000e+00,  ...,  1.0594e-08,
+          2.5611e-09,  5.8208e-10],
+        [-5.8208e-10,  1.5134e-09,  0.0000e+00,  ...,  1.9791e-09,
+          0.0000e+00,  2.3283e-10],
+        [ 1.8626e-09,  9.8953e-09,  0.0000e+00,  ...,  1.0477e-09,
+          2.3283e-10,  6.9849e-10]], device='cuda:0')
+Epoch 326, bias, value: tensor([ 0.0249, -0.0318,  0.0215, -0.0267,  0.0399,  0.0180,  0.0057, -0.0101,
+        -0.0291, -0.0142], device='cuda:0'), grad: tensor([-2.5611e-07, -1.4482e-07,  2.0140e-08, -1.5134e-09,  1.9907e-08,
+         4.2142e-08,  2.3737e-07,  9.0804e-08, -2.7358e-08,  2.9104e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 325, time 220.92, cls_loss 0.0004 cls_loss_mapping 0.0020 cls_loss_causal 0.4696 re_mapping 0.0034 re_causal 0.0098 /// teacc 99.18 lr 0.00010000
+Epoch 327, weight, value: tensor([[-0.3006,  0.2270, -0.0408,  ..., -0.1224,  0.0183,  0.0122],
+        [ 0.0125, -0.1529, -0.0411,  ...,  0.0434, -0.0659, -0.0811],
+        [-0.2147, -0.2974,  0.0586,  ..., -0.1046, -0.0557, -0.1996],
+        ...,
+        [ 0.0749,  0.1753, -0.0971,  ..., -0.1616,  0.0870,  0.0928],
+        [ 0.0305, -0.1953, -0.0484,  ..., -0.1420, -0.1301, -0.1154],
+        [-0.2420, -0.0786, -0.0636,  ...,  0.1068, -0.3093,  0.1106]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.9791e-09,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00, -1.1642e-10],
+        [-4.7730e-09,  2.3283e-10,  0.0000e+00,  ..., -3.7253e-09,
+          3.4925e-10,  1.9791e-09],
+        [ 1.8626e-09,  1.1642e-10,  0.0000e+00,  ...,  2.6776e-09,
+          6.9849e-10,  4.6566e-10],
+        ...,
+        [ 1.0710e-07,  0.0000e+00,  0.0000e+00,  ...,  4.0978e-08,
+          4.3074e-09,  6.8685e-09],
+        [ 1.1642e-10,  1.1642e-10,  0.0000e+00,  ...,  1.7462e-09,
+          3.4925e-10,  8.1491e-10],
+        [ 9.1968e-09,  2.6776e-09,  0.0000e+00,  ..., -1.8743e-08,
+          2.3283e-10, -2.4564e-08]], device='cuda:0')
+Epoch 327, bias, value: tensor([ 0.0251, -0.0319,  0.0219, -0.0268,  0.0401,  0.0182,  0.0053, -0.0102,
+        -0.0291, -0.0144], device='cuda:0'), grad: tensor([ 1.7462e-09, -3.2014e-08, -1.0245e-08, -2.9802e-08, -1.8755e-07,
+         2.5029e-08, -1.3970e-08,  2.7055e-07,  1.8976e-08, -4.8196e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 326, time 220.77, cls_loss 0.0007 cls_loss_mapping 0.0015 cls_loss_causal 0.4988 re_mapping 0.0033 re_causal 0.0099 /// teacc 99.08 lr 0.00010000
+Epoch 328, weight, value: tensor([[-0.3010,  0.2271, -0.0416,  ..., -0.1228,  0.0183,  0.0122],
+        [ 0.0125, -0.1532, -0.0407,  ...,  0.0434, -0.0660, -0.0813],
+        [-0.2174, -0.2977,  0.0575,  ..., -0.1052, -0.0560, -0.1998],
+        ...,
+        [ 0.0750,  0.1756, -0.0971,  ..., -0.1618,  0.0870,  0.0929],
+        [ 0.0310, -0.1956, -0.0499,  ..., -0.1421, -0.1301, -0.1154],
+        [-0.2436, -0.0791, -0.0636,  ...,  0.1046, -0.3095,  0.1114]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10, -1.6531e-08,  0.0000e+00,  ...,  3.0268e-09,
+         -2.3283e-10,  2.3283e-10],
+        [ 1.1874e-08,  2.0023e-08,  0.0000e+00,  ...,  7.2177e-09,
+          4.1910e-09,  7.2177e-09],
+        [ 1.1642e-08,  1.0710e-08,  0.0000e+00,  ...,  0.0000e+00,
+          1.3970e-09,  6.0536e-09],
+        ...,
+        [-2.0955e-08, -2.9569e-08,  0.0000e+00,  ...,  2.0489e-08,
+         -2.0955e-09,  3.0268e-09],
+        [ 4.6566e-10,  1.1642e-09,  0.0000e+00,  ...,  1.1642e-09,
+          2.3283e-10, -3.2596e-08],
+        [ 6.5193e-09,  5.3551e-09,  0.0000e+00,  ..., -4.2608e-08,
+          6.9849e-10, -1.8394e-08]], device='cuda:0')
+Epoch 328, bias, value: tensor([ 0.0251, -0.0318,  0.0213, -0.0267,  0.0423,  0.0180,  0.0055, -0.0102,
+        -0.0290, -0.0166], device='cuda:0'), grad: tensor([ 1.4924e-07,  1.4179e-07,  1.6834e-07,  8.1211e-07,  5.5181e-08,
+         9.8906e-07,  4.7777e-07,  1.5181e-07, -3.6433e-06,  7.2364e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 327, time 221.09, cls_loss 0.0006 cls_loss_mapping 0.0011 cls_loss_causal 0.4507 re_mapping 0.0033 re_causal 0.0090 /// teacc 99.12 lr 0.00010000
+Epoch 329, weight, value: tensor([[-0.3012,  0.2281, -0.0416,  ..., -0.1233,  0.0183,  0.0143],
+        [ 0.0124, -0.1545, -0.0407,  ...,  0.0433, -0.0663, -0.0820],
+        [-0.2178, -0.2983,  0.0575,  ..., -0.1057, -0.0562, -0.2001],
+        ...,
+        [ 0.0751,  0.1770, -0.0971,  ..., -0.1620,  0.0873,  0.0934],
+        [ 0.0308, -0.1964, -0.0499,  ..., -0.1430, -0.1302, -0.1155],
+        [-0.2445, -0.0823, -0.0636,  ...,  0.1042, -0.3103,  0.1111]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10, -2.7940e-08,  0.0000e+00,  ...,  2.7940e-09,
+         -9.3132e-10, -9.3132e-10],
+        [-2.7241e-08,  7.2177e-09, -1.0245e-08,  ..., -5.2620e-08,
+         -4.1910e-09,  1.6298e-09],
+        [ 1.6298e-09,  1.6298e-09,  6.9849e-10,  ...,  3.7253e-09,
+          4.6566e-10,  2.3283e-10],
+        ...,
+        [ 2.6776e-08,  2.3283e-10,  8.8476e-09,  ...,  5.1688e-08,
+          4.8894e-09,  2.0955e-09],
+        [ 0.0000e+00,  1.1642e-09,  0.0000e+00,  ...,  4.6566e-10,
+         -1.3970e-09,  2.3283e-10],
+        [ 9.3132e-10,  3.0268e-09,  0.0000e+00,  ..., -4.2142e-08,
+          4.6566e-10, -4.4936e-08]], device='cuda:0')
+Epoch 329, bias, value: tensor([ 0.0263, -0.0324,  0.0214, -0.0270,  0.0427,  0.0181,  0.0056, -0.0098,
+        -0.0291, -0.0171], device='cuda:0'), grad: tensor([ 2.7474e-08, -4.0652e-07,  4.0047e-08,  7.0781e-08,  5.6112e-08,
+         1.2666e-07,  1.1548e-07,  1.4417e-06, -1.5395e-06,  7.2410e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 328, time 220.66, cls_loss 0.0006 cls_loss_mapping 0.0010 cls_loss_causal 0.4724 re_mapping 0.0032 re_causal 0.0098 /// teacc 99.12 lr 0.00010000
+Epoch 330, weight, value: tensor([[-0.3016,  0.2282, -0.0416,  ..., -0.1238,  0.0183,  0.0143],
+        [ 0.0131, -0.1535, -0.0407,  ...,  0.0435, -0.0662, -0.0820],
+        [-0.2183, -0.2988,  0.0575,  ..., -0.1059, -0.0565, -0.2006],
+        ...,
+        [ 0.0746,  0.1763, -0.0971,  ..., -0.1627,  0.0874,  0.0933],
+        [ 0.0305, -0.1966, -0.0499,  ..., -0.1438, -0.1302, -0.1155],
+        [-0.2455, -0.0826, -0.0636,  ...,  0.1042, -0.3116,  0.1118]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  7.4506e-09,
+          0.0000e+00,  0.0000e+00],
+        [-2.2585e-08,  2.3283e-10, -9.3132e-09,  ..., -5.5414e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 6.2864e-09,  2.3283e-10,  2.3283e-09,  ...,  1.6997e-08,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.3504e-08,  0.0000e+00,  5.8208e-09,  ...,  3.2596e-08,
+          0.0000e+00,  2.3283e-10],
+        [ 4.6566e-10,  0.0000e+00,  2.3283e-10,  ...,  3.0268e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00, -9.3132e-10]], device='cuda:0')
+Epoch 330, bias, value: tensor([ 0.0262, -0.0312,  0.0213, -0.0272,  0.0427,  0.0181,  0.0057, -0.0107,
+        -0.0290, -0.0170], device='cuda:0'), grad: tensor([ 2.4913e-08, -6.0536e-07,  1.0733e-07,  6.0536e-09,  3.5507e-07,
+         2.5844e-08, -3.4273e-07,  4.1677e-07,  1.7229e-08,  5.3551e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 329, time 221.24, cls_loss 0.0007 cls_loss_mapping 0.0015 cls_loss_causal 0.4627 re_mapping 0.0032 re_causal 0.0093 /// teacc 99.16 lr 0.00010000
+Epoch 331, weight, value: tensor([[-0.3019,  0.2285, -0.0416,  ..., -0.1242,  0.0183,  0.0143],
+        [ 0.0130, -0.1548, -0.0407,  ...,  0.0436, -0.0669, -0.0828],
+        [-0.2202, -0.3026,  0.0574,  ..., -0.1066, -0.0561, -0.2025],
+        ...,
+        [ 0.0749,  0.1805, -0.0971,  ..., -0.1630,  0.0876,  0.0945],
+        [ 0.0301, -0.1975, -0.0500,  ..., -0.1460, -0.1302, -0.1159],
+        [-0.2464, -0.0840, -0.0636,  ...,  0.1043, -0.3150,  0.1118]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -2.3283e-09,  0.0000e+00,  ...,  6.9849e-09,
+          6.9849e-10,  5.1223e-09],
+        [ 4.6566e-10,  4.1910e-09,  0.0000e+00,  ...,  1.6298e-09,
+          2.5611e-09,  6.7521e-09],
+        [ 0.0000e+00,  6.9849e-10,  0.0000e+00,  ...,  4.6566e-10,
+          2.5611e-09,  1.8626e-09],
+        ...,
+        [ 9.3132e-10, -5.1223e-09,  0.0000e+00,  ...,  2.9337e-08,
+          6.9849e-10,  1.5134e-08],
+        [ 1.1642e-09,  2.3283e-10,  0.0000e+00,  ...,  3.2596e-09,
+          2.3283e-10,  2.3283e-09],
+        [ 1.6298e-09,  2.7940e-09,  0.0000e+00,  ..., -2.2678e-07,
+         -2.4680e-08, -1.7742e-07]], device='cuda:0')
+Epoch 331, bias, value: tensor([ 0.0263, -0.0318,  0.0197, -0.0270,  0.0427,  0.0181,  0.0058, -0.0100,
+        -0.0291, -0.0170], device='cuda:0'), grad: tensor([ 1.3039e-08,  1.1874e-08,  1.0710e-08, -1.1642e-09,  3.7369e-07,
+        -2.1653e-08,  2.4913e-08,  5.2154e-08,  3.9581e-09, -4.4773e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 330, time 220.85, cls_loss 0.0005 cls_loss_mapping 0.0010 cls_loss_causal 0.4529 re_mapping 0.0033 re_causal 0.0095 /// teacc 99.13 lr 0.00010000
+Epoch 332, weight, value: tensor([[-0.3022,  0.2287, -0.0416,  ..., -0.1247,  0.0182,  0.0143],
+        [ 0.0130, -0.1557, -0.0406,  ...,  0.0435, -0.0674, -0.0833],
+        [-0.2205, -0.3027,  0.0574,  ..., -0.1068, -0.0560, -0.2030],
+        ...,
+        [ 0.0750,  0.1813, -0.0971,  ..., -0.1636,  0.0877,  0.0947],
+        [ 0.0299, -0.1982, -0.0500,  ..., -0.1463, -0.1302, -0.1160],
+        [-0.2473, -0.0845, -0.0637,  ...,  0.1043, -0.3155,  0.1121]],
+       device='cuda:0'), grad: tensor([[ 2.0955e-09, -9.8720e-08,  0.0000e+00,  ...,  7.5670e-08,
+          0.0000e+00, -6.7521e-09],
+        [ 2.0489e-08,  1.2107e-08,  0.0000e+00,  ...,  2.8638e-08,
+          0.0000e+00,  1.2340e-08],
+        [ 3.9581e-09,  3.1432e-08,  0.0000e+00,  ...,  5.3551e-09,
+          0.0000e+00,  3.0268e-09],
+        ...,
+        [ 4.3306e-08, -9.7090e-08,  0.0000e+00,  ...,  1.5832e-08,
+          0.0000e+00, -9.3132e-08],
+        [-9.8720e-08,  7.9162e-09,  0.0000e+00,  ...,  8.1491e-09,
+          0.0000e+00,  4.6566e-10],
+        [ 3.5623e-08,  1.1269e-07,  0.0000e+00,  ...,  9.9186e-07,
+          0.0000e+00,  7.1945e-08]], device='cuda:0')
+Epoch 332, bias, value: tensor([ 0.0264, -0.0321,  0.0203, -0.0269,  0.0427,  0.0179,  0.0057, -0.0099,
+        -0.0292, -0.0170], device='cuda:0'), grad: tensor([-9.1502e-08,  1.9441e-07,  1.5390e-07,  3.9116e-08, -1.9129e-06,
+         1.6671e-07, -3.7486e-08,  7.4273e-08, -7.4785e-07,  2.1681e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 331, time 221.01, cls_loss 0.0005 cls_loss_mapping 0.0015 cls_loss_causal 0.4881 re_mapping 0.0033 re_causal 0.0098 /// teacc 99.18 lr 0.00010000
+Epoch 333, weight, value: tensor([[-0.3029,  0.2290, -0.0417,  ..., -0.1249,  0.0188,  0.0144],
+        [ 0.0129, -0.1558, -0.0404,  ...,  0.0437, -0.0675, -0.0834],
+        [-0.2209, -0.3031,  0.0567,  ..., -0.1090, -0.0561, -0.2032],
+        ...,
+        [ 0.0750,  0.1814, -0.0971,  ..., -0.1637,  0.0878,  0.0950],
+        [ 0.0296, -0.1984, -0.0500,  ..., -0.1446, -0.1302, -0.1160],
+        [-0.2484, -0.0847, -0.0637,  ...,  0.1043, -0.3160,  0.1120]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  2.9104e-08,
+          0.0000e+00,  0.0000e+00],
+        [-1.1642e-09,  1.1176e-08,  0.0000e+00,  ..., -1.2573e-08,
+          2.3283e-10,  1.4668e-08],
+        [ 2.3283e-10,  2.3283e-10,  0.0000e+00,  ...,  7.2177e-09,
+          2.3283e-10,  4.6566e-10],
+        ...,
+        [-1.7695e-08, -2.2352e-08,  0.0000e+00,  ..., -6.9849e-10,
+          2.3283e-10, -3.1432e-08],
+        [ 6.9849e-10,  4.6566e-10,  0.0000e+00,  ...,  1.0943e-08,
+          0.0000e+00,  4.6566e-10],
+        [ 2.2817e-08,  1.0710e-08,  0.0000e+00,  ...,  5.3318e-08,
+          2.3283e-10,  1.4203e-08]], device='cuda:0')
+Epoch 333, bias, value: tensor([ 0.0266, -0.0320,  0.0204, -0.0268,  0.0427,  0.0178,  0.0048, -0.0100,
+        -0.0287, -0.0170], device='cuda:0'), grad: tensor([ 1.1479e-07,  3.6042e-07, -2.5984e-07,  1.2806e-08,  9.9419e-08,
+         9.7090e-08, -7.0967e-07, -7.4506e-08,  1.9744e-07,  1.6694e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 332, time 221.08, cls_loss 0.0004 cls_loss_mapping 0.0011 cls_loss_causal 0.4751 re_mapping 0.0032 re_causal 0.0096 /// teacc 99.21 lr 0.00010000
+Epoch 334, weight, value: tensor([[-0.3034,  0.2290, -0.0417,  ..., -0.1253,  0.0188,  0.0143],
+        [ 0.0129, -0.1567, -0.0404,  ...,  0.0437, -0.0676, -0.0837],
+        [-0.2213, -0.3031,  0.0567,  ..., -0.1092, -0.0561, -0.2034],
+        ...,
+        [ 0.0751,  0.1821, -0.0971,  ..., -0.1638,  0.0879,  0.0953],
+        [ 0.0289, -0.1986, -0.0501,  ..., -0.1448, -0.1303, -0.1161],
+        [-0.2493, -0.0848, -0.0637,  ...,  0.1043, -0.3163,  0.1121]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10, -6.2864e-09,  0.0000e+00,  ...,  2.0955e-09,
+          0.0000e+00,  6.9849e-10],
+        [ 3.8184e-08,  1.9791e-08, -1.1642e-09,  ..., -2.5611e-09,
+          2.0722e-08,  2.5146e-08],
+        [ 4.6566e-09,  1.3970e-09,  2.3283e-10,  ...,  9.3132e-10,
+          1.1642e-09,  1.6298e-09],
+        ...,
+        [-5.3085e-08, -2.4680e-08,  4.6566e-10,  ...,  4.6566e-09,
+         -2.3283e-08, -2.8638e-08],
+        [ 3.0268e-09,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+         -1.6298e-09,  1.1642e-09],
+        [ 1.6298e-09,  1.1642e-09,  0.0000e+00,  ..., -4.0047e-08,
+          6.9849e-10, -1.8626e-08]], device='cuda:0')
+Epoch 334, bias, value: tensor([ 0.0265, -0.0325,  0.0205, -0.0269,  0.0427,  0.0178,  0.0049, -0.0096,
+        -0.0288, -0.0170], device='cuda:0'), grad: tensor([-2.5611e-09,  1.3271e-07, -1.0710e-08,  2.0489e-08,  8.0094e-08,
+        -3.7253e-08,  4.0513e-08, -1.3853e-07, -2.7940e-09, -6.9616e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 333, time 221.08, cls_loss 0.0005 cls_loss_mapping 0.0010 cls_loss_causal 0.4580 re_mapping 0.0032 re_causal 0.0095 /// teacc 99.18 lr 0.00010000
+Epoch 335, weight, value: tensor([[-0.3044,  0.2291, -0.0419,  ..., -0.1259,  0.0189,  0.0143],
+        [ 0.0131, -0.1568, -0.0404,  ...,  0.0440, -0.0676, -0.0836],
+        [-0.2220, -0.3032,  0.0567,  ..., -0.1098, -0.0556, -0.2037],
+        ...,
+        [ 0.0749,  0.1822, -0.0971,  ..., -0.1643,  0.0878,  0.0953],
+        [ 0.0290, -0.1988, -0.0503,  ..., -0.1449, -0.1303, -0.1161],
+        [-0.2537, -0.0850, -0.0637,  ...,  0.1042, -0.3164,  0.1122]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -3.0268e-09,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00, -2.3283e-10],
+        [-1.5600e-08,  2.3283e-10,  2.3283e-10,  ..., -3.2596e-08,
+          0.0000e+00,  2.3283e-10],
+        [ 3.2596e-09,  0.0000e+00, -6.9849e-10,  ...,  6.7521e-09,
+          6.9849e-10,  2.3283e-10],
+        ...,
+        [ 6.9849e-10,  0.0000e+00,  0.0000e+00,  ...,  1.6298e-09,
+          2.3283e-10,  4.6566e-10],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 2.3283e-10,  9.3132e-10,  0.0000e+00,  ..., -9.3132e-10,
+          0.0000e+00, -1.3970e-09]], device='cuda:0')
+Epoch 335, bias, value: tensor([ 0.0265, -0.0321,  0.0202, -0.0265,  0.0428,  0.0174,  0.0048, -0.0098,
+        -0.0288, -0.0171], device='cuda:0'), grad: tensor([ 2.3283e-10, -1.0803e-07, -2.1933e-07,  9.0804e-09,  1.0012e-08,
+         2.3283e-09,  8.2888e-08,  1.4133e-07,  1.0128e-07, -2.0955e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 334, time 221.22, cls_loss 0.0006 cls_loss_mapping 0.0015 cls_loss_causal 0.4589 re_mapping 0.0031 re_causal 0.0091 /// teacc 99.14 lr 0.00010000
+Epoch 336, weight, value: tensor([[-0.3049,  0.2292, -0.0422,  ..., -0.1265,  0.0187,  0.0143],
+        [ 0.0131, -0.1570, -0.0404,  ...,  0.0439, -0.0677, -0.0838],
+        [-0.2224, -0.3032,  0.0569,  ..., -0.1100, -0.0554, -0.2041],
+        ...,
+        [ 0.0749,  0.1824, -0.0972,  ..., -0.1675,  0.0877,  0.0923],
+        [ 0.0289, -0.1990, -0.0505,  ..., -0.1451, -0.1303, -0.1161],
+        [-0.2544, -0.0851, -0.0637,  ...,  0.1052, -0.3166,  0.1167]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.5078e-06,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -7.0594e-07],
+        [ 4.6566e-10,  4.6566e-09,  0.0000e+00,  ..., -1.3970e-09,
+          1.8626e-09,  5.1223e-09],
+        [ 6.9849e-10,  2.0955e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.1642e-09,  2.7940e-09],
+        ...,
+        [-1.8626e-09, -1.1176e-08,  0.0000e+00,  ...,  9.3132e-10,
+         -3.2596e-09, -1.5832e-08],
+        [ 0.0000e+00,  6.9849e-10,  0.0000e+00,  ...,  0.0000e+00,
+          4.1910e-09,  2.7940e-09],
+        [ 1.3970e-09,  1.4827e-06,  0.0000e+00,  ...,  1.3970e-09,
+          9.5461e-09,  7.0967e-07]], device='cuda:0')
+Epoch 336, bias, value: tensor([ 0.0264, -0.0291,  0.0177, -0.0264,  0.0425,  0.0174,  0.0049, -0.0126,
+        -0.0288, -0.0160], device='cuda:0'), grad: tensor([-3.8780e-06,  1.4668e-08,  1.3271e-08, -2.6580e-06,  1.5600e-08,
+         2.6207e-06,  3.3062e-08, -3.9116e-08,  1.6764e-08,  3.8594e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 335, time 220.61, cls_loss 0.0006 cls_loss_mapping 0.0018 cls_loss_causal 0.4905 re_mapping 0.0031 re_causal 0.0093 /// teacc 99.16 lr 0.00010000
+Epoch 337, weight, value: tensor([[-0.3063,  0.2294, -0.0425,  ..., -0.1269,  0.0182,  0.0143],
+        [ 0.0130, -0.1576, -0.0405,  ...,  0.0437, -0.0678, -0.0852],
+        [-0.2232, -0.3033,  0.0569,  ..., -0.1102, -0.0557, -0.2045],
+        ...,
+        [ 0.0750,  0.1832, -0.0972,  ..., -0.1676,  0.0878,  0.0927],
+        [ 0.0292, -0.1993, -0.0507,  ..., -0.1453, -0.1303, -0.1161],
+        [-0.2573, -0.0857, -0.0638,  ...,  0.1053, -0.3168,  0.1168]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -7.6368e-08,  0.0000e+00,  ...,  2.8871e-08,
+          4.6566e-10,  7.2177e-09],
+        [ 3.0268e-09,  5.3551e-09,  0.0000e+00,  ...,  4.2841e-08,
+          2.5611e-09,  4.4238e-09],
+        [ 4.6566e-10,  1.2340e-08,  0.0000e+00,  ...,  1.0245e-08,
+         -9.3132e-10,  9.3132e-10],
+        ...,
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  3.9581e-09,
+          9.3132e-10,  4.6566e-10],
+        [ 2.3283e-10,  3.2596e-09,  0.0000e+00,  ...,  4.1910e-09,
+          0.0000e+00,  6.9849e-10],
+        [ 5.8208e-09,  1.8394e-08,  0.0000e+00,  ..., -1.2782e-07,
+          2.3283e-10, -5.8906e-08]], device='cuda:0')
+Epoch 337, bias, value: tensor([ 0.0265, -0.0292,  0.0177, -0.0261,  0.0424,  0.0175,  0.0043, -0.0123,
+        -0.0287, -0.0160], device='cuda:0'), grad: tensor([-1.0035e-07,  2.1770e-07,  4.4936e-08,  8.4518e-08,  1.5134e-07,
+         1.9465e-07, -4.2212e-07,  1.7928e-08,  1.2806e-08, -1.8883e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 336, time 221.00, cls_loss 0.0007 cls_loss_mapping 0.0013 cls_loss_causal 0.4661 re_mapping 0.0033 re_causal 0.0092 /// teacc 99.18 lr 0.00010000
+Epoch 338, weight, value: tensor([[-0.3085,  0.2297, -0.0426,  ..., -0.1274,  0.0180,  0.0143],
+        [ 0.0109, -0.1605, -0.0405,  ...,  0.0432, -0.0690, -0.0866],
+        [-0.2250, -0.3043,  0.0569,  ..., -0.1109, -0.0586, -0.2066],
+        ...,
+        [ 0.0769,  0.1877, -0.0971,  ..., -0.1676,  0.0897,  0.0933],
+        [ 0.0328, -0.2016, -0.0507,  ..., -0.1455, -0.1304, -0.1162],
+        [-0.2582, -0.0861, -0.0638,  ...,  0.1054, -0.3168,  0.1172]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.3283e-10,  2.3283e-10,  ...,  3.1898e-08,
+          2.3283e-10,  1.5367e-08],
+        [ 1.3970e-09,  2.3283e-09,  0.0000e+00,  ...,  3.7090e-07,
+          3.4925e-09,  1.6182e-07],
+        [ 2.8173e-08,  2.2817e-08,  0.0000e+00,  ...,  7.9162e-09,
+          2.8173e-08,  3.2363e-08],
+        ...,
+        [-1.7928e-08, -2.5844e-08,  0.0000e+00,  ...,  3.3993e-08,
+         -2.0955e-08, -2.7940e-08],
+        [ 2.3283e-10,  2.3283e-10,  0.0000e+00,  ...,  1.1642e-09,
+          2.3283e-09,  1.1642e-09],
+        [ 4.5169e-08, -1.3970e-09,  0.0000e+00,  ..., -1.3541e-06,
+          2.3283e-10, -6.5286e-07]], device='cuda:0')
+Epoch 338, bias, value: tensor([ 0.0267, -0.0295,  0.0176, -0.0275,  0.0424,  0.0180,  0.0039, -0.0109,
+        -0.0278, -0.0159], device='cuda:0'), grad: tensor([ 1.0687e-07,  1.1316e-06, -4.4773e-07, -4.7497e-08,  1.7751e-06,
+         9.7789e-08, -2.8638e-08,  5.6345e-08,  3.3295e-08, -2.6636e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 337, time 220.92, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4732 re_mapping 0.0031 re_causal 0.0094 /// teacc 99.04 lr 0.00010000
+Epoch 339, weight, value: tensor([[-0.3101,  0.2298, -0.0430,  ..., -0.1283,  0.0179,  0.0143],
+        [ 0.0106, -0.1614, -0.0405,  ...,  0.0436, -0.0692, -0.0872],
+        [-0.2276, -0.3048,  0.0569,  ..., -0.1118, -0.0592, -0.2068],
+        ...,
+        [ 0.0777,  0.1887, -0.0971,  ..., -0.1675,  0.0899,  0.0935],
+        [ 0.0341, -0.2018, -0.0514,  ..., -0.1449, -0.1304, -0.1160],
+        [-0.2597, -0.0863, -0.0639,  ...,  0.1054, -0.3170,  0.1172]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-08,  0.0000e+00,  0.0000e+00,  ...,  1.4901e-08,
+          0.0000e+00,  1.3970e-08],
+        [ 4.6566e-10,  9.3132e-10,  0.0000e+00,  ...,  1.8626e-09,
+          2.3283e-10,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-10],
+        ...,
+        [ 0.0000e+00, -9.3132e-10,  0.0000e+00,  ...,  5.1223e-09,
+         -2.3283e-10,  2.0955e-09],
+        [ 1.1642e-09,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          0.0000e+00,  2.0955e-09],
+        [ 1.6298e-09,  2.3283e-10,  0.0000e+00,  ..., -3.5157e-08,
+          0.0000e+00, -2.3749e-08]], device='cuda:0')
+Epoch 339, bias, value: tensor([ 0.0265, -0.0296,  0.0176, -0.0277,  0.0423,  0.0179,  0.0043, -0.0105,
+        -0.0275, -0.0159], device='cuda:0'), grad: tensor([ 2.9756e-07,  9.3132e-09,  9.3132e-10,  1.7858e-07,  1.4435e-08,
+        -7.4226e-07,  2.8778e-07,  8.3819e-09,  1.8626e-08, -7.1013e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 338, time 220.71, cls_loss 0.0005 cls_loss_mapping 0.0014 cls_loss_causal 0.4921 re_mapping 0.0031 re_causal 0.0094 /// teacc 99.19 lr 0.00010000
+Epoch 340, weight, value: tensor([[-0.3115,  0.2298, -0.0431,  ..., -0.1298,  0.0170,  0.0138],
+        [ 0.0107, -0.1614, -0.0404,  ...,  0.0438, -0.0692, -0.0873],
+        [-0.2290, -0.3048,  0.0570,  ..., -0.1139, -0.0594, -0.2073],
+        ...,
+        [ 0.0777,  0.1888, -0.0972,  ..., -0.1676,  0.0899,  0.0936],
+        [ 0.0342, -0.2019, -0.0516,  ..., -0.1454, -0.1304, -0.1161],
+        [-0.2606, -0.0863, -0.0639,  ...,  0.1054, -0.3172,  0.1174]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  4.6566e-10,  0.0000e+00,  ...,  2.0955e-09,
+          4.6566e-10,  4.1910e-09],
+        [ 2.3283e-09,  1.4901e-08,  0.0000e+00,  ...,  2.3283e-09,
+          2.3283e-10,  1.6065e-08],
+        [ 2.3283e-10,  9.3132e-10,  0.0000e+00,  ...,  2.3283e-10,
+          4.6566e-10,  1.1642e-09],
+        ...,
+        [-1.5600e-08, -1.2014e-07,  0.0000e+00,  ..., -1.3271e-08,
+          4.6566e-10, -1.2596e-07],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  1.6298e-09,
+          2.3283e-10,  9.3132e-10],
+        [ 1.8859e-08,  8.5682e-08,  0.0000e+00,  ...,  2.6543e-08,
+          1.3970e-09,  8.9407e-08]], device='cuda:0')
+Epoch 340, bias, value: tensor([ 0.0259, -0.0295,  0.0176, -0.0279,  0.0423,  0.0183,  0.0043, -0.0105,
+        -0.0275, -0.0159], device='cuda:0'), grad: tensor([ 1.5600e-08,  4.7497e-08,  7.4506e-09,  3.7486e-07, -2.6077e-08,
+         2.5867e-07, -6.3330e-07, -3.4040e-07,  1.1409e-08,  2.9104e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 339, time 221.03, cls_loss 0.0006 cls_loss_mapping 0.0011 cls_loss_causal 0.4896 re_mapping 0.0030 re_causal 0.0089 /// teacc 99.07 lr 0.00010000
+Epoch 341, weight, value: tensor([[-0.3122,  0.2298, -0.0433,  ..., -0.1302,  0.0164,  0.0137],
+        [ 0.0132, -0.1615, -0.0403,  ...,  0.0451, -0.0694, -0.0876],
+        [-0.2312, -0.3049,  0.0566,  ..., -0.1146, -0.0596, -0.2077],
+        ...,
+        [ 0.0776,  0.1890, -0.0972,  ..., -0.1677,  0.0900,  0.0936],
+        [ 0.0311, -0.2021, -0.0520,  ..., -0.1481, -0.1304, -0.1162],
+        [-0.2614, -0.0866, -0.0643,  ...,  0.1054, -0.3175,  0.1175]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  1.8161e-08,
+          9.3132e-10,  2.3283e-10],
+        [ 2.3283e-09,  0.0000e+00,  2.3283e-10,  ...,  5.1223e-09,
+          4.1910e-09,  1.3970e-09],
+        [ 4.6566e-10,  0.0000e+00, -8.1491e-09,  ...,  1.7462e-08,
+          4.1211e-08,  1.9558e-08],
+        ...,
+        [ 3.4925e-09,  0.0000e+00,  2.3283e-10,  ...,  3.2596e-09,
+          6.2864e-09,  3.7253e-09],
+        [-7.6834e-09,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-09,
+          3.0268e-09,  1.1642e-09],
+        [ 6.9849e-10,  2.3283e-10,  2.3283e-10,  ..., -1.1642e-09,
+          2.5611e-09, -9.3132e-10]], device='cuda:0')
+Epoch 341, bias, value: tensor([ 0.0259, -0.0289,  0.0176, -0.0281,  0.0423,  0.0182,  0.0046, -0.0105,
+        -0.0303, -0.0159], device='cuda:0'), grad: tensor([ 7.3574e-08,  1.0687e-07,  1.5437e-07,  1.0014e-05,  6.0769e-08,
+        -9.1195e-06, -1.2550e-07,  2.8079e-07, -1.5553e-06,  1.1153e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 340, time 220.30, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4834 re_mapping 0.0033 re_causal 0.0094 /// teacc 99.11 lr 0.00010000
+Epoch 342, weight, value: tensor([[-0.3125,  0.2299, -0.0453,  ..., -0.1315,  0.0146,  0.0137],
+        [ 0.0132, -0.1616, -0.0403,  ...,  0.0441, -0.0695, -0.0887],
+        [-0.2317, -0.3049,  0.0567,  ..., -0.1151, -0.0596, -0.2083],
+        ...,
+        [ 0.0776,  0.1894, -0.0972,  ..., -0.1672,  0.0901,  0.0947],
+        [ 0.0311, -0.2023, -0.0521,  ..., -0.1482, -0.1304, -0.1161],
+        [-0.2620, -0.0878, -0.0645,  ...,  0.1054, -0.3188,  0.1169]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10, -9.3132e-10,  4.6566e-10,  ...,  7.6834e-09,
+          2.3283e-10,  6.9849e-10],
+        [ 1.4179e-07,  4.2375e-08, -6.9849e-10,  ...,  2.1816e-07,
+          4.0047e-08,  2.9197e-07],
+        [ 3.0268e-09, -4.6566e-09,  0.0000e+00,  ...,  5.1223e-09,
+          5.5879e-09,  1.1409e-08],
+        ...,
+        [-1.8440e-07, -5.8906e-08,  2.3283e-10,  ..., -2.6496e-07,
+         -3.7486e-08, -3.7323e-07],
+        [ 2.3283e-10,  1.8626e-09,  4.6566e-10,  ...,  4.8894e-09,
+          9.3132e-09,  1.0245e-08],
+        [ 4.7497e-08,  1.8161e-08,  0.0000e+00,  ...,  2.6007e-07,
+          1.0245e-08,  6.3330e-08]], device='cuda:0')
+Epoch 342, bias, value: tensor([ 0.0256, -0.0290,  0.0176, -0.0284,  0.0423,  0.0185,  0.0047, -0.0103,
+        -0.0300, -0.0159], device='cuda:0'), grad: tensor([ 7.6834e-08,  1.0896e-06, -3.4808e-07, -1.6135e-07, -5.1223e-07,
+         8.8476e-08, -9.3132e-09, -1.2647e-06,  1.3993e-07,  9.1083e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 341, time 221.15, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.4628 re_mapping 0.0030 re_causal 0.0085 /// teacc 99.17 lr 0.00010000
+Epoch 343, weight, value: tensor([[-0.3127,  0.2302, -0.0455,  ..., -0.1318,  0.0144,  0.0136],
+        [ 0.0132, -0.1617, -0.0403,  ...,  0.0441, -0.0696, -0.0889],
+        [-0.2330, -0.3051,  0.0567,  ..., -0.1156, -0.0600, -0.2097],
+        ...,
+        [ 0.0777,  0.1896, -0.0969,  ..., -0.1670,  0.0900,  0.0951],
+        [ 0.0311, -0.2027, -0.0522,  ..., -0.1484, -0.1305, -0.1162],
+        [-0.2634, -0.0885, -0.0645,  ...,  0.1053, -0.3193,  0.1166]],
+       device='cuda:0'), grad: tensor([[ 3.0268e-09, -2.1677e-07, -1.3970e-09,  ..., -3.6554e-08,
+          2.3283e-10, -6.5193e-08],
+        [ 3.7253e-09,  1.1642e-08,  0.0000e+00,  ...,  1.3434e-07,
+          0.0000e+00,  7.2177e-09],
+        [ 2.3283e-09,  3.2596e-09,  2.3283e-10,  ...,  2.1653e-08,
+          0.0000e+00,  6.9849e-10],
+        ...,
+        [ 6.9849e-10,  1.8161e-08,  0.0000e+00,  ...,  1.6531e-08,
+          0.0000e+00,  1.0943e-08],
+        [-3.4925e-09,  7.9162e-09,  0.0000e+00,  ...,  1.0710e-08,
+          0.0000e+00,  3.7253e-09],
+        [ 3.7253e-09,  7.5903e-08,  6.9849e-10,  ..., -7.6136e-08,
+          6.9849e-10, -5.0990e-08]], device='cuda:0')
+Epoch 343, bias, value: tensor([ 0.0258, -0.0290,  0.0176, -0.0269,  0.0423,  0.0172,  0.0047, -0.0101,
+        -0.0300, -0.0160], device='cuda:0'), grad: tensor([-5.6159e-07,  7.4971e-07,  1.3225e-07,  2.2678e-07,  1.7602e-07,
+         2.7940e-09, -7.8790e-07,  8.7311e-08,  2.6077e-08, -3.0268e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 342, time 220.73, cls_loss 0.0005 cls_loss_mapping 0.0010 cls_loss_causal 0.4502 re_mapping 0.0030 re_causal 0.0088 /// teacc 99.21 lr 0.00010000
+Epoch 344, weight, value: tensor([[-0.3133,  0.2305, -0.0455,  ..., -0.1324,  0.0139,  0.0136],
+        [ 0.0132, -0.1616, -0.0403,  ...,  0.0443, -0.0697, -0.0891],
+        [-0.2337, -0.3051,  0.0565,  ..., -0.1160, -0.0601, -0.2110],
+        ...,
+        [ 0.0778,  0.1896, -0.0968,  ..., -0.1672,  0.0899,  0.0952],
+        [ 0.0311, -0.2039, -0.0526,  ..., -0.1485, -0.1305, -0.1163],
+        [-0.2638, -0.0889, -0.0646,  ...,  0.1054, -0.3196,  0.1168]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -6.7521e-09,  0.0000e+00,  ...,  2.5844e-08,
+          6.9849e-10,  1.0477e-08],
+        [ 2.3283e-10,  9.3132e-10,  0.0000e+00,  ...,  2.2817e-08,
+          3.0268e-09,  1.1874e-08],
+        [ 4.6566e-10,  1.1642e-09,  0.0000e+00,  ...,  1.1642e-09,
+          1.3970e-08,  1.1642e-08],
+        ...,
+        [-4.6566e-10, -1.6298e-09,  0.0000e+00,  ...,  1.1525e-07,
+          4.1910e-09,  4.9593e-08],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  2.1653e-08,
+          1.3970e-09,  9.7789e-09],
+        [ 0.0000e+00,  1.1642e-09,  0.0000e+00,  ..., -8.1072e-07,
+          1.6298e-09, -3.1688e-07]], device='cuda:0')
+Epoch 344, bias, value: tensor([ 0.0258, -0.0290,  0.0176, -0.0273,  0.0423,  0.0176,  0.0046, -0.0102,
+        -0.0300, -0.0160], device='cuda:0'), grad: tensor([ 4.7032e-08,  6.2399e-08,  5.1223e-08, -1.6158e-07,  1.2964e-06,
+         1.1595e-07,  1.8626e-08,  2.5122e-07,  6.1467e-08, -1.7360e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 343, time 220.92, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.4701 re_mapping 0.0030 re_causal 0.0088 /// teacc 99.19 lr 0.00010000
+Epoch 345, weight, value: tensor([[-0.3143,  0.2309, -0.0455,  ..., -0.1323,  0.0140,  0.0136],
+        [ 0.0123, -0.1641, -0.0403,  ...,  0.0441, -0.0701, -0.0928],
+        [-0.2367, -0.3054,  0.0565,  ..., -0.1169, -0.0611, -0.2135],
+        ...,
+        [ 0.0793,  0.1918, -0.0967,  ..., -0.1672,  0.0904,  0.0966],
+        [ 0.0311, -0.2042, -0.0529,  ..., -0.1486, -0.1305, -0.1164],
+        [-0.2645, -0.0892, -0.0646,  ...,  0.1054, -0.3199,  0.1169]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-09, -6.5425e-08,  0.0000e+00,  ...,  2.7940e-09,
+          2.3283e-10, -1.9092e-08],
+        [-4.9127e-08,  2.3283e-10,  0.0000e+00,  ..., -9.8487e-08,
+          1.1642e-09,  2.0955e-09],
+        [ 1.1642e-09,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-09,
+          2.4680e-08,  0.0000e+00],
+        ...,
+        [ 2.0256e-08,  4.6566e-10,  0.0000e+00,  ...,  4.5868e-08,
+          6.9849e-10,  2.5611e-09],
+        [ 1.7928e-08,  2.3283e-10,  0.0000e+00,  ...,  3.6322e-08,
+          3.0268e-09,  0.0000e+00],
+        [ 3.6089e-08,  1.3970e-09,  0.0000e+00,  ...,  5.9837e-08,
+          9.3132e-10, -1.1874e-08]], device='cuda:0')
+Epoch 345, bias, value: tensor([ 0.0260, -0.0297,  0.0176, -0.0276,  0.0422,  0.0176,  0.0045, -0.0080,
+        -0.0300, -0.0160], device='cuda:0'), grad: tensor([-1.0361e-07, -6.6590e-07,  2.3213e-07, -3.2596e-07, -1.5181e-07,
+         1.1665e-07,  1.2014e-07,  3.1549e-07,  2.5914e-07,  2.0722e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 344, time 220.56, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4643 re_mapping 0.0030 re_causal 0.0088 /// teacc 99.14 lr 0.00010000
+Epoch 346, weight, value: tensor([[-0.3145,  0.2315, -0.0451,  ..., -0.1326,  0.0141,  0.0137],
+        [ 0.0126, -0.1629, -0.0388,  ...,  0.0453, -0.0702, -0.0919],
+        [-0.2382, -0.3055,  0.0568,  ..., -0.1172, -0.0612, -0.2140],
+        ...,
+        [ 0.0790,  0.1907, -0.0982,  ..., -0.1675,  0.0903,  0.0962],
+        [ 0.0310, -0.2050, -0.0528,  ..., -0.1488, -0.1305, -0.1164],
+        [-0.2650, -0.0896, -0.0656,  ...,  0.1054, -0.3201,  0.1169]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10, -8.6147e-09, -6.9849e-10,  ...,  0.0000e+00,
+          0.0000e+00, -6.9849e-10],
+        [-3.7253e-09,  4.6566e-10,  0.0000e+00,  ..., -7.2177e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  1.3970e-09,
+          0.0000e+00,  2.3283e-10],
+        ...,
+        [ 1.3970e-09,  2.3283e-10,  0.0000e+00,  ...,  1.1642e-09,
+          2.3283e-10,  2.3283e-10],
+        [ 1.1642e-09,  4.6566e-10,  0.0000e+00,  ...,  1.1642e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 4.1910e-09,  3.2596e-09,  2.3283e-10,  ...,  2.7940e-09,
+          4.6566e-10,  9.3132e-10]], device='cuda:0')
+Epoch 346, bias, value: tensor([ 0.0265, -0.0294,  0.0176, -0.0277,  0.0422,  0.0177,  0.0041, -0.0088,
+        -0.0300, -0.0160], device='cuda:0'), grad: tensor([-1.1874e-08, -2.9569e-08, -7.2317e-07,  1.9325e-08,  6.0536e-09,
+        -3.8650e-08,  2.7707e-08,  1.9558e-08,  7.1060e-07,  2.7474e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 345, time 221.13, cls_loss 0.0004 cls_loss_mapping 0.0014 cls_loss_causal 0.4742 re_mapping 0.0029 re_causal 0.0095 /// teacc 99.11 lr 0.00010000
+Epoch 347, weight, value: tensor([[-0.3147,  0.2317, -0.0449,  ..., -0.1334,  0.0140,  0.0137],
+        [ 0.0126, -0.1629, -0.0388,  ...,  0.0453, -0.0702, -0.0916],
+        [-0.2388, -0.3057,  0.0574,  ..., -0.1175, -0.0613, -0.2148],
+        ...,
+        [ 0.0790,  0.1908, -0.0982,  ..., -0.1675,  0.0898,  0.0960],
+        [ 0.0310, -0.2052, -0.0541,  ..., -0.1478, -0.1305, -0.1165],
+        [-0.2659, -0.0900, -0.0659,  ...,  0.1054, -0.3206,  0.1169]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -1.5367e-08,  0.0000e+00,  ...,  2.3283e-10,
+          2.7940e-09, -2.3283e-10],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  2.0955e-09,
+          5.3551e-09,  7.5437e-08],
+        [ 2.3283e-10,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          1.6065e-08,  1.3970e-08],
+        ...,
+        [ 1.3970e-09,  2.3283e-10,  0.0000e+00,  ...,  9.3132e-10,
+          5.1223e-09, -7.1013e-08],
+        [ 2.5379e-08,  2.3283e-10,  0.0000e+00,  ...,  3.7253e-09,
+          9.3132e-10,  2.0955e-09],
+        [ 5.8208e-09,  7.2177e-09,  0.0000e+00,  ..., -1.6298e-08,
+          1.5832e-08,  8.3819e-09]], device='cuda:0')
+Epoch 347, bias, value: tensor([ 0.0265, -0.0294,  0.0176, -0.0275,  0.0422,  0.0179,  0.0030, -0.0089,
+        -0.0297, -0.0160], device='cuda:0'), grad: tensor([-1.2340e-08,  3.6089e-07,  4.8662e-08, -4.7963e-07,  2.5379e-08,
+         3.4925e-08,  1.3853e-07, -3.2806e-07,  1.5274e-07,  7.5903e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 346, time 220.23, cls_loss 0.0004 cls_loss_mapping 0.0013 cls_loss_causal 0.4526 re_mapping 0.0030 re_causal 0.0088 /// teacc 99.19 lr 0.00010000
+Epoch 348, weight, value: tensor([[-0.3154,  0.2320, -0.0450,  ..., -0.1340,  0.0137,  0.0139],
+        [ 0.0127, -0.1629, -0.0386,  ...,  0.0454, -0.0702, -0.0917],
+        [-0.2398, -0.3058,  0.0569,  ..., -0.1178, -0.0615, -0.2159],
+        ...,
+        [ 0.0790,  0.1908, -0.0982,  ..., -0.1675,  0.0898,  0.0961],
+        [ 0.0310, -0.2055, -0.0544,  ..., -0.1474, -0.1306, -0.1164],
+        [-0.2665, -0.0908, -0.0660,  ...,  0.1054, -0.3208,  0.1169]],
+       device='cuda:0'), grad: tensor([[ 8.1491e-10, -3.2596e-09,  2.3283e-10,  ...,  5.8208e-10,
+          0.0000e+00,  1.1642e-10],
+        [-1.1642e-08, -1.1642e-09, -2.3283e-09,  ..., -8.1491e-09,
+          3.4925e-10,  6.9849e-10],
+        [ 1.5134e-09,  1.1642e-09,  1.1642e-10,  ...,  1.3970e-09,
+          8.1491e-10,  1.0477e-09],
+        ...,
+        [ 6.0536e-09,  1.2806e-09,  5.8208e-10,  ...,  7.3342e-09,
+          2.3283e-10,  1.9791e-09],
+        [ 2.5611e-09,  2.3283e-10,  6.9849e-10,  ...,  1.3970e-09,
+          8.1491e-10,  1.0477e-09],
+        [ 6.9849e-10,  2.5611e-09,  0.0000e+00,  ..., -5.8208e-09,
+          4.6566e-10, -4.0745e-09]], device='cuda:0')
+Epoch 348, bias, value: tensor([ 0.0264, -0.0294,  0.0176, -0.0274,  0.0422,  0.0180,  0.0027, -0.0089,
+        -0.0295, -0.0160], device='cuda:0'), grad: tensor([ 2.1537e-08, -1.9092e-08, -1.2061e-07,  7.7067e-08,  2.3283e-08,
+        -1.0396e-07,  3.6438e-08,  5.4948e-08,  5.3551e-08, -3.4925e-10],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 347, time 220.26, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4629 re_mapping 0.0029 re_causal 0.0085 /// teacc 99.13 lr 0.00010000
+Epoch 349, weight, value: tensor([[-0.3162,  0.2323, -0.0449,  ..., -0.1358,  0.0135,  0.0132],
+        [ 0.0129, -0.1630, -0.0368,  ...,  0.0469, -0.0703, -0.0913],
+        [-0.2401, -0.3060,  0.0572,  ..., -0.1180, -0.0615, -0.2166],
+        ...,
+        [ 0.0788,  0.1910, -0.1000,  ..., -0.1680,  0.0898,  0.0961],
+        [ 0.0309, -0.2057, -0.0558,  ..., -0.1476, -0.1306, -0.1165],
+        [-0.2675, -0.0910, -0.0676,  ...,  0.1054, -0.3211,  0.1170]],
+       device='cuda:0'), grad: tensor([[ 1.9791e-09,  2.8335e-07,  0.0000e+00,  ...,  3.1921e-07,
+         -3.4925e-10,  4.6566e-10],
+        [ 2.0978e-07,  1.1059e-08,  4.6566e-10,  ...,  7.1712e-08,
+          1.1642e-10,  6.7940e-07],
+        [ 4.4238e-09,  4.2259e-08,  1.0477e-09,  ...,  4.7148e-08,
+          5.8208e-10,  4.5402e-09],
+        ...,
+        [-3.5297e-07,  2.5611e-09, -6.6357e-09,  ..., -8.9989e-08,
+         -1.5134e-09, -1.1194e-06],
+        [ 1.2224e-08,  2.6426e-08, -1.1642e-09,  ...,  3.7602e-08,
+          6.9849e-10,  8.4401e-08],
+        [ 1.0466e-07,  8.1491e-09,  5.8208e-10,  ..., -4.7265e-08,
+          2.3283e-10,  2.8056e-07]], device='cuda:0')
+Epoch 349, bias, value: tensor([ 0.0257, -0.0293,  0.0176, -0.0278,  0.0422,  0.0184,  0.0028, -0.0091,
+        -0.0295, -0.0161], device='cuda:0'), grad: tensor([ 1.5199e-06,  2.0806e-06,  2.8475e-07,  1.7579e-08,  4.4191e-07,
+         5.6392e-07, -2.4941e-06, -3.3136e-06,  8.2073e-08,  8.1118e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 348, time 220.42, cls_loss 0.0005 cls_loss_mapping 0.0014 cls_loss_causal 0.4813 re_mapping 0.0031 re_causal 0.0092 /// teacc 99.12 lr 0.00010000
+Epoch 350, weight, value: tensor([[-0.3164,  0.2328, -0.0451,  ..., -0.1370,  0.0133,  0.0128],
+        [ 0.0131, -0.1631, -0.0351,  ...,  0.0478, -0.0704, -0.0910],
+        [-0.2416, -0.3063,  0.0576,  ..., -0.1186, -0.0617, -0.2173],
+        ...,
+        [ 0.0787,  0.1911, -0.1012,  ..., -0.1684,  0.0897,  0.0959],
+        [ 0.0309, -0.2065, -0.0574,  ..., -0.1482, -0.1306, -0.1169],
+        [-0.2685, -0.0910, -0.0687,  ...,  0.1055, -0.3212,  0.1172]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -2.3632e-08, -1.7695e-08,  ..., -1.0477e-09,
+          0.0000e+00, -1.8626e-09],
+        [ 2.3283e-10,  9.3132e-10,  2.3283e-10,  ...,  3.8417e-09,
+          0.0000e+00,  4.1910e-09],
+        [ 1.1642e-10,  4.6566e-10, -1.1642e-10,  ...,  5.8208e-10,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [-3.4925e-10, -6.9849e-10,  2.3283e-10,  ...,  3.1432e-09,
+          0.0000e+00, -8.4983e-09],
+        [ 0.0000e+00,  5.8208e-10,  4.6566e-10,  ...,  5.8208e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 4.6566e-10,  2.3283e-09,  1.1642e-09,  ..., -8.2771e-08,
+          0.0000e+00, -5.6811e-08]], device='cuda:0')
+Epoch 350, bias, value: tensor([ 0.0256, -0.0290,  0.0175, -0.0274,  0.0422,  0.0179,  0.0029, -0.0095,
+        -0.0296, -0.0160], device='cuda:0'), grad: tensor([-5.2038e-08,  5.3085e-08,  8.1491e-10,  8.8476e-09,  2.9220e-07,
+         2.3749e-08,  3.7835e-08, -1.4715e-07, -4.3074e-09, -2.1083e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 349, time 220.95, cls_loss 0.0005 cls_loss_mapping 0.0010 cls_loss_causal 0.4613 re_mapping 0.0030 re_causal 0.0089 /// teacc 99.13 lr 0.00010000
+Epoch 351, weight, value: tensor([[-0.3166,  0.2330, -0.0445,  ..., -0.1377,  0.0137,  0.0127],
+        [ 0.0133, -0.1637, -0.0343,  ...,  0.0478, -0.0709, -0.0912],
+        [-0.2435, -0.3064,  0.0556,  ..., -0.1189, -0.0619, -0.2179],
+        ...,
+        [ 0.0787,  0.1917, -0.1012,  ..., -0.1684,  0.0900,  0.0960],
+        [ 0.0309, -0.2067, -0.0575,  ..., -0.1484, -0.1306, -0.1169],
+        [-0.2686, -0.0912, -0.0687,  ...,  0.1057, -0.3213,  0.1177]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  3.7253e-09,
+          0.0000e+00,  4.6566e-09],
+        [ 2.3283e-10,  9.3132e-10,  2.3283e-10,  ...,  4.4238e-09,
+          2.3283e-10,  3.7253e-09],
+        [ 0.0000e+00,  3.0268e-09, -4.8894e-09,  ...,  2.0955e-09,
+          6.9849e-10,  3.9581e-09],
+        ...,
+        [ 0.0000e+00, -3.7253e-09,  1.8626e-09,  ...,  1.7462e-08,
+         -2.3283e-10,  1.6764e-08],
+        [ 2.3283e-10,  0.0000e+00,  2.3283e-10,  ...,  2.3283e-09,
+          2.3283e-10,  2.7940e-09],
+        [ 3.4925e-09,  4.6566e-10,  4.6566e-10,  ...,  3.6322e-08,
+          6.9849e-10, -6.7521e-08]], device='cuda:0')
+Epoch 351, bias, value: tensor([ 0.0255, -0.0288,  0.0172, -0.0276,  0.0420,  0.0178,  0.0029, -0.0094,
+        -0.0295, -0.0158], device='cuda:0'), grad: tensor([ 2.1886e-08,  2.5146e-08, -4.5402e-08,  3.8184e-08, -1.7066e-07,
+        -2.6077e-08,  7.9162e-09,  7.0315e-08,  1.2806e-08,  9.2201e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 350, time 220.67, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4661 re_mapping 0.0031 re_causal 0.0091 /// teacc 98.95 lr 0.00010000
+Epoch 352, weight, value: tensor([[-0.3175,  0.2331, -0.0443,  ..., -0.1383,  0.0136,  0.0126],
+        [ 0.0133, -0.1637, -0.0342,  ...,  0.0480, -0.0710, -0.0914],
+        [-0.2437, -0.3065,  0.0557,  ..., -0.1194, -0.0617, -0.2185],
+        ...,
+        [ 0.0787,  0.1920, -0.1013,  ..., -0.1685,  0.0896,  0.0959],
+        [ 0.0309, -0.2074, -0.0575,  ..., -0.1486, -0.1307, -0.1169],
+        [-0.2695, -0.0924, -0.0688,  ...,  0.1057, -0.3224,  0.1178]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-09, -2.5611e-09,  0.0000e+00,  ...,  1.3970e-09,
+          0.0000e+00,  4.6566e-10],
+        [-4.0280e-08, -7.9162e-09,  0.0000e+00,  ..., -3.0268e-08,
+          2.3283e-10, -2.7940e-09],
+        [ 1.6298e-09,  2.0955e-09,  0.0000e+00,  ...,  4.6566e-10,
+          2.3283e-10,  2.5611e-09],
+        ...,
+        [ 3.3993e-08,  6.7521e-09,  0.0000e+00,  ...,  2.7474e-08,
+         -2.3283e-10,  6.9849e-10],
+        [ 6.9849e-10,  4.6566e-10,  0.0000e+00,  ...,  6.9849e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  9.3132e-10,  0.0000e+00,  ..., -3.0268e-09,
+          2.3283e-10, -3.9581e-09]], device='cuda:0')
+Epoch 352, bias, value: tensor([ 0.0252, -0.0288,  0.0172, -0.0275,  0.0419,  0.0188,  0.0023, -0.0096,
+        -0.0295, -0.0158], device='cuda:0'), grad: tensor([ 4.4238e-09, -2.0163e-07, -4.1910e-09,  4.6566e-09,  1.1409e-08,
+        -8.6147e-09,  1.4435e-08,  1.8720e-07,  5.8208e-09, -9.3132e-10],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 351, time 220.47, cls_loss 0.0005 cls_loss_mapping 0.0010 cls_loss_causal 0.4551 re_mapping 0.0031 re_causal 0.0089 /// teacc 99.08 lr 0.00010000
+Epoch 353, weight, value: tensor([[-0.3180,  0.2331, -0.0442,  ..., -0.1394,  0.0116,  0.0126],
+        [ 0.0133, -0.1637, -0.0341,  ...,  0.0480, -0.0711, -0.0915],
+        [-0.2439, -0.3067,  0.0557,  ..., -0.1198, -0.0611, -0.2190],
+        ...,
+        [ 0.0786,  0.1921, -0.1014,  ..., -0.1686,  0.0888,  0.0954],
+        [ 0.0308, -0.2082, -0.0575,  ..., -0.1489, -0.1307, -0.1171],
+        [-0.2702, -0.0926, -0.0688,  ...,  0.1057, -0.3231,  0.1179]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [-3.0268e-09,  3.9581e-09,  0.0000e+00,  ..., -3.0268e-09,
+          4.6566e-10,  5.1223e-09],
+        [ 2.3283e-10,  2.3283e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [ 3.0268e-09, -1.3271e-08,  0.0000e+00,  ...,  6.2864e-09,
+         -1.1642e-09, -9.5461e-09],
+        [ 1.1642e-09,  6.9849e-10,  0.0000e+00,  ...,  2.0955e-09,
+          0.0000e+00,  6.9849e-10],
+        [ 1.9325e-08,  8.3819e-09,  0.0000e+00,  ...,  5.2620e-08,
+          4.6566e-10,  2.3982e-08]], device='cuda:0')
+Epoch 353, bias, value: tensor([ 0.0246, -0.0288,  0.0173, -0.0274,  0.0420,  0.0198,  0.0021, -0.0099,
+        -0.0296, -0.0158], device='cuda:0'), grad: tensor([ 1.6298e-09, -6.2864e-09,  3.2596e-09,  2.0955e-09, -2.0280e-07,
+         4.1910e-09,  7.2177e-09, -7.4506e-09,  9.7789e-09,  2.0349e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 352, time 220.73, cls_loss 0.0005 cls_loss_mapping 0.0011 cls_loss_causal 0.4768 re_mapping 0.0030 re_causal 0.0091 /// teacc 99.15 lr 0.00010000
+Epoch 354, weight, value: tensor([[-0.3182,  0.2334, -0.0441,  ..., -0.1396,  0.0117,  0.0125],
+        [ 0.0133, -0.1638, -0.0342,  ...,  0.0480, -0.0712, -0.0921],
+        [-0.2445, -0.3073,  0.0558,  ..., -0.1198, -0.0616, -0.2207],
+        ...,
+        [ 0.0787,  0.1925, -0.1014,  ..., -0.1686,  0.0890,  0.0958],
+        [ 0.0308, -0.2088, -0.0574,  ..., -0.1492, -0.1308, -0.1173],
+        [-0.2711, -0.0933, -0.0688,  ...,  0.1058, -0.3234,  0.1179]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -5.5879e-09,  0.0000e+00,  ...,  6.9849e-10,
+          2.3283e-10,  6.9849e-10],
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  2.3283e-10,
+          5.3551e-09,  1.1874e-08],
+        [ 2.3283e-10,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          2.0023e-08,  2.3050e-08],
+        ...,
+        [-1.6298e-09,  0.0000e+00,  0.0000e+00,  ...,  7.9162e-09,
+         -1.8394e-08, -1.2573e-08],
+        [ 4.6566e-10,  6.9849e-10,  0.0000e+00,  ...,  1.5367e-08,
+          1.0943e-08,  2.1420e-08],
+        [ 0.0000e+00,  2.5611e-09,  0.0000e+00,  ..., -1.2107e-08,
+          6.2864e-09, -1.8626e-09]], device='cuda:0')
+Epoch 354, bias, value: tensor([ 0.0247, -0.0288,  0.0172, -0.0287,  0.0420,  0.0210,  0.0019, -0.0096,
+        -0.0296, -0.0158], device='cuda:0'), grad: tensor([-4.1910e-09,  5.2154e-08,  1.1316e-07, -2.5169e-07,  2.1653e-08,
+         6.9151e-08, -2.7800e-07, -5.4017e-08,  3.2457e-07,  1.6764e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 353, time 220.77, cls_loss 0.0006 cls_loss_mapping 0.0017 cls_loss_causal 0.4616 re_mapping 0.0031 re_causal 0.0090 /// teacc 99.24 lr 0.00010000
+Epoch 355, weight, value: tensor([[-0.3184,  0.2337, -0.0441,  ..., -0.1399,  0.0118,  0.0123],
+        [ 0.0133, -0.1640, -0.0342,  ...,  0.0478, -0.0713, -0.0925],
+        [-0.2465, -0.3084,  0.0557,  ..., -0.1197, -0.0631, -0.2230],
+        ...,
+        [ 0.0790,  0.1956, -0.1012,  ..., -0.1687,  0.0892,  0.0989],
+        [ 0.0308, -0.2119, -0.0578,  ..., -0.1495, -0.1308, -0.1178],
+        [-0.2738, -0.0967, -0.0688,  ...,  0.1058, -0.3240,  0.1151]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 3.2596e-09,  4.8894e-09,  4.6566e-10,  ..., -2.7940e-09,
+          1.3970e-09,  8.6147e-09],
+        [ 2.3283e-10,  6.9849e-10, -4.6566e-10,  ...,  2.3283e-10,
+          2.3283e-10,  9.3132e-10],
+        ...,
+        [-3.7253e-09, -5.1223e-09,  0.0000e+00,  ...,  2.3283e-09,
+         -1.6298e-09, -9.0804e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.9849e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 2.3283e-10,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10]], device='cuda:0')
+Epoch 355, bias, value: tensor([ 0.0248, -0.0289,  0.0172, -0.0261,  0.0420,  0.0183,  0.0020, -0.0066,
+        -0.0297, -0.0185], device='cuda:0'), grad: tensor([ 9.0804e-09,  5.8906e-08, -4.7032e-08,  6.7521e-09,  3.2596e-09,
+         2.2817e-08, -4.6566e-08, -1.5134e-08,  1.6065e-08,  4.4238e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 354, time 221.00, cls_loss 0.0004 cls_loss_mapping 0.0015 cls_loss_causal 0.4671 re_mapping 0.0031 re_causal 0.0091 /// teacc 99.18 lr 0.00010000
+Epoch 356, weight, value: tensor([[-0.3188,  0.2337, -0.0440,  ..., -0.1414,  0.0117,  0.0123],
+        [ 0.0134, -0.1642, -0.0342,  ...,  0.0478, -0.0714, -0.0917],
+        [-0.2472, -0.3086,  0.0556,  ..., -0.1200, -0.0634, -0.2236],
+        ...,
+        [ 0.0790,  0.1959, -0.1011,  ..., -0.1688,  0.0893,  0.0990],
+        [ 0.0308, -0.2118, -0.0579,  ..., -0.1491, -0.1308, -0.1179],
+        [-0.2754, -0.0969, -0.0688,  ...,  0.1058, -0.3243,  0.1149]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -6.2864e-09,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00, -2.3283e-10],
+        [ 4.4238e-09,  1.6065e-08,  6.5193e-09,  ...,  2.0722e-08,
+          7.4506e-09,  2.3283e-10],
+        [ 0.0000e+00, -2.0489e-08, -8.6147e-09,  ...,  2.3283e-10,
+          3.2131e-08,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  4.4238e-09,  1.8626e-09,  ...,  3.9581e-09,
+          3.7253e-09,  1.6298e-09],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          2.5844e-08,  0.0000e+00],
+        [ 1.3621e-07,  2.3283e-09,  0.0000e+00,  ...,  6.3889e-07,
+          4.6566e-10, -1.8626e-09]], device='cuda:0')
+Epoch 356, bias, value: tensor([ 0.0243, -0.0288,  0.0172, -0.0256,  0.0420,  0.0178,  0.0021, -0.0065,
+        -0.0296, -0.0187], device='cuda:0'), grad: tensor([-8.1491e-09,  6.4727e-07, -6.1654e-07, -2.8964e-07, -1.5479e-06,
+         2.0256e-08,  5.5879e-09,  1.8510e-07,  1.0990e-07,  1.4957e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 355, time 220.55, cls_loss 0.0004 cls_loss_mapping 0.0015 cls_loss_causal 0.4714 re_mapping 0.0031 re_causal 0.0095 /// teacc 99.09 lr 0.00010000
+Epoch 357, weight, value: tensor([[-0.3188,  0.2342, -0.0441,  ..., -0.1415,  0.0117,  0.0123],
+        [ 0.0134, -0.1642, -0.0342,  ...,  0.0477, -0.0715, -0.0917],
+        [-0.2474, -0.3089,  0.0558,  ..., -0.1201, -0.0635, -0.2242],
+        ...,
+        [ 0.0791,  0.1959, -0.1011,  ..., -0.1692,  0.0894,  0.0990],
+        [ 0.0308, -0.2126, -0.0589,  ..., -0.1488, -0.1308, -0.1180],
+        [-0.2767, -0.0970, -0.0689,  ...,  0.1059, -0.3253,  0.1150]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -3.4925e-09,  0.0000e+00,  ...,  1.3039e-08,
+          0.0000e+00,  6.7521e-09],
+        [ 2.3283e-10,  2.0955e-09,  0.0000e+00,  ...,  6.8918e-08,
+          6.9849e-10,  2.0489e-08],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  3.9581e-09,
+          1.1642e-09,  2.0955e-09],
+        ...,
+        [ 0.0000e+00,  3.9581e-09,  0.0000e+00,  ...,  9.7789e-08,
+          4.1910e-09,  4.1444e-08],
+        [-2.3283e-10,  1.6298e-09,  0.0000e+00,  ...,  1.1991e-07,
+          0.0000e+00,  3.4925e-08],
+        [ 6.9849e-10, -2.0023e-08,  0.0000e+00,  ..., -3.3677e-06,
+          4.6566e-10, -9.4529e-07]], device='cuda:0')
+Epoch 357, bias, value: tensor([ 0.0246, -0.0288,  0.0172, -0.0255,  0.0420,  0.0177,  0.0017, -0.0065,
+        -0.0295, -0.0186], device='cuda:0'), grad: tensor([ 4.1677e-08,  2.1909e-07,  5.1456e-08,  6.2864e-09,  1.1362e-05,
+         1.1409e-07,  4.0978e-08,  3.9884e-07,  3.7649e-07, -1.2614e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 356, time 220.82, cls_loss 0.0005 cls_loss_mapping 0.0014 cls_loss_causal 0.4475 re_mapping 0.0030 re_causal 0.0088 /// teacc 99.23 lr 0.00010000
+Epoch 358, weight, value: tensor([[-0.3190,  0.2346, -0.0440,  ..., -0.1420,  0.0123,  0.0116],
+        [ 0.0133, -0.1644, -0.0343,  ...,  0.0475, -0.0716, -0.0919],
+        [-0.2475, -0.3091,  0.0559,  ..., -0.1208, -0.0637, -0.2244],
+        ...,
+        [ 0.0791,  0.1960, -0.1012,  ..., -0.1694,  0.0894,  0.0990],
+        [ 0.0308, -0.2129, -0.0589,  ..., -0.1495, -0.1309, -0.1182],
+        [-0.2778, -0.0970, -0.0689,  ...,  0.1072, -0.3255,  0.1152]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -2.5611e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-1.3970e-09,  2.3283e-10,  0.0000e+00,  ..., -5.3551e-09,
+          2.3283e-10,  0.0000e+00],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 6.9849e-10,  0.0000e+00,  0.0000e+00,  ...,  2.0955e-09,
+          9.3132e-10,  6.9849e-10],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  2.3283e-10,
+          2.3283e-10,  0.0000e+00],
+        [ 1.1642e-09,  2.3283e-10,  0.0000e+00,  ...,  3.2596e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 358, bias, value: tensor([ 0.0244, -0.0288,  0.0173, -0.0255,  0.0411,  0.0176,  0.0014, -0.0065,
+        -0.0295, -0.0182], device='cuda:0'), grad: tensor([ 7.4506e-09,  1.3411e-06, -1.6302e-05,  2.8173e-08,  6.4494e-08,
+        -6.2864e-09,  3.2829e-08,  1.4767e-05,  2.7940e-08,  2.5146e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 357, time 220.92, cls_loss 0.0004 cls_loss_mapping 0.0009 cls_loss_causal 0.4647 re_mapping 0.0028 re_causal 0.0087 /// teacc 99.18 lr 0.00010000
+Epoch 359, weight, value: tensor([[-0.3193,  0.2350, -0.0433,  ..., -0.1424,  0.0124,  0.0114],
+        [ 0.0134, -0.1645, -0.0343,  ...,  0.0475, -0.0717, -0.0920],
+        [-0.2476, -0.3093,  0.0560,  ..., -0.1211, -0.0639, -0.2246],
+        ...,
+        [ 0.0791,  0.1960, -0.1012,  ..., -0.1694,  0.0894,  0.0990],
+        [ 0.0308, -0.2132, -0.0589,  ..., -0.1497, -0.1310, -0.1182],
+        [-0.2785, -0.0970, -0.0689,  ...,  0.1072, -0.3256,  0.1152]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10, -2.1397e-07,  1.3970e-09,  ...,  4.8894e-09,
+         -2.9337e-08,  0.0000e+00],
+        [ 9.3132e-10,  1.0943e-08,  4.6566e-10,  ...,  9.3132e-10,
+          3.9581e-09,  2.0955e-09],
+        [ 6.9849e-10,  3.0268e-08,  9.3132e-10,  ...,  3.0268e-09,
+          5.1223e-09,  2.3283e-10],
+        ...,
+        [ 4.6566e-10,  3.0268e-09,  0.0000e+00,  ...,  1.0245e-08,
+          4.6566e-10,  7.6834e-09],
+        [-3.7253e-09,  3.7486e-08,  9.3132e-10,  ...,  2.7940e-09,
+          5.5879e-09,  4.6566e-10],
+        [ 0.0000e+00,  1.7928e-08,  2.3283e-10,  ..., -1.8859e-08,
+          2.5611e-09, -1.8161e-08]], device='cuda:0')
+Epoch 359, bias, value: tensor([ 0.0246, -0.0289,  0.0174, -0.0254,  0.0411,  0.0177,  0.0013, -0.0066,
+        -0.0296, -0.0182], device='cuda:0'), grad: tensor([-4.0932e-07,  6.5193e-08,  1.1129e-07,  2.0140e-07,  3.2131e-08,
+         9.2201e-08,  1.2224e-07,  1.2293e-07, -3.1549e-07, -1.7229e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 358, time 220.83, cls_loss 0.0005 cls_loss_mapping 0.0009 cls_loss_causal 0.4916 re_mapping 0.0029 re_causal 0.0091 /// teacc 99.17 lr 0.00010000
+Epoch 360, weight, value: tensor([[-0.3195,  0.2353, -0.0426,  ..., -0.1429,  0.0126,  0.0113],
+        [ 0.0133, -0.1647, -0.0342,  ...,  0.0475, -0.0719, -0.0920],
+        [-0.2483, -0.3095,  0.0560,  ..., -0.1220, -0.0642, -0.2249],
+        ...,
+        [ 0.0791,  0.1961, -0.1014,  ..., -0.1696,  0.0895,  0.0990],
+        [ 0.0309, -0.2140, -0.0582,  ..., -0.1500, -0.1310, -0.1182],
+        [-0.2803, -0.0970, -0.0689,  ...,  0.1072, -0.3260,  0.1152]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -9.3132e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  4.6566e-10],
+        [ 1.1176e-08,  1.8626e-09,  0.0000e+00,  ...,  1.6298e-08,
+          2.7940e-09,  2.3283e-09],
+        [ 0.0000e+00,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09,  1.8626e-09],
+        ...,
+        [-4.6566e-10, -4.6566e-09,  0.0000e+00,  ...,  1.8626e-09,
+          4.6566e-10, -1.3970e-09],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 1.3504e-08,  2.3283e-09,  0.0000e+00,  ...,  1.7229e-08,
+          4.6566e-10, -4.6566e-10]], device='cuda:0')
+Epoch 360, bias, value: tensor([ 0.0248, -0.0289,  0.0174, -0.0254,  0.0411,  0.0174,  0.0014, -0.0067,
+        -0.0288, -0.0182], device='cuda:0'), grad: tensor([-1.5832e-08,  7.4040e-08,  1.7695e-08, -5.4948e-07, -1.1642e-07,
+         5.2666e-07,  4.6566e-09, -5.1223e-09,  5.1223e-09,  6.5193e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 359, time 220.71, cls_loss 0.0005 cls_loss_mapping 0.0009 cls_loss_causal 0.4796 re_mapping 0.0028 re_causal 0.0089 /// teacc 99.13 lr 0.00010000
+Epoch 361, weight, value: tensor([[-0.3212,  0.2354, -0.0425,  ..., -0.1438,  0.0121,  0.0102],
+        [ 0.0126, -0.1670, -0.0342,  ...,  0.0475, -0.0735, -0.0935],
+        [-0.2486, -0.3099,  0.0564,  ..., -0.1224, -0.0645, -0.2255],
+        ...,
+        [ 0.0803,  0.1966, -0.1014,  ..., -0.1697,  0.0904,  0.0991],
+        [ 0.0309, -0.2148, -0.0584,  ..., -0.1502, -0.1311, -0.1183],
+        [-0.2814, -0.0971, -0.0690,  ...,  0.1072, -0.3266,  0.1153]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -4.6566e-09,  0.0000e+00,  ..., -9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-09,  4.1910e-09],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          5.5879e-09,  2.3283e-09],
+        ...,
+        [-4.6566e-10, -4.6566e-09,  0.0000e+00,  ...,  4.6566e-10,
+          1.7695e-08, -1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  9.3132e-10],
+        [ 9.3132e-10,  2.3283e-09,  0.0000e+00,  ...,  1.3970e-09,
+          1.3970e-09,  4.6566e-09]], device='cuda:0')
+Epoch 361, bias, value: tensor([ 0.0239, -0.0291,  0.0174, -0.0256,  0.0411,  0.0176,  0.0014, -0.0065,
+        -0.0288, -0.0182], device='cuda:0'), grad: tensor([ 0.0000e+00,  5.7276e-08,  3.1665e-08, -8.8476e-08,  2.3283e-09,
+         4.4703e-08,  3.6787e-08,  4.5169e-08, -1.7649e-07,  5.6811e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 360, time 220.94, cls_loss 0.0005 cls_loss_mapping 0.0010 cls_loss_causal 0.4628 re_mapping 0.0030 re_causal 0.0089 /// teacc 99.09 lr 0.00010000
+Epoch 362, weight, value: tensor([[-0.3213,  0.2358, -0.0426,  ..., -0.1438,  0.0122,  0.0101],
+        [ 0.0129, -0.1654, -0.0343,  ...,  0.0495, -0.0735, -0.0937],
+        [-0.2488, -0.3101,  0.0566,  ..., -0.1229, -0.0647, -0.2259],
+        ...,
+        [ 0.0803,  0.1967, -0.1015,  ..., -0.1698,  0.0904,  0.0991],
+        [ 0.0308, -0.2155, -0.0586,  ..., -0.1506, -0.1311, -0.1185],
+        [-0.2829, -0.0971, -0.0690,  ...,  0.1072, -0.3268,  0.1153]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  1.8626e-09,  1.8626e-09,  ...,  5.5879e-09,
+          3.2596e-09,  0.0000e+00],
+        [ 9.3132e-10,  2.7940e-09,  4.6566e-09,  ...,  1.3970e-09,
+          2.7940e-09,  2.7940e-09],
+        [ 1.2154e-07,  9.1735e-08, -1.0710e-08,  ...,  0.0000e+00,
+          2.1234e-07,  2.7986e-07],
+        ...,
+        [-1.2340e-07, -9.6858e-08,  0.0000e+00,  ...,  1.3970e-09,
+         -2.1607e-07, -2.8312e-07],
+        [ 4.6566e-10,  9.3132e-10,  4.6566e-10,  ...,  9.3132e-10,
+          1.8626e-09,  1.8626e-09],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ..., -4.6566e-09,
+          0.0000e+00, -4.6566e-09]], device='cuda:0')
+Epoch 362, bias, value: tensor([ 2.4050e-02, -2.8578e-02,  1.7374e-02, -2.5808e-02,  4.1172e-02,
+         1.6985e-02,  9.0099e-05, -6.5194e-03, -2.8890e-02, -1.8177e-02],
+       device='cuda:0'), grad: tensor([ 6.0070e-08,  7.0315e-08,  9.8906e-07,  7.4506e-09,  3.5390e-08,
+         5.5879e-09, -7.4506e-08, -1.0971e-06,  4.6566e-09, -3.2596e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 361, time 221.20, cls_loss 0.0004 cls_loss_mapping 0.0017 cls_loss_causal 0.4525 re_mapping 0.0029 re_causal 0.0086 /// teacc 99.05 lr 0.00010000
+Epoch 363, weight, value: tensor([[-0.3214,  0.2362, -0.0427,  ..., -0.1441,  0.0122,  0.0101],
+        [ 0.0129, -0.1654, -0.0344,  ...,  0.0497, -0.0737, -0.0939],
+        [-0.2491, -0.3100,  0.0568,  ..., -0.1233, -0.0650, -0.2264],
+        ...,
+        [ 0.0804,  0.1967, -0.1015,  ..., -0.1700,  0.0905,  0.0991],
+        [ 0.0308, -0.2161, -0.0587,  ..., -0.1509, -0.1312, -0.1186],
+        [-0.2835, -0.0971, -0.0690,  ...,  0.1073, -0.3269,  0.1153]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  2.3283e-09,  0.0000e+00,  ...,  2.3283e-09,
+         -4.6566e-10,  0.0000e+00],
+        [-8.8476e-09, -7.2177e-08,  0.0000e+00,  ..., -2.9802e-08,
+          1.3970e-09,  5.1223e-09],
+        [ 5.1223e-09,  4.1910e-08,  0.0000e+00,  ...,  1.3970e-08,
+          9.3132e-10,  4.6566e-10],
+        ...,
+        [ 1.8626e-09,  1.2573e-08,  0.0000e+00,  ...,  1.0710e-08,
+         -6.0536e-09, -2.4214e-08],
+        [ 4.6566e-10,  3.2596e-09,  0.0000e+00,  ...,  1.3970e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 1.3970e-09,  9.7789e-09,  0.0000e+00,  ...,  2.3283e-09,
+          5.5879e-09,  2.0023e-08]], device='cuda:0')
+Epoch 363, bias, value: tensor([ 0.0241, -0.0287,  0.0176, -0.0258,  0.0412,  0.0169, -0.0001, -0.0065,
+        -0.0289, -0.0181], device='cuda:0'), grad: tensor([ 2.2352e-08, -3.5670e-07,  1.8161e-07,  6.5193e-09,  6.5193e-09,
+         1.0710e-08, -6.9849e-09,  5.9139e-08,  1.4435e-08,  7.5437e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 362, time 220.84, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.4429 re_mapping 0.0030 re_causal 0.0084 /// teacc 99.14 lr 0.00010000
+Epoch 364, weight, value: tensor([[-0.3215,  0.2363, -0.0422,  ..., -0.1457,  0.0123,  0.0095],
+        [ 0.0129, -0.1662, -0.0346,  ...,  0.0497, -0.0743, -0.0948],
+        [-0.2494, -0.3103,  0.0568,  ..., -0.1239, -0.0667, -0.2282],
+        ...,
+        [ 0.0805,  0.1970, -0.1012,  ..., -0.1699,  0.0910,  0.0992],
+        [ 0.0308, -0.2164, -0.0587,  ..., -0.1511, -0.1312, -0.1188],
+        [-0.2862, -0.0972, -0.0695,  ...,  0.1074, -0.3289,  0.1153]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -4.6566e-09,  0.0000e+00,  ...,  0.0000e+00,
+          6.9849e-09,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ..., -4.6566e-10,
+          3.2131e-08,  8.8476e-09],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          1.4435e-08,  1.0710e-08],
+        ...,
+        [ 0.0000e+00, -1.3970e-09,  0.0000e+00,  ...,  4.6566e-10,
+          3.9581e-08,  3.4925e-08],
+        [ 0.0000e+00, -1.3970e-09,  0.0000e+00,  ..., -1.5367e-08,
+          2.0489e-08,  1.3970e-09],
+        [ 4.6566e-10,  1.3970e-09,  0.0000e+00,  ...,  5.1223e-09,
+          5.1223e-09,  5.5879e-09]], device='cuda:0')
+Epoch 364, bias, value: tensor([ 2.3500e-02, -2.8931e-02,  1.7540e-02, -2.5866e-02,  4.1079e-02,
+         1.6972e-02,  4.8077e-05, -6.3687e-03, -2.8810e-02, -1.8146e-02],
+       device='cuda:0'), grad: tensor([ 4.0047e-08,  2.1886e-07,  1.0990e-07, -6.4261e-07, -3.2596e-09,
+         1.9511e-07,  2.9802e-08,  1.1781e-07, -1.4808e-07,  9.4529e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 363, time 220.24, cls_loss 0.0005 cls_loss_mapping 0.0014 cls_loss_causal 0.4607 re_mapping 0.0031 re_causal 0.0090 /// teacc 99.13 lr 0.00010000
+Epoch 365, weight, value: tensor([[-0.3216,  0.2371, -0.0415,  ..., -0.1461,  0.0124,  0.0094],
+        [ 0.0132, -0.1663, -0.0322,  ...,  0.0516, -0.0731, -0.0954],
+        [-0.2495, -0.3106,  0.0575,  ..., -0.1244, -0.0668, -0.2288],
+        ...,
+        [ 0.0800,  0.1971, -0.1041,  ..., -0.1713,  0.0902,  0.0992],
+        [ 0.0307, -0.2168, -0.0597,  ..., -0.1514, -0.1313, -0.1189],
+        [-0.2856, -0.0972, -0.0699,  ...,  0.1077, -0.3294,  0.1154]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.8626e-09, -4.6566e-10,  ...,  3.4459e-08,
+          4.6566e-10,  1.0245e-08],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  6.1467e-08,
+          2.3283e-09,  1.8161e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-09,
+          5.1223e-09,  5.5879e-09],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  1.4808e-07,
+          1.0245e-08,  4.6100e-08],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  1.5600e-07,
+          1.8626e-09,  4.1444e-08],
+        [ 6.0536e-09,  9.3132e-10,  0.0000e+00,  ..., -2.0996e-05,
+          1.3970e-09, -5.4277e-06]], device='cuda:0')
+Epoch 365, bias, value: tensor([ 2.3922e-02, -2.8393e-02,  1.7571e-02, -2.5619e-02,  4.0832e-02,
+         1.6721e-02,  5.6092e-05, -6.7365e-03, -2.8788e-02, -1.8035e-02],
+       device='cuda:0'), grad: tensor([ 1.1595e-07,  2.1653e-07,  4.7963e-08, -2.0023e-08,  6.8605e-05,
+         1.0608e-06,  8.6613e-08,  5.3225e-07,  5.3039e-07, -7.1228e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 364, time 220.91, cls_loss 0.0004 cls_loss_mapping 0.0011 cls_loss_causal 0.4667 re_mapping 0.0031 re_causal 0.0090 /// teacc 99.18 lr 0.00010000
+Epoch 366, weight, value: tensor([[-0.3217,  0.2382, -0.0413,  ..., -0.1464,  0.0126,  0.0094],
+        [ 0.0131, -0.1664, -0.0321,  ...,  0.0517, -0.0727, -0.0952],
+        [-0.2496, -0.3106,  0.0577,  ..., -0.1246, -0.0670, -0.2293],
+        ...,
+        [ 0.0800,  0.1971, -0.1042,  ..., -0.1714,  0.0900,  0.0992],
+        [ 0.0307, -0.2176, -0.0601,  ..., -0.1516, -0.1313, -0.1190],
+        [-0.2859, -0.0973, -0.0699,  ...,  0.1080, -0.3296,  0.1155]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.0245e-08,  0.0000e+00,  ..., -9.3132e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  1.3970e-09,  0.0000e+00,  ...,  0.0000e+00,
+          5.1223e-09,  6.9849e-09],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          1.3970e-09,  1.3970e-09],
+        ...,
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  1.8626e-09,
+          4.1910e-09,  3.7253e-09],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          4.6566e-10,  9.3132e-10],
+        [ 4.6566e-10,  2.7940e-09,  0.0000e+00,  ..., -3.2596e-09,
+          4.6566e-10, -4.6566e-10]], device='cuda:0')
+Epoch 366, bias, value: tensor([ 0.0246, -0.0283,  0.0176, -0.0255,  0.0405,  0.0162,  0.0001, -0.0068,
+        -0.0287, -0.0179], device='cuda:0'), grad: tensor([-1.6298e-08,  2.8405e-08,  0.0000e+00, -9.3132e-10,  0.0000e+00,
+        -4.3306e-08,  1.3970e-08,  2.0023e-08,  3.7253e-09,  4.6566e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 365, time 220.75, cls_loss 0.0004 cls_loss_mapping 0.0012 cls_loss_causal 0.4377 re_mapping 0.0031 re_causal 0.0089 /// teacc 99.09 lr 0.00010000
+Epoch 367, weight, value: tensor([[-0.3217,  0.2394, -0.0422,  ..., -0.1467,  0.0122,  0.0089],
+        [ 0.0131, -0.1664, -0.0321,  ...,  0.0516, -0.0728, -0.0955],
+        [-0.2497, -0.3109,  0.0578,  ..., -0.1249, -0.0672, -0.2312],
+        ...,
+        [ 0.0800,  0.1971, -0.1043,  ..., -0.1715,  0.0899,  0.0992],
+        [ 0.0307, -0.2181, -0.0606,  ..., -0.1521, -0.1313, -0.1192],
+        [-0.2862, -0.0973, -0.0698,  ...,  0.1081, -0.3298,  0.1155]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 2.7940e-09,  3.7253e-09,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  3.2596e-09],
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [-6.9849e-09, -9.7789e-09,  0.0000e+00,  ...,  3.2596e-09,
+          0.0000e+00, -5.5879e-09],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 2.7940e-09,  4.6566e-09,  0.0000e+00,  ..., -1.2573e-08,
+          0.0000e+00, -5.1223e-09]], device='cuda:0')
+Epoch 367, bias, value: tensor([ 2.5568e-02, -2.8364e-02,  1.7587e-02, -2.5473e-02,  4.0444e-02,
+         1.6046e-02,  9.3103e-05, -6.8096e-03, -2.8749e-02, -1.7818e-02],
+       device='cuda:0'), grad: tensor([-2.7940e-09,  1.8626e-08,  9.3132e-10,  5.5879e-09,  2.6077e-08,
+        -1.4435e-08,  1.3039e-08, -2.5611e-08,  5.5879e-09, -1.3970e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 366, time 220.53, cls_loss 0.0004 cls_loss_mapping 0.0013 cls_loss_causal 0.4667 re_mapping 0.0030 re_causal 0.0088 /// teacc 99.14 lr 0.00010000
+Epoch 368, weight, value: tensor([[-0.3218,  0.2397, -0.0422,  ..., -0.1484,  0.0124,  0.0083],
+        [ 0.0130, -0.1663, -0.0322,  ...,  0.0517, -0.0729, -0.0928],
+        [-0.2489, -0.3111,  0.0581,  ..., -0.1252, -0.0674, -0.2318],
+        ...,
+        [ 0.0800,  0.1971, -0.1044,  ..., -0.1716,  0.0900,  0.0983],
+        [ 0.0307, -0.2186, -0.0612,  ..., -0.1524, -0.1314, -0.1193],
+        [-0.2867, -0.0973, -0.0698,  ...,  0.1082, -0.3299,  0.1155]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-09,  2.3283e-09,  9.3132e-10,  ...,  1.8626e-09,
+          9.3132e-10,  4.1910e-09],
+        [ 4.6566e-10,  1.8626e-09, -3.2596e-09,  ...,  4.6566e-10,
+          9.3132e-10,  2.3283e-09],
+        ...,
+        [-4.6566e-10, -3.7253e-09,  0.0000e+00,  ...,  3.7253e-09,
+          4.6566e-10, -1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          4.6566e-10,  9.3132e-10],
+        [ 6.5193e-09,  4.6566e-10,  0.0000e+00,  ...,  6.9849e-09,
+         -4.6566e-10, -4.1910e-09]], device='cuda:0')
+Epoch 368, bias, value: tensor([ 0.0253, -0.0268,  0.0175, -0.0258,  0.0403,  0.0162,  0.0002, -0.0079,
+        -0.0288, -0.0177], device='cuda:0'), grad: tensor([ 6.0536e-09,  1.8161e-08, -3.4459e-08, -5.1223e-09, -2.3749e-08,
+         2.7940e-09,  9.3132e-10,  1.0245e-08,  4.1910e-09,  2.3283e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 367, time 220.53, cls_loss 0.0003 cls_loss_mapping 0.0014 cls_loss_causal 0.4476 re_mapping 0.0030 re_causal 0.0090 /// teacc 99.17 lr 0.00010000
+Epoch 369, weight, value: tensor([[-0.3218,  0.2398, -0.0422,  ..., -0.1486,  0.0126,  0.0083],
+        [ 0.0130, -0.1663, -0.0323,  ...,  0.0516, -0.0729, -0.0925],
+        [-0.2487, -0.3113,  0.0592,  ..., -0.1248, -0.0675, -0.2321],
+        ...,
+        [ 0.0800,  0.1971, -0.1045,  ..., -0.1717,  0.0900,  0.0982],
+        [ 0.0307, -0.2188, -0.0619,  ..., -0.1526, -0.1314, -0.1194],
+        [-0.2879, -0.0973, -0.0698,  ...,  0.1085, -0.3300,  0.1156]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10, -1.8626e-09,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 3.9581e-08,  2.2817e-08,  0.0000e+00,  ...,  3.0734e-08,
+          1.3970e-08,  1.1688e-07],
+        [ 9.3132e-10,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  1.8626e-09],
+        ...,
+        [-5.6811e-08, -3.3062e-08,  0.0000e+00,  ..., -3.7253e-08,
+         -2.0489e-08, -1.6298e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [ 1.4435e-08,  9.3132e-09,  0.0000e+00,  ...,  4.6566e-10,
+          5.1223e-09,  3.3528e-08]], device='cuda:0')
+Epoch 369, bias, value: tensor([ 0.0253, -0.0267,  0.0177, -0.0260,  0.0402,  0.0162,  0.0002, -0.0080,
+        -0.0287, -0.0176], device='cuda:0'), grad: tensor([ 2.3283e-09,  4.1816e-07,  8.8476e-09,  2.3283e-09,  3.1665e-08,
+         8.8476e-09,  4.1910e-09, -5.7928e-07, -8.3819e-09,  1.2526e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 368, time 220.77, cls_loss 0.0005 cls_loss_mapping 0.0010 cls_loss_causal 0.4899 re_mapping 0.0030 re_causal 0.0089 /// teacc 99.14 lr 0.00010000
+Epoch 370, weight, value: tensor([[-0.3224,  0.2400, -0.0422,  ..., -0.1493,  0.0126,  0.0082],
+        [ 0.0130, -0.1665, -0.0323,  ...,  0.0516, -0.0731, -0.0925],
+        [-0.2489, -0.3112,  0.0594,  ..., -0.1253, -0.0677, -0.2335],
+        ...,
+        [ 0.0801,  0.1971, -0.1045,  ..., -0.1718,  0.0901,  0.0982],
+        [ 0.0307, -0.2191, -0.0621,  ..., -0.1528, -0.1314, -0.1196],
+        [-0.2892, -0.0973, -0.0699,  ...,  0.1084, -0.3303,  0.1156]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3749e-07,  1.8626e-08,  5.5414e-08,  ...,  2.1514e-07,
+          1.1176e-08,  4.8429e-08],
+        [ 3.7253e-09,  1.0245e-08,  4.6566e-10,  ...,  1.3970e-09,
+          5.5879e-09,  2.2817e-08],
+        ...,
+        [ 1.0803e-07, -3.6322e-08,  2.7474e-08,  ...,  1.1455e-07,
+         -1.6764e-08, -6.9384e-08],
+        [ 1.0338e-07,  2.7940e-09,  2.4214e-08,  ...,  9.2667e-08,
+          9.3132e-10,  2.3283e-09],
+        [ 7.8697e-08,  1.8626e-09,  1.8626e-08,  ...,  5.1688e-08,
+          4.6566e-10, -8.8476e-09]], device='cuda:0')
+Epoch 370, bias, value: tensor([ 0.0251, -0.0268,  0.0177, -0.0263,  0.0404,  0.0162,  0.0003, -0.0080,
+        -0.0287, -0.0177], device='cuda:0'), grad: tensor([ 5.1223e-09,  1.2079e-06,  1.0058e-07, -8.8476e-09, -2.4289e-06,
+         1.5367e-08,  9.1735e-08,  2.4308e-07,  4.7125e-07,  3.0920e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 369, time 220.48, cls_loss 0.0005 cls_loss_mapping 0.0017 cls_loss_causal 0.4605 re_mapping 0.0028 re_causal 0.0082 /// teacc 99.10 lr 0.00010000
+Epoch 371, weight, value: tensor([[-0.3246,  0.2404, -0.0422,  ..., -0.1496,  0.0128,  0.0076],
+        [ 0.0109, -0.1696, -0.0323,  ...,  0.0514, -0.0732, -0.0931],
+        [-0.2494, -0.3116,  0.0594,  ..., -0.1256, -0.0679, -0.2343],
+        ...,
+        [ 0.0825,  0.1989, -0.1046,  ..., -0.1719,  0.0901,  0.0985],
+        [ 0.0307, -0.2214, -0.0625,  ..., -0.1532, -0.1314, -0.1197],
+        [-0.2921, -0.0974, -0.0699,  ...,  0.1084, -0.3307,  0.1156]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 2.2817e-08,  2.3283e-09,  8.8476e-09,  ...,  3.4459e-08,
+          3.7253e-09,  6.5193e-09],
+        [ 2.5611e-08,  1.8626e-09,  0.0000e+00,  ...,  2.3283e-09,
+          4.6566e-10,  4.1910e-09],
+        ...,
+        [ 5.5879e-09,  1.9558e-08,  4.6566e-10,  ...,  6.9849e-09,
+          8.5216e-08,  7.0315e-08],
+        [ 9.3132e-10,  4.6566e-10,  0.0000e+00,  ...,  6.0536e-09,
+          0.0000e+00,  9.3132e-10],
+        [ 6.9849e-09,  3.2596e-09,  9.3132e-10,  ..., -5.5879e-09,
+          1.8626e-09, -4.6566e-10]], device='cuda:0')
+Epoch 371, bias, value: tensor([ 0.0250, -0.0276,  0.0177, -0.0264,  0.0404,  0.0162,  0.0003, -0.0073,
+        -0.0286, -0.0179], device='cuda:0'), grad: tensor([ 1.9558e-08, -2.2817e-08, -6.0536e-09, -1.9884e-07, -1.7323e-07,
+         9.9652e-08, -1.5693e-07,  2.8405e-07,  1.4435e-07,  1.6764e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 370, time 220.80, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4765 re_mapping 0.0027 re_causal 0.0082 /// teacc 99.07 lr 0.00010000
+Epoch 372, weight, value: tensor([[-0.3247,  0.2409, -0.0422,  ..., -0.1501,  0.0126,  0.0075],
+        [ 0.0107, -0.1697, -0.0320,  ...,  0.0517, -0.0734, -0.0932],
+        [-0.2490, -0.3100,  0.0597,  ..., -0.1260, -0.0681, -0.2331],
+        ...,
+        [ 0.0828,  0.1989, -0.1051,  ..., -0.1721,  0.0900,  0.0985],
+        [ 0.0306, -0.2220, -0.0627,  ..., -0.1534, -0.1315, -0.1198],
+        [-0.2932, -0.0975, -0.0702,  ...,  0.1085, -0.3309,  0.1156]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+          9.3132e-10,  2.3283e-09],
+        [ 3.7253e-09,  4.6566e-10,  4.6566e-10,  ...,  2.7940e-09,
+          1.1176e-08,  1.2573e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -4.7497e-08,  4.1910e-09],
+        ...,
+        [ 0.0000e+00, -2.7940e-09,  0.0000e+00,  ...,  3.7253e-08,
+          6.2399e-08,  5.5414e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          2.7940e-09,  4.1910e-09],
+        [ 2.7940e-09,  2.7940e-09,  0.0000e+00,  ..., -7.9628e-08,
+          7.9162e-09, -9.3132e-08]], device='cuda:0')
+Epoch 372, bias, value: tensor([ 0.0249, -0.0278,  0.0182, -0.0263,  0.0403,  0.0173, -0.0003, -0.0073,
+        -0.0288, -0.0180], device='cuda:0'), grad: tensor([ 1.4435e-08,  1.2945e-07, -1.3877e-06, -1.4715e-06, -4.8429e-08,
+         1.4901e-06, -9.3598e-08,  1.5255e-06,  2.9802e-08, -1.9046e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 371, time 220.66, cls_loss 0.0005 cls_loss_mapping 0.0011 cls_loss_causal 0.4477 re_mapping 0.0029 re_causal 0.0085 /// teacc 99.10 lr 0.00010000
+Epoch 373, weight, value: tensor([[-0.3249,  0.2411, -0.0424,  ..., -0.1512,  0.0120,  0.0074],
+        [ 0.0105, -0.1698, -0.0321,  ...,  0.0517, -0.0736, -0.0932],
+        [-0.2497, -0.3102,  0.0596,  ..., -0.1271, -0.0693, -0.2363],
+        ...,
+        [ 0.0827,  0.1989, -0.1053,  ..., -0.1723,  0.0901,  0.0985],
+        [ 0.0304, -0.2194, -0.0623,  ..., -0.1531, -0.1316, -0.1201],
+        [-0.2987, -0.0975, -0.0702,  ...,  0.1074, -0.3319,  0.1156]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  3.2596e-09,
+          1.8626e-09,  1.3970e-09],
+        [ 9.3132e-10,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  2.3283e-09],
+        ...,
+        [-9.3132e-10, -2.3283e-09,  0.0000e+00,  ...,  2.3283e-09,
+          6.0536e-09,  4.1910e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-09,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          4.6566e-10, -1.8626e-09]], device='cuda:0')
+Epoch 373, bias, value: tensor([ 0.0242, -0.0279,  0.0181, -0.0244,  0.0421,  0.0185, -0.0023, -0.0073,
+        -0.0286, -0.0188], device='cuda:0'), grad: tensor([ 4.1910e-09,  2.7474e-08,  2.2817e-08,  2.1420e-08, -1.6298e-08,
+         6.8452e-08,  1.3970e-08,  2.2352e-08, -2.0768e-07,  5.7742e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 372, time 220.74, cls_loss 0.0005 cls_loss_mapping 0.0015 cls_loss_causal 0.4625 re_mapping 0.0028 re_causal 0.0086 /// teacc 99.11 lr 0.00010000
+Epoch 374, weight, value: tensor([[-0.3246,  0.2412, -0.0421,  ..., -0.1532,  0.0119,  0.0063],
+        [ 0.0105, -0.1698, -0.0321,  ...,  0.0516, -0.0737, -0.0932],
+        [-0.2499, -0.3101,  0.0596,  ..., -0.1275, -0.0697, -0.2367],
+        ...,
+        [ 0.0827,  0.1990, -0.1052,  ..., -0.1728,  0.0897,  0.0985],
+        [ 0.0304, -0.2195, -0.0621,  ..., -0.1531, -0.1316, -0.1201],
+        [-0.2990, -0.0975, -0.0703,  ...,  0.1075, -0.3323,  0.1157]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 6.5193e-09,  0.0000e+00,  0.0000e+00,  ...,  2.2352e-08,
+          0.0000e+00,  4.6566e-10],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+          4.6566e-10,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  4.1910e-09,
+          0.0000e+00,  9.3132e-10],
+        [-4.0513e-08,  0.0000e+00,  0.0000e+00,  ...,  8.0559e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-08,  9.3132e-10,  0.0000e+00,  ...,  1.0710e-07,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 374, bias, value: tensor([ 0.0231, -0.0279,  0.0182, -0.0243,  0.0420,  0.0179, -0.0017, -0.0074,
+        -0.0281, -0.0187], device='cuda:0'), grad: tensor([ 1.7695e-08,  5.8208e-08,  1.2107e-08,  2.1420e-08, -4.4657e-07,
+         3.2410e-07, -3.1199e-07,  2.1420e-08, -6.1002e-08,  3.8370e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 373, time 220.23, cls_loss 0.0004 cls_loss_mapping 0.0010 cls_loss_causal 0.4738 re_mapping 0.0029 re_causal 0.0089 /// teacc 99.10 lr 0.00010000
+Epoch 375, weight, value: tensor([[-0.3248,  0.2419, -0.0418,  ..., -0.1536,  0.0118,  0.0064],
+        [ 0.0102, -0.1701, -0.0318,  ...,  0.0516, -0.0739, -0.0933],
+        [-0.2505, -0.3102,  0.0598,  ..., -0.1290, -0.0701, -0.2370],
+        ...,
+        [ 0.0831,  0.1991, -0.1055,  ..., -0.1731,  0.0897,  0.0985],
+        [ 0.0304, -0.2197, -0.0616,  ..., -0.1537, -0.1317, -0.1203],
+        [-0.2995, -0.0976, -0.0703,  ...,  0.1075, -0.3324,  0.1157]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+          0.0000e+00,  2.7940e-09],
+        [-4.6566e-10,  9.3132e-10,  0.0000e+00,  ...,  2.3283e-09,
+          9.3132e-10,  5.1223e-09],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  9.3132e-10],
+        ...,
+        [-4.6566e-10, -1.3970e-09,  0.0000e+00,  ...,  3.0268e-08,
+         -4.6566e-10,  2.6077e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  8.8476e-09,
+          0.0000e+00,  9.7789e-09],
+        [ 0.0000e+00, -4.6566e-10,  0.0000e+00,  ..., -8.2888e-08,
+          0.0000e+00, -7.9162e-08]], device='cuda:0')
+Epoch 375, bias, value: tensor([ 0.0232, -0.0280,  0.0183, -0.0246,  0.0421,  0.0177, -0.0016, -0.0074,
+        -0.0281, -0.0188], device='cuda:0'), grad: tensor([ 9.3132e-09,  1.1176e-08,  4.6566e-09,  4.6566e-09,  8.6613e-08,
+         1.5832e-08,  1.8626e-09,  9.4064e-08,  2.9802e-08, -2.5705e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 374, time 220.72, cls_loss 0.0004 cls_loss_mapping 0.0008 cls_loss_causal 0.4278 re_mapping 0.0028 re_causal 0.0082 /// teacc 99.11 lr 0.00010000
+Epoch 376, weight, value: tensor([[-0.3246,  0.2426, -0.0417,  ..., -0.1541,  0.0117,  0.0065],
+        [ 0.0102, -0.1701, -0.0318,  ...,  0.0517, -0.0739, -0.0934],
+        [-0.2528, -0.3104,  0.0597,  ..., -0.1305, -0.0715, -0.2390],
+        ...,
+        [ 0.0834,  0.1992, -0.1055,  ..., -0.1733,  0.0900,  0.0986],
+        [ 0.0304, -0.2202, -0.0618,  ..., -0.1545, -0.1317, -0.1209],
+        [-0.2996, -0.0976, -0.0704,  ...,  0.1076, -0.3326,  0.1158]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  3.7253e-09,  0.0000e+00,  ...,  9.3132e-10,
+          4.6566e-10,  7.4506e-09],
+        [ 1.3970e-09,  1.8626e-09,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  3.2596e-09],
+        ...,
+        [-6.9849e-09, -1.7229e-08,  0.0000e+00,  ...,  1.8626e-09,
+         -2.7940e-09, -3.2131e-08],
+        [ 9.3132e-10,  1.3970e-09,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  3.2596e-09],
+        [ 7.9162e-09,  1.0245e-08,  4.6566e-10,  ...,  6.0536e-09,
+          1.8626e-09,  1.8626e-08]], device='cuda:0')
+Epoch 376, bias, value: tensor([ 0.0235, -0.0280,  0.0182, -0.0247,  0.0421,  0.0177, -0.0016, -0.0074,
+        -0.0282, -0.0187], device='cuda:0'), grad: tensor([ 4.6566e-10,  2.1420e-08,  1.0245e-08,  7.9628e-08, -3.8184e-08,
+        -8.1491e-08,  1.5367e-08, -7.0781e-08,  1.0710e-08,  6.7521e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 375, time 220.80, cls_loss 0.0005 cls_loss_mapping 0.0022 cls_loss_causal 0.4578 re_mapping 0.0029 re_causal 0.0085 /// teacc 99.16 lr 0.00010000
+Epoch 377, weight, value: tensor([[-0.3247,  0.2435, -0.0418,  ..., -0.1551,  0.0118,  0.0067],
+        [ 0.0101, -0.1704, -0.0318,  ...,  0.0517, -0.0743, -0.0935],
+        [-0.2530, -0.3106,  0.0598,  ..., -0.1313, -0.0718, -0.2395],
+        ...,
+        [ 0.0834,  0.1992, -0.1055,  ..., -0.1734,  0.0891,  0.0986],
+        [ 0.0305, -0.2179, -0.0618,  ..., -0.1547, -0.1302, -0.1201],
+        [-0.3009, -0.0977, -0.0704,  ...,  0.1071, -0.3337,  0.1158]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-09,  9.3132e-10,  0.0000e+00,  ...,  1.3970e-09,
+          0.0000e+00,  2.3283e-09],
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00, -6.5193e-09],
+        ...,
+        [-4.6566e-10, -1.8626e-09,  0.0000e+00,  ...,  4.1910e-09,
+          0.0000e+00,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-09,
+          0.0000e+00,  1.3970e-09],
+        [ 6.9849e-09,  1.3970e-09,  0.0000e+00,  ...,  1.3039e-08,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 377, bias, value: tensor([ 0.0240, -0.0282,  0.0182, -0.0251,  0.0427,  0.0182, -0.0020, -0.0076,
+        -0.0258, -0.0190], device='cuda:0'), grad: tensor([ 1.3504e-08,  1.2573e-08, -7.6834e-08,  3.2131e-08, -5.6811e-08,
+         1.4342e-07, -1.9325e-07,  5.2620e-08,  4.3306e-08,  5.2620e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 376, time 220.92, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4426 re_mapping 0.0029 re_causal 0.0082 /// teacc 99.14 lr 0.00010000
+Epoch 378, weight, value: tensor([[-0.3250,  0.2447, -0.0405,  ..., -0.1555,  0.0114,  0.0066],
+        [ 0.0101, -0.1707, -0.0319,  ...,  0.0523, -0.0749, -0.0935],
+        [-0.2535, -0.3116,  0.0597,  ..., -0.1327, -0.0725, -0.2415],
+        ...,
+        [ 0.0834,  0.1996, -0.1055,  ..., -0.1740,  0.0897,  0.0987],
+        [ 0.0306, -0.2197, -0.0613,  ..., -0.1572, -0.1302, -0.1225],
+        [-0.3016, -0.0977, -0.0704,  ...,  0.1071, -0.3353,  0.1159]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [-9.3132e-10, -9.3132e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00, -4.6566e-10],
+        [ 1.3970e-09,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ..., -1.3970e-09,
+          0.0000e+00, -9.3132e-10]], device='cuda:0')
+Epoch 378, bias, value: tensor([ 0.0238, -0.0281,  0.0181, -0.0255,  0.0429,  0.0151,  0.0011, -0.0076,
+        -0.0267, -0.0190], device='cuda:0'), grad: tensor([-1.3970e-09,  1.1642e-08,  2.7940e-09,  2.5053e-07,  5.5879e-09,
+        -4.5076e-07,  1.2340e-07,  4.1910e-09,  4.0978e-08,  1.7695e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 377, time 220.82, cls_loss 0.0005 cls_loss_mapping 0.0011 cls_loss_causal 0.4601 re_mapping 0.0029 re_causal 0.0086 /// teacc 99.23 lr 0.00010000
+Epoch 379, weight, value: tensor([[-0.3249,  0.2454, -0.0404,  ..., -0.1562,  0.0113,  0.0066],
+        [ 0.0101, -0.1708, -0.0319,  ...,  0.0524, -0.0752, -0.0936],
+        [-0.2557, -0.3120,  0.0599,  ..., -0.1333, -0.0750, -0.2442],
+        ...,
+        [ 0.0837,  0.1997, -0.1055,  ..., -0.1742,  0.0905,  0.0987],
+        [ 0.0305, -0.2206, -0.0615,  ..., -0.1582, -0.1304, -0.1235],
+        [-0.3020, -0.0976, -0.0704,  ...,  0.1069, -0.3358,  0.1160]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -5.0431e-07,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -9.7789e-08],
+        [ 0.0000e+00,  5.5879e-09,  0.0000e+00,  ...,  4.6566e-10,
+          1.3970e-09,  4.6566e-09],
+        [ 0.0000e+00,  9.3132e-10, -4.6566e-10,  ...,  0.0000e+00,
+          2.3283e-09,  4.1910e-09],
+        ...,
+        [ 0.0000e+00,  1.9092e-08,  4.6566e-10,  ...,  4.6566e-10,
+          9.3132e-10,  3.7253e-09],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [ 2.7940e-09,  1.2945e-07,  0.0000e+00,  ...,  8.8476e-09,
+          0.0000e+00,  2.6077e-08]], device='cuda:0')
+Epoch 379, bias, value: tensor([ 0.0236, -0.0281,  0.0181, -0.0259,  0.0432,  0.0152,  0.0011, -0.0075,
+        -0.0275, -0.0190], device='cuda:0'), grad: tensor([-8.0466e-07,  2.3749e-08,  5.5879e-09, -2.9802e-08, -2.0955e-08,
+         4.2282e-07,  1.3690e-07,  4.5635e-08,  1.8626e-09,  2.2864e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 378, time 221.03, cls_loss 0.0005 cls_loss_mapping 0.0014 cls_loss_causal 0.4883 re_mapping 0.0029 re_causal 0.0087 /// teacc 99.17 lr 0.00010000
+Epoch 380, weight, value: tensor([[-0.3250,  0.2460, -0.0404,  ..., -0.1572,  0.0119,  0.0066],
+        [ 0.0100, -0.1709, -0.0319,  ...,  0.0523, -0.0754, -0.0937],
+        [-0.2562, -0.3123,  0.0600,  ..., -0.1336, -0.0756, -0.2449],
+        ...,
+        [ 0.0838,  0.1999, -0.1055,  ..., -0.1744,  0.0905,  0.0988],
+        [ 0.0305, -0.2206, -0.0610,  ..., -0.1584, -0.1304, -0.1236],
+        [-0.3023, -0.0978, -0.0705,  ...,  0.1069, -0.3367,  0.1160]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10, -3.0268e-08,  0.0000e+00,  ...,  2.3283e-09,
+          2.7940e-09,  5.3551e-09],
+        [ 1.1642e-09,  1.8626e-09,  0.0000e+00,  ...,  1.3970e-09,
+          2.9802e-08,  2.9569e-08],
+        [ 0.0000e+00,  1.1642e-09,  0.0000e+00,  ...,  0.0000e+00,
+          4.9593e-08,  4.3306e-08],
+        ...,
+        [ 9.3132e-10,  1.6065e-08,  0.0000e+00,  ...,  8.6147e-08,
+          3.2596e-08,  1.3504e-07],
+        [ 4.6566e-10,  9.3132e-10,  0.0000e+00,  ...,  4.6566e-10,
+          4.1910e-09,  4.1910e-09],
+        [ 5.3551e-09, -1.6531e-08,  0.0000e+00,  ..., -1.1967e-07,
+          3.4925e-09, -1.6578e-07]], device='cuda:0')
+Epoch 380, bias, value: tensor([ 0.0237, -0.0282,  0.0181, -0.0259,  0.0432,  0.0153,  0.0010, -0.0076,
+        -0.0269, -0.0191], device='cuda:0'), grad: tensor([-4.0513e-08,  2.3632e-07,  3.6438e-07, -9.8068e-07,  9.4762e-08,
+         8.0792e-08,  6.1467e-08,  4.8243e-07,  3.4692e-08, -3.2340e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 379, time 220.70, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4918 re_mapping 0.0028 re_causal 0.0086 /// teacc 99.15 lr 0.00010000
+Epoch 381, weight, value: tensor([[-0.3250,  0.2466, -0.0405,  ..., -0.1578,  0.0120,  0.0065],
+        [ 0.0099, -0.1710, -0.0319,  ...,  0.0522, -0.0754, -0.0937],
+        [-0.2567, -0.3123,  0.0600,  ..., -0.1345, -0.0757, -0.2454],
+        ...,
+        [ 0.0837,  0.1999, -0.1057,  ..., -0.1748,  0.0905,  0.0988],
+        [ 0.0307, -0.2207, -0.0609,  ..., -0.1585, -0.1304, -0.1237],
+        [-0.3031, -0.0979, -0.0705,  ...,  0.1069, -0.3371,  0.1160]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  6.9849e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 3.9581e-09,  6.5193e-09,  2.3283e-10,  ..., -3.2596e-09,
+          0.0000e+00,  4.1910e-09],
+        [ 0.0000e+00,  2.3283e-10, -3.4925e-09,  ...,  1.1642e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [-3.7253e-09, -6.0536e-09,  3.4925e-09,  ...,  2.5611e-09,
+          2.3283e-10, -3.4925e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          6.9849e-10,  0.0000e+00],
+        [ 1.3970e-09,  1.3970e-09,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00, -1.3970e-09]], device='cuda:0')
+Epoch 381, bias, value: tensor([ 0.0238, -0.0282,  0.0181, -0.0260,  0.0433,  0.0153,  0.0010, -0.0077,
+        -0.0263, -0.0191], device='cuda:0'), grad: tensor([ 3.0035e-08,  1.1874e-08, -8.3353e-08,  9.1223e-07,  5.1223e-09,
+        -9.2806e-07, -2.3982e-08,  8.1025e-08, -8.6147e-09,  7.2177e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 380----------------------------------------------------
+epoch 380, time 221.27, cls_loss 0.0005 cls_loss_mapping 0.0010 cls_loss_causal 0.4541 re_mapping 0.0028 re_causal 0.0082 /// teacc 99.27 lr 0.00010000
+Epoch 382, weight, value: tensor([[-0.3250,  0.2477, -0.0405,  ..., -0.1582,  0.0121,  0.0068],
+        [ 0.0099, -0.1710, -0.0320,  ...,  0.0523, -0.0755, -0.0938],
+        [-0.2569, -0.3125,  0.0601,  ..., -0.1354, -0.0756, -0.2450],
+        ...,
+        [ 0.0837,  0.1999, -0.1057,  ..., -0.1751,  0.0904,  0.0988],
+        [ 0.0308, -0.2207, -0.0611,  ..., -0.1587, -0.1305, -0.1237],
+        [-0.3065, -0.0979, -0.0705,  ...,  0.1050, -0.3374,  0.1156]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  2.0955e-09,
+          0.0000e+00,  1.8626e-09],
+        [ 2.3283e-10,  2.3283e-10,  0.0000e+00,  ...,  1.1642e-09,
+          0.0000e+00,  2.0955e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-10,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-09,
+          0.0000e+00, -6.9849e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          6.9849e-10,  1.1642e-09],
+        [ 0.0000e+00, -1.8626e-09,  0.0000e+00,  ..., -6.3330e-08,
+          0.0000e+00, -5.1223e-08]], device='cuda:0')
+Epoch 382, bias, value: tensor([ 0.0243, -0.0283,  0.0202, -0.0265,  0.0450,  0.0153,  0.0010, -0.0089,
+        -0.0260, -0.0202], device='cuda:0'), grad: tensor([ 5.8208e-09,  9.0804e-09, -5.1223e-09, -1.6065e-08,  1.1688e-07,
+         2.4913e-08,  0.0000e+00,  2.3283e-10,  4.4238e-09, -1.3853e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 381, time 221.06, cls_loss 0.0005 cls_loss_mapping 0.0010 cls_loss_causal 0.4423 re_mapping 0.0029 re_causal 0.0085 /// teacc 99.25 lr 0.00010000
+Epoch 383, weight, value: tensor([[-0.3251,  0.2478, -0.0405,  ..., -0.1612,  0.0122,  0.0066],
+        [ 0.0097, -0.1712, -0.0320,  ...,  0.0519, -0.0757, -0.0939],
+        [-0.2587, -0.3134,  0.0591,  ..., -0.1362, -0.0769, -0.2477],
+        ...,
+        [ 0.0845,  0.2001, -0.1052,  ..., -0.1753,  0.0906,  0.0989],
+        [ 0.0307, -0.2208, -0.0611,  ..., -0.1589, -0.1307, -0.1239],
+        [-0.3066, -0.0980, -0.0706,  ...,  0.1052, -0.3378,  0.1157]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.1874e-08,  0.0000e+00,  ...,  3.2596e-09,
+         -1.3970e-09,  6.9849e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.1642e-09,
+          0.0000e+00,  3.0268e-09],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  9.3132e-10,
+          6.9849e-10,  6.9849e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.4901e-08,
+          0.0000e+00,  1.4901e-08],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  3.8417e-08,
+          2.3283e-10,  4.1211e-08],
+        [ 6.9849e-10,  1.1642e-09,  0.0000e+00,  ..., -1.2317e-07,
+          2.3283e-10, -1.3830e-07]], device='cuda:0')
+Epoch 383, bias, value: tensor([ 0.0226, -0.0284,  0.0200, -0.0261,  0.0450,  0.0153,  0.0011, -0.0088,
+        -0.0260, -0.0201], device='cuda:0'), grad: tensor([-1.2340e-08, -4.6566e-10, -1.1176e-08,  1.9092e-08,  2.8405e-08,
+         6.2399e-07, -2.8755e-07,  6.3330e-08,  2.1816e-07, -6.2957e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 382, time 220.83, cls_loss 0.0004 cls_loss_mapping 0.0011 cls_loss_causal 0.4531 re_mapping 0.0029 re_causal 0.0085 /// teacc 99.17 lr 0.00010000
+Epoch 384, weight, value: tensor([[-0.3253,  0.2481, -0.0405,  ..., -0.1616,  0.0123,  0.0063],
+        [ 0.0097, -0.1713, -0.0318,  ...,  0.0520, -0.0752, -0.0940],
+        [-0.2590, -0.3134,  0.0590,  ..., -0.1365, -0.0770, -0.2480],
+        ...,
+        [ 0.0846,  0.2003, -0.1054,  ..., -0.1756,  0.0905,  0.0989],
+        [ 0.0307, -0.2208, -0.0613,  ..., -0.1592, -0.1307, -0.1240],
+        [-0.3062, -0.0981, -0.0707,  ...,  0.1081, -0.3381,  0.1177]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  3.1432e-08,  0.0000e+00,  ...,  3.9581e-09,
+          0.0000e+00,  1.1642e-09],
+        [ 6.2864e-09,  1.2340e-08,  2.3283e-10,  ...,  2.0256e-08,
+          2.3283e-10,  5.8208e-09],
+        [ 1.1642e-09, -1.2154e-07,  0.0000e+00,  ...,  3.4925e-09,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [ 3.4925e-08,  1.7462e-08, -9.3132e-10,  ...,  1.1316e-07,
+          8.3819e-09,  2.0722e-08],
+        [ 9.3132e-10,  3.4925e-09,  0.0000e+00,  ...,  2.7940e-09,
+          2.3283e-10,  9.3132e-10],
+        [ 3.7681e-06,  8.1491e-09,  2.3283e-10,  ...,  1.0505e-05,
+          6.9849e-10,  4.5053e-07]], device='cuda:0')
+Epoch 384, bias, value: tensor([ 0.0225, -0.0284,  0.0200, -0.0264,  0.0418,  0.0153,  0.0011, -0.0087,
+        -0.0261, -0.0175], device='cuda:0'), grad: tensor([ 1.5972e-07,  1.3364e-07, -5.4808e-07,  2.1607e-07, -4.1634e-05,
+        -1.0710e-08,  2.5611e-08,  5.2433e-07,  2.8405e-08,  4.1127e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 383, time 220.54, cls_loss 0.0005 cls_loss_mapping 0.0011 cls_loss_causal 0.4703 re_mapping 0.0028 re_causal 0.0085 /// teacc 99.14 lr 0.00010000
+Epoch 385, weight, value: tensor([[-0.3254,  0.2487, -0.0406,  ..., -0.1619,  0.0122,  0.0061],
+        [ 0.0096, -0.1714, -0.0319,  ...,  0.0518, -0.0754, -0.0940],
+        [-0.2595, -0.3136,  0.0590,  ..., -0.1381, -0.0776, -0.2487],
+        ...,
+        [ 0.0847,  0.2003, -0.1053,  ..., -0.1761,  0.0907,  0.0989],
+        [ 0.0307, -0.2209, -0.0614,  ..., -0.1594, -0.1308, -0.1241],
+        [-0.3070, -0.0981, -0.0707,  ...,  0.1079, -0.3408,  0.1178]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.9849e-10,
+          0.0000e+00,  6.9849e-10],
+        [ 3.2596e-09,  0.0000e+00,  4.6566e-10,  ...,  5.1223e-09,
+          0.0000e+00,  4.6566e-10],
+        [ 2.3283e-10,  2.3283e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 6.9849e-10,  0.0000e+00,  0.0000e+00,  ...,  1.6298e-09,
+          6.9849e-10,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ..., -2.0955e-09,
+          0.0000e+00, -2.7940e-09]], device='cuda:0')
+Epoch 385, bias, value: tensor([ 0.0227, -0.0285,  0.0200, -0.0272,  0.0421,  0.0155,  0.0010, -0.0088,
+        -0.0262, -0.0177], device='cuda:0'), grad: tensor([ 1.6298e-09,  1.0245e-08,  4.6566e-09,  1.8626e-09, -1.2806e-08,
+         1.1642e-09,  1.1642e-09,  1.0012e-08,  1.1642e-09, -4.1910e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 384, time 220.85, cls_loss 0.0005 cls_loss_mapping 0.0010 cls_loss_causal 0.4517 re_mapping 0.0028 re_causal 0.0082 /// teacc 99.15 lr 0.00010000
+Epoch 386, weight, value: tensor([[-0.3259,  0.2493, -0.0396,  ..., -0.1638,  0.0122,  0.0036],
+        [ 0.0090, -0.1720, -0.0318,  ...,  0.0517, -0.0759, -0.0943],
+        [-0.2597, -0.3139,  0.0589,  ..., -0.1397, -0.0780, -0.2489],
+        ...,
+        [ 0.0854,  0.2007, -0.1053,  ..., -0.1770,  0.0910,  0.0989],
+        [ 0.0313, -0.2210, -0.0621,  ..., -0.1584, -0.1309, -0.1236],
+        [-0.3074, -0.0980, -0.0710,  ...,  0.1081, -0.3413,  0.1180]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.1642e-09,
+          0.0000e+00,  9.3132e-10],
+        [-2.1420e-08,  9.3132e-10,  0.0000e+00,  ..., -1.1548e-07,
+          7.9162e-09,  3.0268e-08],
+        [ 2.5611e-09,  4.6566e-10,  0.0000e+00,  ...,  1.4901e-08,
+          0.0000e+00,  6.9849e-10],
+        ...,
+        [ 1.2107e-08, -1.1642e-09,  0.0000e+00,  ...,  8.8243e-08,
+         -1.1176e-08, -6.2864e-09],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  6.9849e-10],
+        [ 4.6566e-09,  6.9849e-10,  0.0000e+00,  ..., -1.0477e-08,
+          3.0268e-09, -4.2142e-08]], device='cuda:0')
+Epoch 386, bias, value: tensor([ 0.0217, -0.0287,  0.0200, -0.0276,  0.0421,  0.0156,  0.0010, -0.0088,
+        -0.0249, -0.0177], device='cuda:0'), grad: tensor([ 5.1223e-09, -3.8301e-07,  5.4948e-08,  1.1642e-08,  6.9384e-08,
+         5.3551e-09,  4.8894e-09,  2.7381e-07,  3.2596e-09, -3.6089e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 385, time 220.68, cls_loss 0.0004 cls_loss_mapping 0.0008 cls_loss_causal 0.4416 re_mapping 0.0030 re_causal 0.0085 /// teacc 99.20 lr 0.00010000
+Epoch 387, weight, value: tensor([[-0.3260,  0.2495, -0.0397,  ..., -0.1645,  0.0121,  0.0035],
+        [ 0.0089, -0.1722, -0.0318,  ...,  0.0516, -0.0761, -0.0944],
+        [-0.2598, -0.3140,  0.0588,  ..., -0.1410, -0.0780, -0.2491],
+        ...,
+        [ 0.0856,  0.2008, -0.1053,  ..., -0.1773,  0.0909,  0.0989],
+        [ 0.0313, -0.2210, -0.0622,  ..., -0.1586, -0.1309, -0.1236],
+        [-0.3075, -0.0980, -0.0710,  ...,  0.1082, -0.3415,  0.1181]],
+       device='cuda:0'), grad: tensor([[ 1.6298e-09,  2.3283e-10,  0.0000e+00,  ...,  6.9849e-10,
+          2.3283e-10,  4.6566e-10],
+        [ 2.3562e-07,  1.0245e-07,  0.0000e+00,  ...,  1.1176e-08,
+          8.7311e-08,  7.9861e-08],
+        [ 7.4506e-09,  3.2596e-09,  0.0000e+00,  ...,  6.9849e-10,
+          3.2596e-09,  2.7940e-09],
+        ...,
+        [-2.7195e-07, -1.1805e-07,  0.0000e+00,  ..., -1.3737e-08,
+         -9.9884e-08, -9.2201e-08],
+        [ 6.5193e-09,  1.8626e-09,  0.0000e+00,  ...,  4.6566e-10,
+          1.3970e-09,  1.3970e-09],
+        [ 5.3551e-09,  2.3283e-09,  0.0000e+00,  ..., -3.0268e-09,
+          1.8626e-09, -4.6566e-10]], device='cuda:0')
+Epoch 387, bias, value: tensor([ 0.0208, -0.0286,  0.0200, -0.0242,  0.0419,  0.0135,  0.0012, -0.0089,
+        -0.0250, -0.0176], device='cuda:0'), grad: tensor([ 1.4435e-08,  8.8755e-07,  3.2596e-08,  4.5635e-08,  8.6147e-08,
+        -6.4168e-07,  5.3644e-07, -1.0114e-06,  4.1910e-08,  1.4901e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 386, time 221.31, cls_loss 0.0006 cls_loss_mapping 0.0015 cls_loss_causal 0.4387 re_mapping 0.0030 re_causal 0.0084 /// teacc 99.14 lr 0.00010000
+Epoch 388, weight, value: tensor([[-0.3261,  0.2486, -0.0373,  ..., -0.1668,  0.0120,  0.0003],
+        [ 0.0087, -0.1723, -0.0318,  ...,  0.0515, -0.0765, -0.0945],
+        [-0.2600, -0.3151,  0.0584,  ..., -0.1431, -0.0782, -0.2492],
+        ...,
+        [ 0.0859,  0.2010, -0.1052,  ..., -0.1783,  0.0910,  0.0989],
+        [ 0.0313, -0.2210, -0.0623,  ..., -0.1593, -0.1311, -0.1238],
+        [-0.3088, -0.0974, -0.0712,  ...,  0.1093, -0.3419,  0.1191]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -2.0955e-09,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 2.3283e-10,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  1.1642e-09,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10,  2.0955e-09,  0.0000e+00,  ..., -3.0268e-09,
+          0.0000e+00, -1.3970e-09]], device='cuda:0')
+Epoch 388, bias, value: tensor([ 0.0182, -0.0287,  0.0199, -0.0241,  0.0408,  0.0134,  0.0012, -0.0090,
+        -0.0252, -0.0163], device='cuda:0'), grad: tensor([-3.2596e-09,  1.3970e-09,  4.6566e-10,  1.8626e-09,  7.2177e-09,
+         6.5193e-09,  1.3970e-09,  4.1910e-09, -6.9849e-09, -1.1642e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 387, time 220.42, cls_loss 0.0004 cls_loss_mapping 0.0013 cls_loss_causal 0.4361 re_mapping 0.0031 re_causal 0.0087 /// teacc 99.20 lr 0.00010000
+Epoch 389, weight, value: tensor([[-3.2621e-01,  2.4921e-01, -3.7195e-02,  ..., -1.6714e-01,
+          1.1867e-02,  3.4114e-04],
+        [ 8.1562e-03, -1.7257e-01, -3.1990e-02,  ...,  5.1401e-02,
+         -7.6636e-02, -9.4635e-02],
+        [-2.6025e-01, -3.1541e-01,  5.8098e-02,  ..., -1.4545e-01,
+         -7.8299e-02, -2.4936e-01],
+        ...,
+        [ 8.6180e-02,  2.0165e-01, -1.0525e-01,  ..., -1.7855e-01,
+          9.1116e-02,  9.9101e-02],
+        [ 3.1259e-02, -2.2110e-01, -6.2353e-02,  ..., -1.6102e-01,
+         -1.3121e-01, -1.2470e-01],
+        [-3.0886e-01, -9.8109e-02, -7.1258e-02,  ...,  1.0959e-01,
+         -3.4212e-01,  1.1916e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -3.9581e-09,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-10,  6.9849e-10],
+        [ 4.6566e-10,  2.3283e-10,  0.0000e+00,  ..., -2.3283e-10,
+          2.7940e-09,  8.1491e-09],
+        [ 1.1642e-09,  2.3283e-10,  0.0000e+00,  ...,  6.9849e-10,
+          4.6566e-09,  1.1642e-08],
+        ...,
+        [-5.1688e-08,  0.0000e+00,  0.0000e+00,  ..., -1.6764e-08,
+         -1.1874e-08, -2.0233e-07],
+        [ 3.4925e-09,  2.3283e-10,  0.0000e+00,  ...,  1.1642e-09,
+          2.2585e-08,  5.3551e-08],
+        [ 4.1444e-08,  6.9849e-10,  0.0000e+00,  ...,  1.4901e-08,
+          1.6531e-08,  1.8417e-07]], device='cuda:0')
+Epoch 389, bias, value: tensor([ 0.0183, -0.0289,  0.0199, -0.0241,  0.0406,  0.0135,  0.0012, -0.0087,
+        -0.0256, -0.0162], device='cuda:0'), grad: tensor([-3.0268e-09,  5.5181e-08,  1.0105e-07, -7.2271e-07,  3.4459e-08,
+         1.2945e-07,  1.0943e-08, -7.6974e-07,  3.9348e-07,  7.7346e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 388, time 220.87, cls_loss 0.0005 cls_loss_mapping 0.0017 cls_loss_causal 0.4666 re_mapping 0.0029 re_causal 0.0084 /// teacc 99.23 lr 0.00010000
+Epoch 390, weight, value: tensor([[-0.3263,  0.2497, -0.0373,  ..., -0.1668,  0.0119,  0.0004],
+        [ 0.0075, -0.1755, -0.0321,  ...,  0.0515, -0.0770, -0.0969],
+        [-0.2606, -0.3152,  0.0579,  ..., -0.1460, -0.0784, -0.2496],
+        ...,
+        [ 0.0864,  0.2044, -0.1052,  ..., -0.1793,  0.0913,  0.1001],
+        [ 0.0313, -0.2212, -0.0631,  ..., -0.1612, -0.1313, -0.1248],
+        [-0.3090, -0.0983, -0.0714,  ...,  0.1097, -0.3423,  0.1193]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 4.8894e-09,  1.0943e-08,  0.0000e+00,  ...,  0.0000e+00,
+          6.9849e-09,  2.0955e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  2.3283e-10],
+        ...,
+        [-4.6566e-09, -1.1176e-08,  0.0000e+00,  ...,  2.3283e-10,
+         -7.2177e-09, -2.1420e-08],
+        [ 2.3283e-10,  0.0000e+00,  2.3283e-10,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 6.9849e-10,  1.1642e-09,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-10,  2.0955e-09]], device='cuda:0')
+Epoch 390, bias, value: tensor([ 0.0184, -0.0320,  0.0199, -0.0242,  0.0406,  0.0136,  0.0011, -0.0061,
+        -0.0254, -0.0161], device='cuda:0'), grad: tensor([ 2.5611e-09,  7.6136e-08, -1.7695e-08,  3.4925e-08,  1.6298e-09,
+        -3.6019e-07,  3.1688e-07, -6.2631e-08,  9.5461e-09,  8.3819e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 389, time 221.10, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4689 re_mapping 0.0028 re_causal 0.0082 /// teacc 99.18 lr 0.00010000
+Epoch 391, weight, value: tensor([[-3.2637e-01,  2.5159e-01, -3.4897e-02,  ..., -1.6601e-01,
+          1.2238e-02,  2.1787e-04],
+        [ 7.4879e-03, -1.7553e-01, -3.2067e-02,  ...,  5.1556e-02,
+         -7.7308e-02, -9.7041e-02],
+        [-2.6083e-01, -3.1624e-01,  5.7948e-02,  ..., -1.4720e-01,
+         -7.8488e-02, -2.5014e-01],
+        ...,
+        [ 8.6529e-02,  2.0447e-01, -1.0520e-01,  ..., -1.7965e-01,
+          9.1042e-02,  1.0012e-01],
+        [ 3.1211e-02, -2.2155e-01, -6.4297e-02,  ..., -1.6158e-01,
+         -1.3147e-01, -1.2494e-01],
+        [-3.0920e-01, -9.8442e-02, -7.1565e-02,  ...,  1.0980e-01,
+         -3.4285e-01,  1.1935e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.0245e-08,  0.0000e+00,  ...,  1.3970e-09,
+         -2.0955e-09,  1.8626e-09],
+        [ 4.6566e-10,  2.3283e-10,  0.0000e+00,  ...,  1.6298e-09,
+          0.0000e+00,  2.3283e-09],
+        [ 0.0000e+00,  9.5461e-09,  0.0000e+00,  ...,  2.0955e-09,
+          2.0955e-09,  3.0268e-09],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  2.5146e-08,
+          0.0000e+00,  3.1199e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-08,
+          0.0000e+00,  1.8394e-08],
+        [ 4.8894e-09,  6.9849e-10,  2.3283e-10,  ..., -4.5868e-08,
+          0.0000e+00, -6.6357e-08]], device='cuda:0')
+Epoch 391, bias, value: tensor([ 0.0193, -0.0320,  0.0199, -0.0242,  0.0405,  0.0137,  0.0009, -0.0060,
+        -0.0255, -0.0161], device='cuda:0'), grad: tensor([-1.2107e-08, -7.4506e-09,  5.0291e-08,  7.6834e-09,  1.5367e-08,
+         1.6764e-08,  5.3551e-09,  1.5041e-07,  9.5461e-08, -3.0850e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 390, time 221.13, cls_loss 0.0006 cls_loss_mapping 0.0013 cls_loss_causal 0.4606 re_mapping 0.0029 re_causal 0.0083 /// teacc 99.18 lr 0.00010000
+Epoch 392, weight, value: tensor([[-3.2658e-01,  2.5226e-01, -3.4654e-02,  ..., -1.6637e-01,
+          1.2370e-02,  1.9492e-04],
+        [ 7.8969e-03, -1.7555e-01, -3.1046e-02,  ...,  5.2072e-02,
+         -7.5672e-02, -9.7093e-02],
+        [-2.6111e-01, -3.1737e-01,  5.8194e-02,  ..., -1.4776e-01,
+         -7.8626e-02, -2.5043e-01],
+        ...,
+        [ 8.6084e-02,  2.0451e-01, -1.0630e-01,  ..., -1.8019e-01,
+          8.8644e-02,  1.0010e-01],
+        [ 3.1564e-02, -2.2188e-01, -6.5169e-02,  ..., -1.6216e-01,
+         -1.3172e-01, -1.2527e-01],
+        [-3.0938e-01, -9.8540e-02, -7.1752e-02,  ...,  1.0982e-01,
+         -3.4387e-01,  1.1939e-01]], device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  3.9581e-09,
+          2.3283e-10,  3.4925e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.9581e-09,
+          1.3970e-09,  7.6834e-09],
+        [ 2.3283e-10, -2.3283e-10,  0.0000e+00,  ...,  6.9849e-10,
+          9.3132e-10,  1.1642e-09],
+        ...,
+        [ 2.0955e-09,  2.3283e-10,  0.0000e+00,  ...,  6.6822e-08,
+          7.4506e-09,  6.5425e-08],
+        [ 9.0804e-09,  0.0000e+00,  0.0000e+00,  ...,  8.3819e-09,
+          4.6566e-10,  8.1491e-09],
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ..., -4.4308e-07,
+          9.3132e-10, -4.0559e-07]], device='cuda:0')
+Epoch 392, bias, value: tensor([ 0.0192, -0.0320,  0.0199, -0.0241,  0.0405,  0.0135,  0.0013, -0.0061,
+        -0.0255, -0.0161], device='cuda:0'), grad: tensor([ 2.9569e-08,  3.0268e-08, -1.9372e-07,  2.1188e-08,  1.0924e-06,
+        -3.4948e-07,  2.3074e-07,  2.6426e-07,  8.1491e-08, -1.1986e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 391, time 221.22, cls_loss 0.0006 cls_loss_mapping 0.0011 cls_loss_causal 0.4850 re_mapping 0.0029 re_causal 0.0084 /// teacc 99.13 lr 0.00010000
+Epoch 393, weight, value: tensor([[-3.2665e-01,  2.5262e-01, -3.4589e-02,  ..., -1.6692e-01,
+          1.2508e-02,  1.5477e-04],
+        [ 8.0086e-03, -1.7555e-01, -3.1074e-02,  ...,  5.2078e-02,
+         -7.5691e-02, -9.7151e-02],
+        [-2.6195e-01, -3.1889e-01,  5.8233e-02,  ..., -1.4833e-01,
+         -7.8858e-02, -2.5079e-01],
+        ...,
+        [ 8.6125e-02,  2.0461e-01, -1.0637e-01,  ..., -1.8055e-01,
+          8.8746e-02,  1.0015e-01],
+        [ 3.1463e-02, -2.2174e-01, -6.7624e-02,  ..., -1.6271e-01,
+         -1.3189e-01, -1.2552e-01],
+        [-3.0949e-01, -9.8734e-02, -7.2050e-02,  ...,  1.1005e-01,
+         -3.4494e-01,  1.1953e-01]], device='cuda:0'), grad: tensor([[ 2.3283e-10, -1.9325e-08,  0.0000e+00,  ...,  6.9849e-10,
+         -1.6298e-09,  0.0000e+00],
+        [ 1.3271e-08,  4.6566e-10,  0.0000e+00,  ..., -4.6566e-09,
+          2.3283e-10,  0.0000e+00],
+        [ 4.6566e-10,  1.1642e-08,  0.0000e+00,  ...,  4.6566e-10,
+          1.1642e-09,  2.3283e-10],
+        ...,
+        [ 1.1642e-09,  2.3283e-10,  0.0000e+00,  ...,  4.8894e-09,
+          2.3283e-10,  2.5611e-09],
+        [ 3.4925e-09,  4.6566e-10,  0.0000e+00,  ...,  9.3132e-10,
+          2.3283e-10,  2.3283e-10],
+        [ 4.1910e-09,  4.4238e-09,  0.0000e+00,  ..., -9.3132e-10,
+          4.6566e-10, -3.0268e-09]], device='cuda:0')
+Epoch 393, bias, value: tensor([ 0.0190, -0.0320,  0.0198, -0.0242,  0.0403,  0.0160, -0.0012, -0.0062,
+        -0.0259, -0.0159], device='cuda:0'), grad: tensor([-3.6322e-08,  7.9162e-08,  5.7509e-08,  1.8720e-07,  4.6566e-10,
+        -3.3411e-07,  5.5879e-09,  2.8871e-08, -6.9849e-09,  3.4692e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 392, time 220.99, cls_loss 0.0004 cls_loss_mapping 0.0009 cls_loss_causal 0.4527 re_mapping 0.0030 re_causal 0.0088 /// teacc 99.12 lr 0.00010000
+Epoch 394, weight, value: tensor([[-3.2672e-01,  2.5290e-01, -3.4613e-02,  ..., -1.6707e-01,
+          1.2451e-02,  1.2952e-04],
+        [ 8.8908e-03, -1.7557e-01, -2.9968e-02,  ...,  5.3933e-02,
+         -7.4679e-02, -9.7210e-02],
+        [-2.6216e-01, -3.1926e-01,  5.8244e-02,  ..., -1.5008e-01,
+         -7.9291e-02, -2.5129e-01],
+        ...,
+        [ 8.5155e-02,  2.0466e-01, -1.0755e-01,  ..., -1.8169e-01,
+          8.8198e-02,  1.0020e-01],
+        [ 3.1464e-02, -2.2169e-01, -6.7881e-02,  ..., -1.6294e-01,
+         -1.3251e-01, -1.2573e-01],
+        [-3.0957e-01, -9.8817e-02, -7.2304e-02,  ...,  1.1005e-01,
+         -3.4542e-01,  1.1954e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.6298e-09,  4.6566e-10,  0.0000e+00,  ..., -6.9849e-10,
+          6.9849e-10,  3.9581e-09],
+        [ 4.6566e-10,  2.3283e-10,  0.0000e+00,  ...,  2.3283e-10,
+          2.3283e-10,  6.9849e-10],
+        ...,
+        [-2.5611e-09, -2.3283e-09,  0.0000e+00,  ..., -2.3283e-10,
+         -1.6298e-09, -8.8476e-09],
+        [-8.0559e-08,  0.0000e+00,  0.0000e+00,  ...,  6.9849e-10,
+          0.0000e+00,  6.9849e-10],
+        [ 1.8626e-09,  1.8626e-09,  0.0000e+00,  ..., -1.1642e-09,
+          6.9849e-10,  3.2596e-09]], device='cuda:0')
+Epoch 394, bias, value: tensor([ 0.0188, -0.0318,  0.0198, -0.0240,  0.0403,  0.0160, -0.0013, -0.0063,
+        -0.0258, -0.0159], device='cuda:0'), grad: tensor([ 3.0268e-09,  2.8056e-07, -3.1223e-07,  5.3551e-09,  6.5193e-09,
+         1.1334e-06,  2.0140e-07, -1.1642e-08, -1.3206e-06,  2.5379e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 393, time 221.04, cls_loss 0.0006 cls_loss_mapping 0.0011 cls_loss_causal 0.4665 re_mapping 0.0028 re_causal 0.0083 /// teacc 99.10 lr 0.00010000
+Epoch 395, weight, value: tensor([[-3.2727e-01,  2.5338e-01, -3.4351e-02,  ..., -1.6747e-01,
+          1.2515e-02,  1.1239e-05],
+        [ 6.9107e-03, -1.7591e-01, -2.9999e-02,  ...,  5.2757e-02,
+         -7.4827e-02, -9.7793e-02],
+        [-2.6253e-01, -3.1979e-01,  5.8320e-02,  ..., -1.5070e-01,
+         -7.9300e-02, -2.5170e-01],
+        ...,
+        [ 8.7294e-02,  2.0504e-01, -1.0758e-01,  ..., -1.8307e-01,
+          8.8177e-02,  1.0033e-01],
+        [ 3.1384e-02, -2.2202e-01, -6.7927e-02,  ..., -1.6324e-01,
+         -1.3265e-01, -1.2597e-01],
+        [-3.0968e-01, -9.8879e-02, -7.2511e-02,  ...,  1.1083e-01,
+         -3.4556e-01,  1.2015e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  6.9849e-10],
+        [ 1.3970e-09,  0.0000e+00,  4.6566e-10,  ...,  4.4238e-09,
+          6.9849e-10,  3.0268e-09],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-09,
+          4.6566e-10,  6.9849e-10],
+        ...,
+        [ 7.2177e-09,  0.0000e+00, -6.9849e-10,  ...,  2.3749e-08,
+          0.0000e+00,  7.9162e-09],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  3.4925e-09,
+          2.3283e-10,  2.7940e-09],
+        [ 1.5111e-07,  4.6566e-10,  2.3283e-10,  ...,  2.9756e-07,
+          0.0000e+00, -5.5181e-08]], device='cuda:0')
+Epoch 395, bias, value: tensor([ 0.0187, -0.0320,  0.0198, -0.0244,  0.0398,  0.0161, -0.0012, -0.0062,
+        -0.0260, -0.0153], device='cuda:0'), grad: tensor([ 5.1223e-09,  1.3737e-08,  1.2340e-08,  2.1886e-08, -1.0366e-06,
+        -2.3283e-08,  2.0955e-08,  8.7079e-08,  1.6065e-08,  9.1037e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 394, time 220.67, cls_loss 0.0004 cls_loss_mapping 0.0009 cls_loss_causal 0.4553 re_mapping 0.0027 re_causal 0.0083 /// teacc 99.09 lr 0.00010000
+Epoch 396, weight, value: tensor([[-3.2747e-01,  2.5416e-01, -3.4166e-02,  ..., -1.6773e-01,
+          1.2524e-02,  1.5293e-05],
+        [ 6.9355e-03, -1.7592e-01, -3.0016e-02,  ...,  5.2739e-02,
+         -7.4982e-02, -9.7864e-02],
+        [-2.6326e-01, -3.1998e-01,  5.8275e-02,  ..., -1.5125e-01,
+         -7.9484e-02, -2.5192e-01],
+        ...,
+        [ 8.7255e-02,  2.0503e-01, -1.0756e-01,  ..., -1.8367e-01,
+          8.8169e-02,  1.0031e-01],
+        [ 3.1302e-02, -2.2210e-01, -6.8126e-02,  ..., -1.6343e-01,
+         -1.3274e-01, -1.2609e-01],
+        [-3.1039e-01, -9.8977e-02, -7.2615e-02,  ...,  1.1079e-01,
+         -3.4566e-01,  1.2027e-01]], device='cuda:0'), grad: tensor([[ 1.6298e-09, -2.1188e-08,  0.0000e+00,  ...,  2.0489e-08,
+         -2.3283e-09, -2.0955e-09],
+        [ 2.3283e-10,  1.1642e-09,  0.0000e+00,  ...,  2.3283e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  6.9849e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 6.9849e-10,  2.5611e-09,  0.0000e+00,  ...,  2.3283e-09,
+          2.3283e-10,  9.3132e-10],
+        [ 9.3132e-10,  1.1642e-09,  0.0000e+00,  ...,  1.2107e-08,
+          0.0000e+00,  2.3283e-10],
+        [ 4.6566e-10,  9.0804e-09,  0.0000e+00,  ..., -9.0804e-09,
+          1.1642e-09, -1.3970e-09]], device='cuda:0')
+Epoch 396, bias, value: tensor([ 0.0188, -0.0319,  0.0196, -0.0244,  0.0399,  0.0161, -0.0012, -0.0063,
+        -0.0260, -0.0153], device='cuda:0'), grad: tensor([ 9.5228e-08,  1.6531e-08,  4.8894e-09,  3.8417e-08,  2.3050e-08,
+         1.2852e-07, -3.8953e-07,  1.3504e-08,  7.8464e-08, -8.1491e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 395, time 220.67, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4661 re_mapping 0.0029 re_causal 0.0085 /// teacc 99.16 lr 0.00010000
+Epoch 397, weight, value: tensor([[-3.2765e-01,  2.5432e-01, -3.4236e-02,  ..., -1.6823e-01,
+          1.2528e-02, -6.4569e-06],
+        [ 6.7951e-03, -1.7599e-01, -3.0007e-02,  ...,  5.2858e-02,
+         -7.5879e-02, -9.7979e-02],
+        [-2.6346e-01, -3.2011e-01,  5.8062e-02,  ..., -1.5233e-01,
+         -7.9610e-02, -2.5215e-01],
+        ...,
+        [ 8.7428e-02,  2.0512e-01, -1.0752e-01,  ..., -1.8393e-01,
+          8.8783e-02,  1.0038e-01],
+        [ 3.0438e-02, -2.2095e-01, -6.8374e-02,  ..., -1.6373e-01,
+         -1.3284e-01, -1.2685e-01],
+        [-3.1059e-01, -9.9053e-02, -7.2768e-02,  ...,  1.1076e-01,
+         -3.4605e-01,  1.2029e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10,  2.5611e-09,  0.0000e+00,  ..., -1.1642e-09,
+          2.7940e-09,  6.0536e-09],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  4.6566e-10,
+          1.1642e-09,  2.3283e-09],
+        ...,
+        [ 0.0000e+00, -7.4506e-09,  0.0000e+00,  ...,  1.1642e-09,
+         -4.6566e-09, -1.2573e-08],
+        [ 0.0000e+00,  1.3970e-09,  0.0000e+00,  ..., -4.6566e-10,
+          1.3970e-09,  3.2596e-09],
+        [ 6.9849e-10,  2.3283e-09,  0.0000e+00,  ...,  1.8626e-09,
+          3.0268e-09,  5.8208e-09]], device='cuda:0')
+Epoch 397, bias, value: tensor([ 0.0185, -0.0320,  0.0202, -0.0258,  0.0399,  0.0167, -0.0012, -0.0064,
+        -0.0266, -0.0154], device='cuda:0'), grad: tensor([ 1.6298e-09,  5.5879e-09,  1.0710e-08, -5.4715e-08, -2.5611e-09,
+         5.1456e-08,  6.5193e-09, -3.8184e-08,  1.1642e-09,  3.1199e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 396, time 220.29, cls_loss 0.0005 cls_loss_mapping 0.0015 cls_loss_causal 0.4541 re_mapping 0.0029 re_causal 0.0085 /// teacc 99.07 lr 0.00010000
+Epoch 398, weight, value: tensor([[-3.2785e-01,  2.5585e-01, -3.4245e-02,  ..., -1.6812e-01,
+          1.2542e-02, -3.8356e-05],
+        [ 6.9530e-03, -1.7600e-01, -2.9907e-02,  ...,  5.2741e-02,
+         -7.5931e-02, -9.7979e-02],
+        [-2.6364e-01, -3.2022e-01,  5.8044e-02,  ..., -1.5312e-01,
+         -7.9469e-02, -2.5240e-01],
+        ...,
+        [ 8.7477e-02,  2.0516e-01, -1.0764e-01,  ..., -1.8424e-01,
+          8.8920e-02,  1.0040e-01],
+        [ 3.0134e-02, -2.2122e-01, -6.8428e-02,  ..., -1.6392e-01,
+         -1.3305e-01, -1.2698e-01],
+        [-3.1067e-01, -9.9328e-02, -7.2846e-02,  ...,  1.1080e-01,
+         -3.4698e-01,  1.2031e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-10],
+        [ 2.0722e-08,  1.1176e-08,  9.3132e-10,  ...,  0.0000e+00,
+          2.7474e-08,  9.1968e-08],
+        [ 1.3970e-09,  9.3132e-10, -4.4238e-09,  ...,  0.0000e+00,
+          1.0245e-08,  3.3295e-08],
+        ...,
+        [-2.7940e-08, -1.2107e-08, -1.1176e-08,  ...,  0.0000e+00,
+         -6.1467e-08, -2.1374e-07],
+        [ 1.1642e-09, -1.3970e-09,  4.6566e-10,  ..., -1.8626e-09,
+          3.2596e-09,  1.0477e-08],
+        [ 1.3970e-09,  1.3970e-09,  9.3132e-10,  ...,  9.3132e-10,
+          1.5134e-08,  4.8662e-08]], device='cuda:0')
+Epoch 398, bias, value: tensor([ 0.0190, -0.0319,  0.0202, -0.0263,  0.0399,  0.0168, -0.0010, -0.0064,
+        -0.0270, -0.0154], device='cuda:0'), grad: tensor([ 2.3283e-09,  5.1688e-07,  1.0501e-07,  8.9873e-08,  4.9826e-08,
+         1.8626e-08,  2.3749e-08, -1.0561e-06,  1.3271e-08,  2.4866e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 397, time 220.40, cls_loss 0.0004 cls_loss_mapping 0.0015 cls_loss_causal 0.4688 re_mapping 0.0028 re_causal 0.0086 /// teacc 99.14 lr 0.00010000
+Epoch 399, weight, value: tensor([[-3.2787e-01,  2.5719e-01, -3.2904e-02,  ..., -1.6826e-01,
+          1.2585e-02, -5.0085e-05],
+        [ 6.9720e-03, -1.7602e-01, -2.9912e-02,  ...,  5.2741e-02,
+         -7.6043e-02, -9.8027e-02],
+        [-2.6415e-01, -3.2061e-01,  5.8173e-02,  ..., -1.5346e-01,
+         -7.9035e-02, -2.5245e-01],
+        ...,
+        [ 8.7615e-02,  2.0520e-01, -1.0764e-01,  ..., -1.8430e-01,
+          8.8983e-02,  1.0044e-01],
+        [ 2.9960e-02, -2.2007e-01, -6.8444e-02,  ..., -1.6411e-01,
+         -1.3317e-01, -1.2712e-01],
+        [-3.1099e-01, -9.9464e-02, -7.2955e-02,  ...,  1.1071e-01,
+         -3.4719e-01,  1.2032e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.6298e-09,  ...,  9.3132e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 0.0000e+00,  2.3283e-10,  1.8626e-09,  ...,  6.9849e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 0.0000e+00, -6.9849e-10, -4.2375e-08,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  2.3283e-10,  1.8859e-08,  ...,  3.4925e-09,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.5611e-09,
+          0.0000e+00,  1.3970e-09],
+        [ 0.0000e+00,  6.9849e-10,  2.3283e-09,  ..., -3.7020e-08,
+          0.0000e+00, -1.8161e-08]], device='cuda:0')
+Epoch 399, bias, value: tensor([ 0.0188, -0.0319,  0.0203, -0.0264,  0.0400,  0.0169, -0.0012, -0.0064,
+        -0.0264, -0.0155], device='cuda:0'), grad: tensor([ 9.0804e-09,  1.2340e-08, -1.9255e-07,  7.5903e-08,  6.4960e-08,
+         5.8208e-09,  5.5879e-09,  9.2434e-08,  8.6147e-09, -7.3807e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 398, time 220.74, cls_loss 0.0006 cls_loss_mapping 0.0011 cls_loss_causal 0.4836 re_mapping 0.0027 re_causal 0.0082 /// teacc 99.07 lr 0.00010000
+Epoch 400, weight, value: tensor([[-3.2812e-01,  2.5816e-01, -3.2531e-02,  ..., -1.6906e-01,
+          1.2653e-02, -1.1100e-04],
+        [ 6.6018e-03, -1.7606e-01, -2.9961e-02,  ...,  5.2229e-02,
+         -7.6214e-02, -9.8147e-02],
+        [-2.6521e-01, -3.2090e-01,  5.8321e-02,  ..., -1.5393e-01,
+         -7.9760e-02, -2.5293e-01],
+        ...,
+        [ 8.7919e-02,  2.0525e-01, -1.0761e-01,  ..., -1.8447e-01,
+          8.9039e-02,  1.0050e-01],
+        [ 2.9332e-02, -2.2028e-01, -6.8678e-02,  ..., -1.6473e-01,
+         -1.3331e-01, -1.2737e-01],
+        [-3.1173e-01, -9.9545e-02, -7.3022e-02,  ...,  1.1058e-01,
+         -3.4750e-01,  1.2040e-01]], device='cuda:0'), grad: tensor([[ 1.1642e-09,  0.0000e+00,  0.0000e+00,  ...,  6.9849e-10,
+          2.3283e-10,  2.3283e-10],
+        [ 4.1910e-09, -4.6566e-10,  0.0000e+00,  ..., -1.2340e-08,
+          1.3970e-09,  6.9849e-10],
+        [ 3.7253e-09,  2.3283e-10,  0.0000e+00,  ...,  1.6298e-09,
+          1.3970e-09,  6.9849e-10],
+        ...,
+        [ 1.5367e-08,  0.0000e+00,  0.0000e+00,  ...,  3.2596e-09,
+          4.8894e-09,  1.3970e-09],
+        [-5.0059e-08,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+         -1.3039e-08,  2.3283e-10],
+        [ 9.5461e-09,  2.3283e-10,  0.0000e+00,  ...,  4.6566e-10,
+          2.7940e-09, -1.1642e-09]], device='cuda:0')
+Epoch 400, bias, value: tensor([ 0.0189, -0.0320,  0.0204, -0.0271,  0.0402,  0.0168, -0.0012, -0.0064,
+        -0.0256, -0.0157], device='cuda:0'), grad: tensor([ 3.4226e-08,  1.8161e-08, -6.0536e-09,  1.5972e-07,  1.9791e-08,
+         7.4506e-08,  7.1013e-08,  2.8964e-07, -8.2189e-07,  1.6950e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 399, time 220.31, cls_loss 0.0004 cls_loss_mapping 0.0010 cls_loss_causal 0.4533 re_mapping 0.0029 re_causal 0.0083 /// teacc 99.10 lr 0.00001000
+Epoch 401, weight, value: tensor([[-3.2819e-01,  2.5927e-01, -3.2768e-02,  ..., -1.7018e-01,
+          1.2589e-02, -1.5251e-04],
+        [ 6.4919e-03, -1.7609e-01, -3.0117e-02,  ...,  5.2070e-02,
+         -7.6484e-02, -9.8227e-02],
+        [-2.6576e-01, -3.2157e-01,  5.8268e-02,  ..., -1.5466e-01,
+         -8.0278e-02, -2.5327e-01],
+        ...,
+        [ 8.8023e-02,  2.0528e-01, -1.0760e-01,  ..., -1.8475e-01,
+          8.9326e-02,  1.0055e-01],
+        [ 2.9324e-02, -2.2076e-01, -6.9715e-02,  ..., -1.6505e-01,
+         -1.3344e-01, -1.2746e-01],
+        [-3.1210e-01, -9.9774e-02, -7.3121e-02,  ...,  1.1058e-01,
+         -3.4882e-01,  1.2042e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 1.3039e-08,  2.5611e-09,  0.0000e+00,  ...,  1.5832e-08,
+          8.8476e-09,  4.6566e-08],
+        [ 4.6566e-10,  2.3283e-10,  0.0000e+00,  ...,  4.6566e-10,
+          2.3283e-10,  1.6298e-09],
+        ...,
+        [-2.6310e-08, -5.3551e-09,  0.0000e+00,  ..., -2.9337e-08,
+         -1.7695e-08, -9.3132e-08],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  6.9849e-10,
+          2.3283e-10,  1.6298e-09],
+        [ 1.1642e-08,  2.7940e-09,  0.0000e+00,  ...,  1.3039e-08,
+          7.6834e-09,  4.0978e-08]], device='cuda:0')
+Epoch 401, bias, value: tensor([ 0.0191, -0.0320,  0.0204, -0.0283,  0.0402,  0.0166, -0.0011, -0.0064,
+        -0.0236, -0.0158], device='cuda:0'), grad: tensor([ 2.0955e-09,  1.2824e-06, -5.3793e-06,  4.4238e-09,  1.0710e-08,
+         1.7928e-08, -6.5193e-09,  3.8929e-06,  1.1642e-08,  1.5297e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 400, time 220.58, cls_loss 0.0004 cls_loss_mapping 0.0007 cls_loss_causal 0.4333 re_mapping 0.0028 re_causal 0.0085 /// teacc 99.11 lr 0.00001000
+Epoch 402, weight, value: tensor([[-3.2820e-01,  2.5931e-01, -3.2770e-02,  ..., -1.7020e-01,
+          1.2589e-02, -1.5411e-04],
+        [ 6.4736e-03, -1.7609e-01, -3.0125e-02,  ...,  5.2032e-02,
+         -7.6497e-02, -9.8234e-02],
+        [-2.6578e-01, -3.2159e-01,  5.8268e-02,  ..., -1.5471e-01,
+         -8.0288e-02, -2.5329e-01],
+        ...,
+        [ 8.8031e-02,  2.0529e-01, -1.0760e-01,  ..., -1.8479e-01,
+          8.9329e-02,  1.0055e-01],
+        [ 2.9331e-02, -2.2075e-01, -6.9733e-02,  ..., -1.6507e-01,
+         -1.3345e-01, -1.2747e-01],
+        [-3.1212e-01, -9.9779e-02, -7.3123e-02,  ...,  1.1058e-01,
+         -3.4884e-01,  1.2043e-01]], device='cuda:0'), grad: tensor([[ 2.3283e-10, -1.6298e-09,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 3.7951e-08,  6.2864e-09,  0.0000e+00,  ...,  5.9837e-08,
+          0.0000e+00,  7.4506e-09],
+        [ 4.6566e-10,  1.6298e-09,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  1.3970e-09],
+        ...,
+        [ 3.9581e-09, -1.2806e-08,  0.0000e+00,  ...,  1.1409e-08,
+          4.6566e-10, -7.6834e-09],
+        [ 2.3283e-10,  4.6566e-10,  0.0000e+00,  ...,  1.3970e-09,
+          0.0000e+00,  2.3283e-10],
+        [ 7.7765e-08,  6.0536e-09,  0.0000e+00,  ...,  1.0058e-07,
+         -9.3132e-10, -1.3504e-08]], device='cuda:0')
+Epoch 402, bias, value: tensor([ 0.0191, -0.0322,  0.0208, -0.0283,  0.0402,  0.0166, -0.0011, -0.0065,
+        -0.0236, -0.0158], device='cuda:0'), grad: tensor([ 4.6566e-10,  1.7858e-07,  7.2177e-09,  3.7253e-09, -4.4587e-07,
+        -1.7229e-08,  3.9581e-09, -8.6147e-09,  6.2864e-09,  2.8033e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 401, time 221.26, cls_loss 0.0004 cls_loss_mapping 0.0006 cls_loss_causal 0.4398 re_mapping 0.0027 re_causal 0.0082 /// teacc 99.11 lr 0.00001000
+Epoch 403, weight, value: tensor([[-3.2820e-01,  2.5936e-01, -3.2768e-02,  ..., -1.7024e-01,
+          1.2586e-02, -1.6123e-04],
+        [ 6.4410e-03, -1.7609e-01, -3.0138e-02,  ...,  5.1989e-02,
+         -7.6528e-02, -9.8243e-02],
+        [-2.6580e-01, -3.2162e-01,  5.8306e-02,  ..., -1.5477e-01,
+         -8.0299e-02, -2.5330e-01],
+        ...,
+        [ 8.8040e-02,  2.0529e-01, -1.0761e-01,  ..., -1.8481e-01,
+          8.9344e-02,  1.0055e-01],
+        [ 2.9337e-02, -2.2078e-01, -6.9735e-02,  ..., -1.6509e-01,
+         -1.3346e-01, -1.2748e-01],
+        [-3.1214e-01, -9.9785e-02, -7.3128e-02,  ...,  1.1058e-01,
+         -3.4887e-01,  1.2044e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -2.0955e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.0955e-09,
+          0.0000e+00,  2.5611e-09],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 2.0955e-09,  0.0000e+00,  0.0000e+00,  ...,  3.9581e-09,
+          2.3283e-10,  4.8894e-09],
+        [-1.8626e-09,  2.3283e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ..., -8.1491e-09,
+          0.0000e+00, -9.3132e-09]], device='cuda:0')
+Epoch 403, bias, value: tensor([ 0.0191, -0.0322,  0.0209, -0.0283,  0.0402,  0.0166, -0.0011, -0.0065,
+        -0.0236, -0.0158], device='cuda:0'), grad: tensor([-3.4925e-09,  8.6147e-09,  2.0955e-09, -3.0268e-09,  7.2177e-09,
+         4.4238e-09,  4.1910e-09,  3.1432e-08, -1.2107e-08, -2.7241e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 402, time 220.76, cls_loss 0.0003 cls_loss_mapping 0.0005 cls_loss_causal 0.4358 re_mapping 0.0026 re_causal 0.0081 /// teacc 99.12 lr 0.00001000
+Epoch 404, weight, value: tensor([[-3.2820e-01,  2.5942e-01, -3.2770e-02,  ..., -1.7027e-01,
+          1.2586e-02, -1.6134e-04],
+        [ 6.4243e-03, -1.7609e-01, -3.0179e-02,  ...,  5.1971e-02,
+         -7.6539e-02, -9.8253e-02],
+        [-2.6583e-01, -3.2164e-01,  5.8311e-02,  ..., -1.5483e-01,
+         -8.0306e-02, -2.5331e-01],
+        ...,
+        [ 8.8044e-02,  2.0529e-01, -1.0762e-01,  ..., -1.8483e-01,
+          8.9344e-02,  1.0055e-01],
+        [ 2.9338e-02, -2.2080e-01, -6.9790e-02,  ..., -1.6511e-01,
+         -1.3346e-01, -1.2749e-01],
+        [-3.1216e-01, -9.9791e-02, -7.3139e-02,  ...,  1.1058e-01,
+         -3.4887e-01,  1.2044e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-6.9849e-10,  0.0000e+00, -2.3283e-10,  ..., -2.7940e-09,
+          2.3283e-10,  2.3283e-10],
+        [ 6.9849e-10,  0.0000e+00,  2.3283e-10,  ...,  4.6566e-10,
+          2.3283e-10,  2.3283e-10],
+        ...,
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          6.9849e-10,  6.9849e-10],
+        [-9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 9.3132e-10,  2.3283e-10,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  2.3283e-10]], device='cuda:0')
+Epoch 404, bias, value: tensor([ 0.0191, -0.0323,  0.0209, -0.0283,  0.0403,  0.0166, -0.0011, -0.0065,
+        -0.0236, -0.0158], device='cuda:0'), grad: tensor([ 4.6566e-10,  2.2352e-08, -3.2363e-08, -1.0245e-08, -9.7789e-09,
+         4.6566e-09,  2.5146e-08,  1.0477e-08, -1.2806e-08,  9.5461e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 403, time 220.91, cls_loss 0.0003 cls_loss_mapping 0.0006 cls_loss_causal 0.4339 re_mapping 0.0025 re_causal 0.0079 /// teacc 99.13 lr 0.00001000
+Epoch 405, weight, value: tensor([[-3.2821e-01,  2.5948e-01, -3.2771e-02,  ..., -1.7029e-01,
+          1.2600e-02, -1.6519e-04],
+        [ 6.4107e-03, -1.7609e-01, -3.0185e-02,  ...,  5.1964e-02,
+         -7.6552e-02, -9.8258e-02],
+        [-2.6588e-01, -3.2169e-01,  5.8311e-02,  ..., -1.5501e-01,
+         -8.0317e-02, -2.5332e-01],
+        ...,
+        [ 8.8050e-02,  2.0529e-01, -1.0762e-01,  ..., -1.8488e-01,
+          8.9349e-02,  1.0055e-01],
+        [ 2.9339e-02, -2.2085e-01, -6.9791e-02,  ..., -1.6513e-01,
+         -1.3347e-01, -1.2750e-01],
+        [-3.1219e-01, -9.9798e-02, -7.3142e-02,  ...,  1.1058e-01,
+         -3.4890e-01,  1.2045e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.1642e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          4.6566e-10,  2.3283e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.9849e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          2.3283e-10,  0.0000e+00],
+        [ 2.3283e-10,  2.3283e-10,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 405, bias, value: tensor([ 0.0191, -0.0323,  0.0209, -0.0283,  0.0403,  0.0166, -0.0011, -0.0065,
+        -0.0236, -0.0158], device='cuda:0'), grad: tensor([ 3.2596e-09,  2.5611e-08, -1.5367e-07,  2.3283e-09,  7.9162e-09,
+         2.0955e-09,  4.8894e-09,  5.6345e-08,  5.8673e-08,  8.1491e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 404, time 220.38, cls_loss 0.0003 cls_loss_mapping 0.0005 cls_loss_causal 0.4456 re_mapping 0.0026 re_causal 0.0082 /// teacc 99.16 lr 0.00001000
+Epoch 406, weight, value: tensor([[-3.2822e-01,  2.5954e-01, -3.2769e-02,  ..., -1.7033e-01,
+          1.2601e-02, -1.6588e-04],
+        [ 6.4169e-03, -1.7609e-01, -3.0191e-02,  ...,  5.1974e-02,
+         -7.6558e-02, -9.8261e-02],
+        [-2.6592e-01, -3.2170e-01,  5.8311e-02,  ..., -1.5509e-01,
+         -8.0332e-02, -2.5333e-01],
+        ...,
+        [ 8.8050e-02,  2.0529e-01, -1.0762e-01,  ..., -1.8491e-01,
+          8.9340e-02,  1.0055e-01],
+        [ 2.9338e-02, -2.2087e-01, -6.9792e-02,  ..., -1.6514e-01,
+         -1.3348e-01, -1.2750e-01],
+        [-3.1221e-01, -9.9803e-02, -7.3143e-02,  ...,  1.1058e-01,
+         -3.4891e-01,  1.2045e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.6298e-09,  2.3283e-10,  1.6298e-09,  ...,  4.6566e-10,
+          2.3283e-10,  6.9849e-10],
+        [ 2.3283e-10,  2.3283e-10,  2.3283e-10,  ...,  0.0000e+00,
+          1.1642e-09,  1.3970e-09],
+        ...,
+        [ 2.3283e-09,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          1.3970e-09,  2.5611e-09],
+        [-7.6834e-09,  0.0000e+00,  4.4238e-09,  ...,  1.3970e-09,
+          2.3283e-10,  4.6566e-10],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ..., -3.2596e-09,
+          0.0000e+00, -3.9581e-09]], device='cuda:0')
+Epoch 406, bias, value: tensor([ 0.0191, -0.0323,  0.0209, -0.0283,  0.0403,  0.0166, -0.0011, -0.0065,
+        -0.0236, -0.0158], device='cuda:0'), grad: tensor([ 1.1642e-09,  1.9558e-08, -5.8208e-09,  1.3271e-08,  1.2806e-08,
+         2.0992e-06, -2.1346e-06,  2.1653e-08, -1.0477e-08, -8.8476e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 405, time 220.48, cls_loss 0.0003 cls_loss_mapping 0.0004 cls_loss_causal 0.4045 re_mapping 0.0025 re_causal 0.0078 /// teacc 99.13 lr 0.00001000
+Epoch 407, weight, value: tensor([[-3.2822e-01,  2.5958e-01, -3.2768e-02,  ..., -1.7038e-01,
+          1.2597e-02, -1.7076e-04],
+        [ 6.4174e-03, -1.7610e-01, -3.0192e-02,  ...,  5.1975e-02,
+         -7.6569e-02, -9.8268e-02],
+        [-2.6595e-01, -3.2171e-01,  5.8310e-02,  ..., -1.5511e-01,
+         -8.0343e-02, -2.5335e-01],
+        ...,
+        [ 8.8050e-02,  2.0529e-01, -1.0762e-01,  ..., -1.8493e-01,
+          8.9333e-02,  1.0055e-01],
+        [ 2.9339e-02, -2.2090e-01, -6.9825e-02,  ..., -1.6516e-01,
+         -1.3348e-01, -1.2751e-01],
+        [-3.1223e-01, -9.9807e-02, -7.3147e-02,  ...,  1.1059e-01,
+         -3.4890e-01,  1.2046e-01]], device='cuda:0'), grad: tensor([[0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 3.4925e-09, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 3.7253e-09, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 1.8626e-09, 0.0000e+00,
+         0.0000e+00],
+        ...,
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 2.3283e-10, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 1.1642e-09, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 2.3283e-10, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00]], device='cuda:0')
+Epoch 407, bias, value: tensor([ 0.0191, -0.0323,  0.0209, -0.0283,  0.0403,  0.0166, -0.0011, -0.0065,
+        -0.0236, -0.0158], device='cuda:0'), grad: tensor([ 1.6065e-08,  2.7241e-08, -7.6368e-08,  0.0000e+00,  2.0955e-09,
+         8.1491e-09, -5.7044e-08,  6.7288e-08,  1.1409e-08,  4.8894e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 406, time 221.04, cls_loss 0.0003 cls_loss_mapping 0.0005 cls_loss_causal 0.4504 re_mapping 0.0025 re_causal 0.0081 /// teacc 99.12 lr 0.00001000
+Epoch 408, weight, value: tensor([[-3.2823e-01,  2.5961e-01, -3.2769e-02,  ..., -1.7042e-01,
+          1.2594e-02, -1.7172e-04],
+        [ 6.4106e-03, -1.7610e-01, -3.0199e-02,  ...,  5.1964e-02,
+         -7.6578e-02, -9.8278e-02],
+        [-2.6599e-01, -3.2173e-01,  5.8304e-02,  ..., -1.5514e-01,
+         -8.0353e-02, -2.5337e-01],
+        ...,
+        [ 8.8049e-02,  2.0530e-01, -1.0762e-01,  ..., -1.8496e-01,
+          8.9333e-02,  1.0055e-01],
+        [ 2.9334e-02, -2.2090e-01, -6.9859e-02,  ..., -1.6518e-01,
+         -1.3349e-01, -1.2751e-01],
+        [-3.1227e-01, -9.9812e-02, -7.3151e-02,  ...,  1.1058e-01,
+         -3.4892e-01,  1.2046e-01]], device='cuda:0'), grad: tensor([[ 1.1642e-09, -7.2177e-09,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-09,  9.3132e-10],
+        [ 4.6566e-10,  2.3283e-10,  0.0000e+00,  ...,  2.3283e-10,
+          9.3132e-10,  6.9849e-10],
+        [ 0.0000e+00,  3.0268e-09,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-10,  2.3283e-10],
+        ...,
+        [ 1.1642e-09,  0.0000e+00,  0.0000e+00,  ...,  6.9849e-10,
+          2.3283e-09,  1.1642e-09],
+        [ 2.3283e-10,  2.3283e-10,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  2.3283e-10],
+        [ 1.1176e-08,  2.5611e-09,  0.0000e+00,  ...,  2.3283e-09,
+          1.7928e-08,  6.7521e-09]], device='cuda:0')
+Epoch 408, bias, value: tensor([ 0.0191, -0.0323,  0.0209, -0.0283,  0.0403,  0.0166, -0.0011, -0.0065,
+        -0.0236, -0.0158], device='cuda:0'), grad: tensor([-6.9849e-09,  2.0256e-08, -4.1910e-09,  7.1479e-08, -5.5879e-09,
+        -2.3004e-07,  3.9581e-09,  1.7695e-08,  4.6566e-09,  1.3132e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 407, time 220.37, cls_loss 0.0003 cls_loss_mapping 0.0004 cls_loss_causal 0.4224 re_mapping 0.0024 re_causal 0.0077 /// teacc 99.14 lr 0.00001000
+Epoch 409, weight, value: tensor([[-3.2823e-01,  2.5964e-01, -3.2767e-02,  ..., -1.7046e-01,
+          1.2595e-02, -1.7732e-04],
+        [ 6.4101e-03, -1.7610e-01, -3.0201e-02,  ...,  5.1954e-02,
+         -7.6590e-02, -9.8284e-02],
+        [-2.6605e-01, -3.2176e-01,  5.8298e-02,  ..., -1.5518e-01,
+         -8.0365e-02, -2.5339e-01],
+        ...,
+        [ 8.8052e-02,  2.0530e-01, -1.0762e-01,  ..., -1.8500e-01,
+          8.9329e-02,  1.0055e-01],
+        [ 2.9338e-02, -2.2092e-01, -6.9888e-02,  ..., -1.6519e-01,
+         -1.3350e-01, -1.2752e-01],
+        [-3.1230e-01, -9.9814e-02, -7.3155e-02,  ...,  1.1058e-01,
+         -3.4892e-01,  1.2047e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.2619e-07,  0.0000e+00,  ...,  2.3283e-10,
+         -9.3132e-10,  2.3283e-10],
+        [-1.0477e-08, -1.2107e-08,  0.0000e+00,  ..., -1.9092e-08,
+          0.0000e+00, -8.8476e-09],
+        [ 4.6566e-10,  7.2177e-09,  0.0000e+00,  ...,  2.3283e-10,
+          2.3283e-10,  2.3283e-10],
+        ...,
+        [ 9.0804e-09,  1.8626e-08,  0.0000e+00,  ...,  4.4238e-08,
+          2.0955e-09,  3.5157e-08],
+        [ 0.0000e+00,  8.8476e-09,  0.0000e+00,  ...,  4.6566e-10,
+          2.3283e-10,  6.9849e-10],
+        [ 4.6566e-10,  6.9849e-09,  0.0000e+00,  ..., -4.6100e-08,
+         -3.4925e-09, -4.8894e-08]], device='cuda:0')
+Epoch 409, bias, value: tensor([ 0.0191, -0.0323,  0.0209, -0.0283,  0.0403,  0.0166, -0.0011, -0.0065,
+        -0.0236, -0.0158], device='cuda:0'), grad: tensor([-3.6578e-07, -2.0280e-07,  1.9791e-08,  1.3504e-08,  5.6811e-08,
+         7.6834e-09,  2.7474e-07,  2.8685e-07,  2.8173e-08, -1.0803e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 408, time 220.59, cls_loss 0.0003 cls_loss_mapping 0.0004 cls_loss_causal 0.4337 re_mapping 0.0024 re_causal 0.0079 /// teacc 99.14 lr 0.00001000
+Epoch 410, weight, value: tensor([[-3.2824e-01,  2.5969e-01, -3.2764e-02,  ..., -1.7050e-01,
+          1.2592e-02, -1.8863e-04],
+        [ 6.4112e-03, -1.7610e-01, -3.0209e-02,  ...,  5.1951e-02,
+         -7.6601e-02, -9.8294e-02],
+        [-2.6607e-01, -3.2179e-01,  5.8298e-02,  ..., -1.5523e-01,
+         -8.0383e-02, -2.5341e-01],
+        ...,
+        [ 8.8058e-02,  2.0527e-01, -1.0762e-01,  ..., -1.8529e-01,
+          8.9323e-02,  1.0047e-01],
+        [ 2.9336e-02, -2.2095e-01, -6.9895e-02,  ..., -1.6521e-01,
+         -1.3351e-01, -1.2753e-01],
+        [-3.1232e-01, -9.9752e-02, -7.3157e-02,  ...,  1.1064e-01,
+         -3.4894e-01,  1.2055e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 2.3283e-10,  2.3283e-10,  0.0000e+00,  ...,  6.9849e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00, -6.9849e-10,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 6.9849e-10,  4.6566e-10,  0.0000e+00,  ...,  3.0268e-09,
+          0.0000e+00,  2.3283e-09],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  6.9849e-10,
+          4.6566e-10,  6.9849e-10],
+        [ 4.4238e-09,  6.9849e-10,  0.0000e+00,  ..., -2.7940e-09,
+          4.6566e-10, -6.7521e-09]], device='cuda:0')
+Epoch 410, bias, value: tensor([ 0.0191, -0.0323,  0.0209, -0.0283,  0.0403,  0.0166, -0.0011, -0.0065,
+        -0.0236, -0.0157], device='cuda:0'), grad: tensor([ 1.6298e-09,  7.2177e-09, -9.3132e-09,  7.5204e-08, -1.8626e-09,
+        -8.5915e-08,  1.1642e-09,  1.9325e-08,  3.2596e-09, -6.9849e-10],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 409, time 220.94, cls_loss 0.0003 cls_loss_mapping 0.0005 cls_loss_causal 0.4416 re_mapping 0.0023 re_causal 0.0078 /// teacc 99.15 lr 0.00001000
+Epoch 411, weight, value: tensor([[-3.2825e-01,  2.5975e-01, -3.2763e-02,  ..., -1.7056e-01,
+          1.2595e-02, -1.9223e-04],
+        [ 6.4140e-03, -1.7610e-01, -3.0209e-02,  ...,  5.1957e-02,
+         -7.6616e-02, -9.8299e-02],
+        [-2.6611e-01, -3.2182e-01,  5.8297e-02,  ..., -1.5527e-01,
+         -8.0399e-02, -2.5344e-01],
+        ...,
+        [ 8.8065e-02,  2.0527e-01, -1.0762e-01,  ..., -1.8540e-01,
+          8.9335e-02,  1.0045e-01],
+        [ 2.9339e-02, -2.2096e-01, -6.9898e-02,  ..., -1.6523e-01,
+         -1.3352e-01, -1.2754e-01],
+        [-3.1233e-01, -9.9746e-02, -7.3159e-02,  ...,  1.1067e-01,
+         -3.4896e-01,  1.2059e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 6.5193e-09,  2.7940e-09,  0.0000e+00,  ...,  1.3970e-09,
+          0.0000e+00,  9.5461e-09],
+        [ 6.9849e-10,  2.3283e-10,  0.0000e+00,  ...,  6.9849e-10,
+          0.0000e+00,  9.3132e-10],
+        ...,
+        [-9.7789e-09, -4.6566e-09,  0.0000e+00,  ..., -1.6298e-09,
+         -4.6566e-10, -1.4668e-08],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 1.6298e-09,  1.3970e-09,  0.0000e+00,  ...,  6.9849e-10,
+          2.3283e-10,  3.0268e-09]], device='cuda:0')
+Epoch 411, bias, value: tensor([ 0.0191, -0.0323,  0.0209, -0.0283,  0.0403,  0.0166, -0.0011, -0.0065,
+        -0.0236, -0.0157], device='cuda:0'), grad: tensor([ 2.5611e-09,  4.6333e-08,  7.4506e-09,  4.6566e-10,  4.6566e-09,
+         4.8894e-09, -1.0245e-08, -6.6357e-08,  3.7253e-09,  1.4435e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 410, time 220.72, cls_loss 0.0003 cls_loss_mapping 0.0004 cls_loss_causal 0.4490 re_mapping 0.0023 re_causal 0.0078 /// teacc 99.15 lr 0.00001000
+Epoch 412, weight, value: tensor([[-3.2825e-01,  2.5979e-01, -3.2761e-02,  ..., -1.7060e-01,
+          1.2598e-02, -2.0017e-04],
+        [ 6.4158e-03, -1.7611e-01, -3.0208e-02,  ...,  5.1977e-02,
+         -7.6633e-02, -9.8304e-02],
+        [-2.6616e-01, -3.2177e-01,  5.8292e-02,  ..., -1.5541e-01,
+         -8.0416e-02, -2.5346e-01],
+        ...,
+        [ 8.8088e-02,  2.0527e-01, -1.0762e-01,  ..., -1.8541e-01,
+          8.9346e-02,  1.0045e-01],
+        [ 2.9334e-02, -2.2097e-01, -6.9929e-02,  ..., -1.6526e-01,
+         -1.3354e-01, -1.2755e-01],
+        [-3.1237e-01, -9.9754e-02, -7.3163e-02,  ...,  1.1067e-01,
+         -3.4899e-01,  1.2059e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.1176e-08,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [-1.3970e-09,  2.5611e-09, -4.6566e-10,  ...,  9.3132e-10,
+          0.0000e+00,  9.3132e-10],
+        [ 9.3132e-10,  6.9849e-10,  4.6566e-10,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  6.9849e-10,  0.0000e+00,  ...,  3.0268e-09,
+          0.0000e+00,  3.2596e-09],
+        [ 0.0000e+00,  3.2596e-09,  0.0000e+00,  ...,  5.3551e-09,
+          0.0000e+00,  2.3283e-10],
+        [ 4.6566e-10,  2.3283e-09,  0.0000e+00,  ..., -6.9849e-09,
+          0.0000e+00, -7.9162e-09]], device='cuda:0')
+Epoch 412, bias, value: tensor([ 0.0191, -0.0323,  0.0209, -0.0283,  0.0403,  0.0166, -0.0011, -0.0065,
+        -0.0236, -0.0157], device='cuda:0'), grad: tensor([-1.8161e-08,  1.1642e-09,  6.9849e-09,  6.9849e-10,  9.5461e-09,
+         2.0722e-08, -3.1898e-08,  1.1409e-08,  2.1420e-08, -1.6764e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 411, time 220.40, cls_loss 0.0003 cls_loss_mapping 0.0004 cls_loss_causal 0.4301 re_mapping 0.0023 re_causal 0.0077 /// teacc 99.15 lr 0.00001000
+Epoch 413, weight, value: tensor([[-3.2826e-01,  2.5985e-01, -3.2762e-02,  ..., -1.7064e-01,
+          1.2599e-02, -2.0492e-04],
+        [ 6.4118e-03, -1.7611e-01, -3.0210e-02,  ...,  5.1991e-02,
+         -7.6651e-02, -9.8318e-02],
+        [-2.6620e-01, -3.2180e-01,  5.8289e-02,  ..., -1.5555e-01,
+         -8.0426e-02, -2.5350e-01],
+        ...,
+        [ 8.8103e-02,  2.0528e-01, -1.0762e-01,  ..., -1.8542e-01,
+          8.9364e-02,  1.0046e-01],
+        [ 2.9342e-02, -2.2099e-01, -6.9978e-02,  ..., -1.6528e-01,
+         -1.3355e-01, -1.2756e-01],
+        [-3.1239e-01, -9.9767e-02, -7.3170e-02,  ...,  1.1067e-01,
+         -3.4904e-01,  1.2059e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.6298e-09,  0.0000e+00,  ...,  9.3132e-10,
+          4.6566e-10,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          3.2596e-09,  3.0268e-09],
+        [ 2.3283e-10,  2.3283e-10, -4.6566e-10,  ...,  2.3283e-10,
+          2.5611e-09,  2.3283e-09],
+        ...,
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          1.8626e-09,  1.8626e-09],
+        [ 0.0000e+00,  1.3970e-09,  0.0000e+00,  ...,  2.3283e-10,
+          6.9849e-10,  6.9849e-10],
+        [ 4.6566e-10,  1.1642e-09,  0.0000e+00,  ...,  2.3283e-10,
+          6.9849e-10,  4.6566e-10]], device='cuda:0')
+Epoch 413, bias, value: tensor([ 0.0191, -0.0323,  0.0209, -0.0283,  0.0403,  0.0166, -0.0011, -0.0065,
+        -0.0236, -0.0157], device='cuda:0'), grad: tensor([ 5.1223e-09,  1.7229e-08, -1.5600e-08,  7.9628e-08,  4.1910e-09,
+        -1.0571e-07, -4.8894e-09,  1.9092e-08,  1.3970e-08,  9.7789e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 412, time 220.86, cls_loss 0.0003 cls_loss_mapping 0.0004 cls_loss_causal 0.4314 re_mapping 0.0023 re_causal 0.0077 /// teacc 99.13 lr 0.00001000
+Epoch 414, weight, value: tensor([[-3.2826e-01,  2.5988e-01, -3.2764e-02,  ..., -1.7067e-01,
+          1.2600e-02, -2.0372e-04],
+        [ 6.4017e-03, -1.7611e-01, -3.0201e-02,  ...,  5.2003e-02,
+         -7.6669e-02, -9.8334e-02],
+        [-2.6623e-01, -3.2183e-01,  5.8289e-02,  ..., -1.5560e-01,
+         -8.0447e-02, -2.5352e-01],
+        ...,
+        [ 8.8123e-02,  2.0528e-01, -1.0762e-01,  ..., -1.8543e-01,
+          8.9363e-02,  1.0047e-01],
+        [ 2.9341e-02, -2.2101e-01, -7.0022e-02,  ..., -1.6531e-01,
+         -1.3356e-01, -1.2757e-01],
+        [-3.1241e-01, -9.9774e-02, -7.3189e-02,  ...,  1.1067e-01,
+         -3.4906e-01,  1.2060e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.9849e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 4.6566e-10, -2.3283e-10,  0.0000e+00,  ..., -3.2596e-09,
+          4.6566e-10,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          4.6566e-10,  6.9849e-10],
+        ...,
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  6.9849e-09,
+          6.9849e-10,  5.5879e-09],
+        [ 6.9849e-10,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          1.6298e-09,  3.0268e-09],
+        [ 3.2596e-09,  0.0000e+00,  0.0000e+00,  ..., -2.2585e-08,
+          3.2596e-09, -2.5379e-08]], device='cuda:0')
+Epoch 414, bias, value: tensor([ 0.0191, -0.0323,  0.0209, -0.0283,  0.0403,  0.0166, -0.0011, -0.0065,
+        -0.0236, -0.0157], device='cuda:0'), grad: tensor([ 3.0268e-09, -1.6764e-08,  4.4238e-09, -7.6834e-09,  3.5390e-08,
+        -1.7928e-08,  1.7928e-08,  2.9104e-08,  1.9558e-08, -6.2166e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 413, time 220.98, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4260 re_mapping 0.0023 re_causal 0.0076 /// teacc 99.16 lr 0.00001000
+Epoch 415, weight, value: tensor([[-3.2827e-01,  2.5993e-01, -3.2764e-02,  ..., -1.7070e-01,
+          1.2602e-02, -2.0768e-04],
+        [ 6.4050e-03, -1.7612e-01, -3.0202e-02,  ...,  5.2018e-02,
+         -7.6693e-02, -9.8343e-02],
+        [-2.6628e-01, -3.2186e-01,  5.8291e-02,  ..., -1.5567e-01,
+         -8.0461e-02, -2.5356e-01],
+        ...,
+        [ 8.8135e-02,  2.0529e-01, -1.0762e-01,  ..., -1.8555e-01,
+          8.9392e-02,  1.0044e-01],
+        [ 2.9348e-02, -2.2102e-01, -7.0025e-02,  ..., -1.6533e-01,
+         -1.3357e-01, -1.2758e-01],
+        [-3.1243e-01, -9.9774e-02, -7.3190e-02,  ...,  1.1070e-01,
+         -3.4912e-01,  1.2063e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-3.0268e-09,  8.6147e-09, -1.3970e-09,  ..., -2.3283e-09,
+          1.9092e-08,  2.9569e-08],
+        [ 1.7928e-08, -6.9849e-10,  1.1642e-09,  ...,  4.6566e-10,
+          2.3283e-10,  4.6566e-10],
+        ...,
+        [-1.6764e-08, -1.0245e-08,  0.0000e+00,  ...,  1.1642e-09,
+         -1.8626e-08, -3.3993e-08],
+        [ 4.6566e-10,  2.3283e-10,  0.0000e+00,  ...,  9.3132e-10,
+          4.4238e-09,  4.6566e-09],
+        [ 1.8626e-09,  3.0268e-09,  0.0000e+00,  ...,  4.6566e-10,
+          1.8626e-09,  6.2864e-09]], device='cuda:0')
+Epoch 415, bias, value: tensor([ 0.0192, -0.0323,  0.0209, -0.0283,  0.0403,  0.0166, -0.0011, -0.0066,
+        -0.0236, -0.0157], device='cuda:0'), grad: tensor([ 6.9849e-10, -5.9372e-08,  1.3621e-07, -1.7835e-07,  2.5611e-09,
+         1.4785e-07,  1.6298e-09, -9.3132e-08,  3.1665e-08,  2.1886e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 414, time 220.87, cls_loss 0.0003 cls_loss_mapping 0.0004 cls_loss_causal 0.4164 re_mapping 0.0022 re_causal 0.0075 /// teacc 99.13 lr 0.00001000
+Epoch 416, weight, value: tensor([[-3.2828e-01,  2.5999e-01, -3.2764e-02,  ..., -1.7077e-01,
+          1.2601e-02, -2.0926e-04],
+        [ 6.4081e-03, -1.7612e-01, -3.0202e-02,  ...,  5.2023e-02,
+         -7.6722e-02, -9.8350e-02],
+        [-2.6636e-01, -3.2185e-01,  5.8289e-02,  ..., -1.5573e-01,
+         -8.0483e-02, -2.5360e-01],
+        ...,
+        [ 8.8146e-02,  2.0529e-01, -1.0763e-01,  ..., -1.8557e-01,
+          8.9415e-02,  1.0044e-01],
+        [ 2.9335e-02, -2.2105e-01, -7.0029e-02,  ..., -1.6537e-01,
+         -1.3358e-01, -1.2760e-01],
+        [-3.1248e-01, -9.9784e-02, -7.3197e-02,  ...,  1.1070e-01,
+         -3.4916e-01,  1.2064e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.3970e-09,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          2.3283e-10,  2.3283e-10],
+        ...,
+        [ 1.1642e-09, -2.3283e-10,  0.0000e+00,  ...,  2.5611e-09,
+         -2.3283e-10, -9.3132e-10],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 8.3819e-09,  2.3283e-10,  0.0000e+00,  ...,  1.0710e-08,
+          2.3283e-10,  1.3970e-09]], device='cuda:0')
+Epoch 416, bias, value: tensor([ 0.0192, -0.0323,  0.0209, -0.0283,  0.0403,  0.0166, -0.0011, -0.0066,
+        -0.0236, -0.0157], device='cuda:0'), grad: tensor([ 0.0000e+00,  6.0536e-09, -4.4238e-09,  4.6566e-10, -3.9348e-08,
+         1.1642e-09,  1.1642e-09,  1.2340e-08,  3.9581e-09,  3.0501e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 415, time 220.66, cls_loss 0.0003 cls_loss_mapping 0.0004 cls_loss_causal 0.4350 re_mapping 0.0022 re_causal 0.0076 /// teacc 99.13 lr 0.00001000
+Epoch 417, weight, value: tensor([[-3.2829e-01,  2.6004e-01, -3.2760e-02,  ..., -1.7086e-01,
+          1.2606e-02, -2.1300e-04],
+        [ 6.4199e-03, -1.7612e-01, -3.0202e-02,  ...,  5.2038e-02,
+         -7.6740e-02, -9.8356e-02],
+        [-2.6643e-01, -3.2189e-01,  5.8282e-02,  ..., -1.5579e-01,
+         -8.0513e-02, -2.5363e-01],
+        ...,
+        [ 8.8164e-02,  2.0530e-01, -1.0763e-01,  ..., -1.8558e-01,
+          8.9436e-02,  1.0044e-01],
+        [ 2.9339e-02, -2.2107e-01, -7.0038e-02,  ..., -1.6541e-01,
+         -1.3359e-01, -1.2761e-01],
+        [-3.1255e-01, -9.9794e-02, -7.3204e-02,  ...,  1.1069e-01,
+         -3.4923e-01,  1.2064e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -3.4925e-09,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 2.3283e-10,  1.1642e-09,  0.0000e+00,  ..., -1.8626e-09,
+          2.3283e-10,  1.1642e-09],
+        [ 0.0000e+00,  6.9849e-10,  0.0000e+00,  ...,  9.3132e-10,
+          9.3132e-10,  1.1642e-09],
+        ...,
+        [-6.9849e-10, -2.5611e-09,  0.0000e+00,  ...,  6.7521e-09,
+          0.0000e+00,  2.5611e-09],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  1.6298e-09,
+          4.6566e-10,  9.3132e-10],
+        [ 3.0268e-09,  2.7940e-09,  0.0000e+00,  ..., -3.7253e-09,
+          6.9849e-10, -6.0536e-09]], device='cuda:0')
+Epoch 417, bias, value: tensor([ 0.0192, -0.0323,  0.0209, -0.0283,  0.0403,  0.0166, -0.0011, -0.0066,
+        -0.0236, -0.0157], device='cuda:0'), grad: tensor([ 3.0734e-08,  1.8626e-08, -1.0617e-07, -9.5461e-09,  1.2107e-08,
+         3.9581e-09, -1.6065e-08,  4.4703e-08,  3.5390e-08, -1.0477e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 416, time 220.44, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4191 re_mapping 0.0022 re_causal 0.0075 /// teacc 99.13 lr 0.00001000
+Epoch 418, weight, value: tensor([[-3.2829e-01,  2.6009e-01, -3.2762e-02,  ..., -1.7095e-01,
+          1.2601e-02, -2.2686e-04],
+        [ 6.4310e-03, -1.7613e-01, -3.0203e-02,  ...,  5.2045e-02,
+         -7.6756e-02, -9.8362e-02],
+        [-2.6652e-01, -3.2193e-01,  5.8307e-02,  ..., -1.5585e-01,
+         -8.0544e-02, -2.5367e-01],
+        ...,
+        [ 8.8172e-02,  2.0529e-01, -1.0763e-01,  ..., -1.8588e-01,
+          8.9442e-02,  1.0034e-01],
+        [ 2.9331e-02, -2.2109e-01, -7.0070e-02,  ..., -1.6544e-01,
+         -1.3361e-01, -1.2763e-01],
+        [-3.1259e-01, -9.9760e-02, -7.3213e-02,  ...,  1.1077e-01,
+         -3.4925e-01,  1.2075e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 5.1223e-09,  0.0000e+00,  0.0000e+00,  ..., -1.1642e-09,
+          4.1910e-09,  2.7940e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [-6.7521e-09,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+         -4.8894e-09, -3.2131e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.9849e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 1.3970e-09,  0.0000e+00,  0.0000e+00,  ..., -1.3970e-09,
+          9.3132e-10,  3.4925e-09]], device='cuda:0')
+Epoch 418, bias, value: tensor([ 0.0192, -0.0323,  0.0210, -0.0283,  0.0403,  0.0166, -0.0011, -0.0066,
+        -0.0236, -0.0156], device='cuda:0'), grad: tensor([ 6.9849e-10,  5.0757e-08,  3.9581e-09,  3.2596e-09,  4.8894e-09,
+        -4.8894e-09,  2.3283e-09, -7.2876e-08,  4.6566e-09,  1.2340e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 417, time 220.33, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4481 re_mapping 0.0022 re_causal 0.0077 /// teacc 99.13 lr 0.00001000
+Epoch 419, weight, value: tensor([[-3.2830e-01,  2.6012e-01, -3.2762e-02,  ..., -1.7105e-01,
+          1.2597e-02, -2.4714e-04],
+        [ 6.4554e-03, -1.7613e-01, -3.0188e-02,  ...,  5.2074e-02,
+         -7.6774e-02, -9.8367e-02],
+        [-2.6660e-01, -3.2194e-01,  5.8307e-02,  ..., -1.5591e-01,
+         -8.0566e-02, -2.5371e-01],
+        ...,
+        [ 8.8174e-02,  2.0529e-01, -1.0765e-01,  ..., -1.8589e-01,
+          8.9449e-02,  1.0034e-01],
+        [ 2.9331e-02, -2.2109e-01, -7.0085e-02,  ..., -1.6548e-01,
+         -1.3362e-01, -1.2765e-01],
+        [-3.1261e-01, -9.9766e-02, -7.3229e-02,  ...,  1.1078e-01,
+         -3.4928e-01,  1.2076e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.1642e-08,  4.8894e-09,  0.0000e+00,  ..., -6.9849e-10,
+          1.2806e-08,  1.8161e-08],
+        [ 6.9849e-10,  6.9849e-10,  0.0000e+00,  ...,  1.1642e-09,
+          1.3970e-09,  2.3283e-09],
+        ...,
+        [-1.2107e-08, -6.0536e-09,  0.0000e+00,  ...,  3.0268e-09,
+         -7.9162e-09, -1.2340e-08],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  1.1642e-09,
+          1.6298e-09,  2.5611e-09],
+        [ 1.6298e-09,  4.6566e-10,  0.0000e+00,  ..., -3.7253e-09,
+          6.9849e-10, -4.6566e-09]], device='cuda:0')
+Epoch 419, bias, value: tensor([ 0.0191, -0.0323,  0.0210, -0.0283,  0.0403,  0.0166, -0.0011, -0.0066,
+        -0.0236, -0.0156], device='cuda:0'), grad: tensor([ 4.6566e-10,  3.1432e-08,  2.0256e-08, -4.2142e-08, -4.6566e-09,
+         6.0536e-09,  1.3970e-09, -2.4214e-08,  1.8161e-08, -1.8626e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 418, time 220.52, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4017 re_mapping 0.0022 re_causal 0.0074 /// teacc 99.13 lr 0.00001000
+Epoch 420, weight, value: tensor([[-3.2831e-01,  2.6016e-01, -3.2761e-02,  ..., -1.7110e-01,
+          1.2594e-02, -2.5414e-04],
+        [ 6.4477e-03, -1.7613e-01, -3.0195e-02,  ...,  5.2076e-02,
+         -7.6802e-02, -9.8377e-02],
+        [-2.6664e-01, -3.2200e-01,  5.8316e-02,  ..., -1.5597e-01,
+         -8.0620e-02, -2.5376e-01],
+        ...,
+        [ 8.8183e-02,  2.0529e-01, -1.0764e-01,  ..., -1.8591e-01,
+          8.9466e-02,  1.0034e-01],
+        [ 2.9332e-02, -2.2110e-01, -7.0131e-02,  ..., -1.6552e-01,
+         -1.3364e-01, -1.2766e-01],
+        [-3.1263e-01, -9.9772e-02, -7.3238e-02,  ...,  1.1079e-01,
+         -3.4932e-01,  1.2077e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -2.2468e-08,  0.0000e+00,  ...,  1.1642e-10,
+          0.0000e+00,  1.1642e-10],
+        [ 4.6566e-10,  1.8626e-09,  0.0000e+00,  ...,  2.3283e-10,
+          1.1642e-10,  5.3551e-09],
+        [ 1.1642e-10,  9.3132e-10,  0.0000e+00,  ...,  1.1642e-10,
+          2.3283e-10,  1.3970e-09],
+        ...,
+        [-9.3132e-10,  2.3283e-10,  0.0000e+00,  ...,  2.3283e-09,
+          3.4925e-10, -7.6834e-09],
+        [ 0.0000e+00,  1.7462e-09,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  2.6776e-09],
+        [ 2.3283e-10,  4.0745e-09,  0.0000e+00,  ..., -1.0943e-08,
+          2.3283e-10, -7.6834e-09]], device='cuda:0')
+Epoch 420, bias, value: tensor([ 0.0191, -0.0323,  0.0210, -0.0283,  0.0403,  0.0166, -0.0011, -0.0066,
+        -0.0237, -0.0156], device='cuda:0'), grad: tensor([-5.2969e-08,  3.3155e-07, -3.1199e-07,  2.6776e-09,  2.3050e-08,
+         7.9162e-09,  2.7241e-08, -2.8289e-08,  1.6298e-08, -8.8476e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 419, time 220.74, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4387 re_mapping 0.0022 re_causal 0.0076 /// teacc 99.16 lr 0.00001000
+Epoch 421, weight, value: tensor([[-3.2831e-01,  2.6019e-01, -3.2761e-02,  ..., -1.7119e-01,
+          1.2591e-02, -2.7214e-04],
+        [ 6.4426e-03, -1.7613e-01, -3.0197e-02,  ...,  5.2082e-02,
+         -7.6825e-02, -9.8383e-02],
+        [-2.6669e-01, -3.2205e-01,  5.8312e-02,  ..., -1.5604e-01,
+         -8.0661e-02, -2.5382e-01],
+        ...,
+        [ 8.8198e-02,  2.0530e-01, -1.0764e-01,  ..., -1.8592e-01,
+          8.9474e-02,  1.0034e-01],
+        [ 2.9330e-02, -2.2110e-01, -7.0171e-02,  ..., -1.6556e-01,
+         -1.3366e-01, -1.2768e-01],
+        [-3.1265e-01, -9.9784e-02, -7.3244e-02,  ...,  1.1080e-01,
+         -3.4935e-01,  1.2078e-01]], device='cuda:0'), grad: tensor([[ 3.4925e-10,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  1.1642e-10],
+        [ 6.9849e-10,  1.1642e-10,  0.0000e+00,  ..., -2.3283e-10,
+          0.0000e+00,  1.5134e-09],
+        [ 9.3132e-10,  3.4925e-10,  0.0000e+00,  ...,  4.6566e-10,
+          1.1642e-10,  2.0955e-09],
+        ...,
+        [ 1.9791e-09,  1.1642e-10,  0.0000e+00,  ...,  1.1059e-08,
+          0.0000e+00,  5.4715e-09],
+        [ 2.4447e-09,  1.1642e-10,  0.0000e+00,  ...,  2.7940e-09,
+          0.0000e+00,  2.3283e-09],
+        [-2.6543e-08,  6.9849e-10,  1.1642e-10,  ..., -6.8452e-08,
+          0.0000e+00, -7.0082e-08]], device='cuda:0')
+Epoch 421, bias, value: tensor([ 0.0191, -0.0323,  0.0210, -0.0283,  0.0403,  0.0166, -0.0011, -0.0066,
+        -0.0237, -0.0156], device='cuda:0'), grad: tensor([ 1.3853e-08,  5.9372e-09,  1.2689e-08,  8.2655e-09,  2.1420e-07,
+        -7.9861e-08,  3.6322e-08,  2.2352e-08,  2.8056e-08, -2.4517e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 420, time 220.77, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4212 re_mapping 0.0022 re_causal 0.0076 /// teacc 99.14 lr 0.00001000
+Epoch 422, weight, value: tensor([[-3.2832e-01,  2.6024e-01, -3.2761e-02,  ..., -1.7124e-01,
+          1.2584e-02, -2.8064e-04],
+        [ 6.4425e-03, -1.7613e-01, -3.0199e-02,  ...,  5.2150e-02,
+         -7.6845e-02, -9.8390e-02],
+        [-2.6672e-01, -3.2210e-01,  5.8309e-02,  ..., -1.5624e-01,
+         -8.0713e-02, -2.5387e-01],
+        ...,
+        [ 8.8205e-02,  2.0530e-01, -1.0764e-01,  ..., -1.8594e-01,
+          8.9488e-02,  1.0034e-01],
+        [ 2.9330e-02, -2.2112e-01, -7.0182e-02,  ..., -1.6559e-01,
+         -1.3367e-01, -1.2770e-01],
+        [-3.1269e-01, -9.9796e-02, -7.3250e-02,  ...,  1.1080e-01,
+         -3.4942e-01,  1.2079e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  1.1642e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  1.9791e-09,
+          0.0000e+00,  1.1642e-10],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 6.9849e-10,  0.0000e+00,  0.0000e+00,  ...,  3.2596e-09,
+          6.9849e-10,  2.5611e-09],
+        [ 8.1491e-10,  2.3283e-10,  0.0000e+00,  ...,  6.9849e-10,
+          3.4925e-10, -4.6566e-10],
+        [ 3.4925e-10,  5.8208e-10,  0.0000e+00,  ..., -1.4552e-08,
+          2.3283e-10, -1.1874e-08]], device='cuda:0')
+Epoch 422, bias, value: tensor([ 0.0191, -0.0323,  0.0209, -0.0283,  0.0403,  0.0166, -0.0011, -0.0066,
+        -0.0237, -0.0156], device='cuda:0'), grad: tensor([ 3.1432e-09,  1.3621e-08,  3.9581e-09,  1.1525e-08,  3.9348e-08,
+        -1.8161e-08, -1.6647e-08,  1.5134e-08, -2.9569e-08, -1.0594e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 421, time 220.50, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4061 re_mapping 0.0022 re_causal 0.0075 /// teacc 99.13 lr 0.00001000
+Epoch 423, weight, value: tensor([[-3.2833e-01,  2.6031e-01, -3.2761e-02,  ..., -1.7128e-01,
+          1.2578e-02, -2.8421e-04],
+        [ 6.4573e-03, -1.7614e-01, -3.0194e-02,  ...,  5.2205e-02,
+         -7.6871e-02, -9.8400e-02],
+        [-2.6680e-01, -3.2218e-01,  5.8329e-02,  ..., -1.5630e-01,
+         -8.0748e-02, -2.5394e-01],
+        ...,
+        [ 8.8230e-02,  2.0531e-01, -1.0765e-01,  ..., -1.8595e-01,
+          8.9511e-02,  1.0035e-01],
+        [ 2.9326e-02, -2.2115e-01, -7.0186e-02,  ..., -1.6562e-01,
+         -1.3370e-01, -1.2772e-01],
+        [-3.1272e-01, -9.9809e-02, -7.3260e-02,  ...,  1.1081e-01,
+         -3.4948e-01,  1.2080e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  2.3283e-10,  0.0000e+00,  ..., -8.1491e-10,
+          4.6566e-10,  1.0477e-09],
+        [ 3.4925e-10,  2.3283e-10,  0.0000e+00,  ...,  2.3283e-10,
+          3.4925e-10,  8.1491e-10],
+        ...,
+        [-7.6834e-09, -5.7044e-09,  0.0000e+00,  ...,  8.1491e-10,
+         -8.0327e-09, -1.8510e-08],
+        [ 5.5879e-09,  4.0745e-09,  0.0000e+00,  ...,  1.1642e-10,
+          5.8208e-09,  1.3271e-08],
+        [ 1.0477e-09,  5.8208e-10,  0.0000e+00,  ...,  2.3283e-10,
+          8.1491e-10,  1.8626e-09]], device='cuda:0')
+Epoch 423, bias, value: tensor([ 0.0191, -0.0323,  0.0209, -0.0283,  0.0403,  0.0166, -0.0011, -0.0066,
+        -0.0237, -0.0156], device='cuda:0'), grad: tensor([ 2.3283e-10,  2.5611e-09,  6.4028e-09,  7.4506e-09,  9.3132e-10,
+         3.6089e-09,  9.3132e-10, -1.1048e-07,  8.2771e-08,  1.3737e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 422, time 221.01, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4389 re_mapping 0.0022 re_causal 0.0079 /// teacc 99.14 lr 0.00001000
+Epoch 424, weight, value: tensor([[-3.2833e-01,  2.6037e-01, -3.2762e-02,  ..., -1.7130e-01,
+          1.2573e-02, -2.8513e-04],
+        [ 6.4439e-03, -1.7614e-01, -3.0200e-02,  ...,  5.2213e-02,
+         -7.6902e-02, -9.8412e-02],
+        [-2.6685e-01, -3.2228e-01,  5.8327e-02,  ..., -1.5633e-01,
+         -8.0784e-02, -2.5407e-01],
+        ...,
+        [ 8.8255e-02,  2.0532e-01, -1.0764e-01,  ..., -1.8597e-01,
+          8.9522e-02,  1.0036e-01],
+        [ 2.9347e-02, -2.2116e-01, -7.0188e-02,  ..., -1.6564e-01,
+         -1.3371e-01, -1.2773e-01],
+        [-3.1275e-01, -9.9819e-02, -7.3263e-02,  ...,  1.1081e-01,
+         -3.4952e-01,  1.2080e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.1642e-10,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.1642e-10,  2.3283e-10],
+        ...,
+        [-2.3283e-10, -2.3283e-10,  0.0000e+00,  ...,  6.9849e-10,
+          0.0000e+00, -8.1491e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.1642e-10,  2.3283e-10],
+        [ 2.3283e-10,  3.4925e-10,  0.0000e+00,  ..., -1.0477e-09,
+          1.1642e-10,  3.4925e-10]], device='cuda:0')
+Epoch 424, bias, value: tensor([ 0.0191, -0.0323,  0.0209, -0.0283,  0.0403,  0.0166, -0.0011, -0.0066,
+        -0.0237, -0.0156], device='cuda:0'), grad: tensor([ 1.1642e-10, -6.1700e-09,  1.9791e-09,  1.0710e-08,  5.0059e-09,
+         1.8626e-09,  1.7229e-08,  1.6298e-09, -2.5844e-08,  1.0477e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 423, time 220.59, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4276 re_mapping 0.0022 re_causal 0.0076 /// teacc 99.15 lr 0.00001000
+Epoch 425, weight, value: tensor([[-3.2834e-01,  2.6043e-01, -3.2760e-02,  ..., -1.7134e-01,
+          1.2570e-02, -2.9990e-04],
+        [ 6.4550e-03, -1.7614e-01, -3.0199e-02,  ...,  5.2227e-02,
+         -7.6923e-02, -9.8432e-02],
+        [-2.6691e-01, -3.2233e-01,  5.8330e-02,  ..., -1.5636e-01,
+         -8.0821e-02, -2.5413e-01],
+        ...,
+        [ 8.8273e-02,  2.0533e-01, -1.0764e-01,  ..., -1.8598e-01,
+          8.9542e-02,  1.0037e-01],
+        [ 2.9360e-02, -2.2117e-01, -7.0196e-02,  ..., -1.6567e-01,
+         -1.3373e-01, -1.2775e-01],
+        [-3.1278e-01, -9.9828e-02, -7.3266e-02,  ...,  1.1081e-01,
+         -3.4956e-01,  1.2081e-01]], device='cuda:0'), grad: tensor([[ 1.1642e-10,  0.0000e+00,  0.0000e+00,  ...,  8.1491e-10,
+          1.1642e-10,  0.0000e+00],
+        [-1.1642e-10,  1.1642e-10,  0.0000e+00,  ..., -1.0477e-09,
+          1.1642e-10,  2.3283e-10],
+        [ 3.4925e-10,  2.3283e-10,  0.0000e+00,  ...,  4.6566e-10,
+          8.1491e-10,  8.1491e-10],
+        ...,
+        [ 3.4925e-10,  0.0000e+00,  0.0000e+00,  ...,  5.8208e-10,
+          3.4925e-10,  2.3283e-10],
+        [-5.8208e-09,  0.0000e+00,  0.0000e+00,  ..., -1.0477e-09,
+          2.3283e-10,  2.3283e-10],
+        [ 2.3283e-10,  2.3283e-10,  0.0000e+00,  ...,  2.3283e-10,
+          1.1642e-10,  2.3283e-10]], device='cuda:0')
+Epoch 425, bias, value: tensor([ 0.0191, -0.0323,  0.0210, -0.0283,  0.0403,  0.0166, -0.0011, -0.0066,
+        -0.0237, -0.0156], device='cuda:0'), grad: tensor([ 4.6566e-09, -2.3283e-10, -6.9849e-10, -1.5134e-09,  3.8417e-09,
+         1.4552e-08,  3.3528e-08,  1.1292e-08, -5.7742e-08,  4.5402e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 424, time 220.60, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4311 re_mapping 0.0022 re_causal 0.0076 /// teacc 99.18 lr 0.00001000
+Epoch 426, weight, value: tensor([[-3.2835e-01,  2.6048e-01, -3.2754e-02,  ..., -1.7144e-01,
+          1.2563e-02, -3.0826e-04],
+        [ 6.4755e-03, -1.7615e-01, -3.0191e-02,  ...,  5.2305e-02,
+         -7.6949e-02, -9.8452e-02],
+        [-2.6700e-01, -3.2242e-01,  5.8361e-02,  ..., -1.5649e-01,
+         -8.0861e-02, -2.5425e-01],
+        ...,
+        [ 8.8301e-02,  2.0532e-01, -1.0766e-01,  ..., -1.8620e-01,
+          8.9557e-02,  1.0030e-01],
+        [ 2.9349e-02, -2.2119e-01, -7.0199e-02,  ..., -1.6572e-01,
+         -1.3376e-01, -1.2778e-01],
+        [-3.1282e-01, -9.9776e-02, -7.3277e-02,  ...,  1.1089e-01,
+         -3.4964e-01,  1.2090e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.2806e-09,  9.3132e-10,  5.8208e-10,  ...,  1.2806e-09,
+          1.1642e-09,  1.9791e-09],
+        [ 4.4238e-09,  1.2573e-08,  8.1491e-10,  ...,  1.0477e-09,
+          1.0012e-08,  1.5716e-08],
+        ...,
+        [-3.6089e-09, -1.4435e-08,  3.4925e-10,  ...,  1.3970e-09,
+         -4.0745e-09, -6.6357e-09],
+        [ 2.3283e-10,  1.1642e-10,  1.1642e-10,  ...,  6.9849e-10,
+          5.8208e-10,  1.0477e-09],
+        [ 2.5611e-09,  1.2806e-09,  2.3283e-10,  ..., -8.1491e-10,
+          3.1432e-09,  2.9104e-09]], device='cuda:0')
+Epoch 426, bias, value: tensor([ 0.0191, -0.0323,  0.0209, -0.0283,  0.0403,  0.0166, -0.0011, -0.0067,
+        -0.0237, -0.0155], device='cuda:0'), grad: tensor([ 2.3283e-10,  1.2224e-08,  7.7416e-08, -3.3877e-08, -1.5250e-08,
+         7.2177e-09, -2.0955e-09, -4.9942e-08,  4.8894e-09,  1.5134e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 425, time 220.74, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4098 re_mapping 0.0021 re_causal 0.0073 /// teacc 99.16 lr 0.00001000
+Epoch 427, weight, value: tensor([[-3.2836e-01,  2.6054e-01, -3.2757e-02,  ..., -1.7149e-01,
+          1.2562e-02, -3.2324e-04],
+        [ 6.4697e-03, -1.7616e-01, -3.0190e-02,  ...,  5.2305e-02,
+         -7.6985e-02, -9.8466e-02],
+        [-2.6708e-01, -3.2257e-01,  5.8360e-02,  ..., -1.5653e-01,
+         -8.0917e-02, -2.5440e-01],
+        ...,
+        [ 8.8343e-02,  2.0533e-01, -1.0765e-01,  ..., -1.8631e-01,
+          8.9602e-02,  1.0027e-01],
+        [ 2.9353e-02, -2.2122e-01, -7.0208e-02,  ..., -1.6576e-01,
+         -1.3378e-01, -1.2780e-01],
+        [-3.1285e-01, -9.9759e-02, -7.3283e-02,  ...,  1.1093e-01,
+         -3.4968e-01,  1.2094e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.2806e-09,  0.0000e+00,  ...,  1.6298e-09,
+          0.0000e+00,  0.0000e+00],
+        [-1.1642e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  2.3283e-09],
+        [ 6.9849e-10,  1.1642e-10,  0.0000e+00,  ...,  4.6566e-10,
+          6.7521e-09,  8.0327e-09],
+        ...,
+        [-5.8208e-10, -2.3283e-10,  0.0000e+00,  ...,  1.1642e-09,
+         -9.7789e-09, -1.0594e-08],
+        [ 1.1642e-10,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          3.4925e-10,  1.0477e-09],
+        [ 2.3283e-10,  1.6298e-09,  0.0000e+00,  ..., -3.1432e-09,
+          4.6566e-10, -1.9791e-09]], device='cuda:0')
+Epoch 427, bias, value: tensor([ 0.0191, -0.0323,  0.0209, -0.0283,  0.0402,  0.0166, -0.0011, -0.0067,
+        -0.0237, -0.0155], device='cuda:0'), grad: tensor([ 4.0745e-09,  1.1642e-08,  5.1106e-08, -4.6566e-10,  9.8953e-09,
+         1.5367e-08, -2.9104e-08, -6.5425e-08,  1.5134e-08, -1.9791e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 426, time 220.79, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4205 re_mapping 0.0021 re_causal 0.0074 /// teacc 99.16 lr 0.00001000
+Epoch 428, weight, value: tensor([[-3.2836e-01,  2.6068e-01, -3.2758e-02,  ..., -1.7152e-01,
+          1.2563e-02, -3.2990e-04],
+        [ 6.4618e-03, -1.7616e-01, -3.0190e-02,  ...,  5.2309e-02,
+         -7.7003e-02, -9.8477e-02],
+        [-2.6715e-01, -3.2262e-01,  5.8349e-02,  ..., -1.5656e-01,
+         -8.0953e-02, -2.5446e-01],
+        ...,
+        [ 8.8371e-02,  2.0534e-01, -1.0766e-01,  ..., -1.8632e-01,
+          8.9621e-02,  1.0028e-01],
+        [ 2.9363e-02, -2.2126e-01, -7.0215e-02,  ..., -1.6580e-01,
+         -1.3379e-01, -1.2782e-01],
+        [-3.1289e-01, -9.9777e-02, -7.3292e-02,  ...,  1.1093e-01,
+         -3.4973e-01,  1.2095e-01]], device='cuda:0'), grad: tensor([[ 1.1642e-10,  0.0000e+00,  1.1642e-10,  ...,  2.3283e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 9.3132e-10,  1.9791e-09,  1.1642e-10,  ..., -4.6566e-10,
+          1.3970e-09,  5.5879e-09],
+        [ 1.6298e-09,  5.8208e-10,  0.0000e+00,  ...,  1.1642e-10,
+          2.2119e-09,  4.5402e-09],
+        ...,
+        [-8.8476e-09, -8.9640e-09,  0.0000e+00,  ...,  5.8208e-10,
+         -4.5402e-09, -2.3283e-08],
+        [-2.3283e-10,  2.3283e-10,  0.0000e+00,  ...,  0.0000e+00,
+          3.4925e-10,  9.3132e-10],
+        [ 5.1223e-09,  5.2387e-09,  0.0000e+00,  ...,  3.4925e-10,
+          2.5611e-09,  1.2224e-08]], device='cuda:0')
+Epoch 428, bias, value: tensor([ 0.0191, -0.0323,  0.0209, -0.0283,  0.0402,  0.0166, -0.0011, -0.0067,
+        -0.0237, -0.0155], device='cuda:0'), grad: tensor([ 2.3283e-09,  4.5402e-09,  1.8626e-08, -1.5134e-09,  5.8208e-09,
+         6.8685e-09,  0.0000e+00, -6.7637e-08,  2.3283e-10,  4.2375e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 427, time 220.66, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4039 re_mapping 0.0021 re_causal 0.0073 /// teacc 99.17 lr 0.00001000
+Epoch 429, weight, value: tensor([[-3.2837e-01,  2.6078e-01, -3.2753e-02,  ..., -1.7156e-01,
+          1.2557e-02, -3.3071e-04],
+        [ 6.4621e-03, -1.7617e-01, -3.0183e-02,  ...,  5.2368e-02,
+         -7.7030e-02, -9.8487e-02],
+        [-2.6720e-01, -3.2265e-01,  5.8346e-02,  ..., -1.5674e-01,
+         -8.0994e-02, -2.5450e-01],
+        ...,
+        [ 8.8382e-02,  2.0533e-01, -1.0766e-01,  ..., -1.8641e-01,
+          8.9645e-02,  1.0025e-01],
+        [ 2.9357e-02, -2.2128e-01, -7.0218e-02,  ..., -1.6585e-01,
+         -1.3380e-01, -1.2784e-01],
+        [-3.1297e-01, -9.9775e-02, -7.3298e-02,  ...,  1.1096e-01,
+         -3.4980e-01,  1.2099e-01]], device='cuda:0'), grad: tensor([[ 3.4925e-10, -1.7462e-09,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  1.1642e-10],
+        [ 2.6776e-09,  2.3283e-10,  2.3283e-09,  ..., -2.9104e-09,
+          1.6298e-09,  5.8208e-09],
+        [ 8.1491e-10,  3.9581e-09,  0.0000e+00,  ...,  1.0477e-09,
+          8.1491e-10,  2.4447e-09],
+        ...,
+        [ 2.4447e-09, -3.9581e-09,  0.0000e+00,  ...,  1.3970e-09,
+          1.1642e-09,  1.8626e-09],
+        [ 6.9849e-10,  3.4925e-10,  0.0000e+00,  ...,  5.8208e-10,
+          4.6566e-10,  1.1642e-09],
+        [ 6.9849e-10,  1.5134e-09,  1.1642e-10,  ...,  5.8208e-10,
+          9.3132e-10,  3.3760e-09]], device='cuda:0')
+Epoch 429, bias, value: tensor([ 0.0192, -0.0323,  0.0209, -0.0283,  0.0402,  0.0166, -0.0011, -0.0067,
+        -0.0237, -0.0155], device='cuda:0'), grad: tensor([-2.3283e-10, -3.0501e-08,  1.6764e-08, -5.1805e-08, -2.8522e-08,
+         1.3504e-08,  4.5984e-08,  2.2352e-08,  9.6625e-09,  1.2922e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 428, time 220.62, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4203 re_mapping 0.0022 re_causal 0.0075 /// teacc 99.19 lr 0.00001000
+Epoch 430, weight, value: tensor([[-3.2837e-01,  2.6083e-01, -3.2754e-02,  ..., -1.7168e-01,
+          1.2554e-02, -3.3528e-04],
+        [ 6.4754e-03, -1.7617e-01, -3.0187e-02,  ...,  5.2406e-02,
+         -7.7057e-02, -9.8513e-02],
+        [-2.6730e-01, -3.2277e-01,  5.8345e-02,  ..., -1.5682e-01,
+         -8.1047e-02, -2.5463e-01],
+        ...,
+        [ 8.8400e-02,  2.0535e-01, -1.0766e-01,  ..., -1.8643e-01,
+          8.9654e-02,  1.0026e-01],
+        [ 2.9362e-02, -2.2130e-01, -7.0221e-02,  ..., -1.6589e-01,
+         -1.3382e-01, -1.2786e-01],
+        [-3.1304e-01, -9.9790e-02, -7.3301e-02,  ...,  1.1096e-01,
+         -3.4983e-01,  1.2100e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -3.2596e-09,  0.0000e+00,  ...,  2.5611e-09,
+         -2.3283e-10,  2.7940e-09],
+        [ 4.6566e-10,  2.3283e-10,  0.0000e+00,  ...,  1.1642e-09,
+          6.9849e-09,  4.9826e-08],
+        [ 2.3283e-10,  2.3283e-10,  0.0000e+00,  ...,  4.6566e-10,
+          3.9581e-09,  1.7695e-08],
+        ...,
+        [ 1.1642e-09,  1.1642e-09,  0.0000e+00,  ...,  3.0268e-09,
+         -1.3271e-08, -9.3365e-08],
+        [-6.9849e-10, -9.3132e-10,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 6.9151e-08,  1.6298e-09,  0.0000e+00,  ...,  8.2655e-08,
+          4.1910e-09,  1.2806e-08]], device='cuda:0')
+Epoch 430, bias, value: tensor([ 0.0191, -0.0323,  0.0209, -0.0283,  0.0403,  0.0166, -0.0011, -0.0067,
+        -0.0237, -0.0155], device='cuda:0'), grad: tensor([ 6.2864e-09,  1.4924e-07,  4.9127e-08,  5.8208e-09, -3.0547e-07,
+        -8.6147e-09, -1.1642e-09, -2.5542e-07, -6.9849e-10,  3.7509e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 429, time 220.39, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4495 re_mapping 0.0021 re_causal 0.0076 /// teacc 99.20 lr 0.00001000
+Epoch 431, weight, value: tensor([[-3.2838e-01,  2.6090e-01, -3.2752e-02,  ..., -1.7175e-01,
+          1.2556e-02, -3.4230e-04],
+        [ 6.4761e-03, -1.7617e-01, -3.0188e-02,  ...,  5.2414e-02,
+         -7.7087e-02, -9.8528e-02],
+        [-2.6736e-01, -3.2286e-01,  5.8346e-02,  ..., -1.5684e-01,
+         -8.1092e-02, -2.5475e-01],
+        ...,
+        [ 8.8434e-02,  2.0536e-01, -1.0766e-01,  ..., -1.8644e-01,
+          8.9658e-02,  1.0027e-01],
+        [ 2.9376e-02, -2.2132e-01, -7.0240e-02,  ..., -1.6592e-01,
+         -1.3384e-01, -1.2788e-01],
+        [-3.1309e-01, -9.9804e-02, -7.3308e-02,  ...,  1.1097e-01,
+         -3.4988e-01,  1.2101e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  2.3283e-10,
+          2.3283e-10,  4.6566e-10],
+        [ 0.0000e+00, -6.9849e-10,  0.0000e+00,  ...,  0.0000e+00,
+          6.9849e-10,  6.9849e-10],
+        ...,
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  2.0955e-09,
+          2.3283e-10,  1.8626e-09],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  4.6566e-10,
+          2.3283e-10,  6.9849e-10],
+        [ 4.6566e-10,  2.3283e-10,  0.0000e+00,  ..., -1.3039e-08,
+          0.0000e+00, -1.0477e-08]], device='cuda:0')
+Epoch 431, bias, value: tensor([ 0.0191, -0.0323,  0.0209, -0.0283,  0.0403,  0.0166, -0.0011, -0.0067,
+        -0.0237, -0.0155], device='cuda:0'), grad: tensor([ 6.5193e-09,  1.6764e-08, -6.9151e-08,  1.6298e-09,  2.5844e-08,
+         3.7253e-09,  1.8626e-09,  3.9116e-08,  8.6147e-09, -2.6077e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 430, time 220.68, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4163 re_mapping 0.0021 re_causal 0.0073 /// teacc 99.18 lr 0.00001000
+Epoch 432, weight, value: tensor([[-3.2838e-01,  2.6108e-01, -3.2753e-02,  ..., -1.7178e-01,
+          1.2547e-02, -3.4407e-04],
+        [ 6.4643e-03, -1.7618e-01, -3.0193e-02,  ...,  5.2398e-02,
+         -7.7124e-02, -9.8549e-02],
+        [-2.6744e-01, -3.2294e-01,  5.8338e-02,  ..., -1.5690e-01,
+         -8.1166e-02, -2.5485e-01],
+        ...,
+        [ 8.8472e-02,  2.0537e-01, -1.0766e-01,  ..., -1.8647e-01,
+          8.9667e-02,  1.0028e-01],
+        [ 2.9374e-02, -2.2138e-01, -7.0244e-02,  ..., -1.6598e-01,
+         -1.3387e-01, -1.2792e-01],
+        [-3.1317e-01, -9.9828e-02, -7.3312e-02,  ...,  1.1098e-01,
+         -3.4993e-01,  1.2102e-01]], device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  1.1642e-09,
+          2.3283e-10,  2.3283e-10],
+        [ 6.9849e-10,  9.3132e-10, -6.9849e-10,  ..., -4.6566e-10,
+          4.6566e-10,  3.7253e-09],
+        [ 2.3283e-10,  0.0000e+00,  2.3283e-10,  ...,  2.0955e-09,
+          9.3132e-10,  1.1642e-09],
+        ...,
+        [ 4.6566e-10, -9.3132e-10,  4.6566e-10,  ...,  1.9791e-08,
+         -2.3283e-10,  1.7229e-08],
+        [-6.9849e-10,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          2.3283e-10, -2.3283e-09],
+        [ 1.1642e-09,  2.3283e-10,  6.9849e-10,  ..., -2.1653e-08,
+          9.3132e-10, -2.0256e-08]], device='cuda:0')
+Epoch 432, bias, value: tensor([ 0.0192, -0.0323,  0.0209, -0.0283,  0.0403,  0.0166, -0.0011, -0.0067,
+        -0.0237, -0.0155], device='cuda:0'), grad: tensor([ 8.6147e-09, -8.3586e-08,  6.5425e-08,  7.8231e-08,  0.0000e+00,
+        -8.1956e-08,  0.0000e+00,  5.8673e-08, -2.0489e-08, -2.3516e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 431, time 220.84, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4346 re_mapping 0.0021 re_causal 0.0075 /// teacc 99.19 lr 0.00001000
+Epoch 433, weight, value: tensor([[-0.3284,  0.2612, -0.0328,  ..., -0.1719,  0.0125, -0.0004],
+        [ 0.0064, -0.1762, -0.0302,  ...,  0.0524, -0.0772, -0.0986],
+        [-0.2675, -0.3230,  0.0583,  ..., -0.1569, -0.0812, -0.2550],
+        ...,
+        [ 0.0885,  0.2054, -0.1077,  ..., -0.1865,  0.0897,  0.1003],
+        [ 0.0294, -0.2214, -0.0703,  ..., -0.1660, -0.1339, -0.1279],
+        [-0.3132, -0.0998, -0.0733,  ...,  0.1110, -0.3500,  0.1210]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  7.2177e-09,
+          0.0000e+00,  2.3283e-10],
+        [ 9.3132e-10,  1.3970e-09,  0.0000e+00,  ...,  8.3819e-09,
+          1.3970e-09,  6.0536e-09],
+        [ 4.6566e-10,  1.8626e-09,  0.0000e+00,  ...,  6.2864e-09,
+          4.6566e-10,  1.3970e-09],
+        ...,
+        [-3.3993e-08, -5.9372e-08,  0.0000e+00,  ..., -1.9558e-08,
+         -3.8417e-08, -1.2643e-07],
+        [ 4.6566e-10,  9.3132e-10,  0.0000e+00,  ...,  1.5367e-08,
+          2.3283e-10,  9.3132e-10],
+        [ 3.3295e-08,  5.4948e-08,  0.0000e+00,  ...,  1.9558e-08,
+          3.5856e-08,  1.1642e-07]], device='cuda:0')
+Epoch 433, bias, value: tensor([ 0.0192, -0.0323,  0.0209, -0.0283,  0.0403,  0.0166, -0.0011, -0.0067,
+        -0.0237, -0.0155], device='cuda:0'), grad: tensor([ 2.9569e-08,  5.6112e-08,  1.2340e-08,  9.3132e-09,  5.7369e-07,
+         4.5868e-08, -7.6182e-07, -3.9232e-07,  6.5658e-08,  3.7206e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 432, time 220.22, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4268 re_mapping 0.0020 re_causal 0.0073 /// teacc 99.20 lr 0.00001000
+Epoch 434, weight, value: tensor([[-0.3284,  0.2612, -0.0328,  ..., -0.1720,  0.0125, -0.0004],
+        [ 0.0064, -0.1762, -0.0302,  ...,  0.0524, -0.0772, -0.0986],
+        [-0.2676, -0.3231,  0.0583,  ..., -0.1569, -0.0812, -0.2551],
+        ...,
+        [ 0.0886,  0.2054, -0.1077,  ..., -0.1865,  0.0897,  0.1003],
+        [ 0.0293, -0.2214, -0.0703,  ..., -0.1661, -0.1339, -0.1280],
+        [-0.3133, -0.0999, -0.0733,  ...,  0.1110, -0.3501,  0.1210]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10, -1.3970e-09,  0.0000e+00,  ...,  1.6298e-09,
+          2.3283e-10,  2.7940e-09],
+        [ 6.2166e-08,  4.6566e-10,  0.0000e+00,  ...,  5.2853e-08,
+          2.3283e-10,  1.3970e-09],
+        [ 4.6566e-10,  2.3283e-10,  0.0000e+00,  ...,  4.6566e-10,
+          2.3283e-10,  9.3132e-10],
+        ...,
+        [ 2.2585e-08,  9.3132e-10,  0.0000e+00,  ...,  2.1188e-08,
+          2.3283e-10,  3.0268e-09],
+        [ 6.4494e-08,  4.6566e-10,  0.0000e+00,  ...,  5.5647e-08,
+          2.3283e-10,  1.3970e-09],
+        [ 2.7940e-08, -6.5193e-09,  0.0000e+00,  ...,  8.6147e-09,
+          6.9849e-10, -2.1420e-08]], device='cuda:0')
+Epoch 434, bias, value: tensor([ 0.0192, -0.0323,  0.0209, -0.0284,  0.0403,  0.0166, -0.0011, -0.0067,
+        -0.0237, -0.0155], device='cuda:0'), grad: tensor([ 6.2864e-09,  2.4796e-07, -2.2119e-08,  1.2107e-08, -6.5565e-07,
+        -1.7928e-08,  3.6787e-08,  1.1851e-07,  2.6100e-07,  2.4447e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 433, time 220.39, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4101 re_mapping 0.0021 re_causal 0.0072 /// teacc 99.19 lr 0.00001000
+Epoch 435, weight, value: tensor([[-0.3284,  0.2614, -0.0328,  ..., -0.1721,  0.0125, -0.0004],
+        [ 0.0064, -0.1762, -0.0302,  ...,  0.0524, -0.0772, -0.0986],
+        [-0.2677, -0.3231,  0.0583,  ..., -0.1570, -0.0813, -0.2551],
+        ...,
+        [ 0.0886,  0.2054, -0.1077,  ..., -0.1865,  0.0898,  0.1003],
+        [ 0.0293, -0.2215, -0.0704,  ..., -0.1662, -0.1339, -0.1280],
+        [-0.3135, -0.0999, -0.0733,  ...,  0.1110, -0.3501,  0.1210]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  1.1642e-09,
+          0.0000e+00,  1.6298e-09],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  6.9849e-10,
+          4.6566e-10,  6.9849e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          2.3283e-10,  2.3283e-10],
+        ...,
+        [ 2.3283e-10,  2.3283e-10,  0.0000e+00,  ...,  1.6298e-09,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  3.7253e-09,
+          2.3283e-10,  4.8894e-09],
+        [ 4.1910e-09, -1.6298e-09,  0.0000e+00,  ..., -3.9581e-09,
+          2.3283e-10, -1.2806e-08]], device='cuda:0')
+Epoch 435, bias, value: tensor([ 0.0192, -0.0323,  0.0209, -0.0284,  0.0403,  0.0166, -0.0011, -0.0067,
+        -0.0237, -0.0155], device='cuda:0'), grad: tensor([ 6.0536e-09,  7.4506e-09, -5.3551e-09,  2.0955e-09, -6.2864e-09,
+         9.7789e-09, -6.9849e-09,  1.3039e-08,  2.1188e-08, -2.6776e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 434, time 220.15, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4231 re_mapping 0.0021 re_causal 0.0074 /// teacc 99.19 lr 0.00001000
+Epoch 436, weight, value: tensor([[-0.3284,  0.2614, -0.0328,  ..., -0.1722,  0.0125, -0.0004],
+        [ 0.0064, -0.1762, -0.0302,  ...,  0.0524, -0.0773, -0.0986],
+        [-0.2678, -0.3232,  0.0583,  ..., -0.1570, -0.0814, -0.2552],
+        ...,
+        [ 0.0886,  0.2054, -0.1077,  ..., -0.1865,  0.0898,  0.1003],
+        [ 0.0293, -0.2215, -0.0704,  ..., -0.1662, -0.1340, -0.1281],
+        [-0.3136, -0.0999, -0.0733,  ...,  0.1109, -0.3502,  0.1211]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  1.1642e-09,  0.0000e+00,  ...,  7.6834e-09,
+          1.1642e-09,  1.1409e-08],
+        [ 1.4668e-08,  2.3283e-10,  0.0000e+00,  ...,  9.7789e-09,
+          2.3283e-10,  2.7940e-09],
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  3.0268e-09,
+          4.6566e-10,  3.9581e-09],
+        ...,
+        [-2.0955e-09,  2.3283e-10,  0.0000e+00,  ...,  4.4471e-08,
+          2.3283e-10,  3.3062e-08],
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  6.0536e-09,
+          9.3132e-10,  8.6147e-09],
+        [ 3.7020e-08, -4.1910e-09,  0.0000e+00,  ..., -5.1688e-08,
+         -3.7253e-09, -1.0221e-07]], device='cuda:0')
+Epoch 436, bias, value: tensor([ 0.0192, -0.0323,  0.0209, -0.0284,  0.0403,  0.0166, -0.0010, -0.0067,
+        -0.0237, -0.0155], device='cuda:0'), grad: tensor([ 4.3074e-08,  2.0349e-07,  1.9325e-08,  6.5193e-09, -5.5879e-08,
+        -2.3283e-09,  1.3737e-08, -3.0966e-08,  1.4435e-08, -2.0210e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 435, time 220.67, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4164 re_mapping 0.0021 re_causal 0.0074 /// teacc 99.18 lr 0.00001000
+Epoch 437, weight, value: tensor([[-0.3284,  0.2615, -0.0328,  ..., -0.1723,  0.0125, -0.0004],
+        [ 0.0064, -0.1762, -0.0302,  ...,  0.0523, -0.0773, -0.0986],
+        [-0.2678, -0.3232,  0.0583,  ..., -0.1571, -0.0814, -0.2553],
+        ...,
+        [ 0.0886,  0.2054, -0.1077,  ..., -0.1867,  0.0898,  0.1003],
+        [ 0.0293, -0.2216, -0.0704,  ..., -0.1663, -0.1340, -0.1281],
+        [-0.3138, -0.0999, -0.0734,  ...,  0.1110, -0.3502,  0.1211]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 1.3970e-09,  2.3283e-10,  0.0000e+00,  ...,  4.8894e-09,
+          0.0000e+00,  6.9849e-10],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  1.1642e-09,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [ 1.1642e-09,  0.0000e+00,  0.0000e+00,  ...,  2.5611e-09,
+          0.0000e+00,  2.3283e-10],
+        [-1.4901e-08,  2.3283e-10,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 9.5461e-09,  2.3283e-10,  0.0000e+00,  ...,  3.9581e-09,
+          2.3283e-10,  4.6566e-10]], device='cuda:0')
+Epoch 437, bias, value: tensor([ 0.0192, -0.0323,  0.0209, -0.0284,  0.0403,  0.0166, -0.0010, -0.0067,
+        -0.0237, -0.0155], device='cuda:0'), grad: tensor([ 1.1409e-08,  5.4715e-08, -4.5868e-08, -1.6531e-08, -5.8208e-08,
+         9.3365e-08,  1.8626e-08,  2.6077e-08, -2.0792e-07,  1.3178e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 436, time 220.44, cls_loss 0.0003 cls_loss_mapping 0.0002 cls_loss_causal 0.4340 re_mapping 0.0021 re_causal 0.0076 /// teacc 99.18 lr 0.00001000
+Epoch 438, weight, value: tensor([[-0.3284,  0.2616, -0.0328,  ..., -0.1724,  0.0125, -0.0004],
+        [ 0.0064, -0.1762, -0.0302,  ...,  0.0523, -0.0773, -0.0987],
+        [-0.2679, -0.3233,  0.0583,  ..., -0.1571, -0.0815, -0.2553],
+        ...,
+        [ 0.0887,  0.2054, -0.1077,  ..., -0.1867,  0.0898,  0.1003],
+        [ 0.0293, -0.2216, -0.0704,  ..., -0.1664, -0.1340, -0.1281],
+        [-0.3139, -0.0999, -0.0734,  ...,  0.1110, -0.3503,  0.1211]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.3283e-09,  ...,  3.7253e-09,
+          0.0000e+00,  0.0000e+00],
+        [-8.6147e-09, -9.3132e-10,  1.3970e-09,  ..., -6.5193e-09,
+          4.6566e-10, -1.2387e-07],
+        [ 2.3283e-09,  2.3283e-10,  2.3283e-10,  ...,  1.6298e-09,
+         -2.3283e-10,  1.2806e-08],
+        ...,
+        [ 1.3970e-09,  4.6566e-10, -1.8626e-09,  ...,  3.9581e-09,
+          1.5600e-08,  1.2224e-07],
+        [ 1.1642e-09,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 2.5611e-09,  2.3283e-10,  0.0000e+00,  ..., -4.4238e-09,
+          0.0000e+00, -5.1223e-09]], device='cuda:0')
+Epoch 438, bias, value: tensor([ 0.0192, -0.0323,  0.0209, -0.0284,  0.0404,  0.0166, -0.0010, -0.0067,
+        -0.0238, -0.0155], device='cuda:0'), grad: tensor([ 1.2340e-08, -1.2014e-06,  8.0094e-08, -2.8173e-08,  1.5367e-08,
+         2.3283e-09, -1.0245e-08,  1.1278e-06,  1.0477e-08,  2.3283e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 437, time 220.38, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4170 re_mapping 0.0021 re_causal 0.0072 /// teacc 99.15 lr 0.00001000
+Epoch 439, weight, value: tensor([[-0.3284,  0.2617, -0.0328,  ..., -0.1725,  0.0125, -0.0004],
+        [ 0.0064, -0.1762, -0.0302,  ...,  0.0523, -0.0774, -0.0987],
+        [-0.2679, -0.3233,  0.0583,  ..., -0.1571, -0.0815, -0.2554],
+        ...,
+        [ 0.0887,  0.2054, -0.1077,  ..., -0.1867,  0.0898,  0.1003],
+        [ 0.0292, -0.2216, -0.0704,  ..., -0.1664, -0.1340, -0.1281],
+        [-0.3140, -0.0999, -0.0734,  ...,  0.1110, -0.3504,  0.1211]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  6.9849e-10],
+        [ 9.3132e-10,  1.3970e-09,  0.0000e+00,  ...,  2.3283e-10,
+          2.3283e-10,  1.6298e-09],
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-10,  4.6566e-10],
+        ...,
+        [-4.1910e-09, -6.7521e-09,  0.0000e+00,  ...,  9.3132e-10,
+         -1.6298e-09, -4.4238e-09],
+        [-4.6566e-10,  1.3970e-09,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  1.3970e-09],
+        [ 1.1642e-09,  1.6298e-09,  0.0000e+00,  ..., -9.3132e-09,
+          4.6566e-10, -1.0477e-08]], device='cuda:0')
+Epoch 439, bias, value: tensor([ 0.0192, -0.0323,  0.0209, -0.0284,  0.0404,  0.0166, -0.0010, -0.0067,
+        -0.0238, -0.0155], device='cuda:0'), grad: tensor([ 2.5611e-09,  8.8476e-09,  2.7940e-09,  3.9581e-09,  4.3074e-08,
+         2.8173e-08,  6.9849e-09, -2.0955e-08, -2.6310e-08, -3.6089e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 438, time 220.59, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4508 re_mapping 0.0021 re_causal 0.0076 /// teacc 99.16 lr 0.00001000
+Epoch 440, weight, value: tensor([[-0.3284,  0.2618, -0.0328,  ..., -0.1725,  0.0125, -0.0004],
+        [ 0.0064, -0.1762, -0.0302,  ...,  0.0523, -0.0774, -0.0987],
+        [-0.2681, -0.3234,  0.0583,  ..., -0.1571, -0.0816, -0.2555],
+        ...,
+        [ 0.0887,  0.2055, -0.1077,  ..., -0.1867,  0.0899,  0.1003],
+        [ 0.0292, -0.2217, -0.0704,  ..., -0.1665, -0.1341, -0.1282],
+        [-0.3141, -0.1000, -0.0734,  ...,  0.1110, -0.3504,  0.1211]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  2.0955e-09,
+          0.0000e+00,  9.3132e-10],
+        [ 2.3283e-10,  1.1642e-09,  0.0000e+00,  ...,  6.9849e-10,
+          1.1642e-09,  2.0955e-09],
+        [ 2.3283e-10,  1.3970e-09,  0.0000e+00,  ...,  2.0955e-09,
+          2.7940e-09,  3.0268e-09],
+        ...,
+        [-1.1642e-09, -4.6566e-09,  0.0000e+00,  ...,  3.0268e-09,
+         -9.3132e-10, -2.3283e-09],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  2.5611e-09,
+          6.9849e-10,  2.3283e-09],
+        [ 2.3283e-10, -2.3283e-10,  0.0000e+00,  ..., -1.5832e-08,
+          2.3283e-10, -1.4901e-08]], device='cuda:0')
+Epoch 440, bias, value: tensor([ 0.0192, -0.0323,  0.0209, -0.0284,  0.0404,  0.0166, -0.0010, -0.0067,
+        -0.0238, -0.0155], device='cuda:0'), grad: tensor([ 1.2573e-08, -6.5891e-08, -9.7090e-08, -1.6764e-08,  3.1199e-08,
+         1.9791e-08, -4.5635e-08,  3.2829e-08,  1.7136e-07, -4.3306e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 439, time 220.68, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4289 re_mapping 0.0020 re_causal 0.0072 /// teacc 99.15 lr 0.00001000
+Epoch 441, weight, value: tensor([[-0.3285,  0.2619, -0.0328,  ..., -0.1726,  0.0125, -0.0005],
+        [ 0.0064, -0.1762, -0.0302,  ...,  0.0524, -0.0774, -0.0987],
+        [-0.2681, -0.3235,  0.0584,  ..., -0.1572, -0.0816, -0.2556],
+        ...,
+        [ 0.0887,  0.2055, -0.1077,  ..., -0.1868,  0.0899,  0.1003],
+        [ 0.0292, -0.2217, -0.0704,  ..., -0.1666, -0.1341, -0.1282],
+        [-0.3142, -0.1000, -0.0734,  ...,  0.1110, -0.3505,  0.1212]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  2.3283e-10,  0.0000e+00,  ..., -2.3283e-10,
+          0.0000e+00,  9.3132e-10],
+        [ 9.3132e-10,  2.3283e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  2.3283e-10],
+        ...,
+        [ 2.5611e-09, -4.6566e-10,  0.0000e+00,  ...,  3.7253e-09,
+          0.0000e+00,  3.7253e-09],
+        [-1.7928e-08,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 2.7940e-09,  2.3283e-10,  0.0000e+00,  ..., -5.6112e-08,
+          0.0000e+00, -6.9151e-08]], device='cuda:0')
+Epoch 441, bias, value: tensor([ 0.0192, -0.0323,  0.0209, -0.0284,  0.0404,  0.0166, -0.0010, -0.0067,
+        -0.0238, -0.0155], device='cuda:0'), grad: tensor([ 1.6298e-09,  7.9162e-09,  9.0804e-09,  4.6566e-09,  1.7392e-07,
+         5.5879e-08,  1.4901e-08,  2.9104e-08, -1.1967e-07, -1.6438e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 440, time 220.31, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4409 re_mapping 0.0020 re_causal 0.0073 /// teacc 99.15 lr 0.00001000
+Epoch 442, weight, value: tensor([[-0.3285,  0.2621, -0.0327,  ..., -0.1727,  0.0125, -0.0005],
+        [ 0.0064, -0.1762, -0.0302,  ...,  0.0524, -0.0775, -0.0987],
+        [-0.2682, -0.3235,  0.0584,  ..., -0.1572, -0.0817, -0.2556],
+        ...,
+        [ 0.0887,  0.2054, -0.1077,  ..., -0.1870,  0.0899,  0.1002],
+        [ 0.0292, -0.2218, -0.0704,  ..., -0.1666, -0.1341, -0.1282],
+        [-0.3143, -0.0999, -0.0734,  ...,  0.1110, -0.3505,  0.1213]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -2.7940e-09,  0.0000e+00,  ...,  2.3283e-10,
+          1.3970e-09,  9.3132e-10],
+        [ 4.6566e-10,  2.3283e-10,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  4.6566e-10],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  0.0000e+00,
+          2.0955e-09,  1.3970e-09],
+        ...,
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          4.6566e-10,  6.9849e-10],
+        [ 2.3283e-10,  2.3283e-10,  0.0000e+00,  ...,  2.3283e-10,
+          2.3283e-10,  4.6566e-10],
+        [ 9.3132e-10,  1.3970e-09,  0.0000e+00,  ...,  2.3283e-10,
+          2.3283e-10,  4.6566e-10]], device='cuda:0')
+Epoch 442, bias, value: tensor([ 0.0193, -0.0323,  0.0209, -0.0284,  0.0404,  0.0166, -0.0010, -0.0068,
+        -0.0238, -0.0155], device='cuda:0'), grad: tensor([ 3.0268e-09,  2.1886e-08, -7.6834e-09, -2.2585e-08,  2.5611e-09,
+        -2.1886e-08,  5.1223e-09,  6.9849e-09,  4.8894e-09,  8.1491e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 441, time 220.68, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4118 re_mapping 0.0020 re_causal 0.0072 /// teacc 99.17 lr 0.00001000
+Epoch 443, weight, value: tensor([[-0.3285,  0.2623, -0.0327,  ..., -0.1728,  0.0125, -0.0005],
+        [ 0.0064, -0.1762, -0.0302,  ...,  0.0524, -0.0775, -0.0988],
+        [-0.2682, -0.3236,  0.0584,  ..., -0.1573, -0.0817, -0.2557],
+        ...,
+        [ 0.0887,  0.2055, -0.1077,  ..., -0.1870,  0.0899,  0.1002],
+        [ 0.0292, -0.2218, -0.0704,  ..., -0.1667, -0.1341, -0.1283],
+        [-0.3144, -0.1000, -0.0734,  ...,  0.1110, -0.3506,  0.1213]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  7.7300e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10,  1.3970e-09,  0.0000e+00,  ...,  6.5193e-09,
+          2.3283e-10,  9.3132e-10],
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  3.0268e-09,
+          2.3283e-10,  0.0000e+00],
+        ...,
+        [-6.9849e-10, -2.5611e-09,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00, -4.6566e-10],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  1.8626e-09,
+          0.0000e+00,  2.3283e-10],
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  2.3283e-10]], device='cuda:0')
+Epoch 443, bias, value: tensor([ 0.0194, -0.0323,  0.0209, -0.0284,  0.0404,  0.0166, -0.0010, -0.0068,
+        -0.0238, -0.0155], device='cuda:0'), grad: tensor([ 3.0710e-07,  2.4913e-08,  6.7521e-09,  1.6531e-08,  1.0896e-07,
+         4.6566e-09, -4.7125e-07,  6.9849e-09,  3.4925e-09,  5.3551e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 442, time 220.53, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4161 re_mapping 0.0020 re_causal 0.0073 /// teacc 99.15 lr 0.00001000
+Epoch 444, weight, value: tensor([[-0.3285,  0.2624, -0.0327,  ..., -0.1729,  0.0125, -0.0005],
+        [ 0.0064, -0.1762, -0.0302,  ...,  0.0524, -0.0775, -0.0988],
+        [-0.2683, -0.3236,  0.0584,  ..., -0.1573, -0.0818, -0.2558],
+        ...,
+        [ 0.0888,  0.2055, -0.1077,  ..., -0.1871,  0.0899,  0.1002],
+        [ 0.0292, -0.2218, -0.0705,  ..., -0.1668, -0.1342, -0.1283],
+        [-0.3145, -0.0999, -0.0734,  ...,  0.1111, -0.3506,  0.1214]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -5.4715e-08,  0.0000e+00,  ...,  4.1910e-09,
+          0.0000e+00,  4.8894e-09],
+        [-9.3132e-10,  6.9849e-10,  0.0000e+00,  ..., -6.9849e-10,
+          0.0000e+00,  6.9849e-10],
+        [ 1.1642e-09,  3.9581e-09,  0.0000e+00,  ...,  6.9849e-10,
+          0.0000e+00,  1.3970e-09],
+        ...,
+        [ 1.3970e-09,  0.0000e+00,  0.0000e+00,  ...,  1.1176e-08,
+          0.0000e+00,  1.1409e-08],
+        [ 4.6566e-10,  9.3132e-10,  0.0000e+00,  ...,  7.9162e-09,
+          0.0000e+00,  5.3551e-09],
+        [ 8.8941e-08,  3.2596e-09,  0.0000e+00,  ...,  9.3132e-08,
+          0.0000e+00, -3.4692e-08]], device='cuda:0')
+Epoch 444, bias, value: tensor([ 0.0194, -0.0323,  0.0209, -0.0284,  0.0404,  0.0166, -0.0010, -0.0068,
+        -0.0238, -0.0154], device='cuda:0'), grad: tensor([-7.2876e-08, -3.7253e-09,  1.4435e-08,  5.8208e-09, -3.2713e-07,
+        -1.3970e-09,  4.7497e-08,  4.5635e-08,  4.4703e-08,  2.6915e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 443, time 220.50, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4235 re_mapping 0.0020 re_causal 0.0074 /// teacc 99.18 lr 0.00001000
+Epoch 445, weight, value: tensor([[-0.3285,  0.2626, -0.0327,  ..., -0.1730,  0.0125, -0.0005],
+        [ 0.0064, -0.1762, -0.0302,  ...,  0.0524, -0.0775, -0.0988],
+        [-0.2684, -0.3237,  0.0584,  ..., -0.1573, -0.0818, -0.2559],
+        ...,
+        [ 0.0888,  0.2055, -0.1077,  ..., -0.1871,  0.0899,  0.1002],
+        [ 0.0292, -0.2219, -0.0705,  ..., -0.1668, -0.1342, -0.1284],
+        [-0.3146, -0.1000, -0.0734,  ...,  0.1111, -0.3506,  0.1214]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -5.8208e-09,  0.0000e+00,  ..., -4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 4.8894e-09,  1.0245e-08,  0.0000e+00,  ..., -1.1874e-08,
+          6.9849e-09,  1.7462e-08],
+        [ 1.3970e-09,  1.6298e-09,  0.0000e+00,  ...,  4.6566e-10,
+          9.3132e-10,  2.0955e-09],
+        ...,
+        [-1.5134e-08, -1.8626e-08,  2.3283e-10,  ...,  8.3819e-09,
+         -1.2573e-08, -3.0734e-08],
+        [ 1.8626e-09,  3.0268e-09,  0.0000e+00,  ...,  6.9849e-10,
+          9.3132e-10,  2.0955e-09],
+        [ 5.3551e-09,  8.3819e-09,  0.0000e+00,  ...,  9.3132e-10,
+          3.2596e-09,  8.1491e-09]], device='cuda:0')
+Epoch 445, bias, value: tensor([ 0.0194, -0.0323,  0.0209, -0.0284,  0.0404,  0.0166, -0.0010, -0.0068,
+        -0.0238, -0.0154], device='cuda:0'), grad: tensor([-1.3737e-08, -3.2829e-08,  1.6298e-08,  2.5611e-09,  1.5600e-08,
+         5.1223e-09,  3.7253e-09, -6.3097e-08,  1.9325e-08,  5.1223e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 444, time 220.62, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4130 re_mapping 0.0020 re_causal 0.0070 /// teacc 99.17 lr 0.00001000
+Epoch 446, weight, value: tensor([[-0.3285,  0.2627, -0.0327,  ..., -0.1730,  0.0125, -0.0005],
+        [ 0.0064, -0.1762, -0.0302,  ...,  0.0525, -0.0776, -0.0988],
+        [-0.2685, -0.3237,  0.0584,  ..., -0.1574, -0.0819, -0.2559],
+        ...,
+        [ 0.0888,  0.2055, -0.1077,  ..., -0.1872,  0.0899,  0.1002],
+        [ 0.0292, -0.2220, -0.0705,  ..., -0.1669, -0.1342, -0.1284],
+        [-0.3147, -0.1000, -0.0734,  ...,  0.1111, -0.3507,  0.1214]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.2806e-08,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-10,  4.6566e-10],
+        [-4.6566e-10,  0.0000e+00,  0.0000e+00,  ..., -6.9849e-10,
+          4.6566e-10,  6.9849e-10],
+        [ 0.0000e+00,  2.3283e-10,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  1.1642e-09],
+        ...,
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          4.6566e-10,  6.9849e-10],
+        [-2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          6.9849e-10,  6.9849e-10],
+        [ 6.9849e-10,  1.3504e-08,  0.0000e+00,  ...,  2.3283e-10,
+          4.6566e-10,  1.3970e-09]], device='cuda:0')
+Epoch 446, bias, value: tensor([ 0.0195, -0.0323,  0.0209, -0.0284,  0.0404,  0.0167, -0.0010, -0.0069,
+        -0.0239, -0.0155], device='cuda:0'), grad: tensor([-3.1432e-08,  1.3970e-09,  6.9849e-09, -4.7730e-08,  1.6298e-09,
+         3.0501e-08,  2.3283e-09,  8.8476e-09,  6.9849e-10,  4.0280e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 445, time 220.65, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4210 re_mapping 0.0020 re_causal 0.0072 /// teacc 99.17 lr 0.00001000
+Epoch 447, weight, value: tensor([[-0.3285,  0.2629, -0.0327,  ..., -0.1731,  0.0125, -0.0005],
+        [ 0.0065, -0.1762, -0.0302,  ...,  0.0525, -0.0776, -0.0989],
+        [-0.2686, -0.3238,  0.0584,  ..., -0.1574, -0.0819, -0.2560],
+        ...,
+        [ 0.0888,  0.2055, -0.1077,  ..., -0.1872,  0.0899,  0.1002],
+        [ 0.0292, -0.2220, -0.0705,  ..., -0.1670, -0.1342, -0.1284],
+        [-0.3148, -0.1000, -0.0734,  ...,  0.1111, -0.3507,  0.1214]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ..., -4.6566e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [-1.8626e-09, -9.3132e-10,  0.0000e+00,  ...,  2.5611e-09,
+         -6.9849e-10,  9.3132e-10],
+        [ 1.3970e-09,  6.9849e-10,  0.0000e+00,  ...,  1.8626e-09,
+          4.6566e-10,  3.7253e-09],
+        [ 1.8626e-09,  2.3283e-10,  0.0000e+00,  ..., -5.3551e-09,
+          0.0000e+00, -1.0477e-08]], device='cuda:0')
+Epoch 447, bias, value: tensor([ 0.0195, -0.0323,  0.0209, -0.0284,  0.0405,  0.0167, -0.0010, -0.0069,
+        -0.0239, -0.0155], device='cuda:0'), grad: tensor([ 1.8626e-09,  4.9826e-08, -5.2387e-08,  2.3283e-10,  8.3819e-09,
+         1.1642e-09,  5.3551e-09,  9.3132e-10,  1.5367e-08, -2.2119e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 446, time 220.86, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4588 re_mapping 0.0020 re_causal 0.0076 /// teacc 99.20 lr 0.00001000
+Epoch 448, weight, value: tensor([[-0.3285,  0.2630, -0.0327,  ..., -0.1732,  0.0125, -0.0005],
+        [ 0.0065, -0.1763, -0.0302,  ...,  0.0525, -0.0776, -0.0989],
+        [-0.2687, -0.3238,  0.0584,  ..., -0.1575, -0.0820, -0.2560],
+        ...,
+        [ 0.0889,  0.2055, -0.1077,  ..., -0.1872,  0.0899,  0.1002],
+        [ 0.0291, -0.2220, -0.0705,  ..., -0.1671, -0.1343, -0.1285],
+        [-0.3149, -0.1001, -0.0734,  ...,  0.1111, -0.3507,  0.1214]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.8894e-09,  0.0000e+00,  ...,  1.0664e-07,
+          0.0000e+00,  0.0000e+00],
+        [ 2.5611e-09,  4.1910e-09,  0.0000e+00,  ...,  1.0943e-08,
+          4.6566e-10,  3.2596e-09],
+        [ 2.3283e-10,  6.9849e-10,  0.0000e+00,  ...,  2.0955e-09,
+          4.6566e-09,  3.4925e-09],
+        ...,
+        [-3.7253e-09, -4.8894e-09,  0.0000e+00,  ...,  4.6566e-10,
+         -2.3283e-10, -4.4238e-09],
+        [ 0.0000e+00,  6.9849e-10,  0.0000e+00,  ...,  1.8626e-09,
+          2.3283e-10,  0.0000e+00],
+        [ 1.1642e-09,  2.3283e-09,  0.0000e+00,  ...,  1.3970e-09,
+          2.3283e-10,  1.1642e-09]], device='cuda:0')
+Epoch 448, bias, value: tensor([ 0.0195, -0.0323,  0.0209, -0.0285,  0.0405,  0.0167, -0.0010, -0.0069,
+        -0.0239, -0.0155], device='cuda:0'), grad: tensor([ 4.0536e-07,  5.6578e-08,  2.8638e-08, -9.3132e-09,  1.1572e-07,
+         1.6065e-08, -6.0629e-07, -1.5600e-08,  9.7789e-09,  9.5461e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 447, time 220.63, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4389 re_mapping 0.0020 re_causal 0.0072 /// teacc 99.19 lr 0.00001000
+Epoch 449, weight, value: tensor([[-0.3285,  0.2631, -0.0327,  ..., -0.1733,  0.0125, -0.0005],
+        [ 0.0065, -0.1763, -0.0302,  ...,  0.0525, -0.0777, -0.0989],
+        [-0.2688, -0.3239,  0.0584,  ..., -0.1575, -0.0820, -0.2561],
+        ...,
+        [ 0.0889,  0.2055, -0.1077,  ..., -0.1872,  0.0900,  0.1002],
+        [ 0.0291, -0.2221, -0.0705,  ..., -0.1672, -0.1343, -0.1285],
+        [-0.3151, -0.1001, -0.0734,  ...,  0.1111, -0.3508,  0.1214]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.3283e-10,  9.3132e-10,  ...,  3.2596e-09,
+          2.3283e-10,  1.1642e-09],
+        [-2.3283e-10,  2.3283e-10,  4.6566e-10,  ...,  1.1642e-09,
+          1.8626e-09,  5.5879e-09],
+        [ 0.0000e+00,  2.3283e-10,  4.6566e-10,  ...,  1.8626e-09,
+          2.3283e-10,  9.3132e-10],
+        ...,
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  2.0256e-08,
+          7.9162e-09,  3.3062e-08],
+        [-1.3970e-09,  0.0000e+00,  2.3283e-10,  ...,  2.3283e-09,
+          4.6566e-10,  9.3132e-10],
+        [ 1.1642e-09,  0.0000e+00,  0.0000e+00,  ..., -3.6089e-08,
+         -1.0477e-08, -4.7730e-08]], device='cuda:0')
+Epoch 449, bias, value: tensor([ 0.0195, -0.0323,  0.0209, -0.0285,  0.0405,  0.0167, -0.0010, -0.0069,
+        -0.0239, -0.0155], device='cuda:0'), grad: tensor([ 1.3271e-08,  1.8859e-08, -3.4925e-09, -4.0978e-08,  7.3574e-08,
+         1.3039e-08, -4.3074e-08,  9.8487e-08, -2.4680e-08, -9.0105e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 448, time 220.42, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4188 re_mapping 0.0020 re_causal 0.0071 /// teacc 99.16 lr 0.00001000
+Epoch 450, weight, value: tensor([[-0.3285,  0.2633, -0.0327,  ..., -0.1734,  0.0125, -0.0005],
+        [ 0.0065, -0.1763, -0.0302,  ...,  0.0525, -0.0777, -0.0989],
+        [-0.2689, -0.3239,  0.0584,  ..., -0.1575, -0.0821, -0.2562],
+        ...,
+        [ 0.0889,  0.2055, -0.1077,  ..., -0.1872,  0.0900,  0.1002],
+        [ 0.0291, -0.2221, -0.0705,  ..., -0.1673, -0.1343, -0.1286],
+        [-0.3152, -0.1001, -0.0734,  ...,  0.1111, -0.3508,  0.1215]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  8.1491e-10,  1.1642e-10,  ...,  1.0477e-09,
+          0.0000e+00,  1.0477e-09],
+        [ 4.2026e-08,  4.8429e-08,  4.6566e-10,  ...,  1.2806e-09,
+          0.0000e+00,  4.6799e-08],
+        [ 1.2806e-09,  9.3132e-10,  0.0000e+00,  ...,  1.0477e-09,
+          0.0000e+00,  9.3132e-10],
+        ...,
+        [-4.8196e-08, -5.5414e-08,  0.0000e+00,  ...,  4.1910e-09,
+          0.0000e+00, -4.9360e-08],
+        [ 1.0477e-09,  9.3132e-10,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00, -3.4925e-10],
+        [ 3.0501e-08,  1.8626e-09,  0.0000e+00,  ...,  2.3399e-08,
+          0.0000e+00, -1.3737e-08]], device='cuda:0')
+Epoch 450, bias, value: tensor([ 0.0195, -0.0323,  0.0209, -0.0285,  0.0405,  0.0166, -0.0010, -0.0069,
+        -0.0239, -0.0155], device='cuda:0'), grad: tensor([ 6.7521e-09,  1.8976e-07,  8.1491e-09,  2.6776e-09, -1.4086e-07,
+         1.4901e-08,  1.6298e-09, -1.7835e-07, -2.8638e-08,  1.3306e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 449, time 220.39, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4366 re_mapping 0.0020 re_causal 0.0073 /// teacc 99.16 lr 0.00001000
+Epoch 451, weight, value: tensor([[-0.3285,  0.2634, -0.0327,  ..., -0.1735,  0.0125, -0.0006],
+        [ 0.0065, -0.1763, -0.0302,  ...,  0.0525, -0.0777, -0.0989],
+        [-0.2690, -0.3239,  0.0584,  ..., -0.1576, -0.0821, -0.2563],
+        ...,
+        [ 0.0889,  0.2055, -0.1077,  ..., -0.1873,  0.0900,  0.1002],
+        [ 0.0291, -0.2221, -0.0706,  ..., -0.1674, -0.1343, -0.1286],
+        [-0.3154, -0.1002, -0.0734,  ...,  0.1110, -0.3508,  0.1215]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  1.1642e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 1.5134e-09,  5.8208e-10,  0.0000e+00,  ...,  3.4925e-10,
+          1.1642e-09,  4.0745e-09],
+        [ 4.6566e-10,  2.3283e-10,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-10,  8.1491e-10],
+        ...,
+        [-4.8894e-09, -1.2806e-09,  0.0000e+00,  ...,  1.5134e-09,
+         -1.7462e-09, -1.0245e-08],
+        [ 1.8626e-09,  1.1642e-10,  0.0000e+00,  ...,  6.9849e-10,
+          0.0000e+00,  1.7462e-09],
+        [ 4.5984e-08,  3.4925e-10,  0.0000e+00,  ...,  2.9104e-08,
+          1.0477e-09,  8.4983e-09]], device='cuda:0')
+Epoch 451, bias, value: tensor([ 0.0195, -0.0323,  0.0209, -0.0285,  0.0406,  0.0166, -0.0010, -0.0069,
+        -0.0239, -0.0156], device='cuda:0'), grad: tensor([ 1.2806e-09,  1.5483e-08,  5.1223e-09,  6.3796e-08, -1.0617e-07,
+        -1.4459e-07,  6.8685e-09, -2.9569e-08,  8.6147e-09,  1.7800e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 450, time 220.27, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4307 re_mapping 0.0020 re_causal 0.0072 /// teacc 99.14 lr 0.00001000
+Epoch 452, weight, value: tensor([[-0.3285,  0.2635, -0.0327,  ..., -0.1736,  0.0125, -0.0006],
+        [ 0.0065, -0.1763, -0.0302,  ...,  0.0525, -0.0778, -0.0989],
+        [-0.2690, -0.3240,  0.0584,  ..., -0.1577, -0.0822, -0.2564],
+        ...,
+        [ 0.0890,  0.2056, -0.1077,  ..., -0.1873,  0.0901,  0.1002],
+        [ 0.0291, -0.2222, -0.0706,  ..., -0.1674, -0.1344, -0.1286],
+        [-0.3155, -0.1002, -0.0735,  ...,  0.1110, -0.3509,  0.1215]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.3039e-08,  0.0000e+00,  ...,  3.1432e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 1.2456e-08,  1.1642e-10,  3.4925e-10,  ...,  1.0477e-09,
+          3.4925e-10,  2.2119e-09],
+        [ 4.1910e-09,  2.3283e-10,  5.8208e-10,  ...,  2.0955e-09,
+          9.3132e-10,  4.0745e-09],
+        ...,
+        [-4.5402e-09,  0.0000e+00, -1.1642e-09,  ...,  0.0000e+00,
+          1.2806e-09, -4.7730e-09],
+        [-3.2131e-08,  4.6566e-10,  1.1642e-10,  ...,  6.9849e-10,
+          3.4925e-10,  1.0477e-09],
+        [ 1.2806e-09,  2.3283e-10,  0.0000e+00,  ...,  1.3970e-09,
+          0.0000e+00,  3.4925e-10]], device='cuda:0')
+Epoch 452, bias, value: tensor([ 0.0194, -0.0323,  0.0209, -0.0284,  0.0406,  0.0166, -0.0010, -0.0069,
+        -0.0239, -0.0156], device='cuda:0'), grad: tensor([-6.7521e-09,  2.0918e-06, -2.0005e-06,  6.0536e-09,  9.3132e-09,
+         1.2678e-07,  2.1071e-08, -1.0128e-08, -2.3679e-07,  1.0245e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 451, time 220.34, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4189 re_mapping 0.0020 re_causal 0.0071 /// teacc 99.14 lr 0.00001000
+Epoch 453, weight, value: tensor([[-0.3285,  0.2636, -0.0327,  ..., -0.1738,  0.0125, -0.0006],
+        [ 0.0065, -0.1763, -0.0302,  ...,  0.0526, -0.0778, -0.0990],
+        [-0.2691, -0.3240,  0.0584,  ..., -0.1577, -0.0823, -0.2564],
+        ...,
+        [ 0.0890,  0.2056, -0.1077,  ..., -0.1874,  0.0900,  0.1002],
+        [ 0.0291, -0.2222, -0.0706,  ..., -0.1675, -0.1344, -0.1287],
+        [-0.3156, -0.1002, -0.0735,  ...,  0.1111, -0.3509,  0.1215]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.4925e-10,
+          0.0000e+00,  1.1642e-10],
+        [-1.2573e-08,  9.3132e-10,  0.0000e+00,  ...,  6.9849e-10,
+          9.3132e-10,  2.4447e-09],
+        [ 1.2922e-08,  1.1642e-10,  0.0000e+00,  ...,  1.1642e-10,
+          2.3283e-10,  4.6566e-10],
+        ...,
+        [-2.4913e-08, -3.3760e-08,  0.0000e+00,  ..., -8.4983e-09,
+         -2.7241e-08, -8.3004e-08],
+        [ 3.4925e-10,  3.4925e-10,  0.0000e+00,  ...,  4.6566e-10,
+          3.4925e-10,  8.1491e-10],
+        [ 2.6659e-08,  3.1898e-08,  0.0000e+00,  ...,  1.1758e-08,
+          2.5728e-08,  7.7882e-08]], device='cuda:0')
+Epoch 453, bias, value: tensor([ 0.0193, -0.0323,  0.0209, -0.0284,  0.0406,  0.0166, -0.0009, -0.0069,
+        -0.0239, -0.0156], device='cuda:0'), grad: tensor([ 1.8626e-09, -1.9511e-07,  1.8370e-07, -8.1491e-10, -9.1968e-09,
+        -4.6799e-08,  5.4017e-08, -2.5122e-07,  8.1491e-10,  2.7055e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 452, time 220.92, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4507 re_mapping 0.0019 re_causal 0.0072 /// teacc 99.16 lr 0.00001000
+Epoch 454, weight, value: tensor([[-0.3285,  0.2637, -0.0327,  ..., -0.1740,  0.0125, -0.0007],
+        [ 0.0066, -0.1763, -0.0302,  ...,  0.0525, -0.0779, -0.0990],
+        [-0.2692, -0.3241,  0.0584,  ..., -0.1578, -0.0824, -0.2565],
+        ...,
+        [ 0.0891,  0.2056, -0.1077,  ..., -0.1874,  0.0901,  0.1002],
+        [ 0.0291, -0.2222, -0.0706,  ..., -0.1676, -0.1345, -0.1288],
+        [-0.3157, -0.1002, -0.0735,  ...,  0.1111, -0.3511,  0.1216]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          1.1642e-10,  1.1642e-10],
+        [ 8.1491e-10,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          1.1642e-10,  5.8208e-10],
+        [ 1.1642e-10,  0.0000e+00,  0.0000e+00,  ...,  1.1642e-10,
+          2.3283e-10,  2.3283e-10],
+        ...,
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  2.0955e-09,
+          1.1642e-10,  1.7462e-09],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  5.8208e-10,
+          1.6298e-09,  1.6298e-09],
+        [ 1.2340e-08,  3.4925e-10,  0.0000e+00,  ...,  1.3970e-08,
+          0.0000e+00, -6.1700e-09]], device='cuda:0')
+Epoch 454, bias, value: tensor([ 0.0192, -0.0323,  0.0209, -0.0284,  0.0406,  0.0166, -0.0009, -0.0069,
+        -0.0239, -0.0156], device='cuda:0'), grad: tensor([ 1.1642e-09,  7.3342e-09, -1.8626e-09, -1.1409e-08, -5.6461e-08,
+         3.3760e-09,  3.0268e-09,  7.9162e-09,  1.3737e-08,  4.1095e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 453, time 220.52, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.3999 re_mapping 0.0019 re_causal 0.0070 /// teacc 99.14 lr 0.00001000
+Epoch 455, weight, value: tensor([[-0.3286,  0.2638, -0.0327,  ..., -0.1741,  0.0125, -0.0007],
+        [ 0.0066, -0.1763, -0.0302,  ...,  0.0525, -0.0780, -0.0991],
+        [-0.2693, -0.3241,  0.0585,  ..., -0.1578, -0.0824, -0.2566],
+        ...,
+        [ 0.0891,  0.2056, -0.1078,  ..., -0.1874,  0.0902,  0.1003],
+        [ 0.0291, -0.2223, -0.0706,  ..., -0.1677, -0.1345, -0.1288],
+        [-0.3159, -0.1003, -0.0735,  ...,  0.1111, -0.3511,  0.1216]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  1.1642e-09,  0.0000e+00,  ...,  1.1642e-10,
+          2.3283e-10,  1.3970e-09],
+        [ 3.6205e-08,  4.5402e-08,  2.3283e-10,  ...,  5.8208e-10,
+          1.7462e-09,  4.3889e-08],
+        [ 6.9849e-10,  9.3132e-10, -1.1642e-10,  ...,  2.3283e-10,
+          1.8626e-09,  2.4447e-09],
+        ...,
+        [-4.4936e-08, -5.6112e-08, -1.0477e-09,  ...,  2.9104e-09,
+          1.4203e-08, -4.3889e-08],
+        [ 8.1491e-10,  1.0477e-09,  0.0000e+00,  ...,  4.6566e-10,
+          2.6193e-08,  2.7474e-08],
+        [ 4.1910e-09,  4.0745e-09,  5.8208e-10,  ..., -4.4238e-09,
+          3.1432e-09,  2.2119e-09]], device='cuda:0')
+Epoch 455, bias, value: tensor([ 0.0191, -0.0323,  0.0209, -0.0284,  0.0407,  0.0166, -0.0009, -0.0069,
+        -0.0239, -0.0156], device='cuda:0'), grad: tensor([ 7.5670e-09,  2.4191e-07, -7.1246e-08, -1.9674e-07,  1.2107e-08,
+         3.0734e-08,  4.6566e-10, -1.4354e-07,  1.2666e-07,  8.0327e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 454, time 220.70, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.3946 re_mapping 0.0020 re_causal 0.0071 /// teacc 99.11 lr 0.00001000
+Epoch 456, weight, value: tensor([[-0.3286,  0.2639, -0.0327,  ..., -0.1742,  0.0125, -0.0007],
+        [ 0.0065, -0.1763, -0.0302,  ...,  0.0525, -0.0780, -0.0992],
+        [-0.2694, -0.3242,  0.0585,  ..., -0.1578, -0.0825, -0.2567],
+        ...,
+        [ 0.0892,  0.2056, -0.1078,  ..., -0.1876,  0.0901,  0.1002],
+        [ 0.0291, -0.2223, -0.0706,  ..., -0.1678, -0.1346, -0.1289],
+        [-0.3160, -0.1003, -0.0735,  ...,  0.1111, -0.3512,  0.1217]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  3.4925e-10,
+          3.4925e-10,  8.1491e-10],
+        [-4.8894e-09, -2.3283e-10,  0.0000e+00,  ..., -6.9849e-10,
+          4.6566e-10,  1.5134e-09],
+        [ 2.3283e-10,  1.1642e-10,  0.0000e+00,  ...,  2.3283e-10,
+          8.1491e-10,  1.3970e-09],
+        ...,
+        [ 3.0268e-09,  2.3283e-10,  0.0000e+00,  ...,  5.4715e-09,
+          2.3283e-10,  7.7998e-09],
+        [ 1.6298e-09,  2.3283e-10,  0.0000e+00,  ...,  6.9849e-10,
+          3.4925e-10,  1.1642e-09],
+        [ 2.5611e-09,  2.3283e-10,  0.0000e+00,  ..., -1.8626e-08,
+          4.6566e-10, -2.1304e-08]], device='cuda:0')
+Epoch 456, bias, value: tensor([ 0.0191, -0.0324,  0.0209, -0.0283,  0.0407,  0.0165, -0.0009, -0.0069,
+        -0.0240, -0.0155], device='cuda:0'), grad: tensor([ 6.4028e-09, -1.6182e-08,  8.9640e-09, -6.2282e-08,  3.3062e-08,
+         4.2841e-08,  3.0268e-09,  3.6554e-08,  9.5461e-09, -4.8778e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 455, time 220.67, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4308 re_mapping 0.0020 re_causal 0.0072 /// teacc 99.16 lr 0.00001000
+Epoch 457, weight, value: tensor([[-0.3286,  0.2640, -0.0327,  ..., -0.1743,  0.0125, -0.0007],
+        [ 0.0065, -0.1763, -0.0302,  ...,  0.0525, -0.0780, -0.0992],
+        [-0.2695, -0.3243,  0.0585,  ..., -0.1579, -0.0826, -0.2569],
+        ...,
+        [ 0.0893,  0.2057, -0.1078,  ..., -0.1877,  0.0902,  0.1002],
+        [ 0.0291, -0.2223, -0.0706,  ..., -0.1679, -0.1346, -0.1289],
+        [-0.3161, -0.1003, -0.0735,  ...,  0.1112, -0.3512,  0.1217]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-10,  0.0000e+00,  0.0000e+00,  ...,  1.1642e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 3.4925e-10,  1.1642e-10,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [-5.8208e-10, -6.9849e-10,  0.0000e+00,  ...,  3.4925e-10,
+         -2.3283e-10, -9.3132e-10],
+        [ 3.4925e-10,  0.0000e+00,  0.0000e+00,  ...,  1.1642e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 5.9372e-09,  4.6566e-10,  0.0000e+00,  ...,  7.5670e-09,
+          1.1642e-10,  5.8208e-10]], device='cuda:0')
+Epoch 457, bias, value: tensor([ 0.0191, -0.0324,  0.0209, -0.0284,  0.0407,  0.0166, -0.0009, -0.0070,
+        -0.0240, -0.0155], device='cuda:0'), grad: tensor([ 8.1491e-10,  1.7462e-09,  1.0477e-09,  2.7940e-09, -2.1770e-08,
+        -3.0966e-08,  2.6077e-08, -1.9791e-09,  2.2119e-09,  2.6077e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 456, time 220.35, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4332 re_mapping 0.0020 re_causal 0.0073 /// teacc 99.14 lr 0.00001000
+Epoch 458, weight, value: tensor([[-0.3286,  0.2642, -0.0327,  ..., -0.1744,  0.0125, -0.0008],
+        [ 0.0065, -0.1764, -0.0302,  ...,  0.0526, -0.0781, -0.0993],
+        [-0.2695, -0.3244,  0.0585,  ..., -0.1579, -0.0827, -0.2571],
+        ...,
+        [ 0.0894,  0.2057, -0.1078,  ..., -0.1877,  0.0902,  0.1003],
+        [ 0.0291, -0.2224, -0.0706,  ..., -0.1680, -0.1347, -0.1290],
+        [-0.3163, -0.1003, -0.0735,  ...,  0.1112, -0.3513,  0.1218]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.1642e-10,  2.3283e-10],
+        [ 1.2806e-09,  2.3283e-09,  0.0000e+00,  ...,  3.4925e-10,
+          8.1491e-10,  2.7940e-09],
+        [ 8.1491e-10,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          6.9849e-10,  2.4447e-09],
+        ...,
+        [-4.0745e-09, -9.8953e-09,  0.0000e+00,  ...,  2.3283e-10,
+         -2.2119e-09, -1.0827e-08],
+        [ 9.3132e-10,  2.2119e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.2806e-09,  3.2596e-09],
+        [ 1.3970e-09,  2.6776e-09,  0.0000e+00,  ...,  5.8208e-10,
+          1.1642e-09,  3.4925e-09]], device='cuda:0')
+Epoch 458, bias, value: tensor([ 0.0191, -0.0324,  0.0209, -0.0283,  0.0407,  0.0166, -0.0009, -0.0069,
+        -0.0240, -0.0155], device='cuda:0'), grad: tensor([ 6.9849e-10,  1.2689e-08,  8.9640e-09,  8.2888e-08,  1.5134e-09,
+        -9.5111e-08,  8.3819e-09, -3.7951e-08,  1.4901e-08,  1.3388e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 457, time 220.27, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4232 re_mapping 0.0019 re_causal 0.0071 /// teacc 99.13 lr 0.00001000
+Epoch 459, weight, value: tensor([[-0.3286,  0.2643, -0.0327,  ..., -0.1745,  0.0125, -0.0008],
+        [ 0.0065, -0.1764, -0.0302,  ...,  0.0526, -0.0781, -0.0993],
+        [-0.2696, -0.3245,  0.0585,  ..., -0.1579, -0.0828, -0.2571],
+        ...,
+        [ 0.0894,  0.2057, -0.1078,  ..., -0.1878,  0.0902,  0.1002],
+        [ 0.0290, -0.2225, -0.0706,  ..., -0.1681, -0.1347, -0.1291],
+        [-0.3164, -0.1003, -0.0735,  ...,  0.1112, -0.3513,  0.1218]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.9791e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 3.4925e-10,  3.4925e-10,  0.0000e+00,  ...,  6.9849e-10,
+          1.1642e-10,  2.3283e-10],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  1.1642e-10,
+          2.3283e-10,  3.4925e-10],
+        ...,
+        [ 6.9849e-10,  2.3283e-10,  0.0000e+00,  ...,  1.8626e-09,
+          1.1642e-10,  1.0477e-09],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  3.4925e-10,
+          1.1642e-10,  2.3283e-10],
+        [ 5.3551e-09,  1.2806e-09,  0.0000e+00,  ...,  8.1491e-09,
+          1.1642e-10, -8.1491e-10]], device='cuda:0')
+Epoch 459, bias, value: tensor([ 0.0190, -0.0324,  0.0209, -0.0283,  0.0407,  0.0165, -0.0008, -0.0070,
+        -0.0240, -0.0155], device='cuda:0'), grad: tensor([-2.4447e-09,  1.5600e-08, -1.2689e-08,  1.6531e-08, -3.0617e-08,
+         0.0000e+00,  6.1700e-09,  9.4296e-09, -1.7695e-08,  2.7125e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 458, time 220.81, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4068 re_mapping 0.0019 re_causal 0.0070 /// teacc 99.13 lr 0.00001000
+Epoch 460, weight, value: tensor([[-0.3286,  0.2644, -0.0327,  ..., -0.1746,  0.0125, -0.0008],
+        [ 0.0066, -0.1764, -0.0302,  ...,  0.0526, -0.0782, -0.0994],
+        [-0.2697, -0.3246,  0.0585,  ..., -0.1580, -0.0829, -0.2573],
+        ...,
+        [ 0.0895,  0.2058, -0.1078,  ..., -0.1879,  0.0903,  0.1003],
+        [ 0.0290, -0.2225, -0.0706,  ..., -0.1682, -0.1347, -0.1292],
+        [-0.3165, -0.1004, -0.0735,  ...,  0.1113, -0.3514,  0.1219]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  8.1491e-10],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  2.6776e-09,
+          1.1642e-10,  2.3283e-09],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  1.1642e-09,
+          2.3283e-10,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.6357e-09,
+          0.0000e+00,  5.8208e-09],
+        [-3.4925e-10,  0.0000e+00,  0.0000e+00,  ...,  8.8476e-09,
+          1.1642e-10,  7.6834e-09],
+        [ 6.9849e-10,  0.0000e+00,  0.0000e+00,  ..., -5.5996e-08,
+          0.0000e+00, -4.9826e-08]], device='cuda:0')
+Epoch 460, bias, value: tensor([ 0.0190, -0.0324,  0.0209, -0.0283,  0.0407,  0.0165, -0.0008, -0.0070,
+        -0.0240, -0.0155], device='cuda:0'), grad: tensor([ 1.7113e-08,  7.3458e-08, -1.1560e-07,  4.5868e-08,  1.8510e-07,
+         6.1700e-09,  2.2119e-09,  3.4575e-08,  4.0163e-08, -2.7241e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 459, time 220.46, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.3943 re_mapping 0.0020 re_causal 0.0071 /// teacc 99.15 lr 0.00001000
+Epoch 461, weight, value: tensor([[-0.3286,  0.2645, -0.0327,  ..., -0.1747,  0.0125, -0.0008],
+        [ 0.0066, -0.1764, -0.0302,  ...,  0.0527, -0.0783, -0.0995],
+        [-0.2698, -0.3247,  0.0585,  ..., -0.1580, -0.0829, -0.2574],
+        ...,
+        [ 0.0896,  0.2058, -0.1078,  ..., -0.1879,  0.0903,  0.1003],
+        [ 0.0290, -0.2225, -0.0707,  ..., -0.1683, -0.1348, -0.1292],
+        [-0.3166, -0.1004, -0.0735,  ...,  0.1113, -0.3514,  0.1219]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.3283e-10,  5.8208e-10,  ...,  1.6298e-09,
+          0.0000e+00,  1.1642e-10],
+        [ 2.3283e-09,  4.6566e-10,  1.0477e-09,  ...,  3.9581e-09,
+          1.1642e-10,  6.9849e-10],
+        [ 1.1642e-10,  1.1642e-10,  2.3283e-10,  ...,  6.9849e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 3.4925e-10, -6.9849e-10,  0.0000e+00,  ...,  1.6298e-09,
+         -1.1642e-10, -4.6566e-10],
+        [ 0.0000e+00,  1.1642e-10,  1.1642e-10,  ...,  5.8208e-10,
+          1.1642e-10,  1.1642e-10],
+        [ 4.6566e-10,  4.6566e-10,  1.1642e-10,  ..., -6.9849e-10,
+          1.1642e-10, -5.8208e-10]], device='cuda:0')
+Epoch 461, bias, value: tensor([ 0.0190, -0.0325,  0.0210, -0.0283,  0.0407,  0.0165, -0.0008, -0.0070,
+        -0.0241, -0.0155], device='cuda:0'), grad: tensor([ 6.0536e-09,  9.4296e-09,  3.2596e-09,  1.1642e-10,  1.0361e-08,
+         1.9791e-09, -2.8405e-08,  4.4238e-09,  2.7940e-09, -4.6566e-10],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 460, time 220.38, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4331 re_mapping 0.0020 re_causal 0.0074 /// teacc 99.18 lr 0.00001000
+Epoch 462, weight, value: tensor([[-0.3286,  0.2646, -0.0327,  ..., -0.1748,  0.0125, -0.0009],
+        [ 0.0066, -0.1764, -0.0302,  ...,  0.0526, -0.0783, -0.0995],
+        [-0.2699, -0.3248,  0.0585,  ..., -0.1580, -0.0830, -0.2575],
+        ...,
+        [ 0.0897,  0.2059, -0.1078,  ..., -0.1879,  0.0904,  0.1003],
+        [ 0.0290, -0.2226, -0.0707,  ..., -0.1683, -0.1348, -0.1293],
+        [-0.3167, -0.1005, -0.0735,  ...,  0.1113, -0.3515,  0.1219]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  1.1642e-10],
+        [ 4.6566e-10,  2.3283e-10,  0.0000e+00,  ..., -8.1491e-09,
+          0.0000e+00,  2.0955e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.9849e-10,
+          0.0000e+00,  1.1642e-10],
+        ...,
+        [-8.2655e-09, -2.5611e-09,  0.0000e+00,  ..., -3.7253e-09,
+          0.0000e+00, -2.3516e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.9849e-10,
+          0.0000e+00,  1.1642e-10],
+        [ 2.7940e-09,  1.1642e-09,  0.0000e+00,  ..., -4.3074e-09,
+          0.0000e+00,  2.3283e-09]], device='cuda:0')
+Epoch 462, bias, value: tensor([ 0.0189, -0.0325,  0.0210, -0.0283,  0.0407,  0.0165, -0.0008, -0.0069,
+        -0.0241, -0.0155], device='cuda:0'), grad: tensor([ 1.6298e-09, -2.8405e-08,  8.2655e-09,  2.1420e-08,  5.0757e-08,
+         4.2957e-08,  4.6683e-08, -4.8894e-08, -1.1176e-07,  3.0384e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 461, time 220.37, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4393 re_mapping 0.0020 re_causal 0.0074 /// teacc 99.19 lr 0.00001000
+Epoch 463, weight, value: tensor([[-0.3286,  0.2648, -0.0327,  ..., -0.1749,  0.0125, -0.0009],
+        [ 0.0066, -0.1765, -0.0302,  ...,  0.0527, -0.0785, -0.0996],
+        [-0.2700, -0.3248,  0.0585,  ..., -0.1581, -0.0831, -0.2576],
+        ...,
+        [ 0.0899,  0.2059, -0.1078,  ..., -0.1880,  0.0906,  0.1003],
+        [ 0.0289, -0.2226, -0.0707,  ..., -0.1684, -0.1348, -0.1293],
+        [-0.3169, -0.1006, -0.0735,  ...,  0.1113, -0.3516,  0.1220]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -9.7789e-09,  0.0000e+00,  ...,  1.1642e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 5.8208e-10,  8.1491e-10,  2.3283e-10,  ...,  4.6566e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 2.3283e-10,  6.9849e-10,  0.0000e+00,  ...,  2.3283e-10,
+          1.1642e-10,  3.4925e-10],
+        ...,
+        [-5.8208e-10, -1.8626e-09,  5.8208e-10,  ...,  2.7940e-09,
+         -3.4925e-10, -9.3132e-10],
+        [ 1.1642e-10,  3.4925e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  3.4925e-10],
+        [ 1.8626e-09,  8.6147e-09,  2.3283e-10,  ..., -2.5611e-09,
+          2.3283e-10, -8.1491e-10]], device='cuda:0')
+Epoch 463, bias, value: tensor([ 0.0189, -0.0325,  0.0210, -0.0283,  0.0407,  0.0165, -0.0008, -0.0069,
+        -0.0242, -0.0155], device='cuda:0'), grad: tensor([-2.7241e-08,  8.3819e-09, -2.3283e-10,  6.9849e-10,  1.5134e-09,
+         3.6089e-09,  8.1491e-10,  1.1642e-09,  2.6776e-09,  1.9558e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 462, time 220.41, cls_loss 0.0003 cls_loss_mapping 0.0002 cls_loss_causal 0.4358 re_mapping 0.0019 re_causal 0.0074 /// teacc 99.16 lr 0.00001000
+Epoch 464, weight, value: tensor([[-0.3286,  0.2649, -0.0327,  ..., -0.1749,  0.0125, -0.0009],
+        [ 0.0066, -0.1765, -0.0302,  ...,  0.0527, -0.0785, -0.0996],
+        [-0.2701, -0.3249,  0.0585,  ..., -0.1581, -0.0831, -0.2577],
+        ...,
+        [ 0.0900,  0.2060, -0.1078,  ..., -0.1880,  0.0906,  0.1004],
+        [ 0.0289, -0.2227, -0.0707,  ..., -0.1685, -0.1349, -0.1294],
+        [-0.3169, -0.1007, -0.0736,  ...,  0.1113, -0.3516,  0.1220]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -4.0047e-08,  0.0000e+00,  ..., -2.9104e-09,
+         -8.1491e-10, -2.3283e-10],
+        [ 2.3283e-10,  3.3760e-09,  0.0000e+00,  ...,  3.4925e-10,
+          2.3283e-10,  4.6566e-10],
+        [ 1.1642e-10,  3.3760e-09,  0.0000e+00,  ...,  3.4925e-10,
+          3.4925e-10,  4.6566e-10],
+        ...,
+        [ 1.1642e-10,  1.1642e-09,  0.0000e+00,  ...,  5.8208e-10,
+          1.1642e-10,  8.1491e-10],
+        [-4.6566e-10,  1.0710e-08,  0.0000e+00,  ...,  1.0477e-09,
+          2.3283e-10,  2.3283e-10],
+        [ 4.6566e-10,  1.2456e-08,  0.0000e+00,  ..., -1.9791e-09,
+          4.6566e-10, -3.2596e-09]], device='cuda:0')
+Epoch 464, bias, value: tensor([ 0.0190, -0.0325,  0.0210, -0.0283,  0.0407,  0.0165, -0.0008, -0.0069,
+        -0.0241, -0.0155], device='cuda:0'), grad: tensor([-9.2434e-08,  1.5134e-08,  7.1013e-09,  6.6357e-09,  3.6089e-09,
+         3.4925e-09,  1.4319e-08,  8.6147e-09,  1.5250e-08,  2.4564e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 463, time 220.47, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4224 re_mapping 0.0020 re_causal 0.0072 /// teacc 99.15 lr 0.00001000
+Epoch 465, weight, value: tensor([[-0.3286,  0.2651, -0.0327,  ..., -0.1750,  0.0125, -0.0009],
+        [ 0.0065, -0.1765, -0.0302,  ...,  0.0527, -0.0785, -0.0997],
+        [-0.2701, -0.3250,  0.0585,  ..., -0.1581, -0.0831, -0.2578],
+        ...,
+        [ 0.0901,  0.2061, -0.1078,  ..., -0.1880,  0.0907,  0.1004],
+        [ 0.0290, -0.2227, -0.0707,  ..., -0.1685, -0.1349, -0.1294],
+        [-0.3170, -0.1008, -0.0736,  ...,  0.1113, -0.3517,  0.1220]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.4925e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10,  3.4925e-10,  0.0000e+00,  ...,  4.6566e-10,
+          1.1642e-10,  5.8208e-10],
+        [ 3.4925e-10,  5.8208e-10,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  6.9849e-10],
+        ...,
+        [-4.6566e-10, -6.9849e-10,  0.0000e+00,  ...,  5.8208e-10,
+          0.0000e+00, -5.8208e-10],
+        [ 1.1642e-10,  2.3283e-10,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  1.1642e-10],
+        [ 1.1642e-10,  6.9849e-10,  0.0000e+00,  ...,  1.1642e-10,
+          0.0000e+00,  2.3283e-10]], device='cuda:0')
+Epoch 465, bias, value: tensor([ 0.0190, -0.0325,  0.0209, -0.0283,  0.0407,  0.0165, -0.0008, -0.0069,
+        -0.0241, -0.0155], device='cuda:0'), grad: tensor([ 2.2119e-09,  5.8208e-09,  6.8685e-09,  7.7998e-09,  3.6089e-09,
+         6.1700e-09, -5.9372e-09, -4.6566e-09, -1.2573e-08,  3.2596e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 464, time 220.50, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4197 re_mapping 0.0020 re_causal 0.0073 /// teacc 99.16 lr 0.00001000
+Epoch 466, weight, value: tensor([[-0.3286,  0.2654, -0.0327,  ..., -0.1750,  0.0125, -0.0009],
+        [ 0.0065, -0.1766, -0.0302,  ...,  0.0527, -0.0786, -0.0998],
+        [-0.2702, -0.3251,  0.0585,  ..., -0.1581, -0.0832, -0.2579],
+        ...,
+        [ 0.0901,  0.2061, -0.1078,  ..., -0.1882,  0.0907,  0.1004],
+        [ 0.0290, -0.2228, -0.0707,  ..., -0.1686, -0.1349, -0.1295],
+        [-0.3171, -0.1008, -0.0736,  ...,  0.1114, -0.3518,  0.1221]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  6.9849e-10,  0.0000e+00,  ..., -5.8208e-10,
+          0.0000e+00,  1.1642e-10],
+        [ 0.0000e+00,  1.1642e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.1642e-10],
+        ...,
+        [ 1.1642e-10,  0.0000e+00,  0.0000e+00,  ...,  5.8208e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 3.4925e-10,  1.1642e-10,  0.0000e+00,  ...,  0.0000e+00,
+          1.1642e-10,  1.1642e-10],
+        [ 1.6298e-09,  6.9849e-10,  0.0000e+00,  ...,  1.1642e-09,
+          0.0000e+00,  1.1642e-10]], device='cuda:0')
+Epoch 466, bias, value: tensor([ 0.0191, -0.0325,  0.0209, -0.0283,  0.0406,  0.0165, -0.0008, -0.0069,
+        -0.0241, -0.0155], device='cuda:0'), grad: tensor([ 1.2806e-09,  8.2306e-08, -8.2538e-08,  1.2224e-08, -1.6298e-09,
+        -4.6799e-08,  2.4098e-08,  4.4238e-09,  6.4028e-09,  1.2806e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 465, time 220.66, cls_loss 0.0003 cls_loss_mapping 0.0002 cls_loss_causal 0.4251 re_mapping 0.0019 re_causal 0.0072 /// teacc 99.14 lr 0.00001000
+Epoch 467, weight, value: tensor([[-0.3286,  0.2656, -0.0327,  ..., -0.1751,  0.0125, -0.0009],
+        [ 0.0065, -0.1766, -0.0302,  ...,  0.0527, -0.0786, -0.0998],
+        [-0.2703, -0.3251,  0.0585,  ..., -0.1582, -0.0833, -0.2580],
+        ...,
+        [ 0.0902,  0.2061, -0.1078,  ..., -0.1882,  0.0908,  0.1004],
+        [ 0.0290, -0.2228, -0.0707,  ..., -0.1686, -0.1349, -0.1295],
+        [-0.3171, -0.1009, -0.0736,  ...,  0.1114, -0.3518,  0.1221]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.1642e-10,  1.1642e-10],
+        [ 1.1642e-10,  8.1491e-10,  3.4925e-10,  ..., -3.4925e-10,
+          3.0268e-09,  2.9104e-09],
+        [ 4.6566e-10,  9.3132e-10, -3.3760e-09,  ...,  4.6566e-10,
+          2.9104e-09,  3.6089e-09],
+        ...,
+        [-1.6298e-09, -4.0745e-09,  3.0268e-09,  ...,  5.8208e-10,
+          2.4447e-09, -3.4925e-10],
+        [ 2.3283e-10,  3.4925e-10,  0.0000e+00,  ...,  4.6566e-10,
+          5.8208e-10,  5.8208e-10],
+        [ 1.0477e-09,  2.2119e-09,  0.0000e+00,  ...,  1.1642e-10,
+          1.0477e-09,  1.8626e-09]], device='cuda:0')
+Epoch 467, bias, value: tensor([ 0.0192, -0.0325,  0.0210, -0.0283,  0.0406,  0.0165, -0.0008, -0.0069,
+        -0.0241, -0.0155], device='cuda:0'), grad: tensor([ 1.2806e-09,  2.7008e-08, -5.8208e-08, -6.1584e-08,  2.2119e-09,
+         1.3853e-08,  8.4983e-09,  6.2981e-08,  6.5193e-09,  8.9640e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 466, time 220.45, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4385 re_mapping 0.0019 re_causal 0.0074 /// teacc 99.17 lr 0.00001000
+Epoch 468, weight, value: tensor([[-0.3286,  0.2658, -0.0327,  ..., -0.1752,  0.0125, -0.0009],
+        [ 0.0065, -0.1766, -0.0302,  ...,  0.0527, -0.0787, -0.0998],
+        [-0.2703, -0.3252,  0.0586,  ..., -0.1582, -0.0833, -0.2581],
+        ...,
+        [ 0.0902,  0.2061, -0.1078,  ..., -0.1882,  0.0908,  0.1004],
+        [ 0.0289, -0.2228, -0.0707,  ..., -0.1687, -0.1349, -0.1296],
+        [-0.3172, -0.1010, -0.0736,  ...,  0.1114, -0.3518,  0.1221]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.3970e-09,  0.0000e+00,  ...,  1.1642e-10,
+          0.0000e+00,  3.4925e-10],
+        [ 1.9325e-08,  2.5262e-08,  2.3283e-10,  ...,  3.3760e-09,
+          0.0000e+00,  4.5286e-08],
+        [ 1.0477e-09,  1.2806e-09,  0.0000e+00,  ...,  1.1642e-10,
+          0.0000e+00,  2.0955e-09],
+        ...,
+        [-2.0023e-08, -2.8987e-08,  0.0000e+00,  ...,  1.0594e-08,
+          0.0000e+00, -3.7951e-08],
+        [ 3.4925e-10,  5.8208e-10,  0.0000e+00,  ...,  1.1642e-10,
+          0.0000e+00,  8.1491e-10],
+        [ 3.0268e-09,  2.4447e-09,  0.0000e+00,  ..., -1.0827e-08,
+          0.0000e+00, -1.4435e-08]], device='cuda:0')
+Epoch 468, bias, value: tensor([ 0.0192, -0.0325,  0.0210, -0.0284,  0.0406,  0.0165, -0.0007, -0.0070,
+        -0.0241, -0.0155], device='cuda:0'), grad: tensor([-2.5611e-09,  1.7288e-07,  1.0943e-08,  5.4715e-09, -1.1758e-08,
+         4.6566e-10,  5.8208e-09, -1.5192e-07,  4.3074e-09, -2.3632e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 467, time 220.91, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.3981 re_mapping 0.0019 re_causal 0.0069 /// teacc 99.16 lr 0.00001000
+Epoch 469, weight, value: tensor([[-0.3286,  0.2659, -0.0327,  ..., -0.1753,  0.0125, -0.0009],
+        [ 0.0065, -0.1766, -0.0302,  ...,  0.0528, -0.0787, -0.0998],
+        [-0.2704, -0.3253,  0.0586,  ..., -0.1583, -0.0834, -0.2581],
+        ...,
+        [ 0.0902,  0.2062, -0.1078,  ..., -0.1883,  0.0908,  0.1004],
+        [ 0.0289, -0.2229, -0.0707,  ..., -0.1688, -0.1350, -0.1296],
+        [-0.3174, -0.1010, -0.0736,  ...,  0.1114, -0.3518,  0.1222]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.2387e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 4.3074e-09,  2.6776e-09,  0.0000e+00,  ...,  1.1642e-10,
+          1.1642e-10,  2.0955e-09],
+        [ 2.3283e-10,  1.1642e-10,  0.0000e+00,  ...,  3.4925e-10,
+          0.0000e+00,  1.1642e-10],
+        ...,
+        [-3.3760e-09, -2.2119e-09,  0.0000e+00,  ...,  3.4925e-10,
+          0.0000e+00, -1.6298e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  1.1642e-10],
+        [ 4.6566e-10,  3.4925e-10,  0.0000e+00,  ..., -3.4925e-09,
+          2.3283e-10, -2.3283e-09]], device='cuda:0')
+Epoch 469, bias, value: tensor([ 0.0192, -0.0325,  0.0210, -0.0284,  0.0406,  0.0165, -0.0007, -0.0070,
+        -0.0241, -0.0155], device='cuda:0'), grad: tensor([ 2.9104e-08,  1.9209e-08,  3.2596e-09,  6.9849e-10,  1.3388e-08,
+         1.5949e-08, -4.8778e-08, -8.7311e-09,  3.9581e-09, -6.2864e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 468, time 221.11, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4220 re_mapping 0.0019 re_causal 0.0069 /// teacc 99.19 lr 0.00001000
+Epoch 470, weight, value: tensor([[-0.3287,  0.2661, -0.0327,  ..., -0.1753,  0.0125, -0.0009],
+        [ 0.0065, -0.1766, -0.0302,  ...,  0.0529, -0.0787, -0.0999],
+        [-0.2705, -0.3254,  0.0586,  ..., -0.1584, -0.0834, -0.2582],
+        ...,
+        [ 0.0903,  0.2062, -0.1078,  ..., -0.1883,  0.0909,  0.1004],
+        [ 0.0290, -0.2229, -0.0707,  ..., -0.1688, -0.1350, -0.1297],
+        [-0.3175, -0.1011, -0.0736,  ...,  0.1114, -0.3519,  0.1222]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.7462e-10,
+          5.8208e-11,  2.3283e-10],
+        [ 1.1642e-10,  4.0745e-10,  5.8208e-11,  ...,  1.7462e-10,
+          5.8208e-10,  2.2119e-09],
+        [ 4.6566e-10,  6.9849e-10, -2.4447e-09,  ...,  2.3283e-10,
+          2.2701e-09,  2.8522e-09],
+        ...,
+        [-4.1910e-09, -8.7311e-10,  5.8208e-11,  ...,  1.9209e-09,
+         -2.2701e-09, -8.2073e-09],
+        [ 1.1642e-10,  1.1642e-10,  1.8626e-09,  ...,  2.9104e-10,
+          3.4925e-10,  5.8208e-10],
+        [ 3.6089e-09,  4.6566e-10,  1.7462e-10,  ..., -1.3097e-08,
+          3.1432e-09, -9.0804e-09]], device='cuda:0')
+Epoch 470, bias, value: tensor([ 0.0193, -0.0325,  0.0209, -0.0284,  0.0407,  0.0165, -0.0007, -0.0070,
+        -0.0241, -0.0156], device='cuda:0'), grad: tensor([ 2.6193e-09,  2.7416e-08, -4.5868e-08, -1.5367e-08,  1.1409e-08,
+         4.2783e-08, -5.5879e-09, -7.5088e-09,  2.7183e-08, -3.1316e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 469, time 220.73, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4155 re_mapping 0.0019 re_causal 0.0070 /// teacc 99.18 lr 0.00001000
+Epoch 471, weight, value: tensor([[-0.3287,  0.2664, -0.0327,  ..., -0.1754,  0.0125, -0.0009],
+        [ 0.0066, -0.1766, -0.0302,  ...,  0.0529, -0.0788, -0.0999],
+        [-0.2705, -0.3254,  0.0586,  ..., -0.1584, -0.0834, -0.2583],
+        ...,
+        [ 0.0903,  0.2063, -0.1078,  ..., -0.1884,  0.0909,  0.1005],
+        [ 0.0291, -0.2230, -0.0707,  ..., -0.1689, -0.1350, -0.1297],
+        [-0.3177, -0.1012, -0.0736,  ...,  0.1115, -0.3520,  0.1222]],
+       device='cuda:0'), grad: tensor([[ 5.8208e-11, -2.5029e-09,  0.0000e+00,  ...,  2.3283e-10,
+         -5.8208e-11,  1.7462e-10],
+        [ 8.1491e-10,  5.8208e-10,  0.0000e+00,  ...,  5.8208e-10,
+          3.4925e-10,  1.1059e-09],
+        [ 5.2387e-10,  5.8208e-10,  0.0000e+00,  ...,  1.7462e-10,
+          0.0000e+00,  5.8208e-10],
+        ...,
+        [-1.3388e-09, -9.8953e-10,  0.0000e+00,  ...,  4.5402e-09,
+         -1.0477e-09, -3.4925e-10],
+        [-8.1491e-10,  5.8208e-10,  0.0000e+00,  ...,  4.6566e-10,
+          1.7462e-10,  9.3132e-10],
+        [ 1.2224e-09,  7.5670e-10,  0.0000e+00,  ..., -5.4715e-09,
+          5.8208e-10, -3.8417e-09]], device='cuda:0')
+Epoch 471, bias, value: tensor([ 0.0195, -0.0325,  0.0210, -0.0284,  0.0407,  0.0164, -0.0007, -0.0070,
+        -0.0240, -0.0156], device='cuda:0'), grad: tensor([-6.0536e-09,  8.2073e-09,  2.1537e-09, -8.1491e-10,  3.5507e-09,
+         1.1001e-08,  4.1910e-09,  3.3760e-09, -9.6625e-09,  1.1642e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 470, time 220.55, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4205 re_mapping 0.0019 re_causal 0.0070 /// teacc 99.16 lr 0.00001000
+Epoch 472, weight, value: tensor([[-0.3287,  0.2666, -0.0327,  ..., -0.1754,  0.0125, -0.0009],
+        [ 0.0066, -0.1767, -0.0302,  ...,  0.0530, -0.0789, -0.1000],
+        [-0.2706, -0.3255,  0.0586,  ..., -0.1585, -0.0835, -0.2584],
+        ...,
+        [ 0.0904,  0.2063, -0.1078,  ..., -0.1884,  0.0910,  0.1005],
+        [ 0.0291, -0.2230, -0.0707,  ..., -0.1690, -0.1351, -0.1298],
+        [-0.3179, -0.1013, -0.0736,  ...,  0.1115, -0.3520,  0.1223]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.4377e-08,  5.8208e-11,  ...,  7.5670e-10,
+         -1.6298e-09,  6.9849e-10],
+        [-2.7940e-09,  9.8953e-10,  2.3283e-10,  ..., -2.6776e-09,
+          1.7462e-10,  4.6566e-10],
+        [ 1.1642e-10,  1.8044e-09,  0.0000e+00,  ...,  3.4925e-10,
+          2.3283e-10,  1.1642e-10],
+        ...,
+        [ 2.7358e-09,  1.1642e-09,  0.0000e+00,  ...,  1.1350e-08,
+          1.9791e-09,  1.0710e-08],
+        [ 1.7462e-10,  4.8894e-09,  0.0000e+00,  ...,  5.2387e-10,
+          6.9849e-10,  5.8208e-10],
+        [ 1.4552e-09,  4.0163e-09,  0.0000e+00,  ..., -1.4668e-08,
+         -3.4925e-09, -2.2643e-08]], device='cuda:0')
+Epoch 472, bias, value: tensor([ 0.0196, -0.0325,  0.0210, -0.0284,  0.0407,  0.0164, -0.0008, -0.0070,
+        -0.0240, -0.0156], device='cuda:0'), grad: tensor([-2.9861e-08, -1.8335e-08, -4.6566e-09,  5.9372e-09,  2.5961e-08,
+         8.4983e-09, -1.2806e-09,  5.8732e-08,  7.2760e-09, -3.8766e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 471, time 221.06, cls_loss 0.0003 cls_loss_mapping 0.0002 cls_loss_causal 0.3986 re_mapping 0.0019 re_causal 0.0069 /// teacc 99.17 lr 0.00001000
+Epoch 473, weight, value: tensor([[-0.3287,  0.2667, -0.0327,  ..., -0.1755,  0.0125, -0.0010],
+        [ 0.0065, -0.1767, -0.0302,  ...,  0.0530, -0.0789, -0.1000],
+        [-0.2707, -0.3256,  0.0586,  ..., -0.1586, -0.0836, -0.2585],
+        ...,
+        [ 0.0905,  0.2064, -0.1078,  ..., -0.1885,  0.0910,  0.1005],
+        [ 0.0291, -0.2231, -0.0707,  ..., -0.1691, -0.1351, -0.1298],
+        [-0.3181, -0.1013, -0.0736,  ...,  0.1114, -0.3521,  0.1223]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.3970e-08,  0.0000e+00,  ...,  4.6566e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 0.0000e+00,  3.4925e-10,  0.0000e+00,  ...,  3.4925e-10,
+          1.0477e-09,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.1642e-10,
+          3.6089e-09,  2.4447e-09],
+        ...,
+        [ 0.0000e+00,  1.1642e-10,  0.0000e+00,  ...,  5.2387e-09,
+          1.7462e-09,  7.9162e-09],
+        [ 0.0000e+00,  1.1642e-10,  0.0000e+00,  ...,  1.1642e-10,
+          9.3132e-10,  6.9849e-10],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ..., -7.5670e-09,
+          3.4925e-10, -9.8953e-09]], device='cuda:0')
+Epoch 473, bias, value: tensor([ 0.0196, -0.0325,  0.0210, -0.0284,  0.0408,  0.0164, -0.0008, -0.0070,
+        -0.0240, -0.0157], device='cuda:0'), grad: tensor([-2.5961e-08,  6.2864e-09,  1.2689e-08, -3.6671e-08,  1.1991e-08,
+         2.3632e-08,  1.8626e-08,  2.6776e-08,  5.0059e-09, -2.7474e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 472, time 220.69, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4101 re_mapping 0.0019 re_causal 0.0070 /// teacc 99.16 lr 0.00001000
+Epoch 474, weight, value: tensor([[-0.3287,  0.2669, -0.0327,  ..., -0.1755,  0.0125, -0.0010],
+        [ 0.0065, -0.1767, -0.0302,  ...,  0.0530, -0.0790, -0.1001],
+        [-0.2708, -0.3256,  0.0586,  ..., -0.1587, -0.0837, -0.2586],
+        ...,
+        [ 0.0905,  0.2065, -0.1078,  ..., -0.1885,  0.0911,  0.1005],
+        [ 0.0291, -0.2231, -0.0708,  ..., -0.1692, -0.1351, -0.1299],
+        [-0.3182, -0.1015, -0.0736,  ...,  0.1115, -0.3521,  0.1224]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-10,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  8.1491e-10],
+        [ 6.1700e-09,  4.8894e-09,  2.3283e-10,  ...,  1.1642e-09,
+          2.4447e-09,  9.1968e-09],
+        [ 3.9581e-09,  3.0268e-09,  2.3283e-10,  ...,  1.1642e-10,
+          1.5134e-09,  5.4715e-09],
+        ...,
+        [-3.5390e-08, -9.8953e-09, -1.4435e-08,  ...,  7.2177e-09,
+         -4.7730e-09, -3.4343e-08],
+        [ 1.5134e-09,  1.0477e-09,  0.0000e+00,  ...,  1.3970e-09,
+          8.1491e-10,  3.7253e-09],
+        [ 2.2119e-09,  8.1491e-10,  6.9849e-10,  ..., -3.6322e-08,
+          4.6566e-10, -3.4575e-08]], device='cuda:0')
+Epoch 474, bias, value: tensor([ 0.0196, -0.0325,  0.0209, -0.0284,  0.0407,  0.0164, -0.0008, -0.0070,
+        -0.0240, -0.0156], device='cuda:0'), grad: tensor([ 3.9581e-09,  5.5064e-08,  2.0955e-08, -2.5495e-08,  1.3539e-07,
+         1.0605e-07, -3.3760e-09, -2.0862e-07,  1.8976e-08, -9.5344e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 473, time 220.77, cls_loss 0.0003 cls_loss_mapping 0.0002 cls_loss_causal 0.4297 re_mapping 0.0019 re_causal 0.0072 /// teacc 99.15 lr 0.00001000
+Epoch 475, weight, value: tensor([[-0.3287,  0.2670, -0.0327,  ..., -0.1756,  0.0125, -0.0011],
+        [ 0.0065, -0.1768, -0.0302,  ...,  0.0530, -0.0791, -0.1001],
+        [-0.2709, -0.3257,  0.0586,  ..., -0.1587, -0.0837, -0.2587],
+        ...,
+        [ 0.0907,  0.2066, -0.1078,  ..., -0.1885,  0.0912,  0.1006],
+        [ 0.0291, -0.2232, -0.0708,  ..., -0.1693, -0.1352, -0.1300],
+        [-0.3183, -0.1015, -0.0736,  ...,  0.1115, -0.3522,  0.1224]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  5.8208e-10,  ...,  6.7521e-09,
+          1.1642e-10,  1.1642e-10],
+        [ 1.1642e-10,  1.1642e-10,  2.3283e-10,  ...,  2.2119e-09,
+          5.8208e-10,  8.1491e-10],
+        [ 1.1642e-10,  0.0000e+00,  1.1642e-10,  ...,  1.1642e-09,
+          4.6566e-10,  3.4925e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.2806e-09,
+          1.0477e-09,  1.9791e-09],
+        [ 0.0000e+00,  2.3283e-10,  2.3283e-10,  ...,  1.8626e-09,
+          3.4925e-10,  2.3283e-10],
+        [ 4.6566e-10,  3.4925e-10,  0.0000e+00,  ..., -2.3283e-09,
+          2.3283e-10, -2.7940e-09]], device='cuda:0')
+Epoch 475, bias, value: tensor([ 0.0195, -0.0326,  0.0209, -0.0284,  0.0408,  0.0165, -0.0007, -0.0070,
+        -0.0240, -0.0157], device='cuda:0'), grad: tensor([ 2.9686e-08,  1.3504e-08,  7.7998e-09, -1.0710e-08,  1.4552e-08,
+         8.9640e-09, -6.6007e-08,  1.1292e-08,  1.0012e-08, -6.6357e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 474, time 220.86, cls_loss 0.0003 cls_loss_mapping 0.0002 cls_loss_causal 0.4258 re_mapping 0.0019 re_causal 0.0071 /// teacc 99.17 lr 0.00001000
+Epoch 476, weight, value: tensor([[-0.3287,  0.2671, -0.0327,  ..., -0.1757,  0.0125, -0.0011],
+        [ 0.0064, -0.1768, -0.0302,  ...,  0.0530, -0.0791, -0.1002],
+        [-0.2709, -0.3257,  0.0586,  ..., -0.1587, -0.0838, -0.2587],
+        ...,
+        [ 0.0907,  0.2066, -0.1078,  ..., -0.1886,  0.0912,  0.1007],
+        [ 0.0291, -0.2232, -0.0708,  ..., -0.1693, -0.1352, -0.1301],
+        [-0.3185, -0.1016, -0.0736,  ...,  0.1115, -0.3522,  0.1224]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  1.1642e-10],
+        [ 0.0000e+00,  1.1642e-10,  0.0000e+00,  ...,  5.8208e-10,
+          0.0000e+00,  1.1642e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.1642e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 1.1642e-10,  0.0000e+00,  0.0000e+00,  ...,  5.8208e-10,
+          0.0000e+00,  1.1642e-10],
+        [ 3.4925e-10,  1.1642e-10,  0.0000e+00,  ..., -1.0477e-09,
+          0.0000e+00, -1.0477e-09]], device='cuda:0')
+Epoch 476, bias, value: tensor([ 0.0195, -0.0326,  0.0210, -0.0285,  0.0408,  0.0165, -0.0007, -0.0070,
+        -0.0240, -0.0157], device='cuda:0'), grad: tensor([ 3.7253e-09,  2.5611e-09,  1.2806e-09,  1.0594e-08,  4.1910e-09,
+         5.2038e-08, -6.5775e-08,  5.8208e-10,  2.5611e-09, -1.5134e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 475, time 220.58, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4280 re_mapping 0.0019 re_causal 0.0070 /// teacc 99.15 lr 0.00001000
+Epoch 477, weight, value: tensor([[-0.3287,  0.2673, -0.0327,  ..., -0.1758,  0.0125, -0.0011],
+        [ 0.0064, -0.1769, -0.0302,  ...,  0.0531, -0.0792, -0.1003],
+        [-0.2711, -0.3258,  0.0585,  ..., -0.1588, -0.0839, -0.2589],
+        ...,
+        [ 0.0909,  0.2067, -0.1078,  ..., -0.1887,  0.0913,  0.1007],
+        [ 0.0291, -0.2232, -0.0708,  ..., -0.1694, -0.1352, -0.1301],
+        [-0.3187, -0.1017, -0.0736,  ...,  0.1115, -0.3523,  0.1225]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-10,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 2.2119e-09,  3.4925e-10,  0.0000e+00,  ...,  4.1910e-09,
+          4.6566e-10,  8.1491e-10],
+        [ 6.9849e-10,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+         -1.9791e-09,  0.0000e+00],
+        ...,
+        [ 6.9849e-10,  0.0000e+00,  0.0000e+00,  ...,  2.6776e-09,
+          0.0000e+00,  1.5134e-09],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 2.5029e-08,  1.1642e-10,  0.0000e+00,  ...,  4.0280e-08,
+          0.0000e+00, -3.4925e-09]], device='cuda:0')
+Epoch 477, bias, value: tensor([ 0.0196, -0.0326,  0.0209, -0.0285,  0.0408,  0.0166, -0.0008, -0.0070,
+        -0.0240, -0.0158], device='cuda:0'), grad: tensor([ 3.2596e-09,  2.2352e-08, -2.8755e-08,  2.7474e-08, -1.8394e-07,
+         1.1642e-10,  2.5029e-08,  9.0804e-09,  2.2119e-09,  1.4051e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 476, time 220.82, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4310 re_mapping 0.0019 re_causal 0.0071 /// teacc 99.15 lr 0.00001000
+Epoch 478, weight, value: tensor([[-0.3287,  0.2675, -0.0327,  ..., -0.1758,  0.0125, -0.0011],
+        [ 0.0064, -0.1769, -0.0302,  ...,  0.0530, -0.0792, -0.1003],
+        [-0.2712, -0.3260,  0.0585,  ..., -0.1588, -0.0839, -0.2590],
+        ...,
+        [ 0.0910,  0.2068, -0.1078,  ..., -0.1887,  0.0913,  0.1007],
+        [ 0.0292, -0.2233, -0.0708,  ..., -0.1695, -0.1353, -0.1302],
+        [-0.3189, -0.1018, -0.0736,  ...,  0.1115, -0.3523,  0.1225]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  1.1642e-10],
+        [ 5.8208e-10,  1.6298e-09,  0.0000e+00,  ..., -3.9581e-09,
+          4.6566e-10,  2.5611e-09],
+        [ 3.4925e-10,  9.3132e-10,  0.0000e+00,  ...,  1.5134e-09,
+          3.4925e-10,  1.2806e-09],
+        ...,
+        [-2.0955e-09, -5.9372e-09,  0.0000e+00,  ...,  6.1700e-09,
+         -1.9791e-09, -3.2596e-09],
+        [ 2.3283e-10,  8.1491e-10,  0.0000e+00,  ...,  6.9849e-10,
+          2.3283e-10,  1.2806e-09],
+        [ 1.0477e-09,  2.5611e-09,  0.0000e+00,  ..., -7.4506e-09,
+          6.9849e-10, -6.5193e-09]], device='cuda:0')
+Epoch 478, bias, value: tensor([ 0.0197, -0.0326,  0.0209, -0.0286,  0.0409,  0.0166, -0.0008, -0.0070,
+        -0.0239, -0.0158], device='cuda:0'), grad: tensor([ 1.1642e-09, -1.7229e-08,  7.5670e-09,  3.9581e-09,  1.5949e-08,
+         1.0477e-09,  1.1642e-09,  2.3283e-10,  6.5193e-09, -6.7521e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 477, time 220.75, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4375 re_mapping 0.0019 re_causal 0.0071 /// teacc 99.16 lr 0.00001000
+Epoch 479, weight, value: tensor([[-0.3287,  0.2677, -0.0327,  ..., -0.1759,  0.0125, -0.0012],
+        [ 0.0063, -0.1769, -0.0302,  ...,  0.0530, -0.0793, -0.1004],
+        [-0.2713, -0.3260,  0.0585,  ..., -0.1589, -0.0840, -0.2591],
+        ...,
+        [ 0.0911,  0.2069, -0.1078,  ..., -0.1888,  0.0914,  0.1007],
+        [ 0.0292, -0.2233, -0.0708,  ..., -0.1695, -0.1353, -0.1302],
+        [-0.3191, -0.1019, -0.0737,  ...,  0.1116, -0.3524,  0.1226]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.9791e-09,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 2.3283e-10,  4.6566e-10,  1.1642e-10,  ...,  3.4925e-10,
+          0.0000e+00,  3.4925e-10],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  3.4925e-10,
+          0.0000e+00,  1.1642e-10],
+        ...,
+        [ 3.4925e-10,  3.4925e-10,  0.0000e+00,  ...,  7.3342e-09,
+          0.0000e+00,  9.7789e-09],
+        [ 9.3132e-10,  1.0477e-09,  0.0000e+00,  ...,  8.1491e-10,
+          1.1642e-10,  8.1491e-10],
+        [ 2.3283e-10,  1.9791e-09,  0.0000e+00,  ..., -8.2655e-09,
+          0.0000e+00, -1.1758e-08]], device='cuda:0')
+Epoch 479, bias, value: tensor([ 0.0197, -0.0327,  0.0209, -0.0287,  0.0409,  0.0167, -0.0009, -0.0070,
+        -0.0239, -0.0158], device='cuda:0'), grad: tensor([-1.2806e-09,  1.5716e-08,  3.2596e-09,  1.1339e-07,  3.0152e-08,
+        -3.3132e-07,  2.1874e-07,  3.9348e-08, -2.7241e-08, -3.1665e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 478, time 220.56, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4396 re_mapping 0.0019 re_causal 0.0070 /// teacc 99.16 lr 0.00001000
+Epoch 480, weight, value: tensor([[-0.3287,  0.2680, -0.0327,  ..., -0.1759,  0.0125, -0.0012],
+        [ 0.0063, -0.1770, -0.0302,  ...,  0.0531, -0.0793, -0.1005],
+        [-0.2714, -0.3262,  0.0585,  ..., -0.1589, -0.0841, -0.2593],
+        ...,
+        [ 0.0913,  0.2070, -0.1078,  ..., -0.1889,  0.0915,  0.1008],
+        [ 0.0292, -0.2234, -0.0708,  ..., -0.1696, -0.1354, -0.1303],
+        [-0.3193, -0.1020, -0.0737,  ...,  0.1116, -0.3525,  0.1227]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  8.1491e-10],
+        [ 2.1071e-08,  3.1898e-08,  0.0000e+00,  ...,  1.6298e-09,
+          0.0000e+00,  5.6229e-08],
+        [ 9.3132e-10,  5.8208e-10,  0.0000e+00,  ...,  5.8208e-10,
+         -2.3283e-10,  1.8626e-09],
+        ...,
+        [-2.4098e-08, -3.5041e-08,  0.0000e+00,  ...,  5.5879e-09,
+          0.0000e+00, -5.6694e-08],
+        [ 1.1642e-10,  4.6566e-10,  0.0000e+00,  ...,  1.2806e-09,
+          0.0000e+00,  2.0955e-09],
+        [ 2.5611e-09,  2.2119e-09,  0.0000e+00,  ..., -3.1549e-08,
+          1.1642e-10, -2.5844e-08]], device='cuda:0')
+Epoch 480, bias, value: tensor([ 0.0199, -0.0327,  0.0209, -0.0287,  0.0409,  0.0167, -0.0009, -0.0070,
+        -0.0239, -0.0158], device='cuda:0'), grad: tensor([ 2.7940e-09,  2.1094e-07, -3.0268e-09,  3.3760e-09,  7.5088e-08,
+        -2.0955e-09,  3.6089e-09, -2.0058e-07,  4.4238e-09, -8.1607e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 479, time 220.76, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.3925 re_mapping 0.0019 re_causal 0.0070 /// teacc 99.11 lr 0.00001000
+Epoch 481, weight, value: tensor([[-0.3288,  0.2682, -0.0327,  ..., -0.1760,  0.0125, -0.0012],
+        [ 0.0063, -0.1770, -0.0302,  ...,  0.0531, -0.0794, -0.1006],
+        [-0.2715, -0.3263,  0.0586,  ..., -0.1590, -0.0842, -0.2594],
+        ...,
+        [ 0.0914,  0.2071, -0.1078,  ..., -0.1889,  0.0916,  0.1008],
+        [ 0.0292, -0.2234, -0.0708,  ..., -0.1697, -0.1354, -0.1304],
+        [-0.3195, -0.1022, -0.0737,  ...,  0.1116, -0.3525,  0.1227]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -4.6566e-09,  0.0000e+00,  ...,  9.3132e-10,
+         -6.9849e-10,  1.5134e-09],
+        [ 2.3283e-10,  2.3283e-10,  1.1642e-10,  ...,  2.5611e-09,
+          0.0000e+00,  4.5402e-09],
+        [ 8.4983e-09,  3.4925e-10,  5.4715e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-10],
+        ...,
+        [-8.9640e-09,  1.1642e-10, -5.7044e-09,  ...,  1.1642e-09,
+          1.1642e-10,  1.7462e-09],
+        [ 0.0000e+00,  1.1642e-10,  0.0000e+00,  ...,  1.1642e-10,
+          0.0000e+00,  1.1642e-10],
+        [ 1.2806e-09,  2.7940e-09,  0.0000e+00,  ..., -1.0477e-08,
+          3.4925e-10, -1.8394e-08]], device='cuda:0')
+Epoch 481, bias, value: tensor([ 0.0201, -0.0327,  0.0209, -0.0287,  0.0410,  0.0167, -0.0009, -0.0070,
+        -0.0239, -0.0159], device='cuda:0'), grad: tensor([-6.6357e-09,  1.6764e-08,  5.6112e-08, -1.1642e-10,  1.8859e-08,
+        -1.0477e-09,  2.9104e-09, -5.4715e-08,  1.5134e-09, -4.0396e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 480, time 220.47, cls_loss 0.0003 cls_loss_mapping 0.0002 cls_loss_causal 0.4335 re_mapping 0.0019 re_causal 0.0071 /// teacc 99.14 lr 0.00001000
+Epoch 482, weight, value: tensor([[-0.3288,  0.2684, -0.0327,  ..., -0.1761,  0.0125, -0.0012],
+        [ 0.0063, -0.1771, -0.0302,  ...,  0.0532, -0.0794, -0.1006],
+        [-0.2716, -0.3264,  0.0585,  ..., -0.1590, -0.0843, -0.2595],
+        ...,
+        [ 0.0914,  0.2072, -0.1078,  ..., -0.1890,  0.0916,  0.1009],
+        [ 0.0292, -0.2235, -0.0708,  ..., -0.1699, -0.1354, -0.1304],
+        [-0.3196, -0.1022, -0.0737,  ...,  0.1116, -0.3526,  0.1228]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.0955e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 1.1642e-10,  5.8208e-10,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  1.1642e-10],
+        [ 0.0000e+00, -4.6566e-10,  0.0000e+00,  ...,  3.4925e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  3.4925e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 1.1642e-10,  0.0000e+00,  0.0000e+00,  ...,  4.1910e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 3.4925e-10,  2.3283e-10,  0.0000e+00,  ...,  5.8208e-10,
+          0.0000e+00,  1.1642e-10]], device='cuda:0')
+Epoch 482, bias, value: tensor([ 0.0201, -0.0327,  0.0209, -0.0288,  0.0410,  0.0168, -0.0009, -0.0070,
+        -0.0239, -0.0159], device='cuda:0'), grad: tensor([ 9.5461e-09,  7.7998e-09, -1.5134e-09,  3.1432e-09,  1.5134e-09,
+         2.6776e-09, -3.1432e-08,  3.2596e-09,  2.1071e-08,  3.0268e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 481, time 220.52, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4126 re_mapping 0.0019 re_causal 0.0068 /// teacc 99.17 lr 0.00001000
+Epoch 483, weight, value: tensor([[-0.3288,  0.2686, -0.0326,  ..., -0.1762,  0.0125, -0.0012],
+        [ 0.0064, -0.1771, -0.0302,  ...,  0.0532, -0.0795, -0.1007],
+        [-0.2717, -0.3265,  0.0585,  ..., -0.1591, -0.0843, -0.2597],
+        ...,
+        [ 0.0915,  0.2072, -0.1078,  ..., -0.1892,  0.0916,  0.1009],
+        [ 0.0291, -0.2235, -0.0708,  ..., -0.1700, -0.1355, -0.1305],
+        [-0.3198, -0.1023, -0.0737,  ...,  0.1117, -0.3526,  0.1229]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.0827e-08,  0.0000e+00,  ...,  2.3283e-10,
+         -1.2806e-09, -4.6566e-10],
+        [-5.8208e-10,  1.5134e-09,  0.0000e+00,  ...,  8.1491e-10,
+          8.1491e-10,  1.5134e-09],
+        [ 2.3283e-10,  1.1642e-09,  0.0000e+00,  ...,  1.1642e-10,
+          1.1642e-10,  2.3283e-10],
+        ...,
+        [ 8.1491e-10,  1.7462e-09,  0.0000e+00,  ...,  1.6298e-09,
+          2.5611e-09,  4.6566e-09],
+        [ 4.6566e-10,  2.3283e-09,  0.0000e+00,  ...,  2.3283e-10,
+          1.3970e-09,  1.0477e-09],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ..., -5.5879e-09,
+          6.4028e-09,  5.2387e-09]], device='cuda:0')
+Epoch 483, bias, value: tensor([ 0.0200, -0.0327,  0.0209, -0.0288,  0.0410,  0.0169, -0.0010, -0.0071,
+        -0.0240, -0.0159], device='cuda:0'), grad: tensor([-2.0606e-08,  5.5879e-09,  4.3074e-09, -7.4506e-08,  8.4983e-09,
+         2.6077e-08,  8.7311e-09,  2.3865e-08,  1.3388e-08,  2.2585e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 482, time 220.50, cls_loss 0.0003 cls_loss_mapping 0.0002 cls_loss_causal 0.4212 re_mapping 0.0019 re_causal 0.0070 /// teacc 99.16 lr 0.00001000
+Epoch 484, weight, value: tensor([[-0.3288,  0.2688, -0.0326,  ..., -0.1764,  0.0125, -0.0013],
+        [ 0.0064, -0.1771, -0.0301,  ...,  0.0534, -0.0795, -0.1008],
+        [-0.2718, -0.3266,  0.0585,  ..., -0.1591, -0.0844, -0.2598],
+        ...,
+        [ 0.0915,  0.2073, -0.1078,  ..., -0.1893,  0.0917,  0.1009],
+        [ 0.0291, -0.2236, -0.0708,  ..., -0.1701, -0.1355, -0.1306],
+        [-0.3200, -0.1024, -0.0737,  ...,  0.1118, -0.3526,  0.1230]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  2.3283e-10],
+        [ 3.4925e-10,  1.1642e-10,  0.0000e+00,  ...,  5.8208e-10,
+          1.1642e-10,  5.8208e-10],
+        [ 1.2806e-09,  1.6298e-09,  0.0000e+00,  ...,  2.3283e-10,
+          5.8208e-10,  1.2806e-09],
+        ...,
+        [ 6.9849e-10, -1.1642e-09,  2.3283e-10,  ...,  2.9104e-09,
+          2.3283e-10,  1.2806e-09],
+        [-2.3283e-10,  2.3283e-10,  0.0000e+00,  ...,  4.6566e-10,
+          6.9849e-10,  1.0477e-09],
+        [ 2.2119e-09,  3.4925e-10,  1.1642e-10,  ..., -4.1910e-09,
+          0.0000e+00, -6.7521e-09]], device='cuda:0')
+Epoch 484, bias, value: tensor([ 0.0200, -0.0327,  0.0209, -0.0288,  0.0410,  0.0169, -0.0009, -0.0072,
+        -0.0240, -0.0159], device='cuda:0'), grad: tensor([ 1.1642e-09,  4.0745e-09,  1.3970e-08,  1.1642e-10, -5.7044e-09,
+         3.7253e-09,  3.4925e-09,  9.5461e-09, -2.2119e-09, -1.1409e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 483, time 220.54, cls_loss 0.0003 cls_loss_mapping 0.0002 cls_loss_causal 0.4116 re_mapping 0.0019 re_causal 0.0070 /// teacc 99.19 lr 0.00001000
+Epoch 485, weight, value: tensor([[-0.3288,  0.2688, -0.0326,  ..., -0.1764,  0.0125, -0.0013],
+        [ 0.0065, -0.1771, -0.0301,  ...,  0.0534, -0.0796, -0.1009],
+        [-0.2719, -0.3266,  0.0585,  ..., -0.1592, -0.0845, -0.2599],
+        ...,
+        [ 0.0915,  0.2073, -0.1079,  ..., -0.1894,  0.0917,  0.1009],
+        [ 0.0291, -0.2236, -0.0709,  ..., -0.1702, -0.1355, -0.1306],
+        [-0.3203, -0.1025, -0.0737,  ...,  0.1117, -0.3527,  0.1231]],
+       device='cuda:0'), grad: tensor([[5.8208e-10, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [1.1642e-10, 0.0000e+00, 0.0000e+00,  ..., 1.1642e-10, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 3.4925e-10, 0.0000e+00,  ..., 0.0000e+00, 1.1642e-10,
+         0.0000e+00],
+        ...,
+        [0.0000e+00, 0.0000e+00, 0.0000e+00,  ..., 1.1642e-10, 1.1642e-10,
+         1.1642e-10],
+        [3.4925e-10, 0.0000e+00, 0.0000e+00,  ..., 0.0000e+00, 1.1642e-10,
+         1.1642e-10],
+        [1.5134e-09, 2.3283e-10, 0.0000e+00,  ..., 1.2806e-09, 0.0000e+00,
+         0.0000e+00]], device='cuda:0')
+Epoch 485, bias, value: tensor([ 0.0200, -0.0327,  0.0209, -0.0289,  0.0411,  0.0170, -0.0010, -0.0072,
+        -0.0240, -0.0160], device='cuda:0'), grad: tensor([ 9.4296e-09,  1.6298e-09,  1.0477e-09,  7.2177e-09, -1.6298e-09,
+        -2.5961e-08,  1.4901e-08,  1.6298e-09, -1.1874e-08,  8.0327e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 484, time 220.81, cls_loss 0.0003 cls_loss_mapping 0.0002 cls_loss_causal 0.4330 re_mapping 0.0019 re_causal 0.0071 /// teacc 99.18 lr 0.00001000
+Epoch 486, weight, value: tensor([[-0.3288,  0.2691, -0.0327,  ..., -0.1765,  0.0125, -0.0013],
+        [ 0.0065, -0.1772, -0.0301,  ...,  0.0535, -0.0796, -0.1010],
+        [-0.2720, -0.3267,  0.0585,  ..., -0.1592, -0.0845, -0.2601],
+        ...,
+        [ 0.0916,  0.2075, -0.1079,  ..., -0.1894,  0.0918,  0.1010],
+        [ 0.0291, -0.2237, -0.0709,  ..., -0.1703, -0.1356, -0.1307],
+        [-0.3205, -0.1026, -0.0737,  ...,  0.1117, -0.3527,  0.1231]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.1642e-10,
+          0.0000e+00,  0.0000e+00],
+        [-1.9791e-09,  1.1642e-10,  0.0000e+00,  ..., -3.6089e-09,
+          0.0000e+00,  2.3283e-10],
+        [ 3.4925e-10,  1.1642e-10,  0.0000e+00,  ...,  3.4925e-10,
+          0.0000e+00,  3.4925e-10],
+        ...,
+        [ 1.2806e-09,  0.0000e+00,  0.0000e+00,  ...,  2.2119e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 6.9849e-10,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 1.1642e-10,  0.0000e+00,  0.0000e+00,  ..., -1.1642e-09,
+          0.0000e+00, -1.2806e-09]], device='cuda:0')
+Epoch 486, bias, value: tensor([ 0.0202, -0.0327,  0.0208, -0.0289,  0.0412,  0.0170, -0.0010, -0.0071,
+        -0.0240, -0.0161], device='cuda:0'), grad: tensor([ 4.6566e-10, -1.7462e-08,  2.9104e-09,  3.6089e-09,  5.1223e-09,
+        -6.0536e-09,  4.6566e-09,  1.1642e-08,  7.7998e-09, -1.6298e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 485, time 220.75, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4086 re_mapping 0.0019 re_causal 0.0069 /// teacc 99.15 lr 0.00001000
+Epoch 487, weight, value: tensor([[-0.3288,  0.2692, -0.0327,  ..., -0.1765,  0.0125, -0.0014],
+        [ 0.0065, -0.1773, -0.0300,  ...,  0.0535, -0.0797, -0.1011],
+        [-0.2721, -0.3268,  0.0585,  ..., -0.1593, -0.0846, -0.2602],
+        ...,
+        [ 0.0917,  0.2076, -0.1079,  ..., -0.1895,  0.0918,  0.1011],
+        [ 0.0290, -0.2237, -0.0709,  ..., -0.1704, -0.1356, -0.1308],
+        [-0.3207, -0.1027, -0.0737,  ...,  0.1117, -0.3528,  0.1232]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.2806e-09,
+          1.1642e-10,  2.3283e-10],
+        [ 4.6566e-10,  8.1491e-10,  0.0000e+00,  ...,  4.5402e-09,
+          1.6298e-09,  4.4238e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.8208e-10,
+          5.0059e-09,  3.6089e-09],
+        ...,
+        [-4.6566e-10, -9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+          1.2806e-09,  5.8208e-10],
+        [ 0.0000e+00,  1.1642e-10,  0.0000e+00,  ...,  6.9849e-10,
+          1.1642e-09,  9.3132e-10],
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ..., -8.4983e-09,
+          4.6566e-10, -4.1910e-09]], device='cuda:0')
+Epoch 487, bias, value: tensor([ 0.0202, -0.0326,  0.0207, -0.0290,  0.0413,  0.0171, -0.0010, -0.0071,
+        -0.0241, -0.0162], device='cuda:0'), grad: tensor([ 1.0012e-08,  2.3283e-08,  2.6776e-08, -5.9372e-08,  1.4203e-08,
+         1.2410e-07, -1.3353e-07,  5.3551e-09,  1.2806e-08, -1.5832e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 486, time 220.70, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4121 re_mapping 0.0019 re_causal 0.0070 /// teacc 99.16 lr 0.00001000
+Epoch 488, weight, value: tensor([[-0.3288,  0.2693, -0.0327,  ..., -0.1767,  0.0125, -0.0014],
+        [ 0.0065, -0.1774, -0.0300,  ...,  0.0536, -0.0797, -0.1011],
+        [-0.2722, -0.3269,  0.0585,  ..., -0.1593, -0.0846, -0.2603],
+        ...,
+        [ 0.0918,  0.2077, -0.1079,  ..., -0.1896,  0.0919,  0.1011],
+        [ 0.0290, -0.2238, -0.0709,  ..., -0.1705, -0.1356, -0.1309],
+        [-0.3208, -0.1028, -0.0737,  ...,  0.1117, -0.3528,  0.1232]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10, -1.2689e-08,  0.0000e+00,  ...,  6.9849e-10,
+          0.0000e+00,  1.1642e-10],
+        [ 2.3283e-09,  4.0745e-09,  0.0000e+00,  ...,  1.5134e-09,
+          1.0477e-09,  3.1432e-09],
+        [ 1.1642e-09,  2.3283e-09,  0.0000e+00,  ...,  1.0477e-09,
+          6.9849e-10,  1.9791e-09],
+        ...,
+        [-5.8208e-10, -8.6147e-09,  0.0000e+00,  ...,  4.8894e-09,
+         -2.7940e-09, -8.0327e-09],
+        [ 7.3342e-09,  1.1642e-09,  0.0000e+00,  ...,  9.6625e-09,
+          1.1642e-10,  5.8208e-10],
+        [ 1.5320e-07,  3.0268e-09,  0.0000e+00,  ...,  1.9209e-07,
+          5.8208e-10,  1.7462e-09]], device='cuda:0')
+Epoch 488, bias, value: tensor([ 0.0201, -0.0326,  0.0207, -0.0291,  0.0413,  0.0172, -0.0010, -0.0072,
+        -0.0242, -0.0162], device='cuda:0'), grad: tensor([-3.4459e-08,  1.8626e-08,  1.1758e-08,  2.3283e-09, -6.3423e-07,
+         6.7521e-09,  2.1770e-08, -1.3155e-08,  3.4110e-08,  6.0257e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 487, time 220.22, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4037 re_mapping 0.0019 re_causal 0.0069 /// teacc 99.17 lr 0.00001000
+Epoch 489, weight, value: tensor([[-0.3288,  0.2695, -0.0327,  ..., -0.1767,  0.0125, -0.0014],
+        [ 0.0065, -0.1774, -0.0300,  ...,  0.0535, -0.0797, -0.1012],
+        [-0.2723, -0.3269,  0.0585,  ..., -0.1594, -0.0847, -0.2603],
+        ...,
+        [ 0.0918,  0.2078, -0.1079,  ..., -0.1898,  0.0919,  0.1011],
+        [ 0.0289, -0.2238, -0.0709,  ..., -0.1707, -0.1357, -0.1310],
+        [-0.3211, -0.1029, -0.0737,  ...,  0.1117, -0.3529,  0.1234]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  1.2806e-09,  0.0000e+00,  ..., -2.3283e-10,
+          9.3132e-10,  2.2119e-09],
+        [ 1.1642e-10,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+         -1.3970e-09,  0.0000e+00],
+        ...,
+        [-9.3132e-10, -2.2119e-09,  0.0000e+00,  ...,  3.4925e-10,
+         -1.1642e-10, -3.7253e-09],
+        [ 5.8208e-10,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 6.9849e-10,  6.9849e-10,  0.0000e+00,  ...,  4.6566e-10,
+          4.6566e-10,  1.2806e-09]], device='cuda:0')
+Epoch 489, bias, value: tensor([ 0.0202, -0.0326,  0.0207, -0.0292,  0.0414,  0.0172, -0.0009, -0.0072,
+        -0.0243, -0.0162], device='cuda:0'), grad: tensor([ 1.0477e-09,  6.7521e-09, -3.8650e-08,  7.3342e-09,  2.2119e-09,
+        -2.0606e-08,  6.1700e-09,  2.9686e-08,  1.2573e-08,  6.5193e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 488, time 220.71, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4232 re_mapping 0.0019 re_causal 0.0069 /// teacc 99.17 lr 0.00001000
+Epoch 490, weight, value: tensor([[-0.3288,  0.2697, -0.0327,  ..., -0.1769,  0.0125, -0.0014],
+        [ 0.0066, -0.1775, -0.0300,  ...,  0.0537, -0.0798, -0.1013],
+        [-0.2724, -0.3270,  0.0585,  ..., -0.1594, -0.0847, -0.2604],
+        ...,
+        [ 0.0918,  0.2079, -0.1080,  ..., -0.1899,  0.0919,  0.1011],
+        [ 0.0289, -0.2239, -0.0709,  ..., -0.1709, -0.1357, -0.1311],
+        [-0.3214, -0.1030, -0.0737,  ...,  0.1118, -0.3529,  0.1235]],
+       device='cuda:0'), grad: tensor([[ 3.4925e-10,  0.0000e+00,  1.1642e-10,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [-7.0315e-08,  2.3283e-10,  1.1642e-10,  ..., -1.2701e-07,
+          0.0000e+00,  2.3283e-10],
+        [ 5.3551e-09,  0.0000e+00,  1.1642e-10,  ...,  9.4296e-09,
+          2.3283e-10,  1.1642e-10],
+        ...,
+        [ 2.1886e-08,  0.0000e+00,  1.1642e-10,  ...,  3.9698e-08,
+          1.1642e-10,  1.1642e-10],
+        [ 1.1642e-10,  0.0000e+00,  0.0000e+00,  ...,  3.4925e-10,
+          1.1642e-10,  0.0000e+00],
+        [ 3.1549e-08,  4.6566e-10,  2.3283e-10,  ...,  5.5297e-08,
+          1.1642e-10,  1.1642e-10]], device='cuda:0')
+Epoch 490, bias, value: tensor([ 0.0201, -0.0326,  0.0207, -0.0292,  0.0415,  0.0171, -0.0008, -0.0073,
+        -0.0244, -0.0162], device='cuda:0'), grad: tensor([ 3.6089e-09, -4.6287e-07,  3.6787e-08, -6.2631e-08,  6.9384e-08,
+         6.4843e-08,  3.2596e-09,  1.4808e-07,  3.1432e-09,  2.0384e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 489, time 220.37, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4043 re_mapping 0.0018 re_causal 0.0068 /// teacc 99.17 lr 0.00001000
+Epoch 491, weight, value: tensor([[-0.3288,  0.2698, -0.0327,  ..., -0.1769,  0.0125, -0.0015],
+        [ 0.0067, -0.1776, -0.0299,  ...,  0.0538, -0.0798, -0.1014],
+        [-0.2725, -0.3271,  0.0585,  ..., -0.1595, -0.0847, -0.2606],
+        ...,
+        [ 0.0919,  0.2081, -0.1080,  ..., -0.1900,  0.0920,  0.1012],
+        [ 0.0289, -0.2239, -0.0709,  ..., -0.1710, -0.1357, -0.1313],
+        [-0.3216, -0.1032, -0.0738,  ...,  0.1118, -0.3530,  0.1236]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  1.1642e-10],
+        [ 1.2806e-09,  2.0955e-09,  0.0000e+00,  ...,  3.4925e-10,
+          5.8208e-10,  1.8626e-09],
+        [ 1.5134e-09,  2.5611e-09,  0.0000e+00,  ...,  1.1642e-10,
+          6.9849e-10,  1.7462e-09],
+        ...,
+        [-4.1910e-09, -7.1013e-09,  0.0000e+00,  ...,  1.8626e-09,
+         -1.8626e-09, -3.4925e-09],
+        [ 4.6566e-10,  8.1491e-10,  0.0000e+00,  ...,  3.4925e-10,
+          2.3283e-10,  6.9849e-10],
+        [ 3.4925e-10,  8.1491e-10,  0.0000e+00,  ..., -2.7707e-08,
+          1.1642e-10, -2.7125e-08]], device='cuda:0')
+Epoch 491, bias, value: tensor([ 0.0202, -0.0325,  0.0206, -0.0293,  0.0415,  0.0171, -0.0008, -0.0073,
+        -0.0245, -0.0162], device='cuda:0'), grad: tensor([ 7.4506e-09,  1.4086e-08, -3.3993e-08,  8.1491e-09,  8.1491e-08,
+         3.9581e-09,  2.6776e-09, -1.2922e-08,  8.8476e-09, -6.4843e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 490, time 220.72, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4290 re_mapping 0.0019 re_causal 0.0070 /// teacc 99.16 lr 0.00001000
+Epoch 492, weight, value: tensor([[-0.3288,  0.2701, -0.0327,  ..., -0.1769,  0.0125, -0.0015],
+        [ 0.0067, -0.1777, -0.0299,  ...,  0.0539, -0.0799, -0.1016],
+        [-0.2726, -0.3272,  0.0585,  ..., -0.1597, -0.0848, -0.2607],
+        ...,
+        [ 0.0920,  0.2083, -0.1081,  ..., -0.1902,  0.0921,  0.1013],
+        [ 0.0289, -0.2240, -0.0709,  ..., -0.1712, -0.1358, -0.1314],
+        [-0.3218, -0.1033, -0.0738,  ...,  0.1119, -0.3530,  0.1237]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.1642e-09,
+          0.0000e+00,  1.0477e-09],
+        [-3.4925e-10,  3.4925e-10,  0.0000e+00,  ...,  4.1910e-09,
+          1.1642e-10,  3.0268e-09],
+        [ 4.6566e-10,  1.1642e-10,  0.0000e+00,  ...,  1.8626e-09,
+          4.6566e-10,  3.4925e-10],
+        ...,
+        [ 3.4925e-10,  0.0000e+00,  0.0000e+00,  ...,  4.4005e-08,
+          3.4925e-10,  5.7742e-08],
+        [ 1.1642e-10,  0.0000e+00,  0.0000e+00,  ...,  1.5134e-09,
+          0.0000e+00,  5.8208e-10],
+        [ 2.3283e-10,  3.4925e-10,  0.0000e+00,  ..., -7.7300e-08,
+          0.0000e+00, -8.4634e-08]], device='cuda:0')
+Epoch 492, bias, value: tensor([ 0.0204, -0.0325,  0.0205, -0.0293,  0.0416,  0.0171, -0.0008, -0.0073,
+        -0.0245, -0.0163], device='cuda:0'), grad: tensor([ 4.6566e-09,  2.4331e-08,  1.3504e-08,  1.7462e-09,  8.2422e-08,
+         1.5018e-08, -4.0396e-08,  1.6205e-07,  8.0327e-09, -2.5751e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 491, time 220.40, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4189 re_mapping 0.0019 re_causal 0.0068 /// teacc 99.17 lr 0.00001000
+Epoch 493, weight, value: tensor([[-0.3289,  0.2702, -0.0327,  ..., -0.1770,  0.0125, -0.0015],
+        [ 0.0068, -0.1778, -0.0299,  ...,  0.0540, -0.0800, -0.1019],
+        [-0.2727, -0.3273,  0.0585,  ..., -0.1597, -0.0849, -0.2608],
+        ...,
+        [ 0.0921,  0.2084, -0.1081,  ..., -0.1903,  0.0921,  0.1014],
+        [ 0.0289, -0.2240, -0.0709,  ..., -0.1712, -0.1358, -0.1314],
+        [-0.3219, -0.1034, -0.0738,  ...,  0.1120, -0.3531,  0.1238]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-10,  1.1642e-10,  0.0000e+00,  ...,  7.5670e-10,
+          0.0000e+00,  1.7462e-10],
+        [ 4.0745e-10,  1.8626e-09,  0.0000e+00,  ..., -6.9849e-10,
+          1.8044e-09,  5.1223e-09],
+        [ 1.4552e-09,  2.8522e-09,  0.0000e+00,  ...,  6.4028e-10,
+          2.9104e-09,  5.9954e-09],
+        ...,
+        [-2.7940e-09, -5.5879e-09,  0.0000e+00,  ...,  2.2701e-09,
+         -5.7626e-09, -1.3155e-08],
+        [ 6.9849e-10,  5.8208e-10,  0.0000e+00,  ...,  8.7311e-10,
+          4.6566e-10,  1.3970e-09],
+        [ 8.1491e-10,  1.2224e-09,  0.0000e+00,  ..., -3.2596e-09,
+          1.1059e-09, -9.8953e-10]], device='cuda:0')
+Epoch 493, bias, value: tensor([ 0.0204, -0.0326,  0.0206, -0.0294,  0.0415,  0.0171, -0.0008, -0.0073,
+        -0.0245, -0.0163], device='cuda:0'), grad: tensor([ 5.2387e-09,  3.7893e-08, -4.7905e-08,  2.9104e-09,  1.8626e-08,
+         1.9791e-09,  9.0222e-09, -4.1269e-08,  2.6484e-08,  2.6776e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 492, time 220.44, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.3947 re_mapping 0.0019 re_causal 0.0069 /// teacc 99.16 lr 0.00001000
+Epoch 494, weight, value: tensor([[-0.3289,  0.2703, -0.0327,  ..., -0.1770,  0.0125, -0.0015],
+        [ 0.0069, -0.1778, -0.0298,  ...,  0.0541, -0.0800, -0.1019],
+        [-0.2728, -0.3273,  0.0585,  ..., -0.1598, -0.0849, -0.2609],
+        ...,
+        [ 0.0921,  0.2085, -0.1081,  ..., -0.1903,  0.0922,  0.1015],
+        [ 0.0289, -0.2241, -0.0710,  ..., -0.1713, -0.1358, -0.1315],
+        [-0.3220, -0.1036, -0.0738,  ...,  0.1119, -0.3531,  0.1239]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 5.8208e-11,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.7462e-10,  2.9104e-10],
+        [ 1.7462e-10,  0.0000e+00,  0.0000e+00,  ...,  1.7462e-10,
+          0.0000e+00,  6.9849e-10],
+        ...,
+        [-2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  1.1642e-10,
+          2.3283e-10, -2.6193e-09],
+        [ 4.0745e-10,  0.0000e+00,  0.0000e+00,  ...,  5.8208e-11,
+          2.3283e-10,  1.7462e-10],
+        [ 1.1642e-10,  5.8208e-11,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  2.9104e-10]], device='cuda:0')
+Epoch 494, bias, value: tensor([ 0.0205, -0.0326,  0.0205, -0.0294,  0.0416,  0.0171, -0.0008, -0.0073,
+        -0.0246, -0.0163], device='cuda:0'), grad: tensor([ 4.6566e-10,  2.6193e-09,  6.9849e-10,  3.4343e-09,  4.6566e-09,
+        -1.7462e-09,  1.3970e-09, -7.5670e-09,  4.1327e-09,  1.9209e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 493, time 220.89, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4345 re_mapping 0.0019 re_causal 0.0071 /// teacc 99.17 lr 0.00001000
+Epoch 495, weight, value: tensor([[-0.3289,  0.2704, -0.0327,  ..., -0.1771,  0.0125, -0.0016],
+        [ 0.0068, -0.1779, -0.0298,  ...,  0.0541, -0.0800, -0.1021],
+        [-0.2729, -0.3274,  0.0585,  ..., -0.1599, -0.0850, -0.2610],
+        ...,
+        [ 0.0923,  0.2086, -0.1081,  ..., -0.1904,  0.0922,  0.1016],
+        [ 0.0288, -0.2241, -0.0710,  ..., -0.1714, -0.1359, -0.1315],
+        [-0.3221, -0.1036, -0.0738,  ...,  0.1121, -0.3531,  0.1240]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  5.8208e-11,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-10,  2.3283e-10],
+        [ 2.9104e-09,  5.2387e-10,  0.0000e+00,  ...,  2.7358e-09,
+          2.9104e-10,  8.1491e-10],
+        [ 1.6880e-09,  1.2806e-09,  0.0000e+00,  ...,  7.5670e-10,
+          1.1642e-10,  1.8044e-09],
+        ...,
+        [-1.3970e-09, -1.9791e-09,  0.0000e+00,  ...,  5.2387e-10,
+          1.7462e-10, -2.5029e-09],
+        [ 6.9849e-10,  1.7462e-10,  0.0000e+00,  ...,  5.8208e-11,
+          1.1642e-10,  2.3283e-10],
+        [ 2.5611e-09,  1.3970e-09,  0.0000e+00,  ...,  1.6880e-09,
+          2.9104e-10,  1.4552e-09]], device='cuda:0')
+Epoch 495, bias, value: tensor([ 0.0205, -0.0327,  0.0206, -0.0295,  0.0415,  0.0171, -0.0008, -0.0072,
+        -0.0246, -0.0163], device='cuda:0'), grad: tensor([ 2.9104e-09,  1.4727e-08,  1.2689e-08, -7.0431e-09, -1.9267e-08,
+        -9.4005e-08,  8.6497e-08, -1.0536e-08,  3.6089e-09,  1.6589e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 494, time 220.84, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4296 re_mapping 0.0018 re_causal 0.0069 /// teacc 99.18 lr 0.00001000
+Epoch 496, weight, value: tensor([[-0.3289,  0.2705, -0.0327,  ..., -0.1771,  0.0125, -0.0016],
+        [ 0.0068, -0.1779, -0.0298,  ...,  0.0542, -0.0801, -0.1023],
+        [-0.2730, -0.3275,  0.0585,  ..., -0.1599, -0.0851, -0.2611],
+        ...,
+        [ 0.0924,  0.2087, -0.1081,  ..., -0.1907,  0.0922,  0.1016],
+        [ 0.0289, -0.2241, -0.0710,  ..., -0.1715, -0.1359, -0.1316],
+        [-0.3222, -0.1037, -0.0738,  ...,  0.1123, -0.3532,  0.1242]],
+       device='cuda:0'), grad: tensor([[ 5.8208e-10, -6.3446e-09,  5.8208e-11,  ...,  5.8208e-11,
+          0.0000e+00,  1.1642e-10],
+        [ 2.0955e-09,  2.6193e-09,  1.1642e-10,  ...,  2.9104e-10,
+          5.8208e-11,  1.2224e-09],
+        [ 5.8790e-09, -4.0745e-10,  2.9104e-10,  ...,  1.7462e-10,
+          5.8208e-11,  2.9104e-10],
+        ...,
+        [ 3.4925e-10, -2.4447e-09,  5.8208e-11,  ...,  3.9581e-09,
+          5.8208e-11,  3.2014e-09],
+        [-1.5018e-08,  4.0745e-10, -7.5670e-10,  ...,  2.3283e-10,
+          5.8208e-11,  2.9104e-10],
+        [ 1.6880e-09,  1.5716e-09,  5.8208e-11,  ..., -4.7148e-09,
+          0.0000e+00, -5.9954e-09]], device='cuda:0')
+Epoch 496, bias, value: tensor([ 0.0205, -0.0328,  0.0206, -0.0295,  0.0414,  0.0171, -0.0008, -0.0074,
+        -0.0245, -0.0161], device='cuda:0'), grad: tensor([-4.4820e-09,  2.3574e-08,  2.0664e-08, -5.8208e-11,  3.6671e-09,
+         2.3108e-08,  2.1129e-08,  1.9500e-08, -8.6613e-08, -8.7311e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 495, time 220.72, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4355 re_mapping 0.0019 re_causal 0.0070 /// teacc 99.19 lr 0.00001000
+Epoch 497, weight, value: tensor([[-0.3289,  0.2706, -0.0327,  ..., -0.1772,  0.0125, -0.0016],
+        [ 0.0068, -0.1780, -0.0298,  ...,  0.0542, -0.0801, -0.1024],
+        [-0.2731, -0.3275,  0.0584,  ..., -0.1600, -0.0851, -0.2611],
+        ...,
+        [ 0.0924,  0.2088, -0.1081,  ..., -0.1908,  0.0922,  0.1016],
+        [ 0.0289, -0.2242, -0.0710,  ..., -0.1715, -0.1359, -0.1317],
+        [-0.3224, -0.1039, -0.0738,  ...,  0.1123, -0.3532,  0.1244]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  6.4028e-10,  ...,  8.7311e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 1.1642e-10,  5.8208e-11,  5.8208e-11,  ..., -5.8208e-11,
+          0.0000e+00,  2.3283e-10],
+        [ 2.9104e-10,  0.0000e+00,  0.0000e+00,  ...,  5.8208e-10,
+          5.8208e-11,  1.7462e-10],
+        ...,
+        [ 8.1491e-10, -2.3283e-10,  1.7462e-10,  ...,  8.7311e-10,
+          5.8208e-11, -1.0477e-09],
+        [ 3.4925e-10,  5.8208e-11,  1.7462e-10,  ...,  3.4925e-10,
+          1.7462e-10,  3.4925e-10],
+        [ 6.9849e-10,  5.8208e-11,  1.1642e-10,  ...,  4.6566e-10,
+          0.0000e+00,  4.0745e-10]], device='cuda:0')
+Epoch 497, bias, value: tensor([ 0.0205, -0.0328,  0.0207, -0.0296,  0.0414,  0.0171, -0.0008, -0.0074,
+        -0.0245, -0.0161], device='cuda:0'), grad: tensor([ 3.6671e-09,  2.3283e-10,  4.3656e-09, -2.8522e-09, -9.3714e-09,
+         1.1118e-08, -1.0710e-08,  4.0163e-09,  4.2492e-09,  5.1223e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 496, time 220.28, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4392 re_mapping 0.0019 re_causal 0.0072 /// teacc 99.22 lr 0.00001000
+Epoch 498, weight, value: tensor([[-0.3289,  0.2708, -0.0327,  ..., -0.1772,  0.0125, -0.0016],
+        [ 0.0069, -0.1780, -0.0298,  ...,  0.0542, -0.0802, -0.1024],
+        [-0.2732, -0.3275,  0.0584,  ..., -0.1600, -0.0851, -0.2612],
+        ...,
+        [ 0.0925,  0.2089, -0.1081,  ..., -0.1909,  0.0922,  0.1016],
+        [ 0.0289, -0.2242, -0.0710,  ..., -0.1716, -0.1359, -0.1317],
+        [-0.3226, -0.1039, -0.0738,  ...,  0.1124, -0.3532,  0.1245]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.3970e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.7462e-10],
+        [ 1.6298e-09,  1.9034e-08,  0.0000e+00,  ...,  0.0000e+00,
+          4.2492e-09,  1.1642e-08],
+        [ 3.0268e-09,  5.6461e-09,  0.0000e+00,  ...,  6.9849e-10,
+          2.6193e-09,  5.1223e-09],
+        ...,
+        [-3.7253e-09, -4.1269e-08,  0.0000e+00,  ...,  5.8208e-11,
+         -8.9640e-09, -2.7299e-08],
+        [-4.0745e-10,  1.3970e-09,  0.0000e+00,  ...,  0.0000e+00,
+          6.9849e-10,  9.3132e-10],
+        [ 6.9849e-10,  1.5134e-08,  0.0000e+00,  ...,  0.0000e+00,
+          2.2119e-09,  1.0070e-08]], device='cuda:0')
+Epoch 498, bias, value: tensor([ 0.0207, -0.0328,  0.0207, -0.0296,  0.0415,  0.0170, -0.0008, -0.0075,
+        -0.0245, -0.0162], device='cuda:0'), grad: tensor([-2.9686e-09,  5.3027e-08,  2.9802e-08,  1.3970e-09, -1.3388e-09,
+         3.8999e-09,  1.3970e-09, -1.1595e-07, -1.8626e-09,  4.1095e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 497, time 220.25, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4200 re_mapping 0.0019 re_causal 0.0071 /// teacc 99.20 lr 0.00001000
+Epoch 499, weight, value: tensor([[-0.3289,  0.2710, -0.0327,  ..., -0.1773,  0.0125, -0.0017],
+        [ 0.0068, -0.1781, -0.0298,  ...,  0.0543, -0.0802, -0.1025],
+        [-0.2732, -0.3276,  0.0585,  ..., -0.1601, -0.0852, -0.2613],
+        ...,
+        [ 0.0925,  0.2090, -0.1081,  ..., -0.1910,  0.0923,  0.1015],
+        [ 0.0289, -0.2242, -0.0710,  ..., -0.1717, -0.1360, -0.1318],
+        [-0.3227, -0.1040, -0.0738,  ...,  0.1125, -0.3533,  0.1246]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.8208e-11,
+          0.0000e+00,  0.0000e+00],
+        [-1.2224e-09,  1.7462e-10, -9.8953e-10,  ..., -1.1642e-09,
+          2.3283e-10,  1.3388e-09],
+        [ 2.3283e-10,  1.7462e-10,  3.4925e-10,  ...,  4.0745e-10,
+         -3.4925e-10,  4.0745e-10],
+        ...,
+        [ 5.8208e-10,  0.0000e+00, -6.4028e-10,  ...,  5.8208e-10,
+          3.4925e-10, -3.4925e-09],
+        [ 9.8953e-10,  4.0745e-10,  8.1491e-10,  ...,  1.1642e-10,
+          5.8208e-11,  2.0955e-09],
+        [ 5.8208e-10,  7.5670e-10,  3.4925e-10,  ...,  1.3388e-09,
+          8.1491e-10,  1.3388e-09]], device='cuda:0')
+Epoch 499, bias, value: tensor([ 0.0208, -0.0328,  0.0208, -0.0295,  0.0414,  0.0170, -0.0008, -0.0076,
+        -0.0244, -0.0161], device='cuda:0'), grad: tensor([ 1.2806e-09, -3.0268e-08,  2.7940e-09,  1.4552e-09, -4.0745e-10,
+        -5.8208e-10,  5.4133e-09,  8.3819e-09,  1.0361e-08,  1.4843e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 498, time 219.91, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4384 re_mapping 0.0019 re_causal 0.0071 /// teacc 99.20 lr 0.00001000
+Epoch 500, weight, value: tensor([[-0.3289,  0.2712, -0.0327,  ..., -0.1774,  0.0125, -0.0017],
+        [ 0.0068, -0.1782, -0.0298,  ...,  0.0543, -0.0803, -0.1026],
+        [-0.2733, -0.3276,  0.0585,  ..., -0.1601, -0.0852, -0.2614],
+        ...,
+        [ 0.0926,  0.2091, -0.1081,  ..., -0.1912,  0.0922,  0.1015],
+        [ 0.0290, -0.2243, -0.0710,  ..., -0.1718, -0.1360, -0.1319],
+        [-0.3228, -0.1041, -0.0738,  ...,  0.1127, -0.3533,  0.1249]],
+       device='cuda:0'), grad: tensor([[ 5.8208e-11,  5.8208e-11,  0.0000e+00,  ...,  4.0745e-10,
+          0.0000e+00,  5.8208e-10],
+        [ 1.3388e-09,  1.1059e-09,  0.0000e+00,  ...,  1.2224e-09,
+          5.8208e-10,  2.5611e-09],
+        [ 1.1642e-10,  5.8208e-11,  0.0000e+00,  ...,  8.1491e-10,
+          5.8208e-11,  1.1642e-09],
+        ...,
+        [-2.8871e-08, -2.8638e-08,  0.0000e+00,  ..., -1.4785e-08,
+         -1.6822e-08, -6.6822e-08],
+        [ 2.9104e-10,  2.3283e-10,  0.0000e+00,  ...,  6.2864e-09,
+          1.1642e-10,  8.6147e-09],
+        [ 3.1840e-08,  2.7474e-08,  0.0000e+00,  ...,  1.2165e-08,
+          1.6065e-08,  4.9826e-08]], device='cuda:0')
+Epoch 500, bias, value: tensor([ 0.0208, -0.0330,  0.0209, -0.0295,  0.0413,  0.0169, -0.0007, -0.0077,
+        -0.0244, -0.0159], device='cuda:0'), grad: tensor([ 3.6671e-09,  3.1665e-08, -3.6089e-08,  8.8476e-09, -3.8999e-09,
+        -6.9849e-10,  3.6671e-09, -2.0768e-07,  3.5798e-08,  1.7590e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 499, time 220.18, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4016 re_mapping 0.0019 re_causal 0.0070 /// teacc 99.20 lr 0.00001000
+---------------------saving last model at epoch 499----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps4', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps4/14factor_best.csv', 'channels': 3, 'factor_num': 14, 'stride': 3, 'epoch': 'best', 'eval_mapping': True}
+loading weight of best
+randm: False
+stride: 3
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+Using downloaded and verified file: /home/yuqian_fu/.pytorch/SVHN/test_32x32.mat
+                         mnist   mnist_FA  ...    usps_FA        Avg
+ShearX               98.970001  99.040001  ...  86.945686  69.764622
+ShearY               98.790001  98.940002  ...  86.945686  67.276324
+AutoContrast         99.089996  99.129997  ...  86.945686  61.274684
+Invert               98.720001  93.839996  ...  86.945686  50.101730
+Equalize             98.220001  98.409996  ...  86.945686  73.226051
+Solarize             98.059998  97.689995  ...  86.945686  63.925620
+SolarizeAdd          98.250000  97.829994  ...  86.945686  70.808240
+Posterize            99.010002  99.159996  ...  86.945686  73.015031
+Contrast             98.989998  99.260002  ...  86.945686  67.801760
+Color                99.049995  99.269997  ...  86.945686  59.026607
+Brightness           98.839996  99.279999  ...  86.945686  66.790533
+Sharpness            99.070000  99.209999  ...  86.945686  69.948109
+NoiseSalt            99.180000  99.220001  ...  86.945686  56.808372
+NoiseGaussian        99.070000  99.269997  ...  86.945686  58.316548
+w/o do (original x)  99.270000   0.000000  ...   0.000000  73.227632
+
+[15 rows x 11 columns]
+    mnist       svhn    mnist_m   syndigit       usps       Avg
+do   99.2  68.411955  78.757916  76.478593  86.098655  77.43678
diff --git a/Meta-causal/code-withStyleAttack/66570.error b/Meta-causal/code-withStyleAttack/66570.error
new file mode 100644
index 0000000000000000000000000000000000000000..73d7ba71d3cfe95f3c5799618de65f9325cb0186
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/66570.error
@@ -0,0 +1 @@
+run_my_joint_test.sh: line 38: clsadapt: command not found
diff --git a/Meta-causal/code-withStyleAttack/66570.log b/Meta-causal/code-withStyleAttack/66570.log
new file mode 100644
index 0000000000000000000000000000000000000000..22da83561d860d7326cc2e39aac95d998e2b4f70
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/66570.log
@@ -0,0 +1,14081 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 500, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps5', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 3
+--------------------------CA_multiple--------------------------
+---------------------------14 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+Epoch 1, weight, value: tensor([[-2.0338e-02,  2.8873e-02, -4.7888e-03,  ..., -1.2311e-02,
+          2.2054e-02,  1.7408e-02],
+        [-2.0231e-02,  6.1802e-03,  1.2685e-02,  ..., -1.8912e-02,
+          2.6775e-02, -1.1620e-02],
+        [-1.9306e-02,  1.4900e-02, -2.6086e-02,  ..., -5.8901e-03,
+          9.1994e-03,  2.9826e-02],
+        ...,
+        [ 8.8666e-03,  2.0376e-02,  5.6834e-03,  ...,  6.7483e-03,
+          1.1188e-02,  3.1058e-02],
+        [ 1.8620e-02,  2.2866e-02, -1.3200e-02,  ..., -3.5290e-05,
+         -9.7229e-03,  5.5188e-03],
+        [ 8.4471e-04, -2.3735e-02, -4.7123e-03,  ...,  1.0032e-02,
+         -2.1812e-02,  2.6384e-02]], device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([ 0.0307, -0.0057, -0.0157,  0.0173, -0.0013, -0.0175, -0.0030,  0.0068,
+        -0.0251,  0.0207], device='cuda:0'), grad: None
+100
+0.0001
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 221.11, cls_loss 1.2116 cls_loss_mapping 1.7897 cls_loss_causal 2.1944 re_mapping 0.1720 re_causal 0.1828 /// teacc 87.95 lr 0.00010000
+Epoch 2, weight, value: tensor([[-0.0172,  0.0213, -0.0022,  ..., -0.0190,  0.0143,  0.0114],
+        [-0.0274,  0.0060,  0.0047,  ..., -0.0263,  0.0295, -0.0188],
+        [-0.0218,  0.0105, -0.0284,  ..., -0.0093,  0.0098,  0.0346],
+        ...,
+        [ 0.0168,  0.0218,  0.0048,  ...,  0.0135,  0.0113,  0.0245],
+        [ 0.0192,  0.0225, -0.0104,  ..., -0.0043, -0.0142,  0.0052],
+        [ 0.0037, -0.0215, -0.0055,  ...,  0.0140, -0.0198,  0.0262]],
+       device='cuda:0'), grad: tensor([[-0.0015,  0.0030, -0.0203,  ...,  0.0029,  0.0006,  0.0042],
+        [ 0.0110,  0.0158,  0.0072,  ...,  0.0115,  0.0029,  0.0109],
+        [ 0.0067,  0.0088,  0.0028,  ..., -0.0056, -0.0185, -0.0535],
+        ...,
+        [ 0.0002, -0.0096,  0.0317,  ...,  0.0119,  0.0051,  0.0142],
+        [-0.0444, -0.0373, -0.0276,  ..., -0.0711, -0.0139, -0.0612],
+        [-0.0226, -0.0166, -0.0166,  ..., -0.0589, -0.0157, -0.0084]],
+       device='cuda:0')
+Epoch 2, bias, value: tensor([ 0.0287, -0.0047, -0.0155,  0.0172, -0.0021, -0.0166, -0.0034,  0.0083,
+        -0.0266,  0.0197], device='cuda:0'), grad: tensor([-0.0113,  0.0240,  0.0001,  0.0371,  0.0612, -0.0600,  0.0221,  0.0098,
+        -0.0606, -0.0224], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 220.87, cls_loss 0.3204 cls_loss_mapping 0.7082 cls_loss_causal 1.8723 re_mapping 0.2134 re_causal 0.2817 /// teacc 93.84 lr 0.00010000
+Epoch 3, weight, value: tensor([[-0.0156,  0.0175, -0.0010,  ..., -0.0212,  0.0130,  0.0094],
+        [-0.0310,  0.0075,  0.0021,  ..., -0.0284,  0.0314, -0.0208],
+        [-0.0205,  0.0081, -0.0295,  ..., -0.0110,  0.0084,  0.0366],
+        ...,
+        [ 0.0191,  0.0215,  0.0018,  ...,  0.0152,  0.0103,  0.0226],
+        [ 0.0219,  0.0225, -0.0078,  ..., -0.0078, -0.0176,  0.0068],
+        [ 0.0078, -0.0195, -0.0035,  ...,  0.0163, -0.0210,  0.0271]],
+       device='cuda:0'), grad: tensor([[ 0.0005,  0.0025, -0.0090,  ...,  0.0018,  0.0022,  0.0017],
+        [ 0.0027,  0.0062,  0.0061,  ...,  0.0037,  0.0040,  0.0066],
+        [ 0.0005, -0.0014, -0.0147,  ...,  0.0031,  0.0059, -0.0241],
+        ...,
+        [-0.0231, -0.0037,  0.0009,  ..., -0.0158,  0.0015, -0.0042],
+        [-0.0075, -0.0100, -0.0054,  ...,  0.0017,  0.0063,  0.0075],
+        [ 0.0070, -0.0002, -0.0046,  ..., -0.0047, -0.0077,  0.0029]],
+       device='cuda:0')
+Epoch 3, bias, value: tensor([ 0.0289, -0.0046, -0.0156,  0.0169, -0.0029, -0.0162, -0.0039,  0.0080,
+        -0.0260,  0.0204], device='cuda:0'), grad: tensor([-0.0036,  0.0114, -0.0141, -0.0050, -0.0393,  0.0229,  0.0439, -0.0081,
+        -0.0078, -0.0004], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 220.60, cls_loss 0.2093 cls_loss_mapping 0.4317 cls_loss_causal 1.6596 re_mapping 0.1496 re_causal 0.2387 /// teacc 95.57 lr 0.00010000
+Epoch 4, weight, value: tensor([[-1.3835e-02,  1.5192e-02, -2.6956e-04,  ..., -2.3209e-02,
+          1.1168e-02,  8.0131e-03],
+        [-3.2520e-02,  8.4930e-03,  3.2596e-04,  ..., -2.9654e-02,
+          3.3284e-02, -2.2537e-02],
+        [-2.1327e-02,  6.1256e-03, -3.0191e-02,  ..., -1.2489e-02,
+          6.8937e-03,  3.7925e-02],
+        ...,
+        [ 2.1169e-02,  2.1431e-02, -3.8800e-05,  ...,  1.6649e-02,
+          9.3628e-03,  2.1579e-02],
+        [ 2.3683e-02,  2.2640e-02, -6.6909e-03,  ..., -9.4372e-03,
+         -1.9386e-02,  7.6527e-03],
+        [ 8.5494e-03, -1.8640e-02, -1.7218e-03,  ...,  1.7103e-02,
+         -2.2801e-02,  2.7186e-02]], device='cuda:0'), grad: tensor([[-0.0004,  0.0011, -0.0002,  ...,  0.0006,  0.0006,  0.0014],
+        [ 0.0039,  0.0107,  0.0012,  ...,  0.0031,  0.0011,  0.0038],
+        [ 0.0051,  0.0072, -0.0010,  ..., -0.0397, -0.0367, -0.0419],
+        ...,
+        [-0.0083, -0.0075,  0.0015,  ..., -0.0127, -0.0001, -0.0126],
+        [-0.0126, -0.0221,  0.0021,  ...,  0.0030,  0.0034, -0.0017],
+        [ 0.0057,  0.0154,  0.0035,  ...,  0.0089,  0.0046,  0.0073]],
+       device='cuda:0')
+Epoch 4, bias, value: tensor([ 0.0293, -0.0049, -0.0155,  0.0169, -0.0033, -0.0162, -0.0040,  0.0080,
+        -0.0259,  0.0207], device='cuda:0'), grad: tensor([ 0.0002,  0.0117, -0.0146,  0.0112,  0.0144,  0.0131, -0.0163, -0.0142,
+        -0.0214,  0.0159], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 220.55, cls_loss 0.1576 cls_loss_mapping 0.3001 cls_loss_causal 1.4660 re_mapping 0.1147 re_causal 0.1962 /// teacc 96.10 lr 0.00010000
+Epoch 5, weight, value: tensor([[-1.2819e-02,  1.2800e-02, -5.7126e-06,  ..., -2.4761e-02,
+          9.9418e-03,  6.7867e-03],
+        [-3.4546e-02,  9.3752e-03, -1.0822e-03,  ..., -3.0659e-02,
+          3.4044e-02, -2.4124e-02],
+        [-2.1273e-02,  3.6643e-03, -3.0604e-02,  ..., -1.3637e-02,
+          6.5717e-03,  3.9395e-02],
+        ...,
+        [ 2.2334e-02,  2.0352e-02, -1.5579e-03,  ...,  1.7287e-02,
+          7.9728e-03,  2.0681e-02],
+        [ 2.5590e-02,  2.3290e-02, -5.9635e-03,  ..., -1.0940e-02,
+         -2.1025e-02,  8.5825e-03],
+        [ 9.4028e-03, -1.7710e-02, -2.6248e-04,  ...,  1.8092e-02,
+         -2.3775e-02,  2.7445e-02]], device='cuda:0'), grad: tensor([[-1.8511e-03,  6.1989e-04, -1.6422e-03,  ...,  7.1001e-04,
+          3.2187e-04, -4.7535e-05],
+        [ 2.5845e-03, -8.0795e-03,  7.4577e-04,  ..., -3.3817e-03,
+         -3.7384e-03,  3.8834e-03],
+        [-5.7449e-03, -3.8414e-03,  4.2419e-03,  ..., -3.0918e-03,
+          3.5620e-04, -1.2184e-02],
+        ...,
+        [-7.0906e-04,  1.9684e-03,  2.1915e-03,  ..., -3.9053e-04,
+          8.5354e-04,  3.8071e-03],
+        [-3.1872e-03,  2.3270e-03,  5.9052e-03,  ...,  2.2125e-03,
+          9.6893e-04,  4.7340e-03],
+        [ 5.1956e-03,  6.8245e-03,  2.6875e-03,  ...,  2.5349e-03,
+          1.2388e-03,  2.7390e-03]], device='cuda:0')
+Epoch 5, bias, value: tensor([ 0.0292, -0.0051, -0.0150,  0.0170, -0.0035, -0.0162, -0.0042,  0.0078,
+        -0.0259,  0.0209], device='cuda:0'), grad: tensor([-0.0015, -0.0012, -0.0146, -0.0032,  0.0029,  0.0174, -0.0219,  0.0033,
+         0.0100,  0.0088], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 220.68, cls_loss 0.1190 cls_loss_mapping 0.2190 cls_loss_causal 1.3125 re_mapping 0.0955 re_causal 0.1723 /// teacc 97.06 lr 0.00010000
+Epoch 6, weight, value: tensor([[-1.2686e-02,  1.0770e-02,  4.0780e-05,  ..., -2.5924e-02,
+          9.5085e-03,  6.6466e-03],
+        [-3.5054e-02,  1.0110e-02, -2.1269e-03,  ..., -3.0457e-02,
+          3.4784e-02, -2.5700e-02],
+        [-2.1650e-02,  1.7044e-03, -3.1771e-02,  ..., -1.4879e-02,
+          5.9343e-03,  4.0409e-02],
+        ...,
+        [ 2.3341e-02,  1.9823e-02, -2.6772e-03,  ...,  1.8167e-02,
+          6.6918e-03,  1.9521e-02],
+        [ 2.6894e-02,  2.3559e-02, -5.1741e-03,  ..., -1.2062e-02,
+         -2.2126e-02,  1.0126e-02],
+        [ 9.9560e-03, -1.7401e-02,  6.5516e-04,  ...,  1.8316e-02,
+         -2.5046e-02,  2.7003e-02]], device='cuda:0'), grad: tensor([[-1.2338e-04,  6.4707e-04, -3.5739e-04,  ...,  5.6791e-04,
+          4.9496e-04,  6.9666e-04],
+        [ 3.7537e-03,  7.9117e-03,  2.5845e-03,  ...,  2.9640e-03,
+          1.6117e-03,  4.8943e-03],
+        [ 7.0238e-04,  8.0526e-05,  2.3949e-04,  ...,  5.0688e-04,
+          8.5258e-04, -3.8624e-03],
+        ...,
+        [-2.1881e-02, -1.9775e-02, -1.9226e-03,  ..., -2.9373e-02,
+          3.0351e-04,  4.8685e-04],
+        [-4.5204e-03, -9.5444e-03, -4.0092e-03,  ...,  1.3142e-03,
+         -3.1242e-03, -8.0643e-03],
+        [ 1.4099e-02,  2.0828e-02,  4.9171e-03,  ...,  2.0355e-02,
+         -6.3419e-04,  2.7370e-03]], device='cuda:0')
+Epoch 6, bias, value: tensor([ 0.0293, -0.0055, -0.0149,  0.0173, -0.0035, -0.0162, -0.0042,  0.0077,
+        -0.0256,  0.0205], device='cuda:0'), grad: tensor([-0.0004,  0.0097, -0.0009,  0.0059,  0.0047, -0.0128,  0.0037, -0.0201,
+        -0.0127,  0.0229], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 5----------------------------------------------------
+epoch 5, time 220.63, cls_loss 0.1108 cls_loss_mapping 0.1942 cls_loss_causal 1.2632 re_mapping 0.0785 re_causal 0.1482 /// teacc 97.20 lr 0.00010000
+Epoch 7, weight, value: tensor([[-1.2187e-02,  9.0787e-03,  1.4907e-04,  ..., -2.7287e-02,
+          8.5178e-03,  6.1161e-03],
+        [-3.5633e-02,  1.0341e-02, -2.8623e-03,  ..., -3.1916e-02,
+          3.4223e-02, -2.6920e-02],
+        [-2.2411e-02,  8.2805e-05, -3.2625e-02,  ..., -1.5888e-02,
+          5.5865e-03,  4.1615e-02],
+        ...,
+        [ 2.4301e-02,  1.9375e-02, -3.7758e-03,  ...,  1.8854e-02,
+          5.7177e-03,  1.8441e-02],
+        [ 2.7874e-02,  2.3951e-02, -4.6641e-03,  ..., -1.2754e-02,
+         -2.2706e-02,  1.1112e-02],
+        [ 1.0750e-02, -1.6933e-02,  1.9538e-03,  ...,  1.8652e-02,
+         -2.6157e-02,  2.7072e-02]], device='cuda:0'), grad: tensor([[-1.2660e-04,  7.4148e-04,  4.1962e-04,  ...,  6.2704e-05,
+          3.9840e-04,  6.2752e-04],
+        [ 4.2987e-04, -1.4214e-02, -1.3900e-04,  ..., -5.6535e-05,
+         -7.0000e-04,  2.3770e-04],
+        [-1.4439e-03,  3.6755e-03,  8.3065e-04,  ...,  2.7156e-04,
+          3.7384e-04, -3.0308e-03],
+        ...,
+        [ 4.1628e-04,  3.5439e-03,  3.5667e-04,  ...,  3.4690e-04,
+          9.7215e-05,  1.0881e-03],
+        [-3.7766e-04,  2.5101e-03,  1.1343e-04,  ...,  2.1625e-04,
+          4.1342e-04,  1.2350e-04],
+        [ 3.9792e-04,  1.9054e-03,  1.0176e-03,  ...,  6.3276e-04,
+          1.7607e-04,  5.1785e-04]], device='cuda:0')
+Epoch 7, bias, value: tensor([ 0.0295, -0.0059, -0.0148,  0.0179, -0.0034, -0.0163, -0.0046,  0.0074,
+        -0.0254,  0.0204], device='cuda:0'), grad: tensor([ 0.0016, -0.0124,  0.0002,  0.0030,  0.0023, -0.0065,  0.0003,  0.0044,
+         0.0035,  0.0036], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 6, time 220.44, cls_loss 0.1000 cls_loss_mapping 0.1771 cls_loss_causal 1.1792 re_mapping 0.0676 re_causal 0.1338 /// teacc 96.81 lr 0.00010000
+Epoch 8, weight, value: tensor([[-0.0113,  0.0074,  0.0003,  ..., -0.0289,  0.0066,  0.0053],
+        [-0.0360,  0.0113, -0.0034,  ..., -0.0315,  0.0342, -0.0288],
+        [-0.0226, -0.0018, -0.0335,  ..., -0.0170,  0.0050,  0.0428],
+        ...,
+        [ 0.0251,  0.0190, -0.0046,  ...,  0.0196,  0.0051,  0.0175],
+        [ 0.0290,  0.0244, -0.0041,  ..., -0.0129, -0.0232,  0.0123],
+        [ 0.0113, -0.0168,  0.0030,  ...,  0.0189, -0.0270,  0.0271]],
+       device='cuda:0'), grad: tensor([[ 2.3991e-05,  3.6120e-04,  7.6199e-04,  ...,  7.2145e-04,
+          5.5981e-04,  6.3801e-04],
+        [ 2.5201e-04, -4.5586e-04,  6.8140e-04,  ...,  3.7694e-04,
+         -2.1601e-04,  4.4370e-04],
+        [ 7.6342e-04,  7.3481e-04,  1.1253e-03,  ...,  9.2220e-04,
+          5.5456e-04,  3.3426e-04],
+        ...,
+        [ 5.8889e-04,  8.7595e-04,  6.3896e-04,  ...,  9.3937e-04,
+          3.8052e-04,  8.6498e-04],
+        [ 8.7619e-05,  4.7150e-03,  1.6775e-03,  ...,  5.3101e-03,
+          3.4161e-03,  3.5439e-03],
+        [-4.7989e-03, -2.1439e-03, -3.5477e-03,  ..., -7.0724e-03,
+         -1.6165e-03, -2.4433e-03]], device='cuda:0')
+Epoch 8, bias, value: tensor([ 0.0294, -0.0059, -0.0144,  0.0178, -0.0036, -0.0163, -0.0047,  0.0074,
+        -0.0250,  0.0201], device='cuda:0'), grad: tensor([ 0.0007, -0.0002,  0.0008,  0.0017, -0.0015, -0.0055,  0.0018,  0.0015,
+         0.0063, -0.0057], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 7----------------------------------------------------
+epoch 7, time 220.74, cls_loss 0.1022 cls_loss_mapping 0.1662 cls_loss_causal 1.1195 re_mapping 0.0585 re_causal 0.1186 /// teacc 97.69 lr 0.00010000
+Epoch 9, weight, value: tensor([[-0.0097,  0.0065,  0.0007,  ..., -0.0302,  0.0052,  0.0047],
+        [-0.0369,  0.0114, -0.0041,  ..., -0.0323,  0.0331, -0.0308],
+        [-0.0239, -0.0028, -0.0348,  ..., -0.0183,  0.0046,  0.0436],
+        ...,
+        [ 0.0256,  0.0189, -0.0056,  ...,  0.0201,  0.0044,  0.0169],
+        [ 0.0308,  0.0245, -0.0034,  ..., -0.0138, -0.0237,  0.0137],
+        [ 0.0120, -0.0164,  0.0037,  ...,  0.0193, -0.0277,  0.0270]],
+       device='cuda:0'), grad: tensor([[-3.1948e-05,  4.7636e-04,  4.9889e-05,  ...,  2.8205e-04,
+          1.8549e-04,  2.9922e-04],
+        [-1.1384e-04,  4.6182e-04,  2.1243e-04,  ...,  1.2553e-04,
+          6.1035e-04,  2.0370e-03],
+        [ 5.0354e-04,  1.5488e-03,  8.1730e-04,  ...,  8.7500e-04,
+          1.0605e-03, -1.1301e-03],
+        ...,
+        [-1.5545e-03,  3.8266e-04,  7.3624e-04,  ..., -1.3103e-03,
+          3.2806e-04,  5.8746e-04],
+        [ 1.8635e-03,  3.0346e-03,  1.8282e-03,  ...,  3.0422e-03,
+          5.4789e-04,  1.0853e-03],
+        [-3.0346e-03, -3.1776e-03, -3.9101e-03,  ..., -5.1079e-03,
+         -6.7520e-04, -2.0828e-03]], device='cuda:0')
+Epoch 9, bias, value: tensor([ 0.0294, -0.0064, -0.0143,  0.0182, -0.0036, -0.0161, -0.0050,  0.0071,
+        -0.0248,  0.0201], device='cuda:0'), grad: tensor([ 0.0007,  0.0027,  0.0008, -0.0098, -0.0097,  0.0053,  0.0094,  0.0001,
+         0.0040, -0.0036], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 8----------------------------------------------------
+epoch 8, time 220.71, cls_loss 0.0765 cls_loss_mapping 0.1339 cls_loss_causal 1.1052 re_mapping 0.0525 re_causal 0.1136 /// teacc 98.08 lr 0.00010000
+Epoch 10, weight, value: tensor([[-0.0094,  0.0058,  0.0011,  ..., -0.0315,  0.0041,  0.0041],
+        [-0.0369,  0.0120, -0.0050,  ..., -0.0316,  0.0326, -0.0318],
+        [-0.0242, -0.0040, -0.0352,  ..., -0.0194,  0.0038,  0.0443],
+        ...,
+        [ 0.0261,  0.0180, -0.0067,  ...,  0.0205,  0.0039,  0.0160],
+        [ 0.0315,  0.0251, -0.0030,  ..., -0.0147, -0.0244,  0.0142],
+        [ 0.0129, -0.0159,  0.0047,  ...,  0.0199, -0.0281,  0.0270]],
+       device='cuda:0'), grad: tensor([[ 0.0063,  0.0098,  0.0076,  ...,  0.0066,  0.0007,  0.0086],
+        [ 0.0011,  0.0006,  0.0006,  ...,  0.0020,  0.0004,  0.0004],
+        [-0.0047, -0.0082, -0.0105,  ...,  0.0007,  0.0002, -0.0109],
+        ...,
+        [-0.0030, -0.0003,  0.0026,  ..., -0.0083, -0.0015,  0.0017],
+        [ 0.0003,  0.0031,  0.0028,  ...,  0.0007,  0.0003,  0.0020],
+        [-0.0059, -0.0044, -0.0062,  ..., -0.0094, -0.0020, -0.0034]],
+       device='cuda:0')
+Epoch 10, bias, value: tensor([ 0.0299, -0.0064, -0.0141,  0.0181, -0.0036, -0.0161, -0.0052,  0.0068,
+        -0.0249,  0.0203], device='cuda:0'), grad: tensor([ 0.0137,  0.0016, -0.0142, -0.0006,  0.0046, -0.0011,  0.0035, -0.0031,
+         0.0042, -0.0088], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 9----------------------------------------------------
+epoch 9, time 220.88, cls_loss 0.0707 cls_loss_mapping 0.1242 cls_loss_causal 1.0703 re_mapping 0.0474 re_causal 0.1065 /// teacc 98.28 lr 0.00010000
+Epoch 11, weight, value: tensor([[-0.0092,  0.0041,  0.0012,  ..., -0.0323,  0.0029,  0.0035],
+        [-0.0377,  0.0126, -0.0054,  ..., -0.0325,  0.0318, -0.0327],
+        [-0.0246, -0.0055, -0.0355,  ..., -0.0207,  0.0031,  0.0449],
+        ...,
+        [ 0.0267,  0.0180, -0.0074,  ...,  0.0213,  0.0039,  0.0156],
+        [ 0.0319,  0.0256, -0.0026,  ..., -0.0154, -0.0245,  0.0149],
+        [ 0.0137, -0.0155,  0.0051,  ...,  0.0204, -0.0290,  0.0267]],
+       device='cuda:0'), grad: tensor([[ 2.1243e-04,  4.7565e-04,  3.1090e-04,  ...,  7.8201e-05,
+          2.0361e-04,  9.8896e-04],
+        [ 3.1686e-04,  6.3324e-04,  2.8586e-04,  ...,  1.6916e-04,
+          3.9101e-05,  3.2115e-04],
+        [ 1.4296e-03,  4.8676e-03,  1.6441e-03,  ...,  1.4937e-04,
+          4.6492e-05, -3.8624e-04],
+        ...,
+        [-5.9080e-04,  6.4969e-05,  4.0293e-04,  ..., -1.2207e-03,
+          8.4639e-05,  4.5323e-04],
+        [-4.5776e-03, -1.5373e-02, -5.0278e-03,  ...,  1.3292e-04,
+         -6.4671e-06, -4.0665e-03],
+        [ 2.4104e-04, -1.6522e-04, -5.2691e-05,  ..., -1.0376e-03,
+         -2.8372e-04, -2.5344e-04]], device='cuda:0')
+Epoch 11, bias, value: tensor([ 0.0297, -0.0064, -0.0143,  0.0183, -0.0039, -0.0163, -0.0051,  0.0073,
+        -0.0248,  0.0202], device='cuda:0'), grad: tensor([ 0.0057,  0.0016,  0.0059, -0.0050,  0.0020,  0.0022,  0.0047,  0.0008,
+        -0.0203,  0.0023], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 10, time 220.19, cls_loss 0.0481 cls_loss_mapping 0.0926 cls_loss_causal 1.0223 re_mapping 0.0458 re_causal 0.1079 /// teacc 98.10 lr 0.00010000
+Epoch 12, weight, value: tensor([[-0.0084,  0.0035,  0.0015,  ..., -0.0333,  0.0018,  0.0032],
+        [-0.0384,  0.0131, -0.0057,  ..., -0.0334,  0.0307, -0.0338],
+        [-0.0249, -0.0068, -0.0360,  ..., -0.0216,  0.0028,  0.0459],
+        ...,
+        [ 0.0273,  0.0181, -0.0080,  ...,  0.0220,  0.0037,  0.0150],
+        [ 0.0329,  0.0260, -0.0022,  ..., -0.0158, -0.0247,  0.0157],
+        [ 0.0141, -0.0152,  0.0055,  ...,  0.0205, -0.0297,  0.0264]],
+       device='cuda:0'), grad: tensor([[ 4.8981e-03,  1.7815e-03,  1.0330e-02,  ...,  8.5533e-05,
+          5.4264e-04,  6.7253e-03],
+        [ 1.1474e-04, -1.1003e-04,  2.3818e-04,  ...,  1.4424e-04,
+          2.1175e-05,  5.9223e-04],
+        [ 1.7614e-03, -1.0824e-03, -1.3447e-03,  ...,  7.5245e-04,
+          1.6415e-04, -4.5586e-03],
+        ...,
+        [-2.7294e-03, -1.3580e-03,  4.4346e-04,  ..., -1.5545e-03,
+          9.1612e-05,  2.7990e-04],
+        [ 2.7013e-04,  1.0222e-04,  4.0627e-04,  ...,  2.4724e-04,
+          5.6028e-05,  1.7381e-04],
+        [-7.9956e-03, -8.0299e-04, -1.3649e-02,  ..., -1.2331e-03,
+         -8.5878e-04, -5.0850e-03]], device='cuda:0')
+Epoch 12, bias, value: tensor([ 0.0298, -0.0066, -0.0140,  0.0182, -0.0039, -0.0160, -0.0055,  0.0074,
+        -0.0247,  0.0199], device='cuda:0'), grad: tensor([ 0.0214,  0.0008, -0.0067,  0.0036,  0.0011,  0.0024,  0.0008, -0.0022,
+         0.0013, -0.0226], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 11----------------------------------------------------
+epoch 11, time 221.00, cls_loss 0.0529 cls_loss_mapping 0.0968 cls_loss_causal 1.0256 re_mapping 0.0404 re_causal 0.0976 /// teacc 98.34 lr 0.00010000
+Epoch 13, weight, value: tensor([[-0.0078,  0.0025,  0.0016,  ..., -0.0339,  0.0014,  0.0027],
+        [-0.0389,  0.0136, -0.0061,  ..., -0.0334,  0.0302, -0.0348],
+        [-0.0255, -0.0080, -0.0369,  ..., -0.0227,  0.0022,  0.0464],
+        ...,
+        [ 0.0280,  0.0182, -0.0085,  ...,  0.0227,  0.0034,  0.0146],
+        [ 0.0338,  0.0261, -0.0019,  ..., -0.0166, -0.0253,  0.0162],
+        [ 0.0148, -0.0153,  0.0062,  ...,  0.0206, -0.0305,  0.0264]],
+       device='cuda:0'), grad: tensor([[-3.6764e-04,  2.1267e-04, -1.1263e-03,  ...,  2.3827e-05,
+          5.4073e-04,  7.1049e-04],
+        [ 4.7803e-05,  6.7616e-04,  2.9278e-04,  ..., -1.7926e-05,
+          1.9288e-04,  4.3416e-04],
+        [-6.1810e-05,  1.9178e-03,  7.0906e-04,  ...,  1.5640e-04,
+          2.5773e-04, -1.1559e-03],
+        ...,
+        [ 1.9321e-03,  9.1400e-03,  4.4036e-04,  ...,  1.2741e-03,
+          9.7632e-05,  1.3971e-03],
+        [-3.9244e-04, -6.2981e-03, -1.6317e-03,  ...,  1.4734e-04,
+          2.5272e-04, -4.4174e-03],
+        [-5.2404e-04,  1.2231e-04,  1.1188e-04,  ..., -1.0548e-03,
+          5.3674e-05,  4.4435e-05]], device='cuda:0')
+Epoch 13, bias, value: tensor([ 0.0299, -0.0069, -0.0139,  0.0181, -0.0041, -0.0160, -0.0054,  0.0078,
+        -0.0246,  0.0197], device='cuda:0'), grad: tensor([-0.0019,  0.0013,  0.0003, -0.0124,  0.0021,  0.0238,  0.0006,  0.0110,
+        -0.0254,  0.0005], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 12----------------------------------------------------
+epoch 12, time 220.71, cls_loss 0.0441 cls_loss_mapping 0.0870 cls_loss_causal 0.9800 re_mapping 0.0385 re_causal 0.0958 /// teacc 98.40 lr 0.00010000
+Epoch 14, weight, value: tensor([[-0.0076,  0.0013,  0.0016,  ..., -0.0350,  0.0004,  0.0023],
+        [-0.0392,  0.0141, -0.0065,  ..., -0.0336,  0.0295, -0.0358],
+        [-0.0264, -0.0091, -0.0376,  ..., -0.0237,  0.0017,  0.0467],
+        ...,
+        [ 0.0286,  0.0178, -0.0092,  ...,  0.0233,  0.0030,  0.0143],
+        [ 0.0349,  0.0263, -0.0013,  ..., -0.0167, -0.0259,  0.0170],
+        [ 0.0154, -0.0148,  0.0069,  ...,  0.0208, -0.0310,  0.0261]],
+       device='cuda:0'), grad: tensor([[ 3.7402e-05,  2.3782e-04, -1.7893e-04,  ...,  6.4015e-05,
+          2.0817e-05,  7.0632e-05],
+        [-5.4312e-04, -1.9684e-03, -1.5700e-04,  ...,  1.3947e-04,
+          6.9618e-05, -1.8716e-05],
+        [ 1.9872e-04,  3.1257e-04,  1.9777e-04,  ...,  1.1832e-04,
+          1.4231e-05, -1.3030e-04],
+        ...,
+        [-1.2016e-04,  2.9016e-04,  1.0663e-04,  ..., -3.1757e-04,
+          2.0102e-05,  1.2374e-04],
+        [-5.7678e-03, -8.2932e-03, -5.4741e-03,  ..., -3.6240e-03,
+          8.0049e-05, -3.6583e-03],
+        [ 4.9706e-03,  8.1024e-03,  4.7455e-03,  ...,  3.2749e-03,
+          5.7459e-05,  3.1967e-03]], device='cuda:0')
+Epoch 14, bias, value: tensor([ 0.0298, -0.0071, -0.0142,  0.0182, -0.0040, -0.0161, -0.0055,  0.0080,
+        -0.0242,  0.0197], device='cuda:0'), grad: tensor([-8.4415e-06, -1.7462e-03,  2.0683e-04,  9.8801e-04,  1.3018e-04,
+         1.0157e-04,  2.1386e-04,  7.7009e-05, -8.3847e-03,  8.4152e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 13, time 220.14, cls_loss 0.0456 cls_loss_mapping 0.0848 cls_loss_causal 0.9933 re_mapping 0.0364 re_causal 0.0931 /// teacc 98.22 lr 0.00010000
+Epoch 15, weight, value: tensor([[-0.0074,  0.0001,  0.0018,  ..., -0.0351,  0.0005,  0.0027],
+        [-0.0399,  0.0144, -0.0068,  ..., -0.0344,  0.0287, -0.0368],
+        [-0.0265, -0.0101, -0.0382,  ..., -0.0247,  0.0009,  0.0474],
+        ...,
+        [ 0.0291,  0.0175, -0.0098,  ...,  0.0237,  0.0027,  0.0134],
+        [ 0.0354,  0.0265, -0.0010,  ..., -0.0174, -0.0266,  0.0173],
+        [ 0.0162, -0.0144,  0.0074,  ...,  0.0214, -0.0311,  0.0260]],
+       device='cuda:0'), grad: tensor([[-6.8283e-04,  6.8545e-05,  1.0574e-04,  ...,  2.1148e-04,
+          1.8120e-04, -6.2108e-05],
+        [ 4.0245e-04,  6.4611e-04,  1.5855e-04,  ...,  8.6689e-04,
+          5.1689e-04,  1.5793e-03],
+        [ 6.5660e-04,  1.6010e-04,  4.0460e-04,  ...,  2.5678e-04,
+         -3.5667e-04, -2.5291e-03],
+        ...,
+        [-1.5526e-03, -3.2020e-04,  2.0170e-04,  ..., -1.7481e-03,
+          7.9334e-05,  2.8706e-04],
+        [ 2.0921e-04,  7.6246e-04,  5.3930e-04,  ...,  8.7690e-04,
+          1.7715e-04,  2.3460e-04],
+        [ 2.4014e-03,  4.6539e-03,  5.3215e-04,  ...,  6.1417e-03,
+          2.3899e-03,  2.3975e-03]], device='cuda:0')
+Epoch 15, bias, value: tensor([ 0.0300, -0.0073, -0.0139,  0.0181, -0.0040, -0.0162, -0.0057,  0.0078,
+        -0.0241,  0.0198], device='cuda:0'), grad: tensor([-0.0014,  0.0018, -0.0010,  0.0001, -0.0045,  0.0073, -0.0086, -0.0009,
+         0.0013,  0.0058], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 14----------------------------------------------------
+epoch 14, time 220.92, cls_loss 0.0411 cls_loss_mapping 0.0762 cls_loss_causal 0.9661 re_mapping 0.0341 re_causal 0.0868 /// teacc 98.42 lr 0.00010000
+Epoch 16, weight, value: tensor([[-6.9643e-03, -7.7086e-07,  2.3059e-03,  ..., -3.5503e-02,
+          5.3579e-05,  2.8913e-03],
+        [-3.9664e-02,  1.4836e-02, -7.0415e-03,  ..., -3.4469e-02,
+          2.8013e-02, -3.7907e-02],
+        [-2.7280e-02, -1.1383e-02, -3.8997e-02,  ..., -2.5754e-02,
+          3.3229e-04,  4.7770e-02],
+        ...,
+        [ 2.9317e-02,  1.7459e-02, -1.0336e-02,  ...,  2.4176e-02,
+          2.3521e-03,  1.2958e-02],
+        [ 3.6289e-02,  2.6503e-02, -7.2695e-04,  ..., -1.7311e-02,
+         -2.7153e-02,  1.7820e-02],
+        [ 1.6474e-02, -1.4518e-02,  7.6950e-03,  ...,  2.1405e-02,
+         -3.1781e-02,  2.5660e-02]], device='cuda:0'), grad: tensor([[ 4.5389e-05,  3.2991e-05,  7.9215e-05,  ...,  1.2207e-04,
+          1.1593e-04,  1.4544e-04],
+        [ 1.1420e-04,  1.6880e-04,  2.3603e-05,  ...,  5.9366e-04,
+          2.3484e-04,  2.5272e-04],
+        [ 5.9366e-05,  3.6865e-05,  2.1830e-05,  ...,  9.4414e-05,
+          2.5272e-05, -2.1815e-04],
+        ...,
+        [-4.3631e-04, -3.2187e-05,  2.4343e-04,  ..., -3.3092e-04,
+          1.7452e-04,  2.5964e-04],
+        [ 2.0695e-04,  6.2525e-05,  1.4675e-04,  ...,  4.3082e-04,
+          9.5129e-05,  1.6046e-04],
+        [ 2.7132e-04,  5.2032e-03, -4.0197e-04,  ...,  1.3824e-02,
+          5.9242e-03,  4.4479e-03]], device='cuda:0')
+Epoch 16, bias, value: tensor([ 0.0305, -0.0069, -0.0143,  0.0182, -0.0042, -0.0160, -0.0058,  0.0078,
+        -0.0242,  0.0195], device='cuda:0'), grad: tensor([ 2.2948e-04,  5.0783e-04, -2.5105e-04,  5.7411e-04, -9.0790e-03,
+         1.9860e-04, -1.2100e-05, -1.4901e-04,  4.2486e-04,  7.5569e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 15, time 220.17, cls_loss 0.0305 cls_loss_mapping 0.0608 cls_loss_causal 0.9110 re_mapping 0.0319 re_causal 0.0833 /// teacc 98.27 lr 0.00010000
+Epoch 17, weight, value: tensor([[-6.4511e-03, -2.7394e-04,  2.3617e-03,  ..., -3.6016e-02,
+         -8.8198e-04,  2.1699e-03],
+        [-4.0170e-02,  1.5129e-02, -7.5262e-03,  ..., -3.4977e-02,
+          2.7475e-02, -3.8656e-02],
+        [-2.7520e-02, -1.2377e-02, -3.9481e-02,  ..., -2.6549e-02,
+          8.1455e-05,  4.8429e-02],
+        ...,
+        [ 2.9889e-02,  1.7052e-02, -1.0838e-02,  ...,  2.4603e-02,
+          2.0595e-03,  1.2469e-02],
+        [ 3.6728e-02,  2.6888e-02, -3.5531e-04,  ..., -1.7857e-02,
+         -2.7695e-02,  1.8166e-02],
+        [ 1.6710e-02, -1.4388e-02,  8.1810e-03,  ...,  2.1483e-02,
+         -3.2257e-02,  2.5818e-02]], device='cuda:0'), grad: tensor([[ 7.2420e-05,  1.0949e-04,  4.1097e-05,  ...,  1.8954e-04,
+          1.9610e-04,  1.6642e-04],
+        [ 9.6989e-04,  8.4400e-04,  6.7663e-04,  ...,  9.8801e-04,
+          3.1066e-04,  5.4121e-04],
+        [ 6.2525e-05,  1.8513e-04,  1.1438e-04,  ...,  9.1553e-05,
+          9.5904e-05, -1.0890e-04],
+        ...,
+        [-8.3780e-04, -1.0955e-04,  2.5660e-05,  ..., -1.2770e-03,
+          6.2883e-05,  7.8201e-05],
+        [-1.5078e-03, -7.4816e-04, -1.4296e-03,  ...,  2.6059e-04,
+          1.5509e-04, -7.9918e-04],
+        [-6.3896e-03, -1.5808e-02, -4.8981e-03,  ..., -1.8631e-02,
+         -8.3160e-03, -7.3853e-03]], device='cuda:0')
+Epoch 17, bias, value: tensor([ 0.0302, -0.0069, -0.0143,  0.0183, -0.0044, -0.0157, -0.0058,  0.0076,
+        -0.0242,  0.0195], device='cuda:0'), grad: tensor([ 0.0003,  0.0019,  0.0002,  0.0004,  0.0173,  0.0006,  0.0003, -0.0012,
+        -0.0027, -0.0172], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 16----------------------------------------------------
+epoch 16, time 220.80, cls_loss 0.0347 cls_loss_mapping 0.0705 cls_loss_causal 0.9086 re_mapping 0.0307 re_causal 0.0815 /// teacc 98.47 lr 0.00010000
+Epoch 18, weight, value: tensor([[-0.0061, -0.0006,  0.0024,  ..., -0.0367, -0.0017,  0.0014],
+        [-0.0405,  0.0152, -0.0080,  ..., -0.0353,  0.0267, -0.0399],
+        [-0.0278, -0.0129, -0.0398,  ..., -0.0271, -0.0005,  0.0491],
+        ...,
+        [ 0.0301,  0.0166, -0.0114,  ...,  0.0249,  0.0020,  0.0125],
+        [ 0.0377,  0.0271,  0.0004,  ..., -0.0182, -0.0276,  0.0192],
+        [ 0.0168, -0.0144,  0.0086,  ...,  0.0216, -0.0327,  0.0256]],
+       device='cuda:0'), grad: tensor([[-9.6130e-04,  1.3268e-04, -4.1342e-04,  ...,  4.4942e-04,
+          1.9283e-03,  6.6900e-04],
+        [ 4.5717e-05, -5.6171e-04,  2.5392e-04,  ..., -8.6427e-05,
+          5.9795e-04,  5.3978e-04],
+        [ 1.3485e-03,  2.8634e-04,  1.5011e-03,  ...,  1.6379e-04,
+          2.1493e-04,  1.4381e-03],
+        ...,
+        [ 6.7854e-04,  1.0195e-03,  4.1533e-04,  ...,  1.2007e-03,
+          2.8419e-04,  2.2292e-04],
+        [ 2.0721e-02,  4.5853e-03,  2.2705e-02,  ...,  3.4618e-03,
+          1.2674e-03,  2.0172e-02],
+        [-2.3819e-02, -8.6670e-03, -2.6398e-02,  ..., -9.3842e-03,
+         -1.8082e-03, -2.3453e-02]], device='cuda:0')
+Epoch 18, bias, value: tensor([ 0.0300, -0.0069, -0.0139,  0.0186, -0.0044, -0.0157, -0.0059,  0.0073,
+        -0.0237,  0.0190], device='cuda:0'), grad: tensor([-5.1230e-05,  2.3496e-04,  2.7752e-03,  1.8625e-03,  8.4000e-03,
+        -1.1578e-03, -7.8125e-03,  1.5297e-03,  2.8259e-02, -3.4027e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 17----------------------------------------------------
+epoch 17, time 220.73, cls_loss 0.0317 cls_loss_mapping 0.0626 cls_loss_causal 0.8684 re_mapping 0.0276 re_causal 0.0756 /// teacc 98.61 lr 0.00010000
+Epoch 19, weight, value: tensor([[-0.0058, -0.0018,  0.0024,  ..., -0.0373, -0.0025,  0.0009],
+        [-0.0412,  0.0151, -0.0082,  ..., -0.0358,  0.0261, -0.0408],
+        [-0.0283, -0.0135, -0.0406,  ..., -0.0281, -0.0010,  0.0495],
+        ...,
+        [ 0.0306,  0.0167, -0.0120,  ...,  0.0254,  0.0017,  0.0122],
+        [ 0.0379,  0.0272,  0.0006,  ..., -0.0188, -0.0281,  0.0193],
+        [ 0.0175, -0.0143,  0.0092,  ...,  0.0218, -0.0331,  0.0257]],
+       device='cuda:0'), grad: tensor([[-4.3106e-04,  1.2130e-04, -1.2960e-03,  ...,  1.1367e-04,
+         -9.8586e-05, -1.0834e-03],
+        [ 3.2401e-04,  3.1519e-04,  2.5082e-04,  ...,  3.9268e-04,
+          8.7440e-05,  2.0885e-04],
+        [ 2.0111e-04,  1.2815e-04,  2.0385e-04,  ...,  2.2876e-04,
+          3.1799e-05,  1.5593e-04],
+        ...,
+        [-1.4000e-03,  8.8751e-05,  1.2165e-04,  ..., -2.2907e-03,
+          7.7665e-05,  8.6188e-05],
+        [-2.9445e-04, -2.2621e-03, -1.9474e-03,  ...,  1.9264e-04,
+          8.1956e-05, -2.0542e-03],
+        [ 4.5753e-04, -7.5758e-05,  1.7512e-04,  ...,  3.5143e-04,
+          5.5134e-06,  1.2779e-04]], device='cuda:0')
+Epoch 19, bias, value: tensor([ 0.0300, -0.0071, -0.0139,  0.0189, -0.0042, -0.0159, -0.0057,  0.0073,
+        -0.0240,  0.0189], device='cuda:0'), grad: tensor([-0.0021,  0.0009,  0.0008,  0.0010,  0.0010, -0.0003,  0.0029, -0.0020,
+        -0.0037,  0.0016], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 18----------------------------------------------------
+epoch 18, time 220.42, cls_loss 0.0293 cls_loss_mapping 0.0613 cls_loss_causal 0.8654 re_mapping 0.0267 re_causal 0.0730 /// teacc 98.64 lr 0.00010000
+Epoch 20, weight, value: tensor([[-0.0056, -0.0025,  0.0028,  ..., -0.0379, -0.0033,  0.0007],
+        [-0.0413,  0.0154, -0.0085,  ..., -0.0360,  0.0257, -0.0417],
+        [-0.0282, -0.0145, -0.0413,  ..., -0.0283, -0.0014,  0.0504],
+        ...,
+        [ 0.0309,  0.0163, -0.0125,  ...,  0.0258,  0.0013,  0.0114],
+        [ 0.0386,  0.0275,  0.0010,  ..., -0.0191, -0.0287,  0.0196],
+        [ 0.0180, -0.0140,  0.0098,  ...,  0.0221, -0.0333,  0.0259]],
+       device='cuda:0'), grad: tensor([[-9.8199e-06,  5.3972e-05,  2.4289e-05,  ...,  8.5175e-05,
+          3.9309e-05,  1.5771e-04],
+        [ 4.9740e-05,  1.7822e-04,  2.3276e-05,  ...,  8.7678e-05,
+          1.9953e-05,  2.0075e-04],
+        [-1.2279e-04, -2.3210e-04,  9.8825e-05,  ..., -1.2493e-04,
+          6.3777e-05, -8.6308e-04],
+        ...,
+        [ 4.9543e-04,  5.1451e-04,  3.7956e-04,  ...,  8.8930e-04,
+          2.4402e-04,  7.8869e-04],
+        [-3.3164e-04, -1.5950e-04, -4.1938e-04,  ...,  2.6798e-04,
+          8.4341e-05, -2.9588e-04],
+        [-6.3610e-04, -3.7456e-04, -4.1676e-04,  ..., -1.5450e-03,
+         -4.0698e-04, -3.0327e-04]], device='cuda:0')
+Epoch 20, bias, value: tensor([ 0.0300, -0.0074, -0.0134,  0.0188, -0.0046, -0.0159, -0.0057,  0.0074,
+        -0.0239,  0.0190], device='cuda:0'), grad: tensor([ 0.0002,  0.0015, -0.0043,  0.0004,  0.0004,  0.0014, -0.0011,  0.0026,
+         0.0001, -0.0014], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 19, time 219.62, cls_loss 0.0298 cls_loss_mapping 0.0588 cls_loss_causal 0.8830 re_mapping 0.0262 re_causal 0.0732 /// teacc 98.44 lr 0.00010000
+Epoch 21, weight, value: tensor([[-0.0053, -0.0030,  0.0032,  ..., -0.0384, -0.0037,  0.0003],
+        [-0.0414,  0.0156, -0.0089,  ..., -0.0360,  0.0253, -0.0425],
+        [-0.0289, -0.0153, -0.0418,  ..., -0.0294, -0.0018,  0.0510],
+        ...,
+        [ 0.0313,  0.0162, -0.0132,  ...,  0.0262,  0.0008,  0.0111],
+        [ 0.0395,  0.0278,  0.0015,  ..., -0.0195, -0.0290,  0.0197],
+        [ 0.0181, -0.0141,  0.0099,  ...,  0.0219, -0.0339,  0.0255]],
+       device='cuda:0'), grad: tensor([[ 1.0529e-02,  6.3479e-05,  3.7823e-03,  ...,  9.8705e-04,
+          9.4548e-06,  3.1281e-03],
+        [ 6.2323e-04,  1.4675e-04,  1.0991e-04,  ...,  6.1846e-04,
+          9.6262e-05,  1.7703e-04],
+        [-1.2428e-02,  1.3781e-04, -4.4899e-03,  ..., -9.8038e-04,
+          8.4117e-06, -3.8776e-03],
+        ...,
+        [ 2.2292e-04, -1.4699e-04,  4.7731e-04,  ..., -2.6774e-04,
+          8.4043e-05,  4.5156e-04],
+        [ 4.8637e-04,  1.6558e-04,  8.0764e-05,  ...,  3.2520e-04,
+          7.8321e-05,  6.9499e-05],
+        [-4.9067e-04, -5.8126e-04, -6.5088e-04,  ..., -1.8444e-03,
+         -1.3912e-04, -5.7316e-04]], device='cuda:0')
+Epoch 21, bias, value: tensor([ 0.0300, -0.0074, -0.0133,  0.0186, -0.0041, -0.0159, -0.0058,  0.0075,
+        -0.0238,  0.0186], device='cuda:0'), grad: tensor([ 0.0130,  0.0008, -0.0156, -0.0002,  0.0009, -0.0002,  0.0011,  0.0004,
+         0.0010, -0.0012], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 20----------------------------------------------------
+epoch 20, time 220.77, cls_loss 0.0314 cls_loss_mapping 0.0616 cls_loss_causal 0.8644 re_mapping 0.0251 re_causal 0.0681 /// teacc 98.76 lr 0.00010000
+Epoch 22, weight, value: tensor([[-0.0057, -0.0040,  0.0032,  ..., -0.0392, -0.0043, -0.0002],
+        [-0.0421,  0.0152, -0.0095,  ..., -0.0366,  0.0244, -0.0431],
+        [-0.0293, -0.0161, -0.0422,  ..., -0.0302, -0.0020,  0.0515],
+        ...,
+        [ 0.0319,  0.0165, -0.0135,  ...,  0.0266,  0.0001,  0.0110],
+        [ 0.0401,  0.0279,  0.0019,  ..., -0.0201, -0.0296,  0.0201],
+        [ 0.0190, -0.0138,  0.0105,  ...,  0.0226, -0.0343,  0.0255]],
+       device='cuda:0'), grad: tensor([[ 1.7333e-04,  2.9683e-04,  2.6011e-04,  ...,  1.4210e-04,
+          1.0687e-04,  4.4227e-04],
+        [-8.3065e-04, -2.0657e-03,  1.5986e-04,  ..., -1.7328e-03,
+          4.5300e-05,  2.3341e-04],
+        [ 1.9884e-04,  3.5191e-04,  3.4261e-04,  ...,  1.8108e-04,
+          1.1212e-04,  3.2520e-04],
+        ...,
+        [ 2.0862e-05,  7.9727e-04,  8.2612e-05,  ...,  4.6587e-04,
+          2.1666e-05,  2.1791e-04],
+        [-1.0052e-03, -4.2987e-04, -2.0180e-03,  ...,  1.0008e-04,
+         -5.1832e-04, -4.1351e-03],
+        [ 7.2777e-05, -5.5170e-04, -1.7595e-03,  ..., -3.8815e-04,
+          4.0680e-05, -1.4460e-04]], device='cuda:0')
+Epoch 22, bias, value: tensor([ 0.0296, -0.0080, -0.0131,  0.0186, -0.0044, -0.0158, -0.0059,  0.0081,
+        -0.0241,  0.0190], device='cuda:0'), grad: tensor([ 1.2836e-03, -4.4708e-03,  1.7662e-03,  3.3264e-03,  8.6117e-04,
+         2.0027e-03,  2.1572e-03,  1.8644e-03, -8.8577e-03,  6.9082e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 21----------------------------------------------------
+epoch 21, time 220.78, cls_loss 0.0238 cls_loss_mapping 0.0507 cls_loss_causal 0.8334 re_mapping 0.0237 re_causal 0.0674 /// teacc 98.87 lr 0.00010000
+Epoch 23, weight, value: tensor([[-0.0057, -0.0042,  0.0033,  ..., -0.0401, -0.0053, -0.0009],
+        [-0.0424,  0.0158, -0.0098,  ..., -0.0369,  0.0235, -0.0439],
+        [-0.0295, -0.0174, -0.0428,  ..., -0.0310, -0.0023,  0.0519],
+        ...,
+        [ 0.0322,  0.0161, -0.0138,  ...,  0.0269, -0.0006,  0.0105],
+        [ 0.0407,  0.0281,  0.0022,  ..., -0.0204, -0.0299,  0.0205],
+        [ 0.0195, -0.0135,  0.0109,  ...,  0.0229, -0.0345,  0.0255]],
+       device='cuda:0'), grad: tensor([[ 5.6773e-05,  7.4267e-05,  3.9548e-05,  ...,  1.2374e-04,
+          8.8155e-05,  1.2255e-04],
+        [-3.8719e-03, -4.4861e-03,  4.5091e-05,  ..., -7.3013e-03,
+         -6.0081e-04, -2.2912e-04],
+        [ 7.0870e-05,  9.3222e-05,  3.0816e-05,  ...,  9.9659e-05,
+          5.6177e-05, -1.6153e-04],
+        ...,
+        [ 9.4891e-04,  2.3632e-03,  5.3972e-05,  ...,  2.8896e-03,
+         -2.4724e-04,  4.6158e-04],
+        [-8.2016e-05, -1.0672e-03, -5.1451e-04,  ...,  5.0879e-04,
+          8.5413e-05, -5.2547e-04],
+        [ 2.6379e-03,  2.6512e-03,  5.2750e-05,  ...,  7.4654e-03,
+          2.2869e-03,  1.1072e-03]], device='cuda:0')
+Epoch 23, bias, value: tensor([ 0.0295, -0.0075, -0.0136,  0.0186, -0.0043, -0.0158, -0.0059,  0.0082,
+        -0.0242,  0.0191], device='cuda:0'), grad: tensor([ 2.7657e-04, -8.8272e-03, -4.3392e-05,  5.2452e-04, -1.4420e-03,
+         9.0027e-04, -2.2995e-04,  4.7417e-03, -1.0929e-03,  5.1956e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 22, time 219.69, cls_loss 0.0215 cls_loss_mapping 0.0495 cls_loss_causal 0.8088 re_mapping 0.0242 re_causal 0.0680 /// teacc 98.74 lr 0.00010000
+Epoch 24, weight, value: tensor([[-0.0045, -0.0046,  0.0037,  ..., -0.0399, -0.0062, -0.0013],
+        [-0.0428,  0.0162, -0.0101,  ..., -0.0373,  0.0229, -0.0450],
+        [-0.0296, -0.0177, -0.0435,  ..., -0.0315, -0.0026,  0.0526],
+        ...,
+        [ 0.0326,  0.0157, -0.0144,  ...,  0.0274, -0.0009,  0.0100],
+        [ 0.0412,  0.0284,  0.0024,  ..., -0.0209, -0.0300,  0.0209],
+        [ 0.0195, -0.0132,  0.0112,  ...,  0.0231, -0.0345,  0.0256]],
+       device='cuda:0'), grad: tensor([[-2.3818e-04,  1.8492e-05, -5.9605e-05,  ...,  1.2070e-05,
+          1.2887e-04,  1.0175e-04],
+        [ 3.5226e-05, -2.4259e-04, -7.6711e-05,  ...,  3.6120e-05,
+         -1.2207e-04, -5.5408e-04],
+        [ 9.5963e-05,  2.5201e-04,  1.9205e-04,  ...,  4.6790e-05,
+          2.4939e-04,  5.9557e-04],
+        ...,
+        [ 3.2812e-05,  5.5760e-05,  2.8729e-05,  ...,  1.5259e-04,
+          1.0878e-04,  4.8578e-05],
+        [-1.5354e-04, -1.1462e-04,  2.2113e-04,  ..., -2.2352e-05,
+          6.8665e-04,  6.4278e-04],
+        [ 1.0192e-04,  2.0003e-04,  1.1021e-04,  ...,  3.1233e-04,
+          2.0933e-04,  1.3423e-04]], device='cuda:0')
+Epoch 24, bias, value: tensor([ 0.0298, -0.0078, -0.0129,  0.0185, -0.0047, -0.0160, -0.0059,  0.0084,
+        -0.0242,  0.0189], device='cuda:0'), grad: tensor([-2.4045e-04, -9.8515e-04,  1.1511e-03,  7.1943e-05, -2.9206e-04,
+         4.1275e-03, -5.3329e-03,  2.4164e-04,  8.2111e-04,  4.4084e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 23, time 219.46, cls_loss 0.0218 cls_loss_mapping 0.0521 cls_loss_causal 0.8210 re_mapping 0.0230 re_causal 0.0646 /// teacc 98.68 lr 0.00010000
+Epoch 25, weight, value: tensor([[-0.0046, -0.0053,  0.0039,  ..., -0.0408, -0.0069, -0.0016],
+        [-0.0430,  0.0165, -0.0105,  ..., -0.0375,  0.0221, -0.0461],
+        [-0.0300, -0.0183, -0.0441,  ..., -0.0324, -0.0035,  0.0529],
+        ...,
+        [ 0.0329,  0.0152, -0.0149,  ...,  0.0275, -0.0015,  0.0095],
+        [ 0.0418,  0.0287,  0.0031,  ..., -0.0211, -0.0308,  0.0214],
+        [ 0.0200, -0.0130,  0.0119,  ...,  0.0237, -0.0342,  0.0261]],
+       device='cuda:0'), grad: tensor([[-4.4629e-06,  1.0151e-04,  5.6326e-06,  ...,  4.2289e-05,
+          5.5164e-05,  1.1420e-04],
+        [ 1.8907e-04, -2.0294e-03,  2.2519e-04,  ...,  2.8044e-05,
+          4.0293e-05, -9.2363e-04],
+        [ 4.9353e-04,  2.1267e-03,  4.4331e-06,  ...,  3.6788e-04,
+         -1.3389e-05, -1.5297e-03],
+        ...,
+        [-1.4067e-03, -5.7650e-04,  4.2081e-05,  ..., -8.9931e-04,
+          7.4804e-06,  2.0397e-04],
+        [ 5.9605e-05, -8.3804e-05, -6.5327e-04,  ...,  1.7369e-04,
+         -1.5152e-04,  1.2627e-03],
+        [-1.0446e-05, -1.3542e-03, -4.8804e-04,  ..., -3.3212e-04,
+          4.1813e-05, -1.0884e-04]], device='cuda:0')
+Epoch 25, bias, value: tensor([ 0.0296, -0.0080, -0.0131,  0.0185, -0.0050, -0.0162, -0.0058,  0.0083,
+        -0.0238,  0.0195], device='cuda:0'), grad: tensor([ 0.0002, -0.0034, -0.0008,  0.0006,  0.0014, -0.0073,  0.0080, -0.0010,
+         0.0038, -0.0015], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 24, time 219.76, cls_loss 0.0158 cls_loss_mapping 0.0397 cls_loss_causal 0.8049 re_mapping 0.0221 re_causal 0.0627 /// teacc 98.80 lr 0.00010000
+Epoch 26, weight, value: tensor([[-0.0044, -0.0058,  0.0042,  ..., -0.0411, -0.0077, -0.0019],
+        [-0.0433,  0.0168, -0.0108,  ..., -0.0381,  0.0212, -0.0468],
+        [-0.0303, -0.0191, -0.0446,  ..., -0.0330, -0.0038,  0.0534],
+        ...,
+        [ 0.0333,  0.0149, -0.0153,  ...,  0.0277, -0.0022,  0.0091],
+        [ 0.0422,  0.0289,  0.0033,  ..., -0.0215, -0.0312,  0.0217],
+        [ 0.0203, -0.0129,  0.0119,  ...,  0.0238, -0.0346,  0.0260]],
+       device='cuda:0'), grad: tensor([[ 4.2844e-04,  4.6992e-04,  7.2241e-04,  ...,  4.5242e-03,
+          1.4429e-03,  3.8395e-03],
+        [-1.8663e-03, -6.1607e-03, -3.5429e-04,  ...,  2.1052e-04,
+          1.0586e-03, -9.1457e-04],
+        [ 6.6221e-05,  2.7180e-04,  2.5940e-04,  ...,  1.1292e-03,
+          3.5882e-04,  4.7874e-04],
+        ...,
+        [ 2.5725e-04,  4.7970e-04,  2.4486e-04,  ...,  1.1969e-03,
+          4.0698e-04,  9.3699e-04],
+        [ 5.4312e-04,  2.0561e-03, -2.3785e-03,  ...,  3.1877e-04,
+          2.6798e-04, -1.1625e-03],
+        [-1.0319e-03,  2.8491e-04, -2.1133e-03,  ..., -1.6678e-02,
+         -4.9858e-03, -1.2413e-02]], device='cuda:0')
+Epoch 26, bias, value: tensor([ 0.0296, -0.0080, -0.0132,  0.0186, -0.0048, -0.0162, -0.0057,  0.0085,
+        -0.0240,  0.0192], device='cuda:0'), grad: tensor([ 7.4463e-03, -2.6913e-03,  1.0185e-03, -5.9986e-04,  1.3901e-02,
+         6.7253e-03, -4.2534e-03,  2.0046e-03, -6.6221e-05, -2.3483e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 25, time 219.76, cls_loss 0.0180 cls_loss_mapping 0.0447 cls_loss_causal 0.8292 re_mapping 0.0210 re_causal 0.0615 /// teacc 98.80 lr 0.00010000
+Epoch 27, weight, value: tensor([[-0.0039, -0.0063,  0.0043,  ..., -0.0417, -0.0083, -0.0022],
+        [-0.0440,  0.0168, -0.0111,  ..., -0.0385,  0.0201, -0.0478],
+        [-0.0305, -0.0194, -0.0451,  ..., -0.0335, -0.0041,  0.0540],
+        ...,
+        [ 0.0336,  0.0148, -0.0158,  ...,  0.0280, -0.0025,  0.0086],
+        [ 0.0427,  0.0293,  0.0037,  ..., -0.0216, -0.0318,  0.0222],
+        [ 0.0206, -0.0129,  0.0123,  ...,  0.0241, -0.0350,  0.0259]],
+       device='cuda:0'), grad: tensor([[ 5.5134e-05,  7.2360e-05,  1.6415e-04,  ...,  9.6619e-05,
+          3.5316e-05,  1.9276e-04],
+        [-7.1451e-06, -7.1168e-05,  2.4348e-05,  ...,  3.5055e-06,
+          1.2487e-05,  5.4240e-05],
+        [-3.5644e-05, -3.0136e-04, -1.2302e-03,  ...,  1.0145e-04,
+          3.5856e-06, -1.8854e-03],
+        ...,
+        [-2.6658e-05,  1.8537e-04,  1.6594e-04,  ...,  1.1817e-05,
+          6.3181e-06,  1.2052e-04],
+        [ 3.2812e-05,  5.2601e-05,  1.6463e-04,  ...,  5.6237e-05,
+          2.9430e-05,  1.1629e-04],
+        [-1.0639e-04,  4.1842e-05,  9.5892e-04,  ..., -8.1360e-05,
+          5.0873e-05,  1.0185e-03]], device='cuda:0')
+Epoch 27, bias, value: tensor([ 0.0295, -0.0087, -0.0128,  0.0184, -0.0047, -0.0159, -0.0056,  0.0086,
+        -0.0240,  0.0192], device='cuda:0'), grad: tensor([ 3.5524e-04, -5.1081e-05, -2.3899e-03,  3.0136e-04,  3.9244e-04,
+        -1.0614e-03, -6.9380e-05,  1.8752e-04,  3.6740e-04,  1.9684e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 26, time 219.78, cls_loss 0.0171 cls_loss_mapping 0.0406 cls_loss_causal 0.7746 re_mapping 0.0211 re_causal 0.0594 /// teacc 98.81 lr 0.00010000
+Epoch 28, weight, value: tensor([[-0.0038, -0.0067,  0.0045,  ..., -0.0422, -0.0088, -0.0026],
+        [-0.0448,  0.0168, -0.0115,  ..., -0.0391,  0.0194, -0.0485],
+        [-0.0306, -0.0201, -0.0454,  ..., -0.0339, -0.0042,  0.0546],
+        ...,
+        [ 0.0343,  0.0148, -0.0163,  ...,  0.0284, -0.0030,  0.0082],
+        [ 0.0432,  0.0299,  0.0043,  ..., -0.0220, -0.0320,  0.0226],
+        [ 0.0208, -0.0128,  0.0125,  ...,  0.0243, -0.0352,  0.0258]],
+       device='cuda:0'), grad: tensor([[ 7.5579e-05,  2.6703e-05,  1.4126e-04,  ...,  2.6321e-04,
+          8.2552e-05,  2.1625e-04],
+        [ 1.1867e-04,  3.3617e-05,  8.3566e-05,  ...,  1.1116e-04,
+          1.0788e-05,  1.2314e-04],
+        [ 4.0269e-04,  3.6359e-04,  5.5695e-04,  ...,  1.5497e-04,
+          3.7163e-05,  8.1444e-04],
+        ...,
+        [-1.1586e-05,  8.1062e-05,  1.9538e-04,  ...,  3.0756e-05,
+          6.3300e-05,  2.2435e-04],
+        [-3.1400e-04, -5.1355e-04, -5.4693e-04,  ...,  2.5797e-04,
+          5.8204e-05, -9.7561e-04],
+        [-7.8440e-04, -1.7917e-04, -9.3412e-04,  ..., -1.4362e-03,
+         -3.2806e-04, -1.0519e-03]], device='cuda:0')
+Epoch 28, bias, value: tensor([ 0.0296, -0.0090, -0.0128,  0.0186, -0.0048, -0.0161, -0.0054,  0.0089,
+        -0.0238,  0.0188], device='cuda:0'), grad: tensor([ 0.0003,  0.0003,  0.0018,  0.0002,  0.0006,  0.0001,  0.0003,  0.0002,
+        -0.0019, -0.0020], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 27, time 219.44, cls_loss 0.0135 cls_loss_mapping 0.0352 cls_loss_causal 0.8006 re_mapping 0.0197 re_causal 0.0575 /// teacc 98.84 lr 0.00010000
+Epoch 29, weight, value: tensor([[-0.0035, -0.0071,  0.0050,  ..., -0.0426, -0.0093, -0.0027],
+        [-0.0451,  0.0167, -0.0118,  ..., -0.0393,  0.0187, -0.0490],
+        [-0.0309, -0.0210, -0.0460,  ..., -0.0345, -0.0046,  0.0550],
+        ...,
+        [ 0.0346,  0.0150, -0.0168,  ...,  0.0287, -0.0036,  0.0075],
+        [ 0.0436,  0.0301,  0.0045,  ..., -0.0224, -0.0325,  0.0228],
+        [ 0.0212, -0.0128,  0.0130,  ...,  0.0245, -0.0354,  0.0260]],
+       device='cuda:0'), grad: tensor([[-1.9565e-05,  5.7697e-05, -3.7456e-04,  ...,  3.4511e-05,
+         -5.8591e-05, -1.0020e-04],
+        [-1.8883e-04, -3.9887e-04,  2.3708e-05,  ..., -8.2922e-04,
+         -3.1650e-05,  4.0710e-05],
+        [ 2.5243e-05,  6.2168e-05,  4.9919e-05,  ...,  6.0111e-05,
+          2.0623e-05, -1.8394e-04],
+        ...,
+        [ 1.7393e-04,  3.7909e-04,  1.1390e-04,  ...,  7.9107e-04,
+          8.2076e-05,  1.2779e-04],
+        [ 2.2203e-05,  1.3947e-04,  6.7830e-05,  ...,  1.9956e-04,
+          4.3511e-05,  5.0962e-05],
+        [-1.8406e-04,  3.2020e-04,  4.2886e-05,  ...,  1.2617e-03,
+          5.7602e-04,  8.3876e-04]], device='cuda:0')
+Epoch 29, bias, value: tensor([ 0.0299, -0.0091, -0.0129,  0.0186, -0.0048, -0.0159, -0.0058,  0.0091,
+        -0.0239,  0.0187], device='cuda:0'), grad: tensor([-0.0004, -0.0014, -0.0002, -0.0009, -0.0012,  0.0008,  0.0004,  0.0012,
+         0.0004,  0.0012], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 28, time 219.78, cls_loss 0.0166 cls_loss_mapping 0.0378 cls_loss_causal 0.7609 re_mapping 0.0194 re_causal 0.0564 /// teacc 98.78 lr 0.00010000
+Epoch 30, weight, value: tensor([[-0.0033, -0.0076,  0.0053,  ..., -0.0432, -0.0100, -0.0030],
+        [-0.0452,  0.0172, -0.0123,  ..., -0.0395,  0.0180, -0.0497],
+        [-0.0311, -0.0216, -0.0460,  ..., -0.0352, -0.0050,  0.0556],
+        ...,
+        [ 0.0346,  0.0143, -0.0177,  ...,  0.0290, -0.0038,  0.0069],
+        [ 0.0443,  0.0304,  0.0047,  ..., -0.0228, -0.0329,  0.0230],
+        [ 0.0216, -0.0126,  0.0136,  ...,  0.0246, -0.0359,  0.0260]],
+       device='cuda:0'), grad: tensor([[ 2.7455e-06,  3.7819e-05, -6.4433e-05,  ...,  3.1799e-05,
+          5.0105e-06, -6.9402e-06],
+        [ 4.2439e-05,  3.7372e-05,  3.1084e-05,  ...,  7.0572e-05,
+          2.3127e-05,  1.2136e-04],
+        [-3.9011e-05, -6.4313e-05,  5.2214e-05,  ...,  3.1978e-05,
+          8.5756e-06, -3.8791e-04],
+        ...,
+        [-3.3617e-05, -4.0680e-06,  4.9114e-05,  ..., -9.1910e-05,
+         -5.4464e-06,  7.8321e-05],
+        [ 2.5129e-04,  4.1485e-04,  3.8958e-04,  ...,  3.2258e-04,
+          3.9786e-05,  1.7715e-04],
+        [-9.3842e-04, -1.2741e-03, -1.2732e-03,  ..., -7.9393e-04,
+         -6.0529e-05, -5.4151e-05]], device='cuda:0')
+Epoch 30, bias, value: tensor([ 0.0300, -0.0091, -0.0129,  0.0185, -0.0046, -0.0157, -0.0057,  0.0086,
+        -0.0237,  0.0187], device='cuda:0'), grad: tensor([-8.1480e-05,  2.6059e-04, -6.6710e-04,  1.0233e-03,  1.1653e-04,
+         2.3389e-04,  1.0002e-04,  6.0946e-05,  9.4461e-04, -1.9932e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 29----------------------------------------------------
+epoch 29, time 220.44, cls_loss 0.0146 cls_loss_mapping 0.0387 cls_loss_causal 0.7654 re_mapping 0.0192 re_causal 0.0555 /// teacc 98.88 lr 0.00010000
+Epoch 31, weight, value: tensor([[-0.0028, -0.0086,  0.0054,  ..., -0.0434, -0.0105, -0.0034],
+        [-0.0454,  0.0175, -0.0126,  ..., -0.0397,  0.0170, -0.0506],
+        [-0.0316, -0.0223, -0.0466,  ..., -0.0359, -0.0053,  0.0561],
+        ...,
+        [ 0.0354,  0.0146, -0.0181,  ...,  0.0295, -0.0040,  0.0066],
+        [ 0.0446,  0.0307,  0.0051,  ..., -0.0233, -0.0337,  0.0235],
+        [ 0.0216, -0.0127,  0.0139,  ...,  0.0247, -0.0362,  0.0261]],
+       device='cuda:0'), grad: tensor([[-5.3078e-05,  2.6241e-05,  3.0056e-05,  ...,  1.2003e-05,
+          2.1315e-04,  2.0075e-04],
+        [ 1.2323e-05, -2.7561e-04,  3.5018e-05,  ..., -2.4363e-05,
+          7.8082e-06,  3.4869e-05],
+        [ 3.9548e-05,  2.5892e-04,  8.7261e-05,  ...,  2.5317e-05,
+          2.8223e-05,  1.2696e-05],
+        ...,
+        [-6.1132e-06,  1.0186e-04,  3.4064e-05,  ...,  4.2009e-04,
+          9.6440e-05,  1.2815e-04],
+        [-1.2708e-04, -2.9236e-05, -1.1712e-04,  ...,  3.3468e-05,
+         -3.3481e-07, -2.3282e-04],
+        [-3.0160e-05,  3.5405e-05, -3.1292e-06,  ...,  2.6137e-05,
+          2.1011e-05,  9.9093e-06]], device='cuda:0')
+Epoch 31, bias, value: tensor([ 0.0300, -0.0092, -0.0129,  0.0183, -0.0047, -0.0156, -0.0055,  0.0090,
+        -0.0238,  0.0185], device='cuda:0'), grad: tensor([ 1.2338e-04, -2.3899e-03,  1.8148e-03, -5.0068e-05, -1.2970e-04,
+         1.5318e-04, -2.8896e-04,  7.5626e-04, -1.1635e-04,  1.2732e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 30, time 219.48, cls_loss 0.0152 cls_loss_mapping 0.0399 cls_loss_causal 0.7750 re_mapping 0.0181 re_causal 0.0532 /// teacc 98.82 lr 0.00010000
+Epoch 32, weight, value: tensor([[-0.0027, -0.0090,  0.0057,  ..., -0.0442, -0.0115, -0.0035],
+        [-0.0453,  0.0179, -0.0130,  ..., -0.0396,  0.0162, -0.0514],
+        [-0.0318, -0.0228, -0.0470,  ..., -0.0365, -0.0054,  0.0567],
+        ...,
+        [ 0.0356,  0.0140, -0.0186,  ...,  0.0298, -0.0044,  0.0061],
+        [ 0.0452,  0.0310,  0.0052,  ..., -0.0235, -0.0343,  0.0237],
+        [ 0.0217, -0.0126,  0.0141,  ...,  0.0248, -0.0367,  0.0258]],
+       device='cuda:0'), grad: tensor([[ 4.6104e-05,  1.1820e-04,  3.6061e-05,  ...,  1.2016e-04,
+          7.9453e-05,  2.4915e-04],
+        [-5.5790e-04, -2.7084e-03,  2.0728e-05,  ..., -1.2767e-04,
+          2.0280e-05,  8.3387e-05],
+        [ 1.9085e-04,  9.9945e-04, -2.5153e-05,  ...,  1.7393e-04,
+          6.0916e-05, -2.4796e-04],
+        ...,
+        [-2.7132e-04,  8.2397e-04,  2.9638e-05,  ..., -1.8330e-03,
+          2.9564e-05,  9.6202e-05],
+        [ 2.0698e-05,  1.3137e-04,  5.0694e-05,  ...,  5.3167e-05,
+          5.5164e-05,  1.9610e-04],
+        [ 2.5058e-04,  2.0838e-04, -4.3422e-05,  ...,  1.0881e-03,
+         -7.5847e-06,  2.3365e-05]], device='cuda:0')
+Epoch 32, bias, value: tensor([ 0.0297, -0.0093, -0.0127,  0.0185, -0.0047, -0.0156, -0.0052,  0.0089,
+        -0.0237,  0.0183], device='cuda:0'), grad: tensor([ 7.6866e-04, -5.3749e-03,  1.6775e-03,  3.9972e-06,  6.4182e-04,
+         1.5774e-03, -1.5984e-03,  2.8253e-04,  5.8222e-04,  1.4381e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 31, time 219.77, cls_loss 0.0126 cls_loss_mapping 0.0326 cls_loss_causal 0.7683 re_mapping 0.0177 re_causal 0.0524 /// teacc 98.86 lr 0.00010000
+Epoch 33, weight, value: tensor([[-0.0027, -0.0093,  0.0061,  ..., -0.0449, -0.0120, -0.0037],
+        [-0.0453,  0.0186, -0.0133,  ..., -0.0397,  0.0156, -0.0522],
+        [-0.0318, -0.0240, -0.0476,  ..., -0.0369, -0.0058,  0.0571],
+        ...,
+        [ 0.0356,  0.0138, -0.0190,  ...,  0.0299, -0.0048,  0.0055],
+        [ 0.0457,  0.0313,  0.0055,  ..., -0.0238, -0.0348,  0.0243],
+        [ 0.0224, -0.0124,  0.0144,  ...,  0.0253, -0.0367,  0.0259]],
+       device='cuda:0'), grad: tensor([[ 8.0526e-05,  4.1515e-05,  2.2739e-05,  ...,  2.5392e-05,
+          1.8179e-05,  7.8857e-05],
+        [ 9.6679e-05, -1.1706e-04,  2.0280e-05,  ...,  2.2396e-05,
+          3.5632e-06,  7.1585e-05],
+        [-5.0926e-04, -1.1533e-04,  4.2021e-05,  ...,  1.0908e-04,
+          1.1519e-05, -4.8423e-04],
+        ...,
+        [-4.0308e-06,  1.0949e-04,  3.0190e-05,  ..., -2.3305e-04,
+          1.2010e-05,  1.6046e-04],
+        [-4.0960e-04, -3.7646e-04, -4.4155e-04,  ..., -2.6003e-05,
+         -1.9252e-05, -2.9683e-04],
+        [ 3.2425e-05, -1.3471e-05,  6.8247e-06,  ..., -8.4519e-05,
+          1.7241e-05,  6.0856e-05]], device='cuda:0')
+Epoch 33, bias, value: tensor([ 0.0298, -0.0089, -0.0129,  0.0184, -0.0050, -0.0158, -0.0056,  0.0088,
+        -0.0234,  0.0186], device='cuda:0'), grad: tensor([ 2.0480e-04,  9.1344e-06, -1.0777e-03,  8.4496e-04,  7.7963e-05,
+         1.9073e-04,  5.2363e-05,  4.9561e-05, -4.7445e-04,  1.2082e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 32----------------------------------------------------
+epoch 32, time 220.60, cls_loss 0.0110 cls_loss_mapping 0.0334 cls_loss_causal 0.7547 re_mapping 0.0169 re_causal 0.0511 /// teacc 98.94 lr 0.00010000
+Epoch 34, weight, value: tensor([[-0.0022, -0.0101,  0.0063,  ..., -0.0452, -0.0129, -0.0041],
+        [-0.0460,  0.0192, -0.0138,  ..., -0.0400,  0.0153, -0.0529],
+        [-0.0322, -0.0248, -0.0479,  ..., -0.0375, -0.0061,  0.0576],
+        ...,
+        [ 0.0361,  0.0137, -0.0196,  ...,  0.0304, -0.0049,  0.0052],
+        [ 0.0467,  0.0316,  0.0061,  ..., -0.0241, -0.0353,  0.0248],
+        [ 0.0223, -0.0124,  0.0145,  ...,  0.0252, -0.0374,  0.0258]],
+       device='cuda:0'), grad: tensor([[-2.1309e-05,  1.0081e-05, -1.4625e-05,  ..., -9.4576e-07,
+          2.2039e-05,  4.5449e-06],
+        [-8.0187e-07, -2.6894e-04,  8.9556e-06,  ..., -4.3064e-05,
+         -1.4566e-06, -1.9833e-05],
+        [ 1.5765e-05,  7.8857e-05,  2.0951e-05,  ...,  2.1398e-05,
+          1.1891e-05,  1.0937e-05],
+        ...,
+        [-2.4319e-05,  4.4972e-05,  2.4483e-05,  ...,  1.4521e-05,
+          8.2925e-06,  1.9193e-05],
+        [ 9.6262e-06,  1.3316e-04,  2.4378e-05,  ...,  3.5465e-05,
+          2.0042e-05,  2.5779e-05],
+        [-4.5091e-05, -4.6343e-05, -3.6687e-05,  ..., -3.3051e-05,
+          4.3452e-05,  1.3895e-05]], device='cuda:0')
+Epoch 34, bias, value: tensor([ 0.0299, -0.0089, -0.0130,  0.0186, -0.0048, -0.0160, -0.0056,  0.0091,
+        -0.0232,  0.0181], device='cuda:0'), grad: tensor([-8.1211e-06, -4.7326e-04,  1.5128e-04, -5.2154e-06,  1.4938e-05,
+         6.1572e-05, -5.8711e-05,  4.8935e-05,  2.5702e-04,  1.1764e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 33----------------------------------------------------
+epoch 33, time 220.63, cls_loss 0.0093 cls_loss_mapping 0.0283 cls_loss_causal 0.7678 re_mapping 0.0166 re_causal 0.0507 /// teacc 98.96 lr 0.00010000
+Epoch 35, weight, value: tensor([[-0.0022, -0.0105,  0.0064,  ..., -0.0457, -0.0136, -0.0046],
+        [-0.0466,  0.0192, -0.0142,  ..., -0.0405,  0.0146, -0.0536],
+        [-0.0321, -0.0254, -0.0482,  ..., -0.0379, -0.0065,  0.0582],
+        ...,
+        [ 0.0364,  0.0136, -0.0201,  ...,  0.0307, -0.0053,  0.0046],
+        [ 0.0472,  0.0317,  0.0063,  ..., -0.0244, -0.0356,  0.0250],
+        [ 0.0226, -0.0121,  0.0149,  ...,  0.0255, -0.0377,  0.0259]],
+       device='cuda:0'), grad: tensor([[ 3.8326e-05,  3.5614e-05,  4.1306e-05,  ...,  3.7670e-05,
+          3.8534e-05,  4.6104e-05],
+        [ 4.6283e-05, -1.8671e-05,  4.1604e-05,  ...,  2.5868e-05,
+          5.3078e-05,  8.1718e-05],
+        [ 1.3375e-04,  9.9778e-05,  8.1301e-05,  ...,  1.4353e-04,
+          5.6595e-05, -3.2485e-05],
+        ...,
+        [-6.0034e-04, -3.1948e-05, -5.0068e-05,  ..., -5.8985e-04,
+          3.4310e-06,  3.2723e-05],
+        [ 2.3454e-05, -9.9063e-05, -1.1635e-04,  ...,  1.2946e-04,
+          4.3899e-05, -1.4627e-04],
+        [ 6.8426e-05,  2.8819e-05,  2.2024e-05,  ...,  4.3213e-07,
+          4.8690e-06, -1.9774e-05]], device='cuda:0')
+Epoch 35, bias, value: tensor([ 0.0297, -0.0091, -0.0128,  0.0186, -0.0049, -0.0160, -0.0054,  0.0091,
+        -0.0234,  0.0182], device='cuda:0'), grad: tensor([ 0.0002,  0.0002,  0.0003,  0.0001,  0.0003, -0.0002, -0.0005, -0.0009,
+         0.0002,  0.0003], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 34, time 219.72, cls_loss 0.0112 cls_loss_mapping 0.0331 cls_loss_causal 0.7896 re_mapping 0.0162 re_causal 0.0502 /// teacc 98.81 lr 0.00010000
+Epoch 36, weight, value: tensor([[-0.0021, -0.0112,  0.0065,  ..., -0.0461, -0.0141, -0.0049],
+        [-0.0468,  0.0194, -0.0146,  ..., -0.0410,  0.0137, -0.0544],
+        [-0.0321, -0.0261, -0.0484,  ..., -0.0388, -0.0073,  0.0586],
+        ...,
+        [ 0.0366,  0.0133, -0.0208,  ...,  0.0312, -0.0058,  0.0041],
+        [ 0.0475,  0.0319,  0.0067,  ..., -0.0249, -0.0360,  0.0255],
+        [ 0.0231, -0.0119,  0.0152,  ...,  0.0257, -0.0381,  0.0257]],
+       device='cuda:0'), grad: tensor([[-1.1104e-04,  3.2395e-05, -3.3155e-07,  ...,  6.8545e-06,
+          1.3538e-05,  4.2617e-05],
+        [ 6.9678e-05,  6.6936e-05,  9.5248e-05,  ..., -9.2834e-06,
+         -1.6645e-05,  7.3671e-05],
+        [ 2.3589e-05,  1.4913e-04,  9.0599e-05,  ..., -5.8830e-05,
+          1.0945e-05, -1.0556e-04],
+        ...,
+        [ 4.8503e-06,  9.2864e-05,  5.3585e-05,  ..., -2.9370e-05,
+          5.7630e-06,  6.1870e-05],
+        [-2.3103e-04, -1.7154e-04, -1.7953e-04,  ...,  2.1070e-05,
+         -2.9244e-06, -3.4642e-04],
+        [ 1.1325e-05,  9.2566e-05,  7.3671e-05,  ..., -6.8545e-05,
+         -1.0328e-06,  1.6332e-05]], device='cuda:0')
+Epoch 36, bias, value: tensor([ 0.0296, -0.0091, -0.0129,  0.0189, -0.0048, -0.0160, -0.0054,  0.0092,
+        -0.0235,  0.0180], device='cuda:0'), grad: tensor([-1.1861e-04,  9.3699e-05, -1.7512e-04, -1.2398e-03,  2.3079e-04,
+         4.9496e-04,  5.2118e-04,  2.3210e-04, -2.9230e-04,  2.5392e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 35, time 220.20, cls_loss 0.0107 cls_loss_mapping 0.0293 cls_loss_causal 0.7512 re_mapping 0.0156 re_causal 0.0481 /// teacc 98.89 lr 0.00010000
+Epoch 37, weight, value: tensor([[-0.0016, -0.0118,  0.0065,  ..., -0.0463, -0.0151, -0.0054],
+        [-0.0473,  0.0194, -0.0149,  ..., -0.0415,  0.0132, -0.0552],
+        [-0.0323, -0.0268, -0.0490,  ..., -0.0393, -0.0076,  0.0590],
+        ...,
+        [ 0.0367,  0.0131, -0.0215,  ...,  0.0315, -0.0062,  0.0035],
+        [ 0.0480,  0.0321,  0.0070,  ..., -0.0252, -0.0366,  0.0259],
+        [ 0.0233, -0.0118,  0.0153,  ...,  0.0258, -0.0385,  0.0256]],
+       device='cuda:0'), grad: tensor([[ 8.4102e-05,  3.8862e-05,  3.0264e-05,  ...,  3.1531e-05,
+          3.7640e-05,  7.6890e-05],
+        [ 1.2767e-04, -3.9637e-05,  2.0951e-05,  ...,  5.8711e-05,
+          1.3404e-05,  2.7657e-05],
+        [ 6.2180e-04,  3.5810e-04,  2.5272e-05,  ...,  2.9945e-04,
+          9.6112e-06, -8.1420e-05],
+        ...,
+        [-1.1683e-03, -5.4026e-04,  2.4393e-05,  ..., -7.5006e-04,
+          8.5086e-06, -1.1347e-05],
+        [-4.0579e-04,  2.1780e-04,  3.9697e-05,  ...,  4.1634e-05,
+          1.9264e-04, -1.3804e-04],
+        [ 2.1899e-04,  3.0696e-05,  5.2869e-05,  ...,  6.3896e-05,
+          1.7419e-05,  4.3422e-05]], device='cuda:0')
+Epoch 37, bias, value: tensor([ 0.0296, -0.0093, -0.0129,  0.0192, -0.0045, -0.0162, -0.0055,  0.0091,
+        -0.0233,  0.0179], device='cuda:0'), grad: tensor([ 2.3746e-04,  5.4479e-05,  1.1311e-03,  2.2984e-03,  2.0754e-04,
+        -3.0231e-03,  6.1703e-04, -2.1935e-03,  2.9802e-04,  3.7193e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 36, time 219.82, cls_loss 0.0098 cls_loss_mapping 0.0266 cls_loss_causal 0.6884 re_mapping 0.0161 re_causal 0.0467 /// teacc 98.82 lr 0.00010000
+Epoch 38, weight, value: tensor([[-0.0015, -0.0122,  0.0068,  ..., -0.0467, -0.0156, -0.0054],
+        [-0.0470,  0.0196, -0.0153,  ..., -0.0416,  0.0128, -0.0556],
+        [-0.0325, -0.0270, -0.0493,  ..., -0.0400, -0.0078,  0.0593],
+        ...,
+        [ 0.0372,  0.0130, -0.0219,  ...,  0.0319, -0.0064,  0.0032],
+        [ 0.0483,  0.0326,  0.0072,  ..., -0.0254, -0.0369,  0.0262],
+        [ 0.0235, -0.0116,  0.0156,  ...,  0.0263, -0.0384,  0.0256]],
+       device='cuda:0'), grad: tensor([[-7.1168e-05,  2.9698e-05, -5.7131e-05,  ..., -4.5717e-05,
+          8.4043e-05,  9.9182e-05],
+        [ 2.3067e-05, -5.0187e-05,  2.3246e-05,  ...,  2.6658e-05,
+          2.6196e-05,  4.7266e-05],
+        [ 3.9339e-05,  8.3745e-05,  4.3422e-05,  ...,  3.4213e-05,
+          3.2127e-05, -1.7852e-05],
+        ...,
+        [-3.6538e-05,  2.4557e-05,  3.2544e-05,  ..., -2.4050e-05,
+          1.0461e-05,  4.5717e-05],
+        [-2.1911e-04, -2.7084e-04, -1.2314e-04,  ..., -1.1808e-04,
+          7.2122e-05, -1.4794e-04],
+        [ 6.6102e-05,  6.6817e-05, -1.0662e-05,  ...,  7.5579e-05,
+          3.1561e-05,  4.7326e-05]], device='cuda:0')
+Epoch 38, bias, value: tensor([ 0.0297, -0.0095, -0.0126,  0.0186, -0.0049, -0.0155, -0.0058,  0.0093,
+        -0.0234,  0.0181], device='cuda:0'), grad: tensor([-4.4793e-05, -2.6420e-05,  6.5565e-05,  1.7548e-04,  1.5974e-04,
+         2.4214e-05, -4.5371e-04,  2.2501e-05, -1.3387e-04,  2.1124e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 37----------------------------------------------------
+epoch 37, time 220.62, cls_loss 0.0101 cls_loss_mapping 0.0285 cls_loss_causal 0.7411 re_mapping 0.0150 re_causal 0.0471 /// teacc 98.99 lr 0.00010000
+Epoch 39, weight, value: tensor([[-0.0019, -0.0125,  0.0067,  ..., -0.0477, -0.0163, -0.0064],
+        [-0.0477,  0.0196, -0.0157,  ..., -0.0421,  0.0122, -0.0564],
+        [-0.0325, -0.0276, -0.0497,  ..., -0.0407, -0.0082,  0.0597],
+        ...,
+        [ 0.0377,  0.0130, -0.0223,  ...,  0.0328, -0.0064,  0.0026],
+        [ 0.0488,  0.0329,  0.0074,  ..., -0.0258, -0.0373,  0.0268],
+        [ 0.0238, -0.0116,  0.0159,  ...,  0.0263, -0.0388,  0.0256]],
+       device='cuda:0'), grad: tensor([[-4.7028e-05,  2.0802e-05, -9.9838e-05,  ...,  9.3505e-06,
+          3.2932e-06, -7.4923e-05],
+        [-1.0198e-06, -2.2221e-03,  1.4871e-05,  ..., -7.3433e-05,
+         -6.1616e-06,  1.2539e-05],
+        [ 5.2243e-05,  1.5221e-03,  3.0637e-05,  ...,  1.4298e-05,
+          2.6394e-06,  1.8239e-05],
+        ...,
+        [-1.8656e-05,  4.5156e-04,  3.0309e-05,  ...,  1.7136e-05,
+          2.4028e-06,  2.4468e-05],
+        [-4.5300e-05,  6.1750e-05,  1.8045e-05,  ...,  3.1143e-05,
+          4.0308e-06, -4.3392e-05],
+        [-2.9713e-05, -1.6302e-05, -5.0247e-05,  ..., -1.0663e-04,
+         -2.2817e-06, -2.0280e-05]], device='cuda:0')
+Epoch 39, bias, value: tensor([ 0.0293, -0.0098, -0.0126,  0.0189, -0.0050, -0.0156, -0.0056,  0.0098,
+        -0.0234,  0.0178], device='cuda:0'), grad: tensor([-2.0540e-04, -1.1330e-02,  7.8278e-03, -1.4257e-03,  2.3174e-04,
+         2.4414e-03,  1.8752e-04,  2.0466e-03,  1.8728e-04,  3.6448e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 38, time 220.05, cls_loss 0.0088 cls_loss_mapping 0.0261 cls_loss_causal 0.6739 re_mapping 0.0151 re_causal 0.0438 /// teacc 98.95 lr 0.00010000
+Epoch 40, weight, value: tensor([[-0.0016, -0.0130,  0.0069,  ..., -0.0479, -0.0170, -0.0069],
+        [-0.0482,  0.0200, -0.0160,  ..., -0.0426,  0.0117, -0.0571],
+        [-0.0328, -0.0285, -0.0501,  ..., -0.0412, -0.0087,  0.0600],
+        ...,
+        [ 0.0378,  0.0125, -0.0228,  ...,  0.0331, -0.0068,  0.0020],
+        [ 0.0490,  0.0330,  0.0076,  ..., -0.0264, -0.0379,  0.0271],
+        [ 0.0246, -0.0113,  0.0163,  ...,  0.0267, -0.0392,  0.0257]],
+       device='cuda:0'), grad: tensor([[ 2.0131e-05,  3.4332e-05,  1.6570e-05,  ...,  3.7313e-05,
+          3.3230e-05,  4.6849e-05],
+        [ 4.3422e-05,  3.6836e-05,  3.6389e-05,  ...,  5.1528e-05,
+          3.5614e-05,  4.4763e-05],
+        [ 1.5408e-05,  3.9697e-05,  1.9759e-05,  ...,  1.9863e-05,
+          1.1414e-05, -3.7432e-05],
+        ...,
+        [ 8.9169e-05,  1.9884e-04,  9.7513e-05,  ...,  1.6332e-04,
+          8.4817e-05,  9.4235e-05],
+        [-2.1899e-04, -3.3712e-04, -2.8658e-04,  ..., -1.3649e-04,
+         -5.7518e-05, -2.3580e-04],
+        [-6.9857e-04, -7.9441e-04, -4.8137e-04,  ..., -1.4553e-03,
+         -6.1321e-04, -4.8304e-04]], device='cuda:0')
+Epoch 40, bias, value: tensor([ 0.0294, -0.0095, -0.0129,  0.0190, -0.0052, -0.0159, -0.0052,  0.0095,
+        -0.0235,  0.0181], device='cuda:0'), grad: tensor([ 8.5950e-05,  9.8109e-05,  1.0552e-06,  1.5152e-04,  1.4906e-03,
+         5.8204e-05,  1.4447e-05,  3.1137e-04, -6.6185e-04, -1.5488e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 39, time 219.74, cls_loss 0.0099 cls_loss_mapping 0.0271 cls_loss_causal 0.6988 re_mapping 0.0143 re_causal 0.0441 /// teacc 98.93 lr 0.00010000
+Epoch 41, weight, value: tensor([[-0.0015, -0.0138,  0.0070,  ..., -0.0487, -0.0177, -0.0074],
+        [-0.0483,  0.0201, -0.0163,  ..., -0.0424,  0.0110, -0.0582],
+        [-0.0332, -0.0292, -0.0504,  ..., -0.0419, -0.0090,  0.0604],
+        ...,
+        [ 0.0382,  0.0127, -0.0233,  ...,  0.0331, -0.0074,  0.0016],
+        [ 0.0492,  0.0335,  0.0079,  ..., -0.0269, -0.0382,  0.0274],
+        [ 0.0249, -0.0115,  0.0164,  ...,  0.0266, -0.0398,  0.0253]],
+       device='cuda:0'), grad: tensor([[ 2.1592e-05,  2.6882e-05, -1.0915e-05,  ...,  2.0638e-05,
+          4.5300e-05,  3.9309e-05],
+        [ 1.6088e-03,  8.3208e-04,  7.9349e-06,  ...,  1.5612e-03,
+          1.7256e-05,  1.8582e-05],
+        [ 5.3120e-04,  2.6560e-04,  1.3657e-05,  ...,  7.6115e-05,
+          1.2219e-05, -4.7266e-05],
+        ...,
+        [-2.9068e-03, -1.4648e-03,  2.0489e-05,  ..., -1.9779e-03,
+          7.7784e-06, -5.6535e-05],
+        [ 3.8356e-05,  1.0550e-05,  7.2904e-06,  ...,  2.6226e-05,
+          2.8163e-05,  1.4305e-05],
+        [ 2.4652e-04,  1.2314e-04,  2.9087e-05,  ...,  1.9908e-04,
+          2.8405e-06,  1.4201e-05]], device='cuda:0')
+Epoch 41, bias, value: tensor([ 0.0292, -0.0096, -0.0129,  0.0187, -0.0043, -0.0156, -0.0053,  0.0098,
+        -0.0237,  0.0177], device='cuda:0'), grad: tensor([ 0.0004,  0.0034,  0.0015,  0.0015,  0.0002, -0.0009, -0.0004, -0.0069,
+         0.0002,  0.0009], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 40, time 219.77, cls_loss 0.0084 cls_loss_mapping 0.0260 cls_loss_causal 0.7027 re_mapping 0.0147 re_causal 0.0448 /// teacc 98.92 lr 0.00010000
+Epoch 42, weight, value: tensor([[-0.0013, -0.0132,  0.0071,  ..., -0.0490, -0.0184, -0.0077],
+        [-0.0488,  0.0202, -0.0167,  ..., -0.0430,  0.0098, -0.0584],
+        [-0.0335, -0.0301, -0.0508,  ..., -0.0422, -0.0094,  0.0607],
+        ...,
+        [ 0.0389,  0.0127, -0.0237,  ...,  0.0333, -0.0080,  0.0010],
+        [ 0.0498,  0.0338,  0.0084,  ..., -0.0270, -0.0386,  0.0279],
+        [ 0.0249, -0.0115,  0.0167,  ...,  0.0269, -0.0397,  0.0253]],
+       device='cuda:0'), grad: tensor([[-1.8358e-04,  1.4178e-05,  5.4479e-05,  ...,  7.2494e-06,
+          1.3721e-04,  4.7773e-05],
+        [ 7.2241e-05,  3.0488e-05,  4.5806e-05,  ...,  2.8387e-05,
+          5.8785e-06,  5.4359e-05],
+        [ 9.9182e-05,  3.0145e-05,  3.7253e-05,  ...,  1.2286e-05,
+          2.4922e-06,  1.2837e-05],
+        ...,
+        [-5.4091e-06,  2.1592e-05,  2.8759e-05,  ..., -2.3752e-05,
+          5.0887e-06,  2.0519e-05],
+        [-1.7321e-04, -3.1137e-04, -1.9956e-04,  ...,  1.8487e-06,
+          5.1260e-06, -2.8181e-04],
+        [ 1.7628e-05,  1.1772e-05, -3.4034e-05,  ..., -2.1607e-05,
+          2.9653e-05,  2.3961e-05]], device='cuda:0')
+Epoch 42, bias, value: tensor([ 0.0296, -0.0098, -0.0133,  0.0186, -0.0044, -0.0157, -0.0053,  0.0102,
+        -0.0234,  0.0175], device='cuda:0'), grad: tensor([-1.6391e-04,  1.3983e-04,  2.3198e-04,  1.9562e-04,  1.2435e-05,
+         2.7323e-04, -2.6226e-04,  9.2685e-05, -5.8270e-04,  6.3598e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 41, time 219.71, cls_loss 0.0088 cls_loss_mapping 0.0236 cls_loss_causal 0.6887 re_mapping 0.0141 re_causal 0.0426 /// teacc 98.86 lr 0.00010000
+Epoch 43, weight, value: tensor([[-0.0009, -0.0138,  0.0072,  ..., -0.0492, -0.0193, -0.0082],
+        [-0.0490,  0.0204, -0.0171,  ..., -0.0430,  0.0094, -0.0589],
+        [-0.0339, -0.0306, -0.0511,  ..., -0.0428, -0.0099,  0.0608],
+        ...,
+        [ 0.0390,  0.0121, -0.0248,  ...,  0.0336, -0.0085,  0.0007],
+        [ 0.0505,  0.0340,  0.0086,  ..., -0.0271, -0.0390,  0.0282],
+        [ 0.0251, -0.0114,  0.0174,  ...,  0.0270, -0.0395,  0.0258]],
+       device='cuda:0'), grad: tensor([[-4.2766e-05,  9.2983e-05, -3.9726e-05,  ...,  7.7784e-06,
+          4.5747e-06,  1.9863e-05],
+        [-5.2065e-05, -5.4550e-04, -2.0945e-04,  ...,  1.5533e-04,
+          7.0408e-06,  6.8069e-05],
+        [ 6.2704e-05,  4.0084e-05,  4.3035e-05,  ...,  2.4959e-05,
+          3.1471e-05, -1.6797e-04],
+        ...,
+        [-4.4799e-04, -3.0684e-04, -1.0170e-05,  ..., -4.4227e-04,
+          4.2953e-06,  4.8488e-05],
+        [ 1.1480e-04,  3.5667e-04,  1.1975e-04,  ...,  1.6809e-05,
+          4.8466e-06,  4.2245e-06],
+        [ 2.2626e-04,  2.5535e-04,  9.1672e-05,  ...,  1.6463e-04,
+          6.5416e-06,  8.4117e-06]], device='cuda:0')
+Epoch 43, bias, value: tensor([ 0.0296, -0.0098, -0.0135,  0.0193, -0.0047, -0.0159, -0.0053,  0.0101,
+        -0.0236,  0.0178], device='cuda:0'), grad: tensor([ 6.2048e-05, -4.1151e-04, -2.9850e-04,  1.0233e-03,  7.9513e-05,
+        -9.8038e-04,  2.3022e-05, -6.0463e-04,  5.4264e-04,  5.6505e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 42, time 219.86, cls_loss 0.0086 cls_loss_mapping 0.0265 cls_loss_causal 0.6864 re_mapping 0.0139 re_causal 0.0413 /// teacc 98.93 lr 0.00010000
+Epoch 44, weight, value: tensor([[-0.0008, -0.0144,  0.0076,  ..., -0.0496, -0.0199, -0.0085],
+        [-0.0493,  0.0206, -0.0174,  ..., -0.0433,  0.0086, -0.0597],
+        [-0.0340, -0.0310, -0.0514,  ..., -0.0433, -0.0103,  0.0614],
+        ...,
+        [ 0.0393,  0.0119, -0.0253,  ...,  0.0338, -0.0088,  0.0002],
+        [ 0.0509,  0.0341,  0.0088,  ..., -0.0275, -0.0392,  0.0284],
+        [ 0.0254, -0.0111,  0.0178,  ...,  0.0274, -0.0397,  0.0256]],
+       device='cuda:0'), grad: tensor([[-2.0772e-05,  1.2472e-05, -1.7250e-04,  ...,  1.3158e-05,
+          1.4782e-05, -7.5817e-05],
+        [ 3.5077e-05, -4.3698e-06,  1.8030e-05,  ...,  7.7188e-05,
+          2.4244e-05,  4.0650e-05],
+        [ 1.4402e-05,  3.2961e-05,  4.8459e-05,  ...,  2.4945e-05,
+          1.4327e-05,  5.5522e-05],
+        ...,
+        [-2.4095e-05,  8.4281e-05,  3.4392e-05,  ..., -2.6971e-05,
+          2.9519e-05,  3.4660e-05],
+        [-4.1425e-05, -1.5771e-04, -6.3241e-05,  ...,  8.0764e-05,
+          1.4126e-05, -1.5974e-04],
+        [-1.0008e-04, -1.6809e-04, -7.9632e-05,  ..., -1.6844e-04,
+          4.2319e-05,  6.0827e-05]], device='cuda:0')
+Epoch 44, bias, value: tensor([ 0.0297, -0.0101, -0.0131,  0.0187, -0.0043, -0.0155, -0.0052,  0.0100,
+        -0.0237,  0.0175], device='cuda:0'), grad: tensor([-3.8266e-04,  6.5506e-05,  1.9407e-04,  3.4022e-04, -5.5820e-05,
+        -1.1700e-04,  1.1200e-04,  7.5817e-05, -1.6928e-04, -6.2704e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 43, time 219.50, cls_loss 0.0084 cls_loss_mapping 0.0241 cls_loss_causal 0.7132 re_mapping 0.0137 re_causal 0.0417 /// teacc 98.91 lr 0.00010000
+Epoch 45, weight, value: tensor([[-0.0005, -0.0152,  0.0078,  ..., -0.0499, -0.0207, -0.0088],
+        [-0.0492,  0.0209, -0.0175,  ..., -0.0434,  0.0076, -0.0602],
+        [-0.0343, -0.0308, -0.0519,  ..., -0.0438, -0.0105,  0.0618],
+        ...,
+        [ 0.0394,  0.0112, -0.0257,  ...,  0.0339, -0.0092, -0.0005],
+        [ 0.0513,  0.0343,  0.0090,  ..., -0.0279, -0.0395,  0.0288],
+        [ 0.0257, -0.0108,  0.0180,  ...,  0.0277, -0.0399,  0.0256]],
+       device='cuda:0'), grad: tensor([[-4.6864e-06,  8.0988e-06,  1.9610e-05,  ...,  3.4012e-06,
+          3.5375e-05,  3.0413e-05],
+        [ 7.7635e-06, -5.5023e-06,  9.3877e-06,  ...,  1.4216e-05,
+          1.6856e-04,  8.9347e-05],
+        [ 8.6501e-06,  8.5771e-05,  3.2127e-05,  ...,  6.4559e-06,
+          1.6212e-05, -1.3322e-05],
+        ...,
+        [-3.3975e-05,  6.0312e-06,  3.3788e-06,  ..., -2.9370e-05,
+          6.7912e-06,  9.0897e-06],
+        [-9.5591e-06, -1.9707e-06,  2.1886e-07,  ...,  4.1761e-06,
+          2.2754e-05,  3.5875e-06],
+        [ 9.1493e-06,  6.2250e-06,  1.3039e-05,  ...,  6.7711e-05,
+          4.6790e-05,  2.1070e-05]], device='cuda:0')
+Epoch 45, bias, value: tensor([ 0.0298, -0.0101, -0.0127,  0.0187, -0.0046, -0.0154, -0.0049,  0.0096,
+        -0.0239,  0.0178], device='cuda:0'), grad: tensor([ 5.1647e-05,  2.3389e-04,  1.2803e-04, -1.3947e-04, -2.6003e-05,
+         7.0393e-05, -4.2415e-04, -2.0117e-05,  3.8475e-05,  8.7440e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 44, time 219.73, cls_loss 0.0103 cls_loss_mapping 0.0277 cls_loss_causal 0.6814 re_mapping 0.0137 re_causal 0.0402 /// teacc 98.82 lr 0.00010000
+Epoch 46, weight, value: tensor([[-0.0003, -0.0160,  0.0081,  ..., -0.0501, -0.0216, -0.0093],
+        [-0.0497,  0.0211, -0.0180,  ..., -0.0438,  0.0068, -0.0613],
+        [-0.0346, -0.0316, -0.0525,  ..., -0.0444, -0.0107,  0.0625],
+        ...,
+        [ 0.0400,  0.0111, -0.0262,  ...,  0.0349, -0.0089, -0.0008],
+        [ 0.0522,  0.0349,  0.0097,  ..., -0.0282, -0.0400,  0.0291],
+        [ 0.0259, -0.0109,  0.0187,  ...,  0.0276, -0.0400,  0.0258]],
+       device='cuda:0'), grad: tensor([[ 2.0564e-05,  6.7651e-05,  2.5582e-04,  ...,  4.4815e-06,
+          3.3736e-04,  3.3474e-04],
+        [ 1.4693e-05,  4.0650e-05,  1.0091e-04,  ...,  1.1362e-05,
+          1.2779e-04,  1.1939e-04],
+        [ 2.8789e-05,  6.8069e-05,  8.6844e-05,  ...,  3.3945e-05,
+          7.1108e-05,  6.6459e-05],
+        ...,
+        [ 3.0667e-05,  7.9274e-05,  7.8261e-05,  ...,  5.2750e-05,
+          1.7136e-05,  4.4793e-05],
+        [-1.6236e-04, -6.3360e-05,  5.5104e-05,  ...,  1.1280e-05,
+          2.5725e-04, -4.4703e-05],
+        [ 4.9859e-05,  7.1764e-04,  6.6948e-04,  ...,  1.3340e-04,
+          9.3937e-05,  1.9205e-04]], device='cuda:0')
+Epoch 46, bias, value: tensor([ 0.0296, -0.0104, -0.0128,  0.0190, -0.0050, -0.0158, -0.0050,  0.0103,
+        -0.0238,  0.0178], device='cuda:0'), grad: tensor([ 7.8344e-04,  3.1495e-04,  2.4402e-04,  6.7024e-03,  1.9558e-06,
+        -9.7961e-03, -1.5116e-03,  2.9778e-04,  6.9094e-04,  2.2659e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 45, time 219.85, cls_loss 0.0081 cls_loss_mapping 0.0218 cls_loss_causal 0.6664 re_mapping 0.0130 re_causal 0.0392 /// teacc 98.90 lr 0.00010000
+Epoch 47, weight, value: tensor([[-0.0002, -0.0157,  0.0085,  ..., -0.0505, -0.0229, -0.0100],
+        [-0.0503,  0.0207, -0.0182,  ..., -0.0441,  0.0063, -0.0620],
+        [-0.0347, -0.0321, -0.0529,  ..., -0.0448, -0.0109,  0.0631],
+        ...,
+        [ 0.0404,  0.0114, -0.0268,  ...,  0.0351, -0.0093, -0.0011],
+        [ 0.0525,  0.0349,  0.0098,  ..., -0.0285, -0.0406,  0.0294],
+        [ 0.0261, -0.0110,  0.0185,  ...,  0.0276, -0.0404,  0.0256]],
+       device='cuda:0'), grad: tensor([[-1.1707e-06,  1.6570e-05,  1.1444e-05,  ...,  7.1824e-06,
+          2.4408e-05,  2.8461e-05],
+        [ 1.2644e-05, -4.3750e-05,  1.2495e-05,  ..., -9.5963e-06,
+          2.9448e-06,  1.8880e-05],
+        [ 2.6822e-05,  4.4167e-05,  2.5541e-05,  ...,  1.1370e-05,
+          1.2867e-05,  1.3523e-05],
+        ...,
+        [ 8.0094e-06,  4.8608e-05,  1.7166e-05,  ...,  3.5375e-05,
+          1.9655e-05,  2.4602e-05],
+        [-1.3292e-04,  3.1590e-05, -5.0664e-05,  ...,  4.8652e-06,
+          1.5043e-05, -7.7784e-05],
+        [-3.6001e-05,  3.9153e-06, -2.2382e-05,  ..., -5.4419e-05,
+          7.9498e-06,  4.0717e-06]], device='cuda:0')
+Epoch 47, bias, value: tensor([ 0.0296, -0.0109, -0.0123,  0.0192, -0.0040, -0.0161, -0.0052,  0.0106,
+        -0.0240,  0.0174], device='cuda:0'), grad: tensor([ 3.5226e-05, -7.6830e-05,  7.2181e-05, -3.7622e-04,  2.5511e-04,
+         2.1410e-04, -2.0552e-04,  1.0437e-04, -4.0054e-05,  1.8343e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 46, time 219.72, cls_loss 0.0087 cls_loss_mapping 0.0216 cls_loss_causal 0.6556 re_mapping 0.0124 re_causal 0.0376 /// teacc 98.95 lr 0.00010000
+Epoch 48, weight, value: tensor([[ 1.0740e-05, -1.5618e-02,  8.7789e-03,  ..., -5.1208e-02,
+         -2.3957e-02, -1.0562e-02],
+        [-4.9773e-02,  2.1763e-02, -1.8757e-02,  ..., -4.4016e-02,
+          5.6473e-03, -6.3223e-02],
+        [-3.5299e-02, -3.2546e-02, -5.3253e-02,  ..., -4.5823e-02,
+         -1.1438e-02,  6.3599e-02],
+        ...,
+        [ 4.0679e-02,  1.0473e-02, -2.7122e-02,  ...,  3.5520e-02,
+         -9.7560e-03, -1.2694e-03],
+        [ 5.3007e-02,  3.5353e-02,  1.0067e-02,  ..., -2.8683e-02,
+         -4.1542e-02,  2.9722e-02],
+        [ 2.6278e-02, -1.0946e-02,  1.8780e-02,  ...,  2.7671e-02,
+         -4.0165e-02,  2.5677e-02]], device='cuda:0'), grad: tensor([[ 1.5557e-05,  9.3102e-05,  8.9884e-05,  ...,  6.3241e-05,
+          1.2362e-04,  1.1134e-04],
+        [ 4.3124e-05, -2.2297e-03,  8.0585e-05,  ..., -2.3079e-03,
+         -1.3733e-03,  5.2333e-05],
+        [ 5.8323e-05,  3.1757e-04,  1.5640e-04,  ...,  1.7798e-04,
+          1.8978e-04,  1.1986e-04],
+        ...,
+        [-3.0845e-05,  5.5504e-04,  1.6809e-04,  ...,  4.1032e-04,
+          4.0340e-04,  1.5354e-04],
+        [ 3.2544e-04,  1.0357e-03,  8.4448e-04,  ...,  9.3222e-04,
+          1.4277e-03,  1.1358e-03],
+        [-1.0386e-03, -1.5230e-03, -1.4191e-03,  ..., -2.1362e-03,
+         -1.5125e-03, -1.6260e-03]], device='cuda:0')
+Epoch 48, bias, value: tensor([ 0.0295, -0.0103, -0.0123,  0.0191, -0.0039, -0.0161, -0.0054,  0.0103,
+        -0.0242,  0.0173], device='cuda:0'), grad: tensor([ 0.0003, -0.0060,  0.0008,  0.0001,  0.0060,  0.0006, -0.0021,  0.0013,
+         0.0034, -0.0044], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 47, time 219.92, cls_loss 0.0064 cls_loss_mapping 0.0203 cls_loss_causal 0.7045 re_mapping 0.0126 re_causal 0.0393 /// teacc 98.92 lr 0.00010000
+Epoch 49, weight, value: tensor([[ 0.0005, -0.0162,  0.0091,  ..., -0.0516, -0.0248, -0.0108],
+        [-0.0501,  0.0221, -0.0190,  ..., -0.0442,  0.0054, -0.0638],
+        [-0.0353, -0.0334, -0.0539,  ..., -0.0463, -0.0119,  0.0636],
+        ...,
+        [ 0.0410,  0.0104, -0.0277,  ...,  0.0360, -0.0103, -0.0018],
+        [ 0.0534,  0.0356,  0.0102,  ..., -0.0291, -0.0419,  0.0303],
+        [ 0.0264, -0.0107,  0.0192,  ...,  0.0277, -0.0402,  0.0258]],
+       device='cuda:0'), grad: tensor([[-4.5538e-05, -1.2052e-04, -9.1672e-05,  ...,  9.2804e-05,
+          1.8978e-04,  6.3516e-06],
+        [ 1.4171e-05,  1.9111e-06,  3.9637e-05,  ...,  6.0439e-05,
+          1.5175e-04,  1.1909e-04],
+        [ 1.9714e-05,  7.4625e-05,  1.0484e-04,  ...,  3.1853e-04,
+          3.7122e-04,  4.0555e-04],
+        ...,
+        [-2.0787e-05,  3.6180e-05,  2.9087e-05,  ..., -2.2873e-06,
+          3.6180e-05,  6.8069e-05],
+        [ 3.0309e-05,  3.1531e-05,  3.2544e-05,  ...,  6.0439e-05,
+          6.2168e-05,  6.4909e-05],
+        [-7.6354e-05, -9.7334e-05, -4.6849e-05,  ..., -1.3626e-04,
+         -3.2634e-06, -6.7711e-05]], device='cuda:0')
+Epoch 49, bias, value: tensor([ 0.0297, -0.0102, -0.0124,  0.0193, -0.0044, -0.0159, -0.0052,  0.0102,
+        -0.0242,  0.0171], device='cuda:0'), grad: tensor([-5.4646e-04,  3.1424e-04,  9.8991e-04,  2.7180e-04,  1.2655e-03,
+         9.7379e-06, -2.4548e-03,  4.2886e-05,  1.9884e-04, -9.1851e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 48----------------------------------------------------
+epoch 48, time 220.62, cls_loss 0.0069 cls_loss_mapping 0.0192 cls_loss_causal 0.7000 re_mapping 0.0120 re_causal 0.0373 /// teacc 99.05 lr 0.00010000
+Epoch 50, weight, value: tensor([[ 0.0006, -0.0169,  0.0091,  ..., -0.0518, -0.0259, -0.0114],
+        [-0.0506,  0.0225, -0.0194,  ..., -0.0445,  0.0046, -0.0646],
+        [-0.0357, -0.0341, -0.0542,  ..., -0.0470, -0.0123,  0.0643],
+        ...,
+        [ 0.0416,  0.0102, -0.0281,  ...,  0.0363, -0.0110, -0.0022],
+        [ 0.0539,  0.0360,  0.0106,  ..., -0.0295, -0.0423,  0.0307],
+        [ 0.0266, -0.0106,  0.0196,  ...,  0.0277, -0.0404,  0.0257]],
+       device='cuda:0'), grad: tensor([[ 5.0627e-06,  1.4953e-05,  2.9653e-05,  ...,  2.9919e-07,
+          3.9607e-05,  2.8566e-05],
+        [ 1.7852e-05,  2.0593e-05,  4.1217e-05,  ...,  7.5363e-06,
+          8.4460e-05,  5.3406e-05],
+        [ 1.3985e-05,  1.7062e-05,  2.0429e-05,  ..., -1.3836e-05,
+          3.0145e-05, -9.2924e-05],
+        ...,
+        [-4.3474e-06,  3.2395e-05,  2.6897e-05,  ..., -6.5975e-06,
+          6.7279e-06,  3.2455e-05],
+        [-2.8908e-06,  9.8348e-05,  1.1182e-04,  ..., -6.4336e-06,
+          1.3089e-04, -3.7283e-05],
+        [ 1.8299e-04,  1.4555e-04,  3.8433e-04,  ...,  1.5974e-05,
+          2.0698e-05,  4.8071e-05]], device='cuda:0')
+Epoch 50, bias, value: tensor([ 0.0294, -0.0103, -0.0121,  0.0191, -0.0046, -0.0160, -0.0045,  0.0104,
+        -0.0242,  0.0169], device='cuda:0'), grad: tensor([ 0.0001,  0.0002, -0.0001, -0.0004,  0.0002, -0.0011, -0.0005,  0.0001,
+         0.0003,  0.0012], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 49, time 219.86, cls_loss 0.0061 cls_loss_mapping 0.0200 cls_loss_causal 0.6596 re_mapping 0.0119 re_causal 0.0366 /// teacc 98.85 lr 0.00010000
+Epoch 51, weight, value: tensor([[ 0.0008, -0.0171,  0.0093,  ..., -0.0523, -0.0267, -0.0117],
+        [-0.0505,  0.0228, -0.0197,  ..., -0.0447,  0.0029, -0.0655],
+        [-0.0361, -0.0347, -0.0545,  ..., -0.0476, -0.0124,  0.0650],
+        ...,
+        [ 0.0419,  0.0099, -0.0287,  ...,  0.0364, -0.0115, -0.0027],
+        [ 0.0543,  0.0361,  0.0108,  ..., -0.0298, -0.0430,  0.0309],
+        [ 0.0267, -0.0104,  0.0199,  ...,  0.0278, -0.0408,  0.0254]],
+       device='cuda:0'), grad: tensor([[-1.5044e-04, -1.6642e-04, -2.2399e-04,  ..., -2.0236e-05,
+          2.7925e-05, -3.9816e-05],
+        [ 1.3220e-04,  1.3137e-04,  1.1511e-05,  ...,  5.2786e-04,
+          2.0301e-04,  1.2279e-04],
+        [ 5.7995e-05,  4.5329e-05,  3.4690e-05,  ...,  8.2791e-05,
+          3.3468e-05,  4.9382e-05],
+        ...,
+        [-4.6301e-04, -3.2330e-04,  1.9863e-05,  ..., -1.5802e-03,
+         -3.8815e-04, -1.7786e-04],
+        [-1.0267e-05,  2.0012e-05,  1.2383e-05,  ...,  7.7069e-05,
+          4.9412e-05, -1.9781e-06],
+        [ 5.1856e-05,  5.5075e-05,  5.2303e-05,  ...,  1.3256e-04,
+          6.4611e-05,  5.4985e-05]], device='cuda:0')
+Epoch 51, bias, value: tensor([ 0.0294, -0.0106, -0.0119,  0.0193, -0.0044, -0.0159, -0.0042,  0.0103,
+        -0.0246,  0.0168], device='cuda:0'), grad: tensor([-7.6628e-04,  5.4979e-04,  1.9503e-04,  1.9264e-04,  6.0797e-04,
+         1.6654e-04, -1.9148e-05, -1.4944e-03,  1.0794e-04,  4.5967e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 50, time 219.71, cls_loss 0.0053 cls_loss_mapping 0.0168 cls_loss_causal 0.6159 re_mapping 0.0117 re_causal 0.0342 /// teacc 98.86 lr 0.00010000
+Epoch 52, weight, value: tensor([[ 0.0010, -0.0174,  0.0096,  ..., -0.0526, -0.0272, -0.0121],
+        [-0.0512,  0.0227, -0.0202,  ..., -0.0450,  0.0023, -0.0664],
+        [-0.0365, -0.0354, -0.0549,  ..., -0.0480, -0.0128,  0.0653],
+        ...,
+        [ 0.0422,  0.0097, -0.0292,  ...,  0.0368, -0.0118, -0.0031],
+        [ 0.0551,  0.0367,  0.0111,  ..., -0.0301, -0.0435,  0.0316],
+        [ 0.0269, -0.0103,  0.0202,  ...,  0.0280, -0.0409,  0.0253]],
+       device='cuda:0'), grad: tensor([[ 1.6373e-06,  2.9728e-05,  1.1630e-05,  ...,  2.5228e-05,
+          4.7833e-05,  5.7280e-05],
+        [-8.6725e-06, -8.0645e-05,  4.2677e-05,  ...,  3.0287e-06,
+          3.7998e-05,  6.9499e-05],
+        [ 4.2129e-04,  6.1750e-05,  3.1590e-05,  ...,  4.3178e-04,
+          1.4281e-04,  1.4496e-04],
+        ...,
+        [-4.7588e-04,  6.0827e-05,  2.5272e-05,  ..., -4.9257e-04,
+          9.9167e-06, -2.2173e-05],
+        [-7.3254e-05, -8.3828e-04, -3.2783e-04,  ...,  1.7273e-04,
+         -1.5306e-04, -4.7636e-04],
+        [-2.6774e-04, -2.2268e-04, -2.7394e-04,  ..., -3.5977e-04,
+         -1.5795e-04, -2.4652e-04]], device='cuda:0')
+Epoch 52, bias, value: tensor([ 0.0294, -0.0111, -0.0120,  0.0192, -0.0046, -0.0153, -0.0045,  0.0103,
+        -0.0240,  0.0167], device='cuda:0'), grad: tensor([ 1.0967e-04, -7.4685e-05,  1.2617e-03,  8.1110e-04,  5.9462e-04,
+         6.9201e-05,  1.7178e-04, -1.1387e-03, -1.1196e-03, -6.8474e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 51, time 220.16, cls_loss 0.0053 cls_loss_mapping 0.0174 cls_loss_causal 0.6285 re_mapping 0.0111 re_causal 0.0348 /// teacc 98.97 lr 0.00010000
+Epoch 53, weight, value: tensor([[ 0.0006, -0.0184,  0.0094,  ..., -0.0542, -0.0283, -0.0125],
+        [-0.0513,  0.0230, -0.0205,  ..., -0.0454,  0.0018, -0.0671],
+        [-0.0371, -0.0360, -0.0552,  ..., -0.0490, -0.0135,  0.0655],
+        ...,
+        [ 0.0428,  0.0095, -0.0296,  ...,  0.0375, -0.0117, -0.0030],
+        [ 0.0552,  0.0368,  0.0111,  ..., -0.0306, -0.0442,  0.0316],
+        [ 0.0276, -0.0100,  0.0210,  ...,  0.0282, -0.0411,  0.0254]],
+       device='cuda:0'), grad: tensor([[ 6.2399e-06,  1.9699e-05, -3.5763e-06,  ...,  2.6152e-05,
+          4.6119e-06,  1.7837e-05],
+        [ 2.1681e-05,  5.7481e-06,  1.8567e-05,  ...,  7.4916e-06,
+          1.5255e-06,  2.4572e-05],
+        [ 5.1081e-05,  5.1886e-05,  3.5048e-05,  ...,  6.2227e-05,
+          5.8748e-06,  1.4700e-05],
+        ...,
+        [-4.1574e-05,  4.0472e-05,  2.3380e-05,  ...,  9.5367e-05,
+          1.0639e-05,  2.5943e-05],
+        [-1.6487e-04, -1.6677e-04, -1.7083e-04,  ...,  5.4777e-05,
+          7.9796e-06, -2.2948e-04],
+        [-6.4254e-05, -5.3942e-05, -4.1157e-05,  ..., -1.5700e-04,
+         -4.4703e-05, -3.5495e-05]], device='cuda:0')
+Epoch 53, bias, value: tensor([ 0.0289, -0.0109, -0.0123,  0.0192, -0.0046, -0.0155, -0.0041,  0.0108,
+        -0.0243,  0.0169], device='cuda:0'), grad: tensor([ 1.3888e-04,  6.0320e-05,  4.4227e-04,  5.8365e-04,  2.9755e-04,
+        -2.0103e-03,  1.3888e-04,  5.6219e-04, -1.9538e-04, -1.8075e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 52, time 220.28, cls_loss 0.0054 cls_loss_mapping 0.0162 cls_loss_causal 0.6783 re_mapping 0.0114 re_causal 0.0350 /// teacc 99.03 lr 0.00010000
+Epoch 54, weight, value: tensor([[ 0.0010, -0.0189,  0.0098,  ..., -0.0542, -0.0282, -0.0127],
+        [-0.0515,  0.0235, -0.0208,  ..., -0.0455,  0.0012, -0.0676],
+        [-0.0373, -0.0366, -0.0554,  ..., -0.0498, -0.0140,  0.0661],
+        ...,
+        [ 0.0429,  0.0092, -0.0302,  ...,  0.0377, -0.0121, -0.0035],
+        [ 0.0558,  0.0372,  0.0115,  ..., -0.0310, -0.0444,  0.0321],
+        [ 0.0280, -0.0099,  0.0212,  ...,  0.0286, -0.0412,  0.0254]],
+       device='cuda:0'), grad: tensor([[ 6.7770e-05,  2.8655e-05,  1.0973e-04,  ...,  7.7844e-05,
+          1.9550e-04,  2.0671e-04],
+        [ 3.0443e-05,  1.3761e-05,  1.1697e-05,  ...,  2.3827e-05,
+          2.9311e-05,  1.1432e-04],
+        [-5.9187e-05, -1.3554e-04,  2.2426e-05,  ...,  2.8253e-05,
+          2.0638e-05, -3.1400e-04],
+        ...,
+        [ 1.9789e-04,  2.8992e-04,  1.9872e-04,  ...,  2.6703e-04,
+          7.6175e-05,  2.7132e-04],
+        [ 1.2386e-04,  1.3542e-04,  1.4257e-04,  ...,  2.1839e-04,
+          3.8534e-05,  1.1802e-04],
+        [-5.7268e-04, -5.3740e-04, -5.9843e-04,  ..., -7.8058e-04,
+         -1.2589e-04, -3.6049e-04]], device='cuda:0')
+Epoch 54, bias, value: tensor([ 0.0293, -0.0107, -0.0122,  0.0191, -0.0049, -0.0155, -0.0045,  0.0109,
+        -0.0243,  0.0168], device='cuda:0'), grad: tensor([ 0.0004,  0.0003, -0.0013,  0.0003,  0.0003,  0.0001, -0.0004,  0.0011,
+         0.0004, -0.0012], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 53, time 219.98, cls_loss 0.0054 cls_loss_mapping 0.0194 cls_loss_causal 0.6798 re_mapping 0.0110 re_causal 0.0342 /// teacc 98.89 lr 0.00010000
+Epoch 55, weight, value: tensor([[ 0.0011, -0.0194,  0.0098,  ..., -0.0546, -0.0290, -0.0133],
+        [-0.0517,  0.0239, -0.0212,  ..., -0.0457,  0.0006, -0.0683],
+        [-0.0377, -0.0372, -0.0558,  ..., -0.0505, -0.0144,  0.0664],
+        ...,
+        [ 0.0434,  0.0089, -0.0306,  ...,  0.0381, -0.0126, -0.0041],
+        [ 0.0563,  0.0376,  0.0119,  ..., -0.0313, -0.0447,  0.0327],
+        [ 0.0281, -0.0100,  0.0216,  ...,  0.0286, -0.0414,  0.0256]],
+       device='cuda:0'), grad: tensor([[ 8.0287e-05,  1.7440e-04,  1.0550e-04,  ...,  2.3283e-06,
+          7.9095e-05,  2.6870e-04],
+        [ 4.5806e-05,  3.5822e-05,  1.6063e-05,  ...,  6.7353e-05,
+          6.9571e-04,  5.0354e-04],
+        [ 5.3823e-05,  6.8784e-05,  5.6863e-05,  ...,  2.0340e-05,
+          9.4223e-04,  7.1621e-04],
+        ...,
+        [-2.3782e-05,  7.9721e-06,  3.2634e-05,  ..., -2.5347e-05,
+          6.1631e-05,  7.4565e-05],
+        [-2.6584e-04, -4.3297e-04, -2.2924e-04,  ...,  2.3529e-05,
+          1.7196e-05, -5.6553e-04],
+        [ 1.1399e-05,  3.4004e-05,  1.3635e-05,  ..., -7.5877e-05,
+         -1.1891e-05,  5.5909e-05]], device='cuda:0')
+Epoch 55, bias, value: tensor([ 0.0290, -0.0106, -0.0124,  0.0194, -0.0051, -0.0156, -0.0043,  0.0110,
+        -0.0242,  0.0167], device='cuda:0'), grad: tensor([ 0.0006,  0.0025,  0.0033, -0.0002,  0.0004,  0.0005, -0.0067,  0.0001,
+        -0.0006,  0.0001], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 54, time 219.85, cls_loss 0.0043 cls_loss_mapping 0.0141 cls_loss_causal 0.6528 re_mapping 0.0110 re_causal 0.0348 /// teacc 98.86 lr 0.00010000
+Epoch 56, weight, value: tensor([[ 0.0014, -0.0198,  0.0099,  ..., -0.0547, -0.0295, -0.0137],
+        [-0.0523,  0.0240, -0.0216,  ..., -0.0464, -0.0003, -0.0690],
+        [-0.0379, -0.0379, -0.0562,  ..., -0.0510, -0.0150,  0.0667],
+        ...,
+        [ 0.0440,  0.0088, -0.0310,  ...,  0.0386, -0.0128, -0.0045],
+        [ 0.0567,  0.0380,  0.0121,  ..., -0.0316, -0.0451,  0.0330],
+        [ 0.0282, -0.0099,  0.0219,  ...,  0.0286, -0.0415,  0.0257]],
+       device='cuda:0'), grad: tensor([[-9.0674e-06,  1.1064e-05, -1.5140e-05,  ..., -2.3469e-06,
+          7.2271e-06,  1.2837e-05],
+        [ 1.8030e-06,  7.8678e-06,  1.0870e-05,  ...,  1.6466e-05,
+          2.9445e-05,  3.2336e-05],
+        [ 9.1791e-06,  2.0742e-05,  1.3895e-05,  ...,  3.2410e-06,
+          1.4976e-05, -7.2837e-05],
+        ...,
+        [-8.9630e-06,  2.3097e-05,  1.4283e-05,  ...,  9.5591e-06,
+          9.7081e-06,  2.7448e-05],
+        [ 4.7594e-05, -7.3719e-04, -4.1103e-04,  ...,  2.8133e-05,
+         -7.5960e-04, -9.5177e-04],
+        [-8.6784e-05, -4.0382e-05, -8.4460e-05,  ..., -8.0228e-05,
+         -1.3776e-05, -5.8115e-05]], device='cuda:0')
+Epoch 56, bias, value: tensor([ 0.0291, -0.0110, -0.0127,  0.0196, -0.0049, -0.0158, -0.0040,  0.0113,
+        -0.0242,  0.0166], device='cuda:0'), grad: tensor([-2.3335e-05,  4.5031e-05, -5.4806e-05, -2.0877e-05,  4.4614e-05,
+        -4.2021e-05,  1.3485e-03,  4.1425e-05, -1.2245e-03, -1.1462e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 55, time 219.59, cls_loss 0.0062 cls_loss_mapping 0.0182 cls_loss_causal 0.6388 re_mapping 0.0113 re_causal 0.0338 /// teacc 98.91 lr 0.00010000
+Epoch 57, weight, value: tensor([[ 0.0017, -0.0199,  0.0102,  ..., -0.0549, -0.0303, -0.0142],
+        [-0.0522,  0.0248, -0.0217,  ..., -0.0462, -0.0009, -0.0696],
+        [-0.0382, -0.0381, -0.0565,  ..., -0.0513, -0.0152,  0.0674],
+        ...,
+        [ 0.0440,  0.0082, -0.0316,  ...,  0.0384, -0.0132, -0.0049],
+        [ 0.0570,  0.0379,  0.0121,  ..., -0.0321, -0.0455,  0.0335],
+        [ 0.0286, -0.0097,  0.0223,  ...,  0.0291, -0.0416,  0.0256]],
+       device='cuda:0'), grad: tensor([[-3.1106e-06,  1.0476e-05,  7.5661e-06,  ...,  4.7982e-06,
+          8.1584e-06,  1.7524e-05],
+        [ 1.1556e-05, -3.7178e-06,  9.9838e-06,  ...,  2.1800e-05,
+          7.9200e-06,  2.6867e-05],
+        [ 7.1041e-06,  1.8597e-05, -7.3947e-07,  ...,  9.7454e-06,
+          4.8168e-06, -4.1872e-05],
+        ...,
+        [-3.5614e-05,  1.0484e-04,  4.6074e-05,  ..., -1.9729e-05,
+          6.1728e-06,  2.1830e-05],
+        [-1.5087e-05, -1.5691e-05, -3.9309e-05,  ...,  8.3223e-06,
+          5.3719e-06, -4.6819e-05],
+        [-3.2056e-06,  3.6042e-06, -1.5900e-05,  ...,  1.4074e-05,
+          3.2425e-05,  2.1532e-05]], device='cuda:0')
+Epoch 57, bias, value: tensor([ 0.0293, -0.0104, -0.0125,  0.0196, -0.0050, -0.0155, -0.0046,  0.0108,
+        -0.0246,  0.0168], device='cuda:0'), grad: tensor([ 4.1604e-05,  7.6234e-05, -1.1170e-04, -2.1112e-04, -6.6638e-05,
+         6.4492e-05,  3.1688e-07,  1.6856e-04, -1.4104e-05,  5.2869e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 56, time 219.69, cls_loss 0.0055 cls_loss_mapping 0.0156 cls_loss_causal 0.6628 re_mapping 0.0105 re_causal 0.0320 /// teacc 98.88 lr 0.00010000
+Epoch 58, weight, value: tensor([[ 0.0015, -0.0202,  0.0102,  ..., -0.0554, -0.0310, -0.0146],
+        [-0.0527,  0.0251, -0.0221,  ..., -0.0470, -0.0015, -0.0703],
+        [-0.0384, -0.0387, -0.0568,  ..., -0.0519, -0.0157,  0.0678],
+        ...,
+        [ 0.0445,  0.0080, -0.0320,  ...,  0.0388, -0.0136, -0.0054],
+        [ 0.0574,  0.0380,  0.0127,  ..., -0.0325, -0.0462,  0.0338],
+        [ 0.0290, -0.0095,  0.0228,  ...,  0.0295, -0.0416,  0.0257]],
+       device='cuda:0'), grad: tensor([[ 5.2959e-05,  4.6730e-05,  1.3255e-05,  ...,  1.6704e-05,
+          7.6115e-05,  9.9719e-05],
+        [-6.1989e-05, -2.6321e-04, -4.6253e-05,  ...,  1.1399e-05,
+          3.0518e-05,  3.1859e-05],
+        [ 1.2743e-04,  7.4923e-05,  6.8069e-05,  ...,  4.3392e-05,
+          2.8268e-05,  8.5890e-05],
+        ...,
+        [-9.3877e-05,  4.8161e-05,  3.7581e-05,  ..., -5.4717e-05,
+          1.2510e-05,  3.3110e-05],
+        [-3.4118e-04,  4.2677e-05, -4.5443e-04,  ...,  7.6234e-05,
+         -3.9428e-05, -5.3692e-04],
+        [ 9.0003e-05, -9.0420e-05,  1.4439e-05,  ..., -1.0705e-04,
+          4.1038e-05,  1.4961e-04]], device='cuda:0')
+Epoch 58, bias, value: tensor([ 0.0292, -0.0104, -0.0123,  0.0193, -0.0051, -0.0156, -0.0052,  0.0109,
+        -0.0241,  0.0171], device='cuda:0'), grad: tensor([ 1.3256e-04, -5.4836e-04,  2.7800e-04,  5.3596e-04,  3.8910e-04,
+         2.6441e-04, -4.6039e-04,  4.2051e-05, -9.3079e-04,  2.9778e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 57, time 219.61, cls_loss 0.0048 cls_loss_mapping 0.0151 cls_loss_causal 0.6410 re_mapping 0.0107 re_causal 0.0324 /// teacc 99.05 lr 0.00010000
+Epoch 59, weight, value: tensor([[ 0.0021, -0.0205,  0.0105,  ..., -0.0556, -0.0320, -0.0152],
+        [-0.0528,  0.0256, -0.0223,  ..., -0.0470, -0.0020, -0.0710],
+        [-0.0384, -0.0393, -0.0573,  ..., -0.0526, -0.0161,  0.0683],
+        ...,
+        [ 0.0448,  0.0077, -0.0324,  ...,  0.0392, -0.0139, -0.0059],
+        [ 0.0578,  0.0383,  0.0129,  ..., -0.0330, -0.0467,  0.0341],
+        [ 0.0291, -0.0094,  0.0230,  ...,  0.0297, -0.0417,  0.0256]],
+       device='cuda:0'), grad: tensor([[-6.0350e-06,  5.4128e-06, -2.6170e-06,  ...,  5.1223e-06,
+          9.4771e-06,  1.1355e-05],
+        [-3.2857e-06, -3.5167e-05,  5.6773e-06,  ...,  2.4453e-05,
+          2.0966e-05,  1.9118e-05],
+        [ 1.5991e-06,  1.4924e-05,  6.4224e-06,  ...,  1.0766e-05,
+          4.9323e-05,  3.3170e-05],
+        ...,
+        [ 2.5760e-06,  2.4930e-05,  6.6794e-06,  ...,  2.6375e-05,
+          1.8567e-05,  1.7717e-05],
+        [-5.2154e-08,  7.4148e-05,  2.2501e-05,  ...,  2.8476e-05,
+          1.3322e-05,  6.8843e-06],
+        [-1.9684e-05,  8.4490e-06, -1.6093e-05,  ...,  1.9029e-05,
+          3.8028e-05,  1.7241e-05]], device='cuda:0')
+Epoch 59, bias, value: tensor([ 0.0292, -0.0103, -0.0123,  0.0190, -0.0053, -0.0157, -0.0044,  0.0112,
+        -0.0242,  0.0168], device='cuda:0'), grad: tensor([ 1.2912e-05, -4.9204e-05,  7.1585e-05, -1.0598e-04, -1.2493e-04,
+        -1.4082e-05, -6.4135e-05,  6.4850e-05,  1.5628e-04,  5.2661e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 58, time 219.65, cls_loss 0.0050 cls_loss_mapping 0.0126 cls_loss_causal 0.6334 re_mapping 0.0105 re_causal 0.0328 /// teacc 98.81 lr 0.00010000
+Epoch 60, weight, value: tensor([[ 0.0022, -0.0210,  0.0106,  ..., -0.0559, -0.0326, -0.0155],
+        [-0.0531,  0.0259, -0.0226,  ..., -0.0477, -0.0026, -0.0717],
+        [-0.0386, -0.0399, -0.0577,  ..., -0.0533, -0.0167,  0.0691],
+        ...,
+        [ 0.0449,  0.0074, -0.0328,  ...,  0.0395, -0.0143, -0.0070],
+        [ 0.0583,  0.0384,  0.0132,  ..., -0.0333, -0.0472,  0.0344],
+        [ 0.0297, -0.0090,  0.0232,  ...,  0.0301, -0.0417,  0.0257]],
+       device='cuda:0'), grad: tensor([[ 3.1650e-05,  3.8981e-05,  4.7624e-05,  ...,  9.7901e-06,
+          3.6936e-06,  1.7986e-05],
+        [ 2.2948e-04,  2.1422e-04,  1.6415e-04,  ...,  3.8445e-05,
+          3.8743e-06,  8.5235e-05],
+        [ 8.2433e-05,  5.9128e-05,  3.5942e-05,  ...,  7.3254e-05,
+          4.0494e-06,  1.2629e-05],
+        ...,
+        [-1.3709e-04,  1.5097e-06,  2.7642e-05,  ..., -2.3341e-04,
+          2.1812e-06, -4.6402e-05],
+        [-3.8123e-04, -6.6471e-04, -2.2352e-04,  ...,  2.2963e-05,
+          4.5002e-06, -2.4986e-04],
+        [-1.2159e-04, -1.6165e-04,  3.4064e-05,  ..., -3.2544e-04,
+         -7.6592e-05, -9.8586e-05]], device='cuda:0')
+Epoch 60, bias, value: tensor([ 0.0292, -0.0103, -0.0121,  0.0191, -0.0054, -0.0158, -0.0044,  0.0107,
+        -0.0243,  0.0172], device='cuda:0'), grad: tensor([ 0.0002,  0.0006,  0.0003,  0.0010,  0.0005, -0.0035,  0.0013, -0.0003,
+        -0.0005,  0.0004], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 59, time 219.65, cls_loss 0.0053 cls_loss_mapping 0.0177 cls_loss_causal 0.6333 re_mapping 0.0102 re_causal 0.0308 /// teacc 98.89 lr 0.00010000
+Epoch 61, weight, value: tensor([[ 0.0020, -0.0216,  0.0106,  ..., -0.0566, -0.0332, -0.0160],
+        [-0.0534,  0.0265, -0.0229,  ..., -0.0476, -0.0031, -0.0722],
+        [-0.0391, -0.0408, -0.0578,  ..., -0.0545, -0.0172,  0.0696],
+        ...,
+        [ 0.0456,  0.0072, -0.0331,  ...,  0.0406, -0.0141, -0.0073],
+        [ 0.0588,  0.0388,  0.0136,  ..., -0.0336, -0.0476,  0.0348],
+        [ 0.0298, -0.0091,  0.0234,  ...,  0.0299, -0.0425,  0.0251]],
+       device='cuda:0'), grad: tensor([[-3.0294e-05,  6.5528e-06, -2.3037e-05,  ...,  2.0340e-06,
+          1.9103e-05,  1.8999e-05],
+        [ 1.4499e-05,  2.3842e-05,  5.5991e-06,  ...,  1.3447e-04,
+          8.7500e-05,  3.8058e-05],
+        [ 1.3888e-05,  7.2643e-06,  5.3011e-06,  ...,  2.4110e-05,
+          1.8001e-05, -4.4182e-06],
+        ...,
+        [-1.7095e-04, -1.0157e-04, -1.4054e-06,  ...,  6.0908e-06,
+          1.3089e-04,  4.9502e-05],
+        [-3.8296e-05, -5.1081e-05, -3.3617e-05,  ...,  8.7693e-06,
+          7.2122e-06, -4.1217e-05],
+        [ 7.0751e-05,  5.4687e-05,  3.2723e-05,  ...,  6.4671e-05,
+          1.5900e-05,  2.5570e-05]], device='cuda:0')
+Epoch 61, bias, value: tensor([ 0.0289, -0.0099, -0.0124,  0.0193, -0.0053, -0.0157, -0.0045,  0.0111,
+        -0.0243,  0.0166], device='cuda:0'), grad: tensor([-4.9204e-05,  2.0981e-04,  4.2111e-05,  2.1708e-04, -5.2881e-04,
+         3.7998e-05,  2.7940e-05, -7.7903e-05, -7.4923e-05,  1.9574e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 60, time 219.32, cls_loss 0.0052 cls_loss_mapping 0.0136 cls_loss_causal 0.6298 re_mapping 0.0100 re_causal 0.0303 /// teacc 98.98 lr 0.00010000
+Epoch 62, weight, value: tensor([[ 0.0025, -0.0213,  0.0110,  ..., -0.0572, -0.0335, -0.0163],
+        [-0.0536,  0.0265, -0.0232,  ..., -0.0480, -0.0038, -0.0738],
+        [-0.0396, -0.0409, -0.0582,  ..., -0.0551, -0.0179,  0.0701],
+        ...,
+        [ 0.0458,  0.0068, -0.0338,  ...,  0.0408, -0.0148, -0.0078],
+        [ 0.0592,  0.0391,  0.0139,  ..., -0.0341, -0.0484,  0.0352],
+        [ 0.0302, -0.0092,  0.0239,  ...,  0.0300, -0.0430,  0.0250]],
+       device='cuda:0'), grad: tensor([[ 2.7567e-07,  1.7747e-05,  1.9595e-05,  ...,  6.0350e-06,
+          2.7549e-06,  2.4587e-05],
+        [ 9.4473e-05, -9.6619e-05,  6.6519e-05,  ..., -1.0610e-04,
+         -4.0203e-05,  8.8453e-05],
+        [-3.9220e-05,  7.5459e-05, -1.0318e-04,  ...,  1.1139e-05,
+          3.5409e-06, -2.2483e-04],
+        ...,
+        [-1.6391e-05,  7.4029e-05,  4.4703e-05,  ..., -8.1733e-06,
+          6.2250e-06,  4.1008e-05],
+        [ 3.7581e-05,  1.1635e-04,  4.4763e-05,  ...,  3.8534e-05,
+         -9.2201e-07,  8.6069e-05],
+        [-2.2209e-04, -4.1080e-04, -1.2755e-04,  ..., -8.6665e-05,
+          3.3043e-06, -1.9073e-04]], device='cuda:0')
+Epoch 62, bias, value: tensor([ 0.0294, -0.0103, -0.0126,  0.0194, -0.0051, -0.0157, -0.0046,  0.0111,
+        -0.0242,  0.0165], device='cuda:0'), grad: tensor([ 1.4198e-04, -1.3149e-04, -8.7500e-04, -9.5904e-05,  4.8208e-04,
+         5.1451e-04,  4.1485e-05,  3.0208e-04,  4.8828e-04, -8.6689e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 61, time 219.81, cls_loss 0.0047 cls_loss_mapping 0.0155 cls_loss_causal 0.6351 re_mapping 0.0100 re_causal 0.0304 /// teacc 98.76 lr 0.00010000
+Epoch 63, weight, value: tensor([[ 0.0027, -0.0218,  0.0112,  ..., -0.0575, -0.0346, -0.0172],
+        [-0.0543,  0.0266, -0.0235,  ..., -0.0488, -0.0045, -0.0747],
+        [-0.0398, -0.0417, -0.0585,  ..., -0.0556, -0.0184,  0.0707],
+        ...,
+        [ 0.0462,  0.0069, -0.0343,  ...,  0.0409, -0.0150, -0.0082],
+        [ 0.0595,  0.0393,  0.0140,  ..., -0.0346, -0.0491,  0.0353],
+        [ 0.0307, -0.0089,  0.0241,  ...,  0.0306, -0.0432,  0.0248]],
+       device='cuda:0'), grad: tensor([[ 7.8008e-06,  3.3915e-05,  1.8030e-05,  ...,  1.5676e-05,
+          1.1578e-05,  1.6108e-05],
+        [-1.3304e-04, -8.5783e-04, -3.5548e-04,  ...,  1.5020e-04,
+         -3.3379e-04, -2.7847e-04],
+        [ 8.7321e-06,  2.7373e-05,  4.2111e-05,  ...,  9.9242e-05,
+          4.5151e-05,  1.5700e-04],
+        ...,
+        [-8.5384e-06,  3.4660e-05,  2.6554e-05,  ...,  9.3126e-04,
+          3.0875e-04,  6.1798e-04],
+        [ 6.3896e-05,  3.2973e-04,  1.0228e-04,  ...,  6.2644e-05,
+          1.0538e-04, -5.8085e-05],
+        [-9.3102e-05, -7.4506e-05, -6.1333e-05,  ..., -7.8499e-05,
+         -1.5631e-05, -3.8475e-05]], device='cuda:0')
+Epoch 63, bias, value: tensor([ 0.0293, -0.0109, -0.0123,  0.0192, -0.0049, -0.0154, -0.0041,  0.0111,
+        -0.0246,  0.0166], device='cuda:0'), grad: tensor([ 1.2898e-04, -1.8263e-03,  3.7408e-04, -2.8744e-03, -2.0046e-03,
+         2.6054e-03,  1.4534e-03,  1.5097e-03,  6.6519e-04, -2.8476e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 62, time 219.41, cls_loss 0.0070 cls_loss_mapping 0.0184 cls_loss_causal 0.6339 re_mapping 0.0098 re_causal 0.0292 /// teacc 99.00 lr 0.00010000
+Epoch 64, weight, value: tensor([[ 0.0023, -0.0233,  0.0108,  ..., -0.0583, -0.0354, -0.0179],
+        [-0.0540,  0.0275, -0.0238,  ..., -0.0485, -0.0050, -0.0756],
+        [-0.0405, -0.0427, -0.0591,  ..., -0.0566, -0.0187,  0.0712],
+        ...,
+        [ 0.0465,  0.0062, -0.0349,  ...,  0.0407, -0.0156, -0.0082],
+        [ 0.0600,  0.0399,  0.0146,  ..., -0.0351, -0.0494,  0.0357],
+        [ 0.0314, -0.0092,  0.0243,  ...,  0.0303, -0.0441,  0.0242]],
+       device='cuda:0'), grad: tensor([[-2.3887e-05,  3.7625e-06, -1.0774e-05,  ...,  2.9802e-06,
+          6.7465e-06,  2.1890e-05],
+        [ 9.5293e-06, -1.6749e-05,  6.1020e-06,  ...,  1.4063e-06,
+          6.6869e-06,  3.2872e-05],
+        [ 9.7230e-06,  4.9919e-06,  3.5726e-06,  ...,  9.7528e-06,
+          5.6811e-06, -2.1291e-04],
+        ...,
+        [-8.7172e-06,  8.4713e-06,  4.3213e-06,  ..., -4.5300e-06,
+          3.3025e-06,  8.2493e-05],
+        [-1.3627e-05, -1.6570e-05, -1.2755e-05,  ...,  7.9796e-06,
+          9.2611e-06,  1.8448e-05],
+        [-6.7875e-06, -7.5549e-06, -8.1658e-06,  ..., -5.7630e-06,
+          1.0043e-05, -6.7754e-07]], device='cuda:0')
+Epoch 64, bias, value: tensor([ 0.0288, -0.0102, -0.0117,  0.0195, -0.0038, -0.0159, -0.0040,  0.0103,
+        -0.0246,  0.0160], device='cuda:0'), grad: tensor([ 1.6671e-06,  5.2482e-05, -5.2357e-04,  1.0431e-04,  5.1945e-05,
+        -5.5730e-05,  3.9876e-05,  2.2304e-04,  7.3910e-05,  3.1978e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 63, time 219.59, cls_loss 0.0055 cls_loss_mapping 0.0165 cls_loss_causal 0.6271 re_mapping 0.0099 re_causal 0.0301 /// teacc 98.94 lr 0.00010000
+Epoch 65, weight, value: tensor([[ 0.0024, -0.0238,  0.0109,  ..., -0.0587, -0.0360, -0.0184],
+        [-0.0538,  0.0281, -0.0244,  ..., -0.0480, -0.0054, -0.0765],
+        [-0.0406, -0.0434, -0.0595,  ..., -0.0572, -0.0191,  0.0717],
+        ...,
+        [ 0.0466,  0.0056, -0.0357,  ...,  0.0412, -0.0160, -0.0086],
+        [ 0.0608,  0.0403,  0.0150,  ..., -0.0363, -0.0501,  0.0360],
+        [ 0.0317, -0.0085,  0.0251,  ...,  0.0308, -0.0440,  0.0245]],
+       device='cuda:0'), grad: tensor([[ 5.2786e-04,  1.5259e-04,  4.0817e-04,  ...,  1.5805e-06,
+          2.9802e-05,  6.6376e-04],
+        [ 1.2249e-05, -8.8215e-06,  1.2770e-05,  ...,  1.0133e-05,
+          1.7196e-05,  3.0667e-05],
+        [ 1.2398e-04,  3.5316e-05,  1.1307e-04,  ...,  3.3956e-06,
+          9.7990e-05,  2.9159e-04],
+        ...,
+        [-2.8953e-05,  8.1062e-06,  1.0274e-05,  ..., -1.4877e-04,
+         -4.2245e-06,  1.7568e-05],
+        [-7.8678e-04, -2.1291e-04, -5.9700e-04,  ...,  6.5602e-06,
+          3.7670e-05, -8.7786e-04],
+        [ 3.6240e-05, -5.8487e-06,  2.1458e-05,  ..., -3.0687e-07,
+         -1.4054e-06,  4.1991e-05]], device='cuda:0')
+Epoch 65, bias, value: tensor([ 0.0287, -0.0103, -0.0115,  0.0186, -0.0045, -0.0151, -0.0041,  0.0107,
+        -0.0248,  0.0162], device='cuda:0'), grad: tensor([ 1.4935e-03,  4.0919e-05,  5.3787e-04,  8.6010e-05,  2.4307e-04,
+         4.4703e-05, -3.8290e-04, -8.3864e-05, -2.0943e-03,  1.1146e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 64, time 219.60, cls_loss 0.0044 cls_loss_mapping 0.0140 cls_loss_causal 0.6236 re_mapping 0.0097 re_causal 0.0296 /// teacc 98.83 lr 0.00010000
+Epoch 66, weight, value: tensor([[ 0.0025, -0.0245,  0.0110,  ..., -0.0591, -0.0368, -0.0190],
+        [-0.0547,  0.0277, -0.0255,  ..., -0.0485, -0.0062, -0.0779],
+        [-0.0410, -0.0440, -0.0600,  ..., -0.0578, -0.0195,  0.0721],
+        ...,
+        [ 0.0469,  0.0053, -0.0361,  ...,  0.0413, -0.0167, -0.0092],
+        [ 0.0616,  0.0409,  0.0155,  ..., -0.0369, -0.0507,  0.0367],
+        [ 0.0323, -0.0083,  0.0257,  ...,  0.0310, -0.0444,  0.0246]],
+       device='cuda:0'), grad: tensor([[-2.7150e-05,  2.3842e-06, -1.1273e-05,  ...,  2.2173e-05,
+          1.7047e-05,  1.4231e-05],
+        [ 2.4885e-06,  1.0934e-06,  4.2059e-06,  ...,  1.5363e-05,
+          1.2845e-05,  1.1168e-05],
+        [ 8.8587e-06,  9.2313e-06,  6.7055e-06,  ...,  1.2577e-05,
+          1.3210e-05,  1.0200e-05],
+        ...,
+        [ 5.5134e-07,  1.4201e-05,  9.4026e-06,  ...,  6.9439e-06,
+          5.0254e-06,  4.9546e-06],
+        [ 1.6466e-05,  2.1905e-05,  1.5944e-05,  ...,  1.9699e-05,
+          5.8934e-06,  5.4762e-06],
+        [-3.2276e-05, -3.2693e-05, -2.1607e-05,  ...,  1.5989e-05,
+          3.8266e-05,  2.4468e-05]], device='cuda:0')
+Epoch 66, bias, value: tensor([ 0.0287, -0.0111, -0.0116,  0.0186, -0.0041, -0.0149, -0.0041,  0.0107,
+        -0.0245,  0.0163], device='cuda:0'), grad: tensor([-1.8239e-05,  2.5839e-05,  5.0336e-05, -3.9816e-05, -9.8407e-05,
+         2.8610e-05, -4.5240e-05,  2.7344e-05,  6.1393e-05,  7.7710e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 65, time 219.32, cls_loss 0.0047 cls_loss_mapping 0.0162 cls_loss_causal 0.6285 re_mapping 0.0098 re_causal 0.0291 /// teacc 99.02 lr 0.00010000
+Epoch 67, weight, value: tensor([[ 0.0028, -0.0239,  0.0113,  ..., -0.0593, -0.0372, -0.0193],
+        [-0.0550,  0.0278, -0.0260,  ..., -0.0492, -0.0068, -0.0786],
+        [-0.0414, -0.0447, -0.0603,  ..., -0.0585, -0.0198,  0.0725],
+        ...,
+        [ 0.0477,  0.0052, -0.0366,  ...,  0.0419, -0.0170, -0.0095],
+        [ 0.0621,  0.0408,  0.0156,  ..., -0.0372, -0.0522,  0.0369],
+        [ 0.0321, -0.0081,  0.0259,  ...,  0.0310, -0.0449,  0.0243]],
+       device='cuda:0'), grad: tensor([[ 6.4135e-05,  8.0317e-06,  3.7588e-06,  ...,  1.3798e-05,
+          1.1399e-05,  3.3200e-05],
+        [ 1.6689e-04, -2.2769e-05,  6.6198e-06,  ...,  1.1072e-05,
+          6.1765e-06,  4.3511e-05],
+        [-6.4278e-04,  2.5362e-05,  2.1100e-05,  ..., -3.8475e-05,
+          1.1414e-05, -1.6510e-04],
+        ...,
+        [ 3.2926e-04,  2.5034e-05,  1.3463e-05,  ...,  2.1443e-05,
+          1.2271e-05,  1.0073e-04],
+        [ 1.9535e-05,  1.1250e-06, -1.8731e-05,  ...,  3.0607e-05,
+          1.7747e-05, -3.1501e-05],
+        [-2.3395e-05, -3.1590e-05, -2.9549e-05,  ..., -6.9380e-05,
+         -1.2822e-05, -2.3857e-05]], device='cuda:0')
+Epoch 67, bias, value: tensor([ 0.0293, -0.0113, -0.0118,  0.0185, -0.0040, -0.0149, -0.0037,  0.0111,
+        -0.0251,  0.0161], device='cuda:0'), grad: tensor([ 1.7786e-04,  4.5705e-04, -1.8425e-03, -2.1413e-05,  6.7139e-04,
+        -1.1730e-03,  5.6744e-04,  1.1110e-03,  5.5283e-05, -5.0366e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 66, time 219.60, cls_loss 0.0044 cls_loss_mapping 0.0139 cls_loss_causal 0.6213 re_mapping 0.0092 re_causal 0.0285 /// teacc 98.93 lr 0.00010000
+Epoch 68, weight, value: tensor([[ 0.0029, -0.0244,  0.0112,  ..., -0.0597, -0.0379, -0.0201],
+        [-0.0558,  0.0276, -0.0264,  ..., -0.0496, -0.0074, -0.0790],
+        [-0.0417, -0.0455, -0.0610,  ..., -0.0590, -0.0202,  0.0731],
+        ...,
+        [ 0.0486,  0.0055, -0.0371,  ...,  0.0421, -0.0175, -0.0101],
+        [ 0.0624,  0.0410,  0.0159,  ..., -0.0377, -0.0525,  0.0373],
+        [ 0.0322, -0.0081,  0.0262,  ...,  0.0310, -0.0454,  0.0240]],
+       device='cuda:0'), grad: tensor([[-1.0738e-06,  1.3504e-06, -5.0012e-07,  ...,  1.0924e-06,
+          2.6543e-06,  3.8296e-06],
+        [ 4.1798e-06,  8.7917e-06,  3.9637e-06,  ...,  2.5053e-06,
+          3.3267e-06,  1.4007e-05],
+        [-3.9511e-07,  5.8822e-06,  4.4480e-06,  ...,  1.2130e-05,
+          3.8669e-06, -4.3422e-05],
+        ...,
+        [-1.3620e-05,  1.8343e-05,  5.1931e-06,  ..., -1.4015e-05,
+          1.9576e-06, -5.0925e-06],
+        [ 5.8822e-06,  5.7220e-05,  1.6913e-05,  ...,  5.4128e-06,
+          1.1072e-05,  3.3170e-05],
+        [-1.1101e-05,  6.3665e-06, -6.5714e-06,  ..., -7.1637e-06,
+          4.7535e-06,  1.8803e-06]], device='cuda:0')
+Epoch 68, bias, value: tensor([ 0.0288, -0.0117, -0.0121,  0.0184, -0.0038, -0.0141, -0.0035,  0.0115,
+        -0.0255,  0.0160], device='cuda:0'), grad: tensor([ 3.3136e-06,  3.0488e-05, -1.8820e-05, -7.0000e-04,  4.0568e-06,
+         5.6982e-04, -1.6719e-05, -5.8152e-06,  1.2064e-04,  1.1764e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 67, time 219.57, cls_loss 0.0038 cls_loss_mapping 0.0133 cls_loss_causal 0.6270 re_mapping 0.0095 re_causal 0.0294 /// teacc 99.05 lr 0.00010000
+Epoch 69, weight, value: tensor([[ 0.0032, -0.0252,  0.0114,  ..., -0.0598, -0.0388, -0.0210],
+        [-0.0566,  0.0277, -0.0267,  ..., -0.0502, -0.0078, -0.0795],
+        [-0.0418, -0.0461, -0.0610,  ..., -0.0598, -0.0205,  0.0741],
+        ...,
+        [ 0.0482,  0.0051, -0.0379,  ...,  0.0422, -0.0178, -0.0112],
+        [ 0.0642,  0.0417,  0.0164,  ..., -0.0370, -0.0529,  0.0381],
+        [ 0.0324, -0.0078,  0.0264,  ...,  0.0314, -0.0454,  0.0240]],
+       device='cuda:0'), grad: tensor([[ 1.4463e-06,  3.5036e-06,  2.5099e-07,  ...,  2.0433e-06,
+          3.1628e-06,  1.1444e-05],
+        [ 4.6156e-06, -1.6708e-06,  3.3434e-06,  ...,  1.2368e-06,
+          2.5500e-06,  6.4149e-06],
+        [ 8.1910e-07,  9.7081e-06,  6.1952e-06,  ...,  5.0440e-06,
+          9.4026e-06, -2.1264e-05],
+        ...,
+        [ 2.0154e-06,  6.6198e-06,  6.0648e-06,  ..., -2.4512e-06,
+          1.5842e-06,  6.2846e-06],
+        [ 9.5814e-06,  5.4650e-06,  8.6948e-06,  ...,  1.3597e-05,
+          1.9614e-06, -7.5661e-06],
+        [-5.5075e-05, -3.5763e-05, -4.3184e-05,  ..., -2.4632e-05,
+          2.0750e-06, -3.9116e-06]], device='cuda:0')
+Epoch 69, bias, value: tensor([ 0.0287, -0.0119, -0.0117,  0.0184, -0.0041, -0.0143, -0.0035,  0.0114,
+        -0.0248,  0.0160], device='cuda:0'), grad: tensor([ 1.7449e-05,  9.7454e-06, -2.7820e-05,  1.3910e-05,  1.2875e-05,
+         2.9787e-05, -1.2539e-05,  1.2495e-05,  2.1741e-05, -7.7665e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 68, time 219.68, cls_loss 0.0044 cls_loss_mapping 0.0140 cls_loss_causal 0.6168 re_mapping 0.0086 re_causal 0.0267 /// teacc 98.94 lr 0.00010000
+Epoch 70, weight, value: tensor([[ 0.0038, -0.0257,  0.0117,  ..., -0.0599, -0.0398, -0.0215],
+        [-0.0568,  0.0280, -0.0270,  ..., -0.0505, -0.0084, -0.0800],
+        [-0.0419, -0.0465, -0.0612,  ..., -0.0603, -0.0212,  0.0748],
+        ...,
+        [ 0.0489,  0.0050, -0.0382,  ...,  0.0427, -0.0182, -0.0117],
+        [ 0.0645,  0.0419,  0.0165,  ..., -0.0377, -0.0531,  0.0382],
+        [ 0.0326, -0.0074,  0.0271,  ...,  0.0317, -0.0453,  0.0241]],
+       device='cuda:0'), grad: tensor([[-1.2638e-06,  3.4813e-06, -4.6343e-06,  ...,  3.8594e-06,
+          7.5549e-06,  1.6078e-05],
+        [ 1.9759e-05, -4.4182e-06,  2.1104e-06,  ...,  8.4490e-06,
+          9.2760e-06,  3.5226e-05],
+        [ 4.3064e-05,  6.2324e-06,  1.1027e-06,  ...,  7.1973e-06,
+          2.2128e-05,  6.1870e-05],
+        ...,
+        [ 2.3067e-05,  2.8014e-05,  1.1139e-05,  ...,  4.7922e-05,
+          1.6525e-05,  3.3885e-05],
+        [-2.3198e-04,  5.8673e-07, -1.7211e-06,  ...,  1.7643e-05,
+          1.5132e-05, -3.2377e-04],
+        [-1.4812e-05, -6.3442e-06, -2.1413e-05,  ...,  1.5199e-06,
+          1.8418e-05,  2.2173e-05]], device='cuda:0')
+Epoch 70, bias, value: tensor([ 0.0289, -0.0116, -0.0114,  0.0183, -0.0045, -0.0147, -0.0036,  0.0117,
+        -0.0252,  0.0160], device='cuda:0'), grad: tensor([ 1.4409e-05,  6.3717e-05,  1.3959e-04,  2.9013e-05, -6.5804e-05,
+         3.8004e-04,  4.9442e-05,  1.2088e-04, -7.5674e-04,  2.5705e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 69, time 219.44, cls_loss 0.0047 cls_loss_mapping 0.0168 cls_loss_causal 0.6399 re_mapping 0.0087 re_causal 0.0274 /// teacc 98.87 lr 0.00010000
+Epoch 71, weight, value: tensor([[ 0.0039, -0.0262,  0.0118,  ..., -0.0608, -0.0404, -0.0218],
+        [-0.0572,  0.0282, -0.0274,  ..., -0.0508, -0.0092, -0.0808],
+        [-0.0421, -0.0471, -0.0614,  ..., -0.0613, -0.0217,  0.0753],
+        ...,
+        [ 0.0494,  0.0048, -0.0383,  ...,  0.0431, -0.0188, -0.0122],
+        [ 0.0647,  0.0421,  0.0165,  ..., -0.0384, -0.0535,  0.0385],
+        [ 0.0327, -0.0080,  0.0269,  ...,  0.0308, -0.0462,  0.0239]],
+       device='cuda:0'), grad: tensor([[ 7.7020e-07,  2.6882e-05,  1.0863e-05,  ...,  2.6985e-07,
+          3.6005e-06,  7.0222e-06],
+        [ 4.7795e-06,  1.1690e-05,  6.2659e-06,  ...,  1.2871e-06,
+          1.6866e-06,  1.4238e-05],
+        [ 5.2042e-06,  2.4945e-05,  1.1504e-05,  ...,  8.2003e-07,
+          1.5385e-06,  3.9376e-06],
+        ...,
+        [ 2.9616e-06,  1.9684e-05,  7.7039e-06,  ...,  2.0973e-06,
+          1.8692e-06,  1.1027e-05],
+        [-7.9870e-05, -9.3937e-05, -7.4744e-05,  ..., -1.1809e-06,
+          2.3632e-07, -2.9516e-04],
+        [ 6.0610e-06,  2.2769e-05,  9.8497e-06,  ...,  1.8319e-06,
+          2.6170e-06,  1.1258e-05]], device='cuda:0')
+Epoch 71, bias, value: tensor([ 0.0289, -0.0117, -0.0112,  0.0181, -0.0030, -0.0143, -0.0039,  0.0118,
+        -0.0256,  0.0150], device='cuda:0'), grad: tensor([ 4.8578e-05,  3.8743e-05,  3.1203e-05, -1.4269e-04,  8.7768e-06,
+         3.2473e-04,  1.8024e-04,  4.7177e-05, -5.8222e-04,  4.4882e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 70----------------------------------------------------
+epoch 70, time 220.59, cls_loss 0.0036 cls_loss_mapping 0.0107 cls_loss_causal 0.6075 re_mapping 0.0085 re_causal 0.0264 /// teacc 99.10 lr 0.00010000
+Epoch 72, weight, value: tensor([[ 0.0040, -0.0266,  0.0117,  ..., -0.0618, -0.0410, -0.0224],
+        [-0.0575,  0.0282, -0.0277,  ..., -0.0511, -0.0099, -0.0818],
+        [-0.0425, -0.0483, -0.0617,  ..., -0.0620, -0.0219,  0.0760],
+        ...,
+        [ 0.0499,  0.0046, -0.0386,  ...,  0.0434, -0.0193, -0.0130],
+        [ 0.0651,  0.0427,  0.0170,  ..., -0.0389, -0.0537,  0.0392],
+        [ 0.0331, -0.0079,  0.0275,  ...,  0.0311, -0.0466,  0.0240]],
+       device='cuda:0'), grad: tensor([[ 1.6764e-06,  4.3698e-06,  1.3877e-07,  ...,  3.9674e-06,
+          1.7779e-06,  4.6156e-06],
+        [ 4.4912e-05,  2.1115e-05,  1.3135e-05,  ...,  8.4639e-06,
+          3.2261e-06,  5.3942e-05],
+        [ 4.1664e-05,  4.5657e-05,  1.1906e-05,  ...,  2.2858e-05,
+          4.7646e-06,  5.4508e-05],
+        ...,
+        [ 6.8486e-05,  3.5435e-05,  2.4781e-05,  ...,  2.1234e-05,
+          3.0063e-06,  1.1519e-05],
+        [-1.1486e-04, -9.6977e-05, -3.5763e-05,  ...,  5.2489e-06,
+          2.7642e-06, -1.4842e-04],
+        [-8.7678e-05, -1.1936e-05, -2.1040e-05,  ..., -9.9242e-05,
+          4.4219e-06,  1.6779e-05]], device='cuda:0')
+Epoch 72, bias, value: tensor([ 0.0284, -0.0120, -0.0113,  0.0182, -0.0029, -0.0146, -0.0040,  0.0118,
+        -0.0251,  0.0153], device='cuda:0'), grad: tensor([ 1.1958e-05,  9.9778e-05,  1.7738e-04,  6.0610e-06,  1.7330e-05,
+         5.3979e-06,  1.8179e-05,  5.6326e-05, -3.0637e-04, -8.6546e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 71, time 220.05, cls_loss 0.0037 cls_loss_mapping 0.0120 cls_loss_causal 0.6089 re_mapping 0.0089 re_causal 0.0270 /// teacc 99.01 lr 0.00010000
+Epoch 73, weight, value: tensor([[ 0.0038, -0.0271,  0.0117,  ..., -0.0623, -0.0417, -0.0233],
+        [-0.0578,  0.0284, -0.0280,  ..., -0.0513, -0.0106, -0.0830],
+        [-0.0429, -0.0486, -0.0620,  ..., -0.0625, -0.0222,  0.0770],
+        ...,
+        [ 0.0502,  0.0044, -0.0389,  ...,  0.0437, -0.0199, -0.0139],
+        [ 0.0660,  0.0432,  0.0174,  ..., -0.0393, -0.0538,  0.0401],
+        [ 0.0335, -0.0077,  0.0278,  ...,  0.0314, -0.0467,  0.0238]],
+       device='cuda:0'), grad: tensor([[ 2.4531e-06,  4.8280e-05,  1.9103e-05,  ...,  2.0847e-05,
+          9.3654e-06,  1.3836e-05],
+        [ 6.6087e-06, -4.2990e-06,  3.2317e-06,  ...,  1.3269e-05,
+          1.2554e-06,  3.8445e-06],
+        [ 3.0339e-05,  2.4945e-05,  1.0476e-05,  ...,  8.1241e-05,
+          3.8259e-06,  2.9832e-05],
+        ...,
+        [-1.7083e-04, -3.5822e-05,  1.0490e-05,  ..., -3.2735e-04,
+         -4.2804e-06, -4.5955e-05],
+        [ 1.9968e-06,  4.6074e-05,  1.6078e-05,  ...,  3.4362e-05,
+          2.2203e-06,  4.9174e-07],
+        [ 2.6911e-05,  8.4162e-05,  1.8805e-05,  ...,  7.3493e-05,
+         -1.8976e-08,  4.5039e-06]], device='cuda:0')
+Epoch 73, bias, value: tensor([ 0.0280, -0.0123, -0.0108,  0.0177, -0.0031, -0.0145, -0.0039,  0.0119,
+        -0.0246,  0.0153], device='cuda:0'), grad: tensor([ 1.0461e-04,  8.6874e-06,  1.5450e-04, -2.9540e-04,  7.0393e-05,
+         1.4484e-04, -3.2604e-05, -4.8876e-04,  1.0550e-04,  2.2829e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 72, time 219.55, cls_loss 0.0054 cls_loss_mapping 0.0147 cls_loss_causal 0.6212 re_mapping 0.0088 re_causal 0.0268 /// teacc 98.95 lr 0.00010000
+Epoch 74, weight, value: tensor([[ 0.0035, -0.0279,  0.0117,  ..., -0.0641, -0.0423, -0.0240],
+        [-0.0580,  0.0289, -0.0282,  ..., -0.0516, -0.0113, -0.0836],
+        [-0.0434, -0.0499, -0.0623,  ..., -0.0635, -0.0232,  0.0774],
+        ...,
+        [ 0.0505,  0.0042, -0.0392,  ...,  0.0438, -0.0206, -0.0151],
+        [ 0.0669,  0.0433,  0.0178,  ..., -0.0391, -0.0540,  0.0408],
+        [ 0.0350, -0.0068,  0.0288,  ...,  0.0331, -0.0460,  0.0250]],
+       device='cuda:0'), grad: tensor([[ 7.6294e-06,  1.2554e-05,  1.0945e-05,  ...,  2.0102e-05,
+          4.9621e-06,  1.2189e-05],
+        [ 4.6380e-06, -7.4446e-05,  4.1351e-06,  ...,  3.3882e-06,
+          1.2800e-05,  5.6028e-06],
+        [-1.2493e-04,  5.4002e-05,  3.9265e-06,  ...,  3.8370e-06,
+          2.9989e-06, -1.4687e-04],
+        ...,
+        [ 1.3161e-04,  1.0975e-05,  3.9861e-06,  ...,  6.7651e-06,
+          7.4366e-07,  1.5724e-04],
+        [-1.3337e-05, -1.9014e-05, -1.5557e-05,  ...,  8.9779e-06,
+          3.5875e-06, -1.2919e-05],
+        [-3.7283e-05, -3.2574e-05, -3.5435e-05,  ..., -6.9857e-05,
+         -1.7062e-06, -2.7984e-05]], device='cuda:0')
+Epoch 74, bias, value: tensor([ 0.0277, -0.0123, -0.0110,  0.0185, -0.0046, -0.0149, -0.0036,  0.0117,
+        -0.0245,  0.0166], device='cuda:0'), grad: tensor([ 1.0002e-04, -2.1625e-04, -6.9380e-04,  1.8084e-04,  5.8860e-05,
+         1.0419e-04, -3.0696e-05,  5.7888e-04,  2.6137e-05, -1.0949e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 73, time 219.16, cls_loss 0.0044 cls_loss_mapping 0.0128 cls_loss_causal 0.5954 re_mapping 0.0087 re_causal 0.0268 /// teacc 99.02 lr 0.00010000
+Epoch 75, weight, value: tensor([[ 0.0049, -0.0278,  0.0123,  ..., -0.0643, -0.0429, -0.0245],
+        [-0.0587,  0.0297, -0.0284,  ..., -0.0520, -0.0124, -0.0847],
+        [-0.0439, -0.0508, -0.0628,  ..., -0.0639, -0.0238,  0.0777],
+        ...,
+        [ 0.0507,  0.0032, -0.0394,  ...,  0.0435, -0.0215, -0.0159],
+        [ 0.0678,  0.0439,  0.0182,  ..., -0.0392, -0.0543,  0.0421],
+        [ 0.0350, -0.0073,  0.0288,  ...,  0.0325, -0.0472,  0.0242]],
+       device='cuda:0'), grad: tensor([[-2.4185e-05,  1.8328e-05, -7.2084e-06,  ...,  4.5039e-06,
+          2.0284e-06,  4.8019e-06],
+        [ 2.4009e-06, -4.0717e-06,  8.1658e-06,  ...,  1.5134e-06,
+          3.7588e-06,  4.5225e-06],
+        [ 1.1943e-05,  5.8889e-05,  2.3469e-05,  ...,  3.8236e-05,
+          1.8075e-05,  4.0643e-06],
+        ...,
+        [-9.9167e-06,  8.3745e-05,  3.6061e-05,  ..., -7.0445e-06,
+          3.8967e-06,  7.8306e-06],
+        [ 1.0170e-05,  9.9301e-05,  4.4405e-05,  ...,  1.1988e-05,
+          2.1793e-06,  8.9854e-06],
+        [-5.4128e-06,  3.0011e-05,  9.1940e-06,  ..., -4.2617e-06,
+          4.0382e-06,  3.8706e-06]], device='cuda:0')
+Epoch 75, bias, value: tensor([ 0.0284, -0.0121, -0.0113,  0.0185, -0.0036, -0.0155, -0.0036,  0.0112,
+        -0.0237,  0.0157], device='cuda:0'), grad: tensor([-7.0691e-05, -1.8373e-05,  1.3590e-04, -4.7493e-04, -3.9399e-05,
+         2.9847e-05,  9.2030e-05,  1.0538e-04,  1.7905e-04,  6.0827e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 74, time 218.76, cls_loss 0.0036 cls_loss_mapping 0.0111 cls_loss_causal 0.6157 re_mapping 0.0084 re_causal 0.0260 /// teacc 98.89 lr 0.00010000
+Epoch 76, weight, value: tensor([[ 0.0051, -0.0283,  0.0124,  ..., -0.0645, -0.0436, -0.0250],
+        [-0.0591,  0.0299, -0.0288,  ..., -0.0524, -0.0131, -0.0852],
+        [-0.0447, -0.0514, -0.0633,  ..., -0.0646, -0.0244,  0.0782],
+        ...,
+        [ 0.0512,  0.0031, -0.0397,  ...,  0.0439, -0.0218, -0.0164],
+        [ 0.0682,  0.0443,  0.0186,  ..., -0.0398, -0.0547,  0.0424],
+        [ 0.0356, -0.0071,  0.0289,  ...,  0.0330, -0.0472,  0.0241]],
+       device='cuda:0'), grad: tensor([[-1.4575e-06,  1.6093e-05,  4.1798e-06,  ...,  8.5086e-06,
+          4.3698e-06,  8.5831e-06],
+        [ 1.1779e-05,  1.9655e-05,  1.2666e-05,  ...,  3.0756e-05,
+          1.9267e-05,  2.7061e-05],
+        [ 2.2560e-05,  5.3048e-05,  2.3544e-05,  ...,  5.4866e-05,
+          2.7633e-04,  2.9850e-04],
+        ...,
+        [-2.3231e-05,  1.8124e-06,  1.2964e-05,  ..., -7.6592e-05,
+         -6.3404e-06, -5.6699e-06],
+        [ 3.4273e-05,  8.8573e-05,  5.4061e-05,  ...,  4.9978e-05,
+          1.1802e-05,  4.4376e-05],
+        [-1.5855e-04, -3.9554e-04, -2.5845e-04,  ..., -1.3244e-04,
+          3.3319e-05, -7.2896e-05]], device='cuda:0')
+Epoch 76, bias, value: tensor([ 0.0284, -0.0119, -0.0113,  0.0183, -0.0038, -0.0156, -0.0038,  0.0115,
+        -0.0239,  0.0159], device='cuda:0'), grad: tensor([ 1.7241e-05,  8.3506e-05,  6.2561e-04,  3.4666e-04,  1.3065e-04,
+         5.5075e-05, -6.2561e-04, -9.9480e-05,  2.2149e-04, -7.5483e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 75----------------------------------------------------
+epoch 75, time 219.24, cls_loss 0.0029 cls_loss_mapping 0.0098 cls_loss_causal 0.5937 re_mapping 0.0088 re_causal 0.0263 /// teacc 99.11 lr 0.00010000
+Epoch 77, weight, value: tensor([[ 0.0053, -0.0289,  0.0125,  ..., -0.0647, -0.0438, -0.0254],
+        [-0.0592,  0.0302, -0.0292,  ..., -0.0526, -0.0140, -0.0859],
+        [-0.0450, -0.0519, -0.0636,  ..., -0.0654, -0.0249,  0.0786],
+        ...,
+        [ 0.0512,  0.0028, -0.0401,  ...,  0.0441, -0.0224, -0.0168],
+        [ 0.0689,  0.0450,  0.0191,  ..., -0.0402, -0.0551,  0.0428],
+        [ 0.0360, -0.0069,  0.0292,  ...,  0.0330, -0.0476,  0.0239]],
+       device='cuda:0'), grad: tensor([[-6.9559e-05,  2.9299e-06, -1.1884e-05,  ...,  2.0396e-06,
+          4.7758e-06,  3.4496e-06],
+        [ 5.8636e-06, -5.1633e-06,  9.8161e-07,  ..., -1.4121e-07,
+          2.4885e-06,  1.6168e-06],
+        [ 6.1393e-06,  5.3868e-06,  7.5018e-07,  ...,  5.9567e-06,
+          1.6754e-06, -2.3581e-06],
+        ...,
+        [-3.2663e-05, -2.8592e-06,  2.8983e-06,  ..., -2.4214e-05,
+          3.3360e-06,  1.3839e-06],
+        [ 1.2405e-05,  7.3984e-06,  6.4913e-07,  ...,  1.2815e-05,
+          5.1260e-06,  2.3860e-06],
+        [-6.8583e-06,  7.0333e-06, -5.9530e-06,  ..., -3.8631e-06,
+          3.6173e-06, -8.2934e-07]], device='cuda:0')
+Epoch 77, bias, value: tensor([ 0.0285, -0.0119, -0.0114,  0.0178, -0.0038, -0.0152, -0.0037,  0.0113,
+        -0.0236,  0.0159], device='cuda:0'), grad: tensor([-4.5657e-04,  1.2452e-06,  1.5736e-05, -2.6241e-05,  1.5177e-05,
+         2.8062e-04,  1.4973e-04, -5.3078e-05,  4.6164e-05,  2.6599e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 76, time 218.90, cls_loss 0.0036 cls_loss_mapping 0.0101 cls_loss_causal 0.5948 re_mapping 0.0079 re_causal 0.0242 /// teacc 98.99 lr 0.00010000
+Epoch 78, weight, value: tensor([[ 0.0059, -0.0294,  0.0126,  ..., -0.0649, -0.0446, -0.0259],
+        [-0.0594,  0.0304, -0.0295,  ..., -0.0529, -0.0150, -0.0869],
+        [-0.0452, -0.0524, -0.0638,  ..., -0.0660, -0.0255,  0.0792],
+        ...,
+        [ 0.0513,  0.0023, -0.0407,  ...,  0.0445, -0.0225, -0.0175],
+        [ 0.0692,  0.0448,  0.0191,  ..., -0.0407, -0.0558,  0.0429],
+        [ 0.0363, -0.0068,  0.0295,  ...,  0.0332, -0.0479,  0.0238]],
+       device='cuda:0'), grad: tensor([[-8.6566e-07,  5.5954e-06,  3.2842e-05,  ...,  2.6859e-06,
+          1.9610e-05,  3.3289e-05],
+        [ 2.4140e-06, -9.9480e-05,  7.3053e-06,  ...,  2.3529e-05,
+          1.9118e-05,  1.5035e-05],
+        [ 2.8964e-06,  9.2983e-05,  7.2494e-06,  ...,  7.4022e-06,
+          5.7854e-06,  2.9206e-06],
+        ...,
+        [-7.0557e-06,  3.0547e-05,  4.5747e-06,  ...,  6.1281e-07,
+          4.7311e-06,  4.7795e-06],
+        [ 3.7272e-06,  2.9221e-05,  1.1571e-05,  ...,  2.7522e-05,
+          1.5825e-05,  1.5765e-05],
+        [ 1.1642e-06,  3.8445e-05,  2.1845e-05,  ...,  7.0870e-05,
+          4.7743e-05,  4.3452e-05]], device='cuda:0')
+Epoch 78, bias, value: tensor([ 0.0287, -0.0122, -0.0107,  0.0181, -0.0043, -0.0153, -0.0029,  0.0113,
+        -0.0242,  0.0158], device='cuda:0'), grad: tensor([ 7.3493e-05, -1.4889e-04,  1.7178e-04, -1.4031e-04, -2.6345e-04,
+        -3.7611e-05,  4.1842e-05,  4.8548e-05,  8.1599e-05,  1.7297e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 77, time 218.49, cls_loss 0.0028 cls_loss_mapping 0.0102 cls_loss_causal 0.5778 re_mapping 0.0081 re_causal 0.0251 /// teacc 98.95 lr 0.00010000
+Epoch 79, weight, value: tensor([[ 0.0064, -0.0297,  0.0132,  ..., -0.0650, -0.0450, -0.0259],
+        [-0.0597,  0.0305, -0.0298,  ..., -0.0532, -0.0163, -0.0878],
+        [-0.0458, -0.0532, -0.0643,  ..., -0.0668, -0.0253,  0.0797],
+        ...,
+        [ 0.0519,  0.0021, -0.0409,  ...,  0.0450, -0.0228, -0.0177],
+        [ 0.0693,  0.0447,  0.0191,  ..., -0.0412, -0.0562,  0.0431],
+        [ 0.0365, -0.0066,  0.0297,  ...,  0.0334, -0.0479,  0.0238]],
+       device='cuda:0'), grad: tensor([[ 1.2228e-06,  2.6375e-06,  2.1625e-06,  ...,  3.0361e-06,
+          5.7742e-07,  2.0415e-06],
+        [ 1.9264e-04,  7.2241e-05,  1.4743e-06,  ...,  8.0168e-05,
+          1.2945e-06,  1.7965e-06],
+        [ 2.6911e-05,  2.8849e-05,  1.7798e-06,  ...,  1.3985e-05,
+          9.6299e-07, -3.9712e-06],
+        ...,
+        [-2.2411e-04, -9.4116e-05,  3.0417e-06,  ..., -9.1076e-05,
+          1.3225e-06,  2.6785e-06],
+        [ 2.8219e-07,  2.1085e-06, -1.3914e-06,  ...,  3.2485e-06,
+          4.2142e-07, -2.3153e-06],
+        [-6.9886e-06,  2.4540e-07, -6.1989e-06,  ..., -5.4613e-06,
+          1.2703e-06,  8.8650e-08]], device='cuda:0')
+Epoch 79, bias, value: tensor([ 0.0293, -0.0126, -0.0109,  0.0186, -0.0045, -0.0152, -0.0031,  0.0118,
+        -0.0247,  0.0158], device='cuda:0'), grad: tensor([ 1.1131e-05,  1.2436e-03,  2.3925e-04, -1.0371e-05, -1.0384e-06,
+         1.5512e-05,  8.5086e-06, -1.5259e-03,  1.7971e-05,  4.1514e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 78, time 218.70, cls_loss 0.0028 cls_loss_mapping 0.0098 cls_loss_causal 0.5869 re_mapping 0.0084 re_causal 0.0251 /// teacc 98.88 lr 0.00010000
+Epoch 80, weight, value: tensor([[ 0.0068, -0.0302,  0.0134,  ..., -0.0653, -0.0457, -0.0264],
+        [-0.0602,  0.0305, -0.0301,  ..., -0.0535, -0.0168, -0.0888],
+        [-0.0462, -0.0536, -0.0646,  ..., -0.0676, -0.0259,  0.0801],
+        ...,
+        [ 0.0526,  0.0019, -0.0412,  ...,  0.0453, -0.0233, -0.0182],
+        [ 0.0693,  0.0447,  0.0191,  ..., -0.0421, -0.0561,  0.0433],
+        [ 0.0368, -0.0064,  0.0303,  ...,  0.0333, -0.0486,  0.0236]],
+       device='cuda:0'), grad: tensor([[-1.2958e-04,  4.8466e-06,  8.5728e-07,  ...,  7.1600e-06,
+          2.6003e-06,  4.0680e-06],
+        [ 9.6038e-06, -1.3299e-06,  4.0345e-06,  ...,  1.3828e-05,
+          6.3106e-06,  1.0774e-05],
+        [ 1.6177e-06,  8.1286e-06,  4.5411e-06,  ...,  9.8944e-06,
+          4.8280e-06, -2.0519e-05],
+        ...,
+        [ 1.3041e-04,  5.3704e-05,  4.8488e-05,  ...,  1.4937e-04,
+          1.4201e-05,  3.0011e-05],
+        [-1.6645e-05, -1.3739e-05, -9.6560e-06,  ...,  9.6783e-06,
+          4.2468e-06, -1.9729e-05],
+        [-1.8096e-04, -1.8585e-04, -1.4675e-04,  ..., -3.6764e-04,
+         -4.8220e-05, -5.4836e-05]], device='cuda:0')
+Epoch 80, bias, value: tensor([ 0.0292, -0.0129, -0.0110,  0.0181, -0.0040, -0.0148, -0.0034,  0.0122,
+        -0.0250,  0.0157], device='cuda:0'), grad: tensor([-2.1136e-04,  2.7612e-05, -6.6102e-05,  6.2108e-05,  2.4867e-04,
+         7.9155e-05,  1.2660e-04,  3.1948e-04, -5.9716e-06, -5.8031e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 79, time 218.62, cls_loss 0.0038 cls_loss_mapping 0.0121 cls_loss_causal 0.6005 re_mapping 0.0082 re_causal 0.0250 /// teacc 98.90 lr 0.00010000
+Epoch 81, weight, value: tensor([[ 0.0073, -0.0303,  0.0137,  ..., -0.0658, -0.0461, -0.0270],
+        [-0.0608,  0.0309, -0.0308,  ..., -0.0536, -0.0175, -0.0895],
+        [-0.0465, -0.0541, -0.0648,  ..., -0.0680, -0.0265,  0.0807],
+        ...,
+        [ 0.0525,  0.0013, -0.0420,  ...,  0.0452, -0.0236, -0.0189],
+        [ 0.0702,  0.0454,  0.0197,  ..., -0.0421, -0.0564,  0.0438],
+        [ 0.0372, -0.0062,  0.0307,  ...,  0.0335, -0.0488,  0.0234]],
+       device='cuda:0'), grad: tensor([[-5.5432e-06, -3.3565e-06, -1.6382e-06,  ...,  6.6916e-07,
+          1.7792e-05,  1.5691e-05],
+        [ 1.4883e-06, -6.6236e-06,  2.1197e-06,  ...,  3.8333e-06,
+          6.2659e-06,  9.9391e-06],
+        [ 4.7334e-07,  1.7397e-06,  1.6512e-06,  ...,  1.2480e-06,
+          5.0440e-06, -3.3796e-05],
+        ...,
+        [-9.7975e-07,  3.9712e-06,  1.9372e-06,  ...,  1.1018e-06,
+          2.4065e-06,  3.5707e-06],
+        [ 2.1644e-06,  6.1169e-06,  8.8140e-06,  ...,  2.8890e-06,
+          1.9133e-05,  1.8626e-05],
+        [-4.3660e-06, -2.7902e-06, -2.8536e-06,  ..., -6.2697e-06,
+          4.6566e-06,  2.1514e-06]], device='cuda:0')
+Epoch 81, bias, value: tensor([ 0.0299, -0.0133, -0.0110,  0.0192, -0.0041, -0.0142, -0.0044,  0.0118,
+        -0.0251,  0.0157], device='cuda:0'), grad: tensor([ 1.8492e-05,  1.9699e-05, -1.3912e-04,  5.2810e-05,  2.1026e-05,
+         2.3946e-05, -7.2122e-05,  1.7032e-05,  5.4777e-05,  3.4515e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 80, time 218.67, cls_loss 0.0030 cls_loss_mapping 0.0088 cls_loss_causal 0.5878 re_mapping 0.0082 re_causal 0.0248 /// teacc 99.05 lr 0.00010000
+Epoch 82, weight, value: tensor([[ 0.0073, -0.0307,  0.0138,  ..., -0.0660, -0.0467, -0.0276],
+        [-0.0611,  0.0313, -0.0311,  ..., -0.0539, -0.0182, -0.0901],
+        [-0.0465, -0.0551, -0.0652,  ..., -0.0686, -0.0270,  0.0818],
+        ...,
+        [ 0.0528,  0.0011, -0.0423,  ...,  0.0454, -0.0242, -0.0197],
+        [ 0.0706,  0.0457,  0.0200,  ..., -0.0425, -0.0567,  0.0440],
+        [ 0.0376, -0.0060,  0.0312,  ...,  0.0337, -0.0489,  0.0233]],
+       device='cuda:0'), grad: tensor([[ 1.1370e-05,  1.4035e-06, -3.1702e-06,  ...,  3.8743e-06,
+          3.0193e-06,  9.6709e-06],
+        [ 2.5984e-06, -5.1502e-07,  7.4599e-07,  ...,  1.8878e-06,
+          3.6266e-06,  3.1944e-06],
+        [-6.5029e-05,  2.2277e-06,  6.3516e-07,  ..., -1.3843e-05,
+          2.1365e-06, -3.3289e-05],
+        ...,
+        [ 3.7700e-05,  3.3174e-06,  1.0198e-06,  ...,  9.0897e-06,
+          9.8441e-07,  2.0161e-05],
+        [ 3.1162e-06,  1.3612e-05,  1.6494e-06,  ...,  1.6280e-06,
+          1.9781e-06,  1.7704e-06],
+        [-2.0899e-06,  4.2282e-06, -2.9895e-06,  ...,  4.6134e-05,
+          3.6836e-05,  2.2799e-05]], device='cuda:0')
+Epoch 82, bias, value: tensor([ 0.0295, -0.0130, -0.0111,  0.0192, -0.0040, -0.0139, -0.0046,  0.0118,
+        -0.0255,  0.0157], device='cuda:0'), grad: tensor([ 2.2635e-05,  9.4473e-06, -9.5904e-05, -8.1718e-05, -3.6836e-05,
+         4.6879e-05, -4.5478e-05,  6.7353e-05,  5.1290e-05,  6.2287e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 81, time 218.91, cls_loss 0.0034 cls_loss_mapping 0.0124 cls_loss_causal 0.5640 re_mapping 0.0079 re_causal 0.0235 /// teacc 99.02 lr 0.00010000
+Epoch 83, weight, value: tensor([[ 0.0073, -0.0309,  0.0137,  ..., -0.0665, -0.0483, -0.0287],
+        [-0.0617,  0.0313, -0.0315,  ..., -0.0543, -0.0189, -0.0906],
+        [-0.0469, -0.0556, -0.0655,  ..., -0.0691, -0.0278,  0.0820],
+        ...,
+        [ 0.0531,  0.0007, -0.0426,  ...,  0.0457, -0.0245, -0.0202],
+        [ 0.0716,  0.0465,  0.0207,  ..., -0.0430, -0.0572,  0.0451],
+        [ 0.0382, -0.0058,  0.0314,  ...,  0.0340, -0.0491,  0.0232]],
+       device='cuda:0'), grad: tensor([[-6.7472e-05, -4.8578e-06, -2.4498e-05,  ..., -2.4885e-05,
+          2.2200e-07,  1.1837e-06],
+        [ 2.8666e-06,  1.3839e-06,  2.1160e-06,  ...,  1.5683e-06,
+          3.7788e-07,  1.3625e-06],
+        [-4.3400e-06,  3.4291e-06,  2.1830e-06,  ...,  2.1625e-06,
+          4.0093e-07, -3.9458e-05],
+        ...,
+        [ 1.3616e-06,  6.3069e-06,  2.7772e-06,  ...,  1.3562e-07,
+          3.5716e-07,  1.6969e-06],
+        [ 8.5682e-06,  4.4964e-06,  1.4594e-06,  ...,  1.6810e-06,
+          3.4925e-07,  2.9579e-05],
+        [ 3.5226e-05,  2.0824e-06,  1.1168e-05,  ...,  9.3728e-06,
+         -1.5832e-06, -1.8638e-07]], device='cuda:0')
+Epoch 83, bias, value: tensor([ 0.0289, -0.0132, -0.0116,  0.0192, -0.0041, -0.0145, -0.0040,  0.0120,
+        -0.0248,  0.0160], device='cuda:0'), grad: tensor([-1.6654e-04,  9.1046e-06, -3.6567e-05, -1.4797e-05,  1.2040e-05,
+        -8.3596e-06,  3.3677e-05,  1.6302e-05,  5.7191e-05,  9.7692e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 82, time 218.97, cls_loss 0.0029 cls_loss_mapping 0.0111 cls_loss_causal 0.5985 re_mapping 0.0078 re_causal 0.0242 /// teacc 98.92 lr 0.00010000
+Epoch 84, weight, value: tensor([[ 0.0077, -0.0314,  0.0141,  ..., -0.0667, -0.0490, -0.0292],
+        [-0.0619,  0.0317, -0.0318,  ..., -0.0545, -0.0196, -0.0909],
+        [-0.0474, -0.0560, -0.0657,  ..., -0.0701, -0.0287,  0.0825],
+        ...,
+        [ 0.0535,  0.0004, -0.0430,  ...,  0.0460, -0.0247, -0.0205],
+        [ 0.0720,  0.0461,  0.0209,  ..., -0.0435, -0.0583,  0.0451],
+        [ 0.0383, -0.0061,  0.0313,  ...,  0.0340, -0.0495,  0.0229]],
+       device='cuda:0'), grad: tensor([[-3.3975e-05,  6.9616e-07, -2.1577e-05,  ...,  7.1526e-07,
+          3.9227e-06, -1.0051e-05],
+        [ 3.4943e-06,  1.1735e-06,  1.8328e-06,  ...,  4.9509e-06,
+          4.6343e-06,  9.9093e-06],
+        [ 7.9423e-06,  3.0212e-06,  4.6380e-06,  ...,  7.1824e-06,
+          5.6922e-06, -1.3202e-05],
+        ...,
+        [-7.0930e-06,  2.2314e-06,  2.4084e-06,  ..., -1.3178e-06,
+          4.3996e-06,  1.3024e-05],
+        [ 4.3921e-06, -1.4916e-05,  3.2187e-06,  ...,  2.4885e-06,
+         -4.1374e-07, -6.9179e-06],
+        [ 5.8189e-06, -1.4044e-05, -9.6783e-06,  ..., -1.1958e-05,
+         -1.2303e-06,  1.8897e-06]], device='cuda:0')
+Epoch 84, bias, value: tensor([ 0.0291, -0.0129, -0.0115,  0.0194, -0.0038, -0.0142, -0.0041,  0.0121,
+        -0.0256,  0.0155], device='cuda:0'), grad: tensor([-8.9467e-05,  1.7822e-05, -1.1787e-05,  3.3110e-05,  8.2999e-06,
+         1.3433e-05, -2.0526e-06,  8.8736e-06,  2.4468e-05, -2.8070e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 83, time 218.49, cls_loss 0.0027 cls_loss_mapping 0.0085 cls_loss_causal 0.5411 re_mapping 0.0073 re_causal 0.0221 /// teacc 99.06 lr 0.00010000
+Epoch 85, weight, value: tensor([[ 0.0079, -0.0318,  0.0142,  ..., -0.0669, -0.0497, -0.0299],
+        [-0.0622,  0.0319, -0.0320,  ..., -0.0548, -0.0200, -0.0917],
+        [-0.0478, -0.0568, -0.0660,  ..., -0.0711, -0.0292,  0.0831],
+        ...,
+        [ 0.0538,  0.0002, -0.0434,  ...,  0.0464, -0.0252, -0.0208],
+        [ 0.0731,  0.0467,  0.0215,  ..., -0.0443, -0.0587,  0.0457],
+        [ 0.0383, -0.0059,  0.0315,  ...,  0.0343, -0.0494,  0.0229]],
+       device='cuda:0'), grad: tensor([[-3.3411e-07,  5.6438e-06,  2.5257e-06,  ...,  1.9372e-06,
+          1.7494e-05,  2.0698e-05],
+        [ 2.2445e-06, -2.1353e-05, -3.3528e-07,  ...,  5.8077e-06,
+          1.5259e-05,  1.6928e-05],
+        [ 1.5255e-06,  4.2729e-06,  3.2932e-06,  ...,  3.5334e-06,
+          1.4842e-05, -1.0528e-05],
+        ...,
+        [-1.1615e-05,  3.5726e-06,  8.6240e-07,  ..., -8.7023e-06,
+          2.1625e-06,  3.4664e-06],
+        [ 3.3416e-06,  5.6654e-05,  7.2241e-05,  ...,  6.8583e-06,
+          4.1747e-04,  4.8423e-04],
+        [-1.6559e-06,  4.8168e-06, -3.0454e-06,  ...,  3.2127e-05,
+          3.2455e-05,  9.7081e-06]], device='cuda:0')
+Epoch 85, bias, value: tensor([ 0.0291, -0.0131, -0.0113,  0.0187, -0.0039, -0.0137, -0.0043,  0.0124,
+        -0.0251,  0.0154], device='cuda:0'), grad: tensor([ 3.6687e-05, -8.2776e-06, -1.5073e-05,  2.4512e-05, -3.5256e-05,
+         2.1607e-06, -7.4148e-04, -1.2472e-05,  6.9952e-04,  4.9770e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 84, time 218.88, cls_loss 0.0035 cls_loss_mapping 0.0115 cls_loss_causal 0.6015 re_mapping 0.0074 re_causal 0.0230 /// teacc 99.03 lr 0.00010000
+Epoch 86, weight, value: tensor([[ 0.0088, -0.0314,  0.0146,  ..., -0.0669, -0.0506, -0.0304],
+        [-0.0613,  0.0323, -0.0330,  ..., -0.0541, -0.0209, -0.0928],
+        [-0.0483, -0.0577, -0.0662,  ..., -0.0720, -0.0299,  0.0839],
+        ...,
+        [ 0.0536, -0.0005, -0.0438,  ...,  0.0465, -0.0259, -0.0223],
+        [ 0.0732,  0.0476,  0.0221,  ..., -0.0455, -0.0594,  0.0460],
+        [ 0.0385, -0.0057,  0.0317,  ...,  0.0342, -0.0497,  0.0228]],
+       device='cuda:0'), grad: tensor([[-9.9838e-05,  1.0505e-06, -8.7917e-06,  ...,  1.0412e-06,
+         -7.8185e-07, -9.2313e-06],
+        [ 1.8971e-06, -5.1856e-06,  8.6753e-07,  ..., -2.2426e-06,
+          4.2352e-07,  1.0030e-06],
+        [ 5.7966e-06,  1.7788e-06,  2.3879e-06,  ...,  1.1008e-06,
+          7.6089e-07,  3.3304e-06],
+        ...,
+        [ 3.1739e-06,  4.0270e-06,  1.4221e-06,  ...,  3.1535e-06,
+          9.0618e-07,  9.2294e-07],
+        [ 5.4501e-06,  2.1812e-06,  2.2203e-06,  ...,  1.4119e-06,
+          6.6869e-07,  2.4214e-06],
+        [-3.6135e-06, -1.5246e-06, -3.4235e-06,  ..., -3.4124e-06,
+          1.4631e-06,  2.1365e-06]], device='cuda:0')
+Epoch 86, bias, value: tensor([ 0.0298, -0.0130, -0.0113,  0.0188, -0.0038, -0.0142, -0.0044,  0.0117,
+        -0.0245,  0.0153], device='cuda:0'), grad: tensor([-2.1040e-04, -1.4536e-05,  2.0459e-05, -2.0176e-05, -1.0189e-06,
+         5.4628e-05,  1.3149e-04,  1.6421e-05,  2.0251e-05,  2.7046e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 85, time 218.59, cls_loss 0.0024 cls_loss_mapping 0.0083 cls_loss_causal 0.5561 re_mapping 0.0075 re_causal 0.0229 /// teacc 98.91 lr 0.00010000
+Epoch 87, weight, value: tensor([[ 0.0090, -0.0320,  0.0148,  ..., -0.0671, -0.0513, -0.0308],
+        [-0.0617,  0.0324, -0.0334,  ..., -0.0545, -0.0222, -0.0936],
+        [-0.0479, -0.0580, -0.0665,  ..., -0.0718, -0.0302,  0.0851],
+        ...,
+        [ 0.0538, -0.0006, -0.0441,  ...,  0.0468, -0.0262, -0.0238],
+        [ 0.0738,  0.0483,  0.0225,  ..., -0.0459, -0.0598,  0.0466],
+        [ 0.0387, -0.0057,  0.0320,  ...,  0.0342, -0.0502,  0.0225]],
+       device='cuda:0'), grad: tensor([[-1.6138e-05,  4.8950e-06, -3.5614e-06,  ...,  3.6368e-07,
+          1.9614e-06,  1.7941e-05],
+        [ 3.6154e-06, -1.1781e-07,  1.9092e-06,  ...,  3.3043e-06,
+          1.0906e-06,  7.5847e-06],
+        [ 3.0268e-06,  1.5255e-06,  1.5143e-06,  ...,  3.1162e-06,
+          1.3672e-06, -1.0175e-04],
+        ...,
+        [ 1.3754e-05,  1.3217e-05,  1.1876e-05,  ...,  1.3970e-05,
+          3.0454e-06,  1.0289e-05],
+        [ 1.1569e-04,  8.9943e-05,  8.0287e-05,  ...,  9.9659e-05,
+          1.3269e-05,  9.3460e-05],
+        [-1.5450e-04, -1.2720e-04, -1.1146e-04,  ..., -1.3685e-04,
+         -1.6272e-05, -4.5508e-05]], device='cuda:0')
+Epoch 87, bias, value: tensor([ 0.0300, -0.0132, -0.0107,  0.0182, -0.0036, -0.0142, -0.0040,  0.0116,
+        -0.0244,  0.0150], device='cuda:0'), grad: tensor([-3.9451e-06,  1.4149e-05, -1.6546e-04,  2.5228e-05,  3.0845e-05,
+         1.4022e-05,  1.0878e-05,  3.5971e-05,  3.1185e-04, -2.7323e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 86, time 218.54, cls_loss 0.0029 cls_loss_mapping 0.0108 cls_loss_causal 0.5818 re_mapping 0.0074 re_causal 0.0226 /// teacc 98.84 lr 0.00010000
+Epoch 88, weight, value: tensor([[ 0.0092, -0.0324,  0.0152,  ..., -0.0675, -0.0523, -0.0314],
+        [-0.0621,  0.0325, -0.0336,  ..., -0.0549, -0.0235, -0.0947],
+        [-0.0484, -0.0580, -0.0669,  ..., -0.0727, -0.0307,  0.0855],
+        ...,
+        [ 0.0542, -0.0009, -0.0446,  ...,  0.0472, -0.0265, -0.0243],
+        [ 0.0746,  0.0486,  0.0231,  ..., -0.0459, -0.0601,  0.0472],
+        [ 0.0389, -0.0055,  0.0321,  ...,  0.0343, -0.0505,  0.0222]],
+       device='cuda:0'), grad: tensor([[ 8.0233e-07,  2.1458e-06, -3.6182e-07,  ...,  2.5723e-06,
+          7.8144e-09,  1.8897e-06],
+        [ 3.2187e-06,  4.3493e-07,  1.6140e-06,  ...,  2.3656e-06,
+          4.8982e-08,  4.2608e-07],
+        [ 5.7593e-06,  3.8855e-06,  1.3988e-06,  ...,  3.8967e-06,
+          3.8766e-08, -6.7279e-06],
+        ...,
+        [ 7.8559e-05,  4.2140e-05,  2.6494e-05,  ...,  5.8383e-05,
+          1.6845e-07,  9.5461e-07],
+        [ 4.3921e-06,  3.3490e-06,  1.5730e-06,  ...,  4.0196e-06,
+          1.1554e-08, -4.5728e-07],
+        [-1.1200e-04, -4.2319e-05, -3.0875e-05,  ..., -8.6427e-05,
+          1.7369e-07,  3.3434e-07]], device='cuda:0')
+Epoch 88, bias, value: tensor([ 0.0300, -0.0135, -0.0102,  0.0172, -0.0037, -0.0136, -0.0036,  0.0118,
+        -0.0243,  0.0149], device='cuda:0'), grad: tensor([ 8.9705e-06,  2.9150e-06,  1.0533e-06, -2.5958e-05,  1.4745e-05,
+         1.4417e-05,  6.3851e-06,  1.6940e-04,  1.3612e-05, -2.0516e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 87, time 218.56, cls_loss 0.0034 cls_loss_mapping 0.0126 cls_loss_causal 0.5941 re_mapping 0.0074 re_causal 0.0226 /// teacc 99.06 lr 0.00010000
+Epoch 89, weight, value: tensor([[ 0.0080, -0.0332,  0.0147,  ..., -0.0692, -0.0534, -0.0325],
+        [-0.0624,  0.0328, -0.0340,  ..., -0.0552, -0.0241, -0.0956],
+        [-0.0488, -0.0610, -0.0671,  ..., -0.0734, -0.0310,  0.0863],
+        ...,
+        [ 0.0546, -0.0013, -0.0452,  ...,  0.0475, -0.0272, -0.0251],
+        [ 0.0745,  0.0488,  0.0232,  ..., -0.0472, -0.0606,  0.0477],
+        [ 0.0402, -0.0050,  0.0336,  ...,  0.0350, -0.0507,  0.0223]],
+       device='cuda:0'), grad: tensor([[-1.5032e-06,  1.9725e-06,  6.5984e-07,  ..., -5.6624e-07,
+          1.1744e-06,  2.8443e-06],
+        [-5.5134e-06, -4.6492e-05,  8.6054e-07,  ..., -6.8136e-06,
+          5.2992e-07,  1.2830e-05],
+        [ 3.9265e-06,  5.2378e-06,  1.0226e-06,  ...,  3.3714e-06,
+          4.5635e-07, -2.3261e-05],
+        ...,
+        [-5.3644e-06,  1.7285e-05,  8.0699e-07,  ..., -8.2999e-06,
+          1.1902e-06,  5.1223e-06],
+        [-9.5963e-06,  1.0133e-05, -9.2611e-06,  ...,  5.2415e-06,
+          6.1002e-07, -7.8678e-06],
+        [-2.6356e-06,  9.7975e-06, -4.1327e-07,  ..., -2.9102e-05,
+         -1.4096e-05, -8.4862e-06]], device='cuda:0')
+Epoch 89, bias, value: tensor([ 0.0288, -0.0134, -0.0118,  0.0186, -0.0037, -0.0138, -0.0034,  0.0118,
+        -0.0244,  0.0154], device='cuda:0'), grad: tensor([ 2.6971e-06, -4.6998e-05, -6.5744e-05,  1.4966e-06,  4.6164e-05,
+         1.6287e-05,  6.2361e-06,  3.2783e-05,  1.4402e-05, -7.4729e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 88, time 218.68, cls_loss 0.0025 cls_loss_mapping 0.0085 cls_loss_causal 0.6037 re_mapping 0.0075 re_causal 0.0230 /// teacc 98.99 lr 0.00010000
+Epoch 90, weight, value: tensor([[ 0.0083, -0.0336,  0.0148,  ..., -0.0694, -0.0550, -0.0333],
+        [-0.0630,  0.0332, -0.0343,  ..., -0.0559, -0.0252, -0.0970],
+        [-0.0491, -0.0616, -0.0673,  ..., -0.0741, -0.0312,  0.0871],
+        ...,
+        [ 0.0552, -0.0014, -0.0455,  ...,  0.0482, -0.0276, -0.0256],
+        [ 0.0750,  0.0490,  0.0236,  ..., -0.0476, -0.0611,  0.0480],
+        [ 0.0404, -0.0048,  0.0341,  ...,  0.0351, -0.0508,  0.0223]],
+       device='cuda:0'), grad: tensor([[ 1.3644e-07,  1.9055e-06,  9.4250e-07,  ...,  6.4448e-07,
+          3.8408e-06,  5.4128e-06],
+        [ 7.8650e-07,  1.1940e-06,  1.1306e-06,  ...,  4.6715e-06,
+          3.7830e-06,  5.4501e-06],
+        [-2.2538e-06, -2.7660e-06, -2.7996e-06,  ...,  6.6124e-06,
+          6.1803e-06, -4.2915e-05],
+        ...,
+        [ 1.1729e-07,  3.6303e-06,  1.4435e-06,  ...,  3.5837e-06,
+          3.1795e-06,  4.0494e-06],
+        [-6.0946e-06, -1.4849e-05, -9.4622e-06,  ...,  5.6857e-07,
+          5.1269e-07, -1.6481e-05],
+        [ 2.4401e-06,  8.4862e-06,  4.6752e-06,  ...,  1.9059e-05,
+          1.4775e-05,  4.7535e-05]], device='cuda:0')
+Epoch 90, bias, value: tensor([ 0.0286, -0.0136, -0.0117,  0.0185, -0.0040, -0.0137, -0.0032,  0.0122,
+        -0.0244,  0.0154], device='cuda:0'), grad: tensor([ 1.1690e-05,  1.1787e-05, -8.0407e-05,  6.3963e-06, -2.9340e-05,
+        -4.0047e-06, -5.1744e-06,  1.4104e-05, -3.5822e-05,  1.1063e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 89, time 218.95, cls_loss 0.0028 cls_loss_mapping 0.0092 cls_loss_causal 0.6066 re_mapping 0.0071 re_causal 0.0220 /// teacc 99.05 lr 0.00010000
+Epoch 91, weight, value: tensor([[ 0.0087, -0.0339,  0.0149,  ..., -0.0697, -0.0557, -0.0339],
+        [-0.0634,  0.0332, -0.0347,  ..., -0.0566, -0.0260, -0.0977],
+        [-0.0500, -0.0617, -0.0676,  ..., -0.0754, -0.0318,  0.0876],
+        ...,
+        [ 0.0556, -0.0019, -0.0462,  ...,  0.0487, -0.0283, -0.0259],
+        [ 0.0755,  0.0497,  0.0240,  ..., -0.0479, -0.0617,  0.0487],
+        [ 0.0406, -0.0047,  0.0345,  ...,  0.0353, -0.0512,  0.0220]],
+       device='cuda:0'), grad: tensor([[-1.0341e-05,  5.3272e-06, -1.0490e-05,  ...,  4.2506e-06,
+          5.3197e-06,  7.7784e-06],
+        [ 1.8450e-06, -4.5747e-05,  4.3027e-06,  ..., -3.2224e-06,
+          4.7795e-06,  1.7151e-05],
+        [ 5.6177e-06,  2.9787e-05,  5.6960e-06,  ...,  1.2316e-05,
+          8.7470e-06, -4.1604e-05],
+        ...,
+        [-9.7007e-06,  6.1870e-05,  8.0094e-06,  ...,  2.2739e-05,
+          2.3142e-05,  3.4362e-05],
+        [-1.1146e-05,  7.4267e-05,  7.2382e-06,  ...,  1.0371e-05,
+          9.3281e-06,  4.4256e-06],
+        [ 5.8971e-06,  6.6310e-06, -3.3956e-06,  ..., -8.3447e-06,
+         -2.3711e-06,  1.1869e-05]], device='cuda:0')
+Epoch 91, bias, value: tensor([ 0.0288, -0.0138, -0.0118,  0.0184, -0.0039, -0.0137, -0.0031,  0.0124,
+        -0.0242,  0.0152], device='cuda:0'), grad: tensor([ 1.9874e-06, -2.2638e-04,  3.1501e-05, -2.0468e-04, -1.1331e-04,
+         7.2896e-05,  3.6925e-05,  1.8859e-04,  1.4806e-04,  6.4731e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 90, time 218.27, cls_loss 0.0028 cls_loss_mapping 0.0099 cls_loss_causal 0.5550 re_mapping 0.0073 re_causal 0.0220 /// teacc 98.95 lr 0.00010000
+Epoch 92, weight, value: tensor([[ 0.0088, -0.0344,  0.0151,  ..., -0.0699, -0.0566, -0.0345],
+        [-0.0638,  0.0334, -0.0352,  ..., -0.0568, -0.0268, -0.0985],
+        [-0.0507, -0.0622, -0.0679,  ..., -0.0764, -0.0321,  0.0882],
+        ...,
+        [ 0.0559, -0.0024, -0.0468,  ...,  0.0499, -0.0285, -0.0261],
+        [ 0.0761,  0.0502,  0.0243,  ..., -0.0485, -0.0621,  0.0491],
+        [ 0.0410, -0.0042,  0.0353,  ...,  0.0356, -0.0515,  0.0219]],
+       device='cuda:0'), grad: tensor([[-1.1213e-06,  9.0711e-07, -6.8126e-07,  ...,  8.8429e-07,
+          5.5321e-07,  2.5481e-06],
+        [ 1.4445e-06, -4.9695e-06,  9.2061e-07,  ...,  1.8775e-06,
+          1.0775e-06,  3.3472e-06],
+        [ 7.4022e-06,  4.8988e-06,  4.2692e-06,  ...,  1.2238e-06,
+          5.4203e-07, -1.3590e-05],
+        ...,
+        [ 3.5390e-08,  1.6112e-06,  5.4436e-07,  ...,  1.7602e-07,
+          8.4471e-07,  3.2075e-06],
+        [-2.3112e-05, -1.0453e-05, -1.2532e-05,  ...,  5.9092e-07,
+          3.8650e-07, -6.9663e-06],
+        [ 5.9642e-06,  7.7933e-06,  3.0231e-06,  ...,  4.3750e-05,
+          2.6032e-05,  2.9862e-05]], device='cuda:0')
+Epoch 92, bias, value: tensor([ 0.0288, -0.0141, -0.0116,  0.0185, -0.0048, -0.0139, -0.0027,  0.0128,
+        -0.0242,  0.0155], device='cuda:0'), grad: tensor([ 3.9265e-06, -8.3968e-06, -5.5395e-06,  2.9013e-05, -5.8621e-05,
+        -4.4584e-05,  2.0429e-05,  1.0498e-05, -2.3350e-05,  7.6532e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 91, time 218.28, cls_loss 0.0024 cls_loss_mapping 0.0069 cls_loss_causal 0.5765 re_mapping 0.0071 re_causal 0.0213 /// teacc 99.03 lr 0.00010000
+Epoch 93, weight, value: tensor([[ 0.0090, -0.0346,  0.0153,  ..., -0.0703, -0.0578, -0.0353],
+        [-0.0645,  0.0334, -0.0355,  ..., -0.0572, -0.0276, -0.0992],
+        [-0.0514, -0.0625, -0.0679,  ..., -0.0785, -0.0326,  0.0887],
+        ...,
+        [ 0.0565, -0.0024, -0.0472,  ...,  0.0502, -0.0300, -0.0265],
+        [ 0.0766,  0.0504,  0.0246,  ..., -0.0489, -0.0625,  0.0494],
+        [ 0.0412, -0.0042,  0.0357,  ...,  0.0358, -0.0518,  0.0218]],
+       device='cuda:0'), grad: tensor([[-1.1832e-05,  1.1154e-05, -6.3069e-06,  ...,  2.6673e-06,
+          3.1060e-07,  2.5332e-06],
+        [ 4.8608e-05,  1.1049e-05,  3.3788e-06,  ...,  6.6236e-06,
+          1.2284e-06,  1.6272e-05],
+        [ 2.1413e-05,  2.6375e-05,  5.5693e-06,  ...,  2.3529e-05,
+          5.5917e-06, -1.1101e-05],
+        ...,
+        [ 6.0685e-06,  2.0850e-04,  1.8001e-05,  ..., -8.7678e-05,
+         -3.1412e-05,  1.1884e-05],
+        [-1.7834e-04,  2.0728e-05, -1.2241e-05,  ...,  6.0312e-06,
+          5.1223e-07, -5.4032e-05],
+        [ 2.3276e-05,  1.2189e-05,  7.2047e-06,  ...,  3.6538e-05,
+          7.6815e-06,  4.9174e-06]], device='cuda:0')
+Epoch 93, bias, value: tensor([ 0.0287, -0.0146, -0.0118,  0.0184, -0.0045, -0.0137, -0.0026,  0.0134,
+        -0.0243,  0.0154], device='cuda:0'), grad: tensor([ 1.2815e-06,  1.4806e-04,  1.0300e-04, -9.2936e-04,  1.0800e-04,
+         1.6201e-04,  4.2766e-05,  5.8460e-04, -3.2425e-04,  1.0329e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 92, time 218.16, cls_loss 0.0029 cls_loss_mapping 0.0081 cls_loss_causal 0.6082 re_mapping 0.0067 re_causal 0.0213 /// teacc 99.00 lr 0.00010000
+Epoch 94, weight, value: tensor([[ 0.0091, -0.0352,  0.0154,  ..., -0.0706, -0.0584, -0.0360],
+        [-0.0648,  0.0335, -0.0358,  ..., -0.0574, -0.0283, -0.0998],
+        [-0.0517, -0.0629, -0.0685,  ..., -0.0792, -0.0330,  0.0892],
+        ...,
+        [ 0.0564, -0.0030, -0.0481,  ...,  0.0502, -0.0309, -0.0272],
+        [ 0.0777,  0.0512,  0.0255,  ..., -0.0491, -0.0627,  0.0504],
+        [ 0.0414, -0.0043,  0.0360,  ...,  0.0358, -0.0524,  0.0214]],
+       device='cuda:0'), grad: tensor([[ 1.4184e-06,  7.7933e-06,  1.1601e-05,  ...,  2.9057e-06,
+          3.4481e-05,  3.1263e-05],
+        [ 7.5698e-05,  1.7047e-05,  7.7859e-06,  ...,  5.2541e-05,
+          1.7956e-05,  1.8418e-05],
+        [ 9.9465e-06,  6.5714e-06,  5.5172e-06,  ...,  8.5086e-06,
+          1.3083e-05,  3.5693e-07],
+        ...,
+        [-1.8299e-04, -5.8055e-05,  1.8589e-06,  ..., -1.5378e-04,
+          2.7865e-06,  5.3495e-06],
+        [ 3.7402e-06,  7.0512e-05,  1.1963e-04,  ...,  7.8231e-06,
+          2.8253e-04,  2.5892e-04],
+        [ 6.5386e-05,  2.1726e-05, -7.8604e-06,  ...,  4.6343e-05,
+         -6.1141e-07,  6.4773e-07]], device='cuda:0')
+Epoch 94, bias, value: tensor([ 0.0287, -0.0146, -0.0115,  0.0181, -0.0042, -0.0131, -0.0031,  0.0126,
+        -0.0234,  0.0149], device='cuda:0'), grad: tensor([ 1.1081e-04,  2.1207e-04,  3.4094e-05,  1.2034e-04,  1.3030e-04,
+         3.3617e-04, -1.5860e-03, -4.2558e-04,  9.2793e-04,  1.3971e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 93, time 218.18, cls_loss 0.0023 cls_loss_mapping 0.0069 cls_loss_causal 0.5834 re_mapping 0.0070 re_causal 0.0216 /// teacc 99.03 lr 0.00010000
+Epoch 95, weight, value: tensor([[ 0.0096, -0.0356,  0.0156,  ..., -0.0708, -0.0589, -0.0366],
+        [-0.0649,  0.0341, -0.0360,  ..., -0.0576, -0.0286, -0.1002],
+        [-0.0519, -0.0632, -0.0686,  ..., -0.0801, -0.0337,  0.0899],
+        ...,
+        [ 0.0566, -0.0033, -0.0490,  ...,  0.0504, -0.0314, -0.0276],
+        [ 0.0779,  0.0513,  0.0256,  ..., -0.0496, -0.0632,  0.0506],
+        [ 0.0418, -0.0041,  0.0364,  ...,  0.0359, -0.0528,  0.0212]],
+       device='cuda:0'), grad: tensor([[ 2.3022e-05,  1.1111e-06, -3.5332e-08,  ...,  2.1249e-05,
+          6.1886e-07,  7.0035e-07],
+        [ 1.1325e-05, -1.3132e-06,  1.0263e-06,  ...,  1.2197e-05,
+          2.1569e-06,  2.3395e-06],
+        [ 3.4451e-05,  3.7756e-06,  6.2957e-07,  ...,  4.0352e-05,
+          5.1269e-07,  7.0408e-07],
+        ...,
+        [-1.8764e-04, -7.7710e-06,  8.4192e-07,  ..., -1.8108e-04,
+          1.4054e-06, -2.1197e-06],
+        [-1.1204e-06, -9.7454e-06, -8.9258e-06,  ...,  1.0282e-05,
+          1.1548e-06, -5.7034e-06],
+        [ 5.0664e-05,  9.2089e-06,  6.6217e-07,  ...,  5.8025e-05,
+          1.0103e-05,  1.1146e-05]], device='cuda:0')
+Epoch 95, bias, value: tensor([ 0.0288, -0.0144, -0.0110,  0.0181, -0.0042, -0.0134, -0.0030,  0.0126,
+        -0.0237,  0.0149], device='cuda:0'), grad: tensor([ 1.2577e-04,  4.1395e-05,  1.3471e-04,  1.9157e-04,  5.4426e-06,
+        -1.9693e-04,  3.8773e-05, -5.1308e-04,  1.7062e-05,  1.5533e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 94, time 218.43, cls_loss 0.0028 cls_loss_mapping 0.0080 cls_loss_causal 0.5711 re_mapping 0.0070 re_causal 0.0206 /// teacc 98.97 lr 0.00010000
+Epoch 96, weight, value: tensor([[ 0.0100, -0.0360,  0.0157,  ..., -0.0711, -0.0604, -0.0376],
+        [-0.0651,  0.0345, -0.0364,  ..., -0.0579, -0.0292, -0.1007],
+        [-0.0520, -0.0636, -0.0689,  ..., -0.0806, -0.0343,  0.0907],
+        ...,
+        [ 0.0568, -0.0040, -0.0498,  ...,  0.0507, -0.0320, -0.0284],
+        [ 0.0790,  0.0524,  0.0267,  ..., -0.0508, -0.0642,  0.0510],
+        [ 0.0417, -0.0043,  0.0360,  ...,  0.0366, -0.0528,  0.0210]],
+       device='cuda:0'), grad: tensor([[ 3.9395e-07,  6.6916e-07,  1.0254e-06,  ...,  7.5810e-07,
+          4.3586e-06,  6.6012e-06],
+        [ 2.4419e-06,  5.3551e-07,  4.5821e-07,  ...,  5.1819e-06,
+          2.2501e-06,  8.7097e-06],
+        [-2.0210e-06,  1.4110e-06, -1.2042e-06,  ...,  1.8291e-06,
+          1.2834e-06, -2.1994e-05],
+        ...,
+        [-2.3589e-05, -9.0227e-06,  5.7369e-07,  ..., -3.4362e-05,
+          6.5984e-07,  2.6356e-06],
+        [ 3.0883e-06,  3.0734e-06,  2.2966e-06,  ...,  2.6003e-06,
+          1.4137e-06,  8.4341e-06],
+        [ 1.5073e-05,  6.7316e-06, -1.4734e-06,  ...,  2.1428e-05,
+          3.6974e-07,  5.9791e-07]], device='cuda:0')
+Epoch 96, bias, value: tensor([ 0.0290, -0.0144, -0.0107,  0.0179, -0.0046, -0.0134, -0.0021,  0.0122,
+        -0.0232,  0.0144], device='cuda:0'), grad: tensor([ 1.8343e-05,  2.6390e-05, -5.5552e-05,  8.9174e-08, -7.5949e-07,
+        -1.7956e-05, -2.8145e-06, -4.1485e-05,  3.5286e-05,  3.8385e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 95, time 218.23, cls_loss 0.0027 cls_loss_mapping 0.0090 cls_loss_causal 0.5902 re_mapping 0.0070 re_causal 0.0208 /// teacc 99.11 lr 0.00010000
+Epoch 97, weight, value: tensor([[ 0.0102, -0.0366,  0.0158,  ..., -0.0715, -0.0623, -0.0386],
+        [-0.0653,  0.0350, -0.0365,  ..., -0.0583, -0.0303, -0.1013],
+        [-0.0524, -0.0642, -0.0694,  ..., -0.0811, -0.0347,  0.0913],
+        ...,
+        [ 0.0569, -0.0044, -0.0505,  ...,  0.0508, -0.0329, -0.0293],
+        [ 0.0795,  0.0528,  0.0271,  ..., -0.0515, -0.0653,  0.0516],
+        [ 0.0423, -0.0042,  0.0365,  ...,  0.0367, -0.0530,  0.0209]],
+       device='cuda:0'), grad: tensor([[-5.2571e-05, -5.7742e-06, -2.1264e-05,  ...,  1.1437e-06,
+          3.6275e-07,  3.6508e-07],
+        [ 4.6417e-06, -7.8306e-06,  1.9558e-06,  ...,  4.2133e-06,
+          6.9570e-07,  1.2135e-06],
+        [ 3.3170e-05,  1.1191e-05,  8.7544e-06,  ...,  2.3007e-05,
+          6.6590e-07,  5.5227e-07],
+        ...,
+        [-3.1590e-05,  5.4017e-06,  3.2708e-06,  ..., -5.1945e-05,
+          6.6590e-07,  1.0617e-06],
+        [ 1.6382e-06,  1.2573e-06,  4.5693e-08,  ...,  2.9616e-06,
+          4.4634e-07, -1.5255e-06],
+        [ 1.2003e-05,  3.4273e-06,  3.1777e-06,  ...,  2.0579e-05,
+          6.8918e-06,  7.2867e-06]], device='cuda:0')
+Epoch 97, bias, value: tensor([ 0.0284, -0.0143, -0.0106,  0.0176, -0.0045, -0.0131, -0.0014,  0.0118,
+        -0.0232,  0.0144], device='cuda:0'), grad: tensor([-1.9145e-04, -1.1551e-04,  1.7726e-04,  1.5177e-05,  9.7007e-06,
+         5.8949e-05,  1.8075e-05, -5.1320e-05,  1.3627e-05,  6.5088e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 96, time 218.08, cls_loss 0.0022 cls_loss_mapping 0.0065 cls_loss_causal 0.5788 re_mapping 0.0070 re_causal 0.0211 /// teacc 99.05 lr 0.00010000
+Epoch 98, weight, value: tensor([[ 0.0109, -0.0367,  0.0160,  ..., -0.0717, -0.0627, -0.0391],
+        [-0.0658,  0.0350, -0.0372,  ..., -0.0588, -0.0310, -0.1021],
+        [-0.0527, -0.0646, -0.0697,  ..., -0.0819, -0.0351,  0.0918],
+        ...,
+        [ 0.0573, -0.0046, -0.0508,  ...,  0.0512, -0.0335, -0.0298],
+        [ 0.0796,  0.0529,  0.0274,  ..., -0.0522, -0.0657,  0.0520],
+        [ 0.0425, -0.0041,  0.0368,  ...,  0.0367, -0.0535,  0.0207]],
+       device='cuda:0'), grad: tensor([[ 1.2768e-06,  4.5709e-06, -1.1399e-05,  ...,  1.7341e-06,
+          4.5891e-07, -3.9302e-06],
+        [-1.4365e-05, -3.5822e-05,  6.6450e-07,  ...,  8.4564e-06,
+          1.1809e-06,  7.3574e-06],
+        [ 2.2203e-06,  4.9360e-06,  3.6974e-06,  ...,  1.4855e-06,
+          4.5588e-07, -1.1446e-06],
+        ...,
+        [ 4.1500e-06,  8.3223e-06,  1.6224e-06,  ...,  5.9307e-06,
+          2.1625e-06,  3.3546e-06],
+        [ 2.0370e-05,  4.7594e-05,  3.1274e-06,  ...,  6.3032e-06,
+          7.2364e-07,  1.1558e-06],
+        [-4.0025e-05, -8.1658e-05, -7.0706e-06,  ..., -3.2157e-05,
+          2.1569e-06, -1.4842e-05]], device='cuda:0')
+Epoch 98, bias, value: tensor([ 0.0290, -0.0145, -0.0107,  0.0176, -0.0042, -0.0131, -0.0015,  0.0121,
+        -0.0233,  0.0140], device='cuda:0'), grad: tensor([-1.1146e-05, -1.9863e-05,  1.1571e-05,  3.1084e-05,  2.2560e-05,
+         7.3195e-05,  7.6219e-06,  2.6420e-05,  8.4817e-05, -2.2638e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 97----------------------------------------------------
+epoch 97, time 218.64, cls_loss 0.0024 cls_loss_mapping 0.0077 cls_loss_causal 0.5212 re_mapping 0.0068 re_causal 0.0197 /// teacc 99.14 lr 0.00010000
+Epoch 99, weight, value: tensor([[ 0.0085, -0.0372,  0.0143,  ..., -0.0744, -0.0633, -0.0396],
+        [-0.0660,  0.0350, -0.0375,  ..., -0.0595, -0.0327, -0.1034],
+        [-0.0534, -0.0650, -0.0700,  ..., -0.0818, -0.0352,  0.0930],
+        ...,
+        [ 0.0578, -0.0048, -0.0513,  ...,  0.0514, -0.0340, -0.0310],
+        [ 0.0797,  0.0529,  0.0275,  ..., -0.0527, -0.0660,  0.0521],
+        [ 0.0449, -0.0039,  0.0386,  ...,  0.0379, -0.0541,  0.0205]],
+       device='cuda:0'), grad: tensor([[-2.3469e-07,  4.9919e-07, -1.0780e-07,  ...,  1.0841e-06,
+          3.6024e-06,  4.0904e-06],
+        [-1.7826e-06, -6.3777e-06,  5.3551e-07,  ...,  4.9546e-06,
+          4.8541e-06,  4.6119e-06],
+        [ 1.5972e-06,  1.9148e-06,  6.5705e-07,  ...,  4.9807e-06,
+          5.2452e-05,  5.9277e-05],
+        ...,
+        [-2.9318e-06,  4.6119e-06,  8.7917e-07,  ...,  9.5069e-06,
+          9.2983e-06,  7.8678e-06],
+        [-2.6077e-07,  3.2950e-06, -5.2946e-07,  ...,  5.3346e-06,
+          4.3437e-06,  2.7008e-06],
+        [ 1.1474e-06,  2.5228e-05,  1.2860e-05,  ...,  7.9572e-05,
+          5.0873e-05,  4.3005e-05]], device='cuda:0')
+Epoch 99, bias, value: tensor([ 0.0269, -0.0150, -0.0102,  0.0177, -0.0037, -0.0133, -0.0016,  0.0120,
+        -0.0236,  0.0154], device='cuda:0'), grad: tensor([ 7.2010e-06, -1.5035e-05,  9.5665e-05,  2.6394e-06, -1.4496e-04,
+         1.0580e-05, -9.6679e-05,  1.2018e-05,  1.5885e-05,  1.1283e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 98, time 218.32, cls_loss 0.0024 cls_loss_mapping 0.0072 cls_loss_causal 0.5939 re_mapping 0.0066 re_causal 0.0210 /// teacc 99.03 lr 0.00010000
+Epoch 100, weight, value: tensor([[ 0.0088, -0.0377,  0.0144,  ..., -0.0744, -0.0643, -0.0404],
+        [-0.0663,  0.0352, -0.0379,  ..., -0.0603, -0.0339, -0.1042],
+        [-0.0540, -0.0656, -0.0707,  ..., -0.0824, -0.0357,  0.0935],
+        ...,
+        [ 0.0582, -0.0053, -0.0521,  ...,  0.0520, -0.0344, -0.0313],
+        [ 0.0802,  0.0531,  0.0278,  ..., -0.0535, -0.0667,  0.0523],
+        [ 0.0449, -0.0039,  0.0389,  ...,  0.0378, -0.0544,  0.0204]],
+       device='cuda:0'), grad: tensor([[-3.3863e-06,  7.4096e-06,  1.8384e-06,  ...,  1.3374e-06,
+          2.2482e-06,  1.0274e-05],
+        [ 1.0706e-05,  2.0891e-05,  1.6451e-05,  ...,  3.3341e-06,
+          7.5623e-06,  2.3186e-05],
+        [ 2.2680e-05,  2.6554e-05,  2.8089e-05,  ...,  1.6257e-05,
+          2.2110e-06,  6.6817e-05],
+        ...,
+        [-1.3463e-05, -2.7455e-06,  2.3711e-06,  ..., -3.8892e-05,
+         -6.4960e-07, -3.2894e-06],
+        [-2.3055e-04, -5.2309e-04, -3.7313e-04,  ...,  4.6715e-06,
+         -1.3340e-04, -5.2977e-04],
+        [ 9.2611e-06,  1.8388e-05,  1.0885e-05,  ...,  3.3021e-05,
+          1.7479e-05,  3.4273e-05]], device='cuda:0')
+Epoch 100, bias, value: tensor([ 0.0271, -0.0153, -0.0104,  0.0184, -0.0037, -0.0135, -0.0012,  0.0121,
+        -0.0239,  0.0151], device='cuda:0'), grad: tensor([ 1.1608e-05,  6.1005e-05,  1.8823e-04,  2.7254e-05, -3.2336e-05,
+         4.3392e-05,  1.1110e-03, -4.0323e-05, -1.4734e-03,  1.0437e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 99, time 218.28, cls_loss 0.0022 cls_loss_mapping 0.0059 cls_loss_causal 0.5575 re_mapping 0.0068 re_causal 0.0203 /// teacc 98.98 lr 0.00010000
+Epoch 101, weight, value: tensor([[ 0.0089, -0.0380,  0.0145,  ..., -0.0744, -0.0654, -0.0410],
+        [-0.0667,  0.0353, -0.0383,  ..., -0.0607, -0.0347, -0.1049],
+        [-0.0541, -0.0661, -0.0709,  ..., -0.0828, -0.0364,  0.0945],
+        ...,
+        [ 0.0586, -0.0054, -0.0524,  ...,  0.0526, -0.0356, -0.0320],
+        [ 0.0808,  0.0538,  0.0284,  ..., -0.0539, -0.0673,  0.0528],
+        [ 0.0449, -0.0038,  0.0392,  ...,  0.0377, -0.0549,  0.0200]],
+       device='cuda:0'), grad: tensor([[-7.3910e-06,  2.6952e-06, -1.9781e-06,  ...,  3.1758e-07,
+          9.3738e-07,  3.9674e-06],
+        [ 1.2629e-05,  1.3076e-05,  1.0125e-05,  ...,  7.4320e-07,
+          2.8731e-07,  2.3082e-05],
+        [-7.3621e-07,  1.6000e-06,  1.5832e-06,  ..., -8.2701e-07,
+          1.0403e-06, -2.9594e-05],
+        ...,
+        [ 1.3988e-06,  1.4501e-06,  1.3774e-06,  ...,  1.1856e-06,
+          3.2131e-07,  2.3283e-06],
+        [-6.9380e-05, -8.4996e-05, -5.9485e-05,  ...,  1.6047e-06,
+          5.8487e-07, -8.1420e-05],
+        [-8.8708e-07, -1.6736e-06, -1.9008e-06,  ..., -7.5698e-06,
+         -4.5681e-07,  4.2804e-06]], device='cuda:0')
+Epoch 101, bias, value: tensor([ 0.0272, -0.0152, -0.0101,  0.0176, -0.0036, -0.0133, -0.0010,  0.0123,
+        -0.0238,  0.0147], device='cuda:0'), grad: tensor([-2.8446e-05,  6.3419e-05, -5.9724e-05,  2.4930e-05,  1.3888e-05,
+         2.5243e-05,  1.7667e-04,  7.9349e-06, -2.2995e-04,  5.5768e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 100, time 218.76, cls_loss 0.0022 cls_loss_mapping 0.0073 cls_loss_causal 0.5466 re_mapping 0.0062 re_causal 0.0194 /// teacc 99.03 lr 0.00010000
+Epoch 102, weight, value: tensor([[ 0.0090, -0.0383,  0.0146,  ..., -0.0744, -0.0659, -0.0415],
+        [-0.0669,  0.0359, -0.0388,  ..., -0.0610, -0.0356, -0.1043],
+        [-0.0548, -0.0668, -0.0712,  ..., -0.0840, -0.0373,  0.0946],
+        ...,
+        [ 0.0591, -0.0057, -0.0528,  ...,  0.0533, -0.0361, -0.0322],
+        [ 0.0812,  0.0539,  0.0288,  ..., -0.0547, -0.0675,  0.0530],
+        [ 0.0451, -0.0035,  0.0396,  ...,  0.0380, -0.0549,  0.0202]],
+       device='cuda:0'), grad: tensor([[ 1.6473e-07,  3.7672e-07,  1.0245e-08,  ...,  2.9244e-07,
+          5.3830e-07,  8.2934e-07],
+        [ 4.2305e-07, -7.3649e-06,  6.4494e-08,  ...,  7.4040e-07,
+          5.9046e-07, -1.5311e-06],
+        [-8.4424e-07,  3.5390e-06,  5.3318e-08,  ...,  1.4529e-06,
+          5.5227e-07, -3.1274e-06],
+        ...,
+        [-3.4645e-06,  6.9104e-07,  8.5915e-08,  ..., -4.7348e-06,
+          5.4110e-07,  1.2051e-06],
+        [ 9.7416e-07,  6.3516e-07, -1.4901e-07,  ...,  2.0918e-06,
+          1.1018e-06,  2.7139e-06],
+        [-3.3120e-08, -1.8813e-07, -6.0257e-07,  ...,  1.5404e-06,
+          1.5320e-06,  1.0096e-06]], device='cuda:0')
+Epoch 102, bias, value: tensor([ 0.0273, -0.0144, -0.0108,  0.0174, -0.0039, -0.0126, -0.0014,  0.0128,
+        -0.0241,  0.0147], device='cuda:0'), grad: tensor([ 2.4084e-06, -1.9535e-05,  1.0356e-06,  4.6343e-06, -1.6494e-06,
+         1.0528e-05, -7.5698e-06, -6.3404e-06,  1.2085e-05,  4.3400e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 101, time 218.48, cls_loss 0.0026 cls_loss_mapping 0.0092 cls_loss_causal 0.5611 re_mapping 0.0065 re_causal 0.0203 /// teacc 99.08 lr 0.00010000
+Epoch 103, weight, value: tensor([[ 0.0091, -0.0387,  0.0147,  ..., -0.0745, -0.0665, -0.0420],
+        [-0.0681,  0.0359, -0.0391,  ..., -0.0619, -0.0369, -0.1053],
+        [-0.0549, -0.0674, -0.0714,  ..., -0.0844, -0.0377,  0.0953],
+        ...,
+        [ 0.0580, -0.0061, -0.0550,  ...,  0.0529, -0.0370, -0.0327],
+        [ 0.0820,  0.0540,  0.0290,  ..., -0.0553, -0.0679,  0.0531],
+        [ 0.0463, -0.0035,  0.0406,  ...,  0.0384, -0.0553,  0.0200]],
+       device='cuda:0'), grad: tensor([[-1.7285e-05,  1.7732e-06, -3.0603e-06,  ..., -3.7206e-07,
+          4.9360e-06, -1.4680e-07],
+        [ 1.2837e-05, -4.6100e-07,  1.3607e-06,  ...,  1.7315e-05,
+          1.1716e-06,  2.2948e-06],
+        [ 1.3009e-05,  5.5842e-06,  5.9558e-07,  ...,  1.7196e-05,
+          2.8498e-06,  7.7812e-07],
+        ...,
+        [-5.8293e-05, -1.2562e-05,  6.9663e-07,  ..., -8.2493e-05,
+         -1.5251e-05, -1.5453e-05],
+        [ 1.3143e-05,  1.0282e-05,  3.3882e-06,  ...,  1.8165e-05,
+          3.9712e-06,  6.0312e-06],
+        [-2.9500e-07, -1.7196e-05, -9.9614e-06,  ..., -8.0541e-06,
+          2.3711e-06, -8.0913e-06]], device='cuda:0')
+Epoch 103, bias, value: tensor([ 0.0275, -0.0154, -0.0103,  0.0164, -0.0031, -0.0117, -0.0016,  0.0117,
+        -0.0241,  0.0153], device='cuda:0'), grad: tensor([-2.6941e-05,  2.3350e-05,  4.1515e-05, -1.3724e-05,  6.6280e-05,
+         5.3607e-06,  1.2308e-05, -1.5414e-04,  4.4197e-05,  1.8375e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 102, time 218.59, cls_loss 0.0020 cls_loss_mapping 0.0066 cls_loss_causal 0.5596 re_mapping 0.0066 re_causal 0.0196 /// teacc 99.07 lr 0.00010000
+Epoch 104, weight, value: tensor([[ 0.0094, -0.0391,  0.0148,  ..., -0.0745, -0.0670, -0.0424],
+        [-0.0681,  0.0364, -0.0394,  ..., -0.0622, -0.0378, -0.1058],
+        [-0.0550, -0.0679, -0.0716,  ..., -0.0847, -0.0380,  0.0957],
+        ...,
+        [ 0.0581, -0.0068, -0.0554,  ...,  0.0528, -0.0376, -0.0330],
+        [ 0.0825,  0.0544,  0.0293,  ..., -0.0557, -0.0681,  0.0535],
+        [ 0.0464, -0.0030,  0.0409,  ...,  0.0388, -0.0555,  0.0198]],
+       device='cuda:0'), grad: tensor([[ 4.8382e-07,  7.3761e-07,  2.5495e-07,  ...,  3.9339e-06,
+          9.8348e-06,  7.7412e-06],
+        [ 3.6880e-07, -1.6661e-06,  4.4960e-07,  ...,  6.7614e-06,
+          1.4231e-05,  1.2808e-05],
+        [-1.3842e-07,  1.1893e-06,  2.7660e-07,  ...,  1.4700e-05,
+          4.1187e-05,  2.3708e-05],
+        ...,
+        [ 4.2804e-06,  3.7346e-06,  1.0571e-06,  ...,  9.7603e-06,
+          1.1489e-05,  9.0972e-06],
+        [ 1.6853e-05,  1.2547e-05,  1.3262e-05,  ...,  2.3872e-05,
+          3.6687e-05,  3.8087e-05],
+        [-2.5988e-05, -1.5914e-05, -1.5855e-05,  ..., -1.3769e-05,
+          1.4186e-05, -1.9986e-06]], device='cuda:0')
+Epoch 104, bias, value: tensor([ 0.0278, -0.0152, -0.0103,  0.0165, -0.0032, -0.0119, -0.0018,  0.0114,
+        -0.0239,  0.0154], device='cuda:0'), grad: tensor([ 2.5377e-05,  3.1769e-05,  7.9215e-05,  1.4856e-05, -3.8767e-04,
+         1.4529e-05,  7.6413e-05,  4.0621e-05,  1.1683e-04, -1.2308e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 103, time 218.39, cls_loss 0.0022 cls_loss_mapping 0.0077 cls_loss_causal 0.5337 re_mapping 0.0065 re_causal 0.0193 /// teacc 98.91 lr 0.00010000
+Epoch 105, weight, value: tensor([[ 0.0095, -0.0397,  0.0148,  ..., -0.0746, -0.0675, -0.0428],
+        [-0.0687,  0.0360, -0.0398,  ..., -0.0629, -0.0388, -0.1068],
+        [-0.0551, -0.0684, -0.0717,  ..., -0.0851, -0.0386,  0.0963],
+        ...,
+        [ 0.0583, -0.0068, -0.0556,  ...,  0.0533, -0.0380, -0.0335],
+        [ 0.0832,  0.0548,  0.0294,  ..., -0.0563, -0.0686,  0.0539],
+        [ 0.0466, -0.0024,  0.0412,  ...,  0.0383, -0.0569,  0.0191]],
+       device='cuda:0'), grad: tensor([[ 2.6170e-06,  1.8058e-06, -6.3842e-07,  ...,  5.9716e-06,
+          1.3364e-06,  3.5502e-06],
+        [ 4.9360e-07,  2.0082e-07,  3.1944e-07,  ...,  5.3970e-07,
+          4.6543e-07,  7.6368e-07],
+        [ 4.2515e-07,  1.3048e-06,  5.2666e-07,  ...,  1.4277e-06,
+          6.4075e-07, -1.7323e-07],
+        ...,
+        [ 1.4417e-06,  1.1101e-06,  5.1828e-07,  ...,  2.1681e-06,
+          5.6531e-07,  1.6717e-06],
+        [-1.2629e-06, -1.1949e-06, -1.1390e-06,  ...,  7.1945e-07,
+          2.0266e-06,  6.6636e-07],
+        [-1.0751e-05, -4.4480e-06, -2.0619e-06,  ..., -1.7628e-05,
+         -1.8720e-06, -8.7693e-06]], device='cuda:0')
+Epoch 105, bias, value: tensor([ 0.0279, -0.0160, -0.0100,  0.0165, -0.0019, -0.0123, -0.0017,  0.0117,
+        -0.0239,  0.0149], device='cuda:0'), grad: tensor([ 5.2676e-06,  1.3905e-06,  1.0356e-06, -9.7230e-07,  1.0923e-05,
+         1.4780e-06, -7.4366e-07,  5.8785e-06,  2.3469e-06, -2.6554e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 104, time 218.24, cls_loss 0.0022 cls_loss_mapping 0.0086 cls_loss_causal 0.5645 re_mapping 0.0064 re_causal 0.0198 /// teacc 99.02 lr 0.00010000
+Epoch 106, weight, value: tensor([[ 0.0095, -0.0408,  0.0149,  ..., -0.0747, -0.0684, -0.0433],
+        [-0.0693,  0.0360, -0.0401,  ..., -0.0632, -0.0397, -0.1078],
+        [-0.0561, -0.0690, -0.0721,  ..., -0.0861, -0.0404,  0.0963],
+        ...,
+        [ 0.0584, -0.0078, -0.0569,  ...,  0.0533, -0.0381, -0.0336],
+        [ 0.0838,  0.0554,  0.0297,  ..., -0.0566, -0.0696,  0.0540],
+        [ 0.0471, -0.0017,  0.0418,  ...,  0.0388, -0.0571,  0.0189]],
+       device='cuda:0'), grad: tensor([[-1.8299e-04, -8.5458e-06, -4.6581e-05,  ...,  4.6566e-06,
+         -2.6417e-04, -2.2233e-05],
+        [ 1.3441e-05,  4.3362e-05,  4.6901e-06,  ...,  3.9995e-05,
+          1.9461e-05,  6.2324e-06],
+        [ 9.9316e-06,  1.1802e-05,  3.5726e-06,  ...,  9.0003e-06,
+          8.2925e-06, -4.3124e-05],
+        ...,
+        [-6.6496e-06,  1.5989e-05,  3.4217e-06,  ..., -1.7986e-05,
+          1.2830e-05,  5.4277e-06],
+        [-2.3395e-05, -1.8850e-05, -9.8348e-06,  ...,  6.2361e-06,
+          1.7315e-05, -1.7628e-05],
+        [ 4.2737e-05,  4.6045e-05,  9.4920e-06,  ...,  9.5129e-05,
+          1.3411e-04,  9.5487e-05]], device='cuda:0')
+Epoch 106, bias, value: tensor([ 0.0278, -0.0166, -0.0105,  0.0165, -0.0023, -0.0121, -0.0007,  0.0117,
+        -0.0240,  0.0151], device='cuda:0'), grad: tensor([-7.6008e-04,  1.4579e-04, -9.2030e-05,  3.0056e-05, -3.8052e-04,
+         1.8430e-04,  4.7469e-04,  3.6955e-05, -2.5332e-06,  3.6216e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 105, time 218.51, cls_loss 0.0020 cls_loss_mapping 0.0082 cls_loss_causal 0.5396 re_mapping 0.0065 re_causal 0.0194 /// teacc 98.99 lr 0.00010000
+Epoch 107, weight, value: tensor([[ 0.0095, -0.0413,  0.0150,  ..., -0.0749, -0.0685, -0.0440],
+        [-0.0697,  0.0362, -0.0404,  ..., -0.0639, -0.0409, -0.1084],
+        [-0.0562, -0.0696, -0.0722,  ..., -0.0868, -0.0407,  0.0973],
+        ...,
+        [ 0.0591, -0.0081, -0.0573,  ...,  0.0540, -0.0383, -0.0341],
+        [ 0.0839,  0.0554,  0.0298,  ..., -0.0573, -0.0703,  0.0538],
+        [ 0.0471, -0.0013,  0.0423,  ...,  0.0391, -0.0574,  0.0189]],
+       device='cuda:0'), grad: tensor([[-6.3926e-06,  1.0608e-06,  1.4040e-07,  ...,  1.6643e-06,
+          9.5135e-07, -1.3475e-08],
+        [ 6.8871e-07,  6.4075e-06,  4.2189e-07,  ...,  1.4015e-05,
+          9.8348e-06,  6.0350e-06],
+        [ 9.4064e-07,  1.0794e-06,  5.5833e-07,  ...,  1.6764e-06,
+         -5.2229e-06, -1.4268e-05],
+        ...,
+        [-1.5339e-06,  5.2713e-06,  3.0827e-07,  ...,  8.2701e-06,
+          7.4282e-06,  3.5055e-06],
+        [-2.8033e-06, -5.0757e-07, -3.7160e-06,  ...,  6.7353e-06,
+          3.9376e-06, -2.3432e-06],
+        [ 3.8254e-07,  8.7395e-06, -3.1851e-07,  ...,  1.7986e-05,
+          1.0490e-05,  2.1625e-06]], device='cuda:0')
+Epoch 107, bias, value: tensor([ 0.0277, -0.0163, -0.0106,  0.0165, -0.0025, -0.0121, -0.0007,  0.0123,
+        -0.0245,  0.0151], device='cuda:0'), grad: tensor([-1.0841e-05,  3.3617e-05, -3.6955e-05,  8.1435e-06, -8.7261e-05,
+         4.7311e-06,  3.5584e-05,  2.0429e-05,  1.6438e-06,  3.0845e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 106, time 218.32, cls_loss 0.0026 cls_loss_mapping 0.0075 cls_loss_causal 0.5765 re_mapping 0.0065 re_causal 0.0194 /// teacc 99.12 lr 0.00010000
+Epoch 108, weight, value: tensor([[ 0.0096, -0.0423,  0.0150,  ..., -0.0749, -0.0701, -0.0449],
+        [-0.0703,  0.0363, -0.0410,  ..., -0.0644, -0.0419, -0.1093],
+        [-0.0566, -0.0707, -0.0725,  ..., -0.0874, -0.0413,  0.0980],
+        ...,
+        [ 0.0596, -0.0085, -0.0575,  ...,  0.0544, -0.0389, -0.0347],
+        [ 0.0843,  0.0561,  0.0302,  ..., -0.0582, -0.0709,  0.0543],
+        [ 0.0475, -0.0004,  0.0430,  ...,  0.0398, -0.0571,  0.0192]],
+       device='cuda:0'), grad: tensor([[ 5.0478e-06,  1.2450e-05,  3.4943e-06,  ...,  9.0525e-06,
+          8.5589e-07,  6.5193e-07],
+        [ 2.6464e-05,  1.1170e-04,  5.3607e-06,  ...,  1.2350e-04,
+          1.8612e-05,  7.2382e-06],
+        [-2.1029e-06,  2.4721e-05,  7.6666e-06,  ...,  1.0222e-05,
+         -2.4699e-06, -3.8147e-05],
+        ...,
+        [-2.0415e-05,  7.7605e-05,  1.8865e-05,  ...,  2.7448e-05,
+          1.4894e-05,  2.1067e-06],
+        [ 4.0382e-06,  3.5524e-05,  1.1124e-05,  ...,  9.0078e-06,
+          1.7155e-06,  7.5698e-06],
+        [-8.9407e-06, -3.1646e-06,  2.2024e-05,  ..., -3.0100e-05,
+          7.1414e-06,  8.9733e-07]], device='cuda:0')
+Epoch 108, bias, value: tensor([ 0.0277, -0.0166, -0.0107,  0.0179, -0.0031, -0.0136, -0.0009,  0.0124,
+        -0.0245,  0.0157], device='cuda:0'), grad: tensor([ 4.3839e-05,  3.7932e-04, -1.2323e-05, -5.4169e-04, -2.0719e-04,
+         5.0634e-05,  1.0654e-05,  1.7798e-04,  1.1355e-04, -1.5453e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 107, time 218.23, cls_loss 0.0020 cls_loss_mapping 0.0081 cls_loss_causal 0.5245 re_mapping 0.0066 re_causal 0.0187 /// teacc 98.98 lr 0.00010000
+Epoch 109, weight, value: tensor([[ 0.0096, -0.0425,  0.0150,  ..., -0.0755, -0.0704, -0.0454],
+        [-0.0706,  0.0370, -0.0413,  ..., -0.0648, -0.0416, -0.1089],
+        [-0.0572, -0.0719, -0.0727,  ..., -0.0880, -0.0420,  0.0980],
+        ...,
+        [ 0.0605, -0.0084, -0.0577,  ...,  0.0553, -0.0401, -0.0351],
+        [ 0.0844,  0.0561,  0.0305,  ..., -0.0591, -0.0714,  0.0546],
+        [ 0.0475, -0.0003,  0.0433,  ...,  0.0397, -0.0577,  0.0189]],
+       device='cuda:0'), grad: tensor([[-4.9412e-05,  5.4277e-06,  7.1898e-07,  ...,  1.2275e-06,
+          2.8357e-05,  1.5974e-05],
+        [ 9.2853e-07, -4.7721e-06,  5.0664e-07,  ..., -1.3420e-06,
+          3.1460e-06,  3.9674e-06],
+        [ 2.2575e-06,  1.6382e-06,  4.3563e-07,  ...,  1.0133e-06,
+          1.9046e-06, -6.9797e-05],
+        ...,
+        [ 5.0142e-06,  2.7530e-06,  9.9000e-07,  ...,  6.3283e-07,
+          6.8080e-07,  3.2540e-06],
+        [ 2.4036e-05,  2.2575e-05,  1.4909e-05,  ...,  2.3633e-05,
+          1.1757e-05,  6.4135e-05],
+        [-3.2097e-05, -6.7055e-05, -4.1842e-05,  ..., -6.4969e-05,
+         -3.2902e-05, -2.9951e-05]], device='cuda:0')
+Epoch 109, bias, value: tensor([ 0.0277, -0.0156, -0.0114,  0.0177, -0.0028, -0.0134, -0.0010,  0.0130,
+        -0.0249,  0.0153], device='cuda:0'), grad: tensor([-1.7300e-05, -3.2838e-06, -1.0836e-04,  8.5831e-05,  1.7595e-04,
+         3.9279e-05, -1.6749e-04,  1.4558e-05,  1.6153e-04, -1.8084e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 108----------------------------------------------------
+epoch 108, time 219.30, cls_loss 0.0023 cls_loss_mapping 0.0071 cls_loss_causal 0.5543 re_mapping 0.0064 re_causal 0.0190 /// teacc 99.19 lr 0.00010000
+Epoch 110, weight, value: tensor([[ 0.0098, -0.0428,  0.0151,  ..., -0.0755, -0.0712, -0.0458],
+        [-0.0708,  0.0378, -0.0417,  ..., -0.0650, -0.0426, -0.1097],
+        [-0.0577, -0.0730, -0.0730,  ..., -0.0885, -0.0422,  0.0985],
+        ...,
+        [ 0.0608, -0.0089, -0.0579,  ...,  0.0562, -0.0403, -0.0356],
+        [ 0.0854,  0.0567,  0.0310,  ..., -0.0599, -0.0704,  0.0565],
+        [ 0.0475, -0.0002,  0.0436,  ...,  0.0395, -0.0582,  0.0185]],
+       device='cuda:0'), grad: tensor([[-3.4575e-07,  4.7265e-07,  2.2966e-06,  ...,  6.3516e-07,
+          2.1886e-06,  1.0394e-05],
+        [ 4.3795e-07, -3.4366e-06, -2.0862e-07,  ...,  1.0237e-05,
+          1.0610e-05,  6.6422e-06],
+        [ 2.0713e-06,  5.2666e-07, -1.0483e-05,  ...,  2.3954e-06,
+          1.5628e-06, -3.6865e-05],
+        ...,
+        [-5.9642e-06,  1.3355e-06,  3.1898e-07,  ..., -4.2990e-06,
+          1.3094e-06,  1.8086e-06],
+        [ 2.6682e-07,  1.2003e-05,  1.0446e-05,  ...,  8.5682e-06,
+          6.4112e-06,  2.2992e-05],
+        [ 1.6736e-06, -7.6219e-06, -6.5938e-06,  ..., -6.0163e-06,
+         -1.7202e-06, -4.1425e-06]], device='cuda:0')
+Epoch 110, bias, value: tensor([ 0.0280, -0.0150, -0.0117,  0.0175, -0.0031, -0.0133, -0.0021,  0.0134,
+        -0.0240,  0.0149], device='cuda:0'), grad: tensor([ 2.5257e-05,  6.0499e-06, -9.5904e-05,  2.3335e-05, -1.2659e-05,
+         8.5980e-06, -1.2577e-05, -9.7156e-06,  7.0512e-05, -2.7921e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 109, time 218.76, cls_loss 0.0021 cls_loss_mapping 0.0066 cls_loss_causal 0.5626 re_mapping 0.0063 re_causal 0.0188 /// teacc 99.01 lr 0.00010000
+Epoch 111, weight, value: tensor([[ 0.0098, -0.0432,  0.0151,  ..., -0.0757, -0.0721, -0.0465],
+        [-0.0705,  0.0391, -0.0419,  ..., -0.0647, -0.0440, -0.1113],
+        [-0.0582, -0.0736, -0.0736,  ..., -0.0892, -0.0422,  0.0999],
+        ...,
+        [ 0.0610, -0.0102, -0.0584,  ...,  0.0564, -0.0407, -0.0363],
+        [ 0.0859,  0.0568,  0.0312,  ..., -0.0605, -0.0711,  0.0565],
+        [ 0.0478,  0.0001,  0.0440,  ...,  0.0399, -0.0579,  0.0187]],
+       device='cuda:0'), grad: tensor([[ 5.0180e-06,  5.2750e-06,  4.9509e-06,  ...,  4.3362e-06,
+          1.2955e-06,  1.4277e-06],
+        [ 2.9318e-06,  1.7583e-06,  2.6394e-06,  ...,  3.3136e-06,
+          1.1735e-06,  1.1958e-06],
+        [ 2.5686e-06,  2.8219e-06,  1.7053e-06,  ...,  2.5090e-06,
+          9.9000e-07,  1.2657e-06],
+        ...,
+        [ 1.3970e-05,  1.3769e-05,  1.2740e-05,  ...,  1.1973e-05,
+          2.8759e-06,  3.8408e-06],
+        [ 5.0038e-05,  4.0174e-05,  4.2945e-05,  ...,  3.4213e-05,
+          8.2031e-06,  8.4415e-06],
+        [-1.0490e-04, -8.1420e-05, -8.8453e-05,  ..., -6.6400e-05,
+         -1.1697e-05, -1.7762e-05]], device='cuda:0')
+Epoch 111, bias, value: tensor([ 0.0278, -0.0151, -0.0106,  0.0179, -0.0036, -0.0138, -0.0016,  0.0131,
+        -0.0242,  0.0149], device='cuda:0'), grad: tensor([ 1.3001e-05,  7.6592e-06,  1.0066e-05,  2.0474e-05,  9.1419e-06,
+         1.3247e-05,  2.4308e-06,  4.0233e-05,  1.1808e-04, -2.3448e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 110, time 218.91, cls_loss 0.0020 cls_loss_mapping 0.0054 cls_loss_causal 0.5576 re_mapping 0.0059 re_causal 0.0177 /// teacc 98.98 lr 0.00010000
+Epoch 112, weight, value: tensor([[ 0.0100, -0.0436,  0.0153,  ..., -0.0758, -0.0728, -0.0469],
+        [-0.0710,  0.0393, -0.0424,  ..., -0.0654, -0.0458, -0.1123],
+        [-0.0587, -0.0742, -0.0741,  ..., -0.0901, -0.0432,  0.1004],
+        ...,
+        [ 0.0614, -0.0103, -0.0587,  ...,  0.0569, -0.0410, -0.0369],
+        [ 0.0861,  0.0569,  0.0314,  ..., -0.0611, -0.0715,  0.0568],
+        [ 0.0479,  0.0002,  0.0443,  ...,  0.0399, -0.0583,  0.0185]],
+       device='cuda:0'), grad: tensor([[-1.9162e-07,  5.6066e-07,  4.9477e-10,  ...,  1.6578e-07,
+          4.8941e-07,  4.6939e-07],
+        [ 2.1271e-06,  1.5683e-06,  3.3621e-07,  ...,  1.2275e-06,
+          3.4482e-07,  7.8185e-07],
+        [ 7.3109e-08,  2.6524e-06,  3.0221e-07,  ...,  3.4506e-07,
+          4.6380e-07, -3.6322e-07],
+        ...,
+        [-6.2659e-06,  3.0268e-06,  2.1723e-07,  ..., -8.4117e-06,
+          1.7916e-07,  6.6776e-07],
+        [-2.0899e-06, -3.3863e-06, -1.3541e-06,  ...,  4.1258e-07,
+         -6.8173e-07, -4.5672e-06],
+        [ 4.5300e-06,  3.0305e-06,  3.0571e-07,  ...,  5.7444e-06,
+          6.8964e-07,  1.4165e-06]], device='cuda:0')
+Epoch 112, bias, value: tensor([ 0.0281, -0.0155, -0.0108,  0.0179, -0.0037, -0.0137, -0.0011,  0.0135,
+        -0.0245,  0.0147], device='cuda:0'), grad: tensor([-1.6186e-06,  7.9349e-06,  3.2625e-08, -2.3261e-05,  4.8950e-06,
+         6.0350e-06, -5.2014e-07, -3.6359e-06, -4.5039e-06,  1.4581e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 111, time 218.62, cls_loss 0.0021 cls_loss_mapping 0.0058 cls_loss_causal 0.5645 re_mapping 0.0057 re_causal 0.0178 /// teacc 98.97 lr 0.00010000
+Epoch 113, weight, value: tensor([[ 0.0100, -0.0442,  0.0155,  ..., -0.0759, -0.0737, -0.0479],
+        [-0.0716,  0.0388, -0.0430,  ..., -0.0659, -0.0466, -0.1134],
+        [-0.0587, -0.0751, -0.0750,  ..., -0.0906, -0.0439,  0.1011],
+        ...,
+        [ 0.0615, -0.0108, -0.0595,  ...,  0.0573, -0.0412, -0.0377],
+        [ 0.0867,  0.0577,  0.0316,  ..., -0.0615, -0.0719,  0.0573],
+        [ 0.0481,  0.0004,  0.0446,  ...,  0.0400, -0.0585,  0.0184]],
+       device='cuda:0'), grad: tensor([[ 5.6403e-08,  5.0366e-06,  1.2433e-07,  ...,  6.7567e-07,
+          4.2142e-07,  2.0601e-06],
+        [ 5.1921e-07, -7.5877e-05,  2.7008e-07,  ..., -2.6934e-06,
+          2.3330e-07, -1.7926e-05],
+        [ 3.7961e-06,  1.2301e-05,  2.2654e-07,  ...,  2.0206e-05,
+          1.3914e-06, -1.5898e-06],
+        ...,
+        [-1.2152e-05, -7.3463e-06,  7.1130e-08,  ..., -6.1095e-05,
+         -4.1351e-06,  2.7791e-06],
+        [-1.0710e-06,  2.8059e-05, -2.9728e-06,  ...,  2.1867e-06,
+          8.8126e-08,  5.0813e-06],
+        [ 7.4646e-07,  1.4395e-05,  1.2468e-07,  ...,  4.0978e-06,
+          7.0455e-07,  3.9712e-06]], device='cuda:0')
+Epoch 113, bias, value: tensor([ 0.0282, -0.0163, -0.0112,  0.0186, -0.0038, -0.0134, -0.0010,  0.0134,
+        -0.0242,  0.0147], device='cuda:0'), grad: tensor([ 1.5087e-05, -1.4532e-04,  3.7730e-05,  6.0171e-05,  3.3647e-05,
+        -2.1189e-05,  1.4804e-05, -8.8274e-05,  5.3108e-05,  4.0054e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 112, time 218.45, cls_loss 0.0019 cls_loss_mapping 0.0057 cls_loss_causal 0.5633 re_mapping 0.0061 re_causal 0.0187 /// teacc 99.07 lr 0.00010000
+Epoch 114, weight, value: tensor([[ 0.0102, -0.0447,  0.0158,  ..., -0.0760, -0.0747, -0.0486],
+        [-0.0717,  0.0394, -0.0433,  ..., -0.0664, -0.0475, -0.1140],
+        [-0.0591, -0.0755, -0.0751,  ..., -0.0912, -0.0444,  0.1018],
+        ...,
+        [ 0.0620, -0.0111, -0.0597,  ...,  0.0581, -0.0413, -0.0381],
+        [ 0.0871,  0.0578,  0.0319,  ..., -0.0622, -0.0724,  0.0578],
+        [ 0.0480,  0.0003,  0.0446,  ...,  0.0399, -0.0588,  0.0182]],
+       device='cuda:0'), grad: tensor([[ 6.1467e-08,  1.3290e-06,  2.0105e-07,  ...,  3.5088e-07,
+          6.4308e-07,  1.4696e-06],
+        [ 2.9169e-06,  2.4419e-06,  7.2084e-07,  ...,  4.5337e-06,
+          1.7683e-07,  1.3914e-06],
+        [ 3.8184e-06,  4.4331e-06,  8.5961e-07,  ...,  6.0424e-06,
+          3.1479e-07, -2.7984e-05],
+        ...,
+        [-1.3232e-05,  8.6948e-06,  1.0980e-06,  ..., -2.0683e-05,
+          2.0850e-07,  6.3097e-07],
+        [-9.3644e-07,  3.4440e-06, -2.6147e-07,  ...,  2.2482e-06,
+         -1.5320e-06,  1.3731e-05],
+        [ 3.3621e-06,  4.4405e-06,  1.2722e-06,  ...,  2.8349e-06,
+          1.7872e-06,  3.5707e-06]], device='cuda:0')
+Epoch 114, bias, value: tensor([ 0.0288, -0.0161, -0.0111,  0.0184, -0.0035, -0.0138, -0.0007,  0.0138,
+        -0.0240,  0.0138], device='cuda:0'), grad: tensor([ 4.6678e-06,  1.7092e-05, -2.0862e-05, -5.3614e-05,  1.1168e-05,
+         6.2101e-06,  3.4329e-06, -2.4632e-05,  4.1068e-05,  1.5348e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 113, time 218.53, cls_loss 0.0020 cls_loss_mapping 0.0055 cls_loss_causal 0.5529 re_mapping 0.0061 re_causal 0.0178 /// teacc 99.09 lr 0.00010000
+Epoch 115, weight, value: tensor([[ 0.0105, -0.0454,  0.0159,  ..., -0.0761, -0.0749, -0.0485],
+        [-0.0728,  0.0393, -0.0436,  ..., -0.0673, -0.0484, -0.1148],
+        [-0.0594, -0.0759, -0.0754,  ..., -0.0919, -0.0447,  0.1025],
+        ...,
+        [ 0.0621, -0.0113, -0.0600,  ...,  0.0585, -0.0417, -0.0388],
+        [ 0.0876,  0.0577,  0.0319,  ..., -0.0628, -0.0729,  0.0578],
+        [ 0.0483,  0.0005,  0.0448,  ...,  0.0401, -0.0592,  0.0181]],
+       device='cuda:0'), grad: tensor([[ 1.6689e-06,  6.3470e-07,  3.2107e-07,  ...,  2.0303e-06,
+          1.5404e-06,  1.1744e-06],
+        [ 4.1872e-06,  5.3085e-07,  4.4703e-07,  ...,  3.6377e-06,
+          6.6357e-07,  5.8720e-07],
+        [ 8.8066e-06,  7.7998e-07,  4.0699e-07,  ...,  7.4394e-06,
+          8.5542e-07,  3.7393e-07],
+        ...,
+        [-4.8578e-05,  1.6242e-06, -2.3786e-06,  ..., -4.7088e-05,
+          1.0501e-07,  4.7334e-07],
+        [ 7.0371e-06,  3.5036e-06,  1.6158e-06,  ...,  7.7784e-06,
+          4.8466e-06,  3.1590e-06],
+        [ 8.1509e-06, -7.5810e-06, -4.7125e-06,  ...,  8.8736e-06,
+          9.3179e-07, -9.0944e-07]], device='cuda:0')
+Epoch 115, bias, value: tensor([ 0.0291, -0.0167, -0.0106,  0.0178, -0.0035, -0.0136, -0.0002,  0.0138,
+        -0.0243,  0.0139], device='cuda:0'), grad: tensor([ 8.0839e-06,  1.3754e-05,  2.6375e-05,  1.0200e-05,  7.1824e-06,
+         4.4048e-05, -2.4199e-05, -1.3435e-04,  3.2753e-05,  1.6049e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 114, time 218.47, cls_loss 0.0019 cls_loss_mapping 0.0065 cls_loss_causal 0.5491 re_mapping 0.0063 re_causal 0.0182 /// teacc 99.16 lr 0.00010000
+Epoch 116, weight, value: tensor([[ 0.0113, -0.0455,  0.0167,  ..., -0.0763, -0.0754, -0.0483],
+        [-0.0735,  0.0395, -0.0440,  ..., -0.0679, -0.0491, -0.1152],
+        [-0.0601, -0.0765, -0.0756,  ..., -0.0927, -0.0451,  0.1027],
+        ...,
+        [ 0.0624, -0.0114, -0.0605,  ...,  0.0590, -0.0419, -0.0393],
+        [ 0.0879,  0.0582,  0.0321,  ..., -0.0633, -0.0732,  0.0582],
+        [ 0.0485,  0.0007,  0.0449,  ...,  0.0403, -0.0595,  0.0178]],
+       device='cuda:0'), grad: tensor([[ 2.1588e-06,  2.1663e-06,  4.3609e-07,  ...,  2.7288e-07,
+          1.7742e-07,  1.7937e-06],
+        [-1.3912e-07,  2.7139e-06,  1.1763e-06,  ...,  4.8988e-07,
+          4.1956e-07,  1.0836e-04],
+        [-8.4657e-07,  4.6343e-06,  1.0505e-06,  ..., -3.1386e-07,
+          2.7055e-07, -1.3113e-04],
+        ...,
+        [ 2.9756e-07,  5.4650e-06,  1.0375e-06,  ...,  2.8987e-07,
+          2.2631e-07,  2.6841e-06],
+        [ 2.0787e-06,  3.4235e-06,  1.4156e-06,  ...,  3.7514e-06,
+          1.4054e-06,  5.2564e-06],
+        [-2.8368e-06,  5.3784e-07, -2.3618e-06,  ..., -3.2317e-06,
+         -8.3994e-08, -9.6112e-07]], device='cuda:0')
+Epoch 116, bias, value: tensor([ 0.0309, -0.0170, -0.0112,  0.0174, -0.0036, -0.0135, -0.0007,  0.0143,
+        -0.0244,  0.0135], device='cuda:0'), grad: tensor([ 2.3499e-05,  3.1662e-04, -3.6526e-04, -5.1200e-05,  3.8557e-06,
+        -3.6925e-05,  5.6148e-05,  1.9804e-05,  2.7999e-05,  5.0403e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 115, time 218.73, cls_loss 0.0020 cls_loss_mapping 0.0064 cls_loss_causal 0.5571 re_mapping 0.0061 re_causal 0.0175 /// teacc 99.09 lr 0.00010000
+Epoch 117, weight, value: tensor([[ 0.0117, -0.0463,  0.0168,  ..., -0.0764, -0.0762, -0.0487],
+        [-0.0737,  0.0398, -0.0444,  ..., -0.0683, -0.0501, -0.1162],
+        [-0.0595, -0.0770, -0.0759,  ..., -0.0934, -0.0457,  0.1037],
+        ...,
+        [ 0.0623, -0.0118, -0.0609,  ...,  0.0593, -0.0428, -0.0407],
+        [ 0.0884,  0.0589,  0.0324,  ..., -0.0641, -0.0735,  0.0588],
+        [ 0.0486,  0.0008,  0.0454,  ...,  0.0403, -0.0599,  0.0173]],
+       device='cuda:0'), grad: tensor([[ 8.5235e-06,  9.4436e-07, -2.7823e-07,  ...,  1.9874e-06,
+          5.5181e-07,  6.9514e-06],
+        [ 8.2180e-06, -6.2864e-07,  6.2678e-07,  ...,  4.1164e-06,
+          4.4284e-07,  6.7763e-06],
+        [-7.7128e-05,  1.5385e-06,  1.2228e-06,  ..., -4.1991e-05,
+          6.0769e-07, -6.5386e-05],
+        ...,
+        [ 5.0992e-05,  1.8282e-06,  7.1712e-07,  ...,  2.5317e-05,
+          5.1782e-07,  3.8564e-05],
+        [-4.9248e-06, -9.7379e-06, -7.1600e-06,  ...,  3.4850e-06,
+          6.0303e-07, -7.9796e-06],
+        [ 8.2776e-06,  2.9430e-06,  6.7893e-07,  ...,  7.3500e-06,
+          3.6173e-06,  6.8843e-06]], device='cuda:0')
+Epoch 117, bias, value: tensor([ 0.0308, -0.0171, -0.0105,  0.0171, -0.0025, -0.0135, -0.0011,  0.0138,
+        -0.0243,  0.0132], device='cuda:0'), grad: tensor([ 5.6565e-05,  3.4004e-05, -1.9240e-04,  9.3758e-05,  4.3400e-06,
+        -3.3188e-04,  3.8654e-05,  2.1291e-04,  3.5554e-05,  4.7535e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 116, time 218.74, cls_loss 0.0019 cls_loss_mapping 0.0059 cls_loss_causal 0.5619 re_mapping 0.0058 re_causal 0.0179 /// teacc 99.08 lr 0.00010000
+Epoch 118, weight, value: tensor([[ 0.0113, -0.0471,  0.0166,  ..., -0.0773, -0.0774, -0.0496],
+        [-0.0743,  0.0399, -0.0448,  ..., -0.0688, -0.0510, -0.1168],
+        [-0.0600, -0.0776, -0.0764,  ..., -0.0938, -0.0462,  0.1038],
+        ...,
+        [ 0.0626, -0.0122, -0.0614,  ...,  0.0595, -0.0433, -0.0410],
+        [ 0.0891,  0.0595,  0.0330,  ..., -0.0648, -0.0737,  0.0594],
+        [ 0.0491,  0.0009,  0.0457,  ...,  0.0408, -0.0600,  0.0172]],
+       device='cuda:0'), grad: tensor([[ 7.9393e-05,  6.1467e-07,  9.2834e-06,  ...,  9.4831e-05,
+          1.8382e-07,  8.7777e-07],
+        [ 2.5537e-06, -4.1281e-07,  5.8115e-07,  ...,  3.5744e-06,
+          5.1688e-08,  7.0361e-07],
+        [-3.5372e-06,  1.4147e-06,  6.4634e-07,  ..., -1.1120e-06,
+          5.9837e-08, -1.1317e-05],
+        ...,
+        [ 4.5337e-06,  1.2331e-06,  1.4799e-06,  ...,  3.2019e-06,
+          2.3516e-08,  7.2010e-06],
+        [ 4.4890e-06,  1.3392e-06,  2.5239e-06,  ...,  4.4629e-06,
+          7.1246e-08,  1.1921e-06],
+        [-1.0204e-04, -3.2056e-06, -1.6361e-05,  ..., -1.1939e-04,
+          5.5035e-08, -1.4883e-06]], device='cuda:0')
+Epoch 118, bias, value: tensor([ 0.0302, -0.0174, -0.0108,  0.0172, -0.0021, -0.0130, -0.0018,  0.0138,
+        -0.0241,  0.0134], device='cuda:0'), grad: tensor([ 1.5593e-04,  6.0871e-06, -2.6271e-05, -4.0140e-07,  2.2218e-05,
+         4.5598e-06,  1.7630e-06,  1.8701e-05,  1.5438e-05, -1.9801e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 117, time 218.87, cls_loss 0.0019 cls_loss_mapping 0.0059 cls_loss_causal 0.5358 re_mapping 0.0064 re_causal 0.0187 /// teacc 99.02 lr 0.00010000
+Epoch 119, weight, value: tensor([[ 0.0114, -0.0475,  0.0166,  ..., -0.0774, -0.0793, -0.0508],
+        [-0.0750,  0.0401, -0.0451,  ..., -0.0693, -0.0529, -0.1181],
+        [-0.0611, -0.0791, -0.0766,  ..., -0.0949, -0.0463,  0.1043],
+        ...,
+        [ 0.0629, -0.0128, -0.0617,  ...,  0.0600, -0.0447, -0.0422],
+        [ 0.0894,  0.0598,  0.0333,  ..., -0.0657, -0.0742,  0.0597],
+        [ 0.0495,  0.0012,  0.0464,  ...,  0.0408, -0.0605,  0.0170]],
+       device='cuda:0'), grad: tensor([[-3.8296e-06,  9.9360e-08, -1.7174e-06,  ...,  1.4668e-07,
+          4.3102e-06,  4.5635e-06],
+        [ 6.6822e-07,  7.2760e-11,  3.8836e-07,  ...,  1.6752e-07,
+          3.3062e-07,  5.6904e-07],
+        [ 1.5153e-06,  1.7183e-07,  8.0373e-07,  ...,  4.1071e-07,
+          1.1129e-06, -3.7532e-07],
+        ...,
+        [-1.0710e-06,  1.6880e-07,  1.4948e-07,  ..., -1.1260e-06,
+          1.2992e-07,  3.0780e-07],
+        [ 1.7276e-06,  4.7934e-08,  1.0878e-06,  ...,  1.7276e-07,
+          2.3544e-06,  2.8796e-06],
+        [ 1.1232e-06,  4.6653e-08,  3.8208e-07,  ...,  5.8953e-07,
+          6.2818e-07,  8.0513e-07]], device='cuda:0')
+Epoch 119, bias, value: tensor([ 0.0300, -0.0179, -0.0118,  0.0192, -0.0024, -0.0132, -0.0014,  0.0133,
+        -0.0243,  0.0134], device='cuda:0'), grad: tensor([-5.5917e-06,  3.1572e-06,  1.5590e-06,  1.1668e-05, -1.6391e-06,
+        -8.4266e-06, -1.5453e-05, -1.4994e-06,  1.0833e-05,  5.3719e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 118, time 218.89, cls_loss 0.0016 cls_loss_mapping 0.0068 cls_loss_causal 0.5725 re_mapping 0.0060 re_causal 0.0187 /// teacc 99.07 lr 0.00010000
+Epoch 120, weight, value: tensor([[ 0.0115, -0.0480,  0.0165,  ..., -0.0776, -0.0803, -0.0517],
+        [-0.0752,  0.0412, -0.0447,  ..., -0.0696, -0.0535, -0.1181],
+        [-0.0612, -0.0796, -0.0771,  ..., -0.0958, -0.0468,  0.1048],
+        ...,
+        [ 0.0632, -0.0133, -0.0621,  ...,  0.0605, -0.0451, -0.0433],
+        [ 0.0897,  0.0595,  0.0333,  ..., -0.0662, -0.0748,  0.0600],
+        [ 0.0498,  0.0015,  0.0468,  ...,  0.0409, -0.0607,  0.0169]],
+       device='cuda:0'), grad: tensor([[-1.2843e-06,  1.1381e-06,  2.0803e-07,  ...,  1.4417e-06,
+         -1.7672e-07, -5.9744e-07],
+        [ 1.2545e-06,  1.3821e-05,  7.8790e-07,  ...,  2.1324e-05,
+          2.0102e-05,  1.3635e-05],
+        [ 1.6717e-06,  8.1584e-07,  4.7404e-07,  ...,  3.5129e-06,
+          1.8701e-06, -4.9584e-06],
+        ...,
+        [-6.4448e-06,  2.2631e-06,  6.2445e-07,  ..., -7.4431e-06,
+          2.5984e-06,  2.4047e-06],
+        [-5.4128e-06, -2.5779e-06, -1.9968e-06,  ...,  1.7844e-06,
+          1.6373e-06, -1.9558e-06],
+        [ 2.2836e-06,  8.2403e-06,  5.2573e-07,  ...,  4.9859e-05,
+          4.3631e-05,  3.4332e-05]], device='cuda:0')
+Epoch 120, bias, value: tensor([ 0.0299, -0.0172, -0.0123,  0.0189, -0.0025, -0.0134, -0.0012,  0.0139,
+        -0.0246,  0.0134], device='cuda:0'), grad: tensor([-9.7007e-06,  6.0707e-05, -9.0199e-07,  1.2629e-05, -1.8787e-04,
+        -6.0303e-07,  3.3826e-05, -1.1936e-05, -3.0305e-06,  1.0681e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 119, time 218.50, cls_loss 0.0017 cls_loss_mapping 0.0061 cls_loss_causal 0.5789 re_mapping 0.0058 re_causal 0.0186 /// teacc 99.07 lr 0.00010000
+Epoch 121, weight, value: tensor([[ 0.0117, -0.0483,  0.0165,  ..., -0.0776, -0.0813, -0.0522],
+        [-0.0760,  0.0415, -0.0449,  ..., -0.0703, -0.0546, -0.1188],
+        [-0.0620, -0.0800, -0.0773,  ..., -0.0964, -0.0469,  0.1055],
+        ...,
+        [ 0.0642, -0.0136, -0.0625,  ...,  0.0611, -0.0458, -0.0438],
+        [ 0.0902,  0.0596,  0.0335,  ..., -0.0667, -0.0753,  0.0602],
+        [ 0.0495,  0.0018,  0.0473,  ...,  0.0407, -0.0612,  0.0167]],
+       device='cuda:0'), grad: tensor([[ 3.6135e-07,  4.8010e-07,  2.7404e-07,  ...,  8.0606e-07,
+          1.6093e-05,  1.0826e-05],
+        [ 1.1893e-06,  8.7684e-07,  5.9558e-07,  ...,  9.8627e-07,
+          3.0976e-06,  3.4403e-06],
+        [ 3.4403e-06,  2.7250e-06,  1.0412e-06,  ...,  6.2725e-07,
+          1.9465e-06,  5.6438e-07],
+        ...,
+        [ 7.4366e-07,  9.4343e-07,  4.1118e-07,  ...,  5.0180e-06,
+          4.0680e-06,  3.1162e-06],
+        [-1.3895e-05, -1.1869e-05, -5.5730e-06,  ...,  2.6380e-07,
+         -1.5888e-06, -1.2204e-05],
+        [ 1.4743e-06,  1.8394e-06,  3.6997e-07,  ...,  6.9402e-06,
+          6.6161e-06,  4.5337e-06]], device='cuda:0')
+Epoch 121, bias, value: tensor([ 0.0302, -0.0176, -0.0123,  0.0185, -0.0022, -0.0138,  0.0003,  0.0145,
+        -0.0248,  0.0129], device='cuda:0'), grad: tensor([ 2.9087e-05,  1.0699e-05, -4.7944e-06,  3.9302e-06,  1.4886e-05,
+         1.2241e-05, -6.0976e-05,  1.2904e-05, -3.5495e-05,  1.7628e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 120, time 218.55, cls_loss 0.0019 cls_loss_mapping 0.0051 cls_loss_causal 0.5686 re_mapping 0.0057 re_causal 0.0181 /// teacc 99.06 lr 0.00010000
+Epoch 122, weight, value: tensor([[ 0.0119, -0.0488,  0.0166,  ..., -0.0778, -0.0818, -0.0526],
+        [-0.0766,  0.0423, -0.0455,  ..., -0.0707, -0.0551, -0.1182],
+        [-0.0620, -0.0814, -0.0777,  ..., -0.0967, -0.0477,  0.1061],
+        ...,
+        [ 0.0647, -0.0140, -0.0628,  ...,  0.0614, -0.0466, -0.0444],
+        [ 0.0909,  0.0586,  0.0328,  ..., -0.0670, -0.0755,  0.0597],
+        [ 0.0496,  0.0021,  0.0482,  ...,  0.0416, -0.0596,  0.0173]],
+       device='cuda:0'), grad: tensor([[ 1.9011e-07,  3.5740e-07, -9.5218e-06,  ...,  4.5123e-07,
+          3.4482e-07, -1.6153e-05],
+        [ 1.2182e-06, -1.0934e-06,  1.1576e-06,  ...,  1.0459e-06,
+          3.0850e-07,  2.0172e-06],
+        [ 6.7940e-07,  3.6997e-07,  4.1798e-06,  ...,  3.9185e-07,
+          3.0198e-07,  5.1074e-06],
+        ...,
+        [-1.7043e-06,  6.7195e-07,  7.3342e-07,  ..., -2.0228e-06,
+          3.9279e-07,  9.2573e-07],
+        [-3.1143e-06, -2.0005e-06, -2.1630e-07,  ..., -2.5076e-07,
+         -8.7777e-07,  2.3062e-07],
+        [-1.9260e-06, -1.2564e-06, -2.1514e-06,  ..., -2.0247e-06,
+          3.1572e-07,  7.4320e-07]], device='cuda:0')
+Epoch 122, bias, value: tensor([ 0.0303, -0.0173, -0.0120,  0.0184, -0.0030, -0.0127, -0.0004,  0.0146,
+        -0.0258,  0.0133], device='cuda:0'), grad: tensor([-1.4961e-04,  1.1340e-05,  5.8919e-05,  1.4961e-05,  9.3058e-06,
+         5.6066e-06,  3.6150e-05,  9.0164e-08,  1.5274e-05, -2.0955e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 121, time 218.71, cls_loss 0.0024 cls_loss_mapping 0.0063 cls_loss_causal 0.5215 re_mapping 0.0057 re_causal 0.0171 /// teacc 99.00 lr 0.00010000
+Epoch 123, weight, value: tensor([[ 0.0109, -0.0506,  0.0156,  ..., -0.0788, -0.0825, -0.0524],
+        [-0.0777,  0.0423, -0.0462,  ..., -0.0715, -0.0564, -0.1193],
+        [-0.0624, -0.0820, -0.0782,  ..., -0.0977, -0.0485,  0.1065],
+        ...,
+        [ 0.0651, -0.0143, -0.0637,  ...,  0.0619, -0.0469, -0.0449],
+        [ 0.0917,  0.0590,  0.0333,  ..., -0.0678, -0.0760,  0.0604],
+        [ 0.0508,  0.0034,  0.0500,  ...,  0.0427, -0.0595,  0.0173]],
+       device='cuda:0'), grad: tensor([[-1.9721e-07,  1.5891e-07,  7.9512e-08,  ...,  1.6997e-07,
+          9.6206e-07,  1.0207e-06],
+        [ 3.2806e-07, -1.2089e-06,  9.8837e-08,  ...,  1.0459e-06,
+          5.9931e-07,  4.3819e-07],
+        [ 3.3434e-06,  4.9546e-07,  8.9756e-08,  ...,  6.0759e-06,
+          2.5379e-07,  6.4168e-07],
+        ...,
+        [-5.3532e-06, -4.5123e-07,  5.9197e-08,  ..., -1.0550e-05,
+          4.2259e-07, -7.4413e-07],
+        [-5.9186e-07,  4.4741e-06,  3.7365e-06,  ...,  3.2363e-07,
+          6.0862e-07,  9.9838e-07],
+        [ 5.2527e-07,  6.6124e-07,  2.3248e-07,  ...,  1.8766e-06,
+          1.2796e-06,  8.3679e-07]], device='cuda:0')
+Epoch 123, bias, value: tensor([ 0.0293, -0.0182, -0.0120,  0.0179, -0.0036, -0.0120, -0.0003,  0.0149,
+        -0.0260,  0.0146], device='cuda:0'), grad: tensor([ 1.7891e-06, -9.8348e-07,  1.0096e-05,  2.7731e-05, -3.8091e-06,
+        -4.8578e-05,  1.2003e-05, -1.6659e-05,  1.3806e-05,  4.6045e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 122, time 218.52, cls_loss 0.0024 cls_loss_mapping 0.0074 cls_loss_causal 0.5726 re_mapping 0.0055 re_causal 0.0170 /// teacc 98.98 lr 0.00010000
+Epoch 124, weight, value: tensor([[ 0.0111, -0.0507,  0.0157,  ..., -0.0786, -0.0860, -0.0555],
+        [-0.0788,  0.0425, -0.0466,  ..., -0.0724, -0.0576, -0.1207],
+        [-0.0627, -0.0826, -0.0788,  ..., -0.0983, -0.0488,  0.1077],
+        ...,
+        [ 0.0655, -0.0144, -0.0641,  ...,  0.0622, -0.0478, -0.0453],
+        [ 0.0929,  0.0595,  0.0338,  ..., -0.0681, -0.0765,  0.0610],
+        [ 0.0508,  0.0038,  0.0504,  ...,  0.0429, -0.0589,  0.0179]],
+       device='cuda:0'), grad: tensor([[ 1.5378e-05,  2.8568e-07,  1.7568e-05,  ...,  1.2115e-05,
+          4.6939e-06,  1.6361e-05],
+        [ 4.5518e-07,  3.4762e-07,  1.9022e-07,  ...,  9.7901e-06,
+          1.1936e-05,  4.0606e-06],
+        [ 1.9930e-06,  5.3504e-07,  7.2503e-07,  ...,  3.4608e-06,
+          2.0918e-06, -1.5181e-06],
+        ...,
+        [-4.3064e-06,  1.2657e-06,  6.3423e-07,  ...,  2.1756e-06,
+          7.4618e-06,  2.9560e-06],
+        [ 1.5292e-06,  4.1677e-07,  1.2089e-06,  ...,  2.6301e-06,
+          2.7083e-06,  3.5260e-06],
+        [-2.1636e-05,  6.8806e-06, -2.6107e-05,  ...,  4.5896e-05,
+          7.3731e-05,  2.3898e-06]], device='cuda:0')
+Epoch 124, bias, value: tensor([ 0.0291, -0.0188, -0.0118,  0.0197, -0.0046, -0.0141,  0.0007,  0.0154,
+        -0.0257,  0.0147], device='cuda:0'), grad: tensor([ 4.7982e-05,  2.1055e-05,  4.0308e-06,  3.6471e-06, -2.4629e-04,
+         3.7462e-05,  3.6806e-05,  4.8131e-06,  1.2621e-05,  7.7963e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 123, time 218.59, cls_loss 0.0018 cls_loss_mapping 0.0053 cls_loss_causal 0.5244 re_mapping 0.0058 re_causal 0.0171 /// teacc 99.05 lr 0.00010000
+Epoch 125, weight, value: tensor([[ 0.0111, -0.0510,  0.0157,  ..., -0.0786, -0.0863, -0.0561],
+        [-0.0789,  0.0429, -0.0469,  ..., -0.0730, -0.0591, -0.1214],
+        [-0.0631, -0.0830, -0.0792,  ..., -0.0990, -0.0492,  0.1080],
+        ...,
+        [ 0.0659, -0.0153, -0.0648,  ...,  0.0622, -0.0488, -0.0458],
+        [ 0.0935,  0.0608,  0.0350,  ..., -0.0685, -0.0768,  0.0619],
+        [ 0.0509,  0.0037,  0.0508,  ...,  0.0428, -0.0598,  0.0170]],
+       device='cuda:0'), grad: tensor([[ 3.1153e-07,  1.3653e-06,  6.9477e-07,  ...,  3.4715e-07,
+          5.7369e-07,  4.2398e-07],
+        [ 4.7591e-07,  2.7921e-06,  1.2787e-06,  ...,  4.1211e-07,
+          4.0489e-07,  3.8627e-07],
+        [ 6.8266e-07,  5.6922e-06,  2.3711e-06,  ...,  3.8976e-07,
+          3.3621e-07, -2.6333e-07],
+        ...,
+        [-1.7295e-06,  5.6289e-06,  2.6226e-06,  ..., -1.7975e-06,
+          9.1677e-08,  1.6415e-07],
+        [ 1.6382e-06,  1.3560e-05,  5.8524e-06,  ...,  1.0282e-06,
+          2.6990e-06,  1.8897e-06],
+        [-2.0079e-06, -1.3057e-06, -2.4084e-06,  ..., -2.6617e-06,
+          5.3784e-07, -2.5216e-07]], device='cuda:0')
+Epoch 125, bias, value: tensor([ 0.0291, -0.0187, -0.0118,  0.0190, -0.0038, -0.0138,  0.0010,  0.0154,
+        -0.0252,  0.0145], device='cuda:0'), grad: tensor([ 4.3772e-06,  7.8380e-06,  1.3329e-05, -7.2420e-05,  3.6675e-06,
+         1.0185e-05, -8.2254e-06,  6.7279e-06,  3.6567e-05, -2.0564e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 124, time 218.44, cls_loss 0.0018 cls_loss_mapping 0.0053 cls_loss_causal 0.5485 re_mapping 0.0056 re_causal 0.0172 /// teacc 99.08 lr 0.00010000
+Epoch 126, weight, value: tensor([[ 0.0111, -0.0514,  0.0157,  ..., -0.0786, -0.0870, -0.0567],
+        [-0.0798,  0.0424, -0.0483,  ..., -0.0742, -0.0614, -0.1234],
+        [-0.0625, -0.0831, -0.0795,  ..., -0.0995, -0.0501,  0.1091],
+        ...,
+        [ 0.0659, -0.0157, -0.0652,  ...,  0.0643, -0.0498, -0.0466],
+        [ 0.0940,  0.0612,  0.0353,  ..., -0.0693, -0.0775,  0.0621],
+        [ 0.0510,  0.0046,  0.0511,  ...,  0.0430, -0.0600,  0.0169]],
+       device='cuda:0'), grad: tensor([[-2.4773e-07,  9.9558e-07,  6.5425e-07,  ...,  3.3039e-07,
+          1.2405e-06,  2.4885e-06],
+        [ 4.6170e-07,  5.7556e-07,  1.2573e-06,  ...,  3.5344e-07,
+          3.6717e-07,  8.2701e-07],
+        [ 2.2016e-06,  3.0342e-06,  3.2205e-06,  ...,  4.0117e-07,
+          1.3718e-06, -5.0738e-06],
+        ...,
+        [ 1.2424e-06,  3.7868e-06,  3.8706e-06,  ..., -7.0408e-07,
+          4.6729e-07,  1.5246e-06],
+        [-6.7204e-06, -6.6403e-07,  2.1514e-06,  ...,  5.2992e-07,
+          6.7241e-07, -1.7835e-06],
+        [ 1.5330e-06,  3.8326e-05,  7.1712e-06,  ...,  1.2004e-04,
+          8.2791e-05,  8.2791e-05]], device='cuda:0')
+Epoch 126, bias, value: tensor([ 0.0291, -0.0201, -0.0109,  0.0189, -0.0048, -0.0140,  0.0020,  0.0162,
+        -0.0254,  0.0145], device='cuda:0'), grad: tensor([ 8.4937e-06,  4.9546e-06, -1.4715e-06, -6.0946e-05, -2.1970e-04,
+         1.6913e-05, -1.0334e-05,  1.9357e-05,  1.5602e-05,  2.2686e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 125, time 218.56, cls_loss 0.0015 cls_loss_mapping 0.0046 cls_loss_causal 0.5174 re_mapping 0.0055 re_causal 0.0165 /// teacc 99.02 lr 0.00010000
+Epoch 127, weight, value: tensor([[ 0.0112, -0.0519,  0.0157,  ..., -0.0787, -0.0873, -0.0570],
+        [-0.0800,  0.0427, -0.0486,  ..., -0.0744, -0.0621, -0.1241],
+        [-0.0628, -0.0834, -0.0798,  ..., -0.1005, -0.0501,  0.1103],
+        ...,
+        [ 0.0662, -0.0165, -0.0661,  ...,  0.0643, -0.0520, -0.0475],
+        [ 0.0943,  0.0613,  0.0356,  ..., -0.0702, -0.0775,  0.0622],
+        [ 0.0511,  0.0048,  0.0513,  ...,  0.0430, -0.0605,  0.0164]],
+       device='cuda:0'), grad: tensor([[ 6.0303e-07,  4.2259e-07,  2.9104e-07,  ...,  9.6485e-07,
+          1.2130e-07,  1.3178e-07],
+        [ 6.9104e-07, -1.7718e-07,  2.8615e-07,  ...,  1.1865e-06,
+          1.6252e-07,  1.2503e-07],
+        [ 9.2899e-07,  2.6822e-07,  1.3574e-07,  ...,  1.0198e-06,
+          1.1642e-07, -2.1234e-07],
+        ...,
+        [-6.4112e-06,  2.9467e-06,  1.9539e-06,  ..., -4.8988e-06,
+          5.1083e-07,  2.0349e-07],
+        [-1.4603e-06, -1.2219e-06, -1.6168e-06,  ...,  4.3004e-07,
+          4.1467e-07, -9.2853e-07],
+        [-4.3549e-06, -1.2584e-05, -8.0988e-06,  ..., -1.7047e-05,
+         -1.7621e-06,  9.0292e-07]], device='cuda:0')
+Epoch 127, bias, value: tensor([ 0.0292, -0.0202, -0.0105,  0.0191, -0.0042, -0.0140,  0.0016,  0.0160,
+        -0.0257,  0.0144], device='cuda:0'), grad: tensor([ 1.7723e-06,  7.0501e-07,  8.8895e-07,  1.2353e-05,  2.0400e-05,
+         8.8569e-07, -2.7649e-09, -7.8455e-06, -1.4883e-06, -2.7657e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 126, time 218.73, cls_loss 0.0018 cls_loss_mapping 0.0056 cls_loss_causal 0.5440 re_mapping 0.0054 re_causal 0.0164 /// teacc 98.93 lr 0.00010000
+Epoch 128, weight, value: tensor([[ 0.0112, -0.0526,  0.0156,  ..., -0.0787, -0.0883, -0.0577],
+        [-0.0804,  0.0428, -0.0490,  ..., -0.0750, -0.0635, -0.1248],
+        [-0.0636, -0.0839, -0.0800,  ..., -0.1006, -0.0505,  0.1114],
+        ...,
+        [ 0.0663, -0.0170, -0.0669,  ...,  0.0643, -0.0527, -0.0484],
+        [ 0.0955,  0.0619,  0.0364,  ..., -0.0708, -0.0780,  0.0626],
+        [ 0.0511,  0.0051,  0.0515,  ...,  0.0432, -0.0605,  0.0164]],
+       device='cuda:0'), grad: tensor([[-4.0350e-07,  5.6298e-07,  1.8772e-08,  ...,  2.0105e-07,
+          1.7285e-06,  1.4184e-06],
+        [-1.1944e-07, -1.1874e-08,  4.0792e-07,  ...,  2.6682e-07,
+          7.8045e-07,  4.8010e-07],
+        [ 3.6834e-07,  2.7064e-06,  9.4669e-07,  ...,  8.8336e-07,
+          8.0792e-07,  5.0478e-07],
+        ...,
+        [-7.7905e-07,  2.2724e-06,  5.2340e-07,  ...,  1.0403e-06,
+          1.8356e-06,  8.6892e-07],
+        [ 1.0151e-07,  5.4687e-06,  2.1327e-06,  ...,  3.6671e-07,
+          1.9968e-06,  1.6941e-06],
+        [ 2.2189e-07,  1.9008e-06,  2.0058e-07,  ...,  2.7083e-06,
+          2.6692e-06,  1.3625e-06]], device='cuda:0')
+Epoch 128, bias, value: tensor([ 0.0291, -0.0204, -0.0096,  0.0188, -0.0042, -0.0140,  0.0017,  0.0156,
+        -0.0257,  0.0145], device='cuda:0'), grad: tensor([ 1.4119e-06, -5.3551e-07,  7.8306e-06, -2.4527e-05, -8.6725e-06,
+         2.8759e-06, -5.1856e-06,  4.7386e-06,  1.3582e-05,  8.4490e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 127, time 218.67, cls_loss 0.0015 cls_loss_mapping 0.0042 cls_loss_causal 0.5171 re_mapping 0.0056 re_causal 0.0163 /// teacc 98.95 lr 0.00010000
+Epoch 129, weight, value: tensor([[ 0.0113, -0.0530,  0.0156,  ..., -0.0787, -0.0895, -0.0588],
+        [-0.0797,  0.0441, -0.0492,  ..., -0.0749, -0.0637, -0.1251],
+        [-0.0640, -0.0846, -0.0804,  ..., -0.1013, -0.0510,  0.1120],
+        ...,
+        [ 0.0667, -0.0178, -0.0673,  ...,  0.0646, -0.0530, -0.0489],
+        [ 0.0958,  0.0619,  0.0366,  ..., -0.0713, -0.0786,  0.0626],
+        [ 0.0511,  0.0050,  0.0516,  ...,  0.0431, -0.0608,  0.0159]],
+       device='cuda:0'), grad: tensor([[-4.6492e-06,  1.3690e-07, -1.5162e-06,  ...,  1.9744e-07,
+          1.6904e-07,  9.7207e-08],
+        [ 1.4016e-07, -3.6485e-07,  1.3539e-07,  ...,  2.2817e-07,
+          1.7788e-07,  2.1781e-07],
+        [ 3.2503e-07,  2.5984e-07,  1.4738e-07,  ...,  2.0256e-07,
+          1.8498e-07,  1.5006e-07],
+        ...,
+        [ 7.5670e-07,  3.9465e-07,  3.8603e-07,  ...,  2.3004e-07,
+          2.0652e-07,  2.5518e-07],
+        [-9.9465e-07, -1.0878e-06, -4.1421e-07,  ...,  3.3481e-07,
+          1.9139e-07, -1.6131e-06],
+        [ 1.3150e-06,  3.5949e-06,  1.7928e-07,  ...,  9.3281e-06,
+          6.7465e-06,  6.7204e-06]], device='cuda:0')
+Epoch 129, bias, value: tensor([ 0.0291, -0.0194, -0.0097,  0.0187, -0.0040, -0.0138,  0.0017,  0.0155,
+        -0.0260,  0.0143], device='cuda:0'), grad: tensor([-7.4357e-06, -9.6625e-08,  1.0934e-06,  1.4249e-06, -1.9535e-05,
+         2.2575e-06,  1.2033e-06,  2.1551e-06, -6.3516e-07,  1.9535e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 128, time 218.53, cls_loss 0.0025 cls_loss_mapping 0.0068 cls_loss_causal 0.5335 re_mapping 0.0053 re_causal 0.0157 /// teacc 98.99 lr 0.00010000
+Epoch 130, weight, value: tensor([[ 0.0113, -0.0535,  0.0155,  ..., -0.0788, -0.0897, -0.0593],
+        [-0.0790,  0.0445, -0.0498,  ..., -0.0752, -0.0643, -0.1259],
+        [-0.0632, -0.0883, -0.0796,  ..., -0.1022, -0.0518,  0.1129],
+        ...,
+        [ 0.0661, -0.0187, -0.0681,  ...,  0.0643, -0.0540, -0.0506],
+        [ 0.0958,  0.0648,  0.0361,  ..., -0.0726, -0.0789,  0.0628],
+        [ 0.0513,  0.0061,  0.0523,  ...,  0.0434, -0.0611,  0.0157]],
+       device='cuda:0'), grad: tensor([[-4.2804e-06,  3.8708e-08, -7.4357e-06,  ..., -2.3487e-08,
+          2.9540e-08, -2.9709e-06],
+        [ 3.5390e-07, -1.5204e-07,  3.6717e-07,  ...,  1.4785e-07,
+          2.8609e-08,  9.1619e-08],
+        [ 5.8580e-07,  8.2771e-08,  6.6776e-07,  ...,  9.4180e-08,
+          2.6979e-08, -1.7136e-07],
+        ...,
+        [ 3.7346e-07, -1.1059e-08,  1.1716e-06,  ..., -1.6075e-06,
+         -1.7171e-08,  6.1817e-08],
+        [ 7.8557e-07,  1.4401e-07,  1.0738e-06,  ...,  3.1141e-08,
+          2.0082e-08,  2.5332e-07],
+        [ 3.3557e-05,  1.1234e-07,  3.3528e-05,  ...,  6.0024e-07,
+          1.3923e-07,  4.9081e-07]], device='cuda:0')
+Epoch 130, bias, value: tensor([ 0.0291, -0.0186, -0.0088,  0.0182, -0.0036, -0.0139,  0.0012,  0.0146,
+        -0.0264,  0.0145], device='cuda:0'), grad: tensor([-2.4945e-05,  1.8477e-06,  2.6338e-06,  1.7971e-05,  4.1462e-06,
+        -2.2948e-04,  2.0072e-05,  4.4778e-06,  5.5917e-06,  1.9765e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 129, time 218.42, cls_loss 0.0014 cls_loss_mapping 0.0055 cls_loss_causal 0.5372 re_mapping 0.0055 re_causal 0.0168 /// teacc 99.02 lr 0.00010000
+Epoch 131, weight, value: tensor([[ 0.0113, -0.0538,  0.0155,  ..., -0.0788, -0.0900, -0.0592],
+        [-0.0794,  0.0446, -0.0503,  ..., -0.0759, -0.0647, -0.1264],
+        [-0.0632, -0.0884, -0.0798,  ..., -0.1034, -0.0522,  0.1132],
+        ...,
+        [ 0.0664, -0.0187, -0.0683,  ...,  0.0650, -0.0545, -0.0513],
+        [ 0.0960,  0.0650,  0.0364,  ..., -0.0731, -0.0786,  0.0630],
+        [ 0.0513,  0.0062,  0.0524,  ...,  0.0433, -0.0614,  0.0154]],
+       device='cuda:0'), grad: tensor([[-4.3102e-06,  1.7695e-08, -2.2445e-06,  ...,  8.3307e-07,
+          1.0934e-06,  1.3718e-06],
+        [ 3.5716e-07,  7.4971e-07,  2.4494e-07,  ...,  1.9949e-06,
+          1.8366e-06,  1.7099e-06],
+        [ 4.3004e-07,  3.1781e-07,  2.6380e-07,  ...,  7.9023e-07,
+          1.3523e-06,  1.2293e-06],
+        ...,
+        [ 7.1852e-07,  7.3900e-07,  6.4261e-07,  ...,  2.7269e-06,
+          1.2871e-06,  1.0720e-06],
+        [ 4.6147e-07, -2.9569e-07,  1.8615e-07,  ...,  6.1840e-07,
+          9.7044e-07,  8.1863e-07],
+        [-5.4203e-07,  1.0081e-05, -1.5469e-06,  ...,  1.2800e-05,
+          1.2465e-05,  1.0267e-05]], device='cuda:0')
+Epoch 131, bias, value: tensor([ 0.0293, -0.0189, -0.0087,  0.0179, -0.0034, -0.0138,  0.0004,  0.0153,
+        -0.0263,  0.0144], device='cuda:0'), grad: tensor([-8.2925e-06,  4.8317e-06,  4.6305e-06,  2.9691e-06, -3.7640e-05,
+         1.3672e-05, -2.1487e-05,  5.3085e-06,  5.5693e-06,  3.0413e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 130, time 218.53, cls_loss 0.0020 cls_loss_mapping 0.0063 cls_loss_causal 0.5500 re_mapping 0.0052 re_causal 0.0162 /// teacc 98.99 lr 0.00010000
+Epoch 132, weight, value: tensor([[ 0.0115, -0.0543,  0.0157,  ..., -0.0788, -0.0904, -0.0603],
+        [-0.0798,  0.0446, -0.0510,  ..., -0.0765, -0.0655, -0.1269],
+        [-0.0633, -0.0888, -0.0800,  ..., -0.1045, -0.0528,  0.1134],
+        ...,
+        [ 0.0668, -0.0188, -0.0693,  ...,  0.0653, -0.0553, -0.0516],
+        [ 0.0962,  0.0649,  0.0364,  ..., -0.0740, -0.0792,  0.0633],
+        [ 0.0515,  0.0063,  0.0530,  ...,  0.0433, -0.0619,  0.0156]],
+       device='cuda:0'), grad: tensor([[-1.7826e-06,  2.4792e-06,  1.6177e-06,  ...,  8.1840e-08,
+          1.3824e-08,  3.1088e-06],
+        [ 6.6636e-07,  2.6170e-07,  4.5821e-07,  ...,  2.8382e-07,
+          1.7532e-07,  7.1013e-07],
+        [ 2.0638e-06,  1.2582e-06,  8.8941e-07,  ...,  1.1944e-07,
+          3.4604e-08,  1.2601e-06],
+        ...,
+        [ 6.2678e-07,  8.2422e-07,  8.5682e-07,  ...,  3.1944e-07,
+          7.9861e-08,  5.0385e-07],
+        [-9.7379e-06, -1.0498e-05, -7.7933e-06,  ...,  3.4575e-07,
+          2.0082e-08, -1.2338e-05],
+        [ 4.5784e-06,  4.3362e-06,  2.5313e-06,  ..., -4.4308e-07,
+          8.9128e-07,  5.7667e-06]], device='cuda:0')
+Epoch 132, bias, value: tensor([ 0.0293, -0.0193, -0.0088,  0.0177, -0.0031, -0.0135,  0.0005,  0.0157,
+        -0.0264,  0.0143], device='cuda:0'), grad: tensor([-7.9721e-06,  9.6392e-07,  6.5677e-06,  2.2035e-06, -9.3132e-08,
+        -3.0473e-06,  5.2042e-06,  2.9430e-06, -1.9819e-05,  1.3039e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 131, time 218.24, cls_loss 0.0015 cls_loss_mapping 0.0041 cls_loss_causal 0.5369 re_mapping 0.0056 re_causal 0.0166 /// teacc 99.03 lr 0.00010000
+Epoch 133, weight, value: tensor([[ 0.0117, -0.0546,  0.0157,  ..., -0.0788, -0.0907, -0.0604],
+        [-0.0799,  0.0452, -0.0514,  ..., -0.0770, -0.0665, -0.1277],
+        [-0.0636, -0.0891, -0.0800,  ..., -0.1052, -0.0533,  0.1136],
+        ...,
+        [ 0.0665, -0.0196, -0.0705,  ...,  0.0648, -0.0561, -0.0521],
+        [ 0.0962,  0.0649,  0.0363,  ..., -0.0746, -0.0798,  0.0632],
+        [ 0.0516,  0.0066,  0.0533,  ...,  0.0435, -0.0622,  0.0153]],
+       device='cuda:0'), grad: tensor([[-1.6543e-07, -2.0750e-06, -1.5780e-05,  ...,  1.9930e-07,
+          1.8636e-06, -3.6284e-06],
+        [ 1.2596e-07,  2.9174e-07,  1.7812e-07,  ...,  2.1867e-06,
+          2.3916e-06,  1.8468e-06],
+        [ 1.1723e-07,  1.7518e-06,  9.3430e-06,  ...,  3.1712e-07,
+         -4.2981e-07,  2.9546e-07],
+        ...,
+        [-1.1432e-07,  2.7404e-07,  1.2037e-07,  ...,  1.2871e-06,
+          1.2126e-06,  8.5728e-07],
+        [ 2.6636e-07,  3.5623e-07,  1.5749e-06,  ...,  8.4238e-07,
+          9.7509e-07,  1.5302e-06],
+        [-2.6673e-06, -1.1921e-06,  9.6951e-07,  ..., -3.0883e-06,
+          4.1258e-07, -1.9707e-06]], device='cuda:0')
+Epoch 133, bias, value: tensor([ 0.0297, -0.0192, -0.0089,  0.0177, -0.0030, -0.0133,  0.0005,  0.0153,
+        -0.0266,  0.0143], device='cuda:0'), grad: tensor([-2.1085e-05,  7.1451e-06,  1.0125e-05, -1.4913e-07, -5.2992e-07,
+         3.0138e-06, -3.2447e-06,  3.6564e-06,  5.7258e-06, -4.7274e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 132, time 218.62, cls_loss 0.0015 cls_loss_mapping 0.0040 cls_loss_causal 0.5271 re_mapping 0.0051 re_causal 0.0162 /// teacc 99.06 lr 0.00010000
+Epoch 134, weight, value: tensor([[ 0.0117, -0.0550,  0.0157,  ..., -0.0789, -0.0920, -0.0615],
+        [-0.0805,  0.0444, -0.0522,  ..., -0.0786, -0.0689, -0.1288],
+        [-0.0636, -0.0892, -0.0801,  ..., -0.1059, -0.0536,  0.1137],
+        ...,
+        [ 0.0669, -0.0188, -0.0709,  ...,  0.0654, -0.0566, -0.0525],
+        [ 0.0962,  0.0652,  0.0365,  ..., -0.0753, -0.0801,  0.0632],
+        [ 0.0516,  0.0067,  0.0537,  ...,  0.0435, -0.0625,  0.0152]],
+       device='cuda:0'), grad: tensor([[-2.2689e-07,  8.0909e-08, -1.0943e-07,  ...,  7.3225e-08,
+          2.2672e-08,  5.6252e-07],
+        [ 3.0221e-07, -7.2177e-07,  5.0786e-08,  ...,  3.2294e-07,
+          3.3935e-08,  5.5917e-06],
+        [ 1.4594e-06,  1.6438e-06,  1.0002e-06,  ...,  2.9407e-07,
+          3.6234e-08, -9.3505e-06],
+        ...,
+        [-3.8520e-06,  5.6112e-07,  4.1531e-08,  ..., -4.9248e-06,
+          3.6031e-08,  9.1270e-07],
+        [-1.7080e-06, -2.7493e-06, -1.3905e-06,  ...,  1.0675e-07,
+         -5.5006e-09, -2.6803e-06],
+        [ 2.8815e-06,  1.0233e-07,  1.0827e-08,  ...,  3.5353e-06,
+          4.9215e-08,  2.6356e-07]], device='cuda:0')
+Epoch 134, bias, value: tensor([ 0.0295, -0.0209, -0.0089,  0.0172, -0.0026, -0.0126,  0.0006,  0.0164,
+        -0.0267,  0.0142], device='cuda:0'), grad: tensor([ 1.2033e-06,  1.5482e-05, -2.6301e-05,  1.0222e-05,  2.6990e-06,
+        -1.1958e-06,  4.0643e-06, -3.8706e-06, -1.0021e-05,  7.6182e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 133, time 218.42, cls_loss 0.0016 cls_loss_mapping 0.0047 cls_loss_causal 0.5309 re_mapping 0.0051 re_causal 0.0159 /// teacc 99.13 lr 0.00010000
+Epoch 135, weight, value: tensor([[ 0.0119, -0.0551,  0.0158,  ..., -0.0788, -0.0921, -0.0619],
+        [-0.0807,  0.0455, -0.0527,  ..., -0.0787, -0.0694, -0.1292],
+        [-0.0637, -0.0895, -0.0801,  ..., -0.1067, -0.0547,  0.1138],
+        ...,
+        [ 0.0674, -0.0194, -0.0711,  ...,  0.0658, -0.0568, -0.0529],
+        [ 0.0963,  0.0653,  0.0366,  ..., -0.0761, -0.0803,  0.0633],
+        [ 0.0516,  0.0067,  0.0538,  ...,  0.0433, -0.0629,  0.0148]],
+       device='cuda:0'), grad: tensor([[-1.0408e-05,  5.0813e-06, -1.1292e-07,  ...,  5.5786e-07,
+         -2.4345e-06, -4.2319e-06],
+        [ 1.5495e-07, -7.4841e-06,  5.8149e-08,  ...,  6.7987e-07,
+          4.3958e-07,  3.0431e-07],
+        [ 2.8964e-07,  7.8697e-07,  1.6484e-07,  ...,  7.1805e-07,
+          4.1188e-07,  2.5448e-07],
+        ...,
+        [-4.7591e-07,  8.2050e-07,  7.9046e-08,  ...,  1.7136e-06,
+          1.7537e-06,  1.1995e-06],
+        [-3.2876e-07,  5.2096e-08, -1.5926e-07,  ...,  7.8790e-07,
+          4.8336e-07,  1.1455e-07],
+        [ 3.7905e-07,  1.6307e-06,  2.5902e-09,  ...,  1.7717e-05,
+          1.1124e-05,  7.8604e-06]], device='cuda:0')
+Epoch 135, bias, value: tensor([ 0.0300, -0.0201, -0.0090,  0.0178, -0.0030, -0.0135,  0.0015,  0.0163,
+        -0.0267,  0.0139], device='cuda:0'), grad: tensor([-5.9754e-06, -1.6570e-05,  2.9150e-06, -2.3423e-07, -3.4958e-05,
+         2.0768e-06,  1.9148e-05,  3.9972e-06,  9.7323e-07,  2.8595e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 134, time 218.56, cls_loss 0.0016 cls_loss_mapping 0.0046 cls_loss_causal 0.5296 re_mapping 0.0053 re_causal 0.0161 /// teacc 98.99 lr 0.00010000
+Epoch 136, weight, value: tensor([[ 0.0120, -0.0556,  0.0159,  ..., -0.0788, -0.0931, -0.0626],
+        [-0.0810,  0.0462, -0.0531,  ..., -0.0790, -0.0703, -0.1297],
+        [-0.0638, -0.0898, -0.0804,  ..., -0.1065, -0.0552,  0.1140],
+        ...,
+        [ 0.0672, -0.0203, -0.0719,  ...,  0.0659, -0.0578, -0.0545],
+        [ 0.0967,  0.0655,  0.0368,  ..., -0.0769, -0.0790,  0.0635],
+        [ 0.0515,  0.0068,  0.0539,  ...,  0.0432, -0.0636,  0.0144]],
+       device='cuda:0'), grad: tensor([[ 7.7952e-07,  4.1618e-08,  4.0920e-08,  ...,  1.7080e-06,
+          3.5740e-07,  5.0850e-07],
+        [ 4.8336e-07, -1.0654e-06,  7.5670e-08,  ...,  4.0792e-07,
+          5.0524e-07,  5.6345e-07],
+        [ 9.4809e-07,  1.8987e-07,  1.5099e-07,  ...,  9.0711e-07,
+          2.7637e-07,  1.4110e-07],
+        ...,
+        [-1.1530e-06,  1.8696e-07,  4.9639e-07,  ..., -3.1409e-07,
+          3.7282e-08,  3.1502e-07],
+        [ 5.4855e-07,  3.2014e-07, -1.2876e-07,  ...,  2.8498e-07,
+          3.4682e-06,  3.1460e-06],
+        [-3.9637e-06, -1.3015e-07, -1.9129e-06,  ..., -7.7263e-06,
+          1.4494e-07, -5.2899e-07]], device='cuda:0')
+Epoch 136, bias, value: tensor([ 0.0299, -0.0197, -0.0089,  0.0179, -0.0027, -0.0132,  0.0014,  0.0156,
+        -0.0265,  0.0135], device='cuda:0'), grad: tensor([ 1.7732e-06, -2.1793e-06,  2.9206e-06,  1.9800e-06,  6.3218e-06,
+         5.2676e-06, -1.4782e-05, -2.1067e-06,  9.7156e-06, -8.9332e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 135, time 218.57, cls_loss 0.0014 cls_loss_mapping 0.0055 cls_loss_causal 0.5238 re_mapping 0.0054 re_causal 0.0164 /// teacc 99.00 lr 0.00010000
+Epoch 137, weight, value: tensor([[ 0.0121, -0.0558,  0.0160,  ..., -0.0788, -0.0933, -0.0627],
+        [-0.0812,  0.0465, -0.0534,  ..., -0.0797, -0.0710, -0.1305],
+        [-0.0638, -0.0900, -0.0805,  ..., -0.1073, -0.0559,  0.1143],
+        ...,
+        [ 0.0676, -0.0204, -0.0721,  ...,  0.0663, -0.0584, -0.0552],
+        [ 0.0968,  0.0658,  0.0370,  ..., -0.0777, -0.0792,  0.0636],
+        [ 0.0515,  0.0065,  0.0540,  ...,  0.0431, -0.0641,  0.0139]],
+       device='cuda:0'), grad: tensor([[-5.0813e-06,  1.4680e-07, -1.4585e-06,  ...,  2.1607e-07,
+          7.1828e-08,  5.0408e-08],
+        [ 3.8445e-06, -9.4529e-07,  1.3562e-07,  ...,  1.7602e-06,
+          2.1211e-07,  9.3458e-07],
+        [ 6.1020e-06,  2.6054e-07,  3.4645e-07,  ...,  3.8072e-06,
+          9.5135e-07, -2.6226e-06],
+        ...,
+        [-8.6650e-06,  3.7556e-07,  4.4773e-07,  ...,  2.7921e-06,
+          3.3975e-06,  3.8669e-06],
+        [-4.2637e-08, -5.3225e-07, -4.9081e-07,  ...,  1.6100e-07,
+          3.2946e-08, -5.7567e-08],
+        [ 4.0908e-07, -1.8207e-07, -9.4587e-08,  ...,  3.0757e-07,
+          6.4820e-07,  5.7463e-07]], device='cuda:0')
+Epoch 137, bias, value: tensor([ 0.0302, -0.0198, -0.0088,  0.0176, -0.0025, -0.0133,  0.0014,  0.0157,
+        -0.0266,  0.0133], device='cuda:0'), grad: tensor([-1.2189e-05,  1.3925e-05,  1.5900e-05,  6.2399e-06, -1.2435e-05,
+         2.4810e-06,  3.3081e-06, -2.2247e-05,  2.1495e-06,  2.7865e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 136, time 218.59, cls_loss 0.0023 cls_loss_mapping 0.0058 cls_loss_causal 0.5235 re_mapping 0.0053 re_causal 0.0161 /// teacc 99.01 lr 0.00010000
+Epoch 138, weight, value: tensor([[ 0.0122, -0.0564,  0.0161,  ..., -0.0789, -0.0938, -0.0632],
+        [-0.0830,  0.0469, -0.0540,  ..., -0.0822, -0.0717, -0.1311],
+        [-0.0639, -0.0902, -0.0807,  ..., -0.1086, -0.0569,  0.1146],
+        ...,
+        [ 0.0686, -0.0208, -0.0726,  ...,  0.0671, -0.0608, -0.0569],
+        [ 0.0969,  0.0660,  0.0372,  ..., -0.0784, -0.0797,  0.0637],
+        [ 0.0510,  0.0091,  0.0549,  ...,  0.0426, -0.0642,  0.0114]],
+       device='cuda:0'), grad: tensor([[-3.0510e-06,  1.1260e-06, -3.4273e-07,  ...,  3.4197e-08,
+         -3.0571e-07,  5.1642e-07],
+        [-8.6846e-07,  4.8354e-06,  1.6519e-07,  ..., -1.5963e-06,
+          3.8475e-08,  5.8822e-06],
+        [ 4.9593e-07,  5.8599e-06,  2.5425e-07,  ...,  1.0254e-06,
+          1.9418e-07, -2.8938e-05],
+        ...,
+        [ 2.0617e-07,  5.3905e-06,  1.7590e-07,  ...,  1.5786e-07,
+          1.6676e-08,  4.7381e-07],
+        [ 2.4098e-07,  2.4159e-06,  1.3772e-07,  ...,  4.0716e-08,
+          1.1700e-07,  1.4470e-07],
+        [ 1.1204e-06,  1.2331e-06,  2.2957e-07,  ..., -1.5064e-07,
+          1.5716e-07,  1.6775e-07]], device='cuda:0')
+Epoch 138, bias, value: tensor([ 0.0303, -0.0209, -0.0088,  0.0177, -0.0029, -0.0140,  0.0025,  0.0164,
+        -0.0266,  0.0129], device='cuda:0'), grad: tensor([-4.3325e-06,  2.4527e-05, -5.8800e-05, -3.6061e-06,  6.3591e-06,
+        -6.9082e-05,  7.0333e-05,  1.3806e-05,  1.1779e-05,  9.1121e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 137, time 218.94, cls_loss 0.0022 cls_loss_mapping 0.0063 cls_loss_causal 0.5364 re_mapping 0.0052 re_causal 0.0161 /// teacc 99.13 lr 0.00010000
+Epoch 139, weight, value: tensor([[ 0.0123, -0.0570,  0.0162,  ..., -0.0789, -0.0948, -0.0638],
+        [-0.0835,  0.0470, -0.0544,  ..., -0.0827, -0.0726, -0.1318],
+        [-0.0640, -0.0904, -0.0809,  ..., -0.1095, -0.0587,  0.1145],
+        ...,
+        [ 0.0659, -0.0212, -0.0756,  ...,  0.0643, -0.0617, -0.0571],
+        [ 0.0971,  0.0662,  0.0386,  ..., -0.0792, -0.0807,  0.0642],
+        [ 0.0529,  0.0085,  0.0562,  ...,  0.0426, -0.0656,  0.0098]],
+       device='cuda:0'), grad: tensor([[ 2.2142e-07,  1.3039e-06,  6.3702e-07,  ...,  3.3923e-07,
+          6.9523e-07,  1.4845e-06],
+        [ 1.3784e-06,  1.2312e-06,  4.9733e-07,  ...,  5.3318e-07,
+          4.6077e-07,  1.9390e-06],
+        [ 4.9919e-07,  1.7248e-06,  8.5495e-07,  ...,  8.3726e-07,
+          6.5705e-07, -2.0996e-05],
+        ...,
+        [-3.2354e-06,  3.9162e-07,  3.4319e-07,  ..., -6.5081e-06,
+         -4.3958e-07,  1.0673e-06],
+        [-7.8678e-06, -5.3085e-06,  2.3562e-06,  ...,  3.0780e-07,
+         -1.2172e-06,  6.1207e-06],
+        [ 2.3805e-06,  4.8466e-06,  2.9989e-06,  ...,  3.5185e-06,
+          1.2927e-06,  1.9688e-06]], device='cuda:0')
+Epoch 139, bias, value: tensor([ 0.0303, -0.0211, -0.0089,  0.0178, -0.0014, -0.0130,  0.0009,  0.0137,
+        -0.0268,  0.0130], device='cuda:0'), grad: tensor([ 5.3346e-06,  7.0035e-06, -4.3660e-05, -2.4840e-05,  6.4075e-06,
+         3.1888e-05,  2.0191e-06, -8.0913e-06,  5.6401e-06,  1.8254e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 138, time 218.73, cls_loss 0.0016 cls_loss_mapping 0.0061 cls_loss_causal 0.5288 re_mapping 0.0054 re_causal 0.0157 /// teacc 99.07 lr 0.00010000
+Epoch 140, weight, value: tensor([[ 0.0124, -0.0575,  0.0164,  ..., -0.0790, -0.0953, -0.0638],
+        [-0.0840,  0.0473, -0.0547,  ..., -0.0831, -0.0732, -0.1324],
+        [-0.0641, -0.0907, -0.0811,  ..., -0.1100, -0.0591,  0.1146],
+        ...,
+        [ 0.0660, -0.0217, -0.0758,  ...,  0.0646, -0.0619, -0.0576],
+        [ 0.0973,  0.0665,  0.0385,  ..., -0.0800, -0.0809,  0.0643],
+        [ 0.0529,  0.0087,  0.0565,  ...,  0.0426, -0.0656,  0.0098]],
+       device='cuda:0'), grad: tensor([[-4.9360e-07,  3.3365e-07,  3.4372e-08,  ...,  1.2480e-07,
+          3.7195e-08,  8.0734e-08],
+        [ 8.0909e-08, -7.1190e-06,  4.9506e-08,  ...,  2.0768e-07,
+          1.0122e-07,  2.3388e-07],
+        [ 1.7253e-07,  9.6764e-07,  2.7183e-08,  ...,  1.1036e-07,
+         -1.3737e-07, -1.7909e-06],
+        ...,
+        [-1.0887e-06,  1.4557e-06,  2.6519e-07,  ..., -6.4559e-06,
+         -4.3632e-07,  1.2689e-07],
+        [ 3.4546e-08,  7.1572e-07,  1.3650e-08,  ...,  1.3923e-07,
+          1.8656e-08,  3.1694e-08],
+        [-1.8452e-07, -1.2564e-06, -6.1048e-07,  ..., -1.3458e-07,
+          2.9104e-10,  4.1880e-08]], device='cuda:0')
+Epoch 140, bias, value: tensor([ 0.0305, -0.0211, -0.0090,  0.0175, -0.0016, -0.0129,  0.0009,  0.0139,
+        -0.0268,  0.0130], device='cuda:0'), grad: tensor([-7.4692e-07, -1.0669e-05, -1.1399e-06, -5.0254e-06,  1.1481e-05,
+         5.6736e-06,  3.0305e-06, -3.7607e-06,  1.9688e-06, -8.4005e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 139, time 218.55, cls_loss 0.0014 cls_loss_mapping 0.0044 cls_loss_causal 0.5020 re_mapping 0.0051 re_causal 0.0154 /// teacc 99.09 lr 0.00010000
+Epoch 141, weight, value: tensor([[ 0.0125, -0.0583,  0.0164,  ..., -0.0790, -0.0956, -0.0641],
+        [-0.0845,  0.0473, -0.0552,  ..., -0.0834, -0.0738, -0.1331],
+        [-0.0642, -0.0909, -0.0814,  ..., -0.1104, -0.0599,  0.1147],
+        ...,
+        [ 0.0660, -0.0231, -0.0763,  ...,  0.0645, -0.0622, -0.0583],
+        [ 0.0973,  0.0666,  0.0385,  ..., -0.0814, -0.0810,  0.0643],
+        [ 0.0531,  0.0094,  0.0571,  ...,  0.0428, -0.0657,  0.0098]],
+       device='cuda:0'), grad: tensor([[-1.6494e-06,  2.9826e-07,  2.9657e-08,  ...,  7.0315e-08,
+          3.2736e-07,  4.1686e-06],
+        [ 4.6636e-07,  1.8964e-07,  3.6228e-07,  ...,  5.2806e-07,
+          5.1297e-06,  1.0616e-04],
+        [-1.2983e-06,  6.2119e-07,  1.9744e-07,  ...,  2.7311e-07,
+         -7.2606e-06, -1.6212e-04],
+        ...,
+        [ 4.1421e-07,  8.4564e-07,  3.3877e-07,  ..., -1.4948e-07,
+          3.0361e-07,  7.1675e-06],
+        [ 3.6554e-07,  1.0513e-05,  2.9635e-06,  ...,  8.0699e-07,
+          6.2445e-07,  7.0669e-06],
+        [-2.4915e-05, -5.0157e-05, -4.3243e-05,  ..., -1.1224e-04,
+         -4.6045e-05, -5.6773e-05]], device='cuda:0')
+Epoch 141, bias, value: tensor([ 0.0306, -0.0216, -0.0091,  0.0176, -0.0016, -0.0130,  0.0009,  0.0138,
+        -0.0267,  0.0132], device='cuda:0'), grad: tensor([ 1.0334e-05,  3.8958e-04, -5.9175e-04,  2.0117e-05,  1.9133e-04,
+         5.5470e-06,  7.0333e-05,  2.2799e-05,  4.3929e-05, -1.6141e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 140, time 218.28, cls_loss 0.0016 cls_loss_mapping 0.0046 cls_loss_causal 0.5238 re_mapping 0.0055 re_causal 0.0163 /// teacc 99.05 lr 0.00010000
+Epoch 142, weight, value: tensor([[ 0.0125, -0.0588,  0.0164,  ..., -0.0790, -0.0976, -0.0651],
+        [-0.0851,  0.0478, -0.0567,  ..., -0.0829, -0.0729, -0.1344],
+        [-0.0643, -0.0913, -0.0815,  ..., -0.1109, -0.0602,  0.1150],
+        ...,
+        [ 0.0662, -0.0238, -0.0766,  ...,  0.0646, -0.0627, -0.0588],
+        [ 0.0973,  0.0664,  0.0377,  ..., -0.0829, -0.0815,  0.0641],
+        [ 0.0533,  0.0103,  0.0582,  ...,  0.0428, -0.0657,  0.0100]],
+       device='cuda:0'), grad: tensor([[-1.1232e-06,  3.0198e-07, -1.5413e-07,  ...,  4.3097e-07,
+          4.7870e-07,  5.8394e-07],
+        [ 8.0047e-07, -2.0408e-07,  9.6858e-08,  ...,  6.0163e-07,
+          4.2631e-07,  9.2154e-07],
+        [-6.5342e-06,  3.8673e-07,  1.1519e-07,  ...,  4.5123e-07,
+          2.9290e-07, -5.0664e-06],
+        ...,
+        [ 2.0284e-06,  4.0955e-07,  6.3330e-08,  ..., -1.2135e-06,
+          1.8836e-07,  2.1309e-06],
+        [ 2.4438e-06, -5.5617e-08,  4.2928e-08,  ...,  3.1106e-07,
+          1.4342e-06,  3.0026e-06],
+        [ 3.4366e-07,  1.2629e-06, -2.6356e-07,  ...,  2.7977e-06,
+          2.7027e-06,  1.2005e-06]], device='cuda:0')
+Epoch 142, bias, value: tensor([ 0.0307, -0.0204, -0.0091,  0.0174, -0.0018, -0.0131,  0.0015,  0.0138,
+        -0.0272,  0.0133], device='cuda:0'), grad: tensor([-3.5781e-06,  2.6971e-06, -1.7941e-05,  1.0908e-05, -1.0923e-05,
+        -9.4414e-05,  8.6844e-05,  4.3288e-06,  1.3135e-05,  9.0823e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 141, time 218.31, cls_loss 0.0015 cls_loss_mapping 0.0039 cls_loss_causal 0.5645 re_mapping 0.0052 re_causal 0.0165 /// teacc 99.15 lr 0.00010000
+Epoch 143, weight, value: tensor([[ 0.0126, -0.0596,  0.0165,  ..., -0.0791, -0.0980, -0.0655],
+        [-0.0857,  0.0481, -0.0571,  ..., -0.0834, -0.0746, -0.1353],
+        [-0.0644, -0.0917, -0.0817,  ..., -0.1117, -0.0608,  0.1150],
+        ...,
+        [ 0.0664, -0.0242, -0.0768,  ...,  0.0647, -0.0630, -0.0593],
+        [ 0.0975,  0.0668,  0.0380,  ..., -0.0836, -0.0819,  0.0642],
+        [ 0.0532,  0.0099,  0.0585,  ...,  0.0430, -0.0656,  0.0104]],
+       device='cuda:0'), grad: tensor([[-4.1761e-06,  1.4657e-07, -4.2878e-06,  ...,  3.2992e-07,
+          1.0856e-07,  1.5984e-07],
+        [ 6.0722e-07, -1.9069e-07,  2.0489e-07,  ...,  1.0384e-06,
+          1.1607e-07,  2.3888e-07],
+        [ 1.8636e-06,  8.8057e-07,  6.2864e-07,  ...,  1.6596e-06,
+          7.1363e-08,  6.0303e-07],
+        ...,
+        [-2.6599e-06,  2.7637e-07,  1.2049e-07,  ..., -5.7034e-06,
+          2.2352e-08,  1.0029e-07],
+        [-1.8468e-06, -2.4736e-06, -1.1623e-06,  ...,  4.1351e-07,
+          1.1281e-07, -1.8170e-06],
+        [ 2.3074e-07, -1.0217e-06, -1.2503e-07,  ..., -3.9139e-07,
+          3.7299e-07, -3.1525e-07]], device='cuda:0')
+Epoch 143, bias, value: tensor([ 0.0308, -0.0209, -0.0094,  0.0175, -0.0020, -0.0129,  0.0019,  0.0140,
+        -0.0272,  0.0133], device='cuda:0'), grad: tensor([-3.3617e-05,  1.4231e-06,  8.0764e-06,  1.9982e-05,  3.0529e-06,
+         4.4592e-06,  9.1344e-06, -1.0997e-05, -5.5917e-06,  4.0382e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 142, time 218.44, cls_loss 0.0017 cls_loss_mapping 0.0044 cls_loss_causal 0.5147 re_mapping 0.0052 re_causal 0.0154 /// teacc 98.93 lr 0.00010000
+Epoch 144, weight, value: tensor([[ 0.0127, -0.0599,  0.0166,  ..., -0.0792, -0.0986, -0.0661],
+        [-0.0863,  0.0482, -0.0578,  ..., -0.0839, -0.0753, -0.1365],
+        [-0.0646, -0.0918, -0.0819,  ..., -0.1134, -0.0640,  0.1143],
+        ...,
+        [ 0.0666, -0.0247, -0.0769,  ...,  0.0649, -0.0635, -0.0598],
+        [ 0.0977,  0.0668,  0.0381,  ..., -0.0853, -0.0821,  0.0643],
+        [ 0.0534,  0.0104,  0.0591,  ...,  0.0433, -0.0654,  0.0109]],
+       device='cuda:0'), grad: tensor([[-6.2287e-06,  7.7533e-08, -3.7346e-06,  ...,  2.6822e-07,
+          5.5041e-07,  5.9837e-07],
+        [ 4.5798e-07, -5.1968e-07,  2.0023e-07,  ...,  8.3726e-07,
+          2.1420e-07,  3.8045e-07],
+        [ 2.7008e-06,  5.0291e-07,  3.5018e-07,  ...,  1.4476e-05,
+          1.3516e-07,  2.2016e-06],
+        ...,
+        [-2.8554e-06,  2.6240e-07,  5.1409e-07,  ..., -2.4527e-05,
+          2.3327e-08, -4.4703e-06],
+        [-9.6741e-08, -3.8045e-07, -2.0629e-07,  ...,  6.6031e-07,
+          6.6776e-07,  1.8300e-07],
+        [ 2.4177e-06, -1.9977e-07,  8.9314e-07,  ...,  4.5262e-06,
+          9.4122e-08,  1.0207e-06]], device='cuda:0')
+Epoch 144, bias, value: tensor([ 0.0310, -0.0215, -0.0098,  0.0175, -0.0022, -0.0138,  0.0023,  0.0143,
+        -0.0271,  0.0136], device='cuda:0'), grad: tensor([-1.4998e-05,  1.5022e-06,  2.1711e-05,  9.3579e-06,  7.2643e-06,
+         1.7226e-05, -1.5117e-05, -4.5717e-05,  2.6766e-06,  1.6034e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 143, time 218.92, cls_loss 0.0017 cls_loss_mapping 0.0052 cls_loss_causal 0.5376 re_mapping 0.0048 re_causal 0.0151 /// teacc 98.91 lr 0.00010000
+Epoch 145, weight, value: tensor([[ 0.0128, -0.0603,  0.0167,  ..., -0.0792, -0.0989, -0.0668],
+        [-0.0867,  0.0486, -0.0585,  ..., -0.0841, -0.0762, -0.1382],
+        [-0.0647, -0.0921, -0.0821,  ..., -0.1144, -0.0641,  0.1148],
+        ...,
+        [ 0.0667, -0.0256, -0.0772,  ...,  0.0649, -0.0639, -0.0606],
+        [ 0.0979,  0.0670,  0.0383,  ..., -0.0856, -0.0822,  0.0645],
+        [ 0.0535,  0.0101,  0.0596,  ...,  0.0430, -0.0659,  0.0100]],
+       device='cuda:0'), grad: tensor([[ 1.8952e-07,  3.7788e-07, -1.6444e-08,  ...,  5.3970e-07,
+          2.2680e-05,  1.4506e-05],
+        [ 5.4622e-07, -2.5947e-06,  2.0990e-07,  ...,  1.2629e-06,
+          9.0944e-07,  9.9186e-07],
+        [-5.9465e-07,  4.1611e-06,  7.1758e-07,  ...,  2.0489e-06,
+          6.3237e-07, -8.8289e-06],
+        ...,
+        [-4.3656e-09,  2.0247e-06,  6.2864e-07,  ..., -1.3337e-06,
+          7.8371e-07,  3.3658e-06],
+        [-1.9539e-06, -2.1793e-06, -1.1735e-06,  ...,  1.8757e-06,
+          1.6717e-06,  1.1632e-06],
+        [-2.4643e-06, -3.5614e-06, -2.0750e-06,  ..., -4.3884e-06,
+          1.4119e-06,  1.4352e-06]], device='cuda:0')
+Epoch 145, bias, value: tensor([ 0.0312, -0.0221, -0.0096,  0.0176, -0.0017, -0.0140,  0.0019,  0.0144,
+        -0.0270,  0.0132], device='cuda:0'), grad: tensor([ 4.3780e-05, -2.7772e-06, -1.0557e-05,  2.7344e-05,  2.7623e-06,
+        -4.4852e-05, -3.4541e-05,  4.4182e-06,  1.9893e-05, -5.5432e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 144, time 217.57, cls_loss 0.0016 cls_loss_mapping 0.0052 cls_loss_causal 0.5126 re_mapping 0.0052 re_causal 0.0150 /// teacc 99.05 lr 0.00010000
+Epoch 146, weight, value: tensor([[ 0.0128, -0.0609,  0.0167,  ..., -0.0793, -0.0996, -0.0681],
+        [-0.0871,  0.0487, -0.0591,  ..., -0.0839, -0.0756, -0.1375],
+        [-0.0648, -0.0919, -0.0823,  ..., -0.1156, -0.0642,  0.1156],
+        ...,
+        [ 0.0665, -0.0270, -0.0785,  ...,  0.0650, -0.0645, -0.0628],
+        [ 0.0984,  0.0674,  0.0393,  ..., -0.0848, -0.0822,  0.0647],
+        [ 0.0536,  0.0103,  0.0599,  ...,  0.0431, -0.0660,  0.0099]],
+       device='cuda:0'), grad: tensor([[-4.7660e-07,  9.0688e-08, -1.0524e-07,  ...,  6.5018e-08,
+          1.0233e-07,  1.2096e-07],
+        [ 3.3935e-08, -5.9605e-07,  3.2305e-08,  ...,  1.2328e-07,
+          4.6799e-08,  2.4121e-07],
+        [ 1.0768e-07,  1.7346e-07,  6.3097e-08,  ...,  1.0082e-07,
+          1.0850e-07, -7.1116e-06],
+        ...,
+        [ 2.7823e-08,  1.4249e-07,  3.6205e-08,  ...,  7.4040e-08,
+          6.6299e-08,  5.1921e-07],
+        [-4.6915e-08,  4.2288e-08, -6.1584e-08,  ...,  3.3004e-08,
+          1.8231e-07,  5.0813e-06],
+        [ 1.3830e-07,  5.8115e-07,  4.0192e-08,  ...,  1.2843e-06,
+          1.0859e-06,  8.0839e-07]], device='cuda:0')
+Epoch 146, bias, value: tensor([ 0.0311, -0.0217, -0.0090,  0.0173, -0.0019, -0.0139,  0.0017,  0.0142,
+        -0.0269,  0.0132], device='cuda:0'), grad: tensor([-8.8383e-07, -9.1363e-07, -1.7285e-05,  2.8554e-06, -2.9430e-06,
+        -2.3027e-07,  9.0105e-07,  1.7732e-06,  1.3366e-05,  3.3211e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 145, time 217.15, cls_loss 0.0012 cls_loss_mapping 0.0036 cls_loss_causal 0.5287 re_mapping 0.0052 re_causal 0.0154 /// teacc 99.00 lr 0.00010000
+Epoch 147, weight, value: tensor([[ 0.0129, -0.0613,  0.0169,  ..., -0.0793, -0.0998, -0.0680],
+        [-0.0878,  0.0488, -0.0596,  ..., -0.0842, -0.0760, -0.1379],
+        [-0.0649, -0.0921, -0.0825,  ..., -0.1170, -0.0645,  0.1157],
+        ...,
+        [ 0.0666, -0.0271, -0.0787,  ...,  0.0652, -0.0649, -0.0631],
+        [ 0.0986,  0.0677,  0.0397,  ..., -0.0853, -0.0823,  0.0648],
+        [ 0.0537,  0.0115,  0.0601,  ...,  0.0434, -0.0658,  0.0102]],
+       device='cuda:0'), grad: tensor([[-2.3411e-07,  1.6892e-07,  1.1758e-07,  ...,  5.7230e-07,
+          4.5961e-07,  9.7696e-07],
+        [ 7.8056e-08, -2.2980e-07,  5.7044e-08,  ...,  4.7544e-07,
+          3.2969e-07,  1.0217e-06],
+        [ 1.4994e-07,  7.6718e-08,  2.8958e-08,  ..., -2.1067e-06,
+         -2.4140e-06, -1.0543e-05],
+        ...,
+        [-1.7090e-07,  3.7020e-07,  1.7800e-07,  ..., -1.4622e-07,
+          3.3318e-07,  7.8883e-07],
+        [ 1.6042e-07,  8.2073e-09,  1.8859e-08,  ...,  7.5158e-07,
+          5.5972e-07,  1.6354e-06],
+        [-2.0508e-06, -2.0470e-06, -1.7071e-06,  ..., -4.1164e-06,
+         -4.4075e-07, -1.2503e-07]], device='cuda:0')
+Epoch 147, bias, value: tensor([ 0.0315, -0.0219, -0.0091,  0.0171, -0.0024, -0.0140,  0.0017,  0.0144,
+        -0.0268,  0.0135], device='cuda:0'), grad: tensor([ 1.8370e-07,  2.3376e-06, -2.4125e-05,  5.3570e-06,  1.4156e-05,
+        -5.6624e-06,  6.5900e-06,  3.0879e-08,  6.4336e-06, -5.3532e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 146, time 217.45, cls_loss 0.0017 cls_loss_mapping 0.0048 cls_loss_causal 0.5581 re_mapping 0.0048 re_causal 0.0145 /// teacc 99.06 lr 0.00010000
+Epoch 148, weight, value: tensor([[ 0.0129, -0.0631,  0.0167,  ..., -0.0795, -0.0986, -0.0691],
+        [-0.0883,  0.0491, -0.0603,  ..., -0.0846, -0.0766, -0.1392],
+        [-0.0651, -0.0926, -0.0834,  ..., -0.1199, -0.0648,  0.1155],
+        ...,
+        [ 0.0668, -0.0281, -0.0791,  ...,  0.0656, -0.0651, -0.0627],
+        [ 0.0990,  0.0691,  0.0411,  ..., -0.0863, -0.0825,  0.0656],
+        [ 0.0537,  0.0115,  0.0604,  ...,  0.0435, -0.0659,  0.0101]],
+       device='cuda:0'), grad: tensor([[ 2.6682e-07, -4.7055e-07, -3.7928e-07,  ...,  3.0128e-07,
+          2.1532e-06,  1.9912e-06],
+        [ 3.7090e-07,  3.6694e-07,  4.6333e-07,  ...,  1.8300e-07,
+          1.4156e-07,  4.8941e-07],
+        [-2.6673e-06,  4.7870e-07,  2.6822e-07,  ...,  1.8510e-07,
+          2.1944e-07, -4.7088e-06],
+        ...,
+        [ 8.8708e-07,  6.1188e-07,  2.7916e-07,  ...,  2.4703e-07,
+          1.3737e-07,  1.4054e-06],
+        [-2.2189e-07, -1.7583e-06, -1.4855e-06,  ...,  2.7451e-07,
+          3.6042e-07,  7.6089e-07],
+        [-9.5554e-07, -9.5647e-07, -1.6140e-06,  ..., -1.6922e-06,
+          3.3923e-07, -7.4692e-07]], device='cuda:0')
+Epoch 148, bias, value: tensor([ 0.0317, -0.0222, -0.0096,  0.0168, -0.0025, -0.0141,  0.0011,  0.0146,
+        -0.0261,  0.0135], device='cuda:0'), grad: tensor([ 2.0303e-06,  2.1830e-06, -1.5348e-05,  8.9034e-07,  2.3413e-06,
+         1.2420e-05, -1.4670e-05,  5.6587e-06,  4.2282e-06,  1.8161e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 147, time 217.46, cls_loss 0.0017 cls_loss_mapping 0.0052 cls_loss_causal 0.5391 re_mapping 0.0049 re_causal 0.0150 /// teacc 99.14 lr 0.00010000
+Epoch 149, weight, value: tensor([[ 0.0130, -0.0638,  0.0169,  ..., -0.0795, -0.0981, -0.0698],
+        [-0.0894,  0.0493, -0.0613,  ..., -0.0856, -0.0772, -0.1394],
+        [-0.0655, -0.0928, -0.0840,  ..., -0.1229, -0.0656,  0.1154],
+        ...,
+        [ 0.0672, -0.0274, -0.0794,  ...,  0.0660, -0.0658, -0.0629],
+        [ 0.0993,  0.0693,  0.0417,  ..., -0.0876, -0.0828,  0.0657],
+        [ 0.0538,  0.0116,  0.0608,  ...,  0.0434, -0.0661,  0.0101]],
+       device='cuda:0'), grad: tensor([[ 4.4657e-07,  1.6042e-07,  1.7136e-07,  ...,  5.0478e-07,
+          1.3653e-06,  1.1483e-06],
+        [ 3.6485e-07, -1.3609e-07,  1.5018e-07,  ...,  1.0687e-07,
+          4.4378e-07,  5.2247e-07],
+        [ 5.8301e-07,  3.3039e-07,  2.5635e-07,  ...,  6.2515e-08,
+          2.0617e-07, -3.5949e-07],
+        ...,
+        [-1.6866e-06,  2.1257e-07,  1.9604e-07,  ..., -1.4715e-06,
+          7.8813e-08,  3.2247e-07],
+        [-2.5313e-06, -1.1874e-06, -1.0850e-06,  ...,  3.8533e-07,
+         -4.4308e-07, -1.2880e-06],
+        [-6.6543e-07, -2.6589e-07, -7.0920e-07,  ..., -1.2731e-06,
+          2.1909e-07, -2.5006e-07]], device='cuda:0')
+Epoch 149, bias, value: tensor([ 0.0321, -0.0222, -0.0100,  0.0168, -0.0023, -0.0147,  0.0005,  0.0153,
+        -0.0262,  0.0136], device='cuda:0'), grad: tensor([ 3.0324e-06,  6.4028e-07, -3.4319e-07,  3.3993e-06,  4.9144e-05,
+         4.9127e-07, -4.6909e-05, -5.0068e-06, -4.1090e-06, -3.4762e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 148, time 217.19, cls_loss 0.0013 cls_loss_mapping 0.0032 cls_loss_causal 0.5361 re_mapping 0.0048 re_causal 0.0151 /// teacc 99.08 lr 0.00010000
+Epoch 150, weight, value: tensor([[ 0.0132, -0.0647,  0.0169,  ..., -0.0796, -0.0981, -0.0698],
+        [-0.0895,  0.0495, -0.0632,  ..., -0.0864, -0.0777, -0.1406],
+        [-0.0656, -0.0931, -0.0842,  ..., -0.1233, -0.0657,  0.1158],
+        ...,
+        [ 0.0672, -0.0279, -0.0798,  ...,  0.0662, -0.0662, -0.0635],
+        [ 0.0994,  0.0694,  0.0419,  ..., -0.0882, -0.0828,  0.0657],
+        [ 0.0539,  0.0120,  0.0612,  ...,  0.0435, -0.0661,  0.0101]],
+       device='cuda:0'), grad: tensor([[ 7.5437e-07,  1.3644e-07,  2.5053e-07,  ...,  4.3097e-07,
+          2.6338e-06,  1.7332e-06],
+        [ 9.1852e-08, -7.5474e-06,  1.4290e-08,  ...,  1.4016e-07,
+          1.1316e-07, -8.1435e-06],
+        [ 3.1502e-07,  3.9861e-06,  6.2340e-08,  ...,  2.8498e-07,
+          1.3085e-07,  4.3958e-06],
+        ...,
+        [-2.5742e-06, -4.5821e-07,  1.3015e-07,  ..., -2.5425e-06,
+          7.2876e-08, -1.0151e-07],
+        [ 9.3412e-07,  2.1923e-06,  6.2515e-08,  ...,  5.8487e-07,
+          2.8852e-06,  4.0233e-06],
+        [ 6.5891e-07,  4.7777e-07, -5.5926e-07,  ...,  8.0559e-07,
+          2.0512e-07,  3.8464e-07]], device='cuda:0')
+Epoch 150, bias, value: tensor([ 3.2202e-02, -2.2596e-02, -9.8498e-03,  1.7229e-02, -2.2204e-03,
+        -1.4884e-02,  5.5253e-05,  1.5279e-02, -2.6350e-02,  1.3674e-02],
+       device='cuda:0'), grad: tensor([ 5.5954e-06, -3.2216e-05,  1.7807e-05,  1.0185e-05,  4.6641e-06,
+        -1.7509e-05, -1.8757e-06, -4.8354e-06,  1.5363e-05,  2.7511e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 149, time 216.87, cls_loss 0.0016 cls_loss_mapping 0.0042 cls_loss_causal 0.5403 re_mapping 0.0048 re_causal 0.0149 /// teacc 99.00 lr 0.00010000
+Epoch 151, weight, value: tensor([[ 0.0130, -0.0658,  0.0167,  ..., -0.0796, -0.1005, -0.0726],
+        [-0.0899,  0.0500, -0.0638,  ..., -0.0869, -0.0784, -0.1406],
+        [-0.0656, -0.0933, -0.0844,  ..., -0.1243, -0.0662,  0.1159],
+        ...,
+        [ 0.0672, -0.0286, -0.0802,  ...,  0.0663, -0.0665, -0.0641],
+        [ 0.0998,  0.0697,  0.0423,  ..., -0.0892, -0.0829,  0.0661],
+        [ 0.0540,  0.0122,  0.0616,  ...,  0.0436, -0.0662,  0.0100]],
+       device='cuda:0'), grad: tensor([[ 3.6019e-07,  3.9535e-07,  1.6054e-07,  ...,  5.7323e-07,
+          2.6566e-07,  5.4063e-07],
+        [ 6.0955e-07, -2.5053e-07,  1.5181e-07,  ...,  1.0598e-06,
+          2.7753e-07,  2.3679e-07],
+        [ 2.1351e-07,  5.1176e-07,  7.0664e-08,  ...,  3.1968e-07,
+          3.4372e-08, -2.5854e-06],
+        ...,
+        [ 1.7649e-06,  2.5518e-06,  1.2061e-06,  ...,  2.9448e-06,
+          1.8217e-06,  2.4196e-06],
+        [ 1.0999e-06,  1.2927e-06,  5.2666e-07,  ...,  1.7267e-06,
+          7.4785e-07,  1.1148e-06],
+        [-2.4617e-05, -2.3559e-05, -1.0960e-05,  ..., -3.4899e-05,
+         -1.4372e-05, -2.0668e-05]], device='cuda:0')
+Epoch 151, bias, value: tensor([ 3.1667e-02, -2.2049e-02, -9.8336e-03,  1.6618e-02, -2.2240e-03,
+        -1.4322e-02, -2.9679e-05,  1.5170e-02, -2.6093e-02,  1.3706e-02],
+       device='cuda:0'), grad: tensor([ 1.6559e-06, -6.7800e-07, -3.0156e-06, -6.9849e-07,  5.0515e-05,
+         9.3039e-07,  3.9786e-06,  5.7705e-06,  4.1276e-06, -6.2644e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 150, time 217.43, cls_loss 0.0014 cls_loss_mapping 0.0045 cls_loss_causal 0.5438 re_mapping 0.0049 re_causal 0.0150 /// teacc 99.08 lr 0.00010000
+Epoch 152, weight, value: tensor([[ 0.0132, -0.0664,  0.0168,  ..., -0.0797, -0.1008, -0.0727],
+        [-0.0903,  0.0501, -0.0641,  ..., -0.0877, -0.0793, -0.1410],
+        [-0.0657, -0.0936, -0.0845,  ..., -0.1250, -0.0668,  0.1162],
+        ...,
+        [ 0.0672, -0.0292, -0.0806,  ...,  0.0663, -0.0674, -0.0653],
+        [ 0.0998,  0.0698,  0.0423,  ..., -0.0900, -0.0831,  0.0659],
+        [ 0.0541,  0.0123,  0.0618,  ...,  0.0435, -0.0664,  0.0099]],
+       device='cuda:0'), grad: tensor([[-6.8471e-06,  6.6997e-08, -1.9167e-06,  ..., -1.2573e-06,
+         -1.5199e-06, -1.4193e-06],
+        [ 5.0711e-07, -5.2620e-07,  5.2853e-07,  ...,  8.0909e-08,
+          4.1281e-07,  4.5286e-07],
+        [ 5.5647e-07, -2.1886e-08,  1.8103e-07,  ...,  1.9348e-07,
+          1.5099e-07, -7.8185e-07],
+        ...,
+        [ 1.6261e-06,  1.0002e-06,  9.9745e-07,  ...,  1.2973e-06,
+          2.1886e-08,  3.2736e-07],
+        [ 5.3225e-07,  2.7986e-07,  1.6252e-07,  ...,  1.6484e-07,
+          1.5320e-07,  7.0781e-07],
+        [-3.2189e-08, -1.9204e-06, -1.7639e-06,  ..., -4.0904e-06,
+          5.2067e-08, -5.8999e-07]], device='cuda:0')
+Epoch 152, bias, value: tensor([ 0.0319, -0.0220, -0.0097,  0.0170, -0.0020, -0.0139, -0.0006,  0.0150,
+        -0.0264,  0.0135], device='cuda:0'), grad: tensor([-3.4124e-05,  4.6864e-06,  1.6931e-06,  2.4997e-06,  2.0787e-06,
+         7.3574e-06,  9.9242e-06,  4.6417e-06,  3.7644e-06, -2.5462e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 151, time 217.56, cls_loss 0.0013 cls_loss_mapping 0.0040 cls_loss_causal 0.5319 re_mapping 0.0049 re_causal 0.0154 /// teacc 99.09 lr 0.00010000
+Epoch 153, weight, value: tensor([[ 0.0131, -0.0670,  0.0168,  ..., -0.0801, -0.1011, -0.0730],
+        [-0.0906,  0.0507, -0.0647,  ..., -0.0881, -0.0798, -0.1411],
+        [-0.0658, -0.0940, -0.0848,  ..., -0.1256, -0.0674,  0.1163],
+        ...,
+        [ 0.0673, -0.0297, -0.0809,  ...,  0.0664, -0.0684, -0.0660],
+        [ 0.1004,  0.0708,  0.0437,  ..., -0.0906, -0.0828,  0.0665],
+        [ 0.0543,  0.0124,  0.0622,  ...,  0.0437, -0.0664,  0.0099]],
+       device='cuda:0'), grad: tensor([[-1.7822e-05,  5.3580e-08, -5.2229e-06,  ...,  3.2852e-07,
+         -5.1335e-06, -4.0643e-06],
+        [ 4.1490e-07, -1.1252e-07,  1.0524e-07,  ...,  1.4598e-07,
+          1.6834e-07,  2.5798e-07],
+        [ 8.0140e-07,  1.9907e-07,  2.0128e-07,  ...,  1.5879e-07,
+          8.4657e-07, -5.9605e-07],
+        ...,
+        [-2.1921e-07,  9.5577e-08,  8.5682e-08,  ..., -1.1083e-06,
+          1.0408e-07,  3.3202e-07],
+        [ 4.4256e-06,  1.3774e-06,  2.6543e-06,  ...,  1.6363e-06,
+          3.1553e-06,  4.1835e-06],
+        [ 7.0035e-07, -3.2373e-06, -3.1814e-06,  ..., -2.5984e-06,
+          4.7358e-07, -1.6047e-06]], device='cuda:0')
+Epoch 153, bias, value: tensor([ 0.0318, -0.0215, -0.0098,  0.0168, -0.0021, -0.0145, -0.0008,  0.0149,
+        -0.0258,  0.0136], device='cuda:0'), grad: tensor([-6.2644e-05,  1.4743e-06,  3.8892e-06,  2.8670e-05,  7.1526e-06,
+        -5.3763e-05,  4.3392e-05, -1.6676e-08,  3.0145e-05,  1.7183e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 152, time 217.17, cls_loss 0.0014 cls_loss_mapping 0.0033 cls_loss_causal 0.5401 re_mapping 0.0048 re_causal 0.0150 /// teacc 99.00 lr 0.00010000
+Epoch 154, weight, value: tensor([[ 0.0131, -0.0677,  0.0167,  ..., -0.0803, -0.1014, -0.0737],
+        [-0.0905,  0.0513, -0.0655,  ..., -0.0887, -0.0801, -0.1416],
+        [-0.0659, -0.0943, -0.0851,  ..., -0.1272, -0.0679,  0.1163],
+        ...,
+        [ 0.0674, -0.0302, -0.0812,  ...,  0.0666, -0.0693, -0.0666],
+        [ 0.1005,  0.0711,  0.0442,  ..., -0.0915, -0.0828,  0.0667],
+        [ 0.0544,  0.0125,  0.0624,  ...,  0.0437, -0.0665,  0.0098]],
+       device='cuda:0'), grad: tensor([[ 1.7341e-06,  2.4196e-06,  1.7714e-06,  ...,  1.4831e-07,
+          2.2864e-07,  1.1716e-06],
+        [ 3.0617e-07,  3.0338e-07,  2.2247e-07,  ...,  3.2573e-07,
+          1.8696e-07,  2.3958e-07],
+        [ 2.7986e-07,  3.0361e-07,  1.9441e-07,  ...,  1.3201e-07,
+          9.1677e-08,  1.5041e-07],
+        ...,
+        [ 4.1793e-08,  2.4447e-07,  1.4727e-07,  ..., -1.5320e-07,
+          1.3772e-07,  1.6426e-07],
+        [-5.5321e-06, -5.2452e-06, -4.3437e-06,  ...,  1.2293e-07,
+          7.9686e-08, -2.5518e-06],
+        [ 9.4529e-07,  6.6170e-07,  5.8021e-07,  ...,  9.6567e-08,
+          2.2806e-07,  6.0117e-07]], device='cuda:0')
+Epoch 154, bias, value: tensor([ 0.0319, -0.0211, -0.0099,  0.0162, -0.0021, -0.0137, -0.0010,  0.0149,
+        -0.0258,  0.0136], device='cuda:0'), grad: tensor([ 4.3884e-06,  1.3728e-06,  1.1837e-06,  8.3819e-07, -1.3430e-06,
+         2.3134e-06,  6.6869e-07,  3.0315e-07, -1.2808e-05,  3.0603e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 153, time 217.34, cls_loss 0.0014 cls_loss_mapping 0.0040 cls_loss_causal 0.5278 re_mapping 0.0047 re_causal 0.0147 /// teacc 99.06 lr 0.00010000
+Epoch 155, weight, value: tensor([[ 0.0131, -0.0690,  0.0166,  ..., -0.0804, -0.1019, -0.0747],
+        [-0.0915,  0.0514, -0.0665,  ..., -0.0896, -0.0832, -0.1431],
+        [-0.0659, -0.0946, -0.0854,  ..., -0.1303, -0.0700,  0.1161],
+        ...,
+        [ 0.0674, -0.0311, -0.0815,  ...,  0.0671, -0.0684, -0.0654],
+        [ 0.1010,  0.0716,  0.0450,  ..., -0.0925, -0.0829,  0.0669],
+        [ 0.0545,  0.0126,  0.0626,  ...,  0.0438, -0.0666,  0.0095]],
+       device='cuda:0'), grad: tensor([[-5.6103e-06,  1.7358e-07,  2.5786e-08,  ..., -1.6484e-07,
+          4.5868e-08,  8.2655e-08],
+        [ 1.4086e-07, -1.7136e-06, -5.9837e-08,  ...,  3.0559e-09,
+         -7.4622e-08,  1.3714e-07],
+        [ 7.6182e-07,  4.1723e-07,  3.1432e-07,  ...,  2.0867e-08,
+          6.2399e-08, -3.4762e-07],
+        ...,
+        [ 3.8277e-07,  1.4750e-07,  6.6531e-08,  ...,  2.7969e-08,
+          8.7020e-09,  1.1467e-07],
+        [-6.5099e-07,  4.6776e-07, -4.7358e-07,  ...,  1.4435e-08,
+          9.1386e-08, -2.1863e-07],
+        [ 4.4368e-06,  1.2410e-07, -1.8044e-09,  ...,  8.6147e-08,
+          2.9715e-08,  5.1834e-08]], device='cuda:0')
+Epoch 155, bias, value: tensor([ 0.0317, -0.0232, -0.0103,  0.0162, -0.0020, -0.0138,  0.0002,  0.0154,
+        -0.0256,  0.0135], device='cuda:0'), grad: tensor([-1.8671e-05, -3.0864e-06,  1.2880e-06,  1.3197e-06,  6.2678e-07,
+        -3.8221e-06,  2.1122e-06,  1.7304e-06,  1.8151e-06,  1.6704e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 154, time 217.23, cls_loss 0.0014 cls_loss_mapping 0.0046 cls_loss_causal 0.4882 re_mapping 0.0047 re_causal 0.0142 /// teacc 99.08 lr 0.00010000
+Epoch 156, weight, value: tensor([[ 0.0142, -0.0662,  0.0177,  ..., -0.0804, -0.1024, -0.0742],
+        [-0.0919,  0.0514, -0.0670,  ..., -0.0900, -0.0831, -0.1437],
+        [-0.0661, -0.0949, -0.0855,  ..., -0.1304, -0.0702,  0.1169],
+        ...,
+        [ 0.0676, -0.0320, -0.0817,  ...,  0.0673, -0.0692, -0.0672],
+        [ 0.1011,  0.0717,  0.0450,  ..., -0.0936, -0.0830,  0.0670],
+        [ 0.0539,  0.0119,  0.0622,  ...,  0.0440, -0.0666,  0.0095]],
+       device='cuda:0'), grad: tensor([[ 3.0827e-07,  2.8522e-07, -6.6357e-09,  ...,  4.9267e-07,
+          1.8044e-07,  6.4634e-07],
+        [ 2.8824e-07, -1.3076e-06,  5.5472e-08,  ..., -2.7212e-08,
+         -6.3388e-08,  3.2852e-07],
+        [-4.5933e-06,  6.5751e-07,  4.9709e-08,  ...,  1.6333e-07,
+          1.0640e-07, -7.9349e-06],
+        ...,
+        [ 3.0976e-06,  1.3150e-06,  5.4669e-07,  ...,  7.4646e-07,
+          1.2910e-07,  4.2915e-06],
+        [ 1.1530e-06,  1.6531e-07, -2.4564e-08,  ...,  1.2992e-07,
+          9.3307e-08,  1.8394e-06],
+        [-2.3022e-06, -2.6207e-06, -1.2526e-06,  ..., -2.6450e-06,
+          2.1304e-08, -7.0722e-09]], device='cuda:0')
+Epoch 156, bias, value: tensor([ 3.3375e-02, -2.3580e-02, -9.5301e-03,  1.5859e-02, -2.1910e-03,
+        -1.3171e-02, -5.8726e-05,  1.4723e-02, -2.5616e-02,  1.2923e-02],
+       device='cuda:0'), grad: tensor([ 9.4902e-07, -2.3842e-06, -1.9282e-05,  2.3618e-06,  3.2652e-06,
+         7.4646e-07,  7.8930e-08,  1.3679e-05,  5.6848e-06, -5.1409e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 155, time 217.17, cls_loss 0.0015 cls_loss_mapping 0.0042 cls_loss_causal 0.5543 re_mapping 0.0048 re_causal 0.0152 /// teacc 99.10 lr 0.00010000
+Epoch 157, weight, value: tensor([[ 0.0140, -0.0665,  0.0176,  ..., -0.0807, -0.1027, -0.0747],
+        [-0.0932,  0.0516, -0.0674,  ..., -0.0905, -0.0833, -0.1453],
+        [-0.0657, -0.0952, -0.0855,  ..., -0.1307, -0.0709,  0.1181],
+        ...,
+        [ 0.0676, -0.0342, -0.0831,  ...,  0.0672, -0.0710, -0.0693],
+        [ 0.1012,  0.0719,  0.0448,  ..., -0.0947, -0.0830,  0.0668],
+        [ 0.0542,  0.0120,  0.0626,  ...,  0.0440, -0.0668,  0.0093]],
+       device='cuda:0'), grad: tensor([[ 5.4686e-08,  1.4610e-07,  1.0157e-07,  ...,  1.2992e-07,
+          3.0012e-07,  3.0268e-07],
+        [ 6.0012e-08, -3.9442e-07,  5.5355e-08,  ...,  8.0443e-08,
+          1.3341e-07,  1.7218e-07],
+        [-5.1310e-08,  2.5611e-07,  8.3179e-08,  ...,  1.1933e-07,
+          2.3062e-07, -5.7183e-07],
+        ...,
+        [-1.4424e-07,  3.4808e-07,  1.5914e-07,  ..., -1.7672e-07,
+          1.5961e-07,  2.3190e-07],
+        [ 1.0885e-07,  2.6636e-07,  1.0645e-06,  ...,  1.3632e-07,
+          3.6210e-06,  3.1460e-06],
+        [-6.4587e-07, -6.9663e-07, -7.4739e-07,  ..., -3.2340e-07,
+          4.2870e-08, -6.6939e-08]], device='cuda:0')
+Epoch 157, bias, value: tensor([ 0.0331, -0.0244, -0.0084,  0.0172, -0.0020, -0.0138, -0.0002,  0.0137,
+        -0.0258,  0.0130], device='cuda:0'), grad: tensor([ 7.9209e-07, -6.5845e-07, -6.0070e-07,  2.7870e-07,  2.2259e-06,
+        -4.0117e-07, -7.8306e-06,  2.3411e-07,  6.8173e-06, -8.8383e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 156, time 216.73, cls_loss 0.0013 cls_loss_mapping 0.0039 cls_loss_causal 0.5491 re_mapping 0.0050 re_causal 0.0154 /// teacc 99.04 lr 0.00010000
+Epoch 158, weight, value: tensor([[ 0.0140, -0.0667,  0.0176,  ..., -0.0808, -0.1035, -0.0755],
+        [-0.0940,  0.0528, -0.0674,  ..., -0.0911, -0.0836, -0.1464],
+        [-0.0657, -0.0954, -0.0858,  ..., -0.1311, -0.0715,  0.1184],
+        ...,
+        [ 0.0676, -0.0349, -0.0835,  ...,  0.0672, -0.0724, -0.0700],
+        [ 0.1015,  0.0723,  0.0451,  ..., -0.0955, -0.0831,  0.0671],
+        [ 0.0542,  0.0122,  0.0630,  ...,  0.0440, -0.0669,  0.0092]],
+       device='cuda:0'), grad: tensor([[ 3.9907e-07,  4.5681e-07,  6.2166e-07,  ...,  1.1688e-06,
+          4.5425e-07,  7.3016e-07],
+        [ 8.8802e-07,  6.9663e-07,  1.8848e-07,  ...,  5.8785e-06,
+          2.1067e-06,  1.8049e-06],
+        [ 3.7299e-07,  6.8638e-07,  2.0629e-07,  ...,  1.0533e-06,
+          3.6112e-07, -3.0790e-06],
+        ...,
+        [-1.2182e-06, -4.2608e-07,  2.9267e-07,  ..., -1.3830e-06,
+          5.9046e-07, -2.0314e-07],
+        [ 1.5879e-06,  5.9139e-07,  2.7250e-06,  ...,  4.1015e-06,
+          1.6512e-06,  2.0061e-06],
+        [-6.2175e-06, -5.8152e-06, -1.2450e-05,  ..., -1.2740e-05,
+         -4.7870e-06, -1.0207e-05]], device='cuda:0')
+Epoch 158, bias, value: tensor([ 3.3105e-02, -2.4437e-02, -8.0865e-03,  1.9677e-02, -1.8779e-03,
+        -1.6710e-02,  4.4499e-05,  1.3388e-02, -2.5679e-02,  1.2878e-02],
+       device='cuda:0'), grad: tensor([ 3.5446e-06,  1.3918e-05, -5.9158e-06,  1.0765e-04,  8.8140e-06,
+        -1.0520e-04,  3.6303e-06, -4.8913e-06,  9.9540e-06, -3.1680e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 157, time 217.17, cls_loss 0.0016 cls_loss_mapping 0.0033 cls_loss_causal 0.5289 re_mapping 0.0047 re_causal 0.0142 /// teacc 98.92 lr 0.00010000
+Epoch 159, weight, value: tensor([[ 0.0137, -0.0674,  0.0172,  ..., -0.0813, -0.1043, -0.0767],
+        [-0.0947,  0.0530, -0.0690,  ..., -0.0919, -0.0839, -0.1476],
+        [-0.0658, -0.0957, -0.0862,  ..., -0.1315, -0.0721,  0.1189],
+        ...,
+        [ 0.0677, -0.0355, -0.0839,  ...,  0.0673, -0.0731, -0.0709],
+        [ 0.1018,  0.0728,  0.0452,  ..., -0.0965, -0.0837,  0.0672],
+        [ 0.0547,  0.0129,  0.0642,  ...,  0.0442, -0.0670,  0.0093]],
+       device='cuda:0'), grad: tensor([[ 1.2317e-07,  6.3423e-07,  4.2915e-06,  ...,  5.6531e-07,
+          6.3155e-09,  1.8452e-07],
+        [-1.0495e-07, -2.2398e-07,  1.0664e-06,  ...,  3.1199e-07,
+          1.1059e-08,  1.6950e-07],
+        [ 3.5670e-07,  1.2005e-06,  5.0157e-05,  ...,  1.1502e-06,
+          8.4692e-09,  3.0664e-07],
+        ...,
+        [-1.0978e-07,  7.8138e-07,  2.4177e-06,  ..., -1.3411e-07,
+          9.6043e-09,  1.6077e-07],
+        [ 3.5809e-07,  2.5071e-06,  2.0891e-05,  ...,  2.4959e-06,
+          6.2864e-09,  6.5798e-07],
+        [-6.6832e-06, -3.2783e-05, -3.3051e-05,  ..., -2.9907e-05,
+          1.3981e-07, -1.0327e-05]], device='cuda:0')
+Epoch 159, bias, value: tensor([ 0.0325, -0.0249, -0.0079,  0.0194, -0.0018, -0.0167,  0.0009,  0.0132,
+        -0.0259,  0.0132], device='cuda:0'), grad: tensor([ 6.9380e-05,  8.5756e-06,  8.9550e-04,  6.9094e-04,  1.8969e-05,
+        -2.0180e-03,  1.8850e-05,  3.4928e-05,  3.4022e-04, -5.9366e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 158, time 217.27, cls_loss 0.0013 cls_loss_mapping 0.0041 cls_loss_causal 0.5297 re_mapping 0.0048 re_causal 0.0145 /// teacc 99.11 lr 0.00010000
+Epoch 160, weight, value: tensor([[ 0.0132, -0.0679,  0.0163,  ..., -0.0823, -0.1048, -0.0780],
+        [-0.0955,  0.0530, -0.0707,  ..., -0.0927, -0.0847, -0.1487],
+        [-0.0658, -0.0957, -0.0869,  ..., -0.1319, -0.0728,  0.1191],
+        ...,
+        [ 0.0676, -0.0363, -0.0846,  ...,  0.0672, -0.0738, -0.0720],
+        [ 0.1018,  0.0735,  0.0458,  ..., -0.0972, -0.0842,  0.0671],
+        [ 0.0553,  0.0133,  0.0653,  ...,  0.0445, -0.0673,  0.0091]],
+       device='cuda:0'), grad: tensor([[ 1.0629e-07,  1.3527e-07,  1.2980e-08,  ...,  9.0688e-08,
+          1.2910e-07,  4.9034e-07],
+        [-5.7090e-07, -2.9840e-06,  3.6962e-08,  ..., -1.4540e-07,
+          4.8865e-08,  8.8301e-08],
+        [ 6.3889e-07,  1.2340e-06,  3.5681e-08,  ...,  4.3958e-07,
+          1.0442e-07, -7.4971e-07],
+        ...,
+        [-1.1707e-06,  7.2736e-07,  3.0239e-08,  ..., -9.9931e-07,
+          3.5565e-08,  7.6951e-08],
+        [-1.7695e-07, -1.8871e-07, -1.3551e-07,  ...,  7.3458e-08,
+          1.8731e-07,  1.4564e-07],
+        [ 3.7416e-07, -2.5175e-08, -8.0327e-08,  ...,  1.8440e-07,
+          2.0431e-08,  4.4674e-08]], device='cuda:0')
+Epoch 160, bias, value: tensor([ 0.0317, -0.0256, -0.0081,  0.0189, -0.0015, -0.0160,  0.0011,  0.0129,
+        -0.0260,  0.0136], device='cuda:0'), grad: tensor([ 2.7064e-06, -9.0674e-06,  3.8277e-07,  3.9265e-06,  1.3690e-06,
+         6.0862e-07, -7.8557e-07, -1.2647e-06,  3.7206e-07,  1.7770e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 159, time 217.59, cls_loss 0.0011 cls_loss_mapping 0.0039 cls_loss_causal 0.5030 re_mapping 0.0048 re_causal 0.0143 /// teacc 99.03 lr 0.00010000
+Epoch 161, weight, value: tensor([[ 0.0133, -0.0681,  0.0164,  ..., -0.0824, -0.1052, -0.0785],
+        [-0.0961,  0.0538, -0.0713,  ..., -0.0930, -0.0848, -0.1489],
+        [-0.0660, -0.0965, -0.0871,  ..., -0.1324, -0.0730,  0.1191],
+        ...,
+        [ 0.0681, -0.0358, -0.0843,  ...,  0.0676, -0.0742, -0.0722],
+        [ 0.1020,  0.0739,  0.0461,  ..., -0.0978, -0.0843,  0.0673],
+        [ 0.0553,  0.0132,  0.0655,  ...,  0.0444, -0.0674,  0.0089]],
+       device='cuda:0'), grad: tensor([[ 7.2352e-08,  8.0152e-08,  2.6659e-08,  ...,  7.0082e-08,
+          5.4017e-08,  6.7404e-08],
+        [ 3.5553e-07,  1.3469e-07,  7.9744e-08,  ...,  9.0746e-08,
+          6.5309e-08,  1.4657e-07],
+        [ 1.1008e-06,  3.4319e-07,  4.5664e-08,  ...,  2.6613e-07,
+          8.8185e-08, -2.5542e-07],
+        ...,
+        [-3.8482e-06, -7.7300e-07,  5.1281e-08,  ...,  2.9360e-07,
+          6.8126e-07,  7.1479e-07],
+        [-1.7472e-06, -1.3895e-06, -4.6100e-07,  ...,  9.2201e-08,
+          1.5914e-07, -4.7823e-07],
+        [ 7.5321e-08, -7.1130e-08, -1.5087e-07,  ...,  3.0478e-07,
+          2.9593e-07,  1.5704e-07]], device='cuda:0')
+Epoch 161, bias, value: tensor([ 0.0317, -0.0259, -0.0081,  0.0186, -0.0015, -0.0160,  0.0012,  0.0137,
+        -0.0259,  0.0134], device='cuda:0'), grad: tensor([ 3.5600e-07,  9.2946e-07,  2.5965e-06,  5.5060e-06, -1.9539e-06,
+         4.3921e-06,  1.2247e-07, -7.6741e-06, -5.1372e-06,  8.5589e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 160, time 217.33, cls_loss 0.0014 cls_loss_mapping 0.0033 cls_loss_causal 0.4999 re_mapping 0.0047 re_causal 0.0140 /// teacc 98.97 lr 0.00010000
+Epoch 162, weight, value: tensor([[ 0.0133, -0.0684,  0.0163,  ..., -0.0825, -0.1057, -0.0794],
+        [-0.0977,  0.0536, -0.0718,  ..., -0.0943, -0.0851, -0.1493],
+        [-0.0662, -0.0972, -0.0875,  ..., -0.1327, -0.0730,  0.1191],
+        ...,
+        [ 0.0688, -0.0347, -0.0839,  ...,  0.0679, -0.0745, -0.0723],
+        [ 0.1026,  0.0746,  0.0471,  ..., -0.0983, -0.0844,  0.0678],
+        [ 0.0552,  0.0130,  0.0653,  ...,  0.0441, -0.0679,  0.0080]],
+       device='cuda:0'), grad: tensor([[ 1.8289e-07,  1.3085e-07,  2.7940e-07,  ...,  4.2841e-07,
+          7.2352e-08,  4.3586e-07],
+        [-1.0617e-07, -9.2573e-07,  4.3539e-08,  ...,  9.4587e-09,
+          1.5600e-08,  1.0978e-07],
+        [ 4.4447e-07,  1.6030e-07,  1.9209e-07,  ...,  7.2177e-07,
+          7.5437e-08, -2.0433e-06],
+        ...,
+        [ 7.8056e-08,  5.2201e-07,  3.6717e-07,  ..., -3.8091e-07,
+         -1.3679e-09,  9.0944e-07],
+        [-2.3667e-07, -4.0774e-08, -1.9348e-07,  ...,  2.7916e-07,
+          7.6718e-08,  4.4354e-08],
+        [-1.3150e-06, -3.0530e-08, -1.0468e-06,  ..., -2.0303e-06,
+          2.2992e-09, -4.7823e-07]], device='cuda:0')
+Epoch 162, bias, value: tensor([ 0.0316, -0.0266, -0.0083,  0.0183, -0.0009, -0.0157,  0.0011,  0.0145,
+        -0.0256,  0.0129], device='cuda:0'), grad: tensor([ 1.6866e-06, -3.3602e-06, -1.0714e-05,  4.1090e-06,  2.8946e-06,
+         1.4314e-06,  7.4273e-08,  6.4895e-06,  1.3057e-06, -3.9339e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 161, time 217.44, cls_loss 0.0015 cls_loss_mapping 0.0034 cls_loss_causal 0.5231 re_mapping 0.0045 re_causal 0.0140 /// teacc 98.96 lr 0.00010000
+Epoch 163, weight, value: tensor([[ 0.0133, -0.0686,  0.0165,  ..., -0.0826, -0.1066, -0.0804],
+        [-0.0992,  0.0533, -0.0728,  ..., -0.0956, -0.0852, -0.1504],
+        [-0.0662, -0.0978, -0.0883,  ..., -0.1329, -0.0731,  0.1196],
+        ...,
+        [ 0.0691, -0.0344, -0.0844,  ...,  0.0680, -0.0751, -0.0734],
+        [ 0.1029,  0.0751,  0.0473,  ..., -0.0998, -0.0848,  0.0680],
+        [ 0.0556,  0.0136,  0.0664,  ...,  0.0443, -0.0681,  0.0085]],
+       device='cuda:0'), grad: tensor([[-6.3442e-06,  1.1525e-07, -4.9913e-08,  ..., -1.4319e-08,
+          1.7462e-10,  5.2067e-08],
+        [ 2.3178e-07, -2.4393e-05,  1.9412e-08,  ...,  3.4343e-09,
+          1.2224e-09,  1.6851e-08],
+        [-5.3383e-06,  3.2578e-06,  1.0181e-07,  ...,  4.4529e-09,
+          1.7462e-10, -5.5917e-06],
+        ...,
+        [ 6.6534e-06,  1.9908e-05,  3.8097e-08,  ...,  9.4296e-09,
+          2.3283e-10,  5.5395e-06],
+        [-1.4785e-07, -7.4646e-07, -4.1164e-07,  ...,  9.8080e-09,
+          1.1642e-10, -5.4156e-07],
+        [ 1.5981e-06,  8.0839e-07,  3.2457e-07,  ..., -1.5600e-08,
+          4.0745e-10,  3.7532e-07]], device='cuda:0')
+Epoch 163, bias, value: tensor([ 0.0314, -0.0267, -0.0079,  0.0175, -0.0013, -0.0150,  0.0009,  0.0145,
+        -0.0257,  0.0132], device='cuda:0'), grad: tensor([-2.1473e-05, -3.8838e-04,  3.3021e-05,  1.9610e-05,  1.1019e-05,
+        -9.9689e-06,  9.7826e-06,  3.3689e-04,  6.5472e-07,  8.8066e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 162, time 217.24, cls_loss 0.0015 cls_loss_mapping 0.0041 cls_loss_causal 0.5165 re_mapping 0.0047 re_causal 0.0139 /// teacc 99.10 lr 0.00010000
+Epoch 164, weight, value: tensor([[ 0.0133, -0.0689,  0.0165,  ..., -0.0826, -0.1071, -0.0814],
+        [-0.0979,  0.0548, -0.0742,  ..., -0.0972, -0.0854, -0.1511],
+        [-0.0659, -0.0984, -0.0887,  ..., -0.1332, -0.0731,  0.1200],
+        ...,
+        [ 0.0686, -0.0364, -0.0843,  ...,  0.0686, -0.0750, -0.0733],
+        [ 0.1031,  0.0754,  0.0479,  ..., -0.1002, -0.0850,  0.0683],
+        [ 0.0555,  0.0143,  0.0665,  ...,  0.0444, -0.0681,  0.0085]],
+       device='cuda:0'), grad: tensor([[ 1.9092e-07,  4.0466e-07,  2.9220e-07,  ...,  2.5425e-07,
+         -6.8685e-09,  6.8266e-07],
+        [ 1.1484e-07, -9.1549e-07,  2.8114e-08,  ..., -4.0187e-07,
+          2.9162e-08,  5.1106e-08],
+        [ 8.0187e-07,  4.0233e-07,  7.1363e-08,  ...,  9.4995e-07,
+          1.5367e-08, -3.6496e-08],
+        ...,
+        [-3.4701e-06, -8.2143e-07,  1.6997e-07,  ..., -4.1723e-06,
+          4.9185e-08,  1.0623e-07],
+        [-2.5630e-06, -1.2890e-06, -1.5730e-06,  ...,  2.1560e-07,
+          8.5449e-08, -5.4156e-07],
+        [ 3.4552e-06,  3.3341e-06,  4.3004e-07,  ...,  1.2748e-05,
+          5.7295e-06,  4.6790e-06]], device='cuda:0')
+Epoch 164, bias, value: tensor([ 0.0313, -0.0260, -0.0079,  0.0175, -0.0015, -0.0150,  0.0011,  0.0141,
+        -0.0260,  0.0134], device='cuda:0'), grad: tensor([-7.8529e-06, -2.5835e-06,  1.7202e-06,  8.5589e-07, -1.3806e-05,
+         5.1409e-07,  8.0466e-06, -5.4799e-06, -5.1036e-06,  2.3693e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 163, time 217.35, cls_loss 0.0019 cls_loss_mapping 0.0058 cls_loss_causal 0.4869 re_mapping 0.0049 re_causal 0.0137 /// teacc 98.98 lr 0.00010000
+Epoch 165, weight, value: tensor([[ 0.0141, -0.0686,  0.0174,  ..., -0.0828, -0.1076, -0.0805],
+        [-0.0958,  0.0579, -0.0757,  ..., -0.0994, -0.0858, -0.1519],
+        [-0.0662, -0.0993, -0.0891,  ..., -0.1360, -0.0735,  0.1202],
+        ...,
+        [ 0.0670, -0.0393, -0.0848,  ...,  0.0700, -0.0757, -0.0740],
+        [ 0.1027,  0.0758,  0.0476,  ..., -0.1026, -0.0854,  0.0683],
+        [ 0.0560,  0.0155,  0.0690,  ...,  0.0450, -0.0676,  0.0099]],
+       device='cuda:0'), grad: tensor([[ 2.3225e-08,  7.3621e-07,  5.5588e-08,  ...,  5.5588e-08,
+          7.3342e-09,  3.1316e-08],
+        [ 1.3737e-08,  3.9004e-06,  3.9465e-08,  ...,  5.4948e-08,
+          2.0431e-08,  3.5565e-08],
+        [ 3.1083e-08,  1.1539e-06,  1.2212e-07,  ...,  4.3074e-08,
+          1.5250e-08, -1.8149e-07],
+        ...,
+        [-1.3795e-07,  1.1213e-06,  1.2305e-07,  ..., -3.0326e-08,
+          8.8592e-08,  9.3132e-08],
+        [-1.1642e-09,  2.4820e-07,  5.6403e-08,  ...,  7.8406e-08,
+          1.0768e-08, -5.8382e-08],
+        [-5.2445e-08,  4.8243e-07, -5.0350e-08,  ...,  1.7253e-07,
+          1.7392e-07,  9.5344e-08]], device='cuda:0')
+Epoch 165, bias, value: tensor([ 0.0323, -0.0242, -0.0091,  0.0170, -0.0026, -0.0153,  0.0008,  0.0126,
+        -0.0263,  0.0146], device='cuda:0'), grad: tensor([ 2.7660e-06,  9.2387e-06,  1.9241e-06, -1.9088e-05,  1.3597e-07,
+        -1.4342e-05,  8.3223e-06,  2.6673e-06,  6.0350e-06,  2.3507e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 164, time 217.28, cls_loss 0.0014 cls_loss_mapping 0.0034 cls_loss_causal 0.5084 re_mapping 0.0046 re_causal 0.0138 /// teacc 99.14 lr 0.00010000
+Epoch 166, weight, value: tensor([[ 0.0139, -0.0693,  0.0171,  ..., -0.0833, -0.1080, -0.0815],
+        [-0.0959,  0.0578, -0.0772,  ..., -0.1001, -0.0861, -0.1528],
+        [-0.0664, -0.0998, -0.0895,  ..., -0.1368, -0.0738,  0.1206],
+        ...,
+        [ 0.0670, -0.0393, -0.0841,  ...,  0.0709, -0.0764, -0.0741],
+        [ 0.1037,  0.0768,  0.0491,  ..., -0.1033, -0.0852,  0.0688],
+        [ 0.0561,  0.0153,  0.0690,  ...,  0.0447, -0.0680,  0.0091]],
+       device='cuda:0'), grad: tensor([[-1.6941e-06,  2.7847e-07, -1.0775e-06,  ...,  1.0282e-06,
+          2.3935e-07,  7.3761e-07],
+        [ 1.1490e-07,  1.7381e-07,  1.4296e-07,  ...,  4.6496e-07,
+          8.1141e-08,  2.6613e-07],
+        [ 1.9395e-07,  2.0361e-07,  2.1281e-07,  ...,  4.2375e-07,
+          2.0117e-07,  4.4005e-08],
+        ...,
+        [ 4.3167e-07,  6.0955e-07,  5.2201e-07,  ...,  1.3420e-06,
+          1.0221e-07,  6.0303e-07],
+        [ 2.2771e-07,  2.7195e-07,  2.6124e-07,  ...,  1.0980e-06,
+          3.7393e-07,  9.0618e-07],
+        [-3.8780e-06, -6.3442e-06, -6.5230e-06,  ..., -4.5955e-05,
+         -1.1392e-05, -2.8029e-05]], device='cuda:0')
+Epoch 166, bias, value: tensor([ 0.0319, -0.0243, -0.0089,  0.0166, -0.0021, -0.0152,  0.0001,  0.0128,
+        -0.0256,  0.0141], device='cuda:0'), grad: tensor([-8.4713e-06,  1.2331e-06,  4.1025e-07,  1.1967e-06,  4.5955e-05,
+         5.4725e-06,  9.7975e-06,  3.4012e-06,  3.2298e-06, -6.2168e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 165, time 217.34, cls_loss 0.0015 cls_loss_mapping 0.0051 cls_loss_causal 0.5004 re_mapping 0.0047 re_causal 0.0139 /// teacc 99.06 lr 0.00010000
+Epoch 167, weight, value: tensor([[ 0.0140, -0.0705,  0.0168,  ..., -0.0836, -0.1090, -0.0825],
+        [-0.0959,  0.0577, -0.0787,  ..., -0.1013, -0.0866, -0.1560],
+        [-0.0665, -0.0987, -0.0901,  ..., -0.1363, -0.0736,  0.1234],
+        ...,
+        [ 0.0670, -0.0395, -0.0848,  ...,  0.0710, -0.0774, -0.0754],
+        [ 0.1036,  0.0770,  0.0494,  ..., -0.1042, -0.0858,  0.0687],
+        [ 0.0563,  0.0156,  0.0695,  ...,  0.0449, -0.0682,  0.0089]],
+       device='cuda:0'), grad: tensor([[-1.4435e-08,  4.2492e-08,  1.5832e-08,  ...,  4.8371e-08,
+          6.3097e-08,  9.4296e-08],
+        [ 3.8708e-08, -2.0408e-07,  3.2131e-08,  ...,  8.9640e-09,
+          2.0838e-08,  4.1095e-08],
+        [ 1.4540e-07,  1.1129e-07,  6.4261e-08,  ...,  1.6869e-07,
+          7.4971e-08, -1.9500e-08],
+        ...,
+        [-5.4017e-07,  4.5460e-08,  4.4005e-08,  ..., -5.9186e-07,
+          1.2689e-08,  4.0745e-08],
+        [-5.1572e-08, -6.9907e-08, -1.0792e-07,  ...,  9.4296e-08,
+          5.7218e-08, -2.2061e-08],
+        [ 1.7462e-07,  1.1176e-08, -1.2247e-07,  ...,  1.3877e-07,
+          5.3435e-08, -9.8546e-08]], device='cuda:0')
+Epoch 167, bias, value: tensor([ 0.0317, -0.0246, -0.0066,  0.0163, -0.0021, -0.0154,  0.0008,  0.0127,
+        -0.0262,  0.0142], device='cuda:0'), grad: tensor([ 1.1368e-07, -5.2247e-07,  4.5775e-07, -5.1502e-07,  4.2655e-07,
+         5.6997e-07, -3.4645e-07, -1.1735e-06, -1.6007e-08,  9.8720e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 166, time 217.35, cls_loss 0.0011 cls_loss_mapping 0.0030 cls_loss_causal 0.5017 re_mapping 0.0046 re_causal 0.0139 /// teacc 99.07 lr 0.00010000
+Epoch 168, weight, value: tensor([[ 0.0141, -0.0706,  0.0168,  ..., -0.0837, -0.1093, -0.0829],
+        [-0.0960,  0.0577, -0.0789,  ..., -0.1017, -0.0868, -0.1562],
+        [-0.0668, -0.0991, -0.0903,  ..., -0.1370, -0.0742,  0.1236],
+        ...,
+        [ 0.0677, -0.0395, -0.0852,  ...,  0.0720, -0.0778, -0.0765],
+        [ 0.1040,  0.0777,  0.0497,  ..., -0.1035, -0.0859,  0.0691],
+        [ 0.0555,  0.0155,  0.0696,  ...,  0.0445, -0.0686,  0.0083]],
+       device='cuda:0'), grad: tensor([[ 7.8580e-08,  7.7474e-08,  7.4680e-08,  ...,  1.4622e-07,
+          1.8929e-07,  1.9115e-07],
+        [ 4.3889e-08, -1.6822e-07,  1.3039e-08,  ...,  3.5157e-08,
+          2.0373e-08,  5.1456e-08],
+        [-2.6240e-07,  3.4110e-08,  1.1292e-08,  ...,  3.2131e-08,
+          5.3144e-08, -8.5682e-07],
+        ...,
+        [ 9.6741e-08,  1.0821e-07,  6.7579e-08,  ...,  8.4983e-09,
+          4.0163e-09,  7.1013e-07],
+        [ 1.1327e-07,  7.0489e-08,  3.5041e-08,  ...,  1.1770e-07,
+          1.0076e-07,  1.6997e-07],
+        [-6.1048e-07, -8.3679e-07, -9.0012e-07,  ..., -1.5777e-06,
+          5.5064e-08, -2.7567e-07]], device='cuda:0')
+Epoch 168, bias, value: tensor([ 0.0319, -0.0246, -0.0067,  0.0161, -0.0017, -0.0155,  0.0008,  0.0130,
+        -0.0260,  0.0133], device='cuda:0'), grad: tensor([ 6.3516e-07, -1.9534e-07, -2.8126e-06,  4.8336e-07,  1.8319e-06,
+        -5.3085e-07, -4.1001e-07,  2.2165e-06,  1.0822e-06, -2.3097e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 167, time 217.24, cls_loss 0.0015 cls_loss_mapping 0.0035 cls_loss_causal 0.5156 re_mapping 0.0045 re_causal 0.0133 /// teacc 99.13 lr 0.00010000
+Epoch 169, weight, value: tensor([[ 0.0143, -0.0707,  0.0167,  ..., -0.0838, -0.1101, -0.0837],
+        [-0.0961,  0.0577, -0.0793,  ..., -0.1024, -0.0872, -0.1564],
+        [-0.0672, -0.0999, -0.0906,  ..., -0.1377, -0.0749,  0.1235],
+        ...,
+        [ 0.0681, -0.0396, -0.0851,  ...,  0.0723, -0.0796, -0.0771],
+        [ 0.1035,  0.0785,  0.0502,  ..., -0.1044, -0.0873,  0.0680],
+        [ 0.0554,  0.0156,  0.0698,  ...,  0.0442, -0.0689,  0.0079]],
+       device='cuda:0'), grad: tensor([[ 9.6159e-08,  6.4401e-07,  1.4633e-07,  ...,  2.8475e-07,
+          3.6845e-08,  1.6810e-07],
+        [ 9.9279e-07,  6.0024e-07,  2.6706e-07,  ...,  1.1716e-06,
+          5.2969e-09,  6.0303e-07],
+        [ 4.1537e-06,  1.6987e-06,  5.0850e-07,  ...,  5.1968e-06,
+          5.6461e-09,  2.2408e-06],
+        ...,
+        [-1.4871e-05,  2.2259e-06,  2.3167e-07,  ..., -1.8537e-05,
+          1.2806e-09, -9.0823e-06],
+        [ 2.8289e-07,  2.8536e-06,  6.7102e-07,  ...,  5.4203e-07,
+          3.7835e-09,  1.4843e-08],
+        [ 1.8748e-06,  5.5619e-06,  1.4408e-06,  ...,  2.2277e-06,
+          8.7894e-09,  1.1660e-06]], device='cuda:0')
+Epoch 169, bias, value: tensor([ 0.0323, -0.0247, -0.0072,  0.0160, -0.0012, -0.0157,  0.0023,  0.0131,
+        -0.0270,  0.0128], device='cuda:0'), grad: tensor([ 3.1274e-06,  5.9046e-06,  1.8612e-05, -8.4698e-05,  1.6287e-05,
+         2.2531e-05,  5.4948e-07, -2.6584e-05,  1.4722e-05,  2.9504e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 168, time 216.92, cls_loss 0.0012 cls_loss_mapping 0.0030 cls_loss_causal 0.5030 re_mapping 0.0046 re_causal 0.0139 /// teacc 99.12 lr 0.00010000
+Epoch 170, weight, value: tensor([[ 0.0144, -0.0708,  0.0167,  ..., -0.0838, -0.1105, -0.0842],
+        [-0.0960,  0.0585, -0.0800,  ..., -0.1001, -0.0874, -0.1568],
+        [-0.0674, -0.1004, -0.0909,  ..., -0.1380, -0.0746,  0.1240],
+        ...,
+        [ 0.0682, -0.0401, -0.0853,  ...,  0.0718, -0.0799, -0.0774],
+        [ 0.1038,  0.0790,  0.0506,  ..., -0.1048, -0.0875,  0.0682],
+        [ 0.0554,  0.0154,  0.0700,  ...,  0.0440, -0.0692,  0.0077]],
+       device='cuda:0'), grad: tensor([[ 1.6193e-07,  2.6473e-07,  1.0093e-07,  ...,  1.6065e-07,
+          9.0280e-08,  3.7835e-07],
+        [ 4.5836e-05,  1.9634e-04,  7.5638e-05,  ...,  1.1581e-04,
+          7.2585e-08,  2.6584e-05],
+        [ 6.6881e-08,  1.5786e-07,  5.3609e-08,  ...,  1.4133e-07,
+         -1.7891e-06, -6.2138e-06],
+        ...,
+        [ 3.7660e-08,  2.8545e-07,  1.2526e-07,  ..., -4.9651e-08,
+          1.4901e-08,  1.5181e-07],
+        [ 9.9931e-07,  1.2629e-06,  6.7241e-07,  ...,  7.7207e-07,
+          2.4750e-07,  1.0664e-06],
+        [-4.7028e-05, -2.0206e-04, -7.7903e-05,  ..., -1.1927e-04,
+          1.1176e-08, -2.7001e-05]], device='cuda:0')
+Epoch 170, bias, value: tensor([ 0.0323, -0.0243, -0.0070,  0.0162, -0.0011, -0.0157,  0.0020,  0.0129,
+        -0.0269,  0.0123], device='cuda:0'), grad: tensor([ 1.7304e-06,  4.0030e-04, -1.2092e-05,  9.6951e-07,  9.1270e-06,
+        -1.0915e-05,  1.3061e-05,  7.9814e-07,  7.4133e-06, -4.1056e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 169, time 217.17, cls_loss 0.0012 cls_loss_mapping 0.0035 cls_loss_causal 0.5187 re_mapping 0.0044 re_causal 0.0141 /// teacc 99.02 lr 0.00010000
+Epoch 171, weight, value: tensor([[ 0.0145, -0.0710,  0.0172,  ..., -0.0839, -0.1110, -0.0849],
+        [-0.0963,  0.0583, -0.0821,  ..., -0.1011, -0.0878, -0.1570],
+        [-0.0675, -0.1010, -0.0918,  ..., -0.1383, -0.0742,  0.1244],
+        ...,
+        [ 0.0684, -0.0402, -0.0857,  ...,  0.0720, -0.0808, -0.0778],
+        [ 0.1040,  0.0792,  0.0511,  ..., -0.1054, -0.0875,  0.0685],
+        [ 0.0555,  0.0158,  0.0703,  ...,  0.0436, -0.0698,  0.0071]],
+       device='cuda:0'), grad: tensor([[ 1.9209e-08,  6.4378e-08,  3.1432e-08,  ...,  1.4692e-07,
+          7.6485e-08,  7.8813e-08],
+        [ 1.5949e-08,  5.3435e-08,  3.0501e-08,  ...,  1.7439e-07,
+          8.0210e-08,  7.5786e-08],
+        [ 4.5868e-08,  9.0338e-08,  3.7253e-08,  ...,  1.5658e-07,
+          7.4739e-08,  7.1712e-08],
+        ...,
+        [-4.7847e-08,  2.6287e-07,  1.1444e-07,  ...,  6.1747e-07,
+          2.9476e-07,  2.9802e-07],
+        [ 8.6147e-09,  1.1257e-07,  4.4238e-08,  ...,  2.5798e-07,
+          1.5087e-07,  1.3353e-07],
+        [-1.3295e-07,  2.0291e-07,  6.5193e-09,  ...,  1.1660e-06,
+          6.2631e-07,  5.0897e-07]], device='cuda:0')
+Epoch 171, bias, value: tensor([ 0.0325, -0.0243, -0.0071,  0.0164, -0.0005, -0.0155,  0.0013,  0.0129,
+        -0.0269,  0.0119], device='cuda:0'), grad: tensor([ 4.5076e-07,  4.1211e-07,  7.5018e-07,  3.0883e-06, -4.8168e-06,
+        -5.4725e-06,  1.1269e-06,  1.2489e-06,  9.8255e-07,  2.2445e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 170, time 217.14, cls_loss 0.0010 cls_loss_mapping 0.0030 cls_loss_causal 0.4895 re_mapping 0.0045 re_causal 0.0139 /// teacc 99.15 lr 0.00010000
+Epoch 172, weight, value: tensor([[ 0.0143, -0.0711,  0.0172,  ..., -0.0839, -0.1147, -0.0877],
+        [-0.0963,  0.0583, -0.0828,  ..., -0.1013, -0.0881, -0.1573],
+        [-0.0677, -0.1013, -0.0921,  ..., -0.1387, -0.0750,  0.1244],
+        ...,
+        [ 0.0684, -0.0403, -0.0862,  ...,  0.0720, -0.0808, -0.0779],
+        [ 0.1040,  0.0792,  0.0512,  ..., -0.1059, -0.0878,  0.0685],
+        [ 0.0557,  0.0162,  0.0707,  ...,  0.0437, -0.0699,  0.0071]],
+       device='cuda:0'), grad: tensor([[-7.9721e-07, -4.0140e-07,  2.5961e-08,  ...,  2.0023e-08,
+          6.0303e-07,  7.2783e-07],
+        [ 2.3632e-08, -2.8312e-07,  3.8068e-08,  ...,  1.2340e-07,
+          5.6997e-07,  9.5461e-07],
+        [ 5.0175e-08,  5.5879e-07,  1.8685e-07,  ...,  1.4692e-07,
+          2.2771e-07, -2.0023e-06],
+        ...,
+        [ 2.9919e-08,  2.6426e-07,  4.2142e-08,  ...,  5.5530e-08,
+          7.8930e-08,  1.0547e-07],
+        [ 5.0873e-08,  3.7951e-07,  7.8231e-08,  ...,  6.1002e-08,
+          2.0396e-06,  2.6543e-06],
+        [ 1.7229e-07,  2.2689e-07,  1.9558e-08,  ...,  3.2876e-07,
+          4.2259e-07,  4.2375e-07]], device='cuda:0')
+Epoch 172, bias, value: tensor([ 0.0316, -0.0244, -0.0071,  0.0167, -0.0006, -0.0153,  0.0024,  0.0128,
+        -0.0271,  0.0120], device='cuda:0'), grad: tensor([-1.8198e-06,  9.0990e-07, -2.5295e-06, -2.1607e-06, -5.2294e-07,
+         4.0047e-06, -7.0632e-06,  1.2033e-06,  5.8077e-06,  2.1309e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 171, time 217.34, cls_loss 0.0013 cls_loss_mapping 0.0034 cls_loss_causal 0.5198 re_mapping 0.0040 re_causal 0.0131 /// teacc 99.04 lr 0.00010000
+Epoch 173, weight, value: tensor([[ 0.0168, -0.0681,  0.0172,  ..., -0.0840, -0.1150, -0.0855],
+        [-0.0965,  0.0584, -0.0839,  ..., -0.1017, -0.0885, -0.1576],
+        [-0.0680, -0.1017, -0.0923,  ..., -0.1396, -0.0762,  0.1245],
+        ...,
+        [ 0.0686, -0.0404, -0.0862,  ...,  0.0726, -0.0807, -0.0783],
+        [ 0.1038,  0.0791,  0.0513,  ..., -0.1067, -0.0884,  0.0682],
+        [ 0.0557,  0.0165,  0.0712,  ...,  0.0437, -0.0700,  0.0071]],
+       device='cuda:0'), grad: tensor([[ 5.9372e-09,  1.2515e-07,  1.3388e-08,  ...,  1.2340e-07,
+          4.0536e-07,  3.9674e-07],
+        [ 1.3853e-08, -4.2305e-07,  5.3435e-08,  ...,  2.7916e-07,
+          1.9022e-07,  2.1921e-07],
+        [ 2.9569e-08,  6.4168e-07,  6.6240e-08,  ...,  1.3772e-07,
+          1.1630e-07,  1.0722e-07],
+        ...,
+        [-1.7462e-08,  5.8953e-07,  2.1537e-08,  ...,  3.4459e-07,
+          1.7637e-07,  2.3388e-07],
+        [-1.2142e-07, -1.0571e-07, -2.2689e-07,  ...,  1.7788e-07,
+          4.4727e-07,  2.0454e-07],
+        [ 7.6834e-08,  5.7369e-07,  1.2456e-07,  ...,  9.0105e-07,
+          4.5542e-07,  6.0257e-07]], device='cuda:0')
+Epoch 173, bias, value: tensor([ 0.0345, -0.0245, -0.0072,  0.0163, -0.0006, -0.0171,  0.0020,  0.0130,
+        -0.0279,  0.0119], device='cuda:0'), grad: tensor([ 1.1744e-06, -1.1958e-06,  1.8450e-06, -3.1814e-06, -4.4256e-06,
+         5.9046e-06, -5.9530e-06,  2.1979e-06,  8.0978e-07,  2.7921e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 172, time 216.91, cls_loss 0.0012 cls_loss_mapping 0.0026 cls_loss_causal 0.5045 re_mapping 0.0040 re_causal 0.0127 /// teacc 99.12 lr 0.00010000
+Epoch 174, weight, value: tensor([[ 0.0168, -0.0682,  0.0164,  ..., -0.0841, -0.1159, -0.0867],
+        [-0.0965,  0.0584, -0.0845,  ..., -0.1020, -0.0889, -0.1579],
+        [-0.0681, -0.1020, -0.0926,  ..., -0.1399, -0.0763,  0.1247],
+        ...,
+        [ 0.0687, -0.0405, -0.0866,  ...,  0.0724, -0.0825, -0.0795],
+        [ 0.1040,  0.0797,  0.0516,  ..., -0.1071, -0.0887,  0.0684],
+        [ 0.0557,  0.0166,  0.0713,  ...,  0.0438, -0.0701,  0.0069]],
+       device='cuda:0'), grad: tensor([[ 6.4028e-09,  1.2461e-06,  2.7008e-08,  ...,  1.2026e-07,
+          6.6124e-08,  6.7055e-08],
+        [ 6.2818e-07, -4.8846e-05,  2.0955e-08,  ...,  1.6056e-06,
+          3.7253e-09,  1.8626e-08],
+        [ 1.5448e-07,  3.4690e-05,  3.0501e-08,  ...,  2.9895e-07,
+          6.1700e-09, -2.0023e-08],
+        ...,
+        [-9.3272e-07,  7.4431e-06,  1.4878e-07,  ..., -2.6990e-06,
+          8.1491e-10,  1.9558e-08],
+        [-7.0431e-08,  4.7334e-07, -1.1770e-07,  ...,  1.2014e-07,
+         -7.4506e-09, -2.0838e-07],
+        [-3.2317e-07, -1.7916e-07, -2.9919e-07,  ..., -4.2608e-07,
+          1.2456e-08,  2.3632e-08]], device='cuda:0')
+Epoch 174, bias, value: tensor([ 0.0341, -0.0245, -0.0072,  0.0161, -0.0004, -0.0169,  0.0030,  0.0130,
+        -0.0280,  0.0118], device='cuda:0'), grad: tensor([ 4.6864e-06, -1.8525e-04,  1.3578e-04,  1.2279e-05,  5.6513e-06,
+         2.0377e-06,  1.3215e-06,  2.0415e-05,  2.0713e-06,  1.0757e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 173, time 217.06, cls_loss 0.0010 cls_loss_mapping 0.0029 cls_loss_causal 0.5226 re_mapping 0.0042 re_causal 0.0132 /// teacc 98.96 lr 0.00010000
+Epoch 175, weight, value: tensor([[ 0.0168, -0.0682,  0.0164,  ..., -0.0842, -0.1159, -0.0870],
+        [-0.0966,  0.0586, -0.0849,  ..., -0.1022, -0.0891, -0.1577],
+        [-0.0683, -0.1036, -0.0929,  ..., -0.1404, -0.0767,  0.1246],
+        ...,
+        [ 0.0689, -0.0406, -0.0870,  ...,  0.0719, -0.0853, -0.0808],
+        [ 0.1043,  0.0809,  0.0523,  ..., -0.1074, -0.0887,  0.0687],
+        [ 0.0558,  0.0168,  0.0714,  ...,  0.0439, -0.0702,  0.0069]],
+       device='cuda:0'), grad: tensor([[ 2.5751e-07,  4.2468e-07,  2.7637e-07,  ...,  1.0279e-07,
+          1.2340e-08,  1.0375e-06],
+        [ 1.4575e-06,  8.8150e-07,  6.9570e-07,  ...,  1.1045e-06,
+          1.0012e-08,  1.7196e-05],
+        [ 8.2096e-07,  1.3029e-06,  7.8045e-07,  ...,  2.4633e-07,
+          1.6647e-08, -2.0191e-05],
+        ...,
+        [-1.6224e-06, -4.7684e-07, -4.9500e-07,  ..., -1.5507e-06,
+         -1.1525e-08,  1.7285e-06],
+        [-9.1568e-06, -9.4250e-06, -4.3586e-06,  ..., -6.3423e-07,
+         -1.3374e-06, -1.3679e-05],
+        [ 1.0068e-06,  1.7118e-06,  8.7125e-07,  ..., -6.6007e-08,
+          4.7730e-09,  1.9725e-06]], device='cuda:0')
+Epoch 175, bias, value: tensor([ 0.0341, -0.0243, -0.0080,  0.0161, -0.0003, -0.0169,  0.0027,  0.0129,
+        -0.0277,  0.0118], device='cuda:0'), grad: tensor([ 4.1611e-06,  7.9334e-05, -8.6010e-05,  6.0014e-06,  1.7211e-06,
+         4.4890e-06,  2.4647e-05, -2.3786e-06, -3.8147e-05,  6.1803e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 174, time 217.10, cls_loss 0.0013 cls_loss_mapping 0.0031 cls_loss_causal 0.4919 re_mapping 0.0041 re_causal 0.0125 /// teacc 98.95 lr 0.00010000
+Epoch 176, weight, value: tensor([[ 0.0169, -0.0684,  0.0163,  ..., -0.0844, -0.1164, -0.0876],
+        [-0.0967,  0.0586, -0.0860,  ..., -0.1023, -0.0893, -0.1583],
+        [-0.0688, -0.1043, -0.0934,  ..., -0.1409, -0.0779,  0.1245],
+        ...,
+        [ 0.0687, -0.0407, -0.0882,  ...,  0.0716, -0.0856, -0.0813],
+        [ 0.1048,  0.0818,  0.0530,  ..., -0.1084, -0.0892,  0.0691],
+        [ 0.0563,  0.0176,  0.0721,  ...,  0.0443, -0.0703,  0.0069]],
+       device='cuda:0'), grad: tensor([[-5.0105e-07,  6.7172e-08,  3.0035e-08,  ...,  7.8231e-08,
+          3.8417e-08,  3.1106e-07],
+        [ 1.7660e-07, -1.2014e-07,  3.5274e-08,  ...,  8.8010e-08,
+          1.7812e-08,  4.9500e-07],
+        [-1.0012e-06,  2.3295e-07,  1.3504e-08,  ...,  6.1421e-07,
+          1.4273e-07, -4.4331e-06],
+        ...,
+        [ 7.1665e-07,  1.5774e-07,  6.4960e-08,  ..., -1.2247e-06,
+         -2.3586e-07,  2.4047e-06],
+        [ 1.0640e-07,  5.1223e-08,  9.6043e-08,  ...,  1.0815e-07,
+          3.8184e-08,  3.0454e-07],
+        [-1.0885e-07, -4.4098e-07, -3.3667e-07,  ..., -3.1851e-07,
+          4.4703e-08,  1.1118e-07]], device='cuda:0')
+Epoch 176, bias, value: tensor([ 0.0341, -0.0244, -0.0085,  0.0162, -0.0004, -0.0171,  0.0032,  0.0128,
+        -0.0271,  0.0122], device='cuda:0'), grad: tensor([-1.5600e-07,  1.6643e-06, -1.6868e-05,  6.3814e-06,  1.6596e-06,
+        -9.2164e-06,  1.2368e-06,  8.7544e-06,  1.9632e-06,  4.5635e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 175, time 217.48, cls_loss 0.0013 cls_loss_mapping 0.0044 cls_loss_causal 0.5329 re_mapping 0.0044 re_causal 0.0136 /// teacc 99.05 lr 0.00010000
+Epoch 177, weight, value: tensor([[ 0.0169, -0.0685,  0.0162,  ..., -0.0846, -0.1193, -0.0905],
+        [-0.0968,  0.0586, -0.0866,  ..., -0.1027, -0.0895, -0.1587],
+        [-0.0686, -0.1044, -0.0935,  ..., -0.1414, -0.0788,  0.1252],
+        ...,
+        [ 0.0687, -0.0408, -0.0888,  ...,  0.0719, -0.0858, -0.0819],
+        [ 0.1054,  0.0826,  0.0536,  ..., -0.1089, -0.0895,  0.0693],
+        [ 0.0564,  0.0186,  0.0728,  ...,  0.0449, -0.0702,  0.0074]],
+       device='cuda:0'), grad: tensor([[ 5.8790e-08,  7.5670e-08,  5.1805e-08,  ...,  1.8359e-07,
+          9.0804e-08,  1.1199e-07],
+        [ 8.6939e-07, -9.6159e-08,  2.1036e-07,  ...,  1.8589e-06,
+          2.2468e-08,  5.1921e-08],
+        [-1.1092e-06,  1.6124e-07,  6.5076e-08,  ..., -5.1735e-07,
+         -5.6904e-07, -1.9372e-06],
+        ...,
+        [-9.8199e-06,  7.2177e-07, -1.9930e-06,  ..., -2.5287e-05,
+          9.1270e-08,  1.2852e-07],
+        [ 5.6066e-07,  2.8475e-07,  1.5588e-07,  ...,  4.3353e-07,
+          4.5355e-07,  9.6299e-07],
+        [ 8.3447e-06,  2.9639e-07,  2.3898e-06,  ...,  2.2411e-05,
+          4.2235e-07,  4.6962e-07]], device='cuda:0')
+Epoch 177, bias, value: tensor([ 0.0327, -0.0245, -0.0080,  0.0158, -0.0009, -0.0170,  0.0052,  0.0128,
+        -0.0270,  0.0126], device='cuda:0'), grad: tensor([ 5.1688e-07,  3.1814e-06, -5.7518e-06, -1.1269e-06,  5.0059e-07,
+         8.4937e-07,  6.9733e-08, -4.3005e-05,  3.8296e-06,  4.0889e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 176, time 217.02, cls_loss 0.0016 cls_loss_mapping 0.0046 cls_loss_causal 0.5052 re_mapping 0.0040 re_causal 0.0125 /// teacc 99.15 lr 0.00010000
+Epoch 178, weight, value: tensor([[ 0.0168, -0.0686,  0.0162,  ..., -0.0850, -0.1195, -0.0905],
+        [-0.0969,  0.0587, -0.0878,  ..., -0.1030, -0.0902, -0.1590],
+        [-0.0687, -0.1057, -0.0940,  ..., -0.1418, -0.0796,  0.1257],
+        ...,
+        [ 0.0691, -0.0409, -0.0891,  ...,  0.0730, -0.0860, -0.0835],
+        [ 0.1055,  0.0855,  0.0557,  ..., -0.1106, -0.0905,  0.0691],
+        [ 0.0564,  0.0192,  0.0737,  ...,  0.0450, -0.0703,  0.0075]],
+       device='cuda:0'), grad: tensor([[-4.0838e-07,  4.2189e-07,  7.9977e-08,  ...,  2.2317e-07,
+          2.7940e-08,  1.4505e-07],
+        [ 8.5565e-08, -2.6748e-06,  4.1677e-08,  ...,  1.2666e-07,
+          1.0710e-08, -1.9721e-07],
+        [ 9.6951e-07,  1.0785e-06,  4.8429e-08,  ...,  1.2768e-06,
+          7.6019e-08,  1.8894e-07],
+        ...,
+        [-1.4137e-06,  6.1840e-07,  7.3691e-08,  ..., -1.8803e-06,
+          9.0804e-09, -5.7509e-08],
+        [ 5.5181e-08,  5.1782e-07,  6.8569e-08,  ...,  2.4354e-07,
+          4.2957e-08,  1.3434e-07],
+        [ 4.8545e-08, -1.0636e-06, -1.3262e-06,  ..., -2.9188e-06,
+         -8.3121e-08, -1.4976e-06]], device='cuda:0')
+Epoch 178, bias, value: tensor([ 0.0330, -0.0246, -0.0071,  0.0149, -0.0010, -0.0151,  0.0027,  0.0128,
+        -0.0274,  0.0125], device='cuda:0'), grad: tensor([-1.1653e-07, -8.3670e-06,  5.8562e-06, -8.8476e-07,  5.2452e-06,
+         5.1409e-07,  4.9872e-07, -1.6829e-06,  2.0918e-06, -3.1553e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 177, time 217.29, cls_loss 0.0013 cls_loss_mapping 0.0028 cls_loss_causal 0.5346 re_mapping 0.0046 re_causal 0.0140 /// teacc 99.15 lr 0.00010000
+Epoch 179, weight, value: tensor([[ 0.0169, -0.0686,  0.0162,  ..., -0.0852, -0.1197, -0.0905],
+        [-0.0970,  0.0595, -0.0883,  ..., -0.1032, -0.0908, -0.1593],
+        [-0.0690, -0.1067, -0.0944,  ..., -0.1427, -0.0805,  0.1257],
+        ...,
+        [ 0.0693, -0.0414, -0.0898,  ...,  0.0734, -0.0863, -0.0843],
+        [ 0.1057,  0.0857,  0.0560,  ..., -0.1119, -0.0914,  0.0686],
+        [ 0.0564,  0.0191,  0.0742,  ...,  0.0450, -0.0705,  0.0075]],
+       device='cuda:0'), grad: tensor([[-6.6473e-08,  1.1048e-07,  5.7044e-08,  ...,  6.8103e-08,
+          2.0023e-08,  1.0105e-07],
+        [ 9.9069e-08,  1.1048e-07,  1.9011e-07,  ...,  2.6729e-07,
+          7.8464e-08,  4.0326e-07],
+        [ 7.1130e-08,  2.2817e-07,  5.6461e-08,  ...,  8.2701e-07,
+          1.8917e-07,  5.0291e-07],
+        ...,
+        [ 9.4529e-08,  2.3062e-07,  6.0536e-08,  ..., -3.5041e-07,
+          9.7207e-08,  2.8918e-07],
+        [-4.9546e-07, -1.8664e-06, -1.3188e-06,  ...,  1.9639e-07,
+          1.4668e-08, -1.6782e-06],
+        [-3.3900e-07, -2.7893e-07, -1.9185e-07,  ..., -1.7136e-07,
+          1.9791e-07,  2.2980e-07]], device='cuda:0')
+Epoch 179, bias, value: tensor([ 0.0331, -0.0242, -0.0074,  0.0155, -0.0009, -0.0147,  0.0020,  0.0125,
+        -0.0282,  0.0122], device='cuda:0'), grad: tensor([-3.8301e-07,  7.2503e-07,  2.1886e-06,  8.5076e-07, -1.9073e-06,
+         1.6224e-06,  2.8014e-06, -1.0282e-06, -5.1484e-06,  2.9616e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 178, time 217.36, cls_loss 0.0014 cls_loss_mapping 0.0039 cls_loss_causal 0.5266 re_mapping 0.0043 re_causal 0.0131 /// teacc 99.14 lr 0.00010000
+Epoch 180, weight, value: tensor([[ 0.0170, -0.0696,  0.0154,  ..., -0.0853, -0.1211, -0.0916],
+        [-0.0971,  0.0594, -0.0895,  ..., -0.1035, -0.0911, -0.1604],
+        [-0.0690, -0.1070, -0.0949,  ..., -0.1432, -0.0809,  0.1265],
+        ...,
+        [ 0.0695, -0.0415, -0.0902,  ...,  0.0738, -0.0867, -0.0852],
+        [ 0.1059,  0.0871,  0.0570,  ..., -0.1133, -0.0913,  0.0690],
+        [ 0.0563,  0.0194,  0.0747,  ...,  0.0451, -0.0709,  0.0071]],
+       device='cuda:0'), grad: tensor([[-7.9256e-07,  8.2189e-07, -3.0594e-07,  ...,  2.6380e-07,
+         -5.5600e-07, -2.6636e-07],
+        [ 2.4261e-07,  2.3155e-07,  1.8894e-07,  ...,  1.6566e-07,
+          9.7207e-08,  3.2363e-07],
+        [ 5.3085e-07,  7.7533e-07,  4.3493e-07,  ...,  1.1048e-07,
+          9.6508e-08,  5.7369e-07],
+        ...,
+        [ 2.4866e-07,  3.5181e-07,  1.9406e-07,  ...,  7.0082e-07,
+          3.7439e-07,  5.7975e-07],
+        [-6.2808e-06, -8.3148e-06, -4.1798e-06,  ...,  1.2852e-07,
+          2.3399e-08, -7.1153e-06],
+        [-1.5518e-07,  2.1781e-07, -3.3760e-09,  ...,  2.3358e-06,
+          2.1942e-06,  2.1439e-06]], device='cuda:0')
+Epoch 180, bias, value: tensor([ 0.0322, -0.0244, -0.0066,  0.0156, -0.0009, -0.0148,  0.0029,  0.0125,
+        -0.0276,  0.0121], device='cuda:0'), grad: tensor([-2.3376e-06,  1.1502e-06,  2.9709e-06,  5.2638e-06, -6.4895e-06,
+         9.0078e-06,  1.0662e-05,  2.2575e-06, -2.8908e-05,  6.4038e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 179, time 217.04, cls_loss 0.0011 cls_loss_mapping 0.0034 cls_loss_causal 0.4821 re_mapping 0.0045 re_causal 0.0135 /// teacc 99.13 lr 0.00010000
+Epoch 181, weight, value: tensor([[ 0.0172, -0.0698,  0.0152,  ..., -0.0854, -0.1212, -0.0917],
+        [-0.0970,  0.0597, -0.0901,  ..., -0.1033, -0.0914, -0.1606],
+        [-0.0694, -0.1077, -0.0954,  ..., -0.1440, -0.0812,  0.1264],
+        ...,
+        [ 0.0693, -0.0419, -0.0916,  ...,  0.0740, -0.0871, -0.0857],
+        [ 0.1080,  0.0897,  0.0595,  ..., -0.1151, -0.0913,  0.0701],
+        [ 0.0557,  0.0177,  0.0735,  ...,  0.0453, -0.0710,  0.0061]],
+       device='cuda:0'), grad: tensor([[-4.7195e-07,  3.1199e-08, -7.5321e-08,  ...,  6.7404e-08,
+          2.3865e-08,  4.5751e-08],
+        [ 9.2248e-07,  1.2794e-07,  1.4319e-08,  ...,  2.2650e-06,
+         -1.3621e-08,  3.0966e-07],
+        [ 2.2119e-07,  3.1898e-08,  2.0373e-08,  ...,  7.8464e-08,
+          8.3819e-09,  6.1700e-09],
+        ...,
+        [-2.0266e-06, -1.0421e-06, -2.2526e-07,  ..., -7.4953e-06,
+          8.2655e-09, -5.0571e-07],
+        [ 4.5169e-08,  5.7858e-08,  3.6089e-08,  ...,  1.4610e-07,
+          1.3737e-08,  2.8638e-08],
+        [ 2.5611e-07, -2.1013e-07, -3.2363e-07,  ...,  3.4180e-07,
+          1.1874e-08, -1.8382e-07]], device='cuda:0')
+Epoch 181, bias, value: tensor([ 0.0322, -0.0242, -0.0068,  0.0157, -0.0012, -0.0150,  0.0028,  0.0124,
+        -0.0258,  0.0109], device='cuda:0'), grad: tensor([-2.2948e-06,  2.3600e-06,  1.0915e-06,  7.7337e-06,  2.2687e-06,
+         1.5856e-07,  1.8289e-07, -1.2912e-05,  3.4133e-07,  1.1204e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 180, time 217.32, cls_loss 0.0012 cls_loss_mapping 0.0032 cls_loss_causal 0.4922 re_mapping 0.0042 re_causal 0.0131 /// teacc 99.11 lr 0.00010000
+Epoch 182, weight, value: tensor([[ 0.0170, -0.0700,  0.0148,  ..., -0.0859, -0.1212, -0.0919],
+        [-0.0971,  0.0598, -0.0907,  ..., -0.1040, -0.0921, -0.1612],
+        [-0.0694, -0.1080, -0.0956,  ..., -0.1446, -0.0826,  0.1264],
+        ...,
+        [ 0.0692, -0.0421, -0.0926,  ...,  0.0739, -0.0879, -0.0871],
+        [ 0.1083,  0.0898,  0.0597,  ..., -0.1164, -0.0914,  0.0702],
+        [ 0.0562,  0.0185,  0.0738,  ...,  0.0458, -0.0716,  0.0063]],
+       device='cuda:0'), grad: tensor([[-7.8115e-08,  1.2899e-07,  7.6485e-08,  ...,  1.2014e-07,
+          3.7369e-08,  5.5297e-08],
+        [ 3.4692e-08, -1.3865e-07,  9.8953e-09,  ...,  1.5984e-07,
+          7.8930e-08,  9.2667e-08],
+        [ 3.7556e-07,  3.7393e-07,  2.1886e-08,  ...,  1.3597e-06,
+          5.8208e-08,  7.5297e-07],
+        ...,
+        [-4.1537e-07,  1.9895e-07,  4.3539e-08,  ..., -1.5767e-06,
+          2.9686e-08, -7.9675e-07],
+        [ 1.5495e-07,  2.5565e-07,  1.1176e-07,  ...,  1.8626e-07,
+          1.1350e-07,  1.6496e-07],
+        [-2.1805e-07, -3.0105e-07, -3.2014e-07,  ..., -1.6589e-07,
+          1.6624e-07,  8.0676e-08]], device='cuda:0')
+Epoch 182, bias, value: tensor([ 0.0320, -0.0243, -0.0069,  0.0154, -0.0012, -0.0147,  0.0028,  0.0123,
+        -0.0258,  0.0111], device='cuda:0'), grad: tensor([-1.2212e-07, -2.1502e-07,  4.2655e-06, -1.4892e-06, -3.5437e-07,
+         4.0070e-07, -2.6682e-07, -3.3639e-06,  1.3523e-06, -2.1444e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 181, time 217.28, cls_loss 0.0011 cls_loss_mapping 0.0027 cls_loss_causal 0.4907 re_mapping 0.0043 re_causal 0.0129 /// teacc 99.07 lr 0.00010000
+Epoch 183, weight, value: tensor([[ 0.0172, -0.0700,  0.0151,  ..., -0.0861, -0.1208, -0.0913],
+        [-0.0973,  0.0597, -0.0911,  ..., -0.1044, -0.0924, -0.1615],
+        [-0.0693, -0.1083, -0.0957,  ..., -0.1455, -0.0830,  0.1267],
+        ...,
+        [ 0.0694, -0.0422, -0.0929,  ...,  0.0745, -0.0879, -0.0876],
+        [ 0.1083,  0.0900,  0.0597,  ..., -0.1175, -0.0916,  0.0701],
+        [ 0.0563,  0.0192,  0.0744,  ...,  0.0460, -0.0714,  0.0068]],
+       device='cuda:0'), grad: tensor([[-2.3737e-07,  6.4611e-08,  7.6834e-09,  ...,  3.3481e-07,
+          5.0059e-09,  1.9791e-08],
+        [ 1.3004e-07, -5.3644e-07,  1.8510e-08,  ...,  1.8894e-07,
+          4.6566e-09,  4.1910e-08],
+        [ 1.2165e-07,  1.6601e-07,  3.7020e-08,  ...,  5.8440e-08,
+          1.5949e-08, -1.0431e-07],
+        ...,
+        [-4.2049e-07,  1.9674e-07,  1.3388e-08,  ..., -1.0068e-06,
+         -3.9581e-09,  3.9581e-08],
+        [-1.5032e-06, -1.8291e-06, -4.0117e-07,  ...,  3.9698e-08,
+          2.3632e-08, -2.8918e-07],
+        [ 5.1456e-07,  4.8289e-07,  4.4121e-08,  ..., -1.9826e-07,
+         -4.2259e-08, -1.5215e-07]], device='cuda:0')
+Epoch 183, bias, value: tensor([ 0.0326, -0.0245, -0.0060,  0.0149, -0.0020, -0.0147,  0.0026,  0.0122,
+        -0.0259,  0.0116], device='cuda:0'), grad: tensor([-9.2853e-07, -6.9104e-07,  1.5739e-07,  1.2424e-06,  4.9360e-07,
+         4.1574e-06,  2.4075e-07, -2.1141e-06, -4.4182e-06,  1.8422e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 182, time 217.01, cls_loss 0.0011 cls_loss_mapping 0.0034 cls_loss_causal 0.5070 re_mapping 0.0045 re_causal 0.0137 /// teacc 99.14 lr 0.00010000
+Epoch 184, weight, value: tensor([[ 0.0175, -0.0701,  0.0150,  ..., -0.0863, -0.1201, -0.0905],
+        [-0.0973,  0.0598, -0.0916,  ..., -0.1047, -0.0928, -0.1620],
+        [-0.0698, -0.1098, -0.0961,  ..., -0.1471, -0.0836,  0.1268],
+        ...,
+        [ 0.0697, -0.0423, -0.0934,  ...,  0.0753, -0.0879, -0.0879],
+        [ 0.1088,  0.0905,  0.0599,  ..., -0.1180, -0.0915,  0.0706],
+        [ 0.0562,  0.0191,  0.0747,  ...,  0.0455, -0.0719,  0.0060]],
+       device='cuda:0'), grad: tensor([[ 7.2177e-09,  3.6089e-07,  2.0070e-07,  ...,  3.3644e-08,
+          3.7136e-08,  3.6019e-07],
+        [ 3.5390e-07, -2.8294e-06,  3.9255e-07,  ..., -1.3865e-07,
+          7.9512e-08,  6.2026e-07],
+        [ 1.1548e-06,  4.4480e-06,  1.4380e-06,  ...,  1.4156e-07,
+          1.8580e-07,  2.1178e-06],
+        ...,
+        [-1.0943e-07,  7.3947e-07,  1.6857e-07,  ..., -3.4831e-07,
+          7.8580e-08,  3.1665e-07],
+        [-3.5260e-06, -4.9695e-06, -3.8370e-06,  ...,  5.4948e-08,
+         -4.8429e-07, -6.9141e-06],
+        [ 2.7148e-07,  5.9837e-07,  1.8440e-07,  ...,  9.1828e-07,
+          4.3400e-07,  6.8359e-07]], device='cuda:0')
+Epoch 184, bias, value: tensor([ 0.0331, -0.0245, -0.0068,  0.0148, -0.0016, -0.0147,  0.0019,  0.0124,
+        -0.0254,  0.0112], device='cuda:0'), grad: tensor([ 8.2143e-07, -2.7493e-05,  3.6567e-05, -1.0040e-06,  1.2498e-06,
+         4.5113e-06,  5.8264e-06,  2.7660e-06, -2.7195e-05,  3.9861e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 183, time 217.26, cls_loss 0.0011 cls_loss_mapping 0.0030 cls_loss_causal 0.4804 re_mapping 0.0041 re_causal 0.0123 /// teacc 99.07 lr 0.00010000
+Epoch 185, weight, value: tensor([[ 0.0175, -0.0702,  0.0150,  ..., -0.0867, -0.1201, -0.0906],
+        [-0.0975,  0.0600, -0.0922,  ..., -0.1053, -0.0931, -0.1622],
+        [-0.0701, -0.1109, -0.0966,  ..., -0.1478, -0.0841,  0.1268],
+        ...,
+        [ 0.0700, -0.0424, -0.0937,  ...,  0.0760, -0.0879, -0.0886],
+        [ 0.1090,  0.0907,  0.0600,  ..., -0.1189, -0.0917,  0.0709],
+        [ 0.0563,  0.0191,  0.0749,  ...,  0.0455, -0.0721,  0.0059]],
+       device='cuda:0'), grad: tensor([[ 1.3376e-07,  1.2806e-07,  9.9419e-08,  ...,  2.3784e-07,
+          5.5530e-08,  9.5344e-08],
+        [ 5.3784e-07,  7.9861e-08,  6.4494e-08,  ...,  7.1572e-07,
+          8.8476e-09,  6.4727e-08],
+        [ 1.0217e-06,  3.4575e-08,  1.3853e-08,  ...,  1.1995e-06,
+          1.4668e-08,  1.2654e-07],
+        ...,
+        [-3.1944e-06,  8.0443e-08,  5.9721e-08,  ..., -3.9078e-06,
+          2.3283e-10, -2.2550e-07],
+        [ 7.2550e-07,  3.5902e-07,  2.3888e-07,  ...,  9.2294e-07,
+          4.0862e-08,  1.9628e-07],
+        [ 2.4633e-07, -7.6834e-07, -6.7800e-07,  ..., -8.8010e-08,
+          1.3970e-09, -2.9267e-07]], device='cuda:0')
+Epoch 185, bias, value: tensor([ 0.0330, -0.0245, -0.0070,  0.0152, -0.0014, -0.0148,  0.0019,  0.0125,
+        -0.0253,  0.0110], device='cuda:0'), grad: tensor([ 9.2201e-07,  3.3956e-06,  6.6906e-06,  2.3022e-06,  1.4687e-06,
+        -3.7458e-06,  5.3644e-07, -1.7941e-05,  6.6385e-06, -3.0361e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 184----------------------------------------------------
+epoch 184, time 217.82, cls_loss 0.0010 cls_loss_mapping 0.0024 cls_loss_causal 0.5228 re_mapping 0.0044 re_causal 0.0136 /// teacc 99.23 lr 0.00010000
+Epoch 186, weight, value: tensor([[ 0.0176, -0.0703,  0.0149,  ..., -0.0868, -0.1202, -0.0907],
+        [-0.0977,  0.0602, -0.0927,  ..., -0.1060, -0.0936, -0.1626],
+        [-0.0705, -0.1116, -0.0971,  ..., -0.1487, -0.0864,  0.1263],
+        ...,
+        [ 0.0704, -0.0426, -0.0942,  ...,  0.0765, -0.0880, -0.0889],
+        [ 0.1091,  0.0908,  0.0601,  ..., -0.1201, -0.0918,  0.0711],
+        [ 0.0562,  0.0192,  0.0752,  ...,  0.0456, -0.0722,  0.0060]],
+       device='cuda:0'), grad: tensor([[-2.3609e-07,  7.6368e-08,  1.8044e-08,  ...,  3.7253e-08,
+          3.3528e-08,  1.1327e-07],
+        [ 1.1851e-07,  1.3970e-08,  6.3563e-08,  ...,  2.7008e-07,
+          1.6880e-08,  2.4447e-08],
+        [ 2.3225e-07,  1.0338e-07,  5.5064e-08,  ...,  6.7102e-07,
+          2.0838e-08, -3.3155e-07],
+        ...,
+        [-9.0664e-07,  2.0757e-07,  6.1817e-08,  ..., -2.3525e-06,
+          4.0745e-09, -6.9733e-08],
+        [ 5.1456e-08,  3.2084e-07,  6.7637e-08,  ...,  9.1735e-08,
+          5.3784e-08,  2.3609e-07],
+        [ 5.0617e-07,  2.0303e-07,  4.2492e-08,  ...,  8.0839e-07,
+          1.2107e-08,  4.3656e-08]], device='cuda:0')
+Epoch 186, bias, value: tensor([ 0.0332, -0.0246, -0.0073,  0.0152, -0.0014, -0.0147,  0.0019,  0.0126,
+        -0.0253,  0.0110], device='cuda:0'), grad: tensor([-4.4331e-07,  5.3737e-07,  1.2796e-06, -2.9355e-06,  6.8266e-07,
+         5.8627e-07,  2.8196e-07, -4.1053e-06,  1.4501e-06,  2.6543e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 185, time 217.03, cls_loss 0.0013 cls_loss_mapping 0.0031 cls_loss_causal 0.5052 re_mapping 0.0042 re_causal 0.0131 /// teacc 99.13 lr 0.00010000
+Epoch 187, weight, value: tensor([[ 0.0177, -0.0700,  0.0146,  ..., -0.0870, -0.1206, -0.0904],
+        [-0.0978,  0.0602, -0.0931,  ..., -0.1068, -0.0943, -0.1631],
+        [-0.0708, -0.1120, -0.0972,  ..., -0.1495, -0.0868,  0.1264],
+        ...,
+        [ 0.0706, -0.0427, -0.0947,  ...,  0.0766, -0.0888, -0.0897],
+        [ 0.1092,  0.0910,  0.0601,  ..., -0.1216, -0.0919,  0.0713],
+        [ 0.0563,  0.0189,  0.0758,  ...,  0.0479, -0.0707,  0.0080]],
+       device='cuda:0'), grad: tensor([[ 2.4820e-07,  9.8255e-08,  5.6345e-08,  ...,  4.5192e-07,
+          2.1444e-07,  2.1921e-07],
+        [ 4.3679e-07,  1.3213e-07,  6.1584e-08,  ...,  7.7859e-07,
+          3.5949e-07,  3.2503e-07],
+        [ 2.1060e-07,  5.8440e-08,  2.6659e-08,  ...,  4.9965e-07,
+          2.6822e-07,  1.8708e-07],
+        ...,
+        [ 2.6554e-05,  5.3570e-06,  2.5406e-06,  ...,  1.8269e-05,
+          2.5518e-07,  2.7046e-06],
+        [ 8.0746e-07,  1.9453e-07,  1.5413e-07,  ...,  1.0049e-06,
+          1.9569e-07,  2.9802e-07],
+        [-2.9176e-05, -6.2510e-06, -3.0808e-06,  ..., -1.3262e-05,
+          5.3123e-06,  6.3330e-07]], device='cuda:0')
+Epoch 187, bias, value: tensor([ 0.0334, -0.0247, -0.0073,  0.0151, -0.0036, -0.0152,  0.0027,  0.0125,
+        -0.0253,  0.0131], device='cuda:0'), grad: tensor([ 2.1216e-06,  2.9672e-06,  1.7239e-06,  1.6829e-06, -1.6257e-05,
+        -9.1642e-06,  3.0492e-06,  6.6102e-05,  3.7216e-06, -5.6148e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 186, time 216.92, cls_loss 0.0010 cls_loss_mapping 0.0022 cls_loss_causal 0.4983 re_mapping 0.0042 re_causal 0.0130 /// teacc 99.14 lr 0.00010000
+Epoch 188, weight, value: tensor([[ 0.0177, -0.0701,  0.0145,  ..., -0.0871, -0.1206, -0.0905],
+        [-0.0980,  0.0604, -0.0936,  ..., -0.1074, -0.0947, -0.1631],
+        [-0.0709, -0.1131, -0.0976,  ..., -0.1500, -0.0864,  0.1269],
+        ...,
+        [ 0.0711, -0.0427, -0.0949,  ...,  0.0776, -0.0889, -0.0899],
+        [ 0.1093,  0.0911,  0.0602,  ..., -0.1223, -0.0919,  0.0714],
+        [ 0.0561,  0.0188,  0.0758,  ...,  0.0478, -0.0710,  0.0077]],
+       device='cuda:0'), grad: tensor([[-1.2328e-07, -3.4925e-09, -4.7381e-08,  ...,  1.0896e-07,
+          9.6159e-08,  1.0629e-07],
+        [ 5.2340e-07,  2.1304e-08,  1.5250e-08,  ...,  6.8452e-07,
+          6.9384e-08,  1.0710e-07],
+        [ 8.5123e-07,  4.7614e-08,  1.0361e-08,  ...,  1.4603e-06,
+          4.2701e-07,  5.7369e-07],
+        ...,
+        [-3.2205e-06,  4.3074e-08,  1.1525e-08,  ..., -4.7646e-06,
+         -6.0210e-07, -8.0699e-07],
+        [ 1.1874e-07, -2.6915e-07,  4.4936e-08,  ...,  2.2305e-07,
+         -6.0536e-09, -3.9185e-07],
+        [ 1.2852e-06,  7.8580e-08,  4.2841e-08,  ...,  1.5451e-06,
+          6.7404e-08,  1.4319e-07]], device='cuda:0')
+Epoch 188, bias, value: tensor([ 0.0336, -0.0247, -0.0079,  0.0154, -0.0035, -0.0153,  0.0027,  0.0128,
+        -0.0253,  0.0128], device='cuda:0'), grad: tensor([-3.6974e-07,  2.3991e-06,  4.4070e-06, -2.3574e-07,  1.1642e-06,
+        -1.8915e-06,  1.3486e-06, -1.3188e-05,  1.4557e-06,  4.8764e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 187, time 217.09, cls_loss 0.0011 cls_loss_mapping 0.0036 cls_loss_causal 0.4733 re_mapping 0.0042 re_causal 0.0128 /// teacc 99.03 lr 0.00010000
+Epoch 189, weight, value: tensor([[ 0.0178, -0.0701,  0.0145,  ..., -0.0872, -0.1208, -0.0907],
+        [-0.0981,  0.0592, -0.0938,  ..., -0.1077, -0.0950, -0.1652],
+        [-0.0712, -0.1116, -0.0975,  ..., -0.1507, -0.0873,  0.1284],
+        ...,
+        [ 0.0715, -0.0430, -0.0952,  ...,  0.0787, -0.0894, -0.0906],
+        [ 0.1094,  0.0912,  0.0602,  ..., -0.1236, -0.0920,  0.0714],
+        [ 0.0561,  0.0190,  0.0761,  ...,  0.0478, -0.0711,  0.0078]],
+       device='cuda:0'), grad: tensor([[-1.5553e-06, -2.4009e-06, -1.4447e-07,  ...,  3.1781e-08,
+          2.0606e-08, -1.8859e-06],
+        [ 6.3330e-08,  1.8964e-07,  3.6205e-08,  ...,  7.7882e-08,
+          2.6310e-08,  9.3365e-08],
+        [ 1.0454e-07,  2.1071e-07,  2.2701e-08,  ...,  4.2259e-08,
+          1.9209e-08,  1.4040e-07],
+        ...,
+        [ 3.9465e-08,  2.5728e-07,  4.5169e-08,  ...,  2.9802e-08,
+          1.1758e-08,  8.3237e-08],
+        [ 1.2142e-07,  2.4727e-07,  3.5157e-08,  ...,  5.3667e-08,
+          1.6065e-08,  1.5646e-07],
+        [ 5.3691e-07,  1.0449e-06,  3.5507e-08,  ...,  1.1874e-07,
+          2.1223e-07,  8.5402e-07]], device='cuda:0')
+Epoch 189, bias, value: tensor([ 0.0336, -0.0260, -0.0058,  0.0150, -0.0037, -0.0152,  0.0028,  0.0130,
+        -0.0254,  0.0128], device='cuda:0'), grad: tensor([-1.4000e-05,  8.1677e-07,  1.0896e-06, -7.3342e-07, -4.2794e-07,
+         1.3839e-06,  3.6955e-06,  8.7405e-07,  1.2275e-06,  6.0722e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 188, time 217.36, cls_loss 0.0010 cls_loss_mapping 0.0032 cls_loss_causal 0.5232 re_mapping 0.0043 re_causal 0.0131 /// teacc 99.07 lr 0.00010000
+Epoch 190, weight, value: tensor([[ 0.0178, -0.0702,  0.0145,  ..., -0.0874, -0.1209, -0.0909],
+        [-0.0986,  0.0596, -0.0941,  ..., -0.1093, -0.0960, -0.1652],
+        [-0.0710, -0.1118, -0.0978,  ..., -0.1514, -0.0899,  0.1281],
+        ...,
+        [ 0.0722, -0.0433, -0.0954,  ...,  0.0801, -0.0903, -0.0912],
+        [ 0.1094,  0.0913,  0.0603,  ..., -0.1245, -0.0922,  0.0714],
+        [ 0.0558,  0.0190,  0.0762,  ...,  0.0477, -0.0713,  0.0076]],
+       device='cuda:0'), grad: tensor([[ 1.2573e-08, -1.0282e-06,  1.8510e-08,  ...,  2.7055e-07,
+          8.2422e-08, -9.6019e-07],
+        [ 5.3551e-08, -1.3970e-09,  1.6298e-08,  ...,  2.0314e-07,
+          9.5111e-08,  2.8522e-07],
+        [-1.4110e-07,  2.0838e-07,  1.0943e-08,  ...,  1.1094e-07,
+          8.1374e-08, -3.2922e-07],
+        ...,
+        [ 1.8044e-07,  2.5146e-07,  8.8126e-08,  ...,  1.0226e-06,
+          3.2713e-07,  7.1339e-07],
+        [ 5.2620e-08,  5.0408e-08, -2.7940e-09,  ...,  2.2445e-07,
+          1.3981e-07,  1.9895e-07],
+        [-2.7404e-07, -9.8348e-07, -3.5018e-07,  ..., -3.0585e-06,
+          1.8009e-07, -1.4836e-06]], device='cuda:0')
+Epoch 190, bias, value: tensor([ 0.0337, -0.0261, -0.0061,  0.0147, -0.0036, -0.0151,  0.0031,  0.0134,
+        -0.0255,  0.0126], device='cuda:0'), grad: tensor([-1.2435e-05,  1.2834e-06, -2.2131e-07,  5.4529e-07,  2.0899e-06,
+         4.4098e-07,  6.0312e-06,  3.6992e-06,  1.6196e-06, -3.0529e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 189, time 217.21, cls_loss 0.0013 cls_loss_mapping 0.0032 cls_loss_causal 0.4996 re_mapping 0.0039 re_causal 0.0123 /// teacc 99.02 lr 0.00010000
+Epoch 191, weight, value: tensor([[ 0.0175, -0.0711,  0.0131,  ..., -0.0874, -0.1210, -0.0928],
+        [-0.0987,  0.0597, -0.0950,  ..., -0.1097, -0.0966, -0.1656],
+        [-0.0713, -0.1121, -0.0985,  ..., -0.1522, -0.0902,  0.1285],
+        ...,
+        [ 0.0725, -0.0434, -0.0958,  ...,  0.0804, -0.0910, -0.0923],
+        [ 0.1104,  0.0922,  0.0615,  ..., -0.1254, -0.0925,  0.0726],
+        [ 0.0558,  0.0192,  0.0766,  ...,  0.0477, -0.0714,  0.0076]],
+       device='cuda:0'), grad: tensor([[-5.5227e-07,  1.1141e-07, -4.2003e-07,  ...,  1.8545e-07,
+          1.9092e-08,  5.2038e-08],
+        [ 7.5786e-08,  9.1852e-08,  3.8999e-08,  ...,  3.0082e-07,
+          6.7579e-08,  1.1263e-07],
+        [ 4.3423e-08,  7.7591e-08,  3.4517e-08,  ...,  6.6415e-08,
+          3.8708e-08, -5.5472e-08],
+        ...,
+        [ 6.9709e-07,  7.0874e-07,  5.0897e-07,  ...,  1.2517e-06,
+          7.0257e-08,  2.3236e-07],
+        [ 3.8708e-08,  1.4086e-07,  4.0978e-08,  ...,  1.2992e-07,
+          2.2235e-08,  8.0501e-08],
+        [-7.9051e-06, -2.0698e-05, -2.6133e-06,  ..., -3.0845e-05,
+         -1.5665e-06, -1.2077e-05]], device='cuda:0')
+Epoch 191, bias, value: tensor([ 0.0333, -0.0261, -0.0060,  0.0142, -0.0035, -0.0140,  0.0017,  0.0134,
+        -0.0254,  0.0125], device='cuda:0'), grad: tensor([-7.0892e-06,  6.7428e-07,  7.6275e-07,  1.4780e-06,  7.4744e-05,
+         3.0305e-06,  2.6152e-06,  3.1423e-06,  1.0459e-06, -8.0407e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 190, time 217.05, cls_loss 0.0010 cls_loss_mapping 0.0025 cls_loss_causal 0.5032 re_mapping 0.0038 re_causal 0.0123 /// teacc 99.03 lr 0.00010000
+Epoch 192, weight, value: tensor([[ 0.0176, -0.0712,  0.0131,  ..., -0.0876, -0.1210, -0.0930],
+        [-0.0988,  0.0598, -0.0954,  ..., -0.1101, -0.0973, -0.1659],
+        [-0.0717, -0.1123, -0.0990,  ..., -0.1531, -0.0905,  0.1285],
+        ...,
+        [ 0.0729, -0.0435, -0.0963,  ...,  0.0810, -0.0915, -0.0923],
+        [ 0.1105,  0.0922,  0.0615,  ..., -0.1270, -0.0928,  0.0725],
+        [ 0.0559,  0.0201,  0.0770,  ...,  0.0477, -0.0719,  0.0076]],
+       device='cuda:0'), grad: tensor([[ 1.4668e-08,  5.2096e-08,  8.3179e-08,  ...,  2.5379e-08,
+          2.0361e-07,  1.7160e-07],
+        [ 1.8510e-08, -1.0099e-07,  4.6624e-08,  ..., -5.8208e-11,
+          8.6846e-08,  9.0105e-08],
+        [ 8.9232e-08,  1.5786e-07,  8.5391e-08,  ...,  1.0949e-07,
+          7.9803e-08,  1.1834e-07],
+        ...,
+        [-1.1036e-07,  9.1677e-08,  2.5204e-08,  ..., -4.4610e-07,
+         -6.1293e-08, -6.3505e-08],
+        [-3.0710e-07, -9.3319e-07, -3.5460e-07,  ...,  6.6124e-08,
+          5.5996e-08, -4.2515e-07],
+        [-1.9150e-08, -2.1653e-08, -1.8161e-07,  ..., -5.5705e-08,
+          3.9756e-08, -2.2526e-08]], device='cuda:0')
+Epoch 192, bias, value: tensor([ 0.0334, -0.0262, -0.0062,  0.0144, -0.0036, -0.0140,  0.0016,  0.0136,
+        -0.0256,  0.0127], device='cuda:0'), grad: tensor([ 7.2503e-07,  1.1991e-07,  8.4192e-07,  1.8226e-06,  1.2079e-06,
+        -1.5534e-06, -2.6878e-06,  6.3516e-07, -1.3635e-06,  2.3760e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 191, time 217.30, cls_loss 0.0011 cls_loss_mapping 0.0037 cls_loss_causal 0.4876 re_mapping 0.0041 re_causal 0.0129 /// teacc 99.05 lr 0.00010000
+Epoch 193, weight, value: tensor([[ 0.0177, -0.0712,  0.0131,  ..., -0.0877, -0.1208, -0.0929],
+        [-0.0997,  0.0594, -0.0968,  ..., -0.1120, -0.0982, -0.1656],
+        [-0.0718, -0.1125, -0.0994,  ..., -0.1534, -0.0908,  0.1287],
+        ...,
+        [ 0.0738, -0.0437, -0.0966,  ...,  0.0833, -0.0918, -0.0934],
+        [ 0.1106,  0.0920,  0.0614,  ..., -0.1285, -0.0930,  0.0719],
+        [ 0.0560,  0.0215,  0.0784,  ...,  0.0478, -0.0720,  0.0079]],
+       device='cuda:0'), grad: tensor([[-2.5448e-07,  1.2817e-07,  6.7288e-08,  ..., -6.0187e-08,
+          7.4040e-08,  1.7288e-07],
+        [ 6.4634e-07,  5.5600e-07,  3.0268e-07,  ..., -1.3621e-08,
+          3.3807e-07,  6.2212e-07],
+        [ 5.1549e-07,  2.3411e-07,  2.6869e-07,  ...,  7.3342e-09,
+          2.7893e-07, -4.3097e-07],
+        ...,
+        [ 7.0333e-06,  7.6443e-06,  3.2280e-06,  ...,  6.1700e-08,
+          3.9004e-06,  6.3144e-06],
+        [-1.0841e-05, -1.1824e-05, -5.1856e-06,  ...,  1.8976e-08,
+         -5.9977e-06, -9.5963e-06],
+        [ 1.7509e-07,  1.5448e-07, -6.4028e-09,  ..., -9.8953e-08,
+          5.3551e-08,  2.6962e-07]], device='cuda:0')
+Epoch 193, bias, value: tensor([ 0.0336, -0.0262, -0.0065,  0.0143, -0.0036, -0.0139,  0.0012,  0.0140,
+        -0.0262,  0.0128], device='cuda:0'), grad: tensor([-6.7707e-07,  2.6673e-06, -4.7684e-07,  1.0654e-05,  8.9221e-07,
+         9.8906e-07,  6.3563e-07,  3.1680e-05, -4.7863e-05,  1.4454e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 192, time 217.30, cls_loss 0.0009 cls_loss_mapping 0.0035 cls_loss_causal 0.5346 re_mapping 0.0039 re_causal 0.0130 /// teacc 99.02 lr 0.00010000
+Epoch 194, weight, value: tensor([[ 0.0177, -0.0712,  0.0132,  ..., -0.0878, -0.1210, -0.0933],
+        [-0.0997,  0.0596, -0.0971,  ..., -0.1116, -0.0993, -0.1659],
+        [-0.0718, -0.1126, -0.0997,  ..., -0.1538, -0.0913,  0.1291],
+        ...,
+        [ 0.0738, -0.0441, -0.0973,  ...,  0.0833, -0.0923, -0.0940],
+        [ 0.1108,  0.0923,  0.0617,  ..., -0.1292, -0.0932,  0.0719],
+        [ 0.0560,  0.0216,  0.0788,  ...,  0.0477, -0.0722,  0.0078]],
+       device='cuda:0'), grad: tensor([[-1.7171e-07,  2.7590e-08,  1.4901e-08,  ...,  2.7823e-08,
+          8.6427e-07,  4.2981e-07],
+        [ 9.4878e-08, -2.0140e-08,  2.2352e-08,  ...,  6.7521e-08,
+          5.1036e-07,  2.7195e-07],
+        [ 9.2550e-08,  1.3621e-08,  5.0059e-09,  ...,  1.1153e-07,
+          2.1898e-07,  1.1118e-07],
+        ...,
+        [-1.7695e-07,  3.2014e-08,  7.1013e-09,  ..., -2.7474e-07,
+          2.9453e-08,  2.4680e-08],
+        [-4.4564e-07, -4.4797e-07, -2.3155e-07,  ...,  8.8243e-08,
+          2.4447e-07, -1.6193e-07],
+        [ 3.8673e-07,  2.6543e-07,  9.1270e-08,  ...,  2.2503e-07,
+          2.8755e-07,  2.8452e-07]], device='cuda:0')
+Epoch 194, bias, value: tensor([ 0.0336, -0.0262, -0.0063,  0.0147, -0.0035, -0.0140,  0.0014,  0.0138,
+        -0.0262,  0.0127], device='cuda:0'), grad: tensor([-2.2128e-06,  2.0489e-06,  1.3076e-06,  2.0713e-06,  3.9898e-06,
+        -1.5218e-06, -8.2403e-06, -4.6194e-07,  1.5402e-07,  2.8610e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 193, time 217.10, cls_loss 0.0012 cls_loss_mapping 0.0031 cls_loss_causal 0.4666 re_mapping 0.0040 re_causal 0.0120 /// teacc 98.88 lr 0.00010000
+Epoch 195, weight, value: tensor([[ 0.0181, -0.0710,  0.0132,  ..., -0.0879, -0.1209, -0.0927],
+        [-0.0998,  0.0598, -0.0973,  ..., -0.1118, -0.1006, -0.1663],
+        [-0.0717, -0.1128, -0.0996,  ..., -0.1542, -0.0919,  0.1297],
+        ...,
+        [ 0.0736, -0.0444, -0.0981,  ...,  0.0831, -0.0935, -0.0954],
+        [ 0.1108,  0.0924,  0.0618,  ..., -0.1317, -0.0935,  0.0717],
+        [ 0.0564,  0.0225,  0.0792,  ...,  0.0485, -0.0716,  0.0084]],
+       device='cuda:0'), grad: tensor([[ 3.4925e-08,  1.8708e-07,  8.4634e-08,  ...,  7.0897e-08,
+          3.1292e-07,  1.0189e-06],
+        [ 6.8452e-08,  4.1444e-07,  1.8510e-07,  ...,  2.0803e-07,
+          1.3388e-08,  1.6857e-07],
+        [ 4.4587e-08,  2.6496e-07,  8.6031e-08,  ...,  9.3598e-08,
+          3.9814e-08, -7.3127e-06],
+        ...,
+        [ 3.5274e-08,  1.4901e-06,  4.8103e-07,  ...,  4.7125e-07,
+          4.6566e-09,  3.8883e-07],
+        [-1.6838e-06, -8.5263e-07, -8.2562e-07,  ...,  1.8103e-07,
+         -2.3399e-08,  1.5963e-06],
+        [ 1.3248e-07,  2.0210e-06,  6.7987e-07,  ...,  1.8801e-07,
+          1.4319e-08,  3.6787e-07]], device='cuda:0')
+Epoch 195, bias, value: tensor([ 0.0340, -0.0261, -0.0060,  0.0144, -0.0042, -0.0141,  0.0015,  0.0136,
+        -0.0264,  0.0133], device='cuda:0'), grad: tensor([ 4.1053e-06,  1.7062e-06, -2.6360e-05, -1.0192e-05,  2.2314e-06,
+         5.4538e-06,  2.0880e-06,  6.0461e-06,  8.0243e-06,  6.9141e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 194, time 217.06, cls_loss 0.0012 cls_loss_mapping 0.0030 cls_loss_causal 0.5112 re_mapping 0.0037 re_causal 0.0120 /// teacc 98.94 lr 0.00010000
+Epoch 196, weight, value: tensor([[ 0.0183, -0.0711,  0.0133,  ..., -0.0880, -0.1209, -0.0928],
+        [-0.1000,  0.0599, -0.0974,  ..., -0.1122, -0.1011, -0.1665],
+        [-0.0717, -0.1130, -0.1000,  ..., -0.1547, -0.0924,  0.1302],
+        ...,
+        [ 0.0736, -0.0446, -0.0985,  ...,  0.0831, -0.0940, -0.0965],
+        [ 0.1111,  0.0927,  0.0620,  ..., -0.1326, -0.0937,  0.0718],
+        [ 0.0565,  0.0234,  0.0793,  ...,  0.0487, -0.0722,  0.0084]],
+       device='cuda:0'), grad: tensor([[ 3.1898e-08,  1.3993e-07, -9.5228e-08,  ...,  8.1491e-08,
+          1.4796e-07,  1.4389e-07],
+        [ 7.5321e-08, -3.0035e-07, -2.2119e-08,  ...,  8.6729e-08,
+          3.8417e-08,  3.1502e-07],
+        [-2.9616e-06,  3.4459e-08,  3.7369e-08,  ..., -1.5832e-06,
+          4.2608e-08, -1.9968e-05],
+        ...,
+        [ 1.2152e-05,  9.1456e-07,  1.0207e-06,  ...,  1.6674e-05,
+          1.9209e-08,  1.1787e-05],
+        [ 7.1805e-07, -3.8301e-08, -6.4727e-08,  ...,  3.4459e-08,
+          1.4447e-07,  4.3362e-06],
+        [-1.0669e-05, -8.7777e-07, -1.1642e-06,  ..., -1.5706e-05,
+         -8.3935e-08, -1.6717e-07]], device='cuda:0')
+Epoch 196, bias, value: tensor([ 0.0343, -0.0261, -0.0060,  0.0150, -0.0041, -0.0144,  0.0014,  0.0134,
+        -0.0263,  0.0132], device='cuda:0'), grad: tensor([-2.4345e-06,  2.0186e-07, -4.7773e-05,  7.2196e-06,  1.1418e-06,
+        -1.1246e-07,  2.3711e-06,  5.3048e-05,  1.0744e-05, -2.4423e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 195, time 216.87, cls_loss 0.0009 cls_loss_mapping 0.0024 cls_loss_causal 0.5204 re_mapping 0.0038 re_causal 0.0127 /// teacc 98.96 lr 0.00010000
+Epoch 197, weight, value: tensor([[ 0.0183, -0.0712,  0.0134,  ..., -0.0881, -0.1211, -0.0931],
+        [-0.1002,  0.0599, -0.0977,  ..., -0.1130, -0.1018, -0.1668],
+        [-0.0719, -0.1131, -0.1002,  ..., -0.1558, -0.0926,  0.1313],
+        ...,
+        [ 0.0736, -0.0448, -0.0999,  ...,  0.0829, -0.0942, -0.0981],
+        [ 0.1111,  0.0926,  0.0619,  ..., -0.1338, -0.0940,  0.0714],
+        [ 0.0570,  0.0235,  0.0797,  ...,  0.0488, -0.0725,  0.0081]],
+       device='cuda:0'), grad: tensor([[-2.7940e-09,  4.4121e-08,  3.5274e-08,  ...,  1.2538e-07,
+          6.6357e-09,  4.3772e-08],
+        [ 2.5728e-08,  9.6275e-08,  5.6927e-08,  ...,  2.4564e-07,
+          7.9395e-08,  1.2130e-07],
+        [ 1.1059e-08,  4.3306e-08,  1.6182e-08,  ...,  1.6531e-08,
+          7.2177e-09, -3.6205e-08],
+        ...,
+        [ 7.0315e-07,  1.3933e-06,  1.1604e-06,  ...,  5.1074e-06,
+          5.7044e-09,  1.4808e-06],
+        [-2.5611e-09,  5.5647e-08,  2.5495e-08,  ...,  1.1001e-07,
+          1.2806e-09, -2.6776e-09],
+        [-9.8441e-07, -1.8040e-06, -1.5898e-06,  ..., -6.9477e-06,
+          1.1467e-07, -1.9222e-06]], device='cuda:0')
+Epoch 197, bias, value: tensor([ 0.0345, -0.0264, -0.0057,  0.0149, -0.0039, -0.0144,  0.0015,  0.0132,
+        -0.0268,  0.0134], device='cuda:0'), grad: tensor([ 1.3318e-07,  7.2364e-07,  4.3889e-08, -7.1106e-07,  3.0044e-06,
+         6.8732e-07,  2.7986e-07,  1.3471e-05,  3.6089e-07, -1.7956e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 196, time 216.83, cls_loss 0.0009 cls_loss_mapping 0.0035 cls_loss_causal 0.5165 re_mapping 0.0040 re_causal 0.0126 /// teacc 98.99 lr 0.00010000
+Epoch 198, weight, value: tensor([[ 0.0183, -0.0713,  0.0134,  ..., -0.0884, -0.1213, -0.0933],
+        [-0.1003,  0.0598, -0.0980,  ..., -0.1133, -0.1028, -0.1670],
+        [-0.0721, -0.1133, -0.1005,  ..., -0.1564, -0.0932,  0.1314],
+        ...,
+        [ 0.0736, -0.0450, -0.1011,  ...,  0.0828, -0.0946, -0.0986],
+        [ 0.1115,  0.0929,  0.0623,  ..., -0.1348, -0.0944,  0.0715],
+        [ 0.0573,  0.0234,  0.0800,  ...,  0.0487, -0.0728,  0.0080]],
+       device='cuda:0'), grad: tensor([[ 2.0862e-07,  4.0885e-07,  5.2620e-08,  ...,  4.9081e-07,
+          4.3074e-09,  3.9022e-07],
+        [ 9.6275e-08, -7.6275e-07,  3.5157e-08,  ...,  1.5623e-07,
+          1.0477e-09, -1.1479e-07],
+        [ 4.7311e-07,  6.1467e-07,  1.5064e-07,  ...,  5.2154e-08,
+          3.6089e-09,  3.3621e-07],
+        ...,
+        [ 1.8543e-06,  1.3318e-07,  1.3625e-06,  ...,  2.8908e-06,
+          2.3283e-10,  3.7230e-07],
+        [-7.4320e-07, -8.2841e-07, -2.4540e-07,  ...,  1.9034e-07,
+          2.9104e-09, -1.0207e-06],
+        [-2.9262e-06, -2.6077e-07, -1.5441e-06,  ..., -6.0685e-06,
+          1.6298e-09, -1.5451e-06]], device='cuda:0')
+Epoch 198, bias, value: tensor([ 0.0344, -0.0265, -0.0059,  0.0157, -0.0037, -0.0145,  0.0016,  0.0131,
+        -0.0267,  0.0133], device='cuda:0'), grad: tensor([ 2.5965e-06, -2.6803e-06,  1.6093e-06,  1.1967e-06,  4.7423e-06,
+         5.0059e-08,  1.1753e-06,  7.3761e-06, -2.5239e-06, -1.3538e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 197, time 217.03, cls_loss 0.0012 cls_loss_mapping 0.0040 cls_loss_causal 0.5341 re_mapping 0.0038 re_causal 0.0124 /// teacc 98.92 lr 0.00010000
+Epoch 199, weight, value: tensor([[ 0.0179, -0.0714,  0.0132,  ..., -0.0897, -0.1215, -0.0936],
+        [-0.1005,  0.0598, -0.0984,  ..., -0.1140, -0.1034, -0.1678],
+        [-0.0727, -0.1136, -0.1009,  ..., -0.1576, -0.0934,  0.1320],
+        ...,
+        [ 0.0748, -0.0449, -0.1010,  ...,  0.0851, -0.0951, -0.0986],
+        [ 0.1118,  0.0935,  0.0626,  ..., -0.1359, -0.0945,  0.0720],
+        [ 0.0572,  0.0233,  0.0802,  ...,  0.0485, -0.0731,  0.0078]],
+       device='cuda:0'), grad: tensor([[ 1.5716e-08,  3.0734e-08,  7.3342e-09,  ...,  2.8522e-08,
+          1.4866e-07,  2.9197e-07],
+        [ 2.2235e-08, -5.5879e-08,  1.3504e-08,  ...,  5.5181e-08,
+          5.5763e-08,  2.0792e-07],
+        [-1.8312e-07,  3.6205e-08,  5.3551e-09,  ...,  4.4238e-09,
+          8.1258e-08, -1.6680e-06],
+        ...,
+        [ 5.6461e-08,  9.6275e-08,  3.5740e-08,  ...,  1.9069e-07,
+          3.9814e-08,  1.3679e-07],
+        [-6.6822e-08, -5.2969e-08,  9.6625e-09,  ...,  1.6182e-08,
+          2.4145e-07,  5.8068e-07],
+        [-9.4064e-08, -1.0477e-08, -7.5437e-08,  ..., -5.8440e-08,
+          2.6403e-07,  2.3586e-07]], device='cuda:0')
+Epoch 199, bias, value: tensor([ 0.0341, -0.0268, -0.0058,  0.0155, -0.0036, -0.0144,  0.0011,  0.0140,
+        -0.0265,  0.0130], device='cuda:0'), grad: tensor([ 1.0068e-06,  4.5262e-07, -5.2936e-06,  9.4995e-07,  5.7044e-08,
+         5.6718e-07, -9.6112e-07,  8.9081e-07,  1.9046e-06,  4.1816e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 198, time 216.89, cls_loss 0.0012 cls_loss_mapping 0.0035 cls_loss_causal 0.5250 re_mapping 0.0036 re_causal 0.0117 /// teacc 99.06 lr 0.00010000
+Epoch 200, weight, value: tensor([[ 0.0180, -0.0715,  0.0131,  ..., -0.0900, -0.1220, -0.0941],
+        [-0.1008,  0.0599, -0.0987,  ..., -0.1145, -0.1058, -0.1688],
+        [-0.0733, -0.1137, -0.1012,  ..., -0.1587, -0.0952,  0.1324],
+        ...,
+        [ 0.0752, -0.0451, -0.1014,  ...,  0.0856, -0.0955, -0.0992],
+        [ 0.1122,  0.0935,  0.0628,  ..., -0.1373, -0.0953,  0.0720],
+        [ 0.0573,  0.0234,  0.0803,  ...,  0.0484, -0.0734,  0.0077]],
+       device='cuda:0'), grad: tensor([[-5.9558e-07,  1.0990e-06,  5.7183e-07,  ..., -6.7172e-08,
+          7.2177e-09,  6.5006e-07],
+        [ 5.7393e-08,  1.0812e-04,  6.0111e-05,  ...,  1.8161e-08,
+          6.4028e-09,  6.7115e-05],
+        [ 1.9872e-07,  1.4253e-05,  3.8520e-06,  ...,  2.9453e-08,
+          8.0327e-09,  4.2580e-06],
+        ...,
+        [ 9.6625e-08,  6.0070e-07,  2.0501e-07,  ...,  1.8510e-08,
+          8.4983e-09,  2.3725e-07],
+        [-2.2782e-07, -1.2791e-04, -7.1347e-05,  ...,  1.8510e-08,
+         -9.6625e-09, -7.9811e-05],
+        [ 1.9441e-07,  3.3760e-07,  1.0477e-07,  ..., -1.7579e-08,
+          2.0722e-08,  1.7544e-07]], device='cuda:0')
+Epoch 200, bias, value: tensor([ 0.0340, -0.0271, -0.0058,  0.0153, -0.0033, -0.0145,  0.0018,  0.0142,
+        -0.0268,  0.0128], device='cuda:0'), grad: tensor([ 9.8534e-07,  4.4227e-04,  6.9857e-05, -4.2021e-05,  6.3283e-07,
+         2.0459e-05,  2.2560e-05,  3.3062e-06, -5.2118e-04,  2.8498e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 199, time 216.93, cls_loss 0.0009 cls_loss_mapping 0.0024 cls_loss_causal 0.4578 re_mapping 0.0037 re_causal 0.0120 /// teacc 99.09 lr 0.00010000
+Epoch 201, weight, value: tensor([[ 0.0185, -0.0718,  0.0132,  ..., -0.0900, -0.1212, -0.0930],
+        [-0.1010,  0.0599, -0.1000,  ..., -0.1150, -0.1070, -0.1696],
+        [-0.0736, -0.1141, -0.1017,  ..., -0.1593, -0.0959,  0.1323],
+        ...,
+        [ 0.0752, -0.0453, -0.1019,  ...,  0.0859, -0.0957, -0.0995],
+        [ 0.1128,  0.0940,  0.0635,  ..., -0.1381, -0.0954,  0.0724],
+        [ 0.0571,  0.0231,  0.0803,  ...,  0.0483, -0.0737,  0.0075]],
+       device='cuda:0'), grad: tensor([[-4.2631e-07, -9.3482e-08,  5.0059e-09,  ..., -1.4284e-07,
+          1.4203e-08,  2.7590e-08],
+        [ 2.0606e-08,  1.7777e-07,  1.1991e-08,  ...,  1.2107e-08,
+          5.4715e-09,  2.2561e-07],
+        [ 1.0128e-07,  7.4320e-07,  3.1898e-08,  ...,  9.3132e-09,
+          1.1525e-08, -3.7998e-07],
+        ...,
+        [ 3.3062e-08,  3.0873e-07,  1.6764e-08,  ...,  2.7823e-08,
+          0.0000e+00,  3.6904e-08],
+        [ 4.2375e-08,  1.2584e-07, -1.2689e-08,  ...,  4.1095e-08,
+          2.8638e-08,  5.7975e-08],
+        [ 1.2608e-07,  1.3504e-07, -7.3342e-09,  ..., -3.4925e-10,
+          5.8208e-10,  2.3865e-08]], device='cuda:0')
+Epoch 201, bias, value: tensor([ 0.0346, -0.0272, -0.0061,  0.0172, -0.0030, -0.0148,  0.0012,  0.0141,
+        -0.0264,  0.0124], device='cuda:0'), grad: tensor([-2.8480e-06,  1.3132e-06,  1.6289e-06, -4.9099e-06,  2.0897e-07,
+         8.2422e-07,  2.6752e-07,  1.1688e-06,  1.0245e-06,  1.3188e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 200, time 217.16, cls_loss 0.0011 cls_loss_mapping 0.0032 cls_loss_causal 0.5259 re_mapping 0.0035 re_causal 0.0116 /// teacc 99.01 lr 0.00010000
+Epoch 202, weight, value: tensor([[ 0.0163, -0.0722,  0.0134,  ..., -0.0930, -0.1214, -0.0921],
+        [-0.1012,  0.0606, -0.1002,  ..., -0.1153, -0.1077, -0.1697],
+        [-0.0734, -0.1144, -0.1020,  ..., -0.1599, -0.0965,  0.1324],
+        ...,
+        [ 0.0753, -0.0455, -0.1025,  ...,  0.0860, -0.0959, -0.1000],
+        [ 0.1117,  0.0937,  0.0636,  ..., -0.1399, -0.0958,  0.0717],
+        [ 0.0598,  0.0230,  0.0806,  ...,  0.0490, -0.0739,  0.0074]],
+       device='cuda:0'), grad: tensor([[ 4.3423e-08,  3.5507e-08,  1.2456e-08,  ...,  1.6077e-07,
+          6.0117e-07,  3.7439e-07],
+        [ 1.3842e-07, -5.2713e-07,  7.7998e-09,  ...,  6.4820e-07,
+          5.9092e-07,  2.8894e-07],
+        [ 1.3027e-07,  4.9127e-08,  5.2387e-09,  ...,  1.9791e-07,
+          2.3760e-07,  7.2992e-08],
+        ...,
+        [-5.2433e-07,  6.3330e-07,  6.4843e-08,  ...,  7.3854e-07,
+          7.3016e-07,  3.3434e-07],
+        [ 7.1013e-08, -2.6776e-08, -2.2585e-08,  ...,  1.4610e-07,
+          2.4214e-07,  1.2910e-07],
+        [-1.5355e-07,  2.8615e-07, -1.0105e-07,  ...,  4.7833e-06,
+          3.9451e-06,  1.6596e-06]], device='cuda:0')
+Epoch 202, bias, value: tensor([ 0.0330, -0.0271, -0.0060,  0.0166, -0.0029, -0.0144,  0.0012,  0.0140,
+        -0.0276,  0.0135], device='cuda:0'), grad: tensor([ 1.8738e-06, -1.1362e-06,  1.0589e-06,  1.1772e-06, -1.8373e-05,
+        -1.4372e-05,  5.7854e-06,  3.0976e-06,  1.0684e-05,  1.0200e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 201, time 217.34, cls_loss 0.0008 cls_loss_mapping 0.0026 cls_loss_causal 0.4935 re_mapping 0.0038 re_causal 0.0123 /// teacc 98.98 lr 0.00010000
+Epoch 203, weight, value: tensor([[ 0.0165, -0.0722,  0.0135,  ..., -0.0931, -0.1219, -0.0923],
+        [-0.1010,  0.0611, -0.1003,  ..., -0.1155, -0.1077, -0.1696],
+        [-0.0737, -0.1148, -0.1022,  ..., -0.1603, -0.0974,  0.1326],
+        ...,
+        [ 0.0752, -0.0459, -0.1029,  ...,  0.0860, -0.0967, -0.1007],
+        [ 0.1118,  0.0936,  0.0637,  ..., -0.1405, -0.0960,  0.0716],
+        [ 0.0599,  0.0230,  0.0807,  ...,  0.0491, -0.0740,  0.0073]],
+       device='cuda:0'), grad: tensor([[ 2.0955e-09,  2.4331e-07,  4.8894e-08,  ...,  7.6601e-08,
+          1.3271e-08,  2.9453e-08],
+        [ 3.2363e-08, -1.4284e-07,  6.5193e-09,  ...,  7.1479e-08,
+          3.2596e-09,  2.4913e-08],
+        [ 2.2119e-08,  7.3947e-07,  1.3935e-07,  ...,  2.9104e-08,
+          2.6776e-09, -4.3539e-08],
+        ...,
+        [-7.0594e-07,  3.5437e-07,  8.1956e-08,  ..., -8.7661e-08,
+          1.6298e-09,  1.5250e-08],
+        [-1.8915e-06, -1.3523e-06, -1.4408e-06,  ..., -5.8580e-07,
+         -1.9278e-07, -2.6077e-06],
+        [ 2.2873e-06,  1.2852e-06,  1.2452e-06,  ...,  9.5461e-07,
+          1.9418e-07,  2.3376e-06]], device='cuda:0')
+Epoch 203, bias, value: tensor([ 0.0332, -0.0268, -0.0061,  0.0161, -0.0029, -0.0141,  0.0013,  0.0137,
+        -0.0278,  0.0134], device='cuda:0'), grad: tensor([ 9.8255e-07,  6.8336e-08,  2.6952e-06, -6.5863e-06,  5.6624e-07,
+        -1.3206e-06,  5.1875e-07,  2.0973e-06, -5.5619e-06,  6.5081e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 202, time 217.04, cls_loss 0.0010 cls_loss_mapping 0.0027 cls_loss_causal 0.4810 re_mapping 0.0038 re_causal 0.0115 /// teacc 99.09 lr 0.00010000
+Epoch 204, weight, value: tensor([[ 0.0166, -0.0722,  0.0135,  ..., -0.0932, -0.1223, -0.0925],
+        [-0.1011,  0.0614, -0.1005,  ..., -0.1158, -0.1083, -0.1698],
+        [-0.0739, -0.1150, -0.1025,  ..., -0.1607, -0.0978,  0.1329],
+        ...,
+        [ 0.0748, -0.0464, -0.1055,  ...,  0.0858, -0.0973, -0.1017],
+        [ 0.1124,  0.0939,  0.0638,  ..., -0.1413, -0.0964,  0.0716],
+        [ 0.0602,  0.0233,  0.0818,  ...,  0.0491, -0.0743,  0.0072]],
+       device='cuda:0'), grad: tensor([[-3.3411e-08,  3.3062e-08,  3.1432e-09,  ...,  3.0524e-07,
+          1.4203e-08,  2.6310e-08],
+        [ 2.0035e-07,  3.4692e-08,  5.1223e-09,  ...,  4.6659e-07,
+          1.8859e-08,  2.8126e-07],
+        [ 2.9081e-07,  1.4610e-07,  7.9162e-09,  ...,  5.3085e-07,
+          1.7113e-08, -6.3423e-07],
+        ...,
+        [-1.0496e-06,  1.5693e-07,  7.1013e-09,  ..., -2.3674e-06,
+          3.0384e-08,  1.5704e-07],
+        [ 2.7940e-09,  2.4447e-07, -9.3132e-10,  ...,  3.5157e-08,
+          5.0059e-09,  2.7707e-08],
+        [ 4.3726e-07,  5.7160e-08, -1.7928e-08,  ...,  9.6671e-07,
+          1.5728e-07,  7.8231e-08]], device='cuda:0')
+Epoch 204, bias, value: tensor([ 0.0332, -0.0268, -0.0061,  0.0159, -0.0028, -0.0143,  0.0017,  0.0134,
+        -0.0278,  0.0135], device='cuda:0'), grad: tensor([ 6.2026e-07,  2.4475e-06, -8.0140e-07,  1.3746e-06,  6.2864e-09,
+        -5.4576e-06,  1.2983e-06, -4.6417e-06,  2.1085e-06,  3.0082e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 203, time 217.12, cls_loss 0.0010 cls_loss_mapping 0.0027 cls_loss_causal 0.4835 re_mapping 0.0037 re_causal 0.0117 /// teacc 99.11 lr 0.00010000
+Epoch 205, weight, value: tensor([[ 0.0168, -0.0722,  0.0137,  ..., -0.0933, -0.1224, -0.0926],
+        [-0.1019,  0.0616, -0.1006,  ..., -0.1170, -0.1089, -0.1701],
+        [-0.0748, -0.1153, -0.1034,  ..., -0.1620, -0.0983,  0.1328],
+        ...,
+        [ 0.0755, -0.0466, -0.1064,  ...,  0.0863, -0.0976, -0.1018],
+        [ 0.1128,  0.0941,  0.0642,  ..., -0.1415, -0.0968,  0.0718],
+        [ 0.0603,  0.0234,  0.0819,  ...,  0.0487, -0.0752,  0.0065]],
+       device='cuda:0'), grad: tensor([[ 6.6007e-08,  1.0652e-07,  6.9384e-08,  ...,  1.7928e-08,
+          4.6100e-08,  1.7183e-07],
+        [ 2.0058e-07,  2.6776e-08,  5.3667e-08,  ...,  9.0688e-08,
+          1.8626e-08,  1.3900e-07],
+        [ 1.5162e-06,  1.3066e-06,  7.2271e-07,  ...,  5.7393e-08,
+          1.7812e-08,  1.6326e-06],
+        ...,
+        [-1.0361e-07,  1.0803e-07,  7.3807e-08,  ..., -7.1013e-08,
+          2.4214e-08,  1.4994e-07],
+        [-2.6077e-06, -2.3451e-06, -1.2852e-06,  ...,  7.7998e-09,
+          4.0047e-08, -2.9895e-06],
+        [ 2.4098e-07,  2.4121e-07,  3.8883e-08,  ..., -5.9488e-08,
+          1.4924e-07,  3.5949e-07]], device='cuda:0')
+Epoch 205, bias, value: tensor([ 0.0335, -0.0269, -0.0064,  0.0160, -0.0024, -0.0144,  0.0020,  0.0136,
+        -0.0279,  0.0131], device='cuda:0'), grad: tensor([ 2.6543e-07,  6.5798e-07,  5.8413e-06,  1.2619e-06,  3.2131e-08,
+         5.8999e-07,  3.5297e-07, -2.3702e-07, -1.0125e-05,  1.3327e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 204, time 217.26, cls_loss 0.0012 cls_loss_mapping 0.0033 cls_loss_causal 0.4851 re_mapping 0.0039 re_causal 0.0119 /// teacc 99.10 lr 0.00010000
+Epoch 206, weight, value: tensor([[ 0.0168, -0.0724,  0.0134,  ..., -0.0934, -0.1232, -0.0933],
+        [-0.1020,  0.0620, -0.1009,  ..., -0.1173, -0.1095, -0.1704],
+        [-0.0752, -0.1156, -0.1040,  ..., -0.1614, -0.0985,  0.1338],
+        ...,
+        [ 0.0756, -0.0469, -0.1075,  ...,  0.0863, -0.0978, -0.1037],
+        [ 0.1143,  0.0947,  0.0649,  ..., -0.1422, -0.0966,  0.0726],
+        [ 0.0604,  0.0236,  0.0827,  ...,  0.0485, -0.0759,  0.0061]],
+       device='cuda:0'), grad: tensor([[ 1.9930e-07,  1.1567e-06,  7.3854e-07,  ...,  2.5146e-07,
+          3.0152e-08,  1.0140e-07],
+        [ 3.8906e-07,  2.6170e-07,  1.1409e-07,  ...,  4.6147e-07,
+          1.7590e-07,  2.9034e-07],
+        [ 1.5339e-06,  3.5726e-06,  2.2501e-06,  ...,  2.7288e-06,
+          3.1898e-08,  1.0831e-06],
+        ...,
+        [ 5.0217e-06,  3.4533e-06,  1.4482e-06,  ...,  3.3118e-06,
+          5.6578e-08,  1.5814e-06],
+        [ 4.1677e-08,  4.4587e-08, -3.3760e-09,  ...,  2.7334e-07,
+          1.5146e-07, -1.4319e-07],
+        [-8.7619e-06, -4.2506e-06, -2.2240e-06,  ..., -8.3372e-06,
+          4.8708e-07, -2.5555e-06]], device='cuda:0')
+Epoch 206, bias, value: tensor([ 0.0333, -0.0266, -0.0038,  0.0133, -0.0023, -0.0145,  0.0019,  0.0134,
+        -0.0273,  0.0128], device='cuda:0'), grad: tensor([ 2.8405e-06,  1.7015e-06,  1.6212e-05, -1.0356e-05,  2.3725e-07,
+         3.3714e-06,  4.3726e-07,  1.5348e-05,  4.0047e-07, -3.0130e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 205, time 217.25, cls_loss 0.0009 cls_loss_mapping 0.0023 cls_loss_causal 0.5131 re_mapping 0.0037 re_causal 0.0122 /// teacc 99.05 lr 0.00010000
+Epoch 207, weight, value: tensor([[ 0.0168, -0.0726,  0.0131,  ..., -0.0935, -0.1237, -0.0937],
+        [-0.1022,  0.0621, -0.1020,  ..., -0.1176, -0.1107, -0.1711],
+        [-0.0757, -0.1159, -0.1048,  ..., -0.1622, -0.0990,  0.1339],
+        ...,
+        [ 0.0758, -0.0471, -0.1078,  ...,  0.0870, -0.0985, -0.1044],
+        [ 0.1149,  0.0951,  0.0656,  ..., -0.1430, -0.0969,  0.0729],
+        [ 0.0605,  0.0236,  0.0831,  ...,  0.0484, -0.0766,  0.0058]],
+       device='cuda:0'), grad: tensor([[-1.5646e-06,  1.3469e-07,  8.6729e-08,  ..., -5.6927e-08,
+         -1.0738e-06, -4.4680e-07],
+        [ 4.3423e-08,  1.2806e-09,  5.9721e-08,  ...,  2.3399e-08,
+          3.3877e-08,  3.8766e-08],
+        [ 9.4296e-08,  7.6275e-07,  1.9802e-07,  ...,  1.8044e-08,
+          7.8464e-08,  5.9721e-08],
+        ...,
+        [ 2.2061e-07,  4.5123e-07,  2.3283e-07,  ...,  3.0012e-07,
+          3.0850e-08,  1.9092e-08],
+        [-2.5844e-07,  1.7625e-07,  1.0477e-07,  ...,  1.7008e-07,
+         -4.8289e-07, -6.1980e-07],
+        [-4.7591e-07, -4.7730e-07, -7.7114e-07,  ..., -7.0175e-07,
+          2.5076e-07, -3.0734e-08]], device='cuda:0')
+Epoch 207, bias, value: tensor([ 0.0331, -0.0268, -0.0030,  0.0120, -0.0021, -0.0141,  0.0024,  0.0136,
+        -0.0270,  0.0126], device='cuda:0'), grad: tensor([-5.2489e-06,  2.2212e-07,  2.3618e-06, -6.2250e-06,  7.9861e-07,
+         6.2445e-07,  6.5416e-06,  1.7369e-06,  6.7893e-07, -1.5097e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 206, time 217.28, cls_loss 0.0010 cls_loss_mapping 0.0031 cls_loss_causal 0.4877 re_mapping 0.0038 re_causal 0.0117 /// teacc 99.05 lr 0.00010000
+Epoch 208, weight, value: tensor([[ 0.0169, -0.0728,  0.0131,  ..., -0.0935, -0.1241, -0.0940],
+        [-0.1027,  0.0621, -0.1022,  ..., -0.1182, -0.1127, -0.1721],
+        [-0.0765, -0.1163, -0.1057,  ..., -0.1635, -0.0994,  0.1347],
+        ...,
+        [ 0.0747, -0.0470, -0.1087,  ...,  0.0876, -0.0991, -0.1048],
+        [ 0.1173,  0.0950,  0.0658,  ..., -0.1442, -0.0971,  0.0729],
+        [ 0.0606,  0.0236,  0.0833,  ...,  0.0484, -0.0769,  0.0058]],
+       device='cuda:0'), grad: tensor([[ 9.7230e-07,  2.2119e-08,  5.5996e-08,  ...,  2.3842e-07,
+          2.3283e-10,  1.2340e-08],
+        [ 3.4105e-06,  1.0442e-07,  5.9884e-07,  ...,  2.5462e-06,
+          1.3888e-07,  1.3830e-07],
+        [ 5.5768e-06,  5.4482e-07,  8.6031e-08,  ...,  1.6287e-07,
+          4.1677e-08,  3.6671e-07],
+        ...,
+        [-2.9111e-04,  4.5961e-07, -5.5060e-06,  ..., -2.4348e-05,
+          2.6426e-08,  1.8976e-08],
+        [ 2.5845e-04, -9.4809e-07, -1.3970e-07,  ...,  1.9372e-07,
+         -3.1199e-08, -7.4366e-07],
+        [ 1.9580e-05,  3.0128e-07,  4.8503e-06,  ...,  2.0891e-05,
+          4.1723e-07,  1.6927e-07]], device='cuda:0')
+Epoch 208, bias, value: tensor([ 0.0330, -0.0273, -0.0029,  0.0122, -0.0020, -0.0139,  0.0018,  0.0136,
+        -0.0264,  0.0125], device='cuda:0'), grad: tensor([ 1.8049e-06,  9.3281e-06,  1.1303e-05, -9.9465e-07, -2.8056e-07,
+         5.1446e-06,  8.5495e-07, -5.2404e-04,  4.3654e-04,  6.0052e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 207, time 217.35, cls_loss 0.0010 cls_loss_mapping 0.0030 cls_loss_causal 0.5091 re_mapping 0.0036 re_causal 0.0119 /// teacc 99.12 lr 0.00010000
+Epoch 209, weight, value: tensor([[ 0.0168, -0.0731,  0.0128,  ..., -0.0936, -0.1249, -0.0945],
+        [-0.1031,  0.0622, -0.1028,  ..., -0.1188, -0.1132, -0.1725],
+        [-0.0780, -0.1166, -0.1064,  ..., -0.1648, -0.0997,  0.1352],
+        ...,
+        [ 0.0774, -0.0471, -0.1090,  ...,  0.0897, -0.0994, -0.1044],
+        [ 0.1156,  0.0951,  0.0661,  ..., -0.1458, -0.0976,  0.0730],
+        [ 0.0600,  0.0233,  0.0831,  ...,  0.0484, -0.0768,  0.0059]],
+       device='cuda:0'), grad: tensor([[ 1.7695e-08,  6.9151e-08,  1.1059e-08,  ...,  3.2247e-08,
+          5.9139e-08,  1.1362e-07],
+        [ 1.0128e-07,  7.2177e-09,  1.2107e-08,  ...,  1.4552e-07,
+          2.7823e-08,  5.2853e-08],
+        [-4.2608e-08,  4.0978e-08,  1.0594e-08,  ...,  2.7288e-07,
+          3.2480e-08, -3.5577e-07],
+        ...,
+        [-6.0350e-07,  4.4471e-08,  1.6880e-08,  ..., -1.4026e-06,
+         -1.0070e-07,  6.2864e-08],
+        [-8.5635e-07, -1.1642e-06, -1.6775e-07,  ..., -6.2864e-09,
+         -5.6904e-07, -1.2182e-06],
+        [ 5.1409e-07,  4.8755e-07,  7.3807e-08,  ...,  3.1386e-07,
+          3.0594e-07,  5.7416e-07]], device='cuda:0')
+Epoch 209, bias, value: tensor([ 0.0327, -0.0274, -0.0030,  0.0124, -0.0023, -0.0139,  0.0024,  0.0149,
+        -0.0273,  0.0121], device='cuda:0'), grad: tensor([ 5.8790e-08,  4.5029e-07, -1.3551e-06,  5.5274e-07,  1.2368e-06,
+         5.5786e-07,  7.0874e-07, -2.4531e-06, -1.9968e-06,  2.2035e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 208, time 217.41, cls_loss 0.0007 cls_loss_mapping 0.0023 cls_loss_causal 0.4819 re_mapping 0.0037 re_causal 0.0119 /// teacc 99.09 lr 0.00010000
+Epoch 210, weight, value: tensor([[ 0.0167, -0.0733,  0.0123,  ..., -0.0938, -0.1252, -0.0948],
+        [-0.1034,  0.0626, -0.1029,  ..., -0.1193, -0.1137, -0.1724],
+        [-0.0781, -0.1170, -0.1066,  ..., -0.1654, -0.1001,  0.1355],
+        ...,
+        [ 0.0777, -0.0480, -0.1095,  ...,  0.0896, -0.0998, -0.1050],
+        [ 0.1157,  0.0947,  0.0662,  ..., -0.1466, -0.0983,  0.0727],
+        [ 0.0603,  0.0240,  0.0846,  ...,  0.0486, -0.0768,  0.0059]],
+       device='cuda:0'), grad: tensor([[ 6.7288e-08,  1.4552e-08,  1.2852e-07,  ...,  3.7719e-08,
+          2.2687e-06,  1.2275e-06],
+        [ 2.2305e-07,  9.0804e-09,  1.0827e-08,  ...,  9.7440e-08,
+          3.0734e-08,  2.9453e-08],
+        [ 2.3454e-05,  4.7032e-08,  2.5262e-08,  ...,  1.0341e-05,
+          6.1118e-08,  3.7951e-08],
+        ...,
+        [-2.3961e-05,  3.2946e-08,  1.3621e-08,  ..., -1.0580e-05,
+          7.9162e-09,  1.6415e-08],
+        [-2.1001e-07, -1.8557e-07, -1.5565e-07,  ...,  3.6671e-08,
+          1.4331e-07, -1.1385e-07],
+        [ 9.8022e-08,  3.7020e-08,  2.2817e-08,  ...,  2.6776e-09,
+          1.3621e-08,  6.7987e-08]], device='cuda:0')
+Epoch 210, bias, value: tensor([ 0.0325, -0.0273, -0.0031,  0.0128, -0.0025, -0.0138,  0.0027,  0.0144,
+        -0.0278,  0.0123], device='cuda:0'), grad: tensor([ 7.4878e-06,  9.0431e-07,  7.9393e-05, -1.2957e-07,  7.6881e-07,
+         1.5190e-06, -9.3207e-06, -8.1062e-05, -5.6927e-08,  3.5926e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 209, time 217.22, cls_loss 0.0010 cls_loss_mapping 0.0017 cls_loss_causal 0.4818 re_mapping 0.0034 re_causal 0.0109 /// teacc 99.07 lr 0.00010000
+Epoch 211, weight, value: tensor([[ 0.0169, -0.0731,  0.0125,  ..., -0.0939, -0.1252, -0.0946],
+        [-0.1036,  0.0629, -0.1030,  ..., -0.1197, -0.1153, -0.1726],
+        [-0.0792, -0.1178, -0.1070,  ..., -0.1667, -0.1010,  0.1354],
+        ...,
+        [ 0.0781, -0.0482, -0.1099,  ...,  0.0900, -0.1007, -0.1053],
+        [ 0.1157,  0.0946,  0.0663,  ..., -0.1473, -0.0994,  0.0725],
+        [ 0.0602,  0.0238,  0.0847,  ...,  0.0485, -0.0774,  0.0056]],
+       device='cuda:0'), grad: tensor([[ 2.1933e-07,  1.0058e-07,  1.1001e-07,  ...,  1.3143e-07,
+          1.6182e-08,  8.7661e-08],
+        [ 8.1607e-08, -6.0908e-07,  2.5611e-08,  ...,  4.4820e-08,
+         -4.0955e-07,  3.0035e-08],
+        [ 1.6729e-07,  8.9407e-08,  7.1595e-08,  ...,  5.4599e-08,
+          1.2224e-08,  8.3935e-08],
+        ...,
+        [-3.8417e-07,  4.2655e-07,  7.6601e-08,  ..., -2.5518e-07,
+          2.5681e-07,  4.4936e-08],
+        [-6.0303e-07, -3.1758e-07, -4.6100e-07,  ...,  4.5518e-08,
+          4.5286e-08, -6.7288e-07],
+        [-1.4296e-07, -9.1619e-08, -1.4913e-07,  ..., -2.3888e-07,
+          1.1176e-08,  5.8208e-08]], device='cuda:0')
+Epoch 211, bias, value: tensor([ 0.0329, -0.0272, -0.0034,  0.0131, -0.0021, -0.0144,  0.0030,  0.0147,
+        -0.0283,  0.0119], device='cuda:0'), grad: tensor([ 9.9279e-07, -1.8254e-05,  1.9614e-06,  8.6892e-07,  9.0972e-06,
+         1.9725e-06,  3.7923e-06,  1.2927e-06, -1.6093e-06, -1.0361e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 210, time 217.24, cls_loss 0.0010 cls_loss_mapping 0.0028 cls_loss_causal 0.5111 re_mapping 0.0034 re_causal 0.0115 /// teacc 99.06 lr 0.00010000
+Epoch 212, weight, value: tensor([[ 0.0169, -0.0736,  0.0119,  ..., -0.0940, -0.1257, -0.0949],
+        [-0.1038,  0.0630, -0.1032,  ..., -0.1202, -0.1169, -0.1728],
+        [-0.0771, -0.1181, -0.1074,  ..., -0.1648, -0.1021,  0.1368],
+        ...,
+        [ 0.0781, -0.0486, -0.1099,  ...,  0.0906, -0.1011, -0.1081],
+        [ 0.1159,  0.0949,  0.0667,  ..., -0.1480, -0.1005,  0.0722],
+        [ 0.0597,  0.0237,  0.0847,  ...,  0.0481, -0.0777,  0.0055]],
+       device='cuda:0'), grad: tensor([[-4.1793e-08,  6.6240e-08,  6.0885e-08,  ...,  4.7847e-08,
+          2.1071e-08,  9.1270e-08],
+        [ 8.7894e-08, -1.6252e-07,  2.4098e-08,  ...,  1.6950e-07,
+          1.5134e-08,  1.2922e-08],
+        [ 6.2515e-08,  1.6449e-07,  2.7707e-08,  ...,  1.0268e-07,
+          3.3528e-08, -8.4983e-08],
+        ...,
+        [-1.9232e-07,  3.2107e-07,  7.7300e-08,  ..., -2.5844e-07,
+          3.1432e-09,  1.5134e-08],
+        [ 9.3132e-10,  3.0943e-07,  1.6764e-08,  ...,  7.3924e-08,
+          3.6554e-08, -6.7521e-09],
+        [-9.6974e-08, -1.5448e-07, -1.4435e-07,  ..., -3.0501e-07,
+         -1.3737e-08, -3.0850e-08]], device='cuda:0')
+Epoch 212, bias, value: tensor([ 0.0328, -0.0273, -0.0029,  0.0133, -0.0018, -0.0147,  0.0036,  0.0143,
+        -0.0283,  0.0115], device='cuda:0'), grad: tensor([ 1.8040e-06, -1.6019e-07, -8.2538e-08, -1.8515e-06,  5.2154e-07,
+        -1.5199e-06,  3.2224e-07,  1.7870e-07,  1.0487e-06, -2.6822e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 211, time 217.21, cls_loss 0.0008 cls_loss_mapping 0.0021 cls_loss_causal 0.4766 re_mapping 0.0036 re_causal 0.0116 /// teacc 99.07 lr 0.00010000
+Epoch 213, weight, value: tensor([[ 0.0169, -0.0738,  0.0117,  ..., -0.0940, -0.1260, -0.0952],
+        [-0.1040,  0.0638, -0.1034,  ..., -0.1206, -0.1173, -0.1724],
+        [-0.0770, -0.1194, -0.1081,  ..., -0.1651, -0.1028,  0.1365],
+        ...,
+        [ 0.0779, -0.0489, -0.1112,  ...,  0.0906, -0.1016, -0.1086],
+        [ 0.1163,  0.0952,  0.0674,  ..., -0.1486, -0.1004,  0.0728],
+        [ 0.0599,  0.0239,  0.0852,  ...,  0.0483, -0.0778,  0.0054]],
+       device='cuda:0'), grad: tensor([[ 3.4575e-08,  6.7696e-08,  6.0594e-08,  ...,  1.9511e-07,
+          1.0635e-07,  5.9546e-08],
+        [ 2.0431e-08, -5.9488e-08,  4.7381e-08,  ...,  4.1840e-07,
+          2.8312e-07,  1.3947e-07],
+        [ 3.7835e-08,  7.2585e-08,  3.1956e-08,  ...,  2.9127e-07,
+          2.0489e-07,  1.2643e-07],
+        ...,
+        [ 4.6508e-08,  2.3725e-07,  1.3411e-07,  ...,  9.4762e-07,
+          6.3982e-07,  3.1758e-07],
+        [-2.0023e-08,  1.8394e-08,  5.2562e-08,  ...,  2.3236e-07,
+          1.2701e-07, -1.7462e-09],
+        [-3.3900e-07,  1.3644e-07,  1.3423e-07,  ...,  7.5884e-06,
+          5.9381e-06,  2.7716e-06]], device='cuda:0')
+Epoch 213, bias, value: tensor([ 0.0327, -0.0268, -0.0033,  0.0131, -0.0019, -0.0146,  0.0040,  0.0142,
+        -0.0281,  0.0115], device='cuda:0'), grad: tensor([ 4.5029e-07,  5.1782e-07,  7.4646e-07,  3.9767e-07, -2.0742e-05,
+        -1.7346e-08,  6.7055e-07,  2.3339e-06,  3.9116e-07,  1.5274e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 212, time 217.42, cls_loss 0.0008 cls_loss_mapping 0.0023 cls_loss_causal 0.5000 re_mapping 0.0037 re_causal 0.0121 /// teacc 99.06 lr 0.00010000
+Epoch 214, weight, value: tensor([[ 0.0167, -0.0739,  0.0109,  ..., -0.0943, -0.1262, -0.0956],
+        [-0.1043,  0.0646, -0.1036,  ..., -0.1209, -0.1178, -0.1727],
+        [-0.0771, -0.1200, -0.1089,  ..., -0.1655, -0.1031,  0.1369],
+        ...,
+        [ 0.0779, -0.0499, -0.1123,  ...,  0.0906, -0.1022, -0.1093],
+        [ 0.1165,  0.0952,  0.0676,  ..., -0.1498, -0.1004,  0.0730],
+        [ 0.0606,  0.0245,  0.0865,  ...,  0.0489, -0.0775,  0.0060]],
+       device='cuda:0'), grad: tensor([[ 7.3342e-09,  2.8056e-08,  8.6147e-09,  ...,  1.4296e-07,
+          6.4727e-07,  5.0757e-07],
+        [ 4.3423e-07,  2.1770e-08,  1.4610e-08,  ...,  5.9791e-07,
+          2.8983e-06,  1.3318e-06],
+        [ 1.0487e-06,  5.7183e-07,  1.7474e-07,  ...,  1.1269e-06,
+          1.1317e-05,  5.4687e-06],
+        ...,
+        [-1.3299e-06,  3.8708e-08,  8.5565e-09,  ..., -1.2545e-06,
+          6.3237e-07,  3.8301e-07],
+        [-7.7439e-07, -7.2410e-07, -2.2980e-07,  ...,  1.3551e-07,
+          9.5135e-07, -2.9081e-07],
+        [ 3.4645e-07,  3.2771e-08,  4.8312e-09,  ...,  5.2564e-06,
+          4.8466e-06,  2.7362e-06]], device='cuda:0')
+Epoch 214, bias, value: tensor([ 0.0324, -0.0264, -0.0033,  0.0131, -0.0025, -0.0146,  0.0039,  0.0137,
+        -0.0282,  0.0123], device='cuda:0'), grad: tensor([ 1.8403e-06,  9.9167e-06,  3.6657e-05,  7.2829e-07, -1.1355e-05,
+         2.9489e-05, -7.7724e-05, -2.5947e-06, -1.6321e-07,  1.3277e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 213, time 217.11, cls_loss 0.0011 cls_loss_mapping 0.0022 cls_loss_causal 0.4882 re_mapping 0.0034 re_causal 0.0106 /// teacc 99.08 lr 0.00010000
+Epoch 215, weight, value: tensor([[ 0.0166, -0.0742,  0.0108,  ..., -0.0946, -0.1266, -0.0959],
+        [-0.1049,  0.0654, -0.1038,  ..., -0.1219, -0.1197, -0.1729],
+        [-0.0779, -0.1207, -0.1095,  ..., -0.1670, -0.1052,  0.1367],
+        ...,
+        [ 0.0786, -0.0509, -0.1129,  ...,  0.0917, -0.1006, -0.1093],
+        [ 0.1169,  0.0956,  0.0679,  ..., -0.1507, -0.1008,  0.0734],
+        [ 0.0606,  0.0245,  0.0861,  ...,  0.0474, -0.0800,  0.0044]],
+       device='cuda:0'), grad: tensor([[ 1.6822e-08,  3.5623e-08,  2.3923e-08,  ...,  3.4634e-08,
+          3.0617e-08,  4.7847e-08],
+        [ 3.3597e-07,  1.0908e-07,  1.2969e-07,  ...,  2.5891e-07,
+          3.7835e-09,  1.6706e-07],
+        [ 2.0559e-07,  9.4238e-08,  4.0804e-08,  ...,  1.9395e-07,
+          3.0268e-09,  6.1060e-08],
+        ...,
+        [-1.2415e-06,  1.0320e-07,  1.7579e-08,  ..., -1.4091e-06,
+          2.2119e-09,  9.8953e-09],
+        [-1.7916e-07, -1.0207e-06, -3.8976e-07,  ...,  3.0175e-07,
+          3.8417e-09, -6.5798e-07],
+        [ 2.8638e-07,  1.0466e-07,  1.0006e-07,  ...,  3.0641e-07,
+          2.3865e-08,  4.0338e-08]], device='cuda:0')
+Epoch 215, bias, value: tensor([ 0.0324, -0.0262, -0.0035,  0.0132, -0.0008, -0.0149,  0.0042,  0.0139,
+        -0.0280,  0.0107], device='cuda:0'), grad: tensor([ 5.7649e-07,  1.6382e-06,  1.0245e-06,  1.8060e-05,  8.3528e-08,
+        -2.4617e-05,  8.9966e-07, -4.3884e-06,  2.1067e-06,  4.6119e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 214, time 217.20, cls_loss 0.0009 cls_loss_mapping 0.0020 cls_loss_causal 0.4730 re_mapping 0.0037 re_causal 0.0112 /// teacc 99.06 lr 0.00010000
+Epoch 216, weight, value: tensor([[ 0.0171, -0.0743,  0.0112,  ..., -0.0947, -0.1270, -0.0958],
+        [-0.1052,  0.0663, -0.1038,  ..., -0.1225, -0.1203, -0.1732],
+        [-0.0781, -0.1210, -0.1097,  ..., -0.1676, -0.1056,  0.1375],
+        ...,
+        [ 0.0784, -0.0522, -0.1136,  ...,  0.0916, -0.1010, -0.1097],
+        [ 0.1169,  0.0945,  0.0678,  ..., -0.1519, -0.1011,  0.0730],
+        [ 0.0610,  0.0252,  0.0876,  ...,  0.0477, -0.0799,  0.0045]],
+       device='cuda:0'), grad: tensor([[ 3.0675e-08,  3.3935e-08,  1.1118e-08,  ...,  9.1968e-09,
+          5.5239e-08,  8.0036e-08],
+        [ 4.9418e-08, -9.6043e-09,  1.2806e-08,  ...,  4.7323e-08,
+          2.1362e-08,  3.4051e-08],
+        [ 9.5519e-08,  8.6438e-08,  2.6252e-08,  ...,  6.3737e-08,
+          2.5262e-08,  2.7532e-08],
+        ...,
+        [-1.8091e-07,  3.5390e-08,  5.5297e-09,  ..., -2.5285e-07,
+         -3.6322e-08, -1.8044e-09],
+        [-2.8987e-07, -2.3912e-07, -1.3784e-07,  ...,  1.8917e-08,
+          3.7311e-08, -4.4471e-08],
+        [ 1.3248e-07,  8.5274e-08,  2.0955e-08,  ...,  3.1060e-07,
+          1.9162e-07,  1.0373e-07]], device='cuda:0')
+Epoch 216, bias, value: tensor([ 0.0331, -0.0260, -0.0034,  0.0133, -0.0010, -0.0146,  0.0033,  0.0135,
+        -0.0290,  0.0110], device='cuda:0'), grad: tensor([ 3.2736e-07,  9.9128e-08,  3.3737e-07,  8.8150e-07, -3.5530e-07,
+        -2.8275e-06,  7.4133e-07, -4.0955e-07,  1.9034e-07,  1.0319e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 215, time 217.28, cls_loss 0.0008 cls_loss_mapping 0.0021 cls_loss_causal 0.4699 re_mapping 0.0037 re_causal 0.0113 /// teacc 99.18 lr 0.00010000
+Epoch 217, weight, value: tensor([[ 0.0172, -0.0745,  0.0113,  ..., -0.0948, -0.1274, -0.0962],
+        [-0.1055,  0.0666, -0.1040,  ..., -0.1230, -0.1211, -0.1733],
+        [-0.0791, -0.1218, -0.1102,  ..., -0.1688, -0.1061,  0.1374],
+        ...,
+        [ 0.0788, -0.0529, -0.1141,  ...,  0.0923, -0.1012, -0.1098],
+        [ 0.1178,  0.0956,  0.0683,  ..., -0.1525, -0.1010,  0.0739],
+        [ 0.0609,  0.0253,  0.0878,  ...,  0.0477, -0.0800,  0.0045]],
+       device='cuda:0'), grad: tensor([[-7.9744e-09,  6.1118e-09,  2.1537e-09,  ...,  3.0443e-08,
+          1.7870e-08,  3.0617e-08],
+        [ 4.2724e-08, -1.2573e-08,  2.7358e-09,  ...,  8.0559e-08,
+          2.2352e-08,  3.8475e-08],
+        [ 4.2084e-08,  9.7207e-09,  3.7835e-09,  ...,  7.8406e-08,
+          2.4796e-08, -1.0803e-07],
+        ...,
+        [-2.7171e-07,  2.2119e-08,  7.3342e-09,  ..., -2.7940e-07,
+          3.1781e-08,  2.5844e-08],
+        [ 8.2073e-09,  5.5996e-08,  1.1176e-08,  ...,  3.3004e-08,
+          1.0652e-08,  5.5647e-08],
+        [ 1.2619e-07, -2.8580e-08, -1.6764e-08,  ...,  6.9616e-07,
+          4.2818e-07,  2.6310e-07]], device='cuda:0')
+Epoch 217, bias, value: tensor([ 0.0331, -0.0260, -0.0037,  0.0133, -0.0011, -0.0152,  0.0034,  0.0137,
+        -0.0277,  0.0109], device='cuda:0'), grad: tensor([ 1.0349e-07,  2.3108e-07, -2.7940e-07,  2.9663e-07, -1.4277e-06,
+        -9.8720e-07,  5.3877e-07, -5.6997e-07,  5.5693e-07,  1.5292e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 216, time 217.50, cls_loss 0.0012 cls_loss_mapping 0.0029 cls_loss_causal 0.4605 re_mapping 0.0036 re_causal 0.0110 /// teacc 99.17 lr 0.00010000
+Epoch 218, weight, value: tensor([[ 0.0171, -0.0748,  0.0112,  ..., -0.0951, -0.1277, -0.0964],
+        [-0.1062,  0.0664, -0.1042,  ..., -0.1237, -0.1216, -0.1735],
+        [-0.0793, -0.1221, -0.1106,  ..., -0.1695, -0.1068,  0.1375],
+        ...,
+        [ 0.0792, -0.0527, -0.1146,  ...,  0.0924, -0.1026, -0.1103],
+        [ 0.1155,  0.0935,  0.0662,  ..., -0.1534, -0.1011,  0.0730],
+        [ 0.0611,  0.0253,  0.0881,  ...,  0.0477, -0.0803,  0.0043]],
+       device='cuda:0'), grad: tensor([[ 2.2235e-07,  2.0186e-07,  1.3190e-07,  ...,  2.1537e-07,
+          1.2945e-07,  2.1746e-07],
+        [ 8.9814e-08,  2.1420e-08,  3.0443e-08,  ...,  1.7369e-07,
+          4.9709e-08,  4.9884e-08],
+        [ 6.8313e-07,  3.8464e-07,  1.7160e-07,  ...,  8.5915e-07,
+          3.2689e-07,  5.5227e-07],
+        ...,
+        [-1.0733e-07,  7.7998e-08,  3.2480e-08,  ..., -3.5320e-07,
+          9.9535e-09,  4.3248e-08],
+        [-6.0583e-07, -1.1725e-06, -1.0207e-06,  ...,  2.1770e-08,
+          4.9360e-08, -3.7160e-07],
+        [-1.0366e-06, -3.6904e-07, -7.4098e-08,  ..., -1.3364e-06,
+         -4.5751e-07, -8.4518e-07]], device='cuda:0')
+Epoch 218, bias, value: tensor([ 0.0331, -0.0263, -0.0038,  0.0144, -0.0008, -0.0145,  0.0038,  0.0140,
+        -0.0301,  0.0108], device='cuda:0'), grad: tensor([ 1.1055e-06,  4.4936e-07,  3.3397e-06,  1.1856e-06,  1.1623e-06,
+         6.7381e-07, -3.5623e-07, -4.6892e-07, -2.6133e-06, -4.4927e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 217, time 217.37, cls_loss 0.0011 cls_loss_mapping 0.0029 cls_loss_causal 0.4768 re_mapping 0.0037 re_causal 0.0113 /// teacc 99.09 lr 0.00010000
+Epoch 219, weight, value: tensor([[ 0.0174, -0.0752,  0.0109,  ..., -0.0952, -0.1284, -0.0969],
+        [-0.1064,  0.0655, -0.1044,  ..., -0.1243, -0.1230, -0.1720],
+        [-0.0799, -0.1237, -0.1113,  ..., -0.1714, -0.1088,  0.1375],
+        ...,
+        [ 0.0795, -0.0534, -0.1151,  ...,  0.0929, -0.1025, -0.1107],
+        [ 0.1155,  0.0944,  0.0665,  ..., -0.1542, -0.1011,  0.0724],
+        [ 0.0612,  0.0256,  0.0884,  ...,  0.0479, -0.0804,  0.0043]],
+       device='cuda:0'), grad: tensor([[ 5.9954e-09,  1.4144e-08,  1.1118e-08,  ...,  1.1717e-07,
+          6.8033e-07,  5.5972e-07],
+        [ 5.5297e-09,  6.9849e-10,  1.1642e-08,  ...,  1.1991e-08,
+          2.5029e-08,  2.2177e-08],
+        [ 6.6939e-09,  1.8219e-08,  7.3924e-09,  ...,  4.7730e-09,
+          3.1083e-08,  9.3132e-09],
+        ...,
+        [ 4.8312e-09,  1.9150e-08,  1.1234e-08,  ...,  8.1491e-10,
+          1.2224e-09,  5.6461e-09],
+        [-2.5029e-09,  2.7881e-08,  3.6729e-08,  ...,  4.9360e-08,
+          1.0472e-07,  6.3330e-08],
+        [-6.0420e-08, -2.1164e-07, -1.8068e-07,  ..., -1.4261e-07,
+          1.8917e-08,  1.2922e-08]], device='cuda:0')
+Epoch 219, bias, value: tensor([ 0.0331, -0.0285, -0.0043,  0.0144, -0.0008, -0.0144,  0.0037,  0.0139,
+        -0.0287,  0.0109], device='cuda:0'), grad: tensor([ 2.0117e-06,  7.2701e-08,  9.5810e-08,  3.4506e-07,  1.1834e-07,
+         3.0827e-07, -3.2373e-06,  6.7987e-08,  4.1933e-07, -1.8475e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 218, time 217.38, cls_loss 0.0010 cls_loss_mapping 0.0033 cls_loss_causal 0.4984 re_mapping 0.0036 re_causal 0.0112 /// teacc 99.03 lr 0.00010000
+Epoch 220, weight, value: tensor([[ 0.0174, -0.0756,  0.0108,  ..., -0.0954, -0.1282, -0.0974],
+        [-0.1065,  0.0648, -0.1074,  ..., -0.1244, -0.1260, -0.1746],
+        [-0.0796, -0.1254, -0.1125,  ..., -0.1706, -0.1096,  0.1391],
+        ...,
+        [ 0.0794, -0.0545, -0.1155,  ...,  0.0927, -0.1044, -0.1133],
+        [ 0.1155,  0.0955,  0.0682,  ..., -0.1553, -0.0991,  0.0744],
+        [ 0.0612,  0.0256,  0.0887,  ...,  0.0480, -0.0804,  0.0044]],
+       device='cuda:0'), grad: tensor([[-2.8347e-08,  2.8522e-08,  2.2410e-08,  ...,  2.3225e-08,
+          1.1339e-07,  7.8231e-08],
+        [ 2.4855e-08,  1.9791e-09,  1.4668e-08,  ...,  6.9558e-08,
+          2.2585e-08,  1.6589e-08],
+        [ 4.2550e-08,  5.5821e-08,  3.2946e-08,  ...,  5.5821e-08,
+          2.2934e-08,  3.5740e-08],
+        ...,
+        [-1.1630e-07,  1.9441e-08,  7.5670e-09,  ..., -3.9651e-07,
+          2.1188e-08,  6.2864e-09],
+        [-4.8429e-08, -1.7998e-07, -1.5937e-07,  ...,  1.2631e-08,
+          1.1350e-08, -1.2619e-07],
+        [ 2.0373e-08, -8.8301e-08, -6.6590e-08,  ...,  1.4994e-07,
+          7.1246e-08,  8.0327e-09]], device='cuda:0')
+Epoch 220, bias, value: tensor([ 0.0337, -0.0289, -0.0043,  0.0144, -0.0008, -0.0145,  0.0017,  0.0130,
+        -0.0283,  0.0109], device='cuda:0'), grad: tensor([ 2.5472e-07,  3.8324e-07,  4.2515e-07,  8.5449e-07,  4.7917e-07,
+        -6.9067e-06,  4.6156e-06, -5.8860e-07, -9.8837e-08,  5.6345e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 219, time 217.04, cls_loss 0.0013 cls_loss_mapping 0.0037 cls_loss_causal 0.5118 re_mapping 0.0037 re_causal 0.0116 /// teacc 99.05 lr 0.00010000
+Epoch 221, weight, value: tensor([[ 0.0152, -0.0774,  0.0105,  ..., -0.0978, -0.1307, -0.1006],
+        [-0.1075,  0.0646, -0.1075,  ..., -0.1254, -0.1264, -0.1752],
+        [-0.0816, -0.1270, -0.1131,  ..., -0.1720, -0.1108,  0.1387],
+        ...,
+        [ 0.0812, -0.0526, -0.1159,  ...,  0.0944, -0.1034, -0.1109],
+        [ 0.1155,  0.0955,  0.0684,  ..., -0.1570, -0.0990,  0.0744],
+        [ 0.0619,  0.0268,  0.0893,  ...,  0.0485, -0.0805,  0.0048]],
+       device='cuda:0'), grad: tensor([[-7.9744e-08,  3.7998e-07,  2.1502e-07,  ...,  2.0175e-07,
+          5.4366e-08,  6.1002e-08],
+        [ 1.6938e-08,  4.2003e-07,  2.5472e-07,  ...,  2.2841e-07,
+          8.3237e-09,  4.2142e-08],
+        [ 4.2783e-08,  5.8720e-07,  3.2666e-07,  ...,  2.9057e-07,
+          2.4156e-08,  2.5728e-08],
+        ...,
+        [ 3.3178e-09,  2.1455e-07,  1.2608e-07,  ...,  8.7486e-08,
+          4.6566e-10,  2.2817e-08],
+        [-3.9116e-08,  4.3698e-06,  2.6561e-06,  ...,  2.3060e-06,
+          4.2899e-08,  3.3015e-07],
+        [-6.1642e-08, -4.0472e-05, -2.4259e-05,  ..., -2.1085e-05,
+          3.1432e-09, -2.9355e-06]], device='cuda:0')
+Epoch 221, bias, value: tensor([ 0.0317, -0.0291, -0.0046,  0.0140, -0.0010, -0.0131,  0.0019,  0.0150,
+        -0.0284,  0.0093], device='cuda:0'), grad: tensor([ 8.0559e-07,  1.2405e-06,  1.4249e-06,  9.0659e-05,  3.4496e-06,
+         8.1374e-08, -7.7125e-08,  5.9977e-07,  1.2197e-05, -1.1051e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 220, time 217.39, cls_loss 0.0011 cls_loss_mapping 0.0031 cls_loss_causal 0.4887 re_mapping 0.0038 re_causal 0.0114 /// teacc 98.96 lr 0.00010000
+Epoch 222, weight, value: tensor([[ 0.0154, -0.0776,  0.0105,  ..., -0.0978, -0.1309, -0.1007],
+        [-0.1077,  0.0650, -0.1076,  ..., -0.1259, -0.1267, -0.1752],
+        [-0.0822, -0.1294, -0.1151,  ..., -0.1724, -0.1115,  0.1377],
+        ...,
+        [ 0.0827, -0.0516, -0.1173,  ...,  0.0957, -0.1038, -0.1111],
+        [ 0.1156,  0.0957,  0.0686,  ..., -0.1580, -0.0988,  0.0752],
+        [ 0.0609,  0.0267,  0.0912,  ...,  0.0477, -0.0807,  0.0047]],
+       device='cuda:0'), grad: tensor([[ 4.1036e-08,  1.1828e-07,  7.7474e-08,  ...,  7.1595e-08,
+          1.4086e-08,  6.4902e-08],
+        [ 2.3050e-08, -1.0070e-08,  1.4377e-08,  ...,  2.5379e-08,
+          9.3714e-09,  1.3330e-08],
+        [ 1.4552e-08,  2.5786e-08,  4.8894e-09,  ...,  1.0710e-08,
+          1.1758e-08,  1.4144e-08],
+        ...,
+        [ 3.8231e-07,  4.1979e-07,  2.8731e-07,  ...,  2.6496e-07,
+          1.0245e-08,  1.6647e-08],
+        [-1.9034e-08,  1.9022e-07, -2.0955e-09,  ...,  3.9581e-08,
+         -2.2759e-08, -7.8348e-08],
+        [-5.8115e-07, -6.1560e-07, -4.5728e-07,  ..., -2.2724e-07,
+          1.2619e-07,  1.5122e-07]], device='cuda:0')
+Epoch 222, bias, value: tensor([ 0.0319, -0.0290, -0.0052,  0.0136, -0.0003, -0.0131,  0.0009,  0.0164,
+        -0.0283,  0.0083], device='cuda:0'), grad: tensor([ 9.3132e-08,  4.5809e-08,  7.8464e-08,  3.9190e-06, -3.3155e-07,
+        -5.3383e-06,  3.8277e-07,  1.2442e-06,  1.0431e-06, -1.1465e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 221, time 217.17, cls_loss 0.0018 cls_loss_mapping 0.0044 cls_loss_causal 0.4840 re_mapping 0.0040 re_causal 0.0120 /// teacc 99.09 lr 0.00010000
+Epoch 223, weight, value: tensor([[ 0.0153, -0.0780,  0.0102,  ..., -0.0983, -0.1311, -0.1011],
+        [-0.1086,  0.0650, -0.1079,  ..., -0.1301, -0.1271, -0.1768],
+        [-0.0824, -0.1288, -0.1156,  ..., -0.1752, -0.1145,  0.1387],
+        ...,
+        [ 0.0841, -0.0532, -0.1147,  ...,  0.0966, -0.1049, -0.1121],
+        [ 0.1156,  0.0956,  0.0686,  ..., -0.1618, -0.0993,  0.0750],
+        [ 0.0596,  0.0282,  0.0882,  ...,  0.0470, -0.0814,  0.0044]],
+       device='cuda:0'), grad: tensor([[-1.6345e-07,  1.2224e-08, -1.0477e-09,  ...,  1.6356e-08,
+          5.4799e-06,  4.1127e-06],
+        [ 6.9907e-08,  4.6683e-08,  1.0477e-09,  ...,  2.0396e-07,
+          1.2293e-07,  1.1077e-07],
+        [ 4.4541e-07,  6.6473e-08,  2.3865e-09,  ...,  3.3900e-06,
+          8.5309e-07,  3.8510e-07],
+        ...,
+        [-5.7276e-07,  5.6461e-09,  1.2806e-09,  ..., -4.1462e-06,
+         -8.5356e-07, -3.3597e-07],
+        [-2.6915e-07, -2.5588e-07,  1.7928e-08,  ...,  1.4319e-08,
+          5.4855e-07,  2.3632e-07],
+        [ 1.4575e-07,  2.6799e-07,  1.8044e-09,  ...,  6.9663e-07,
+          1.6717e-07,  1.9139e-07]], device='cuda:0')
+Epoch 223, bias, value: tensor([ 0.0314, -0.0295, -0.0048,  0.0131, -0.0003, -0.0133,  0.0010,  0.0176,
+        -0.0284,  0.0074], device='cuda:0'), grad: tensor([ 1.3813e-05,  9.6299e-07,  6.0126e-06,  7.1386e-07,  1.8138e-07,
+         7.0296e-06, -2.3946e-05, -7.3798e-06,  6.1188e-07,  2.0247e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 222, time 217.10, cls_loss 0.0011 cls_loss_mapping 0.0023 cls_loss_causal 0.4718 re_mapping 0.0036 re_causal 0.0114 /// teacc 99.10 lr 0.00010000
+Epoch 224, weight, value: tensor([[ 0.0153, -0.0782,  0.0097,  ..., -0.0986, -0.1317, -0.1017],
+        [-0.1090,  0.0650, -0.1081,  ..., -0.1309, -0.1274, -0.1769],
+        [-0.0827, -0.1289, -0.1163,  ..., -0.1766, -0.1161,  0.1385],
+        ...,
+        [ 0.0841, -0.0532, -0.1147,  ...,  0.0966, -0.1048, -0.1124],
+        [ 0.1156,  0.0956,  0.0687,  ..., -0.1637, -0.0997,  0.0750],
+        [ 0.0594,  0.0285,  0.0890,  ...,  0.0464, -0.0835,  0.0027]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  1.7986e-08,  2.3283e-09,  ...,  3.7951e-08,
+          1.3295e-07,  1.2328e-07],
+        [ 2.2352e-08,  2.4331e-08,  2.0955e-09,  ...,  7.9686e-08,
+          5.7393e-08,  1.6042e-07],
+        [ 1.5926e-07,  1.3853e-08,  1.2806e-09,  ...,  3.0105e-07,
+          9.3190e-08, -2.4354e-07],
+        ...,
+        [-2.1001e-07,  2.0489e-08,  4.5984e-09,  ..., -3.6694e-07,
+          6.6357e-09,  1.2433e-07],
+        [ 3.0268e-09,  1.1700e-08, -7.5670e-10,  ...,  3.3935e-08,
+          1.2061e-07,  1.3644e-07],
+        [-3.3295e-08,  2.9989e-07, -1.7055e-08,  ...,  8.2375e-07,
+          9.8720e-07,  8.9500e-07]], device='cuda:0')
+Epoch 224, bias, value: tensor([ 0.0312, -0.0296, -0.0049,  0.0124,  0.0013, -0.0141,  0.0015,  0.0176,
+        -0.0284,  0.0074], device='cuda:0'), grad: tensor([ 3.5902e-07,  7.4646e-07, -4.0024e-07,  2.1164e-07, -3.5781e-06,
+         1.1791e-06, -1.6494e-06, -4.6939e-07,  4.7428e-07,  3.1255e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 223, time 217.24, cls_loss 0.0009 cls_loss_mapping 0.0022 cls_loss_causal 0.5310 re_mapping 0.0034 re_causal 0.0113 /// teacc 98.95 lr 0.00010000
+Epoch 225, weight, value: tensor([[ 0.0154, -0.0784,  0.0095,  ..., -0.0987, -0.1322, -0.1021],
+        [-0.1093,  0.0652, -0.1082,  ..., -0.1315, -0.1280, -0.1771],
+        [-0.0830, -0.1295, -0.1174,  ..., -0.1770, -0.1165,  0.1385],
+        ...,
+        [ 0.0841, -0.0532, -0.1147,  ...,  0.0967, -0.1038, -0.1125],
+        [ 0.1157,  0.0957,  0.0691,  ..., -0.1645, -0.0999,  0.0757],
+        [ 0.0593,  0.0284,  0.0891,  ...,  0.0459, -0.0846,  0.0016]],
+       device='cuda:0'), grad: tensor([[ 3.7660e-08,  3.6613e-08,  1.7695e-08,  ...,  1.5425e-08,
+          7.1188e-08,  9.2143e-08],
+        [ 1.2969e-07, -3.0850e-09,  4.7323e-08,  ...,  5.3085e-08,
+          8.5565e-09,  1.5995e-07],
+        [ 1.5944e-06,  9.2993e-07,  6.6496e-07,  ...,  3.9639e-08,
+          2.4913e-08,  1.9837e-06],
+        ...,
+        [ 1.1286e-07,  1.5821e-07,  7.4739e-08,  ..., -1.1135e-07,
+          2.9104e-10,  2.3935e-07],
+        [-2.2277e-06, -1.3858e-06, -9.4622e-07,  ...,  1.0594e-08,
+          2.4331e-08, -2.8759e-06],
+        [-2.6368e-08, -4.0978e-08, -1.3621e-08,  ..., -9.5111e-08,
+          1.7462e-09,  4.2550e-08]], device='cuda:0')
+Epoch 225, bias, value: tensor([ 0.0312, -0.0296, -0.0052,  0.0124,  0.0022, -0.0142,  0.0023,  0.0176,
+        -0.0284,  0.0072], device='cuda:0'), grad: tensor([ 3.3528e-07,  4.4843e-07,  6.2585e-06,  8.1304e-07,  3.0501e-07,
+         4.6310e-07, -6.8918e-08,  6.1328e-07, -9.0823e-06, -7.0839e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 224, time 217.26, cls_loss 0.0008 cls_loss_mapping 0.0021 cls_loss_causal 0.4558 re_mapping 0.0033 re_causal 0.0108 /// teacc 99.03 lr 0.00010000
+Epoch 226, weight, value: tensor([[ 0.0155, -0.0782,  0.0089,  ..., -0.0988, -0.1323, -0.1023],
+        [-0.1097,  0.0652, -0.1083,  ..., -0.1317, -0.1281, -0.1772],
+        [-0.0836, -0.1299, -0.1183,  ..., -0.1772, -0.1166,  0.1386],
+        ...,
+        [ 0.0840, -0.0533, -0.1148,  ...,  0.0966, -0.1039, -0.1126],
+        [ 0.1159,  0.0959,  0.0695,  ..., -0.1653, -0.1003,  0.0760],
+        [ 0.0593,  0.0284,  0.0892,  ...,  0.0460, -0.0847,  0.0016]],
+       device='cuda:0'), grad: tensor([[-5.6112e-08,  2.1595e-08,  3.7253e-09,  ...,  3.8417e-08,
+          2.9104e-09,  1.0594e-08],
+        [ 1.3120e-07, -1.0460e-07,  9.1386e-09,  ...,  2.2189e-07,
+          2.1537e-09,  2.7241e-08],
+        [ 4.2724e-08,  3.9930e-08,  2.3283e-09,  ...,  6.2748e-08,
+          1.5716e-09, -5.6170e-08],
+        ...,
+        [-2.4773e-07,  4.0396e-08,  2.2701e-09,  ..., -4.8429e-07,
+          3.2014e-09,  1.6473e-08],
+        [ 2.5728e-08,  1.9965e-08, -4.6566e-10,  ...,  4.2666e-08,
+          4.8894e-09,  1.5367e-08],
+        [-3.5344e-07, -4.7521e-07, -9.9419e-08,  ..., -2.0000e-07,
+          8.5449e-08, -2.8696e-08]], device='cuda:0')
+Epoch 226, bias, value: tensor([ 0.0316, -0.0296, -0.0052,  0.0120,  0.0022, -0.0142,  0.0020,  0.0176,
+        -0.0283,  0.0072], device='cuda:0'), grad: tensor([-5.4296e-07,  3.2061e-07,  5.7102e-08,  3.1618e-07,  1.4435e-06,
+         1.8650e-07,  4.2748e-07, -1.3029e-06,  2.8592e-07, -1.1744e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 225, time 217.20, cls_loss 0.0009 cls_loss_mapping 0.0022 cls_loss_causal 0.4662 re_mapping 0.0033 re_causal 0.0109 /// teacc 99.13 lr 0.00010000
+Epoch 227, weight, value: tensor([[ 0.0154, -0.0784,  0.0092,  ..., -0.0992, -0.1325, -0.1025],
+        [-0.1100,  0.0653, -0.1084,  ..., -0.1321, -0.1285, -0.1775],
+        [-0.0839, -0.1309, -0.1188,  ..., -0.1774, -0.1166,  0.1389],
+        ...,
+        [ 0.0840, -0.0533, -0.1148,  ...,  0.0967, -0.1037, -0.1128],
+        [ 0.1159,  0.0959,  0.0695,  ..., -0.1659, -0.1009,  0.0761],
+        [ 0.0594,  0.0284,  0.0892,  ...,  0.0460, -0.0847,  0.0016]],
+       device='cuda:0'), grad: tensor([[-5.1083e-07,  2.4796e-08,  8.4401e-09,  ...,  1.3853e-08,
+          5.1805e-09,  3.3237e-08],
+        [ 1.2631e-08, -4.7206e-08,  6.6939e-09,  ...,  1.1583e-08,
+          1.0477e-09,  1.1525e-08],
+        [ 1.5949e-08,  4.8371e-08,  1.3504e-08,  ...,  8.6147e-09,
+          3.2014e-09, -1.6124e-08],
+        ...,
+        [-2.3283e-09,  2.0897e-08,  4.0163e-09,  ..., -7.3924e-09,
+          2.6193e-09,  7.6252e-09],
+        [ 6.4145e-08,  3.5390e-08,  2.1537e-09,  ...,  3.8068e-08,
+          6.9267e-09,  7.5786e-08],
+        [-2.1618e-07, -9.1328e-08, -1.7602e-07,  ..., -1.2154e-07,
+          1.4051e-07, -1.3458e-07]], device='cuda:0')
+Epoch 227, bias, value: tensor([ 0.0314, -0.0295, -0.0064,  0.0133,  0.0021, -0.0142,  0.0028,  0.0176,
+        -0.0283,  0.0072], device='cuda:0'), grad: tensor([-2.6189e-06, -2.4401e-07,  2.2759e-08, -1.0978e-07,  1.8370e-07,
+         1.1232e-06,  1.6652e-06,  7.9046e-08,  2.8545e-07, -3.7532e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 226, time 217.32, cls_loss 0.0008 cls_loss_mapping 0.0023 cls_loss_causal 0.4771 re_mapping 0.0034 re_causal 0.0113 /// teacc 99.09 lr 0.00010000
+Epoch 228, weight, value: tensor([[ 0.0160, -0.0785,  0.0092,  ..., -0.0992, -0.1322, -0.1023],
+        [-0.1079,  0.0657, -0.1085,  ..., -0.1309, -0.1288, -0.1776],
+        [-0.0806, -0.1308, -0.1191,  ..., -0.1772, -0.1169,  0.1416],
+        ...,
+        [ 0.0837, -0.0534, -0.1148,  ...,  0.0966, -0.1043, -0.1159],
+        [ 0.1154,  0.0959,  0.0696,  ..., -0.1666, -0.1010,  0.0758],
+        [ 0.0594,  0.0284,  0.0893,  ...,  0.0460, -0.0848,  0.0016]],
+       device='cuda:0'), grad: tensor([[-4.2957e-08,  3.8883e-08,  3.4343e-09,  ...,  6.6939e-09,
+          3.7835e-09,  3.7428e-08],
+        [ 1.6915e-07, -1.1118e-07,  2.3865e-09,  ...,  1.7078e-07,
+          1.0477e-09,  1.2107e-08],
+        [ 1.3551e-07,  6.9034e-08,  1.4494e-08,  ...,  5.5123e-08,
+          2.0373e-09,  7.2701e-08],
+        ...,
+        [-2.4773e-07,  5.8790e-08,  5.4715e-09,  ..., -3.0780e-07,
+          1.3970e-09,  1.3621e-08],
+        [-3.0082e-07, -2.2852e-07, -2.6426e-08,  ...,  1.7753e-08,
+          2.7358e-09, -3.4226e-07],
+        [ 5.5297e-08, -2.2119e-09, -1.6240e-08,  ...,  2.3341e-08,
+          7.9162e-09,  1.9383e-08]], device='cuda:0')
+Epoch 228, bias, value: tensor([ 0.0320, -0.0286, -0.0043,  0.0132,  0.0021, -0.0142,  0.0027,  0.0172,
+        -0.0285,  0.0072], device='cuda:0'), grad: tensor([-1.5367e-07,  3.2876e-07,  4.6240e-07,  1.5600e-07,  1.0332e-07,
+         3.0571e-07,  2.6869e-07, -9.3831e-07, -7.7160e-07,  2.3143e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 227, time 217.25, cls_loss 0.0008 cls_loss_mapping 0.0024 cls_loss_causal 0.4776 re_mapping 0.0034 re_causal 0.0112 /// teacc 99.11 lr 0.00010000
+Epoch 229, weight, value: tensor([[ 0.0161, -0.0786,  0.0090,  ..., -0.0992, -0.1321, -0.1021],
+        [-0.1085,  0.0657, -0.1086,  ..., -0.1313, -0.1290, -0.1777],
+        [-0.0809, -0.1323, -0.1225,  ..., -0.1777, -0.1171,  0.1412],
+        ...,
+        [ 0.0838, -0.0534, -0.1149,  ...,  0.0967, -0.1043, -0.1161],
+        [ 0.1154,  0.0960,  0.0699,  ..., -0.1675, -0.1011,  0.0761],
+        [ 0.0594,  0.0285,  0.0894,  ...,  0.0460, -0.0848,  0.0016]],
+       device='cuda:0'), grad: tensor([[ 5.9255e-08,  7.5670e-09,  7.5088e-09,  ...,  5.0641e-09,
+          6.4611e-08,  1.7253e-07],
+        [ 9.4704e-08, -2.3236e-07,  2.2701e-09,  ...,  3.1258e-08,
+          6.5775e-09,  1.4633e-07],
+        [-5.9605e-07,  6.9966e-08,  2.8522e-09,  ...,  6.7404e-08,
+          6.2864e-09, -1.3588e-06],
+        ...,
+        [ 1.5926e-07,  9.9884e-08,  1.9791e-09,  ..., -1.2678e-07,
+          1.1059e-08,  6.1607e-07],
+        [ 6.8976e-08, -8.7894e-09, -7.9744e-09,  ...,  1.4959e-08,
+          5.5472e-08,  1.9884e-07],
+        [ 3.8592e-08,  9.7265e-08, -2.3283e-10,  ...,  2.1176e-07,
+          1.6997e-07,  1.9546e-07]], device='cuda:0')
+Epoch 229, bias, value: tensor([ 0.0323, -0.0288, -0.0050,  0.0136,  0.0020, -0.0142,  0.0027,  0.0172,
+        -0.0285,  0.0072], device='cuda:0'), grad: tensor([ 6.6822e-07, -2.0629e-07, -5.3570e-06,  7.2038e-07, -2.4377e-07,
+         4.7148e-08, -3.3877e-08,  2.5667e-06,  8.7637e-07,  9.5926e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 228, time 217.26, cls_loss 0.0007 cls_loss_mapping 0.0028 cls_loss_causal 0.4938 re_mapping 0.0035 re_causal 0.0110 /// teacc 99.07 lr 0.00010000
+Epoch 230, weight, value: tensor([[ 0.0161, -0.0788,  0.0089,  ..., -0.0993, -0.1338, -0.1032],
+        [-0.1087,  0.0658, -0.1087,  ..., -0.1317, -0.1293, -0.1779],
+        [-0.0810, -0.1328, -0.1233,  ..., -0.1779, -0.1175,  0.1413],
+        ...,
+        [ 0.0838, -0.0535, -0.1149,  ...,  0.0967, -0.1051, -0.1164],
+        [ 0.1155,  0.0961,  0.0701,  ..., -0.1691, -0.1014,  0.0763],
+        [ 0.0594,  0.0285,  0.0895,  ...,  0.0460, -0.0849,  0.0015]],
+       device='cuda:0'), grad: tensor([[ 2.9278e-08,  3.8475e-08,  1.3097e-08,  ...,  3.5390e-08,
+          6.8860e-08,  7.5030e-08],
+        [ 1.2689e-08, -2.4564e-08,  3.6671e-09,  ...,  1.5716e-08,
+          1.7462e-08,  2.2759e-08],
+        [ 1.3330e-08,  1.5600e-08,  3.7835e-09,  ...,  4.9477e-09,
+          2.1886e-08, -1.5076e-08],
+        ...,
+        [ 9.5519e-08,  9.5461e-08,  2.2352e-08,  ...,  1.3458e-07,
+          2.4971e-08,  8.6438e-08],
+        [ 1.3201e-07,  1.5367e-07,  1.1967e-07,  ...,  1.5204e-07,
+          7.2992e-08,  8.4809e-08],
+        [-4.0047e-07, -3.7509e-07, -1.9767e-07,  ..., -3.9302e-07,
+          1.4261e-08, -1.5553e-07]], device='cuda:0')
+Epoch 230, bias, value: tensor([ 0.0310, -0.0288, -0.0050,  0.0135,  0.0020, -0.0142,  0.0039,  0.0172,
+        -0.0285,  0.0072], device='cuda:0'), grad: tensor([ 2.4564e-07, -7.1013e-09, -1.8603e-07,  1.5914e-07,  1.8172e-07,
+         2.3562e-07, -6.7614e-07,  5.2294e-07,  6.4634e-07, -1.1120e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 229, time 217.47, cls_loss 0.0008 cls_loss_mapping 0.0019 cls_loss_causal 0.4597 re_mapping 0.0037 re_causal 0.0110 /// teacc 99.03 lr 0.00010000
+Epoch 231, weight, value: tensor([[ 0.0161, -0.0790,  0.0087,  ..., -0.0995, -0.1340, -0.1033],
+        [-0.1090,  0.0658, -0.1089,  ..., -0.1326, -0.1297, -0.1781],
+        [-0.0809, -0.1330, -0.1237,  ..., -0.1781, -0.1177,  0.1419],
+        ...,
+        [ 0.0837, -0.0535, -0.1149,  ...,  0.0966, -0.1058, -0.1169],
+        [ 0.1155,  0.0961,  0.0701,  ..., -0.1708, -0.1014,  0.0764],
+        [ 0.0595,  0.0286,  0.0896,  ...,  0.0461, -0.0849,  0.0017]],
+       device='cuda:0'), grad: tensor([[-2.2957e-07,  4.9360e-08,  5.0757e-08,  ..., -1.8626e-08,
+          6.1118e-09,  7.1595e-09],
+        [ 1.0425e-07, -3.6578e-07,  4.6741e-08,  ...,  1.5437e-07,
+          4.1910e-09,  7.1595e-09],
+        [ 1.6531e-07,  4.6450e-08,  1.6706e-08,  ...,  1.4366e-07,
+          1.4552e-09, -3.7428e-08],
+        ...,
+        [-1.1496e-07,  3.4855e-07,  8.9989e-08,  ..., -2.1013e-07,
+          1.4552e-09,  2.9104e-09],
+        [ 3.7311e-08,  5.9779e-08,  2.8114e-08,  ...,  5.0699e-08,
+          2.3865e-09,  1.9209e-08],
+        [-2.2328e-07, -2.7381e-07, -4.4727e-07,  ..., -6.1560e-07,
+          8.6729e-09,  3.9581e-09]], device='cuda:0')
+Epoch 231, bias, value: tensor([ 0.0310, -0.0288, -0.0047,  0.0134,  0.0019, -0.0142,  0.0038,  0.0172,
+        -0.0285,  0.0073], device='cuda:0'), grad: tensor([ 1.0796e-05, -8.5775e-07,  1.2457e-05,  5.8524e-06,  1.4361e-06,
+        -5.8591e-05,  4.1798e-06,  3.8706e-06,  1.5348e-05,  5.5619e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 230, time 217.43, cls_loss 0.0010 cls_loss_mapping 0.0022 cls_loss_causal 0.4966 re_mapping 0.0034 re_causal 0.0110 /// teacc 98.91 lr 0.00010000
+Epoch 232, weight, value: tensor([[ 0.0160, -0.0794,  0.0080,  ..., -0.0999, -0.1344, -0.1038],
+        [-0.1092,  0.0658, -0.1091,  ..., -0.1332, -0.1301, -0.1784],
+        [-0.0814, -0.1368, -0.1248,  ..., -0.1794, -0.1180,  0.1422],
+        ...,
+        [ 0.0838, -0.0536, -0.1150,  ...,  0.0967, -0.1061, -0.1171],
+        [ 0.1156,  0.0963,  0.0701,  ..., -0.1727, -0.1016,  0.0766],
+        [ 0.0595,  0.0286,  0.0898,  ...,  0.0462, -0.0850,  0.0017]],
+       device='cuda:0'), grad: tensor([[-9.4878e-09,  1.9791e-08,  1.2631e-08,  ...,  2.1886e-08,
+          6.4028e-09,  4.4820e-09],
+        [ 2.4855e-08, -1.4994e-07,  1.4086e-08,  ...,  2.9395e-08,
+          1.5949e-08,  1.8626e-08],
+        [ 5.9954e-09,  2.0489e-07,  9.9535e-09,  ...,  4.8603e-08,
+          2.2817e-08,  8.6147e-08],
+        ...,
+        [-4.8720e-08,  6.6531e-08,  2.1246e-08,  ..., -4.3889e-08,
+          1.1059e-08,  8.5565e-09],
+        [ 3.1199e-08, -5.1165e-08,  1.4028e-08,  ...,  2.8929e-08,
+          1.8277e-08, -1.5541e-07],
+        [-6.5484e-08, -4.8720e-08, -5.6811e-08,  ..., -5.5472e-08,
+          2.0606e-08,  9.5461e-09]], device='cuda:0')
+Epoch 232, bias, value: tensor([ 0.0308, -0.0289, -0.0081,  0.0159,  0.0019, -0.0140,  0.0036,  0.0172,
+        -0.0284,  0.0073], device='cuda:0'), grad: tensor([-1.9209e-09, -1.8300e-07, -8.1724e-07,  5.5041e-07, -1.0245e-07,
+         2.1339e-07,  1.1391e-07,  1.8044e-07,  1.5728e-07, -9.8662e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 231, time 217.27, cls_loss 0.0010 cls_loss_mapping 0.0021 cls_loss_causal 0.4965 re_mapping 0.0034 re_causal 0.0109 /// teacc 99.08 lr 0.00010000
+Epoch 233, weight, value: tensor([[ 0.0160, -0.0794,  0.0070,  ..., -0.1002, -0.1350, -0.1045],
+        [-0.1095,  0.0658, -0.1093,  ..., -0.1344, -0.1308, -0.1788],
+        [-0.0815, -0.1370, -0.1252,  ..., -0.1807, -0.1189,  0.1424],
+        ...,
+        [ 0.0838, -0.0536, -0.1150,  ...,  0.0968, -0.1060, -0.1172],
+        [ 0.1155,  0.0964,  0.0689,  ..., -0.1742, -0.1040,  0.0756],
+        [ 0.0595,  0.0287,  0.0900,  ...,  0.0462, -0.0851,  0.0016]],
+       device='cuda:0'), grad: tensor([[-1.1234e-07,  1.0169e-07,  1.5821e-07,  ...,  3.9674e-07,
+          2.5349e-08,  2.5053e-07],
+        [ 3.3341e-07, -1.4727e-08,  1.4028e-08,  ...,  5.4296e-07,
+          3.9698e-07,  1.6135e-07],
+        [ 9.6043e-08,  1.7404e-08,  5.3842e-09,  ...,  8.3819e-08,
+          3.8272e-08,  2.9919e-07],
+        ...,
+        [-2.7847e-07,  8.1956e-08,  1.1118e-07,  ..., -4.1298e-08,
+          1.2224e-08,  4.9389e-08],
+        [-1.2253e-08, -5.0233e-08, -6.3737e-09,  ...,  4.2521e-08,
+          1.5280e-08,  2.7963e-07],
+        [-4.3283e-07, -2.4261e-07, -4.1071e-07,  ..., -8.6753e-07,
+          2.0768e-07,  2.3528e-07]], device='cuda:0')
+Epoch 233, bias, value: tensor([ 0.0305, -0.0291, -0.0082,  0.0158,  0.0019, -0.0140,  0.0051,  0.0173,
+        -0.0285,  0.0073], device='cuda:0'), grad: tensor([ 3.3956e-06,  1.7937e-06,  3.4478e-06,  1.8310e-06, -7.1749e-06,
+        -1.6779e-05,  9.6336e-06, -3.9511e-07,  3.8594e-06,  3.5693e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 232, time 217.36, cls_loss 0.0006 cls_loss_mapping 0.0019 cls_loss_causal 0.4818 re_mapping 0.0034 re_causal 0.0113 /// teacc 99.09 lr 0.00010000
+Epoch 234, weight, value: tensor([[ 0.0162, -0.0795,  0.0074,  ..., -0.1003, -0.1350, -0.1046],
+        [-0.1100,  0.0658, -0.1094,  ..., -0.1347, -0.1309, -0.1789],
+        [-0.0816, -0.1371, -0.1256,  ..., -0.1811, -0.1191,  0.1425],
+        ...,
+        [ 0.0839, -0.0536, -0.1150,  ...,  0.0968, -0.1058, -0.1175],
+        [ 0.1156,  0.0964,  0.0690,  ..., -0.1756, -0.1042,  0.0757],
+        [ 0.0595,  0.0287,  0.0900,  ...,  0.0462, -0.0851,  0.0018]],
+       device='cuda:0'), grad: tensor([[-7.4564e-08,  1.1583e-08,  1.8673e-07,  ...,  1.5018e-08,
+          7.9302e-07,  7.1060e-07],
+        [ 2.7940e-09, -9.0338e-08,  3.0268e-09,  ...,  5.2387e-09,
+          5.5821e-08,  4.9302e-08],
+        [ 1.9209e-09,  1.7753e-08,  2.5611e-09,  ...,  6.4028e-10,
+          2.3108e-08, -3.3178e-09],
+        ...,
+        [ 1.5192e-08,  6.4145e-08,  9.8953e-10,  ...,  2.3516e-08,
+          5.1223e-09,  1.7579e-08],
+        [ 1.0303e-08,  1.9500e-08,  2.5844e-08,  ...,  8.9058e-09,
+          3.5716e-07,  3.0990e-07],
+        [-2.7823e-08, -3.1898e-08,  1.6880e-08,  ..., -5.9372e-08,
+          5.4599e-08,  4.8429e-08]], device='cuda:0')
+Epoch 234, bias, value: tensor([ 0.0308, -0.0292, -0.0082,  0.0158,  0.0018, -0.0140,  0.0049,  0.0173,
+        -0.0286,  0.0073], device='cuda:0'), grad: tensor([ 2.2314e-06, -1.0285e-07,  6.3330e-08, -1.4808e-07,  7.9069e-07,
+         1.6727e-06, -6.3106e-06,  2.8987e-07,  1.2917e-06,  2.3691e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 233, time 217.14, cls_loss 0.0009 cls_loss_mapping 0.0031 cls_loss_causal 0.4968 re_mapping 0.0032 re_causal 0.0106 /// teacc 99.07 lr 0.00010000
+Epoch 235, weight, value: tensor([[ 0.0163, -0.0798,  0.0072,  ..., -0.1006, -0.1351, -0.1048],
+        [-0.1101,  0.0659, -0.1098,  ..., -0.1350, -0.1310, -0.1793],
+        [-0.0816, -0.1373, -0.1260,  ..., -0.1814, -0.1195,  0.1431],
+        ...,
+        [ 0.0838, -0.0537, -0.1151,  ...,  0.0968, -0.1072, -0.1182],
+        [ 0.1157,  0.0969,  0.0696,  ..., -0.1776, -0.1044,  0.0763],
+        [ 0.0596,  0.0288,  0.0902,  ...,  0.0464, -0.0850,  0.0019]],
+       device='cuda:0'), grad: tensor([[ 5.8091e-08,  5.7626e-08,  3.2305e-08,  ...,  7.5845e-08,
+          1.5483e-08,  6.6531e-08],
+        [ 3.4866e-08, -2.5681e-07,  2.3574e-08,  ...,  7.1072e-08,
+          4.8778e-08,  1.4820e-07],
+        [ 6.1793e-07,  5.5763e-08,  2.7707e-08,  ...,  5.2294e-07,
+          5.4424e-08, -6.8778e-07],
+        ...,
+        [-4.9127e-07,  2.0675e-07,  5.1339e-08,  ..., -4.3493e-07,
+          4.4762e-08,  3.5553e-07],
+        [-2.1188e-07, -2.7940e-09, -2.2189e-07,  ...,  1.5507e-07,
+          8.7777e-08,  4.3947e-08],
+        [-1.8440e-07, -1.4249e-07, -1.9383e-08,  ..., -1.8487e-07,
+          2.2026e-07,  3.0780e-07]], device='cuda:0')
+Epoch 235, bias, value: tensor([ 0.0311, -0.0291, -0.0082,  0.0159,  0.0016, -0.0141,  0.0051,  0.0172,
+        -0.0284,  0.0074], device='cuda:0'), grad: tensor([ 4.4890e-07, -4.0745e-10, -1.9167e-06, -5.5600e-07, -1.3160e-06,
+         1.5171e-06,  4.5728e-07,  5.4203e-07,  3.0594e-07,  5.2666e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 234, time 217.30, cls_loss 0.0009 cls_loss_mapping 0.0025 cls_loss_causal 0.4989 re_mapping 0.0033 re_causal 0.0110 /// teacc 98.99 lr 0.00010000
+Epoch 236, weight, value: tensor([[ 0.0161, -0.0804,  0.0056,  ..., -0.1012, -0.1353, -0.1055],
+        [-0.1095,  0.0679, -0.1099,  ..., -0.1337, -0.1312, -0.1795],
+        [-0.0816, -0.1374, -0.1265,  ..., -0.1816, -0.1210,  0.1438],
+        ...,
+        [ 0.0838, -0.0547, -0.1151,  ...,  0.0962, -0.1082, -0.1190],
+        [ 0.1158,  0.0969,  0.0699,  ..., -0.1794, -0.1047,  0.0764],
+        [ 0.0597,  0.0289,  0.0904,  ...,  0.0464, -0.0851,  0.0020]],
+       device='cuda:0'), grad: tensor([[ 4.4284e-07,  6.1188e-07,  6.1700e-09,  ...,  8.0140e-07,
+          5.7626e-09,  5.6531e-07],
+        [ 2.0792e-07,  1.0068e-06,  3.7206e-07,  ...,  1.1651e-06,
+         -1.7753e-08,  1.8161e-07],
+        [ 5.0757e-07,  8.1200e-08,  3.2014e-09,  ...,  1.6857e-06,
+          2.6193e-09,  5.9546e-08],
+        ...,
+        [-3.9954e-07,  2.6124e-07,  5.4715e-09,  ..., -1.5162e-06,
+          9.3132e-10,  2.3586e-07],
+        [ 1.8172e-07,  2.4936e-07, -5.4133e-09,  ...,  3.4645e-07,
+          7.2760e-09,  2.2352e-07],
+        [-2.2389e-06, -4.0159e-06, -4.3469e-07,  ..., -4.9248e-06,
+          1.8044e-09, -2.8480e-06]], device='cuda:0')
+Epoch 236, bias, value: tensor([ 0.0307, -0.0275, -0.0082,  0.0157,  0.0015, -0.0141,  0.0052,  0.0164,
+        -0.0285,  0.0075], device='cuda:0'), grad: tensor([ 2.3805e-06,  2.8908e-06,  3.3379e-06,  2.5239e-07,  6.0722e-06,
+        -2.7916e-07,  8.4285e-07, -2.5779e-06,  1.0552e-06, -1.3977e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 235, time 217.41, cls_loss 0.0008 cls_loss_mapping 0.0025 cls_loss_causal 0.4981 re_mapping 0.0033 re_causal 0.0109 /// teacc 99.03 lr 0.00010000
+Epoch 237, weight, value: tensor([[ 0.0159, -0.0810,  0.0053,  ..., -0.1019, -0.1354, -0.1058],
+        [-0.1092,  0.0690, -0.1101,  ..., -0.1326, -0.1319, -0.1797],
+        [-0.0818, -0.1375, -0.1270,  ..., -0.1825, -0.1214,  0.1448],
+        ...,
+        [ 0.0837, -0.0554, -0.1152,  ...,  0.0957, -0.1089, -0.1201],
+        [ 0.1159,  0.0970,  0.0701,  ..., -0.1817, -0.1046,  0.0767],
+        [ 0.0598,  0.0290,  0.0906,  ...,  0.0465, -0.0851,  0.0020]],
+       device='cuda:0'), grad: tensor([[ 4.7944e-06,  4.1351e-06,  2.2873e-06,  ...,  5.5097e-06,
+          2.8056e-08,  2.1961e-06],
+        [ 4.3423e-08, -2.0047e-07,  1.9209e-08,  ...,  7.0722e-08,
+          1.2224e-08,  3.3062e-08],
+        [ 1.7812e-07,  1.5995e-07,  5.7335e-08,  ...,  2.6962e-07,
+          4.4121e-08,  4.0105e-08],
+        ...,
+        [-9.5053e-08,  2.6030e-07,  8.0501e-08,  ..., -1.2689e-07,
+          5.0815e-08,  1.1956e-07],
+        [ 2.7698e-06,  5.0217e-06,  2.3320e-06,  ...,  3.0734e-06,
+          6.1700e-08,  2.5425e-06],
+        [-8.0690e-06, -9.6709e-06, -4.9621e-06,  ..., -8.1882e-06,
+          8.2143e-07, -4.4852e-06]], device='cuda:0')
+Epoch 237, bias, value: tensor([ 0.0304, -0.0265, -0.0082,  0.0157,  0.0016, -0.0142,  0.0051,  0.0158,
+        -0.0284,  0.0076], device='cuda:0'), grad: tensor([ 1.9789e-05, -4.0745e-07,  1.4482e-07,  7.5065e-07, -1.8384e-06,
+         1.7555e-07,  2.8545e-07,  2.4121e-07,  1.0543e-05, -2.9698e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 236, time 217.34, cls_loss 0.0010 cls_loss_mapping 0.0026 cls_loss_causal 0.4924 re_mapping 0.0032 re_causal 0.0104 /// teacc 99.06 lr 0.00010000
+Epoch 238, weight, value: tensor([[ 0.0159, -0.0816,  0.0049,  ..., -0.1021, -0.1355, -0.1061],
+        [-0.1093,  0.0692, -0.1103,  ..., -0.1325, -0.1315, -0.1800],
+        [-0.0821, -0.1377, -0.1288,  ..., -0.1826, -0.1216,  0.1451],
+        ...,
+        [ 0.0837, -0.0554, -0.1153,  ...,  0.0958, -0.1095, -0.1206],
+        [ 0.1182,  0.0993,  0.0732,  ..., -0.1826, -0.1047,  0.0797],
+        [ 0.0592,  0.0281,  0.0891,  ...,  0.0465, -0.0851,  0.0008]],
+       device='cuda:0'), grad: tensor([[ 1.0675e-07, -5.0873e-08,  1.3795e-08,  ...,  9.4704e-08,
+          1.1001e-08,  4.6566e-08],
+        [ 7.0501e-07,  6.7172e-08,  2.4564e-08,  ...,  4.5775e-07,
+          2.2526e-08,  8.3877e-08],
+        [ 5.4250e-08,  1.8056e-07,  6.1060e-08,  ..., -2.1607e-07,
+          1.1234e-08, -6.1060e-08],
+        ...,
+        [-8.3633e-07,  7.2352e-08,  2.8696e-08,  ..., -3.8510e-07,
+          1.4785e-08,  1.8510e-07],
+        [-2.2806e-07, -5.1688e-07, -1.9628e-07,  ...,  3.7369e-08,
+         -9.3132e-10, -5.3737e-07],
+        [ 3.7893e-08,  1.1822e-07, -1.8626e-09,  ...,  3.9488e-07,
+          2.8731e-07,  4.0932e-07]], device='cuda:0')
+Epoch 238, bias, value: tensor([ 0.0303, -0.0264, -0.0080,  0.0156,  0.0013, -0.0142,  0.0052,  0.0158,
+        -0.0272,  0.0070], device='cuda:0'), grad: tensor([-4.1304e-07,  2.5649e-06, -1.0496e-06,  3.6135e-07, -9.6858e-07,
+         2.0885e-07,  4.2003e-07, -1.2759e-06, -1.4510e-06,  1.6056e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 237, time 217.33, cls_loss 0.0008 cls_loss_mapping 0.0016 cls_loss_causal 0.4629 re_mapping 0.0034 re_causal 0.0106 /// teacc 99.11 lr 0.00010000
+Epoch 239, weight, value: tensor([[ 0.0157, -0.0818,  0.0034,  ..., -0.1031, -0.1357, -0.1063],
+        [-0.1096,  0.0692, -0.1105,  ..., -0.1326, -0.1318, -0.1811],
+        [-0.0829, -0.1378, -0.1295,  ..., -0.1859, -0.1220,  0.1459],
+        ...,
+        [ 0.0838, -0.0554, -0.1153,  ...,  0.0959, -0.1096, -0.1204],
+        [ 0.1182,  0.0994,  0.0734,  ..., -0.1842, -0.1048,  0.0798],
+        [ 0.0592,  0.0281,  0.0893,  ...,  0.0466, -0.0852,  0.0008]],
+       device='cuda:0'), grad: tensor([[-1.9500e-08,  1.5658e-08,  2.8813e-08,  ...,  7.1304e-08,
+          8.7079e-07,  7.2923e-07],
+        [ 7.5670e-09, -1.6275e-07,  5.4715e-09,  ...,  5.3318e-08,
+          5.3202e-08,  5.2329e-08],
+        [ 5.2387e-09,  3.9523e-08,  2.4447e-09,  ..., -8.7311e-09,
+          2.8929e-08, -1.4226e-07],
+        ...,
+        [-9.3714e-09,  5.0641e-08,  9.4296e-09,  ..., -4.5984e-09,
+          7.2177e-09,  1.8161e-08],
+        [-9.8953e-10,  6.0536e-08,  7.4506e-09,  ...,  2.3865e-08,
+          4.7870e-07,  4.0815e-07],
+        [-2.0314e-08, -8.5449e-08, -7.6718e-08,  ...,  8.1165e-07,
+          6.6916e-07,  2.8685e-07]], device='cuda:0')
+Epoch 239, bias, value: tensor([ 0.0298, -0.0266, -0.0080,  0.0156,  0.0012, -0.0143,  0.0060,  0.0159,
+        -0.0272,  0.0070], device='cuda:0'), grad: tensor([ 2.0023e-06, -2.6682e-07, -4.9407e-07,  1.0151e-06, -1.0515e-06,
+        -1.0971e-06, -3.3155e-06,  2.5099e-07,  1.4845e-06,  1.4817e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 238, time 217.37, cls_loss 0.0010 cls_loss_mapping 0.0023 cls_loss_causal 0.4684 re_mapping 0.0034 re_causal 0.0106 /// teacc 99.11 lr 0.00010000
+Epoch 240, weight, value: tensor([[ 0.0158, -0.0822,  0.0027,  ..., -0.1035, -0.1358, -0.1066],
+        [-0.1098,  0.0675, -0.1108,  ..., -0.1352, -0.1350, -0.1843],
+        [-0.0832, -0.1380, -0.1298,  ..., -0.1869, -0.1233,  0.1462],
+        ...,
+        [ 0.0836, -0.0555, -0.1154,  ...,  0.0957, -0.1096, -0.1208],
+        [ 0.1183,  0.0995,  0.0736,  ..., -0.1859, -0.1049,  0.0800],
+        [ 0.0594,  0.0281,  0.0895,  ...,  0.0467, -0.0853,  0.0006]],
+       device='cuda:0'), grad: tensor([[-3.5077e-05, -3.0234e-05, -3.6329e-05,  ...,  1.5134e-09,
+          1.5018e-08, -8.2627e-06],
+        [ 2.1013e-08, -2.5122e-07,  2.0780e-08,  ...,  4.2492e-09,
+          3.3760e-09,  3.4284e-08],
+        [ 3.0268e-08,  5.8208e-08,  2.9278e-08,  ...,  4.1910e-09,
+          1.6880e-08, -3.9069e-07],
+        ...,
+        [ 8.3412e-08,  1.2899e-07,  9.0164e-08,  ..., -3.4343e-09,
+          5.2387e-10,  2.9663e-07],
+        [ 1.1567e-06,  1.1260e-06,  1.1967e-06,  ...,  1.3970e-09,
+          1.9965e-08,  3.7719e-07],
+        [ 3.3349e-05,  2.8759e-05,  3.4541e-05,  ...,  1.2689e-08,
+          1.9849e-08,  7.8976e-06]], device='cuda:0')
+Epoch 240, bias, value: tensor([ 0.0300, -0.0285, -0.0080,  0.0154,  0.0038, -0.0143,  0.0060,  0.0158,
+        -0.0272,  0.0071], device='cuda:0'), grad: tensor([-1.5140e-04, -7.6694e-07, -1.9763e-06,  1.5879e-06,  3.5600e-07,
+         3.4645e-07, -1.7835e-07,  2.1365e-06,  5.9679e-06,  1.4424e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 239, time 217.61, cls_loss 0.0008 cls_loss_mapping 0.0024 cls_loss_causal 0.5028 re_mapping 0.0032 re_causal 0.0106 /// teacc 99.08 lr 0.00010000
+Epoch 241, weight, value: tensor([[ 0.0163, -0.0814,  0.0046,  ..., -0.1037, -0.1360, -0.1068],
+        [-0.1100,  0.0675, -0.1109,  ..., -0.1354, -0.1350, -0.1844],
+        [-0.0832, -0.1380, -0.1302,  ..., -0.1880, -0.1243,  0.1472],
+        ...,
+        [ 0.0837, -0.0555, -0.1155,  ...,  0.0959, -0.1095, -0.1211],
+        [ 0.1183,  0.0995,  0.0736,  ..., -0.1876, -0.1049,  0.0800],
+        [ 0.0594,  0.0281,  0.0894,  ...,  0.0467, -0.0853,  0.0005]],
+       device='cuda:0'), grad: tensor([[-2.4633e-07,  2.0838e-07, -2.5332e-06,  ...,  1.7346e-07,
+          7.5088e-09,  7.1479e-08],
+        [ 9.5635e-08,  1.3625e-06,  4.8568e-07,  ...,  7.1386e-07,
+          4.2492e-09,  6.3749e-07],
+        [ 6.4669e-08,  1.8943e-06,  8.1444e-07,  ...,  1.5344e-07,
+          2.5029e-09,  9.7603e-07],
+        ...,
+        [-5.7800e-08,  1.0915e-06,  1.4971e-07,  ...,  1.2759e-06,
+          2.6776e-09,  8.2597e-08],
+        [-2.2049e-07, -4.5262e-06, -1.9046e-06,  ...,  7.8115e-08,
+          4.3074e-09, -2.7549e-06],
+        [-1.1653e-07, -4.9807e-06,  1.3448e-06,  ..., -8.7917e-06,
+          4.4238e-09,  2.0897e-08]], device='cuda:0')
+Epoch 241, bias, value: tensor([ 0.0301, -0.0286, -0.0078,  0.0152,  0.0037, -0.0143,  0.0061,  0.0158,
+        -0.0272,  0.0070], device='cuda:0'), grad: tensor([-1.4313e-05,  5.9754e-06,  3.3509e-06,  2.5723e-06,  1.2986e-05,
+         3.1441e-06,  3.2037e-06,  4.3660e-06, -1.3508e-05, -7.7784e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 240, time 217.54, cls_loss 0.0009 cls_loss_mapping 0.0021 cls_loss_causal 0.4829 re_mapping 0.0033 re_causal 0.0105 /// teacc 99.06 lr 0.00010000
+Epoch 242, weight, value: tensor([[ 0.0164, -0.0818,  0.0048,  ..., -0.1039, -0.1361, -0.1070],
+        [-0.1100,  0.0677, -0.1112,  ..., -0.1355, -0.1351, -0.1845],
+        [-0.0826, -0.1382, -0.1309,  ..., -0.1879, -0.1250,  0.1478],
+        ...,
+        [ 0.0836, -0.0555, -0.1156,  ...,  0.0959, -0.1105, -0.1217],
+        [ 0.1184,  0.0995,  0.0737,  ..., -0.1904, -0.1051,  0.0801],
+        [ 0.0594,  0.0286,  0.0910,  ...,  0.0475, -0.0845,  0.0015]],
+       device='cuda:0'), grad: tensor([[-1.4086e-08,  1.2876e-07,  9.9419e-08,  ...,  2.2491e-07,
+          2.0326e-07,  1.4785e-07],
+        [ 2.7032e-07,  7.7765e-08,  7.3458e-08,  ...,  5.2247e-07,
+          3.7777e-08,  2.8696e-08],
+        [ 2.2759e-08,  2.5029e-08,  1.1409e-08,  ...,  5.6229e-08,
+          2.2061e-08,  2.0664e-08],
+        ...,
+        [-9.3074e-08,  5.5321e-07,  2.6333e-07,  ...,  3.4622e-07,
+          1.3388e-09,  2.7358e-09],
+        [ 2.8987e-08,  2.3120e-07,  1.5565e-07,  ...,  3.8161e-07,
+          1.1560e-07,  6.9966e-08],
+        [-3.9185e-07, -5.6364e-06, -4.9323e-06,  ..., -9.8795e-06,
+          1.7055e-08,  1.3621e-08]], device='cuda:0')
+Epoch 242, bias, value: tensor([ 0.0303, -0.0286, -0.0071,  0.0151,  0.0029, -0.0142,  0.0057,  0.0157,
+        -0.0273,  0.0076], device='cuda:0'), grad: tensor([ 7.9209e-07,  1.6727e-06,  3.0268e-07,  6.3097e-07,  2.9784e-06,
+         2.8476e-05, -4.4852e-06,  8.9314e-07,  1.5907e-06, -3.2872e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 241, time 217.60, cls_loss 0.0009 cls_loss_mapping 0.0037 cls_loss_causal 0.5023 re_mapping 0.0033 re_causal 0.0107 /// teacc 99.09 lr 0.00010000
+Epoch 243, weight, value: tensor([[ 0.0167, -0.0787,  0.0083,  ..., -0.1042, -0.1365, -0.1076],
+        [-0.1107,  0.0656, -0.1143,  ..., -0.1356, -0.1352, -0.1845],
+        [-0.0827, -0.1383, -0.1317,  ..., -0.1886, -0.1252,  0.1481],
+        ...,
+        [ 0.0837, -0.0556, -0.1156,  ...,  0.0960, -0.1109, -0.1222],
+        [ 0.1184,  0.0994,  0.0736,  ..., -0.1937, -0.1058,  0.0802],
+        [ 0.0594,  0.0287,  0.0911,  ...,  0.0475, -0.0845,  0.0015]],
+       device='cuda:0'), grad: tensor([[ 3.5914e-08,  3.5507e-08,  1.2165e-08,  ...,  5.4657e-08,
+          8.3644e-08,  9.7556e-08],
+        [ 3.8592e-08, -3.4168e-08,  1.4959e-08,  ...,  9.5984e-08,
+          8.6729e-09,  1.4552e-08],
+        [ 2.1828e-08,  2.6310e-08,  2.9104e-09,  ...,  2.7148e-07,
+          1.0652e-08,  1.5541e-08],
+        ...,
+        [ 2.9430e-07,  4.4494e-07,  1.5274e-07,  ...,  4.5751e-07,
+          3.2480e-08,  1.3155e-08],
+        [-9.7265e-08, -4.0163e-09, -3.1898e-08,  ...,  2.3108e-08,
+          8.6497e-08, -2.0955e-09],
+        [-4.9220e-07, -7.6834e-07, -2.8382e-07,  ..., -1.3020e-06,
+         -5.1223e-09, -2.9046e-08]], device='cuda:0')
+Epoch 243, bias, value: tensor([ 0.0336, -0.0306, -0.0071,  0.0152,  0.0029, -0.0143,  0.0062,  0.0158,
+        -0.0274,  0.0075], device='cuda:0'), grad: tensor([ 3.8510e-07,  1.3271e-08,  6.1374e-07,  9.7847e-08,  9.7137e-07,
+         5.5181e-07, -7.8185e-07,  1.6810e-06,  2.3982e-08, -3.5409e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 242, time 218.13, cls_loss 0.0008 cls_loss_mapping 0.0021 cls_loss_causal 0.4996 re_mapping 0.0032 re_causal 0.0107 /// teacc 99.06 lr 0.00010000
+Epoch 244, weight, value: tensor([[ 0.0168, -0.0787,  0.0084,  ..., -0.1043, -0.1363, -0.1077],
+        [-0.1109,  0.0657, -0.1144,  ..., -0.1357, -0.1353, -0.1847],
+        [-0.0842, -0.1387, -0.1330,  ..., -0.1910, -0.1260,  0.1484],
+        ...,
+        [ 0.0838, -0.0557, -0.1158,  ...,  0.0962, -0.1117, -0.1220],
+        [ 0.1185,  0.0995,  0.0738,  ..., -0.1953, -0.1054,  0.0805],
+        [ 0.0595,  0.0288,  0.0913,  ...,  0.0475, -0.0846,  0.0014]],
+       device='cuda:0'), grad: tensor([[ 3.3062e-08,  3.0326e-08,  1.6065e-08,  ...,  6.3446e-09,
+          4.3656e-09,  5.8557e-08],
+        [ 3.3469e-08, -1.8370e-07,  2.3807e-08,  ...,  1.8277e-08,
+         -4.2492e-09,  4.1910e-08],
+        [ 2.4308e-07,  1.8068e-07,  1.5274e-07,  ...,  2.9802e-08,
+          3.9581e-09,  2.9337e-07],
+        ...,
+        [ 2.7532e-08,  1.0838e-07,  2.9569e-08,  ..., -1.2375e-07,
+          2.9104e-10,  3.3528e-08],
+        [-6.6916e-07, -2.2526e-07, -4.1397e-07,  ...,  3.0850e-09,
+          3.4925e-09, -8.4657e-07],
+        [ 4.9477e-09, -7.7998e-09,  7.5088e-09,  ..., -1.8277e-08,
+          3.4925e-10,  3.6496e-08]], device='cuda:0')
+Epoch 244, bias, value: tensor([ 0.0336, -0.0306, -0.0075,  0.0150,  0.0028, -0.0143,  0.0058,  0.0158,
+        -0.0274,  0.0075], device='cuda:0'), grad: tensor([ 1.2596e-07, -5.9372e-07,  1.1763e-06, -2.0128e-07,  2.6845e-07,
+         8.0978e-07,  2.5379e-07,  1.2922e-07, -2.1774e-06,  2.0349e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 243, time 217.50, cls_loss 0.0008 cls_loss_mapping 0.0018 cls_loss_causal 0.4752 re_mapping 0.0034 re_causal 0.0106 /// teacc 99.14 lr 0.00010000
+Epoch 245, weight, value: tensor([[ 0.0165, -0.0787,  0.0082,  ..., -0.1046, -0.1371, -0.1090],
+        [-0.1111,  0.0657, -0.1145,  ..., -0.1357, -0.1354, -0.1848],
+        [-0.0842, -0.1387, -0.1341,  ..., -0.1913, -0.1267,  0.1498],
+        ...,
+        [ 0.0838, -0.0557, -0.1158,  ...,  0.0962, -0.1122, -0.1226],
+        [ 0.1186,  0.0997,  0.0741,  ..., -0.1963, -0.1056,  0.0806],
+        [ 0.0595,  0.0288,  0.0914,  ...,  0.0475, -0.0847,  0.0013]],
+       device='cuda:0'), grad: tensor([[ 5.0990e-07,  3.2666e-07,  2.9476e-07,  ...,  2.8918e-07,
+          1.9209e-08,  4.5286e-07],
+        [ 3.0943e-07,  1.8871e-07,  1.1519e-07,  ...,  2.2876e-08,
+          2.6193e-09,  3.2829e-07],
+        [ 9.3016e-08,  7.4622e-08,  3.2014e-08,  ...,  2.7067e-08,
+          3.9581e-09,  6.7230e-08],
+        ...,
+        [ 2.8731e-07,  1.4738e-07,  2.4051e-07,  ...,  3.2620e-07,
+          5.8208e-10,  1.1903e-07],
+        [-3.1311e-06, -2.2873e-06, -1.1390e-06,  ...,  1.6007e-08,
+          1.4086e-08, -3.5837e-06],
+        [-5.3085e-07, -1.3877e-07, -5.0664e-07,  ..., -9.8627e-07,
+          4.4820e-09,  1.5891e-08]], device='cuda:0')
+Epoch 245, bias, value: tensor([ 0.0335, -0.0306, -0.0073,  0.0148,  0.0028, -0.0140,  0.0061,  0.0158,
+        -0.0274,  0.0075], device='cuda:0'), grad: tensor([ 2.5276e-06,  1.5181e-06,  5.2806e-07, -1.1763e-06,  8.5589e-07,
+         1.1578e-05,  1.8254e-06,  1.4622e-06, -1.6704e-05, -2.4009e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 244, time 217.42, cls_loss 0.0007 cls_loss_mapping 0.0024 cls_loss_causal 0.5248 re_mapping 0.0033 re_causal 0.0111 /// teacc 99.09 lr 0.00010000
+Epoch 246, weight, value: tensor([[ 0.0164, -0.0788,  0.0081,  ..., -0.1049, -0.1373, -0.1094],
+        [-0.1113,  0.0658, -0.1145,  ..., -0.1358, -0.1355, -0.1849],
+        [-0.0848, -0.1392, -0.1348,  ..., -0.1932, -0.1279,  0.1493],
+        ...,
+        [ 0.0838, -0.0558, -0.1159,  ...,  0.0963, -0.1105, -0.1223],
+        [ 0.1188,  0.0998,  0.0742,  ..., -0.1977, -0.1060,  0.0808],
+        [ 0.0596,  0.0292,  0.0920,  ...,  0.0477, -0.0845,  0.0020]],
+       device='cuda:0'), grad: tensor([[-6.9849e-10,  1.5716e-09,  1.6298e-09,  ...,  1.1642e-09,
+          1.1292e-08,  9.3714e-09],
+        [ 3.1956e-08, -1.7462e-10,  1.0477e-09,  ...,  3.4110e-08,
+          5.6461e-09,  5.0641e-09],
+        [ 7.6834e-09,  6.5193e-09,  1.5134e-09,  ...,  1.2398e-08,
+          1.5716e-09,  1.2224e-09],
+        ...,
+        [-6.7521e-08,  1.2224e-09,  4.4820e-09,  ..., -7.4680e-08,
+          5.8208e-10, -2.3283e-10],
+        [ 1.1059e-09,  9.5286e-08,  1.2037e-07,  ...,  1.3970e-09,
+          3.0559e-08,  8.8359e-08],
+        [ 1.7637e-08,  4.4820e-09,  6.9849e-10,  ...,  3.6263e-08,
+          1.5134e-08,  2.2701e-08]], device='cuda:0')
+Epoch 246, bias, value: tensor([ 0.0335, -0.0305, -0.0080,  0.0152,  0.0026, -0.0140,  0.0050,  0.0159,
+        -0.0274,  0.0077], device='cuda:0'), grad: tensor([ 2.3574e-08,  1.0553e-07,  5.1747e-08,  1.2689e-08, -2.5262e-08,
+        -1.2564e-06, -7.7009e-08, -1.8335e-07,  1.1660e-06,  1.9209e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 245, time 217.34, cls_loss 0.0009 cls_loss_mapping 0.0020 cls_loss_causal 0.4955 re_mapping 0.0032 re_causal 0.0103 /// teacc 99.13 lr 0.00010000
+Epoch 247, weight, value: tensor([[ 0.0164, -0.0788,  0.0080,  ..., -0.1051, -0.1374, -0.1096],
+        [-0.1122,  0.0658, -0.1145,  ..., -0.1359, -0.1356, -0.1850],
+        [-0.0849, -0.1393, -0.1356,  ..., -0.1937, -0.1283,  0.1497],
+        ...,
+        [ 0.0839, -0.0559, -0.1160,  ...,  0.0963, -0.1116, -0.1232],
+        [ 0.1209,  0.0997,  0.0759,  ..., -0.1987, -0.1034,  0.0838],
+        [ 0.0596,  0.0293,  0.0922,  ...,  0.0477, -0.0846,  0.0019]],
+       device='cuda:0'), grad: tensor([[ 2.2701e-08,  6.5775e-08,  1.6356e-08,  ...,  3.9989e-08,
+          9.0222e-09,  9.6578e-07],
+        [ 1.9674e-07, -5.8208e-11,  3.8941e-08,  ...,  3.2876e-07,
+          5.8208e-09,  1.3039e-08],
+        [ 1.6019e-07,  1.8906e-07,  4.7497e-08,  ...,  2.5542e-07,
+          9.1968e-09, -1.1325e-06],
+        ...,
+        [-1.8273e-06,  2.9337e-07,  7.2527e-08,  ..., -2.1905e-06,
+          1.3562e-08,  2.0082e-08],
+        [ 1.0571e-07,  1.0468e-06,  3.0221e-07,  ...,  1.7742e-07,
+          7.6136e-08,  1.1729e-07],
+        [ 1.1399e-06,  1.8049e-06,  5.3365e-07,  ...,  1.3476e-06,
+          1.1991e-07,  3.5740e-08]], device='cuda:0')
+Epoch 247, bias, value: tensor([ 0.0335, -0.0307, -0.0080,  0.0152,  0.0028, -0.0157,  0.0020,  0.0160,
+        -0.0257,  0.0077], device='cuda:0'), grad: tensor([ 2.7046e-06,  8.1072e-07, -1.6708e-06, -1.2144e-05,  3.4226e-07,
+         4.0047e-06,  5.4541e-08, -6.4708e-06,  3.3304e-06,  9.0376e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 246, time 217.61, cls_loss 0.0009 cls_loss_mapping 0.0023 cls_loss_causal 0.5013 re_mapping 0.0032 re_causal 0.0104 /// teacc 99.10 lr 0.00010000
+Epoch 248, weight, value: tensor([[ 0.0163, -0.0788,  0.0079,  ..., -0.1053, -0.1379, -0.1104],
+        [-0.1126,  0.0662, -0.1146,  ..., -0.1358, -0.1358, -0.1852],
+        [-0.0851, -0.1396, -0.1370,  ..., -0.1939, -0.1305,  0.1497],
+        ...,
+        [ 0.0836, -0.0564, -0.1160,  ...,  0.0964, -0.1121, -0.1264],
+        [ 0.1220,  0.1001,  0.0759,  ..., -0.2012, -0.1037,  0.0843],
+        [ 0.0596,  0.0294,  0.0926,  ...,  0.0477, -0.0846,  0.0021]],
+       device='cuda:0'), grad: tensor([[ 9.1782e-07,  1.0878e-06,  1.0347e-06,  ...,  1.2876e-07,
+          1.9791e-08,  1.1530e-06],
+        [ 1.7020e-07,  1.5402e-07,  1.6869e-07,  ...,  4.3830e-08,
+          2.6776e-09,  4.4890e-07],
+        [ 1.9022e-07,  2.1595e-07,  1.9954e-07,  ...,  3.0966e-08,
+          6.2282e-09, -1.0487e-06],
+        ...,
+        [ 1.3020e-06,  1.4063e-06,  1.8617e-06,  ...,  1.4566e-06,
+          8.7311e-10,  9.7230e-07],
+        [-5.4426e-06, -6.3553e-06, -5.8897e-06,  ..., -3.5181e-07,
+          3.8533e-08, -6.6385e-06],
+        [ 1.7891e-06,  2.2408e-06,  1.2461e-06,  ..., -2.0787e-06,
+         -1.0489e-07,  4.0717e-06]], device='cuda:0')
+Epoch 248, bias, value: tensor([ 0.0334, -0.0304, -0.0080,  0.0149,  0.0027, -0.0155,  0.0025,  0.0155,
+        -0.0253,  0.0077], device='cuda:0'), grad: tensor([ 3.4571e-06,  1.6373e-06, -4.2841e-06,  1.9167e-06,  6.5472e-07,
+         1.6922e-06,  3.8277e-07,  7.8827e-06, -1.9640e-05,  6.2846e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 247, time 217.53, cls_loss 0.0009 cls_loss_mapping 0.0029 cls_loss_causal 0.4869 re_mapping 0.0033 re_causal 0.0103 /// teacc 99.08 lr 0.00010000
+Epoch 249, weight, value: tensor([[ 0.0169, -0.0788,  0.0079,  ..., -0.1054, -0.1385, -0.1112],
+        [-0.1129,  0.0662, -0.1147,  ..., -0.1358, -0.1359, -0.1853],
+        [-0.0851, -0.1397, -0.1378,  ..., -0.1939, -0.1312,  0.1504],
+        ...,
+        [ 0.0857, -0.0565, -0.1149,  ...,  0.0981, -0.1128, -0.1238],
+        [ 0.1191,  0.1002,  0.0739,  ..., -0.2051, -0.1039,  0.0823],
+        [ 0.0596,  0.0294,  0.0927,  ...,  0.0477, -0.0847,  0.0021]],
+       device='cuda:0'), grad: tensor([[-4.5169e-08,  1.1560e-07,  5.1281e-08,  ...,  4.5984e-09,
+          1.0879e-07,  8.9407e-08],
+        [ 1.5658e-07,  4.4936e-08,  6.4611e-09,  ...,  2.8452e-07,
+          4.0163e-09,  1.1350e-07],
+        [ 5.0641e-09,  1.8452e-08,  4.7730e-09,  ...,  4.2375e-08,
+          6.1700e-09, -1.2224e-07],
+        ...,
+        [-3.6135e-07, -1.0111e-07,  1.2922e-08,  ..., -7.5577e-07,
+          2.1537e-09,  1.2631e-08],
+        [ 9.0804e-09,  4.1968e-08,  1.3621e-08,  ...,  1.8219e-08,
+          2.7998e-08,  2.2061e-08],
+        [ 1.2480e-07,  7.7358e-08,  9.1968e-09,  ...,  2.2340e-07,
+          4.7730e-09,  1.6298e-09]], device='cuda:0')
+Epoch 249, bias, value: tensor([ 0.0334, -0.0304, -0.0079,  0.0148,  0.0027, -0.0154,  0.0029,  0.0175,
+        -0.0281,  0.0077], device='cuda:0'), grad: tensor([ 4.3469e-07,  1.2210e-06, -3.4412e-07, -1.6112e-06,  1.2340e-07,
+         1.3877e-06, -4.0955e-07, -1.8673e-06,  2.6170e-07,  8.1118e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 248, time 217.57, cls_loss 0.0008 cls_loss_mapping 0.0021 cls_loss_causal 0.4965 re_mapping 0.0033 re_causal 0.0108 /// teacc 99.12 lr 0.00010000
+Epoch 250, weight, value: tensor([[ 0.0164, -0.0789,  0.0075,  ..., -0.1063, -0.1389, -0.1119],
+        [-0.1133,  0.0662, -0.1148,  ..., -0.1359, -0.1360, -0.1855],
+        [-0.0852, -0.1399, -0.1389,  ..., -0.1944, -0.1315,  0.1509],
+        ...,
+        [ 0.0858, -0.0567, -0.1149,  ...,  0.0981, -0.1130, -0.1237],
+        [ 0.1190,  0.1003,  0.0739,  ..., -0.2052, -0.1040,  0.0824],
+        [ 0.0597,  0.0295,  0.0932,  ...,  0.0478, -0.0847,  0.0022]],
+       device='cuda:0'), grad: tensor([[-6.4028e-09,  1.5134e-09, -6.4028e-09,  ...,  5.0117e-08,
+          2.1886e-08,  1.9267e-08],
+        [ 3.0792e-08, -1.9791e-08,  9.8953e-10,  ...,  1.6647e-07,
+          4.7265e-08,  4.3015e-08],
+        [ 4.7381e-08,  9.3132e-09,  3.1432e-09,  ...,  2.4284e-07,
+          6.8045e-08,  6.3505e-08],
+        ...,
+        [-2.1444e-07,  8.9058e-09,  8.1491e-10,  ..., -2.7823e-07,
+          1.1316e-07,  1.0192e-07],
+        [-3.8999e-09, -1.0827e-08, -1.5134e-08,  ...,  8.8476e-09,
+         -2.0373e-09, -1.6880e-08],
+        [ 9.9186e-08,  9.7207e-09,  9.7207e-09,  ...,  3.6117e-06,
+          1.6959e-06,  1.5264e-06]], device='cuda:0')
+Epoch 250, bias, value: tensor([ 0.0334, -0.0304, -0.0079,  0.0155,  0.0027, -0.0155,  0.0029,  0.0175,
+        -0.0282,  0.0078], device='cuda:0'), grad: tensor([ 5.8673e-08,  2.4633e-07,  5.5274e-07,  1.1770e-07, -7.0594e-06,
+         2.8638e-08,  2.4354e-07, -8.3726e-07,  6.3446e-09,  6.6273e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 249, time 217.45, cls_loss 0.0007 cls_loss_mapping 0.0017 cls_loss_causal 0.4488 re_mapping 0.0032 re_causal 0.0103 /// teacc 98.99 lr 0.00010000
+Epoch 251, weight, value: tensor([[ 0.0168, -0.0789,  0.0075,  ..., -0.1065, -0.1388, -0.1119],
+        [-0.1135,  0.0663, -0.1148,  ..., -0.1360, -0.1361, -0.1855],
+        [-0.0853, -0.1402, -0.1395,  ..., -0.1946, -0.1318,  0.1510],
+        ...,
+        [ 0.0858, -0.0567, -0.1150,  ...,  0.0981, -0.1134, -0.1238],
+        [ 0.1190,  0.1003,  0.0740,  ..., -0.2052, -0.1046,  0.0823],
+        [ 0.0597,  0.0296,  0.0935,  ...,  0.0479, -0.0848,  0.0022]],
+       device='cuda:0'), grad: tensor([[-9.8953e-09,  7.0431e-09,  4.2492e-09,  ...,  2.2876e-08,
+          5.8627e-07,  3.4645e-07],
+        [ 1.1409e-08,  2.9337e-08,  1.0594e-08,  ...,  3.8359e-08,
+          2.3865e-07,  1.7229e-07],
+        [ 3.5216e-08,  1.2224e-07,  6.2282e-09,  ...,  3.7777e-08,
+          1.7462e-07,  2.3888e-07],
+        ...,
+        [ 1.4086e-07,  3.9930e-08,  4.4645e-08,  ...,  2.7590e-07,
+          5.7044e-08,  1.4482e-07],
+        [-6.7463e-08, -2.5844e-07, -1.1298e-07,  ...,  4.3132e-08,
+          4.4191e-07, -3.6438e-08],
+        [-2.6752e-07, -2.8056e-08, -8.7661e-08,  ..., -2.2398e-07,
+          1.9884e-07,  2.6368e-08]], device='cuda:0')
+Epoch 251, bias, value: tensor([ 0.0334, -0.0304, -0.0079,  0.0155,  0.0027, -0.0154,  0.0024,  0.0175,
+        -0.0282,  0.0079], device='cuda:0'), grad: tensor([ 1.1232e-06,  6.7148e-07,  5.4156e-07,  2.0526e-06,  3.7393e-07,
+        -8.4983e-07, -4.9323e-06,  7.9861e-07,  4.4354e-07, -2.3399e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 250, time 217.41, cls_loss 0.0007 cls_loss_mapping 0.0016 cls_loss_causal 0.4514 re_mapping 0.0031 re_causal 0.0101 /// teacc 99.09 lr 0.00010000
+Epoch 252, weight, value: tensor([[ 0.0169, -0.0789,  0.0074,  ..., -0.1070, -0.1390, -0.1124],
+        [-0.1137,  0.0664, -0.1149,  ..., -0.1361, -0.1362, -0.1856],
+        [-0.0852, -0.1404, -0.1405,  ..., -0.1949, -0.1323,  0.1516],
+        ...,
+        [ 0.0858, -0.0568, -0.1152,  ...,  0.0981, -0.1141, -0.1239],
+        [ 0.1188,  0.0999,  0.0735,  ..., -0.2054, -0.1048,  0.0821],
+        [ 0.0601,  0.0299,  0.0943,  ...,  0.0482, -0.0848,  0.0031]],
+       device='cuda:0'), grad: tensor([[ 5.2387e-09,  1.3271e-08,  8.7311e-09,  ...,  2.5437e-08,
+          7.6834e-09,  1.5891e-08],
+        [ 5.3260e-08, -2.8696e-08,  8.1491e-09,  ...,  1.1979e-07,
+          2.3691e-08,  3.9639e-08],
+        [ 8.0676e-08,  9.4529e-08,  2.6543e-08,  ...,  8.9756e-08,
+          1.5541e-08,  8.5798e-08],
+        ...,
+        [-1.9127e-07,  5.5996e-08,  2.1560e-07,  ..., -3.5297e-07,
+          4.0862e-08,  1.9604e-07],
+        [-1.1700e-07, -1.7462e-07, -6.1817e-08,  ...,  1.1642e-08,
+          4.0745e-09, -1.7462e-07],
+        [-6.9907e-08, -1.1560e-07, -3.9442e-07,  ..., -3.5623e-07,
+         -1.5728e-07, -4.5518e-07]], device='cuda:0')
+Epoch 252, bias, value: tensor([ 0.0334, -0.0304, -0.0079,  0.0155,  0.0026, -0.0153,  0.0020,  0.0174,
+        -0.0284,  0.0082], device='cuda:0'), grad: tensor([ 7.0606e-08, -3.1292e-07,  5.5460e-07,  2.7299e-08,  1.0589e-06,
+         2.1793e-07,  5.4482e-08, -3.7556e-07, -5.3318e-07, -7.5344e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 251, time 217.43, cls_loss 0.0008 cls_loss_mapping 0.0018 cls_loss_causal 0.4807 re_mapping 0.0030 re_causal 0.0101 /// teacc 99.12 lr 0.00010000
+Epoch 253, weight, value: tensor([[ 0.0146, -0.0789,  0.0061,  ..., -0.1094, -0.1392, -0.1150],
+        [-0.1140,  0.0665, -0.1150,  ..., -0.1361, -0.1362, -0.1858],
+        [-0.0850, -0.1405, -0.1424,  ..., -0.1951, -0.1328,  0.1532],
+        ...,
+        [ 0.0857, -0.0569, -0.1153,  ...,  0.0981, -0.1143, -0.1241],
+        [ 0.1190,  0.1003,  0.0743,  ..., -0.2054, -0.1050,  0.0824],
+        [ 0.0605,  0.0298,  0.0950,  ...,  0.0485, -0.0846,  0.0035]],
+       device='cuda:0'), grad: tensor([[ 3.6089e-08,  4.7497e-08,  1.6938e-08,  ...,  4.2899e-08,
+          6.7113e-08,  6.1118e-08],
+        [ 1.5751e-07, -7.7940e-08,  3.6613e-08,  ...,  7.6485e-08,
+          1.0571e-07,  1.2037e-07],
+        [ 9.9186e-07,  1.1306e-06,  3.0710e-07,  ...,  1.3644e-07,
+          4.6846e-07,  7.5903e-07],
+        ...,
+        [-1.9814e-07,  5.1223e-07,  1.4738e-07,  ..., -6.8266e-07,
+          1.9046e-07,  2.8545e-07],
+        [-1.9837e-06, -2.4568e-06, -6.7614e-07,  ...,  4.0804e-08,
+         -7.0501e-07, -1.5423e-06],
+        [ 2.3888e-07,  1.3027e-07, -7.4680e-08,  ...,  1.7858e-07,
+          2.8894e-07,  1.2247e-07]], device='cuda:0')
+Epoch 253, bias, value: tensor([ 0.0329, -0.0303, -0.0075,  0.0154,  0.0023, -0.0153,  0.0020,  0.0174,
+        -0.0284,  0.0086], device='cuda:0'), grad: tensor([ 5.0059e-07,  3.3434e-07,  4.9472e-06,  3.3695e-06,  7.8836e-07,
+        -1.5616e-05,  1.0967e-05, -6.9430e-07, -7.1451e-06,  2.5108e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 252, time 217.10, cls_loss 0.0007 cls_loss_mapping 0.0016 cls_loss_causal 0.4830 re_mapping 0.0032 re_causal 0.0107 /// teacc 99.08 lr 0.00010000
+Epoch 254, weight, value: tensor([[ 0.0140, -0.0790,  0.0057,  ..., -0.1101, -0.1394, -0.1157],
+        [-0.1142,  0.0665, -0.1150,  ..., -0.1361, -0.1363, -0.1859],
+        [-0.0852, -0.1408, -0.1437,  ..., -0.1957, -0.1333,  0.1530],
+        ...,
+        [ 0.0858, -0.0569, -0.1153,  ...,  0.0981, -0.1146, -0.1241],
+        [ 0.1190,  0.1002,  0.0742,  ..., -0.2054, -0.1050,  0.0823],
+        [ 0.0606,  0.0299,  0.0956,  ...,  0.0486, -0.0846,  0.0038]],
+       device='cuda:0'), grad: tensor([[-2.4389e-08,  2.0897e-08,  1.8044e-09,  ...,  3.4925e-10,
+          2.7940e-09,  4.4820e-09],
+        [ 9.7207e-09,  3.7602e-08,  1.4727e-08,  ...,  1.2224e-09,
+          6.9849e-10,  1.1642e-08],
+        [ 6.6939e-09,  1.0384e-06,  3.8883e-08,  ..., -1.1642e-09,
+          2.3283e-10,  7.5554e-08],
+        ...,
+        [ 1.9674e-08,  2.8452e-07,  4.0338e-08,  ...,  4.0745e-09,
+          1.7462e-10,  1.3330e-08],
+        [-1.1176e-08,  2.4820e-07,  1.0885e-08,  ...,  2.8522e-09,
+          7.8580e-09,  3.6671e-09],
+        [ 1.6473e-08,  5.7218e-08,  1.1176e-08,  ...,  1.1118e-08,
+          2.9104e-09,  4.3656e-09]], device='cuda:0')
+Epoch 254, bias, value: tensor([ 0.0328, -0.0303, -0.0077,  0.0156,  0.0022, -0.0152,  0.0018,  0.0174,
+        -0.0284,  0.0087], device='cuda:0'), grad: tensor([ 3.2014e-09,  4.8138e-08,  3.7514e-06, -6.3367e-06,  3.9465e-08,
+         4.1258e-07,  1.4552e-08,  9.4436e-07,  8.6846e-07,  2.5332e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 253, time 217.05, cls_loss 0.0008 cls_loss_mapping 0.0021 cls_loss_causal 0.5038 re_mapping 0.0029 re_causal 0.0101 /// teacc 99.12 lr 0.00010000
+Epoch 255, weight, value: tensor([[ 0.0141, -0.0790,  0.0057,  ..., -0.1102, -0.1396, -0.1158],
+        [-0.1143,  0.0666, -0.1151,  ..., -0.1361, -0.1364, -0.1868],
+        [-0.0855, -0.1415, -0.1449,  ..., -0.1960, -0.1338,  0.1546],
+        ...,
+        [ 0.0857, -0.0570, -0.1155,  ...,  0.0980, -0.1161, -0.1243],
+        [ 0.1190,  0.1003,  0.0743,  ..., -0.2054, -0.1054,  0.0825],
+        [ 0.0607,  0.0299,  0.0962,  ...,  0.0488, -0.0847,  0.0040]],
+       device='cuda:0'), grad: tensor([[ 3.0093e-08,  3.9465e-08,  1.7462e-09,  ...,  5.5297e-09,
+          8.5216e-08,  8.5100e-08],
+        [ 5.4715e-08, -3.8594e-06,  8.1491e-10,  ...,  1.7753e-08,
+          2.5844e-08,  6.1758e-08],
+        [ 2.6589e-07,  2.5332e-07,  2.3283e-10,  ..., -1.6182e-08,
+          1.9383e-08,  7.6310e-08],
+        ...,
+        [ 5.6403e-08,  3.6452e-06,  8.7311e-09,  ...,  2.0023e-08,
+          6.4611e-09,  1.1572e-07],
+        [-4.8662e-07, -2.6263e-07,  6.4028e-10,  ...,  1.0652e-08,
+          9.3190e-08, -2.7148e-07],
+        [ 1.2980e-08,  1.5867e-07, -2.0547e-08,  ...,  1.6706e-08,
+          5.3027e-08,  3.6554e-08]], device='cuda:0')
+Epoch 255, bias, value: tensor([ 0.0328, -0.0304, -0.0068,  0.0156,  0.0022, -0.0152,  0.0018,  0.0171,
+        -0.0284,  0.0089], device='cuda:0'), grad: tensor([ 1.4994e-06, -2.8580e-05,  8.5775e-07,  5.0329e-06,  3.6391e-07,
+        -3.5858e-04, -3.8790e-07,  3.9309e-05,  3.3951e-04,  1.3765e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 254, time 217.32, cls_loss 0.0016 cls_loss_mapping 0.0039 cls_loss_causal 0.4978 re_mapping 0.0033 re_causal 0.0109 /// teacc 99.16 lr 0.00010000
+Epoch 256, weight, value: tensor([[ 0.0142, -0.0790,  0.0056,  ..., -0.1103, -0.1400, -0.1161],
+        [-0.1163,  0.0666, -0.1152,  ..., -0.1363, -0.1366, -0.1870],
+        [-0.0882, -0.1423, -0.1467,  ..., -0.2023, -0.1351,  0.1563],
+        ...,
+        [ 0.0828, -0.0569, -0.1155,  ...,  0.0954, -0.1148, -0.1261],
+        [ 0.1221,  0.0997,  0.0741,  ..., -0.2024, -0.1068,  0.0833],
+        [ 0.0606,  0.0301,  0.0964,  ...,  0.0487, -0.0847,  0.0041]],
+       device='cuda:0'), grad: tensor([[-2.0373e-09,  8.7894e-09,  2.3283e-10,  ...,  2.2701e-09,
+          2.0470e-06,  7.4692e-07],
+        [-2.9220e-08, -2.6892e-07,  1.8626e-09,  ...,  7.7998e-09,
+          3.3877e-08,  1.9837e-07],
+        [ 6.7521e-09,  5.5647e-08,  5.8208e-10,  ...,  1.8976e-08,
+          3.5623e-08, -3.3225e-07],
+        ...,
+        [ 1.3853e-08,  3.8138e-07,  2.3865e-08,  ..., -2.9686e-08,
+          7.5670e-09,  9.7789e-08],
+        [ 9.3132e-10,  5.4832e-08,  1.1642e-09,  ...,  4.6566e-10,
+          1.3399e-07,  6.5775e-08],
+        [ 5.4715e-09,  3.9523e-08,  1.2806e-09,  ...,  1.2049e-08,
+          3.3586e-08,  2.6776e-08]], device='cuda:0')
+Epoch 256, bias, value: tensor([ 0.0327, -0.0306, -0.0079,  0.0154,  0.0019, -0.0149,  0.0025,  0.0145,
+        -0.0257,  0.0088], device='cuda:0'), grad: tensor([ 4.6529e-06, -4.7311e-07, -6.3609e-07, -1.2396e-06,  6.2166e-07,
+         6.4028e-07, -5.9605e-06,  1.5879e-06,  5.3924e-07,  2.7427e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 255, time 217.53, cls_loss 0.0009 cls_loss_mapping 0.0021 cls_loss_causal 0.4695 re_mapping 0.0031 re_causal 0.0098 /// teacc 99.12 lr 0.00010000
+Epoch 257, weight, value: tensor([[ 0.0143, -0.0790,  0.0061,  ..., -0.1105, -0.1407, -0.1167],
+        [-0.1191,  0.0667, -0.1152,  ..., -0.1369, -0.1367, -0.1871],
+        [-0.0885, -0.1425, -0.1513,  ..., -0.2027, -0.1360,  0.1563],
+        ...,
+        [ 0.0828, -0.0569, -0.1157,  ...,  0.0956, -0.1149, -0.1261],
+        [ 0.1221,  0.0996,  0.0741,  ..., -0.2024, -0.1075,  0.0832],
+        [ 0.0607,  0.0302,  0.0966,  ...,  0.0487, -0.0848,  0.0041]],
+       device='cuda:0'), grad: tensor([[ 3.6671e-09,  2.6019e-08,  7.4506e-09,  ...,  9.8953e-10,
+          1.6880e-09,  1.3446e-08],
+        [ 7.6834e-09, -4.2142e-07,  1.1118e-08,  ...,  1.0477e-09,
+          1.0477e-09,  2.3458e-08],
+        [ 2.0314e-08,  7.1304e-08,  2.9511e-08,  ...,  1.1642e-10,
+          5.8208e-10, -3.4925e-09],
+        ...,
+        [ 1.3097e-08,  3.4866e-08,  1.5076e-08,  ...,  1.3271e-08,
+          5.2387e-10,  2.9453e-08],
+        [-1.5274e-07, -2.7241e-07, -2.1583e-07,  ...,  2.9104e-10,
+          2.4913e-08, -2.9383e-07],
+        [ 6.0885e-08,  1.7369e-07,  9.6275e-08,  ..., -2.0431e-08,
+          5.1223e-09,  1.6019e-07]], device='cuda:0')
+Epoch 257, bias, value: tensor([ 0.0329, -0.0308, -0.0081,  0.0154,  0.0017, -0.0147,  0.0032,  0.0145,
+        -0.0258,  0.0088], device='cuda:0'), grad: tensor([ 2.4447e-07, -4.2655e-06, -5.0152e-07,  4.1304e-07,  2.7940e-06,
+         2.2445e-07,  3.4692e-07,  6.1048e-07, -6.9989e-07,  8.1956e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 256, time 217.45, cls_loss 0.0010 cls_loss_mapping 0.0021 cls_loss_causal 0.5103 re_mapping 0.0030 re_causal 0.0099 /// teacc 99.07 lr 0.00010000
+Epoch 258, weight, value: tensor([[ 0.0143, -0.0791,  0.0060,  ..., -0.1107, -0.1411, -0.1172],
+        [-0.1193,  0.0668, -0.1154,  ..., -0.1369, -0.1367, -0.1877],
+        [-0.0887, -0.1423, -0.1525,  ..., -0.2031, -0.1367,  0.1570],
+        ...,
+        [ 0.0828, -0.0570, -0.1158,  ...,  0.0956, -0.1160, -0.1262],
+        [ 0.1221,  0.0997,  0.0745,  ..., -0.2024, -0.1077,  0.0834],
+        [ 0.0608,  0.0305,  0.0976,  ...,  0.0491, -0.0845,  0.0042]],
+       device='cuda:0'), grad: tensor([[-1.4119e-06,  1.0873e-07,  1.1933e-08,  ...,  1.3737e-08,
+         -1.3476e-06, -1.2228e-06],
+        [ 2.8231e-08, -1.1092e-06,  2.1188e-08,  ...,  3.5274e-08,
+         -3.3109e-07, -4.1677e-07],
+        [ 5.6811e-08,  6.5716e-08,  8.6147e-09,  ...,  1.0477e-08,
+          2.9046e-08,  8.1083e-08],
+        ...,
+        [ 5.7044e-09,  5.3085e-08,  2.3923e-08,  ...,  2.0606e-08,
+          2.1479e-08,  2.4214e-08],
+        [-2.3283e-08,  8.5449e-07,  6.1118e-09,  ...,  1.5949e-08,
+          3.1362e-07,  2.9476e-07],
+        [-1.9034e-08, -1.8347e-07, -2.7730e-07,  ...,  5.1456e-07,
+          5.5553e-07,  7.8348e-08]], device='cuda:0')
+Epoch 258, bias, value: tensor([ 0.0329, -0.0309, -0.0074,  0.0151,  0.0011, -0.0148,  0.0025,  0.0145,
+        -0.0258,  0.0092], device='cuda:0'), grad: tensor([-8.5309e-06, -4.9472e-06,  4.8522e-07, -2.7381e-07, -6.3889e-07,
+         6.2678e-07,  7.9647e-06,  2.6077e-07,  3.9935e-06,  1.0813e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 257, time 217.46, cls_loss 0.0011 cls_loss_mapping 0.0020 cls_loss_causal 0.4612 re_mapping 0.0031 re_causal 0.0100 /// teacc 99.02 lr 0.00010000
+Epoch 259, weight, value: tensor([[ 0.0147, -0.0791,  0.0059,  ..., -0.1108, -0.1402, -0.1166],
+        [-0.1196,  0.0669, -0.1155,  ..., -0.1370, -0.1368, -0.1878],
+        [-0.0889, -0.1426, -0.1533,  ..., -0.2034, -0.1374,  0.1570],
+        ...,
+        [ 0.0828, -0.0571, -0.1159,  ...,  0.0956, -0.1168, -0.1262],
+        [ 0.1221,  0.0998,  0.0747,  ..., -0.2024, -0.1084,  0.0834],
+        [ 0.0609,  0.0306,  0.0979,  ...,  0.0493, -0.0844,  0.0043]],
+       device='cuda:0'), grad: tensor([[-4.5402e-09,  1.6298e-08, -6.4028e-10,  ...,  4.3656e-09,
+         -1.1642e-10,  3.8417e-09],
+        [ 1.5157e-07, -1.1595e-07,  2.9104e-10,  ...,  4.9884e-08,
+          4.0745e-10,  1.3306e-07],
+        [ 7.8557e-07,  4.9477e-09,  4.0745e-10,  ...,  6.0070e-08,
+          1.1642e-10, -8.5402e-07],
+        ...,
+        [-1.7174e-06,  3.2305e-08,  2.3283e-10,  ..., -1.7055e-07,
+          3.4925e-10,  6.7288e-07],
+        [ 5.2992e-07,  5.1572e-08, -1.6880e-09,  ...,  1.5250e-08,
+          5.8208e-11, -2.2119e-09],
+        [ 3.5623e-08,  3.4925e-09,  3.4925e-10,  ...,  1.7229e-08,
+          1.0477e-09,  1.2864e-08]], device='cuda:0')
+Epoch 259, bias, value: tensor([ 0.0331, -0.0308, -0.0076,  0.0152,  0.0011, -0.0171,  0.0045,  0.0145,
+        -0.0258,  0.0093], device='cuda:0'), grad: tensor([ 1.6869e-07,  1.2219e-06,  4.3064e-06,  1.4845e-06,  1.8743e-07,
+         8.2655e-09,  1.2666e-07, -1.3299e-05,  5.4725e-06,  3.1595e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 258, time 217.49, cls_loss 0.0007 cls_loss_mapping 0.0022 cls_loss_causal 0.5077 re_mapping 0.0031 re_causal 0.0104 /// teacc 99.11 lr 0.00010000
+Epoch 260, weight, value: tensor([[ 0.0150, -0.0791,  0.0059,  ..., -0.1110, -0.1402, -0.1165],
+        [-0.1198,  0.0671, -0.1156,  ..., -0.1371, -0.1369, -0.1880],
+        [-0.0890, -0.1421, -0.1538,  ..., -0.2036, -0.1373,  0.1570],
+        ...,
+        [ 0.0829, -0.0572, -0.1160,  ...,  0.0956, -0.1193, -0.1263],
+        [ 0.1221,  0.0994,  0.0747,  ..., -0.2024, -0.1088,  0.0835],
+        [ 0.0610,  0.0307,  0.0984,  ...,  0.0494, -0.0843,  0.0047]],
+       device='cuda:0'), grad: tensor([[-3.0245e-07,  7.4040e-08,  3.1607e-08,  ...,  1.2980e-08,
+         -5.6170e-08,  1.1583e-07],
+        [ 1.7392e-07,  9.8487e-08,  5.1281e-08,  ...,  8.1374e-08,
+          2.2294e-08,  1.3364e-07],
+        [ 1.8673e-07,  1.1129e-07,  5.4250e-08,  ...,  1.1589e-07,
+          1.8394e-08,  9.4296e-08],
+        ...,
+        [ 2.4145e-07,  2.3155e-07,  1.1834e-07,  ..., -1.2829e-07,
+         -7.1595e-09,  1.5064e-07],
+        [-1.3337e-06, -1.5190e-06, -6.4308e-07,  ...,  1.0186e-08,
+         -6.0396e-07, -2.0638e-06],
+        [ 1.2061e-07, -8.6729e-09,  2.2992e-08,  ..., -2.0489e-07,
+          6.0943e-08,  1.5018e-07]], device='cuda:0')
+Epoch 260, bias, value: tensor([ 0.0332, -0.0308, -0.0062,  0.0141,  0.0011, -0.0179,  0.0053,  0.0145,
+        -0.0258,  0.0094], device='cuda:0'), grad: tensor([-2.8927e-06,  7.8930e-07,  5.7602e-07,  1.0896e-06,  2.5588e-07,
+         8.8988e-07,  3.1777e-06,  5.9884e-07, -5.4613e-06,  9.5181e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 259, time 217.71, cls_loss 0.0008 cls_loss_mapping 0.0019 cls_loss_causal 0.4767 re_mapping 0.0030 re_causal 0.0099 /// teacc 99.11 lr 0.00010000
+Epoch 261, weight, value: tensor([[ 0.0153, -0.0791,  0.0060,  ..., -0.1112, -0.1410, -0.1172],
+        [-0.1200,  0.0672, -0.1157,  ..., -0.1371, -0.1372, -0.1882],
+        [-0.0892, -0.1426, -0.1543,  ..., -0.2038, -0.1379,  0.1577],
+        ...,
+        [ 0.0829, -0.0572, -0.1161,  ...,  0.0956, -0.1213, -0.1265],
+        [ 0.1221,  0.0996,  0.0751,  ..., -0.2024, -0.1090,  0.0836],
+        [ 0.0610,  0.0307,  0.0985,  ...,  0.0492, -0.0848,  0.0041]],
+       device='cuda:0'), grad: tensor([[ 1.0477e-09,  2.1537e-09,  7.5670e-10,  ...,  6.4611e-09,
+          6.0536e-09,  9.0804e-09],
+        [ 3.2946e-08, -5.7975e-08,  8.7311e-10,  ...,  9.7789e-09,
+          2.7940e-09,  3.4168e-08],
+        [-2.1642e-07,  6.6939e-09,  7.5670e-10,  ...,  2.0373e-09,
+          8.1491e-10, -2.3167e-07],
+        ...,
+        [ 1.9616e-07,  7.2119e-08,  1.2515e-08,  ...,  7.5088e-08,
+          1.9209e-09,  1.7486e-07],
+        [ 4.1910e-09,  5.8208e-10, -1.5716e-09,  ...,  3.3178e-09,
+          8.1491e-09,  8.3819e-09],
+        [-4.5053e-08, -3.7777e-08, -2.1071e-08,  ..., -5.9837e-08,
+          1.8685e-08,  2.2235e-08]], device='cuda:0')
+Epoch 261, bias, value: tensor([ 0.0332, -0.0308, -0.0056,  0.0139,  0.0013, -0.0179,  0.0053,  0.0145,
+        -0.0258,  0.0092], device='cuda:0'), grad: tensor([ 6.6066e-08,  3.9465e-08, -1.7695e-06,  6.1118e-08,  2.4855e-08,
+        -1.8300e-07, -2.6193e-09,  1.6550e-06,  9.4820e-08,  2.4680e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 260, time 217.58, cls_loss 0.0009 cls_loss_mapping 0.0027 cls_loss_causal 0.4826 re_mapping 0.0029 re_causal 0.0098 /// teacc 99.11 lr 0.00010000
+Epoch 262, weight, value: tensor([[ 0.0160, -0.0791,  0.0061,  ..., -0.1114, -0.1408, -0.1170],
+        [-0.1221,  0.0671, -0.1158,  ..., -0.1373, -0.1377, -0.1887],
+        [-0.0895, -0.1427, -0.1550,  ..., -0.2041, -0.1390,  0.1583],
+        ...,
+        [ 0.0829, -0.0572, -0.1164,  ...,  0.0954, -0.1244, -0.1272],
+        [ 0.1221,  0.0997,  0.0751,  ..., -0.2024, -0.1100,  0.0835],
+        [ 0.0609,  0.0309,  0.0991,  ...,  0.0493, -0.0859,  0.0029]],
+       device='cuda:0'), grad: tensor([[ 1.3213e-08,  9.0222e-09,  3.4343e-09,  ...,  4.8894e-09,
+          1.4133e-07,  1.4016e-07],
+        [ 1.4843e-08, -6.5833e-08,  6.5775e-09,  ...,  1.5774e-08,
+          4.7148e-09,  2.0314e-08],
+        [ 5.1805e-08,  1.1874e-07,  5.2212e-08,  ...,  1.7462e-08,
+          4.9477e-09,  1.1857e-07],
+        ...,
+        [-4.8138e-08,  2.5670e-08,  1.7462e-09,  ..., -9.0455e-08,
+         -4.8312e-09, -6.1118e-09],
+        [-7.6718e-08, -1.8138e-07, -1.0111e-07,  ...,  1.0827e-08,
+          5.6403e-08, -1.9232e-07],
+        [ 2.1595e-08,  5.2853e-08,  1.3970e-08,  ..., -7.5670e-10,
+          1.0477e-09,  6.5716e-08]], device='cuda:0')
+Epoch 262, bias, value: tensor([ 0.0334, -0.0314, -0.0054,  0.0116,  0.0019, -0.0177,  0.0053,  0.0145,
+        -0.0258,  0.0090], device='cuda:0'), grad: tensor([ 3.2946e-07, -4.1118e-07,  4.4657e-07,  4.4645e-08,  1.3877e-07,
+         6.6415e-08, -4.4028e-07,  1.5891e-08, -4.1025e-07,  2.2887e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 261, time 217.53, cls_loss 0.0007 cls_loss_mapping 0.0016 cls_loss_causal 0.4927 re_mapping 0.0031 re_causal 0.0102 /// teacc 99.03 lr 0.00010000
+Epoch 263, weight, value: tensor([[ 0.0157, -0.0793,  0.0055,  ..., -0.1118, -0.1419, -0.1179],
+        [-0.1222,  0.0671, -0.1159,  ..., -0.1373, -0.1379, -0.1886],
+        [-0.0895, -0.1433, -0.1562,  ..., -0.2045, -0.1398,  0.1584],
+        ...,
+        [ 0.0829, -0.0573, -0.1166,  ...,  0.0954, -0.1253, -0.1274],
+        [ 0.1221,  0.0998,  0.0753,  ..., -0.2025, -0.1105,  0.0835],
+        [ 0.0611,  0.0310,  0.0999,  ...,  0.0492, -0.0862,  0.0025]],
+       device='cuda:0'), grad: tensor([[ 2.9826e-07,  4.7451e-07,  5.2294e-07,  ...,  5.1409e-07,
+          1.5949e-08,  2.4331e-08],
+        [ 5.4482e-08,  1.8801e-08,  5.3493e-08,  ...,  7.9395e-08,
+          3.3178e-09,  1.7346e-08],
+        [-7.5495e-08,  2.2759e-08,  1.7171e-08,  ...,  2.3167e-08,
+          3.7253e-09, -2.6263e-07],
+        ...,
+        [ 1.3988e-06,  2.2706e-06,  2.4885e-06,  ...,  2.3860e-06,
+          5.8208e-10,  6.6764e-08],
+        [ 6.4378e-08,  7.1421e-08,  7.6368e-08,  ...,  9.2667e-08,
+          5.6403e-08,  1.1391e-07],
+        [-4.0084e-06, -6.4336e-06, -7.1079e-06,  ..., -6.9700e-06,
+          3.3760e-09,  4.3306e-08]], device='cuda:0')
+Epoch 263, bias, value: tensor([ 0.0332, -0.0313, -0.0055,  0.0116,  0.0021, -0.0177,  0.0053,  0.0145,
+        -0.0258,  0.0090], device='cuda:0'), grad: tensor([ 6.1579e-06,  3.5623e-07, -1.0087e-07,  1.5631e-05,  3.0873e-07,
+        -5.8711e-05,  3.4412e-07,  1.5222e-05,  4.4346e-05, -2.3484e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 262, time 217.40, cls_loss 0.0007 cls_loss_mapping 0.0020 cls_loss_causal 0.5273 re_mapping 0.0031 re_causal 0.0105 /// teacc 99.00 lr 0.00010000
+Epoch 264, weight, value: tensor([[ 0.0156, -0.0794,  0.0052,  ..., -0.1121, -0.1427, -0.1186],
+        [-0.1224,  0.0672, -0.1160,  ..., -0.1374, -0.1381, -0.1887],
+        [-0.0890, -0.1439, -0.1568,  ..., -0.2050, -0.1408,  0.1585],
+        ...,
+        [ 0.0829, -0.0573, -0.1168,  ...,  0.0955, -0.1258, -0.1275],
+        [ 0.1221,  0.0999,  0.0756,  ..., -0.2025, -0.1106,  0.0833],
+        [ 0.0611,  0.0311,  0.1004,  ...,  0.0491, -0.0867,  0.0020]],
+       device='cuda:0'), grad: tensor([[ 3.1898e-08,  2.5844e-08,  1.0536e-08,  ...,  2.0955e-08,
+          3.1199e-08,  4.2317e-08],
+        [ 1.2564e-06,  1.3330e-08,  2.1770e-08,  ...,  1.3476e-06,
+          3.8010e-08,  9.5519e-08],
+        [ 1.8091e-07,  1.1956e-07,  7.1246e-08,  ...,  1.3551e-07,
+          4.8429e-08,  1.6787e-07],
+        ...,
+        [-1.8589e-06,  4.3074e-08,  2.3807e-08,  ..., -2.3581e-06,
+          3.7020e-08,  4.3714e-08],
+        [-5.7882e-07, -4.2072e-07, -2.5169e-07,  ...,  1.8219e-08,
+         -1.2224e-09, -6.3656e-07],
+        [ 6.4308e-07,  2.0955e-08, -8.2073e-09,  ...,  8.8941e-07,
+          1.0402e-07,  8.2247e-08]], device='cuda:0')
+Epoch 264, bias, value: tensor([ 0.0331, -0.0313, -0.0054,  0.0117,  0.0022, -0.0173,  0.0050,  0.0145,
+        -0.0259,  0.0090], device='cuda:0'), grad: tensor([ 2.6589e-07,  4.1053e-06,  1.0123e-06,  4.9546e-07, -2.0314e-07,
+        -2.4345e-06,  2.0694e-06, -6.2659e-06, -1.8319e-06,  2.7902e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 263, time 217.57, cls_loss 0.0006 cls_loss_mapping 0.0015 cls_loss_causal 0.4541 re_mapping 0.0031 re_causal 0.0103 /// teacc 99.06 lr 0.00010000
+Epoch 265, weight, value: tensor([[ 0.0155, -0.0794,  0.0050,  ..., -0.1123, -0.1435, -0.1194],
+        [-0.1226,  0.0673, -0.1161,  ..., -0.1375, -0.1382, -0.1888],
+        [-0.0893, -0.1444, -0.1577,  ..., -0.2055, -0.1411,  0.1585],
+        ...,
+        [ 0.0829, -0.0574, -0.1169,  ...,  0.0956, -0.1261, -0.1275],
+        [ 0.1221,  0.1001,  0.0758,  ..., -0.2025, -0.1110,  0.0834],
+        [ 0.0612,  0.0311,  0.1007,  ...,  0.0489, -0.0877,  0.0013]],
+       device='cuda:0'), grad: tensor([[-1.8277e-08,  1.4319e-08,  4.3074e-09,  ...,  4.3074e-09,
+          9.0804e-09,  7.5088e-09],
+        [ 4.9477e-09,  2.9744e-08,  8.4983e-09,  ...,  1.3039e-08,
+          6.5076e-08,  4.9942e-08],
+        [ 2.4098e-08,  1.3912e-08,  2.7940e-09,  ...,  1.0361e-08,
+          2.1537e-09,  2.2817e-08],
+        ...,
+        [-3.0850e-09,  7.0664e-08,  1.4435e-08,  ..., -1.1583e-08,
+          1.1642e-10,  2.3283e-09],
+        [-2.1013e-08,  5.6461e-08,  1.0303e-08,  ...,  9.6043e-09,
+          4.0745e-09, -3.4925e-08],
+        [-3.4343e-09,  1.0937e-07, -9.8953e-09,  ..., -1.1409e-08,
+          4.6566e-10,  1.9209e-09]], device='cuda:0')
+Epoch 265, bias, value: tensor([ 0.0330, -0.0313, -0.0056,  0.0117,  0.0024, -0.0173,  0.0050,  0.0145,
+        -0.0259,  0.0089], device='cuda:0'), grad: tensor([-4.9942e-08,  2.1036e-07,  8.7370e-08, -1.2353e-05,  1.0344e-07,
+         1.1437e-05, -1.2678e-07,  2.0687e-07,  1.2293e-07,  3.5437e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 264, time 217.56, cls_loss 0.0007 cls_loss_mapping 0.0013 cls_loss_causal 0.4823 re_mapping 0.0030 re_causal 0.0099 /// teacc 99.05 lr 0.00010000
+Epoch 266, weight, value: tensor([[ 0.0159, -0.0794,  0.0050,  ..., -0.1124, -0.1431, -0.1192],
+        [-0.1227,  0.0677, -0.1162,  ..., -0.1375, -0.1384, -0.1890],
+        [-0.0896, -0.1450, -0.1587,  ..., -0.2058, -0.1415,  0.1585],
+        ...,
+        [ 0.0829, -0.0578, -0.1170,  ...,  0.0956, -0.1262, -0.1276],
+        [ 0.1221,  0.1004,  0.0761,  ..., -0.2025, -0.1111,  0.0836],
+        [ 0.0612,  0.0312,  0.1010,  ...,  0.0490, -0.0878,  0.0013]],
+       device='cuda:0'), grad: tensor([[-9.4995e-08,  9.3714e-09, -9.1386e-09,  ...,  1.1176e-08,
+          1.4377e-08,  2.7532e-08],
+        [ 6.7288e-08,  1.1933e-07,  7.2119e-08,  ...,  1.2584e-07,
+          8.6147e-09,  3.5157e-08],
+        [ 9.5519e-08,  1.7066e-07,  4.2492e-09,  ...,  7.1130e-08,
+          2.1537e-09,  3.5483e-07],
+        ...,
+        [-2.4168e-07,  6.3505e-08,  2.4214e-08,  ..., -5.1595e-07,
+          2.7940e-09,  3.6904e-08],
+        [-6.2631e-08, -2.7427e-07,  8.0327e-09,  ...,  1.5541e-08,
+          2.0256e-08, -6.2212e-07],
+        [ 1.4494e-07,  7.5670e-10, -1.2224e-08,  ...,  2.4750e-07,
+          1.9732e-08,  3.1840e-08]], device='cuda:0')
+Epoch 266, bias, value: tensor([ 0.0332, -0.0310, -0.0059,  0.0120,  0.0023, -0.0173,  0.0050,  0.0144,
+        -0.0259,  0.0089], device='cuda:0'), grad: tensor([-4.2748e-07,  7.5344e-07,  2.5760e-06,  1.2806e-07,  7.8988e-08,
+         1.2154e-06, -5.9046e-07, -6.3563e-07, -3.9600e-06,  8.6986e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 265, time 217.74, cls_loss 0.0007 cls_loss_mapping 0.0015 cls_loss_causal 0.4855 re_mapping 0.0029 re_causal 0.0100 /// teacc 99.05 lr 0.00010000
+Epoch 267, weight, value: tensor([[ 0.0160, -0.0795,  0.0049,  ..., -0.1126, -0.1440, -0.1197],
+        [-0.1231,  0.0678, -0.1163,  ..., -0.1376, -0.1385, -0.1892],
+        [-0.0900, -0.1453, -0.1595,  ..., -0.2070, -0.1417,  0.1587],
+        ...,
+        [ 0.0829, -0.0580, -0.1171,  ...,  0.0956, -0.1264, -0.1276],
+        [ 0.1221,  0.0997,  0.0754,  ..., -0.2025, -0.1113,  0.0836],
+        [ 0.0613,  0.0314,  0.1012,  ...,  0.0491, -0.0878,  0.0013]],
+       device='cuda:0'), grad: tensor([[-1.0594e-07,  6.4611e-09, -2.3749e-08,  ...,  3.3760e-09,
+          3.5507e-09,  1.0477e-08],
+        [ 7.6252e-09,  3.1549e-08,  4.9302e-08,  ...,  5.3551e-09,
+          2.9686e-09,  4.0513e-08],
+        [ 3.1723e-08,  5.1048e-08,  3.0443e-08,  ...,  3.2596e-09,
+          2.2701e-09,  1.1933e-08],
+        ...,
+        [ 3.0268e-09,  1.8568e-08,  6.9267e-09,  ...,  1.2864e-08,
+          1.2573e-08,  2.0606e-08],
+        [-9.6101e-08, -2.9989e-07, -2.3772e-07,  ...,  2.7940e-09,
+         -1.9209e-09, -2.8824e-07],
+        [ 5.8499e-08,  1.8510e-08,  2.5379e-08,  ...,  2.0722e-08,
+          2.1071e-08,  2.9802e-08]], device='cuda:0')
+Epoch 267, bias, value: tensor([ 0.0331, -0.0310, -0.0059,  0.0125,  0.0021, -0.0172,  0.0050,  0.0144,
+        -0.0259,  0.0090], device='cuda:0'), grad: tensor([-3.4901e-07,  3.7020e-07,  6.7172e-08, -3.9290e-08, -4.9302e-08,
+         3.6042e-07,  2.8219e-07,  1.2084e-07, -1.1269e-06,  3.6927e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 266, time 217.84, cls_loss 0.0007 cls_loss_mapping 0.0022 cls_loss_causal 0.5195 re_mapping 0.0028 re_causal 0.0100 /// teacc 99.10 lr 0.00010000
+Epoch 268, weight, value: tensor([[ 0.0162, -0.0795,  0.0051,  ..., -0.1129, -0.1447, -0.1202],
+        [-0.1236,  0.0680, -0.1164,  ..., -0.1377, -0.1388, -0.1893],
+        [-0.0902, -0.1459, -0.1600,  ..., -0.2079, -0.1421,  0.1588],
+        ...,
+        [ 0.0829, -0.0581, -0.1172,  ...,  0.0957, -0.1266, -0.1276],
+        [ 0.1221,  0.0998,  0.0755,  ..., -0.2025, -0.1120,  0.0837],
+        [ 0.0613,  0.0315,  0.1014,  ...,  0.0491, -0.0880,  0.0013]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  5.1688e-08,  5.6229e-08,  ...,  1.0710e-08,
+          2.6193e-09,  8.9116e-08],
+        [ 8.9058e-09, -1.5716e-07,  2.2992e-08,  ...,  1.0652e-08,
+          6.9849e-10,  3.7253e-09],
+        [ 1.3504e-08,  1.3039e-07,  9.4413e-08,  ...,  8.2655e-09,
+          1.7462e-10,  1.0943e-08],
+        ...,
+        [ 6.8685e-09,  2.8266e-07,  1.4366e-07,  ...,  2.6193e-08,
+          2.9104e-10,  1.0768e-08],
+        [-9.0688e-08,  3.4575e-08,  1.5716e-09,  ...,  8.9058e-09,
+          8.0909e-09, -1.7416e-07],
+        [-3.1549e-08, -2.2585e-08, -1.7462e-10,  ..., -1.1240e-07,
+          5.5297e-09,  3.9348e-08]], device='cuda:0')
+Epoch 268, bias, value: tensor([ 0.0332, -0.0310, -0.0062,  0.0124,  0.0019, -0.0172,  0.0050,  0.0145,
+        -0.0259,  0.0090], device='cuda:0'), grad: tensor([ 1.7439e-07, -3.4412e-07,  5.4762e-07, -2.2370e-06,  1.5134e-07,
+         8.3447e-07, -7.5786e-08,  9.5554e-07, -2.4156e-08,  3.5274e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 267, time 217.47, cls_loss 0.0008 cls_loss_mapping 0.0016 cls_loss_causal 0.4897 re_mapping 0.0029 re_causal 0.0099 /// teacc 99.15 lr 0.00010000
+Epoch 269, weight, value: tensor([[ 0.0164, -0.0795,  0.0050,  ..., -0.1132, -0.1451, -0.1209],
+        [-0.1241,  0.0681, -0.1166,  ..., -0.1378, -0.1389, -0.1871],
+        [-0.0906, -0.1463, -0.1614,  ..., -0.2085, -0.1425,  0.1591],
+        ...,
+        [ 0.0830, -0.0582, -0.1174,  ...,  0.0958, -0.1268, -0.1276],
+        [ 0.1221,  0.1000,  0.0760,  ..., -0.2025, -0.1120,  0.0831],
+        [ 0.0613,  0.0315,  0.1014,  ...,  0.0492, -0.0882,  0.0011]],
+       device='cuda:0'), grad: tensor([[-4.4121e-08,  7.0431e-09,  2.9686e-09,  ...,  1.4959e-08,
+          3.0675e-08,  2.9395e-08],
+        [ 3.3760e-08, -3.6671e-09,  6.7521e-09,  ...,  6.1700e-08,
+          1.8743e-08,  2.2934e-08],
+        [ 3.1607e-08,  1.3213e-08,  6.2282e-09,  ...,  3.9930e-08,
+          1.3039e-08,  1.2806e-08],
+        ...,
+        [-7.3342e-08,  3.2887e-08,  1.4086e-08,  ..., -8.9407e-08,
+          2.2061e-08,  3.1432e-08],
+        [-2.3923e-08, -6.7870e-08, -3.8766e-08,  ...,  2.1770e-08,
+          3.8068e-08, -2.2235e-08],
+        [ 1.0361e-08,  1.0233e-07,  1.5658e-08,  ...,  1.2526e-06,
+          7.0827e-07,  7.6788e-07]], device='cuda:0')
+Epoch 269, bias, value: tensor([ 0.0331, -0.0304, -0.0062,  0.0128,  0.0018, -0.0172,  0.0049,  0.0145,
+        -0.0261,  0.0089], device='cuda:0'), grad: tensor([-1.1566e-07,  2.0314e-07,  1.9395e-07,  1.4692e-07, -2.8200e-06,
+         2.4401e-07, -2.1292e-07, -3.5809e-07, -2.3516e-08,  2.7623e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 268, time 217.66, cls_loss 0.0007 cls_loss_mapping 0.0015 cls_loss_causal 0.4881 re_mapping 0.0029 re_causal 0.0099 /// teacc 99.15 lr 0.00010000
+Epoch 270, weight, value: tensor([[ 0.0165, -0.0796,  0.0049,  ..., -0.1133, -0.1482, -0.1237],
+        [-0.1244,  0.0687, -0.1165,  ..., -0.1379, -0.1391, -0.1872],
+        [-0.0908, -0.1467, -0.1620,  ..., -0.2091, -0.1435,  0.1597],
+        ...,
+        [ 0.0830, -0.0586, -0.1175,  ...,  0.0958, -0.1274, -0.1277],
+        [ 0.1221,  0.1002,  0.0763,  ..., -0.2025, -0.1122,  0.0831],
+        [ 0.0613,  0.0315,  0.1016,  ...,  0.0491, -0.0886,  0.0008]],
+       device='cuda:0'), grad: tensor([[ 5.8790e-09,  3.4343e-08,  2.5611e-08,  ...,  3.4459e-08,
+          3.6089e-09,  4.9418e-08],
+        [ 5.1630e-08,  6.7346e-08,  4.2608e-08,  ...,  3.8475e-08,
+          1.4959e-08,  1.4389e-07],
+        [ 5.4017e-08,  8.3004e-08,  4.3015e-08,  ...,  1.6415e-08,
+          4.8894e-09, -5.7789e-07],
+        ...,
+        [ 6.6939e-08,  8.2247e-08,  6.6357e-08,  ...,  7.1246e-08,
+          2.4156e-08,  1.0827e-07],
+        [-3.3854e-07, -6.6590e-07, -3.5227e-07,  ...,  1.5949e-08,
+          3.7253e-09, -2.7940e-07],
+        [-7.0315e-08,  2.0547e-08, -3.4808e-08,  ...,  3.5670e-07,
+          3.1502e-07,  3.5809e-07]], device='cuda:0')
+Epoch 270, bias, value: tensor([ 0.0326, -0.0301, -0.0060,  0.0126,  0.0019, -0.0172,  0.0050,  0.0145,
+        -0.0261,  0.0087], device='cuda:0'), grad: tensor([ 2.9104e-07,  8.9407e-07, -4.3511e-06,  1.5115e-06, -9.7789e-07,
+         8.3353e-07,  4.8475e-07,  7.9442e-07, -7.5344e-07,  1.2740e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 269, time 217.60, cls_loss 0.0009 cls_loss_mapping 0.0019 cls_loss_causal 0.4729 re_mapping 0.0029 re_causal 0.0094 /// teacc 99.05 lr 0.00010000
+Epoch 271, weight, value: tensor([[ 0.0166, -0.0797,  0.0047,  ..., -0.1137, -0.1484, -0.1244],
+        [-0.1251,  0.0690, -0.1167,  ..., -0.1381, -0.1395, -0.1874],
+        [-0.0912, -0.1475, -0.1641,  ..., -0.2097, -0.1440,  0.1601],
+        ...,
+        [ 0.0830, -0.0587, -0.1176,  ...,  0.0959, -0.1276, -0.1278],
+        [ 0.1221,  0.0973,  0.0737,  ..., -0.2025, -0.1151,  0.0802],
+        [ 0.0612,  0.0316,  0.1020,  ...,  0.0489, -0.0887,  0.0007]],
+       device='cuda:0'), grad: tensor([[ 2.6543e-08,  2.0431e-08,  1.5483e-08,  ...,  1.5425e-08,
+          3.8999e-09,  7.7533e-08],
+        [ 6.7870e-08,  3.5798e-08,  3.0443e-08,  ...,  3.3469e-08,
+          1.4552e-09,  4.2084e-08],
+        [ 7.8988e-08,  2.5146e-08,  1.0070e-08,  ...,  5.9546e-08,
+          5.8208e-10, -5.6403e-08],
+        ...,
+        [-1.9581e-07,  3.7719e-08,  1.7812e-08,  ..., -1.8557e-07,
+          0.0000e+00,  1.4319e-08],
+        [-6.6182e-08, -2.7358e-07, -7.3516e-08,  ...,  8.5158e-08,
+          3.1432e-09, -1.5809e-07],
+        [-1.1438e-07, -8.3935e-08, -1.2026e-07,  ..., -7.0722e-08,
+          9.3132e-10, -7.0722e-08]], device='cuda:0')
+Epoch 271, bias, value: tensor([ 0.0325, -0.0299, -0.0062,  0.0122,  0.0019, -0.0171,  0.0065,  0.0145,
+        -0.0274,  0.0086], device='cuda:0'), grad: tensor([ 5.3085e-07,  2.0838e-07, -2.0955e-07,  1.4307e-07,  1.5763e-07,
+         5.8999e-07,  2.7125e-08, -5.1036e-07, -7.5065e-07, -1.6834e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 270, time 217.72, cls_loss 0.0007 cls_loss_mapping 0.0019 cls_loss_causal 0.4748 re_mapping 0.0032 re_causal 0.0101 /// teacc 99.14 lr 0.00010000
+Epoch 272, weight, value: tensor([[ 0.0179, -0.0797,  0.0046,  ..., -0.1139, -0.1486, -0.1249],
+        [-0.1255,  0.0691, -0.1168,  ..., -0.1382, -0.1414, -0.1877],
+        [-0.0920, -0.1478, -0.1655,  ..., -0.2106, -0.1449,  0.1601],
+        ...,
+        [ 0.0830, -0.0588, -0.1177,  ...,  0.0960, -0.1281, -0.1278],
+        [ 0.1221,  0.0973,  0.0738,  ..., -0.2025, -0.1152,  0.0802],
+        [ 0.0611,  0.0316,  0.1022,  ...,  0.0487, -0.0891,  0.0003]],
+       device='cuda:0'), grad: tensor([[ 4.8720e-08,  9.8196e-08,  3.9756e-08,  ...,  5.9314e-08,
+          4.6566e-09,  3.3586e-08],
+        [ 5.6461e-08,  1.2212e-07,  2.9220e-08,  ...,  8.0618e-08,
+          1.1176e-08,  1.7637e-08],
+        [ 2.6077e-08,  7.1828e-08,  1.9441e-08,  ...,  1.7695e-08,
+          3.6089e-09,  7.9744e-09],
+        ...,
+        [-2.6077e-08,  1.1967e-07,  4.4063e-08,  ..., -4.6624e-08,
+          3.1723e-08,  3.0559e-08],
+        [ 6.0129e-08,  2.0652e-07,  8.6613e-08,  ...,  1.2037e-07,
+          3.1432e-09,  4.2026e-08],
+        [-5.3179e-07, -4.7963e-07, -3.7020e-07,  ..., -5.2853e-07,
+          3.0850e-08, -3.5577e-07]], device='cuda:0')
+Epoch 272, bias, value: tensor([ 0.0327, -0.0300, -0.0065,  0.0117,  0.0022, -0.0171,  0.0065,  0.0145,
+        -0.0275,  0.0083], device='cuda:0'), grad: tensor([ 4.2794e-07,  5.6066e-07,  3.0175e-07, -3.0193e-06,  5.6112e-07,
+         1.9111e-06,  2.0780e-07,  3.0291e-07,  9.3831e-07, -2.1923e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 271, time 217.48, cls_loss 0.0009 cls_loss_mapping 0.0022 cls_loss_causal 0.4561 re_mapping 0.0028 re_causal 0.0091 /// teacc 99.14 lr 0.00010000
+Epoch 273, weight, value: tensor([[ 0.0179, -0.0798,  0.0043,  ..., -0.1142, -0.1488, -0.1255],
+        [-0.1260,  0.0692, -0.1169,  ..., -0.1384, -0.1420, -0.1879],
+        [-0.0939, -0.1483, -0.1661,  ..., -0.2135, -0.1457,  0.1601],
+        ...,
+        [ 0.0831, -0.0589, -0.1179,  ...,  0.0961, -0.1283, -0.1279],
+        [ 0.1221,  0.0974,  0.0739,  ..., -0.2025, -0.1152,  0.0802],
+        [ 0.0613,  0.0317,  0.1028,  ...,  0.0488, -0.0895,  0.0004]],
+       device='cuda:0'), grad: tensor([[-8.4983e-09,  1.5425e-08,  1.0419e-08,  ...,  2.1246e-08,
+          4.4238e-09,  9.1968e-09],
+        [ 1.6880e-08, -5.0582e-08,  4.7730e-09,  ...,  2.6193e-08,
+         -5.2387e-10,  4.8894e-09],
+        [ 2.8987e-08,  5.4715e-09,  4.6566e-10,  ...,  4.4587e-08,
+          4.6566e-10, -4.0745e-10],
+        ...,
+        [-2.3865e-09,  5.6927e-08,  3.4284e-08,  ..., -9.6043e-09,
+          6.9849e-10,  3.0384e-08],
+        [ 6.2864e-09,  7.7416e-09,  3.7253e-09,  ...,  1.0128e-08,
+          7.2760e-09,  6.1118e-09],
+        [-1.7090e-07, -1.7835e-07, -1.6298e-07,  ..., -4.6683e-07,
+          1.1059e-09, -9.3540e-08]], device='cuda:0')
+Epoch 273, bias, value: tensor([ 0.0326, -0.0300, -0.0084,  0.0118,  0.0023, -0.0170,  0.0065,  0.0147,
+        -0.0275,  0.0084], device='cuda:0'), grad: tensor([-1.3737e-08, -1.3993e-07,  1.4668e-07,  5.1514e-08,  4.6450e-07,
+         8.7963e-07, -9.0688e-08,  9.0105e-08,  6.9558e-08, -1.4640e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 272, time 217.56, cls_loss 0.0008 cls_loss_mapping 0.0025 cls_loss_causal 0.4633 re_mapping 0.0030 re_causal 0.0096 /// teacc 99.16 lr 0.00010000
+Epoch 274, weight, value: tensor([[ 0.0159, -0.0799,  0.0031,  ..., -0.1169, -0.1490, -0.1262],
+        [-0.1267,  0.0694, -0.1173,  ..., -0.1385, -0.1422, -0.1880],
+        [-0.0945, -0.1489, -0.1675,  ..., -0.2140, -0.1464,  0.1602],
+        ...,
+        [ 0.0831, -0.0592, -0.1189,  ...,  0.0961, -0.1284, -0.1280],
+        [ 0.1221,  0.0974,  0.0740,  ..., -0.2026, -0.1152,  0.0802],
+        [ 0.0623,  0.0325,  0.1065,  ...,  0.0507, -0.0879,  0.0027]],
+       device='cuda:0'), grad: tensor([[ 2.7649e-09,  1.9267e-08,  5.1514e-09,  ...,  1.4406e-08,
+          1.4156e-07,  1.4075e-07],
+        [ 2.1362e-08,  6.6881e-08,  2.4738e-09,  ...,  3.3266e-08,
+          4.5693e-09,  4.8312e-08],
+        [ 1.1671e-08,  5.9430e-08,  6.1118e-10,  ...,  3.6904e-08,
+          1.1083e-07,  1.3935e-07],
+        ...,
+        [-1.0116e-07,  2.6147e-07,  1.9762e-08,  ..., -1.4005e-07,
+          5.1805e-09,  4.0542e-08],
+        [ 2.8958e-08, -7.7020e-07,  6.3737e-09,  ...,  3.7107e-08,
+          2.8260e-08, -2.1625e-06],
+        [-2.3516e-08, -4.4180e-08, -6.3097e-08,  ...,  2.0722e-08,
+          2.6193e-08,  5.0379e-08]], device='cuda:0')
+Epoch 274, bias, value: tensor([ 0.0321, -0.0299, -0.0086,  0.0126,  0.0004, -0.0171,  0.0065,  0.0147,
+        -0.0275,  0.0103], device='cuda:0'), grad: tensor([ 4.0466e-07,  4.7497e-07,  5.9512e-07, -2.0415e-06,  3.9255e-07,
+         5.2340e-06, -5.3411e-07,  7.8091e-07, -5.8301e-06,  5.0152e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 273, time 217.61, cls_loss 0.0010 cls_loss_mapping 0.0020 cls_loss_causal 0.4743 re_mapping 0.0029 re_causal 0.0098 /// teacc 99.13 lr 0.00010000
+Epoch 275, weight, value: tensor([[ 0.0160, -0.0800,  0.0029,  ..., -0.1171, -0.1491, -0.1266],
+        [-0.1270,  0.0695, -0.1176,  ..., -0.1386, -0.1424, -0.1881],
+        [-0.0950, -0.1494, -0.1688,  ..., -0.2151, -0.1470,  0.1603],
+        ...,
+        [ 0.0831, -0.0593, -0.1191,  ...,  0.0961, -0.1290, -0.1281],
+        [ 0.1222,  0.0974,  0.0741,  ..., -0.2026, -0.1152,  0.0802],
+        [ 0.0624,  0.0300,  0.1041,  ...,  0.0489, -0.0903,  0.0013]],
+       device='cuda:0'), grad: tensor([[ 7.6252e-09,  3.0152e-08,  1.4843e-08,  ...,  9.2259e-09,
+          4.1327e-09,  3.6671e-08],
+        [ 1.0402e-07,  4.9220e-07,  3.6176e-08,  ...,  8.4843e-07,
+          3.1269e-07,  4.1770e-07],
+        [ 1.4273e-07,  2.3481e-07,  1.4168e-07,  ...,  1.4174e-08,
+          3.3178e-09,  9.1968e-09],
+        ...,
+        [-1.6368e-07,  3.3848e-08,  1.1700e-08,  ..., -1.9977e-07,
+          7.4797e-09,  9.0571e-08],
+        [-3.8627e-07, -6.3609e-07, -4.1653e-07,  ...,  3.2538e-08,
+          9.6043e-10, -6.6357e-07],
+        [ 1.7590e-07,  3.1851e-06,  1.1653e-07,  ...,  4.6901e-06,
+          1.9260e-06,  2.2221e-06]], device='cuda:0')
+Epoch 275, bias, value: tensor([ 0.0321, -0.0299, -0.0090,  0.0127,  0.0022, -0.0172,  0.0065,  0.0147,
+        -0.0275,  0.0084], device='cuda:0'), grad: tensor([ 1.4878e-07,  1.9241e-06, -1.5250e-08,  9.3423e-09, -1.0632e-05,
+         2.3621e-07,  3.2643e-07, -1.8021e-07, -2.0973e-06,  1.0282e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 274, time 217.56, cls_loss 0.0006 cls_loss_mapping 0.0017 cls_loss_causal 0.4717 re_mapping 0.0031 re_causal 0.0098 /// teacc 99.16 lr 0.00010000
+Epoch 276, weight, value: tensor([[ 0.0160, -0.0800,  0.0027,  ..., -0.1175, -0.1492, -0.1269],
+        [-0.1279,  0.0694, -0.1180,  ..., -0.1388, -0.1430, -0.1885],
+        [-0.0951, -0.1498, -0.1697,  ..., -0.2153, -0.1475,  0.1607],
+        ...,
+        [ 0.0831, -0.0594, -0.1194,  ...,  0.0961, -0.1306, -0.1283],
+        [ 0.1222,  0.0975,  0.0742,  ..., -0.2026, -0.1152,  0.0802],
+        [ 0.0625,  0.0302,  0.1041,  ...,  0.0491, -0.0904,  0.0017]],
+       device='cuda:0'), grad: tensor([[-1.5704e-07,  1.3708e-08,  3.5128e-08,  ...,  5.7189e-08,
+          1.1933e-09,  4.5315e-08],
+        [ 4.1531e-08,  3.3877e-08,  2.0169e-08,  ...,  1.0565e-08,
+          9.3132e-10,  7.3342e-08],
+        [ 5.9430e-08,  8.6729e-08,  3.3615e-08,  ...,  4.9185e-09,
+          2.9104e-10,  1.3481e-07],
+        ...,
+        [ 3.8766e-08,  2.2206e-08,  2.2643e-08,  ...,  2.6135e-08,
+          3.2014e-10,  2.3778e-08],
+        [-1.5053e-07, -3.0035e-07, -1.1089e-07,  ...,  1.0419e-08,
+          6.6939e-10, -4.9453e-07],
+        [-4.8254e-08, -8.4110e-09, -7.1479e-08,  ..., -1.1129e-07,
+          1.4348e-08, -4.3277e-08]], device='cuda:0')
+Epoch 276, bias, value: tensor([ 0.0321, -0.0301, -0.0088,  0.0126,  0.0021, -0.0172,  0.0065,  0.0147,
+        -0.0275,  0.0086], device='cuda:0'), grad: tensor([-7.0594e-07,  1.8044e-07,  3.8673e-07, -9.2259e-09,  2.4884e-08,
+         2.8452e-07,  7.2736e-07,  1.7462e-07, -1.1120e-06,  5.2067e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 275, time 217.66, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4955 re_mapping 0.0031 re_causal 0.0102 /// teacc 99.20 lr 0.00010000
+Epoch 277, weight, value: tensor([[ 0.0161, -0.0802,  0.0023,  ..., -0.1178, -0.1495, -0.1272],
+        [-0.1282,  0.0695, -0.1183,  ..., -0.1389, -0.1431, -0.1886],
+        [-0.0950, -0.1502, -0.1706,  ..., -0.2155, -0.1479,  0.1609],
+        ...,
+        [ 0.0831, -0.0595, -0.1196,  ...,  0.0961, -0.1308, -0.1283],
+        [ 0.1222,  0.0974,  0.0741,  ..., -0.2026, -0.1152,  0.0803],
+        [ 0.0627,  0.0304,  0.1042,  ...,  0.0491, -0.0904,  0.0017]],
+       device='cuda:0'), grad: tensor([[-2.8958e-08,  4.4238e-09,  1.7462e-09,  ...,  2.7544e-07,
+          2.5448e-07,  1.3260e-07],
+        [ 5.1805e-09, -4.0251e-08,  2.9395e-09,  ...,  1.1420e-07,
+          6.5425e-08,  6.1409e-08],
+        [ 3.9698e-08,  7.5379e-09,  1.5134e-09,  ...,  2.2177e-07,
+          3.3731e-08, -1.7439e-07],
+        ...,
+        [-3.8213e-08,  1.7637e-08,  3.9872e-09,  ...,  6.0594e-08,
+          1.1560e-07,  3.4401e-08],
+        [-1.7521e-08, -3.9872e-09, -6.1118e-10,  ...,  4.4063e-08,
+          2.8289e-08,  1.5658e-07],
+        [ 8.5856e-09, -1.9209e-09, -2.0314e-08,  ...,  4.7162e-06,
+          2.5537e-06,  1.5004e-06]], device='cuda:0')
+Epoch 277, bias, value: tensor([ 0.0320, -0.0301, -0.0088,  0.0128,  0.0021, -0.0171,  0.0064,  0.0147,
+        -0.0275,  0.0086], device='cuda:0'), grad: tensor([ 6.3004e-07,  1.5250e-07, -3.0687e-07,  1.5262e-07, -2.0027e-05,
+        -2.2829e-07,  1.0505e-05,  1.9860e-07,  7.3295e-07,  8.1807e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 276, time 217.47, cls_loss 0.0007 cls_loss_mapping 0.0024 cls_loss_causal 0.4865 re_mapping 0.0031 re_causal 0.0100 /// teacc 99.12 lr 0.00010000
+Epoch 278, weight, value: tensor([[ 0.0165, -0.0803,  0.0021,  ..., -0.1180, -0.1495, -0.1274],
+        [-0.1293,  0.0695, -0.1188,  ..., -0.1391, -0.1433, -0.1890],
+        [-0.0961, -0.1517, -0.1720,  ..., -0.2160, -0.1484,  0.1610],
+        ...,
+        [ 0.0831, -0.0596, -0.1197,  ...,  0.0962, -0.1310, -0.1284],
+        [ 0.1222,  0.0976,  0.0743,  ..., -0.2026, -0.1153,  0.0803],
+        [ 0.0627,  0.0304,  0.1043,  ...,  0.0491, -0.0904,  0.0017]],
+       device='cuda:0'), grad: tensor([[-1.2829e-07, -1.6589e-09, -2.1042e-08,  ...,  8.7311e-09,
+          5.6345e-08,  4.3772e-08],
+        [ 2.3836e-08,  6.4203e-08,  2.0518e-08,  ...,  7.1828e-08,
+          8.8534e-08,  5.6985e-08],
+        [ 1.3009e-08,  9.6508e-08,  3.5885e-08,  ...,  2.3865e-08,
+          1.3184e-08, -1.6444e-08],
+        ...,
+        [-9.4296e-09,  7.2294e-08,  2.1333e-08,  ...,  1.8976e-08,
+          7.4564e-08,  5.0903e-08],
+        [ 3.5798e-08,  5.5443e-08,  2.5524e-08,  ...,  8.0036e-09,
+          3.3266e-08,  2.1479e-08],
+        [ 2.2672e-08,  5.2183e-08,  1.9209e-09,  ...,  5.9401e-08,
+          9.4646e-08,  5.5152e-08]], device='cuda:0')
+Epoch 278, bias, value: tensor([ 0.0322, -0.0302, -0.0090,  0.0124,  0.0021, -0.0171,  0.0064,  0.0147,
+        -0.0275,  0.0086], device='cuda:0'), grad: tensor([-7.2829e-07,  5.1083e-07,  3.3411e-07, -1.5218e-06, -6.6496e-07,
+         2.0105e-07,  3.6578e-07,  3.0361e-07,  6.2678e-07,  5.7882e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 277, time 217.45, cls_loss 0.0007 cls_loss_mapping 0.0023 cls_loss_causal 0.5230 re_mapping 0.0030 re_causal 0.0100 /// teacc 99.11 lr 0.00010000
+Epoch 279, weight, value: tensor([[ 0.0169, -0.0803,  0.0021,  ..., -0.1181, -0.1498, -0.1277],
+        [-0.1298,  0.0698, -0.1191,  ..., -0.1394, -0.1445, -0.1893],
+        [-0.0964, -0.1523, -0.1698,  ..., -0.2163, -0.1522,  0.1630],
+        ...,
+        [ 0.0832, -0.0598, -0.1199,  ...,  0.0963, -0.1316, -0.1285],
+        [ 0.1222,  0.0976,  0.0745,  ..., -0.2026, -0.1153,  0.0804],
+        [ 0.0627,  0.0304,  0.1042,  ...,  0.0491, -0.0905,  0.0016]],
+       device='cuda:0'), grad: tensor([[ 2.5029e-09,  8.0327e-08,  6.3796e-08,  ...,  5.1659e-08,
+          1.1874e-07,  1.2538e-07],
+        [ 2.2701e-08,  1.4348e-08,  4.6333e-08,  ...,  6.8627e-08,
+          4.1066e-08,  4.8836e-08],
+        [ 3.0617e-08,  5.6694e-08,  3.7253e-08,  ...,  9.6392e-08,
+          1.9529e-08,  2.5611e-09],
+        ...,
+        [-5.7975e-08,  3.1316e-08,  1.7521e-08,  ..., -2.5937e-07,
+          8.5274e-09,  3.2305e-09],
+        [-4.7177e-08, -1.9674e-08, -1.2224e-08,  ...,  6.6240e-08,
+          1.1188e-07,  4.0920e-08],
+        [ 1.5221e-08,  6.0536e-08,  4.8662e-08,  ...,  3.3382e-08,
+          3.1025e-08,  2.6979e-08]], device='cuda:0')
+Epoch 279, bias, value: tensor([ 0.0323, -0.0303, -0.0073,  0.0124,  0.0021, -0.0171,  0.0064,  0.0147,
+        -0.0275,  0.0085], device='cuda:0'), grad: tensor([ 9.0059e-07,  5.3272e-07,  5.3970e-07, -3.3379e-06,  2.2561e-07,
+         1.8384e-06, -1.0869e-06, -6.7847e-07,  5.2992e-07,  5.5134e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 278, time 217.39, cls_loss 0.0007 cls_loss_mapping 0.0018 cls_loss_causal 0.4738 re_mapping 0.0031 re_causal 0.0097 /// teacc 99.16 lr 0.00010000
+Epoch 280, weight, value: tensor([[ 0.0171, -0.0804,  0.0020,  ..., -0.1183, -0.1499, -0.1278],
+        [-0.1301,  0.0700, -0.1193,  ..., -0.1395, -0.1448, -0.1895],
+        [-0.0969, -0.1529, -0.1700,  ..., -0.2171, -0.1525,  0.1630],
+        ...,
+        [ 0.0832, -0.0600, -0.1200,  ...,  0.0963, -0.1319, -0.1285],
+        [ 0.1222,  0.0976,  0.0746,  ..., -0.2027, -0.1153,  0.0804],
+        [ 0.0628,  0.0306,  0.1043,  ...,  0.0493, -0.0904,  0.0017]],
+       device='cuda:0'), grad: tensor([[ 1.1700e-08,  1.4348e-08,  1.6880e-09,  ...,  1.3097e-09,
+          2.3923e-08,  2.3138e-08],
+        [ 1.1642e-08, -2.3702e-07,  5.5006e-09,  ...,  9.4587e-09,
+          5.6170e-09,  1.0565e-08],
+        [ 1.3766e-08,  1.1252e-07,  1.7084e-08,  ...,  1.4319e-08,
+          1.0594e-08,  1.4930e-08],
+        ...,
+        [-2.8522e-08,  1.0850e-07,  4.7148e-09,  ..., -3.6525e-08,
+          4.3656e-09,  7.3633e-09],
+        [ 9.1968e-09,  1.1059e-08, -2.2323e-08,  ...,  7.3633e-09,
+          6.7521e-08,  2.8289e-08],
+        [ 1.3941e-08,  1.7782e-08,  8.7311e-11,  ...,  1.8335e-08,
+          6.7230e-09,  8.0909e-09]], device='cuda:0')
+Epoch 280, bias, value: tensor([ 0.0323, -0.0302, -0.0076,  0.0135,  0.0020, -0.0172,  0.0064,  0.0148,
+        -0.0275,  0.0086], device='cuda:0'), grad: tensor([ 1.0739e-07, -8.1863e-07,  3.5716e-07, -2.0256e-07,  4.4063e-08,
+         4.2608e-08, -1.6764e-07,  2.9244e-07,  2.4121e-07,  1.1653e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 279, time 217.22, cls_loss 0.0005 cls_loss_mapping 0.0014 cls_loss_causal 0.4435 re_mapping 0.0033 re_causal 0.0099 /// teacc 99.14 lr 0.00010000
+Epoch 281, weight, value: tensor([[ 0.0174, -0.0804,  0.0020,  ..., -0.1184, -0.1500, -0.1280],
+        [-0.1301,  0.0705, -0.1193,  ..., -0.1396, -0.1449, -0.1895],
+        [-0.0973, -0.1535, -0.1706,  ..., -0.2174, -0.1530,  0.1630],
+        ...,
+        [ 0.0832, -0.0603, -0.1201,  ...,  0.0964, -0.1322, -0.1285],
+        [ 0.1222,  0.0976,  0.0746,  ..., -0.2027, -0.1153,  0.0804],
+        [ 0.0627,  0.0307,  0.1043,  ...,  0.0493, -0.0904,  0.0017]],
+       device='cuda:0'), grad: tensor([[ 1.2026e-07,  3.9057e-08,  2.7387e-08,  ...,  1.8044e-07,
+          2.6223e-08,  8.5565e-08],
+        [ 9.0804e-09,  3.7428e-08,  1.2165e-08,  ...,  1.3999e-08,
+          2.1828e-09,  1.5367e-08],
+        [-5.9663e-09,  1.1444e-07,  4.2492e-09,  ..., -7.3342e-09,
+         -2.5611e-09, -4.8167e-08],
+        ...,
+        [ 7.4971e-08,  8.1491e-08,  2.8260e-08,  ...,  1.1473e-07,
+          1.9005e-08,  7.1130e-08],
+        [-2.6484e-09,  6.5367e-08,  1.0885e-08,  ...,  3.6089e-09,
+          2.7940e-09,  7.8580e-10],
+        [-2.8219e-07, -4.2317e-08, -5.9168e-08,  ..., -4.2026e-07,
+         -5.1165e-08, -1.8626e-07]], device='cuda:0')
+Epoch 281, bias, value: tensor([ 0.0324, -0.0299, -0.0075,  0.0136,  0.0020, -0.0172,  0.0064,  0.0148,
+        -0.0276,  0.0086], device='cuda:0'), grad: tensor([ 3.3691e-07,  7.8115e-08,  2.0233e-07, -2.3879e-06,  2.6193e-07,
+         1.3802e-06,  1.2340e-07,  4.2166e-07,  2.3178e-07, -6.2631e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 280, time 217.63, cls_loss 0.0008 cls_loss_mapping 0.0017 cls_loss_causal 0.4826 re_mapping 0.0030 re_causal 0.0098 /// teacc 99.16 lr 0.00010000
+Epoch 282, weight, value: tensor([[ 0.0176, -0.0805,  0.0019,  ..., -0.1186, -0.1502, -0.1286],
+        [-0.1318,  0.0705, -0.1196,  ..., -0.1398, -0.1461, -0.1898],
+        [-0.0975, -0.1539, -0.1710,  ..., -0.2178, -0.1534,  0.1635],
+        ...,
+        [ 0.0833, -0.0604, -0.1203,  ...,  0.0965, -0.1325, -0.1287],
+        [ 0.1222,  0.0978,  0.0750,  ..., -0.2027, -0.1153,  0.0804],
+        [ 0.0626,  0.0306,  0.1043,  ...,  0.0493, -0.0904,  0.0017]],
+       device='cuda:0'), grad: tensor([[ 7.0198e-08,  1.8277e-07,  1.2736e-07,  ...,  8.2422e-08,
+          9.0804e-09,  8.3877e-08],
+        [ 2.6822e-07,  3.4808e-07,  1.8789e-07,  ...,  3.5414e-07,
+          2.7358e-09,  1.2503e-07],
+        [ 4.5472e-07,  1.6834e-07,  1.1991e-07,  ...,  5.8301e-07,
+          1.8044e-09,  8.3761e-08],
+        ...,
+        [-1.1260e-06,  6.4634e-07,  4.7917e-07,  ..., -7.2233e-06,
+          1.1642e-10,  3.0617e-07],
+        [-2.8498e-06, -8.4341e-06, -6.2324e-06,  ...,  9.2143e-08,
+          1.1874e-08, -4.0233e-06],
+        [ 1.0822e-06,  2.0508e-06,  1.6000e-06,  ...,  3.1628e-06,
+          1.5716e-09,  1.0533e-06]], device='cuda:0')
+Epoch 282, bias, value: tensor([ 0.0323, -0.0302, -0.0072,  0.0135,  0.0033, -0.0171,  0.0046,  0.0148,
+        -0.0276,  0.0086], device='cuda:0'), grad: tensor([ 7.7253e-07,  2.3581e-06,  2.3730e-06,  1.3620e-05,  9.1828e-07,
+         6.9402e-06,  1.7160e-07, -1.6406e-05, -2.4080e-05,  1.3344e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 281, time 217.45, cls_loss 0.0007 cls_loss_mapping 0.0017 cls_loss_causal 0.4569 re_mapping 0.0031 re_causal 0.0098 /// teacc 99.16 lr 0.00010000
+Epoch 283, weight, value: tensor([[ 0.0178, -0.0806,  0.0016,  ..., -0.1188, -0.1507, -0.1293],
+        [-0.1330,  0.0705, -0.1202,  ..., -0.1402, -0.1465, -0.1901],
+        [-0.0980, -0.1549, -0.1717,  ..., -0.2185, -0.1557,  0.1634],
+        ...,
+        [ 0.0833, -0.0608, -0.1208,  ...,  0.0967, -0.1328, -0.1288],
+        [ 0.1222,  0.0979,  0.0755,  ..., -0.2027, -0.1153,  0.0804],
+        [ 0.0628,  0.0308,  0.1044,  ...,  0.0493, -0.0905,  0.0017]],
+       device='cuda:0'), grad: tensor([[-3.0093e-08,  6.1118e-09,  2.1537e-09,  ...,  9.0222e-09,
+          2.6193e-09,  1.5891e-08],
+        [ 2.1420e-08, -2.3399e-08,  2.5029e-09,  ...,  4.5868e-08,
+          6.9849e-10,  1.3504e-08],
+        [ 7.7416e-09,  1.2689e-08,  1.1642e-09,  ...,  9.2550e-09,
+          4.0745e-10, -1.5565e-07],
+        ...,
+        [-6.1234e-08,  3.0035e-08,  1.0477e-08,  ..., -1.2410e-07,
+          2.5029e-09,  3.6031e-08],
+        [-9.2550e-09, -7.1595e-09, -1.0245e-08,  ...,  1.2049e-08,
+          1.9209e-09,  3.6962e-08],
+        [ 2.8173e-08, -5.9546e-08, -4.0221e-08,  ..., -7.5030e-08,
+          5.4715e-09, -2.8696e-08]], device='cuda:0')
+Epoch 283, bias, value: tensor([ 0.0327, -0.0307, -0.0069,  0.0137,  0.0033, -0.0172,  0.0045,  0.0149,
+        -0.0275,  0.0086], device='cuda:0'), grad: tensor([-6.0478e-08,  7.4506e-09, -3.4110e-07,  6.8336e-08,  2.2608e-07,
+         2.3283e-08,  4.8545e-08, -9.7905e-08,  1.7020e-07, -3.8592e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 282, time 217.67, cls_loss 0.0006 cls_loss_mapping 0.0020 cls_loss_causal 0.4685 re_mapping 0.0029 re_causal 0.0097 /// teacc 99.07 lr 0.00010000
+Epoch 284, weight, value: tensor([[ 0.0178, -0.0807,  0.0014,  ..., -0.1190, -0.1511, -0.1300],
+        [-0.1355,  0.0707, -0.1204,  ..., -0.1403, -0.1468, -0.1903],
+        [-0.0991, -0.1557, -0.1728,  ..., -0.2191, -0.1559,  0.1636],
+        ...,
+        [ 0.0834, -0.0610, -0.1211,  ...,  0.0968, -0.1333, -0.1288],
+        [ 0.1223,  0.0980,  0.0757,  ..., -0.2027, -0.1153,  0.0805],
+        [ 0.0628,  0.0308,  0.1044,  ...,  0.0492, -0.0905,  0.0017]],
+       device='cuda:0'), grad: tensor([[-4.8894e-09,  8.4401e-09,  1.1059e-09,  ...,  1.2456e-08,
+          5.0641e-09,  6.5775e-09],
+        [ 4.8312e-09, -5.0757e-08,  1.1059e-09,  ...,  2.4855e-08,
+          1.3155e-08,  1.2282e-08],
+        [ 1.1642e-08,  1.2340e-08,  4.7148e-09,  ...,  1.9267e-08,
+          7.9162e-09,  1.1118e-08],
+        ...,
+        [ 2.2643e-08,  6.2282e-08,  1.8335e-08,  ...,  5.8964e-08,
+          2.6193e-08,  3.6904e-08],
+        [-3.4692e-08,  1.1415e-07, -1.6706e-08,  ...,  1.0978e-07,
+          4.8487e-08,  4.7556e-08],
+        [-1.5891e-08, -1.4552e-09, -1.5774e-08,  ...,  8.0140e-07,
+          3.8883e-07,  4.4657e-07]], device='cuda:0')
+Epoch 284, bias, value: tensor([ 0.0325, -0.0311, -0.0078,  0.0141,  0.0033, -0.0173,  0.0045,  0.0152,
+        -0.0275,  0.0085], device='cuda:0'), grad: tensor([ 6.0129e-08, -1.8801e-07,  1.1700e-07,  4.4852e-06, -2.8498e-06,
+        -6.0163e-06,  5.0198e-07,  4.3632e-07,  1.1409e-06,  2.3376e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 283, time 217.54, cls_loss 0.0008 cls_loss_mapping 0.0014 cls_loss_causal 0.4820 re_mapping 0.0030 re_causal 0.0102 /// teacc 99.03 lr 0.00010000
+Epoch 285, weight, value: tensor([[ 0.0180, -0.0808,  0.0012,  ..., -0.1192, -0.1510, -0.1294],
+        [-0.1324,  0.0738, -0.1208,  ..., -0.1407, -0.1472, -0.1906],
+        [-0.0998, -0.1561, -0.1730,  ..., -0.2199, -0.1559,  0.1640],
+        ...,
+        [ 0.0819, -0.0641, -0.1215,  ...,  0.0972, -0.1340, -0.1287],
+        [ 0.1222,  0.0980,  0.0757,  ..., -0.2028, -0.1154,  0.0804],
+        [ 0.0623,  0.0309,  0.1045,  ...,  0.0492, -0.0905,  0.0017]],
+       device='cuda:0'), grad: tensor([[ 3.0268e-08,  8.8650e-08,  2.2410e-08,  ...,  4.6508e-08,
+          1.6298e-07,  1.4633e-07],
+        [ 3.9407e-08,  3.9884e-07,  1.4377e-08,  ...,  5.1165e-08,
+          6.5134e-08,  5.3027e-08],
+        [ 2.1886e-08,  1.0338e-06,  5.8208e-09,  ...,  2.5611e-08,
+          3.1781e-08,  3.2480e-08],
+        ...,
+        [-1.5949e-08,  2.7358e-07,  3.7253e-08,  ..., -1.7346e-08,
+          1.2747e-08,  1.4494e-08],
+        [ 2.1327e-07,  7.3621e-07,  7.7940e-08,  ...,  3.0617e-07,
+          2.3544e-06,  2.7642e-06],
+        [-4.2492e-07, -3.9022e-07, -3.2224e-07,  ..., -5.2992e-07,
+         -2.2154e-07, -2.3795e-07]], device='cuda:0')
+Epoch 285, bias, value: tensor([ 0.0329, -0.0280, -0.0078,  0.0156,  0.0033, -0.0174,  0.0044,  0.0128,
+        -0.0276,  0.0085], device='cuda:0'), grad: tensor([ 6.9616e-07,  1.8785e-06,  4.5188e-06, -1.9833e-05,  1.7965e-06,
+         1.1139e-05, -9.0450e-06,  9.1782e-07,  9.5442e-06, -1.6410e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 284, time 217.65, cls_loss 0.0009 cls_loss_mapping 0.0020 cls_loss_causal 0.4756 re_mapping 0.0027 re_causal 0.0090 /// teacc 99.02 lr 0.00010000
+Epoch 286, weight, value: tensor([[ 0.0178, -0.0809,  0.0010,  ..., -0.1197, -0.1520, -0.1306],
+        [-0.1324,  0.0738, -0.1210,  ..., -0.1415, -0.1479, -0.1911],
+        [-0.1012, -0.1574, -0.1736,  ..., -0.2212, -0.1572,  0.1645],
+        ...,
+        [ 0.0820, -0.0642, -0.1219,  ...,  0.0973, -0.1346, -0.1288],
+        [ 0.1222,  0.0980,  0.0759,  ..., -0.2029, -0.1154,  0.0804],
+        [ 0.0626,  0.0311,  0.1046,  ...,  0.0493, -0.0905,  0.0017]],
+       device='cuda:0'), grad: tensor([[-2.4447e-09,  1.6298e-09,  7.5670e-10,  ...,  5.9954e-09,
+          1.5716e-08,  1.2922e-08],
+        [ 1.1409e-08,  1.0477e-08,  1.1642e-09,  ...,  5.0291e-08,
+          3.9232e-08,  1.8685e-08],
+        [ 5.9372e-09,  6.4028e-09,  1.3388e-09,  ...,  7.9162e-09,
+          4.3074e-09,  1.2224e-09],
+        ...,
+        [-2.4447e-08,  1.1467e-08,  3.9581e-09,  ...,  1.6880e-08,
+          2.5611e-08,  1.3039e-08],
+        [-2.7940e-09, -2.7358e-09, -1.4552e-09,  ...,  4.0163e-09,
+          4.5053e-08,  3.9698e-08],
+        [ 9.3132e-09,  6.0536e-09, -5.0059e-09,  ...,  1.2135e-06,
+          5.9418e-07,  2.5192e-07]], device='cuda:0')
+Epoch 286, bias, value: tensor([ 0.0325, -0.0281, -0.0079,  0.0191,  0.0033, -0.0182,  0.0045,  0.0128,
+        -0.0277,  0.0085], device='cuda:0'), grad: tensor([ 4.2433e-08,  1.1845e-07,  3.4401e-08,  8.2830e-08, -1.7993e-06,
+        -3.2946e-07,  9.3132e-10,  3.9407e-08,  1.6170e-07,  1.6633e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 285, time 217.48, cls_loss 0.0008 cls_loss_mapping 0.0020 cls_loss_causal 0.4935 re_mapping 0.0028 re_causal 0.0094 /// teacc 99.05 lr 0.00010000
+Epoch 287, weight, value: tensor([[ 0.0180, -0.0810,  0.0007,  ..., -0.1199, -0.1523, -0.1310],
+        [-0.1325,  0.0738, -0.1220,  ..., -0.1417, -0.1484, -0.1916],
+        [-0.1021, -0.1586, -0.1748,  ..., -0.2216, -0.1577,  0.1647],
+        ...,
+        [ 0.0819, -0.0642, -0.1234,  ...,  0.0971, -0.1350, -0.1289],
+        [ 0.1223,  0.0983,  0.0762,  ..., -0.2029, -0.1154,  0.0805],
+        [ 0.0634,  0.0312,  0.1048,  ...,  0.0494, -0.0905,  0.0017]],
+       device='cuda:0'), grad: tensor([[ 1.2282e-08,  6.7055e-08,  1.8917e-08,  ...,  1.5949e-07,
+          9.5810e-08,  7.1770e-08],
+        [ 9.2899e-08,  3.4855e-07,  2.2235e-08,  ...,  1.0366e-06,
+          5.8347e-07,  3.7719e-07],
+        [ 1.5239e-07,  1.7835e-07,  1.2084e-07,  ...,  4.1095e-08,
+          1.0652e-08,  1.2200e-07],
+        ...,
+        [-5.2806e-07,  8.0734e-08,  3.5740e-08,  ..., -1.1094e-07,
+          9.6334e-08,  6.5600e-08],
+        [-8.8185e-08, -3.0175e-07, -2.2550e-07,  ...,  1.0792e-07,
+          2.6822e-07, -8.6613e-08],
+        [ 2.0384e-07,  5.2061e-07, -5.1805e-09,  ...,  1.5702e-06,
+          8.8196e-07,  5.7090e-07]], device='cuda:0')
+Epoch 287, bias, value: tensor([ 0.0325, -0.0281, -0.0081,  0.0187,  0.0033, -0.0180,  0.0044,  0.0128,
+        -0.0277,  0.0086], device='cuda:0'), grad: tensor([ 4.1560e-07,  2.8070e-06,  8.7079e-07,  5.7137e-07, -7.3463e-06,
+        -1.3700e-06,  2.5472e-07, -1.0738e-06,  2.4028e-07,  4.6268e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 286, time 217.50, cls_loss 0.0007 cls_loss_mapping 0.0014 cls_loss_causal 0.4983 re_mapping 0.0028 re_causal 0.0097 /// teacc 99.03 lr 0.00010000
+Epoch 288, weight, value: tensor([[ 0.0185, -0.0811,  0.0006,  ..., -0.1201, -0.1525, -0.1314],
+        [-0.1326,  0.0738, -0.1234,  ..., -0.1423, -0.1492, -0.1922],
+        [-0.0997, -0.1593, -0.1756,  ..., -0.2211, -0.1583,  0.1659],
+        ...,
+        [ 0.0819, -0.0643, -0.1241,  ...,  0.0972, -0.1354, -0.1294],
+        [ 0.1223,  0.0984,  0.0766,  ..., -0.2029, -0.1154,  0.0805],
+        [ 0.0636,  0.0313,  0.1049,  ...,  0.0494, -0.0906,  0.0017]],
+       device='cuda:0'), grad: tensor([[-3.1490e-08,  1.7462e-09,  9.8953e-10,  ...,  1.7462e-09,
+          4.6566e-10,  4.0745e-10],
+        [ 4.8312e-09, -2.5728e-08,  1.2224e-09,  ...,  5.4133e-09,
+          1.4552e-09,  3.2596e-09],
+        [ 2.5029e-09,  5.2387e-09,  5.2387e-10,  ...,  2.3283e-09,
+          8.1491e-10, -4.0745e-10],
+        ...,
+        [-1.9209e-09,  6.8103e-09,  2.6776e-09,  ..., -1.8626e-09,
+          5.2387e-10,  1.9791e-09],
+        [ 3.2596e-09, -9.5461e-09, -8.0327e-09,  ...,  2.5611e-09,
+         -8.3237e-09, -2.0780e-08],
+        [-5.2387e-10, -1.9791e-09, -8.4401e-09,  ..., -1.1118e-08,
+          3.8417e-09,  2.7358e-09]], device='cuda:0')
+Epoch 288, bias, value: tensor([ 0.0326, -0.0282, -0.0059,  0.0186,  0.0033, -0.0179,  0.0044,  0.0126,
+        -0.0277,  0.0086], device='cuda:0'), grad: tensor([-7.3051e-08, -6.0129e-08,  1.6415e-08,  1.6333e-07,  1.0070e-08,
+        -2.3108e-07,  1.2573e-07,  2.2526e-08,  2.0955e-08,  1.8626e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 287, time 217.63, cls_loss 0.0008 cls_loss_mapping 0.0019 cls_loss_causal 0.4650 re_mapping 0.0028 re_causal 0.0093 /// teacc 98.92 lr 0.00010000
+Epoch 289, weight, value: tensor([[ 1.8731e-02, -8.1264e-02,  1.7369e-04,  ..., -1.2037e-01,
+         -1.5261e-01, -1.3174e-01],
+        [-1.3277e-01,  7.3782e-02, -1.2377e-01,  ..., -1.4282e-01,
+         -1.5047e-01, -1.9334e-01],
+        [-1.0084e-01, -1.6071e-01, -1.7620e-01,  ..., -2.1931e-01,
+         -1.5565e-01,  1.6927e-01],
+        ...,
+        [ 8.1991e-02, -6.4285e-02, -1.2440e-01,  ...,  9.7352e-02,
+         -1.3588e-01, -1.2903e-01],
+        [ 1.2228e-01,  9.8514e-02,  7.6588e-02,  ..., -2.0296e-01,
+         -1.1549e-01,  8.0574e-02],
+        [ 6.3974e-02,  3.1591e-02,  1.0515e-01,  ...,  4.9492e-02,
+         -9.0535e-02,  1.6995e-03]], device='cuda:0'), grad: tensor([[ 1.2135e-06,  6.9104e-07,  3.9395e-07,  ...,  8.7917e-07,
+          2.6403e-07,  5.0245e-07],
+        [ 1.3364e-07,  3.9057e-08,  3.0443e-08,  ...,  8.0967e-08,
+          1.5483e-08,  5.6636e-08],
+        [ 2.4820e-07,  9.7207e-08,  4.5227e-08,  ...,  1.5053e-07,
+          2.2235e-08,  3.7835e-08],
+        ...,
+        [-8.1304e-07,  1.9325e-07,  1.0862e-07,  ..., -4.8429e-07,
+          6.4611e-08,  1.4575e-07],
+        [ 4.3190e-07,  7.3749e-08,  7.8289e-08,  ...,  3.8021e-07,
+          8.2015e-08,  1.7346e-08],
+        [-3.4962e-06, -2.3376e-06, -1.3793e-06,  ..., -2.6450e-06,
+         -9.0990e-07, -1.6754e-06]], device='cuda:0')
+Epoch 289, bias, value: tensor([ 0.0326, -0.0283, -0.0031,  0.0184,  0.0014, -0.0179,  0.0044,  0.0127,
+        -0.0277,  0.0088], device='cuda:0'), grad: tensor([ 3.9674e-06,  3.8114e-07,  6.1933e-07,  1.4611e-05,  4.7870e-06,
+        -1.2420e-05,  1.0041e-07, -1.5888e-06,  1.2526e-06, -1.1727e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 288, time 217.81, cls_loss 0.0006 cls_loss_mapping 0.0019 cls_loss_causal 0.4734 re_mapping 0.0028 re_causal 0.0092 /// teacc 99.06 lr 0.00010000
+Epoch 290, weight, value: tensor([[ 1.8785e-02, -8.1407e-02, -9.9547e-05,  ..., -1.2069e-01,
+         -1.5302e-01, -1.3246e-01],
+        [-1.3283e-01,  7.3821e-02, -1.2401e-01,  ..., -1.4317e-01,
+         -1.5095e-01, -1.9369e-01],
+        [-1.0163e-01, -1.6189e-01, -1.7674e-01,  ..., -2.1929e-01,
+         -1.5563e-01,  1.6933e-01],
+        ...,
+        [ 8.2075e-02, -6.4324e-02, -1.2463e-01,  ...,  9.7497e-02,
+         -1.3692e-01, -1.2908e-01],
+        [ 1.2228e-01,  9.8551e-02,  7.6665e-02,  ..., -2.0299e-01,
+         -1.1556e-01,  8.0554e-02],
+        [ 6.3830e-02,  3.1641e-02,  1.0520e-01,  ...,  4.9464e-02,
+         -9.0581e-02,  1.6804e-03]], device='cuda:0'), grad: tensor([[ 1.3330e-08,  4.6333e-08,  2.5029e-08,  ...,  8.2073e-09,
+          4.0745e-10,  3.2713e-08],
+        [ 8.9582e-08,  9.9419e-08,  6.2631e-08,  ...,  3.2422e-08,
+          1.1642e-09,  8.9349e-08],
+        [ 5.0291e-08,  7.0489e-08,  3.5099e-08,  ...,  8.7894e-09,
+          7.5670e-10,  4.1444e-08],
+        ...,
+        [ 3.8301e-08,  7.4680e-08,  4.4645e-08,  ...,  9.3132e-09,
+          1.1642e-09,  4.8371e-08],
+        [-5.8161e-07, -9.5833e-07, -5.0059e-07,  ...,  1.0012e-08,
+          3.4925e-10, -7.2410e-07],
+        [ 3.3411e-08,  1.6124e-07,  6.1234e-08,  ..., -1.6741e-07,
+          7.2177e-09,  1.5751e-07]], device='cuda:0')
+Epoch 290, bias, value: tensor([ 0.0325, -0.0283, -0.0031,  0.0182,  0.0013, -0.0178,  0.0044,  0.0128,
+        -0.0277,  0.0087], device='cuda:0'), grad: tensor([ 6.1817e-08,  3.9791e-07,  2.3562e-07,  4.3237e-07,  2.6450e-07,
+         6.5193e-07,  2.7264e-07,  2.0547e-07, -2.9802e-06,  4.5309e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 289, time 217.30, cls_loss 0.0006 cls_loss_mapping 0.0019 cls_loss_causal 0.4684 re_mapping 0.0028 re_causal 0.0092 /// teacc 98.96 lr 0.00010000
+Epoch 291, weight, value: tensor([[ 0.0206, -0.0816, -0.0006,  ..., -0.1211, -0.1508, -0.1318],
+        [-0.1329,  0.0738, -0.1245,  ..., -0.1436, -0.1516, -0.1940],
+        [-0.1026, -0.1627, -0.1774,  ..., -0.2193, -0.1557,  0.1693],
+        ...,
+        [ 0.0821, -0.0644, -0.1252,  ...,  0.0976, -0.1378, -0.1293],
+        [ 0.1223,  0.0988,  0.0772,  ..., -0.2030, -0.1156,  0.0807],
+        [ 0.0641,  0.0317,  0.1053,  ...,  0.0495, -0.0906,  0.0017]],
+       device='cuda:0'), grad: tensor([[ 1.7288e-08,  3.8184e-08,  3.5507e-08,  ...,  6.5425e-08,
+          1.4028e-08,  1.6764e-08],
+        [ 1.1944e-07,  4.4762e-08,  5.3202e-08,  ...,  1.9511e-07,
+          3.9756e-08,  4.0163e-08],
+        [ 4.3423e-08,  2.3865e-08,  1.0419e-08,  ...,  5.2969e-08,
+          1.8277e-08,  7.8580e-09],
+        ...,
+        [ 2.4866e-07,  2.7614e-07,  3.0873e-07,  ...,  5.0617e-07,
+          5.2620e-08,  7.1421e-08],
+        [-9.7149e-08, -8.1724e-08, -3.9814e-08,  ...,  9.8546e-08,
+          2.0897e-08, -6.6007e-08],
+        [-5.6857e-07, -1.9814e-07, -5.2387e-07,  ..., -4.0070e-07,
+          4.8988e-07,  3.6042e-07]], device='cuda:0')
+Epoch 291, bias, value: tensor([ 0.0340, -0.0284, -0.0031,  0.0180,  0.0013, -0.0178,  0.0043,  0.0128,
+        -0.0277,  0.0087], device='cuda:0'), grad: tensor([ 1.2456e-07,  4.6985e-07,  1.6566e-07,  2.0443e-07, -1.6466e-06,
+         2.3353e-07,  4.4936e-08,  1.2172e-06, -1.2515e-07, -6.7428e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 290, time 217.56, cls_loss 0.0008 cls_loss_mapping 0.0018 cls_loss_causal 0.4692 re_mapping 0.0027 re_causal 0.0091 /// teacc 99.08 lr 0.00010000
+Epoch 292, weight, value: tensor([[ 0.0204, -0.0818, -0.0009,  ..., -0.1215, -0.1532, -0.1344],
+        [-0.1329,  0.0740, -0.1248,  ..., -0.1439, -0.1525, -0.1931],
+        [-0.1017, -0.1655, -0.1781,  ..., -0.2194, -0.1557,  0.1693],
+        ...,
+        [ 0.0821, -0.0644, -0.1256,  ...,  0.0976, -0.1391, -0.1297],
+        [ 0.1223,  0.0988,  0.0774,  ..., -0.2030, -0.1156,  0.0806],
+        [ 0.0642,  0.0316,  0.1052,  ...,  0.0494, -0.0909,  0.0016]],
+       device='cuda:0'), grad: tensor([[-2.0571e-07, -4.5053e-08, -3.5157e-08,  ..., -8.7311e-09,
+         -8.0909e-09, -2.2526e-08],
+        [ 1.6182e-08,  1.3947e-07,  1.6298e-09,  ...,  1.2049e-08,
+          3.3341e-07,  3.6648e-07],
+        [ 2.0023e-08,  1.6822e-08,  1.9209e-09,  ...,  8.2655e-09,
+          6.6357e-09, -6.5193e-09],
+        ...,
+        [-1.4494e-08,  2.2876e-08,  5.7626e-09,  ..., -3.2596e-08,
+          2.2119e-09,  1.0594e-08],
+        [-3.5681e-08,  3.6582e-06, -2.3283e-10,  ...,  1.1467e-08,
+          7.5772e-06,  8.0168e-06],
+        [ 1.8033e-07,  6.7404e-08,  1.6589e-08,  ...,  1.1234e-08,
+          4.3074e-08,  6.6473e-08]], device='cuda:0')
+Epoch 292, bias, value: tensor([ 0.0326, -0.0283, -0.0031,  0.0179,  0.0015, -0.0177,  0.0045,  0.0128,
+        -0.0278,  0.0086], device='cuda:0'), grad: tensor([-4.9639e-07,  1.0626e-06,  6.8685e-09,  4.5518e-08,  7.6718e-08,
+         2.1905e-06, -2.7880e-05, -1.3388e-08,  2.4408e-05,  5.9139e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 291, time 217.46, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4701 re_mapping 0.0030 re_causal 0.0096 /// teacc 99.14 lr 0.00010000
+Epoch 293, weight, value: tensor([[ 0.0205, -0.0817, -0.0010,  ..., -0.1215, -0.1533, -0.1346],
+        [-0.1329,  0.0740, -0.1253,  ..., -0.1442, -0.1533, -0.1934],
+        [-0.1021, -0.1660, -0.1785,  ..., -0.2194, -0.1557,  0.1693],
+        ...,
+        [ 0.0822, -0.0644, -0.1257,  ...,  0.0977, -0.1392, -0.1297],
+        [ 0.1223,  0.0990,  0.0777,  ..., -0.2031, -0.1156,  0.0807],
+        [ 0.0641,  0.0316,  0.1052,  ...,  0.0493, -0.0909,  0.0015]],
+       device='cuda:0'), grad: tensor([[-3.2305e-08, -5.5879e-09, -1.7462e-08,  ...,  1.0303e-08,
+          4.8312e-09,  3.7835e-09],
+        [ 5.1688e-08, -5.5297e-08,  5.8790e-09,  ...,  5.7393e-08,
+          4.3656e-09,  7.2760e-09],
+        [ 5.8324e-08,  8.4401e-09,  2.5029e-09,  ...,  1.0611e-07,
+          3.8999e-09,  9.5461e-09],
+        ...,
+        [-5.5693e-07,  1.7288e-08,  3.0268e-09,  ..., -6.7102e-07,
+          4.1910e-09, -2.7998e-08],
+        [ 6.6240e-08,  1.2398e-08,  9.8953e-10,  ...,  8.0036e-08,
+          5.7626e-09,  2.6776e-09],
+        [ 3.4412e-07,  2.1828e-08, -5.9954e-09,  ...,  4.0233e-07,
+          5.3085e-08,  2.7940e-08]], device='cuda:0')
+Epoch 293, bias, value: tensor([ 0.0328, -0.0283, -0.0032,  0.0179,  0.0015, -0.0177,  0.0045,  0.0128,
+        -0.0278,  0.0086], device='cuda:0'), grad: tensor([-1.6124e-07,  5.1281e-08,  2.4983e-07,  1.5949e-07, -3.1490e-08,
+        -5.4669e-07,  1.7299e-07, -1.5497e-06,  5.5600e-07,  1.0850e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 292, time 218.42, cls_loss 0.0010 cls_loss_mapping 0.0024 cls_loss_causal 0.4579 re_mapping 0.0028 re_causal 0.0089 /// teacc 99.08 lr 0.00010000
+Epoch 294, weight, value: tensor([[ 0.0200, -0.0823, -0.0016,  ..., -0.1220, -0.1535, -0.1353],
+        [-0.1307,  0.0763, -0.1266,  ..., -0.1453, -0.1543, -0.1946],
+        [-0.1037, -0.1688, -0.1799,  ..., -0.2194, -0.1558,  0.1693],
+        ...,
+        [ 0.0821, -0.0647, -0.1264,  ...,  0.0980, -0.1413, -0.1299],
+        [ 0.1207,  0.0965,  0.0783,  ..., -0.2031, -0.1156,  0.0811],
+        [ 0.0645,  0.0318,  0.1054,  ...,  0.0494, -0.0909,  0.0016]],
+       device='cuda:0'), grad: tensor([[ 4.8894e-09,  3.8359e-08,  1.4319e-08,  ...,  8.5565e-09,
+          7.6892e-08,  5.3609e-08],
+        [ 3.7777e-08,  8.6089e-08,  3.1258e-08,  ...,  5.5879e-08,
+          2.7358e-09,  4.7730e-09],
+        [ 3.1432e-08,  3.8603e-07,  1.2037e-07,  ...,  4.5111e-08,
+          1.3388e-09, -6.4028e-09],
+        ...,
+        [-1.0070e-07,  1.3900e-07,  5.6403e-08,  ..., -1.4831e-07,
+          1.7462e-10,  2.1537e-09],
+        [ 6.2282e-09,  2.8173e-07,  8.7079e-08,  ...,  1.7229e-08,
+          3.8359e-08,  2.3632e-08],
+        [-2.9686e-08,  1.2864e-08, -4.4121e-08,  ..., -6.5367e-08,
+          2.6776e-09,  3.4925e-10]], device='cuda:0')
+Epoch 294, bias, value: tensor([ 0.0324, -0.0257, -0.0033,  0.0176,  0.0014, -0.0181,  0.0044,  0.0127,
+        -0.0303,  0.0086], device='cuda:0'), grad: tensor([ 2.7660e-07,  4.1421e-07,  1.3188e-06, -3.7830e-06,  2.1537e-07,
+         6.4215e-07, -2.0373e-07,  2.9919e-08,  1.0142e-06,  8.6613e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 293, time 217.74, cls_loss 0.0008 cls_loss_mapping 0.0019 cls_loss_causal 0.4932 re_mapping 0.0028 re_causal 0.0096 /// teacc 99.10 lr 0.00010000
+Epoch 295, weight, value: tensor([[ 0.0194, -0.0832, -0.0034,  ..., -0.1223, -0.1535, -0.1363],
+        [-0.1307,  0.0763, -0.1276,  ..., -0.1458, -0.1555, -0.1970],
+        [-0.1046, -0.1693, -0.1807,  ..., -0.2196, -0.1558,  0.1694],
+        ...,
+        [ 0.0822, -0.0647, -0.1271,  ...,  0.0982, -0.1425, -0.1301],
+        [ 0.1208,  0.0969,  0.0806,  ..., -0.2032, -0.1156,  0.0815],
+        [ 0.0647,  0.0319,  0.1055,  ...,  0.0495, -0.0908,  0.0016]],
+       device='cuda:0'), grad: tensor([[-2.0838e-08,  9.3132e-09,  7.5670e-10,  ...,  4.6566e-10,
+          4.5984e-09,  1.1118e-08],
+        [ 4.0978e-08, -9.9614e-06,  1.6298e-09,  ...,  9.5984e-08,
+          1.5134e-09,  4.0745e-08],
+        [ 7.2177e-09,  5.3924e-07,  2.5611e-09,  ...,  7.9744e-09,
+          2.5029e-09, -4.7288e-07],
+        ...,
+        [-9.1910e-08,  8.8736e-06,  2.0955e-09,  ..., -2.3376e-07,
+          5.8208e-10,  1.2398e-08],
+        [-1.0012e-08, -2.3865e-08, -1.9383e-08,  ...,  1.0477e-09,
+         -2.0373e-09,  3.5507e-07],
+        [ 6.2457e-08,  1.8044e-07, -1.5716e-09,  ...,  1.2550e-07,
+          1.3388e-09,  1.4261e-08]], device='cuda:0')
+Epoch 295, bias, value: tensor([ 0.0321, -0.0264, -0.0022,  0.0170,  0.0014, -0.0180,  0.0043,  0.0129,
+        -0.0302,  0.0087], device='cuda:0'), grad: tensor([ 7.7067e-08, -1.5342e-04,  6.7316e-06,  3.0827e-06,  1.8524e-06,
+        -2.0431e-08,  1.8126e-07,  1.3661e-04,  1.5581e-06,  3.2503e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 294, time 218.03, cls_loss 0.0007 cls_loss_mapping 0.0015 cls_loss_causal 0.4690 re_mapping 0.0027 re_causal 0.0090 /// teacc 99.14 lr 0.00010000
+Epoch 296, weight, value: tensor([[ 0.0196, -0.0833, -0.0037,  ..., -0.1227, -0.1537, -0.1374],
+        [-0.1307,  0.0763, -0.1283,  ..., -0.1461, -0.1560, -0.1974],
+        [-0.1043, -0.1700, -0.1815,  ..., -0.2196, -0.1558,  0.1694],
+        ...,
+        [ 0.0822, -0.0649, -0.1275,  ...,  0.0983, -0.1434, -0.1305],
+        [ 0.1209,  0.0970,  0.0811,  ..., -0.2032, -0.1156,  0.0816],
+        [ 0.0648,  0.0320,  0.1056,  ...,  0.0495, -0.0909,  0.0016]],
+       device='cuda:0'), grad: tensor([[-2.3644e-07,  6.1700e-09, -6.9616e-08,  ...,  8.7311e-09,
+         -2.7649e-08,  3.4925e-10],
+        [ 5.4657e-08, -1.7462e-10,  2.5262e-08,  ...,  3.5856e-08,
+          9.3132e-09,  4.3947e-08],
+        [ 5.9663e-08,  7.8639e-08,  4.0454e-08,  ...,  1.0710e-08,
+          7.2177e-09,  1.0565e-07],
+        ...,
+        [-1.7462e-08,  2.6135e-08,  7.1013e-09,  ..., -3.9639e-08,
+          3.0850e-09,  1.0594e-08],
+        [-8.6799e-07, -1.4380e-06, -5.7835e-07,  ...,  7.9162e-09,
+          2.7358e-09, -2.1160e-06],
+        [ 5.3784e-07,  8.3353e-07,  3.0594e-07,  ...,  5.3900e-08,
+          1.2200e-07,  1.3392e-06]], device='cuda:0')
+Epoch 296, bias, value: tensor([ 0.0321, -0.0264, -0.0022,  0.0171,  0.0014, -0.0180,  0.0043,  0.0128,
+        -0.0302,  0.0087], device='cuda:0'), grad: tensor([-1.5162e-06,  2.5355e-07,  3.4692e-07,  8.6380e-08, -6.5251e-08,
+         8.8103e-07,  1.4231e-06, -7.7591e-08, -4.2692e-06,  2.9542e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 295, time 218.02, cls_loss 0.0005 cls_loss_mapping 0.0010 cls_loss_causal 0.4790 re_mapping 0.0029 re_causal 0.0096 /// teacc 99.05 lr 0.00010000
+Epoch 297, weight, value: tensor([[ 0.0196, -0.0834, -0.0038,  ..., -0.1230, -0.1537, -0.1377],
+        [-0.1307,  0.0763, -0.1286,  ..., -0.1463, -0.1563, -0.1976],
+        [-0.1047, -0.1708, -0.1820,  ..., -0.2196, -0.1559,  0.1694],
+        ...,
+        [ 0.0823, -0.0649, -0.1278,  ...,  0.0985, -0.1444, -0.1305],
+        [ 0.1209,  0.0970,  0.0813,  ..., -0.2032, -0.1156,  0.0817],
+        [ 0.0647,  0.0322,  0.1057,  ...,  0.0495, -0.0909,  0.0016]],
+       device='cuda:0'), grad: tensor([[-2.7008e-08,  2.2119e-09,  4.0745e-10,  ...,  1.5716e-09,
+          4.2492e-09,  4.4238e-09],
+        [ 2.9104e-09, -4.8953e-08,  4.0745e-10,  ...,  5.1223e-09,
+          2.4447e-09,  2.6193e-09],
+        [ 2.2701e-09,  1.0477e-08,  4.6566e-10,  ...,  1.3970e-09,
+          1.6880e-09, -8.4401e-09],
+        ...,
+        [ 6.4028e-10,  2.0140e-08,  2.2119e-09,  ...,  1.5134e-08,
+          1.0652e-08,  4.8894e-09],
+        [ 3.8417e-09,  2.0314e-08,  8.7311e-10,  ...,  5.5879e-09,
+          1.8161e-08,  2.4214e-08],
+        [ 5.0641e-09, -1.7870e-08, -1.2282e-08,  ...,  6.2922e-08,
+          8.9814e-08,  2.9861e-08]], device='cuda:0')
+Epoch 297, bias, value: tensor([ 0.0321, -0.0264, -0.0022,  0.0173,  0.0014, -0.0181,  0.0043,  0.0129,
+        -0.0301,  0.0087], device='cuda:0'), grad: tensor([-7.3051e-08, -1.3853e-07,  2.2643e-08,  1.8976e-08, -1.3411e-07,
+        -1.4401e-07,  6.4436e-08,  7.5845e-08,  1.6205e-07,  1.7323e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 296, time 217.61, cls_loss 0.0007 cls_loss_mapping 0.0014 cls_loss_causal 0.4632 re_mapping 0.0027 re_causal 0.0091 /// teacc 99.11 lr 0.00010000
+Epoch 298, weight, value: tensor([[ 0.0199, -0.0834, -0.0037,  ..., -0.1234, -0.1538, -0.1378],
+        [-0.1308,  0.0764, -0.1288,  ..., -0.1467, -0.1562, -0.1980],
+        [-0.1053, -0.1723, -0.1847,  ..., -0.2197, -0.1559,  0.1694],
+        ...,
+        [ 0.0824, -0.0650, -0.1279,  ...,  0.0990, -0.1447, -0.1300],
+        [ 0.1209,  0.0971,  0.0814,  ..., -0.2033, -0.1156,  0.0818],
+        [ 0.0643,  0.0322,  0.1058,  ...,  0.0495, -0.0909,  0.0015]],
+       device='cuda:0'), grad: tensor([[ 3.1432e-09,  2.0955e-09,  7.5670e-10,  ...,  6.1700e-09,
+          2.9104e-10,  3.4925e-10],
+        [ 1.3947e-07, -1.5658e-08,  1.3388e-09,  ...,  3.4529e-07,
+          7.6252e-09,  4.9477e-09],
+        [ 3.7486e-08,  4.2492e-09,  5.2387e-10,  ...,  7.6019e-08,
+          1.7462e-10, -4.7730e-09],
+        ...,
+        [-3.8254e-07,  3.1083e-08,  1.4144e-08,  ..., -7.7067e-07,
+          4.2492e-09,  3.3760e-09],
+        [ 1.6589e-08,  7.7998e-09,  2.3865e-09,  ...,  3.2538e-08,
+          3.4925e-10, -1.1642e-10],
+        [ 1.4924e-07, -3.8766e-08, -3.2072e-08,  ...,  2.8731e-07,
+          1.9674e-08,  7.7416e-09]], device='cuda:0')
+Epoch 298, bias, value: tensor([ 0.0321, -0.0264, -0.0023,  0.0171,  0.0014, -0.0178,  0.0042,  0.0130,
+        -0.0301,  0.0086], device='cuda:0'), grad: tensor([ 1.8161e-08,  6.6403e-07,  1.5367e-07,  1.4377e-08,  2.5204e-08,
+         2.1129e-08,  1.0186e-08, -1.6047e-06,  8.9873e-08,  6.0024e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 297, time 217.82, cls_loss 0.0006 cls_loss_mapping 0.0011 cls_loss_causal 0.4733 re_mapping 0.0027 re_causal 0.0092 /// teacc 99.04 lr 0.00010000
+Epoch 299, weight, value: tensor([[ 0.0201, -0.0835, -0.0038,  ..., -0.1236, -0.1539, -0.1381],
+        [-0.1308,  0.0763, -0.1293,  ..., -0.1473, -0.1567, -0.1983],
+        [-0.1056, -0.1725, -0.1850,  ..., -0.2197, -0.1559,  0.1695],
+        ...,
+        [ 0.0825, -0.0650, -0.1283,  ...,  0.0995, -0.1454, -0.1312],
+        [ 0.1210,  0.0971,  0.0816,  ..., -0.2033, -0.1156,  0.0819],
+        [ 0.0643,  0.0322,  0.1059,  ...,  0.0494, -0.0910,  0.0015]],
+       device='cuda:0'), grad: tensor([[ 1.4086e-08,  5.0641e-09,  1.7637e-08,  ...,  4.8429e-08,
+          4.1095e-08,  4.8487e-08],
+        [ 4.6333e-08, -5.2387e-09,  1.1001e-08,  ...,  4.8149e-07,
+          3.5565e-08,  2.6543e-08],
+        [ 2.0373e-08,  1.3039e-08,  4.8894e-09,  ...,  1.2396e-06,
+          9.8953e-09,  1.0536e-08],
+        ...,
+        [-1.2456e-07,  1.9209e-08,  1.5483e-08,  ..., -2.2743e-06,
+          2.3341e-08,  1.0594e-08],
+        [ 2.6077e-08, -2.1828e-08,  6.4785e-08,  ...,  1.5344e-07,
+          2.2980e-07,  2.4145e-07],
+        [ 4.8894e-09, -5.9372e-08, -6.7928e-08,  ...,  1.9569e-07,
+          9.3656e-08,  4.5169e-08]], device='cuda:0')
+Epoch 299, bias, value: tensor([ 0.0321, -0.0264, -0.0020,  0.0170,  0.0013, -0.0177,  0.0041,  0.0129,
+        -0.0301,  0.0085], device='cuda:0'), grad: tensor([ 2.5285e-07,  1.0692e-06,  2.7120e-06,  1.2957e-07, -8.4168e-08,
+         3.8976e-07, -9.6392e-07, -4.8615e-06,  1.0235e-06,  3.3271e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 298, time 217.71, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4681 re_mapping 0.0028 re_causal 0.0096 /// teacc 99.06 lr 0.00010000
+Epoch 300, weight, value: tensor([[ 0.0202, -0.0835, -0.0037,  ..., -0.1239, -0.1541, -0.1384],
+        [-0.1308,  0.0763, -0.1298,  ..., -0.1477, -0.1591, -0.1988],
+        [-0.1049, -0.1726, -0.1852,  ..., -0.2197, -0.1559,  0.1696],
+        ...,
+        [ 0.0825, -0.0650, -0.1288,  ...,  0.0996, -0.1464, -0.1316],
+        [ 0.1210,  0.0972,  0.0819,  ..., -0.2034, -0.1156,  0.0819],
+        [ 0.0644,  0.0328,  0.1061,  ...,  0.0496, -0.0910,  0.0016]],
+       device='cuda:0'), grad: tensor([[-4.4878e-08, -7.5670e-10,  2.0256e-08,  ...,  4.5227e-08,
+          1.8044e-09,  1.1816e-08],
+        [ 8.6147e-09, -1.9150e-08,  1.0768e-08,  ...,  4.2666e-08,
+          9.2550e-09,  1.3853e-08],
+        [ 5.2969e-09,  9.4878e-09,  3.8417e-09,  ...,  8.4983e-09,
+          3.4925e-10, -6.5193e-09],
+        ...,
+        [ 5.1223e-09,  9.7847e-08,  9.5752e-08,  ...,  2.0815e-07,
+          1.7462e-09,  4.9477e-08],
+        [ 5.4482e-08,  2.9569e-08,  3.8242e-08,  ...,  8.6555e-08,
+          2.5029e-09,  1.8801e-08],
+        [-2.0920e-07, -5.8161e-07, -7.5204e-07,  ..., -1.4827e-06,
+          9.5810e-08, -3.0454e-07]], device='cuda:0')
+Epoch 300, bias, value: tensor([ 0.0320, -0.0265, -0.0020,  0.0170,  0.0012, -0.0177,  0.0042,  0.0129,
+        -0.0301,  0.0086], device='cuda:0'), grad: tensor([-2.7521e-07,  4.3481e-08,  3.8999e-09,  8.5565e-08,  2.1681e-06,
+         7.9221e-08,  2.3050e-08,  4.6915e-07,  4.1258e-07, -3.0063e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 299, time 217.63, cls_loss 0.0006 cls_loss_mapping 0.0017 cls_loss_causal 0.4546 re_mapping 0.0028 re_causal 0.0093 /// teacc 99.08 lr 0.00010000
+Epoch 301, weight, value: tensor([[ 0.0194, -0.0839, -0.0046,  ..., -0.1262, -0.1544, -0.1397],
+        [-0.1310,  0.0763, -0.1308,  ..., -0.1505, -0.1593, -0.1992],
+        [-0.1060, -0.1733, -0.1859,  ..., -0.2198, -0.1559,  0.1696],
+        ...,
+        [ 0.0827, -0.0651, -0.1295,  ...,  0.1004, -0.1467, -0.1319],
+        [ 0.1211,  0.0977,  0.0841,  ..., -0.2034, -0.1156,  0.0823],
+        [ 0.0640,  0.0324,  0.1059,  ...,  0.0496, -0.0911,  0.0014]],
+       device='cuda:0'), grad: tensor([[ 7.1013e-09,  6.9849e-09,  1.1991e-08,  ...,  1.3271e-08,
+          9.0629e-08,  6.8685e-09],
+        [ 4.1735e-08, -3.0617e-08,  2.6193e-09,  ...,  6.8918e-08,
+          1.9791e-09,  5.2969e-09],
+        [-4.8836e-08,  1.8568e-08,  2.0373e-09,  ...,  1.3446e-08,
+          5.8208e-10, -2.1071e-07],
+        ...,
+        [-1.5693e-07,  5.6694e-08,  2.8405e-08,  ..., -2.6659e-07,
+          5.8208e-11,  1.1409e-08],
+        [ 7.0664e-08,  8.6729e-09,  3.0850e-09,  ...,  3.0443e-08,
+          1.3330e-08,  1.9651e-07],
+        [ 3.4925e-08, -5.7975e-08, -5.1339e-08,  ..., -2.9744e-08,
+          1.3388e-09,  5.2387e-10]], device='cuda:0')
+Epoch 301, bias, value: tensor([ 0.0314, -0.0266, -0.0020,  0.0167,  0.0012, -0.0178,  0.0042,  0.0132,
+        -0.0299,  0.0085], device='cuda:0'), grad: tensor([ 3.7206e-07,  1.1257e-07, -1.7602e-06,  1.2270e-07,  1.6624e-07,
+         5.8860e-07, -9.3365e-07, -5.4389e-07,  1.8487e-06,  2.4447e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 300, time 217.62, cls_loss 0.0006 cls_loss_mapping 0.0021 cls_loss_causal 0.4709 re_mapping 0.0028 re_causal 0.0095 /// teacc 99.00 lr 0.00010000
+Epoch 302, weight, value: tensor([[ 0.0193, -0.0841, -0.0051,  ..., -0.1266, -0.1546, -0.1404],
+        [-0.1311,  0.0761, -0.1322,  ..., -0.1515, -0.1611, -0.1998],
+        [-0.1064, -0.1740, -0.1863,  ..., -0.2198, -0.1560,  0.1696],
+        ...,
+        [ 0.0825, -0.0653, -0.1318,  ...,  0.0998, -0.1501, -0.1328],
+        [ 0.1212,  0.0978,  0.0846,  ..., -0.2035, -0.1158,  0.0823],
+        [ 0.0654,  0.0336,  0.1062,  ...,  0.0499, -0.0910,  0.0015]],
+       device='cuda:0'), grad: tensor([[ 1.3097e-08,  1.7491e-08,  7.6543e-09,  ...,  2.0460e-08,
+          4.1036e-09,  9.5461e-09],
+        [ 1.5309e-08, -8.1817e-07,  2.5902e-09,  ...,  2.6834e-08,
+          4.3656e-10, -6.8452e-08],
+        [ 1.1525e-08,  1.9593e-07,  1.2224e-09,  ...,  7.6252e-09,
+          2.9104e-10,  6.8103e-09],
+        ...,
+        [ 1.2689e-07,  2.8242e-07,  9.5810e-08,  ...,  1.6880e-07,
+          2.9104e-11,  5.5006e-08],
+        [ 7.5379e-09,  2.0757e-07,  2.4738e-09,  ...,  1.1030e-08,
+          3.4343e-09,  1.8714e-08],
+        [-2.1292e-07,  9.6043e-10, -1.2759e-07,  ..., -2.9197e-07,
+          1.7462e-10, -3.6642e-08]], device='cuda:0')
+Epoch 302, bias, value: tensor([ 0.0313, -0.0267, -0.0020,  0.0165,  0.0012, -0.0179,  0.0044,  0.0130,
+        -0.0299,  0.0089], device='cuda:0'), grad: tensor([ 2.9430e-07, -2.4755e-06,  8.2934e-07,  1.8058e-06,  5.7509e-07,
+        -9.9167e-06,  2.1216e-06,  1.4901e-06,  2.1029e-06,  3.1684e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 301, time 217.65, cls_loss 0.0007 cls_loss_mapping 0.0021 cls_loss_causal 0.4740 re_mapping 0.0029 re_causal 0.0091 /// teacc 98.97 lr 0.00010000
+Epoch 303, weight, value: tensor([[ 0.0193, -0.0843, -0.0052,  ..., -0.1269, -0.1551, -0.1411],
+        [-0.1311,  0.0761, -0.1329,  ..., -0.1520, -0.1620, -0.2005],
+        [-0.1074, -0.1756, -0.1876,  ..., -0.2199, -0.1560,  0.1696],
+        ...,
+        [ 0.0825, -0.0654, -0.1329,  ...,  0.0998, -0.1526, -0.1332],
+        [ 0.1213,  0.0980,  0.0849,  ..., -0.2035, -0.1158,  0.0824],
+        [ 0.0659,  0.0337,  0.1064,  ...,  0.0500, -0.0911,  0.0015]],
+       device='cuda:0'), grad: tensor([[ 4.0163e-09,  5.7044e-09,  4.3656e-09,  ...,  6.4028e-09,
+          6.1700e-09,  7.3924e-09],
+        [ 1.7288e-08, -1.7462e-09,  1.6298e-09,  ...,  2.7067e-08,
+          4.8312e-09,  5.0641e-09],
+        [ 1.3388e-08,  2.9104e-09,  8.7311e-10,  ...,  1.9558e-08,
+          1.9791e-09, -2.0023e-08],
+        ...,
+        [-1.0012e-07,  6.4611e-09,  4.0163e-09,  ..., -1.3760e-07,
+          4.2492e-09,  7.0431e-09],
+        [ 4.7730e-08,  6.2631e-08,  5.1805e-08,  ...,  5.1339e-08,
+          3.6671e-09,  4.6275e-08],
+        [-1.2398e-08, -9.9244e-08, -8.7661e-08,  ...,  4.7148e-08,
+          3.7951e-08, -4.8720e-08]], device='cuda:0')
+Epoch 303, bias, value: tensor([ 0.0310, -0.0268, -0.0021,  0.0168,  0.0011, -0.0174,  0.0040,  0.0129,
+        -0.0299,  0.0090], device='cuda:0'), grad: tensor([ 4.0513e-08,  9.0280e-08, -1.1583e-08,  7.8056e-08, -7.1898e-07,
+        -2.6659e-07,  9.0292e-07, -3.3434e-07,  3.3295e-07, -8.9465e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 302, time 217.30, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4804 re_mapping 0.0028 re_causal 0.0094 /// teacc 99.10 lr 0.00010000
+Epoch 304, weight, value: tensor([[ 0.0191, -0.0844, -0.0054,  ..., -0.1275, -0.1554, -0.1416],
+        [-0.1313,  0.0760, -0.1339,  ..., -0.1526, -0.1623, -0.2008],
+        [-0.1083, -0.1758, -0.1878,  ..., -0.2199, -0.1560,  0.1697],
+        ...,
+        [ 0.0827, -0.0653, -0.1332,  ...,  0.1000, -0.1527, -0.1333],
+        [ 0.1212,  0.0979,  0.0850,  ..., -0.2035, -0.1158,  0.0824],
+        [ 0.0662,  0.0340,  0.1066,  ...,  0.0501, -0.0911,  0.0015]],
+       device='cuda:0'), grad: tensor([[ 2.8568e-07,  1.3388e-09,  8.8010e-08,  ...,  3.4925e-10,
+          3.0920e-07,  4.8708e-07],
+        [ 9.1270e-08,  1.9616e-08,  2.7474e-08,  ...,  7.3342e-09,
+          5.7393e-08,  1.3737e-07],
+        [-8.4459e-08,  2.0547e-08,  1.0477e-08,  ...,  5.2387e-09,
+          9.8371e-09, -1.6252e-07],
+        ...,
+        [ 2.1362e-08,  2.0955e-08,  8.5565e-09,  ..., -1.9034e-08,
+          9.3132e-10,  5.7509e-08],
+        [ 9.6951e-07, -1.8370e-07,  2.1351e-07,  ...,  2.1537e-09,
+          1.0598e-06,  1.6708e-06],
+        [ 3.0093e-08,  1.7521e-08,  1.1874e-08,  ...,  2.0955e-09,
+          2.1129e-08,  4.1327e-08]], device='cuda:0')
+Epoch 304, bias, value: tensor([ 0.0308, -0.0269, -0.0021,  0.0160,  0.0011, -0.0170,  0.0040,  0.0133,
+        -0.0300,  0.0090], device='cuda:0'), grad: tensor([ 2.2799e-06,  7.4971e-07, -6.6217e-07,  1.7406e-06,  2.1001e-07,
+         1.2876e-07, -1.3642e-05,  3.6042e-07,  8.4788e-06,  3.5320e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 303, time 217.76, cls_loss 0.0008 cls_loss_mapping 0.0021 cls_loss_causal 0.4816 re_mapping 0.0028 re_causal 0.0092 /// teacc 99.19 lr 0.00010000
+Epoch 305, weight, value: tensor([[ 0.0204, -0.0843, -0.0057,  ..., -0.1277, -0.1584, -0.1448],
+        [-0.1313,  0.0761, -0.1350,  ..., -0.1531, -0.1631, -0.2012],
+        [-0.1088, -0.1773, -0.1884,  ..., -0.2199, -0.1560,  0.1697],
+        ...,
+        [ 0.0828, -0.0654, -0.1339,  ...,  0.1000, -0.1544, -0.1336],
+        [ 0.1212,  0.0979,  0.0853,  ..., -0.2036, -0.1159,  0.0823],
+        [ 0.0687,  0.0357,  0.1090,  ...,  0.0519, -0.0891,  0.0031]],
+       device='cuda:0'), grad: tensor([[ 1.2980e-08,  1.4901e-08,  5.2387e-09,  ...,  2.1770e-08,
+          3.3760e-09,  1.2689e-08],
+        [ 1.5693e-07,  6.1933e-08,  2.8114e-08,  ...,  2.1048e-07,
+          4.5402e-09,  1.4319e-07],
+        [ 2.0082e-07, -4.0350e-07,  1.1642e-08,  ...,  2.4145e-07,
+          2.1537e-09, -5.9837e-07],
+        ...,
+        [-2.0750e-06,  5.2678e-08,  3.3062e-08,  ..., -3.3267e-06,
+          5.2969e-09,  2.3341e-08],
+        [-2.4936e-07, -1.8440e-07, -4.2934e-07,  ...,  8.9000e-08,
+         -6.9849e-10,  3.6613e-08],
+        [ 1.5469e-06, -3.7428e-08, -1.4016e-07,  ...,  2.5891e-06,
+          3.9290e-08,  5.7451e-08]], device='cuda:0')
+Epoch 305, bias, value: tensor([ 0.0291, -0.0269, -0.0021,  0.0152, -0.0006, -0.0167,  0.0043,  0.0133,
+        -0.0300,  0.0110], device='cuda:0'), grad: tensor([ 1.2759e-07,  1.1660e-06, -1.6866e-06,  1.0543e-06,  3.5856e-07,
+         4.9360e-07,  5.5367e-07, -9.5814e-06,  2.8696e-08,  7.4729e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 304, time 217.68, cls_loss 0.0006 cls_loss_mapping 0.0013 cls_loss_causal 0.4642 re_mapping 0.0026 re_causal 0.0087 /// teacc 99.04 lr 0.00010000
+Epoch 306, weight, value: tensor([[ 0.0215, -0.0845, -0.0059,  ..., -0.1280, -0.1583, -0.1449],
+        [-0.1314,  0.0762, -0.1356,  ..., -0.1536, -0.1635, -0.2016],
+        [-0.1091, -0.1779, -0.1891,  ..., -0.2200, -0.1561,  0.1698],
+        ...,
+        [ 0.0829, -0.0655, -0.1348,  ...,  0.1001, -0.1555, -0.1342],
+        [ 0.1214,  0.0982,  0.0866,  ..., -0.2036, -0.1156,  0.0829],
+        [ 0.0691,  0.0362,  0.1095,  ...,  0.0522, -0.0888,  0.0034]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-09,  4.3656e-09,  1.3388e-09,  ...,  4.0163e-09,
+          1.3388e-09,  1.8044e-09],
+        [ 3.3760e-09, -8.2597e-08,  1.9791e-09,  ...,  5.1805e-09,
+          5.8208e-10,  1.1583e-08],
+        [ 2.7940e-09,  1.0128e-08,  2.2119e-09,  ...,  1.1642e-09,
+          4.0745e-10, -2.8173e-08],
+        ...,
+        [ 7.9453e-08,  7.3283e-08,  3.7719e-08,  ...,  1.4005e-07,
+          7.5670e-10,  1.5309e-08],
+        [-1.0885e-08, -5.0641e-09, -1.0594e-08,  ...,  4.2492e-09,
+          1.1642e-09, -5.7626e-09],
+        [-1.3690e-07, -7.3633e-08, -6.4087e-08,  ..., -2.3190e-07,
+          4.5402e-09, -2.0955e-09]], device='cuda:0')
+Epoch 306, bias, value: tensor([ 0.0295, -0.0269, -0.0020,  0.0152, -0.0010, -0.0168,  0.0040,  0.0133,
+        -0.0299,  0.0114], device='cuda:0'), grad: tensor([ 2.5320e-08, -2.8173e-07, -4.2084e-08,  3.8010e-08,  2.3935e-07,
+        -9.7381e-08,  4.1095e-08,  4.0187e-07,  5.6520e-08, -3.7323e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 305, time 217.85, cls_loss 0.0006 cls_loss_mapping 0.0011 cls_loss_causal 0.4443 re_mapping 0.0028 re_causal 0.0089 /// teacc 99.04 lr 0.00010000
+Epoch 307, weight, value: tensor([[ 0.0200, -0.0868, -0.0095,  ..., -0.1286, -0.1590, -0.1481],
+        [-0.1315,  0.0762, -0.1362,  ..., -0.1541, -0.1639, -0.2019],
+        [-0.1098, -0.1788, -0.1898,  ..., -0.2200, -0.1561,  0.1698],
+        ...,
+        [ 0.0828, -0.0658, -0.1378,  ...,  0.0997, -0.1566, -0.1349],
+        [ 0.1215,  0.0987,  0.0885,  ..., -0.2036, -0.1153,  0.0834],
+        [ 0.0696,  0.0366,  0.1096,  ...,  0.0524, -0.0888,  0.0034]],
+       device='cuda:0'), grad: tensor([[-4.5111e-08,  8.1491e-10,  5.8208e-11,  ..., -3.3760e-09,
+          5.1875e-07,  5.2433e-07],
+        [ 1.5832e-08, -3.1432e-09,  3.2014e-09,  ...,  1.3271e-08,
+          9.1386e-09,  2.4447e-07],
+        [ 6.6939e-09,  3.3178e-09,  8.1491e-10,  ...,  3.5507e-09,
+          2.7940e-09, -3.1595e-07],
+        ...,
+        [-2.2119e-09,  1.4552e-08,  1.1350e-08,  ...,  4.1327e-09,
+          4.6566e-10,  3.1432e-08],
+        [-5.0059e-09, -9.8953e-09, -5.7044e-09,  ...,  4.4238e-09,
+          1.4133e-07,  1.4226e-07],
+        [ 1.1001e-08, -1.6473e-08, -1.7870e-08,  ..., -4.0687e-08,
+          2.6776e-09,  5.4715e-09]], device='cuda:0')
+Epoch 307, bias, value: tensor([ 0.0284, -0.0269, -0.0021,  0.0152, -0.0010, -0.0169,  0.0040,  0.0131,
+        -0.0297,  0.0115], device='cuda:0'), grad: tensor([ 1.4110e-06,  6.5612e-07, -7.7300e-07,  1.8103e-08,  9.8662e-08,
+         2.0524e-07, -2.1998e-06,  9.8196e-08,  4.5868e-07,  3.1025e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 306, time 217.60, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4590 re_mapping 0.0027 re_causal 0.0091 /// teacc 99.14 lr 0.00010000
+Epoch 308, weight, value: tensor([[ 0.0207, -0.0875, -0.0105,  ..., -0.1286, -0.1589, -0.1486],
+        [-0.1315,  0.0765, -0.1366,  ..., -0.1543, -0.1643, -0.2026],
+        [-0.1098, -0.1793, -0.1901,  ..., -0.2200, -0.1561,  0.1699],
+        ...,
+        [ 0.0828, -0.0661, -0.1386,  ...,  0.0998, -0.1574, -0.1357],
+        [ 0.1216,  0.0991,  0.0895,  ..., -0.2037, -0.1151,  0.0835],
+        [ 0.0696,  0.0363,  0.1097,  ...,  0.0524, -0.0889,  0.0033]],
+       device='cuda:0'), grad: tensor([[-4.6566e-09,  7.7998e-09,  3.4925e-10,  ...,  6.4028e-10,
+          5.8790e-09,  4.5402e-09],
+        [ 2.3923e-08, -1.9267e-08,  3.4925e-10,  ...,  3.5274e-08,
+          5.8208e-10,  7.5670e-10],
+        [ 5.1805e-09,  3.8417e-09,  8.7311e-10,  ...,  5.9372e-09,
+          6.4028e-10,  1.6880e-09],
+        ...,
+        [-4.7323e-08,  8.3121e-08,  2.3923e-08,  ..., -6.4785e-08,
+          5.8790e-09,  4.9477e-09],
+        [ 1.3504e-08,  2.4622e-08,  1.5716e-09,  ...,  2.1013e-08,
+          4.2492e-09,  3.2014e-09],
+        [ 3.7835e-09, -9.3132e-10, -7.6834e-09,  ...,  1.1933e-08,
+          8.6729e-09,  4.0163e-09]], device='cuda:0')
+Epoch 308, bias, value: tensor([ 0.0289, -0.0268, -0.0020,  0.0147, -0.0010, -0.0161,  0.0035,  0.0130,
+        -0.0296,  0.0114], device='cuda:0'), grad: tensor([ 4.1502e-08,  2.6834e-08,  3.2363e-08,  8.2003e-07, -1.2224e-09,
+        -1.7965e-06,  5.1688e-07,  5.1339e-08,  2.5611e-07,  7.3051e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 307, time 217.67, cls_loss 0.0006 cls_loss_mapping 0.0013 cls_loss_causal 0.4749 re_mapping 0.0028 re_causal 0.0094 /// teacc 99.16 lr 0.00010000
+Epoch 309, weight, value: tensor([[ 0.0210, -0.0881, -0.0112,  ..., -0.1286, -0.1585, -0.1487],
+        [-0.1316,  0.0766, -0.1371,  ..., -0.1550, -0.1646, -0.2028],
+        [-0.1106, -0.1799, -0.1909,  ..., -0.2200, -0.1560,  0.1700],
+        ...,
+        [ 0.0829, -0.0661, -0.1390,  ...,  0.0999, -0.1582, -0.1360],
+        [ 0.1216,  0.0991,  0.0891,  ..., -0.2037, -0.1153,  0.0835],
+        [ 0.0696,  0.0363,  0.1097,  ...,  0.0523, -0.0889,  0.0033]],
+       device='cuda:0'), grad: tensor([[-1.6356e-08,  9.8953e-10,  1.3388e-09,  ..., -6.4611e-09,
+          1.1059e-09,  8.7894e-09],
+        [ 1.6461e-07,  3.3178e-09,  8.7311e-10,  ...,  2.0431e-08,
+          8.7311e-10,  2.4983e-07],
+        [-2.2934e-07, -3.4750e-08,  1.7462e-10,  ...,  1.0303e-08,
+          4.6566e-10, -6.8638e-07],
+        ...,
+        [ 4.0804e-08,  5.2387e-09,  5.4133e-09,  ..., -4.0163e-08,
+          1.4552e-09,  1.4342e-07],
+        [ 2.8813e-08,  2.6717e-08,  3.1432e-08,  ...,  1.1059e-08,
+          2.4447e-09,  1.8976e-07],
+        [ 1.2224e-09, -1.1059e-08, -2.6252e-08,  ...,  4.8894e-09,
+          2.1362e-08,  2.7067e-08]], device='cuda:0')
+Epoch 309, bias, value: tensor([ 0.0291, -0.0268, -0.0019,  0.0153, -0.0010, -0.0160,  0.0034,  0.0130,
+        -0.0297,  0.0113], device='cuda:0'), grad: tensor([-1.4412e-07,  9.8161e-07, -2.2873e-06,  1.3644e-07,  1.5460e-07,
+        -1.7346e-07,  4.2957e-08,  4.3400e-07,  7.7905e-07,  9.9011e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 308, time 217.71, cls_loss 0.0006 cls_loss_mapping 0.0013 cls_loss_causal 0.4569 re_mapping 0.0028 re_causal 0.0092 /// teacc 99.06 lr 0.00010000
+Epoch 310, weight, value: tensor([[ 0.0211, -0.0883, -0.0114,  ..., -0.1288, -0.1587, -0.1492],
+        [-0.1315,  0.0771, -0.1377,  ..., -0.1557, -0.1650, -0.2033],
+        [-0.1112, -0.1804, -0.1918,  ..., -0.2199, -0.1561,  0.1701],
+        ...,
+        [ 0.0830, -0.0664, -0.1396,  ...,  0.1000, -0.1587, -0.1373],
+        [ 0.1216,  0.0991,  0.0894,  ..., -0.2038, -0.1153,  0.0835],
+        [ 0.0694,  0.0357,  0.1098,  ...,  0.0524, -0.0890,  0.0033]],
+       device='cuda:0'), grad: tensor([[-1.9441e-08,  5.9954e-09,  1.6880e-09,  ...,  1.1642e-10,
+         -1.2747e-08,  6.0536e-09],
+        [ 1.6706e-08,  2.3225e-08,  1.1350e-08,  ...,  9.8953e-10,
+          5.1805e-09,  2.9919e-08],
+        [ 6.5193e-09,  1.7462e-08,  4.7148e-09,  ...,  1.7462e-10,
+          2.9686e-09, -1.4552e-09],
+        ...,
+        [ 1.0827e-08,  2.4738e-08,  7.5670e-09,  ...,  1.9209e-09,
+          3.0268e-09,  2.3865e-08],
+        [-1.1083e-07, -2.6380e-07, -8.5973e-08,  ...,  1.1642e-10,
+         -1.3155e-08, -2.0827e-07],
+        [ 3.0966e-08,  6.3912e-08,  2.2468e-08,  ...,  2.7940e-09,
+          1.3213e-08,  5.7451e-08]], device='cuda:0')
+Epoch 310, bias, value: tensor([ 0.0290, -0.0266, -0.0018,  0.0152, -0.0010, -0.0161,  0.0034,  0.0129,
+        -0.0297,  0.0112], device='cuda:0'), grad: tensor([-1.0466e-07,  8.3179e-08,  9.6625e-09,  1.4598e-07,  5.8208e-09,
+         7.6951e-08,  1.3970e-07,  1.0116e-07, -6.8173e-07,  2.4075e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 309, time 217.56, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4428 re_mapping 0.0027 re_causal 0.0087 /// teacc 99.07 lr 0.00010000
+Epoch 311, weight, value: tensor([[ 0.0213, -0.0883, -0.0115,  ..., -0.1289, -0.1595, -0.1505],
+        [-0.1317,  0.0769, -0.1393,  ..., -0.1569, -0.1668, -0.2068],
+        [-0.1120, -0.1805, -0.1922,  ..., -0.2200, -0.1561,  0.1703],
+        ...,
+        [ 0.0831, -0.0664, -0.1400,  ...,  0.1003, -0.1591, -0.1379],
+        [ 0.1216,  0.0993,  0.0898,  ..., -0.2038, -0.1155,  0.0835],
+        [ 0.0695,  0.0360,  0.1098,  ...,  0.0525, -0.0889,  0.0033]],
+       device='cuda:0'), grad: tensor([[-8.7311e-10,  7.2876e-08,  3.9581e-09,  ...,  2.0373e-09,
+          6.7870e-08,  3.8417e-09],
+        [ 8.9640e-09, -5.3570e-06,  1.2515e-08,  ...,  1.2864e-08,
+         -5.2825e-06, -2.1106e-07],
+        [ 3.6671e-09,  5.0291e-06,  4.4820e-09,  ...,  2.0955e-09,
+          4.9509e-06,  2.0349e-07],
+        ...,
+        [ 3.2596e-08,  1.8126e-07,  7.5204e-08,  ...,  6.5716e-08,
+          8.1491e-08,  1.2806e-08],
+        [-6.1467e-08, -1.3015e-07, -5.7800e-08,  ...,  8.5565e-09,
+          5.2270e-08, -9.9652e-08],
+        [-2.2992e-08, -4.7730e-09, -2.4971e-08,  ..., -9.4413e-08,
+          3.0675e-08,  4.1444e-08]], device='cuda:0')
+Epoch 311, bias, value: tensor([ 0.0287, -0.0268, -0.0017,  0.0147, -0.0011, -0.0160,  0.0036,  0.0131,
+        -0.0297,  0.0112], device='cuda:0'), grad: tensor([ 7.5763e-07, -5.8055e-05,  5.4449e-05,  2.1104e-06,  3.9674e-07,
+        -2.5164e-06,  3.9814e-07,  1.1669e-06,  1.1623e-06,  2.5914e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 310, time 217.80, cls_loss 0.0008 cls_loss_mapping 0.0013 cls_loss_causal 0.4566 re_mapping 0.0027 re_causal 0.0091 /// teacc 99.07 lr 0.00010000
+Epoch 312, weight, value: tensor([[ 0.0217, -0.0886, -0.0119,  ..., -0.1293, -0.1596, -0.1508],
+        [-0.1318,  0.0800, -0.1379,  ..., -0.1580, -0.1660, -0.2034],
+        [-0.1123, -0.1856, -0.1937,  ..., -0.2201, -0.1565,  0.1687],
+        ...,
+        [ 0.0832, -0.0666, -0.1410,  ...,  0.1004, -0.1602, -0.1384],
+        [ 0.1217,  0.0974,  0.0872,  ..., -0.2038, -0.1156,  0.0836],
+        [ 0.0696,  0.0361,  0.1099,  ...,  0.0525, -0.0890,  0.0033]],
+       device='cuda:0'), grad: tensor([[ 5.1397e-08,  1.4598e-07,  7.5146e-08,  ...,  2.7707e-08,
+          2.2002e-08,  9.5577e-08],
+        [ 7.1304e-08,  1.8103e-07,  9.8255e-08,  ...,  4.6683e-08,
+          3.6904e-08,  1.5402e-07],
+        [ 7.8348e-08,  2.4145e-07,  9.7090e-08,  ...,  1.5774e-08,
+          4.2899e-08,  1.3236e-07],
+        ...,
+        [ 6.8627e-08,  1.8941e-07,  1.6019e-07,  ...,  1.1653e-07,
+          3.3586e-08,  1.2899e-07],
+        [-3.3970e-07, -1.2517e-06, -4.8848e-07,  ...,  4.6100e-08,
+         -1.9337e-07, -8.7358e-07],
+        [-8.2131e-08,  8.7079e-08, -1.8138e-07,  ...,  1.7866e-05,
+          7.4692e-06,  6.9849e-06]], device='cuda:0')
+Epoch 312, bias, value: tensor([ 0.0288, -0.0245, -0.0042,  0.0142, -0.0011, -0.0159,  0.0036,  0.0131,
+        -0.0306,  0.0113], device='cuda:0'), grad: tensor([ 5.6438e-07,  8.1025e-07,  8.5402e-07,  5.2573e-07, -3.0413e-05,
+         6.6299e-08,  1.4831e-07,  1.0533e-06, -4.1574e-06,  3.0577e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 311, time 217.59, cls_loss 0.0008 cls_loss_mapping 0.0031 cls_loss_causal 0.4520 re_mapping 0.0029 re_causal 0.0095 /// teacc 99.11 lr 0.00010000
+Epoch 313, weight, value: tensor([[ 0.0218, -0.0889, -0.0123,  ..., -0.1294, -0.1597, -0.1512],
+        [-0.1319,  0.0795, -0.1401,  ..., -0.1589, -0.1684, -0.2039],
+        [-0.1124, -0.1872, -0.1968,  ..., -0.2201, -0.1566,  0.1680],
+        ...,
+        [ 0.0833, -0.0667, -0.1417,  ...,  0.1007, -0.1608, -0.1396],
+        [ 0.1243,  0.1019,  0.0927,  ..., -0.2039, -0.1153,  0.0878],
+        [ 0.0692,  0.0346,  0.1093,  ...,  0.0524, -0.0891,  0.0027]],
+       device='cuda:0'), grad: tensor([[-9.0455e-08,  3.1432e-09,  1.8626e-09,  ...,  7.5670e-10,
+          2.9104e-09,  2.8522e-09],
+        [ 9.8662e-08, -3.0850e-09,  3.8417e-09,  ...,  2.5379e-07,
+          1.3970e-08,  1.0716e-07],
+        [ 1.1059e-07,  5.4133e-09,  1.9791e-09,  ...,  2.5239e-07,
+          1.4144e-08,  9.2608e-08],
+        ...,
+        [-1.8300e-07,  1.7928e-08,  9.4296e-09,  ..., -5.1316e-07,
+         -2.7881e-08, -1.9907e-07],
+        [ 1.0012e-08,  4.5309e-07,  2.7032e-07,  ...,  4.0745e-09,
+          5.5297e-09, -8.7311e-10],
+        [ 1.9791e-08,  2.6193e-08,  8.6729e-09,  ..., -1.4843e-08,
+          9.3132e-10,  2.4447e-09]], device='cuda:0')
+Epoch 313, bias, value: tensor([ 0.0288, -0.0239, -0.0060,  0.0125, -0.0010, -0.0185,  0.0035,  0.0131,
+        -0.0267,  0.0108], device='cuda:0'), grad: tensor([-3.1618e-07,  7.6229e-07,  8.0978e-07,  1.2219e-05,  5.2212e-08,
+        -1.4201e-05,  4.9768e-08, -1.4277e-06,  1.8720e-06,  1.8789e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 312, time 217.72, cls_loss 0.0006 cls_loss_mapping 0.0018 cls_loss_causal 0.4778 re_mapping 0.0026 re_causal 0.0091 /// teacc 99.08 lr 0.00010000
+Epoch 314, weight, value: tensor([[ 0.0219, -0.0890, -0.0124,  ..., -0.1296, -0.1600, -0.1517],
+        [-0.1321,  0.0795, -0.1401,  ..., -0.1600, -0.1691, -0.2039],
+        [-0.1140, -0.1874, -0.1972,  ..., -0.2203, -0.1567,  0.1680],
+        ...,
+        [ 0.0835, -0.0668, -0.1422,  ...,  0.1011, -0.1614, -0.1397],
+        [ 0.1247,  0.1024,  0.0931,  ..., -0.2039, -0.1154,  0.0881],
+        [ 0.0691,  0.0345,  0.1093,  ...,  0.0524, -0.0892,  0.0026]],
+       device='cuda:0'), grad: tensor([[-1.8277e-08,  6.4028e-10,  0.0000e+00,  ...,  9.1386e-09,
+         -4.3074e-09,  1.1642e-10],
+        [ 1.0186e-08,  6.9849e-09,  4.6566e-10,  ...,  1.2643e-07,
+          2.3283e-10,  1.5134e-09],
+        [ 2.3865e-09,  4.4820e-09,  2.9104e-10,  ...,  6.1002e-08,
+          1.1642e-10, -2.4447e-09],
+        ...,
+        [-9.0047e-08, -1.4773e-07,  3.4925e-10,  ..., -2.2743e-06,
+          2.3283e-10,  6.9849e-10],
+        [ 8.3819e-09, -2.3283e-10, -8.1491e-10,  ...,  4.5926e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 5.6345e-08,  1.0786e-07,  1.1642e-10,  ...,  1.5935e-06,
+          2.0955e-09,  9.3132e-10]], device='cuda:0')
+Epoch 314, bias, value: tensor([ 0.0286, -0.0240, -0.0061,  0.0114, -0.0010, -0.0188,  0.0036,  0.0132,
+        -0.0263,  0.0107], device='cuda:0'), grad: tensor([-7.0955e-08,  2.4866e-07,  1.1554e-07,  4.3120e-07,  3.9861e-07,
+         7.4040e-08,  4.2317e-08, -4.4368e-06,  9.2492e-08,  3.1367e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 313, time 217.55, cls_loss 0.0007 cls_loss_mapping 0.0015 cls_loss_causal 0.4750 re_mapping 0.0025 re_causal 0.0089 /// teacc 99.04 lr 0.00010000
+Epoch 315, weight, value: tensor([[ 0.0220, -0.0888, -0.0124,  ..., -0.1300, -0.1598, -0.1520],
+        [-0.1322,  0.0794, -0.1402,  ..., -0.1611, -0.1707, -0.2040],
+        [-0.1135, -0.1874, -0.1977,  ..., -0.2203, -0.1568,  0.1680],
+        ...,
+        [ 0.0836, -0.0669, -0.1427,  ...,  0.1016, -0.1610, -0.1403],
+        [ 0.1247,  0.1025,  0.0932,  ..., -0.2040, -0.1154,  0.0884],
+        [ 0.0692,  0.0347,  0.1094,  ...,  0.0524, -0.0893,  0.0026]],
+       device='cuda:0'), grad: tensor([[ 4.8894e-09,  1.2980e-08,  7.0431e-09,  ...,  1.3039e-08,
+          7.5670e-08,  4.9593e-08],
+        [ 1.3364e-07, -1.7812e-08,  1.0536e-08,  ...,  1.2154e-07,
+          2.4040e-08,  1.7753e-08],
+        [ 8.6147e-09,  3.1432e-08,  2.7358e-09,  ...,  8.5565e-09,
+          2.6368e-08, -7.1479e-08],
+        ...,
+        [-1.4924e-07,  3.1258e-08,  1.9209e-08,  ..., -1.0064e-07,
+          2.4447e-08,  7.9744e-09],
+        [-3.6845e-08, -3.7253e-08, -3.9057e-08,  ...,  2.2352e-08,
+          8.1840e-08,  2.4622e-08],
+        [-1.1869e-07, -1.6857e-07, -1.5728e-07,  ..., -4.8382e-07,
+         -9.8778e-08,  1.8044e-09]], device='cuda:0')
+Epoch 315, bias, value: tensor([ 0.0291, -0.0241, -0.0061,  0.0102, -0.0010, -0.0186,  0.0036,  0.0133,
+        -0.0263,  0.0107], device='cuda:0'), grad: tensor([ 2.8266e-07,  4.5891e-07, -3.1502e-07,  1.0245e-06,  3.0752e-06,
+        -5.8189e-06,  2.2855e-06, -2.8522e-07,  2.1630e-07, -9.2294e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 314, time 217.32, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4652 re_mapping 0.0026 re_causal 0.0092 /// teacc 99.04 lr 0.00010000
+Epoch 316, weight, value: tensor([[ 0.0221, -0.0889, -0.0126,  ..., -0.1308, -0.1600, -0.1523],
+        [-0.1323,  0.0794, -0.1402,  ..., -0.1615, -0.1711, -0.2041],
+        [-0.1141, -0.1875, -0.1980,  ..., -0.2204, -0.1568,  0.1680],
+        ...,
+        [ 0.0836, -0.0669, -0.1431,  ...,  0.1018, -0.1617, -0.1405],
+        [ 0.1247,  0.1025,  0.0932,  ..., -0.2040, -0.1155,  0.0885],
+        [ 0.0693,  0.0347,  0.1094,  ...,  0.0523, -0.0895,  0.0025]],
+       device='cuda:0'), grad: tensor([[ 1.9209e-09,  4.2492e-09,  6.4028e-10,  ...,  5.9663e-08,
+          5.6520e-08,  8.3819e-09],
+        [ 1.1292e-07,  7.0431e-09,  1.0477e-09,  ...,  1.6124e-07,
+          2.5495e-08,  3.8883e-08],
+        [ 6.6683e-07,  1.6252e-07,  5.8208e-11,  ...,  9.6578e-07,
+          8.2655e-09,  5.0431e-07],
+        ...,
+        [-1.0449e-06,  1.3097e-08,  2.0373e-09,  ..., -1.4678e-06,
+          1.4377e-08, -6.9151e-07],
+        [ 1.2014e-07,  1.7753e-08,  1.7462e-09,  ...,  1.7765e-07,
+          8.0327e-09,  8.7777e-08],
+        [ 3.4343e-08,  4.5984e-09, -8.9058e-09,  ...,  9.2294e-07,
+          8.5775e-07,  2.4273e-08]], device='cuda:0')
+Epoch 316, bias, value: tensor([ 0.0291, -0.0241, -0.0061,  0.0103, -0.0009, -0.0186,  0.0035,  0.0133,
+        -0.0263,  0.0106], device='cuda:0'), grad: tensor([ 9.3482e-08,  5.0012e-07,  3.4384e-06, -1.0390e-07, -1.4827e-06,
+         1.7637e-08,  7.7067e-08, -4.6417e-06,  6.2119e-07,  1.4929e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 315, time 217.57, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4801 re_mapping 0.0025 re_causal 0.0088 /// teacc 99.14 lr 0.00010000
+Epoch 317, weight, value: tensor([[ 0.0224, -0.0891, -0.0128,  ..., -0.1313, -0.1602, -0.1527],
+        [-0.1323,  0.0799, -0.1402,  ..., -0.1619, -0.1706, -0.2041],
+        [-0.1148, -0.1876, -0.1983,  ..., -0.2206, -0.1576,  0.1680],
+        ...,
+        [ 0.0839, -0.0670, -0.1438,  ...,  0.1024, -0.1641, -0.1413],
+        [ 0.1247,  0.1025,  0.0932,  ..., -0.2041, -0.1156,  0.0884],
+        [ 0.0690,  0.0340,  0.1096,  ...,  0.0522, -0.0896,  0.0025]],
+       device='cuda:0'), grad: tensor([[-2.1397e-07,  8.6147e-07,  3.3225e-07,  ...,  1.1092e-06,
+          4.2492e-09,  3.2037e-07],
+        [ 6.2864e-07,  4.0010e-06,  1.5460e-06,  ...,  5.2862e-06,
+          9.6625e-09,  1.4910e-06],
+        [ 1.6880e-07,  4.4331e-07,  1.7066e-07,  ...,  6.7288e-07,
+          2.0955e-09,  1.4331e-07],
+        ...,
+        [-8.1724e-07,  2.9188e-06,  1.1260e-06,  ...,  2.3842e-06,
+          2.2352e-08,  1.0924e-06],
+        [ 4.0117e-07,  1.5255e-06,  5.8720e-07,  ...,  2.1365e-06,
+          6.4611e-09,  5.6811e-07],
+        [-2.5500e-06, -2.7806e-05, -1.1504e-05,  ..., -5.4717e-05,
+         -1.2621e-05, -1.8716e-05]], device='cuda:0')
+Epoch 317, bias, value: tensor([ 0.0290, -0.0240, -0.0061,  0.0103, -0.0009, -0.0186,  0.0035,  0.0135,
+        -0.0264,  0.0104], device='cuda:0'), grad: tensor([ 2.3954e-06,  1.7777e-05,  2.2408e-06,  1.9725e-06,  1.1349e-04,
+         1.0896e-06,  5.8580e-07,  8.8289e-06,  7.6964e-06, -1.5604e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 316, time 217.83, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4413 re_mapping 0.0026 re_causal 0.0083 /// teacc 99.04 lr 0.00010000
+Epoch 318, weight, value: tensor([[ 0.0229, -0.0892, -0.0130,  ..., -0.1318, -0.1605, -0.1532],
+        [-0.1324,  0.0799, -0.1403,  ..., -0.1633, -0.1717, -0.2042],
+        [-0.1147, -0.1876, -0.1986,  ..., -0.2206, -0.1576,  0.1680],
+        ...,
+        [ 0.0839, -0.0673, -0.1451,  ...,  0.1024, -0.1660, -0.1419],
+        [ 0.1247,  0.1025,  0.0932,  ..., -0.2042, -0.1158,  0.0884],
+        [ 0.0687,  0.0348,  0.1098,  ...,  0.0518, -0.0905,  0.0019]],
+       device='cuda:0'), grad: tensor([[ 2.2375e-07,  8.2375e-07,  2.3912e-07,  ...,  7.5437e-07,
+          8.1607e-08,  1.5507e-07],
+        [ 7.5437e-07,  2.7269e-06,  7.9023e-07,  ...,  2.4959e-06,
+          9.5752e-08,  4.8708e-07],
+        [ 1.2550e-07,  4.5542e-07,  1.2410e-07,  ...,  4.3027e-07,
+          5.1106e-08,  2.6776e-08],
+        ...,
+        [ 9.7230e-07,  3.9265e-06,  1.1744e-06,  ...,  3.2950e-06,
+          6.0070e-08,  6.1933e-07],
+        [ 6.5472e-07,  2.9225e-06,  7.3155e-07,  ...,  2.8163e-06,
+          7.4925e-07,  6.9011e-07],
+        [-3.4142e-06, -1.3471e-05, -3.7234e-06,  ..., -1.2472e-05,
+         -1.6633e-06, -2.5611e-06]], device='cuda:0')
+Epoch 318, bias, value: tensor([ 0.0290, -0.0241, -0.0061,  0.0103, -0.0005, -0.0186,  0.0036,  0.0134,
+        -0.0264,  0.0100], device='cuda:0'), grad: tensor([ 3.2410e-06,  1.0759e-05,  1.6280e-06,  2.3358e-06,  6.3367e-06,
+         2.4419e-06, -5.4191e-08,  1.3985e-05,  1.1757e-05, -5.2422e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 317, time 217.61, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4624 re_mapping 0.0025 re_causal 0.0084 /// teacc 99.02 lr 0.00010000
+Epoch 319, weight, value: tensor([[ 0.0239, -0.0894, -0.0132,  ..., -0.1321, -0.1607, -0.1533],
+        [-0.1326,  0.0799, -0.1403,  ..., -0.1641, -0.1729, -0.2042],
+        [-0.1162, -0.1876, -0.1990,  ..., -0.2207, -0.1578,  0.1680],
+        ...,
+        [ 0.0840, -0.0675, -0.1463,  ...,  0.1025, -0.1686, -0.1425],
+        [ 0.1248,  0.1025,  0.0932,  ..., -0.2043, -0.1159,  0.0885],
+        [ 0.0689,  0.0353,  0.1099,  ...,  0.0518, -0.0905,  0.0019]],
+       device='cuda:0'), grad: tensor([[ 1.2107e-08,  1.8510e-08,  1.7812e-08,  ...,  1.7229e-08,
+          7.2760e-09,  5.0641e-09],
+        [ 1.1525e-08,  8.5565e-09,  1.0594e-08,  ...,  1.0012e-08,
+          1.9209e-09,  2.7940e-09],
+        [ 1.7462e-09,  4.5344e-08,  7.0431e-09,  ...,  1.4552e-09,
+          8.1491e-10,  6.9849e-10],
+        ...,
+        [ 1.4901e-08,  1.8917e-08,  1.7521e-08,  ...,  1.1118e-08,
+          1.6880e-09,  1.6880e-09],
+        [ 2.7940e-07,  2.3108e-07,  2.7427e-07,  ...,  2.1490e-07,
+          1.3970e-08, -4.0745e-10],
+        [-3.7532e-07, -3.5856e-07, -3.8138e-07,  ..., -3.4133e-07,
+         -4.1153e-08, -2.5670e-08]], device='cuda:0')
+Epoch 319, bias, value: tensor([ 0.0292, -0.0242, -0.0061,  0.0100, -0.0004, -0.0186,  0.0036,  0.0135,
+        -0.0264,  0.0101], device='cuda:0'), grad: tensor([ 4.9709e-08,  3.6962e-08,  1.2130e-07, -1.4249e-07,  2.0489e-07,
+        -4.0699e-07,  5.0233e-08,  6.4319e-08,  1.3430e-06, -1.3048e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 318, time 217.64, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4642 re_mapping 0.0026 re_causal 0.0091 /// teacc 99.09 lr 0.00010000
+Epoch 320, weight, value: tensor([[ 0.0235, -0.0897, -0.0134,  ..., -0.1328, -0.1614, -0.1543],
+        [-0.1329,  0.0798, -0.1403,  ..., -0.1653, -0.1738, -0.2043],
+        [-0.1179, -0.1877, -0.1995,  ..., -0.2208, -0.1579,  0.1681],
+        ...,
+        [ 0.0841, -0.0678, -0.1488,  ...,  0.1030, -0.1668, -0.1424],
+        [ 0.1248,  0.1025,  0.0932,  ..., -0.2046, -0.1160,  0.0885],
+        [ 0.0706,  0.0381,  0.1111,  ...,  0.0526, -0.0897,  0.0027]],
+       device='cuda:0'), grad: tensor([[ 7.5612e-08,  1.0227e-07,  6.9616e-08,  ...,  6.9267e-08,
+          8.1491e-10,  6.4028e-10],
+        [ 4.7032e-08,  4.7730e-09,  1.1874e-08,  ...,  6.9325e-08,
+          1.3388e-09,  1.8044e-08],
+        [ 2.4564e-08,  6.9849e-09,  1.3388e-09,  ...,  5.8382e-08,
+          1.2224e-09,  1.6589e-08],
+        ...,
+        [ 1.6182e-07,  3.3318e-07,  2.2701e-07,  ...,  7.3342e-09,
+         -9.8953e-10, -6.3621e-08],
+        [ 1.1321e-07,  1.6321e-07,  1.0472e-07,  ...,  1.2154e-07,
+          1.5134e-09, -2.0955e-09],
+        [-5.0385e-07, -6.5519e-07, -4.6147e-07,  ..., -4.0838e-07,
+          1.0361e-08,  1.4028e-08]], device='cuda:0')
+Epoch 320, bias, value: tensor([ 0.0287, -0.0243, -0.0061,  0.0098, -0.0013, -0.0187,  0.0037,  0.0137,
+        -0.0264,  0.0112], device='cuda:0'), grad: tensor([ 2.6845e-07,  1.8720e-07,  1.6275e-07, -4.8021e-08,  1.8475e-07,
+         8.7777e-08,  8.9640e-09,  3.2061e-07,  4.8801e-07, -1.6605e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 319, time 217.55, cls_loss 0.0006 cls_loss_mapping 0.0013 cls_loss_causal 0.4428 re_mapping 0.0026 re_causal 0.0090 /// teacc 99.11 lr 0.00010000
+Epoch 321, weight, value: tensor([[ 0.0229, -0.0897, -0.0136,  ..., -0.1333, -0.1625, -0.1560],
+        [-0.1330,  0.0798, -0.1404,  ..., -0.1660, -0.1743, -0.2044],
+        [-0.1193, -0.1878, -0.1998,  ..., -0.2209, -0.1579,  0.1681],
+        ...,
+        [ 0.0841, -0.0681, -0.1504,  ...,  0.1032, -0.1689, -0.1428],
+        [ 0.1248,  0.1025,  0.0931,  ..., -0.2048, -0.1162,  0.0885],
+        [ 0.0723,  0.0404,  0.1117,  ...,  0.0533, -0.0888,  0.0034]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  2.9104e-09,  3.8417e-09,  ...,  4.8894e-09,
+          8.0327e-09,  6.6357e-09],
+        [ 1.4901e-08,  4.6566e-10,  2.0955e-09,  ...,  1.3155e-08,
+          7.3342e-09,  8.1491e-09],
+        [ 1.0012e-08,  1.3970e-09,  4.6566e-10,  ...,  8.3819e-09,
+          1.7462e-09, -1.7812e-08],
+        ...,
+        [-2.9104e-09,  2.0489e-08,  2.6426e-08,  ...,  6.1700e-09,
+          1.1642e-10,  7.6834e-09],
+        [ 8.3819e-09,  3.4925e-09,  3.9581e-09,  ...,  1.0361e-08,
+          1.6065e-08,  1.5367e-08],
+        [-4.8894e-08, -3.2829e-08, -5.1106e-08,  ..., -6.0070e-08,
+          2.9104e-09,  1.8626e-09]], device='cuda:0')
+Epoch 321, bias, value: tensor([ 0.0279, -0.0243, -0.0061,  0.0097, -0.0018, -0.0187,  0.0038,  0.0138,
+        -0.0264,  0.0119], device='cuda:0'), grad: tensor([ 3.8650e-08,  7.3691e-08, -1.3970e-08,  1.3271e-08,  6.8569e-08,
+         3.7136e-08, -1.0431e-07,  2.8987e-08,  9.4180e-08, -2.1525e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 320, time 217.74, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4806 re_mapping 0.0027 re_causal 0.0092 /// teacc 99.14 lr 0.00010000
+Epoch 322, weight, value: tensor([[ 0.0231, -0.0901, -0.0140,  ..., -0.1343, -0.1627, -0.1563],
+        [-0.1342,  0.0794, -0.1404,  ..., -0.1672, -0.1751, -0.2045],
+        [-0.1215, -0.1878, -0.2003,  ..., -0.2210, -0.1580,  0.1682],
+        ...,
+        [ 0.0842, -0.0687, -0.1526,  ...,  0.1026, -0.1702, -0.1446],
+        [ 0.1247,  0.1024,  0.0931,  ..., -0.2050, -0.1163,  0.0885],
+        [ 0.0748,  0.0419,  0.1120,  ...,  0.0531, -0.0893,  0.0030]],
+       device='cuda:0'), grad: tensor([[ 1.1292e-07,  2.4866e-07,  1.5018e-08,  ...,  4.0373e-07,
+          1.1572e-07,  2.8359e-07],
+        [ 1.3341e-07,  1.5716e-07,  1.1222e-07,  ...,  7.2061e-08,
+          1.4319e-08,  2.0990e-07],
+        [ 4.7032e-08,  6.4960e-08,  3.2247e-08,  ...,  3.9698e-08,
+          3.5157e-08, -5.2503e-08],
+        ...,
+        [ 1.2224e-08,  9.9768e-08,  3.0734e-08,  ...,  5.9954e-08,
+          3.2480e-08,  1.8696e-07],
+        [-1.9744e-06, -2.9262e-06, -2.0210e-06,  ...,  3.3993e-08,
+          2.5611e-08, -2.7884e-06],
+        [ 1.3048e-06,  1.8207e-06,  1.5292e-06,  ..., -1.2573e-07,
+          4.3283e-07,  2.0452e-06]], device='cuda:0')
+Epoch 322, bias, value: tensor([ 0.0278, -0.0251, -0.0061,  0.0094, -0.0015, -0.0187,  0.0038,  0.0142,
+        -0.0264,  0.0122], device='cuda:0'), grad: tensor([ 1.7509e-06,  9.5181e-07, -2.6217e-07,  1.3396e-05, -5.9232e-07,
+        -1.6570e-05,  3.6117e-06,  9.3225e-07, -9.6262e-06,  6.4224e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 321, time 217.89, cls_loss 0.0006 cls_loss_mapping 0.0018 cls_loss_causal 0.4671 re_mapping 0.0027 re_causal 0.0089 /// teacc 99.00 lr 0.00010000
+Epoch 323, weight, value: tensor([[ 0.0235, -0.0902, -0.0141,  ..., -0.1346, -0.1623, -0.1559],
+        [-0.1344,  0.0796, -0.1404,  ..., -0.1680, -0.1764, -0.2046],
+        [-0.1223, -0.1879, -0.2005,  ..., -0.2210, -0.1580,  0.1682],
+        ...,
+        [ 0.0844, -0.0691, -0.1529,  ...,  0.1026, -0.1708, -0.1449],
+        [ 0.1248,  0.1025,  0.0931,  ..., -0.2052, -0.1164,  0.0887],
+        [ 0.0751,  0.0425,  0.1121,  ...,  0.0534, -0.0892,  0.0032]],
+       device='cuda:0'), grad: tensor([[-1.1967e-07, -2.0023e-08,  0.0000e+00,  ...,  6.0536e-09,
+          4.6566e-09, -1.0943e-08],
+        [ 4.4354e-08, -2.3283e-10,  1.1642e-10,  ...,  1.8126e-07,
+          1.5786e-07,  1.4529e-07],
+        [ 8.7311e-09,  6.8685e-09,  1.1642e-10,  ...,  3.0315e-07,
+          4.9127e-07,  4.0652e-07],
+        ...,
+        [-1.6042e-07,  3.0734e-08,  9.3132e-10,  ..., -2.2072e-07,
+          1.0012e-07,  7.0082e-08],
+        [ 1.9674e-08,  3.0780e-07,  2.3283e-10,  ...,  2.3283e-08,
+          1.1199e-07,  1.5949e-08],
+        [ 1.1199e-07,  3.1991e-07, -1.2806e-09,  ...,  1.1250e-06,
+          8.3866e-07,  6.0024e-07]], device='cuda:0')
+Epoch 323, bias, value: tensor([ 0.0293, -0.0251, -0.0061,  0.0098, -0.0016, -0.0185,  0.0029,  0.0142,
+        -0.0265,  0.0124], device='cuda:0'), grad: tensor([-9.5833e-07,  6.0629e-07,  1.2293e-06,  1.1949e-06, -4.0866e-06,
+        -2.3656e-06,  1.3290e-06, -7.3900e-07,  9.5554e-07,  2.8368e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 322, time 217.63, cls_loss 0.0006 cls_loss_mapping 0.0019 cls_loss_causal 0.4547 re_mapping 0.0026 re_causal 0.0088 /// teacc 99.12 lr 0.00010000
+Epoch 324, weight, value: tensor([[ 0.0236, -0.0902, -0.0141,  ..., -0.1350, -0.1625, -0.1562],
+        [-0.1345,  0.0795, -0.1405,  ..., -0.1689, -0.1783, -0.2047],
+        [-0.1226, -0.1879, -0.2007,  ..., -0.2211, -0.1581,  0.1689],
+        ...,
+        [ 0.0845, -0.0692, -0.1533,  ...,  0.1028, -0.1717, -0.1481],
+        [ 0.1248,  0.1026,  0.0932,  ..., -0.2052, -0.1167,  0.0887],
+        [ 0.0749,  0.0424,  0.1121,  ...,  0.0533, -0.0895,  0.0030]],
+       device='cuda:0'), grad: tensor([[-2.3283e-10,  5.8208e-10,  1.1642e-10,  ...,  5.8208e-10,
+          2.6776e-09,  1.5832e-08],
+        [ 6.2981e-08, -5.8208e-10,  4.6566e-10,  ...,  6.3912e-08,
+          1.6182e-08,  9.0571e-08],
+        [ 4.1211e-08,  2.2119e-09,  3.4925e-10,  ...,  4.0513e-08,
+          4.1910e-09, -1.1422e-05],
+        ...,
+        [-1.4435e-07,  6.1700e-09,  1.5134e-09,  ..., -1.3679e-07,
+          2.5844e-08,  1.0997e-05],
+        [ 1.8626e-08,  4.1910e-09,  8.1491e-10,  ...,  2.4098e-08,
+          1.4692e-07,  1.2293e-07],
+        [ 1.6415e-08,  9.3132e-10, -3.4925e-10,  ...,  1.5215e-07,
+          8.6729e-08,  7.1595e-08]], device='cuda:0')
+Epoch 324, bias, value: tensor([ 0.0294, -0.0252, -0.0055,  0.0093, -0.0015, -0.0186,  0.0030,  0.0137,
+        -0.0264,  0.0123], device='cuda:0'), grad: tensor([ 9.1153e-08,  6.9523e-07, -6.0946e-05,  9.1875e-07,  1.8366e-06,
+        -8.1137e-06,  5.4650e-06,  5.8532e-05,  1.2051e-06,  3.8557e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 323, time 217.96, cls_loss 0.0005 cls_loss_mapping 0.0009 cls_loss_causal 0.4519 re_mapping 0.0025 re_causal 0.0087 /// teacc 99.10 lr 0.00010000
+Epoch 325, weight, value: tensor([[ 0.0236, -0.0904, -0.0143,  ..., -0.1353, -0.1627, -0.1565],
+        [-0.1346,  0.0795, -0.1405,  ..., -0.1694, -0.1788, -0.2047],
+        [-0.1232, -0.1881, -0.2009,  ..., -0.2212, -0.1581,  0.1690],
+        ...,
+        [ 0.0846, -0.0693, -0.1536,  ...,  0.1031, -0.1725, -0.1486],
+        [ 0.1248,  0.1025,  0.0931,  ..., -0.2056, -0.1179,  0.0885],
+        [ 0.0750,  0.0433,  0.1123,  ...,  0.0533, -0.0892,  0.0031]],
+       device='cuda:0'), grad: tensor([[-2.3283e-09,  5.6112e-07,  4.0838e-07,  ...,  4.4238e-09,
+          4.6217e-08,  1.9092e-08],
+        [ 1.0827e-08,  1.2026e-07,  5.8091e-08,  ...,  1.0268e-07,
+          6.3563e-08,  1.4086e-08],
+        [ 2.5611e-09,  3.0268e-08,  1.7579e-08,  ...,  7.7998e-09,
+          7.4506e-09,  3.6089e-09],
+        ...,
+        [-1.3737e-08,  9.6625e-08,  4.0513e-08,  ...,  4.1910e-08,
+          4.5868e-08,  7.3342e-09],
+        [ 3.9581e-09,  7.6601e-08,  4.8429e-08,  ...,  1.6880e-08,
+          4.7614e-08,  2.7358e-08],
+        [-2.1420e-08,  4.6147e-07, -3.0850e-08,  ...,  8.5309e-07,
+          6.0629e-07,  8.6147e-08]], device='cuda:0')
+Epoch 325, bias, value: tensor([ 0.0293, -0.0252, -0.0054,  0.0089, -0.0015, -0.0185,  0.0029,  0.0137,
+        -0.0266,  0.0125], device='cuda:0'), grad: tensor([ 3.5372e-06,  7.1991e-07,  1.9313e-07, -7.2233e-06, -1.0682e-06,
+         2.1514e-06, -6.8871e-07,  3.3830e-07,  5.6205e-07,  1.4594e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 324, time 217.85, cls_loss 0.0006 cls_loss_mapping 0.0015 cls_loss_causal 0.4735 re_mapping 0.0027 re_causal 0.0092 /// teacc 99.10 lr 0.00010000
+Epoch 326, weight, value: tensor([[ 0.0241, -0.0903, -0.0145,  ..., -0.1355, -0.1656, -0.1598],
+        [-0.1348,  0.0795, -0.1405,  ..., -0.1710, -0.1806, -0.2049],
+        [-0.1242, -0.1882, -0.2012,  ..., -0.2212, -0.1582,  0.1690],
+        ...,
+        [ 0.0851, -0.0691, -0.1539,  ...,  0.1042, -0.1721, -0.1485],
+        [ 0.1249,  0.1025,  0.0931,  ..., -0.2057, -0.1180,  0.0885],
+        [ 0.0744,  0.0436,  0.1125,  ...,  0.0533, -0.0893,  0.0033]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  1.6298e-09,  3.4925e-10,  ...,  2.4447e-09,
+          3.8417e-09,  4.3074e-09],
+        [ 1.1008e-06,  2.4796e-08,  9.8953e-09,  ...,  1.8347e-06,
+          9.2480e-07,  1.0906e-06],
+        [ 5.1921e-08,  1.2107e-08,  9.3132e-10,  ...,  8.1258e-08,
+          4.3772e-08,  5.2038e-08],
+        ...,
+        [-1.2377e-06,  1.0012e-08,  6.9849e-10,  ..., -2.2110e-06,
+         -1.0747e-06, -1.2442e-06],
+        [-6.9500e-08, -8.9174e-08, -1.7579e-08,  ...,  1.4051e-07,
+          1.0547e-07,  4.7265e-08],
+        [ 4.9244e-08,  1.5134e-09, -3.9581e-09,  ...,  2.3434e-07,
+          2.5425e-07,  2.1816e-07]], device='cuda:0')
+Epoch 326, bias, value: tensor([ 0.0267, -0.0253, -0.0055,  0.0087, -0.0016, -0.0183,  0.0038,  0.0143,
+        -0.0266,  0.0124], device='cuda:0'), grad: tensor([-1.2107e-08,  6.3218e-06,  3.2759e-07,  1.2224e-08, -4.3027e-07,
+         1.9709e-07, -1.1327e-07, -7.2531e-06,  1.8743e-08,  9.2201e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 325, time 218.12, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.4455 re_mapping 0.0028 re_causal 0.0090 /// teacc 99.17 lr 0.00010000
+Epoch 327, weight, value: tensor([[ 0.0250, -0.0906, -0.0141,  ..., -0.1357, -0.1656, -0.1598],
+        [-0.1353,  0.0792, -0.1405,  ..., -0.1720, -0.1824, -0.2050],
+        [-0.1268, -0.1884, -0.2015,  ..., -0.2218, -0.1582,  0.1687],
+        ...,
+        [ 0.0852, -0.0693, -0.1543,  ...,  0.1048, -0.1738, -0.1469],
+        [ 0.1249,  0.1026,  0.0932,  ..., -0.2058, -0.1181,  0.0886],
+        [ 0.0751,  0.0442,  0.1126,  ...,  0.0531, -0.0898,  0.0029]],
+       device='cuda:0'), grad: tensor([[-5.8208e-10,  2.9104e-09,  3.4925e-10,  ...,  3.1432e-09,
+          4.5402e-09,  3.6089e-09],
+        [ 1.3039e-08,  1.4086e-08,  1.3970e-09,  ...,  2.8522e-08,
+          1.5716e-08,  1.4785e-08],
+        [ 5.4715e-09,  1.0477e-08,  2.3283e-10,  ...,  5.8208e-09,
+          2.6776e-09,  8.3819e-09],
+        ...,
+        [-1.3388e-08,  1.6880e-08,  6.9849e-10,  ..., -2.5611e-08,
+          9.5461e-09,  1.1758e-08],
+        [-2.1770e-08, -5.0291e-08, -5.7044e-09,  ...,  7.5670e-09,
+          3.0035e-08, -3.1898e-08],
+        [ 8.7311e-09,  1.5972e-07,  1.0477e-09,  ...,  3.8650e-07,
+          3.4296e-07,  1.7730e-07]], device='cuda:0')
+Epoch 327, bias, value: tensor([ 0.0270, -0.0260, -0.0066,  0.0088, -0.0014, -0.0183,  0.0036,  0.0156,
+        -0.0266,  0.0130], device='cuda:0'), grad: tensor([ 9.6625e-09,  1.0093e-07,  4.2957e-08,  2.7474e-08, -1.0086e-06,
+        -7.8138e-07,  6.4820e-07, -1.8394e-08, -1.8044e-08,  1.0058e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 326, time 217.53, cls_loss 0.0006 cls_loss_mapping 0.0020 cls_loss_causal 0.4757 re_mapping 0.0025 re_causal 0.0089 /// teacc 99.05 lr 0.00010000
+Epoch 328, weight, value: tensor([[ 0.0250, -0.0908, -0.0141,  ..., -0.1362, -0.1655, -0.1599],
+        [-0.1355,  0.0792, -0.1406,  ..., -0.1728, -0.1832, -0.2050],
+        [-0.1267, -0.1884, -0.2017,  ..., -0.2219, -0.1583,  0.1688],
+        ...,
+        [ 0.0853, -0.0694, -0.1547,  ...,  0.1050, -0.1752, -0.1473],
+        [ 0.1249,  0.1026,  0.0932,  ..., -0.2059, -0.1182,  0.0886],
+        [ 0.0751,  0.0442,  0.1126,  ...,  0.0529, -0.0901,  0.0026]],
+       device='cuda:0'), grad: tensor([[ 8.4983e-09, -2.8522e-08,  6.9849e-10,  ...,  1.8743e-08,
+          2.0955e-09,  8.1491e-10],
+        [ 2.0140e-08,  3.5809e-07,  3.2596e-09,  ...,  3.7532e-07,
+         -8.8476e-09,  4.1910e-09],
+        [ 7.5670e-09,  8.2655e-09,  1.2806e-09,  ...,  1.3970e-08,
+          9.3132e-10,  2.3283e-10],
+        ...,
+        [ 2.3632e-08,  2.8461e-06,  2.5611e-09,  ...,  2.2557e-06,
+          4.1910e-09,  2.4447e-09],
+        [-1.0361e-08,  3.2596e-09, -1.2224e-08,  ...,  2.7707e-08,
+          1.7695e-08, -1.5832e-08],
+        [-1.0722e-07, -3.7588e-06, -1.0477e-09,  ..., -3.1423e-06,
+          4.6566e-09,  2.6776e-09]], device='cuda:0')
+Epoch 328, bias, value: tensor([ 0.0271, -0.0261, -0.0065,  0.0090, -0.0013, -0.0183,  0.0035,  0.0156,
+        -0.0266,  0.0128], device='cuda:0'), grad: tensor([ 8.2655e-09,  9.7416e-07,  7.7998e-08,  2.4196e-06,  7.2736e-07,
+        -3.8855e-06,  1.8887e-06,  6.8545e-06,  3.1898e-07, -9.3803e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 327, time 217.82, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4495 re_mapping 0.0026 re_causal 0.0088 /// teacc 99.13 lr 0.00010000
+Epoch 329, weight, value: tensor([[ 0.0272, -0.0910, -0.0142,  ..., -0.1367, -0.1656, -0.1599],
+        [-0.1357,  0.0793, -0.1406,  ..., -0.1740, -0.1843, -0.2051],
+        [-0.1275, -0.1885, -0.2020,  ..., -0.2219, -0.1584,  0.1689],
+        ...,
+        [ 0.0858, -0.0692, -0.1551,  ...,  0.1055, -0.1746, -0.1476],
+        [ 0.1249,  0.1026,  0.0932,  ..., -0.2061, -0.1183,  0.0887],
+        [ 0.0749,  0.0444,  0.1127,  ...,  0.0528, -0.0903,  0.0025]],
+       device='cuda:0'), grad: tensor([[ 7.6834e-09,  8.1491e-10,  1.1642e-10,  ...,  1.0827e-08,
+          4.6566e-10,  1.0477e-09],
+        [ 2.4284e-07, -2.2736e-07,  5.8208e-10,  ...,  1.9255e-07,
+          2.9104e-09, -7.3807e-08],
+        [ 8.6846e-08,  2.0617e-07,  0.0000e+00,  ...,  7.1712e-08,
+          2.3283e-09,  3.7369e-08],
+        ...,
+        [-9.4902e-07,  9.6625e-09,  3.4925e-10,  ..., -1.0151e-06,
+          1.8626e-09,  1.6997e-08],
+        [ 5.9488e-08,  2.2817e-08, -3.4925e-10,  ...,  6.9849e-08,
+          2.0955e-09,  1.7579e-08],
+        [ 3.5344e-07, -2.7940e-09, -2.6776e-09,  ...,  4.5775e-07,
+          2.0838e-08,  1.6531e-08]], device='cuda:0')
+Epoch 329, bias, value: tensor([ 0.0275, -0.0261, -0.0065,  0.0081, -0.0012, -0.0183,  0.0035,  0.0161,
+        -0.0267,  0.0127], device='cuda:0'), grad: tensor([ 5.2969e-08,  1.0356e-06,  1.1921e-06,  1.0347e-06, -8.1491e-10,
+         1.4657e-07,  1.9558e-08, -6.3442e-06,  5.2387e-07,  2.3469e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 328, time 217.94, cls_loss 0.0004 cls_loss_mapping 0.0012 cls_loss_causal 0.4471 re_mapping 0.0027 re_causal 0.0090 /// teacc 99.18 lr 0.00010000
+Epoch 330, weight, value: tensor([[ 0.0274, -0.0911, -0.0142,  ..., -0.1368, -0.1656, -0.1600],
+        [-0.1359,  0.0795, -0.1406,  ..., -0.1756, -0.1851, -0.2051],
+        [-0.1278, -0.1886, -0.2023,  ..., -0.2220, -0.1583,  0.1690],
+        ...,
+        [ 0.0860, -0.0694, -0.1554,  ...,  0.1060, -0.1745, -0.1477],
+        [ 0.1250,  0.1025,  0.0932,  ..., -0.2061, -0.1185,  0.0887],
+        [ 0.0748,  0.0442,  0.1127,  ...,  0.0527, -0.0904,  0.0024]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.9244e-08,  0.0000e+00,  ...,  5.8208e-10,
+          1.0245e-08,  8.4983e-09],
+        [ 5.0059e-09,  1.1525e-08,  2.3283e-10,  ...,  2.5728e-08,
+          1.3970e-09,  5.5879e-09],
+        [ 9.3132e-10,  7.5670e-09,  2.3283e-10,  ...,  6.2864e-09,
+          1.3970e-09, -1.7229e-08],
+        ...,
+        [-1.2806e-08, -1.1642e-10,  4.6566e-10,  ..., -2.2934e-07,
+          1.2806e-09,  3.9581e-09],
+        [ 1.6298e-09,  1.1502e-07, -2.0955e-09,  ...,  7.5670e-09,
+          2.7940e-09,  1.1642e-10],
+        [ 2.7940e-09,  1.3737e-07,  3.4925e-10,  ...,  2.7567e-07,
+          9.7207e-08,  4.6217e-08]], device='cuda:0')
+Epoch 330, bias, value: tensor([ 0.0276, -0.0261, -0.0065,  0.0080, -0.0011, -0.0183,  0.0035,  0.0162,
+        -0.0267,  0.0126], device='cuda:0'), grad: tensor([ 2.7055e-07,  1.2817e-07, -2.3283e-10,  9.7789e-07, -2.1548e-07,
+        -2.9262e-06,  2.9569e-07, -4.0466e-07,  6.7800e-07,  1.1958e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 329, time 217.84, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4396 re_mapping 0.0027 re_causal 0.0087 /// teacc 99.06 lr 0.00010000
+Epoch 331, weight, value: tensor([[ 0.0277, -0.0915, -0.0140,  ..., -0.1374, -0.1658, -0.1601],
+        [-0.1360,  0.0796, -0.1406,  ..., -0.1766, -0.1860, -0.2053],
+        [-0.1272, -0.1882, -0.2025,  ..., -0.2220, -0.1579,  0.1695],
+        ...,
+        [ 0.0861, -0.0698, -0.1557,  ...,  0.1063, -0.1744, -0.1482],
+        [ 0.1249,  0.1026,  0.0932,  ..., -0.2063, -0.1188,  0.0886],
+        [ 0.0748,  0.0445,  0.1128,  ...,  0.0527, -0.0907,  0.0022]],
+       device='cuda:0'), grad: tensor([[-2.1886e-08,  4.6566e-09,  8.1491e-10,  ..., -2.3283e-10,
+          9.5461e-09,  1.8626e-08],
+        [ 6.0536e-09,  4.1910e-09,  1.8626e-09,  ...,  1.5716e-08,
+          4.4238e-09,  1.1059e-08],
+        [ 1.3504e-08,  9.7789e-09,  1.3970e-09,  ...,  7.2177e-09,
+          5.5879e-09,  2.1653e-08],
+        ...,
+        [ 5.7044e-09,  1.1758e-08,  2.0955e-09,  ...,  1.5250e-08,
+          4.5402e-09,  1.8394e-08],
+        [ 4.0745e-09, -1.5134e-09, -6.9849e-10,  ...,  2.9919e-08,
+          3.7253e-09,  1.8510e-08],
+        [-8.9291e-08, -9.6741e-08, -2.3050e-08,  ..., -2.8755e-08,
+          1.3306e-07, -1.0524e-07]], device='cuda:0')
+Epoch 331, bias, value: tensor([ 0.0276, -0.0260, -0.0062,  0.0081, -0.0011, -0.0184,  0.0037,  0.0159,
+        -0.0268,  0.0124], device='cuda:0'), grad: tensor([-7.7998e-09,  4.5169e-08,  8.0676e-08,  9.1968e-08,  1.3958e-07,
+        -3.2876e-07,  1.1653e-07,  7.2643e-08,  1.9069e-07, -3.7299e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 330, time 217.70, cls_loss 0.0010 cls_loss_mapping 0.0018 cls_loss_causal 0.4544 re_mapping 0.0025 re_causal 0.0083 /// teacc 99.03 lr 0.00010000
+Epoch 332, weight, value: tensor([[ 0.0277, -0.0922, -0.0141,  ..., -0.1381, -0.1660, -0.1603],
+        [-0.1361,  0.0797, -0.1406,  ..., -0.1774, -0.1909, -0.2057],
+        [-0.1294, -0.1882, -0.2030,  ..., -0.2221, -0.1582,  0.1696],
+        ...,
+        [ 0.0863, -0.0707, -0.1578,  ...,  0.1062, -0.1755, -0.1482],
+        [ 0.1249,  0.1027,  0.0932,  ..., -0.2069, -0.1197,  0.0885],
+        [ 0.0754,  0.0451,  0.1131,  ...,  0.0528, -0.0910,  0.0020]],
+       device='cuda:0'), grad: tensor([[ 2.2119e-09,  2.0838e-08,  3.1432e-09,  ...,  1.5600e-08,
+          2.4331e-08,  1.8161e-08],
+        [ 1.3621e-08, -1.0794e-06,  5.9372e-09,  ..., -8.8126e-08,
+          3.4925e-09,  1.5018e-08],
+        [ 9.5461e-09,  2.6426e-08,  6.9849e-10,  ...,  2.4680e-08,
+          2.4447e-09,  5.4715e-09],
+        ...,
+        [ 8.3819e-09,  3.4086e-07,  5.4599e-08,  ...,  2.5472e-07,
+          5.5879e-09, -4.5402e-09],
+        [-9.5461e-09,  5.0873e-08,  7.1013e-09,  ...,  7.6834e-08,
+          2.2119e-08, -8.9640e-09],
+        [-8.1840e-08, -2.8731e-07, -1.4633e-07,  ..., -6.8732e-07,
+          4.4703e-08,  2.2934e-08]], device='cuda:0')
+Epoch 332, bias, value: tensor([ 0.0275, -0.0259, -0.0063,  0.0092, -0.0011, -0.0154,  0.0007,  0.0154,
+        -0.0270,  0.0126], device='cuda:0'), grad: tensor([ 2.7963e-07, -7.0482e-06,  2.1502e-07, -1.1385e-07,  5.4613e-06,
+        -8.1122e-05,  8.0824e-05,  1.7146e-06,  6.7521e-07, -7.6089e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 331, time 217.46, cls_loss 0.0008 cls_loss_mapping 0.0019 cls_loss_causal 0.4992 re_mapping 0.0025 re_causal 0.0088 /// teacc 99.07 lr 0.00010000
+Epoch 333, weight, value: tensor([[ 0.0285, -0.0925, -0.0142,  ..., -0.1386, -0.1660, -0.1603],
+        [-0.1362,  0.0797, -0.1407,  ..., -0.1786, -0.1925, -0.2059],
+        [-0.1290, -0.1877, -0.2032,  ..., -0.2217, -0.1584,  0.1702],
+        ...,
+        [ 0.0861, -0.0714, -0.1583,  ...,  0.1075, -0.1737, -0.1493],
+        [ 0.1249,  0.1027,  0.0932,  ..., -0.2075, -0.1200,  0.0886],
+        [ 0.0754,  0.0450,  0.1133,  ...,  0.0524, -0.0920,  0.0015]],
+       device='cuda:0'), grad: tensor([[ 1.0594e-08,  1.2806e-08,  2.3283e-10,  ...,  2.3283e-10,
+          1.2806e-09,  9.1968e-09],
+        [ 4.8429e-08,  3.7719e-08,  3.1432e-09,  ...,  2.5611e-09,
+          8.1491e-10,  1.3283e-07],
+        [ 1.4435e-08,  3.0152e-08,  2.5611e-09,  ...,  2.3283e-10,
+          9.3132e-10, -3.2736e-07],
+        ...,
+        [ 1.6252e-07,  1.4273e-07,  2.7940e-09,  ...,  9.1968e-09,
+          4.8894e-09,  1.1700e-07],
+        [-4.9453e-07, -2.5285e-07, -2.2235e-08,  ...,  5.8208e-10,
+          9.0804e-09, -1.6089e-07],
+        [ 3.0384e-08,  1.8743e-08,  4.6566e-10,  ...,  1.4901e-08,
+          1.8859e-08,  2.9919e-08]], device='cuda:0')
+Epoch 333, bias, value: tensor([ 0.0277, -0.0260, -0.0057,  0.0081, -0.0011, -0.0153,  0.0007,  0.0155,
+        -0.0271,  0.0121], device='cuda:0'), grad: tensor([ 7.3528e-07,  3.0845e-05, -1.0288e-04,  4.0799e-05,  7.5670e-07,
+        -1.2049e-07,  1.5432e-06,  2.5898e-05, -9.2294e-07,  3.3639e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 332, time 217.92, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4629 re_mapping 0.0027 re_causal 0.0085 /// teacc 99.07 lr 0.00010000
+Epoch 334, weight, value: tensor([[ 0.0287, -0.0929, -0.0144,  ..., -0.1387, -0.1662, -0.1606],
+        [-0.1363,  0.0797, -0.1407,  ..., -0.1795, -0.1932, -0.2062],
+        [-0.1263, -0.1860, -0.2040,  ..., -0.2203, -0.1586,  0.1719],
+        ...,
+        [ 0.0855, -0.0730, -0.1587,  ...,  0.1064, -0.1737, -0.1522],
+        [ 0.1251,  0.1032,  0.0933,  ..., -0.2076, -0.1200,  0.0893],
+        [ 0.0746,  0.0438,  0.1131,  ...,  0.0521, -0.0926,  0.0008]],
+       device='cuda:0'), grad: tensor([[-9.5926e-08, -3.2596e-08,  1.8626e-09,  ...,  5.8208e-10,
+          2.3283e-10, -2.2701e-08],
+        [ 1.9209e-08, -6.6706e-08,  8.1491e-09,  ...,  2.5262e-08,
+          2.5611e-09,  1.2224e-08],
+        [ 1.3737e-08,  4.7614e-08,  6.8685e-09,  ...,  1.9558e-08,
+          1.5134e-09,  5.9372e-09],
+        ...,
+        [-2.9104e-08,  6.4727e-08,  7.5670e-09,  ..., -7.4855e-08,
+         -4.7730e-09, -6.0536e-09],
+        [ 1.1642e-09,  3.2131e-08, -7.2177e-09,  ...,  1.2224e-08,
+          1.9791e-09, -2.1537e-08],
+        [ 3.7835e-08,  8.4983e-08,  4.0745e-09,  ...,  3.3877e-08,
+          1.5018e-08,  2.2002e-08]], device='cuda:0')
+Epoch 334, bias, value: tensor([ 0.0277, -0.0261, -0.0041,  0.0064, -0.0009, -0.0152,  0.0007,  0.0138,
+        -0.0270,  0.0114], device='cuda:0'), grad: tensor([-7.3947e-07, -1.2678e-07,  2.5425e-07, -1.0803e-06, -3.9581e-09,
+         5.5274e-07,  3.3714e-07, -5.4832e-08,  3.0827e-07,  5.6392e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 333, time 217.63, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4612 re_mapping 0.0026 re_causal 0.0085 /// teacc 99.14 lr 0.00010000
+Epoch 335, weight, value: tensor([[ 0.0295, -0.0929, -0.0145,  ..., -0.1391, -0.1663, -0.1607],
+        [-0.1364,  0.0798, -0.1408,  ..., -0.1802, -0.1936, -0.2063],
+        [-0.1264, -0.1862, -0.2045,  ..., -0.2205, -0.1588,  0.1719],
+        ...,
+        [ 0.0856, -0.0732, -0.1594,  ...,  0.1067, -0.1742, -0.1522],
+        [ 0.1251,  0.1032,  0.0933,  ..., -0.2078, -0.1204,  0.0891],
+        [ 0.0747,  0.0440,  0.1132,  ...,  0.0518, -0.0932,  0.0005]],
+       device='cuda:0'), grad: tensor([[-5.8208e-10,  8.1491e-09,  2.9220e-08,  ...,  1.9791e-09,
+          9.5554e-07,  1.0384e-06],
+        [ 9.0804e-09, -8.9407e-08,  5.3551e-09,  ...,  1.4319e-08,
+          9.4529e-08,  1.0547e-07],
+        [ 4.3074e-09,  1.5832e-08,  1.6298e-09,  ...,  6.8685e-09,
+          2.1304e-08,  2.4447e-08],
+        ...,
+        [-2.1886e-08,  5.2154e-08,  8.2655e-09,  ..., -2.6426e-08,
+          3.4925e-09, -1.3970e-09],
+        [-2.2119e-09,  2.8405e-08,  7.2177e-08,  ...,  1.1176e-08,
+          1.6633e-06,  1.7844e-06],
+        [ 4.7730e-09,  6.5193e-09,  2.4680e-08,  ...,  4.0280e-08,
+          8.1537e-07,  8.8941e-07]], device='cuda:0')
+Epoch 335, bias, value: tensor([ 0.0278, -0.0261, -0.0041,  0.0065, -0.0008, -0.0152,  0.0007,  0.0138,
+        -0.0271,  0.0113], device='cuda:0'), grad: tensor([ 3.2168e-06, -2.2724e-07,  1.9616e-07,  1.8021e-07,  2.9672e-06,
+         1.5376e-06, -1.6361e-05,  1.5402e-07,  5.2005e-06,  3.1255e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 334, time 217.54, cls_loss 0.0007 cls_loss_mapping 0.0017 cls_loss_causal 0.4667 re_mapping 0.0027 re_causal 0.0088 /// teacc 99.11 lr 0.00010000
+Epoch 336, weight, value: tensor([[ 2.9844e-02, -9.3301e-02, -1.4643e-02,  ..., -1.3953e-01,
+         -1.6674e-01, -1.6103e-01],
+        [-1.3646e-01,  8.0034e-02, -1.4083e-01,  ..., -1.8030e-01,
+         -1.9461e-01, -2.0643e-01],
+        [-1.2645e-01, -1.8633e-01, -2.0526e-01,  ..., -2.2059e-01,
+         -1.5930e-01,  1.7196e-01],
+        ...,
+        [ 8.5616e-02, -7.3495e-02, -1.5986e-01,  ...,  1.0659e-01,
+         -1.7479e-01, -1.5225e-01],
+        [ 1.2523e-01,  1.0329e-01,  9.3445e-02,  ..., -2.0785e-01,
+         -1.2073e-01,  8.9188e-02],
+        [ 7.4545e-02,  4.3490e-02,  1.1299e-01,  ...,  5.1031e-02,
+         -9.4713e-02, -1.9185e-04]], device='cuda:0'), grad: tensor([[ 1.1642e-10,  7.7998e-09,  0.0000e+00,  ...,  2.0303e-07,
+          2.2375e-07,  1.6752e-07],
+        [ 1.6298e-09, -9.5554e-07,  4.6566e-10,  ...,  3.3225e-07,
+          3.6368e-07,  2.7474e-07],
+        [ 1.2806e-09,  3.8301e-08,  1.7462e-09,  ...,  1.0263e-06,
+          1.1371e-06,  8.4750e-07],
+        ...,
+        [-5.8208e-10,  9.0525e-07,  1.7462e-09,  ...,  1.7521e-07,
+          1.8848e-07,  1.4144e-07],
+        [-5.7044e-09,  6.4913e-07,  2.7940e-09,  ...,  1.5844e-07,
+          9.9302e-08,  7.1363e-08],
+        [-2.5611e-09,  3.5646e-07, -9.3132e-09,  ...,  2.0713e-06,
+          2.2911e-06,  1.7155e-06]], device='cuda:0')
+Epoch 336, bias, value: tensor([ 0.0276, -0.0260, -0.0041,  0.0072, -0.0007, -0.0153,  0.0008,  0.0136,
+        -0.0271,  0.0106], device='cuda:0'), grad: tensor([ 9.6392e-07, -1.5795e-06,  4.8093e-06,  2.2221e-06, -2.0608e-05,
+        -9.0301e-06,  3.4459e-06,  3.7905e-06,  4.4070e-06,  1.1586e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 335, time 217.48, cls_loss 0.0007 cls_loss_mapping 0.0016 cls_loss_causal 0.4596 re_mapping 0.0028 re_causal 0.0088 /// teacc 99.16 lr 0.00010000
+Epoch 337, weight, value: tensor([[ 0.0316, -0.0926, -0.0146,  ..., -0.1401, -0.1667, -0.1608],
+        [-0.1370,  0.0801, -0.1409,  ..., -0.1839, -0.1966, -0.2069],
+        [-0.1268, -0.1865, -0.2058,  ..., -0.2208, -0.1595,  0.1720],
+        ...,
+        [ 0.0862, -0.0735, -0.1602,  ...,  0.1080, -0.1723, -0.1520],
+        [ 0.1252,  0.1034,  0.0935,  ..., -0.2080, -0.1209,  0.0893],
+        [ 0.0746,  0.0442,  0.1135,  ...,  0.0518, -0.0944, -0.0004]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09, -1.0179e-06,  3.8417e-09,  ...,  6.8685e-09,
+         -3.2573e-07,  8.8476e-09],
+        [ 2.9686e-08,  1.3167e-07,  3.4925e-09,  ...,  4.9127e-08,
+          9.8837e-08,  8.6613e-08],
+        [ 8.0210e-08,  3.6205e-08,  9.3132e-10,  ...,  1.2654e-07,
+          2.2119e-09, -2.2736e-07],
+        ...,
+        [-1.5681e-07,  4.3772e-08,  1.0245e-08,  ..., -2.5239e-07,
+          4.0745e-09,  2.9453e-08],
+        [ 3.2946e-08,  1.7218e-07,  1.5367e-08,  ...,  9.4296e-08,
+          3.0966e-08,  9.1735e-08],
+        [-2.8522e-08, -4.9127e-08, -6.8918e-08,  ..., -1.1385e-07,
+          5.0059e-09, -7.9162e-09]], device='cuda:0')
+Epoch 337, bias, value: tensor([ 0.0287, -0.0263, -0.0042,  0.0072, -0.0015, -0.0153,  0.0008,  0.0143,
+        -0.0271,  0.0110], device='cuda:0'), grad: tensor([-1.0453e-05,  3.2336e-06, -3.0408e-07,  1.3446e-07,  2.9942e-07,
+         2.5844e-07,  5.8152e-06, -6.7567e-07,  1.6959e-06, -3.8417e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 336, time 217.74, cls_loss 0.0007 cls_loss_mapping 0.0015 cls_loss_causal 0.4590 re_mapping 0.0025 re_causal 0.0084 /// teacc 99.14 lr 0.00010000
+Epoch 338, weight, value: tensor([[ 0.0321, -0.0927, -0.0148,  ..., -0.1411, -0.1668, -0.1608],
+        [-0.1371,  0.0801, -0.1410,  ..., -0.1847, -0.1969, -0.2071],
+        [-0.1269, -0.1866, -0.2066,  ..., -0.2210, -0.1597,  0.1722],
+        ...,
+        [ 0.0863, -0.0738, -0.1616,  ...,  0.1101, -0.1705, -0.1520],
+        [ 0.1253,  0.1035,  0.0936,  ..., -0.2083, -0.1210,  0.0900],
+        [ 0.0751,  0.0463,  0.1138,  ...,  0.0536, -0.0926,  0.0004]],
+       device='cuda:0'), grad: tensor([[ 3.1432e-09,  1.1642e-09,  3.4925e-10,  ...,  4.5402e-09,
+          5.5879e-09,  4.8894e-09],
+        [ 5.1688e-08,  1.0477e-09,  2.0955e-09,  ...,  3.1083e-07,
+          1.2224e-08,  8.4983e-09],
+        [ 5.4599e-08,  5.7044e-09,  1.2806e-09,  ...,  1.0617e-07,
+          9.8953e-09,  5.7044e-09],
+        ...,
+        [-2.9989e-07, -1.7579e-08,  8.1491e-10,  ..., -7.3016e-07,
+         -1.2922e-08,  1.2806e-09],
+        [-1.6298e-09, -3.4226e-08, -2.4680e-08,  ...,  2.5146e-08,
+          8.8476e-09, -3.1316e-08],
+        [ 1.6706e-07,  2.1886e-08,  7.7998e-09,  ...,  2.4866e-07,
+          1.8626e-09,  1.1642e-08]], device='cuda:0')
+Epoch 338, bias, value: tensor([ 0.0290, -0.0264, -0.0042,  0.0072, -0.0038, -0.0153,  0.0008,  0.0149,
+        -0.0270,  0.0129], device='cuda:0'), grad: tensor([ 3.2247e-08,  1.3653e-06,  4.5612e-07,  9.9535e-08,  4.1211e-08,
+         1.3609e-07, -1.1572e-07, -3.0082e-06,  1.3271e-08,  9.9093e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 337, time 217.82, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4631 re_mapping 0.0027 re_causal 0.0088 /// teacc 99.20 lr 0.00010000
+Epoch 339, weight, value: tensor([[ 0.0313, -0.0929, -0.0149,  ..., -0.1440, -0.1670, -0.1611],
+        [-0.1382,  0.0796, -0.1410,  ..., -0.1875, -0.1974, -0.2073],
+        [-0.1273, -0.1867, -0.2072,  ..., -0.2212, -0.1598,  0.1722],
+        ...,
+        [ 0.0871, -0.0730, -0.1620,  ...,  0.1103, -0.1723, -0.1521],
+        [ 0.1254,  0.1039,  0.0937,  ..., -0.2084, -0.1214,  0.0902],
+        [ 0.0754,  0.0466,  0.1137,  ...,  0.0545, -0.0917,  0.0004]],
+       device='cuda:0'), grad: tensor([[ 1.7346e-08,  4.8894e-09,  8.1491e-09,  ...,  2.4564e-08,
+          3.4925e-10,  9.0804e-09],
+        [ 1.5134e-08,  2.3632e-08,  4.4238e-09,  ...,  1.5716e-08,
+          1.2806e-09,  6.2864e-09],
+        [ 5.3551e-09,  1.4203e-08,  2.0955e-09,  ...,  4.1910e-09,
+          2.3283e-10, -1.5367e-08],
+        ...,
+        [-1.1316e-07,  1.0768e-07,  2.3749e-08,  ..., -7.1013e-09,
+          3.4925e-09,  3.2596e-09],
+        [ 4.3423e-08, -5.0524e-08,  3.6089e-09,  ...,  3.7486e-08,
+         -2.5262e-08, -5.7509e-08],
+        [-1.1525e-08, -2.0140e-08, -3.2014e-08,  ..., -2.0675e-07,
+         -1.0710e-08, -5.3551e-09]], device='cuda:0')
+Epoch 339, bias, value: tensor([ 0.0287, -0.0273, -0.0043,  0.0068, -0.0045, -0.0153,  0.0008,  0.0161,
+        -0.0269,  0.0135], device='cuda:0'), grad: tensor([ 7.2876e-08,  1.2899e-07, -2.9569e-08, -6.0350e-07,  3.5018e-07,
+        -2.6822e-07,  1.8126e-07, -7.0781e-08,  3.6042e-07, -9.7672e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 338, time 217.46, cls_loss 0.0004 cls_loss_mapping 0.0014 cls_loss_causal 0.4446 re_mapping 0.0028 re_causal 0.0092 /// teacc 99.17 lr 0.00010000
+Epoch 340, weight, value: tensor([[ 0.0315, -0.0930, -0.0150,  ..., -0.1442, -0.1671, -0.1612],
+        [-0.1383,  0.0793, -0.1410,  ..., -0.1879, -0.1977, -0.2074],
+        [-0.1273, -0.1867, -0.2075,  ..., -0.2213, -0.1598,  0.1723],
+        ...,
+        [ 0.0872, -0.0732, -0.1627,  ...,  0.1101, -0.1737, -0.1523],
+        [ 0.1254,  0.1040,  0.0937,  ..., -0.2088, -0.1216,  0.0902],
+        [ 0.0757,  0.0469,  0.1138,  ...,  0.0546, -0.0918,  0.0004]],
+       device='cuda:0'), grad: tensor([[ 7.7998e-09,  5.6112e-08,  1.6764e-08,  ...,  1.4319e-08,
+          9.3132e-09,  6.5193e-09],
+        [ 6.8336e-08,  2.4098e-08,  1.3853e-08,  ...,  1.8755e-07,
+          1.8626e-09,  1.0710e-08],
+        [ 3.1432e-08,  3.1549e-08,  5.5879e-09,  ...,  7.6019e-08,
+          6.5193e-09, -5.7044e-09],
+        ...,
+        [-5.8440e-08,  1.4366e-07,  6.3679e-08,  ..., -2.3097e-07,
+          6.0536e-09,  7.6834e-09],
+        [ 4.0629e-08,  2.4633e-07,  7.9628e-08,  ...,  1.0047e-07,
+          3.6554e-08,  1.1874e-08],
+        [-1.3656e-07, -2.6356e-07, -1.3353e-07,  ..., -2.1688e-07,
+          2.4447e-08,  1.5250e-08]], device='cuda:0')
+Epoch 340, bias, value: tensor([ 0.0287, -0.0275, -0.0042,  0.0063, -0.0045, -0.0153,  0.0008,  0.0160,
+        -0.0269,  0.0136], device='cuda:0'), grad: tensor([ 2.0221e-07,  8.2329e-07,  3.0827e-07, -2.1160e-06,  9.4878e-08,
+         1.2703e-06, -1.3970e-09, -9.0152e-07,  9.5647e-07, -6.3656e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 339, time 217.64, cls_loss 0.0006 cls_loss_mapping 0.0017 cls_loss_causal 0.4868 re_mapping 0.0025 re_causal 0.0084 /// teacc 99.15 lr 0.00010000
+Epoch 341, weight, value: tensor([[ 0.0320, -0.0931, -0.0151,  ..., -0.1445, -0.1671, -0.1611],
+        [-0.1384,  0.0795, -0.1410,  ..., -0.1884, -0.1980, -0.2075],
+        [-0.1274, -0.1870, -0.2077,  ..., -0.2216, -0.1600,  0.1724],
+        ...,
+        [ 0.0873, -0.0735, -0.1632,  ...,  0.1103, -0.1741, -0.1525],
+        [ 0.1254,  0.1041,  0.0937,  ..., -0.2090, -0.1216,  0.0904],
+        [ 0.0757,  0.0473,  0.1139,  ...,  0.0534, -0.0930, -0.0015]],
+       device='cuda:0'), grad: tensor([[-4.3074e-09,  2.3225e-08,  0.0000e+00,  ...,  1.6473e-08,
+          1.6810e-07,  1.1059e-07],
+        [ 5.3551e-09,  1.2666e-07,  1.1642e-10,  ...,  6.3388e-08,
+          5.5938e-08,  4.7963e-08],
+        [-6.9849e-10,  6.1654e-07,  5.8208e-11,  ...,  1.7055e-08,
+          1.9034e-08, -3.0384e-08],
+        ...,
+        [-1.2282e-08,  1.2864e-07,  5.8208e-11,  ...,  6.2864e-09,
+          2.6950e-08,  2.2410e-08],
+        [ 1.8044e-09,  2.5029e-08, -3.4925e-10,  ...,  3.1781e-08,
+          3.1956e-08,  2.9162e-08],
+        [ 7.8580e-09,  3.9814e-08,  5.8208e-11,  ...,  2.6543e-07,
+          2.3632e-07,  1.5483e-07]], device='cuda:0')
+Epoch 341, bias, value: tensor([ 0.0290, -0.0274, -0.0044,  0.0067, -0.0034, -0.0153,  0.0008,  0.0160,
+        -0.0270,  0.0125], device='cuda:0'), grad: tensor([ 9.0431e-07,  7.2177e-07,  2.3041e-06, -4.5523e-06, -1.3439e-06,
+         9.8161e-07, -6.5751e-07,  5.4855e-07,  2.6473e-07,  8.3400e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 340, time 217.79, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.4759 re_mapping 0.0026 re_causal 0.0086 /// teacc 99.20 lr 0.00010000
+Epoch 342, weight, value: tensor([[ 0.0323, -0.0936, -0.0153,  ..., -0.1447, -0.1674, -0.1613],
+        [-0.1386,  0.0797, -0.1411,  ..., -0.1897, -0.1990, -0.2077],
+        [-0.1283, -0.1874, -0.2084,  ..., -0.2227, -0.1603,  0.1722],
+        ...,
+        [ 0.0878, -0.0742, -0.1636,  ...,  0.1109, -0.1741, -0.1522],
+        [ 0.1257,  0.1041,  0.0941,  ..., -0.2097, -0.1212,  0.0914],
+        [ 0.0758,  0.0481,  0.1141,  ...,  0.0536, -0.0931, -0.0015]],
+       device='cuda:0'), grad: tensor([[ 6.4028e-10,  1.5716e-09,  1.1642e-10,  ...,  1.7462e-10,
+          6.4028e-10,  1.2224e-09],
+        [ 2.0198e-08,  1.3737e-08,  1.5716e-09,  ...,  1.1059e-08,
+          5.8208e-11,  1.4494e-08],
+        [ 2.1944e-08,  1.6356e-08,  1.0477e-09,  ...,  1.9558e-08,
+          5.8208e-11,  9.0804e-09],
+        ...,
+        [-2.2235e-08,  1.6007e-08,  1.2224e-09,  ..., -4.9244e-08,
+          0.0000e+00,  7.6252e-09],
+        [-5.4890e-08, -7.6427e-08, -7.4506e-09,  ...,  1.1001e-08,
+          6.4028e-10, -6.3679e-08],
+        [ 5.7044e-09,  4.5402e-09, -5.8208e-11,  ...,  5.5879e-09,
+          9.3132e-10,  4.3074e-09]], device='cuda:0')
+Epoch 342, bias, value: tensor([ 0.0290, -0.0276, -0.0048,  0.0077, -0.0034, -0.0153,  0.0008,  0.0164,
+        -0.0268,  0.0127], device='cuda:0'), grad: tensor([ 6.8685e-09,  5.2562e-08,  1.0786e-07, -6.4669e-08,  5.2387e-09,
+         1.3760e-07,  1.4203e-08, -6.8801e-08, -2.1304e-07,  3.0850e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 341, time 217.63, cls_loss 0.0005 cls_loss_mapping 0.0010 cls_loss_causal 0.4793 re_mapping 0.0026 re_causal 0.0088 /// teacc 99.21 lr 0.00010000
+Epoch 343, weight, value: tensor([[ 0.0327, -0.0939, -0.0153,  ..., -0.1447, -0.1675, -0.1613],
+        [-0.1387,  0.0798, -0.1411,  ..., -0.1900, -0.1993, -0.2078],
+        [-0.1284, -0.1875, -0.2087,  ..., -0.2228, -0.1606,  0.1723],
+        ...,
+        [ 0.0879, -0.0751, -0.1661,  ...,  0.1111, -0.1745, -0.1524],
+        [ 0.1257,  0.1041,  0.0942,  ..., -0.2098, -0.1215,  0.0915],
+        [ 0.0756,  0.0480,  0.1141,  ...,  0.0535, -0.0932, -0.0017]],
+       device='cuda:0'), grad: tensor([[-2.2352e-08, -1.4959e-08,  1.1642e-10,  ...,  2.2119e-09,
+          4.6566e-10,  8.7311e-10],
+        [ 3.1851e-07,  2.1828e-08,  2.9104e-10,  ...,  4.2981e-07,
+          1.0768e-08,  1.8743e-08],
+        [ 7.6834e-09,  1.1642e-09,  1.1642e-10,  ...,  1.3679e-08,
+          3.4343e-09,  4.0745e-10],
+        ...,
+        [-4.5542e-07, -1.7462e-08,  2.3865e-09,  ..., -6.4401e-07,
+         -1.9965e-08, -1.8219e-08],
+        [ 3.2305e-08,  4.0745e-09, -4.6566e-10,  ...,  5.9605e-08,
+          5.2387e-09, -1.7462e-10],
+        [ 8.2655e-08, -1.1525e-08, -3.6089e-09,  ...,  1.9290e-07,
+          5.6694e-08,  2.9511e-08]], device='cuda:0')
+Epoch 343, bias, value: tensor([ 0.0294, -0.0276, -0.0048,  0.0089, -0.0033, -0.0153,  0.0008,  0.0162,
+        -0.0269,  0.0126], device='cuda:0'), grad: tensor([-2.1677e-07,  1.1120e-06,  3.2014e-08,  1.5716e-08, -8.7777e-08,
+         8.5449e-08,  9.6625e-08, -1.5656e-06,  1.6170e-07,  4.0419e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 342, time 217.80, cls_loss 0.0007 cls_loss_mapping 0.0021 cls_loss_causal 0.4762 re_mapping 0.0025 re_causal 0.0081 /// teacc 99.13 lr 0.00010000
+Epoch 344, weight, value: tensor([[ 0.0329, -0.0945, -0.0155,  ..., -0.1447, -0.1676, -0.1614],
+        [-0.1412,  0.0773, -0.1412,  ..., -0.1902, -0.1994, -0.2080],
+        [-0.1285, -0.1876, -0.2093,  ..., -0.2230, -0.1607,  0.1726],
+        ...,
+        [ 0.0900, -0.0725, -0.1665,  ...,  0.1115, -0.1748, -0.1531],
+        [ 0.1259,  0.1043,  0.0942,  ..., -0.2100, -0.1219,  0.0917],
+        [ 0.0754,  0.0478,  0.1141,  ...,  0.0534, -0.0933, -0.0018]],
+       device='cuda:0'), grad: tensor([[ 2.4447e-09,  6.4611e-09,  2.3865e-09,  ...,  3.9581e-09,
+          4.5402e-09,  6.2282e-09],
+        [ 2.6252e-08, -5.0990e-08,  3.4925e-09,  ...,  5.0059e-08,
+          2.8522e-09,  7.6252e-09],
+        [ 6.5833e-08,  5.6461e-09,  1.1642e-09,  ...,  2.7218e-07,
+          1.9791e-09, -6.1700e-09],
+        ...,
+        [-2.1083e-07,  2.6659e-08,  4.3074e-09,  ..., -4.7684e-07,
+          1.6880e-09,  6.0536e-09],
+        [ 5.5414e-08,  1.6880e-07,  7.9744e-08,  ...,  1.5297e-07,
+          1.6356e-08,  7.2876e-08],
+        [ 3.2014e-08, -2.1956e-07, -1.1880e-07,  ...,  9.7207e-09,
+          4.1444e-08, -7.7242e-08]], device='cuda:0')
+Epoch 344, bias, value: tensor([ 0.0294, -0.0300, -0.0046,  0.0106, -0.0033, -0.0154,  0.0008,  0.0187,
+        -0.0269,  0.0124], device='cuda:0'), grad: tensor([ 3.6554e-08, -2.2061e-08,  8.8802e-07,  3.4168e-08, -4.0745e-09,
+         3.7160e-07, -2.9663e-07, -1.6484e-06,  7.1898e-07, -6.1467e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 343, time 217.74, cls_loss 0.0004 cls_loss_mapping 0.0011 cls_loss_causal 0.4470 re_mapping 0.0024 re_causal 0.0085 /// teacc 99.20 lr 0.00010000
+Epoch 345, weight, value: tensor([[ 0.0330, -0.0946, -0.0155,  ..., -0.1448, -0.1678, -0.1616],
+        [-0.1412,  0.0775, -0.1412,  ..., -0.1905, -0.1997, -0.2081],
+        [-0.1289, -0.1877, -0.2095,  ..., -0.2231, -0.1610,  0.1726],
+        ...,
+        [ 0.0901, -0.0727, -0.1672,  ...,  0.1118, -0.1750, -0.1531],
+        [ 0.1260,  0.1043,  0.0942,  ..., -0.2102, -0.1227,  0.0916],
+        [ 0.0753,  0.0479,  0.1142,  ...,  0.0532, -0.0935, -0.0021]],
+       device='cuda:0'), grad: tensor([[ 2.8114e-08,  2.8347e-08,  1.5541e-08,  ...,  1.9209e-09,
+          1.5774e-08,  5.2969e-08],
+        [ 1.2759e-07,  1.0373e-07,  6.9092e-08,  ...,  3.3760e-09,
+          4.4587e-08,  2.2422e-07],
+        [ 9.1968e-09,  8.9640e-09,  4.7148e-09,  ...,  1.0477e-09,
+          5.0059e-09, -2.0314e-07],
+        ...,
+        [ 7.1595e-08,  4.6159e-08,  6.8103e-09,  ...,  1.7649e-07,
+          2.8522e-09,  1.8883e-07],
+        [-8.4378e-07, -7.8278e-07, -4.6007e-07,  ...,  2.9802e-08,
+         -2.3656e-07, -1.3234e-06],
+        [-6.2864e-08, -2.2002e-08,  3.7253e-09,  ..., -1.9791e-07,
+          1.3853e-08,  2.8929e-08]], device='cuda:0')
+Epoch 345, bias, value: tensor([ 0.0293, -0.0300, -0.0047,  0.0102, -0.0031, -0.0154,  0.0009,  0.0187,
+        -0.0269,  0.0122], device='cuda:0'), grad: tensor([ 1.6484e-07,  6.6310e-07, -5.5507e-07,  6.1933e-08,  1.7043e-07,
+        -2.1351e-07,  3.2224e-06,  8.8243e-07, -4.0606e-06, -3.1339e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 344, time 217.51, cls_loss 0.0005 cls_loss_mapping 0.0014 cls_loss_causal 0.4693 re_mapping 0.0027 re_causal 0.0088 /// teacc 99.16 lr 0.00010000
+Epoch 346, weight, value: tensor([[ 0.0330, -0.0949, -0.0156,  ..., -0.1450, -0.1691, -0.1624],
+        [-0.1413,  0.0778, -0.1412,  ..., -0.1895, -0.1982, -0.2081],
+        [-0.1292, -0.1878, -0.2101,  ..., -0.2233, -0.1613,  0.1727],
+        ...,
+        [ 0.0903, -0.0729, -0.1674,  ...,  0.1121, -0.1752, -0.1532],
+        [ 0.1261,  0.1044,  0.0943,  ..., -0.2104, -0.1225,  0.0920],
+        [ 0.0749,  0.0477,  0.1141,  ...,  0.0530, -0.0937, -0.0027]],
+       device='cuda:0'), grad: tensor([[ 2.9104e-10,  2.3283e-10,  0.0000e+00,  ...,  4.0745e-10,
+          1.4552e-09,  8.7311e-10],
+        [ 7.9162e-09,  3.1432e-09,  2.3283e-10,  ...,  6.6939e-09,
+          1.6298e-09,  7.9744e-09],
+        [ 6.9267e-09,  9.3132e-10,  5.8208e-11,  ...,  8.8476e-09,
+          8.7311e-10,  9.3132e-10],
+        ...,
+        [-3.9581e-08,  7.2177e-09,  2.3283e-10,  ..., -5.5355e-08,
+          8.7311e-10,  4.0745e-10],
+        [-2.0373e-09, -1.1234e-08, -5.8208e-10,  ...,  3.0268e-09,
+          3.5507e-09, -1.0303e-08],
+        [ 2.3283e-08, -1.3970e-09, -6.4028e-10,  ...,  3.9989e-08,
+          4.3656e-09,  3.3178e-09]], device='cuda:0')
+Epoch 346, bias, value: tensor([ 0.0287, -0.0299, -0.0047,  0.0101, -0.0031, -0.0154,  0.0009,  0.0187,
+        -0.0268,  0.0119], device='cuda:0'), grad: tensor([ 1.1001e-08,  4.7730e-08,  3.7020e-08,  2.3399e-08,  1.2806e-09,
+        -7.1619e-07,  5.2061e-07, -1.4168e-07,  9.7731e-08,  1.4040e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 345, time 217.84, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4584 re_mapping 0.0027 re_causal 0.0086 /// teacc 99.06 lr 0.00010000
+Epoch 347, weight, value: tensor([[ 0.0314, -0.0952, -0.0157,  ..., -0.1470, -0.1694, -0.1626],
+        [-0.1413,  0.0780, -0.1412,  ..., -0.1903, -0.1994, -0.2082],
+        [-0.1298, -0.1883, -0.2104,  ..., -0.2238, -0.1619,  0.1727],
+        ...,
+        [ 0.0902, -0.0733, -0.1684,  ...,  0.1121, -0.1753, -0.1532],
+        [ 0.1261,  0.1044,  0.0943,  ..., -0.2106, -0.1228,  0.0919],
+        [ 0.0771,  0.0477,  0.1141,  ...,  0.0529, -0.0943, -0.0035]],
+       device='cuda:0'), grad: tensor([[ 6.4028e-10,  2.0955e-09,  1.7462e-09,  ...,  3.2596e-09,
+          5.2387e-10,  8.7311e-10],
+        [ 4.3074e-09, -9.4296e-09,  3.6671e-09,  ...,  8.7311e-09,
+          1.3970e-09,  6.6357e-09],
+        [ 3.6671e-09,  5.1223e-09,  9.8953e-10,  ...,  2.2701e-09,
+         -5.5879e-09, -3.8126e-08],
+        ...,
+        [ 2.9104e-10,  1.0303e-08,  7.3924e-09,  ...,  1.2689e-08,
+          2.0373e-09,  3.4925e-09],
+        [-2.0373e-08, -1.8044e-09,  5.2387e-10,  ...,  9.3714e-09,
+          2.0373e-09, -1.5600e-08],
+        [-9.8953e-09, -4.6392e-08, -5.1979e-08,  ..., -6.1933e-08,
+          2.6426e-08,  8.2655e-09]], device='cuda:0')
+Epoch 347, bias, value: tensor([ 0.0271, -0.0298, -0.0049,  0.0102, -0.0026, -0.0154,  0.0009,  0.0186,
+        -0.0269,  0.0118], device='cuda:0'), grad: tensor([ 1.7055e-08,  4.4296e-08, -3.2224e-07,  1.3714e-07,  1.4273e-07,
+         9.5053e-08, -8.1491e-09,  7.5321e-08,  3.8417e-09, -1.6787e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 346, time 217.63, cls_loss 0.0005 cls_loss_mapping 0.0017 cls_loss_causal 0.4612 re_mapping 0.0026 re_causal 0.0084 /// teacc 99.21 lr 0.00010000
+Epoch 348, weight, value: tensor([[ 0.0302, -0.0954, -0.0158,  ..., -0.1482, -0.1695, -0.1628],
+        [-0.1414,  0.0784, -0.1413,  ..., -0.1910, -0.2002, -0.2083],
+        [-0.1301, -0.1899, -0.2109,  ..., -0.2240, -0.1621,  0.1728],
+        ...,
+        [ 0.0904, -0.0734, -0.1688,  ...,  0.1126, -0.1751, -0.1533],
+        [ 0.1262,  0.1046,  0.0944,  ..., -0.2109, -0.1231,  0.0920],
+        [ 0.0780,  0.0478,  0.1142,  ...,  0.0531, -0.0944, -0.0037]],
+       device='cuda:0'), grad: tensor([[-2.7358e-09,  5.1223e-09,  2.3283e-10,  ...,  4.0745e-10,
+          1.7346e-08,  1.7113e-08],
+        [ 5.9954e-09, -9.1316e-07,  1.9209e-09,  ...,  5.9954e-09,
+          5.4715e-09,  8.2073e-09],
+        [ 2.7358e-09,  1.2340e-08,  5.8208e-10,  ...,  2.6193e-09,
+          4.7148e-09,  5.4715e-09],
+        ...,
+        [-1.3388e-09,  4.3015e-08,  1.3970e-09,  ..., -8.4983e-09,
+          6.9849e-10,  2.0373e-09],
+        [-2.3341e-08,  7.3062e-07, -1.3679e-08,  ...,  2.5029e-09,
+          2.2235e-08,  5.1805e-09],
+        [-4.5984e-09,  1.7812e-08, -2.1537e-09,  ..., -2.1246e-08,
+          2.1537e-09,  3.8999e-09]], device='cuda:0')
+Epoch 348, bias, value: tensor([ 0.0262, -0.0296, -0.0053,  0.0098, -0.0025, -0.0154,  0.0009,  0.0187,
+        -0.0269,  0.0120], device='cuda:0'), grad: tensor([-3.8650e-08, -2.4196e-06,  5.9954e-08,  1.0245e-08,  7.2701e-08,
+        -1.7090e-07,  2.3865e-07,  1.1042e-07,  2.1178e-06,  4.7323e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 347, time 217.64, cls_loss 0.0008 cls_loss_mapping 0.0019 cls_loss_causal 0.4472 re_mapping 0.0026 re_causal 0.0084 /// teacc 99.18 lr 0.00010000
+Epoch 349, weight, value: tensor([[ 0.0302, -0.0957, -0.0159,  ..., -0.1483, -0.1701, -0.1636],
+        [-0.1416,  0.0784, -0.1413,  ..., -0.1919, -0.2015, -0.2088],
+        [-0.1307, -0.1900, -0.2123,  ..., -0.2250, -0.1626,  0.1731],
+        ...,
+        [ 0.0908, -0.0735, -0.1690,  ...,  0.1140, -0.1751, -0.1531],
+        [ 0.1263,  0.1048,  0.0944,  ..., -0.2113, -0.1233,  0.0922],
+        [ 0.0779,  0.0479,  0.1143,  ...,  0.0530, -0.0946, -0.0040]],
+       device='cuda:0'), grad: tensor([[-1.6356e-08,  1.0652e-08,  5.8208e-11,  ...,  1.7462e-09,
+          1.8801e-08,  1.2224e-08],
+        [ 6.5775e-09, -1.4435e-07,  1.7462e-10,  ...,  9.3714e-09,
+          6.0536e-09, -1.4435e-08],
+        [ 1.8685e-08,  1.1991e-08,  5.8208e-11,  ...,  8.8476e-09,
+          4.4820e-09,  1.1642e-08],
+        ...,
+        [-1.1059e-09,  2.8871e-08,  7.5670e-10,  ..., -4.0978e-08,
+          3.2596e-09,  5.0059e-09],
+        [-3.5856e-08,  4.7323e-08,  0.0000e+00,  ...,  4.7148e-09,
+          4.3656e-09,  1.0070e-08],
+        [-6.2282e-09, -6.5193e-09, -6.2282e-09,  ...,  1.5495e-07,
+          1.1758e-07,  6.9966e-08]], device='cuda:0')
+Epoch 349, bias, value: tensor([ 0.0257, -0.0298, -0.0062,  0.0098, -0.0027, -0.0154,  0.0010,  0.0197,
+        -0.0269,  0.0118], device='cuda:0'), grad: tensor([-5.2387e-08, -6.7707e-07,  1.4284e-07,  8.5391e-08, -1.1281e-07,
+        -1.0559e-07, -1.1659e-07,  5.0990e-08,  4.2375e-07,  3.6182e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 348, time 217.64, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4630 re_mapping 0.0025 re_causal 0.0085 /// teacc 99.17 lr 0.00010000
+Epoch 350, weight, value: tensor([[ 0.0298, -0.0960, -0.0160,  ..., -0.1489, -0.1703, -0.1641],
+        [-0.1417,  0.0785, -0.1414,  ..., -0.1925, -0.2020, -0.2089],
+        [-0.1311, -0.1901, -0.2129,  ..., -0.2244, -0.1630,  0.1737],
+        ...,
+        [ 0.0909, -0.0738, -0.1696,  ...,  0.1134, -0.1752, -0.1537],
+        [ 0.1264,  0.1047,  0.0944,  ..., -0.2119, -0.1238,  0.0921],
+        [ 0.0789,  0.0489,  0.1148,  ...,  0.0534, -0.0945, -0.0037]],
+       device='cuda:0'), grad: tensor([[ 1.2955e-06,  1.6880e-09,  1.7462e-10,  ...,  2.3320e-06,
+          1.5483e-08,  4.1816e-07],
+        [ 9.5693e-08,  1.2806e-09,  5.2387e-10,  ...,  1.7486e-07,
+          2.2701e-09,  4.2492e-08],
+        [ 2.6135e-08,  1.3271e-08,  6.9849e-10,  ..., -5.6054e-08,
+          2.4447e-09, -1.7742e-07],
+        ...,
+        [ 3.3365e-07,  1.8335e-08,  2.3865e-09,  ...,  6.3563e-07,
+          6.9849e-10,  2.1874e-07],
+        [-1.5716e-08, -3.4459e-08, -1.8626e-09,  ...,  2.0373e-08,
+          6.9267e-09, -7.3924e-09],
+        [-1.9334e-06, -2.1188e-08, -5.5297e-09,  ..., -3.4552e-06,
+          1.2340e-08, -5.4622e-07]], device='cuda:0')
+Epoch 350, bias, value: tensor([ 0.0252, -0.0298, -0.0057,  0.0097, -0.0028, -0.0154,  0.0010,  0.0193,
+        -0.0271,  0.0121], device='cuda:0'), grad: tensor([ 4.4331e-06,  3.6322e-07, -3.2410e-07,  2.8696e-08,  6.5193e-07,
+         1.2964e-06, -1.3476e-06,  1.3448e-06, -1.5192e-08, -6.4112e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 349, time 217.87, cls_loss 0.0006 cls_loss_mapping 0.0013 cls_loss_causal 0.4404 re_mapping 0.0025 re_causal 0.0083 /// teacc 99.08 lr 0.00010000
+Epoch 351, weight, value: tensor([[ 0.0298, -0.0966, -0.0159,  ..., -0.1490, -0.1706, -0.1644],
+        [-0.1419,  0.0788, -0.1414,  ..., -0.1932, -0.2050, -0.2095],
+        [-0.1314, -0.1904, -0.2141,  ..., -0.2244, -0.1631,  0.1738],
+        ...,
+        [ 0.0909, -0.0743, -0.1700,  ...,  0.1134, -0.1755, -0.1538],
+        [ 0.1265,  0.1048,  0.0945,  ..., -0.2120, -0.1242,  0.0923],
+        [ 0.0792,  0.0493,  0.1149,  ...,  0.0542, -0.0941, -0.0028]],
+       device='cuda:0'), grad: tensor([[ 1.3795e-08,  2.5088e-08,  3.3178e-09,  ...,  4.6508e-08,
+          2.2643e-08,  2.8696e-08],
+        [ 3.9057e-08,  1.5541e-08,  6.9849e-09,  ...,  4.9267e-07,
+          7.4739e-08,  1.4016e-07],
+        [ 1.2224e-08,  1.1642e-06,  2.0373e-09,  ...,  7.1861e-06,
+          7.2364e-07,  2.0564e-06],
+        ...,
+        [ 2.4913e-08,  7.9686e-08,  1.3504e-08,  ..., -9.1419e-06,
+          6.5542e-08, -4.6357e-07],
+        [-1.1979e-07, -1.3746e-06,  6.4028e-10,  ...,  3.9651e-07,
+         -6.9151e-07, -1.8468e-06],
+        [-8.6788e-08, -1.6019e-07, -7.9162e-08,  ...,  1.7453e-06,
+          9.7044e-07,  8.1677e-07]], device='cuda:0')
+Epoch 351, bias, value: tensor([ 0.0251, -0.0298, -0.0057,  0.0099, -0.0032, -0.0155,  0.0011,  0.0191,
+        -0.0271,  0.0127], device='cuda:0'), grad: tensor([ 2.3190e-07,  1.3541e-06,  2.2873e-05,  1.1083e-06, -4.5821e-06,
+         5.7789e-07,  4.9779e-07, -2.0638e-05, -6.6087e-06,  5.1595e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 350, time 217.83, cls_loss 0.0005 cls_loss_mapping 0.0011 cls_loss_causal 0.4711 re_mapping 0.0026 re_causal 0.0089 /// teacc 99.15 lr 0.00010000
+Epoch 352, weight, value: tensor([[ 0.0299, -0.0970, -0.0162,  ..., -0.1491, -0.1715, -0.1649],
+        [-0.1420,  0.0794, -0.1415,  ..., -0.1936, -0.2053, -0.2096],
+        [-0.1319, -0.1907, -0.2150,  ..., -0.2245, -0.1633,  0.1738],
+        ...,
+        [ 0.0910, -0.0751, -0.1708,  ...,  0.1134, -0.1755, -0.1538],
+        [ 0.1266,  0.1050,  0.0945,  ..., -0.2122, -0.1250,  0.0925],
+        [ 0.0794,  0.0494,  0.1150,  ...,  0.0541, -0.0943, -0.0032]],
+       device='cuda:0'), grad: tensor([[ 3.4925e-10,  5.8208e-11,  3.4925e-10,  ...,  1.2806e-09,
+          4.5402e-09,  4.1910e-09],
+        [ 4.5402e-09,  1.7462e-09,  1.6880e-09,  ...,  4.8312e-09,
+          2.3865e-09,  3.8999e-09],
+        [ 3.5390e-08,  1.9209e-09,  7.5670e-10,  ...,  3.1490e-08,
+          1.7462e-09, -2.2119e-09],
+        ...,
+        [-4.0105e-08,  4.8312e-09,  9.3132e-10,  ..., -2.8289e-08,
+          4.4820e-09,  4.4238e-09],
+        [-1.1409e-08, -2.2701e-08, -1.6124e-08,  ...,  4.8894e-09,
+          5.7044e-09, -5.8790e-09],
+        [ 3.3178e-09,  5.1863e-08,  3.7253e-09,  ...,  3.3644e-07,
+          2.1281e-07,  1.4482e-07]], device='cuda:0')
+Epoch 352, bias, value: tensor([ 0.0248, -0.0296, -0.0058,  0.0101, -0.0031, -0.0155,  0.0012,  0.0190,
+        -0.0270,  0.0125], device='cuda:0'), grad: tensor([-1.0419e-08,  2.4156e-08,  1.4657e-07, -5.0059e-09, -6.8080e-07,
+         1.9209e-09, -7.2760e-09, -1.4051e-07,  1.4727e-08,  6.8545e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 351, time 217.74, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.4433 re_mapping 0.0025 re_causal 0.0082 /// teacc 99.23 lr 0.00010000
+Epoch 353, weight, value: tensor([[ 0.0298, -0.0966, -0.0163,  ..., -0.1492, -0.1720, -0.1653],
+        [-0.1421,  0.0798, -0.1415,  ..., -0.1939, -0.2055, -0.2097],
+        [-0.1326, -0.1912, -0.2157,  ..., -0.2245, -0.1636,  0.1738],
+        ...,
+        [ 0.0905, -0.0759, -0.1717,  ...,  0.1133, -0.1756, -0.1538],
+        [ 0.1267,  0.1051,  0.0946,  ..., -0.2126, -0.1253,  0.0927],
+        [ 0.0804,  0.0499,  0.1150,  ...,  0.0543, -0.0945, -0.0034]],
+       device='cuda:0'), grad: tensor([[-9.1386e-09,  2.6193e-09,  1.5716e-09,  ...,  2.9104e-09,
+          1.1059e-09,  1.6298e-09],
+        [ 3.7835e-09, -1.0477e-09,  1.9209e-09,  ...,  4.4238e-09,
+          7.5670e-10,  1.2165e-08],
+        [ 3.1432e-09, -1.2747e-08,  6.9849e-10,  ...,  3.4925e-09,
+          4.6566e-10, -6.1234e-08],
+        ...,
+        [ 1.9034e-08,  3.1258e-08,  1.7521e-08,  ...,  3.1549e-08,
+          3.4925e-10,  7.8580e-09],
+        [ 1.3795e-08,  1.9441e-08,  1.1001e-08,  ...,  2.4796e-08,
+          5.0641e-09,  4.8312e-09],
+        [-5.3726e-08, -5.4250e-08, -4.5460e-08,  ..., -8.8417e-08,
+          1.9791e-09, -6.1118e-09]], device='cuda:0')
+Epoch 353, bias, value: tensor([ 0.0249, -0.0293, -0.0058,  0.0100, -0.0030, -0.0161,  0.0018,  0.0188,
+        -0.0270,  0.0127], device='cuda:0'), grad: tensor([-7.9221e-08,  1.2130e-07, -7.0035e-07,  2.5169e-07,  5.8790e-08,
+         2.0966e-07, -1.0710e-08,  1.6158e-07,  1.8638e-07, -1.8929e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 352, time 217.33, cls_loss 0.0006 cls_loss_mapping 0.0018 cls_loss_causal 0.4810 re_mapping 0.0025 re_causal 0.0087 /// teacc 99.11 lr 0.00010000
+Epoch 354, weight, value: tensor([[ 0.0286, -0.0974, -0.0169,  ..., -0.1508, -0.1728, -0.1662],
+        [-0.1421,  0.0801, -0.1416,  ..., -0.1946, -0.2058, -0.2099],
+        [-0.1329, -0.1914, -0.2161,  ..., -0.2246, -0.1641,  0.1740],
+        ...,
+        [ 0.0909, -0.0762, -0.1726,  ...,  0.1134, -0.1761, -0.1539],
+        [ 0.1267,  0.1052,  0.0947,  ..., -0.2131, -0.1262,  0.0923],
+        [ 0.0817,  0.0503,  0.1152,  ...,  0.0548, -0.0946, -0.0035]],
+       device='cuda:0'), grad: tensor([[-6.7521e-09,  1.4959e-08,  0.0000e+00,  ...,  1.2224e-09,
+          1.0477e-09,  1.8626e-09],
+        [ 2.5029e-09,  2.8405e-08,  5.8208e-11,  ...,  5.0641e-09,
+          1.5716e-09,  1.9441e-08],
+        [ 1.2806e-08,  1.9674e-08,  5.8208e-11,  ...,  2.1188e-08,
+          2.6193e-09, -1.3399e-07],
+        ...,
+        [-2.0606e-08,  3.4517e-08,  2.9104e-10,  ..., -2.9278e-08,
+          6.4028e-10,  8.5856e-08],
+        [ 5.1223e-09,  1.1880e-07,  5.2387e-10,  ...,  1.2561e-07,
+          1.0908e-07,  1.1327e-07],
+        [ 1.3388e-09,  1.0844e-07, -1.1642e-09,  ...,  2.7264e-07,
+          2.4866e-07,  2.1537e-07]], device='cuda:0')
+Epoch 354, bias, value: tensor([ 0.0238, -0.0293, -0.0058,  0.0084, -0.0029, -0.0165,  0.0022,  0.0190,
+        -0.0272,  0.0129], device='cuda:0'), grad: tensor([ 2.2119e-08,  1.3737e-07, -2.9709e-07, -1.5553e-06, -1.0338e-06,
+         9.3039e-07,  1.6321e-07,  2.6310e-07,  6.5891e-07,  7.4832e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 353, time 217.52, cls_loss 0.0004 cls_loss_mapping 0.0014 cls_loss_causal 0.4371 re_mapping 0.0026 re_causal 0.0085 /// teacc 99.12 lr 0.00010000
+Epoch 355, weight, value: tensor([[ 0.0287, -0.0973, -0.0165,  ..., -0.1508, -0.1731, -0.1664],
+        [-0.1426,  0.0798, -0.1418,  ..., -0.1972, -0.2061, -0.2101],
+        [-0.1329, -0.1914, -0.2163,  ..., -0.2246, -0.1642,  0.1740],
+        ...,
+        [ 0.0912, -0.0762, -0.1732,  ...,  0.1135, -0.1762, -0.1539],
+        [ 0.1267,  0.1052,  0.0947,  ..., -0.2133, -0.1267,  0.0920],
+        [ 0.0818,  0.0510,  0.1154,  ...,  0.0549, -0.0947, -0.0036]],
+       device='cuda:0'), grad: tensor([[ 5.8208e-11,  6.4028e-09,  0.0000e+00,  ...,  6.2864e-09,
+          2.9313e-07,  1.8475e-07],
+        [ 7.5670e-10,  1.9209e-09,  1.1642e-10,  ...,  4.1910e-09,
+          8.3237e-09,  7.2177e-09],
+        [ 3.4925e-10,  2.9686e-09,  0.0000e+00,  ...,  5.6461e-09,
+          2.2235e-08,  1.2631e-08],
+        ...,
+        [ 2.4447e-09,  7.7416e-09,  9.3132e-10,  ...,  1.5891e-08,
+          1.1059e-08,  6.4028e-09],
+        [-4.4820e-09, -2.6601e-08, -1.7462e-10,  ...,  5.2969e-09,
+          3.9407e-08,  1.2340e-08],
+        [-3.6089e-09,  1.6368e-07, -1.5716e-09,  ...,  1.3998e-06,
+          1.3774e-06,  6.8266e-07]], device='cuda:0')
+Epoch 355, bias, value: tensor([ 0.0238, -0.0297, -0.0058,  0.0080, -0.0030, -0.0164,  0.0022,  0.0192,
+        -0.0273,  0.0130], device='cuda:0'), grad: tensor([ 7.8790e-07,  3.1025e-08,  6.3446e-08,  4.1968e-08, -3.6079e-06,
+         1.0635e-07, -1.1865e-06,  5.5181e-08,  2.2294e-08,  3.6974e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 354, time 217.46, cls_loss 0.0007 cls_loss_mapping 0.0019 cls_loss_causal 0.4855 re_mapping 0.0026 re_causal 0.0084 /// teacc 99.09 lr 0.00010000
+Epoch 356, weight, value: tensor([[ 0.0294, -0.0958, -0.0149,  ..., -0.1508, -0.1736, -0.1664],
+        [-0.1427,  0.0800, -0.1419,  ..., -0.1980, -0.2065, -0.2105],
+        [-0.1331, -0.1916, -0.2170,  ..., -0.2246, -0.1646,  0.1743],
+        ...,
+        [ 0.0905, -0.0773, -0.1766,  ...,  0.1130, -0.1799, -0.1546],
+        [ 0.1270,  0.1053,  0.0947,  ..., -0.2137, -0.1275,  0.0923],
+        [ 0.0820,  0.0519,  0.1159,  ...,  0.0542, -0.0954, -0.0051]],
+       device='cuda:0'), grad: tensor([[-2.9104e-09,  2.0373e-09,  2.9104e-10,  ...,  1.6298e-09,
+          3.0850e-09,  4.0163e-09],
+        [ 8.3237e-09,  8.9058e-09,  1.5716e-09,  ...,  2.2876e-08,
+          1.6880e-09,  1.2107e-08],
+        [ 2.3283e-09,  1.2398e-08,  6.4028e-10,  ..., -3.0268e-08,
+          2.6484e-08, -5.5588e-08],
+        ...,
+        [-3.2654e-08,  2.4447e-08,  5.0641e-09,  ..., -6.5193e-08,
+          8.1491e-10,  1.9732e-08],
+        [-5.2969e-09,  1.0751e-07,  3.3760e-09,  ...,  2.3283e-08,
+          6.1700e-09,  2.9278e-08],
+        [-9.0222e-09, -1.4179e-07, -4.0920e-08,  ..., -1.7276e-07,
+          2.8871e-08, -5.4308e-08]], device='cuda:0')
+Epoch 356, bias, value: tensor([ 0.0244, -0.0297, -0.0057,  0.0061, -0.0020, -0.0163,  0.0022,  0.0187,
+        -0.0273,  0.0126], device='cuda:0'), grad: tensor([-1.5134e-09,  8.0443e-08, -1.9604e-07, -3.7579e-07,  5.3272e-07,
+         5.5938e-08, -7.1421e-08, -3.9232e-08,  4.2235e-07, -3.9255e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 355, time 217.32, cls_loss 0.0005 cls_loss_mapping 0.0015 cls_loss_causal 0.4389 re_mapping 0.0024 re_causal 0.0082 /// teacc 99.15 lr 0.00010000
+Epoch 357, weight, value: tensor([[ 0.0296, -0.0959, -0.0141,  ..., -0.1508, -0.1736, -0.1665],
+        [-0.1429,  0.0798, -0.1419,  ..., -0.1995, -0.2068, -0.2109],
+        [-0.1335, -0.1918, -0.2174,  ..., -0.2246, -0.1646,  0.1746],
+        ...,
+        [ 0.0908, -0.0773, -0.1769,  ...,  0.1130, -0.1800, -0.1549],
+        [ 0.1271,  0.1055,  0.0947,  ..., -0.2139, -0.1276,  0.0926],
+        [ 0.0821,  0.0521,  0.1161,  ...,  0.0543, -0.0954, -0.0052]],
+       device='cuda:0'), grad: tensor([[-9.3132e-10,  3.7020e-08,  0.0000e+00,  ...,  2.3283e-10,
+          8.1491e-10,  1.3970e-09],
+        [ 1.7812e-07,  2.1346e-06,  1.1642e-10,  ...,  1.0012e-08,
+          2.3283e-10,  4.6217e-08],
+        [ 5.0641e-09, -8.7894e-09,  5.8208e-11,  ...,  7.2177e-09,
+          2.3283e-10, -1.1473e-07],
+        ...,
+        [-7.7416e-09,  4.1677e-08,  2.3283e-10,  ..., -2.1537e-08,
+          3.4925e-10,  3.0734e-08],
+        [-2.9313e-07, -3.5726e-06, -4.0745e-10,  ...,  2.9686e-09,
+          1.5134e-09, -2.8929e-08],
+        [ 2.0955e-09,  4.5984e-09, -4.6566e-10,  ...,  3.6089e-09,
+          2.3283e-09,  8.9640e-09]], device='cuda:0')
+Epoch 357, bias, value: tensor([ 0.0246, -0.0300, -0.0056,  0.0067, -0.0020, -0.0163,  0.0022,  0.0187,
+        -0.0273,  0.0126], device='cuda:0'), grad: tensor([ 1.1263e-07,  8.2776e-06, -3.3784e-07,  4.0606e-07,  1.1350e-08,
+         4.1500e-06,  6.2864e-07,  1.6461e-07, -1.3508e-05,  5.7975e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 356, time 217.10, cls_loss 0.0006 cls_loss_mapping 0.0011 cls_loss_causal 0.4764 re_mapping 0.0024 re_causal 0.0080 /// teacc 99.21 lr 0.00010000
+Epoch 358, weight, value: tensor([[ 0.0298, -0.0960, -0.0140,  ..., -0.1508, -0.1738, -0.1669],
+        [-0.1431,  0.0802, -0.1420,  ..., -0.2000, -0.2071, -0.2111],
+        [-0.1340, -0.1922, -0.2180,  ..., -0.2246, -0.1647,  0.1747],
+        ...,
+        [ 0.0910, -0.0778, -0.1774,  ...,  0.1132, -0.1801, -0.1550],
+        [ 0.1271,  0.1057,  0.0947,  ..., -0.2157, -0.1282,  0.0931],
+        [ 0.0823,  0.0525,  0.1165,  ...,  0.0544, -0.0955, -0.0051]],
+       device='cuda:0'), grad: tensor([[-1.2503e-07, -3.2654e-08,  5.8208e-11,  ..., -1.2224e-09,
+          3.2014e-09, -3.2189e-08],
+        [ 4.1677e-08, -1.4273e-07,  4.6566e-10,  ...,  1.2049e-08,
+          7.4506e-09, -3.5216e-08],
+        [ 2.6193e-08,  8.0676e-08,  1.6880e-09,  ...,  2.8114e-08,
+          2.0547e-08,  4.9477e-09],
+        ...,
+        [ 1.1583e-08,  2.9220e-08,  1.6880e-09,  ..., -6.3446e-09,
+          3.7253e-09,  3.1665e-08],
+        [ 2.1944e-08,  4.8196e-08, -2.2119e-09,  ...,  1.5134e-09,
+          4.4820e-09,  4.2666e-08],
+        [ 8.9058e-09,  7.2177e-09, -2.5029e-09,  ...,  4.0571e-08,
+          3.3644e-08,  3.5914e-08]], device='cuda:0')
+Epoch 358, bias, value: tensor([ 0.0248, -0.0300, -0.0057,  0.0066, -0.0021, -0.0163,  0.0022,  0.0189,
+        -0.0277,  0.0127], device='cuda:0'), grad: tensor([-1.5656e-06, -5.5239e-08,  5.3830e-07,  6.1700e-07, -3.7951e-07,
+        -1.6550e-06,  9.9931e-07,  2.8079e-07,  8.7591e-07,  3.5809e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 357, time 217.18, cls_loss 0.0008 cls_loss_mapping 0.0019 cls_loss_causal 0.4834 re_mapping 0.0026 re_causal 0.0085 /// teacc 99.11 lr 0.00010000
+Epoch 359, weight, value: tensor([[ 0.0300, -0.0962, -0.0141,  ..., -0.1510, -0.1747, -0.1674],
+        [-0.1459,  0.0775, -0.1420,  ..., -0.2013, -0.2075, -0.2131],
+        [-0.1354, -0.1927, -0.2190,  ..., -0.2247, -0.1650,  0.1746],
+        ...,
+        [ 0.0882, -0.0809, -0.1783,  ...,  0.1102, -0.1802, -0.1545],
+        [ 0.1271,  0.1058,  0.0947,  ..., -0.2163, -0.1282,  0.0936],
+        [ 0.0820,  0.0524,  0.1166,  ...,  0.0538, -0.0958, -0.0057]],
+       device='cuda:0'), grad: tensor([[ 7.1013e-09,  5.8208e-10,  2.9104e-10,  ...,  1.6880e-09,
+          7.3342e-09,  3.7544e-08],
+        [ 9.8196e-08, -1.1059e-09,  1.4552e-09,  ...,  2.2468e-08,
+          8.1491e-10,  5.7276e-07],
+        [-7.0548e-07,  5.8208e-10,  5.8208e-11,  ..., -1.0047e-07,
+          4.0745e-10, -2.8070e-06],
+        ...,
+        [ 3.3854e-07, -2.3807e-08,  4.7730e-09,  ..., -1.0768e-07,
+          5.2387e-10,  1.4640e-06],
+        [ 7.4506e-09,  1.8044e-09,  6.9849e-10,  ...,  6.0536e-09,
+          1.7870e-08,  5.0233e-08],
+        [ 1.8370e-07, -1.5483e-08, -1.0186e-08,  ...,  1.9558e-08,
+          7.3924e-09,  6.3051e-07]], device='cuda:0')
+Epoch 359, bias, value: tensor([ 0.0248, -0.0327, -0.0058,  0.0101, -0.0018, -0.0163,  0.0023,  0.0161,
+        -0.0277,  0.0121], device='cuda:0'), grad: tensor([ 1.3341e-07,  1.7323e-06, -8.7097e-06,  8.2608e-07,  3.5099e-08,
+        -3.5111e-07,  1.3364e-07,  3.9525e-06,  3.6531e-07,  1.8673e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 358, time 217.31, cls_loss 0.0007 cls_loss_mapping 0.0015 cls_loss_causal 0.4657 re_mapping 0.0025 re_causal 0.0081 /// teacc 99.19 lr 0.00010000
+Epoch 360, weight, value: tensor([[ 0.0301, -0.0967, -0.0143,  ..., -0.1511, -0.1752, -0.1678],
+        [-0.1460,  0.0782, -0.1420,  ..., -0.2023, -0.2080, -0.2133],
+        [-0.1356, -0.1931, -0.2194,  ..., -0.2247, -0.1654,  0.1749],
+        ...,
+        [ 0.0882, -0.0809, -0.1786,  ...,  0.1103, -0.1803, -0.1547],
+        [ 0.1271,  0.1055,  0.0947,  ..., -0.2171, -0.1290,  0.0934],
+        [ 0.0823,  0.0530,  0.1170,  ...,  0.0537, -0.0961, -0.0059]],
+       device='cuda:0'), grad: tensor([[-9.3132e-10,  3.2596e-09,  1.1642e-10,  ...,  6.5775e-09,
+          1.0827e-08,  1.3446e-08],
+        [ 1.1234e-08, -4.9418e-08,  1.0477e-09,  ...,  5.9314e-08,
+          2.5437e-08,  5.9139e-08],
+        [ 6.9267e-09,  5.7626e-09,  6.4028e-10,  ...,  1.5018e-08,
+          3.0268e-09, -1.8021e-07],
+        ...,
+        [ 3.0547e-06,  1.5264e-06,  5.8208e-10,  ...,  9.3281e-06,
+          5.6461e-09,  2.0606e-08],
+        [ 5.8208e-11,  4.0920e-08, -2.2701e-09,  ...,  2.0082e-08,
+          8.9826e-07,  8.2934e-07],
+        [-3.8110e-06, -1.8533e-06,  5.2387e-10,  ..., -1.1548e-05,
+          4.5809e-08,  3.5274e-08]], device='cuda:0')
+Epoch 360, bias, value: tensor([ 0.0247, -0.0323, -0.0058,  0.0100, -0.0017, -0.0163,  0.0023,  0.0161,
+        -0.0282,  0.0120], device='cuda:0'), grad: tensor([ 6.9966e-08,  5.7102e-08, -6.1234e-07,  1.7602e-07,  3.7681e-06,
+        -2.4051e-07, -2.6263e-06,  1.6361e-05,  3.0752e-06, -1.9982e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 359, time 217.32, cls_loss 0.0006 cls_loss_mapping 0.0015 cls_loss_causal 0.4794 re_mapping 0.0024 re_causal 0.0078 /// teacc 99.21 lr 0.00010000
+Epoch 361, weight, value: tensor([[ 0.0303, -0.0972, -0.0146,  ..., -0.1511, -0.1756, -0.1681],
+        [-0.1462,  0.0785, -0.1422,  ..., -0.2032, -0.2085, -0.2136],
+        [-0.1349, -0.1932, -0.2204,  ..., -0.2247, -0.1656,  0.1751],
+        ...,
+        [ 0.0882, -0.0809, -0.1789,  ...,  0.1103, -0.1803, -0.1548],
+        [ 0.1272,  0.1051,  0.0949,  ..., -0.2175, -0.1289,  0.0938],
+        [ 0.0825,  0.0538,  0.1174,  ...,  0.0539, -0.0962, -0.0061]],
+       device='cuda:0'), grad: tensor([[ 3.4925e-10,  8.3528e-09,  4.5984e-09,  ...,  5.9954e-09,
+          4.1327e-09,  3.7835e-09],
+        [ 3.7544e-09, -4.7637e-07,  3.4343e-09,  ...,  6.7230e-09,
+          1.2224e-09,  1.0943e-08],
+        [ 2.4447e-09,  7.8289e-09,  1.7462e-09,  ...,  2.4738e-09,
+          7.8580e-10, -1.8568e-08],
+        ...,
+        [ 2.9977e-09,  1.2631e-08,  4.5111e-09,  ...,  9.8953e-10,
+          4.9477e-10,  7.7998e-09],
+        [ 2.3225e-08,  4.5612e-07,  1.5978e-08,  ...,  3.7486e-08,
+          1.0594e-08, -9.8953e-10],
+        [-9.0920e-08, -9.5344e-08, -9.5461e-08,  ..., -1.2794e-07,
+          1.9791e-09, -3.2072e-08]], device='cuda:0')
+Epoch 361, bias, value: tensor([ 0.0249, -0.0323, -0.0056,  0.0100, -0.0018, -0.0163,  0.0023,  0.0161,
+        -0.0286,  0.0121], device='cuda:0'), grad: tensor([ 2.4622e-08, -1.2806e-06, -1.9470e-08,  3.1461e-08,  2.8918e-07,
+         1.0122e-07, -4.5344e-08,  3.9901e-08,  1.3635e-06, -4.8289e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 360, time 217.15, cls_loss 0.0004 cls_loss_mapping 0.0012 cls_loss_causal 0.4503 re_mapping 0.0027 re_causal 0.0087 /// teacc 99.09 lr 0.00010000
+Epoch 362, weight, value: tensor([[ 0.0304, -0.0975, -0.0148,  ..., -0.1512, -0.1758, -0.1684],
+        [-0.1463,  0.0785, -0.1422,  ..., -0.2051, -0.2089, -0.2138],
+        [-0.1355, -0.1933, -0.2211,  ..., -0.2248, -0.1659,  0.1752],
+        ...,
+        [ 0.0883, -0.0809, -0.1792,  ...,  0.1104, -0.1804, -0.1549],
+        [ 0.1272,  0.1052,  0.0949,  ..., -0.2178, -0.1291,  0.0940],
+        [ 0.0822,  0.0539,  0.1177,  ...,  0.0536, -0.0965, -0.0064]],
+       device='cuda:0'), grad: tensor([[ 1.4261e-09,  2.4738e-09,  2.3283e-10,  ...,  4.1910e-09,
+          1.5367e-07,  8.0676e-08],
+        [ 4.3627e-08, -4.3516e-07,  2.9104e-10,  ...,  3.5245e-08,
+          2.6892e-08, -1.7055e-08],
+        [ 2.4535e-08,  5.4977e-08,  1.1642e-10,  ...,  1.8539e-08,
+          6.6066e-09,  6.8103e-09],
+        ...,
+        [-8.5507e-08,  3.0617e-07,  1.5425e-09,  ..., -4.5286e-08,
+          3.8417e-09,  2.8347e-08],
+        [ 9.1677e-09,  1.3591e-08,  2.6193e-10,  ...,  1.1671e-08,
+          2.0931e-07,  1.1036e-07],
+        [-2.5262e-08, -4.5315e-08, -1.6793e-08,  ..., -2.7809e-06,
+         -1.0058e-06, -7.9302e-07]], device='cuda:0')
+Epoch 362, bias, value: tensor([ 0.0248, -0.0324, -0.0058,  0.0100, -0.0017, -0.0162,  0.0023,  0.0161,
+        -0.0286,  0.0118], device='cuda:0'), grad: tensor([ 3.0780e-07, -9.0338e-07,  2.5798e-07,  2.5233e-08,  4.6343e-06,
+         1.1576e-06, -2.1476e-06,  3.5996e-07,  4.9593e-07, -4.1761e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 361, time 217.32, cls_loss 0.0004 cls_loss_mapping 0.0012 cls_loss_causal 0.4373 re_mapping 0.0026 re_causal 0.0084 /// teacc 99.15 lr 0.00010000
+Epoch 363, weight, value: tensor([[ 0.0304, -0.0952, -0.0149,  ..., -0.1512, -0.1760, -0.1684],
+        [-0.1465,  0.0787, -0.1422,  ..., -0.2059, -0.2098, -0.2143],
+        [-0.1364, -0.1935, -0.2218,  ..., -0.2249, -0.1664,  0.1752],
+        ...,
+        [ 0.0883, -0.0809, -0.1795,  ...,  0.1104, -0.1805, -0.1548],
+        [ 0.1274,  0.1055,  0.0950,  ..., -0.2180, -0.1295,  0.0945],
+        [ 0.0822,  0.0539,  0.1178,  ...,  0.0534, -0.0967, -0.0070]],
+       device='cuda:0'), grad: tensor([[ 1.0419e-08,  1.2195e-08,  2.0082e-09,  ...,  2.6484e-09,
+          8.7311e-11,  1.4086e-08],
+        [ 2.5320e-09,  2.6776e-09,  1.4552e-09,  ...,  2.2992e-09,
+          2.3283e-10,  3.2596e-09],
+        [ 9.8953e-10,  7.8580e-10,  1.1642e-10,  ...,  8.7311e-10,
+          4.6566e-10, -1.1642e-10],
+        ...,
+        [ 7.0431e-09,  6.0245e-09,  8.4401e-10,  ...,  1.6880e-09,
+          4.3656e-10,  6.9849e-09],
+        [-1.3679e-08,  6.1642e-08,  4.3336e-08,  ...,  5.5588e-08,
+          1.4552e-10,  1.0943e-08],
+        [-3.1403e-08, -1.1723e-07, -6.1118e-08,  ..., -6.3621e-08,
+          1.0565e-08, -5.0961e-08]], device='cuda:0')
+Epoch 363, bias, value: tensor([ 0.0259, -0.0324, -0.0058,  0.0100, -0.0014, -0.0161,  0.0022,  0.0161,
+        -0.0286,  0.0116], device='cuda:0'), grad: tensor([ 2.8958e-08,  1.0594e-08,  1.6007e-09,  2.6193e-09,  2.0460e-08,
+         3.1781e-08,  2.1741e-08,  2.9395e-08,  7.1595e-08, -2.1723e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 362, time 217.26, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4609 re_mapping 0.0025 re_causal 0.0083 /// teacc 99.08 lr 0.00010000
+Epoch 364, weight, value: tensor([[ 0.0304, -0.0956, -0.0153,  ..., -0.1513, -0.1762, -0.1686],
+        [-0.1466,  0.0782, -0.1423,  ..., -0.2080, -0.2101, -0.2155],
+        [-0.1366, -0.1938, -0.2230,  ..., -0.2249, -0.1667,  0.1753],
+        ...,
+        [ 0.0874, -0.0809, -0.1821,  ...,  0.1094, -0.1807, -0.1549],
+        [ 0.1272,  0.1041,  0.0946,  ..., -0.2212, -0.1321,  0.0938],
+        [ 0.0867,  0.0583,  0.1195,  ...,  0.0573, -0.0962, -0.0055]],
+       device='cuda:0'), grad: tensor([[ 1.8878e-06,  1.4703e-07,  1.0768e-09,  ...,  3.3379e-06,
+          2.9663e-07,  5.8813e-07],
+        [ 1.5483e-08,  2.6193e-09,  3.7544e-09,  ...,  1.6880e-08,
+          4.8894e-09,  1.5047e-08],
+        [ 1.1001e-08,  1.1874e-08,  3.3178e-09,  ...,  1.2631e-08,
+          4.0163e-09,  6.7230e-09],
+        ...,
+        [ 9.3132e-09,  1.0768e-08,  2.4447e-09,  ...,  1.0536e-08,
+          4.8894e-09,  1.2486e-08],
+        [-5.1339e-08, -9.3365e-08, -3.9028e-08,  ...,  3.7835e-10,
+         -3.7689e-08, -1.0786e-07],
+        [-1.9502e-06, -1.3248e-07,  7.2469e-09,  ..., -3.4627e-06,
+         -2.9779e-07, -5.8627e-07]], device='cuda:0')
+Epoch 364, bias, value: tensor([ 0.0258, -0.0327, -0.0058,  0.0100, -0.0016, -0.0162,  0.0022,  0.0157,
+        -0.0293,  0.0156], device='cuda:0'), grad: tensor([ 6.2697e-06,  4.0483e-08,  5.2212e-08,  6.6939e-09,  1.7253e-07,
+         1.1211e-07,  5.5850e-08,  4.9680e-08, -3.1595e-07, -6.4224e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 363, time 217.07, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4560 re_mapping 0.0025 re_causal 0.0084 /// teacc 99.10 lr 0.00010000
+Epoch 365, weight, value: tensor([[ 0.0303, -0.0962, -0.0154,  ..., -0.1515, -0.1801, -0.1724],
+        [-0.1467,  0.0783, -0.1424,  ..., -0.2091, -0.2106, -0.2157],
+        [-0.1371, -0.1944, -0.2248,  ..., -0.2249, -0.1675,  0.1752],
+        ...,
+        [ 0.0873, -0.0809, -0.1823,  ...,  0.1092, -0.1807, -0.1549],
+        [ 0.1274,  0.1044,  0.0947,  ..., -0.2213, -0.1322,  0.0944],
+        [ 0.0872,  0.0580,  0.1195,  ...,  0.0577, -0.0964, -0.0058]],
+       device='cuda:0'), grad: tensor([[-2.3819e-07, -6.0827e-09, -1.4273e-07,  ...,  1.8917e-09,
+         -1.1350e-09,  7.2177e-09],
+        [ 2.8755e-07,  9.0571e-08,  7.4215e-09,  ...,  2.3935e-07,
+          6.4028e-09,  9.5228e-08],
+        [ 1.4319e-07,  1.5250e-08,  7.8580e-09,  ...,  2.0280e-07,
+          1.6880e-09,  1.2107e-08],
+        ...,
+        [-3.2922e-07, -5.7626e-09,  1.8626e-09,  ..., -5.7323e-07,
+          2.7067e-09,  1.2980e-08],
+        [-3.7905e-07, -2.3295e-07, -1.3417e-08,  ...,  1.9470e-08,
+          1.7462e-10, -2.7427e-07],
+        [ 1.8440e-07,  7.6252e-09,  8.7661e-08,  ...,  9.0338e-08,
+          2.8056e-08,  2.2497e-08]], device='cuda:0')
+Epoch 365, bias, value: tensor([ 0.0223, -0.0327, -0.0059,  0.0100, -0.0015, -0.0161,  0.0029,  0.0156,
+        -0.0293,  0.0160], device='cuda:0'), grad: tensor([-3.7458e-06,  1.7323e-06,  1.1828e-06,  3.2550e-07, -4.5809e-08,
+         8.2562e-07,  1.1334e-06, -2.3823e-06, -1.5059e-06,  2.4978e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 364, time 217.54, cls_loss 0.0005 cls_loss_mapping 0.0011 cls_loss_causal 0.4364 re_mapping 0.0024 re_causal 0.0081 /// teacc 99.11 lr 0.00010000
+Epoch 366, weight, value: tensor([[ 0.0303, -0.0964, -0.0154,  ..., -0.1515, -0.1801, -0.1725],
+        [-0.1468,  0.0789, -0.1424,  ..., -0.2091, -0.2109, -0.2160],
+        [-0.1383, -0.1953, -0.2259,  ..., -0.2250, -0.1678,  0.1752],
+        ...,
+        [ 0.0873, -0.0810, -0.1825,  ...,  0.1093, -0.1808, -0.1550],
+        [ 0.1275,  0.1045,  0.0947,  ..., -0.2213, -0.1323,  0.0949],
+        [ 0.0871,  0.0578,  0.1195,  ...,  0.0576, -0.0967, -0.0061]],
+       device='cuda:0'), grad: tensor([[ 4.3365e-08,  3.8708e-09,  5.2387e-10,  ...,  6.4436e-08,
+          1.8859e-08,  2.2788e-08],
+        [ 2.0955e-09, -1.6589e-08,  5.5297e-10,  ...,  4.6857e-09,
+          1.0477e-09,  5.4715e-09],
+        [ 5.5879e-09,  8.3528e-09,  4.0745e-10,  ...,  9.8080e-09,
+          1.7462e-09, -4.4238e-09],
+        ...,
+        [-1.0390e-08,  9.6043e-09,  5.8208e-10,  ..., -2.4680e-08,
+          1.8917e-09,  3.2596e-09],
+        [-8.7311e-11,  5.1892e-08,  1.1205e-08,  ...,  1.9500e-08,
+          1.5367e-08,  2.3021e-08],
+        [-6.9034e-08, -7.2690e-07, -2.6333e-07,  ..., -4.7102e-07,
+         -2.7451e-07, -5.0012e-07]], device='cuda:0')
+Epoch 366, bias, value: tensor([ 0.0223, -0.0324, -0.0060,  0.0100, -0.0014, -0.0161,  0.0029,  0.0156,
+        -0.0293,  0.0158], device='cuda:0'), grad: tensor([ 1.6915e-07, -3.5798e-08,  2.0169e-08, -9.9943e-08,  2.1439e-06,
+         4.1153e-08,  2.5728e-08, -4.4005e-08,  1.7439e-07, -2.3693e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 365, time 217.41, cls_loss 0.0006 cls_loss_mapping 0.0015 cls_loss_causal 0.4502 re_mapping 0.0025 re_causal 0.0086 /// teacc 99.08 lr 0.00010000
+Epoch 367, weight, value: tensor([[ 0.0303, -0.0994, -0.0155,  ..., -0.1515, -0.1806, -0.1731],
+        [-0.1469,  0.0790, -0.1424,  ..., -0.2096, -0.2117, -0.2165],
+        [-0.1390, -0.1958, -0.2269,  ..., -0.2250, -0.1685,  0.1754],
+        ...,
+        [ 0.0874, -0.0810, -0.1827,  ...,  0.1093, -0.1809, -0.1550],
+        [ 0.1276,  0.1017,  0.0948,  ..., -0.2214, -0.1355,  0.0919],
+        [ 0.0870,  0.0576,  0.1196,  ...,  0.0575, -0.0968, -0.0062]],
+       device='cuda:0'), grad: tensor([[-1.0477e-09,  2.3865e-09,  2.9104e-10,  ...,  0.0000e+00,
+          1.7462e-08,  1.3155e-08],
+        [ 1.3388e-09, -4.9185e-08,  7.5670e-10,  ...,  5.8208e-11,
+          2.0955e-09, -3.4925e-09],
+        [ 9.3132e-10,  8.0909e-09,  1.1059e-09,  ...,  5.8208e-11,
+          2.0373e-09,  2.6193e-09],
+        ...,
+        [ 5.8208e-10,  1.7928e-08,  9.8953e-10,  ...,  3.4925e-10,
+          2.9104e-10,  2.6776e-09],
+        [-6.4611e-09,  2.0373e-09, -4.0745e-10,  ...,  0.0000e+00,
+          6.0885e-08,  3.9814e-08],
+        [ 1.2806e-09,  1.4610e-08,  3.4925e-10,  ...,  1.5716e-09,
+          1.3970e-09,  3.0850e-09]], device='cuda:0')
+Epoch 367, bias, value: tensor([ 0.0216, -0.0325, -0.0060,  0.0109, -0.0013, -0.0160,  0.0024,  0.0156,
+        -0.0321,  0.0156], device='cuda:0'), grad: tensor([ 4.3015e-08, -1.4901e-07,  2.8173e-08, -2.7416e-08,  5.0990e-08,
+         5.3609e-08, -2.6636e-07,  5.7044e-08,  1.6438e-07,  6.2864e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 366, time 217.53, cls_loss 0.0006 cls_loss_mapping 0.0013 cls_loss_causal 0.4693 re_mapping 0.0021 re_causal 0.0074 /// teacc 99.16 lr 0.00010000
+Epoch 368, weight, value: tensor([[ 0.0303, -0.0996, -0.0157,  ..., -0.1516, -0.1807, -0.1732],
+        [-0.1470,  0.0793, -0.1425,  ..., -0.2102, -0.2121, -0.2166],
+        [-0.1397, -0.1966, -0.2295,  ..., -0.2251, -0.1690,  0.1755],
+        ...,
+        [ 0.0874, -0.0810, -0.1831,  ...,  0.1094, -0.1811, -0.1551],
+        [ 0.1279,  0.1018,  0.0950,  ..., -0.2215, -0.1356,  0.0920],
+        [ 0.0869,  0.0575,  0.1199,  ...,  0.0573, -0.0976, -0.0068]],
+       device='cuda:0'), grad: tensor([[ 1.2806e-09,  1.8626e-09,  1.8044e-09,  ...,  4.3074e-09,
+          4.5402e-09,  2.9686e-09],
+        [ 1.6589e-08, -2.6543e-08,  1.5716e-09,  ...,  3.7893e-08,
+          1.1642e-09,  1.6298e-09],
+        [ 2.7358e-09,  5.8790e-09,  1.2806e-09,  ...,  6.8685e-09,
+          2.9104e-10, -3.0850e-09],
+        ...,
+        [-2.3749e-08,  1.5309e-08,  6.5775e-09,  ..., -4.8196e-08,
+          1.8044e-09,  2.3283e-09],
+        [ 1.8044e-09,  6.9849e-09,  1.5716e-09,  ...,  6.2864e-09,
+          1.1001e-08,  8.0327e-09],
+        [-1.8976e-08, -2.1188e-08, -3.5740e-08,  ..., -7.2643e-08,
+         -1.4319e-08, -7.7998e-09]], device='cuda:0')
+Epoch 368, bias, value: tensor([ 0.0215, -0.0323, -0.0060,  0.0109, -0.0011, -0.0160,  0.0024,  0.0156,
+        -0.0321,  0.0154], device='cuda:0'), grad: tensor([ 2.3982e-08,  2.7823e-08, -4.4238e-09,  7.7998e-09,  2.1618e-07,
+        -1.4727e-08, -6.9966e-08, -6.7754e-08,  8.7835e-08, -1.8859e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 367, time 218.02, cls_loss 0.0006 cls_loss_mapping 0.0010 cls_loss_causal 0.4492 re_mapping 0.0023 re_causal 0.0077 /// teacc 99.22 lr 0.00010000
+Epoch 369, weight, value: tensor([[ 0.0304, -0.0997, -0.0163,  ..., -0.1518, -0.1807, -0.1733],
+        [-0.1473,  0.0794, -0.1428,  ..., -0.2111, -0.2127, -0.2171],
+        [-0.1405, -0.1969, -0.2303,  ..., -0.2252, -0.1693,  0.1760],
+        ...,
+        [ 0.0875, -0.0810, -0.1836,  ...,  0.1094, -0.1811, -0.1552],
+        [ 0.1282,  0.1019,  0.0958,  ..., -0.2217, -0.1356,  0.0921],
+        [ 0.0869,  0.0575,  0.1198,  ...,  0.0573, -0.0977, -0.0069]],
+       device='cuda:0'), grad: tensor([[-1.2806e-09,  3.8999e-09,  0.0000e+00,  ...,  1.1642e-10,
+          1.1118e-08,  9.7789e-09],
+        [ 1.8626e-09, -4.2026e-08,  2.3283e-10,  ...,  1.0477e-09,
+          6.8103e-09,  2.3341e-08],
+        [ 1.0477e-09,  1.7521e-08,  5.8208e-11,  ...,  6.4028e-10,
+          2.3865e-09, -2.0606e-08],
+        ...,
+        [ 1.9791e-09,  2.3923e-08,  1.7462e-10,  ...,  7.5670e-10,
+          5.8208e-10,  5.0059e-09],
+        [-7.8580e-09, -1.9791e-09, -9.8953e-10,  ...,  2.9104e-10,
+          1.5541e-08,  3.9581e-09],
+        [ 8.1491e-10,  1.0827e-08,  1.7462e-10,  ...,  2.1595e-08,
+          2.0256e-08,  1.2806e-08]], device='cuda:0')
+Epoch 369, bias, value: tensor([ 0.0215, -0.0325, -0.0059,  0.0109, -0.0014, -0.0161,  0.0025,  0.0157,
+        -0.0321,  0.0153], device='cuda:0'), grad: tensor([ 2.5379e-08, -5.6869e-08, -1.9500e-08, -6.2981e-08, -3.5041e-08,
+         7.0955e-08, -1.0955e-07,  8.2597e-08,  3.3411e-08,  8.1083e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 368, time 217.72, cls_loss 0.0005 cls_loss_mapping 0.0014 cls_loss_causal 0.4782 re_mapping 0.0023 re_causal 0.0080 /// teacc 99.21 lr 0.00010000
+Epoch 370, weight, value: tensor([[ 0.0276, -0.1006, -0.0169,  ..., -0.1547, -0.1815, -0.1734],
+        [-0.1473,  0.0796, -0.1430,  ..., -0.2117, -0.2138, -0.2175],
+        [-0.1407, -0.1970, -0.2312,  ..., -0.2252, -0.1696,  0.1762],
+        ...,
+        [ 0.0875, -0.0810, -0.1847,  ...,  0.1094, -0.1813, -0.1553],
+        [ 0.1284,  0.1020,  0.0961,  ..., -0.2218, -0.1356,  0.0922],
+        [ 0.0880,  0.0576,  0.1201,  ...,  0.0581, -0.0970, -0.0074]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  3.2538e-08,  1.8044e-08,  ...,  1.8103e-08,
+         -8.7311e-10,  0.0000e+00],
+        [ 1.9674e-08, -6.9849e-10,  3.6671e-09,  ...,  6.0711e-08,
+          5.2387e-10,  2.3283e-10],
+        [ 1.0303e-08,  2.1537e-09,  8.7311e-10,  ...,  2.7998e-08,
+          5.2387e-10,  2.3283e-10],
+        ...,
+        [-3.9465e-08,  5.8033e-08,  2.3458e-08,  ..., -1.5018e-07,
+          4.0745e-10,  2.3283e-10],
+        [ 2.9337e-08,  6.4960e-08,  3.5740e-08,  ...,  4.2666e-08,
+          2.3283e-10,  1.1642e-10],
+        [-1.2130e-07, -3.4668e-07, -1.9651e-07,  ..., -1.4470e-07,
+          1.2573e-08,  5.5879e-09]], device='cuda:0')
+Epoch 370, bias, value: tensor([ 0.0196, -0.0324, -0.0058,  0.0109, -0.0011, -0.0162,  0.0026,  0.0157,
+        -0.0320,  0.0161], device='cuda:0'), grad: tensor([ 5.1805e-08,  1.3574e-07,  7.6659e-08,  3.9348e-07,  6.4203e-08,
+         9.5402e-08,  2.2526e-08, -3.0035e-07,  1.8417e-07, -7.1293e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 369, time 217.69, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4357 re_mapping 0.0025 re_causal 0.0081 /// teacc 99.11 lr 0.00010000
+Epoch 371, weight, value: tensor([[ 0.0272, -0.1007, -0.0195,  ..., -0.1550, -0.1815, -0.1735],
+        [-0.1470,  0.0807, -0.1432,  ..., -0.2120, -0.2145, -0.2178],
+        [-0.1407, -0.1972, -0.2326,  ..., -0.2252, -0.1705,  0.1764],
+        ...,
+        [ 0.0875, -0.0811, -0.1856,  ...,  0.1094, -0.1815, -0.1555],
+        [ 0.1290,  0.1022,  0.0967,  ..., -0.2219, -0.1356,  0.0925],
+        [ 0.0882,  0.0571,  0.1203,  ...,  0.0580, -0.0976, -0.0079]],
+       device='cuda:0'), grad: tensor([[-1.8757e-06, -8.0327e-09,  2.7940e-09,  ..., -8.6287e-07,
+         -3.4794e-06, -1.3784e-06],
+        [ 1.0099e-07,  8.7894e-09,  3.6089e-09,  ...,  7.7067e-08,
+          2.3784e-07,  9.7381e-08],
+        [ 1.0518e-07,  2.0955e-09,  9.3132e-10,  ...,  5.6811e-08,
+          2.0023e-07,  8.1025e-08],
+        ...,
+        [ 1.1554e-07,  1.2747e-08,  6.7521e-09,  ...,  5.3202e-08,
+          2.0559e-07,  9.1153e-08],
+        [ 6.1002e-08, -3.6089e-08, -2.3225e-08,  ...,  4.4878e-08,
+          1.6065e-07,  2.2817e-08],
+        [ 7.5297e-07, -2.2817e-08, -1.4552e-08,  ...,  3.8836e-07,
+          1.5916e-06,  6.6310e-07]], device='cuda:0')
+Epoch 371, bias, value: tensor([ 0.0194, -0.0316, -0.0056,  0.0109, -0.0005, -0.0163,  0.0026,  0.0156,
+        -0.0318,  0.0160], device='cuda:0'), grad: tensor([-1.7866e-05,  1.0710e-06,  1.0114e-06,  2.3190e-06, -1.0841e-06,
+         7.3900e-07,  4.4331e-06,  1.0887e-06,  6.1328e-07,  7.6517e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 370, time 217.79, cls_loss 0.0005 cls_loss_mapping 0.0008 cls_loss_causal 0.4556 re_mapping 0.0024 re_causal 0.0081 /// teacc 99.11 lr 0.00010000
+Epoch 372, weight, value: tensor([[ 0.0282, -0.0992, -0.0202,  ..., -0.1550, -0.1813, -0.1735],
+        [-0.1471,  0.0809, -0.1433,  ..., -0.2126, -0.2150, -0.2182],
+        [-0.1410, -0.1968, -0.2332,  ..., -0.2252, -0.1708,  0.1768],
+        ...,
+        [ 0.0875, -0.0812, -0.1861,  ...,  0.1095, -0.1819, -0.1557],
+        [ 0.1291,  0.1022,  0.0968,  ..., -0.2222, -0.1356,  0.0926],
+        [ 0.0878,  0.0564,  0.1207,  ...,  0.0579, -0.0983, -0.0082]],
+       device='cuda:0'), grad: tensor([[-1.6182e-08,  3.4925e-10,  0.0000e+00,  ...,  1.8626e-09,
+         -2.9104e-09,  2.3283e-09],
+        [ 9.0222e-09, -4.3656e-09,  5.8208e-11,  ...,  1.6298e-08,
+          4.7730e-09,  5.1223e-09],
+        [ 9.8953e-09, -4.0745e-10,  0.0000e+00,  ...,  2.3167e-08,
+          9.3132e-09, -1.5716e-08],
+        ...,
+        [-3.7660e-08,  3.4343e-09,  5.8208e-11,  ...,  1.3504e-08,
+          4.1560e-08,  2.4796e-08],
+        [ 7.3924e-09,  1.3388e-09,  0.0000e+00,  ...,  7.1013e-09,
+          1.2049e-08,  3.9581e-09],
+        [ 1.6647e-08,  9.3132e-10,  5.8208e-11,  ...,  6.5367e-08,
+          3.5565e-08,  1.5309e-08]], device='cuda:0')
+Epoch 372, bias, value: tensor([ 2.0082e-02, -3.1623e-02, -5.3906e-03,  1.0850e-02, -2.4483e-05,
+        -1.6266e-02,  2.5046e-03,  1.5540e-02, -3.1824e-02,  1.5554e-02],
+       device='cuda:0'), grad: tensor([-5.4366e-08,  5.3202e-08, -4.9535e-08,  3.5274e-08, -3.2876e-07,
+        -4.1164e-07,  4.2887e-07,  6.9442e-08,  8.6322e-08,  1.9046e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 371, time 217.61, cls_loss 0.0006 cls_loss_mapping 0.0011 cls_loss_causal 0.4426 re_mapping 0.0024 re_causal 0.0078 /// teacc 99.09 lr 0.00010000
+Epoch 373, weight, value: tensor([[ 0.0286, -0.0990, -0.0207,  ..., -0.1550, -0.1812, -0.1736],
+        [-0.1474,  0.0809, -0.1435,  ..., -0.2136, -0.2161, -0.2189],
+        [-0.1419, -0.1968, -0.2343,  ..., -0.2253, -0.1714,  0.1770],
+        ...,
+        [ 0.0875, -0.0812, -0.1869,  ...,  0.1095, -0.1832, -0.1560],
+        [ 0.1295,  0.1023,  0.0973,  ..., -0.2226, -0.1357,  0.0928],
+        [ 0.0877,  0.0566,  0.1211,  ...,  0.0578, -0.0991, -0.0092]],
+       device='cuda:0'), grad: tensor([[-6.6007e-08, -4.8894e-09,  5.8208e-11,  ...,  2.3283e-10,
+          9.3132e-10,  7.5670e-10],
+        [ 1.5774e-08, -1.7276e-07,  1.2224e-09,  ...,  1.1350e-08,
+          1.1642e-10,  4.4238e-09],
+        [ 1.6298e-08,  8.2830e-08,  1.1642e-09,  ...,  9.7207e-09,
+          1.7462e-10,  1.5134e-09],
+        ...,
+        [-8.6380e-08,  9.1153e-08,  9.3132e-10,  ..., -1.1508e-07,
+          0.0000e+00,  4.3074e-09],
+        [-7.0431e-09, -1.2631e-08, -8.4401e-09,  ...,  3.3760e-09,
+          2.6776e-09, -2.5262e-08],
+        [ 1.0949e-07,  1.0710e-08,  1.9791e-09,  ...,  8.9989e-08,
+          1.1642e-10,  5.1223e-09]], device='cuda:0')
+Epoch 373, bias, value: tensor([ 0.0203, -0.0318, -0.0054,  0.0108,  0.0009, -0.0162,  0.0025,  0.0155,
+        -0.0318,  0.0152], device='cuda:0'), grad: tensor([-2.9453e-07, -7.6042e-07,  4.3237e-07, -8.6322e-08,  2.4040e-08,
+         1.1042e-07,  1.5891e-08,  1.4168e-07,  1.6764e-08,  4.1374e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 372, time 217.57, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4403 re_mapping 0.0024 re_causal 0.0080 /// teacc 99.06 lr 0.00010000
+Epoch 374, weight, value: tensor([[ 0.0287, -0.0990, -0.0209,  ..., -0.1551, -0.1813, -0.1737],
+        [-0.1475,  0.0812, -0.1437,  ..., -0.2135, -0.2164, -0.2193],
+        [-0.1420, -0.1968, -0.2351,  ..., -0.2253, -0.1718,  0.1773],
+        ...,
+        [ 0.0875, -0.0812, -0.1882,  ...,  0.1095, -0.1832, -0.1561],
+        [ 0.1300,  0.1024,  0.0980,  ..., -0.2227, -0.1358,  0.0929],
+        [ 0.0876,  0.0562,  0.1210,  ...,  0.0577, -0.0993, -0.0097]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-10,  8.4983e-09,  5.8208e-11,  ...,  5.2387e-10,
+          1.4552e-09,  3.4343e-09],
+        [ 2.4447e-09, -6.5798e-07,  4.6566e-10,  ...,  6.4028e-10,
+          1.5134e-09, -1.9395e-07],
+        [ 7.4506e-09,  2.4098e-08,  1.7462e-10,  ...,  2.6543e-08,
+          2.0955e-09, -1.3737e-08],
+        ...,
+        [-1.3388e-08,  1.1834e-07,  2.9104e-10,  ..., -2.9919e-08,
+          6.5775e-09,  3.9232e-08],
+        [-4.0163e-09,  6.0245e-08, -4.4820e-09,  ...,  5.5879e-09,
+         -1.7462e-10,  1.9674e-08],
+        [ 1.8626e-09,  3.3760e-08, -5.8208e-10,  ...,  1.3865e-07,
+          1.0082e-07,  5.7684e-08]], device='cuda:0')
+Epoch 374, bias, value: tensor([ 0.0204, -0.0317, -0.0053,  0.0108,  0.0010, -0.0164,  0.0026,  0.0155,
+        -0.0318,  0.0150], device='cuda:0'), grad: tensor([ 4.9826e-08, -3.4831e-06,  1.1671e-07,  4.8662e-08,  1.7118e-06,
+        -6.0536e-09,  2.1723e-07,  5.4063e-07,  4.0419e-07,  4.0838e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 373, time 217.70, cls_loss 0.0004 cls_loss_mapping 0.0012 cls_loss_causal 0.4324 re_mapping 0.0026 re_causal 0.0084 /// teacc 99.11 lr 0.00010000
+Epoch 375, weight, value: tensor([[ 0.0287, -0.0991, -0.0212,  ..., -0.1551, -0.1813, -0.1737],
+        [-0.1476,  0.0816, -0.1438,  ..., -0.2138, -0.2160, -0.2191],
+        [-0.1411, -0.1970, -0.2356,  ..., -0.2253, -0.1720,  0.1776],
+        ...,
+        [ 0.0875, -0.0812, -0.1910,  ...,  0.1095, -0.1832, -0.1563],
+        [ 0.1304,  0.1024,  0.0983,  ..., -0.2230, -0.1359,  0.0928],
+        [ 0.0875,  0.0562,  0.1214,  ...,  0.0576, -0.0995, -0.0099]],
+       device='cuda:0'), grad: tensor([[-9.3132e-10,  2.0373e-09,  1.1642e-10,  ...,  1.1642e-10,
+          3.4925e-10,  5.2387e-10],
+        [ 1.6298e-09, -2.9337e-08,  5.2387e-10,  ...,  1.5716e-09,
+         -1.1642e-10, -1.5716e-09],
+        [ 2.8522e-09,  5.4715e-09,  4.6566e-10,  ...,  4.2492e-09,
+          1.1642e-10,  5.8208e-11],
+        ...,
+        [-4.8894e-09,  8.3237e-09,  4.6566e-10,  ..., -1.0477e-08,
+         -5.8208e-11, -1.7462e-10],
+        [-6.0536e-09,  9.3132e-10, -4.3074e-09,  ...,  2.0955e-09,
+          3.6089e-09, -5.2969e-09],
+        [ 1.5134e-09,  3.4925e-09, -2.3283e-10,  ...,  2.9104e-09,
+          1.6298e-09,  2.3865e-09]], device='cuda:0')
+Epoch 375, bias, value: tensor([ 0.0203, -0.0315, -0.0051,  0.0108,  0.0007, -0.0164,  0.0027,  0.0155,
+        -0.0318,  0.0149], device='cuda:0'), grad: tensor([ 5.6461e-09, -1.0774e-07,  2.1711e-08,  1.3108e-07,  5.2794e-08,
+        -1.9895e-07,  4.0745e-10,  1.5541e-08,  4.5460e-08,  3.0850e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 374, time 217.74, cls_loss 0.0004 cls_loss_mapping 0.0008 cls_loss_causal 0.4285 re_mapping 0.0023 re_causal 0.0079 /// teacc 99.12 lr 0.00010000
+Epoch 376, weight, value: tensor([[ 0.0287, -0.0992, -0.0214,  ..., -0.1551, -0.1813, -0.1738],
+        [-0.1477,  0.0819, -0.1438,  ..., -0.2143, -0.2154, -0.2194],
+        [-0.1414, -0.1973, -0.2363,  ..., -0.2254, -0.1722,  0.1779],
+        ...,
+        [ 0.0875, -0.0812, -0.1916,  ...,  0.1096, -0.1833, -0.1564],
+        [ 0.1305,  0.1025,  0.0985,  ..., -0.2233, -0.1359,  0.0928],
+        [ 0.0875,  0.0564,  0.1216,  ...,  0.0576, -0.0997, -0.0100]],
+       device='cuda:0'), grad: tensor([[-6.9849e-10,  1.1059e-09, -4.0745e-10,  ...,  4.2492e-09,
+          4.5402e-09,  3.3760e-09],
+        [ 3.2014e-09, -1.3446e-08,  5.8208e-10,  ...,  1.0186e-08,
+          4.0163e-09,  3.7253e-09],
+        [ 1.7462e-09,  1.9209e-09,  1.7462e-10,  ...,  1.9674e-08,
+          1.3737e-08,  7.3342e-09],
+        ...,
+        [-4.8487e-08,  1.2049e-08,  2.3283e-09,  ..., -1.5949e-07,
+          5.8790e-09,  4.8312e-09],
+        [-3.8999e-09, -5.2387e-10, -1.0477e-09,  ...,  8.1491e-09,
+          9.4296e-09,  2.7940e-09],
+        [ 3.5390e-08, -1.4668e-08, -9.8953e-09,  ...,  4.7288e-07,
+          3.0501e-07,  1.9732e-07]], device='cuda:0')
+Epoch 376, bias, value: tensor([ 0.0203, -0.0314, -0.0049,  0.0108,  0.0007, -0.0164,  0.0027,  0.0155,
+        -0.0318,  0.0148], device='cuda:0'), grad: tensor([ 1.2806e-08, -3.1490e-08,  4.4296e-08, -4.7730e-09, -8.9267e-07,
+         3.4343e-08,  2.7241e-08, -2.1362e-07,  3.1141e-08,  1.0142e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 375, time 217.54, cls_loss 0.0005 cls_loss_mapping 0.0010 cls_loss_causal 0.4376 re_mapping 0.0025 re_causal 0.0085 /// teacc 99.04 lr 0.00010000
+Epoch 377, weight, value: tensor([[ 0.0287, -0.0993, -0.0215,  ..., -0.1551, -0.1815, -0.1740],
+        [-0.1481,  0.0819, -0.1440,  ..., -0.2164, -0.2165, -0.2200],
+        [-0.1419, -0.1980, -0.2388,  ..., -0.2254, -0.1725,  0.1779],
+        ...,
+        [ 0.0875, -0.0813, -0.1933,  ...,  0.1095, -0.1838, -0.1565],
+        [ 0.1308,  0.1025,  0.0986,  ..., -0.2237, -0.1360,  0.0927],
+        [ 0.0877,  0.0577,  0.1224,  ...,  0.0579, -0.0999, -0.0104]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  7.6834e-09,  1.7462e-10,  ...,  8.7311e-10,
+          1.6298e-09,  1.5716e-09],
+        [ 1.8335e-08, -5.0524e-08,  2.0955e-09,  ...,  2.5611e-08,
+          5.5879e-09,  8.0327e-09],
+        [ 8.1491e-09,  6.3446e-09,  1.8044e-09,  ...,  1.4319e-08,
+          8.4401e-09,  5.4133e-09],
+        ...,
+        [-5.7626e-08,  3.0035e-08,  2.3865e-09,  ..., -1.0303e-07,
+          3.6671e-09,  3.9581e-09],
+        [-1.8976e-08,  4.4005e-08, -1.0419e-08,  ...,  2.2992e-08,
+          4.1095e-08, -1.3737e-08],
+        [ 3.1490e-08,  7.7416e-09, -2.6776e-09,  ...,  5.9197e-08,
+          1.4959e-08,  7.9162e-09]], device='cuda:0')
+Epoch 377, bias, value: tensor([ 0.0202, -0.0316, -0.0050,  0.0108,  0.0012, -0.0165,  0.0028,  0.0155,
+        -0.0319,  0.0151], device='cuda:0'), grad: tensor([ 5.0350e-08, -1.6659e-07,  4.4936e-08, -3.6322e-08,  4.4238e-09,
+        -1.6205e-06,  5.8673e-07, -5.2678e-08,  9.0944e-07,  2.9174e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 376, time 217.83, cls_loss 0.0005 cls_loss_mapping 0.0010 cls_loss_causal 0.4724 re_mapping 0.0025 re_causal 0.0081 /// teacc 99.14 lr 0.00010000
+Epoch 378, weight, value: tensor([[ 0.0289, -0.0994, -0.0217,  ..., -0.1551, -0.1816, -0.1741],
+        [-0.1482,  0.0819, -0.1441,  ..., -0.2177, -0.2178, -0.2206],
+        [-0.1427, -0.1983, -0.2395,  ..., -0.2255, -0.1735,  0.1782],
+        ...,
+        [ 0.0876, -0.0814, -0.1966,  ...,  0.1095, -0.1842, -0.1566],
+        [ 0.1312,  0.1026,  0.0989,  ..., -0.2240, -0.1360,  0.0928],
+        [ 0.0876,  0.0577,  0.1225,  ...,  0.0576, -0.1006, -0.0117]],
+       device='cuda:0'), grad: tensor([[-6.4028e-10,  6.9849e-10,  3.4925e-10,  ...,  6.4028e-10,
+          2.9104e-10,  4.0745e-10],
+        [ 5.9954e-09,  7.5670e-10,  1.6880e-09,  ...,  1.7462e-09,
+          6.4028e-10,  4.7730e-09],
+        [ 9.8953e-10,  1.9209e-09,  2.3283e-10,  ...,  4.0745e-10,
+          5.2387e-10,  1.0477e-09],
+        ...,
+        [ 5.0059e-09,  2.5495e-08,  3.5507e-09,  ...,  6.9849e-09,
+          0.0000e+00,  2.7940e-09],
+        [-6.5134e-08, -7.7300e-08, -1.2806e-08,  ...,  4.8894e-09,
+          1.3970e-09, -5.4366e-08],
+        [-2.0373e-09,  8.0909e-09, -8.9640e-09,  ..., -2.6543e-08,
+          1.3388e-09,  1.4843e-08]], device='cuda:0')
+Epoch 378, bias, value: tensor([ 0.0202, -0.0317, -0.0049,  0.0110,  0.0020, -0.0165,  0.0028,  0.0154,
+        -0.0319,  0.0147], device='cuda:0'), grad: tensor([-6.2282e-09,  1.5716e-09,  1.0943e-08, -2.8638e-08,  6.0943e-08,
+         1.4366e-07, -1.7404e-08,  8.5915e-08, -2.0536e-07, -2.8173e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 377, time 217.81, cls_loss 0.0005 cls_loss_mapping 0.0015 cls_loss_causal 0.4796 re_mapping 0.0025 re_causal 0.0081 /// teacc 99.12 lr 0.00010000
+Epoch 379, weight, value: tensor([[ 0.0291, -0.0994, -0.0221,  ..., -0.1551, -0.1817, -0.1742],
+        [-0.1485,  0.0820, -0.1443,  ..., -0.2189, -0.2186, -0.2212],
+        [-0.1438, -0.1984, -0.2401,  ..., -0.2256, -0.1741,  0.1795],
+        ...,
+        [ 0.0876, -0.0814, -0.1970,  ...,  0.1096, -0.1842, -0.1580],
+        [ 0.1314,  0.1027,  0.0992,  ..., -0.2243, -0.1361,  0.0929],
+        [ 0.0876,  0.0577,  0.1227,  ...,  0.0575, -0.1010, -0.0121]],
+       device='cuda:0'), grad: tensor([[ 2.0198e-08,  1.2224e-09,  4.0745e-10,  ...,  1.1642e-09,
+          3.3062e-07,  3.5577e-07],
+        [ 2.7940e-09, -5.1048e-08,  2.9104e-10,  ...,  1.5716e-09,
+          3.3353e-08,  2.0780e-08],
+        [ 2.0373e-09,  3.5507e-09,  5.8208e-11,  ...,  2.5611e-09,
+          1.9732e-08,  2.2002e-08],
+        ...,
+        [ 5.8208e-10,  7.8580e-09,  1.0477e-09,  ..., -6.9849e-10,
+          6.9849e-10,  2.4447e-09],
+        [ 3.1432e-09,  4.1910e-09,  4.0745e-10,  ...,  1.9209e-09,
+          5.5588e-08,  5.9896e-08],
+        [-8.0327e-09, -2.9104e-09, -6.8103e-09,  ..., -1.3737e-08,
+          1.2456e-08,  1.3621e-08]], device='cuda:0')
+Epoch 379, bias, value: tensor([ 0.0203, -0.0318, -0.0043,  0.0109,  0.0023, -0.0164,  0.0028,  0.0153,
+        -0.0320,  0.0146], device='cuda:0'), grad: tensor([ 8.7544e-07, -1.4086e-07,  7.4797e-08,  1.0536e-08,  2.9686e-07,
+        -2.0675e-07, -1.4063e-06,  2.9337e-08,  4.6426e-07,  1.6822e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 378, time 217.91, cls_loss 0.0005 cls_loss_mapping 0.0014 cls_loss_causal 0.4613 re_mapping 0.0024 re_causal 0.0081 /// teacc 99.06 lr 0.00010000
+Epoch 380, weight, value: tensor([[ 0.0291, -0.0995, -0.0224,  ..., -0.1552, -0.1817, -0.1743],
+        [-0.1489,  0.0821, -0.1444,  ..., -0.2195, -0.2191, -0.2213],
+        [-0.1472, -0.1987, -0.2404,  ..., -0.2259, -0.1750,  0.1792],
+        ...,
+        [ 0.0878, -0.0814, -0.1972,  ...,  0.1096, -0.1843, -0.1577],
+        [ 0.1316,  0.1027,  0.0993,  ..., -0.2245, -0.1361,  0.0929],
+        [ 0.0876,  0.0576,  0.1229,  ...,  0.0573, -0.1015, -0.0130]],
+       device='cuda:0'), grad: tensor([[ 1.1059e-09,  5.0291e-08,  0.0000e+00,  ...,  1.4552e-09,
+          1.1642e-10,  1.1642e-10],
+        [ 4.8371e-08, -4.7521e-07,  2.9104e-10,  ...,  6.4611e-08,
+          5.8208e-11,  1.2806e-09],
+        [ 4.1851e-08,  2.4447e-08,  1.1642e-10,  ...,  5.5705e-08,
+          1.1642e-10, -8.1491e-10],
+        ...,
+        [-1.9395e-07,  1.9593e-07,  2.3283e-10,  ..., -2.5937e-07,
+          0.0000e+00,  6.9849e-10],
+        [ 2.6484e-08,  1.7323e-07, -8.1491e-10,  ...,  3.5507e-08,
+          1.1642e-10, -6.4028e-10],
+        [ 6.2922e-08,  4.5868e-08,  5.8208e-11,  ...,  8.7311e-08,
+          1.3970e-09,  1.3388e-09]], device='cuda:0')
+Epoch 380, bias, value: tensor([ 0.0203, -0.0319, -0.0046,  0.0109,  0.0025, -0.0161,  0.0027,  0.0154,
+        -0.0321,  0.0144], device='cuda:0'), grad: tensor([ 1.5681e-07, -1.1716e-06,  2.2398e-07,  1.1977e-06,  3.8533e-08,
+        -2.2110e-06,  1.9150e-07, -1.1321e-07,  1.3057e-06,  3.8836e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 379, time 217.52, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.4437 re_mapping 0.0024 re_causal 0.0079 /// teacc 99.01 lr 0.00010000
+Epoch 381, weight, value: tensor([[ 0.0292, -0.0998, -0.0231,  ..., -0.1552, -0.1818, -0.1743],
+        [-0.1492,  0.0824, -0.1446,  ..., -0.2201, -0.2199, -0.2216],
+        [-0.1498, -0.2036, -0.2427,  ..., -0.2264, -0.1811,  0.1780],
+        ...,
+        [ 0.0879, -0.0814, -0.1976,  ...,  0.1097, -0.1847, -0.1576],
+        [ 0.1324,  0.1029,  0.0997,  ..., -0.2247, -0.1360,  0.0933],
+        [ 0.0876,  0.0577,  0.1232,  ...,  0.0573, -0.1019, -0.0135]],
+       device='cuda:0'), grad: tensor([[ 1.5134e-09,  2.7358e-09,  1.0477e-09,  ...,  2.3283e-10,
+          1.7462e-10,  2.9686e-09],
+        [ 1.1583e-08, -1.9209e-09,  4.4238e-09,  ...,  8.6729e-09,
+          7.5670e-10,  2.0722e-08],
+        [ 9.5461e-09,  5.8208e-09,  2.2119e-09,  ...,  1.1176e-08,
+          6.4028e-10, -2.2608e-07],
+        ...,
+        [-1.9674e-08,  1.7113e-08,  2.7940e-09,  ..., -3.9581e-08,
+          4.6566e-10,  2.5379e-08],
+        [-6.2340e-08, -1.0338e-07, -4.3015e-08,  ...,  1.3970e-09,
+         -3.3760e-09, -8.2888e-08],
+        [ 1.5483e-08,  1.0652e-08,  3.7835e-09,  ...,  2.6368e-08,
+          1.2107e-08,  2.0780e-08]], device='cuda:0')
+Epoch 381, bias, value: tensor([ 0.0203, -0.0319, -0.0064,  0.0111,  0.0031, -0.0158,  0.0025,  0.0154,
+        -0.0321,  0.0143], device='cuda:0'), grad: tensor([ 1.2864e-08,  5.4191e-08, -1.6689e-06,  1.3253e-06, -2.9104e-09,
+         1.4948e-07,  9.0571e-08,  1.3446e-07, -2.0466e-07,  1.1409e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 380, time 217.32, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4673 re_mapping 0.0024 re_causal 0.0079 /// teacc 99.13 lr 0.00010000
+Epoch 382, weight, value: tensor([[ 0.0293, -0.1002, -0.0244,  ..., -0.1552, -0.1819, -0.1746],
+        [-0.1493,  0.0830, -0.1447,  ..., -0.2205, -0.2210, -0.2234],
+        [-0.1491, -0.2038, -0.2431,  ..., -0.2265, -0.1816,  0.1791],
+        ...,
+        [ 0.0878, -0.0815, -0.1989,  ...,  0.1096, -0.1848, -0.1581],
+        [ 0.1326,  0.1027,  0.0998,  ..., -0.2250, -0.1361,  0.0932],
+        [ 0.0878,  0.0586,  0.1239,  ...,  0.0574, -0.1020, -0.0137]],
+       device='cuda:0'), grad: tensor([[ 1.4727e-08,  5.5297e-09,  0.0000e+00,  ...,  2.9104e-08,
+          9.0571e-08,  5.2562e-08],
+        [ 3.6263e-08,  9.8953e-10,  0.0000e+00,  ...,  6.3388e-08,
+          4.7730e-09,  5.7044e-09],
+        [ 1.2107e-08,  2.3283e-10,  0.0000e+00,  ...,  2.1537e-08,
+          1.6298e-09, -3.8999e-09],
+        ...,
+        [-1.1025e-07,  1.1642e-09,  0.0000e+00,  ..., -1.9511e-07,
+          1.7462e-10,  1.7462e-09],
+        [ 5.9372e-09,  5.7044e-09,  1.7462e-10,  ...,  9.8953e-09,
+          3.5274e-08,  2.3982e-08],
+        [ 3.0617e-08,  3.4925e-10,  0.0000e+00,  ...,  5.1688e-08,
+          9.3132e-10,  8.7311e-10]], device='cuda:0')
+Epoch 382, bias, value: tensor([ 0.0203, -0.0318, -0.0058,  0.0111,  0.0030, -0.0158,  0.0026,  0.0153,
+        -0.0323,  0.0145], device='cuda:0'), grad: tensor([ 3.0803e-07,  1.9115e-07,  5.0059e-08,  1.2107e-08,  1.5914e-07,
+         3.0617e-07, -7.9256e-07, -5.0245e-07,  1.5087e-07,  1.4319e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 381, time 217.22, cls_loss 0.0004 cls_loss_mapping 0.0011 cls_loss_causal 0.4488 re_mapping 0.0024 re_causal 0.0079 /// teacc 99.10 lr 0.00010000
+Epoch 383, weight, value: tensor([[ 0.0296, -0.1002, -0.0244,  ..., -0.1552, -0.1819, -0.1747],
+        [-0.1495,  0.0831, -0.1448,  ..., -0.2208, -0.2212, -0.2240],
+        [-0.1463, -0.2040, -0.2433,  ..., -0.2262, -0.1817,  0.1799],
+        ...,
+        [ 0.0877, -0.0815, -0.1990,  ...,  0.1096, -0.1848, -0.1586],
+        [ 0.1326,  0.1024,  0.0999,  ..., -0.2251, -0.1361,  0.0931],
+        [ 0.0874,  0.0586,  0.1238,  ...,  0.0574, -0.1022, -0.0144]],
+       device='cuda:0'), grad: tensor([[-3.6904e-08,  3.4925e-09,  0.0000e+00,  ..., -3.7835e-09,
+          5.9197e-08,  5.3551e-08],
+        [ 6.2282e-09, -6.3097e-08,  2.3283e-10,  ...,  2.3865e-09,
+          5.2387e-09,  5.7626e-09],
+        [ 4.3074e-09,  5.8790e-09,  5.8208e-11,  ...,  2.7358e-09,
+          1.9209e-09,  8.1491e-10],
+        ...,
+        [ 5.8208e-10,  2.3458e-08,  5.8208e-11,  ..., -5.7044e-09,
+          2.3283e-10,  6.9849e-10],
+        [ 4.0745e-10,  1.1642e-08, -9.3132e-10,  ...,  9.3132e-10,
+          5.2678e-08,  4.8254e-08],
+        [ 1.5891e-08,  8.0909e-09,  1.1642e-10,  ...,  8.5565e-09,
+          8.3237e-09,  4.1910e-09]], device='cuda:0')
+Epoch 383, bias, value: tensor([ 0.0205, -0.0319, -0.0051,  0.0111,  0.0029, -0.0158,  0.0026,  0.0152,
+        -0.0325,  0.0142], device='cuda:0'), grad: tensor([ 6.9907e-08, -4.3889e-07,  9.1095e-08,  1.6415e-08,  1.9965e-07,
+         5.5414e-07, -1.0272e-06,  1.5949e-07,  2.5937e-07,  1.3527e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 382, time 217.72, cls_loss 0.0008 cls_loss_mapping 0.0019 cls_loss_causal 0.4571 re_mapping 0.0023 re_causal 0.0081 /// teacc 99.10 lr 0.00010000
+Epoch 384, weight, value: tensor([[ 0.0300, -0.1021, -0.0246,  ..., -0.1552, -0.1823, -0.1747],
+        [-0.1496,  0.0864, -0.1450,  ..., -0.2212, -0.2180, -0.2209],
+        [-0.1465, -0.2072, -0.2437,  ..., -0.2262, -0.1849,  0.1770],
+        ...,
+        [ 0.0877, -0.0816, -0.1997,  ...,  0.1097, -0.1854, -0.1587],
+        [ 0.1340,  0.1026,  0.1002,  ..., -0.2254, -0.1361,  0.0934],
+        [ 0.0873,  0.0590,  0.1252,  ...,  0.0574, -0.1022, -0.0144]],
+       device='cuda:0'), grad: tensor([[ 1.3923e-07,  1.3062e-07,  1.7055e-07,  ...,  2.1153e-07,
+          1.7521e-07,  6.4727e-08],
+        [ 1.0745e-07,  1.1036e-07,  9.6858e-08,  ...,  4.5868e-08,
+          1.5949e-08,  1.4761e-07],
+        [ 7.9162e-09, -6.9966e-08,  6.5193e-09,  ...,  2.7940e-09,
+          3.0268e-09, -4.0885e-07],
+        ...,
+        [ 5.1805e-08,  5.7509e-08,  4.7148e-08,  ...,  2.7590e-08,
+          5.4715e-09,  8.8708e-08],
+        [-1.7956e-06, -5.6438e-07, -1.4296e-06,  ...,  2.4587e-07,
+          3.8417e-09, -1.6792e-06],
+        [-3.2550e-07, -1.1800e-06, -6.0908e-07,  ..., -9.7323e-07,
+         -2.0023e-07,  1.3155e-08]], device='cuda:0')
+Epoch 384, bias, value: tensor([ 0.0203, -0.0287, -0.0081,  0.0112,  0.0023, -0.0162,  0.0026,  0.0152,
+        -0.0323,  0.0143], device='cuda:0'), grad: tensor([ 7.7020e-07,  1.0272e-06, -1.3364e-06,  5.7649e-07,  5.3272e-07,
+         1.3180e-05,  9.8906e-07,  5.4017e-07, -1.0088e-05, -6.1542e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 383, time 217.28, cls_loss 0.0005 cls_loss_mapping 0.0021 cls_loss_causal 0.4493 re_mapping 0.0024 re_causal 0.0077 /// teacc 99.12 lr 0.00010000
+Epoch 385, weight, value: tensor([[ 0.0302, -0.1023, -0.0252,  ..., -0.1552, -0.1822, -0.1748],
+        [-0.1500,  0.0864, -0.1453,  ..., -0.2230, -0.2180, -0.2210],
+        [-0.1465, -0.2072, -0.2435,  ..., -0.2263, -0.1849,  0.1771],
+        ...,
+        [ 0.0875, -0.0816, -0.2030,  ...,  0.1098, -0.1854, -0.1599],
+        [ 0.1363,  0.1027,  0.1010,  ..., -0.2260, -0.1362,  0.0940],
+        [ 0.0872,  0.0600,  0.1271,  ...,  0.0575, -0.1022, -0.0143]],
+       device='cuda:0'), grad: tensor([[-3.1851e-07,  3.1432e-08,  1.3504e-08,  ..., -8.0909e-08,
+          2.3982e-08,  5.7626e-08],
+        [ 1.9209e-08,  1.9092e-08,  7.1013e-09,  ...,  1.4785e-08,
+          1.0594e-08,  3.0152e-08],
+        [ 2.6659e-08,  1.5891e-07,  1.0943e-08,  ...,  1.1758e-08,
+          1.8394e-08,  2.2934e-08],
+        ...,
+        [-1.9441e-08,  2.3516e-08,  4.6566e-09,  ..., -3.4110e-08,
+          5.0059e-09,  1.7579e-08],
+        [ 6.4727e-08, -5.9139e-08, -2.9919e-08,  ...,  6.6590e-08,
+          5.4017e-08,  5.3435e-08],
+        [-1.6298e-09, -5.9139e-08, -3.3178e-08,  ..., -2.6892e-08,
+          1.3737e-08,  2.7358e-08]], device='cuda:0')
+Epoch 385, bias, value: tensor([ 0.0203, -0.0288, -0.0080,  0.0112,  0.0018, -0.0163,  0.0026,  0.0152,
+        -0.0321,  0.0145], device='cuda:0'), grad: tensor([-7.6927e-07,  1.5995e-07,  7.3621e-07, -1.4398e-06, -1.3271e-08,
+         1.6605e-06, -9.5135e-07, -5.4482e-08,  5.9837e-07,  6.7404e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 384, time 217.71, cls_loss 0.0004 cls_loss_mapping 0.0011 cls_loss_causal 0.4545 re_mapping 0.0025 re_causal 0.0085 /// teacc 99.12 lr 0.00010000
+Epoch 386, weight, value: tensor([[ 0.0302, -0.1025, -0.0259,  ..., -0.1552, -0.1823, -0.1749],
+        [-0.1506,  0.0864, -0.1455,  ..., -0.2244, -0.2180, -0.2211],
+        [-0.1471, -0.2072, -0.2411,  ..., -0.2264, -0.1849,  0.1773],
+        ...,
+        [ 0.0877, -0.0816, -0.2034,  ...,  0.1099, -0.1855, -0.1598],
+        [ 0.1367,  0.1028,  0.1017,  ..., -0.2264, -0.1363,  0.0940],
+        [ 0.0870,  0.0599,  0.1267,  ...,  0.0575, -0.1024, -0.0152]],
+       device='cuda:0'), grad: tensor([[ 4.5402e-09,  6.7521e-09,  2.2119e-09,  ...,  8.9640e-09,
+          8.1491e-10,  1.1642e-09],
+        [ 2.0256e-08,  2.3283e-09,  5.7044e-09,  ...,  4.9477e-08,
+          1.7229e-08,  1.7695e-08],
+        [ 2.3167e-08,  4.1910e-09,  5.8208e-10,  ...,  2.8871e-08,
+          6.5193e-09, -6.2864e-09],
+        ...,
+        [ 2.9919e-08,  6.8685e-08,  2.6310e-08,  ...,  3.8650e-08,
+         -7.5670e-09, -1.4552e-08],
+        [ 1.5949e-08,  1.1409e-08,  3.8417e-09,  ...,  2.2352e-08,
+          2.7940e-09,  3.0268e-09],
+        [-1.5844e-07,  2.0559e-07, -2.7823e-08,  ...,  3.0454e-07,
+          4.3167e-07,  1.8091e-07]], device='cuda:0')
+Epoch 386, bias, value: tensor([ 0.0202, -0.0289, -0.0080,  0.0112,  0.0017, -0.0164,  0.0027,  0.0153,
+        -0.0321,  0.0143], device='cuda:0'), grad: tensor([ 4.1793e-08,  7.6834e-08,  4.8312e-08,  3.2946e-08, -8.5728e-07,
+         6.2049e-08,  9.3132e-09,  3.2829e-07,  1.0955e-07,  1.5239e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 385, time 217.88, cls_loss 0.0005 cls_loss_mapping 0.0020 cls_loss_causal 0.4523 re_mapping 0.0025 re_causal 0.0082 /// teacc 99.19 lr 0.00010000
+Epoch 387, weight, value: tensor([[ 0.0302, -0.1028, -0.0272,  ..., -0.1553, -0.1826, -0.1752],
+        [-0.1510,  0.0866, -0.1457,  ..., -0.2256, -0.2181, -0.2211],
+        [-0.1474, -0.2072, -0.2412,  ..., -0.2265, -0.1849,  0.1774],
+        ...,
+        [ 0.0882, -0.0817, -0.2036,  ...,  0.1101, -0.1857, -0.1599],
+        [ 0.1352,  0.1029,  0.1019,  ..., -0.2290, -0.1363,  0.0941],
+        [ 0.0870,  0.0599,  0.1267,  ...,  0.0572, -0.1035, -0.0164]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  1.1642e-10,  3.4925e-10,  ...,  3.4925e-10,
+          1.0361e-08,  7.2177e-09],
+        [ 6.9849e-10, -4.6566e-09,  2.3283e-10,  ...,  1.0477e-09,
+          8.1491e-10,  1.5134e-09],
+        [ 4.6566e-10,  5.8208e-10,  0.0000e+00,  ...,  8.1491e-10,
+          1.9791e-09, -1.0477e-09],
+        ...,
+        [-1.0477e-09,  2.5611e-09,  1.1642e-10,  ..., -1.3970e-09,
+          2.3283e-10,  6.9849e-10],
+        [-1.2922e-08, -1.4785e-08, -1.1409e-08,  ...,  1.7462e-09,
+          7.4506e-09, -2.5611e-09],
+        [-9.0804e-09,  1.5134e-09, -1.8626e-08,  ..., -1.8277e-08,
+          5.1223e-09,  3.9581e-09]], device='cuda:0')
+Epoch 387, bias, value: tensor([ 0.0201, -0.0288, -0.0080,  0.0111,  0.0024, -0.0164,  0.0028,  0.0155,
+        -0.0326,  0.0139], device='cuda:0'), grad: tensor([ 2.1886e-08, -1.9092e-08,  6.9849e-10,  1.3039e-08,  6.9733e-08,
+        -3.8533e-08, -4.1910e-08,  1.3388e-08,  1.5600e-08, -1.9209e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 386, time 217.96, cls_loss 0.0004 cls_loss_mapping 0.0013 cls_loss_causal 0.4547 re_mapping 0.0025 re_causal 0.0085 /// teacc 99.15 lr 0.00010000
+Epoch 388, weight, value: tensor([[ 0.0302, -0.1028, -0.0276,  ..., -0.1553, -0.1826, -0.1753],
+        [-0.1513,  0.0872, -0.1458,  ..., -0.2264, -0.2181, -0.2212],
+        [-0.1472, -0.2072, -0.2413,  ..., -0.2265, -0.1848,  0.1776],
+        ...,
+        [ 0.0884, -0.0818, -0.2033,  ...,  0.1103, -0.1859, -0.1602],
+        [ 0.1353,  0.1029,  0.1021,  ..., -0.2292, -0.1364,  0.0939],
+        [ 0.0866,  0.0600,  0.1264,  ...,  0.0567, -0.1038, -0.0167]],
+       device='cuda:0'), grad: tensor([[ 4.0745e-09,  6.5193e-09,  3.3760e-09,  ...,  9.3132e-10,
+         -1.1642e-09, -3.3760e-09],
+        [ 9.1968e-09,  6.9849e-09,  4.5402e-09,  ...,  1.5134e-09,
+          2.2119e-09,  8.1491e-09],
+        [ 2.5611e-09,  6.1700e-09,  1.7462e-09,  ...,  4.6566e-10,
+          1.8626e-09,  3.2596e-09],
+        ...,
+        [ 3.6787e-08,  1.8044e-08,  2.1304e-08,  ...,  1.5134e-09,
+          1.4203e-08,  3.0850e-08],
+        [-1.0780e-07, -4.0862e-08, -5.2736e-08,  ...,  1.6298e-09,
+         -3.2131e-08, -9.1037e-08],
+        [ 6.5193e-09, -4.4238e-09, -9.1968e-09,  ..., -2.8289e-08,
+          2.9104e-09,  1.5367e-08]], device='cuda:0')
+Epoch 388, bias, value: tensor([ 0.0200, -0.0286, -0.0077,  0.0110,  0.0029, -0.0164,  0.0028,  0.0154,
+        -0.0328,  0.0135], device='cuda:0'), grad: tensor([-1.0349e-07,  5.7393e-08,  4.3539e-08, -4.2608e-08,  9.5693e-08,
+         1.4121e-07,  4.1910e-08,  1.2049e-07, -3.3760e-07,  2.2119e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 387, time 217.69, cls_loss 0.0007 cls_loss_mapping 0.0011 cls_loss_causal 0.5078 re_mapping 0.0024 re_causal 0.0082 /// teacc 99.11 lr 0.00010000
+Epoch 389, weight, value: tensor([[ 0.0303, -0.1030, -0.0285,  ..., -0.1553, -0.1828, -0.1755],
+        [-0.1520,  0.0872, -0.1461,  ..., -0.2280, -0.2182, -0.2212],
+        [-0.1486, -0.2072, -0.2426,  ..., -0.2269, -0.1849,  0.1781],
+        ...,
+        [ 0.0885, -0.0819, -0.2038,  ...,  0.1105, -0.1863, -0.1617],
+        [ 0.1361,  0.1032,  0.1030,  ..., -0.2294, -0.1384,  0.0933],
+        [ 0.0865,  0.0600,  0.1265,  ...,  0.0566, -0.1042, -0.0172]],
+       device='cuda:0'), grad: tensor([[-3.4925e-09,  1.8626e-09,  2.3283e-10,  ...,  1.1642e-10,
+          6.5193e-09,  7.7998e-09],
+        [ 1.3155e-08, -9.5461e-09,  1.0710e-08,  ...,  3.8417e-09,
+          5.0059e-09,  3.4808e-08],
+        [ 4.7730e-09,  1.9441e-08,  7.7998e-09,  ...,  3.3760e-09,
+          5.5879e-09,  6.4028e-09],
+        ...,
+        [-1.0477e-09,  3.9698e-08,  6.2864e-09,  ..., -9.3132e-09,
+          2.3283e-10,  1.4435e-08],
+        [-3.6554e-08, -9.9069e-08, -4.2608e-08,  ...,  3.7253e-09,
+          1.5250e-08, -8.2189e-08],
+        [-1.1642e-10,  4.0745e-09, -1.5134e-09,  ..., -4.7730e-09,
+          2.4447e-09,  8.1491e-09]], device='cuda:0')
+Epoch 389, bias, value: tensor([ 0.0199, -0.0287, -0.0076,  0.0110,  0.0030, -0.0137,  0.0026,  0.0154,
+        -0.0357,  0.0132], device='cuda:0'), grad: tensor([-7.2177e-09, -3.8417e-08,  2.0373e-08,  1.1642e-09,  7.2992e-08,
+         1.6147e-07, -1.5215e-07,  1.6065e-07, -2.1735e-07,  1.8394e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 388, time 217.31, cls_loss 0.0005 cls_loss_mapping 0.0015 cls_loss_causal 0.4598 re_mapping 0.0024 re_causal 0.0079 /// teacc 99.22 lr 0.00010000
+Epoch 390, weight, value: tensor([[ 0.0305, -0.1033, -0.0295,  ..., -0.1554, -0.1829, -0.1757],
+        [-0.1522,  0.0873, -0.1463,  ..., -0.2289, -0.2182, -0.2213],
+        [-0.1493, -0.2073, -0.2430,  ..., -0.2271, -0.1849,  0.1781],
+        ...,
+        [ 0.0886, -0.0819, -0.2045,  ...,  0.1106, -0.1872, -0.1619],
+        [ 0.1365,  0.1033,  0.1034,  ..., -0.2298, -0.1385,  0.0934],
+        [ 0.0867,  0.0610,  0.1277,  ...,  0.0568, -0.1044, -0.0169]],
+       device='cuda:0'), grad: tensor([[ 5.0059e-09,  3.4925e-09,  9.3132e-10,  ...,  1.1642e-10,
+          7.5670e-09,  8.1491e-09],
+        [ 4.7032e-08,  3.1316e-08,  8.4983e-09,  ...,  5.0059e-09,
+          3.4925e-09,  1.9092e-08],
+        [ 4.0745e-09,  2.0955e-09,  5.8208e-10,  ...,  2.6776e-09,
+          3.1432e-09, -4.6566e-10],
+        ...,
+        [ 1.1642e-07,  8.4285e-08,  2.2701e-08,  ..., -8.4983e-09,
+          4.6566e-10,  4.2142e-08],
+        [-2.8405e-07, -1.9534e-07, -5.2969e-08,  ...,  3.4925e-10,
+          8.6147e-09, -8.8359e-08],
+        [ 3.7835e-08,  2.4447e-08,  6.9849e-09,  ...,  1.1525e-08,
+          6.0536e-09,  1.4319e-08]], device='cuda:0')
+Epoch 390, bias, value: tensor([ 0.0199, -0.0287, -0.0076,  0.0110,  0.0027, -0.0137,  0.0027,  0.0154,
+        -0.0357,  0.0135], device='cuda:0'), grad: tensor([ 3.4226e-08,  1.7369e-07,  9.8953e-09,  4.7963e-08,  2.2119e-09,
+         2.4354e-07, -1.0408e-07,  3.8138e-07, -9.1549e-07,  1.4226e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 389, time 217.63, cls_loss 0.0005 cls_loss_mapping 0.0010 cls_loss_causal 0.4706 re_mapping 0.0024 re_causal 0.0082 /// teacc 99.11 lr 0.00010000
+Epoch 391, weight, value: tensor([[ 0.0305, -0.1034, -0.0299,  ..., -0.1554, -0.1829, -0.1758],
+        [-0.1527,  0.0873, -0.1465,  ..., -0.2305, -0.2183, -0.2213],
+        [-0.1495, -0.2074, -0.2432,  ..., -0.2273, -0.1849,  0.1782],
+        ...,
+        [ 0.0884, -0.0840, -0.2051,  ...,  0.1106, -0.1874, -0.1620],
+        [ 0.1368,  0.1033,  0.1043,  ..., -0.2300, -0.1385,  0.0934],
+        [ 0.0867,  0.0609,  0.1282,  ...,  0.0568, -0.1045, -0.0172]],
+       device='cuda:0'), grad: tensor([[-2.9686e-08,  2.3283e-10,  8.1491e-10,  ..., -2.1420e-08,
+          8.1491e-10,  1.3970e-09],
+        [ 1.6135e-07,  6.2864e-09,  9.3132e-10,  ...,  1.6287e-07,
+          4.7381e-08,  1.1444e-07],
+        [ 1.5367e-08, -5.9372e-09,  1.1642e-10,  ...,  1.2573e-08,
+          3.4925e-10, -1.3993e-07],
+        ...,
+        [-5.7230e-07,  3.2596e-09,  2.3283e-09,  ..., -4.8429e-07,
+          4.6566e-10,  1.3039e-08],
+        [-2.9104e-09, -2.7008e-08, -1.0012e-08,  ...,  1.1292e-08,
+         -2.3283e-10, -1.8743e-08],
+        [ 6.5891e-08, -1.1805e-07, -4.0187e-07,  ..., -2.0943e-07,
+         -2.9569e-07, -8.9407e-08]], device='cuda:0')
+Epoch 391, bias, value: tensor([ 0.0198, -0.0288, -0.0077,  0.0136,  0.0026, -0.0137,  0.0028,  0.0128,
+        -0.0357,  0.0134], device='cuda:0'), grad: tensor([-1.2352e-07,  1.1884e-06, -7.5391e-07,  3.1129e-07,  1.2200e-06,
+        -1.8510e-08,  9.9069e-08, -2.2557e-06,  3.8883e-08,  3.2876e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 390, time 217.65, cls_loss 0.0005 cls_loss_mapping 0.0009 cls_loss_causal 0.4427 re_mapping 0.0024 re_causal 0.0081 /// teacc 99.03 lr 0.00010000
+Epoch 392, weight, value: tensor([[ 0.0305, -0.1034, -0.0304,  ..., -0.1554, -0.1830, -0.1760],
+        [-0.1532,  0.0873, -0.1468,  ..., -0.2320, -0.2183, -0.2214],
+        [-0.1500, -0.2074, -0.2434,  ..., -0.2274, -0.1850,  0.1783],
+        ...,
+        [ 0.0886, -0.0840, -0.2054,  ...,  0.1108, -0.1875, -0.1620],
+        [ 0.1379,  0.1036,  0.1060,  ..., -0.2302, -0.1385,  0.0939],
+        [ 0.0863,  0.0604,  0.1277,  ...,  0.0566, -0.1048, -0.0179]],
+       device='cuda:0'), grad: tensor([[-1.6415e-08,  1.0477e-09,  8.1491e-10,  ...,  6.9849e-10,
+          1.1642e-09,  1.5134e-09],
+        [ 1.4435e-08,  7.5670e-09,  5.7044e-09,  ...,  8.9640e-09,
+          8.1491e-09,  2.0256e-08],
+        [ 3.2596e-09,  4.5402e-09,  2.0955e-09,  ...,  3.3760e-09,
+         -3.3760e-09, -1.4203e-08],
+        ...,
+        [-7.3342e-09,  4.7730e-09,  3.7253e-09,  ..., -1.7579e-08,
+          3.4925e-09,  8.8476e-09],
+        [-6.4145e-08, -6.6473e-08, -4.0280e-08,  ...,  1.1642e-09,
+         -3.0035e-08, -1.1176e-07],
+        [ 2.6892e-08,  1.3271e-08,  7.3342e-09,  ...,  1.1513e-07,
+          1.0547e-07,  7.1828e-08]], device='cuda:0')
+Epoch 392, bias, value: tensor([ 0.0198, -0.0289, -0.0077,  0.0135,  0.0026, -0.0137,  0.0030,  0.0128,
+        -0.0356,  0.0128], device='cuda:0'), grad: tensor([-7.6136e-08,  8.4634e-08, -1.3970e-08,  1.5018e-08, -2.9011e-07,
+         6.4145e-08,  1.5472e-07, -1.6997e-08, -3.1246e-07,  4.0838e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 391, time 217.48, cls_loss 0.0004 cls_loss_mapping 0.0013 cls_loss_causal 0.4731 re_mapping 0.0024 re_causal 0.0085 /// teacc 99.01 lr 0.00010000
+Epoch 393, weight, value: tensor([[ 0.0306, -0.1034, -0.0309,  ..., -0.1554, -0.1830, -0.1761],
+        [-0.1536,  0.0874, -0.1469,  ..., -0.2334, -0.2185, -0.2216],
+        [-0.1501, -0.2074, -0.2436,  ..., -0.2276, -0.1850,  0.1786],
+        ...,
+        [ 0.0888, -0.0840, -0.2057,  ...,  0.1111, -0.1877, -0.1621],
+        [ 0.1380,  0.1037,  0.1063,  ..., -0.2304, -0.1386,  0.0936],
+        [ 0.0860,  0.0610,  0.1289,  ...,  0.0565, -0.1049, -0.0185]],
+       device='cuda:0'), grad: tensor([[ 1.5134e-09,  6.9849e-10,  6.9849e-10,  ...,  1.3970e-09,
+          2.3283e-10,  3.8417e-09],
+        [ 8.1491e-10, -2.8056e-08,  1.1642e-10,  ...,  8.1491e-10,
+          0.0000e+00,  1.1292e-08],
+        [ 5.8208e-10,  3.3760e-09,  0.0000e+00,  ...,  4.6566e-10,
+          1.1642e-10, -3.7835e-08],
+        ...,
+        [ 1.1642e-10,  2.7940e-09,  0.0000e+00,  ...,  2.3283e-10,
+          0.0000e+00,  8.9640e-09],
+        [ 1.5134e-09,  1.8859e-08,  6.9849e-10,  ...,  1.6298e-09,
+          3.4925e-10,  1.0477e-08],
+        [-1.5018e-08,  2.3283e-10, -6.8685e-09,  ..., -1.3155e-08,
+          1.0477e-09, -2.6776e-08]], device='cuda:0')
+Epoch 393, bias, value: tensor([ 0.0200, -0.0289, -0.0077,  0.0136,  0.0020, -0.0137,  0.0030,  0.0129,
+        -0.0356,  0.0122], device='cuda:0'), grad: tensor([ 1.6764e-08, -5.9488e-08, -1.3318e-07,  2.9686e-08,  7.6718e-08,
+         2.2119e-09,  1.8976e-08,  4.5053e-08,  1.1246e-07, -9.1968e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 392, time 217.61, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.4562 re_mapping 0.0024 re_causal 0.0079 /// teacc 99.05 lr 0.00010000
+Epoch 394, weight, value: tensor([[ 0.0314, -0.1033, -0.0294,  ..., -0.1554, -0.1827, -0.1753],
+        [-0.1543,  0.0876, -0.1472,  ..., -0.2359, -0.2186, -0.2217],
+        [-0.1511, -0.2076, -0.2440,  ..., -0.2280, -0.1850,  0.1789],
+        ...,
+        [ 0.0889, -0.0841, -0.2071,  ...,  0.1113, -0.1882, -0.1626],
+        [ 0.1389,  0.1038,  0.1078,  ..., -0.2309, -0.1387,  0.0932],
+        [ 0.0861,  0.0615,  0.1288,  ...,  0.0566, -0.1052, -0.0196]],
+       device='cuda:0'), grad: tensor([[-1.1642e-10,  2.3283e-10,  1.1642e-10,  ...,  3.4925e-10,
+          4.6566e-10,  6.9849e-10],
+        [ 1.4785e-08,  3.3760e-09,  1.8626e-09,  ...,  2.4331e-08,
+          1.3970e-09,  1.7579e-08],
+        [ 2.0256e-08, -4.6566e-09,  6.9849e-10,  ...,  3.7835e-08,
+          4.6566e-10, -1.8626e-08],
+        ...,
+        [-4.3074e-08,  7.2177e-09,  1.2806e-09,  ..., -8.2422e-08,
+          3.4925e-10,  7.3342e-09],
+        [-8.6147e-09, -2.2817e-08, -1.3155e-08,  ...,  8.1491e-09,
+         -2.2119e-09, -2.3632e-08],
+        [ 3.2596e-09,  8.1491e-10,  2.3283e-10,  ...,  3.1432e-09,
+          1.3970e-09,  2.7940e-09]], device='cuda:0')
+Epoch 394, bias, value: tensor([ 0.0207, -0.0285, -0.0078,  0.0136,  0.0018, -0.0137,  0.0023,  0.0129,
+        -0.0358,  0.0120], device='cuda:0'), grad: tensor([-1.1642e-10,  8.6264e-08,  7.5204e-08,  2.7707e-08,  2.1420e-08,
+         6.4960e-08, -1.8626e-08, -2.1479e-07, -4.6799e-08,  2.3516e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 393, time 217.83, cls_loss 0.0005 cls_loss_mapping 0.0007 cls_loss_causal 0.4489 re_mapping 0.0024 re_causal 0.0080 /// teacc 99.13 lr 0.00010000
+Epoch 395, weight, value: tensor([[ 0.0315, -0.1035, -0.0301,  ..., -0.1555, -0.1828, -0.1756],
+        [-0.1548,  0.0876, -0.1477,  ..., -0.2377, -0.2188, -0.2218],
+        [-0.1522, -0.2076, -0.2444,  ..., -0.2284, -0.1850,  0.1790],
+        ...,
+        [ 0.0890, -0.0841, -0.2082,  ...,  0.1114, -0.1883, -0.1624],
+        [ 0.1388,  0.1039,  0.1082,  ..., -0.2322, -0.1388,  0.0933],
+        [ 0.0865,  0.0625,  0.1299,  ...,  0.0569, -0.1053, -0.0197]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-10,  1.0477e-09,  0.0000e+00,  ...,  2.3283e-10,
+          1.9325e-08,  1.7113e-08],
+        [ 2.3283e-09,  1.0128e-08,  0.0000e+00,  ...,  1.3970e-09,
+          4.0745e-09,  5.8208e-09],
+        [ 1.8626e-09,  5.2387e-09,  0.0000e+00,  ...,  2.2119e-09,
+          6.9849e-10, -6.0536e-09],
+        ...,
+        [-4.7730e-09,  1.3853e-08,  1.1642e-10,  ..., -4.5402e-09,
+          1.1642e-10,  6.0536e-09],
+        [-3.4925e-09, -1.5949e-08,  0.0000e+00,  ...,  4.6566e-10,
+          3.2829e-08,  2.3749e-08],
+        [-4.8894e-09,  1.1642e-10, -1.5134e-09,  ..., -8.4983e-09,
+          0.0000e+00,  8.1491e-10]], device='cuda:0')
+Epoch 395, bias, value: tensor([ 0.0206, -0.0286, -0.0078,  0.0136,  0.0014, -0.0139,  0.0027,  0.0130,
+        -0.0360,  0.0124], device='cuda:0'), grad: tensor([ 4.1793e-08,  4.0513e-08, -4.5402e-09, -1.1479e-07,  1.9232e-07,
+         1.3225e-07, -3.6648e-07,  4.1793e-08,  5.1223e-08, -1.0361e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 394, time 217.62, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4593 re_mapping 0.0023 re_causal 0.0079 /// teacc 99.09 lr 0.00010000
+Epoch 396, weight, value: tensor([[ 0.0318, -0.1035, -0.0302,  ..., -0.1555, -0.1828, -0.1756],
+        [-0.1559,  0.0877, -0.1479,  ..., -0.2387, -0.2188, -0.2219],
+        [-0.1521, -0.2076, -0.2448,  ..., -0.2284, -0.1850,  0.1793],
+        ...,
+        [ 0.0892, -0.0841, -0.2084,  ...,  0.1114, -0.1883, -0.1625],
+        [ 0.1389,  0.1036,  0.1085,  ..., -0.2326, -0.1389,  0.0932],
+        [ 0.0865,  0.0624,  0.1301,  ...,  0.0570, -0.1053, -0.0201]],
+       device='cuda:0'), grad: tensor([[ 7.3342e-09,  1.0594e-08,  2.9104e-09,  ...,  2.2934e-08,
+          5.3551e-09,  1.1758e-08],
+        [ 1.8510e-08,  2.2119e-09,  1.1176e-08,  ...,  2.2585e-08,
+          5.0059e-09,  2.1188e-08],
+        [ 4.8894e-08,  4.2375e-08,  2.9104e-09,  ...,  1.3784e-07,
+          2.8289e-08,  3.2713e-08],
+        ...,
+        [ 4.0745e-09,  1.8510e-08,  3.7253e-09,  ...,  2.9220e-08,
+          9.6625e-09,  2.0722e-08],
+        [-3.5507e-08, -6.0652e-08, -7.5903e-08,  ...,  7.2177e-09,
+         -1.0594e-08, -7.6019e-08],
+        [-9.4995e-08, -7.7882e-08,  8.0327e-09,  ..., -2.9220e-07,
+         -5.4366e-08, -8.9058e-08]], device='cuda:0')
+Epoch 396, bias, value: tensor([ 0.0207, -0.0285, -0.0077,  0.0142,  0.0011, -0.0152,  0.0027,  0.0130,
+        -0.0363,  0.0123], device='cuda:0'), grad: tensor([ 7.0897e-08,  9.0338e-08,  3.1339e-07,  2.8522e-08,  1.6694e-07,
+         9.3714e-08,  1.1758e-07,  7.8813e-08, -2.9616e-07, -6.5472e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 395, time 217.47, cls_loss 0.0005 cls_loss_mapping 0.0009 cls_loss_causal 0.4416 re_mapping 0.0021 re_causal 0.0075 /// teacc 99.07 lr 0.00010000
+Epoch 397, weight, value: tensor([[ 0.0320, -0.1033, -0.0302,  ..., -0.1555, -0.1827, -0.1756],
+        [-0.1564,  0.0878, -0.1481,  ..., -0.2396, -0.2188, -0.2220],
+        [-0.1521, -0.2076, -0.2451,  ..., -0.2284, -0.1850,  0.1796],
+        ...,
+        [ 0.0892, -0.0841, -0.2087,  ...,  0.1115, -0.1885, -0.1627],
+        [ 0.1390,  0.1037,  0.1088,  ..., -0.2329, -0.1390,  0.0932],
+        [ 0.0865,  0.0626,  0.1303,  ...,  0.0569, -0.1059, -0.0206]],
+       device='cuda:0'), grad: tensor([[-5.5879e-09,  5.8208e-10,  1.1642e-10,  ...,  7.9162e-09,
+          7.6834e-09,  6.0536e-09],
+        [ 5.7044e-09, -1.0477e-08,  2.5611e-09,  ...,  3.3411e-08,
+          3.6089e-08,  3.3411e-08],
+        [ 4.0745e-09,  2.2119e-09,  3.4925e-10,  ...,  1.4668e-08,
+          1.0012e-08, -7.3691e-08],
+        ...,
+        [-6.0536e-09,  1.1176e-08,  1.0477e-09,  ...,  2.9104e-09,
+          1.2689e-08,  1.8510e-08],
+        [-9.5461e-09, -1.2340e-08, -8.2655e-09,  ...,  2.5611e-09,
+          1.6298e-09,  2.9220e-08],
+        [ 1.2806e-09, -9.3132e-10, -2.3283e-09,  ...,  7.6601e-07,
+          7.2177e-07,  4.7428e-07]], device='cuda:0')
+Epoch 397, bias, value: tensor([ 0.0210, -0.0285, -0.0075,  0.0141,  0.0013, -0.0151,  0.0026,  0.0130,
+        -0.0364,  0.0121], device='cuda:0'), grad: tensor([ 8.1491e-09,  5.6927e-08, -2.3225e-07,  3.6205e-08, -2.5611e-06,
+         2.5728e-08,  1.6659e-07,  1.4226e-07,  1.2899e-07,  2.2203e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 396, time 217.41, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4503 re_mapping 0.0022 re_causal 0.0078 /// teacc 99.16 lr 0.00010000
+Epoch 398, weight, value: tensor([[ 0.0321, -0.1037, -0.0305,  ..., -0.1555, -0.1835, -0.1763],
+        [-0.1582,  0.0879, -0.1484,  ..., -0.2414, -0.2189, -0.2221],
+        [-0.1533, -0.2077, -0.2457,  ..., -0.2287, -0.1851,  0.1796],
+        ...,
+        [ 0.0897, -0.0842, -0.2089,  ...,  0.1116, -0.1888, -0.1627],
+        [ 0.1392,  0.1037,  0.1091,  ..., -0.2334, -0.1393,  0.0928],
+        [ 0.0863,  0.0658,  0.1334,  ...,  0.0595, -0.1033, -0.0181]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  3.4925e-10,  0.0000e+00,  ...,  1.7462e-09,
+          7.6136e-08,  6.1467e-08],
+        [ 2.6892e-08,  9.6625e-09,  1.2806e-09,  ...,  3.4459e-08,
+          1.7928e-08,  1.5018e-08],
+        [ 1.6065e-08,  3.4925e-10,  0.0000e+00,  ...,  1.8859e-08,
+          4.8894e-09,  4.0745e-09],
+        ...,
+        [-1.3097e-07,  7.6834e-09,  9.3132e-10,  ..., -1.5367e-07,
+          5.8208e-10,  5.8208e-10],
+        [ 1.8976e-08,  1.1642e-09,  2.3283e-10,  ...,  2.3516e-08,
+          1.6671e-07,  1.3399e-07],
+        [ 4.9593e-08, -1.6997e-08, -2.4447e-09,  ...,  5.3085e-08,
+          6.1700e-09,  5.0059e-09]], device='cuda:0')
+Epoch 398, bias, value: tensor([ 0.0203, -0.0287, -0.0076,  0.0141, -0.0017, -0.0152,  0.0034,  0.0132,
+        -0.0366,  0.0145], device='cuda:0'), grad: tensor([ 2.1281e-07,  1.4796e-07,  6.3796e-08,  2.6776e-08,  1.3364e-07,
+         3.4068e-06, -4.2655e-06, -3.8603e-07,  5.1782e-07,  1.4377e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 397, time 217.69, cls_loss 0.0004 cls_loss_mapping 0.0007 cls_loss_causal 0.4169 re_mapping 0.0024 re_causal 0.0079 /// teacc 99.06 lr 0.00010000
+Epoch 399, weight, value: tensor([[ 0.0322, -0.1037, -0.0306,  ..., -0.1555, -0.1838, -0.1766],
+        [-0.1590,  0.0879, -0.1486,  ..., -0.2420, -0.2189, -0.2221],
+        [-0.1536, -0.2077, -0.2461,  ..., -0.2288, -0.1851,  0.1796],
+        ...,
+        [ 0.0898, -0.0842, -0.2092,  ...,  0.1117, -0.1899, -0.1628],
+        [ 0.1406,  0.1043,  0.1105,  ..., -0.2336, -0.1394,  0.0937],
+        [ 0.0859,  0.0654,  0.1329,  ...,  0.0591, -0.1038, -0.0192]],
+       device='cuda:0'), grad: tensor([[-1.0477e-09,  1.0710e-08,  2.3283e-10,  ...,  2.3283e-10,
+          4.0745e-09,  3.7253e-09],
+        [ 7.9162e-09, -2.3842e-07,  2.0955e-09,  ...,  1.1642e-09,
+          3.6089e-09,  1.0128e-08],
+        [ 1.1059e-08,  2.2002e-08,  5.0059e-09,  ...,  4.6566e-10,
+          9.4296e-09,  1.9674e-08],
+        ...,
+        [ 1.2806e-08,  1.8883e-07,  6.1700e-09,  ...,  1.6182e-08,
+          1.1642e-10,  5.7044e-09],
+        [-7.0315e-08, -7.6252e-08, -2.6077e-08,  ...,  2.2119e-09,
+         -5.3085e-08, -1.1956e-07],
+        [-1.0012e-08,  1.2806e-09, -5.1223e-09,  ..., -2.2119e-08,
+          3.9581e-09,  6.1700e-09]], device='cuda:0')
+Epoch 399, bias, value: tensor([ 0.0201, -0.0288, -0.0077,  0.0141, -0.0013, -0.0153,  0.0036,  0.0132,
+        -0.0363,  0.0139], device='cuda:0'), grad: tensor([ 4.7497e-08, -1.0319e-06,  1.0047e-07,  1.8743e-08,  1.1933e-07,
+         1.6263e-07,  8.8708e-08,  8.3540e-07, -3.2340e-07, -4.6566e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 398, time 217.55, cls_loss 0.0007 cls_loss_mapping 0.0018 cls_loss_causal 0.4556 re_mapping 0.0022 re_causal 0.0077 /// teacc 99.10 lr 0.00010000
+Epoch 400, weight, value: tensor([[ 0.0324, -0.1039, -0.0303,  ..., -0.1556, -0.1840, -0.1768],
+        [-0.1600,  0.0879, -0.1490,  ..., -0.2462, -0.2189, -0.2222],
+        [-0.1546, -0.2078, -0.2465,  ..., -0.2292, -0.1851,  0.1797],
+        ...,
+        [ 0.0915, -0.0817, -0.2097,  ...,  0.1135, -0.1902, -0.1628],
+        [ 0.1408,  0.1044,  0.1105,  ..., -0.2344, -0.1395,  0.0936],
+        [ 0.0853,  0.0643,  0.1335,  ...,  0.0577, -0.1039, -0.0193]],
+       device='cuda:0'), grad: tensor([[ 2.5029e-08,  2.6776e-09,  6.9849e-10,  ...,  3.3760e-09,
+          2.5611e-09,  7.9279e-08],
+        [ 2.0722e-08, -8.7661e-08,  2.0955e-09,  ...,  1.2573e-08,
+          1.2806e-09,  1.2852e-07],
+        [ 9.5577e-08,  2.8173e-08,  8.1491e-10,  ...,  7.9721e-07,
+          9.3132e-10, -6.3144e-07],
+        ...,
+        [-1.2701e-07,  7.4739e-08,  3.3178e-08,  ..., -6.7474e-07,
+          0.0000e+00, -1.0675e-07],
+        [ 4.8312e-08, -2.0722e-08, -1.1991e-08,  ...,  6.4028e-09,
+          8.2655e-09,  2.1944e-07],
+        [-9.7440e-08, -5.6112e-08, -3.5740e-08,  ..., -1.6449e-07,
+          1.1642e-10,  2.3167e-08]], device='cuda:0')
+Epoch 400, bias, value: tensor([ 0.0200, -0.0290, -0.0078,  0.0141, -0.0015, -0.0155,  0.0043,  0.0157,
+        -0.0364,  0.0124], device='cuda:0'), grad: tensor([ 2.9034e-07,  7.4692e-07, -3.5297e-06,  2.2110e-06,  1.1374e-07,
+         3.4226e-08,  8.6962e-08, -4.2119e-07,  6.8732e-07, -2.1618e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 399, time 217.71, cls_loss 0.0006 cls_loss_mapping 0.0009 cls_loss_causal 0.4567 re_mapping 0.0022 re_causal 0.0073 /// teacc 99.17 lr 0.00001000
+Epoch 401, weight, value: tensor([[ 0.0329, -0.1040, -0.0304,  ..., -0.1556, -0.1865, -0.1782],
+        [-0.1608,  0.0880, -0.1501,  ..., -0.2481, -0.2190, -0.2223],
+        [-0.1547, -0.2079, -0.2493,  ..., -0.2294, -0.1852,  0.1800],
+        ...,
+        [ 0.0916, -0.0816, -0.2105,  ...,  0.1137, -0.1906, -0.1634],
+        [ 0.1412,  0.1047,  0.1113,  ..., -0.2347, -0.1395,  0.0939],
+        [ 0.0852,  0.0642,  0.1339,  ...,  0.0576, -0.1039, -0.0193]],
+       device='cuda:0'), grad: tensor([[-3.8417e-09,  4.5402e-08,  1.5483e-08,  ...,  4.3889e-08,
+          0.0000e+00,  1.1292e-08],
+        [ 1.3853e-08, -3.0384e-07,  6.2166e-08,  ...,  1.7777e-07,
+          1.1642e-10,  5.1106e-08],
+        [ 7.4506e-09,  3.4575e-08,  2.2119e-09,  ...,  9.0804e-09,
+          1.1642e-10, -2.1537e-08],
+        ...,
+        [ 3.8417e-09,  3.6578e-07,  9.8487e-08,  ...,  2.7288e-07,
+          0.0000e+00,  7.0897e-08],
+        [ 1.6764e-08,  1.7253e-07,  6.0070e-08,  ...,  1.7311e-07,
+          1.1642e-10,  4.2492e-08],
+        [-1.5122e-07, -2.0582e-06, -8.3726e-07,  ..., -2.3711e-06,
+          2.3283e-10, -5.6485e-07]], device='cuda:0')
+Epoch 401, bias, value: tensor([ 0.0179, -0.0291, -0.0076,  0.0140, -0.0016, -0.0155,  0.0053,  0.0158,
+        -0.0364,  0.0123], device='cuda:0'), grad: tensor([ 1.6182e-07, -3.5707e-06,  2.3143e-07,  6.9849e-08,  7.2345e-06,
+         1.1583e-07,  4.5751e-08,  1.8552e-06,  7.4226e-07, -6.8732e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 400, time 217.84, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4231 re_mapping 0.0021 re_causal 0.0072 /// teacc 99.17 lr 0.00001000
+Epoch 402, weight, value: tensor([[ 0.0329, -0.1040, -0.0304,  ..., -0.1556, -0.1865, -0.1782],
+        [-0.1607,  0.0880, -0.1502,  ..., -0.2483, -0.2190, -0.2223],
+        [-0.1546, -0.2079, -0.2494,  ..., -0.2294, -0.1852,  0.1801],
+        ...,
+        [ 0.0916, -0.0816, -0.2106,  ...,  0.1137, -0.1906, -0.1634],
+        [ 0.1412,  0.1048,  0.1114,  ..., -0.2348, -0.1395,  0.0942],
+        [ 0.0852,  0.0642,  0.1341,  ...,  0.0577, -0.1039, -0.0193]],
+       device='cuda:0'), grad: tensor([[-4.6566e-10,  5.0059e-09,  1.9791e-09,  ...,  3.4925e-09,
+          2.2119e-09,  4.5402e-09],
+        [ 7.3342e-09,  3.8417e-09,  3.3760e-09,  ...,  8.6147e-09,
+          1.1642e-09,  8.3819e-09],
+        [ 6.4028e-09,  5.1223e-09,  1.8626e-09,  ...,  6.7521e-09,
+          9.3132e-10, -2.0722e-08],
+        ...,
+        [ 4.6566e-09,  3.7369e-08,  1.3039e-08,  ...,  5.8208e-09,
+          4.0745e-09,  1.1525e-08],
+        [ 2.0140e-08,  4.3772e-08,  1.6415e-08,  ...,  3.1898e-08,
+          5.5879e-09,  1.0361e-08],
+        [-7.1712e-08, -1.3830e-07, -5.7975e-08,  ..., -9.1619e-08,
+         -9.8953e-09, -2.4680e-08]], device='cuda:0')
+Epoch 402, bias, value: tensor([ 0.0179, -0.0290, -0.0076,  0.0140, -0.0016, -0.0154,  0.0051,  0.0158,
+        -0.0364,  0.0123], device='cuda:0'), grad: tensor([ 1.8859e-08,  3.8766e-08, -5.2154e-08, -5.2853e-07,  1.3958e-07,
+         6.0257e-07, -4.8894e-09,  1.2841e-07,  1.8999e-07, -5.2759e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 401, time 217.68, cls_loss 0.0005 cls_loss_mapping 0.0011 cls_loss_causal 0.4119 re_mapping 0.0021 re_causal 0.0071 /// teacc 99.20 lr 0.00001000
+Epoch 403, weight, value: tensor([[ 0.0329, -0.1040, -0.0304,  ..., -0.1556, -0.1865, -0.1782],
+        [-0.1607,  0.0880, -0.1503,  ..., -0.2484, -0.2190, -0.2223],
+        [-0.1545, -0.2079, -0.2494,  ..., -0.2294, -0.1852,  0.1802],
+        ...,
+        [ 0.0916, -0.0816, -0.2107,  ...,  0.1137, -0.1907, -0.1635],
+        [ 0.1412,  0.1048,  0.1115,  ..., -0.2348, -0.1395,  0.0942],
+        [ 0.0852,  0.0642,  0.1341,  ...,  0.0577, -0.1039, -0.0192]],
+       device='cuda:0'), grad: tensor([[-4.0745e-09,  1.1525e-08,  4.8894e-09,  ...,  5.1223e-09,
+         -5.8208e-10,  1.7695e-08],
+        [ 7.2294e-08,  4.1560e-08,  2.1537e-08,  ...,  3.6089e-08,
+          1.1642e-10,  6.9034e-08],
+        [-5.6066e-07,  3.4925e-10,  8.1491e-09,  ..., -2.3132e-07,
+          0.0000e+00, -4.2608e-07],
+        ...,
+        [ 1.2340e-08,  3.6205e-08,  8.0327e-09,  ..., -1.4086e-07,
+          0.0000e+00,  2.2317e-07],
+        [ 1.2876e-07, -2.8964e-07, -1.3190e-07,  ...,  1.8347e-07,
+         -1.1642e-10, -2.1618e-07],
+        [ 2.5611e-07,  1.0827e-07,  4.5635e-08,  ...,  1.0384e-07,
+          1.1642e-10,  2.3656e-07]], device='cuda:0')
+Epoch 403, bias, value: tensor([ 0.0179, -0.0290, -0.0076,  0.0140, -0.0016, -0.0154,  0.0050,  0.0158,
+        -0.0364,  0.0123], device='cuda:0'), grad: tensor([ 2.4564e-08,  3.6787e-07, -3.1292e-06,  1.5390e-07,  7.1246e-08,
+         2.1770e-07,  1.0000e-07,  9.7509e-07, -2.6729e-07,  1.4985e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 402, time 217.77, cls_loss 0.0005 cls_loss_mapping 0.0010 cls_loss_causal 0.4537 re_mapping 0.0020 re_causal 0.0075 /// teacc 99.20 lr 0.00001000
+Epoch 404, weight, value: tensor([[ 0.0329, -0.1041, -0.0304,  ..., -0.1557, -0.1865, -0.1782],
+        [-0.1606,  0.0881, -0.1504,  ..., -0.2484, -0.2190, -0.2223],
+        [-0.1545, -0.2079, -0.2495,  ..., -0.2295, -0.1852,  0.1802],
+        ...,
+        [ 0.0916, -0.0816, -0.2107,  ...,  0.1137, -0.1907, -0.1636],
+        [ 0.1413,  0.1048,  0.1116,  ..., -0.2349, -0.1395,  0.0942],
+        [ 0.0852,  0.0642,  0.1341,  ...,  0.0577, -0.1039, -0.0193]],
+       device='cuda:0'), grad: tensor([[ 8.1491e-10,  8.1491e-10,  8.7311e-10,  ...,  1.6298e-09,
+          4.6566e-10,  6.9849e-10],
+        [ 9.8953e-09,  4.5984e-09,  1.5134e-09,  ...,  2.5029e-09,
+          5.8208e-10,  1.1991e-08],
+        [ 5.4715e-09,  3.7253e-09,  4.6566e-10,  ...,  1.7462e-09,
+          3.4925e-10, -1.0419e-08],
+        ...,
+        [ 8.7311e-10,  7.6252e-09,  4.4238e-09,  ...,  1.5716e-09,
+          1.1642e-09,  5.5879e-09],
+        [-2.4447e-08, -1.9907e-08, -1.3388e-09,  ...,  3.4343e-09,
+          6.4028e-10, -2.1537e-08],
+        [-1.6124e-08, -1.6997e-08, -2.5902e-08,  ..., -3.9698e-08,
+         -4.0745e-10,  4.7730e-09]], device='cuda:0')
+Epoch 404, bias, value: tensor([ 0.0179, -0.0290, -0.0076,  0.0140, -0.0016, -0.0153,  0.0049,  0.0158,
+        -0.0364,  0.0123], device='cuda:0'), grad: tensor([ 7.9744e-09,  5.0990e-08, -4.2142e-08,  2.5320e-08,  8.1083e-08,
+        -1.2200e-07,  6.0885e-08,  3.6205e-08,  2.4913e-08, -1.0815e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 403, time 217.59, cls_loss 0.0004 cls_loss_mapping 0.0006 cls_loss_causal 0.4064 re_mapping 0.0020 re_causal 0.0072 /// teacc 99.21 lr 0.00001000
+Epoch 405, weight, value: tensor([[ 0.0329, -0.1041, -0.0305,  ..., -0.1557, -0.1865, -0.1782],
+        [-0.1607,  0.0881, -0.1504,  ..., -0.2485, -0.2190, -0.2223],
+        [-0.1545, -0.2079, -0.2495,  ..., -0.2294, -0.1852,  0.1803],
+        ...,
+        [ 0.0916, -0.0816, -0.2108,  ...,  0.1137, -0.1908, -0.1637],
+        [ 0.1413,  0.1048,  0.1116,  ..., -0.2349, -0.1395,  0.0943],
+        [ 0.0852,  0.0642,  0.1341,  ...,  0.0577, -0.1040, -0.0193]],
+       device='cuda:0'), grad: tensor([[-1.7637e-08,  8.3237e-09,  3.5507e-09,  ...,  1.1642e-09,
+          4.8894e-09,  6.7521e-09],
+        [ 1.8917e-08,  9.2143e-08,  9.4878e-09,  ...,  9.4355e-08,
+          1.2165e-08,  1.9616e-08],
+        [ 1.7521e-08,  1.6473e-08,  7.8580e-09,  ...,  3.3760e-09,
+          9.4878e-09,  1.5309e-08],
+        ...,
+        [ 5.1805e-09,  2.0314e-08,  9.1968e-09,  ..., -8.3819e-09,
+          1.1933e-08,  1.7870e-08],
+        [-2.0862e-07, -2.5448e-07, -1.4110e-07,  ...,  3.7835e-09,
+         -1.8324e-07, -2.6799e-07],
+        [ 2.4971e-08, -2.4028e-07,  6.1118e-09,  ..., -3.0594e-07,
+          1.2398e-08,  1.5600e-08]], device='cuda:0')
+Epoch 405, bias, value: tensor([ 0.0179, -0.0290, -0.0075,  0.0140, -0.0016, -0.0153,  0.0049,  0.0158,
+        -0.0364,  0.0123], device='cuda:0'), grad: tensor([-3.7835e-08,  4.6170e-07,  7.7300e-08,  2.2771e-07,  8.4890e-07,
+         4.7288e-07,  1.8999e-07,  6.3970e-08, -1.1604e-06, -1.1167e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 404, time 217.81, cls_loss 0.0004 cls_loss_mapping 0.0005 cls_loss_causal 0.4210 re_mapping 0.0020 re_causal 0.0075 /// teacc 99.21 lr 0.00001000
+Epoch 406, weight, value: tensor([[ 0.0329, -0.1041, -0.0305,  ..., -0.1557, -0.1865, -0.1782],
+        [-0.1607,  0.0881, -0.1504,  ..., -0.2486, -0.2190, -0.2224],
+        [-0.1545, -0.2079, -0.2496,  ..., -0.2294, -0.1852,  0.1803],
+        ...,
+        [ 0.0916, -0.0816, -0.2109,  ...,  0.1137, -0.1908, -0.1637],
+        [ 0.1414,  0.1048,  0.1116,  ..., -0.2350, -0.1395,  0.0943],
+        [ 0.0852,  0.0642,  0.1342,  ...,  0.0577, -0.1040, -0.0193]],
+       device='cuda:0'), grad: tensor([[-3.1432e-09,  1.1642e-10,  5.8208e-11,  ...,  5.8208e-11,
+          2.5437e-08,  1.3504e-08],
+        [ 1.7462e-09, -2.2701e-09,  2.9104e-10,  ...,  1.4552e-09,
+          7.5670e-10,  1.7462e-09],
+        [ 1.5134e-09,  3.4925e-10,  0.0000e+00,  ...,  1.9209e-09,
+          8.1491e-10, -4.8312e-09],
+        ...,
+        [-5.4715e-09,  3.8417e-09,  6.9849e-10,  ..., -6.2282e-09,
+          1.1642e-10,  6.9849e-10],
+        [ 1.1059e-09, -7.5670e-10, -5.8208e-10,  ...,  3.0850e-09,
+          1.2806e-09,  2.2701e-09],
+        [ 1.3388e-09, -1.9791e-09, -1.3970e-09,  ...,  9.8953e-10,
+          9.3132e-10,  9.3132e-10]], device='cuda:0')
+Epoch 406, bias, value: tensor([ 0.0180, -0.0290, -0.0075,  0.0140, -0.0016, -0.0153,  0.0048,  0.0158,
+        -0.0364,  0.0123], device='cuda:0'), grad: tensor([ 4.8894e-08, -3.8999e-09, -2.5029e-09,  1.1467e-08,  1.9791e-09,
+         2.0955e-09, -6.2108e-08,  3.9581e-09,  1.7346e-08,  5.7044e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 405, time 217.65, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4353 re_mapping 0.0020 re_causal 0.0075 /// teacc 99.20 lr 0.00001000
+Epoch 407, weight, value: tensor([[ 0.0329, -0.1041, -0.0305,  ..., -0.1557, -0.1865, -0.1782],
+        [-0.1607,  0.0881, -0.1505,  ..., -0.2486, -0.2190, -0.2224],
+        [-0.1545, -0.2079, -0.2496,  ..., -0.2295, -0.1852,  0.1803],
+        ...,
+        [ 0.0916, -0.0816, -0.2110,  ...,  0.1137, -0.1909, -0.1638],
+        [ 0.1414,  0.1049,  0.1117,  ..., -0.2351, -0.1395,  0.0944],
+        [ 0.0852,  0.0642,  0.1343,  ...,  0.0577, -0.1040, -0.0193]],
+       device='cuda:0'), grad: tensor([[-2.2119e-09,  1.1642e-10,  0.0000e+00,  ...,  5.8208e-11,
+          6.9849e-10,  5.8208e-10],
+        [ 2.0373e-09,  9.3132e-10,  2.3283e-10,  ...,  2.0955e-09,
+          9.8953e-10,  1.3970e-09],
+        [ 2.2119e-09,  5.2387e-10,  1.1642e-10,  ...,  3.0850e-09,
+          7.5670e-10,  8.7311e-10],
+        ...,
+        [-7.5088e-09,  1.1642e-09,  4.0745e-10,  ..., -1.3621e-08,
+          5.8208e-11,  5.8208e-10],
+        [-7.5670e-10,  7.2177e-09, -7.5670e-10,  ...,  1.9791e-09,
+          1.8044e-09, -6.9849e-10],
+        [ 2.3865e-09,  5.2387e-10,  5.8208e-11,  ...,  1.5076e-08,
+          1.0943e-08,  7.9744e-09]], device='cuda:0')
+Epoch 407, bias, value: tensor([ 0.0181, -0.0291, -0.0075,  0.0140, -0.0016, -0.0153,  0.0048,  0.0158,
+        -0.0364,  0.0123], device='cuda:0'), grad: tensor([-8.6147e-09,  1.2398e-08,  1.1874e-08,  3.4401e-08, -1.5134e-08,
+        -2.1711e-07,  4.7963e-08, -2.9569e-08,  1.3830e-07,  3.7020e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 406, time 217.67, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4091 re_mapping 0.0020 re_causal 0.0072 /// teacc 99.22 lr 0.00001000
+Epoch 408, weight, value: tensor([[ 0.0329, -0.1041, -0.0305,  ..., -0.1557, -0.1865, -0.1782],
+        [-0.1607,  0.0881, -0.1505,  ..., -0.2487, -0.2190, -0.2224],
+        [-0.1544, -0.2080, -0.2496,  ..., -0.2294, -0.1852,  0.1803],
+        ...,
+        [ 0.0916, -0.0816, -0.2110,  ...,  0.1137, -0.1910, -0.1638],
+        [ 0.1415,  0.1049,  0.1117,  ..., -0.2351, -0.1395,  0.0944],
+        [ 0.0852,  0.0642,  0.1343,  ...,  0.0577, -0.1040, -0.0193]],
+       device='cuda:0'), grad: tensor([[-2.9104e-10,  1.3388e-09,  5.8208e-10,  ...,  2.0373e-09,
+          5.8208e-11,  2.3283e-10],
+        [ 2.7416e-08,  4.7148e-09,  2.5611e-09,  ...,  3.2596e-08,
+          2.9104e-10,  2.6776e-09],
+        [ 6.1118e-09,  5.8208e-10,  3.4925e-10,  ...,  9.1968e-09,
+          1.1642e-10,  4.6566e-10],
+        ...,
+        [-1.0710e-07,  1.7986e-08,  7.6252e-09,  ..., -1.3283e-07,
+          6.4028e-10,  1.5134e-09],
+        [-7.6252e-09, -8.2073e-09, -7.2760e-09,  ...,  7.0431e-09,
+         -8.7311e-10, -1.2631e-08],
+        [ 5.9430e-08, -4.5518e-08, -1.8568e-08,  ...,  5.2503e-08,
+          9.3132e-10,  1.5716e-09]], device='cuda:0')
+Epoch 408, bias, value: tensor([ 0.0181, -0.0291, -0.0075,  0.0140, -0.0016, -0.0153,  0.0048,  0.0158,
+        -0.0364,  0.0123], device='cuda:0'), grad: tensor([-5.8208e-11,  1.1059e-07,  2.7649e-08,  2.1479e-08,  6.4785e-08,
+         3.2014e-08,  1.6356e-08, -3.8231e-07, -2.3283e-08,  1.4249e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 407, time 217.53, cls_loss 0.0003 cls_loss_mapping 0.0004 cls_loss_causal 0.4268 re_mapping 0.0019 re_causal 0.0074 /// teacc 99.21 lr 0.00001000
+Epoch 409, weight, value: tensor([[ 0.0330, -0.1041, -0.0305,  ..., -0.1557, -0.1865, -0.1782],
+        [-0.1608,  0.0881, -0.1505,  ..., -0.2488, -0.2190, -0.2224],
+        [-0.1544, -0.2080, -0.2496,  ..., -0.2295, -0.1852,  0.1804],
+        ...,
+        [ 0.0916, -0.0816, -0.2111,  ...,  0.1137, -0.1911, -0.1639],
+        [ 0.1415,  0.1049,  0.1117,  ..., -0.2352, -0.1395,  0.0944],
+        [ 0.0852,  0.0642,  0.1343,  ...,  0.0577, -0.1040, -0.0193]],
+       device='cuda:0'), grad: tensor([[-1.0547e-07, -1.1642e-09,  0.0000e+00,  ..., -3.4925e-09,
+          4.0745e-10, -3.4925e-09],
+        [ 1.8335e-08,  1.7462e-10,  5.8208e-11,  ...,  7.7416e-09,
+          1.0477e-09,  7.5670e-10],
+        [ 9.1968e-09,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          4.0745e-10,  3.4925e-10],
+        ...,
+        [-4.8894e-09,  5.2387e-10,  2.9104e-10,  ..., -1.4785e-08,
+          8.7311e-10,  5.8208e-10],
+        [ 2.4505e-08,  5.8208e-10,  5.8208e-11,  ...,  2.3865e-09,
+          2.8522e-09,  2.3865e-09],
+        [ 2.7008e-08,  5.2387e-10,  0.0000e+00,  ...,  2.2002e-08,
+          1.7171e-08,  8.9640e-09]], device='cuda:0')
+Epoch 409, bias, value: tensor([ 0.0181, -0.0291, -0.0075,  0.0140, -0.0016, -0.0153,  0.0048,  0.0158,
+        -0.0364,  0.0123], device='cuda:0'), grad: tensor([-4.5006e-07,  9.7381e-08,  5.0408e-08,  2.1327e-07,  1.1700e-08,
+        -2.4550e-06,  8.1584e-07,  5.3551e-09,  1.8021e-07,  1.5432e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 408, time 217.33, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4458 re_mapping 0.0019 re_causal 0.0076 /// teacc 99.20 lr 0.00001000
+Epoch 410, weight, value: tensor([[ 0.0330, -0.1041, -0.0305,  ..., -0.1557, -0.1865, -0.1782],
+        [-0.1608,  0.0881, -0.1506,  ..., -0.2488, -0.2190, -0.2224],
+        [-0.1544, -0.2080, -0.2497,  ..., -0.2295, -0.1852,  0.1804],
+        ...,
+        [ 0.0916, -0.0816, -0.2111,  ...,  0.1137, -0.1911, -0.1639],
+        [ 0.1415,  0.1049,  0.1118,  ..., -0.2352, -0.1395,  0.0944],
+        [ 0.0852,  0.0642,  0.1344,  ...,  0.0577, -0.1040, -0.0193]],
+       device='cuda:0'), grad: tensor([[-7.5670e-10,  6.9849e-10,  4.0745e-10,  ...,  2.9104e-10,
+          5.8208e-10,  2.9686e-08],
+        [ 2.6193e-09, -8.0327e-09,  4.0745e-10,  ...,  2.6193e-09,
+          2.3283e-10,  1.4971e-07],
+        [ 1.4552e-09,  4.0745e-10,  5.8208e-11,  ...,  2.9686e-09,
+          1.1642e-10, -9.6951e-07],
+        ...,
+        [-4.1327e-09,  9.5461e-09,  2.2701e-09,  ..., -6.3446e-09,
+          0.0000e+00,  1.3597e-07],
+        [ 1.1059e-09,  4.0745e-10,  1.7462e-10,  ...,  3.0268e-09,
+          2.3283e-09,  2.2410e-08],
+        [-5.1223e-09, -6.4611e-09, -6.2864e-09,  ..., -7.3342e-09,
+          5.8208e-11,  2.0606e-08]], device='cuda:0')
+Epoch 410, bias, value: tensor([ 0.0181, -0.0291, -0.0075,  0.0140, -0.0016, -0.0153,  0.0048,  0.0158,
+        -0.0364,  0.0123], device='cuda:0'), grad: tensor([ 2.4447e-07,  1.1995e-06, -8.1360e-06,  4.9509e-06,  9.2434e-08,
+         1.6042e-07,  9.0804e-09,  1.1595e-06,  1.7462e-07,  1.5297e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 409, time 217.56, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4281 re_mapping 0.0019 re_causal 0.0074 /// teacc 99.14 lr 0.00001000
+Epoch 411, weight, value: tensor([[ 0.0330, -0.1041, -0.0306,  ..., -0.1557, -0.1865, -0.1782],
+        [-0.1608,  0.0881, -0.1506,  ..., -0.2489, -0.2190, -0.2224],
+        [-0.1543, -0.2080, -0.2497,  ..., -0.2295, -0.1852,  0.1804],
+        ...,
+        [ 0.0916, -0.0816, -0.2112,  ...,  0.1137, -0.1911, -0.1639],
+        [ 0.1415,  0.1049,  0.1118,  ..., -0.2353, -0.1395,  0.0944],
+        [ 0.0852,  0.0642,  0.1344,  ...,  0.0577, -0.1040, -0.0193]],
+       device='cuda:0'), grad: tensor([[-5.4133e-09,  1.1642e-10,  0.0000e+00,  ...,  1.8044e-09,
+          2.1537e-09,  2.6776e-09],
+        [ 3.0850e-09, -1.2689e-08,  0.0000e+00,  ...,  4.2492e-09,
+          1.4552e-09,  7.1013e-09],
+        [-1.1059e-09,  7.5670e-09,  0.0000e+00,  ...,  1.7462e-10,
+          3.2596e-09, -1.6938e-08],
+        ...,
+        [-1.9791e-09,  5.0059e-09,  5.8208e-11,  ...,  1.2224e-09,
+          2.9686e-09,  9.3714e-09],
+        [ 1.2806e-09,  5.8208e-11,  0.0000e+00,  ...,  1.0768e-08,
+          5.9954e-09,  1.0070e-08],
+        [ 3.2014e-09, -9.3132e-10, -7.5670e-10,  ...,  1.9395e-07,
+          1.6717e-07,  1.5495e-07]], device='cuda:0')
+Epoch 411, bias, value: tensor([ 0.0182, -0.0291, -0.0075,  0.0140, -0.0016, -0.0153,  0.0048,  0.0158,
+        -0.0364,  0.0123], device='cuda:0'), grad: tensor([-1.5774e-08, -9.0920e-08,  5.9954e-09,  5.8440e-08, -5.6392e-07,
+        -2.6869e-07, -8.2655e-09,  1.0175e-07,  1.7369e-07,  6.2911e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 410, time 217.89, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4324 re_mapping 0.0019 re_causal 0.0074 /// teacc 99.16 lr 0.00001000
+Epoch 412, weight, value: tensor([[ 0.0330, -0.1041, -0.0306,  ..., -0.1557, -0.1865, -0.1782],
+        [-0.1609,  0.0881, -0.1507,  ..., -0.2490, -0.2190, -0.2224],
+        [-0.1543, -0.2080, -0.2497,  ..., -0.2295, -0.1852,  0.1805],
+        ...,
+        [ 0.0916, -0.0816, -0.2112,  ...,  0.1137, -0.1912, -0.1640],
+        [ 0.1416,  0.1050,  0.1118,  ..., -0.2354, -0.1395,  0.0945],
+        [ 0.0852,  0.0642,  0.1345,  ...,  0.0577, -0.1040, -0.0193]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  3.4925e-10,  1.1642e-10,  ...,  6.9849e-10,
+          3.4925e-10,  3.4925e-10],
+        [ 3.8417e-09, -5.4133e-09,  2.3283e-10,  ...,  7.4506e-09,
+          1.0477e-09,  4.7148e-09],
+        [ 1.5937e-07,  7.5670e-10,  5.8208e-11,  ...,  3.3015e-07,
+          4.6566e-10,  1.6857e-07],
+        ...,
+        [-1.7323e-07,  5.0059e-09,  7.5670e-10,  ..., -3.5227e-07,
+          1.2224e-09, -1.8417e-07],
+        [ 3.4925e-09,  4.6566e-10,  4.6566e-10,  ...,  6.0536e-09,
+         -2.3283e-10,  3.2596e-09],
+        [ 4.6566e-09, -1.5716e-09, -1.6298e-09,  ...,  4.9942e-08,
+          3.0617e-08,  1.8277e-08]], device='cuda:0')
+Epoch 412, bias, value: tensor([ 0.0182, -0.0291, -0.0075,  0.0140, -0.0016, -0.0153,  0.0048,  0.0158,
+        -0.0364,  0.0123], device='cuda:0'), grad: tensor([ 2.9104e-09, -6.8103e-09,  8.1584e-07,  6.8685e-09, -7.9337e-08,
+         7.3342e-09,  5.9954e-09, -8.6194e-07,  2.1188e-08,  1.0605e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 411, time 217.32, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4255 re_mapping 0.0019 re_causal 0.0074 /// teacc 99.15 lr 0.00001000
+Epoch 413, weight, value: tensor([[ 0.0330, -0.1041, -0.0306,  ..., -0.1557, -0.1865, -0.1782],
+        [-0.1609,  0.0881, -0.1507,  ..., -0.2491, -0.2190, -0.2224],
+        [-0.1543, -0.2080, -0.2497,  ..., -0.2295, -0.1852,  0.1805],
+        ...,
+        [ 0.0916, -0.0816, -0.2113,  ...,  0.1137, -0.1912, -0.1640],
+        [ 0.1416,  0.1050,  0.1119,  ..., -0.2354, -0.1395,  0.0945],
+        [ 0.0852,  0.0642,  0.1345,  ...,  0.0577, -0.1040, -0.0193]],
+       device='cuda:0'), grad: tensor([[-3.0210e-08,  6.9849e-09,  4.6566e-09,  ...,  1.7462e-10,
+          5.8208e-10,  6.1118e-09],
+        [ 5.5879e-08,  1.1234e-07,  7.6892e-08,  ...,  2.0373e-09,
+          9.3132e-10,  9.1153e-08],
+        [ 2.2934e-08,  4.6275e-08,  3.0850e-08,  ..., -4.6566e-10,
+          1.7462e-10,  1.5018e-08],
+        ...,
+        [ 2.0897e-08,  4.8312e-08,  3.1025e-08,  ..., -1.6298e-09,
+          3.4925e-10,  3.7893e-08],
+        [-2.6426e-07, -5.5507e-07, -3.7486e-07,  ...,  1.2806e-09,
+          1.1059e-09, -4.1048e-07],
+        [ 6.8976e-08,  9.8196e-08,  6.5076e-08,  ...,  2.9686e-09,
+          3.4925e-09,  7.5321e-08]], device='cuda:0')
+Epoch 413, bias, value: tensor([ 0.0182, -0.0291, -0.0075,  0.0140, -0.0016, -0.0153,  0.0048,  0.0158,
+        -0.0363,  0.0123], device='cuda:0'), grad: tensor([-1.6415e-07,  4.1816e-07,  1.0425e-07,  2.2445e-07,  1.8859e-08,
+         5.1269e-07,  1.6578e-07,  1.8650e-07, -1.9353e-06,  4.9034e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 412, time 217.61, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4372 re_mapping 0.0018 re_causal 0.0073 /// teacc 99.16 lr 0.00001000
+Epoch 414, weight, value: tensor([[ 0.0331, -0.1041, -0.0306,  ..., -0.1557, -0.1865, -0.1782],
+        [-0.1609,  0.0881, -0.1508,  ..., -0.2492, -0.2190, -0.2225],
+        [-0.1543, -0.2080, -0.2498,  ..., -0.2295, -0.1852,  0.1805],
+        ...,
+        [ 0.0916, -0.0816, -0.2113,  ...,  0.1137, -0.1912, -0.1640],
+        [ 0.1416,  0.1050,  0.1119,  ..., -0.2356, -0.1395,  0.0945],
+        [ 0.0852,  0.0642,  0.1346,  ...,  0.0577, -0.1040, -0.0194]],
+       device='cuda:0'), grad: tensor([[-2.7940e-09,  1.5716e-09,  9.8953e-10,  ...,  3.1432e-09,
+          6.9849e-10,  1.5134e-09],
+        [ 1.2980e-08, -2.4447e-09,  2.5029e-09,  ...,  1.5716e-08,
+          2.7358e-09,  6.8685e-09],
+        [ 1.3853e-08,  3.8999e-09,  8.7311e-10,  ...,  2.2177e-08,
+          2.6193e-09, -2.3283e-09],
+        ...,
+        [-2.9337e-08,  3.4051e-08,  2.2061e-08,  ..., -2.9395e-08,
+          1.6356e-08,  3.3178e-08],
+        [-4.1095e-08, -2.9395e-08, -2.8929e-08,  ...,  1.1642e-08,
+          1.2806e-09, -5.5006e-08],
+        [ 1.0943e-08, -3.1141e-08, -1.5076e-08,  ...,  2.7660e-07,
+          1.7998e-07,  5.4250e-08]], device='cuda:0')
+Epoch 414, bias, value: tensor([ 0.0182, -0.0291, -0.0074,  0.0140, -0.0016, -0.0153,  0.0048,  0.0158,
+        -0.0363,  0.0123], device='cuda:0'), grad: tensor([-1.1933e-08,  3.0617e-08,  6.8860e-08, -1.5483e-08, -7.6042e-07,
+         6.4203e-08,  4.2899e-08, -2.2352e-08, -1.0082e-07,  7.2084e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 413, time 217.27, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4214 re_mapping 0.0018 re_causal 0.0072 /// teacc 99.13 lr 0.00001000
+Epoch 415, weight, value: tensor([[ 0.0330, -0.1041, -0.0307,  ..., -0.1559, -0.1865, -0.1782],
+        [-0.1610,  0.0881, -0.1509,  ..., -0.2493, -0.2190, -0.2225],
+        [-0.1543, -0.2080, -0.2498,  ..., -0.2295, -0.1852,  0.1805],
+        ...,
+        [ 0.0916, -0.0816, -0.2115,  ...,  0.1137, -0.1913, -0.1641],
+        [ 0.1416,  0.1050,  0.1120,  ..., -0.2356, -0.1395,  0.0945],
+        [ 0.0852,  0.0642,  0.1346,  ...,  0.0577, -0.1040, -0.0194]],
+       device='cuda:0'), grad: tensor([[-2.5611e-09,  5.8208e-11,  0.0000e+00,  ...,  5.8208e-11,
+          5.8208e-11,  1.7462e-10],
+        [ 1.6298e-09, -1.1642e-10,  2.3283e-10,  ...,  2.0955e-09,
+          1.7462e-10,  4.8312e-09],
+        [ 2.0373e-09,  2.9104e-10,  0.0000e+00,  ...,  2.7940e-09,
+          0.0000e+00, -1.1700e-08],
+        ...,
+        [-8.1491e-10,  5.9372e-09,  4.0163e-09,  ...,  5.8208e-09,
+          5.8208e-11,  4.3074e-09],
+        [-5.8208e-11, -6.4028e-10, -7.5670e-10,  ...,  1.0477e-09,
+          1.1642e-10,  4.6566e-10],
+        [-2.3865e-09, -5.8790e-09, -5.2387e-09,  ..., -1.3795e-08,
+          4.0745e-10,  5.2387e-10]], device='cuda:0')
+Epoch 415, bias, value: tensor([ 0.0183, -0.0292, -0.0074,  0.0140, -0.0016, -0.0153,  0.0048,  0.0158,
+        -0.0363,  0.0123], device='cuda:0'), grad: tensor([-1.0128e-08,  1.7171e-08, -2.6543e-08,  9.4878e-09,  3.5507e-09,
+        -1.3271e-08,  1.1409e-08,  2.4738e-08,  1.3271e-08, -1.5832e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 414, time 217.54, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4527 re_mapping 0.0017 re_causal 0.0073 /// teacc 99.10 lr 0.00001000
+Epoch 416, weight, value: tensor([[ 0.0330, -0.1041, -0.0307,  ..., -0.1559, -0.1865, -0.1783],
+        [-0.1608,  0.0882, -0.1509,  ..., -0.2493, -0.2191, -0.2225],
+        [-0.1544, -0.2080, -0.2499,  ..., -0.2295, -0.1852,  0.1805],
+        ...,
+        [ 0.0916, -0.0816, -0.2116,  ...,  0.1137, -0.1913, -0.1641],
+        [ 0.1417,  0.1050,  0.1120,  ..., -0.2357, -0.1395,  0.0945],
+        [ 0.0852,  0.0642,  0.1347,  ...,  0.0577, -0.1041, -0.0194]],
+       device='cuda:0'), grad: tensor([[ 2.9104e-10,  5.8208e-10,  2.9104e-10,  ...,  6.4028e-10,
+          9.8953e-10,  1.2806e-09],
+        [ 4.4238e-09, -2.5029e-09,  1.2224e-09,  ...,  4.1327e-09,
+          4.6566e-10,  3.3760e-09],
+        [ 2.5611e-09,  1.2224e-09,  1.7462e-10,  ...,  3.1432e-09,
+          1.3970e-09, -3.2596e-09],
+        ...,
+        [-8.2073e-09,  5.5879e-09,  2.0955e-09,  ..., -7.1595e-09,
+          1.7462e-10,  1.1642e-09],
+        [-3.6089e-09, -5.5297e-09, -4.6566e-09,  ...,  4.3656e-09,
+          1.7462e-09, -4.4820e-09],
+        [-1.0652e-08, -2.2934e-08, -1.2922e-08,  ..., -3.0035e-08,
+         -6.9849e-10,  1.7462e-09]], device='cuda:0')
+Epoch 416, bias, value: tensor([ 0.0183, -0.0291, -0.0074,  0.0140, -0.0016, -0.0153,  0.0048,  0.0158,
+        -0.0363,  0.0123], device='cuda:0'), grad: tensor([ 5.8790e-09, -4.6566e-09,  1.9209e-09,  1.3271e-08,  7.9861e-08,
+         2.1479e-08, -2.5146e-08, -6.4028e-10,  6.4028e-10, -7.9221e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 415, time 217.69, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4335 re_mapping 0.0017 re_causal 0.0071 /// teacc 99.17 lr 0.00001000
+Epoch 417, weight, value: tensor([[ 0.0329, -0.1041, -0.0307,  ..., -0.1561, -0.1866, -0.1783],
+        [-0.1608,  0.0882, -0.1510,  ..., -0.2494, -0.2191, -0.2225],
+        [-0.1544, -0.2080, -0.2500,  ..., -0.2295, -0.1852,  0.1806],
+        ...,
+        [ 0.0916, -0.0816, -0.2117,  ...,  0.1137, -0.1914, -0.1642],
+        [ 0.1417,  0.1051,  0.1120,  ..., -0.2358, -0.1395,  0.0946],
+        [ 0.0852,  0.0642,  0.1348,  ...,  0.0577, -0.1041, -0.0194]],
+       device='cuda:0'), grad: tensor([[-2.9104e-10,  1.9791e-09,  1.1642e-09,  ...,  2.1537e-09,
+          1.5192e-08,  1.6880e-08],
+        [ 3.0850e-09, -3.7486e-07,  8.1491e-10,  ...,  2.1537e-09,
+          1.3388e-08,  1.6997e-08],
+        [ 1.6298e-09,  1.4203e-08,  1.1642e-10,  ...,  1.7462e-10,
+          1.4785e-08,  1.7288e-08],
+        ...,
+        [ 1.2631e-08,  3.8557e-07,  1.2165e-08,  ...,  2.6426e-08,
+          1.3970e-09,  1.8626e-09],
+        [-4.6566e-10,  1.3446e-08,  5.0641e-09,  ...,  1.0419e-08,
+          2.1502e-07,  2.4168e-07],
+        [-4.1735e-08, -5.1863e-08, -3.9581e-08,  ..., -1.6356e-08,
+          5.5355e-08,  8.1491e-09]], device='cuda:0')
+Epoch 417, bias, value: tensor([ 0.0183, -0.0291, -0.0074,  0.0140, -0.0016, -0.0153,  0.0048,  0.0158,
+        -0.0363,  0.0123], device='cuda:0'), grad: tensor([ 4.7497e-08, -1.7090e-06,  9.7032e-08, -1.9325e-08,  1.3481e-07,
+         6.3935e-07, -1.5637e-06,  1.7909e-06,  6.7567e-07, -9.4122e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 416, time 217.56, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4638 re_mapping 0.0018 re_causal 0.0076 /// teacc 99.18 lr 0.00001000
+Epoch 418, weight, value: tensor([[ 0.0329, -0.1041, -0.0307,  ..., -0.1561, -0.1866, -0.1783],
+        [-0.1609,  0.0882, -0.1510,  ..., -0.2494, -0.2191, -0.2225],
+        [-0.1544, -0.2080, -0.2500,  ..., -0.2295, -0.1852,  0.1806],
+        ...,
+        [ 0.0916, -0.0816, -0.2118,  ...,  0.1137, -0.1914, -0.1642],
+        [ 0.1417,  0.1051,  0.1121,  ..., -0.2358, -0.1395,  0.0946],
+        [ 0.0852,  0.0642,  0.1349,  ...,  0.0577, -0.1041, -0.0194]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-10,  5.8208e-11,  5.8208e-11,  ...,  1.7462e-10,
+          4.6566e-10,  3.6089e-09],
+        [ 1.3388e-09, -3.4925e-10,  5.8208e-11,  ...,  1.1642e-09,
+          1.2224e-09,  2.3108e-08],
+        [-2.8522e-09,  5.8208e-11,  0.0000e+00,  ...,  3.4925e-10,
+          8.1491e-10, -1.6298e-07],
+        ...,
+        [ 1.5716e-09,  1.6298e-09,  4.0745e-10,  ...,  2.0373e-09,
+          9.8953e-10,  2.1653e-08],
+        [ 5.2387e-10,  3.4925e-10,  1.1642e-10,  ...,  3.4925e-10,
+          9.3132e-10,  9.6974e-08],
+        [-1.0477e-09, -1.8044e-09, -1.2224e-09,  ...,  1.0012e-08,
+          1.3213e-08,  6.8685e-09]], device='cuda:0')
+Epoch 418, bias, value: tensor([ 0.0183, -0.0291, -0.0074,  0.0140, -0.0016, -0.0153,  0.0048,  0.0158,
+        -0.0363,  0.0123], device='cuda:0'), grad: tensor([ 1.6880e-08,  9.2841e-08, -7.1852e-07,  6.9733e-08, -2.2759e-08,
+         8.9640e-09,  1.3970e-09,  1.0210e-07,  4.3423e-07,  3.0326e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 417, time 217.91, cls_loss 0.0003 cls_loss_mapping 0.0002 cls_loss_causal 0.4302 re_mapping 0.0018 re_causal 0.0074 /// teacc 99.16 lr 0.00001000
+Epoch 419, weight, value: tensor([[ 0.0329, -0.1041, -0.0307,  ..., -0.1561, -0.1866, -0.1783],
+        [-0.1608,  0.0882, -0.1510,  ..., -0.2495, -0.2191, -0.2225],
+        [-0.1544, -0.2080, -0.2500,  ..., -0.2295, -0.1852,  0.1806],
+        ...,
+        [ 0.0916, -0.0816, -0.2118,  ...,  0.1137, -0.1914, -0.1642],
+        [ 0.1417,  0.1051,  0.1121,  ..., -0.2359, -0.1395,  0.0946],
+        [ 0.0852,  0.0642,  0.1349,  ...,  0.0577, -0.1041, -0.0194]],
+       device='cuda:0'), grad: tensor([[-5.9954e-09,  4.6566e-10,  3.4925e-10,  ...,  6.9849e-10,
+          1.5134e-09,  4.3074e-09],
+        [ 4.9477e-09,  1.9791e-09,  1.4552e-09,  ...,  8.5565e-09,
+          1.7462e-09,  7.9162e-09],
+        [ 5.7626e-09,  1.7462e-10,  5.8208e-11,  ...,  8.4983e-09,
+          9.8953e-10, -3.2480e-08],
+        ...,
+        [-1.7695e-08,  2.9686e-09,  1.9791e-09,  ..., -2.6252e-08,
+          5.2387e-10,  5.5879e-09],
+        [ 5.8208e-09,  2.4447e-08,  1.7404e-08,  ...,  1.3853e-08,
+          1.0128e-08,  1.6240e-08],
+        [-4.2492e-09, -7.5437e-08, -5.4075e-08,  ..., -2.8929e-08,
+          5.8208e-10,  1.9209e-09]], device='cuda:0')
+Epoch 419, bias, value: tensor([ 0.0183, -0.0291, -0.0074,  0.0140, -0.0016, -0.0153,  0.0048,  0.0158,
+        -0.0364,  0.0123], device='cuda:0'), grad: tensor([-1.3039e-08,  5.2503e-08, -8.6846e-08,  9.3540e-08,  2.8813e-08,
+         7.3109e-08, -7.7474e-08, -4.7265e-08,  9.9477e-08, -1.0699e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 418, time 217.83, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4217 re_mapping 0.0018 re_causal 0.0072 /// teacc 99.21 lr 0.00001000
+Epoch 420, weight, value: tensor([[ 0.0328, -0.1041, -0.0307,  ..., -0.1562, -0.1866, -0.1783],
+        [-0.1608,  0.0882, -0.1511,  ..., -0.2496, -0.2191, -0.2226],
+        [-0.1544, -0.2080, -0.2500,  ..., -0.2296, -0.1852,  0.1807],
+        ...,
+        [ 0.0916, -0.0816, -0.2119,  ...,  0.1137, -0.1914, -0.1642],
+        [ 0.1417,  0.1051,  0.1121,  ..., -0.2359, -0.1395,  0.0946],
+        [ 0.0852,  0.0642,  0.1350,  ...,  0.0577, -0.1041, -0.0194]],
+       device='cuda:0'), grad: tensor([[-2.0373e-09,  1.1642e-10,  0.0000e+00,  ...,  6.4028e-10,
+          1.6880e-09,  1.3970e-09],
+        [ 2.6776e-09, -2.0373e-09,  2.3283e-10,  ...,  5.0641e-09,
+          5.2387e-10,  5.9954e-09],
+        [ 3.8417e-09,  2.9104e-10,  5.8208e-11,  ...,  8.2655e-09,
+          6.4028e-10, -7.9744e-09],
+        ...,
+        [-1.4203e-08,  1.6880e-09,  1.7462e-10,  ..., -2.8289e-08,
+          1.7462e-10, -6.9849e-10],
+        [ 1.7462e-10, -5.8208e-10, -5.2387e-10,  ...,  1.6473e-08,
+          2.5611e-09,  2.6776e-09],
+        [ 5.2387e-09,  6.4028e-10,  5.8208e-11,  ...,  2.7590e-08,
+          1.4086e-08,  1.0943e-08]], device='cuda:0')
+Epoch 420, bias, value: tensor([ 0.0183, -0.0291, -0.0074,  0.0140, -0.0016, -0.0154,  0.0048,  0.0158,
+        -0.0364,  0.0123], device='cuda:0'), grad: tensor([ 4.0163e-09,  3.3993e-08,  5.9954e-09,  7.8755e-08, -1.6880e-08,
+        -4.2096e-07,  1.4459e-07, -5.8382e-08,  1.4924e-07,  8.9232e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 419, time 217.74, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.3967 re_mapping 0.0018 re_causal 0.0071 /// teacc 99.16 lr 0.00001000
+Epoch 421, weight, value: tensor([[ 0.0328, -0.1041, -0.0308,  ..., -0.1562, -0.1866, -0.1783],
+        [-0.1609,  0.0882, -0.1511,  ..., -0.2498, -0.2191, -0.2226],
+        [-0.1544, -0.2080, -0.2501,  ..., -0.2296, -0.1852,  0.1807],
+        ...,
+        [ 0.0916, -0.0816, -0.2119,  ...,  0.1137, -0.1915, -0.1643],
+        [ 0.1417,  0.1051,  0.1122,  ..., -0.2360, -0.1395,  0.0946],
+        [ 0.0852,  0.0642,  0.1350,  ...,  0.0577, -0.1041, -0.0194]],
+       device='cuda:0'), grad: tensor([[ 1.7462e-10,  4.0745e-10,  1.1642e-10,  ...,  1.7462e-10,
+          5.8208e-11,  2.3283e-10],
+        [ 3.0268e-09,  3.1432e-09,  2.2701e-09,  ...,  1.6298e-09,
+          1.1642e-10,  4.1910e-09],
+        [ 3.4925e-10,  2.7940e-09,  8.1491e-10,  ...,  2.0373e-09,
+          1.1642e-10, -3.2014e-09],
+        ...,
+        [-2.3283e-09,  3.7253e-09,  1.5134e-09,  ..., -5.2387e-09,
+          5.8208e-11,  3.3178e-09],
+        [-1.3039e-08, -1.4959e-08, -1.6182e-08,  ...,  9.2550e-09,
+          5.8208e-11, -2.1304e-08],
+        [ 3.8417e-09,  2.2701e-09,  1.8044e-09,  ...,  8.6147e-09,
+          1.3970e-09,  3.0850e-09]], device='cuda:0')
+Epoch 421, bias, value: tensor([ 0.0183, -0.0291, -0.0074,  0.0140, -0.0016, -0.0154,  0.0048,  0.0158,
+        -0.0364,  0.0123], device='cuda:0'), grad: tensor([ 2.9686e-09,  2.2934e-08, -1.1642e-09, -7.1595e-09,  9.8953e-10,
+        -1.8557e-07,  3.5274e-08,  2.0780e-08,  6.1933e-08,  5.9255e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 420, time 217.55, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4386 re_mapping 0.0017 re_causal 0.0073 /// teacc 99.19 lr 0.00001000
+Epoch 422, weight, value: tensor([[ 0.0329, -0.1042, -0.0308,  ..., -0.1562, -0.1866, -0.1783],
+        [-0.1609,  0.0882, -0.1511,  ..., -0.2499, -0.2191, -0.2226],
+        [-0.1544, -0.2080, -0.2501,  ..., -0.2296, -0.1852,  0.1807],
+        ...,
+        [ 0.0916, -0.0816, -0.2120,  ...,  0.1137, -0.1915, -0.1643],
+        [ 0.1418,  0.1051,  0.1122,  ..., -0.2361, -0.1395,  0.0946],
+        [ 0.0852,  0.0642,  0.1350,  ...,  0.0577, -0.1041, -0.0194]],
+       device='cuda:0'), grad: tensor([[ 7.5670e-10,  9.8953e-10,  5.2387e-10,  ...,  1.6298e-09,
+          1.3388e-09,  1.2806e-09],
+        [ 1.5134e-09, -5.8790e-09,  6.9849e-10,  ...,  2.9104e-09,
+          1.0477e-09,  2.2701e-09],
+        [ 3.4925e-10,  2.0373e-09,  0.0000e+00,  ..., -1.1642e-10,
+          4.0745e-10, -3.3760e-09],
+        ...,
+        [ 6.4028e-09,  1.3330e-08,  4.6566e-09,  ...,  1.0943e-08,
+          9.3132e-10,  1.1642e-09],
+        [ 1.2224e-09,  2.6193e-09,  6.4028e-10,  ...,  2.4447e-09,
+          5.1805e-09,  5.4133e-09],
+        [-6.3737e-08, -3.1316e-08, -4.1793e-08,  ..., -1.1519e-07,
+         -9.4878e-09, -6.1700e-09]], device='cuda:0')
+Epoch 422, bias, value: tensor([ 0.0183, -0.0291, -0.0074,  0.0140, -0.0016, -0.0154,  0.0048,  0.0158,
+        -0.0364,  0.0123], device='cuda:0'), grad: tensor([ 8.4983e-09, -1.6124e-08, -1.0477e-09, -1.2398e-08,  2.5867e-07,
+         9.3190e-08, -8.9058e-08,  5.6229e-08,  2.4098e-08, -2.9500e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 421, time 216.94, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4332 re_mapping 0.0017 re_causal 0.0072 /// teacc 99.19 lr 0.00001000
+Epoch 423, weight, value: tensor([[ 0.0329, -0.1041, -0.0308,  ..., -0.1562, -0.1866, -0.1783],
+        [-0.1610,  0.0882, -0.1512,  ..., -0.2500, -0.2191, -0.2226],
+        [-0.1544, -0.2080, -0.2501,  ..., -0.2296, -0.1852,  0.1808],
+        ...,
+        [ 0.0916, -0.0816, -0.2120,  ...,  0.1137, -0.1915, -0.1644],
+        [ 0.1418,  0.1051,  0.1122,  ..., -0.2362, -0.1395,  0.0946],
+        [ 0.0852,  0.0642,  0.1351,  ...,  0.0577, -0.1041, -0.0194]],
+       device='cuda:0'), grad: tensor([[-4.6566e-10,  2.4447e-09,  4.0745e-10,  ...,  1.9791e-09,
+          1.4831e-07,  1.1007e-07],
+        [ 3.6671e-09,  4.7730e-09,  1.4552e-09,  ...,  5.1223e-09,
+          5.7276e-08,  5.2678e-08],
+        [-4.8312e-09,  1.3388e-09,  1.7462e-10,  ...,  8.7311e-10,
+          7.5088e-08,  2.6019e-08],
+        ...,
+        [ 2.1537e-09,  1.0128e-08,  9.3132e-10,  ...,  1.5716e-09,
+          3.7835e-09,  1.3388e-08],
+        [-1.7462e-09,  6.8103e-09, -8.1491e-10,  ...,  9.3132e-10,
+          8.9058e-08,  6.5658e-08],
+        [-2.5320e-08, -1.3737e-07, -4.3539e-08,  ..., -1.9977e-07,
+         -5.2387e-09,  7.6834e-09]], device='cuda:0')
+Epoch 423, bias, value: tensor([ 0.0184, -0.0292, -0.0074,  0.0140, -0.0017, -0.0154,  0.0048,  0.0158,
+        -0.0364,  0.0123], device='cuda:0'), grad: tensor([ 8.4378e-07,  3.7998e-07,  3.1572e-07,  4.5809e-08,  1.0235e-06,
+         7.2978e-06, -9.9912e-06,  8.9523e-08,  4.7218e-07, -4.5216e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 422, time 217.58, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4455 re_mapping 0.0017 re_causal 0.0073 /// teacc 99.23 lr 0.00001000
+Epoch 424, weight, value: tensor([[ 0.0329, -0.1041, -0.0308,  ..., -0.1562, -0.1866, -0.1783],
+        [-0.1610,  0.0882, -0.1513,  ..., -0.2501, -0.2191, -0.2226],
+        [-0.1545, -0.2080, -0.2502,  ..., -0.2296, -0.1852,  0.1808],
+        ...,
+        [ 0.0916, -0.0816, -0.2121,  ...,  0.1137, -0.1916, -0.1644],
+        [ 0.1419,  0.1052,  0.1123,  ..., -0.2362, -0.1395,  0.0946],
+        [ 0.0852,  0.0642,  0.1351,  ...,  0.0577, -0.1041, -0.0194]],
+       device='cuda:0'), grad: tensor([[ 8.7311e-11,  3.4925e-10,  2.9104e-11,  ...,  8.7311e-11,
+          4.3656e-10,  1.2515e-09],
+        [ 3.4051e-09, -5.7335e-09,  1.0768e-09,  ...,  2.8813e-09,
+          6.4028e-10,  5.6782e-08],
+        [ 4.0454e-09,  3.7835e-09,  1.7462e-09,  ...,  3.0559e-09,
+          6.4028e-10, -8.2934e-07],
+        ...,
+        [-1.1147e-08,  7.4797e-09,  2.0664e-09,  ..., -1.9005e-08,
+          5.5297e-10,  7.1572e-07],
+        [-6.9849e-09, -1.1263e-08, -8.0909e-09,  ...,  3.5216e-09,
+          6.1118e-10,  2.9657e-08],
+        [ 4.6566e-09,  1.0477e-09,  2.3283e-10,  ...,  7.3051e-09,
+          1.0768e-09,  2.4738e-09]], device='cuda:0')
+Epoch 424, bias, value: tensor([ 0.0184, -0.0292, -0.0074,  0.0140, -0.0016, -0.0154,  0.0049,  0.0158,
+        -0.0364,  0.0123], device='cuda:0'), grad: tensor([ 5.6752e-09,  9.9593e-08, -2.2259e-06,  5.7393e-08,  1.2747e-08,
+         1.8161e-08, -8.7311e-09,  1.9297e-06,  9.5228e-08,  2.9540e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 423, time 217.74, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4330 re_mapping 0.0017 re_causal 0.0072 /// teacc 99.19 lr 0.00001000
+Epoch 425, weight, value: tensor([[ 0.0329, -0.1041, -0.0308,  ..., -0.1562, -0.1866, -0.1783],
+        [-0.1611,  0.0882, -0.1513,  ..., -0.2502, -0.2191, -0.2226],
+        [-0.1545, -0.2080, -0.2503,  ..., -0.2296, -0.1852,  0.1808],
+        ...,
+        [ 0.0916, -0.0816, -0.2121,  ...,  0.1137, -0.1917, -0.1645],
+        [ 0.1420,  0.1052,  0.1124,  ..., -0.2363, -0.1395,  0.0947],
+        [ 0.0852,  0.0642,  0.1351,  ...,  0.0577, -0.1042, -0.0195]],
+       device='cuda:0'), grad: tensor([[-2.4156e-09,  3.1432e-09,  0.0000e+00,  ...,  0.0000e+00,
+          5.8208e-10,  1.7171e-09],
+        [ 3.2654e-08,  4.7730e-09,  2.9104e-10,  ...,  1.5338e-08,
+          3.5216e-09,  3.0064e-08],
+        [ 1.4232e-08,  4.6857e-09,  8.7311e-11,  ...,  2.0867e-08,
+          2.7940e-09, -2.2497e-08],
+        ...,
+        [-8.5856e-09,  5.8790e-09,  1.4552e-10,  ..., -2.0571e-07,
+          2.5029e-09,  1.2456e-08],
+        [-6.9267e-08, -2.8085e-08, -5.8208e-10,  ...,  3.6642e-08,
+          9.8953e-10, -4.0891e-08],
+        [ 8.4692e-09,  1.3679e-09,  2.9104e-11,  ...,  4.7556e-08,
+          3.1810e-08,  2.3254e-08]], device='cuda:0')
+Epoch 425, bias, value: tensor([ 0.0184, -0.0292, -0.0074,  0.0140, -0.0016, -0.0154,  0.0049,  0.0158,
+        -0.0363,  0.0123], device='cuda:0'), grad: tensor([ 5.9081e-09,  1.5018e-07,  8.4692e-09,  4.6042e-08,  7.7649e-08,
+         1.6636e-07,  3.5507e-08, -5.0850e-07, -1.2759e-07,  1.5553e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 424, time 217.89, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.3938 re_mapping 0.0017 re_causal 0.0068 /// teacc 99.22 lr 0.00001000
+Epoch 426, weight, value: tensor([[ 0.0330, -0.1040, -0.0308,  ..., -0.1562, -0.1866, -0.1784],
+        [-0.1611,  0.0882, -0.1514,  ..., -0.2503, -0.2191, -0.2227],
+        [-0.1546, -0.2080, -0.2503,  ..., -0.2297, -0.1852,  0.1809],
+        ...,
+        [ 0.0916, -0.0816, -0.2123,  ...,  0.1137, -0.1918, -0.1646],
+        [ 0.1420,  0.1053,  0.1125,  ..., -0.2363, -0.1395,  0.0947],
+        [ 0.0852,  0.0642,  0.1351,  ...,  0.0577, -0.1042, -0.0195]],
+       device='cuda:0'), grad: tensor([[-6.3446e-09,  1.1059e-09,  6.1118e-10,  ...,  8.4401e-10,
+          6.8685e-09,  6.1409e-09],
+        [ 1.1496e-08, -1.6298e-09,  1.7462e-09,  ...,  1.2689e-08,
+          2.2119e-09,  3.9581e-09],
+        [ 1.9354e-08,  3.9581e-09,  2.0955e-09,  ...,  2.2788e-08,
+          1.5134e-09,  3.7835e-09],
+        ...,
+        [-5.4308e-08,  5.2387e-09,  1.5134e-09,  ..., -7.0198e-08,
+          2.7940e-09,  3.3178e-09],
+        [-3.5798e-08, -5.7335e-08, -4.0367e-08,  ...,  7.2760e-09,
+          5.4133e-09, -5.0932e-08],
+        [ 3.7311e-08,  2.1246e-08,  1.4581e-08,  ...,  8.5682e-08,
+          4.2754e-08,  4.0542e-08]], device='cuda:0')
+Epoch 426, bias, value: tensor([ 0.0185, -0.0292, -0.0073,  0.0140, -0.0016, -0.0154,  0.0049,  0.0158,
+        -0.0363,  0.0123], device='cuda:0'), grad: tensor([ 1.0186e-09,  3.2771e-08,  8.3004e-08,  2.0780e-08, -1.1193e-07,
+         1.0635e-07, -5.5763e-08, -1.8917e-07, -1.4016e-07,  2.6962e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 425, time 217.73, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4116 re_mapping 0.0017 re_causal 0.0069 /// teacc 99.22 lr 0.00001000
+Epoch 427, weight, value: tensor([[ 0.0330, -0.1041, -0.0309,  ..., -0.1562, -0.1866, -0.1784],
+        [-0.1611,  0.0883, -0.1515,  ..., -0.2504, -0.2191, -0.2227],
+        [-0.1545, -0.2080, -0.2504,  ..., -0.2297, -0.1852,  0.1809],
+        ...,
+        [ 0.0916, -0.0816, -0.2124,  ...,  0.1137, -0.1918, -0.1646],
+        [ 0.1421,  0.1053,  0.1126,  ..., -0.2364, -0.1396,  0.0947],
+        [ 0.0852,  0.0642,  0.1352,  ...,  0.0577, -0.1042, -0.0195]],
+       device='cuda:0'), grad: tensor([[-2.9104e-09,  6.4028e-10,  1.1642e-10,  ...,  2.9104e-10,
+         -6.9849e-10,  3.4925e-10],
+        [ 8.7311e-10, -1.1642e-10,  5.8208e-10,  ...,  3.7835e-09,
+          4.1910e-09,  2.7358e-09],
+        [ 4.0745e-10,  4.0163e-09,  6.9849e-10,  ...,  1.2806e-09,
+          9.3132e-10,  5.8208e-10],
+        ...,
+        [-8.7311e-10,  6.1118e-09,  9.8953e-10,  ..., -1.0477e-09,
+          1.1642e-09,  1.4552e-09],
+        [-1.6473e-08,  4.7730e-09, -7.1013e-09,  ...,  8.7311e-10,
+          6.9849e-10, -1.4261e-08],
+        [-8.7311e-10, -8.1491e-10, -9.3132e-10,  ...,  1.2747e-08,
+          1.2806e-08,  8.2655e-09]], device='cuda:0')
+Epoch 427, bias, value: tensor([ 0.0185, -0.0292, -0.0073,  0.0140, -0.0016, -0.0154,  0.0049,  0.0158,
+        -0.0363,  0.0123], device='cuda:0'), grad: tensor([-1.1700e-08,  4.5984e-09,  1.6007e-08, -6.1525e-08, -5.0466e-08,
+         6.1409e-08,  2.2468e-08,  2.4331e-08, -1.5891e-08,  3.1898e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 426, time 217.81, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.3918 re_mapping 0.0017 re_causal 0.0069 /// teacc 99.22 lr 0.00001000
+Epoch 428, weight, value: tensor([[ 0.0330, -0.1040, -0.0309,  ..., -0.1562, -0.1866, -0.1784],
+        [-0.1611,  0.0883, -0.1516,  ..., -0.2505, -0.2191, -0.2227],
+        [-0.1545, -0.2080, -0.2504,  ..., -0.2297, -0.1852,  0.1810],
+        ...,
+        [ 0.0916, -0.0816, -0.2124,  ...,  0.1137, -0.1919, -0.1648],
+        [ 0.1422,  0.1053,  0.1127,  ..., -0.2364, -0.1396,  0.0948],
+        [ 0.0852,  0.0642,  0.1352,  ...,  0.0577, -0.1042, -0.0196]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          6.4028e-10,  8.1491e-10],
+        [ 1.3388e-09, -1.0128e-08,  2.3283e-10,  ...,  2.5029e-09,
+          2.3283e-10,  3.4925e-09],
+        [ 9.8953e-09,  1.3970e-09,  5.8208e-11,  ...,  2.8929e-08,
+          5.8208e-11,  1.9209e-09],
+        ...,
+        [-1.1933e-08,  1.0128e-08,  1.1642e-10,  ..., -3.4692e-08,
+          0.0000e+00, -8.1491e-09],
+        [-5.8208e-10, -1.7462e-09, -9.3132e-10,  ...,  1.9209e-09,
+          1.3970e-09,  1.1059e-09],
+        [ 7.5670e-10,  1.7462e-10,  0.0000e+00,  ...,  1.9791e-09,
+          6.9849e-10,  6.4028e-10]], device='cuda:0')
+Epoch 428, bias, value: tensor([ 0.0185, -0.0292, -0.0073,  0.0140, -0.0016, -0.0154,  0.0050,  0.0158,
+        -0.0363,  0.0123], device='cuda:0'), grad: tensor([ 2.3865e-09, -1.9674e-08,  5.8557e-08,  4.0862e-08,  6.6939e-09,
+        -4.6042e-08,  1.8044e-09, -4.9011e-08,  2.0023e-08,  7.7998e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 427, time 217.53, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4085 re_mapping 0.0017 re_causal 0.0071 /// teacc 99.23 lr 0.00001000
+Epoch 429, weight, value: tensor([[ 0.0330, -0.1041, -0.0309,  ..., -0.1562, -0.1866, -0.1785],
+        [-0.1611,  0.0883, -0.1517,  ..., -0.2506, -0.2191, -0.2228],
+        [-0.1546, -0.2080, -0.2505,  ..., -0.2297, -0.1852,  0.1811],
+        ...,
+        [ 0.0916, -0.0817, -0.2125,  ...,  0.1137, -0.1919, -0.1648],
+        [ 0.1422,  0.1054,  0.1128,  ..., -0.2365, -0.1396,  0.0948],
+        [ 0.0852,  0.0642,  0.1353,  ...,  0.0577, -0.1042, -0.0196]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-10,  1.3970e-09,  5.8208e-10,  ...,  5.8208e-10,
+          6.9849e-10,  1.2806e-09],
+        [ 1.0652e-08,  4.3074e-09,  2.9686e-09,  ...,  5.7044e-09,
+          6.4028e-10,  6.3446e-09],
+        [ 7.5088e-09,  4.8894e-09,  1.2224e-09,  ...,  6.4611e-09,
+          5.2387e-10,  1.2224e-09],
+        ...,
+        [-1.5425e-08,  1.2864e-08,  2.9686e-09,  ..., -2.3108e-08,
+          5.8208e-10,  3.3178e-09],
+        [-4.7556e-08, -2.7241e-08, -2.3632e-08,  ...,  8.0909e-09,
+          2.0955e-09, -4.6392e-08],
+        [ 1.0594e-08,  2.7940e-09,  1.6298e-09,  ..., -2.4447e-09,
+          1.2806e-09,  1.0361e-08]], device='cuda:0')
+Epoch 429, bias, value: tensor([ 0.0185, -0.0292, -0.0073,  0.0140, -0.0016, -0.0155,  0.0050,  0.0158,
+        -0.0363,  0.0123], device='cuda:0'), grad: tensor([ 4.6566e-09,  4.2957e-08,  3.9581e-08, -3.4762e-07,  1.9441e-08,
+         3.7579e-07,  2.7358e-08, -4.2899e-08, -1.5600e-07,  4.9011e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 428, time 217.35, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4382 re_mapping 0.0017 re_causal 0.0071 /// teacc 99.20 lr 0.00001000
+Epoch 430, weight, value: tensor([[ 0.0330, -0.1041, -0.0310,  ..., -0.1562, -0.1867, -0.1785],
+        [-0.1611,  0.0883, -0.1518,  ..., -0.2507, -0.2192, -0.2228],
+        [-0.1547, -0.2080, -0.2505,  ..., -0.2297, -0.1852,  0.1811],
+        ...,
+        [ 0.0916, -0.0817, -0.2126,  ...,  0.1137, -0.1919, -0.1649],
+        [ 0.1423,  0.1054,  0.1129,  ..., -0.2366, -0.1396,  0.0949],
+        [ 0.0852,  0.0642,  0.1353,  ...,  0.0577, -0.1043, -0.0196]],
+       device='cuda:0'), grad: tensor([[-8.1491e-10,  1.0477e-09,  4.0745e-10,  ...,  3.4925e-10,
+          1.3970e-09,  1.8044e-09],
+        [ 1.0536e-08, -1.2806e-09,  4.4238e-09,  ...,  2.3632e-08,
+          2.2526e-08,  2.2643e-08],
+        [ 4.3656e-09,  4.7148e-09,  1.9791e-09,  ...,  1.1642e-09,
+          1.5716e-09, -1.6880e-09],
+        ...,
+        [ 3.7253e-09,  1.4086e-08,  1.8626e-09,  ...,  3.1432e-09,
+          2.5611e-09,  5.2969e-09],
+        [-3.7078e-08, -2.3050e-08, -1.5250e-08,  ...,  1.7462e-10,
+          3.6089e-09, -2.3050e-08],
+        [ 2.1537e-09,  2.0373e-09,  8.1491e-10,  ...,  1.6415e-08,
+          1.4028e-08,  8.1491e-09]], device='cuda:0')
+Epoch 430, bias, value: tensor([ 0.0185, -0.0292, -0.0073,  0.0140, -0.0017, -0.0155,  0.0050,  0.0158,
+        -0.0363,  0.0123], device='cuda:0'), grad: tensor([ 0.0000e+00,  3.7719e-08,  9.0222e-09, -2.6252e-08, -1.0757e-07,
+        -5.4482e-08,  1.1816e-07,  8.6264e-08, -9.1095e-08,  4.9185e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 429, time 217.30, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4442 re_mapping 0.0016 re_causal 0.0072 /// teacc 99.23 lr 0.00001000
+Epoch 431, weight, value: tensor([[ 0.0331, -0.1041, -0.0310,  ..., -0.1562, -0.1867, -0.1785],
+        [-0.1612,  0.0883, -0.1519,  ..., -0.2509, -0.2192, -0.2228],
+        [-0.1547, -0.2080, -0.2506,  ..., -0.2298, -0.1852,  0.1812],
+        ...,
+        [ 0.0916, -0.0817, -0.2128,  ...,  0.1137, -0.1919, -0.1650],
+        [ 0.1424,  0.1055,  0.1130,  ..., -0.2367, -0.1396,  0.0949],
+        [ 0.0852,  0.0642,  0.1354,  ...,  0.0577, -0.1043, -0.0196]],
+       device='cuda:0'), grad: tensor([[-1.6880e-09,  1.2224e-09,  2.3283e-10,  ...,  4.6566e-10,
+          9.8953e-10,  1.5134e-09],
+        [ 1.6298e-09, -9.4296e-09,  1.7462e-10,  ...,  1.9209e-09,
+          6.4028e-10,  9.1968e-09],
+        [ 1.1642e-10,  1.3970e-09,  0.0000e+00,  ...,  2.5029e-09,
+          2.3283e-10, -5.3027e-08],
+        ...,
+        [-3.8999e-09,  3.6671e-09,  1.0477e-09,  ..., -7.9162e-09,
+          2.3283e-10,  1.1642e-08],
+        [ 1.2224e-09,  5.9372e-09,  4.0745e-10,  ...,  1.4552e-09,
+          4.7148e-09,  2.9337e-08],
+        [-5.0059e-09, -9.3714e-09, -8.9640e-09,  ..., -1.1234e-08,
+         -2.4447e-09, -5.8208e-10]], device='cuda:0')
+Epoch 431, bias, value: tensor([ 0.0185, -0.0292, -0.0072,  0.0140, -0.0017, -0.0155,  0.0050,  0.0158,
+        -0.0363,  0.0123], device='cuda:0'), grad: tensor([ 2.8522e-09,  5.8208e-11, -1.7078e-07,  1.4063e-07,  4.4995e-08,
+        -1.2852e-07, -1.6007e-08,  4.0920e-08,  1.2456e-07, -2.0489e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 430, time 217.53, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.3994 re_mapping 0.0016 re_causal 0.0068 /// teacc 99.21 lr 0.00001000
+Epoch 432, weight, value: tensor([[ 0.0331, -0.1041, -0.0311,  ..., -0.1562, -0.1867, -0.1785],
+        [-0.1613,  0.0883, -0.1519,  ..., -0.2510, -0.2192, -0.2228],
+        [-0.1548, -0.2080, -0.2506,  ..., -0.2298, -0.1852,  0.1812],
+        ...,
+        [ 0.0916, -0.0817, -0.2129,  ...,  0.1137, -0.1919, -0.1651],
+        [ 0.1425,  0.1055,  0.1131,  ..., -0.2369, -0.1396,  0.0949],
+        [ 0.0852,  0.0642,  0.1355,  ...,  0.0577, -0.1043, -0.0196]],
+       device='cuda:0'), grad: tensor([[ 2.9104e-10,  6.4028e-10,  3.4925e-10,  ...,  5.8208e-10,
+          7.5670e-10,  1.0477e-09],
+        [ 1.1758e-08,  8.7311e-10,  2.5611e-09,  ...,  1.0303e-08,
+          5.8208e-10,  3.7835e-09],
+        [ 8.6147e-09,  1.1642e-09,  6.9849e-10,  ...,  9.9535e-09,
+          5.8208e-10,  1.1059e-09],
+        ...,
+        [-2.6892e-08,  6.2282e-09,  3.5507e-09,  ..., -3.8533e-08,
+          2.1537e-09,  5.4715e-09],
+        [-3.5565e-08, -3.2946e-08, -2.6484e-08,  ...,  3.8417e-09,
+         -1.3970e-09, -3.3819e-08],
+        [ 1.4727e-08, -1.8626e-09, -5.8208e-10,  ...,  1.8103e-08,
+          7.2760e-09,  2.0373e-09]], device='cuda:0')
+Epoch 432, bias, value: tensor([ 0.0185, -0.0292, -0.0072,  0.0140, -0.0017, -0.0155,  0.0051,  0.0158,
+        -0.0363,  0.0123], device='cuda:0'), grad: tensor([ 3.1781e-08,  5.1048e-08,  3.9174e-08,  1.1120e-06,  7.1595e-09,
+        -1.5860e-06,  3.5274e-07, -5.7044e-08, -6.8103e-09,  7.5263e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 431, time 217.44, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4280 re_mapping 0.0017 re_causal 0.0071 /// teacc 99.22 lr 0.00001000
+Epoch 433, weight, value: tensor([[ 0.0329, -0.1042, -0.0311,  ..., -0.1565, -0.1867, -0.1786],
+        [-0.1613,  0.0883, -0.1520,  ..., -0.2511, -0.2192, -0.2229],
+        [-0.1548, -0.2080, -0.2507,  ..., -0.2298, -0.1853,  0.1812],
+        ...,
+        [ 0.0917, -0.0817, -0.2129,  ...,  0.1137, -0.1920, -0.1651],
+        [ 0.1425,  0.1055,  0.1132,  ..., -0.2370, -0.1396,  0.0949],
+        [ 0.0852,  0.0642,  0.1356,  ...,  0.0577, -0.1043, -0.0197]],
+       device='cuda:0'), grad: tensor([[ 7.5670e-10,  3.4925e-10,  4.0745e-10,  ...,  1.8626e-09,
+          1.2224e-09,  1.3388e-09],
+        [ 8.0327e-09,  1.1642e-10,  4.6566e-10,  ...,  2.1188e-08,
+          1.4552e-09,  1.6298e-09],
+        [ 1.0303e-08,  5.2387e-10,  2.3283e-10,  ...,  2.8289e-08,
+          2.5029e-09,  1.8626e-09],
+        ...,
+        [-1.5832e-08,  1.9791e-09,  1.2224e-09,  ..., -6.5076e-08,
+         -3.7835e-09, -2.4447e-09],
+        [ 1.2806e-09, -1.6298e-09, -1.6880e-09,  ...,  4.7730e-09,
+          1.6880e-09, -2.9104e-10],
+        [-3.1432e-09, -3.7835e-09, -3.8999e-09,  ...,  1.0012e-08,
+          1.3097e-08,  4.0163e-09]], device='cuda:0')
+Epoch 433, bias, value: tensor([ 0.0184, -0.0292, -0.0072,  0.0140, -0.0017, -0.0155,  0.0051,  0.0158,
+        -0.0363,  0.0123], device='cuda:0'), grad: tensor([ 8.8476e-09,  8.7719e-08,  8.6613e-08,  4.9011e-08, -3.6089e-09,
+        -2.1830e-06,  8.0327e-09,  1.5479e-06,  3.9628e-07,  2.1770e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 432, time 217.83, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4209 re_mapping 0.0016 re_causal 0.0069 /// teacc 99.13 lr 0.00001000
+Epoch 434, weight, value: tensor([[ 0.0329, -0.1042, -0.0311,  ..., -0.1565, -0.1867, -0.1786],
+        [-0.1614,  0.0884, -0.1521,  ..., -0.2513, -0.2192, -0.2229],
+        [-0.1549, -0.2080, -0.2507,  ..., -0.2299, -0.1853,  0.1813],
+        ...,
+        [ 0.0917, -0.0817, -0.2130,  ...,  0.1137, -0.1921, -0.1652],
+        [ 0.1426,  0.1056,  0.1133,  ..., -0.2371, -0.1396,  0.0950],
+        [ 0.0852,  0.0642,  0.1356,  ...,  0.0577, -0.1043, -0.0197]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-09,  2.5611e-09,  9.3132e-10,  ...,  5.8208e-10,
+          4.0745e-09,  5.8208e-09],
+        [ 4.6566e-09,  8.4401e-09,  2.9104e-09,  ...,  9.3132e-09,
+          1.4028e-08,  1.8917e-08],
+        [ 5.7626e-09,  1.1816e-08,  2.7940e-09,  ...,  4.8312e-09,
+          7.3924e-09,  6.2282e-09],
+        ...,
+        [-1.6880e-09,  5.8208e-09,  1.7462e-09,  ...,  2.3865e-09,
+          5.5297e-09,  6.0536e-09],
+        [-2.8929e-08, -5.6403e-08, -2.3167e-08,  ...,  2.5029e-09,
+         -2.2002e-08, -8.1316e-08],
+        [-9.3132e-10,  2.1537e-09, -6.9849e-10,  ...,  5.6461e-09,
+          1.9732e-08,  1.8917e-08]], device='cuda:0')
+Epoch 434, bias, value: tensor([ 0.0184, -0.0292, -0.0072,  0.0140, -0.0017, -0.0155,  0.0051,  0.0158,
+        -0.0363,  0.0123], device='cuda:0'), grad: tensor([ 1.7637e-08,  7.0431e-08,  3.8650e-08, -2.2410e-08, -4.4354e-08,
+         6.0943e-08,  3.8825e-08,  2.2119e-08, -2.2794e-07,  5.4366e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 433, time 217.51, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4226 re_mapping 0.0016 re_causal 0.0070 /// teacc 99.13 lr 0.00001000
+Epoch 435, weight, value: tensor([[ 0.0329, -0.1041, -0.0311,  ..., -0.1565, -0.1868, -0.1787],
+        [-0.1614,  0.0883, -0.1522,  ..., -0.2514, -0.2192, -0.2229],
+        [-0.1550, -0.2080, -0.2508,  ..., -0.2299, -0.1853,  0.1813],
+        ...,
+        [ 0.0917, -0.0817, -0.2131,  ...,  0.1137, -0.1921, -0.1652],
+        [ 0.1426,  0.1056,  0.1134,  ..., -0.2372, -0.1396,  0.0950],
+        [ 0.0852,  0.0643,  0.1357,  ...,  0.0577, -0.1044, -0.0197]],
+       device='cuda:0'), grad: tensor([[-3.7835e-09,  6.9849e-10, -5.8208e-11,  ..., -2.3283e-10,
+          9.0804e-09,  9.4296e-09],
+        [ 4.5402e-09, -1.1758e-08,  2.9104e-09,  ...,  3.4925e-10,
+          9.3132e-09,  2.2643e-08],
+        [ 1.0361e-08,  2.6543e-08,  7.9162e-09,  ...,  2.3283e-10,
+          2.7940e-09,  4.0338e-08],
+        ...,
+        [ 4.1910e-09,  1.3388e-08,  2.5029e-09,  ...,  1.1642e-09,
+          1.1642e-10,  1.0419e-08],
+        [-2.0722e-08, -5.5530e-08, -2.0198e-08,  ...,  6.4028e-10,
+          2.1560e-07,  1.3155e-07],
+        [ 3.3760e-09,  1.9209e-09,  5.8208e-10,  ...,  1.9209e-09,
+          2.0955e-09,  3.7253e-09]], device='cuda:0')
+Epoch 435, bias, value: tensor([ 0.0185, -0.0293, -0.0072,  0.0140, -0.0017, -0.0155,  0.0051,  0.0158,
+        -0.0363,  0.0123], device='cuda:0'), grad: tensor([ 3.6671e-09, -2.0547e-08,  1.7928e-07,  1.3201e-07,  7.4564e-08,
+         1.6624e-07, -1.0030e-06,  9.4355e-08,  3.2037e-07,  6.6473e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 434, time 217.51, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4061 re_mapping 0.0016 re_causal 0.0069 /// teacc 99.19 lr 0.00001000
+Epoch 436, weight, value: tensor([[ 0.0328, -0.1042, -0.0311,  ..., -0.1567, -0.1868, -0.1787],
+        [-0.1615,  0.0883, -0.1522,  ..., -0.2516, -0.2192, -0.2230],
+        [-0.1551, -0.2081, -0.2508,  ..., -0.2300, -0.1853,  0.1813],
+        ...,
+        [ 0.0917, -0.0817, -0.2132,  ...,  0.1137, -0.1921, -0.1652],
+        [ 0.1427,  0.1057,  0.1134,  ..., -0.2374, -0.1396,  0.0951],
+        [ 0.0852,  0.0643,  0.1358,  ...,  0.0577, -0.1044, -0.0197]],
+       device='cuda:0'), grad: tensor([[ 1.7462e-10,  1.1642e-10,  0.0000e+00,  ...,  1.7462e-10,
+          1.3970e-09,  1.2806e-09],
+        [ 4.3074e-09, -5.8208e-10,  4.0745e-10,  ...,  3.8999e-09,
+          6.9849e-10,  3.3178e-09],
+        [ 4.4238e-09,  8.7311e-10,  1.1642e-10,  ...,  5.1805e-09,
+          5.2387e-10, -4.4820e-09],
+        ...,
+        [-1.5192e-08,  2.7358e-09,  2.3283e-10,  ..., -1.5192e-08,
+          1.0477e-09,  2.2119e-09],
+        [-2.7358e-09, -5.7626e-09, -2.2701e-09,  ...,  2.0373e-09,
+          2.0373e-09, -1.5134e-09],
+        [ 3.7253e-09,  2.9104e-10,  5.8208e-11,  ...,  6.8103e-09,
+          2.3283e-09,  1.3388e-09]], device='cuda:0')
+Epoch 436, bias, value: tensor([ 0.0184, -0.0293, -0.0072,  0.0140, -0.0017, -0.0155,  0.0051,  0.0158,
+        -0.0363,  0.0123], device='cuda:0'), grad: tensor([ 4.7148e-09,  1.8743e-08,  5.0059e-09,  2.4331e-08, -5.5879e-09,
+         1.6531e-08, -2.0547e-08, -4.9127e-08,  0.0000e+00,  2.2817e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 435, time 217.61, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.3804 re_mapping 0.0016 re_causal 0.0067 /// teacc 99.18 lr 0.00001000
+Epoch 437, weight, value: tensor([[ 0.0328, -0.1042, -0.0312,  ..., -0.1567, -0.1868, -0.1787],
+        [-0.1616,  0.0883, -0.1523,  ..., -0.2517, -0.2192, -0.2230],
+        [-0.1550, -0.2081, -0.2509,  ..., -0.2300, -0.1853,  0.1814],
+        ...,
+        [ 0.0917, -0.0817, -0.2133,  ...,  0.1137, -0.1922, -0.1653],
+        [ 0.1427,  0.1057,  0.1134,  ..., -0.2375, -0.1396,  0.0951],
+        [ 0.0852,  0.0643,  0.1359,  ...,  0.0577, -0.1044, -0.0197]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  9.3132e-10,  4.6566e-10,  ...,  1.8626e-09,
+          3.4925e-10,  6.4028e-10],
+        [ 3.5507e-09,  6.5775e-09,  1.5134e-09,  ...,  3.5507e-09,
+          8.1491e-10,  1.6182e-08],
+        [-3.0850e-09,  2.4389e-08,  4.8894e-09,  ...,  9.3132e-10,
+          5.2387e-10,  4.7323e-08],
+        ...,
+        [ 7.3924e-09,  1.2340e-08,  4.1910e-09,  ...,  1.5716e-08,
+          9.3132e-10,  1.0303e-08],
+        [ 4.4820e-09, -4.1386e-08, -6.2282e-09,  ...,  7.2760e-09,
+          4.5984e-09, -9.7381e-08],
+        [-2.9628e-08, -3.2305e-08, -1.5891e-08,  ..., -5.3551e-08,
+          6.2864e-09, -8.7311e-10]], device='cuda:0')
+Epoch 437, bias, value: tensor([ 0.0184, -0.0293, -0.0072,  0.0140, -0.0017, -0.0156,  0.0051,  0.0158,
+        -0.0363,  0.0123], device='cuda:0'), grad: tensor([ 6.2282e-09,  5.0466e-08,  1.0349e-07,  1.6415e-08,  7.3458e-08,
+        -9.2899e-08,  1.0029e-07,  6.8510e-08, -1.6741e-07, -1.4447e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 436, time 217.86, cls_loss 0.0003 cls_loss_mapping 0.0002 cls_loss_causal 0.4107 re_mapping 0.0016 re_causal 0.0069 /// teacc 99.14 lr 0.00001000
+Epoch 438, weight, value: tensor([[ 0.0328, -0.1042, -0.0312,  ..., -0.1568, -0.1868, -0.1787],
+        [-0.1616,  0.0884, -0.1523,  ..., -0.2518, -0.2192, -0.2230],
+        [-0.1551, -0.2081, -0.2509,  ..., -0.2300, -0.1853,  0.1814],
+        ...,
+        [ 0.0917, -0.0817, -0.2134,  ...,  0.1137, -0.1922, -0.1654],
+        [ 0.1427,  0.1057,  0.1135,  ..., -0.2376, -0.1396,  0.0951],
+        [ 0.0852,  0.0643,  0.1360,  ...,  0.0577, -0.1044, -0.0198]],
+       device='cuda:0'), grad: tensor([[ 4.0745e-10,  2.0955e-09,  2.3283e-10,  ...,  3.4925e-10,
+          6.9849e-10,  9.8953e-10],
+        [ 5.1223e-09, -8.9873e-08,  9.8953e-10,  ..., -1.0477e-09,
+          1.1642e-10, -5.1805e-09],
+        [ 1.0594e-08,  1.1001e-08,  1.0477e-09,  ...,  1.2165e-08,
+          5.8208e-11,  1.3970e-09],
+        ...,
+        [-3.8417e-09,  8.9582e-08,  3.8999e-09,  ..., -3.1432e-09,
+          0.0000e+00,  6.3446e-09],
+        [-1.5367e-08, -1.4086e-08, -1.2456e-08,  ...,  3.3760e-09,
+          7.5670e-10, -1.9209e-08],
+        [-3.7253e-09,  1.6531e-08, -1.1059e-09,  ..., -1.2806e-08,
+          0.0000e+00,  5.9954e-09]], device='cuda:0')
+Epoch 438, bias, value: tensor([ 0.0184, -0.0293, -0.0072,  0.0140, -0.0017, -0.0156,  0.0051,  0.0158,
+        -0.0363,  0.0123], device='cuda:0'), grad: tensor([ 9.1386e-09, -2.7264e-07,  7.2760e-08, -4.6275e-08,  1.6124e-08,
+         1.1234e-08,  4.1910e-09,  1.9558e-07, -3.0734e-08,  5.1339e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 437, time 217.68, cls_loss 0.0003 cls_loss_mapping 0.0002 cls_loss_causal 0.4306 re_mapping 0.0016 re_causal 0.0070 /// teacc 99.20 lr 0.00001000
+Epoch 439, weight, value: tensor([[ 0.0326, -0.1044, -0.0312,  ..., -0.1570, -0.1868, -0.1788],
+        [-0.1618,  0.0884, -0.1524,  ..., -0.2521, -0.2193, -0.2230],
+        [-0.1551, -0.2081, -0.2510,  ..., -0.2300, -0.1853,  0.1815],
+        ...,
+        [ 0.0917, -0.0817, -0.2135,  ...,  0.1137, -0.1922, -0.1654],
+        [ 0.1428,  0.1057,  0.1135,  ..., -0.2377, -0.1396,  0.0952],
+        [ 0.0853,  0.0643,  0.1361,  ...,  0.0577, -0.1044, -0.0198]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  2.5611e-09,  5.2387e-10,  ...,  8.7311e-10,
+          3.2713e-08,  1.6589e-08],
+        [ 3.4925e-09, -6.9267e-08,  1.4552e-09,  ...,  1.5716e-09,
+          2.2119e-09, -5.9546e-08],
+        [ 8.1491e-10,  8.2655e-09,  2.9104e-10,  ...,  2.3283e-10,
+          6.9849e-10,  7.1595e-09],
+        ...,
+        [ 3.5507e-09,  6.9267e-09,  3.3178e-09,  ...,  5.8208e-09,
+          5.2387e-10,  1.8044e-09],
+        [-9.3132e-09,  1.0012e-08, -1.6880e-09,  ...,  2.1537e-09,
+          3.6089e-09,  9.0222e-09],
+        [-1.0419e-08, -1.7812e-08, -1.3970e-08,  ..., -1.9150e-08,
+          4.6566e-09,  2.5611e-09]], device='cuda:0')
+Epoch 439, bias, value: tensor([ 0.0183, -0.0294, -0.0072,  0.0140, -0.0017, -0.0156,  0.0052,  0.0158,
+        -0.0363,  0.0123], device='cuda:0'), grad: tensor([ 8.5798e-08, -2.3074e-07,  3.0675e-08, -3.4343e-09,  7.0140e-08,
+         3.1607e-08,  2.8871e-08,  3.0093e-08,  4.4471e-08, -6.6764e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 438, time 217.64, cls_loss 0.0003 cls_loss_mapping 0.0002 cls_loss_causal 0.4185 re_mapping 0.0016 re_causal 0.0070 /// teacc 99.23 lr 0.00001000
+Epoch 440, weight, value: tensor([[ 0.0327, -0.1044, -0.0313,  ..., -0.1570, -0.1868, -0.1788],
+        [-0.1618,  0.0884, -0.1525,  ..., -0.2523, -0.2193, -0.2231],
+        [-0.1552, -0.2081, -0.2510,  ..., -0.2301, -0.1853,  0.1815],
+        ...,
+        [ 0.0917, -0.0817, -0.2136,  ...,  0.1137, -0.1922, -0.1654],
+        [ 0.1428,  0.1057,  0.1135,  ..., -0.2379, -0.1397,  0.0952],
+        [ 0.0853,  0.0643,  0.1362,  ...,  0.0577, -0.1044, -0.0198]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-10,  2.3283e-10,  5.8208e-11,  ...,  1.7462e-10,
+          1.5134e-09,  1.3388e-09],
+        [ 5.0059e-09, -3.3760e-09,  5.8208e-11,  ...,  3.9581e-09,
+          8.1491e-10,  3.6089e-09],
+        [ 5.1805e-09,  7.5670e-10,  0.0000e+00,  ...,  6.3446e-09,
+          4.6566e-10, -5.2387e-10],
+        ...,
+        [-9.8953e-09,  3.7253e-09,  4.0745e-10,  ..., -1.4668e-08,
+          0.0000e+00,  1.2806e-09],
+        [-1.0768e-08, -4.5402e-09,  1.7462e-10,  ...,  2.0955e-09,
+          8.0327e-09,  8.1491e-10],
+        [ 2.3283e-09, -4.0745e-10, -6.4028e-10,  ...,  2.7940e-09,
+          1.7462e-10,  2.9104e-10]], device='cuda:0')
+Epoch 440, bias, value: tensor([ 0.0183, -0.0294, -0.0072,  0.0140, -0.0017, -0.0156,  0.0052,  0.0158,
+        -0.0363,  0.0123], device='cuda:0'), grad: tensor([ 4.4820e-09,  7.5670e-09,  1.8510e-08,  4.4820e-09,  1.5076e-08,
+         6.1351e-08, -5.7567e-08, -2.4214e-08, -1.7055e-08,  9.4878e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 439, time 217.68, cls_loss 0.0003 cls_loss_mapping 0.0002 cls_loss_causal 0.4060 re_mapping 0.0016 re_causal 0.0069 /// teacc 99.22 lr 0.00001000
+Epoch 441, weight, value: tensor([[ 0.0327, -0.1044, -0.0313,  ..., -0.1570, -0.1869, -0.1788],
+        [-0.1619,  0.0884, -0.1526,  ..., -0.2524, -0.2193, -0.2231],
+        [-0.1553, -0.2081, -0.2511,  ..., -0.2301, -0.1853,  0.1816],
+        ...,
+        [ 0.0917, -0.0817, -0.2137,  ...,  0.1137, -0.1923, -0.1655],
+        [ 0.1430,  0.1058,  0.1136,  ..., -0.2380, -0.1397,  0.0952],
+        [ 0.0853,  0.0643,  0.1363,  ...,  0.0577, -0.1044, -0.0198]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  5.2387e-10,  8.7311e-10,  ...,  5.8208e-11,
+          4.8312e-09,  4.7148e-09],
+        [ 2.7940e-09, -2.2119e-09,  5.2387e-10,  ...,  3.3178e-09,
+          2.5611e-09,  2.3865e-09],
+        [ 3.4925e-09,  3.6089e-09,  1.7462e-10,  ...,  4.7148e-09,
+          4.6566e-10,  7.5670e-10],
+        ...,
+        [-7.1595e-09,  6.2864e-09,  5.8208e-11,  ..., -1.0361e-08,
+          1.1642e-10,  8.7311e-10],
+        [-2.0373e-09, -1.2806e-09,  2.0955e-09,  ...,  6.9849e-10,
+          1.4785e-08,  1.1467e-08],
+        [ 1.7462e-09,  6.9849e-10,  0.0000e+00,  ...,  2.3283e-09,
+          4.0745e-10,  3.4925e-10]], device='cuda:0')
+Epoch 441, bias, value: tensor([ 0.0183, -0.0294, -0.0072,  0.0140, -0.0017, -0.0156,  0.0052,  0.0158,
+        -0.0363,  0.0123], device='cuda:0'), grad: tensor([ 2.0023e-08, -3.7835e-09,  2.7183e-08, -2.4738e-08, -1.3039e-08,
+        -9.3947e-08, -1.5658e-08,  4.5984e-09,  1.0186e-07,  1.1991e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 440, time 217.50, cls_loss 0.0003 cls_loss_mapping 0.0002 cls_loss_causal 0.4146 re_mapping 0.0016 re_causal 0.0069 /// teacc 99.23 lr 0.00001000
+Epoch 442, weight, value: tensor([[ 0.0327, -0.1045, -0.0314,  ..., -0.1570, -0.1869, -0.1789],
+        [-0.1620,  0.0884, -0.1527,  ..., -0.2524, -0.2193, -0.2231],
+        [-0.1554, -0.2081, -0.2511,  ..., -0.2302, -0.1853,  0.1816],
+        ...,
+        [ 0.0917, -0.0817, -0.2138,  ...,  0.1137, -0.1924, -0.1655],
+        [ 0.1431,  0.1058,  0.1137,  ..., -0.2381, -0.1397,  0.0953],
+        [ 0.0853,  0.0643,  0.1364,  ...,  0.0577, -0.1045, -0.0198]],
+       device='cuda:0'), grad: tensor([[-9.3714e-09,  7.5670e-10,  4.6566e-10,  ...,  1.1059e-09,
+          7.0431e-09,  5.7626e-09],
+        [ 4.1910e-09,  6.2864e-09,  2.9104e-10,  ...,  2.1362e-08,
+          1.8685e-08,  4.9477e-08],
+        [ 1.3388e-09,  2.3283e-09,  1.1642e-10,  ...,  2.6776e-09,
+          5.8208e-10, -8.3644e-08],
+        ...,
+        [-7.7416e-09,  5.0641e-09,  2.4447e-09,  ..., -8.8476e-09,
+          4.6566e-10,  1.4086e-08],
+        [ 5.1805e-09,  6.4028e-10, -5.2387e-10,  ...,  6.6357e-09,
+          2.5029e-09,  9.5461e-09],
+        [-1.0419e-08, -4.7730e-09, -7.7416e-09,  ..., -4.0163e-09,
+          1.2456e-08,  6.5775e-09]], device='cuda:0')
+Epoch 442, bias, value: tensor([ 0.0184, -0.0294, -0.0072,  0.0140, -0.0017, -0.0156,  0.0051,  0.0158,
+        -0.0363,  0.0123], device='cuda:0'), grad: tensor([-3.2014e-09,  1.9616e-07, -2.7963e-07,  3.4343e-09, -3.1956e-08,
+         7.3342e-08, -2.5844e-08,  3.0734e-08,  6.5542e-08, -8.7311e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+---------------------saving model at epoch 441----------------------------------------------------
+epoch 441, time 218.38, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4096 re_mapping 0.0016 re_causal 0.0069 /// teacc 99.24 lr 0.00001000
+Epoch 443, weight, value: tensor([[ 0.0328, -0.1045, -0.0314,  ..., -0.1570, -0.1869, -0.1789],
+        [-0.1620,  0.0884, -0.1528,  ..., -0.2525, -0.2193, -0.2232],
+        [-0.1555, -0.2081, -0.2512,  ..., -0.2302, -0.1853,  0.1816],
+        ...,
+        [ 0.0917, -0.0817, -0.2139,  ...,  0.1137, -0.1924, -0.1656],
+        [ 0.1432,  0.1059,  0.1139,  ..., -0.2382, -0.1396,  0.0954],
+        [ 0.0853,  0.0643,  0.1365,  ...,  0.0577, -0.1045, -0.0198]],
+       device='cuda:0'), grad: tensor([[ 1.7462e-09,  2.4447e-09,  1.1059e-09,  ...,  3.8417e-09,
+          4.6566e-10,  2.3283e-10],
+        [ 1.4144e-08, -1.3912e-08,  7.9162e-09,  ...,  3.9057e-08,
+          8.7311e-10, -4.1910e-09],
+        [ 1.8044e-09,  2.0955e-08,  4.6566e-10,  ...,  2.6193e-09,
+          5.8208e-10,  3.3760e-09],
+        ...,
+        [ 8.2480e-08,  8.9232e-08,  6.2806e-08,  ...,  1.2876e-07,
+          1.9034e-08,  3.0268e-09],
+        [ 1.2806e-09,  1.3970e-09,  1.1059e-09,  ...,  7.4506e-09,
+          1.2806e-09, -2.9686e-09],
+        [-1.3201e-07, -1.4307e-07, -9.2783e-08,  ..., -2.5402e-07,
+         -1.6240e-08,  3.5507e-09]], device='cuda:0')
+Epoch 443, bias, value: tensor([ 0.0184, -0.0294, -0.0072,  0.0140, -0.0017, -0.0156,  0.0051,  0.0158,
+        -0.0362,  0.0123], device='cuda:0'), grad: tensor([ 1.3679e-08, -2.9511e-08,  9.4820e-08,  6.5193e-09,  1.9907e-07,
+         1.1642e-08,  1.0303e-08,  4.5914e-07,  1.9383e-08, -7.6788e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 442, time 217.68, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4081 re_mapping 0.0016 re_causal 0.0067 /// teacc 99.21 lr 0.00001000
+Epoch 444, weight, value: tensor([[ 0.0327, -0.1046, -0.0315,  ..., -0.1570, -0.1869, -0.1789],
+        [-0.1622,  0.0884, -0.1529,  ..., -0.2528, -0.2193, -0.2232],
+        [-0.1555, -0.2081, -0.2512,  ..., -0.2302, -0.1853,  0.1817],
+        ...,
+        [ 0.0917, -0.0817, -0.2141,  ...,  0.1137, -0.1925, -0.1657],
+        [ 0.1434,  0.1060,  0.1141,  ..., -0.2383, -0.1396,  0.0955],
+        [ 0.0853,  0.0643,  0.1366,  ...,  0.0577, -0.1045, -0.0199]],
+       device='cuda:0'), grad: tensor([[ 4.0745e-10,  1.1642e-09,  1.7462e-10,  ...,  6.4028e-10,
+          3.7253e-09,  2.6776e-09],
+        [ 2.9686e-09, -1.8626e-08,  6.4028e-10,  ...,  2.2701e-09,
+          1.5134e-09,  2.5611e-09],
+        [ 2.1537e-09,  9.4180e-08,  4.0745e-10,  ...,  1.3388e-09,
+          2.3865e-09,  2.7358e-09],
+        ...,
+        [ 2.0780e-08,  1.4284e-07,  5.6461e-09,  ...,  3.9581e-08,
+          5.8208e-11,  4.0745e-10],
+        [-3.2014e-09,  1.2922e-08, -1.4552e-09,  ...,  1.6880e-09,
+          6.9267e-09,  9.3132e-10],
+        [-2.4971e-08, -1.8394e-08, -6.6939e-09,  ..., -4.8254e-08,
+          2.3283e-10,  1.7462e-10]], device='cuda:0')
+Epoch 444, bias, value: tensor([ 0.0183, -0.0294, -0.0072,  0.0140, -0.0017, -0.0156,  0.0051,  0.0158,
+        -0.0362,  0.0123], device='cuda:0'), grad: tensor([ 1.4377e-08, -8.9174e-08,  3.3807e-07, -7.6368e-07,  5.4541e-08,
+         1.4727e-08, -9.2841e-08,  5.2666e-07,  1.0460e-07, -8.7894e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+---------------------saving model at epoch 443----------------------------------------------------
+epoch 443, time 217.94, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4626 re_mapping 0.0016 re_causal 0.0074 /// teacc 99.25 lr 0.00001000
+Epoch 445, weight, value: tensor([[ 0.0328, -0.1046, -0.0316,  ..., -0.1570, -0.1869, -0.1789],
+        [-0.1624,  0.0884, -0.1530,  ..., -0.2530, -0.2194, -0.2232],
+        [-0.1556, -0.2081, -0.2513,  ..., -0.2303, -0.1853,  0.1817],
+        ...,
+        [ 0.0917, -0.0817, -0.2142,  ...,  0.1138, -0.1925, -0.1657],
+        [ 0.1435,  0.1061,  0.1141,  ..., -0.2385, -0.1396,  0.0956],
+        [ 0.0853,  0.0643,  0.1367,  ...,  0.0577, -0.1046, -0.0199]],
+       device='cuda:0'), grad: tensor([[-6.2864e-09,  1.1059e-09,  1.1642e-10,  ...,  7.5670e-10,
+          5.8208e-10,  1.9791e-09],
+        [ 3.0268e-09, -1.0477e-08,  5.2387e-10,  ...,  2.9104e-09,
+          2.2701e-09,  1.4552e-08],
+        [-1.5134e-09, -2.2119e-09,  2.3283e-10,  ...,  1.8626e-09,
+          9.3132e-10, -4.9826e-08],
+        ...,
+        [ 6.0536e-09,  1.2631e-08,  4.0745e-09,  ...,  6.6357e-09,
+          2.7358e-09,  2.5320e-08],
+        [-8.0327e-09, -8.8476e-09, -1.8044e-09,  ...,  2.6776e-09,
+          1.3388e-09, -4.4238e-09],
+        [-3.6962e-08, -1.3853e-08, -3.0908e-08,  ..., -1.4610e-08,
+          2.6776e-08, -6.0536e-09]], device='cuda:0')
+Epoch 445, bias, value: tensor([ 0.0184, -0.0295, -0.0072,  0.0140, -0.0017, -0.0156,  0.0051,  0.0158,
+        -0.0362,  0.0123], device='cuda:0'), grad: tensor([-1.4144e-08,  1.7462e-10, -1.8138e-07,  4.7788e-08,  1.1874e-08,
+        -2.3458e-08,  8.1956e-08,  1.3667e-07,  4.5984e-09, -3.8999e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 444, time 217.65, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4056 re_mapping 0.0016 re_causal 0.0067 /// teacc 99.21 lr 0.00001000
+Epoch 446, weight, value: tensor([[ 0.0328, -0.1046, -0.0316,  ..., -0.1570, -0.1869, -0.1790],
+        [-0.1624,  0.0885, -0.1530,  ..., -0.2530, -0.2194, -0.2233],
+        [-0.1556, -0.2081, -0.2513,  ..., -0.2303, -0.1853,  0.1818],
+        ...,
+        [ 0.0917, -0.0817, -0.2143,  ...,  0.1138, -0.1926, -0.1658],
+        [ 0.1435,  0.1061,  0.1142,  ..., -0.2386, -0.1396,  0.0957],
+        [ 0.0853,  0.0643,  0.1367,  ...,  0.0577, -0.1046, -0.0200]],
+       device='cuda:0'), grad: tensor([[-1.0477e-09,  3.0850e-09,  0.0000e+00,  ...,  2.9104e-10,
+          1.7462e-10,  1.1642e-10],
+        [ 3.4925e-10, -8.2655e-08,  1.1642e-10,  ...,  5.2387e-10,
+          3.4925e-10,  6.4028e-10],
+        [ 2.3283e-10,  2.9104e-09,  0.0000e+00,  ...,  2.9104e-10,
+          2.9104e-10,  1.1642e-10],
+        ...,
+        [ 8.1491e-10,  5.4482e-08,  5.8208e-10,  ...,  3.1432e-09,
+          1.1642e-09,  6.9849e-10],
+        [ 3.4925e-10,  1.3271e-08,  1.7462e-10,  ...,  5.2387e-10,
+          1.7462e-10,  2.3283e-10],
+        [-1.5134e-09,  4.1327e-09, -1.2806e-09,  ...,  1.0827e-08,
+          1.2398e-08,  5.3551e-09]], device='cuda:0')
+Epoch 446, bias, value: tensor([ 0.0184, -0.0295, -0.0071,  0.0140, -0.0017, -0.0156,  0.0051,  0.0158,
+        -0.0362,  0.0123], device='cuda:0'), grad: tensor([ 5.7044e-09, -3.4622e-07,  1.4028e-08,  7.6252e-09, -2.3923e-08,
+         1.2340e-08,  7.7416e-09,  2.3213e-07,  5.6345e-08,  5.1688e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 445, time 217.68, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4211 re_mapping 0.0016 re_causal 0.0068 /// teacc 99.20 lr 0.00001000
+Epoch 447, weight, value: tensor([[ 0.0328, -0.1047, -0.0317,  ..., -0.1572, -0.1869, -0.1790],
+        [-0.1625,  0.0885, -0.1531,  ..., -0.2531, -0.2194, -0.2233],
+        [-0.1556, -0.2082, -0.2514,  ..., -0.2303, -0.1853,  0.1819],
+        ...,
+        [ 0.0917, -0.0817, -0.2145,  ...,  0.1138, -0.1927, -0.1659],
+        [ 0.1437,  0.1063,  0.1145,  ..., -0.2388, -0.1396,  0.0958],
+        [ 0.0853,  0.0643,  0.1368,  ...,  0.0577, -0.1047, -0.0200]],
+       device='cuda:0'), grad: tensor([[-8.4168e-08,  3.5798e-09,  5.8208e-11,  ..., -4.0163e-09,
+          1.4843e-09, -2.9278e-08],
+        [ 6.6357e-09, -1.6851e-08,  1.7171e-09,  ...,  1.3795e-08,
+          2.1013e-08,  2.6484e-08],
+        [ 1.3504e-08,  1.2515e-09,  1.1642e-10,  ...,  3.1141e-09,
+          3.6671e-09,  2.8231e-09],
+        ...,
+        [ 5.6752e-09,  1.6909e-08,  1.2515e-09,  ...,  4.5402e-09,
+          2.3283e-10,  3.2014e-09],
+        [-1.0128e-08, -4.5926e-08, -1.2311e-08,  ...,  5.8208e-10,
+         -9.0222e-10, -6.5193e-08],
+        [ 9.6625e-09, -1.3970e-09, -8.7311e-10,  ..., -1.5716e-09,
+          3.4634e-09,  6.9558e-09]], device='cuda:0')
+Epoch 447, bias, value: tensor([ 0.0183, -0.0295, -0.0071,  0.0140, -0.0017, -0.0157,  0.0051,  0.0158,
+        -0.0362,  0.0123], device='cuda:0'), grad: tensor([-6.3656e-07,  6.4028e-09,  1.0582e-07,  2.7008e-08, -1.2405e-06,
+         1.5309e-07,  1.5628e-06,  8.9407e-08, -1.3481e-07,  9.5461e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 446, time 217.63, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4311 re_mapping 0.0016 re_causal 0.0069 /// teacc 99.22 lr 0.00001000
+Epoch 448, weight, value: tensor([[ 0.0328, -0.1047, -0.0317,  ..., -0.1572, -0.1869, -0.1790],
+        [-0.1626,  0.0885, -0.1532,  ..., -0.2532, -0.2194, -0.2234],
+        [-0.1557, -0.2082, -0.2514,  ..., -0.2304, -0.1853,  0.1820],
+        ...,
+        [ 0.0917, -0.0817, -0.2146,  ...,  0.1138, -0.1928, -0.1660],
+        [ 0.1438,  0.1064,  0.1146,  ..., -0.2389, -0.1396,  0.0959],
+        [ 0.0853,  0.0643,  0.1369,  ...,  0.0577, -0.1047, -0.0201]],
+       device='cuda:0'), grad: tensor([[-2.7067e-09,  9.6043e-10,  1.5425e-09,  ...,  8.2946e-09,
+          2.5902e-09,  2.5029e-09],
+        [ 4.2492e-09,  4.3656e-10,  3.2014e-10,  ...,  5.2678e-09,
+          7.2760e-10,  6.3737e-09],
+        [ 4.4820e-09,  1.7462e-10,  1.7462e-10,  ...,  3.6380e-09,
+          2.6193e-10, -2.1071e-08],
+        ...,
+        [-6.7812e-09,  1.8335e-09,  2.7067e-09,  ..., -3.0850e-09,
+          1.3679e-09,  8.2655e-09],
+        [-2.0373e-10, -1.8626e-09, -6.6939e-10,  ...,  2.9104e-09,
+          2.3574e-09,  3.6962e-09],
+        [-5.6461e-09, -3.4051e-09, -5.9081e-09,  ..., -2.4884e-08,
+         -2.0082e-09, -1.8044e-09]], device='cuda:0')
+Epoch 448, bias, value: tensor([ 0.0184, -0.0295, -0.0071,  0.0140, -0.0017, -0.0157,  0.0051,  0.0158,
+        -0.0361,  0.0123], device='cuda:0'), grad: tensor([-9.4005e-09,  4.7818e-08, -7.1595e-08,  2.4622e-08,  2.4767e-08,
+         3.3353e-08, -2.4796e-08, -1.8917e-08,  2.6746e-08, -1.9703e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 447, time 217.53, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4037 re_mapping 0.0016 re_causal 0.0067 /// teacc 99.18 lr 0.00001000
+Epoch 449, weight, value: tensor([[ 0.0329, -0.1047, -0.0318,  ..., -0.1572, -0.1869, -0.1791],
+        [-0.1628,  0.0885, -0.1533,  ..., -0.2534, -0.2195, -0.2234],
+        [-0.1558, -0.2082, -0.2515,  ..., -0.2304, -0.1853,  0.1820],
+        ...,
+        [ 0.0917, -0.0817, -0.2147,  ...,  0.1138, -0.1929, -0.1661],
+        [ 0.1439,  0.1064,  0.1147,  ..., -0.2392, -0.1396,  0.0960],
+        [ 0.0853,  0.0643,  0.1371,  ...,  0.0577, -0.1048, -0.0201]],
+       device='cuda:0'), grad: tensor([[ 4.3656e-10,  4.9477e-10,  1.4552e-10,  ...,  4.0745e-09,
+          1.0448e-08,  4.0745e-09],
+        [ 4.5984e-09,  1.5134e-09,  7.5670e-10,  ...,  2.4855e-08,
+          9.3132e-10,  2.7067e-09],
+        [ 1.4872e-08,  2.3574e-09,  2.3283e-10,  ...,  1.9604e-07,
+          3.7835e-10, -6.4611e-09],
+        ...,
+        [-1.5978e-08,  3.2160e-08,  4.7439e-09,  ..., -2.8824e-07,
+          1.4552e-10,  1.5425e-09],
+        [ 4.1036e-09,  1.5076e-08,  2.0955e-09,  ...,  6.1118e-09,
+          4.1036e-09,  5.3260e-09],
+        [-1.5716e-09, -7.0140e-09, -5.2387e-09,  ...,  2.5757e-08,
+         -1.1642e-10, -7.8580e-10]], device='cuda:0')
+Epoch 449, bias, value: tensor([ 0.0184, -0.0296, -0.0071,  0.0140, -0.0017, -0.0157,  0.0051,  0.0158,
+        -0.0361,  0.0123], device='cuda:0'), grad: tensor([ 3.1141e-08,  5.7800e-08,  4.1560e-07, -1.4214e-07,  6.7055e-08,
+         8.5798e-08, -8.2538e-08, -5.2666e-07,  7.1072e-08,  5.4104e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 448, time 217.48, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4297 re_mapping 0.0016 re_causal 0.0070 /// teacc 99.18 lr 0.00001000
+Epoch 450, weight, value: tensor([[ 0.0329, -0.1047, -0.0318,  ..., -0.1572, -0.1870, -0.1792],
+        [-0.1629,  0.0885, -0.1534,  ..., -0.2536, -0.2195, -0.2235],
+        [-0.1559, -0.2082, -0.2516,  ..., -0.2305, -0.1854,  0.1820],
+        ...,
+        [ 0.0917, -0.0817, -0.2148,  ...,  0.1138, -0.1929, -0.1662],
+        [ 0.1440,  0.1065,  0.1148,  ..., -0.2393, -0.1396,  0.0960],
+        [ 0.0853,  0.0643,  0.1372,  ...,  0.0577, -0.1048, -0.0202]],
+       device='cuda:0'), grad: tensor([[ 1.0477e-09,  1.1642e-09,  6.9849e-10,  ...,  1.2224e-09,
+          1.4843e-09,  1.9791e-09],
+        [ 4.3656e-09,  2.3283e-09,  3.6089e-09,  ...,  2.7649e-09,
+          4.2783e-09,  7.9744e-09],
+        [ 5.8208e-10,  1.0477e-09,  4.3656e-10,  ...,  7.5670e-10,
+          1.0477e-09, -1.4552e-09],
+        ...,
+        [ 6.3737e-09,  7.5961e-09,  1.9209e-09,  ...,  1.3009e-08,
+          1.4843e-09,  1.9209e-09],
+        [-2.8347e-08, -2.8289e-08, -3.2654e-08,  ...,  3.6671e-09,
+         -1.0186e-08, -2.0693e-08],
+        [-1.4319e-08, -1.1787e-08,  6.6939e-10,  ..., -2.6048e-08,
+          1.6444e-08,  1.3504e-08]], device='cuda:0')
+Epoch 450, bias, value: tensor([ 0.0184, -0.0296, -0.0071,  0.0140, -0.0017, -0.0157,  0.0052,  0.0158,
+        -0.0362,  0.0123], device='cuda:0'), grad: tensor([ 2.0373e-08,  4.3568e-08,  7.8580e-10,  5.0728e-08,  2.7736e-08,
+        -2.7451e-07,  9.0047e-08,  7.6601e-08,  2.0955e-09, -2.8522e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 449, time 217.42, cls_loss 0.0003 cls_loss_mapping 0.0002 cls_loss_causal 0.4043 re_mapping 0.0016 re_causal 0.0068 /// teacc 99.21 lr 0.00001000
+Epoch 451, weight, value: tensor([[ 0.0330, -0.1047, -0.0318,  ..., -0.1572, -0.1870, -0.1792],
+        [-0.1630,  0.0885, -0.1535,  ..., -0.2536, -0.2195, -0.2235],
+        [-0.1560, -0.2082, -0.2517,  ..., -0.2305, -0.1854,  0.1821],
+        ...,
+        [ 0.0917, -0.0817, -0.2150,  ...,  0.1138, -0.1930, -0.1662],
+        [ 0.1441,  0.1065,  0.1149,  ..., -0.2395, -0.1396,  0.0961],
+        [ 0.0853,  0.0643,  0.1373,  ...,  0.0577, -0.1048, -0.0202]],
+       device='cuda:0'), grad: tensor([[ 8.4401e-10,  3.7835e-10,  1.4552e-10,  ...,  2.9104e-11,
+          1.2486e-08,  1.3039e-08],
+        [ 7.6834e-09,  2.9977e-09,  1.3970e-09,  ...,  1.6298e-09,
+          3.1752e-08,  6.1817e-08],
+        [ 5.5879e-09,  1.2806e-09,  6.6939e-10,  ...,  4.8021e-09,
+          7.1595e-09, -1.9209e-07],
+        ...,
+        [ 1.7957e-08,  8.4983e-09,  6.9849e-10,  ..., -9.4587e-09,
+          4.0745e-10,  1.4703e-07],
+        [-4.5373e-08, -1.9470e-08, -8.8185e-09,  ...,  1.2224e-09,
+          2.2555e-08, -9.1095e-09],
+        [ 1.2515e-09,  3.7835e-10,  1.1642e-10,  ...,  1.1933e-09,
+          1.0477e-09,  3.7544e-09]], device='cuda:0')
+Epoch 451, bias, value: tensor([ 0.0184, -0.0296, -0.0071,  0.0140, -0.0017, -0.0158,  0.0052,  0.0158,
+        -0.0361,  0.0123], device='cuda:0'), grad: tensor([ 5.2940e-08,  2.2480e-07, -4.8149e-07,  3.0355e-08,  1.4843e-07,
+         1.1092e-06, -1.4361e-06,  3.9628e-07, -5.5152e-08,  1.5832e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 450, time 217.50, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4347 re_mapping 0.0016 re_causal 0.0072 /// teacc 99.19 lr 0.00001000
+Epoch 452, weight, value: tensor([[ 0.0330, -0.1048, -0.0319,  ..., -0.1572, -0.1870, -0.1793],
+        [-0.1631,  0.0886, -0.1536,  ..., -0.2537, -0.2195, -0.2236],
+        [-0.1562, -0.2083, -0.2517,  ..., -0.2306, -0.1854,  0.1821],
+        ...,
+        [ 0.0917, -0.0817, -0.2152,  ...,  0.1138, -0.1931, -0.1663],
+        [ 0.1443,  0.1066,  0.1150,  ..., -0.2397, -0.1397,  0.0962],
+        [ 0.0853,  0.0643,  0.1375,  ...,  0.0577, -0.1049, -0.0202]],
+       device='cuda:0'), grad: tensor([[ 5.8208e-11, -1.1642e-10,  3.2014e-10,  ...,  4.0745e-10,
+          1.4552e-10,  5.2387e-10],
+        [ 5.2678e-09,  2.9977e-09,  1.5425e-09,  ...,  1.4843e-09,
+          3.7835e-10,  5.0059e-09],
+        [ 1.2951e-08,  8.1200e-09,  2.9395e-09,  ...,  1.0768e-09,
+          1.4552e-10,  1.2922e-08],
+        ...,
+        [ 3.7544e-09,  4.0745e-09,  2.5902e-09,  ..., -3.4925e-10,
+          4.3656e-10,  5.0641e-09],
+        [-2.6717e-08, -1.5105e-08, -6.6066e-09,  ...,  2.5029e-09,
+          2.0373e-10, -2.8842e-08],
+        [-4.5984e-09, -5.0932e-09, -5.0059e-09,  ..., -6.8103e-09,
+          1.0186e-09, -2.3283e-10]], device='cuda:0')
+Epoch 452, bias, value: tensor([ 0.0184, -0.0296, -0.0071,  0.0140, -0.0017, -0.0159,  0.0053,  0.0158,
+        -0.0361,  0.0123], device='cuda:0'), grad: tensor([-4.2492e-09,  2.6077e-08,  5.8266e-08,  1.0390e-08,  1.0186e-08,
+         4.2783e-09,  1.5192e-08,  2.0809e-08, -1.1188e-07, -1.6880e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 451, time 217.50, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.3942 re_mapping 0.0016 re_causal 0.0068 /// teacc 99.19 lr 0.00001000
+Epoch 453, weight, value: tensor([[ 0.0331, -0.1047, -0.0319,  ..., -0.1572, -0.1870, -0.1793],
+        [-0.1631,  0.0886, -0.1537,  ..., -0.2537, -0.2196, -0.2236],
+        [-0.1562, -0.2083, -0.2518,  ..., -0.2306, -0.1854,  0.1822],
+        ...,
+        [ 0.0917, -0.0817, -0.2154,  ...,  0.1138, -0.1932, -0.1664],
+        [ 0.1445,  0.1067,  0.1152,  ..., -0.2398, -0.1397,  0.0963],
+        [ 0.0853,  0.0643,  0.1376,  ...,  0.0577, -0.1049, -0.0203]],
+       device='cuda:0'), grad: tensor([[ 2.9104e-10,  2.3283e-10,  1.4552e-10,  ...,  4.0745e-10,
+          3.7835e-10,  2.6193e-10],
+        [ 1.2398e-08,  2.2119e-09,  6.1118e-10,  ...,  1.2427e-08,
+          1.2806e-09,  2.5320e-09],
+        [ 5.6170e-09,  6.6939e-10,  2.9104e-10,  ...,  5.9663e-09,
+          5.8208e-10, -1.2515e-09],
+        ...,
+        [-2.4011e-08,  3.2887e-09,  1.2806e-09,  ..., -2.5757e-08,
+         -1.2224e-09, -1.0477e-09],
+        [-1.6880e-09, -1.5425e-09, -2.2701e-09,  ...,  3.3178e-09,
+          7.5670e-10, -2.8231e-09],
+        [ 3.2305e-09, -1.4843e-09, -1.7753e-09,  ...,  3.3178e-09,
+          2.0082e-09,  1.1350e-09]], device='cuda:0')
+Epoch 453, bias, value: tensor([ 0.0185, -0.0297, -0.0071,  0.0140, -0.0017, -0.0159,  0.0054,  0.0158,
+        -0.0361,  0.0123], device='cuda:0'), grad: tensor([ 2.9977e-09,  8.2888e-08,  2.0926e-08,  1.1903e-08,  8.9349e-09,
+        -7.2760e-09,  8.1491e-09, -1.2887e-07,  6.5193e-09,  1.7841e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 452, time 217.60, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.3889 re_mapping 0.0016 re_causal 0.0066 /// teacc 99.18 lr 0.00001000
+Epoch 454, weight, value: tensor([[ 0.0331, -0.1048, -0.0320,  ..., -0.1572, -0.1871, -0.1794],
+        [-0.1632,  0.0886, -0.1539,  ..., -0.2538, -0.2196, -0.2237],
+        [-0.1564, -0.2083, -0.2519,  ..., -0.2307, -0.1854,  0.1823],
+        ...,
+        [ 0.0917, -0.0817, -0.2155,  ...,  0.1138, -0.1932, -0.1665],
+        [ 0.1445,  0.1068,  0.1153,  ..., -0.2401, -0.1397,  0.0964],
+        [ 0.0853,  0.0643,  0.1377,  ...,  0.0577, -0.1050, -0.0203]],
+       device='cuda:0'), grad: tensor([[ 1.1467e-08,  1.1380e-08,  7.8580e-09,  ...,  7.5670e-10,
+          4.1327e-09,  2.2759e-08],
+        [ 1.2718e-08, -1.1583e-08,  7.9162e-09,  ...,  3.2887e-09,
+          3.4634e-09,  1.6822e-08],
+        [-1.9936e-08,  1.6356e-08,  2.5029e-09,  ...,  2.7358e-09,
+          1.3097e-09, -9.3598e-08],
+        ...,
+        [ 7.3342e-09,  1.2893e-08,  6.5775e-09,  ..., -3.8417e-09,
+          2.3574e-09,  1.7666e-08],
+        [-7.3924e-08, -1.0582e-07, -7.9861e-08,  ...,  1.4552e-09,
+         -3.6758e-08, -4.0280e-08],
+        [ 1.8452e-08,  1.9878e-08,  1.4756e-08,  ..., -1.2427e-08,
+          1.0768e-08,  2.7649e-08]], device='cuda:0')
+Epoch 454, bias, value: tensor([ 0.0185, -0.0297, -0.0071,  0.0140, -0.0017, -0.0159,  0.0054,  0.0158,
+        -0.0361,  0.0123], device='cuda:0'), grad: tensor([ 7.6019e-08, -8.8708e-08, -1.5763e-07,  2.4535e-08,  5.7829e-08,
+         1.5774e-08,  1.1898e-07,  8.2131e-08, -1.7299e-07,  5.6723e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 453, time 217.51, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4360 re_mapping 0.0015 re_causal 0.0069 /// teacc 99.19 lr 0.00001000
+Epoch 455, weight, value: tensor([[ 0.0331, -0.1048, -0.0320,  ..., -0.1572, -0.1871, -0.1795],
+        [-0.1634,  0.0886, -0.1540,  ..., -0.2540, -0.2196, -0.2237],
+        [-0.1565, -0.2083, -0.2520,  ..., -0.2308, -0.1854,  0.1824],
+        ...,
+        [ 0.0918, -0.0817, -0.2157,  ...,  0.1138, -0.1932, -0.1666],
+        [ 0.1447,  0.1069,  0.1155,  ..., -0.2402, -0.1397,  0.0965],
+        [ 0.0853,  0.0643,  0.1378,  ...,  0.0577, -0.1051, -0.0204]],
+       device='cuda:0'), grad: tensor([[-2.6601e-08,  1.8335e-09,  2.3283e-10,  ..., -6.7521e-09,
+         -9.3132e-10,  6.9849e-10],
+        [ 1.7637e-08,  1.2136e-08,  1.2806e-09,  ...,  8.4401e-10,
+          1.1642e-10,  7.4797e-09],
+        [-5.4133e-09,  1.0768e-09,  0.0000e+00,  ...,  9.8953e-10,
+          8.7311e-11, -1.0012e-08],
+        ...,
+        [ 1.4232e-08,  8.4401e-09,  1.2224e-09,  ...,  2.6484e-09,
+          8.7311e-11,  1.0768e-08],
+        [-7.1479e-08, -6.8976e-08, -4.2492e-09,  ...,  1.2806e-09,
+          3.7835e-10, -3.0792e-08],
+        [ 4.5402e-09, -2.0664e-09, -1.9791e-09,  ..., -2.6193e-09,
+          3.2014e-10,  1.4552e-10]], device='cuda:0')
+Epoch 455, bias, value: tensor([ 0.0186, -0.0298, -0.0071,  0.0140, -0.0017, -0.0159,  0.0054,  0.0158,
+        -0.0360,  0.0123], device='cuda:0'), grad: tensor([-2.2200e-07,  6.8278e-08, -3.1432e-08,  2.2107e-07,  1.9936e-08,
+        -2.3318e-07,  1.9453e-07,  1.0780e-07, -1.7253e-07,  5.9168e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 454, time 217.63, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.3924 re_mapping 0.0016 re_causal 0.0066 /// teacc 99.20 lr 0.00001000
+Epoch 456, weight, value: tensor([[ 0.0332, -0.1048, -0.0321,  ..., -0.1572, -0.1871, -0.1796],
+        [-0.1634,  0.0886, -0.1541,  ..., -0.2540, -0.2197, -0.2238],
+        [-0.1566, -0.2083, -0.2521,  ..., -0.2308, -0.1854,  0.1824],
+        ...,
+        [ 0.0918, -0.0817, -0.2158,  ...,  0.1138, -0.1932, -0.1666],
+        [ 0.1449,  0.1070,  0.1156,  ..., -0.2404, -0.1397,  0.0966],
+        [ 0.0853,  0.0643,  0.1380,  ...,  0.0577, -0.1051, -0.0205]],
+       device='cuda:0'), grad: tensor([[-1.5134e-09,  4.3656e-10,  2.9104e-11,  ...,  5.8208e-11,
+          8.1491e-10,  7.2760e-10],
+        [ 4.0745e-10,  8.4401e-10,  8.7311e-11,  ...,  4.9477e-10,
+          4.0745e-10,  3.4925e-10],
+        [ 4.6566e-10,  1.1642e-09,  0.0000e+00,  ...,  4.9477e-10,
+          2.6193e-10,  2.3283e-10],
+        ...,
+        [ 2.0373e-10,  3.5216e-09,  2.3283e-10,  ...,  3.7835e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 2.6193e-10,  3.6380e-09,  3.7835e-10,  ...,  1.7462e-10,
+          2.1537e-09,  1.8044e-09],
+        [-2.6193e-10, -2.6193e-10, -6.4028e-10,  ..., -9.3132e-10,
+          2.0373e-10,  1.1642e-10]], device='cuda:0')
+Epoch 456, bias, value: tensor([ 0.0186, -0.0298, -0.0071,  0.0139, -0.0017, -0.0160,  0.0054,  0.0158,
+        -0.0360,  0.0123], device='cuda:0'), grad: tensor([-2.9395e-09,  6.1409e-09,  6.4902e-09,  2.2672e-08,  7.0431e-09,
+        -2.1548e-07,  6.9442e-08,  1.5541e-08,  9.9652e-08,  3.4634e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 455, time 217.49, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4252 re_mapping 0.0015 re_causal 0.0068 /// teacc 99.20 lr 0.00001000
+Epoch 457, weight, value: tensor([[ 0.0332, -0.1048, -0.0321,  ..., -0.1572, -0.1871, -0.1796],
+        [-0.1635,  0.0886, -0.1542,  ..., -0.2541, -0.2197, -0.2238],
+        [-0.1568, -0.2083, -0.2521,  ..., -0.2309, -0.1854,  0.1825],
+        ...,
+        [ 0.0918, -0.0818, -0.2160,  ...,  0.1138, -0.1933, -0.1667],
+        [ 0.1449,  0.1070,  0.1156,  ..., -0.2405, -0.1397,  0.0967],
+        [ 0.0853,  0.0643,  0.1382,  ...,  0.0577, -0.1051, -0.0205]],
+       device='cuda:0'), grad: tensor([[-4.8312e-09,  1.8335e-09,  8.7311e-11,  ...,  6.9849e-10,
+         -1.4552e-09,  1.4552e-09],
+        [ 6.8976e-09,  1.2718e-08,  4.0745e-10,  ...,  9.7789e-09,
+          3.3178e-09,  2.1333e-08],
+        [ 1.3679e-09,  2.0955e-08,  9.6043e-10,  ...,  1.6007e-09,
+          4.3656e-10, -2.9104e-08],
+        ...,
+        [-1.6298e-09,  1.7928e-08,  1.0768e-09,  ..., -1.5716e-09,
+          3.7835e-10,  9.0513e-09],
+        [-1.6880e-09,  1.4174e-08, -2.6193e-10,  ...,  1.2806e-09,
+          5.1223e-09,  3.8417e-09],
+        [-1.8656e-08, -3.7020e-08, -1.7753e-09,  ..., -2.0780e-08,
+          9.6043e-09, -2.1653e-08]], device='cuda:0')
+Epoch 457, bias, value: tensor([ 0.0186, -0.0298, -0.0071,  0.0139, -0.0017, -0.0160,  0.0055,  0.0158,
+        -0.0360,  0.0123], device='cuda:0'), grad: tensor([-9.9826e-09,  8.6206e-08, -2.8987e-08, -1.9278e-07,  5.7451e-08,
+         2.7427e-07, -2.3912e-07,  7.6136e-08,  7.9337e-08, -1.0448e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 456, time 217.70, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4105 re_mapping 0.0015 re_causal 0.0064 /// teacc 99.19 lr 0.00001000
+Epoch 458, weight, value: tensor([[ 0.0333, -0.1048, -0.0322,  ..., -0.1572, -0.1872, -0.1797],
+        [-0.1636,  0.0887, -0.1543,  ..., -0.2542, -0.2197, -0.2239],
+        [-0.1568, -0.2084, -0.2522,  ..., -0.2310, -0.1854,  0.1826],
+        ...,
+        [ 0.0918, -0.0818, -0.2162,  ...,  0.1138, -0.1934, -0.1669],
+        [ 0.1450,  0.1070,  0.1157,  ..., -0.2408, -0.1397,  0.0967],
+        [ 0.0853,  0.0643,  0.1384,  ...,  0.0577, -0.1052, -0.0206]],
+       device='cuda:0'), grad: tensor([[-6.6939e-10,  9.6043e-10,  8.7311e-11,  ...,  1.1642e-10,
+          4.6566e-10,  1.1059e-09],
+        [ 5.5879e-09,  7.8289e-09,  6.4028e-10,  ...,  2.5320e-09,
+          4.6566e-10,  1.0303e-08],
+        [ 3.6671e-09,  1.1729e-08,  9.6043e-10,  ...,  3.3469e-09,
+          5.2387e-10, -1.3184e-08],
+        ...,
+        [-3.6671e-09,  1.0070e-08,  1.0186e-09,  ..., -3.7544e-09,
+          4.6566e-10,  6.4611e-09],
+        [-1.0623e-08,  3.5798e-09, -1.0768e-09,  ...,  9.6043e-10,
+          7.2760e-10, -3.0268e-09],
+        [ 2.0955e-09,  3.1141e-09,  2.0373e-10,  ...,  4.2783e-09,
+          2.7940e-09,  2.7649e-09]], device='cuda:0')
+Epoch 458, bias, value: tensor([ 0.0187, -0.0298, -0.0070,  0.0139, -0.0018, -0.0160,  0.0055,  0.0158,
+        -0.0360,  0.0123], device='cuda:0'), grad: tensor([ 2.3283e-09,  5.3988e-08, -1.6647e-08, -1.2061e-07, -6.6939e-10,
+        -1.2561e-07,  1.3690e-07,  3.5332e-08,  2.9366e-08,  2.5379e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 457, time 217.74, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4177 re_mapping 0.0015 re_causal 0.0067 /// teacc 99.19 lr 0.00001000
+Epoch 459, weight, value: tensor([[ 0.0333, -0.1049, -0.0323,  ..., -0.1572, -0.1872, -0.1798],
+        [-0.1637,  0.0887, -0.1544,  ..., -0.2543, -0.2198, -0.2240],
+        [-0.1569, -0.2084, -0.2522,  ..., -0.2311, -0.1855,  0.1827],
+        ...,
+        [ 0.0918, -0.0818, -0.2165,  ...,  0.1138, -0.1933, -0.1670],
+        [ 0.1451,  0.1072,  0.1160,  ..., -0.2410, -0.1397,  0.0968],
+        [ 0.0853,  0.0643,  0.1385,  ...,  0.0577, -0.1053, -0.0207]],
+       device='cuda:0'), grad: tensor([[ 8.7311e-11,  1.7753e-09,  2.9104e-11,  ...,  6.9849e-10,
+          5.8790e-09,  3.8417e-09],
+        [ 2.5611e-09, -1.4086e-08,  6.1118e-10,  ...,  7.2760e-09,
+          4.2783e-09,  2.5932e-08],
+        [ 1.9500e-09,  2.0955e-09,  2.0373e-10,  ..., -3.2887e-09,
+          1.5134e-09, -7.6951e-08],
+        ...,
+        [-5.1514e-09,  9.0222e-09,  6.1118e-10,  ..., -2.2992e-09,
+          2.2410e-09,  1.9325e-08],
+        [-1.5716e-09, -1.5134e-09, -1.8044e-09,  ...,  2.8522e-09,
+          1.4115e-08,  1.6007e-08],
+        [ 1.7462e-09, -2.7940e-09, -1.8335e-09,  ...,  9.9477e-08,
+          9.2667e-08,  1.4494e-08]], device='cuda:0')
+Epoch 459, bias, value: tensor([ 0.0187, -0.0298, -0.0070,  0.0139, -0.0017, -0.0161,  0.0056,  0.0158,
+        -0.0360,  0.0123], device='cuda:0'), grad: tensor([ 1.8190e-08,  4.9185e-08, -2.3842e-07,  6.2108e-08, -2.5379e-07,
+         1.2270e-07, -1.3702e-07,  7.4273e-08,  6.8743e-08,  2.6776e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 458, time 217.64, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4126 re_mapping 0.0015 re_causal 0.0067 /// teacc 99.16 lr 0.00001000
+Epoch 460, weight, value: tensor([[ 0.0333, -0.1049, -0.0323,  ..., -0.1573, -0.1872, -0.1798],
+        [-0.1638,  0.0888, -0.1545,  ..., -0.2544, -0.2198, -0.2240],
+        [-0.1570, -0.2084, -0.2523,  ..., -0.2312, -0.1855,  0.1828],
+        ...,
+        [ 0.0918, -0.0818, -0.2167,  ...,  0.1138, -0.1934, -0.1671],
+        [ 0.1453,  0.1073,  0.1161,  ..., -0.2412, -0.1397,  0.0969],
+        [ 0.0853,  0.0644,  0.1387,  ...,  0.0577, -0.1054, -0.0208]],
+       device='cuda:0'), grad: tensor([[-6.4611e-09,  1.7171e-09,  8.7311e-10,  ...,  1.3970e-09,
+          3.2305e-09,  2.9977e-09],
+        [ 3.5798e-09,  2.6484e-09,  1.6880e-09,  ...,  4.9768e-09,
+          3.6089e-09,  1.0594e-08],
+        [ 1.4843e-09,  1.9500e-09,  3.2014e-10,  ..., -2.4447e-09,
+          1.8626e-09, -3.5099e-08],
+        ...,
+        [ 1.4843e-08,  4.4616e-08,  2.3923e-08,  ...,  3.6089e-08,
+          1.4785e-08,  1.4086e-08],
+        [-3.2887e-09,  1.8452e-08,  9.3132e-10,  ...,  7.8871e-09,
+          1.2893e-08,  2.7183e-08],
+        [-2.5029e-08, -5.0408e-08, -3.9290e-08,  ...,  5.9663e-08,
+          8.3179e-08,  4.6246e-08]], device='cuda:0')
+Epoch 460, bias, value: tensor([ 0.0186, -0.0298, -0.0070,  0.0139, -0.0017, -0.0161,  0.0056,  0.0158,
+        -0.0360,  0.0123], device='cuda:0'), grad: tensor([-6.3155e-09,  5.3173e-08, -9.8255e-08,  9.5286e-08, -2.3027e-07,
+        -3.7136e-07, -4.9069e-08,  2.4377e-07,  3.0082e-07,  9.0338e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 459, time 217.61, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4248 re_mapping 0.0015 re_causal 0.0065 /// teacc 99.20 lr 0.00001000
+Epoch 461, weight, value: tensor([[ 0.0333, -0.1050, -0.0324,  ..., -0.1573, -0.1873, -0.1800],
+        [-0.1639,  0.0888, -0.1546,  ..., -0.2545, -0.2198, -0.2241],
+        [-0.1571, -0.2084, -0.2524,  ..., -0.2312, -0.1855,  0.1829],
+        ...,
+        [ 0.0918, -0.0818, -0.2169,  ...,  0.1139, -0.1935, -0.1672],
+        [ 0.1454,  0.1074,  0.1163,  ..., -0.2414, -0.1397,  0.0970],
+        [ 0.0853,  0.0644,  0.1388,  ...,  0.0577, -0.1056, -0.0209]],
+       device='cuda:0'), grad: tensor([[ 5.5297e-10,  1.7462e-10,  1.1642e-10,  ...,  8.7311e-11,
+          1.7462e-10,  2.3283e-10],
+        [ 2.9890e-08, -3.3760e-09,  4.9477e-10,  ...,  3.3557e-08,
+          1.7462e-10,  1.1438e-08],
+        [ 6.7812e-09,  1.8626e-09,  2.9104e-10,  ...,  7.3924e-09,
+          3.4925e-10,  2.7940e-09],
+        ...,
+        [-3.7777e-08,  3.4634e-09,  5.2387e-10,  ..., -4.5140e-08,
+          2.0373e-10, -1.3330e-08],
+        [ 7.3051e-09, -1.6880e-09, -1.5134e-09,  ...,  2.6193e-09,
+          1.1642e-10, -2.3283e-09],
+        [ 5.6461e-09,  1.4261e-09,  1.4261e-09,  ...,  9.4296e-09,
+          3.9290e-09,  4.6857e-09]], device='cuda:0')
+Epoch 461, bias, value: tensor([ 0.0186, -0.0298, -0.0070,  0.0139, -0.0017, -0.0161,  0.0057,  0.0158,
+        -0.0360,  0.0123], device='cuda:0'), grad: tensor([ 9.5752e-09,  1.0373e-07,  3.2043e-08,  1.6793e-08, -5.2678e-09,
+        -4.1677e-07,  1.6100e-07, -1.2584e-07,  2.1013e-07,  3.8883e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 460, time 217.67, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4183 re_mapping 0.0015 re_causal 0.0068 /// teacc 99.19 lr 0.00001000
+Epoch 462, weight, value: tensor([[ 0.0334, -0.1050, -0.0324,  ..., -0.1573, -0.1874, -0.1801],
+        [-0.1640,  0.0888, -0.1547,  ..., -0.2546, -0.2199, -0.2242],
+        [-0.1571, -0.2085, -0.2524,  ..., -0.2313, -0.1855,  0.1830],
+        ...,
+        [ 0.0918, -0.0818, -0.2170,  ...,  0.1139, -0.1935, -0.1673],
+        [ 0.1455,  0.1074,  0.1163,  ..., -0.2416, -0.1398,  0.0970],
+        [ 0.0853,  0.0644,  0.1390,  ...,  0.0577, -0.1057, -0.0210]],
+       device='cuda:0'), grad: tensor([[ 5.5297e-10,  4.6566e-10,  1.1642e-10,  ...,  2.9104e-10,
+          4.0745e-09,  5.9663e-09],
+        [ 5.2678e-09, -1.3126e-08,  3.2014e-10,  ...,  6.0536e-09,
+          1.1176e-08,  1.9412e-08],
+        [ 5.4424e-09,  3.6962e-09,  1.4552e-10,  ...,  4.0163e-09,
+          4.4238e-09, -7.1595e-09],
+        ...,
+        [-2.3749e-08,  7.1886e-09,  1.4552e-10,  ..., -2.8755e-08,
+          4.3656e-10,  4.5984e-09],
+        [-2.7649e-09, -9.3132e-10, -1.2224e-09,  ...,  3.4925e-09,
+          3.1223e-07,  4.1560e-07],
+        [ 1.0739e-08,  8.7311e-10,  5.8208e-11,  ...,  2.4505e-08,
+          1.0768e-08,  8.0327e-09]], device='cuda:0')
+Epoch 462, bias, value: tensor([ 0.0186, -0.0299, -0.0070,  0.0139, -0.0016, -0.0162,  0.0058,  0.0158,
+        -0.0360,  0.0123], device='cuda:0'), grad: tensor([ 1.8714e-08,  1.3388e-08,  5.3551e-09,  3.3528e-08,  1.4552e-10,
+         1.6997e-08, -1.3001e-06, -4.9069e-08,  1.1995e-06,  8.0909e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 461, time 217.28, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4149 re_mapping 0.0015 re_causal 0.0065 /// teacc 99.25 lr 0.00001000
+Epoch 463, weight, value: tensor([[ 0.0334, -0.1051, -0.0325,  ..., -0.1573, -0.1874, -0.1802],
+        [-0.1642,  0.0889, -0.1548,  ..., -0.2548, -0.2199, -0.2243],
+        [-0.1572, -0.2085, -0.2525,  ..., -0.2314, -0.1855,  0.1831],
+        ...,
+        [ 0.0918, -0.0818, -0.2172,  ...,  0.1139, -0.1935, -0.1673],
+        [ 0.1455,  0.1075,  0.1165,  ..., -0.2419, -0.1398,  0.0970],
+        [ 0.0853,  0.0644,  0.1391,  ...,  0.0577, -0.1058, -0.0212]],
+       device='cuda:0'), grad: tensor([[ 1.6880e-09,  1.5716e-09,  7.8580e-10,  ...,  2.2701e-09,
+          3.3178e-09,  2.6776e-09],
+        [ 1.4028e-08, -1.2427e-08,  3.1723e-09,  ..., -2.3283e-10,
+          1.4552e-09,  2.6514e-08],
+        [-1.4377e-08,  6.2282e-09,  5.5297e-10,  ..., -3.1723e-09,
+          1.0477e-09, -1.0006e-07],
+        ...,
+        [ 1.5600e-08,  2.2206e-08,  6.5484e-09,  ...,  1.7521e-08,
+          2.3283e-09,  1.7142e-08],
+        [-1.0594e-08, -1.2631e-08, -6.5484e-09,  ...,  5.7626e-09,
+          2.9686e-09,  4.0483e-08],
+        [-2.5349e-08, -2.2847e-08, -1.2253e-08,  ..., -7.3633e-09,
+          3.4604e-08,  1.6706e-08]], device='cuda:0')
+Epoch 463, bias, value: tensor([ 0.0186, -0.0299, -0.0070,  0.0139, -0.0016, -0.0162,  0.0058,  0.0159,
+        -0.0361,  0.0123], device='cuda:0'), grad: tensor([ 1.7229e-08,  4.2288e-08, -3.1455e-07,  4.4267e-08, -2.4243e-08,
+         5.2591e-08, -3.6409e-08,  1.4855e-07,  1.1118e-07, -3.5623e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 462, time 217.64, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4209 re_mapping 0.0015 re_causal 0.0066 /// teacc 99.22 lr 0.00001000
+Epoch 464, weight, value: tensor([[ 0.0335, -0.1051, -0.0326,  ..., -0.1574, -0.1874, -0.1803],
+        [-0.1643,  0.0890, -0.1550,  ..., -0.2549, -0.2200, -0.2244],
+        [-0.1574, -0.2085, -0.2526,  ..., -0.2316, -0.1855,  0.1832],
+        ...,
+        [ 0.0918, -0.0818, -0.2173,  ...,  0.1139, -0.1936, -0.1674],
+        [ 0.1457,  0.1077,  0.1168,  ..., -0.2421, -0.1398,  0.0971],
+        [ 0.0853,  0.0644,  0.1393,  ...,  0.0577, -0.1060, -0.0213]],
+       device='cuda:0'), grad: tensor([[-1.7753e-09,  3.7544e-09,  8.7311e-11,  ...,  8.7311e-11,
+          4.8312e-09,  4.8312e-09],
+        [ 2.9686e-09, -2.0547e-08,  5.8208e-10,  ...,  1.6007e-09,
+          4.6566e-10,  2.5611e-09],
+        [ 9.3132e-10,  2.3283e-09,  5.8208e-11,  ...,  1.3679e-09,
+          3.7835e-10, -5.9954e-09],
+        ...,
+        [-1.1642e-10,  1.0215e-08,  4.9477e-10,  ..., -2.3865e-09,
+          0.0000e+00,  1.1933e-09],
+        [-5.1514e-09, -4.0454e-09, -3.0559e-09,  ...,  7.8580e-10,
+          2.7358e-09,  1.7462e-10],
+        [ 5.8208e-10,  1.3970e-09, -6.1118e-10,  ...,  3.2014e-10,
+          5.8208e-11,  5.2387e-10]], device='cuda:0')
+Epoch 464, bias, value: tensor([ 0.0186, -0.0299, -0.0070,  0.0139, -0.0016, -0.0162,  0.0059,  0.0159,
+        -0.0361,  0.0123], device='cuda:0'), grad: tensor([ 3.0210e-08, -5.2707e-08, -6.8103e-09,  3.3388e-07,  3.2567e-08,
+        -5.2061e-07,  7.5961e-08,  4.6770e-08,  6.4785e-08,  1.4028e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 463, time 217.79, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.3971 re_mapping 0.0015 re_causal 0.0064 /// teacc 99.22 lr 0.00001000
+Epoch 465, weight, value: tensor([[ 0.0335, -0.1052, -0.0326,  ..., -0.1574, -0.1875, -0.1804],
+        [-0.1646,  0.0890, -0.1552,  ..., -0.2551, -0.2201, -0.2245],
+        [-0.1575, -0.2085, -0.2526,  ..., -0.2317, -0.1856,  0.1833],
+        ...,
+        [ 0.0919, -0.0818, -0.2175,  ...,  0.1139, -0.1935, -0.1674],
+        [ 0.1460,  0.1079,  0.1171,  ..., -0.2423, -0.1398,  0.0973],
+        [ 0.0853,  0.0644,  0.1394,  ...,  0.0577, -0.1061, -0.0215]],
+       device='cuda:0'), grad: tensor([[ 3.1432e-09,  8.0618e-09,  5.2969e-09,  ...,  7.2760e-10,
+          5.1805e-09,  8.1200e-09],
+        [ 1.3300e-08,  9.9826e-09,  5.4424e-09,  ...,  5.3260e-09,
+          3.4343e-09,  1.0768e-08],
+        [ 1.2486e-08,  4.3947e-09,  1.4552e-09,  ...,  1.2689e-08,
+          6.3155e-09,  7.8580e-09],
+        ...,
+        [-1.5338e-08,  4.6275e-09,  2.1828e-09,  ..., -1.7666e-08,
+          1.9791e-09,  2.4447e-09],
+        [-6.8394e-08, -1.0029e-07, -6.1176e-08,  ...,  3.1141e-09,
+         -2.5058e-08, -7.7533e-08],
+        [ 1.5280e-08,  1.7404e-08,  8.7020e-09,  ...,  1.7753e-09,
+          2.0402e-08,  2.3370e-08]], device='cuda:0')
+Epoch 465, bias, value: tensor([ 0.0186, -0.0300, -0.0070,  0.0139, -0.0016, -0.0164,  0.0061,  0.0159,
+        -0.0360,  0.0123], device='cuda:0'), grad: tensor([ 2.4476e-08,  5.5035e-08,  6.6590e-08,  1.6036e-08, -4.1997e-08,
+         4.0076e-08,  1.0082e-07, -5.1805e-08, -2.8475e-07,  9.2492e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 464, time 217.68, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4149 re_mapping 0.0015 re_causal 0.0067 /// teacc 99.22 lr 0.00001000
+Epoch 466, weight, value: tensor([[ 0.0336, -0.1052, -0.0327,  ..., -0.1574, -0.1876, -0.1805],
+        [-0.1647,  0.0891, -0.1553,  ..., -0.2553, -0.2201, -0.2246],
+        [-0.1577, -0.2086, -0.2527,  ..., -0.2318, -0.1856,  0.1834],
+        ...,
+        [ 0.0919, -0.0818, -0.2177,  ...,  0.1139, -0.1935, -0.1675],
+        [ 0.1460,  0.1079,  0.1172,  ..., -0.2426, -0.1398,  0.0973],
+        [ 0.0853,  0.0644,  0.1396,  ...,  0.0577, -0.1062, -0.0215]],
+       device='cuda:0'), grad: tensor([[ 4.6275e-09,  4.7439e-09,  2.0082e-09,  ...,  7.3342e-09,
+          1.5425e-09,  2.0082e-09],
+        [ 1.4639e-08,  5.5879e-09,  3.5216e-09,  ...,  2.0373e-08,
+          3.8708e-09,  6.8685e-09],
+        [ 8.4983e-09,  2.7067e-09,  1.0186e-09,  ...,  1.3912e-08,
+          2.6193e-09,  3.1432e-09],
+        ...,
+        [-2.5902e-08,  3.1578e-08,  1.1729e-08,  ..., -5.5821e-08,
+         -1.1350e-08, -4.3947e-09],
+        [-7.6252e-09, -1.6036e-08, -1.0477e-08,  ...,  1.9325e-08,
+          1.5425e-09, -2.1246e-08],
+        [-1.2422e-07, -1.2130e-07, -7.0489e-08,  ..., -1.9837e-07,
+         -3.2451e-08, -3.5099e-08]], device='cuda:0')
+Epoch 466, bias, value: tensor([ 0.0186, -0.0300, -0.0070,  0.0139, -0.0016, -0.0165,  0.0063,  0.0159,
+        -0.0361,  0.0123], device='cuda:0'), grad: tensor([ 2.7096e-08,  6.8801e-08,  4.9127e-08,  3.5361e-08,  5.7137e-07,
+         7.2876e-08,  1.3300e-08, -1.1758e-07, -3.8825e-08, -6.6962e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 465, time 217.35, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4078 re_mapping 0.0015 re_causal 0.0067 /// teacc 99.20 lr 0.00001000
+Epoch 467, weight, value: tensor([[ 0.0336, -0.1053, -0.0328,  ..., -0.1574, -0.1876, -0.1806],
+        [-0.1649,  0.0891, -0.1554,  ..., -0.2554, -0.2202, -0.2247],
+        [-0.1579, -0.2086, -0.2527,  ..., -0.2320, -0.1856,  0.1835],
+        ...,
+        [ 0.0919, -0.0818, -0.2178,  ...,  0.1139, -0.1934, -0.1675],
+        [ 0.1462,  0.1081,  0.1173,  ..., -0.2428, -0.1399,  0.0974],
+        [ 0.0853,  0.0644,  0.1398,  ...,  0.0577, -0.1063, -0.0216]],
+       device='cuda:0'), grad: tensor([[-6.6648e-09,  6.6939e-10,  4.0745e-10,  ...,  9.6043e-10,
+          1.6298e-09,  1.3824e-09],
+        [ 1.2631e-08, -3.3178e-09,  7.4215e-10,  ...,  1.0288e-08,
+          1.7171e-09,  6.9413e-09],
+        [ 1.5716e-08,  1.3970e-09,  2.4738e-10,  ...,  1.3504e-08,
+          1.9500e-09,  6.7230e-09],
+        ...,
+        [-3.8592e-08,  7.6398e-09,  3.3760e-09,  ..., -2.9613e-08,
+          2.2701e-09, -1.5076e-08],
+        [ 2.3720e-09, -2.5611e-09,  1.8917e-10,  ...,  1.1772e-08,
+          2.4593e-09, -2.1100e-09],
+        [-8.8767e-10, -9.9535e-09, -9.2259e-09,  ...,  4.2259e-08,
+          3.9174e-08,  1.8394e-08]], device='cuda:0')
+Epoch 467, bias, value: tensor([ 0.0186, -0.0300, -0.0070,  0.0139, -0.0016, -0.0166,  0.0063,  0.0159,
+        -0.0361,  0.0123], device='cuda:0'), grad: tensor([-3.0268e-08,  3.2305e-08,  7.0257e-08,  2.0678e-08, -9.8953e-08,
+         3.0268e-08, -1.7462e-09, -1.2747e-07,  4.7963e-08,  8.3121e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 466, time 217.26, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4044 re_mapping 0.0015 re_causal 0.0066 /// teacc 99.20 lr 0.00001000
+Epoch 468, weight, value: tensor([[ 0.0335, -0.1055, -0.0328,  ..., -0.1576, -0.1876, -0.1807],
+        [-0.1650,  0.0891, -0.1555,  ..., -0.2556, -0.2202, -0.2248],
+        [-0.1580, -0.2086, -0.2528,  ..., -0.2321, -0.1856,  0.1837],
+        ...,
+        [ 0.0919, -0.0819, -0.2179,  ...,  0.1140, -0.1935, -0.1676],
+        [ 0.1462,  0.1082,  0.1174,  ..., -0.2431, -0.1399,  0.0974],
+        [ 0.0853,  0.0644,  0.1400,  ...,  0.0577, -0.1064, -0.0217]],
+       device='cuda:0'), grad: tensor([[ 2.0373e-10,  2.0664e-09,  7.8580e-10,  ...,  1.2951e-09,
+          1.2806e-09,  4.3947e-09],
+        [ 4.0105e-08,  7.8435e-09,  2.7503e-09,  ...,  1.7099e-08,
+          2.8522e-09,  2.7765e-08],
+        [ 4.7003e-09,  8.3965e-09,  3.0850e-09,  ..., -8.1491e-10,
+          3.2014e-09, -1.1467e-08],
+        ...,
+        [-3.6700e-08,  2.8813e-09,  8.4401e-10,  ..., -1.3839e-08,
+          8.2946e-10, -4.1327e-09],
+        [-2.2483e-08, -5.5705e-08, -2.0867e-08,  ...,  1.0768e-09,
+         -1.5789e-08, -6.2049e-08],
+        [ 2.4884e-09,  5.6898e-09,  1.9354e-09,  ..., -3.5361e-09,
+          4.9768e-09,  9.9681e-09]], device='cuda:0')
+Epoch 468, bias, value: tensor([ 0.0185, -0.0301, -0.0069,  0.0139, -0.0016, -0.0166,  0.0064,  0.0159,
+        -0.0361,  0.0123], device='cuda:0'), grad: tensor([ 1.3461e-08,  2.1688e-07, -4.9535e-08,  3.3295e-08,  1.0521e-08,
+        -3.4808e-08,  9.2317e-08, -1.1845e-07, -1.7066e-07,  3.3964e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 467, time 217.26, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4216 re_mapping 0.0015 re_causal 0.0066 /// teacc 99.17 lr 0.00001000
+Epoch 469, weight, value: tensor([[ 0.0336, -0.1055, -0.0329,  ..., -0.1576, -0.1877, -0.1808],
+        [-0.1653,  0.0892, -0.1557,  ..., -0.2558, -0.2203, -0.2249],
+        [-0.1581, -0.2086, -0.2529,  ..., -0.2322, -0.1857,  0.1839],
+        ...,
+        [ 0.0919, -0.0819, -0.2182,  ...,  0.1140, -0.1935, -0.1677],
+        [ 0.1464,  0.1084,  0.1177,  ..., -0.2435, -0.1398,  0.0976],
+        [ 0.0853,  0.0644,  0.1403,  ...,  0.0577, -0.1065, -0.0218]],
+       device='cuda:0'), grad: tensor([[ 6.6939e-10,  1.1205e-09,  5.9663e-10,  ...,  1.4115e-09,
+          9.4587e-10,  1.0186e-09],
+        [ 5.0495e-09,  4.8458e-09,  2.2847e-09,  ...,  7.3051e-09,
+          5.3114e-09,  5.2096e-09],
+        [ 3.8126e-09,  1.1059e-09,  4.2201e-10,  ...,  6.5920e-09,
+          1.5134e-09,  1.5571e-09],
+        ...,
+        [-6.3592e-09,  8.4110e-09,  5.3406e-09,  ..., -5.5879e-09,
+          1.5716e-09,  2.2119e-09],
+        [-5.9488e-08, -1.0780e-07, -5.0291e-08,  ...,  2.3429e-09,
+         -4.8691e-08, -7.6077e-08],
+        [-7.1304e-10, -7.1450e-09, -6.6066e-09,  ...,  4.3656e-08,
+          5.6752e-08,  4.8953e-08]], device='cuda:0')
+Epoch 469, bias, value: tensor([ 0.0186, -0.0302, -0.0069,  0.0139, -0.0016, -0.0166,  0.0064,  0.0159,
+        -0.0361,  0.0123], device='cuda:0'), grad: tensor([ 6.0099e-09,  3.2567e-08,  1.9369e-08,  2.5451e-08, -1.7486e-07,
+         1.0442e-07,  1.5029e-07, -2.0082e-09, -2.8592e-07,  1.4016e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 468, time 217.37, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4197 re_mapping 0.0015 re_causal 0.0066 /// teacc 99.19 lr 0.00001000
+Epoch 470, weight, value: tensor([[ 0.0337, -0.1056, -0.0329,  ..., -0.1576, -0.1877, -0.1809],
+        [-0.1654,  0.0892, -0.1558,  ..., -0.2559, -0.2204, -0.2250],
+        [-0.1582, -0.2087, -0.2529,  ..., -0.2323, -0.1857,  0.1840],
+        ...,
+        [ 0.0919, -0.0819, -0.2184,  ...,  0.1140, -0.1935, -0.1678],
+        [ 0.1465,  0.1085,  0.1178,  ..., -0.2437, -0.1398,  0.0977],
+        [ 0.0853,  0.0644,  0.1406,  ...,  0.0577, -0.1066, -0.0219]],
+       device='cuda:0'), grad: tensor([[ 3.6380e-10,  8.1491e-10,  3.7835e-10,  ...,  8.4401e-10,
+          1.4668e-08,  9.6625e-09],
+        [ 2.3152e-08, -1.9645e-09,  1.2515e-09,  ...,  5.6229e-08,
+          2.6193e-09,  2.2264e-09],
+        [ 3.3615e-09,  7.5670e-10,  1.1642e-10,  ...,  6.7375e-09,
+          1.1642e-09, -2.1828e-10],
+        ...,
+        [-2.2410e-08,  3.2160e-08,  1.5818e-08,  ..., -5.1397e-08,
+          1.3068e-08,  8.4983e-09],
+        [ 6.8394e-10,  3.5943e-09,  1.3824e-09,  ...,  3.7835e-09,
+          1.8510e-08,  1.1409e-08],
+        [-1.7753e-08, -5.7131e-08, -3.1549e-08,  ..., -4.4995e-08,
+         -2.4942e-08, -1.5134e-08]], device='cuda:0')
+Epoch 470, bias, value: tensor([ 0.0186, -0.0302, -0.0068,  0.0139, -0.0016, -0.0165,  0.0063,  0.0159,
+        -0.0361,  0.0123], device='cuda:0'), grad: tensor([ 4.1851e-08,  1.6554e-07,  2.4258e-08,  4.6450e-08,  1.0064e-07,
+         4.9535e-08, -2.0396e-07, -1.1490e-07,  7.2818e-08, -1.8382e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 469, time 217.72, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4177 re_mapping 0.0015 re_causal 0.0066 /// teacc 99.19 lr 0.00001000
+Epoch 471, weight, value: tensor([[ 0.0336, -0.1057, -0.0330,  ..., -0.1578, -0.1878, -0.1810],
+        [-0.1659,  0.0892, -0.1559,  ..., -0.2564, -0.2204, -0.2252],
+        [-0.1585, -0.2087, -0.2530,  ..., -0.2325, -0.1857,  0.1841],
+        ...,
+        [ 0.0920, -0.0819, -0.2187,  ...,  0.1140, -0.1934, -0.1679],
+        [ 0.1465,  0.1087,  0.1180,  ..., -0.2442, -0.1399,  0.0978],
+        [ 0.0853,  0.0644,  0.1409,  ...,  0.0577, -0.1067, -0.0220]],
+       device='cuda:0'), grad: tensor([[ 4.9477e-10,  3.0559e-10,  4.3656e-11,  ...,  1.1642e-09,
+          1.5658e-08,  1.5076e-08],
+        [ 1.9791e-09,  8.7311e-10,  1.7462e-10,  ...,  6.5338e-09,
+          7.7998e-09,  1.2282e-08],
+        [-1.0768e-08, -3.5070e-09,  1.3097e-10,  ...,  1.0376e-08,
+          1.4261e-08, -1.1752e-07],
+        ...,
+        [-3.5216e-09,  2.7212e-09,  3.2014e-10,  ..., -1.3679e-09,
+          4.3219e-09,  7.4651e-09],
+        [ 8.1782e-09,  2.7940e-09, -9.1677e-10,  ...,  1.7462e-09,
+          1.0885e-08,  8.8126e-08],
+        [ 2.0955e-09,  1.0041e-09,  3.9290e-10,  ...,  1.8641e-08,
+          1.7026e-08,  1.7535e-08]], device='cuda:0')
+Epoch 471, bias, value: tensor([ 0.0185, -0.0304, -0.0068,  0.0138, -0.0016, -0.0166,  0.0063,  0.0160,
+        -0.0362,  0.0123], device='cuda:0'), grad: tensor([ 8.4634e-08,  6.2399e-08, -3.4622e-07,  1.6822e-08, -1.0896e-07,
+         6.6264e-07, -7.9395e-07,  2.6892e-08,  3.2387e-07,  9.0804e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 470, time 217.52, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4429 re_mapping 0.0015 re_causal 0.0069 /// teacc 99.20 lr 0.00001000
+Epoch 472, weight, value: tensor([[ 0.0337, -0.1058, -0.0330,  ..., -0.1578, -0.1878, -0.1811],
+        [-0.1660,  0.0892, -0.1560,  ..., -0.2565, -0.2205, -0.2252],
+        [-0.1586, -0.2087, -0.2530,  ..., -0.2327, -0.1857,  0.1843],
+        ...,
+        [ 0.0920, -0.0819, -0.2188,  ...,  0.1141, -0.1934, -0.1680],
+        [ 0.1465,  0.1088,  0.1181,  ..., -0.2444, -0.1399,  0.0979],
+        [ 0.0853,  0.0645,  0.1410,  ...,  0.0577, -0.1068, -0.0221]],
+       device='cuda:0'), grad: tensor([[-3.7835e-10,  7.2760e-10,  4.6566e-10,  ...,  1.7608e-09,
+          6.9849e-09,  1.4057e-08],
+        [ 5.7335e-09,  3.9290e-10,  4.5111e-10,  ...,  8.2073e-09,
+          3.3469e-09,  1.7099e-08],
+        [ 1.4843e-09,  2.6193e-10,  7.2760e-11,  ...,  1.8335e-09,
+          7.6107e-09, -4.5984e-08],
+        ...,
+        [-1.8190e-09,  1.2122e-08,  6.6648e-09,  ...,  3.6234e-09,
+          8.2946e-10,  1.9572e-08],
+        [ 3.1869e-09,  1.7317e-09,  1.3097e-09,  ...,  4.8458e-09,
+          2.0678e-08,  4.6624e-08],
+        [-2.7227e-08, -2.7896e-08, -1.8408e-08,  ..., -4.9768e-08,
+          2.0227e-09,  8.2946e-10]], device='cuda:0')
+Epoch 472, bias, value: tensor([ 0.0185, -0.0305, -0.0068,  0.0138, -0.0016, -0.0166,  0.0064,  0.0160,
+        -0.0362,  0.0123], device='cuda:0'), grad: tensor([ 3.1287e-08,  8.5507e-08, -2.4564e-07,  6.1118e-08,  1.1199e-07,
+         1.4406e-08, -1.5809e-07,  1.0798e-07,  1.2992e-07, -1.3167e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 471, time 217.40, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.3934 re_mapping 0.0015 re_causal 0.0065 /// teacc 99.18 lr 0.00001000
+Epoch 473, weight, value: tensor([[ 0.0337, -0.1058, -0.0331,  ..., -0.1578, -0.1878, -0.1812],
+        [-0.1661,  0.0893, -0.1562,  ..., -0.2566, -0.2205, -0.2254],
+        [-0.1588, -0.2088, -0.2531,  ..., -0.2329, -0.1858,  0.1844],
+        ...,
+        [ 0.0921, -0.0819, -0.2189,  ...,  0.1141, -0.1934, -0.1681],
+        [ 0.1465,  0.1090,  0.1184,  ..., -0.2447, -0.1399,  0.0980],
+        [ 0.0853,  0.0645,  0.1411,  ...,  0.0577, -0.1070, -0.0224]],
+       device='cuda:0'), grad: tensor([[ 4.3074e-09,  1.0274e-08,  6.0390e-09,  ...,  8.0036e-09,
+          4.0600e-09,  1.1933e-09],
+        [ 5.5443e-09, -5.9110e-08,  1.3533e-09,  ...,  6.2282e-09,
+          1.4261e-09,  1.2951e-09],
+        [ 4.4092e-09,  2.1391e-09,  2.6193e-10,  ...,  5.3551e-09,
+          3.3469e-10,  2.9104e-10],
+        ...,
+        [-1.6982e-08,  4.1327e-08,  7.2469e-09,  ..., -1.5469e-08,
+          1.0477e-09,  6.5484e-10],
+        [-1.5134e-09,  1.2267e-08,  2.5466e-09,  ...,  6.8831e-09,
+          6.7375e-09, -1.9791e-09],
+        [-9.3423e-09, -2.4622e-08, -2.7838e-08,  ..., -2.5408e-08,
+         -2.8085e-09,  1.0768e-09]], device='cuda:0')
+Epoch 473, bias, value: tensor([ 0.0186, -0.0306, -0.0068,  0.0138, -0.0016, -0.0167,  0.0065,  0.0160,
+        -0.0362,  0.0123], device='cuda:0'), grad: tensor([ 4.8574e-08, -2.3423e-07,  2.5844e-08,  2.5102e-08,  3.4575e-08,
+         9.7905e-08, -9.2608e-08,  9.2143e-08,  6.0303e-08, -5.1572e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 472, time 217.28, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4264 re_mapping 0.0015 re_causal 0.0067 /// teacc 99.17 lr 0.00001000
+Epoch 474, weight, value: tensor([[ 0.0338, -0.1059, -0.0331,  ..., -0.1578, -0.1879, -0.1813],
+        [-0.1663,  0.0893, -0.1563,  ..., -0.2567, -0.2206, -0.2255],
+        [-0.1592, -0.2088, -0.2532,  ..., -0.2331, -0.1858,  0.1845],
+        ...,
+        [ 0.0921, -0.0819, -0.2191,  ...,  0.1141, -0.1934, -0.1680],
+        [ 0.1466,  0.1091,  0.1185,  ..., -0.2449, -0.1399,  0.0981],
+        [ 0.0853,  0.0645,  0.1413,  ...,  0.0577, -0.1071, -0.0226]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-10,  5.0495e-09,  5.8208e-11,  ...,  2.1828e-10,
+          1.0186e-09,  9.8953e-10],
+        [ 3.8126e-09, -9.4529e-08,  1.1642e-10,  ...,  4.6857e-09,
+          3.4925e-10,  3.4197e-09],
+        [ 1.0041e-09,  7.0431e-09,  1.4552e-11,  ...,  1.6735e-09,
+          9.1677e-10, -4.0745e-09],
+        ...,
+        [-2.0242e-08,  6.0478e-08,  3.4925e-10,  ..., -2.5320e-08,
+          5.8208e-11,  1.9209e-09],
+        [ 6.2573e-10,  1.8277e-08,  1.0186e-10,  ...,  8.4401e-10,
+          9.6043e-10,  1.2369e-09],
+        [ 1.1918e-08,  3.7835e-09, -1.2224e-09,  ...,  1.4785e-08,
+          9.1677e-10,  6.4028e-10]], device='cuda:0')
+Epoch 474, bias, value: tensor([ 0.0186, -0.0306, -0.0068,  0.0138, -0.0016, -0.0167,  0.0065,  0.0160,
+        -0.0362,  0.0122], device='cuda:0'), grad: tensor([ 4.4878e-08, -7.4459e-07,  1.2908e-08,  2.6819e-08,  1.3461e-08,
+        -7.0722e-09, -2.4593e-09,  4.6706e-07,  1.6321e-07,  6.4843e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 473, time 217.57, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.3949 re_mapping 0.0015 re_causal 0.0064 /// teacc 99.18 lr 0.00001000
+Epoch 475, weight, value: tensor([[ 0.0339, -0.1059, -0.0331,  ..., -0.1578, -0.1879, -0.1814],
+        [-0.1668,  0.0894, -0.1565,  ..., -0.2572, -0.2206, -0.2256],
+        [-0.1594, -0.2088, -0.2532,  ..., -0.2333, -0.1858,  0.1846],
+        ...,
+        [ 0.0922, -0.0819, -0.2193,  ...,  0.1142, -0.1933, -0.1681],
+        [ 0.1468,  0.1093,  0.1188,  ..., -0.2450, -0.1399,  0.0983],
+        [ 0.0853,  0.0645,  0.1415,  ...,  0.0577, -0.1073, -0.0227]],
+       device='cuda:0'), grad: tensor([[-4.6566e-10,  2.6193e-10,  1.6007e-10,  ...,  6.9849e-10,
+         -2.1828e-10,  2.7649e-10],
+        [ 1.8335e-08, -6.7812e-09,  1.3097e-10,  ...,  2.5218e-08,
+          1.4697e-09,  1.1205e-09],
+        [ 1.6153e-08,  3.0122e-09,  1.4552e-11,  ...,  1.7666e-08,
+          2.4884e-09,  1.5425e-09],
+        ...,
+        [-6.3330e-08,  2.7503e-09,  3.9290e-10,  ..., -7.3866e-08,
+         -1.5862e-09, -1.5134e-09],
+        [ 5.1368e-09,  2.1973e-09,  1.2515e-09,  ...,  5.7189e-09,
+          9.8953e-10,  5.9663e-10],
+        [ 9.7207e-09, -2.3429e-09, -2.4011e-09,  ...,  3.8010e-08,
+          2.1901e-08,  1.1496e-08]], device='cuda:0')
+Epoch 475, bias, value: tensor([ 0.0187, -0.0309, -0.0068,  0.0138, -0.0016, -0.0167,  0.0065,  0.0161,
+        -0.0362,  0.0122], device='cuda:0'), grad: tensor([-1.1656e-08,  7.2003e-08,  9.9884e-08,  4.8371e-08, -3.5885e-08,
+         7.0286e-09,  7.8580e-09, -3.1851e-07,  3.4517e-08,  1.0815e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 474, time 217.49, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4422 re_mapping 0.0015 re_causal 0.0068 /// teacc 99.17 lr 0.00001000
+Epoch 476, weight, value: tensor([[ 0.0340, -0.1060, -0.0332,  ..., -0.1578, -0.1879, -0.1814],
+        [-0.1668,  0.0895, -0.1566,  ..., -0.2572, -0.2207, -0.2257],
+        [-0.1596, -0.2089, -0.2533,  ..., -0.2335, -0.1859,  0.1847],
+        ...,
+        [ 0.0922, -0.0819, -0.2194,  ...,  0.1142, -0.1933, -0.1681],
+        [ 0.1469,  0.1093,  0.1189,  ..., -0.2452, -0.1399,  0.0983],
+        [ 0.0853,  0.0645,  0.1416,  ...,  0.0577, -0.1074, -0.0228]],
+       device='cuda:0'), grad: tensor([[ 1.6007e-10,  1.4552e-10,  2.9104e-11,  ...,  3.3469e-10,
+          7.4215e-10,  1.1933e-09],
+        [ 3.1287e-09,  3.6380e-10,  5.5297e-10,  ...,  3.0559e-09,
+          1.2660e-09,  8.0618e-09],
+        [ 2.3574e-09,  8.0036e-10,  1.4552e-10,  ...,  2.5902e-09,
+          7.7125e-10, -3.5478e-08],
+        ...,
+        [-6.1700e-09,  2.1682e-09,  4.5111e-10,  ..., -5.3551e-09,
+          1.0623e-09,  1.9107e-08],
+        [-3.9145e-09, -4.7294e-09, -2.5029e-09,  ...,  8.1491e-10,
+          3.4051e-09,  2.3429e-09],
+        [ 1.9209e-09,  2.7649e-10,  5.8208e-11,  ...,  2.9191e-08,
+          2.7547e-08,  1.4072e-08]], device='cuda:0')
+Epoch 476, bias, value: tensor([ 0.0187, -0.0309, -0.0069,  0.0138, -0.0016, -0.0167,  0.0065,  0.0161,
+        -0.0362,  0.0122], device='cuda:0'), grad: tensor([ 5.5152e-09,  4.6857e-08, -1.7288e-07,  3.3120e-08, -8.1433e-08,
+         1.3752e-08, -3.9872e-09,  7.3691e-08,  9.9826e-09,  8.7661e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 475, time 217.48, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4179 re_mapping 0.0015 re_causal 0.0065 /// teacc 99.19 lr 0.00001000
+Epoch 477, weight, value: tensor([[ 0.0340, -0.1061, -0.0333,  ..., -0.1578, -0.1879, -0.1815],
+        [-0.1669,  0.0895, -0.1567,  ..., -0.2573, -0.2207, -0.2258],
+        [-0.1597, -0.2089, -0.2533,  ..., -0.2337, -0.1859,  0.1849],
+        ...,
+        [ 0.0922, -0.0819, -0.2196,  ...,  0.1143, -0.1933, -0.1682],
+        [ 0.1470,  0.1095,  0.1191,  ..., -0.2452, -0.1399,  0.0984],
+        [ 0.0853,  0.0645,  0.1418,  ...,  0.0577, -0.1075, -0.0229]],
+       device='cuda:0'), grad: tensor([[ 1.3679e-09,  1.9354e-09,  5.2387e-10,  ...,  1.0186e-10,
+          1.4406e-09,  2.4011e-09],
+        [ 7.2469e-09, -2.1522e-08,  2.1828e-09,  ...,  4.8021e-10,
+          5.0932e-10,  7.6252e-09],
+        [ 6.0681e-09,  7.3924e-09,  1.5716e-09,  ..., -4.3656e-11,
+          3.6380e-10,  2.1246e-09],
+        ...,
+        [ 1.1059e-09,  2.5349e-08,  1.1642e-09,  ..., -2.4447e-09,
+          1.3097e-10,  4.1327e-09],
+        [-3.3877e-08, -2.4360e-08, -1.1089e-08,  ...,  1.3242e-09,
+         -4.3656e-11, -3.1607e-08],
+        [ 4.5693e-09,  5.8935e-09,  1.4697e-09,  ...,  7.2760e-10,
+          1.8917e-10,  3.9290e-09]], device='cuda:0')
+Epoch 477, bias, value: tensor([ 0.0187, -0.0310, -0.0069,  0.0138, -0.0016, -0.0166,  0.0065,  0.0161,
+        -0.0363,  0.0122], device='cuda:0'), grad: tensor([ 1.3606e-08, -8.1083e-08,  2.6310e-08,  4.1444e-08,  5.8062e-09,
+        -1.0361e-07,  5.1863e-08,  1.0582e-07, -6.4785e-08,  3.3644e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 476, time 217.29, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4273 re_mapping 0.0015 re_causal 0.0066 /// teacc 99.19 lr 0.00001000
+Epoch 478, weight, value: tensor([[ 0.0341, -0.1062, -0.0334,  ..., -0.1578, -0.1880, -0.1816],
+        [-0.1670,  0.0896, -0.1568,  ..., -0.2573, -0.2208, -0.2259],
+        [-0.1599, -0.2090, -0.2534,  ..., -0.2338, -0.1859,  0.1849],
+        ...,
+        [ 0.0923, -0.0820, -0.2198,  ...,  0.1143, -0.1933, -0.1682],
+        [ 0.1472,  0.1097,  0.1193,  ..., -0.2454, -0.1399,  0.0987],
+        [ 0.0853,  0.0645,  0.1421,  ...,  0.0577, -0.1076, -0.0230]],
+       device='cuda:0'), grad: tensor([[ 3.6380e-10,  1.6007e-10,  2.9104e-11,  ...,  4.0745e-10,
+          1.5425e-09,  1.1350e-09],
+        [ 3.8068e-08, -1.2224e-09,  8.7311e-11,  ...,  3.8999e-08,
+          3.9290e-10,  2.8667e-09],
+        [ 1.0623e-08,  7.2760e-10,  0.0000e+00,  ...,  1.5352e-08,
+          2.6193e-10,  3.6525e-09],
+        ...,
+        [-1.3970e-07, -2.1246e-09,  3.0559e-10,  ..., -1.5053e-07,
+          2.9104e-10, -1.1089e-08],
+        [ 7.3633e-09,  1.4552e-10, -2.4447e-09,  ...,  1.6065e-08,
+          1.7317e-09, -4.3219e-09],
+        [ 7.1246e-08,  2.7212e-09,  5.8208e-11,  ...,  7.4389e-08,
+          1.2515e-09,  4.3656e-09]], device='cuda:0')
+Epoch 478, bias, value: tensor([ 0.0187, -0.0310, -0.0069,  0.0137, -0.0017, -0.0165,  0.0064,  0.0161,
+        -0.0362,  0.0122], device='cuda:0'), grad: tensor([ 7.0286e-09,  1.2980e-07,  5.0233e-08,  5.1572e-08,  1.4203e-08,
+        -1.4808e-07,  4.1182e-08, -5.0711e-07,  9.3831e-08,  2.7427e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 477, time 217.58, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4174 re_mapping 0.0015 re_causal 0.0066 /// teacc 99.21 lr 0.00001000
+Epoch 479, weight, value: tensor([[ 0.0341, -0.1062, -0.0335,  ..., -0.1579, -0.1880, -0.1818],
+        [-0.1670,  0.0897, -0.1570,  ..., -0.2573, -0.2209, -0.2260],
+        [-0.1601, -0.2090, -0.2535,  ..., -0.2340, -0.1860,  0.1851],
+        ...,
+        [ 0.0923, -0.0820, -0.2200,  ...,  0.1143, -0.1933, -0.1683],
+        [ 0.1474,  0.1099,  0.1195,  ..., -0.2455, -0.1399,  0.0988],
+        [ 0.0853,  0.0645,  0.1423,  ...,  0.0577, -0.1076, -0.0231]],
+       device='cuda:0'), grad: tensor([[ 4.7148e-09,  7.4215e-10,  6.2573e-10,  ...,  8.7311e-10,
+          1.0332e-09,  1.4639e-08],
+        [ 1.2020e-08,  2.4302e-09,  1.6153e-09,  ...,  4.5984e-09,
+          5.0932e-10,  1.7259e-08],
+        [-1.1886e-07,  1.4843e-09,  6.1118e-10,  ...,  4.8312e-09,
+         -6.2573e-10, -2.4075e-07],
+        ...,
+        [-3.6380e-09,  4.2492e-09,  3.0559e-09,  ..., -1.6997e-08,
+          3.2014e-10,  1.9048e-08],
+        [ 8.8243e-08, -1.2515e-08, -4.1036e-09,  ...,  5.3842e-09,
+          1.4115e-09,  1.7066e-07],
+        [-1.8044e-09, -1.5905e-08, -1.8554e-08,  ..., -2.5102e-08,
+         -5.2823e-09, -2.3720e-09]], device='cuda:0')
+Epoch 479, bias, value: tensor([ 0.0187, -0.0310, -0.0069,  0.0137, -0.0018, -0.0166,  0.0065,  0.0161,
+        -0.0362,  0.0122], device='cuda:0'), grad: tensor([ 5.3638e-08,  8.5332e-08, -1.0822e-06,  2.1464e-08,  8.8243e-08,
+         1.7462e-08,  2.2061e-08,  3.5623e-08,  8.2282e-07, -5.7102e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 478, time 217.82, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4225 re_mapping 0.0014 re_causal 0.0064 /// teacc 99.21 lr 0.00001000
+Epoch 480, weight, value: tensor([[ 0.0341, -0.1062, -0.0335,  ..., -0.1579, -0.1881, -0.1819],
+        [-0.1671,  0.0897, -0.1571,  ..., -0.2574, -0.2209, -0.2262],
+        [-0.1602, -0.2091, -0.2536,  ..., -0.2343, -0.1860,  0.1853],
+        ...,
+        [ 0.0923, -0.0820, -0.2203,  ...,  0.1143, -0.1933, -0.1683],
+        [ 0.1476,  0.1102,  0.1198,  ..., -0.2457, -0.1398,  0.0990],
+        [ 0.0853,  0.0645,  0.1425,  ...,  0.0577, -0.1077, -0.0232]],
+       device='cuda:0'), grad: tensor([[ 3.8708e-09,  3.2160e-09,  1.2369e-09,  ...,  4.0891e-09,
+          1.3533e-09,  6.2282e-09],
+        [ 2.1697e-08,  5.1165e-08,  6.8394e-09,  ...,  2.9861e-08,
+          5.8353e-09,  2.5248e-08],
+        [-6.3010e-09,  1.4959e-08,  1.9936e-09,  ..., -2.9977e-08,
+          1.8772e-09, -6.3679e-08],
+        ...,
+        [-1.3883e-08,  5.7713e-08,  1.1132e-08,  ..., -3.7544e-08,
+         -9.4587e-09,  3.1083e-08],
+        [-3.3935e-08, -2.3152e-08, -1.8568e-08,  ...,  1.1220e-08,
+          4.8603e-09, -5.7800e-08],
+        [-1.8961e-08, -2.5728e-08, -2.8114e-08,  ..., -1.0623e-08,
+          3.4604e-08,  1.8685e-08]], device='cuda:0')
+Epoch 480, bias, value: tensor([ 0.0187, -0.0310, -0.0069,  0.0137, -0.0018, -0.0165,  0.0064,  0.0162,
+        -0.0361,  0.0122], device='cuda:0'), grad: tensor([ 4.4121e-08,  2.8335e-07, -2.5262e-07, -4.0466e-07,  1.0745e-07,
+         2.1362e-07,  6.7288e-08,  8.0501e-08, -1.1607e-07,  3.4051e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 479, time 217.41, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4037 re_mapping 0.0014 re_causal 0.0064 /// teacc 99.20 lr 0.00001000
+Epoch 481, weight, value: tensor([[ 0.0340, -0.1064, -0.0336,  ..., -0.1581, -0.1882, -0.1821],
+        [-0.1672,  0.0899, -0.1573,  ..., -0.2575, -0.2210, -0.2263],
+        [-0.1603, -0.2091, -0.2537,  ..., -0.2344, -0.1860,  0.1855],
+        ...,
+        [ 0.0923, -0.0820, -0.2205,  ...,  0.1143, -0.1934, -0.1686],
+        [ 0.1478,  0.1104,  0.1200,  ..., -0.2458, -0.1398,  0.0992],
+        [ 0.0853,  0.0645,  0.1428,  ...,  0.0577, -0.1079, -0.0234]],
+       device='cuda:0'), grad: tensor([[ 5.8208e-11,  5.9081e-09,  1.4552e-11,  ...,  1.6007e-10,
+          1.3824e-09,  9.6043e-10],
+        [ 6.1118e-10, -1.1537e-07,  1.4552e-11,  ...,  1.3533e-09,
+          4.9477e-10,  3.2014e-10],
+        [ 3.3469e-10,  1.4741e-08,  0.0000e+00,  ...,  7.8580e-10,
+          3.6380e-10,  2.1828e-10],
+        ...,
+        [-4.6566e-10,  3.3120e-08,  1.3097e-10,  ..., -6.9849e-10,
+          3.0559e-10,  1.6007e-10],
+        [ 1.6007e-10,  2.8813e-09,  4.3656e-11,  ...,  1.8917e-10,
+          1.1059e-09,  8.5856e-10],
+        [ 3.6380e-10,  1.8044e-08,  0.0000e+00,  ...,  5.6607e-09,
+          4.9185e-09,  2.6193e-09]], device='cuda:0')
+Epoch 481, bias, value: tensor([ 0.0186, -0.0311, -0.0068,  0.0137, -0.0019, -0.0164,  0.0063,  0.0162,
+        -0.0361,  0.0122], device='cuda:0'), grad: tensor([ 3.7893e-08, -6.5984e-07,  8.6962e-08,  1.8394e-07,  1.2777e-08,
+         1.4843e-08,  1.7695e-08,  1.8731e-07,  2.2002e-08,  1.1828e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 480, time 217.44, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.3759 re_mapping 0.0015 re_causal 0.0064 /// teacc 99.19 lr 0.00001000
+Epoch 482, weight, value: tensor([[ 0.0340, -0.1064, -0.0337,  ..., -0.1581, -0.1883, -0.1822],
+        [-0.1673,  0.0899, -0.1574,  ..., -0.2575, -0.2210, -0.2265],
+        [-0.1605, -0.2092, -0.2537,  ..., -0.2345, -0.1860,  0.1856],
+        ...,
+        [ 0.0923, -0.0821, -0.2208,  ...,  0.1144, -0.1934, -0.1687],
+        [ 0.1481,  0.1107,  0.1203,  ..., -0.2459, -0.1397,  0.0995],
+        [ 0.0853,  0.0645,  0.1429,  ...,  0.0577, -0.1080, -0.0235]],
+       device='cuda:0'), grad: tensor([[-1.6444e-09,  1.5862e-09, -9.8953e-10,  ...,  2.9104e-10,
+          3.4488e-09,  2.2847e-09],
+        [ 4.5839e-09, -8.3674e-09,  4.9477e-10,  ...,  4.2201e-09,
+          1.4552e-09,  5.4570e-09],
+        [ 2.2992e-09,  8.7311e-10,  1.3097e-10,  ...,  2.5320e-09,
+          2.1537e-09, -8.1636e-09],
+        ...,
+        [-1.1147e-08,  6.7375e-09,  1.4843e-09,  ..., -1.1700e-08,
+          2.1828e-10,  1.5862e-09],
+        [-1.1496e-09, -3.9145e-09, -9.1677e-10,  ...,  3.7544e-09,
+          5.5006e-09, -7.2760e-11],
+        [ 3.3324e-09, -2.6193e-09, -3.0559e-09,  ..., -1.3679e-09,
+          4.5111e-10,  8.7311e-10]], device='cuda:0')
+Epoch 482, bias, value: tensor([ 0.0187, -0.0311, -0.0068,  0.0137, -0.0019, -0.0165,  0.0063,  0.0162,
+        -0.0360,  0.0122], device='cuda:0'), grad: tensor([ 5.7480e-09,  1.5905e-08, -4.8400e-08,  1.1106e-07,  2.5902e-08,
+        -2.6473e-07,  3.8475e-08, -2.1100e-09,  1.1793e-07,  1.4625e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 481, time 217.47, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4220 re_mapping 0.0015 re_causal 0.0067 /// teacc 99.21 lr 0.00001000
+Epoch 483, weight, value: tensor([[ 0.0341, -0.1065, -0.0337,  ..., -0.1581, -0.1884, -0.1823],
+        [-0.1673,  0.0901, -0.1576,  ..., -0.2576, -0.2211, -0.2266],
+        [-0.1606, -0.2092, -0.2538,  ..., -0.2346, -0.1861,  0.1858],
+        ...,
+        [ 0.0923, -0.0821, -0.2209,  ...,  0.1144, -0.1934, -0.1689],
+        [ 0.1483,  0.1109,  0.1205,  ..., -0.2461, -0.1397,  0.0996],
+        [ 0.0853,  0.0645,  0.1430,  ...,  0.0577, -0.1083, -0.0238]],
+       device='cuda:0'), grad: tensor([[ 1.3097e-10,  6.6939e-10,  0.0000e+00,  ...,  5.3842e-10,
+          2.6048e-09,  2.4738e-09],
+        [ 2.9831e-09, -4.9185e-08,  1.6007e-10,  ...,  5.5879e-09,
+          3.3178e-09, -2.7925e-08],
+        [ 2.0809e-09,  7.5088e-09,  1.4552e-11,  ...,  3.7835e-09,
+          7.1304e-10, -7.5495e-08],
+        ...,
+        [-2.9802e-08,  4.9185e-09,  2.3283e-10,  ..., -4.1240e-08,
+          4.6566e-10,  7.2061e-08],
+        [ 2.2410e-09,  7.5670e-09,  1.4552e-11,  ...,  3.0414e-09,
+          5.8935e-09,  1.2966e-08],
+        [ 2.0809e-08,  2.9162e-08,  1.4552e-11,  ...,  1.5949e-07,
+          1.2980e-07,  5.4366e-08]], device='cuda:0')
+Epoch 483, bias, value: tensor([ 0.0187, -0.0310, -0.0067,  0.0136, -0.0018, -0.0163,  0.0062,  0.0162,
+        -0.0360,  0.0122], device='cuda:0'), grad: tensor([ 1.1103e-08, -1.4226e-07, -2.0594e-07,  2.5349e-08, -2.0931e-07,
+         8.7020e-09,  5.6665e-08,  9.7963e-08,  6.6531e-08,  3.0594e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 482, time 217.80, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4367 re_mapping 0.0015 re_causal 0.0067 /// teacc 99.21 lr 0.00001000
+Epoch 484, weight, value: tensor([[ 0.0341, -0.1065, -0.0338,  ..., -0.1581, -0.1884, -0.1825],
+        [-0.1674,  0.0903, -0.1577,  ..., -0.2576, -0.2212, -0.2267],
+        [-0.1607, -0.2093, -0.2539,  ..., -0.2347, -0.1861,  0.1860],
+        ...,
+        [ 0.0924, -0.0821, -0.2210,  ...,  0.1144, -0.1934, -0.1690],
+        [ 0.1484,  0.1110,  0.1207,  ..., -0.2462, -0.1397,  0.0997],
+        [ 0.0853,  0.0645,  0.1431,  ...,  0.0577, -0.1086, -0.0241]],
+       device='cuda:0'), grad: tensor([[ 7.8580e-10,  1.2806e-09,  8.5856e-10,  ...,  1.6298e-09,
+          8.6729e-09,  4.0745e-09],
+        [ 7.6107e-09,  5.7480e-09,  4.1327e-09,  ...,  4.7294e-09,
+          1.9500e-09,  7.9308e-09],
+        [ 6.3446e-09,  6.7521e-09,  2.9249e-09,  ...,  5.2823e-09,
+          1.8190e-09,  8.7166e-09],
+        ...,
+        [-5.2969e-09,  9.5170e-09,  5.0059e-09,  ..., -7.7271e-09,
+          1.3679e-09,  6.6211e-09],
+        [-3.0501e-08, -3.1752e-08, -1.8146e-08,  ...,  8.7748e-09,
+          1.3883e-08, -2.5917e-08],
+        [ 3.0559e-10, -1.2311e-08, -1.0143e-08,  ...,  8.7311e-10,
+          6.6357e-09,  6.1846e-09]], device='cuda:0')
+Epoch 484, bias, value: tensor([ 0.0187, -0.0310, -0.0067,  0.0136, -0.0017, -0.0163,  0.0062,  0.0162,
+        -0.0360,  0.0121], device='cuda:0'), grad: tensor([ 2.6150e-08,  3.7253e-08,  4.6653e-08,  1.4494e-08, -2.3632e-08,
+         9.1386e-08, -5.5443e-08,  8.6147e-09, -1.1863e-07, -4.1764e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 483, time 217.56, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4136 re_mapping 0.0015 re_causal 0.0065 /// teacc 99.16 lr 0.00001000
+Epoch 485, weight, value: tensor([[ 0.0341, -0.1066, -0.0338,  ..., -0.1582, -0.1885, -0.1826],
+        [-0.1676,  0.0904, -0.1578,  ..., -0.2578, -0.2212, -0.2269],
+        [-0.1609, -0.2094, -0.2539,  ..., -0.2349, -0.1861,  0.1861],
+        ...,
+        [ 0.0924, -0.0821, -0.2211,  ...,  0.1145, -0.1934, -0.1690],
+        [ 0.1485,  0.1112,  0.1209,  ..., -0.2464, -0.1397,  0.0998],
+        [ 0.0853,  0.0646,  0.1432,  ...,  0.0577, -0.1088, -0.0242]],
+       device='cuda:0'), grad: tensor([[-1.9951e-08,  1.6589e-09,  2.7649e-10,  ..., -2.3574e-09,
+          3.8854e-09,  5.3842e-09],
+        [ 4.5111e-09, -2.7794e-09,  8.2946e-10,  ...,  3.0122e-09,
+          5.6752e-09,  7.0868e-09],
+        [ 3.5798e-09,  1.9645e-09,  1.3097e-10,  ...,  2.5175e-09,
+          1.7899e-09, -1.9005e-08],
+        ...,
+        [-2.4011e-09,  3.2305e-09,  6.1118e-10,  ..., -5.3260e-09,
+          1.7317e-09,  7.8435e-09],
+        [ 0.0000e+00, -1.6735e-09, -2.8085e-09,  ...,  2.9686e-09,
+          3.8708e-08,  1.8437e-08],
+        [ 5.9663e-09, -6.7812e-09, -3.9290e-09,  ..., -1.8190e-09,
+          1.4261e-09, -3.0414e-09]], device='cuda:0')
+Epoch 485, bias, value: tensor([ 0.0186, -0.0311, -0.0068,  0.0136, -0.0016, -0.0161,  0.0060,  0.0162,
+        -0.0360,  0.0121], device='cuda:0'), grad: tensor([-6.7987e-08,  5.2969e-08, -6.3330e-08,  3.5740e-08,  4.1502e-08,
+        -1.3150e-06,  1.0319e-06,  4.1968e-08,  2.2317e-07,  2.4767e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 484, time 217.28, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4207 re_mapping 0.0015 re_causal 0.0065 /// teacc 99.16 lr 0.00001000
+Epoch 486, weight, value: tensor([[ 0.0341, -0.1067, -0.0338,  ..., -0.1583, -0.1886, -0.1827],
+        [-0.1678,  0.0905, -0.1579,  ..., -0.2580, -0.2213, -0.2270],
+        [-0.1611, -0.2095, -0.2540,  ..., -0.2351, -0.1862,  0.1862],
+        ...,
+        [ 0.0925, -0.0822, -0.2212,  ...,  0.1145, -0.1933, -0.1690],
+        [ 0.1485,  0.1112,  0.1210,  ..., -0.2467, -0.1398,  0.0999],
+        [ 0.0853,  0.0646,  0.1433,  ...,  0.0577, -0.1090, -0.0245]],
+       device='cuda:0'), grad: tensor([[ 2.0373e-10,  4.3656e-10,  1.4552e-10,  ...,  2.6193e-10,
+          7.3342e-09,  6.2719e-09],
+        [ 4.0745e-09,  1.1496e-09,  1.3533e-09,  ...,  4.1182e-09,
+          4.8167e-09,  8.9494e-09],
+        [ 6.0681e-09,  8.0327e-09,  2.1973e-09,  ...,  6.4611e-09,
+          1.8044e-09,  1.1001e-08],
+        ...,
+        [-7.9890e-09,  7.6252e-09,  1.9936e-09,  ..., -1.5410e-08,
+          3.4925e-10,  4.1618e-09],
+        [-9.5606e-09, -2.2090e-08, -7.8144e-09,  ...,  1.3242e-09,
+          2.8231e-08, -9.2841e-09],
+        [ 6.1118e-10, -1.7317e-09, -1.6007e-09,  ...,  4.9768e-09,
+          4.2346e-09,  4.3074e-09]], device='cuda:0')
+Epoch 486, bias, value: tensor([ 0.0187, -0.0311, -0.0068,  0.0136, -0.0015, -0.0161,  0.0059,  0.0162,
+        -0.0361,  0.0121], device='cuda:0'), grad: tensor([ 2.3632e-08,  3.1519e-08,  6.5833e-08,  8.6147e-08,  1.2224e-08,
+         5.2387e-10, -2.2398e-07, -1.8772e-09,  2.4884e-09,  2.5044e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 485, time 217.87, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4156 re_mapping 0.0015 re_causal 0.0067 /// teacc 99.19 lr 0.00001000
+Epoch 487, weight, value: tensor([[ 0.0342, -0.1067, -0.0338,  ..., -0.1583, -0.1886, -0.1828],
+        [-0.1678,  0.0906, -0.1580,  ..., -0.2580, -0.2213, -0.2271],
+        [-0.1613, -0.2095, -0.2540,  ..., -0.2354, -0.1862,  0.1863],
+        ...,
+        [ 0.0925, -0.0822, -0.2214,  ...,  0.1146, -0.1933, -0.1691],
+        [ 0.1485,  0.1113,  0.1211,  ..., -0.2468, -0.1398,  0.1000],
+        [ 0.0853,  0.0646,  0.1434,  ...,  0.0576, -0.1092, -0.0247]],
+       device='cuda:0'), grad: tensor([[ 4.5111e-10,  2.0009e-09,  0.0000e+00,  ...,  6.9849e-10,
+          2.1828e-10,  1.5280e-10],
+        [ 1.5047e-08, -3.5710e-08,  2.9104e-11,  ...,  8.4692e-09,
+          6.6939e-10, -1.0914e-09],
+        [ 2.9191e-08,  2.6994e-09,  1.4552e-11,  ...,  2.9890e-08,
+          5.6752e-10,  4.6566e-10],
+        ...,
+        [-1.0675e-07,  1.4530e-08,  2.9104e-11,  ..., -9.8487e-08,
+          6.9122e-10,  1.3824e-09],
+        [ 4.2492e-09,  1.5352e-09,  7.2760e-12,  ...,  4.1473e-09,
+          1.0914e-10,  4.6566e-10],
+        [ 5.2678e-08,  1.7390e-09,  7.2760e-12,  ...,  6.7696e-08,
+          1.4377e-08,  6.8030e-09]], device='cuda:0')
+Epoch 487, bias, value: tensor([ 0.0187, -0.0311, -0.0069,  0.0135, -0.0015, -0.0158,  0.0059,  0.0162,
+        -0.0362,  0.0121], device='cuda:0'), grad: tensor([ 1.0041e-08, -6.1002e-08,  1.1775e-07,  1.5862e-08, -9.6697e-09,
+         5.5516e-09,  1.0506e-08, -3.1455e-07,  2.3370e-08,  2.1572e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 486, time 217.63, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4295 re_mapping 0.0015 re_causal 0.0068 /// teacc 99.16 lr 0.00001000
+Epoch 488, weight, value: tensor([[ 0.0342, -0.1068, -0.0339,  ..., -0.1583, -0.1887, -0.1829],
+        [-0.1679,  0.0908, -0.1580,  ..., -0.2581, -0.2214, -0.2272],
+        [-0.1615, -0.2096, -0.2541,  ..., -0.2355, -0.1863,  0.1864],
+        ...,
+        [ 0.0926, -0.0822, -0.2215,  ...,  0.1146, -0.1933, -0.1691],
+        [ 0.1487,  0.1114,  0.1212,  ..., -0.2470, -0.1399,  0.1001],
+        [ 0.0853,  0.0646,  0.1436,  ...,  0.0576, -0.1094, -0.0249]],
+       device='cuda:0'), grad: tensor([[-1.0965e-08,  1.2951e-09,  2.1828e-10,  ...,  1.0914e-10,
+         -3.6438e-08,  5.6025e-10],
+        [ 6.3010e-09, -1.1256e-08,  9.7498e-10,  ...,  1.0390e-08,
+          2.2119e-09,  3.8272e-09],
+        [ 8.9785e-09,  2.7067e-09,  2.3283e-10,  ...,  1.7753e-08,
+          2.8813e-09,  4.1036e-09],
+        ...,
+        [-2.1886e-08,  8.6366e-09,  9.6043e-10,  ..., -4.5169e-08,
+         -6.7739e-09, -8.8039e-09],
+        [-4.4311e-09,  2.1915e-08,  2.7940e-09,  ...,  2.2119e-09,
+          1.5789e-09, -4.7148e-09],
+        [ 4.9986e-09,  4.7366e-09,  2.3283e-09,  ...,  5.2096e-09,
+          2.2119e-09,  4.7876e-09]], device='cuda:0')
+Epoch 488, bias, value: tensor([ 0.0187, -0.0311, -0.0069,  0.0135, -0.0015, -0.0158,  0.0059,  0.0162,
+        -0.0363,  0.0121], device='cuda:0'), grad: tensor([-5.5647e-07, -9.2623e-09,  6.6299e-08, -4.3074e-08,  1.2384e-08,
+         3.1985e-08,  5.2201e-07, -1.0652e-07,  4.5169e-08,  4.4820e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 487, time 217.68, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4116 re_mapping 0.0015 re_causal 0.0066 /// teacc 99.23 lr 0.00001000
+Epoch 489, weight, value: tensor([[ 0.0344, -0.1068, -0.0339,  ..., -0.1583, -0.1887, -0.1830],
+        [-0.1680,  0.0910, -0.1582,  ..., -0.2581, -0.2215, -0.2274],
+        [-0.1617, -0.2097, -0.2541,  ..., -0.2357, -0.1863,  0.1866],
+        ...,
+        [ 0.0926, -0.0823, -0.2216,  ...,  0.1146, -0.1932, -0.1691],
+        [ 0.1488,  0.1115,  0.1214,  ..., -0.2471, -0.1400,  0.1001],
+        [ 0.0852,  0.0646,  0.1437,  ...,  0.0576, -0.1096, -0.0251]],
+       device='cuda:0'), grad: tensor([[-1.7186e-08,  4.5111e-10,  4.3656e-11,  ...,  1.8917e-10,
+          8.2364e-09,  3.2160e-09],
+        [ 5.7626e-09, -2.9744e-08,  8.7311e-11,  ...,  5.1077e-09,
+          2.9686e-09, -1.2107e-08],
+        [ 5.3697e-09,  4.9622e-09,  1.4552e-11,  ...,  4.7876e-09,
+          9.4587e-10,  3.8854e-09],
+        ...,
+        [-1.4203e-08,  1.8044e-08,  9.0222e-10,  ..., -1.6778e-08,
+          2.1828e-10,  6.9413e-09],
+        [ 3.6525e-09,  1.4552e-09,  2.4738e-10,  ...,  1.8335e-09,
+          1.6560e-08,  1.0274e-08],
+        [ 4.9331e-09, -1.5716e-09, -2.1391e-09,  ...,  3.4488e-09,
+          2.2847e-09,  1.6298e-09]], device='cuda:0')
+Epoch 489, bias, value: tensor([ 0.0188, -0.0311, -0.0070,  0.0135, -0.0015, -0.0156,  0.0060,  0.0162,
+        -0.0364,  0.0120], device='cuda:0'), grad: tensor([-6.3912e-08, -9.2783e-08,  4.0105e-08,  2.5801e-08,  1.2398e-08,
+         6.4261e-08, -1.1723e-07,  2.5320e-08,  6.7928e-08,  3.2713e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 488, time 217.72, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.3826 re_mapping 0.0014 re_causal 0.0062 /// teacc 99.22 lr 0.00001000
+Epoch 490, weight, value: tensor([[ 0.0345, -0.1069, -0.0339,  ..., -0.1583, -0.1888, -0.1832],
+        [-0.1681,  0.0912, -0.1583,  ..., -0.2583, -0.2215, -0.2275],
+        [-0.1619, -0.2098, -0.2542,  ..., -0.2359, -0.1864,  0.1867],
+        ...,
+        [ 0.0926, -0.0823, -0.2218,  ...,  0.1147, -0.1932, -0.1692],
+        [ 0.1490,  0.1117,  0.1216,  ..., -0.2472, -0.1400,  0.1003],
+        [ 0.0852,  0.0646,  0.1439,  ...,  0.0576, -0.1098, -0.0253]],
+       device='cuda:0'), grad: tensor([[-5.5792e-08,  7.1450e-09,  4.6275e-09,  ..., -1.2733e-08,
+          1.3242e-09,  1.6589e-09],
+        [ 4.0629e-08,  1.9791e-09,  2.6193e-09,  ...,  4.2055e-08,
+          1.6444e-08,  4.2783e-09],
+        [ 4.7323e-08,  2.6193e-09,  1.2951e-09,  ...,  3.7777e-08,
+          8.3819e-09,  1.8772e-09],
+        ...,
+        [-1.7823e-07,  1.4872e-08,  8.8330e-09,  ..., -1.8405e-07,
+         -8.6380e-08,  8.9931e-09],
+        [-3.0122e-09, -1.5265e-08, -1.6909e-08,  ...,  1.9805e-08,
+          1.3504e-08, -2.1493e-08],
+        [ 1.2486e-08, -3.0268e-08, -2.5553e-08,  ..., -2.6776e-08,
+          3.7107e-08,  2.0344e-08]], device='cuda:0')
+Epoch 490, bias, value: tensor([ 0.0189, -0.0310, -0.0070,  0.0135, -0.0015, -0.0156,  0.0062,  0.0162,
+        -0.0364,  0.0120], device='cuda:0'), grad: tensor([-2.7381e-07,  1.5541e-07,  2.1548e-07,  2.2794e-07,  1.7881e-07,
+         3.7486e-08, -5.9517e-09, -6.1048e-07,  6.1293e-08,  4.3656e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 489, time 217.72, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4051 re_mapping 0.0014 re_causal 0.0063 /// teacc 99.22 lr 0.00001000
+Epoch 491, weight, value: tensor([[ 0.0345, -0.1070, -0.0340,  ..., -0.1584, -0.1889, -0.1833],
+        [-0.1682,  0.0913, -0.1584,  ..., -0.2583, -0.2216, -0.2276],
+        [-0.1621, -0.2099, -0.2542,  ..., -0.2361, -0.1864,  0.1868],
+        ...,
+        [ 0.0927, -0.0823, -0.2220,  ...,  0.1147, -0.1932, -0.1693],
+        [ 0.1491,  0.1118,  0.1218,  ..., -0.2473, -0.1401,  0.1003],
+        [ 0.0852,  0.0646,  0.1441,  ...,  0.0576, -0.1100, -0.0255]],
+       device='cuda:0'), grad: tensor([[ 4.3656e-10,  3.7835e-10,  1.0186e-10,  ...,  4.3656e-10,
+          2.7649e-10,  4.0745e-10],
+        [ 5.0495e-09, -5.2241e-09,  7.5670e-10,  ...,  4.5984e-09,
+          2.9104e-10,  5.6752e-09],
+        [ 9.2841e-09,  1.4697e-09,  7.2760e-11,  ...,  7.6543e-09,
+          2.1828e-10, -8.9203e-09],
+        ...,
+        [-5.8790e-08,  5.3551e-09,  1.0186e-09,  ..., -4.4995e-08,
+          1.4552e-10,  2.0518e-09],
+        [ 5.2096e-09, -5.4133e-09, -3.7107e-09,  ...,  8.7603e-09,
+          5.2387e-10, -4.5839e-09],
+        [ 2.4491e-08, -1.6444e-09, -1.8481e-09,  ...,  1.8306e-08,
+          1.4406e-09,  1.5862e-09]], device='cuda:0')
+Epoch 491, bias, value: tensor([ 0.0189, -0.0310, -0.0070,  0.0134, -0.0015, -0.0156,  0.0062,  0.0162,
+        -0.0364,  0.0120], device='cuda:0'), grad: tensor([ 3.8563e-09,  1.5032e-08, -9.7498e-10,  5.7800e-08,  1.0259e-08,
+        -7.0868e-09,  3.2305e-09, -1.4878e-07,  1.5876e-08,  7.5786e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 490, time 218.02, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4051 re_mapping 0.0015 re_causal 0.0063 /// teacc 99.23 lr 0.00001000
+Epoch 492, weight, value: tensor([[ 0.0346, -0.1071, -0.0340,  ..., -0.1584, -0.1890, -0.1834],
+        [-0.1683,  0.0915, -0.1585,  ..., -0.2584, -0.2217, -0.2278],
+        [-0.1622, -0.2100, -0.2543,  ..., -0.2363, -0.1865,  0.1870],
+        ...,
+        [ 0.0927, -0.0823, -0.2222,  ...,  0.1147, -0.1932, -0.1694],
+        [ 0.1493,  0.1121,  0.1221,  ..., -0.2474, -0.1401,  0.1005],
+        [ 0.0852,  0.0646,  0.1442,  ...,  0.0576, -0.1103, -0.0258]],
+       device='cuda:0'), grad: tensor([[-3.3033e-09,  7.1304e-10,  2.9104e-11,  ...,  0.0000e+00,
+          1.2267e-08,  1.1802e-08],
+        [ 9.8953e-10, -7.0140e-09,  1.7462e-10,  ...,  7.5670e-10,
+          7.1159e-09,  8.7603e-09],
+        [ 9.7498e-10,  4.6857e-09,  1.1642e-10,  ..., -2.6193e-10,
+          4.5111e-09, -2.5175e-09],
+        ...,
+        [ 3.4925e-10,  4.5839e-09,  4.3656e-10,  ...,  5.8208e-10,
+          1.1642e-10,  2.0809e-09],
+        [ 1.1642e-10,  2.2701e-09, -4.8021e-10,  ...,  1.0332e-09,
+          3.0384e-08,  2.8886e-08],
+        [ 1.2078e-09,  1.2224e-09,  1.6007e-10,  ...,  6.6939e-10,
+          7.8580e-10,  9.0222e-10]], device='cuda:0')
+Epoch 492, bias, value: tensor([ 0.0190, -0.0310, -0.0070,  0.0134, -0.0014, -0.0157,  0.0063,  0.0162,
+        -0.0364,  0.0120], device='cuda:0'), grad: tensor([ 2.1028e-08, -3.1287e-09,  2.1973e-09, -9.8953e-10,  6.7870e-08,
+         1.6298e-07, -3.7812e-07,  2.7663e-08,  1.0798e-07,  1.6182e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 491, time 217.39, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4177 re_mapping 0.0015 re_causal 0.0064 /// teacc 99.22 lr 0.00001000
+Epoch 493, weight, value: tensor([[ 0.0348, -0.1071, -0.0340,  ..., -0.1584, -0.1891, -0.1836],
+        [-0.1684,  0.0917, -0.1586,  ..., -0.2585, -0.2218, -0.2279],
+        [-0.1624, -0.2101, -0.2543,  ..., -0.2364, -0.1866,  0.1872],
+        ...,
+        [ 0.0927, -0.0824, -0.2225,  ...,  0.1148, -0.1932, -0.1696],
+        [ 0.1497,  0.1123,  0.1224,  ..., -0.2475, -0.1402,  0.1007],
+        [ 0.0852,  0.0646,  0.1443,  ...,  0.0576, -0.1104, -0.0259]],
+       device='cuda:0'), grad: tensor([[ 5.3842e-10,  2.0518e-09,  6.5484e-10,  ...,  1.1787e-09,
+          2.1828e-10,  4.8021e-10],
+        [ 3.4051e-09, -8.6380e-07,  1.1642e-09,  ..., -3.5565e-08,
+         -1.1089e-08,  6.2573e-10],
+        [ 1.2369e-09,  3.6671e-08,  6.9849e-10,  ...,  2.9104e-09,
+          7.1304e-10,  8.4401e-10],
+        ...,
+        [ 2.4156e-09,  7.9442e-07,  2.4011e-09,  ...,  2.5873e-08,
+          6.6793e-09,  4.7439e-09],
+        [-1.4683e-08, -3.7398e-09, -1.2515e-09,  ...,  1.0463e-08,
+          8.4401e-10, -1.3402e-08],
+        [-1.2064e-08, -1.1394e-08, -2.1057e-08,  ..., -3.4488e-08,
+          3.0850e-09, -5.0495e-09]], device='cuda:0')
+Epoch 493, bias, value: tensor([ 0.0191, -0.0310, -0.0070,  0.0134, -0.0015, -0.0157,  0.0065,  0.0162,
+        -0.0363,  0.0120], device='cuda:0'), grad: tensor([ 1.0754e-08, -3.9376e-06,  1.7008e-07,  2.4884e-08,  8.7079e-08,
+         4.5635e-08,  3.3877e-08,  3.6694e-06,  4.3947e-09, -8.6904e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 492, time 217.83, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4056 re_mapping 0.0014 re_causal 0.0063 /// teacc 99.19 lr 0.00001000
+Epoch 494, weight, value: tensor([[ 0.0349, -0.1071, -0.0341,  ..., -0.1584, -0.1892, -0.1838],
+        [-0.1685,  0.0919, -0.1587,  ..., -0.2586, -0.2219, -0.2281],
+        [-0.1625, -0.2102, -0.2544,  ..., -0.2365, -0.1866,  0.1875],
+        ...,
+        [ 0.0928, -0.0825, -0.2226,  ...,  0.1148, -0.1932, -0.1699],
+        [ 0.1499,  0.1125,  0.1225,  ..., -0.2477, -0.1402,  0.1009],
+        [ 0.0852,  0.0647,  0.1445,  ...,  0.0576, -0.1105, -0.0261]],
+       device='cuda:0'), grad: tensor([[ 2.1828e-10,  1.3679e-09,  2.9104e-11,  ...,  3.9290e-10,
+          1.7069e-08,  1.5789e-08],
+        [ 5.6752e-09, -4.3801e-09,  1.4552e-11,  ...,  1.1409e-08,
+          2.2264e-09,  1.9354e-09],
+        [ 1.4188e-08,  7.1450e-09,  0.0000e+00,  ...,  3.2451e-08,
+          6.9849e-10,  5.5297e-10],
+        ...,
+        [-4.3074e-08,  1.9587e-08,  5.6752e-10,  ..., -8.1607e-08,
+          2.9104e-10,  2.9104e-11],
+        [ 2.4738e-09,  4.3510e-09,  1.4552e-10,  ...,  3.9727e-09,
+          1.2049e-08,  1.0987e-08],
+        [ 1.6415e-08,  2.9686e-09,  0.0000e+00,  ...,  2.3691e-08,
+          8.4401e-10,  7.2760e-10]], device='cuda:0')
+Epoch 494, bias, value: tensor([ 0.0191, -0.0309, -0.0069,  0.0133, -0.0016, -0.0157,  0.0066,  0.0162,
+        -0.0363,  0.0120], device='cuda:0'), grad: tensor([ 5.8673e-08,  1.4654e-08,  1.1711e-07, -1.7241e-07,  1.0442e-07,
+         3.0221e-07, -4.1025e-07, -1.5646e-07,  8.0501e-08,  7.9803e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 493, time 217.43, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4260 re_mapping 0.0015 re_causal 0.0066 /// teacc 99.19 lr 0.00001000
+Epoch 495, weight, value: tensor([[ 0.0349, -0.1072, -0.0341,  ..., -0.1584, -0.1892, -0.1839],
+        [-0.1686,  0.0921, -0.1588,  ..., -0.2586, -0.2219, -0.2283],
+        [-0.1627, -0.2102, -0.2545,  ..., -0.2367, -0.1866,  0.1877],
+        ...,
+        [ 0.0928, -0.0825, -0.2228,  ...,  0.1148, -0.1934, -0.1701],
+        [ 0.1500,  0.1126,  0.1226,  ..., -0.2479, -0.1402,  0.1010],
+        [ 0.0853,  0.0647,  0.1449,  ...,  0.0576, -0.1106, -0.0261]],
+       device='cuda:0'), grad: tensor([[-8.0036e-10,  1.8917e-10,  1.3097e-10,  ...,  1.7462e-10,
+          2.5757e-09,  3.1141e-09],
+        [ 7.1595e-09, -2.9104e-10,  3.3469e-10,  ...,  6.9122e-09,
+          8.2946e-10,  2.5175e-09],
+        [ 4.2637e-09,  6.7812e-09,  3.3469e-10,  ...,  5.5006e-09,
+          8.2946e-10, -2.4593e-09],
+        ...,
+        [-2.0518e-08,  7.2614e-09,  2.7649e-10,  ..., -2.4433e-08,
+          1.4552e-11,  1.8481e-09],
+        [ 1.6880e-09,  4.2055e-09,  1.6007e-10,  ...,  2.8813e-09,
+          1.7419e-08,  2.4869e-08],
+        [ 5.4133e-09,  4.2201e-10,  2.9104e-10,  ...,  5.4279e-09,
+          8.7311e-11,  4.2201e-10]], device='cuda:0')
+Epoch 495, bias, value: tensor([ 0.0192, -0.0309, -0.0069,  0.0133, -0.0017, -0.0156,  0.0065,  0.0162,
+        -0.0363,  0.0120], device='cuda:0'), grad: tensor([ 5.7044e-09,  2.7663e-08,  2.8114e-08, -4.7905e-08,  1.7157e-08,
+         1.3225e-07, -2.1025e-07, -4.7323e-08,  9.2376e-08,  2.0576e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 494, time 217.95, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4013 re_mapping 0.0015 re_causal 0.0064 /// teacc 99.19 lr 0.00001000
+Epoch 496, weight, value: tensor([[ 0.0349, -0.1073, -0.0341,  ..., -0.1585, -0.1893, -0.1840],
+        [-0.1688,  0.0922, -0.1589,  ..., -0.2588, -0.2220, -0.2285],
+        [-0.1629, -0.2103, -0.2545,  ..., -0.2370, -0.1867,  0.1879],
+        ...,
+        [ 0.0928, -0.0825, -0.2230,  ...,  0.1149, -0.1937, -0.1703],
+        [ 0.1500,  0.1127,  0.1227,  ..., -0.2481, -0.1403,  0.1011],
+        [ 0.0853,  0.0647,  0.1452,  ...,  0.0576, -0.1108, -0.0262]],
+       device='cuda:0'), grad: tensor([[ 1.8772e-09,  3.0559e-09,  1.5425e-09,  ...,  5.9663e-10,
+          1.7171e-09,  2.4593e-09],
+        [ 1.0201e-08,  1.3533e-08,  6.4319e-09,  ...,  2.3574e-09,
+          4.4529e-09,  1.1525e-08],
+        [ 4.4674e-09,  5.0495e-09,  1.8772e-09,  ...,  2.6193e-09,
+          1.0041e-09,  4.3510e-09],
+        ...,
+        [ 1.7899e-09,  9.4151e-09,  3.9290e-09,  ..., -4.2492e-09,
+          2.5757e-09,  5.1368e-09],
+        [-1.2026e-07, -1.6601e-07, -7.8813e-08,  ...,  9.5606e-09,
+         -1.0419e-07, -1.5646e-07],
+        [ 8.5856e-10, -1.5352e-08, -1.2675e-08,  ..., -2.4549e-08,
+          6.9558e-09,  7.5961e-09]], device='cuda:0')
+Epoch 496, bias, value: tensor([ 0.0191, -0.0310, -0.0069,  0.0133, -0.0015, -0.0156,  0.0066,  0.0162,
+        -0.0364,  0.0120], device='cuda:0'), grad: tensor([ 1.2136e-08,  5.7335e-08,  2.7634e-08,  4.0978e-08,  1.2034e-08,
+         3.6298e-07,  1.4645e-07,  1.3417e-08, -5.7230e-07, -6.9442e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 495, time 217.59, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4021 re_mapping 0.0014 re_causal 0.0063 /// teacc 99.20 lr 0.00001000
+Epoch 497, weight, value: tensor([[ 0.0350, -0.1074, -0.0342,  ..., -0.1585, -0.1894, -0.1841],
+        [-0.1689,  0.0923, -0.1590,  ..., -0.2589, -0.2221, -0.2287],
+        [-0.1631, -0.2104, -0.2546,  ..., -0.2371, -0.1868,  0.1880],
+        ...,
+        [ 0.0929, -0.0826, -0.2232,  ...,  0.1149, -0.1937, -0.1704],
+        [ 0.1502,  0.1128,  0.1228,  ..., -0.2483, -0.1404,  0.1012],
+        [ 0.0853,  0.0648,  0.1456,  ...,  0.0576, -0.1109, -0.0262]],
+       device='cuda:0'), grad: tensor([[-1.2966e-08, -6.8540e-09,  3.9290e-10,  ...,  2.6048e-09,
+         -4.5693e-09,  5.8208e-11],
+        [ 1.0041e-08,  3.6816e-09,  1.6735e-09,  ...,  1.1467e-08,
+          2.0664e-09,  4.5984e-09],
+        [ 4.8021e-09,  6.8248e-09,  9.6043e-10,  ...,  7.1886e-09,
+          3.6671e-09,  3.7689e-09],
+        ...,
+        [-2.8987e-08,  6.0536e-09,  1.2806e-09,  ..., -5.2154e-08,
+          1.9063e-08,  1.4421e-08],
+        [-1.1772e-08, -5.6752e-10, -4.7439e-09,  ...,  2.7212e-09,
+          1.3533e-09, -1.1103e-08],
+        [ 2.4374e-08,  5.8208e-09, -1.1933e-09,  ...,  9.1153e-08,
+          2.5961e-08,  1.7142e-08]], device='cuda:0')
+Epoch 497, bias, value: tensor([ 0.0192, -0.0310, -0.0070,  0.0132, -0.0016, -0.0156,  0.0065,  0.0162,
+        -0.0365,  0.0120], device='cuda:0'), grad: tensor([-1.3702e-07,  5.8324e-08,  4.3947e-08, -2.6339e-09, -1.4086e-07,
+        -1.6636e-07,  1.4715e-07, -6.6124e-08,  6.3970e-08,  2.2911e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 496, time 217.53, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.3993 re_mapping 0.0014 re_causal 0.0063 /// teacc 99.22 lr 0.00001000
+Epoch 498, weight, value: tensor([[ 0.0352, -0.1074, -0.0342,  ..., -0.1585, -0.1894, -0.1841],
+        [-0.1690,  0.0924, -0.1591,  ..., -0.2589, -0.2222, -0.2288],
+        [-0.1633, -0.2105, -0.2546,  ..., -0.2373, -0.1869,  0.1881],
+        ...,
+        [ 0.0929, -0.0826, -0.2234,  ...,  0.1149, -0.1937, -0.1705],
+        [ 0.1503,  0.1130,  0.1230,  ..., -0.2484, -0.1404,  0.1014],
+        [ 0.0853,  0.0648,  0.1459,  ...,  0.0576, -0.1110, -0.0263]],
+       device='cuda:0'), grad: tensor([[-1.1714e-08,  1.8917e-10, -1.5862e-09,  ..., -1.1642e-10,
+          8.5856e-10,  8.4401e-10],
+        [ 2.8958e-09,  1.3388e-09,  6.8394e-10,  ...,  5.8208e-09,
+          2.6193e-10,  1.3533e-09],
+        [ 4.3947e-09,  8.5856e-10,  3.3469e-10,  ...,  2.8522e-09,
+          5.2387e-10,  8.7311e-10],
+        ...,
+        [-1.5425e-08,  2.2847e-09,  6.1118e-10,  ..., -3.7835e-10,
+          8.7311e-11,  7.7125e-10],
+        [ 6.5484e-10, -2.7212e-09, -1.7026e-09,  ...,  5.2823e-09,
+          1.0332e-09, -2.7794e-09],
+        [ 1.2937e-08,  6.6939e-10,  5.0932e-10,  ...,  1.6706e-08,
+          9.4587e-10,  9.3132e-10]], device='cuda:0')
+Epoch 498, bias, value: tensor([ 0.0193, -0.0310, -0.0070,  0.0132, -0.0017, -0.0156,  0.0065,  0.0162,
+        -0.0364,  0.0120], device='cuda:0'), grad: tensor([-4.5868e-08,  4.4995e-08,  2.5786e-08,  5.5297e-08,  1.8365e-08,
+        -3.6508e-07,  6.1933e-08,  1.0309e-07,  3.7922e-08,  8.0676e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 497, time 217.48, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4104 re_mapping 0.0014 re_causal 0.0064 /// teacc 99.21 lr 0.00001000
+Epoch 499, weight, value: tensor([[ 0.0354, -0.1074, -0.0342,  ..., -0.1586, -0.1895, -0.1842],
+        [-0.1690,  0.0926, -0.1592,  ..., -0.2590, -0.2223, -0.2289],
+        [-0.1635, -0.2106, -0.2546,  ..., -0.2375, -0.1869,  0.1882],
+        ...,
+        [ 0.0930, -0.0827, -0.2235,  ...,  0.1150, -0.1937, -0.1705],
+        [ 0.1505,  0.1131,  0.1231,  ..., -0.2486, -0.1405,  0.1016],
+        [ 0.0853,  0.0648,  0.1461,  ...,  0.0576, -0.1112, -0.0264]],
+       device='cuda:0'), grad: tensor([[ 9.0222e-10,  2.9249e-09,  1.5425e-09,  ...,  3.4925e-09,
+          6.1118e-10,  6.6939e-10],
+        [ 1.4406e-09, -7.5204e-08,  7.8580e-10,  ...,  3.3760e-09,
+          1.4697e-09, -6.9413e-09],
+        [ 1.1059e-09,  8.1636e-09,  2.0373e-10,  ...,  2.0955e-09,
+          1.3533e-09,  1.8772e-09],
+        ...,
+        [ 9.3860e-09,  1.4043e-08,  7.2032e-09,  ...,  1.7477e-08,
+          4.4674e-09,  3.2596e-09],
+        [ 3.5216e-09,  5.0029e-08,  2.2264e-09,  ...,  5.5588e-09,
+          8.4401e-10,  6.3446e-09],
+        [-3.8825e-08, -3.2625e-08, -3.1840e-08,  ...,  8.3237e-09,
+          6.9558e-08,  3.0268e-08]], device='cuda:0')
+Epoch 499, bias, value: tensor([ 0.0195, -0.0310, -0.0071,  0.0132, -0.0017, -0.0156,  0.0065,  0.0162,
+        -0.0364,  0.0119], device='cuda:0'), grad: tensor([ 1.1860e-08, -3.0920e-07,  4.2433e-08,  7.8580e-09, -5.4919e-08,
+        -3.0210e-08,  8.0559e-08,  7.2294e-08,  2.3982e-07, -3.3819e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 498, time 217.80, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4113 re_mapping 0.0014 re_causal 0.0063 /// teacc 99.20 lr 0.00001000
+Epoch 500, weight, value: tensor([[ 0.0355, -0.1075, -0.0342,  ..., -0.1586, -0.1895, -0.1843],
+        [-0.1691,  0.0928, -0.1592,  ..., -0.2591, -0.2224, -0.2291],
+        [-0.1638, -0.2107, -0.2547,  ..., -0.2378, -0.1870,  0.1883],
+        ...,
+        [ 0.0930, -0.0827, -0.2237,  ...,  0.1151, -0.1937, -0.1706],
+        [ 0.1505,  0.1133,  0.1233,  ..., -0.2488, -0.1405,  0.1017],
+        [ 0.0853,  0.0648,  0.1463,  ...,  0.0576, -0.1114, -0.0266]],
+       device='cuda:0'), grad: tensor([[-2.2847e-09,  8.1491e-10,  4.2201e-10,  ...,  1.1642e-09,
+          7.5670e-10,  1.6880e-09],
+        [ 5.4279e-09,  9.4587e-10,  9.0222e-10,  ...,  6.6502e-09,
+          1.3679e-09,  1.8699e-08],
+        [ 9.6043e-10,  5.5588e-09,  2.8376e-09,  ..., -3.9290e-09,
+          4.2346e-09, -7.3807e-08],
+        ...,
+        [-5.3697e-09,  7.5379e-09,  3.8999e-09,  ..., -7.7271e-09,
+          1.5716e-09,  3.7311e-08],
+        [-2.5029e-09, -7.9890e-09, -4.3365e-09,  ...,  9.2841e-09,
+         -1.3388e-09, -1.9354e-09],
+        [-1.0885e-08, -1.4596e-08, -8.4547e-09,  ..., -4.7585e-09,
+          9.0513e-09,  8.1200e-09]], device='cuda:0')
+Epoch 500, bias, value: tensor([ 0.0196, -0.0309, -0.0072,  0.0131, -0.0017, -0.0155,  0.0065,  0.0162,
+        -0.0365,  0.0119], device='cuda:0'), grad: tensor([-2.5029e-09,  6.9849e-08, -2.2969e-07,  4.3539e-08, -8.3528e-09,
+         2.1959e-08,  2.6630e-09,  9.7847e-08,  2.3618e-08, -1.2442e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 499, time 217.83, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4199 re_mapping 0.0015 re_causal 0.0064 /// teacc 99.18 lr 0.00001000
+---------------------saving last model at epoch 499----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps5', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps5/14factor_best.csv', 'channels': 3, 'factor_num': 14, 'stride': 3, 'epoch': 'best', 'eval_mapping': True}
+loading weight of best
+randm: False
+stride: 3
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+Using downloaded and verified file: /home/yuqian_fu/.pytorch/SVHN/test_32x32.mat
+                         mnist   mnist_FA  ...    usps_FA        Avg
+ShearX               99.010002  99.180000  ...  90.134529  74.229075
+ShearY               98.889999  98.979996  ...  90.134529  69.590206
+AutoContrast         99.159996  99.220001  ...  90.134529  64.794886
+Invert               98.909996  97.829994  ...  90.134529  61.473919
+Equalize             98.540001  98.699997  ...  90.134529  70.410120
+Solarize             98.320000  98.409996  ...  90.134529  60.968220
+SolarizeAdd          98.629997  98.529999  ...  90.134529  68.521472
+Posterize            99.019997  99.080002  ...  90.134529  73.605137
+Contrast             99.089996  99.269997  ...  90.134529  70.217152
+Color                99.070000  99.250000  ...  90.134529  61.023748
+Brightness           99.040001  99.220001  ...  90.134529  71.119184
+Sharpness            99.139999  99.260002  ...  90.134529  74.840681
+NoiseSalt            99.159996  99.199997  ...  90.134529  65.811692
+NoiseGaussian        99.110001  99.239998  ...  90.134529  63.527483
+w/o do (original x)  99.250000   0.000000  ...   0.000000  76.780433
+
+[15 rows x 11 columns]
+    mnist       svhn    mnist_m   syndigit       usps        Avg
+do  99.24  68.742317  78.524608  78.237203  89.586447  78.772644
diff --git a/Meta-causal/code-withStyleAttack/66576.error b/Meta-causal/code-withStyleAttack/66576.error
new file mode 100644
index 0000000000000000000000000000000000000000..1bcb69be82d680b0fab7b86e577d164aa0960707
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/66576.error
@@ -0,0 +1 @@
+run_my_joint_test.sh: line 39: um: command not found
diff --git a/Meta-causal/code-withStyleAttack/66576.log b/Meta-causal/code-withStyleAttack/66576.log
new file mode 100644
index 0000000000000000000000000000000000000000..44eee368d2c3c11babff61d5e9261aa2075739e5
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/66576.log
@@ -0,0 +1,14609 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 500, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_skip2', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 3
+--------------------------CA_multiple--------------------------
+---------------------------14 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+Epoch 1, weight, value: tensor([[-0.0225,  0.0167,  0.0002,  ...,  0.0177,  0.0233,  0.0266],
+        [ 0.0205,  0.0032, -0.0094,  ..., -0.0179,  0.0109, -0.0055],
+        [ 0.0307, -0.0056,  0.0230,  ..., -0.0012, -0.0074, -0.0211],
+        ...,
+        [ 0.0139, -0.0308,  0.0127,  ..., -0.0037, -0.0164, -0.0115],
+        [-0.0048, -0.0046, -0.0162,  ..., -0.0063, -0.0257, -0.0111],
+        [ 0.0046,  0.0199,  0.0034,  ...,  0.0211, -0.0023, -0.0060]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([ 0.0309,  0.0096,  0.0175,  0.0242,  0.0277, -0.0111,  0.0008, -0.0064,
+         0.0129, -0.0281], device='cuda:0'), grad: None
+100
+0.0001
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 220.36, cls_loss 1.5267 cls_loss_mapping 1.9075 cls_loss_causal 2.2132 re_mapping 0.1092 re_causal 0.1090 /// teacc 76.68 lr 0.00010000
+Epoch 2, weight, value: tensor([[-0.0201,  0.0167, -0.0037,  ...,  0.0152,  0.0256,  0.0267],
+        [ 0.0177,  0.0032, -0.0068,  ..., -0.0277,  0.0075, -0.0060],
+        [ 0.0289, -0.0056,  0.0189,  ..., -0.0083, -0.0071, -0.0237],
+        ...,
+        [ 0.0049, -0.0308,  0.0190,  ..., -0.0020, -0.0202, -0.0192],
+        [-0.0054, -0.0046, -0.0150,  ..., -0.0035, -0.0280, -0.0132],
+        [-0.0039,  0.0199,  0.0064,  ...,  0.0266, -0.0072, -0.0137]],
+       device='cuda:0'), grad: tensor([[ 0.0073,  0.0000,  0.0025,  ...,  0.0043, -0.0046,  0.0015],
+        [-0.0229,  0.0000, -0.0339,  ..., -0.0133,  0.0003, -0.0093],
+        [ 0.0087,  0.0000,  0.0047,  ...,  0.0064,  0.0014,  0.0115],
+        ...,
+        [ 0.0060,  0.0000, -0.0197,  ..., -0.0346,  0.0003,  0.0047],
+        [ 0.0094,  0.0000, -0.0047,  ..., -0.0160,  0.0012,  0.0116],
+        [ 0.0079,  0.0000,  0.0296,  ...,  0.0594,  0.0003,  0.0078]],
+       device='cuda:0')
+Epoch 2, bias, value: tensor([ 0.0286,  0.0107,  0.0166,  0.0242,  0.0282, -0.0103,  0.0009, -0.0055,
+         0.0122, -0.0278], device='cuda:0'), grad: tensor([ 0.0085, -0.0685,  0.0128,  0.0494,  0.0425, -0.0736,  0.0026, -0.0192,
+        -0.0084,  0.0539], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 219.53, cls_loss 0.5938 cls_loss_mapping 0.8408 cls_loss_causal 1.9057 re_mapping 0.2141 re_causal 0.2563 /// teacc 90.99 lr 0.00010000
+Epoch 3, weight, value: tensor([[-0.0245,  0.0261, -0.0054,  ...,  0.0157,  0.0307,  0.0270],
+        [ 0.0198, -0.0102, -0.0059,  ..., -0.0310,  0.0052, -0.0060],
+        [ 0.0230, -0.0053,  0.0215,  ..., -0.0099, -0.0045, -0.0271],
+        ...,
+        [-0.0012, -0.0333,  0.0206,  ..., -0.0030, -0.0232, -0.0226],
+        [-0.0053, -0.0102, -0.0147,  ..., -0.0009, -0.0321, -0.0142],
+        [-0.0063,  0.0145,  0.0101,  ...,  0.0293, -0.0117, -0.0174]],
+       device='cuda:0'), grad: tensor([[ 0.0179,  0.0370,  0.0008,  ...,  0.0012,  0.0406,  0.0329],
+        [ 0.0097,  0.0006,  0.0047,  ...,  0.0054,  0.0051,  0.0108],
+        [-0.0152, -0.0220,  0.0103,  ...,  0.0091, -0.0278, -0.0152],
+        ...,
+        [ 0.0012, -0.0083, -0.0141,  ..., -0.0144,  0.0011,  0.0011],
+        [-0.0235, -0.0016, -0.0084,  ..., -0.0048, -0.0111, -0.0231],
+        [ 0.0034,  0.0105,  0.0216,  ...,  0.0271,  0.0012,  0.0041]],
+       device='cuda:0')
+Epoch 3, bias, value: tensor([ 0.0286,  0.0112,  0.0167,  0.0236,  0.0278, -0.0088,  0.0002, -0.0061,
+         0.0122, -0.0276], device='cuda:0'), grad: tensor([ 0.0415,  0.0196, -0.0148, -0.0119,  0.0145, -0.0011, -0.0177, -0.0120,
+        -0.0407,  0.0226], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 219.37, cls_loss 0.3528 cls_loss_mapping 0.5048 cls_loss_causal 1.6672 re_mapping 0.1607 re_causal 0.2469 /// teacc 94.06 lr 0.00010000
+Epoch 4, weight, value: tensor([[-0.0282,  0.0310, -0.0071,  ...,  0.0152,  0.0327,  0.0265],
+        [ 0.0220, -0.0141, -0.0044,  ..., -0.0327,  0.0038, -0.0054],
+        [ 0.0187, -0.0068,  0.0225,  ..., -0.0110, -0.0029, -0.0305],
+        ...,
+        [-0.0082, -0.0330,  0.0225,  ..., -0.0034, -0.0251, -0.0254],
+        [-0.0052, -0.0127, -0.0148,  ..., -0.0003, -0.0336, -0.0147],
+        [-0.0057,  0.0149,  0.0114,  ...,  0.0309, -0.0133, -0.0183]],
+       device='cuda:0'), grad: tensor([[-5.7335e-03, -3.5362e-03,  2.6655e-04,  ...,  1.9569e-03,
+         -5.1361e-02, -3.3386e-02],
+        [-5.5351e-03,  5.1171e-05, -2.9163e-03,  ...,  1.6575e-03,
+         -6.1131e-04, -2.6169e-03],
+        [-2.0523e-03,  7.4863e-04, -3.0365e-02,  ..., -1.9188e-03,
+         -9.5673e-03,  1.0605e-03],
+        ...,
+        [ 4.6616e-03,  8.5783e-04,  1.5022e-02,  ...,  1.2039e-02,
+          2.7351e-03,  1.4219e-03],
+        [-4.7607e-02,  2.5058e-04,  8.6212e-03,  ..., -3.5095e-02,
+         -6.2218e-03, -4.8737e-02],
+        [ 2.0504e-03,  1.8203e-04, -1.2543e-02,  ..., -2.1454e-02,
+          2.8725e-03,  2.3060e-03]], device='cuda:0')
+Epoch 4, bias, value: tensor([ 0.0282,  0.0117,  0.0164,  0.0236,  0.0277, -0.0085,  0.0001, -0.0060,
+         0.0122, -0.0277], device='cuda:0'), grad: tensor([-0.0397, -0.0046, -0.0274,  0.0409,  0.0020,  0.0201,  0.0434,  0.0181,
+        -0.0376, -0.0151], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 219.32, cls_loss 0.2471 cls_loss_mapping 0.3487 cls_loss_causal 1.5058 re_mapping 0.1274 re_causal 0.2318 /// teacc 94.89 lr 0.00010000
+Epoch 5, weight, value: tensor([[-0.0305,  0.0348, -0.0081,  ...,  0.0146,  0.0350,  0.0269],
+        [ 0.0237, -0.0174, -0.0036,  ..., -0.0346,  0.0042, -0.0050],
+        [ 0.0150, -0.0087,  0.0233,  ..., -0.0131, -0.0026, -0.0332],
+        ...,
+        [-0.0123, -0.0327,  0.0232,  ..., -0.0039, -0.0274, -0.0271],
+        [-0.0064, -0.0147, -0.0144,  ...,  0.0005, -0.0354, -0.0153],
+        [-0.0041,  0.0154,  0.0124,  ...,  0.0326, -0.0140, -0.0189]],
+       device='cuda:0'), grad: tensor([[ 0.0059, -0.0004,  0.0047,  ...,  0.0031,  0.0001,  0.0063],
+        [-0.0031,  0.0005, -0.0039,  ...,  0.0015, -0.0007, -0.0007],
+        [ 0.0047, -0.0002, -0.0274,  ..., -0.0009,  0.0035,  0.0104],
+        ...,
+        [ 0.0120,  0.0036,  0.0207,  ...,  0.0140,  0.0009,  0.0075],
+        [-0.0013,  0.0037,  0.0043,  ..., -0.0010, -0.0032, -0.0052],
+        [ 0.0015,  0.0003, -0.0022,  ..., -0.0103,  0.0013,  0.0033]],
+       device='cuda:0')
+Epoch 5, bias, value: tensor([ 0.0289,  0.0120,  0.0162,  0.0235,  0.0277, -0.0086, -0.0001, -0.0063,
+         0.0120, -0.0274], device='cuda:0'), grad: tensor([ 0.0010, -0.0056,  0.0031,  0.0058, -0.0155, -0.0104,  0.0064,  0.0269,
+        -0.0172,  0.0054], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 219.06, cls_loss 0.2034 cls_loss_mapping 0.2719 cls_loss_causal 1.3978 re_mapping 0.1024 re_causal 0.2110 /// teacc 95.77 lr 0.00010000
+Epoch 6, weight, value: tensor([[-0.0336,  0.0380, -0.0092,  ...,  0.0140,  0.0356,  0.0264],
+        [ 0.0246, -0.0194, -0.0027,  ..., -0.0355,  0.0041, -0.0055],
+        [ 0.0132, -0.0101,  0.0234,  ..., -0.0151, -0.0022, -0.0348],
+        ...,
+        [-0.0149, -0.0333,  0.0243,  ..., -0.0042, -0.0294, -0.0289],
+        [-0.0068, -0.0169, -0.0139,  ...,  0.0011, -0.0368, -0.0154],
+        [-0.0043,  0.0150,  0.0127,  ...,  0.0337, -0.0149, -0.0198]],
+       device='cuda:0'), grad: tensor([[-0.0215, -0.0197, -0.0004,  ...,  0.0006, -0.0313, -0.0342],
+        [-0.0025,  0.0009, -0.0030,  ...,  0.0004,  0.0004,  0.0003],
+        [ 0.0017,  0.0007,  0.0006,  ...,  0.0008,  0.0004,  0.0021],
+        ...,
+        [ 0.0009,  0.0003,  0.0013,  ...,  0.0076,  0.0008,  0.0017],
+        [ 0.0024,  0.0010,  0.0002,  ..., -0.0002,  0.0025,  0.0024],
+        [ 0.0015,  0.0006, -0.0052,  ..., -0.0186,  0.0010, -0.0017]],
+       device='cuda:0')
+Epoch 6, bias, value: tensor([ 0.0289,  0.0119,  0.0163,  0.0234,  0.0277, -0.0084, -0.0004, -0.0061,
+         0.0122, -0.0277], device='cuda:0'), grad: tensor([-0.0379, -0.0033, -0.0021,  0.0110,  0.0090,  0.0096,  0.0133,  0.0057,
+         0.0056, -0.0110], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 5----------------------------------------------------
+epoch 5, time 219.04, cls_loss 0.1859 cls_loss_mapping 0.2417 cls_loss_causal 1.3359 re_mapping 0.0876 re_causal 0.1969 /// teacc 96.10 lr 0.00010000
+Epoch 7, weight, value: tensor([[-0.0356,  0.0414, -0.0098,  ...,  0.0135,  0.0370,  0.0266],
+        [ 0.0256, -0.0229, -0.0024,  ..., -0.0365,  0.0039, -0.0058],
+        [ 0.0115, -0.0113,  0.0240,  ..., -0.0155, -0.0014, -0.0362],
+        ...,
+        [-0.0170, -0.0329,  0.0251,  ..., -0.0049, -0.0309, -0.0308],
+        [-0.0071, -0.0179, -0.0137,  ...,  0.0010, -0.0385, -0.0153],
+        [-0.0042,  0.0147,  0.0135,  ...,  0.0347, -0.0164, -0.0202]],
+       device='cuda:0'), grad: tensor([[ 0.0012, -0.0014,  0.0003,  ...,  0.0004,  0.0009,  0.0018],
+        [-0.0003,  0.0002, -0.0026,  ...,  0.0002, -0.0009,  0.0009],
+        [ 0.0018,  0.0010, -0.0075,  ...,  0.0006, -0.0043,  0.0026],
+        ...,
+        [ 0.0007,  0.0002,  0.0012,  ...,  0.0028,  0.0010,  0.0004],
+        [ 0.0069,  0.0012,  0.0025,  ..., -0.0003,  0.0045,  0.0062],
+        [ 0.0040,  0.0010, -0.0029,  ..., -0.0068,  0.0010,  0.0036]],
+       device='cuda:0')
+Epoch 7, bias, value: tensor([ 0.0288,  0.0118,  0.0165,  0.0234,  0.0279, -0.0086, -0.0008, -0.0061,
+         0.0123, -0.0276], device='cuda:0'), grad: tensor([ 0.0027, -0.0022, -0.0161,  0.0092,  0.0109,  0.0067, -0.0277,  0.0042,
+         0.0111,  0.0013], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 6----------------------------------------------------
+epoch 6, time 219.04, cls_loss 0.1534 cls_loss_mapping 0.1970 cls_loss_causal 1.2614 re_mapping 0.0771 re_causal 0.1781 /// teacc 96.11 lr 0.00010000
+Epoch 8, weight, value: tensor([[-0.0374,  0.0436, -0.0102,  ...,  0.0129,  0.0382,  0.0266],
+        [ 0.0263, -0.0280, -0.0018,  ..., -0.0369,  0.0033, -0.0068],
+        [ 0.0105, -0.0131,  0.0244,  ..., -0.0165,  0.0005, -0.0374],
+        ...,
+        [-0.0190, -0.0330,  0.0256,  ..., -0.0057, -0.0341, -0.0313],
+        [-0.0077, -0.0182, -0.0137,  ...,  0.0014, -0.0391, -0.0153],
+        [-0.0046,  0.0158,  0.0143,  ...,  0.0359, -0.0170, -0.0214]],
+       device='cuda:0'), grad: tensor([[-2.6155e-04, -3.1494e-02, -6.0501e-03,  ..., -1.1474e-05,
+         -1.3229e-02, -1.6586e-02],
+        [-2.8248e-03,  8.6117e-04, -1.1597e-03,  ...,  1.0719e-03,
+          5.3120e-04, -1.8024e-04],
+        [ 2.1133e-03,  5.4398e-03,  7.6532e-04,  ...,  3.3903e-04,
+          2.3289e-03,  4.4250e-03],
+        ...,
+        [ 6.7616e-04,  7.1096e-04, -4.5824e-04,  ...,  5.4502e-04,
+          4.7159e-04,  1.0986e-03],
+        [ 3.6831e-03,  1.4236e-02,  3.1090e-03,  ...,  9.8801e-04,
+          6.5308e-03,  1.3779e-02],
+        [ 2.2774e-03,  2.2945e-03,  1.0262e-03,  ...,  3.2921e-03,
+          1.2302e-03,  4.7417e-03]], device='cuda:0')
+Epoch 8, bias, value: tensor([ 0.0290,  0.0119,  0.0168,  0.0232,  0.0277, -0.0090, -0.0007, -0.0062,
+         0.0125, -0.0274], device='cuda:0'), grad: tensor([-0.0267, -0.0005,  0.0052, -0.0034, -0.0115,  0.0005,  0.0030,  0.0023,
+         0.0206,  0.0105], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 7----------------------------------------------------
+epoch 7, time 219.06, cls_loss 0.1330 cls_loss_mapping 0.1680 cls_loss_causal 1.2426 re_mapping 0.0670 re_causal 0.1663 /// teacc 96.35 lr 0.00010000
+Epoch 9, weight, value: tensor([[-0.0384,  0.0466, -0.0114,  ...,  0.0127,  0.0388,  0.0269],
+        [ 0.0282, -0.0300, -0.0014,  ..., -0.0375,  0.0033, -0.0076],
+        [ 0.0084, -0.0148,  0.0257,  ..., -0.0170,  0.0016, -0.0392],
+        ...,
+        [-0.0206, -0.0332,  0.0261,  ..., -0.0062, -0.0364, -0.0321],
+        [-0.0084, -0.0180, -0.0137,  ...,  0.0016, -0.0407, -0.0149],
+        [-0.0041,  0.0156,  0.0147,  ...,  0.0369, -0.0173, -0.0220]],
+       device='cuda:0'), grad: tensor([[ 1.2808e-03, -5.5170e-04,  7.5817e-04,  ...,  1.9479e-04,
+          6.9571e-04,  1.1396e-03],
+        [ 6.9678e-05,  1.2994e-05,  1.2722e-03,  ...,  4.8876e-04,
+         -3.2687e-04,  8.2970e-04],
+        [ 1.3905e-03,  1.5545e-04, -6.9580e-03,  ...,  2.0676e-03,
+         -4.1313e-03,  2.5387e-03],
+        ...,
+        [ 1.9360e-04,  1.6674e-05,  9.2773e-03,  ...,  2.6779e-03,
+          3.0923e-04,  1.9054e-03],
+        [ 5.1880e-03, -2.1815e-04,  9.9716e-03,  ..., -2.6855e-03,
+          2.5368e-03,  1.3151e-03],
+        [ 2.0752e-03,  2.2650e-04,  3.8109e-03,  ...,  1.0757e-03,
+          4.2224e-04,  2.5024e-03]], device='cuda:0')
+Epoch 9, bias, value: tensor([ 0.0292,  0.0122,  0.0171,  0.0229,  0.0275, -0.0090, -0.0012, -0.0061,
+         0.0125, -0.0273], device='cuda:0'), grad: tensor([ 0.0025,  0.0020, -0.0109, -0.0014,  0.0043, -0.0030, -0.0199,  0.0101,
+         0.0113,  0.0050], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 8----------------------------------------------------
+epoch 8, time 219.05, cls_loss 0.1259 cls_loss_mapping 0.1528 cls_loss_causal 1.1532 re_mapping 0.0622 re_causal 0.1539 /// teacc 96.76 lr 0.00010000
+Epoch 10, weight, value: tensor([[-0.0397,  0.0494, -0.0122,  ...,  0.0121,  0.0395,  0.0270],
+        [ 0.0286, -0.0336, -0.0016,  ..., -0.0384,  0.0021, -0.0086],
+        [ 0.0074, -0.0158,  0.0263,  ..., -0.0178,  0.0034, -0.0404],
+        ...,
+        [-0.0222, -0.0344,  0.0266,  ..., -0.0064, -0.0380, -0.0328],
+        [-0.0089, -0.0185, -0.0133,  ...,  0.0020, -0.0423, -0.0142],
+        [-0.0031,  0.0155,  0.0158,  ...,  0.0379, -0.0177, -0.0223]],
+       device='cuda:0'), grad: tensor([[ 0.0145,  0.0186,  0.0106,  ...,  0.0003,  0.0076,  0.0002],
+        [-0.0010,  0.0003, -0.0007,  ...,  0.0003, -0.0003,  0.0003],
+        [ 0.0024,  0.0031,  0.0032,  ...,  0.0003,  0.0022,  0.0003],
+        ...,
+        [ 0.0015,  0.0009,  0.0100,  ...,  0.0069,  0.0008,  0.0001],
+        [ 0.0019,  0.0014, -0.0022,  ..., -0.0004,  0.0005, -0.0003],
+        [-0.0215, -0.0328, -0.0349,  ..., -0.0106, -0.0123,  0.0008]],
+       device='cuda:0')
+Epoch 10, bias, value: tensor([ 0.0295,  0.0115,  0.0174,  0.0232,  0.0277, -0.0093, -0.0013, -0.0063,
+         0.0125, -0.0272], device='cuda:0'), grad: tensor([ 0.0189, -0.0006,  0.0060,  0.0105,  0.0013,  0.0077, -0.0054,  0.0057,
+        -0.0009, -0.0433], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 9----------------------------------------------------
+epoch 9, time 219.37, cls_loss 0.1196 cls_loss_mapping 0.1447 cls_loss_causal 1.1710 re_mapping 0.0586 re_causal 0.1453 /// teacc 96.94 lr 0.00010000
+Epoch 11, weight, value: tensor([[-0.0412,  0.0514, -0.0133,  ...,  0.0117,  0.0398,  0.0272],
+        [ 0.0299, -0.0366, -0.0011,  ..., -0.0388,  0.0017, -0.0094],
+        [ 0.0054, -0.0170,  0.0261,  ..., -0.0183,  0.0042, -0.0417],
+        ...,
+        [-0.0239, -0.0328,  0.0272,  ..., -0.0067, -0.0389, -0.0333],
+        [-0.0094, -0.0193, -0.0125,  ...,  0.0021, -0.0432, -0.0137],
+        [-0.0031,  0.0165,  0.0161,  ...,  0.0390, -0.0178, -0.0230]],
+       device='cuda:0'), grad: tensor([[ 1.7858e-04,  3.5000e-04,  5.4979e-04,  ...,  1.7166e-04,
+          4.4632e-03,  9.9659e-05],
+        [ 2.1315e-04,  4.6229e-04,  1.3285e-03,  ...,  8.7881e-04,
+          5.0354e-04,  9.9564e-04],
+        [ 3.3712e-04, -1.5230e-03, -2.3499e-03,  ...,  5.8413e-04,
+         -4.7836e-03,  3.2473e-04],
+        ...,
+        [-6.2108e-05, -1.7262e-03, -3.7262e-02,  ..., -2.4017e-02,
+          1.9193e-04, -1.2197e-03],
+        [-6.1493e-03, -4.5776e-03, -1.4305e-03,  ..., -3.0422e-03,
+          2.0294e-03, -7.7324e-03],
+        [ 5.4932e-03,  1.8673e-03,  1.6541e-02,  ...,  1.2100e-02,
+          6.5613e-04,  5.7602e-03]], device='cuda:0')
+Epoch 11, bias, value: tensor([ 0.0295,  0.0116,  0.0171,  0.0232,  0.0275, -0.0095, -0.0014, -0.0061,
+         0.0128, -0.0271], device='cuda:0'), grad: tensor([ 0.0056,  0.0024, -0.0086,  0.0046,  0.0048,  0.0123, -0.0035, -0.0315,
+        -0.0051,  0.0189], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 10----------------------------------------------------
+epoch 10, time 219.19, cls_loss 0.1014 cls_loss_mapping 0.1269 cls_loss_causal 1.0954 re_mapping 0.0542 re_causal 0.1359 /// teacc 97.24 lr 0.00010000
+Epoch 12, weight, value: tensor([[-0.0417,  0.0532, -0.0136,  ...,  0.0113,  0.0404,  0.0272],
+        [ 0.0313, -0.0384, -0.0005,  ..., -0.0390,  0.0016, -0.0101],
+        [ 0.0035, -0.0182,  0.0260,  ..., -0.0193,  0.0052, -0.0429],
+        ...,
+        [-0.0252, -0.0327,  0.0278,  ..., -0.0069, -0.0403, -0.0338],
+        [-0.0099, -0.0188, -0.0121,  ...,  0.0025, -0.0440, -0.0135],
+        [-0.0031,  0.0169,  0.0166,  ...,  0.0397, -0.0179, -0.0240]],
+       device='cuda:0'), grad: tensor([[-0.0103, -0.0351, -0.0093,  ..., -0.0177, -0.0022, -0.0048],
+        [-0.0035,  0.0003, -0.0008,  ..., -0.0002,  0.0015, -0.0002],
+        [ 0.0009,  0.0017, -0.0043,  ...,  0.0010, -0.0035,  0.0004],
+        ...,
+        [-0.0001, -0.0006, -0.0025,  ...,  0.0004,  0.0008,  0.0001],
+        [ 0.0026,  0.0034,  0.0014,  ..., -0.0024,  0.0006,  0.0010],
+        [ 0.0078,  0.0181,  0.0078,  ...,  0.0111,  0.0003,  0.0032]],
+       device='cuda:0')
+Epoch 12, bias, value: tensor([ 0.0296,  0.0119,  0.0169,  0.0233,  0.0276, -0.0097, -0.0017, -0.0061,
+         0.0130, -0.0271], device='cuda:0'), grad: tensor([-0.0312,  0.0011,  0.0004,  0.0174,  0.0125, -0.0067,  0.0052, -0.0013,
+        -0.0167,  0.0193], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 11, time 218.47, cls_loss 0.0930 cls_loss_mapping 0.1163 cls_loss_causal 1.0807 re_mapping 0.0520 re_causal 0.1254 /// teacc 97.11 lr 0.00010000
+Epoch 13, weight, value: tensor([[-0.0425,  0.0557, -0.0136,  ...,  0.0114,  0.0411,  0.0274],
+        [ 0.0319, -0.0413, -0.0009,  ..., -0.0393,  0.0009, -0.0111],
+        [ 0.0036, -0.0194,  0.0262,  ..., -0.0201,  0.0070, -0.0436],
+        ...,
+        [-0.0263, -0.0328,  0.0282,  ..., -0.0074, -0.0409, -0.0346],
+        [-0.0108, -0.0199, -0.0117,  ...,  0.0025, -0.0455, -0.0134],
+        [-0.0040,  0.0164,  0.0172,  ...,  0.0405, -0.0183, -0.0258]],
+       device='cuda:0'), grad: tensor([[ 4.4942e-04,  3.6812e-04,  2.0618e-03,  ...,  1.3943e-03,
+          1.0147e-03,  4.7421e-04],
+        [-9.3746e-04,  2.1744e-04, -4.7505e-05,  ...,  4.6539e-04,
+         -2.5177e-04,  9.9087e-04],
+        [ 1.0538e-03,  3.8195e-04,  7.8812e-03,  ...,  1.8988e-03,
+          2.1057e-03,  3.9816e-04],
+        ...,
+        [ 9.9182e-04,  1.9372e-04, -4.3449e-03,  ...,  1.0023e-03,
+         -4.7445e-04,  7.9918e-04],
+        [-4.6234e-03, -1.8740e-03, -8.3618e-03,  ..., -6.6452e-03,
+         -2.7714e-03, -5.6305e-03],
+        [ 2.2864e-04,  6.7532e-05, -4.8828e-03,  ..., -1.5907e-03,
+          7.4387e-04,  2.5272e-04]], device='cuda:0')
+Epoch 13, bias, value: tensor([ 0.0301,  0.0111,  0.0174,  0.0235,  0.0275, -0.0097, -0.0021, -0.0059,
+         0.0131, -0.0275], device='cuda:0'), grad: tensor([ 0.0035,  0.0002,  0.0072,  0.0028, -0.0035,  0.0038,  0.0012,  0.0024,
+        -0.0130, -0.0046], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 12, time 218.94, cls_loss 0.0899 cls_loss_mapping 0.1074 cls_loss_causal 1.0240 re_mapping 0.0483 re_causal 0.1159 /// teacc 97.20 lr 0.00010000
+Epoch 14, weight, value: tensor([[-0.0435,  0.0570, -0.0147,  ...,  0.0111,  0.0411,  0.0273],
+        [ 0.0329, -0.0411, -0.0005,  ..., -0.0395,  0.0009, -0.0113],
+        [ 0.0027, -0.0205,  0.0258,  ..., -0.0209,  0.0071, -0.0448],
+        ...,
+        [-0.0271, -0.0328,  0.0290,  ..., -0.0077, -0.0411, -0.0355],
+        [-0.0116, -0.0209, -0.0111,  ...,  0.0024, -0.0459, -0.0131],
+        [-0.0042,  0.0166,  0.0177,  ...,  0.0412, -0.0191, -0.0264]],
+       device='cuda:0'), grad: tensor([[ 1.5235e-04, -4.3488e-04, -8.3780e-04,  ...,  5.6952e-05,
+          5.0545e-04,  4.3945e-03],
+        [-9.1648e-04,  3.5429e-04, -7.9060e-04,  ...,  2.2805e-04,
+          1.5831e-04,  2.9349e-04],
+        [ 1.0395e-04,  1.1435e-03,  7.4673e-04,  ...,  2.3437e-04,
+          4.1294e-04,  7.1955e-04],
+        ...,
+        [ 3.1352e-04,  2.3861e-03,  2.6608e-03,  ...,  1.4410e-03,
+          1.0700e-03,  3.0422e-03],
+        [ 6.9237e-04,  5.9605e-04,  4.4203e-04,  ..., -3.6985e-05,
+          5.5027e-04,  1.2007e-03],
+        [ 2.9492e-04,  3.6335e-03, -6.4011e-03,  ..., -4.5433e-03,
+          1.6642e-03,  6.7711e-03]], device='cuda:0')
+Epoch 14, bias, value: tensor([ 0.0296,  0.0110,  0.0171,  0.0232,  0.0275, -0.0098, -0.0016, -0.0057,
+         0.0133, -0.0272], device='cuda:0'), grad: tensor([ 0.0051, -0.0008,  0.0018, -0.0272,  0.0041,  0.0036,  0.0012,  0.0079,
+         0.0026,  0.0017], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 13----------------------------------------------------
+epoch 13, time 219.30, cls_loss 0.0991 cls_loss_mapping 0.1125 cls_loss_causal 1.0146 re_mapping 0.0465 re_causal 0.1097 /// teacc 97.36 lr 0.00010000
+Epoch 15, weight, value: tensor([[-0.0440,  0.0589, -0.0150,  ...,  0.0109,  0.0419,  0.0276],
+        [ 0.0331, -0.0424, -0.0003,  ..., -0.0401,  0.0006, -0.0119],
+        [ 0.0018, -0.0220,  0.0264,  ..., -0.0211,  0.0083, -0.0458],
+        ...,
+        [-0.0277, -0.0327,  0.0290,  ..., -0.0083, -0.0428, -0.0359],
+        [-0.0117, -0.0204, -0.0110,  ...,  0.0028, -0.0470, -0.0128],
+        [-0.0046,  0.0161,  0.0181,  ...,  0.0415, -0.0192, -0.0276]],
+       device='cuda:0'), grad: tensor([[ 2.2459e-04, -1.2484e-03, -2.8515e-04,  ...,  2.8148e-05,
+          4.1199e-04, -8.4519e-05],
+        [-1.4143e-03,  5.9843e-05, -4.0703e-03,  ...,  2.7046e-05,
+         -1.3390e-03, -1.1673e-03],
+        [ 8.2207e-04,  2.3913e-04,  7.6246e-04,  ...,  5.9098e-05,
+         -7.7128e-05,  5.8842e-04],
+        ...,
+        [ 2.8944e-04,  6.9678e-05, -1.2169e-03,  ...,  5.9426e-05,
+          3.3617e-04,  2.2340e-04],
+        [ 2.3727e-03,  9.3341e-05,  2.7103e-03,  ...,  1.5330e-04,
+          1.5392e-03,  1.5879e-03],
+        [ 1.6582e-04,  3.5191e-04, -2.9445e-04,  ..., -9.2697e-04,
+         -5.5552e-05,  1.5032e-04]], device='cuda:0')
+Epoch 15, bias, value: tensor([ 0.0299,  0.0109,  0.0174,  0.0233,  0.0275, -0.0099, -0.0019, -0.0059,
+         0.0134, -0.0272], device='cuda:0'), grad: tensor([-0.0001, -0.0042,  0.0020, -0.0100,  0.0010,  0.0076, -0.0018, -0.0009,
+         0.0062,  0.0001], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 14----------------------------------------------------
+epoch 14, time 219.45, cls_loss 0.0832 cls_loss_mapping 0.0993 cls_loss_causal 1.0426 re_mapping 0.0441 re_causal 0.1102 /// teacc 97.42 lr 0.00010000
+Epoch 16, weight, value: tensor([[-4.4734e-02,  6.0386e-02, -1.4948e-02,  ...,  1.0627e-02,
+          4.2105e-02,  2.7441e-02],
+        [ 3.3678e-02, -4.3849e-02, -4.8130e-05,  ..., -4.0221e-02,
+         -2.9464e-04, -1.2517e-02],
+        [ 1.6860e-03, -2.3486e-02,  2.6096e-02,  ..., -2.1325e-02,
+          9.3325e-03, -4.7144e-02],
+        ...,
+        [-2.8553e-02, -3.2688e-02,  2.9642e-02,  ..., -8.4565e-03,
+         -4.2681e-02, -3.6918e-02],
+        [-1.1891e-02, -1.9113e-02, -1.0603e-02,  ...,  3.0223e-03,
+         -4.7771e-02, -1.2133e-02],
+        [-4.7448e-03,  1.5314e-02,  1.8377e-02,  ...,  4.2159e-02,
+         -1.9740e-02, -2.8544e-02]], device='cuda:0'), grad: tensor([[ 2.7466e-04, -8.4305e-04,  1.1749e-03,  ...,  4.6283e-05,
+         -6.9737e-06,  7.8321e-05],
+        [-5.9271e-04,  2.8872e-04, -3.7646e-04,  ...,  9.6142e-05,
+          1.9670e-04, -7.0274e-05],
+        [ 3.5214e-04,  9.7811e-05, -9.7322e-04,  ...,  5.4598e-05,
+         -8.8739e-04,  1.6153e-04],
+        ...,
+        [ 3.3760e-04, -7.0870e-05, -8.9502e-04,  ..., -1.3518e-04,
+          2.8563e-04, -2.8563e-04],
+        [-3.2120e-03, -3.2425e-03, -4.4365e-03,  ..., -1.3316e-04,
+          5.9271e-04, -5.0449e-04],
+        [ 4.4489e-04,  1.8036e-04, -2.5043e-03,  ..., -1.3161e-03,
+         -1.0262e-03,  9.0075e-04]], device='cuda:0')
+Epoch 16, bias, value: tensor([ 0.0298,  0.0107,  0.0172,  0.0236,  0.0274, -0.0100, -0.0023, -0.0053,
+         0.0137, -0.0276], device='cuda:0'), grad: tensor([ 6.9332e-04, -9.3281e-05, -1.4238e-03, -2.1347e-02, -6.9313e-03,
+         2.7252e-02,  9.0256e-03, -4.0507e-04, -4.5471e-03, -2.2278e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 15----------------------------------------------------
+epoch 15, time 218.93, cls_loss 0.0793 cls_loss_mapping 0.0891 cls_loss_causal 0.9795 re_mapping 0.0410 re_causal 0.1002 /// teacc 97.57 lr 0.00010000
+Epoch 17, weight, value: tensor([[-4.5602e-02,  6.1512e-02, -1.5708e-02,  ...,  9.9933e-03,
+          4.2156e-02,  2.7156e-02],
+        [ 3.4906e-02, -4.4998e-02, -6.8769e-05,  ..., -4.0637e-02,
+         -1.3987e-03, -1.2916e-02],
+        [ 4.3029e-04, -2.4813e-02,  2.6310e-02,  ..., -2.2162e-02,
+          1.0940e-02, -4.8528e-02],
+        ...,
+        [-2.9407e-02, -3.2944e-02,  3.0067e-02,  ..., -8.4086e-03,
+         -4.3730e-02, -3.8085e-02],
+        [-1.2785e-02, -1.9664e-02, -1.0396e-02,  ...,  3.1274e-03,
+         -4.8599e-02, -1.2237e-02],
+        [-4.7859e-03,  1.6342e-02,  1.9213e-02,  ...,  4.3115e-02,
+         -1.9459e-02, -2.8609e-02]], device='cuda:0'), grad: tensor([[ 6.4135e-05, -2.6274e-04,  5.1528e-05,  ...,  3.5197e-05,
+          1.7536e-04,  3.6418e-05],
+        [ 9.4461e-04,  6.1691e-06,  4.5700e-03,  ...,  2.1114e-03,
+          2.8372e-04,  1.0610e-04],
+        [ 1.1009e-04,  4.6492e-05, -2.5501e-03,  ...,  1.1235e-04,
+         -1.6165e-03,  1.4365e-04],
+        ...,
+        [ 3.8433e-03,  1.5035e-05,  1.5335e-02,  ...,  8.5983e-03,
+          1.7452e-04,  4.4322e-04],
+        [ 1.2245e-03,  2.0832e-05,  2.7485e-03,  ...,  1.1234e-03,
+          3.4666e-04,  1.0872e-03],
+        [-1.1734e-02,  7.2002e-05, -2.9129e-02,  ..., -1.6876e-02,
+          6.0976e-05, -6.0463e-03]], device='cuda:0')
+Epoch 17, bias, value: tensor([ 0.0294,  0.0106,  0.0171,  0.0236,  0.0274, -0.0104, -0.0020, -0.0054,
+         0.0139, -0.0272], device='cuda:0'), grad: tensor([ 0.0004,  0.0037, -0.0045,  0.0015,  0.0005,  0.0057,  0.0006,  0.0119,
+         0.0035, -0.0234], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 16----------------------------------------------------
+epoch 16, time 219.59, cls_loss 0.0766 cls_loss_mapping 0.0861 cls_loss_causal 0.9726 re_mapping 0.0376 re_causal 0.0937 /// teacc 97.69 lr 0.00010000
+Epoch 18, weight, value: tensor([[-0.0466,  0.0634, -0.0154,  ...,  0.0099,  0.0429,  0.0274],
+        [ 0.0357, -0.0459,  0.0003,  ..., -0.0410, -0.0018, -0.0134],
+        [-0.0005, -0.0255,  0.0266,  ..., -0.0217,  0.0112, -0.0493],
+        ...,
+        [-0.0307, -0.0334,  0.0304,  ..., -0.0089, -0.0440, -0.0396],
+        [-0.0132, -0.0196, -0.0104,  ...,  0.0035, -0.0493, -0.0121],
+        [-0.0046,  0.0158,  0.0197,  ...,  0.0439, -0.0191, -0.0295]],
+       device='cuda:0'), grad: tensor([[ 1.3137e-04, -1.8606e-03, -3.3975e-04,  ...,  8.7991e-06,
+         -5.9395e-03, -8.1921e-04],
+        [-6.8760e-04,  2.5928e-05, -8.0156e-04,  ..., -2.3484e-04,
+          5.8746e-04,  6.0678e-05],
+        [ 2.0850e-04,  1.7846e-04, -5.2261e-04,  ...,  9.1672e-05,
+         -5.2869e-05,  1.6284e-04],
+        ...,
+        [ 4.0460e-04,  1.2803e-04,  6.7997e-04,  ...,  1.6761e-04,
+          3.9697e-04,  1.0473e-04],
+        [-6.0272e-03,  2.8992e-04,  1.5998e-04,  ..., -4.0507e-04,
+          2.6369e-04, -5.9586e-03],
+        [ 2.5082e-04,  5.0497e-04,  1.2481e-04,  ..., -3.2008e-05,
+          6.5947e-04,  4.8733e-04]], device='cuda:0')
+Epoch 18, bias, value: tensor([ 0.0298,  0.0106,  0.0171,  0.0234,  0.0274, -0.0102, -0.0025, -0.0055,
+         0.0139, -0.0270], device='cuda:0'), grad: tensor([-2.0569e-02,  3.0383e-05,  2.4529e-03,  2.8439e-03,  9.0637e-03,
+         1.4885e-02,  1.8654e-03,  2.2221e-03, -1.6174e-02,  3.3741e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 17----------------------------------------------------
+epoch 17, time 219.17, cls_loss 0.0747 cls_loss_mapping 0.0913 cls_loss_causal 0.9916 re_mapping 0.0365 re_causal 0.0920 /// teacc 97.78 lr 0.00010000
+Epoch 19, weight, value: tensor([[-0.0472,  0.0649, -0.0157,  ...,  0.0095,  0.0433,  0.0272],
+        [ 0.0361, -0.0464,  0.0008,  ..., -0.0410, -0.0025, -0.0140],
+        [-0.0007, -0.0264,  0.0267,  ..., -0.0219,  0.0121, -0.0502],
+        ...,
+        [-0.0315, -0.0334,  0.0305,  ..., -0.0093, -0.0448, -0.0402],
+        [-0.0136, -0.0200, -0.0101,  ...,  0.0034, -0.0500, -0.0119],
+        [-0.0055,  0.0157,  0.0200,  ...,  0.0445, -0.0195, -0.0308]],
+       device='cuda:0'), grad: tensor([[ 1.2417e-03,  2.2030e-03,  7.8535e-04,  ...,  6.6519e-05,
+          1.6570e-04,  3.8338e-03],
+        [-1.3523e-03,  5.2023e-04, -2.0099e-04,  ...,  1.9240e-04,
+          1.6642e-04, -1.8215e-04],
+        [ 4.5514e-04,  7.8857e-05, -2.4490e-03,  ...,  6.7770e-05,
+         -1.0004e-03, -1.2369e-03],
+        ...,
+        [ 4.1628e-04,  5.3453e-04,  1.2350e-03,  ...,  2.6083e-04,
+          2.4867e-04,  2.6441e-04],
+        [-5.9814e-03, -1.2863e-02, -1.5192e-03,  ..., -3.0947e-04,
+          1.7774e-04, -2.1759e-02],
+        [ 1.1911e-03,  1.8263e-03,  2.6150e-03,  ...,  4.7326e-04,
+          1.6057e-04,  2.0766e-04]], device='cuda:0')
+Epoch 19, bias, value: tensor([ 0.0297,  0.0107,  0.0175,  0.0230,  0.0274, -0.0096, -0.0024, -0.0056,
+         0.0138, -0.0274], device='cuda:0'), grad: tensor([ 0.0037,  0.0007, -0.0059,  0.0032, -0.0131,  0.0113,  0.0020,  0.0033,
+        -0.0132,  0.0081], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 18, time 218.21, cls_loss 0.0687 cls_loss_mapping 0.0769 cls_loss_causal 0.9133 re_mapping 0.0370 re_causal 0.0890 /// teacc 97.73 lr 0.00010000
+Epoch 20, weight, value: tensor([[-0.0481,  0.0665, -0.0162,  ...,  0.0097,  0.0436,  0.0271],
+        [ 0.0364, -0.0451,  0.0005,  ..., -0.0420, -0.0029, -0.0140],
+        [-0.0014, -0.0270,  0.0264,  ..., -0.0225,  0.0129, -0.0515],
+        ...,
+        [-0.0324, -0.0338,  0.0312,  ..., -0.0096, -0.0451, -0.0407],
+        [-0.0140, -0.0210, -0.0096,  ...,  0.0037, -0.0507, -0.0115],
+        [-0.0044,  0.0153,  0.0203,  ...,  0.0451, -0.0198, -0.0308]],
+       device='cuda:0'), grad: tensor([[-8.4257e-04, -2.6455e-03, -3.8648e-04,  ...,  4.3660e-05,
+          5.4911e-06, -4.4918e-04],
+        [-2.1195e-04,  2.8864e-05, -6.8951e-04,  ..., -1.3793e-04,
+          4.5039e-06,  5.5254e-05],
+        [ 2.2221e-04,  3.9935e-04,  8.4591e-04,  ...,  2.8181e-04,
+          5.4799e-06,  2.1935e-04],
+        ...,
+        [ 1.0276e-04,  1.0359e-04, -8.1873e-04,  ...,  3.9315e-04,
+          1.4596e-05,  2.7847e-04],
+        [ 1.2159e-04, -3.7265e-04, -1.3180e-03,  ..., -7.7057e-04,
+          1.3754e-05, -7.2098e-04],
+        [ 7.0953e-04,  4.3201e-04,  1.6842e-03,  ...,  2.0866e-03,
+          2.0489e-06,  2.6646e-03]], device='cuda:0')
+Epoch 20, bias, value: tensor([ 0.0297,  0.0103,  0.0177,  0.0230,  0.0277, -0.0098, -0.0028, -0.0055,
+         0.0140, -0.0274], device='cuda:0'), grad: tensor([-0.0023, -0.0005,  0.0013, -0.0064,  0.0008,  0.0054, -0.0024, -0.0005,
+        -0.0020,  0.0067], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 19, time 218.01, cls_loss 0.0675 cls_loss_mapping 0.0801 cls_loss_causal 0.9360 re_mapping 0.0358 re_causal 0.0889 /// teacc 97.54 lr 0.00010000
+Epoch 21, weight, value: tensor([[-0.0488,  0.0673, -0.0170,  ...,  0.0094,  0.0432,  0.0272],
+        [ 0.0375, -0.0460,  0.0019,  ..., -0.0413, -0.0041, -0.0142],
+        [-0.0022, -0.0282,  0.0262,  ..., -0.0228,  0.0136, -0.0526],
+        ...,
+        [-0.0337, -0.0338,  0.0312,  ..., -0.0101, -0.0454, -0.0416],
+        [-0.0142, -0.0217, -0.0093,  ...,  0.0039, -0.0511, -0.0114],
+        [-0.0051,  0.0164,  0.0208,  ...,  0.0457, -0.0191, -0.0317]],
+       device='cuda:0'), grad: tensor([[ 4.0054e-05, -2.5444e-03, -5.3644e-04,  ..., -2.3353e-04,
+          1.4208e-05, -5.0211e-04],
+        [ 1.5759e-04,  5.4449e-05,  1.3809e-03,  ...,  6.0409e-05,
+          1.1759e-03,  4.4107e-05],
+        [-2.3067e-04,  2.7847e-04, -1.4620e-03,  ...,  8.4519e-05,
+         -1.5059e-03,  8.9705e-05],
+        ...,
+        [ 5.1349e-05,  3.5858e-04, -5.0316e-03,  ...,  1.4830e-04,
+          2.8014e-04,  1.3185e-04],
+        [ 1.4496e-04,  5.0545e-04,  8.1968e-04,  ...,  1.6844e-04,
+          1.3244e-04,  3.4988e-05],
+        [ 5.7638e-05,  6.4325e-04,  4.1389e-03,  ...,  2.4354e-04,
+          1.4770e-04,  2.0027e-04]], device='cuda:0')
+Epoch 21, bias, value: tensor([ 0.0291,  0.0110,  0.0174,  0.0228,  0.0275, -0.0095, -0.0023, -0.0054,
+         0.0138, -0.0273], device='cuda:0'), grad: tensor([-0.0014,  0.0037, -0.0040,  0.0006, -0.0026,  0.0008,  0.0004, -0.0034,
+         0.0012,  0.0047], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 20, time 218.49, cls_loss 0.0640 cls_loss_mapping 0.0774 cls_loss_causal 0.9610 re_mapping 0.0330 re_causal 0.0837 /// teacc 97.48 lr 0.00010000
+Epoch 22, weight, value: tensor([[-0.0499,  0.0685, -0.0172,  ...,  0.0091,  0.0432,  0.0271],
+        [ 0.0379, -0.0471,  0.0023,  ..., -0.0414, -0.0045, -0.0148],
+        [-0.0023, -0.0293,  0.0262,  ..., -0.0234,  0.0143, -0.0529],
+        ...,
+        [-0.0350, -0.0332,  0.0315,  ..., -0.0106, -0.0458, -0.0426],
+        [-0.0151, -0.0216, -0.0089,  ...,  0.0045, -0.0519, -0.0114],
+        [-0.0054,  0.0157,  0.0212,  ...,  0.0463, -0.0195, -0.0326]],
+       device='cuda:0'), grad: tensor([[ 1.3876e-04, -1.3227e-03, -4.2820e-04,  ...,  2.3916e-05,
+         -1.6415e-04,  1.0777e-04],
+        [ 1.3494e-04,  5.9515e-05,  2.7847e-04,  ...,  1.6212e-04,
+          1.6354e-06,  1.2445e-04],
+        [ 2.0301e-04,  6.3038e-04,  7.2145e-04,  ...,  3.1805e-04,
+          8.7559e-05,  1.5664e-04],
+        ...,
+        [ 3.3498e-04,  8.8394e-05,  8.3327e-05,  ...,  1.9705e-04,
+          1.3739e-05,  3.5214e-04],
+        [-3.9482e-04, -1.5843e-04, -1.4668e-03,  ..., -7.5865e-04,
+         -7.6115e-05, -1.9550e-04],
+        [ 1.8549e-04,  2.2709e-04, -4.9561e-05,  ..., -2.8610e-04,
+          5.2124e-05,  2.1791e-04]], device='cuda:0')
+Epoch 22, bias, value: tensor([ 0.0289,  0.0110,  0.0177,  0.0232,  0.0276, -0.0094, -0.0025, -0.0054,
+         0.0135, -0.0276], device='cuda:0'), grad: tensor([-1.0996e-03,  4.5156e-04,  1.2741e-03,  1.2741e-03, -7.0855e-06,
+        -1.6642e-03,  3.8719e-04,  6.7091e-04, -1.9293e-03,  6.4039e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 21----------------------------------------------------
+epoch 21, time 219.32, cls_loss 0.0516 cls_loss_mapping 0.0595 cls_loss_causal 0.8927 re_mapping 0.0324 re_causal 0.0813 /// teacc 98.13 lr 0.00010000
+Epoch 23, weight, value: tensor([[-0.0504,  0.0698, -0.0175,  ...,  0.0089,  0.0430,  0.0271],
+        [ 0.0381, -0.0478,  0.0021,  ..., -0.0418, -0.0049, -0.0154],
+        [-0.0032, -0.0305,  0.0260,  ..., -0.0237,  0.0150, -0.0537],
+        ...,
+        [-0.0353, -0.0333,  0.0318,  ..., -0.0106, -0.0462, -0.0439],
+        [-0.0152, -0.0212, -0.0082,  ...,  0.0045, -0.0520, -0.0108],
+        [-0.0056,  0.0154,  0.0219,  ...,  0.0471, -0.0198, -0.0332]],
+       device='cuda:0'), grad: tensor([[ 9.5904e-05, -1.1024e-03, -3.8719e-04,  ...,  2.2516e-05,
+          1.1230e-04, -4.5967e-04],
+        [-5.7411e-03,  1.8537e-04, -1.4725e-02,  ..., -1.2703e-03,
+         -3.0937e-03,  1.8072e-04],
+        [ 3.4833e-04,  3.4499e-04,  6.0320e-04,  ...,  2.2733e-04,
+          7.8440e-05,  4.0960e-04],
+        ...,
+        [ 2.0194e-04, -5.5647e-04, -1.1377e-03,  ...,  8.1301e-05,
+         -2.7490e-04, -4.8876e-04],
+        [ 4.4518e-03,  4.4084e-04,  1.1353e-02,  ...,  5.3883e-04,
+          2.7580e-03,  1.1730e-04],
+        [ 1.7309e-04,  2.7037e-04,  5.8460e-04,  ...,  7.1600e-06,
+          1.1957e-04,  3.1424e-04]], device='cuda:0')
+Epoch 23, bias, value: tensor([ 0.0290,  0.0103,  0.0173,  0.0231,  0.0277, -0.0096, -0.0025, -0.0052,
+         0.0141, -0.0274], device='cuda:0'), grad: tensor([-0.0008, -0.0181,  0.0017, -0.0009,  0.0022,  0.0007,  0.0010, -0.0022,
+         0.0151,  0.0013], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 22, time 218.42, cls_loss 0.0486 cls_loss_mapping 0.0592 cls_loss_causal 0.8967 re_mapping 0.0309 re_causal 0.0828 /// teacc 97.85 lr 0.00010000
+Epoch 24, weight, value: tensor([[-0.0511,  0.0710, -0.0173,  ...,  0.0087,  0.0430,  0.0272],
+        [ 0.0386, -0.0481,  0.0027,  ..., -0.0415, -0.0051, -0.0159],
+        [-0.0040, -0.0315,  0.0259,  ..., -0.0239,  0.0156, -0.0545],
+        ...,
+        [-0.0358, -0.0336,  0.0322,  ..., -0.0112, -0.0467, -0.0443],
+        [-0.0154, -0.0213, -0.0080,  ...,  0.0048, -0.0526, -0.0105],
+        [-0.0063,  0.0153,  0.0223,  ...,  0.0476, -0.0203, -0.0344]],
+       device='cuda:0'), grad: tensor([[ 3.0249e-05, -2.1887e-04, -1.2028e-04,  ...,  2.9355e-05,
+          3.9488e-05,  5.3883e-05],
+        [-1.1196e-03,  8.6203e-06, -6.5374e-04,  ...,  4.7743e-05,
+         -4.9829e-05, -8.1062e-06],
+        [ 1.7536e-04,  7.1526e-05,  3.7265e-04,  ...,  1.0014e-04,
+          2.8700e-05,  1.0127e-04],
+        ...,
+        [ 1.2624e-04,  2.3127e-05,  8.3542e-04,  ...,  2.4128e-04,
+          1.0669e-05,  6.0511e-04],
+        [-1.3518e-04, -6.2275e-04, -3.2005e-03,  ..., -1.2865e-03,
+          9.6500e-05, -3.4904e-03],
+        [ 7.0572e-05,  7.0214e-05,  9.2125e-04,  ...,  2.5415e-04,
+          1.5289e-05,  6.4611e-04]], device='cuda:0')
+Epoch 24, bias, value: tensor([ 0.0289,  0.0104,  0.0173,  0.0232,  0.0273, -0.0097, -0.0023, -0.0051,
+         0.0143, -0.0276], device='cuda:0'), grad: tensor([ 8.0645e-05, -7.6818e-04,  6.0511e-04,  1.4706e-03, -7.5483e-04,
+         3.0956e-03, -1.9610e-05,  8.5020e-04, -7.1449e-03,  2.5902e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 23----------------------------------------------------
+epoch 23, time 218.95, cls_loss 0.0541 cls_loss_mapping 0.0652 cls_loss_causal 0.8551 re_mapping 0.0311 re_causal 0.0784 /// teacc 98.21 lr 0.00010000
+Epoch 25, weight, value: tensor([[-0.0519,  0.0724, -0.0178,  ...,  0.0085,  0.0431,  0.0271],
+        [ 0.0389, -0.0500,  0.0027,  ..., -0.0422, -0.0055, -0.0161],
+        [-0.0051, -0.0315,  0.0260,  ..., -0.0230,  0.0160, -0.0555],
+        ...,
+        [-0.0368, -0.0339,  0.0326,  ..., -0.0114, -0.0469, -0.0455],
+        [-0.0155, -0.0215, -0.0077,  ...,  0.0049, -0.0532, -0.0102],
+        [-0.0053,  0.0148,  0.0231,  ...,  0.0483, -0.0206, -0.0346]],
+       device='cuda:0'), grad: tensor([[ 2.5654e-04, -1.1444e-05, -2.0698e-05,  ...,  4.4942e-05,
+         -3.9250e-05,  1.5116e-04],
+        [ 3.6091e-05,  1.5521e-04,  4.5806e-05,  ...,  7.8157e-06,
+          8.0347e-05,  1.2338e-04],
+        [ 2.2864e-04,  7.5579e-04,  2.8896e-04,  ...,  8.1301e-05,
+         -6.8665e-05,  1.4365e-04],
+        ...,
+        [ 1.3340e-04, -1.7347e-03, -1.8320e-03,  ...,  6.8806e-06,
+          1.9491e-05,  9.4235e-05],
+        [ 8.0872e-04,  2.0206e-04,  3.7998e-05,  ..., -2.1070e-05,
+          4.1544e-05,  5.5265e-04],
+        [ 4.1246e-04,  2.2995e-04,  3.3932e-03,  ...,  2.2964e-03,
+          6.2995e-06,  2.9469e-04]], device='cuda:0')
+Epoch 25, bias, value: tensor([ 0.0288,  0.0105,  0.0175,  0.0228,  0.0273, -0.0101, -0.0024, -0.0047,
+         0.0142, -0.0272], device='cuda:0'), grad: tensor([ 0.0014,  0.0008,  0.0021, -0.0243, -0.0024,  0.0274, -0.0042, -0.0071,
+         0.0011,  0.0053], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 24, time 218.70, cls_loss 0.0457 cls_loss_mapping 0.0537 cls_loss_causal 0.8787 re_mapping 0.0292 re_causal 0.0796 /// teacc 98.08 lr 0.00010000
+Epoch 26, weight, value: tensor([[-0.0524,  0.0739, -0.0175,  ...,  0.0085,  0.0436,  0.0272],
+        [ 0.0392, -0.0502,  0.0026,  ..., -0.0423, -0.0060, -0.0166],
+        [-0.0055, -0.0327,  0.0263,  ..., -0.0231,  0.0169, -0.0561],
+        ...,
+        [-0.0370, -0.0340,  0.0329,  ..., -0.0115, -0.0475, -0.0454],
+        [-0.0156, -0.0217, -0.0077,  ...,  0.0050, -0.0540, -0.0099],
+        [-0.0051,  0.0144,  0.0233,  ...,  0.0488, -0.0212, -0.0347]],
+       device='cuda:0'), grad: tensor([[ 1.0290e-03, -2.5105e-04,  1.1522e-04,  ...,  2.6643e-05,
+          3.5954e-04, -1.7196e-05],
+        [-2.3670e-03,  2.5019e-05, -1.8959e-03,  ...,  8.0317e-06,
+          1.9431e-05,  2.8402e-05],
+        [ 1.4076e-03,  2.4509e-04,  1.3342e-03,  ...,  6.0529e-05,
+          2.0552e-04,  1.5378e-04],
+        ...,
+        [ 1.1629e-04,  1.0407e-04, -4.8065e-04,  ...,  5.8353e-05,
+          9.0241e-05, -1.9327e-05],
+        [ 5.9128e-04,  8.6069e-05, -7.1347e-05,  ..., -1.0985e-04,
+          1.0777e-04,  4.9859e-05],
+        [ 2.2864e-04,  6.1750e-04,  5.7966e-05,  ..., -1.2422e-04,
+          2.2781e-04,  2.5511e-04]], device='cuda:0')
+Epoch 26, bias, value: tensor([ 0.0290,  0.0100,  0.0180,  0.0227,  0.0273, -0.0097, -0.0025, -0.0046,
+         0.0139, -0.0273], device='cuda:0'), grad: tensor([-5.7316e-04, -3.4695e-03,  3.0422e-03,  1.1520e-03, -1.0414e-03,
+         7.2479e-04, -1.9369e-03, -3.3408e-05,  3.4356e-04,  1.7948e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 25, time 218.25, cls_loss 0.0564 cls_loss_mapping 0.0682 cls_loss_causal 0.8891 re_mapping 0.0278 re_causal 0.0722 /// teacc 98.03 lr 0.00010000
+Epoch 27, weight, value: tensor([[-0.0535,  0.0753, -0.0178,  ...,  0.0083,  0.0438,  0.0271],
+        [ 0.0399, -0.0492,  0.0032,  ..., -0.0424, -0.0068, -0.0166],
+        [-0.0065, -0.0349,  0.0259,  ..., -0.0234,  0.0178, -0.0578],
+        ...,
+        [-0.0381, -0.0345,  0.0328,  ..., -0.0121, -0.0482, -0.0462],
+        [-0.0166, -0.0226, -0.0068,  ...,  0.0054, -0.0548, -0.0103],
+        [-0.0049,  0.0148,  0.0243,  ...,  0.0496, -0.0218, -0.0352]],
+       device='cuda:0'), grad: tensor([[ 7.1955e-04,  4.9067e-04,  2.3878e-04,  ...,  4.7237e-05,
+          9.5367e-07,  5.8126e-04],
+        [ 8.4579e-05,  1.0121e-04,  3.0918e-03,  ...,  5.1916e-05,
+          2.8458e-03,  2.0289e-04],
+        [ 9.5963e-05,  9.9719e-05, -3.7880e-03,  ...,  1.9491e-04,
+         -4.2534e-03,  3.4547e-04],
+        ...,
+        [ 4.3780e-05,  3.4660e-05, -2.2590e-04,  ..., -6.7890e-05,
+          2.6727e-04,  6.3360e-05],
+        [-1.0109e-02, -5.0049e-03, -5.9776e-03,  ..., -3.7727e-03,
+          1.8513e-04, -1.1063e-02],
+        [ 4.5586e-04,  3.1471e-04,  9.9087e-04,  ...,  6.1989e-05,
+          7.0333e-05,  5.8746e-04]], device='cuda:0')
+Epoch 27, bias, value: tensor([ 0.0290,  0.0100,  0.0177,  0.0226,  0.0275, -0.0092, -0.0027, -0.0049,
+         0.0139, -0.0271], device='cuda:0'), grad: tensor([ 0.0011,  0.0067, -0.0094,  0.0011, -0.0011,  0.0099, -0.0008,  0.0002,
+        -0.0109,  0.0034], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 26, time 218.09, cls_loss 0.0450 cls_loss_mapping 0.0528 cls_loss_causal 0.8741 re_mapping 0.0274 re_causal 0.0748 /// teacc 98.20 lr 0.00010000
+Epoch 28, weight, value: tensor([[-0.0540,  0.0763, -0.0182,  ...,  0.0081,  0.0441,  0.0271],
+        [ 0.0410, -0.0495,  0.0044,  ..., -0.0417, -0.0079, -0.0173],
+        [-0.0077, -0.0357,  0.0254,  ..., -0.0241,  0.0190, -0.0588],
+        ...,
+        [-0.0391, -0.0347,  0.0332,  ..., -0.0124, -0.0491, -0.0461],
+        [-0.0166, -0.0226, -0.0067,  ...,  0.0057, -0.0553, -0.0097],
+        [-0.0057,  0.0146,  0.0245,  ...,  0.0500, -0.0220, -0.0363]],
+       device='cuda:0'), grad: tensor([[-2.2087e-03, -6.0959e-03,  7.6830e-05,  ..., -6.7377e-04,
+          6.2585e-05, -2.9736e-03],
+        [-5.0306e-04, -1.7539e-05, -3.8743e-04,  ..., -1.6361e-05,
+          4.4942e-05, -3.2097e-05],
+        [-2.9278e-04,  3.1710e-05,  8.4496e-04,  ...,  2.3052e-05,
+         -1.0347e-03,  4.9680e-05],
+        ...,
+        [ 1.2946e-04,  4.3601e-05, -2.3537e-03,  ...,  2.9802e-05,
+         -5.0974e-04,  3.9876e-05],
+        [ 1.9693e-04, -1.5736e-04,  1.3447e-04,  ..., -2.2388e-04,
+          4.1294e-04, -1.9038e-04],
+        [ 5.1355e-04,  1.2302e-03,  2.7657e-04,  ...,  1.5986e-04,
+          1.4579e-04,  7.3624e-04]], device='cuda:0')
+Epoch 28, bias, value: tensor([ 0.0289,  0.0100,  0.0177,  0.0230,  0.0275, -0.0090, -0.0030, -0.0050,
+         0.0141, -0.0276], device='cuda:0'), grad: tensor([-0.0051, -0.0003, -0.0042,  0.0009,  0.0021,  0.0046,  0.0015, -0.0031,
+         0.0017,  0.0020], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 27, time 218.36, cls_loss 0.0403 cls_loss_mapping 0.0461 cls_loss_causal 0.8619 re_mapping 0.0257 re_causal 0.0708 /// teacc 98.18 lr 0.00010000
+Epoch 29, weight, value: tensor([[-0.0543,  0.0773, -0.0178,  ...,  0.0083,  0.0441,  0.0269],
+        [ 0.0410, -0.0503,  0.0041,  ..., -0.0420, -0.0082, -0.0183],
+        [-0.0083, -0.0367,  0.0254,  ..., -0.0244,  0.0199, -0.0595],
+        ...,
+        [-0.0397, -0.0350,  0.0337,  ..., -0.0128, -0.0496, -0.0468],
+        [-0.0169, -0.0225, -0.0065,  ...,  0.0059, -0.0560, -0.0094],
+        [-0.0057,  0.0142,  0.0251,  ...,  0.0508, -0.0223, -0.0364]],
+       device='cuda:0'), grad: tensor([[ 1.8522e-05,  4.8310e-05,  6.9976e-05,  ...,  2.4796e-05,
+          5.4717e-05,  2.9817e-05],
+        [-1.5450e-04,  1.2413e-05,  3.5286e-03,  ...,  1.4067e-03,
+          4.6909e-05,  1.7449e-05],
+        [ 2.2367e-05,  1.9407e-04,  1.0452e-03,  ...,  5.3167e-04,
+          4.4703e-05,  1.0669e-04],
+        ...,
+        [ 5.2929e-05, -1.4830e-04, -9.4986e-04,  ...,  1.6010e-04,
+          3.4332e-05,  1.6594e-04],
+        [ 4.3690e-05, -3.1376e-04, -5.1689e-03,  ..., -2.2488e-03,
+         -3.2806e-04,  7.0810e-05],
+        [ 3.1948e-05,  1.5354e-04,  4.6873e-04,  ..., -1.2577e-05,
+          4.2856e-05,  1.3459e-04]], device='cuda:0')
+Epoch 29, bias, value: tensor([ 0.0286,  0.0098,  0.0177,  0.0232,  0.0270, -0.0091, -0.0023, -0.0048,
+         0.0137, -0.0272], device='cuda:0'), grad: tensor([ 0.0003,  0.0035,  0.0010, -0.0003,  0.0014,  0.0004, -0.0002, -0.0019,
+        -0.0053,  0.0011], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 28, time 218.02, cls_loss 0.0406 cls_loss_mapping 0.0500 cls_loss_causal 0.8431 re_mapping 0.0253 re_causal 0.0686 /// teacc 98.18 lr 0.00010000
+Epoch 30, weight, value: tensor([[-0.0551,  0.0783, -0.0182,  ...,  0.0084,  0.0442,  0.0268],
+        [ 0.0419, -0.0492,  0.0041,  ..., -0.0422, -0.0080, -0.0181],
+        [-0.0088, -0.0377,  0.0250,  ..., -0.0250,  0.0207, -0.0605],
+        ...,
+        [-0.0405, -0.0354,  0.0343,  ..., -0.0131, -0.0496, -0.0471],
+        [-0.0176, -0.0227, -0.0062,  ...,  0.0061, -0.0570, -0.0095],
+        [-0.0058,  0.0141,  0.0258,  ...,  0.0514, -0.0227, -0.0371]],
+       device='cuda:0'), grad: tensor([[-1.2743e-04, -1.7452e-03, -2.3293e-04,  ..., -6.4913e-07,
+         -9.7942e-04, -1.3742e-03],
+        [-1.0055e-04,  1.5467e-05, -1.6785e-04,  ..., -5.4359e-05,
+          2.4289e-05,  2.1815e-05],
+        [ 1.9446e-05,  6.5386e-05,  2.6321e-04,  ...,  1.2851e-04,
+          3.8683e-05,  5.7757e-05],
+        ...,
+        [ 6.4790e-05,  3.0637e-05, -4.0102e-04,  ...,  8.0168e-06,
+          2.2486e-05,  3.1143e-05],
+        [ 2.0707e-04,  1.7607e-04,  1.3188e-06,  ..., -1.1468e-04,
+          1.1581e-04,  1.9383e-04],
+        [ 9.4950e-05,  6.0415e-04,  2.2876e-04,  ..., -3.7700e-05,
+          4.2295e-04,  5.3310e-04]], device='cuda:0')
+Epoch 30, bias, value: tensor([ 0.0285,  0.0098,  0.0175,  0.0228,  0.0270, -0.0089, -0.0024, -0.0040,
+         0.0134, -0.0271], device='cuda:0'), grad: tensor([-3.8033e-03, -5.8711e-05,  5.7030e-04,  3.4642e-04, -1.0586e-03,
+         4.3178e-04,  1.8244e-03, -2.1565e-04,  2.0909e-04,  1.7529e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 29, time 218.56, cls_loss 0.0396 cls_loss_mapping 0.0443 cls_loss_causal 0.8149 re_mapping 0.0256 re_causal 0.0662 /// teacc 98.11 lr 0.00010000
+Epoch 31, weight, value: tensor([[-0.0556,  0.0793, -0.0183,  ...,  0.0079,  0.0444,  0.0270],
+        [ 0.0428, -0.0495,  0.0047,  ..., -0.0423, -0.0083, -0.0183],
+        [-0.0090, -0.0387,  0.0250,  ..., -0.0251,  0.0214, -0.0614],
+        ...,
+        [-0.0413, -0.0356,  0.0343,  ..., -0.0135, -0.0506, -0.0473],
+        [-0.0182, -0.0227, -0.0061,  ...,  0.0062, -0.0568, -0.0097],
+        [-0.0062,  0.0140,  0.0261,  ...,  0.0519, -0.0228, -0.0380]],
+       device='cuda:0'), grad: tensor([[ 5.4836e-04, -6.9380e-05,  5.8603e-04,  ...,  1.8466e-04,
+          3.2210e-04,  1.8024e-04],
+        [-7.8201e-03, -2.8992e-03, -9.2850e-03,  ..., -2.5024e-03,
+         -5.0964e-03, -2.3689e-03],
+        [ 1.5903e-04,  1.0371e-04,  3.9816e-04,  ...,  7.4267e-05,
+          8.0228e-05,  1.2980e-03],
+        ...,
+        [ 1.1802e-04,  4.1187e-05, -5.1308e-04,  ...,  3.0637e-04,
+          6.1393e-05,  6.4135e-05],
+        [ 5.1994e-03,  1.9703e-03,  6.3477e-03,  ...,  1.6966e-03,
+          3.4313e-03,  1.8520e-03],
+        [ 1.4138e-04,  8.6606e-05, -2.3377e-04,  ..., -3.2282e-04,
+          6.2287e-05,  1.5640e-04]], device='cuda:0')
+Epoch 31, bias, value: tensor([ 0.0286,  0.0101,  0.0179,  0.0226,  0.0274, -0.0084, -0.0028, -0.0045,
+         0.0132, -0.0273], device='cuda:0'), grad: tensor([ 0.0008, -0.0135,  0.0024, -0.0023, -0.0003,  0.0006,  0.0025, -0.0002,
+         0.0096,  0.0004], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 30----------------------------------------------------
+epoch 30, time 218.84, cls_loss 0.0379 cls_loss_mapping 0.0475 cls_loss_causal 0.8359 re_mapping 0.0240 re_causal 0.0669 /// teacc 98.35 lr 0.00010000
+Epoch 32, weight, value: tensor([[-0.0560,  0.0800, -0.0184,  ...,  0.0080,  0.0445,  0.0269],
+        [ 0.0436, -0.0495,  0.0054,  ..., -0.0426, -0.0087, -0.0186],
+        [-0.0097, -0.0395,  0.0246,  ..., -0.0255,  0.0219, -0.0621],
+        ...,
+        [-0.0420, -0.0358,  0.0348,  ..., -0.0135, -0.0512, -0.0477],
+        [-0.0185, -0.0225, -0.0053,  ...,  0.0066, -0.0571, -0.0095],
+        [-0.0065,  0.0137,  0.0262,  ...,  0.0524, -0.0228, -0.0385]],
+       device='cuda:0'), grad: tensor([[ 5.1880e-04, -2.7132e-04,  8.3625e-05,  ...,  1.4953e-05,
+          2.1732e-04,  2.9564e-04],
+        [ 6.1302e-03,  4.1991e-05,  1.4009e-03,  ...,  3.5554e-05,
+          1.8167e-03,  3.2215e-03],
+        [ 6.1226e-04,  9.8825e-05,  3.0398e-04,  ...,  2.2575e-05,
+          1.5235e-04,  3.6454e-04],
+        ...,
+        [ 1.7071e-04,  1.3255e-05, -3.6025e-04,  ...,  4.8339e-05,
+          1.5366e-04,  8.1122e-05],
+        [-1.5343e-02, -1.7428e-04, -3.4294e-03,  ...,  1.9145e-04,
+         -4.3526e-03, -8.2321e-03],
+        [ 2.8896e-04,  9.4175e-05, -5.9986e-04,  ..., -7.0620e-04,
+          7.7784e-05,  1.3793e-04]], device='cuda:0')
+Epoch 32, bias, value: tensor([ 0.0287,  0.0100,  0.0176,  0.0225,  0.0276, -0.0087, -0.0027, -0.0041,
+         0.0135, -0.0276], device='cuda:0'), grad: tensor([ 0.0007,  0.0102,  0.0011,  0.0011, -0.0040,  0.0007,  0.0113,  0.0005,
+        -0.0220,  0.0004], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 31, time 218.43, cls_loss 0.0349 cls_loss_mapping 0.0426 cls_loss_causal 0.8102 re_mapping 0.0246 re_causal 0.0662 /// teacc 98.16 lr 0.00010000
+Epoch 33, weight, value: tensor([[-0.0564,  0.0812, -0.0185,  ...,  0.0077,  0.0448,  0.0266],
+        [ 0.0441, -0.0486,  0.0062,  ..., -0.0420, -0.0088, -0.0185],
+        [-0.0096, -0.0394,  0.0245,  ..., -0.0254,  0.0221, -0.0627],
+        ...,
+        [-0.0430, -0.0361,  0.0353,  ..., -0.0137, -0.0515, -0.0478],
+        [-0.0191, -0.0234, -0.0054,  ...,  0.0068, -0.0571, -0.0097],
+        [-0.0068,  0.0134,  0.0265,  ...,  0.0530, -0.0232, -0.0390]],
+       device='cuda:0'), grad: tensor([[ 3.1382e-05, -8.3637e-04, -3.6669e-04,  ..., -4.2945e-05,
+         -2.1309e-06,  1.4417e-05],
+        [-1.1969e-04,  9.8348e-06, -7.7844e-05,  ...,  1.8269e-05,
+         -1.8515e-06,  5.5254e-05],
+        [ 1.0443e-04,  6.3539e-05,  1.0830e-04,  ...,  1.0639e-05,
+          1.8150e-05,  6.8188e-05],
+        ...,
+        [ 6.9857e-05,  1.7524e-05,  4.5151e-05,  ...,  2.5392e-04,
+         -1.1273e-05,  1.0923e-05],
+        [ 3.3236e-04,  1.4627e-04,  2.8300e-04,  ...,  3.8296e-05,
+          1.8433e-05,  1.9252e-04],
+        [ 3.4523e-04,  8.9169e-05, -5.0068e-04,  ..., -3.9554e-04,
+          3.2224e-06,  2.2495e-04]], device='cuda:0')
+Epoch 33, bias, value: tensor([ 0.0288,  0.0103,  0.0178,  0.0225,  0.0277, -0.0083, -0.0035, -0.0038,
+         0.0132, -0.0279], device='cuda:0'), grad: tensor([-7.0906e-04, -6.5565e-05,  2.1303e-04,  1.9714e-02,  1.4865e-04,
+        -2.1729e-02,  1.8749e-03,  1.7726e-04,  5.1832e-04, -1.4305e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 32, time 218.47, cls_loss 0.0360 cls_loss_mapping 0.0428 cls_loss_causal 0.8235 re_mapping 0.0239 re_causal 0.0645 /// teacc 98.34 lr 0.00010000
+Epoch 34, weight, value: tensor([[-0.0568,  0.0820, -0.0185,  ...,  0.0075,  0.0446,  0.0264],
+        [ 0.0447, -0.0489,  0.0062,  ..., -0.0421, -0.0090, -0.0188],
+        [-0.0100, -0.0398,  0.0250,  ..., -0.0257,  0.0229, -0.0634],
+        ...,
+        [-0.0441, -0.0362,  0.0352,  ..., -0.0142, -0.0521, -0.0485],
+        [-0.0192, -0.0232, -0.0049,  ...,  0.0072, -0.0571, -0.0094],
+        [-0.0069,  0.0129,  0.0271,  ...,  0.0536, -0.0234, -0.0393]],
+       device='cuda:0'), grad: tensor([[ 1.1712e-04, -1.4377e-04, -4.0859e-05,  ...,  4.9993e-06,
+          1.8865e-05,  7.7784e-06],
+        [-3.3069e-04,  1.5974e-05, -7.2145e-04,  ...,  3.3174e-06,
+          7.1704e-05,  9.2089e-06],
+        [ 2.0611e-04,  6.4135e-05,  6.5279e-04,  ..., -1.9312e-05,
+         -2.7227e-04,  2.0728e-05],
+        ...,
+        [ 7.9989e-05,  1.0528e-05, -1.1578e-03,  ...,  2.0936e-05,
+          4.5419e-05,  8.0094e-06],
+        [ 4.4703e-04,  1.2946e-04,  1.9228e-04,  ...,  8.0228e-05,
+          1.7321e-04,  1.0306e-04],
+        [ 9.6381e-05,  3.6240e-05, -1.4514e-05,  ..., -8.2910e-05,
+          1.6361e-05,  4.3422e-05]], device='cuda:0')
+Epoch 34, bias, value: tensor([ 0.0292,  0.0103,  0.0183,  0.0224,  0.0273, -0.0083, -0.0035, -0.0043,
+         0.0135, -0.0280], device='cuda:0'), grad: tensor([ 0.0003, -0.0009,  0.0008,  0.0007,  0.0013,  0.0029, -0.0053, -0.0025,
+         0.0022,  0.0005], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 33, time 218.14, cls_loss 0.0385 cls_loss_mapping 0.0422 cls_loss_causal 0.8092 re_mapping 0.0237 re_causal 0.0608 /// teacc 97.89 lr 0.00010000
+Epoch 35, weight, value: tensor([[-0.0571,  0.0832, -0.0185,  ...,  0.0073,  0.0446,  0.0265],
+        [ 0.0451, -0.0497,  0.0066,  ..., -0.0423, -0.0096, -0.0187],
+        [-0.0107, -0.0409,  0.0245,  ..., -0.0257,  0.0238, -0.0643],
+        ...,
+        [-0.0452, -0.0366,  0.0354,  ..., -0.0146, -0.0526, -0.0496],
+        [-0.0190, -0.0225, -0.0046,  ...,  0.0070, -0.0573, -0.0092],
+        [-0.0073,  0.0125,  0.0275,  ...,  0.0542, -0.0236, -0.0399]],
+       device='cuda:0'), grad: tensor([[ 5.8264e-05, -1.2617e-03, -1.5926e-04,  ...,  7.6964e-06,
+         -3.2067e-04, -4.4703e-05],
+        [ 3.0175e-05,  1.5700e-04,  2.1744e-04,  ...,  1.3307e-05,
+          4.1604e-05,  1.0300e-04],
+        [ 2.9281e-05,  5.1355e-04,  1.7345e-04,  ...,  2.9832e-05,
+          6.6161e-05,  1.7786e-04],
+        ...,
+        [ 2.0787e-05,  6.4254e-05, -9.1791e-04,  ..., -2.5481e-05,
+          1.3083e-05, -6.7115e-05],
+        [ 6.2704e-05, -1.9729e-04, -2.5058e-04,  ..., -1.3947e-04,
+          1.2481e-04, -5.9605e-04],
+        [ 3.2276e-05,  1.1516e-04,  1.7583e-04,  ..., -1.0604e-04,
+          1.9848e-05,  1.0979e-04]], device='cuda:0')
+Epoch 35, bias, value: tensor([ 0.0293,  0.0104,  0.0179,  0.0222,  0.0278, -0.0077, -0.0036, -0.0045,
+         0.0135, -0.0282], device='cuda:0'), grad: tensor([-0.0008,  0.0005,  0.0004,  0.0016, -0.0001, -0.0009,  0.0010, -0.0016,
+        -0.0005,  0.0004], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 34, time 218.18, cls_loss 0.0303 cls_loss_mapping 0.0340 cls_loss_causal 0.7888 re_mapping 0.0231 re_causal 0.0616 /// teacc 98.31 lr 0.00010000
+Epoch 36, weight, value: tensor([[-0.0578,  0.0847, -0.0187,  ...,  0.0070,  0.0448,  0.0266],
+        [ 0.0453, -0.0502,  0.0064,  ..., -0.0424, -0.0097, -0.0193],
+        [-0.0107, -0.0418,  0.0245,  ..., -0.0260,  0.0243, -0.0647],
+        ...,
+        [-0.0457, -0.0375,  0.0355,  ..., -0.0151, -0.0529, -0.0500],
+        [-0.0193, -0.0221, -0.0040,  ...,  0.0073, -0.0579, -0.0089],
+        [-0.0076,  0.0126,  0.0276,  ...,  0.0549, -0.0239, -0.0404]],
+       device='cuda:0'), grad: tensor([[ 6.8486e-05, -3.7694e-04, -3.7104e-05,  ...,  2.0266e-06,
+          4.5039e-06, -7.3671e-05],
+        [-8.9073e-04,  1.3821e-05, -3.9554e-04,  ..., -4.4167e-05,
+          3.8520e-06, -2.0385e-04],
+        [ 2.0757e-05,  6.6698e-05,  4.4525e-05,  ..., -6.3360e-05,
+         -1.3745e-04,  3.7670e-05],
+        ...,
+        [ 5.4806e-05,  2.9087e-05,  8.2314e-05,  ...,  9.9242e-05,
+          3.5446e-06,  2.6897e-05],
+        [ 6.1989e-05, -2.2560e-05,  5.2840e-05,  ...,  1.0198e-04,
+          1.1712e-04, -7.5698e-05],
+        [ 1.2922e-04,  7.3195e-05, -6.0701e-04,  ..., -6.2609e-04,
+          1.7611e-06,  6.5982e-05]], device='cuda:0')
+Epoch 36, bias, value: tensor([ 0.0297,  0.0103,  0.0177,  0.0221,  0.0275, -0.0076, -0.0035, -0.0044,
+         0.0136, -0.0283], device='cuda:0'), grad: tensor([-1.6856e-04, -1.3132e-03, -1.0407e-04,  9.8801e-04,  1.0777e-03,
+        -1.6689e-05,  1.0532e-04,  2.4021e-04,  3.1996e-04, -1.1292e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 35, time 218.26, cls_loss 0.0316 cls_loss_mapping 0.0373 cls_loss_causal 0.7781 re_mapping 0.0221 re_causal 0.0598 /// teacc 98.20 lr 0.00010000
+Epoch 37, weight, value: tensor([[-0.0585,  0.0852, -0.0193,  ...,  0.0068,  0.0448,  0.0266],
+        [ 0.0463, -0.0492,  0.0067,  ..., -0.0426, -0.0098, -0.0196],
+        [-0.0110, -0.0432,  0.0243,  ..., -0.0261,  0.0251, -0.0656],
+        ...,
+        [-0.0461, -0.0375,  0.0358,  ..., -0.0154, -0.0537, -0.0505],
+        [-0.0200, -0.0221, -0.0038,  ...,  0.0075, -0.0583, -0.0085],
+        [-0.0080,  0.0135,  0.0284,  ...,  0.0557, -0.0238, -0.0411]],
+       device='cuda:0'), grad: tensor([[ 1.8239e-05, -1.7529e-03, -1.9178e-05,  ...,  2.6673e-06,
+          1.8343e-05, -2.5213e-05],
+        [ 1.3113e-04,  6.4611e-05,  1.4651e-04,  ...,  6.7130e-06,
+          3.2377e-04,  5.6326e-05],
+        [ 6.3539e-05,  3.4547e-04, -1.4744e-03,  ...,  1.0207e-05,
+         -3.9268e-04, -6.0940e-04],
+        ...,
+        [ 1.1869e-05,  9.6321e-05, -7.7009e-05,  ...,  5.0552e-06,
+          2.5228e-05,  2.6894e-04],
+        [ 8.3327e-05,  1.9479e-04,  2.5916e-04,  ...,  6.6876e-05,
+          5.3078e-05,  1.7726e-04],
+        [ 2.2590e-05,  4.3797e-04,  1.4238e-03,  ...,  1.0710e-03,
+          6.0685e-06,  2.6302e-03]], device='cuda:0')
+Epoch 37, bias, value: tensor([ 0.0294,  0.0105,  0.0175,  0.0223,  0.0277, -0.0075, -0.0043, -0.0040,
+         0.0133, -0.0281], device='cuda:0'), grad: tensor([-0.0029,  0.0013, -0.0023, -0.0027, -0.0011,  0.0009, -0.0002,  0.0010,
+         0.0010,  0.0049], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 36----------------------------------------------------
+epoch 36, time 218.97, cls_loss 0.0299 cls_loss_mapping 0.0332 cls_loss_causal 0.7722 re_mapping 0.0215 re_causal 0.0585 /// teacc 98.44 lr 0.00010000
+Epoch 38, weight, value: tensor([[-0.0592,  0.0858, -0.0194,  ...,  0.0067,  0.0447,  0.0262],
+        [ 0.0471, -0.0495,  0.0071,  ..., -0.0426, -0.0099, -0.0198],
+        [-0.0116, -0.0443,  0.0244,  ..., -0.0263,  0.0256, -0.0664],
+        ...,
+        [-0.0468, -0.0379,  0.0360,  ..., -0.0152, -0.0540, -0.0516],
+        [-0.0205, -0.0221, -0.0036,  ...,  0.0076, -0.0587, -0.0084],
+        [-0.0082,  0.0131,  0.0288,  ...,  0.0560, -0.0238, -0.0416]],
+       device='cuda:0'), grad: tensor([[ 3.4571e-06, -4.1509e-04,  3.1018e-04,  ...,  2.2069e-05,
+         -1.2034e-04, -6.3479e-05],
+        [ 6.8657e-06,  1.3039e-05,  1.0073e-04,  ...,  2.4199e-05,
+          1.7926e-05,  5.7518e-06],
+        [ 1.2554e-06,  6.2346e-05,  1.4973e-04,  ...,  9.6709e-06,
+         -5.7131e-05,  2.6479e-05],
+        ...,
+        [ 2.9672e-06,  1.8191e-04,  5.8556e-04,  ...,  8.2731e-05,
+          8.7097e-06,  7.5065e-06],
+        [ 1.4700e-05,  8.7097e-06,  6.5267e-05,  ...,  1.6153e-05,
+          2.2054e-05, -8.7246e-06],
+        [-2.3022e-05, -2.9087e-04, -1.8396e-03,  ..., -2.4629e-04,
+          6.8881e-06,  1.4208e-05]], device='cuda:0')
+Epoch 38, bias, value: tensor([ 0.0291,  0.0110,  0.0174,  0.0226,  0.0279, -0.0078, -0.0037, -0.0043,
+         0.0131, -0.0282], device='cuda:0'), grad: tensor([ 1.3173e-04,  1.6165e-04,  1.3876e-04,  3.1447e-04,  3.4547e-04,
+         3.1829e-04,  5.1409e-05,  9.3985e-04,  1.3328e-04, -2.5330e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 37, time 218.01, cls_loss 0.0329 cls_loss_mapping 0.0346 cls_loss_causal 0.7827 re_mapping 0.0211 re_causal 0.0581 /// teacc 98.35 lr 0.00010000
+Epoch 39, weight, value: tensor([[-0.0599,  0.0868, -0.0193,  ...,  0.0065,  0.0446,  0.0260],
+        [ 0.0478, -0.0497,  0.0075,  ..., -0.0428, -0.0095, -0.0202],
+        [-0.0127, -0.0454,  0.0240,  ..., -0.0264,  0.0258, -0.0677],
+        ...,
+        [-0.0476, -0.0377,  0.0361,  ..., -0.0155, -0.0544, -0.0526],
+        [-0.0208, -0.0221, -0.0034,  ...,  0.0075, -0.0590, -0.0079],
+        [-0.0084,  0.0124,  0.0294,  ...,  0.0564, -0.0240, -0.0425]],
+       device='cuda:0'), grad: tensor([[ 4.0817e-04,  5.4693e-04,  5.6505e-05,  ...,  7.3202e-06,
+          1.0914e-04,  6.1083e-04],
+        [ 1.1706e-04,  1.6010e-04,  1.6367e-04,  ...,  1.8567e-05,
+          2.5105e-04,  1.3983e-04],
+        [-9.6679e-05,  1.9193e-04, -7.9441e-04,  ...,  2.7433e-05,
+          6.9523e-04,  2.1958e-04],
+        ...,
+        [ 4.2582e-04,  4.3631e-05,  5.0831e-04,  ...,  2.8282e-05,
+          5.9795e-04,  2.8300e-04],
+        [ 5.3596e-04, -8.9526e-05, -4.0317e-04,  ..., -7.1526e-05,
+          3.2830e-04,  9.1839e-04],
+        [ 6.9499e-05,  3.0607e-05,  2.8372e-05,  ..., -8.7261e-05,
+          4.3452e-05,  5.3197e-05]], device='cuda:0')
+Epoch 39, bias, value: tensor([ 0.0290,  0.0110,  0.0173,  0.0225,  0.0276, -0.0071, -0.0035, -0.0042,
+         0.0128, -0.0284], device='cuda:0'), grad: tensor([ 0.0016,  0.0008,  0.0012, -0.0042,  0.0001,  0.0022, -0.0048,  0.0018,
+         0.0011,  0.0002], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 38, time 218.51, cls_loss 0.0305 cls_loss_mapping 0.0328 cls_loss_causal 0.7508 re_mapping 0.0203 re_causal 0.0556 /// teacc 98.35 lr 0.00010000
+Epoch 40, weight, value: tensor([[-0.0602,  0.0876, -0.0204,  ...,  0.0064,  0.0449,  0.0261],
+        [ 0.0483, -0.0501,  0.0081,  ..., -0.0422, -0.0098, -0.0206],
+        [-0.0132, -0.0465,  0.0237,  ..., -0.0266,  0.0264, -0.0688],
+        ...,
+        [-0.0483, -0.0382,  0.0368,  ..., -0.0158, -0.0551, -0.0535],
+        [-0.0210, -0.0216, -0.0030,  ...,  0.0077, -0.0593, -0.0078],
+        [-0.0083,  0.0128,  0.0295,  ...,  0.0569, -0.0239, -0.0428]],
+       device='cuda:0'), grad: tensor([[ 4.6045e-05, -9.2173e-04, -2.4462e-04,  ...,  3.1777e-06,
+          7.1302e-06, -3.7760e-05],
+        [ 2.6798e-04,  1.8537e-04,  1.2326e-04,  ...,  4.6156e-06,
+          4.2051e-05,  2.5463e-04],
+        [ 1.1392e-05,  5.6684e-05,  1.2052e-04,  ...,  1.9461e-05,
+         -1.0476e-05,  4.6754e-04],
+        ...,
+        [ 1.0148e-05,  4.0472e-05,  2.7323e-04,  ...,  4.5419e-05,
+          1.1884e-06,  1.0357e-03],
+        [ 8.1406e-03,  5.1270e-03,  3.4447e-03,  ...,  2.9415e-05,
+          1.1711e-03,  4.7874e-03],
+        [ 7.6175e-05,  2.3794e-04,  2.3770e-04,  ...,  1.7568e-05,
+          4.9844e-06,  8.2016e-04]], device='cuda:0')
+Epoch 40, bias, value: tensor([ 0.0288,  0.0112,  0.0170,  0.0228,  0.0272, -0.0071, -0.0038, -0.0040,
+         0.0129, -0.0283], device='cuda:0'), grad: tensor([-7.8392e-04,  4.3797e-04, -1.2457e-05, -5.7602e-03,  8.5413e-05,
+        -1.0025e-02,  4.6844e-03,  1.6556e-03,  8.3847e-03,  1.3361e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 39, time 218.23, cls_loss 0.0292 cls_loss_mapping 0.0329 cls_loss_causal 0.7693 re_mapping 0.0197 re_causal 0.0553 /// teacc 98.38 lr 0.00010000
+Epoch 41, weight, value: tensor([[-0.0610,  0.0889, -0.0203,  ...,  0.0063,  0.0451,  0.0255],
+        [ 0.0487, -0.0494,  0.0084,  ..., -0.0421, -0.0097, -0.0204],
+        [-0.0136, -0.0476,  0.0236,  ..., -0.0269,  0.0268, -0.0696],
+        ...,
+        [-0.0488, -0.0385,  0.0370,  ..., -0.0160, -0.0550, -0.0543],
+        [-0.0217, -0.0225, -0.0033,  ...,  0.0076, -0.0603, -0.0078],
+        [-0.0081,  0.0128,  0.0309,  ...,  0.0577, -0.0241, -0.0429]],
+       device='cuda:0'), grad: tensor([[ 2.7585e-04,  6.2823e-05,  1.5521e-04,  ...,  1.3150e-05,
+          1.1057e-04,  1.3508e-05],
+        [-1.4420e-02, -3.7346e-03, -3.3150e-03,  ...,  2.1085e-05,
+         -2.5845e-03, -1.6499e-04],
+        [-5.0640e-04,  7.0691e-05, -5.6686e-03,  ...,  1.7598e-05,
+         -1.8864e-03,  1.1571e-05],
+        ...,
+        [ 2.8729e-04,  1.1042e-05,  4.5547e-03,  ...,  1.1432e-04,
+          1.0796e-03,  9.2536e-06],
+        [ 4.6635e-04, -5.5850e-05,  1.6034e-04,  ..., -8.1956e-06,
+          1.8466e-04, -8.2552e-05],
+        [ 6.6936e-05,  3.5137e-05, -6.4659e-04,  ..., -4.6349e-04,
+          4.6402e-05,  3.4243e-05]], device='cuda:0')
+Epoch 41, bias, value: tensor([ 0.0292,  0.0111,  0.0169,  0.0227,  0.0269, -0.0071, -0.0035, -0.0039,
+         0.0122, -0.0277], device='cuda:0'), grad: tensor([ 0.0005, -0.0118, -0.0117,  0.0007,  0.0010,  0.0016,  0.0113,  0.0089,
+         0.0006, -0.0011], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 40----------------------------------------------------
+epoch 40, time 219.02, cls_loss 0.0299 cls_loss_mapping 0.0316 cls_loss_causal 0.7992 re_mapping 0.0201 re_causal 0.0550 /// teacc 98.50 lr 0.00010000
+Epoch 42, weight, value: tensor([[-0.0615,  0.0892, -0.0216,  ...,  0.0066,  0.0452,  0.0256],
+        [ 0.0494, -0.0496,  0.0082,  ..., -0.0423, -0.0102, -0.0208],
+        [-0.0143, -0.0487,  0.0238,  ..., -0.0272,  0.0280, -0.0701],
+        ...,
+        [-0.0503, -0.0395,  0.0369,  ..., -0.0163, -0.0556, -0.0550],
+        [-0.0212, -0.0214, -0.0025,  ...,  0.0079, -0.0606, -0.0069],
+        [-0.0085,  0.0126,  0.0314,  ...,  0.0581, -0.0245, -0.0435]],
+       device='cuda:0'), grad: tensor([[ 9.5814e-06, -1.5128e-04, -5.5552e-05,  ...,  9.7826e-06,
+          2.0653e-05,  1.5879e-06],
+        [-4.8614e-04, -1.1402e-04, -3.4308e-04,  ..., -7.6056e-05,
+          1.0006e-05, -2.9042e-05],
+        [ 1.3493e-05,  5.2899e-05,  5.8681e-05,  ...,  7.5512e-06,
+         -1.2323e-05,  8.2105e-06],
+        ...,
+        [ 2.4930e-05,  8.2701e-06, -2.1529e-04,  ...,  3.9279e-05,
+          4.7907e-06,  2.7977e-06],
+        [ 3.0732e-04,  7.4387e-05,  2.6941e-04,  ...,  1.0133e-04,
+          2.1741e-05, -2.0444e-05],
+        [ 3.6687e-05,  6.2048e-05, -6.4790e-05,  ..., -2.8276e-04,
+          2.8741e-06,  1.8448e-05]], device='cuda:0')
+Epoch 42, bias, value: tensor([ 0.0286,  0.0106,  0.0172,  0.0229,  0.0270, -0.0070, -0.0037, -0.0042,
+         0.0130, -0.0278], device='cuda:0'), grad: tensor([-6.7651e-05, -3.8743e-04,  9.4712e-05,  1.8835e-04, -2.5344e-04,
+         2.2817e-04, -4.0501e-05, -2.4045e-04,  4.6802e-04,  1.0982e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 41, time 218.00, cls_loss 0.0258 cls_loss_mapping 0.0286 cls_loss_causal 0.7488 re_mapping 0.0198 re_causal 0.0536 /// teacc 98.37 lr 0.00010000
+Epoch 43, weight, value: tensor([[-0.0616,  0.0905, -0.0213,  ...,  0.0068,  0.0457,  0.0256],
+        [ 0.0501, -0.0501,  0.0087,  ..., -0.0422, -0.0105, -0.0213],
+        [-0.0147, -0.0498,  0.0234,  ..., -0.0273,  0.0284, -0.0708],
+        ...,
+        [-0.0506, -0.0400,  0.0373,  ..., -0.0168, -0.0561, -0.0545],
+        [-0.0218, -0.0208, -0.0019,  ...,  0.0080, -0.0610, -0.0067],
+        [-0.0089,  0.0120,  0.0316,  ...,  0.0587, -0.0250, -0.0442]],
+       device='cuda:0'), grad: tensor([[ 3.0935e-05,  5.4479e-05,  4.0948e-05,  ...,  3.4064e-05,
+          3.9935e-05,  3.1561e-05],
+        [-9.2804e-05,  2.1324e-05,  1.4253e-05,  ...,  2.2486e-05,
+          4.5657e-05,  1.3441e-05],
+        [ 4.4137e-05,  8.3983e-05,  3.9279e-05,  ...,  6.3539e-05,
+         -3.5143e-04,  4.0293e-05],
+        ...,
+        [ 2.8148e-05,  1.9193e-05, -1.5271e-04,  ...,  5.0783e-05,
+          5.6267e-05,  1.4745e-05],
+        [ 1.9872e-04, -5.3596e-04, -2.4891e-04,  ..., -4.6396e-04,
+          9.9301e-05, -2.0802e-05],
+        [-1.5236e-06,  2.1243e-04, -1.4663e-04,  ..., -4.3929e-05,
+          1.2726e-05,  5.4002e-05]], device='cuda:0')
+Epoch 43, bias, value: tensor([ 0.0295,  0.0107,  0.0169,  0.0223,  0.0269, -0.0068, -0.0042, -0.0037,
+         0.0132, -0.0282], device='cuda:0'), grad: tensor([ 2.7800e-04,  1.8740e-04, -4.5896e-04,  1.8132e-04,  1.7965e-04,
+         3.1662e-04, -2.5344e-04, -3.3140e-05, -9.2363e-04,  5.2643e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 42, time 218.20, cls_loss 0.0325 cls_loss_mapping 0.0319 cls_loss_causal 0.7622 re_mapping 0.0185 re_causal 0.0515 /// teacc 98.38 lr 0.00010000
+Epoch 44, weight, value: tensor([[-0.0624,  0.0913, -0.0215,  ...,  0.0067,  0.0456,  0.0254],
+        [ 0.0506, -0.0504,  0.0088,  ..., -0.0423, -0.0102, -0.0217],
+        [-0.0153, -0.0507,  0.0233,  ..., -0.0275,  0.0290, -0.0718],
+        ...,
+        [-0.0516, -0.0404,  0.0375,  ..., -0.0170, -0.0570, -0.0551],
+        [-0.0225, -0.0208, -0.0016,  ...,  0.0082, -0.0614, -0.0066],
+        [-0.0094,  0.0118,  0.0321,  ...,  0.0590, -0.0251, -0.0448]],
+       device='cuda:0'), grad: tensor([[ 9.7975e-06,  1.4268e-05,  2.8014e-05,  ...,  8.0913e-06,
+          8.3327e-05,  1.7956e-05],
+        [-1.5366e-04,  6.7130e-06, -1.2803e-04,  ...,  1.5393e-05,
+          1.8537e-05,  2.0355e-05],
+        [ 1.9833e-05,  2.7344e-05,  7.7391e-04,  ...,  1.7986e-05,
+          3.2330e-04,  2.3633e-05],
+        ...,
+        [ 2.6003e-05,  3.5875e-06, -8.6403e-04,  ...,  1.8746e-05,
+         -3.7932e-04,  4.3273e-05],
+        [ 2.9862e-05, -1.0580e-04, -6.2704e-05,  ..., -2.4989e-05,
+          5.4330e-05, -7.2420e-05],
+        [ 2.6941e-05,  5.5432e-05, -1.3895e-03,  ..., -1.6661e-03,
+          3.6925e-05,  7.2956e-05]], device='cuda:0')
+Epoch 44, bias, value: tensor([ 0.0289,  0.0110,  0.0171,  0.0229,  0.0270, -0.0069, -0.0038, -0.0041,
+         0.0128, -0.0282], device='cuda:0'), grad: tensor([ 6.5041e-04, -4.0889e-05,  1.1520e-03, -1.5485e-04,  3.9978e-03,
+         3.8862e-04, -2.7771e-03, -1.0424e-03,  1.6022e-04, -2.3289e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 43, time 218.03, cls_loss 0.0290 cls_loss_mapping 0.0359 cls_loss_causal 0.7695 re_mapping 0.0193 re_causal 0.0521 /// teacc 98.43 lr 0.00010000
+Epoch 45, weight, value: tensor([[-0.0629,  0.0920, -0.0218,  ...,  0.0064,  0.0457,  0.0252],
+        [ 0.0513, -0.0505,  0.0086,  ..., -0.0426, -0.0107, -0.0221],
+        [-0.0164, -0.0514,  0.0235,  ..., -0.0273,  0.0302, -0.0726],
+        ...,
+        [-0.0518, -0.0407,  0.0375,  ..., -0.0172, -0.0577, -0.0564],
+        [-0.0225, -0.0205, -0.0012,  ...,  0.0081, -0.0614, -0.0061],
+        [-0.0090,  0.0117,  0.0324,  ...,  0.0594, -0.0250, -0.0453]],
+       device='cuda:0'), grad: tensor([[ 4.7162e-06,  8.4782e-04,  3.5077e-05,  ...,  1.0431e-05,
+          8.6948e-06,  1.0662e-05],
+        [-4.1336e-05,  1.6123e-05, -4.0442e-05,  ...,  2.4009e-06,
+          3.1441e-05,  4.3437e-06],
+        [ 1.1712e-05, -8.5890e-05, -1.6019e-05,  ...,  2.0221e-05,
+         -8.0228e-05,  2.6777e-05],
+        ...,
+        [ 1.1705e-05,  3.9004e-06,  2.0635e-04,  ...,  1.6391e-04,
+          1.6361e-05,  4.6678e-06],
+        [ 3.2783e-05, -3.9041e-05,  1.0714e-05,  ..., -2.3425e-05,
+          2.1324e-05, -3.9935e-05],
+        [ 1.5527e-05,  2.0102e-05, -4.6682e-04,  ..., -3.9768e-04,
+          2.2054e-06,  3.0756e-05]], device='cuda:0')
+Epoch 45, bias, value: tensor([ 0.0289,  0.0108,  0.0180,  0.0229,  0.0275, -0.0070, -0.0044, -0.0044,
+         0.0130, -0.0285], device='cuda:0'), grad: tensor([ 1.8473e-03,  1.3232e-04, -6.8140e-04,  1.9050e-04,  3.3665e-04,
+         7.6652e-05, -1.8616e-03,  3.8910e-04,  2.4319e-04, -6.7425e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 44, time 217.40, cls_loss 0.0253 cls_loss_mapping 0.0257 cls_loss_causal 0.7355 re_mapping 0.0191 re_causal 0.0516 /// teacc 98.34 lr 0.00010000
+Epoch 46, weight, value: tensor([[-0.0634,  0.0927, -0.0223,  ...,  0.0062,  0.0458,  0.0253],
+        [ 0.0517, -0.0508,  0.0087,  ..., -0.0430, -0.0110, -0.0224],
+        [-0.0167, -0.0519,  0.0233,  ..., -0.0275,  0.0306, -0.0733],
+        ...,
+        [-0.0530, -0.0411,  0.0378,  ..., -0.0173, -0.0577, -0.0570],
+        [-0.0226, -0.0199, -0.0009,  ...,  0.0082, -0.0613, -0.0063],
+        [-0.0093,  0.0120,  0.0332,  ...,  0.0602, -0.0252, -0.0457]],
+       device='cuda:0'), grad: tensor([[ 1.2338e-05, -1.7750e-04, -7.4744e-05,  ...,  1.7323e-06,
+          6.7204e-06,  3.0175e-05],
+        [ 4.4465e-04,  5.8794e-04,  1.5154e-03,  ..., -2.4331e-07,
+          6.2048e-05,  7.1192e-04],
+        [ 3.0138e-06,  1.2302e-04,  4.1276e-05,  ..., -9.3728e-06,
+         -9.8944e-05,  2.2054e-05],
+        ...,
+        [ 1.1005e-05,  1.7911e-05, -4.4584e-04,  ...,  1.8448e-05,
+          8.1956e-06,  1.3053e-05],
+        [-4.4775e-04, -4.4847e-04, -1.0948e-03,  ...,  3.5071e-04,
+          1.1064e-05, -7.4625e-04],
+        [ 1.4611e-05,  6.7830e-05, -9.2089e-05,  ..., -3.8671e-04,
+          3.8967e-06,  1.6421e-05]], device='cuda:0')
+Epoch 46, bias, value: tensor([ 0.0287,  0.0104,  0.0182,  0.0233,  0.0275, -0.0074, -0.0044, -0.0045,
+         0.0128, -0.0281], device='cuda:0'), grad: tensor([ 1.6439e-04,  2.6817e-03, -2.1648e-04,  8.4102e-05,  2.2542e-04,
+         2.0087e-04, -8.9884e-04, -4.1795e-04, -1.7662e-03, -5.8144e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 45, time 218.51, cls_loss 0.0253 cls_loss_mapping 0.0284 cls_loss_causal 0.7152 re_mapping 0.0185 re_causal 0.0497 /// teacc 98.33 lr 0.00010000
+Epoch 47, weight, value: tensor([[-0.0641,  0.0932, -0.0226,  ...,  0.0062,  0.0456,  0.0260],
+        [ 0.0522, -0.0513,  0.0091,  ..., -0.0430, -0.0107, -0.0226],
+        [-0.0171, -0.0524,  0.0227,  ..., -0.0277,  0.0309, -0.0744],
+        ...,
+        [-0.0530, -0.0410,  0.0382,  ..., -0.0175, -0.0580, -0.0571],
+        [-0.0235, -0.0203, -0.0005,  ...,  0.0084, -0.0616, -0.0066],
+        [-0.0093,  0.0116,  0.0334,  ...,  0.0606, -0.0252, -0.0464]],
+       device='cuda:0'), grad: tensor([[ 5.6863e-05,  4.2647e-05,  3.3341e-07,  ...,  1.4734e-06,
+          4.3780e-05,  2.4721e-05],
+        [-1.4496e-04,  8.5756e-06, -6.4969e-05,  ...,  2.2966e-06,
+          3.8520e-06,  1.6958e-05],
+        [ 4.2140e-05,  1.5929e-05,  3.7968e-05,  ...,  8.4843e-07,
+          3.4785e-07,  2.3916e-05],
+        ...,
+        [ 5.0098e-05, -5.1074e-06, -1.7369e-04,  ...,  7.0512e-05,
+          9.1419e-06,  4.7162e-06],
+        [ 6.4313e-05,  4.8101e-05,  6.5982e-05,  ...,  2.9966e-05,
+          2.1681e-05,  3.8654e-05],
+        [ 3.3796e-05,  4.0829e-05, -1.1259e-04,  ..., -2.1076e-04,
+          2.6505e-06,  2.5779e-05]], device='cuda:0')
+Epoch 47, bias, value: tensor([ 0.0288,  0.0106,  0.0179,  0.0230,  0.0276, -0.0072, -0.0040, -0.0043,
+         0.0124, -0.0282], device='cuda:0'), grad: tensor([ 2.8229e-04, -1.0687e-04,  1.4460e-04, -2.6298e-04,  2.8467e-04,
+         4.6563e-04, -7.8726e-04, -1.9586e-04,  2.4796e-04, -7.2539e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 46, time 218.30, cls_loss 0.0296 cls_loss_mapping 0.0333 cls_loss_causal 0.7585 re_mapping 0.0181 re_causal 0.0503 /// teacc 98.46 lr 0.00010000
+Epoch 48, weight, value: tensor([[-6.4606e-02,  9.4093e-02, -2.2644e-02,  ...,  6.1573e-03,
+          4.5534e-02,  2.5863e-02],
+        [ 5.3295e-02, -5.1590e-02,  9.1473e-03,  ..., -4.2985e-02,
+         -1.0289e-02, -2.3346e-02],
+        [-1.8046e-02, -5.2534e-02,  2.2706e-02,  ..., -2.7645e-02,
+          3.1081e-02, -7.4980e-02],
+        ...,
+        [-5.3018e-02, -4.1120e-02,  3.8310e-02,  ..., -1.7783e-02,
+         -5.8311e-02, -5.7375e-02],
+        [-2.4377e-02, -2.0941e-02, -7.2552e-05,  ...,  8.4240e-03,
+         -6.1990e-02, -6.4882e-03],
+        [-9.6642e-03,  1.1162e-02,  3.3436e-02,  ...,  6.0820e-02,
+         -2.5136e-02, -4.7313e-02]], device='cuda:0'), grad: tensor([[ 4.8208e-04,  4.4584e-04,  1.1826e-04,  ...,  7.0512e-05,
+          2.6589e-07,  4.3106e-04],
+        [ 5.8562e-05,  4.3064e-05,  1.1581e-04,  ...,  1.6987e-05,
+          5.1111e-06,  5.1200e-05],
+        [ 6.5446e-05,  6.6757e-05,  4.6462e-05,  ...,  1.3985e-05,
+         -1.2621e-05,  6.4135e-05],
+        ...,
+        [ 1.6522e-04,  1.5152e-04, -2.8515e-04,  ...,  2.0966e-05,
+          3.1590e-06,  1.8632e-04],
+        [ 2.2113e-04,  2.5153e-04,  1.1414e-04,  ...,  6.1691e-05,
+          1.0170e-06,  1.7726e-04],
+        [-7.0512e-05, -9.5510e-04, -7.2813e-04,  ..., -5.2929e-04,
+          3.1851e-07,  3.4362e-05]], device='cuda:0')
+Epoch 48, bias, value: tensor([ 0.0288,  0.0110,  0.0179,  0.0229,  0.0279, -0.0071, -0.0037, -0.0042,
+         0.0122, -0.0288], device='cuda:0'), grad: tensor([ 9.9659e-04,  2.2066e-04,  1.4615e-04,  1.3552e-03, -8.2403e-06,
+        -2.5177e-03,  4.8733e-04,  8.8751e-05,  5.4646e-04, -1.3170e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 47, time 218.61, cls_loss 0.0263 cls_loss_mapping 0.0304 cls_loss_causal 0.7030 re_mapping 0.0178 re_causal 0.0470 /// teacc 98.47 lr 0.00010000
+Epoch 49, weight, value: tensor([[-0.0647,  0.0950, -0.0225,  ...,  0.0062,  0.0454,  0.0258],
+        [ 0.0537, -0.0520,  0.0092,  ..., -0.0427, -0.0108, -0.0238],
+        [-0.0185, -0.0531,  0.0226,  ..., -0.0275,  0.0319, -0.0757],
+        ...,
+        [-0.0535, -0.0413,  0.0388,  ..., -0.0182, -0.0590, -0.0579],
+        [-0.0243, -0.0205,  0.0001,  ...,  0.0082, -0.0620, -0.0058],
+        [-0.0105,  0.0111,  0.0336,  ...,  0.0615, -0.0250, -0.0482]],
+       device='cuda:0'), grad: tensor([[ 2.2858e-05, -1.9014e-04, -7.3195e-05,  ...,  1.7494e-05,
+         -6.6996e-05,  1.1295e-05],
+        [-8.4591e-04,  1.9729e-05, -1.1292e-03,  ...,  1.1228e-05,
+          7.6666e-06, -6.9094e-04],
+        [ 1.7989e-04,  8.4162e-05,  3.0994e-04,  ...,  4.2558e-05,
+          1.0066e-05,  1.5593e-04],
+        ...,
+        [ 1.0276e-04,  6.4373e-05,  2.4930e-05,  ...,  1.8954e-05,
+          2.3812e-05,  8.2076e-05],
+        [ 6.3539e-05, -2.8777e-04, -2.5439e-04,  ..., -2.9302e-04,
+          1.5825e-05, -1.3256e-04],
+        [ 2.3134e-06,  1.4770e-04,  8.3208e-05,  ...,  4.1425e-05,
+          6.4261e-06,  7.1168e-05]], device='cuda:0')
+Epoch 49, bias, value: tensor([ 0.0289,  0.0107,  0.0185,  0.0232,  0.0281, -0.0065, -0.0044, -0.0043,
+         0.0122, -0.0295], device='cuda:0'), grad: tensor([-1.5271e-04, -1.5697e-03,  5.0068e-04,  1.4343e-03,  3.1352e-05,
+        -1.0706e-05, -3.3110e-05,  5.5671e-05, -4.9639e-04,  2.3937e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 48----------------------------------------------------
+epoch 48, time 218.75, cls_loss 0.0228 cls_loss_mapping 0.0245 cls_loss_causal 0.7256 re_mapping 0.0175 re_causal 0.0482 /// teacc 98.51 lr 0.00010000
+Epoch 50, weight, value: tensor([[-0.0652,  0.0960, -0.0226,  ...,  0.0062,  0.0455,  0.0257],
+        [ 0.0549, -0.0522,  0.0100,  ..., -0.0427, -0.0108, -0.0243],
+        [-0.0195, -0.0542,  0.0223,  ..., -0.0277,  0.0324, -0.0764],
+        ...,
+        [-0.0545, -0.0414,  0.0391,  ..., -0.0184, -0.0593, -0.0581],
+        [-0.0246, -0.0196,  0.0006,  ...,  0.0085, -0.0625, -0.0053],
+        [-0.0107,  0.0104,  0.0340,  ...,  0.0619, -0.0251, -0.0488]],
+       device='cuda:0'), grad: tensor([[ 1.0855e-05, -5.0485e-05, -2.7731e-05,  ...,  1.1977e-06,
+          9.1782e-07,  2.7157e-06],
+        [-2.5463e-04,  3.0939e-06, -2.3031e-04,  ...,  4.8354e-06,
+          7.1451e-06,  8.9854e-06],
+        [ 1.5879e-04,  1.0088e-05,  2.0659e-04,  ...,  1.1504e-05,
+         -2.4319e-05,  1.1712e-05],
+        ...,
+        [ 3.2544e-05,  4.4368e-06,  2.8253e-05,  ...,  1.1504e-05,
+          4.9435e-06,  5.4315e-06],
+        [ 1.0163e-04,  2.1875e-05, -9.8944e-05,  ..., -5.9381e-06,
+          7.5474e-06,  5.2422e-05],
+        [ 1.5602e-05,  2.0921e-05, -3.0816e-05,  ..., -5.5075e-05,
+          1.7695e-07,  9.2462e-06]], device='cuda:0')
+Epoch 50, bias, value: tensor([ 0.0292,  0.0110,  0.0184,  0.0231,  0.0273, -0.0064, -0.0043, -0.0044,
+         0.0122, -0.0293], device='cuda:0'), grad: tensor([-2.7120e-05, -3.2449e-04,  2.4390e-04,  1.0842e-04,  7.7128e-05,
+         4.6301e-04, -6.4516e-04,  6.4969e-05,  6.7115e-05, -2.8104e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 49, time 218.41, cls_loss 0.0253 cls_loss_mapping 0.0286 cls_loss_causal 0.7268 re_mapping 0.0178 re_causal 0.0467 /// teacc 98.41 lr 0.00010000
+Epoch 51, weight, value: tensor([[-0.0655,  0.0967, -0.0228,  ...,  0.0060,  0.0456,  0.0255],
+        [ 0.0556, -0.0534,  0.0102,  ..., -0.0429, -0.0111, -0.0248],
+        [-0.0201, -0.0547,  0.0221,  ..., -0.0278,  0.0332, -0.0770],
+        ...,
+        [-0.0555, -0.0415,  0.0390,  ..., -0.0189, -0.0598, -0.0585],
+        [-0.0255, -0.0204,  0.0012,  ...,  0.0085, -0.0630, -0.0056],
+        [-0.0110,  0.0106,  0.0346,  ...,  0.0629, -0.0251, -0.0490]],
+       device='cuda:0'), grad: tensor([[ 1.8142e-06, -5.1451e-04, -1.3089e-04,  ...,  1.0118e-05,
+         -9.1791e-05,  6.9104e-06],
+        [-7.2241e-05,  5.5172e-06, -3.4481e-05,  ...,  1.5004e-06,
+          2.3797e-05,  1.9521e-06],
+        [ 3.1646e-06,  1.3137e-04, -8.3864e-05,  ...,  3.6687e-05,
+         -2.1982e-04,  1.7628e-05],
+        ...,
+        [ 1.3381e-05,  2.4244e-05, -5.2899e-06,  ...,  1.7300e-05,
+          6.2883e-05,  6.6459e-06],
+        [ 1.2532e-05, -9.6858e-05,  1.6046e-04,  ..., -6.5863e-06,
+          7.8738e-05, -4.5687e-05],
+        [ 1.6168e-05,  2.5368e-04, -2.2805e-04,  ..., -1.8513e-04,
+          5.3018e-05, -7.8678e-06]], device='cuda:0')
+Epoch 51, bias, value: tensor([ 0.0293,  0.0108,  0.0187,  0.0228,  0.0281, -0.0057, -0.0051, -0.0043,
+         0.0117, -0.0293], device='cuda:0'), grad: tensor([-9.1171e-04,  5.1260e-06, -2.5940e-04,  2.5821e-04, -1.5587e-05,
+         3.5167e-04,  1.5885e-05,  1.7166e-04,  2.4211e-04,  1.4365e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 50----------------------------------------------------
+epoch 50, time 218.98, cls_loss 0.0218 cls_loss_mapping 0.0251 cls_loss_causal 0.7007 re_mapping 0.0170 re_causal 0.0476 /// teacc 98.55 lr 0.00010000
+Epoch 52, weight, value: tensor([[-0.0662,  0.0973, -0.0226,  ...,  0.0059,  0.0456,  0.0249],
+        [ 0.0560, -0.0534,  0.0098,  ..., -0.0437, -0.0113, -0.0250],
+        [-0.0206, -0.0553,  0.0223,  ..., -0.0274,  0.0337, -0.0777],
+        ...,
+        [-0.0555, -0.0414,  0.0392,  ..., -0.0195, -0.0597, -0.0587],
+        [-0.0256, -0.0198,  0.0012,  ...,  0.0086, -0.0633, -0.0053],
+        [-0.0108,  0.0102,  0.0349,  ...,  0.0633, -0.0251, -0.0494]],
+       device='cuda:0'), grad: tensor([[ 1.8191e-04, -6.8903e-04,  1.9386e-05,  ...,  6.7279e-06,
+         -2.2697e-04,  6.6042e-05],
+        [ 2.1172e-04,  1.1259e-04,  2.5916e-04,  ...,  5.8502e-05,
+          2.1145e-05,  6.5863e-05],
+        [ 1.0526e-04,  3.2210e-04,  3.2091e-04,  ...,  1.0960e-05,
+          4.2707e-05,  1.0952e-05],
+        ...,
+        [ 6.8545e-05,  6.5207e-05,  7.3135e-05,  ...,  5.2243e-05,
+          1.2293e-05,  2.2158e-05],
+        [ 1.0639e-05, -2.6286e-05, -3.2091e-04,  ...,  4.6992e-04,
+          1.6972e-05,  1.7777e-05],
+        [ 2.7388e-05,  2.4867e-04, -7.6818e-04,  ..., -9.1839e-04,
+          5.8234e-05,  3.3289e-05]], device='cuda:0')
+Epoch 52, bias, value: tensor([ 0.0291,  0.0103,  0.0191,  0.0230,  0.0284, -0.0062, -0.0051, -0.0040,
+         0.0117, -0.0296], device='cuda:0'), grad: tensor([-0.0014,  0.0010,  0.0005,  0.0014,  0.0004, -0.0017,  0.0004,  0.0003,
+        -0.0003, -0.0006], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 51, time 218.33, cls_loss 0.0231 cls_loss_mapping 0.0237 cls_loss_causal 0.7126 re_mapping 0.0167 re_causal 0.0453 /// teacc 98.46 lr 0.00010000
+Epoch 53, weight, value: tensor([[-0.0667,  0.0985, -0.0224,  ...,  0.0066,  0.0458,  0.0247],
+        [ 0.0567, -0.0544,  0.0104,  ..., -0.0438, -0.0116, -0.0255],
+        [-0.0214, -0.0562,  0.0222,  ..., -0.0281,  0.0338, -0.0780],
+        ...,
+        [-0.0565, -0.0417,  0.0395,  ..., -0.0199, -0.0597, -0.0588],
+        [-0.0250, -0.0190,  0.0016,  ...,  0.0094, -0.0629, -0.0048],
+        [-0.0115,  0.0098,  0.0349,  ...,  0.0636, -0.0254, -0.0499]],
+       device='cuda:0'), grad: tensor([[ 2.1183e-04,  2.4840e-05,  1.5600e-06,  ...,  1.5318e-05,
+          4.5806e-05,  8.3268e-05],
+        [-9.7882e-07,  4.5002e-05, -3.7879e-05,  ...,  8.2748e-07,
+          3.3110e-05,  1.5795e-05],
+        [ 6.1929e-05, -5.3823e-05,  4.5091e-05,  ...,  4.4703e-06,
+         -1.6227e-05,  1.3895e-05],
+        ...,
+        [ 1.3418e-05,  2.3723e-05, -1.7583e-05,  ...,  3.3528e-06,
+          4.8392e-06,  4.3437e-06],
+        [-1.4086e-03, -1.8377e-03, -1.1063e-03,  ..., -6.9952e-04,
+         -2.1229e-03,  3.1090e-04],
+        [ 4.4376e-05,  1.1349e-04,  1.0371e-05,  ..., -2.6785e-06,
+          1.0200e-05,  1.9655e-05]], device='cuda:0')
+Epoch 53, bias, value: tensor([ 0.0292,  0.0106,  0.0188,  0.0230,  0.0287, -0.0063, -0.0054, -0.0038,
+         0.0121, -0.0299], device='cuda:0'), grad: tensor([ 2.7061e-05,  9.5010e-05, -4.6873e-04,  2.1732e-04,  3.7694e-04,
+        -4.5738e-03,  6.8512e-03,  5.5999e-05, -2.7676e-03,  1.8263e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 52, time 218.02, cls_loss 0.0174 cls_loss_mapping 0.0199 cls_loss_causal 0.6850 re_mapping 0.0177 re_causal 0.0474 /// teacc 98.41 lr 0.00010000
+Epoch 54, weight, value: tensor([[-0.0672,  0.0994, -0.0222,  ...,  0.0064,  0.0458,  0.0246],
+        [ 0.0571, -0.0541,  0.0104,  ..., -0.0440, -0.0117, -0.0256],
+        [-0.0218, -0.0579,  0.0216,  ..., -0.0283,  0.0340, -0.0785],
+        ...,
+        [-0.0570, -0.0425,  0.0401,  ..., -0.0201, -0.0598, -0.0590],
+        [-0.0257, -0.0194,  0.0020,  ...,  0.0093, -0.0631, -0.0050],
+        [-0.0114,  0.0092,  0.0353,  ...,  0.0642, -0.0254, -0.0503]],
+       device='cuda:0'), grad: tensor([[ 1.6242e-06, -4.3958e-05, -2.0683e-05,  ...,  6.6543e-07,
+          2.1309e-06, -3.1531e-05],
+        [-3.6120e-05,  4.6492e-06, -2.0087e-05,  ...,  6.9384e-08,
+          2.7657e-05,  1.7360e-06],
+        [ 6.8098e-06, -1.5199e-04,  4.3176e-06,  ...,  4.0792e-07,
+          1.3106e-05,  4.9733e-06],
+        ...,
+        [ 1.1943e-05,  6.5975e-06,  1.0528e-05,  ...,  8.6501e-06,
+          1.2293e-05,  2.4159e-06],
+        [-6.8903e-05, -1.2910e-04, -6.4433e-05,  ..., -3.7819e-05,
+          3.4012e-06, -1.2362e-04],
+        [ 7.3463e-06,  1.4268e-05, -4.0144e-05,  ..., -2.4632e-05,
+          2.4829e-06,  1.0699e-05]], device='cuda:0')
+Epoch 54, bias, value: tensor([ 0.0295,  0.0102,  0.0183,  0.0232,  0.0287, -0.0060, -0.0053, -0.0034,
+         0.0117, -0.0301], device='cuda:0'), grad: tensor([ 1.1015e-04,  5.3585e-05, -6.8045e-04,  4.7302e-04, -3.7384e-04,
+         1.7965e-04,  1.0717e-04,  9.7454e-05, -7.0930e-05,  1.0473e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 53, time 218.64, cls_loss 0.0199 cls_loss_mapping 0.0212 cls_loss_causal 0.7144 re_mapping 0.0168 re_causal 0.0477 /// teacc 98.44 lr 0.00010000
+Epoch 55, weight, value: tensor([[-0.0674,  0.0997, -0.0233,  ...,  0.0062,  0.0462,  0.0246],
+        [ 0.0574, -0.0544,  0.0106,  ..., -0.0443, -0.0118, -0.0258],
+        [-0.0223, -0.0586,  0.0216,  ..., -0.0285,  0.0342, -0.0789],
+        ...,
+        [-0.0580, -0.0426,  0.0396,  ..., -0.0201, -0.0600, -0.0593],
+        [-0.0261, -0.0195,  0.0021,  ...,  0.0091, -0.0633, -0.0049],
+        [-0.0111,  0.0100,  0.0367,  ...,  0.0648, -0.0256, -0.0509]],
+       device='cuda:0'), grad: tensor([[ 3.7611e-05,  4.5037e-04,  5.6171e-04,  ...,  2.2864e-07,
+         -6.1514e-07,  3.5077e-05],
+        [-6.3777e-05,  9.8497e-06,  3.9011e-05,  ...,  1.9744e-07,
+          8.5589e-07,  3.1024e-05],
+        [ 9.8705e-05,  2.8208e-05,  5.1260e-05,  ...,  7.3388e-07,
+         -2.3767e-06,  1.1975e-04],
+        ...,
+        [-1.9252e-05,  1.7449e-05, -1.4985e-04,  ...,  8.9500e-07,
+          3.8790e-07,  6.8694e-06],
+        [-1.2624e-04, -1.5867e-04, -1.0800e-04,  ..., -2.4512e-06,
+         -1.0012e-07, -4.1199e-04],
+        [ 4.6670e-05, -5.1022e-04, -6.0892e-04,  ..., -1.2599e-05,
+          5.1921e-07,  5.4181e-05]], device='cuda:0')
+Epoch 55, bias, value: tensor([ 0.0290,  0.0104,  0.0181,  0.0231,  0.0291, -0.0060, -0.0051, -0.0042,
+         0.0117, -0.0293], device='cuda:0'), grad: tensor([ 0.0016,  0.0002,  0.0004, -0.0011,  0.0004,  0.0022, -0.0010, -0.0003,
+        -0.0008, -0.0015], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 54, time 218.38, cls_loss 0.0215 cls_loss_mapping 0.0242 cls_loss_causal 0.7233 re_mapping 0.0168 re_causal 0.0447 /// teacc 98.53 lr 0.00010000
+Epoch 56, weight, value: tensor([[-0.0687,  0.1006, -0.0233,  ...,  0.0063,  0.0464,  0.0244],
+        [ 0.0581, -0.0546,  0.0108,  ..., -0.0444, -0.0121, -0.0261],
+        [-0.0230, -0.0593,  0.0219,  ..., -0.0286,  0.0349, -0.0787],
+        ...,
+        [-0.0585, -0.0430,  0.0394,  ..., -0.0203, -0.0601, -0.0596],
+        [-0.0258, -0.0186,  0.0022,  ...,  0.0093, -0.0627, -0.0050],
+        [-0.0118,  0.0094,  0.0377,  ...,  0.0652, -0.0259, -0.0519]],
+       device='cuda:0'), grad: tensor([[ 7.8753e-06, -2.8079e-07,  6.6817e-05,  ...,  2.2039e-05,
+          4.2468e-06,  4.7907e-06],
+        [-5.6601e-04, -1.8880e-05, -2.0428e-03,  ..., -3.6955e-04,
+          9.9652e-08,  1.2435e-05],
+        [ 1.5393e-05,  1.0580e-05,  5.9575e-05,  ...,  1.0990e-05,
+         -4.4107e-06,  2.1964e-05],
+        ...,
+        [ 3.0160e-04,  1.0675e-04,  1.5650e-03,  ...,  3.5310e-04,
+          2.2464e-06,  7.5027e-06],
+        [ 3.4660e-05, -4.2915e-05, -1.7315e-05,  ..., -1.7658e-06,
+          2.9787e-05, -8.8036e-05],
+        [ 1.8346e-04, -1.2267e-04,  6.8069e-05,  ..., -8.5652e-05,
+          5.5786e-07,  1.0662e-05]], device='cuda:0')
+Epoch 56, bias, value: tensor([ 0.0288,  0.0102,  0.0184,  0.0230,  0.0287, -0.0056, -0.0056, -0.0040,
+         0.0117, -0.0292], device='cuda:0'), grad: tensor([ 8.3089e-05, -1.7920e-03,  4.3601e-05, -8.2888e-08,  1.7214e-04,
+         1.2183e-04, -1.5926e-04,  1.4524e-03,  5.9247e-05,  1.9312e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 55----------------------------------------------------
+epoch 55, time 218.85, cls_loss 0.0166 cls_loss_mapping 0.0196 cls_loss_causal 0.6670 re_mapping 0.0156 re_causal 0.0453 /// teacc 98.58 lr 0.00010000
+Epoch 57, weight, value: tensor([[-0.0689,  0.1012, -0.0233,  ...,  0.0062,  0.0463,  0.0244],
+        [ 0.0578, -0.0550,  0.0104,  ..., -0.0444, -0.0122, -0.0263],
+        [-0.0221, -0.0599,  0.0221,  ..., -0.0287,  0.0352, -0.0790],
+        ...,
+        [-0.0590, -0.0432,  0.0399,  ..., -0.0205, -0.0603, -0.0599],
+        [-0.0261, -0.0189,  0.0027,  ...,  0.0093, -0.0630, -0.0050],
+        [-0.0120,  0.0091,  0.0378,  ...,  0.0657, -0.0262, -0.0522]],
+       device='cuda:0'), grad: tensor([[ 4.9770e-06,  1.5140e-04,  2.0814e-04,  ...,  5.8673e-08,
+          8.7842e-06,  4.2981e-07],
+        [-7.6234e-05,  1.4953e-05, -5.1588e-05,  ...,  2.2352e-08,
+          8.6846e-07,  4.2561e-07],
+        [ 2.4602e-05,  5.3085e-06,  5.5909e-05,  ...,  3.2643e-07,
+          9.8720e-06,  2.5723e-06],
+        ...,
+        [ 9.3132e-06,  3.4831e-06, -1.3590e-04,  ...,  1.4203e-07,
+          1.3318e-06,  2.1793e-06],
+        [ 8.0228e-05,  1.5944e-05,  3.6299e-05,  ..., -6.9849e-07,
+          1.6063e-05, -7.8231e-08],
+        [ 4.8764e-06,  1.6972e-05,  6.1035e-05,  ..., -7.4366e-07,
+          1.0207e-06,  1.4929e-06]], device='cuda:0')
+Epoch 57, bias, value: tensor([ 0.0289,  0.0093,  0.0191,  0.0230,  0.0287, -0.0057, -0.0057, -0.0034,
+         0.0115, -0.0293], device='cuda:0'), grad: tensor([ 1.6794e-03,  3.3826e-05,  1.9467e-04,  1.8686e-05,  2.8610e-03,
+         2.1720e-04, -5.6114e-03, -1.9515e-04,  5.1451e-04,  2.8324e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 56, time 218.01, cls_loss 0.0166 cls_loss_mapping 0.0205 cls_loss_causal 0.6663 re_mapping 0.0160 re_causal 0.0438 /// teacc 98.57 lr 0.00010000
+Epoch 58, weight, value: tensor([[-0.0689,  0.1021, -0.0230,  ...,  0.0063,  0.0463,  0.0244],
+        [ 0.0593, -0.0551,  0.0112,  ..., -0.0445, -0.0115, -0.0263],
+        [-0.0229, -0.0608,  0.0221,  ..., -0.0289,  0.0355, -0.0795],
+        ...,
+        [-0.0605, -0.0434,  0.0396,  ..., -0.0206, -0.0613, -0.0604],
+        [-0.0264, -0.0188,  0.0028,  ...,  0.0094, -0.0634, -0.0047],
+        [-0.0121,  0.0088,  0.0382,  ...,  0.0663, -0.0266, -0.0525]],
+       device='cuda:0'), grad: tensor([[-2.5518e-06, -9.7942e-04, -1.7929e-04,  ...,  4.3921e-06,
+         -1.9324e-04, -8.4281e-05],
+        [-1.3128e-05,  2.0623e-05,  1.0222e-04,  ...,  2.5351e-06,
+          9.5516e-06,  1.4767e-05],
+        [ 9.7752e-06,  1.6582e-04,  1.9588e-03,  ...,  1.0943e-04,
+          8.9467e-05,  5.9098e-05],
+        ...,
+        [ 7.1041e-06,  8.6278e-06,  3.4313e-03,  ...,  1.5414e-04,
+         -1.4529e-06, -9.2685e-05],
+        [ 2.7791e-05,  5.8651e-05, -6.5422e-03,  ..., -3.6049e-04,
+          2.4393e-05, -1.0371e-05],
+        [ 1.6987e-05,  3.2723e-05,  2.2447e-04,  ...,  6.2823e-05,
+          1.3940e-05,  5.0545e-05]], device='cuda:0')
+Epoch 58, bias, value: tensor([ 0.0289,  0.0103,  0.0186,  0.0230,  0.0285, -0.0057, -0.0053, -0.0037,
+         0.0114, -0.0294], device='cuda:0'), grad: tensor([-9.8133e-04,  1.8120e-04,  2.8191e-03,  1.0748e-03,  6.8843e-05,
+         1.8167e-04,  5.7268e-04,  4.2458e-03, -8.5983e-03,  4.4155e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 57----------------------------------------------------
+epoch 57, time 218.30, cls_loss 0.0167 cls_loss_mapping 0.0184 cls_loss_causal 0.6749 re_mapping 0.0148 re_causal 0.0426 /// teacc 98.62 lr 0.00010000
+Epoch 59, weight, value: tensor([[-0.0696,  0.1032, -0.0231,  ...,  0.0062,  0.0472,  0.0244],
+        [ 0.0602, -0.0553,  0.0117,  ..., -0.0445, -0.0115, -0.0268],
+        [-0.0235, -0.0598,  0.0220,  ..., -0.0290,  0.0359, -0.0798],
+        ...,
+        [-0.0617, -0.0442,  0.0396,  ..., -0.0208, -0.0613, -0.0604],
+        [-0.0269, -0.0190,  0.0034,  ...,  0.0094, -0.0640, -0.0050],
+        [-0.0124,  0.0088,  0.0386,  ...,  0.0669, -0.0255, -0.0533]],
+       device='cuda:0'), grad: tensor([[-3.5405e-05, -4.1389e-04, -7.4282e-06,  ...,  1.8515e-06,
+         -1.1563e-04, -1.7911e-05],
+        [-1.1101e-05,  1.3284e-05,  5.5790e-05,  ...,  2.4401e-06,
+          3.5763e-06,  1.0975e-05],
+        [ 1.3195e-05,  1.9580e-05,  1.6236e-04,  ...,  2.0694e-06,
+          3.5781e-06,  1.2241e-05],
+        ...,
+        [ 1.2375e-05,  2.0236e-05, -3.4142e-04,  ...,  1.9088e-05,
+          6.0685e-06,  2.3782e-05],
+        [ 3.0488e-05,  1.5736e-05,  8.2478e-06,  ..., -1.0438e-05,
+          1.5929e-05, -8.9779e-06],
+        [ 2.4885e-05,  1.0902e-04, -4.0174e-04,  ..., -1.7369e-04,
+          2.6688e-05, -3.6448e-05]], device='cuda:0')
+Epoch 59, bias, value: tensor([ 0.0292,  0.0105,  0.0188,  0.0224,  0.0283, -0.0054, -0.0054, -0.0035,
+         0.0112, -0.0295], device='cuda:0'), grad: tensor([-7.2289e-04,  2.2590e-04,  5.5265e-04,  6.8140e-04,  6.0654e-04,
+         3.6269e-05,  1.5867e-04, -1.2016e-03,  1.4818e-04, -4.8375e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 58, time 218.05, cls_loss 0.0160 cls_loss_mapping 0.0194 cls_loss_causal 0.6914 re_mapping 0.0155 re_causal 0.0427 /// teacc 98.52 lr 0.00010000
+Epoch 60, weight, value: tensor([[-0.0699,  0.1044, -0.0231,  ...,  0.0060,  0.0477,  0.0244],
+        [ 0.0598, -0.0556,  0.0113,  ..., -0.0448, -0.0117, -0.0272],
+        [-0.0229, -0.0611,  0.0214,  ..., -0.0291,  0.0360, -0.0809],
+        ...,
+        [-0.0625, -0.0451,  0.0401,  ..., -0.0209, -0.0614, -0.0607],
+        [-0.0266, -0.0189,  0.0039,  ...,  0.0095, -0.0642, -0.0044],
+        [-0.0122,  0.0085,  0.0393,  ...,  0.0675, -0.0258, -0.0540]],
+       device='cuda:0'), grad: tensor([[ 7.4267e-05, -6.4254e-05, -4.6432e-05,  ...,  1.6112e-06,
+          4.0174e-05,  6.9499e-05],
+        [-1.5426e-04,  1.2524e-05, -1.9324e-04,  ...,  2.0582e-07,
+         -2.6673e-06,  8.7544e-06],
+        [ 3.8058e-05,  1.1146e-05,  5.2899e-05,  ...,  9.4529e-08,
+          4.5821e-06,  1.0781e-05],
+        ...,
+        [ 4.6700e-05,  9.3430e-06, -2.1845e-05,  ...,  1.8496e-06,
+          7.2010e-06,  2.5198e-05],
+        [ 1.0544e-02,  1.6510e-02,  2.2373e-03,  ...,  2.3127e-04,
+          5.1384e-03,  9.9945e-03],
+        [ 4.6968e-05,  4.6074e-05,  6.0529e-05,  ..., -5.8226e-06,
+          1.1414e-05,  3.0816e-05]], device='cuda:0')
+Epoch 60, bias, value: tensor([ 0.0296,  0.0092,  0.0189,  0.0231,  0.0284, -0.0059, -0.0055, -0.0030,
+         0.0115, -0.0296], device='cuda:0'), grad: tensor([-5.6392e-07, -2.4283e-04,  1.0365e-04,  3.1114e-05, -6.4039e-04,
+         4.8027e-03, -2.0874e-02, -4.1306e-05,  1.6571e-02,  3.0184e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 59, time 218.00, cls_loss 0.0212 cls_loss_mapping 0.0239 cls_loss_causal 0.7218 re_mapping 0.0151 re_causal 0.0417 /// teacc 98.57 lr 0.00010000
+Epoch 61, weight, value: tensor([[-0.0706,  0.1052, -0.0229,  ...,  0.0057,  0.0481,  0.0244],
+        [ 0.0611, -0.0561,  0.0114,  ..., -0.0445, -0.0114, -0.0275],
+        [-0.0241, -0.0617,  0.0209,  ..., -0.0289,  0.0357, -0.0817],
+        ...,
+        [-0.0635, -0.0461,  0.0401,  ..., -0.0211, -0.0612, -0.0608],
+        [-0.0277, -0.0199,  0.0039,  ...,  0.0097, -0.0652, -0.0049],
+        [-0.0125,  0.0077,  0.0402,  ...,  0.0680, -0.0260, -0.0544]],
+       device='cuda:0'), grad: tensor([[-1.3217e-05, -5.6791e-04, -6.5625e-05,  ..., -4.0859e-05,
+          7.7160e-07, -2.4378e-05],
+        [-6.9022e-05,  6.8098e-06, -1.1784e-04,  ...,  7.1200e-07,
+         -1.7751e-06,  8.6352e-06],
+        [ 3.6031e-05,  5.9038e-05,  6.8784e-05,  ...,  7.0967e-06,
+          3.5949e-06,  3.0965e-05],
+        ...,
+        [ 1.0997e-05,  2.0847e-05,  9.7230e-06,  ...,  5.3570e-06,
+          3.0454e-07,  1.4015e-05],
+        [ 4.7386e-05, -5.9366e-05, -5.1588e-05,  ..., -1.2264e-05,
+          3.3081e-06, -1.2112e-04],
+        [ 1.9968e-05,  2.4486e-04,  2.4557e-05,  ...,  7.6815e-06,
+          1.2619e-07,  3.5852e-05]], device='cuda:0')
+Epoch 61, bias, value: tensor([ 0.0297,  0.0102,  0.0182,  0.0225,  0.0291, -0.0053, -0.0053, -0.0032,
+         0.0107, -0.0297], device='cuda:0'), grad: tensor([-6.2704e-04, -9.3520e-05,  2.2221e-04, -1.2040e-05,  1.2648e-04,
+         1.8764e-04,  8.9586e-05,  6.4015e-05, -2.9516e-04,  3.3832e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 60, time 217.73, cls_loss 0.0145 cls_loss_mapping 0.0172 cls_loss_causal 0.6671 re_mapping 0.0153 re_causal 0.0420 /// teacc 98.58 lr 0.00010000
+Epoch 62, weight, value: tensor([[-0.0710,  0.1062, -0.0229,  ...,  0.0056,  0.0483,  0.0243],
+        [ 0.0614, -0.0566,  0.0118,  ..., -0.0454, -0.0113, -0.0277],
+        [-0.0245, -0.0621,  0.0203,  ..., -0.0289,  0.0361, -0.0822],
+        ...,
+        [-0.0644, -0.0463,  0.0403,  ..., -0.0215, -0.0616, -0.0614],
+        [-0.0282, -0.0200,  0.0046,  ...,  0.0101, -0.0657, -0.0052],
+        [-0.0121,  0.0073,  0.0402,  ...,  0.0688, -0.0264, -0.0548]],
+       device='cuda:0'), grad: tensor([[ 6.5304e-06, -4.0859e-05, -2.1607e-06,  ...,  1.3411e-06,
+          6.5193e-06,  2.1495e-06],
+        [ 1.0335e-04,  7.6443e-06,  5.6934e-04,  ..., -1.9185e-07,
+          3.3546e-06,  4.2468e-06],
+        [ 4.2170e-06,  1.4983e-05,  4.7117e-05,  ..., -5.1111e-06,
+         -5.2452e-05,  1.2778e-05],
+        ...,
+        [-2.0075e-04,  4.0792e-06, -9.8324e-04,  ...,  1.5095e-05,
+          1.5646e-05,  1.4290e-05],
+        [ 7.7724e-05, -7.7533e-07,  9.5904e-05,  ..., -2.5667e-06,
+          3.5584e-05,  1.4290e-05],
+        [ 2.8998e-05,  1.8284e-05,  6.0916e-05,  ..., -3.5137e-05,
+          2.2911e-06,  1.0148e-05]], device='cuda:0')
+Epoch 62, bias, value: tensor([ 0.0302,  0.0103,  0.0177,  0.0227,  0.0291, -0.0056, -0.0047, -0.0032,
+         0.0108, -0.0302], device='cuda:0'), grad: tensor([-5.0291e-06,  5.9175e-04, -1.2529e-04,  7.1049e-05,  3.7789e-05,
+         6.2823e-05, -1.1975e-04, -8.5449e-04,  1.8179e-04,  1.5974e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 61, time 218.12, cls_loss 0.0173 cls_loss_mapping 0.0202 cls_loss_causal 0.6857 re_mapping 0.0149 re_causal 0.0421 /// teacc 98.48 lr 0.00010000
+Epoch 63, weight, value: tensor([[-0.0712,  0.1069, -0.0228,  ...,  0.0057,  0.0481,  0.0241],
+        [ 0.0624, -0.0570,  0.0124,  ..., -0.0455, -0.0116, -0.0279],
+        [-0.0248, -0.0624,  0.0211,  ..., -0.0290,  0.0368, -0.0820],
+        ...,
+        [-0.0660, -0.0461,  0.0404,  ..., -0.0216, -0.0615, -0.0619],
+        [-0.0292, -0.0208,  0.0041,  ...,  0.0101, -0.0661, -0.0056],
+        [-0.0119,  0.0071,  0.0402,  ...,  0.0693, -0.0266, -0.0550]],
+       device='cuda:0'), grad: tensor([[ 4.3571e-05,  9.0674e-06,  1.3888e-05,  ...,  1.0759e-05,
+          5.0068e-05,  3.0458e-05],
+        [-1.6928e-03,  2.5071e-06, -7.4720e-04,  ...,  1.0477e-06,
+         -8.0919e-04, -9.6941e-04],
+        [ 1.1463e-03,  4.7460e-06,  5.9462e-04,  ...,  4.6566e-06,
+          3.9959e-04,  5.1117e-04],
+        ...,
+        [ 1.2153e-04,  2.8741e-06,  4.2647e-05,  ...,  1.3262e-05,
+          7.1943e-05,  8.5413e-05],
+        [ 1.2791e-04,  4.5747e-05,  2.7761e-05,  ...,  1.5765e-05,
+          5.1260e-05,  6.4850e-05],
+        [-2.6512e-04, -2.9087e-04, -3.2425e-04,  ..., -4.6015e-04,
+         -3.1900e-04,  1.9357e-05]], device='cuda:0')
+Epoch 63, bias, value: tensor([ 0.0301,  0.0102,  0.0184,  0.0228,  0.0294, -0.0050, -0.0050, -0.0028,
+         0.0099, -0.0308], device='cuda:0'), grad: tensor([ 0.0002, -0.0036,  0.0020,  0.0008,  0.0009, -0.0016,  0.0018,  0.0003,
+         0.0002, -0.0010], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 62, time 218.45, cls_loss 0.0179 cls_loss_mapping 0.0215 cls_loss_causal 0.6557 re_mapping 0.0151 re_causal 0.0412 /// teacc 98.48 lr 0.00010000
+Epoch 64, weight, value: tensor([[-0.0717,  0.1082, -0.0229,  ...,  0.0061,  0.0490,  0.0237],
+        [ 0.0640, -0.0575,  0.0130,  ..., -0.0449, -0.0114, -0.0281],
+        [-0.0255, -0.0629,  0.0209,  ..., -0.0290,  0.0367, -0.0830],
+        ...,
+        [-0.0665, -0.0467,  0.0406,  ..., -0.0220, -0.0611, -0.0622],
+        [-0.0296, -0.0200,  0.0042,  ...,  0.0104, -0.0664, -0.0055],
+        [-0.0127,  0.0060,  0.0406,  ...,  0.0698, -0.0269, -0.0556]],
+       device='cuda:0'), grad: tensor([[ 2.8089e-05,  7.3195e-04,  9.2536e-06,  ..., -2.5332e-06,
+          1.2970e-04,  5.4741e-04],
+        [-6.6102e-05,  9.5069e-06, -7.4208e-05,  ...,  1.0394e-06,
+          1.0449e-06,  2.1636e-05],
+        [ 8.7798e-05,  1.8942e-04,  4.8757e-04,  ...,  2.1942e-06,
+          4.3586e-07,  2.4772e-04],
+        ...,
+        [ 2.1800e-05,  1.3098e-05,  2.1055e-05,  ...,  9.1791e-06,
+          1.5926e-07,  3.6269e-05],
+        [ 4.1097e-05, -1.7440e-04, -5.1451e-04,  ..., -1.7770e-06,
+          8.6650e-06, -1.8132e-04],
+        [ 3.4720e-05,  2.1711e-05, -4.2439e-05,  ..., -5.1200e-05,
+          1.1111e-06,  5.0545e-05]], device='cuda:0')
+Epoch 64, bias, value: tensor([ 0.0308,  0.0106,  0.0179,  0.0226,  0.0293, -0.0048, -0.0053, -0.0028,
+         0.0096, -0.0308], device='cuda:0'), grad: tensor([ 1.3161e-03,  5.8860e-05,  8.5354e-04, -2.1667e-03, -4.6539e-03,
+         2.3403e-03,  2.7542e-03,  7.5579e-05, -6.3276e-04,  5.4061e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 63, time 218.23, cls_loss 0.0193 cls_loss_mapping 0.0224 cls_loss_causal 0.6715 re_mapping 0.0142 re_causal 0.0397 /// teacc 98.62 lr 0.00010000
+Epoch 65, weight, value: tensor([[-0.0727,  0.1085, -0.0228,  ...,  0.0059,  0.0488,  0.0230],
+        [ 0.0644, -0.0581,  0.0128,  ..., -0.0453, -0.0114, -0.0282],
+        [-0.0261, -0.0631,  0.0216,  ..., -0.0283,  0.0373, -0.0834],
+        ...,
+        [-0.0671, -0.0473,  0.0405,  ..., -0.0222, -0.0617, -0.0636],
+        [-0.0299, -0.0197,  0.0040,  ...,  0.0102, -0.0668, -0.0047],
+        [-0.0124,  0.0058,  0.0412,  ...,  0.0705, -0.0267, -0.0552]],
+       device='cuda:0'), grad: tensor([[ 4.4852e-05,  7.6056e-05, -2.7083e-06,  ...,  2.0236e-05,
+          2.2873e-06,  5.1588e-05],
+        [ 2.9132e-05,  1.6069e-04,  1.9401e-05,  ...,  9.2462e-06,
+         -6.3218e-06,  6.7055e-05],
+        [ 1.4400e-04, -1.3390e-03,  1.5044e-04,  ..., -3.4237e-04,
+          1.0990e-06, -1.0461e-04],
+        ...,
+        [ 3.4273e-05,  7.0512e-05,  3.2276e-05,  ...,  1.5542e-05,
+          1.5553e-06,  2.8849e-05],
+        [-4.7278e-04, -1.1368e-03, -6.7663e-04,  ..., -1.3328e-04,
+          2.4457e-06, -5.5361e-04],
+        [ 9.6321e-05,  2.5344e-04,  9.8765e-05,  ...,  7.1704e-05,
+          8.3912e-07,  1.5175e-04]], device='cuda:0')
+Epoch 65, bias, value: tensor([ 0.0306,  0.0105,  0.0185,  0.0225,  0.0297, -0.0052, -0.0055, -0.0027,
+         0.0097, -0.0310], device='cuda:0'), grad: tensor([ 2.9659e-04,  3.5906e-04, -2.3422e-03,  6.6137e-04,  9.9897e-05,
+         2.8381e-03,  2.7990e-04,  3.2783e-04, -2.8896e-03,  3.6860e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 64----------------------------------------------------
+epoch 64, time 219.20, cls_loss 0.0148 cls_loss_mapping 0.0142 cls_loss_causal 0.6731 re_mapping 0.0146 re_causal 0.0399 /// teacc 98.65 lr 0.00010000
+Epoch 66, weight, value: tensor([[-0.0735,  0.1095, -0.0224,  ...,  0.0057,  0.0495,  0.0231],
+        [ 0.0656, -0.0599,  0.0137,  ..., -0.0453, -0.0119, -0.0285],
+        [-0.0274, -0.0652,  0.0204,  ..., -0.0288,  0.0374, -0.0850],
+        ...,
+        [-0.0680, -0.0474,  0.0406,  ..., -0.0224, -0.0618, -0.0650],
+        [-0.0302, -0.0192,  0.0046,  ...,  0.0103, -0.0673, -0.0041],
+        [-0.0126,  0.0057,  0.0414,  ...,  0.0713, -0.0267, -0.0551]],
+       device='cuda:0'), grad: tensor([[ 2.9325e-05,  2.9169e-06,  1.8314e-05,  ...,  5.3532e-06,
+          3.4515e-06,  2.7969e-05],
+        [-1.1313e-04,  6.3516e-06, -1.9276e-04,  ...,  6.6496e-06,
+          1.8124e-06, -4.8399e-05],
+        [ 1.2279e-04,  8.6874e-06,  1.9407e-04,  ...,  7.3537e-06,
+         -4.7654e-05,  1.1420e-04],
+        ...,
+        [ 9.8586e-05,  6.1430e-06, -1.7965e-04,  ...,  4.4823e-05,
+          1.8641e-05,  7.7486e-05],
+        [ 5.7888e-04,  1.0151e-04,  5.4508e-05,  ...,  9.7871e-05,
+          1.0505e-06,  5.7268e-04],
+        [-2.7323e-04, -4.7624e-05, -8.8120e-04,  ..., -5.3263e-04,
+          4.0792e-07, -2.1577e-05]], device='cuda:0')
+Epoch 66, bias, value: tensor([ 0.0312,  0.0106,  0.0177,  0.0230,  0.0294, -0.0052, -0.0055, -0.0028,
+         0.0100, -0.0310], device='cuda:0'), grad: tensor([ 1.3053e-04, -1.4091e-04, -5.6601e-04,  1.9580e-05,  8.1062e-04,
+        -7.0477e-04,  1.3447e-04,  2.4343e-04,  1.2932e-03, -1.2178e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 65, time 218.25, cls_loss 0.0168 cls_loss_mapping 0.0193 cls_loss_causal 0.6673 re_mapping 0.0148 re_causal 0.0394 /// teacc 98.39 lr 0.00010000
+Epoch 67, weight, value: tensor([[-0.0742,  0.1096, -0.0228,  ...,  0.0055,  0.0495,  0.0229],
+        [ 0.0666, -0.0593,  0.0139,  ..., -0.0453, -0.0113, -0.0289],
+        [-0.0281, -0.0657,  0.0202,  ..., -0.0291,  0.0376, -0.0855],
+        ...,
+        [-0.0687, -0.0478,  0.0408,  ..., -0.0229, -0.0620, -0.0661],
+        [-0.0304, -0.0191,  0.0051,  ...,  0.0107, -0.0675, -0.0038],
+        [-0.0130,  0.0058,  0.0418,  ...,  0.0720, -0.0270, -0.0558]],
+       device='cuda:0'), grad: tensor([[ 4.8161e-05,  2.6274e-04,  1.0979e-04,  ...,  1.0151e-04,
+          2.8722e-06,  1.2541e-04],
+        [-4.1217e-05,  2.8789e-05, -4.0174e-05,  ...,  1.0423e-05,
+          2.1160e-06,  2.0161e-05],
+        [ 2.6658e-05,  5.4538e-05,  1.0586e-04,  ...,  2.0817e-05,
+         -3.3947e-07, -3.7241e-04],
+        ...,
+        [ 2.2978e-05,  2.4199e-05, -1.3936e-04,  ...,  7.0259e-06,
+         -5.6736e-06,  1.9282e-05],
+        [-3.3468e-05, -9.2030e-04, -5.0545e-04,  ..., -3.9268e-04,
+          2.4885e-06, -4.5681e-04],
+        [ 3.6985e-05,  1.9312e-04,  5.9962e-05,  ...,  5.4240e-05,
+          4.1537e-07,  8.3983e-05]], device='cuda:0')
+Epoch 67, bias, value: tensor([ 0.0307,  0.0110,  0.0172,  0.0233,  0.0290, -0.0042, -0.0046, -0.0036,
+         0.0099, -0.0312], device='cuda:0'), grad: tensor([-1.1833e-02,  5.3585e-05, -2.0199e-03,  2.4452e-03,  8.5220e-03,
+         5.6934e-04,  2.3861e-03,  1.9193e-04, -1.0910e-03,  7.8106e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 66, time 218.04, cls_loss 0.0142 cls_loss_mapping 0.0136 cls_loss_causal 0.6822 re_mapping 0.0142 re_causal 0.0408 /// teacc 98.50 lr 0.00010000
+Epoch 68, weight, value: tensor([[-0.0750,  0.1101, -0.0230,  ...,  0.0051,  0.0498,  0.0226],
+        [ 0.0675, -0.0599,  0.0144,  ..., -0.0454, -0.0115, -0.0291],
+        [-0.0289, -0.0665,  0.0201,  ..., -0.0291,  0.0378, -0.0865],
+        ...,
+        [-0.0696, -0.0484,  0.0405,  ..., -0.0234, -0.0620, -0.0669],
+        [-0.0306, -0.0191,  0.0053,  ...,  0.0109, -0.0677, -0.0033],
+        [-0.0131,  0.0060,  0.0426,  ...,  0.0731, -0.0271, -0.0559]],
+       device='cuda:0'), grad: tensor([[-1.5602e-05, -2.5997e-03, -8.1730e-04,  ...,  6.6450e-07,
+         -6.9571e-04, -5.1022e-04],
+        [ 1.5534e-06,  1.1225e-03,  5.6553e-04,  ...,  3.1311e-06,
+          3.4904e-04,  2.5582e-04],
+        [ 3.9451e-06,  1.3208e-04,  4.5013e-03,  ...,  1.0896e-06,
+          1.4467e-03,  7.1943e-05],
+        ...,
+        [ 3.8408e-06,  8.4415e-06, -5.1155e-03,  ..., -1.5259e-05,
+         -1.4687e-03,  6.3419e-05],
+        [ 1.1083e-06,  7.3195e-05,  4.1366e-05,  ..., -1.9930e-06,
+          2.8178e-05,  3.4183e-05],
+        [ 1.4715e-05,  6.9022e-05,  3.1328e-04,  ...,  5.7742e-06,
+          4.0568e-06,  3.9965e-05]], device='cuda:0')
+Epoch 68, bias, value: tensor([ 0.0309,  0.0112,  0.0175,  0.0228,  0.0286, -0.0042, -0.0039, -0.0043,
+         0.0099, -0.0308], device='cuda:0'), grad: tensor([-4.5738e-03,  2.3956e-03,  6.1951e-03, -2.6321e-04,  1.3971e-04,
+         8.3506e-05,  1.9894e-03, -6.6795e-03,  2.2566e-04,  4.8542e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 67, time 218.62, cls_loss 0.0171 cls_loss_mapping 0.0188 cls_loss_causal 0.6994 re_mapping 0.0146 re_causal 0.0414 /// teacc 98.59 lr 0.00010000
+Epoch 69, weight, value: tensor([[-0.0757,  0.1104, -0.0241,  ...,  0.0051,  0.0499,  0.0228],
+        [ 0.0673, -0.0600,  0.0145,  ..., -0.0454, -0.0113, -0.0290],
+        [-0.0279, -0.0670,  0.0197,  ..., -0.0294,  0.0375, -0.0872],
+        ...,
+        [-0.0700, -0.0490,  0.0407,  ..., -0.0236, -0.0616, -0.0673],
+        [-0.0312, -0.0194,  0.0052,  ...,  0.0111, -0.0681, -0.0032],
+        [-0.0135,  0.0063,  0.0442,  ...,  0.0741, -0.0274, -0.0565]],
+       device='cuda:0'), grad: tensor([[ 2.0635e-04,  1.7190e-04,  3.7003e-04,  ...,  3.4988e-05,
+          1.5199e-04,  1.1164e-04],
+        [-1.3971e-03, -1.3037e-03, -2.8267e-03,  ..., -2.2626e-04,
+         -1.1368e-03, -7.7057e-04],
+        [ 3.0279e-05,  3.1531e-05,  6.8367e-05,  ...,  1.0423e-05,
+          2.0817e-05,  1.9148e-05],
+        ...,
+        [ 5.8919e-05,  4.7952e-05,  4.8661e-04,  ...,  1.3733e-04,
+          8.0839e-06,  2.6748e-05],
+        [ 1.0805e-03,  9.7370e-04,  1.8101e-03,  ...,  1.6069e-04,
+          7.3481e-04,  6.1131e-04],
+        [ 2.7800e-04,  1.9658e-04, -7.2622e-04,  ..., -2.2209e-04,
+          3.2634e-05,  1.6308e-04]], device='cuda:0')
+Epoch 69, bias, value: tensor([ 0.0305,  0.0107,  0.0177,  0.0233,  0.0290, -0.0043, -0.0045, -0.0041,
+         0.0094, -0.0304], device='cuda:0'), grad: tensor([ 6.0701e-04, -4.3793e-03,  9.9182e-05,  1.0557e-03,  3.5810e-04,
+        -1.0214e-03,  7.9691e-05,  5.6076e-04,  3.0594e-03, -4.2343e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 68----------------------------------------------------
+epoch 68, time 218.96, cls_loss 0.0154 cls_loss_mapping 0.0174 cls_loss_causal 0.6630 re_mapping 0.0147 re_causal 0.0391 /// teacc 98.66 lr 0.00010000
+Epoch 70, weight, value: tensor([[-0.0758,  0.1112, -0.0242,  ...,  0.0049,  0.0500,  0.0225],
+        [ 0.0672, -0.0599,  0.0142,  ..., -0.0454, -0.0105, -0.0287],
+        [-0.0270, -0.0676,  0.0191,  ..., -0.0296,  0.0375, -0.0879],
+        ...,
+        [-0.0703, -0.0493,  0.0416,  ..., -0.0242, -0.0603, -0.0683],
+        [-0.0318, -0.0191,  0.0056,  ...,  0.0113, -0.0689, -0.0026],
+        [-0.0138,  0.0062,  0.0447,  ...,  0.0749, -0.0276, -0.0573]],
+       device='cuda:0'), grad: tensor([[ 1.8656e-05, -7.5698e-05,  9.1940e-06,  ..., -7.5363e-06,
+          1.1943e-05,  1.5702e-06],
+        [-3.0899e-04,  3.0473e-06, -3.7360e-04,  ...,  8.9593e-07,
+         -9.8526e-05,  1.5832e-06],
+        [ 1.1265e-05,  1.8030e-05,  4.7296e-05,  ...,  2.7698e-06,
+         -2.9492e-04,  1.3374e-05],
+        ...,
+        [ 3.0726e-05,  2.0452e-06, -2.1207e-04,  ...,  3.3174e-06,
+         -1.2684e-04,  1.7490e-06],
+        [-3.5428e-06, -1.9789e-05,  3.1769e-05,  ..., -5.6475e-06,
+          9.2462e-06, -2.7195e-05],
+        [ 6.3062e-05,  1.7166e-05,  1.4818e-04,  ..., -4.2289e-05,
+          1.1075e-04,  8.1062e-06]], device='cuda:0')
+Epoch 70, bias, value: tensor([ 0.0307,  0.0099,  0.0177,  0.0230,  0.0289, -0.0042, -0.0046, -0.0030,
+         0.0094, -0.0305], device='cuda:0'), grad: tensor([-1.2338e-05, -6.6185e-04, -1.5240e-03,  4.2129e-04,  2.4724e-04,
+         4.9710e-05,  1.2913e-03, -2.1100e-04,  5.7906e-05,  3.4022e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 69, time 217.86, cls_loss 0.0128 cls_loss_mapping 0.0156 cls_loss_causal 0.6350 re_mapping 0.0141 re_causal 0.0381 /// teacc 98.52 lr 0.00010000
+Epoch 71, weight, value: tensor([[-0.0764,  0.1117, -0.0240,  ...,  0.0049,  0.0499,  0.0223],
+        [ 0.0682, -0.0600,  0.0139,  ..., -0.0453, -0.0110, -0.0297],
+        [-0.0275, -0.0681,  0.0188,  ..., -0.0298,  0.0379, -0.0885],
+        ...,
+        [-0.0707, -0.0498,  0.0423,  ..., -0.0246, -0.0592, -0.0677],
+        [-0.0324, -0.0197,  0.0056,  ...,  0.0116, -0.0696, -0.0027],
+        [-0.0141,  0.0060,  0.0452,  ...,  0.0755, -0.0277, -0.0580]],
+       device='cuda:0'), grad: tensor([[ 1.9334e-06, -7.9632e-05, -2.9519e-05,  ...,  5.0152e-07,
+         -9.5516e-06, -1.7926e-05],
+        [-1.2219e-06,  1.2808e-05,  1.0267e-05,  ...,  4.3865e-07,
+          1.4074e-05,  2.8722e-06],
+        [ 9.3319e-07,  8.4192e-06, -8.0764e-06,  ...,  7.4180e-07,
+          1.1809e-05,  2.6524e-06],
+        ...,
+        [-2.4326e-06,  3.9451e-06,  3.4682e-06,  ...,  1.3649e-05,
+          2.0519e-05,  1.1269e-06],
+        [ 5.2191e-06,  2.7306e-06,  7.1973e-06,  ...,  3.0901e-06,
+          4.3474e-06, -3.3118e-06],
+        [ 2.5444e-06,  9.9912e-06, -6.8665e-05,  ..., -4.9591e-05,
+          1.3277e-05,  2.9281e-06]], device='cuda:0')
+Epoch 71, bias, value: tensor([ 0.0311,  0.0098,  0.0175,  0.0231,  0.0287, -0.0037, -0.0050, -0.0025,
+         0.0090, -0.0308], device='cuda:0'), grad: tensor([-7.6830e-05,  5.5671e-05,  5.0128e-05,  2.6628e-05, -1.0294e-04,
+         2.4498e-05, -2.0400e-05,  5.4002e-05,  4.2617e-05, -5.3227e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 70, time 218.14, cls_loss 0.0101 cls_loss_mapping 0.0121 cls_loss_causal 0.6248 re_mapping 0.0134 re_causal 0.0380 /// teacc 98.55 lr 0.00010000
+Epoch 72, weight, value: tensor([[-0.0766,  0.1123, -0.0240,  ...,  0.0051,  0.0500,  0.0221],
+        [ 0.0682, -0.0602,  0.0151,  ..., -0.0452, -0.0112, -0.0290],
+        [-0.0265, -0.0687,  0.0186,  ..., -0.0301,  0.0383, -0.0891],
+        ...,
+        [-0.0728, -0.0502,  0.0417,  ..., -0.0248, -0.0594, -0.0693],
+        [-0.0329, -0.0195,  0.0064,  ...,  0.0121, -0.0697, -0.0025],
+        [-0.0149,  0.0053,  0.0451,  ...,  0.0757, -0.0278, -0.0588]],
+       device='cuda:0'), grad: tensor([[ 2.6431e-06, -1.0973e-04, -3.9399e-05,  ...,  1.2089e-06,
+          5.3085e-08, -1.5557e-05],
+        [-6.3300e-05,  2.5295e-06, -5.1469e-05,  ..., -1.9725e-06,
+          2.7008e-08,  1.9502e-06],
+        [ 6.4000e-06,  1.1221e-05,  2.5034e-05,  ...,  9.6112e-06,
+         -2.6356e-07,  1.5125e-05],
+        ...,
+        [ 4.5970e-06,  6.5677e-06, -5.8487e-06,  ...,  2.5779e-06,
+          4.0978e-08,  1.7118e-06],
+        [-1.9521e-05, -2.6733e-05, -5.4657e-05,  ..., -3.9458e-05,
+          6.9849e-08, -7.2658e-05],
+        [ 9.8348e-06,  1.8910e-05, -1.2696e-05,  ..., -9.8720e-06,
+          6.0536e-09,  8.4117e-06]], device='cuda:0')
+Epoch 72, bias, value: tensor([ 0.0311,  0.0099,  0.0182,  0.0232,  0.0285, -0.0034, -0.0047, -0.0034,
+         0.0092, -0.0312], device='cuda:0'), grad: tensor([-1.1605e-04, -8.4579e-05,  4.5657e-05,  4.2617e-05,  1.6704e-05,
+         9.3222e-05,  1.0353e-04,  2.3171e-06, -1.2922e-04,  2.6032e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 71, time 218.05, cls_loss 0.0134 cls_loss_mapping 0.0141 cls_loss_causal 0.6360 re_mapping 0.0134 re_causal 0.0377 /// teacc 98.55 lr 0.00010000
+Epoch 73, weight, value: tensor([[-0.0791,  0.1124, -0.0244,  ...,  0.0051,  0.0501,  0.0214],
+        [ 0.0697, -0.0589,  0.0160,  ..., -0.0443, -0.0109, -0.0281],
+        [-0.0271, -0.0693,  0.0186,  ..., -0.0305,  0.0387, -0.0896],
+        ...,
+        [-0.0730, -0.0508,  0.0416,  ..., -0.0251, -0.0601, -0.0709],
+        [-0.0334, -0.0197,  0.0069,  ...,  0.0123, -0.0701, -0.0018],
+        [-0.0154,  0.0047,  0.0451,  ...,  0.0759, -0.0280, -0.0596]],
+       device='cuda:0'), grad: tensor([[ 1.4538e-06, -2.1443e-05,  2.2620e-05,  ...,  3.0845e-06,
+          2.5835e-06,  6.7055e-07],
+        [-3.0361e-06,  1.5739e-06,  8.6069e-05,  ...,  1.4566e-06,
+          2.8918e-07,  5.6326e-06],
+        [ 1.0384e-06,  2.6338e-06,  1.1158e-04,  ...,  7.4133e-06,
+          8.9081e-07,  5.8822e-06],
+        ...,
+        [ 8.5682e-07,  2.7884e-06, -4.0102e-04,  ...,  5.3227e-05,
+          8.3353e-08, -1.4096e-05],
+        [-2.6692e-06, -1.8644e-04, -5.2512e-05,  ...,  1.2647e-06,
+          1.9781e-06, -1.8966e-04],
+        [ 1.0747e-06,  6.6459e-06, -9.3937e-05,  ..., -1.0896e-04,
+          1.6345e-07,  5.8077e-06]], device='cuda:0')
+Epoch 73, bias, value: tensor([ 0.0305,  0.0111,  0.0183,  0.0233,  0.0287, -0.0031, -0.0049, -0.0036,
+         0.0091, -0.0318], device='cuda:0'), grad: tensor([ 4.8280e-05,  1.6022e-04,  2.1791e-04,  2.6488e-04,  1.9848e-04,
+         3.9101e-04, -3.4738e-04, -7.2765e-04, -1.2839e-04, -7.7963e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 72, time 218.81, cls_loss 0.0126 cls_loss_mapping 0.0158 cls_loss_causal 0.6700 re_mapping 0.0131 re_causal 0.0380 /// teacc 98.60 lr 0.00010000
+Epoch 74, weight, value: tensor([[-0.0793,  0.1132, -0.0243,  ...,  0.0050,  0.0501,  0.0216],
+        [ 0.0697, -0.0588,  0.0159,  ..., -0.0443, -0.0108, -0.0283],
+        [-0.0267, -0.0701,  0.0189,  ..., -0.0305,  0.0393, -0.0904],
+        ...,
+        [-0.0734, -0.0511,  0.0416,  ..., -0.0255, -0.0608, -0.0713],
+        [-0.0336, -0.0194,  0.0074,  ...,  0.0130, -0.0700, -0.0012],
+        [-0.0156,  0.0051,  0.0459,  ...,  0.0767, -0.0273, -0.0602]],
+       device='cuda:0'), grad: tensor([[ 3.2812e-05,  3.2336e-05,  2.9858e-06,  ...,  3.1497e-06,
+          7.4040e-08,  1.9357e-05],
+        [-4.2617e-06,  3.5875e-06,  4.2953e-06,  ...,  1.4231e-06,
+          4.9826e-08,  2.6524e-06],
+        [ 5.9009e-06,  3.1982e-06, -3.0380e-06,  ...,  1.1912e-06,
+         -5.0524e-07,  2.8014e-06],
+        ...,
+        [ 1.0334e-05,  9.7230e-06,  2.4706e-05,  ...,  1.9059e-05,
+          3.4925e-08,  5.7071e-06],
+        [ 2.8998e-05,  2.0295e-05, -8.6278e-06,  ..., -1.0565e-05,
+          2.6543e-07,  9.8869e-06],
+        [ 5.9843e-05,  6.7472e-05, -3.5912e-05,  ..., -1.2577e-05,
+          1.3039e-08,  4.5598e-05]], device='cuda:0')
+Epoch 74, bias, value: tensor([ 0.0305,  0.0107,  0.0189,  0.0230,  0.0287, -0.0033, -0.0054, -0.0039,
+         0.0094, -0.0313], device='cuda:0'), grad: tensor([ 5.3465e-05,  1.6376e-05, -1.4350e-05,  2.6870e-04, -1.7822e-05,
+        -4.6659e-04,  1.1794e-05,  4.6015e-05,  2.8387e-05,  7.3493e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 73, time 217.64, cls_loss 0.0122 cls_loss_mapping 0.0133 cls_loss_causal 0.6377 re_mapping 0.0133 re_causal 0.0375 /// teacc 98.60 lr 0.00010000
+Epoch 75, weight, value: tensor([[-0.0794,  0.1138, -0.0247,  ...,  0.0040,  0.0502,  0.0218],
+        [ 0.0703, -0.0591,  0.0158,  ..., -0.0442, -0.0112, -0.0286],
+        [-0.0270, -0.0709,  0.0185,  ..., -0.0307,  0.0397, -0.0909],
+        ...,
+        [-0.0739, -0.0516,  0.0419,  ..., -0.0262, -0.0609, -0.0713],
+        [-0.0337, -0.0192,  0.0080,  ...,  0.0137, -0.0700, -0.0011],
+        [-0.0159,  0.0051,  0.0468,  ...,  0.0779, -0.0276, -0.0611]],
+       device='cuda:0'), grad: tensor([[-8.4043e-05, -2.6455e-03, -5.2881e-04,  ...,  9.3738e-07,
+         -2.1973e-03, -6.9571e-04],
+        [ 5.6207e-05,  1.1873e-03,  2.2805e-04,  ...,  1.4361e-06,
+          1.0262e-03,  3.4308e-04],
+        [ 4.9561e-05,  7.6771e-04,  1.5557e-04,  ...,  2.3581e-06,
+          6.4898e-04,  2.2650e-04],
+        ...,
+        [ 2.5302e-05,  2.7671e-05,  1.2182e-05,  ...,  5.2266e-06,
+          1.7956e-05,  2.2873e-05],
+        [ 4.1533e-04,  1.7703e-04,  1.7449e-05,  ...,  2.1979e-05,
+          1.1224e-04,  3.5238e-04],
+        [-6.5088e-05,  5.1022e-05, -1.2100e-04,  ..., -8.9705e-05,
+          1.7732e-05,  6.0610e-06]], device='cuda:0')
+Epoch 75, bias, value: tensor([ 0.0302,  0.0104,  0.0187,  0.0229,  0.0283, -0.0034, -0.0055, -0.0033,
+         0.0096, -0.0308], device='cuda:0'), grad: tensor([-6.9771e-03,  3.2158e-03,  2.0885e-03,  2.2602e-04,  3.5357e-04,
+         1.5712e-04, -9.9242e-05,  1.2201e-04,  1.0605e-03, -1.4305e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 74----------------------------------------------------
+epoch 74, time 218.95, cls_loss 0.0134 cls_loss_mapping 0.0141 cls_loss_causal 0.6296 re_mapping 0.0131 re_causal 0.0367 /// teacc 98.69 lr 0.00010000
+Epoch 76, weight, value: tensor([[-0.0800,  0.1151, -0.0240,  ...,  0.0040,  0.0507,  0.0214],
+        [ 0.0701, -0.0596,  0.0148,  ..., -0.0450, -0.0112, -0.0305],
+        [-0.0276, -0.0719,  0.0177,  ..., -0.0311,  0.0398, -0.0917],
+        ...,
+        [-0.0730, -0.0522,  0.0430,  ..., -0.0261, -0.0606, -0.0698],
+        [-0.0343, -0.0198,  0.0080,  ...,  0.0136, -0.0705, -0.0012],
+        [-0.0158,  0.0049,  0.0476,  ...,  0.0789, -0.0283, -0.0616]],
+       device='cuda:0'), grad: tensor([[ 3.2783e-06,  1.8496e-06,  1.8124e-06,  ...,  3.8650e-07,
+          1.3923e-07,  2.3991e-06],
+        [-1.7926e-05,  1.3411e-06, -1.8612e-05,  ..., -2.8200e-06,
+          4.6100e-08,  1.5646e-06],
+        [ 4.6119e-06, -1.2450e-05, -4.5970e-06,  ...,  1.6615e-06,
+         -2.8107e-06,  1.1250e-06],
+        ...,
+        [ 4.8317e-06,  4.4964e-06, -1.7732e-06,  ...,  8.6566e-07,
+          1.2610e-06,  1.0347e-06],
+        [ 5.4568e-05,  4.9859e-05,  2.7865e-06,  ...,  2.8163e-06,
+          2.4354e-07,  2.9892e-05],
+        [ 7.6592e-06,  5.5097e-06, -1.2174e-05,  ..., -9.0227e-06,
+          1.5926e-07,  3.2820e-06]], device='cuda:0')
+Epoch 76, bias, value: tensor([ 0.0308,  0.0095,  0.0181,  0.0229,  0.0281, -0.0035, -0.0052, -0.0026,
+         0.0091, -0.0305], device='cuda:0'), grad: tensor([ 2.8834e-05, -1.4722e-05, -1.7333e-04,  6.8486e-05,  3.6269e-05,
+        -2.3973e-04,  1.5616e-04,  4.3005e-05,  1.0002e-04, -5.2154e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 75----------------------------------------------------
+epoch 75, time 219.13, cls_loss 0.0113 cls_loss_mapping 0.0150 cls_loss_causal 0.6452 re_mapping 0.0125 re_causal 0.0360 /// teacc 98.72 lr 0.00010000
+Epoch 77, weight, value: tensor([[-0.0802,  0.1156, -0.0239,  ...,  0.0038,  0.0507,  0.0211],
+        [ 0.0711, -0.0594,  0.0149,  ..., -0.0444, -0.0112, -0.0306],
+        [-0.0283, -0.0722,  0.0188,  ..., -0.0314,  0.0402, -0.0920],
+        ...,
+        [-0.0736, -0.0525,  0.0431,  ..., -0.0263, -0.0608, -0.0701],
+        [-0.0346, -0.0199,  0.0078,  ...,  0.0136, -0.0707, -0.0011],
+        [-0.0166,  0.0044,  0.0475,  ...,  0.0793, -0.0283, -0.0622]],
+       device='cuda:0'), grad: tensor([[ 4.1239e-06, -2.3052e-05, -1.0081e-05,  ..., -1.8924e-06,
+          6.4820e-07,  6.1505e-06],
+        [-1.8120e-05,  1.3113e-06, -1.8820e-05,  ...,  1.0021e-06,
+         -2.7660e-06,  7.5111e-07],
+        [ 8.2776e-06,  5.0403e-06,  2.8789e-05,  ...,  1.0334e-05,
+          8.8755e-07,  5.7332e-06],
+        ...,
+        [ 4.9956e-06,  1.9521e-06, -3.2604e-05,  ...,  2.5947e-06,
+          2.0675e-07,  1.1791e-06],
+        [ 6.2473e-06, -1.1772e-05, -6.1333e-05,  ..., -2.4959e-05,
+          7.0734e-07, -4.1306e-05],
+        [-5.3316e-05, -2.9758e-05,  4.1455e-05,  ..., -4.3839e-05,
+          9.1270e-08,  1.6931e-06]], device='cuda:0')
+Epoch 77, bias, value: tensor([ 0.0308,  0.0096,  0.0190,  0.0228,  0.0295, -0.0034, -0.0053, -0.0028,
+         0.0085, -0.0317], device='cuda:0'), grad: tensor([ 6.4611e-05, -2.1651e-05, -1.3523e-03,  3.7932e-04,  7.4911e-04,
+         3.6538e-05,  1.1021e-04, -3.9458e-05, -4.0263e-05,  1.1349e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 76, time 217.99, cls_loss 0.0096 cls_loss_mapping 0.0109 cls_loss_causal 0.6376 re_mapping 0.0125 re_causal 0.0360 /// teacc 98.64 lr 0.00010000
+Epoch 78, weight, value: tensor([[-0.0803,  0.1163, -0.0237,  ...,  0.0037,  0.0507,  0.0210],
+        [ 0.0718, -0.0590,  0.0150,  ..., -0.0443, -0.0112, -0.0306],
+        [-0.0288, -0.0729,  0.0186,  ..., -0.0318,  0.0403, -0.0927],
+        ...,
+        [-0.0738, -0.0528,  0.0433,  ..., -0.0266, -0.0609, -0.0703],
+        [-0.0348, -0.0198,  0.0080,  ...,  0.0140, -0.0708, -0.0008],
+        [-0.0171,  0.0039,  0.0478,  ...,  0.0800, -0.0285, -0.0628]],
+       device='cuda:0'), grad: tensor([[ 1.5255e-06, -2.7999e-05,  2.4401e-06,  ...,  1.0878e-06,
+          1.4529e-07, -1.5259e-05],
+        [ 3.9160e-05,  1.5885e-05,  4.5300e-05,  ...,  3.6508e-05,
+          1.0384e-07,  7.1041e-06],
+        [ 6.4634e-06,  2.4512e-06, -7.9349e-06,  ...,  4.4517e-06,
+         -9.0199e-07,  1.2964e-06],
+        ...,
+        [ 4.2096e-06,  2.0256e-07,  4.1217e-05,  ...,  7.3761e-06,
+          1.8300e-07,  6.7335e-07],
+        [ 3.5048e-05,  1.4298e-05,  3.6478e-05,  ...,  2.8148e-05,
+          2.5611e-07,  6.8918e-06],
+        [-1.2112e-04, -3.6150e-05, -3.5143e-04,  ..., -1.4353e-04,
+          1.7695e-08, -1.5184e-05]], device='cuda:0')
+Epoch 78, bias, value: tensor([ 0.0313,  0.0098,  0.0189,  0.0224,  0.0292, -0.0031, -0.0050, -0.0026,
+         0.0084, -0.0321], device='cuda:0'), grad: tensor([ 4.0144e-05,  1.0884e-04,  4.5687e-05,  4.0412e-05, -6.4410e-06,
+         6.1452e-05,  2.1800e-05,  6.3062e-05,  7.9572e-05, -4.5538e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 77, time 218.13, cls_loss 0.0094 cls_loss_mapping 0.0116 cls_loss_causal 0.6364 re_mapping 0.0123 re_causal 0.0357 /// teacc 98.63 lr 0.00010000
+Epoch 79, weight, value: tensor([[-0.0805,  0.1168, -0.0237,  ...,  0.0035,  0.0510,  0.0209],
+        [ 0.0722, -0.0592,  0.0151,  ..., -0.0448, -0.0117, -0.0308],
+        [-0.0294, -0.0735,  0.0178,  ..., -0.0321,  0.0405, -0.0933],
+        ...,
+        [-0.0745, -0.0532,  0.0437,  ..., -0.0268, -0.0608, -0.0706],
+        [-0.0356, -0.0204,  0.0082,  ...,  0.0140, -0.0711, -0.0009],
+        [-0.0171,  0.0038,  0.0482,  ...,  0.0807, -0.0287, -0.0633]],
+       device='cuda:0'), grad: tensor([[ 4.9658e-06, -1.8209e-05, -7.6089e-07,  ...,  7.6415e-07,
+         -1.6289e-06, -9.8348e-07],
+        [-8.4519e-05,  7.6136e-07,  1.0842e-04,  ..., -8.9873e-07,
+         -7.5903e-08, -5.8860e-06],
+        [ 4.1574e-05,  7.7859e-06, -2.4021e-04,  ...,  1.0859e-06,
+          5.9558e-07,  1.0468e-06],
+        ...,
+        [ 8.1882e-06,  4.7265e-07, -9.4697e-06,  ...,  1.1191e-05,
+          5.7742e-08,  7.3528e-07],
+        [ 4.1634e-05,  5.8822e-06,  6.0081e-05,  ...,  1.3046e-05,
+          1.0226e-06,  4.9770e-06],
+        [-4.0674e-04,  1.4901e-06, -3.8648e-04,  ..., -2.9278e-04,
+          1.7369e-07, -1.1474e-04]], device='cuda:0')
+Epoch 79, bias, value: tensor([ 0.0316,  0.0096,  0.0178,  0.0236,  0.0295, -0.0039, -0.0048, -0.0018,
+         0.0082, -0.0324], device='cuda:0'), grad: tensor([ 7.8380e-06,  2.8753e-04,  4.2510e-04, -1.0805e-03,  1.9813e-04,
+         8.0585e-04,  4.8399e-05, -5.2571e-05,  1.5461e-04, -7.9441e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 78, time 218.06, cls_loss 0.0093 cls_loss_mapping 0.0141 cls_loss_causal 0.6517 re_mapping 0.0127 re_causal 0.0366 /// teacc 98.69 lr 0.00010000
+Epoch 80, weight, value: tensor([[-0.0810,  0.1171, -0.0237,  ...,  0.0033,  0.0509,  0.0203],
+        [ 0.0726, -0.0594,  0.0152,  ..., -0.0450, -0.0119, -0.0311],
+        [-0.0298, -0.0735,  0.0178,  ..., -0.0321,  0.0405, -0.0936],
+        ...,
+        [-0.0751, -0.0538,  0.0438,  ..., -0.0273, -0.0606, -0.0709],
+        [-0.0361, -0.0206,  0.0083,  ...,  0.0143, -0.0714, -0.0010],
+        [-0.0173,  0.0038,  0.0488,  ...,  0.0819, -0.0288, -0.0638]],
+       device='cuda:0'), grad: tensor([[ 3.9667e-05, -8.6963e-05, -2.0154e-06,  ...,  3.3062e-08,
+          5.8301e-07,  2.7614e-07],
+        [-5.5730e-06,  3.1684e-06, -2.2491e-07,  ..., -1.8254e-07,
+         -3.5483e-07,  1.5553e-07],
+        [ 3.2373e-06,  2.4382e-06,  3.9674e-06,  ...,  4.5169e-08,
+          5.0804e-07,  3.2559e-06],
+        ...,
+        [ 1.6503e-06,  6.8918e-07, -2.4796e-05,  ...,  2.1001e-07,
+          9.2667e-08,  3.3248e-07],
+        [ 2.1666e-05,  2.2039e-05,  4.8727e-06,  ...,  2.2305e-07,
+          1.0226e-06,  2.8275e-06],
+        [ 1.1981e-05,  5.6662e-06,  8.2031e-06,  ..., -1.3588e-06,
+          5.7276e-08,  8.6874e-06]], device='cuda:0')
+Epoch 80, bias, value: tensor([ 0.0314,  0.0094,  0.0179,  0.0233,  0.0286, -0.0034, -0.0040, -0.0015,
+         0.0075, -0.0320], device='cuda:0'), grad: tensor([-1.1182e-04,  4.6194e-06,  2.4572e-05, -7.6711e-05, -9.9391e-06,
+         1.2648e-04, -3.0965e-05, -2.6092e-05,  5.8889e-05,  4.1008e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 79, time 217.92, cls_loss 0.0113 cls_loss_mapping 0.0127 cls_loss_causal 0.6062 re_mapping 0.0125 re_causal 0.0344 /// teacc 98.68 lr 0.00010000
+Epoch 81, weight, value: tensor([[-0.0813,  0.1175, -0.0238,  ...,  0.0031,  0.0510,  0.0197],
+        [ 0.0723, -0.0597,  0.0153,  ..., -0.0456, -0.0125, -0.0320],
+        [-0.0303, -0.0748,  0.0174,  ..., -0.0325,  0.0397, -0.0942],
+        ...,
+        [-0.0781, -0.0545,  0.0438,  ..., -0.0280, -0.0597, -0.0729],
+        [-0.0356, -0.0199,  0.0091,  ...,  0.0148, -0.0716, -0.0004],
+        [-0.0174,  0.0035,  0.0495,  ...,  0.0832, -0.0282, -0.0644]],
+       device='cuda:0'), grad: tensor([[ 2.7530e-06, -1.2718e-05,  1.9565e-05,  ...,  9.7007e-06,
+          1.3284e-05,  2.8312e-06],
+        [-3.6001e-05,  1.7248e-06, -4.6402e-05,  ..., -9.7975e-06,
+          1.3495e-06,  7.3621e-07],
+        [ 5.0738e-06,  3.7849e-06,  5.5981e-04,  ...,  1.9968e-04,
+         -2.3985e-04,  3.3945e-05],
+        ...,
+        [ 1.6093e-05,  1.2191e-06,  3.6836e-04,  ...,  1.4770e-04,
+          4.4942e-05, -4.9081e-07],
+        [ 8.8871e-05,  3.6657e-05, -1.1339e-03,  ..., -3.9244e-04,
+          2.0675e-06, -6.9626e-06],
+        [ 2.3812e-05,  1.5765e-05,  1.0586e-04,  ...,  4.0650e-05,
+          2.5183e-06,  2.1026e-05]], device='cuda:0')
+Epoch 81, bias, value: tensor([ 0.0311,  0.0091,  0.0167,  0.0234,  0.0283, -0.0024, -0.0038, -0.0024,
+         0.0087, -0.0314], device='cuda:0'), grad: tensor([ 9.4712e-05, -2.9117e-05, -5.7697e-04,  2.1350e-04,  7.9107e-04,
+        -1.3137e-04,  5.3674e-05,  6.6948e-04, -1.2484e-03,  1.6201e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 80, time 217.69, cls_loss 0.0115 cls_loss_mapping 0.0135 cls_loss_causal 0.6396 re_mapping 0.0118 re_causal 0.0336 /// teacc 98.59 lr 0.00010000
+Epoch 82, weight, value: tensor([[-0.0814,  0.1186, -0.0233,  ...,  0.0034,  0.0510,  0.0198],
+        [ 0.0726, -0.0596,  0.0152,  ..., -0.0464, -0.0115, -0.0323],
+        [-0.0314, -0.0749,  0.0170,  ..., -0.0327,  0.0400, -0.0947],
+        ...,
+        [-0.0789, -0.0548,  0.0441,  ..., -0.0282, -0.0604, -0.0745],
+        [-0.0358, -0.0201,  0.0101,  ...,  0.0147, -0.0720,  0.0008],
+        [-0.0173,  0.0027,  0.0496,  ...,  0.0836, -0.0286, -0.0651]],
+       device='cuda:0'), grad: tensor([[ 6.2585e-06, -2.3270e-04,  2.8964e-07,  ...,  7.1106e-07,
+          2.6971e-06, -7.4767e-06],
+        [-1.6347e-05,  1.5602e-05, -3.7253e-05,  ...,  6.9663e-06,
+         -4.0792e-06,  1.6868e-05],
+        [ 1.4879e-05,  2.8804e-05,  1.0505e-05,  ...,  4.9919e-06,
+         -1.4985e-06,  2.0921e-05],
+        ...,
+        [ 1.8567e-05,  7.2382e-06,  3.6567e-05,  ...,  3.5111e-06,
+          3.9041e-06,  4.6939e-06],
+        [-2.4065e-05,  9.2328e-05, -8.1658e-05,  ..., -5.0396e-05,
+          1.7002e-05, -1.5453e-05],
+        [ 7.5325e-06,  2.3261e-05, -2.7180e-05,  ..., -1.1727e-05,
+          6.2119e-07,  1.0580e-05]], device='cuda:0')
+Epoch 82, bias, value: tensor([ 0.0311,  0.0090,  0.0164,  0.0235,  0.0290, -0.0022, -0.0036, -0.0025,
+         0.0089, -0.0322], device='cuda:0'), grad: tensor([-2.3794e-04, -2.1458e-06,  6.2346e-05,  8.8334e-05,  4.4465e-05,
+         7.7963e-05, -4.7112e-04,  7.8857e-05,  3.5024e-04,  1.0103e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 81----------------------------------------------------
+epoch 81, time 218.36, cls_loss 0.0099 cls_loss_mapping 0.0135 cls_loss_causal 0.6664 re_mapping 0.0122 re_causal 0.0356 /// teacc 98.77 lr 0.00010000
+Epoch 83, weight, value: tensor([[-0.0827,  0.1189, -0.0232,  ...,  0.0033,  0.0510,  0.0191],
+        [ 0.0725, -0.0597,  0.0152,  ..., -0.0467, -0.0113, -0.0327],
+        [-0.0309, -0.0756,  0.0169,  ..., -0.0331,  0.0400, -0.0953],
+        ...,
+        [-0.0791, -0.0555,  0.0457,  ..., -0.0284, -0.0605, -0.0744],
+        [-0.0365, -0.0200,  0.0097,  ...,  0.0151, -0.0722,  0.0008],
+        [-0.0174,  0.0024,  0.0487,  ...,  0.0839, -0.0287, -0.0656]],
+       device='cuda:0'), grad: tensor([[-1.7077e-05, -2.2173e-04, -2.2948e-05,  ...,  5.9120e-06,
+          7.1526e-07,  1.6063e-05],
+        [ 3.1173e-05,  2.4624e-06,  2.3949e-04,  ...,  6.1870e-05,
+          5.3011e-06,  1.6594e-04],
+        [ 2.1942e-06,  4.9062e-06,  2.3496e-04,  ...,  6.1691e-05,
+          1.5553e-07,  1.6558e-04],
+        ...,
+        [ 1.8489e-04,  2.1104e-06,  5.6416e-05,  ...,  1.3113e-05,
+         -7.1973e-06,  1.1182e-04],
+        [-7.7367e-05, -8.9407e-05, -7.5483e-04,  ..., -2.3055e-04,
+          1.7192e-06, -7.5579e-04],
+        [-6.4552e-05,  1.7822e-05, -4.6611e-04,  ..., -3.5214e-04,
+          1.7285e-06,  2.9698e-05]], device='cuda:0')
+Epoch 83, bias, value: tensor([ 0.0310,  0.0087,  0.0168,  0.0234,  0.0294, -0.0018, -0.0035, -0.0015,
+         0.0083, -0.0334], device='cuda:0'), grad: tensor([-3.9577e-04,  6.0225e-04,  4.9639e-04,  5.4538e-06,  8.8549e-04,
+         3.6716e-05,  4.7040e-04,  4.3893e-04, -1.9207e-03, -6.1989e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 82, time 217.64, cls_loss 0.0096 cls_loss_mapping 0.0119 cls_loss_causal 0.5994 re_mapping 0.0121 re_causal 0.0335 /// teacc 98.67 lr 0.00010000
+Epoch 84, weight, value: tensor([[-0.0828,  0.1195, -0.0231,  ...,  0.0032,  0.0510,  0.0190],
+        [ 0.0740, -0.0601,  0.0162,  ..., -0.0467, -0.0113, -0.0325],
+        [-0.0313, -0.0756,  0.0167,  ..., -0.0333,  0.0404, -0.0964],
+        ...,
+        [-0.0806, -0.0560,  0.0457,  ..., -0.0286, -0.0611, -0.0759],
+        [-0.0368, -0.0194,  0.0102,  ...,  0.0153, -0.0724,  0.0016],
+        [-0.0186,  0.0021,  0.0485,  ...,  0.0844, -0.0289, -0.0664]],
+       device='cuda:0'), grad: tensor([[ 1.4506e-05,  1.3418e-05,  2.0415e-05,  ...,  7.2606e-06,
+          5.1595e-06,  6.6794e-06],
+        [ 1.3590e-04,  1.3077e-04,  6.3598e-05,  ...,  1.2159e-05,
+          1.7574e-06,  4.5806e-05],
+        [ 4.8950e-06,  6.4559e-06,  8.2672e-05,  ...,  1.0401e-05,
+          6.3553e-06,  8.3819e-06],
+        ...,
+        [ 3.7402e-06,  2.3209e-06, -1.0067e-04,  ...,  1.2638e-06,
+         -1.4633e-05,  1.4938e-06],
+        [ 4.5109e-04,  2.6155e-04, -7.2420e-05,  ..., -4.8697e-05,
+          4.7646e-06,  9.2149e-05],
+        [ 7.6443e-06,  1.6183e-05, -2.0862e-05,  ..., -2.3305e-05,
+         -1.5408e-05,  1.2003e-05]], device='cuda:0')
+Epoch 84, bias, value: tensor([ 0.0310,  0.0093,  0.0173,  0.0237,  0.0294, -0.0017, -0.0037, -0.0024,
+         0.0086, -0.0339], device='cuda:0'), grad: tensor([ 5.6773e-05,  2.0325e-04,  1.4746e-04, -4.7743e-05,  9.6738e-05,
+        -1.1530e-03,  5.8222e-04, -1.8597e-04,  2.8396e-04,  1.6764e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 83, time 217.99, cls_loss 0.0096 cls_loss_mapping 0.0135 cls_loss_causal 0.6323 re_mapping 0.0121 re_causal 0.0340 /// teacc 98.72 lr 0.00010000
+Epoch 85, weight, value: tensor([[-0.0830,  0.1194, -0.0236,  ...,  0.0030,  0.0511,  0.0185],
+        [ 0.0749, -0.0592,  0.0169,  ..., -0.0466, -0.0100, -0.0320],
+        [-0.0318, -0.0764,  0.0159,  ..., -0.0338,  0.0406, -0.0983],
+        ...,
+        [-0.0814, -0.0565,  0.0458,  ..., -0.0289, -0.0611, -0.0765],
+        [-0.0371, -0.0193,  0.0105,  ...,  0.0157, -0.0735,  0.0018],
+        [-0.0188,  0.0017,  0.0494,  ...,  0.0856, -0.0291, -0.0668]],
+       device='cuda:0'), grad: tensor([[ 3.3975e-06, -2.2184e-06,  3.0342e-06,  ...,  1.9278e-06,
+          1.6019e-06,  3.7234e-06],
+        [-3.4779e-05,  8.6892e-07, -9.7513e-05,  ..., -1.1086e-05,
+         -2.4028e-07, -5.3607e-06],
+        [ 2.2259e-06,  1.4771e-06,  2.0027e-05,  ...,  1.4473e-06,
+          2.2724e-07,  7.2896e-05],
+        ...,
+        [ 1.1407e-05,  8.9174e-07,  6.9261e-05,  ...,  6.9588e-06,
+          1.8533e-07,  1.3769e-04],
+        [ 1.3418e-05,  3.8296e-05,  1.7568e-05,  ...,  1.3337e-05,
+          1.8716e-05,  1.9431e-05],
+        [ 1.3418e-05,  1.7975e-06, -1.3612e-05,  ..., -3.8713e-05,
+          1.6876e-06,  3.3118e-06]], device='cuda:0')
+Epoch 85, bias, value: tensor([ 0.0302,  0.0101,  0.0166,  0.0246,  0.0295, -0.0020, -0.0043, -0.0025,
+         0.0083, -0.0330], device='cuda:0'), grad: tensor([ 1.1817e-05, -1.1081e-04,  2.0504e-04, -5.4026e-04,  4.6670e-05,
+         6.1464e-04, -7.5483e-04,  4.2748e-04,  1.1206e-04, -1.1794e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 84, time 217.56, cls_loss 0.0098 cls_loss_mapping 0.0134 cls_loss_causal 0.6229 re_mapping 0.0113 re_causal 0.0329 /// teacc 98.58 lr 0.00010000
+Epoch 86, weight, value: tensor([[-0.0831,  0.1201, -0.0231,  ...,  0.0031,  0.0514,  0.0185],
+        [ 0.0754, -0.0590,  0.0176,  ..., -0.0470, -0.0091, -0.0317],
+        [-0.0314, -0.0768,  0.0167,  ..., -0.0340,  0.0418, -0.0990],
+        ...,
+        [-0.0824, -0.0572,  0.0452,  ..., -0.0291, -0.0629, -0.0766],
+        [-0.0376, -0.0191,  0.0108,  ...,  0.0160, -0.0739,  0.0019],
+        [-0.0188,  0.0011,  0.0495,  ...,  0.0866, -0.0304, -0.0676]],
+       device='cuda:0'), grad: tensor([[ 2.0396e-07, -4.6492e-04, -2.0885e-04,  ..., -2.3711e-04,
+          8.8010e-08,  2.7828e-06],
+        [-5.2005e-06,  2.5667e-06, -2.2613e-06,  ...,  7.8231e-06,
+          7.4506e-08,  2.3879e-06],
+        [ 5.7183e-07,  3.1054e-05,  2.6867e-05,  ...,  2.0608e-05,
+         -8.8988e-07,  1.0811e-05],
+        ...,
+        [ 9.6951e-07,  3.6303e-06,  1.9595e-05,  ...,  2.9743e-05,
+         -2.9430e-07,  2.1569e-06],
+        [ 1.8537e-05,  2.7871e-04,  7.8797e-05,  ...,  1.6820e-04,
+          5.1409e-07, -1.9729e-05],
+        [ 1.3243e-06,  1.0121e-04,  8.6650e-06,  ...,  5.1308e-04,
+          2.4727e-07,  5.0962e-06]], device='cuda:0')
+Epoch 86, bias, value: tensor([ 0.0306,  0.0103,  0.0178,  0.0239,  0.0301, -0.0018, -0.0043, -0.0030,
+         0.0081, -0.0340], device='cuda:0'), grad: tensor([-6.2513e-04,  5.2929e-05,  5.3793e-05,  7.2539e-05, -2.7370e-03,
+         4.5031e-05,  8.2970e-05,  1.4806e-04,  3.5882e-04,  2.5501e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 85, time 217.92, cls_loss 0.0124 cls_loss_mapping 0.0128 cls_loss_causal 0.6740 re_mapping 0.0115 re_causal 0.0338 /// teacc 98.74 lr 0.00010000
+Epoch 87, weight, value: tensor([[-0.0834,  0.1206, -0.0230,  ...,  0.0029,  0.0519,  0.0185],
+        [ 0.0764, -0.0597,  0.0174,  ..., -0.0480, -0.0095, -0.0321],
+        [-0.0321, -0.0778,  0.0162,  ..., -0.0329,  0.0419, -0.1007],
+        ...,
+        [-0.0836, -0.0578,  0.0446,  ..., -0.0295, -0.0635, -0.0771],
+        [-0.0383, -0.0194,  0.0109,  ...,  0.0159, -0.0750,  0.0018],
+        [-0.0190,  0.0009,  0.0515,  ...,  0.0875, -0.0293, -0.0683]],
+       device='cuda:0'), grad: tensor([[ 5.5991e-06,  3.4541e-05,  1.5795e-05,  ...,  1.3866e-05,
+          7.6555e-07,  2.4065e-05],
+        [-2.4548e-03,  2.3320e-06, -1.7715e-04,  ...,  1.0375e-06,
+         -3.8981e-04,  1.4398e-06],
+        [ 1.0699e-04,  1.5390e-04,  7.8082e-05,  ...,  6.1214e-05,
+          1.4126e-05,  1.0639e-04],
+        ...,
+        [ 7.7307e-05,  1.8794e-06,  8.6427e-06,  ...,  1.8924e-06,
+          1.3478e-05,  1.3486e-06],
+        [-2.2665e-05, -2.9278e-04, -1.2070e-04,  ..., -1.1140e-04,
+          1.3206e-06, -2.0099e-04],
+        [ 1.6212e-05,  2.0768e-06, -1.6019e-05,  ..., -1.2696e-05,
+          2.7623e-06,  1.9763e-06]], device='cuda:0')
+Epoch 87, bias, value: tensor([ 0.0306,  0.0101,  0.0182,  0.0237,  0.0295, -0.0015, -0.0042, -0.0035,
+         0.0074, -0.0329], device='cuda:0'), grad: tensor([ 7.1526e-05, -5.5542e-03,  4.8161e-04,  1.1539e-04,  5.0774e-03,
+         7.9751e-05, -6.1452e-05,  1.9443e-04, -4.3082e-04,  3.0339e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 86, time 217.65, cls_loss 0.0111 cls_loss_mapping 0.0125 cls_loss_causal 0.6076 re_mapping 0.0124 re_causal 0.0352 /// teacc 98.72 lr 0.00010000
+Epoch 88, weight, value: tensor([[-0.0836,  0.1209, -0.0246,  ...,  0.0006,  0.0523,  0.0188],
+        [ 0.0770, -0.0601,  0.0179,  ..., -0.0471, -0.0096, -0.0316],
+        [-0.0324, -0.0780,  0.0163,  ..., -0.0330,  0.0420, -0.1007],
+        ...,
+        [-0.0844, -0.0580,  0.0442,  ..., -0.0295, -0.0635, -0.0800],
+        [-0.0384, -0.0190,  0.0106,  ...,  0.0154, -0.0753,  0.0023],
+        [-0.0190,  0.0018,  0.0519,  ...,  0.0884, -0.0300, -0.0685]],
+       device='cuda:0'), grad: tensor([[ 8.7405e-07, -6.6614e-04, -4.1962e-04,  ..., -8.4579e-05,
+         -9.2089e-05, -2.0802e-04],
+        [-9.0152e-06,  1.7956e-05,  1.3635e-05,  ...,  2.6226e-06,
+          4.8280e-06,  6.2250e-06],
+        [-1.4398e-06,  1.1556e-05,  1.0319e-05,  ...,  1.7770e-06,
+         -6.7651e-06,  9.0227e-06],
+        ...,
+        [ 2.6356e-06,  1.2055e-05, -5.6595e-05,  ...,  1.6596e-06,
+          2.3730e-06,  1.9744e-06],
+        [ 2.0131e-05,  3.8314e-04,  2.0230e-04,  ...,  4.7803e-05,
+          8.1897e-05,  1.1975e-04],
+        [ 8.4043e-06,  1.5962e-04,  1.2803e-04,  ...,  1.6078e-05,
+          2.4810e-06,  6.2823e-05]], device='cuda:0')
+Epoch 88, bias, value: tensor([ 0.0302,  0.0105,  0.0184,  0.0247,  0.0306, -0.0013, -0.0049, -0.0045,
+         0.0073, -0.0335], device='cuda:0'), grad: tensor([-7.8964e-04,  2.8223e-05, -2.4483e-05,  5.0753e-05,  2.1189e-05,
+        -9.2313e-06,  1.3220e-04, -6.2883e-05,  3.6955e-04,  2.8539e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 87, time 217.71, cls_loss 0.0066 cls_loss_mapping 0.0102 cls_loss_causal 0.6146 re_mapping 0.0116 re_causal 0.0342 /// teacc 98.67 lr 0.00010000
+Epoch 89, weight, value: tensor([[-0.0838,  0.1217, -0.0243,  ...,  0.0006,  0.0526,  0.0196],
+        [ 0.0767, -0.0603,  0.0178,  ..., -0.0469, -0.0096, -0.0319],
+        [-0.0317, -0.0784,  0.0164,  ..., -0.0331,  0.0421, -0.1012],
+        ...,
+        [-0.0846, -0.0587,  0.0445,  ..., -0.0297, -0.0636, -0.0803],
+        [-0.0386, -0.0191,  0.0111,  ...,  0.0156, -0.0757,  0.0028],
+        [-0.0191,  0.0018,  0.0520,  ...,  0.0887, -0.0302, -0.0690]],
+       device='cuda:0'), grad: tensor([[ 6.3479e-06, -6.0303e-07,  6.9849e-08,  ...,  2.4680e-07,
+          0.0000e+00,  8.4564e-06],
+        [-3.1143e-05,  2.6263e-06, -2.9191e-05,  ...,  2.5146e-08,
+         -3.4124e-06,  1.0312e-05],
+        [ 2.3842e-05,  6.9439e-06,  1.3418e-05,  ...,  1.8533e-07,
+          9.7603e-07,  4.9710e-05],
+        ...,
+        [ 1.1206e-05,  2.4103e-06, -1.2994e-05,  ...,  3.9563e-06,
+          2.7008e-08,  1.6302e-05],
+        [ 5.1826e-05,  2.2128e-05,  5.6326e-06,  ...,  7.7719e-07,
+          3.6927e-07,  7.9274e-05],
+        [ 1.3880e-05,  5.8599e-06, -2.4080e-05,  ..., -2.1592e-05,
+          1.0049e-06,  1.7121e-05]], device='cuda:0')
+Epoch 89, bias, value: tensor([ 0.0306,  0.0101,  0.0188,  0.0245,  0.0309, -0.0017, -0.0046, -0.0043,
+         0.0073, -0.0339], device='cuda:0'), grad: tensor([ 1.2450e-05, -3.6627e-05,  9.6917e-05, -7.8087e-03,  4.4078e-05,
+         7.7133e-03, -1.1486e-04,  6.1020e-06,  1.1039e-04, -2.3752e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 88, time 217.56, cls_loss 0.0078 cls_loss_mapping 0.0097 cls_loss_causal 0.6220 re_mapping 0.0112 re_causal 0.0322 /// teacc 98.70 lr 0.00010000
+Epoch 90, weight, value: tensor([[-0.0840,  0.1221, -0.0244,  ...,  0.0006,  0.0526,  0.0192],
+        [ 0.0783, -0.0604,  0.0188,  ..., -0.0471, -0.0093, -0.0311],
+        [-0.0319, -0.0788,  0.0166,  ..., -0.0330,  0.0421, -0.1016],
+        ...,
+        [-0.0866, -0.0588,  0.0442,  ..., -0.0296, -0.0637, -0.0807],
+        [-0.0390, -0.0189,  0.0114,  ...,  0.0159, -0.0761,  0.0028],
+        [-0.0198,  0.0014,  0.0527,  ...,  0.0894, -0.0305, -0.0702]],
+       device='cuda:0'), grad: tensor([[ 4.5560e-06,  3.6247e-06,  2.3171e-06,  ...,  2.0303e-07,
+          2.0452e-06,  8.9556e-06],
+        [-8.8569e-07,  1.1390e-06, -3.9749e-06,  ...,  1.2200e-07,
+          5.4110e-07,  8.7693e-06],
+        [ 7.9513e-05, -9.9242e-06, -1.7360e-05,  ...,  2.9057e-07,
+         -2.0370e-05,  1.1897e-04],
+        ...,
+        [ 3.0324e-06,  8.2701e-07, -3.6657e-06,  ...,  2.6636e-07,
+          1.9670e-06,  5.5581e-06],
+        [ 1.3523e-05,  5.8822e-06,  1.2219e-05,  ..., -5.6159e-07,
+          1.2383e-05,  2.8238e-05],
+        [ 1.0788e-05,  5.3048e-06,  2.7381e-07,  ..., -5.2713e-07,
+          3.5670e-07,  1.1876e-05]], device='cuda:0')
+Epoch 90, bias, value: tensor([ 0.0306,  0.0110,  0.0190,  0.0244,  0.0305, -0.0017, -0.0046, -0.0046,
+         0.0069, -0.0338], device='cuda:0'), grad: tensor([ 5.6624e-05,  2.7508e-05,  5.2595e-04,  8.3387e-05,  3.5465e-06,
+        -9.7561e-04,  4.9114e-05,  3.3319e-05,  1.6522e-04,  2.9683e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 89----------------------------------------------------
+epoch 89, time 218.29, cls_loss 0.0077 cls_loss_mapping 0.0105 cls_loss_causal 0.6370 re_mapping 0.0112 re_causal 0.0327 /// teacc 98.79 lr 0.00010000
+Epoch 91, weight, value: tensor([[-0.0842,  0.1230, -0.0244,  ...,  0.0004,  0.0530,  0.0202],
+        [ 0.0784, -0.0608,  0.0185,  ..., -0.0476, -0.0092, -0.0312],
+        [-0.0319, -0.0796,  0.0163,  ..., -0.0334,  0.0420, -0.1021],
+        ...,
+        [-0.0869, -0.0593,  0.0448,  ..., -0.0298, -0.0635, -0.0809],
+        [-0.0391, -0.0188,  0.0113,  ...,  0.0160, -0.0764,  0.0033],
+        [-0.0197,  0.0014,  0.0534,  ...,  0.0904, -0.0308, -0.0706]],
+       device='cuda:0'), grad: tensor([[ 5.6997e-07,  4.2431e-06,  1.1608e-05,  ...,  4.7162e-06,
+          8.1491e-07,  6.0685e-06],
+        [-4.5896e-06,  2.5835e-06,  1.8060e-05,  ...,  4.5560e-06,
+          1.5646e-07,  2.4848e-06],
+        [ 4.4983e-07,  7.6517e-06,  3.6806e-05,  ...,  8.4043e-06,
+          2.8592e-07,  7.5251e-06],
+        ...,
+        [ 1.7192e-06,  3.4273e-06, -3.5453e-04,  ...,  8.7917e-06,
+          1.0151e-07, -6.0260e-05],
+        [ 3.7700e-06, -3.9667e-05, -1.7130e-04,  ..., -7.3791e-05,
+          5.8673e-07, -2.7314e-05],
+        [ 2.7120e-06,  2.3201e-05,  1.0526e-04,  ...,  3.7760e-05,
+          1.6205e-07,  1.1340e-05]], device='cuda:0')
+Epoch 91, bias, value: tensor([ 0.0312,  0.0109,  0.0190,  0.0247,  0.0301, -0.0023, -0.0052, -0.0041,
+         0.0066, -0.0335], device='cuda:0'), grad: tensor([ 2.6003e-05,  2.8521e-05,  5.5015e-05,  6.6423e-04,  2.1942e-06,
+         1.1496e-05, -1.2971e-05, -7.1096e-04, -1.8966e-04,  1.2672e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 90, time 217.30, cls_loss 0.0089 cls_loss_mapping 0.0127 cls_loss_causal 0.6149 re_mapping 0.0122 re_causal 0.0329 /// teacc 98.75 lr 0.00010000
+Epoch 92, weight, value: tensor([[-8.4600e-02,  1.2208e-01, -2.6762e-02,  ..., -4.3078e-05,
+          5.2928e-02,  1.9908e-02],
+        [ 7.9229e-02, -6.0628e-02,  1.9296e-02,  ..., -4.7532e-02,
+         -8.7501e-03, -3.0850e-02],
+        [-3.2474e-02, -8.0596e-02,  1.5421e-02,  ..., -3.3499e-02,
+          4.1755e-02, -1.0378e-01],
+        ...,
+        [-8.7551e-02, -5.9669e-02,  4.5150e-02,  ..., -2.9995e-02,
+         -6.3422e-02, -8.1266e-02],
+        [-3.9573e-02, -1.9030e-02,  1.1372e-02,  ...,  1.5747e-02,
+         -7.6937e-02,  2.8958e-03],
+        [-2.0385e-02,  2.9750e-03,  5.4518e-02,  ...,  9.0953e-02,
+         -3.0393e-02, -7.1479e-02]], device='cuda:0'), grad: tensor([[ 8.4192e-07, -9.5189e-05,  2.9244e-07,  ...,  2.0675e-07,
+          3.6597e-05,  6.8173e-07],
+        [-1.3318e-06,  4.9174e-07,  1.7956e-05,  ...,  1.8291e-06,
+          1.1697e-06,  2.3395e-06],
+        [ 7.7672e-07,  6.2585e-07,  9.8050e-06,  ...,  1.8813e-07,
+          1.3404e-05,  1.2238e-06],
+        ...,
+        [ 9.0338e-07,  5.9605e-07, -6.2287e-05,  ...,  1.0617e-06,
+          1.1697e-06, -7.0632e-06],
+        [ 2.6952e-06,  1.4454e-06,  3.4608e-06,  ...,  1.0226e-06,
+          1.7621e-06,  1.3374e-06],
+        [ 3.7588e-06,  8.3894e-06, -6.9499e-05,  ..., -4.8339e-05,
+          1.6391e-06,  3.4235e-06]], device='cuda:0')
+Epoch 92, bias, value: tensor([ 0.0289,  0.0116,  0.0184,  0.0244,  0.0297, -0.0014, -0.0049, -0.0037,
+         0.0059, -0.0324], device='cuda:0'), grad: tensor([ 3.4642e-04,  5.5611e-05,  1.9026e-04,  1.3340e-04,  3.6502e-04,
+         5.4061e-05, -9.9373e-04, -1.1969e-04,  3.2693e-05, -6.3419e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 91, time 217.41, cls_loss 0.0068 cls_loss_mapping 0.0099 cls_loss_causal 0.6287 re_mapping 0.0113 re_causal 0.0342 /// teacc 98.64 lr 0.00010000
+Epoch 93, weight, value: tensor([[-0.0849,  0.1236, -0.0265,  ..., -0.0003,  0.0535,  0.0195],
+        [ 0.0799, -0.0626,  0.0196,  ..., -0.0477, -0.0090, -0.0313],
+        [-0.0329, -0.0813,  0.0153,  ..., -0.0337,  0.0417, -0.1043],
+        ...,
+        [-0.0885, -0.0595,  0.0453,  ..., -0.0302, -0.0633, -0.0813],
+        [-0.0399, -0.0187,  0.0115,  ...,  0.0161, -0.0772,  0.0033],
+        [-0.0209,  0.0027,  0.0545,  ...,  0.0913, -0.0303, -0.0720]],
+       device='cuda:0'), grad: tensor([[ 4.3735e-06, -1.3185e-04, -9.7156e-06,  ...,  7.4506e-09,
+          1.0990e-07, -1.6112e-06],
+        [-4.3726e-04,  7.0594e-07, -7.4244e-04,  ...,  2.9802e-08,
+         -3.1665e-07,  6.2771e-07],
+        [ 1.2182e-05,  2.7698e-06,  2.3097e-05,  ...,  1.0058e-07,
+          8.7544e-08,  5.0478e-07],
+        ...,
+        [ 8.9467e-05,  6.7241e-07,  1.0711e-04,  ...,  5.2154e-08,
+          1.5460e-07,  3.0734e-07],
+        [ 4.1187e-05,  5.9381e-06,  5.7787e-05,  ..., -3.8743e-07,
+          2.6263e-07,  2.4401e-06],
+        [ 2.0742e-04,  1.6421e-05,  3.7766e-04,  ..., -3.5390e-08,
+          1.0431e-07,  1.2685e-06]], device='cuda:0')
+Epoch 93, bias, value: tensor([ 0.0300,  0.0112,  0.0183,  0.0234,  0.0297, -0.0008, -0.0055, -0.0030,
+         0.0058, -0.0327], device='cuda:0'), grad: tensor([-1.5247e-04, -1.0786e-03,  3.7402e-05,  1.5162e-05,  2.1946e-04,
+         3.6180e-05,  1.0365e-04,  1.5247e-04,  1.0037e-04,  5.6648e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 92----------------------------------------------------
+epoch 92, time 218.39, cls_loss 0.0086 cls_loss_mapping 0.0107 cls_loss_causal 0.6353 re_mapping 0.0115 re_causal 0.0314 /// teacc 98.80 lr 0.00010000
+Epoch 94, weight, value: tensor([[-0.0855,  0.1240, -0.0265,  ..., -0.0002,  0.0536,  0.0192],
+        [ 0.0805, -0.0628,  0.0198,  ..., -0.0479, -0.0090, -0.0315],
+        [-0.0331, -0.0821,  0.0151,  ..., -0.0341,  0.0416, -0.1046],
+        ...,
+        [-0.0891, -0.0600,  0.0459,  ..., -0.0304, -0.0633, -0.0813],
+        [-0.0404, -0.0184,  0.0116,  ...,  0.0162, -0.0777,  0.0036],
+        [-0.0207,  0.0022,  0.0553,  ...,  0.0926, -0.0294, -0.0730]],
+       device='cuda:0'), grad: tensor([[ 5.4576e-07, -5.9873e-05,  8.0280e-07,  ...,  5.6438e-07,
+          1.0673e-06,  2.1458e-06],
+        [ 1.1921e-07,  2.7642e-06,  3.3174e-06,  ...,  2.9057e-07,
+          1.1306e-06,  2.1253e-06],
+        [ 5.0850e-07,  6.1877e-06, -4.0978e-08,  ...,  1.9558e-06,
+          1.2480e-07,  8.9481e-06],
+        ...,
+        [ 6.7987e-07,  1.0952e-06, -3.2634e-05,  ...,  7.0967e-07,
+          2.2352e-08,  7.6368e-07],
+        [ 2.7735e-06, -2.4572e-05, -1.0245e-07,  ..., -1.9923e-05,
+          7.4692e-07, -9.4354e-05],
+        [ 3.6303e-06,  2.2128e-05,  1.4901e-07,  ...,  8.5682e-07,
+          7.0781e-08,  2.2098e-05]], device='cuda:0')
+Epoch 94, bias, value: tensor([ 0.0297,  0.0112,  0.0186,  0.0235,  0.0303, -0.0009, -0.0068, -0.0030,
+         0.0054, -0.0321], device='cuda:0'), grad: tensor([-1.2982e-04,  2.8074e-05, -2.0847e-05,  5.6982e-05,  2.3335e-05,
+         3.5852e-05,  1.0198e-04, -8.2195e-05, -9.1076e-05,  7.7367e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 93, time 217.86, cls_loss 0.0080 cls_loss_mapping 0.0099 cls_loss_causal 0.6104 re_mapping 0.0115 re_causal 0.0319 /// teacc 98.75 lr 0.00010000
+Epoch 95, weight, value: tensor([[-0.0857,  0.1246, -0.0267,  ..., -0.0003,  0.0537,  0.0197],
+        [ 0.0810, -0.0626,  0.0202,  ..., -0.0477, -0.0088, -0.0316],
+        [-0.0332, -0.0831,  0.0145,  ..., -0.0341,  0.0416, -0.1052],
+        ...,
+        [-0.0897, -0.0609,  0.0457,  ..., -0.0306, -0.0633, -0.0815],
+        [-0.0408, -0.0177,  0.0121,  ...,  0.0169, -0.0779,  0.0040],
+        [-0.0213,  0.0018,  0.0559,  ...,  0.0928, -0.0296, -0.0741]],
+       device='cuda:0'), grad: tensor([[ 2.8968e-04,  1.6761e-04,  7.1943e-05,  ...,  8.3819e-08,
+          4.1351e-07,  1.3864e-04],
+        [ 4.8801e-06,  2.9542e-06,  1.2834e-06,  ...,  1.0245e-07,
+          3.9116e-08,  5.2601e-06],
+        [ 1.0133e-05,  5.8860e-06, -8.4750e-07,  ...,  5.1968e-07,
+         -2.4401e-07,  8.9109e-06],
+        ...,
+        [ 4.6566e-06,  2.4624e-06, -2.3097e-05,  ...,  1.7509e-07,
+         -8.4005e-07,  3.1218e-06],
+        [ 7.2382e-06,  2.7623e-06,  1.2014e-06,  ...,  2.6822e-06,
+          1.1362e-07,  2.9415e-05],
+        [ 8.0764e-05,  4.7326e-05,  2.7269e-05,  ..., -8.1211e-07,
+          3.7812e-07,  4.7475e-05]], device='cuda:0')
+Epoch 95, bias, value: tensor([ 0.0299,  0.0112,  0.0184,  0.0235,  0.0307, -0.0014, -0.0065, -0.0030,
+         0.0057, -0.0325], device='cuda:0'), grad: tensor([ 6.5470e-04,  2.7955e-05, -1.7941e-05,  7.0035e-05,  6.0424e-06,
+        -1.1320e-03,  1.2350e-04, -2.1964e-05,  8.0407e-05,  2.1064e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 94----------------------------------------------------
+epoch 94, time 218.54, cls_loss 0.0068 cls_loss_mapping 0.0108 cls_loss_causal 0.5962 re_mapping 0.0108 re_causal 0.0307 /// teacc 98.84 lr 0.00010000
+Epoch 96, weight, value: tensor([[-0.0860,  0.1255, -0.0265,  ..., -0.0004,  0.0539,  0.0200],
+        [ 0.0811, -0.0631,  0.0202,  ..., -0.0479, -0.0089, -0.0323],
+        [-0.0335, -0.0831,  0.0142,  ..., -0.0343,  0.0416, -0.1058],
+        ...,
+        [-0.0907, -0.0620,  0.0460,  ..., -0.0308, -0.0630, -0.0826],
+        [-0.0407, -0.0175,  0.0133,  ...,  0.0175, -0.0774,  0.0045],
+        [-0.0222,  0.0011,  0.0556,  ...,  0.0930, -0.0302, -0.0754]],
+       device='cuda:0'), grad: tensor([[ 1.7732e-06, -7.2457e-07,  1.7919e-06,  ...,  6.2585e-07,
+          1.4883e-06,  2.2426e-06],
+        [-2.5798e-06,  2.4699e-06, -2.1011e-05,  ...,  6.5751e-07,
+          1.2107e-07,  1.2048e-05],
+        [ 5.9158e-06, -1.4901e-07,  1.5482e-05,  ...,  8.6576e-06,
+          5.3272e-07,  2.3678e-05],
+        ...,
+        [ 9.4026e-06,  5.6438e-07,  9.6634e-06,  ...,  7.8976e-06,
+          5.5321e-07,  1.1548e-05],
+        [ 1.6779e-05,  2.3860e-06,  9.3579e-05,  ...,  6.8784e-05,
+          1.2815e-06,  1.4567e-04],
+        [ 5.6997e-06,  3.2950e-06, -3.5644e-04,  ..., -1.2696e-04,
+          1.0803e-06, -2.7761e-05]], device='cuda:0')
+Epoch 96, bias, value: tensor([ 0.0299,  0.0111,  0.0185,  0.0230,  0.0312, -0.0010, -0.0055, -0.0034,
+         0.0062, -0.0333], device='cuda:0'), grad: tensor([ 1.5214e-05, -1.2100e-05,  6.3002e-05, -4.2295e-04,  7.2432e-04,
+        -1.3210e-05, -1.6913e-06,  3.9816e-05,  4.0102e-04, -7.9393e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 95, time 217.59, cls_loss 0.0085 cls_loss_mapping 0.0125 cls_loss_causal 0.6230 re_mapping 0.0107 re_causal 0.0311 /// teacc 98.82 lr 0.00010000
+Epoch 97, weight, value: tensor([[-0.0860,  0.1246, -0.0282,  ..., -0.0004,  0.0544,  0.0208],
+        [ 0.0826, -0.0633,  0.0215,  ..., -0.0478, -0.0089, -0.0316],
+        [-0.0339, -0.0833,  0.0138,  ..., -0.0345,  0.0418, -0.1073],
+        ...,
+        [-0.0921, -0.0623,  0.0471,  ..., -0.0311, -0.0629, -0.0826],
+        [-0.0413, -0.0183,  0.0119,  ...,  0.0178, -0.0775,  0.0041],
+        [-0.0233,  0.0025,  0.0565,  ...,  0.0933, -0.0306, -0.0768]],
+       device='cuda:0'), grad: tensor([[-1.0958e-03, -2.2411e-03, -9.4175e-04,  ...,  7.6368e-08,
+          1.1548e-05, -3.6979e-04],
+        [ 1.8440e-06,  6.7204e-06,  5.7630e-06,  ...,  2.0862e-07,
+          1.7192e-06,  1.1027e-06],
+        [ 2.6040e-06,  1.4700e-05,  1.0318e-04,  ...,  4.1351e-07,
+          5.8889e-05,  1.9874e-06],
+        ...,
+        [ 5.8562e-06,  1.2442e-05, -9.7752e-05,  ...,  1.1865e-06,
+         -6.2585e-05,  2.1644e-06],
+        [ 7.8157e-06,  1.0543e-05,  2.5202e-06,  ..., -6.3889e-07,
+          1.7695e-06, -3.5763e-07],
+        [ 7.7200e-04,  1.6079e-03,  6.8283e-04,  ..., -5.6028e-06,
+          1.9912e-06,  2.6131e-04]], device='cuda:0')
+Epoch 97, bias, value: tensor([ 0.0280,  0.0120,  0.0184,  0.0228,  0.0304, -0.0005, -0.0044, -0.0027,
+         0.0047, -0.0327], device='cuda:0'), grad: tensor([-5.2414e-03,  1.3423e-04,  5.9992e-05,  7.6771e-05,  4.4537e-04,
+         9.5654e-04, -1.1659e-04, -1.8406e-04,  3.8207e-05,  3.8300e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 96, time 217.56, cls_loss 0.0085 cls_loss_mapping 0.0103 cls_loss_causal 0.6439 re_mapping 0.0113 re_causal 0.0315 /// teacc 98.70 lr 0.00010000
+Epoch 98, weight, value: tensor([[-0.0860,  0.1279, -0.0258,  ...,  0.0013,  0.0544,  0.0209],
+        [ 0.0841, -0.0639,  0.0228,  ..., -0.0478, -0.0090, -0.0310],
+        [-0.0345, -0.0835,  0.0147,  ..., -0.0347,  0.0416, -0.1076],
+        ...,
+        [-0.0940, -0.0631,  0.0465,  ..., -0.0312, -0.0630, -0.0837],
+        [-0.0421, -0.0191,  0.0118,  ...,  0.0178, -0.0776,  0.0038],
+        [-0.0237, -0.0006,  0.0550,  ...,  0.0927, -0.0307, -0.0783]],
+       device='cuda:0'), grad: tensor([[ 3.0920e-07,  1.3240e-05,  5.5164e-05,  ...,  4.2468e-07,
+          8.5682e-08,  1.8269e-05],
+        [-3.4552e-06,  7.8231e-06,  7.1600e-06,  ...,  2.1607e-07,
+          9.3132e-09,  2.4084e-06],
+        [ 8.7358e-07,  1.7002e-05,  2.6420e-05,  ...,  2.2892e-06,
+          9.3132e-09,  8.7321e-06],
+        ...,
+        [ 1.5032e-06,  2.1696e-05,  2.7120e-05,  ...,  1.4920e-06,
+          0.0000e+00,  7.3090e-06],
+        [ 2.8498e-07, -1.4234e-04, -1.9300e-04,  ..., -9.8906e-07,
+          3.2224e-07, -5.3406e-05],
+        [ 2.0321e-06,  5.9277e-05,  2.5600e-05,  ..., -1.3128e-05,
+          1.4901e-08,  1.3508e-05]], device='cuda:0')
+Epoch 98, bias, value: tensor([ 0.0299,  0.0130,  0.0189,  0.0230,  0.0307,  0.0004, -0.0051, -0.0034,
+         0.0039, -0.0343], device='cuda:0'), grad: tensor([ 4.7624e-05,  1.7822e-05,  4.7773e-05,  1.7554e-05,  2.8722e-06,
+         2.7418e-05, -2.3972e-06,  5.5522e-05, -2.7847e-04,  6.4492e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 97, time 217.68, cls_loss 0.0056 cls_loss_mapping 0.0090 cls_loss_causal 0.6219 re_mapping 0.0112 re_causal 0.0318 /// teacc 98.69 lr 0.00010000
+Epoch 99, weight, value: tensor([[-0.0862,  0.1283, -0.0256,  ...,  0.0012,  0.0546,  0.0208],
+        [ 0.0843, -0.0644,  0.0216,  ..., -0.0481, -0.0091, -0.0324],
+        [-0.0347, -0.0840,  0.0145,  ..., -0.0350,  0.0415, -0.1080],
+        ...,
+        [-0.0945, -0.0640,  0.0475,  ..., -0.0313, -0.0629, -0.0837],
+        [-0.0420, -0.0184,  0.0125,  ...,  0.0177, -0.0777,  0.0046],
+        [-0.0239, -0.0004,  0.0554,  ...,  0.0933, -0.0306, -0.0780]],
+       device='cuda:0'), grad: tensor([[ 7.5065e-07, -4.0196e-06, -3.8892e-06,  ...,  1.1176e-07,
+          5.8115e-07,  1.1362e-06],
+        [-2.6915e-06,  9.2760e-07, -3.1069e-06,  ...,  4.0606e-07,
+          2.4959e-07,  2.5798e-06],
+        [ 1.9576e-06,  1.5855e-05,  2.3395e-05,  ...,  1.3374e-05,
+          3.8557e-07,  1.9073e-05],
+        ...,
+        [ 2.7269e-06,  2.6599e-06,  2.4401e-06,  ...,  3.0734e-07,
+          2.9989e-07,  3.7253e-08],
+        [ 3.8128e-06, -1.6108e-05, -2.8685e-05,  ..., -1.7166e-05,
+          1.1921e-07, -1.2584e-05],
+        [ 6.1654e-06,  7.6368e-06,  3.6899e-06,  ...,  6.4075e-07,
+          7.3574e-07,  1.0014e-05]], device='cuda:0')
+Epoch 99, bias, value: tensor([ 0.0301,  0.0118,  0.0191,  0.0230,  0.0307,  0.0002, -0.0052, -0.0027,
+         0.0039, -0.0343], device='cuda:0'), grad: tensor([ 6.8173e-07,  3.9302e-07,  4.7863e-05, -7.5281e-05, -1.2167e-05,
+         4.9263e-05, -2.2054e-06,  3.7253e-06, -3.5793e-05,  2.3380e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 98, time 217.92, cls_loss 0.0064 cls_loss_mapping 0.0080 cls_loss_causal 0.6081 re_mapping 0.0109 re_causal 0.0312 /// teacc 98.76 lr 0.00010000
+Epoch 100, weight, value: tensor([[-0.0864,  0.1286, -0.0257,  ...,  0.0011,  0.0547,  0.0209],
+        [ 0.0843, -0.0647,  0.0212,  ..., -0.0482, -0.0091, -0.0328],
+        [-0.0346, -0.0848,  0.0148,  ..., -0.0352,  0.0414, -0.1090],
+        ...,
+        [-0.0945, -0.0643,  0.0476,  ..., -0.0315, -0.0629, -0.0837],
+        [-0.0422, -0.0189,  0.0122,  ...,  0.0176, -0.0777,  0.0048],
+        [-0.0241,  0.0003,  0.0562,  ...,  0.0938, -0.0306, -0.0771]],
+       device='cuda:0'), grad: tensor([[ 1.6186e-06, -4.0174e-05, -2.3320e-05,  ...,  8.7544e-08,
+          4.0978e-08, -2.9597e-06],
+        [-1.2964e-05,  1.2629e-05, -7.3686e-06,  ...,  1.4901e-08,
+          1.4901e-08,  2.1961e-06],
+        [ 5.3197e-06,  3.6079e-06,  3.6508e-06,  ...,  1.5646e-07,
+          1.4901e-08,  9.7901e-06],
+        ...,
+        [ 9.2201e-07,  2.2221e-06, -1.4734e-06,  ...,  1.8068e-07,
+          0.0000e+00,  3.5223e-06],
+        [ 7.8157e-06, -1.4175e-06, -4.0345e-06,  ..., -1.3132e-06,
+          6.3330e-08, -8.3596e-06],
+        [ 8.4639e-06,  6.7353e-06,  7.4804e-06,  ...,  0.0000e+00,
+          3.7253e-09,  1.7926e-05]], device='cuda:0')
+Epoch 100, bias, value: tensor([ 0.0302,  0.0112,  0.0197,  0.0231,  0.0308, -0.0004, -0.0053, -0.0026,
+         0.0036, -0.0339], device='cuda:0'), grad: tensor([-5.9903e-05, -7.6443e-06,  2.1234e-05, -1.5867e-04,  4.5076e-06,
+         1.2982e-04,  2.9787e-05,  5.8301e-07, -1.8068e-07,  4.0293e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 99, time 218.26, cls_loss 0.0069 cls_loss_mapping 0.0088 cls_loss_causal 0.6035 re_mapping 0.0103 re_causal 0.0298 /// teacc 98.70 lr 0.00010000
+Epoch 101, weight, value: tensor([[-8.6576e-02,  1.2912e-01, -2.5564e-02,  ...,  1.0502e-03,
+          5.4541e-02,  2.1107e-02],
+        [ 8.4409e-02, -6.4071e-02,  1.9164e-02,  ..., -4.8214e-02,
+         -9.1844e-03, -3.3484e-02],
+        [-3.4702e-02, -8.4912e-02,  1.5938e-02,  ..., -3.5060e-02,
+          4.1721e-02, -1.0967e-01],
+        ...,
+        [-9.4051e-02, -6.4565e-02,  4.9432e-02,  ..., -3.1559e-02,
+         -6.3075e-02, -8.3385e-02],
+        [-4.2424e-02, -1.8665e-02,  1.2893e-02,  ...,  1.7994e-02,
+         -7.7767e-02,  5.5522e-03],
+        [-2.5133e-02,  1.0196e-05,  5.5866e-02,  ...,  9.4030e-02,
+         -3.0692e-02, -7.8095e-02]], device='cuda:0'), grad: tensor([[ 1.6764e-08, -3.6955e-05, -1.1154e-05,  ...,  1.4156e-07,
+          3.7253e-09,  1.1548e-07],
+        [-8.7358e-07,  2.0675e-07,  4.4517e-07,  ...,  1.6391e-07,
+          7.4506e-09,  1.5274e-07],
+        [ 1.8254e-07,  2.6207e-06,  3.8296e-06,  ...,  1.3039e-07,
+         -3.2224e-07,  3.5223e-06],
+        ...,
+        [ 3.1106e-07,  1.8794e-06,  1.1064e-05,  ...,  3.6396e-06,
+          3.7253e-09,  2.9616e-07],
+        [ 1.1176e-07,  1.5516e-06,  3.8408e-06,  ...,  1.3486e-06,
+          3.7253e-09,  1.2275e-06],
+        [ 9.6858e-08,  1.8775e-05, -3.1978e-05,  ..., -1.2793e-05,
+          0.0000e+00, -4.0978e-07]], device='cuda:0')
+Epoch 101, bias, value: tensor([ 0.0303,  0.0086,  0.0209,  0.0228,  0.0304, -0.0005, -0.0052, -0.0005,
+         0.0039, -0.0346], device='cuda:0'), grad: tensor([-4.1217e-05,  1.1679e-06,  1.5557e-05, -4.9025e-06,  2.2209e-04,
+         8.7321e-06, -2.0933e-04,  1.6198e-05,  1.0982e-05, -1.8984e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 100, time 218.11, cls_loss 0.0073 cls_loss_mapping 0.0077 cls_loss_causal 0.5786 re_mapping 0.0103 re_causal 0.0290 /// teacc 98.73 lr 0.00010000
+Epoch 102, weight, value: tensor([[-0.0867,  0.1285, -0.0270,  ...,  0.0010,  0.0546,  0.0210],
+        [ 0.0854, -0.0639,  0.0202,  ..., -0.0482, -0.0091, -0.0326],
+        [-0.0351, -0.0851,  0.0159,  ..., -0.0351,  0.0416, -0.1100],
+        ...,
+        [-0.0950, -0.0649,  0.0489,  ..., -0.0317, -0.0631, -0.0848],
+        [-0.0427, -0.0186,  0.0132,  ...,  0.0186, -0.0778,  0.0057],
+        [-0.0255,  0.0008,  0.0570,  ...,  0.0945, -0.0308, -0.0793]],
+       device='cuda:0'), grad: tensor([[ 2.7139e-06, -4.0472e-05, -2.9996e-05,  ...,  4.2655e-07,
+          7.6368e-08, -1.9208e-05],
+        [-5.9962e-05,  1.1381e-06, -2.7344e-05,  ...,  6.9849e-07,
+          4.0978e-08,  1.4640e-06],
+        [ 2.3767e-05,  2.0098e-06,  1.2606e-05,  ...,  4.1351e-07,
+         -3.0547e-07,  1.8794e-06],
+        ...,
+        [ 8.4192e-06,  2.8946e-06,  5.8860e-06,  ...,  3.8054e-06,
+          4.4703e-08,  1.8552e-06],
+        [ 7.5921e-06,  1.0803e-06, -6.3181e-06,  ..., -3.4310e-06,
+          5.0478e-07, -2.7493e-06],
+        [ 1.3866e-05,  2.9519e-05, -1.6555e-05,  ..., -1.5825e-05,
+          9.3132e-09,  2.3097e-05]], device='cuda:0')
+Epoch 102, bias, value: tensor([ 0.0291,  0.0095,  0.0210,  0.0235,  0.0306, -0.0004, -0.0058, -0.0011,
+         0.0039, -0.0341], device='cuda:0'), grad: tensor([-7.6056e-05, -8.5056e-05,  3.8713e-05,  4.7714e-05, -1.4710e-04,
+        -1.5780e-05,  1.8492e-05,  2.9758e-05,  2.6226e-05,  1.6272e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 101, time 217.90, cls_loss 0.0070 cls_loss_mapping 0.0098 cls_loss_causal 0.5925 re_mapping 0.0100 re_causal 0.0300 /// teacc 98.62 lr 0.00010000
+Epoch 103, weight, value: tensor([[-0.0869,  0.1281, -0.0281,  ...,  0.0006,  0.0546,  0.0204],
+        [ 0.0861, -0.0640,  0.0205,  ..., -0.0481, -0.0091, -0.0326],
+        [-0.0354, -0.0863,  0.0151,  ..., -0.0352,  0.0416, -0.1109],
+        ...,
+        [-0.0954, -0.0658,  0.0490,  ..., -0.0319, -0.0631, -0.0854],
+        [-0.0430, -0.0173,  0.0146,  ...,  0.0198, -0.0778,  0.0070],
+        [-0.0261,  0.0011,  0.0575,  ...,  0.0952, -0.0304, -0.0805]],
+       device='cuda:0'), grad: tensor([[ 1.2498e-06, -1.4275e-05, -8.0168e-06,  ...,  1.5460e-07,
+          0.0000e+00, -2.0489e-08],
+        [-3.0518e-04,  7.9200e-06, -3.3212e-04,  ...,  1.0803e-07,
+          0.0000e+00,  8.7619e-06],
+        [ 2.9755e-04,  5.6252e-06,  3.0804e-04,  ...,  3.1237e-06,
+          0.0000e+00,  8.2925e-06],
+        ...,
+        [ 3.6601e-06,  1.8533e-06,  5.7518e-05,  ...,  3.0100e-06,
+          0.0000e+00,  1.4920e-06],
+        [ 1.1623e-05, -1.4834e-05, -4.3154e-05,  ..., -5.3495e-06,
+          0.0000e+00, -2.5615e-05],
+        [ 7.0035e-07,  9.6336e-06, -1.5691e-05,  ..., -3.2354e-06,
+          0.0000e+00,  3.0138e-06]], device='cuda:0')
+Epoch 103, bias, value: tensor([ 0.0282,  0.0098,  0.0206,  0.0240,  0.0324, -0.0010, -0.0059, -0.0015,
+         0.0050, -0.0347], device='cuda:0'), grad: tensor([-1.0341e-05, -5.7602e-04,  5.0545e-04,  2.1577e-05,  3.6564e-06,
+         1.7834e-04, -1.9908e-04,  1.1230e-04, -2.4319e-05, -1.1772e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 102, time 217.93, cls_loss 0.0054 cls_loss_mapping 0.0073 cls_loss_causal 0.6279 re_mapping 0.0096 re_causal 0.0289 /// teacc 98.81 lr 0.00010000
+Epoch 104, weight, value: tensor([[-0.0870,  0.1287, -0.0279,  ...,  0.0005,  0.0546,  0.0203],
+        [ 0.0874, -0.0643,  0.0209,  ..., -0.0483, -0.0092, -0.0329],
+        [-0.0364, -0.0869,  0.0146,  ..., -0.0354,  0.0416, -0.1112],
+        ...,
+        [-0.0965, -0.0663,  0.0490,  ..., -0.0323, -0.0632, -0.0857],
+        [-0.0440, -0.0177,  0.0146,  ...,  0.0202, -0.0785,  0.0074],
+        [-0.0266,  0.0007,  0.0582,  ...,  0.0965, -0.0305, -0.0811]],
+       device='cuda:0'), grad: tensor([[ 1.5460e-07, -1.6704e-05, -1.1027e-05,  ...,  5.0478e-07,
+          0.0000e+00,  2.6263e-07],
+        [-3.4392e-05,  6.1654e-07, -1.8835e-05,  ...,  1.2852e-07,
+          0.0000e+00,  2.3656e-07],
+        [ 2.1875e-05,  3.7719e-06,  1.6496e-05,  ...,  3.7067e-07,
+          0.0000e+00,  1.2945e-06],
+        ...,
+        [ 1.1083e-06,  1.0822e-06,  3.1501e-05,  ...,  1.2770e-05,
+          0.0000e+00,  1.0058e-06],
+        [ 2.6599e-06, -4.1351e-06,  3.1181e-06,  ...,  3.2131e-06,
+          0.0000e+00, -8.9407e-06],
+        [ 3.0007e-06,  6.5640e-06, -5.8979e-05,  ..., -2.7567e-05,
+          0.0000e+00,  2.1234e-07]], device='cuda:0')
+Epoch 104, bias, value: tensor([ 2.8511e-02,  1.0357e-02,  2.0003e-02,  2.3835e-02,  3.1225e-02,
+         7.3123e-05, -6.5841e-03, -1.5866e-03,  4.6656e-03, -3.4083e-02],
+       device='cuda:0'), grad: tensor([-1.8120e-05, -3.7760e-05,  3.1769e-05,  2.3425e-05, -3.4243e-05,
+         1.3575e-05,  6.4373e-06,  3.6269e-05, -1.8515e-06, -1.9610e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 103, time 217.48, cls_loss 0.0065 cls_loss_mapping 0.0096 cls_loss_causal 0.6101 re_mapping 0.0101 re_causal 0.0308 /// teacc 98.77 lr 0.00010000
+Epoch 105, weight, value: tensor([[-0.0872,  0.1296, -0.0272,  ...,  0.0021,  0.0548,  0.0204],
+        [ 0.0882, -0.0641,  0.0215,  ..., -0.0479, -0.0089, -0.0331],
+        [-0.0367, -0.0875,  0.0141,  ..., -0.0357,  0.0416, -0.1118],
+        ...,
+        [-0.0971, -0.0667,  0.0490,  ..., -0.0327, -0.0632, -0.0859],
+        [-0.0440, -0.0161,  0.0162,  ...,  0.0209, -0.0786,  0.0093],
+        [-0.0277, -0.0006,  0.0571,  ...,  0.0958, -0.0304, -0.0836]],
+       device='cuda:0'), grad: tensor([[ 3.1024e-05, -9.3758e-05,  8.1301e-05,  ...,  6.0409e-05,
+          4.0233e-07,  6.6869e-07],
+        [ 1.3039e-08,  1.2163e-06,  3.1814e-06,  ...,  1.3690e-06,
+          8.0094e-08,  8.8662e-07],
+        [ 6.5193e-06,  1.9193e-05, -9.9763e-06,  ...,  1.2748e-05,
+          9.6858e-08,  3.2540e-06],
+        ...,
+        [ 2.0396e-06,  1.2472e-05, -7.4133e-06,  ...,  4.3884e-06,
+          3.7253e-09, -1.0610e-05],
+        [ 1.3541e-06,  5.2489e-06,  2.5168e-05,  ...,  1.6853e-05,
+          1.7323e-07, -2.8498e-06],
+        [-6.0350e-05, -7.5251e-06, -1.6868e-04,  ..., -1.3721e-04,
+          2.4214e-08,  5.9977e-06]], device='cuda:0')
+Epoch 105, bias, value: tensor([ 0.0291,  0.0108,  0.0199,  0.0247,  0.0315, -0.0012, -0.0065, -0.0016,
+         0.0061, -0.0354], device='cuda:0'), grad: tensor([-1.2894e-03,  1.8597e-05, -1.1230e-04,  1.5378e-04,  1.4269e-04,
+         2.3901e-04,  2.2626e-04,  1.1724e-04,  1.6391e-04,  3.3951e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 104, time 217.57, cls_loss 0.0055 cls_loss_mapping 0.0074 cls_loss_causal 0.5752 re_mapping 0.0102 re_causal 0.0286 /// teacc 98.73 lr 0.00010000
+Epoch 106, weight, value: tensor([[-0.0876,  0.1301, -0.0270,  ...,  0.0021,  0.0550,  0.0203],
+        [ 0.0876, -0.0639,  0.0211,  ..., -0.0481, -0.0089, -0.0333],
+        [-0.0355, -0.0883,  0.0140,  ..., -0.0361,  0.0398, -0.1128],
+        ...,
+        [-0.0974, -0.0675,  0.0494,  ..., -0.0333, -0.0634, -0.0861],
+        [-0.0444, -0.0159,  0.0165,  ...,  0.0214, -0.0792,  0.0100],
+        [-0.0286, -0.0009,  0.0574,  ...,  0.0962, -0.0305, -0.0846]],
+       device='cuda:0'), grad: tensor([[-2.0824e-06, -4.1187e-05, -1.6212e-05,  ...,  1.3039e-07,
+          2.0731e-06,  1.6950e-07],
+        [-3.4273e-07,  5.2527e-07,  8.1584e-07,  ...,  2.2538e-07,
+          1.7881e-07,  1.2293e-07],
+        [ 1.3225e-07, -4.1351e-07,  1.8515e-06,  ...,  4.8988e-07,
+          5.9605e-08,  3.5204e-07],
+        ...,
+        [ 1.8626e-07,  9.0152e-07, -2.3078e-06,  ...,  4.0121e-06,
+          1.3039e-08,  9.1270e-08],
+        [ 1.9800e-06,  2.0470e-06, -3.1851e-07,  ..., -1.0654e-06,
+          2.8238e-06,  1.3337e-06],
+        [ 1.7416e-06,  2.2858e-05, -8.1435e-06,  ..., -6.5938e-06,
+          7.2643e-08,  7.6741e-07]], device='cuda:0')
+Epoch 106, bias, value: tensor([ 0.0294,  0.0098,  0.0204,  0.0235,  0.0314, -0.0002, -0.0058, -0.0014,
+         0.0060, -0.0356], device='cuda:0'), grad: tensor([-5.4300e-05,  2.2054e-06, -4.1574e-06,  6.0275e-06,  1.7643e-05,
+         2.2471e-05, -1.3307e-05, -7.0781e-06,  1.2808e-05,  1.7673e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 105, time 217.57, cls_loss 0.0084 cls_loss_mapping 0.0110 cls_loss_causal 0.5617 re_mapping 0.0100 re_causal 0.0279 /// teacc 98.74 lr 0.00010000
+Epoch 107, weight, value: tensor([[-0.0878,  0.1300, -0.0278,  ...,  0.0013,  0.0555,  0.0192],
+        [ 0.0885, -0.0643,  0.0208,  ..., -0.0483, -0.0094, -0.0336],
+        [-0.0366, -0.0911,  0.0140,  ..., -0.0365,  0.0400, -0.1140],
+        ...,
+        [-0.0981, -0.0686,  0.0498,  ..., -0.0339, -0.0648, -0.0865],
+        [-0.0449, -0.0152,  0.0169,  ...,  0.0218, -0.0800,  0.0099],
+        [-0.0295, -0.0007,  0.0580,  ...,  0.0971, -0.0314, -0.0852]],
+       device='cuda:0'), grad: tensor([[ 5.9605e-08, -4.9919e-07,  1.0040e-06,  ...,  4.2841e-08,
+          3.8557e-07,  2.1607e-07],
+        [-1.6093e-06,  1.6950e-07,  3.2466e-06,  ...,  1.5832e-07,
+          4.2841e-08,  1.9930e-07],
+        [ 4.4703e-07,  2.1532e-06,  3.9637e-06,  ...,  1.8775e-06,
+          2.4214e-08,  2.8927e-06],
+        ...,
+        [ 9.2015e-07,  9.4995e-08,  2.7180e-04,  ...,  6.7055e-07,
+          1.8626e-09,  5.1223e-07],
+        [-2.8498e-07, -2.2147e-06, -4.4405e-06,  ..., -3.2522e-06,
+          4.6007e-07, -4.9397e-06],
+        [ 2.4028e-07,  1.2852e-06,  4.8995e-05,  ..., -4.2468e-07,
+          2.7940e-08,  3.8743e-07]], device='cuda:0')
+Epoch 107, bias, value: tensor([ 0.0288,  0.0093,  0.0203,  0.0238,  0.0315,  0.0004, -0.0050, -0.0012,
+         0.0051, -0.0354], device='cuda:0'), grad: tensor([ 4.1276e-06,  2.0146e-05, -2.0504e-05,  8.0615e-06, -9.9468e-04,
+         1.8254e-05, -1.3381e-05,  8.2731e-04,  2.2694e-05,  1.2755e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 106, time 217.52, cls_loss 0.0080 cls_loss_mapping 0.0091 cls_loss_causal 0.6044 re_mapping 0.0100 re_causal 0.0282 /// teacc 98.79 lr 0.00010000
+Epoch 108, weight, value: tensor([[-0.0880,  0.1304, -0.0278,  ...,  0.0011,  0.0558,  0.0189],
+        [ 0.0883, -0.0651,  0.0212,  ..., -0.0502, -0.0096, -0.0338],
+        [-0.0367, -0.0914,  0.0144,  ..., -0.0366,  0.0400, -0.1141],
+        ...,
+        [-0.0987, -0.0694,  0.0495,  ..., -0.0341, -0.0649, -0.0867],
+        [-0.0448, -0.0135,  0.0173,  ...,  0.0220, -0.0791,  0.0106],
+        [-0.0286, -0.0010,  0.0585,  ...,  0.0985, -0.0310, -0.0858]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-08, -3.6526e-06,  1.0356e-05,  ...,  1.6019e-07,
+          9.6858e-08,  2.4587e-07],
+        [-8.3819e-08,  6.3330e-08,  6.6049e-06,  ...,  2.4959e-07,
+          9.3132e-09,  3.9488e-07],
+        [ 9.4995e-08, -3.6322e-07, -6.8307e-05,  ...,  1.6391e-07,
+          1.4901e-08,  7.8604e-07],
+        ...,
+        [ 7.8231e-08,  8.7544e-08, -8.7246e-06,  ...,  2.7362e-06,
+          0.0000e+00,  3.0044e-06],
+        [ 6.1840e-07,  9.1270e-07,  1.8358e-05,  ...,  4.1723e-07,
+          4.8429e-08,  5.3830e-07],
+        [ 9.4809e-07,  1.5907e-06, -8.2433e-05,  ..., -2.1324e-05,
+          3.7253e-09, -2.4289e-05]], device='cuda:0')
+Epoch 108, bias, value: tensor([ 0.0289,  0.0095,  0.0208,  0.0236,  0.0316, -0.0002, -0.0048, -0.0014,
+         0.0054, -0.0355], device='cuda:0'), grad: tensor([ 4.0531e-05,  1.6153e-05, -1.9836e-04,  5.5730e-05,  1.2314e-04,
+         2.2024e-05, -9.2760e-06, -1.0580e-05,  5.0247e-05, -8.9884e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 107, time 217.58, cls_loss 0.0065 cls_loss_mapping 0.0091 cls_loss_causal 0.5835 re_mapping 0.0095 re_causal 0.0273 /// teacc 98.76 lr 0.00010000
+Epoch 109, weight, value: tensor([[-0.0882,  0.1312, -0.0276,  ...,  0.0009,  0.0562,  0.0195],
+        [ 0.0885, -0.0646,  0.0211,  ..., -0.0510, -0.0094, -0.0339],
+        [-0.0370, -0.0921,  0.0141,  ..., -0.0369,  0.0400, -0.1155],
+        ...,
+        [-0.0989, -0.0704,  0.0496,  ..., -0.0345, -0.0650, -0.0869],
+        [-0.0454, -0.0140,  0.0169,  ...,  0.0217, -0.0796,  0.0106],
+        [-0.0279, -0.0012,  0.0593,  ...,  0.0997, -0.0316, -0.0863]],
+       device='cuda:0'), grad: tensor([[ 3.3528e-07, -4.4703e-08,  1.1828e-06,  ...,  1.4715e-07,
+          8.0094e-08,  5.1968e-07],
+        [-3.7253e-06,  2.2352e-08,  9.4771e-06,  ...,  7.8417e-07,
+          9.3132e-09,  8.3819e-08],
+        [ 2.0266e-06,  3.9116e-08,  6.2734e-06,  ...,  5.2527e-07,
+          9.3132e-09,  1.8422e-06],
+        ...,
+        [-1.2387e-06,  3.5390e-08,  1.0155e-05,  ...,  6.7353e-06,
+          5.5879e-09,  2.9989e-07],
+        [ 1.0245e-06,  4.7684e-07,  2.1830e-06,  ...,  2.1048e-07,
+          5.5879e-08,  6.6869e-07],
+        [ 1.7770e-06,  6.5379e-07, -7.6473e-05,  ..., -1.5274e-05,
+          2.0489e-08,  2.2165e-07]], device='cuda:0')
+Epoch 109, bias, value: tensor([ 0.0296,  0.0091,  0.0193,  0.0232,  0.0317, -0.0003, -0.0041, -0.0005,
+         0.0044, -0.0354], device='cuda:0'), grad: tensor([ 4.7013e-06,  2.0966e-05,  1.5110e-05, -6.1989e-06,  5.8591e-05,
+         1.5963e-06,  3.2596e-07,  1.2808e-05,  6.0499e-06, -1.1396e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 108, time 217.73, cls_loss 0.0064 cls_loss_mapping 0.0088 cls_loss_causal 0.5699 re_mapping 0.0099 re_causal 0.0277 /// teacc 98.74 lr 0.00010000
+Epoch 110, weight, value: tensor([[-0.0888,  0.1316, -0.0275,  ...,  0.0008,  0.0571,  0.0191],
+        [ 0.0894, -0.0652,  0.0212,  ..., -0.0509, -0.0096, -0.0340],
+        [-0.0372, -0.0933,  0.0135,  ..., -0.0357,  0.0400, -0.1168],
+        ...,
+        [-0.0997, -0.0709,  0.0498,  ..., -0.0350, -0.0652, -0.0885],
+        [-0.0459, -0.0138,  0.0173,  ...,  0.0223, -0.0797,  0.0108],
+        [-0.0288, -0.0014,  0.0594,  ...,  0.0999, -0.0319, -0.0869]],
+       device='cuda:0'), grad: tensor([[ 2.0135e-06, -4.1306e-05, -5.5730e-06,  ...,  2.0172e-06,
+         -1.9856e-06,  2.8126e-07],
+        [-1.8626e-05,  4.6045e-06, -1.5169e-05,  ...,  1.0747e-06,
+          5.1968e-07,  2.1979e-07],
+        [-2.1505e-04,  4.6715e-06,  1.8969e-05,  ..., -1.5986e-04,
+         -4.1910e-07,  1.6857e-06],
+        ...,
+        [ 3.7774e-06,  5.1707e-06, -1.0982e-05,  ...,  2.7437e-06,
+          5.8487e-07,  8.7731e-07],
+        [ 2.5667e-06, -6.9067e-06, -9.1456e-07,  ...,  1.5832e-06,
+          1.6205e-07, -4.8205e-06],
+        [ 2.1446e-04,  8.3745e-06, -6.8474e-04,  ..., -1.7583e-04,
+          4.0419e-07,  1.2517e-06]], device='cuda:0')
+Epoch 110, bias, value: tensor([ 2.9716e-02,  9.0112e-03,  1.9957e-02,  2.4521e-02,  3.1908e-02,
+        -3.2295e-06, -4.4256e-03, -1.2520e-03,  4.4769e-03, -3.5926e-02],
+       device='cuda:0'), grad: tensor([-6.0052e-05, -1.2517e-05, -8.2636e-04,  2.2754e-05,  1.5898e-03,
+         4.9621e-05,  1.9804e-05, -1.4521e-05,  2.1100e-05, -7.8964e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 109, time 217.67, cls_loss 0.0071 cls_loss_mapping 0.0095 cls_loss_causal 0.5767 re_mapping 0.0102 re_causal 0.0291 /// teacc 98.83 lr 0.00010000
+Epoch 111, weight, value: tensor([[-0.0885,  0.1329, -0.0268,  ...,  0.0022,  0.0572,  0.0190],
+        [ 0.0914, -0.0652,  0.0216,  ..., -0.0509, -0.0088, -0.0342],
+        [-0.0386, -0.0940,  0.0127,  ..., -0.0355,  0.0401, -0.1175],
+        ...,
+        [-0.1007, -0.0712,  0.0502,  ..., -0.0354, -0.0658, -0.0890],
+        [-0.0461, -0.0134,  0.0173,  ...,  0.0223, -0.0794,  0.0113],
+        [-0.0292, -0.0025,  0.0591,  ...,  0.1004, -0.0322, -0.0868]],
+       device='cuda:0'), grad: tensor([[ 4.9740e-05, -3.3677e-05, -3.1572e-06,  ...,  5.3868e-06,
+         -7.2494e-06, -2.7474e-06],
+        [ 5.2482e-05,  6.6124e-07, -8.5235e-06,  ...,  7.8231e-08,
+         -6.6310e-07,  1.3039e-07],
+        [-6.3848e-04,  1.8943e-06,  3.3062e-06,  ...,  2.5146e-07,
+          5.2527e-07,  4.6194e-07],
+        ...,
+        [ 4.8012e-05,  2.6934e-06,  8.6576e-06,  ...,  5.2266e-06,
+          2.6431e-06,  3.3528e-07],
+        [ 3.4291e-06,  4.0084e-06,  6.2212e-06,  ...,  6.7428e-07,
+          1.4286e-06,  2.1774e-06],
+        [ 1.2502e-05,  4.4405e-06, -2.5570e-05,  ..., -1.4193e-05,
+         -3.3472e-06, -2.9020e-06]], device='cuda:0')
+Epoch 111, bias, value: tensor([ 0.0309,  0.0097,  0.0194,  0.0243,  0.0304,  0.0002, -0.0046, -0.0008,
+         0.0044, -0.0364], device='cuda:0'), grad: tensor([ 9.3043e-05,  1.6141e-04, -1.7462e-03,  1.2302e-03, -3.8910e-04,
+         8.6188e-05,  2.6166e-05,  1.5402e-04,  2.9311e-05,  3.5357e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 110, time 218.17, cls_loss 0.0074 cls_loss_mapping 0.0088 cls_loss_causal 0.5804 re_mapping 0.0109 re_causal 0.0288 /// teacc 98.72 lr 0.00010000
+Epoch 112, weight, value: tensor([[-0.0882,  0.1333, -0.0270,  ...,  0.0019,  0.0572,  0.0187],
+        [ 0.0908, -0.0656,  0.0217,  ..., -0.0512, -0.0099, -0.0346],
+        [-0.0396, -0.0947,  0.0117,  ..., -0.0358,  0.0401, -0.1183],
+        ...,
+        [-0.1016, -0.0729,  0.0503,  ..., -0.0358, -0.0658, -0.0892],
+        [-0.0484, -0.0136,  0.0180,  ...,  0.0221, -0.0805,  0.0110],
+        [-0.0297, -0.0024,  0.0600,  ...,  0.1014, -0.0317, -0.0873]],
+       device='cuda:0'), grad: tensor([[ 1.0431e-07,  1.7798e-06,  1.4544e-05,  ...,  3.0566e-06,
+          1.9092e-07,  2.7753e-06],
+        [-1.7788e-07,  1.5087e-05,  5.7429e-05,  ...,  1.0893e-05,
+          7.0781e-08,  9.7379e-06],
+        [ 2.7940e-09,  9.2611e-06,  3.8058e-05,  ...,  6.3777e-06,
+         -9.3132e-07,  5.9456e-06],
+        ...,
+        [ 1.0710e-07,  5.8711e-06,  2.5965e-06,  ...,  5.9567e-06,
+          6.8918e-08,  4.4629e-06],
+        [ 6.4727e-07, -8.3864e-05, -2.9635e-04,  ..., -5.4866e-05,
+          3.4273e-07, -5.4806e-05],
+        [ 5.6811e-07,  4.1366e-05,  1.1742e-04,  ...,  1.8924e-05,
+          8.2888e-08,  2.6971e-05]], device='cuda:0')
+Epoch 112, bias, value: tensor([ 0.0310,  0.0092,  0.0189,  0.0231,  0.0319,  0.0011, -0.0048, -0.0008,
+         0.0037, -0.0360], device='cuda:0'), grad: tensor([ 2.1294e-05,  8.1539e-05,  4.9353e-05,  5.6148e-05, -9.8571e-06,
+         2.8193e-05,  9.4324e-06, -1.9178e-05, -3.9983e-04,  1.8346e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 111, time 217.70, cls_loss 0.0046 cls_loss_mapping 0.0065 cls_loss_causal 0.5725 re_mapping 0.0100 re_causal 0.0291 /// teacc 98.69 lr 0.00010000
+Epoch 113, weight, value: tensor([[-0.0884,  0.1339, -0.0269,  ...,  0.0020,  0.0573,  0.0184],
+        [ 0.0929, -0.0655,  0.0222,  ..., -0.0513, -0.0093, -0.0345],
+        [-0.0420, -0.0948,  0.0103,  ..., -0.0360,  0.0411, -0.1189],
+        ...,
+        [-0.1018, -0.0733,  0.0501,  ..., -0.0361, -0.0666, -0.0893],
+        [-0.0481, -0.0125,  0.0189,  ...,  0.0224, -0.0805,  0.0118],
+        [-0.0299, -0.0030,  0.0608,  ...,  0.1017, -0.0321, -0.0881]],
+       device='cuda:0'), grad: tensor([[ 7.6368e-08, -4.4983e-07,  2.0042e-06,  ...,  3.8184e-08,
+         -9.7789e-08,  3.8557e-07],
+        [-3.9823e-06,  3.9116e-08,  2.4885e-06,  ...,  5.7742e-08,
+          2.3283e-08,  1.3299e-06],
+        [ 3.7719e-06,  9.1270e-08,  1.6272e-04,  ...,  2.9802e-08,
+         -1.0710e-07,  2.1100e-05],
+        ...,
+        [ 1.0431e-07,  2.5146e-08, -4.4489e-04,  ...,  1.1409e-06,
+          1.1362e-07, -5.4449e-05],
+        [ 3.6415e-07, -1.4063e-07,  8.0645e-05,  ..., -7.5996e-07,
+          1.2107e-07, -5.8953e-07],
+        [ 2.1700e-07,  3.9581e-07,  7.9274e-05,  ..., -5.7928e-06,
+          7.3574e-08,  9.1121e-06]], device='cuda:0')
+Epoch 113, bias, value: tensor([ 0.0310,  0.0103,  0.0178,  0.0235,  0.0311,  0.0004, -0.0050, -0.0009,
+         0.0044, -0.0356], device='cuda:0'), grad: tensor([ 2.5984e-06,  2.6487e-06,  2.0027e-04,  1.2910e-04,  1.1295e-05,
+         8.5682e-06,  1.9707e-06, -5.2786e-04,  8.8394e-05,  8.3566e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 112, time 217.79, cls_loss 0.0086 cls_loss_mapping 0.0111 cls_loss_causal 0.6142 re_mapping 0.0100 re_causal 0.0294 /// teacc 98.81 lr 0.00010000
+Epoch 114, weight, value: tensor([[-0.0887,  0.1333, -0.0281,  ...,  0.0019,  0.0578,  0.0174],
+        [ 0.0933, -0.0661,  0.0223,  ..., -0.0513, -0.0099, -0.0353],
+        [-0.0421, -0.0957,  0.0085,  ..., -0.0361,  0.0408, -0.1194],
+        ...,
+        [-0.1021, -0.0739,  0.0498,  ..., -0.0365, -0.0670, -0.0891],
+        [-0.0485, -0.0115,  0.0192,  ...,  0.0223, -0.0795,  0.0122],
+        [-0.0303, -0.0022,  0.0639,  ...,  0.1025, -0.0350, -0.0886]],
+       device='cuda:0'), grad: tensor([[ 2.4550e-06, -3.2112e-06,  1.8813e-07,  ...,  2.7474e-07,
+         -2.1979e-07,  3.9339e-06],
+        [ 1.0982e-05,  5.7463e-07,  5.3123e-06,  ...,  3.2596e-07,
+         -1.4342e-07,  2.0027e-05],
+        [ 4.6164e-05,  2.0210e-07,  2.2963e-05,  ...,  2.2817e-07,
+          7.2643e-08,  7.2658e-05],
+        ...,
+        [ 1.1221e-05,  3.7160e-07,  7.7307e-05,  ...,  1.7598e-05,
+          6.4261e-08,  2.9728e-05],
+        [-2.3913e-04,  1.6429e-06, -1.0449e-04,  ...,  2.0266e-06,
+          2.8592e-07, -3.7479e-04],
+        [ 9.5144e-06,  4.4480e-06, -6.2180e-04,  ..., -2.2388e-04,
+          2.5425e-07, -2.7105e-05]], device='cuda:0')
+Epoch 114, bias, value: tensor([ 0.0298,  0.0100,  0.0172,  0.0233,  0.0301,  0.0001, -0.0044, -0.0010,
+         0.0043, -0.0335], device='cuda:0'), grad: tensor([ 2.6435e-05,  6.0707e-05,  2.2197e-04,  3.4738e-04,  8.4209e-04,
+         2.9373e-04,  1.2189e-04,  2.4915e-04, -1.0977e-03, -1.0653e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 113, time 217.19, cls_loss 0.0072 cls_loss_mapping 0.0092 cls_loss_causal 0.5784 re_mapping 0.0097 re_causal 0.0284 /// teacc 98.76 lr 0.00010000
+Epoch 115, weight, value: tensor([[-0.0887,  0.1336, -0.0286,  ...,  0.0009,  0.0582,  0.0167],
+        [ 0.0934, -0.0664,  0.0222,  ..., -0.0514, -0.0093, -0.0372],
+        [-0.0419, -0.0966,  0.0085,  ..., -0.0363,  0.0408, -0.1205],
+        ...,
+        [-0.1022, -0.0751,  0.0503,  ..., -0.0371, -0.0676, -0.0884],
+        [-0.0488, -0.0113,  0.0197,  ...,  0.0226, -0.0797,  0.0127],
+        [-0.0311, -0.0025,  0.0641,  ...,  0.1035, -0.0354, -0.0893]],
+       device='cuda:0'), grad: tensor([[ 2.5555e-06, -1.6165e-04, -3.0026e-05,  ...,  5.0012e-07,
+         -1.1899e-05,  1.1520e-06],
+        [-5.3368e-03,  4.9733e-06, -4.0169e-03,  ...,  1.5497e-06,
+          1.6168e-06,  3.4925e-07],
+        [ 5.2719e-03,  1.6391e-05,  3.9864e-03,  ...,  7.1619e-07,
+         -7.8753e-06,  7.1861e-06],
+        ...,
+        [ 4.2409e-05,  2.9020e-06,  1.3590e-05,  ...,  1.2340e-06,
+          2.8890e-06,  1.4529e-06],
+        [ 5.3197e-06, -1.8217e-06, -6.5155e-06,  ..., -7.7300e-08,
+          4.9919e-07, -8.7544e-06],
+        [ 3.9302e-06,  2.5168e-05, -1.9586e-04,  ..., -4.7654e-05,
+         -2.2978e-05,  2.5257e-06]], device='cuda:0')
+Epoch 115, bias, value: tensor([ 0.0293,  0.0098,  0.0180,  0.0233,  0.0301,  0.0002, -0.0042, -0.0010,
+         0.0045, -0.0337], device='cuda:0'), grad: tensor([-1.9550e-04, -1.8707e-02,  1.8494e-02,  7.0214e-05,  3.1614e-04,
+        -1.0774e-05,  1.5497e-04,  1.5569e-04,  9.7975e-06, -2.9254e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 114, time 217.43, cls_loss 0.0067 cls_loss_mapping 0.0090 cls_loss_causal 0.5790 re_mapping 0.0094 re_causal 0.0273 /// teacc 98.73 lr 0.00010000
+Epoch 116, weight, value: tensor([[-0.0893,  0.1336, -0.0286,  ...,  0.0006,  0.0583,  0.0158],
+        [ 0.0945, -0.0664,  0.0229,  ..., -0.0515, -0.0082, -0.0377],
+        [-0.0429, -0.0974,  0.0089,  ..., -0.0359,  0.0408, -0.1220],
+        ...,
+        [-0.1029, -0.0760,  0.0494,  ..., -0.0374, -0.0684, -0.0892],
+        [-0.0488, -0.0108,  0.0217,  ...,  0.0230, -0.0796,  0.0139],
+        [-0.0325, -0.0029,  0.0636,  ...,  0.1036, -0.0359, -0.0901]],
+       device='cuda:0'), grad: tensor([[ 1.0550e-05, -1.2827e-04, -1.2106e-04,  ...,  8.6986e-07,
+          1.0595e-05,  1.7695e-08],
+        [-4.0054e-05, -7.4841e-06, -5.6058e-05,  ..., -2.2352e-07,
+         -3.9190e-05,  7.4506e-09],
+        [ 1.5041e-06,  6.1318e-06,  1.1958e-05,  ...,  1.7481e-06,
+          3.6135e-06,  1.6764e-08],
+        ...,
+        [ 2.4550e-06,  1.5628e-06,  3.0100e-06,  ...,  3.7812e-07,
+          2.3860e-06,  1.3970e-08],
+        [ 1.3672e-05,  5.3681e-06,  2.4050e-05,  ...,  1.1632e-06,
+          1.3232e-05,  1.8906e-07],
+        [ 1.7816e-06,  1.0341e-04,  9.7811e-05,  ..., -5.7444e-06,
+          2.0675e-06,  2.5146e-08]], device='cuda:0')
+Epoch 116, bias, value: tensor([ 0.0292,  0.0109,  0.0182,  0.0237,  0.0310,  0.0006, -0.0048, -0.0021,
+         0.0056, -0.0349], device='cuda:0'), grad: tensor([-3.8266e-04, -1.0842e-04,  4.1783e-05,  1.6183e-05, -1.1843e-04,
+         1.1325e-05,  5.5432e-05,  9.2924e-05,  5.5879e-05,  3.3617e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 115----------------------------------------------------
+epoch 115, time 218.18, cls_loss 0.0047 cls_loss_mapping 0.0075 cls_loss_causal 0.5779 re_mapping 0.0097 re_causal 0.0285 /// teacc 98.86 lr 0.00010000
+Epoch 117, weight, value: tensor([[-0.0895,  0.1340, -0.0285,  ...,  0.0003,  0.0584,  0.0158],
+        [ 0.0949, -0.0668,  0.0229,  ..., -0.0517, -0.0080, -0.0380],
+        [-0.0431, -0.0979,  0.0079,  ..., -0.0356,  0.0405, -0.1224],
+        ...,
+        [-0.1031, -0.0764,  0.0501,  ..., -0.0377, -0.0685, -0.0894],
+        [-0.0503, -0.0114,  0.0217,  ...,  0.0231, -0.0805,  0.0142],
+        [-0.0327, -0.0033,  0.0632,  ...,  0.1039, -0.0361, -0.0905]],
+       device='cuda:0'), grad: tensor([[ 3.1665e-08, -7.3295e-07,  2.8089e-06,  ...,  1.3737e-06,
+          2.7753e-07,  2.6077e-08],
+        [-5.9325e-07,  1.1176e-08,  7.1079e-06,  ...,  1.6950e-07,
+          5.7891e-06,  4.9360e-08],
+        [ 4.2841e-08,  8.7544e-08,  2.7508e-05,  ...,  2.9542e-06,
+          1.5926e-07,  3.1944e-07],
+        ...,
+        [ 6.1467e-08,  2.5146e-08, -6.0171e-05,  ...,  3.7104e-06,
+          1.4808e-07,  7.6368e-08],
+        [ 2.3656e-07,  2.1234e-07,  2.9370e-05,  ...,  5.7276e-07,
+          7.3574e-08,  3.1758e-07],
+        [ 1.4622e-07,  4.8336e-07, -1.9252e-05,  ..., -1.4886e-05,
+          2.7418e-06,  8.1025e-08]], device='cuda:0')
+Epoch 117, bias, value: tensor([ 0.0292,  0.0108,  0.0177,  0.0244,  0.0315,  0.0007, -0.0049, -0.0014,
+         0.0052, -0.0357], device='cuda:0'), grad: tensor([ 1.9312e-05,  5.4330e-05,  4.7266e-05,  5.6028e-05,  9.9465e-06,
+         1.8865e-05, -1.9930e-06,  8.0615e-06,  5.7667e-05, -2.6965e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 116, time 217.53, cls_loss 0.0042 cls_loss_mapping 0.0083 cls_loss_causal 0.5758 re_mapping 0.0094 re_causal 0.0281 /// teacc 98.84 lr 0.00010000
+Epoch 118, weight, value: tensor([[-0.0896,  0.1352, -0.0282,  ...,  0.0004,  0.0594,  0.0157],
+        [ 0.0955, -0.0667,  0.0229,  ..., -0.0519, -0.0079, -0.0379],
+        [-0.0435, -0.0988,  0.0074,  ..., -0.0357,  0.0404, -0.1229],
+        ...,
+        [-0.1033, -0.0771,  0.0506,  ..., -0.0379, -0.0685, -0.0892],
+        [-0.0507, -0.0115,  0.0210,  ...,  0.0230, -0.0807,  0.0143],
+        [-0.0327, -0.0036,  0.0637,  ...,  0.1051, -0.0364, -0.0908]],
+       device='cuda:0'), grad: tensor([[ 5.0291e-07, -2.0117e-06,  4.7963e-07,  ...,  2.2352e-08,
+          4.0531e-06,  3.4086e-07],
+        [-6.5938e-06,  3.6322e-08, -7.3276e-06,  ...,  1.2107e-08,
+          5.2303e-06,  2.4214e-08],
+        [ 1.2005e-06,  6.1654e-07,  4.8056e-06,  ...,  5.3551e-07,
+          9.5144e-06,  5.2899e-07],
+        ...,
+        [ 1.9111e-06,  4.6566e-08, -2.7537e-04,  ...,  1.7043e-07,
+          3.0175e-07, -1.8068e-07],
+        [ 7.5623e-07,  8.5682e-08,  4.5300e-06,  ..., -7.0129e-07,
+          1.0923e-05, -2.3749e-07],
+        [ 1.1399e-06,  1.5423e-06,  2.6083e-04,  ..., -2.0862e-07,
+          3.5018e-07,  1.8999e-07]], device='cuda:0')
+Epoch 118, bias, value: tensor([ 0.0298,  0.0109,  0.0173,  0.0239,  0.0310,  0.0006, -0.0052, -0.0008,
+         0.0045, -0.0355], device='cuda:0'), grad: tensor([ 2.3603e-05,  1.7032e-05,  5.4061e-05,  1.7345e-05,  5.8860e-05,
+         2.8670e-05, -2.5892e-04, -2.8515e-04,  6.8069e-05,  2.7680e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 117----------------------------------------------------
+epoch 117, time 218.42, cls_loss 0.0053 cls_loss_mapping 0.0071 cls_loss_causal 0.5844 re_mapping 0.0092 re_causal 0.0278 /// teacc 98.88 lr 0.00010000
+Epoch 119, weight, value: tensor([[-0.0901,  0.1355, -0.0283,  ..., -0.0002,  0.0596,  0.0154],
+        [ 0.0960, -0.0669,  0.0228,  ..., -0.0519, -0.0076, -0.0380],
+        [-0.0441, -0.0995,  0.0081,  ..., -0.0357,  0.0405, -0.1242],
+        ...,
+        [-0.1037, -0.0784,  0.0509,  ..., -0.0386, -0.0689, -0.0894],
+        [-0.0495, -0.0099,  0.0207,  ...,  0.0229, -0.0810,  0.0163],
+        [-0.0329, -0.0037,  0.0642,  ...,  0.1065, -0.0365, -0.0921]],
+       device='cuda:0'), grad: tensor([[ 8.1956e-08,  9.3132e-10,  2.5518e-07,  ...,  1.2014e-07,
+          6.6590e-07,  1.6419e-06],
+        [-1.5115e-06,  4.9360e-08, -1.5134e-06,  ...,  5.6811e-08,
+          1.9558e-08,  1.1828e-07],
+        [ 2.4401e-07, -4.0326e-07, -7.1060e-07,  ..., -9.3970e-07,
+          7.5530e-07,  2.0079e-06],
+        ...,
+        [ 4.5914e-07,  3.9116e-08,  1.6484e-07,  ...,  4.4331e-07,
+          3.7253e-09,  7.3574e-08],
+        [ 3.7998e-07,  7.8231e-08,  1.4510e-06,  ...,  1.1856e-06,
+          6.3796e-07,  1.6894e-06],
+        [ 5.2806e-07,  1.3970e-07, -3.2075e-06,  ..., -2.0862e-06,
+          2.2352e-08,  4.6939e-07]], device='cuda:0')
+Epoch 119, bias, value: tensor([ 0.0296,  0.0106,  0.0177,  0.0242,  0.0309,  0.0002, -0.0061, -0.0008,
+         0.0055, -0.0353], device='cuda:0'), grad: tensor([ 2.1547e-05, -1.0692e-06,  1.6674e-05, -5.5060e-06,  1.6302e-05,
+         2.0802e-05, -9.4235e-05,  6.3423e-07,  2.6628e-05, -1.7947e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 118----------------------------------------------------
+epoch 118, time 218.51, cls_loss 0.0037 cls_loss_mapping 0.0047 cls_loss_causal 0.5410 re_mapping 0.0089 re_causal 0.0267 /// teacc 98.94 lr 0.00010000
+Epoch 120, weight, value: tensor([[-0.0905,  0.1361, -0.0281,  ..., -0.0002,  0.0598,  0.0153],
+        [ 0.0971, -0.0670,  0.0233,  ..., -0.0517, -0.0076, -0.0381],
+        [-0.0444, -0.0998,  0.0081,  ..., -0.0359,  0.0405, -0.1246],
+        ...,
+        [-0.1052, -0.0788,  0.0507,  ..., -0.0387, -0.0689, -0.0894],
+        [-0.0492, -0.0098,  0.0211,  ...,  0.0234, -0.0812,  0.0169],
+        [-0.0339, -0.0041,  0.0641,  ...,  0.1066, -0.0365, -0.0930]],
+       device='cuda:0'), grad: tensor([[ 1.5065e-05,  3.3118e-06,  3.1799e-05,  ...,  6.0201e-06,
+          1.0453e-05,  2.0675e-07],
+        [-8.3864e-05, -4.0114e-05, -1.9968e-04,  ..., -3.5197e-05,
+         -5.8174e-05,  2.7753e-07],
+        [ 4.6194e-07,  4.4238e-07, -7.6257e-06,  ...,  2.2911e-07,
+         -2.3961e-05,  9.5181e-07],
+        ...,
+        [ 5.3048e-06,  2.6301e-06,  1.1146e-05,  ...,  2.2128e-06,
+          3.5912e-06,  4.9174e-07],
+        [ 4.7117e-05,  2.2665e-05,  1.1361e-04,  ...,  1.9595e-05,
+          3.2127e-05,  1.3448e-06],
+        [ 4.8876e-06,  3.7570e-06,  1.2398e-05,  ...,  5.8860e-07,
+          3.0696e-06,  1.1530e-06]], device='cuda:0')
+Epoch 120, bias, value: tensor([ 0.0299,  0.0110,  0.0178,  0.0241,  0.0311, -0.0003, -0.0059, -0.0007,
+         0.0058, -0.0360], device='cuda:0'), grad: tensor([ 5.9336e-05, -2.4140e-04, -4.1246e-04, -5.2005e-05,  2.6631e-04,
+         8.2612e-05,  8.8751e-05,  1.8328e-05,  1.6499e-04,  2.5168e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 119, time 217.68, cls_loss 0.0048 cls_loss_mapping 0.0068 cls_loss_causal 0.5884 re_mapping 0.0090 re_causal 0.0268 /// teacc 98.82 lr 0.00010000
+Epoch 121, weight, value: tensor([[-0.0918,  0.1364, -0.0281,  ..., -0.0006,  0.0598,  0.0150],
+        [ 0.0980, -0.0672,  0.0239,  ..., -0.0516, -0.0075, -0.0388],
+        [-0.0439, -0.1007,  0.0074,  ..., -0.0363,  0.0404, -0.1257],
+        ...,
+        [-0.1070, -0.0796,  0.0505,  ..., -0.0390, -0.0685, -0.0893],
+        [-0.0495, -0.0100,  0.0214,  ...,  0.0235, -0.0813,  0.0172],
+        [-0.0344, -0.0042,  0.0641,  ...,  0.1072, -0.0366, -0.0935]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-08, -2.4700e-04, -4.8548e-05,  ..., -1.3620e-05,
+          1.0245e-08, -8.2731e-05],
+        [-6.5099e-07,  1.1791e-06,  7.2643e-08,  ...,  1.6391e-07,
+          9.3132e-10,  4.0233e-07],
+        [ 3.0734e-07,  1.5860e-06,  1.6140e-06,  ...,  3.3341e-07,
+          2.7940e-09,  3.7532e-07],
+        ...,
+        [ 9.0338e-08,  2.6487e-06,  1.3404e-05,  ...,  5.9679e-06,
+          0.0000e+00,  6.4354e-07],
+        [ 9.3225e-07,  2.4401e-06,  6.5006e-07,  ...,  5.3737e-07,
+          8.3819e-09, -1.6764e-08],
+        [ 8.1025e-08,  3.6448e-05, -6.8322e-06,  ...,  5.8860e-07,
+          9.3132e-10,  2.9430e-06]], device='cuda:0')
+Epoch 121, bias, value: tensor([ 0.0298,  0.0115,  0.0179,  0.0223,  0.0308,  0.0003, -0.0057, -0.0002,
+         0.0058, -0.0362], device='cuda:0'), grad: tensor([-2.1374e-04,  7.4953e-06,  1.4327e-05,  2.1353e-05,  1.4138e-04,
+         2.3258e-04, -2.5296e-04,  1.9312e-05,  1.0245e-05,  2.0057e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 120, time 217.67, cls_loss 0.0049 cls_loss_mapping 0.0058 cls_loss_causal 0.5652 re_mapping 0.0089 re_causal 0.0265 /// teacc 98.80 lr 0.00010000
+Epoch 122, weight, value: tensor([[-0.0925,  0.1376, -0.0277,  ..., -0.0006,  0.0600,  0.0156],
+        [ 0.0991, -0.0676,  0.0233,  ..., -0.0517, -0.0076, -0.0390],
+        [-0.0453, -0.1025,  0.0059,  ..., -0.0364,  0.0404, -0.1261],
+        ...,
+        [-0.1064, -0.0810,  0.0509,  ..., -0.0395, -0.0686, -0.0894],
+        [-0.0497, -0.0100,  0.0213,  ...,  0.0237, -0.0814,  0.0172],
+        [-0.0349, -0.0047,  0.0645,  ...,  0.1073, -0.0366, -0.0939]],
+       device='cuda:0'), grad: tensor([[ 4.4610e-07, -6.6757e-05, -3.5405e-05,  ...,  4.3772e-08,
+          1.6764e-08, -4.2506e-06],
+        [-3.5644e-05,  9.5926e-07, -9.7632e-05,  ...,  1.4901e-08,
+          2.0396e-07,  9.4250e-07],
+        [ 1.5043e-05,  4.5784e-06,  1.1409e-06,  ...,  1.1455e-07,
+          2.6077e-08,  1.2413e-05],
+        ...,
+        [ 2.4259e-05,  1.2806e-06,  6.3181e-05,  ...,  1.1548e-07,
+          2.2538e-07,  4.8056e-07],
+        [ 2.0154e-06,  5.8413e-06,  4.3660e-06,  ..., -2.6729e-07,
+          5.5879e-09,  6.1281e-07],
+        [ 1.1362e-05,  3.9697e-05,  5.4628e-05,  ..., -7.7672e-07,
+          2.9709e-07,  8.7731e-07]], device='cuda:0')
+Epoch 122, bias, value: tensor([ 3.0598e-02,  1.1425e-02,  1.6771e-02,  2.2175e-02,  3.1160e-02,
+         4.9557e-07, -5.2412e-03,  2.3751e-04,  5.4332e-03, -3.6393e-02],
+       device='cuda:0'), grad: tensor([-8.7857e-05, -9.3043e-05,  9.1136e-05, -1.0574e-04, -2.8446e-05,
+         5.3495e-06,  1.4111e-05,  8.3327e-05,  1.8910e-05,  1.0216e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 121, time 217.82, cls_loss 0.0044 cls_loss_mapping 0.0083 cls_loss_causal 0.5672 re_mapping 0.0092 re_causal 0.0264 /// teacc 98.83 lr 0.00010000
+Epoch 123, weight, value: tensor([[-0.0928,  0.1380, -0.0276,  ..., -0.0008,  0.0604,  0.0152],
+        [ 0.0996, -0.0678,  0.0229,  ..., -0.0527, -0.0076, -0.0392],
+        [-0.0457, -0.1029,  0.0074,  ..., -0.0366,  0.0403, -0.1265],
+        ...,
+        [-0.1067, -0.0809,  0.0512,  ..., -0.0399, -0.0683, -0.0902],
+        [-0.0509, -0.0103,  0.0211,  ...,  0.0240, -0.0820,  0.0169],
+        [-0.0345, -0.0048,  0.0642,  ...,  0.1084, -0.0367, -0.0942]],
+       device='cuda:0'), grad: tensor([[ 1.0058e-07, -7.7114e-06,  1.7658e-06,  ...,  9.6485e-07,
+          1.4715e-07,  9.3319e-07],
+        [-4.8801e-07,  9.2201e-07,  1.4827e-06,  ...,  8.7731e-07,
+          5.5209e-06,  3.3099e-06],
+        [-1.9260e-06,  4.3362e-06,  1.1072e-05,  ...,  6.1244e-06,
+         -1.0602e-05,  3.4645e-06],
+        ...,
+        [ 1.3486e-06,  1.9073e-06,  1.4827e-05,  ...,  1.6205e-06,
+          4.2319e-06,  1.5542e-05],
+        [ 6.5565e-07, -1.3418e-05, -4.1366e-05,  ..., -1.7241e-05,
+          2.4959e-07, -1.0103e-05],
+        [ 5.8860e-07,  7.7784e-06, -1.4044e-06,  ...,  2.9840e-06,
+          5.2154e-08,  6.5044e-06]], device='cuda:0')
+Epoch 123, bias, value: tensor([ 0.0306,  0.0111,  0.0176,  0.0225,  0.0314,  0.0007, -0.0055,  0.0002,
+         0.0048, -0.0369], device='cuda:0'), grad: tensor([-7.3537e-06,  4.1902e-05, -7.4990e-06, -1.4782e-05, -1.8752e-04,
+         3.5465e-05,  1.1563e-05,  1.6284e-04, -7.0453e-05,  3.5465e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 122, time 217.51, cls_loss 0.0057 cls_loss_mapping 0.0084 cls_loss_causal 0.5972 re_mapping 0.0082 re_causal 0.0243 /// teacc 98.92 lr 0.00010000
+Epoch 124, weight, value: tensor([[-0.0940,  0.1365, -0.0277,  ..., -0.0010,  0.0606,  0.0153],
+        [ 0.1006, -0.0665,  0.0229,  ..., -0.0531, -0.0073, -0.0388],
+        [-0.0459, -0.1034,  0.0106,  ..., -0.0366,  0.0405, -0.1262],
+        ...,
+        [-0.1071, -0.0823,  0.0516,  ..., -0.0398, -0.0685, -0.0905],
+        [-0.0519, -0.0104,  0.0183,  ...,  0.0246, -0.0821,  0.0170],
+        [-0.0348, -0.0051,  0.0642,  ...,  0.1088, -0.0368, -0.0948]],
+       device='cuda:0'), grad: tensor([[ 3.4254e-06, -4.6268e-06,  1.9670e-06,  ...,  2.7381e-07,
+          1.8626e-09,  1.1735e-06],
+        [-1.6129e-04, -9.4354e-05, -3.2973e-04,  ..., -2.1622e-05,
+         -3.3528e-08, -9.3997e-05],
+        [ 2.1234e-06,  1.0788e-05,  4.9442e-05,  ...,  4.7460e-06,
+          9.3132e-09,  6.0610e-06],
+        ...,
+        [ 6.7502e-06,  4.4666e-06,  1.3821e-05,  ...,  1.1530e-06,
+          9.3132e-09,  1.1414e-05],
+        [ 1.1462e-04,  5.7936e-05,  1.8418e-04,  ...,  1.0565e-05,
+          1.8626e-09,  6.7890e-05],
+        [ 2.8923e-05,  1.8656e-05,  5.4568e-05,  ...,  8.0094e-07,
+          3.7253e-09,  1.6227e-05]], device='cuda:0')
+Epoch 124, bias, value: tensor([ 0.0292,  0.0111,  0.0206,  0.0231,  0.0318, -0.0003, -0.0040,  0.0002,
+         0.0016, -0.0374], device='cuda:0'), grad: tensor([ 1.2770e-05, -5.0449e-04, -8.3983e-05, -9.0748e-06,  2.0444e-05,
+         8.5458e-06, -1.1221e-05,  4.0591e-05,  4.3392e-04,  9.1791e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 123, time 217.56, cls_loss 0.0036 cls_loss_mapping 0.0069 cls_loss_causal 0.5347 re_mapping 0.0086 re_causal 0.0250 /// teacc 98.86 lr 0.00010000
+Epoch 125, weight, value: tensor([[-0.0937,  0.1372, -0.0274,  ..., -0.0011,  0.0607,  0.0155],
+        [ 0.1011, -0.0676,  0.0228,  ..., -0.0532, -0.0073, -0.0397],
+        [-0.0463, -0.1047,  0.0104,  ..., -0.0372,  0.0405, -0.1273],
+        ...,
+        [-0.1075, -0.0838,  0.0517,  ..., -0.0406, -0.0685, -0.0907],
+        [-0.0518, -0.0102,  0.0188,  ...,  0.0250, -0.0821,  0.0179],
+        [-0.0342, -0.0051,  0.0644,  ...,  0.1098, -0.0367, -0.0943]],
+       device='cuda:0'), grad: tensor([[ 3.3528e-08, -2.1290e-06, -1.3784e-06,  ...,  7.4506e-09,
+          1.1921e-07,  5.7742e-08],
+        [-5.8487e-07,  3.3528e-08,  7.5065e-07,  ...,  3.7253e-08,
+          1.8626e-08,  2.3842e-07],
+        [ 1.8626e-08,  7.7859e-07, -1.6242e-05,  ...,  1.6764e-07,
+          8.3819e-08, -3.2596e-06],
+        ...,
+        [ 3.6880e-07,  1.6950e-07,  5.6252e-06,  ...,  1.6578e-06,
+          1.8626e-09,  4.4145e-07],
+        [ 1.6764e-07, -4.6007e-07,  1.0125e-05,  ...,  1.5832e-07,
+          6.3330e-08,  2.0619e-06],
+        [ 1.6764e-07,  1.7975e-06, -2.0135e-06,  ..., -3.1237e-06,
+          1.1176e-08,  1.0990e-07]], device='cuda:0')
+Epoch 125, bias, value: tensor([ 0.0295,  0.0110,  0.0205,  0.0233,  0.0315, -0.0011, -0.0039,  0.0002,
+         0.0018, -0.0372], device='cuda:0'), grad: tensor([-9.4995e-07,  4.1015e-06, -7.8619e-05,  1.2539e-05,  2.1346e-06,
+        -6.2771e-07, -1.3046e-05,  2.7686e-05,  4.1425e-05,  5.3048e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 124, time 217.53, cls_loss 0.0051 cls_loss_mapping 0.0074 cls_loss_causal 0.5865 re_mapping 0.0090 re_causal 0.0261 /// teacc 98.80 lr 0.00010000
+Epoch 126, weight, value: tensor([[-0.0941,  0.1378, -0.0273,  ..., -0.0015,  0.0625,  0.0159],
+        [ 0.1020, -0.0693,  0.0230,  ..., -0.0535, -0.0074, -0.0404],
+        [-0.0468, -0.1058,  0.0103,  ..., -0.0373,  0.0406, -0.1283],
+        ...,
+        [-0.1092, -0.0850,  0.0514,  ..., -0.0418, -0.0689, -0.0908],
+        [-0.0553, -0.0131,  0.0178,  ...,  0.0258, -0.0852,  0.0161],
+        [-0.0350, -0.0052,  0.0652,  ...,  0.1110, -0.0362, -0.0950]],
+       device='cuda:0'), grad: tensor([[ 2.6450e-07, -6.5826e-06, -9.7603e-07,  ...,  1.3784e-06,
+          1.1325e-06,  1.9930e-07],
+        [-1.5348e-06,  2.3283e-07,  1.9744e-06,  ...,  4.2841e-08,
+          2.5891e-07,  9.1270e-08],
+        [ 3.0175e-07,  6.5006e-07,  1.9953e-05,  ...,  2.3283e-07,
+          1.8030e-05,  3.4086e-07],
+        ...,
+        [ 2.7940e-07,  8.5495e-07, -2.7239e-05,  ...,  1.1511e-06,
+         -1.1519e-05,  1.8254e-07],
+        [ 8.0094e-08, -7.4320e-07,  9.1270e-08,  ..., -3.7253e-07,
+          1.9558e-07, -1.3057e-06],
+        [ 1.4734e-06,  7.0184e-06, -2.1290e-06,  ..., -2.9076e-06,
+         -3.2596e-07,  1.1865e-06]], device='cuda:0')
+Epoch 126, bias, value: tensor([ 0.0298,  0.0113,  0.0204,  0.0229,  0.0309,  0.0012, -0.0044, -0.0001,
+         0.0002, -0.0366], device='cuda:0'), grad: tensor([ 2.5760e-06,  3.9041e-06,  1.0866e-04,  1.6704e-05,  2.2113e-05,
+         9.8348e-07, -7.9036e-05, -8.8394e-05,  1.6354e-06,  1.0848e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 125, time 217.66, cls_loss 0.0047 cls_loss_mapping 0.0078 cls_loss_causal 0.5673 re_mapping 0.0086 re_causal 0.0253 /// teacc 98.82 lr 0.00010000
+Epoch 127, weight, value: tensor([[-0.0951,  0.1383, -0.0272,  ..., -0.0016,  0.0632,  0.0149],
+        [ 0.1019, -0.0707,  0.0228,  ..., -0.0542, -0.0076, -0.0411],
+        [-0.0472, -0.1067,  0.0101,  ..., -0.0377,  0.0407, -0.1306],
+        ...,
+        [-0.1096, -0.0858,  0.0513,  ..., -0.0428, -0.0691, -0.0910],
+        [-0.0552, -0.0130,  0.0181,  ...,  0.0254, -0.0852,  0.0165],
+        [-0.0349, -0.0055,  0.0663,  ...,  0.1131, -0.0363, -0.0957]],
+       device='cuda:0'), grad: tensor([[ 2.0377e-06,  1.1977e-06,  3.4012e-06,  ...,  1.1753e-06,
+          5.4948e-07,  9.7789e-07],
+        [ 9.9719e-05,  4.0233e-07,  2.2745e-04,  ...,  1.0586e-04,
+          1.3970e-07,  1.4529e-07],
+        [ 4.1798e-06,  6.5193e-08,  8.7172e-06,  ...,  3.6806e-06,
+          3.7253e-09,  7.7114e-07],
+        ...,
+        [ 3.6061e-05,  6.8918e-08,  8.4639e-05,  ...,  3.1412e-05,
+          1.3039e-08,  2.1979e-07],
+        [ 2.6867e-05,  1.5065e-05,  5.8472e-05,  ...,  2.5779e-05,
+          5.2825e-06,  9.0227e-06],
+        [-1.9884e-04, -1.1716e-06, -4.5681e-04,  ..., -1.9431e-04,
+          8.0094e-08, -3.7923e-06]], device='cuda:0')
+Epoch 127, bias, value: tensor([ 0.0295,  0.0110,  0.0199,  0.0235,  0.0304,  0.0010, -0.0034, -0.0003,
+         0.0004, -0.0360], device='cuda:0'), grad: tensor([ 8.7544e-06,  3.4142e-04,  1.6287e-05,  1.1504e-05,  7.9036e-05,
+         5.5504e-04, -5.7602e-04,  1.1843e-04,  1.1343e-04, -6.6900e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 126, time 217.55, cls_loss 0.0043 cls_loss_mapping 0.0059 cls_loss_causal 0.6163 re_mapping 0.0083 re_causal 0.0264 /// teacc 98.83 lr 0.00010000
+Epoch 128, weight, value: tensor([[-0.0953,  0.1390, -0.0271,  ..., -0.0016,  0.0636,  0.0152],
+        [ 0.1024, -0.0708,  0.0225,  ..., -0.0548, -0.0074, -0.0414],
+        [-0.0478, -0.1062,  0.0100,  ..., -0.0374,  0.0407, -0.1308],
+        ...,
+        [-0.1099, -0.0865,  0.0505,  ..., -0.0443, -0.0691, -0.0911],
+        [-0.0552, -0.0132,  0.0181,  ...,  0.0255, -0.0853,  0.0166],
+        [-0.0352, -0.0059,  0.0681,  ...,  0.1137, -0.0363, -0.0965]],
+       device='cuda:0'), grad: tensor([[ 1.3784e-07, -4.6566e-06, -9.6299e-07,  ...,  1.4715e-07,
+         -6.7055e-08,  1.3039e-07],
+        [-5.3495e-06,  5.0105e-07,  2.4602e-05,  ...,  1.4529e-07,
+          7.4506e-09,  1.8626e-07],
+        [ 2.4773e-07,  1.0915e-06,  8.0764e-06,  ...,  3.0361e-07,
+         -3.3528e-08,  6.4448e-07],
+        ...,
+        [ 8.2888e-07,  2.7195e-07, -8.1480e-05,  ...,  2.7381e-07,
+          2.0489e-08,  1.3039e-07],
+        [ 1.3616e-06, -2.4997e-06,  5.4240e-06,  ..., -1.4920e-06,
+          5.5879e-09, -4.2729e-06],
+        [ 1.9632e-06,  2.2370e-06,  9.7305e-06,  ..., -3.0808e-06,
+          2.6077e-08,  7.6927e-07]], device='cuda:0')
+Epoch 128, bias, value: tensor([ 0.0299,  0.0105,  0.0198,  0.0234,  0.0307,  0.0007, -0.0030, -0.0008,
+         0.0002, -0.0351], device='cuda:0'), grad: tensor([ 2.2408e-06,  6.0350e-05,  1.4074e-05,  3.6091e-05,  1.9789e-05,
+         5.6773e-06, -3.8557e-07, -1.7524e-04,  1.6809e-05,  2.0415e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 127, time 217.40, cls_loss 0.0050 cls_loss_mapping 0.0062 cls_loss_causal 0.5654 re_mapping 0.0089 re_causal 0.0257 /// teacc 98.75 lr 0.00010000
+Epoch 129, weight, value: tensor([[-0.0958,  0.1395, -0.0268,  ..., -0.0016,  0.0640,  0.0151],
+        [ 0.1026, -0.0710,  0.0220,  ..., -0.0554, -0.0075, -0.0428],
+        [-0.0475, -0.1071,  0.0099,  ..., -0.0375,  0.0408, -0.1316],
+        ...,
+        [-0.1104, -0.0878,  0.0512,  ..., -0.0445, -0.0692, -0.0908],
+        [-0.0553, -0.0130,  0.0184,  ...,  0.0259, -0.0854,  0.0169],
+        [-0.0362, -0.0066,  0.0679,  ...,  0.1137, -0.0365, -0.0975]],
+       device='cuda:0'), grad: tensor([[ 2.5462e-06,  7.4506e-09,  1.3411e-07,  ...,  1.4901e-08,
+          1.8626e-09,  2.6524e-06],
+        [ 8.9526e-05,  1.8626e-08, -2.5127e-06,  ...,  4.4703e-08,
+          7.4506e-09,  9.4712e-05],
+        [ 8.7693e-06,  1.2275e-06,  3.9995e-05,  ...,  1.6659e-05,
+         -4.8429e-08,  1.9133e-05],
+        ...,
+        [ 9.9689e-06,  1.6764e-08,  5.4576e-07,  ...,  2.9802e-08,
+          2.6077e-08,  1.1355e-05],
+        [ 2.1353e-05, -1.5404e-06, -4.0889e-05,  ..., -1.7270e-05,
+          3.7253e-09,  1.3322e-05],
+        [ 4.8399e-05,  2.6077e-08,  5.3085e-07,  ...,  1.4901e-08,
+          0.0000e+00,  4.9561e-05]], device='cuda:0')
+Epoch 129, bias, value: tensor([ 0.0303,  0.0097,  0.0201,  0.0233,  0.0314,  0.0011, -0.0032, -0.0003,
+         0.0003, -0.0362], device='cuda:0'), grad: tensor([ 7.8678e-06,  2.6703e-04,  1.1528e-04, -7.9393e-04,  2.4848e-06,
+         2.4962e-04,  3.2447e-06,  2.8759e-05, -2.2933e-05,  1.4234e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 128, time 217.79, cls_loss 0.0054 cls_loss_mapping 0.0066 cls_loss_causal 0.5625 re_mapping 0.0087 re_causal 0.0250 /// teacc 98.88 lr 0.00010000
+Epoch 130, weight, value: tensor([[-0.0962,  0.1407, -0.0263,  ..., -0.0016,  0.0659,  0.0156],
+        [ 0.1044, -0.0728,  0.0221,  ..., -0.0557, -0.0084, -0.0437],
+        [-0.0481, -0.1082,  0.0100,  ..., -0.0376,  0.0407, -0.1323],
+        ...,
+        [-0.1125, -0.0889,  0.0512,  ..., -0.0453, -0.0684, -0.0904],
+        [-0.0555, -0.0130,  0.0187,  ...,  0.0262, -0.0857,  0.0173],
+        [-0.0358, -0.0070,  0.0678,  ...,  0.1146, -0.0370, -0.0994]],
+       device='cuda:0'), grad: tensor([[ 2.6822e-07,  4.6566e-08,  5.0105e-07,  ...,  2.7940e-08,
+          3.7253e-09,  2.5518e-07],
+        [-3.9451e-06,  3.1665e-08, -4.2915e-06,  ...,  2.9802e-08,
+          0.0000e+00,  8.5682e-08],
+        [ 2.3283e-07,  2.8312e-07,  7.6070e-06,  ...,  6.1467e-08,
+          0.0000e+00,  5.4203e-07],
+        ...,
+        [ 1.5777e-06,  1.4901e-08, -1.3083e-05,  ...,  8.5682e-08,
+          0.0000e+00,  1.4529e-07],
+        [ 5.6624e-07, -6.4634e-07, -7.6555e-07,  ..., -9.4995e-08,
+          7.4506e-09, -1.6596e-06],
+        [ 8.9779e-07,  1.0245e-07,  2.2966e-06,  ..., -4.9360e-07,
+          0.0000e+00, -5.3085e-07]], device='cuda:0')
+Epoch 130, bias, value: tensor([ 0.0317,  0.0096,  0.0202,  0.0223,  0.0313,  0.0016, -0.0041,  0.0002,
+         0.0005, -0.0371], device='cuda:0'), grad: tensor([ 5.4315e-06, -1.0449e-06,  2.6733e-05,  4.2841e-06, -1.7598e-05,
+         1.0401e-05, -1.2517e-05, -5.6356e-05,  2.4177e-06,  3.8117e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 129----------------------------------------------------
+epoch 129, time 218.45, cls_loss 0.0033 cls_loss_mapping 0.0062 cls_loss_causal 0.5510 re_mapping 0.0088 re_causal 0.0257 /// teacc 98.95 lr 0.00010000
+Epoch 131, weight, value: tensor([[-0.0965,  0.1410, -0.0262,  ..., -0.0017,  0.0660,  0.0155],
+        [ 0.1051, -0.0755,  0.0217,  ..., -0.0558, -0.0084, -0.0465],
+        [-0.0483, -0.1088,  0.0098,  ..., -0.0379,  0.0408, -0.1327],
+        ...,
+        [-0.1137, -0.0892,  0.0508,  ..., -0.0457, -0.0684, -0.0906],
+        [-0.0553, -0.0119,  0.0203,  ...,  0.0263, -0.0856,  0.0194],
+        [-0.0349, -0.0071,  0.0680,  ...,  0.1152, -0.0371, -0.0995]],
+       device='cuda:0'), grad: tensor([[ 5.2340e-07, -4.5113e-06, -7.7114e-07,  ...,  1.8999e-07,
+          1.1176e-08,  8.9407e-07],
+        [-2.2706e-06,  4.7497e-07, -4.4703e-07,  ...,  1.8068e-07,
+          3.7253e-09,  5.1409e-07],
+        [-1.0133e-06,  9.5554e-07, -1.4007e-06,  ...,  7.8231e-08,
+          0.0000e+00,  6.2771e-07],
+        ...,
+        [ 1.3374e-06,  2.2445e-06,  3.7730e-05,  ...,  5.3719e-06,
+          0.0000e+00,  1.6391e-05],
+        [ 1.1668e-05,  9.7454e-06, -7.1704e-05,  ..., -9.3281e-06,
+          3.5949e-07, -1.7568e-05],
+        [ 3.2652e-06,  2.3916e-06, -3.1106e-07,  ..., -8.2925e-06,
+          3.7253e-09,  4.8056e-06]], device='cuda:0')
+Epoch 131, bias, value: tensor([ 3.1801e-02,  9.1226e-03,  2.0107e-02,  2.2013e-02,  3.1120e-02,
+         1.2966e-03, -4.1607e-03, -4.0313e-05,  1.9493e-03, -3.7051e-02],
+       device='cuda:0'), grad: tensor([-2.8703e-06,  2.0526e-06, -9.6709e-06, -6.3404e-06,  6.9737e-05,
+         1.8731e-05, -2.4244e-05,  5.4538e-05, -7.4506e-05, -2.7150e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 130, time 217.59, cls_loss 0.0049 cls_loss_mapping 0.0078 cls_loss_causal 0.5889 re_mapping 0.0088 re_causal 0.0256 /// teacc 98.82 lr 0.00010000
+Epoch 132, weight, value: tensor([[-0.0970,  0.1413, -0.0262,  ..., -0.0017,  0.0662,  0.0154],
+        [ 0.1042, -0.0755,  0.0218,  ..., -0.0558, -0.0076, -0.0466],
+        [-0.0469, -0.1088,  0.0097,  ..., -0.0382,  0.0405, -0.1322],
+        ...,
+        [-0.1138, -0.0898,  0.0507,  ..., -0.0461, -0.0685, -0.0908],
+        [-0.0554, -0.0116,  0.0199,  ...,  0.0266, -0.0856,  0.0194],
+        [-0.0356, -0.0073,  0.0689,  ...,  0.1157, -0.0371, -0.0999]],
+       device='cuda:0'), grad: tensor([[ 8.1398e-07,  4.5598e-06, -5.7928e-07,  ..., -3.7253e-08,
+         -1.2852e-07,  3.5763e-07],
+        [-3.2429e-06,  1.5274e-07, -3.5260e-06,  ...,  3.7253e-09,
+         -2.4214e-07,  1.6205e-07],
+        [ 1.2275e-06,  1.6317e-06,  2.2929e-06,  ...,  5.2154e-08,
+          1.6950e-07,  1.3150e-06],
+        ...,
+        [ 1.0282e-06,  2.0862e-07,  7.6555e-07,  ...,  8.5682e-08,
+          4.0978e-08,  4.1351e-07],
+        [ 1.4752e-05, -3.4459e-07, -5.0478e-06,  ..., -3.5390e-08,
+          1.3225e-07,  2.1726e-05],
+        [ 3.3341e-06,  2.6654e-06,  7.5996e-07,  ..., -3.0547e-07,
+          1.3411e-07,  5.8711e-06]], device='cuda:0')
+Epoch 132, bias, value: tensor([ 0.0320,  0.0085,  0.0212,  0.0221,  0.0309,  0.0012, -0.0044, -0.0003,
+         0.0014, -0.0366], device='cuda:0'), grad: tensor([ 1.3277e-05, -4.2915e-06,  8.9109e-06, -6.5446e-05, -2.4021e-05,
+         3.3945e-05, -2.9698e-05,  2.3711e-06,  3.1263e-05,  3.3557e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 131, time 217.48, cls_loss 0.0041 cls_loss_mapping 0.0067 cls_loss_causal 0.5377 re_mapping 0.0083 re_causal 0.0248 /// teacc 98.87 lr 0.00010000
+Epoch 133, weight, value: tensor([[-0.0972,  0.1414, -0.0262,  ..., -0.0018,  0.0662,  0.0151],
+        [ 0.1046, -0.0752,  0.0221,  ..., -0.0559, -0.0074, -0.0466],
+        [-0.0473, -0.1075,  0.0107,  ..., -0.0360,  0.0404, -0.1304],
+        ...,
+        [-0.1143, -0.0908,  0.0510,  ..., -0.0463, -0.0686, -0.0913],
+        [-0.0551, -0.0117,  0.0186,  ...,  0.0241, -0.0857,  0.0188],
+        [-0.0360, -0.0073,  0.0692,  ...,  0.1166, -0.0369, -0.1003]],
+       device='cuda:0'), grad: tensor([[ 1.4175e-06, -1.3150e-05, -9.1828e-07,  ...,  3.1665e-08,
+         -3.7253e-08,  2.0675e-06],
+        [-1.7568e-05, -1.7714e-06, -1.5318e-05,  ...,  5.5879e-09,
+         -6.7018e-06,  8.4750e-07],
+        [ 1.5706e-05,  3.6694e-06,  1.8075e-05,  ...,  1.2983e-06,
+          5.8003e-06,  3.7719e-06],
+        ...,
+        [-7.5281e-05,  1.4901e-07, -1.2890e-06,  ...,  2.6077e-08,
+          7.2643e-08, -2.1660e-04],
+        [ 5.7742e-07, -5.8301e-07, -2.5537e-06,  ..., -1.6149e-06,
+          1.3784e-07, -4.4666e-06],
+        [ 3.9637e-06,  1.8235e-06,  4.9591e-05,  ..., -1.8068e-07,
+          5.4017e-08,  1.0386e-05]], device='cuda:0')
+Epoch 133, bias, value: tensor([ 0.0319,  0.0087,  0.0223,  0.0220,  0.0305,  0.0012, -0.0044, -0.0002,
+         0.0004, -0.0365], device='cuda:0'), grad: tensor([-1.0341e-05, -3.3200e-05,  4.5300e-05,  1.9953e-05,  1.3590e-04,
+         7.2718e-05,  1.9625e-05, -9.8324e-04, -1.3057e-06,  7.3433e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 132----------------------------------------------------
+epoch 132, time 218.39, cls_loss 0.0056 cls_loss_mapping 0.0080 cls_loss_causal 0.5643 re_mapping 0.0087 re_causal 0.0249 /// teacc 99.06 lr 0.00010000
+Epoch 134, weight, value: tensor([[-0.0978,  0.1421, -0.0260,  ..., -0.0019,  0.0686,  0.0148],
+        [ 0.1051, -0.0765,  0.0217,  ..., -0.0561, -0.0106, -0.0466],
+        [-0.0478, -0.1086,  0.0102,  ..., -0.0361,  0.0399, -0.1307],
+        ...,
+        [-0.1148, -0.0921,  0.0518,  ..., -0.0468, -0.0681, -0.0932],
+        [-0.0552, -0.0112,  0.0189,  ...,  0.0244, -0.0858,  0.0190],
+        [-0.0369, -0.0079,  0.0686,  ...,  0.1175, -0.0372, -0.1008]],
+       device='cuda:0'), grad: tensor([[ 2.9746e-06,  1.5777e-06, -1.0487e-06,  ...,  1.4901e-08,
+          1.4901e-07,  1.3839e-06],
+        [ 4.6119e-06,  3.4720e-06,  1.4231e-06,  ...,  9.6858e-08,
+          5.5879e-08,  2.1383e-06],
+        [-5.4389e-07,  2.1402e-06,  2.7530e-06,  ...,  2.0489e-07,
+         -9.6411e-06,  3.5539e-06],
+        ...,
+        [ 4.8839e-06,  3.3472e-06, -1.3579e-06,  ...,  4.2841e-08,
+          9.1493e-06,  3.1069e-06],
+        [ 4.9210e-04,  8.7643e-04,  1.8448e-05,  ..., -4.7870e-07,
+          1.6391e-07,  1.9801e-04],
+        [ 4.9844e-06,  6.5640e-06,  8.0280e-07,  ..., -1.0990e-07,
+          1.6764e-08,  3.1237e-06]], device='cuda:0')
+Epoch 134, bias, value: tensor([ 0.0326,  0.0081,  0.0218,  0.0234,  0.0323,  0.0009, -0.0040, -0.0003,
+         0.0007, -0.0384], device='cuda:0'), grad: tensor([ 6.7353e-06,  1.4499e-05, -3.2932e-05,  1.9267e-05,  9.6038e-06,
+         3.8099e-04, -2.3022e-03,  4.3303e-05,  1.8435e-03,  1.5810e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 133, time 217.80, cls_loss 0.0037 cls_loss_mapping 0.0060 cls_loss_causal 0.5914 re_mapping 0.0085 re_causal 0.0248 /// teacc 98.84 lr 0.00010000
+Epoch 135, weight, value: tensor([[-0.0985,  0.1427, -0.0267,  ..., -0.0026,  0.0702,  0.0140],
+        [ 0.1058, -0.0761,  0.0228,  ..., -0.0563, -0.0107, -0.0467],
+        [-0.0480, -0.1100,  0.0097,  ..., -0.0365,  0.0399, -0.1312],
+        ...,
+        [-0.1161, -0.0929,  0.0511,  ..., -0.0471, -0.0680, -0.0936],
+        [-0.0552, -0.0105,  0.0196,  ...,  0.0249, -0.0857,  0.0195],
+        [-0.0378, -0.0082,  0.0690,  ...,  0.1183, -0.0374, -0.1013]],
+       device='cuda:0'), grad: tensor([[ 2.6878e-06,  2.2054e-06,  1.1958e-06,  ...,  5.1036e-07,
+          1.2424e-06,  1.7844e-06],
+        [ 8.5682e-07,  8.7544e-07,  2.3134e-06,  ...,  2.8498e-07,
+          8.9779e-07,  7.3574e-07],
+        [ 2.1942e-06,  9.0748e-06,  2.2650e-05,  ...,  1.7323e-07,
+          8.6054e-07,  4.4443e-06],
+        ...,
+        [ 8.4192e-07,  5.6624e-07, -2.4423e-05,  ...,  4.4331e-07,
+          3.8929e-07, -5.6438e-07],
+        [-2.7921e-06, -7.0572e-05, -1.7494e-05,  ...,  3.0957e-06,
+         -1.6794e-05, -1.4722e-05],
+        [ 2.8033e-06,  1.6838e-06, -1.1839e-05,  ..., -1.8049e-06,
+          1.6764e-07,  1.5181e-06]], device='cuda:0')
+Epoch 135, bias, value: tensor([ 0.0330,  0.0089,  0.0213,  0.0240,  0.0323,  0.0002, -0.0046, -0.0010,
+         0.0013, -0.0384], device='cuda:0'), grad: tensor([ 1.3098e-05,  1.0289e-05,  5.2422e-05,  5.0873e-05,  1.2353e-05,
+        -1.1241e-04,  1.4818e-04, -3.8415e-05, -9.1672e-05, -4.4703e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 134, time 217.52, cls_loss 0.0044 cls_loss_mapping 0.0061 cls_loss_causal 0.5579 re_mapping 0.0087 re_causal 0.0248 /// teacc 98.77 lr 0.00010000
+Epoch 136, weight, value: tensor([[-0.0989,  0.1420, -0.0271,  ..., -0.0030,  0.0703,  0.0135],
+        [ 0.1068, -0.0762,  0.0236,  ..., -0.0564, -0.0106, -0.0468],
+        [-0.0482, -0.1107,  0.0096,  ..., -0.0366,  0.0399, -0.1315],
+        ...,
+        [-0.1178, -0.0944,  0.0505,  ..., -0.0474, -0.0680, -0.0937],
+        [-0.0553, -0.0104,  0.0197,  ...,  0.0249, -0.0859,  0.0197],
+        [-0.0372, -0.0078,  0.0693,  ...,  0.1192, -0.0375, -0.1014]],
+       device='cuda:0'), grad: tensor([[ 5.2527e-07, -2.6464e-05, -2.2739e-05,  ...,  7.4506e-09,
+          4.8429e-08,  9.6858e-08],
+        [ 7.4506e-09,  2.9430e-07,  5.5730e-06,  ...,  3.7253e-09,
+          7.3947e-07,  5.5321e-07],
+        [ 2.7250e-06,  8.3074e-07,  5.0217e-06,  ...,  5.5879e-08,
+          7.4506e-07,  6.0350e-07],
+        ...,
+        [-1.2621e-05,  3.9488e-07, -3.0071e-05,  ...,  1.3039e-08,
+          2.1234e-07, -1.1399e-06],
+        [ 5.7891e-06, -1.4901e-08,  5.8673e-07,  ..., -2.4214e-07,
+          1.6764e-08,  6.8471e-06],
+        [ 3.3900e-06,  2.3171e-05,  1.9133e-05,  ..., -4.0978e-07,
+          1.1921e-07,  8.7544e-07]], device='cuda:0')
+Epoch 136, bias, value: tensor([ 0.0320,  0.0094,  0.0212,  0.0238,  0.0324,  0.0004, -0.0033, -0.0012,
+         0.0013, -0.0385], device='cuda:0'), grad: tensor([-8.1897e-05,  1.4082e-05,  1.4380e-05,  1.7330e-05, -1.2275e-06,
+        -2.1588e-06,  4.8354e-06, -5.3734e-05,  1.4961e-05,  7.3433e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 135, time 217.79, cls_loss 0.0041 cls_loss_mapping 0.0051 cls_loss_causal 0.5460 re_mapping 0.0084 re_causal 0.0245 /// teacc 98.84 lr 0.00010000
+Epoch 137, weight, value: tensor([[-0.0996,  0.1418, -0.0273,  ..., -0.0032,  0.0707,  0.0132],
+        [ 0.1071, -0.0762,  0.0234,  ..., -0.0564, -0.0106, -0.0469],
+        [-0.0485, -0.1118,  0.0093,  ..., -0.0367,  0.0401, -0.1318],
+        ...,
+        [-0.1176, -0.0965,  0.0503,  ..., -0.0480, -0.0681, -0.0937],
+        [-0.0555, -0.0102,  0.0200,  ...,  0.0252, -0.0858,  0.0199],
+        [-0.0372, -0.0085,  0.0709,  ...,  0.1199, -0.0379, -0.1000]],
+       device='cuda:0'), grad: tensor([[ 6.1281e-07,  8.2143e-07,  2.4140e-06,  ...,  2.2110e-06,
+          4.9919e-07,  1.4380e-06],
+        [-7.9535e-07,  7.9907e-07,  5.3272e-06,  ...,  6.5938e-07,
+          3.3528e-08,  9.0152e-07],
+        [ 4.4703e-07,  3.1829e-05,  1.2302e-04,  ...,  3.1501e-05,
+         -4.6939e-07,  3.5465e-05],
+        ...,
+        [ 3.8370e-07,  1.0636e-06, -6.9261e-05,  ...,  8.5123e-07,
+          3.9302e-07,  1.0412e-06],
+        [-8.9779e-07, -4.5061e-05, -9.1374e-05,  ..., -4.2409e-05,
+          1.9185e-07, -5.2780e-05],
+        [-4.1761e-06, -2.3171e-05, -1.9431e-05,  ..., -2.7075e-05,
+         -9.3356e-06,  1.3076e-06]], device='cuda:0')
+Epoch 137, bias, value: tensor([ 0.0314,  0.0092,  0.0210,  0.0236,  0.0313,  0.0002, -0.0024, -0.0015,
+         0.0014, -0.0372], device='cuda:0'), grad: tensor([ 7.8827e-06,  1.2308e-05,  2.5034e-04,  4.9412e-05,  7.0095e-05,
+         1.3977e-05,  1.3366e-05, -1.4448e-04, -1.8418e-04, -8.8573e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 136, time 217.70, cls_loss 0.0037 cls_loss_mapping 0.0055 cls_loss_causal 0.5703 re_mapping 0.0080 re_causal 0.0248 /// teacc 98.85 lr 0.00010000
+Epoch 138, weight, value: tensor([[-0.1003,  0.1421, -0.0272,  ..., -0.0034,  0.0708,  0.0127],
+        [ 0.1072, -0.0764,  0.0236,  ..., -0.0566, -0.0106, -0.0471],
+        [-0.0493, -0.1122,  0.0092,  ..., -0.0367,  0.0402, -0.1322],
+        ...,
+        [-0.1160, -0.0986,  0.0503,  ..., -0.0482, -0.0681, -0.0939],
+        [-0.0556, -0.0101,  0.0202,  ...,  0.0254, -0.0859,  0.0201],
+        [-0.0386, -0.0088,  0.0708,  ...,  0.1200, -0.0379, -0.1006]],
+       device='cuda:0'), grad: tensor([[ 1.7323e-07, -6.8426e-05, -3.9876e-05,  ...,  1.3039e-08,
+         -3.0361e-07,  3.3341e-07],
+        [-5.7556e-06, -5.3830e-07, -1.3523e-06,  ...,  1.8626e-08,
+         -5.7369e-07,  5.4389e-07],
+        [ 3.8594e-06,  2.5649e-06,  7.2606e-06,  ...,  4.6939e-07,
+          4.9919e-07,  4.4033e-06],
+        ...,
+        [ 2.1234e-07,  3.9488e-07,  2.8253e-04,  ...,  3.3528e-08,
+         -8.2701e-07,  1.2374e-04],
+        [ 4.0233e-07, -1.7025e-06, -3.2449e-04,  ..., -1.0487e-06,
+          8.5682e-08, -1.3995e-04],
+        [ 5.0291e-07,  8.4490e-06,  6.5789e-06,  ...,  9.6858e-08,
+          4.1351e-07,  1.3411e-06]], device='cuda:0')
+Epoch 138, bias, value: tensor([ 0.0314,  0.0088,  0.0207,  0.0241,  0.0316, -0.0004, -0.0026, -0.0005,
+         0.0015, -0.0377], device='cuda:0'), grad: tensor([-1.2231e-04,  1.8030e-06,  2.2039e-05,  3.2455e-05, -3.3259e-05,
+         7.8976e-06,  1.1230e-04,  3.7479e-04, -4.2892e-04,  3.3289e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 137, time 217.87, cls_loss 0.0045 cls_loss_mapping 0.0063 cls_loss_causal 0.6083 re_mapping 0.0081 re_causal 0.0248 /// teacc 98.81 lr 0.00010000
+Epoch 139, weight, value: tensor([[-0.1006,  0.1426, -0.0272,  ..., -0.0034,  0.0708,  0.0125],
+        [ 0.1079, -0.0767,  0.0230,  ..., -0.0566, -0.0105, -0.0473],
+        [-0.0500, -0.1129,  0.0095,  ..., -0.0368,  0.0405, -0.1325],
+        ...,
+        [-0.1158, -0.0999,  0.0507,  ..., -0.0484, -0.0687, -0.0943],
+        [-0.0558, -0.0099,  0.0205,  ...,  0.0256, -0.0860,  0.0203],
+        [-0.0397, -0.0092,  0.0711,  ...,  0.1206, -0.0380, -0.1011]],
+       device='cuda:0'), grad: tensor([[ 3.5688e-06,  8.2888e-07,  9.8720e-08,  ...,  2.2352e-08,
+          1.8626e-09,  1.8347e-06],
+        [ 1.0282e-06,  8.2701e-07,  7.0184e-06,  ...,  1.8626e-08,
+          0.0000e+00,  6.4820e-07],
+        [ 2.5593e-06,  1.6615e-06,  9.2164e-06,  ...,  1.3039e-08,
+          0.0000e+00,  1.2480e-06],
+        ...,
+        [ 1.5013e-06,  9.2387e-07,  1.5354e-04,  ...,  7.8231e-07,
+          0.0000e+00,  6.7987e-07],
+        [ 1.2472e-05,  7.9796e-06,  3.3882e-06,  ...,  1.1176e-07,
+          7.4506e-09,  6.1095e-06],
+        [ 2.6494e-05,  1.7822e-05, -2.1005e-04,  ..., -2.6841e-06,
+          0.0000e+00,  1.2927e-05]], device='cuda:0')
+Epoch 139, bias, value: tensor([ 0.0317,  0.0084,  0.0210,  0.0241,  0.0319, -0.0003, -0.0031, -0.0006,
+         0.0016, -0.0378], device='cuda:0'), grad: tensor([ 5.9605e-06,  1.4454e-05,  2.0772e-05,  1.5235e-04,  2.1249e-05,
+        -2.1434e-04, -2.7940e-08,  1.8108e-04,  2.4155e-05, -2.0599e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 138, time 218.00, cls_loss 0.0055 cls_loss_mapping 0.0068 cls_loss_causal 0.5605 re_mapping 0.0079 re_causal 0.0235 /// teacc 98.91 lr 0.00010000
+Epoch 140, weight, value: tensor([[-0.1032,  0.1435, -0.0266,  ..., -0.0033,  0.0714,  0.0121],
+        [ 0.1098, -0.0773,  0.0235,  ..., -0.0566, -0.0102, -0.0473],
+        [-0.0507, -0.1134,  0.0092,  ..., -0.0368,  0.0405, -0.1327],
+        ...,
+        [-0.1170, -0.1012,  0.0508,  ..., -0.0485, -0.0682, -0.0945],
+        [-0.0558, -0.0096,  0.0206,  ...,  0.0257, -0.0859,  0.0207],
+        [-0.0417, -0.0102,  0.0712,  ...,  0.1209, -0.0388, -0.1025]],
+       device='cuda:0'), grad: tensor([[ 1.3411e-07, -6.6310e-06, -2.1979e-06,  ...,  5.5879e-09,
+          0.0000e+00,  1.4342e-07],
+        [-5.8487e-07,  1.2293e-07, -5.2527e-07,  ...,  1.8626e-09,
+          1.8626e-09,  8.9407e-08],
+        [ 2.4214e-07,  3.6135e-07,  1.4734e-06,  ...,  1.8626e-09,
+          1.8626e-09,  5.5507e-07],
+        ...,
+        [ 2.3656e-07,  1.4342e-07, -2.8256e-06,  ...,  1.8626e-09,
+          1.8626e-09,  5.1036e-07],
+        [ 4.2282e-07,  1.0226e-06,  2.1607e-07,  ...,  7.4506e-09,
+          0.0000e+00, -7.0222e-07],
+        [-1.6708e-06,  1.5981e-06, -8.7544e-07,  ..., -2.0303e-07,
+          0.0000e+00, -1.6555e-05]], device='cuda:0')
+Epoch 140, bias, value: tensor([ 0.0325,  0.0092,  0.0208,  0.0236,  0.0311, -0.0003, -0.0031, -0.0006,
+         0.0016, -0.0379], device='cuda:0'), grad: tensor([ 5.0887e-06,  5.5060e-06,  1.2256e-05,  9.3877e-06,  1.8203e-04,
+         9.9316e-06, -3.4928e-05,  8.3819e-08,  7.7188e-06, -1.9717e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 139, time 217.71, cls_loss 0.0040 cls_loss_mapping 0.0052 cls_loss_causal 0.5521 re_mapping 0.0085 re_causal 0.0242 /// teacc 98.95 lr 0.00010000
+Epoch 141, weight, value: tensor([[-0.1039,  0.1444, -0.0260,  ..., -0.0021,  0.0715,  0.0118],
+        [ 0.1089, -0.0774,  0.0235,  ..., -0.0567, -0.0102, -0.0474],
+        [-0.0498, -0.1150,  0.0087,  ..., -0.0371,  0.0405, -0.1332],
+        ...,
+        [-0.1171, -0.1030,  0.0506,  ..., -0.0485, -0.0683, -0.0947],
+        [-0.0559, -0.0089,  0.0212,  ...,  0.0260, -0.0859,  0.0214],
+        [-0.0423, -0.0117,  0.0720,  ...,  0.1204, -0.0390, -0.1030]],
+       device='cuda:0'), grad: tensor([[ 5.6848e-06, -8.6501e-06,  2.0880e-06,  ...,  3.1665e-08,
+          0.0000e+00,  4.0978e-08],
+        [-2.3656e-07,  5.0105e-07,  6.3404e-06,  ...,  2.2352e-08,
+          0.0000e+00,  1.6950e-07],
+        [ 3.0920e-07,  5.5581e-06,  1.1757e-05,  ...,  9.1270e-08,
+          0.0000e+00,  1.8161e-06],
+        ...,
+        [ 9.3132e-08,  4.7870e-07, -2.4116e-04,  ...,  3.9116e-08,
+          0.0000e+00,  6.0908e-07],
+        [ 3.2540e-06,  6.8620e-06,  8.0764e-06,  ..., -3.8184e-07,
+          0.0000e+00, -4.1723e-07],
+        [ 1.2964e-06,  6.6385e-06,  1.8406e-04,  ..., -9.6671e-07,
+          0.0000e+00,  1.6261e-06]], device='cuda:0')
+Epoch 141, bias, value: tensor([ 0.0329,  0.0083,  0.0209,  0.0213,  0.0306,  0.0012, -0.0022, -0.0007,
+         0.0023, -0.0377], device='cuda:0'), grad: tensor([ 1.0416e-05,  1.1958e-05,  3.9190e-05,  3.7253e-05,  2.5496e-05,
+         1.5393e-05, -7.1108e-05, -4.0388e-04,  3.4004e-05,  3.0136e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 140, time 218.01, cls_loss 0.0046 cls_loss_mapping 0.0066 cls_loss_causal 0.5620 re_mapping 0.0080 re_causal 0.0233 /// teacc 98.92 lr 0.00010000
+Epoch 142, weight, value: tensor([[-0.1043,  0.1445, -0.0270,  ..., -0.0032,  0.0715,  0.0111],
+        [ 0.1090, -0.0778,  0.0225,  ..., -0.0569, -0.0102, -0.0477],
+        [-0.0502, -0.1160,  0.0085,  ..., -0.0371,  0.0406, -0.1343],
+        ...,
+        [-0.1169, -0.1051,  0.0516,  ..., -0.0487, -0.0684, -0.0951],
+        [-0.0559, -0.0083,  0.0219,  ...,  0.0263, -0.0859,  0.0226],
+        [-0.0423, -0.0117,  0.0726,  ...,  0.1211, -0.0391, -0.1040]],
+       device='cuda:0'), grad: tensor([[ 1.6950e-07, -1.2703e-06,  1.8440e-07,  ...,  8.0094e-08,
+          0.0000e+00,  4.3772e-07],
+        [-1.7863e-06, -7.4506e-09, -1.3914e-06,  ...,  3.7253e-08,
+          0.0000e+00,  2.2165e-07],
+        [ 1.8608e-06,  5.4017e-08,  2.6926e-05,  ...,  1.6987e-06,
+          0.0000e+00,  9.3281e-06],
+        ...,
+        [ 4.6380e-07,  1.2107e-07, -2.1547e-05,  ...,  8.3819e-08,
+          0.0000e+00,  4.0419e-07],
+        [-3.0454e-06,  4.6752e-07, -1.6868e-05,  ..., -4.0457e-06,
+          0.0000e+00, -2.1875e-05],
+        [ 1.4193e-06,  3.5390e-07,  6.3814e-06,  ...,  6.3702e-07,
+          0.0000e+00,  6.2808e-06]], device='cuda:0')
+Epoch 142, bias, value: tensor([ 0.0323,  0.0074,  0.0199,  0.0208,  0.0312,  0.0011, -0.0022,  0.0002,
+         0.0037, -0.0380], device='cuda:0'), grad: tensor([ 4.3884e-06,  1.2383e-05,  5.6297e-05,  2.3231e-05, -4.8566e-04,
+        -2.5220e-06,  5.5730e-06, -3.6091e-05, -7.7069e-05,  4.9925e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 141, time 217.59, cls_loss 0.0033 cls_loss_mapping 0.0053 cls_loss_causal 0.5500 re_mapping 0.0076 re_causal 0.0235 /// teacc 98.85 lr 0.00010000
+Epoch 143, weight, value: tensor([[-0.1051,  0.1449, -0.0274,  ..., -0.0035,  0.0715,  0.0107],
+        [ 0.1092, -0.0781,  0.0227,  ..., -0.0569, -0.0101, -0.0479],
+        [-0.0505, -0.1170,  0.0083,  ..., -0.0373,  0.0405, -0.1349],
+        ...,
+        [-0.1170, -0.1058,  0.0515,  ..., -0.0489, -0.0684, -0.0952],
+        [-0.0561, -0.0081,  0.0224,  ...,  0.0265, -0.0859,  0.0225],
+        [-0.0418, -0.0118,  0.0728,  ...,  0.1218, -0.0382, -0.1044]],
+       device='cuda:0'), grad: tensor([[ 1.2666e-07, -4.8056e-07,  3.2224e-07,  ...,  4.8429e-08,
+          9.3132e-10,  1.0058e-07],
+        [ 1.5842e-06,  1.2107e-08, -4.4797e-07,  ...,  1.8626e-09,
+          0.0000e+00,  1.7267e-06],
+        [ 4.5449e-07, -9.5926e-08,  1.7975e-07,  ...,  3.9116e-08,
+         -1.1176e-08,  4.7870e-07],
+        ...,
+        [ 4.7497e-07,  2.4214e-08, -4.0047e-06,  ...,  2.8871e-08,
+          0.0000e+00,  3.2503e-07],
+        [ 1.1988e-05,  2.3469e-07,  7.4226e-07,  ...,  7.4506e-08,
+          0.0000e+00,  9.8348e-06],
+        [ 2.0526e-06,  2.1048e-07,  1.5097e-06,  ..., -3.2224e-07,
+          0.0000e+00,  1.7220e-06]], device='cuda:0')
+Epoch 143, bias, value: tensor([ 0.0323,  0.0073,  0.0198,  0.0209,  0.0311,  0.0016, -0.0026,  0.0002,
+         0.0039, -0.0379], device='cuda:0'), grad: tensor([ 9.4771e-06,  2.8387e-06,  5.5172e-06, -3.6645e-04, -1.8245e-06,
+         3.4285e-04, -2.5168e-05, -7.4655e-06,  2.1175e-05,  1.8924e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 142, time 218.26, cls_loss 0.0027 cls_loss_mapping 0.0050 cls_loss_causal 0.5722 re_mapping 0.0077 re_causal 0.0231 /// teacc 98.97 lr 0.00010000
+Epoch 144, weight, value: tensor([[-0.1055,  0.1451, -0.0276,  ..., -0.0034,  0.0715,  0.0104],
+        [ 0.1096, -0.0783,  0.0228,  ..., -0.0570, -0.0100, -0.0481],
+        [-0.0508, -0.1175,  0.0081,  ..., -0.0373,  0.0405, -0.1351],
+        ...,
+        [-0.1172, -0.1067,  0.0516,  ..., -0.0491, -0.0686, -0.0954],
+        [-0.0564, -0.0079,  0.0227,  ...,  0.0264, -0.0860,  0.0225],
+        [-0.0422, -0.0119,  0.0728,  ...,  0.1222, -0.0385, -0.1042]],
+       device='cuda:0'), grad: tensor([[ 1.0431e-07,  9.5647e-07,  1.4361e-06,  ...,  4.6566e-08,
+          4.6566e-09,  1.3430e-06],
+        [-3.5577e-07,  4.7032e-07,  3.9786e-06,  ...,  1.6857e-07,
+          4.2841e-08,  4.3213e-07],
+        [ 4.0047e-08,  1.8403e-05,  1.9759e-05,  ...,  3.0734e-08,
+         -1.4901e-07,  2.6420e-05],
+        ...,
+        [ 4.5914e-07,  7.3668e-07, -1.3653e-06,  ...,  1.8999e-07,
+          9.4995e-08,  6.1281e-07],
+        [ 1.1101e-06, -2.7433e-05, -2.8640e-05,  ...,  8.0094e-08,
+          2.7940e-09, -3.9130e-05],
+        [ 7.1712e-06,  6.9812e-06, -3.2753e-05,  ..., -3.3006e-06,
+          9.3132e-10,  2.6412e-06]], device='cuda:0')
+Epoch 144, bias, value: tensor([ 0.0321,  0.0075,  0.0196,  0.0207,  0.0315,  0.0018, -0.0026,  0.0002,
+         0.0040, -0.0382], device='cuda:0'), grad: tensor([ 5.6252e-06,  7.8082e-06,  6.1572e-05,  3.1769e-05,  3.9428e-05,
+        -1.6987e-05,  4.0755e-06,  1.8859e-06, -1.1277e-04, -2.2426e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 143, time 217.80, cls_loss 0.0038 cls_loss_mapping 0.0050 cls_loss_causal 0.5840 re_mapping 0.0076 re_causal 0.0237 /// teacc 98.84 lr 0.00010000
+Epoch 145, weight, value: tensor([[-0.1054,  0.1458, -0.0276,  ..., -0.0035,  0.0716,  0.0099],
+        [ 0.1113, -0.0789,  0.0234,  ..., -0.0570, -0.0100, -0.0485],
+        [-0.0522, -0.1180,  0.0079,  ..., -0.0373,  0.0405, -0.1355],
+        ...,
+        [-0.1180, -0.1072,  0.0514,  ..., -0.0492, -0.0686, -0.0955],
+        [-0.0566, -0.0077,  0.0229,  ...,  0.0265, -0.0861,  0.0225],
+        [-0.0434, -0.0126,  0.0731,  ...,  0.1229, -0.0388, -0.1048]],
+       device='cuda:0'), grad: tensor([[ 5.2527e-07, -1.3160e-06,  3.5670e-07,  ...,  1.2759e-07,
+          4.6566e-09,  5.4203e-07],
+        [-7.1079e-06, -1.1642e-07, -7.0184e-06,  ...,  7.4506e-09,
+         -6.6124e-08,  1.9353e-06],
+        [ 7.6275e-07,  1.8924e-06,  2.9951e-06,  ...,  5.4482e-07,
+          2.7940e-09,  2.0918e-06],
+        ...,
+        [ 2.3320e-06,  3.9581e-07, -2.4959e-07,  ...,  3.8184e-08,
+         -4.8429e-08,  1.4221e-06],
+        [ 1.3985e-05,  5.3681e-06, -8.8196e-07,  ..., -9.5367e-07,
+          5.3085e-08,  2.4781e-05],
+        [ 1.9837e-06,  2.1979e-06,  2.0079e-06,  ...,  3.7253e-08,
+          3.3528e-08,  1.8878e-06]], device='cuda:0')
+Epoch 145, bias, value: tensor([ 0.0325,  0.0083,  0.0180,  0.0211,  0.0311,  0.0019, -0.0030,  0.0011,
+         0.0038, -0.0383], device='cuda:0'), grad: tensor([ 4.6846e-07, -6.1318e-06,  8.3521e-06, -1.1581e-04,  1.1958e-06,
+         5.2780e-05,  3.9898e-06,  2.1607e-06,  4.5419e-05,  7.4133e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 144, time 217.48, cls_loss 0.0041 cls_loss_mapping 0.0064 cls_loss_causal 0.5520 re_mapping 0.0078 re_causal 0.0234 /// teacc 98.78 lr 0.00010000
+Epoch 146, weight, value: tensor([[-0.1054,  0.1473, -0.0276,  ..., -0.0036,  0.0721,  0.0101],
+        [ 0.1125, -0.0787,  0.0243,  ..., -0.0571, -0.0093, -0.0487],
+        [-0.0529, -0.1191,  0.0082,  ..., -0.0374,  0.0411, -0.1358],
+        ...,
+        [-0.1189, -0.1090,  0.0507,  ..., -0.0494, -0.0697, -0.0957],
+        [-0.0570, -0.0074,  0.0229,  ...,  0.0265, -0.0863,  0.0227],
+        [-0.0442, -0.0130,  0.0742,  ...,  0.1234, -0.0389, -0.1053]],
+       device='cuda:0'), grad: tensor([[ 3.6322e-07, -1.6503e-06,  2.0191e-06,  ...,  9.3132e-10,
+          3.0510e-06,  3.5204e-07],
+        [ 8.9407e-08,  2.3469e-07,  6.5899e-04,  ...,  9.3132e-10,
+          2.4319e-04,  2.4494e-07],
+        [ 2.3749e-07,  5.3085e-07, -4.9305e-04,  ...,  5.5879e-09,
+         -2.4867e-04,  2.4401e-07],
+        ...,
+        [ 5.4389e-07,  5.3458e-07, -1.7822e-04,  ...,  6.5193e-09,
+          1.2526e-06,  4.9267e-07],
+        [ 4.0904e-06,  3.7849e-06,  1.9204e-06,  ..., -1.3039e-08,
+          1.4836e-06,  3.8221e-06],
+        [ 8.7731e-07,  2.0433e-06,  7.4040e-07,  ..., -1.3970e-08,
+          1.6764e-07,  8.7637e-07]], device='cuda:0')
+Epoch 146, bias, value: tensor([ 0.0338,  0.0092,  0.0176,  0.0224,  0.0307,  0.0012, -0.0039,  0.0003,
+         0.0036, -0.0379], device='cuda:0'), grad: tensor([ 2.2545e-05,  1.9989e-03, -1.8063e-03,  4.1604e-05,  1.8704e-04,
+        -4.7714e-05, -1.9407e-04, -2.2614e-04,  1.9088e-05,  4.5113e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 145, time 217.35, cls_loss 0.0043 cls_loss_mapping 0.0055 cls_loss_causal 0.5786 re_mapping 0.0074 re_causal 0.0228 /// teacc 98.91 lr 0.00010000
+Epoch 147, weight, value: tensor([[-0.1060,  0.1477, -0.0277,  ..., -0.0037,  0.0722,  0.0096],
+        [ 0.1129, -0.0794,  0.0248,  ..., -0.0572, -0.0117, -0.0490],
+        [-0.0526, -0.1198,  0.0078,  ..., -0.0375,  0.0427, -0.1362],
+        ...,
+        [-0.1199, -0.1104,  0.0505,  ..., -0.0494, -0.0696, -0.0961],
+        [-0.0576, -0.0075,  0.0232,  ...,  0.0263, -0.0868,  0.0230],
+        [-0.0448, -0.0128,  0.0742,  ...,  0.1243, -0.0398, -0.1063]],
+       device='cuda:0'), grad: tensor([[ 7.7020e-07, -1.1455e-06,  7.7300e-07,  ...,  2.7940e-09,
+          3.7625e-07,  6.5193e-09],
+        [-3.7402e-06,  2.0489e-08, -1.5134e-06,  ...,  7.4506e-09,
+         -1.3439e-06,  1.0245e-08],
+        [ 3.1386e-07,  6.5193e-08,  2.2873e-06,  ...,  1.6764e-08,
+          1.3039e-07,  3.1665e-08],
+        ...,
+        [ 4.9919e-07,  2.8871e-08, -9.7528e-06,  ...,  1.6764e-08,
+          1.5832e-07,  1.7695e-08],
+        [ 6.4168e-07,  5.0012e-07,  1.1008e-06,  ..., -1.2480e-07,
+          1.9558e-07, -2.2259e-07],
+        [ 8.0466e-07,  3.4180e-07,  8.8215e-06,  ...,  3.4459e-08,
+          2.2631e-07,  1.0990e-07]], device='cuda:0')
+Epoch 147, bias, value: tensor([ 3.3713e-02,  9.1661e-03,  1.7731e-02,  2.3006e-02,  3.1059e-02,
+         6.9162e-04, -3.2173e-03,  1.7772e-06,  3.4017e-03, -3.8202e-02],
+       device='cuda:0'), grad: tensor([ 9.0618e-07, -6.8638e-07,  2.8890e-06,  3.0175e-06, -2.2188e-05,
+         3.6228e-07,  6.8266e-07, -1.7494e-05,  2.6599e-06,  2.9817e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 146, time 217.62, cls_loss 0.0036 cls_loss_mapping 0.0046 cls_loss_causal 0.5508 re_mapping 0.0075 re_causal 0.0230 /// teacc 98.84 lr 0.00010000
+Epoch 148, weight, value: tensor([[-0.1063,  0.1480, -0.0277,  ..., -0.0038,  0.0723,  0.0090],
+        [ 0.1126, -0.0798,  0.0248,  ..., -0.0572, -0.0113, -0.0492],
+        [-0.0522, -0.1199,  0.0078,  ..., -0.0376,  0.0427, -0.1362],
+        ...,
+        [-0.1201, -0.1110,  0.0517,  ..., -0.0497, -0.0699, -0.0964],
+        [-0.0572, -0.0075,  0.0236,  ...,  0.0261, -0.0863,  0.0234],
+        [-0.0452, -0.0123,  0.0726,  ...,  0.1256, -0.0413, -0.1069]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-08, -6.7204e-06, -3.3993e-07,  ...,  0.0000e+00,
+         -1.0617e-07, -2.1700e-07],
+        [ 9.3132e-09,  5.4017e-08,  3.0734e-07,  ...,  0.0000e+00,
+          8.2515e-07,  7.3574e-08],
+        [-4.7404e-07,  4.2748e-07,  1.6857e-07,  ...,  0.0000e+00,
+         -9.5740e-07,  1.3132e-07],
+        ...,
+        [ 7.9162e-07,  1.8813e-07, -1.6857e-06,  ...,  0.0000e+00,
+          9.2201e-08,  7.5437e-08],
+        [ 2.2817e-07,  1.6596e-06,  2.5239e-07,  ...,  9.3132e-10,
+          4.7497e-08,  6.5193e-08],
+        [ 2.1514e-07,  8.2515e-07,  3.3900e-07,  ..., -2.7940e-09,
+          2.0489e-08,  7.3574e-08]], device='cuda:0')
+Epoch 148, bias, value: tensor([ 0.0337,  0.0088,  0.0182,  0.0230,  0.0314,  0.0004, -0.0030,  0.0005,
+         0.0035, -0.0392], device='cuda:0'), grad: tensor([-9.2313e-06,  1.7300e-05, -1.3538e-05,  3.3509e-06, -5.4270e-05,
+         7.2829e-07,  1.0148e-05,  2.9393e-06,  2.1860e-05,  2.0653e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 147, time 217.43, cls_loss 0.0037 cls_loss_mapping 0.0046 cls_loss_causal 0.5439 re_mapping 0.0076 re_causal 0.0227 /// teacc 98.81 lr 0.00010000
+Epoch 149, weight, value: tensor([[-0.1069,  0.1469, -0.0301,  ..., -0.0061,  0.0724,  0.0088],
+        [ 0.1130, -0.0799,  0.0247,  ..., -0.0572, -0.0110, -0.0493],
+        [-0.0524, -0.1199,  0.0076,  ..., -0.0376,  0.0425, -0.1364],
+        ...,
+        [-0.1205, -0.1117,  0.0513,  ..., -0.0498, -0.0702, -0.0965],
+        [-0.0574, -0.0072,  0.0239,  ...,  0.0261, -0.0863,  0.0239],
+        [-0.0449, -0.0111,  0.0746,  ...,  0.1274, -0.0415, -0.1082]],
+       device='cuda:0'), grad: tensor([[ 4.3865e-07, -1.6809e-05, -2.6952e-06,  ...,  1.3039e-08,
+          1.4156e-07,  1.5646e-07],
+        [ 5.9046e-07,  1.5832e-07,  5.1439e-05,  ...,  1.0245e-08,
+          1.5646e-07,  3.0082e-07],
+        [ 1.7043e-07,  2.2687e-06,  9.1121e-06,  ...,  1.4901e-08,
+          2.0284e-06, -1.1921e-05],
+        ...,
+        [-3.1292e-06,  1.7229e-07, -7.6294e-05,  ...,  4.6566e-08,
+         -2.7288e-06,  3.6694e-07],
+        [ 1.9334e-06,  1.1055e-06,  9.1344e-06,  ...,  6.1281e-07,
+          4.2841e-08,  1.0133e-05],
+        [ 6.3982e-07,  3.0398e-06, -7.3481e-07,  ..., -1.4612e-06,
+          2.0955e-07,  1.0775e-06]], device='cuda:0')
+Epoch 149, bias, value: tensor([ 0.0313,  0.0086,  0.0181,  0.0226,  0.0314,  0.0006, -0.0021,  0.0003,
+         0.0037, -0.0376], device='cuda:0'), grad: tensor([-3.6955e-05,  7.1287e-05, -4.8548e-05,  4.8220e-05,  3.2187e-06,
+        -1.7226e-05,  2.2724e-05, -1.0520e-04,  5.3734e-05,  8.7023e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 148, time 217.73, cls_loss 0.0030 cls_loss_mapping 0.0041 cls_loss_causal 0.5293 re_mapping 0.0075 re_causal 0.0221 /// teacc 98.77 lr 0.00010000
+Epoch 150, weight, value: tensor([[-0.1074,  0.1473, -0.0301,  ..., -0.0063,  0.0723,  0.0086],
+        [ 0.1136, -0.0799,  0.0248,  ..., -0.0573, -0.0109, -0.0494],
+        [-0.0530, -0.1203,  0.0075,  ..., -0.0376,  0.0425, -0.1367],
+        ...,
+        [-0.1209, -0.1121,  0.0515,  ..., -0.0500, -0.0699, -0.0966],
+        [-0.0577, -0.0073,  0.0239,  ...,  0.0261, -0.0863,  0.0239],
+        [-0.0455, -0.0115,  0.0748,  ...,  0.1287, -0.0416, -0.1087]],
+       device='cuda:0'), grad: tensor([[ 5.8021e-07, -7.5158e-07,  1.8999e-07,  ...,  2.7940e-09,
+          2.2352e-08,  5.3551e-07],
+        [ 3.4459e-07,  1.1362e-07,  8.0280e-07,  ...,  4.6566e-09,
+          4.7497e-07,  4.0047e-07],
+        [ 9.9652e-08,  6.1467e-08, -1.7416e-07,  ...,  9.3132e-10,
+          2.0489e-08,  3.0361e-07],
+        ...,
+        [ 2.6450e-07,  7.4506e-08, -1.0077e-06,  ...,  8.5682e-08,
+         -3.9209e-07,  2.6729e-07],
+        [ 1.7896e-05,  1.1049e-05,  4.7497e-07,  ...,  9.5926e-08,
+          1.1176e-08,  6.7174e-05],
+        [ 9.4622e-07,  3.6694e-07,  9.2238e-06,  ..., -4.4797e-07,
+          2.0489e-07,  8.7544e-07]], device='cuda:0')
+Epoch 150, bias, value: tensor([ 3.1420e-02,  8.8596e-03,  1.7808e-02,  2.3150e-02,  3.0879e-02,
+        -2.0179e-05, -1.9798e-03,  5.6698e-04,  3.4694e-03, -3.7435e-02],
+       device='cuda:0'), grad: tensor([ 1.9632e-06,  5.2303e-06, -1.1986e-06, -1.9622e-04, -5.5820e-05,
+        -1.2529e-04,  5.2899e-05,  2.7083e-06,  2.6727e-04,  4.8637e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 149, time 217.70, cls_loss 0.0031 cls_loss_mapping 0.0062 cls_loss_causal 0.5317 re_mapping 0.0080 re_causal 0.0232 /// teacc 98.88 lr 0.00010000
+Epoch 151, weight, value: tensor([[-0.1077,  0.1477, -0.0302,  ..., -0.0066,  0.0722,  0.0084],
+        [ 0.1154, -0.0796,  0.0263,  ..., -0.0573, -0.0102, -0.0493],
+        [-0.0532, -0.1206,  0.0074,  ..., -0.0377,  0.0423, -0.1369],
+        ...,
+        [-0.1228, -0.1127,  0.0505,  ..., -0.0504, -0.0686, -0.0968],
+        [-0.0575, -0.0063,  0.0241,  ...,  0.0262, -0.0866,  0.0247],
+        [-0.0459, -0.0122,  0.0761,  ...,  0.1307, -0.0419, -0.1105]],
+       device='cuda:0'), grad: tensor([[ 1.6764e-08, -6.4634e-07, -1.1837e-06,  ..., -1.4622e-07,
+          7.4506e-09,  1.7872e-06],
+        [-1.1921e-07,  1.3690e-07, -1.9558e-08,  ...,  2.0489e-08,
+          2.4214e-08,  9.6858e-08],
+        [ 2.0489e-08,  9.8720e-07,  5.5321e-07,  ...,  5.2154e-08,
+         -7.7300e-08,  4.3027e-07],
+        ...,
+        [ 2.5146e-08,  1.9278e-07,  1.1455e-07,  ...,  1.4901e-08,
+          8.4750e-08,  1.0058e-07],
+        [ 8.7544e-08, -2.0787e-05, -5.9269e-06,  ..., -1.2107e-07,
+          5.5879e-09, -1.4238e-05],
+        [ 2.3842e-07,  2.3991e-06,  1.1111e-06,  ...,  1.1176e-08,
+          5.5879e-09,  2.1979e-07]], device='cuda:0')
+Epoch 151, bias, value: tensor([ 0.0314,  0.0107,  0.0178,  0.0232,  0.0292, -0.0003, -0.0024, -0.0007,
+         0.0038, -0.0363], device='cuda:0'), grad: tensor([-1.1986e-06,  1.2312e-06,  1.3076e-06,  5.1968e-06, -9.1046e-06,
+         1.4372e-05,  8.2478e-06,  1.2610e-06, -2.8193e-05,  6.9141e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 150, time 217.88, cls_loss 0.0031 cls_loss_mapping 0.0046 cls_loss_causal 0.5421 re_mapping 0.0078 re_causal 0.0231 /// teacc 98.90 lr 0.00010000
+Epoch 152, weight, value: tensor([[-0.1081,  0.1480, -0.0301,  ..., -0.0065,  0.0720,  0.0078],
+        [ 0.1151, -0.0796,  0.0266,  ..., -0.0573, -0.0097, -0.0492],
+        [-0.0519, -0.1209,  0.0073,  ..., -0.0377,  0.0426, -0.1372],
+        ...,
+        [-0.1236, -0.1132,  0.0506,  ..., -0.0505, -0.0687, -0.0971],
+        [-0.0578, -0.0061,  0.0239,  ...,  0.0263, -0.0868,  0.0248],
+        [-0.0462, -0.0127,  0.0757,  ...,  0.1310, -0.0419, -0.1112]],
+       device='cuda:0'), grad: tensor([[-2.8282e-05, -5.0187e-05, -2.5071e-06,  ...,  9.3132e-10,
+          5.5879e-09,  2.7940e-09],
+        [-7.0874e-07,  1.6205e-07, -6.4075e-07,  ...,  9.3132e-10,
+          3.1665e-08,  5.5879e-09],
+        [ 1.8068e-07,  2.0582e-07,  1.6019e-07,  ...,  0.0000e+00,
+          3.4459e-08,  1.4901e-08],
+        ...,
+        [ 1.8906e-07,  1.4715e-07,  1.6764e-08,  ...,  1.2107e-08,
+          3.1665e-08,  8.3819e-09],
+        [ 1.0617e-07,  1.4715e-07,  4.7497e-08,  ...,  2.7940e-09,
+          1.3970e-08,  2.0489e-08],
+        [ 1.6736e-06,  3.0175e-06,  1.5739e-07,  ..., -7.3574e-08,
+          9.2201e-08,  2.0489e-08]], device='cuda:0')
+Epoch 152, bias, value: tensor([ 0.0315,  0.0103,  0.0186,  0.0228,  0.0300,  0.0003, -0.0021, -0.0006,
+         0.0034, -0.0372], device='cuda:0'), grad: tensor([-6.9320e-05, -5.0478e-07, -9.1363e-07,  2.2668e-06, -1.0416e-05,
+         5.6446e-05,  1.5065e-05,  6.5845e-07,  5.2247e-07,  6.0052e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 151, time 217.71, cls_loss 0.0043 cls_loss_mapping 0.0061 cls_loss_causal 0.5704 re_mapping 0.0077 re_causal 0.0225 /// teacc 98.93 lr 0.00010000
+Epoch 153, weight, value: tensor([[-0.1101,  0.1484, -0.0302,  ..., -0.0070,  0.0720,  0.0067],
+        [ 0.1155, -0.0799,  0.0269,  ..., -0.0575, -0.0090, -0.0494],
+        [-0.0521, -0.1213,  0.0072,  ..., -0.0378,  0.0427, -0.1378],
+        ...,
+        [-0.1240, -0.1142,  0.0505,  ..., -0.0512, -0.0687, -0.0973],
+        [-0.0581, -0.0059,  0.0238,  ...,  0.0262, -0.0874,  0.0249],
+        [-0.0463, -0.0136,  0.0758,  ...,  0.1319, -0.0440, -0.1125]],
+       device='cuda:0'), grad: tensor([[ 2.6915e-07, -1.0896e-07,  1.8934e-06,  ...,  1.1558e-06,
+          9.2015e-07,  1.7788e-07],
+        [-2.5138e-05,  4.0047e-08, -4.6283e-05,  ...,  8.8289e-07,
+         -2.7008e-08,  3.0827e-07],
+        [ 4.3772e-07,  4.8429e-08,  1.2638e-06,  ...,  4.1444e-07,
+          3.7532e-07,  3.5204e-07],
+        ...,
+        [ 1.3992e-05,  7.6368e-08,  5.8591e-05,  ...,  1.1548e-05,
+          1.2200e-07,  5.0850e-07],
+        [ 1.5479e-06,  4.5262e-07,  8.1956e-06,  ...,  2.3469e-06,
+          7.0594e-07,  1.8459e-06],
+        [ 8.3819e-06,  1.6764e-07, -1.0252e-04,  ..., -8.0943e-05,
+         -5.6267e-05,  2.0955e-07]], device='cuda:0')
+Epoch 153, bias, value: tensor([ 0.0312,  0.0104,  0.0184,  0.0244,  0.0307, -0.0009, -0.0017, -0.0003,
+         0.0032, -0.0381], device='cuda:0'), grad: tensor([ 8.8140e-06, -5.3823e-05,  4.0978e-06, -4.4018e-05,  3.2759e-04,
+         4.3988e-05,  5.5581e-06,  7.6473e-05,  2.4974e-05, -3.9411e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 152, time 217.82, cls_loss 0.0025 cls_loss_mapping 0.0052 cls_loss_causal 0.5846 re_mapping 0.0076 re_causal 0.0235 /// teacc 98.84 lr 0.00010000
+Epoch 154, weight, value: tensor([[-0.1103,  0.1490, -0.0301,  ..., -0.0071,  0.0720,  0.0067],
+        [ 0.1157, -0.0800,  0.0269,  ..., -0.0581, -0.0091, -0.0496],
+        [-0.0522, -0.1215,  0.0070,  ..., -0.0378,  0.0425, -0.1380],
+        ...,
+        [-0.1241, -0.1151,  0.0509,  ..., -0.0515, -0.0687, -0.0973],
+        [-0.0584, -0.0060,  0.0235,  ...,  0.0261, -0.0873,  0.0252],
+        [-0.0465, -0.0141,  0.0759,  ...,  0.1324, -0.0441, -0.1129]],
+       device='cuda:0'), grad: tensor([[ 1.5832e-08, -5.2899e-07, -9.7789e-08,  ...,  3.7253e-09,
+          7.4506e-09,  3.3528e-08],
+        [-5.9046e-07,  1.0338e-07,  1.6699e-06,  ...,  9.3132e-10,
+          8.1025e-08,  1.4249e-06],
+        [ 7.8231e-08,  1.6764e-07, -6.0081e-05,  ...,  3.7253e-09,
+         -3.6322e-08,  5.5134e-07],
+        ...,
+        [ 2.4121e-07,  6.1374e-07,  6.8247e-05,  ...,  7.4506e-09,
+         -1.4808e-07,  8.7917e-06],
+        [ 2.8405e-07, -8.7731e-07, -1.1675e-05,  ...,  2.5146e-08,
+          1.6764e-08, -1.0863e-05],
+        [ 1.7509e-07,  3.7625e-07,  3.0082e-07,  ..., -7.8231e-08,
+          4.7497e-08,  3.1572e-07]], device='cuda:0')
+Epoch 154, bias, value: tensor([ 3.1544e-02,  1.0238e-02,  1.8396e-02,  2.3986e-02,  3.0981e-02,
+        -8.9760e-04, -1.6696e-03, -4.6329e-05,  2.9142e-03, -3.8299e-02],
+       device='cuda:0'), grad: tensor([ 2.4401e-07,  4.9025e-06, -3.0446e-04, -2.1793e-07,  1.2824e-06,
+         1.4091e-06, -8.2795e-07,  3.1829e-04, -2.1368e-05,  9.9279e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 153, time 218.20, cls_loss 0.0025 cls_loss_mapping 0.0036 cls_loss_causal 0.5249 re_mapping 0.0074 re_causal 0.0224 /// teacc 98.94 lr 0.00010000
+Epoch 155, weight, value: tensor([[-0.1108,  0.1494, -0.0299,  ..., -0.0071,  0.0721,  0.0067],
+        [ 0.1158, -0.0801,  0.0268,  ..., -0.0583, -0.0086, -0.0497],
+        [-0.0524, -0.1217,  0.0069,  ..., -0.0379,  0.0425, -0.1382],
+        ...,
+        [-0.1242, -0.1155,  0.0510,  ..., -0.0517, -0.0686, -0.0976],
+        [-0.0586, -0.0061,  0.0236,  ...,  0.0261, -0.0874,  0.0254],
+        [-0.0469, -0.0144,  0.0759,  ...,  0.1327, -0.0442, -0.1134]],
+       device='cuda:0'), grad: tensor([[ 3.2596e-07, -7.4059e-06, -3.1870e-06,  ...,  9.3132e-10,
+         -5.1502e-07,  7.8883e-07],
+        [-1.2154e-06,  9.4902e-07,  6.8825e-07,  ...,  9.3132e-10,
+         -1.3597e-07,  1.6671e-07],
+        [ 3.1292e-07,  7.9274e-06,  1.0431e-05,  ...,  9.3132e-10,
+          1.4529e-07,  7.3723e-06],
+        ...,
+        [ 7.0408e-07,  2.5705e-07, -9.5889e-06,  ...,  1.0245e-08,
+          1.3411e-07,  1.3970e-07],
+        [ 1.6605e-06, -3.6135e-06, -5.8338e-06,  ...,  4.6566e-09,
+          5.2713e-07, -7.6219e-06],
+        [ 1.5199e-06,  2.1253e-06,  4.2655e-06,  ..., -6.3330e-08,
+          3.2503e-07,  7.2364e-07]], device='cuda:0')
+Epoch 155, bias, value: tensor([ 0.0317,  0.0101,  0.0183,  0.0236,  0.0310, -0.0009, -0.0012,  0.0003,
+         0.0027, -0.0385], device='cuda:0'), grad: tensor([-5.9940e-06,  3.6471e-06,  4.4584e-05,  6.2305e-07, -1.1794e-05,
+        -1.6987e-05,  1.8433e-05, -1.7479e-05, -3.1739e-05,  1.6689e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 154, time 217.51, cls_loss 0.0029 cls_loss_mapping 0.0045 cls_loss_causal 0.5492 re_mapping 0.0074 re_causal 0.0222 /// teacc 98.81 lr 0.00010000
+Epoch 156, weight, value: tensor([[-0.1120,  0.1499, -0.0299,  ..., -0.0071,  0.0725,  0.0065],
+        [ 0.1157, -0.0804,  0.0267,  ..., -0.0582, -0.0094, -0.0499],
+        [-0.0519, -0.1227,  0.0079,  ..., -0.0380,  0.0433, -0.1385],
+        ...,
+        [-0.1243, -0.1165,  0.0508,  ..., -0.0519, -0.0690, -0.0979],
+        [-0.0589, -0.0058,  0.0237,  ...,  0.0263, -0.0875,  0.0258],
+        [-0.0476, -0.0149,  0.0758,  ...,  0.1327, -0.0446, -0.1140]],
+       device='cuda:0'), grad: tensor([[ 1.0524e-06,  3.3230e-06,  5.4911e-06,  ...,  1.3039e-08,
+          1.2955e-06,  3.0976e-06],
+        [-6.2734e-06,  6.4634e-07,  2.1920e-05,  ...,  2.0489e-08,
+          2.3991e-06,  3.3621e-07],
+        [ 2.0545e-06,  1.2973e-06, -3.2067e-04,  ...,  3.0734e-08,
+         -5.3197e-05,  9.3970e-07],
+        ...,
+        [ 6.1616e-06,  1.7136e-06,  2.8324e-04,  ...,  6.2399e-08,
+          4.8190e-05,  6.7614e-07],
+        [ 5.1484e-06, -7.9796e-06, -4.7870e-07,  ...,  4.0047e-08,
+         -1.2917e-06, -8.6054e-06],
+        [ 2.1048e-06,  1.9837e-06, -2.0452e-06,  ..., -8.3353e-07,
+          2.0210e-07,  8.2515e-07]], device='cuda:0')
+Epoch 156, bias, value: tensor([ 0.0320,  0.0098,  0.0194,  0.0238,  0.0315, -0.0009, -0.0016, -0.0004,
+         0.0029, -0.0389], device='cuda:0'), grad: tensor([ 2.1160e-05,  6.9737e-05, -1.0958e-03,  1.9789e-05,  1.4886e-05,
+        -1.5333e-05,  3.9190e-06,  9.7656e-04,  3.6303e-06,  1.8515e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 155, time 217.24, cls_loss 0.0052 cls_loss_mapping 0.0070 cls_loss_causal 0.5625 re_mapping 0.0077 re_causal 0.0217 /// teacc 98.76 lr 0.00010000
+Epoch 157, weight, value: tensor([[-0.1124,  0.1508, -0.0296,  ..., -0.0073,  0.0724,  0.0062],
+        [ 0.1140, -0.0835,  0.0260,  ..., -0.0591, -0.0108, -0.0519],
+        [-0.0506, -0.1234,  0.0080,  ..., -0.0380,  0.0448, -0.1390],
+        ...,
+        [-0.1246, -0.1178,  0.0517,  ..., -0.0522, -0.0693, -0.0975],
+        [-0.0585, -0.0053,  0.0241,  ...,  0.0265, -0.0874,  0.0266],
+        [-0.0507, -0.0163,  0.0755,  ...,  0.1332, -0.0453, -0.1156]],
+       device='cuda:0'), grad: tensor([[ 6.5845e-07, -4.5821e-07,  4.0140e-07,  ...,  4.0047e-08,
+          0.0000e+00,  1.2107e-06],
+        [ 3.4459e-08,  1.3504e-07,  7.1339e-07,  ...,  3.1665e-08,
+          0.0000e+00,  2.8964e-07],
+        [ 1.6764e-08,  2.3190e-07,  5.1130e-07,  ...,  1.3970e-08,
+          0.0000e+00,  2.4401e-07],
+        ...,
+        [ 1.4901e-08,  8.1211e-06,  4.7028e-05,  ...,  2.1867e-06,
+          0.0000e+00,  1.8671e-05],
+        [ 9.1270e-07,  3.1888e-06,  1.7390e-05,  ...,  8.2050e-07,
+          0.0000e+00,  7.3612e-06],
+        [ 6.7055e-08, -6.6757e-05, -3.9911e-04,  ..., -2.0117e-05,
+          0.0000e+00, -1.5342e-04]], device='cuda:0')
+Epoch 157, bias, value: tensor([ 0.0323,  0.0079,  0.0207,  0.0219,  0.0328,  0.0010, -0.0014,  0.0003,
+         0.0031, -0.0405], device='cuda:0'), grad: tensor([ 8.6278e-06,  2.4419e-06,  1.0170e-06,  2.8498e-07,  1.1867e-04,
+         9.4748e-04, -9.8586e-05,  1.4007e-04,  5.7667e-05, -1.1778e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 156, time 217.96, cls_loss 0.0033 cls_loss_mapping 0.0054 cls_loss_causal 0.5445 re_mapping 0.0077 re_causal 0.0218 /// teacc 98.91 lr 0.00010000
+Epoch 158, weight, value: tensor([[-0.1127,  0.1514, -0.0297,  ..., -0.0074,  0.0723,  0.0064],
+        [ 0.1146, -0.0859,  0.0275,  ..., -0.0596, -0.0113, -0.0528],
+        [-0.0508, -0.1245,  0.0078,  ..., -0.0383,  0.0449, -0.1395],
+        ...,
+        [-0.1247, -0.1185,  0.0525,  ..., -0.0526, -0.0696, -0.0976],
+        [-0.0610, -0.0056,  0.0214,  ...,  0.0266, -0.0876,  0.0262],
+        [-0.0513, -0.0163,  0.0758,  ...,  0.1336, -0.0453, -0.1159]],
+       device='cuda:0'), grad: tensor([[ 1.5274e-07, -1.5590e-06,  2.0862e-07,  ...,  1.6764e-08,
+          0.0000e+00,  1.1176e-07],
+        [-3.5390e-06,  2.9802e-08, -2.0750e-06,  ...,  9.3132e-09,
+          0.0000e+00,  1.0058e-07],
+        [ 9.6112e-07,  2.0117e-07,  1.2144e-05,  ...,  5.0291e-08,
+          0.0000e+00,  5.7183e-07],
+        ...,
+        [ 1.9185e-06,  7.6368e-08, -1.2696e-05,  ...,  5.4017e-08,
+          0.0000e+00,  1.3225e-07],
+        [ 3.2485e-06,  4.0233e-06,  8.4192e-07,  ...,  1.0245e-07,
+          0.0000e+00,  1.7509e-06],
+        [ 1.1977e-06,  1.6913e-06, -1.0140e-05,  ..., -1.6652e-06,
+          0.0000e+00,  9.7044e-07]], device='cuda:0')
+Epoch 158, bias, value: tensor([ 0.0325,  0.0090,  0.0209,  0.0219,  0.0332,  0.0017, -0.0022,  0.0010,
+         0.0005, -0.0409], device='cuda:0'), grad: tensor([-3.3900e-07, -7.3016e-07,  2.4214e-05,  1.9167e-06,  1.8090e-05,
+        -5.4203e-06,  6.9849e-07, -2.7806e-05,  7.3649e-06, -1.7956e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 157, time 217.57, cls_loss 0.0028 cls_loss_mapping 0.0034 cls_loss_causal 0.5456 re_mapping 0.0075 re_causal 0.0218 /// teacc 98.89 lr 0.00010000
+Epoch 159, weight, value: tensor([[-0.1128,  0.1519, -0.0295,  ..., -0.0074,  0.0723,  0.0073],
+        [ 0.1150, -0.0859,  0.0275,  ..., -0.0597, -0.0111, -0.0530],
+        [-0.0511, -0.1252,  0.0063,  ..., -0.0383,  0.0449, -0.1401],
+        ...,
+        [-0.1249, -0.1192,  0.0536,  ..., -0.0527, -0.0695, -0.0978],
+        [-0.0611, -0.0054,  0.0215,  ...,  0.0266, -0.0878,  0.0266],
+        [-0.0514, -0.0166,  0.0756,  ...,  0.1341, -0.0454, -0.1162]],
+       device='cuda:0'), grad: tensor([[ 4.0978e-08, -2.4587e-07,  1.5832e-07,  ...,  3.3528e-08,
+          7.8417e-07,  1.5460e-07],
+        [-1.2424e-06,  2.4214e-08, -3.3602e-06,  ...,  1.3039e-08,
+          9.1083e-07,  1.7136e-07],
+        [ 1.0245e-07,  1.3225e-07,  6.1840e-07,  ...,  5.5879e-09,
+         -9.6634e-06,  7.6741e-07],
+        ...,
+        [ 1.0133e-06,  3.7253e-08,  3.1628e-06,  ...,  1.5087e-07,
+          4.6194e-06,  2.3097e-07],
+        [ 3.5390e-07, -2.9802e-07,  1.6764e-07,  ...,  3.2410e-07,
+          4.2655e-07, -1.3188e-06],
+        [ 3.1665e-08, -5.5879e-08, -2.3507e-06,  ..., -1.3858e-06,
+          2.2352e-07, -2.1253e-06]], device='cuda:0')
+Epoch 159, bias, value: tensor([ 0.0326,  0.0089,  0.0197,  0.0218,  0.0334,  0.0016, -0.0026,  0.0023,
+         0.0005, -0.0411], device='cuda:0'), grad: tensor([ 4.0084e-06, -2.1048e-07, -4.0859e-05,  8.0764e-06, -6.3479e-05,
+         5.1409e-06, -1.6131e-06,  2.6375e-05,  3.1181e-06,  5.9456e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 158, time 217.78, cls_loss 0.0036 cls_loss_mapping 0.0048 cls_loss_causal 0.5640 re_mapping 0.0071 re_causal 0.0214 /// teacc 98.80 lr 0.00010000
+Epoch 160, weight, value: tensor([[-0.1146,  0.1510, -0.0294,  ..., -0.0074,  0.0732,  0.0073],
+        [ 0.1157, -0.0876,  0.0275,  ..., -0.0599, -0.0109, -0.0535],
+        [-0.0515, -0.1261,  0.0061,  ..., -0.0384,  0.0449, -0.1407],
+        ...,
+        [-0.1257, -0.1208,  0.0539,  ..., -0.0531, -0.0697, -0.0983],
+        [-0.0611, -0.0049,  0.0215,  ...,  0.0266, -0.0882,  0.0274],
+        [-0.0518, -0.0168,  0.0758,  ...,  0.1348, -0.0455, -0.1166]],
+       device='cuda:0'), grad: tensor([[-4.2841e-07, -1.1176e-06,  7.2531e-06,  ...,  2.0508e-06,
+          2.6077e-08,  3.2820e-06],
+        [ 9.5554e-07,  5.7928e-06,  8.6948e-06,  ...,  3.4645e-07,
+          2.2911e-07,  6.4112e-06],
+        [-9.2573e-07,  7.3574e-07,  1.6931e-06,  ...,  7.4506e-08,
+         -4.5635e-07,  4.5821e-07],
+        ...,
+        [ 7.0222e-07,  1.6913e-06, -3.5670e-06,  ...,  7.4133e-07,
+         -3.1665e-08,  1.4529e-06],
+        [-5.5283e-06, -8.2552e-06,  5.9530e-06,  ...,  5.1185e-06,
+          3.9116e-08, -2.0444e-05],
+        [ 5.1782e-07, -2.0668e-05, -4.1038e-05,  ..., -1.0453e-05,
+          2.6077e-08, -1.2532e-05]], device='cuda:0')
+Epoch 160, bias, value: tensor([ 0.0313,  0.0087,  0.0196,  0.0216,  0.0337,  0.0018, -0.0013,  0.0023,
+         0.0006, -0.0412], device='cuda:0'), grad: tensor([ 1.2264e-05,  2.8893e-05, -2.4930e-05,  1.4000e-05,  5.5656e-06,
+         3.7491e-05,  6.9104e-06, -2.8443e-06, -1.1623e-06, -7.6294e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 159, time 217.63, cls_loss 0.0031 cls_loss_mapping 0.0043 cls_loss_causal 0.5365 re_mapping 0.0075 re_causal 0.0218 /// teacc 98.82 lr 0.00010000
+Epoch 161, weight, value: tensor([[-0.1156,  0.1517, -0.0293,  ..., -0.0074,  0.0731,  0.0073],
+        [ 0.1160, -0.0876,  0.0274,  ..., -0.0598, -0.0110, -0.0536],
+        [-0.0518, -0.1264,  0.0064,  ..., -0.0385,  0.0449, -0.1407],
+        ...,
+        [-0.1262, -0.1218,  0.0540,  ..., -0.0544, -0.0696, -0.0993],
+        [-0.0611, -0.0043,  0.0214,  ...,  0.0266, -0.0882,  0.0280],
+        [-0.0520, -0.0172,  0.0760,  ...,  0.1354, -0.0457, -0.1174]],
+       device='cuda:0'), grad: tensor([[ 3.1292e-07, -9.7789e-07, -3.1479e-07,  ...,  5.5879e-09,
+          1.8626e-09,  4.8429e-08],
+        [ 1.1897e-04,  9.1270e-08, -4.6790e-06,  ...,  9.3132e-09,
+         -5.5879e-09,  7.4506e-08],
+        [-1.3423e-04, -1.2666e-07,  5.1782e-07,  ...,  5.5879e-09,
+         -1.5460e-07,  8.7544e-08],
+        ...,
+        [ 3.1516e-06,  2.3097e-07,  2.5090e-06,  ...,  3.9116e-08,
+          1.5274e-07,  2.2165e-07],
+        [ 2.2631e-06, -1.6391e-05, -4.5300e-06,  ..., -1.3039e-08,
+          0.0000e+00, -1.8463e-05],
+        [ 5.6252e-06,  8.8103e-07,  3.7067e-07,  ..., -2.2352e-07,
+          1.8626e-09,  1.2293e-07]], device='cuda:0')
+Epoch 161, bias, value: tensor([ 0.0316,  0.0085,  0.0200,  0.0216,  0.0337,  0.0018, -0.0014,  0.0022,
+         0.0005, -0.0412], device='cuda:0'), grad: tensor([-1.7509e-07,  1.7965e-04, -2.0707e-04,  2.6263e-06,  2.5183e-06,
+         2.7806e-05,  2.6450e-07,  8.7470e-06, -2.2843e-05,  8.8513e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 160, time 217.76, cls_loss 0.0029 cls_loss_mapping 0.0056 cls_loss_causal 0.5557 re_mapping 0.0070 re_causal 0.0217 /// teacc 98.93 lr 0.00010000
+Epoch 162, weight, value: tensor([[-0.1166,  0.1520, -0.0296,  ..., -0.0075,  0.0731,  0.0077],
+        [ 0.1170, -0.0881,  0.0270,  ..., -0.0604, -0.0104, -0.0537],
+        [-0.0524, -0.1268,  0.0063,  ..., -0.0386,  0.0448, -0.1412],
+        ...,
+        [-0.1264, -0.1228,  0.0550,  ..., -0.0546, -0.0685, -0.0996],
+        [-0.0616, -0.0041,  0.0213,  ...,  0.0266, -0.0887,  0.0285],
+        [-0.0522, -0.0174,  0.0772,  ...,  0.1367, -0.0459, -0.1178]],
+       device='cuda:0'), grad: tensor([[ 2.5146e-07, -2.9758e-05, -1.0341e-05,  ...,  1.8254e-07,
+          0.0000e+00,  6.1467e-08],
+        [ 6.1654e-07,  1.1921e-07,  2.8871e-07,  ...,  7.2643e-08,
+          0.0000e+00,  3.7253e-08],
+        [ 4.6566e-08,  2.6450e-07,  3.5763e-07,  ...,  2.6077e-08,
+          0.0000e+00,  9.8720e-08],
+        ...,
+        [ 5.7742e-08,  2.9057e-07,  1.4141e-05,  ...,  4.1127e-06,
+          0.0000e+00,  8.0094e-08],
+        [ 2.4773e-07, -4.2394e-06, -7.0967e-06,  ...,  2.1234e-07,
+          0.0000e+00, -3.2187e-06],
+        [ 1.0431e-07,  8.1882e-06, -1.0408e-05,  ..., -5.6997e-06,
+          0.0000e+00,  2.6319e-06]], device='cuda:0')
+Epoch 162, bias, value: tensor([ 0.0314,  0.0084,  0.0198,  0.0215,  0.0321,  0.0018, -0.0012,  0.0030,
+         0.0004, -0.0401], device='cuda:0'), grad: tensor([-4.5359e-05,  5.9977e-06,  1.0524e-06,  5.2303e-06,  4.1500e-06,
+         4.5598e-06,  2.1309e-05,  2.6241e-05, -1.1399e-05, -1.1802e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 161, time 217.63, cls_loss 0.0022 cls_loss_mapping 0.0040 cls_loss_causal 0.5565 re_mapping 0.0076 re_causal 0.0221 /// teacc 98.97 lr 0.00010000
+Epoch 163, weight, value: tensor([[-0.1168,  0.1532, -0.0293,  ..., -0.0078,  0.0731,  0.0074],
+        [ 0.1168, -0.0884,  0.0270,  ..., -0.0610, -0.0104, -0.0539],
+        [-0.0517, -0.1273,  0.0063,  ..., -0.0386,  0.0448, -0.1414],
+        ...,
+        [-0.1268, -0.1233,  0.0550,  ..., -0.0550, -0.0684, -0.0997],
+        [-0.0617, -0.0039,  0.0213,  ...,  0.0265, -0.0887,  0.0287],
+        [-0.0523, -0.0183,  0.0777,  ...,  0.1375, -0.0459, -0.1183]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-08,  6.4075e-06,  3.2708e-06,  ...,  5.5134e-06,
+          0.0000e+00,  7.0781e-08],
+        [-1.6969e-06,  1.6205e-07, -1.5516e-06,  ...,  9.6858e-08,
+          0.0000e+00,  5.2154e-08],
+        [ 2.6450e-07,  6.4075e-07,  2.2911e-06,  ...,  3.1851e-07,
+          0.0000e+00,  1.3188e-06],
+        ...,
+        [ 8.8476e-07,  4.1723e-07,  7.5810e-07,  ...,  1.2852e-07,
+          0.0000e+00,  4.4703e-08],
+        [ 1.8813e-07,  5.2340e-06,  5.7742e-07,  ...,  3.4366e-06,
+          0.0000e+00, -1.4305e-06],
+        [ 1.1548e-07, -1.8552e-05, -8.7544e-06,  ..., -1.2860e-05,
+          0.0000e+00,  1.8254e-07]], device='cuda:0')
+Epoch 163, bias, value: tensor([ 0.0322,  0.0081,  0.0205,  0.0217,  0.0316,  0.0015, -0.0019,  0.0029,
+         0.0003, -0.0397], device='cuda:0'), grad: tensor([ 1.4089e-05, -2.5872e-06,  5.4091e-06,  7.2271e-06,  9.3132e-07,
+         1.9260e-06, -1.1176e-08,  1.6969e-06,  7.6666e-06, -3.6299e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 162, time 217.86, cls_loss 0.0023 cls_loss_mapping 0.0035 cls_loss_causal 0.5531 re_mapping 0.0075 re_causal 0.0226 /// teacc 98.87 lr 0.00010000
+Epoch 164, weight, value: tensor([[-0.1174,  0.1538, -0.0293,  ..., -0.0078,  0.0728,  0.0072],
+        [ 0.1170, -0.0880,  0.0272,  ..., -0.0610, -0.0098, -0.0537],
+        [-0.0516, -0.1285,  0.0061,  ..., -0.0388,  0.0448, -0.1421],
+        ...,
+        [-0.1269, -0.1240,  0.0551,  ..., -0.0553, -0.0685, -0.0998],
+        [-0.0620, -0.0041,  0.0212,  ...,  0.0263, -0.0889,  0.0289],
+        [-0.0521, -0.0180,  0.0779,  ...,  0.1384, -0.0460, -0.1180]],
+       device='cuda:0'), grad: tensor([[ 2.0862e-07, -4.0904e-06, -1.3206e-06,  ...,  1.3411e-07,
+          5.5879e-09,  3.7253e-09],
+        [-1.5460e-06,  2.2352e-08,  3.1404e-06,  ...,  2.0526e-06,
+         -1.3225e-07,  3.7253e-09],
+        [ 1.1846e-06,  3.6322e-07,  2.6412e-06,  ...,  6.1467e-08,
+          2.6077e-08,  3.1665e-08],
+        ...,
+        [ 1.5106e-06,  7.2643e-08,  5.3793e-06,  ...,  9.3877e-07,
+          1.1176e-08,  9.3132e-09],
+        [ 2.6077e-07,  1.8626e-07,  9.1270e-07,  ...,  1.4529e-07,
+          9.3132e-09, -8.0094e-08],
+        [-3.1907e-06,  2.9337e-06, -1.9014e-05,  ..., -5.1484e-06,
+          3.7253e-09,  4.8429e-08]], device='cuda:0')
+Epoch 164, bias, value: tensor([ 0.0324,  0.0080,  0.0205,  0.0216,  0.0315,  0.0016, -0.0022,  0.0032,
+         0.0001, -0.0396], device='cuda:0'), grad: tensor([-5.6624e-06,  7.4208e-06,  4.1276e-06,  2.2296e-06,  9.8348e-06,
+         1.8161e-06,  8.6799e-07,  9.5963e-06,  2.0452e-06, -3.2306e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 163, time 217.94, cls_loss 0.0022 cls_loss_mapping 0.0038 cls_loss_causal 0.5240 re_mapping 0.0072 re_causal 0.0213 /// teacc 98.94 lr 0.00010000
+Epoch 165, weight, value: tensor([[-0.1178,  0.1541, -0.0293,  ..., -0.0079,  0.0728,  0.0069],
+        [ 0.1185, -0.0885,  0.0280,  ..., -0.0614, -0.0097, -0.0542],
+        [-0.0525, -0.1295,  0.0056,  ..., -0.0390,  0.0448, -0.1428],
+        ...,
+        [-0.1286, -0.1256,  0.0544,  ..., -0.0556, -0.0683, -0.1005],
+        [-0.0616, -0.0035,  0.0215,  ...,  0.0266, -0.0890,  0.0297],
+        [-0.0522, -0.0182,  0.0781,  ...,  0.1391, -0.0460, -0.1187]],
+       device='cuda:0'), grad: tensor([[ 3.2037e-07,  4.3400e-07,  3.7253e-07,  ...,  3.7253e-09,
+          9.3132e-09,  5.9977e-07],
+        [-2.5313e-06,  5.2154e-08, -4.6715e-06,  ...,  5.5879e-09,
+         -1.6019e-07,  6.3330e-08],
+        [ 7.0035e-07,  7.1339e-07,  2.3134e-06,  ...,  5.5879e-09,
+          1.6764e-08,  4.3958e-07],
+        ...,
+        [ 7.7300e-07,  3.3528e-08,  1.1008e-06,  ...,  2.2352e-08,
+          8.3819e-08,  2.6077e-08],
+        [-7.6294e-06, -5.3942e-05, -1.5840e-05,  ...,  2.0489e-08,
+          1.1176e-08, -3.0085e-05],
+        [ 3.2969e-07,  7.4133e-07, -4.3027e-07,  ..., -4.6194e-07,
+          2.4214e-08,  3.5018e-07]], device='cuda:0')
+Epoch 165, bias, value: tensor([ 0.0325,  0.0086,  0.0194,  0.0216,  0.0315,  0.0016, -0.0023,  0.0031,
+         0.0005, -0.0397], device='cuda:0'), grad: tensor([ 1.6820e-06, -6.5416e-06,  1.8701e-06, -7.8976e-07,  1.5721e-06,
+         2.9579e-05,  5.8711e-05,  1.8161e-06, -8.8334e-05,  4.2655e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 164, time 217.87, cls_loss 0.0035 cls_loss_mapping 0.0050 cls_loss_causal 0.5304 re_mapping 0.0071 re_causal 0.0214 /// teacc 98.92 lr 0.00010000
+Epoch 166, weight, value: tensor([[-0.1180,  0.1542, -0.0295,  ..., -0.0082,  0.0723,  0.0058],
+        [ 0.1181, -0.0887,  0.0267,  ..., -0.0605, -0.0118, -0.0546],
+        [-0.0529, -0.1300,  0.0053,  ..., -0.0391,  0.0447, -0.1432],
+        ...,
+        [-0.1283, -0.1263,  0.0560,  ..., -0.0573, -0.0679, -0.1006],
+        [-0.0619, -0.0040,  0.0215,  ...,  0.0264, -0.0888,  0.0299],
+        [-0.0537, -0.0183,  0.0781,  ...,  0.1391, -0.0461, -0.1191]],
+       device='cuda:0'), grad: tensor([[-1.6950e-07, -3.0156e-06,  1.4696e-06,  ...,  2.8126e-07,
+          1.0617e-07,  3.7812e-07],
+        [-1.1623e-05,  3.7812e-07, -3.0458e-05,  ...,  1.6019e-07,
+         -1.5516e-06,  3.1106e-07],
+        [ 3.1088e-06,  2.2147e-06,  1.1899e-05,  ...,  9.1083e-07,
+          1.1753e-06,  2.1495e-06],
+        ...,
+        [ 7.1079e-06,  1.2629e-06,  1.6734e-05,  ...,  6.9104e-07,
+         -3.1292e-07,  1.1269e-06],
+        [-2.1961e-06, -1.0751e-05, -4.8429e-06,  ..., -3.9712e-06,
+          7.2643e-08, -1.1511e-05],
+        [ 3.8743e-07,  1.3188e-06, -1.5832e-06,  ..., -5.0291e-08,
+          1.7881e-07,  7.1898e-07]], device='cuda:0')
+Epoch 166, bias, value: tensor([ 0.0324,  0.0068,  0.0195,  0.0216,  0.0319,  0.0016, -0.0016,  0.0048,
+         0.0002, -0.0400], device='cuda:0'), grad: tensor([-6.0722e-07, -5.4926e-05,  2.7329e-05,  1.5825e-05,  4.6417e-06,
+         3.8370e-06,  2.0973e-06,  3.0696e-05, -2.7776e-05, -1.1567e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 165, time 217.93, cls_loss 0.0026 cls_loss_mapping 0.0037 cls_loss_causal 0.5390 re_mapping 0.0071 re_causal 0.0217 /// teacc 98.92 lr 0.00010000
+Epoch 167, weight, value: tensor([[-0.1184,  0.1546, -0.0296,  ..., -0.0085,  0.0721,  0.0056],
+        [ 0.1188, -0.0883,  0.0267,  ..., -0.0605, -0.0114, -0.0548],
+        [-0.0533, -0.1307,  0.0051,  ..., -0.0389,  0.0448, -0.1434],
+        ...,
+        [-0.1286, -0.1281,  0.0563,  ..., -0.0576, -0.0681, -0.1003],
+        [-0.0621, -0.0037,  0.0216,  ...,  0.0265, -0.0889,  0.0306],
+        [-0.0548, -0.0184,  0.0779,  ...,  0.1396, -0.0471, -0.1210]],
+       device='cuda:0'), grad: tensor([[ 1.1176e-08,  1.1735e-07,  9.1270e-08,  ...,  4.4703e-08,
+          0.0000e+00,  1.0431e-07],
+        [-1.4342e-07,  8.5682e-08,  1.7881e-07,  ...,  5.9605e-08,
+          0.0000e+00,  1.7695e-07],
+        [ 4.4703e-08,  1.2778e-06,  2.1905e-06,  ...,  1.0263e-06,
+          0.0000e+00,  9.7603e-07],
+        ...,
+        [ 8.9407e-08,  6.3330e-08, -6.7987e-07,  ...,  1.0617e-07,
+          0.0000e+00,  9.4995e-08],
+        [ 1.0431e-07, -4.6790e-05, -6.8367e-05,  ..., -4.1008e-05,
+          0.0000e+00, -2.3976e-05],
+        [ 4.2841e-08,  4.4852e-05,  6.5327e-05,  ...,  3.9309e-05,
+          0.0000e+00,  2.2992e-05]], device='cuda:0')
+Epoch 167, bias, value: tensor([ 0.0324,  0.0070,  0.0196,  0.0215,  0.0321,  0.0014, -0.0017,  0.0049,
+         0.0003, -0.0406], device='cuda:0'), grad: tensor([ 5.4948e-07,  4.1723e-07,  3.5875e-06, -3.1516e-06,  9.7603e-07,
+         2.3916e-06, -1.2163e-06, -1.0617e-06, -9.5963e-05,  9.3520e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 166, time 218.19, cls_loss 0.0038 cls_loss_mapping 0.0051 cls_loss_causal 0.5352 re_mapping 0.0073 re_causal 0.0200 /// teacc 98.88 lr 0.00010000
+Epoch 168, weight, value: tensor([[-0.1184,  0.1556, -0.0294,  ..., -0.0081,  0.0720,  0.0052],
+        [ 0.1198, -0.0881,  0.0269,  ..., -0.0624, -0.0115, -0.0548],
+        [-0.0546, -0.1324,  0.0029,  ..., -0.0392,  0.0453, -0.1438],
+        ...,
+        [-0.1289, -0.1297,  0.0564,  ..., -0.0603, -0.0690, -0.1008],
+        [-0.0623, -0.0032,  0.0215,  ...,  0.0269, -0.0890,  0.0314],
+        [-0.0552, -0.0204,  0.0788,  ...,  0.1417, -0.0462, -0.1226]],
+       device='cuda:0'), grad: tensor([[ 2.4773e-07, -1.1828e-06, -8.9407e-08,  ..., -3.1665e-08,
+          1.6764e-08,  2.0675e-07],
+        [-2.4643e-06,  7.8231e-08, -2.2147e-06,  ...,  3.7253e-09,
+          1.3039e-08,  8.9407e-08],
+        [ 6.4820e-07,  1.5870e-06,  3.4012e-06,  ...,  6.3889e-07,
+         -1.4901e-08,  1.7732e-06],
+        ...,
+        [ 1.3970e-06,  1.7881e-07, -2.4661e-06,  ...,  2.7940e-08,
+          1.8626e-08,  1.1735e-07],
+        [ 3.3490e-06,  2.1569e-06, -2.7865e-06,  ..., -7.5065e-07,
+          5.1782e-07,  8.9221e-07],
+        [ 1.1213e-06,  2.2687e-06,  2.1961e-06,  ...,  5.4017e-08,
+          2.0489e-07,  9.2201e-07]], device='cuda:0')
+Epoch 168, bias, value: tensor([ 0.0330,  0.0075,  0.0178,  0.0216,  0.0324,  0.0014, -0.0019,  0.0050,
+         0.0002, -0.0405], device='cuda:0'), grad: tensor([ 1.8030e-05,  4.6417e-06,  1.5408e-05,  4.1537e-06, -6.0022e-05,
+        -1.0766e-05,  1.4126e-05, -5.5172e-06,  1.8943e-06,  1.8120e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 167, time 217.82, cls_loss 0.0022 cls_loss_mapping 0.0037 cls_loss_causal 0.5142 re_mapping 0.0071 re_causal 0.0212 /// teacc 98.71 lr 0.00010000
+Epoch 169, weight, value: tensor([[-0.1185,  0.1560, -0.0294,  ..., -0.0081,  0.0720,  0.0052],
+        [ 0.1201, -0.0894,  0.0272,  ..., -0.0631, -0.0143, -0.0550],
+        [-0.0551, -0.1327,  0.0027,  ..., -0.0393,  0.0456, -0.1439],
+        ...,
+        [-0.1301, -0.1311,  0.0558,  ..., -0.0621, -0.0694, -0.1011],
+        [-0.0628, -0.0033,  0.0214,  ...,  0.0269, -0.0894,  0.0314],
+        [-0.0553, -0.0208,  0.0792,  ...,  0.1427, -0.0460, -0.1230]],
+       device='cuda:0'), grad: tensor([[ 5.4203e-07, -3.2783e-07,  7.0408e-07,  ...,  1.8626e-09,
+          1.3225e-07,  1.2666e-07],
+        [-4.8801e-06, -3.3788e-06, -7.3463e-06,  ...,  0.0000e+00,
+         -8.4750e-07,  2.6822e-07],
+        [ 1.4398e-06,  3.3155e-07,  1.7248e-06,  ...,  7.4506e-09,
+          5.9605e-08,  2.6263e-07],
+        ...,
+        [ 9.2201e-07,  5.2899e-07, -5.3160e-06,  ...,  1.3039e-08,
+          1.1362e-07,  2.8871e-07],
+        [ 4.3772e-06,  5.4613e-06,  3.4608e-06,  ..., -1.4901e-08,
+          9.2760e-07,  2.2221e-06],
+        [ 1.4193e-06,  1.6466e-06,  2.3190e-06,  ..., -6.1467e-08,
+          4.2841e-08,  8.4192e-07]], device='cuda:0')
+Epoch 169, bias, value: tensor([ 3.3096e-02,  7.4427e-03,  1.7721e-02,  2.1634e-02,  3.2426e-02,
+         1.4159e-03, -3.7978e-04,  4.3448e-03, -8.1988e-05, -4.0342e-02],
+       device='cuda:0'), grad: tensor([ 1.9055e-06, -9.7603e-06,  4.9360e-06, -7.0967e-07,  1.5423e-06,
+        -6.8881e-06,  4.8801e-06, -1.7136e-05,  1.1578e-05,  9.6112e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 168, time 217.41, cls_loss 0.0032 cls_loss_mapping 0.0043 cls_loss_causal 0.5451 re_mapping 0.0068 re_causal 0.0202 /// teacc 98.89 lr 0.00010000
+Epoch 170, weight, value: tensor([[-0.1199,  0.1562, -0.0295,  ..., -0.0082,  0.0718,  0.0036],
+        [ 0.1204, -0.0902,  0.0272,  ..., -0.0631, -0.0145, -0.0554],
+        [-0.0556, -0.1345,  0.0022,  ..., -0.0393,  0.0459, -0.1449],
+        ...,
+        [-0.1303, -0.1309,  0.0549,  ..., -0.0623, -0.0687, -0.1013],
+        [-0.0628, -0.0026,  0.0212,  ...,  0.0270, -0.0895,  0.0321],
+        [-0.0558, -0.0215,  0.0814,  ...,  0.1436, -0.0465, -0.1238]],
+       device='cuda:0'), grad: tensor([[ 5.1409e-07, -1.7621e-06,  8.7544e-08,  ..., -6.5193e-08,
+          0.0000e+00,  4.8615e-07],
+        [ 2.2411e-05,  3.0309e-05,  4.5747e-05,  ...,  2.0489e-08,
+          0.0000e+00,  3.1203e-05],
+        [ 4.0233e-06,  6.2771e-07,  3.8967e-06,  ...,  9.3132e-09,
+          0.0000e+00,  5.6997e-07],
+        ...,
+        [ 1.9949e-06,  2.1793e-06, -2.6971e-06,  ...,  8.5123e-07,
+          0.0000e+00,  2.1793e-06],
+        [-3.2544e-05, -3.7462e-05, -6.2227e-05,  ...,  1.3039e-08,
+          0.0000e+00, -3.9488e-05],
+        [ 2.2445e-06,  3.1777e-06, -1.9055e-06,  ..., -1.0896e-06,
+          0.0000e+00,  1.9632e-06]], device='cuda:0')
+Epoch 170, bias, value: tensor([ 3.2900e-02,  7.3967e-03,  1.7533e-02,  2.2091e-02,  3.2841e-02,
+         1.0310e-03, -4.9539e-04,  3.4851e-03, -6.0871e-05, -3.9208e-02],
+       device='cuda:0'), grad: tensor([-1.7304e-06,  8.3148e-05,  6.5453e-06,  5.5820e-05,  1.2033e-06,
+        -3.9339e-05,  5.7966e-06, -6.7651e-06, -1.0735e-04,  2.6934e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 169, time 218.06, cls_loss 0.0024 cls_loss_mapping 0.0041 cls_loss_causal 0.5198 re_mapping 0.0070 re_causal 0.0206 /// teacc 98.92 lr 0.00010000
+Epoch 171, weight, value: tensor([[-0.1202,  0.1574, -0.0291,  ..., -0.0070,  0.0718,  0.0028],
+        [ 0.1210, -0.0907,  0.0274,  ..., -0.0632, -0.0145, -0.0556],
+        [-0.0558, -0.1345,  0.0022,  ..., -0.0393,  0.0459, -0.1452],
+        ...,
+        [-0.1308, -0.1322,  0.0548,  ..., -0.0625, -0.0687, -0.1015],
+        [-0.0626, -0.0019,  0.0214,  ...,  0.0268, -0.0895,  0.0331],
+        [-0.0559, -0.0229,  0.0814,  ...,  0.1433, -0.0465, -0.1245]],
+       device='cuda:0'), grad: tensor([[ 9.1270e-08,  7.4506e-08,  1.6205e-07,  ...,  5.5879e-09,
+          3.7253e-09,  3.9116e-08],
+        [-8.0615e-06, -1.3970e-07, -1.3173e-05,  ...,  3.7253e-09,
+         -2.7940e-08,  4.6566e-08],
+        [ 6.8732e-07, -1.3970e-07,  1.9353e-06,  ...,  4.6566e-08,
+          1.8626e-09,  1.6578e-07],
+        ...,
+        [ 7.0147e-06,  8.0094e-08,  9.1642e-06,  ...,  2.0489e-08,
+          0.0000e+00,  5.5879e-08],
+        [ 5.3085e-07,  1.8999e-07,  1.0226e-06,  ..., -1.8626e-08,
+          9.3132e-09,  9.3505e-07],
+        [ 1.1269e-06,  7.1898e-07, -7.3574e-07,  ..., -1.6019e-07,
+          3.7253e-09,  7.7486e-07]], device='cuda:0')
+Epoch 171, bias, value: tensor([ 3.3400e-02,  7.4328e-03,  1.7879e-02,  2.2054e-02,  3.3023e-02,
+         6.0021e-04, -5.6159e-06,  3.3089e-03, -3.2905e-05, -3.9564e-02],
+       device='cuda:0'), grad: tensor([ 8.1211e-07, -1.6898e-05,  2.1048e-06, -1.6138e-05,  1.0058e-06,
+         1.0170e-05,  3.2261e-06,  9.7752e-06,  4.6119e-06,  1.3374e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 170, time 217.88, cls_loss 0.0026 cls_loss_mapping 0.0038 cls_loss_causal 0.5146 re_mapping 0.0072 re_causal 0.0207 /// teacc 98.92 lr 0.00010000
+Epoch 172, weight, value: tensor([[-0.1205,  0.1577, -0.0291,  ..., -0.0069,  0.0718,  0.0024],
+        [ 0.1210, -0.0906,  0.0277,  ..., -0.0628, -0.0145, -0.0558],
+        [-0.0547, -0.1345,  0.0022,  ..., -0.0392,  0.0459, -0.1457],
+        ...,
+        [-0.1311, -0.1334,  0.0550,  ..., -0.0627, -0.0686, -0.1016],
+        [-0.0635, -0.0021,  0.0213,  ...,  0.0267, -0.0895,  0.0330],
+        [-0.0574, -0.0236,  0.0810,  ...,  0.1417, -0.0466, -0.1261]],
+       device='cuda:0'), grad: tensor([[ 1.3784e-07, -3.0851e-04, -7.4878e-07,  ...,  1.8626e-09,
+          0.0000e+00, -5.7966e-05],
+        [ 2.4214e-08,  9.4995e-08, -4.1164e-07,  ...,  1.8626e-09,
+          0.0000e+00,  5.4389e-07],
+        [ 4.0419e-07,  4.2655e-07,  2.6636e-07,  ...,  1.8626e-09,
+          0.0000e+00,  2.6636e-07],
+        ...,
+        [ 4.3400e-07,  1.0058e-07, -1.0598e-06,  ...,  3.7253e-09,
+          0.0000e+00,  5.4017e-08],
+        [ 1.6540e-06,  1.4119e-06,  4.0233e-07,  ...,  3.7253e-09,
+          0.0000e+00,  1.5162e-06],
+        [ 4.7684e-06,  1.8533e-06, -3.8892e-06,  ..., -1.6764e-07,
+          0.0000e+00,  2.8573e-06]], device='cuda:0')
+Epoch 172, bias, value: tensor([ 3.3322e-02,  7.3815e-03,  1.8770e-02,  2.2114e-02,  3.4126e-02,
+         6.7332e-04,  1.4388e-05,  3.4360e-03, -4.4353e-04, -4.0905e-02],
+       device='cuda:0'), grad: tensor([-3.6716e-04,  6.0536e-07,  1.4529e-06, -2.6464e-05,  5.9679e-06,
+         3.3647e-05,  3.4833e-04, -1.4678e-06,  5.0962e-06,  1.1735e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 171, time 217.31, cls_loss 0.0027 cls_loss_mapping 0.0043 cls_loss_causal 0.5391 re_mapping 0.0070 re_causal 0.0208 /// teacc 98.85 lr 0.00010000
+Epoch 173, weight, value: tensor([[-0.1203,  0.1585, -0.0297,  ..., -0.0075,  0.0718,  0.0025],
+        [ 0.1214, -0.0898,  0.0280,  ..., -0.0629, -0.0144, -0.0559],
+        [-0.0541, -0.1352,  0.0024,  ..., -0.0393,  0.0462, -0.1463],
+        ...,
+        [-0.1320, -0.1357,  0.0550,  ..., -0.0630, -0.0688, -0.1039],
+        [-0.0642, -0.0021,  0.0212,  ...,  0.0267, -0.0896,  0.0331],
+        [-0.0586, -0.0240,  0.0815,  ...,  0.1424, -0.0466, -0.1271]],
+       device='cuda:0'), grad: tensor([[ 4.4703e-08, -3.1479e-07, -1.4529e-07,  ...,  5.5879e-09,
+          0.0000e+00,  4.0978e-08],
+        [-5.0478e-07,  4.8429e-08, -6.2957e-07,  ...,  7.4506e-09,
+          0.0000e+00,  1.7136e-07],
+        [ 1.1176e-07,  1.2293e-07,  5.2340e-07,  ...,  1.8626e-09,
+          0.0000e+00,  5.0105e-07],
+        ...,
+        [ 1.0245e-07,  1.8626e-08,  1.7397e-06,  ...,  2.0489e-08,
+          0.0000e+00,  3.3639e-06],
+        [ 1.8105e-06,  1.7621e-06, -7.4506e-09,  ...,  1.2852e-07,
+          0.0000e+00,  1.8533e-06],
+        [ 1.5832e-07,  1.6764e-08, -3.6135e-07,  ..., -3.3155e-07,
+          0.0000e+00,  6.6310e-07]], device='cuda:0')
+Epoch 173, bias, value: tensor([ 0.0333,  0.0075,  0.0196,  0.0215,  0.0340,  0.0019, -0.0009,  0.0029,
+        -0.0006, -0.0407], device='cuda:0'), grad: tensor([ 3.5949e-07, -3.6880e-07, -4.9591e-05, -1.4901e-05,  4.4614e-05,
+        -1.8626e-06,  5.1521e-06,  1.0714e-05,  4.6268e-06,  1.2573e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 172, time 217.25, cls_loss 0.0033 cls_loss_mapping 0.0052 cls_loss_causal 0.5655 re_mapping 0.0071 re_causal 0.0207 /// teacc 99.02 lr 0.00010000
+Epoch 174, weight, value: tensor([[-0.1244,  0.1580, -0.0301,  ..., -0.0081,  0.0719,  0.0016],
+        [ 0.1220, -0.0905,  0.0281,  ..., -0.0630, -0.0144, -0.0562],
+        [-0.0551, -0.1360,  0.0027,  ..., -0.0395,  0.0462, -0.1469],
+        ...,
+        [-0.1322, -0.1370,  0.0550,  ..., -0.0633, -0.0688, -0.1042],
+        [-0.0646, -0.0018,  0.0212,  ...,  0.0263, -0.0897,  0.0337],
+        [-0.0582, -0.0230,  0.0817,  ...,  0.1435, -0.0466, -0.1273]],
+       device='cuda:0'), grad: tensor([[ 1.7695e-07, -3.9302e-07,  6.3516e-07,  ...,  7.3016e-07,
+          5.4017e-08,  1.1362e-07],
+        [-2.1663e-06, -1.8626e-09, -7.9535e-07,  ...,  5.0291e-08,
+          3.7812e-07,  1.2480e-07],
+        [ 4.0233e-07,  3.5390e-07,  1.4618e-05,  ...,  6.1467e-08,
+          3.0454e-06,  9.4436e-07],
+        ...,
+        [ 4.2841e-07,  1.1548e-07, -1.8433e-05,  ...,  6.8918e-08,
+         -4.0904e-06,  6.8918e-08],
+        [ 7.7859e-07,  3.3695e-06,  3.8967e-06,  ...,  3.2764e-06,
+          2.0862e-07,  7.5437e-07],
+        [ 1.1705e-05,  4.3772e-06, -4.0680e-06,  ..., -6.0350e-06,
+          1.5832e-07,  4.4182e-06]], device='cuda:0')
+Epoch 174, bias, value: tensor([ 0.0323,  0.0076,  0.0199,  0.0213,  0.0344,  0.0023, -0.0007,  0.0029,
+        -0.0009, -0.0408], device='cuda:0'), grad: tensor([ 2.2911e-07,  2.4028e-07,  3.2634e-05,  1.5274e-06,  1.3355e-06,
+        -1.6823e-05,  2.0768e-06, -3.7849e-05,  1.0334e-05,  6.2212e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 173, time 218.27, cls_loss 0.0026 cls_loss_mapping 0.0040 cls_loss_causal 0.5168 re_mapping 0.0070 re_causal 0.0208 /// teacc 98.90 lr 0.00010000
+Epoch 175, weight, value: tensor([[-0.1246,  0.1581, -0.0302,  ..., -0.0082,  0.0719,  0.0014],
+        [ 0.1224, -0.0909,  0.0285,  ..., -0.0608, -0.0144, -0.0568],
+        [-0.0545, -0.1374,  0.0021,  ..., -0.0396,  0.0461, -0.1479],
+        ...,
+        [-0.1330, -0.1382,  0.0550,  ..., -0.0645, -0.0688, -0.1048],
+        [-0.0658, -0.0022,  0.0211,  ...,  0.0259, -0.0897,  0.0332],
+        [-0.0586, -0.0228,  0.0821,  ...,  0.1450, -0.0466, -0.1274]],
+       device='cuda:0'), grad: tensor([[ 8.1025e-07, -7.1898e-06, -1.7956e-06,  ...,  2.2352e-08,
+          0.0000e+00,  8.9593e-07],
+        [ 1.3039e-08,  2.8871e-07, -6.8918e-08,  ...,  2.5406e-06,
+          0.0000e+00,  1.7695e-07],
+        [ 5.2154e-08,  5.8860e-07,  3.6322e-07,  ...,  2.6077e-08,
+         -3.7253e-09,  5.3272e-07],
+        ...,
+        [ 1.1548e-07,  7.0781e-08,  1.6764e-07,  ...,  3.4831e-07,
+          3.7253e-09,  6.8918e-08],
+        [ 2.4825e-05,  6.4909e-05, -2.8498e-07,  ...,  5.7742e-08,
+          0.0000e+00,  3.7819e-05],
+        [ 4.6194e-07,  8.9705e-06,  1.1567e-06,  ...,  1.3281e-06,
+          0.0000e+00,  6.7428e-07]], device='cuda:0')
+Epoch 175, bias, value: tensor([ 0.0322,  0.0077,  0.0199,  0.0212,  0.0338,  0.0027, -0.0008,  0.0029,
+        -0.0013, -0.0405], device='cuda:0'), grad: tensor([-6.3702e-06,  3.2723e-05,  1.8105e-06,  2.0582e-06, -5.5611e-05,
+         4.3631e-05, -1.7476e-04,  4.4405e-06,  1.2130e-04,  3.0696e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 174, time 217.50, cls_loss 0.0025 cls_loss_mapping 0.0034 cls_loss_causal 0.5629 re_mapping 0.0068 re_causal 0.0207 /// teacc 98.80 lr 0.00010000
+Epoch 176, weight, value: tensor([[-0.1248,  0.1587, -0.0301,  ..., -0.0082,  0.0721,  0.0008],
+        [ 0.1229, -0.0909,  0.0283,  ..., -0.0607, -0.0144, -0.0575],
+        [-0.0554, -0.1391,  0.0017,  ..., -0.0396,  0.0462, -0.1500],
+        ...,
+        [-0.1330, -0.1391,  0.0554,  ..., -0.0646, -0.0689, -0.1046],
+        [-0.0660, -0.0020,  0.0214,  ...,  0.0259, -0.0897,  0.0339],
+        [-0.0596, -0.0235,  0.0823,  ...,  0.1450, -0.0466, -0.1288]],
+       device='cuda:0'), grad: tensor([[ 3.5428e-06, -1.8626e-08,  4.8243e-06,  ...,  1.7546e-06,
+          4.2468e-07,  0.0000e+00],
+        [-2.5105e-04,  3.7253e-09, -6.4433e-05,  ...,  3.3528e-08,
+         -2.6032e-05,  0.0000e+00],
+        [ 1.3077e-04,  3.7253e-08,  2.2486e-05,  ...,  2.6077e-07,
+          1.6123e-05,  1.3970e-07],
+        ...,
+        [ 1.0312e-04, -2.6077e-08,  3.8743e-05,  ...,  1.8813e-07,
+          8.0466e-06,  1.8626e-09],
+        [ 2.4550e-06, -1.5646e-07,  1.9073e-06,  ...,  1.0058e-07,
+          1.8068e-07, -4.7684e-07],
+        [ 1.1381e-06,  2.2352e-08, -1.9148e-05,  ..., -6.3628e-06,
+          1.1176e-07,  5.5879e-09]], device='cuda:0')
+Epoch 176, bias, value: tensor([ 0.0324,  0.0076,  0.0191,  0.0214,  0.0355,  0.0029, -0.0007,  0.0033,
+        -0.0013, -0.0422], device='cuda:0'), grad: tensor([ 1.6555e-05, -4.7183e-04,  2.6155e-04,  1.1437e-05,  2.4468e-05,
+         3.4869e-06,  5.2117e-06,  1.7774e-04,  5.7444e-06, -3.4571e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 175, time 217.87, cls_loss 0.0034 cls_loss_mapping 0.0032 cls_loss_causal 0.5059 re_mapping 0.0069 re_causal 0.0198 /// teacc 98.91 lr 0.00010000
+Epoch 177, weight, value: tensor([[-0.1277,  0.1575, -0.0301,  ..., -0.0085,  0.0722,  0.0004],
+        [ 0.1237, -0.0909,  0.0283,  ..., -0.0607, -0.0143, -0.0578],
+        [-0.0557, -0.1396,  0.0017,  ..., -0.0397,  0.0462, -0.1506],
+        ...,
+        [-0.1351, -0.1411,  0.0530,  ..., -0.0647, -0.0691, -0.1062],
+        [-0.0663, -0.0014,  0.0226,  ...,  0.0259, -0.0898,  0.0362],
+        [-0.0568, -0.0243,  0.0850,  ...,  0.1453, -0.0467, -0.1316]],
+       device='cuda:0'), grad: tensor([[-1.3132e-06, -1.3493e-05, -1.1120e-06,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [-1.8738e-06,  8.9407e-08, -1.8179e-06,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [ 3.9116e-07,  4.1574e-06,  1.7304e-06,  ...,  1.8626e-09,
+          0.0000e+00,  1.6391e-07],
+        ...,
+        [ 7.1153e-07,  4.0978e-08, -4.0382e-06,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-09],
+        [ 1.2852e-07,  9.5740e-07,  2.4773e-07,  ..., -1.8626e-09,
+          0.0000e+00, -1.8440e-07],
+        [ 1.3784e-07,  1.0915e-06,  2.7642e-06,  ..., -1.8626e-09,
+          0.0000e+00,  5.5879e-09]], device='cuda:0')
+Epoch 177, bias, value: tensor([ 0.0307,  0.0077,  0.0193,  0.0212,  0.0354,  0.0032,  0.0006,  0.0011,
+        -0.0005, -0.0403], device='cuda:0'), grad: tensor([-2.9653e-05, -2.3544e-06,  1.1727e-05,  3.5074e-06,  9.3691e-07,
+         2.4904e-06,  1.1094e-05, -9.4771e-06,  3.3211e-06,  8.2999e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 176, time 217.76, cls_loss 0.0024 cls_loss_mapping 0.0041 cls_loss_causal 0.5442 re_mapping 0.0075 re_causal 0.0214 /// teacc 98.92 lr 0.00010000
+Epoch 178, weight, value: tensor([[-0.1278,  0.1582, -0.0299,  ..., -0.0086,  0.0723,  0.0014],
+        [ 0.1244, -0.0913,  0.0290,  ..., -0.0613, -0.0143, -0.0584],
+        [-0.0558, -0.1409,  0.0013,  ..., -0.0398,  0.0461, -0.1517],
+        ...,
+        [-0.1358, -0.1420,  0.0526,  ..., -0.0647, -0.0691, -0.1075],
+        [-0.0661,  0.0003,  0.0233,  ...,  0.0258, -0.0899,  0.0386],
+        [-0.0568, -0.0245,  0.0851,  ...,  0.1462, -0.0467, -0.1327]],
+       device='cuda:0'), grad: tensor([[ 2.3618e-06,  9.0525e-07,  8.0187e-07,  ...,  1.3001e-06,
+          0.0000e+00,  2.7195e-07],
+        [-1.7509e-07,  1.0990e-07,  4.7162e-06,  ...,  6.7987e-08,
+          0.0000e+00,  1.6857e-07],
+        [ 1.9027e-06,  1.3337e-06,  1.0580e-04,  ...,  1.0664e-06,
+          0.0000e+00,  1.8906e-07],
+        ...,
+        [ 4.6939e-07,  1.5181e-07, -1.1075e-04,  ...,  1.0896e-07,
+          0.0000e+00,  1.3225e-07],
+        [ 1.8597e-05,  3.5372e-06,  6.7148e-07,  ...,  4.6659e-07,
+          0.0000e+00,  1.6987e-05],
+        [-8.9705e-06, -7.0594e-06, -2.5317e-05,  ..., -1.3985e-05,
+          0.0000e+00,  6.5565e-07]], device='cuda:0')
+Epoch 178, bias, value: tensor([ 0.0309,  0.0081,  0.0194,  0.0211,  0.0350,  0.0033, -0.0002,  0.0008,
+         0.0003, -0.0401], device='cuda:0'), grad: tensor([ 5.4948e-06,  2.2829e-05,  2.2101e-04,  3.7223e-05,  6.5230e-06,
+        -1.4424e-04,  8.7321e-05, -2.2411e-04,  3.3855e-05, -4.6313e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 177, time 217.36, cls_loss 0.0022 cls_loss_mapping 0.0042 cls_loss_causal 0.5519 re_mapping 0.0068 re_causal 0.0204 /// teacc 98.87 lr 0.00010000
+Epoch 179, weight, value: tensor([[-0.1274,  0.1594, -0.0296,  ..., -0.0087,  0.0723,  0.0027],
+        [ 0.1249, -0.0918,  0.0292,  ..., -0.0612, -0.0143, -0.0592],
+        [-0.0562, -0.1424,  0.0011,  ..., -0.0399,  0.0463, -0.1518],
+        ...,
+        [-0.1362, -0.1434,  0.0526,  ..., -0.0653, -0.0694, -0.1079],
+        [-0.0662,  0.0007,  0.0234,  ...,  0.0257, -0.0901,  0.0388],
+        [-0.0568, -0.0250,  0.0851,  ...,  0.1466, -0.0467, -0.1335]],
+       device='cuda:0'), grad: tensor([[-6.6124e-08, -1.7965e-06, -6.8732e-07,  ...,  2.3283e-08,
+          0.0000e+00,  1.6391e-07],
+        [ 3.0734e-07,  4.2692e-06,  7.5772e-06,  ...,  6.1467e-08,
+          0.0000e+00,  5.3048e-06],
+        [-4.4145e-07,  4.9733e-07,  8.7731e-07,  ...,  1.0896e-07,
+          0.0000e+00,  6.6590e-07],
+        ...,
+        [ 1.4156e-07,  5.5507e-07,  6.4541e-07,  ...,  9.0338e-08,
+          0.0000e+00,  1.0813e-06],
+        [-9.4436e-07, -1.2070e-05, -1.7881e-05,  ..., -5.0515e-06,
+          0.0000e+00, -8.2552e-06],
+        [ 9.1549e-07,  7.0222e-06,  6.9961e-06,  ...,  4.1425e-06,
+          0.0000e+00,  3.1814e-06]], device='cuda:0')
+Epoch 179, bias, value: tensor([ 3.1254e-02,  8.2139e-03,  1.9783e-02,  2.1321e-02,  3.5509e-02,
+         2.9895e-03, -4.0581e-04,  7.7312e-04,  9.0251e-05, -4.0533e-02],
+       device='cuda:0'), grad: tensor([-2.0415e-06,  1.7539e-05, -8.3670e-06, -3.7774e-06,  2.4009e-06,
+         2.6505e-06,  2.6077e-07,  3.2596e-06, -2.2382e-05,  1.0461e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 178, time 217.60, cls_loss 0.0031 cls_loss_mapping 0.0054 cls_loss_causal 0.5193 re_mapping 0.0071 re_causal 0.0196 /// teacc 98.83 lr 0.00010000
+Epoch 180, weight, value: tensor([[-1.2775e-01,  1.6028e-01, -2.9261e-02,  ..., -8.6730e-03,
+          7.2672e-02,  2.6627e-03],
+        [ 1.2515e-01, -9.2059e-02,  2.8988e-02,  ..., -6.2197e-02,
+         -1.4233e-02, -6.0048e-02],
+        [-5.6443e-02, -1.4396e-01,  1.2706e-04,  ..., -3.9997e-02,
+          4.6035e-02, -1.5265e-01],
+        ...,
+        [-1.3626e-01, -1.4428e-01,  5.2864e-02,  ..., -6.6150e-02,
+         -6.9440e-02, -1.0752e-01],
+        [-6.6836e-02,  1.1181e-03,  2.3345e-02,  ...,  2.5704e-02,
+         -9.0155e-02,  3.8912e-02],
+        [-5.6728e-02, -2.6038e-02,  8.5428e-02,  ...,  1.4747e-01,
+         -4.7039e-02, -1.3453e-01]], device='cuda:0'), grad: tensor([[ 8.8476e-08, -8.0541e-06, -2.0415e-06,  ...,  6.8918e-08,
+          4.6566e-09, -2.3991e-06],
+        [ 5.7459e-05,  5.7090e-07,  1.6749e-04,  ...,  4.8518e-05,
+          9.3132e-10,  1.9092e-07],
+        [ 2.4121e-07,  3.5483e-07,  1.4976e-06,  ...,  2.0117e-07,
+          0.0000e+00,  1.6484e-07],
+        ...,
+        [ 1.6801e-06,  6.3330e-08, -3.3416e-06,  ...,  1.3132e-06,
+          0.0000e+00,  4.4703e-08],
+        [ 3.5781e-06,  4.6417e-06,  1.2591e-05,  ...,  2.9765e-06,
+          1.5926e-07,  1.5525e-06],
+        [-6.5744e-05,  6.7614e-07, -1.8573e-04,  ..., -5.5462e-05,
+          0.0000e+00,  3.0734e-08]], device='cuda:0')
+Epoch 180, bias, value: tensor([ 3.1604e-02,  7.7109e-03,  1.8949e-02,  2.1374e-02,  3.5512e-02,
+         2.5156e-03, -4.0657e-05,  1.4157e-03, -2.6940e-04, -4.0445e-02],
+       device='cuda:0'), grad: tensor([-1.3456e-05,  1.9753e-04,  2.2482e-06,  6.7428e-06,  2.2631e-07,
+         9.5591e-06, -1.2711e-05, -3.4198e-06,  2.4125e-05, -2.1088e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 179, time 217.78, cls_loss 0.0034 cls_loss_mapping 0.0045 cls_loss_causal 0.5583 re_mapping 0.0067 re_causal 0.0192 /// teacc 98.88 lr 0.00010000
+Epoch 181, weight, value: tensor([[-0.1279,  0.1628, -0.0285,  ..., -0.0086,  0.0726,  0.0014],
+        [ 0.1257, -0.0940,  0.0291,  ..., -0.0629, -0.0141, -0.0611],
+        [-0.0564, -0.1471, -0.0003,  ..., -0.0403,  0.0460, -0.1545],
+        ...,
+        [-0.1366, -0.1456,  0.0530,  ..., -0.0664, -0.0695, -0.1080],
+        [-0.0674,  0.0011,  0.0234,  ...,  0.0258, -0.0903,  0.0397],
+        [-0.0572, -0.0263,  0.0859,  ...,  0.1480, -0.0470, -0.1342]],
+       device='cuda:0'), grad: tensor([[ 6.8918e-08, -4.0084e-06, -4.6566e-09,  ...,  0.0000e+00,
+          0.0000e+00,  7.1712e-08],
+        [ 2.7940e-07,  3.5297e-07,  1.8440e-07,  ...,  0.0000e+00,
+          0.0000e+00,  2.8871e-07],
+        [ 6.7055e-08,  1.7788e-07,  2.6431e-06,  ...,  4.6566e-09,
+          0.0000e+00,  6.9849e-08],
+        ...,
+        [ 1.0245e-07,  2.0303e-07, -4.6380e-06,  ...,  0.0000e+00,
+          0.0000e+00, -2.2724e-07],
+        [ 1.1735e-05,  7.9796e-06,  9.1270e-08,  ..., -6.5193e-09,
+          0.0000e+00,  7.0557e-06],
+        [ 4.6194e-07,  1.0263e-06, -3.8184e-08,  ...,  0.0000e+00,
+          0.0000e+00,  3.6228e-07]], device='cuda:0')
+Epoch 181, bias, value: tensor([ 0.0333,  0.0073,  0.0185,  0.0215,  0.0340,  0.0056, -0.0036,  0.0016,
+        -0.0007, -0.0396], device='cuda:0'), grad: tensor([-5.0999e-06,  4.4405e-06,  4.6380e-06,  3.8743e-05, -1.8636e-06,
+        -5.0128e-05,  2.6785e-06, -1.1928e-05,  1.5944e-05,  2.6058e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 180, time 217.03, cls_loss 0.0021 cls_loss_mapping 0.0031 cls_loss_causal 0.5164 re_mapping 0.0070 re_causal 0.0205 /// teacc 98.93 lr 0.00010000
+Epoch 182, weight, value: tensor([[-1.2782e-01,  1.6320e-01, -2.8356e-02,  ..., -8.6621e-03,
+          7.2718e-02,  1.0329e-04],
+        [ 1.2582e-01, -9.4193e-02,  2.7411e-02,  ..., -6.2927e-02,
+         -1.4140e-02, -6.1301e-02],
+        [-5.6868e-02, -1.4775e-01,  4.5387e-05,  ..., -4.0272e-02,
+          4.6003e-02, -1.5456e-01],
+        ...,
+        [-1.3639e-01, -1.4614e-01,  5.4162e-02,  ..., -6.6421e-02,
+         -6.9478e-02, -1.0851e-01],
+        [-6.7894e-02,  1.1510e-03,  2.3325e-02,  ...,  2.5731e-02,
+         -9.0405e-02,  4.0039e-02],
+        [-5.7360e-02, -2.6582e-02,  8.6097e-02,  ...,  1.4870e-01,
+         -4.7069e-02, -1.3439e-01]], device='cuda:0'), grad: tensor([[ 9.4995e-08, -7.8976e-07,  5.4576e-07,  ...,  2.7940e-09,
+          0.0000e+00,  1.3411e-07],
+        [-2.9244e-07,  1.5553e-07,  7.4208e-06,  ...,  4.6566e-09,
+          0.0000e+00,  2.3749e-07],
+        [ 8.1956e-08,  1.5739e-07, -3.8534e-05,  ...,  3.7253e-09,
+          0.0000e+00,  5.5879e-08],
+        ...,
+        [ 2.1886e-07,  6.5193e-08,  1.0028e-05,  ...,  1.0245e-08,
+          0.0000e+00,  1.1362e-07],
+        [ 2.0117e-07,  3.9209e-07,  1.9610e-05,  ...,  6.2399e-08,
+          0.0000e+00,  1.7043e-07],
+        [-3.1777e-06, -2.0713e-06, -4.4793e-05,  ..., -9.9018e-06,
+          0.0000e+00, -4.9025e-06]], device='cuda:0')
+Epoch 182, bias, value: tensor([ 0.0333,  0.0063,  0.0186,  0.0214,  0.0340,  0.0063, -0.0042,  0.0022,
+        -0.0010, -0.0395], device='cuda:0'), grad: tensor([ 8.1435e-06,  7.6115e-05, -3.0565e-04,  2.5742e-06,  1.3626e-04,
+         1.8880e-05,  3.9265e-06,  7.6294e-05,  1.3387e-04, -1.5008e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 181, time 217.67, cls_loss 0.0017 cls_loss_mapping 0.0032 cls_loss_causal 0.5506 re_mapping 0.0064 re_causal 0.0200 /// teacc 98.95 lr 0.00010000
+Epoch 183, weight, value: tensor([[-0.1286,  0.1628, -0.0284,  ..., -0.0087,  0.0727,  0.0002],
+        [ 0.1262, -0.0940,  0.0274,  ..., -0.0633, -0.0141, -0.0616],
+        [-0.0571, -0.1484, -0.0002,  ..., -0.0403,  0.0460, -0.1548],
+        ...,
+        [-0.1365, -0.1463,  0.0543,  ..., -0.0665, -0.0695, -0.1085],
+        [-0.0683,  0.0010,  0.0233,  ...,  0.0257, -0.0906,  0.0402],
+        [-0.0574, -0.0268,  0.0861,  ...,  0.1489, -0.0471, -0.1348]],
+       device='cuda:0'), grad: tensor([[ 5.3085e-08, -3.3863e-06, -2.3209e-06,  ...,  9.3132e-10,
+          0.0000e+00,  4.1910e-08],
+        [-8.3260e-07,  4.3772e-07, -6.6217e-07,  ...,  1.8626e-09,
+          0.0000e+00,  6.4261e-08],
+        [ 3.2503e-07,  3.1944e-07,  9.4436e-07,  ...,  0.0000e+00,
+          0.0000e+00,  3.5297e-07],
+        ...,
+        [ 2.0675e-07,  5.3458e-07,  1.4855e-06,  ...,  1.8626e-09,
+          0.0000e+00,  7.4506e-08],
+        [ 1.2293e-07, -1.8626e-08, -2.4121e-07,  ...,  2.2352e-08,
+          0.0000e+00, -1.3290e-06],
+        [ 3.7253e-08,  6.5379e-07, -2.3767e-06,  ..., -6.7055e-08,
+          0.0000e+00,  6.7055e-08]], device='cuda:0')
+Epoch 183, bias, value: tensor([ 0.0325,  0.0063,  0.0187,  0.0213,  0.0341,  0.0062, -0.0036,  0.0024,
+        -0.0012, -0.0396], device='cuda:0'), grad: tensor([-3.8631e-06, -2.3562e-07,  4.0326e-07,  2.2911e-06,  2.4121e-07,
+         8.9128e-07,  1.2135e-06,  4.1351e-06, -8.5216e-07, -4.2357e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 182, time 217.27, cls_loss 0.0022 cls_loss_mapping 0.0036 cls_loss_causal 0.5366 re_mapping 0.0065 re_causal 0.0197 /// teacc 98.99 lr 0.00010000
+Epoch 184, weight, value: tensor([[-0.1285,  0.1640, -0.0280,  ..., -0.0087,  0.0726,  0.0003],
+        [ 0.1263, -0.0944,  0.0273,  ..., -0.0629, -0.0142, -0.0629],
+        [-0.0572, -0.1492, -0.0006,  ..., -0.0403,  0.0460, -0.1549],
+        ...,
+        [-0.1366, -0.1472,  0.0534,  ..., -0.0668, -0.0695, -0.1116],
+        [-0.0693,  0.0004,  0.0261,  ...,  0.0255, -0.0927,  0.0431],
+        [-0.0575, -0.0265,  0.0861,  ...,  0.1492, -0.0472, -0.1349]],
+       device='cuda:0'), grad: tensor([[ 2.1420e-08, -2.3991e-06, -1.0431e-06,  ...,  0.0000e+00,
+          0.0000e+00,  3.4459e-08],
+        [-2.5239e-07,  2.1327e-07,  2.6356e-07,  ...,  9.3132e-09,
+          0.0000e+00,  6.8918e-08],
+        [ 1.6298e-07,  2.3171e-06,  1.1958e-06,  ...,  9.3132e-10,
+          0.0000e+00,  3.1367e-06],
+        ...,
+        [ 9.6858e-08,  2.0768e-07, -4.3958e-07,  ...,  3.9116e-08,
+          0.0000e+00,  9.6858e-08],
+        [ 2.4959e-07, -2.3842e-06, -1.1008e-06,  ...,  9.3132e-10,
+          0.0000e+00, -4.0866e-06],
+        [ 3.0734e-08,  6.9663e-07, -1.3970e-08,  ..., -7.9162e-08,
+          0.0000e+00,  6.6124e-08]], device='cuda:0')
+Epoch 184, bias, value: tensor([ 0.0331,  0.0060,  0.0189,  0.0214,  0.0341,  0.0064, -0.0042,  0.0017,
+         0.0010, -0.0398], device='cuda:0'), grad: tensor([-3.3937e-06,  6.6403e-07,  6.5789e-06,  4.6372e-05,  3.7067e-07,
+        -4.4584e-05,  9.7509e-07, -3.9395e-07, -7.3761e-06,  7.3947e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 183, time 217.64, cls_loss 0.0024 cls_loss_mapping 0.0030 cls_loss_causal 0.4930 re_mapping 0.0064 re_causal 0.0189 /// teacc 99.01 lr 0.00010000
+Epoch 185, weight, value: tensor([[-0.1292,  0.1635, -0.0306,  ..., -0.0087,  0.0723, -0.0006],
+        [ 0.1265, -0.0946,  0.0272,  ..., -0.0631, -0.0141, -0.0633],
+        [-0.0566, -0.1514, -0.0023,  ..., -0.0404,  0.0458, -0.1566],
+        ...,
+        [-0.1369, -0.1491,  0.0536,  ..., -0.0672, -0.0697, -0.1116],
+        [-0.0695,  0.0011,  0.0264,  ...,  0.0258, -0.0930,  0.0440],
+        [-0.0578, -0.0251,  0.0866,  ...,  0.1494, -0.0473, -0.1370]],
+       device='cuda:0'), grad: tensor([[ 1.2666e-07, -9.8705e-05, -9.1851e-05,  ...,  7.4506e-09,
+          8.3819e-09,  1.9092e-07],
+        [-8.8848e-07,  2.3097e-07, -5.9977e-07,  ...,  1.1176e-08,
+         -2.0489e-08,  3.1851e-07],
+        [ 1.7695e-07,  3.8650e-07,  6.6962e-07,  ...,  2.2352e-08,
+         -5.6811e-08,  4.7944e-06],
+        ...,
+        [ 2.3283e-07,  9.2201e-08,  8.7451e-07,  ...,  7.3574e-08,
+          3.2596e-08,  1.8775e-05],
+        [ 2.3842e-07,  4.1723e-07,  1.5758e-06,  ...,  8.2888e-08,
+          8.3819e-09,  1.2284e-06],
+        [ 9.6858e-08,  9.6500e-05,  8.5652e-05,  ..., -4.1351e-07,
+          5.5879e-09,  3.4180e-07]], device='cuda:0')
+Epoch 185, bias, value: tensor([ 0.0314,  0.0058,  0.0188,  0.0208,  0.0343,  0.0064, -0.0040,  0.0019,
+         0.0015, -0.0393], device='cuda:0'), grad: tensor([-2.6774e-04,  2.1514e-07,  9.7975e-06, -4.3988e-05,  3.9712e-06,
+         5.5581e-06, -6.4597e-06,  3.2812e-05,  6.6608e-06,  2.5845e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 184, time 217.82, cls_loss 0.0026 cls_loss_mapping 0.0039 cls_loss_causal 0.5259 re_mapping 0.0067 re_causal 0.0194 /// teacc 98.93 lr 0.00010000
+Epoch 186, weight, value: tensor([[-0.1294,  0.1642, -0.0300,  ..., -0.0083,  0.0723, -0.0021],
+        [ 0.1269, -0.0947,  0.0272,  ..., -0.0632, -0.0141, -0.0636],
+        [-0.0568, -0.1522, -0.0027,  ..., -0.0404,  0.0458, -0.1573],
+        ...,
+        [-0.1373, -0.1513,  0.0538,  ..., -0.0674, -0.0698, -0.1120],
+        [-0.0702,  0.0006,  0.0264,  ...,  0.0257, -0.0930,  0.0439],
+        [-0.0586, -0.0277,  0.0873,  ...,  0.1517, -0.0474, -0.1379]],
+       device='cuda:0'), grad: tensor([[ 1.3039e-07, -8.3633e-07,  9.6858e-08,  ...,  2.9802e-08,
+          2.0489e-08,  3.1851e-07],
+        [-8.5756e-06, -1.8254e-07, -1.9133e-05,  ...,  1.3039e-08,
+         -7.2457e-07,  2.6077e-07],
+        [ 5.5209e-06,  4.0047e-07,  1.3195e-05,  ...,  4.0978e-08,
+          5.3458e-07,  1.4175e-06],
+        ...,
+        [ 1.4585e-06,  1.7881e-07,  3.6396e-06,  ...,  2.8685e-07,
+          2.4028e-07,  3.0696e-06],
+        [ 5.6438e-07,  1.8254e-07,  1.0245e-06,  ...,  1.3225e-07,
+          6.8918e-08, -3.1404e-06],
+        [ 1.4715e-07,  3.1292e-07, -2.1793e-07,  ...,  7.4506e-09,
+          4.2841e-08,  9.9838e-07]], device='cuda:0')
+Epoch 186, bias, value: tensor([ 0.0314,  0.0056,  0.0186,  0.0211,  0.0326,  0.0070, -0.0034,  0.0020,
+         0.0011, -0.0386], device='cuda:0'), grad: tensor([ 5.3830e-07, -4.3660e-05,  3.4750e-05, -1.6347e-05, -1.2424e-06,
+         6.1169e-06,  1.9018e-06,  1.7822e-05, -3.7868e-06,  3.8445e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 185, time 217.79, cls_loss 0.0026 cls_loss_mapping 0.0036 cls_loss_causal 0.5278 re_mapping 0.0068 re_causal 0.0194 /// teacc 98.88 lr 0.00010000
+Epoch 187, weight, value: tensor([[-0.1299,  0.1644, -0.0298,  ..., -0.0083,  0.0723, -0.0010],
+        [ 0.1281, -0.0944,  0.0269,  ..., -0.0639, -0.0141, -0.0634],
+        [-0.0581, -0.1532, -0.0032,  ..., -0.0405,  0.0458, -0.1585],
+        ...,
+        [-0.1376, -0.1531,  0.0542,  ..., -0.0674, -0.0698, -0.1119],
+        [-0.0707,  0.0005,  0.0265,  ...,  0.0257, -0.0930,  0.0441],
+        [-0.0596, -0.0292,  0.0872,  ...,  0.1519, -0.0474, -0.1386]],
+       device='cuda:0'), grad: tensor([[ 3.3528e-08, -4.6611e-05, -7.6890e-06,  ...,  0.0000e+00,
+          0.0000e+00, -1.0423e-05],
+        [-2.6170e-06,  1.8813e-07,  2.0266e-05,  ...,  0.0000e+00,
+          0.0000e+00,  1.5460e-07],
+        [ 1.3597e-07,  4.6752e-07,  1.1157e-06,  ...,  0.0000e+00,
+          0.0000e+00,  2.3693e-06],
+        ...,
+        [ 3.0547e-07,  8.8103e-07, -3.4869e-05,  ...,  0.0000e+00,
+          0.0000e+00,  6.8359e-07],
+        [ 1.1884e-06,  1.2651e-05, -3.1348e-06,  ...,  0.0000e+00,
+          0.0000e+00, -5.7742e-08],
+        [ 8.7544e-08,  3.1032e-06,  3.1125e-06,  ...,  0.0000e+00,
+          0.0000e+00,  8.4564e-07]], device='cuda:0')
+Epoch 187, bias, value: tensor([ 0.0309,  0.0056,  0.0178,  0.0213,  0.0323,  0.0070, -0.0027,  0.0025,
+         0.0010, -0.0389], device='cuda:0'), grad: tensor([-4.5389e-05,  3.1829e-05,  6.3293e-06,  2.0474e-05, -1.8422e-06,
+         1.9714e-05,  7.6666e-06, -5.6595e-05,  7.4655e-06,  1.0356e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 186, time 217.91, cls_loss 0.0030 cls_loss_mapping 0.0052 cls_loss_causal 0.5564 re_mapping 0.0069 re_causal 0.0206 /// teacc 98.96 lr 0.00010000
+Epoch 188, weight, value: tensor([[-0.1291,  0.1645, -0.0324,  ..., -0.0076,  0.0722, -0.0004],
+        [ 0.1297, -0.0944,  0.0281,  ..., -0.0642, -0.0140, -0.0603],
+        [-0.0587, -0.1560, -0.0035,  ..., -0.0404,  0.0457, -0.1600],
+        ...,
+        [-0.1389, -0.1536,  0.0534,  ..., -0.0680, -0.0698, -0.1135],
+        [-0.0711,  0.0009,  0.0266,  ...,  0.0258, -0.0931,  0.0447],
+        [-0.0598, -0.0274,  0.0890,  ...,  0.1519, -0.0475, -0.1391]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-08, -2.4810e-05, -5.7630e-06,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-09],
+        [-1.7229e-06,  2.2724e-06, -2.2296e-06,  ...,  1.8626e-09,
+          0.0000e+00,  2.9802e-08],
+        [ 1.0245e-07,  5.4277e-06,  1.2722e-06,  ...,  0.0000e+00,
+          0.0000e+00,  5.9605e-08],
+        ...,
+        [ 2.9430e-07,  4.5262e-07,  3.8370e-07,  ...,  2.9802e-08,
+          0.0000e+00,  2.9802e-08],
+        [ 3.8184e-07,  3.5409e-06,  1.4454e-06,  ...,  1.8626e-09,
+          0.0000e+00,  2.0489e-07],
+        [ 3.9488e-07,  4.9025e-06,  1.9390e-06,  ..., -6.1467e-08,
+          0.0000e+00,  3.9116e-08]], device='cuda:0')
+Epoch 188, bias, value: tensor([ 0.0292,  0.0066,  0.0172,  0.0213,  0.0324,  0.0064, -0.0030,  0.0018,
+         0.0011, -0.0372], device='cuda:0'), grad: tensor([-3.4213e-05, -1.5087e-07,  7.9870e-06, -1.9185e-07, -9.7789e-07,
+         9.4436e-07,  7.0706e-06,  4.6343e-06,  6.1914e-06,  8.6576e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 187, time 217.74, cls_loss 0.0017 cls_loss_mapping 0.0022 cls_loss_causal 0.5179 re_mapping 0.0065 re_causal 0.0202 /// teacc 99.00 lr 0.00010000
+Epoch 189, weight, value: tensor([[-0.1293,  0.1648, -0.0324,  ..., -0.0076,  0.0722, -0.0008],
+        [ 0.1312, -0.0942,  0.0286,  ..., -0.0645, -0.0140, -0.0601],
+        [-0.0598, -0.1561, -0.0040,  ..., -0.0403,  0.0457, -0.1603],
+        ...,
+        [-0.1396, -0.1544,  0.0533,  ..., -0.0680, -0.0698, -0.1136],
+        [-0.0717,  0.0008,  0.0264,  ...,  0.0257, -0.0932,  0.0448],
+        [-0.0599, -0.0277,  0.0890,  ...,  0.1522, -0.0475, -0.1395]],
+       device='cuda:0'), grad: tensor([[ 6.3330e-08, -8.3447e-06, -3.4869e-06,  ...,  0.0000e+00,
+          0.0000e+00,  1.4901e-08],
+        [-3.9399e-05,  2.6822e-07, -7.7784e-05,  ...,  0.0000e+00,
+          0.0000e+00,  3.3528e-08],
+        [ 5.5879e-08,  9.3132e-07,  5.2154e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.1548e-07],
+        ...,
+        [ 2.5593e-06,  6.7055e-07,  4.5151e-06,  ...,  0.0000e+00,
+          0.0000e+00,  3.3528e-08],
+        [ 2.9802e-07,  2.9802e-07,  5.2154e-08,  ...,  3.7253e-09,
+          0.0000e+00, -1.6391e-07],
+        [ 2.0489e-06,  4.3213e-06,  4.6603e-06,  ..., -1.1176e-08,
+          0.0000e+00,  2.6450e-07]], device='cuda:0')
+Epoch 189, bias, value: tensor([ 0.0293,  0.0078,  0.0165,  0.0211,  0.0328,  0.0063, -0.0029,  0.0014,
+         0.0008, -0.0376], device='cuda:0'), grad: tensor([-1.6049e-05, -1.5569e-04,  2.4624e-06,  2.6263e-06,  1.4067e-04,
+        -9.5367e-07,  1.9744e-06,  8.4937e-06,  1.1399e-06,  1.4991e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 188, time 217.87, cls_loss 0.0019 cls_loss_mapping 0.0029 cls_loss_causal 0.5237 re_mapping 0.0067 re_causal 0.0197 /// teacc 98.97 lr 0.00010000
+Epoch 190, weight, value: tensor([[-0.1293,  0.1652, -0.0323,  ..., -0.0077,  0.0725, -0.0011],
+        [ 0.1326, -0.0944,  0.0289,  ..., -0.0644, -0.0140, -0.0601],
+        [-0.0614, -0.1543, -0.0036,  ..., -0.0401,  0.0458, -0.1586],
+        ...,
+        [-0.1399, -0.1555,  0.0533,  ..., -0.0682, -0.0698, -0.1137],
+        [-0.0721,  0.0004,  0.0260,  ...,  0.0256, -0.0933,  0.0444],
+        [-0.0600, -0.0278,  0.0889,  ...,  0.1525, -0.0476, -0.1398]],
+       device='cuda:0'), grad: tensor([[ 2.6822e-07,  1.3530e-05,  1.1370e-05,  ...,  2.8126e-06,
+          0.0000e+00,  1.4044e-06],
+        [ 1.0407e-04,  4.0233e-05, -6.1840e-07,  ...,  2.2352e-08,
+          0.0000e+00,  5.4479e-05],
+        [ 4.9546e-07,  1.3150e-06,  1.1846e-06,  ...,  3.3155e-07,
+          3.7253e-09,  1.5758e-06],
+        ...,
+        [ 5.8115e-07,  1.2293e-07,  1.2293e-07,  ...,  3.7253e-09,
+          0.0000e+00,  2.0117e-07],
+        [ 1.9193e-05,  8.5086e-06,  1.3560e-06,  ...,  2.8685e-07,
+         -7.4506e-09,  8.0913e-06],
+        [ 1.8477e-06, -1.6421e-05, -1.4395e-05,  ..., -3.5726e-06,
+          0.0000e+00, -5.8487e-07]], device='cuda:0')
+Epoch 190, bias, value: tensor([ 2.9465e-02,  8.4648e-03,  1.6531e-02,  2.1288e-02,  3.2799e-02,
+         6.1162e-03, -3.0418e-03,  1.3587e-03,  6.8367e-05, -3.7699e-02],
+       device='cuda:0'), grad: tensor([ 2.7582e-05,  1.1039e-04,  3.2671e-06,  1.2219e-04,  2.1234e-07,
+        -2.5606e-04,  1.1213e-06,  7.2271e-07,  2.2650e-05, -3.2127e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 189, time 217.83, cls_loss 0.0020 cls_loss_mapping 0.0039 cls_loss_causal 0.5227 re_mapping 0.0067 re_causal 0.0187 /// teacc 98.94 lr 0.00010000
+Epoch 191, weight, value: tensor([[-0.1289,  0.1660, -0.0323,  ..., -0.0077,  0.0728, -0.0003],
+        [ 0.1322, -0.0945,  0.0282,  ..., -0.0644, -0.0140, -0.0608],
+        [-0.0606, -0.1559, -0.0035,  ..., -0.0406,  0.0457, -0.1599],
+        ...,
+        [-0.1400, -0.1563,  0.0539,  ..., -0.0685, -0.0698, -0.1135],
+        [-0.0724,  0.0009,  0.0261,  ...,  0.0268, -0.0934,  0.0448],
+        [-0.0603, -0.0281,  0.0890,  ...,  0.1528, -0.0476, -0.1410]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-08, -4.7684e-07, -1.3411e-07,  ..., -7.4506e-09,
+          0.0000e+00, -7.4506e-09],
+        [-6.4075e-07,  1.1176e-08, -7.3016e-07,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 5.2154e-08,  3.7253e-08,  1.7881e-07,  ...,  1.8626e-08,
+          0.0000e+00,  4.4703e-08],
+        ...,
+        [ 1.3784e-07,  1.4901e-08,  7.4506e-09,  ...,  3.7253e-09,
+          0.0000e+00,  7.4506e-09],
+        [ 9.6858e-08, -1.7136e-07, -9.7603e-07,  ..., -1.6764e-07,
+          0.0000e+00, -3.9861e-07],
+        [ 1.7136e-07,  5.2899e-07,  1.2517e-06,  ...,  1.4529e-07,
+          0.0000e+00,  3.7253e-07]], device='cuda:0')
+Epoch 191, bias, value: tensor([ 0.0296,  0.0074,  0.0168,  0.0214,  0.0329,  0.0060, -0.0031,  0.0020,
+         0.0001, -0.0378], device='cuda:0'), grad: tensor([ 8.3447e-07, -1.2293e-07, -4.2796e-05,  2.3916e-06,  1.1832e-05,
+         2.1979e-07,  9.8348e-07,  2.2471e-05,  5.5879e-07,  3.5726e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 190, time 218.01, cls_loss 0.0022 cls_loss_mapping 0.0045 cls_loss_causal 0.5813 re_mapping 0.0068 re_causal 0.0205 /// teacc 98.95 lr 0.00010000
+Epoch 192, weight, value: tensor([[-0.1291,  0.1661, -0.0323,  ..., -0.0079,  0.0726, -0.0002],
+        [ 0.1323, -0.0946,  0.0283,  ..., -0.0639, -0.0140, -0.0611],
+        [-0.0602, -0.1568, -0.0023,  ..., -0.0408,  0.0458, -0.1595],
+        ...,
+        [-0.1402, -0.1570,  0.0538,  ..., -0.0686, -0.0701, -0.1152],
+        [-0.0729,  0.0026,  0.0265,  ...,  0.0284, -0.0935,  0.0460],
+        [-0.0604, -0.0285,  0.0887,  ...,  0.1522, -0.0472, -0.1430]],
+       device='cuda:0'), grad: tensor([[ 1.3039e-07,  3.5390e-07, -2.6450e-07,  ...,  5.2154e-08,
+          0.0000e+00,  1.0505e-06],
+        [-1.1176e-08,  3.9861e-07,  4.8429e-08,  ...,  1.1176e-08,
+          3.7253e-09,  2.9430e-07],
+        [ 2.4326e-06,  2.9474e-05,  4.9137e-06,  ...,  1.0319e-06,
+          0.0000e+00,  2.0728e-05],
+        ...,
+        [ 4.4703e-08,  2.6450e-07, -2.2352e-08,  ...,  7.4506e-09,
+          0.0000e+00,  1.8999e-07],
+        [-6.2063e-06, -7.6652e-05, -1.2651e-05,  ..., -2.7008e-06,
+          3.7253e-09, -5.4151e-05],
+        [ 2.4959e-07,  3.1665e-06,  7.2271e-07,  ...,  8.1956e-08,
+          0.0000e+00,  1.7844e-06]], device='cuda:0')
+Epoch 192, bias, value: tensor([ 0.0296,  0.0072,  0.0177,  0.0236,  0.0334,  0.0055, -0.0027,  0.0010,
+         0.0007, -0.0383], device='cuda:0'), grad: tensor([ 1.2286e-05,  1.0394e-06,  4.8995e-05,  2.3067e-05,  1.9923e-05,
+         4.9770e-05, -3.5107e-05,  6.7055e-07, -1.2612e-04,  5.2974e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 191, time 218.10, cls_loss 0.0026 cls_loss_mapping 0.0043 cls_loss_causal 0.5598 re_mapping 0.0068 re_causal 0.0194 /// teacc 98.91 lr 0.00010000
+Epoch 193, weight, value: tensor([[-1.2826e-01,  1.6686e-01, -3.2265e-02,  ..., -8.1884e-03,
+          7.2637e-02,  1.3726e-04],
+        [ 1.3308e-01, -9.5010e-02,  2.8872e-02,  ..., -6.2466e-02,
+         -1.3942e-02, -6.0262e-02],
+        [-6.0504e-02, -1.5818e-01, -2.6647e-03,  ..., -4.0893e-02,
+          4.5783e-02, -1.6006e-01],
+        ...,
+        [-1.4071e-01, -1.5864e-01,  5.3862e-02,  ..., -6.8779e-02,
+         -7.0320e-02, -1.1577e-01],
+        [-7.4780e-02,  2.7125e-03,  2.6029e-02,  ...,  2.8250e-02,
+         -9.3661e-02,  4.5927e-02],
+        [-6.1016e-02, -2.8933e-02,  8.8703e-02,  ...,  1.5242e-01,
+         -4.7284e-02, -1.4401e-01]], device='cuda:0'), grad: tensor([[-1.4156e-07, -1.0043e-05, -3.0324e-06,  ...,  0.0000e+00,
+          1.8626e-08,  2.6822e-07],
+        [-9.6858e-08,  6.9663e-07, -1.4901e-08,  ...,  0.0000e+00,
+          7.4506e-09,  1.7881e-07],
+        [ 4.4703e-07,  9.0152e-07,  3.5018e-07,  ...,  0.0000e+00,
+         -1.1921e-07,  2.5891e-06],
+        ...,
+        [ 2.1234e-07,  4.1351e-07, -6.1840e-07,  ...,  3.7253e-09,
+          7.4506e-09,  1.0058e-07],
+        [ 3.2410e-07,  1.1586e-06,  3.0920e-07,  ...,  3.7253e-09,
+          1.4901e-08,  2.8312e-07],
+        [ 1.2219e-06,  3.6061e-06,  1.3188e-06,  ..., -1.8626e-08,
+          1.1176e-08,  2.2724e-07]], device='cuda:0')
+Epoch 193, bias, value: tensor([ 3.0085e-02,  7.7514e-03,  1.7479e-02,  2.3378e-02,  3.3022e-02,
+         5.9898e-03, -2.4470e-03,  8.4071e-04, -4.3467e-05, -3.8558e-02],
+       device='cuda:0'), grad: tensor([-1.3694e-05,  2.5183e-06,  2.7567e-05, -2.9802e-05,  6.3330e-07,
+         7.3612e-05, -7.0751e-05, -1.0282e-06,  3.1628e-06,  7.8678e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 192, time 217.51, cls_loss 0.0015 cls_loss_mapping 0.0031 cls_loss_causal 0.5368 re_mapping 0.0065 re_causal 0.0199 /// teacc 98.96 lr 0.00010000
+Epoch 194, weight, value: tensor([[-0.1280,  0.1673, -0.0323,  ..., -0.0085,  0.0724, -0.0008],
+        [ 0.1339, -0.0952,  0.0293,  ..., -0.0624, -0.0136, -0.0604],
+        [-0.0605, -0.1586, -0.0028,  ..., -0.0409,  0.0463, -0.1602],
+        ...,
+        [-0.1414, -0.1593,  0.0537,  ..., -0.0689, -0.0708, -0.1159],
+        [-0.0752,  0.0032,  0.0261,  ...,  0.0284, -0.0934,  0.0463],
+        [-0.0614, -0.0293,  0.0887,  ...,  0.1526, -0.0475, -0.1448]],
+       device='cuda:0'), grad: tensor([[ 1.5274e-07, -3.7253e-07,  1.0021e-06,  ...,  2.1607e-07,
+          0.0000e+00,  3.5763e-07],
+        [-1.1176e-08,  2.4214e-07, -2.6077e-08,  ...,  4.4703e-08,
+          0.0000e+00,  7.0035e-07],
+        [ 1.8626e-07,  1.3784e-07,  3.2410e-07,  ...,  6.7055e-08,
+          0.0000e+00,  3.7625e-07],
+        ...,
+        [ 7.1898e-07,  5.4017e-07,  5.5879e-07,  ...,  1.3411e-07,
+          0.0000e+00,  1.4827e-06],
+        [ 3.0875e-05,  2.5705e-05, -1.5423e-06,  ..., -1.0431e-07,
+          0.0000e+00,  7.0810e-05],
+        [ 2.1607e-07,  6.0722e-07, -1.8135e-05,  ..., -1.1936e-05,
+          0.0000e+00,  2.0452e-06]], device='cuda:0')
+Epoch 194, bias, value: tensor([ 3.0273e-02,  8.0477e-03,  1.7702e-02,  2.2195e-02,  3.3210e-02,
+         6.7446e-03, -2.6052e-03,  6.9272e-04, -1.6843e-05, -3.8841e-02],
+       device='cuda:0'), grad: tensor([ 1.4752e-06,  1.1772e-06,  1.1399e-06,  9.7603e-07,  3.8683e-05,
+        -1.2410e-04,  9.6411e-06,  2.9653e-06,  1.0550e-04, -3.7551e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 193, time 217.38, cls_loss 0.0021 cls_loss_mapping 0.0034 cls_loss_causal 0.5186 re_mapping 0.0064 re_causal 0.0188 /// teacc 98.98 lr 0.00010000
+Epoch 195, weight, value: tensor([[-0.1282,  0.1678, -0.0323,  ..., -0.0085,  0.0721, -0.0013],
+        [ 0.1344, -0.0951,  0.0294,  ..., -0.0630, -0.0133, -0.0603],
+        [-0.0600, -0.1594, -0.0031,  ..., -0.0409,  0.0476, -0.1605],
+        ...,
+        [-0.1419, -0.1604,  0.0537,  ..., -0.0706, -0.0720, -0.1160],
+        [-0.0756,  0.0033,  0.0258,  ...,  0.0282, -0.0939,  0.0463],
+        [-0.0615, -0.0296,  0.0892,  ...,  0.1539, -0.0483, -0.1449]],
+       device='cuda:0'), grad: tensor([[ 4.4703e-08, -5.6885e-06, -3.0138e-06,  ...,  0.0000e+00,
+          0.0000e+00,  6.7055e-08],
+        [-1.7136e-07,  1.1921e-07,  2.0452e-06,  ...,  0.0000e+00,
+         -1.1176e-08,  4.0978e-08],
+        [ 2.2352e-08,  9.2015e-07,  6.2957e-07,  ...,  0.0000e+00,
+         -1.1176e-08,  1.4901e-08],
+        ...,
+        [ 1.5646e-07,  1.3784e-07, -4.3586e-06,  ...,  0.0000e+00,
+          7.4506e-09,  1.7136e-07],
+        [ 2.3469e-07,  3.7998e-07,  6.6310e-07,  ...,  0.0000e+00,
+          3.7253e-09,  3.2783e-07],
+        [ 1.0431e-07,  8.7172e-07,  1.5460e-06,  ...,  0.0000e+00,
+          0.0000e+00,  1.5274e-07]], device='cuda:0')
+Epoch 195, bias, value: tensor([ 0.0303,  0.0077,  0.0188,  0.0214,  0.0329,  0.0066, -0.0025,  0.0008,
+        -0.0004, -0.0386], device='cuda:0'), grad: tensor([-1.4842e-05,  4.5337e-06,  2.0899e-06,  2.2277e-06,  8.5682e-08,
+        -3.3714e-06,  1.0088e-05, -7.8529e-06,  2.1830e-06,  4.7795e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 194, time 217.31, cls_loss 0.0022 cls_loss_mapping 0.0036 cls_loss_causal 0.5372 re_mapping 0.0062 re_causal 0.0189 /// teacc 98.89 lr 0.00010000
+Epoch 196, weight, value: tensor([[-0.1286,  0.1684, -0.0322,  ..., -0.0087,  0.0716, -0.0020],
+        [ 0.1342, -0.0961,  0.0291,  ..., -0.0641, -0.0132, -0.0607],
+        [-0.0596, -0.1605, -0.0026,  ..., -0.0404,  0.0471, -0.1606],
+        ...,
+        [-0.1420, -0.1619,  0.0537,  ..., -0.0709, -0.0717, -0.1165],
+        [-0.0767,  0.0029,  0.0258,  ...,  0.0284, -0.0949,  0.0463],
+        [-0.0610, -0.0298,  0.0897,  ...,  0.1557, -0.0482, -0.1451]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09, -1.1921e-06, -1.0058e-07,  ...,  0.0000e+00,
+          0.0000e+00,  2.9802e-08],
+        [-1.7509e-07,  2.6077e-08,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  6.3330e-08],
+        [ 7.8231e-08,  2.9802e-08,  7.4506e-09,  ...,  0.0000e+00,
+          0.0000e+00, -8.1211e-07],
+        ...,
+        [-5.2154e-08,  1.8626e-08, -5.5507e-07,  ...,  0.0000e+00,
+          0.0000e+00,  3.7625e-07],
+        [ 4.4703e-07,  8.1956e-08, -2.9802e-08,  ...,  0.0000e+00,
+          0.0000e+00,  2.1607e-07],
+        [ 4.1723e-07,  3.3155e-07,  3.2037e-07,  ..., -3.7253e-09,
+          0.0000e+00,  3.0547e-07]], device='cuda:0')
+Epoch 196, bias, value: tensor([ 0.0305,  0.0070,  0.0198,  0.0212,  0.0318,  0.0070, -0.0023,  0.0007,
+        -0.0010, -0.0380], device='cuda:0'), grad: tensor([-1.4827e-06,  1.5348e-06, -2.4587e-05,  7.7188e-06,  1.8626e-07,
+         2.7269e-06,  2.2128e-06,  8.9407e-06,  1.2852e-06,  1.4305e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 195, time 217.41, cls_loss 0.0026 cls_loss_mapping 0.0037 cls_loss_causal 0.5262 re_mapping 0.0061 re_causal 0.0186 /// teacc 98.91 lr 0.00010000
+Epoch 197, weight, value: tensor([[-0.1289,  0.1686, -0.0322,  ..., -0.0089,  0.0715, -0.0030],
+        [ 0.1366, -0.0969,  0.0299,  ..., -0.0645, -0.0111, -0.0612],
+        [-0.0605, -0.1619, -0.0037,  ..., -0.0406,  0.0457, -0.1612],
+        ...,
+        [-0.1438, -0.1633,  0.0536,  ..., -0.0712, -0.0739, -0.1168],
+        [-0.0773,  0.0038,  0.0258,  ...,  0.0281, -0.0948,  0.0468],
+        [-0.0614, -0.0299,  0.0898,  ...,  0.1567, -0.0493, -0.1456]],
+       device='cuda:0'), grad: tensor([[ 1.8999e-07, -3.7253e-08,  1.7509e-07,  ...,  0.0000e+00,
+          0.0000e+00,  4.6939e-07],
+        [ 7.1153e-07,  5.9977e-07,  2.0601e-06,  ...,  0.0000e+00,
+          0.0000e+00,  2.7865e-06],
+        [ 2.0862e-07,  1.3039e-07,  3.7998e-07,  ...,  0.0000e+00,
+          0.0000e+00,  6.0350e-07],
+        ...,
+        [ 2.5705e-07,  1.0431e-07, -9.6038e-06,  ...,  3.7253e-09,
+          0.0000e+00,  2.9430e-07],
+        [-2.6301e-06, -1.4678e-06, -4.3064e-06,  ...,  0.0000e+00,
+          0.0000e+00, -9.5069e-06],
+        [ 1.5274e-07,  1.7136e-07,  8.3074e-06,  ..., -7.4506e-09,
+          0.0000e+00,  2.4959e-07]], device='cuda:0')
+Epoch 197, bias, value: tensor([ 0.0305,  0.0075,  0.0192,  0.0216,  0.0315,  0.0066, -0.0023,  0.0007,
+        -0.0008, -0.0379], device='cuda:0'), grad: tensor([ 8.5682e-07,  6.9626e-06,  1.4082e-06,  3.7588e-06, -1.4901e-08,
+         1.4007e-06,  6.0052e-06, -1.2234e-05, -1.9521e-05,  1.1362e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 196, time 217.49, cls_loss 0.0025 cls_loss_mapping 0.0036 cls_loss_causal 0.5297 re_mapping 0.0064 re_causal 0.0184 /// teacc 98.95 lr 0.00010000
+Epoch 198, weight, value: tensor([[-0.1300,  0.1680, -0.0322,  ..., -0.0090,  0.0714, -0.0040],
+        [ 0.1365, -0.0993,  0.0299,  ..., -0.0659, -0.0107, -0.0629],
+        [-0.0601, -0.1635, -0.0035,  ..., -0.0408,  0.0453, -0.1617],
+        ...,
+        [-0.1445, -0.1650,  0.0535,  ..., -0.0717, -0.0746, -0.1169],
+        [-0.0729,  0.0082,  0.0271,  ...,  0.0288, -0.0941,  0.0504],
+        [-0.0620, -0.0303,  0.0899,  ...,  0.1572, -0.0494, -0.1490]],
+       device='cuda:0'), grad: tensor([[ 1.4901e-08, -2.3469e-07,  0.0000e+00,  ...,  2.2352e-08,
+          0.0000e+00,  1.8626e-08],
+        [-1.5199e-06,  7.4506e-09, -1.1660e-06,  ...,  1.8626e-08,
+          0.0000e+00,  1.4901e-08],
+        [ 3.2783e-07,  1.8626e-08,  6.3702e-07,  ...,  4.0978e-08,
+          0.0000e+00,  3.7253e-08],
+        ...,
+        [ 4.9919e-07,  0.0000e+00, -2.5555e-06,  ...,  1.1176e-08,
+          0.0000e+00,  3.7253e-09],
+        [ 7.1526e-07,  5.2154e-07,  1.2219e-06,  ...,  5.5507e-07,
+          0.0000e+00,  8.1584e-07],
+        [ 2.9057e-07,  3.7253e-09, -2.9057e-07,  ..., -1.6652e-06,
+          0.0000e+00, -1.3523e-06]], device='cuda:0')
+Epoch 198, bias, value: tensor([ 0.0297,  0.0070,  0.0199,  0.0216,  0.0316,  0.0049, -0.0011,  0.0005,
+         0.0020, -0.0380], device='cuda:0'), grad: tensor([ 2.7940e-07, -1.2517e-06,  1.4119e-06,  3.9898e-06, -9.7901e-06,
+        -4.4703e-08, -3.1665e-06, -5.0291e-06,  6.5491e-06,  6.9961e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 197, time 217.60, cls_loss 0.0019 cls_loss_mapping 0.0033 cls_loss_causal 0.5286 re_mapping 0.0064 re_causal 0.0190 /// teacc 98.94 lr 0.00010000
+Epoch 199, weight, value: tensor([[-0.1296,  0.1686, -0.0321,  ..., -0.0087,  0.0713, -0.0040],
+        [ 0.1380, -0.0994,  0.0302,  ..., -0.0659, -0.0107, -0.0631],
+        [-0.0613, -0.1641, -0.0041,  ..., -0.0409,  0.0469, -0.1622],
+        ...,
+        [-0.1447, -0.1664,  0.0536,  ..., -0.0718, -0.0749, -0.1172],
+        [-0.0742,  0.0075,  0.0269,  ...,  0.0287, -0.0947,  0.0497],
+        [-0.0622, -0.0306,  0.0898,  ...,  0.1574, -0.0495, -0.1490]],
+       device='cuda:0'), grad: tensor([[ 2.2352e-08, -5.7742e-07,  3.9451e-06,  ...,  0.0000e+00,
+          3.7253e-09,  1.1176e-08],
+        [-8.5309e-07,  8.9407e-08, -3.6880e-07,  ...,  0.0000e+00,
+         -9.6858e-08,  3.7253e-09],
+        [ 1.3039e-07,  1.6019e-07,  3.3155e-07,  ...,  3.7253e-09,
+          0.0000e+00, -3.7253e-08],
+        ...,
+        [ 3.3900e-07, -4.4890e-06, -8.3596e-06,  ...,  0.0000e+00,
+          4.4703e-08,  7.4506e-09],
+        [ 1.4529e-07,  2.3842e-07,  4.0606e-07,  ..., -3.7253e-09,
+          2.2352e-08,  3.3528e-08],
+        [ 1.0058e-07,  3.3379e-06,  2.2985e-06,  ...,  0.0000e+00,
+          1.4901e-08,  1.1176e-08]], device='cuda:0')
+Epoch 199, bias, value: tensor([ 0.0300,  0.0076,  0.0192,  0.0217,  0.0330,  0.0048, -0.0007,  0.0006,
+         0.0010, -0.0389], device='cuda:0'), grad: tensor([ 1.1466e-05, -1.4156e-07,  6.5193e-07,  1.6689e-06,  6.4820e-07,
+         5.3160e-06,  1.1921e-06, -4.0352e-05,  2.1942e-06,  1.7300e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 198, time 217.38, cls_loss 0.0017 cls_loss_mapping 0.0025 cls_loss_causal 0.4894 re_mapping 0.0063 re_causal 0.0186 /// teacc 98.83 lr 0.00010000
+Epoch 200, weight, value: tensor([[-0.1297,  0.1694, -0.0324,  ..., -0.0113,  0.0713, -0.0037],
+        [ 0.1384, -0.0997,  0.0302,  ..., -0.0661, -0.0106, -0.0629],
+        [-0.0616, -0.1658, -0.0041,  ..., -0.0410,  0.0465, -0.1631],
+        ...,
+        [-0.1451, -0.1679,  0.0536,  ..., -0.0721, -0.0752, -0.1175],
+        [-0.0743,  0.0079,  0.0270,  ...,  0.0288, -0.0927,  0.0505],
+        [-0.0623, -0.0309,  0.0900,  ...,  0.1582, -0.0499, -0.1496]],
+       device='cuda:0'), grad: tensor([[-1.8254e-07, -2.1636e-05, -9.9242e-06,  ...,  0.0000e+00,
+         -2.3283e-06, -3.3900e-06],
+        [-1.8626e-08,  4.2617e-06,  2.1830e-06,  ...,  3.7253e-09,
+          7.7114e-07,  3.2783e-07],
+        [ 2.9802e-08,  9.1642e-07,  4.3213e-07,  ...,  3.7253e-09,
+          4.8429e-08,  2.7195e-07],
+        ...,
+        [ 4.4703e-08,  4.7684e-07,  2.3469e-07,  ...,  3.7253e-09,
+          4.8429e-08,  1.1548e-07],
+        [ 1.3039e-07,  1.0386e-05,  4.9882e-06,  ..., -1.8626e-08,
+          1.0952e-06,  1.8701e-06],
+        [ 7.4506e-08,  2.4140e-06, -1.6391e-07,  ..., -1.4901e-08,
+          1.4901e-07,  5.9232e-07]], device='cuda:0')
+Epoch 200, bias, value: tensor([ 0.0299,  0.0076,  0.0191,  0.0217,  0.0334,  0.0049, -0.0014,  0.0005,
+         0.0015, -0.0390], device='cuda:0'), grad: tensor([-2.9385e-05,  5.8673e-06,  1.2554e-06, -1.1697e-06,  1.7583e-06,
+         2.7679e-06,  1.8999e-06,  6.9663e-07,  1.4678e-05,  1.5646e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 199, time 217.69, cls_loss 0.0024 cls_loss_mapping 0.0036 cls_loss_causal 0.5190 re_mapping 0.0062 re_causal 0.0182 /// teacc 98.93 lr 0.00010000
+Epoch 201, weight, value: tensor([[-0.1295,  0.1710, -0.0321,  ..., -0.0107,  0.0716, -0.0013],
+        [ 0.1390, -0.0998,  0.0304,  ..., -0.0652, -0.0106, -0.0632],
+        [-0.0620, -0.1674, -0.0036,  ..., -0.0405,  0.0480, -0.1644],
+        ...,
+        [-0.1454, -0.1694,  0.0535,  ..., -0.0732, -0.0760, -0.1177],
+        [-0.0742,  0.0085,  0.0271,  ...,  0.0288, -0.0924,  0.0514],
+        [-0.0627, -0.0320,  0.0894,  ...,  0.1574, -0.0508, -0.1509]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09, -4.0978e-08,  1.1176e-08,  ...,  7.4506e-09,
+          0.0000e+00,  3.7253e-08],
+        [-7.4506e-08,  3.7253e-09,  5.9605e-08,  ...,  1.1176e-08,
+          1.8626e-08,  6.7055e-08],
+        [ 1.1176e-08,  3.7253e-09,  1.8254e-06,  ...,  5.9605e-08,
+          1.4901e-07,  3.5018e-07],
+        ...,
+        [ 4.0978e-08,  3.7253e-09, -2.0340e-06,  ...,  2.6077e-08,
+         -2.1234e-07,  8.9407e-08],
+        [ 5.2154e-08,  3.3528e-08,  7.8231e-08,  ...,  3.7253e-08,
+          2.2352e-08,  2.0489e-07],
+        [ 1.1176e-08,  1.8626e-08, -1.8254e-07,  ..., -7.0781e-08,
+          7.4506e-09,  1.0803e-07]], device='cuda:0')
+Epoch 201, bias, value: tensor([ 0.0307,  0.0076,  0.0205,  0.0217,  0.0344,  0.0044, -0.0023, -0.0002,
+         0.0023, -0.0404], device='cuda:0'), grad: tensor([ 1.3970e-05,  9.0897e-07, -3.4243e-05,  1.2547e-05,  4.2468e-07,
+         5.1782e-07,  3.7625e-07,  2.1532e-06,  2.9691e-06,  3.4273e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 200, time 217.48, cls_loss 0.0022 cls_loss_mapping 0.0023 cls_loss_causal 0.5013 re_mapping 0.0062 re_causal 0.0184 /// teacc 98.86 lr 0.00010000
+Epoch 202, weight, value: tensor([[-0.1300,  0.1713, -0.0320,  ..., -0.0107,  0.0715, -0.0030],
+        [ 0.1391, -0.1001,  0.0303,  ..., -0.0651, -0.0108, -0.0635],
+        [-0.0620, -0.1685, -0.0033,  ..., -0.0404,  0.0493, -0.1655],
+        ...,
+        [-0.1452, -0.1704,  0.0542,  ..., -0.0734, -0.0764, -0.1180],
+        [-0.0744,  0.0085,  0.0270,  ...,  0.0286, -0.0927,  0.0516],
+        [-0.0634, -0.0322,  0.0889,  ...,  0.1576, -0.0511, -0.1513]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09, -3.4273e-07, -8.5682e-08,  ...,  3.7253e-09,
+          0.0000e+00, -3.7253e-09],
+        [-1.0431e-07,  4.0978e-08,  1.9744e-07,  ...,  3.7253e-09,
+         -2.6077e-08,  1.4901e-08],
+        [ 7.4506e-09,  6.3330e-08, -2.7940e-07,  ..., -1.8999e-07,
+          0.0000e+00,  1.0058e-07],
+        ...,
+        [ 1.1176e-08,  6.3330e-08, -9.8348e-07,  ...,  6.3330e-08,
+          0.0000e+00,  3.3528e-08],
+        [ 1.0431e-07,  7.8231e-08,  7.1526e-07,  ...,  1.2293e-07,
+          1.8626e-08,  7.0781e-08],
+        [ 1.4901e-08,  7.4506e-08,  1.6391e-07,  ..., -3.7253e-09,
+          0.0000e+00,  3.3528e-08]], device='cuda:0')
+Epoch 202, bias, value: tensor([ 0.0306,  0.0073,  0.0211,  0.0213,  0.0346,  0.0052, -0.0023,  0.0003,
+         0.0021, -0.0410], device='cuda:0'), grad: tensor([ 1.1511e-06,  9.2387e-07, -9.6112e-07, -5.0291e-07,  7.0035e-07,
+         5.4389e-07, -4.6156e-06, -2.2799e-06,  4.2692e-06,  7.3761e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 201, time 217.88, cls_loss 0.0023 cls_loss_mapping 0.0029 cls_loss_causal 0.4938 re_mapping 0.0064 re_causal 0.0185 /// teacc 98.95 lr 0.00010000
+Epoch 203, weight, value: tensor([[-0.1300,  0.1717, -0.0320,  ..., -0.0108,  0.0723, -0.0024],
+        [ 0.1412, -0.0996,  0.0300,  ..., -0.0630, -0.0125, -0.0636],
+        [-0.0631, -0.1689, -0.0029,  ..., -0.0403,  0.0481, -0.1662],
+        ...,
+        [-0.1470, -0.1715,  0.0547,  ..., -0.0752, -0.0740, -0.1190],
+        [-0.0748,  0.0086,  0.0269,  ...,  0.0279, -0.0930,  0.0516],
+        [-0.0639, -0.0323,  0.0888,  ...,  0.1581, -0.0523, -0.1516]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09, -1.2666e-07,  3.6508e-07,  ...,  1.1176e-08,
+          0.0000e+00, -1.1176e-08],
+        [-2.0862e-07,  1.1176e-08,  1.0133e-06,  ...,  3.7253e-09,
+         -4.8429e-08,  1.4901e-08],
+        [ 2.6077e-08,  3.3528e-08,  2.9057e-07,  ...,  1.1176e-08,
+          0.0000e+00,  4.0978e-08],
+        ...,
+        [ 5.9605e-08,  7.4506e-09, -3.4235e-06,  ...,  1.4901e-08,
+          1.1176e-08, -2.8312e-07],
+        [ 1.1176e-08, -1.4901e-08,  1.8626e-08,  ..., -3.7253e-08,
+          0.0000e+00, -2.2352e-08],
+        [ 1.0058e-07,  1.1548e-07, -1.0058e-06,  ..., -5.9605e-08,
+          1.1176e-08, -7.4506e-08]], device='cuda:0')
+Epoch 203, bias, value: tensor([ 0.0306,  0.0071,  0.0211,  0.0209,  0.0348,  0.0059, -0.0023,  0.0003,
+         0.0018, -0.0412], device='cuda:0'), grad: tensor([ 4.8429e-07,  1.5572e-06,  5.0664e-07,  3.7588e-06,  1.0803e-06,
+         8.1956e-08,  1.1176e-08, -6.1616e-06,  2.3469e-07, -1.5721e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 202, time 217.58, cls_loss 0.0018 cls_loss_mapping 0.0041 cls_loss_causal 0.5337 re_mapping 0.0063 re_causal 0.0187 /// teacc 98.93 lr 0.00010000
+Epoch 204, weight, value: tensor([[-0.1302,  0.1725, -0.0317,  ..., -0.0084,  0.0719, -0.0022],
+        [ 0.1408, -0.0981,  0.0283,  ..., -0.0601, -0.0157, -0.0636],
+        [-0.0633, -0.1697, -0.0026,  ..., -0.0406,  0.0474, -0.1669],
+        ...,
+        [-0.1459, -0.1730,  0.0564,  ..., -0.0761, -0.0711, -0.1194],
+        [-0.0754,  0.0100,  0.0273,  ...,  0.0276, -0.0934,  0.0535],
+        [-0.0646, -0.0333,  0.0886,  ...,  0.1571, -0.0537, -0.1520]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09, -7.8976e-07, -5.2527e-07,  ...,  7.4506e-09,
+          0.0000e+00,  2.2352e-08],
+        [ 3.7253e-09,  2.6077e-08,  1.1921e-07,  ...,  1.8626e-08,
+          0.0000e+00,  2.2352e-08],
+        [ 3.7253e-09,  5.6997e-07,  6.0350e-07,  ...,  6.7055e-08,
+          0.0000e+00,  4.3586e-07],
+        ...,
+        [ 7.4506e-09,  1.4901e-08,  3.4161e-06,  ...,  5.7369e-07,
+          0.0000e+00,  1.1176e-08],
+        [ 3.2783e-07, -5.2527e-07, -6.1467e-07,  ..., -1.3784e-07,
+          2.6077e-08, -5.9977e-07],
+        [ 7.4506e-09,  6.4075e-07, -5.4426e-06,  ..., -5.7742e-07,
+          0.0000e+00,  1.5646e-07]], device='cuda:0')
+Epoch 204, bias, value: tensor([ 0.0309,  0.0052,  0.0215,  0.0209,  0.0348,  0.0058, -0.0035,  0.0019,
+         0.0031, -0.0414], device='cuda:0'), grad: tensor([-1.0915e-06,  5.3868e-06,  1.5423e-06,  8.0839e-07, -5.6475e-05,
+         1.0096e-06,  8.2701e-07,  5.0455e-05, -1.2666e-07, -2.4140e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 203, time 217.79, cls_loss 0.0028 cls_loss_mapping 0.0046 cls_loss_causal 0.5382 re_mapping 0.0063 re_causal 0.0182 /// teacc 98.88 lr 0.00010000
+Epoch 205, weight, value: tensor([[-0.1333,  0.1718, -0.0318,  ..., -0.0088,  0.0722, -0.0035],
+        [ 0.1412, -0.0980,  0.0283,  ..., -0.0606, -0.0158, -0.0637],
+        [-0.0643, -0.1724, -0.0037,  ..., -0.0421,  0.0443, -0.1708],
+        ...,
+        [-0.1462, -0.1739,  0.0566,  ..., -0.0776, -0.0702, -0.1196],
+        [-0.0765,  0.0101,  0.0277,  ...,  0.0288, -0.0944,  0.0544],
+        [-0.0646, -0.0336,  0.0886,  ...,  0.1580, -0.0545, -0.1525]],
+       device='cuda:0'), grad: tensor([[ 8.3074e-07, -6.0350e-07,  3.5018e-07,  ...,  0.0000e+00,
+          1.0431e-07, -1.1176e-08],
+        [-1.2410e-04,  2.6077e-08, -9.6858e-05,  ...,  3.7253e-08,
+         -1.6034e-05,  2.2352e-08],
+        [ 2.0131e-05,  8.1956e-08,  1.5825e-05,  ...,  0.0000e+00,
+          2.6003e-06,  5.5879e-08],
+        ...,
+        [ 9.7156e-05,  4.4703e-08,  6.8665e-05,  ...,  2.2352e-08,
+          1.2547e-05,  4.4703e-08],
+        [ 2.8647e-06,  2.4624e-06,  8.4192e-07,  ...,  6.3330e-08,
+          1.0431e-07,  1.7136e-06],
+        [ 3.5055e-06,  1.2666e-06,  8.5756e-06,  ..., -1.7509e-07,
+          3.0175e-07,  8.3447e-07]], device='cuda:0')
+Epoch 205, bias, value: tensor([ 0.0302,  0.0051,  0.0184,  0.0238,  0.0350,  0.0043, -0.0040,  0.0026,
+         0.0037, -0.0414], device='cuda:0'), grad: tensor([ 9.3877e-07, -2.3091e-04,  3.0398e-05,  1.1832e-05,  3.8520e-06,
+        -1.1779e-05,  2.4065e-06,  1.7321e-04,  6.4559e-06,  1.3232e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 204, time 217.62, cls_loss 0.0021 cls_loss_mapping 0.0030 cls_loss_causal 0.5263 re_mapping 0.0063 re_causal 0.0189 /// teacc 98.93 lr 0.00010000
+Epoch 206, weight, value: tensor([[-0.1334,  0.1721, -0.0318,  ..., -0.0092,  0.0724, -0.0035],
+        [ 0.1421, -0.0981,  0.0287,  ..., -0.0606, -0.0158, -0.0639],
+        [-0.0646, -0.1734, -0.0045,  ..., -0.0424,  0.0443, -0.1719],
+        ...,
+        [-0.1472, -0.1747,  0.0566,  ..., -0.0777, -0.0702, -0.1198],
+        [-0.0771,  0.0099,  0.0277,  ...,  0.0289, -0.0946,  0.0544],
+        [-0.0649, -0.0337,  0.0884,  ...,  0.1583, -0.0548, -0.1527]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09, -2.3060e-06, -1.1735e-06,  ..., -7.4506e-09,
+          0.0000e+00, -4.3213e-07],
+        [-2.2352e-07,  3.8370e-07,  3.2410e-07,  ...,  0.0000e+00,
+         -1.1176e-08,  4.4703e-07],
+        [ 1.4901e-08,  1.5646e-07,  2.7195e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.7136e-07],
+        ...,
+        [ 4.0978e-08,  7.3388e-07, -2.0452e-06,  ...,  3.7253e-09,
+          0.0000e+00,  8.9034e-07],
+        [ 7.8231e-08, -2.7679e-06, -1.9856e-06,  ...,  2.6077e-08,
+          3.7253e-09, -4.3809e-06],
+        [ 3.3528e-08,  2.5444e-06,  2.8126e-06,  ..., -6.7055e-08,
+          3.7253e-09,  2.0638e-06]], device='cuda:0')
+Epoch 206, bias, value: tensor([ 0.0304,  0.0054,  0.0178,  0.0237,  0.0351,  0.0045, -0.0041,  0.0028,
+         0.0035, -0.0416], device='cuda:0'), grad: tensor([-2.5779e-06,  1.0580e-06, -7.5810e-06,  1.2890e-06,  2.0675e-06,
+         1.1735e-06,  7.7859e-07, -1.6950e-06, -1.1958e-06,  6.6124e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 205, time 217.82, cls_loss 0.0018 cls_loss_mapping 0.0039 cls_loss_causal 0.4922 re_mapping 0.0064 re_causal 0.0188 /// teacc 98.92 lr 0.00010000
+Epoch 207, weight, value: tensor([[-0.1335,  0.1724, -0.0320,  ..., -0.0105,  0.0731, -0.0044],
+        [ 0.1425, -0.0981,  0.0287,  ..., -0.0607, -0.0158, -0.0639],
+        [-0.0648, -0.1741, -0.0051,  ..., -0.0426,  0.0441, -0.1722],
+        ...,
+        [-0.1474, -0.1759,  0.0578,  ..., -0.0779, -0.0701, -0.1199],
+        [-0.0774,  0.0096,  0.0276,  ...,  0.0285, -0.0948,  0.0542],
+        [-0.0650, -0.0337,  0.0884,  ...,  0.1606, -0.0552, -0.1520]],
+       device='cuda:0'), grad: tensor([[-1.4156e-07, -4.1761e-06, -1.7174e-06,  ..., -1.2033e-06,
+          3.7253e-09,  1.1176e-08],
+        [ 1.0803e-07,  2.9802e-08,  1.0245e-06,  ...,  3.7253e-09,
+         -3.7253e-09,  2.2352e-08],
+        [ 1.8626e-08,  1.5646e-07,  1.7881e-07,  ...,  2.6077e-08,
+          0.0000e+00,  1.6391e-07],
+        ...,
+        [-1.5274e-07,  2.2352e-08, -9.9093e-07,  ...,  1.1176e-08,
+          3.7253e-09,  1.4901e-08],
+        [ 1.5646e-07,  1.2033e-06,  5.5879e-07,  ...,  4.9546e-07,
+          2.9802e-08, -9.3132e-08],
+        [ 1.8626e-08,  1.8217e-06,  6.5938e-07,  ...,  6.3330e-07,
+          0.0000e+00,  2.2352e-08]], device='cuda:0')
+Epoch 207, bias, value: tensor([ 0.0303,  0.0054,  0.0176,  0.0237,  0.0342,  0.0045, -0.0041,  0.0040,
+         0.0030, -0.0416], device='cuda:0'), grad: tensor([-5.8822e-06,  1.4007e-06,  4.1351e-07, -3.3528e-08,  2.0489e-07,
+         2.9430e-07,  6.4075e-07, -1.1846e-06,  2.0079e-06,  2.0936e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 206, time 217.59, cls_loss 0.0021 cls_loss_mapping 0.0027 cls_loss_causal 0.5134 re_mapping 0.0062 re_causal 0.0185 /// teacc 98.89 lr 0.00010000
+Epoch 208, weight, value: tensor([[-0.1336,  0.1729, -0.0321,  ..., -0.0114,  0.0730, -0.0045],
+        [ 0.1441, -0.0982,  0.0295,  ..., -0.0611, -0.0152, -0.0641],
+        [-0.0650, -0.1757, -0.0054,  ..., -0.0422,  0.0441, -0.1739],
+        ...,
+        [-0.1493, -0.1771,  0.0556,  ..., -0.0810, -0.0706, -0.1201],
+        [-0.0777,  0.0100,  0.0276,  ...,  0.0283, -0.0949,  0.0551],
+        [-0.0651, -0.0343,  0.0908,  ...,  0.1629, -0.0556, -0.1524]],
+       device='cuda:0'), grad: tensor([[ 1.4901e-07, -8.3819e-07, -7.4506e-08,  ...,  3.3528e-08,
+          3.7253e-08,  3.7253e-08],
+        [-4.2245e-06, -6.4448e-07, -6.8694e-06,  ..., -2.1607e-07,
+         -7.2271e-07,  4.8429e-08],
+        [ 3.3528e-07,  5.1782e-07,  2.8685e-07,  ...,  2.9802e-08,
+          1.8626e-08,  1.3784e-07],
+        ...,
+        [ 2.2352e-07,  6.3330e-08,  9.9838e-07,  ...,  1.0431e-07,
+          3.7253e-09,  9.3132e-08],
+        [ 5.1297e-06,  9.0152e-07,  5.8189e-06,  ...,  5.6252e-07,
+          5.4389e-07,  1.2629e-06],
+        [ 3.8743e-07,  2.0117e-07, -1.5870e-06,  ..., -8.9407e-07,
+          1.1176e-08,  2.7567e-07]], device='cuda:0')
+Epoch 208, bias, value: tensor([ 0.0301,  0.0061,  0.0174,  0.0235,  0.0340,  0.0045, -0.0033,  0.0018,
+         0.0035, -0.0401], device='cuda:0'), grad: tensor([-9.4995e-07, -1.0177e-05,  1.1548e-07, -2.7865e-06,  3.6024e-06,
+        -1.9670e-05,  1.3463e-05,  3.2969e-06,  1.3545e-05, -5.2899e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 207, time 217.51, cls_loss 0.0019 cls_loss_mapping 0.0033 cls_loss_causal 0.5187 re_mapping 0.0063 re_causal 0.0181 /// teacc 98.93 lr 0.00010000
+Epoch 209, weight, value: tensor([[-0.1337,  0.1734, -0.0320,  ..., -0.0116,  0.0730, -0.0049],
+        [ 0.1444, -0.0983,  0.0294,  ..., -0.0610, -0.0152, -0.0642],
+        [-0.0651, -0.1764, -0.0056,  ..., -0.0423,  0.0441, -0.1743],
+        ...,
+        [-0.1493, -0.1796,  0.0559,  ..., -0.0811, -0.0706, -0.1201],
+        [-0.0785,  0.0097,  0.0273,  ...,  0.0284, -0.0954,  0.0550],
+        [-0.0664, -0.0349,  0.0906,  ...,  0.1631, -0.0558, -0.1526]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09, -3.7432e-05, -5.5879e-08,  ...,  0.0000e+00,
+          0.0000e+00,  2.4214e-08],
+        [-3.7812e-07,  1.6950e-07, -1.8254e-07,  ...,  0.0000e+00,
+          0.0000e+00,  6.3330e-08],
+        [ 4.6566e-08,  2.3097e-07,  5.1409e-07,  ...,  0.0000e+00,
+          0.0000e+00,  5.6438e-07],
+        ...,
+        [ 3.2969e-07,  3.4273e-07, -2.9150e-06,  ...,  1.8626e-09,
+          0.0000e+00, -3.1665e-07],
+        [-5.5321e-07, -1.1642e-06, -8.4750e-07,  ..., -1.8626e-09,
+          0.0000e+00, -1.5143e-06],
+        [ 3.7253e-08,  1.8030e-05,  2.2538e-06,  ..., -1.4901e-08,
+          0.0000e+00,  3.6694e-07]], device='cuda:0')
+Epoch 209, bias, value: tensor([ 0.0300,  0.0059,  0.0177,  0.0234,  0.0340,  0.0047, -0.0030,  0.0021,
+         0.0029, -0.0404], device='cuda:0'), grad: tensor([-7.2360e-05,  4.8429e-08,  1.8291e-06,  3.6880e-07,  1.1176e-06,
+         8.9779e-06,  2.7776e-05, -4.5411e-06, -2.3581e-06,  3.9011e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 208, time 217.84, cls_loss 0.0017 cls_loss_mapping 0.0028 cls_loss_causal 0.5159 re_mapping 0.0060 re_causal 0.0177 /// teacc 98.88 lr 0.00010000
+Epoch 210, weight, value: tensor([[-0.1333,  0.1748, -0.0319,  ..., -0.0116,  0.0730, -0.0030],
+        [ 0.1456, -0.0982,  0.0302,  ..., -0.0602, -0.0152, -0.0635],
+        [-0.0654, -0.1771, -0.0060,  ..., -0.0424,  0.0441, -0.1748],
+        ...,
+        [-0.1505, -0.1833,  0.0554,  ..., -0.0811, -0.0706, -0.1207],
+        [-0.0793,  0.0098,  0.0273,  ...,  0.0270, -0.0955,  0.0552],
+        [-0.0665, -0.0354,  0.0907,  ...,  0.1634, -0.0559, -0.1536]],
+       device='cuda:0'), grad: tensor([[ 2.2165e-07, -7.8231e-07,  1.9744e-07,  ..., -1.8626e-09,
+          0.0000e+00, -2.4214e-08],
+        [ 2.4289e-05,  8.5682e-08,  5.6565e-05,  ...,  1.8626e-09,
+          0.0000e+00,  7.8231e-08],
+        [ 1.3597e-07,  5.7742e-08,  2.0117e-07,  ...,  0.0000e+00,
+          0.0000e+00,  5.7742e-08],
+        ...,
+        [ 2.8349e-06,  5.9605e-08,  6.6236e-06,  ...,  4.0978e-08,
+          0.0000e+00,  5.0291e-08],
+        [ 2.4065e-05,  1.7866e-05, -1.0766e-06,  ...,  1.8626e-09,
+          0.0000e+00,  1.9819e-05],
+        [-3.2395e-05,  3.0547e-07, -7.6056e-05,  ..., -6.3330e-08,
+          0.0000e+00,  1.1548e-07]], device='cuda:0')
+Epoch 210, bias, value: tensor([ 0.0306,  0.0067,  0.0176,  0.0233,  0.0345,  0.0047, -0.0030,  0.0015,
+         0.0028, -0.0409], device='cuda:0'), grad: tensor([-7.4506e-09,  9.0480e-05,  4.8243e-07,  3.1628e-06,  8.7619e-06,
+        -5.2154e-05,  1.5318e-05,  1.1005e-05,  4.3303e-05, -1.2028e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 209, time 218.01, cls_loss 0.0020 cls_loss_mapping 0.0030 cls_loss_causal 0.5233 re_mapping 0.0061 re_causal 0.0187 /// teacc 98.91 lr 0.00010000
+Epoch 211, weight, value: tensor([[-0.1334,  0.1754, -0.0319,  ..., -0.0123,  0.0733, -0.0032],
+        [ 0.1462, -0.1010,  0.0301,  ..., -0.0593, -0.0143, -0.0667],
+        [-0.0659, -0.1772, -0.0057,  ..., -0.0401,  0.0438, -0.1750],
+        ...,
+        [-0.1511, -0.1849,  0.0554,  ..., -0.0812, -0.0710, -0.1208],
+        [-0.0800,  0.0105,  0.0286,  ...,  0.0269, -0.0962,  0.0569],
+        [-0.0681, -0.0359,  0.0905,  ...,  0.1632, -0.0592, -0.1550]],
+       device='cuda:0'), grad: tensor([[-3.8929e-07, -2.0023e-06, -2.2352e-08,  ...,  9.3132e-09,
+          0.0000e+00,  2.7940e-08],
+        [-5.9605e-08,  2.2352e-08,  1.0356e-06,  ...,  1.7881e-07,
+          0.0000e+00,  2.9802e-08],
+        [ 7.4506e-09, -8.3819e-08, -3.1665e-08,  ...,  5.5879e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 9.3132e-09,  1.4901e-08, -6.3963e-06,  ..., -1.0319e-06,
+          0.0000e+00, -1.4156e-07],
+        [ 8.5682e-08,  1.1548e-07,  5.3830e-07,  ...,  8.1956e-08,
+          0.0000e+00,  2.6077e-08],
+        [ 4.0978e-08,  1.3970e-07, -1.1083e-06,  ..., -3.4645e-07,
+          0.0000e+00, -3.3528e-07]], device='cuda:0')
+Epoch 211, bias, value: tensor([ 0.0307,  0.0067,  0.0180,  0.0230,  0.0347,  0.0050, -0.0017,  0.0015,
+         0.0025, -0.0415], device='cuda:0'), grad: tensor([-2.3413e-06,  1.6261e-06, -8.9966e-07,  6.3814e-06,  4.3437e-06,
+         6.2361e-06, -4.4182e-06, -9.4175e-06,  1.8589e-06, -3.4124e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 210, time 217.71, cls_loss 0.0027 cls_loss_mapping 0.0046 cls_loss_causal 0.5059 re_mapping 0.0064 re_causal 0.0181 /// teacc 98.96 lr 0.00010000
+Epoch 212, weight, value: tensor([[-0.1336,  0.1756, -0.0321,  ..., -0.0124,  0.0729, -0.0036],
+        [ 0.1465, -0.1011,  0.0298,  ..., -0.0594, -0.0142, -0.0668],
+        [-0.0660, -0.1776, -0.0061,  ..., -0.0401,  0.0439, -0.1753],
+        ...,
+        [-0.1510, -0.1855,  0.0533,  ..., -0.0839, -0.0710, -0.1211],
+        [-0.0802,  0.0108,  0.0288,  ...,  0.0270, -0.0966,  0.0570],
+        [-0.0688, -0.0362,  0.0930,  ...,  0.1652, -0.0592, -0.1556]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09, -1.8217e-06, -1.3001e-06,  ...,  1.1176e-08,
+          8.5682e-08,  7.4506e-09],
+        [ 0.0000e+00,  1.3039e-07,  4.1723e-07,  ...,  4.4703e-08,
+          7.7486e-07,  2.2352e-08],
+        [-8.9407e-08,  1.1548e-07,  2.7940e-07,  ...,  3.7253e-09,
+          8.1956e-08,  8.9407e-08],
+        ...,
+        [ 7.4506e-09,  4.3213e-07,  1.6801e-06,  ...,  5.1409e-07,
+          7.8231e-08,  5.5879e-08],
+        [ 9.6858e-08,  1.5274e-07,  1.9111e-06,  ...,  3.9488e-07,
+          2.9802e-08,  1.2666e-07],
+        [ 5.5879e-08,  2.3097e-07, -7.0967e-06,  ..., -1.3523e-06,
+          2.9057e-07,  1.1548e-07]], device='cuda:0')
+Epoch 212, bias, value: tensor([ 0.0306,  0.0064,  0.0180,  0.0229,  0.0346,  0.0051, -0.0020, -0.0005,
+         0.0027, -0.0392], device='cuda:0'), grad: tensor([-2.2501e-06,  9.1344e-06,  9.7230e-07, -4.9546e-07, -1.1131e-05,
+         1.3784e-06,  3.2708e-06,  3.6135e-06,  4.7684e-06, -9.3728e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 211, time 217.77, cls_loss 0.0026 cls_loss_mapping 0.0035 cls_loss_causal 0.5223 re_mapping 0.0062 re_causal 0.0179 /// teacc 98.87 lr 0.00010000
+Epoch 213, weight, value: tensor([[-0.1344,  0.1770, -0.0320,  ..., -0.0120,  0.0732, -0.0026],
+        [ 0.1453, -0.1034,  0.0294,  ..., -0.0593, -0.0142, -0.0689],
+        [-0.0654, -0.1788, -0.0057,  ..., -0.0401,  0.0439, -0.1756],
+        ...,
+        [-0.1513, -0.1866,  0.0530,  ..., -0.0843, -0.0710, -0.1216],
+        [-0.0796,  0.0104,  0.0303,  ...,  0.0269, -0.0966,  0.0565],
+        [-0.0691, -0.0369,  0.0933,  ...,  0.1663, -0.0593, -0.1562]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-08, -2.2538e-06,  2.2352e-08,  ...,  3.7253e-09,
+          0.0000e+00,  5.5879e-08],
+        [-5.9232e-07,  7.4506e-09, -6.4448e-07,  ...,  3.7253e-09,
+          0.0000e+00,  1.1176e-08],
+        [ 1.7509e-07,  1.6764e-07,  2.4587e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.6764e-07],
+        ...,
+        [ 1.8999e-07,  5.2154e-08,  1.1176e-07,  ...,  2.6077e-08,
+          0.0000e+00,  2.2352e-08],
+        [ 1.4976e-06, -2.8312e-07,  7.4506e-09,  ...,  5.9605e-08,
+          0.0000e+00,  2.3246e-06],
+        [ 7.8231e-08,  8.8289e-07, -3.3528e-07,  ..., -1.3411e-07,
+          0.0000e+00,  1.8999e-07]], device='cuda:0')
+Epoch 213, bias, value: tensor([ 0.0314,  0.0051,  0.0193,  0.0229,  0.0341,  0.0057, -0.0025, -0.0008,
+         0.0028, -0.0389], device='cuda:0'), grad: tensor([-2.4736e-06, -5.4389e-07,  1.0692e-06, -5.8897e-06, -7.7039e-06,
+         2.2985e-06,  8.5384e-06,  8.3447e-07,  1.8924e-06,  1.8552e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 212, time 218.08, cls_loss 0.0017 cls_loss_mapping 0.0030 cls_loss_causal 0.5409 re_mapping 0.0062 re_causal 0.0182 /// teacc 98.92 lr 0.00010000
+Epoch 214, weight, value: tensor([[-0.1355,  0.1778, -0.0320,  ..., -0.0120,  0.0732, -0.0030],
+        [ 0.1458, -0.1033,  0.0297,  ..., -0.0594, -0.0142, -0.0688],
+        [-0.0658, -0.1795, -0.0059,  ..., -0.0402,  0.0439, -0.1758],
+        ...,
+        [-0.1516, -0.1873,  0.0530,  ..., -0.0843, -0.0710, -0.1220],
+        [-0.0801,  0.0100,  0.0302,  ...,  0.0269, -0.0966,  0.0565],
+        [-0.0694, -0.0372,  0.0933,  ...,  0.1665, -0.0593, -0.1568]],
+       device='cuda:0'), grad: tensor([[ 2.2352e-07, -2.3842e-07, -1.0058e-07,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [ 5.4061e-05,  2.2352e-08,  3.3192e-06,  ...,  0.0000e+00,
+          0.0000e+00,  7.4506e-09],
+        [-5.5820e-05,  1.4901e-08, -1.5162e-06,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        ...,
+        [ 1.5460e-06,  7.4506e-09, -2.0377e-06,  ...,  0.0000e+00,
+          0.0000e+00,  1.1176e-08],
+        [ 4.0233e-07,  1.1176e-07,  5.2154e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.9744e-07],
+        [ 1.4529e-07,  1.5274e-07,  2.1234e-07,  ...,  0.0000e+00,
+          0.0000e+00,  2.6077e-08]], device='cuda:0')
+Epoch 214, bias, value: tensor([ 0.0317,  0.0050,  0.0188,  0.0228,  0.0343,  0.0060, -0.0027, -0.0007,
+         0.0023, -0.0390], device='cuda:0'), grad: tensor([ 2.4587e-07,  1.1939e-04, -1.2046e-04,  3.6508e-07, -1.5683e-06,
+         8.8289e-06, -1.0483e-05,  4.3213e-07,  1.0692e-06,  2.4028e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 213, time 217.95, cls_loss 0.0020 cls_loss_mapping 0.0034 cls_loss_causal 0.5105 re_mapping 0.0059 re_causal 0.0176 /// teacc 98.92 lr 0.00010000
+Epoch 215, weight, value: tensor([[-0.1358,  0.1783, -0.0319,  ..., -0.0119,  0.0732, -0.0033],
+        [ 0.1457, -0.1036,  0.0295,  ..., -0.0595, -0.0142, -0.0689],
+        [-0.0661, -0.1800, -0.0060,  ..., -0.0402,  0.0439, -0.1761],
+        ...,
+        [-0.1516, -0.1890,  0.0530,  ..., -0.0844, -0.0710, -0.1230],
+        [-0.0818,  0.0081,  0.0297,  ...,  0.0270, -0.0967,  0.0560],
+        [-0.0700, -0.0377,  0.0933,  ...,  0.1666, -0.0593, -0.1577]],
+       device='cuda:0'), grad: tensor([[ 1.4901e-08, -2.1793e-06, -9.2015e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.1176e-08],
+        [-1.4529e-07,  1.8626e-08,  4.4703e-08,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [ 3.7253e-08,  1.7136e-07,  3.9861e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-07],
+        ...,
+        [-5.1782e-07,  1.8626e-08, -2.2054e-06,  ...,  0.0000e+00,
+          0.0000e+00,  7.4506e-09],
+        [ 9.3132e-08, -1.8626e-07,  1.1176e-07,  ..., -3.7253e-09,
+          0.0000e+00, -4.6939e-07],
+        [ 1.5646e-07,  1.6578e-06,  9.6858e-07,  ..., -3.7253e-09,
+          0.0000e+00,  8.9407e-08]], device='cuda:0')
+Epoch 215, bias, value: tensor([ 0.0317,  0.0043,  0.0183,  0.0228,  0.0345,  0.0068, -0.0014, -0.0006,
+         0.0011, -0.0391], device='cuda:0'), grad: tensor([-4.0531e-06,  3.2037e-07,  3.6806e-06,  1.2740e-06,  3.2745e-06,
+         3.6545e-06, -1.8626e-08, -5.5991e-06,  2.1420e-06, -4.7497e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 214, time 218.16, cls_loss 0.0018 cls_loss_mapping 0.0038 cls_loss_causal 0.5449 re_mapping 0.0063 re_causal 0.0189 /// teacc 99.00 lr 0.00010000
+Epoch 216, weight, value: tensor([[-0.1360,  0.1777, -0.0319,  ..., -0.0119,  0.0732, -0.0038],
+        [ 0.1463, -0.1033,  0.0297,  ..., -0.0595, -0.0142, -0.0689],
+        [-0.0663, -0.1795, -0.0068,  ..., -0.0400,  0.0439, -0.1760],
+        ...,
+        [-0.1518, -0.1891,  0.0531,  ..., -0.0844, -0.0710, -0.1232],
+        [-0.0828,  0.0072,  0.0296,  ...,  0.0267, -0.0967,  0.0556],
+        [-0.0704, -0.0380,  0.0933,  ...,  0.1670, -0.0593, -0.1579]],
+       device='cuda:0'), grad: tensor([[ 2.0862e-07, -5.5879e-08,  9.3132e-08,  ...,  7.4506e-09,
+          0.0000e+00,  1.8999e-07],
+        [-4.5076e-07,  0.0000e+00,  3.7998e-07,  ...,  7.4506e-09,
+          0.0000e+00,  4.8429e-08],
+        [ 1.3411e-07,  4.4703e-08, -3.8110e-06,  ...,  1.1176e-08,
+          0.0000e+00,  2.8312e-07],
+        ...,
+        [ 1.2293e-07,  7.4506e-09,  1.1548e-06,  ...,  0.0000e+00,
+          0.0000e+00,  1.4901e-08],
+        [ 3.3155e-07, -1.3039e-07, -1.2293e-07,  ..., -2.7567e-07,
+          0.0000e+00, -2.3581e-06],
+        [ 4.4703e-08,  3.3528e-08,  1.5870e-06,  ...,  1.1548e-07,
+          0.0000e+00,  9.7230e-07]], device='cuda:0')
+Epoch 216, bias, value: tensor([ 0.0308,  0.0046,  0.0184,  0.0227,  0.0348,  0.0071, -0.0007, -0.0005,
+         0.0004, -0.0392], device='cuda:0'), grad: tensor([ 3.2485e-06,  1.1623e-06, -8.3745e-06,  1.5832e-06,  5.5134e-07,
+         1.1522e-04, -1.2457e-04,  2.7232e-06,  3.6322e-06,  4.7497e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 215, time 218.27, cls_loss 0.0020 cls_loss_mapping 0.0029 cls_loss_causal 0.5048 re_mapping 0.0062 re_causal 0.0172 /// teacc 98.92 lr 0.00010000
+Epoch 217, weight, value: tensor([[-0.1356,  0.1773, -0.0319,  ..., -0.0129,  0.0734, -0.0040],
+        [ 0.1470, -0.1035,  0.0297,  ..., -0.0596, -0.0142, -0.0690],
+        [-0.0670, -0.1815, -0.0099,  ..., -0.0401,  0.0439, -0.1771],
+        ...,
+        [-0.1522, -0.1882,  0.0534,  ..., -0.0845, -0.0710, -0.1233],
+        [-0.0831,  0.0071,  0.0296,  ...,  0.0265, -0.0969,  0.0556],
+        [-0.0705, -0.0387,  0.0933,  ...,  0.1677, -0.0593, -0.1583]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09, -1.1548e-07, -5.2154e-08,  ...,  3.7253e-09,
+         -3.7253e-09,  3.7253e-09],
+        [ 3.3155e-07,  5.2154e-08,  5.2154e-08,  ...,  0.0000e+00,
+          0.0000e+00,  2.6077e-08],
+        [-2.6338e-06,  1.1176e-08, -2.8312e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.1176e-08],
+        ...,
+        [ 2.2128e-06,  7.4506e-09,  2.6822e-07,  ...,  3.7253e-09,
+          0.0000e+00,  1.1176e-08],
+        [-4.5449e-07, -2.3097e-06, -8.9407e-07,  ...,  0.0000e+00,
+          0.0000e+00, -1.1474e-06],
+        [ 3.7253e-09,  1.8626e-08, -3.3528e-08,  ..., -1.1176e-08,
+          0.0000e+00,  7.4506e-09]], device='cuda:0')
+Epoch 217, bias, value: tensor([ 2.9756e-02,  4.7990e-03,  1.5709e-02,  2.2693e-02,  3.4505e-02,
+         7.0315e-03,  8.0583e-04, -4.1769e-06,  2.2376e-04, -3.9150e-02],
+       device='cuda:0'), grad: tensor([ 4.0978e-07,  1.7732e-06, -1.0341e-05,  1.0431e-07, -9.4399e-06,
+         3.2112e-06,  8.6129e-06,  8.9929e-06, -3.6061e-06,  2.0862e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 216----------------------------------------------------
+epoch 216, time 217.83, cls_loss 0.0022 cls_loss_mapping 0.0029 cls_loss_causal 0.5412 re_mapping 0.0058 re_causal 0.0178 /// teacc 99.08 lr 0.00010000
+Epoch 218, weight, value: tensor([[-0.1358,  0.1773, -0.0320,  ..., -0.0130,  0.0735, -0.0046],
+        [ 0.1486, -0.1013,  0.0302,  ..., -0.0604, -0.0142, -0.0684],
+        [-0.0676, -0.1820, -0.0102,  ..., -0.0402,  0.0439, -0.1776],
+        ...,
+        [-0.1524, -0.1893,  0.0542,  ..., -0.0846, -0.0710, -0.1237],
+        [-0.0847,  0.0063,  0.0283,  ...,  0.0264, -0.0969,  0.0553],
+        [-0.0705, -0.0389,  0.0926,  ...,  0.1682, -0.0593, -0.1586]],
+       device='cuda:0'), grad: tensor([[-1.2219e-06,  5.4312e-04, -1.4529e-07,  ..., -8.1956e-08,
+          0.0000e+00, -1.0714e-05],
+        [-1.6600e-05,  3.9488e-07, -1.5706e-05,  ...,  3.7253e-09,
+          0.0000e+00, -4.2431e-06],
+        [ 3.7625e-07,  4.2841e-07,  4.3586e-07,  ...,  2.9802e-08,
+          0.0000e+00,  1.4901e-07],
+        ...,
+        [ 1.4111e-05,  1.0282e-06,  1.2800e-05,  ...,  7.4506e-09,
+          0.0000e+00,  3.9972e-06],
+        [ 4.0717e-06,  6.1132e-06,  2.9057e-07,  ..., -2.1979e-07,
+          0.0000e+00,  2.4848e-06],
+        [ 3.5390e-07,  2.5295e-06,  8.6054e-07,  ...,  2.2724e-07,
+          0.0000e+00,  5.9605e-07]], device='cuda:0')
+Epoch 218, bias, value: tensor([ 0.0296,  0.0055,  0.0156,  0.0231,  0.0344,  0.0069,  0.0005,  0.0011,
+        -0.0010, -0.0401], device='cuda:0'), grad: tensor([ 1.8463e-03, -2.9728e-05,  1.6764e-06,  4.1723e-06,  3.6992e-06,
+         4.6849e-05, -1.9312e-03,  2.7165e-05,  2.1562e-05,  8.1733e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 217, time 217.01, cls_loss 0.0024 cls_loss_mapping 0.0025 cls_loss_causal 0.5401 re_mapping 0.0058 re_causal 0.0170 /// teacc 99.01 lr 0.00010000
+Epoch 219, weight, value: tensor([[-0.1365,  0.1767, -0.0320,  ..., -0.0131,  0.0734, -0.0049],
+        [ 0.1476, -0.1005,  0.0279,  ..., -0.0603, -0.0141, -0.0682],
+        [-0.0681, -0.1826, -0.0102,  ..., -0.0403,  0.0439, -0.1781],
+        ...,
+        [-0.1507, -0.1895,  0.0557,  ..., -0.0850, -0.0710, -0.1240],
+        [-0.0851,  0.0061,  0.0279,  ...,  0.0262, -0.0971,  0.0552],
+        [-0.0707, -0.0393,  0.0928,  ...,  0.1698, -0.0593, -0.1591]],
+       device='cuda:0'), grad: tensor([[ 5.9605e-08, -7.4506e-08,  3.3528e-08,  ...,  7.4506e-09,
+          0.0000e+00,  1.4901e-08],
+        [-2.3469e-06,  1.4901e-08, -1.2815e-06,  ...,  1.1176e-08,
+          0.0000e+00,  2.2352e-08],
+        [ 1.8403e-06,  1.2666e-07,  1.1586e-06,  ...,  7.4506e-09,
+          0.0000e+00,  1.5646e-07],
+        ...,
+        [ 6.3330e-08,  7.4506e-09,  1.5646e-07,  ...,  5.2154e-08,
+          0.0000e+00,  1.1176e-08],
+        [ 1.5646e-07, -2.6450e-07, -3.1665e-07,  ..., -4.8429e-08,
+          0.0000e+00, -2.9802e-07],
+        [ 6.7055e-08,  1.3784e-07, -3.1665e-07,  ..., -1.1548e-07,
+          0.0000e+00,  1.1548e-07]], device='cuda:0')
+Epoch 219, bias, value: tensor([ 0.0287,  0.0036,  0.0155,  0.0230,  0.0335,  0.0071,  0.0010,  0.0024,
+        -0.0016, -0.0398], device='cuda:0'), grad: tensor([ 3.6098e-06,  1.4067e-05,  5.3160e-06,  3.5800e-06, -6.0272e-04,
+        -8.6054e-07,  2.9765e-06,  7.9155e-05,  1.1183e-05,  4.8256e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 218----------------------------------------------------
+epoch 218, time 218.13, cls_loss 0.0024 cls_loss_mapping 0.0034 cls_loss_causal 0.5025 re_mapping 0.0058 re_causal 0.0172 /// teacc 99.09 lr 0.00010000
+Epoch 220, weight, value: tensor([[-0.1366,  0.1771, -0.0338,  ..., -0.0165,  0.0734, -0.0052],
+        [ 0.1484, -0.1010,  0.0280,  ..., -0.0604, -0.0141, -0.0682],
+        [-0.0684, -0.1835, -0.0103,  ..., -0.0409,  0.0439, -0.1784],
+        ...,
+        [-0.1513, -0.1892,  0.0569,  ..., -0.0853, -0.0710, -0.1240],
+        [-0.0853,  0.0059,  0.0279,  ...,  0.0248, -0.0971,  0.0551],
+        [-0.0700, -0.0377,  0.0917,  ...,  0.1722, -0.0593, -0.1569]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09, -3.5167e-05, -1.6019e-07,  ...,  2.9802e-08,
+          0.0000e+00,  1.1176e-08],
+        [-6.3330e-08,  2.2352e-08,  2.0489e-07,  ...,  2.9802e-07,
+          0.0000e+00,  4.0978e-08],
+        [-1.1176e-08, -1.4901e-07,  4.6939e-07,  ...,  4.1723e-07,
+          0.0000e+00,  5.9605e-08],
+        ...,
+        [ 2.9802e-08,  2.9802e-08,  1.1176e-07,  ...,  1.0431e-07,
+          0.0000e+00,  1.1176e-08],
+        [ 1.4901e-08,  8.4564e-07, -1.1921e-06,  ..., -1.3746e-06,
+          0.0000e+00, -1.9744e-07],
+        [ 7.4506e-09,  4.0606e-07,  7.4506e-08,  ...,  7.8231e-08,
+          0.0000e+00,  1.4901e-08]], device='cuda:0')
+Epoch 220, bias, value: tensor([ 0.0277,  0.0037,  0.0159,  0.0226,  0.0345,  0.0072,  0.0008,  0.0039,
+        -0.0019, -0.0413], device='cuda:0'), grad: tensor([-7.7128e-05,  1.5050e-06,  2.1681e-06,  2.9542e-06, -1.8924e-06,
+         1.5907e-06,  7.2181e-05,  6.4448e-07, -5.1782e-06,  3.0436e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 219, time 217.26, cls_loss 0.0024 cls_loss_mapping 0.0038 cls_loss_causal 0.5381 re_mapping 0.0057 re_causal 0.0171 /// teacc 98.99 lr 0.00010000
+Epoch 221, weight, value: tensor([[-0.1390,  0.1778, -0.0338,  ..., -0.0173,  0.0734, -0.0027],
+        [ 0.1486, -0.1015,  0.0279,  ..., -0.0606, -0.0141, -0.0683],
+        [-0.0687, -0.1855, -0.0106,  ..., -0.0423,  0.0439, -0.1791],
+        ...,
+        [-0.1514, -0.1908,  0.0570,  ..., -0.0856, -0.0710, -0.1244],
+        [-0.0855,  0.0056,  0.0279,  ...,  0.0227, -0.0969,  0.0552],
+        [-0.0691, -0.0370,  0.0919,  ...,  0.1745, -0.0593, -0.1546]],
+       device='cuda:0'), grad: tensor([[ 2.6077e-08,  3.1292e-07,  6.0722e-07,  ...,  3.7253e-09,
+          0.0000e+00,  3.5390e-07],
+        [-1.4901e-08,  1.1176e-08,  1.7881e-07,  ...,  3.7253e-08,
+          0.0000e+00,  3.3528e-08],
+        [ 7.4506e-09,  1.3784e-07,  3.0547e-07,  ...,  3.3528e-08,
+          0.0000e+00,  2.8685e-07],
+        ...,
+        [ 3.3528e-08,  2.2352e-08, -7.9721e-07,  ...,  4.4703e-08,
+          0.0000e+00,  1.4901e-07],
+        [ 3.3528e-07, -8.4937e-07, -1.8105e-06,  ..., -7.4506e-09,
+          0.0000e+00,  1.1548e-07],
+        [ 1.8142e-06,  1.6838e-06,  1.0766e-06,  ...,  1.3709e-06,
+          0.0000e+00,  2.5146e-06]], device='cuda:0')
+Epoch 221, bias, value: tensor([ 0.0263,  0.0035,  0.0156,  0.0227,  0.0339,  0.0059,  0.0027,  0.0039,
+        -0.0022, -0.0410], device='cuda:0'), grad: tensor([ 1.5013e-06,  7.5251e-07,  9.6112e-07, -5.8264e-06, -1.5467e-05,
+        -2.8126e-06,  6.9290e-07, -5.7742e-07, -1.7136e-06,  2.2396e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 220, time 217.79, cls_loss 0.0020 cls_loss_mapping 0.0030 cls_loss_causal 0.5154 re_mapping 0.0058 re_causal 0.0170 /// teacc 98.86 lr 0.00010000
+Epoch 222, weight, value: tensor([[-0.1391,  0.1784, -0.0336,  ..., -0.0172,  0.0734, -0.0029],
+        [ 0.1489, -0.1021,  0.0278,  ..., -0.0613, -0.0141, -0.0685],
+        [-0.0692, -0.1857, -0.0107,  ..., -0.0423,  0.0440, -0.1792],
+        ...,
+        [-0.1517, -0.1913,  0.0571,  ..., -0.0858, -0.0710, -0.1245],
+        [-0.0858,  0.0055,  0.0278,  ...,  0.0221, -0.0969,  0.0551],
+        [-0.0696, -0.0374,  0.0919,  ...,  0.1753, -0.0593, -0.1547]],
+       device='cuda:0'), grad: tensor([[ 3.8370e-07, -1.4901e-07,  5.4017e-07,  ..., -7.4506e-09,
+          0.0000e+00,  2.6077e-08],
+        [ 9.4995e-07,  1.1176e-08, -1.8626e-08,  ...,  3.7253e-09,
+          0.0000e+00,  7.4506e-09],
+        [-1.3039e-06, -7.4506e-08,  2.1607e-07,  ..., -5.5879e-08,
+          0.0000e+00,  3.7253e-09],
+        ...,
+        [ 3.3900e-07,  1.1176e-08,  4.4703e-07,  ...,  3.3528e-08,
+          0.0000e+00,  1.1176e-08],
+        [ 4.2096e-07, -6.3330e-08,  3.4273e-07,  ...,  1.4901e-08,
+          0.0000e+00, -8.5682e-08],
+        [-2.9892e-05,  1.4529e-07, -5.4926e-05,  ...,  5.9530e-06,
+          0.0000e+00, -5.5879e-07]], device='cuda:0')
+Epoch 222, bias, value: tensor([ 0.0267,  0.0031,  0.0156,  0.0226,  0.0335,  0.0059,  0.0028,  0.0040,
+        -0.0026, -0.0410], device='cuda:0'), grad: tensor([ 2.7493e-06,  6.0424e-06, -6.7502e-06,  5.6624e-07,  1.1221e-05,
+         4.0442e-05,  1.5163e-04,  2.1420e-06,  2.1234e-06, -2.1017e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 221, time 217.25, cls_loss 0.0020 cls_loss_mapping 0.0034 cls_loss_causal 0.5434 re_mapping 0.0060 re_causal 0.0178 /// teacc 98.98 lr 0.00010000
+Epoch 223, weight, value: tensor([[-0.1391,  0.1789, -0.0335,  ..., -0.0172,  0.0734, -0.0032],
+        [ 0.1491, -0.1020,  0.0278,  ..., -0.0611, -0.0140, -0.0685],
+        [-0.0694, -0.1861, -0.0098,  ..., -0.0425,  0.0440, -0.1797],
+        ...,
+        [-0.1519, -0.1923,  0.0571,  ..., -0.0861, -0.0710, -0.1250],
+        [-0.0871,  0.0040,  0.0274,  ...,  0.0217, -0.0969,  0.0538],
+        [-0.0697, -0.0377,  0.0920,  ...,  0.1755, -0.0593, -0.1549]],
+       device='cuda:0'), grad: tensor([[ 4.0978e-08, -4.6790e-05, -2.0228e-06,  ..., -1.6019e-07,
+         -2.2352e-07, -1.0431e-06],
+        [ 4.6194e-07,  1.2442e-06,  3.1888e-06,  ...,  6.7055e-08,
+          7.0781e-08,  3.5390e-07],
+        [ 2.2352e-08,  1.6876e-06,  2.1607e-07,  ...,  1.8626e-08,
+          3.7253e-09,  4.4703e-08],
+        ...,
+        [-5.6624e-07,  4.5076e-07, -3.5428e-06,  ...,  1.0058e-07,
+          3.7253e-09,  4.8429e-08],
+        [ 2.0862e-07,  9.9093e-07, -1.1846e-06,  ..., -5.0664e-07,
+          1.1176e-07, -1.4007e-06],
+        [ 4.0978e-08,  1.4938e-05,  2.2389e-06,  ...,  4.5821e-07,
+          7.4506e-09,  1.7434e-06]], device='cuda:0')
+Epoch 223, bias, value: tensor([ 0.0268,  0.0031,  0.0167,  0.0228,  0.0348,  0.0068,  0.0024,  0.0039,
+        -0.0043, -0.0412], device='cuda:0'), grad: tensor([-1.0502e-04,  7.0706e-06,  3.8743e-06,  3.3528e-06, -4.8243e-06,
+         2.2113e-05,  3.5912e-05, -4.3698e-06,  1.1250e-06,  4.0621e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 222, time 217.44, cls_loss 0.0019 cls_loss_mapping 0.0032 cls_loss_causal 0.5061 re_mapping 0.0057 re_causal 0.0172 /// teacc 99.02 lr 0.00010000
+Epoch 224, weight, value: tensor([[-0.1390,  0.1802, -0.0328,  ..., -0.0168,  0.0734, -0.0016],
+        [ 0.1492, -0.1022,  0.0276,  ..., -0.0646, -0.0140, -0.0686],
+        [-0.0697, -0.1871, -0.0105,  ..., -0.0427,  0.0440, -0.1802],
+        ...,
+        [-0.1520, -0.1941,  0.0582,  ..., -0.0842, -0.0710, -0.1256],
+        [-0.0875,  0.0037,  0.0274,  ...,  0.0218, -0.0969,  0.0537],
+        [-0.0686, -0.0391,  0.0908,  ...,  0.1746, -0.0593, -0.1556]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09, -6.2957e-07, -2.5332e-07,  ...,  5.5507e-07,
+          0.0000e+00,  2.7530e-06],
+        [-1.0133e-06,  0.0000e+00, -1.1101e-06,  ..., -1.1176e-08,
+          0.0000e+00,  8.9407e-08],
+        [ 3.3528e-08,  1.1548e-07, -4.1351e-06,  ...,  8.5682e-08,
+          0.0000e+00, -9.3877e-07],
+        ...,
+        [ 8.5682e-07,  6.3330e-08,  1.0692e-06,  ...,  5.2154e-08,
+          0.0000e+00,  1.1921e-07],
+        [ 1.1176e-08,  4.2096e-07,  3.3937e-06,  ...,  4.2841e-07,
+          0.0000e+00,  3.4645e-06],
+        [ 5.2154e-08,  2.5705e-07,  3.3155e-07,  ..., -3.7253e-08,
+          0.0000e+00,  4.2096e-07]], device='cuda:0')
+Epoch 224, bias, value: tensor([ 0.0273,  0.0030,  0.0166,  0.0228,  0.0350,  0.0070,  0.0022,  0.0050,
+        -0.0046, -0.0424], device='cuda:0'), grad: tensor([ 7.4953e-06, -5.4762e-07, -1.8984e-05, -1.6153e-05,  1.2815e-06,
+         1.5378e-05,  1.7546e-06, -3.0488e-05,  2.4378e-05,  1.5780e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 223, time 217.36, cls_loss 0.0018 cls_loss_mapping 0.0027 cls_loss_causal 0.5411 re_mapping 0.0058 re_causal 0.0178 /// teacc 98.87 lr 0.00010000
+Epoch 225, weight, value: tensor([[-0.1391,  0.1808, -0.0326,  ..., -0.0168,  0.0741, -0.0019],
+        [ 0.1499, -0.1027,  0.0278,  ..., -0.0645, -0.0140, -0.0689],
+        [-0.0703, -0.1884, -0.0102,  ..., -0.0427,  0.0440, -0.1818],
+        ...,
+        [-0.1529, -0.1966,  0.0581,  ..., -0.0843, -0.0710, -0.1265],
+        [-0.0872,  0.0043,  0.0283,  ...,  0.0216, -0.0970,  0.0547],
+        [-0.0688, -0.0393,  0.0908,  ...,  0.1747, -0.0593, -0.1557]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09, -1.3821e-06, -5.3272e-07,  ..., -4.4703e-08,
+          0.0000e+00,  0.0000e+00],
+        [-8.1956e-08,  1.8626e-08,  2.6077e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 7.4506e-09,  2.6077e-08,  2.2352e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 2.9802e-08,  2.9802e-08, -5.5507e-07,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 5.5879e-08,  1.4156e-07,  1.6019e-07,  ...,  0.0000e+00,
+          0.0000e+00,  7.4506e-09],
+        [ 3.7253e-09,  7.6368e-07,  2.4587e-07,  ..., -4.0978e-08,
+          0.0000e+00, -2.6077e-08]], device='cuda:0')
+Epoch 225, bias, value: tensor([ 0.0275,  0.0031,  0.0166,  0.0232,  0.0352,  0.0066,  0.0019,  0.0047,
+        -0.0036, -0.0425], device='cuda:0'), grad: tensor([-1.9334e-06,  1.9372e-07, -9.4995e-07,  9.5740e-07, -4.4703e-07,
+         4.4703e-07,  1.1921e-07, -1.5944e-06,  1.1586e-06,  2.0228e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 224, time 217.41, cls_loss 0.0012 cls_loss_mapping 0.0020 cls_loss_causal 0.4965 re_mapping 0.0054 re_causal 0.0174 /// teacc 99.00 lr 0.00010000
+Epoch 226, weight, value: tensor([[-0.1391,  0.1811, -0.0324,  ..., -0.0168,  0.0749, -0.0015],
+        [ 0.1505, -0.1021,  0.0281,  ..., -0.0642, -0.0140, -0.0686],
+        [-0.0704, -0.1888, -0.0106,  ..., -0.0427,  0.0440, -0.1823],
+        ...,
+        [-0.1531, -0.1971,  0.0582,  ..., -0.0844, -0.0710, -0.1268],
+        [-0.0874,  0.0044,  0.0280,  ...,  0.0206, -0.0971,  0.0549],
+        [-0.0693, -0.0395,  0.0908,  ...,  0.1749, -0.0594, -0.1560]],
+       device='cuda:0'), grad: tensor([[ 1.1176e-08, -1.3039e-07, -5.2154e-08,  ...,  0.0000e+00,
+          0.0000e+00,  3.3528e-07],
+        [-2.5332e-07,  3.7253e-09, -2.0117e-07,  ...,  3.7253e-09,
+          0.0000e+00,  2.1234e-07],
+        [ 1.4901e-08,  1.8626e-08,  7.4506e-08,  ...,  3.7253e-09,
+          0.0000e+00,  8.7917e-07],
+        ...,
+        [ 1.6019e-07,  1.1176e-08,  9.3132e-08,  ...,  1.4901e-08,
+          0.0000e+00,  3.5018e-07],
+        [ 8.5682e-08, -1.8626e-08,  2.5332e-07,  ...,  5.5879e-08,
+          0.0000e+00,  1.7919e-06],
+        [ 4.4703e-08,  7.8231e-08, -7.1153e-07,  ..., -1.8626e-07,
+          0.0000e+00,  1.2293e-07]], device='cuda:0')
+Epoch 226, bias, value: tensor([ 0.0275,  0.0034,  0.0165,  0.0230,  0.0354,  0.0066,  0.0018,  0.0048,
+        -0.0037, -0.0426], device='cuda:0'), grad: tensor([ 8.4937e-07,  4.2096e-07,  2.8238e-06, -1.2308e-05, -2.1271e-06,
+         5.1782e-07,  2.3842e-07,  1.5274e-06,  6.2138e-06,  1.7993e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 225, time 217.66, cls_loss 0.0013 cls_loss_mapping 0.0019 cls_loss_causal 0.5172 re_mapping 0.0059 re_causal 0.0183 /// teacc 98.97 lr 0.00010000
+Epoch 227, weight, value: tensor([[-0.1391,  0.1813, -0.0325,  ..., -0.0168,  0.0750, -0.0018],
+        [ 0.1513, -0.1008,  0.0282,  ..., -0.0653, -0.0140, -0.0675],
+        [-0.0708, -0.1891, -0.0107,  ..., -0.0428,  0.0440, -0.1826],
+        ...,
+        [-0.1534, -0.1977,  0.0582,  ..., -0.0846, -0.0710, -0.1270],
+        [-0.0876,  0.0043,  0.0280,  ...,  0.0205, -0.0971,  0.0549],
+        [-0.0692, -0.0396,  0.0908,  ...,  0.1752, -0.0594, -0.1560]],
+       device='cuda:0'), grad: tensor([[ 1.7509e-07,  0.0000e+00,  2.1979e-07,  ...,  2.6077e-08,
+          0.0000e+00,  1.1176e-08],
+        [-1.7397e-06,  0.0000e+00, -2.3767e-06,  ..., -3.6880e-07,
+          0.0000e+00,  0.0000e+00],
+        [ 2.9802e-08,  6.3330e-08,  1.3784e-07,  ...,  1.1176e-08,
+          0.0000e+00,  3.7253e-08],
+        ...,
+        [ 1.9744e-07,  3.7253e-09,  1.5423e-06,  ...,  2.8312e-07,
+          0.0000e+00,  3.7253e-09],
+        [ 1.9372e-07, -2.9430e-07, -2.2352e-08,  ...,  4.0978e-08,
+          0.0000e+00, -1.8626e-07],
+        [ 2.2724e-07,  1.4901e-08,  6.3330e-08,  ..., -5.2154e-08,
+          0.0000e+00,  3.7253e-09]], device='cuda:0')
+Epoch 227, bias, value: tensor([ 0.0276,  0.0036,  0.0165,  0.0230,  0.0358,  0.0065,  0.0016,  0.0047,
+        -0.0038, -0.0426], device='cuda:0'), grad: tensor([ 6.0722e-07, -3.3788e-06,  1.7881e-07,  4.4703e-08,  2.7269e-06,
+         1.7658e-06,  5.9232e-07, -1.7732e-06, -9.4622e-07,  1.7509e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 226, time 217.51, cls_loss 0.0015 cls_loss_mapping 0.0033 cls_loss_causal 0.5335 re_mapping 0.0060 re_causal 0.0181 /// teacc 98.94 lr 0.00010000
+Epoch 228, weight, value: tensor([[-0.1391,  0.1818, -0.0324,  ..., -0.0168,  0.0752, -0.0024],
+        [ 0.1525, -0.1008,  0.0288,  ..., -0.0654, -0.0140, -0.0676],
+        [-0.0709, -0.1895, -0.0103,  ..., -0.0426,  0.0440, -0.1821],
+        ...,
+        [-0.1548, -0.1989,  0.0579,  ..., -0.0849, -0.0710, -0.1278],
+        [-0.0877,  0.0046,  0.0279,  ...,  0.0202, -0.0974,  0.0554],
+        [-0.0692, -0.0398,  0.0909,  ...,  0.1756, -0.0594, -0.1561]],
+       device='cuda:0'), grad: tensor([[ 1.1176e-08, -1.8254e-07,  6.3330e-08,  ..., -7.4506e-09,
+          0.0000e+00, -3.7253e-09],
+        [-1.4901e-07,  0.0000e+00,  6.4448e-07,  ...,  3.7253e-09,
+          0.0000e+00,  7.4506e-09],
+        [-4.0978e-08,  1.1176e-08,  1.6727e-06,  ...,  3.7253e-09,
+          0.0000e+00,  1.8626e-08],
+        ...,
+        [ 6.3330e-08,  3.7253e-09, -1.0364e-05,  ...,  2.6077e-08,
+          0.0000e+00,  2.2352e-08],
+        [ 5.9605e-08, -3.7253e-09,  2.0862e-07,  ..., -1.8626e-08,
+          0.0000e+00, -5.5879e-08],
+        [ 7.4506e-09,  1.0058e-07,  4.3809e-06,  ..., -1.2293e-07,
+          0.0000e+00, -2.2352e-08]], device='cuda:0')
+Epoch 228, bias, value: tensor([ 0.0277,  0.0043,  0.0170,  0.0230,  0.0362,  0.0063,  0.0015,  0.0044,
+        -0.0039, -0.0427], device='cuda:0'), grad: tensor([-3.7253e-09,  1.4640e-06,  1.9930e-06,  4.7088e-06,  5.2527e-07,
+         9.6858e-08,  1.2293e-07, -1.6615e-05,  3.5763e-07,  7.3090e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 227, time 217.35, cls_loss 0.0018 cls_loss_mapping 0.0024 cls_loss_causal 0.5016 re_mapping 0.0060 re_causal 0.0165 /// teacc 98.96 lr 0.00010000
+Epoch 229, weight, value: tensor([[-0.1392,  0.1825, -0.0327,  ..., -0.0170,  0.0756, -0.0031],
+        [ 0.1526, -0.1010,  0.0285,  ..., -0.0665, -0.0140, -0.0677],
+        [-0.0712, -0.1905, -0.0107,  ..., -0.0430,  0.0440, -0.1831],
+        ...,
+        [-0.1551, -0.2001,  0.0577,  ..., -0.0864, -0.0710, -0.1282],
+        [-0.0877,  0.0048,  0.0281,  ...,  0.0207, -0.0975,  0.0558],
+        [-0.0667, -0.0408,  0.0915,  ...,  0.1771, -0.0595, -0.1562]],
+       device='cuda:0'), grad: tensor([[ 1.1548e-07, -3.0547e-07, -3.2410e-07,  ..., -1.5646e-07,
+          0.0000e+00,  2.9802e-08],
+        [-7.9393e-05,  4.4703e-08, -9.9421e-05,  ...,  1.4901e-08,
+          0.0000e+00, -5.2154e-08],
+        [ 6.1467e-07,  2.2352e-08,  6.0350e-07,  ...,  7.4506e-09,
+          0.0000e+00,  1.4901e-08],
+        ...,
+        [ 7.7367e-05,  2.6077e-08,  9.6917e-05,  ...,  1.4901e-08,
+          0.0000e+00,  1.0431e-07],
+        [ 2.5332e-07, -4.9174e-07, -4.6566e-07,  ...,  1.1176e-08,
+          0.0000e+00, -1.9781e-06],
+        [ 1.3411e-06,  4.9546e-07,  1.3411e-06,  ...,  1.6019e-07,
+          0.0000e+00,  2.2352e-07]], device='cuda:0')
+Epoch 229, bias, value: tensor([ 0.0276,  0.0039,  0.0166,  0.0232,  0.0362,  0.0059,  0.0012,  0.0042,
+        -0.0035, -0.0421], device='cuda:0'), grad: tensor([-3.9861e-07, -1.3602e-04,  9.8348e-07,  1.4082e-06, -6.1840e-07,
+         1.8999e-07,  4.4703e-07,  1.3292e-04, -2.2091e-06,  3.1404e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 228, time 217.29, cls_loss 0.0020 cls_loss_mapping 0.0025 cls_loss_causal 0.4974 re_mapping 0.0058 re_causal 0.0166 /// teacc 98.95 lr 0.00010000
+Epoch 230, weight, value: tensor([[-0.1393,  0.1839, -0.0317,  ..., -0.0170,  0.0752, -0.0030],
+        [ 0.1530, -0.1031,  0.0284,  ..., -0.0666, -0.0139, -0.0680],
+        [-0.0716, -0.1909, -0.0109,  ..., -0.0432,  0.0443, -0.1840],
+        ...,
+        [-0.1554, -0.2014,  0.0577,  ..., -0.0867, -0.0711, -0.1287],
+        [-0.0867,  0.0068,  0.0295,  ...,  0.0205, -0.0977,  0.0583],
+        [-0.0674, -0.0414,  0.0916,  ...,  0.1780, -0.0596, -0.1572]],
+       device='cuda:0'), grad: tensor([[-1.1735e-06, -1.0855e-05, -5.9679e-06,  ...,  7.4506e-09,
+          0.0000e+00,  5.2527e-07],
+        [-3.5390e-07,  1.8254e-07, -1.4901e-07,  ...,  7.4506e-09,
+          0.0000e+00,  2.5332e-07],
+        [ 3.7253e-08,  1.0468e-06,  9.4995e-07,  ...,  1.8626e-08,
+          0.0000e+00,  1.2331e-06],
+        ...,
+        [ 2.3842e-07,  1.4901e-07,  3.6135e-07,  ...,  1.4901e-08,
+          0.0000e+00,  3.0920e-07],
+        [ 4.4331e-07, -2.7828e-06, -3.6918e-06,  ..., -2.1607e-07,
+          0.0000e+00, -3.7067e-06],
+        [ 3.9861e-07,  1.5236e-06,  1.3635e-06,  ...,  9.3132e-08,
+          0.0000e+00,  1.4491e-06]], device='cuda:0')
+Epoch 230, bias, value: tensor([ 0.0283,  0.0035,  0.0168,  0.0222,  0.0355,  0.0054,  0.0010,  0.0041,
+        -0.0016, -0.0419], device='cuda:0'), grad: tensor([-2.5541e-05,  1.0058e-07,  3.3379e-06, -1.9819e-06, -8.5086e-06,
+         8.0094e-07,  2.6956e-05,  1.4603e-06, -9.1642e-06,  1.2472e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 229, time 217.57, cls_loss 0.0016 cls_loss_mapping 0.0028 cls_loss_causal 0.5017 re_mapping 0.0057 re_causal 0.0165 /// teacc 99.04 lr 0.00010000
+Epoch 231, weight, value: tensor([[-0.1392,  0.1844, -0.0316,  ..., -0.0170,  0.0748, -0.0017],
+        [ 0.1549, -0.1031,  0.0294,  ..., -0.0672, -0.0139, -0.0681],
+        [-0.0717, -0.1911, -0.0108,  ..., -0.0433,  0.0443, -0.1841],
+        ...,
+        [-0.1573, -0.2031,  0.0573,  ..., -0.0868, -0.0711, -0.1288],
+        [-0.0869,  0.0068,  0.0294,  ...,  0.0206, -0.0980,  0.0584],
+        [-0.0680, -0.0420,  0.0916,  ...,  0.1783, -0.0596, -0.1577]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-08, -4.9435e-06, -3.2298e-06,  ...,  0.0000e+00,
+          0.0000e+00, -7.4506e-08],
+        [-1.3262e-06,  1.7509e-07, -1.7509e-07,  ...,  0.0000e+00,
+          0.0000e+00,  2.6077e-08],
+        [ 6.3702e-07,  3.3528e-08,  3.2037e-07,  ...,  0.0000e+00,
+          0.0000e+00,  4.0978e-08],
+        ...,
+        [ 1.9744e-07,  1.1176e-08, -5.6997e-07,  ...,  0.0000e+00,
+          0.0000e+00, -1.2666e-07],
+        [ 1.5274e-07,  3.2410e-07,  3.5763e-07,  ...,  0.0000e+00,
+          0.0000e+00,  2.9802e-08],
+        [ 9.3132e-08,  2.2352e-07,  1.7509e-07,  ...,  0.0000e+00,
+          0.0000e+00,  4.8429e-08]], device='cuda:0')
+Epoch 231, bias, value: tensor([ 0.0285,  0.0045,  0.0176,  0.0221,  0.0357,  0.0055,  0.0008,  0.0036,
+        -0.0018, -0.0420], device='cuda:0'), grad: tensor([-7.1488e-06, -9.9093e-07,  1.1176e-06,  5.6624e-07, -5.7742e-07,
+         1.4156e-07,  6.0163e-06, -1.2517e-06,  1.3188e-06,  7.4133e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 230, time 217.65, cls_loss 0.0015 cls_loss_mapping 0.0020 cls_loss_causal 0.5371 re_mapping 0.0056 re_causal 0.0171 /// teacc 98.97 lr 0.00010000
+Epoch 232, weight, value: tensor([[-1.3890e-01,  1.8534e-01, -3.1411e-02,  ..., -1.6972e-02,
+          7.4850e-02, -3.8673e-05],
+        [ 1.5564e-01, -1.0287e-01,  2.9838e-02,  ..., -6.7360e-02,
+         -1.3871e-02, -6.7861e-02],
+        [-7.2265e-02, -1.9189e-01, -1.0495e-02,  ..., -4.3444e-02,
+          4.4265e-02, -1.8347e-01],
+        ...,
+        [-1.5781e-01, -2.0634e-01,  5.7087e-02,  ..., -8.6872e-02,
+         -7.1058e-02, -1.3047e-01],
+        [-8.7106e-02,  7.2244e-03,  2.9683e-02,  ...,  2.0566e-02,
+         -9.7959e-02,  5.8670e-02],
+        [-6.8655e-02, -4.2586e-02,  9.1630e-02,  ...,  1.7845e-01,
+         -5.9590e-02, -1.5851e-01]], device='cuda:0'), grad: tensor([[ 7.4506e-09, -1.8012e-06, -9.3505e-07,  ..., -1.9558e-07,
+          0.0000e+00,  3.7253e-09],
+        [ 3.7253e-09,  8.1956e-08,  1.7695e-07,  ...,  5.7742e-08,
+          0.0000e+00,  2.6077e-08],
+        [ 1.8626e-09,  3.0734e-07,  1.8068e-07,  ...,  5.0291e-08,
+          0.0000e+00,  2.9802e-08],
+        ...,
+        [ 7.4506e-09,  1.7881e-07,  6.9663e-07,  ...,  2.4401e-07,
+          0.0000e+00,  1.0803e-07],
+        [-2.1048e-07, -1.0990e-07,  2.2352e-08,  ...,  2.0303e-07,
+          0.0000e+00, -1.5311e-06],
+        [ 2.0489e-08,  8.1956e-07, -3.5092e-06,  ..., -1.4957e-06,
+          0.0000e+00,  3.3528e-08]], device='cuda:0')
+Epoch 232, bias, value: tensor([ 0.0288,  0.0051,  0.0180,  0.0219,  0.0361,  0.0053,  0.0005,  0.0033,
+        -0.0015, -0.0422], device='cuda:0'), grad: tensor([-3.1199e-06,  5.8301e-07, -1.7762e-05,  4.3772e-07,  1.8150e-05,
+         2.2240e-06,  9.0152e-07,  5.2974e-06, -9.8534e-07, -5.7593e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 231, time 217.29, cls_loss 0.0015 cls_loss_mapping 0.0018 cls_loss_causal 0.4773 re_mapping 0.0058 re_causal 0.0164 /// teacc 99.00 lr 0.00010000
+Epoch 233, weight, value: tensor([[-1.3898e-01,  1.8579e-01, -3.1305e-02,  ..., -1.6965e-02,
+          7.4955e-02, -1.1184e-04],
+        [ 1.5645e-01, -1.0264e-01,  3.0053e-02,  ..., -6.7749e-02,
+         -1.3873e-02, -6.7900e-02],
+        [-7.2741e-02, -1.9261e-01, -1.0735e-02,  ..., -4.3509e-02,
+          4.4263e-02, -1.8399e-01],
+        ...,
+        [-1.5847e-01, -2.0787e-01,  5.7286e-02,  ..., -8.6947e-02,
+         -7.1061e-02, -1.3102e-01],
+        [-8.7495e-02,  7.2850e-03,  2.9848e-02,  ...,  2.0593e-02,
+         -9.7983e-02,  5.8648e-02],
+        [-6.9151e-02, -4.2844e-02,  9.1358e-02,  ...,  1.7863e-01,
+         -5.9547e-02, -1.5873e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.8626e-09,  2.8498e-07,  ...,  0.0000e+00,
+          0.0000e+00,  5.9605e-08],
+        [-1.6764e-08,  9.3132e-09,  3.8482e-06,  ...,  0.0000e+00,
+          0.0000e+00,  7.4506e-09],
+        [ 3.7253e-09, -5.5693e-07,  6.0908e-07,  ...,  0.0000e+00,
+          0.0000e+00, -3.7625e-07],
+        ...,
+        [ 5.5879e-09,  3.4273e-07, -9.0897e-06,  ...,  0.0000e+00,
+          0.0000e+00,  2.4401e-07],
+        [ 3.7253e-09,  5.7742e-08,  5.4762e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.3039e-08],
+        [ 1.8626e-09,  3.1665e-08,  1.1884e-06,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-09]], device='cuda:0')
+Epoch 233, bias, value: tensor([ 0.0289,  0.0054,  0.0179,  0.0217,  0.0361,  0.0057,  0.0002,  0.0034,
+        -0.0014, -0.0425], device='cuda:0'), grad: tensor([ 1.5069e-06,  8.4490e-06, -5.1111e-06,  5.1744e-06, -4.8801e-06,
+         1.8626e-07,  1.6578e-07, -1.5587e-05,  1.9893e-06,  8.1062e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 232, time 217.58, cls_loss 0.0016 cls_loss_mapping 0.0028 cls_loss_causal 0.5297 re_mapping 0.0057 re_causal 0.0172 /// teacc 98.99 lr 0.00010000
+Epoch 234, weight, value: tensor([[-1.3901e-01,  1.8618e-01, -3.1215e-02,  ..., -1.7016e-02,
+          7.4939e-02, -1.5087e-04],
+        [ 1.5764e-01, -1.0249e-01,  3.0785e-02,  ..., -6.7723e-02,
+         -1.3873e-02, -6.7878e-02],
+        [-7.2829e-02, -1.9340e-01, -1.1334e-02,  ..., -4.3629e-02,
+          4.4263e-02, -1.8442e-01],
+        ...,
+        [-1.5962e-01, -2.0862e-01,  5.6891e-02,  ..., -8.7054e-02,
+         -7.1061e-02, -1.3220e-01],
+        [-8.7836e-02,  7.0916e-03,  3.0938e-02,  ...,  2.0906e-02,
+         -9.7985e-02,  5.8621e-02],
+        [-6.9548e-02, -4.2936e-02,  9.1370e-02,  ...,  1.7848e-01,
+         -5.9530e-02, -1.5995e-01]], device='cuda:0'), grad: tensor([[ 7.4506e-09, -6.5193e-07, -6.7055e-08,  ...,  0.0000e+00,
+          0.0000e+00, -1.4715e-07],
+        [-4.6194e-07, -2.6077e-08, -1.9744e-07,  ..., -3.7253e-09,
+          0.0000e+00,  2.6077e-08],
+        [ 2.6077e-08,  1.1176e-08, -9.8720e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.3039e-08],
+        ...,
+        [ 5.4017e-08,  9.3132e-09, -1.0040e-06,  ...,  1.8626e-09,
+          0.0000e+00,  5.5879e-08],
+        [ 2.4401e-07,  1.6764e-08,  3.4831e-07,  ...,  5.5879e-08,
+          0.0000e+00, -1.2107e-07],
+        [ 2.5332e-07,  1.9558e-07,  3.5390e-08,  ..., -6.7055e-08,
+          0.0000e+00,  1.5832e-07]], device='cuda:0')
+Epoch 234, bias, value: tensor([ 0.0290,  0.0062,  0.0175,  0.0218,  0.0370,  0.0059,  0.0001,  0.0030,
+        -0.0011, -0.0428], device='cuda:0'), grad: tensor([-8.8476e-07,  5.4017e-08, -6.2212e-07,  1.1008e-06, -3.5018e-07,
+         3.6322e-07,  8.5868e-07, -2.4699e-06,  1.3709e-06,  5.5879e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 233, time 217.09, cls_loss 0.0017 cls_loss_mapping 0.0034 cls_loss_causal 0.5035 re_mapping 0.0055 re_causal 0.0165 /// teacc 98.88 lr 0.00010000
+Epoch 235, weight, value: tensor([[-0.1390,  0.1868, -0.0310,  ..., -0.0170,  0.0750, -0.0003],
+        [ 0.1577, -0.1026,  0.0307,  ..., -0.0685, -0.0139, -0.0683],
+        [-0.0730, -0.1946, -0.0120,  ..., -0.0438,  0.0443, -0.1857],
+        ...,
+        [-0.1598, -0.2098,  0.0569,  ..., -0.0873, -0.0711, -0.1326],
+        [-0.0880,  0.0072,  0.0316,  ...,  0.0207, -0.0980,  0.0591],
+        [-0.0685, -0.0433,  0.0914,  ...,  0.1782, -0.0595, -0.1607]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09, -1.7121e-05, -1.0841e-06,  ...,  2.7940e-08,
+          0.0000e+00,  1.8626e-09],
+        [-5.5879e-09,  3.3528e-07,  1.2480e-07,  ...,  3.1665e-08,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  3.2410e-07,  1.7323e-07,  ...,  1.1176e-08,
+          0.0000e+00,  1.8626e-09],
+        ...,
+        [ 7.4506e-09,  5.2154e-08,  3.6135e-07,  ...,  1.2293e-07,
+          0.0000e+00,  1.3039e-08],
+        [ 3.3528e-08,  2.1793e-07,  3.0547e-07,  ...,  9.3132e-08,
+          0.0000e+00,  2.2352e-08],
+        [ 1.3411e-07,  6.2026e-07, -2.6897e-06,  ..., -9.9279e-07,
+          0.0000e+00,  6.3330e-08]], device='cuda:0')
+Epoch 235, bias, value: tensor([ 0.0292,  0.0060,  0.0172,  0.0230,  0.0389,  0.0046,  0.0002,  0.0030,
+        -0.0008, -0.0433], device='cuda:0'), grad: tensor([-5.0724e-05,  1.3914e-06,  6.1467e-07,  5.0850e-07,  4.4033e-06,
+         5.1036e-07,  4.5210e-05,  1.4659e-06,  1.3523e-06, -4.6827e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 234, time 217.56, cls_loss 0.0013 cls_loss_mapping 0.0027 cls_loss_causal 0.5035 re_mapping 0.0063 re_causal 0.0182 /// teacc 98.87 lr 0.00010000
+Epoch 236, weight, value: tensor([[-0.1391,  0.1872, -0.0310,  ..., -0.0170,  0.0750, -0.0005],
+        [ 0.1577, -0.1026,  0.0306,  ..., -0.0687, -0.0139, -0.0685],
+        [-0.0733, -0.1955, -0.0119,  ..., -0.0438,  0.0443, -0.1853],
+        ...,
+        [-0.1599, -0.2108,  0.0570,  ..., -0.0873, -0.0711, -0.1329],
+        [-0.0881,  0.0072,  0.0315,  ...,  0.0206, -0.0980,  0.0590],
+        [-0.0716, -0.0454,  0.0915,  ...,  0.1779, -0.0595, -0.1633]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09,  2.6450e-07,  2.2538e-07,  ...,  1.4901e-07,
+          0.0000e+00,  2.6636e-07],
+        [-9.3132e-09,  2.2352e-08,  1.6764e-08,  ...,  2.0489e-08,
+          0.0000e+00,  4.2841e-08],
+        [ 3.7253e-09,  3.9116e-08,  2.6077e-08,  ...,  1.1176e-08,
+          0.0000e+00,  2.2911e-07],
+        ...,
+        [ 2.0489e-08,  1.6764e-08,  8.1956e-08,  ...,  1.1176e-08,
+          0.0000e+00,  3.7253e-08],
+        [ 1.1735e-07, -3.9116e-07, -1.6950e-07,  ...,  1.3411e-07,
+          0.0000e+00,  5.9605e-08],
+        [ 2.2352e-08, -1.5926e-06, -2.4848e-06,  ..., -2.8852e-06,
+          0.0000e+00, -3.4198e-06]], device='cuda:0')
+Epoch 236, bias, value: tensor([ 0.0293,  0.0058,  0.0177,  0.0215,  0.0397,  0.0063,  0.0001,  0.0031,
+        -0.0011, -0.0438], device='cuda:0'), grad: tensor([ 1.0170e-06,  1.6205e-07,  1.3467e-06,  6.9961e-06,  3.2485e-06,
+        -5.5507e-07, -9.3132e-08,  1.3970e-07, -2.6822e-07, -1.2018e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 235, time 217.44, cls_loss 0.0013 cls_loss_mapping 0.0023 cls_loss_causal 0.5107 re_mapping 0.0059 re_causal 0.0177 /// teacc 98.87 lr 0.00010000
+Epoch 237, weight, value: tensor([[-0.1392,  0.1864, -0.0337,  ..., -0.0189,  0.0749, -0.0002],
+        [ 0.1580, -0.1024,  0.0306,  ..., -0.0689, -0.0138, -0.0684],
+        [-0.0734, -0.1961, -0.0118,  ..., -0.0439,  0.0442, -0.1855],
+        ...,
+        [-0.1601, -0.2120,  0.0569,  ..., -0.0874, -0.0711, -0.1337],
+        [-0.0883,  0.0072,  0.0321,  ...,  0.0206, -0.0981,  0.0591],
+        [-0.0738, -0.0459,  0.0921,  ...,  0.1798, -0.0596, -0.1650]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09, -2.0117e-07,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -1.1176e-08],
+        [ 9.3132e-09,  1.8626e-09,  9.1270e-08,  ...,  1.8626e-09,
+          0.0000e+00,  2.9802e-08],
+        [ 1.8626e-09,  2.7940e-08,  1.1176e-08,  ...,  1.8626e-09,
+          0.0000e+00,  8.0094e-08],
+        ...,
+        [-1.1176e-08,  5.5879e-09, -1.9558e-07,  ...,  1.3039e-08,
+          0.0000e+00,  3.7253e-08],
+        [ 4.8429e-08,  1.1176e-07,  1.1176e-08,  ..., -3.7253e-09,
+          0.0000e+00,  5.7742e-08],
+        [ 2.9802e-08,  2.9802e-08, -4.4703e-07,  ..., -7.6368e-08,
+          0.0000e+00,  3.9116e-08]], device='cuda:0')
+Epoch 237, bias, value: tensor([ 2.7802e-02,  5.7644e-03,  1.8338e-02,  2.0947e-02,  3.9710e-02,
+         7.2264e-03,  9.1997e-05,  2.9371e-03, -9.0411e-04, -4.3176e-02],
+       device='cuda:0'), grad: tensor([-1.4342e-07,  3.2224e-07,  1.9930e-07,  5.5321e-07,  9.1828e-07,
+        -7.8417e-07,  1.1362e-07, -4.7311e-07,  2.5146e-07, -9.5367e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 236, time 218.07, cls_loss 0.0021 cls_loss_mapping 0.0033 cls_loss_causal 0.5234 re_mapping 0.0056 re_causal 0.0173 /// teacc 98.96 lr 0.00010000
+Epoch 238, weight, value: tensor([[-0.1402,  0.1870, -0.0336,  ..., -0.0189,  0.0749, -0.0009],
+        [ 0.1582, -0.1024,  0.0308,  ..., -0.0691, -0.0138, -0.0685],
+        [-0.0736, -0.1978, -0.0116,  ..., -0.0445,  0.0442, -0.1859],
+        ...,
+        [-0.1604, -0.2148,  0.0568,  ..., -0.0874, -0.0711, -0.1343],
+        [-0.0886,  0.0071,  0.0321,  ...,  0.0198, -0.0981,  0.0591],
+        [-0.0739, -0.0462,  0.0922,  ...,  0.1805, -0.0596, -0.1656]],
+       device='cuda:0'), grad: tensor([[ 9.1419e-06, -1.0803e-07,  4.3362e-06,  ...,  5.5879e-09,
+          0.0000e+00,  7.0781e-08],
+        [ 9.5892e-04,  7.4506e-09,  4.6086e-04,  ...,  0.0000e+00,
+          0.0000e+00,  7.6368e-08],
+        [-1.2197e-03,  1.8626e-08, -5.8651e-04,  ...,  1.8626e-09,
+          0.0000e+00,  2.6636e-07],
+        ...,
+        [ 1.5177e-05,  5.5879e-09,  7.2680e-06,  ...,  0.0000e+00,
+          0.0000e+00,  1.4156e-07],
+        [ 5.6118e-05, -5.1595e-07,  2.6435e-05,  ..., -6.8918e-08,
+          0.0000e+00, -2.5127e-06],
+        [ 6.3121e-05,  2.9616e-07,  3.0547e-05,  ...,  3.1665e-08,
+          0.0000e+00,  3.5018e-07]], device='cuda:0')
+Epoch 238, bias, value: tensor([ 0.0277,  0.0057,  0.0186,  0.0172,  0.0395,  0.0107,  0.0002,  0.0029,
+        -0.0011, -0.0431], device='cuda:0'), grad: tensor([ 2.0355e-05,  2.0905e-03, -2.6608e-03,  4.5091e-05,  8.4877e-05,
+         8.5652e-05,  4.2945e-05,  3.3319e-05,  1.1921e-04,  1.3864e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 237, time 217.81, cls_loss 0.0020 cls_loss_mapping 0.0028 cls_loss_causal 0.5171 re_mapping 0.0057 re_causal 0.0166 /// teacc 98.95 lr 0.00010000
+Epoch 239, weight, value: tensor([[-0.1402,  0.1889, -0.0326,  ..., -0.0189,  0.0751, -0.0018],
+        [ 0.1581, -0.1018,  0.0315,  ..., -0.0690, -0.0137, -0.0686],
+        [-0.0712, -0.1987, -0.0096,  ..., -0.0446,  0.0442, -0.1864],
+        ...,
+        [-0.1612, -0.2165,  0.0565,  ..., -0.0875, -0.0711, -0.1347],
+        [-0.0893,  0.0067,  0.0316,  ...,  0.0195, -0.0985,  0.0591],
+        [-0.0747, -0.0467,  0.0921,  ...,  0.1806, -0.0596, -0.1660]],
+       device='cuda:0'), grad: tensor([[ 5.2154e-08, -2.3283e-07,  7.4506e-08,  ...,  1.8626e-09,
+          0.0000e+00,  1.8626e-09],
+        [ 4.2282e-07,  3.7253e-09,  3.9786e-06,  ...,  3.9116e-08,
+          0.0000e+00,  7.4506e-09],
+        [ 3.7625e-07,  1.6764e-08,  7.8604e-07,  ...,  1.1176e-08,
+          0.0000e+00,  3.5390e-08],
+        ...,
+        [-1.0952e-06,  3.7253e-09, -4.5709e-06,  ...,  2.4214e-08,
+          0.0000e+00,  9.3132e-09],
+        [ 3.1665e-08, -1.6764e-08,  1.3411e-07,  ..., -5.5879e-09,
+          0.0000e+00, -1.8626e-09],
+        [ 2.4214e-08,  1.6764e-08, -4.0978e-08,  ..., -3.5390e-08,
+          0.0000e+00,  7.4506e-09]], device='cuda:0')
+Epoch 239, bias, value: tensor([ 0.0287,  0.0054,  0.0206,  0.0179,  0.0398,  0.0102, -0.0009,  0.0028,
+        -0.0018, -0.0434], device='cuda:0'), grad: tensor([-2.9244e-07,  8.2403e-06,  1.8962e-06,  4.0978e-08, -5.4464e-06,
+        -1.2238e-06,  2.2817e-06, -9.3728e-06,  3.2596e-07,  3.5334e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 238, time 217.73, cls_loss 0.0014 cls_loss_mapping 0.0027 cls_loss_causal 0.5027 re_mapping 0.0053 re_causal 0.0161 /// teacc 98.90 lr 0.00010000
+Epoch 240, weight, value: tensor([[-0.1403,  0.1895, -0.0323,  ..., -0.0187,  0.0747, -0.0019],
+        [ 0.1583, -0.1014,  0.0315,  ..., -0.0699, -0.0134, -0.0688],
+        [-0.0712, -0.1999, -0.0096,  ..., -0.0448,  0.0442, -0.1871],
+        ...,
+        [-0.1613, -0.2174,  0.0565,  ..., -0.0876, -0.0711, -0.1355],
+        [-0.0898,  0.0065,  0.0313,  ...,  0.0192, -0.1003,  0.0590],
+        [-0.0745, -0.0474,  0.0922,  ...,  0.1809, -0.0597, -0.1662]],
+       device='cuda:0'), grad: tensor([[ 3.9041e-06,  1.8254e-06,  1.6764e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.5963e-06],
+        [ 4.0047e-07,  3.0920e-07, -2.4773e-07,  ...,  0.0000e+00,
+          0.0000e+00,  3.3341e-07],
+        [ 2.9989e-07,  1.3784e-07,  1.0617e-07,  ...,  0.0000e+00,
+          0.0000e+00,  2.0675e-07],
+        ...,
+        [ 2.3898e-06,  1.0505e-06,  1.1735e-07,  ...,  1.8626e-09,
+          0.0000e+00,  9.2760e-07],
+        [ 5.2340e-07,  1.4529e-07, -9.5367e-07,  ...,  0.0000e+00,
+          0.0000e+00, -1.1362e-06],
+        [ 9.2387e-07,  4.1910e-07,  5.5879e-08,  ..., -9.3132e-09,
+          0.0000e+00,  3.7253e-07]], device='cuda:0')
+Epoch 240, bias, value: tensor([ 0.0289,  0.0053,  0.0211,  0.0178,  0.0398,  0.0104, -0.0010,  0.0028,
+        -0.0024, -0.0435], device='cuda:0'), grad: tensor([ 6.6236e-06,  9.1270e-07,  6.0350e-07,  7.3686e-06,  1.2852e-07,
+        -2.2575e-05,  4.0382e-06,  3.9190e-06, -2.6785e-06,  1.6633e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 239, time 217.75, cls_loss 0.0016 cls_loss_mapping 0.0027 cls_loss_causal 0.5206 re_mapping 0.0055 re_causal 0.0163 /// teacc 98.91 lr 0.00010000
+Epoch 241, weight, value: tensor([[-0.1402,  0.1905, -0.0322,  ..., -0.0187,  0.0742, -0.0021],
+        [ 0.1589, -0.1014,  0.0310,  ..., -0.0706, -0.0132, -0.0692],
+        [-0.0723, -0.2010, -0.0102,  ..., -0.0449,  0.0441, -0.1884],
+        ...,
+        [-0.1613, -0.2188,  0.0568,  ..., -0.0876, -0.0711, -0.1365],
+        [-0.0901,  0.0064,  0.0314,  ...,  0.0190, -0.1009,  0.0590],
+        [-0.0744, -0.0476,  0.0926,  ...,  0.1810, -0.0598, -0.1664]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-08, -2.7940e-08,  2.6077e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.1176e-08],
+        [-7.0781e-08,  3.7253e-09, -3.3528e-08,  ...,  0.0000e+00,
+          0.0000e+00,  7.4506e-09],
+        [ 7.4506e-09,  1.8626e-09,  2.2352e-08,  ...,  0.0000e+00,
+          0.0000e+00,  3.5390e-08],
+        ...,
+        [ 3.3528e-08,  7.4506e-09, -1.0431e-07,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-09],
+        [ 1.4156e-07,  1.6950e-07,  7.6368e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.5832e-07],
+        [ 1.6391e-07,  2.4028e-07, -3.0734e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-07]], device='cuda:0')
+Epoch 241, bias, value: tensor([ 0.0293,  0.0051,  0.0204,  0.0179,  0.0382,  0.0104, -0.0013,  0.0029,
+        -0.0026, -0.0429], device='cuda:0'), grad: tensor([ 1.7136e-07,  1.8813e-07, -3.9116e-07, -1.5777e-06,  6.2585e-07,
+         1.3374e-06,  5.7742e-08, -1.0803e-07,  6.1467e-07, -9.5181e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 240, time 218.04, cls_loss 0.0014 cls_loss_mapping 0.0024 cls_loss_causal 0.4854 re_mapping 0.0057 re_causal 0.0166 /// teacc 98.98 lr 0.00010000
+Epoch 242, weight, value: tensor([[-0.1402,  0.1911, -0.0321,  ..., -0.0187,  0.0735, -0.0020],
+        [ 0.1594, -0.1010,  0.0307,  ..., -0.0716, -0.0128, -0.0688],
+        [-0.0725, -0.2013, -0.0110,  ..., -0.0455,  0.0440, -0.1886],
+        ...,
+        [-0.1616, -0.2193,  0.0570,  ..., -0.0884, -0.0711, -0.1369],
+        [-0.0904,  0.0062,  0.0312,  ...,  0.0189, -0.1015,  0.0588],
+        [-0.0743, -0.0478,  0.0929,  ...,  0.1815, -0.0599, -0.1671]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09, -6.9588e-06, -4.7907e-06,  ..., -6.7241e-07,
+          0.0000e+00,  1.6764e-08],
+        [-1.0803e-07,  1.8813e-07,  2.2352e-08,  ...,  2.0489e-08,
+          0.0000e+00,  4.0978e-08],
+        [ 2.2352e-08,  3.0920e-07,  2.3656e-07,  ...,  2.9802e-08,
+          0.0000e+00,  9.1270e-08],
+        ...,
+        [ 1.0245e-07,  4.2282e-07,  3.3900e-07,  ...,  4.6566e-08,
+          0.0000e+00,  5.9605e-08],
+        [ 1.2480e-07,  3.0920e-07,  2.2165e-07,  ...,  3.3528e-08,
+          0.0000e+00,  6.1095e-07],
+        [ 2.6077e-08,  3.7942e-06,  2.6245e-06,  ...,  3.8557e-07,
+          0.0000e+00,  7.0781e-08]], device='cuda:0')
+Epoch 242, bias, value: tensor([ 0.0294,  0.0051,  0.0203,  0.0177,  0.0380,  0.0106, -0.0016,  0.0030,
+        -0.0031, -0.0426], device='cuda:0'), grad: tensor([-1.6659e-05,  5.9307e-06, -3.5048e-05, -1.6335e-06, -2.7776e-05,
+         1.9707e-06,  3.1829e-05,  1.6280e-06,  3.2559e-06,  3.6538e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 241, time 217.82, cls_loss 0.0014 cls_loss_mapping 0.0022 cls_loss_causal 0.5055 re_mapping 0.0056 re_causal 0.0169 /// teacc 98.94 lr 0.00010000
+Epoch 243, weight, value: tensor([[-0.1403,  0.1921, -0.0317,  ..., -0.0187,  0.0735, -0.0022],
+        [ 0.1596, -0.1011,  0.0309,  ..., -0.0719, -0.0128, -0.0689],
+        [-0.0729, -0.2023, -0.0115,  ..., -0.0456,  0.0440, -0.1895],
+        ...,
+        [-0.1615, -0.2199,  0.0570,  ..., -0.0885, -0.0711, -0.1375],
+        [-0.0906,  0.0063,  0.0312,  ...,  0.0190, -0.1015,  0.0589],
+        [-0.0743, -0.0480,  0.0928,  ...,  0.1816, -0.0599, -0.1674]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-08, -4.2617e-06, -4.2915e-06,  ...,  2.0489e-08,
+          0.0000e+00,  5.2154e-08],
+        [-6.9663e-07,  1.8626e-07, -5.4203e-07,  ...,  2.2352e-08,
+          0.0000e+00,  5.7742e-08],
+        [ 3.1665e-07,  1.9558e-07,  1.5665e-06,  ...,  1.6391e-07,
+          0.0000e+00,  5.9605e-07],
+        ...,
+        [ 1.0245e-07,  2.5332e-07,  3.3826e-06,  ...,  8.7172e-07,
+          0.0000e+00,  1.8254e-07],
+        [ 1.0245e-07,  1.9874e-06,  5.9232e-07,  ..., -4.1723e-07,
+          0.0000e+00, -1.2200e-06],
+        [ 1.0058e-07,  5.7183e-07, -2.3860e-06,  ..., -7.9162e-07,
+          0.0000e+00,  4.4703e-08]], device='cuda:0')
+Epoch 243, bias, value: tensor([ 0.0300,  0.0049,  0.0198,  0.0177,  0.0380,  0.0105, -0.0021,  0.0034,
+        -0.0031, -0.0429], device='cuda:0'), grad: tensor([-6.6683e-06, -7.9721e-07,  2.2594e-06,  8.9407e-07,  2.7381e-07,
+         2.6394e-06, -1.6838e-06,  4.0606e-06,  8.4564e-07, -1.8552e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 242, time 217.72, cls_loss 0.0016 cls_loss_mapping 0.0022 cls_loss_causal 0.4991 re_mapping 0.0056 re_causal 0.0160 /// teacc 99.04 lr 0.00010000
+Epoch 244, weight, value: tensor([[-0.1405,  0.1926, -0.0317,  ..., -0.0187,  0.0731, -0.0024],
+        [ 0.1612, -0.1009,  0.0329,  ..., -0.0720, -0.0128, -0.0688],
+        [-0.0731, -0.2028, -0.0097,  ..., -0.0457,  0.0440, -0.1892],
+        ...,
+        [-0.1630, -0.2205,  0.0558,  ..., -0.0885, -0.0712, -0.1378],
+        [-0.0910,  0.0062,  0.0298,  ...,  0.0190, -0.1017,  0.0586],
+        [-0.0746, -0.0483,  0.0928,  ...,  0.1817, -0.0603, -0.1676]],
+       device='cuda:0'), grad: tensor([[ 1.2666e-07, -1.1288e-06, -6.4448e-07,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-08],
+        [ 2.3469e-07,  1.3784e-07, -5.0291e-08,  ...,  1.8626e-09,
+          0.0000e+00,  1.3784e-07],
+        [ 2.9802e-08,  2.6077e-08,  3.5390e-08,  ...,  1.8626e-09,
+          0.0000e+00,  2.6077e-08],
+        ...,
+        [ 1.1921e-07,  4.2841e-08,  6.3330e-08,  ...,  0.0000e+00,
+          0.0000e+00,  5.0291e-08],
+        [ 1.9744e-07, -1.3281e-06, -3.1460e-06,  ..., -1.3225e-07,
+          0.0000e+00, -1.3411e-06],
+        [ 4.8243e-07,  1.5739e-06,  3.0212e-06,  ...,  1.2480e-07,
+          0.0000e+00,  1.5236e-06]], device='cuda:0')
+Epoch 244, bias, value: tensor([ 0.0301,  0.0062,  0.0213,  0.0179,  0.0379,  0.0104, -0.0022,  0.0027,
+        -0.0050, -0.0429], device='cuda:0'), grad: tensor([-2.7511e-06,  5.3458e-07, -3.2224e-07,  1.7136e-07, -1.1355e-05,
+        -1.8384e-06,  3.1479e-06,  9.9465e-07, -5.8077e-06,  1.7166e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 243, time 218.07, cls_loss 0.0015 cls_loss_mapping 0.0019 cls_loss_causal 0.4943 re_mapping 0.0056 re_causal 0.0166 /// teacc 99.02 lr 0.00010000
+Epoch 245, weight, value: tensor([[-0.1406,  0.1931, -0.0319,  ..., -0.0187,  0.0732, -0.0031],
+        [ 0.1613, -0.1010,  0.0331,  ..., -0.0720, -0.0126, -0.0689],
+        [-0.0729, -0.2043, -0.0097,  ..., -0.0457,  0.0440, -0.1897],
+        ...,
+        [-0.1629, -0.2209,  0.0559,  ..., -0.0885, -0.0712, -0.1382],
+        [-0.0914,  0.0061,  0.0293,  ...,  0.0190, -0.1019,  0.0589],
+        [-0.0748, -0.0487,  0.0928,  ...,  0.1817, -0.0603, -0.1681]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09, -1.6782e-06, -1.6727e-06,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [-1.1362e-07,  7.2643e-08,  5.3085e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.1176e-08],
+        [ 7.4506e-09,  5.0291e-08,  4.3027e-07,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-09],
+        ...,
+        [ 4.6566e-08,  8.0094e-08, -9.8720e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.3039e-08],
+        [ 3.1479e-07,  1.0058e-06,  8.3819e-07,  ...,  1.8626e-09,
+          0.0000e+00,  2.7753e-07],
+        [ 1.1176e-08,  1.9558e-07,  1.9558e-07,  ..., -9.3132e-09,
+          0.0000e+00,  2.7940e-08]], device='cuda:0')
+Epoch 245, bias, value: tensor([ 0.0300,  0.0061,  0.0216,  0.0180,  0.0386,  0.0103, -0.0022,  0.0029,
+        -0.0052, -0.0433], device='cuda:0'), grad: tensor([-2.9448e-06,  1.1288e-06,  6.0908e-07,  8.1956e-08, -2.9001e-06,
+        -3.7439e-07,  1.0356e-06, -6.6683e-07,  2.1439e-06,  1.8403e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 244, time 217.78, cls_loss 0.0018 cls_loss_mapping 0.0020 cls_loss_causal 0.5432 re_mapping 0.0054 re_causal 0.0162 /// teacc 98.97 lr 0.00010000
+Epoch 246, weight, value: tensor([[-0.1401,  0.1938, -0.0318,  ..., -0.0187,  0.0733, -0.0032],
+        [ 0.1605, -0.1010,  0.0324,  ..., -0.0722, -0.0125, -0.0691],
+        [-0.0731, -0.2054, -0.0100,  ..., -0.0457,  0.0440, -0.1905],
+        ...,
+        [-0.1622, -0.2242,  0.0565,  ..., -0.0886, -0.0712, -0.1400],
+        [-0.0916,  0.0062,  0.0295,  ...,  0.0190, -0.1020,  0.0591],
+        [-0.0749, -0.0491,  0.0927,  ...,  0.1819, -0.0604, -0.1692]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-08, -1.0598e-06, -6.7614e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.6764e-08],
+        [-1.2480e-07,  8.3819e-08, -4.4703e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.4901e-08],
+        [ 1.8626e-08,  1.6205e-07,  2.3097e-07,  ...,  1.8626e-09,
+          0.0000e+00,  8.0094e-08],
+        ...,
+        [ 7.0781e-08,  1.7136e-07,  1.2666e-07,  ...,  7.4506e-09,
+          0.0000e+00,  2.0489e-08],
+        [ 2.3656e-07,  2.0489e-08, -3.2596e-07,  ..., -1.3039e-08,
+          0.0000e+00, -8.9407e-08],
+        [ 8.3819e-08,  5.6624e-07,  1.5832e-07,  ..., -1.6764e-08,
+          0.0000e+00,  1.0803e-07]], device='cuda:0')
+Epoch 246, bias, value: tensor([ 0.0301,  0.0050,  0.0215,  0.0181,  0.0386,  0.0103, -0.0023,  0.0038,
+        -0.0050, -0.0436], device='cuda:0'), grad: tensor([-2.8554e-06,  2.0117e-07,  1.7323e-07,  1.4622e-06,  1.9185e-07,
+        -7.8045e-07,  5.9418e-07,  1.7323e-07, -4.2841e-07,  1.2852e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 245, time 217.67, cls_loss 0.0015 cls_loss_mapping 0.0023 cls_loss_causal 0.5176 re_mapping 0.0054 re_causal 0.0162 /// teacc 99.02 lr 0.00010000
+Epoch 247, weight, value: tensor([[-0.1404,  0.1942, -0.0324,  ..., -0.0188,  0.0734, -0.0033],
+        [ 0.1609, -0.1012,  0.0318,  ..., -0.0722, -0.0125, -0.0693],
+        [-0.0737, -0.2064, -0.0104,  ..., -0.0459,  0.0438, -0.1911],
+        ...,
+        [-0.1623, -0.2248,  0.0569,  ..., -0.0886, -0.0712, -0.1402],
+        [-0.0919,  0.0062,  0.0301,  ...,  0.0191, -0.1020,  0.0591],
+        [-0.0747, -0.0487,  0.0929,  ...,  0.1820, -0.0604, -0.1697]],
+       device='cuda:0'), grad: tensor([[ 4.4703e-08, -7.5698e-06, -3.2410e-07,  ...,  0.0000e+00,
+          0.0000e+00,  7.6368e-08],
+        [ 1.3877e-06,  1.0859e-06,  6.9849e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.3113e-06],
+        [ 6.9551e-06,  5.3905e-06,  4.3064e-06,  ...,  0.0000e+00,
+          0.0000e+00,  6.5491e-06],
+        ...,
+        [ 6.7055e-08,  7.8231e-08, -1.9409e-06,  ...,  0.0000e+00,
+          0.0000e+00,  7.4506e-08],
+        [-1.4663e-05, -1.1235e-05, -6.4857e-06,  ...,  0.0000e+00,
+          0.0000e+00, -1.3836e-05],
+        [ 4.0978e-08,  1.9930e-07,  5.0291e-07,  ...,  0.0000e+00,
+          0.0000e+00,  3.1665e-08]], device='cuda:0')
+Epoch 247, bias, value: tensor([ 0.0298,  0.0045,  0.0213,  0.0182,  0.0384,  0.0101, -0.0025,  0.0042,
+        -0.0046, -0.0433], device='cuda:0'), grad: tensor([-1.3545e-05,  7.4469e-06,  3.8832e-05,  5.7183e-07,  8.5868e-07,
+         2.6584e-05,  1.8150e-05, -3.5465e-06, -7.6830e-05,  1.4957e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 246, time 217.60, cls_loss 0.0015 cls_loss_mapping 0.0025 cls_loss_causal 0.4918 re_mapping 0.0055 re_causal 0.0160 /// teacc 99.01 lr 0.00010000
+Epoch 248, weight, value: tensor([[-0.1405,  0.1973, -0.0302,  ..., -0.0188,  0.0732, -0.0038],
+        [ 0.1621, -0.0992,  0.0326,  ..., -0.0695, -0.0124, -0.0667],
+        [-0.0744, -0.2075, -0.0111,  ..., -0.0460,  0.0434, -0.1918],
+        ...,
+        [-0.1623, -0.2287,  0.0571,  ..., -0.0886, -0.0718, -0.1422],
+        [-0.0936,  0.0053,  0.0277,  ...,  0.0164, -0.1022,  0.0581],
+        [-0.0753, -0.0523,  0.0919,  ...,  0.1819, -0.0619, -0.1710]],
+       device='cuda:0'), grad: tensor([[ 1.3039e-08, -2.7940e-08, -2.7940e-08,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-09],
+        [-3.5185e-06,  7.4506e-09, -1.6224e-06,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-09],
+        [-2.2352e-08,  5.5879e-09,  4.6566e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.3039e-08],
+        ...,
+        [ 3.3658e-06,  1.3039e-08,  1.5125e-06,  ...,  1.8626e-09,
+          0.0000e+00,  1.4901e-08],
+        [ 1.6019e-07,  9.3132e-08,  1.8626e-08,  ...,  1.1176e-08,
+          0.0000e+00,  7.8231e-08],
+        [ 7.4506e-08,  2.2352e-08, -2.9802e-08,  ..., -1.4901e-08,
+          0.0000e+00,  7.4506e-09]], device='cuda:0')
+Epoch 248, bias, value: tensor([ 0.0313,  0.0055,  0.0207,  0.0183,  0.0381,  0.0101, -0.0024,  0.0044,
+        -0.0062, -0.0445], device='cuda:0'), grad: tensor([ 4.8243e-07, -3.6508e-06, -6.7987e-07,  1.5460e-07, -5.4203e-06,
+        -2.1234e-07,  4.7497e-06,  4.0717e-06,  2.9616e-07,  1.9930e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 247, time 217.87, cls_loss 0.0017 cls_loss_mapping 0.0029 cls_loss_causal 0.5300 re_mapping 0.0052 re_causal 0.0159 /// teacc 98.97 lr 0.00010000
+Epoch 249, weight, value: tensor([[-0.1408,  0.1978, -0.0298,  ..., -0.0187,  0.0756, -0.0042],
+        [ 0.1623, -0.0992,  0.0320,  ..., -0.0695, -0.0123, -0.0668],
+        [-0.0745, -0.2081, -0.0091,  ..., -0.0461,  0.0434, -0.1925],
+        ...,
+        [-0.1622, -0.2294,  0.0570,  ..., -0.0886, -0.0718, -0.1448],
+        [-0.0941,  0.0051,  0.0287,  ...,  0.0162, -0.1027,  0.0589],
+        [-0.0750, -0.0526,  0.0921,  ...,  0.1820, -0.0624, -0.1710]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-08, -3.1665e-08, -7.4506e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [-1.0431e-07,  3.7253e-09, -7.8231e-08,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [ 1.6764e-08,  1.2137e-05,  1.0274e-05,  ...,  0.0000e+00,
+          0.0000e+00,  8.5086e-06],
+        ...,
+        [ 1.6764e-08,  0.0000e+00,  2.4214e-08,  ...,  1.8626e-09,
+          0.0000e+00,  3.7253e-09],
+        [ 2.0489e-08, -1.2159e-05, -1.0267e-05,  ...,  0.0000e+00,
+          0.0000e+00, -8.5160e-06],
+        [ 5.4017e-08,  3.5390e-08, -4.3958e-07,  ..., -4.6566e-08,
+          0.0000e+00,  4.4703e-08]], device='cuda:0')
+Epoch 249, bias, value: tensor([ 0.0314,  0.0049,  0.0235,  0.0183,  0.0372,  0.0101, -0.0022,  0.0032,
+        -0.0060, -0.0443], device='cuda:0'), grad: tensor([ 6.5193e-08, -1.4342e-07,  3.3945e-05, -1.2666e-07,  9.7789e-07,
+         1.8626e-09,  0.0000e+00,  1.0245e-07, -3.3975e-05, -9.1456e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 248, time 218.10, cls_loss 0.0015 cls_loss_mapping 0.0021 cls_loss_causal 0.4908 re_mapping 0.0053 re_causal 0.0158 /// teacc 98.92 lr 0.00010000
+Epoch 250, weight, value: tensor([[-0.1408,  0.1995, -0.0291,  ..., -0.0187,  0.0755, -0.0042],
+        [ 0.1624, -0.0992,  0.0320,  ..., -0.0700, -0.0122, -0.0668],
+        [-0.0746, -0.2095, -0.0096,  ..., -0.0462,  0.0434, -0.1936],
+        ...,
+        [-0.1628, -0.2299,  0.0572,  ..., -0.0887, -0.0719, -0.1451],
+        [-0.0946,  0.0051,  0.0284,  ...,  0.0160, -0.1031,  0.0592],
+        [-0.0751, -0.0533,  0.0919,  ...,  0.1825, -0.0622, -0.1714]],
+       device='cuda:0'), grad: tensor([[ 3.5390e-08, -8.0094e-08,  1.2293e-07,  ...,  9.3132e-09,
+          1.8626e-09,  1.4901e-08],
+        [ 3.8177e-05,  6.3330e-08,  2.8014e-04,  ...,  1.7509e-07,
+          0.0000e+00,  1.1176e-08],
+        [ 7.3947e-07,  5.5879e-09,  5.3719e-06,  ...,  1.1176e-08,
+          0.0000e+00,  1.4901e-08],
+        ...,
+        [-4.7684e-05,  1.8626e-08, -3.4857e-04,  ...,  1.3970e-07,
+          3.7253e-09,  3.3528e-08],
+        [ 2.1048e-07,  2.6077e-08,  1.4808e-06,  ...,  2.0117e-07,
+          1.1176e-08, -1.1176e-08],
+        [ 8.4713e-06,  1.3039e-08,  5.3823e-05,  ..., -3.7998e-06,
+          0.0000e+00,  6.7055e-08]], device='cuda:0')
+Epoch 250, bias, value: tensor([ 0.0327,  0.0043,  0.0234,  0.0182,  0.0371,  0.0101, -0.0021,  0.0034,
+        -0.0064, -0.0446], device='cuda:0'), grad: tensor([ 4.0792e-07,  3.2687e-04,  6.2883e-06,  2.7753e-07,  1.2398e-05,
+        -6.1467e-08, -4.8615e-07, -4.0603e-04,  1.9744e-06,  5.8115e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 249, time 218.05, cls_loss 0.0017 cls_loss_mapping 0.0030 cls_loss_causal 0.5358 re_mapping 0.0054 re_causal 0.0161 /// teacc 98.98 lr 0.00010000
+Epoch 251, weight, value: tensor([[-0.1410,  0.1996, -0.0292,  ..., -0.0188,  0.0753, -0.0047],
+        [ 0.1635, -0.0986,  0.0318,  ..., -0.0691, -0.0121, -0.0663],
+        [-0.0746, -0.2123, -0.0100,  ..., -0.0468,  0.0434, -0.1966],
+        ...,
+        [-0.1637, -0.2302,  0.0577,  ..., -0.0893, -0.0719, -0.1454],
+        [-0.0955,  0.0051,  0.0279,  ...,  0.0148, -0.1039,  0.0596],
+        [-0.0752, -0.0534,  0.0919,  ...,  0.1830, -0.0623, -0.1717]],
+       device='cuda:0'), grad: tensor([[ 1.3933e-06,  1.6801e-06,  1.4901e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.0058e-07],
+        [-5.4203e-07,  7.4506e-09,  2.7008e-07,  ...,  0.0000e+00,
+          0.0000e+00,  6.7800e-07],
+        [ 1.2293e-07,  1.1176e-08,  3.2969e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.7826e-06],
+        ...,
+        [ 2.3842e-07,  5.5879e-09, -9.1456e-07,  ...,  0.0000e+00,
+          0.0000e+00,  8.3074e-07],
+        [ 1.5646e-07,  6.8918e-08,  9.1270e-08,  ...,  0.0000e+00,
+          0.0000e+00,  4.9174e-07],
+        [ 7.8231e-08,  8.3819e-08, -7.0781e-07,  ..., -1.8626e-09,
+          0.0000e+00,  9.1270e-08]], device='cuda:0')
+Epoch 251, bias, value: tensor([ 0.0326,  0.0043,  0.0230,  0.0182,  0.0377,  0.0100, -0.0020,  0.0038,
+        -0.0067, -0.0449], device='cuda:0'), grad: tensor([ 6.2883e-06,  2.4941e-06,  4.9323e-06, -1.0654e-05, -1.7546e-06,
+         4.0978e-06, -8.5607e-06,  6.5379e-07,  1.8105e-06,  6.7614e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 250, time 217.86, cls_loss 0.0015 cls_loss_mapping 0.0028 cls_loss_causal 0.5003 re_mapping 0.0055 re_causal 0.0159 /// teacc 98.96 lr 0.00010000
+Epoch 252, weight, value: tensor([[-0.1410,  0.1998, -0.0295,  ..., -0.0188,  0.0745, -0.0059],
+        [ 0.1635, -0.0988,  0.0316,  ..., -0.0694, -0.0121, -0.0667],
+        [-0.0747, -0.2153, -0.0107,  ..., -0.0471,  0.0435, -0.2000],
+        ...,
+        [-0.1637, -0.2322,  0.0579,  ..., -0.0898, -0.0720, -0.1469],
+        [-0.0948,  0.0064,  0.0286,  ...,  0.0150, -0.1014,  0.0621],
+        [-0.0753, -0.0536,  0.0922,  ...,  0.1836, -0.0623, -0.1719]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09, -9.6858e-08,  6.5193e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [-5.3085e-08,  2.7940e-09,  6.2399e-08,  ...,  9.3132e-10,
+          0.0000e+00,  1.4901e-08],
+        [ 1.9558e-08,  8.5682e-08,  2.4866e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.3132e-07],
+        ...,
+        [ 5.1223e-08,  3.7253e-09, -7.1432e-07,  ...,  1.8626e-09,
+          0.0000e+00,  4.7497e-08],
+        [ 4.7497e-08, -6.2399e-08,  5.5879e-08,  ...,  0.0000e+00,
+          0.0000e+00, -9.7789e-08],
+        [ 1.8626e-08,  2.9802e-08,  5.0291e-08,  ..., -1.1176e-08,
+          0.0000e+00,  2.2352e-08]], device='cuda:0')
+Epoch 252, bias, value: tensor([ 0.0324,  0.0040,  0.0225,  0.0183,  0.0375,  0.0098, -0.0023,  0.0038,
+        -0.0046, -0.0446], device='cuda:0'), grad: tensor([ 1.7043e-07,  4.0978e-07,  1.5087e-06, -5.1223e-08,  4.6380e-07,
+         5.0943e-07, -3.5763e-07, -3.8594e-06,  5.8301e-07,  6.1374e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 251, time 218.00, cls_loss 0.0015 cls_loss_mapping 0.0031 cls_loss_causal 0.5261 re_mapping 0.0053 re_causal 0.0162 /// teacc 98.95 lr 0.00010000
+Epoch 253, weight, value: tensor([[-0.1419,  0.2002, -0.0294,  ..., -0.0188,  0.0741, -0.0049],
+        [ 0.1637, -0.0989,  0.0314,  ..., -0.0696, -0.0120, -0.0668],
+        [-0.0750, -0.2164, -0.0111,  ..., -0.0474,  0.0433, -0.2008],
+        ...,
+        [-0.1638, -0.2331,  0.0581,  ..., -0.0899, -0.0721, -0.1472],
+        [-0.0950,  0.0064,  0.0286,  ...,  0.0148, -0.1017,  0.0625],
+        [-0.0752, -0.0539,  0.0924,  ...,  0.1840, -0.0620, -0.1721]],
+       device='cuda:0'), grad: tensor([[ 4.4703e-08, -3.7253e-08, -3.1665e-08,  ...,  0.0000e+00,
+         -1.1176e-08,  4.0978e-08],
+        [ 7.4506e-09,  1.3970e-08, -1.3039e-08,  ...,  0.0000e+00,
+          9.3132e-10,  7.3574e-08],
+        [ 2.6077e-08,  5.5879e-09,  1.8626e-09,  ...,  0.0000e+00,
+          9.3132e-10,  1.3970e-07],
+        ...,
+        [ 6.9849e-08,  3.7253e-08,  5.9605e-08,  ...,  0.0000e+00,
+          6.5193e-09,  2.4587e-07],
+        [ 3.4180e-07,  1.6112e-07,  9.3132e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.2969e-07],
+        [ 7.4506e-08,  4.5635e-08, -1.4901e-07,  ..., -1.8626e-09,
+          1.8626e-09,  6.7987e-08]], device='cuda:0')
+Epoch 253, bias, value: tensor([ 0.0324,  0.0039,  0.0223,  0.0184,  0.0373,  0.0098, -0.0024,  0.0039,
+        -0.0046, -0.0445], device='cuda:0'), grad: tensor([ 9.7789e-08,  3.2224e-07,  2.8312e-07,  2.8498e-06, -7.4983e-05,
+        -6.3665e-06,  1.4510e-06,  7.5400e-05,  8.0746e-07,  3.9209e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 252, time 218.44, cls_loss 0.0018 cls_loss_mapping 0.0031 cls_loss_causal 0.5259 re_mapping 0.0053 re_causal 0.0159 /// teacc 98.93 lr 0.00010000
+Epoch 254, weight, value: tensor([[-0.1428,  0.2002, -0.0295,  ..., -0.0189,  0.0699, -0.0080],
+        [ 0.1639, -0.0991,  0.0311,  ..., -0.0699, -0.0120, -0.0672],
+        [-0.0751, -0.2173, -0.0108,  ..., -0.0475,  0.0435, -0.2024],
+        ...,
+        [-0.1640, -0.2335,  0.0581,  ..., -0.0900, -0.0719, -0.1484],
+        [-0.0951,  0.0067,  0.0290,  ...,  0.0148, -0.1013,  0.0633],
+        [-0.0753, -0.0540,  0.0927,  ...,  0.1842, -0.0633, -0.1724]],
+       device='cuda:0'), grad: tensor([[ 8.7544e-08, -2.8126e-07, -2.1607e-07,  ...,  4.6566e-09,
+          3.7253e-09,  6.2399e-08],
+        [ 1.1176e-08,  5.4948e-08,  2.1793e-07,  ...,  9.3132e-10,
+         -9.3132e-10,  3.0734e-08],
+        [-7.4506e-09,  1.4622e-07,  8.4750e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.7323e-07],
+        ...,
+        [ 1.0524e-07,  1.2852e-07,  1.6857e-07,  ...,  2.7940e-09,
+          0.0000e+00,  1.4435e-07],
+        [ 7.6648e-07,  3.6880e-07, -9.0338e-08,  ...,  4.2841e-08,
+          2.7940e-09,  5.5879e-08],
+        [ 1.7509e-06,  1.4165e-06,  2.2352e-07,  ...,  1.0338e-07,
+          0.0000e+00,  1.0198e-06]], device='cuda:0')
+Epoch 254, bias, value: tensor([ 0.0320,  0.0035,  0.0223,  0.0196,  0.0371,  0.0088, -0.0023,  0.0040,
+        -0.0041, -0.0442], device='cuda:0'), grad: tensor([-2.7381e-07,  1.1222e-06, -5.5786e-07,  3.6433e-06, -2.5406e-06,
+        -6.2101e-06, -8.9779e-07,  1.1045e-06,  8.8383e-07,  3.6880e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 253, time 218.53, cls_loss 0.0015 cls_loss_mapping 0.0031 cls_loss_causal 0.5136 re_mapping 0.0054 re_causal 0.0159 /// teacc 99.06 lr 0.00010000
+Epoch 255, weight, value: tensor([[-0.1429,  0.2006, -0.0295,  ..., -0.0189,  0.0694, -0.0082],
+        [ 0.1640, -0.0990,  0.0311,  ..., -0.0698, -0.0116, -0.0673],
+        [-0.0751, -0.2180, -0.0108,  ..., -0.0476,  0.0434, -0.2031],
+        ...,
+        [-0.1641, -0.2342,  0.0575,  ..., -0.0900, -0.0718, -0.1521],
+        [-0.0954,  0.0071,  0.0319,  ...,  0.0149, -0.1026,  0.0652],
+        [-0.0757, -0.0542,  0.0928,  ...,  0.1842, -0.0641, -0.1735]],
+       device='cuda:0'), grad: tensor([[ 2.3004e-07,  8.6613e-08,  1.2852e-07,  ...,  9.3132e-09,
+          0.0000e+00,  1.4715e-07],
+        [-8.5123e-07, -1.2293e-07, -1.1455e-06,  ...,  7.4506e-09,
+         -1.8626e-09,  1.5460e-07],
+        [ 8.5682e-08,  1.3970e-08,  3.2596e-08,  ...,  9.3132e-10,
+          0.0000e+00,  3.3528e-08],
+        ...,
+        [ 9.0804e-07,  1.7602e-07,  6.9570e-07,  ...,  9.3132e-10,
+          0.0000e+00,  2.7008e-08],
+        [ 9.1922e-07,  4.8708e-07,  5.1130e-07,  ...,  3.8184e-08,
+          0.0000e+00,  6.8638e-07],
+        [-4.3958e-07, -1.0943e-06, -1.9968e-06,  ..., -1.9744e-07,
+          0.0000e+00, -2.1644e-06]], device='cuda:0')
+Epoch 255, bias, value: tensor([ 0.0321,  0.0033,  0.0224,  0.0196,  0.0349,  0.0086, -0.0022,  0.0032,
+        -0.0022, -0.0430], device='cuda:0'), grad: tensor([ 5.5134e-07, -1.2647e-06,  2.1979e-07,  2.1532e-06,  3.9116e-08,
+        -5.5544e-06,  5.4725e-06,  1.1073e-06,  1.9968e-06, -4.6901e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 254, time 218.40, cls_loss 0.0016 cls_loss_mapping 0.0028 cls_loss_causal 0.4905 re_mapping 0.0056 re_causal 0.0157 /// teacc 98.94 lr 0.00010000
+Epoch 256, weight, value: tensor([[-0.1409,  0.2033, -0.0274,  ..., -0.0189,  0.0686, -0.0086],
+        [ 0.1644, -0.1002,  0.0313,  ..., -0.0701, -0.0123, -0.0691],
+        [-0.0753, -0.2206, -0.0121,  ..., -0.0477,  0.0435, -0.2043],
+        ...,
+        [-0.1646, -0.2348,  0.0578,  ..., -0.0901, -0.0719, -0.1520],
+        [-0.0939,  0.0092,  0.0323,  ...,  0.0149, -0.0998,  0.0673],
+        [-0.0756, -0.0543,  0.0927,  ...,  0.1844, -0.0643, -0.1738]],
+       device='cuda:0'), grad: tensor([[-6.6124e-07, -2.7269e-06,  1.6019e-07,  ...,  1.8626e-09,
+          2.3283e-08,  4.5635e-08],
+        [-3.1888e-06, -9.0897e-07, -1.9409e-06,  ...,  9.3132e-10,
+         -5.2806e-07,  2.1420e-08],
+        [ 8.9593e-07,  2.8592e-07,  1.0617e-05,  ...,  2.7940e-09,
+          1.4901e-07,  4.2003e-07],
+        ...,
+        [ 2.6077e-07,  1.0524e-07, -1.1064e-05,  ...,  9.3132e-10,
+          4.2841e-08,  1.1455e-07],
+        [ 1.2731e-06,  1.5739e-07,  6.5286e-07,  ...,  1.7695e-08,
+          2.1700e-07, -1.1967e-06],
+        [ 3.1572e-07,  2.1700e-07, -6.7689e-06,  ..., -2.3860e-06,
+          4.1910e-08, -3.5390e-08]], device='cuda:0')
+Epoch 256, bias, value: tensor([ 0.0347,  0.0033,  0.0218,  0.0195,  0.0352,  0.0084, -0.0054,  0.0034,
+        -0.0010, -0.0432], device='cuda:0'), grad: tensor([-3.5241e-06, -4.3176e-06,  1.6287e-05,  1.4715e-07,  2.3633e-05,
+         6.2473e-06,  7.1712e-07, -1.5318e-05,  1.9372e-07, -2.4050e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 255, time 218.24, cls_loss 0.0016 cls_loss_mapping 0.0027 cls_loss_causal 0.5109 re_mapping 0.0056 re_causal 0.0161 /// teacc 99.00 lr 0.00010000
+Epoch 257, weight, value: tensor([[-0.1409,  0.2035, -0.0273,  ..., -0.0189,  0.0710, -0.0087],
+        [ 0.1651, -0.1005,  0.0317,  ..., -0.0703, -0.0119, -0.0691],
+        [-0.0759, -0.2210, -0.0129,  ..., -0.0477,  0.0410, -0.2046],
+        ...,
+        [-0.1649, -0.2351,  0.0582,  ..., -0.0901, -0.0714, -0.1528],
+        [-0.0954,  0.0082,  0.0316,  ...,  0.0141, -0.0997,  0.0664],
+        [-0.0760, -0.0540,  0.0924,  ...,  0.1848, -0.0652, -0.1711]],
+       device='cuda:0'), grad: tensor([[ 1.9558e-08, -6.1467e-08,  9.6858e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-3.6042e-07,  1.8626e-09,  1.1694e-04,  ...,  0.0000e+00,
+          0.0000e+00,  6.5193e-09],
+        [ 1.7509e-07,  9.3132e-10,  6.8638e-07,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        ...,
+        [ 6.1467e-08,  9.3132e-10, -1.2994e-04,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [ 5.1223e-08,  4.6566e-09,  2.3097e-06,  ...,  0.0000e+00,
+          0.0000e+00,  6.5193e-09],
+        [ 3.1665e-08,  2.6077e-08,  9.3505e-06,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09]], device='cuda:0')
+Epoch 257, bias, value: tensor([ 0.0347,  0.0038,  0.0213,  0.0194,  0.0340,  0.0088, -0.0053,  0.0038,
+        -0.0025, -0.0429], device='cuda:0'), grad: tensor([ 1.6661e-06,  1.3518e-04,  1.6242e-05, -9.8813e-07,  2.4885e-06,
+         1.7639e-06, -2.3022e-05, -1.4782e-04,  3.7253e-06,  1.0975e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 256, time 218.39, cls_loss 0.0017 cls_loss_mapping 0.0026 cls_loss_causal 0.5077 re_mapping 0.0054 re_causal 0.0157 /// teacc 98.99 lr 0.00010000
+Epoch 258, weight, value: tensor([[-0.1410,  0.2044, -0.0271,  ..., -0.0189,  0.0714, -0.0085],
+        [ 0.1661, -0.1017,  0.0314,  ..., -0.0704, -0.0119, -0.0692],
+        [-0.0769, -0.2235, -0.0134,  ..., -0.0478,  0.0410, -0.2058],
+        ...,
+        [-0.1655, -0.2357,  0.0584,  ..., -0.0902, -0.0717, -0.1530],
+        [-0.0958,  0.0082,  0.0318,  ...,  0.0142, -0.0993,  0.0672],
+        [-0.0762, -0.0545,  0.0924,  ...,  0.1849, -0.0653, -0.1716]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09, -1.0245e-07, -2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00,  7.4506e-09],
+        [-4.1910e-08,  2.0489e-08,  3.1386e-07,  ...,  0.0000e+00,
+          3.7253e-09,  3.0734e-08],
+        [ 8.3819e-09,  1.7229e-07,  1.2573e-07,  ...,  0.0000e+00,
+          2.7008e-08,  1.6671e-07],
+        ...,
+        [ 2.7008e-08,  6.5193e-09, -1.6959e-06,  ...,  9.3132e-10,
+          0.0000e+00,  6.3330e-08],
+        [ 1.1921e-07, -6.2678e-07, -2.0489e-07,  ...,  9.3132e-10,
+         -3.8184e-08, -7.6555e-07],
+        [ 1.8626e-08,  6.0536e-08,  1.2349e-06,  ..., -7.4506e-09,
+          0.0000e+00,  2.2352e-08]], device='cuda:0')
+Epoch 258, bias, value: tensor([ 0.0355,  0.0035,  0.0206,  0.0191,  0.0330,  0.0090, -0.0057,  0.0044,
+        -0.0020, -0.0431], device='cuda:0'), grad: tensor([-1.3970e-07,  8.5495e-07,  6.2212e-07, -2.6450e-07, -4.4797e-07,
+         9.5647e-07,  8.2888e-08, -3.1125e-06, -1.3905e-06,  2.8424e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 257, time 218.29, cls_loss 0.0016 cls_loss_mapping 0.0026 cls_loss_causal 0.4933 re_mapping 0.0053 re_causal 0.0151 /// teacc 99.00 lr 0.00010000
+Epoch 259, weight, value: tensor([[-0.1422,  0.2047, -0.0273,  ..., -0.0189,  0.0715, -0.0087],
+        [ 0.1659, -0.1017,  0.0313,  ..., -0.0704, -0.0119, -0.0693],
+        [-0.0751, -0.2242, -0.0136,  ..., -0.0479,  0.0409, -0.2062],
+        ...,
+        [-0.1655, -0.2364,  0.0585,  ..., -0.0902, -0.0718, -0.1532],
+        [-0.0960,  0.0082,  0.0319,  ...,  0.0142, -0.0991,  0.0675],
+        [-0.0771, -0.0548,  0.0927,  ...,  0.1852, -0.0656, -0.1720]],
+       device='cuda:0'), grad: tensor([[ 2.1420e-08,  7.0781e-08,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [-1.9558e-08,  7.4506e-09,  3.5390e-08,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-09],
+        [ 7.4506e-09,  4.6566e-09,  6.2399e-08,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-09],
+        ...,
+        [ 3.7253e-09,  1.8626e-09, -2.0210e-07,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09],
+        [ 9.3132e-10, -9.3132e-09,  8.3819e-09,  ...,  0.0000e+00,
+          0.0000e+00, -2.9802e-08],
+        [ 9.3132e-09,  9.3132e-09,  4.9360e-08,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09]], device='cuda:0')
+Epoch 259, bias, value: tensor([ 0.0353,  0.0031,  0.0217,  0.0187,  0.0335,  0.0093, -0.0057,  0.0044,
+        -0.0019, -0.0433], device='cuda:0'), grad: tensor([ 7.1153e-07,  8.5682e-08,  6.5193e-08,  8.6613e-08,  3.4459e-08,
+         8.1956e-08, -8.4564e-07, -3.2876e-07,  7.4506e-09,  1.1455e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 258, time 218.33, cls_loss 0.0015 cls_loss_mapping 0.0024 cls_loss_causal 0.5232 re_mapping 0.0053 re_causal 0.0160 /// teacc 98.97 lr 0.00010000
+Epoch 260, weight, value: tensor([[-0.1419,  0.2052, -0.0273,  ..., -0.0189,  0.0713, -0.0074],
+        [ 0.1635, -0.1021,  0.0307,  ..., -0.0702, -0.0115, -0.0693],
+        [-0.0723, -0.2248, -0.0116,  ..., -0.0480,  0.0404, -0.2067],
+        ...,
+        [-0.1656, -0.2379,  0.0587,  ..., -0.0902, -0.0718, -0.1534],
+        [-0.0964,  0.0082,  0.0317,  ...,  0.0142, -0.0992,  0.0677],
+        [-0.0778, -0.0549,  0.0927,  ...,  0.1852, -0.0658, -0.1723]],
+       device='cuda:0'), grad: tensor([[ 4.0978e-08, -9.3132e-10,  4.2841e-08,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [-3.4198e-06, -4.6566e-09, -3.0622e-06,  ...,  0.0000e+00,
+         -1.2107e-08,  8.3819e-09],
+        [ 4.4145e-07,  4.6566e-09,  5.4017e-08,  ...,  0.0000e+00,
+          1.1176e-08,  1.6764e-08],
+        ...,
+        [ 2.2911e-07,  9.3132e-10,  8.1956e-08,  ...,  4.6566e-09,
+          9.3132e-10,  3.5390e-08],
+        [ 1.6764e-07, -1.1176e-08,  1.6112e-07,  ..., -9.3132e-10,
+          0.0000e+00,  1.0245e-08],
+        [ 2.3283e-08,  1.3970e-08,  3.0734e-08,  ..., -1.3970e-08,
+          0.0000e+00,  2.7008e-08]], device='cuda:0')
+Epoch 260, bias, value: tensor([ 0.0355,  0.0005,  0.0244,  0.0185,  0.0335,  0.0092, -0.0058,  0.0048,
+        -0.0022, -0.0435], device='cuda:0'), grad: tensor([ 1.1269e-07, -7.5549e-06,  4.8615e-07, -3.9767e-07,  6.2399e-08,
+         2.0862e-07,  6.1691e-06,  3.4831e-07,  4.3306e-07,  1.5739e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 259, time 218.04, cls_loss 0.0011 cls_loss_mapping 0.0021 cls_loss_causal 0.5221 re_mapping 0.0054 re_causal 0.0162 /// teacc 99.03 lr 0.00010000
+Epoch 261, weight, value: tensor([[-0.1419,  0.2052, -0.0273,  ..., -0.0189,  0.0715, -0.0077],
+        [ 0.1635, -0.1021,  0.0306,  ..., -0.0702, -0.0115, -0.0694],
+        [-0.0723, -0.2279, -0.0118,  ..., -0.0483,  0.0403, -0.2084],
+        ...,
+        [-0.1657, -0.2382,  0.0588,  ..., -0.0904, -0.0718, -0.1536],
+        [-0.0964,  0.0084,  0.0317,  ...,  0.0135, -0.0992,  0.0681],
+        [-0.0779, -0.0548,  0.0928,  ...,  0.1856, -0.0661, -0.1723]],
+       device='cuda:0'), grad: tensor([[ 8.3819e-09, -7.4506e-09, -2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09],
+        [-9.4064e-08, -9.3132e-10, -1.5832e-08,  ...,  0.0000e+00,
+          0.0000e+00,  8.3819e-09],
+        [ 2.1420e-08,  0.0000e+00,  9.3132e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.9802e-08],
+        ...,
+        [ 2.9802e-08,  1.8626e-09, -2.5146e-08,  ...,  1.8626e-09,
+          0.0000e+00,  1.4901e-08],
+        [ 2.1979e-07,  9.6858e-08,  4.5635e-08,  ...,  6.5193e-09,
+          0.0000e+00,  1.8440e-07],
+        [ 2.5146e-08,  1.5832e-08, -2.6077e-08,  ..., -1.1176e-08,
+          0.0000e+00,  1.3039e-08]], device='cuda:0')
+Epoch 261, bias, value: tensor([ 0.0354,  0.0004,  0.0242,  0.0185,  0.0336,  0.0090, -0.0058,  0.0049,
+        -0.0016, -0.0435], device='cuda:0'), grad: tensor([ 1.3411e-07, -9.3132e-10,  2.6822e-07, -2.2165e-07, -6.1467e-06,
+        -3.7812e-07,  4.4703e-08,  2.5164e-06,  4.9081e-07,  3.2857e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 260, time 218.51, cls_loss 0.0013 cls_loss_mapping 0.0025 cls_loss_causal 0.5119 re_mapping 0.0053 re_causal 0.0157 /// teacc 99.01 lr 0.00010000
+Epoch 262, weight, value: tensor([[-0.1421,  0.2057, -0.0272,  ..., -0.0189,  0.0713, -0.0080],
+        [ 0.1640, -0.1018,  0.0310,  ..., -0.0702, -0.0111, -0.0695],
+        [-0.0725, -0.2287, -0.0128,  ..., -0.0483,  0.0403, -0.2092],
+        ...,
+        [-0.1661, -0.2393,  0.0586,  ..., -0.0905, -0.0719, -0.1542],
+        [-0.0968,  0.0084,  0.0317,  ...,  0.0135, -0.0994,  0.0682],
+        [-0.0789, -0.0553,  0.0930,  ...,  0.1857, -0.0662, -0.1725]],
+       device='cuda:0'), grad: tensor([[ 1.2107e-08, -4.2468e-07, -1.0803e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.1176e-08],
+        [ 9.3132e-09,  2.5146e-08,  7.4506e-08,  ...,  0.0000e+00,
+          0.0000e+00,  3.4459e-08],
+        [ 3.7253e-09,  8.5682e-08,  8.3819e-08,  ...,  0.0000e+00,
+          0.0000e+00,  7.4506e-09],
+        ...,
+        [ 2.1420e-08,  2.3283e-08, -4.5542e-07,  ...,  9.3132e-10,
+          0.0000e+00,  2.3283e-08],
+        [ 2.8685e-07,  1.3970e-07, -1.1176e-08,  ..., -3.7253e-09,
+          0.0000e+00,  3.6322e-08],
+        [ 3.6787e-07,  4.3120e-07,  3.2503e-07,  ..., -9.3132e-10,
+          0.0000e+00,  3.1758e-07]], device='cuda:0')
+Epoch 262, bias, value: tensor([ 0.0356,  0.0008,  0.0239,  0.0186,  0.0341,  0.0092, -0.0059,  0.0046,
+        -0.0016, -0.0436], device='cuda:0'), grad: tensor([ 1.4622e-06,  1.0561e-06,  4.7274e-06,  8.9258e-06,  2.5891e-06,
+        -3.4831e-06, -5.3607e-06, -1.3202e-05,  2.4121e-07,  2.9914e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 261, time 218.57, cls_loss 0.0013 cls_loss_mapping 0.0029 cls_loss_causal 0.5312 re_mapping 0.0051 re_causal 0.0154 /// teacc 98.95 lr 0.00010000
+Epoch 263, weight, value: tensor([[-0.1427,  0.2059, -0.0272,  ..., -0.0189,  0.0713, -0.0081],
+        [ 0.1641, -0.1010,  0.0312,  ..., -0.0710, -0.0111, -0.0696],
+        [-0.0725, -0.2289, -0.0126,  ..., -0.0483,  0.0403, -0.2094],
+        ...,
+        [-0.1663, -0.2407,  0.0585,  ..., -0.0906, -0.0719, -0.1565],
+        [-0.0976,  0.0079,  0.0315,  ...,  0.0134, -0.0995,  0.0679],
+        [-0.0789, -0.0557,  0.0930,  ...,  0.1862, -0.0663, -0.1727]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09, -2.8774e-05,  1.8626e-08,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09],
+        [-6.1095e-06,  1.9781e-06, -5.5879e-08,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [ 4.2506e-06,  1.8142e-06,  5.6811e-08,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        ...,
+        [ 1.6177e-06,  5.2154e-08, -3.7253e-09,  ...,  9.3132e-10,
+          0.0000e+00,  6.5193e-09],
+        [ 7.9162e-08,  2.4121e-07, -1.3970e-08,  ...,  0.0000e+00,
+          0.0000e+00,  3.3528e-08],
+        [ 4.6566e-08,  6.2399e-08, -1.6019e-07,  ..., -2.7940e-09,
+          0.0000e+00,  8.3819e-09]], device='cuda:0')
+Epoch 263, bias, value: tensor([ 0.0357,  0.0008,  0.0240,  0.0188,  0.0345,  0.0094, -0.0058,  0.0042,
+        -0.0022, -0.0438], device='cuda:0'), grad: tensor([-7.6234e-05, -1.0608e-06,  9.3430e-06,  2.9579e-06,  3.2876e-07,
+         4.7497e-08,  6.2346e-05,  1.5870e-06,  6.0443e-07,  9.3132e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 262, time 218.13, cls_loss 0.0013 cls_loss_mapping 0.0023 cls_loss_causal 0.4643 re_mapping 0.0053 re_causal 0.0151 /// teacc 99.01 lr 0.00010000
+Epoch 264, weight, value: tensor([[-0.1428,  0.2061, -0.0277,  ..., -0.0189,  0.0715, -0.0078],
+        [ 0.1646, -0.1010,  0.0312,  ..., -0.0711, -0.0111, -0.0698],
+        [-0.0728, -0.2296, -0.0128,  ..., -0.0484,  0.0403, -0.2098],
+        ...,
+        [-0.1666, -0.2417,  0.0588,  ..., -0.0907, -0.0719, -0.1567],
+        [-0.0978,  0.0078,  0.0310,  ...,  0.0136, -0.0995,  0.0679],
+        [-0.0791, -0.0558,  0.0934,  ...,  0.1864, -0.0663, -0.1729]],
+       device='cuda:0'), grad: tensor([[ 2.9802e-08, -3.6880e-07, -2.2352e-08,  ...,  0.0000e+00,
+          0.0000e+00,  3.3528e-08],
+        [ 3.7253e-09,  4.5635e-08,  1.6950e-07,  ...,  0.0000e+00,
+          0.0000e+00,  3.8184e-08],
+        [ 8.3819e-09, -4.0326e-07,  2.3283e-08,  ...,  0.0000e+00,
+          0.0000e+00,  7.4506e-08],
+        ...,
+        [ 2.0489e-08,  1.3039e-08, -1.1362e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.4715e-07],
+        [ 3.7812e-07,  3.4831e-07,  7.7300e-08,  ...,  0.0000e+00,
+          0.0000e+00,  2.9430e-07],
+        [ 6.3330e-08,  6.7055e-08,  1.5646e-07,  ...,  0.0000e+00,
+          0.0000e+00,  6.7987e-08]], device='cuda:0')
+Epoch 264, bias, value: tensor([ 0.0354,  0.0010,  0.0238,  0.0181,  0.0354,  0.0101, -0.0059,  0.0043,
+        -0.0026, -0.0438], device='cuda:0'), grad: tensor([-2.9057e-07,  1.5311e-06, -3.4161e-06,  1.2927e-05, -4.5858e-06,
+        -1.2696e-05,  1.7723e-06,  9.8068e-07,  1.5199e-06,  2.2165e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 263, time 218.61, cls_loss 0.0016 cls_loss_mapping 0.0022 cls_loss_causal 0.5128 re_mapping 0.0056 re_causal 0.0158 /// teacc 98.95 lr 0.00010000
+Epoch 265, weight, value: tensor([[-0.1428,  0.2064, -0.0278,  ..., -0.0190,  0.0715, -0.0084],
+        [ 0.1648, -0.0995,  0.0310,  ..., -0.0714, -0.0108, -0.0689],
+        [-0.0729, -0.2301, -0.0139,  ..., -0.0485,  0.0404, -0.2110],
+        ...,
+        [-0.1666, -0.2420,  0.0592,  ..., -0.0907, -0.0719, -0.1569],
+        [-0.0982,  0.0076,  0.0315,  ...,  0.0136, -0.0995,  0.0680],
+        [-0.0789, -0.0559,  0.0935,  ...,  0.1871, -0.0664, -0.1729]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09, -3.5483e-07, -2.0489e-08,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09],
+        [ 1.3318e-07,  4.1910e-08,  2.3190e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.3970e-08],
+        [-1.3225e-07,  2.3283e-08,  6.4261e-08,  ...,  0.0000e+00,
+          0.0000e+00,  2.8871e-08],
+        ...,
+        [ 1.8626e-09,  9.3132e-09,  4.8757e-05,  ...,  0.0000e+00,
+          0.0000e+00,  1.1973e-05],
+        [ 3.3993e-07,  2.1793e-07,  5.9605e-08,  ...,  0.0000e+00,
+          0.0000e+00,  2.0023e-07],
+        [ 9.1270e-08,  1.2014e-07, -4.9531e-05,  ...,  0.0000e+00,
+          0.0000e+00,  5.3085e-08]], device='cuda:0')
+Epoch 265, bias, value: tensor([ 0.0354,  0.0010,  0.0235,  0.0176,  0.0355,  0.0103, -0.0063,  0.0050,
+        -0.0020, -0.0437], device='cuda:0'), grad: tensor([-6.7800e-07,  1.7099e-06, -1.0431e-06, -2.2724e-05,  1.4063e-07,
+        -3.7346e-07,  1.7043e-07,  1.0449e-04,  6.1933e-07, -8.2254e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 264, time 218.71, cls_loss 0.0015 cls_loss_mapping 0.0025 cls_loss_causal 0.5225 re_mapping 0.0053 re_causal 0.0153 /// teacc 99.00 lr 0.00010000
+Epoch 266, weight, value: tensor([[-0.1431,  0.2067, -0.0280,  ..., -0.0190,  0.0717, -0.0087],
+        [ 0.1651, -0.0995,  0.0307,  ..., -0.0714, -0.0105, -0.0690],
+        [-0.0728, -0.2291, -0.0139,  ..., -0.0485,  0.0401, -0.2113],
+        ...,
+        [-0.1672, -0.2446,  0.0591,  ..., -0.0908, -0.0720, -0.1576],
+        [-0.0987,  0.0073,  0.0314,  ...,  0.0136, -0.0995,  0.0678],
+        [-0.0790, -0.0562,  0.0941,  ...,  0.1873, -0.0664, -0.1738]],
+       device='cuda:0'), grad: tensor([[ 1.6391e-07, -1.3039e-08,  1.7229e-07,  ...,  0.0000e+00,
+          1.8626e-09,  6.5193e-09],
+        [-1.8943e-06,  6.5193e-09, -1.7695e-06,  ...,  0.0000e+00,
+          1.8626e-09,  2.4214e-08],
+        [ 1.0347e-06,  2.7940e-09,  1.1353e-06,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-09],
+        ...,
+        [ 7.5437e-08,  2.7940e-09, -8.7544e-08,  ...,  0.0000e+00,
+          0.0000e+00,  5.2154e-08],
+        [-1.6484e-07, -5.5786e-07, -6.5565e-07,  ..., -1.5832e-08,
+          8.3819e-09, -6.9104e-07],
+        [ 6.0536e-08,  6.7987e-08, -6.0536e-08,  ...,  8.3819e-09,
+          0.0000e+00,  7.0781e-08]], device='cuda:0')
+Epoch 266, bias, value: tensor([ 0.0353,  0.0006,  0.0239,  0.0183,  0.0357,  0.0096, -0.0064,  0.0049,
+        -0.0026, -0.0435], device='cuda:0'), grad: tensor([ 5.4017e-07, -5.3644e-06,  3.2540e-06, -3.6322e-07,  4.3865e-07,
+         1.2200e-07,  4.0531e-06,  2.6822e-07, -2.8349e-06, -1.2852e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 265, time 218.58, cls_loss 0.0012 cls_loss_mapping 0.0027 cls_loss_causal 0.4941 re_mapping 0.0052 re_causal 0.0152 /// teacc 98.95 lr 0.00010000
+Epoch 267, weight, value: tensor([[-0.1432,  0.2067, -0.0281,  ..., -0.0192,  0.0717, -0.0099],
+        [ 0.1653, -0.0997,  0.0308,  ..., -0.0715, -0.0105, -0.0691],
+        [-0.0729, -0.2307, -0.0146,  ..., -0.0488,  0.0401, -0.2120],
+        ...,
+        [-0.1675, -0.2457,  0.0579,  ..., -0.0908, -0.0720, -0.1608],
+        [-0.0990,  0.0073,  0.0341,  ...,  0.0135, -0.0995,  0.0700],
+        [-0.0792, -0.0562,  0.0942,  ...,  0.1876, -0.0664, -0.1742]],
+       device='cuda:0'), grad: tensor([[ 5.4948e-08, -2.4680e-07,  1.1176e-08,  ...,  0.0000e+00,
+          0.0000e+00,  8.2888e-08],
+        [ 3.6322e-08,  5.8673e-08,  3.2596e-08,  ...,  0.0000e+00,
+          0.0000e+00,  6.5193e-08],
+        [ 1.3970e-08,  2.9709e-07,  4.7125e-07,  ...,  0.0000e+00,
+          0.0000e+00,  6.8918e-08],
+        ...,
+        [ 1.2945e-07,  2.0396e-07, -2.1514e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.4380e-06],
+        [ 1.1455e-07, -2.4680e-07, -7.1991e-07,  ...,  0.0000e+00,
+          0.0000e+00, -3.0734e-08],
+        [ 4.0606e-07,  6.0629e-07,  1.7416e-07,  ...,  0.0000e+00,
+          0.0000e+00,  5.6811e-07]], device='cuda:0')
+Epoch 267, bias, value: tensor([ 0.0351,  0.0007,  0.0237,  0.0185,  0.0358,  0.0097, -0.0064,  0.0038,
+        -0.0003, -0.0435], device='cuda:0'), grad: tensor([ 4.9826e-07,  2.5705e-07,  1.3588e-06, -2.9616e-07,  7.5903e-07,
+        -8.7395e-06, -9.6206e-07,  7.1041e-06, -1.4855e-06,  1.5469e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 266, time 218.00, cls_loss 0.0012 cls_loss_mapping 0.0016 cls_loss_causal 0.4851 re_mapping 0.0053 re_causal 0.0152 /// teacc 99.02 lr 0.00010000
+Epoch 268, weight, value: tensor([[-0.1432,  0.2069, -0.0280,  ..., -0.0192,  0.0719, -0.0097],
+        [ 0.1651, -0.0999,  0.0308,  ..., -0.0715, -0.0105, -0.0693],
+        [-0.0725, -0.2320, -0.0147,  ..., -0.0489,  0.0401, -0.2132],
+        ...,
+        [-0.1678, -0.2476,  0.0577,  ..., -0.0910, -0.0720, -0.1615],
+        [-0.0992,  0.0077,  0.0341,  ...,  0.0136, -0.0995,  0.0704],
+        [-0.0796, -0.0562,  0.0948,  ...,  0.1879, -0.0665, -0.1741]],
+       device='cuda:0'), grad: tensor([[ 1.0245e-08, -2.9802e-08,  2.7008e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [-3.3528e-07,  9.3132e-10, -2.7195e-07,  ...,  9.3132e-10,
+          0.0000e+00,  9.3132e-09],
+        [-2.3935e-07,  3.7253e-09,  6.9849e-08,  ...,  0.0000e+00,
+          0.0000e+00,  3.4459e-08],
+        ...,
+        [ 5.7742e-08,  9.3132e-10,  1.0058e-06,  ...,  2.7940e-09,
+          0.0000e+00,  2.0489e-08],
+        [ 6.4261e-08,  2.7940e-09,  8.8476e-08,  ...,  9.3132e-10,
+          0.0000e+00,  1.2759e-07],
+        [ 8.6613e-08,  1.7695e-08, -3.5316e-06,  ..., -1.3970e-08,
+          0.0000e+00,  3.3528e-08]], device='cuda:0')
+Epoch 268, bias, value: tensor([ 0.0351,  0.0004,  0.0241,  0.0191,  0.0351,  0.0094, -0.0062,  0.0032,
+        -0.0002, -0.0429], device='cuda:0'), grad: tensor([ 1.0524e-07, -1.4799e-06, -1.5646e-07, -1.0496e-06,  6.2287e-06,
+         6.9663e-07,  7.6927e-07,  2.5667e-06,  8.1025e-07, -8.4937e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 267, time 218.61, cls_loss 0.0016 cls_loss_mapping 0.0023 cls_loss_causal 0.4951 re_mapping 0.0050 re_causal 0.0148 /// teacc 99.03 lr 0.00010000
+Epoch 269, weight, value: tensor([[-0.1434,  0.2070, -0.0280,  ..., -0.0192,  0.0719, -0.0100],
+        [ 0.1653, -0.0999,  0.0302,  ..., -0.0737, -0.0104, -0.0695],
+        [-0.0724, -0.2324, -0.0150,  ..., -0.0491,  0.0401, -0.2138],
+        ...,
+        [-0.1685, -0.2490,  0.0579,  ..., -0.0923, -0.0720, -0.1616],
+        [-0.1004,  0.0071,  0.0340,  ...,  0.0134, -0.0997,  0.0702],
+        [-0.0789, -0.0564,  0.0957,  ...,  0.1895, -0.0666, -0.1747]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -2.4550e-06, -1.1995e-06,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-1.3039e-08,  1.0524e-07,  9.4995e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 2.7940e-09,  2.3004e-07,  1.3225e-07,  ...,  0.0000e+00,
+         -9.3132e-10,  2.7940e-09],
+        ...,
+        [ 1.3039e-08,  1.8626e-08, -4.1910e-08,  ...,  1.8626e-09,
+          9.3132e-10,  0.0000e+00],
+        [-1.4901e-08,  1.3690e-07,  3.0734e-08,  ..., -1.7695e-08,
+          0.0000e+00, -4.2841e-08],
+        [ 7.4506e-09,  2.0117e-07,  5.8673e-08,  ...,  2.7940e-09,
+          0.0000e+00,  1.7695e-08]], device='cuda:0')
+Epoch 269, bias, value: tensor([ 3.4854e-02,  9.9217e-05,  2.4134e-02,  1.9115e-02,  3.4884e-02,
+         9.2935e-03, -5.8084e-03,  3.1154e-03, -6.2100e-04, -4.2247e-02],
+       device='cuda:0'), grad: tensor([-4.7535e-06,  2.9244e-07,  4.1351e-07,  1.6857e-07,  4.6566e-08,
+         2.1420e-07,  3.0622e-06, -2.1420e-08,  2.5891e-07,  3.1479e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 268, time 218.37, cls_loss 0.0020 cls_loss_mapping 0.0032 cls_loss_causal 0.5256 re_mapping 0.0052 re_causal 0.0152 /// teacc 99.04 lr 0.00010000
+Epoch 270, weight, value: tensor([[-0.1437,  0.2069, -0.0288,  ..., -0.0192,  0.0720, -0.0107],
+        [ 0.1656, -0.0997,  0.0302,  ..., -0.0738, -0.0102, -0.0693],
+        [-0.0726, -0.2340, -0.0165,  ..., -0.0494,  0.0396, -0.2150],
+        ...,
+        [-0.1689, -0.2495,  0.0586,  ..., -0.0924, -0.0720, -0.1621],
+        [-0.0993,  0.0087,  0.0340,  ...,  0.0133, -0.0998,  0.0716],
+        [-0.0792, -0.0557,  0.0960,  ...,  0.1899, -0.0667, -0.1741]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09, -1.2852e-07, -4.9360e-08,  ...,  0.0000e+00,
+          0.0000e+00,  7.6368e-08],
+        [-7.0781e-08,  8.3819e-09, -4.4703e-08,  ...,  0.0000e+00,
+          0.0000e+00,  9.9652e-08],
+        [ 3.6322e-08,  3.9954e-07,  5.7742e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.4529e-06],
+        ...,
+        [ 2.2352e-08,  3.7253e-09, -2.0489e-08,  ...,  0.0000e+00,
+          0.0000e+00,  4.2003e-07],
+        [ 1.1735e-07, -2.8964e-07, -5.2806e-07,  ...,  9.3132e-10,
+          0.0000e+00,  5.7463e-07],
+        [ 6.7987e-08,  1.4808e-07,  1.0245e-08,  ..., -5.5879e-09,
+          0.0000e+00,  7.0501e-07]], device='cuda:0')
+Epoch 270, bias, value: tensor([ 3.4455e-02, -2.0974e-05,  2.3412e-02,  1.9136e-02,  3.5503e-02,
+         8.3648e-03, -5.8095e-03,  4.0677e-03,  9.4660e-05, -4.1979e-02],
+       device='cuda:0'), grad: tensor([ 3.2503e-07,  5.7183e-07,  8.2999e-06, -2.2918e-05,  1.7788e-07,
+         1.3309e-06, -3.6694e-07,  2.8312e-06,  4.9770e-06,  4.7162e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 269, time 218.16, cls_loss 0.0013 cls_loss_mapping 0.0018 cls_loss_causal 0.4852 re_mapping 0.0051 re_causal 0.0155 /// teacc 99.03 lr 0.00010000
+Epoch 271, weight, value: tensor([[-0.1438,  0.2069, -0.0292,  ..., -0.0192,  0.0719, -0.0110],
+        [ 0.1660, -0.0998,  0.0304,  ..., -0.0739, -0.0101, -0.0695],
+        [-0.0723, -0.2352, -0.0170,  ..., -0.0495,  0.0397, -0.2160],
+        ...,
+        [-0.1697, -0.2499,  0.0587,  ..., -0.0924, -0.0720, -0.1621],
+        [-0.0996,  0.0088,  0.0341,  ...,  0.0129, -0.0998,  0.0718],
+        [-0.0797, -0.0553,  0.0962,  ...,  0.1905, -0.0667, -0.1736]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-09, -1.3039e-08,  2.5891e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.7695e-08],
+        [-1.3039e-08,  2.7940e-09,  3.0845e-06,  ...,  0.0000e+00,
+          0.0000e+00,  1.6112e-07],
+        [ 4.6566e-09,  2.7940e-09,  1.1828e-07,  ...,  0.0000e+00,
+          0.0000e+00,  7.4506e-09],
+        ...,
+        [ 1.1176e-08,  8.3819e-09,  5.9336e-05,  ...,  0.0000e+00,
+          0.0000e+00,  3.0138e-06],
+        [ 2.9616e-07,  2.2165e-07, -1.4949e-04,  ...,  0.0000e+00,
+          0.0000e+00, -7.3463e-06],
+        [ 8.5589e-07,  6.5099e-07,  8.5592e-05,  ..., -1.8626e-09,
+          0.0000e+00,  5.0291e-06]], device='cuda:0')
+Epoch 271, bias, value: tensor([ 0.0342,  0.0002,  0.0239,  0.0186,  0.0356,  0.0081, -0.0058,  0.0039,
+         0.0002, -0.0417], device='cuda:0'), grad: tensor([ 5.4855e-07,  4.1500e-06,  5.0291e-08,  5.7369e-07,  3.1758e-07,
+        -1.8505e-06,  2.8126e-07,  7.9513e-05, -1.9944e-04,  1.1575e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 270, time 218.51, cls_loss 0.0013 cls_loss_mapping 0.0020 cls_loss_causal 0.5042 re_mapping 0.0054 re_causal 0.0159 /// teacc 99.02 lr 0.00010000
+Epoch 272, weight, value: tensor([[-0.1439,  0.2068, -0.0292,  ..., -0.0192,  0.0721, -0.0112],
+        [ 0.1670, -0.0998,  0.0313,  ..., -0.0755, -0.0101, -0.0695],
+        [-0.0724, -0.2365, -0.0172,  ..., -0.0496,  0.0398, -0.2165],
+        ...,
+        [-0.1721, -0.2506,  0.0577,  ..., -0.0933, -0.0721, -0.1623],
+        [-0.0999,  0.0088,  0.0345,  ...,  0.0126, -0.0999,  0.0719],
+        [-0.0785, -0.0554,  0.0967,  ...,  0.1916, -0.0668, -0.1739]],
+       device='cuda:0'), grad: tensor([[ 2.1420e-08,  1.4808e-07,  6.6170e-07,  ...,  0.0000e+00,
+          0.0000e+00,  2.3702e-07],
+        [-1.1027e-06,  4.1910e-08, -1.1818e-06,  ...,  0.0000e+00,
+          0.0000e+00,  6.3330e-08],
+        [ 1.5460e-07,  1.0710e-07,  3.0529e-06,  ...,  0.0000e+00,
+          0.0000e+00,  1.6252e-07],
+        ...,
+        [ 1.1642e-07,  3.8790e-07, -1.5032e-06,  ...,  0.0000e+00,
+          0.0000e+00,  5.8208e-07],
+        [ 7.0129e-07, -9.2154e-07, -2.3767e-06,  ...,  0.0000e+00,
+          0.0000e+00, -1.4007e-06],
+        [ 9.7789e-09,  1.9791e-07,  8.3167e-07,  ...,  0.0000e+00,
+          0.0000e+00,  2.9476e-07]], device='cuda:0')
+Epoch 272, bias, value: tensor([ 0.0337,  0.0008,  0.0238,  0.0186,  0.0356,  0.0082, -0.0053,  0.0030,
+         0.0004, -0.0415], device='cuda:0'), grad: tensor([ 1.6084e-06, -1.9353e-06,  4.5300e-06,  4.0047e-07, -7.0035e-06,
+         2.8778e-07,  7.1414e-06, -1.3728e-06, -5.8189e-06,  2.1011e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 271, time 218.53, cls_loss 0.0010 cls_loss_mapping 0.0019 cls_loss_causal 0.5113 re_mapping 0.0052 re_causal 0.0159 /// teacc 99.03 lr 0.00010000
+Epoch 273, weight, value: tensor([[-0.1439,  0.2073, -0.0291,  ..., -0.0192,  0.0721, -0.0109],
+        [ 0.1670, -0.1001,  0.0311,  ..., -0.0757, -0.0100, -0.0697],
+        [-0.0724, -0.2385, -0.0175,  ..., -0.0497,  0.0397, -0.2175],
+        ...,
+        [-0.1721, -0.2518,  0.0579,  ..., -0.0933, -0.0721, -0.1624],
+        [-0.1000,  0.0092,  0.0347,  ...,  0.0125, -0.0999,  0.0721],
+        [-0.0786, -0.0556,  0.0966,  ...,  0.1918, -0.0668, -0.1743]],
+       device='cuda:0'), grad: tensor([[ 2.0023e-08, -2.0303e-07, -1.4389e-07,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-09],
+        [-7.8529e-06,  1.2573e-08, -6.2101e-06,  ...,  0.0000e+00,
+          4.6566e-10,  8.3819e-09],
+        [ 3.1665e-08,  2.3283e-09,  2.5611e-08,  ...,  0.0000e+00,
+          9.3132e-10,  1.1176e-08],
+        ...,
+        [ 7.7486e-06,  3.7253e-09,  6.1169e-06,  ...,  1.8626e-09,
+          0.0000e+00,  9.7789e-09],
+        [ 6.2399e-08,  1.7695e-08,  2.4680e-08,  ...,  4.6566e-10,
+          3.7253e-09,  3.7253e-08],
+        [ 4.5169e-08,  4.2841e-08,  2.5611e-08,  ..., -1.0245e-08,
+          0.0000e+00,  1.5367e-08]], device='cuda:0')
+Epoch 273, bias, value: tensor([ 0.0339,  0.0007,  0.0237,  0.0185,  0.0354,  0.0081, -0.0054,  0.0032,
+         0.0007, -0.0416], device='cuda:0'), grad: tensor([-4.5728e-07, -1.2510e-05,  3.3062e-08, -1.3784e-07,  5.7276e-08,
+         3.2270e-07, -1.1502e-07,  1.2435e-05,  2.2911e-07,  1.5507e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 272, time 218.00, cls_loss 0.0011 cls_loss_mapping 0.0018 cls_loss_causal 0.4828 re_mapping 0.0050 re_causal 0.0151 /// teacc 99.03 lr 0.00010000
+Epoch 274, weight, value: tensor([[-0.1439,  0.2077, -0.0307,  ..., -0.0192,  0.0720, -0.0107],
+        [ 0.1670, -0.1006,  0.0307,  ..., -0.0757, -0.0099, -0.0704],
+        [-0.0724, -0.2401, -0.0176,  ..., -0.0496,  0.0397, -0.2180],
+        ...,
+        [-0.1721, -0.2523,  0.0582,  ..., -0.0934, -0.0721, -0.1628],
+        [-0.1001,  0.0094,  0.0348,  ...,  0.0125, -0.1000,  0.0723],
+        [-0.0790, -0.0554,  0.0975,  ...,  0.1920, -0.0669, -0.1749]],
+       device='cuda:0'), grad: tensor([[ 2.0489e-08,  1.5832e-08,  1.3039e-08,  ...,  0.0000e+00,
+          0.0000e+00,  2.2352e-08],
+        [-5.3085e-08,  1.1176e-08, -1.0245e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.9558e-08],
+        [ 2.0489e-08,  1.8626e-09,  1.7136e-07,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        ...,
+        [ 3.4459e-08,  1.4901e-08, -7.5065e-07,  ...,  3.7253e-09,
+          0.0000e+00,  2.8871e-08],
+        [ 2.7940e-07,  2.1514e-07, -5.4948e-08,  ...,  9.3132e-10,
+          0.0000e+00,  2.9150e-07],
+        [ 3.9116e-08,  3.4459e-08,  2.8685e-07,  ..., -2.0489e-08,
+          0.0000e+00,  5.1223e-08]], device='cuda:0')
+Epoch 274, bias, value: tensor([ 0.0336,  0.0002,  0.0236,  0.0191,  0.0358,  0.0073, -0.0053,  0.0035,
+         0.0007, -0.0410], device='cuda:0'), grad: tensor([ 1.3970e-07,  2.2165e-07,  3.9116e-07,  1.5115e-06, -8.7693e-06,
+        -2.3507e-06,  5.4110e-07, -1.5777e-06,  5.6252e-07,  9.3132e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 273, time 217.70, cls_loss 0.0011 cls_loss_mapping 0.0024 cls_loss_causal 0.5071 re_mapping 0.0051 re_causal 0.0151 /// teacc 99.03 lr 0.00010000
+Epoch 275, weight, value: tensor([[-0.1440,  0.2080, -0.0307,  ..., -0.0192,  0.0719, -0.0109],
+        [ 0.1674, -0.1004,  0.0309,  ..., -0.0759, -0.0094, -0.0706],
+        [-0.0725, -0.2406, -0.0177,  ..., -0.0499,  0.0395, -0.2185],
+        ...,
+        [-0.1726, -0.2529,  0.0581,  ..., -0.0935, -0.0722, -0.1629],
+        [-0.1007,  0.0093,  0.0350,  ...,  0.0125, -0.1001,  0.0722],
+        [-0.0793, -0.0557,  0.0979,  ...,  0.1923, -0.0669, -0.1754]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -5.4017e-08, -1.8626e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [-3.7253e-09,  2.7940e-09,  6.5193e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-08],
+        [ 0.0000e+00,  1.8626e-09,  7.4506e-09,  ...,  0.0000e+00,
+          0.0000e+00,  5.6811e-08],
+        ...,
+        [ 2.7940e-09,  1.8626e-09, -4.6566e-08,  ...,  0.0000e+00,
+          0.0000e+00,  6.6124e-08],
+        [ 1.6764e-08,  6.5193e-09, -3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00, -1.9651e-07],
+        [ 9.3132e-09,  3.6322e-08,  1.5832e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.4901e-08]], device='cuda:0')
+Epoch 275, bias, value: tensor([ 0.0336,  0.0004,  0.0236,  0.0191,  0.0351,  0.0075, -0.0055,  0.0033,
+         0.0007, -0.0406], device='cuda:0'), grad: tensor([ 8.9407e-08,  9.3132e-08, -2.3842e-07, -5.8580e-07,  4.9360e-08,
+         4.4983e-07,  1.6205e-07,  2.2445e-07, -3.5763e-07,  1.1642e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 274, time 218.62, cls_loss 0.0013 cls_loss_mapping 0.0020 cls_loss_causal 0.4845 re_mapping 0.0053 re_causal 0.0149 /// teacc 99.05 lr 0.00010000
+Epoch 276, weight, value: tensor([[-0.1443,  0.2081, -0.0308,  ..., -0.0192,  0.0718, -0.0116],
+        [ 0.1680, -0.0983,  0.0319,  ..., -0.0759, -0.0087, -0.0694],
+        [-0.0725, -0.2418, -0.0183,  ..., -0.0500,  0.0395, -0.2197],
+        ...,
+        [-0.1730, -0.2564,  0.0582,  ..., -0.0936, -0.0722, -0.1632],
+        [-0.1022,  0.0090,  0.0342,  ...,  0.0124, -0.1003,  0.0720],
+        [-0.0806, -0.0561,  0.0974,  ...,  0.1907, -0.0670, -0.1769]],
+       device='cuda:0'), grad: tensor([[ 3.4459e-08, -1.7695e-08, -9.3132e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.4459e-08],
+        [-5.0291e-08,  6.5193e-09, -7.4506e-09,  ...,  4.6566e-09,
+          0.0000e+00,  1.4901e-08],
+        [ 3.7253e-09,  1.5832e-08,  2.7008e-08,  ...,  0.0000e+00,
+          3.7253e-09,  6.4261e-08],
+        ...,
+        [ 2.7008e-08,  1.1176e-08, -2.5425e-07,  ...,  1.8626e-09,
+          0.0000e+00,  1.9558e-08],
+        [ 7.5065e-07,  2.0117e-07, -1.4808e-07,  ...,  9.3132e-10,
+         -1.2573e-07, -3.1386e-07],
+        [ 1.8626e-08,  2.6077e-08,  2.7940e-09,  ..., -9.3132e-09,
+          0.0000e+00,  1.7695e-08]], device='cuda:0')
+Epoch 276, bias, value: tensor([ 0.0335,  0.0010,  0.0234,  0.0194,  0.0365,  0.0061, -0.0041,  0.0035,
+        -0.0004, -0.0417], device='cuda:0'), grad: tensor([ 1.0710e-07,  5.0291e-08,  1.6764e-08,  3.1032e-06,  2.2911e-06,
+        -5.4613e-06,  2.3916e-06,  2.3376e-07,  4.8336e-07, -3.2261e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 275, time 218.52, cls_loss 0.0013 cls_loss_mapping 0.0021 cls_loss_causal 0.4960 re_mapping 0.0049 re_causal 0.0147 /// teacc 99.01 lr 0.00010000
+Epoch 277, weight, value: tensor([[-0.1445,  0.2081, -0.0308,  ..., -0.0192,  0.0718, -0.0125],
+        [ 0.1681, -0.0983,  0.0316,  ..., -0.0762, -0.0086, -0.0695],
+        [-0.0725, -0.2394, -0.0185,  ..., -0.0502,  0.0394, -0.2203],
+        ...,
+        [-0.1731, -0.2570,  0.0583,  ..., -0.0939, -0.0722, -0.1635],
+        [-0.1028,  0.0088,  0.0342,  ...,  0.0124, -0.1003,  0.0718],
+        [-0.0810, -0.0564,  0.0979,  ...,  0.1909, -0.0670, -0.1771]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.3970e-08,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [-5.6811e-08,  9.3132e-10, -5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-09],
+        [ 3.1665e-08,  2.7940e-09,  5.2154e-08,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-09],
+        ...,
+        [ 1.0245e-08,  0.0000e+00, -1.6298e-07,  ...,  0.0000e+00,
+          0.0000e+00,  3.4459e-08],
+        [ 1.0245e-08, -5.4017e-08, -3.4459e-08,  ...,  0.0000e+00,
+          0.0000e+00, -9.4064e-08],
+        [ 6.5193e-09,  3.7253e-09,  5.9605e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.4901e-08]], device='cuda:0')
+Epoch 277, bias, value: tensor([ 0.0332,  0.0008,  0.0239,  0.0194,  0.0373,  0.0060, -0.0038,  0.0035,
+        -0.0007, -0.0419], device='cuda:0'), grad: tensor([ 6.9849e-08,  1.0151e-07,  1.3411e-07, -9.9279e-07,  1.7695e-08,
+         3.2131e-07, -2.6450e-07,  2.9989e-07,  7.4506e-09,  3.1944e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 276, time 218.47, cls_loss 0.0011 cls_loss_mapping 0.0021 cls_loss_causal 0.4714 re_mapping 0.0051 re_causal 0.0148 /// teacc 99.02 lr 0.00010000
+Epoch 278, weight, value: tensor([[-0.1446,  0.2085, -0.0307,  ..., -0.0192,  0.0717, -0.0130],
+        [ 0.1690, -0.0987,  0.0318,  ..., -0.0762, -0.0084, -0.0697],
+        [-0.0727, -0.2400, -0.0189,  ..., -0.0504,  0.0394, -0.2215],
+        ...,
+        [-0.1742, -0.2573,  0.0584,  ..., -0.0939, -0.0722, -0.1635],
+        [-0.1033,  0.0088,  0.0340,  ...,  0.0124, -0.1006,  0.0718],
+        [-0.0814, -0.0566,  0.0982,  ...,  0.1909, -0.0672, -0.1774]],
+       device='cuda:0'), grad: tensor([[ 8.3819e-09,  1.9893e-06,  4.1276e-05,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [-3.6694e-07,  9.3132e-10, -5.7742e-07,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 3.2596e-08,  1.7695e-08,  4.0885e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        ...,
+        [ 1.1176e-08,  5.5879e-09, -2.7567e-07,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 2.4773e-07,  1.6764e-08,  5.0850e-07,  ...,  0.0000e+00,
+          0.0000e+00,  2.8871e-08],
+        [ 6.3330e-08, -2.0228e-06, -4.1634e-05,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-09]], device='cuda:0')
+Epoch 278, bias, value: tensor([ 0.0334,  0.0013,  0.0236,  0.0191,  0.0370,  0.0063, -0.0038,  0.0033,
+        -0.0008, -0.0420], device='cuda:0'), grad: tensor([ 6.3717e-05, -8.7917e-07,  6.1560e-07,  1.0803e-07,  2.4866e-07,
+        -1.3411e-07,  4.7497e-08, -2.2259e-07,  7.8138e-07, -6.4313e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 277, time 218.25, cls_loss 0.0013 cls_loss_mapping 0.0018 cls_loss_causal 0.4959 re_mapping 0.0051 re_causal 0.0145 /// teacc 99.02 lr 0.00010000
+Epoch 279, weight, value: tensor([[-0.1448,  0.2086, -0.0309,  ..., -0.0193,  0.0714, -0.0132],
+        [ 0.1692, -0.0986,  0.0318,  ..., -0.0762, -0.0083, -0.0697],
+        [-0.0728, -0.2402, -0.0191,  ..., -0.0507,  0.0393, -0.2225],
+        ...,
+        [-0.1744, -0.2575,  0.0587,  ..., -0.0940, -0.0721, -0.1637],
+        [-0.1038,  0.0088,  0.0337,  ...,  0.0106, -0.1006,  0.0717],
+        [-0.0818, -0.0564,  0.0983,  ...,  0.1917, -0.0676, -0.1766]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-08, -2.7940e-09,  9.1270e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.9558e-08],
+        [-8.9686e-07,  1.1176e-08, -5.8766e-07,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-09],
+        [ 2.1700e-07,  1.3970e-08,  3.3248e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.9558e-08],
+        ...,
+        [ 2.4680e-07,  2.7940e-08, -8.8289e-06,  ...,  0.0000e+00,
+          0.0000e+00,  3.3528e-08],
+        [ 2.6636e-07, -9.3132e-10,  2.0303e-07,  ...,  0.0000e+00,
+          0.0000e+00, -3.2596e-08],
+        [ 1.0291e-06,  7.3295e-07,  8.5086e-06,  ..., -9.3132e-10,
+          0.0000e+00,  5.6531e-07]], device='cuda:0')
+Epoch 279, bias, value: tensor([ 0.0332,  0.0013,  0.0236,  0.0189,  0.0371,  0.0064, -0.0036,  0.0036,
+        -0.0013, -0.0420], device='cuda:0'), grad: tensor([ 2.2445e-07, -1.3886e-06,  7.3481e-07,  3.3807e-07,  1.2107e-08,
+        -1.8589e-06,  3.2224e-07, -1.4625e-05,  5.0105e-07,  1.5736e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 278, time 218.54, cls_loss 0.0010 cls_loss_mapping 0.0012 cls_loss_causal 0.4724 re_mapping 0.0052 re_causal 0.0150 /// teacc 98.97 lr 0.00010000
+Epoch 280, weight, value: tensor([[-0.1449,  0.2087, -0.0311,  ..., -0.0195,  0.0716, -0.0135],
+        [ 0.1701, -0.0987,  0.0330,  ..., -0.0763, -0.0082, -0.0698],
+        [-0.0728, -0.2404, -0.0195,  ..., -0.0509,  0.0390, -0.2233],
+        ...,
+        [-0.1759, -0.2581,  0.0581,  ..., -0.0941, -0.0721, -0.1640],
+        [-0.1044,  0.0086,  0.0337,  ...,  0.0103, -0.1006,  0.0716],
+        [-0.0823, -0.0564,  0.0983,  ...,  0.1920, -0.0676, -0.1770]],
+       device='cuda:0'), grad: tensor([[ 8.8476e-08,  0.0000e+00,  1.6205e-07,  ...,  3.1665e-08,
+          4.6566e-09,  3.3528e-08],
+        [-4.0699e-07,  1.8161e-07,  9.3132e-10,  ...,  1.8626e-09,
+         -3.9116e-08,  2.2911e-07],
+        [ 5.5879e-07,  1.8626e-09,  3.1386e-07,  ...,  5.6811e-08,
+          5.3085e-08,  3.7253e-09],
+        ...,
+        [ 8.4750e-08,  5.5879e-09,  2.8871e-08,  ...,  2.7940e-09,
+          4.6566e-09,  1.3970e-08],
+        [ 3.1851e-07,  2.2817e-07,  1.8626e-08,  ...,  2.7940e-09,
+          3.4459e-08,  2.9150e-07],
+        [ 8.6613e-08,  2.1420e-08, -9.7044e-07,  ..., -1.7602e-07,
+          9.3132e-10,  3.0734e-08]], device='cuda:0')
+Epoch 280, bias, value: tensor([ 0.0332,  0.0021,  0.0233,  0.0189,  0.0371,  0.0066, -0.0037,  0.0032,
+        -0.0014, -0.0421], device='cuda:0'), grad: tensor([ 7.3947e-07, -1.9278e-07,  1.6643e-06,  1.1520e-06,  1.4817e-06,
+        -8.0317e-06,  5.5507e-06,  1.7509e-07,  6.6031e-07, -3.2112e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 279, time 218.30, cls_loss 0.0013 cls_loss_mapping 0.0021 cls_loss_causal 0.4845 re_mapping 0.0052 re_causal 0.0149 /// teacc 99.05 lr 0.00010000
+Epoch 281, weight, value: tensor([[-0.1450,  0.2091, -0.0309,  ..., -0.0194,  0.0716, -0.0138],
+        [ 0.1703, -0.0991,  0.0330,  ..., -0.0768, -0.0082, -0.0706],
+        [-0.0729, -0.2406, -0.0197,  ..., -0.0516,  0.0396, -0.2243],
+        ...,
+        [-0.1762, -0.2584,  0.0580,  ..., -0.0942, -0.0723, -0.1642],
+        [-0.1047,  0.0088,  0.0338,  ...,  0.0109, -0.1003,  0.0719],
+        [-0.0827, -0.0569,  0.0984,  ...,  0.1921, -0.0675, -0.1777]],
+       device='cuda:0'), grad: tensor([[ 3.0734e-07, -5.0943e-07, -1.0617e-07,  ...,  4.7497e-08,
+          0.0000e+00,  3.2503e-07],
+        [ 2.2445e-07,  2.2072e-07,  4.4797e-07,  ...,  5.5879e-09,
+          0.0000e+00,  2.7008e-07],
+        [ 6.7987e-08,  1.0058e-07,  5.3551e-07,  ...,  7.1712e-08,
+          0.0000e+00,  8.1956e-08],
+        ...,
+        [ 2.2724e-07,  1.5739e-07, -1.3486e-06,  ...,  3.7253e-09,
+          0.0000e+00,  2.1886e-07],
+        [ 1.3769e-05,  9.6262e-06, -2.5518e-07,  ..., -3.7253e-09,
+          0.0000e+00,  1.4879e-05],
+        [ 3.1274e-06,  2.0303e-06, -9.9745e-07,  ..., -1.8440e-07,
+          0.0000e+00,  2.1700e-06]], device='cuda:0')
+Epoch 281, bias, value: tensor([ 0.0333,  0.0020,  0.0233,  0.0191,  0.0371,  0.0064, -0.0037,  0.0032,
+        -0.0012, -0.0422], device='cuda:0'), grad: tensor([ 6.5845e-07,  2.4680e-06,  1.9092e-06,  3.4541e-05,  1.4387e-05,
+        -7.5459e-05,  5.4389e-06,  2.2911e-06,  2.9281e-05, -1.5587e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 280, time 218.32, cls_loss 0.0015 cls_loss_mapping 0.0026 cls_loss_causal 0.5214 re_mapping 0.0051 re_causal 0.0145 /// teacc 99.06 lr 0.00010000
+Epoch 282, weight, value: tensor([[-0.1460,  0.2095, -0.0310,  ..., -0.0195,  0.0715, -0.0146],
+        [ 0.1710, -0.0991,  0.0329,  ..., -0.0783, -0.0080, -0.0708],
+        [-0.0730, -0.2410, -0.0223,  ..., -0.0540,  0.0397, -0.2252],
+        ...,
+        [-0.1773, -0.2594,  0.0580,  ..., -0.0965, -0.0722, -0.1644],
+        [-0.1058,  0.0085,  0.0344,  ...,  0.0115, -0.1001,  0.0716],
+        [-0.0826, -0.0572,  0.0994,  ...,  0.1944, -0.0671, -0.1781]],
+       device='cuda:0'), grad: tensor([[ 1.4808e-07, -9.2201e-08, -1.4901e-08,  ...,  1.8626e-09,
+          3.7253e-08,  4.0978e-08],
+        [ 8.4460e-05,  2.5511e-05,  6.3330e-08,  ...,  4.9267e-07,
+          3.8669e-06,  2.9564e-05],
+        [ 1.0245e-07,  3.2596e-08,  4.1910e-08,  ...,  9.3132e-10,
+          4.6566e-09,  3.9116e-08],
+        ...,
+        [ 6.9849e-08,  2.2352e-08,  1.8626e-09,  ...,  1.2573e-07,
+          2.7940e-09,  2.4214e-08],
+        [ 5.9418e-06,  1.8179e-06,  3.4459e-08,  ...,  5.7742e-08,
+          3.0268e-07,  2.0415e-06],
+        [ 1.3849e-06,  4.7963e-07, -2.7753e-07,  ..., -1.9092e-07,
+          5.7742e-08,  5.2061e-07]], device='cuda:0')
+Epoch 282, bias, value: tensor([ 0.0332,  0.0021,  0.0226,  0.0202,  0.0372,  0.0057, -0.0039,  0.0027,
+        -0.0010, -0.0413], device='cuda:0'), grad: tensor([ 2.2538e-07,  8.8155e-05,  6.0536e-08,  3.6299e-05, -1.3381e-05,
+        -1.2934e-04, -1.2470e-06,  1.8999e-07,  6.3442e-06,  1.2636e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 281, time 217.81, cls_loss 0.0011 cls_loss_mapping 0.0023 cls_loss_causal 0.4842 re_mapping 0.0051 re_causal 0.0152 /// teacc 99.08 lr 0.00010000
+Epoch 283, weight, value: tensor([[-0.1464,  0.2099, -0.0310,  ..., -0.0195,  0.0707, -0.0146],
+        [ 0.1734, -0.0998,  0.0358,  ..., -0.0784, -0.0076, -0.0719],
+        [-0.0732, -0.2412, -0.0228,  ..., -0.0542,  0.0394, -0.2258],
+        ...,
+        [-0.1804, -0.2598,  0.0556,  ..., -0.0967, -0.0725, -0.1645],
+        [-0.1063,  0.0086,  0.0343,  ...,  0.0116, -0.1004,  0.0716],
+        [-0.0834, -0.0575,  0.0991,  ...,  0.1943, -0.0675, -0.1788]],
+       device='cuda:0'), grad: tensor([[ 7.5437e-08, -3.2131e-07, -3.2596e-07,  ...,  0.0000e+00,
+          9.2201e-08,  6.5193e-09],
+        [-1.1921e-07,  5.5879e-09,  1.2480e-07,  ..., -7.4506e-09,
+          2.6077e-08,  0.0000e+00],
+        [-5.6811e-08,  4.6566e-09,  2.2352e-08,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 7.7300e-08,  2.7940e-09, -3.5390e-07,  ...,  2.7940e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 4.6566e-08,  1.4901e-08,  3.3528e-08,  ...,  9.3132e-10,
+          1.5646e-07,  3.7253e-09],
+        [ 7.1712e-08,  2.7101e-07,  3.9861e-07,  ...,  4.6566e-09,
+          0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 283, bias, value: tensor([ 0.0330,  0.0045,  0.0224,  0.0195,  0.0380,  0.0065, -0.0034,  0.0001,
+        -0.0011, -0.0419], device='cuda:0'), grad: tensor([-1.3690e-07,  6.2399e-07, -4.1537e-07,  5.6811e-08, -2.7567e-07,
+         1.6550e-06, -3.1181e-06, -3.3807e-07,  8.0280e-07,  1.1511e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 282, time 217.79, cls_loss 0.0013 cls_loss_mapping 0.0015 cls_loss_causal 0.5089 re_mapping 0.0053 re_causal 0.0151 /// teacc 99.01 lr 0.00010000
+Epoch 284, weight, value: tensor([[-0.1467,  0.2101, -0.0310,  ..., -0.0194,  0.0701, -0.0157],
+        [ 0.1733, -0.0997,  0.0346,  ..., -0.0798, -0.0061, -0.0720],
+        [-0.0733, -0.2414, -0.0229,  ..., -0.0550,  0.0385, -0.2271],
+        ...,
+        [-0.1802, -0.2601,  0.0560,  ..., -0.0990, -0.0728, -0.1646],
+        [-0.1071,  0.0085,  0.0343,  ...,  0.0115, -0.1007,  0.0714],
+        [-0.0836, -0.0580,  0.1010,  ...,  0.1961, -0.0691, -0.1792]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09, -5.2154e-08, -1.8626e-08,  ...,  9.3132e-10,
+         -3.6322e-08,  3.7253e-08],
+        [ 1.0692e-06,  3.9116e-08,  2.0303e-06,  ...,  0.0000e+00,
+          1.3039e-08,  4.3772e-08],
+        [ 4.6566e-09,  2.4214e-08,  3.4459e-08,  ...,  9.3132e-10,
+          0.0000e+00,  4.2841e-08],
+        ...,
+        [-1.1642e-06,  6.5193e-09, -2.2836e-06,  ...,  9.3132e-10,
+          9.3132e-10,  7.9162e-08],
+        [ 4.9360e-08, -6.1467e-08, -1.9092e-07,  ..., -3.7253e-09,
+          7.4506e-09, -2.5518e-07],
+        [ 7.0781e-08,  1.3970e-08,  2.7195e-07,  ..., -4.6566e-09,
+          3.7253e-09,  8.3819e-09]], device='cuda:0')
+Epoch 284, bias, value: tensor([ 0.0329,  0.0035,  0.0224,  0.0196,  0.0380,  0.0067, -0.0034,  0.0006,
+        -0.0013, -0.0406], device='cuda:0'), grad: tensor([ 5.1223e-08,  3.8147e-06,  1.0617e-07,  1.2107e-07, -1.2610e-06,
+        -7.2364e-07,  8.2329e-07, -4.1053e-06, -5.5507e-07,  1.7118e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 283, time 218.04, cls_loss 0.0016 cls_loss_mapping 0.0023 cls_loss_causal 0.4911 re_mapping 0.0049 re_causal 0.0147 /// teacc 99.07 lr 0.00010000
+Epoch 285, weight, value: tensor([[-0.1469,  0.2102, -0.0310,  ..., -0.0194,  0.0702, -0.0161],
+        [ 0.1759, -0.0997,  0.0366,  ..., -0.0797, -0.0060, -0.0722],
+        [-0.0733, -0.2417, -0.0231,  ..., -0.0552,  0.0384, -0.2279],
+        ...,
+        [-0.1828, -0.2605,  0.0542,  ..., -0.0990, -0.0729, -0.1648],
+        [-0.1078,  0.0083,  0.0336,  ...,  0.0088, -0.1007,  0.0714],
+        [-0.0833, -0.0567,  0.1013,  ...,  0.1974, -0.0701, -0.1769]],
+       device='cuda:0'), grad: tensor([[ 1.2107e-08, -1.5870e-06, -1.0403e-06,  ...,  0.0000e+00,
+         -1.9372e-07,  1.8626e-09],
+        [-3.1106e-07,  1.0803e-07,  1.0980e-06,  ...,  0.0000e+00,
+          1.3970e-08,  5.5879e-09],
+        [ 1.2107e-08,  7.6368e-08,  1.9092e-07,  ...,  0.0000e+00,
+          9.3132e-09,  6.5193e-09],
+        ...,
+        [ 1.4622e-07,  1.0272e-06, -5.9307e-06,  ...,  0.0000e+00,
+          1.3225e-07,  5.5879e-09],
+        [ 4.5635e-07,  2.9057e-07,  5.2247e-07,  ...,  0.0000e+00,
+          6.5193e-09,  4.0513e-07],
+        [ 4.8429e-08,  1.8440e-07,  3.7886e-06,  ...,  0.0000e+00,
+          1.5832e-08,  2.5146e-08]], device='cuda:0')
+Epoch 285, bias, value: tensor([ 0.0327,  0.0055,  0.0226,  0.0193,  0.0374,  0.0065, -0.0033, -0.0013,
+        -0.0020, -0.0399], device='cuda:0'), grad: tensor([-2.5015e-06,  3.0063e-06, -1.0310e-06,  1.1167e-06,  1.0785e-06,
+         3.9116e-08,  2.5611e-07, -1.3418e-05,  2.4959e-06,  8.9481e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 284, time 217.95, cls_loss 0.0014 cls_loss_mapping 0.0017 cls_loss_causal 0.4865 re_mapping 0.0052 re_causal 0.0149 /// teacc 99.00 lr 0.00010000
+Epoch 286, weight, value: tensor([[-0.1471,  0.2108, -0.0308,  ..., -0.0194,  0.0693, -0.0166],
+        [ 0.1762, -0.0998,  0.0366,  ..., -0.0803, -0.0073, -0.0724],
+        [-0.0732, -0.2422, -0.0230,  ..., -0.0554,  0.0409, -0.2289],
+        ...,
+        [-0.1831, -0.2611,  0.0542,  ..., -0.0994, -0.0715, -0.1650],
+        [-0.1091,  0.0078,  0.0337,  ...,  0.0088, -0.1009,  0.0708],
+        [-0.0838, -0.0574,  0.1013,  ...,  0.1977, -0.0742, -0.1774]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09, -1.6764e-08, -5.5879e-09,  ...,  0.0000e+00,
+          9.3132e-10,  2.7940e-09],
+        [-5.5879e-09,  3.7253e-09,  2.0489e-08,  ...,  0.0000e+00,
+          1.8626e-09,  1.0245e-08],
+        [ 7.4506e-09,  5.6811e-08,  7.7300e-08,  ...,  0.0000e+00,
+          5.5879e-09,  7.2643e-08],
+        ...,
+        [-3.8464e-07,  1.8626e-09, -9.4995e-08,  ...,  0.0000e+00,
+          9.3132e-10,  4.6566e-09],
+        [ 9.3132e-10, -8.1956e-08, -1.2014e-07,  ...,  0.0000e+00,
+          4.6566e-09, -7.3574e-08],
+        [ 1.2107e-08,  1.1176e-08,  1.0245e-08,  ..., -2.7940e-09,
+          9.3132e-10,  7.4506e-09]], device='cuda:0')
+Epoch 286, bias, value: tensor([ 0.0327,  0.0054,  0.0229,  0.0194,  0.0403,  0.0073, -0.0034, -0.0014,
+        -0.0025, -0.0418], device='cuda:0'), grad: tensor([ 3.9116e-08,  9.7789e-08, -1.5926e-07, -2.6450e-07,  1.6745e-06,
+         1.1073e-06,  1.3970e-08, -2.5183e-06, -1.7881e-07,  2.0303e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 285, time 217.90, cls_loss 0.0011 cls_loss_mapping 0.0018 cls_loss_causal 0.5054 re_mapping 0.0050 re_causal 0.0148 /// teacc 99.08 lr 0.00010000
+Epoch 287, weight, value: tensor([[-0.1476,  0.2119, -0.0306,  ..., -0.0194,  0.0698, -0.0172],
+        [ 0.1762, -0.1000,  0.0365,  ..., -0.0807, -0.0068, -0.0727],
+        [-0.0732, -0.2428, -0.0233,  ..., -0.0556,  0.0409, -0.2298],
+        ...,
+        [-0.1831, -0.2618,  0.0544,  ..., -0.0994, -0.0716, -0.1655],
+        [-0.1095,  0.0082,  0.0340,  ...,  0.0089, -0.1000,  0.0713],
+        [-0.0839, -0.0583,  0.1011,  ...,  0.1979, -0.0757, -0.1783]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -2.6077e-08, -1.3039e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  3.7253e-09,  8.8476e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.6764e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 2.7940e-09,  9.3132e-10, -1.5367e-07,  ...,  3.7253e-09,
+          0.0000e+00,  9.3132e-10],
+        [ 4.3772e-08,  2.6077e-08,  6.5193e-09,  ...,  1.8626e-09,
+          0.0000e+00,  3.8184e-08],
+        [ 2.8871e-08,  3.3528e-08,  9.3132e-10,  ..., -1.3039e-08,
+          0.0000e+00,  3.1665e-08]], device='cuda:0')
+Epoch 287, bias, value: tensor([ 0.0332,  0.0053,  0.0229,  0.0201,  0.0404,  0.0069, -0.0040, -0.0012,
+        -0.0020, -0.0424], device='cuda:0'), grad: tensor([ 4.9360e-08,  3.8091e-07, -7.4785e-07,  3.8370e-07, -5.6811e-08,
+        -1.9837e-07, -2.7940e-09, -7.0781e-08,  1.3690e-07,  1.5274e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 286, time 218.30, cls_loss 0.0015 cls_loss_mapping 0.0026 cls_loss_causal 0.5149 re_mapping 0.0051 re_causal 0.0149 /// teacc 99.04 lr 0.00010000
+Epoch 288, weight, value: tensor([[-0.1478,  0.2125, -0.0304,  ..., -0.0195,  0.0695, -0.0174],
+        [ 0.1768, -0.1008,  0.0365,  ..., -0.0811, -0.0058, -0.0729],
+        [-0.0751, -0.2432, -0.0243,  ..., -0.0557,  0.0379, -0.2305],
+        ...,
+        [-0.1832, -0.2623,  0.0545,  ..., -0.0995, -0.0716, -0.1659],
+        [-0.1102,  0.0074,  0.0340,  ...,  0.0073, -0.1001,  0.0711],
+        [-0.0843, -0.0578,  0.1021,  ...,  0.1991, -0.0770, -0.1777]],
+       device='cuda:0'), grad: tensor([[ 1.5832e-08, -3.1386e-07, -2.0955e-07,  ..., -2.7940e-09,
+          0.0000e+00,  1.4901e-08],
+        [ 1.8626e-09,  2.8871e-08,  2.1420e-08,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-09],
+        [ 9.3132e-10,  2.5146e-08,  2.9802e-08,  ...,  0.0000e+00,
+          0.0000e+00,  3.1665e-08],
+        ...,
+        [ 3.7253e-09,  1.0245e-08, -2.5146e-08,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-09],
+        [ 3.6322e-08,  6.2399e-08, -2.9802e-08,  ...,  0.0000e+00,
+          0.0000e+00, -4.5635e-08],
+        [ 4.1910e-08,  1.3132e-07,  9.0338e-08,  ...,  2.7940e-09,
+          0.0000e+00,  6.1467e-08]], device='cuda:0')
+Epoch 288, bias, value: tensor([ 0.0336,  0.0055,  0.0217,  0.0195,  0.0381,  0.0071, -0.0037, -0.0012,
+        -0.0024, -0.0405], device='cuda:0'), grad: tensor([ 4.7125e-07,  8.8476e-08,  1.8626e-07,  2.1309e-06,  1.0943e-06,
+        -2.3413e-06, -1.9595e-06, -2.2352e-08, -5.4017e-08,  3.9209e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 287, time 217.94, cls_loss 0.0014 cls_loss_mapping 0.0021 cls_loss_causal 0.5366 re_mapping 0.0049 re_causal 0.0148 /// teacc 99.00 lr 0.00010000
+Epoch 289, weight, value: tensor([[-0.1479,  0.2136, -0.0295,  ..., -0.0176,  0.0695, -0.0182],
+        [ 0.1769, -0.1017,  0.0365,  ..., -0.0812, -0.0057, -0.0735],
+        [-0.0751, -0.2435, -0.0245,  ..., -0.0560,  0.0379, -0.2313],
+        ...,
+        [-0.1832, -0.2629,  0.0547,  ..., -0.0997, -0.0717, -0.1661],
+        [-0.1108,  0.0074,  0.0344,  ...,  0.0066, -0.1000,  0.0710],
+        [-0.0870, -0.0599,  0.1013,  ...,  0.1987, -0.0777, -0.1805]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -3.8184e-08, -1.6764e-08,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09],
+        [ 4.6566e-09,  4.6566e-09,  7.4506e-09,  ...,  9.3132e-10,
+          0.0000e+00,  5.5879e-09],
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  6.5193e-09],
+        ...,
+        [ 3.7253e-09,  1.8626e-09,  3.7253e-09,  ...,  9.3132e-10,
+          0.0000e+00,  5.5879e-09],
+        [ 2.9802e-08,  1.8626e-09,  5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  4.0047e-08],
+        [ 9.3132e-10,  1.0245e-08, -1.4994e-07,  ..., -2.0489e-08,
+          0.0000e+00,  6.5193e-09]], device='cuda:0')
+Epoch 289, bias, value: tensor([ 0.0337,  0.0055,  0.0216,  0.0189,  0.0378,  0.0081, -0.0027, -0.0010,
+        -0.0027, -0.0413], device='cuda:0'), grad: tensor([-1.8626e-08,  1.4529e-07, -6.0443e-07, -3.2820e-06,  5.7090e-07,
+         3.0212e-06,  5.0291e-08,  3.7625e-07,  2.2911e-07, -4.7963e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 288, time 217.77, cls_loss 0.0010 cls_loss_mapping 0.0020 cls_loss_causal 0.5185 re_mapping 0.0051 re_causal 0.0150 /// teacc 99.07 lr 0.00010000
+Epoch 290, weight, value: tensor([[-0.1484,  0.2138, -0.0294,  ..., -0.0176,  0.0718, -0.0185],
+        [ 0.1769, -0.1020,  0.0362,  ..., -0.0814, -0.0057, -0.0740],
+        [-0.0751, -0.2439, -0.0247,  ..., -0.0580,  0.0378, -0.2322],
+        ...,
+        [-0.1832, -0.2638,  0.0550,  ..., -0.0997, -0.0728, -0.1663],
+        [-0.1112,  0.0075,  0.0346,  ...,  0.0065, -0.0999,  0.0711],
+        [-0.0873, -0.0601,  0.1012,  ...,  0.1990, -0.0753, -0.1811]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-3.4459e-08,  0.0000e+00,  5.8208e-07,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-09],
+        [ 1.8626e-09,  0.0000e+00,  9.7789e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.6764e-08],
+        ...,
+        [ 4.6566e-09,  0.0000e+00, -4.7833e-06,  ...,  0.0000e+00,
+          0.0000e+00,  6.5193e-09],
+        [ 1.4901e-08,  0.0000e+00,  8.2888e-08,  ...,  0.0000e+00,
+          0.0000e+00, -6.6124e-08],
+        [ 9.3132e-09,  0.0000e+00,  6.5938e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 290, bias, value: tensor([ 0.0333,  0.0052,  0.0216,  0.0193,  0.0381,  0.0078, -0.0026, -0.0008,
+        -0.0026, -0.0416], device='cuda:0'), grad: tensor([ 2.0489e-08,  1.3290e-06,  2.1607e-07,  1.0356e-05,  5.2154e-08,
+         1.8626e-08,  4.1910e-08, -1.4029e-05,  1.2852e-07,  1.9046e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 289, time 217.59, cls_loss 0.0013 cls_loss_mapping 0.0018 cls_loss_causal 0.4812 re_mapping 0.0052 re_causal 0.0146 /// teacc 98.96 lr 0.00010000
+Epoch 291, weight, value: tensor([[-0.1486,  0.2142, -0.0294,  ..., -0.0177,  0.0719, -0.0189],
+        [ 0.1769, -0.1023,  0.0359,  ..., -0.0814, -0.0058, -0.0742],
+        [-0.0749, -0.2440, -0.0245,  ..., -0.0581,  0.0380, -0.2326],
+        ...,
+        [-0.1832, -0.2649,  0.0559,  ..., -0.0998, -0.0730, -0.1664],
+        [-0.1131,  0.0065,  0.0345,  ...,  0.0065, -0.1013,  0.0706],
+        [-0.0876, -0.0603,  0.1004,  ...,  0.1991, -0.0751, -0.1814]],
+       device='cuda:0'), grad: tensor([[ 2.8871e-08, -1.1176e-08,  5.8673e-08,  ...,  0.0000e+00,
+          1.2107e-08,  0.0000e+00],
+        [-4.5728e-07, -1.4156e-07,  6.4261e-08,  ...,  0.0000e+00,
+         -1.9930e-07,  1.3039e-08],
+        [ 3.1665e-08,  9.3132e-10,  6.7055e-08,  ...,  0.0000e+00,
+          9.3132e-10,  5.1223e-08],
+        ...,
+        [ 2.7940e-09,  1.1176e-08, -1.7378e-06,  ...,  0.0000e+00,
+          9.3132e-10,  1.3597e-07],
+        [ 1.4808e-07,  2.7008e-08,  1.3225e-07,  ...,  0.0000e+00,
+          6.2399e-08, -2.2352e-08],
+        [ 2.8871e-08,  3.0734e-08,  8.3260e-07,  ...,  0.0000e+00,
+          9.3132e-10,  2.4214e-08]], device='cuda:0')
+Epoch 291, bias, value: tensor([ 0.0334,  0.0049,  0.0221,  0.0191,  0.0410,  0.0082, -0.0027, -0.0017,
+        -0.0031, -0.0418], device='cuda:0'), grad: tensor([ 2.3562e-07,  2.7567e-07,  3.8091e-07, -8.3912e-07, -3.4511e-05,
+         5.1968e-07,  7.9442e-07,  2.9683e-05,  4.4238e-07,  3.0287e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 290, time 217.93, cls_loss 0.0009 cls_loss_mapping 0.0017 cls_loss_causal 0.5123 re_mapping 0.0050 re_causal 0.0154 /// teacc 98.96 lr 0.00010000
+Epoch 292, weight, value: tensor([[-0.1489,  0.2140, -0.0295,  ..., -0.0177,  0.0708, -0.0213],
+        [ 0.1769, -0.1022,  0.0355,  ..., -0.0815, -0.0059, -0.0743],
+        [-0.0749, -0.2442, -0.0244,  ..., -0.0582,  0.0387, -0.2331],
+        ...,
+        [-0.1832, -0.2639,  0.0564,  ..., -0.0998, -0.0724, -0.1666],
+        [-0.1134,  0.0066,  0.0343,  ...,  0.0065, -0.1015,  0.0708],
+        [-0.0878, -0.0604,  0.1001,  ...,  0.1992, -0.0756, -0.1815]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  7.4506e-08,  1.6298e-07,  ...,  0.0000e+00,
+          0.0000e+00,  9.9652e-08],
+        [-8.7544e-08,  3.2596e-08,  4.1910e-08,  ...,  0.0000e+00,
+         -2.7940e-09,  1.0617e-07],
+        [ 4.6566e-09,  2.7940e-08,  2.9150e-07,  ...,  0.0000e+00,
+          9.3132e-10,  6.4261e-08],
+        ...,
+        [ 2.3283e-08,  2.3656e-07,  1.2293e-07,  ...,  0.0000e+00,
+          9.3132e-10,  3.1479e-07],
+        [ 4.9360e-08, -5.3365e-07, -1.1660e-06,  ...,  0.0000e+00,
+          9.3132e-10, -6.5379e-07],
+        [ 3.9116e-08,  1.5274e-07,  3.4459e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.6857e-07]], device='cuda:0')
+Epoch 292, bias, value: tensor([ 0.0330,  0.0046,  0.0222,  0.0202,  0.0410,  0.0075, -0.0028, -0.0013,
+        -0.0034, -0.0421], device='cuda:0'), grad: tensor([ 6.0722e-07,  3.4273e-07,  4.7404e-07, -1.2003e-05,  3.0734e-08,
+         1.2003e-05,  7.0781e-08,  9.7603e-07, -3.4794e-06,  9.8720e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 291, time 218.87, cls_loss 0.0017 cls_loss_mapping 0.0020 cls_loss_causal 0.5146 re_mapping 0.0048 re_causal 0.0138 /// teacc 98.99 lr 0.00010000
+Epoch 293, weight, value: tensor([[-0.1496,  0.2148, -0.0294,  ..., -0.0177,  0.0706, -0.0222],
+        [ 0.1771, -0.1020,  0.0355,  ..., -0.0816, -0.0045, -0.0744],
+        [-0.0750, -0.2448, -0.0243,  ..., -0.0583,  0.0386, -0.2344],
+        ...,
+        [-0.1832, -0.2648,  0.0562,  ..., -0.0998, -0.0725, -0.1672],
+        [-0.1156,  0.0056,  0.0353,  ...,  0.0066, -0.1030,  0.0702],
+        [-0.0882, -0.0610,  0.1006,  ...,  0.1992, -0.0757, -0.1836]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -3.8818e-06, -9.2201e-08,  ...,  0.0000e+00,
+          0.0000e+00, -1.2927e-06],
+        [-1.8626e-09,  1.0431e-07,  7.1712e-08,  ...,  9.3132e-10,
+          1.8626e-09,  3.5390e-08],
+        [ 0.0000e+00,  5.0291e-08,  3.9116e-08,  ...,  0.0000e+00,
+         -1.6764e-08,  1.0245e-08],
+        ...,
+        [ 0.0000e+00,  1.9558e-08, -1.9185e-07,  ...,  9.3132e-10,
+          1.4901e-08,  3.7253e-09],
+        [ 0.0000e+00,  1.8813e-07,  5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  6.2399e-08],
+        [ 0.0000e+00,  2.7101e-07, -5.5879e-08,  ..., -3.9116e-08,
+          0.0000e+00,  2.9802e-08]], device='cuda:0')
+Epoch 293, bias, value: tensor([ 0.0331,  0.0046,  0.0224,  0.0205,  0.0405,  0.0077, -0.0024, -0.0014,
+        -0.0039, -0.0417], device='cuda:0'), grad: tensor([-7.4096e-06,  3.7160e-07, -2.6077e-08,  3.1479e-07,  4.3772e-08,
+         5.6904e-07,  5.3234e-06, -1.7509e-07,  3.6880e-07,  6.1374e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 292, time 218.12, cls_loss 0.0016 cls_loss_mapping 0.0025 cls_loss_causal 0.4860 re_mapping 0.0051 re_causal 0.0141 /// teacc 99.04 lr 0.00010000
+Epoch 294, weight, value: tensor([[-0.1499,  0.2153, -0.0296,  ..., -0.0177,  0.0707, -0.0226],
+        [ 0.1777, -0.1022,  0.0358,  ..., -0.0818, -0.0045, -0.0747],
+        [-0.0751, -0.2452, -0.0249,  ..., -0.0582,  0.0386, -0.2360],
+        ...,
+        [-0.1838, -0.2658,  0.0557,  ..., -0.1000, -0.0725, -0.1678],
+        [-0.1166,  0.0051,  0.0354,  ...,  0.0065, -0.1040,  0.0692],
+        [-0.0884, -0.0612,  0.1015,  ...,  0.1996, -0.0758, -0.1839]],
+       device='cuda:0'), grad: tensor([[ 2.6450e-07,  4.9733e-07,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.9116e-07],
+        [ 5.9139e-08,  1.2014e-07,  4.1910e-09,  ...,  0.0000e+00,
+          0.0000e+00,  9.1735e-08],
+        [ 1.5078e-06,  2.9951e-06,  2.0955e-08,  ...,  0.0000e+00,
+          0.0000e+00,  2.2464e-06],
+        ...,
+        [ 2.9104e-07,  5.7556e-07, -1.5367e-08,  ...,  0.0000e+00,
+          0.0000e+00,  4.3353e-07],
+        [ 2.9914e-06,  5.9307e-06,  3.7719e-08,  ...,  0.0000e+00,
+          0.0000e+00,  4.4554e-06],
+        [ 6.9384e-08,  1.3830e-07, -1.2107e-08,  ..., -4.6566e-10,
+          0.0000e+00,  1.0291e-07]], device='cuda:0')
+Epoch 294, bias, value: tensor([ 0.0330,  0.0049,  0.0224,  0.0210,  0.0410,  0.0077, -0.0024, -0.0021,
+        -0.0046, -0.0412], device='cuda:0'), grad: tensor([ 1.0189e-06,  2.3516e-07,  5.1819e-06,  2.5928e-05, -5.2154e-08,
+        -4.6074e-05,  1.5171e-06,  1.0058e-06,  1.0803e-05,  4.5169e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 293, time 218.03, cls_loss 0.0015 cls_loss_mapping 0.0020 cls_loss_causal 0.4814 re_mapping 0.0049 re_causal 0.0141 /// teacc 99.06 lr 0.00010000
+Epoch 295, weight, value: tensor([[-0.1501,  0.2159, -0.0301,  ..., -0.0177,  0.0713, -0.0229],
+        [ 0.1779, -0.1023,  0.0359,  ..., -0.0822, -0.0043, -0.0749],
+        [-0.0752, -0.2456, -0.0253,  ..., -0.0582,  0.0384, -0.2356],
+        ...,
+        [-0.1840, -0.2664,  0.0537,  ..., -0.1000, -0.0727, -0.1682],
+        [-0.1168,  0.0050,  0.0355,  ...,  0.0065, -0.1041,  0.0694],
+        [-0.0888, -0.0615,  0.1042,  ...,  0.1998, -0.0758, -0.1841]],
+       device='cuda:0'), grad: tensor([[ 4.1910e-09, -3.0966e-07, -8.3353e-08,  ...,  0.0000e+00,
+          0.0000e+00, -9.4995e-08],
+        [-5.7276e-08,  2.7940e-08,  5.8534e-07,  ...,  0.0000e+00,
+         -9.3132e-10,  1.8626e-08],
+        [ 7.9162e-09,  3.4925e-08,  3.4319e-07,  ...,  1.8626e-09,
+          0.0000e+00,  2.5146e-08],
+        ...,
+        [ 6.9849e-09,  7.4506e-08, -1.5153e-06,  ...,  0.0000e+00,
+          0.0000e+00,  1.0291e-07],
+        [ 1.2107e-08, -1.3411e-07, -2.8731e-07,  ..., -2.3283e-09,
+          4.6566e-10, -1.9744e-07],
+        [ 6.9849e-09,  6.9384e-08,  7.7393e-07,  ...,  0.0000e+00,
+          0.0000e+00,  4.9826e-08]], device='cuda:0')
+Epoch 295, bias, value: tensor([ 0.0328,  0.0050,  0.0229,  0.0207,  0.0412,  0.0079, -0.0026, -0.0041,
+        -0.0051, -0.0386], device='cuda:0'), grad: tensor([-3.3714e-07,  1.1586e-06,  6.5332e-07,  1.6857e-07, -2.9489e-05,
+         3.7486e-07, -1.5069e-06, -1.4836e-06, -7.8091e-07,  3.1203e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 294, time 218.30, cls_loss 0.0012 cls_loss_mapping 0.0019 cls_loss_causal 0.4836 re_mapping 0.0047 re_causal 0.0139 /// teacc 98.91 lr 0.00010000
+Epoch 296, weight, value: tensor([[-0.1504,  0.2164, -0.0302,  ..., -0.0177,  0.0673, -0.0231],
+        [ 0.1786, -0.1024,  0.0363,  ..., -0.0824, -0.0054, -0.0751],
+        [-0.0750, -0.2459, -0.0250,  ..., -0.0584,  0.0403, -0.2361],
+        ...,
+        [-0.1848, -0.2673,  0.0535,  ..., -0.1001, -0.0731, -0.1683],
+        [-0.1173,  0.0048,  0.0354,  ...,  0.0066, -0.1042,  0.0693],
+        [-0.0894, -0.0617,  0.1041,  ...,  0.1999, -0.0721, -0.1844]],
+       device='cuda:0'), grad: tensor([[ 2.1933e-07,  1.6298e-08,  5.1223e-09,  ...,  0.0000e+00,
+          0.0000e+00,  6.7055e-08],
+        [ 9.4064e-08,  4.4703e-08,  1.9092e-08,  ...,  0.0000e+00,
+          0.0000e+00,  8.6147e-08],
+        [ 3.2596e-09,  2.2817e-08,  2.4214e-08,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-08],
+        ...,
+        [ 3.2596e-09,  4.6566e-09,  5.4948e-08,  ...,  1.8626e-09,
+          0.0000e+00,  1.1642e-08],
+        [ 1.2871e-06,  2.8964e-07, -1.4808e-07,  ...,  0.0000e+00,
+          0.0000e+00,  4.7591e-07],
+        [ 1.1642e-08,  1.2573e-08, -2.2398e-07,  ..., -4.6566e-09,
+          0.0000e+00,  1.9092e-08]], device='cuda:0')
+Epoch 296, bias, value: tensor([ 0.0327,  0.0054,  0.0236,  0.0208,  0.0412,  0.0077, -0.0028, -0.0043,
+        -0.0055, -0.0388], device='cuda:0'), grad: tensor([ 1.5125e-06,  5.0105e-07,  1.7369e-07,  2.6496e-07,  3.4273e-07,
+         1.0423e-05, -1.6600e-05,  1.2899e-07,  3.6303e-06, -3.9674e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 295, time 217.98, cls_loss 0.0014 cls_loss_mapping 0.0015 cls_loss_causal 0.5120 re_mapping 0.0050 re_causal 0.0149 /// teacc 98.99 lr 0.00010000
+Epoch 297, weight, value: tensor([[-0.1506,  0.2172, -0.0305,  ..., -0.0177,  0.0683, -0.0234],
+        [ 0.1789, -0.1026,  0.0361,  ..., -0.0823, -0.0044, -0.0754],
+        [-0.0757, -0.2471, -0.0254,  ..., -0.0587,  0.0389, -0.2396],
+        ...,
+        [-0.1848, -0.2688,  0.0538,  ..., -0.1001, -0.0733, -0.1688],
+        [-0.1178,  0.0044,  0.0359,  ...,  0.0067, -0.1044,  0.0692],
+        [-0.0899, -0.0619,  0.1041,  ...,  0.1999, -0.0722, -0.1847]],
+       device='cuda:0'), grad: tensor([[ 1.6298e-08,  1.3970e-08,  2.7008e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.3970e-08],
+        [-1.6438e-07,  9.3132e-10, -2.6589e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.3504e-08],
+        [ 6.0536e-09,  4.6566e-10,  3.3993e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.0245e-08],
+        ...,
+        [ 2.1886e-08,  1.3504e-08, -1.0114e-06,  ...,  0.0000e+00,
+          0.0000e+00,  3.3062e-08],
+        [ 2.1141e-07,  7.4506e-09,  3.9628e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.4948e-07],
+        [ 6.0536e-09, -1.8626e-08, -4.8280e-06,  ..., -2.2352e-08,
+          0.0000e+00,  1.3039e-08]], device='cuda:0')
+Epoch 297, bias, value: tensor([ 0.0327,  0.0053,  0.0228,  0.0213,  0.0412,  0.0074, -0.0028, -0.0041,
+        -0.0054, -0.0388], device='cuda:0'), grad: tensor([ 3.5996e-07, -3.5577e-07, -1.0528e-05, -2.5660e-05,  2.8744e-05,
+         2.5898e-05,  3.2736e-07, -1.1725e-06,  8.8960e-06, -2.6464e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 296, time 218.16, cls_loss 0.0014 cls_loss_mapping 0.0019 cls_loss_causal 0.5161 re_mapping 0.0049 re_causal 0.0144 /// teacc 99.01 lr 0.00010000
+Epoch 298, weight, value: tensor([[-0.1514,  0.2168, -0.0321,  ..., -0.0177,  0.0698, -0.0250],
+        [ 0.1793, -0.1024,  0.0362,  ..., -0.0824, -0.0032, -0.0752],
+        [-0.0761, -0.2474, -0.0249,  ..., -0.0588,  0.0387, -0.2411],
+        ...,
+        [-0.1849, -0.2711,  0.0548,  ..., -0.1002, -0.0734, -0.1690],
+        [-0.1180,  0.0050,  0.0359,  ...,  0.0067, -0.1049,  0.0699],
+        [-0.0920, -0.0607,  0.1028,  ...,  0.2000, -0.0723, -0.1850]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09, -3.9116e-08, -3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  8.3819e-09],
+        [ 2.7940e-09,  7.6368e-08,  3.0827e-07,  ...,  0.0000e+00,
+          0.0000e+00,  2.9057e-07],
+        [ 0.0000e+00, -1.5832e-08, -1.9465e-07,  ...,  0.0000e+00,
+          0.0000e+00,  2.0117e-07],
+        ...,
+        [ 1.8626e-09,  8.3819e-09, -6.6683e-07,  ...,  0.0000e+00,
+          0.0000e+00,  8.2888e-08],
+        [ 1.2107e-08, -2.9523e-07, -3.0641e-07,  ...,  0.0000e+00,
+          0.0000e+00, -1.7295e-06],
+        [ 3.7253e-09,  2.0489e-08,  6.6217e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.3039e-08]], device='cuda:0')
+Epoch 298, bias, value: tensor([ 0.0316,  0.0056,  0.0230,  0.0212,  0.0414,  0.0065, -0.0025, -0.0035,
+        -0.0055, -0.0397], device='cuda:0'), grad: tensor([-1.6764e-08,  1.4370e-06, -6.2305e-07,  2.9877e-06,  2.6077e-08,
+         4.9733e-07,  3.6042e-07, -1.0543e-06, -4.9546e-06,  1.3318e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 297, time 218.33, cls_loss 0.0014 cls_loss_mapping 0.0019 cls_loss_causal 0.4801 re_mapping 0.0047 re_causal 0.0137 /// teacc 98.95 lr 0.00010000
+Epoch 299, weight, value: tensor([[-0.1520,  0.2178, -0.0318,  ..., -0.0172,  0.0698, -0.0258],
+        [ 0.1798, -0.1005,  0.0352,  ..., -0.0824, -0.0006, -0.0768],
+        [-0.0763, -0.2489, -0.0251,  ..., -0.0588,  0.0389, -0.2441],
+        ...,
+        [-0.1848, -0.2722,  0.0563,  ..., -0.1002, -0.0736, -0.1692],
+        [-0.1199,  0.0043,  0.0351,  ...,  0.0067, -0.1078,  0.0711],
+        [-0.0934, -0.0619,  0.1019,  ...,  0.1998, -0.0725, -0.1857]],
+       device='cuda:0'), grad: tensor([[ 5.4017e-08, -9.7789e-08, -2.3283e-08,  ...,  0.0000e+00,
+          0.0000e+00,  4.2841e-08],
+        [-1.1176e-07,  8.3819e-09, -1.2387e-07,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [ 1.6764e-08,  3.1665e-08,  4.7497e-08,  ...,  0.0000e+00,
+          0.0000e+00,  2.9802e-08],
+        ...,
+        [ 1.5832e-08,  1.0245e-08,  1.1176e-08,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-09],
+        [ 3.4180e-07, -8.5682e-08, -3.8184e-08,  ...,  0.0000e+00,
+          0.0000e+00, -9.0338e-08],
+        [ 1.2107e-08,  1.0617e-07,  8.4750e-08,  ...,  0.0000e+00,
+          0.0000e+00,  2.5146e-08]], device='cuda:0')
+Epoch 299, bias, value: tensor([ 0.0319,  0.0051,  0.0235,  0.0205,  0.0414,  0.0064, -0.0026, -0.0024,
+        -0.0064, -0.0405], device='cuda:0'), grad: tensor([ 1.0002e-06,  7.4506e-08,  7.7300e-08,  2.2538e-07,  1.7770e-06,
+         8.2981e-07, -6.5044e-06,  6.5193e-08,  2.0899e-06,  3.7625e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 298, time 217.93, cls_loss 0.0011 cls_loss_mapping 0.0018 cls_loss_causal 0.4886 re_mapping 0.0050 re_causal 0.0144 /// teacc 99.00 lr 0.00010000
+Epoch 300, weight, value: tensor([[-0.1522,  0.2182, -0.0317,  ..., -0.0172,  0.0697, -0.0263],
+        [ 0.1800, -0.1006,  0.0349,  ..., -0.0824, -0.0005, -0.0767],
+        [-0.0764, -0.2491, -0.0252,  ..., -0.0589,  0.0389, -0.2448],
+        ...,
+        [-0.1850, -0.2727,  0.0566,  ..., -0.1002, -0.0734, -0.1696],
+        [-0.1220,  0.0026,  0.0351,  ...,  0.0067, -0.1090,  0.0699],
+        [-0.0935, -0.0623,  0.1019,  ...,  0.1998, -0.0725, -0.1862]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09,  3.0734e-08,  1.1176e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.9558e-08],
+        [ 1.4901e-08,  6.9849e-08,  1.1735e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.2759e-07],
+        [ 3.0734e-08,  9.3132e-08,  2.7195e-07,  ...,  0.0000e+00,
+          0.0000e+00,  2.0862e-07],
+        ...,
+        [ 2.3283e-08, -4.6566e-07, -5.4389e-07,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-08],
+        [ 1.2666e-07, -4.0513e-07, -6.2771e-07,  ...,  0.0000e+00,
+          0.0000e+00, -1.6205e-07],
+        [ 1.3970e-08,  2.5239e-07,  3.3714e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.0151e-07]], device='cuda:0')
+Epoch 300, bias, value: tensor([ 0.0318,  0.0049,  0.0236,  0.0206,  0.0422,  0.0070, -0.0041, -0.0023,
+        -0.0071, -0.0405], device='cuda:0'), grad: tensor([ 3.3993e-07,  4.4703e-07,  4.2282e-07, -5.9325e-07,  7.6368e-08,
+         2.0824e-06,  1.6764e-08, -2.9374e-06, -1.1763e-06,  1.3113e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 299, time 217.82, cls_loss 0.0010 cls_loss_mapping 0.0012 cls_loss_causal 0.4783 re_mapping 0.0047 re_causal 0.0141 /// teacc 99.01 lr 0.00010000
+Epoch 301, weight, value: tensor([[-0.1534,  0.2193, -0.0315,  ..., -0.0172,  0.0698, -0.0270],
+        [ 0.1800, -0.1007,  0.0350,  ..., -0.0824, -0.0005, -0.0770],
+        [-0.0765, -0.2495, -0.0258,  ..., -0.0589,  0.0389, -0.2455],
+        ...,
+        [-0.1850, -0.2730,  0.0566,  ..., -0.1002, -0.0735, -0.1696],
+        [-0.1222,  0.0026,  0.0352,  ...,  0.0067, -0.1090,  0.0701],
+        [-0.0938, -0.0625,  0.1020,  ...,  0.1999, -0.0725, -0.1873]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09, -4.8988e-07, -6.0536e-08,  ...,  0.0000e+00,
+         -2.7940e-09,  1.8626e-09],
+        [ 2.8871e-08,  4.2841e-08,  4.3772e-08,  ...,  0.0000e+00,
+          0.0000e+00,  4.0047e-08],
+        [ 2.7940e-09,  7.4506e-09,  2.7940e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        ...,
+        [ 1.0245e-08,  1.3970e-08, -1.1269e-07,  ...,  0.0000e+00,
+          9.3132e-10,  2.7940e-09],
+        [ 1.5553e-07,  8.4750e-08,  1.2107e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.6391e-07],
+        [ 9.3132e-09,  3.7253e-08,  3.7253e-08,  ..., -9.3132e-10,
+          9.3132e-10,  9.3132e-09]], device='cuda:0')
+Epoch 301, bias, value: tensor([ 0.0324,  0.0045,  0.0244,  0.0208,  0.0420,  0.0071, -0.0047, -0.0021,
+        -0.0072, -0.0405], device='cuda:0'), grad: tensor([-6.6590e-07,  4.1816e-07,  7.1712e-08,  5.9977e-07, -4.5717e-05,
+        -1.1604e-06,  8.3633e-07,  9.6764e-07,  3.0734e-07,  4.4286e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 300, time 218.07, cls_loss 0.0011 cls_loss_mapping 0.0018 cls_loss_causal 0.5014 re_mapping 0.0049 re_causal 0.0142 /// teacc 98.92 lr 0.00010000
+Epoch 302, weight, value: tensor([[-1.5312e-01,  2.2116e-01, -3.1302e-02,  ..., -1.7201e-02,
+          7.0244e-02, -2.6542e-02],
+        [ 1.8019e-01, -1.0155e-01,  3.4457e-02,  ..., -8.2482e-02,
+          2.5871e-04, -7.6983e-02],
+        [-7.6876e-02, -2.4987e-01, -2.6234e-02,  ..., -5.8984e-02,
+          3.8308e-02, -2.4620e-01],
+        ...,
+        [-1.8496e-01, -2.7386e-01,  5.6951e-02,  ..., -1.0024e-01,
+         -7.3370e-02, -1.6973e-01],
+        [-1.2226e-01,  2.6398e-03,  3.5397e-02,  ...,  6.7204e-03,
+         -1.0908e-01,  7.0171e-02],
+        [-9.4310e-02, -6.2986e-02,  1.0199e-01,  ...,  1.9992e-01,
+         -7.2810e-02, -1.8821e-01]], device='cuda:0'), grad: tensor([[ 2.7940e-09, -8.3819e-09,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [-2.3283e-08,  0.0000e+00, -1.9558e-08,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-09],
+        [ 9.3132e-10,  3.7253e-09,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.7695e-08],
+        ...,
+        [ 1.4901e-08,  0.0000e+00,  1.3039e-08,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-09],
+        [ 4.6566e-09, -8.3819e-09, -3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00, -9.3132e-09],
+        [ 2.7940e-09,  9.3132e-10,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.1420e-08]], device='cuda:0')
+Epoch 302, bias, value: tensor([ 0.0333,  0.0040,  0.0241,  0.0214,  0.0423,  0.0066, -0.0054, -0.0017,
+        -0.0071, -0.0406], device='cuda:0'), grad: tensor([ 6.7987e-08,  1.8440e-07, -3.8277e-07, -2.9989e-07,  7.6368e-08,
+         1.8161e-07, -2.3283e-08,  1.3690e-07,  8.3819e-09,  7.1712e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 301, time 218.02, cls_loss 0.0013 cls_loss_mapping 0.0023 cls_loss_causal 0.5223 re_mapping 0.0050 re_causal 0.0146 /// teacc 98.97 lr 0.00010000
+Epoch 303, weight, value: tensor([[-0.1533,  0.2194, -0.0344,  ..., -0.0173,  0.0698, -0.0267],
+        [ 0.1810, -0.1007,  0.0349,  ..., -0.0825,  0.0020, -0.0764],
+        [-0.0774, -0.2495, -0.0267,  ..., -0.0590,  0.0375, -0.2463],
+        ...,
+        [-0.1854, -0.2751,  0.0569,  ..., -0.1003, -0.0735, -0.1699],
+        [-0.1228,  0.0024,  0.0350,  ...,  0.0067, -0.1096,  0.0705],
+        [-0.0947, -0.0604,  0.1033,  ...,  0.2002, -0.0722, -0.1885]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09, -1.7695e-08, -2.7940e-09,  ...,  0.0000e+00,
+         -9.3132e-10,  7.4506e-09],
+        [-2.6636e-07,  5.5879e-09, -3.0361e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.7695e-08],
+        [-3.7253e-09,  9.3132e-10,  1.1642e-07,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-08],
+        ...,
+        [ 1.0245e-08,  3.7253e-09, -3.0920e-07,  ...,  0.0000e+00,
+          0.0000e+00,  7.4506e-09],
+        [ 2.5239e-07,  4.3865e-07,  6.2399e-08,  ...,  0.0000e+00,
+          0.0000e+00,  4.5449e-07],
+        [ 2.3283e-07,  8.3819e-09,  3.8277e-07,  ...,  0.0000e+00,
+          0.0000e+00,  6.5193e-09]], device='cuda:0')
+Epoch 303, bias, value: tensor([ 0.0302,  0.0045,  0.0239,  0.0212,  0.0419,  0.0063, -0.0052, -0.0018,
+        -0.0077, -0.0390], device='cuda:0'), grad: tensor([ 1.6764e-08, -1.7509e-07, -1.5087e-07, -2.3749e-07, -2.4214e-08,
+        -5.1875e-07,  1.6764e-07, -4.1164e-07,  7.4599e-07,  5.9046e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 302, time 218.04, cls_loss 0.0013 cls_loss_mapping 0.0019 cls_loss_causal 0.4972 re_mapping 0.0049 re_causal 0.0143 /// teacc 99.01 lr 0.00010000
+Epoch 304, weight, value: tensor([[-0.1548,  0.2195, -0.0344,  ..., -0.0173,  0.0697, -0.0298],
+        [ 0.1813, -0.1008,  0.0349,  ..., -0.0826,  0.0023, -0.0773],
+        [-0.0777, -0.2518, -0.0271,  ..., -0.0591,  0.0368, -0.2486],
+        ...,
+        [-0.1856, -0.2769,  0.0570,  ..., -0.1005, -0.0727, -0.1703],
+        [-0.1237,  0.0012,  0.0351,  ...,  0.0066, -0.1096,  0.0696],
+        [-0.0952, -0.0606,  0.1033,  ...,  0.2004, -0.0725, -0.1891]],
+       device='cuda:0'), grad: tensor([[ 1.4901e-07,  9.5926e-07,  2.7940e-09,  ...,  0.0000e+00,
+          2.7940e-09,  9.7789e-08],
+        [-1.4808e-07,  1.5832e-08, -7.7300e-08,  ...,  0.0000e+00,
+         -1.8626e-09,  7.1712e-08],
+        [ 1.4901e-08,  1.3970e-08, -2.4214e-08,  ...,  0.0000e+00,
+         -2.9802e-08,  1.4901e-08],
+        ...,
+        [ 4.0978e-08,  4.9360e-08, -6.3330e-08,  ...,  0.0000e+00,
+          7.4506e-09,  5.3085e-08],
+        [ 9.1642e-07,  1.1027e-06,  9.2201e-08,  ...,  0.0000e+00,
+          1.5832e-08,  9.4622e-07],
+        [ 1.8999e-07,  2.3935e-07,  6.3330e-08,  ...,  0.0000e+00,
+          3.7253e-09,  2.4214e-07]], device='cuda:0')
+Epoch 304, bias, value: tensor([ 0.0301,  0.0045,  0.0238,  0.0211,  0.0416,  0.0077, -0.0055, -0.0016,
+        -0.0085, -0.0391], device='cuda:0'), grad: tensor([ 4.0680e-06, -5.1223e-08, -1.9278e-07,  8.1807e-06, -7.9162e-07,
+        -9.0525e-06, -6.6683e-06,  6.7987e-08,  3.0100e-06,  1.4398e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 303, time 218.14, cls_loss 0.0016 cls_loss_mapping 0.0026 cls_loss_causal 0.5033 re_mapping 0.0049 re_causal 0.0138 /// teacc 99.02 lr 0.00010000
+Epoch 305, weight, value: tensor([[-0.1554,  0.2198, -0.0344,  ..., -0.0176,  0.0702, -0.0307],
+        [ 0.1808, -0.1005,  0.0338,  ..., -0.0827,  0.0028, -0.0775],
+        [-0.0778, -0.2531, -0.0272,  ..., -0.0592,  0.0363, -0.2507],
+        ...,
+        [-0.1850, -0.2784,  0.0578,  ..., -0.1006, -0.0732, -0.1706],
+        [-0.1243,  0.0016,  0.0356,  ...,  0.0065, -0.1099,  0.0700],
+        [-0.0965, -0.0610,  0.1039,  ...,  0.2010, -0.0730, -0.1903]],
+       device='cuda:0'), grad: tensor([[ 1.7695e-08, -5.2527e-07, -2.7101e-07,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-09],
+        [-2.8405e-07,  3.0734e-08, -1.9092e-07,  ...,  0.0000e+00,
+          9.3132e-09,  2.4214e-08],
+        [-5.3085e-08,  1.4901e-08,  7.4506e-08,  ...,  0.0000e+00,
+         -2.0489e-08,  1.4901e-08],
+        ...,
+        [ 9.5926e-08,  3.1665e-08,  1.2666e-07,  ...,  0.0000e+00,
+          4.6566e-09,  4.2841e-08],
+        [ 5.5879e-09, -1.6298e-07, -5.6438e-07,  ...,  0.0000e+00,
+          0.0000e+00, -3.9395e-07],
+        [ 6.4261e-08,  3.3155e-07,  3.1013e-07,  ...,  0.0000e+00,
+          1.8626e-09,  8.4750e-08]], device='cuda:0')
+Epoch 305, bias, value: tensor([ 0.0300,  0.0034,  0.0237,  0.0209,  0.0391,  0.0080, -0.0051, -0.0009,
+        -0.0084, -0.0379], device='cuda:0'), grad: tensor([-9.6392e-07,  2.8238e-06,  2.0210e-07,  9.7975e-07, -4.5672e-06,
+         7.8045e-07,  3.6135e-07,  8.1956e-07, -2.8946e-06,  2.4512e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 304, time 217.86, cls_loss 0.0011 cls_loss_mapping 0.0020 cls_loss_causal 0.4755 re_mapping 0.0047 re_causal 0.0137 /// teacc 99.01 lr 0.00010000
+Epoch 306, weight, value: tensor([[-0.1556,  0.2207, -0.0343,  ..., -0.0176,  0.0703, -0.0306],
+        [ 0.1815, -0.1003,  0.0338,  ..., -0.0827,  0.0043, -0.0776],
+        [-0.0795, -0.2534, -0.0289,  ..., -0.0592,  0.0359, -0.2515],
+        ...,
+        [-0.1850, -0.2805,  0.0580,  ..., -0.1006, -0.0738, -0.1710],
+        [-0.1249,  0.0017,  0.0355,  ...,  0.0065, -0.1102,  0.0704],
+        [-0.0970, -0.0615,  0.1039,  ...,  0.2011, -0.0732, -0.1907]],
+       device='cuda:0'), grad: tensor([[ 4.5635e-08,  3.0734e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  2.7008e-08],
+        [-1.7220e-06,  3.1665e-08, -1.5367e-06,  ...,  0.0000e+00,
+          0.0000e+00,  3.1665e-08],
+        [ 5.5879e-09,  1.8626e-09,  2.1420e-08,  ...,  0.0000e+00,
+          0.0000e+00,  3.1665e-08],
+        ...,
+        [ 8.5402e-07,  6.5193e-09,  6.8173e-07,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-08],
+        [ 1.5832e-07,  1.2387e-07,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  9.1270e-08],
+        [ 9.6206e-07,  7.3574e-08,  7.8976e-07,  ...,  0.0000e+00,
+          0.0000e+00,  7.0781e-08]], device='cuda:0')
+Epoch 306, bias, value: tensor([ 0.0301,  0.0038,  0.0222,  0.0215,  0.0389,  0.0074, -0.0051, -0.0008,
+        -0.0088, -0.0380], device='cuda:0'), grad: tensor([ 1.0803e-07, -3.7588e-06,  1.4063e-07, -5.5786e-07, -4.2189e-07,
+        -1.5780e-05,  1.5393e-05,  1.8422e-06,  3.4366e-07,  2.6859e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 305, time 217.91, cls_loss 0.0011 cls_loss_mapping 0.0018 cls_loss_causal 0.4462 re_mapping 0.0048 re_causal 0.0136 /// teacc 99.00 lr 0.00010000
+Epoch 307, weight, value: tensor([[-0.1557,  0.2212, -0.0343,  ..., -0.0176,  0.0704, -0.0306],
+        [ 0.1816, -0.1005,  0.0335,  ..., -0.0829,  0.0043, -0.0782],
+        [-0.0797, -0.2557, -0.0292,  ..., -0.0593,  0.0359, -0.2540],
+        ...,
+        [-0.1850, -0.2817,  0.0579,  ..., -0.1006, -0.0739, -0.1728],
+        [-0.1241,  0.0042,  0.0397,  ...,  0.0091, -0.1103,  0.0737],
+        [-0.0994, -0.0641,  0.1035,  ...,  0.1998, -0.0732, -0.1944]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.2107e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  8.3819e-09],
+        [ 0.0000e+00,  1.8626e-09,  9.3132e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-08],
+        [ 0.0000e+00,  9.3132e-10,  1.1176e-08,  ...,  0.0000e+00,
+          0.0000e+00,  2.5425e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  8.2888e-08,  ...,  0.0000e+00,
+          0.0000e+00,  5.2154e-07],
+        [ 0.0000e+00,  1.8626e-09,  6.6124e-08,  ...,  0.0000e+00,
+          0.0000e+00,  6.2399e-08],
+        [ 1.8626e-09,  1.0245e-08, -2.7940e-07,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-08]], device='cuda:0')
+Epoch 307, bias, value: tensor([ 0.0301,  0.0034,  0.0222,  0.0216,  0.0392,  0.0075, -0.0048, -0.0009,
+        -0.0043, -0.0387], device='cuda:0'), grad: tensor([ 6.4261e-08,  2.2724e-07,  2.7940e-09, -3.9861e-06, -2.7940e-08,
+         1.2293e-07,  2.4401e-07,  3.0287e-06,  4.4610e-07, -1.4342e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 306, time 217.91, cls_loss 0.0014 cls_loss_mapping 0.0019 cls_loss_causal 0.5214 re_mapping 0.0047 re_causal 0.0141 /// teacc 98.97 lr 0.00010000
+Epoch 308, weight, value: tensor([[-0.1560,  0.2186, -0.0343,  ..., -0.0176,  0.0704, -0.0310],
+        [ 0.1816, -0.1007,  0.0334,  ..., -0.0830,  0.0044, -0.0791],
+        [-0.0797, -0.2562, -0.0295,  ..., -0.0595,  0.0357, -0.2550],
+        ...,
+        [-0.1851, -0.2821,  0.0578,  ..., -0.1007, -0.0741, -0.1734],
+        [-0.1242,  0.0043,  0.0400,  ...,  0.0090, -0.1103,  0.0738],
+        [-0.0985, -0.0637,  0.1037,  ...,  0.1980, -0.0730, -0.1930]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -3.5390e-08, -3.5390e-08,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 4.7497e-08,  3.4459e-08,  8.3819e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.9116e-08],
+        [ 5.5879e-09, -2.1420e-08,  5.6811e-08,  ...,  0.0000e+00,
+          0.0000e+00,  4.5635e-08],
+        ...,
+        [ 1.8626e-09,  8.3819e-09, -6.5193e-09,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-09],
+        [ 3.9116e-08,  4.0978e-08, -1.0338e-07,  ...,  0.0000e+00,
+          0.0000e+00, -4.7497e-08],
+        [ 1.0990e-06,  6.0443e-07,  1.1176e-08,  ..., -9.3132e-10,
+          0.0000e+00,  8.0839e-07]], device='cuda:0')
+Epoch 308, bias, value: tensor([ 0.0274,  0.0032,  0.0221,  0.0211,  0.0403,  0.0069, -0.0016, -0.0010,
+        -0.0042, -0.0389], device='cuda:0'), grad: tensor([-5.6811e-08,  2.1327e-07, -2.6356e-07,  2.1160e-06,  2.6077e-08,
+        -3.7029e-06,  8.9407e-08,  9.2201e-08, -7.0781e-08,  1.5618e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 307, time 217.84, cls_loss 0.0011 cls_loss_mapping 0.0018 cls_loss_causal 0.4780 re_mapping 0.0047 re_causal 0.0138 /// teacc 98.98 lr 0.00010000
+Epoch 309, weight, value: tensor([[-0.1559,  0.2187, -0.0344,  ..., -0.0192,  0.0705, -0.0310],
+        [ 0.1819, -0.1008,  0.0335,  ..., -0.0832,  0.0044, -0.0798],
+        [-0.0801, -0.2566, -0.0300,  ..., -0.0599,  0.0356, -0.2534],
+        ...,
+        [-0.1853, -0.2829,  0.0578,  ..., -0.1008, -0.0741, -0.1743],
+        [-0.1247,  0.0040,  0.0400,  ...,  0.0088, -0.1103,  0.0738],
+        [-0.0996, -0.0640,  0.1037,  ...,  0.1986, -0.0729, -0.1931]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -2.4531e-06, -8.3819e-09,  ...,  0.0000e+00,
+          0.0000e+00, -5.6811e-08],
+        [-5.5879e-09,  1.8626e-09, -2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 9.3132e-10,  2.0489e-08, -9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        ...,
+        [ 2.7940e-09,  8.3819e-09,  7.4506e-09,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 2.7940e-09,  7.9162e-08,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 3.7253e-09,  7.0781e-08,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09]], device='cuda:0')
+Epoch 309, bias, value: tensor([ 0.0273,  0.0034,  0.0222,  0.0216,  0.0407,  0.0065, -0.0015, -0.0010,
+        -0.0045, -0.0391], device='cuda:0'), grad: tensor([-4.8801e-06,  8.1956e-08,  1.1828e-07,  2.0489e-08, -2.1625e-06,
+         4.4890e-07,  3.4794e-06,  9.5926e-08,  2.6729e-07,  2.5295e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 308, time 218.30, cls_loss 0.0010 cls_loss_mapping 0.0018 cls_loss_causal 0.5039 re_mapping 0.0048 re_causal 0.0144 /// teacc 99.00 lr 0.00010000
+Epoch 310, weight, value: tensor([[-0.1557,  0.2192, -0.0342,  ..., -0.0193,  0.0705, -0.0305],
+        [ 0.1818, -0.1012,  0.0334,  ..., -0.0839,  0.0044, -0.0808],
+        [-0.0802, -0.2571, -0.0300,  ..., -0.0601,  0.0356, -0.2539],
+        ...,
+        [-0.1851, -0.2839,  0.0581,  ..., -0.1008, -0.0741, -0.1747],
+        [-0.1252,  0.0039,  0.0399,  ...,  0.0088, -0.1103,  0.0736],
+        [-0.1002, -0.0647,  0.1034,  ...,  0.1988, -0.0729, -0.1933]],
+       device='cuda:0'), grad: tensor([[ 2.8871e-08, -5.9512e-07, -3.3155e-07,  ..., -1.8626e-09,
+          0.0000e+00,  8.3819e-09],
+        [ 6.3360e-05,  4.2841e-08,  1.2982e-04,  ...,  0.0000e+00,
+          0.0000e+00,  1.5832e-08],
+        [ 1.0077e-06,  8.3819e-08,  2.0955e-06,  ...,  0.0000e+00,
+          0.0000e+00,  1.4901e-08],
+        ...,
+        [-9.6738e-05,  4.9360e-08, -1.9801e-04,  ...,  0.0000e+00,
+          0.0000e+00,  2.2352e-08],
+        [ 2.7940e-07,  2.5891e-07,  1.3970e-07,  ...,  0.0000e+00,
+          0.0000e+00,  2.1514e-07],
+        [ 3.2336e-05,  6.5006e-07,  6.6042e-05,  ...,  9.3132e-10,
+          0.0000e+00,  2.5053e-07]], device='cuda:0')
+Epoch 310, bias, value: tensor([ 0.0275,  0.0031,  0.0227,  0.0215,  0.0407,  0.0064, -0.0014, -0.0007,
+        -0.0048, -0.0395], device='cuda:0'), grad: tensor([-1.1455e-06,  1.8728e-04,  3.1628e-06,  3.9861e-07,  1.5832e-07,
+        -1.1055e-06, -4.2841e-08, -2.8563e-04,  6.3423e-07,  9.6142e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 309, time 217.70, cls_loss 0.0010 cls_loss_mapping 0.0016 cls_loss_causal 0.5065 re_mapping 0.0047 re_causal 0.0142 /// teacc 99.00 lr 0.00010000
+Epoch 311, weight, value: tensor([[-0.1562,  0.2197, -0.0338,  ..., -0.0187,  0.0705, -0.0313],
+        [ 0.1819, -0.1020,  0.0331,  ..., -0.0840,  0.0049, -0.0805],
+        [-0.0803, -0.2578, -0.0305,  ..., -0.0603,  0.0356, -0.2548],
+        ...,
+        [-0.1849, -0.2849,  0.0584,  ..., -0.1009, -0.0742, -0.1761],
+        [-0.1253,  0.0040,  0.0399,  ...,  0.0088, -0.1103,  0.0739],
+        [-0.1014, -0.0656,  0.1032,  ...,  0.1987, -0.0729, -0.1934]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09, -1.7695e-07, -1.5460e-07,  ...,  0.0000e+00,
+          0.0000e+00,  6.5193e-09],
+        [ 2.7940e-09,  2.0489e-08,  5.4017e-08,  ...,  0.0000e+00,
+          0.0000e+00,  2.6077e-08],
+        [ 9.3132e-10,  2.7940e-09,  1.0245e-08,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-09],
+        ...,
+        [ 1.8626e-09,  7.0781e-08,  7.4506e-09,  ...,  0.0000e+00,
+          0.0000e+00,  7.4506e-08],
+        [ 2.1420e-08, -6.3423e-07, -1.1744e-06,  ...,  0.0000e+00,
+          0.0000e+00, -6.6124e-07],
+        [ 6.5193e-09,  6.9663e-07,  1.1493e-06,  ...,  0.0000e+00,
+          0.0000e+00,  5.6811e-07]], device='cuda:0')
+Epoch 311, bias, value: tensor([ 0.0276,  0.0029,  0.0231,  0.0209,  0.0407,  0.0064, -0.0013, -0.0006,
+        -0.0047, -0.0397], device='cuda:0'), grad: tensor([-3.0827e-07,  1.2293e-07, -9.6858e-08,  8.4750e-07,  1.4808e-07,
+        -8.1863e-07,  5.4948e-08,  1.3970e-08, -2.1420e-06,  2.1849e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 310, time 218.14, cls_loss 0.0013 cls_loss_mapping 0.0018 cls_loss_causal 0.4915 re_mapping 0.0048 re_causal 0.0140 /// teacc 98.98 lr 0.00010000
+Epoch 312, weight, value: tensor([[-0.1564,  0.2200, -0.0337,  ..., -0.0187,  0.0705, -0.0311],
+        [ 0.1824, -0.1022,  0.0332,  ..., -0.0849,  0.0054, -0.0803],
+        [-0.0809, -0.2585, -0.0322,  ..., -0.0608,  0.0356, -0.2576],
+        ...,
+        [-0.1851, -0.2861,  0.0589,  ..., -0.1013, -0.0742, -0.1771],
+        [-0.1258,  0.0040,  0.0401,  ...,  0.0087, -0.1103,  0.0743],
+        [-0.1019, -0.0661,  0.1028,  ...,  0.2002, -0.0730, -0.1937]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -8.5682e-08, -6.0536e-08,  ...,  0.0000e+00,
+          0.0000e+00, -1.8626e-09],
+        [-1.8626e-09,  9.3132e-10,  6.1467e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  5.5879e-09,  4.3772e-08,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  1.7798e-06,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-1.1176e-08, -2.8871e-08,  1.1176e-08,  ...,  0.0000e+00,
+          0.0000e+00, -5.0291e-08],
+        [ 0.0000e+00,  7.4506e-08, -3.4850e-06,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 312, bias, value: tensor([ 0.0277,  0.0029,  0.0224,  0.0213,  0.0401,  0.0066, -0.0014, -0.0001,
+        -0.0046, -0.0400], device='cuda:0'), grad: tensor([-1.6298e-07,  1.0990e-07,  8.2888e-08,  1.3597e-07,  2.6301e-06,
+         1.2107e-07,  9.3132e-09,  3.1888e-06,  3.7253e-09, -6.1020e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 311, time 218.14, cls_loss 0.0013 cls_loss_mapping 0.0017 cls_loss_causal 0.4892 re_mapping 0.0047 re_causal 0.0141 /// teacc 98.98 lr 0.00010000
+Epoch 313, weight, value: tensor([[-0.1594,  0.2191, -0.0338,  ..., -0.0189,  0.0663, -0.0316],
+        [ 0.1828, -0.1008,  0.0334,  ..., -0.0851,  0.0075, -0.0808],
+        [-0.0813, -0.2592, -0.0344,  ..., -0.0611,  0.0355, -0.2597],
+        ...,
+        [-0.1849, -0.2872,  0.0594,  ..., -0.1014, -0.0744, -0.1775],
+        [-0.1265,  0.0039,  0.0399,  ...,  0.0087, -0.1115,  0.0746],
+        [-0.1035, -0.0664,  0.1026,  ...,  0.2003, -0.0734, -0.1939]],
+       device='cuda:0'), grad: tensor([[ 2.2352e-08,  1.8626e-09,  1.1176e-08,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [-2.9802e-08,  2.7940e-09, -1.1176e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 2.7940e-09, -5.6811e-08,  2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 5.5879e-09,  0.0000e+00, -7.4506e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 7.1712e-08, -5.5879e-08, -5.7742e-08,  ...,  0.0000e+00,
+          0.0000e+00, -4.3772e-08],
+        [ 8.3819e-09,  1.0990e-07,  1.3877e-07,  ...,  0.0000e+00,
+          0.0000e+00,  4.1910e-08]], device='cuda:0')
+Epoch 313, bias, value: tensor([ 0.0270,  0.0031,  0.0212,  0.0213,  0.0401,  0.0068, -0.0007,  0.0005,
+        -0.0048, -0.0404], device='cuda:0'), grad: tensor([ 3.8277e-07,  7.4506e-09, -4.6659e-07,  4.8429e-08, -1.1921e-07,
+         9.3132e-10, -1.4156e-06, -1.0990e-07,  1.2647e-06,  4.0978e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 312, time 218.24, cls_loss 0.0009 cls_loss_mapping 0.0013 cls_loss_causal 0.4771 re_mapping 0.0047 re_causal 0.0135 /// teacc 98.97 lr 0.00010000
+Epoch 314, weight, value: tensor([[-0.1598,  0.2193, -0.0338,  ..., -0.0189,  0.0662, -0.0316],
+        [ 0.1831, -0.1006,  0.0333,  ..., -0.0852,  0.0080, -0.0812],
+        [-0.0813, -0.2595, -0.0351,  ..., -0.0612,  0.0355, -0.2602],
+        ...,
+        [-0.1850, -0.2882,  0.0598,  ..., -0.1014, -0.0743, -0.1784],
+        [-0.1268,  0.0059,  0.0406,  ...,  0.0087, -0.1118,  0.0763],
+        [-0.1044, -0.0682,  0.1021,  ...,  0.2004, -0.0734, -0.1954]],
+       device='cuda:0'), grad: tensor([[ 1.1176e-08,  1.8626e-09,  9.3132e-09,  ...,  0.0000e+00,
+          9.3132e-10,  1.8626e-09],
+        [-8.1025e-07, -1.0710e-07, -5.2620e-07,  ...,  0.0000e+00,
+         -3.8184e-08,  1.7695e-08],
+        [ 7.4506e-09,  0.0000e+00,  4.6566e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.4214e-08],
+        ...,
+        [ 5.6811e-08,  7.4506e-09, -3.0361e-06,  ...,  0.0000e+00,
+          2.7940e-09,  6.9849e-08],
+        [ 2.9523e-07,  4.0978e-08,  2.0582e-07,  ...,  0.0000e+00,
+          1.3970e-08,  3.5390e-08],
+        [ 1.3039e-08,  1.8626e-09,  3.0287e-06,  ...,  0.0000e+00,
+          9.3132e-10,  4.6566e-09]], device='cuda:0')
+Epoch 314, bias, value: tensor([ 0.0270,  0.0030,  0.0213,  0.0212,  0.0399,  0.0066, -0.0008,  0.0010,
+        -0.0037, -0.0411], device='cuda:0'), grad: tensor([ 3.7253e-08, -1.2759e-06,  3.7253e-09, -3.7253e-07,  3.9581e-07,
+         1.1455e-07,  2.6822e-07, -5.9083e-06,  5.9325e-07,  6.1505e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 313, time 218.23, cls_loss 0.0010 cls_loss_mapping 0.0014 cls_loss_causal 0.5059 re_mapping 0.0047 re_causal 0.0140 /// teacc 98.97 lr 0.00010000
+Epoch 315, weight, value: tensor([[-0.1599,  0.2203, -0.0336,  ..., -0.0189,  0.0662, -0.0316],
+        [ 0.1832, -0.1009,  0.0334,  ..., -0.0861,  0.0082, -0.0814],
+        [-0.0814, -0.2601, -0.0350,  ..., -0.0613,  0.0355, -0.2607],
+        ...,
+        [-0.1851, -0.2884,  0.0598,  ..., -0.1015, -0.0743, -0.1786],
+        [-0.1270,  0.0059,  0.0405,  ...,  0.0087, -0.1118,  0.0763],
+        [-0.1045, -0.0687,  0.1021,  ...,  0.2006, -0.0736, -0.1956]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -2.0489e-08,  5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  6.4448e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.3039e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.1665e-07,  ...,  0.0000e+00,
+          0.0000e+00,  9.4995e-08],
+        ...,
+        [ 9.3132e-10,  1.8626e-09, -1.5106e-06,  ...,  0.0000e+00,
+          0.0000e+00, -1.3784e-07],
+        [ 1.6764e-08, -1.2014e-07,  2.5705e-07,  ...,  0.0000e+00,
+          0.0000e+00, -2.0582e-07],
+        [ 1.8626e-09,  4.6566e-09,  1.5274e-07,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-09]], device='cuda:0')
+Epoch 315, bias, value: tensor([ 0.0274,  0.0030,  0.0217,  0.0211,  0.0400,  0.0067, -0.0011,  0.0009,
+        -0.0038, -0.0412], device='cuda:0'), grad: tensor([-1.1176e-08,  1.0831e-06,  8.8383e-07,  2.8126e-07, -7.9256e-07,
+         2.4121e-07,  9.4995e-08, -2.9244e-06,  2.2911e-07,  9.1642e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 314, time 217.86, cls_loss 0.0010 cls_loss_mapping 0.0012 cls_loss_causal 0.4924 re_mapping 0.0049 re_causal 0.0143 /// teacc 99.03 lr 0.00010000
+Epoch 316, weight, value: tensor([[-0.1607,  0.2207, -0.0336,  ..., -0.0189,  0.0663, -0.0308],
+        [ 0.1833, -0.1008,  0.0334,  ..., -0.0876,  0.0083, -0.0817],
+        [-0.0814, -0.2601, -0.0353,  ..., -0.0615,  0.0352, -0.2613],
+        ...,
+        [-0.1851, -0.2890,  0.0598,  ..., -0.1020, -0.0744, -0.1788],
+        [-0.1274,  0.0058,  0.0405,  ...,  0.0087, -0.1120,  0.0764],
+        [-0.1051, -0.0689,  0.1022,  ...,  0.2011, -0.0734, -0.1958]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -9.0804e-07, -3.1851e-07,  ...,  0.0000e+00,
+         -9.3132e-10,  2.7940e-09],
+        [-9.3132e-10,  3.7253e-09,  2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09],
+        [ 0.0000e+00,  1.8626e-09,  2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00,  6.5193e-09],
+        ...,
+        [ 9.3132e-10,  3.7253e-09, -1.3970e-08,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-09],
+        [ 1.8626e-08,  3.3528e-08,  7.4506e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.2352e-08],
+        [ 6.5193e-09,  4.2841e-08,  9.3132e-09,  ...,  0.0000e+00,
+          9.3132e-10,  1.8626e-09]], device='cuda:0')
+Epoch 316, bias, value: tensor([ 0.0273,  0.0029,  0.0216,  0.0214,  0.0400,  0.0065, -0.0010,  0.0009,
+        -0.0041, -0.0411], device='cuda:0'), grad: tensor([-3.8743e-07,  1.0338e-07,  1.2107e-08,  2.9057e-07,  7.6834e-07,
+        -3.4645e-07, -5.4389e-07, -1.7695e-08,  5.9605e-08,  6.4261e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 315, time 218.39, cls_loss 0.0012 cls_loss_mapping 0.0018 cls_loss_causal 0.4721 re_mapping 0.0049 re_causal 0.0133 /// teacc 99.01 lr 0.00010000
+Epoch 317, weight, value: tensor([[-0.1610,  0.2225, -0.0332,  ..., -0.0186,  0.0670, -0.0300],
+        [ 0.1834, -0.1027,  0.0332,  ..., -0.0876,  0.0077, -0.0819],
+        [-0.0815, -0.2593, -0.0357,  ..., -0.0615,  0.0349, -0.2616],
+        ...,
+        [-0.1852, -0.2905,  0.0600,  ..., -0.1021, -0.0744, -0.1794],
+        [-0.1280,  0.0052,  0.0400,  ...,  0.0084, -0.1122,  0.0761],
+        [-0.1084, -0.0717,  0.1025,  ...,  0.2014, -0.0737, -0.1979]],
+       device='cuda:0'), grad: tensor([[ 1.1176e-08, -5.5507e-07, -1.0245e-07,  ...,  0.0000e+00,
+          4.6566e-09, -1.0431e-07],
+        [-7.0035e-07, -1.7416e-07, -5.8953e-07,  ...,  0.0000e+00,
+         -2.6636e-07,  2.7940e-09],
+        [ 9.3132e-10, -9.6858e-08,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  7.4506e-09],
+        ...,
+        [ 2.7940e-09,  1.7695e-08,  2.8871e-08,  ...,  0.0000e+00,
+          9.3132e-10,  3.7253e-09],
+        [ 4.1258e-07,  1.1548e-07,  3.5018e-07,  ...,  0.0000e+00,
+          1.5553e-07,  4.9360e-08],
+        [ 6.5193e-09,  2.0489e-08, -3.0734e-08,  ...,  0.0000e+00,
+          1.8626e-09,  7.4506e-09]], device='cuda:0')
+Epoch 317, bias, value: tensor([ 0.0280,  0.0025,  0.0222,  0.0200,  0.0393,  0.0092, -0.0014,  0.0012,
+        -0.0051, -0.0413], device='cuda:0'), grad: tensor([-4.2561e-07, -9.2201e-07, -1.3206e-06,  1.9465e-07, -3.1665e-07,
+         2.3283e-07,  1.3066e-06,  2.6263e-07,  6.9477e-07,  2.7753e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 316, time 217.98, cls_loss 0.0012 cls_loss_mapping 0.0015 cls_loss_causal 0.4822 re_mapping 0.0049 re_causal 0.0138 /// teacc 98.99 lr 0.00010000
+Epoch 318, weight, value: tensor([[-0.1609,  0.2232, -0.0335,  ..., -0.0184,  0.0662, -0.0293],
+        [ 0.1835, -0.1028,  0.0328,  ..., -0.0877,  0.0078, -0.0833],
+        [-0.0819, -0.2602, -0.0357,  ..., -0.0617,  0.0357, -0.2621],
+        ...,
+        [-0.1851, -0.2922,  0.0601,  ..., -0.1021, -0.0754, -0.1792],
+        [-0.1283,  0.0057,  0.0399,  ...,  0.0084, -0.1120,  0.0774],
+        [-0.1085, -0.0719,  0.1032,  ...,  0.2013, -0.0733, -0.1981]],
+       device='cuda:0'), grad: tensor([[ 1.3504e-08, -5.3085e-08,  7.9162e-09,  ..., -2.7940e-09,
+         -3.7253e-09, -4.1910e-09],
+        [-6.1914e-06,  2.7940e-09,  6.1467e-08,  ...,  4.6566e-10,
+          4.6566e-10, -3.0082e-07],
+        [ 3.0920e-06,  3.1665e-08, -5.1502e-07,  ...,  0.0000e+00,
+          4.6566e-09,  1.6252e-07],
+        ...,
+        [ 2.1420e-06,  6.0536e-09, -8.6147e-08,  ...,  0.0000e+00,
+          4.6566e-10,  9.4529e-08],
+        [ 1.5367e-08, -3.7253e-08,  4.4098e-07,  ...,  0.0000e+00,
+         -4.6566e-09, -2.2817e-08],
+        [ 6.5193e-09,  6.0536e-09,  4.8894e-08,  ...,  1.3970e-09,
+          1.8626e-09,  9.7789e-09]], device='cuda:0')
+Epoch 318, bias, value: tensor([ 0.0280,  0.0020,  0.0224,  0.0192,  0.0388,  0.0095, -0.0017,  0.0012,
+        -0.0048, -0.0406], device='cuda:0'), grad: tensor([ 1.8114e-07, -9.3952e-06, -1.0524e-06,  1.4883e-06, -2.6882e-05,
+         2.2678e-07,  2.3888e-07,  3.0816e-05,  4.0978e-06,  2.5705e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 317, time 218.02, cls_loss 0.0009 cls_loss_mapping 0.0014 cls_loss_causal 0.4550 re_mapping 0.0049 re_causal 0.0140 /// teacc 98.88 lr 0.00010000
+Epoch 319, weight, value: tensor([[-0.1610,  0.2235, -0.0336,  ..., -0.0182,  0.0660, -0.0309],
+        [ 0.1862, -0.1027,  0.0327,  ..., -0.0877,  0.0082, -0.0840],
+        [-0.0854, -0.2610, -0.0387,  ..., -0.0620,  0.0357, -0.2650],
+        ...,
+        [-0.1850, -0.2940,  0.0604,  ..., -0.1021, -0.0764, -0.1790],
+        [-0.1287,  0.0059,  0.0398,  ...,  0.0085, -0.1126,  0.0774],
+        [-0.1086, -0.0720,  0.1033,  ...,  0.2013, -0.0750, -0.1982]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -8.0094e-08, -2.7940e-08,  ...,  0.0000e+00,
+         -2.9802e-08, -8.3819e-09],
+        [-9.3132e-10,  4.4703e-08,  2.7940e-09,  ...,  0.0000e+00,
+          3.7253e-09,  2.7940e-09],
+        [ 1.8626e-09,  8.9407e-08,  1.1176e-08,  ...,  0.0000e+00,
+          0.0000e+00,  2.6077e-08],
+        ...,
+        [ 1.8626e-09,  1.3039e-08,  4.6566e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -1.5832e-08, -1.8626e-08,  ...,  0.0000e+00,
+          0.0000e+00, -3.6322e-08],
+        [ 0.0000e+00,  3.4459e-08,  5.5879e-09,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 319, bias, value: tensor([ 0.0280,  0.0034,  0.0194,  0.0193,  0.0390,  0.0096, -0.0017,  0.0015,
+        -0.0050, -0.0407], device='cuda:0'), grad: tensor([ 1.0328e-06,  3.6135e-07,  5.0757e-07,  3.7253e-08, -2.1849e-06,
+         3.4459e-08, -4.6566e-08,  1.0710e-07, -5.0291e-08,  2.2072e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 318, time 218.03, cls_loss 0.0014 cls_loss_mapping 0.0022 cls_loss_causal 0.5277 re_mapping 0.0048 re_causal 0.0139 /// teacc 98.95 lr 0.00010000
+Epoch 320, weight, value: tensor([[-0.1628,  0.2234, -0.0335,  ..., -0.0190,  0.0660, -0.0349],
+        [ 0.1864, -0.1027,  0.0326,  ..., -0.0878,  0.0092, -0.0840],
+        [-0.0854, -0.2614, -0.0389,  ..., -0.0624,  0.0355, -0.2662],
+        ...,
+        [-0.1849, -0.2949,  0.0610,  ..., -0.1022, -0.0763, -0.1789],
+        [-0.1296,  0.0058,  0.0398,  ...,  0.0084, -0.1118,  0.0769],
+        [-0.1089, -0.0721,  0.1025,  ...,  0.2018, -0.0754, -0.1985]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09, -1.9595e-05,  2.4866e-07,  ...,  0.0000e+00,
+          9.3132e-10, -9.3132e-10],
+        [-1.6764e-08,  9.3132e-09, -5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 2.7940e-09,  1.8626e-08,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        ...,
+        [ 2.7940e-09,  5.1223e-08,  4.3679e-07,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00],
+        [ 3.7253e-09,  4.5635e-08, -1.2107e-08,  ...,  0.0000e+00,
+          0.0000e+00, -3.0734e-08],
+        [ 3.7253e-09,  2.2352e-08, -1.1660e-06,  ...,  0.0000e+00,
+         -2.9802e-08,  1.5832e-08]], device='cuda:0')
+Epoch 320, bias, value: tensor([ 0.0278,  0.0033,  0.0194,  0.0189,  0.0414,  0.0094, -0.0016,  0.0025,
+        -0.0053, -0.0429], device='cuda:0'), grad: tensor([-3.0786e-05,  2.7940e-09,  4.0978e-08,  1.2107e-07,  1.1977e-06,
+         1.8720e-07,  3.1054e-05,  1.1092e-06,  7.8231e-08, -2.9653e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 319, time 217.97, cls_loss 0.0014 cls_loss_mapping 0.0024 cls_loss_causal 0.4942 re_mapping 0.0046 re_causal 0.0134 /// teacc 99.03 lr 0.00010000
+Epoch 321, weight, value: tensor([[-0.1631,  0.2240, -0.0335,  ..., -0.0189,  0.0652, -0.0350],
+        [ 0.1876, -0.1029,  0.0332,  ..., -0.0878,  0.0122, -0.0813],
+        [-0.0855, -0.2638, -0.0392,  ..., -0.0643,  0.0347, -0.2686],
+        ...,
+        [-0.1846, -0.2971,  0.0611,  ..., -0.1023, -0.0785, -0.1793],
+        [-0.1298,  0.0063,  0.0399,  ...,  0.0086, -0.1115,  0.0778],
+        [-0.1090, -0.0721,  0.1025,  ...,  0.2018, -0.0734, -0.1975]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-09,  4.6566e-09,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  7.4506e-09],
+        [ 2.5146e-08,  6.8918e-08,  1.4901e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.4063e-07],
+        [ 1.4808e-07,  8.5123e-07,  2.3469e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.1688e-06],
+        ...,
+        [-1.4734e-06,  9.3132e-09, -7.6368e-08,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-08],
+        [-2.4587e-07, -1.1390e-06, -2.9057e-07,  ...,  0.0000e+00,
+          0.0000e+00, -1.7565e-06],
+        [ 4.0047e-08,  1.3039e-08,  6.7055e-08,  ...,  0.0000e+00,
+          0.0000e+00,  4.3772e-08]], device='cuda:0')
+Epoch 321, bias, value: tensor([ 0.0279,  0.0042,  0.0193,  0.0175,  0.0413,  0.0091, -0.0029,  0.0033,
+        -0.0051, -0.0432], device='cuda:0'), grad: tensor([ 2.1327e-07,  9.5461e-07,  3.2336e-06,  2.2259e-07, -1.4499e-05,
+         2.5667e-06,  1.5087e-07, -2.1622e-05, -4.3251e-06,  3.3140e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 320, time 217.94, cls_loss 0.0013 cls_loss_mapping 0.0019 cls_loss_causal 0.4934 re_mapping 0.0047 re_causal 0.0140 /// teacc 99.03 lr 0.00010000
+Epoch 322, weight, value: tensor([[-0.1649,  0.2241, -0.0334,  ..., -0.0190,  0.0655, -0.0359],
+        [ 0.1895, -0.1031,  0.0348,  ..., -0.0884,  0.0125, -0.0811],
+        [-0.0856, -0.2646, -0.0392,  ..., -0.0650,  0.0353, -0.2693],
+        ...,
+        [-0.1873, -0.2998,  0.0599,  ..., -0.1025, -0.0815, -0.1824],
+        [-0.1305,  0.0061,  0.0398,  ...,  0.0088, -0.1118,  0.0775],
+        [-0.1094, -0.0723,  0.1024,  ...,  0.2020, -0.0738, -0.1978]],
+       device='cuda:0'), grad: tensor([[ 1.2396e-06,  1.7909e-06,  2.9057e-07,  ...,  0.0000e+00,
+          3.3714e-07,  1.7220e-06],
+        [ 2.6077e-08,  5.9605e-08,  1.0151e-07,  ...,  0.0000e+00,
+          1.2107e-08,  1.1455e-07],
+        [ 2.7940e-09,  5.5879e-09,  9.3132e-09,  ...,  0.0000e+00,
+          1.8626e-09,  1.8626e-09],
+        ...,
+        [ 2.8871e-08,  3.7253e-08, -4.9826e-07,  ...,  0.0000e+00,
+          7.4506e-09,  1.6764e-08],
+        [ 3.4198e-06,  5.1707e-06,  6.9942e-07,  ...,  0.0000e+00,
+          9.4716e-07,  4.5188e-06],
+        [ 1.1362e-07,  1.6298e-07,  4.1630e-07,  ...,  0.0000e+00,
+          1.9558e-08,  1.8068e-07]], device='cuda:0')
+Epoch 322, bias, value: tensor([ 0.0279,  0.0060,  0.0193,  0.0178,  0.0414,  0.0097, -0.0030,  0.0016,
+        -0.0054, -0.0434], device='cuda:0'), grad: tensor([ 3.3677e-06,  1.9483e-06, -5.4017e-06,  2.5090e-06, -2.6636e-07,
+        -2.0549e-05,  8.0466e-06,  3.0361e-07,  8.8811e-06,  1.1297e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 321, time 218.25, cls_loss 0.0009 cls_loss_mapping 0.0017 cls_loss_causal 0.4929 re_mapping 0.0045 re_causal 0.0138 /// teacc 98.91 lr 0.00010000
+Epoch 323, weight, value: tensor([[-0.1654,  0.2242, -0.0334,  ..., -0.0190,  0.0655, -0.0365],
+        [ 0.1908, -0.1032,  0.0364,  ..., -0.0885,  0.0125, -0.0813],
+        [-0.0857, -0.2649, -0.0394,  ..., -0.0650,  0.0354, -0.2695],
+        ...,
+        [-0.1890, -0.3007,  0.0585,  ..., -0.1025, -0.0822, -0.1827],
+        [-0.1325,  0.0046,  0.0397,  ...,  0.0089, -0.1118,  0.0755],
+        [-0.1100, -0.0728,  0.1024,  ...,  0.2020, -0.0740, -0.1984]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -6.5193e-09,  4.5635e-08,  ...,  0.0000e+00,
+          0.0000e+00,  3.2596e-08],
+        [-1.7695e-08,  8.3819e-09,  2.2352e-08,  ...,  0.0000e+00,
+          0.0000e+00,  2.9802e-08],
+        [ 2.7940e-09,  5.1223e-08,  2.4121e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.7323e-07],
+        ...,
+        [ 1.0245e-08,  5.2154e-07,  2.4028e-06,  ...,  0.0000e+00,
+          0.0000e+00,  1.6820e-06],
+        [ 1.8626e-09, -1.1148e-06, -5.0850e-06,  ...,  0.0000e+00,
+          0.0000e+00, -3.5781e-06],
+        [ 1.8626e-09,  4.0606e-07,  1.7788e-06,  ...,  0.0000e+00,
+          0.0000e+00,  1.3094e-06]], device='cuda:0')
+Epoch 323, bias, value: tensor([ 0.0279,  0.0076,  0.0194,  0.0163,  0.0414,  0.0111, -0.0027,  0.0001,
+        -0.0065, -0.0436], device='cuda:0'), grad: tensor([ 9.1270e-08,  1.5367e-07,  4.9453e-07,  1.1176e-08,  1.8626e-09,
+         1.1073e-06,  7.3574e-08,  5.4948e-06, -1.1511e-05,  4.0680e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 322, time 217.79, cls_loss 0.0014 cls_loss_mapping 0.0018 cls_loss_causal 0.4899 re_mapping 0.0044 re_causal 0.0126 /// teacc 99.09 lr 0.00010000
+Epoch 324, weight, value: tensor([[-0.1655,  0.2243, -0.0334,  ..., -0.0194,  0.0655, -0.0356],
+        [ 0.1909, -0.1036,  0.0361,  ..., -0.0900,  0.0125, -0.0816],
+        [-0.0860, -0.2657, -0.0399,  ..., -0.0650,  0.0351, -0.2718],
+        ...,
+        [-0.1889, -0.3020,  0.0590,  ..., -0.1026, -0.0822, -0.1834],
+        [-0.1356,  0.0022,  0.0389,  ...,  0.0086, -0.1148,  0.0734],
+        [-0.1099, -0.0726,  0.1023,  ...,  0.2031, -0.0741, -0.1985]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -2.5146e-08,  5.0291e-08,  ...,  1.9558e-08,
+          0.0000e+00,  1.2107e-08],
+        [ 2.7940e-09,  5.4017e-08,  1.2545e-06,  ...,  5.4017e-08,
+          0.0000e+00,  4.6566e-08],
+        [ 2.7940e-09,  1.3039e-08, -2.3432e-06,  ...,  9.3132e-09,
+          0.0000e+00,  1.8626e-08],
+        ...,
+        [ 4.6566e-09,  1.0245e-08,  4.1071e-07,  ...,  7.4506e-09,
+          0.0000e+00,  2.4214e-08],
+        [ 4.4703e-08,  5.5879e-09,  2.5146e-08,  ...,  6.5193e-09,
+          0.0000e+00,  1.2759e-07],
+        [ 1.3970e-08, -1.6578e-07,  4.1071e-07,  ..., -1.9372e-07,
+          0.0000e+00, -3.1665e-08]], device='cuda:0')
+Epoch 324, bias, value: tensor([ 0.0278,  0.0074,  0.0191,  0.0163,  0.0413,  0.0131, -0.0027,  0.0006,
+        -0.0086, -0.0437], device='cuda:0'), grad: tensor([ 2.1309e-06,  3.4925e-06, -6.3404e-06, -1.4892e-06,  3.2783e-07,
+         1.6484e-06, -2.3767e-06,  1.1623e-06,  3.6042e-07,  1.0673e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 323, time 218.18, cls_loss 0.0008 cls_loss_mapping 0.0014 cls_loss_causal 0.5075 re_mapping 0.0044 re_causal 0.0141 /// teacc 98.93 lr 0.00010000
+Epoch 325, weight, value: tensor([[-0.1655,  0.2247, -0.0335,  ..., -0.0197,  0.0657, -0.0342],
+        [ 0.1909, -0.1037,  0.0359,  ..., -0.0906,  0.0125, -0.0818],
+        [-0.0860, -0.2664, -0.0400,  ..., -0.0643,  0.0351, -0.2726],
+        ...,
+        [-0.1889, -0.3029,  0.0592,  ..., -0.1029, -0.0821, -0.1841],
+        [-0.1357,  0.0018,  0.0385,  ...,  0.0078, -0.1148,  0.0735],
+        [-0.1099, -0.0722,  0.1024,  ...,  0.2044, -0.0741, -0.1981]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09, -8.1584e-07, -3.9954e-07,  ..., -8.2888e-08,
+          9.3132e-10, -1.8626e-09],
+        [-4.3306e-07,  4.8429e-08, -3.3900e-07,  ...,  5.5879e-09,
+          0.0000e+00,  9.3132e-10],
+        [ 1.3039e-08,  1.5553e-07,  1.3597e-07,  ...,  1.8626e-08,
+         -2.7940e-09,  1.8626e-09],
+        ...,
+        [ 3.2224e-07,  1.1455e-07,  5.3085e-08,  ...,  1.3970e-08,
+          9.3132e-10,  3.7253e-09],
+        [ 3.0734e-08,  4.7497e-08,  4.7497e-08,  ...,  3.7253e-09,
+          0.0000e+00, -1.3039e-08],
+        [ 2.0489e-08,  2.4587e-07,  2.8498e-07,  ...,  2.8871e-08,
+          0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 325, bias, value: tensor([ 0.0277,  0.0073,  0.0192,  0.0166,  0.0412,  0.0127, -0.0026,  0.0007,
+        -0.0091, -0.0434], device='cuda:0'), grad: tensor([-2.3037e-05, -5.9977e-07,  1.6717e-06,  1.1455e-06,  1.4253e-05,
+         7.7300e-08,  4.0606e-06,  2.3376e-07,  4.8801e-07,  1.6615e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 324, time 218.18, cls_loss 0.0009 cls_loss_mapping 0.0012 cls_loss_causal 0.5030 re_mapping 0.0043 re_causal 0.0137 /// teacc 99.07 lr 0.00010000
+Epoch 326, weight, value: tensor([[-0.1652,  0.2259, -0.0332,  ..., -0.0197,  0.0658, -0.0312],
+        [ 0.1912, -0.1038,  0.0359,  ..., -0.0907,  0.0125, -0.0823],
+        [-0.0865, -0.2676, -0.0410,  ..., -0.0637,  0.0350, -0.2738],
+        ...,
+        [-0.1889, -0.3036,  0.0593,  ..., -0.1030, -0.0821, -0.1844],
+        [-0.1362,  0.0015,  0.0382,  ...,  0.0061, -0.1148,  0.0725],
+        [-0.1100, -0.0722,  0.1026,  ...,  0.2051, -0.0740, -0.1981]],
+       device='cuda:0'), grad: tensor([[ 1.0803e-07,  6.0070e-07,  3.4459e-08,  ...,  4.6566e-09,
+          0.0000e+00, -9.3132e-09],
+        [ 9.4622e-07,  5.1223e-08,  5.9307e-06,  ...,  6.2026e-07,
+          4.8149e-07,  6.5193e-09],
+        [ 5.4017e-08, -1.2014e-07,  1.4901e-06,  ...,  5.5879e-09,
+          3.7253e-09, -1.0245e-08],
+        ...,
+        [-1.6112e-07,  1.0245e-08, -5.7705e-06,  ...,  8.3819e-09,
+          7.4506e-09, -6.5193e-09],
+        [ 2.1420e-08,  1.1362e-07,  7.5437e-08,  ...,  1.0245e-08,
+          7.4506e-09,  1.3039e-08],
+        [-9.2760e-07,  4.8429e-08, -2.9951e-06,  ..., -6.8732e-07,
+         -5.3365e-07,  2.7940e-09]], device='cuda:0')
+Epoch 326, bias, value: tensor([ 0.0283,  0.0073,  0.0187,  0.0171,  0.0426,  0.0133, -0.0032,  0.0002,
+        -0.0100, -0.0434], device='cuda:0'), grad: tensor([ 7.2755e-06,  1.5467e-05,  3.2671e-06,  3.5949e-06,  3.8967e-06,
+         9.3877e-07, -1.2435e-05, -1.8999e-05,  1.0943e-06, -4.1313e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 325, time 218.13, cls_loss 0.0011 cls_loss_mapping 0.0021 cls_loss_causal 0.4892 re_mapping 0.0044 re_causal 0.0137 /// teacc 99.00 lr 0.00010000
+Epoch 327, weight, value: tensor([[-0.1652,  0.2263, -0.0334,  ..., -0.0205,  0.0658, -0.0313],
+        [ 0.1913, -0.1044,  0.0358,  ..., -0.0917,  0.0125, -0.0831],
+        [-0.0865, -0.2677, -0.0413,  ..., -0.0636,  0.0349, -0.2738],
+        ...,
+        [-0.1891, -0.3050,  0.0592,  ..., -0.1038, -0.0824, -0.1846],
+        [-0.1360,  0.0017,  0.0383,  ...,  0.0055, -0.1147,  0.0729],
+        [-0.1098, -0.0722,  0.1037,  ...,  0.2063, -0.0739, -0.1982]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09, -2.3935e-07, -5.1223e-08,  ...,  0.0000e+00,
+         -4.5635e-08, -4.6566e-09],
+        [-4.6566e-09,  9.3132e-09, -8.3819e-09,  ...,  0.0000e+00,
+          1.8626e-09,  1.1176e-08],
+        [ 3.7253e-09,  4.6566e-09,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-09],
+        ...,
+        [ 1.7695e-08,  1.8626e-09,  2.6077e-08,  ...,  9.3132e-10,
+          0.0000e+00,  1.3970e-08],
+        [ 7.4506e-09,  1.0245e-08,  1.8626e-09,  ...,  0.0000e+00,
+          9.3132e-10,  2.7940e-09],
+        [ 4.6566e-09,  3.2596e-08, -1.3039e-08,  ..., -9.3132e-10,
+          3.7253e-09,  2.7940e-09]], device='cuda:0')
+Epoch 327, bias, value: tensor([ 0.0283,  0.0073,  0.0188,  0.0181,  0.0417,  0.0100, -0.0020,  0.0002,
+        -0.0098, -0.0426], device='cuda:0'), grad: tensor([-2.8871e-07,  5.8673e-08,  3.2596e-08, -1.3411e-07,  4.3772e-08,
+         3.9116e-08,  6.3330e-08,  1.1083e-07,  4.1910e-08,  4.1910e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 326, time 217.82, cls_loss 0.0010 cls_loss_mapping 0.0019 cls_loss_causal 0.4981 re_mapping 0.0044 re_causal 0.0136 /// teacc 99.03 lr 0.00010000
+Epoch 328, weight, value: tensor([[-0.1657,  0.2278, -0.0331,  ..., -0.0205,  0.0659, -0.0319],
+        [ 0.1915, -0.1047,  0.0359,  ..., -0.0920,  0.0125, -0.0833],
+        [-0.0868, -0.2690, -0.0414,  ..., -0.0640,  0.0348, -0.2745],
+        ...,
+        [-0.1892, -0.3058,  0.0594,  ..., -0.1040, -0.0830, -0.1848],
+        [-0.1363,  0.0006,  0.0374,  ...,  0.0056, -0.1147,  0.0724],
+        [-0.1101, -0.0718,  0.1037,  ...,  0.2064, -0.0740, -0.1981]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -4.6566e-09,  4.8429e-08,  ...,  9.3132e-10,
+         -9.3132e-10,  1.8626e-09],
+        [-7.4506e-09,  1.8626e-09,  2.7940e-09,  ...,  9.3132e-10,
+          9.3132e-10,  4.6566e-09],
+        [-6.5193e-08,  3.7253e-09,  1.0245e-08,  ..., -1.5926e-07,
+          0.0000e+00,  7.1712e-08],
+        ...,
+        [ 6.5193e-09,  4.6566e-09,  2.9802e-08,  ...,  0.0000e+00,
+          0.0000e+00,  2.0489e-08],
+        [ 1.8626e-09, -2.6077e-08, -7.4506e-08,  ...,  0.0000e+00,
+         -1.8626e-09, -6.3330e-08],
+        [ 6.9849e-08,  2.4214e-08, -5.4948e-08,  ...,  1.5553e-07,
+          2.7940e-09,  4.2841e-08]], device='cuda:0')
+Epoch 328, bias, value: tensor([ 0.0290,  0.0073,  0.0187,  0.0179,  0.0416,  0.0112, -0.0031,  0.0002,
+        -0.0111, -0.0425], device='cuda:0'), grad: tensor([ 1.8999e-07,  8.7544e-08, -2.4643e-06,  2.2352e-08,  3.7439e-07,
+        -1.1176e-08,  2.4214e-08,  2.4773e-07, -1.0151e-07,  1.6280e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 327, time 218.17, cls_loss 0.0011 cls_loss_mapping 0.0017 cls_loss_causal 0.4891 re_mapping 0.0046 re_causal 0.0135 /// teacc 99.02 lr 0.00010000
+Epoch 329, weight, value: tensor([[-0.1658,  0.2284, -0.0349,  ..., -0.0232,  0.0672, -0.0320],
+        [ 0.1915, -0.1064,  0.0358,  ..., -0.0922,  0.0125, -0.0839],
+        [-0.0867, -0.2708, -0.0419,  ..., -0.0645,  0.0345, -0.2751],
+        ...,
+        [-0.1892, -0.3072,  0.0596,  ..., -0.1040, -0.0833, -0.1846],
+        [-0.1364,  0.0007,  0.0377,  ...,  0.0060, -0.1147,  0.0727],
+        [-0.1102, -0.0718,  0.1047,  ...,  0.2081, -0.0755, -0.1984]],
+       device='cuda:0'), grad: tensor([[ 1.6764e-08,  7.4506e-09,  2.9802e-08,  ...,  0.0000e+00,
+          2.7940e-09,  1.9558e-08],
+        [-8.9407e-08, -2.6077e-08, -8.1025e-08,  ...,  0.0000e+00,
+         -1.3970e-08,  7.4506e-09],
+        [ 6.5193e-09,  4.6566e-08,  6.1467e-08,  ...,  0.0000e+00,
+          9.3132e-10,  3.6322e-08],
+        ...,
+        [ 1.5832e-08,  8.3819e-09,  5.5879e-09,  ...,  0.0000e+00,
+          1.8626e-09,  2.7940e-09],
+        [ 2.4214e-08, -2.2259e-07, -2.3376e-07,  ..., -1.3970e-08,
+          3.7253e-09, -2.0396e-07],
+        [ 1.6764e-08,  9.4064e-08,  1.1083e-07,  ...,  8.3819e-09,
+          2.7940e-09,  6.5193e-08]], device='cuda:0')
+Epoch 329, bias, value: tensor([ 0.0282,  0.0071,  0.0189,  0.0169,  0.0423,  0.0115, -0.0032,  0.0004,
+        -0.0110, -0.0423], device='cuda:0'), grad: tensor([ 1.1176e-07, -1.5832e-07,  1.6578e-07,  1.6764e-08,  1.7695e-08,
+         3.5390e-08,  2.1793e-07,  8.3819e-09, -7.1898e-07,  2.9802e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 328, time 217.94, cls_loss 0.0013 cls_loss_mapping 0.0024 cls_loss_causal 0.4980 re_mapping 0.0046 re_causal 0.0127 /// teacc 99.00 lr 0.00010000
+Epoch 330, weight, value: tensor([[-0.1659,  0.2291, -0.0346,  ..., -0.0224,  0.0676, -0.0317],
+        [ 0.1918, -0.1078,  0.0354,  ..., -0.0932,  0.0124, -0.0851],
+        [-0.0869, -0.2720, -0.0420,  ..., -0.0630,  0.0341, -0.2771],
+        ...,
+        [-0.1894, -0.3090,  0.0600,  ..., -0.1047, -0.0833, -0.1848],
+        [-0.1365,  0.0022,  0.0389,  ...,  0.0080, -0.1139,  0.0743],
+        [-0.1103, -0.0731,  0.1045,  ...,  0.2074, -0.0754, -0.1995]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09, -1.3039e-08,  5.5879e-09,  ...,  0.0000e+00,
+          1.6764e-08,  7.4506e-09],
+        [-8.0094e-08,  1.8626e-09,  1.8068e-07,  ...,  0.0000e+00,
+          2.4214e-07,  5.5879e-08],
+        [ 4.8429e-08,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          1.8626e-09,  4.2841e-08],
+        ...,
+        [ 5.0291e-08,  7.4506e-09, -3.9116e-08,  ...,  0.0000e+00,
+         -3.7253e-09,  7.6368e-08],
+        [ 4.6566e-08,  9.3132e-09,  1.4901e-08,  ...,  0.0000e+00,
+          2.0489e-08,  3.9116e-08],
+        [ 3.9116e-08,  1.1176e-08,  3.7253e-09,  ..., -1.8626e-09,
+          3.7253e-09,  1.1362e-07]], device='cuda:0')
+Epoch 330, bias, value: tensor([ 0.0286,  0.0068,  0.0189,  0.0171,  0.0427,  0.0112, -0.0032,  0.0006,
+        -0.0098, -0.0430], device='cuda:0'), grad: tensor([ 3.7067e-07,  1.9446e-06,  6.1840e-07, -1.5236e-06,  6.8918e-08,
+         5.1968e-07, -3.0249e-06,  2.2538e-07,  3.7812e-07,  4.1537e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 329, time 218.19, cls_loss 0.0014 cls_loss_mapping 0.0022 cls_loss_causal 0.4682 re_mapping 0.0045 re_causal 0.0125 /// teacc 99.04 lr 0.00010000
+Epoch 331, weight, value: tensor([[-0.1664,  0.2299, -0.0344,  ..., -0.0223,  0.0707, -0.0321],
+        [ 0.1919, -0.1080,  0.0352,  ..., -0.0962,  0.0124, -0.0859],
+        [-0.0869, -0.2711, -0.0426,  ..., -0.0622,  0.0338, -0.2771],
+        ...,
+        [-0.1894, -0.3109,  0.0602,  ..., -0.1058, -0.0838, -0.1851],
+        [-0.1368,  0.0025,  0.0393,  ...,  0.0080, -0.1138,  0.0748],
+        [-0.1103, -0.0737,  0.1048,  ...,  0.2081, -0.0761, -0.1999]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -7.4506e-09,  7.4506e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [-1.8626e-09,  2.4214e-08,  1.1176e-07,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-08],
+        [ 0.0000e+00, -2.7008e-07, -3.7253e-08,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        ...,
+        [ 0.0000e+00,  1.8626e-09, -3.9190e-06,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-09],
+        [-7.4506e-09,  2.1793e-07,  4.6566e-08,  ...,  0.0000e+00,
+          0.0000e+00, -5.0291e-07],
+        [ 3.7253e-09,  9.3132e-09,  3.6545e-06,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 331, bias, value: tensor([ 0.0288,  0.0064,  0.0200,  0.0167,  0.0426,  0.0111, -0.0033,  0.0007,
+        -0.0096, -0.0431], device='cuda:0'), grad: tensor([ 3.9116e-08,  5.0478e-07, -1.6522e-06,  4.4331e-07,  1.3970e-07,
+         5.4017e-08,  1.1194e-06, -6.0722e-06, -3.3900e-07,  5.7332e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 330, time 218.29, cls_loss 0.0010 cls_loss_mapping 0.0024 cls_loss_causal 0.4963 re_mapping 0.0046 re_causal 0.0138 /// teacc 99.06 lr 0.00010000
+Epoch 332, weight, value: tensor([[-0.1667,  0.2300, -0.0343,  ..., -0.0224,  0.0712, -0.0322],
+        [ 0.1919, -0.1090,  0.0352,  ..., -0.0962,  0.0123, -0.0865],
+        [-0.0870, -0.2722, -0.0430,  ..., -0.0631,  0.0335, -0.2775],
+        ...,
+        [-0.1895, -0.3121,  0.0609,  ..., -0.1059, -0.0838, -0.1865],
+        [-0.1370,  0.0026,  0.0396,  ...,  0.0080, -0.1140,  0.0751],
+        [-0.1103, -0.0736,  0.1037,  ...,  0.2077, -0.0763, -0.1999]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -5.5879e-08, -3.3528e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-1.8626e-09,  3.7253e-09,  1.6764e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09, -7.4506e-09,  7.4506e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  1.8626e-09, -9.3132e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 1.8626e-09,  1.1176e-08,  1.8626e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.9802e-08,  4.6566e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 332, bias, value: tensor([ 0.0288,  0.0064,  0.0200,  0.0175,  0.0426,  0.0120, -0.0035,  0.0011,
+        -0.0095, -0.0439], device='cuda:0'), grad: tensor([-1.0245e-07,  3.1665e-08, -5.0291e-08,  2.9802e-08, -1.9558e-07,
+         2.0489e-08,  2.9802e-08, -1.5832e-07,  8.5682e-08,  2.9616e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 331, time 218.32, cls_loss 0.0010 cls_loss_mapping 0.0018 cls_loss_causal 0.4845 re_mapping 0.0049 re_causal 0.0134 /// teacc 98.98 lr 0.00010000
+Epoch 333, weight, value: tensor([[-0.1669,  0.2307, -0.0338,  ..., -0.0224,  0.0717, -0.0323],
+        [ 0.1919, -0.1105,  0.0341,  ..., -0.0984,  0.0125, -0.0867],
+        [-0.0871, -0.2742, -0.0433,  ..., -0.0633,  0.0331, -0.2781],
+        ...,
+        [-0.1893, -0.3137,  0.0619,  ..., -0.1079, -0.0846, -0.1868],
+        [-0.1372,  0.0028,  0.0397,  ...,  0.0081, -0.1141,  0.0751],
+        [-0.1104, -0.0740,  0.1036,  ...,  0.2089, -0.0765, -0.2002]],
+       device='cuda:0'), grad: tensor([[ 4.4703e-08,  1.3039e-08,  5.2154e-08,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [-2.6636e-07, -5.9605e-08, -3.3528e-07,  ...,  0.0000e+00,
+         -1.6764e-08,  0.0000e+00],
+        [-7.4506e-09,  0.0000e+00, -2.4214e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 8.9407e-08,  5.5879e-09,  4.2841e-08,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 7.0781e-08,  4.6566e-08,  8.5682e-08,  ...,  0.0000e+00,
+          3.7253e-09,  2.9802e-08],
+        [ 9.4995e-08,  3.1665e-08,  1.4156e-07,  ...,  0.0000e+00,
+          7.4506e-09,  3.7253e-09]], device='cuda:0')
+Epoch 333, bias, value: tensor([ 0.0291,  0.0058,  0.0199,  0.0178,  0.0425,  0.0119, -0.0034,  0.0015,
+        -0.0097, -0.0440], device='cuda:0'), grad: tensor([ 1.2852e-07, -4.5076e-07, -1.8626e-07,  4.2841e-08,  3.5390e-08,
+        -1.0990e-07,  5.5879e-09,  1.1176e-07,  1.8068e-07,  2.3842e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 332, time 218.41, cls_loss 0.0009 cls_loss_mapping 0.0012 cls_loss_causal 0.4716 re_mapping 0.0045 re_causal 0.0131 /// teacc 99.07 lr 0.00010000
+Epoch 334, weight, value: tensor([[-0.1670,  0.2321, -0.0328,  ..., -0.0218,  0.0719, -0.0320],
+        [ 0.1919, -0.1113,  0.0340,  ..., -0.0986,  0.0125, -0.0875],
+        [-0.0871, -0.2750, -0.0434,  ..., -0.0635,  0.0330, -0.2790],
+        ...,
+        [-0.1894, -0.3155,  0.0626,  ..., -0.1082, -0.0850, -0.1868],
+        [-0.1372,  0.0031,  0.0401,  ...,  0.0080, -0.1139,  0.0758],
+        [-0.1107, -0.0752,  0.1025,  ...,  0.2088, -0.0765, -0.2005]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -2.0675e-07, -1.4715e-07,  ...,  0.0000e+00,
+          0.0000e+00, -3.7253e-09],
+        [ 0.0000e+00,  5.5879e-09,  3.9116e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  1.8626e-09,  2.0489e-08,  ...,  0.0000e+00,
+          0.0000e+00,  7.4506e-09],
+        ...,
+        [ 3.7253e-09,  5.5879e-09, -1.0058e-07,  ...,  0.0000e+00,
+          0.0000e+00, -7.4506e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ...,  0.0000e+00,
+          0.0000e+00, -1.8626e-09],
+        [ 0.0000e+00,  1.2666e-07,  1.2666e-07,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09]], device='cuda:0')
+Epoch 334, bias, value: tensor([ 0.0298,  0.0056,  0.0199,  0.0150,  0.0424,  0.0140, -0.0034,  0.0020,
+        -0.0096, -0.0448], device='cuda:0'), grad: tensor([-2.7940e-07,  9.8720e-08, -6.7055e-08, -9.8348e-07,  0.0000e+00,
+         1.0505e-06,  3.9116e-08, -1.4901e-07,  3.9116e-08,  2.5891e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 333, time 217.99, cls_loss 0.0014 cls_loss_mapping 0.0022 cls_loss_causal 0.5145 re_mapping 0.0044 re_causal 0.0131 /// teacc 99.06 lr 0.00010000
+Epoch 335, weight, value: tensor([[-0.1677,  0.2328, -0.0324,  ..., -0.0217,  0.0715, -0.0322],
+        [ 0.1917, -0.1112,  0.0338,  ..., -0.0987,  0.0126, -0.0895],
+        [-0.0871, -0.2765, -0.0440,  ..., -0.0635,  0.0326, -0.2799],
+        ...,
+        [-0.1889, -0.3177,  0.0628,  ..., -0.1083, -0.0851, -0.1871],
+        [-0.1375,  0.0034,  0.0402,  ...,  0.0080, -0.1141,  0.0763],
+        [-0.1113, -0.0760,  0.1024,  ...,  0.2089, -0.0768, -0.2014]],
+       device='cuda:0'), grad: tensor([[ 4.2841e-08, -2.2911e-07, -1.8813e-07,  ...,  0.0000e+00,
+         -4.0978e-08, -1.4901e-08],
+        [-2.9802e-08,  1.0803e-07,  2.4214e-08,  ...,  0.0000e+00,
+          1.1176e-08,  3.3528e-08],
+        [ 3.7253e-09,  9.3132e-09, -3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.4214e-08],
+        ...,
+        [ 7.4506e-08,  7.2643e-08,  3.7253e-08,  ...,  0.0000e+00,
+          3.7253e-09,  5.5879e-08],
+        [ 1.8440e-07,  2.9802e-07,  7.6368e-08,  ...,  0.0000e+00,
+          1.4901e-08,  1.1921e-07],
+        [ 1.0245e-07,  1.4529e-07,  1.4901e-08,  ...,  0.0000e+00,
+          3.7253e-09,  6.1467e-08]], device='cuda:0')
+Epoch 335, bias, value: tensor([ 0.0301,  0.0049,  0.0198,  0.0119,  0.0427,  0.0172, -0.0037,  0.0025,
+        -0.0092, -0.0453], device='cuda:0'), grad: tensor([-3.4831e-07,  2.2165e-07, -1.3039e-08, -2.2352e-08, -1.3225e-07,
+        -7.9907e-07,  5.9605e-08,  2.2538e-07,  4.8056e-07,  3.0920e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 334, time 218.50, cls_loss 0.0010 cls_loss_mapping 0.0019 cls_loss_causal 0.5048 re_mapping 0.0043 re_causal 0.0129 /// teacc 99.03 lr 0.00010000
+Epoch 336, weight, value: tensor([[-0.1691,  0.2330, -0.0324,  ..., -0.0217,  0.0705, -0.0323],
+        [ 0.1920, -0.1101,  0.0339,  ..., -0.0990,  0.0137, -0.0901],
+        [-0.0871, -0.2769, -0.0430,  ..., -0.0635,  0.0341, -0.2797],
+        ...,
+        [-0.1891, -0.3188,  0.0627,  ..., -0.1085, -0.0881, -0.1877],
+        [-0.1381,  0.0033,  0.0400,  ...,  0.0080, -0.1156,  0.0772],
+        [-0.1115, -0.0762,  0.1026,  ...,  0.2091, -0.0771, -0.2016]],
+       device='cuda:0'), grad: tensor([[ 1.4901e-08,  1.3597e-07,  2.3097e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.3970e-07],
+        [ 7.4506e-08,  8.9407e-08,  8.2701e-07,  ...,  0.0000e+00,
+          6.8918e-08,  7.4506e-08],
+        [ 1.8626e-09,  3.5390e-07,  6.8173e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.5832e-07],
+        ...,
+        [-1.0058e-07,  9.8720e-08, -4.7311e-07,  ...,  0.0000e+00,
+         -9.4995e-08,  8.9407e-08],
+        [-1.8626e-09, -2.7306e-06, -4.0308e-06,  ...,  0.0000e+00,
+          0.0000e+00, -2.5984e-06],
+        [ 5.7742e-08,  1.8869e-06,  2.3413e-06,  ...,  0.0000e+00,
+          2.6077e-08,  2.0023e-06]], device='cuda:0')
+Epoch 336, bias, value: tensor([ 0.0301,  0.0048,  0.0206,  0.0119,  0.0429,  0.0171, -0.0037,  0.0025,
+        -0.0093, -0.0455], device='cuda:0'), grad: tensor([ 5.7742e-07,  1.1064e-06,  1.4827e-06,  2.3283e-07,  2.6636e-07,
+        -4.6492e-06,  4.8652e-06, -2.1420e-07, -9.7603e-06,  6.0685e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 335, time 218.37, cls_loss 0.0010 cls_loss_mapping 0.0019 cls_loss_causal 0.4846 re_mapping 0.0043 re_causal 0.0129 /// teacc 99.01 lr 0.00010000
+Epoch 337, weight, value: tensor([[-0.1710,  0.2333, -0.0323,  ..., -0.0218,  0.0700, -0.0332],
+        [ 0.1920, -0.1097,  0.0332,  ..., -0.0994,  0.0140, -0.0910],
+        [-0.0871, -0.2775, -0.0446,  ..., -0.0634,  0.0338, -0.2807],
+        ...,
+        [-0.1889, -0.3198,  0.0636,  ..., -0.1087, -0.0882, -0.1874],
+        [-0.1383,  0.0035,  0.0401,  ...,  0.0080, -0.1159,  0.0777],
+        [-0.1117, -0.0764,  0.1026,  ...,  0.2092, -0.0772, -0.2020]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -2.0433e-06, -6.5938e-07,  ...,  0.0000e+00,
+         -1.6950e-07, -2.5518e-07],
+        [-5.2154e-08,  3.9674e-07,  1.8254e-07,  ...,  0.0000e+00,
+          3.1665e-08,  5.5879e-08],
+        [ 9.1270e-08,  1.3635e-06,  7.7859e-07,  ...,  0.0000e+00,
+          7.4506e-09,  1.1958e-06],
+        ...,
+        [ 1.6764e-08,  3.3528e-08, -4.0978e-07,  ...,  0.0000e+00,
+          1.8626e-09,  9.3132e-09],
+        [-1.3597e-07, -2.1737e-06, -1.3430e-06,  ...,  0.0000e+00,
+          2.2352e-08, -2.2706e-06],
+        [ 4.2841e-08,  3.7253e-07,  4.1910e-07,  ...,  0.0000e+00,
+          2.7940e-08,  8.3819e-08]], device='cuda:0')
+Epoch 337, bias, value: tensor([ 0.0301,  0.0044,  0.0204,  0.0119,  0.0429,  0.0171, -0.0038,  0.0030,
+        -0.0093, -0.0456], device='cuda:0'), grad: tensor([-4.7907e-06,  1.4026e-06,  3.0566e-06,  2.1420e-07,  7.4320e-07,
+         2.1271e-06,  1.8273e-06, -2.8871e-07, -5.6066e-06,  1.2890e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 336, time 218.28, cls_loss 0.0012 cls_loss_mapping 0.0021 cls_loss_causal 0.4558 re_mapping 0.0044 re_causal 0.0124 /// teacc 98.99 lr 0.00010000
+Epoch 338, weight, value: tensor([[-0.1718,  0.2335, -0.0323,  ..., -0.0218,  0.0701, -0.0346],
+        [ 0.1919, -0.1098,  0.0317,  ..., -0.0996,  0.0142, -0.0932],
+        [-0.0872, -0.2784, -0.0455,  ..., -0.0635,  0.0346, -0.2823],
+        ...,
+        [-0.1886, -0.3219,  0.0650,  ..., -0.1088, -0.0894, -0.1857],
+        [-0.1388,  0.0041,  0.0398,  ...,  0.0081, -0.1157,  0.0785],
+        [-0.1118, -0.0767,  0.1031,  ...,  0.2096, -0.0773, -0.2023]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09, -1.8626e-09,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [-2.6450e-07, -1.6764e-08, -1.1176e-07,  ...,  0.0000e+00,
+         -7.4506e-09, -2.6077e-08],
+        [ 7.4506e-08,  9.3132e-09,  4.8429e-08,  ...,  0.0000e+00,
+          1.8626e-09,  1.6764e-08],
+        ...,
+        [ 8.0094e-08,  3.7253e-09, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-09],
+        [ 2.2352e-08,  0.0000e+00,  2.6077e-08,  ...,  3.7253e-09,
+          1.8626e-09, -1.8626e-09],
+        [ 9.3132e-09, -4.0978e-08, -2.2911e-07,  ..., -4.4703e-08,
+          0.0000e+00, -7.4506e-08]], device='cuda:0')
+Epoch 338, bias, value: tensor([ 0.0301,  0.0034,  0.0204,  0.0119,  0.0426,  0.0171, -0.0038,  0.0039,
+        -0.0094, -0.0454], device='cuda:0'), grad: tensor([ 1.5460e-07, -3.2037e-07,  1.5460e-07,  1.5274e-07,  6.2212e-07,
+         5.4017e-08, -1.9185e-07,  6.1467e-08,  5.9605e-08, -7.5996e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 337, time 218.24, cls_loss 0.0012 cls_loss_mapping 0.0019 cls_loss_causal 0.4833 re_mapping 0.0044 re_causal 0.0126 /// teacc 98.99 lr 0.00010000
+Epoch 339, weight, value: tensor([[-0.1719,  0.2365, -0.0300,  ..., -0.0217,  0.0710, -0.0340],
+        [ 0.1930, -0.1103,  0.0321,  ..., -0.0997,  0.0144, -0.0933],
+        [-0.0889, -0.2791, -0.0484,  ..., -0.0635,  0.0329, -0.2831],
+        ...,
+        [-0.1887, -0.3224,  0.0649,  ..., -0.1089, -0.0897, -0.1858],
+        [-0.1390,  0.0043,  0.0413,  ...,  0.0081, -0.1158,  0.0813],
+        [-0.1118, -0.0769,  0.1037,  ...,  0.2105, -0.0782, -0.2023]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -9.0897e-07, -8.5123e-07,  ...,  0.0000e+00,
+         -9.4995e-08, -1.9558e-07],
+        [ 0.0000e+00,  3.3528e-08,  3.5390e-08,  ...,  0.0000e+00,
+          5.5879e-09,  1.6764e-08],
+        [ 0.0000e+00,  9.3132e-09, -4.0978e-08,  ...,  0.0000e+00,
+          1.8626e-09, -5.5879e-08],
+        ...,
+        [ 1.8626e-09,  1.3039e-08, -5.5879e-09,  ...,  0.0000e+00,
+          1.8626e-09,  1.6764e-07],
+        [ 0.0000e+00,  1.0617e-07,  1.0245e-07,  ...,  0.0000e+00,
+          1.1176e-08,  2.7940e-08],
+        [ 0.0000e+00,  6.2026e-07,  5.6438e-07,  ...,  0.0000e+00,
+          6.5193e-08,  1.5646e-07]], device='cuda:0')
+Epoch 339, bias, value: tensor([ 0.0319,  0.0039,  0.0190,  0.0119,  0.0422,  0.0171, -0.0064,  0.0038,
+        -0.0075, -0.0449], device='cuda:0'), grad: tensor([-2.1569e-06,  1.6205e-07, -6.8918e-07, -2.7977e-06,  1.5274e-07,
+         2.1681e-06,  2.0303e-07,  1.1865e-06,  2.9057e-07,  1.4585e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 338, time 217.80, cls_loss 0.0010 cls_loss_mapping 0.0018 cls_loss_causal 0.4840 re_mapping 0.0044 re_causal 0.0129 /// teacc 99.01 lr 0.00010000
+Epoch 340, weight, value: tensor([[-0.1723,  0.2371, -0.0296,  ..., -0.0217,  0.0713, -0.0343],
+        [ 0.1931, -0.1112,  0.0320,  ..., -0.1005,  0.0140, -0.0938],
+        [-0.0889, -0.2793, -0.0481,  ..., -0.0635,  0.0334, -0.2840],
+        ...,
+        [-0.1887, -0.3227,  0.0650,  ..., -0.1089, -0.0879, -0.1854],
+        [-0.1390,  0.0048,  0.0422,  ...,  0.0081, -0.1158,  0.0822],
+        [-0.1117, -0.0771,  0.1037,  ...,  0.2107, -0.0786, -0.2025]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09, -3.7253e-09,  2.0489e-08,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-09],
+        [ 5.5879e-09,  0.0000e+00,  3.4086e-07,  ...,  0.0000e+00,
+          0.0000e+00,  2.2352e-08],
+        [ 1.8626e-09,  0.0000e+00,  6.5193e-08,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        ...,
+        [ 1.4901e-08,  0.0000e+00, -5.2154e-07,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-08],
+        [ 1.4901e-08, -1.8626e-09,  6.3330e-08,  ...,  0.0000e+00,
+          0.0000e+00,  4.0978e-08],
+        [ 3.7253e-09,  1.8626e-09, -2.4401e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.3039e-08]], device='cuda:0')
+Epoch 340, bias, value: tensor([ 0.0322,  0.0037,  0.0195,  0.0120,  0.0420,  0.0171, -0.0067,  0.0040,
+        -0.0069, -0.0451], device='cuda:0'), grad: tensor([ 4.8615e-07,  5.6624e-07, -4.4703e-07, -3.9041e-05, -1.9185e-07,
+         3.8981e-05,  1.6764e-08, -7.3016e-07,  3.3155e-07,  5.2154e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 339, time 218.30, cls_loss 0.0011 cls_loss_mapping 0.0015 cls_loss_causal 0.4844 re_mapping 0.0045 re_causal 0.0128 /// teacc 99.04 lr 0.00010000
+Epoch 341, weight, value: tensor([[-0.1735,  0.2373, -0.0295,  ..., -0.0219,  0.0714, -0.0354],
+        [ 0.1930, -0.1119,  0.0318,  ..., -0.1007,  0.0139, -0.0940],
+        [-0.0889, -0.2795, -0.0478,  ..., -0.0636,  0.0333, -0.2852],
+        ...,
+        [-0.1886, -0.3234,  0.0651,  ..., -0.1089, -0.0873, -0.1855],
+        [-0.1393,  0.0049,  0.0422,  ...,  0.0080, -0.1158,  0.0821],
+        [-0.1118, -0.0771,  0.1038,  ...,  0.2111, -0.0789, -0.2029]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -7.4506e-09,  3.9674e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [-2.2352e-08,  1.1176e-08,  5.5879e-09,  ...,  0.0000e+00,
+          3.7253e-09,  5.0291e-08],
+        [ 1.8626e-09,  0.0000e+00, -7.2643e-07,  ...,  0.0000e+00,
+          0.0000e+00,  2.0489e-08],
+        ...,
+        [ 5.5879e-09,  3.7253e-09,  3.9674e-07,  ...,  0.0000e+00,
+          1.8626e-09,  2.4773e-07],
+        [ 9.3132e-09, -6.1467e-08,  7.4506e-08,  ...,  0.0000e+00,
+         -2.0489e-08,  3.7253e-08],
+        [ 0.0000e+00,  7.4506e-09, -1.7881e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 341, bias, value: tensor([ 0.0322,  0.0034,  0.0197,  0.0121,  0.0420,  0.0170, -0.0067,  0.0042,
+        -0.0071, -0.0452], device='cuda:0'), grad: tensor([ 1.0021e-06,  1.1921e-07, -1.8515e-06, -9.7603e-07,  7.2643e-08,
+         1.7136e-07,  5.5879e-09,  1.3616e-06,  3.8370e-07, -2.9057e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 340----------------------------------------------------
+epoch 340, time 218.96, cls_loss 0.0012 cls_loss_mapping 0.0027 cls_loss_causal 0.4766 re_mapping 0.0044 re_causal 0.0128 /// teacc 99.11 lr 0.00010000
+Epoch 342, weight, value: tensor([[-0.1694,  0.2396, -0.0288,  ..., -0.0219,  0.0700, -0.0310],
+        [ 0.1912, -0.1115,  0.0283,  ..., -0.1014,  0.0143, -0.0941],
+        [-0.0890, -0.2797, -0.0499,  ..., -0.0636,  0.0301, -0.2856],
+        ...,
+        [-0.1861, -0.3241,  0.0684,  ..., -0.1116, -0.0848, -0.1859],
+        [-0.1398,  0.0047,  0.0421,  ...,  0.0079, -0.1161,  0.0821],
+        [-0.1120, -0.0774,  0.1049,  ...,  0.2125, -0.0791, -0.2032]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -2.0713e-06, -3.2037e-07,  ...,  0.0000e+00,
+          0.0000e+00, -3.7253e-09],
+        [-1.4901e-08,  0.0000e+00, -9.3132e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  1.8626e-09, -1.7136e-07,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 9.3132e-09,  0.0000e+00,  6.7055e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 1.8626e-09,  3.7253e-09,  1.1176e-07,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  3.7253e-08, -2.7940e-08,  ..., -1.8626e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 342, bias, value: tensor([ 0.0336,  0.0009,  0.0188,  0.0121,  0.0419,  0.0167, -0.0069,  0.0066,
+        -0.0074, -0.0447], device='cuda:0'), grad: tensor([-3.2615e-06, -1.8626e-09, -1.3299e-06,  3.1665e-08,  3.1665e-08,
+         4.2841e-08,  3.2764e-06,  3.3341e-07,  8.6240e-07,  1.4901e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 341, time 218.03, cls_loss 0.0009 cls_loss_mapping 0.0017 cls_loss_causal 0.4937 re_mapping 0.0044 re_causal 0.0132 /// teacc 99.07 lr 0.00010000
+Epoch 343, weight, value: tensor([[-0.1694,  0.2402, -0.0286,  ..., -0.0219,  0.0698, -0.0310],
+        [ 0.1920, -0.1100,  0.0288,  ..., -0.1019,  0.0160, -0.0926],
+        [-0.0891, -0.2802, -0.0499,  ..., -0.0636,  0.0300, -0.2862],
+        ...,
+        [-0.1863, -0.3249,  0.0684,  ..., -0.1118, -0.0849, -0.1861],
+        [-0.1403,  0.0045,  0.0417,  ...,  0.0078, -0.1166,  0.0822],
+        [-0.1121, -0.0775,  0.1050,  ...,  0.2130, -0.0792, -0.2033]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09, -1.6764e-08, -7.4506e-09,  ...,  0.0000e+00,
+          1.8626e-09,  1.8626e-09],
+        [ 2.7940e-08,  0.0000e+00,  1.3784e-07,  ...,  0.0000e+00,
+          3.7253e-09,  5.4017e-08],
+        [ 6.8918e-08,  0.0000e+00, -1.7323e-07,  ...,  0.0000e+00,
+         -4.2841e-08,  1.1735e-07],
+        ...,
+        [ 7.4506e-09,  0.0000e+00,  6.1467e-08,  ...,  0.0000e+00,
+          3.1665e-08,  5.5879e-09],
+        [ 1.4901e-08,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.0489e-08],
+        [ 5.5879e-09,  1.1176e-08, -5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-09]], device='cuda:0')
+Epoch 343, bias, value: tensor([ 0.0340,  0.0015,  0.0188,  0.0122,  0.0419,  0.0166, -0.0078,  0.0066,
+        -0.0078, -0.0448], device='cuda:0'), grad: tensor([ 3.1665e-08,  3.1851e-07, -3.7253e-07, -1.1940e-06, -1.1176e-08,
+         8.2329e-07, -7.4506e-08,  3.4645e-07,  8.3819e-08,  2.4214e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 342, time 218.05, cls_loss 0.0010 cls_loss_mapping 0.0018 cls_loss_causal 0.4750 re_mapping 0.0045 re_causal 0.0131 /// teacc 99.04 lr 0.00010000
+Epoch 344, weight, value: tensor([[-0.1695,  0.2402, -0.0300,  ..., -0.0221,  0.0697, -0.0309],
+        [ 0.1923, -0.1101,  0.0289,  ..., -0.1026,  0.0161, -0.0927],
+        [-0.0891, -0.2804, -0.0500,  ..., -0.0637,  0.0301, -0.2864],
+        ...,
+        [-0.1867, -0.3259,  0.0682,  ..., -0.1119, -0.0850, -0.1865],
+        [-0.1404,  0.0049,  0.0423,  ...,  0.0077, -0.1167,  0.0826],
+        [-0.1127, -0.0777,  0.1063,  ...,  0.2144, -0.0786, -0.2035]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09, -5.5879e-08, -3.9116e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  1.8626e-09,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  1.8626e-09, -2.6077e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [-2.7940e-08, -7.4506e-08, -7.6368e-08,  ...,  0.0000e+00,
+          0.0000e+00, -6.1467e-08],
+        [ 3.7253e-09,  3.9116e-08,  3.3528e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 344, bias, value: tensor([ 0.0332,  0.0015,  0.0188,  0.0121,  0.0416,  0.0167, -0.0076,  0.0064,
+        -0.0074, -0.0437], device='cuda:0'), grad: tensor([-9.3132e-09,  1.3039e-08,  9.3132e-09,  1.0058e-07,  6.1467e-08,
+         1.4901e-08, -1.2107e-07, -5.0291e-08, -1.1362e-07,  9.4995e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 343, time 217.82, cls_loss 0.0009 cls_loss_mapping 0.0018 cls_loss_causal 0.4913 re_mapping 0.0044 re_causal 0.0133 /// teacc 99.08 lr 0.00010000
+Epoch 345, weight, value: tensor([[-0.1696,  0.2402, -0.0301,  ..., -0.0221,  0.0693, -0.0311],
+        [ 0.1925, -0.1099,  0.0289,  ..., -0.1027,  0.0160, -0.0928],
+        [-0.0891, -0.2805, -0.0491,  ..., -0.0638,  0.0304, -0.2875],
+        ...,
+        [-0.1868, -0.3277,  0.0682,  ..., -0.1120, -0.0853, -0.1867],
+        [-0.1409,  0.0049,  0.0421,  ...,  0.0076, -0.1171,  0.0827],
+        [-0.1129, -0.0779,  0.1063,  ...,  0.2150, -0.0787, -0.2037]],
+       device='cuda:0'), grad: tensor([[-4.2841e-08, -1.2480e-07, -4.2841e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-1.1176e-08,  1.1176e-08,  2.2352e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-08],
+        [ 1.8626e-09,  5.5879e-09,  9.3132e-09,  ...,  0.0000e+00,
+          0.0000e+00,  7.4506e-09],
+        ...,
+        [ 5.5879e-09,  0.0000e+00,  1.1176e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 3.7253e-09, -1.6764e-08, -5.2154e-08,  ...,  0.0000e+00,
+          0.0000e+00, -2.9802e-08],
+        [ 1.1176e-08,  2.4214e-08,  7.4506e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09]], device='cuda:0')
+Epoch 345, bias, value: tensor([ 0.0331,  0.0015,  0.0195,  0.0121,  0.0416,  0.0167, -0.0073,  0.0063,
+        -0.0080, -0.0438], device='cuda:0'), grad: tensor([-1.7509e-07,  8.1956e-08,  4.4703e-08,  1.8626e-09, -1.4901e-07,
+         5.7742e-08,  7.4506e-08,  3.7253e-08, -1.4715e-07,  1.8254e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 344, time 217.83, cls_loss 0.0013 cls_loss_mapping 0.0018 cls_loss_causal 0.4785 re_mapping 0.0043 re_causal 0.0123 /// teacc 99.10 lr 0.00010000
+Epoch 346, weight, value: tensor([[-0.1700,  0.2405, -0.0300,  ..., -0.0222,  0.0695, -0.0326],
+        [ 0.1929, -0.1109,  0.0290,  ..., -0.1033,  0.0166, -0.0933],
+        [-0.0888, -0.2815, -0.0493,  ..., -0.0640,  0.0291, -0.2886],
+        ...,
+        [-0.1871, -0.3290,  0.0681,  ..., -0.1132, -0.0857, -0.1874],
+        [-0.1412,  0.0060,  0.0424,  ...,  0.0076, -0.1172,  0.0831],
+        [-0.1136, -0.0784,  0.1065,  ...,  0.2156, -0.0789, -0.2043]],
+       device='cuda:0'), grad: tensor([[ 3.5390e-08, -1.1176e-08, -5.5879e-09,  ...,  0.0000e+00,
+          1.8626e-09,  9.3132e-09],
+        [ 2.2277e-06,  9.6112e-07, -3.5390e-08,  ...,  0.0000e+00,
+          2.2724e-07,  6.5379e-07],
+        [ 1.6764e-08,  1.8626e-09,  9.3132e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        ...,
+        [ 2.9802e-08,  3.7253e-09,  3.1665e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 1.8626e-07,  7.4506e-08, -1.8626e-09,  ...,  0.0000e+00,
+          1.8626e-08,  5.0291e-08],
+        [ 1.1809e-06,  5.1409e-07, -7.4506e-09,  ...,  0.0000e+00,
+          1.1921e-07,  3.4273e-07]], device='cuda:0')
+Epoch 346, bias, value: tensor([ 0.0331,  0.0015,  0.0206,  0.0120,  0.0421,  0.0166, -0.0070,  0.0060,
+        -0.0085, -0.0440], device='cuda:0'), grad: tensor([ 1.9930e-07,  2.3525e-06,  1.1176e-08,  4.9807e-06,  1.8626e-08,
+        -8.4043e-06, -7.4692e-07,  8.7544e-08,  2.7008e-07,  1.2424e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 345, time 218.40, cls_loss 0.0008 cls_loss_mapping 0.0012 cls_loss_causal 0.4649 re_mapping 0.0042 re_causal 0.0126 /// teacc 99.08 lr 0.00010000
+Epoch 347, weight, value: tensor([[-0.1703,  0.2406, -0.0299,  ..., -0.0221,  0.0695, -0.0333],
+        [ 0.1932, -0.1110,  0.0291,  ..., -0.1041,  0.0164, -0.0934],
+        [-0.0885, -0.2832, -0.0493,  ..., -0.0640,  0.0291, -0.2881],
+        ...,
+        [-0.1876, -0.3304,  0.0680,  ..., -0.1133, -0.0858, -0.1875],
+        [-0.1415,  0.0060,  0.0424,  ...,  0.0075, -0.1173,  0.0831],
+        [-0.1140, -0.0789,  0.1065,  ...,  0.2159, -0.0790, -0.2048]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -2.2352e-08, -1.6764e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-2.0489e-08,  0.0000e+00,  1.1548e-07,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 3.7253e-09,  0.0000e+00,  2.2352e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        ...,
+        [ 3.7253e-09,  0.0000e+00, -1.0245e-07,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-09],
+        [ 3.7253e-09,  0.0000e+00,  4.0978e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 7.4506e-09,  2.0489e-08, -2.2911e-07,  ...,  0.0000e+00,
+          0.0000e+00, -1.8626e-08]], device='cuda:0')
+Epoch 347, bias, value: tensor([ 0.0331,  0.0016,  0.0211,  0.0120,  0.0422,  0.0166, -0.0067,  0.0059,
+        -0.0087, -0.0443], device='cuda:0'), grad: tensor([-4.2841e-08,  1.6391e-07, -3.3528e-08,  1.1176e-08,  2.6263e-07,
+         5.5879e-09,  9.3132e-09, -4.8429e-08,  6.1467e-08, -4.0606e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 346, time 217.91, cls_loss 0.0010 cls_loss_mapping 0.0013 cls_loss_causal 0.5289 re_mapping 0.0042 re_causal 0.0126 /// teacc 99.01 lr 0.00010000
+Epoch 348, weight, value: tensor([[-0.1703,  0.2410, -0.0297,  ..., -0.0221,  0.0696, -0.0325],
+        [ 0.1942, -0.1107,  0.0290,  ..., -0.1046,  0.0166, -0.0934],
+        [-0.0891, -0.2845, -0.0503,  ..., -0.0641,  0.0288, -0.2885],
+        ...,
+        [-0.1881, -0.3321,  0.0683,  ..., -0.1135, -0.0858, -0.1877],
+        [-0.1422,  0.0059,  0.0420,  ...,  0.0071, -0.1176,  0.0831],
+        [-0.1142, -0.0793,  0.1065,  ...,  0.2164, -0.0792, -0.2048]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09, -2.2352e-08, -7.4506e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-1.1958e-06,  1.8626e-09, -7.5996e-07,  ...,  0.0000e+00,
+         -2.6077e-08,  0.0000e+00],
+        [ 2.9802e-08,  1.8626e-09,  2.4214e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        ...,
+        [ 4.6194e-07,  1.8626e-09,  2.5332e-07,  ...,  0.0000e+00,
+          9.3132e-09, -5.5879e-09],
+        [ 1.8626e-09, -5.5879e-09,  1.1176e-08,  ...,  0.0000e+00,
+         -1.8626e-09, -7.4506e-09],
+        [ 5.0478e-07,  1.3039e-08,  2.7753e-07,  ...,  0.0000e+00,
+          1.1176e-08,  1.8626e-09]], device='cuda:0')
+Epoch 348, bias, value: tensor([ 0.0332,  0.0019,  0.0205,  0.0121,  0.0424,  0.0166, -0.0068,  0.0058,
+        -0.0093, -0.0444], device='cuda:0'), grad: tensor([ 3.5949e-07, -1.9502e-06,  1.1735e-07,  6.8918e-08,  3.0920e-07,
+         4.4703e-08, -4.5262e-07,  6.7800e-07,  2.4214e-08,  7.8976e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 347, time 217.93, cls_loss 0.0011 cls_loss_mapping 0.0018 cls_loss_causal 0.4877 re_mapping 0.0042 re_causal 0.0123 /// teacc 99.03 lr 0.00010000
+Epoch 349, weight, value: tensor([[-0.1703,  0.2412, -0.0296,  ..., -0.0218,  0.0694, -0.0327],
+        [ 0.1947, -0.1104,  0.0292,  ..., -0.1058,  0.0169, -0.0937],
+        [-0.0893, -0.2864, -0.0510,  ..., -0.0646,  0.0288, -0.2891],
+        ...,
+        [-0.1887, -0.3371,  0.0682,  ..., -0.1137, -0.0864, -0.1883],
+        [-0.1427,  0.0064,  0.0416,  ...,  0.0069, -0.1180,  0.0839],
+        [-0.1151, -0.0799,  0.1065,  ...,  0.2167, -0.0793, -0.2055]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.0673e-06, -7.1153e-07,  ...,  0.0000e+00,
+          2.7940e-08,  1.1176e-08],
+        [ 0.0000e+00,  1.0058e-07,  2.0303e-07,  ...,  0.0000e+00,
+          0.0000e+00,  7.8231e-08],
+        [ 0.0000e+00,  3.1665e-08,  3.3528e-08,  ...,  0.0000e+00,
+          0.0000e+00,  7.4506e-09],
+        ...,
+        [ 0.0000e+00,  9.1828e-07,  2.4736e-06,  ...,  0.0000e+00,
+          8.7544e-08,  8.7731e-07],
+        [ 1.8626e-09, -1.0859e-06, -2.7660e-06,  ...,  0.0000e+00,
+          0.0000e+00, -1.1679e-06],
+        [ 0.0000e+00,  6.0536e-07,  3.1106e-07,  ...,  0.0000e+00,
+         -1.1735e-07,  1.3784e-07]], device='cuda:0')
+Epoch 349, bias, value: tensor([ 0.0332,  0.0022,  0.0202,  0.0121,  0.0423,  0.0166, -0.0066,  0.0058,
+        -0.0095, -0.0446], device='cuda:0'), grad: tensor([-2.7437e-06,  3.5577e-07,  1.1735e-07,  1.7881e-07,  1.8068e-07,
+         1.8626e-07,  8.1770e-07,  3.7961e-06, -4.1500e-06,  1.2554e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 348, time 218.28, cls_loss 0.0010 cls_loss_mapping 0.0016 cls_loss_causal 0.4991 re_mapping 0.0045 re_causal 0.0129 /// teacc 99.05 lr 0.00010000
+Epoch 350, weight, value: tensor([[-0.1728,  0.2400, -0.0289,  ..., -0.0218,  0.0694, -0.0332],
+        [ 0.1949, -0.1100,  0.0293,  ..., -0.1067,  0.0170, -0.0938],
+        [-0.0894, -0.2870, -0.0513,  ..., -0.0648,  0.0288, -0.2893],
+        ...,
+        [-0.1888, -0.3379,  0.0681,  ..., -0.1155, -0.0865, -0.1891],
+        [-0.1437,  0.0060,  0.0413,  ...,  0.0064, -0.1184,  0.0841],
+        [-0.1152, -0.0815,  0.1065,  ...,  0.2182, -0.0795, -0.2059]],
+       device='cuda:0'), grad: tensor([[ 4.8336e-07,  0.0000e+00,  6.1747e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.1176e-08],
+        [ 1.7695e-08,  9.3132e-10,  1.5832e-08,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 6.5193e-09,  1.8626e-09, -2.7940e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 8.7544e-08,  6.7055e-08,  1.0710e-07,  ...,  0.0000e+00,
+          0.0000e+00,  5.7742e-08],
+        [ 9.3132e-09,  7.4506e-09, -7.4506e-08,  ...,  0.0000e+00,
+          0.0000e+00, -2.4214e-08]], device='cuda:0')
+Epoch 350, bias, value: tensor([ 0.0315,  0.0022,  0.0203,  0.0121,  0.0421,  0.0165, -0.0044,  0.0057,
+        -0.0103, -0.0449], device='cuda:0'), grad: tensor([ 6.5118e-06,  2.2724e-07, -3.9861e-07,  4.4517e-07, -7.9162e-08,
+         1.2666e-07, -7.4282e-06, -2.3283e-08,  6.2864e-07, -3.6322e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 349, time 218.12, cls_loss 0.0009 cls_loss_mapping 0.0011 cls_loss_causal 0.4907 re_mapping 0.0045 re_causal 0.0133 /// teacc 98.99 lr 0.00010000
+Epoch 351, weight, value: tensor([[-0.1732,  0.2399, -0.0288,  ..., -0.0218,  0.0694, -0.0334],
+        [ 0.1954, -0.1098,  0.0294,  ..., -0.1070,  0.0173, -0.0939],
+        [-0.0896, -0.2871, -0.0508,  ..., -0.0649,  0.0288, -0.2895],
+        ...,
+        [-0.1889, -0.3378,  0.0682,  ..., -0.1155, -0.0865, -0.1893],
+        [-0.1445,  0.0058,  0.0400,  ...,  0.0063, -0.1188,  0.0839],
+        [-0.1160, -0.0820,  0.1068,  ...,  0.2183, -0.0796, -0.2058]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -3.7253e-09, -9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-9.1735e-07,  1.3039e-08, -1.8533e-07,  ...,  0.0000e+00,
+          0.0000e+00,  8.3819e-09],
+        [ 8.6147e-07,  7.4506e-09,  5.3644e-07,  ...,  0.0000e+00,
+          0.0000e+00,  6.9849e-08],
+        ...,
+        [ 2.8871e-08,  1.8626e-09,  8.1025e-08,  ...,  0.0000e+00,
+          0.0000e+00,  2.1420e-08],
+        [-3.7253e-09, -2.8871e-08, -1.4873e-06,  ...,  0.0000e+00,
+          0.0000e+00, -3.9954e-07],
+        [ 1.1176e-08,  1.1176e-08,  9.9372e-07,  ...,  0.0000e+00,
+          0.0000e+00,  2.8871e-07]], device='cuda:0')
+Epoch 351, bias, value: tensor([ 0.0312,  0.0023,  0.0208,  0.0121,  0.0418,  0.0165, -0.0041,  0.0057,
+        -0.0121, -0.0450], device='cuda:0'), grad: tensor([ 7.2643e-08, -7.4133e-07,  1.2396e-06, -1.6764e-08,  5.5879e-08,
+         7.3574e-08, -1.2014e-07,  1.1735e-07, -1.7695e-06,  1.0962e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 350, time 217.68, cls_loss 0.0010 cls_loss_mapping 0.0013 cls_loss_causal 0.4989 re_mapping 0.0045 re_causal 0.0132 /// teacc 99.11 lr 0.00010000
+Epoch 352, weight, value: tensor([[-0.1733,  0.2402, -0.0288,  ..., -0.0217,  0.0695, -0.0335],
+        [ 0.1955, -0.1099,  0.0293,  ..., -0.1071,  0.0173, -0.0940],
+        [-0.0898, -0.2878, -0.0509,  ..., -0.0649,  0.0288, -0.2908],
+        ...,
+        [-0.1888, -0.3416,  0.0684,  ..., -0.1155, -0.0867, -0.1902],
+        [-0.1454,  0.0058,  0.0400,  ...,  0.0063, -0.1191,  0.0842],
+        [-0.1164, -0.0821,  0.1065,  ...,  0.2183, -0.0798, -0.2058]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-1.3039e-08,  0.0000e+00, -5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  9.3132e-10,  1.5832e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 9.3132e-09,  0.0000e+00,  1.9558e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09, -9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -3.7253e-09],
+        [ 9.3132e-10,  0.0000e+00, -5.4948e-08,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 352, bias, value: tensor([ 0.0313,  0.0023,  0.0208,  0.0122,  0.0418,  0.0165, -0.0042,  0.0059,
+        -0.0125, -0.0452], device='cuda:0'), grad: tensor([ 9.4064e-08,  1.5087e-07,  4.2841e-08,  3.0734e-08, -1.0477e-06,
+         1.2107e-08,  2.2538e-07,  1.0617e-07,  2.3283e-08,  3.7346e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 351, time 217.92, cls_loss 0.0009 cls_loss_mapping 0.0017 cls_loss_causal 0.4833 re_mapping 0.0046 re_causal 0.0135 /// teacc 99.01 lr 0.00010000
+Epoch 353, weight, value: tensor([[-0.1734,  0.2404, -0.0281,  ..., -0.0218,  0.0692, -0.0338],
+        [ 0.1970, -0.1098,  0.0300,  ..., -0.1075,  0.0175, -0.0942],
+        [-0.0896, -0.2883, -0.0511,  ..., -0.0649,  0.0287, -0.2901],
+        ...,
+        [-0.1905, -0.3421,  0.0679,  ..., -0.1156, -0.0861, -0.1902],
+        [-0.1457,  0.0059,  0.0399,  ...,  0.0062, -0.1193,  0.0842],
+        [-0.1167, -0.0831,  0.1060,  ...,  0.2185, -0.0801, -0.2060]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-3.7253e-09,  0.0000e+00, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00, -2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        ...,
+        [ 3.7253e-09,  0.0000e+00, -1.7695e-08,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 2.7940e-09, -1.8626e-09, -3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00, -5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.2352e-08,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09]], device='cuda:0')
+Epoch 353, bias, value: tensor([ 0.0316,  0.0030,  0.0211,  0.0122,  0.0421,  0.0165, -0.0042,  0.0053,
+        -0.0127, -0.0462], device='cuda:0'), grad: tensor([ 1.0245e-08, -5.5879e-09, -2.4214e-08,  0.0000e+00,  3.7253e-09,
+         5.5879e-09,  9.3132e-10, -3.2596e-08, -8.3819e-09,  4.4703e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 352, time 217.73, cls_loss 0.0009 cls_loss_mapping 0.0019 cls_loss_causal 0.5015 re_mapping 0.0045 re_causal 0.0133 /// teacc 99.02 lr 0.00010000
+Epoch 354, weight, value: tensor([[-0.1735,  0.2407, -0.0281,  ..., -0.0234,  0.0704, -0.0343],
+        [ 0.1971, -0.1098,  0.0299,  ..., -0.1076,  0.0177, -0.0943],
+        [-0.0897, -0.2891, -0.0512,  ..., -0.0654,  0.0286, -0.2906],
+        ...,
+        [-0.1904, -0.3422,  0.0681,  ..., -0.1157, -0.0862, -0.1904],
+        [-0.1461,  0.0057,  0.0400,  ...,  0.0061, -0.1194,  0.0842],
+        [-0.1171, -0.0836,  0.1090,  ...,  0.2235, -0.0804, -0.2062]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -7.5437e-08, -9.3132e-08,  ...,  0.0000e+00,
+          2.7940e-09, -9.3132e-10],
+        [ 9.3132e-10,  1.3039e-08,  2.5146e-08,  ...,  1.8626e-09,
+          3.7253e-09,  1.3039e-08],
+        [ 0.0000e+00,  3.7253e-09,  9.3132e-09,  ...,  9.3132e-10,
+         -2.0489e-08,  8.3819e-09],
+        ...,
+        [ 9.3132e-10,  3.7253e-09,  2.7940e-09,  ...,  9.3132e-10,
+          2.7940e-09,  1.3970e-08],
+        [ 0.0000e+00, -9.3132e-08, -2.9802e-07,  ..., -4.2841e-08,
+         -9.2201e-08, -2.1514e-07],
+        [ 9.3132e-10,  1.0431e-07,  2.7940e-07,  ...,  3.6322e-08,
+          7.8231e-08,  1.8533e-07]], device='cuda:0')
+Epoch 354, bias, value: tensor([ 0.0316,  0.0029,  0.0211,  0.0122,  0.0392,  0.0164, -0.0042,  0.0054,
+        -0.0129, -0.0436], device='cuda:0'), grad: tensor([-1.9185e-07,  8.0094e-08, -4.2841e-08, -5.1223e-08, -6.6962e-07,
+         8.8476e-08,  2.0023e-07,  4.9360e-08, -6.8266e-07,  1.2368e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 353, time 217.90, cls_loss 0.0012 cls_loss_mapping 0.0015 cls_loss_causal 0.4884 re_mapping 0.0042 re_causal 0.0122 /// teacc 99.04 lr 0.00010000
+Epoch 355, weight, value: tensor([[-0.1735,  0.2409, -0.0280,  ..., -0.0230,  0.0704, -0.0347],
+        [ 0.1968, -0.1114,  0.0298,  ..., -0.1083,  0.0171, -0.0954],
+        [-0.0898, -0.2898, -0.0514,  ..., -0.0654,  0.0286, -0.2912],
+        ...,
+        [-0.1904, -0.3424,  0.0682,  ..., -0.1157, -0.0864, -0.1905],
+        [-0.1462,  0.0060,  0.0405,  ...,  0.0063, -0.1197,  0.0849],
+        [-0.1198, -0.0848,  0.1088,  ...,  0.2236, -0.0824, -0.2088]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -8.0094e-08,  1.8626e-08,  ...,  0.0000e+00,
+          9.3132e-10, -9.3132e-10],
+        [-7.1898e-07,  7.4506e-09, -7.4785e-07,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [ 2.7940e-09,  5.5879e-09,  7.4506e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09],
+        ...,
+        [ 7.0874e-07,  2.7940e-09,  8.0932e-07,  ...,  9.3132e-10,
+          9.3132e-10,  2.7940e-09],
+        [ 9.3132e-10,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -2.7940e-09],
+        [ 1.3970e-08,  2.7940e-09, -1.5832e-07,  ..., -1.8626e-09,
+          9.3132e-10,  9.3132e-10]], device='cuda:0')
+Epoch 355, bias, value: tensor([ 0.0317,  0.0027,  0.0211,  0.0122,  0.0403,  0.0165, -0.0042,  0.0056,
+        -0.0127, -0.0449], device='cuda:0'), grad: tensor([-2.0489e-08, -1.0943e-06,  7.4506e-09, -9.3132e-10,  1.8626e-08,
+        -1.8626e-09,  1.4249e-07,  1.2172e-06,  2.7940e-09, -2.6356e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 354, time 217.91, cls_loss 0.0011 cls_loss_mapping 0.0017 cls_loss_causal 0.4653 re_mapping 0.0041 re_causal 0.0123 /// teacc 99.05 lr 0.00010000
+Epoch 356, weight, value: tensor([[-0.1739,  0.2407, -0.0284,  ..., -0.0254,  0.0708, -0.0351],
+        [ 0.1967, -0.1128,  0.0297,  ..., -0.1085,  0.0162, -0.0960],
+        [-0.0899, -0.2903, -0.0514,  ..., -0.0665,  0.0286, -0.2918],
+        ...,
+        [-0.1907, -0.3439,  0.0679,  ..., -0.1158, -0.0884, -0.1910],
+        [-0.1493,  0.0032,  0.0389,  ...,  0.0062, -0.1228,  0.0831],
+        [-0.1187, -0.0852,  0.1095,  ...,  0.2241, -0.0786, -0.2088]],
+       device='cuda:0'), grad: tensor([[ 1.1176e-08, -1.5646e-07, -7.2643e-08,  ...,  0.0000e+00,
+          0.0000e+00, -1.9558e-08],
+        [-1.4585e-06,  1.8626e-09, -9.9186e-07,  ...,  0.0000e+00,
+         -1.1176e-08,  1.8626e-09],
+        [ 9.6112e-07,  1.8626e-09,  6.7148e-07,  ...,  0.0000e+00,
+          1.2107e-08,  5.5879e-09],
+        ...,
+        [ 6.5193e-09,  1.8626e-09, -1.9558e-08,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-09],
+        [ 1.6764e-08, -9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  3.2596e-08],
+        [ 4.6566e-09,  3.0734e-08,  2.6077e-08,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-09]], device='cuda:0')
+Epoch 356, bias, value: tensor([ 0.0310,  0.0026,  0.0216,  0.0123,  0.0404,  0.0167, -0.0041,  0.0051,
+        -0.0150, -0.0442], device='cuda:0'), grad: tensor([-1.9930e-07, -3.0473e-06,  2.1122e-06, -8.1956e-08,  2.7940e-09,
+         1.0431e-07,  5.3924e-07, -1.8626e-08,  5.1036e-07,  8.6613e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 355, time 218.15, cls_loss 0.0009 cls_loss_mapping 0.0011 cls_loss_causal 0.4646 re_mapping 0.0042 re_causal 0.0121 /// teacc 99.08 lr 0.00010000
+Epoch 357, weight, value: tensor([[-0.1739,  0.2408, -0.0282,  ..., -0.0254,  0.0706, -0.0354],
+        [ 0.1977, -0.1132,  0.0299,  ..., -0.1088,  0.0173, -0.0964],
+        [-0.0913, -0.2908, -0.0522,  ..., -0.0667,  0.0255, -0.2916],
+        ...,
+        [-0.1910, -0.3442,  0.0678,  ..., -0.1162, -0.0893, -0.1911],
+        [-0.1494,  0.0035,  0.0394,  ...,  0.0062, -0.1229,  0.0843],
+        [-0.1192, -0.0860,  0.1097,  ...,  0.2241, -0.0776, -0.2098]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  9.3132e-10],
+        [ 9.3132e-10,  9.3132e-10,  1.8626e-09,  ...,  0.0000e+00,
+          2.7940e-09,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          9.3132e-10,  5.5879e-09],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  6.5193e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [ 4.6566e-09, -7.6368e-08, -1.6112e-07,  ..., -9.3132e-10,
+         -2.4308e-07, -2.6170e-07],
+        [ 4.6566e-09,  3.7253e-09, -4.6566e-09,  ...,  0.0000e+00,
+          1.8626e-09,  5.5879e-09]], device='cuda:0')
+Epoch 357, bias, value: tensor([ 0.0308,  0.0030,  0.0212,  0.0124,  0.0404,  0.0166, -0.0040,  0.0049,
+        -0.0148, -0.0442], device='cuda:0'), grad: tensor([ 4.2841e-08,  1.3039e-08, -1.8999e-07,  3.0734e-08,  1.4622e-07,
+         2.0023e-07,  5.3924e-07,  8.2888e-08, -8.6799e-07,  2.7940e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 356, time 218.60, cls_loss 0.0009 cls_loss_mapping 0.0014 cls_loss_causal 0.4860 re_mapping 0.0043 re_causal 0.0129 /// teacc 99.03 lr 0.00010000
+Epoch 358, weight, value: tensor([[-0.1740,  0.2416, -0.0277,  ..., -0.0255,  0.0721, -0.0356],
+        [ 0.1982, -0.1157,  0.0299,  ..., -0.1088,  0.0173, -0.0970],
+        [-0.0915, -0.2943, -0.0525,  ..., -0.0669,  0.0255, -0.2929],
+        ...,
+        [-0.1916, -0.3466,  0.0676,  ..., -0.1163, -0.0896, -0.1923],
+        [-0.1496,  0.0037,  0.0403,  ...,  0.0064, -0.1231,  0.0856],
+        [-0.1195, -0.0864,  0.1097,  ...,  0.2242, -0.0776, -0.2104]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 9.3132e-10,  0.0000e+00,  8.3819e-09,  ...,  0.0000e+00,
+          2.7940e-09,  4.6566e-09],
+        [ 2.7940e-09,  9.3132e-09,  1.3225e-07,  ...,  0.0000e+00,
+         -5.5879e-09,  3.0734e-08],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  1.4994e-07,  ...,  0.0000e+00,
+          2.7940e-09, -2.3283e-08],
+        [-3.7253e-09, -1.2107e-08, -5.5879e-09,  ...,  0.0000e+00,
+         -9.3132e-10,  2.5146e-08],
+        [ 9.3132e-10,  2.7940e-09, -2.9895e-07,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 358, bias, value: tensor([ 0.0312,  0.0028,  0.0211,  0.0125,  0.0404,  0.0166, -0.0041,  0.0046,
+        -0.0140, -0.0443], device='cuda:0'), grad: tensor([ 1.7229e-07,  9.0338e-08,  9.8720e-08,  2.7008e-08,  3.0734e-08,
+         1.1520e-06, -1.5460e-06,  3.0268e-07,  1.3039e-07, -4.5169e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 357, time 218.06, cls_loss 0.0008 cls_loss_mapping 0.0018 cls_loss_causal 0.4559 re_mapping 0.0044 re_causal 0.0126 /// teacc 99.02 lr 0.00010000
+Epoch 359, weight, value: tensor([[-0.1740,  0.2408, -0.0278,  ..., -0.0245,  0.0720, -0.0357],
+        [ 0.1984, -0.1157,  0.0300,  ..., -0.1087,  0.0174, -0.0971],
+        [-0.0915, -0.2968, -0.0527,  ..., -0.0670,  0.0255, -0.2943],
+        ...,
+        [-0.1917, -0.3474,  0.0676,  ..., -0.1165, -0.0898, -0.1925],
+        [-0.1500,  0.0036,  0.0403,  ...,  0.0064, -0.1233,  0.0860],
+        [-0.1195, -0.0870,  0.1096,  ...,  0.2241, -0.0776, -0.2106]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  4.6566e-09,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09],
+        [-2.0396e-07,  0.0000e+00, -5.4482e-07,  ...,  0.0000e+00,
+         -1.6764e-08,  6.2399e-08],
+        [ 3.3528e-08,  6.5193e-09,  1.6764e-08,  ...,  0.0000e+00,
+          0.0000e+00,  6.5193e-08],
+        ...,
+        [ 3.9041e-06,  0.0000e+00,  2.0843e-06,  ...,  0.0000e+00,
+          1.5832e-08,  1.4994e-07],
+        [ 2.2352e-08, -5.5879e-09,  6.5193e-09,  ...,  9.3132e-10,
+          0.0000e+00,  2.7008e-08],
+        [ 2.2724e-07, -4.6566e-09, -2.7940e-08,  ..., -2.7940e-09,
+          0.0000e+00,  1.5460e-07]], device='cuda:0')
+Epoch 359, bias, value: tensor([ 0.0305,  0.0029,  0.0210,  0.0125,  0.0406,  0.0166, -0.0033,  0.0044,
+        -0.0139, -0.0445], device='cuda:0'), grad: tensor([ 2.4214e-08, -1.7229e-07,  2.5798e-07, -1.5780e-05,  4.3772e-08,
+         6.5472e-07, -2.7008e-08,  1.4283e-05,  1.4994e-07,  5.8673e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 358, time 218.15, cls_loss 0.0009 cls_loss_mapping 0.0014 cls_loss_causal 0.4692 re_mapping 0.0043 re_causal 0.0125 /// teacc 98.91 lr 0.00010000
+Epoch 360, weight, value: tensor([[-0.1743,  0.2409, -0.0279,  ..., -0.0246,  0.0720, -0.0364],
+        [ 0.1987, -0.1158,  0.0301,  ..., -0.1083,  0.0173, -0.0972],
+        [-0.0915, -0.2978, -0.0529,  ..., -0.0666,  0.0255, -0.2951],
+        ...,
+        [-0.1921, -0.3479,  0.0675,  ..., -0.1174, -0.0898, -0.1930],
+        [-0.1498,  0.0046,  0.0409,  ...,  0.0066, -0.1233,  0.0876],
+        [-0.1194, -0.0872,  0.1098,  ...,  0.2244, -0.0776, -0.2109]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -3.3956e-06, -1.6047e-06,  ...,  0.0000e+00,
+          0.0000e+00, -6.5193e-09],
+        [-7.4506e-09,  4.0978e-08,  3.3528e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.2107e-08],
+        [ 1.8626e-09,  1.2107e-08,  1.6764e-08,  ...,  0.0000e+00,
+          0.0000e+00,  8.3819e-09],
+        ...,
+        [ 0.0000e+00,  1.9558e-08,  2.6077e-08,  ...,  0.0000e+00,
+          0.0000e+00,  2.5146e-08],
+        [ 9.3132e-10, -7.4506e-08, -1.4808e-07,  ...,  0.0000e+00,
+          0.0000e+00, -1.3784e-07],
+        [ 0.0000e+00,  8.6986e-07,  6.3237e-07,  ...,  0.0000e+00,
+          0.0000e+00,  3.8184e-08]], device='cuda:0')
+Epoch 360, bias, value: tensor([ 0.0304,  0.0029,  0.0211,  0.0126,  0.0404,  0.0165, -0.0032,  0.0043,
+        -0.0131, -0.0443], device='cuda:0'), grad: tensor([-6.4857e-06,  8.6613e-08, -1.0245e-08,  6.7987e-08,  3.7253e-09,
+         2.3097e-07,  4.6492e-06,  9.6858e-08, -4.0326e-07,  1.7816e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 359, time 218.06, cls_loss 0.0009 cls_loss_mapping 0.0014 cls_loss_causal 0.5085 re_mapping 0.0044 re_causal 0.0135 /// teacc 98.99 lr 0.00010000
+Epoch 361, weight, value: tensor([[-0.1744,  0.2408, -0.0278,  ..., -0.0247,  0.0720, -0.0364],
+        [ 0.1989, -0.1159,  0.0302,  ..., -0.1087,  0.0174, -0.0974],
+        [-0.0917, -0.2986, -0.0536,  ..., -0.0667,  0.0254, -0.2958],
+        ...,
+        [-0.1922, -0.3479,  0.0677,  ..., -0.1170, -0.0899, -0.1932],
+        [-0.1498,  0.0049,  0.0414,  ...,  0.0065, -0.1232,  0.0883],
+        [-0.1197, -0.0875,  0.1097,  ...,  0.2244, -0.0775, -0.2111]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -5.0291e-08, -2.5146e-08,  ...,  0.0000e+00,
+          0.0000e+00, -9.3132e-10],
+        [-5.5879e-09,  2.7940e-09,  1.3970e-08,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  9.3132e-10, -4.6566e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.2107e-08],
+        ...,
+        [-2.1420e-08,  9.3132e-10, -6.1467e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  9.3132e-10,  4.7497e-08,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 1.8626e-08,  2.3283e-08,  5.5879e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 361, bias, value: tensor([ 0.0301,  0.0030,  0.0207,  0.0147,  0.0405,  0.0143, -0.0025,  0.0044,
+        -0.0128, -0.0445], device='cuda:0'), grad: tensor([-1.0990e-07,  6.6124e-08, -8.1863e-07, -2.4214e-08, -2.7940e-08,
+         1.5832e-08,  2.7940e-08, -7.4506e-08,  8.1025e-07,  1.3877e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 360, time 218.16, cls_loss 0.0016 cls_loss_mapping 0.0016 cls_loss_causal 0.4922 re_mapping 0.0045 re_causal 0.0124 /// teacc 99.00 lr 0.00010000
+Epoch 362, weight, value: tensor([[-0.1744,  0.2412, -0.0279,  ..., -0.0249,  0.0718, -0.0365],
+        [ 0.1995, -0.1163,  0.0303,  ..., -0.1117,  0.0177, -0.0982],
+        [-0.0918, -0.3000, -0.0535,  ..., -0.0676,  0.0255, -0.2965],
+        ...,
+        [-0.1928, -0.3484,  0.0676,  ..., -0.1195, -0.0900, -0.1940],
+        [-0.1499,  0.0058,  0.0421,  ...,  0.0066, -0.1233,  0.0905],
+        [-0.1207, -0.0882,  0.1100,  ...,  0.2248, -0.0777, -0.2118]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09,  1.8626e-09,  2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-09],
+        [-5.8673e-08,  0.0000e+00, -4.2841e-08,  ...,  0.0000e+00,
+          3.7253e-09,  3.6322e-08],
+        [ 1.0245e-08,  9.3132e-10,  2.1420e-08,  ...,  0.0000e+00,
+          6.5193e-09,  1.5553e-07],
+        ...,
+        [ 3.1665e-08,  0.0000e+00,  1.6764e-08,  ...,  0.0000e+00,
+          2.7940e-09,  3.6322e-08],
+        [ 1.1176e-08, -4.6566e-09, -3.7253e-09,  ...,  0.0000e+00,
+          7.4506e-09,  6.9849e-08],
+        [ 4.6566e-09,  5.5879e-09,  5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.1176e-08]], device='cuda:0')
+Epoch 362, bias, value: tensor([ 0.0297,  0.0030,  0.0208,  0.0148,  0.0408,  0.0141, -0.0014,  0.0038,
+        -0.0123, -0.0450], device='cuda:0'), grad: tensor([ 2.8871e-08, -1.9558e-08,  2.3562e-07, -8.0653e-07,  1.4901e-08,
+         6.9849e-08,  2.4214e-08,  1.0617e-07,  1.8720e-07,  1.6205e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 361, time 218.12, cls_loss 0.0010 cls_loss_mapping 0.0018 cls_loss_causal 0.4881 re_mapping 0.0044 re_causal 0.0130 /// teacc 99.07 lr 0.00010000
+Epoch 363, weight, value: tensor([[-0.1744,  0.2413, -0.0279,  ..., -0.0250,  0.0719, -0.0368],
+        [ 0.1998, -0.1167,  0.0301,  ..., -0.1130,  0.0176, -0.0987],
+        [-0.0917, -0.3003, -0.0548,  ..., -0.0677,  0.0257, -0.2968],
+        ...,
+        [-0.1932, -0.3486,  0.0681,  ..., -0.1196, -0.0901, -0.1941],
+        [-0.1500,  0.0058,  0.0422,  ...,  0.0065, -0.1233,  0.0906],
+        [-0.1209, -0.0884,  0.1105,  ...,  0.2256, -0.0778, -0.2125]],
+       device='cuda:0'), grad: tensor([[ 5.4017e-08,  2.7008e-08,  1.4715e-07,  ...,  0.0000e+00,
+          6.6124e-08,  7.6368e-08],
+        [ 1.8924e-06,  1.2461e-06,  6.5491e-06,  ...,  0.0000e+00,
+          3.0641e-06,  3.5111e-06],
+        [ 7.3016e-07,  3.7160e-07,  1.9558e-06,  ...,  0.0000e+00,
+          9.2480e-07,  1.1064e-06],
+        ...,
+        [ 9.5926e-08,  3.6322e-08, -3.6787e-07,  ...,  0.0000e+00,
+          8.9407e-08,  1.1642e-07],
+        [-5.4538e-06, -2.7828e-06, -1.4618e-05,  ...,  9.3132e-10,
+         -6.8434e-06, -7.8157e-06],
+        [ 5.4948e-08,  2.3283e-08,  5.2620e-07,  ..., -9.3132e-10,
+          6.0536e-08,  7.4506e-08]], device='cuda:0')
+Epoch 363, bias, value: tensor([ 0.0296,  0.0028,  0.0202,  0.0168,  0.0404,  0.0122, -0.0013,  0.0044,
+        -0.0123, -0.0449], device='cuda:0'), grad: tensor([ 6.0443e-07,  2.6539e-05,  8.2403e-06,  1.2636e-05,  8.9686e-07,
+         7.5363e-06,  3.1944e-06, -1.7602e-07, -6.0707e-05,  1.3113e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 362, time 217.59, cls_loss 0.0009 cls_loss_mapping 0.0010 cls_loss_causal 0.4231 re_mapping 0.0042 re_causal 0.0120 /// teacc 99.06 lr 0.00010000
+Epoch 364, weight, value: tensor([[-0.1746,  0.2413, -0.0279,  ..., -0.0250,  0.0718, -0.0370],
+        [ 0.1975, -0.1170,  0.0275,  ..., -0.1135,  0.0176, -0.0995],
+        [-0.0917, -0.3010, -0.0549,  ..., -0.0678,  0.0254, -0.2964],
+        ...,
+        [-0.1907, -0.3493,  0.0706,  ..., -0.1203, -0.0902, -0.1944],
+        [-0.1501,  0.0059,  0.0430,  ...,  0.0064, -0.1228,  0.0910],
+        [-0.1210, -0.0888,  0.1106,  ...,  0.2258, -0.0779, -0.2129]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.6566e-08,  5.5879e-08,  ...,  9.3132e-10,
+          0.0000e+00,  7.0781e-08],
+        [-1.1083e-07,  3.7253e-09, -3.7253e-08,  ...,  1.8626e-09,
+         -7.4506e-09,  1.8626e-09],
+        [ 0.0000e+00,  3.0734e-08,  1.2387e-07,  ...,  9.3132e-10,
+          9.3132e-10,  2.9802e-08],
+        ...,
+        [ 1.0710e-07,  3.7253e-09, -1.4231e-06,  ..., -1.5087e-07,
+          4.6566e-09,  3.7253e-09],
+        [ 9.3132e-10, -2.1234e-07, -1.2759e-07,  ...,  5.5879e-09,
+          0.0000e+00, -2.2165e-07],
+        [ 4.6566e-09,  6.1467e-08,  1.1986e-06,  ...,  1.3690e-07,
+          1.8626e-09,  5.0291e-08]], device='cuda:0')
+Epoch 364, bias, value: tensor([ 0.0296,  0.0003,  0.0204,  0.0167,  0.0403,  0.0122, -0.0012,  0.0067,
+        -0.0117, -0.0448], device='cuda:0'), grad: tensor([ 1.7416e-07, -4.0047e-08,  2.8592e-07,  2.0210e-07,  1.0803e-07,
+         5.4948e-08,  1.6112e-07, -2.6599e-06, -5.1875e-07,  2.2333e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 363, time 218.40, cls_loss 0.0010 cls_loss_mapping 0.0019 cls_loss_causal 0.4602 re_mapping 0.0042 re_causal 0.0125 /// teacc 99.08 lr 0.00010000
+Epoch 365, weight, value: tensor([[-0.1751,  0.2415, -0.0280,  ..., -0.0251,  0.0726, -0.0372],
+        [ 0.1984, -0.1171,  0.0278,  ..., -0.1136,  0.0187, -0.0996],
+        [-0.0918, -0.3005, -0.0526,  ..., -0.0678,  0.0248, -0.2942],
+        ...,
+        [-0.1915, -0.3496,  0.0705,  ..., -0.1199, -0.0911, -0.1946],
+        [-0.1502,  0.0056,  0.0409,  ...,  0.0063, -0.1228,  0.0902],
+        [-0.1218, -0.0896,  0.1117,  ...,  0.2257, -0.0782, -0.2137]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09, -1.3039e-08, -3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00, -8.3819e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00, -9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -8.3819e-09,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 1.6764e-08,  1.9558e-08,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  1.6764e-08],
+        [ 0.0000e+00,  1.8626e-09,  8.3819e-09,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 365, bias, value: tensor([ 0.0296,  0.0006,  0.0228,  0.0168,  0.0383,  0.0121, -0.0010,  0.0067,
+        -0.0150, -0.0436], device='cuda:0'), grad: tensor([-5.5879e-09,  8.3819e-09, -5.5879e-09, -2.4214e-08, -3.5390e-08,
+         2.1420e-08, -2.7008e-08, -1.5832e-08,  3.8184e-08,  5.4948e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 364, time 218.17, cls_loss 0.0009 cls_loss_mapping 0.0012 cls_loss_causal 0.4947 re_mapping 0.0041 re_causal 0.0123 /// teacc 99.07 lr 0.00010000
+Epoch 366, weight, value: tensor([[-0.1753,  0.2417, -0.0278,  ..., -0.0252,  0.0724, -0.0369],
+        [ 0.1986, -0.1172,  0.0278,  ..., -0.1136,  0.0190, -0.0997],
+        [-0.0919, -0.3010, -0.0526,  ..., -0.0680,  0.0245, -0.2945],
+        ...,
+        [-0.1916, -0.3502,  0.0704,  ..., -0.1200, -0.0910, -0.1955],
+        [-0.1506,  0.0054,  0.0419,  ...,  0.0060, -0.1230,  0.0904],
+        [-0.1222, -0.0898,  0.1118,  ...,  0.2256, -0.0784, -0.2139]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09,  7.2271e-07,  1.1716e-06,  ...,  0.0000e+00,
+          0.0000e+00,  5.8301e-07],
+        [-2.8871e-08,  1.0245e-08, -2.6077e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.1176e-08],
+        [ 1.0245e-08,  5.4017e-08,  9.6858e-08,  ...,  0.0000e+00,
+          0.0000e+00,  4.4703e-08],
+        ...,
+        [ 2.8871e-08,  2.1420e-08,  4.4703e-08,  ...,  0.0000e+00,
+          0.0000e+00,  2.0489e-08],
+        [ 4.7497e-08, -1.5525e-06, -2.5816e-06,  ...,  0.0000e+00,
+          0.0000e+00, -1.2303e-06],
+        [ 2.1420e-08,  6.6496e-07,  1.0189e-06,  ..., -3.7253e-09,
+          0.0000e+00,  5.2713e-07]], device='cuda:0')
+Epoch 366, bias, value: tensor([ 0.0294,  0.0003,  0.0242,  0.0168,  0.0382,  0.0122, -0.0008,  0.0065,
+        -0.0147, -0.0437], device='cuda:0'), grad: tensor([ 3.3155e-06, -3.2596e-08,  2.6822e-07,  1.0803e-06, -2.4680e-07,
+        -9.7696e-07,  4.6566e-07,  1.3039e-07, -7.2122e-06,  3.1628e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 365, time 218.35, cls_loss 0.0009 cls_loss_mapping 0.0012 cls_loss_causal 0.4726 re_mapping 0.0043 re_causal 0.0124 /// teacc 99.07 lr 0.00010000
+Epoch 367, weight, value: tensor([[-0.1754,  0.2429, -0.0274,  ..., -0.0251,  0.0721, -0.0392],
+        [ 0.1987, -0.1187,  0.0278,  ..., -0.1139,  0.0191, -0.1000],
+        [-0.0919, -0.3043, -0.0527,  ..., -0.0681,  0.0246, -0.2948],
+        ...,
+        [-0.1917, -0.3505,  0.0704,  ..., -0.1204, -0.0911, -0.1957],
+        [-0.1505,  0.0055,  0.0423,  ...,  0.0060, -0.1229,  0.0907],
+        [-0.1224, -0.0900,  0.1119,  ...,  0.2257, -0.0781, -0.2143]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -1.8626e-09,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-7.0222e-07,  0.0000e+00, -7.0035e-07,  ..., -5.1223e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 5.5879e-09,  9.3132e-10,  8.3819e-09,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        ...,
+        [ 6.7428e-07,  0.0000e+00, -1.8068e-07,  ...,  4.9360e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 5.5879e-09, -3.7253e-09,  2.7940e-09,  ...,  9.3132e-10,
+          0.0000e+00, -5.5879e-09],
+        [ 8.3819e-09,  9.3132e-10,  7.4226e-07,  ...,  9.3132e-10,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 367, bias, value: tensor([ 3.0142e-02,  1.2320e-05,  2.3287e-02,  1.6848e-02,  3.7984e-02,
+         1.2152e-02, -9.1098e-04,  6.3871e-03, -1.4432e-02, -4.3572e-02],
+       device='cuda:0'), grad: tensor([ 1.2107e-08, -9.1828e-07, -1.5367e-07,  2.9616e-07,  7.4506e-09,
+         8.3819e-09,  2.2352e-08, -1.0068e-06,  4.9360e-08,  1.6764e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 366, time 218.05, cls_loss 0.0009 cls_loss_mapping 0.0014 cls_loss_causal 0.4800 re_mapping 0.0042 re_causal 0.0125 /// teacc 99.03 lr 0.00010000
+Epoch 368, weight, value: tensor([[-0.1753,  0.2439, -0.0271,  ..., -0.0252,  0.0720, -0.0392],
+        [ 0.1984, -0.1190,  0.0277,  ..., -0.1142,  0.0189, -0.1006],
+        [-0.0912, -0.3045, -0.0520,  ..., -0.0681,  0.0248, -0.2949],
+        ...,
+        [-0.1917, -0.3507,  0.0704,  ..., -0.1205, -0.0911, -0.1958],
+        [-0.1515,  0.0050,  0.0423,  ...,  0.0058, -0.1233,  0.0906],
+        [-0.1224, -0.0902,  0.1120,  ...,  0.2258, -0.0781, -0.2144]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-4.3027e-07,  0.0000e+00, -2.6077e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 5.0291e-08,  0.0000e+00,  5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 2.7940e-07,  0.0000e+00,  1.8626e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.4901e-08,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -2.6077e-08,  ...,  0.0000e+00,
+          0.0000e+00, -1.8626e-09]], device='cuda:0')
+Epoch 368, bias, value: tensor([ 0.0307, -0.0003,  0.0240,  0.0168,  0.0379,  0.0120, -0.0007,  0.0064,
+        -0.0150, -0.0435], device='cuda:0'), grad: tensor([ 1.8626e-09, -1.0245e-06,  1.2293e-07,  1.5087e-07,  5.2154e-08,
+         3.9116e-08,  1.8626e-09,  6.6683e-07,  4.0978e-08, -5.9605e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 367, time 218.31, cls_loss 0.0010 cls_loss_mapping 0.0018 cls_loss_causal 0.4712 re_mapping 0.0042 re_causal 0.0125 /// teacc 99.06 lr 0.00010000
+Epoch 369, weight, value: tensor([[-0.1753,  0.2443, -0.0263,  ..., -0.0238,  0.0720, -0.0399],
+        [ 0.2011, -0.1188,  0.0299,  ..., -0.1143,  0.0196, -0.1002],
+        [-0.0913, -0.3046, -0.0522,  ..., -0.0681,  0.0248, -0.2953],
+        ...,
+        [-0.1943, -0.3525,  0.0678,  ..., -0.1208, -0.0912, -0.1965],
+        [-0.1516,  0.0056,  0.0438,  ...,  0.0058, -0.1233,  0.0911],
+        [-0.1239, -0.0923,  0.1114,  ...,  0.2257, -0.0792, -0.2170]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09,  5.5879e-09,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.4901e-08],
+        [-3.3528e-08,  0.0000e+00, -3.3528e-08,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-09],
+        [ 5.5879e-09,  1.8626e-09,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-08],
+        ...,
+        [ 1.4901e-08,  0.0000e+00, -1.1176e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.1176e-08],
+        [ 5.9605e-08,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.3469e-07],
+        [ 1.1176e-08,  1.8626e-09,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-08]], device='cuda:0')
+Epoch 369, bias, value: tensor([ 0.0310,  0.0020,  0.0239,  0.0179,  0.0380,  0.0120, -0.0006,  0.0028,
+        -0.0146, -0.0445], device='cuda:0'), grad: tensor([ 6.5193e-08, -4.4703e-08,  8.5682e-08, -6.8732e-07,  1.6764e-08,
+         1.7695e-07, -1.0431e-07,  2.7940e-08,  3.7625e-07,  7.2643e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 368, time 218.67, cls_loss 0.0011 cls_loss_mapping 0.0015 cls_loss_causal 0.5034 re_mapping 0.0043 re_causal 0.0128 /// teacc 99.08 lr 0.00010000
+Epoch 370, weight, value: tensor([[-0.1755,  0.2447, -0.0260,  ..., -0.0237,  0.0717, -0.0400],
+        [ 0.2013, -0.1207,  0.0299,  ..., -0.1152,  0.0190, -0.1008],
+        [-0.0914, -0.3049, -0.0527,  ..., -0.0682,  0.0249, -0.2958],
+        ...,
+        [-0.1946, -0.3529,  0.0677,  ..., -0.1215, -0.0913, -0.1968],
+        [-0.1519,  0.0055,  0.0445,  ...,  0.0057, -0.1234,  0.0910],
+        [-0.1246, -0.0928,  0.1119,  ...,  0.2256, -0.0790, -0.2174]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -3.7253e-09, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.6764e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -6.8918e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -1.8626e-09, -7.4506e-09,  ...,  0.0000e+00,
+          0.0000e+00, -9.3132e-09],
+        [ 0.0000e+00,  1.8626e-09,  3.1665e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 370, bias, value: tensor([ 0.0312,  0.0019,  0.0238,  0.0179,  0.0377,  0.0121, -0.0005,  0.0027,
+        -0.0144, -0.0443], device='cuda:0'), grad: tensor([-7.4506e-09,  4.2841e-08,  9.3132e-09,  4.0978e-08, -6.3665e-06,
+         1.4901e-08,  3.3528e-08, -1.2480e-07, -2.0489e-08,  6.3926e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 369, time 218.18, cls_loss 0.0010 cls_loss_mapping 0.0016 cls_loss_causal 0.4804 re_mapping 0.0042 re_causal 0.0120 /// teacc 99.00 lr 0.00010000
+Epoch 371, weight, value: tensor([[-0.1756,  0.2449, -0.0265,  ..., -0.0237,  0.0715, -0.0401],
+        [ 0.2015, -0.1218,  0.0300,  ..., -0.1152,  0.0192, -0.1013],
+        [-0.0914, -0.3052, -0.0528,  ..., -0.0681,  0.0246, -0.2960],
+        ...,
+        [-0.1948, -0.3535,  0.0679,  ..., -0.1214, -0.0913, -0.1970],
+        [-0.1524,  0.0053,  0.0448,  ...,  0.0057, -0.1236,  0.0907],
+        [-0.1256, -0.0935,  0.1119,  ...,  0.2258, -0.0797, -0.2180]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09, -8.5682e-08, -5.5879e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-2.4214e-08,  0.0000e+00, -5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  9.3132e-09,  1.6764e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.1176e-08,  3.7253e-09, -3.7458e-06,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 7.4506e-09,  0.0000e+00,  1.8626e-08,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [ 3.7253e-09,  5.9605e-08,  3.7290e-06,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 371, bias, value: tensor([ 0.0309,  0.0019,  0.0237,  0.0179,  0.0374,  0.0122, -0.0003,  0.0027,
+        -0.0146, -0.0443], device='cuda:0'), grad: tensor([-1.9558e-07, -5.5879e-09,  1.8626e-08,  6.3330e-08, -9.3132e-09,
+        -5.4017e-08,  5.4017e-08, -6.0424e-06,  3.1665e-08,  6.1169e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 370, time 218.23, cls_loss 0.0010 cls_loss_mapping 0.0014 cls_loss_causal 0.4839 re_mapping 0.0042 re_causal 0.0124 /// teacc 99.00 lr 0.00010000
+Epoch 372, weight, value: tensor([[-0.1762,  0.2452, -0.0256,  ..., -0.0240,  0.0714, -0.0409],
+        [ 0.2018, -0.1219,  0.0300,  ..., -0.1155,  0.0199, -0.1015],
+        [-0.0923, -0.3053, -0.0537,  ..., -0.0687,  0.0230, -0.2963],
+        ...,
+        [-0.1949, -0.3551,  0.0680,  ..., -0.1219, -0.0915, -0.1974],
+        [-0.1540,  0.0025,  0.0449,  ...,  0.0057, -0.1236,  0.0871],
+        [-0.1265, -0.0956,  0.1113,  ...,  0.2260, -0.0800, -0.2188]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -3.1665e-08, -1.3039e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.1176e-08],
+        [ 1.8626e-09,  3.7253e-09, -3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  1.8626e-09,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        ...,
+        [ 1.8626e-09,  1.8626e-09,  1.1176e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 3.7253e-09,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 1.8626e-09,  7.4506e-09, -9.6858e-08,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09]], device='cuda:0')
+Epoch 372, bias, value: tensor([ 0.0312,  0.0021,  0.0229,  0.0154,  0.0374,  0.0148, -0.0005,  0.0028,
+        -0.0166, -0.0449], device='cuda:0'), grad: tensor([ 1.8626e-08,  3.7253e-09,  2.7940e-08, -8.5682e-08,  6.8918e-08,
+         7.4506e-08,  3.3528e-08,  2.7940e-08,  2.4214e-08, -2.0489e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 371, time 217.72, cls_loss 0.0009 cls_loss_mapping 0.0015 cls_loss_causal 0.4601 re_mapping 0.0042 re_causal 0.0124 /// teacc 99.06 lr 0.00010000
+Epoch 373, weight, value: tensor([[-0.1764,  0.2457, -0.0255,  ..., -0.0241,  0.0713, -0.0409],
+        [ 0.2022, -0.1220,  0.0289,  ..., -0.1155,  0.0201, -0.1016],
+        [-0.0925, -0.3054, -0.0536,  ..., -0.0687,  0.0228, -0.2966],
+        ...,
+        [-0.1952, -0.3554,  0.0694,  ..., -0.1220, -0.0915, -0.1975],
+        [-0.1541,  0.0026,  0.0453,  ...,  0.0058, -0.1236,  0.0871],
+        [-0.1279, -0.0966,  0.1104,  ...,  0.2260, -0.0801, -0.2194]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09, -3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 373, bias, value: tensor([ 0.0314,  0.0013,  0.0233,  0.0153,  0.0375,  0.0149, -0.0007,  0.0037,
+        -0.0165, -0.0458], device='cuda:0'), grad: tensor([-3.7253e-09,  0.0000e+00, -1.8626e-08, -1.6764e-08,  0.0000e+00,
+        -7.4506e-09,  1.8626e-09,  2.0489e-08,  1.4901e-08,  5.5879e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 372, time 218.06, cls_loss 0.0010 cls_loss_mapping 0.0015 cls_loss_causal 0.4719 re_mapping 0.0040 re_causal 0.0120 /// teacc 99.00 lr 0.00010000
+Epoch 374, weight, value: tensor([[-0.1766,  0.2461, -0.0264,  ..., -0.0240,  0.0709, -0.0411],
+        [ 0.2025, -0.1233,  0.0291,  ..., -0.1158,  0.0201, -0.1020],
+        [-0.0931, -0.3051, -0.0550,  ..., -0.0689,  0.0227, -0.2975],
+        ...,
+        [-0.1953, -0.3558,  0.0694,  ..., -0.1220, -0.0916, -0.1977],
+        [-0.1547,  0.0021,  0.0455,  ...,  0.0054, -0.1239,  0.0872],
+        [-0.1292, -0.0962,  0.1106,  ...,  0.2260, -0.0815, -0.2202]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  6.5751e-07,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-1.8626e-09,  0.0000e+00, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -3.5390e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  0.0000e+00,  2.7940e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 3.7253e-09,  0.0000e+00, -9.3132e-09,  ...,  0.0000e+00,
+          0.0000e+00, -3.7253e-09],
+        [ 1.8626e-09,  1.8626e-09,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09]], device='cuda:0')
+Epoch 374, bias, value: tensor([ 0.0313,  0.0014,  0.0232,  0.0152,  0.0379,  0.0151, -0.0010,  0.0037,
+        -0.0168, -0.0461], device='cuda:0'), grad: tensor([ 2.0843e-06,  9.3132e-09, -6.9477e-07,  3.6508e-07, -3.1665e-08,
+        -3.5390e-08, -2.0098e-06,  2.0862e-07,  1.1176e-08,  9.6858e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 373, time 218.06, cls_loss 0.0008 cls_loss_mapping 0.0012 cls_loss_causal 0.4667 re_mapping 0.0043 re_causal 0.0123 /// teacc 99.05 lr 0.00010000
+Epoch 375, weight, value: tensor([[-0.1768,  0.2464, -0.0264,  ..., -0.0240,  0.0705, -0.0411],
+        [ 0.2025, -0.1234,  0.0291,  ..., -0.1165,  0.0201, -0.1021],
+        [-0.0932, -0.3053, -0.0551,  ..., -0.0691,  0.0250, -0.2981],
+        ...,
+        [-0.1953, -0.3554,  0.0694,  ..., -0.1222, -0.0941, -0.1979],
+        [-0.1548,  0.0022,  0.0459,  ...,  0.0054, -0.1237,  0.0873],
+        [-0.1294, -0.0966,  0.1107,  ...,  0.2261, -0.0834, -0.2207]],
+       device='cuda:0'), grad: tensor([[-1.4529e-07, -1.1977e-06, -1.6764e-08,  ...,  5.5879e-09,
+          0.0000e+00,  0.0000e+00],
+        [-1.3039e-08,  0.0000e+00, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  3.7253e-09, -7.4506e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 7.4506e-09,  2.0489e-08,  1.1176e-08,  ...,  1.8626e-09,
+          0.0000e+00,  5.5879e-09],
+        [ 1.8626e-09, -8.5682e-08, -7.6368e-08,  ..., -2.0489e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 375, bias, value: tensor([ 0.0313,  0.0014,  0.0238,  0.0152,  0.0384,  0.0151, -0.0009,  0.0035,
+        -0.0165, -0.0466], device='cuda:0'), grad: tensor([-2.0787e-06, -1.8626e-09,  7.4506e-09,  1.8626e-08,  3.0547e-07,
+         5.2154e-07,  1.5758e-06, -1.7509e-07,  5.2154e-08, -2.1048e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 374, time 218.41, cls_loss 0.0009 cls_loss_mapping 0.0013 cls_loss_causal 0.4892 re_mapping 0.0043 re_causal 0.0123 /// teacc 99.00 lr 0.00010000
+Epoch 376, weight, value: tensor([[-0.1769,  0.2471, -0.0260,  ..., -0.0241,  0.0702, -0.0412],
+        [ 0.2027, -0.1234,  0.0291,  ..., -0.1180,  0.0203, -0.1023],
+        [-0.0932, -0.3054, -0.0555,  ..., -0.0694,  0.0254, -0.2985],
+        ...,
+        [-0.1955, -0.3561,  0.0694,  ..., -0.1236, -0.0945, -0.1982],
+        [-0.1550,  0.0022,  0.0463,  ...,  0.0055, -0.1237,  0.0875],
+        [-0.1291, -0.0980,  0.1106,  ...,  0.2266, -0.0836, -0.2213]],
+       device='cuda:0'), grad: tensor([[ 2.0489e-08,  3.7253e-08,  6.7055e-08,  ...,  0.0000e+00,
+          9.3132e-09,  3.7253e-08],
+        [-2.9057e-05, -2.9430e-07, -4.1008e-05,  ...,  0.0000e+00,
+         -3.6880e-07,  1.8626e-09],
+        [ 4.0978e-08,  9.3132e-09,  6.7055e-08,  ...,  0.0000e+00,
+          1.8626e-09,  1.3039e-08],
+        ...,
+        [ 2.8580e-05,  1.2666e-07,  4.0025e-05,  ...,  0.0000e+00,
+          1.5646e-07,  7.4506e-09],
+        [ 3.1106e-07,  9.6858e-08,  6.6310e-07,  ...,  0.0000e+00,
+          1.7136e-07, -4.8429e-08],
+        [ 4.0978e-08,  1.8626e-08,  7.8231e-08,  ...,  0.0000e+00,
+          1.6764e-08,  1.3039e-08]], device='cuda:0')
+Epoch 376, bias, value: tensor([ 0.0318,  0.0014,  0.0239,  0.0152,  0.0384,  0.0151, -0.0012,  0.0035,
+        -0.0164, -0.0468], device='cuda:0'), grad: tensor([ 2.0117e-07, -5.8115e-05,  1.3597e-07, -5.7742e-08,  7.0781e-08,
+        -1.1362e-07,  8.7544e-08,  5.6595e-05,  9.5181e-07,  1.6950e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 375, time 217.86, cls_loss 0.0009 cls_loss_mapping 0.0021 cls_loss_causal 0.4733 re_mapping 0.0042 re_causal 0.0123 /// teacc 99.03 lr 0.00010000
+Epoch 377, weight, value: tensor([[-0.1770,  0.2466, -0.0261,  ..., -0.0249,  0.0701, -0.0416],
+        [ 0.2029, -0.1235,  0.0291,  ..., -0.1180,  0.0203, -0.1026],
+        [-0.0943, -0.3055, -0.0572,  ..., -0.0695,  0.0254, -0.2993],
+        ...,
+        [-0.1956, -0.3571,  0.0695,  ..., -0.1237, -0.0946, -0.1993],
+        [-0.1556,  0.0021,  0.0473,  ...,  0.0058, -0.1238,  0.0876],
+        [-0.1297, -0.0992,  0.1107,  ...,  0.2267, -0.0835, -0.2227]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  1.8626e-09, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [-1.8626e-09,  1.8626e-09,  1.1176e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -2.0489e-08,  ...,  0.0000e+00,
+         -3.7253e-09, -1.4901e-08],
+        ...,
+        [ 9.3132e-09,  7.4506e-09, -1.6764e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.4901e-08],
+        [ 2.2352e-08,  1.8626e-08,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.2352e-08],
+        [ 1.3039e-08,  1.1176e-08,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.1176e-08]], device='cuda:0')
+Epoch 377, bias, value: tensor([ 0.0303,  0.0015,  0.0232,  0.0152,  0.0383,  0.0151,  0.0003,  0.0036,
+        -0.0163, -0.0471], device='cuda:0'), grad: tensor([ 4.4703e-08,  4.4703e-08, -7.1526e-07,  2.1420e-07,  3.7253e-09,
+        -2.6263e-07,  4.0978e-08,  4.3213e-07,  1.5087e-07,  3.3528e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 376, time 218.09, cls_loss 0.0009 cls_loss_mapping 0.0014 cls_loss_causal 0.4544 re_mapping 0.0041 re_causal 0.0117 /// teacc 99.00 lr 0.00010000
+Epoch 378, weight, value: tensor([[-0.1771,  0.2469, -0.0261,  ..., -0.0250,  0.0700, -0.0419],
+        [ 0.2026, -0.1235,  0.0285,  ..., -0.1197,  0.0204, -0.1028],
+        [-0.0944, -0.3056, -0.0577,  ..., -0.0697,  0.0255, -0.2996],
+        ...,
+        [-0.1952, -0.3574,  0.0702,  ..., -0.1246, -0.0949, -0.1998],
+        [-0.1557,  0.0024,  0.0480,  ...,  0.0056, -0.1200,  0.0908],
+        [-0.1300, -0.0999,  0.1107,  ...,  0.2271, -0.0835, -0.2237]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09, -2.2352e-08, -3.7253e-09,  ...,  0.0000e+00,
+          1.8626e-09,  1.8626e-09],
+        [-3.7253e-09,  0.0000e+00, -5.5879e-09,  ...,  0.0000e+00,
+          7.4506e-09,  1.4901e-08],
+        [ 1.6764e-08,  5.5879e-09,  1.8626e-09,  ...,  0.0000e+00,
+          2.6077e-08,  4.8429e-08],
+        ...,
+        [ 3.1665e-08,  0.0000e+00,  1.5646e-07,  ...,  0.0000e+00,
+          4.0978e-08,  2.4587e-07],
+        [ 9.3132e-09,  3.7253e-09,  3.7253e-09,  ...,  0.0000e+00,
+          1.8626e-09,  5.5879e-09],
+        [-1.8626e-08,  5.5879e-09, -1.7136e-07,  ...,  0.0000e+00,
+          1.8626e-09,  5.5879e-09]], device='cuda:0')
+Epoch 378, bias, value: tensor([ 0.0305,  0.0008,  0.0233,  0.0152,  0.0385,  0.0151, -0.0007,  0.0043,
+        -0.0133, -0.0474], device='cuda:0'), grad: tensor([-1.1176e-08,  5.5879e-08,  2.4959e-07, -1.4603e-06, -5.0291e-08,
+         4.7497e-07,  2.0489e-08,  9.6671e-07,  4.6566e-08, -2.9057e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 377, time 218.68, cls_loss 0.0007 cls_loss_mapping 0.0014 cls_loss_causal 0.4926 re_mapping 0.0041 re_causal 0.0125 /// teacc 98.98 lr 0.00010000
+Epoch 379, weight, value: tensor([[-0.1771,  0.2472, -0.0260,  ..., -0.0250,  0.0695, -0.0419],
+        [ 0.2026, -0.1235,  0.0284,  ..., -0.1199,  0.0207, -0.1029],
+        [-0.0946, -0.3057, -0.0579,  ..., -0.0697,  0.0257, -0.3000],
+        ...,
+        [-0.1952, -0.3576,  0.0704,  ..., -0.1247, -0.0955, -0.2004],
+        [-0.1558,  0.0024,  0.0481,  ...,  0.0056, -0.1200,  0.0908],
+        [-0.1302, -0.1002,  0.1106,  ...,  0.2271, -0.0836, -0.2241]],
+       device='cuda:0'), grad: tensor([[ 4.4703e-08, -6.7241e-07,  1.6764e-08,  ...,  0.0000e+00,
+          0.0000e+00, -1.0245e-07],
+        [-1.6578e-07,  0.0000e+00, -1.2666e-07,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 5.4017e-08,  6.8918e-08,  5.2154e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.1176e-08],
+        ...,
+        [ 2.6077e-08,  1.8626e-09, -1.9282e-05,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-09,  3.9116e-08,  1.6764e-08,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-09],
+        [ 0.0000e+00,  2.1048e-07,  1.7598e-05,  ...,  0.0000e+00,
+          0.0000e+00,  3.3528e-08]], device='cuda:0')
+Epoch 379, bias, value: tensor([ 0.0306,  0.0007,  0.0233,  0.0152,  0.0386,  0.0151, -0.0007,  0.0044,
+        -0.0134, -0.0477], device='cuda:0'), grad: tensor([-1.2740e-06, -3.9116e-07,  2.6822e-07,  2.9299e-06,  2.2352e-07,
+         4.0792e-07,  6.7614e-07, -3.9279e-05,  1.1921e-07,  3.6299e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 378, time 217.91, cls_loss 0.0008 cls_loss_mapping 0.0015 cls_loss_causal 0.4878 re_mapping 0.0040 re_causal 0.0121 /// teacc 99.05 lr 0.00010000
+Epoch 380, weight, value: tensor([[-0.1772,  0.2470, -0.0260,  ..., -0.0251,  0.0688, -0.0421],
+        [ 0.2041, -0.1235,  0.0283,  ..., -0.1209,  0.0206, -0.1030],
+        [-0.0954, -0.3058, -0.0584,  ..., -0.0699,  0.0256, -0.3003],
+        ...,
+        [-0.1966, -0.3578,  0.0705,  ..., -0.1261, -0.0955, -0.2004],
+        [-0.1560,  0.0024,  0.0481,  ...,  0.0054, -0.1200,  0.0909],
+        [-0.1299, -0.1005,  0.1106,  ...,  0.2275, -0.0833, -0.2242]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09, -3.9116e-08,  2.0117e-07,  ...,  5.7742e-08,
+          9.3132e-09,  3.9116e-08],
+        [-1.5646e-07,  0.0000e+00, -1.1176e-07,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 4.0978e-08,  0.0000e+00,  3.7253e-08,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 7.8231e-08,  1.8626e-09,  6.5193e-08,  ...,  1.8626e-09,
+          0.0000e+00,  1.8626e-09],
+        [ 1.0617e-07,  4.0978e-08,  1.9185e-07,  ...,  3.9116e-08,
+          1.8626e-09,  8.7544e-08],
+        [ 1.3039e-08,  1.8626e-08, -4.4145e-07,  ..., -1.0990e-07,
+         -7.4506e-09, -5.7742e-08]], device='cuda:0')
+Epoch 380, bias, value: tensor([ 2.9929e-02,  1.6560e-03,  2.2982e-02,  1.5181e-02,  3.8590e-02,
+         1.5045e-02,  5.3536e-05,  3.7681e-03, -1.3450e-02, -4.7873e-02],
+       device='cuda:0'), grad: tensor([ 6.1654e-07, -2.7195e-07,  1.2293e-07,  2.2352e-08, -3.7253e-08,
+         9.1270e-08, -2.7008e-07,  1.7509e-07,  6.9290e-07, -1.1381e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 379, time 218.32, cls_loss 0.0008 cls_loss_mapping 0.0017 cls_loss_causal 0.4541 re_mapping 0.0040 re_causal 0.0119 /// teacc 99.05 lr 0.00010000
+Epoch 381, weight, value: tensor([[-0.1772,  0.2472, -0.0260,  ..., -0.0251,  0.0686, -0.0424],
+        [ 0.2050, -0.1221,  0.0287,  ..., -0.1204,  0.0239, -0.1001],
+        [-0.0955, -0.3059, -0.0600,  ..., -0.0700,  0.0259, -0.3006],
+        ...,
+        [-0.1969, -0.3584,  0.0707,  ..., -0.1266, -0.0961, -0.2006],
+        [-0.1565,  0.0024,  0.0479,  ...,  0.0050, -0.1201,  0.0906],
+        [-0.1309, -0.1009,  0.1105,  ...,  0.2274, -0.0844, -0.2248]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -3.1292e-07,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.8871e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 1.8626e-09,  1.8626e-09,  2.4214e-08,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [ 0.0000e+00,  1.8626e-09, -6.8918e-08,  ...,  0.0000e+00,
+          0.0000e+00, -3.7253e-09]], device='cuda:0')
+Epoch 381, bias, value: tensor([ 0.0299,  0.0023,  0.0224,  0.0151,  0.0388,  0.0150, -0.0007,  0.0040,
+        -0.0139, -0.0484], device='cuda:0'), grad: tensor([ 1.8440e-07,  4.8429e-08, -1.2815e-06, -6.8918e-08,  5.4017e-08,
+        -1.3225e-07,  2.0489e-08,  1.2200e-06,  4.2841e-08, -8.5682e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 380, time 217.82, cls_loss 0.0008 cls_loss_mapping 0.0011 cls_loss_causal 0.5104 re_mapping 0.0040 re_causal 0.0120 /// teacc 99.00 lr 0.00010000
+Epoch 382, weight, value: tensor([[-0.1778,  0.2476, -0.0262,  ..., -0.0251,  0.0670, -0.0426],
+        [ 0.2051, -0.1220,  0.0287,  ..., -0.1205,  0.0240, -0.1001],
+        [-0.0955, -0.3063, -0.0595,  ..., -0.0700,  0.0258, -0.3017],
+        ...,
+        [-0.1969, -0.3589,  0.0708,  ..., -0.1267, -0.0964, -0.2009],
+        [-0.1566,  0.0031,  0.0475,  ...,  0.0049, -0.1201,  0.0910],
+        [-0.1310, -0.1012,  0.1104,  ...,  0.2274, -0.0844, -0.2249]],
+       device='cuda:0'), grad: tensor([[ 1.1176e-08,  1.8626e-09,  3.7253e-09,  ...,  0.0000e+00,
+          5.5879e-09,  1.8626e-09],
+        [-2.5891e-07,  0.0000e+00, -2.6263e-07,  ...,  0.0000e+00,
+          2.0489e-08,  0.0000e+00],
+        [ 5.5879e-09,  0.0000e+00,  5.5879e-09,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 4.6194e-07,  0.0000e+00,  2.8126e-07,  ...,  0.0000e+00,
+          1.1735e-07,  1.8626e-09],
+        [ 2.4214e-08,  1.8626e-09,  4.4703e-08,  ...,  0.0000e+00,
+          1.4901e-08,  3.7253e-09],
+        [ 1.8626e-09,  0.0000e+00, -9.8720e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 382, bias, value: tensor([ 0.0301,  0.0023,  0.0228,  0.0152,  0.0386,  0.0150, -0.0010,  0.0041,
+        -0.0138, -0.0485], device='cuda:0'), grad: tensor([ 6.8918e-08,  9.5181e-07,  9.3132e-09,  1.8626e-09,  7.8045e-07,
+         2.2724e-07, -2.0955e-06, -1.8626e-08,  2.4959e-07, -1.8999e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 381, time 218.19, cls_loss 0.0010 cls_loss_mapping 0.0017 cls_loss_causal 0.4624 re_mapping 0.0040 re_causal 0.0115 /// teacc 99.06 lr 0.00010000
+Epoch 383, weight, value: tensor([[-0.1773,  0.2484, -0.0261,  ..., -0.0254,  0.0661, -0.0428],
+        [ 0.2058, -0.1217,  0.0289,  ..., -0.1205,  0.0250, -0.0990],
+        [-0.0956, -0.3072, -0.0597,  ..., -0.0730,  0.0259, -0.3036],
+        ...,
+        [-0.1972, -0.3595,  0.0707,  ..., -0.1268, -0.0970, -0.2012],
+        [-0.1562,  0.0041,  0.0480,  ...,  0.0047, -0.1197,  0.0929],
+        [-0.1316, -0.1018,  0.1109,  ...,  0.2277, -0.0841, -0.2252]],
+       device='cuda:0'), grad: tensor([[ 1.3039e-08, -7.4506e-09, -1.3039e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 5.5879e-09,  3.7253e-09,  5.7742e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [-2.4214e-08,  1.8626e-09,  5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        ...,
+        [ 1.3039e-08,  5.5879e-09, -1.2852e-07,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [ 6.8918e-08,  6.1467e-08,  2.6077e-08,  ...,  0.0000e+00,
+          0.0000e+00,  4.0978e-08],
+        [ 5.5879e-09,  9.3132e-09,  3.5390e-08,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-09]], device='cuda:0')
+Epoch 383, bias, value: tensor([ 0.0304,  0.0027,  0.0228,  0.0152,  0.0383,  0.0149, -0.0015,  0.0039,
+        -0.0126, -0.0481], device='cuda:0'), grad: tensor([ 2.1234e-07,  1.8813e-07, -7.2271e-07,  6.3330e-08,  1.4901e-08,
+        -1.5087e-07,  2.6077e-08,  1.4901e-07,  1.3225e-07,  9.1270e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 382----------------------------------------------------
+epoch 382, time 218.58, cls_loss 0.0011 cls_loss_mapping 0.0017 cls_loss_causal 0.4679 re_mapping 0.0040 re_causal 0.0114 /// teacc 99.19 lr 0.00010000
+Epoch 384, weight, value: tensor([[-0.1772,  0.2496, -0.0280,  ..., -0.0254,  0.0660, -0.0436],
+        [ 0.2060, -0.1214,  0.0290,  ..., -0.1205,  0.0252, -0.0990],
+        [-0.0960, -0.3077, -0.0597,  ..., -0.0733,  0.0265, -0.3041],
+        ...,
+        [-0.1973, -0.3610,  0.0708,  ..., -0.1268, -0.0979, -0.2020],
+        [-0.1568,  0.0050,  0.0494,  ...,  0.0047, -0.1199,  0.0940],
+        [-0.1323, -0.1028,  0.1113,  ...,  0.2277, -0.0842, -0.2269]],
+       device='cuda:0'), grad: tensor([[ 2.0489e-08, -2.0489e-08, -2.4214e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.4901e-08],
+        [-7.4506e-09,  1.8626e-09, -3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-09],
+        ...,
+        [ 3.7253e-09,  1.8626e-09,  9.3132e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 3.7253e-08,  2.2352e-08,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-08],
+        [ 1.8626e-09,  1.8626e-08,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 384, bias, value: tensor([ 0.0304,  0.0028,  0.0232,  0.0152,  0.0384,  0.0149, -0.0023,  0.0039,
+        -0.0118, -0.0480], device='cuda:0'), grad: tensor([ 4.8429e-08,  5.5879e-09,  2.9802e-08, -2.2911e-07,  1.6764e-08,
+         1.4082e-06, -1.5721e-06,  2.4214e-08,  2.3842e-07,  2.7940e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 383, time 218.13, cls_loss 0.0008 cls_loss_mapping 0.0012 cls_loss_causal 0.4896 re_mapping 0.0040 re_causal 0.0120 /// teacc 99.09 lr 0.00010000
+Epoch 385, weight, value: tensor([[-0.1772,  0.2509, -0.0277,  ..., -0.0254,  0.0660, -0.0431],
+        [ 0.2062, -0.1210,  0.0291,  ..., -0.1206,  0.0253, -0.0991],
+        [-0.0961, -0.3083, -0.0599,  ..., -0.0733,  0.0265, -0.3044],
+        ...,
+        [-0.1974, -0.3612,  0.0708,  ..., -0.1269, -0.0981, -0.2024],
+        [-0.1577,  0.0039,  0.0490,  ...,  0.0046, -0.1200,  0.0938],
+        [-0.1329, -0.1039,  0.1111,  ...,  0.2277, -0.0842, -0.2275]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  3.7253e-09,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        ...,
+        [ 1.8626e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  2.0489e-08],
+        [ 7.6368e-08,  6.7055e-08, -1.6764e-08,  ...,  0.0000e+00,
+          9.3132e-09,  3.7253e-08],
+        [ 9.3132e-09,  1.8626e-08, -3.7253e-09,  ...,  0.0000e+00,
+          3.7253e-09, -2.0489e-08]], device='cuda:0')
+Epoch 385, bias, value: tensor([ 0.0310,  0.0029,  0.0231,  0.0152,  0.0384,  0.0148, -0.0024,  0.0039,
+        -0.0126, -0.0484], device='cuda:0'), grad: tensor([ 1.3039e-08,  1.8626e-08, -3.7253e-09,  0.0000e+00,  4.6566e-08,
+        -2.0117e-07, -7.8231e-08,  7.0781e-08,  1.5087e-07, -9.3132e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 384, time 217.95, cls_loss 0.0007 cls_loss_mapping 0.0011 cls_loss_causal 0.4633 re_mapping 0.0043 re_causal 0.0123 /// teacc 98.94 lr 0.00010000
+Epoch 386, weight, value: tensor([[-0.1772,  0.2522, -0.0267,  ..., -0.0254,  0.0659, -0.0428],
+        [ 0.2062, -0.1210,  0.0289,  ..., -0.1208,  0.0254, -0.0991],
+        [-0.0965, -0.3088, -0.0602,  ..., -0.0733,  0.0266, -0.3076],
+        ...,
+        [-0.1973, -0.3621,  0.0710,  ..., -0.1270, -0.0982, -0.2027],
+        [-0.1580,  0.0038,  0.0493,  ...,  0.0047, -0.1200,  0.0938],
+        [-0.1337, -0.1066,  0.1110,  ...,  0.2278, -0.0848, -0.2289]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.1176e-08,  0.0000e+00,  ...,  0.0000e+00,
+          4.2841e-08,  0.0000e+00],
+        [ 3.7253e-08,  0.0000e+00,  8.3819e-08,  ...,  0.0000e+00,
+          3.5577e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ...,  0.0000e+00,
+         -1.1176e-08,  0.0000e+00],
+        ...,
+        [ 5.5879e-09,  0.0000e+00, -1.8626e-09,  ...,  0.0000e+00,
+         -2.1048e-07,  0.0000e+00],
+        [ 1.8626e-09,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          8.1956e-08,  3.7253e-09],
+        [-8.9407e-08,  3.7253e-09, -1.8999e-07,  ...,  0.0000e+00,
+         -5.4017e-08,  1.8626e-09]], device='cuda:0')
+Epoch 386, bias, value: tensor([ 0.0318,  0.0027,  0.0222,  0.0153,  0.0386,  0.0148, -0.0029,  0.0040,
+        -0.0126, -0.0489], device='cuda:0'), grad: tensor([ 2.9430e-07,  2.4457e-06, -3.6322e-07,  1.7136e-06,  5.2899e-07,
+         6.2026e-07, -3.7234e-06, -1.5311e-06,  5.3830e-07, -5.1223e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 385, time 218.09, cls_loss 0.0012 cls_loss_mapping 0.0015 cls_loss_causal 0.4812 re_mapping 0.0040 re_causal 0.0114 /// teacc 99.06 lr 0.00010000
+Epoch 387, weight, value: tensor([[-0.1775,  0.2535, -0.0264,  ..., -0.0254,  0.0649, -0.0431],
+        [ 0.2066, -0.1208,  0.0290,  ..., -0.1209,  0.0260, -0.0986],
+        [-0.0968, -0.3090, -0.0605,  ..., -0.0733,  0.0261, -0.3081],
+        ...,
+        [-0.1975, -0.3623,  0.0712,  ..., -0.1270, -0.0983, -0.2032],
+        [-0.1601,  0.0025,  0.0494,  ...,  0.0047, -0.1202,  0.0927],
+        [-0.1355, -0.1083,  0.1108,  ...,  0.2278, -0.0853, -0.2306]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-1.6764e-08,  3.7253e-09, -7.4506e-09,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-09],
+        [ 2.7940e-08,  3.3528e-08,  5.0291e-08,  ...,  0.0000e+00,
+          5.5879e-09,  3.3528e-08],
+        ...,
+        [ 1.8626e-08,  0.0000e+00, -1.1176e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [-1.3039e-08, -3.1665e-08, -5.7742e-08,  ...,  0.0000e+00,
+         -3.7253e-09, -3.3528e-08],
+        [ 3.7253e-09,  0.0000e+00,  1.1176e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 387, bias, value: tensor([ 0.0326,  0.0029,  0.0225,  0.0151,  0.0382,  0.0151, -0.0043,  0.0042,
+        -0.0132, -0.0492], device='cuda:0'), grad: tensor([ 9.3132e-09, -2.4214e-08,  1.2107e-07, -2.4214e-08, -2.6077e-08,
+         1.8626e-08, -3.1665e-08,  9.3132e-09, -1.0803e-07,  3.7253e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 386, time 217.77, cls_loss 0.0009 cls_loss_mapping 0.0016 cls_loss_causal 0.4690 re_mapping 0.0041 re_causal 0.0118 /// teacc 99.01 lr 0.00010000
+Epoch 388, weight, value: tensor([[-0.1777,  0.2540, -0.0260,  ..., -0.0254,  0.0656, -0.0433],
+        [ 0.2068, -0.1213,  0.0291,  ..., -0.1209,  0.0260, -0.0988],
+        [-0.0969, -0.3091, -0.0608,  ..., -0.0733,  0.0260, -0.3084],
+        ...,
+        [-0.1976, -0.3643,  0.0713,  ..., -0.1272, -0.0985, -0.2035],
+        [-0.1606,  0.0024,  0.0494,  ...,  0.0047, -0.1202,  0.0926],
+        [-0.1368, -0.1099,  0.1103,  ...,  0.2279, -0.0855, -0.2315]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.0431e-07, -1.1176e-08,  ...,  0.0000e+00,
+          0.0000e+00, -5.5879e-09],
+        [-5.5879e-09,  1.8626e-09, -5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 5.5879e-09,  1.8626e-09,  5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 5.5879e-09,  1.1176e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [ 0.0000e+00,  5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 388, bias, value: tensor([ 0.0324,  0.0030,  0.0226,  0.0162,  0.0381,  0.0140, -0.0038,  0.0043,
+        -0.0134, -0.0501], device='cuda:0'), grad: tensor([-1.3970e-07, -5.5879e-09,  5.5879e-09,  1.8626e-08, -9.3132e-08,
+         9.3132e-08, -9.3132e-09,  1.6764e-08,  2.4214e-08,  9.3132e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 387, time 217.63, cls_loss 0.0009 cls_loss_mapping 0.0011 cls_loss_causal 0.4618 re_mapping 0.0041 re_causal 0.0121 /// teacc 99.04 lr 0.00010000
+Epoch 389, weight, value: tensor([[-0.1775,  0.2549, -0.0259,  ..., -0.0254,  0.0665, -0.0427],
+        [ 0.2070, -0.1223,  0.0292,  ..., -0.1232,  0.0260, -0.0989],
+        [-0.0970, -0.3093, -0.0611,  ..., -0.0733,  0.0260, -0.3085],
+        ...,
+        [-0.1977, -0.3646,  0.0713,  ..., -0.1273, -0.0985, -0.2038],
+        [-0.1613,  0.0022,  0.0492,  ...,  0.0046, -0.1203,  0.0922],
+        [-0.1383, -0.1111,  0.1100,  ...,  0.2282, -0.0855, -0.2328]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09, -1.0803e-07, -2.0489e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-09],
+        [ 0.0000e+00,  1.3039e-08,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.2352e-08],
+        ...,
+        [ 1.1176e-08,  0.0000e+00,  5.5879e-08,  ...,  3.7253e-09,
+          0.0000e+00,  9.3132e-09],
+        [ 0.0000e+00,  8.1956e-08,  2.0489e-08,  ...,  0.0000e+00,
+          0.0000e+00,  2.6077e-08],
+        [-2.0489e-08,  5.5879e-09, -9.4995e-08,  ...,  1.8999e-07,
+          0.0000e+00,  5.5879e-09]], device='cuda:0')
+Epoch 389, bias, value: tensor([ 0.0329,  0.0029,  0.0226,  0.0159,  0.0386,  0.0143, -0.0036,  0.0044,
+        -0.0142, -0.0510], device='cuda:0'), grad: tensor([ 3.4831e-07,  4.2841e-08,  9.6858e-08, -1.8813e-07, -2.1569e-06,
+         1.5087e-07, -5.8860e-07,  2.6263e-07,  2.0117e-07,  1.8124e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 388, time 218.04, cls_loss 0.0010 cls_loss_mapping 0.0011 cls_loss_causal 0.4735 re_mapping 0.0040 re_causal 0.0116 /// teacc 98.99 lr 0.00010000
+Epoch 390, weight, value: tensor([[-0.1775,  0.2549, -0.0260,  ..., -0.0255,  0.0661, -0.0429],
+        [ 0.2074, -0.1224,  0.0293,  ..., -0.1235,  0.0254, -0.0990],
+        [-0.0982, -0.3094, -0.0616,  ..., -0.0733,  0.0256, -0.3088],
+        ...,
+        [-0.1979, -0.3657,  0.0715,  ..., -0.1275, -0.0986, -0.2046],
+        [-0.1622,  0.0020,  0.0489,  ...,  0.0041, -0.1204,  0.0921],
+        [-0.1397, -0.1113,  0.1096,  ...,  0.2284, -0.0856, -0.2335]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09, -1.4901e-08, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00, -5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 5.5879e-09,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-09],
+        [ 1.8626e-09,  3.7253e-09, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 390, bias, value: tensor([ 0.0328,  0.0029,  0.0222,  0.0157,  0.0386,  0.0145, -0.0031,  0.0045,
+        -0.0147, -0.0514], device='cuda:0'), grad: tensor([-1.8626e-09,  1.3970e-07, -4.6566e-08,  6.7055e-08, -4.2096e-07,
+        -3.6508e-07,  3.4273e-07,  1.0803e-07,  1.8626e-08,  1.5087e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 389, time 218.17, cls_loss 0.0009 cls_loss_mapping 0.0011 cls_loss_causal 0.4704 re_mapping 0.0041 re_causal 0.0119 /// teacc 99.05 lr 0.00010000
+Epoch 391, weight, value: tensor([[-0.1777,  0.2550, -0.0273,  ..., -0.0255,  0.0656, -0.0439],
+        [ 0.2075, -0.1225,  0.0293,  ..., -0.1240,  0.0255, -0.0990],
+        [-0.0986, -0.3095, -0.0621,  ..., -0.0733,  0.0250, -0.3092],
+        ...,
+        [-0.1979, -0.3660,  0.0715,  ..., -0.1278, -0.0987, -0.2053],
+        [-0.1626,  0.0019,  0.0490,  ...,  0.0039, -0.1205,  0.0917],
+        [-0.1396, -0.1113,  0.1103,  ...,  0.2285, -0.0855, -0.2336]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 3.7253e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.3039e-08,  0.0000e+00,  7.4506e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 3.7253e-09,  0.0000e+00, -5.9605e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 391, bias, value: tensor([ 0.0323,  0.0029,  0.0219,  0.0157,  0.0389,  0.0145, -0.0032,  0.0046,
+        -0.0151, -0.0511], device='cuda:0'), grad: tensor([ 1.3039e-08,  2.9802e-08, -6.5193e-08,  3.7253e-09,  2.0489e-08,
+        -7.2643e-08,  3.1665e-08,  7.0781e-08,  1.6764e-08, -3.7253e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 390, time 218.43, cls_loss 0.0011 cls_loss_mapping 0.0014 cls_loss_causal 0.4772 re_mapping 0.0040 re_causal 0.0114 /// teacc 99.09 lr 0.00010000
+Epoch 392, weight, value: tensor([[-0.1777,  0.2556, -0.0273,  ..., -0.0255,  0.0654, -0.0431],
+        [ 0.2077, -0.1225,  0.0276,  ..., -0.1243,  0.0255, -0.0991],
+        [-0.1015, -0.3098, -0.0625,  ..., -0.0734,  0.0250, -0.3095],
+        ...,
+        [-0.1972, -0.3664,  0.0733,  ..., -0.1284, -0.0988, -0.2059],
+        [-0.1629,  0.0021,  0.0488,  ...,  0.0039, -0.1205,  0.0919],
+        [-0.1399, -0.1115,  0.1103,  ...,  0.2288, -0.0854, -0.2333]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -5.7556e-07, -7.9349e-07,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  1.8626e-09,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  5.6624e-07,  7.8790e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 392, bias, value: tensor([ 0.0328,  0.0018,  0.0202,  0.0159,  0.0389,  0.0143, -0.0029,  0.0059,
+        -0.0155, -0.0513], device='cuda:0'), grad: tensor([-2.1551e-06,  9.3132e-09,  1.3039e-08, -1.8626e-08,  9.3132e-09,
+         3.5390e-08, -5.2154e-08,  5.5879e-09,  5.5879e-09,  2.1644e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 391, time 218.36, cls_loss 0.0011 cls_loss_mapping 0.0016 cls_loss_causal 0.4902 re_mapping 0.0039 re_causal 0.0111 /// teacc 99.04 lr 0.00010000
+Epoch 393, weight, value: tensor([[-0.1779,  0.2558, -0.0274,  ..., -0.0256,  0.0650, -0.0429],
+        [ 0.2081, -0.1224,  0.0276,  ..., -0.1244,  0.0255, -0.0992],
+        [-0.1019, -0.3098, -0.0626,  ..., -0.0734,  0.0250, -0.3099],
+        ...,
+        [-0.1978, -0.3671,  0.0732,  ..., -0.1285, -0.0989, -0.2065],
+        [-0.1636,  0.0020,  0.0481,  ...,  0.0039, -0.1206,  0.0917],
+        [-0.1384, -0.1118,  0.1110,  ...,  0.2285, -0.0855, -0.2335]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.6764e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 5.5879e-09,  1.8626e-09,  4.0978e-08,  ...,  1.4901e-08,
+          0.0000e+00,  1.8626e-09],
+        [ 5.5879e-09,  0.0000e+00,  3.7253e-09,  ...,  1.8626e-09,
+          0.0000e+00,  5.5879e-09],
+        [ 5.5879e-09,  0.0000e+00, -5.5879e-08,  ..., -2.0489e-08,
+          0.0000e+00,  3.7253e-09]], device='cuda:0')
+Epoch 393, bias, value: tensor([ 0.0327,  0.0018,  0.0200,  0.0159,  0.0386,  0.0143, -0.0018,  0.0058,
+        -0.0163, -0.0514], device='cuda:0'), grad: tensor([ 1.0058e-07,  1.8626e-08, -3.7253e-08,  3.9116e-08, -3.5390e-08,
+         1.9185e-07, -3.5390e-07,  1.0803e-07,  2.6077e-08, -6.3330e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 392, time 218.24, cls_loss 0.0007 cls_loss_mapping 0.0009 cls_loss_causal 0.4685 re_mapping 0.0039 re_causal 0.0118 /// teacc 99.09 lr 0.00010000
+Epoch 394, weight, value: tensor([[-0.1780,  0.2559, -0.0274,  ..., -0.0256,  0.0647, -0.0431],
+        [ 0.2086, -0.1211,  0.0277,  ..., -0.1247,  0.0258, -0.0991],
+        [-0.1020, -0.3100, -0.0625,  ..., -0.0734,  0.0248, -0.3102],
+        ...,
+        [-0.1982, -0.3699,  0.0732,  ..., -0.1287, -0.0990, -0.2069],
+        [-0.1641,  0.0015,  0.0471,  ...,  0.0038, -0.1209,  0.0917],
+        [-0.1385, -0.1123,  0.1110,  ...,  0.2286, -0.0856, -0.2343]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -2.9802e-08, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  3.7253e-09,  1.1176e-07,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  5.5879e-09,  4.0978e-08,  ...,  0.0000e+00,
+         -2.0489e-08,  1.3039e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -5.8226e-06,  ...,  0.0000e+00,
+          1.6764e-08,  1.8626e-09],
+        [ 0.0000e+00, -9.3132e-09,  7.8231e-08,  ...,  0.0000e+00,
+          0.0000e+00, -7.4506e-09],
+        [ 0.0000e+00,  5.5879e-09,  5.4315e-06,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 394, bias, value: tensor([ 0.0327,  0.0021,  0.0202,  0.0159,  0.0390,  0.0143, -0.0018,  0.0056,
+        -0.0170, -0.0517], device='cuda:0'), grad: tensor([ 1.6764e-08,  2.4401e-07, -2.8685e-07, -7.4506e-09,  2.0247e-06,
+         3.5390e-08,  3.5390e-08, -1.0610e-05,  1.3970e-07,  8.4341e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 393, time 218.22, cls_loss 0.0011 cls_loss_mapping 0.0013 cls_loss_causal 0.4679 re_mapping 0.0041 re_causal 0.0117 /// teacc 99.04 lr 0.00010000
+Epoch 395, weight, value: tensor([[-0.1782,  0.2562, -0.0287,  ..., -0.0256,  0.0631, -0.0433],
+        [ 0.2106, -0.1211,  0.0290,  ..., -0.1251,  0.0258, -0.0992],
+        [-0.1024, -0.3104, -0.0629,  ..., -0.0735,  0.0250, -0.3107],
+        ...,
+        [-0.2002, -0.3706,  0.0719,  ..., -0.1291, -0.0994, -0.2077],
+        [-0.1645,  0.0023,  0.0476,  ...,  0.0032, -0.1210,  0.0931],
+        [-0.1387, -0.1128,  0.1120,  ...,  0.2291, -0.0847, -0.2350]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09, -3.7253e-09,  9.3132e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-3.5763e-07,  0.0000e+00, -1.2852e-07,  ...,  1.8626e-09,
+         -6.5193e-08, -1.8626e-09],
+        [ 6.1467e-08,  0.0000e+00,  5.0291e-08,  ...,  0.0000e+00,
+          1.1176e-08,  0.0000e+00],
+        ...,
+        [ 2.3097e-07,  0.0000e+00,  3.5390e-08,  ...,  1.6764e-08,
+          4.2841e-08,  1.8626e-09],
+        [ 2.6077e-08,  0.0000e+00,  2.0489e-08,  ...,  1.8626e-09,
+          5.5879e-09,  1.8626e-09],
+        [ 1.6764e-08,  1.8626e-09, -4.5896e-06,  ..., -3.1851e-06,
+          3.7253e-09,  1.8626e-09]], device='cuda:0')
+Epoch 395, bias, value: tensor([ 0.0325,  0.0036,  0.0197,  0.0157,  0.0386,  0.0144, -0.0021,  0.0041,
+        -0.0163, -0.0508], device='cuda:0'), grad: tensor([ 3.1665e-08, -4.0978e-07,  1.6205e-07,  1.4901e-08,  1.7911e-05,
+         1.2107e-07,  1.4901e-08,  1.0617e-07,  5.9605e-08, -1.8016e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 394, time 217.97, cls_loss 0.0006 cls_loss_mapping 0.0009 cls_loss_causal 0.4357 re_mapping 0.0040 re_causal 0.0117 /// teacc 98.99 lr 0.00010000
+Epoch 396, weight, value: tensor([[-1.7838e-01,  2.5692e-01, -2.8370e-02,  ..., -2.5682e-02,
+          6.2559e-02, -4.3259e-02],
+        [ 2.1095e-01, -1.1940e-01,  2.9174e-02,  ..., -1.2280e-01,
+          2.6379e-02, -9.8846e-02],
+        [-1.0282e-01, -3.1084e-01, -6.3113e-02,  ..., -7.4177e-02,
+          2.4800e-02, -3.1110e-01],
+        ...,
+        [-2.0024e-01, -3.7223e-01,  7.2049e-02,  ..., -1.2950e-01,
+         -9.9715e-02, -2.0794e-01],
+        [-1.6649e-01,  1.1595e-03,  4.6109e-02,  ..., -3.4621e-04,
+         -1.2134e-01,  9.3166e-02],
+        [-1.3869e-01, -1.1451e-01,  1.1183e-01,  ...,  2.3007e-01,
+         -8.4410e-02, -2.3522e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.1176e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 1.8626e-09,  0.0000e+00, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.8626e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 396, bias, value: tensor([ 0.0327,  0.0039,  0.0194,  0.0158,  0.0383,  0.0144, -0.0019,  0.0042,
+        -0.0175, -0.0509], device='cuda:0'), grad: tensor([ 2.9802e-08,  3.7253e-09, -2.8685e-07,  2.9802e-08, -1.8626e-09,
+        -9.3132e-09,  3.7253e-09,  2.6077e-07,  0.0000e+00, -2.9802e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 395, time 217.92, cls_loss 0.0010 cls_loss_mapping 0.0010 cls_loss_causal 0.4500 re_mapping 0.0040 re_causal 0.0115 /// teacc 99.02 lr 0.00010000
+Epoch 397, weight, value: tensor([[-0.1785,  0.2571, -0.0284,  ..., -0.0257,  0.0627, -0.0451],
+        [ 0.2140, -0.1194,  0.0311,  ..., -0.1233,  0.0264, -0.0990],
+        [-0.1034, -0.3111, -0.0638,  ..., -0.0743,  0.0248, -0.3119],
+        ...,
+        [-0.2032, -0.3730,  0.0703,  ..., -0.1290, -0.0998, -0.2084],
+        [-0.1672,  0.0015,  0.0463,  ..., -0.0004, -0.1214,  0.0934],
+        [-0.1389, -0.1152,  0.1118,  ...,  0.2304, -0.0853, -0.2364]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.8626e-09,  9.3132e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.3528e-08,  ...,  2.0489e-08,
+          0.0000e+00,  3.1665e-08],
+        [ 0.0000e+00,  0.0000e+00,  4.6939e-07,  ...,  3.5390e-08,
+          0.0000e+00,  6.7055e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -6.3144e-07,  ...,  5.5879e-09,
+          0.0000e+00,  1.6764e-08],
+        [ 1.8626e-09,  0.0000e+00,  7.8231e-08,  ..., -1.0990e-07,
+          0.0000e+00, -1.7323e-07],
+        [ 1.8626e-09,  1.8626e-09, -9.3132e-09,  ...,  1.8626e-09,
+          0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 397, bias, value: tensor([ 0.0326,  0.0064,  0.0199,  0.0158,  0.0384,  0.0143, -0.0020,  0.0018,
+        -0.0175, -0.0511], device='cuda:0'), grad: tensor([ 3.1665e-08,  1.2852e-07,  8.4750e-07,  1.3597e-07,  1.3039e-08,
+         2.6077e-08,  2.4214e-08, -9.8161e-07, -2.2724e-07, -7.4506e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 396, time 217.80, cls_loss 0.0010 cls_loss_mapping 0.0014 cls_loss_causal 0.4695 re_mapping 0.0040 re_causal 0.0118 /// teacc 99.03 lr 0.00010000
+Epoch 398, weight, value: tensor([[-1.7859e-01,  2.5717e-01, -2.8390e-02,  ..., -2.5733e-02,
+          6.2488e-02, -4.6610e-02],
+        [ 2.1405e-01, -1.1892e-01,  3.0433e-02,  ..., -1.2549e-01,
+          2.6267e-02, -9.9152e-02],
+        [-1.0366e-01, -3.1118e-01, -6.4109e-02,  ..., -7.4654e-02,
+          2.2704e-02, -3.1243e-01],
+        ...,
+        [-2.0324e-01, -3.7483e-01,  7.1050e-02,  ..., -1.2676e-01,
+         -9.9879e-02, -2.0935e-01],
+        [-1.6742e-01,  1.3527e-03,  4.5874e-02,  ..., -3.6184e-04,
+         -1.2144e-01,  9.3399e-02],
+        [-1.3953e-01, -1.1568e-01,  1.1174e-01,  ...,  2.3036e-01,
+         -8.5414e-02, -2.3776e-01]], device='cuda:0'), grad: tensor([[ 9.3132e-09, -3.7253e-09,  7.4506e-09,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [-8.3633e-07, -2.9989e-07, -8.7917e-07,  ..., -2.4959e-07,
+         -1.8626e-09,  0.0000e+00],
+        [ 1.5646e-07,  5.5879e-08,  1.6578e-07,  ...,  4.6566e-08,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 5.2899e-07,  1.8813e-07,  5.4203e-07,  ...,  1.5646e-07,
+          1.8626e-09, -1.8626e-09],
+        [ 4.4703e-08,  1.8626e-08,  4.8429e-08,  ...,  1.3039e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 8.1956e-08,  3.3528e-08,  9.3132e-08,  ...,  2.4214e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 398, bias, value: tensor([ 0.0312,  0.0055,  0.0196,  0.0158,  0.0382,  0.0143, -0.0003,  0.0028,
+        -0.0181, -0.0514], device='cuda:0'), grad: tensor([ 1.8626e-08, -2.0806e-06,  1.3411e-07,  5.4017e-08,  1.8626e-08,
+         5.5879e-09,  2.2352e-08,  1.2927e-06,  1.2107e-07,  4.0233e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 397, time 218.05, cls_loss 0.0010 cls_loss_mapping 0.0015 cls_loss_causal 0.4578 re_mapping 0.0041 re_causal 0.0114 /// teacc 99.05 lr 0.00010000
+Epoch 399, weight, value: tensor([[-1.7902e-01,  2.5737e-01, -2.8528e-02,  ..., -2.5781e-02,
+          6.1815e-02, -4.6798e-02],
+        [ 2.1410e-01, -1.1860e-01,  3.0179e-02,  ..., -1.2635e-01,
+          2.6442e-02, -9.9240e-02],
+        [-1.0388e-01, -3.1307e-01, -6.5033e-02,  ..., -7.6485e-02,
+          2.2565e-02, -3.1432e-01],
+        ...,
+        [-2.0317e-01, -3.7560e-01,  7.1391e-02,  ..., -1.2594e-01,
+         -1.0015e-01, -2.1030e-01],
+        [-1.6804e-01,  2.9610e-03,  4.7254e-02,  ...,  1.6661e-04,
+         -1.2151e-01,  9.4479e-02],
+        [-1.3960e-01, -1.1601e-01,  1.1175e-01,  ...,  2.3065e-01,
+         -8.5648e-02, -2.3782e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  5.5879e-09,  7.4506e-09,  ...,  0.0000e+00,
+          0.0000e+00,  7.4506e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -7.4506e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -1.1176e-08, -1.6764e-08,  ...,  0.0000e+00,
+          0.0000e+00, -1.6764e-08],
+        [ 0.0000e+00,  1.8626e-09,  5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09]], device='cuda:0')
+Epoch 399, bias, value: tensor([ 0.0312,  0.0052,  0.0185,  0.0159,  0.0384,  0.0142, -0.0003,  0.0033,
+        -0.0170, -0.0516], device='cuda:0'), grad: tensor([ 9.3132e-09,  1.8626e-08, -3.7253e-09,  7.4506e-09, -8.7544e-08,
+         1.6764e-08,  1.3039e-08, -5.5879e-09, -2.4214e-08,  5.0291e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 398, time 217.69, cls_loss 0.0008 cls_loss_mapping 0.0014 cls_loss_causal 0.4645 re_mapping 0.0040 re_causal 0.0117 /// teacc 99.05 lr 0.00010000
+Epoch 400, weight, value: tensor([[-1.7980e-01,  2.5822e-01, -2.8495e-02,  ..., -2.5814e-02,
+          6.1512e-02, -4.7021e-02],
+        [ 2.1415e-01, -1.1848e-01,  3.0202e-02,  ..., -1.2636e-01,
+          2.6456e-02, -9.9332e-02],
+        [-1.0386e-01, -3.1419e-01, -6.5382e-02,  ..., -7.6565e-02,
+          2.2637e-02, -3.1634e-01],
+        ...,
+        [-2.0319e-01, -3.7605e-01,  7.1399e-02,  ..., -1.2599e-01,
+         -1.0022e-01, -2.1121e-01],
+        [-1.6844e-01,  3.2970e-03,  4.7844e-02,  ...,  2.1424e-04,
+         -1.2156e-01,  9.4761e-02],
+        [-1.3982e-01, -1.1679e-01,  1.1180e-01,  ...,  2.3089e-01,
+         -8.6072e-02, -2.3900e-01]], device='cuda:0'), grad: tensor([[ 3.7253e-09, -3.7253e-09, -3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -1.4901e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-1.8626e-09, -1.8626e-09, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00, -1.8626e-09],
+        [ 1.8626e-09,  7.4506e-09,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09]], device='cuda:0')
+Epoch 400, bias, value: tensor([ 0.0315,  0.0051,  0.0184,  0.0154,  0.0386,  0.0147, -0.0006,  0.0033,
+        -0.0167, -0.0518], device='cuda:0'), grad: tensor([ 9.3132e-09,  2.4214e-08, -3.5390e-08,  1.6205e-07,  5.5879e-09,
+        -9.6858e-08, -1.6764e-08, -8.9407e-08,  1.1176e-08,  2.2352e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 399, time 218.19, cls_loss 0.0009 cls_loss_mapping 0.0015 cls_loss_causal 0.4671 re_mapping 0.0040 re_causal 0.0118 /// teacc 99.07 lr 0.00001000
+Epoch 401, weight, value: tensor([[-1.8026e-01,  2.5852e-01, -2.8951e-02,  ..., -2.6327e-02,
+          6.1190e-02, -4.7099e-02],
+        [ 2.1498e-01, -1.2078e-01,  3.0886e-02,  ..., -1.2639e-01,
+          2.6337e-02, -1.0079e-01],
+        [-1.0445e-01, -3.1448e-01, -6.5031e-02,  ..., -7.7084e-02,
+          2.2771e-02, -3.1667e-01],
+        ...,
+        [-2.0440e-01, -3.7634e-01,  7.0835e-02,  ..., -1.2600e-01,
+         -1.0313e-01, -2.1207e-01],
+        [-1.6949e-01,  2.8522e-03,  4.7836e-02,  ...,  2.1537e-04,
+         -1.2179e-01,  9.4547e-02],
+        [-1.4122e-01, -1.1707e-01,  1.1161e-01,  ...,  2.3117e-01,
+         -8.6317e-02, -2.4012e-01]], device='cuda:0'), grad: tensor([[ 1.1176e-08,  5.5879e-09,  9.3132e-09,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [-2.7008e-07, -1.2666e-07, -1.9372e-07,  ...,  0.0000e+00,
+         -8.1956e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 7.4506e-09,  3.7253e-09,  5.5879e-09,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 1.4901e-07,  7.0781e-08,  1.0617e-07,  ...,  0.0000e+00,
+          4.4703e-08,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 401, bias, value: tensor([ 0.0314,  0.0056,  0.0192,  0.0154,  0.0386,  0.0148, -0.0008,  0.0027,
+        -0.0174, -0.0521], device='cuda:0'), grad: tensor([ 2.0489e-08, -4.1351e-07,  1.8626e-09, -3.7253e-09, -9.3132e-09,
+         2.0489e-08,  1.3597e-07,  1.1176e-08,  2.3283e-07,  7.4506e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 400, time 217.87, cls_loss 0.0008 cls_loss_mapping 0.0011 cls_loss_causal 0.4822 re_mapping 0.0038 re_causal 0.0118 /// teacc 99.11 lr 0.00001000
+Epoch 402, weight, value: tensor([[-1.8027e-01,  2.5867e-01, -2.8903e-02,  ..., -2.6332e-02,
+          6.1394e-02, -4.7105e-02],
+        [ 2.1500e-01, -1.2096e-01,  3.0890e-02,  ..., -1.2639e-01,
+          2.6327e-02, -1.0080e-01],
+        [-1.0449e-01, -3.1453e-01, -6.5074e-02,  ..., -7.7090e-02,
+          2.2789e-02, -3.1670e-01],
+        ...,
+        [-2.0440e-01, -3.7643e-01,  7.0828e-02,  ..., -1.2601e-01,
+         -1.0314e-01, -2.1212e-01],
+        [-1.6975e-01,  2.6657e-03,  4.7750e-02,  ...,  2.1589e-04,
+         -1.2186e-01,  9.4458e-02],
+        [-1.4122e-01, -1.1711e-01,  1.1165e-01,  ...,  2.3120e-01,
+         -8.6324e-02, -2.4024e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.3225e-07,  ...,  6.7055e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.5832e-07,  ..., -7.8231e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 402, bias, value: tensor([ 0.0315,  0.0056,  0.0192,  0.0154,  0.0386,  0.0149, -0.0008,  0.0027,
+        -0.0175, -0.0520], device='cuda:0'), grad: tensor([ 1.8626e-09,  3.7253e-09, -9.3132e-09,  3.9116e-08,  0.0000e+00,
+         3.7253e-09,  0.0000e+00,  3.5577e-07,  7.4506e-09, -3.9488e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 401, time 218.04, cls_loss 0.0008 cls_loss_mapping 0.0009 cls_loss_causal 0.4681 re_mapping 0.0037 re_causal 0.0116 /// teacc 99.11 lr 0.00001000
+Epoch 403, weight, value: tensor([[-1.8027e-01,  2.5887e-01, -2.8853e-02,  ..., -2.6332e-02,
+          6.1646e-02, -4.7106e-02],
+        [ 2.1506e-01, -1.2113e-01,  3.0906e-02,  ..., -1.2640e-01,
+          2.6463e-02, -1.0067e-01],
+        [-1.0454e-01, -3.1456e-01, -6.5154e-02,  ..., -7.7065e-02,
+          2.2795e-02, -3.1673e-01],
+        ...,
+        [-2.0444e-01, -3.7648e-01,  7.0820e-02,  ..., -1.2603e-01,
+         -1.0325e-01, -2.1216e-01],
+        [-1.6982e-01,  2.6287e-03,  4.7704e-02,  ...,  1.9860e-04,
+         -1.2189e-01,  9.4414e-02],
+        [-1.4122e-01, -1.1718e-01,  1.1167e-01,  ...,  2.3125e-01,
+         -8.6332e-02, -2.4027e-01]], device='cuda:0'), grad: tensor([[ 9.3132e-09,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          1.8626e-09,  5.5879e-09],
+        [-4.8429e-08,  5.5879e-09, -1.4901e-08,  ...,  0.0000e+00,
+         -1.3039e-08,  7.4506e-09],
+        [ 1.8626e-09,  2.4214e-08,  1.6764e-08,  ...,  0.0000e+00,
+          0.0000e+00,  2.4214e-08],
+        ...,
+        [ 7.4506e-09,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 1.8626e-09, -3.1665e-08, -2.7940e-08,  ...,  0.0000e+00,
+          0.0000e+00, -3.5390e-08],
+        [ 1.1176e-08,  1.8626e-09,  5.5879e-09,  ...,  0.0000e+00,
+          1.8626e-09,  1.8626e-09]], device='cuda:0')
+Epoch 403, bias, value: tensor([ 0.0316,  0.0056,  0.0192,  0.0154,  0.0386,  0.0149, -0.0008,  0.0026,
+        -0.0176, -0.0520], device='cuda:0'), grad: tensor([ 3.1665e-08, -5.2154e-08,  6.8918e-08,  3.5390e-08,  5.5879e-09,
+        -5.5879e-09, -1.4901e-08,  1.4901e-08, -9.8720e-08,  1.8626e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 402, time 218.04, cls_loss 0.0007 cls_loss_mapping 0.0008 cls_loss_causal 0.4602 re_mapping 0.0036 re_causal 0.0113 /// teacc 99.11 lr 0.00001000
+Epoch 404, weight, value: tensor([[-1.8028e-01,  2.5891e-01, -2.8845e-02,  ..., -2.6370e-02,
+          6.1617e-02, -4.7130e-02],
+        [ 2.1510e-01, -1.2092e-01,  3.0930e-02,  ..., -1.2641e-01,
+          2.6828e-02, -1.0033e-01],
+        [-1.0458e-01, -3.1459e-01, -6.5248e-02,  ..., -7.7116e-02,
+          2.2801e-02, -3.1679e-01],
+        ...,
+        [-2.0444e-01, -3.7653e-01,  7.0821e-02,  ..., -1.2603e-01,
+         -1.0328e-01, -2.1224e-01],
+        [-1.6992e-01,  2.5845e-03,  4.7685e-02,  ...,  1.8641e-04,
+         -1.2193e-01,  9.4400e-02],
+        [-1.4120e-01, -1.1723e-01,  1.1169e-01,  ...,  2.3129e-01,
+         -8.6347e-02, -2.4030e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -4.0978e-08, -1.1176e-08,  ...,  0.0000e+00,
+          0.0000e+00, -9.3132e-09],
+        [-3.7253e-09,  1.8626e-09, -3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        ...,
+        [ 1.8626e-09,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.3039e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -1.8626e-09],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09]], device='cuda:0')
+Epoch 404, bias, value: tensor([ 0.0316,  0.0057,  0.0191,  0.0154,  0.0386,  0.0149, -0.0010,  0.0026,
+        -0.0176, -0.0520], device='cuda:0'), grad: tensor([-9.4995e-08,  3.5390e-08, -2.6077e-08, -1.6205e-07,  1.8626e-09,
+         1.0803e-07,  2.0489e-08,  8.3819e-08,  1.8626e-09,  2.6077e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 403, time 217.93, cls_loss 0.0007 cls_loss_mapping 0.0006 cls_loss_causal 0.4420 re_mapping 0.0035 re_causal 0.0113 /// teacc 99.10 lr 0.00001000
+Epoch 405, weight, value: tensor([[-1.8028e-01,  2.5894e-01, -2.8839e-02,  ..., -2.6375e-02,
+          6.1610e-02, -4.7136e-02],
+        [ 2.1512e-01, -1.2091e-01,  3.0936e-02,  ..., -1.2641e-01,
+          2.6840e-02, -1.0033e-01],
+        [-1.0464e-01, -3.1461e-01, -6.5286e-02,  ..., -7.7080e-02,
+          2.2811e-02, -3.1682e-01],
+        ...,
+        [-2.0445e-01, -3.7662e-01,  7.0823e-02,  ..., -1.2603e-01,
+         -1.0331e-01, -2.1232e-01],
+        [-1.7004e-01,  2.5171e-03,  4.7640e-02,  ...,  1.7734e-04,
+         -1.2197e-01,  9.4367e-02],
+        [-1.4122e-01, -1.1730e-01,  1.1169e-01,  ...,  2.3130e-01,
+         -8.6370e-02, -2.4035e-01]], device='cuda:0'), grad: tensor([[ 8.3819e-08,  2.0489e-08,  7.2643e-08,  ...,  0.0000e+00,
+          1.1176e-08,  0.0000e+00],
+        [-1.2144e-06, -3.4273e-07, -8.9779e-07,  ...,  0.0000e+00,
+         -1.3225e-07,  0.0000e+00],
+        [ 1.0990e-07,  1.8626e-09, -3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 9.3132e-08,  2.9802e-08,  7.8231e-08,  ...,  0.0000e+00,
+          1.1176e-08,  0.0000e+00],
+        [ 7.6555e-07,  2.6077e-07,  6.8545e-07,  ...,  0.0000e+00,
+          1.0058e-07,  0.0000e+00],
+        [ 5.5879e-09,  3.7253e-09,  5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 405, bias, value: tensor([ 0.0316,  0.0057,  0.0191,  0.0154,  0.0386,  0.0149, -0.0010,  0.0026,
+        -0.0177, -0.0520], device='cuda:0'), grad: tensor([ 1.3597e-07, -2.0545e-06,  1.3597e-07,  3.1665e-08, -5.5879e-08,
+         5.7742e-08,  1.8626e-07,  1.6950e-07,  1.2703e-06,  1.2107e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 404, time 217.83, cls_loss 0.0007 cls_loss_mapping 0.0005 cls_loss_causal 0.4727 re_mapping 0.0035 re_causal 0.0116 /// teacc 99.11 lr 0.00001000
+Epoch 406, weight, value: tensor([[-1.8029e-01,  2.5900e-01, -2.8823e-02,  ..., -2.6375e-02,
+          6.1650e-02, -4.7135e-02],
+        [ 2.1515e-01, -1.2093e-01,  3.0946e-02,  ..., -1.2644e-01,
+          2.6852e-02, -1.0033e-01],
+        [-1.0468e-01, -3.1464e-01, -6.5337e-02,  ..., -7.7079e-02,
+          2.2800e-02, -3.1686e-01],
+        ...,
+        [-2.0447e-01, -3.7674e-01,  7.0808e-02,  ..., -1.2609e-01,
+         -1.0339e-01, -2.1235e-01],
+        [-1.7007e-01,  2.5664e-03,  4.7654e-02,  ...,  1.7221e-04,
+         -1.2196e-01,  9.4420e-02],
+        [-1.4117e-01, -1.1734e-01,  1.1173e-01,  ...,  2.3144e-01,
+         -8.6373e-02, -2.4040e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  5.5879e-09,  7.4506e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [-7.4506e-09,  2.0489e-08,  3.3528e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.6764e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 7.4506e-09, -1.0431e-07, -1.9372e-07,  ...,  0.0000e+00,
+          0.0000e+00, -8.9407e-08],
+        [ 1.8626e-09,  7.0781e-08,  1.1921e-07,  ...,  0.0000e+00,
+          0.0000e+00,  6.1467e-08]], device='cuda:0')
+Epoch 406, bias, value: tensor([ 0.0316,  0.0057,  0.0191,  0.0154,  0.0386,  0.0149, -0.0010,  0.0026,
+        -0.0177, -0.0520], device='cuda:0'), grad: tensor([ 2.0489e-08,  2.4401e-07, -3.5390e-07, -1.0058e-07,  1.3039e-07,
+         1.0245e-07,  7.2643e-08,  1.4901e-08, -4.3586e-07,  3.0361e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 405, time 218.02, cls_loss 0.0006 cls_loss_mapping 0.0005 cls_loss_causal 0.4277 re_mapping 0.0034 re_causal 0.0109 /// teacc 99.08 lr 0.00001000
+Epoch 407, weight, value: tensor([[-1.8030e-01,  2.5903e-01, -2.8830e-02,  ..., -2.6386e-02,
+          6.1649e-02, -4.7171e-02],
+        [ 2.1517e-01, -1.2088e-01,  3.0958e-02,  ..., -1.2644e-01,
+          2.6939e-02, -1.0025e-01],
+        [-1.0469e-01, -3.1467e-01, -6.5396e-02,  ..., -7.7085e-02,
+          2.2794e-02, -3.1689e-01],
+        ...,
+        [-2.0447e-01, -3.7676e-01,  7.0809e-02,  ..., -1.2609e-01,
+         -1.0341e-01, -2.1242e-01],
+        [-1.7011e-01,  2.5545e-03,  4.7638e-02,  ...,  1.6076e-04,
+         -1.2197e-01,  9.4416e-02],
+        [-1.4119e-01, -1.1737e-01,  1.1175e-01,  ...,  2.3145e-01,
+         -8.6371e-02, -2.4043e-01]], device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.3039e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -1.6764e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 3.7253e-09,  1.8626e-09,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00, -3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 407, bias, value: tensor([ 0.0316,  0.0057,  0.0191,  0.0154,  0.0386,  0.0149, -0.0010,  0.0026,
+        -0.0177, -0.0520], device='cuda:0'), grad: tensor([ 1.8626e-09,  7.4506e-09,  4.6566e-08,  5.4017e-08,  7.4506e-09,
+        -4.6566e-08,  1.8626e-09, -7.8231e-08,  1.1176e-08, -7.4506e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 406, time 218.20, cls_loss 0.0007 cls_loss_mapping 0.0005 cls_loss_causal 0.4533 re_mapping 0.0034 re_causal 0.0111 /// teacc 99.07 lr 0.00001000
+Epoch 408, weight, value: tensor([[-1.8030e-01,  2.5909e-01, -2.8815e-02,  ..., -2.6394e-02,
+          6.1675e-02, -4.7170e-02],
+        [ 2.1522e-01, -1.2091e-01,  3.0981e-02,  ..., -1.2644e-01,
+          2.6946e-02, -1.0026e-01],
+        [-1.0470e-01, -3.1469e-01, -6.5462e-02,  ..., -7.7080e-02,
+          2.2806e-02, -3.1691e-01],
+        ...,
+        [-2.0452e-01, -3.7682e-01,  7.0792e-02,  ..., -1.2610e-01,
+         -1.0345e-01, -2.1246e-01],
+        [-1.7014e-01,  2.5462e-03,  4.7635e-02,  ...,  1.4931e-04,
+         -1.2198e-01,  9.4414e-02],
+        [-1.4123e-01, -1.1739e-01,  1.1176e-01,  ...,  2.3146e-01,
+         -8.6385e-02, -2.4049e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -3.5018e-07, -1.3784e-07,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  8.3819e-09,  2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  3.7253e-09,  2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00, -9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  5.5879e-09,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00, -1.8626e-09],
+        [ 0.0000e+00,  1.8626e-08, -1.5832e-08,  ...,  0.0000e+00,
+         -4.6566e-09,  0.0000e+00]], device='cuda:0')
+Epoch 408, bias, value: tensor([ 0.0316,  0.0057,  0.0191,  0.0154,  0.0386,  0.0148, -0.0010,  0.0026,
+        -0.0177, -0.0520], device='cuda:0'), grad: tensor([-1.4622e-06,  3.1665e-08,  2.8871e-08,  2.1420e-08,  3.5390e-08,
+         1.4901e-08,  1.3094e-06, -8.3819e-09,  2.3283e-08,  1.9558e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 407, time 217.72, cls_loss 0.0006 cls_loss_mapping 0.0005 cls_loss_causal 0.4456 re_mapping 0.0034 re_causal 0.0110 /// teacc 99.11 lr 0.00001000
+Epoch 409, weight, value: tensor([[-1.8032e-01,  2.5912e-01, -2.8809e-02,  ..., -2.6437e-02,
+          6.1669e-02, -4.7181e-02],
+        [ 2.1523e-01, -1.2091e-01,  3.0986e-02,  ..., -1.2644e-01,
+          2.6949e-02, -1.0028e-01],
+        [-1.0471e-01, -3.1472e-01, -6.5563e-02,  ..., -7.7136e-02,
+          2.2809e-02, -3.1695e-01],
+        ...,
+        [-2.0453e-01, -3.7688e-01,  7.0794e-02,  ..., -1.2611e-01,
+         -1.0345e-01, -2.1252e-01],
+        [-1.7020e-01,  2.5214e-03,  4.7626e-02,  ...,  1.4920e-04,
+         -1.2200e-01,  9.4407e-02],
+        [-1.4126e-01, -1.1742e-01,  1.1176e-01,  ...,  2.3149e-01,
+         -8.6407e-02, -2.4058e-01]], device='cuda:0'), grad: tensor([[ 9.3132e-10, -7.4506e-09, -9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-4.0978e-08,  0.0000e+00,  9.3132e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [-1.7695e-08,  0.0000e+00, -7.9162e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.0245e-08,  1.8626e-09,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 1.1176e-08,  1.8626e-09,  3.9116e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 409, bias, value: tensor([ 0.0316,  0.0057,  0.0190,  0.0154,  0.0386,  0.0148, -0.0010,  0.0026,
+        -0.0177, -0.0520], device='cuda:0'), grad: tensor([ 0.0000e+00, -5.4017e-08, -8.3819e-09,  5.5879e-09, -7.4506e-09,
+        -2.7940e-09,  8.9407e-08, -1.0524e-07,  2.1420e-08,  7.1712e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 408, time 217.90, cls_loss 0.0006 cls_loss_mapping 0.0005 cls_loss_causal 0.4433 re_mapping 0.0033 re_causal 0.0112 /// teacc 99.08 lr 0.00001000
+Epoch 410, weight, value: tensor([[-1.8034e-01,  2.5915e-01, -2.8800e-02,  ..., -2.6427e-02,
+          6.1663e-02, -4.7191e-02],
+        [ 2.1525e-01, -1.2092e-01,  3.0996e-02,  ..., -1.2644e-01,
+          2.6952e-02, -1.0030e-01],
+        [-1.0473e-01, -3.1475e-01, -6.5591e-02,  ..., -7.7134e-02,
+          2.2813e-02, -3.1699e-01],
+        ...,
+        [-2.0455e-01, -3.7693e-01,  7.0781e-02,  ..., -1.2615e-01,
+         -1.0346e-01, -2.1256e-01],
+        [-1.7024e-01,  2.5250e-03,  4.7623e-02,  ...,  1.3539e-04,
+         -1.2200e-01,  9.4418e-02],
+        [-1.4126e-01, -1.1746e-01,  1.1180e-01,  ...,  2.3156e-01,
+         -8.6416e-02, -2.4069e-01]], device='cuda:0'), grad: tensor([[-4.6566e-09, -1.2852e-07, -2.5146e-08,  ...,  0.0000e+00,
+          0.0000e+00, -4.4703e-08],
+        [-1.1176e-08,  9.3132e-10, -4.6566e-09,  ...,  0.0000e+00,
+         -9.3132e-10,  9.3132e-10],
+        [ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        ...,
+        [ 1.8626e-09,  9.3132e-10,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  1.8626e-09, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00, -3.7253e-09],
+        [ 1.8626e-09,  6.5193e-09, -6.5193e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 410, bias, value: tensor([ 0.0316,  0.0057,  0.0190,  0.0154,  0.0386,  0.0148, -0.0009,  0.0026,
+        -0.0177, -0.0520], device='cuda:0'), grad: tensor([-2.0396e-07, -8.3819e-09,  4.6566e-09,  2.8871e-08,  1.8626e-08,
+         9.0338e-08,  8.6613e-08,  8.3819e-09, -7.4506e-09, -1.4901e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 409, time 217.67, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4335 re_mapping 0.0034 re_causal 0.0108 /// teacc 99.07 lr 0.00001000
+Epoch 411, weight, value: tensor([[-1.8033e-01,  2.5919e-01, -2.8816e-02,  ..., -2.6431e-02,
+          6.1657e-02, -4.7193e-02],
+        [ 2.1527e-01, -1.2091e-01,  3.1003e-02,  ..., -1.2644e-01,
+          2.6960e-02, -1.0031e-01],
+        [-1.0474e-01, -3.1477e-01, -6.5631e-02,  ..., -7.7137e-02,
+          2.2806e-02, -3.1701e-01],
+        ...,
+        [-2.0457e-01, -3.7700e-01,  7.0779e-02,  ..., -1.2616e-01,
+         -1.0350e-01, -2.1261e-01],
+        [-1.7029e-01,  2.5034e-03,  4.7603e-02,  ...,  1.3296e-04,
+         -1.2201e-01,  9.4406e-02],
+        [-1.4129e-01, -1.1750e-01,  1.1183e-01,  ...,  2.3156e-01,
+         -8.6440e-02, -2.4076e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -9.3132e-09, -3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  3.7253e-09,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  9.3132e-10, -1.3039e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.7940e-09,  1.1176e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 411, bias, value: tensor([ 0.0315,  0.0057,  0.0190,  0.0154,  0.0386,  0.0148, -0.0009,  0.0026,
+        -0.0178, -0.0520], device='cuda:0'), grad: tensor([-1.3039e-08,  9.3132e-09, -2.7940e-09,  7.4506e-09,  2.7940e-09,
+         2.7940e-09,  4.6566e-09, -4.1910e-08,  1.8626e-09,  4.0047e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 410, time 218.10, cls_loss 0.0006 cls_loss_mapping 0.0005 cls_loss_causal 0.4477 re_mapping 0.0033 re_causal 0.0110 /// teacc 99.07 lr 0.00001000
+Epoch 412, weight, value: tensor([[-1.8034e-01,  2.5923e-01, -2.8844e-02,  ..., -2.6432e-02,
+          6.1644e-02, -4.7212e-02],
+        [ 2.1531e-01, -1.2085e-01,  3.1012e-02,  ..., -1.2649e-01,
+          2.7060e-02, -1.0021e-01],
+        [-1.0478e-01, -3.1481e-01, -6.5664e-02,  ..., -7.7128e-02,
+          2.2806e-02, -3.1706e-01],
+        ...,
+        [-2.0459e-01, -3.7705e-01,  7.0778e-02,  ..., -1.2616e-01,
+         -1.0353e-01, -2.1270e-01],
+        [-1.7032e-01,  2.5379e-03,  4.7611e-02,  ...,  1.3041e-04,
+         -1.2201e-01,  9.4432e-02],
+        [-1.4123e-01, -1.1754e-01,  1.1187e-01,  ...,  2.3163e-01,
+         -8.6457e-02, -2.4085e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -7.4506e-09, -9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 2.7940e-09,  1.8626e-09,  5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  6.5193e-09,  7.4506e-09,  ...,  0.0000e+00,
+          0.0000e+00,  8.3819e-09],
+        ...,
+        [ 4.6566e-09,  3.9116e-08, -7.4506e-09,  ...,  0.0000e+00,
+          1.8626e-09,  3.3528e-08],
+        [ 5.5879e-09,  1.4901e-08, -2.0489e-08,  ..., -9.3132e-10,
+          1.8626e-09,  2.7940e-09],
+        [ 0.0000e+00,  1.8626e-09,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09]], device='cuda:0')
+Epoch 412, bias, value: tensor([ 0.0315,  0.0057,  0.0190,  0.0154,  0.0386,  0.0148, -0.0010,  0.0026,
+        -0.0178, -0.0520], device='cuda:0'), grad: tensor([-3.7253e-09,  2.7940e-08,  8.1956e-08,  3.6322e-08,  4.6566e-09,
+        -8.4750e-08, -5.6811e-08, -6.5193e-09, -2.9802e-08,  2.6077e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 411, time 217.55, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4465 re_mapping 0.0033 re_causal 0.0111 /// teacc 99.09 lr 0.00001000
+Epoch 413, weight, value: tensor([[-1.8033e-01,  2.5929e-01, -2.8849e-02,  ..., -2.6479e-02,
+          6.1641e-02, -4.7193e-02],
+        [ 2.1531e-01, -1.2085e-01,  3.1013e-02,  ..., -1.2649e-01,
+          2.7061e-02, -1.0021e-01],
+        [-1.0478e-01, -3.1483e-01, -6.5689e-02,  ..., -7.7168e-02,
+          2.2801e-02, -3.1709e-01],
+        ...,
+        [-2.0459e-01, -3.7710e-01,  7.0780e-02,  ..., -1.2616e-01,
+         -1.0354e-01, -2.1274e-01],
+        [-1.7036e-01,  2.5339e-03,  4.7610e-02,  ...,  1.2749e-04,
+         -1.2202e-01,  9.4436e-02],
+        [-1.4124e-01, -1.1759e-01,  1.1189e-01,  ...,  2.3167e-01,
+         -8.6468e-02, -2.4089e-01]], device='cuda:0'), grad: tensor([[ 9.3132e-10, -4.8429e-08,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -1.5832e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 7.4506e-09,  7.4506e-09,  5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  7.4506e-09],
+        [ 1.8626e-09,  1.3039e-08,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 413, bias, value: tensor([ 0.0315,  0.0057,  0.0190,  0.0154,  0.0386,  0.0148, -0.0010,  0.0026,
+        -0.0178, -0.0520], device='cuda:0'), grad: tensor([-4.1910e-08,  6.5193e-09,  1.5832e-08,  1.6764e-08,  9.3132e-10,
+        -3.4459e-08,  3.0734e-08, -4.3772e-08,  2.7940e-08,  2.3283e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 412, time 218.38, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4417 re_mapping 0.0033 re_causal 0.0109 /// teacc 99.10 lr 0.00001000
+Epoch 414, weight, value: tensor([[-1.8034e-01,  2.5935e-01, -2.8828e-02,  ..., -2.6400e-02,
+          6.1640e-02, -4.7195e-02],
+        [ 2.1532e-01, -1.2086e-01,  3.1014e-02,  ..., -1.2650e-01,
+          2.7061e-02, -1.0022e-01],
+        [-1.0478e-01, -3.1486e-01, -6.5743e-02,  ..., -7.7175e-02,
+          2.2796e-02, -3.1714e-01],
+        ...,
+        [-2.0459e-01, -3.7714e-01,  7.0779e-02,  ..., -1.2620e-01,
+         -1.0353e-01, -2.1281e-01],
+        [-1.7037e-01,  2.5511e-03,  4.7652e-02,  ...,  1.2707e-04,
+         -1.2202e-01,  9.4447e-02],
+        [-1.4124e-01, -1.1769e-01,  1.1190e-01,  ...,  2.3170e-01,
+         -8.6499e-02, -2.4094e-01]], device='cuda:0'), grad: tensor([[ 2.7940e-09,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09],
+        [ 0.0000e+00,  3.7253e-09,  8.3819e-09,  ...,  0.0000e+00,
+          0.0000e+00,  7.4506e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 9.3132e-10, -3.7253e-09, -1.1176e-08,  ...,  0.0000e+00,
+          0.0000e+00, -8.3819e-09],
+        [ 1.8626e-09,  2.7940e-09, -2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 414, bias, value: tensor([ 0.0316,  0.0057,  0.0189,  0.0154,  0.0387,  0.0148, -0.0010,  0.0026,
+        -0.0178, -0.0521], device='cuda:0'), grad: tensor([ 6.5193e-09,  1.8626e-08,  0.0000e+00,  9.8720e-08, -1.2107e-08,
+        -1.0990e-07,  5.5879e-09,  7.4506e-09, -2.0489e-08,  1.2107e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 413, time 217.86, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4439 re_mapping 0.0033 re_causal 0.0110 /// teacc 99.15 lr 0.00001000
+Epoch 415, weight, value: tensor([[-1.8034e-01,  2.5943e-01, -2.8809e-02,  ..., -2.6399e-02,
+          6.1634e-02, -4.7179e-02],
+        [ 2.1533e-01, -1.2086e-01,  3.1012e-02,  ..., -1.2650e-01,
+          2.7063e-02, -1.0022e-01],
+        [-1.0469e-01, -3.1491e-01, -6.5719e-02,  ..., -7.7166e-02,
+          2.2799e-02, -3.1717e-01],
+        ...,
+        [-2.0461e-01, -3.7717e-01,  7.0779e-02,  ..., -1.2620e-01,
+         -1.0355e-01, -2.1284e-01],
+        [-1.7038e-01,  2.6075e-03,  4.7702e-02,  ...,  1.2947e-04,
+         -1.2199e-01,  9.4504e-02],
+        [-1.4125e-01, -1.1777e-01,  1.1191e-01,  ...,  2.3172e-01,
+         -8.6500e-02, -2.4097e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -5.9791e-07, -9.6858e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-09,  3.9116e-08,  1.8626e-08,  ...,  1.8626e-09,
+          0.0000e+00,  1.1176e-08],
+        [ 0.0000e+00,  1.6578e-07,  3.1665e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  6.1467e-08,  7.4506e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-1.6764e-08, -3.5390e-08, -3.9116e-08,  ..., -5.5879e-09,
+          0.0000e+00, -2.7940e-08],
+        [ 1.8626e-09,  1.9185e-07,  3.9116e-08,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-09]], device='cuda:0')
+Epoch 415, bias, value: tensor([ 0.0316,  0.0057,  0.0190,  0.0154,  0.0387,  0.0148, -0.0010,  0.0026,
+        -0.0177, -0.0521], device='cuda:0'), grad: tensor([-1.1809e-06,  9.1270e-08,  2.8685e-07,  1.2852e-07,  2.6077e-08,
+         1.4715e-07,  1.0803e-07,  1.1548e-07, -9.6858e-08,  3.6508e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 414, time 218.15, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4683 re_mapping 0.0033 re_causal 0.0112 /// teacc 99.12 lr 0.00001000
+Epoch 416, weight, value: tensor([[-1.8035e-01,  2.5949e-01, -2.8790e-02,  ..., -2.6430e-02,
+          6.1629e-02, -4.7189e-02],
+        [ 2.1535e-01, -1.2086e-01,  3.1021e-02,  ..., -1.2650e-01,
+          2.7069e-02, -1.0023e-01],
+        [-1.0469e-01, -3.1497e-01, -6.5723e-02,  ..., -7.7189e-02,
+          2.2784e-02, -3.1720e-01],
+        ...,
+        [-2.0464e-01, -3.7727e-01,  7.0770e-02,  ..., -1.2621e-01,
+         -1.0358e-01, -2.1290e-01],
+        [-1.7040e-01,  2.6411e-03,  4.7730e-02,  ...,  1.2741e-04,
+         -1.2200e-01,  9.4530e-02],
+        [-1.4128e-01, -1.1788e-01,  1.1192e-01,  ...,  2.3175e-01,
+         -8.6536e-02, -2.4104e-01]], device='cuda:0'), grad: tensor([[ 7.4506e-09, -9.3132e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        ...,
+        [-1.8626e-08, -1.1176e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -5.5879e-09, -3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00, -5.5879e-09],
+        [ 3.7253e-09,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 416, bias, value: tensor([ 0.0316,  0.0057,  0.0191,  0.0154,  0.0387,  0.0148, -0.0010,  0.0026,
+        -0.0177, -0.0521], device='cuda:0'), grad: tensor([ 6.8918e-08,  1.1176e-08,  1.3039e-08,  1.1176e-08, -7.4506e-09,
+         5.5879e-08,  2.4214e-08, -2.3283e-07, -1.6764e-08,  6.5193e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 415, time 218.10, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4152 re_mapping 0.0032 re_causal 0.0104 /// teacc 99.12 lr 0.00001000
+Epoch 417, weight, value: tensor([[-1.8036e-01,  2.5952e-01, -2.8787e-02,  ..., -2.6435e-02,
+          6.1615e-02, -4.7194e-02],
+        [ 2.1536e-01, -1.2078e-01,  3.1032e-02,  ..., -1.2650e-01,
+          2.7209e-02, -1.0010e-01],
+        [-1.0461e-01, -3.1500e-01, -6.5667e-02,  ..., -7.7189e-02,
+          2.2794e-02, -3.1725e-01],
+        ...,
+        [-2.0464e-01, -3.7730e-01,  7.0770e-02,  ..., -1.2621e-01,
+         -1.0359e-01, -2.1300e-01],
+        [-1.7043e-01,  2.6521e-03,  4.7739e-02,  ...,  1.2983e-04,
+         -1.2201e-01,  9.4550e-02],
+        [-1.4133e-01, -1.1794e-01,  1.1192e-01,  ...,  2.3176e-01,
+         -8.6554e-02, -2.4113e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [ 0.0000e+00, -1.8626e-09, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00, -1.8626e-09],
+        [ 0.0000e+00,  1.8626e-09, -1.1176e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 417, bias, value: tensor([ 0.0316,  0.0057,  0.0192,  0.0154,  0.0387,  0.0148, -0.0010,  0.0026,
+        -0.0177, -0.0521], device='cuda:0'), grad: tensor([ 3.7253e-09,  1.8626e-09,  2.4214e-08, -4.2841e-08, -1.0431e-07,
+         3.7253e-09,  2.4214e-08,  2.7940e-08,  2.7940e-08,  3.7253e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 416, time 217.72, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4489 re_mapping 0.0032 re_causal 0.0108 /// teacc 99.11 lr 0.00001000
+Epoch 418, weight, value: tensor([[-1.8036e-01,  2.5961e-01, -2.8764e-02,  ..., -2.6436e-02,
+          6.1615e-02, -4.7198e-02],
+        [ 2.1537e-01, -1.2078e-01,  3.1031e-02,  ..., -1.2650e-01,
+          2.7259e-02, -1.0006e-01],
+        [-1.0461e-01, -3.1503e-01, -6.5653e-02,  ..., -7.7189e-02,
+          2.2781e-02, -3.1728e-01],
+        ...,
+        [-2.0464e-01, -3.7732e-01,  7.0777e-02,  ..., -1.2621e-01,
+         -1.0358e-01, -2.1305e-01],
+        [-1.7045e-01,  2.6597e-03,  4.7757e-02,  ...,  1.3048e-04,
+         -1.2202e-01,  9.4554e-02],
+        [-1.4136e-01, -1.1802e-01,  1.1192e-01,  ...,  2.3178e-01,
+         -8.6562e-02, -2.4123e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  5.5879e-09],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  5.4017e-08,  5.5879e-09,  ...,  0.0000e+00,
+          1.8626e-09,  4.0978e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-3.7253e-09, -8.7544e-08, -1.4901e-08,  ...,  0.0000e+00,
+          0.0000e+00, -7.6368e-08],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 418, bias, value: tensor([ 0.0317,  0.0057,  0.0192,  0.0154,  0.0387,  0.0148, -0.0010,  0.0026,
+        -0.0177, -0.0522], device='cuda:0'), grad: tensor([ 4.8429e-08,  6.5193e-08, -1.4529e-07,  4.6566e-08, -1.6950e-07,
+         4.6566e-08,  1.8626e-08,  2.7940e-07, -2.4401e-07,  5.0291e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 417, time 217.87, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4269 re_mapping 0.0032 re_causal 0.0108 /// teacc 99.12 lr 0.00001000
+Epoch 419, weight, value: tensor([[-1.8035e-01,  2.5973e-01, -2.8764e-02,  ..., -2.6439e-02,
+          6.1624e-02, -4.7186e-02],
+        [ 2.1540e-01, -1.2085e-01,  3.1043e-02,  ..., -1.2651e-01,
+          2.7264e-02, -1.0007e-01],
+        [-1.0462e-01, -3.1505e-01, -6.5678e-02,  ..., -7.7181e-02,
+          2.2779e-02, -3.1732e-01],
+        ...,
+        [-2.0467e-01, -3.7735e-01,  7.0767e-02,  ..., -1.2624e-01,
+         -1.0363e-01, -2.1313e-01],
+        [-1.7048e-01,  2.6639e-03,  4.7780e-02,  ...,  1.2803e-04,
+         -1.2202e-01,  9.4569e-02],
+        [-1.4137e-01, -1.1808e-01,  1.1193e-01,  ...,  2.3181e-01,
+         -8.6679e-02, -2.4128e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  2.2352e-08,  1.6764e-08,  ...,  0.0000e+00,
+          0.0000e+00,  2.2352e-08],
+        ...,
+        [ 1.8626e-09,  5.5879e-09, -5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-09],
+        [ 0.0000e+00, -5.9605e-08, -7.4506e-08,  ...,  0.0000e+00,
+          0.0000e+00, -8.0094e-08],
+        [ 0.0000e+00,  3.7253e-09,  1.3039e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 419, bias, value: tensor([ 0.0317,  0.0057,  0.0192,  0.0154,  0.0388,  0.0148, -0.0011,  0.0026,
+        -0.0177, -0.0522], device='cuda:0'), grad: tensor([ 1.8626e-09,  5.5879e-09,  7.2643e-08,  3.3528e-08,  1.8626e-09,
+         1.0058e-07,  5.5879e-09, -9.3132e-09, -2.4773e-07,  4.0978e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 418, time 218.22, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4584 re_mapping 0.0031 re_causal 0.0111 /// teacc 99.12 lr 0.00001000
+Epoch 420, weight, value: tensor([[-1.8035e-01,  2.5977e-01, -2.8749e-02,  ..., -2.6439e-02,
+          6.1618e-02, -4.7195e-02],
+        [ 2.1542e-01, -1.2081e-01,  3.1057e-02,  ..., -1.2651e-01,
+          2.7345e-02, -9.9991e-02],
+        [-1.0464e-01, -3.1510e-01, -6.5723e-02,  ..., -7.7184e-02,
+          2.2773e-02, -3.1737e-01],
+        ...,
+        [-2.0467e-01, -3.7739e-01,  7.0768e-02,  ..., -1.2624e-01,
+         -1.0364e-01, -2.1319e-01],
+        [-1.7049e-01,  2.7051e-03,  4.7833e-02,  ...,  1.2703e-04,
+         -1.2201e-01,  9.4613e-02],
+        [-1.4139e-01, -1.1813e-01,  1.1193e-01,  ...,  2.3182e-01,
+         -8.6694e-02, -2.4137e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 3.7253e-08,  0.0000e+00,  6.1467e-08,  ...,  1.3039e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -1.1176e-08,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-5.0291e-08,  0.0000e+00, -1.0617e-07,  ..., -3.7253e-08,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 420, bias, value: tensor([ 0.0317,  0.0057,  0.0192,  0.0154,  0.0388,  0.0148, -0.0011,  0.0026,
+        -0.0177, -0.0522], device='cuda:0'), grad: tensor([ 6.5193e-08,  5.1968e-07,  7.4506e-09,  5.5879e-09, -1.0710e-06,
+         2.9802e-08, -3.7439e-07,  5.4017e-08,  1.6764e-08,  7.3016e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 419, time 218.05, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4403 re_mapping 0.0031 re_causal 0.0106 /// teacc 99.12 lr 0.00001000
+Epoch 421, weight, value: tensor([[-1.8038e-01,  2.5983e-01, -2.8787e-02,  ..., -2.6471e-02,
+          6.1611e-02, -4.7226e-02],
+        [ 2.1542e-01, -1.2081e-01,  3.1040e-02,  ..., -1.2662e-01,
+          2.7349e-02, -1.0000e-01],
+        [-1.0466e-01, -3.1514e-01, -6.5753e-02,  ..., -7.7207e-02,
+          2.2772e-02, -3.1740e-01],
+        ...,
+        [-2.0468e-01, -3.7744e-01,  7.0773e-02,  ..., -1.2624e-01,
+         -1.0365e-01, -2.1330e-01],
+        [-1.7052e-01,  2.7416e-03,  4.7875e-02,  ...,  1.2256e-04,
+         -1.2201e-01,  9.4637e-02],
+        [-1.4124e-01, -1.1820e-01,  1.1201e-01,  ...,  2.3198e-01,
+         -8.6709e-02, -2.4145e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  9.3132e-09,  2.4214e-08,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 5.5879e-09, -9.3132e-09, -9.3132e-09,  ...,  0.0000e+00,
+          1.8626e-09, -5.5879e-09],
+        [ 1.8626e-09,  3.7253e-09, -3.1665e-08,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09]], device='cuda:0')
+Epoch 421, bias, value: tensor([ 0.0317,  0.0057,  0.0192,  0.0155,  0.0388,  0.0148, -0.0011,  0.0026,
+        -0.0177, -0.0522], device='cuda:0'), grad: tensor([ 6.3330e-08,  7.4506e-09,  9.3132e-09,  1.4901e-08,  1.1176e-08,
+        -5.7742e-08, -5.5879e-09,  3.7253e-09, -5.5879e-09, -4.0978e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 420, time 218.09, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4321 re_mapping 0.0031 re_causal 0.0107 /// teacc 99.13 lr 0.00001000
+Epoch 422, weight, value: tensor([[-1.8039e-01,  2.5991e-01, -2.8818e-02,  ..., -2.6493e-02,
+          6.1622e-02, -4.7227e-02],
+        [ 2.1542e-01, -1.2085e-01,  3.1022e-02,  ..., -1.2663e-01,
+          2.7343e-02, -1.0002e-01],
+        [-1.0456e-01, -3.1517e-01, -6.5672e-02,  ..., -7.7226e-02,
+          2.2777e-02, -3.1745e-01],
+        ...,
+        [-2.0469e-01, -3.7749e-01,  7.0786e-02,  ..., -1.2624e-01,
+         -1.0362e-01, -2.1339e-01],
+        [-1.7055e-01,  2.7444e-03,  4.7866e-02,  ...,  1.2068e-04,
+         -1.2202e-01,  9.4644e-02],
+        [-1.4129e-01, -1.1825e-01,  1.1205e-01,  ...,  2.3201e-01,
+         -8.6707e-02, -2.4158e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -2.7940e-08,  1.8626e-09,  ...,  0.0000e+00,
+          1.8626e-09,  1.8626e-09],
+        [ 5.5879e-09,  3.7253e-09,  9.3132e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.3039e-08],
+        [ 3.7253e-09,  1.1176e-08,  2.4214e-08,  ...,  0.0000e+00,
+         -5.5879e-09,  1.3039e-08],
+        ...,
+        [ 1.3039e-08,  0.0000e+00, -3.7253e-09,  ...,  0.0000e+00,
+          1.8626e-09,  2.0489e-08],
+        [ 1.8626e-09, -5.5879e-08, -1.1548e-07,  ...,  0.0000e+00,
+          0.0000e+00, -4.2841e-08],
+        [ 7.4506e-09,  3.7253e-08,  5.4017e-08,  ...,  0.0000e+00,
+          0.0000e+00,  3.9116e-08]], device='cuda:0')
+Epoch 422, bias, value: tensor([ 0.0317,  0.0057,  0.0193,  0.0155,  0.0388,  0.0148, -0.0010,  0.0026,
+        -0.0177, -0.0522], device='cuda:0'), grad: tensor([-5.4017e-08,  5.4017e-08,  6.3330e-08, -8.6427e-07,  8.0094e-08,
+         7.5996e-07,  8.3819e-08,  5.2154e-08, -2.6636e-07,  8.7544e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 421, time 218.26, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4316 re_mapping 0.0031 re_causal 0.0108 /// teacc 99.13 lr 0.00001000
+Epoch 423, weight, value: tensor([[-1.8039e-01,  2.5996e-01, -2.8826e-02,  ..., -2.6501e-02,
+          6.1617e-02, -4.7253e-02],
+        [ 2.1539e-01, -1.2086e-01,  3.0995e-02,  ..., -1.2683e-01,
+          2.7344e-02, -1.0002e-01],
+        [-1.0456e-01, -3.1520e-01, -6.5691e-02,  ..., -7.7221e-02,
+          2.2775e-02, -3.1748e-01],
+        ...,
+        [-2.0470e-01, -3.7752e-01,  7.0794e-02,  ..., -1.2625e-01,
+         -1.0364e-01, -2.1346e-01],
+        [-1.7057e-01,  2.7438e-03,  4.7882e-02,  ...,  1.0201e-04,
+         -1.2202e-01,  9.4647e-02],
+        [-1.4103e-01, -1.1829e-01,  1.1215e-01,  ...,  2.3227e-01,
+         -8.6727e-02, -2.4160e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 423, bias, value: tensor([ 0.0317,  0.0056,  0.0193,  0.0155,  0.0388,  0.0148, -0.0010,  0.0026,
+        -0.0177, -0.0521], device='cuda:0'), grad: tensor([ 5.5879e-09,  3.7253e-09, -7.4506e-09,  5.5879e-09, -9.3132e-09,
+         5.5879e-09,  0.0000e+00, -1.8626e-08,  0.0000e+00,  1.3039e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 422, time 218.39, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4661 re_mapping 0.0031 re_causal 0.0110 /// teacc 99.15 lr 0.00001000
+Epoch 424, weight, value: tensor([[-1.8041e-01,  2.6000e-01, -2.8827e-02,  ..., -2.6507e-02,
+          6.1609e-02, -4.7310e-02],
+        [ 2.1540e-01, -1.2087e-01,  3.0993e-02,  ..., -1.2683e-01,
+          2.7348e-02, -1.0004e-01],
+        [-1.0452e-01, -3.1524e-01, -6.5671e-02,  ..., -7.7229e-02,
+          2.2752e-02, -3.1754e-01],
+        ...,
+        [-2.0470e-01, -3.7756e-01,  7.0797e-02,  ..., -1.2625e-01,
+         -1.0366e-01, -2.1349e-01],
+        [-1.7057e-01,  2.7794e-03,  4.7913e-02,  ...,  9.8714e-05,
+         -1.2201e-01,  9.4670e-02],
+        [-1.4104e-01, -1.1837e-01,  1.1216e-01,  ...,  2.3228e-01,
+         -8.6757e-02, -2.4162e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 4.0978e-08,  0.0000e+00,  1.1362e-07,  ...,  5.5879e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.4901e-07,  0.0000e+00,  1.7323e-07,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-2.1048e-07,  1.8626e-09, -3.6508e-07,  ..., -9.3132e-09,
+         -1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 424, bias, value: tensor([ 0.0317,  0.0056,  0.0194,  0.0155,  0.0388,  0.0148, -0.0010,  0.0026,
+        -0.0177, -0.0521], device='cuda:0'), grad: tensor([ 0.0000e+00,  2.5518e-07,  7.4506e-08,  9.3132e-09,  9.1270e-08,
+         5.5879e-09,  1.8626e-09,  4.7125e-07,  9.3132e-09, -9.1828e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 423, time 218.39, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4441 re_mapping 0.0031 re_causal 0.0109 /// teacc 99.13 lr 0.00001000
+Epoch 425, weight, value: tensor([[-1.8041e-01,  2.6012e-01, -2.8829e-02,  ..., -2.6513e-02,
+          6.1636e-02, -4.7315e-02],
+        [ 2.1543e-01, -1.2087e-01,  3.1006e-02,  ..., -1.2688e-01,
+          2.7497e-02, -9.9913e-02],
+        [-1.0449e-01, -3.1527e-01, -6.5658e-02,  ..., -7.7234e-02,
+          2.2763e-02, -3.1757e-01],
+        ...,
+        [-2.0473e-01, -3.7760e-01,  7.0794e-02,  ..., -1.2625e-01,
+         -1.0374e-01, -2.1357e-01],
+        [-1.7060e-01,  2.7753e-03,  4.7911e-02,  ...,  9.8216e-05,
+         -1.2202e-01,  9.4671e-02],
+        [-1.4102e-01, -1.1847e-01,  1.1220e-01,  ...,  2.3234e-01,
+         -8.6797e-02, -2.4170e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -6.5193e-08, -1.6764e-08,  ...,  0.0000e+00,
+          0.0000e+00, -1.6764e-08],
+        [-2.2352e-08,  3.7253e-09, -1.1176e-08,  ...,  0.0000e+00,
+         -5.5879e-09,  1.8626e-09],
+        [-7.4506e-09,  1.8626e-09,  0.0000e+00,  ..., -1.3039e-08,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 3.7253e-09,  0.0000e+00, -3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 1.8626e-09,  9.3132e-09,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  7.4506e-09],
+        [ 9.3132e-09,  1.8626e-09,  1.8626e-09,  ...,  1.1176e-08,
+          0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 425, bias, value: tensor([ 0.0317,  0.0056,  0.0195,  0.0155,  0.0388,  0.0148, -0.0011,  0.0026,
+        -0.0177, -0.0521], device='cuda:0'), grad: tensor([-1.2480e-07, -2.6077e-08, -1.0245e-07,  7.4506e-08,  2.7940e-08,
+        -5.5879e-09,  1.1176e-08,  0.0000e+00,  2.2352e-08,  1.0990e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 424, time 218.24, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4288 re_mapping 0.0030 re_causal 0.0106 /// teacc 99.13 lr 0.00001000
+Epoch 426, weight, value: tensor([[-1.8042e-01,  2.6017e-01, -2.8878e-02,  ..., -2.6519e-02,
+          6.1626e-02, -4.7328e-02],
+        [ 2.1544e-01, -1.2087e-01,  3.1005e-02,  ..., -1.2688e-01,
+          2.7503e-02, -9.9918e-02],
+        [-1.0449e-01, -3.1531e-01, -6.5681e-02,  ..., -7.7200e-02,
+          2.2795e-02, -3.1760e-01],
+        ...,
+        [-2.0473e-01, -3.7763e-01,  7.0807e-02,  ..., -1.2626e-01,
+         -1.0374e-01, -2.1362e-01],
+        [-1.7065e-01,  2.7711e-03,  4.7938e-02,  ...,  1.0090e-04,
+         -1.2202e-01,  9.4681e-02],
+        [-1.4105e-01, -1.1853e-01,  1.1221e-01,  ...,  2.3235e-01,
+         -8.6821e-02, -2.4176e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-3.7253e-09,  0.0000e+00, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 3.7253e-09,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 3.7253e-09,  0.0000e+00, -5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 426, bias, value: tensor([ 0.0317,  0.0056,  0.0195,  0.0155,  0.0388,  0.0148, -0.0011,  0.0026,
+        -0.0177, -0.0521], device='cuda:0'), grad: tensor([ 3.7253e-09,  1.8068e-07,  7.4506e-09, -7.4506e-09, -2.5705e-07,
+         9.3132e-09, -7.4506e-09,  1.4901e-08,  0.0000e+00,  5.2154e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 425, time 218.27, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4226 re_mapping 0.0032 re_causal 0.0107 /// teacc 99.15 lr 0.00001000
+Epoch 427, weight, value: tensor([[-1.8043e-01,  2.6021e-01, -2.8866e-02,  ..., -2.6509e-02,
+          6.1616e-02, -4.7338e-02],
+        [ 2.1545e-01, -1.2086e-01,  3.1014e-02,  ..., -1.2689e-01,
+          2.7545e-02, -9.9895e-02],
+        [-1.0449e-01, -3.1533e-01, -6.5699e-02,  ..., -7.7199e-02,
+          2.2789e-02, -3.1763e-01],
+        ...,
+        [-2.0474e-01, -3.7769e-01,  7.0805e-02,  ..., -1.2627e-01,
+         -1.0379e-01, -2.1371e-01],
+        [-1.7067e-01,  2.8033e-03,  4.7964e-02,  ...,  1.0140e-04,
+         -1.2203e-01,  9.4718e-02],
+        [-1.4107e-01, -1.1862e-01,  1.1222e-01,  ...,  2.3238e-01,
+         -8.6852e-02, -2.4182e-01]], device='cuda:0'), grad: tensor([[ 7.4506e-09,  3.7253e-09,  1.3039e-08,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [-1.0245e-07, -5.7742e-08, -1.6764e-07,  ...,  0.0000e+00,
+         -3.3528e-08,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 2.4214e-08,  1.3039e-08,  2.2352e-08,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [ 5.7742e-08,  2.2352e-08,  9.1270e-08,  ...,  0.0000e+00,
+          1.8626e-08, -3.7253e-09],
+        [ 9.3132e-09,  5.5879e-09,  7.4506e-09,  ...,  0.0000e+00,
+          1.8626e-09,  1.8626e-09]], device='cuda:0')
+Epoch 427, bias, value: tensor([ 0.0317,  0.0056,  0.0195,  0.0155,  0.0389,  0.0148, -0.0011,  0.0026,
+        -0.0177, -0.0522], device='cuda:0'), grad: tensor([ 9.6858e-08, -3.9116e-08,  9.4064e-07,  3.9116e-08,  2.8498e-07,
+         7.4506e-08, -1.6987e-06,  4.4703e-08,  2.2724e-07,  2.0489e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 426, time 218.06, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4220 re_mapping 0.0031 re_causal 0.0106 /// teacc 99.14 lr 0.00001000
+Epoch 428, weight, value: tensor([[-1.8044e-01,  2.6026e-01, -2.8922e-02,  ..., -2.6526e-02,
+          6.1609e-02, -4.7387e-02],
+        [ 2.1549e-01, -1.2084e-01,  3.1024e-02,  ..., -1.2689e-01,
+          2.7589e-02, -9.9871e-02],
+        [-1.0452e-01, -3.1535e-01, -6.5721e-02,  ..., -7.7201e-02,
+          2.2783e-02, -3.1768e-01],
+        ...,
+        [-2.0476e-01, -3.7774e-01,  7.0806e-02,  ..., -1.2628e-01,
+         -1.0385e-01, -2.1377e-01],
+        [-1.7069e-01,  2.8184e-03,  4.7980e-02,  ...,  1.0258e-04,
+         -1.2204e-01,  9.4710e-02],
+        [-1.4108e-01, -1.1867e-01,  1.1226e-01,  ...,  2.3240e-01,
+         -8.6876e-02, -2.4196e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [-3.4329e-06,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 1.4342e-07,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  2.2352e-08],
+        ...,
+        [ 3.2503e-06,  0.0000e+00,  1.4715e-07,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-08],
+        [ 0.0000e+00, -7.4506e-09, -5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00, -7.4506e-09],
+        [ 1.8626e-09,  3.7253e-09, -1.6391e-07,  ..., -1.8626e-09,
+          0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 428, bias, value: tensor([ 0.0317,  0.0056,  0.0195,  0.0155,  0.0388,  0.0147, -0.0011,  0.0026,
+        -0.0177, -0.0521], device='cuda:0'), grad: tensor([ 1.1176e-08, -4.2208e-06,  2.3842e-07, -1.0617e-07,  7.4506e-09,
+         7.4506e-09,  3.7253e-09,  4.4703e-06, -2.4214e-08, -4.1723e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 427, time 218.53, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4225 re_mapping 0.0031 re_causal 0.0107 /// teacc 99.14 lr 0.00001000
+Epoch 429, weight, value: tensor([[-1.8043e-01,  2.6037e-01, -2.8901e-02,  ..., -2.6527e-02,
+          6.1599e-02, -4.7393e-02],
+        [ 2.1551e-01, -1.2084e-01,  3.1025e-02,  ..., -1.2689e-01,
+          2.7595e-02, -9.9878e-02],
+        [-1.0454e-01, -3.1542e-01, -6.5749e-02,  ..., -7.7199e-02,
+          2.2777e-02, -3.1772e-01],
+        ...,
+        [-2.0478e-01, -3.7782e-01,  7.0804e-02,  ..., -1.2629e-01,
+         -1.0388e-01, -2.1385e-01],
+        [-1.7072e-01,  2.8142e-03,  4.7964e-02,  ...,  1.0052e-04,
+         -1.2204e-01,  9.4717e-02],
+        [-1.4109e-01, -1.1879e-01,  1.1230e-01,  ...,  2.3242e-01,
+         -8.6894e-02, -2.4201e-01]], device='cuda:0'), grad: tensor([[ 1.8626e-09, -2.4214e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-1.1176e-08,  0.0000e+00, -9.3132e-09,  ...,  0.0000e+00,
+         -3.7253e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 3.7253e-09,  1.8626e-09,  9.3132e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 1.1176e-08,  1.6764e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.1176e-08],
+        [ 3.7253e-09,  3.7253e-09, -1.1176e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 429, bias, value: tensor([ 0.0317,  0.0056,  0.0195,  0.0155,  0.0388,  0.0147, -0.0011,  0.0026,
+        -0.0177, -0.0521], device='cuda:0'), grad: tensor([-4.2841e-08, -1.1176e-08, -2.9802e-08,  2.7381e-07, -7.4506e-09,
+        -3.2037e-07,  5.2154e-08,  2.7940e-08,  4.8429e-08,  9.3132e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 428, time 218.13, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4351 re_mapping 0.0030 re_causal 0.0108 /// teacc 99.12 lr 0.00001000
+Epoch 430, weight, value: tensor([[-1.8043e-01,  2.6047e-01, -2.8878e-02,  ..., -2.6527e-02,
+          6.1587e-02, -4.7390e-02],
+        [ 2.1552e-01, -1.2086e-01,  3.1025e-02,  ..., -1.2691e-01,
+          2.7591e-02, -9.9894e-02],
+        [-1.0455e-01, -3.1546e-01, -6.5811e-02,  ..., -7.7188e-02,
+          2.2769e-02, -3.1776e-01],
+        ...,
+        [-2.0479e-01, -3.7787e-01,  7.0801e-02,  ..., -1.2634e-01,
+         -1.0389e-01, -2.1398e-01],
+        [-1.7074e-01,  2.8210e-03,  4.7981e-02,  ...,  9.8250e-05,
+         -1.2204e-01,  9.4736e-02],
+        [-1.4107e-01, -1.1886e-01,  1.1235e-01,  ...,  2.3249e-01,
+         -8.6912e-02, -2.4205e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -2.6077e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09, -3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -3.7253e-09],
+        [ 0.0000e+00,  7.4506e-09,  1.3039e-08,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09]], device='cuda:0')
+Epoch 430, bias, value: tensor([ 0.0318,  0.0056,  0.0195,  0.0155,  0.0388,  0.0147, -0.0011,  0.0026,
+        -0.0177, -0.0521], device='cuda:0'), grad: tensor([-9.3132e-09,  1.3039e-08,  5.5879e-09,  3.7253e-09, -1.3970e-07,
+         7.4506e-09,  7.4506e-09, -3.7253e-08, -5.5879e-09,  1.5460e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 429, time 218.37, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4534 re_mapping 0.0030 re_causal 0.0111 /// teacc 99.12 lr 0.00001000
+Epoch 431, weight, value: tensor([[-1.8044e-01,  2.6059e-01, -2.8844e-02,  ..., -2.6519e-02,
+          6.1578e-02, -4.7392e-02],
+        [ 2.1552e-01, -1.2087e-01,  3.1023e-02,  ..., -1.2693e-01,
+          2.7592e-02, -9.9903e-02],
+        [-1.0456e-01, -3.1548e-01, -6.5880e-02,  ..., -7.7190e-02,
+          2.2752e-02, -3.1778e-01],
+        ...,
+        [-2.0480e-01, -3.7791e-01,  7.0805e-02,  ..., -1.2638e-01,
+         -1.0390e-01, -2.1402e-01],
+        [-1.7076e-01,  2.8245e-03,  4.7994e-02,  ...,  9.6210e-05,
+         -1.2204e-01,  9.4751e-02],
+        [-1.4105e-01, -1.1897e-01,  1.1237e-01,  ...,  2.3255e-01,
+         -8.6921e-02, -2.4208e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -9.3132e-09, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 3.7253e-09,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 7.4506e-09, -1.8626e-09, -1.6764e-08,  ...,  0.0000e+00,
+          1.8626e-09, -1.1176e-08],
+        [ 1.8626e-09,  9.3132e-09,  9.3132e-09,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-09]], device='cuda:0')
+Epoch 431, bias, value: tensor([ 0.0318,  0.0056,  0.0194,  0.0155,  0.0388,  0.0147, -0.0011,  0.0026,
+        -0.0177, -0.0521], device='cuda:0'), grad: tensor([ 9.8720e-08,  3.1851e-07, -1.2908e-06,  2.3283e-07,  2.7940e-08,
+        -1.8626e-09,  1.0803e-07,  3.0920e-07,  1.1176e-07,  8.3819e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 430, time 218.06, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4804 re_mapping 0.0031 re_causal 0.0112 /// teacc 99.13 lr 0.00001000
+Epoch 432, weight, value: tensor([[-1.8045e-01,  2.6067e-01, -2.8819e-02,  ..., -2.6510e-02,
+          6.1574e-02, -4.7473e-02],
+        [ 2.1550e-01, -1.2089e-01,  3.1000e-02,  ..., -1.2701e-01,
+          2.7589e-02, -9.9910e-02],
+        [-1.0448e-01, -3.1552e-01, -6.5817e-02,  ..., -7.7193e-02,
+          2.2780e-02, -3.1786e-01],
+        ...,
+        [-2.0480e-01, -3.7795e-01,  7.0806e-02,  ..., -1.2639e-01,
+         -1.0390e-01, -2.1407e-01],
+        [-1.7077e-01,  2.8563e-03,  4.8036e-02,  ...,  9.4921e-05,
+         -1.2204e-01,  9.4776e-02],
+        [-1.4096e-01, -1.1907e-01,  1.1246e-01,  ...,  2.3268e-01,
+         -8.6946e-02, -2.4212e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -2.2352e-08, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-2.4214e-08,  0.0000e+00,  7.4506e-09,  ...,  0.0000e+00,
+          0.0000e+00, -3.7253e-09],
+        [ 5.5879e-09,  1.8626e-09, -1.1176e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.3039e-08,  0.0000e+00, -1.1176e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00, -1.8626e-09, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00, -1.8626e-09],
+        [ 0.0000e+00,  1.1176e-08,  1.3039e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 432, bias, value: tensor([ 0.0319,  0.0056,  0.0196,  0.0155,  0.0388,  0.0147, -0.0011,  0.0026,
+        -0.0177, -0.0520], device='cuda:0'), grad: tensor([-1.4901e-08,  1.6764e-08, -9.4995e-08,  1.8626e-08, -3.7253e-09,
+        -9.3132e-09,  3.1665e-08, -1.8626e-09,  0.0000e+00,  6.3330e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 431, time 217.97, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4250 re_mapping 0.0029 re_causal 0.0103 /// teacc 99.14 lr 0.00001000
+Epoch 433, weight, value: tensor([[-1.8045e-01,  2.6080e-01, -2.8779e-02,  ..., -2.6503e-02,
+          6.1575e-02, -4.7520e-02],
+        [ 2.1551e-01, -1.2089e-01,  3.0986e-02,  ..., -1.2705e-01,
+          2.7584e-02, -9.9916e-02],
+        [-1.0451e-01, -3.1555e-01, -6.5854e-02,  ..., -7.7185e-02,
+          2.2842e-02, -3.1791e-01],
+        ...,
+        [-2.0481e-01, -3.7800e-01,  7.0821e-02,  ..., -1.2640e-01,
+         -1.0386e-01, -2.1416e-01],
+        [-1.7079e-01,  2.8806e-03,  4.8057e-02,  ...,  9.1855e-05,
+         -1.2205e-01,  9.4808e-02],
+        [-1.4093e-01, -1.1918e-01,  1.1248e-01,  ...,  2.3275e-01,
+         -8.6968e-02, -2.4215e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.6764e-08,  1.6764e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.4901e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -7.8231e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -5.5879e-09, -7.4506e-09,  ...,  0.0000e+00,
+          0.0000e+00, -9.3132e-09],
+        [ 0.0000e+00,  7.4506e-09,  3.5390e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 433, bias, value: tensor([ 0.0319,  0.0056,  0.0196,  0.0155,  0.0388,  0.0147, -0.0012,  0.0026,
+        -0.0177, -0.0520], device='cuda:0'), grad: tensor([ 4.4703e-08,  4.8429e-08,  7.4506e-09,  1.3039e-08,  1.8626e-08,
+         1.1176e-08,  2.6077e-08, -2.6077e-07, -1.8626e-08,  1.1362e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 432, time 217.74, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4283 re_mapping 0.0030 re_causal 0.0106 /// teacc 99.12 lr 0.00001000
+Epoch 434, weight, value: tensor([[-1.8044e-01,  2.6088e-01, -2.8741e-02,  ..., -2.6556e-02,
+          6.1572e-02, -4.7553e-02],
+        [ 2.1552e-01, -1.2091e-01,  3.0977e-02,  ..., -1.2706e-01,
+          2.7585e-02, -9.9932e-02],
+        [-1.0452e-01, -3.1560e-01, -6.5896e-02,  ..., -7.7212e-02,
+          2.2823e-02, -3.1797e-01],
+        ...,
+        [-2.0482e-01, -3.7805e-01,  7.0842e-02,  ..., -1.2640e-01,
+         -1.0386e-01, -2.1423e-01],
+        [-1.7079e-01,  2.9126e-03,  4.8089e-02,  ...,  9.4221e-05,
+         -1.2204e-01,  9.4848e-02],
+        [-1.4095e-01, -1.1930e-01,  1.1246e-01,  ...,  2.3278e-01,
+         -8.6980e-02, -2.4224e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -4.2841e-08,  ...,  0.0000e+00,
+          0.0000e+00,  2.6077e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.1665e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00]], device='cuda:0')
+Epoch 434, bias, value: tensor([ 0.0319,  0.0055,  0.0196,  0.0155,  0.0388,  0.0147, -0.0012,  0.0026,
+        -0.0177, -0.0521], device='cuda:0'), grad: tensor([ 0.0000e+00,  1.1176e-08, -7.4506e-09, -1.1176e-07, -1.4715e-07,
+         3.9116e-08,  1.8626e-09, -5.5879e-09,  6.5193e-08,  1.5460e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 433, time 217.85, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4243 re_mapping 0.0030 re_causal 0.0107 /// teacc 99.11 lr 0.00001000
+Epoch 435, weight, value: tensor([[-1.8046e-01,  2.6098e-01, -2.8702e-02,  ..., -2.6550e-02,
+          6.1569e-02, -4.7549e-02],
+        [ 2.1556e-01, -1.2091e-01,  3.0985e-02,  ..., -1.2706e-01,
+          2.7584e-02, -9.9947e-02],
+        [-1.0453e-01, -3.1561e-01, -6.5904e-02,  ..., -7.7201e-02,
+          2.2824e-02, -3.1801e-01],
+        ...,
+        [-2.0485e-01, -3.7808e-01,  7.0843e-02,  ..., -1.2641e-01,
+         -1.0386e-01, -2.1438e-01],
+        [-1.7083e-01,  2.8960e-03,  4.8059e-02,  ...,  9.2770e-05,
+         -1.2204e-01,  9.4860e-02],
+        [-1.4097e-01, -1.1944e-01,  1.1245e-01,  ...,  2.3278e-01,
+         -8.7047e-02, -2.4230e-01]], device='cuda:0'), grad: tensor([[ 2.0489e-08,  1.5832e-08,  1.8626e-09,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [-1.1548e-07,  0.0000e+00, -1.3970e-07,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 1.3970e-08, -9.3132e-10,  1.3970e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [-3.9116e-08, -3.7253e-08,  7.4506e-09,  ...,  5.5879e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 9.2201e-08,  2.7940e-09,  1.0896e-07,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09],
+        [ 1.2107e-08,  1.2107e-08, -2.7940e-09,  ...,  1.1362e-07,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 435, bias, value: tensor([ 0.0319,  0.0056,  0.0196,  0.0155,  0.0389,  0.0147, -0.0011,  0.0026,
+        -0.0178, -0.0521], device='cuda:0'), grad: tensor([ 2.5146e-07, -3.2131e-07,  2.3283e-08,  1.6764e-08, -7.6834e-07,
+         1.1828e-07,  1.9558e-08, -5.0012e-07,  2.6915e-07,  8.9314e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 434, time 218.40, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4313 re_mapping 0.0030 re_causal 0.0105 /// teacc 99.11 lr 0.00001000
+Epoch 436, weight, value: tensor([[-1.8046e-01,  2.6104e-01, -2.8682e-02,  ..., -2.6551e-02,
+          6.1558e-02, -4.7602e-02],
+        [ 2.1556e-01, -1.2092e-01,  3.0971e-02,  ..., -1.2707e-01,
+          2.7581e-02, -9.9957e-02],
+        [-1.0454e-01, -3.1564e-01, -6.5943e-02,  ..., -7.7202e-02,
+          2.2828e-02, -3.1807e-01],
+        ...,
+        [-2.0485e-01, -3.7812e-01,  7.0868e-02,  ..., -1.2640e-01,
+         -1.0384e-01, -2.1445e-01],
+        [-1.7087e-01,  2.9152e-03,  4.8061e-02,  ...,  9.3022e-05,
+         -1.2205e-01,  9.4892e-02],
+        [-1.4098e-01, -1.1955e-01,  1.1246e-01,  ...,  2.3279e-01,
+         -8.7069e-02, -2.4236e-01]], device='cuda:0'), grad: tensor([[-8.3819e-09, -1.8440e-07,  2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00, -1.9558e-08],
+        [-2.2352e-08,  9.3132e-10, -1.5832e-08,  ...,  0.0000e+00,
+         -1.8626e-09,  1.8626e-09],
+        [ 1.5832e-08,  9.3132e-09,  2.4214e-08,  ...,  2.7940e-09,
+          9.3132e-10,  3.7253e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.0338e-08,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 9.3132e-10, -2.8871e-08, -2.7008e-08,  ..., -4.6566e-09,
+          0.0000e+00, -1.5832e-08],
+        [ 1.2107e-08,  1.4901e-08, -1.5553e-07,  ...,  1.8626e-09,
+          0.0000e+00,  1.2107e-08]], device='cuda:0')
+Epoch 436, bias, value: tensor([ 0.0319,  0.0055,  0.0197,  0.0155,  0.0389,  0.0147, -0.0011,  0.0026,
+        -0.0178, -0.0522], device='cuda:0'), grad: tensor([-3.2503e-07, -3.9116e-08,  7.0781e-08, -9.3132e-10,  1.4529e-07,
+         5.8673e-08,  3.0082e-07,  2.1886e-07, -1.0245e-07, -3.1944e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 435, time 218.32, cls_loss 0.0006 cls_loss_mapping 0.0003 cls_loss_causal 0.4167 re_mapping 0.0029 re_causal 0.0101 /// teacc 99.10 lr 0.00001000
+Epoch 437, weight, value: tensor([[-1.8049e-01,  2.6114e-01, -2.8669e-02,  ..., -2.6554e-02,
+          6.1537e-02, -4.7656e-02],
+        [ 2.1558e-01, -1.2094e-01,  3.0972e-02,  ..., -1.2708e-01,
+          2.7586e-02, -9.9986e-02],
+        [-1.0456e-01, -3.1568e-01, -6.5886e-02,  ..., -7.7209e-02,
+          2.2849e-02, -3.1814e-01],
+        ...,
+        [-2.0487e-01, -3.7819e-01,  7.0865e-02,  ..., -1.2642e-01,
+         -1.0391e-01, -2.1453e-01],
+        [-1.7097e-01,  2.9074e-03,  4.8061e-02,  ...,  9.3615e-05,
+         -1.2207e-01,  9.4918e-02],
+        [-1.4101e-01, -1.1963e-01,  1.1249e-01,  ...,  2.3281e-01,
+         -8.7059e-02, -2.4246e-01]], device='cuda:0'), grad: tensor([[-3.2596e-08, -2.4308e-07,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00, -4.1910e-08],
+        [-9.3132e-10,  9.3132e-09,  2.7940e-09,  ...,  0.0000e+00,
+          9.3132e-10,  5.5879e-09],
+        [ 1.8626e-09,  9.3132e-10,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  9.3132e-10,  8.3819e-09,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [-9.3132e-10, -2.4214e-08, -1.3970e-08,  ...,  0.0000e+00,
+         -2.7940e-09, -1.7695e-08],
+        [ 0.0000e+00,  1.8626e-09, -1.6764e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 437, bias, value: tensor([ 0.0319,  0.0055,  0.0198,  0.0155,  0.0390,  0.0147, -0.0012,  0.0026,
+        -0.0178, -0.0522], device='cuda:0'), grad: tensor([-6.4168e-07,  2.2352e-08,  5.5879e-09,  2.8871e-08, -1.1176e-07,
+         2.0210e-07,  4.4517e-07,  2.3283e-08, -4.2841e-08,  6.1467e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 436, time 218.06, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4262 re_mapping 0.0030 re_causal 0.0105 /// teacc 99.15 lr 0.00001000
+Epoch 438, weight, value: tensor([[-1.8052e-01,  2.6134e-01, -2.8621e-02,  ..., -2.6546e-02,
+          6.1526e-02, -4.7683e-02],
+        [ 2.1559e-01, -1.2101e-01,  3.0956e-02,  ..., -1.2709e-01,
+          2.7585e-02, -9.9999e-02],
+        [-1.0457e-01, -3.1572e-01, -6.5900e-02,  ..., -7.7211e-02,
+          2.2876e-02, -3.1819e-01],
+        ...,
+        [-2.0487e-01, -3.7825e-01,  7.0887e-02,  ..., -1.2644e-01,
+         -1.0392e-01, -2.1469e-01],
+        [-1.7102e-01,  2.9233e-03,  4.8076e-02,  ...,  9.8418e-05,
+         -1.2208e-01,  9.4945e-02],
+        [-1.4104e-01, -1.1988e-01,  1.1248e-01,  ...,  2.3284e-01,
+         -8.7075e-02, -2.4254e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -9.3132e-09, -5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.7940e-09,  4.6566e-09,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  2.7940e-09,  5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  9.3132e-10, -1.4901e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.1176e-08,  1.1176e-08, -3.7253e-09,  ...,  0.0000e+00,
+          4.6566e-09,  1.3039e-08],
+        [ 0.0000e+00,  3.7253e-09,  7.4506e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 438, bias, value: tensor([ 0.0320,  0.0055,  0.0198,  0.0155,  0.0390,  0.0147, -0.0012,  0.0026,
+        -0.0179, -0.0523], device='cuda:0'), grad: tensor([-1.5832e-08,  1.4901e-08,  1.6764e-08,  2.2352e-08,  9.3132e-10,
+        -3.4459e-08,  2.7940e-09, -3.3528e-08,  7.4506e-09,  2.4214e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 437, time 218.46, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4225 re_mapping 0.0030 re_causal 0.0103 /// teacc 99.13 lr 0.00001000
+Epoch 439, weight, value: tensor([[-1.8052e-01,  2.6148e-01, -2.8584e-02,  ..., -2.6552e-02,
+          6.1506e-02, -4.7683e-02],
+        [ 2.1566e-01, -1.2101e-01,  3.0979e-02,  ..., -1.2708e-01,
+          2.7667e-02, -9.9929e-02],
+        [-1.0452e-01, -3.1576e-01, -6.5853e-02,  ..., -7.7208e-02,
+          2.2860e-02, -3.1825e-01],
+        ...,
+        [-2.0494e-01, -3.7836e-01,  7.0872e-02,  ..., -1.2645e-01,
+         -1.0398e-01, -2.1489e-01],
+        [-1.7107e-01,  2.9058e-03,  4.8072e-02,  ...,  9.6733e-05,
+         -1.2209e-01,  9.4924e-02],
+        [-1.4110e-01, -1.1999e-01,  1.1250e-01,  ...,  2.3286e-01,
+         -8.7034e-02, -2.4262e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.0245e-07, -6.4261e-08,  ..., -2.5146e-08,
+         -3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-08,  9.3132e-09,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-09,  1.1176e-08,  ...,  0.0000e+00,
+          0.0000e+00,  8.3819e-09],
+        ...,
+        [ 1.8626e-09,  9.3132e-10, -5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [ 9.3132e-10, -1.8626e-09, -7.4506e-09,  ...,  9.3132e-10,
+          9.3132e-10, -7.4506e-09],
+        [ 9.3132e-10,  7.9162e-08,  5.4017e-08,  ...,  2.5146e-08,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 439, bias, value: tensor([ 0.0320,  0.0055,  0.0199,  0.0155,  0.0391,  0.0147, -0.0012,  0.0025,
+        -0.0179, -0.0523], device='cuda:0'), grad: tensor([-2.3190e-07,  4.2841e-08,  3.7253e-09, -6.5193e-09,  8.3819e-09,
+         4.6566e-09,  3.7253e-09,  4.6566e-09, -1.2107e-08,  1.9558e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 438, time 218.56, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4589 re_mapping 0.0030 re_causal 0.0106 /// teacc 99.13 lr 0.00001000
+Epoch 440, weight, value: tensor([[-1.8056e-01,  2.6158e-01, -2.8635e-02,  ..., -2.6572e-02,
+          6.1498e-02, -4.7811e-02],
+        [ 2.1562e-01, -1.2108e-01,  3.0925e-02,  ..., -1.2737e-01,
+          2.7673e-02, -9.9953e-02],
+        [-1.0444e-01, -3.1581e-01, -6.5831e-02,  ..., -7.7215e-02,
+          2.2881e-02, -3.1836e-01],
+        ...,
+        [-2.0496e-01, -3.7841e-01,  7.0876e-02,  ..., -1.2649e-01,
+         -1.0402e-01, -2.1499e-01],
+        [-1.7110e-01,  2.9716e-03,  4.8150e-02,  ...,  8.5745e-05,
+         -1.2209e-01,  9.4950e-02],
+        [-1.4087e-01, -1.2017e-01,  1.1271e-01,  ...,  2.3321e-01,
+         -8.7047e-02, -2.4282e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  3.7253e-09,  2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-09],
+        [-3.7253e-09,  1.8626e-09, -9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-09],
+        [ 0.0000e+00,  1.1176e-08,  1.8626e-09,  ...,  0.0000e+00,
+          9.3132e-10,  8.3819e-09],
+        ...,
+        [ 5.5879e-09,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [ 9.3132e-10, -3.3528e-08, -1.6764e-08,  ...,  0.0000e+00,
+         -1.8626e-09, -2.1420e-08],
+        [ 2.7940e-09,  1.8626e-09,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  6.5193e-09]], device='cuda:0')
+Epoch 440, bias, value: tensor([ 0.0320,  0.0054,  0.0200,  0.0155,  0.0393,  0.0147, -0.0012,  0.0025,
+        -0.0179, -0.0523], device='cuda:0'), grad: tensor([ 1.2666e-07,  2.9523e-07, -1.1688e-06,  1.8068e-07,  2.2352e-08,
+         4.4703e-08,  7.9162e-08,  3.2037e-07,  4.0978e-08,  7.2643e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 439, time 218.41, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4418 re_mapping 0.0029 re_causal 0.0106 /// teacc 99.12 lr 0.00001000
+Epoch 441, weight, value: tensor([[-1.8063e-01,  2.6170e-01, -2.8622e-02,  ..., -2.6575e-02,
+          6.1468e-02, -4.7857e-02],
+        [ 2.1563e-01, -1.2107e-01,  3.0892e-02,  ..., -1.2745e-01,
+          2.7677e-02, -9.9978e-02],
+        [-1.0423e-01, -3.1584e-01, -6.5616e-02,  ..., -7.7213e-02,
+          2.2885e-02, -3.1845e-01],
+        ...,
+        [-2.0502e-01, -3.7844e-01,  7.0898e-02,  ..., -1.2652e-01,
+         -1.0403e-01, -2.1507e-01],
+        [-1.7115e-01,  2.9935e-03,  4.8173e-02,  ...,  9.5534e-05,
+         -1.2209e-01,  9.4958e-02],
+        [-1.4081e-01, -1.2027e-01,  1.1270e-01,  ...,  2.3332e-01,
+         -8.7056e-02, -2.4299e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.8626e-09, -9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 6.5193e-08,  0.0000e+00,  3.1013e-07,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [-8.6613e-08,  0.0000e+00, -4.3027e-07,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 2.0489e-08,  9.3132e-10,  1.1362e-07,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 441, bias, value: tensor([ 0.0320,  0.0053,  0.0202,  0.0155,  0.0394,  0.0148, -0.0012,  0.0025,
+        -0.0179, -0.0524], device='cuda:0'), grad: tensor([-5.5879e-09,  4.2189e-07,  9.3132e-09,  5.5879e-09, -9.3132e-10,
+         2.7940e-09,  1.8626e-09, -5.9512e-07,  2.7940e-09,  1.6671e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 440, time 218.21, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4485 re_mapping 0.0030 re_causal 0.0106 /// teacc 99.12 lr 0.00001000
+Epoch 442, weight, value: tensor([[-1.8067e-01,  2.6175e-01, -2.8702e-02,  ..., -2.6582e-02,
+          6.1457e-02, -4.7900e-02],
+        [ 2.1568e-01, -1.2103e-01,  3.0910e-02,  ..., -1.2746e-01,
+          2.7769e-02, -9.9888e-02],
+        [-1.0421e-01, -3.1589e-01, -6.5586e-02,  ..., -7.7217e-02,
+          2.2888e-02, -3.1854e-01],
+        ...,
+        [-2.0505e-01, -3.7854e-01,  7.0905e-02,  ..., -1.2654e-01,
+         -1.0404e-01, -2.1517e-01],
+        [-1.7121e-01,  3.0432e-03,  4.8166e-02,  ...,  1.0111e-04,
+         -1.2211e-01,  9.5033e-02],
+        [-1.4082e-01, -1.2036e-01,  1.1273e-01,  ...,  2.3335e-01,
+         -8.7066e-02, -2.4306e-01]], device='cuda:0'), grad: tensor([[ 1.8626e-09,  1.8626e-09,  9.3132e-09,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 6.5193e-09,  9.3132e-10,  8.3819e-09,  ...,  9.3132e-10,
+          0.0000e+00,  9.3132e-10],
+        [-9.3132e-10,  0.0000e+00,  7.4506e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [-4.6566e-09,  1.8626e-09, -8.3819e-09,  ..., -9.3132e-10,
+          0.0000e+00,  1.8626e-09],
+        [ 3.7253e-09,  3.7253e-09,  2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 8.3819e-09,  1.0245e-08, -3.2596e-08,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-09]], device='cuda:0')
+Epoch 442, bias, value: tensor([ 0.0320,  0.0053,  0.0203,  0.0155,  0.0395,  0.0148, -0.0012,  0.0025,
+        -0.0179, -0.0524], device='cuda:0'), grad: tensor([ 4.1910e-08,  4.7497e-08, -4.1910e-08,  8.0094e-08, -2.4121e-07,
+        -9.0338e-08,  3.0734e-08,  1.5832e-08,  3.3528e-08,  1.2573e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 441, time 218.41, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4289 re_mapping 0.0030 re_causal 0.0104 /// teacc 99.13 lr 0.00001000
+Epoch 443, weight, value: tensor([[-1.8075e-01,  2.6188e-01, -2.8706e-02,  ..., -2.6589e-02,
+          6.1414e-02, -4.7924e-02],
+        [ 2.1572e-01, -1.2099e-01,  3.0923e-02,  ..., -1.2752e-01,
+          2.7789e-02, -9.9908e-02],
+        [-1.0425e-01, -3.1593e-01, -6.5624e-02,  ..., -7.7226e-02,
+          2.2877e-02, -3.1861e-01],
+        ...,
+        [-2.0508e-01, -3.7859e-01,  7.0934e-02,  ..., -1.2656e-01,
+         -1.0410e-01, -2.1532e-01],
+        [-1.7138e-01,  3.0092e-03,  4.8055e-02,  ...,  8.9670e-05,
+         -1.2214e-01,  9.5042e-02],
+        [-1.4078e-01, -1.2046e-01,  1.1269e-01,  ...,  2.3345e-01,
+         -8.7060e-02, -2.4312e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -3.0734e-08, -1.9558e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-1.4435e-07,  3.4459e-08,  1.3690e-07,  ...,  1.4901e-08,
+          0.0000e+00,  9.3132e-10],
+        [ 1.2573e-07,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+         -9.3132e-10,  0.0000e+00],
+        ...,
+        [ 1.9558e-08,  9.3132e-10, -1.5646e-07,  ...,  9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10,  1.8626e-09,  5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-4.3772e-08, -2.0489e-08, -2.7008e-08,  ..., -3.7253e-08,
+          0.0000e+00, -1.8626e-09]], device='cuda:0')
+Epoch 443, bias, value: tensor([ 0.0320,  0.0053,  0.0203,  0.0155,  0.0398,  0.0147, -0.0012,  0.0025,
+        -0.0180, -0.0526], device='cuda:0'), grad: tensor([-5.3085e-08,  1.5460e-07,  6.7987e-08,  9.4064e-08, -2.0154e-06,
+         6.3330e-08,  6.5193e-09, -2.3656e-07,  1.5832e-08,  1.9064e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 442, time 218.23, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4442 re_mapping 0.0029 re_causal 0.0105 /// teacc 99.11 lr 0.00001000
+Epoch 444, weight, value: tensor([[-1.8078e-01,  2.6198e-01, -2.8678e-02,  ..., -2.6599e-02,
+          6.1398e-02, -4.7955e-02],
+        [ 2.1577e-01, -1.2106e-01,  3.0924e-02,  ..., -1.2753e-01,
+          2.7792e-02, -9.9934e-02],
+        [-1.0421e-01, -3.1602e-01, -6.5603e-02,  ..., -7.7216e-02,
+          2.2889e-02, -3.1871e-01],
+        ...,
+        [-2.0513e-01, -3.7863e-01,  7.0937e-02,  ..., -1.2658e-01,
+         -1.0413e-01, -2.1541e-01],
+        [-1.7143e-01,  3.0947e-03,  4.8094e-02,  ...,  9.6269e-05,
+         -1.2212e-01,  9.5158e-02],
+        [-1.4079e-01, -1.2051e-01,  1.1270e-01,  ...,  2.3349e-01,
+         -8.7136e-02, -2.4319e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -2.7940e-09, -9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09, -6.5193e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 444, bias, value: tensor([ 0.0320,  0.0053,  0.0203,  0.0156,  0.0399,  0.0147, -0.0012,  0.0024,
+        -0.0180, -0.0527], device='cuda:0'), grad: tensor([ 4.5635e-08,  1.8626e-09,  0.0000e+00,  3.5390e-08, -2.1700e-07,
+        -2.6077e-08, -1.3039e-08,  6.5193e-09,  1.8626e-09,  1.6391e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 443, time 218.74, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4289 re_mapping 0.0029 re_causal 0.0103 /// teacc 99.11 lr 0.00001000
+Epoch 445, weight, value: tensor([[-1.8082e-01,  2.6210e-01, -2.8629e-02,  ..., -2.6701e-02,
+          6.1385e-02, -4.8000e-02],
+        [ 2.1582e-01, -1.2108e-01,  3.0944e-02,  ..., -1.2763e-01,
+          2.7795e-02, -9.9974e-02],
+        [-1.0424e-01, -3.1606e-01, -6.5633e-02,  ..., -7.7250e-02,
+          2.2878e-02, -3.1875e-01],
+        ...,
+        [-2.0519e-01, -3.7871e-01,  7.0904e-02,  ..., -1.2662e-01,
+         -1.0414e-01, -2.1552e-01],
+        [-1.7146e-01,  3.1611e-03,  4.8174e-02,  ...,  8.8556e-05,
+         -1.2210e-01,  9.5245e-02],
+        [-1.4072e-01, -1.2063e-01,  1.1277e-01,  ...,  2.3366e-01,
+         -8.7185e-02, -2.4335e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -3.7253e-09, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-1.8626e-09,  0.0000e+00, -9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  1.8626e-09,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 9.3132e-10,  3.7253e-09, -1.3039e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 445, bias, value: tensor([ 0.0319,  0.0053,  0.0203,  0.0156,  0.0400,  0.0147, -0.0012,  0.0024,
+        -0.0179, -0.0527], device='cuda:0'), grad: tensor([-2.7940e-09, -9.3132e-10, -3.7253e-09,  7.4506e-09,  2.3283e-08,
+        -2.7940e-09, -9.3132e-10,  1.3039e-08,  5.5879e-09, -2.1420e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 444, time 218.41, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4258 re_mapping 0.0030 re_causal 0.0104 /// teacc 99.11 lr 0.00001000
+Epoch 446, weight, value: tensor([[-1.8087e-01,  2.6222e-01, -2.8660e-02,  ..., -2.6712e-02,
+          6.1385e-02, -4.8101e-02],
+        [ 2.1583e-01, -1.2118e-01,  3.0929e-02,  ..., -1.2764e-01,
+          2.7788e-02, -1.0003e-01],
+        [-1.0429e-01, -3.1610e-01, -6.5671e-02,  ..., -7.7252e-02,
+          2.2833e-02, -3.1883e-01],
+        ...,
+        [-2.0520e-01, -3.7877e-01,  7.0921e-02,  ..., -1.2663e-01,
+         -1.0415e-01, -2.1572e-01],
+        [-1.7156e-01,  3.1297e-03,  4.8199e-02,  ...,  8.9598e-05,
+         -1.2211e-01,  9.5192e-02],
+        [-1.4075e-01, -1.2075e-01,  1.1282e-01,  ...,  2.3367e-01,
+         -8.7239e-02, -2.4364e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -4.6566e-09, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-09,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [-9.3132e-10,  0.0000e+00, -3.1665e-08,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-09,  1.9558e-08,  ...,  0.0000e+00,
+          7.1712e-08,  0.0000e+00]], device='cuda:0')
+Epoch 446, bias, value: tensor([ 0.0320,  0.0053,  0.0203,  0.0156,  0.0400,  0.0147, -0.0011,  0.0024,
+        -0.0180, -0.0528], device='cuda:0'), grad: tensor([ 1.3039e-08,  6.3330e-08, -2.1420e-08,  3.7253e-09, -3.8743e-07,
+         9.3132e-10, -2.1420e-08, -8.1025e-08,  1.3039e-08,  4.1164e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 445, time 218.41, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4571 re_mapping 0.0030 re_causal 0.0106 /// teacc 99.15 lr 0.00001000
+Epoch 447, weight, value: tensor([[-1.8091e-01,  2.6234e-01, -2.8624e-02,  ..., -2.6706e-02,
+          6.1377e-02, -4.8141e-02],
+        [ 2.1586e-01, -1.2116e-01,  3.0928e-02,  ..., -1.2764e-01,
+          2.7831e-02, -1.0002e-01],
+        [-1.0430e-01, -3.1617e-01, -6.5674e-02,  ..., -7.7263e-02,
+          2.2833e-02, -3.1895e-01],
+        ...,
+        [-2.0522e-01, -3.7885e-01,  7.0929e-02,  ..., -1.2664e-01,
+         -1.0418e-01, -2.1597e-01],
+        [-1.7159e-01,  3.1486e-03,  4.8206e-02,  ...,  7.3255e-05,
+         -1.2212e-01,  9.5198e-02],
+        [-1.4076e-01, -1.2087e-01,  1.1284e-01,  ...,  2.3369e-01,
+         -8.7291e-02, -2.4368e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.7940e-09,  5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -6.5193e-09,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 4.6566e-09,  0.0000e+00, -8.3819e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [ 1.8626e-09,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 447, bias, value: tensor([ 0.0320,  0.0053,  0.0203,  0.0156,  0.0400,  0.0147, -0.0011,  0.0024,
+        -0.0181, -0.0528], device='cuda:0'), grad: tensor([ 7.4506e-09,  4.0047e-08, -1.2107e-08,  7.7300e-08, -6.5193e-09,
+        -1.1269e-07,  9.3132e-09, -1.4901e-08, -1.3970e-08,  2.8871e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 446, time 218.50, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4295 re_mapping 0.0030 re_causal 0.0104 /// teacc 99.13 lr 0.00001000
+Epoch 448, weight, value: tensor([[-1.8095e-01,  2.6254e-01, -2.8587e-02,  ..., -2.6725e-02,
+          6.1357e-02, -4.8167e-02],
+        [ 2.1598e-01, -1.2123e-01,  3.0968e-02,  ..., -1.2765e-01,
+          2.7869e-02, -1.0002e-01],
+        [-1.0432e-01, -3.1622e-01, -6.5713e-02,  ..., -7.7275e-02,
+          2.2840e-02, -3.1903e-01],
+        ...,
+        [-2.0533e-01, -3.7888e-01,  7.0917e-02,  ..., -1.2669e-01,
+         -1.0419e-01, -2.1614e-01],
+        [-1.7166e-01,  3.2060e-03,  4.8301e-02,  ...,  8.3326e-05,
+         -1.2211e-01,  9.5242e-02],
+        [-1.4078e-01, -1.2096e-01,  1.1281e-01,  ...,  2.3375e-01,
+         -8.7295e-02, -2.4375e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.2107e-08],
+        ...,
+        [ 9.3132e-10,  9.3132e-10,  5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.1176e-08],
+        [-9.3132e-10, -1.8626e-09, -3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00, -2.7940e-09],
+        [-9.3132e-10, -2.7940e-09, -1.3039e-08,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-09]], device='cuda:0')
+Epoch 448, bias, value: tensor([ 0.0321,  0.0053,  0.0203,  0.0156,  0.0401,  0.0146, -0.0011,  0.0024,
+        -0.0180, -0.0528], device='cuda:0'), grad: tensor([ 3.0734e-08,  2.1420e-08,  1.2293e-07, -3.2783e-07,  1.0245e-08,
+         3.6322e-08,  1.8626e-09,  9.2201e-08,  1.1176e-08,  1.6764e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 447, time 218.14, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4346 re_mapping 0.0029 re_causal 0.0105 /// teacc 99.11 lr 0.00001000
+Epoch 449, weight, value: tensor([[-1.8098e-01,  2.6268e-01, -2.8550e-02,  ..., -2.6794e-02,
+          6.1350e-02, -4.8182e-02],
+        [ 2.1605e-01, -1.2123e-01,  3.0995e-02,  ..., -1.2774e-01,
+          2.7867e-02, -1.0005e-01],
+        [-1.0433e-01, -3.1628e-01, -6.5737e-02,  ..., -7.7303e-02,
+          2.2861e-02, -3.1910e-01],
+        ...,
+        [-2.0542e-01, -3.7895e-01,  7.0868e-02,  ..., -1.2672e-01,
+         -1.0420e-01, -2.1626e-01],
+        [-1.7171e-01,  3.2234e-03,  4.8325e-02,  ...,  8.6717e-05,
+         -1.2212e-01,  9.5259e-02],
+        [-1.4072e-01, -1.2111e-01,  1.1290e-01,  ...,  2.3389e-01,
+         -8.7298e-02, -2.4383e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        ...,
+        [ 1.8626e-09,  0.0000e+00, -2.0675e-07,  ...,  0.0000e+00,
+          0.0000e+00,  2.2352e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  1.8533e-07,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 449, bias, value: tensor([ 0.0320,  0.0054,  0.0203,  0.0156,  0.0401,  0.0146, -0.0011,  0.0023,
+        -0.0181, -0.0528], device='cuda:0'), grad: tensor([ 6.5193e-09,  1.4901e-08,  9.3132e-10,  2.9802e-08,  1.8626e-09,
+        -2.6077e-08,  1.0245e-08, -6.5751e-07,  9.3132e-10,  6.3423e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 448, time 218.12, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4352 re_mapping 0.0030 re_causal 0.0105 /// teacc 99.10 lr 0.00001000
+Epoch 450, weight, value: tensor([[-1.8100e-01,  2.6296e-01, -2.8472e-02,  ..., -2.6795e-02,
+          6.1342e-02, -4.8326e-02],
+        [ 2.1612e-01, -1.2131e-01,  3.1051e-02,  ..., -1.2770e-01,
+          2.7894e-02, -1.0004e-01],
+        [-1.0430e-01, -3.1633e-01, -6.5698e-02,  ..., -7.7300e-02,
+          2.2864e-02, -3.1922e-01],
+        ...,
+        [-2.0550e-01, -3.7904e-01,  7.0816e-02,  ..., -1.2678e-01,
+         -1.0422e-01, -2.1638e-01],
+        [-1.7175e-01,  3.2565e-03,  4.8381e-02,  ...,  8.6592e-05,
+         -1.2212e-01,  9.5282e-02],
+        [-1.4075e-01, -1.2134e-01,  1.1290e-01,  ...,  2.3389e-01,
+         -8.7313e-02, -2.4388e-01]], device='cuda:0'), grad: tensor([[ 3.7253e-09, -3.1665e-08, -1.8626e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [-9.3132e-10,  2.1420e-08,  1.3039e-08,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 4.6566e-09,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [ 3.6322e-08,  2.3283e-08,  5.5879e-09,  ...,  0.0000e+00,
+          9.3132e-10,  2.8871e-08],
+        [ 1.8626e-09,  9.3132e-09,  2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 450, bias, value: tensor([ 0.0319,  0.0054,  0.0204,  0.0157,  0.0401,  0.0146, -0.0008,  0.0022,
+        -0.0181, -0.0529], device='cuda:0'), grad: tensor([-3.1665e-08,  4.5635e-08,  3.7253e-09,  7.2736e-07, -6.6124e-08,
+        -7.9442e-07, -6.7055e-08,  1.6764e-08,  1.0990e-07,  5.5879e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 449, time 218.20, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4390 re_mapping 0.0028 re_causal 0.0105 /// teacc 99.09 lr 0.00001000
+Epoch 451, weight, value: tensor([[-1.8099e-01,  2.6308e-01, -2.8433e-02,  ..., -2.6875e-02,
+          6.1335e-02, -4.8361e-02],
+        [ 2.1618e-01, -1.2133e-01,  3.1077e-02,  ..., -1.2771e-01,
+          2.7895e-02, -1.0006e-01],
+        [-1.0426e-01, -3.1641e-01, -6.5666e-02,  ..., -7.7334e-02,
+          2.2868e-02, -3.1931e-01],
+        ...,
+        [-2.0557e-01, -3.7909e-01,  7.0806e-02,  ..., -1.2680e-01,
+         -1.0423e-01, -2.1646e-01],
+        [-1.7186e-01,  3.2575e-03,  4.8448e-02,  ...,  6.6825e-05,
+         -1.2214e-01,  9.5303e-02],
+        [-1.4077e-01, -1.2144e-01,  1.1287e-01,  ...,  2.3395e-01,
+         -8.7315e-02, -2.4396e-01]], device='cuda:0'), grad: tensor([[ 5.7742e-08, -8.0094e-08, -1.7695e-08,  ..., -9.3132e-10,
+          6.5193e-09,  0.0000e+00],
+        [-8.1956e-08, -3.4459e-08, -6.0536e-08,  ...,  0.0000e+00,
+         -9.3132e-09,  0.0000e+00],
+        [ 0.0000e+00,  2.7940e-09,  2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 3.7253e-09,  4.6566e-09, -2.2352e-08,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 1.0245e-08,  7.4506e-09,  9.3132e-09,  ...,  0.0000e+00,
+          9.3132e-10, -9.3132e-10],
+        [ 0.0000e+00,  2.7008e-08,  3.0734e-08,  ...,  9.3132e-10,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 451, bias, value: tensor([ 0.0319,  0.0054,  0.0205,  0.0156,  0.0402,  0.0146, -0.0008,  0.0022,
+        -0.0180, -0.0530], device='cuda:0'), grad: tensor([-1.3225e-07, -1.4715e-07,  9.3132e-09,  2.0489e-08, -7.4506e-09,
+         1.3970e-08,  1.8440e-07, -7.9162e-08,  2.9802e-08,  1.1828e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 450, time 218.08, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4312 re_mapping 0.0029 re_causal 0.0102 /// teacc 99.11 lr 0.00001000
+Epoch 452, weight, value: tensor([[-1.8105e-01,  2.6321e-01, -2.8381e-02,  ..., -2.6872e-02,
+          6.1328e-02, -4.8362e-02],
+        [ 2.1623e-01, -1.2134e-01,  3.1103e-02,  ..., -1.2771e-01,
+          2.7895e-02, -1.0009e-01],
+        [-1.0426e-01, -3.1647e-01, -6.5689e-02,  ..., -7.7342e-02,
+          2.2870e-02, -3.1939e-01],
+        ...,
+        [-2.0561e-01, -3.7917e-01,  7.0789e-02,  ..., -1.2683e-01,
+         -1.0426e-01, -2.1669e-01],
+        [-1.7198e-01,  3.2934e-03,  4.8475e-02,  ...,  6.6844e-05,
+         -1.2213e-01,  9.5382e-02],
+        [-1.4079e-01, -1.2166e-01,  1.1289e-01,  ...,  2.3397e-01,
+         -8.7330e-02, -2.4402e-01]], device='cuda:0'), grad: tensor([[ 9.3132e-10, -3.7253e-09, -9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 2.0489e-08,  0.0000e+00,  4.3772e-08,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -9.3132e-10,  9.3132e-10],
+        ...,
+        [ 5.5879e-09,  0.0000e+00,  1.3039e-08,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 1.8626e-09,  9.3132e-10,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [-3.6322e-08,  3.7253e-09, -8.2888e-08,  ..., -9.3132e-10,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 452, bias, value: tensor([ 0.0319,  0.0054,  0.0205,  0.0156,  0.0402,  0.0147, -0.0009,  0.0022,
+        -0.0180, -0.0530], device='cuda:0'), grad: tensor([-5.5879e-09,  1.0338e-07, -2.0489e-08,  2.5146e-08,  4.5635e-08,
+        -4.0047e-08,  2.5146e-08,  5.3085e-08,  3.7253e-09, -1.8813e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 451, time 217.87, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4437 re_mapping 0.0029 re_causal 0.0105 /// teacc 99.10 lr 0.00001000
+Epoch 453, weight, value: tensor([[-1.8102e-01,  2.6356e-01, -2.8447e-02,  ..., -2.6888e-02,
+          6.1320e-02, -4.8364e-02],
+        [ 2.1627e-01, -1.2133e-01,  3.1119e-02,  ..., -1.2770e-01,
+          2.7928e-02, -1.0007e-01],
+        [-1.0434e-01, -3.1657e-01, -6.5781e-02,  ..., -7.7347e-02,
+          2.2880e-02, -3.1946e-01],
+        ...,
+        [-2.0562e-01, -3.7926e-01,  7.0791e-02,  ..., -1.2684e-01,
+         -1.0426e-01, -2.1681e-01],
+        [-1.7203e-01,  3.3150e-03,  4.8501e-02,  ...,  5.5204e-05,
+         -1.2214e-01,  9.5425e-02],
+        [-1.4081e-01, -1.2190e-01,  1.1298e-01,  ...,  2.3400e-01,
+         -8.7328e-02, -2.4408e-01]], device='cuda:0'), grad: tensor([[ 1.4901e-08, -2.9802e-08, -1.2107e-08,  ...,  0.0000e+00,
+         -4.6566e-09,  3.2596e-08],
+        [ 9.3132e-09,  2.9802e-08,  1.4901e-08,  ...,  0.0000e+00,
+          2.7940e-09,  1.9558e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  9.3132e-10,  3.0734e-08,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 5.6811e-08,  4.6566e-08,  1.7695e-08,  ...,  0.0000e+00,
+          1.8626e-09,  1.1642e-07],
+        [ 1.8626e-09,  2.7940e-09, -4.0326e-07,  ...,  0.0000e+00,
+          0.0000e+00,  7.4506e-09]], device='cuda:0')
+Epoch 453, bias, value: tensor([ 0.0321,  0.0054,  0.0205,  0.0156,  0.0404,  0.0147, -0.0010,  0.0021,
+        -0.0180, -0.0530], device='cuda:0'), grad: tensor([ 7.3574e-08,  1.3318e-07, -1.5832e-08,  3.1665e-08,  7.4971e-07,
+         1.0803e-07, -8.9966e-07,  9.3132e-08,  5.3924e-07, -8.2329e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 452, time 218.00, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4014 re_mapping 0.0029 re_causal 0.0100 /// teacc 99.08 lr 0.00001000
+Epoch 454, weight, value: tensor([[-1.8099e-01,  2.6367e-01, -2.8424e-02,  ..., -2.6947e-02,
+          6.1315e-02, -4.8386e-02],
+        [ 2.1633e-01, -1.2133e-01,  3.1122e-02,  ..., -1.2783e-01,
+          2.7945e-02, -1.0008e-01],
+        [-1.0437e-01, -3.1660e-01, -6.5819e-02,  ..., -7.7376e-02,
+          2.2885e-02, -3.1953e-01],
+        ...,
+        [-2.0569e-01, -3.7931e-01,  7.0760e-02,  ..., -1.2693e-01,
+         -1.0431e-01, -2.1695e-01],
+        [-1.7207e-01,  3.3794e-03,  4.8561e-02,  ...,  5.0486e-05,
+         -1.2213e-01,  9.5512e-02],
+        [-1.4072e-01, -1.2199e-01,  1.1313e-01,  ...,  2.3420e-01,
+         -8.7351e-02, -2.4414e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.8626e-09, -9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  2.3283e-08,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  9.3132e-10,  4.6566e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  9.3132e-10, -5.0291e-08,  ..., -1.8626e-09,
+          0.0000e+00,  9.3132e-10],
+        [-9.3132e-10, -2.7940e-09, -6.5193e-09,  ...,  0.0000e+00,
+          0.0000e+00, -4.6566e-09],
+        [ 0.0000e+00,  9.3132e-10,  1.3039e-08,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 454, bias, value: tensor([ 0.0321,  0.0054,  0.0205,  0.0156,  0.0404,  0.0146, -0.0010,  0.0021,
+        -0.0180, -0.0529], device='cuda:0'), grad: tensor([ 0.0000e+00,  4.0978e-08,  9.3132e-09,  2.2352e-08,  2.5146e-08,
+        -7.4506e-09,  9.3132e-10, -5.4017e-08, -1.1176e-08, -1.6764e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 453, time 218.07, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4210 re_mapping 0.0028 re_causal 0.0104 /// teacc 99.09 lr 0.00001000
+Epoch 455, weight, value: tensor([[-1.8099e-01,  2.6378e-01, -2.8394e-02,  ..., -2.7037e-02,
+          6.1305e-02, -4.8506e-02],
+        [ 2.1632e-01, -1.2134e-01,  3.1096e-02,  ..., -1.2794e-01,
+          2.7958e-02, -1.0009e-01],
+        [-1.0440e-01, -3.1666e-01, -6.5877e-02,  ..., -7.7402e-02,
+          2.2838e-02, -3.1965e-01],
+        ...,
+        [-2.0570e-01, -3.7938e-01,  7.0771e-02,  ..., -1.2695e-01,
+         -1.0434e-01, -2.1708e-01],
+        [-1.7215e-01,  3.4327e-03,  4.8586e-02,  ...,  5.3463e-05,
+         -1.2213e-01,  9.5582e-02],
+        [-1.4062e-01, -1.2212e-01,  1.1327e-01,  ...,  2.3436e-01,
+         -8.7361e-02, -2.4418e-01]], device='cuda:0'), grad: tensor([[ 9.3132e-10, -3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 4.6566e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.2107e-08],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-09],
+        ...,
+        [ 4.6566e-09,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  1.1176e-08],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [ 4.6566e-09,  1.8626e-09, -3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.1176e-08]], device='cuda:0')
+Epoch 455, bias, value: tensor([ 0.0320,  0.0054,  0.0204,  0.0157,  0.0403,  0.0146, -0.0010,  0.0021,
+        -0.0180, -0.0528], device='cuda:0'), grad: tensor([-2.7940e-09,  5.3085e-08,  1.9558e-08, -2.9895e-07, -7.7300e-08,
+         1.3690e-07,  4.6566e-09,  4.7497e-08,  1.4901e-08,  1.1548e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 454, time 217.70, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4436 re_mapping 0.0029 re_causal 0.0106 /// teacc 99.07 lr 0.00001000
+Epoch 456, weight, value: tensor([[-1.8103e-01,  2.6388e-01, -2.8371e-02,  ..., -2.7045e-02,
+          6.1292e-02, -4.8506e-02],
+        [ 2.1635e-01, -1.2133e-01,  3.1085e-02,  ..., -1.2805e-01,
+          2.8011e-02, -1.0008e-01],
+        [-1.0442e-01, -3.1670e-01, -6.5914e-02,  ..., -7.7405e-02,
+          2.2864e-02, -3.1971e-01],
+        ...,
+        [-2.0573e-01, -3.7944e-01,  7.0782e-02,  ..., -1.2695e-01,
+         -1.0441e-01, -2.1714e-01],
+        [-1.7230e-01,  3.4224e-03,  4.8601e-02,  ...,  5.0852e-05,
+         -1.2214e-01,  9.5647e-02],
+        [-1.4056e-01, -1.2225e-01,  1.1335e-01,  ...,  2.3448e-01,
+         -8.7394e-02, -2.4422e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -4.6566e-09,  9.4995e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-3.8184e-08,  3.7253e-09, -2.1420e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 3.7253e-08,  0.0000e+00,  2.7008e-08,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  9.3132e-10,  1.8347e-07,  ...,  2.6077e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10, -9.3132e-10, -2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00, -9.3132e-09],
+        [ 5.5879e-09,  5.5879e-09, -2.9616e-07,  ..., -2.7008e-08,
+          0.0000e+00,  5.5879e-09]], device='cuda:0')
+Epoch 456, bias, value: tensor([ 0.0321,  0.0054,  0.0205,  0.0157,  0.0404,  0.0146, -0.0010,  0.0021,
+        -0.0180, -0.0528], device='cuda:0'), grad: tensor([ 1.6112e-07, -5.0291e-08,  5.3085e-08,  5.5879e-09,  1.6764e-08,
+        -3.7253e-09,  1.3039e-08,  3.2876e-07, -1.6764e-08, -5.0757e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 455, time 217.92, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4389 re_mapping 0.0030 re_causal 0.0104 /// teacc 99.10 lr 0.00001000
+Epoch 457, weight, value: tensor([[-1.8109e-01,  2.6404e-01, -2.8466e-02,  ..., -2.7105e-02,
+          6.1287e-02, -4.8555e-02],
+        [ 2.1649e-01, -1.2135e-01,  3.1087e-02,  ..., -1.2810e-01,
+          2.8024e-02, -1.0010e-01],
+        [-1.0449e-01, -3.1681e-01, -6.5986e-02,  ..., -7.7429e-02,
+          2.2830e-02, -3.1978e-01],
+        ...,
+        [-2.0586e-01, -3.7953e-01,  7.0804e-02,  ..., -1.2696e-01,
+         -1.0446e-01, -2.1724e-01],
+        [-1.7243e-01,  3.3917e-03,  4.8590e-02,  ...,  4.9747e-05,
+         -1.2216e-01,  9.5608e-02],
+        [-1.4060e-01, -1.2236e-01,  1.1342e-01,  ...,  2.3456e-01,
+         -8.7423e-02, -2.4431e-01]], device='cuda:0'), grad: tensor([[ 3.7253e-09, -3.5390e-08, -9.3132e-10,  ...,  0.0000e+00,
+         -1.8626e-09,  0.0000e+00],
+        [-7.5437e-08, -4.6566e-09, -1.0896e-07,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 3.7253e-08,  3.7253e-09,  5.5879e-08,  ...,  9.3132e-10,
+          0.0000e+00,  9.3132e-10],
+        [ 2.1420e-08,  3.7253e-09,  3.0734e-08,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 1.1176e-08,  2.7940e-09,  1.5832e-08,  ..., -9.3132e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 457, bias, value: tensor([ 0.0320,  0.0054,  0.0204,  0.0156,  0.0404,  0.0147, -0.0009,  0.0021,
+        -0.0181, -0.0528], device='cuda:0'), grad: tensor([-3.0734e-08, -1.7416e-07,  2.7940e-09,  5.5879e-09,  7.6368e-08,
+        -5.5879e-09, -3.9116e-08,  9.4995e-08,  5.4948e-08,  2.7940e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 456, time 217.90, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4444 re_mapping 0.0029 re_causal 0.0103 /// teacc 99.09 lr 0.00001000
+Epoch 458, weight, value: tensor([[-1.8098e-01,  2.6447e-01, -2.8423e-02,  ..., -2.7099e-02,
+          6.1287e-02, -4.8648e-02],
+        [ 2.1663e-01, -1.2137e-01,  3.1166e-02,  ..., -1.2810e-01,
+          2.8038e-02, -1.0014e-01],
+        [-1.0455e-01, -3.1695e-01, -6.6081e-02,  ..., -7.7433e-02,
+          2.2835e-02, -3.1991e-01],
+        ...,
+        [-2.0599e-01, -3.7965e-01,  7.0744e-02,  ..., -1.2702e-01,
+         -1.0448e-01, -2.1740e-01],
+        [-1.7254e-01,  3.4986e-03,  4.8708e-02,  ...,  5.0421e-05,
+         -1.2215e-01,  9.5712e-02],
+        [-1.4066e-01, -1.2263e-01,  1.1347e-01,  ...,  2.3460e-01,
+         -8.7447e-02, -2.4451e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -2.2352e-08, -1.6764e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-1.8626e-09,  1.8626e-09,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 9.3132e-10,  1.8626e-09,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        ...,
+        [ 1.8626e-09,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00, -9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00, -9.3132e-10],
+        [ 0.0000e+00,  8.3819e-09, -6.5193e-09,  ..., -2.7940e-09,
+          0.0000e+00, -1.0245e-08]], device='cuda:0')
+Epoch 458, bias, value: tensor([ 0.0321,  0.0055,  0.0204,  0.0156,  0.0405,  0.0147, -0.0010,  0.0019,
+        -0.0180, -0.0530], device='cuda:0'), grad: tensor([-6.4261e-08,  1.3970e-08, -5.5879e-09,  1.3970e-08, -1.0245e-07,
+         1.4901e-08,  9.3132e-09,  1.8626e-08,  5.5879e-09,  1.0245e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 457, time 217.99, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4396 re_mapping 0.0029 re_causal 0.0103 /// teacc 99.10 lr 0.00001000
+Epoch 459, weight, value: tensor([[-1.8097e-01,  2.6476e-01, -2.8334e-02,  ..., -2.7075e-02,
+          6.1275e-02, -4.8710e-02],
+        [ 2.1667e-01, -1.2140e-01,  3.1176e-02,  ..., -1.2810e-01,
+          2.8071e-02, -1.0015e-01],
+        [-1.0457e-01, -3.1710e-01, -6.6150e-02,  ..., -7.7441e-02,
+          2.2824e-02, -3.2007e-01],
+        ...,
+        [-2.0602e-01, -3.7977e-01,  7.0748e-02,  ..., -1.2706e-01,
+         -1.0453e-01, -2.1746e-01],
+        [-1.7269e-01,  3.4762e-03,  4.8815e-02,  ...,  6.2958e-05,
+         -1.2217e-01,  9.5744e-02],
+        [-1.4069e-01, -1.2285e-01,  1.1347e-01,  ...,  2.3463e-01,
+         -8.7540e-02, -2.4467e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.8626e-09, -9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  7.4506e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  1.7695e-08],
+        [ 0.0000e+00,  0.0000e+00, -9.3132e-10,  ..., -9.3132e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 459, bias, value: tensor([ 0.0323,  0.0054,  0.0204,  0.0156,  0.0406,  0.0147, -0.0011,  0.0020,
+        -0.0180, -0.0531], device='cuda:0'), grad: tensor([ 5.4948e-08,  7.4506e-09, -2.9802e-08, -1.5832e-08,  2.7940e-09,
+         1.7695e-08, -1.8161e-07,  4.0047e-08,  1.0524e-07, -9.3132e-10],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 458, time 218.02, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4330 re_mapping 0.0028 re_causal 0.0102 /// teacc 99.08 lr 0.00001000
+Epoch 460, weight, value: tensor([[-1.8101e-01,  2.6500e-01, -2.8268e-02,  ..., -2.7098e-02,
+          6.1258e-02, -4.8751e-02],
+        [ 2.1672e-01, -1.2144e-01,  3.1171e-02,  ..., -1.2811e-01,
+          2.8124e-02, -1.0017e-01],
+        [-1.0464e-01, -3.1726e-01, -6.6251e-02,  ..., -7.7459e-02,
+          2.2787e-02, -3.2016e-01],
+        ...,
+        [-2.0606e-01, -3.7984e-01,  7.0769e-02,  ..., -1.2707e-01,
+         -1.0456e-01, -2.1755e-01],
+        [-1.7293e-01,  3.3944e-03,  4.8873e-02,  ...,  5.6764e-05,
+         -1.2219e-01,  9.5680e-02],
+        [-1.4074e-01, -1.2307e-01,  1.1348e-01,  ...,  2.3466e-01,
+         -8.7575e-02, -2.4488e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -8.3819e-09, -3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 3.7253e-09,  3.7253e-09,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09],
+        [ 9.3132e-10,  9.3132e-10, -2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 460, bias, value: tensor([ 0.0324,  0.0054,  0.0204,  0.0156,  0.0410,  0.0147, -0.0012,  0.0019,
+        -0.0182, -0.0532], device='cuda:0'), grad: tensor([-1.1176e-08,  8.3819e-09, -2.5146e-08,  1.2107e-08, -1.6764e-08,
+        -7.0781e-08,  6.9849e-08,  2.4214e-08,  1.2107e-08,  1.8626e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 459, time 218.24, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4600 re_mapping 0.0029 re_causal 0.0105 /// teacc 99.08 lr 0.00001000
+Epoch 461, weight, value: tensor([[-1.8107e-01,  2.6506e-01, -2.8235e-02,  ..., -2.7103e-02,
+          6.1251e-02, -4.8808e-02],
+        [ 2.1674e-01, -1.2146e-01,  3.1160e-02,  ..., -1.2816e-01,
+          2.8131e-02, -1.0019e-01],
+        [-1.0466e-01, -3.1734e-01, -6.6285e-02,  ..., -7.7459e-02,
+          2.2839e-02, -3.2024e-01],
+        ...,
+        [-2.0608e-01, -3.7989e-01,  7.0778e-02,  ..., -1.2708e-01,
+         -1.0457e-01, -2.1763e-01],
+        [-1.7305e-01,  3.3812e-03,  4.8946e-02,  ...,  5.6966e-05,
+         -1.2220e-01,  9.5697e-02],
+        [-1.4072e-01, -1.2318e-01,  1.1353e-01,  ...,  2.3473e-01,
+         -8.7599e-02, -2.4504e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.4715e-07, -7.7300e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.3970e-08,  7.4506e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-09,  4.6566e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  9.9652e-08,  8.3819e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-4.6566e-09, -4.6566e-09, -1.3039e-08,  ...,  0.0000e+00,
+          0.0000e+00, -1.6764e-08],
+        [ 0.0000e+00,  4.6566e-09, -3.5390e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 461, bias, value: tensor([ 0.0324,  0.0054,  0.0204,  0.0156,  0.0410,  0.0147, -0.0012,  0.0019,
+        -0.0182, -0.0533], device='cuda:0'), grad: tensor([-3.0175e-07,  3.0734e-08,  1.3039e-08,  8.3819e-09,  1.6764e-08,
+         2.7940e-08,  6.8918e-08,  2.8033e-07, -5.7742e-08, -8.1025e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 460, time 218.47, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4252 re_mapping 0.0028 re_causal 0.0100 /// teacc 99.08 lr 0.00001000
+Epoch 462, weight, value: tensor([[-1.8113e-01,  2.6524e-01, -2.8234e-02,  ..., -2.7111e-02,
+          6.1242e-02, -4.8780e-02],
+        [ 2.1690e-01, -1.2146e-01,  3.1235e-02,  ..., -1.2826e-01,
+          2.8219e-02, -1.0014e-01],
+        [-1.0468e-01, -3.1744e-01, -6.6354e-02,  ..., -7.7460e-02,
+          2.2847e-02, -3.2033e-01],
+        ...,
+        [-2.0624e-01, -3.8001e-01,  7.0712e-02,  ..., -1.2714e-01,
+         -1.0462e-01, -2.1770e-01],
+        [-1.7316e-01,  3.4134e-03,  4.9021e-02,  ...,  4.7424e-05,
+         -1.2221e-01,  9.5756e-02],
+        [-1.4069e-01, -1.2329e-01,  1.1364e-01,  ...,  2.3487e-01,
+         -8.7626e-02, -2.4510e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -2.2352e-08, -1.0245e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  4.6566e-09,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  1.2107e-08,  5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  9.3132e-10, -5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.7940e-09,  2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.2107e-08]], device='cuda:0')
+Epoch 462, bias, value: tensor([ 0.0325,  0.0055,  0.0205,  0.0155,  0.0411,  0.0148, -0.0013,  0.0018,
+        -0.0182, -0.0533], device='cuda:0'), grad: tensor([-5.3085e-08,  1.3039e-08,  3.2596e-08, -5.7742e-08, -5.5879e-09,
+         2.0489e-08,  0.0000e+00, -9.3132e-09,  9.3132e-10,  5.8673e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 461, time 217.94, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4247 re_mapping 0.0028 re_causal 0.0101 /// teacc 99.10 lr 0.00001000
+Epoch 463, weight, value: tensor([[-1.8113e-01,  2.6548e-01, -2.8109e-02,  ..., -2.7112e-02,
+          6.1227e-02, -4.8853e-02],
+        [ 2.1693e-01, -1.2147e-01,  3.1245e-02,  ..., -1.2830e-01,
+          2.8215e-02, -1.0015e-01],
+        [-1.0471e-01, -3.1757e-01, -6.6460e-02,  ..., -7.7465e-02,
+          2.2845e-02, -3.2044e-01],
+        ...,
+        [-2.0626e-01, -3.8011e-01,  7.0723e-02,  ..., -1.2715e-01,
+         -1.0465e-01, -2.1782e-01],
+        [-1.7323e-01,  3.4137e-03,  4.8998e-02,  ...,  3.3310e-05,
+         -1.2221e-01,  9.5745e-02],
+        [-1.4072e-01, -1.2355e-01,  1.1363e-01,  ...,  2.3491e-01,
+         -8.7607e-02, -2.4521e-01]], device='cuda:0'), grad: tensor([[ 1.8626e-09, -3.7253e-09,  1.1362e-07,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [-5.5879e-09,  0.0000e+00,  9.3132e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00, -2.3283e-08,  ...,  0.0000e+00,
+          5.5879e-09,  9.3132e-10],
+        [ 6.5193e-09,  9.3132e-10,  6.5193e-09,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 4.0978e-08,  2.6077e-08, -1.2945e-07,  ...,  0.0000e+00,
+          1.5832e-08,  2.5146e-08]], device='cuda:0')
+Epoch 463, bias, value: tensor([ 0.0326,  0.0054,  0.0204,  0.0155,  0.0413,  0.0148, -0.0013,  0.0018,
+        -0.0182, -0.0535], device='cuda:0'), grad: tensor([ 2.0582e-07,  6.7987e-08, -1.1455e-07,  1.0524e-07, -5.2992e-07,
+        -1.4063e-07,  7.4506e-09,  1.3132e-07,  3.0734e-08,  2.4214e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 462, time 218.26, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4375 re_mapping 0.0028 re_causal 0.0102 /// teacc 99.08 lr 0.00001000
+Epoch 464, weight, value: tensor([[-1.8116e-01,  2.6567e-01, -2.8194e-02,  ..., -2.7285e-02,
+          6.1213e-02, -4.8928e-02],
+        [ 2.1699e-01, -1.2146e-01,  3.1283e-02,  ..., -1.2830e-01,
+          2.8288e-02, -1.0010e-01],
+        [-1.0468e-01, -3.1765e-01, -6.6430e-02,  ..., -7.7507e-02,
+          2.2826e-02, -3.2054e-01],
+        ...,
+        [-2.0630e-01, -3.8023e-01,  7.0728e-02,  ..., -1.2717e-01,
+         -1.0466e-01, -2.1791e-01],
+        [-1.7333e-01,  3.3981e-03,  4.9026e-02,  ...,  2.8039e-05,
+         -1.2222e-01,  9.5689e-02],
+        [-1.4080e-01, -1.2366e-01,  1.1364e-01,  ...,  2.3499e-01,
+         -8.7633e-02, -2.4543e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -4.6566e-09,  1.0431e-07,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -2.3004e-07,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-9.3132e-10, -1.8626e-09, -2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00, -3.7253e-09],
+        [ 0.0000e+00,  2.7940e-09,  8.8476e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 464, bias, value: tensor([ 0.0326,  0.0054,  0.0205,  0.0155,  0.0414,  0.0148, -0.0014,  0.0018,
+        -0.0183, -0.0536], device='cuda:0'), grad: tensor([ 1.7229e-07,  1.3970e-08, -3.0734e-08,  8.9407e-08,  1.4901e-08,
+         6.5193e-09,  4.6566e-09, -7.9442e-07, -1.1176e-08,  5.3644e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 463, time 217.80, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4534 re_mapping 0.0028 re_causal 0.0103 /// teacc 99.10 lr 0.00001000
+Epoch 465, weight, value: tensor([[-1.8118e-01,  2.6587e-01, -2.8101e-02,  ..., -2.7332e-02,
+          6.1207e-02, -4.8901e-02],
+        [ 2.1707e-01, -1.2153e-01,  3.1263e-02,  ..., -1.2831e-01,
+          2.8352e-02, -1.0009e-01],
+        [-1.0470e-01, -3.1773e-01, -6.6398e-02,  ..., -7.7525e-02,
+          2.2856e-02, -3.2059e-01],
+        ...,
+        [-2.0636e-01, -3.8034e-01,  7.0775e-02,  ..., -1.2718e-01,
+         -1.0467e-01, -2.1801e-01],
+        [-1.7339e-01,  3.4008e-03,  4.9001e-02,  ...,  1.0866e-05,
+         -1.2223e-01,  9.5719e-02],
+        [-1.4082e-01, -1.2383e-01,  1.1366e-01,  ...,  2.3505e-01,
+         -8.7690e-02, -2.4559e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -3.7253e-09, -2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 3.7253e-09,  0.0000e+00,  4.6566e-09,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [-3.7253e-09, -4.6566e-09, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          9.3132e-10,  9.3132e-10],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-1.8626e-09,  4.6566e-09, -3.3528e-08,  ...,  0.0000e+00,
+         -2.7940e-09,  0.0000e+00]], device='cuda:0')
+Epoch 465, bias, value: tensor([ 0.0327,  0.0054,  0.0206,  0.0156,  0.0414,  0.0147, -0.0014,  0.0018,
+        -0.0184, -0.0537], device='cuda:0'), grad: tensor([ 1.1362e-07,  4.5635e-08, -5.1036e-07,  4.6566e-08,  5.8673e-08,
+        -2.7940e-09,  1.0245e-08,  3.0547e-07,  2.0489e-08, -9.2201e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 464, time 218.01, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4245 re_mapping 0.0028 re_causal 0.0102 /// teacc 99.09 lr 0.00001000
+Epoch 466, weight, value: tensor([[-1.8120e-01,  2.6601e-01, -2.8033e-02,  ..., -2.7338e-02,
+          6.1194e-02, -4.8871e-02],
+        [ 2.1731e-01, -1.2155e-01,  3.1351e-02,  ..., -1.2832e-01,
+          2.8383e-02, -1.0011e-01],
+        [-1.0478e-01, -3.1780e-01, -6.6440e-02,  ..., -7.7527e-02,
+          2.2866e-02, -3.2065e-01],
+        ...,
+        [-2.0659e-01, -3.8043e-01,  7.0707e-02,  ..., -1.2720e-01,
+         -1.0478e-01, -2.1815e-01],
+        [-1.7353e-01,  3.3464e-03,  4.9023e-02,  ...,  1.5210e-05,
+         -1.2225e-01,  9.5707e-02],
+        [-1.4087e-01, -1.2396e-01,  1.1367e-01,  ...,  2.3509e-01,
+         -8.7715e-02, -2.4565e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [-5.5879e-09,  2.7940e-09, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09],
+        [ 0.0000e+00,  1.8626e-09,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        ...,
+        [ 5.5879e-09,  9.3132e-10, -1.3039e-08,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00, -1.6764e-08, -1.4901e-08,  ...,  0.0000e+00,
+         -9.3132e-10, -1.8626e-08],
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 466, bias, value: tensor([ 0.0328,  0.0056,  0.0207,  0.0155,  0.0414,  0.0148, -0.0015,  0.0017,
+        -0.0185, -0.0538], device='cuda:0'), grad: tensor([ 8.3819e-09,  2.7940e-09,  1.0245e-08,  5.1223e-08,  1.8626e-09,
+         2.0489e-08, -2.7940e-09, -4.4703e-08, -6.4261e-08,  2.4214e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 465, time 217.47, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4186 re_mapping 0.0028 re_causal 0.0099 /// teacc 99.07 lr 0.00001000
+Epoch 467, weight, value: tensor([[-1.8118e-01,  2.6612e-01, -2.7979e-02,  ..., -2.7329e-02,
+          6.1193e-02, -4.8880e-02],
+        [ 2.1736e-01, -1.2156e-01,  3.1366e-02,  ..., -1.2831e-01,
+          2.8424e-02, -1.0014e-01],
+        [-1.0474e-01, -3.1785e-01, -6.6428e-02,  ..., -7.7530e-02,
+          2.2878e-02, -3.2072e-01],
+        ...,
+        [-2.0664e-01, -3.8047e-01,  7.0717e-02,  ..., -1.2723e-01,
+         -1.0492e-01, -2.1832e-01],
+        [-1.7361e-01,  3.3412e-03,  4.9043e-02,  ...,  1.2941e-05,
+         -1.2226e-01,  9.5714e-02],
+        [-1.4093e-01, -1.2412e-01,  1.1365e-01,  ...,  2.3510e-01,
+         -8.7772e-02, -2.4576e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.6484e-07, -1.4808e-07,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  1.3970e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  1.2107e-08,  ...,  0.0000e+00,
+         -9.3132e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.8626e-09, -6.8918e-08,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.5553e-07,  1.7229e-07,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 467, bias, value: tensor([ 0.0328,  0.0055,  0.0208,  0.0156,  0.0414,  0.0147, -0.0014,  0.0016,
+        -0.0185, -0.0539], device='cuda:0'), grad: tensor([-4.4145e-07,  4.9360e-08,  3.1665e-08,  1.2107e-08, -1.5832e-08,
+         3.7253e-09,  2.7008e-08, -2.2817e-07,  9.3132e-09,  5.5414e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 466, time 218.21, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4107 re_mapping 0.0028 re_causal 0.0100 /// teacc 99.09 lr 0.00001000
+Epoch 468, weight, value: tensor([[-1.8122e-01,  2.6619e-01, -2.7957e-02,  ..., -2.7337e-02,
+          6.1171e-02, -4.8935e-02],
+        [ 2.1754e-01, -1.2158e-01,  3.1378e-02,  ..., -1.2832e-01,
+          2.8444e-02, -1.0018e-01],
+        [-1.0485e-01, -3.1786e-01, -6.6457e-02,  ..., -7.7531e-02,
+          2.2862e-02, -3.2078e-01],
+        ...,
+        [-2.0680e-01, -3.8053e-01,  7.0838e-02,  ..., -1.2723e-01,
+         -1.0500e-01, -2.1840e-01],
+        [-1.7369e-01,  3.3612e-03,  4.9114e-02,  ...,  8.3337e-06,
+         -1.2227e-01,  9.5743e-02],
+        [-1.4100e-01, -1.2423e-01,  1.1345e-01,  ...,  2.3512e-01,
+         -8.7802e-02, -2.4583e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.2352e-08,  2.1420e-08,  ...,  1.0710e-07,
+          0.0000e+00,  0.0000e+00],
+        [ 5.2992e-07,  0.0000e+00,  1.7034e-06,  ...,  3.8184e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  2.7940e-09,  4.6566e-09,  ...,  1.3039e-08,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [-5.3458e-07,  1.8626e-09, -1.7164e-06,  ..., -2.8871e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 2.7940e-09,  0.0000e+00,  9.3132e-09,  ...,  2.7940e-09,
+          0.0000e+00, -1.8626e-09],
+        [ 9.3132e-10, -5.2154e-08, -4.3772e-08,  ..., -2.3469e-07,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 468, bias, value: tensor([ 0.0328,  0.0056,  0.0208,  0.0155,  0.0415,  0.0147, -0.0014,  0.0017,
+        -0.0186, -0.0542], device='cuda:0'), grad: tensor([ 4.0699e-07,  2.6152e-06,  5.5879e-08,  2.6450e-07,  4.9360e-08,
+         8.3819e-08,  9.3132e-10, -2.5965e-06,  2.1420e-08, -8.9034e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 467, time 217.95, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4538 re_mapping 0.0027 re_causal 0.0101 /// teacc 99.09 lr 0.00001000
+Epoch 469, weight, value: tensor([[-1.8123e-01,  2.6642e-01, -2.7927e-02,  ..., -2.7397e-02,
+          6.1171e-02, -4.8970e-02],
+        [ 2.1769e-01, -1.2161e-01,  3.1410e-02,  ..., -1.2837e-01,
+          2.8438e-02, -1.0022e-01],
+        [-1.0492e-01, -3.1791e-01, -6.6518e-02,  ..., -7.7547e-02,
+          2.2839e-02, -3.2088e-01],
+        ...,
+        [-2.0694e-01, -3.8061e-01,  7.0828e-02,  ..., -1.2724e-01,
+         -1.0502e-01, -2.1853e-01],
+        [-1.7372e-01,  3.3848e-03,  4.9125e-02,  ...,  1.1987e-05,
+         -1.2227e-01,  9.5762e-02],
+        [-1.4100e-01, -1.2435e-01,  1.1349e-01,  ...,  2.3520e-01,
+         -8.7813e-02, -2.4597e-01]], device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [-6.5193e-09,  0.0000e+00, -1.2107e-08,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09],
+        [ 5.5879e-09,  9.3132e-10,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-09],
+        ...,
+        [ 1.8626e-09,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 1.9558e-08,  1.0245e-08,  7.4506e-09,  ...,  0.0000e+00,
+          4.6566e-09,  1.6764e-08],
+        [ 1.8626e-09,  9.3132e-10, -4.6566e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09]], device='cuda:0')
+Epoch 469, bias, value: tensor([ 0.0329,  0.0056,  0.0208,  0.0156,  0.0415,  0.0147, -0.0014,  0.0016,
+        -0.0186, -0.0542], device='cuda:0'), grad: tensor([ 8.3819e-09,  2.4587e-07,  2.2352e-08,  2.5705e-07, -3.1572e-07,
+        -3.6228e-07,  3.8184e-08,  6.3330e-08,  4.1910e-08,  9.3132e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 468, time 217.90, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4154 re_mapping 0.0028 re_causal 0.0101 /// teacc 99.09 lr 0.00001000
+Epoch 470, weight, value: tensor([[-1.8127e-01,  2.6649e-01, -2.8042e-02,  ..., -2.7467e-02,
+          6.1171e-02, -4.9120e-02],
+        [ 2.1782e-01, -1.2171e-01,  3.1431e-02,  ..., -1.2836e-01,
+          2.8423e-02, -1.0028e-01],
+        [-1.0496e-01, -3.1795e-01, -6.6551e-02,  ..., -7.7549e-02,
+          2.2817e-02, -3.2103e-01],
+        ...,
+        [-2.0708e-01, -3.8065e-01,  7.0832e-02,  ..., -1.2727e-01,
+         -1.0503e-01, -2.1872e-01],
+        [-1.7382e-01,  3.3771e-03,  4.9185e-02,  ...,  1.6264e-05,
+         -1.2229e-01,  9.5736e-02],
+        [-1.4104e-01, -1.2442e-01,  1.1355e-01,  ...,  2.3524e-01,
+         -8.7834e-02, -2.4609e-01]], device='cuda:0'), grad: tensor([[ 9.3132e-10, -2.4214e-08, -1.8626e-08,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 9.3132e-10,  1.7695e-08,  1.5832e-08,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  3.7253e-09, -9.3132e-09,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 2.7940e-09,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09],
+        [ 3.7253e-09,  7.4506e-09,  4.6566e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09]], device='cuda:0')
+Epoch 470, bias, value: tensor([ 0.0329,  0.0057,  0.0208,  0.0156,  0.0415,  0.0147, -0.0014,  0.0016,
+        -0.0186, -0.0542], device='cuda:0'), grad: tensor([-4.1910e-08,  4.0978e-08,  4.6566e-09,  6.8825e-07,  1.8626e-09,
+        -7.1619e-07,  1.6764e-08, -2.2352e-08,  2.7940e-09,  2.5146e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 469, time 217.68, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4267 re_mapping 0.0028 re_causal 0.0100 /// teacc 99.10 lr 0.00001000
+Epoch 471, weight, value: tensor([[-1.8127e-01,  2.6673e-01, -2.8095e-02,  ..., -2.7528e-02,
+          6.1214e-02, -4.9180e-02],
+        [ 2.1789e-01, -1.2191e-01,  3.1431e-02,  ..., -1.2837e-01,
+          2.8422e-02, -1.0030e-01],
+        [-1.0501e-01, -3.1814e-01, -6.6660e-02,  ..., -7.7551e-02,
+          2.2823e-02, -3.2115e-01],
+        ...,
+        [-2.0714e-01, -3.8079e-01,  7.0846e-02,  ..., -1.2727e-01,
+         -1.0506e-01, -2.1884e-01],
+        [-1.7389e-01,  3.4076e-03,  4.9241e-02,  ...,  6.7323e-06,
+         -1.2227e-01,  9.5832e-02],
+        [-1.4107e-01, -1.2453e-01,  1.1366e-01,  ...,  2.3528e-01,
+         -8.7895e-02, -2.4615e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -6.5193e-09, -9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  2.7940e-09,  5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [ 1.8626e-08,  3.0734e-08,  2.6077e-08,  ...,  0.0000e+00,
+          0.0000e+00,  3.2596e-08],
+        ...,
+        [ 0.0000e+00,  1.8626e-09, -3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  6.5193e-09],
+        [-3.1665e-08, -5.3085e-08, -4.5635e-08,  ..., -9.3132e-10,
+          0.0000e+00, -5.3085e-08],
+        [ 4.6566e-09,  5.5879e-09,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-09]], device='cuda:0')
+Epoch 471, bias, value: tensor([ 0.0329,  0.0056,  0.0207,  0.0156,  0.0416,  0.0148, -0.0013,  0.0015,
+        -0.0186, -0.0543], device='cuda:0'), grad: tensor([-1.1176e-08,  1.8626e-08,  1.2014e-07,  2.7008e-08, -1.0431e-07,
+         1.3970e-08,  9.3132e-09,  9.8720e-08, -1.9278e-07,  1.7695e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 470, time 218.02, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4389 re_mapping 0.0028 re_causal 0.0101 /// teacc 99.09 lr 0.00001000
+Epoch 472, weight, value: tensor([[-1.8130e-01,  2.6688e-01, -2.8044e-02,  ..., -2.7592e-02,
+          6.1198e-02, -4.9284e-02],
+        [ 2.1811e-01, -1.2193e-01,  3.1509e-02,  ..., -1.2837e-01,
+          2.8426e-02, -1.0035e-01],
+        [-1.0511e-01, -3.1822e-01, -6.6740e-02,  ..., -7.7564e-02,
+          2.2850e-02, -3.2128e-01],
+        ...,
+        [-2.0736e-01, -3.8096e-01,  7.0789e-02,  ..., -1.2729e-01,
+         -1.0509e-01, -2.1899e-01],
+        [-1.7396e-01,  3.4676e-03,  4.9345e-02,  ...,  7.7367e-06,
+         -1.2228e-01,  9.5841e-02],
+        [-1.4112e-01, -1.2467e-01,  1.1367e-01,  ...,  2.3533e-01,
+         -8.7935e-02, -2.4640e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -3.7253e-09, -9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.2107e-08,  0.0000e+00,  2.7008e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 4.6566e-09,  0.0000e+00,  1.0245e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-2.4214e-08,  1.8626e-09, -5.6811e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 472, bias, value: tensor([ 0.0328,  0.0057,  0.0207,  0.0156,  0.0417,  0.0147, -0.0012,  0.0014,
+        -0.0187, -0.0544], device='cuda:0'), grad: tensor([-2.7940e-09,  6.2399e-08, -5.3085e-08,  6.5193e-09,  3.9116e-08,
+         5.5879e-09, -6.5193e-09,  7.4506e-08,  1.8626e-09, -1.2945e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 471, time 217.71, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4483 re_mapping 0.0028 re_causal 0.0101 /// teacc 99.10 lr 0.00001000
+Epoch 473, weight, value: tensor([[-1.8139e-01,  2.6716e-01, -2.8221e-02,  ..., -2.7727e-02,
+          6.1172e-02, -4.9310e-02],
+        [ 2.1828e-01, -1.2193e-01,  3.1616e-02,  ..., -1.2837e-01,
+          2.8445e-02, -1.0040e-01],
+        [-1.0522e-01, -3.1827e-01, -6.6860e-02,  ..., -7.7566e-02,
+          2.2833e-02, -3.2138e-01],
+        ...,
+        [-2.0751e-01, -3.8107e-01,  7.0699e-02,  ..., -1.2733e-01,
+         -1.0513e-01, -2.1920e-01],
+        [-1.7404e-01,  3.6216e-03,  4.9581e-02,  ...,  5.8138e-06,
+         -1.2225e-01,  9.6017e-02],
+        [-1.4120e-01, -1.2491e-01,  1.1383e-01,  ...,  2.3541e-01,
+         -8.7939e-02, -2.4652e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -3.7253e-09, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.7940e-09, -4.6566e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 473, bias, value: tensor([ 0.0329,  0.0059,  0.0207,  0.0156,  0.0418,  0.0147, -0.0013,  0.0012,
+        -0.0186, -0.0543], device='cuda:0'), grad: tensor([ 1.0245e-08,  8.3819e-09,  9.3132e-10,  5.5879e-09,  3.9116e-08,
+        -2.7940e-09, -2.6077e-08, -2.5146e-08,  2.7940e-09, -8.3819e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 472, time 217.85, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4179 re_mapping 0.0027 re_causal 0.0098 /// teacc 99.10 lr 0.00001000
+Epoch 474, weight, value: tensor([[-1.8136e-01,  2.6750e-01, -2.8088e-02,  ..., -2.7728e-02,
+          6.1183e-02, -4.9336e-02],
+        [ 2.1832e-01, -1.2211e-01,  3.1587e-02,  ..., -1.2838e-01,
+          2.8436e-02, -1.0044e-01],
+        [-1.0532e-01, -3.1845e-01, -6.6953e-02,  ..., -7.7563e-02,
+          2.2807e-02, -3.2146e-01],
+        ...,
+        [-2.0753e-01, -3.8118e-01,  7.0813e-02,  ..., -1.2737e-01,
+         -1.0514e-01, -2.1927e-01],
+        [-1.7412e-01,  3.6151e-03,  4.9553e-02,  ...,  9.0850e-06,
+         -1.2225e-01,  9.6053e-02],
+        [-1.4128e-01, -1.2523e-01,  1.1374e-01,  ...,  2.3544e-01,
+         -8.7978e-02, -2.4670e-01]], device='cuda:0'), grad: tensor([[ 1.8626e-09, -5.8673e-08,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00, -1.3039e-08],
+        [ 4.4145e-07,  0.0000e+00,  2.2817e-07,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-4.7404e-07,  0.0000e+00, -2.3935e-07,  ...,  0.0000e+00,
+         -9.3132e-10,  0.0000e+00],
+        ...,
+        [ 3.7253e-09,  0.0000e+00, -2.1420e-08,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 1.1176e-08,  5.5879e-09,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-09],
+        [ 5.5879e-09,  0.0000e+00,  1.7695e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 474, bias, value: tensor([ 0.0331,  0.0058,  0.0207,  0.0156,  0.0418,  0.0148, -0.0014,  0.0013,
+        -0.0186, -0.0545], device='cuda:0'), grad: tensor([-1.1176e-07,  2.0433e-06, -2.2184e-06,  2.7008e-08,  1.8626e-08,
+         3.1665e-08,  1.0338e-07,  5.5879e-09,  4.0978e-08,  6.1467e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 473, time 217.73, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4351 re_mapping 0.0028 re_causal 0.0099 /// teacc 99.10 lr 0.00001000
+Epoch 475, weight, value: tensor([[-1.8145e-01,  2.6773e-01, -2.8023e-02,  ..., -2.7736e-02,
+          6.1158e-02, -4.9354e-02],
+        [ 2.1837e-01, -1.2213e-01,  3.1614e-02,  ..., -1.2840e-01,
+          2.8452e-02, -1.0046e-01],
+        [-1.0526e-01, -3.1852e-01, -6.6933e-02,  ..., -7.7567e-02,
+          2.2800e-02, -3.2153e-01],
+        ...,
+        [-2.0758e-01, -3.8137e-01,  7.0832e-02,  ..., -1.2741e-01,
+         -1.0517e-01, -2.1943e-01],
+        [-1.7426e-01,  3.7116e-03,  4.9602e-02,  ..., -1.6000e-05,
+         -1.2225e-01,  9.6219e-02],
+        [-1.4130e-01, -1.2540e-01,  1.1373e-01,  ...,  2.3550e-01,
+         -8.8026e-02, -2.4677e-01]], device='cuda:0'), grad: tensor([[ 4.6566e-10,  4.6566e-10,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [-1.1921e-06,  1.0245e-08, -1.0077e-06,  ...,  0.0000e+00,
+          2.3283e-09,  8.8476e-09],
+        [ 2.8871e-08,  4.6566e-10,  2.2352e-08,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 1.1548e-06,  6.5193e-09,  9.6858e-07,  ...,  0.0000e+00,
+          1.3970e-09,  5.5879e-09],
+        [ 4.6566e-10, -3.4459e-08, -4.4238e-08,  ...,  0.0000e+00,
+         -9.7789e-09, -2.2817e-08],
+        [ 2.3283e-09,  9.3132e-10,  8.8476e-09,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10]], device='cuda:0')
+Epoch 475, bias, value: tensor([ 0.0332,  0.0057,  0.0208,  0.0156,  0.0419,  0.0148, -0.0015,  0.0013,
+        -0.0186, -0.0546], device='cuda:0'), grad: tensor([ 1.0710e-08, -1.7872e-06,  6.7055e-08,  6.8918e-08, -1.8626e-09,
+         3.8650e-08, -1.0710e-08,  1.6652e-06, -7.9162e-08,  2.8871e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 474, time 218.22, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4249 re_mapping 0.0027 re_causal 0.0099 /// teacc 99.08 lr 0.00001000
+Epoch 476, weight, value: tensor([[-1.8147e-01,  2.6789e-01, -2.7963e-02,  ..., -2.7743e-02,
+          6.1128e-02, -4.9390e-02],
+        [ 2.1845e-01, -1.2227e-01,  3.1659e-02,  ..., -1.2840e-01,
+          2.8480e-02, -1.0053e-01],
+        [-1.0527e-01, -3.1858e-01, -6.6996e-02,  ..., -7.7573e-02,
+          2.2791e-02, -3.2161e-01],
+        ...,
+        [-2.0764e-01, -3.8146e-01,  7.0829e-02,  ..., -1.2742e-01,
+         -1.0529e-01, -2.1959e-01],
+        [-1.7434e-01,  3.7037e-03,  4.9630e-02,  ..., -4.3529e-05,
+         -1.2225e-01,  9.6207e-02],
+        [-1.4138e-01, -1.2559e-01,  1.1373e-01,  ...,  2.3554e-01,
+         -8.8016e-02, -2.4685e-01]], device='cuda:0'), grad: tensor([[ 1.3970e-09,  1.3970e-08, -2.3283e-09,  ...,  0.0000e+00,
+          9.3132e-10,  4.6566e-10],
+        [-1.8068e-07,  3.2596e-09,  4.6566e-10,  ...,  0.0000e+00,
+          9.3132e-10,  2.7940e-09],
+        [ 1.2806e-07,  4.6566e-10,  1.3970e-09,  ...,  0.0000e+00,
+          4.6566e-10,  9.3132e-10],
+        ...,
+        [ 4.6100e-08,  9.3132e-10,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 6.0536e-09,  3.2596e-09, -3.2596e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [ 6.2399e-08,  4.4238e-08, -5.1223e-09,  ...,  0.0000e+00,
+          0.0000e+00,  4.3772e-08]], device='cuda:0')
+Epoch 476, bias, value: tensor([ 0.0333,  0.0057,  0.0209,  0.0156,  0.0418,  0.0148, -0.0014,  0.0013,
+        -0.0187, -0.0547], device='cuda:0'), grad: tensor([ 3.4599e-07, -1.9278e-07,  1.5600e-07,  1.8347e-07,  1.6298e-08,
+        -2.5053e-07, -4.0838e-07,  5.7276e-08,  2.1886e-08,  8.9873e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 475, time 217.97, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4622 re_mapping 0.0028 re_causal 0.0103 /// teacc 99.09 lr 0.00001000
+Epoch 477, weight, value: tensor([[-1.8163e-01,  2.6804e-01, -2.7906e-02,  ..., -2.7736e-02,
+          6.1092e-02, -4.9451e-02],
+        [ 2.1861e-01, -1.2227e-01,  3.1626e-02,  ..., -1.2840e-01,
+          2.8478e-02, -1.0059e-01],
+        [-1.0529e-01, -3.1867e-01, -6.7057e-02,  ..., -7.7579e-02,
+          2.2741e-02, -3.2170e-01],
+        ...,
+        [-2.0780e-01, -3.8165e-01,  7.0932e-02,  ..., -1.2742e-01,
+         -1.0533e-01, -2.1980e-01],
+        [-1.7449e-01,  3.7787e-03,  4.9758e-02,  ..., -3.3800e-05,
+         -1.2227e-01,  9.6285e-02],
+        [-1.4148e-01, -1.2596e-01,  1.1365e-01,  ...,  2.3555e-01,
+         -8.8039e-02, -2.4706e-01]], device='cuda:0'), grad: tensor([[ 4.6566e-09, -9.3132e-09, -1.2573e-08,  ...,  0.0000e+00,
+         -4.6566e-10,  3.7253e-09],
+        [ 2.7940e-09,  6.0536e-09,  3.2596e-09,  ...,  0.0000e+00,
+          4.6566e-10,  2.3283e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  3.7253e-09,  1.3970e-09,  ...,  0.0000e+00,
+          0.0000e+00,  5.2154e-08],
+        [ 1.2107e-07,  1.1874e-07,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  1.0664e-07],
+        [ 5.5879e-09,  1.1642e-08,  3.2596e-09,  ...,  0.0000e+00,
+          0.0000e+00,  6.9849e-09]], device='cuda:0')
+Epoch 477, bias, value: tensor([ 0.0334,  0.0057,  0.0210,  0.0155,  0.0419,  0.0148, -0.0014,  0.0013,
+        -0.0187, -0.0549], device='cuda:0'), grad: tensor([ 4.3698e-06,  2.7008e-08, -1.8626e-09, -6.4727e-08, -6.9849e-09,
+         1.6997e-07, -5.1595e-06,  1.6671e-07,  4.6240e-07,  3.1199e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 476, time 217.82, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4298 re_mapping 0.0027 re_causal 0.0099 /// teacc 99.09 lr 0.00001000
+Epoch 478, weight, value: tensor([[-1.8166e-01,  2.6819e-01, -2.7922e-02,  ..., -2.7785e-02,
+          6.1080e-02, -4.9506e-02],
+        [ 2.1872e-01, -1.2228e-01,  3.1622e-02,  ..., -1.2840e-01,
+          2.8549e-02, -1.0061e-01],
+        [-1.0535e-01, -3.1873e-01, -6.7114e-02,  ..., -7.7579e-02,
+          2.2760e-02, -3.2185e-01],
+        ...,
+        [-2.0788e-01, -3.8173e-01,  7.0969e-02,  ..., -1.2747e-01,
+         -1.0536e-01, -2.2001e-01],
+        [-1.7464e-01,  3.7089e-03,  4.9778e-02,  ..., -4.1910e-05,
+         -1.2230e-01,  9.6243e-02],
+        [-1.4155e-01, -1.2612e-01,  1.1371e-01,  ...,  2.3560e-01,
+         -8.8085e-02, -2.4715e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -6.5193e-09, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-1.8626e-09,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 9.3132e-10,  4.6566e-09, -9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 478, bias, value: tensor([ 0.0334,  0.0057,  0.0209,  0.0155,  0.0419,  0.0148, -0.0014,  0.0013,
+        -0.0188, -0.0549], device='cuda:0'), grad: tensor([ 9.3132e-10,  0.0000e+00,  2.7940e-09,  2.1420e-08,  2.7940e-09,
+        -4.9360e-08,  1.2107e-08,  0.0000e+00,  6.5193e-09,  6.5193e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 477, time 218.03, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4055 re_mapping 0.0027 re_causal 0.0098 /// teacc 99.08 lr 0.00001000
+Epoch 479, weight, value: tensor([[-1.8166e-01,  2.6830e-01, -2.7890e-02,  ..., -2.7795e-02,
+          6.1061e-02, -4.9559e-02],
+        [ 2.1885e-01, -1.2227e-01,  3.1628e-02,  ..., -1.2849e-01,
+          2.8692e-02, -1.0053e-01],
+        [-1.0542e-01, -3.1876e-01, -6.7175e-02,  ..., -7.7579e-02,
+          2.2747e-02, -3.2196e-01],
+        ...,
+        [-2.0798e-01, -3.8179e-01,  7.1002e-02,  ..., -1.2748e-01,
+         -1.0546e-01, -2.2023e-01],
+        [-1.7483e-01,  3.6618e-03,  4.9827e-02,  ..., -3.7798e-05,
+         -1.2234e-01,  9.6245e-02],
+        [-1.4157e-01, -1.2630e-01,  1.1375e-01,  ...,  2.3570e-01,
+         -8.8109e-02, -2.4723e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  6.5193e-09,  4.6566e-09,  ...,  1.8626e-09,
+          0.0000e+00,  2.7940e-08],
+        [ 0.0000e+00,  1.8626e-09,  5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  7.4506e-09],
+        [ 0.0000e+00,  4.6566e-09,  5.5879e-09,  ...,  2.7940e-09,
+          0.0000e+00,  5.5879e-09],
+        ...,
+        [ 9.3132e-10,  1.8626e-09,  9.3132e-10,  ...,  9.3132e-10,
+          0.0000e+00,  8.3819e-09],
+        [ 0.0000e+00,  4.9360e-08,  4.3772e-08,  ...,  3.4459e-08,
+          0.0000e+00, -1.2107e-08],
+        [ 0.0000e+00, -1.2293e-07, -1.3597e-07,  ..., -7.6368e-08,
+          0.0000e+00,  3.7253e-09]], device='cuda:0')
+Epoch 479, bias, value: tensor([ 0.0334,  0.0057,  0.0209,  0.0155,  0.0419,  0.0148, -0.0014,  0.0013,
+        -0.0188, -0.0549], device='cuda:0'), grad: tensor([ 1.0058e-07,  4.4703e-08,  7.4506e-09, -1.3411e-07,  3.2596e-08,
+         2.0768e-07,  5.5879e-09,  2.1420e-08,  2.3097e-07, -5.1688e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 478, time 217.89, cls_loss 0.0006 cls_loss_mapping 0.0003 cls_loss_causal 0.4101 re_mapping 0.0028 re_causal 0.0096 /// teacc 99.10 lr 0.00001000
+Epoch 480, weight, value: tensor([[-1.8173e-01,  2.6854e-01, -2.7797e-02,  ..., -2.7794e-02,
+          6.1032e-02, -4.9658e-02],
+        [ 2.1893e-01, -1.2230e-01,  3.1646e-02,  ..., -1.2850e-01,
+          2.8716e-02, -1.0057e-01],
+        [-1.0542e-01, -3.1885e-01, -6.7292e-02,  ..., -7.7582e-02,
+          2.2730e-02, -3.2203e-01],
+        ...,
+        [-2.0804e-01, -3.8195e-01,  7.1021e-02,  ..., -1.2757e-01,
+         -1.0550e-01, -2.2037e-01],
+        [-1.7500e-01,  3.7011e-03,  5.0029e-02,  ..., -5.7463e-05,
+         -1.2234e-01,  9.6358e-02],
+        [-1.4164e-01, -1.2650e-01,  1.1380e-01,  ...,  2.3580e-01,
+         -8.8086e-02, -2.4743e-01]], device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-9.6858e-08,  0.0000e+00, -9.6858e-08,  ..., -4.6566e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 8.6613e-08,  0.0000e+00,  8.7544e-08,  ...,  3.7253e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -9.3132e-10, -9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00, -1.8626e-09],
+        [ 7.4506e-09,  9.3132e-10,  7.4506e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 480, bias, value: tensor([ 0.0335,  0.0056,  0.0210,  0.0155,  0.0418,  0.0149, -0.0015,  0.0013,
+        -0.0188, -0.0549], device='cuda:0'), grad: tensor([ 2.0489e-08, -1.7229e-07, -1.8626e-09,  3.7253e-09, -3.7253e-09,
+         1.8626e-09, -1.5832e-08,  1.5926e-07, -3.7253e-09,  1.7695e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 479, time 217.49, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4209 re_mapping 0.0028 re_causal 0.0097 /// teacc 99.12 lr 0.00001000
+Epoch 481, weight, value: tensor([[-1.8183e-01,  2.6868e-01, -2.7773e-02,  ..., -2.7802e-02,
+          6.1001e-02, -4.9679e-02],
+        [ 2.1899e-01, -1.2233e-01,  3.1630e-02,  ..., -1.2859e-01,
+          2.8729e-02, -1.0062e-01],
+        [-1.0543e-01, -3.1893e-01, -6.7393e-02,  ..., -7.7585e-02,
+          2.2756e-02, -3.2214e-01],
+        ...,
+        [-2.0811e-01, -3.8202e-01,  7.1054e-02,  ..., -1.2763e-01,
+         -1.0554e-01, -2.2053e-01],
+        [-1.7509e-01,  3.8170e-03,  5.0154e-02,  ..., -6.8756e-05,
+         -1.2230e-01,  9.6531e-02],
+        [-1.4161e-01, -1.2667e-01,  1.1387e-01,  ...,  2.3595e-01,
+         -8.8084e-02, -2.4755e-01]], device='cuda:0'), grad: tensor([[ 9.3132e-10, -1.5832e-08,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-09],
+        [-9.3132e-10,  1.8626e-09,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  5.5879e-09,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  7.4506e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [ 6.5193e-09, -1.7695e-08, -1.2107e-08,  ...,  0.0000e+00,
+          0.0000e+00, -7.4506e-09],
+        [ 9.3132e-10,  1.6764e-08,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09]], device='cuda:0')
+Epoch 481, bias, value: tensor([ 0.0334,  0.0056,  0.0210,  0.0155,  0.0419,  0.0149, -0.0014,  0.0014,
+        -0.0187, -0.0549], device='cuda:0'), grad: tensor([-1.2107e-08,  2.3283e-08,  4.0978e-08, -7.6368e-08, -5.1036e-07,
+        -2.6263e-07,  2.8219e-07,  1.1176e-08, -3.5390e-08,  5.4389e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 480, time 218.07, cls_loss 0.0006 cls_loss_mapping 0.0003 cls_loss_causal 0.4097 re_mapping 0.0027 re_causal 0.0096 /// teacc 99.09 lr 0.00001000
+Epoch 482, weight, value: tensor([[-1.8190e-01,  2.6888e-01, -2.7892e-02,  ..., -2.7964e-02,
+          6.0985e-02, -4.9820e-02],
+        [ 2.1910e-01, -1.2235e-01,  3.1662e-02,  ..., -1.2861e-01,
+          2.8737e-02, -1.0068e-01],
+        [-1.0556e-01, -3.1900e-01, -6.7518e-02,  ..., -7.7607e-02,
+          2.2823e-02, -3.2233e-01],
+        ...,
+        [-2.0818e-01, -3.8208e-01,  7.1135e-02,  ..., -1.2769e-01,
+         -1.0561e-01, -2.2071e-01],
+        [-1.7516e-01,  3.8532e-03,  5.0163e-02,  ..., -1.0318e-04,
+         -1.2230e-01,  9.6557e-02],
+        [-1.4167e-01, -1.2685e-01,  1.1388e-01,  ...,  2.3611e-01,
+         -8.8064e-02, -2.4770e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  1.4901e-08],
+        [-3.7253e-09,  0.0000e+00, -3.7253e-09,  ...,  0.0000e+00,
+          1.8626e-09,  1.8626e-09],
+        [ 9.3132e-10,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+         -2.7940e-09,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  8.3819e-09],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 482, bias, value: tensor([ 0.0334,  0.0056,  0.0210,  0.0156,  0.0421,  0.0148, -0.0015,  0.0014,
+        -0.0188, -0.0551], device='cuda:0'), grad: tensor([ 4.5635e-08,  2.4214e-08, -2.4214e-08, -7.5437e-08, -3.2876e-07,
+        -9.3132e-10,  8.3819e-09,  8.6613e-08,  2.7940e-08,  2.4680e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 481, time 217.83, cls_loss 0.0006 cls_loss_mapping 0.0003 cls_loss_causal 0.4301 re_mapping 0.0028 re_causal 0.0098 /// teacc 99.10 lr 0.00001000
+Epoch 483, weight, value: tensor([[-1.8197e-01,  2.6908e-01, -2.7798e-02,  ..., -2.7954e-02,
+          6.0967e-02, -4.9849e-02],
+        [ 2.1921e-01, -1.2238e-01,  3.1701e-02,  ..., -1.2872e-01,
+          2.8756e-02, -1.0076e-01],
+        [-1.0560e-01, -3.1910e-01, -6.7659e-02,  ..., -7.7612e-02,
+          2.2821e-02, -3.2245e-01],
+        ...,
+        [-2.0829e-01, -3.8220e-01,  7.1263e-02,  ..., -1.2774e-01,
+         -1.0567e-01, -2.2092e-01],
+        [-1.7530e-01,  3.9835e-03,  5.0320e-02,  ..., -1.1094e-04,
+         -1.2225e-01,  9.6700e-02],
+        [-1.4164e-01, -1.2713e-01,  1.1372e-01,  ...,  2.3626e-01,
+         -8.8096e-02, -2.4784e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-1.8626e-09,  1.8626e-09,  2.7940e-09,  ...,  0.0000e+00,
+          9.3132e-10,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 2.6077e-08,  3.2596e-08, -9.3132e-09,  ..., -9.3132e-10,
+          9.3132e-09,  3.4459e-08],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09]], device='cuda:0')
+Epoch 483, bias, value: tensor([ 0.0335,  0.0056,  0.0209,  0.0156,  0.0420,  0.0148, -0.0015,  0.0014,
+        -0.0188, -0.0553], device='cuda:0'), grad: tensor([ 9.3132e-10,  2.3283e-08, -8.1956e-08,  9.3132e-10, -1.8626e-09,
+        -2.8033e-07,  2.1234e-07,  2.7008e-08,  9.5926e-08,  1.5832e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 482, time 218.12, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4257 re_mapping 0.0027 re_causal 0.0098 /// teacc 99.10 lr 0.00001000
+Epoch 484, weight, value: tensor([[-1.8209e-01,  2.6930e-01, -2.7832e-02,  ..., -2.7989e-02,
+          6.0929e-02, -4.9885e-02],
+        [ 2.1925e-01, -1.2238e-01,  3.1702e-02,  ..., -1.2878e-01,
+          2.8784e-02, -1.0083e-01],
+        [-1.0564e-01, -3.1922e-01, -6.7765e-02,  ..., -7.7613e-02,
+          2.2815e-02, -3.2262e-01],
+        ...,
+        [-2.0830e-01, -3.8231e-01,  7.1416e-02,  ..., -1.2776e-01,
+         -1.0569e-01, -2.2101e-01],
+        [-1.7555e-01,  3.8895e-03,  5.0270e-02,  ..., -1.2232e-04,
+         -1.2229e-01,  9.6647e-02],
+        [-1.4164e-01, -1.2727e-01,  1.1368e-01,  ...,  2.3635e-01,
+         -8.8103e-02, -2.4795e-01]], device='cuda:0'), grad: tensor([[ 1.4901e-08, -1.9558e-08, -9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00, -1.8626e-09],
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        ...,
+        [ 6.5193e-09,  3.7253e-09,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-09],
+        [ 1.4901e-08,  7.4506e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  8.3819e-09],
+        [ 9.3132e-10,  0.0000e+00, -9.3132e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.5146e-08]], device='cuda:0')
+Epoch 484, bias, value: tensor([ 0.0336,  0.0056,  0.0209,  0.0157,  0.0419,  0.0148, -0.0016,  0.0015,
+        -0.0190, -0.0554], device='cuda:0'), grad: tensor([-4.3772e-08,  8.3819e-09, -2.7940e-09, -1.0710e-07,  2.2352e-08,
+        -1.2107e-08,  3.2596e-08,  1.7695e-08,  2.3283e-08,  6.4261e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 483, time 217.70, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4119 re_mapping 0.0027 re_causal 0.0097 /// teacc 99.08 lr 0.00001000
+Epoch 485, weight, value: tensor([[-1.8216e-01,  2.6960e-01, -2.7811e-02,  ..., -2.8028e-02,
+          6.0921e-02, -4.9838e-02],
+        [ 2.1940e-01, -1.2250e-01,  3.1704e-02,  ..., -1.2886e-01,
+          2.8802e-02, -1.0085e-01],
+        [-1.0584e-01, -3.1936e-01, -6.7936e-02,  ..., -7.7613e-02,
+          2.2782e-02, -3.2272e-01],
+        ...,
+        [-2.0841e-01, -3.8240e-01,  7.1454e-02,  ..., -1.2779e-01,
+         -1.0572e-01, -2.2113e-01],
+        [-1.7568e-01,  3.8841e-03,  5.0301e-02,  ..., -1.2937e-04,
+         -1.2227e-01,  9.6702e-02],
+        [-1.4166e-01, -1.2741e-01,  1.1372e-01,  ...,  2.3647e-01,
+         -8.8117e-02, -2.4805e-01]], device='cuda:0'), grad: tensor([[ 6.5193e-09, -9.3132e-09,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-4.8429e-08,  9.3132e-10, -3.6322e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 2.7940e-09,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [-3.7253e-09,  0.0000e+00, -2.4214e-08,  ...,  0.0000e+00,
+          0.0000e+00,  6.5193e-09],
+        [ 3.7253e-09,  1.8626e-09,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 9.3132e-10,  2.7940e-09,  3.7253e-09,  ...,  0.0000e+00,
+         -9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 485, bias, value: tensor([ 0.0337,  0.0056,  0.0208,  0.0157,  0.0419,  0.0148, -0.0017,  0.0015,
+        -0.0190, -0.0554], device='cuda:0'), grad: tensor([-2.7940e-09, -1.0338e-07,  7.4506e-09,  5.1223e-08, -1.5832e-08,
+        -5.4017e-08,  1.5367e-07, -6.9849e-08,  9.3132e-09,  4.0047e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 484, time 218.22, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4303 re_mapping 0.0028 re_causal 0.0100 /// teacc 99.09 lr 0.00001000
+Epoch 486, weight, value: tensor([[-1.8218e-01,  2.6974e-01, -2.7769e-02,  ..., -2.8095e-02,
+          6.0914e-02, -4.9870e-02],
+        [ 2.1948e-01, -1.2252e-01,  3.1726e-02,  ..., -1.2889e-01,
+          2.8810e-02, -1.0092e-01],
+        [-1.0598e-01, -3.1941e-01, -6.8108e-02,  ..., -7.7637e-02,
+          2.2780e-02, -3.2291e-01],
+        ...,
+        [-2.0844e-01, -3.8246e-01,  7.1488e-02,  ..., -1.2786e-01,
+         -1.0573e-01, -2.2122e-01],
+        [-1.7578e-01,  3.8978e-03,  5.0331e-02,  ..., -1.2914e-04,
+         -1.2228e-01,  9.6734e-02],
+        [-1.4169e-01, -1.2752e-01,  1.1373e-01,  ...,  2.3659e-01,
+         -8.8119e-02, -2.4812e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [-1.3970e-08,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 486, bias, value: tensor([ 0.0337,  0.0056,  0.0206,  0.0157,  0.0419,  0.0148, -0.0017,  0.0015,
+        -0.0190, -0.0554], device='cuda:0'), grad: tensor([ 3.7253e-09,  3.7253e-09,  1.8626e-09, -9.3132e-10,  4.5821e-07,
+         3.7253e-09,  0.0000e+00, -4.8801e-07,  4.6566e-09,  2.3283e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 485, time 218.06, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4381 re_mapping 0.0027 re_causal 0.0098 /// teacc 99.09 lr 0.00001000
+Epoch 487, weight, value: tensor([[-1.8227e-01,  2.6995e-01, -2.7704e-02,  ..., -2.8089e-02,
+          6.0891e-02, -4.9914e-02],
+        [ 2.1957e-01, -1.2253e-01,  3.1789e-02,  ..., -1.2890e-01,
+          2.8974e-02, -1.0084e-01],
+        [-1.0605e-01, -3.1947e-01, -6.8260e-02,  ..., -7.7642e-02,
+          2.2734e-02, -3.2299e-01],
+        ...,
+        [-2.0848e-01, -3.8252e-01,  7.1528e-02,  ..., -1.2788e-01,
+         -1.0574e-01, -2.2131e-01],
+        [-1.7591e-01,  3.8821e-03,  5.0346e-02,  ..., -1.2913e-04,
+         -1.2230e-01,  9.6696e-02],
+        [-1.4173e-01, -1.2765e-01,  1.1372e-01,  ...,  2.3664e-01,
+         -8.8162e-02, -2.4829e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -2.6077e-08, -3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  6.5193e-09,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  1.8626e-09, -9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  4.6566e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 487, bias, value: tensor([ 0.0337,  0.0057,  0.0205,  0.0158,  0.0419,  0.0147, -0.0017,  0.0016,
+        -0.0191, -0.0555], device='cuda:0'), grad: tensor([ 2.7195e-07,  1.7695e-08,  1.6764e-08,  1.4901e-08,  5.5879e-09,
+        -1.6764e-08, -3.2131e-07,  1.8626e-09,  4.6566e-09,  1.0245e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 486, time 218.05, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4322 re_mapping 0.0027 re_causal 0.0101 /// teacc 99.09 lr 0.00001000
+Epoch 488, weight, value: tensor([[-1.8231e-01,  2.7011e-01, -2.7663e-02,  ..., -2.8092e-02,
+          6.0877e-02, -4.9935e-02],
+        [ 2.1978e-01, -1.2259e-01,  3.1912e-02,  ..., -1.2890e-01,
+          2.8987e-02, -1.0087e-01],
+        [-1.0603e-01, -3.1958e-01, -6.8360e-02,  ..., -7.7644e-02,
+          2.2735e-02, -3.2304e-01],
+        ...,
+        [-2.0870e-01, -3.8258e-01,  7.1483e-02,  ..., -1.2790e-01,
+         -1.0578e-01, -2.2139e-01],
+        [-1.7605e-01,  3.8580e-03,  5.0347e-02,  ..., -1.2453e-04,
+         -1.2231e-01,  9.6705e-02],
+        [-1.4179e-01, -1.2778e-01,  1.1374e-01,  ...,  2.3669e-01,
+         -8.8133e-02, -2.4840e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  4.6566e-09,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-1.8626e-09,  9.3132e-10, -9.3132e-09,  ...,  0.0000e+00,
+          2.2352e-08,  9.3132e-10]], device='cuda:0')
+Epoch 488, bias, value: tensor([ 0.0337,  0.0057,  0.0206,  0.0158,  0.0419,  0.0148, -0.0016,  0.0015,
+        -0.0192, -0.0556], device='cuda:0'), grad: tensor([ 4.6566e-09,  1.6764e-08, -5.5879e-08,  4.9360e-08, -2.1048e-07,
+        -2.7940e-09, -2.7940e-09,  1.1176e-08,  1.3970e-08,  1.8161e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 487, time 217.75, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4379 re_mapping 0.0027 re_causal 0.0102 /// teacc 99.12 lr 0.00001000
+Epoch 489, weight, value: tensor([[-1.8235e-01,  2.7031e-01, -2.7607e-02,  ..., -2.8096e-02,
+          6.0872e-02, -4.9990e-02],
+        [ 2.1983e-01, -1.2267e-01,  3.1887e-02,  ..., -1.2890e-01,
+          2.8987e-02, -1.0089e-01],
+        [-1.0613e-01, -3.1972e-01, -6.8502e-02,  ..., -7.7646e-02,
+          2.2729e-02, -3.2310e-01],
+        ...,
+        [-2.0872e-01, -3.8266e-01,  7.1596e-02,  ..., -1.2792e-01,
+         -1.0579e-01, -2.2145e-01],
+        [-1.7618e-01,  3.8679e-03,  5.0381e-02,  ..., -1.2557e-04,
+         -1.2232e-01,  9.6731e-02],
+        [-1.4187e-01, -1.2795e-01,  1.1370e-01,  ...,  2.3673e-01,
+         -8.8147e-02, -2.4851e-01]], device='cuda:0'), grad: tensor([[0., 0., 0.,  ..., 0., 0., 0.],
+        [0., 0., 0.,  ..., 0., 0., 0.],
+        [0., 0., 0.,  ..., 0., 0., 0.],
+        ...,
+        [0., 0., 0.,  ..., 0., 0., 0.],
+        [0., 0., 0.,  ..., 0., 0., 0.],
+        [0., 0., 0.,  ..., 0., 0., 0.]], device='cuda:0')
+Epoch 489, bias, value: tensor([ 0.0338,  0.0057,  0.0205,  0.0157,  0.0419,  0.0148, -0.0016,  0.0016,
+        -0.0193, -0.0557], device='cuda:0'), grad: tensor([ 7.4506e-09,  6.9849e-08,  0.0000e+00,  0.0000e+00, -1.0058e-07,
+         9.3132e-09, -1.0245e-08,  1.0245e-08,  3.7253e-09,  1.1176e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 488, time 217.92, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4472 re_mapping 0.0027 re_causal 0.0101 /// teacc 99.12 lr 0.00001000
+Epoch 490, weight, value: tensor([[-1.8246e-01,  2.7044e-01, -2.7569e-02,  ..., -2.8108e-02,
+          6.0832e-02, -5.0045e-02],
+        [ 2.2005e-01, -1.2267e-01,  3.1943e-02,  ..., -1.2888e-01,
+          2.9011e-02, -1.0094e-01],
+        [-1.0619e-01, -3.1981e-01, -6.8604e-02,  ..., -7.7647e-02,
+          2.2718e-02, -3.2320e-01],
+        ...,
+        [-2.0893e-01, -3.8275e-01,  7.1597e-02,  ..., -1.2797e-01,
+         -1.0583e-01, -2.2165e-01],
+        [-1.7633e-01,  3.8346e-03,  5.0333e-02,  ..., -1.4913e-04,
+         -1.2235e-01,  9.6728e-02],
+        [-1.4191e-01, -1.2805e-01,  1.1376e-01,  ...,  2.3678e-01,
+         -8.8159e-02, -2.4865e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -2.7940e-09, -5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00, -2.7940e-09],
+        [ 0.0000e+00,  9.3132e-10, -9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 490, bias, value: tensor([ 0.0338,  0.0058,  0.0205,  0.0157,  0.0418,  0.0148, -0.0015,  0.0015,
+        -0.0194, -0.0557], device='cuda:0'), grad: tensor([ 4.6566e-09,  3.7253e-09,  8.3819e-09,  0.0000e+00, -1.9558e-08,
+         9.3132e-10, -1.8626e-09,  2.7940e-09, -1.4901e-08,  2.2352e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 489, time 217.75, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.3956 re_mapping 0.0027 re_causal 0.0094 /// teacc 99.11 lr 0.00001000
+Epoch 491, weight, value: tensor([[-1.8247e-01,  2.7070e-01, -2.7463e-02,  ..., -2.8128e-02,
+          6.0825e-02, -5.0069e-02],
+        [ 2.2013e-01, -1.2270e-01,  3.1970e-02,  ..., -1.2890e-01,
+          2.9019e-02, -1.0101e-01],
+        [-1.0624e-01, -3.1994e-01, -6.8727e-02,  ..., -7.7647e-02,
+          2.2740e-02, -3.2332e-01],
+        ...,
+        [-2.0899e-01, -3.8284e-01,  7.1619e-02,  ..., -1.2802e-01,
+         -1.0588e-01, -2.2178e-01],
+        [-1.7639e-01,  3.9234e-03,  5.0434e-02,  ..., -1.4913e-04,
+         -1.2236e-01,  9.6790e-02],
+        [-1.4197e-01, -1.2825e-01,  1.1374e-01,  ...,  2.3686e-01,
+         -8.8195e-02, -2.4880e-01]], device='cuda:0'), grad: tensor([[ 9.3132e-10, -5.5879e-09, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [-7.4506e-09, -9.3132e-10, -1.2107e-08,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  6.5193e-09],
+        [ 9.3132e-09,  6.5193e-09,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-09],
+        [ 2.3283e-08,  3.7253e-08, -9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  2.6077e-08]], device='cuda:0')
+Epoch 491, bias, value: tensor([ 0.0339,  0.0059,  0.0205,  0.0158,  0.0417,  0.0148, -0.0016,  0.0015,
+        -0.0194, -0.0558], device='cuda:0'), grad: tensor([-7.4506e-09, -3.7253e-09,  3.7253e-09, -1.0803e-07,  9.3132e-10,
+        -2.7940e-08,  2.0489e-08,  2.5146e-08,  2.0489e-08,  7.8231e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 490, time 217.81, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4061 re_mapping 0.0027 re_causal 0.0098 /// teacc 99.07 lr 0.00001000
+Epoch 492, weight, value: tensor([[-1.8251e-01,  2.7083e-01, -2.7506e-02,  ..., -2.8171e-02,
+          6.0822e-02, -5.0091e-02],
+        [ 2.2025e-01, -1.2274e-01,  3.2019e-02,  ..., -1.2897e-01,
+          2.9031e-02, -1.0104e-01],
+        [-1.0633e-01, -3.1998e-01, -6.8859e-02,  ..., -7.7647e-02,
+          2.2720e-02, -3.2340e-01],
+        ...,
+        [-2.0908e-01, -3.8286e-01,  7.1616e-02,  ..., -1.2803e-01,
+         -1.0597e-01, -2.2203e-01],
+        [-1.7646e-01,  3.9324e-03,  5.0496e-02,  ..., -1.5057e-04,
+         -1.2237e-01,  9.6840e-02],
+        [-1.4199e-01, -1.2839e-01,  1.1381e-01,  ...,  2.3696e-01,
+         -8.8243e-02, -2.4889e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -7.4506e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [-5.5879e-09,  0.0000e+00,  1.5832e-08,  ...,  3.7253e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  1.8626e-09,
+          0.0000e+00, -1.8626e-09],
+        [ 3.7253e-09,  0.0000e+00, -1.3970e-08,  ..., -5.5879e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 492, bias, value: tensor([ 0.0339,  0.0059,  0.0206,  0.0158,  0.0417,  0.0148, -0.0016,  0.0015,
+        -0.0195, -0.0558], device='cuda:0'), grad: tensor([ 1.2107e-08,  1.4901e-08, -6.0536e-08,  3.9116e-08, -1.4901e-08,
+         4.9360e-08, -2.7940e-09, -1.6019e-07,  6.5193e-09,  1.1921e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 491, time 217.57, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4159 re_mapping 0.0027 re_causal 0.0098 /// teacc 99.08 lr 0.00001000
+Epoch 493, weight, value: tensor([[-1.8249e-01,  2.7095e-01, -2.7476e-02,  ..., -2.8175e-02,
+          6.0823e-02, -5.0222e-02],
+        [ 2.2029e-01, -1.2280e-01,  3.2034e-02,  ..., -1.2905e-01,
+          2.9044e-02, -1.0108e-01],
+        [-1.0632e-01, -3.2003e-01, -6.8856e-02,  ..., -7.7649e-02,
+          2.2740e-02, -3.2350e-01],
+        ...,
+        [-2.0913e-01, -3.8290e-01,  7.1698e-02,  ..., -1.2803e-01,
+         -1.0600e-01, -2.2215e-01],
+        [-1.7653e-01,  3.9852e-03,  5.0597e-02,  ..., -1.5017e-04,
+         -1.2236e-01,  9.6887e-02],
+        [-1.4200e-01, -1.2854e-01,  1.1374e-01,  ...,  2.3704e-01,
+         -8.8272e-02, -2.4900e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 493, bias, value: tensor([ 0.0339,  0.0058,  0.0207,  0.0159,  0.0416,  0.0147, -0.0016,  0.0015,
+        -0.0195, -0.0559], device='cuda:0'), grad: tensor([ 9.3132e-10,  9.3132e-09, -2.0489e-08,  6.5193e-09, -1.8626e-09,
+        -3.7253e-09,  2.7940e-09,  8.3819e-09,  0.0000e+00,  6.5193e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 492, time 217.95, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4440 re_mapping 0.0027 re_causal 0.0102 /// teacc 99.09 lr 0.00001000
+Epoch 494, weight, value: tensor([[-1.8260e-01,  2.7128e-01, -2.7384e-02,  ..., -2.8198e-02,
+          6.0777e-02, -5.0260e-02],
+        [ 2.2038e-01, -1.2279e-01,  3.2122e-02,  ..., -1.2906e-01,
+          2.9232e-02, -1.0100e-01],
+        [-1.0636e-01, -3.2015e-01, -6.8954e-02,  ..., -7.7658e-02,
+          2.2721e-02, -3.2358e-01],
+        ...,
+        [-2.0915e-01, -3.8302e-01,  7.1761e-02,  ..., -1.2805e-01,
+         -1.0606e-01, -2.2229e-01],
+        [-1.7672e-01,  3.9223e-03,  5.0504e-02,  ..., -1.5103e-04,
+         -1.2242e-01,  9.6849e-02],
+        [-1.4207e-01, -1.2873e-01,  1.1371e-01,  ...,  2.3709e-01,
+         -8.8320e-02, -2.4910e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -4.3772e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -8.3819e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10, -4.5635e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 494, bias, value: tensor([ 0.0341,  0.0059,  0.0207,  0.0161,  0.0416,  0.0145, -0.0018,  0.0016,
+        -0.0197, -0.0560], device='cuda:0'), grad: tensor([-8.3819e-08,  5.5879e-09, -5.9605e-08,  1.8626e-08,  8.8476e-08,
+         4.7497e-08,  4.9360e-08, -4.6566e-09,  2.7940e-08, -9.7789e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 493, time 217.71, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4254 re_mapping 0.0027 re_causal 0.0099 /// teacc 99.09 lr 0.00001000
+Epoch 495, weight, value: tensor([[-1.8272e-01,  2.7143e-01, -2.7353e-02,  ..., -2.8197e-02,
+          6.0721e-02, -5.0311e-02],
+        [ 2.2052e-01, -1.2268e-01,  3.2256e-02,  ..., -1.2906e-01,
+          2.9432e-02, -1.0091e-01],
+        [-1.0635e-01, -3.2030e-01, -6.9008e-02,  ..., -7.7664e-02,
+          2.2696e-02, -3.2371e-01],
+        ...,
+        [-2.0924e-01, -3.8311e-01,  7.1801e-02,  ..., -1.2808e-01,
+         -1.0612e-01, -2.2248e-01],
+        [-1.7695e-01,  3.8753e-03,  5.0377e-02,  ..., -1.7621e-04,
+         -1.2251e-01,  9.6826e-02],
+        [-1.4217e-01, -1.2888e-01,  1.1366e-01,  ...,  2.3711e-01,
+         -8.8361e-02, -2.4920e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  6.7987e-08,  ...,  6.5193e-09,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  5.5879e-09,  7.4506e-09,  ...,  2.7940e-09,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00, -6.5193e-09, -8.0094e-08,  ..., -1.0245e-08,
+          0.0000e+00, -1.8626e-09]], device='cuda:0')
+Epoch 495, bias, value: tensor([ 0.0341,  0.0060,  0.0207,  0.0162,  0.0417,  0.0145, -0.0018,  0.0016,
+        -0.0199, -0.0562], device='cuda:0'), grad: tensor([ 3.5390e-08,  5.9605e-08, -1.2107e-08, -8.3819e-09,  1.1176e-08,
+         8.3819e-09, -9.2201e-08,  1.1269e-07,  2.5146e-08, -1.3504e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 494, time 217.68, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4066 re_mapping 0.0026 re_causal 0.0096 /// teacc 99.08 lr 0.00001000
+Epoch 496, weight, value: tensor([[-1.8274e-01,  2.7166e-01, -2.7235e-02,  ..., -2.8196e-02,
+          6.0723e-02, -5.0315e-02],
+        [ 2.2057e-01, -1.2274e-01,  3.2237e-02,  ..., -1.2907e-01,
+          2.9530e-02, -1.0084e-01],
+        [-1.0640e-01, -3.2038e-01, -6.9092e-02,  ..., -7.7665e-02,
+          2.2697e-02, -3.2375e-01],
+        ...,
+        [-2.0925e-01, -3.8315e-01,  7.1875e-02,  ..., -1.2812e-01,
+         -1.0613e-01, -2.2253e-01],
+        [-1.7701e-01,  3.8245e-03,  5.0339e-02,  ..., -1.9997e-04,
+         -1.2252e-01,  9.6808e-02],
+        [-1.4223e-01, -1.2912e-01,  1.1367e-01,  ...,  2.3715e-01,
+         -8.8362e-02, -2.4931e-01]], device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.1735e-07,  6.0536e-08,  1.8626e-09,  ...,  9.3132e-09,
+          7.4506e-09,  3.1665e-08],
+        [ 9.3132e-10,  9.3132e-10,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09],
+        ...,
+        [ 4.6566e-09,  4.6566e-09,  6.5193e-09,  ...,  0.0000e+00,
+          9.3132e-10,  4.6566e-09],
+        [-9.3132e-09, -4.2841e-08, -4.0978e-08,  ...,  0.0000e+00,
+         -8.3819e-09, -3.5390e-08],
+        [ 1.1176e-08,  4.6566e-09, -9.3132e-10,  ...,  9.3132e-10,
+          9.3132e-10,  1.8626e-09]], device='cuda:0')
+Epoch 496, bias, value: tensor([ 0.0343,  0.0059,  0.0207,  0.0162,  0.0418,  0.0145, -0.0019,  0.0017,
+        -0.0200, -0.0563], device='cuda:0'), grad: tensor([ 9.3132e-10,  1.3504e-07,  8.3819e-09,  1.2107e-07,  2.7940e-09,
+        -2.2072e-07,  2.2352e-08,  1.5832e-08, -9.9652e-08,  1.8626e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 495, time 217.90, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4370 re_mapping 0.0027 re_causal 0.0098 /// teacc 99.10 lr 0.00001000
+Epoch 497, weight, value: tensor([[-1.8282e-01,  2.7183e-01, -2.7156e-02,  ..., -2.8198e-02,
+          6.0707e-02, -5.0375e-02],
+        [ 2.2067e-01, -1.2274e-01,  3.2170e-02,  ..., -1.2910e-01,
+          2.9620e-02, -1.0081e-01],
+        [-1.0646e-01, -3.2043e-01, -6.9132e-02,  ..., -7.7667e-02,
+          2.2740e-02, -3.2389e-01],
+        ...,
+        [-2.0933e-01, -3.8323e-01,  7.1944e-02,  ..., -1.2818e-01,
+         -1.0618e-01, -2.2265e-01],
+        [-1.7713e-01,  3.8222e-03,  5.0376e-02,  ..., -2.0069e-04,
+         -1.2251e-01,  9.6828e-02],
+        [-1.4227e-01, -1.2927e-01,  1.1375e-01,  ...,  2.3721e-01,
+         -8.8362e-02, -2.4941e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  9.3132e-10,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  9.3132e-10,  2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -2.7940e-09, -9.3132e-09,  ...,  0.0000e+00,
+          0.0000e+00, -8.3819e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 497, bias, value: tensor([ 0.0344,  0.0059,  0.0208,  0.0162,  0.0417,  0.0145, -0.0020,  0.0016,
+        -0.0201, -0.0563], device='cuda:0'), grad: tensor([ 6.5193e-09,  2.5146e-08, -3.4459e-08,  1.2107e-08,  5.5879e-09,
+         5.5879e-09,  8.3819e-09,  9.3132e-09, -2.9802e-08,  4.6566e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 496, time 217.97, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4167 re_mapping 0.0026 re_causal 0.0096 /// teacc 99.10 lr 0.00001000
+Epoch 498, weight, value: tensor([[-1.8285e-01,  2.7195e-01, -2.7095e-02,  ..., -2.8196e-02,
+          6.0682e-02, -5.0429e-02],
+        [ 2.2070e-01, -1.2278e-01,  3.2137e-02,  ..., -1.2910e-01,
+          2.9618e-02, -1.0084e-01],
+        [-1.0648e-01, -3.2048e-01, -6.9237e-02,  ..., -7.7667e-02,
+          2.2752e-02, -3.2405e-01],
+        ...,
+        [-2.0934e-01, -3.8329e-01,  7.1995e-02,  ..., -1.2820e-01,
+         -1.0623e-01, -2.2274e-01],
+        [-1.7719e-01,  3.9264e-03,  5.0474e-02,  ..., -2.0493e-04,
+         -1.2247e-01,  9.6969e-02],
+        [-1.4228e-01, -1.2943e-01,  1.1380e-01,  ...,  2.3724e-01,
+         -8.8350e-02, -2.4949e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.7229e-08,  ...,  0.0000e+00,
+          7.9162e-09,  9.3132e-10],
+        [ 0.0000e+00,  4.6566e-10,  4.8429e-08,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        ...,
+        [ 4.6566e-10,  0.0000e+00, -3.3062e-08,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00, -3.5856e-08,  ...,  0.0000e+00,
+          1.3970e-09, -3.2596e-09],
+        [ 4.6566e-10,  4.6566e-10,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 498, bias, value: tensor([ 0.0344,  0.0058,  0.0207,  0.0162,  0.0418,  0.0144, -0.0020,  0.0016,
+        -0.0201, -0.0564], device='cuda:0'), grad: tensor([ 1.5367e-08,  1.3225e-07,  1.4808e-07,  3.2596e-08,  3.2596e-09,
+         4.7963e-08, -1.9511e-07, -1.1316e-07, -6.8918e-08,  6.0536e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 497, time 218.00, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4463 re_mapping 0.0026 re_causal 0.0098 /// teacc 99.11 lr 0.00001000
+Epoch 499, weight, value: tensor([[-1.8293e-01,  2.7208e-01, -2.7126e-02,  ..., -2.8227e-02,
+          6.0675e-02, -5.0551e-02],
+        [ 2.2071e-01, -1.2280e-01,  3.2116e-02,  ..., -1.2911e-01,
+          2.9613e-02, -1.0086e-01],
+        [-1.0650e-01, -3.2065e-01, -6.9363e-02,  ..., -7.7667e-02,
+          2.2880e-02, -3.2420e-01],
+        ...,
+        [-2.0935e-01, -3.8339e-01,  7.2080e-02,  ..., -1.2820e-01,
+         -1.0627e-01, -2.2290e-01],
+        [-1.7726e-01,  4.0230e-03,  5.0618e-02,  ..., -2.0955e-04,
+         -1.2247e-01,  9.7045e-02],
+        [-1.4235e-01, -1.2964e-01,  1.1380e-01,  ...,  2.3728e-01,
+         -8.8366e-02, -2.4961e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [ 1.4901e-08,  0.0000e+00,  4.0513e-08,  ...,  0.0000e+00,
+          9.3132e-10,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  1.3970e-09],
+        ...,
+        [-1.6764e-08,  0.0000e+00, -4.7963e-08,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [ 1.8626e-09,  1.3970e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  2.7940e-09],
+        [ 2.7940e-09,  1.8626e-09,  7.4506e-09,  ...,  0.0000e+00,
+          1.3970e-09,  3.7253e-09]], device='cuda:0')
+Epoch 499, bias, value: tensor([ 0.0344,  0.0058,  0.0209,  0.0164,  0.0419,  0.0143, -0.0020,  0.0017,
+        -0.0200, -0.0565], device='cuda:0'), grad: tensor([ 2.3283e-09,  7.7300e-08,  1.3970e-09, -6.1002e-08, -1.4435e-08,
+         1.4901e-08,  9.3132e-10, -6.1467e-08,  7.9162e-09,  3.9581e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 498, time 218.19, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4397 re_mapping 0.0026 re_causal 0.0097 /// teacc 99.09 lr 0.00001000
+Epoch 500, weight, value: tensor([[-1.8301e-01,  2.7220e-01, -2.7143e-02,  ..., -2.8249e-02,
+          6.0661e-02, -5.0606e-02],
+        [ 2.2093e-01, -1.2283e-01,  3.2164e-02,  ..., -1.2912e-01,
+          2.9629e-02, -1.0091e-01],
+        [-1.0660e-01, -3.2079e-01, -6.9533e-02,  ..., -7.7666e-02,
+          2.2951e-02, -3.2431e-01],
+        ...,
+        [-2.0952e-01, -3.8352e-01,  7.2151e-02,  ..., -1.2821e-01,
+         -1.0633e-01, -2.2305e-01],
+        [-1.7735e-01,  4.1282e-03,  5.0700e-02,  ..., -2.0624e-04,
+         -1.2248e-01,  9.7153e-02],
+        [-1.4253e-01, -1.2975e-01,  1.1377e-01,  ...,  2.3734e-01,
+         -8.8398e-02, -2.4973e-01]], device='cuda:0'), grad: tensor([[ 0.0000e+00, -3.2596e-09, -1.3970e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  4.6566e-10,  3.2131e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.0268e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [-2.0023e-08,  0.0000e+00, -1.5926e-07,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10, -9.3132e-10,  1.7229e-08,  ...,  0.0000e+00,
+          0.0000e+00, -3.2596e-09],
+        [ 1.8161e-08,  1.3970e-09,  4.9826e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 500, bias, value: tensor([ 0.0344,  0.0059,  0.0209,  0.0164,  0.0420,  0.0143, -0.0020,  0.0017,
+        -0.0200, -0.0566], device='cuda:0'), grad: tensor([-4.1910e-09,  8.8476e-08,  7.9628e-08,  1.0524e-07,  9.7789e-09,
+        -2.1886e-08,  2.3283e-09, -4.7032e-07,  4.7032e-08,  1.6857e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 499, time 218.03, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4336 re_mapping 0.0026 re_causal 0.0098 /// teacc 99.11 lr 0.00001000
+---------------------saving last model at epoch 499----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_skip2', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_skip2/14factor_best.csv', 'channels': 3, 'factor_num': 14, 'stride': 3, 'epoch': 'best', 'eval_mapping': True}
+loading weight of best
+randm: False
+stride: 3
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+Using downloaded and verified file: /home/yuqian_fu/.pytorch/SVHN/test_32x32.mat
+                         mnist   mnist_FA  ...    usps_FA        Avg
+ShearX               98.979996  98.989998  ...  77.379173  70.994158
+ShearY               98.830002  98.779999  ...  77.379173  62.507677
+AutoContrast         98.900002  99.089996  ...  77.379173  57.702839
+Invert               98.570000  97.629997  ...  77.379173  63.917725
+Equalize             98.000000  98.009995  ...  77.379173  68.822933
+Solarize             98.019997  97.680000  ...  77.379173  59.182313
+SolarizeAdd          98.229996  97.699997  ...  77.379173  69.875464
+Posterize            99.089996  98.949997  ...  77.379173  71.538998
+Contrast             99.080002  99.150002  ...  77.379173  65.908477
+Color                99.099998  99.190002  ...  77.379173  59.656948
+Brightness           99.049995  99.159996  ...  77.379173  65.517488
+Sharpness            99.049995  99.119995  ...  77.379173  70.164459
+NoiseSalt            99.110001  99.169998  ...  77.379173  53.056127
+NoiseGaussian        99.139999  99.190002  ...  77.379173  56.760730
+w/o do (original x)  99.190000   0.000000  ...   0.000000  72.089808
+
+[15 rows x 11 columns]
+    mnist       svhn   mnist_m   syndigit       usps        Avg
+do  99.24  67.013675  76.56927  73.317283  81.415047  74.578819
diff --git a/Meta-causal/code-withStyleAttack/66578.error b/Meta-causal/code-withStyleAttack/66578.error
new file mode 100644
index 0000000000000000000000000000000000000000..d89a7028ed1f80e49e3a0ae92e1d9741c4616efe
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/66578.error
@@ -0,0 +1 @@
+run_my_joint_test.sh: line 40: dm}: command not found
diff --git a/Meta-causal/code-withStyleAttack/66578.log b/Meta-causal/code-withStyleAttack/66578.log
new file mode 100644
index 0000000000000000000000000000000000000000..4879ffceefe38b403416c925372e301af50371ed
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/66578.log
@@ -0,0 +1,14138 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 500, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_skip3', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 3
+--------------------------CA_multiple--------------------------
+---------------------------14 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+Epoch 1, weight, value: tensor([[ 0.0306,  0.0119, -0.0199,  ..., -0.0066, -0.0307, -0.0255],
+        [ 0.0228, -0.0176,  0.0280,  ...,  0.0063, -0.0039, -0.0037],
+        [ 0.0095, -0.0040,  0.0156,  ..., -0.0134,  0.0029, -0.0208],
+        ...,
+        [-0.0270,  0.0054,  0.0070,  ...,  0.0302,  0.0263,  0.0274],
+        [ 0.0165, -0.0206, -0.0018,  ..., -0.0238,  0.0132,  0.0112],
+        [ 0.0169, -0.0250,  0.0047,  ...,  0.0038,  0.0017, -0.0093]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([-0.0250,  0.0152,  0.0268,  0.0052,  0.0191, -0.0148, -0.0057, -0.0230,
+        -0.0063,  0.0275], device='cuda:0'), grad: None
+100
+0.0001
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 222.95, cls_loss 1.5136 cls_loss_mapping 1.9199 cls_loss_causal 2.2362 re_mapping 0.1118 re_causal 0.1147 /// teacc 79.64 lr 0.00010000
+Epoch 2, weight, value: tensor([[ 0.0255,  0.0110, -0.0178,  ..., -0.0056, -0.0374, -0.0252],
+        [ 0.0290, -0.0185,  0.0272,  ..., -0.0018,  0.0010, -0.0045],
+        [ 0.0141, -0.0048,  0.0232,  ..., -0.0197, -0.0038, -0.0216],
+        ...,
+        [-0.0225,  0.0062,  0.0002,  ...,  0.0319,  0.0300,  0.0285],
+        [ 0.0162, -0.0202, -0.0033,  ..., -0.0285,  0.0126,  0.0113],
+        [ 0.0100, -0.0258, -0.0041,  ...,  0.0066,  0.0043, -0.0102]],
+       device='cuda:0'), grad: tensor([[ 0.0020,  0.0000,  0.0080,  ...,  0.0029,  0.0067,  0.0000],
+        [-0.0033,  0.0000,  0.0051,  ...,  0.0006, -0.0120,  0.0000],
+        [ 0.0002,  0.0000, -0.0071,  ...,  0.0036,  0.0172,  0.0000],
+        ...,
+        [-0.0038,  0.0000,  0.0002,  ..., -0.0090, -0.0126,  0.0000],
+        [ 0.0153,  0.0000,  0.0369,  ..., -0.0058,  0.0131,  0.0000],
+        [ 0.0034,  0.0000,  0.0078,  ...,  0.0266,  0.0378,  0.0000]],
+       device='cuda:0')
+Epoch 2, bias, value: tensor([-0.0268,  0.0163,  0.0261,  0.0064,  0.0193, -0.0148, -0.0061, -0.0223,
+        -0.0072,  0.0270], device='cuda:0'), grad: tensor([ 0.0203, -0.0135,  0.0148, -0.0461, -0.0032, -0.0476, -0.0285, -0.0083,
+         0.0565,  0.0555], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 222.33, cls_loss 0.5296 cls_loss_mapping 0.8464 cls_loss_causal 1.8996 re_mapping 0.2041 re_causal 0.2492 /// teacc 91.04 lr 0.00010000
+Epoch 3, weight, value: tensor([[ 0.0254,  0.0110, -0.0171,  ..., -0.0063, -0.0394, -0.0253],
+        [ 0.0312, -0.0185,  0.0269,  ..., -0.0040,  0.0038, -0.0045],
+        [ 0.0153, -0.0048,  0.0263,  ..., -0.0209, -0.0067, -0.0218],
+        ...,
+        [-0.0207,  0.0062, -0.0009,  ...,  0.0319,  0.0307,  0.0285],
+        [ 0.0155, -0.0202, -0.0047,  ..., -0.0324,  0.0146,  0.0112],
+        [ 0.0071, -0.0258, -0.0072,  ...,  0.0083,  0.0045, -0.0103]],
+       device='cuda:0'), grad: tensor([[ 0.0025,  0.0000,  0.0106,  ...,  0.0034,  0.0188,  0.0000],
+        [ 0.0077,  0.0000,  0.0218,  ...,  0.0003,  0.0019,  0.0000],
+        [ 0.0152,  0.0000,  0.0284,  ...,  0.0028,  0.0172,  0.0000],
+        ...,
+        [-0.0168,  0.0000, -0.0292,  ..., -0.0001, -0.0234,  0.0000],
+        [ 0.0041,  0.0000,  0.0077,  ...,  0.0020, -0.0224,  0.0000],
+        [ 0.0024,  0.0000,  0.0039,  ...,  0.0034,  0.0025,  0.0000]],
+       device='cuda:0')
+Epoch 3, bias, value: tensor([-0.0270,  0.0161,  0.0259,  0.0064,  0.0193, -0.0139, -0.0069, -0.0229,
+        -0.0069,  0.0275], device='cuda:0'), grad: tensor([ 0.0402,  0.0133,  0.0329, -0.0095, -0.0016, -0.0154,  0.0003, -0.0289,
+        -0.0329,  0.0016], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 222.25, cls_loss 0.3242 cls_loss_mapping 0.5086 cls_loss_causal 1.6845 re_mapping 0.1569 re_causal 0.2457 /// teacc 92.89 lr 0.00010000
+Epoch 4, weight, value: tensor([[ 0.0253,  0.0110, -0.0159,  ..., -0.0068, -0.0402, -0.0253],
+        [ 0.0322, -0.0185,  0.0264,  ..., -0.0051,  0.0056, -0.0045],
+        [ 0.0163, -0.0048,  0.0279,  ..., -0.0211, -0.0081, -0.0218],
+        ...,
+        [-0.0204,  0.0062, -0.0012,  ...,  0.0312,  0.0325,  0.0285],
+        [ 0.0145, -0.0202, -0.0055,  ..., -0.0351,  0.0159,  0.0112],
+        [ 0.0063, -0.0258, -0.0081,  ...,  0.0088,  0.0034, -0.0103]],
+       device='cuda:0'), grad: tensor([[ 1.0711e-04,  0.0000e+00,  6.9714e-04,  ...,  5.1355e-04,
+          1.5554e-03,  0.0000e+00],
+        [-1.1587e-04,  0.0000e+00,  3.5439e-03,  ...,  1.4648e-03,
+         -2.2030e-03,  0.0000e+00],
+        [ 7.0496e-03,  0.0000e+00,  2.7370e-04,  ...,  5.8317e-04,
+          3.3493e-03,  0.0000e+00],
+        ...,
+        [-1.0170e-02,  0.0000e+00, -1.3077e-02,  ...,  2.3056e-02,
+          1.2131e-02,  0.0000e+00],
+        [ 9.1124e-04,  0.0000e+00, -1.7118e-04,  ...,  2.8114e-03,
+         -1.5202e-03,  0.0000e+00],
+        [ 4.0126e-04,  0.0000e+00,  2.7256e-03,  ...,  9.9182e-05,
+         -4.7531e-03,  0.0000e+00]], device='cuda:0')
+Epoch 4, bias, value: tensor([-0.0268,  0.0163,  0.0258,  0.0062,  0.0195, -0.0136, -0.0071, -0.0232,
+        -0.0072,  0.0278], device='cuda:0'), grad: tensor([ 0.0020,  0.0033,  0.0098,  0.0020, -0.0387,  0.0023,  0.0014,  0.0159,
+         0.0039, -0.0019], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 221.79, cls_loss 0.2354 cls_loss_mapping 0.3555 cls_loss_causal 1.5608 re_mapping 0.1203 re_causal 0.2223 /// teacc 95.25 lr 0.00010000
+Epoch 5, weight, value: tensor([[ 0.0254,  0.0110, -0.0148,  ..., -0.0074, -0.0408, -0.0245],
+        [ 0.0330, -0.0185,  0.0264,  ..., -0.0075,  0.0078, -0.0047],
+        [ 0.0170, -0.0048,  0.0306,  ..., -0.0234, -0.0100, -0.0250],
+        ...,
+        [-0.0199,  0.0062, -0.0016,  ...,  0.0305,  0.0339,  0.0284],
+        [ 0.0139, -0.0202, -0.0068,  ..., -0.0367,  0.0168,  0.0077],
+        [ 0.0058, -0.0258, -0.0092,  ...,  0.0098,  0.0024, -0.0115]],
+       device='cuda:0'), grad: tensor([[ 5.9456e-05,  0.0000e+00, -2.3315e-02,  ..., -1.3077e-02,
+         -7.9269e-03,  0.0000e+00],
+        [ 1.2197e-03,  0.0000e+00,  1.0170e-02,  ...,  1.0414e-03,
+          1.2878e-02,  0.0000e+00],
+        [ 1.7872e-03,  0.0000e+00, -3.4599e-03,  ...,  2.2831e-03,
+          7.7915e-04,  0.0000e+00],
+        ...,
+        [-2.0008e-03,  0.0000e+00, -5.4588e-03,  ...,  2.0504e-03,
+          4.1056e-04,  0.0000e+00],
+        [-2.1915e-03,  0.0000e+00,  1.7385e-03,  ...,  2.7676e-03,
+         -1.7456e-02,  0.0000e+00],
+        [ 1.9097e-04,  0.0000e+00,  1.8368e-03,  ..., -7.8487e-04,
+         -1.2531e-03,  0.0000e+00]], device='cuda:0')
+Epoch 5, bias, value: tensor([-0.0269,  0.0165,  0.0259,  0.0064,  0.0196, -0.0134, -0.0075, -0.0230,
+        -0.0076,  0.0276], device='cuda:0'), grad: tensor([-0.0305,  0.0160,  0.0039,  0.0070, -0.0092,  0.0223,  0.0117,  0.0019,
+        -0.0151, -0.0080], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 221.55, cls_loss 0.1926 cls_loss_mapping 0.2815 cls_loss_causal 1.4285 re_mapping 0.0989 re_causal 0.1999 /// teacc 96.02 lr 0.00010000
+Epoch 6, weight, value: tensor([[ 0.0251,  0.0110, -0.0136,  ..., -0.0053, -0.0410, -0.0245],
+        [ 0.0338, -0.0185,  0.0270,  ..., -0.0082,  0.0096, -0.0047],
+        [ 0.0172, -0.0048,  0.0323,  ..., -0.0246, -0.0114, -0.0251],
+        ...,
+        [-0.0194,  0.0062, -0.0036,  ...,  0.0301,  0.0347,  0.0286],
+        [ 0.0134, -0.0202, -0.0081,  ..., -0.0383,  0.0183,  0.0077],
+        [ 0.0054, -0.0258, -0.0095,  ...,  0.0104,  0.0019, -0.0115]],
+       device='cuda:0'), grad: tensor([[ 4.9055e-05,  0.0000e+00, -4.7088e-04,  ..., -2.1887e-04,
+          6.0225e-04,  2.2739e-05],
+        [ 2.5921e-03,  0.0000e+00,  5.2261e-04,  ...,  2.1744e-03,
+          2.2675e-02,  2.4498e-05],
+        [ 6.2990e-04,  0.0000e+00,  2.8877e-03,  ...,  6.2418e-04,
+          2.3632e-03,  3.7575e-04],
+        ...,
+        [-6.2609e-04,  0.0000e+00, -2.5425e-03,  ...,  2.3708e-03,
+          1.3704e-03, -7.0953e-04],
+        [ 1.2970e-04,  0.0000e+00,  1.0815e-03,  ..., -1.5697e-03,
+         -1.8096e-04,  1.9833e-05],
+        [-3.4237e-03,  0.0000e+00,  1.7471e-03,  ...,  1.0422e-02,
+         -2.4887e-02,  4.0084e-05]], device='cuda:0')
+Epoch 6, bias, value: tensor([-0.0262,  0.0169,  0.0261,  0.0062,  0.0194, -0.0137, -0.0078, -0.0233,
+        -0.0075,  0.0277], device='cuda:0'), grad: tensor([ 4.8041e-04,  2.8381e-02,  7.3013e-03,  1.8280e-02, -1.6983e-02,
+        -8.8806e-03,  4.1038e-05,  1.8387e-03, -2.5726e-02, -4.7264e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 5----------------------------------------------------
+epoch 5, time 222.23, cls_loss 0.1550 cls_loss_mapping 0.2164 cls_loss_causal 1.3587 re_mapping 0.0846 re_causal 0.1903 /// teacc 96.20 lr 0.00010000
+Epoch 7, weight, value: tensor([[ 0.0250,  0.0110, -0.0123,  ..., -0.0047, -0.0422, -0.0242],
+        [ 0.0344, -0.0185,  0.0264,  ..., -0.0101,  0.0110, -0.0113],
+        [ 0.0170, -0.0048,  0.0336,  ..., -0.0268, -0.0134, -0.0251],
+        ...,
+        [-0.0186,  0.0062, -0.0047,  ...,  0.0294,  0.0357,  0.0319],
+        [ 0.0130, -0.0202, -0.0091,  ..., -0.0399,  0.0198, -0.0011],
+        [ 0.0045, -0.0258, -0.0112,  ...,  0.0105,  0.0008, -0.0198]],
+       device='cuda:0'), grad: tensor([[ 1.5065e-05,  0.0000e+00, -7.1287e-04,  ...,  3.2568e-04,
+          1.4467e-03,  0.0000e+00],
+        [-2.2936e-04,  0.0000e+00,  3.9177e-03,  ...,  2.4438e-04,
+         -3.1834e-03,  0.0000e+00],
+        [ 1.3065e-04,  0.0000e+00, -1.2177e-02,  ...,  7.2575e-04,
+         -2.7122e-03,  0.0000e+00],
+        ...,
+        [-6.5899e-04,  0.0000e+00,  1.2302e-03,  ..., -5.5733e-03,
+         -9.9945e-03,  0.0000e+00],
+        [ 1.1790e-04,  0.0000e+00,  8.4686e-03,  ...,  5.0879e-04,
+          5.6229e-03,  0.0000e+00],
+        [ 1.7607e-04,  0.0000e+00,  1.1120e-03,  ...,  4.1618e-03,
+          7.9727e-03,  0.0000e+00]], device='cuda:0')
+Epoch 7, bias, value: tensor([-0.0263,  0.0166,  0.0260,  0.0067,  0.0198, -0.0141, -0.0074, -0.0233,
+        -0.0074,  0.0273], device='cuda:0'), grad: tensor([ 0.0068,  0.0013, -0.0106, -0.0036,  0.0007,  0.0023,  0.0043, -0.0368,
+         0.0143,  0.0214], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 6----------------------------------------------------
+epoch 6, time 221.87, cls_loss 0.1372 cls_loss_mapping 0.1826 cls_loss_causal 1.2902 re_mapping 0.0731 re_causal 0.1732 /// teacc 96.29 lr 0.00010000
+Epoch 8, weight, value: tensor([[ 2.4763e-02,  1.1010e-02, -1.1585e-02,  ..., -2.5666e-03,
+         -4.3285e-02, -2.4056e-02],
+        [ 3.4629e-02, -1.8465e-02,  2.6861e-02,  ..., -1.0430e-02,
+          1.2428e-02, -1.1703e-02],
+        [ 1.7075e-02, -4.7722e-03,  3.5062e-02,  ..., -2.8804e-02,
+         -1.3956e-02, -2.4409e-02],
+        ...,
+        [-1.7931e-02,  6.2070e-03, -6.3623e-03,  ...,  2.8563e-02,
+          3.6762e-02,  3.1173e-02],
+        [ 1.2703e-02, -2.0200e-02, -1.0620e-02,  ..., -4.1443e-02,
+          2.1108e-02, -1.3707e-03],
+        [ 4.2891e-03, -2.5830e-02, -1.1541e-02,  ...,  1.0862e-02,
+         -6.0624e-05, -2.0121e-02]], device='cuda:0'), grad: tensor([[ 2.3976e-05,  0.0000e+00, -1.1024e-02,  ..., -1.3229e-02,
+         -1.2426e-03,  0.0000e+00],
+        [-1.2338e-04,  0.0000e+00, -1.7715e-04,  ...,  4.7231e-04,
+         -3.0780e-04,  0.0000e+00],
+        [ 3.0446e-04,  0.0000e+00,  2.7599e-03,  ...,  1.3771e-03,
+          2.4929e-03,  0.0000e+00],
+        ...,
+        [-6.4230e-04,  0.0000e+00, -5.1308e-04,  ..., -3.0613e-04,
+         -1.0895e-02,  0.0000e+00],
+        [ 1.9979e-04,  0.0000e+00,  2.1667e-03,  ...,  3.9520e-03,
+          4.8218e-03,  0.0000e+00],
+        [ 9.6560e-05,  0.0000e+00,  1.4257e-03,  ...,  1.9627e-03,
+          4.7150e-03,  0.0000e+00]], device='cuda:0')
+Epoch 8, bias, value: tensor([-0.0260,  0.0170,  0.0261,  0.0064,  0.0196, -0.0142, -0.0080, -0.0235,
+        -0.0070,  0.0274], device='cuda:0'), grad: tensor([-0.0213,  0.0002,  0.0046,  0.0028, -0.0114,  0.0004,  0.0172, -0.0077,
+         0.0104,  0.0048], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 7----------------------------------------------------
+epoch 7, time 222.21, cls_loss 0.1293 cls_loss_mapping 0.1719 cls_loss_causal 1.2249 re_mapping 0.0630 re_causal 0.1524 /// teacc 96.57 lr 0.00010000
+Epoch 9, weight, value: tensor([[ 0.0245,  0.0110, -0.0113,  ..., -0.0002, -0.0441, -0.0241],
+        [ 0.0348, -0.0185,  0.0273,  ..., -0.0117,  0.0136, -0.0117],
+        [ 0.0172, -0.0048,  0.0360,  ..., -0.0305, -0.0154, -0.0244],
+        ...,
+        [-0.0173,  0.0062, -0.0080,  ...,  0.0279,  0.0382,  0.0312],
+        [ 0.0124, -0.0202, -0.0112,  ..., -0.0427,  0.0218, -0.0014],
+        [ 0.0037, -0.0258, -0.0121,  ...,  0.0111, -0.0005, -0.0201]],
+       device='cuda:0'), grad: tensor([[-1.1129e-03,  0.0000e+00, -3.6545e-03,  ..., -4.7636e-04,
+          3.8195e-04,  0.0000e+00],
+        [-2.7609e-04,  0.0000e+00,  5.0735e-04,  ...,  7.4244e-04,
+          2.8019e-03,  0.0000e+00],
+        [ 2.7227e-04,  0.0000e+00, -4.5419e-04,  ...,  7.0095e-04,
+          1.6756e-03,  0.0000e+00],
+        ...,
+        [ 7.3969e-05,  0.0000e+00,  2.8419e-04,  ...,  2.8267e-03,
+          4.5776e-03,  0.0000e+00],
+        [ 2.2030e-04,  0.0000e+00,  6.7329e-04,  ...,  6.2370e-04,
+         -9.3918e-03,  0.0000e+00],
+        [ 1.4746e-04,  0.0000e+00,  5.5790e-04,  ...,  7.4387e-04,
+          1.4639e-03,  0.0000e+00]], device='cuda:0')
+Epoch 9, bias, value: tensor([-0.0259,  0.0171,  0.0257,  0.0069,  0.0197, -0.0146, -0.0079, -0.0233,
+        -0.0070,  0.0271], device='cuda:0'), grad: tensor([ 0.0039,  0.0061,  0.0061,  0.0082, -0.0114, -0.0274,  0.0024,  0.0127,
+        -0.0063,  0.0057], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 8----------------------------------------------------
+epoch 8, time 222.27, cls_loss 0.1055 cls_loss_mapping 0.1456 cls_loss_causal 1.1560 re_mapping 0.0592 re_causal 0.1434 /// teacc 96.59 lr 0.00010000
+Epoch 10, weight, value: tensor([[ 0.0244,  0.0110, -0.0105,  ...,  0.0010, -0.0444, -0.0241],
+        [ 0.0351, -0.0185,  0.0269,  ..., -0.0129,  0.0145, -0.0121],
+        [ 0.0171, -0.0048,  0.0376,  ..., -0.0321, -0.0158, -0.0245],
+        ...,
+        [-0.0166,  0.0062, -0.0093,  ...,  0.0275,  0.0392,  0.0317],
+        [ 0.0123, -0.0202, -0.0119,  ..., -0.0433,  0.0231, -0.0016],
+        [ 0.0036, -0.0258, -0.0131,  ...,  0.0112, -0.0011, -0.0203]],
+       device='cuda:0'), grad: tensor([[ 3.0845e-06,  0.0000e+00,  1.0729e-03,  ...,  1.5535e-03,
+          4.0960e-04,  0.0000e+00],
+        [-1.9813e-04,  0.0000e+00, -6.0225e-04,  ...,  3.9721e-04,
+         -1.7099e-03,  0.0000e+00],
+        [ 6.4492e-05,  0.0000e+00,  3.7403e-03,  ...,  5.8603e-04,
+          1.1406e-03,  0.0000e+00],
+        ...,
+        [ 1.8373e-05,  0.0000e+00,  5.0735e-04,  ...,  5.8365e-04,
+          4.0293e-04,  0.0000e+00],
+        [ 1.7017e-05,  0.0000e+00,  4.4594e-03,  ...,  2.6531e-03,
+         -2.5539e-03,  0.0000e+00],
+        [ 4.3176e-06,  0.0000e+00,  6.5613e-04,  ..., -2.5597e-03,
+         -2.4772e-04,  0.0000e+00]], device='cuda:0')
+Epoch 10, bias, value: tensor([-0.0257,  0.0168,  0.0260,  0.0065,  0.0197, -0.0145, -0.0081, -0.0230,
+        -0.0066,  0.0270], device='cuda:0'), grad: tensor([ 0.0059, -0.0008,  0.0026, -0.0083, -0.0188,  0.0061,  0.0035,  0.0018,
+         0.0102, -0.0022], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 9----------------------------------------------------
+epoch 9, time 222.26, cls_loss 0.0976 cls_loss_mapping 0.1364 cls_loss_causal 1.1439 re_mapping 0.0544 re_causal 0.1374 /// teacc 97.35 lr 0.00010000
+Epoch 11, weight, value: tensor([[ 0.0241,  0.0110, -0.0104,  ...,  0.0024, -0.0447, -0.0241],
+        [ 0.0356, -0.0185,  0.0268,  ..., -0.0130,  0.0157, -0.0122],
+        [ 0.0171, -0.0048,  0.0385,  ..., -0.0331, -0.0179, -0.0245],
+        ...,
+        [-0.0158,  0.0062, -0.0105,  ...,  0.0273,  0.0400,  0.0318],
+        [ 0.0119, -0.0202, -0.0126,  ..., -0.0441,  0.0248, -0.0016],
+        [ 0.0026, -0.0258, -0.0126,  ...,  0.0113, -0.0019, -0.0203]],
+       device='cuda:0'), grad: tensor([[ 2.0131e-05,  0.0000e+00,  1.0908e-04,  ...,  2.2423e-04,
+          6.2466e-04,  0.0000e+00],
+        [-7.9632e-04,  0.0000e+00, -1.6057e-04,  ...,  1.1575e-04,
+         -1.9064e-03,  0.0000e+00],
+        [ 1.2898e-04,  0.0000e+00,  6.0129e-04,  ...,  1.1641e-04,
+          2.2697e-03,  0.0000e+00],
+        ...,
+        [ 2.0266e-04,  0.0000e+00,  2.0504e-04,  ...,  6.8235e-04,
+          4.5929e-03,  0.0000e+00],
+        [ 7.1168e-05,  0.0000e+00, -5.8031e-04,  ...,  6.1989e-04,
+         -6.8092e-03,  0.0000e+00],
+        [ 8.6129e-05,  0.0000e+00,  1.1742e-04,  ..., -1.5211e-04,
+          2.2392e-03,  0.0000e+00]], device='cuda:0')
+Epoch 11, bias, value: tensor([-0.0256,  0.0168,  0.0257,  0.0066,  0.0196, -0.0147, -0.0080, -0.0229,
+        -0.0066,  0.0270], device='cuda:0'), grad: tensor([ 0.0010, -0.0024,  0.0027,  0.0019, -0.0010,  0.0056, -0.0089,  0.0053,
+        -0.0057,  0.0014], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 10, time 221.46, cls_loss 0.0974 cls_loss_mapping 0.1288 cls_loss_causal 1.1304 re_mapping 0.0499 re_causal 0.1283 /// teacc 97.32 lr 0.00010000
+Epoch 12, weight, value: tensor([[ 0.0240,  0.0110, -0.0102,  ...,  0.0040, -0.0454, -0.0238],
+        [ 0.0359, -0.0185,  0.0273,  ..., -0.0148,  0.0164, -0.0200],
+        [ 0.0171, -0.0048,  0.0395,  ..., -0.0347, -0.0184, -0.0234],
+        ...,
+        [-0.0156,  0.0062, -0.0112,  ...,  0.0266,  0.0405,  0.0338],
+        [ 0.0115, -0.0202, -0.0139,  ..., -0.0452,  0.0256, -0.0086],
+        [ 0.0027, -0.0258, -0.0134,  ...,  0.0114, -0.0020, -0.0208]],
+       device='cuda:0'), grad: tensor([[ 9.6709e-06,  0.0000e+00, -1.3704e-03,  ..., -2.4395e-03,
+          4.4560e-04,  0.0000e+00],
+        [-8.2076e-05,  0.0000e+00,  2.0046e-03,  ...,  1.7500e-04,
+          3.5000e-04,  0.0000e+00],
+        [-2.4170e-05,  0.0000e+00, -2.8473e-02,  ...,  3.2663e-04,
+         -6.1417e-03,  0.0000e+00],
+        ...,
+        [-1.9264e-04,  0.0000e+00,  3.5782e-03,  ...,  4.7803e-04,
+         -3.4504e-03,  0.0000e+00],
+        [ 4.0412e-05,  0.0000e+00,  2.0889e-02,  ...,  7.5436e-04,
+          4.2000e-03,  0.0000e+00],
+        [ 1.4234e-04,  0.0000e+00,  1.4620e-03,  ...,  3.1662e-03,
+          4.6921e-03,  0.0000e+00]], device='cuda:0')
+Epoch 12, bias, value: tensor([-0.0257,  0.0169,  0.0256,  0.0066,  0.0197, -0.0147, -0.0082, -0.0229,
+        -0.0064,  0.0271], device='cuda:0'), grad: tensor([-0.0019,  0.0023, -0.0282, -0.0023, -0.0038,  0.0036, -0.0011, -0.0032,
+         0.0249,  0.0098], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 11----------------------------------------------------
+epoch 11, time 222.11, cls_loss 0.0857 cls_loss_mapping 0.1162 cls_loss_causal 1.0856 re_mapping 0.0471 re_causal 0.1214 /// teacc 97.79 lr 0.00010000
+Epoch 13, weight, value: tensor([[ 0.0238,  0.0110, -0.0101,  ...,  0.0054, -0.0463, -0.0243],
+        [ 0.0362, -0.0185,  0.0272,  ..., -0.0157,  0.0181, -0.0234],
+        [ 0.0172, -0.0048,  0.0404,  ..., -0.0363, -0.0192, -0.0248],
+        ...,
+        [-0.0153,  0.0062, -0.0122,  ...,  0.0262,  0.0411,  0.0362],
+        [ 0.0113, -0.0202, -0.0145,  ..., -0.0466,  0.0258, -0.0085],
+        [ 0.0023, -0.0258, -0.0134,  ...,  0.0122, -0.0025, -0.0229]],
+       device='cuda:0'), grad: tensor([[ 2.0601e-06,  0.0000e+00,  7.5054e-04,  ..., -2.6360e-05,
+          1.6079e-03,  2.4252e-06],
+        [ 5.2117e-06,  0.0000e+00,  6.0892e-04,  ...,  4.4465e-04,
+          4.1771e-04,  1.6931e-06],
+        [ 2.2709e-05,  0.0000e+00,  2.4509e-04,  ...,  3.3927e-04,
+          3.8910e-03,  1.7127e-06],
+        ...,
+        [-2.0742e-04,  0.0000e+00, -2.9778e-04,  ..., -2.0981e-03,
+         -9.1095e-03,  5.5507e-06],
+        [ 7.9051e-06,  0.0000e+00,  2.1267e-03,  ...,  2.5392e-04,
+          1.0738e-03,  1.1891e-05],
+        [ 9.8705e-05,  0.0000e+00,  7.3099e-04,  ...,  2.1011e-02,
+          9.2010e-03,  2.1115e-05]], device='cuda:0')
+Epoch 13, bias, value: tensor([-0.0257,  0.0171,  0.0254,  0.0065,  0.0192, -0.0143, -0.0082, -0.0227,
+        -0.0067,  0.0273], device='cuda:0'), grad: tensor([ 0.0044,  0.0017,  0.0060, -0.0047, -0.0210, -0.0034, -0.0018, -0.0162,
+         0.0127,  0.0222], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 12----------------------------------------------------
+epoch 12, time 221.91, cls_loss 0.0773 cls_loss_mapping 0.1075 cls_loss_causal 1.0635 re_mapping 0.0439 re_causal 0.1146 /// teacc 97.90 lr 0.00010000
+Epoch 14, weight, value: tensor([[ 0.0237,  0.0110, -0.0103,  ...,  0.0065, -0.0470, -0.0250],
+        [ 0.0361, -0.0185,  0.0270,  ..., -0.0173,  0.0186, -0.0253],
+        [ 0.0171, -0.0048,  0.0415,  ..., -0.0381, -0.0191, -0.0268],
+        ...,
+        [-0.0147,  0.0062, -0.0130,  ...,  0.0261,  0.0419,  0.0415],
+        [ 0.0111, -0.0202, -0.0147,  ..., -0.0477,  0.0271, -0.0118],
+        [ 0.0020, -0.0258, -0.0135,  ...,  0.0122, -0.0034, -0.0228]],
+       device='cuda:0'), grad: tensor([[ 6.9477e-07,  0.0000e+00,  2.3448e-04,  ...,  1.9073e-04,
+          6.6698e-05,  2.0340e-06],
+        [-1.4648e-05,  0.0000e+00,  5.2977e-04,  ...,  6.8545e-05,
+         -5.2500e-04,  8.3596e-06],
+        [ 8.5309e-06,  0.0000e+00, -3.3760e-03,  ...,  5.7507e-04,
+          2.8968e-04,  3.4459e-06],
+        ...,
+        [-3.3557e-05,  0.0000e+00,  8.9824e-05,  ...,  3.9864e-04,
+          3.1781e-04,  4.0770e-05],
+        [ 6.5640e-06,  0.0000e+00,  1.3561e-03,  ...,  2.2101e-04,
+         -1.3971e-04,  6.1631e-05],
+        [ 1.9208e-05,  0.0000e+00,  4.9621e-05,  ..., -4.6682e-04,
+         -6.2990e-04, -2.9492e-04]], device='cuda:0')
+Epoch 14, bias, value: tensor([-0.0257,  0.0168,  0.0257,  0.0064,  0.0193, -0.0143, -0.0084, -0.0227,
+        -0.0065,  0.0271], device='cuda:0'), grad: tensor([ 4.9162e-04,  1.6463e-04, -1.9293e-03,  1.1358e-03,  4.6730e-05,
+        -2.3079e-04, -2.1017e-04,  1.0834e-03,  1.3399e-03, -1.8911e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 13----------------------------------------------------
+epoch 13, time 222.09, cls_loss 0.0742 cls_loss_mapping 0.1059 cls_loss_causal 1.0272 re_mapping 0.0404 re_causal 0.1090 /// teacc 97.94 lr 0.00010000
+Epoch 15, weight, value: tensor([[ 0.0235,  0.0110, -0.0102,  ...,  0.0080, -0.0481, -0.0256],
+        [ 0.0361, -0.0185,  0.0273,  ..., -0.0184,  0.0193, -0.0312],
+        [ 0.0171, -0.0048,  0.0421,  ..., -0.0395, -0.0205, -0.0320],
+        ...,
+        [-0.0138,  0.0062, -0.0133,  ...,  0.0255,  0.0427,  0.0383],
+        [ 0.0110, -0.0202, -0.0150,  ..., -0.0489,  0.0281, -0.0198],
+        [ 0.0018, -0.0258, -0.0135,  ...,  0.0124, -0.0043, -0.0196]],
+       device='cuda:0'), grad: tensor([[ 4.2804e-06,  0.0000e+00,  1.1587e-04,  ..., -2.3139e-04,
+          1.3745e-04,  7.7665e-05],
+        [ 1.0133e-05,  0.0000e+00,  4.3464e-04,  ...,  4.4465e-05,
+          1.2600e-04,  1.0955e-04],
+        [-1.8179e-06,  0.0000e+00, -1.6356e-03,  ...,  6.0588e-05,
+         -2.0051e-04,  8.8394e-05],
+        ...,
+        [-6.9976e-05,  0.0000e+00,  6.6137e-04,  ...,  1.4877e-04,
+         -1.1677e-04,  4.7302e-04],
+        [ 4.4554e-06,  0.0000e+00,  2.1088e-04,  ...,  4.2272e-04,
+         -3.1166e-03,  9.0981e-04],
+        [ 3.7521e-05,  0.0000e+00,  3.4356e-04,  ..., -5.9013e-03,
+         -1.7376e-03, -1.3306e-02]], device='cuda:0')
+Epoch 15, bias, value: tensor([-0.0254,  0.0167,  0.0257,  0.0065,  0.0198, -0.0144, -0.0084, -0.0227,
+        -0.0065,  0.0268], device='cuda:0'), grad: tensor([ 0.0003,  0.0008, -0.0015, -0.0038,  0.0225,  0.0055,  0.0011,  0.0017,
+        -0.0014, -0.0252], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 14, time 221.38, cls_loss 0.0742 cls_loss_mapping 0.0990 cls_loss_causal 1.0131 re_mapping 0.0400 re_causal 0.1012 /// teacc 97.76 lr 0.00010000
+Epoch 16, weight, value: tensor([[ 0.0232,  0.0110, -0.0100,  ...,  0.0095, -0.0488, -0.0322],
+        [ 0.0360, -0.0185,  0.0273,  ..., -0.0196,  0.0195, -0.0371],
+        [ 0.0171, -0.0048,  0.0432,  ..., -0.0404, -0.0202, -0.0353],
+        ...,
+        [-0.0132,  0.0062, -0.0140,  ...,  0.0251,  0.0434,  0.0390],
+        [ 0.0108, -0.0202, -0.0161,  ..., -0.0500,  0.0292, -0.0237],
+        [ 0.0010, -0.0258, -0.0141,  ...,  0.0124, -0.0047, -0.0162]],
+       device='cuda:0'), grad: tensor([[ 5.6177e-06,  0.0000e+00,  5.3406e-04,  ..., -2.0782e-02,
+          5.9795e-04, -1.5244e-02],
+        [-4.0531e-05,  0.0000e+00,  2.4462e-04,  ...,  2.9540e-04,
+         -2.0313e-03,  2.3651e-04],
+        [ 5.7220e-05,  0.0000e+00, -2.7027e-03,  ...,  3.1815e-03,
+          9.6130e-04,  2.6131e-03],
+        ...,
+        [-1.1539e-04,  0.0000e+00,  2.4354e-04,  ...,  1.0729e-03,
+         -4.9706e-03, -1.3046e-03],
+        [ 8.8289e-06,  0.0000e+00,  3.4308e-04,  ...,  9.5129e-04,
+         -6.8932e-03, -1.6699e-03],
+        [ 4.7445e-05,  0.0000e+00,  9.1553e-05,  ..., -1.6232e-03,
+          8.2092e-03,  3.9558e-03]], device='cuda:0')
+Epoch 16, bias, value: tensor([-0.0252,  0.0163,  0.0264,  0.0070,  0.0194, -0.0146, -0.0088, -0.0227,
+        -0.0066,  0.0268], device='cuda:0'), grad: tensor([-0.0187, -0.0009,  0.0073,  0.0080,  0.0216,  0.0140,  0.0074, -0.0036,
+        -0.0199, -0.0153], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 15, time 221.71, cls_loss 0.0574 cls_loss_mapping 0.0772 cls_loss_causal 0.9760 re_mapping 0.0379 re_causal 0.1006 /// teacc 97.75 lr 0.00010000
+Epoch 17, weight, value: tensor([[ 0.0231,  0.0110, -0.0097,  ...,  0.0103, -0.0495, -0.0312],
+        [ 0.0361, -0.0185,  0.0270,  ..., -0.0204,  0.0204, -0.0423],
+        [ 0.0168, -0.0048,  0.0440,  ..., -0.0414, -0.0209, -0.0379],
+        ...,
+        [-0.0131,  0.0062, -0.0147,  ...,  0.0247,  0.0437,  0.0395],
+        [ 0.0107, -0.0202, -0.0165,  ..., -0.0512,  0.0300, -0.0284],
+        [ 0.0007, -0.0258, -0.0145,  ...,  0.0125, -0.0053, -0.0138]],
+       device='cuda:0'), grad: tensor([[ 3.1181e-06,  0.0000e+00, -2.3627e-04,  ...,  5.5027e-04,
+          1.3068e-05,  2.2125e-04],
+        [ 3.1926e-06,  0.0000e+00,  8.9407e-06,  ...,  4.4036e-04,
+         -1.2159e-03,  2.5773e-04],
+        [ 3.4180e-06,  0.0000e+00,  5.2333e-05,  ...,  2.9278e-04,
+          2.1505e-04,  7.0989e-05],
+        ...,
+        [-4.7922e-05,  0.0000e+00,  1.9014e-05,  ...,  4.6825e-04,
+         -2.2426e-05,  1.9157e-04],
+        [ 1.6904e-06,  0.0000e+00,  3.8832e-05,  ...,  5.2691e-04,
+          6.7663e-04,  5.0926e-04],
+        [ 2.8789e-05,  0.0000e+00,  5.2661e-05,  ..., -5.4207e-03,
+         -6.8712e-04, -5.4932e-03]], device='cuda:0')
+Epoch 17, bias, value: tensor([-0.0252,  0.0162,  0.0262,  0.0072,  0.0195, -0.0148, -0.0088, -0.0228,
+        -0.0064,  0.0267], device='cuda:0'), grad: tensor([ 6.1274e-04, -6.7091e-04,  6.5947e-04, -3.2020e-04,  3.9177e-03,
+         8.9347e-05,  1.9300e-04,  9.7275e-04,  1.3304e-03, -6.7863e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 16----------------------------------------------------
+epoch 16, time 221.87, cls_loss 0.0471 cls_loss_mapping 0.0680 cls_loss_causal 0.9607 re_mapping 0.0347 re_causal 0.0947 /// teacc 98.24 lr 0.00010000
+Epoch 18, weight, value: tensor([[ 0.0230,  0.0110, -0.0095,  ...,  0.0110, -0.0499, -0.0330],
+        [ 0.0359, -0.0185,  0.0274,  ..., -0.0211,  0.0212, -0.0450],
+        [ 0.0165, -0.0048,  0.0447,  ..., -0.0434, -0.0216, -0.0410],
+        ...,
+        [-0.0119,  0.0062, -0.0157,  ...,  0.0243,  0.0446,  0.0415],
+        [ 0.0107, -0.0202, -0.0172,  ..., -0.0527,  0.0304, -0.0306],
+        [-0.0001, -0.0258, -0.0145,  ...,  0.0128, -0.0056, -0.0121]],
+       device='cuda:0'), grad: tensor([[ 1.6868e-04,  0.0000e+00,  2.4629e-04,  ..., -1.0614e-03,
+          4.0084e-05,  8.4400e-05],
+        [-4.4078e-05,  0.0000e+00,  7.6199e-04,  ...,  1.2207e-04,
+          2.0957e-04,  3.8600e-04],
+        [-3.0112e-04,  0.0000e+00, -6.5498e-03,  ...,  2.0444e-04,
+          1.3504e-03,  4.7779e-04],
+        ...,
+        [-2.0337e-04,  0.0000e+00,  7.8392e-04,  ...,  7.5221e-05,
+         -3.7022e-03, -6.8188e-04],
+        [ 3.2157e-05,  0.0000e+00,  1.7226e-04,  ...,  1.9264e-04,
+          4.3583e-04,  5.5218e-04],
+        [ 1.0282e-04,  0.0000e+00,  6.1989e-04,  ...,  1.6129e-04,
+          5.1975e-04, -2.6798e-03]], device='cuda:0')
+Epoch 18, bias, value: tensor([-0.0253,  0.0166,  0.0258,  0.0069,  0.0193, -0.0148, -0.0086, -0.0225,
+        -0.0064,  0.0270], device='cuda:0'), grad: tensor([-0.0010,  0.0017, -0.0022,  0.0039,  0.0018,  0.0018, -0.0005, -0.0052,
+         0.0017, -0.0021], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 17, time 221.56, cls_loss 0.0568 cls_loss_mapping 0.0846 cls_loss_causal 1.0054 re_mapping 0.0330 re_causal 0.0943 /// teacc 97.96 lr 0.00010000
+Epoch 19, weight, value: tensor([[ 0.0229,  0.0110, -0.0093,  ...,  0.0130, -0.0508, -0.0313],
+        [ 0.0360, -0.0185,  0.0275,  ..., -0.0221,  0.0218, -0.0490],
+        [ 0.0165, -0.0048,  0.0456,  ..., -0.0450, -0.0218, -0.0429],
+        ...,
+        [-0.0112,  0.0062, -0.0168,  ...,  0.0237,  0.0452,  0.0421],
+        [ 0.0106, -0.0202, -0.0179,  ..., -0.0539,  0.0313, -0.0334],
+        [-0.0008, -0.0258, -0.0146,  ...,  0.0128, -0.0062, -0.0100]],
+       device='cuda:0'), grad: tensor([[ 4.2953e-06,  0.0000e+00,  3.1686e-04,  ...,  9.5940e-04,
+          1.4668e-03,  1.9401e-05],
+        [ 2.8938e-05,  0.0000e+00,  3.4094e-04,  ..., -1.1978e-03,
+         -3.5572e-03, -1.5392e-03],
+        [ 5.1707e-05,  0.0000e+00,  5.0621e-03,  ...,  1.4234e-04,
+          1.3412e-02,  1.9085e-04],
+        ...,
+        [-1.5604e-04,  0.0000e+00, -5.2452e-03,  ...,  1.6153e-04,
+         -1.2444e-02,  3.6740e-04],
+        [ 1.0140e-05,  0.0000e+00, -1.0138e-03,  ...,  1.3018e-04,
+         -4.7951e-03,  1.7655e-04],
+        [ 2.8893e-05,  0.0000e+00,  3.4866e-03,  ..., -3.5191e-04,
+         -2.6083e-04, -1.1806e-03]], device='cuda:0')
+Epoch 19, bias, value: tensor([-0.0250,  0.0164,  0.0260,  0.0069,  0.0192, -0.0148, -0.0091, -0.0226,
+        -0.0062,  0.0268], device='cuda:0'), grad: tensor([ 0.0026, -0.0072,  0.0211, -0.0104,  0.0087,  0.0084, -0.0045, -0.0173,
+        -0.0077,  0.0062], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 18, time 221.38, cls_loss 0.0484 cls_loss_mapping 0.0693 cls_loss_causal 0.9107 re_mapping 0.0330 re_causal 0.0878 /// teacc 98.00 lr 0.00010000
+Epoch 20, weight, value: tensor([[ 0.0228,  0.0110, -0.0096,  ...,  0.0145, -0.0517, -0.0315],
+        [ 0.0361, -0.0185,  0.0273,  ..., -0.0227,  0.0224, -0.0495],
+        [ 0.0161, -0.0048,  0.0467,  ..., -0.0463, -0.0223, -0.0464],
+        ...,
+        [-0.0111,  0.0062, -0.0178,  ...,  0.0233,  0.0457,  0.0422],
+        [ 0.0105, -0.0202, -0.0181,  ..., -0.0547,  0.0321, -0.0356],
+        [-0.0005, -0.0258, -0.0155,  ...,  0.0123, -0.0065, -0.0089]],
+       device='cuda:0'), grad: tensor([[ 2.8927e-06,  0.0000e+00, -1.0502e-04,  ..., -7.7248e-05,
+          2.4629e-04,  4.0084e-05],
+        [ 3.9876e-05,  0.0000e+00,  1.6117e-04,  ...,  3.6120e-04,
+          1.8001e-04,  1.9658e-04],
+        [ 4.8608e-05,  0.0000e+00, -2.5415e-04,  ...,  4.4632e-04,
+          6.9904e-04,  6.0678e-05],
+        ...,
+        [-1.8144e-04,  0.0000e+00,  2.1923e-04,  ...,  1.4055e-04,
+         -8.0168e-06,  1.9515e-04],
+        [ 2.4185e-05,  0.0000e+00,  3.2449e-04,  ...,  4.4751e-04,
+          3.0017e-04,  5.5361e-04],
+        [ 6.8843e-05,  0.0000e+00,  1.2422e-04,  ..., -5.8234e-05,
+         -2.1303e-04, -4.3068e-03]], device='cuda:0')
+Epoch 20, bias, value: tensor([-0.0251,  0.0167,  0.0260,  0.0072,  0.0193, -0.0149, -0.0091, -0.0228,
+        -0.0058,  0.0265], device='cuda:0'), grad: tensor([ 6.4731e-05,  7.6962e-04,  1.0223e-03,  2.3403e-03, -2.5208e-02,
+         6.5384e-03,  2.0432e-02,  9.0981e-04,  2.2640e-03, -9.1476e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 19, time 221.01, cls_loss 0.0495 cls_loss_mapping 0.0659 cls_loss_causal 0.9269 re_mapping 0.0308 re_causal 0.0829 /// teacc 98.00 lr 0.00010000
+Epoch 21, weight, value: tensor([[ 0.0228,  0.0110, -0.0091,  ...,  0.0152, -0.0523, -0.0324],
+        [ 0.0363, -0.0185,  0.0274,  ..., -0.0240,  0.0230, -0.0505],
+        [ 0.0159, -0.0048,  0.0472,  ..., -0.0474, -0.0232, -0.0479],
+        ...,
+        [-0.0107,  0.0062, -0.0186,  ...,  0.0231,  0.0462,  0.0422],
+        [ 0.0103, -0.0202, -0.0185,  ..., -0.0556,  0.0329, -0.0389],
+        [-0.0005, -0.0258, -0.0160,  ...,  0.0119, -0.0067, -0.0084]],
+       device='cuda:0'), grad: tensor([[ 2.3171e-06,  0.0000e+00,  7.7546e-05,  ..., -5.3501e-04,
+          3.7384e-04,  5.8323e-05],
+        [ 1.5929e-05,  0.0000e+00, -7.7629e-03,  ...,  1.2934e-04,
+         -2.1000e-03,  3.6001e-04],
+        [ 2.1115e-05,  0.0000e+00,  2.4853e-03,  ...,  1.3435e-04,
+          1.2741e-03,  2.4700e-04],
+        ...,
+        [-8.7857e-05,  0.0000e+00,  9.2030e-04,  ...,  1.5855e-04,
+         -2.6398e-03, -2.1324e-03],
+        [ 5.3234e-06,  0.0000e+00,  3.6216e-04,  ...,  2.8062e-04,
+         -7.2327e-03,  3.6263e-04],
+        [ 2.5332e-05,  0.0000e+00,  2.2471e-04,  ...,  4.7183e-04,
+          3.6025e-04,  3.2735e-04]], device='cuda:0')
+Epoch 21, bias, value: tensor([-0.0250,  0.0166,  0.0256,  0.0071,  0.0193, -0.0149, -0.0092, -0.0227,
+        -0.0054,  0.0264], device='cuda:0'), grad: tensor([ 0.0005, -0.0108,  0.0044,  0.0008,  0.0005,  0.0078,  0.0073, -0.0023,
+        -0.0096,  0.0014], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 20, time 221.42, cls_loss 0.0518 cls_loss_mapping 0.0732 cls_loss_causal 0.8744 re_mapping 0.0297 re_causal 0.0799 /// teacc 97.99 lr 0.00010000
+Epoch 22, weight, value: tensor([[ 0.0227,  0.0110, -0.0089,  ...,  0.0163, -0.0526, -0.0336],
+        [ 0.0364, -0.0185,  0.0267,  ..., -0.0251,  0.0240, -0.0520],
+        [ 0.0158, -0.0048,  0.0482,  ..., -0.0486, -0.0231, -0.0501],
+        ...,
+        [-0.0101,  0.0062, -0.0189,  ...,  0.0225,  0.0467,  0.0426],
+        [ 0.0101, -0.0202, -0.0189,  ..., -0.0570,  0.0327, -0.0418],
+        [-0.0011, -0.0258, -0.0167,  ...,  0.0122, -0.0071, -0.0065]],
+       device='cuda:0'), grad: tensor([[ 5.7276e-07,  0.0000e+00, -4.2939e-04,  ..., -1.1700e-04,
+         -4.4703e-05,  7.2904e-06],
+        [-1.1459e-05,  0.0000e+00,  1.0276e-04,  ...,  1.9416e-05,
+          1.1837e-04,  4.7162e-06],
+        [ 6.8396e-06,  0.0000e+00,  5.9557e-04,  ...,  4.9412e-05,
+          1.7014e-03,  1.2532e-05],
+        ...,
+        [-2.1860e-05,  0.0000e+00,  1.1784e-04,  ...,  9.5740e-06,
+          6.8307e-05, -6.8903e-05],
+        [ 3.5837e-06,  0.0000e+00,  2.6112e-03,  ...,  9.2745e-05,
+          1.2573e-02,  8.2999e-06],
+        [ 8.7097e-06,  0.0000e+00,  1.2958e-04,  ...,  1.4627e-04,
+          2.4867e-04,  2.2486e-05]], device='cuda:0')
+Epoch 22, bias, value: tensor([-0.0249,  0.0165,  0.0258,  0.0070,  0.0192, -0.0152, -0.0091, -0.0224,
+        -0.0057,  0.0267], device='cuda:0'), grad: tensor([-5.5218e-04,  6.2323e-04,  2.6951e-03,  2.0676e-03,  6.3372e-04,
+        -2.9266e-02,  9.4295e-05,  1.7619e-04,  2.2873e-02,  6.3896e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 21----------------------------------------------------
+epoch 21, time 222.11, cls_loss 0.0455 cls_loss_mapping 0.0671 cls_loss_causal 0.9136 re_mapping 0.0295 re_causal 0.0832 /// teacc 98.28 lr 0.00010000
+Epoch 23, weight, value: tensor([[ 0.0226,  0.0110, -0.0088,  ...,  0.0174, -0.0528, -0.0344],
+        [ 0.0363, -0.0185,  0.0264,  ..., -0.0259,  0.0240, -0.0542],
+        [ 0.0157, -0.0048,  0.0487,  ..., -0.0496, -0.0238, -0.0522],
+        ...,
+        [-0.0099,  0.0062, -0.0187,  ...,  0.0227,  0.0470,  0.0440],
+        [ 0.0103, -0.0202, -0.0193,  ..., -0.0577,  0.0333, -0.0447],
+        [-0.0016, -0.0258, -0.0169,  ...,  0.0119, -0.0077, -0.0057]],
+       device='cuda:0'), grad: tensor([[ 2.2296e-06,  0.0000e+00, -1.2732e-04,  ..., -7.5698e-05,
+          2.1958e-04,  1.7130e-04],
+        [ 2.1774e-06,  0.0000e+00,  3.1853e-04,  ...,  8.3971e-04,
+          1.4257e-03,  1.7300e-03],
+        [ 1.2383e-05,  0.0000e+00,  3.1614e-04,  ...,  8.0967e-04,
+          1.1425e-03,  1.0462e-03],
+        ...,
+        [-3.6478e-05,  0.0000e+00,  1.0490e-04,  ...,  3.3379e-04,
+          7.1049e-05,  7.2575e-04],
+        [ 4.4852e-06,  0.0000e+00,  1.5152e-04,  ...,  2.0385e-04,
+          3.1352e-05,  2.0707e-04],
+        [ 7.1637e-06,  0.0000e+00,  7.6115e-05,  ..., -8.7678e-05,
+          2.3782e-04, -4.9305e-04]], device='cuda:0')
+Epoch 23, bias, value: tensor([-0.0247,  0.0160,  0.0253,  0.0074,  0.0193, -0.0151, -0.0091, -0.0219,
+        -0.0057,  0.0264], device='cuda:0'), grad: tensor([ 9.8610e-04,  2.5291e-03,  1.9741e-03,  3.7718e-04, -9.9182e-03,
+        -1.6594e-03,  4.1580e-03,  7.4625e-04,  7.8058e-04,  3.1352e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 22----------------------------------------------------
+epoch 22, time 221.80, cls_loss 0.0461 cls_loss_mapping 0.0591 cls_loss_causal 0.8728 re_mapping 0.0291 re_causal 0.0764 /// teacc 98.33 lr 0.00010000
+Epoch 24, weight, value: tensor([[ 0.0225,  0.0110, -0.0090,  ...,  0.0185, -0.0539, -0.0358],
+        [ 0.0363, -0.0185,  0.0260,  ..., -0.0273,  0.0247, -0.0565],
+        [ 0.0158, -0.0048,  0.0494,  ..., -0.0509, -0.0244, -0.0554],
+        ...,
+        [-0.0097,  0.0062, -0.0189,  ...,  0.0226,  0.0475,  0.0443],
+        [ 0.0103, -0.0202, -0.0197,  ..., -0.0585,  0.0341, -0.0473],
+        [-0.0019, -0.0258, -0.0169,  ...,  0.0126, -0.0081, -0.0040]],
+       device='cuda:0'), grad: tensor([[ 1.0515e-06,  0.0000e+00,  2.8057e-03,  ...,  4.4518e-03,
+          7.5042e-05,  4.2647e-05],
+        [ 5.1036e-06,  0.0000e+00,  3.6979e-04,  ...,  2.5153e-04,
+          1.2505e-04,  2.5845e-04],
+        [ 1.1757e-05,  0.0000e+00,  1.0455e-04,  ...,  2.7323e-04,
+          2.1112e-04,  5.5462e-05],
+        ...,
+        [-9.3162e-05,  0.0000e+00,  5.1498e-05,  ...,  1.7977e-04,
+          1.9714e-05,  2.3711e-04],
+        [ 3.9265e-06,  0.0000e+00, -3.2845e-03,  ..., -6.1073e-03,
+         -3.2043e-04,  3.4809e-04],
+        [ 3.7134e-05,  0.0000e+00,  2.3377e-04,  ...,  7.9203e-04,
+          4.5514e-04,  3.0375e-04]], device='cuda:0')
+Epoch 24, bias, value: tensor([-0.0248,  0.0159,  0.0251,  0.0072,  0.0191, -0.0147, -0.0092, -0.0218,
+        -0.0055,  0.0264], device='cuda:0'), grad: tensor([ 0.0081,  0.0015,  0.0008, -0.0033, -0.0021,  0.0003,  0.0018,  0.0005,
+        -0.0093,  0.0018], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 23, time 221.64, cls_loss 0.0381 cls_loss_mapping 0.0566 cls_loss_causal 0.8845 re_mapping 0.0276 re_causal 0.0775 /// teacc 98.16 lr 0.00010000
+Epoch 25, weight, value: tensor([[ 0.0225,  0.0110, -0.0092,  ...,  0.0194, -0.0543, -0.0353],
+        [ 0.0362, -0.0185,  0.0259,  ..., -0.0283,  0.0251, -0.0581],
+        [ 0.0155, -0.0048,  0.0503,  ..., -0.0528, -0.0248, -0.0559],
+        ...,
+        [-0.0085,  0.0062, -0.0195,  ...,  0.0219,  0.0480,  0.0447],
+        [ 0.0102, -0.0202, -0.0203,  ..., -0.0597,  0.0349, -0.0489],
+        [-0.0026, -0.0258, -0.0164,  ...,  0.0131, -0.0089, -0.0034]],
+       device='cuda:0'), grad: tensor([[ 2.8193e-05,  0.0000e+00, -1.4520e-04,  ..., -7.3254e-05,
+          1.6439e-04,  5.8323e-05],
+        [-1.2207e-03,  0.0000e+00,  1.8108e-04,  ...,  2.1338e-05,
+         -7.1068e-03,  1.1045e-04],
+        [-1.0424e-03,  0.0000e+00, -3.4866e-03,  ...,  5.8591e-05,
+         -4.3373e-03,  1.6642e-04],
+        ...,
+        [ 3.9139e-03,  0.0000e+00,  3.4580e-03,  ...,  2.7299e-04,
+          8.1482e-03,  1.3115e-02],
+        [ 6.0034e-04,  0.0000e+00,  3.8445e-05,  ...,  5.1856e-05,
+          3.1605e-03,  1.6904e-04],
+        [-2.7885e-03,  0.0000e+00,  3.6091e-05,  ..., -4.6325e-04,
+         -2.9716e-03, -1.4221e-02]], device='cuda:0')
+Epoch 25, bias, value: tensor([-0.0248,  0.0157,  0.0255,  0.0072,  0.0192, -0.0148, -0.0093, -0.0221,
+        -0.0054,  0.0265], device='cuda:0'), grad: tensor([ 6.0916e-05, -8.0795e-03, -9.1476e-03, -2.0647e-04,  1.4229e-03,
+         8.8978e-04,  1.4219e-03,  3.0411e-02,  3.6373e-03, -2.0416e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 24, time 221.24, cls_loss 0.0384 cls_loss_mapping 0.0560 cls_loss_causal 0.8789 re_mapping 0.0270 re_causal 0.0739 /// teacc 98.22 lr 0.00010000
+Epoch 26, weight, value: tensor([[ 0.0224,  0.0110, -0.0088,  ...,  0.0208, -0.0553, -0.0360],
+        [ 0.0362, -0.0185,  0.0260,  ..., -0.0294,  0.0255, -0.0594],
+        [ 0.0154, -0.0048,  0.0514,  ..., -0.0541, -0.0252, -0.0585],
+        ...,
+        [-0.0076,  0.0062, -0.0207,  ...,  0.0217,  0.0486,  0.0455],
+        [ 0.0100, -0.0202, -0.0206,  ..., -0.0605,  0.0353, -0.0497],
+        [-0.0031, -0.0258, -0.0170,  ...,  0.0125, -0.0094, -0.0041]],
+       device='cuda:0'), grad: tensor([[ 7.7426e-05,  0.0000e+00, -3.3283e-04,  ..., -4.3702e-04,
+          4.0102e-04,  6.9082e-05],
+        [ 1.3316e-04,  0.0000e+00,  2.9135e-04,  ...,  3.2574e-05,
+          1.5819e-04,  1.6415e-04],
+        [ 1.3912e-04,  0.0000e+00, -4.5919e-04,  ...,  7.9930e-05,
+          5.8079e-04,  9.7811e-05],
+        ...,
+        [-5.1689e-04,  0.0000e+00,  2.8348e-04,  ...,  9.2030e-05,
+         -4.5133e-04, -3.7909e-04],
+        [ 8.1480e-05,  0.0000e+00,  2.3592e-04,  ...,  1.1855e-04,
+         -2.0084e-03, -2.6393e-04],
+        [ 2.8872e-04,  0.0000e+00,  1.6880e-04,  ..., -8.7261e-05,
+          7.5293e-04, -7.3493e-05]], device='cuda:0')
+Epoch 26, bias, value: tensor([-0.0241,  0.0158,  0.0257,  0.0073,  0.0195, -0.0149, -0.0094, -0.0222,
+        -0.0056,  0.0259], device='cuda:0'), grad: tensor([ 1.7023e-04,  8.9550e-04,  9.9468e-04, -3.6049e-03,  8.3637e-04,
+         1.4544e-03, -1.6451e-03,  9.2328e-05, -7.7868e-04,  1.5879e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 25, time 221.45, cls_loss 0.0413 cls_loss_mapping 0.0548 cls_loss_causal 0.8356 re_mapping 0.0257 re_causal 0.0700 /// teacc 98.17 lr 0.00010000
+Epoch 27, weight, value: tensor([[ 0.0221,  0.0110, -0.0088,  ...,  0.0220, -0.0561, -0.0362],
+        [ 0.0360, -0.0185,  0.0264,  ..., -0.0305,  0.0258, -0.0621],
+        [ 0.0150, -0.0048,  0.0521,  ..., -0.0549, -0.0263, -0.0606],
+        ...,
+        [-0.0070,  0.0062, -0.0211,  ...,  0.0220,  0.0492,  0.0465],
+        [ 0.0100, -0.0202, -0.0209,  ..., -0.0611,  0.0363, -0.0510],
+        [-0.0033, -0.0258, -0.0175,  ...,  0.0125, -0.0098, -0.0036]],
+       device='cuda:0'), grad: tensor([[ 1.0133e-05,  0.0000e+00, -3.8123e-04,  ..., -6.4754e-04,
+         -9.3281e-05,  7.9215e-05],
+        [-3.3006e-06,  0.0000e+00,  1.6618e-04,  ...,  6.3539e-05,
+         -2.7776e-04,  1.1355e-04],
+        [ 2.2694e-05,  0.0000e+00, -7.8344e-04,  ...,  1.2469e-04,
+          7.5459e-05,  1.3876e-04],
+        ...,
+        [-2.8086e-04,  0.0000e+00,  9.7811e-05,  ..., -1.1933e-04,
+         -2.6035e-04, -8.3685e-04],
+        [ 1.4462e-05,  0.0000e+00,  4.4298e-04,  ...,  5.4169e-04,
+          4.7565e-04,  5.7793e-04],
+        [ 1.7154e-04,  0.0000e+00,  6.9082e-05,  ..., -8.6403e-04,
+          2.1100e-04, -1.3142e-03]], device='cuda:0')
+Epoch 27, bias, value: tensor([-0.0242,  0.0157,  0.0254,  0.0072,  0.0194, -0.0148, -0.0096, -0.0218,
+        -0.0053,  0.0260], device='cuda:0'), grad: tensor([-6.8378e-04,  2.5585e-05, -3.6716e-04,  9.4557e-04,  4.1580e-03,
+        -5.9547e-03,  1.8368e-03, -9.9945e-04,  1.8291e-03, -7.8726e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 26, time 221.65, cls_loss 0.0360 cls_loss_mapping 0.0507 cls_loss_causal 0.8717 re_mapping 0.0246 re_causal 0.0704 /// teacc 98.18 lr 0.00010000
+Epoch 28, weight, value: tensor([[ 0.0220,  0.0110, -0.0087,  ...,  0.0228, -0.0574, -0.0373],
+        [ 0.0359, -0.0185,  0.0265,  ..., -0.0315,  0.0265, -0.0627],
+        [ 0.0149, -0.0048,  0.0527,  ..., -0.0561, -0.0267, -0.0618],
+        ...,
+        [-0.0065,  0.0062, -0.0214,  ...,  0.0212,  0.0498,  0.0470],
+        [ 0.0099, -0.0202, -0.0215,  ..., -0.0615,  0.0367, -0.0539],
+        [-0.0034, -0.0258, -0.0181,  ...,  0.0128, -0.0104, -0.0023]],
+       device='cuda:0'), grad: tensor([[ 2.6692e-06,  0.0000e+00, -6.3181e-05,  ..., -1.6844e-04,
+          8.8692e-05,  6.5386e-05],
+        [ 1.2584e-05,  0.0000e+00,  5.1880e-03,  ...,  5.3793e-05,
+          2.1768e-04,  3.1805e-04],
+        [ 6.5081e-06,  0.0000e+00, -5.2223e-03,  ...,  5.1439e-05,
+          1.0926e-04,  2.6894e-04],
+        ...,
+        [-2.2340e-04,  0.0000e+00,  3.9995e-05,  ..., -1.2696e-04,
+         -4.0703e-03, -4.0092e-03],
+        [ 3.8266e-05,  0.0000e+00,  4.8459e-05,  ...,  1.9968e-04,
+          1.2836e-03,  1.5697e-03],
+        [ 1.5104e-04,  0.0000e+00,  1.3769e-05,  ...,  6.0940e-04,
+          1.9836e-03,  2.6894e-03]], device='cuda:0')
+Epoch 28, bias, value: tensor([-0.0245,  0.0160,  0.0255,  0.0071,  0.0193, -0.0146, -0.0100, -0.0216,
+        -0.0052,  0.0257], device='cuda:0'), grad: tensor([-5.5432e-05,  5.6076e-03, -4.9477e-03, -7.5245e-04, -6.3133e-04,
+        -1.5235e-04,  5.5373e-05, -5.1918e-03,  2.8763e-03,  3.1910e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 27, time 221.48, cls_loss 0.0348 cls_loss_mapping 0.0493 cls_loss_causal 0.8602 re_mapping 0.0252 re_causal 0.0722 /// teacc 98.29 lr 0.00010000
+Epoch 29, weight, value: tensor([[ 0.0219,  0.0110, -0.0087,  ...,  0.0236, -0.0578, -0.0376],
+        [ 0.0358, -0.0185,  0.0265,  ..., -0.0327,  0.0270, -0.0632],
+        [ 0.0148, -0.0048,  0.0535,  ..., -0.0566, -0.0274, -0.0631],
+        ...,
+        [-0.0058,  0.0062, -0.0223,  ...,  0.0209,  0.0507,  0.0475],
+        [ 0.0097, -0.0202, -0.0223,  ..., -0.0628,  0.0366, -0.0554],
+        [-0.0043, -0.0258, -0.0181,  ...,  0.0128, -0.0112, -0.0024]],
+       device='cuda:0'), grad: tensor([[ 7.2084e-07,  0.0000e+00, -1.2636e-04,  ...,  2.0713e-05,
+          4.7892e-05,  2.4962e-04],
+        [ 1.6391e-06,  0.0000e+00,  9.0972e-06,  ...,  1.7393e-04,
+         -6.6519e-04,  2.0611e-04],
+        [ 4.3847e-06,  0.0000e+00, -1.8668e-04,  ...,  6.5088e-05,
+          1.6403e-04, -5.4389e-05],
+        ...,
+        [-2.4945e-05,  0.0000e+00,  6.3300e-05,  ..., -1.1320e-03,
+         -2.4164e-04, -1.4191e-03],
+        [ 2.6226e-06,  0.0000e+00,  1.2124e-04,  ...,  3.4213e-04,
+          6.9809e-04,  7.7057e-04],
+        [ 1.1876e-05,  0.0000e+00,  1.4037e-05,  ...,  4.4441e-04,
+         -3.2091e-04,  1.6928e-04]], device='cuda:0')
+Epoch 29, bias, value: tensor([-0.0241,  0.0161,  0.0255,  0.0077,  0.0194, -0.0147, -0.0101, -0.0216,
+        -0.0059,  0.0257], device='cuda:0'), grad: tensor([ 1.3351e-04, -6.3705e-04, -8.2374e-05,  5.1403e-04,  5.4979e-04,
+        -7.5102e-04,  5.8079e-04, -1.9360e-03,  1.7624e-03, -1.3447e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 28----------------------------------------------------
+epoch 28, time 222.04, cls_loss 0.0313 cls_loss_mapping 0.0432 cls_loss_causal 0.8355 re_mapping 0.0242 re_causal 0.0664 /// teacc 98.52 lr 0.00010000
+Epoch 30, weight, value: tensor([[ 0.0218,  0.0110, -0.0083,  ...,  0.0244, -0.0586, -0.0387],
+        [ 0.0357, -0.0185,  0.0265,  ..., -0.0334,  0.0275, -0.0639],
+        [ 0.0148, -0.0048,  0.0541,  ..., -0.0569, -0.0278, -0.0626],
+        ...,
+        [-0.0062,  0.0062, -0.0235,  ...,  0.0213,  0.0509,  0.0465],
+        [ 0.0095, -0.0202, -0.0226,  ..., -0.0637,  0.0369, -0.0567],
+        [-0.0038, -0.0258, -0.0188,  ...,  0.0128, -0.0112, -0.0013]],
+       device='cuda:0'), grad: tensor([[ 3.5763e-05,  0.0000e+00,  1.2064e-04,  ..., -2.0772e-05,
+          1.3657e-03,  4.9680e-05],
+        [ 6.8486e-05,  0.0000e+00, -1.0729e-04,  ...,  9.9063e-05,
+         -6.7368e-03,  2.2542e-04],
+        [ 1.1835e-03,  0.0000e+00,  3.4180e-03,  ...,  7.9155e-05,
+          8.5354e-04,  1.8620e-04],
+        ...,
+        [-2.2373e-03,  0.0000e+00, -6.0310e-03,  ...,  3.5644e-04,
+         -3.8552e-04,  4.2892e-04],
+        [ 2.3887e-05,  0.0000e+00,  1.8978e-04,  ...,  5.7042e-05,
+          3.4447e-03,  1.0610e-04],
+        [ 4.1157e-05,  0.0000e+00,  3.8266e-05,  ..., -3.9756e-05,
+          2.6608e-04, -9.6858e-06]], device='cuda:0')
+Epoch 30, bias, value: tensor([-0.0243,  0.0164,  0.0258,  0.0078,  0.0190, -0.0145, -0.0099, -0.0223,
+        -0.0060,  0.0260], device='cuda:0'), grad: tensor([ 1.6356e-03, -6.6948e-03,  5.2223e-03,  2.9621e-03, -6.4421e-04,
+         7.5638e-05,  8.5497e-04, -6.8970e-03,  3.2711e-03,  2.1088e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 29, time 221.58, cls_loss 0.0325 cls_loss_mapping 0.0469 cls_loss_causal 0.8302 re_mapping 0.0234 re_causal 0.0627 /// teacc 98.26 lr 0.00010000
+Epoch 31, weight, value: tensor([[ 0.0217,  0.0110, -0.0081,  ...,  0.0256, -0.0594, -0.0396],
+        [ 0.0357, -0.0185,  0.0263,  ..., -0.0343,  0.0282, -0.0649],
+        [ 0.0147, -0.0048,  0.0550,  ..., -0.0586, -0.0288, -0.0641],
+        ...,
+        [-0.0054,  0.0062, -0.0237,  ...,  0.0205,  0.0517,  0.0460],
+        [ 0.0095, -0.0202, -0.0232,  ..., -0.0644,  0.0374, -0.0565],
+        [-0.0042, -0.0258, -0.0192,  ...,  0.0127, -0.0117, -0.0006]],
+       device='cuda:0'), grad: tensor([[ 1.1232e-06,  0.0000e+00, -1.0803e-05,  ...,  2.2483e-04,
+          3.5143e-04,  3.7313e-05],
+        [ 1.1526e-05,  0.0000e+00,  3.7766e-04,  ...,  9.7811e-05,
+          1.0741e-04,  9.9182e-05],
+        [ 5.5507e-06,  0.0000e+00,  8.0442e-04,  ...,  2.3246e-05,
+          1.8950e-03,  4.2230e-05],
+        ...,
+        [-5.5879e-05,  0.0000e+00, -5.8651e-04,  ...,  9.1970e-05,
+         -2.1095e-03, -7.4804e-05],
+        [ 4.2357e-06,  0.0000e+00,  1.0014e-03,  ..., -3.8791e-04,
+          3.5620e-04, -2.4363e-05],
+        [ 1.5408e-05,  0.0000e+00,  3.6240e-05,  ...,  1.2102e-03,
+          4.7231e-04,  9.9468e-04]], device='cuda:0')
+Epoch 31, bias, value: tensor([-0.0240,  0.0165,  0.0256,  0.0075,  0.0195, -0.0145, -0.0101, -0.0223,
+        -0.0060,  0.0259], device='cuda:0'), grad: tensor([ 0.0013,  0.0010,  0.0060, -0.0034, -0.0015, -0.0001, -0.0015, -0.0057,
+         0.0010,  0.0030], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 30, time 221.57, cls_loss 0.0258 cls_loss_mapping 0.0388 cls_loss_causal 0.8306 re_mapping 0.0225 re_causal 0.0662 /// teacc 98.37 lr 0.00010000
+Epoch 32, weight, value: tensor([[ 0.0216,  0.0110, -0.0082,  ...,  0.0255, -0.0604, -0.0407],
+        [ 0.0358, -0.0185,  0.0260,  ..., -0.0354,  0.0286, -0.0658],
+        [ 0.0145, -0.0048,  0.0556,  ..., -0.0594, -0.0294, -0.0651],
+        ...,
+        [-0.0049,  0.0062, -0.0239,  ...,  0.0198,  0.0523,  0.0458],
+        [ 0.0097, -0.0202, -0.0238,  ..., -0.0655,  0.0378, -0.0573],
+        [-0.0046, -0.0258, -0.0192,  ...,  0.0132, -0.0121,  0.0003]],
+       device='cuda:0'), grad: tensor([[ 1.4585e-06,  0.0000e+00, -1.5354e-03,  ..., -1.2875e-03,
+         -4.7982e-05,  1.0468e-05],
+        [ 2.5798e-06,  0.0000e+00, -3.9116e-06,  ...,  2.7448e-05,
+         -1.2913e-03,  7.1526e-06],
+        [ 1.1362e-05,  0.0000e+00,  6.1369e-04,  ...,  2.4021e-04,
+          3.3522e-04,  1.6212e-05],
+        ...,
+        [-4.1753e-05,  0.0000e+00,  1.4424e-04,  ...,  7.4983e-05,
+          1.9729e-05, -2.2262e-05],
+        [ 6.0201e-06,  0.0000e+00,  2.2376e-04,  ...,  1.5807e-04,
+          4.9019e-04,  7.1645e-05],
+        [ 9.0227e-06,  0.0000e+00,  9.1016e-05,  ...,  1.8924e-05,
+          5.6803e-05, -2.8539e-04]], device='cuda:0')
+Epoch 32, bias, value: tensor([-0.0244,  0.0164,  0.0255,  0.0073,  0.0198, -0.0143, -0.0100, -0.0224,
+        -0.0060,  0.0260], device='cuda:0'), grad: tensor([-2.7599e-03, -1.2798e-03,  1.2302e-03,  5.4359e-04,  4.4727e-04,
+         5.7793e-03, -5.3558e-03,  2.4843e-04,  1.1110e-03,  3.6448e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 31, time 221.33, cls_loss 0.0327 cls_loss_mapping 0.0468 cls_loss_causal 0.8291 re_mapping 0.0218 re_causal 0.0600 /// teacc 98.49 lr 0.00010000
+Epoch 33, weight, value: tensor([[ 0.0214,  0.0110, -0.0080,  ...,  0.0259, -0.0604, -0.0421],
+        [ 0.0356, -0.0185,  0.0254,  ..., -0.0368,  0.0291, -0.0677],
+        [ 0.0144, -0.0048,  0.0567,  ..., -0.0603, -0.0301, -0.0656],
+        ...,
+        [-0.0046,  0.0062, -0.0246,  ...,  0.0193,  0.0529,  0.0462],
+        [ 0.0096, -0.0202, -0.0243,  ..., -0.0668,  0.0381, -0.0596],
+        [-0.0049, -0.0258, -0.0197,  ...,  0.0139, -0.0126,  0.0015]],
+       device='cuda:0'), grad: tensor([[ 1.1221e-05,  0.0000e+00, -5.4836e-04,  ..., -1.3323e-03,
+         -3.9768e-04,  8.7976e-05],
+        [-6.9320e-05,  0.0000e+00,  1.1110e-04,  ...,  3.2246e-05,
+         -1.8227e-04,  3.5614e-05],
+        [ 3.3855e-05,  0.0000e+00, -2.9278e-04,  ...,  6.9916e-05,
+          8.5533e-05,  4.0352e-05],
+        ...,
+        [-1.2457e-04,  0.0000e+00,  4.4966e-04,  ...,  7.7629e-04,
+          3.6407e-04,  1.9073e-04],
+        [ 1.5289e-05,  0.0000e+00,  1.2958e-04,  ...,  1.4901e-04,
+         -9.8705e-05,  4.7588e-04],
+        [ 3.7014e-05,  0.0000e+00,  6.2227e-05,  ..., -5.9098e-05,
+          7.9155e-05, -1.1349e-03]], device='cuda:0')
+Epoch 33, bias, value: tensor([-0.0244,  0.0159,  0.0259,  0.0074,  0.0196, -0.0148, -0.0100, -0.0222,
+        -0.0061,  0.0264], device='cuda:0'), grad: tensor([-1.9274e-03, -3.3289e-05, -1.1533e-04, -1.0386e-03,  1.5020e-04,
+         1.7385e-03,  1.6558e-04,  1.6489e-03,  7.3481e-04, -1.3266e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 32----------------------------------------------------
+epoch 32, time 222.22, cls_loss 0.0275 cls_loss_mapping 0.0410 cls_loss_causal 0.8122 re_mapping 0.0222 re_causal 0.0626 /// teacc 98.61 lr 0.00010000
+Epoch 34, weight, value: tensor([[ 0.0212,  0.0110, -0.0077,  ...,  0.0267, -0.0606, -0.0434],
+        [ 0.0360, -0.0185,  0.0256,  ..., -0.0376,  0.0293, -0.0681],
+        [ 0.0142, -0.0048,  0.0570,  ..., -0.0614, -0.0308, -0.0668],
+        ...,
+        [-0.0043,  0.0062, -0.0256,  ...,  0.0189,  0.0534,  0.0462],
+        [ 0.0095, -0.0202, -0.0247,  ..., -0.0677,  0.0385, -0.0609],
+        [-0.0056, -0.0258, -0.0201,  ...,  0.0138, -0.0130,  0.0017]],
+       device='cuda:0'), grad: tensor([[ 9.9316e-06,  0.0000e+00,  1.1998e-04,  ...,  1.9324e-04,
+          4.2248e-04,  2.2233e-04],
+        [ 3.2395e-05,  0.0000e+00,  4.6039e-04,  ...,  2.3532e-04,
+          1.0773e-02,  3.6359e-04],
+        [-1.3578e-04,  0.0000e+00, -1.5335e-03,  ...,  5.5933e-04,
+          2.5845e-04,  6.1369e-04],
+        ...,
+        [ 3.0667e-05,  0.0000e+00,  9.5654e-04,  ..., -4.3154e-05,
+         -3.9864e-04, -3.1972e-04],
+        [ 7.1675e-06,  0.0000e+00,  5.7071e-05,  ...,  9.0837e-05,
+          2.8191e-03,  1.7476e-04],
+        [ 3.1203e-05,  0.0000e+00,  6.9141e-05,  ...,  5.3787e-04,
+          1.9372e-04,  8.2827e-04]], device='cuda:0')
+Epoch 34, bias, value: tensor([-0.0238,  0.0160,  0.0255,  0.0076,  0.0201, -0.0146, -0.0101, -0.0222,
+        -0.0062,  0.0259], device='cuda:0'), grad: tensor([ 0.0008,  0.0124, -0.0003, -0.0003, -0.0025, -0.0072, -0.0080,  0.0003,
+         0.0035,  0.0013], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 33, time 221.35, cls_loss 0.0297 cls_loss_mapping 0.0411 cls_loss_causal 0.8048 re_mapping 0.0213 re_causal 0.0607 /// teacc 98.55 lr 0.00010000
+Epoch 35, weight, value: tensor([[ 0.0211,  0.0110, -0.0076,  ...,  0.0274, -0.0610, -0.0443],
+        [ 0.0359, -0.0185,  0.0250,  ..., -0.0384,  0.0296, -0.0684],
+        [ 0.0141, -0.0048,  0.0580,  ..., -0.0619, -0.0313, -0.0684],
+        ...,
+        [-0.0038,  0.0062, -0.0259,  ...,  0.0188,  0.0537,  0.0461],
+        [ 0.0096, -0.0202, -0.0251,  ..., -0.0693,  0.0387, -0.0612],
+        [-0.0058, -0.0258, -0.0203,  ...,  0.0139, -0.0132,  0.0025]],
+       device='cuda:0'), grad: tensor([[ 3.3826e-06,  0.0000e+00, -2.4974e-05,  ..., -3.4988e-05,
+          3.6329e-05,  3.0100e-05],
+        [ 3.3110e-05,  0.0000e+00, -7.2896e-05,  ...,  1.0371e-05,
+         -4.3058e-04,  4.7028e-05],
+        [ 1.3605e-05,  0.0000e+00, -1.9640e-05,  ...,  6.8620e-06,
+          1.6665e-04,  3.3200e-05],
+        ...,
+        [-1.2672e-04,  0.0000e+00,  5.1558e-05,  ...,  9.2983e-06,
+         -1.0890e-04, -2.0039e-04],
+        [ 8.0168e-06,  0.0000e+00,  2.2307e-05,  ...,  4.3392e-05,
+          1.3280e-04,  7.8142e-05],
+        [ 4.3243e-05,  0.0000e+00,  2.2743e-06,  ..., -6.7726e-06,
+          1.0192e-04,  1.7434e-05]], device='cuda:0')
+Epoch 35, bias, value: tensor([-0.0238,  0.0156,  0.0258,  0.0075,  0.0201, -0.0146, -0.0099, -0.0222,
+        -0.0063,  0.0261], device='cuda:0'), grad: tensor([ 4.1500e-06, -4.8256e-04,  1.6177e-04,  9.9301e-05,  5.4979e-04,
+        -5.3644e-05, -4.7350e-04, -1.1027e-04,  2.2221e-04,  8.2076e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 34, time 221.46, cls_loss 0.0279 cls_loss_mapping 0.0410 cls_loss_causal 0.7963 re_mapping 0.0206 re_causal 0.0598 /// teacc 98.49 lr 0.00010000
+Epoch 36, weight, value: tensor([[ 0.0210,  0.0110, -0.0080,  ...,  0.0273, -0.0615, -0.0457],
+        [ 0.0356, -0.0185,  0.0248,  ..., -0.0400,  0.0305, -0.0698],
+        [ 0.0139, -0.0048,  0.0587,  ..., -0.0624, -0.0317, -0.0701],
+        ...,
+        [-0.0037,  0.0062, -0.0264,  ...,  0.0186,  0.0543,  0.0475],
+        [ 0.0094, -0.0202, -0.0256,  ..., -0.0700,  0.0385, -0.0623],
+        [-0.0061, -0.0258, -0.0201,  ...,  0.0150, -0.0136,  0.0029]],
+       device='cuda:0'), grad: tensor([[ 4.1388e-06,  0.0000e+00,  9.4414e-05,  ..., -3.0541e-04,
+          1.0721e-05,  1.9893e-05],
+        [ 5.3763e-05,  0.0000e+00,  3.1859e-05,  ...,  4.2230e-05,
+         -1.2219e-04,  2.8419e-04],
+        [ 1.2986e-05,  0.0000e+00,  2.2888e-05,  ...,  8.9645e-05,
+          6.4015e-05,  5.5045e-05],
+        ...,
+        [-2.4772e-04,  0.0000e+00,  9.1434e-05,  ...,  3.0547e-05,
+         -3.5977e-04, -4.5371e-04],
+        [ 1.2785e-05,  0.0000e+00,  1.1945e-04,  ...,  3.5673e-05,
+         -1.7095e-04,  1.5914e-04],
+        [ 8.1837e-05,  0.0000e+00,  7.3814e-04,  ...,  1.8156e-04,
+          1.7297e-04,  1.2417e-03]], device='cuda:0')
+Epoch 36, bias, value: tensor([-0.0242,  0.0162,  0.0259,  0.0072,  0.0198, -0.0140, -0.0102, -0.0221,
+        -0.0067,  0.0261], device='cuda:0'), grad: tensor([ 0.0001,  0.0002,  0.0003, -0.0040, -0.0009,  0.0011,  0.0003, -0.0006,
+        -0.0003,  0.0037], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 35, time 221.25, cls_loss 0.0231 cls_loss_mapping 0.0361 cls_loss_causal 0.7591 re_mapping 0.0202 re_causal 0.0576 /// teacc 98.47 lr 0.00010000
+Epoch 37, weight, value: tensor([[ 0.0209,  0.0110, -0.0080,  ...,  0.0280, -0.0618, -0.0471],
+        [ 0.0355, -0.0185,  0.0247,  ..., -0.0416,  0.0306, -0.0716],
+        [ 0.0138, -0.0048,  0.0593,  ..., -0.0636, -0.0324, -0.0707],
+        ...,
+        [-0.0031,  0.0062, -0.0273,  ...,  0.0182,  0.0551,  0.0487],
+        [ 0.0094, -0.0202, -0.0255,  ..., -0.0707,  0.0389, -0.0636],
+        [-0.0067, -0.0258, -0.0205,  ...,  0.0152, -0.0143,  0.0030]],
+       device='cuda:0'), grad: tensor([[ 3.6601e-06,  0.0000e+00,  1.0663e-04,  ...,  1.8871e-04,
+          2.4498e-05,  5.2691e-05],
+        [-3.0935e-05,  0.0000e+00,  2.4453e-05,  ...,  2.0528e-04,
+         -4.4554e-05,  3.5834e-04],
+        [ 1.3672e-05,  0.0000e+00, -1.7917e-04,  ...,  7.6830e-05,
+          5.2929e-05,  1.0014e-04],
+        ...,
+        [-5.0992e-05,  0.0000e+00,  8.2791e-05,  ...,  3.8552e-04,
+          5.5969e-05,  6.6805e-04],
+        [ 1.3210e-05,  0.0000e+00, -1.0008e-04,  ..., -2.0146e-04,
+         -6.5267e-05,  3.1090e-04],
+        [ 2.0996e-05,  0.0000e+00,  3.3498e-05,  ..., -2.2018e-04,
+          3.5256e-05, -1.0004e-03]], device='cuda:0')
+Epoch 37, bias, value: tensor([-0.0242,  0.0155,  0.0260,  0.0075,  0.0196, -0.0144, -0.0096, -0.0217,
+        -0.0064,  0.0257], device='cuda:0'), grad: tensor([ 8.9741e-04,  2.6846e-04,  7.4029e-05, -4.0174e-04, -6.6996e-04,
+         2.2542e-04,  2.3985e-04,  9.4557e-04, -1.0395e-03, -5.3930e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 36, time 221.31, cls_loss 0.0217 cls_loss_mapping 0.0318 cls_loss_causal 0.7901 re_mapping 0.0204 re_causal 0.0577 /// teacc 98.53 lr 0.00010000
+Epoch 38, weight, value: tensor([[ 0.0209,  0.0110, -0.0083,  ...,  0.0287, -0.0623, -0.0481],
+        [ 0.0356, -0.0185,  0.0248,  ..., -0.0425,  0.0307, -0.0714],
+        [ 0.0136, -0.0048,  0.0598,  ..., -0.0652, -0.0331, -0.0721],
+        ...,
+        [-0.0026,  0.0062, -0.0278,  ...,  0.0180,  0.0557,  0.0490],
+        [ 0.0092, -0.0202, -0.0259,  ..., -0.0718,  0.0392, -0.0647],
+        [-0.0070, -0.0258, -0.0197,  ...,  0.0155, -0.0146,  0.0032]],
+       device='cuda:0'), grad: tensor([[ 1.6168e-06,  0.0000e+00, -3.8147e-05,  ..., -9.4593e-05,
+          6.7532e-05,  9.9242e-06],
+        [ 6.4597e-06,  0.0000e+00, -1.5348e-05,  ...,  1.6883e-05,
+         -3.9029e-04,  2.4378e-05],
+        [ 2.9728e-06,  0.0000e+00,  1.4037e-05,  ...,  2.8387e-05,
+          9.1970e-05,  8.1733e-06],
+        ...,
+        [-2.4408e-05,  0.0000e+00,  5.4576e-06,  ...,  2.8297e-05,
+          2.6241e-05,  1.5736e-05],
+        [ 9.1968e-07,  0.0000e+00,  1.0163e-05,  ...,  3.2687e-04,
+          1.3647e-03,  2.9922e-04],
+        [ 7.0408e-06,  0.0000e+00,  2.1011e-05,  ...,  4.9889e-05,
+          2.9087e-05, -2.7514e-04]], device='cuda:0')
+Epoch 38, bias, value: tensor([-0.0244,  0.0156,  0.0259,  0.0074,  0.0198, -0.0140, -0.0099, -0.0213,
+        -0.0066,  0.0256], device='cuda:0'), grad: tensor([ 1.9252e-05, -4.6992e-04,  1.7154e-04, -1.2386e-04, -2.7701e-05,
+         3.0422e-04, -1.9836e-03,  7.4089e-05,  2.1667e-03, -1.2994e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 37----------------------------------------------------
+epoch 37, time 222.54, cls_loss 0.0223 cls_loss_mapping 0.0316 cls_loss_causal 0.7496 re_mapping 0.0199 re_causal 0.0549 /// teacc 98.63 lr 0.00010000
+Epoch 39, weight, value: tensor([[ 0.0208,  0.0110, -0.0080,  ...,  0.0299, -0.0634, -0.0482],
+        [ 0.0355, -0.0185,  0.0248,  ..., -0.0437,  0.0308, -0.0721],
+        [ 0.0135, -0.0048,  0.0604,  ..., -0.0659, -0.0334, -0.0734],
+        ...,
+        [-0.0023,  0.0062, -0.0278,  ...,  0.0177,  0.0561,  0.0488],
+        [ 0.0091, -0.0202, -0.0262,  ..., -0.0735,  0.0395, -0.0661],
+        [-0.0073, -0.0258, -0.0209,  ...,  0.0155, -0.0147,  0.0040]],
+       device='cuda:0'), grad: tensor([[ 3.1553e-06,  0.0000e+00,  1.2450e-05,  ...,  5.7518e-05,
+          6.3896e-05,  5.1945e-05],
+        [ 5.9992e-05,  0.0000e+00,  2.4661e-06,  ...,  7.3791e-05,
+          3.2139e-04,  5.0020e-04],
+        [ 1.2830e-05,  0.0000e+00,  5.1528e-05,  ...,  9.3654e-06,
+          6.1631e-05,  9.3997e-05],
+        ...,
+        [-1.7858e-04,  0.0000e+00,  1.9014e-05,  ..., -4.7922e-05,
+         -7.9107e-04, -9.1743e-04],
+        [ 6.2510e-06,  0.0000e+00,  3.9428e-05,  ...,  4.3005e-05,
+          6.0260e-05,  2.0719e-04],
+        [ 4.2528e-05,  0.0000e+00,  9.2804e-05,  ..., -4.1032e-04,
+          8.7142e-05, -9.7656e-04]], device='cuda:0')
+Epoch 39, bias, value: tensor([-0.0240,  0.0155,  0.0258,  0.0077,  0.0196, -0.0146, -0.0094, -0.0212,
+        -0.0069,  0.0257], device='cuda:0'), grad: tensor([ 2.3484e-04,  6.0558e-04,  3.0184e-04, -5.6362e-04,  8.0252e-04,
+         9.3520e-05, -1.1867e-04, -1.8206e-03,  4.6325e-04,  2.8266e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 38, time 221.38, cls_loss 0.0190 cls_loss_mapping 0.0329 cls_loss_causal 0.7338 re_mapping 0.0195 re_causal 0.0560 /// teacc 98.49 lr 0.00010000
+Epoch 40, weight, value: tensor([[ 0.0207,  0.0110, -0.0080,  ...,  0.0302, -0.0631, -0.0494],
+        [ 0.0354, -0.0185,  0.0245,  ..., -0.0448,  0.0312, -0.0738],
+        [ 0.0134, -0.0048,  0.0609,  ..., -0.0668, -0.0337, -0.0733],
+        ...,
+        [-0.0019,  0.0062, -0.0283,  ...,  0.0172,  0.0565,  0.0487],
+        [ 0.0091, -0.0202, -0.0265,  ..., -0.0743,  0.0397, -0.0667],
+        [-0.0076, -0.0258, -0.0208,  ...,  0.0160, -0.0150,  0.0044]],
+       device='cuda:0'), grad: tensor([[ 9.3831e-07,  0.0000e+00, -3.0193e-06,  ...,  1.3575e-05,
+          3.7313e-05,  2.5958e-05],
+        [ 7.4208e-06,  0.0000e+00,  1.3463e-05,  ...,  1.5676e-05,
+         -1.5316e-03, -4.3362e-05],
+        [ 7.4729e-06,  0.0000e+00, -4.4632e-04,  ...,  1.2465e-05,
+          1.3363e-04,  6.1810e-05],
+        ...,
+        [-1.0180e-04,  0.0000e+00,  3.1686e-04,  ...,  1.6361e-05,
+         -1.9383e-04, -2.6941e-04],
+        [ 6.9924e-06,  0.0000e+00,  3.0965e-05,  ...,  2.7925e-05,
+          6.2943e-04,  8.1420e-05],
+        [ 3.9667e-05,  0.0000e+00,  7.8678e-06,  ...,  3.0845e-05,
+          2.3425e-04, -9.1195e-05]], device='cuda:0')
+Epoch 40, bias, value: tensor([-0.0239,  0.0151,  0.0259,  0.0078,  0.0198, -0.0146, -0.0097, -0.0214,
+        -0.0067,  0.0258], device='cuda:0'), grad: tensor([ 1.4639e-04, -1.9283e-03, -1.8048e-04,  5.2214e-04,  7.1859e-04,
+        -1.5678e-03,  1.1206e-03, -6.1452e-05,  9.8038e-04,  2.4891e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 39, time 221.22, cls_loss 0.0224 cls_loss_mapping 0.0321 cls_loss_causal 0.7665 re_mapping 0.0189 re_causal 0.0549 /// teacc 98.62 lr 0.00010000
+Epoch 41, weight, value: tensor([[ 0.0207,  0.0110, -0.0080,  ...,  0.0306, -0.0637, -0.0504],
+        [ 0.0353, -0.0185,  0.0248,  ..., -0.0454,  0.0316, -0.0754],
+        [ 0.0131, -0.0048,  0.0617,  ..., -0.0678, -0.0340, -0.0742],
+        ...,
+        [-0.0014,  0.0062, -0.0293,  ...,  0.0170,  0.0568,  0.0493],
+        [ 0.0092, -0.0202, -0.0275,  ..., -0.0750,  0.0401, -0.0666],
+        [-0.0082, -0.0258, -0.0207,  ...,  0.0161, -0.0154,  0.0051]],
+       device='cuda:0'), grad: tensor([[ 9.5740e-07,  0.0000e+00, -3.0413e-05,  ..., -3.1769e-05,
+          4.8906e-05,  1.6138e-05],
+        [ 1.2763e-05,  0.0000e+00, -2.1145e-05,  ...,  7.0408e-06,
+          1.2386e-04,  1.4856e-05],
+        [ 4.7162e-06,  0.0000e+00,  8.6367e-05,  ...,  6.9328e-06,
+          1.8919e-04,  1.5073e-05],
+        ...,
+        [-5.8591e-05,  0.0000e+00,  5.5321e-06,  ...,  1.5363e-05,
+         -1.1587e-03,  4.8459e-05],
+        [ 1.8060e-05,  0.0000e+00, -5.8681e-05,  ...,  4.1723e-05,
+          3.0375e-04,  6.1333e-05],
+        [ 8.1360e-06,  0.0000e+00,  1.2502e-05,  ...,  2.5928e-05,
+          5.6088e-05, -8.8632e-05]], device='cuda:0')
+Epoch 41, bias, value: tensor([-0.0243,  0.0152,  0.0261,  0.0080,  0.0197, -0.0144, -0.0095, -0.0217,
+        -0.0071,  0.0260], device='cuda:0'), grad: tensor([ 5.0902e-05,  5.0813e-05,  4.4274e-04,  3.9530e-04, -3.3349e-05,
+         2.1434e-04,  1.0878e-04, -1.9159e-03,  7.0667e-04, -1.9491e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 40, time 222.08, cls_loss 0.0166 cls_loss_mapping 0.0273 cls_loss_causal 0.7581 re_mapping 0.0186 re_causal 0.0559 /// teacc 98.54 lr 0.00010000
+Epoch 42, weight, value: tensor([[ 0.0207,  0.0110, -0.0079,  ...,  0.0310, -0.0645, -0.0512],
+        [ 0.0353, -0.0185,  0.0248,  ..., -0.0457,  0.0318, -0.0758],
+        [ 0.0129, -0.0048,  0.0622,  ..., -0.0685, -0.0350, -0.0760],
+        ...,
+        [-0.0009,  0.0062, -0.0299,  ...,  0.0166,  0.0573,  0.0500],
+        [ 0.0092, -0.0202, -0.0275,  ..., -0.0756,  0.0407, -0.0672],
+        [-0.0085, -0.0258, -0.0211,  ...,  0.0159, -0.0156,  0.0053]],
+       device='cuda:0'), grad: tensor([[ 2.6403e-07,  0.0000e+00, -1.8253e-03,  ..., -1.1683e-03,
+         -1.2894e-03,  1.8790e-05],
+        [ 4.3362e-06,  0.0000e+00,  7.0751e-05,  ...,  1.5771e-04,
+         -7.7605e-05,  2.9278e-04],
+        [ 1.5292e-06,  0.0000e+00,  5.2452e-04,  ...,  3.6478e-04,
+          4.8804e-04,  4.4942e-05],
+        ...,
+        [-1.0654e-05,  0.0000e+00,  3.2812e-05,  ...,  2.8539e-04,
+          3.1900e-04,  1.2455e-03],
+        [ 9.9652e-07,  0.0000e+00,  1.0948e-03,  ...,  6.7949e-04,
+          7.5865e-04,  5.6118e-05],
+        [ 8.3297e-06,  0.0000e+00,  4.0829e-05,  ...,  3.2234e-04,
+          3.3569e-04,  1.2856e-03]], device='cuda:0')
+Epoch 42, bias, value: tensor([-0.0244,  0.0150,  0.0262,  0.0079,  0.0200, -0.0145, -0.0096, -0.0215,
+        -0.0069,  0.0259], device='cuda:0'), grad: tensor([-4.0054e-03,  3.0231e-04,  1.3380e-03, -5.7042e-05, -2.6588e-03,
+         1.8287e-04,  2.5034e-04,  1.0500e-03,  2.4166e-03,  1.1768e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 41, time 220.86, cls_loss 0.0204 cls_loss_mapping 0.0310 cls_loss_causal 0.7203 re_mapping 0.0173 re_causal 0.0509 /// teacc 98.63 lr 0.00010000
+Epoch 43, weight, value: tensor([[ 0.0206,  0.0110, -0.0075,  ...,  0.0317, -0.0646, -0.0522],
+        [ 0.0358, -0.0185,  0.0246,  ..., -0.0465,  0.0322, -0.0756],
+        [ 0.0125, -0.0048,  0.0629,  ..., -0.0692, -0.0355, -0.0775],
+        ...,
+        [-0.0006,  0.0062, -0.0305,  ...,  0.0162,  0.0578,  0.0504],
+        [ 0.0091, -0.0202, -0.0281,  ..., -0.0764,  0.0418, -0.0674],
+        [-0.0090, -0.0258, -0.0215,  ...,  0.0165, -0.0161,  0.0056]],
+       device='cuda:0'), grad: tensor([[ 1.7490e-06,  0.0000e+00,  3.2037e-05,  ...,  6.3516e-06,
+          2.2781e-04,  2.0370e-05],
+        [ 8.6129e-06,  0.0000e+00, -9.4593e-05,  ...,  1.0189e-06,
+         -8.0824e-04,  2.5928e-05],
+        [ 5.4836e-06,  0.0000e+00, -7.4327e-05,  ...,  1.0803e-06,
+          1.0765e-04,  2.9549e-05],
+        ...,
+        [-2.2388e-04,  0.0000e+00,  3.7670e-05,  ...,  5.1372e-06,
+         -3.3355e-04, -4.3654e-04],
+        [ 1.8060e-05,  0.0000e+00,  2.5854e-05,  ...,  7.4096e-06,
+         -4.3678e-04, -7.5293e-04],
+        [ 1.6963e-04,  0.0000e+00,  8.1360e-06,  ...,  4.4852e-06,
+          8.2636e-04,  9.7847e-04]], device='cuda:0')
+Epoch 43, bias, value: tensor([-0.0243,  0.0149,  0.0261,  0.0078,  0.0197, -0.0149, -0.0100, -0.0214,
+        -0.0060,  0.0257], device='cuda:0'), grad: tensor([ 0.0004, -0.0013,  0.0001,  0.0002,  0.0002, -0.0001,  0.0004, -0.0005,
+        -0.0010,  0.0016], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 42----------------------------------------------------
+epoch 42, time 221.76, cls_loss 0.0227 cls_loss_mapping 0.0336 cls_loss_causal 0.7525 re_mapping 0.0178 re_causal 0.0503 /// teacc 98.74 lr 0.00010000
+Epoch 44, weight, value: tensor([[ 2.0485e-02,  1.0998e-02, -7.6998e-03,  ...,  3.1724e-02,
+         -6.4928e-02, -5.3661e-02],
+        [ 3.5695e-02, -1.8468e-02,  2.4391e-02,  ..., -4.7630e-02,
+          3.2790e-02, -7.6811e-02],
+        [ 1.2724e-02, -4.7728e-03,  6.3436e-02,  ..., -6.9899e-02,
+         -3.5511e-02, -7.7433e-02],
+        ...,
+        [-1.8292e-06,  6.2061e-03, -3.0748e-02,  ...,  1.5783e-02,
+          5.7962e-02,  5.0457e-02],
+        [ 9.1030e-03, -2.0220e-02, -2.8425e-02,  ..., -7.7319e-02,
+          4.1786e-02, -6.8335e-02],
+        [-9.6823e-03, -2.5834e-02, -2.1565e-02,  ...,  1.6975e-02,
+         -1.6651e-02,  5.7066e-03]], device='cuda:0'), grad: tensor([[ 9.9279e-07,  0.0000e+00, -2.6059e-04,  ..., -3.9124e-04,
+         -3.8117e-05,  3.1948e-05],
+        [-5.5507e-06,  0.0000e+00,  2.0102e-05,  ...,  1.1362e-05,
+         -3.6383e-04, -6.4727e-08],
+        [ 1.0401e-05,  0.0000e+00, -2.0826e-04,  ...,  1.2302e-04,
+          3.9291e-04, -2.6870e-04],
+        ...,
+        [-5.6446e-05,  0.0000e+00,  3.2902e-04,  ...,  4.2170e-05,
+         -3.4451e-05, -9.2983e-05],
+        [ 6.7949e-06,  0.0000e+00,  4.0591e-05,  ...,  3.4958e-05,
+         -4.1318e-04,  8.7380e-05],
+        [ 1.5453e-05,  0.0000e+00,  2.6047e-05,  ...,  1.0985e-04,
+          1.1992e-04,  5.9456e-05]], device='cuda:0')
+Epoch 44, bias, value: tensor([-0.0247,  0.0147,  0.0263,  0.0079,  0.0204, -0.0144, -0.0099, -0.0214,
+        -0.0068,  0.0257], device='cuda:0'), grad: tensor([-0.0005, -0.0004, -0.0024,  0.0005,  0.0004,  0.0005,  0.0003,  0.0008,
+        -0.0002,  0.0009], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 43, time 220.96, cls_loss 0.0149 cls_loss_mapping 0.0254 cls_loss_causal 0.7235 re_mapping 0.0176 re_causal 0.0511 /// teacc 98.66 lr 0.00010000
+Epoch 45, weight, value: tensor([[ 0.0204,  0.0110, -0.0074,  ...,  0.0325, -0.0656, -0.0550],
+        [ 0.0357, -0.0185,  0.0242,  ..., -0.0481,  0.0328, -0.0773],
+        [ 0.0125, -0.0048,  0.0640,  ..., -0.0706, -0.0361, -0.0779],
+        ...,
+        [ 0.0005,  0.0062, -0.0313,  ...,  0.0153,  0.0587,  0.0504],
+        [ 0.0090, -0.0202, -0.0282,  ..., -0.0783,  0.0421, -0.0692],
+        [-0.0099, -0.0258, -0.0223,  ...,  0.0170, -0.0170,  0.0063]],
+       device='cuda:0'), grad: tensor([[ 1.4789e-06,  0.0000e+00,  6.6519e-05,  ...,  8.6308e-05,
+          1.9103e-05,  5.0753e-05],
+        [ 1.6009e-06,  0.0000e+00,  2.4036e-05,  ...,  1.0483e-05,
+          1.6391e-05,  1.5706e-05],
+        [ 3.4366e-06,  0.0000e+00, -2.5439e-04,  ...,  1.7953e-04,
+          1.2362e-04,  7.3612e-05],
+        ...,
+        [-3.6001e-05,  0.0000e+00,  9.9301e-05,  ...,  3.3170e-05,
+         -5.1677e-05, -3.5048e-05],
+        [ 9.1689e-07,  0.0000e+00,  1.3900e-04,  ...,  2.8297e-05,
+         -1.2951e-03, -1.7762e-04],
+        [ 2.4974e-05,  0.0000e+00, -4.7708e-04,  ..., -3.5000e-04,
+          5.3215e-04,  1.3733e-04]], device='cuda:0')
+Epoch 45, bias, value: tensor([-0.0245,  0.0145,  0.0265,  0.0076,  0.0203, -0.0144, -0.0098, -0.0215,
+        -0.0068,  0.0259], device='cuda:0'), grad: tensor([ 2.2173e-04,  7.9572e-05,  1.1265e-04,  3.6621e-04,  8.6904e-05,
+         8.5020e-04,  1.3006e-04,  1.2803e-04, -2.3232e-03,  3.4881e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 44, time 221.15, cls_loss 0.0153 cls_loss_mapping 0.0254 cls_loss_causal 0.7167 re_mapping 0.0170 re_causal 0.0501 /// teacc 98.53 lr 0.00010000
+Epoch 46, weight, value: tensor([[ 0.0204,  0.0110, -0.0068,  ...,  0.0333, -0.0665, -0.0565],
+        [ 0.0357, -0.0185,  0.0244,  ..., -0.0487,  0.0331, -0.0780],
+        [ 0.0124, -0.0048,  0.0645,  ..., -0.0716, -0.0366, -0.0792],
+        ...,
+        [ 0.0007,  0.0062, -0.0318,  ...,  0.0150,  0.0591,  0.0506],
+        [ 0.0090, -0.0202, -0.0288,  ..., -0.0791,  0.0423, -0.0697],
+        [-0.0101, -0.0258, -0.0228,  ...,  0.0169, -0.0177,  0.0066]],
+       device='cuda:0'), grad: tensor([[ 4.0838e-07,  0.0000e+00, -7.6830e-05,  ..., -1.8930e-04,
+          3.5495e-05,  5.8234e-05],
+        [-1.7121e-05,  0.0000e+00, -9.1934e-04,  ...,  2.9922e-05,
+         -1.1673e-03,  1.7285e-04],
+        [ 1.2890e-06,  0.0000e+00, -1.1606e-03,  ...,  1.2350e-04,
+         -6.2525e-05,  8.7798e-05],
+        ...,
+        [ 5.4650e-06,  0.0000e+00,  1.4858e-03,  ...,  2.9638e-05,
+          3.3474e-04, -4.5204e-04],
+        [ 5.8021e-07,  0.0000e+00,  3.0994e-04,  ...,  6.3300e-05,
+          1.7262e-04,  2.1529e-04],
+        [ 1.9129e-06,  0.0000e+00,  6.1691e-05,  ...,  2.2614e-04,
+          2.3019e-04,  8.5878e-04]], device='cuda:0')
+Epoch 46, bias, value: tensor([-0.0244,  0.0148,  0.0263,  0.0074,  0.0204, -0.0142, -0.0096, -0.0213,
+        -0.0071,  0.0258], device='cuda:0'), grad: tensor([-4.4912e-05, -2.5501e-03, -1.8139e-03, -1.5936e-03,  1.4365e-04,
+         2.6083e-04,  1.7858e-04,  2.6569e-03,  7.8535e-04,  1.9760e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 45, time 221.05, cls_loss 0.0172 cls_loss_mapping 0.0281 cls_loss_causal 0.7054 re_mapping 0.0167 re_causal 0.0483 /// teacc 98.56 lr 0.00010000
+Epoch 47, weight, value: tensor([[ 0.0204,  0.0110, -0.0071,  ...,  0.0332, -0.0671, -0.0570],
+        [ 0.0356, -0.0185,  0.0243,  ..., -0.0497,  0.0341, -0.0762],
+        [ 0.0123, -0.0048,  0.0649,  ..., -0.0732, -0.0373, -0.0807],
+        ...,
+        [ 0.0011,  0.0062, -0.0324,  ...,  0.0151,  0.0594,  0.0504],
+        [ 0.0090, -0.0202, -0.0292,  ..., -0.0799,  0.0428, -0.0703],
+        [-0.0103, -0.0258, -0.0228,  ...,  0.0173, -0.0183,  0.0069]],
+       device='cuda:0'), grad: tensor([[ 7.7672e-07,  0.0000e+00,  8.4341e-05,  ..., -7.1645e-05,
+          1.4991e-05,  5.6326e-06],
+        [ 1.7241e-05,  0.0000e+00,  2.8327e-05,  ...,  3.5856e-06,
+         -9.0450e-06,  6.3002e-05],
+        [ 4.3921e-06,  0.0000e+00,  1.0586e-03,  ...,  5.0366e-06,
+          5.1469e-05,  1.2553e-04],
+        ...,
+        [-4.7237e-05,  0.0000e+00,  9.3699e-05,  ...,  5.7034e-06,
+         -1.4102e-04, -6.5851e-04],
+        [ 1.7630e-06,  0.0000e+00,  6.6662e-04,  ...,  1.0088e-05,
+         -2.9027e-05, -2.1309e-05],
+        [ 1.6391e-05,  0.0000e+00,  8.1718e-05,  ...,  4.9248e-06,
+          8.7321e-05,  1.5998e-04]], device='cuda:0')
+Epoch 47, bias, value: tensor([-0.0245,  0.0156,  0.0259,  0.0079,  0.0201, -0.0143, -0.0097, -0.0216,
+        -0.0069,  0.0257], device='cuda:0'), grad: tensor([ 2.0671e-04,  9.5069e-05,  2.5558e-03,  3.5381e-03,  3.3879e-04,
+        -7.2594e-03, -9.5272e-04, -5.4026e-04,  1.5812e-03,  4.3774e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 46, time 221.09, cls_loss 0.0193 cls_loss_mapping 0.0294 cls_loss_causal 0.7114 re_mapping 0.0168 re_causal 0.0463 /// teacc 98.45 lr 0.00010000
+Epoch 48, weight, value: tensor([[ 0.0203,  0.0110, -0.0073,  ...,  0.0338, -0.0676, -0.0579],
+        [ 0.0350, -0.0185,  0.0238,  ..., -0.0506,  0.0347, -0.0770],
+        [ 0.0122, -0.0048,  0.0657,  ..., -0.0748, -0.0383, -0.0819],
+        ...,
+        [ 0.0019,  0.0062, -0.0325,  ...,  0.0150,  0.0602,  0.0510],
+        [ 0.0090, -0.0202, -0.0297,  ..., -0.0804,  0.0426, -0.0714],
+        [-0.0105, -0.0258, -0.0231,  ...,  0.0171, -0.0187,  0.0070]],
+       device='cuda:0'), grad: tensor([[ 3.4506e-07,  0.0000e+00,  1.3404e-05,  ..., -9.7007e-06,
+          1.7285e-05,  9.9242e-06],
+        [ 3.0641e-07,  0.0000e+00,  4.1723e-04,  ...,  1.4469e-05,
+          2.4843e-04,  1.0830e-04],
+        [ 1.6345e-07,  0.0000e+00,  4.2558e-04,  ...,  4.0568e-06,
+          3.8576e-04,  1.4663e-04],
+        ...,
+        [-2.7306e-06,  0.0000e+00, -2.1267e-03,  ...,  3.5375e-05,
+         -1.7147e-03, -5.5075e-04],
+        [ 1.3644e-07,  0.0000e+00,  8.0407e-05,  ...,  2.2531e-05,
+          6.6638e-05,  6.7890e-05],
+        [ 1.1930e-06,  0.0000e+00,  6.4850e-05,  ...,  1.4048e-03,
+          6.2656e-04,  3.9139e-03]], device='cuda:0')
+Epoch 48, bias, value: tensor([-0.0248,  0.0155,  0.0258,  0.0078,  0.0204, -0.0140, -0.0100, -0.0209,
+        -0.0074,  0.0256], device='cuda:0'), grad: tensor([ 4.9740e-05,  1.0719e-03,  1.3313e-03,  3.1853e-03, -3.4676e-03,
+         1.4949e-04, -1.6361e-05, -6.1417e-03,  2.6703e-04,  3.5763e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 47, time 221.18, cls_loss 0.0152 cls_loss_mapping 0.0219 cls_loss_causal 0.7474 re_mapping 0.0166 re_causal 0.0493 /// teacc 98.67 lr 0.00010000
+Epoch 49, weight, value: tensor([[ 0.0203,  0.0110, -0.0071,  ...,  0.0344, -0.0679, -0.0587],
+        [ 0.0350, -0.0185,  0.0229,  ..., -0.0512,  0.0345, -0.0779],
+        [ 0.0121, -0.0048,  0.0671,  ..., -0.0758, -0.0383, -0.0826],
+        ...,
+        [ 0.0013,  0.0062, -0.0330,  ...,  0.0156,  0.0607,  0.0516],
+        [ 0.0090, -0.0202, -0.0303,  ..., -0.0809,  0.0426, -0.0715],
+        [-0.0107, -0.0258, -0.0235,  ...,  0.0169, -0.0191,  0.0070]],
+       device='cuda:0'), grad: tensor([[ 1.8999e-06,  0.0000e+00, -9.5367e-05,  ..., -1.9372e-04,
+          6.4492e-05,  5.0962e-06],
+        [ 6.4671e-06,  0.0000e+00,  3.2991e-05,  ...,  6.7651e-06,
+         -3.1300e-03, -3.9876e-05],
+        [ 5.1297e-06,  0.0000e+00, -2.0337e-04,  ...,  1.2614e-05,
+          1.0717e-04,  1.7032e-05],
+        ...,
+        [-3.7283e-05,  0.0000e+00,  2.4587e-05,  ...,  1.3284e-05,
+          6.2644e-05, -3.0726e-05],
+        [ 8.2050e-07,  0.0000e+00,  5.4270e-05,  ...,  1.2957e-05,
+          1.6956e-03,  1.5289e-05],
+        [ 8.7768e-06,  0.0000e+00,  6.8471e-06,  ...,  2.7448e-05,
+          1.4317e-04, -1.2171e-04]], device='cuda:0')
+Epoch 49, bias, value: tensor([-0.0249,  0.0146,  0.0265,  0.0079,  0.0204, -0.0138, -0.0097, -0.0205,
+        -0.0076,  0.0250], device='cuda:0'), grad: tensor([-5.4216e-04, -4.5280e-03, -8.1301e-05,  3.0112e-04,  7.6056e-04,
+         2.2328e-04,  9.8991e-04,  1.4985e-04,  2.5311e-03,  1.9729e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 48, time 221.80, cls_loss 0.0167 cls_loss_mapping 0.0240 cls_loss_causal 0.7304 re_mapping 0.0166 re_causal 0.0471 /// teacc 98.60 lr 0.00010000
+Epoch 50, weight, value: tensor([[ 0.0202,  0.0110, -0.0068,  ...,  0.0352, -0.0681, -0.0593],
+        [ 0.0349, -0.0185,  0.0234,  ..., -0.0523,  0.0355, -0.0786],
+        [ 0.0122, -0.0048,  0.0671,  ..., -0.0766, -0.0397, -0.0831],
+        ...,
+        [ 0.0017,  0.0062, -0.0331,  ...,  0.0151,  0.0612,  0.0510],
+        [ 0.0089, -0.0202, -0.0305,  ..., -0.0816,  0.0427, -0.0724],
+        [-0.0110, -0.0258, -0.0237,  ...,  0.0171, -0.0196,  0.0067]],
+       device='cuda:0'), grad: tensor([[ 5.5693e-07,  0.0000e+00,  3.2365e-05,  ...,  9.7975e-06,
+          9.0003e-06,  6.4149e-06],
+        [-1.3271e-06,  0.0000e+00,  1.2420e-05,  ...,  8.2403e-06,
+         -5.9068e-05,  7.4953e-06],
+        [-3.3714e-07,  0.0000e+00,  1.2589e-04,  ...,  1.8864e-03,
+          3.6955e-05,  8.1897e-05],
+        ...,
+        [-1.1742e-05,  0.0000e+00,  3.4362e-05,  ...,  1.1578e-05,
+         -1.5870e-05, -1.9148e-06],
+        [ 7.4878e-07,  0.0000e+00,  7.3016e-05,  ...,  1.1384e-05,
+         -8.9741e-04,  3.0294e-05],
+        [ 9.8124e-06,  0.0000e+00,  2.7132e-04,  ...,  8.8960e-06,
+          2.0862e-05, -1.3220e-04]], device='cuda:0')
+Epoch 50, bias, value: tensor([-0.0243,  0.0153,  0.0256,  0.0078,  0.0215, -0.0139, -0.0096, -0.0208,
+        -0.0081,  0.0250], device='cuda:0'), grad: tensor([ 6.1214e-05, -5.6207e-05,  1.4544e-03,  6.4278e-04, -2.6245e-03,
+         9.3746e-04,  7.1907e-04,  4.2498e-05, -1.4038e-03,  2.2972e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 49, time 220.95, cls_loss 0.0171 cls_loss_mapping 0.0262 cls_loss_causal 0.7369 re_mapping 0.0155 re_causal 0.0479 /// teacc 98.58 lr 0.00010000
+Epoch 51, weight, value: tensor([[ 0.0201,  0.0110, -0.0068,  ...,  0.0361, -0.0688, -0.0607],
+        [ 0.0347, -0.0185,  0.0241,  ..., -0.0545,  0.0358, -0.0810],
+        [ 0.0122, -0.0048,  0.0677,  ..., -0.0769, -0.0402, -0.0841],
+        ...,
+        [ 0.0016,  0.0062, -0.0343,  ...,  0.0146,  0.0622,  0.0517],
+        [ 0.0086, -0.0202, -0.0307,  ..., -0.0824,  0.0427, -0.0735],
+        [-0.0108, -0.0258, -0.0241,  ...,  0.0174, -0.0202,  0.0077]],
+       device='cuda:0'), grad: tensor([[ 2.4959e-07,  0.0000e+00, -1.6227e-05,  ..., -3.2120e-03,
+         -2.8715e-05, -1.0347e-03],
+        [ 2.5034e-06,  0.0000e+00,  2.1517e-05,  ...,  1.5244e-05,
+         -8.9884e-05,  6.6459e-05],
+        [ 4.4238e-07,  0.0000e+00,  4.1342e-04,  ...,  9.8801e-04,
+          1.1206e-04,  3.3402e-04],
+        ...,
+        [-1.0274e-05,  0.0000e+00,  2.2516e-05,  ...,  6.3956e-05,
+         -2.0653e-05,  8.9407e-06],
+        [ 2.9802e-07,  0.0000e+00,  1.3255e-05,  ...,  2.2876e-04,
+          2.6417e-04,  1.1885e-04],
+        [ 4.9919e-06,  0.0000e+00,  5.0962e-06,  ...,  1.1402e-04,
+          4.5776e-05, -2.2292e-04]], device='cuda:0')
+Epoch 51, bias, value: tensor([-0.0243,  0.0157,  0.0254,  0.0077,  0.0217, -0.0144, -0.0093, -0.0210,
+        -0.0081,  0.0250], device='cuda:0'), grad: tensor([-0.0052, -0.0003,  0.0027,  0.0003,  0.0017, -0.0033,  0.0018,  0.0003,
+         0.0017,  0.0004], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 50, time 221.27, cls_loss 0.0150 cls_loss_mapping 0.0267 cls_loss_causal 0.7046 re_mapping 0.0155 re_causal 0.0467 /// teacc 98.55 lr 0.00010000
+Epoch 52, weight, value: tensor([[ 0.0200,  0.0110, -0.0068,  ...,  0.0372, -0.0689, -0.0613],
+        [ 0.0346, -0.0185,  0.0235,  ..., -0.0551,  0.0352, -0.0811],
+        [ 0.0121, -0.0048,  0.0685,  ..., -0.0779, -0.0408, -0.0854],
+        ...,
+        [ 0.0019,  0.0062, -0.0347,  ...,  0.0139,  0.0626,  0.0510],
+        [ 0.0086, -0.0202, -0.0308,  ..., -0.0829,  0.0435, -0.0735],
+        [-0.0109, -0.0258, -0.0246,  ...,  0.0171, -0.0205,  0.0085]],
+       device='cuda:0'), grad: tensor([[ 1.1539e-06,  0.0000e+00,  6.4634e-07,  ..., -4.8727e-06,
+          8.6278e-06,  3.8520e-06],
+        [ 1.9129e-06,  0.0000e+00,  3.8929e-06,  ...,  1.8999e-06,
+         -1.3399e-04,  8.6427e-07],
+        [ 5.1297e-06,  0.0000e+00,  2.9474e-05,  ...,  1.5739e-06,
+          3.7551e-05,  3.0309e-05],
+        ...,
+        [-3.8266e-05,  0.0000e+00, -2.3559e-05,  ...,  8.5756e-06,
+         -4.3273e-05, -8.5473e-05],
+        [ 2.5444e-06,  0.0000e+00, -1.5378e-05,  ...,  8.6725e-06,
+          5.6416e-05,  1.4730e-05],
+        [ 1.7852e-05,  0.0000e+00,  6.9216e-06,  ...,  8.8513e-05,
+          6.3539e-05,  1.2171e-04]], device='cuda:0')
+Epoch 52, bias, value: tensor([-0.0239,  0.0148,  0.0256,  0.0080,  0.0216, -0.0147, -0.0088, -0.0213,
+        -0.0078,  0.0251], device='cuda:0'), grad: tensor([ 2.7284e-05, -1.3828e-04,  1.1641e-04,  2.2531e-04, -1.4439e-05,
+        -7.6532e-04,  2.3830e-04, -1.5008e-04,  2.1410e-04,  2.4700e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 51, time 221.27, cls_loss 0.0154 cls_loss_mapping 0.0269 cls_loss_causal 0.7268 re_mapping 0.0153 re_causal 0.0442 /// teacc 98.59 lr 0.00010000
+Epoch 53, weight, value: tensor([[ 0.0199,  0.0110, -0.0063,  ...,  0.0376, -0.0697, -0.0627],
+        [ 0.0347, -0.0185,  0.0236,  ..., -0.0560,  0.0359, -0.0815],
+        [ 0.0118, -0.0048,  0.0691,  ..., -0.0788, -0.0416, -0.0871],
+        ...,
+        [ 0.0029,  0.0062, -0.0351,  ...,  0.0154,  0.0634,  0.0525],
+        [ 0.0084, -0.0202, -0.0311,  ..., -0.0838,  0.0438, -0.0754],
+        [-0.0112, -0.0258, -0.0250,  ...,  0.0164, -0.0211,  0.0083]],
+       device='cuda:0'), grad: tensor([[ 1.7323e-07,  0.0000e+00,  1.3366e-05,  ..., -1.6615e-05,
+          3.6299e-05,  4.3400e-06],
+        [ 1.1586e-06,  0.0000e+00,  6.1989e-05,  ...,  2.8864e-05,
+          8.4698e-05,  3.1948e-05],
+        [ 2.7847e-07,  0.0000e+00, -2.6202e-04,  ...,  5.1036e-06,
+         -2.3797e-05,  5.6103e-06],
+        ...,
+        [-6.3069e-06,  0.0000e+00,  7.3254e-05,  ...,  3.6865e-05,
+          5.6066e-06,  1.5450e-04],
+        [ 5.4017e-07,  0.0000e+00,  5.2959e-05,  ...,  1.7837e-05,
+         -3.0994e-05,  2.0489e-05],
+        [ 1.5460e-06,  0.0000e+00,  3.5875e-06,  ..., -8.5592e-05,
+          4.2804e-06, -4.7255e-04]], device='cuda:0')
+Epoch 53, bias, value: tensor([-0.0240,  0.0157,  0.0252,  0.0069,  0.0216, -0.0138, -0.0098, -0.0199,
+        -0.0079,  0.0244], device='cuda:0'), grad: tensor([ 5.4628e-05,  2.2602e-04, -2.7657e-04,  5.9277e-05,  5.3316e-05,
+         4.6134e-05, -6.0320e-05,  2.0254e-04,  6.4909e-05, -3.7003e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 52, time 221.07, cls_loss 0.0150 cls_loss_mapping 0.0208 cls_loss_causal 0.6986 re_mapping 0.0149 re_causal 0.0442 /// teacc 98.66 lr 0.00010000
+Epoch 54, weight, value: tensor([[ 0.0198,  0.0110, -0.0067,  ...,  0.0372, -0.0691, -0.0645],
+        [ 0.0346, -0.0185,  0.0236,  ..., -0.0573,  0.0361, -0.0806],
+        [ 0.0117, -0.0048,  0.0703,  ..., -0.0797, -0.0417, -0.0875],
+        ...,
+        [ 0.0032,  0.0062, -0.0360,  ...,  0.0149,  0.0634,  0.0520],
+        [ 0.0083, -0.0202, -0.0320,  ..., -0.0841,  0.0439, -0.0761],
+        [-0.0114, -0.0258, -0.0245,  ...,  0.0169, -0.0214,  0.0090]],
+       device='cuda:0'), grad: tensor([[ 5.3924e-07,  0.0000e+00, -8.5115e-05,  ..., -1.9503e-04,
+         -6.2361e-06,  4.8056e-06],
+        [ 2.4512e-06,  0.0000e+00,  1.3493e-05,  ...,  2.3708e-05,
+         -1.7524e-05,  3.3140e-05],
+        [ 2.1532e-06,  0.0000e+00, -7.6115e-05,  ...,  6.9499e-05,
+          1.2428e-05,  9.2387e-06],
+        ...,
+        [-2.6315e-05,  0.0000e+00,  7.8797e-05,  ...,  1.1131e-05,
+         -3.5226e-05, -5.3465e-05],
+        [ 1.2917e-06,  0.0000e+00,  3.3379e-05,  ...,  7.0810e-05,
+          2.9325e-05,  8.8155e-05],
+        [ 1.1891e-05,  0.0000e+00,  5.9932e-05,  ...,  6.9737e-05,
+          3.6627e-05,  8.6725e-05]], device='cuda:0')
+Epoch 54, bias, value: tensor([-0.0246,  0.0159,  0.0258,  0.0068,  0.0213, -0.0136, -0.0093, -0.0205,
+        -0.0079,  0.0246], device='cuda:0'), grad: tensor([-2.7013e-04,  2.9415e-05, -3.5435e-05, -2.8992e-03, -9.7454e-05,
+         8.7404e-04,  1.7643e-04,  8.8513e-05,  1.5621e-03,  5.7125e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 53, time 221.33, cls_loss 0.0169 cls_loss_mapping 0.0255 cls_loss_causal 0.7198 re_mapping 0.0148 re_causal 0.0411 /// teacc 98.65 lr 0.00010000
+Epoch 55, weight, value: tensor([[ 0.0197,  0.0110, -0.0076,  ...,  0.0366, -0.0693, -0.0662],
+        [ 0.0345, -0.0185,  0.0234,  ..., -0.0585,  0.0361, -0.0815],
+        [ 0.0113, -0.0048,  0.0710,  ..., -0.0806, -0.0424, -0.0887],
+        ...,
+        [ 0.0035,  0.0062, -0.0371,  ...,  0.0140,  0.0643,  0.0523],
+        [ 0.0083, -0.0202, -0.0324,  ..., -0.0848,  0.0443, -0.0776],
+        [-0.0112, -0.0258, -0.0240,  ...,  0.0176, -0.0217,  0.0091]],
+       device='cuda:0'), grad: tensor([[ 7.4133e-07,  0.0000e+00, -5.4687e-06,  ..., -1.5378e-05,
+          3.8128e-06,  3.8892e-06],
+        [ 6.7502e-06,  0.0000e+00,  2.9244e-06,  ...,  4.5002e-06,
+          8.1286e-06,  3.4302e-05],
+        [ 5.1446e-06,  0.0000e+00, -2.3723e-05,  ...,  2.5518e-06,
+          1.4432e-05,  1.1683e-05],
+        ...,
+        [-4.2677e-05,  0.0000e+00,  8.9034e-06,  ...,  5.8636e-06,
+         -8.1420e-05, -1.2684e-04],
+        [ 1.5954e-06,  0.0000e+00,  5.7667e-06,  ...,  5.5209e-06,
+         -6.3516e-07,  1.3240e-05],
+        [ 4.1053e-06,  0.0000e+00,  4.2096e-06,  ..., -7.8678e-06,
+          1.0222e-05, -2.9340e-05]], device='cuda:0')
+Epoch 55, bias, value: tensor([-0.0254,  0.0155,  0.0258,  0.0074,  0.0215, -0.0136, -0.0095, -0.0207,
+        -0.0077,  0.0248], device='cuda:0'), grad: tensor([-9.5069e-06,  4.1604e-05,  1.3590e-05,  2.1243e-04,  1.9185e-06,
+        -1.3244e-04,  8.5905e-06, -1.9693e-04,  4.7594e-05,  1.3247e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 54, time 221.36, cls_loss 0.0137 cls_loss_mapping 0.0219 cls_loss_causal 0.6747 re_mapping 0.0153 re_causal 0.0426 /// teacc 98.54 lr 0.00010000
+Epoch 56, weight, value: tensor([[ 0.0196,  0.0110, -0.0074,  ...,  0.0372, -0.0693, -0.0669],
+        [ 0.0346, -0.0185,  0.0231,  ..., -0.0594,  0.0360, -0.0820],
+        [ 0.0113, -0.0048,  0.0722,  ..., -0.0814, -0.0429, -0.0903],
+        ...,
+        [ 0.0038,  0.0062, -0.0378,  ...,  0.0136,  0.0648,  0.0519],
+        [ 0.0083, -0.0202, -0.0326,  ..., -0.0859,  0.0450, -0.0782],
+        [-0.0115, -0.0258, -0.0247,  ...,  0.0176, -0.0221,  0.0095]],
+       device='cuda:0'), grad: tensor([[ 5.2806e-07,  0.0000e+00,  4.5039e-06,  ..., -2.3060e-06,
+          1.7866e-05,  5.3272e-06],
+        [ 5.5134e-06,  0.0000e+00,  1.1265e-05,  ...,  1.1390e-06,
+         -1.4555e-04,  1.7747e-05],
+        [ 1.4883e-06,  0.0000e+00,  3.3021e-04,  ...,  1.3579e-06,
+          1.2256e-05,  3.1531e-05],
+        ...,
+        [-1.8045e-05,  0.0000e+00,  1.8209e-05,  ...,  1.4035e-06,
+         -1.6168e-05, -1.5765e-05],
+        [ 1.7816e-06,  0.0000e+00,  1.8880e-05,  ...,  2.9877e-06,
+          3.3170e-05,  2.5773e-04],
+        [ 4.1910e-06,  0.0000e+00,  2.0280e-05,  ..., -6.4634e-06,
+          1.9297e-05, -3.4571e-04]], device='cuda:0')
+Epoch 56, bias, value: tensor([-0.0253,  0.0152,  0.0261,  0.0071,  0.0217, -0.0132, -0.0094, -0.0210,
+        -0.0077,  0.0249], device='cuda:0'), grad: tensor([ 5.1290e-05, -2.1517e-04,  4.9543e-04, -7.5960e-04,  9.5069e-05,
+         6.9427e-04, -4.7779e-04,  2.0787e-05,  3.2258e-04, -2.2697e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 55, time 221.94, cls_loss 0.0129 cls_loss_mapping 0.0220 cls_loss_causal 0.6722 re_mapping 0.0153 re_causal 0.0428 /// teacc 98.54 lr 0.00010000
+Epoch 57, weight, value: tensor([[ 0.0196,  0.0110, -0.0075,  ...,  0.0377, -0.0693, -0.0679],
+        [ 0.0345, -0.0185,  0.0230,  ..., -0.0602,  0.0363, -0.0826],
+        [ 0.0111, -0.0048,  0.0724,  ..., -0.0819, -0.0433, -0.0905],
+        ...,
+        [ 0.0044,  0.0062, -0.0387,  ...,  0.0152,  0.0662,  0.0547],
+        [ 0.0083, -0.0202, -0.0330,  ..., -0.0870,  0.0453, -0.0787],
+        [-0.0120, -0.0258, -0.0246,  ...,  0.0178, -0.0228,  0.0094]],
+       device='cuda:0'), grad: tensor([[ 8.3819e-08,  0.0000e+00,  2.3380e-05,  ...,  7.8753e-06,
+          1.7181e-05,  1.8656e-05],
+        [ 6.6776e-07,  0.0000e+00,  1.4257e-04,  ...,  2.6733e-05,
+          1.7798e-04,  4.4018e-05],
+        [ 2.5332e-07,  0.0000e+00, -1.1044e-03,  ...,  1.5229e-05,
+         -5.0385e-07,  2.3559e-05],
+        ...,
+        [-5.4874e-06,  0.0000e+00,  5.9545e-05,  ...,  1.4424e-04,
+          2.2590e-05,  2.4211e-04],
+        [ 4.9267e-07,  0.0000e+00,  3.1042e-04,  ...,  2.1771e-05,
+          1.5574e-03,  7.8738e-05],
+        [ 2.6319e-06,  0.0000e+00,  8.9854e-06,  ..., -1.7494e-05,
+         -4.5300e-06, -2.1696e-04]], device='cuda:0')
+Epoch 57, bias, value: tensor([-0.0253,  0.0152,  0.0257,  0.0072,  0.0207, -0.0130, -0.0094, -0.0197,
+        -0.0079,  0.0246], device='cuda:0'), grad: tensor([ 8.5890e-05,  4.6706e-04, -1.4715e-03,  6.3896e-04, -1.4770e-04,
+        -2.9011e-03,  5.0402e-04,  3.5262e-04,  2.5520e-03, -7.9393e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 56, time 221.22, cls_loss 0.0124 cls_loss_mapping 0.0210 cls_loss_causal 0.7005 re_mapping 0.0141 re_causal 0.0433 /// teacc 98.69 lr 0.00010000
+Epoch 58, weight, value: tensor([[ 0.0195,  0.0110, -0.0073,  ...,  0.0384, -0.0697, -0.0669],
+        [ 0.0347, -0.0185,  0.0229,  ..., -0.0622,  0.0368, -0.0827],
+        [ 0.0110, -0.0048,  0.0733,  ..., -0.0825, -0.0439, -0.0907],
+        ...,
+        [ 0.0049,  0.0062, -0.0394,  ...,  0.0147,  0.0660,  0.0542],
+        [ 0.0083, -0.0202, -0.0335,  ..., -0.0878,  0.0458, -0.0792],
+        [-0.0126, -0.0258, -0.0256,  ...,  0.0181, -0.0230,  0.0097]],
+       device='cuda:0'), grad: tensor([[ 7.4320e-07,  0.0000e+00, -6.3992e-04,  ..., -1.3094e-03,
+          1.0747e-06,  7.4565e-05],
+        [ 6.3609e-07,  0.0000e+00,  2.2173e-05,  ...,  1.2249e-05,
+         -1.1377e-05,  1.1742e-05],
+        [ 3.1907e-06,  0.0000e+00, -5.3763e-05,  ...,  2.3142e-05,
+          8.8811e-06,  4.2111e-05],
+        ...,
+        [-1.4804e-05,  0.0000e+00,  1.9565e-05,  ...,  1.0356e-05,
+         -1.3150e-05, -1.2062e-05],
+        [ 1.9819e-06,  0.0000e+00,  9.7752e-05,  ...,  2.5964e-04,
+         -1.1951e-05,  1.7738e-04],
+        [ 2.3060e-06,  0.0000e+00,  1.3739e-05,  ...,  4.7374e-04,
+          9.0227e-06,  9.5701e-04]], device='cuda:0')
+Epoch 58, bias, value: tensor([-0.0249,  0.0154,  0.0258,  0.0074,  0.0207, -0.0133, -0.0095, -0.0205,
+        -0.0078,  0.0248], device='cuda:0'), grad: tensor([-2.1896e-03,  2.7865e-05,  6.9857e-05, -4.5967e-03,  1.6773e-04,
+         6.5088e-04,  1.7176e-03,  2.3857e-05,  8.6355e-04,  3.2597e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 57, time 220.96, cls_loss 0.0137 cls_loss_mapping 0.0196 cls_loss_causal 0.6868 re_mapping 0.0132 re_causal 0.0384 /// teacc 98.57 lr 0.00010000
+Epoch 59, weight, value: tensor([[ 0.0193,  0.0110, -0.0078,  ...,  0.0381, -0.0700, -0.0676],
+        [ 0.0345, -0.0185,  0.0229,  ..., -0.0632,  0.0368, -0.0834],
+        [ 0.0112, -0.0048,  0.0738,  ..., -0.0835, -0.0441, -0.0905],
+        ...,
+        [ 0.0057,  0.0062, -0.0403,  ...,  0.0140,  0.0666,  0.0547],
+        [ 0.0080, -0.0202, -0.0341,  ..., -0.0891,  0.0460, -0.0803],
+        [-0.0132, -0.0258, -0.0243,  ...,  0.0189, -0.0234,  0.0096]],
+       device='cuda:0'), grad: tensor([[ 7.3761e-07,  0.0000e+00,  1.4059e-05,  ..., -2.1040e-05,
+          1.2204e-05,  2.7940e-05],
+        [ 2.4829e-06,  0.0000e+00,  1.9848e-05,  ...,  5.7295e-06,
+         -3.8326e-05,  9.0539e-05],
+        [-2.6729e-06,  0.0000e+00, -1.2887e-04,  ...,  8.4490e-06,
+          6.3956e-05,  9.7752e-05],
+        ...,
+        [-1.0043e-05,  0.0000e+00,  3.6687e-05,  ...,  1.1131e-05,
+          6.7241e-06,  3.7372e-05],
+        [ 2.4661e-06,  0.0000e+00,  6.3419e-05,  ..., -1.8656e-04,
+         -1.1711e-03, -3.5248e-03],
+        [ 1.0915e-06,  0.0000e+00,  1.2815e-05,  ...,  1.4484e-04,
+          9.5654e-04,  2.8687e-03]], device='cuda:0')
+Epoch 59, bias, value: tensor([-0.0251,  0.0152,  0.0259,  0.0074,  0.0213, -0.0131, -0.0101, -0.0202,
+        -0.0079,  0.0248], device='cuda:0'), grad: tensor([ 1.0014e-04,  7.7307e-05,  2.7061e-04,  2.6798e-04,  1.8609e-04,
+         2.7061e-04,  4.8131e-06,  2.0015e-04, -8.7204e-03,  7.3395e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 58, time 221.73, cls_loss 0.0112 cls_loss_mapping 0.0173 cls_loss_causal 0.6771 re_mapping 0.0147 re_causal 0.0411 /// teacc 98.57 lr 0.00010000
+Epoch 60, weight, value: tensor([[ 0.0192,  0.0110, -0.0076,  ...,  0.0385, -0.0704, -0.0684],
+        [ 0.0341, -0.0185,  0.0231,  ..., -0.0638,  0.0369, -0.0843],
+        [ 0.0111, -0.0048,  0.0744,  ..., -0.0842, -0.0447, -0.0916],
+        ...,
+        [ 0.0063,  0.0062, -0.0407,  ...,  0.0136,  0.0674,  0.0553],
+        [ 0.0078, -0.0202, -0.0345,  ..., -0.0905,  0.0462, -0.0812],
+        [-0.0131, -0.0258, -0.0246,  ...,  0.0194, -0.0239,  0.0103]],
+       device='cuda:0'), grad: tensor([[ 1.3690e-07,  0.0000e+00,  1.4249e-06,  ...,  1.0416e-05,
+          1.1012e-05,  1.8748e-06],
+        [ 1.1800e-06,  0.0000e+00,  4.0606e-06,  ...,  1.7583e-06,
+         -6.7949e-05,  6.5565e-06],
+        [ 1.5870e-06,  0.0000e+00, -7.4387e-05,  ...,  2.7902e-06,
+         -9.7156e-06,  8.5682e-06],
+        ...,
+        [-9.3430e-06,  0.0000e+00,  9.7156e-06,  ...,  3.4064e-05,
+         -2.8297e-05,  3.6974e-06],
+        [ 5.9884e-07,  0.0000e+00,  4.0710e-05,  ...,  1.4886e-05,
+          2.1055e-05,  1.7226e-05],
+        [ 1.3821e-06,  0.0000e+00,  1.2266e-06,  ...,  1.0692e-06,
+          8.5235e-06, -1.4529e-05]], device='cuda:0')
+Epoch 60, bias, value: tensor([-0.0252,  0.0152,  0.0258,  0.0074,  0.0213, -0.0135, -0.0101, -0.0199,
+        -0.0078,  0.0248], device='cuda:0'), grad: tensor([ 4.2439e-05, -1.2696e-04, -7.3075e-05,  2.8110e-04, -4.7460e-06,
+        -2.6655e-04,  5.6177e-06,  3.2000e-06,  1.1545e-04,  2.3276e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 59, time 221.40, cls_loss 0.0144 cls_loss_mapping 0.0254 cls_loss_causal 0.6531 re_mapping 0.0144 re_causal 0.0410 /// teacc 98.62 lr 0.00010000
+Epoch 61, weight, value: tensor([[ 0.0192,  0.0110, -0.0072,  ...,  0.0394, -0.0708, -0.0690],
+        [ 0.0341, -0.0185,  0.0228,  ..., -0.0641,  0.0362, -0.0847],
+        [ 0.0111, -0.0048,  0.0751,  ..., -0.0865, -0.0448, -0.0923],
+        ...,
+        [ 0.0064,  0.0062, -0.0412,  ...,  0.0135,  0.0680,  0.0558],
+        [ 0.0078, -0.0202, -0.0345,  ..., -0.0913,  0.0476, -0.0816],
+        [-0.0132, -0.0258, -0.0251,  ...,  0.0195, -0.0244,  0.0109]],
+       device='cuda:0'), grad: tensor([[ 1.0058e-07,  0.0000e+00,  1.0980e-06,  ...,  1.5974e-05,
+          1.6600e-05,  2.5645e-05],
+        [ 8.2701e-07,  0.0000e+00,  6.1281e-07,  ...,  8.5011e-06,
+         -6.5088e-04,  2.1547e-05],
+        [ 6.7148e-07,  0.0000e+00,  4.3958e-06,  ...,  6.4820e-06,
+          1.5251e-05,  1.1757e-05],
+        ...,
+        [-3.3043e-06,  0.0000e+00,  1.8813e-06,  ..., -2.9728e-06,
+         -6.2287e-05, -9.5010e-05],
+        [ 2.4121e-07,  0.0000e+00,  8.9556e-06,  ...,  4.7207e-05,
+          6.0272e-04,  5.2392e-05],
+        [ 7.5158e-07,  0.0000e+00,  4.1947e-06,  ..., -1.0598e-04,
+          4.0770e-05, -7.1287e-05]], device='cuda:0')
+Epoch 61, bias, value: tensor([-0.0246,  0.0145,  0.0260,  0.0073,  0.0209, -0.0134, -0.0103, -0.0196,
+        -0.0074,  0.0248], device='cuda:0'), grad: tensor([ 7.1824e-05, -9.3269e-04,  5.6058e-05, -7.9393e-05,  4.5598e-05,
+         4.1634e-05,  2.9951e-05, -1.1152e-04,  1.0157e-03, -1.3673e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 60----------------------------------------------------
+epoch 60, time 221.80, cls_loss 0.0117 cls_loss_mapping 0.0188 cls_loss_causal 0.6517 re_mapping 0.0141 re_causal 0.0402 /// teacc 98.76 lr 0.00010000
+Epoch 62, weight, value: tensor([[ 0.0192,  0.0110, -0.0069,  ...,  0.0400, -0.0714, -0.0696],
+        [ 0.0340, -0.0185,  0.0227,  ..., -0.0639,  0.0365, -0.0836],
+        [ 0.0110, -0.0048,  0.0757,  ..., -0.0873, -0.0454, -0.0932],
+        ...,
+        [ 0.0066,  0.0062, -0.0417,  ...,  0.0130,  0.0687,  0.0558],
+        [ 0.0078, -0.0202, -0.0352,  ..., -0.0905,  0.0484, -0.0832],
+        [-0.0133, -0.0258, -0.0258,  ...,  0.0194, -0.0248,  0.0112]],
+       device='cuda:0'), grad: tensor([[ 1.2200e-07,  0.0000e+00,  9.0152e-06,  ..., -2.0933e-04,
+         -7.1377e-06,  4.7535e-06],
+        [ 1.3346e-06,  0.0000e+00,  1.0788e-05,  ...,  6.3293e-06,
+          1.8021e-06,  6.6571e-06],
+        [ 8.6799e-07,  0.0000e+00, -3.9887e-04,  ...,  1.1519e-05,
+          4.4666e-06, -2.0817e-05],
+        ...,
+        [-7.9498e-06,  0.0000e+00,  3.1042e-04,  ...,  1.0535e-05,
+         -1.7896e-05,  1.6065e-06],
+        [ 2.8312e-07,  0.0000e+00,  1.2919e-05,  ...,  3.6746e-05,
+         -9.2268e-05, -6.9290e-06],
+        [ 3.2801e-06,  0.0000e+00,  1.5423e-05,  ...,  5.8919e-05,
+          2.6420e-05, -3.5316e-06]], device='cuda:0')
+Epoch 62, bias, value: tensor([-0.0244,  0.0150,  0.0261,  0.0076,  0.0209, -0.0139, -0.0107, -0.0196,
+        -0.0076,  0.0246], device='cuda:0'), grad: tensor([-2.2268e-04,  2.8804e-05, -6.4182e-04,  6.9976e-05,  9.2685e-06,
+         1.0207e-05,  1.2469e-04,  5.0926e-04, -5.4657e-05,  1.6630e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 61, time 220.71, cls_loss 0.0092 cls_loss_mapping 0.0137 cls_loss_causal 0.6800 re_mapping 0.0132 re_causal 0.0405 /// teacc 98.75 lr 0.00010000
+Epoch 63, weight, value: tensor([[ 0.0192,  0.0110, -0.0066,  ...,  0.0402, -0.0723, -0.0709],
+        [ 0.0340, -0.0185,  0.0227,  ..., -0.0653,  0.0366, -0.0842],
+        [ 0.0110, -0.0048,  0.0761,  ..., -0.0883, -0.0464, -0.0939],
+        ...,
+        [ 0.0068,  0.0062, -0.0423,  ...,  0.0127,  0.0691,  0.0557],
+        [ 0.0078, -0.0202, -0.0352,  ..., -0.0903,  0.0489, -0.0833],
+        [-0.0134, -0.0258, -0.0262,  ...,  0.0194, -0.0251,  0.0112]],
+       device='cuda:0'), grad: tensor([[ 1.7229e-07,  0.0000e+00, -7.3574e-07,  ..., -1.4091e-06,
+          8.9630e-06,  8.7172e-06],
+        [ 8.6799e-07,  0.0000e+00,  3.3341e-07,  ...,  3.2115e-04,
+          3.5286e-04,  6.1703e-04],
+        [ 1.2824e-06,  0.0000e+00, -4.0568e-06,  ...,  5.2862e-06,
+          2.1651e-05,  2.0325e-05],
+        ...,
+        [-1.6496e-05,  0.0000e+00,  2.8200e-06,  ...,  2.2307e-05,
+         -6.9141e-05, -7.5877e-05],
+        [ 1.2163e-06,  0.0000e+00,  1.9856e-06,  ...,  3.2037e-05,
+          1.9938e-05,  7.3791e-05],
+        [ 1.2159e-05,  0.0000e+00,  1.3374e-06,  ..., -1.3374e-05,
+          7.5102e-05, -1.7667e-04]], device='cuda:0')
+Epoch 63, bias, value: tensor([-0.0247,  0.0150,  0.0257,  0.0079,  0.0212, -0.0141, -0.0105, -0.0199,
+        -0.0070,  0.0245], device='cuda:0'), grad: tensor([ 1.7002e-05,  8.4496e-04,  3.9697e-05, -5.2780e-05, -1.0386e-03,
+         2.0671e-04,  3.3081e-05, -9.5308e-05,  9.5725e-05, -4.9800e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 62, time 220.84, cls_loss 0.0103 cls_loss_mapping 0.0185 cls_loss_causal 0.6683 re_mapping 0.0130 re_causal 0.0395 /// teacc 98.75 lr 0.00010000
+Epoch 64, weight, value: tensor([[ 0.0191,  0.0110, -0.0067,  ...,  0.0410, -0.0728, -0.0717],
+        [ 0.0338, -0.0185,  0.0225,  ..., -0.0663,  0.0371, -0.0835],
+        [ 0.0109, -0.0048,  0.0767,  ..., -0.0886, -0.0470, -0.0954],
+        ...,
+        [ 0.0073,  0.0062, -0.0430,  ...,  0.0125,  0.0692,  0.0551],
+        [ 0.0076, -0.0202, -0.0354,  ..., -0.0915,  0.0494, -0.0842],
+        [-0.0134, -0.0258, -0.0265,  ...,  0.0194, -0.0256,  0.0116]],
+       device='cuda:0'), grad: tensor([[ 2.9728e-06,  0.0000e+00,  1.0263e-06,  ...,  2.2054e-06,
+          4.3571e-05,  3.8326e-05],
+        [ 4.6752e-06,  0.0000e+00,  2.3283e-06,  ...,  1.1727e-05,
+          8.1062e-04,  4.8399e-04],
+        [ 2.0397e-04,  0.0000e+00,  2.1899e-04,  ...,  7.1079e-06,
+          2.0373e-04,  5.9462e-04],
+        ...,
+        [ 1.2165e-04,  0.0000e+00,  1.4794e-04,  ...,  2.2382e-05,
+         -1.2550e-03, -2.7275e-04],
+        [ 1.0036e-05,  0.0000e+00,  4.0010e-06,  ...,  3.5405e-05,
+         -1.8096e-04,  7.4625e-05],
+        [ 3.9339e-06,  0.0000e+00,  5.7183e-06,  ...,  3.5343e-03,
+          1.2219e-04,  1.0765e-02]], device='cuda:0')
+Epoch 64, bias, value: tensor([-0.0245,  0.0153,  0.0257,  0.0075,  0.0215, -0.0138, -0.0104, -0.0203,
+        -0.0073,  0.0246], device='cuda:0'), grad: tensor([ 0.0002,  0.0016,  0.0017, -0.0095, -0.0083,  0.0075,  0.0001, -0.0014,
+        -0.0004,  0.0086], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 63, time 220.97, cls_loss 0.0096 cls_loss_mapping 0.0161 cls_loss_causal 0.6065 re_mapping 0.0128 re_causal 0.0361 /// teacc 98.66 lr 0.00010000
+Epoch 65, weight, value: tensor([[ 0.0191,  0.0110, -0.0067,  ...,  0.0416, -0.0733, -0.0724],
+        [ 0.0338, -0.0185,  0.0223,  ..., -0.0667,  0.0376, -0.0837],
+        [ 0.0107, -0.0048,  0.0772,  ..., -0.0893, -0.0474, -0.0958],
+        ...,
+        [ 0.0077,  0.0062, -0.0430,  ...,  0.0123,  0.0698,  0.0554],
+        [ 0.0075, -0.0202, -0.0357,  ..., -0.0921,  0.0494, -0.0853],
+        [-0.0137, -0.0258, -0.0267,  ...,  0.0195, -0.0261,  0.0118]],
+       device='cuda:0'), grad: tensor([[ 1.2647e-06,  0.0000e+00, -5.4359e-05,  ..., -4.3333e-05,
+          1.5736e-05,  3.6731e-06],
+        [ 5.6662e-06,  0.0000e+00,  5.7146e-06,  ...,  5.2601e-06,
+          1.6689e-05,  1.4052e-05],
+        [ 3.1330e-06,  0.0000e+00, -1.4484e-04,  ...,  1.6481e-05,
+          9.3818e-05,  5.9977e-06],
+        ...,
+        [-2.1845e-05,  0.0000e+00,  1.7476e-04,  ...,  5.5619e-06,
+         -8.3372e-06, -1.4558e-05],
+        [ 1.5246e-06,  0.0000e+00, -4.5747e-05,  ...,  2.0802e-05,
+          4.9502e-05,  9.1493e-06],
+        [ 5.2936e-06,  0.0000e+00,  1.1571e-05,  ...,  1.2569e-05,
+          1.3478e-05,  4.1574e-06]], device='cuda:0')
+Epoch 65, bias, value: tensor([-0.0244,  0.0157,  0.0254,  0.0075,  0.0213, -0.0139, -0.0107, -0.0197,
+        -0.0074,  0.0243], device='cuda:0'), grad: tensor([-3.9339e-05,  5.0873e-05, -1.8525e-04,  3.7313e-04, -7.6741e-06,
+        -1.0653e-03, -2.2507e-04,  3.5667e-04,  6.4993e-04,  9.2149e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 64----------------------------------------------------
+epoch 64, time 221.51, cls_loss 0.0106 cls_loss_mapping 0.0175 cls_loss_causal 0.6603 re_mapping 0.0130 re_causal 0.0379 /// teacc 98.87 lr 0.00010000
+Epoch 66, weight, value: tensor([[ 0.0189,  0.0110, -0.0068,  ...,  0.0422, -0.0741, -0.0705],
+        [ 0.0334, -0.0185,  0.0221,  ..., -0.0672,  0.0381, -0.0836],
+        [ 0.0107, -0.0048,  0.0781,  ..., -0.0907, -0.0483, -0.0971],
+        ...,
+        [ 0.0082,  0.0062, -0.0438,  ...,  0.0118,  0.0701,  0.0553],
+        [ 0.0074, -0.0202, -0.0361,  ..., -0.0926,  0.0495, -0.0860],
+        [-0.0136, -0.0258, -0.0270,  ...,  0.0193, -0.0264,  0.0119]],
+       device='cuda:0'), grad: tensor([[ 4.5076e-07,  0.0000e+00, -2.1569e-06,  ..., -3.2708e-06,
+          6.3330e-06,  3.2425e-05],
+        [ 2.9393e-06,  0.0000e+00, -3.3975e-05,  ...,  1.5749e-06,
+         -1.5676e-04,  8.2031e-06],
+        [ 1.9185e-06,  0.0000e+00, -3.2693e-05,  ...,  1.2070e-05,
+          9.1195e-05,  4.8041e-05],
+        ...,
+        [-1.3337e-05,  0.0000e+00,  4.3690e-05,  ...,  4.2915e-06,
+         -1.4842e-05, -1.4260e-05],
+        [ 5.1223e-06,  0.0000e+00,  1.8358e-05,  ...,  3.8147e-05,
+          1.9163e-05,  1.8156e-04],
+        [ 9.6634e-06,  0.0000e+00,  1.0923e-05,  ..., -6.6698e-05,
+          2.3365e-05, -3.5906e-04]], device='cuda:0')
+Epoch 66, bias, value: tensor([-0.0244,  0.0159,  0.0253,  0.0076,  0.0211, -0.0139, -0.0097, -0.0198,
+        -0.0076,  0.0240], device='cuda:0'), grad: tensor([ 4.8399e-05, -2.5320e-04,  1.6594e-04,  9.5367e-04,  9.6738e-05,
+        -1.0910e-03,  7.3910e-05,  4.9531e-05,  2.7061e-04, -3.1471e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 65, time 221.44, cls_loss 0.0111 cls_loss_mapping 0.0198 cls_loss_causal 0.6015 re_mapping 0.0134 re_causal 0.0378 /// teacc 98.82 lr 0.00010000
+Epoch 67, weight, value: tensor([[ 0.0189,  0.0110, -0.0066,  ...,  0.0430, -0.0742, -0.0708],
+        [ 0.0333, -0.0185,  0.0217,  ..., -0.0675,  0.0378, -0.0839],
+        [ 0.0108, -0.0048,  0.0795,  ..., -0.0913, -0.0490, -0.0977],
+        ...,
+        [ 0.0081,  0.0062, -0.0443,  ...,  0.0116,  0.0714,  0.0553],
+        [ 0.0070, -0.0202, -0.0359,  ..., -0.0935,  0.0506, -0.0870],
+        [-0.0134, -0.0258, -0.0273,  ...,  0.0190, -0.0272,  0.0118]],
+       device='cuda:0'), grad: tensor([[ 1.2666e-07,  0.0000e+00, -2.2754e-05,  ..., -1.4341e-04,
+          7.3090e-06,  1.1194e-06],
+        [ 4.6194e-07,  0.0000e+00,  2.6003e-06,  ...,  1.5730e-06,
+         -1.4096e-05,  8.5495e-07],
+        [ 7.2923e-07,  0.0000e+00, -1.6078e-05,  ...,  6.0052e-06,
+          2.3507e-06,  1.5441e-06],
+        ...,
+        [-3.9972e-06,  0.0000e+00,  1.7360e-06,  ...,  4.2804e-06,
+         -4.7944e-06,  4.9993e-06],
+        [ 3.4180e-07,  0.0000e+00,  8.8215e-06,  ...,  1.0327e-05,
+         -8.4471e-07,  6.7540e-06],
+        [ 9.3039e-07,  0.0000e+00,  6.0201e-06,  ..., -9.9018e-06,
+          3.3639e-06, -7.8797e-05]], device='cuda:0')
+Epoch 67, bias, value: tensor([-0.0240,  0.0155,  0.0257,  0.0076,  0.0216, -0.0143, -0.0107, -0.0196,
+        -0.0070,  0.0235], device='cuda:0'), grad: tensor([-1.2052e-04, -1.8820e-05, -1.5618e-06,  6.8188e-05,  5.2691e-05,
+        -1.8016e-05,  5.9992e-05,  2.7064e-06,  1.4782e-05, -3.9488e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 66, time 221.17, cls_loss 0.0098 cls_loss_mapping 0.0162 cls_loss_causal 0.6314 re_mapping 0.0124 re_causal 0.0372 /// teacc 98.71 lr 0.00010000
+Epoch 68, weight, value: tensor([[ 0.0188,  0.0110, -0.0064,  ...,  0.0436, -0.0745, -0.0706],
+        [ 0.0332, -0.0185,  0.0213,  ..., -0.0683,  0.0374, -0.0849],
+        [ 0.0107, -0.0048,  0.0798,  ..., -0.0924, -0.0497, -0.0989],
+        ...,
+        [ 0.0083,  0.0062, -0.0449,  ...,  0.0123,  0.0721,  0.0560],
+        [ 0.0069, -0.0202, -0.0360,  ..., -0.0940,  0.0508, -0.0866],
+        [-0.0132, -0.0258, -0.0275,  ...,  0.0186, -0.0276,  0.0115]],
+       device='cuda:0'), grad: tensor([[ 3.5111e-06,  0.0000e+00, -5.2631e-05,  ..., -1.8522e-05,
+          5.5492e-05,  4.8906e-05],
+        [ 1.7229e-07,  0.0000e+00,  1.5962e-04,  ...,  6.1512e-05,
+          1.7077e-05,  3.5673e-05],
+        [ 1.5469e-06,  0.0000e+00, -4.0555e-04,  ...,  3.4392e-05,
+         -1.4126e-04,  1.8403e-05],
+        ...,
+        [-2.3305e-05,  0.0000e+00,  2.2247e-05,  ...,  1.9699e-05,
+         -2.0966e-05, -5.0962e-05],
+        [ 1.7881e-06,  0.0000e+00,  6.9261e-05,  ...,  4.8071e-05,
+          7.3552e-05,  4.1008e-05],
+        [ 1.0751e-05,  0.0000e+00,  3.1859e-05,  ..., -5.5492e-05,
+          4.2409e-05, -2.7537e-04]], device='cuda:0')
+Epoch 68, bias, value: tensor([-0.0237,  0.0148,  0.0253,  0.0077,  0.0215, -0.0137, -0.0100, -0.0192,
+        -0.0072,  0.0231], device='cuda:0'), grad: tensor([ 4.1097e-05,  3.9411e-04, -7.6580e-04,  4.6283e-05,  1.5974e-03,
+        -1.1379e-04, -1.6537e-03, -2.7224e-05,  4.8161e-04,  2.2203e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 67----------------------------------------------------
+epoch 67, time 221.84, cls_loss 0.0101 cls_loss_mapping 0.0138 cls_loss_causal 0.6174 re_mapping 0.0129 re_causal 0.0369 /// teacc 98.88 lr 0.00010000
+Epoch 69, weight, value: tensor([[ 0.0187,  0.0110, -0.0067,  ...,  0.0441, -0.0746, -0.0712],
+        [ 0.0332, -0.0185,  0.0214,  ..., -0.0688,  0.0385, -0.0853],
+        [ 0.0104, -0.0048,  0.0804,  ..., -0.0928, -0.0509, -0.0990],
+        ...,
+        [ 0.0085,  0.0062, -0.0460,  ...,  0.0112,  0.0721,  0.0552],
+        [ 0.0074, -0.0202, -0.0360,  ..., -0.0951,  0.0509, -0.0881],
+        [-0.0135, -0.0258, -0.0278,  ...,  0.0193, -0.0279,  0.0121]],
+       device='cuda:0'), grad: tensor([[ 2.3581e-06,  0.0000e+00,  2.0042e-05,  ...,  1.9693e-04,
+          5.9903e-06,  1.2541e-04],
+        [ 2.4378e-05,  0.0000e+00,  1.6943e-05,  ...,  1.5065e-05,
+          4.0263e-05,  1.1033e-04],
+        [ 2.4930e-05,  0.0000e+00, -8.1778e-05,  ...,  1.2808e-05,
+          5.7369e-05,  7.9334e-05],
+        ...,
+        [-1.3876e-04,  0.0000e+00,  9.8944e-06,  ..., -1.6928e-04,
+         -3.0017e-04, -7.7868e-04],
+        [ 1.3210e-05,  0.0000e+00,  2.6003e-05,  ...,  7.6115e-05,
+          1.7002e-05,  1.7142e-04],
+        [ 2.8506e-05,  0.0000e+00,  3.0380e-06,  ...,  1.5646e-05,
+          6.9559e-05,  1.1301e-04]], device='cuda:0')
+Epoch 69, bias, value: tensor([-0.0236,  0.0157,  0.0250,  0.0074,  0.0218, -0.0138, -0.0097, -0.0202,
+        -0.0075,  0.0236], device='cuda:0'), grad: tensor([ 8.0061e-04,  2.7180e-04,  1.9476e-05,  2.9874e-04,  3.6955e-04,
+         2.1708e-04, -8.7452e-04, -1.7967e-03,  2.9349e-04,  4.0030e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 68, time 220.92, cls_loss 0.0092 cls_loss_mapping 0.0142 cls_loss_causal 0.6432 re_mapping 0.0120 re_causal 0.0358 /// teacc 98.71 lr 0.00010000
+Epoch 70, weight, value: tensor([[ 0.0186,  0.0110, -0.0067,  ...,  0.0445, -0.0750, -0.0717],
+        [ 0.0331, -0.0185,  0.0209,  ..., -0.0694,  0.0384, -0.0855],
+        [ 0.0117, -0.0048,  0.0822,  ..., -0.0937, -0.0508, -0.0984],
+        ...,
+        [ 0.0079,  0.0062, -0.0473,  ...,  0.0106,  0.0728,  0.0551],
+        [ 0.0074, -0.0202, -0.0364,  ..., -0.0962,  0.0509, -0.0898],
+        [-0.0138, -0.0258, -0.0283,  ...,  0.0202, -0.0284,  0.0129]],
+       device='cuda:0'), grad: tensor([[ 5.3179e-07,  0.0000e+00, -6.5193e-06,  ..., -2.4647e-05,
+          8.4192e-06,  6.2436e-06],
+        [ 2.5257e-06,  0.0000e+00,  7.1600e-06,  ...,  4.8429e-06,
+          2.2557e-06,  1.6391e-05],
+        [ 7.6834e-07,  0.0000e+00, -1.0252e-05,  ...,  1.1539e-04,
+          5.9530e-06,  7.9423e-06],
+        ...,
+        [-1.9878e-05,  0.0000e+00,  2.3544e-06,  ...,  4.6864e-06,
+         -6.9737e-05, -7.0393e-05],
+        [ 5.4203e-07,  0.0000e+00,  1.0645e-04,  ...,  9.5516e-06,
+          6.1169e-06, -4.1276e-06],
+        [ 1.0736e-05,  0.0000e+00,  2.7463e-05,  ...,  2.5090e-06,
+          3.9518e-05, -5.1230e-05]], device='cuda:0')
+Epoch 70, bias, value: tensor([-0.0239,  0.0155,  0.0264,  0.0072,  0.0217, -0.0145, -0.0097, -0.0205,
+        -0.0080,  0.0244], device='cuda:0'), grad: tensor([ 1.9386e-05,  2.5541e-05,  1.5342e-04, -3.8028e-05,  2.9874e-04,
+         1.1706e-04, -6.9427e-04, -1.0169e-04,  1.9610e-04,  2.2873e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 69, time 221.03, cls_loss 0.0085 cls_loss_mapping 0.0144 cls_loss_causal 0.6593 re_mapping 0.0120 re_causal 0.0373 /// teacc 98.79 lr 0.00010000
+Epoch 71, weight, value: tensor([[ 0.0186,  0.0110, -0.0060,  ...,  0.0450, -0.0751, -0.0720],
+        [ 0.0332, -0.0185,  0.0206,  ..., -0.0712,  0.0395, -0.0851],
+        [ 0.0116, -0.0048,  0.0826,  ..., -0.0946, -0.0511, -0.0989],
+        ...,
+        [ 0.0080,  0.0062, -0.0477,  ...,  0.0104,  0.0728,  0.0549],
+        [ 0.0073, -0.0202, -0.0370,  ..., -0.0969,  0.0507, -0.0903],
+        [-0.0137, -0.0258, -0.0283,  ...,  0.0204, -0.0292,  0.0127]],
+       device='cuda:0'), grad: tensor([[ 4.5635e-08,  0.0000e+00,  4.0531e-06,  ..., -4.7326e-05,
+          3.3081e-06,  6.1393e-06],
+        [ 2.0321e-06,  0.0000e+00, -4.0174e-05,  ...,  1.2374e-04,
+         -3.1710e-05,  2.2590e-04],
+        [ 2.8266e-07,  0.0000e+00, -7.9036e-05,  ...,  6.7428e-06,
+          2.9430e-06,  2.3171e-05],
+        ...,
+        [-4.7423e-06,  0.0000e+00,  1.2025e-05,  ...,  7.2196e-06,
+          1.9185e-06,  2.2531e-05],
+        [ 1.6624e-07,  0.0000e+00,  2.8431e-05,  ...,  1.9610e-05,
+          1.8194e-05,  2.6894e-04],
+        [ 7.9535e-07,  0.0000e+00,  1.9558e-06,  ...,  1.2970e-04,
+          1.6332e-05,  6.7912e-06]], device='cuda:0')
+Epoch 71, bias, value: tensor([-0.0235,  0.0162,  0.0262,  0.0072,  0.0216, -0.0140, -0.0097, -0.0208,
+        -0.0087,  0.0242], device='cuda:0'), grad: tensor([-4.3064e-05, -1.1432e-04, -4.2468e-05,  5.0366e-05, -2.6274e-04,
+        -9.6560e-06,  8.5354e-05,  6.2168e-05,  3.2973e-04, -5.6028e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 70, time 221.18, cls_loss 0.0079 cls_loss_mapping 0.0139 cls_loss_causal 0.6563 re_mapping 0.0118 re_causal 0.0356 /// teacc 98.88 lr 0.00010000
+Epoch 72, weight, value: tensor([[ 0.0185,  0.0110, -0.0058,  ...,  0.0456, -0.0755, -0.0728],
+        [ 0.0329, -0.0185,  0.0207,  ..., -0.0719,  0.0393, -0.0857],
+        [ 0.0114, -0.0048,  0.0831,  ..., -0.0954, -0.0517, -0.0993],
+        ...,
+        [ 0.0085,  0.0062, -0.0483,  ...,  0.0101,  0.0738,  0.0552],
+        [ 0.0072, -0.0202, -0.0377,  ..., -0.0974,  0.0508, -0.0916],
+        [-0.0140, -0.0258, -0.0290,  ...,  0.0203, -0.0294,  0.0130]],
+       device='cuda:0'), grad: tensor([[ 4.0885e-07,  0.0000e+00,  8.2254e-06,  ..., -6.4075e-06,
+          3.0845e-05,  8.0824e-05],
+        [ 1.2480e-06,  0.0000e+00,  2.4363e-06,  ..., -1.2210e-06,
+          3.6478e-05,  4.7493e-04],
+        [ 3.0566e-06,  0.0000e+00,  3.1948e-05,  ...,  2.0474e-05,
+          5.6952e-05,  2.2840e-04],
+        ...,
+        [-8.1360e-06,  0.0000e+00,  1.5302e-06,  ...,  2.9467e-06,
+          6.2752e-04,  8.0795e-03],
+        [ 6.0862e-07,  0.0000e+00,  1.4998e-05,  ..., -1.6853e-05,
+         -1.2302e-04,  3.9577e-04],
+        [ 1.3858e-06,  0.0000e+00,  3.0473e-06,  ..., -1.8403e-05,
+          1.7118e-04,  1.3189e-03]], device='cuda:0')
+Epoch 72, bias, value: tensor([-0.0236,  0.0160,  0.0261,  0.0076,  0.0214, -0.0140, -0.0093, -0.0204,
+        -0.0092,  0.0241], device='cuda:0'), grad: tensor([ 1.6570e-04,  5.1165e-04,  3.5763e-04,  2.0897e-04, -1.2245e-02,
+         7.7105e-04, -1.7405e-04,  8.7051e-03,  4.0501e-05,  1.6584e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 71, time 220.89, cls_loss 0.0096 cls_loss_mapping 0.0147 cls_loss_causal 0.6650 re_mapping 0.0122 re_causal 0.0369 /// teacc 98.68 lr 0.00010000
+Epoch 73, weight, value: tensor([[ 0.0185,  0.0110, -0.0058,  ...,  0.0465, -0.0754, -0.0734],
+        [ 0.0330, -0.0185,  0.0194,  ..., -0.0719,  0.0394, -0.0860],
+        [ 0.0111, -0.0048,  0.0842,  ..., -0.0963, -0.0510, -0.1011],
+        ...,
+        [ 0.0088,  0.0062, -0.0484,  ...,  0.0104,  0.0740,  0.0557],
+        [ 0.0071, -0.0202, -0.0382,  ..., -0.0982,  0.0510, -0.0925],
+        [-0.0140, -0.0258, -0.0291,  ...,  0.0199, -0.0299,  0.0123]],
+       device='cuda:0'), grad: tensor([[ 1.4948e-07,  0.0000e+00,  8.3540e-07,  ...,  1.1008e-06,
+          9.1940e-06,  2.4904e-06],
+        [-3.4049e-06,  0.0000e+00, -7.5437e-08,  ..., -1.3728e-06,
+         -3.0937e-03, -3.4237e-04],
+        [-2.3330e-07,  0.0000e+00,  3.3110e-05,  ...,  1.1586e-06,
+          5.8770e-05,  7.2531e-06],
+        ...,
+        [-5.1931e-06,  0.0000e+00,  3.8631e-06,  ...,  2.6505e-06,
+          2.9984e-03,  3.2759e-04],
+        [ 1.0133e-06,  0.0000e+00, -4.5717e-05,  ...,  9.6634e-06,
+         -5.0873e-05,  2.3276e-05],
+        [ 2.2892e-06,  0.0000e+00,  3.5902e-07,  ..., -1.2666e-05,
+          2.3052e-05, -1.9804e-05]], device='cuda:0')
+Epoch 73, bias, value: tensor([-0.0232,  0.0153,  0.0266,  0.0076,  0.0222, -0.0132, -0.0112, -0.0198,
+        -0.0089,  0.0235], device='cuda:0'), grad: tensor([ 2.7597e-05, -7.7629e-03,  2.0158e-04, -2.4891e-04,  5.3734e-05,
+         2.9540e-04, -7.8261e-05,  7.5493e-03, -1.1379e-04,  7.7069e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 72, time 220.49, cls_loss 0.0091 cls_loss_mapping 0.0157 cls_loss_causal 0.6207 re_mapping 0.0123 re_causal 0.0352 /// teacc 98.71 lr 0.00010000
+Epoch 74, weight, value: tensor([[ 0.0184,  0.0110, -0.0058,  ...,  0.0466, -0.0758, -0.0741],
+        [ 0.0330, -0.0185,  0.0192,  ..., -0.0723,  0.0388, -0.0862],
+        [ 0.0110, -0.0048,  0.0849,  ..., -0.0974, -0.0517, -0.1020],
+        ...,
+        [ 0.0089,  0.0062, -0.0489,  ...,  0.0110,  0.0753,  0.0557],
+        [ 0.0070, -0.0202, -0.0388,  ..., -0.0983,  0.0511, -0.0931],
+        [-0.0140, -0.0258, -0.0294,  ...,  0.0200, -0.0302,  0.0125]],
+       device='cuda:0'), grad: tensor([[ 2.8089e-06,  0.0000e+00,  4.7311e-06,  ..., -1.2375e-05,
+          1.1906e-05,  2.3663e-05],
+        [ 3.6687e-05,  0.0000e+00,  1.0675e-04,  ...,  3.4273e-05,
+          8.8632e-05,  1.4722e-04],
+        [ 1.6344e-04,  0.0000e+00,  4.5156e-04,  ...,  2.5928e-05,
+          3.5453e-04,  4.0197e-04],
+        ...,
+        [-2.5702e-04,  0.0000e+00, -6.7949e-04,  ...,  3.6389e-05,
+         -7.8773e-04, -1.8644e-03],
+        [ 4.4554e-06,  0.0000e+00, -1.6823e-05,  ...,  1.9208e-05,
+         -2.8968e-05,  2.0730e-04],
+        [ 4.9882e-06,  0.0000e+00,  1.6078e-05,  ..., -7.4673e-04,
+          2.2602e-04, -1.1473e-03]], device='cuda:0')
+Epoch 74, bias, value: tensor([-0.0236,  0.0150,  0.0265,  0.0075,  0.0218, -0.0131, -0.0104, -0.0195,
+        -0.0090,  0.0235], device='cuda:0'), grad: tensor([ 1.4111e-05,  3.1948e-04,  1.1663e-03,  3.9458e-04,  1.0185e-03,
+         1.1408e-04,  3.9649e-04, -3.1147e-03,  6.0201e-05, -3.6883e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 73, time 220.60, cls_loss 0.0081 cls_loss_mapping 0.0142 cls_loss_causal 0.6488 re_mapping 0.0116 re_causal 0.0358 /// teacc 98.75 lr 0.00010000
+Epoch 75, weight, value: tensor([[ 0.0183,  0.0110, -0.0063,  ...,  0.0467, -0.0763, -0.0749],
+        [ 0.0348, -0.0185,  0.0195,  ..., -0.0734,  0.0394, -0.0875],
+        [ 0.0101, -0.0048,  0.0856,  ..., -0.0980, -0.0530, -0.1021],
+        ...,
+        [ 0.0086,  0.0062, -0.0496,  ...,  0.0104,  0.0754,  0.0560],
+        [ 0.0069, -0.0202, -0.0394,  ..., -0.0990,  0.0512, -0.0941],
+        [-0.0140, -0.0258, -0.0296,  ...,  0.0203, -0.0305,  0.0122]],
+       device='cuda:0'), grad: tensor([[ 3.2550e-07,  0.0000e+00, -4.9770e-06,  ..., -1.1101e-05,
+          1.3318e-06,  6.2361e-06],
+        [ 2.0526e-06,  0.0000e+00,  1.5926e-06,  ...,  3.3341e-06,
+         -5.3719e-06,  7.4767e-06],
+        [ 2.0787e-06,  0.0000e+00, -1.6615e-05,  ...,  6.2622e-06,
+          2.7046e-06,  8.1137e-06],
+        ...,
+        [-8.7023e-06,  0.0000e+00,  6.8694e-06,  ...,  7.0035e-06,
+         -5.3272e-06,  1.2014e-06],
+        [ 4.6473e-07,  0.0000e+00,  4.8056e-06,  ...,  3.8259e-06,
+          1.0338e-06,  4.0978e-06],
+        [ 1.6531e-06,  0.0000e+00,  2.1420e-06,  ...,  4.5925e-05,
+          1.9222e-06,  6.1393e-05]], device='cuda:0')
+Epoch 75, bias, value: tensor([-0.0242,  0.0156,  0.0261,  0.0076,  0.0226, -0.0133, -0.0099, -0.0198,
+        -0.0092,  0.0232], device='cuda:0'), grad: tensor([-7.8678e-06,  6.0648e-06, -9.3579e-06, -3.1412e-05, -1.1235e-04,
+        -1.7256e-05,  4.6194e-05,  1.3195e-05,  2.1324e-05,  9.1314e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 74, time 220.49, cls_loss 0.0062 cls_loss_mapping 0.0095 cls_loss_causal 0.6319 re_mapping 0.0119 re_causal 0.0354 /// teacc 98.83 lr 0.00010000
+Epoch 76, weight, value: tensor([[ 0.0182,  0.0110, -0.0061,  ...,  0.0472, -0.0767, -0.0756],
+        [ 0.0346, -0.0185,  0.0193,  ..., -0.0736,  0.0398, -0.0878],
+        [ 0.0100, -0.0048,  0.0860,  ..., -0.0984, -0.0536, -0.1025],
+        ...,
+        [ 0.0093,  0.0062, -0.0500,  ...,  0.0102,  0.0756,  0.0559],
+        [ 0.0068, -0.0202, -0.0397,  ..., -0.0997,  0.0512, -0.0950],
+        [-0.0146, -0.0258, -0.0299,  ...,  0.0204, -0.0302,  0.0126]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-08,  0.0000e+00, -1.6205e-06,  ..., -2.2501e-05,
+          1.0036e-05,  1.8552e-06],
+        [ 7.1945e-07,  0.0000e+00,  4.0904e-06,  ...,  5.9279e-07,
+          1.2517e-04,  5.7332e-06],
+        [ 3.9442e-07,  0.0000e+00, -3.3617e-05,  ...,  2.4289e-06,
+          9.0837e-05,  4.3437e-06],
+        ...,
+        [-2.4717e-06,  0.0000e+00,  1.0237e-05,  ...,  4.1425e-06,
+         -3.8123e-04, -9.4622e-06],
+        [ 8.8010e-08,  0.0000e+00,  1.1444e-05,  ...,  2.4009e-06,
+          4.3154e-05,  2.2575e-06],
+        [ 7.2550e-07,  0.0000e+00,  4.6119e-06,  ..., -2.2650e-06,
+          7.1049e-05, -2.7865e-05]], device='cuda:0')
+Epoch 76, bias, value: tensor([-0.0241,  0.0158,  0.0259,  0.0075,  0.0223, -0.0132, -0.0099, -0.0201,
+        -0.0094,  0.0236], device='cuda:0'), grad: tensor([-1.2800e-05,  2.4009e-04,  1.5044e-04,  3.2306e-05,  3.1203e-05,
+         1.9334e-06,  7.4729e-06, -6.8665e-04,  1.0699e-04,  1.2898e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 75, time 220.55, cls_loss 0.0072 cls_loss_mapping 0.0134 cls_loss_causal 0.6175 re_mapping 0.0112 re_causal 0.0341 /// teacc 98.72 lr 0.00010000
+Epoch 77, weight, value: tensor([[ 0.0181,  0.0110, -0.0073,  ...,  0.0462, -0.0771, -0.0774],
+        [ 0.0345, -0.0185,  0.0192,  ..., -0.0742,  0.0399, -0.0880],
+        [ 0.0100, -0.0048,  0.0862,  ..., -0.0990, -0.0542, -0.1034],
+        ...,
+        [ 0.0100,  0.0062, -0.0503,  ...,  0.0100,  0.0760,  0.0562],
+        [ 0.0067, -0.0202, -0.0397,  ..., -0.1002,  0.0517, -0.0952],
+        [-0.0148, -0.0258, -0.0285,  ...,  0.0221, -0.0307,  0.0130]],
+       device='cuda:0'), grad: tensor([[ 1.6950e-07,  0.0000e+00,  2.5406e-06,  ...,  9.5963e-06,
+          1.2800e-05,  1.1452e-05],
+        [ 9.1689e-07,  0.0000e+00,  4.2081e-05,  ...,  1.3642e-05,
+          7.1347e-05,  1.8016e-05],
+        [ 1.6401e-06,  0.0000e+00, -3.8648e-04,  ...,  5.8562e-06,
+         -6.4671e-05,  8.1360e-06],
+        ...,
+        [-5.9940e-06,  0.0000e+00,  2.8610e-04,  ...,  9.1642e-06,
+          5.5939e-05,  1.1045e-06],
+        [ 3.2177e-07,  0.0000e+00,  1.2584e-05,  ...,  3.7342e-05,
+         -1.7023e-04,  5.5134e-05],
+        [ 1.9893e-06,  0.0000e+00,  4.0457e-06,  ...,  1.3363e-04,
+          2.2307e-05,  1.5581e-04]], device='cuda:0')
+Epoch 77, bias, value: tensor([-0.0246,  0.0158,  0.0256,  0.0073,  0.0221, -0.0129, -0.0105, -0.0198,
+        -0.0091,  0.0241], device='cuda:0'), grad: tensor([ 3.5107e-05,  2.0051e-04, -5.9557e-04,  9.8884e-05,  2.0325e-05,
+         3.2246e-05, -2.0301e-04,  4.7112e-04, -2.4748e-04,  1.8740e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 76, time 220.57, cls_loss 0.0081 cls_loss_mapping 0.0123 cls_loss_causal 0.6276 re_mapping 0.0112 re_causal 0.0315 /// teacc 98.67 lr 0.00010000
+Epoch 78, weight, value: tensor([[ 0.0179,  0.0110, -0.0069,  ...,  0.0466, -0.0779, -0.0779],
+        [ 0.0349, -0.0185,  0.0190,  ..., -0.0753,  0.0403, -0.0881],
+        [ 0.0098, -0.0048,  0.0871,  ..., -0.1008, -0.0546, -0.1040],
+        ...,
+        [ 0.0090,  0.0062, -0.0510,  ...,  0.0097,  0.0765,  0.0551],
+        [ 0.0063, -0.0202, -0.0401,  ..., -0.1018,  0.0519, -0.0973],
+        [-0.0141, -0.0258, -0.0287,  ...,  0.0223, -0.0310,  0.0139]],
+       device='cuda:0'), grad: tensor([[ 1.5590e-06,  0.0000e+00, -2.9057e-06,  ..., -6.6385e-06,
+          4.4331e-06,  1.3977e-05],
+        [ 4.5635e-07,  0.0000e+00, -5.6103e-06,  ...,  1.9241e-06,
+         -4.3690e-05,  9.5367e-06],
+        [ 1.6838e-06,  0.0000e+00, -2.0519e-05,  ...,  2.6263e-06,
+          1.4648e-05,  6.9365e-06],
+        ...,
+        [ 4.8876e-05,  0.0000e+00,  1.3202e-05,  ...,  5.4538e-05,
+          4.0494e-06,  4.7731e-04],
+        [ 1.3612e-05,  0.0000e+00,  5.0515e-06,  ...,  1.3612e-05,
+          1.0267e-05,  1.0139e-04],
+        [-8.7798e-05,  0.0000e+00,  1.5916e-06,  ..., -9.7215e-05,
+          2.7753e-06, -8.9836e-04]], device='cuda:0')
+Epoch 78, bias, value: tensor([-0.0243,  0.0160,  0.0256,  0.0075,  0.0222, -0.0129, -0.0105, -0.0206,
+        -0.0094,  0.0245], device='cuda:0'), grad: tensor([ 4.9174e-05, -3.5793e-05,  2.8566e-05,  4.9543e-04,  2.7418e-04,
+        -6.9284e-04, -2.6155e-04,  6.7377e-04,  4.1890e-04, -9.5081e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 77, time 220.74, cls_loss 0.0083 cls_loss_mapping 0.0129 cls_loss_causal 0.5903 re_mapping 0.0118 re_causal 0.0335 /// teacc 98.58 lr 0.00010000
+Epoch 79, weight, value: tensor([[ 0.0177,  0.0110, -0.0067,  ...,  0.0470, -0.0783, -0.0785],
+        [ 0.0352, -0.0185,  0.0186,  ..., -0.0761,  0.0404, -0.0875],
+        [ 0.0091, -0.0048,  0.0876,  ..., -0.1015, -0.0552, -0.1044],
+        ...,
+        [ 0.0091,  0.0062, -0.0508,  ...,  0.0118,  0.0777,  0.0573],
+        [ 0.0060, -0.0202, -0.0406,  ..., -0.1022,  0.0519, -0.0985],
+        [-0.0151, -0.0258, -0.0289,  ...,  0.0215, -0.0317,  0.0128]],
+       device='cuda:0'), grad: tensor([[ 1.5926e-07,  0.0000e+00,  7.0967e-07,  ...,  2.6785e-06,
+          3.1181e-06,  1.0312e-05],
+        [ 5.9186e-07,  0.0000e+00,  1.2144e-06,  ...,  3.1795e-06,
+          3.4690e-05,  4.4495e-05],
+        [ 3.3528e-07,  0.0000e+00, -1.3612e-05,  ...,  2.4009e-06,
+          1.2629e-05,  9.8348e-06],
+        ...,
+        [-3.3565e-06,  0.0000e+00,  4.0196e-06,  ...,  9.2313e-06,
+         -1.1367e-04, -1.0765e-04],
+        [ 1.9977e-07,  0.0000e+00,  1.3392e-06,  ...,  2.9996e-05,
+          1.5348e-05,  6.6042e-05],
+        [ 1.5646e-06,  0.0000e+00,  1.2498e-06,  ...,  2.6093e-03,
+          8.2478e-06,  4.3373e-03]], device='cuda:0')
+Epoch 79, bias, value: tensor([-0.0242,  0.0161,  0.0257,  0.0079,  0.0213, -0.0130, -0.0099, -0.0192,
+        -0.0098,  0.0234], device='cuda:0'), grad: tensor([ 1.6734e-05,  6.4731e-05,  1.5702e-06,  8.3804e-05, -4.0207e-03,
+        -6.7472e-04,  6.7759e-04, -1.5879e-04,  8.3029e-05,  3.9215e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 78, time 220.78, cls_loss 0.0095 cls_loss_mapping 0.0153 cls_loss_causal 0.6416 re_mapping 0.0112 re_causal 0.0338 /// teacc 98.81 lr 0.00010000
+Epoch 80, weight, value: tensor([[ 0.0176,  0.0110, -0.0068,  ...,  0.0472, -0.0789, -0.0783],
+        [ 0.0354, -0.0185,  0.0170,  ..., -0.0767,  0.0404, -0.0879],
+        [ 0.0090, -0.0048,  0.0886,  ..., -0.1022, -0.0551, -0.1051],
+        ...,
+        [ 0.0094,  0.0062, -0.0500,  ...,  0.0114,  0.0782,  0.0574],
+        [ 0.0060, -0.0202, -0.0411,  ..., -0.1033,  0.0521, -0.0997],
+        [-0.0155, -0.0258, -0.0294,  ...,  0.0216, -0.0320,  0.0127]],
+       device='cuda:0'), grad: tensor([[ 7.8510e-07,  0.0000e+00, -8.8736e-06,  ..., -9.3207e-06,
+          6.4149e-06,  1.6749e-05],
+        [ 1.2927e-06,  0.0000e+00,  4.9174e-05,  ...,  6.5565e-06,
+          7.5735e-06,  2.9773e-05],
+        [ 1.1832e-05,  0.0000e+00, -1.1170e-04,  ...,  4.0792e-06,
+          2.4587e-05,  6.4790e-05],
+        ...,
+        [-2.2411e-05,  0.0000e+00,  1.8656e-05,  ...,  4.9204e-05,
+         -8.7082e-05, -3.0428e-05],
+        [ 3.0436e-06,  0.0000e+00,  1.3679e-05,  ...,  8.0466e-05,
+          1.8626e-05,  3.0041e-04],
+        [-3.1233e-05,  0.0000e+00,  5.8487e-06,  ..., -6.6519e-04,
+         -7.2360e-05, -2.3899e-03]], device='cuda:0')
+Epoch 80, bias, value: tensor([-0.0245,  0.0154,  0.0258,  0.0079,  0.0218, -0.0127, -0.0100, -0.0187,
+        -0.0103,  0.0234], device='cuda:0'), grad: tensor([ 1.8179e-05,  1.0288e-04,  2.3052e-05, -4.4167e-05,  1.9350e-03,
+         2.8634e-04,  2.6915e-06, -2.8467e-04,  3.6645e-04, -2.4052e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 79, time 220.57, cls_loss 0.0081 cls_loss_mapping 0.0119 cls_loss_causal 0.6217 re_mapping 0.0114 re_causal 0.0322 /// teacc 98.80 lr 0.00010000
+Epoch 81, weight, value: tensor([[ 0.0175,  0.0110, -0.0067,  ...,  0.0480, -0.0795, -0.0779],
+        [ 0.0362, -0.0185,  0.0176,  ..., -0.0777,  0.0413, -0.0884],
+        [ 0.0081, -0.0048,  0.0892,  ..., -0.1036, -0.0567, -0.1059],
+        ...,
+        [ 0.0097,  0.0062, -0.0512,  ...,  0.0112,  0.0784,  0.0579],
+        [ 0.0073, -0.0202, -0.0415,  ..., -0.1041,  0.0531, -0.0995],
+        [-0.0162, -0.0258, -0.0298,  ...,  0.0221, -0.0324,  0.0130]],
+       device='cuda:0'), grad: tensor([[ 7.7765e-08,  0.0000e+00,  2.0713e-05,  ..., -6.0260e-05,
+          2.2370e-06,  1.3016e-05],
+        [ 8.9733e-07,  0.0000e+00,  1.1653e-05,  ...,  2.2876e-04,
+          3.3998e-04,  6.1321e-04],
+        [ 1.1455e-07,  0.0000e+00, -1.7762e-04,  ...,  7.3984e-06,
+          3.9898e-06, -2.7657e-05],
+        ...,
+        [-5.5768e-06,  0.0000e+00,  5.3346e-05,  ...,  2.3514e-05,
+          1.2755e-05,  4.5002e-05],
+        [ 2.7958e-06,  0.0000e+00,  3.7283e-05,  ...,  2.6360e-05,
+          1.0234e-04,  1.6257e-05],
+        [-1.6158e-07,  0.0000e+00,  5.4277e-06,  ..., -3.6452e-06,
+          7.1339e-06, -7.1526e-06]], device='cuda:0')
+Epoch 81, bias, value: tensor([-0.0243,  0.0160,  0.0254,  0.0073,  0.0214, -0.0124, -0.0103, -0.0187,
+        -0.0096,  0.0233], device='cuda:0'), grad: tensor([ 4.6641e-06,  8.2922e-04, -2.6155e-04,  3.2902e-05, -8.3733e-04,
+        -4.5389e-05, -1.1402e-04,  1.3888e-04,  2.3329e-04,  1.8895e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 80, time 220.41, cls_loss 0.0090 cls_loss_mapping 0.0161 cls_loss_causal 0.6287 re_mapping 0.0114 re_causal 0.0322 /// teacc 98.74 lr 0.00010000
+Epoch 82, weight, value: tensor([[ 0.0174,  0.0110, -0.0062,  ...,  0.0479, -0.0798, -0.0782],
+        [ 0.0365, -0.0185,  0.0174,  ..., -0.0786,  0.0424, -0.0867],
+        [ 0.0079, -0.0048,  0.0900,  ..., -0.1052, -0.0572, -0.1064],
+        ...,
+        [ 0.0100,  0.0062, -0.0518,  ...,  0.0109,  0.0779,  0.0576],
+        [ 0.0074, -0.0202, -0.0422,  ..., -0.1049,  0.0533, -0.0994],
+        [-0.0172, -0.0258, -0.0298,  ...,  0.0230, -0.0334,  0.0128]],
+       device='cuda:0'), grad: tensor([[ 6.2399e-08,  0.0000e+00,  8.9854e-06,  ..., -3.2514e-05,
+          2.4047e-06,  4.5598e-06],
+        [ 8.4331e-07,  0.0000e+00,  3.7789e-05,  ...,  3.9674e-06,
+          2.3827e-05,  3.0220e-05],
+        [ 4.6985e-07,  0.0000e+00, -3.1352e-04,  ..., -6.8769e-06,
+          5.1200e-05,  7.2598e-05],
+        ...,
+        [-5.0142e-06,  0.0000e+00,  2.9914e-06,  ..., -2.5094e-05,
+         -1.4853e-04, -2.5344e-04],
+        [ 2.5565e-07,  0.0000e+00,  7.0333e-06,  ...,  4.7646e-06,
+         -3.3170e-05, -2.3454e-05],
+        [ 3.9395e-07,  0.0000e+00,  2.5742e-06,  ...,  5.6736e-06,
+          4.3035e-05,  1.4767e-05]], device='cuda:0')
+Epoch 82, bias, value: tensor([-0.0244,  0.0168,  0.0254,  0.0071,  0.0214, -0.0115, -0.0106, -0.0195,
+        -0.0093,  0.0228], device='cuda:0'), grad: tensor([-3.5107e-05,  9.7930e-05, -2.7895e-04,  5.4717e-05,  2.5964e-04,
+         1.6451e-05,  2.0635e-04, -3.6502e-04, -3.4302e-05,  7.8619e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 81, time 220.64, cls_loss 0.0070 cls_loss_mapping 0.0144 cls_loss_causal 0.6264 re_mapping 0.0116 re_causal 0.0333 /// teacc 98.84 lr 0.00010000
+Epoch 83, weight, value: tensor([[ 0.0173,  0.0110, -0.0060,  ...,  0.0485, -0.0804, -0.0773],
+        [ 0.0363, -0.0185,  0.0173,  ..., -0.0792,  0.0421, -0.0877],
+        [ 0.0077, -0.0048,  0.0904,  ..., -0.1060, -0.0580, -0.1072],
+        ...,
+        [ 0.0100,  0.0062, -0.0521,  ...,  0.0109,  0.0790,  0.0579],
+        [ 0.0072, -0.0202, -0.0423,  ..., -0.1050,  0.0540, -0.1005],
+        [-0.0163, -0.0258, -0.0302,  ...,  0.0227, -0.0339,  0.0129]],
+       device='cuda:0'), grad: tensor([[ 7.9814e-07,  0.0000e+00,  4.1664e-05,  ..., -2.8419e-04,
+          5.6438e-06,  4.9993e-06],
+        [ 1.3355e-06,  0.0000e+00,  1.3843e-05,  ...,  2.6040e-06,
+         -1.0580e-06,  6.7763e-06],
+        [ 1.0833e-05,  0.0000e+00,  1.8001e-04,  ...,  2.6636e-06,
+          4.3422e-05,  2.7269e-05],
+        ...,
+        [-1.9181e-04,  0.0000e+00, -1.9968e-05,  ..., -1.6916e-04,
+         -5.3167e-04, -1.3485e-03],
+        [ 1.2651e-05,  0.0000e+00,  1.2383e-05,  ...,  2.0131e-05,
+          4.3035e-05,  8.1480e-05],
+        [ 1.4973e-04,  0.0000e+00,  9.9763e-06,  ...,  3.0255e-04,
+          4.0197e-04,  1.1158e-03]], device='cuda:0')
+Epoch 83, bias, value: tensor([-0.0239,  0.0165,  0.0251,  0.0072,  0.0212, -0.0113, -0.0107, -0.0193,
+        -0.0087,  0.0225], device='cuda:0'), grad: tensor([-3.5691e-04,  3.2067e-05,  5.5361e-04, -6.8092e-04,  1.3101e-04,
+         2.8276e-04, -1.3554e-04, -1.5221e-03,  1.7250e-04,  1.5240e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 82, time 221.04, cls_loss 0.0082 cls_loss_mapping 0.0146 cls_loss_causal 0.6263 re_mapping 0.0108 re_causal 0.0324 /// teacc 98.74 lr 0.00010000
+Epoch 84, weight, value: tensor([[ 0.0172,  0.0110, -0.0062,  ...,  0.0491, -0.0808, -0.0779],
+        [ 0.0366, -0.0185,  0.0173,  ..., -0.0799,  0.0417, -0.0877],
+        [ 0.0079, -0.0048,  0.0911,  ..., -0.1079, -0.0581, -0.1075],
+        ...,
+        [ 0.0091,  0.0062, -0.0528,  ...,  0.0106,  0.0799,  0.0578],
+        [ 0.0075, -0.0202, -0.0432,  ..., -0.1056,  0.0536, -0.1009],
+        [-0.0150, -0.0258, -0.0308,  ...,  0.0229, -0.0345,  0.0133]],
+       device='cuda:0'), grad: tensor([[ 1.1288e-06,  0.0000e+00,  3.1386e-07,  ..., -1.0365e-04,
+          9.1493e-06,  2.5071e-06],
+        [ 2.0087e-05,  0.0000e+00,  3.6461e-07,  ...,  6.2659e-06,
+         -7.9751e-05,  3.0026e-05],
+        [ 7.7859e-06,  0.0000e+00, -6.2771e-06,  ...,  1.5199e-05,
+          2.8938e-05,  9.6858e-06],
+        ...,
+        [ 4.0359e-03,  0.0000e+00,  2.8051e-06,  ...,  1.7524e-05,
+          1.0544e-02,  2.7485e-03],
+        [-4.0970e-03,  0.0000e+00,  8.6008e-07,  ...,  6.6124e-06,
+         -1.0841e-02, -2.8172e-03],
+        [ 6.7838e-06,  0.0000e+00,  5.4343e-07,  ...,  4.9174e-05,
+          5.2482e-05,  2.1949e-05]], device='cuda:0')
+Epoch 84, bias, value: tensor([-0.0238,  0.0160,  0.0249,  0.0074,  0.0211, -0.0109, -0.0107, -0.0186,
+        -0.0095,  0.0226], device='cuda:0'), grad: tensor([-3.6716e-04, -1.6594e-04,  9.5904e-05,  9.5069e-05, -1.2890e-06,
+         3.9577e-04,  4.1068e-05,  1.4587e-02, -1.4984e-02,  2.9659e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 83----------------------------------------------------
+epoch 83, time 221.06, cls_loss 0.0077 cls_loss_mapping 0.0119 cls_loss_causal 0.6168 re_mapping 0.0111 re_causal 0.0323 /// teacc 98.94 lr 0.00010000
+Epoch 85, weight, value: tensor([[ 0.0170,  0.0110, -0.0063,  ...,  0.0481, -0.0821, -0.0785],
+        [ 0.0366, -0.0185,  0.0171,  ..., -0.0805,  0.0427, -0.0878],
+        [ 0.0079, -0.0048,  0.0932,  ..., -0.1085, -0.0584, -0.1086],
+        ...,
+        [ 0.0079,  0.0062, -0.0546,  ...,  0.0104,  0.0794,  0.0579],
+        [ 0.0087, -0.0202, -0.0441,  ..., -0.1067,  0.0542, -0.1022],
+        [-0.0134, -0.0258, -0.0310,  ...,  0.0228, -0.0350,  0.0136]],
+       device='cuda:0'), grad: tensor([[ 1.7928e-07,  0.0000e+00, -2.6643e-05,  ..., -1.1021e-04,
+          1.4305e-06,  4.4405e-06],
+        [-1.0692e-06,  0.0000e+00,  9.7007e-06,  ...,  1.9111e-06,
+         -2.9743e-05, -2.0675e-06],
+        [ 8.0978e-07,  0.0000e+00, -3.7283e-05,  ...,  3.3062e-06,
+          1.0096e-05,  3.5781e-06],
+        ...,
+        [-3.8184e-06,  0.0000e+00,  8.7246e-06,  ...,  2.4885e-06,
+         -7.7710e-06, -1.3188e-05],
+        [ 1.5963e-06,  0.0000e+00,  1.5140e-05,  ...,  1.0662e-05,
+         -1.0349e-05,  7.7486e-06],
+        [ 1.6019e-06,  0.0000e+00,  6.4857e-06,  ...,  9.5889e-06,
+          4.2729e-06, -2.4855e-05]], device='cuda:0')
+Epoch 85, bias, value: tensor([-0.0256,  0.0170,  0.0259,  0.0061,  0.0212, -0.0108, -0.0094, -0.0194,
+        -0.0098,  0.0228], device='cuda:0'), grad: tensor([-1.4949e-04, -7.3195e-05, -4.9099e-06, -6.3702e-06,  2.3589e-05,
+         5.1022e-05,  1.0979e-04,  4.3511e-06,  2.9907e-05,  1.5512e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 84, time 220.48, cls_loss 0.0086 cls_loss_mapping 0.0140 cls_loss_causal 0.5964 re_mapping 0.0113 re_causal 0.0312 /// teacc 98.72 lr 0.00010000
+Epoch 86, weight, value: tensor([[ 0.0170,  0.0110, -0.0053,  ...,  0.0499, -0.0816, -0.0787],
+        [ 0.0364, -0.0185,  0.0150,  ..., -0.0837,  0.0416, -0.0877],
+        [ 0.0077, -0.0048,  0.0953,  ..., -0.1101, -0.0579, -0.1092],
+        ...,
+        [ 0.0082,  0.0062, -0.0563,  ...,  0.0101,  0.0801,  0.0581],
+        [ 0.0087, -0.0202, -0.0441,  ..., -0.1082,  0.0547, -0.1026],
+        [-0.0134, -0.0258, -0.0311,  ...,  0.0225, -0.0357,  0.0133]],
+       device='cuda:0'), grad: tensor([[ 1.3225e-07,  0.0000e+00,  2.2590e-05,  ...,  2.9862e-05,
+          2.5958e-05,  1.2510e-05],
+        [ 3.3807e-07,  0.0000e+00, -6.3276e-04,  ...,  6.2212e-06,
+         -5.1785e-04,  1.8731e-05],
+        [ 1.0813e-06,  0.0000e+00,  3.7026e-04,  ...,  3.1739e-05,
+          4.1032e-04,  1.7643e-04],
+        ...,
+        [-1.8012e-06,  0.0000e+00,  9.8705e-05,  ..., -5.2363e-05,
+         -1.2910e-04, -3.5048e-04],
+        [ 9.4995e-08,  0.0000e+00,  3.2037e-05,  ...,  2.6777e-05,
+          7.9572e-05,  1.1641e-04],
+        [ 1.3830e-07,  0.0000e+00,  7.1973e-06,  ..., -1.6898e-05,
+          9.6336e-06, -2.4125e-05]], device='cuda:0')
+Epoch 86, bias, value: tensor([-0.0240,  0.0159,  0.0270,  0.0058,  0.0215, -0.0113, -0.0092, -0.0196,
+        -0.0096,  0.0222], device='cuda:0'), grad: tensor([ 1.1557e-04, -1.4992e-03,  1.2960e-03,  1.8179e-04,  1.6022e-04,
+         9.5665e-05, -1.9491e-04, -5.1403e-04,  3.4380e-04,  1.3970e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 85, time 220.52, cls_loss 0.0058 cls_loss_mapping 0.0104 cls_loss_causal 0.6042 re_mapping 0.0105 re_causal 0.0312 /// teacc 98.91 lr 0.00010000
+Epoch 87, weight, value: tensor([[ 0.0169,  0.0110, -0.0048,  ...,  0.0503, -0.0821, -0.0790],
+        [ 0.0364, -0.0185,  0.0151,  ..., -0.0843,  0.0417, -0.0884],
+        [ 0.0075, -0.0048,  0.0954,  ..., -0.1113, -0.0590, -0.1104],
+        ...,
+        [ 0.0082,  0.0062, -0.0563,  ...,  0.0091,  0.0808,  0.0579],
+        [ 0.0086, -0.0202, -0.0447,  ..., -0.1095,  0.0549, -0.1033],
+        [-0.0128, -0.0258, -0.0312,  ...,  0.0223, -0.0360,  0.0134]],
+       device='cuda:0'), grad: tensor([[ 5.2154e-07,  0.0000e+00, -2.2110e-06,  ...,  1.4957e-06,
+          8.5756e-06,  3.5651e-06],
+        [-1.8403e-06,  0.0000e+00, -3.8482e-06,  ..., -6.2734e-06,
+         -3.1203e-05,  6.6645e-06],
+        [ 6.1048e-07,  0.0000e+00,  8.6129e-06,  ...,  3.4004e-05,
+          1.2122e-05,  3.5390e-06],
+        ...,
+        [-3.2736e-07,  0.0000e+00,  2.6412e-06,  ...,  7.6890e-06,
+          1.3877e-06,  1.3277e-05],
+        [ 4.3446e-07,  0.0000e+00,  4.0606e-06,  ...,  2.0534e-05,
+          2.7232e-06,  2.9743e-05],
+        [-1.6196e-06,  0.0000e+00,  5.3011e-06,  ..., -1.9282e-05,
+          2.0452e-06, -5.5313e-05]], device='cuda:0')
+Epoch 87, bias, value: tensor([-0.0238,  0.0160,  0.0260,  0.0061,  0.0222, -0.0115, -0.0099, -0.0193,
+        -0.0097,  0.0223], device='cuda:0'), grad: tensor([ 3.8892e-05, -7.0930e-05,  1.1450e-04, -1.0580e-04,  2.9057e-05,
+         3.0547e-05, -9.3937e-05,  2.4259e-05,  6.7055e-05, -3.3826e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 86, time 220.97, cls_loss 0.0058 cls_loss_mapping 0.0103 cls_loss_causal 0.6077 re_mapping 0.0106 re_causal 0.0313 /// teacc 98.83 lr 0.00010000
+Epoch 88, weight, value: tensor([[ 0.0167,  0.0110, -0.0045,  ...,  0.0508, -0.0826, -0.0794],
+        [ 0.0365, -0.0185,  0.0152,  ..., -0.0847,  0.0422, -0.0890],
+        [ 0.0074, -0.0048,  0.0960,  ..., -0.1123, -0.0599, -0.1112],
+        ...,
+        [ 0.0082,  0.0062, -0.0569,  ...,  0.0088,  0.0812,  0.0579],
+        [ 0.0084, -0.0202, -0.0451,  ..., -0.1105,  0.0550, -0.1040],
+        [-0.0128, -0.0258, -0.0314,  ...,  0.0222, -0.0365,  0.0135]],
+       device='cuda:0'), grad: tensor([[ 9.7789e-09,  0.0000e+00,  6.2510e-06,  ..., -2.4159e-06,
+          5.9279e-07,  1.0982e-05],
+        [ 3.2131e-08,  0.0000e+00,  1.1437e-06,  ...,  3.6024e-06,
+          4.0280e-07,  5.8562e-06],
+        [ 3.4459e-08,  0.0000e+00,  5.3570e-06,  ...,  5.9828e-06,
+          7.1991e-07,  1.6347e-05],
+        ...,
+        [-1.5646e-07,  0.0000e+00,  4.7609e-06,  ...,  3.7309e-06,
+         -1.0412e-06,  1.3605e-05],
+        [ 5.1223e-09,  0.0000e+00,  3.4459e-06,  ...,  2.7828e-06,
+         -1.0636e-06,  3.9190e-06],
+        [ 5.1223e-08,  0.0000e+00,  2.2855e-06,  ..., -5.1893e-06,
+          1.2629e-06, -4.3958e-05]], device='cuda:0')
+Epoch 88, bias, value: tensor([-0.0237,  0.0163,  0.0257,  0.0062,  0.0226, -0.0119, -0.0098, -0.0193,
+        -0.0100,  0.0222], device='cuda:0'), grad: tensor([ 2.5541e-05,  8.0392e-06,  3.8832e-05, -7.2896e-05, -1.4335e-05,
+         2.9411e-06,  9.9316e-06,  2.0027e-05,  7.4841e-06, -2.5615e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 87, time 220.97, cls_loss 0.0064 cls_loss_mapping 0.0104 cls_loss_causal 0.5618 re_mapping 0.0112 re_causal 0.0313 /// teacc 98.74 lr 0.00010000
+Epoch 89, weight, value: tensor([[ 0.0167,  0.0110, -0.0044,  ...,  0.0509, -0.0831, -0.0802],
+        [ 0.0364, -0.0185,  0.0153,  ..., -0.0853,  0.0427, -0.0886],
+        [ 0.0074, -0.0048,  0.0964,  ..., -0.1135, -0.0603, -0.1120],
+        ...,
+        [ 0.0082,  0.0062, -0.0572,  ...,  0.0087,  0.0813,  0.0578],
+        [ 0.0084, -0.0202, -0.0457,  ..., -0.1113,  0.0551, -0.1050],
+        [-0.0127, -0.0258, -0.0317,  ...,  0.0233, -0.0365,  0.0143]],
+       device='cuda:0'), grad: tensor([[ 1.6554e-07,  0.0000e+00, -1.3858e-06,  ...,  3.1926e-06,
+          4.0792e-06,  2.1622e-05],
+        [ 4.2934e-07,  0.0000e+00,  2.3972e-06,  ...,  1.5404e-06,
+          1.0379e-05,  1.3240e-05],
+        [ 5.2676e-06,  0.0000e+00,  1.8939e-05,  ...,  5.4613e-06,
+          4.6551e-05,  4.2915e-05],
+        ...,
+        [-9.8497e-06,  0.0000e+00,  8.1211e-06,  ...,  1.8656e-05,
+         -5.0068e-05, -8.2195e-05],
+        [ 3.2317e-07,  0.0000e+00,  2.0508e-06,  ...,  9.8646e-06,
+         -1.2778e-05,  1.3024e-05],
+        [ 7.5763e-07,  0.0000e+00,  3.2801e-06,  ..., -1.4400e-04,
+          5.5283e-06, -1.0127e-04]], device='cuda:0')
+Epoch 89, bias, value: tensor([-0.0239,  0.0169,  0.0257,  0.0072,  0.0217, -0.0124, -0.0103, -0.0196,
+        -0.0102,  0.0231], device='cuda:0'), grad: tensor([ 3.0488e-05,  3.7372e-05,  1.9479e-04,  5.1362e-07,  1.3471e-04,
+         5.2571e-05, -4.7624e-05, -1.9205e-04,  1.2927e-05, -2.2364e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 88, time 220.58, cls_loss 0.0057 cls_loss_mapping 0.0091 cls_loss_causal 0.6211 re_mapping 0.0104 re_causal 0.0316 /// teacc 98.88 lr 0.00010000
+Epoch 90, weight, value: tensor([[ 0.0166,  0.0110, -0.0044,  ...,  0.0511, -0.0834, -0.0809],
+        [ 0.0364, -0.0185,  0.0151,  ..., -0.0853,  0.0428, -0.0886],
+        [ 0.0073, -0.0048,  0.0968,  ..., -0.1142, -0.0611, -0.1135],
+        ...,
+        [ 0.0076,  0.0062, -0.0575,  ...,  0.0080,  0.0815,  0.0573],
+        [ 0.0083, -0.0202, -0.0461,  ..., -0.1122,  0.0557, -0.1055],
+        [-0.0114, -0.0258, -0.0321,  ...,  0.0242, -0.0363,  0.0157]],
+       device='cuda:0'), grad: tensor([[ 2.9709e-07,  0.0000e+00,  6.7651e-06,  ..., -1.4126e-05,
+          1.9819e-06,  3.9190e-06],
+        [ 1.9185e-06,  0.0000e+00,  2.0098e-06,  ...,  1.8049e-06,
+         -1.9260e-06,  1.4454e-05],
+        [ 8.8383e-07,  0.0000e+00, -1.6034e-04,  ...,  2.1961e-06,
+          6.1020e-06, -1.3836e-05],
+        ...,
+        [-1.1784e-04,  0.0000e+00,  1.3709e-05,  ..., -5.0664e-05,
+         -1.5467e-05, -1.3723e-03],
+        [ 3.5018e-07,  0.0000e+00,  3.2008e-05,  ...,  5.6401e-06,
+         -4.8056e-06,  1.7714e-06],
+        [ 1.1128e-04,  0.0000e+00,  1.3217e-05,  ...,  3.6806e-05,
+          8.4117e-06,  1.2903e-03]], device='cuda:0')
+Epoch 90, bias, value: tensor([-0.0240,  0.0169,  0.0252,  0.0076,  0.0211, -0.0128, -0.0103, -0.0198,
+        -0.0101,  0.0241], device='cuda:0'), grad: tensor([ 8.0913e-06,  1.2569e-05, -1.7786e-04,  1.6737e-04,  4.2230e-05,
+        -1.0288e-04,  2.2769e-05, -1.2169e-03,  4.4793e-05,  1.1997e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 89, time 220.75, cls_loss 0.0055 cls_loss_mapping 0.0096 cls_loss_causal 0.5820 re_mapping 0.0103 re_causal 0.0301 /// teacc 98.91 lr 0.00010000
+Epoch 91, weight, value: tensor([[ 0.0165,  0.0110, -0.0041,  ...,  0.0516, -0.0837, -0.0814],
+        [ 0.0365, -0.0185,  0.0143,  ..., -0.0856,  0.0429, -0.0889],
+        [ 0.0072, -0.0048,  0.0972,  ..., -0.1151, -0.0615, -0.1137],
+        ...,
+        [ 0.0077,  0.0062, -0.0561,  ...,  0.0080,  0.0820,  0.0578],
+        [ 0.0082, -0.0202, -0.0463,  ..., -0.1124,  0.0560, -0.1058],
+        [-0.0116, -0.0258, -0.0325,  ...,  0.0231, -0.0369,  0.0147]],
+       device='cuda:0'), grad: tensor([[ 1.2107e-08,  0.0000e+00,  3.1944e-06,  ..., -1.5534e-06,
+          1.5199e-06,  5.0887e-06],
+        [ 7.9628e-08,  0.0000e+00,  5.2862e-06,  ...,  5.6326e-06,
+          7.8827e-06,  5.1051e-05],
+        [ 1.5600e-08,  0.0000e+00, -7.4029e-05,  ...,  3.1013e-07,
+          2.1830e-05,  1.1069e-04],
+        ...,
+        [-6.2305e-07,  0.0000e+00,  6.8881e-06,  ...,  1.7509e-06,
+         -4.2534e-04, -2.2392e-03],
+        [ 3.3528e-08,  0.0000e+00,  1.8701e-05,  ...,  6.9849e-07,
+          3.5256e-05,  3.2067e-05],
+        [ 4.1770e-07,  0.0000e+00,  3.3416e-06,  ...,  7.1526e-06,
+          2.1732e-04,  1.1396e-03]], device='cuda:0')
+Epoch 91, bias, value: tensor([-0.0237,  0.0166,  0.0249,  0.0068,  0.0220, -0.0125, -0.0104, -0.0186,
+        -0.0100,  0.0228], device='cuda:0'), grad: tensor([ 1.1839e-05,  6.7294e-05,  6.0685e-06,  8.8096e-05,  1.0643e-03,
+        -1.5879e-04,  6.7949e-05, -2.6665e-03,  1.5128e-04,  1.3685e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 90, time 220.46, cls_loss 0.0067 cls_loss_mapping 0.0104 cls_loss_causal 0.6237 re_mapping 0.0098 re_causal 0.0299 /// teacc 98.87 lr 0.00010000
+Epoch 92, weight, value: tensor([[ 0.0165,  0.0110, -0.0037,  ...,  0.0521, -0.0841, -0.0814],
+        [ 0.0365, -0.0185,  0.0142,  ..., -0.0864,  0.0433, -0.0889],
+        [ 0.0071, -0.0048,  0.0975,  ..., -0.1165, -0.0620, -0.1143],
+        ...,
+        [ 0.0078,  0.0062, -0.0566,  ...,  0.0078,  0.0825,  0.0585],
+        [ 0.0082, -0.0202, -0.0468,  ..., -0.1138,  0.0556, -0.1067],
+        [-0.0117, -0.0258, -0.0329,  ...,  0.0229, -0.0379,  0.0141]],
+       device='cuda:0'), grad: tensor([[ 3.7951e-08,  0.0000e+00, -1.9774e-05,  ..., -3.1769e-05,
+         -3.0041e-05,  2.7809e-06],
+        [ 1.6019e-07,  0.0000e+00,  2.8089e-06,  ...,  3.3225e-07,
+         -3.0309e-05,  3.1404e-06],
+        [ 6.5658e-08,  0.0000e+00, -3.0205e-05,  ...,  1.6272e-05,
+          1.1228e-05,  1.2115e-05],
+        ...,
+        [-1.3830e-07,  0.0000e+00,  2.3916e-05,  ...,  3.6247e-06,
+          3.7793e-06,  3.9749e-06],
+        [ 5.4017e-08,  0.0000e+00,  2.0117e-05,  ...,  2.1189e-05,
+          2.4527e-05,  6.5789e-06],
+        [ 3.8138e-07,  0.0000e+00,  1.8058e-06,  ...,  4.0568e-06,
+          4.3847e-06, -6.9709e-07]], device='cuda:0')
+Epoch 92, bias, value: tensor([-0.0232,  0.0168,  0.0246,  0.0068,  0.0222, -0.0127, -0.0098, -0.0181,
+        -0.0115,  0.0226], device='cuda:0'), grad: tensor([-1.0097e-04, -4.1395e-05,  1.6624e-06, -2.8625e-05, -5.3495e-05,
+         1.5289e-05,  5.7995e-05,  4.7654e-05,  9.0599e-05,  1.1459e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 91, time 220.88, cls_loss 0.0056 cls_loss_mapping 0.0107 cls_loss_causal 0.6126 re_mapping 0.0103 re_causal 0.0296 /// teacc 98.85 lr 0.00010000
+Epoch 93, weight, value: tensor([[ 0.0164,  0.0110, -0.0035,  ...,  0.0525, -0.0847, -0.0818],
+        [ 0.0363, -0.0185,  0.0141,  ..., -0.0870,  0.0434, -0.0896],
+        [ 0.0070, -0.0048,  0.0980,  ..., -0.1174, -0.0631, -0.1147],
+        ...,
+        [ 0.0067,  0.0062, -0.0570,  ...,  0.0077,  0.0831,  0.0589],
+        [ 0.0083, -0.0202, -0.0472,  ..., -0.1147,  0.0559, -0.1076],
+        [-0.0117, -0.0258, -0.0330,  ...,  0.0228, -0.0388,  0.0138]],
+       device='cuda:0'), grad: tensor([[ 3.9581e-08,  0.0000e+00,  8.2776e-06,  ...,  2.0675e-06,
+          3.4664e-06,  1.0580e-06],
+        [ 1.1176e-07,  0.0000e+00,  5.0105e-07,  ...,  1.2284e-06,
+         -3.5632e-06,  1.2573e-06],
+        [ 9.3598e-08,  0.0000e+00, -1.5028e-05,  ...,  9.4809e-07,
+          9.1176e-07,  6.8219e-07],
+        ...,
+        [-7.9349e-07,  0.0000e+00,  1.5385e-06,  ...,  6.4773e-07,
+         -8.9174e-07, -3.1684e-06],
+        [ 7.4273e-08,  0.0000e+00,  2.2221e-06,  ...,  1.9614e-06,
+          1.2033e-06,  1.7304e-06],
+        [ 1.0757e-07,  0.0000e+00,  2.0652e-07,  ...,  1.4238e-05,
+          1.9614e-06,  2.4274e-05]], device='cuda:0')
+Epoch 93, bias, value: tensor([-0.0232,  0.0167,  0.0243,  0.0073,  0.0224, -0.0125, -0.0089, -0.0184,
+        -0.0119,  0.0221], device='cuda:0'), grad: tensor([ 2.2262e-05, -2.1923e-06, -2.0534e-05,  8.0541e-06, -1.4365e-05,
+        -4.3422e-05,  4.0531e-06,  1.0533e-06,  1.8850e-05,  2.6196e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 92, time 220.81, cls_loss 0.0053 cls_loss_mapping 0.0109 cls_loss_causal 0.5958 re_mapping 0.0099 re_causal 0.0304 /// teacc 98.77 lr 0.00010000
+Epoch 94, weight, value: tensor([[ 0.0164,  0.0110, -0.0032,  ...,  0.0527, -0.0853, -0.0824],
+        [ 0.0365, -0.0185,  0.0145,  ..., -0.0870,  0.0443, -0.0894],
+        [ 0.0070, -0.0048,  0.0982,  ..., -0.1179, -0.0642, -0.1148],
+        ...,
+        [ 0.0068,  0.0062, -0.0577,  ...,  0.0074,  0.0832,  0.0582],
+        [ 0.0082, -0.0202, -0.0471,  ..., -0.1154,  0.0558, -0.1087],
+        [-0.0117, -0.0258, -0.0333,  ...,  0.0230, -0.0393,  0.0145]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00,  1.5050e-05,  ...,  2.2594e-06,
+          3.6769e-06,  2.7996e-06],
+        [ 1.4668e-08,  0.0000e+00,  7.0110e-06,  ...,  1.4268e-06,
+          5.3942e-06,  5.2117e-06],
+        [ 2.3283e-09,  0.0000e+00, -1.9276e-04,  ..., -2.0027e-05,
+          1.0468e-06, -3.1404e-06],
+        ...,
+        [-1.8161e-07,  0.0000e+00,  2.1532e-06,  ...,  7.5903e-07,
+         -1.7181e-05, -2.0087e-05],
+        [ 9.3132e-10,  0.0000e+00,  1.1706e-04,  ...,  1.4752e-05,
+          1.8273e-06,  3.2596e-06],
+        [ 1.4645e-07,  0.0000e+00,  4.2140e-05,  ...,  8.1420e-05,
+          7.3612e-06,  1.4639e-04]], device='cuda:0')
+Epoch 94, bias, value: tensor([-0.0234,  0.0176,  0.0238,  0.0068,  0.0223, -0.0124, -0.0085, -0.0189,
+        -0.0120,  0.0226], device='cuda:0'), grad: tensor([ 3.6091e-05,  2.2978e-05, -3.1447e-04,  6.5029e-05, -1.0324e-04,
+        -4.9591e-05, -2.1249e-05, -3.8832e-05,  2.0230e-04,  2.0087e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 93, time 220.45, cls_loss 0.0063 cls_loss_mapping 0.0107 cls_loss_causal 0.6037 re_mapping 0.0099 re_causal 0.0288 /// teacc 98.78 lr 0.00010000
+Epoch 95, weight, value: tensor([[ 0.0163,  0.0110, -0.0030,  ...,  0.0531, -0.0857, -0.0827],
+        [ 0.0364, -0.0185,  0.0144,  ..., -0.0874,  0.0446, -0.0894],
+        [ 0.0070, -0.0048,  0.0987,  ..., -0.1186, -0.0637, -0.1156],
+        ...,
+        [ 0.0068,  0.0062, -0.0581,  ...,  0.0073,  0.0833,  0.0586],
+        [ 0.0081, -0.0202, -0.0477,  ..., -0.1161,  0.0563, -0.1074],
+        [-0.0118, -0.0258, -0.0333,  ...,  0.0231, -0.0411,  0.0141]],
+       device='cuda:0'), grad: tensor([[ 1.2107e-08,  0.0000e+00,  2.6971e-06,  ...,  5.5023e-06,
+          4.5262e-06,  2.8051e-06],
+        [ 1.6368e-07,  0.0000e+00,  8.2552e-06,  ...,  4.3511e-06,
+          6.3106e-06,  1.0893e-05],
+        [ 7.7998e-08,  0.0000e+00, -7.8201e-05,  ...,  5.8254e-07,
+         -8.3260e-07,  1.6224e-06],
+        ...,
+        [-4.1514e-07,  0.0000e+00,  1.3202e-05,  ...,  9.7528e-06,
+         -8.6986e-07,  2.1741e-05],
+        [ 2.6077e-08,  0.0000e+00,  7.4729e-06,  ...,  1.2368e-05,
+         -2.5839e-05,  2.6256e-05],
+        [ 2.7614e-07,  0.0000e+00,  8.3586e-07,  ..., -5.3558e-03,
+          3.4478e-06, -1.3283e-02]], device='cuda:0')
+Epoch 95, bias, value: tensor([-0.0234,  0.0177,  0.0242,  0.0062,  0.0222, -0.0115, -0.0083, -0.0189,
+        -0.0114,  0.0214], device='cuda:0'), grad: tensor([ 5.3167e-05,  3.4571e-05, -9.5904e-05, -6.4087e-04,  1.1024e-02,
+         8.9693e-04, -2.5201e-04,  3.6329e-05,  2.1304e-07, -1.1055e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 94, time 221.01, cls_loss 0.0060 cls_loss_mapping 0.0089 cls_loss_causal 0.6285 re_mapping 0.0103 re_causal 0.0309 /// teacc 98.80 lr 0.00010000
+Epoch 96, weight, value: tensor([[ 0.0163,  0.0110, -0.0031,  ...,  0.0530, -0.0861, -0.0842],
+        [ 0.0364, -0.0185,  0.0140,  ..., -0.0884,  0.0443, -0.0901],
+        [ 0.0070, -0.0048,  0.1007,  ..., -0.1195, -0.0642, -0.1125],
+        ...,
+        [ 0.0069,  0.0062, -0.0613,  ...,  0.0065,  0.0838,  0.0576],
+        [ 0.0081, -0.0202, -0.0482,  ..., -0.1173,  0.0564, -0.1094],
+        [-0.0118, -0.0258, -0.0336,  ...,  0.0241, -0.0410,  0.0151]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  0.0000e+00,  1.5354e-04,  ..., -4.3251e-06,
+          9.7677e-06,  2.0079e-06],
+        [ 3.8883e-08,  0.0000e+00,  2.8163e-06,  ...,  1.0073e-05,
+         -1.3053e-04,  5.2482e-05],
+        [ 5.6811e-08,  0.0000e+00, -2.6917e-04,  ...,  1.0245e-06,
+          1.0608e-06,  3.7272e-06],
+        ...,
+        [-1.6647e-07,  0.0000e+00,  5.7705e-06,  ...,  2.2296e-06,
+          1.2374e-04, -6.0908e-07],
+        [ 2.8638e-08,  0.0000e+00,  4.7088e-05,  ...,  6.5491e-06,
+          1.1772e-05,  2.3514e-05],
+        [ 1.4435e-08,  0.0000e+00,  1.5823e-06,  ..., -1.5557e-05,
+          1.6615e-05, -2.7537e-05]], device='cuda:0')
+Epoch 96, bias, value: tensor([-0.0237,  0.0171,  0.0252,  0.0060,  0.0225, -0.0116, -0.0082, -0.0195,
+        -0.0118,  0.0221], device='cuda:0'), grad: tensor([ 1.6117e-04, -1.3530e-04, -2.5415e-04,  6.6042e-05, -1.4496e-04,
+         6.4671e-05,  1.5453e-05,  1.7059e-04,  8.6844e-05, -3.1114e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 95, time 220.47, cls_loss 0.0060 cls_loss_mapping 0.0097 cls_loss_causal 0.6027 re_mapping 0.0092 re_causal 0.0286 /// teacc 98.78 lr 0.00010000
+Epoch 97, weight, value: tensor([[ 0.0163,  0.0110, -0.0032,  ...,  0.0528, -0.0868, -0.0848],
+        [ 0.0364, -0.0185,  0.0141,  ..., -0.0887,  0.0441, -0.0912],
+        [ 0.0070, -0.0048,  0.1014,  ..., -0.1201, -0.0647, -0.1129],
+        ...,
+        [ 0.0069,  0.0062, -0.0622,  ...,  0.0065,  0.0852,  0.0584],
+        [ 0.0081, -0.0202, -0.0488,  ..., -0.1177,  0.0563, -0.1100],
+        [-0.0118, -0.0258, -0.0339,  ...,  0.0252, -0.0415,  0.0161]],
+       device='cuda:0'), grad: tensor([[ 1.2573e-08,  0.0000e+00, -9.1419e-06,  ..., -6.8694e-06,
+          1.5087e-05,  1.4104e-05],
+        [ 3.1851e-07,  0.0000e+00,  6.5416e-06,  ...,  2.0340e-06,
+          5.2229e-06,  3.8221e-06],
+        [ 7.6834e-08,  0.0000e+00, -1.0975e-05,  ...,  3.3956e-06,
+          2.2382e-05,  1.7077e-05],
+        ...,
+        [-1.1660e-06,  0.0000e+00,  7.5214e-06,  ...,  1.8999e-07,
+         -3.4243e-05, -4.1246e-05],
+        [ 8.3819e-09,  0.0000e+00, -5.6950e-07,  ...,  1.3560e-06,
+         -1.9968e-05,  7.8743e-07],
+        [ 6.3237e-07,  0.0000e+00,  1.1828e-06,  ...,  3.4384e-06,
+          3.8370e-06,  7.5288e-06]], device='cuda:0')
+Epoch 97, bias, value: tensor([-0.0240,  0.0167,  0.0254,  0.0062,  0.0211, -0.0124, -0.0073, -0.0187,
+        -0.0122,  0.0231], device='cuda:0'), grad: tensor([ 5.0992e-05,  2.7671e-05,  2.8685e-05,  4.5598e-05,  4.4614e-05,
+        -1.1820e-04, -4.1753e-05, -5.2363e-05, -3.3565e-06,  1.8209e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 96, time 220.70, cls_loss 0.0058 cls_loss_mapping 0.0096 cls_loss_causal 0.6073 re_mapping 0.0095 re_causal 0.0288 /// teacc 98.86 lr 0.00010000
+Epoch 98, weight, value: tensor([[ 0.0163,  0.0110, -0.0036,  ...,  0.0513, -0.0871, -0.0850],
+        [ 0.0364, -0.0185,  0.0139,  ..., -0.0896,  0.0440, -0.0915],
+        [ 0.0069, -0.0048,  0.1028,  ..., -0.1228, -0.0654, -0.1133],
+        ...,
+        [ 0.0069,  0.0062, -0.0627,  ...,  0.0062,  0.0858,  0.0586],
+        [ 0.0081, -0.0202, -0.0495,  ..., -0.1185,  0.0566, -0.1107],
+        [-0.0116, -0.0258, -0.0324,  ...,  0.0269, -0.0419,  0.0160]],
+       device='cuda:0'), grad: tensor([[ 2.4401e-07,  0.0000e+00,  1.1623e-06,  ..., -2.3544e-06,
+          9.4324e-06,  1.6615e-05],
+        [ 2.1420e-07,  0.0000e+00,  2.4717e-06,  ...,  1.1832e-05,
+          2.7180e-05,  8.7321e-05],
+        [ 2.1420e-06,  0.0000e+00, -7.8604e-06,  ...,  2.4945e-05,
+          4.0793e-04,  3.5644e-04],
+        ...,
+        [ 1.1716e-06,  0.0000e+00, -1.8999e-05,  ..., -2.9922e-04,
+         -1.3905e-03, -2.3174e-03],
+        [ 3.4533e-06,  0.0000e+00,  1.8448e-05,  ...,  1.0535e-05,
+          5.1796e-05,  9.2089e-05],
+        [ 3.4738e-07,  0.0000e+00,  1.8235e-06,  ...,  2.4819e-04,
+          8.5878e-04,  1.7586e-03]], device='cuda:0')
+Epoch 98, bias, value: tensor([-0.0253,  0.0164,  0.0259,  0.0061,  0.0214, -0.0133, -0.0075, -0.0186,
+        -0.0125,  0.0244], device='cuda:0'), grad: tensor([ 2.5928e-05,  7.9274e-05,  1.1034e-03, -1.3411e-04,  3.8624e-05,
+        -4.0698e-04,  3.5167e-04, -3.2787e-03,  2.4867e-04,  1.9703e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 97, time 220.52, cls_loss 0.0050 cls_loss_mapping 0.0087 cls_loss_causal 0.6016 re_mapping 0.0096 re_causal 0.0288 /// teacc 98.87 lr 0.00010000
+Epoch 99, weight, value: tensor([[ 0.0163,  0.0110, -0.0022,  ...,  0.0520, -0.0876, -0.0855],
+        [ 0.0364, -0.0185,  0.0136,  ..., -0.0906,  0.0442, -0.0916],
+        [ 0.0068, -0.0048,  0.1043,  ..., -0.1236, -0.0658, -0.1114],
+        ...,
+        [ 0.0068,  0.0062, -0.0643,  ...,  0.0062,  0.0861,  0.0583],
+        [ 0.0081, -0.0202, -0.0503,  ..., -0.1187,  0.0574, -0.1106],
+        [-0.0115, -0.0258, -0.0331,  ...,  0.0265, -0.0431,  0.0154]],
+       device='cuda:0'), grad: tensor([[ 9.0804e-09,  0.0000e+00, -2.6133e-06,  ..., -4.6752e-06,
+          1.1288e-05,  2.5295e-06],
+        [ 3.9348e-08,  0.0000e+00, -1.2713e-07,  ...,  3.9376e-06,
+          2.9001e-06,  1.4052e-05],
+        [ 2.1653e-08,  0.0000e+00,  4.3120e-07,  ...,  2.4270e-06,
+          2.9922e-05,  2.1812e-06],
+        ...,
+        [-2.1700e-07,  0.0000e+00,  5.7742e-08,  ..., -1.6347e-05,
+          6.6757e-05, -9.6083e-05],
+        [ 1.4203e-08,  0.0000e+00,  1.8766e-07,  ...,  3.2037e-06,
+         -1.5521e-04,  6.3255e-06],
+        [ 7.5204e-08,  0.0000e+00,  1.2415e-06,  ..., -5.1594e-04,
+          2.8491e-05, -1.1435e-03]], device='cuda:0')
+Epoch 99, bias, value: tensor([-0.0244,  0.0163,  0.0269,  0.0052,  0.0218, -0.0125, -0.0086, -0.0190,
+        -0.0121,  0.0237], device='cuda:0'), grad: tensor([ 3.0488e-05,  1.4812e-05,  5.3555e-05, -4.1336e-05,  9.2125e-04,
+         7.3135e-05, -4.3780e-05,  4.2468e-05, -2.2542e-04, -8.2636e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 98, time 220.85, cls_loss 0.0043 cls_loss_mapping 0.0072 cls_loss_causal 0.6018 re_mapping 0.0093 re_causal 0.0287 /// teacc 98.82 lr 0.00010000
+Epoch 100, weight, value: tensor([[ 0.0163,  0.0110, -0.0020,  ...,  0.0523, -0.0881, -0.0864],
+        [ 0.0364, -0.0185,  0.0129,  ..., -0.0910,  0.0445, -0.0901],
+        [ 0.0068, -0.0048,  0.1052,  ..., -0.1246, -0.0661, -0.1116],
+        ...,
+        [ 0.0069,  0.0062, -0.0647,  ...,  0.0068,  0.0866,  0.0578],
+        [ 0.0081, -0.0202, -0.0508,  ..., -0.1192,  0.0577, -0.1110],
+        [-0.0115, -0.0258, -0.0334,  ...,  0.0265, -0.0441,  0.0154]],
+       device='cuda:0'), grad: tensor([[ 1.6298e-09,  0.0000e+00, -1.6415e-07,  ...,  1.2582e-06,
+          2.5854e-06,  3.4906e-06],
+        [ 1.6531e-08,  0.0000e+00,  6.0871e-06,  ...,  1.1154e-05,
+         -4.7311e-06,  1.2547e-05],
+        [ 9.0804e-09,  0.0000e+00,  1.4476e-05,  ...,  3.4392e-05,
+          1.7229e-06,  3.6180e-05],
+        ...,
+        [-1.2619e-07,  0.0000e+00,  1.7844e-06,  ...,  1.0021e-06,
+         -1.2241e-05, -2.4647e-05],
+        [ 1.3039e-08,  0.0000e+00,  6.6729e-07,  ...,  1.2498e-06,
+         -1.1683e-05,  5.0813e-06],
+        [ 2.0489e-08,  0.0000e+00,  1.2390e-05,  ...,  2.2694e-05,
+          3.8445e-06,  1.8150e-05]], device='cuda:0')
+Epoch 100, bias, value: tensor([-0.0244,  0.0168,  0.0273,  0.0053,  0.0215, -0.0123, -0.0087, -0.0193,
+        -0.0121,  0.0234], device='cuda:0'), grad: tensor([ 8.7470e-06,  1.3113e-05,  6.3479e-05,  3.2634e-05, -1.3673e-04,
+         6.7391e-06,  9.9018e-06, -2.1204e-05, -1.8448e-05,  4.1753e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 99, time 220.90, cls_loss 0.0055 cls_loss_mapping 0.0090 cls_loss_causal 0.5604 re_mapping 0.0096 re_causal 0.0279 /// teacc 98.82 lr 0.00010000
+Epoch 101, weight, value: tensor([[ 0.0161,  0.0110, -0.0016,  ...,  0.0528, -0.0890, -0.0872],
+        [ 0.0368, -0.0185,  0.0131,  ..., -0.0924,  0.0453, -0.0904],
+        [ 0.0068, -0.0048,  0.1052,  ..., -0.1258, -0.0669, -0.1123],
+        ...,
+        [ 0.0069,  0.0062, -0.0649,  ...,  0.0075,  0.0869,  0.0586],
+        [ 0.0078, -0.0202, -0.0513,  ..., -0.1203,  0.0568, -0.1134],
+        [-0.0115, -0.0258, -0.0338,  ...,  0.0265, -0.0435,  0.0160]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-09,  0.0000e+00,  3.8818e-06,  ...,  1.0349e-05,
+          6.3218e-06,  3.4738e-06],
+        [ 1.2224e-07,  0.0000e+00,  1.0375e-06,  ...,  5.4296e-07,
+         -8.0187e-07,  2.2016e-06],
+        [ 9.7789e-09,  0.0000e+00,  8.8941e-07,  ...,  1.7481e-06,
+          3.0044e-06,  7.6443e-06],
+        ...,
+        [-3.8906e-07,  0.0000e+00,  2.2072e-06,  ..., -1.6461e-07,
+         -4.5151e-06, -2.3827e-05],
+        [ 1.0012e-08,  0.0000e+00,  4.6715e-06,  ...,  8.6054e-07,
+          5.4482e-08,  1.3746e-06],
+        [ 1.5995e-07,  0.0000e+00,  3.4682e-06,  ...,  2.0850e-04,
+          1.7984e-06,  4.2009e-04]], device='cuda:0')
+Epoch 101, bias, value: tensor([-0.0242,  0.0177,  0.0267,  0.0053,  0.0213, -0.0126, -0.0085, -0.0191,
+        -0.0139,  0.0242], device='cuda:0'), grad: tensor([ 3.7193e-05,  2.6133e-06,  2.6926e-05, -4.1847e-03, -3.6764e-04,
+         4.1466e-03, -5.4002e-05, -2.7075e-05,  1.9014e-05,  3.9864e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 100, time 220.71, cls_loss 0.0064 cls_loss_mapping 0.0096 cls_loss_causal 0.6049 re_mapping 0.0097 re_causal 0.0268 /// teacc 98.77 lr 0.00010000
+Epoch 102, weight, value: tensor([[ 0.0161,  0.0110, -0.0015,  ...,  0.0530, -0.0900, -0.0886],
+        [ 0.0368, -0.0185,  0.0137,  ..., -0.0937,  0.0458, -0.0909],
+        [ 0.0068, -0.0048,  0.1056,  ..., -0.1269, -0.0679, -0.1126],
+        ...,
+        [ 0.0069,  0.0062, -0.0653,  ...,  0.0071,  0.0877,  0.0592],
+        [ 0.0077, -0.0202, -0.0515,  ..., -0.1208,  0.0567, -0.1143],
+        [-0.0116, -0.0258, -0.0341,  ...,  0.0264, -0.0439,  0.0158]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-09,  0.0000e+00, -1.5453e-05,  ..., -1.7047e-05,
+         -4.3586e-06,  4.1239e-06],
+        [ 1.6997e-08,  0.0000e+00,  4.1351e-06,  ...,  5.8748e-06,
+          8.7261e-05,  7.1883e-05],
+        [ 4.6566e-09,  0.0000e+00,  8.9034e-06,  ...,  1.7300e-05,
+          6.3777e-06,  5.6207e-05],
+        ...,
+        [-4.1211e-08,  0.0000e+00,  2.3544e-06,  ...,  1.1548e-05,
+         -1.7560e-04, -7.8797e-05],
+        [ 1.1642e-09,  0.0000e+00,  5.2415e-06,  ...,  1.2830e-05,
+          1.3344e-05,  2.3708e-05],
+        [ 1.2573e-08,  0.0000e+00,  7.9274e-06,  ...,  7.6890e-06,
+          1.1839e-05,  4.3958e-06]], device='cuda:0')
+Epoch 102, bias, value: tensor([-0.0244,  0.0182,  0.0263,  0.0056,  0.0214, -0.0133, -0.0091, -0.0186,
+        -0.0131,  0.0238], device='cuda:0'), grad: tensor([-3.5405e-05,  1.6797e-04,  1.0002e-04,  1.0365e-04, -2.0802e-04,
+        -3.1199e-06,  1.1146e-05, -2.4581e-04,  4.2170e-05,  6.7234e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 101, time 221.18, cls_loss 0.0047 cls_loss_mapping 0.0082 cls_loss_causal 0.5894 re_mapping 0.0091 re_causal 0.0276 /// teacc 98.85 lr 0.00010000
+Epoch 103, weight, value: tensor([[ 0.0161,  0.0110, -0.0028,  ...,  0.0520, -0.0912, -0.0904],
+        [ 0.0368, -0.0185,  0.0134,  ..., -0.0941,  0.0462, -0.0910],
+        [ 0.0067, -0.0048,  0.1067,  ..., -0.1286, -0.0684, -0.1127],
+        ...,
+        [ 0.0070,  0.0062, -0.0658,  ...,  0.0069,  0.0878,  0.0594],
+        [ 0.0077, -0.0202, -0.0524,  ..., -0.1215,  0.0570, -0.1149],
+        [-0.0116, -0.0258, -0.0324,  ...,  0.0274, -0.0443,  0.0153]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  0.0000e+00, -5.6699e-06,  ..., -1.4086e-07,
+          8.3223e-06,  1.6198e-05],
+        [ 2.0955e-09,  0.0000e+00,  1.6112e-07,  ...,  5.9344e-06,
+          1.5469e-06,  1.3597e-05],
+        [ 1.3970e-09,  0.0000e+00,  1.0496e-06,  ...,  4.4256e-06,
+          5.3085e-06,  8.1807e-06],
+        ...,
+        [-4.6566e-09,  0.0000e+00,  3.2899e-07,  ...,  1.2636e-04,
+          4.3511e-05,  2.8682e-04],
+        [ 0.0000e+00,  0.0000e+00,  2.2110e-06,  ...,  1.2338e-05,
+          7.8902e-06,  2.4214e-05],
+        [ 6.9849e-10,  0.0000e+00,  9.3412e-07,  ..., -4.6158e-04,
+         -1.5819e-04, -1.0614e-03]], device='cuda:0')
+Epoch 103, bias, value: tensor([-0.0255,  0.0184,  0.0267,  0.0048,  0.0220, -0.0129, -0.0090, -0.0188,
+        -0.0130,  0.0238], device='cuda:0'), grad: tensor([ 3.9101e-05,  2.0891e-05,  3.2097e-05,  2.1011e-05,  7.6628e-04,
+        -2.9802e-05, -2.0063e-04,  2.7680e-04,  5.5969e-05, -9.8228e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 102, time 220.75, cls_loss 0.0063 cls_loss_mapping 0.0106 cls_loss_causal 0.6001 re_mapping 0.0093 re_causal 0.0274 /// teacc 98.70 lr 0.00010000
+Epoch 104, weight, value: tensor([[ 0.0161,  0.0110, -0.0025,  ...,  0.0525, -0.0922, -0.0904],
+        [ 0.0367, -0.0185,  0.0136,  ..., -0.0951,  0.0448, -0.0918],
+        [ 0.0067, -0.0048,  0.1068,  ..., -0.1305, -0.0691, -0.1139],
+        ...,
+        [ 0.0069,  0.0062, -0.0664,  ...,  0.0070,  0.0897,  0.0593],
+        [ 0.0077, -0.0202, -0.0541,  ..., -0.1226,  0.0570, -0.1157],
+        [-0.0116, -0.0258, -0.0326,  ...,  0.0286, -0.0441,  0.0167]],
+       device='cuda:0'), grad: tensor([[ 6.0536e-09,  0.0000e+00, -9.2946e-07,  ...,  5.5313e-05,
+          1.2117e-06,  3.4362e-05],
+        [ 1.5716e-07,  0.0000e+00, -6.8843e-05,  ...,  4.9770e-06,
+         -1.6034e-04,  7.0147e-06],
+        [ 1.0477e-08,  0.0000e+00,  4.4316e-05,  ...,  2.4885e-06,
+          1.4305e-04,  3.1162e-06],
+        ...,
+        [-7.3481e-07,  0.0000e+00,  2.1592e-05,  ...,  2.3052e-05,
+          1.3545e-05,  2.6941e-05],
+        [ 2.1188e-08,  0.0000e+00,  1.5460e-06,  ...,  3.5577e-06,
+          1.0310e-06,  4.9137e-06],
+        [ 5.2247e-07,  0.0000e+00, -5.2191e-06,  ..., -2.8044e-05,
+          2.1681e-05,  3.0684e-04]], device='cuda:0')
+Epoch 104, bias, value: tensor([-0.0252,  0.0174,  0.0259,  0.0060,  0.0209, -0.0125, -0.0089, -0.0184,
+        -0.0138,  0.0247], device='cuda:0'), grad: tensor([ 5.1916e-05, -2.9540e-04,  2.5034e-04,  2.2352e-05, -3.7241e-04,
+         2.3142e-05, -3.5241e-06,  8.9347e-05,  1.2413e-05,  2.2185e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 103, time 220.72, cls_loss 0.0044 cls_loss_mapping 0.0073 cls_loss_causal 0.5563 re_mapping 0.0088 re_causal 0.0264 /// teacc 98.77 lr 0.00010000
+Epoch 105, weight, value: tensor([[ 0.0161,  0.0110, -0.0023,  ...,  0.0522, -0.0938, -0.0911],
+        [ 0.0367, -0.0185,  0.0134,  ..., -0.0958,  0.0448, -0.0923],
+        [ 0.0067, -0.0048,  0.1075,  ..., -0.1314, -0.0696, -0.1142],
+        ...,
+        [ 0.0069,  0.0062, -0.0672,  ...,  0.0067,  0.0904,  0.0600],
+        [ 0.0077, -0.0202, -0.0540,  ..., -0.1237,  0.0587, -0.1167],
+        [-0.0115, -0.0258, -0.0330,  ...,  0.0274, -0.0447,  0.0154]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.3209e-06,  ..., -4.4107e-06,
+          1.6494e-06,  3.9279e-07],
+        [ 0.0000e+00,  0.0000e+00,  6.5332e-07,  ...,  1.1148e-06,
+         -2.6003e-06,  1.1884e-06],
+        [ 0.0000e+00,  0.0000e+00,  1.8133e-06,  ...,  1.7546e-06,
+          3.0715e-06,  6.7148e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.9838e-07,  ...,  1.2442e-05,
+          7.6368e-06,  2.9013e-05],
+        [ 0.0000e+00,  0.0000e+00,  1.6928e-05,  ...,  1.0664e-06,
+          2.0266e-05,  1.4538e-06],
+        [ 0.0000e+00,  0.0000e+00,  1.6503e-06,  ..., -2.1860e-05,
+         -1.1057e-05, -5.6118e-05]], device='cuda:0')
+Epoch 105, bias, value: tensor([-0.0257,  0.0174,  0.0258,  0.0065,  0.0224, -0.0132, -0.0096, -0.0181,
+        -0.0126,  0.0234], device='cuda:0'), grad: tensor([-3.7113e-07, -4.0978e-06,  1.0021e-05, -2.8387e-05,  2.4259e-05,
+        -8.5533e-06, -5.4479e-05,  3.5405e-05,  7.3373e-05, -4.7147e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 104, time 221.19, cls_loss 0.0052 cls_loss_mapping 0.0091 cls_loss_causal 0.5834 re_mapping 0.0091 re_causal 0.0272 /// teacc 98.87 lr 0.00010000
+Epoch 106, weight, value: tensor([[ 0.0161,  0.0110, -0.0014,  ...,  0.0529, -0.0943, -0.0916],
+        [ 0.0364, -0.0185,  0.0123,  ..., -0.0970,  0.0462, -0.0903],
+        [ 0.0067, -0.0048,  0.1091,  ..., -0.1339, -0.0692, -0.1147],
+        ...,
+        [ 0.0071,  0.0062, -0.0681,  ...,  0.0070,  0.0899,  0.0598],
+        [ 0.0077, -0.0202, -0.0545,  ..., -0.1250,  0.0586, -0.1175],
+        [-0.0116, -0.0258, -0.0335,  ...,  0.0265, -0.0459,  0.0141]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  3.4105e-06,  ..., -5.7817e-06,
+          1.6317e-06,  1.1008e-06],
+        [ 0.0000e+00,  0.0000e+00, -2.6569e-03,  ..., -5.9046e-07,
+         -3.3998e-04,  1.4277e-06],
+        [ 0.0000e+00,  0.0000e+00,  2.5043e-03,  ...,  2.3618e-06,
+          3.2496e-04,  5.3383e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.1055e-05,  ..., -3.2224e-06,
+         -5.0291e-06,  1.6558e-04],
+        [ 0.0000e+00,  0.0000e+00,  1.1399e-05,  ...,  1.2768e-06,
+         -1.3225e-05, -2.7195e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.7911e-05,  ...,  4.0494e-06,
+          1.2405e-05,  7.3127e-06]], device='cuda:0')
+Epoch 106, bias, value: tensor([-0.0252,  0.0182,  0.0266,  0.0057,  0.0237, -0.0135, -0.0091, -0.0184,
+        -0.0129,  0.0220], device='cuda:0'), grad: tensor([ 9.4995e-06, -4.4556e-03,  4.2381e-03, -9.1982e-04,  1.0455e-04,
+        -2.3711e-06,  1.0632e-05,  9.4604e-04,  6.7912e-06,  6.4731e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 105, time 220.76, cls_loss 0.0046 cls_loss_mapping 0.0072 cls_loss_causal 0.5668 re_mapping 0.0094 re_causal 0.0273 /// teacc 98.62 lr 0.00010000
+Epoch 107, weight, value: tensor([[ 0.0161,  0.0110, -0.0008,  ...,  0.0533, -0.0948, -0.0924],
+        [ 0.0364, -0.0185,  0.0127,  ..., -0.0972,  0.0467, -0.0903],
+        [ 0.0067, -0.0048,  0.1096,  ..., -0.1350, -0.0699, -0.1148],
+        ...,
+        [ 0.0071,  0.0062, -0.0686,  ...,  0.0069,  0.0897,  0.0600],
+        [ 0.0077, -0.0202, -0.0556,  ..., -0.1258,  0.0592, -0.1174],
+        [-0.0116, -0.0258, -0.0337,  ...,  0.0267, -0.0463,  0.0141]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.2457e-05,  ...,  4.4680e-04,
+          8.3447e-06,  2.4056e-04],
+        [ 0.0000e+00,  0.0000e+00,  1.1493e-06,  ...,  4.0196e-06,
+          1.3620e-05,  8.5011e-06],
+        [ 0.0000e+00,  0.0000e+00,  6.0759e-06,  ...,  1.3754e-05,
+          2.3507e-06,  7.3835e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  6.4634e-06,  ...,  5.0366e-06,
+          6.1691e-06, -1.6451e-05],
+        [ 0.0000e+00,  0.0000e+00,  5.0813e-06,  ...,  7.3090e-06,
+          1.1939e-04,  3.2820e-06],
+        [ 0.0000e+00,  0.0000e+00,  1.2796e-06,  ..., -5.2166e-04,
+          6.4895e-06, -2.8419e-04]], device='cuda:0')
+Epoch 107, bias, value: tensor([-0.0250,  0.0189,  0.0260,  0.0054,  0.0235, -0.0134, -0.0090, -0.0186,
+        -0.0127,  0.0220], device='cuda:0'), grad: tensor([ 6.6996e-04,  3.4660e-05,  3.6240e-05, -1.1899e-05,  2.2396e-05,
+         1.6177e-04, -4.3869e-04,  1.1124e-05,  2.6894e-04, -7.5626e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 106, time 221.07, cls_loss 0.0051 cls_loss_mapping 0.0087 cls_loss_causal 0.5858 re_mapping 0.0092 re_causal 0.0272 /// teacc 98.77 lr 0.00010000
+Epoch 108, weight, value: tensor([[ 0.0161,  0.0110, -0.0003,  ...,  0.0539, -0.0946, -0.0931],
+        [ 0.0363, -0.0185,  0.0128,  ..., -0.0985,  0.0469, -0.0907],
+        [ 0.0067, -0.0048,  0.1104,  ..., -0.1377, -0.0694, -0.1142],
+        ...,
+        [ 0.0066,  0.0062, -0.0707,  ...,  0.0069,  0.0893,  0.0597],
+        [ 0.0077, -0.0202, -0.0560,  ..., -0.1267,  0.0594, -0.1176],
+        [-0.0116, -0.0258, -0.0340,  ...,  0.0271, -0.0466,  0.0146]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-08,  0.0000e+00, -1.6927e-07,  ..., -3.3528e-06,
+          2.9569e-07,  3.4273e-07],
+        [ 3.1013e-07,  0.0000e+00,  4.7982e-06,  ...,  4.9081e-07,
+         -2.7660e-07,  1.8962e-06],
+        [ 2.1420e-07,  0.0000e+00, -2.0817e-05,  ..., -6.5193e-08,
+          2.3562e-07, -1.1306e-06],
+        ...,
+        [-7.7393e-07,  0.0000e+00,  8.7023e-06,  ..., -2.7055e-07,
+         -2.7381e-06, -3.8017e-06],
+        [ 2.5379e-08,  0.0000e+00,  3.3341e-06,  ...,  2.6869e-07,
+         -3.2574e-05,  6.9756e-07],
+        [ 1.6508e-07,  0.0000e+00,  4.0932e-07,  ...,  3.3565e-06,
+          1.2862e-06,  2.3171e-06]], device='cuda:0')
+Epoch 108, bias, value: tensor([-0.0245,  0.0191,  0.0261,  0.0057,  0.0232, -0.0123, -0.0097, -0.0194,
+        -0.0132,  0.0223], device='cuda:0'), grad: tensor([-4.0196e-06,  7.2829e-06, -2.5645e-05,  2.2650e-06,  4.9081e-07,
+         4.8995e-05,  1.1928e-05,  6.1691e-06, -5.3257e-05,  5.8562e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 107, time 220.63, cls_loss 0.0050 cls_loss_mapping 0.0095 cls_loss_causal 0.5753 re_mapping 0.0089 re_causal 0.0254 /// teacc 98.84 lr 0.00010000
+Epoch 109, weight, value: tensor([[ 0.0160,  0.0110, -0.0002,  ...,  0.0536, -0.0951, -0.0937],
+        [ 0.0361, -0.0185,  0.0126,  ..., -0.1002,  0.0462, -0.0921],
+        [ 0.0065, -0.0048,  0.1109,  ..., -0.1390, -0.0700, -0.1147],
+        ...,
+        [ 0.0063,  0.0062, -0.0706,  ...,  0.0069,  0.0905,  0.0606],
+        [ 0.0076, -0.0202, -0.0563,  ..., -0.1281,  0.0598, -0.1186],
+        [-0.0118, -0.0258, -0.0345,  ...,  0.0267, -0.0469,  0.0142]],
+       device='cuda:0'), grad: tensor([[ 1.3574e-07,  0.0000e+00, -8.9025e-04,  ..., -6.4802e-04,
+          2.5146e-07,  3.5483e-07],
+        [ 9.6392e-08,  0.0000e+00,  9.7901e-06,  ...,  9.5069e-06,
+          3.1143e-06,  6.6012e-06],
+        [ 1.8487e-07,  0.0000e+00,  9.3520e-05,  ...,  6.8545e-05,
+         -1.6415e-07,  7.3202e-07],
+        ...,
+        [ 1.9954e-07,  0.0000e+00,  5.0068e-06,  ...,  5.2564e-06,
+          4.5933e-06,  8.0243e-06],
+        [ 1.7080e-06,  0.0000e+00,  1.7479e-05,  ...,  1.7062e-05,
+          2.8983e-06,  1.9759e-05],
+        [ 9.2108e-07,  0.0000e+00,  2.3603e-05,  ...,  8.3596e-06,
+         -2.5555e-06, -1.8954e-05]], device='cuda:0')
+Epoch 109, bias, value: tensor([-0.0255,  0.0182,  0.0259,  0.0062,  0.0243, -0.0119, -0.0099, -0.0189,
+        -0.0133,  0.0217], device='cuda:0'), grad: tensor([-2.0618e-03,  3.1829e-05,  2.2268e-04, -6.2943e-05, -1.2293e-05,
+         3.4809e-05,  1.7071e-03,  2.1726e-05,  6.6817e-05,  5.0247e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 108, time 221.02, cls_loss 0.0039 cls_loss_mapping 0.0079 cls_loss_causal 0.5636 re_mapping 0.0093 re_causal 0.0273 /// teacc 98.86 lr 0.00010000
+Epoch 110, weight, value: tensor([[ 0.0159,  0.0110,  0.0007,  ...,  0.0540, -0.0955, -0.0941],
+        [ 0.0359, -0.0185,  0.0127,  ..., -0.1018,  0.0462, -0.0927],
+        [ 0.0063, -0.0048,  0.1106,  ..., -0.1402, -0.0708, -0.1153],
+        ...,
+        [ 0.0058,  0.0062, -0.0707,  ...,  0.0064,  0.0911,  0.0606],
+        [ 0.0076, -0.0202, -0.0566,  ..., -0.1291,  0.0599, -0.1192],
+        [-0.0105, -0.0258, -0.0343,  ...,  0.0269, -0.0473,  0.0146]],
+       device='cuda:0'), grad: tensor([[ 1.6298e-09,  0.0000e+00, -1.0012e-07,  ...,  4.3260e-07,
+          1.5479e-06,  1.2200e-06],
+        [-1.9325e-08,  0.0000e+00,  1.9651e-07,  ...,  9.6299e-07,
+         -1.0002e-04, -1.8384e-06],
+        [ 1.2107e-08,  0.0000e+00, -5.2005e-06,  ...,  3.2852e-07,
+          2.3115e-06,  9.2573e-07],
+        ...,
+        [-3.2363e-08,  0.0000e+00,  3.8482e-06,  ...,  2.0340e-06,
+          7.3425e-06, -2.1774e-06],
+        [ 3.4925e-09,  0.0000e+00,  6.6124e-07,  ...,  3.5912e-06,
+          3.1173e-05,  7.3202e-06],
+        [ 1.7695e-08,  0.0000e+00,  1.1851e-07,  ..., -2.1040e-04,
+         -3.9428e-05, -3.5882e-04]], device='cuda:0')
+Epoch 110, bias, value: tensor([-0.0252,  0.0181,  0.0250,  0.0064,  0.0244, -0.0119, -0.0103, -0.0185,
+        -0.0134,  0.0220], device='cuda:0'), grad: tensor([ 5.2750e-06, -1.6749e-04, -1.0431e-06,  1.8239e-05,  4.9019e-04,
+        -1.9407e-04,  2.1625e-04,  1.8284e-05,  6.4313e-05, -4.5013e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 109, time 220.51, cls_loss 0.0049 cls_loss_mapping 0.0082 cls_loss_causal 0.5912 re_mapping 0.0087 re_causal 0.0266 /// teacc 98.90 lr 0.00010000
+Epoch 111, weight, value: tensor([[ 0.0159,  0.0110,  0.0011,  ...,  0.0541, -0.0960, -0.0949],
+        [ 0.0358, -0.0185,  0.0120,  ..., -0.1039,  0.0460, -0.0932],
+        [ 0.0063, -0.0048,  0.1112,  ..., -0.1423, -0.0707, -0.1162],
+        ...,
+        [ 0.0055,  0.0062, -0.0708,  ...,  0.0095,  0.0919,  0.0627],
+        [ 0.0076, -0.0202, -0.0571,  ..., -0.1303,  0.0600, -0.1195],
+        [-0.0099, -0.0258, -0.0345,  ...,  0.0265, -0.0484,  0.0142]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -7.9811e-05,  ..., -1.9717e-04,
+          2.3842e-06,  4.9993e-06],
+        [ 0.0000e+00,  0.0000e+00,  5.0664e-07,  ..., -4.2543e-06,
+         -1.7911e-05, -2.0191e-05],
+        [ 0.0000e+00,  0.0000e+00, -7.8604e-07,  ...,  4.8764e-06,
+          1.3784e-05,  8.5682e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6641e-06,  ...,  9.9093e-06,
+         -3.4869e-05, -1.2837e-05],
+        [ 0.0000e+00,  0.0000e+00,  5.6028e-06,  ...,  1.3664e-05,
+         -7.3016e-07,  9.7696e-07],
+        [ 0.0000e+00,  0.0000e+00,  3.5483e-06,  ..., -9.5546e-05,
+          2.2709e-05, -1.0562e-04]], device='cuda:0')
+Epoch 111, bias, value: tensor([-0.0252,  0.0174,  0.0249,  0.0064,  0.0232, -0.0120, -0.0088, -0.0166,
+        -0.0137,  0.0211], device='cuda:0'), grad: tensor([-3.8505e-04, -6.6876e-05,  4.7415e-05,  1.9953e-05,  1.8561e-04,
+         1.1837e-04,  2.3174e-04, -6.8486e-05,  2.5287e-05, -1.0812e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 110, time 221.29, cls_loss 0.0050 cls_loss_mapping 0.0112 cls_loss_causal 0.6104 re_mapping 0.0094 re_causal 0.0271 /// teacc 98.89 lr 0.00010000
+Epoch 112, weight, value: tensor([[ 0.0159,  0.0110,  0.0008,  ...,  0.0538, -0.0963, -0.0957],
+        [ 0.0359, -0.0185,  0.0119,  ..., -0.1051,  0.0459, -0.0940],
+        [ 0.0063, -0.0048,  0.1123,  ..., -0.1431, -0.0711, -0.1166],
+        ...,
+        [ 0.0055,  0.0062, -0.0715,  ...,  0.0094,  0.0925,  0.0633],
+        [ 0.0075, -0.0202, -0.0580,  ..., -0.1307,  0.0605, -0.1180],
+        [-0.0099, -0.0258, -0.0343,  ...,  0.0277, -0.0493,  0.0146]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.4137e-06,  ...,  1.5087e-06,
+          2.0459e-05,  6.0759e-06],
+        [ 0.0000e+00,  0.0000e+00,  6.6608e-06,  ...,  1.8971e-06,
+          3.7029e-06,  1.0006e-05],
+        [ 0.0000e+00,  0.0000e+00, -6.8963e-05,  ...,  9.1456e-07,
+          3.0063e-06, -2.5943e-05],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.0382e-05,  ..., -9.6932e-06,
+         -1.0863e-05,  3.4049e-06],
+        [ 0.0000e+00,  0.0000e+00,  2.3488e-06,  ...,  1.3104e-06,
+         -4.4174e-03,  4.8727e-06],
+        [ 0.0000e+00,  0.0000e+00,  5.6624e-06,  ...,  1.3433e-05,
+          1.0751e-05,  2.9504e-05]], device='cuda:0')
+Epoch 112, bias, value: tensor([-0.0256,  0.0170,  0.0253,  0.0060,  0.0224, -0.0119, -0.0084, -0.0161,
+        -0.0131,  0.0213], device='cuda:0'), grad: tensor([ 5.4210e-05,  2.5630e-05, -1.0312e-04,  1.5616e-05, -2.6926e-05,
+         2.4128e-03,  7.6675e-03,  2.9162e-05, -1.0132e-02,  6.1989e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 111, time 220.87, cls_loss 0.0040 cls_loss_mapping 0.0080 cls_loss_causal 0.5863 re_mapping 0.0085 re_causal 0.0262 /// teacc 98.81 lr 0.00010000
+Epoch 113, weight, value: tensor([[ 1.5887e-02,  1.0998e-02,  2.7725e-05,  ...,  5.3349e-02,
+         -9.6547e-02, -9.6051e-02],
+        [ 3.5917e-02, -1.8468e-02,  1.1904e-02,  ..., -1.0585e-01,
+          4.6064e-02, -9.4180e-02],
+        [ 6.2594e-03, -4.7728e-03,  1.1299e-01,  ..., -1.4430e-01,
+         -7.1335e-02, -1.1652e-01],
+        ...,
+        [ 5.4894e-03,  6.2061e-03, -7.2306e-02,  ...,  9.2758e-03,
+          9.2541e-02,  6.3443e-02],
+        [ 7.5326e-03, -2.0220e-02, -5.9033e-02,  ..., -1.3183e-01,
+          6.1035e-02, -1.1809e-01],
+        [-9.9149e-03, -2.5834e-02, -3.3555e-02,  ...,  2.8040e-02,
+         -4.9659e-02,  1.4163e-02]], device='cuda:0'), grad: tensor([[ 3.2596e-09,  0.0000e+00,  4.5705e-07,  ..., -1.7192e-06,
+          5.3225e-07,  2.4168e-07],
+        [-1.6298e-09,  0.0000e+00,  8.2469e-07,  ...,  4.4098e-07,
+         -4.4368e-06,  1.6727e-06],
+        [ 1.6298e-08,  0.0000e+00, -9.0972e-06,  ...,  1.8114e-07,
+          1.4128e-06,  4.4773e-07],
+        ...,
+        [-6.7055e-08,  0.0000e+00,  1.7695e-06,  ...,  2.7791e-06,
+         -2.1774e-06,  1.2647e-06],
+        [ 8.3819e-09,  0.0000e+00,  4.0680e-06,  ...,  3.8906e-07,
+          1.5981e-06,  6.7707e-07],
+        [ 1.3737e-08,  0.0000e+00,  9.9838e-07,  ...,  3.3770e-06,
+          1.2144e-06,  6.5118e-06]], device='cuda:0')
+Epoch 113, bias, value: tensor([-0.0260,  0.0170,  0.0253,  0.0056,  0.0230, -0.0114, -0.0092, -0.0159,
+        -0.0131,  0.0211], device='cuda:0'), grad: tensor([ 2.7865e-06, -1.0513e-05, -2.0936e-06, -9.2316e-04, -1.1951e-05,
+         8.9312e-04,  2.1402e-06,  4.6529e-06,  2.5466e-05,  1.9580e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 112, time 221.03, cls_loss 0.0037 cls_loss_mapping 0.0065 cls_loss_causal 0.5854 re_mapping 0.0086 re_causal 0.0260 /// teacc 98.89 lr 0.00010000
+Epoch 114, weight, value: tensor([[ 0.0159,  0.0110,  0.0003,  ...,  0.0535, -0.0971, -0.0965],
+        [ 0.0359, -0.0185,  0.0118,  ..., -0.1061,  0.0467, -0.0932],
+        [ 0.0062, -0.0048,  0.1135,  ..., -0.1449, -0.0720, -0.1168],
+        ...,
+        [ 0.0055,  0.0062, -0.0725,  ...,  0.0088,  0.0924,  0.0624],
+        [ 0.0075, -0.0202, -0.0596,  ..., -0.1332,  0.0612, -0.1193],
+        [-0.0098, -0.0258, -0.0338,  ...,  0.0282, -0.0499,  0.0146]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.5858e-06,  ...,  2.3127e-05,
+          2.6464e-05,  1.4259e-06],
+        [ 6.9849e-10,  0.0000e+00,  3.4343e-07,  ...,  9.5647e-07,
+          1.6373e-06,  5.8226e-06],
+        [ 0.0000e+00,  0.0000e+00,  2.5630e-06,  ...,  2.7716e-06,
+          3.1050e-06,  1.1057e-05],
+        ...,
+        [-3.2596e-09,  0.0000e+00, -1.6131e-06,  ...,  4.2990e-06,
+         -5.2005e-06, -7.7486e-06],
+        [ 2.3283e-10,  0.0000e+00,  1.4221e-06,  ...,  3.3453e-06,
+          9.9558e-07,  2.2687e-06],
+        [ 1.6298e-09,  0.0000e+00,  3.2317e-06,  ...,  5.5462e-05,
+          6.2119e-07,  1.0687e-04]], device='cuda:0')
+Epoch 114, bias, value: tensor([-0.0260,  0.0176,  0.0252,  0.0055,  0.0231, -0.0107, -0.0091, -0.0167,
+        -0.0133,  0.0212], device='cuda:0'), grad: tensor([ 1.2445e-04,  8.3521e-06,  2.2635e-05,  4.9323e-06, -1.0276e-04,
+         4.4852e-06, -1.6928e-04, -1.4581e-05,  1.0751e-05,  1.1098e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 113, time 220.80, cls_loss 0.0039 cls_loss_mapping 0.0075 cls_loss_causal 0.5811 re_mapping 0.0086 re_causal 0.0258 /// teacc 98.92 lr 0.00010000
+Epoch 115, weight, value: tensor([[ 0.0158,  0.0110,  0.0005,  ...,  0.0536, -0.0977, -0.0967],
+        [ 0.0358, -0.0185,  0.0118,  ..., -0.1070,  0.0467, -0.0939],
+        [ 0.0060, -0.0048,  0.1139,  ..., -0.1462, -0.0726, -0.1176],
+        ...,
+        [ 0.0054,  0.0062, -0.0733,  ...,  0.0086,  0.0927,  0.0622],
+        [ 0.0074, -0.0202, -0.0603,  ..., -0.1333,  0.0617, -0.1193],
+        [-0.0097, -0.0258, -0.0339,  ...,  0.0281, -0.0502,  0.0149]],
+       device='cuda:0'), grad: tensor([[ 8.3819e-09,  0.0000e+00, -5.4389e-07,  ..., -4.7777e-07,
+          3.1735e-07,  8.3633e-07],
+        [-2.0815e-07,  0.0000e+00,  3.3528e-08,  ...,  8.1258e-08,
+         -1.0110e-05, -4.7795e-06],
+        [ 2.1886e-08,  0.0000e+00, -9.2899e-08,  ...,  1.5227e-07,
+          2.1141e-06,  1.2815e-06],
+        ...,
+        [ 4.7265e-08,  0.0000e+00,  1.4901e-07,  ...,  3.5693e-07,
+          2.8722e-06,  2.2184e-06],
+        [ 1.0245e-07,  0.0000e+00,  2.2259e-07,  ...,  6.9253e-06,
+          9.9093e-07,  2.2098e-05],
+        [-3.9581e-08,  0.0000e+00,  1.0710e-07,  ..., -4.7684e-05,
+          1.9232e-07, -1.5259e-04]], device='cuda:0')
+Epoch 115, bias, value: tensor([-0.0260,  0.0172,  0.0249,  0.0056,  0.0232, -0.0109, -0.0087, -0.0169,
+        -0.0133,  0.0215], device='cuda:0'), grad: tensor([ 6.0443e-07, -3.4362e-05,  7.5623e-06,  1.6582e-04,  1.1347e-05,
+        -1.4687e-06,  2.2519e-06,  1.1913e-05,  3.2008e-05, -1.9562e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 114, time 220.85, cls_loss 0.0036 cls_loss_mapping 0.0079 cls_loss_causal 0.6048 re_mapping 0.0085 re_causal 0.0265 /// teacc 98.88 lr 0.00010000
+Epoch 116, weight, value: tensor([[ 0.0158,  0.0110,  0.0012,  ...,  0.0540, -0.0974, -0.0971],
+        [ 0.0357, -0.0185,  0.0118,  ..., -0.1081,  0.0468, -0.0938],
+        [ 0.0060, -0.0048,  0.1143,  ..., -0.1469, -0.0729, -0.1179],
+        ...,
+        [ 0.0054,  0.0062, -0.0742,  ...,  0.0080,  0.0925,  0.0624],
+        [ 0.0072, -0.0202, -0.0609,  ..., -0.1338,  0.0625, -0.1197],
+        [-0.0097, -0.0258, -0.0341,  ...,  0.0280, -0.0507,  0.0149]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-09,  0.0000e+00, -1.2843e-06,  ..., -5.6699e-06,
+          1.7006e-06,  3.9637e-06],
+        [ 1.4668e-08,  0.0000e+00,  1.3262e-05,  ...,  9.1828e-07,
+          7.6033e-06,  1.0796e-05],
+        [ 4.4238e-09,  0.0000e+00, -9.8515e-04,  ...,  1.2238e-06,
+         -1.9705e-04, -5.0306e-04],
+        ...,
+        [-5.9837e-08,  0.0000e+00,  9.4557e-04,  ...,  3.5223e-06,
+          1.8251e-04,  4.8184e-04],
+        [ 3.2596e-09,  0.0000e+00,  1.1511e-05,  ...,  1.2919e-05,
+          4.2208e-06,  1.3962e-05],
+        [ 9.5461e-09,  0.0000e+00,  1.5227e-06,  ...,  1.6630e-05,
+         -8.1658e-06,  5.9336e-05]], device='cuda:0')
+Epoch 116, bias, value: tensor([-0.0256,  0.0174,  0.0247,  0.0049,  0.0233, -0.0108, -0.0084, -0.0172,
+        -0.0129,  0.0214], device='cuda:0'), grad: tensor([-4.8764e-06,  3.1054e-05, -1.4620e-03,  1.6475e-04, -4.7088e-05,
+        -2.8920e-04,  1.4603e-05,  1.3914e-03,  1.7095e-04,  3.2336e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 115----------------------------------------------------
+epoch 115, time 221.94, cls_loss 0.0046 cls_loss_mapping 0.0102 cls_loss_causal 0.5448 re_mapping 0.0089 re_causal 0.0261 /// teacc 98.98 lr 0.00010000
+Epoch 117, weight, value: tensor([[ 0.0158,  0.0110,  0.0018,  ...,  0.0542, -0.0976, -0.0978],
+        [ 0.0356, -0.0185,  0.0103,  ..., -0.1088,  0.0459, -0.0945],
+        [ 0.0065, -0.0048,  0.1155,  ..., -0.1482, -0.0728, -0.1180],
+        ...,
+        [ 0.0047,  0.0062, -0.0745,  ...,  0.0077,  0.0934,  0.0626],
+        [ 0.0070, -0.0202, -0.0635,  ..., -0.1348,  0.0616, -0.1196],
+        [-0.0097, -0.0258, -0.0336,  ...,  0.0284, -0.0517,  0.0148]],
+       device='cuda:0'), grad: tensor([[ 4.0159e-06,  0.0000e+00, -2.9469e-04,  ..., -5.1975e-04,
+          1.3269e-05, -7.3612e-05],
+        [ 1.1826e-04,  0.0000e+00,  2.1271e-06,  ...,  3.7495e-06,
+          3.8600e-04,  4.0561e-05],
+        [ 1.2880e-06,  0.0000e+00,  6.9141e-06,  ...,  1.6376e-05,
+          5.0813e-06,  6.1952e-06],
+        ...,
+        [-1.5246e-06,  0.0000e+00,  2.8987e-07,  ..., -9.1456e-07,
+         -1.6928e-05, -6.8784e-05],
+        [-1.4758e-04,  0.0000e+00,  3.8706e-06,  ...,  6.9812e-06,
+         -4.8089e-04, -3.6597e-05],
+        [ 1.2442e-06,  0.0000e+00,  5.5581e-05,  ...,  1.0800e-04,
+          4.7795e-06,  2.8193e-05]], device='cuda:0')
+Epoch 117, bias, value: tensor([-0.0253,  0.0162,  0.0252,  0.0054,  0.0233, -0.0106, -0.0075, -0.0171,
+        -0.0141,  0.0214], device='cuda:0'), grad: tensor([-8.1062e-04,  8.3780e-04,  3.7462e-05,  1.3125e-04,  8.7917e-06,
+         7.6413e-05,  6.4039e-04, -9.3043e-05, -1.0204e-03,  1.9217e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 116, time 221.02, cls_loss 0.0033 cls_loss_mapping 0.0058 cls_loss_causal 0.5837 re_mapping 0.0084 re_causal 0.0248 /// teacc 98.81 lr 0.00010000
+Epoch 118, weight, value: tensor([[ 0.0157,  0.0110,  0.0023,  ...,  0.0545, -0.0981, -0.0985],
+        [ 0.0353, -0.0185,  0.0113,  ..., -0.1099,  0.0457, -0.0951],
+        [ 0.0068, -0.0048,  0.1150,  ..., -0.1498, -0.0735, -0.1188],
+        ...,
+        [ 0.0043,  0.0062, -0.0747,  ...,  0.0076,  0.0938,  0.0626],
+        [ 0.0071, -0.0202, -0.0648,  ..., -0.1353,  0.0617, -0.1193],
+        [-0.0098, -0.0258, -0.0337,  ...,  0.0282, -0.0522,  0.0146]],
+       device='cuda:0'), grad: tensor([[ 1.9325e-08,  0.0000e+00,  3.2294e-07,  ...,  3.9339e-06,
+          8.8289e-07,  9.8422e-06],
+        [ 2.3027e-07,  0.0000e+00,  1.0028e-05,  ...,  7.1339e-06,
+          1.9073e-05,  2.8178e-05],
+        [ 7.4506e-08,  0.0000e+00, -3.8296e-06,  ...,  2.0713e-06,
+          2.6956e-05,  1.3486e-05],
+        ...,
+        [-8.3167e-07,  0.0000e+00, -7.8082e-06,  ...,  8.4221e-05,
+         -1.5229e-05,  1.7715e-04],
+        [ 4.3772e-08,  0.0000e+00, -1.2023e-06,  ...,  2.9862e-05,
+         -1.8448e-05,  6.3837e-05],
+        [ 1.5926e-07,  0.0000e+00,  7.5437e-07,  ..., -1.9777e-04,
+         -4.8757e-05, -4.7064e-04]], device='cuda:0')
+Epoch 118, bias, value: tensor([-0.0251,  0.0162,  0.0244,  0.0055,  0.0239, -0.0098, -0.0073, -0.0172,
+        -0.0144,  0.0211], device='cuda:0'), grad: tensor([ 1.5289e-05,  7.6592e-05,  6.6757e-05,  3.8981e-05,  1.6594e-04,
+        -3.0696e-05,  4.4405e-06,  8.2076e-05,  5.7578e-05, -4.7684e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 117, time 221.09, cls_loss 0.0041 cls_loss_mapping 0.0077 cls_loss_causal 0.5565 re_mapping 0.0083 re_causal 0.0246 /// teacc 98.80 lr 0.00010000
+Epoch 119, weight, value: tensor([[ 0.0156,  0.0110,  0.0022,  ...,  0.0547, -0.0987, -0.0994],
+        [ 0.0352, -0.0185,  0.0105,  ..., -0.1122,  0.0458, -0.0958],
+        [ 0.0069, -0.0048,  0.1158,  ..., -0.1509, -0.0733, -0.1189],
+        ...,
+        [ 0.0042,  0.0062, -0.0749,  ...,  0.0069,  0.0941,  0.0623],
+        [ 0.0069, -0.0202, -0.0656,  ..., -0.1364,  0.0615, -0.1200],
+        [-0.0092, -0.0258, -0.0347,  ...,  0.0287, -0.0520,  0.0153]],
+       device='cuda:0'), grad: tensor([[ 1.4994e-07,  0.0000e+00, -2.9400e-05,  ...,  1.3430e-06,
+          1.6289e-06,  7.1106e-07],
+        [-1.3612e-05,  0.0000e+00, -1.0002e-04,  ...,  4.2878e-06,
+         -6.6102e-05,  1.0788e-05],
+        [ 1.2919e-05,  0.0000e+00,  1.1718e-04,  ...,  1.2163e-06,
+          6.9618e-05,  4.1649e-06],
+        ...,
+        [-1.0245e-07,  0.0000e+00,  1.7621e-06,  ...,  8.6799e-06,
+         -1.3433e-05,  1.6004e-05],
+        [ 7.4971e-08,  0.0000e+00,  2.3153e-06,  ...,  1.4883e-06,
+          2.7642e-06,  3.7551e-06],
+        [ 1.1036e-07,  0.0000e+00,  3.1032e-06,  ..., -8.9258e-06,
+         -1.9353e-06, -1.9073e-05]], device='cuda:0')
+Epoch 119, bias, value: tensor([-0.0258,  0.0156,  0.0249,  0.0057,  0.0240, -0.0095, -0.0067, -0.0172,
+        -0.0151,  0.0214], device='cuda:0'), grad: tensor([-4.6372e-05, -3.0398e-04,  3.5405e-04, -2.9683e-05,  9.9912e-06,
+         2.1294e-05, -1.1489e-05,  8.3297e-06,  1.4931e-05, -1.6958e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 118, time 220.92, cls_loss 0.0034 cls_loss_mapping 0.0078 cls_loss_causal 0.5396 re_mapping 0.0084 re_causal 0.0248 /// teacc 98.92 lr 0.00010000
+Epoch 120, weight, value: tensor([[ 0.0153,  0.0110,  0.0030,  ...,  0.0552, -0.0983, -0.0999],
+        [ 0.0350, -0.0185,  0.0103,  ..., -0.1128,  0.0458, -0.0962],
+        [ 0.0071, -0.0048,  0.1166,  ..., -0.1523, -0.0739, -0.1192],
+        ...,
+        [ 0.0046,  0.0062, -0.0749,  ...,  0.0068,  0.0948,  0.0626],
+        [ 0.0068, -0.0202, -0.0662,  ..., -0.1368,  0.0618, -0.1199],
+        [-0.0093, -0.0258, -0.0351,  ...,  0.0286, -0.0525,  0.0153]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  0.0000e+00, -5.9903e-06,  ..., -3.6415e-06,
+          3.8603e-07,  1.3132e-07],
+        [-2.6543e-08,  0.0000e+00,  5.4296e-07,  ...,  2.4214e-07,
+         -2.7753e-07,  1.2526e-07],
+        [-4.0978e-08,  0.0000e+00,  1.0896e-06,  ...,  9.4017e-07,
+          2.9821e-06,  1.3784e-07],
+        ...,
+        [ 1.3970e-08,  0.0000e+00,  7.8091e-07,  ...,  4.4936e-07,
+          2.0023e-08,  6.6776e-07],
+        [ 1.4901e-08,  0.0000e+00,  1.3337e-06,  ...,  1.3011e-06,
+         -6.0573e-06, -6.8406e-07],
+        [ 9.3132e-09,  0.0000e+00,  1.4734e-06,  ...,  7.3574e-08,
+          1.8952e-06, -2.0023e-06]], device='cuda:0')
+Epoch 120, bias, value: tensor([-0.0248,  0.0155,  0.0250,  0.0048,  0.0238, -0.0093, -0.0074, -0.0167,
+        -0.0150,  0.0212], device='cuda:0'), grad: tensor([-1.2755e-05,  4.5728e-07,  1.1429e-05,  6.6822e-07,  2.6003e-06,
+         1.9893e-06, -1.9185e-07,  2.0899e-06, -1.2770e-05,  6.4410e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 119, time 221.07, cls_loss 0.0036 cls_loss_mapping 0.0070 cls_loss_causal 0.5399 re_mapping 0.0083 re_causal 0.0247 /// teacc 98.77 lr 0.00010000
+Epoch 121, weight, value: tensor([[ 0.0151,  0.0110,  0.0035,  ...,  0.0551, -0.0987, -0.1008],
+        [ 0.0347, -0.0185,  0.0098,  ..., -0.1131,  0.0458, -0.0964],
+        [ 0.0069, -0.0048,  0.1174,  ..., -0.1540, -0.0744, -0.1206],
+        ...,
+        [ 0.0046,  0.0062, -0.0755,  ...,  0.0066,  0.0951,  0.0625],
+        [ 0.0073, -0.0202, -0.0667,  ..., -0.1373,  0.0617, -0.1204],
+        [-0.0094, -0.0258, -0.0352,  ...,  0.0289, -0.0528,  0.0158]],
+       device='cuda:0'), grad: tensor([[ 6.1467e-08,  0.0000e+00, -2.3283e-07,  ..., -2.4028e-07,
+          1.9511e-07,  1.9791e-07],
+        [-2.9523e-06,  0.0000e+00,  1.4203e-07,  ...,  1.7993e-06,
+         -6.7316e-06,  3.4459e-06],
+        [ 1.7183e-07,  0.0000e+00, -4.7544e-07,  ...,  9.5461e-08,
+          6.9616e-07,  4.7823e-07],
+        ...,
+        [ 1.4771e-06,  0.0000e+00,  5.9092e-07,  ...,  1.1194e-06,
+         -1.0757e-07, -1.5229e-05],
+        [ 2.9709e-07,  0.0000e+00,  2.6496e-07,  ...,  1.8440e-07,
+          8.8336e-07,  5.1875e-07],
+        [ 2.1188e-07,  0.0000e+00,  2.1048e-07,  ..., -3.0119e-06,
+          1.4994e-07, -8.1882e-06]], device='cuda:0')
+Epoch 121, bias, value: tensor([-0.0250,  0.0154,  0.0253,  0.0039,  0.0239, -0.0091, -0.0069, -0.0168,
+        -0.0154,  0.0215], device='cuda:0'), grad: tensor([ 1.6736e-06, -1.3627e-05,  2.6524e-06,  3.6089e-07,  1.9938e-05,
+        -4.1872e-05,  7.0892e-06, -4.6343e-06,  3.3230e-05, -4.8131e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 120, time 220.74, cls_loss 0.0037 cls_loss_mapping 0.0079 cls_loss_causal 0.5786 re_mapping 0.0086 re_causal 0.0253 /// teacc 98.85 lr 0.00010000
+Epoch 122, weight, value: tensor([[ 0.0150,  0.0110,  0.0040,  ...,  0.0554, -0.0988, -0.1012],
+        [ 0.0349, -0.0185,  0.0096,  ..., -0.1135,  0.0462, -0.0967],
+        [ 0.0068, -0.0048,  0.1179,  ..., -0.1545, -0.0747, -0.1213],
+        ...,
+        [ 0.0047,  0.0062, -0.0764,  ...,  0.0065,  0.0954,  0.0627],
+        [ 0.0072, -0.0202, -0.0671,  ..., -0.1384,  0.0616, -0.1220],
+        [-0.0095, -0.0258, -0.0353,  ...,  0.0289, -0.0532,  0.0163]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09,  0.0000e+00, -1.6475e-06,  ..., -1.7947e-06,
+          5.1335e-06,  1.9372e-07],
+        [-5.7276e-08,  0.0000e+00,  2.9337e-07,  ...,  2.7008e-07,
+         -4.5031e-05, -3.3081e-06],
+        [ 1.5832e-08,  0.0000e+00, -1.0878e-06,  ...,  3.3993e-07,
+          5.0887e-06,  3.0920e-07],
+        ...,
+        [ 7.9162e-09,  0.0000e+00,  6.3144e-07,  ...,  1.3150e-06,
+          4.9233e-05,  6.0573e-06],
+        [ 8.8476e-09,  0.0000e+00,  4.1444e-07,  ...,  5.3598e-07,
+          4.6313e-05,  8.6427e-07],
+        [ 6.0536e-09,  0.0000e+00,  3.2410e-07,  ..., -8.9360e-07,
+          4.8243e-06, -5.0180e-06]], device='cuda:0')
+Epoch 122, bias, value: tensor([-0.0247,  0.0155,  0.0252,  0.0041,  0.0237, -0.0096, -0.0065, -0.0169,
+        -0.0160,  0.0219], device='cuda:0'), grad: tensor([ 1.1340e-05, -1.2386e-04,  1.3873e-05,  1.0058e-05,  1.3389e-05,
+        -2.3289e-03,  2.1172e-03,  1.4102e-04,  1.3542e-04,  1.1340e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 121, time 220.87, cls_loss 0.0029 cls_loss_mapping 0.0070 cls_loss_causal 0.5874 re_mapping 0.0082 re_causal 0.0259 /// teacc 98.90 lr 0.00010000
+Epoch 123, weight, value: tensor([[ 0.0149,  0.0110,  0.0045,  ...,  0.0557, -0.0993, -0.1018],
+        [ 0.0350, -0.0185,  0.0093,  ..., -0.1143,  0.0462, -0.0969],
+        [ 0.0066, -0.0048,  0.1188,  ..., -0.1550, -0.0748, -0.1194],
+        ...,
+        [ 0.0048,  0.0062, -0.0783,  ...,  0.0063,  0.0954,  0.0624],
+        [ 0.0071, -0.0202, -0.0673,  ..., -0.1389,  0.0619, -0.1222],
+        [-0.0096, -0.0258, -0.0359,  ...,  0.0287, -0.0537,  0.0161]],
+       device='cuda:0'), grad: tensor([[ 3.2596e-09,  0.0000e+00, -2.9318e-06,  ..., -3.7774e-06,
+          3.0221e-07,  4.2142e-07],
+        [ 3.5390e-08,  0.0000e+00,  1.4901e-07,  ...,  1.8999e-07,
+         -8.8066e-06, -3.8072e-06],
+        [ 2.2817e-08,  0.0000e+00,  5.2620e-07,  ...,  5.4529e-07,
+          1.0328e-06,  1.4901e-06],
+        ...,
+        [-1.1735e-07,  0.0000e+00,  2.2026e-07,  ...,  4.2748e-07,
+          1.4994e-06,  1.4985e-06],
+        [ 5.1223e-09,  0.0000e+00,  7.1665e-07,  ...,  2.5239e-07,
+         -7.2643e-08,  5.5972e-07],
+        [ 3.0268e-08,  0.0000e+00,  8.3866e-07,  ...,  9.7789e-07,
+          1.3206e-06,  1.0300e-06]], device='cuda:0')
+Epoch 123, bias, value: tensor([-0.0244,  0.0154,  0.0258,  0.0042,  0.0239, -0.0094, -0.0063, -0.0173,
+        -0.0159,  0.0213], device='cuda:0'), grad: tensor([-5.0403e-06, -2.5064e-05,  6.1058e-06, -3.4404e-04,  6.9290e-06,
+         3.3498e-04,  6.4671e-06,  6.8694e-06,  4.7907e-06,  7.1600e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 122, time 220.33, cls_loss 0.0038 cls_loss_mapping 0.0068 cls_loss_causal 0.6109 re_mapping 0.0083 re_causal 0.0258 /// teacc 98.95 lr 0.00010000
+Epoch 124, weight, value: tensor([[ 0.0148,  0.0110,  0.0037,  ...,  0.0560, -0.0999, -0.1024],
+        [ 0.0348, -0.0185,  0.0090,  ..., -0.1146,  0.0462, -0.0971],
+        [ 0.0060, -0.0048,  0.1194,  ..., -0.1565, -0.0760, -0.1197],
+        ...,
+        [ 0.0045,  0.0062, -0.0790,  ...,  0.0061,  0.0958,  0.0624],
+        [ 0.0073, -0.0202, -0.0680,  ..., -0.1415,  0.0625, -0.1234],
+        [-0.0098, -0.0258, -0.0363,  ...,  0.0289, -0.0540,  0.0162]],
+       device='cuda:0'), grad: tensor([[ 2.0862e-07,  0.0000e+00, -2.7254e-05,  ..., -2.0877e-05,
+         -4.5374e-06,  1.5311e-06],
+        [ 4.8475e-07,  0.0000e+00,  3.5539e-06,  ...,  9.0748e-06,
+          1.2793e-05,  4.3124e-05],
+        [ 4.2515e-07,  0.0000e+00,  8.7470e-06,  ...,  8.0019e-06,
+          4.2357e-06,  5.0776e-06],
+        ...,
+        [-9.1612e-05,  0.0000e+00,  9.7603e-07,  ...,  4.9263e-05,
+         -8.9854e-06,  1.5593e-04],
+        [ 5.3011e-06,  0.0000e+00,  1.0774e-05,  ...,  7.9647e-06,
+          7.8753e-06,  1.5825e-05],
+        [ 1.4845e-06,  0.0000e+00,  6.8173e-06,  ...,  8.3521e-06,
+          1.3083e-05,  3.8356e-05]], device='cuda:0')
+Epoch 124, bias, value: tensor([-0.0251,  0.0152,  0.0255,  0.0049,  0.0240, -0.0090, -0.0064, -0.0176,
+        -0.0159,  0.0216], device='cuda:0'), grad: tensor([-4.6879e-05,  5.7161e-05,  3.2663e-05,  1.4019e-04, -4.6134e-04,
+         1.1230e-04,  1.4044e-05, -2.7165e-05,  7.4685e-05,  1.0419e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 123, time 220.76, cls_loss 0.0039 cls_loss_mapping 0.0057 cls_loss_causal 0.5620 re_mapping 0.0084 re_causal 0.0250 /// teacc 98.93 lr 0.00010000
+Epoch 125, weight, value: tensor([[ 0.0148,  0.0110,  0.0042,  ...,  0.0559, -0.1004, -0.1037],
+        [ 0.0347, -0.0185,  0.0098,  ..., -0.1156,  0.0463, -0.0968],
+        [ 0.0056, -0.0048,  0.1195,  ..., -0.1573, -0.0777, -0.1207],
+        ...,
+        [ 0.0047,  0.0062, -0.0803,  ...,  0.0058,  0.0963,  0.0623],
+        [ 0.0072, -0.0202, -0.0684,  ..., -0.1422,  0.0629, -0.1231],
+        [-0.0099, -0.0258, -0.0358,  ...,  0.0294, -0.0545,  0.0164]],
+       device='cuda:0'), grad: tensor([[ 9.7789e-09,  0.0000e+00,  5.0524e-07,  ..., -1.2312e-06,
+          6.2818e-07,  6.4354e-07],
+        [-1.5926e-07,  0.0000e+00,  3.1888e-05,  ...,  2.9616e-07,
+          1.8422e-06,  2.1216e-06],
+        [ 4.1444e-08,  0.0000e+00, -1.5199e-04,  ...,  2.9802e-07,
+         -1.2212e-05,  8.1630e-07],
+        ...,
+        [-1.2154e-07,  0.0000e+00,  1.8217e-06,  ...,  2.5243e-05,
+          5.4017e-08,  8.6129e-05],
+        [ 1.1176e-07,  0.0000e+00,  8.9686e-07,  ...,  2.7567e-07,
+          1.3597e-06,  1.5581e-06],
+        [ 1.9558e-08,  0.0000e+00,  8.6101e-07,  ..., -3.0234e-05,
+         -3.3453e-06, -1.1027e-04]], device='cuda:0')
+Epoch 125, bias, value: tensor([-0.0249,  0.0170,  0.0231,  0.0042,  0.0239, -0.0093, -0.0060, -0.0174,
+        -0.0154,  0.0217], device='cuda:0'), grad: tensor([ 2.7977e-06,  5.8174e-05, -2.7227e-04,  7.7263e-06,  4.3362e-05,
+         6.5006e-06,  1.7571e-04,  9.1791e-05,  3.9265e-06, -1.1748e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 124, time 220.84, cls_loss 0.0042 cls_loss_mapping 0.0073 cls_loss_causal 0.5559 re_mapping 0.0082 re_causal 0.0234 /// teacc 98.84 lr 0.00010000
+Epoch 126, weight, value: tensor([[ 0.0147,  0.0110,  0.0040,  ...,  0.0562, -0.1007, -0.1041],
+        [ 0.0346, -0.0185,  0.0074,  ..., -0.1168,  0.0447, -0.0974],
+        [ 0.0043, -0.0048,  0.1215,  ..., -0.1590, -0.0775, -0.1215],
+        ...,
+        [ 0.0052,  0.0062, -0.0797,  ...,  0.0048,  0.0979,  0.0620],
+        [ 0.0070, -0.0202, -0.0690,  ..., -0.1430,  0.0639, -0.1239],
+        [-0.0099, -0.0258, -0.0361,  ...,  0.0297, -0.0543,  0.0164]],
+       device='cuda:0'), grad: tensor([[ 3.2596e-09,  0.0000e+00, -3.2857e-06,  ..., -7.1079e-06,
+          2.8647e-06,  3.2522e-06],
+        [ 8.3819e-09,  0.0000e+00,  1.1008e-06,  ...,  9.4762e-07,
+          1.3020e-06,  3.1739e-06],
+        [ 4.1910e-09,  0.0000e+00, -5.4985e-06,  ...,  1.6484e-06,
+          7.0175e-07,  8.1956e-07],
+        ...,
+        [-3.5390e-08,  0.0000e+00,  3.9525e-06,  ...,  5.4464e-06,
+         -3.1199e-06,  5.3532e-06],
+        [ 2.3749e-08,  0.0000e+00,  2.1696e-05,  ...,  2.8610e-06,
+          1.2256e-06,  2.2724e-06],
+        [ 1.7229e-08,  0.0000e+00,  2.5220e-06,  ..., -8.1956e-08,
+          4.2561e-07, -2.9132e-06]], device='cuda:0')
+Epoch 126, bias, value: tensor([-0.0247,  0.0145,  0.0242,  0.0040,  0.0243, -0.0097, -0.0066, -0.0164,
+        -0.0143,  0.0216], device='cuda:0'), grad: tensor([ 3.4086e-06,  6.2808e-06, -1.5926e-06, -5.2512e-05, -9.1642e-06,
+        -2.2855e-06, -2.0012e-05,  1.0297e-05,  5.5522e-05,  9.9316e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 125, time 220.92, cls_loss 0.0039 cls_loss_mapping 0.0064 cls_loss_causal 0.5261 re_mapping 0.0080 re_causal 0.0231 /// teacc 98.89 lr 0.00010000
+Epoch 127, weight, value: tensor([[ 0.0147,  0.0110,  0.0041,  ...,  0.0563, -0.1016, -0.1050],
+        [ 0.0347, -0.0185,  0.0084,  ..., -0.1188,  0.0444, -0.0980],
+        [ 0.0042, -0.0048,  0.1210,  ..., -0.1600, -0.0784, -0.1217],
+        ...,
+        [ 0.0045,  0.0062, -0.0799,  ...,  0.0041,  0.0990,  0.0617],
+        [ 0.0069, -0.0202, -0.0692,  ..., -0.1441,  0.0641, -0.1249],
+        [-0.0090, -0.0258, -0.0367,  ...,  0.0308, -0.0539,  0.0179]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  1.1653e-05,  ...,  1.7239e-06,
+          1.2524e-05,  3.4608e-06],
+        [ 4.6566e-10,  0.0000e+00,  9.5321e-07,  ...,  3.1991e-07,
+          2.2398e-07,  6.5705e-07],
+        [ 4.6566e-10,  0.0000e+00, -9.8720e-07,  ...,  3.2037e-07,
+          1.3607e-06,  1.1679e-06],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  2.7427e-07,  ...,  2.7306e-06,
+         -2.2240e-06,  1.9008e-06],
+        [ 1.3970e-09,  0.0000e+00,  2.8729e-05,  ...,  8.6799e-07,
+          1.1213e-05, -1.1005e-05],
+        [ 7.4506e-09,  0.0000e+00,  1.1232e-06,  ..., -1.5691e-05,
+          1.5959e-05, -1.0200e-05]], device='cuda:0')
+Epoch 127, bias, value: tensor([-0.0248,  0.0147,  0.0231,  0.0047,  0.0232, -0.0104, -0.0067, -0.0158,
+        -0.0144,  0.0229], device='cuda:0'), grad: tensor([ 8.5294e-05,  3.8594e-06,  4.1649e-06,  7.6711e-05, -1.2740e-06,
+        -4.1455e-05, -2.9325e-04,  2.4978e-06,  1.5438e-04,  9.0003e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 126, time 220.78, cls_loss 0.0040 cls_loss_mapping 0.0058 cls_loss_causal 0.5815 re_mapping 0.0079 re_causal 0.0245 /// teacc 98.88 lr 0.00010000
+Epoch 128, weight, value: tensor([[ 0.0146,  0.0110,  0.0046,  ...,  0.0572, -0.1021, -0.1050],
+        [ 0.0347, -0.0185,  0.0081,  ..., -0.1177,  0.0451, -0.0954],
+        [ 0.0042, -0.0048,  0.1220,  ..., -0.1609, -0.0787, -0.1222],
+        ...,
+        [ 0.0043,  0.0062, -0.0805,  ...,  0.0037,  0.0988,  0.0605],
+        [ 0.0069, -0.0202, -0.0698,  ..., -0.1451,  0.0641, -0.1254],
+        [-0.0089, -0.0258, -0.0374,  ...,  0.0293, -0.0551,  0.0165]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.6531e-07,  ...,  1.2815e-06,
+          4.1816e-07,  2.2184e-06],
+        [ 0.0000e+00,  0.0000e+00,  1.6345e-07,  ...,  2.3432e-06,
+         -9.3207e-06,  3.3341e-06],
+        [ 0.0000e+00,  0.0000e+00, -9.3728e-06,  ...,  1.7881e-06,
+          1.3933e-06,  1.6615e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.2983e-06,  ...,  5.3970e-07,
+          2.5220e-06,  1.7416e-06],
+        [ 0.0000e+00,  0.0000e+00,  4.7823e-07,  ...,  1.7248e-06,
+          3.7942e-06,  4.7572e-06],
+        [ 0.0000e+00,  0.0000e+00,  1.3085e-07,  ..., -2.7660e-06,
+          6.4820e-07, -9.5963e-06]], device='cuda:0')
+Epoch 128, bias, value: tensor([-0.0241,  0.0157,  0.0235,  0.0040,  0.0244, -0.0113, -0.0055, -0.0168,
+        -0.0148,  0.0213], device='cuda:0'), grad: tensor([ 6.4299e-06, -1.9848e-05, -2.1160e-06, -3.8333e-06, -4.3654e-04,
+        -2.8182e-06,  4.2653e-04,  2.1249e-05,  3.0115e-05, -1.9893e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 127, time 220.42, cls_loss 0.0031 cls_loss_mapping 0.0046 cls_loss_causal 0.5396 re_mapping 0.0079 re_causal 0.0237 /// teacc 98.97 lr 0.00010000
+Epoch 129, weight, value: tensor([[ 0.0146,  0.0110,  0.0053,  ...,  0.0575, -0.1026, -0.1054],
+        [ 0.0348, -0.0185,  0.0080,  ..., -0.1180,  0.0452, -0.0955],
+        [ 0.0042, -0.0048,  0.1226,  ..., -0.1623, -0.0788, -0.1220],
+        ...,
+        [ 0.0043,  0.0062, -0.0819,  ...,  0.0035,  0.0989,  0.0607],
+        [ 0.0069, -0.0202, -0.0701,  ..., -0.1452,  0.0643, -0.1244],
+        [-0.0089, -0.0258, -0.0380,  ...,  0.0291, -0.0560,  0.0162]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8161e-06,  ...,  3.9525e-06,
+          4.0866e-06,  1.4007e-05],
+        [ 2.7940e-09,  0.0000e+00, -1.4275e-05,  ...,  2.7474e-07,
+         -2.8059e-05, -9.9391e-06],
+        [ 4.6566e-10,  0.0000e+00, -3.6154e-06,  ...,  1.0375e-06,
+          4.8503e-06,  4.1351e-06],
+        ...,
+        [-9.3132e-09,  0.0000e+00,  1.4510e-06,  ...,  1.3374e-06,
+         -2.4602e-05, -5.8115e-06],
+        [ 9.3132e-10,  0.0000e+00,  2.3805e-06,  ...,  7.8045e-07,
+          4.6603e-06,  2.5257e-06],
+        [ 1.8626e-09,  0.0000e+00,  2.3702e-07,  ..., -1.7524e-05,
+          1.1884e-06, -6.2287e-05]], device='cuda:0')
+Epoch 129, bias, value: tensor([-0.0241,  0.0157,  0.0236,  0.0040,  0.0244, -0.0108, -0.0049, -0.0168,
+        -0.0146,  0.0204], device='cuda:0'), grad: tensor([ 4.0203e-05, -1.3423e-04,  1.3411e-05,  2.8372e-05,  6.4790e-05,
+         5.3167e-05,  5.7250e-05, -3.3408e-05,  2.0653e-05, -1.1009e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 128, time 220.47, cls_loss 0.0033 cls_loss_mapping 0.0061 cls_loss_causal 0.5833 re_mapping 0.0078 re_causal 0.0243 /// teacc 98.84 lr 0.00010000
+Epoch 130, weight, value: tensor([[ 0.0146,  0.0110,  0.0062,  ...,  0.0577, -0.1030, -0.1052],
+        [ 0.0347, -0.0185,  0.0076,  ..., -0.1189,  0.0452, -0.0958],
+        [ 0.0041, -0.0048,  0.1231,  ..., -0.1635, -0.0790, -0.1217],
+        ...,
+        [ 0.0043,  0.0062, -0.0828,  ...,  0.0037,  0.0995,  0.0608],
+        [ 0.0068, -0.0202, -0.0708,  ..., -0.1466,  0.0643, -0.1256],
+        [-0.0089, -0.0258, -0.0381,  ...,  0.0289, -0.0564,  0.0158]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00, -1.0207e-05,  ..., -9.9465e-06,
+          2.2352e-07,  2.0973e-06],
+        [ 1.3970e-08,  0.0000e+00,  3.4133e-07,  ...,  9.0823e-06,
+          7.6890e-06,  2.0623e-05],
+        [-1.8161e-08,  0.0000e+00, -1.1874e-06,  ...,  1.2042e-06,
+          1.2927e-06,  9.6485e-07],
+        ...,
+        [-5.0757e-08,  0.0000e+00,  1.9465e-06,  ..., -1.9825e-04,
+         -1.8823e-04, -4.6325e-04],
+        [ 1.9558e-08,  0.0000e+00,  2.0731e-06,  ...,  3.0305e-06,
+          1.4529e-07,  3.9712e-06],
+        [ 8.3819e-09,  0.0000e+00,  6.4960e-07,  ...,  1.6415e-04,
+          1.5557e-04,  3.7861e-04]], device='cuda:0')
+Epoch 130, bias, value: tensor([-0.0237,  0.0154,  0.0239,  0.0046,  0.0249, -0.0110, -0.0051, -0.0168,
+        -0.0152,  0.0202], device='cuda:0'), grad: tensor([-2.5705e-05,  2.6837e-05,  4.7944e-06,  1.2672e-04,  3.4362e-05,
+        -1.9038e-04,  6.0499e-06, -6.0415e-04,  1.0449e-04,  5.1689e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 129, time 220.69, cls_loss 0.0035 cls_loss_mapping 0.0073 cls_loss_causal 0.5712 re_mapping 0.0079 re_causal 0.0241 /// teacc 98.95 lr 0.00010000
+Epoch 131, weight, value: tensor([[ 0.0146,  0.0110,  0.0065,  ...,  0.0579, -0.1037, -0.1057],
+        [ 0.0347, -0.0185,  0.0063,  ..., -0.1193,  0.0450, -0.0959],
+        [ 0.0039, -0.0048,  0.1247,  ..., -0.1650, -0.0783, -0.1219],
+        ...,
+        [ 0.0044,  0.0062, -0.0831,  ...,  0.0037,  0.1001,  0.0611],
+        [ 0.0068, -0.0202, -0.0714,  ..., -0.1484,  0.0659, -0.1267],
+        [-0.0090, -0.0258, -0.0384,  ...,  0.0291, -0.0568,  0.0158]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00, -1.1399e-06,  ..., -2.2948e-06,
+          2.3236e-07,  1.8673e-07],
+        [ 3.7253e-09,  0.0000e+00,  2.0862e-07,  ...,  1.1409e-07,
+         -5.0664e-06, -1.2629e-06],
+        [ 2.3283e-09,  0.0000e+00, -3.5558e-06,  ...,  2.0163e-07,
+          4.3260e-07,  2.8545e-07],
+        ...,
+        [-1.0245e-08,  0.0000e+00,  1.2666e-07,  ...,  2.5891e-07,
+         -1.4128e-06, -1.7630e-06],
+        [ 4.6566e-10,  0.0000e+00,  3.0687e-07,  ...,  4.9826e-07,
+          1.7174e-06,  1.6354e-06],
+        [ 1.3970e-09,  0.0000e+00,  5.1595e-07,  ...,  1.1884e-06,
+          2.3004e-06,  5.7276e-07]], device='cuda:0')
+Epoch 131, bias, value: tensor([-0.0237,  0.0150,  0.0249,  0.0045,  0.0248, -0.0117, -0.0068, -0.0166,
+        -0.0141,  0.0204], device='cuda:0'), grad: tensor([-2.6077e-06, -1.4238e-05, -2.0713e-06, -1.0893e-05,  3.2932e-06,
+         6.4448e-06,  6.9151e-07, -2.3693e-06,  7.0669e-06,  1.4633e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 130, time 220.51, cls_loss 0.0031 cls_loss_mapping 0.0058 cls_loss_causal 0.5728 re_mapping 0.0076 re_causal 0.0234 /// teacc 98.92 lr 0.00010000
+Epoch 132, weight, value: tensor([[ 0.0145,  0.0110,  0.0067,  ...,  0.0581, -0.1042, -0.1061],
+        [ 0.0349, -0.0185,  0.0053,  ..., -0.1197,  0.0448, -0.0959],
+        [ 0.0038, -0.0048,  0.1255,  ..., -0.1661, -0.0780, -0.1223],
+        ...,
+        [ 0.0044,  0.0062, -0.0834,  ...,  0.0037,  0.1000,  0.0612],
+        [ 0.0068, -0.0202, -0.0720,  ..., -0.1496,  0.0661, -0.1270],
+        [-0.0090, -0.0258, -0.0385,  ...,  0.0293, -0.0571,  0.0161]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  4.6566e-10,  ..., -5.3644e-06,
+          6.1607e-07,  2.7940e-07],
+        [ 1.8626e-09,  0.0000e+00,  3.9376e-06,  ...,  7.8324e-07,
+          4.7758e-06,  1.5479e-06],
+        [ 2.7940e-09,  0.0000e+00, -1.2822e-05,  ...,  3.2084e-07,
+         -3.9726e-05,  1.6689e-06],
+        ...,
+        [-1.8626e-09,  0.0000e+00,  4.0025e-05,  ...,  9.9652e-07,
+          9.9093e-06,  6.4149e-06],
+        [ 4.1910e-09,  0.0000e+00,  1.5028e-05,  ...,  1.3616e-06,
+          2.3574e-05,  2.7940e-06],
+        [ 9.3132e-10,  0.0000e+00,  3.2270e-07,  ...,  1.9774e-05,
+          1.9325e-07,  3.2663e-05]], device='cuda:0')
+Epoch 132, bias, value: tensor([-0.0237,  0.0146,  0.0254,  0.0054,  0.0245, -0.0126, -0.0059, -0.0168,
+        -0.0147,  0.0206], device='cuda:0'), grad: tensor([-2.2128e-05,  2.0236e-05, -4.1902e-05, -2.7609e-04, -4.6730e-05,
+         4.1015e-06,  2.3186e-05,  2.2316e-04,  7.1704e-05,  4.4554e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 131, time 220.87, cls_loss 0.0059 cls_loss_mapping 0.0079 cls_loss_causal 0.5702 re_mapping 0.0083 re_causal 0.0229 /// teacc 98.97 lr 0.00010000
+Epoch 133, weight, value: tensor([[ 0.0145,  0.0110,  0.0061,  ...,  0.0615, -0.1051, -0.1061],
+        [ 0.0352, -0.0185,  0.0054,  ..., -0.1201,  0.0454, -0.0959],
+        [ 0.0036, -0.0048,  0.1256,  ..., -0.1673, -0.0791, -0.1236],
+        ...,
+        [ 0.0018,  0.0062, -0.0833,  ...,  0.0034,  0.1000,  0.0595],
+        [ 0.0067, -0.0202, -0.0728,  ..., -0.1507,  0.0661, -0.1276],
+        [-0.0082, -0.0258, -0.0387,  ...,  0.0294, -0.0563,  0.0179]],
+       device='cuda:0'), grad: tensor([[ 1.7043e-07,  0.0000e+00, -5.6485e-07,  ..., -1.9148e-06,
+          1.9046e-07,  3.9302e-07],
+        [ 3.6741e-07,  0.0000e+00,  5.2620e-08,  ...,  5.9837e-07,
+          1.0515e-06,  4.8876e-06],
+        [ 8.3400e-07,  0.0000e+00, -1.3178e-07,  ...,  1.5600e-07,
+          1.8300e-07,  3.9302e-07],
+        ...,
+        [ 2.5658e-07,  0.0000e+00,  1.4296e-07,  ...,  9.9186e-07,
+         -8.7693e-06, -1.5289e-05],
+        [ 1.2619e-06,  0.0000e+00,  1.0245e-07,  ...,  3.1851e-07,
+          1.0077e-06,  6.6636e-07],
+        [ 1.5777e-06,  0.0000e+00,  1.3039e-07,  ..., -4.9137e-06,
+          4.5374e-06, -1.5169e-05]], device='cuda:0')
+Epoch 133, bias, value: tensor([-0.0186,  0.0149,  0.0237,  0.0040,  0.0245, -0.0106, -0.0099, -0.0173,
+        -0.0153,  0.0222], device='cuda:0'), grad: tensor([-4.0680e-06,  7.3388e-06,  5.2415e-06, -3.3528e-05,  1.6436e-05,
+         1.7121e-05, -2.3376e-06, -1.9252e-05,  1.1668e-05,  1.3215e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 132, time 220.80, cls_loss 0.0028 cls_loss_mapping 0.0047 cls_loss_causal 0.5613 re_mapping 0.0079 re_causal 0.0229 /// teacc 98.97 lr 0.00010000
+Epoch 134, weight, value: tensor([[ 0.0143,  0.0110,  0.0063,  ...,  0.0617, -0.1050, -0.1073],
+        [ 0.0359, -0.0185,  0.0056,  ..., -0.1203,  0.0459, -0.0959],
+        [ 0.0031, -0.0048,  0.1260,  ..., -0.1680, -0.0794, -0.1237],
+        ...,
+        [ 0.0019,  0.0062, -0.0845,  ...,  0.0028,  0.1001,  0.0591],
+        [ 0.0066, -0.0202, -0.0733,  ..., -0.1514,  0.0661, -0.1280],
+        [-0.0083, -0.0258, -0.0389,  ...,  0.0295, -0.0569,  0.0180]],
+       device='cuda:0'), grad: tensor([[ 2.2352e-08,  0.0000e+00,  1.1316e-07,  ...,  7.2181e-05,
+          7.3109e-07,  8.7857e-05],
+        [ 8.8010e-08,  0.0000e+00,  2.1420e-08,  ...,  2.1774e-06,
+          1.1874e-07,  3.7681e-06],
+        [ 1.3551e-07,  0.0000e+00,  7.8464e-07,  ...,  5.6103e-06,
+          1.3467e-06,  7.5288e-06],
+        ...,
+        [-4.2561e-07,  0.0000e+00,  2.2817e-08,  ...,  4.8988e-07,
+         -2.7250e-06, -3.7458e-06],
+        [ 1.7788e-07,  0.0000e+00, -1.3337e-06,  ...,  1.6950e-06,
+         -1.0859e-06,  2.2054e-06],
+        [ 1.1595e-07,  0.0000e+00,  2.0768e-07,  ..., -1.3924e-04,
+          1.2591e-06, -1.6809e-04]], device='cuda:0')
+Epoch 134, bias, value: tensor([-0.0185,  0.0153,  0.0236,  0.0039,  0.0245, -0.0101, -0.0099, -0.0179,
+        -0.0155,  0.0222], device='cuda:0'), grad: tensor([ 1.6558e-04,  5.6997e-06,  1.8984e-05,  2.4168e-07,  1.1849e-04,
+         8.7917e-07,  6.4634e-06, -4.8131e-06, -2.8387e-06, -3.0899e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 133, time 220.36, cls_loss 0.0030 cls_loss_mapping 0.0047 cls_loss_causal 0.5779 re_mapping 0.0074 re_causal 0.0231 /// teacc 98.94 lr 0.00010000
+Epoch 135, weight, value: tensor([[ 0.0141,  0.0110,  0.0065,  ...,  0.0618, -0.1055, -0.1075],
+        [ 0.0361, -0.0185,  0.0056,  ..., -0.1210,  0.0463, -0.0962],
+        [ 0.0029, -0.0048,  0.1263,  ..., -0.1684, -0.0799, -0.1239],
+        ...,
+        [ 0.0019,  0.0062, -0.0850,  ...,  0.0026,  0.1006,  0.0595],
+        [ 0.0064, -0.0202, -0.0741,  ..., -0.1520,  0.0662, -0.1287],
+        [-0.0090, -0.0258, -0.0394,  ...,  0.0293, -0.0576,  0.0177]],
+       device='cuda:0'), grad: tensor([[ 2.0210e-07,  0.0000e+00, -2.7061e-05,  ..., -1.3709e-05,
+         -1.1712e-05, -1.4104e-05],
+        [ 2.5053e-07,  0.0000e+00,  3.7923e-06,  ...,  2.9858e-06,
+          3.4589e-06,  5.6773e-06],
+        [ 3.7439e-07,  0.0000e+00,  1.9837e-06,  ...,  2.2743e-06,
+          2.6654e-06,  3.5074e-06],
+        ...,
+        [ 3.0501e-07,  0.0000e+00,  9.1493e-06,  ...,  5.5544e-06,
+          4.5672e-06,  1.1884e-05],
+        [ 1.8040e-06,  0.0000e+00,  1.0103e-05,  ...,  4.9807e-06,
+          1.8761e-05,  1.1846e-05],
+        [ 1.7323e-07,  0.0000e+00,  1.8049e-06,  ..., -3.6173e-06,
+         -6.1467e-08, -1.8999e-05]], device='cuda:0')
+Epoch 135, bias, value: tensor([-0.0185,  0.0154,  0.0235,  0.0033,  0.0252, -0.0111, -0.0100, -0.0176,
+        -0.0140,  0.0217], device='cuda:0'), grad: tensor([-5.5164e-05,  2.3857e-05,  1.3202e-05, -7.8738e-05,  1.3433e-05,
+        -9.1314e-05,  1.4164e-05,  4.9114e-05,  1.2815e-04, -1.6719e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 134, time 221.08, cls_loss 0.0035 cls_loss_mapping 0.0057 cls_loss_causal 0.5338 re_mapping 0.0080 re_causal 0.0225 /// teacc 98.95 lr 0.00010000
+Epoch 136, weight, value: tensor([[ 0.0139,  0.0110,  0.0068,  ...,  0.0614, -0.1065, -0.1105],
+        [ 0.0351, -0.0185,  0.0055,  ..., -0.1217,  0.0465, -0.0966],
+        [ 0.0030, -0.0048,  0.1275,  ..., -0.1694, -0.0800, -0.1240],
+        ...,
+        [ 0.0023,  0.0062, -0.0854,  ...,  0.0023,  0.1017,  0.0598],
+        [ 0.0060, -0.0202, -0.0771,  ..., -0.1529,  0.0657, -0.1295],
+        [-0.0095, -0.0258, -0.0398,  ...,  0.0298, -0.0584,  0.0175]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -7.4646e-07,  ..., -1.3774e-06,
+          6.6543e-07,  2.8498e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.8580e-07,  ...,  6.1607e-07,
+          1.8999e-07,  1.2368e-06],
+        [ 0.0000e+00,  0.0000e+00, -1.5944e-06,  ...,  3.8231e-07,
+          4.2887e-07,  6.5938e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6985e-07,  ..., -6.9430e-07,
+         -3.1479e-06, -7.1302e-06],
+        [ 0.0000e+00,  0.0000e+00,  6.6031e-07,  ...,  2.2585e-07,
+         -2.4680e-07,  2.4308e-07],
+        [ 4.6566e-10,  0.0000e+00,  2.4261e-07,  ...,  1.5972e-07,
+          2.3916e-06,  1.2182e-06]], device='cuda:0')
+Epoch 136, bias, value: tensor([-0.0191,  0.0155,  0.0241,  0.0025,  0.0257, -0.0101, -0.0099, -0.0172,
+        -0.0151,  0.0215], device='cuda:0'), grad: tensor([-7.7114e-07,  1.6335e-06, -9.3132e-09,  1.3914e-06,  2.8238e-06,
+         4.6985e-07, -9.3924e-07, -9.6932e-06,  2.1560e-07,  4.8503e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 135, time 220.88, cls_loss 0.0038 cls_loss_mapping 0.0055 cls_loss_causal 0.5608 re_mapping 0.0074 re_causal 0.0224 /// teacc 98.86 lr 0.00010000
+Epoch 137, weight, value: tensor([[ 0.0137,  0.0110,  0.0061,  ...,  0.0611, -0.1082, -0.1109],
+        [ 0.0346, -0.0185,  0.0054,  ..., -0.1233,  0.0457, -0.0970],
+        [ 0.0023, -0.0048,  0.1298,  ..., -0.1702, -0.0803, -0.1248],
+        ...,
+        [-0.0002,  0.0062, -0.0858,  ...,  0.0021,  0.1018,  0.0586],
+        [ 0.0058, -0.0202, -0.0801,  ..., -0.1527,  0.0661, -0.1289],
+        [-0.0064, -0.0258, -0.0398,  ...,  0.0305, -0.0585,  0.0192]],
+       device='cuda:0'), grad: tensor([[ 1.5832e-08,  0.0000e+00, -1.9856e-06,  ..., -5.4240e-06,
+          1.4110e-07,  9.8348e-07],
+        [ 1.3970e-08,  0.0000e+00,  1.9977e-07,  ...,  7.9954e-07,
+          7.1572e-07,  3.2075e-06],
+        [ 6.9849e-09,  0.0000e+00, -4.8894e-08,  ...,  8.1630e-07,
+          2.8592e-07,  2.7269e-06],
+        ...,
+        [-9.1270e-08,  0.0000e+00,  6.2911e-07,  ...,  8.6501e-06,
+         -4.8876e-06,  2.3589e-05],
+        [ 1.3039e-08,  0.0000e+00,  1.0375e-06,  ...,  7.0361e-07,
+         -3.9712e-06, -6.9477e-07],
+        [ 2.2817e-08,  0.0000e+00,  6.8219e-07,  ...,  1.1660e-06,
+          6.3777e-06,  6.4820e-06]], device='cuda:0')
+Epoch 137, bias, value: tensor([-0.0195,  0.0149,  0.0255,  0.0028,  0.0248, -0.0102, -0.0091, -0.0185,
+        -0.0165,  0.0233], device='cuda:0'), grad: tensor([-9.9167e-06, -3.6645e-04,  8.8632e-05,  3.4124e-05, -4.2081e-05,
+         9.3430e-06,  1.0915e-05,  2.5368e-04, -5.4855e-07,  2.2143e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 136, time 220.58, cls_loss 0.0023 cls_loss_mapping 0.0052 cls_loss_causal 0.5181 re_mapping 0.0078 re_causal 0.0230 /// teacc 98.96 lr 0.00010000
+Epoch 138, weight, value: tensor([[ 0.0135,  0.0110,  0.0062,  ...,  0.0612, -0.1093, -0.1112],
+        [ 0.0345, -0.0185,  0.0054,  ..., -0.1238,  0.0461, -0.0971],
+        [ 0.0022, -0.0048,  0.1303,  ..., -0.1708, -0.0803, -0.1250],
+        ...,
+        [-0.0002,  0.0062, -0.0866,  ...,  0.0023,  0.1028,  0.0592],
+        [ 0.0056, -0.0202, -0.0802,  ..., -0.1534,  0.0659, -0.1295],
+        [-0.0064, -0.0258, -0.0409,  ...,  0.0303, -0.0603,  0.0187]],
+       device='cuda:0'), grad: tensor([[ 2.1886e-08,  0.0000e+00, -3.2736e-07,  ..., -1.8189e-06,
+          3.3434e-06,  2.5937e-07],
+        [ 5.8673e-08,  0.0000e+00,  1.1921e-06,  ..., -6.9384e-08,
+         -1.7732e-06,  8.6380e-07],
+        [ 4.3306e-08,  0.0000e+00, -6.0946e-06,  ...,  9.9652e-08,
+          7.8976e-07,  4.6566e-07],
+        ...,
+        [-6.4168e-07,  0.0000e+00,  2.3134e-06,  ...,  2.3888e-07,
+         -5.9232e-06, -1.1899e-05],
+        [ 4.1118e-07,  0.0000e+00,  7.7626e-07,  ...,  1.6810e-07,
+          1.6764e-05,  1.3094e-06],
+        [ 1.7229e-07,  0.0000e+00,  5.2853e-07,  ...,  1.6131e-06,
+          2.0526e-06,  2.9970e-06]], device='cuda:0')
+Epoch 138, bias, value: tensor([-0.0197,  0.0152,  0.0258,  0.0025,  0.0248, -0.0099, -0.0090, -0.0180,
+        -0.0168,  0.0226], device='cuda:0'), grad: tensor([ 1.3776e-05, -3.3546e-06, -6.6385e-06,  8.4564e-06, -3.7719e-07,
+         3.2902e-05, -1.2815e-04, -1.4037e-05,  8.7857e-05,  9.4995e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 137, time 220.47, cls_loss 0.0029 cls_loss_mapping 0.0046 cls_loss_causal 0.5423 re_mapping 0.0076 re_causal 0.0227 /// teacc 98.92 lr 0.00010000
+Epoch 139, weight, value: tensor([[ 1.3488e-02,  1.0998e-02,  6.1781e-03,  ...,  6.1231e-02,
+         -1.1014e-01, -1.1139e-01],
+        [ 3.4479e-02, -1.8468e-02,  5.4269e-03,  ..., -1.2416e-01,
+          4.6188e-02, -9.7214e-02],
+        [ 1.2695e-03, -4.7728e-03,  1.3049e-01,  ..., -1.7136e-01,
+         -8.0584e-02, -1.2551e-01],
+        ...,
+        [-1.0233e-04,  6.2061e-03, -8.7203e-02,  ...,  2.0870e-03,
+          1.0327e-01,  5.9490e-02],
+        [ 5.0882e-03, -2.0220e-02, -8.0246e-02,  ..., -1.5383e-01,
+          6.6086e-02, -1.3004e-01],
+        [-6.3909e-03, -2.5834e-02, -4.1100e-02,  ...,  3.2395e-02,
+         -6.1235e-02,  2.1199e-02]], device='cuda:0'), grad: tensor([[ 1.6298e-09,  0.0000e+00, -2.3306e-07,  ..., -2.6659e-07,
+          2.9057e-07,  2.9011e-07],
+        [ 1.0943e-08,  0.0000e+00,  1.6904e-07,  ...,  2.8568e-07,
+         -2.6189e-06,  6.4261e-07],
+        [ 6.0536e-09,  0.0000e+00, -8.6008e-07,  ...,  1.0291e-07,
+          1.3206e-06,  1.1791e-06],
+        ...,
+        [-3.8184e-08,  0.0000e+00,  2.9220e-07,  ...,  2.1234e-07,
+         -5.5321e-07, -1.3048e-06],
+        [ 1.3271e-08,  0.0000e+00,  2.4843e-07,  ...,  2.4401e-07,
+         -1.0114e-06, -1.0114e-06],
+        [ 9.3132e-09,  0.0000e+00,  1.6764e-07,  ...,  1.2517e-05,
+          3.0361e-06,  2.2486e-05]], device='cuda:0')
+Epoch 139, bias, value: tensor([-0.0198,  0.0154,  0.0256,  0.0027,  0.0222, -0.0095, -0.0090, -0.0180,
+        -0.0168,  0.0244], device='cuda:0'), grad: tensor([ 5.5600e-07, -4.5523e-06,  3.8743e-06, -2.1560e-07, -2.3246e-05,
+        -4.2841e-07,  9.2248e-07, -2.2929e-06, -1.9278e-06,  2.7284e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 138, time 220.41, cls_loss 0.0037 cls_loss_mapping 0.0053 cls_loss_causal 0.5514 re_mapping 0.0073 re_causal 0.0218 /// teacc 98.93 lr 0.00010000
+Epoch 140, weight, value: tensor([[ 1.3350e-02,  1.0998e-02,  6.4693e-03,  ...,  6.1342e-02,
+         -1.1097e-01, -1.1170e-01],
+        [ 3.4528e-02, -1.8468e-02,  4.8247e-03,  ..., -1.2368e-01,
+          4.6575e-02, -9.6590e-02],
+        [ 1.1111e-03, -4.7728e-03,  1.3181e-01,  ..., -1.7306e-01,
+         -8.0198e-02, -1.2558e-01],
+        ...,
+        [-9.8335e-05,  6.2061e-03, -8.9080e-02,  ...,  1.7592e-03,
+          1.0464e-01,  6.1060e-02],
+        [ 5.0435e-03, -2.0220e-02, -8.0363e-02,  ..., -1.5462e-01,
+          6.6202e-02, -1.3029e-01],
+        [-6.4582e-03, -2.5834e-02, -4.2535e-02,  ...,  3.1601e-02,
+         -6.4460e-02,  1.9699e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -8.5682e-08,  ...,  4.6566e-09,
+          5.8208e-07,  5.3272e-07],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-08,  ...,  4.0652e-07,
+         -1.2210e-06,  1.9222e-06],
+        [ 0.0000e+00,  0.0000e+00, -5.0012e-07,  ...,  1.6717e-07,
+          8.5831e-06,  4.3735e-06],
+        ...,
+        [-9.3132e-10,  0.0000e+00,  4.0513e-08,  ...,  8.8615e-07,
+         -2.6405e-05, -1.2703e-05],
+        [ 0.0000e+00,  0.0000e+00,  7.5903e-08,  ...,  7.2783e-07,
+          1.0312e-05,  6.5453e-06],
+        [ 0.0000e+00,  0.0000e+00,  8.2888e-08,  ...,  7.4245e-06,
+          2.9318e-06,  1.7643e-05]], device='cuda:0')
+Epoch 140, bias, value: tensor([-0.0198,  0.0155,  0.0264,  0.0026,  0.0226, -0.0089, -0.0086, -0.0172,
+        -0.0169,  0.0225], device='cuda:0'), grad: tensor([ 2.0321e-06, -4.3772e-06,  2.3425e-05,  2.0057e-05, -2.5913e-05,
+        -2.9057e-06,  9.3430e-06, -6.4969e-05,  1.5825e-05,  2.7359e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 139, time 220.50, cls_loss 0.0034 cls_loss_mapping 0.0049 cls_loss_causal 0.5437 re_mapping 0.0075 re_causal 0.0219 /// teacc 98.90 lr 0.00010000
+Epoch 141, weight, value: tensor([[ 1.3311e-02,  1.0998e-02,  6.5013e-03,  ...,  6.0897e-02,
+         -1.1177e-01, -1.1357e-01],
+        [ 3.4496e-02, -1.8468e-02,  4.4525e-03,  ..., -1.2399e-01,
+          4.6960e-02, -9.6689e-02],
+        [ 7.8872e-04, -4.7728e-03,  1.3218e-01,  ..., -1.7421e-01,
+         -8.1031e-02, -1.2664e-01],
+        ...,
+        [ 8.3661e-05,  6.2061e-03, -8.8973e-02,  ...,  1.5040e-03,
+          1.0510e-01,  5.9703e-02],
+        [ 4.9633e-03, -2.0220e-02, -8.0436e-02,  ..., -1.5539e-01,
+          6.6598e-02, -1.3076e-01],
+        [-6.5966e-03, -2.5834e-02, -4.2803e-02,  ...,  3.1851e-02,
+         -6.5338e-02,  2.0774e-02]], device='cuda:0'), grad: tensor([[ 3.2596e-09,  0.0000e+00, -6.2538e-07,  ..., -5.4622e-07,
+          8.7544e-08,  3.0128e-07],
+        [ 1.3504e-08,  0.0000e+00,  5.4017e-08,  ...,  5.4017e-08,
+          5.6950e-07,  4.2245e-06],
+        [ 6.5193e-09,  0.0000e+00,  4.1723e-07,  ...,  4.0047e-08,
+          7.8604e-07,  3.1721e-06],
+        ...,
+        [ 1.9558e-08,  0.0000e+00,  1.7183e-07,  ...,  7.3574e-08,
+         -4.8988e-06, -2.7582e-05],
+        [ 4.6566e-09,  0.0000e+00,  1.3970e-06,  ...,  1.3644e-07,
+         -1.4203e-07,  3.9628e-07],
+        [ 1.9604e-07,  0.0000e+00,  1.2107e-07,  ...,  5.0757e-07,
+          3.2056e-06,  1.8775e-05]], device='cuda:0')
+Epoch 141, bias, value: tensor([-0.0203,  0.0156,  0.0262,  0.0013,  0.0227, -0.0081, -0.0085, -0.0185,
+        -0.0166,  0.0236], device='cuda:0'), grad: tensor([-1.4305e-06,  6.2436e-06,  6.3404e-06, -7.6517e-06, -1.7229e-07,
+         2.0750e-06,  1.4231e-06, -4.1246e-05,  5.5507e-06,  2.8849e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 140, time 220.44, cls_loss 0.0033 cls_loss_mapping 0.0060 cls_loss_causal 0.5589 re_mapping 0.0071 re_causal 0.0225 /// teacc 98.85 lr 0.00010000
+Epoch 142, weight, value: tensor([[ 1.3273e-02,  1.0998e-02,  6.4062e-03,  ...,  6.0785e-02,
+         -1.1217e-01, -1.1398e-01],
+        [ 3.4476e-02, -1.8468e-02,  4.2065e-03,  ..., -1.2452e-01,
+          4.6997e-02, -9.6733e-02],
+        [ 7.2692e-04, -4.7728e-03,  1.3301e-01,  ..., -1.7607e-01,
+         -7.9144e-02, -1.2746e-01],
+        ...,
+        [ 2.1093e-05,  6.2061e-03, -8.8546e-02,  ...,  2.3072e-03,
+          1.0601e-01,  6.0164e-02],
+        [ 4.8926e-03, -2.0220e-02, -8.1623e-02,  ..., -1.5531e-01,
+          6.4581e-02, -1.2945e-01],
+        [-6.5884e-03, -2.5834e-02, -4.2704e-02,  ...,  3.1570e-02,
+         -6.6626e-02,  2.0431e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -3.9116e-06,  ..., -2.3786e-06,
+          1.7975e-06,  3.4831e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.6578e-07,  ...,  1.2154e-07,
+          5.6475e-06,  3.9749e-06],
+        [ 0.0000e+00,  0.0000e+00,  4.3772e-07,  ...,  8.6846e-07,
+          1.9193e-05,  9.4473e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  7.9628e-08,  ...,  8.9873e-08,
+         -3.2008e-05, -2.1324e-05],
+        [ 0.0000e+00,  0.0000e+00,  7.1293e-07,  ...,  1.8859e-07,
+          2.0117e-06, -3.7365e-06],
+        [ 0.0000e+00,  0.0000e+00,  8.8988e-07,  ...,  1.4929e-06,
+          4.0643e-06,  8.8066e-06]], device='cuda:0')
+Epoch 142, bias, value: tensor([-0.0204,  0.0152,  0.0273,  0.0040,  0.0229, -0.0105, -0.0081, -0.0177,
+        -0.0183,  0.0231], device='cuda:0'), grad: tensor([-9.4436e-07,  2.5824e-05,  7.9870e-05,  1.2711e-05,  5.1446e-06,
+         2.1994e-04, -2.4772e-04, -1.2743e-04,  3.8464e-07,  3.1888e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 141, time 220.57, cls_loss 0.0026 cls_loss_mapping 0.0051 cls_loss_causal 0.5741 re_mapping 0.0075 re_causal 0.0227 /// teacc 98.97 lr 0.00010000
+Epoch 143, weight, value: tensor([[ 1.3266e-02,  1.0998e-02,  6.9918e-03,  ...,  6.0761e-02,
+         -1.1381e-01, -1.1412e-01],
+        [ 3.4470e-02, -1.8468e-02,  4.0587e-03,  ..., -1.2475e-01,
+          4.6834e-02, -9.7002e-02],
+        [ 7.2522e-04, -4.7728e-03,  1.3304e-01,  ..., -1.7856e-01,
+         -7.9128e-02, -1.2775e-01],
+        ...,
+        [-5.7556e-08,  6.2061e-03, -8.8981e-02,  ...,  2.0227e-03,
+          1.0673e-01,  6.0333e-02],
+        [ 4.8873e-03, -2.0220e-02, -8.1628e-02,  ..., -1.5637e-01,
+          6.4542e-02, -1.2952e-01],
+        [-6.9282e-03, -2.5834e-02, -4.3314e-02,  ...,  3.1308e-02,
+         -6.7198e-02,  1.9878e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.2128e-06,  ..., -5.9009e-06,
+          2.5854e-06,  6.9384e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.0128e-07,  ...,  1.6857e-07,
+          4.3586e-07,  2.4028e-07],
+        [ 0.0000e+00,  0.0000e+00,  3.1758e-07,  ...,  4.7404e-07,
+          1.2554e-06,  1.9511e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-07,  ...,  6.9896e-07,
+         -4.9314e-07,  2.6170e-07],
+        [ 0.0000e+00,  0.0000e+00, -3.7104e-06,  ...,  4.4005e-07,
+         -9.8944e-06,  2.0443e-07],
+        [ 0.0000e+00,  0.0000e+00,  8.7451e-07,  ...,  2.4941e-06,
+          1.1288e-06,  7.0175e-07]], device='cuda:0')
+Epoch 143, bias, value: tensor([-0.0205,  0.0150,  0.0271,  0.0037,  0.0236, -0.0102, -0.0079, -0.0173,
+        -0.0184,  0.0225], device='cuda:0'), grad: tensor([ 1.0081e-05,  3.8892e-06,  6.8694e-06,  2.3752e-05, -1.1679e-06,
+         6.0424e-06,  1.4171e-05,  6.0908e-07, -7.7665e-05,  1.3463e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 142, time 220.72, cls_loss 0.0028 cls_loss_mapping 0.0044 cls_loss_causal 0.5265 re_mapping 0.0068 re_causal 0.0212 /// teacc 98.92 lr 0.00010000
+Epoch 144, weight, value: tensor([[ 0.0133,  0.0110,  0.0073,  ...,  0.0608, -0.1145, -0.1144],
+        [ 0.0345, -0.0185,  0.0037,  ..., -0.1254,  0.0470, -0.0972],
+        [ 0.0007, -0.0048,  0.1336,  ..., -0.1800, -0.0793, -0.1275],
+        ...,
+        [-0.0004,  0.0062, -0.0900,  ...,  0.0014,  0.1068,  0.0603],
+        [ 0.0049, -0.0202, -0.0818,  ..., -0.1580,  0.0649, -0.1299],
+        [-0.0070, -0.0258, -0.0437,  ...,  0.0317, -0.0669,  0.0200]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  6.7521e-08,  ...,  1.0794e-06,
+          5.5227e-07,  1.3867e-06],
+        [ 0.0000e+00,  0.0000e+00,  2.4214e-08,  ...,  5.4482e-08,
+         -1.0906e-06,  1.2806e-07],
+        [ 0.0000e+00,  0.0000e+00, -2.1374e-07,  ...,  3.8184e-08,
+          4.9360e-07,  1.0431e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.0943e-07,  ...,  1.2461e-06,
+         -8.4518e-07, -6.3144e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.2945e-07,  ...,  3.6275e-07,
+         -8.7544e-08,  3.6415e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.9465e-07,  ..., -3.3490e-06,
+          9.0199e-07, -2.0433e-06]], device='cuda:0')
+Epoch 144, bias, value: tensor([-0.0205,  0.0149,  0.0271,  0.0035,  0.0235, -0.0101, -0.0079, -0.0174,
+        -0.0181,  0.0226], device='cuda:0'), grad: tensor([ 3.7830e-06, -2.4661e-06,  1.3812e-06, -7.6368e-07,  1.3094e-06,
+        -4.9686e-07, -4.0559e-07,  4.1071e-07,  1.0710e-06, -3.8184e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 143----------------------------------------------------
+epoch 143, time 221.54, cls_loss 0.0023 cls_loss_mapping 0.0047 cls_loss_causal 0.5335 re_mapping 0.0071 re_causal 0.0224 /// teacc 99.01 lr 0.00010000
+Epoch 145, weight, value: tensor([[ 0.0133,  0.0110,  0.0078,  ...,  0.0609, -0.1157, -0.1147],
+        [ 0.0345, -0.0185,  0.0037,  ..., -0.1257,  0.0477, -0.0970],
+        [ 0.0007, -0.0048,  0.1339,  ..., -0.1808, -0.0796, -0.1273],
+        ...,
+        [-0.0004,  0.0062, -0.0906,  ...,  0.0012,  0.1067,  0.0604],
+        [ 0.0048, -0.0202, -0.0818,  ..., -0.1598,  0.0652, -0.1304],
+        [-0.0070, -0.0258, -0.0442,  ...,  0.0317, -0.0672,  0.0199]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.4075e-07,  ..., -7.0920e-07,
+          4.1686e-06,  9.0674e-06],
+        [ 0.0000e+00,  0.0000e+00,  1.5143e-06,  ...,  2.1420e-08,
+          6.2585e-07,  5.5833e-07],
+        [ 0.0000e+00,  0.0000e+00, -7.1563e-06,  ...,  5.5414e-08,
+         -2.3711e-06, -2.1793e-07],
+        ...,
+        [-4.6566e-10,  0.0000e+00,  4.0606e-06,  ...,  8.0559e-08,
+         -2.8126e-06, -1.1437e-05],
+        [ 0.0000e+00,  0.0000e+00,  4.3325e-06,  ...,  9.3132e-08,
+          4.8615e-06,  4.0466e-07],
+        [-4.6566e-10,  0.0000e+00,  4.2841e-07,  ...,  6.1933e-08,
+          2.2072e-07,  7.9628e-08]], device='cuda:0')
+Epoch 145, bias, value: tensor([-0.0209,  0.0155,  0.0269,  0.0035,  0.0236, -0.0102, -0.0075, -0.0175,
+        -0.0182,  0.0225], device='cuda:0'), grad: tensor([ 1.7077e-05,  3.1348e-06, -1.0774e-05,  2.1420e-06,  2.0973e-06,
+         5.0552e-06, -2.1130e-05, -1.2740e-05,  1.2353e-05,  2.7493e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 144, time 220.74, cls_loss 0.0024 cls_loss_mapping 0.0049 cls_loss_causal 0.5503 re_mapping 0.0071 re_causal 0.0220 /// teacc 98.95 lr 0.00010000
+Epoch 146, weight, value: tensor([[ 0.0132,  0.0110,  0.0076,  ...,  0.0607, -0.1170, -0.1156],
+        [ 0.0344, -0.0185,  0.0030,  ..., -0.1256,  0.0474, -0.0969],
+        [ 0.0005, -0.0048,  0.1341,  ..., -0.1817, -0.0795, -0.1274],
+        ...,
+        [-0.0007,  0.0062, -0.0913,  ...,  0.0011,  0.1071,  0.0603],
+        [ 0.0048, -0.0202, -0.0818,  ..., -0.1608,  0.0655, -0.1311],
+        [-0.0066, -0.0258, -0.0445,  ...,  0.0318, -0.0675,  0.0199]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  1.0571e-07,  ..., -4.9360e-08,
+          3.1525e-07,  1.6205e-07],
+        [ 1.3970e-09,  0.0000e+00,  1.7006e-06,  ...,  1.1967e-07,
+         -2.7474e-07,  7.5949e-07],
+        [ 1.8626e-09,  0.0000e+00, -4.5002e-06,  ..., -1.1735e-07,
+          6.7661e-07,  2.7055e-07],
+        ...,
+        [ 2.2352e-08,  0.0000e+00,  7.3202e-07,  ...,  3.3341e-07,
+          1.2755e-05,  9.4026e-06],
+        [ 1.8626e-09,  0.0000e+00,  6.3190e-07,  ...,  1.0757e-07,
+         -7.7367e-05, -5.0515e-05],
+        [-2.9337e-08,  0.0000e+00,  1.0431e-07,  ..., -7.5810e-07,
+          6.0678e-05,  3.6865e-05]], device='cuda:0')
+Epoch 146, bias, value: tensor([-0.0211,  0.0152,  0.0268,  0.0040,  0.0236, -0.0098, -0.0077, -0.0175,
+        -0.0182,  0.0224], device='cuda:0'), grad: tensor([ 8.6986e-07,  3.4571e-06, -7.3686e-06,  4.8662e-07,  4.4815e-06,
+         2.5891e-06,  9.9279e-07,  2.5421e-05, -1.3530e-04,  1.0425e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 145----------------------------------------------------
+epoch 145, time 220.61, cls_loss 0.0037 cls_loss_mapping 0.0055 cls_loss_causal 0.5438 re_mapping 0.0070 re_causal 0.0204 /// teacc 99.03 lr 0.00010000
+Epoch 147, weight, value: tensor([[ 0.0131,  0.0110,  0.0082,  ...,  0.0611, -0.1175, -0.1163],
+        [ 0.0343, -0.0185,  0.0024,  ..., -0.1269,  0.0457, -0.0971],
+        [ 0.0005, -0.0048,  0.1352,  ..., -0.1829, -0.0796, -0.1275],
+        ...,
+        [-0.0012,  0.0062, -0.0921,  ...,  0.0020,  0.1080,  0.0607],
+        [ 0.0048, -0.0202, -0.0820,  ..., -0.1618,  0.0654, -0.1315],
+        [-0.0060, -0.0258, -0.0449,  ...,  0.0314, -0.0679,  0.0199]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.6045e-06,  ..., -5.0776e-06,
+          2.6636e-07,  1.9968e-06],
+        [ 0.0000e+00,  0.0000e+00,  1.7229e-07,  ...,  3.9535e-07,
+         -1.3439e-06,  7.2317e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.6158e-06,  ...,  1.2312e-06,
+          2.0564e-06,  4.2617e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.1735e-07,  ...,  1.2340e-07,
+         -8.8010e-08, -1.2796e-06],
+        [ 0.0000e+00,  0.0000e+00,  5.9977e-07,  ...,  1.0282e-06,
+         -2.9355e-06,  2.7135e-05],
+        [ 0.0000e+00,  0.0000e+00,  1.0021e-06,  ...,  8.5728e-07,
+          5.2107e-07, -1.8537e-04]], device='cuda:0')
+Epoch 147, bias, value: tensor([-0.0210,  0.0137,  0.0276,  0.0053,  0.0234, -0.0112, -0.0069, -0.0171,
+        -0.0184,  0.0221], device='cuda:0'), grad: tensor([-6.6459e-06, -1.3858e-06,  2.7910e-05,  4.9162e-04,  1.7226e-05,
+         1.7762e-04,  4.2915e-06,  9.2806e-07,  1.1933e-04, -8.3113e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 146, time 220.55, cls_loss 0.0033 cls_loss_mapping 0.0046 cls_loss_causal 0.5520 re_mapping 0.0069 re_causal 0.0208 /// teacc 99.00 lr 0.00010000
+Epoch 148, weight, value: tensor([[ 0.0131,  0.0110,  0.0084,  ...,  0.0612, -0.1186, -0.1171],
+        [ 0.0343, -0.0185,  0.0023,  ..., -0.1276,  0.0454, -0.0974],
+        [-0.0009, -0.0048,  0.1357,  ..., -0.1841, -0.0800, -0.1280],
+        ...,
+        [-0.0017,  0.0062, -0.0925,  ...,  0.0016,  0.1096,  0.0607],
+        [ 0.0047, -0.0202, -0.0822,  ..., -0.1631,  0.0652, -0.1327],
+        [-0.0059, -0.0258, -0.0460,  ...,  0.0319, -0.0682,  0.0205]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.7474e-08,  ..., -7.6368e-08,
+          1.0105e-07,  2.8405e-08],
+        [ 0.0000e+00,  0.0000e+00,  4.9360e-08,  ...,  1.9278e-07,
+         -4.7497e-07,  3.9162e-07],
+        [ 0.0000e+00,  0.0000e+00,  4.0047e-06,  ...,  2.9337e-08,
+          8.4331e-07,  7.3109e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.4231e-06,  ...,  2.0163e-07,
+         -3.1618e-07, -6.9663e-07],
+        [ 0.0000e+00,  0.0000e+00, -6.9290e-07,  ...,  1.2573e-07,
+         -1.0552e-06,  1.2619e-07],
+        [ 0.0000e+00,  0.0000e+00,  2.1886e-07,  ...,  2.1532e-06,
+          4.4471e-07,  2.5034e-06]], device='cuda:0')
+Epoch 148, bias, value: tensor([-0.0213,  0.0135,  0.0274,  0.0051,  0.0227, -0.0111, -0.0068, -0.0167,
+        -0.0190,  0.0230], device='cuda:0'), grad: tensor([ 7.9954e-07, -1.7192e-06,  7.3165e-06, -3.7625e-06, -4.0010e-06,
+        -5.5358e-06,  8.8755e-07,  2.4531e-06, -1.4752e-06,  5.0180e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 147, time 220.53, cls_loss 0.0027 cls_loss_mapping 0.0050 cls_loss_causal 0.5234 re_mapping 0.0068 re_causal 0.0207 /// teacc 98.94 lr 0.00010000
+Epoch 149, weight, value: tensor([[ 0.0130,  0.0110,  0.0094,  ...,  0.0614, -0.1192, -0.1173],
+        [ 0.0344, -0.0185,  0.0028,  ..., -0.1282,  0.0458, -0.0974],
+        [-0.0018, -0.0048,  0.1358,  ..., -0.1856, -0.0802, -0.1291],
+        ...,
+        [-0.0024,  0.0062, -0.0934,  ...,  0.0010,  0.1097,  0.0606],
+        [ 0.0046, -0.0202, -0.0823,  ..., -0.1638,  0.0655, -0.1326],
+        [-0.0058, -0.0258, -0.0470,  ...,  0.0316, -0.0688,  0.0204]],
+       device='cuda:0'), grad: tensor([[ 5.6811e-08,  0.0000e+00,  1.6065e-07,  ...,  7.2410e-07,
+          1.2163e-06,  2.1048e-07],
+        [-8.7544e-08,  0.0000e+00, -6.2864e-07,  ...,  1.9092e-08,
+          2.3749e-08,  5.7556e-07],
+        [ 8.4750e-08,  0.0000e+00,  4.1630e-07,  ...,  8.1956e-08,
+          1.8049e-06,  4.2515e-07],
+        ...,
+        [ 2.8405e-08,  0.0000e+00,  7.6834e-08,  ...,  7.6974e-07,
+         -4.1462e-06,  2.3516e-07],
+        [-9.0385e-07,  0.0000e+00,  1.8300e-07,  ..., -3.3528e-06,
+         -2.6405e-05, -6.4149e-06],
+        [ 9.1735e-08,  0.0000e+00,  2.7474e-08,  ..., -2.3767e-05,
+          2.4781e-05, -5.7191e-05]], device='cuda:0')
+Epoch 149, bias, value: tensor([-0.0212,  0.0144,  0.0268,  0.0057,  0.0232, -0.0114, -0.0065, -0.0172,
+        -0.0189,  0.0226], device='cuda:0'), grad: tensor([ 2.1711e-05,  3.6089e-07,  7.9870e-06,  7.4655e-06,  5.8353e-05,
+         1.1347e-05, -4.9509e-06, -9.5218e-06, -2.2459e-04,  1.3185e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 148, time 220.34, cls_loss 0.0021 cls_loss_mapping 0.0040 cls_loss_causal 0.5367 re_mapping 0.0070 re_causal 0.0219 /// teacc 98.86 lr 0.00010000
+Epoch 150, weight, value: tensor([[ 0.0128,  0.0110,  0.0106,  ...,  0.0621, -0.1198, -0.1170],
+        [ 0.0346, -0.0185,  0.0028,  ..., -0.1293,  0.0460, -0.0979],
+        [-0.0020, -0.0048,  0.1364,  ..., -0.1871, -0.0800, -0.1275],
+        ...,
+        [-0.0025,  0.0062, -0.0945,  ...,  0.0007,  0.1094,  0.0604],
+        [ 0.0045, -0.0202, -0.0824,  ..., -0.1643,  0.0657, -0.1326],
+        [-0.0060, -0.0258, -0.0489,  ...,  0.0312, -0.0693,  0.0203]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -1.7211e-06,  ..., -1.3616e-06,
+          2.0955e-08,  2.9802e-08],
+        [ 4.6566e-09,  0.0000e+00,  1.7695e-07,  ...,  1.5600e-07,
+          1.0971e-06,  1.5367e-06],
+        [ 3.2596e-09,  0.0000e+00,  3.1432e-07,  ...,  2.6217e-07,
+          1.2200e-07,  1.1362e-07],
+        ...,
+        [-2.7940e-08,  0.0000e+00,  8.3819e-08,  ...,  8.7079e-08,
+         -3.4031e-06, -4.1313e-06],
+        [ 3.2596e-09,  0.0000e+00,  5.5088e-07,  ...,  3.7206e-07,
+         -5.5414e-08,  4.2887e-07],
+        [-9.6392e-08,  0.0000e+00,  2.4820e-07,  ..., -2.4885e-06,
+          6.8499e-07, -1.2018e-05]], device='cuda:0')
+Epoch 150, bias, value: tensor([-0.0210,  0.0144,  0.0273,  0.0057,  0.0235, -0.0113, -0.0066, -0.0176,
+        -0.0188,  0.0221], device='cuda:0'), grad: tensor([-3.4403e-06,  2.8871e-06,  1.1791e-06,  3.0063e-06,  1.2219e-05,
+         2.5006e-07,  1.1865e-06, -8.6427e-06,  1.0533e-06, -9.6634e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 149, time 220.57, cls_loss 0.0029 cls_loss_mapping 0.0063 cls_loss_causal 0.5331 re_mapping 0.0073 re_causal 0.0214 /// teacc 98.84 lr 0.00010000
+Epoch 151, weight, value: tensor([[ 0.0123,  0.0110,  0.0109,  ...,  0.0622, -0.1204, -0.1173],
+        [ 0.0342, -0.0185,  0.0024,  ..., -0.1303,  0.0460, -0.0983],
+        [-0.0028, -0.0048,  0.1362,  ..., -0.1876, -0.0803, -0.1267],
+        ...,
+        [-0.0036,  0.0062, -0.0946,  ...,  0.0008,  0.1094,  0.0601],
+        [ 0.0064, -0.0202, -0.0824,  ..., -0.1650,  0.0670, -0.1296],
+        [-0.0065, -0.0258, -0.0492,  ...,  0.0311, -0.0714,  0.0200]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00, -3.0082e-06,  ..., -3.2708e-06,
+         -6.0536e-09,  1.4435e-08],
+        [ 4.0047e-08,  0.0000e+00,  3.1525e-07,  ...,  2.3609e-07,
+          8.9128e-07,  1.5832e-06],
+        [-1.3970e-09,  0.0000e+00,  3.9767e-07,  ...,  1.4529e-07,
+          9.2573e-07,  2.6403e-07],
+        ...,
+        [-3.0594e-07,  0.0000e+00,  1.9465e-07,  ...,  7.2643e-08,
+         -4.1127e-06, -5.1968e-06],
+        [ 2.3283e-08,  0.0000e+00, -1.2480e-06,  ...,  1.0524e-07,
+         -1.4994e-06,  2.9337e-07],
+        [ 4.0047e-08,  0.0000e+00,  1.7416e-07,  ...,  2.3376e-07,
+          9.7044e-07,  1.2778e-06]], device='cuda:0')
+Epoch 151, bias, value: tensor([-0.0212,  0.0136,  0.0270,  0.0057,  0.0238, -0.0109, -0.0069, -0.0176,
+        -0.0171,  0.0213], device='cuda:0'), grad: tensor([-5.4315e-06,  3.0268e-06,  2.4550e-06,  6.2510e-06,  6.4494e-07,
+        -8.0559e-08,  3.6079e-06, -9.6112e-06, -3.5092e-06,  2.6561e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 150, time 220.77, cls_loss 0.0023 cls_loss_mapping 0.0032 cls_loss_causal 0.5123 re_mapping 0.0069 re_causal 0.0211 /// teacc 98.94 lr 0.00010000
+Epoch 152, weight, value: tensor([[ 0.0114,  0.0110,  0.0105,  ...,  0.0621, -0.1209, -0.1184],
+        [ 0.0346, -0.0185,  0.0025,  ..., -0.1309,  0.0462, -0.0979],
+        [-0.0024, -0.0048,  0.1361,  ..., -0.1896, -0.0806, -0.1271],
+        ...,
+        [-0.0038,  0.0062, -0.0949,  ...,  0.0004,  0.1098,  0.0602],
+        [ 0.0066, -0.0202, -0.0824,  ..., -0.1662,  0.0674, -0.1304],
+        [-0.0064, -0.0258, -0.0489,  ...,  0.0311, -0.0718,  0.0200]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -7.8231e-08,  ..., -1.8952e-07,
+          2.5425e-07,  1.3039e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.5460e-07,  ...,  3.3062e-08,
+         -2.0396e-06,  3.7253e-08],
+        [ 0.0000e+00,  0.0000e+00, -1.4761e-06,  ...,  2.1886e-08,
+          1.0757e-07,  4.7032e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.9954e-07,  ...,  7.4506e-09,
+          4.3772e-08, -3.8743e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.8766e-07,  ...,  2.6543e-08,
+          5.0664e-07,  2.0489e-08],
+        [-4.6566e-10,  0.0000e+00,  7.8697e-08,  ...,  1.1642e-08,
+          1.8673e-07,  1.3597e-07]], device='cuda:0')
+Epoch 152, bias, value: tensor([-0.0216,  0.0139,  0.0265,  0.0053,  0.0238, -0.0102, -0.0069, -0.0174,
+        -0.0171,  0.0213], device='cuda:0'), grad: tensor([ 4.9546e-07, -3.5875e-06, -1.0692e-06, -1.7047e-05,  4.4797e-07,
+         1.5646e-05,  1.0058e-06,  6.8266e-07,  2.6636e-06,  7.5717e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 151, time 220.62, cls_loss 0.0022 cls_loss_mapping 0.0034 cls_loss_causal 0.5317 re_mapping 0.0070 re_causal 0.0215 /// teacc 98.87 lr 0.00010000
+Epoch 153, weight, value: tensor([[ 0.0113,  0.0110,  0.0093,  ...,  0.0612, -0.1215, -0.1198],
+        [ 0.0346, -0.0185,  0.0024,  ..., -0.1309,  0.0463, -0.0980],
+        [-0.0024, -0.0048,  0.1365,  ..., -0.1903, -0.0807, -0.1270],
+        ...,
+        [-0.0042,  0.0062, -0.0956,  ...,  0.0004,  0.1099,  0.0602],
+        [ 0.0066, -0.0202, -0.0825,  ..., -0.1668,  0.0676, -0.1304],
+        [-0.0064, -0.0258, -0.0476,  ...,  0.0317, -0.0723,  0.0200]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-09,  0.0000e+00, -1.4948e-07,  ..., -1.0896e-07,
+          9.2201e-08,  2.9150e-07],
+        [ 8.3819e-09,  0.0000e+00, -9.3132e-10,  ...,  2.8731e-07,
+         -2.6543e-07,  5.8394e-07],
+        [ 2.7940e-09,  0.0000e+00, -2.2352e-08,  ...,  8.6613e-08,
+          1.8487e-07,  2.1094e-07],
+        ...,
+        [ 1.6764e-08,  0.0000e+00,  1.1642e-08,  ...,  1.3709e-06,
+         -9.3132e-09,  1.2489e-06],
+        [ 1.8626e-09,  0.0000e+00,  3.4925e-08,  ...,  7.4133e-07,
+         -5.1223e-08,  2.1495e-06],
+        [ 1.2992e-07,  0.0000e+00,  6.6590e-08,  ...,  6.1840e-06,
+         -1.4305e-06, -2.0918e-06]], device='cuda:0')
+Epoch 153, bias, value: tensor([-0.0221,  0.0139,  0.0266,  0.0049,  0.0239, -0.0097, -0.0071, -0.0176,
+        -0.0171,  0.0214], device='cuda:0'), grad: tensor([ 6.1793e-07,  3.8650e-08,  7.4692e-07,  5.7695e-07, -1.3649e-05,
+         2.0005e-06, -3.4506e-07, -7.6648e-07,  1.5432e-06,  9.2834e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 152, time 221.41, cls_loss 0.0020 cls_loss_mapping 0.0041 cls_loss_causal 0.5443 re_mapping 0.0071 re_causal 0.0213 /// teacc 98.92 lr 0.00010000
+Epoch 154, weight, value: tensor([[ 0.0113,  0.0110,  0.0095,  ...,  0.0612, -0.1224, -0.1201],
+        [ 0.0346, -0.0185,  0.0025,  ..., -0.1316,  0.0460, -0.0975],
+        [-0.0024, -0.0048,  0.1369,  ..., -0.1916, -0.0808, -0.1270],
+        ...,
+        [-0.0044,  0.0062, -0.0968,  ...,  0.0002,  0.1102,  0.0600],
+        [ 0.0067, -0.0202, -0.0824,  ..., -0.1678,  0.0682, -0.1302],
+        [-0.0063, -0.0258, -0.0478,  ...,  0.0315, -0.0729,  0.0199]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.8219e-07,  ..., -1.4156e-07,
+          2.7474e-08,  4.7032e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.7695e-08,  ...,  1.5367e-08,
+          4.6566e-09,  6.7987e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.0443e-07,  ...,  4.0047e-08,
+          1.1036e-07,  1.2107e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.5832e-08,  ...,  1.8142e-06,
+         -1.5274e-07,  6.5565e-06],
+        [ 0.0000e+00,  0.0000e+00, -2.4177e-06,  ...,  8.3353e-08,
+         -1.9353e-06,  1.0617e-07],
+        [ 6.5193e-09,  0.0000e+00,  6.4261e-08,  ..., -2.1011e-06,
+          1.2107e-07, -8.4043e-06]], device='cuda:0')
+Epoch 154, bias, value: tensor([-0.0223,  0.0139,  0.0266,  0.0046,  0.0241, -0.0095, -0.0066, -0.0177,
+        -0.0167,  0.0212], device='cuda:0'), grad: tensor([-1.6531e-07,  7.2643e-08,  7.6136e-07,  1.4305e-05,  3.3667e-07,
+        -8.6008e-07,  1.5553e-07,  7.6890e-06, -1.2770e-05, -9.4995e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 153, time 220.52, cls_loss 0.0033 cls_loss_mapping 0.0056 cls_loss_causal 0.5417 re_mapping 0.0074 re_causal 0.0208 /// teacc 98.93 lr 0.00010000
+Epoch 155, weight, value: tensor([[ 0.0112,  0.0110,  0.0080,  ...,  0.0594, -0.1230, -0.1206],
+        [ 0.0345, -0.0185,  0.0024,  ..., -0.1326,  0.0454, -0.0977],
+        [-0.0025, -0.0048,  0.1369,  ..., -0.1944, -0.0811, -0.1274],
+        ...,
+        [-0.0046,  0.0062, -0.0967,  ...,  0.0006,  0.1120,  0.0606],
+        [ 0.0066, -0.0202, -0.0832,  ..., -0.1716,  0.0677, -0.1313],
+        [-0.0060, -0.0258, -0.0463,  ...,  0.0330, -0.0741,  0.0199]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  0.0000e+00, -2.2259e-07,  ...,  1.2526e-07,
+          5.7742e-08,  5.3085e-07],
+        [ 5.9605e-08,  0.0000e+00,  5.8208e-08,  ...,  7.7346e-07,
+          6.9663e-06,  4.3772e-06],
+        [ 2.0489e-08,  0.0000e+00, -1.1344e-06,  ...,  1.4622e-07,
+          3.8072e-06,  2.2538e-06],
+        ...,
+        [ 8.2841e-07,  0.0000e+00,  7.8464e-07,  ...,  5.0291e-06,
+         -1.7714e-06,  1.4409e-05],
+        [ 2.7474e-08,  0.0000e+00,  3.0734e-08,  ...,  7.4040e-07,
+         -1.2890e-05, -2.9057e-06],
+        [ 3.6925e-05,  0.0000e+00,  1.5227e-07,  ...,  1.6892e-04,
+          5.5134e-07,  7.9441e-04]], device='cuda:0')
+Epoch 155, bias, value: tensor([-0.0237,  0.0134,  0.0256,  0.0046,  0.0239, -0.0088, -0.0066, -0.0161,
+        -0.0180,  0.0218], device='cuda:0'), grad: tensor([ 8.7963e-07,  2.0579e-05,  9.5293e-06,  8.9854e-06, -6.7472e-04,
+        -1.4223e-05,  1.1981e-05,  1.0923e-05, -3.0607e-05,  6.5708e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 154, time 220.67, cls_loss 0.0024 cls_loss_mapping 0.0047 cls_loss_causal 0.5723 re_mapping 0.0072 re_causal 0.0227 /// teacc 98.91 lr 0.00010000
+Epoch 156, weight, value: tensor([[ 1.1141e-02,  1.0998e-02,  8.6229e-03,  ...,  5.9785e-02,
+         -1.2337e-01, -1.2086e-01],
+        [ 3.4576e-02, -1.8468e-02,  2.2358e-04,  ..., -1.3378e-01,
+          4.5108e-02, -9.6950e-02],
+        [-2.6007e-03, -4.7728e-03,  1.3831e-01,  ..., -1.9711e-01,
+         -8.0896e-02, -1.2798e-01],
+        ...,
+        [-4.6043e-03,  6.2061e-03, -9.7910e-02,  ...,  1.5238e-04,
+          1.1205e-01,  6.0621e-02],
+        [ 6.3672e-03, -2.0220e-02, -8.2627e-02,  ..., -1.7280e-01,
+          6.8500e-02, -1.3159e-01],
+        [-6.4649e-03, -2.5834e-02, -4.6564e-02,  ...,  3.2892e-02,
+         -7.4868e-02,  1.9866e-02]], device='cuda:0'), grad: tensor([[ 1.7695e-08,  0.0000e+00,  8.7824e-07,  ..., -7.6136e-07,
+          1.7276e-07,  1.4435e-08],
+        [ 7.4040e-08,  0.0000e+00,  1.2312e-06,  ...,  2.0955e-08,
+         -1.6950e-07,  8.1025e-08],
+        [-3.2410e-07,  0.0000e+00, -3.4999e-06,  ...,  1.0105e-07,
+          1.9148e-06,  2.2352e-07],
+        ...,
+        [ 6.5658e-08,  0.0000e+00,  2.0675e-06,  ...,  4.7497e-08,
+         -1.2666e-07, -2.8405e-07],
+        [ 9.9186e-08,  0.0000e+00,  4.1258e-07,  ...,  1.3225e-07,
+         -2.8275e-06,  1.9418e-07],
+        [ 8.8476e-09,  0.0000e+00,  1.1958e-06,  ...,  2.4959e-07,
+          9.0338e-08, -5.4343e-07]], device='cuda:0')
+Epoch 156, bias, value: tensor([-0.0234,  0.0126,  0.0262,  0.0045,  0.0241, -0.0091, -0.0068, -0.0164,
+        -0.0169,  0.0216], device='cuda:0'), grad: tensor([ 1.9467e-04,  1.2800e-05,  1.5333e-05, -7.6890e-05,  4.6007e-06,
+        -4.2129e-04,  7.3373e-05,  1.1569e-04,  4.6760e-05,  3.4541e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 155, time 220.69, cls_loss 0.0020 cls_loss_mapping 0.0040 cls_loss_causal 0.5369 re_mapping 0.0072 re_causal 0.0214 /// teacc 98.96 lr 0.00010000
+Epoch 157, weight, value: tensor([[ 1.1064e-02,  1.0998e-02,  9.1262e-03,  ...,  6.0165e-02,
+         -1.2436e-01, -1.2098e-01],
+        [ 3.4761e-02, -1.8468e-02,  1.4024e-05,  ..., -1.3501e-01,
+          4.5120e-02, -9.7150e-02],
+        [-2.6308e-03, -4.7728e-03,  1.3853e-01,  ..., -1.9796e-01,
+         -8.1324e-02, -1.2807e-01],
+        ...,
+        [-4.6188e-03,  6.2061e-03, -9.8474e-02,  ..., -3.7068e-04,
+          1.1277e-01,  6.0596e-02],
+        [ 6.2731e-03, -2.0220e-02, -8.2426e-02,  ..., -1.7344e-01,
+          6.9333e-02, -1.3132e-01],
+        [-6.4774e-03, -2.5834e-02, -4.7011e-02,  ...,  3.2750e-02,
+         -7.5662e-02,  1.9839e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -8.2608e-07,  ..., -1.0347e-06,
+          8.1025e-08,  6.4261e-08],
+        [ 0.0000e+00,  0.0000e+00,  4.5961e-07,  ...,  4.0559e-07,
+          1.8952e-07,  4.5635e-07],
+        [ 0.0000e+00,  0.0000e+00, -1.1936e-05,  ...,  1.0058e-07,
+          2.0023e-07,  1.5600e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.5981e-06,  ...,  7.3109e-08,
+         -6.1020e-06, -1.2599e-05],
+        [ 0.0000e+00,  0.0000e+00, -2.7269e-06,  ...,  1.5646e-07,
+         -1.2979e-05,  5.9465e-07],
+        [ 0.0000e+00,  0.0000e+00,  7.5810e-07,  ...,  5.2387e-07,
+          5.4948e-06,  1.0662e-05]], device='cuda:0')
+Epoch 157, bias, value: tensor([-0.0233,  0.0127,  0.0258,  0.0042,  0.0244, -0.0092, -0.0070, -0.0164,
+        -0.0161,  0.0213], device='cuda:0'), grad: tensor([-1.2945e-06,  2.0079e-06, -1.4827e-05,  7.0214e-05,  1.1874e-07,
+         6.4149e-06,  2.1849e-06, -2.8908e-05, -6.4492e-05,  2.8461e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 156, time 220.92, cls_loss 0.0021 cls_loss_mapping 0.0039 cls_loss_causal 0.5382 re_mapping 0.0067 re_causal 0.0203 /// teacc 98.93 lr 0.00010000
+Epoch 158, weight, value: tensor([[ 1.1034e-02,  1.0998e-02,  9.7667e-03,  ...,  6.0284e-02,
+         -1.2541e-01, -1.2088e-01],
+        [ 3.4847e-02, -1.8468e-02, -4.7932e-05,  ..., -1.3576e-01,
+          4.5755e-02, -9.6648e-02],
+        [-2.6542e-03, -4.7728e-03,  1.3883e-01,  ..., -1.9846e-01,
+         -8.1553e-02, -1.2815e-01],
+        ...,
+        [-4.6214e-03,  6.2061e-03, -9.8895e-02,  ..., -7.1170e-04,
+          1.1319e-01,  6.0720e-02],
+        [ 6.2128e-03, -2.0220e-02, -8.2668e-02,  ..., -1.7444e-01,
+          6.9444e-02, -1.3181e-01],
+        [-6.4842e-03, -2.5834e-02, -4.7248e-02,  ...,  3.2429e-02,
+         -7.6542e-02,  1.9408e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  3.5157e-07,  ..., -1.6531e-07,
+          6.2352e-07,  4.0513e-08],
+        [ 0.0000e+00,  0.0000e+00, -8.9919e-07,  ..., -3.7253e-07,
+         -2.5630e-06,  2.0191e-06],
+        [ 4.6566e-10,  0.0000e+00, -1.5840e-05,  ...,  1.1269e-07,
+          5.1456e-07,  6.0536e-08],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  1.0394e-05,  ...,  1.4063e-07,
+         -9.9279e-07, -2.8200e-06],
+        [ 0.0000e+00,  0.0000e+00,  2.1122e-06,  ...,  1.0431e-07,
+          1.1493e-06,  6.1002e-08],
+        [ 4.6566e-10,  0.0000e+00,  5.1409e-07,  ...,  2.6450e-06,
+          5.6066e-07,  3.9712e-06]], device='cuda:0')
+Epoch 158, bias, value: tensor([-0.0234,  0.0131,  0.0258,  0.0032,  0.0249, -0.0082, -0.0071, -0.0162,
+        -0.0161,  0.0207], device='cuda:0'), grad: tensor([ 3.7942e-06, -1.2077e-05, -2.2292e-05, -1.5721e-05,  1.4035e-06,
+         1.9193e-05, -4.3735e-06,  1.3649e-05,  1.0513e-05,  5.9195e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 157, time 220.93, cls_loss 0.0026 cls_loss_mapping 0.0055 cls_loss_causal 0.5459 re_mapping 0.0066 re_causal 0.0198 /// teacc 98.82 lr 0.00010000
+Epoch 159, weight, value: tensor([[ 0.0110,  0.0110,  0.0107,  ...,  0.0606, -0.1254, -0.1213],
+        [ 0.0350, -0.0185, -0.0003,  ..., -0.1371,  0.0463, -0.0971],
+        [-0.0005, -0.0048,  0.1398,  ..., -0.1994, -0.0814, -0.1281],
+        ...,
+        [-0.0053,  0.0062, -0.1011,  ..., -0.0009,  0.1135,  0.0610],
+        [ 0.0061, -0.0202, -0.0830,  ..., -0.1771,  0.0694, -0.1333],
+        [-0.0065, -0.0258, -0.0471,  ...,  0.0325, -0.0778,  0.0195]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  6.5239e-07,  ..., -1.8813e-07,
+          7.8557e-07,  3.8277e-07],
+        [ 0.0000e+00,  0.0000e+00,  2.4706e-05,  ...,  8.0094e-08,
+          4.6581e-05,  1.1362e-05],
+        [ 0.0000e+00,  0.0000e+00, -1.2648e-04,  ...,  1.8626e-09,
+          2.9821e-06, -2.7180e-05],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  5.2154e-05,  ..., -9.0338e-08,
+         -2.3067e-05, -2.0981e-05],
+        [ 0.0000e+00,  0.0000e+00,  1.2405e-06,  ...,  2.5658e-07,
+         -5.1796e-05,  2.3004e-06],
+        [ 0.0000e+00,  0.0000e+00,  4.1604e-05,  ..., -7.1712e-08,
+          1.0356e-05,  2.8998e-05]], device='cuda:0')
+Epoch 159, bias, value: tensor([-0.0231,  0.0132,  0.0263,  0.0031,  0.0248, -0.0083, -0.0070, -0.0165,
+        -0.0169,  0.0210], device='cuda:0'), grad: tensor([ 3.4999e-06,  1.6212e-04, -2.3794e-04,  1.3672e-05,  6.0461e-06,
+         1.9878e-05,  7.8008e-06,  7.9691e-05, -1.4210e-04,  8.7142e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 158, time 220.80, cls_loss 0.0030 cls_loss_mapping 0.0056 cls_loss_causal 0.5348 re_mapping 0.0066 re_causal 0.0200 /// teacc 98.98 lr 0.00010000
+Epoch 160, weight, value: tensor([[ 0.0110,  0.0110,  0.0114,  ...,  0.0608, -0.1260, -0.1221],
+        [ 0.0350, -0.0185, -0.0015,  ..., -0.1368,  0.0444, -0.0972],
+        [-0.0005, -0.0048,  0.1405,  ..., -0.2006, -0.0816, -0.1284],
+        ...,
+        [-0.0053,  0.0062, -0.1007,  ..., -0.0007,  0.1167,  0.0632],
+        [ 0.0061, -0.0202, -0.0832,  ..., -0.1788,  0.0696, -0.1338],
+        [-0.0065, -0.0258, -0.0469,  ...,  0.0326, -0.0800,  0.0185]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -6.8359e-06,  ..., -1.8841e-06,
+          4.6729e-07,  4.3549e-06],
+        [ 0.0000e+00,  0.0000e+00,  3.7625e-07,  ...,  1.3672e-06,
+          2.2119e-07,  4.0010e-06],
+        [ 0.0000e+00,  0.0000e+00,  8.1817e-07,  ...,  2.1793e-06,
+          1.4193e-06,  5.5321e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.3947e-07,  ..., -4.9174e-07,
+         -6.3255e-06, -7.9721e-06],
+        [ 0.0000e+00,  0.0000e+00,  4.2329e-07,  ...,  3.2177e-07,
+          2.3376e-07,  5.2061e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.8906e-07,  ..., -6.0499e-06,
+          2.6468e-06, -1.5251e-05]], device='cuda:0')
+Epoch 160, bias, value: tensor([-0.0229,  0.0108,  0.0265,  0.0029,  0.0243, -0.0087, -0.0069, -0.0128,
+        -0.0170,  0.0198], device='cuda:0'), grad: tensor([-1.0416e-05,  6.4522e-06,  2.2396e-05, -1.3739e-05,  7.1153e-06,
+         3.6918e-06,  1.4625e-05, -1.6868e-05,  2.9728e-06, -1.6317e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 159, time 220.81, cls_loss 0.0023 cls_loss_mapping 0.0032 cls_loss_causal 0.5385 re_mapping 0.0069 re_causal 0.0209 /// teacc 98.93 lr 0.00010000
+Epoch 161, weight, value: tensor([[ 0.0109,  0.0110,  0.0116,  ...,  0.0607, -0.1266, -0.1235],
+        [ 0.0349, -0.0185, -0.0016,  ..., -0.1372,  0.0441, -0.0980],
+        [-0.0004, -0.0048,  0.1408,  ..., -0.2015, -0.0821, -0.1290],
+        ...,
+        [-0.0053,  0.0062, -0.1011,  ..., -0.0017,  0.1172,  0.0632],
+        [ 0.0059, -0.0202, -0.0833,  ..., -0.1795,  0.0698, -0.1340],
+        [-0.0065, -0.0258, -0.0471,  ...,  0.0326, -0.0799,  0.0184]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  2.6869e-07,  ...,  1.8962e-06,
+          1.2573e-07,  2.2147e-06],
+        [ 0.0000e+00,  0.0000e+00,  7.8185e-07,  ...,  2.0931e-07,
+          1.3271e-07,  3.4459e-07],
+        [ 2.3283e-10,  0.0000e+00, -3.7611e-05,  ...,  1.3714e-07,
+         -1.0245e-05,  2.1071e-07],
+        ...,
+        [ 2.3283e-10,  0.0000e+00,  3.4899e-05,  ...,  3.1050e-06,
+          9.7454e-06,  3.8818e-06],
+        [ 4.6566e-10,  0.0000e+00,  4.6776e-07,  ...,  1.0780e-07,
+         -5.1223e-07,  3.5297e-07],
+        [ 4.6566e-10,  0.0000e+00,  1.4622e-07,  ..., -9.0525e-06,
+         -1.0082e-07, -1.4603e-05]], device='cuda:0')
+Epoch 161, bias, value: tensor([-0.0231,  0.0107,  0.0261,  0.0029,  0.0247, -0.0084, -0.0069, -0.0127,
+        -0.0169,  0.0198], device='cuda:0'), grad: tensor([ 5.1446e-06,  1.9725e-06, -7.6294e-05,  1.2055e-05,  2.6226e-06,
+         9.3132e-09,  4.9919e-07,  7.9453e-05, -2.3493e-07, -2.5064e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 160, time 220.33, cls_loss 0.0019 cls_loss_mapping 0.0037 cls_loss_causal 0.5450 re_mapping 0.0066 re_causal 0.0205 /// teacc 98.97 lr 0.00010000
+Epoch 162, weight, value: tensor([[ 0.0109,  0.0110,  0.0115,  ...,  0.0606, -0.1271, -0.1241],
+        [ 0.0349, -0.0185, -0.0015,  ..., -0.1373,  0.0439, -0.0981],
+        [-0.0004, -0.0048,  0.1409,  ..., -0.2020, -0.0828, -0.1295],
+        ...,
+        [-0.0053,  0.0062, -0.1015,  ..., -0.0020,  0.1178,  0.0631],
+        [ 0.0059, -0.0202, -0.0833,  ..., -0.1802,  0.0699, -0.1343],
+        [-0.0065, -0.0258, -0.0472,  ...,  0.0327, -0.0799,  0.0187]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.9697e-07,  ...,  1.8813e-07,
+          1.6093e-06,  2.4959e-06],
+        [ 4.6566e-10,  0.0000e+00, -1.3215e-06,  ...,  1.2759e-07,
+         -1.2323e-05,  3.9302e-06],
+        [ 1.3970e-09,  0.0000e+00, -7.9721e-07,  ...,  8.3819e-08,
+          6.8620e-06,  1.7323e-06],
+        ...,
+        [ 1.8626e-09,  0.0000e+00,  1.5460e-06,  ...,  2.7986e-07,
+         -7.6517e-06, -1.5810e-05],
+        [ 4.6566e-10,  0.0000e+00, -3.1479e-06,  ...,  4.8848e-07,
+         -6.9402e-06,  4.8317e-06],
+        [ 4.6566e-10,  0.0000e+00,  3.0547e-07,  ..., -1.3672e-06,
+          1.2619e-06, -1.2748e-05]], device='cuda:0')
+Epoch 162, bias, value: tensor([-0.0233,  0.0106,  0.0256,  0.0026,  0.0246, -0.0081, -0.0069, -0.0125,
+        -0.0169,  0.0200], device='cuda:0'), grad: tensor([ 7.6257e-06, -4.1038e-05,  2.1815e-05,  2.6733e-05,  2.8849e-05,
+         1.3940e-05,  3.4794e-06, -2.9445e-05, -1.8820e-05, -1.3165e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 161, time 220.62, cls_loss 0.0023 cls_loss_mapping 0.0036 cls_loss_causal 0.5354 re_mapping 0.0062 re_causal 0.0192 /// teacc 98.85 lr 0.00010000
+Epoch 163, weight, value: tensor([[ 0.0108,  0.0110,  0.0107,  ...,  0.0608, -0.1289, -0.1259],
+        [ 0.0351, -0.0185, -0.0016,  ..., -0.1361,  0.0441, -0.0979],
+        [-0.0005, -0.0048,  0.1416,  ..., -0.2026, -0.0835, -0.1299],
+        ...,
+        [-0.0053,  0.0062, -0.1023,  ..., -0.0032,  0.1178,  0.0628],
+        [ 0.0059, -0.0202, -0.0832,  ..., -0.1813,  0.0708, -0.1347],
+        [-0.0065, -0.0258, -0.0459,  ...,  0.0324, -0.0804,  0.0186]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -5.0059e-07,  ..., -8.4983e-07,
+         -4.6566e-10,  1.9092e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.2398e-07,  ...,  6.0536e-08,
+         -1.4855e-07,  1.5413e-07],
+        [ 0.0000e+00,  0.0000e+00, -5.5367e-07,  ...,  9.5461e-08,
+          2.8871e-07,  1.0431e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.3109e-07,  ...,  2.0536e-07,
+         -4.4098e-07, -6.3283e-07],
+        [ 0.0000e+00,  0.0000e+00,  5.7742e-08,  ...,  3.8650e-08,
+         -6.1840e-07,  6.3796e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.8021e-07,  ...,  8.7591e-07,
+          1.4575e-07,  1.3262e-06]], device='cuda:0')
+Epoch 163, bias, value: tensor([-0.0241,  0.0107,  0.0255,  0.0029,  0.0251, -0.0086, -0.0064, -0.0128,
+        -0.0166,  0.0202], device='cuda:0'), grad: tensor([-1.0952e-06,  2.1420e-08,  4.6100e-08,  6.4494e-07, -1.1493e-06,
+         1.0775e-06,  5.9279e-07, -2.4121e-07, -1.5637e-06,  1.6578e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 162, time 220.60, cls_loss 0.0027 cls_loss_mapping 0.0054 cls_loss_causal 0.5472 re_mapping 0.0067 re_causal 0.0205 /// teacc 99.03 lr 0.00010000
+Epoch 164, weight, value: tensor([[ 0.0107,  0.0110,  0.0109,  ...,  0.0609, -0.1295, -0.1263],
+        [ 0.0352, -0.0185, -0.0016,  ..., -0.1363,  0.0445, -0.0979],
+        [-0.0006, -0.0048,  0.1419,  ..., -0.2033, -0.0839, -0.1303],
+        ...,
+        [-0.0053,  0.0062, -0.1029,  ..., -0.0018,  0.1168,  0.0626],
+        [ 0.0058, -0.0202, -0.0833,  ..., -0.1801,  0.0735, -0.1327],
+        [-0.0065, -0.0258, -0.0460,  ...,  0.0318, -0.0824,  0.0184]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.1222e-06,  ..., -1.1735e-06,
+          6.5053e-07,  5.7602e-07],
+        [ 0.0000e+00,  0.0000e+00,  6.7521e-08,  ...,  1.8440e-07,
+          8.6753e-07,  8.0653e-07],
+        [ 0.0000e+00,  0.0000e+00, -2.1420e-07,  ...,  7.4459e-07,
+          1.3839e-06,  1.6131e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.5553e-07,  ..., -8.8587e-06,
+         -7.0095e-05, -5.3197e-05],
+        [ 0.0000e+00,  0.0000e+00,  4.8354e-06,  ...,  2.0023e-07,
+          3.5996e-07,  5.9791e-07],
+        [ 0.0000e+00,  0.0000e+00,  7.8324e-07,  ...,  7.0222e-06,
+          5.4747e-05,  3.9458e-05]], device='cuda:0')
+Epoch 164, bias, value: tensor([-0.0242,  0.0111,  0.0253,  0.0027,  0.0262, -0.0092, -0.0074, -0.0133,
+        -0.0144,  0.0197], device='cuda:0'), grad: tensor([-3.9022e-07,  2.0284e-06,  3.3621e-06, -1.1370e-05,  1.4260e-05,
+         6.4261e-06,  1.8552e-06, -1.4269e-04,  1.3843e-05,  1.1283e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 163, time 220.68, cls_loss 0.0031 cls_loss_mapping 0.0039 cls_loss_causal 0.5062 re_mapping 0.0063 re_causal 0.0192 /// teacc 99.00 lr 0.00010000
+Epoch 165, weight, value: tensor([[ 0.0104,  0.0110,  0.0090,  ...,  0.0591, -0.1304, -0.1286],
+        [ 0.0350, -0.0185, -0.0016,  ..., -0.1367,  0.0447, -0.0981],
+        [-0.0011, -0.0048,  0.1423,  ..., -0.2039, -0.0840, -0.1303],
+        ...,
+        [-0.0081,  0.0062, -0.1037,  ..., -0.0014,  0.1168,  0.0624],
+        [ 0.0050, -0.0202, -0.0836,  ..., -0.1809,  0.0725, -0.1334],
+        [-0.0066, -0.0258, -0.0441,  ...,  0.0334, -0.0839,  0.0180]],
+       device='cuda:0'), grad: tensor([[ 3.5018e-07,  0.0000e+00, -3.6396e-06,  ..., -6.3144e-06,
+          6.1188e-07,  6.5612e-07],
+        [-1.2957e-05,  0.0000e+00,  4.1490e-07,  ...,  3.2969e-07,
+         -1.8254e-05,  2.6636e-07],
+        [ 3.2187e-06,  0.0000e+00, -2.6841e-06,  ...,  1.4435e-07,
+          4.2468e-06,  6.6729e-07],
+        ...,
+        [ 5.6699e-06,  0.0000e+00,  1.9334e-06,  ...,  1.3992e-05,
+          1.4901e-05,  3.6955e-05],
+        [ 7.9069e-07,  0.0000e+00,  2.1514e-07,  ...,  7.2923e-07,
+          1.4100e-06,  2.7753e-06],
+        [ 3.3248e-07,  0.0000e+00,  5.0571e-07,  ..., -1.6345e-06,
+         -9.2387e-06,  4.3690e-05]], device='cuda:0')
+Epoch 165, bias, value: tensor([-0.0260,  0.0113,  0.0252,  0.0050,  0.0260, -0.0093, -0.0055, -0.0143,
+        -0.0160,  0.0201], device='cuda:0'), grad: tensor([-1.8463e-05, -7.6234e-05,  1.4775e-05, -1.9920e-04,  2.3365e-05,
+         1.1057e-05,  1.6198e-05,  7.9751e-05,  1.5497e-05,  1.3292e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 164, time 220.62, cls_loss 0.0025 cls_loss_mapping 0.0042 cls_loss_causal 0.5309 re_mapping 0.0068 re_causal 0.0185 /// teacc 98.97 lr 0.00010000
+Epoch 166, weight, value: tensor([[ 0.0102,  0.0110,  0.0089,  ...,  0.0589, -0.1315, -0.1294],
+        [ 0.0358, -0.0185, -0.0016,  ..., -0.1378,  0.0456, -0.0958],
+        [-0.0014, -0.0048,  0.1427,  ..., -0.2048, -0.0843, -0.1306],
+        ...,
+        [-0.0082,  0.0062, -0.1042,  ..., -0.0019,  0.1162,  0.0616],
+        [ 0.0048, -0.0202, -0.0839,  ..., -0.1796,  0.0737, -0.1311],
+        [-0.0067, -0.0258, -0.0437,  ...,  0.0334, -0.0867,  0.0173]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -7.2876e-07,  ..., -2.2352e-07,
+          1.5181e-07,  1.7229e-08],
+        [-1.2573e-08,  0.0000e+00,  5.6811e-08,  ...,  1.4948e-07,
+         -1.0729e-05,  2.0443e-07],
+        [ 1.8626e-09,  0.0000e+00,  6.4122e-07,  ...,  3.5670e-07,
+          8.6706e-07,  7.5437e-07],
+        ...,
+        [ 4.1910e-09,  0.0000e+00,  1.7975e-07,  ..., -3.4273e-07,
+          8.6129e-06, -1.1493e-06],
+        [ 1.8626e-09,  0.0000e+00,  4.2189e-07,  ...,  1.2061e-07,
+         -1.3039e-08,  1.3644e-07],
+        [ 5.5879e-09,  0.0000e+00,  1.9418e-07,  ...,  4.6054e-07,
+          4.0838e-07,  3.6508e-07]], device='cuda:0')
+Epoch 166, bias, value: tensor([-0.0264,  0.0124,  0.0251,  0.0052,  0.0258, -0.0092, -0.0046, -0.0151,
+        -0.0150,  0.0191], device='cuda:0'), grad: tensor([ 1.0561e-06, -1.9908e-05,  3.7886e-06, -3.1516e-06,  1.7053e-06,
+         8.8476e-08, -3.7085e-06,  1.6034e-05,  2.4773e-06,  1.6242e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 165, time 220.44, cls_loss 0.0028 cls_loss_mapping 0.0047 cls_loss_causal 0.5321 re_mapping 0.0064 re_causal 0.0195 /// teacc 98.98 lr 0.00010000
+Epoch 167, weight, value: tensor([[ 0.0094,  0.0110,  0.0099,  ...,  0.0592, -0.1330, -0.1295],
+        [ 0.0366, -0.0185, -0.0031,  ..., -0.1380,  0.0443, -0.0955],
+        [-0.0019, -0.0048,  0.1443,  ..., -0.2063, -0.0823, -0.1311],
+        ...,
+        [-0.0085,  0.0062, -0.1046,  ..., -0.0019,  0.1162,  0.0612],
+        [ 0.0042, -0.0202, -0.0841,  ..., -0.1803,  0.0737, -0.1314],
+        [-0.0059, -0.0258, -0.0437,  ...,  0.0334, -0.0869,  0.0176]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.9446e-06,  ..., -5.1782e-06,
+          4.9826e-08,  2.9802e-08],
+        [ 0.0000e+00,  0.0000e+00,  6.0722e-07,  ...,  8.8010e-08,
+         -4.9081e-07,  5.2387e-07],
+        [ 0.0000e+00,  0.0000e+00, -7.0184e-06,  ...,  4.4145e-07,
+          4.4564e-07,  1.8580e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  6.4168e-07,  ...,  1.6484e-07,
+         -9.5135e-07, -1.4016e-06],
+        [ 0.0000e+00,  0.0000e+00,  5.4277e-06,  ...,  5.2573e-07,
+          2.9244e-07,  1.5851e-06],
+        [ 0.0000e+00,  0.0000e+00,  4.0643e-06,  ...,  3.1870e-06,
+          3.1851e-07, -1.3793e-06]], device='cuda:0')
+Epoch 167, bias, value: tensor([-0.0259,  0.0120,  0.0260,  0.0050,  0.0256, -0.0086, -0.0049, -0.0155,
+        -0.0153,  0.0192], device='cuda:0'), grad: tensor([ 6.3628e-06, -1.0207e-06, -9.2015e-06,  9.2238e-06,  6.2492e-07,
+        -3.0026e-05,  3.9861e-06, -8.9733e-07,  1.2837e-05,  8.0764e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 166, time 220.49, cls_loss 0.0024 cls_loss_mapping 0.0050 cls_loss_causal 0.5330 re_mapping 0.0065 re_causal 0.0192 /// teacc 98.93 lr 0.00010000
+Epoch 168, weight, value: tensor([[ 0.0094,  0.0110,  0.0117,  ...,  0.0603, -0.1333, -0.1296],
+        [ 0.0365, -0.0185, -0.0032,  ..., -0.1388,  0.0443, -0.0954],
+        [-0.0018, -0.0048,  0.1446,  ..., -0.2077, -0.0821, -0.1314],
+        ...,
+        [-0.0085,  0.0062, -0.1050,  ..., -0.0024,  0.1163,  0.0609],
+        [ 0.0041, -0.0202, -0.0845,  ..., -0.1811,  0.0736, -0.1317],
+        [-0.0059, -0.0258, -0.0449,  ...,  0.0322, -0.0870,  0.0172]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -5.9716e-06,  ..., -8.7321e-06,
+          2.8182e-06,  4.7032e-07],
+        [ 0.0000e+00,  0.0000e+00, -1.3085e-07,  ...,  1.0803e-07,
+          1.6345e-07,  4.6985e-07],
+        [ 0.0000e+00,  0.0000e+00,  9.8255e-08,  ...,  2.9150e-07,
+          7.1060e-07,  1.3206e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.1548e-07,  ...,  1.7742e-07,
+         -1.7434e-06, -2.4773e-06],
+        [ 0.0000e+00,  0.0000e+00,  9.8720e-08,  ..., -4.4797e-07,
+          1.4886e-05, -3.0883e-06],
+        [ 0.0000e+00,  0.0000e+00,  2.3842e-07,  ...,  1.9092e-07,
+          1.4845e-06,  1.7565e-06]], device='cuda:0')
+Epoch 168, bias, value: tensor([-0.0248,  0.0120,  0.0260,  0.0052,  0.0284, -0.0076, -0.0078, -0.0157,
+        -0.0158,  0.0183], device='cuda:0'), grad: tensor([-1.4082e-05,  7.9628e-07,  4.3064e-06,  2.7176e-06,  1.3737e-06,
+         2.2173e-05, -5.7280e-05, -3.2075e-06,  3.8952e-05,  4.2915e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 167, time 220.70, cls_loss 0.0021 cls_loss_mapping 0.0031 cls_loss_causal 0.5050 re_mapping 0.0065 re_causal 0.0183 /// teacc 98.97 lr 0.00010000
+Epoch 169, weight, value: tensor([[ 0.0094,  0.0110,  0.0111,  ...,  0.0602, -0.1348, -0.1298],
+        [ 0.0367, -0.0185, -0.0032,  ..., -0.1395,  0.0447, -0.0956],
+        [-0.0019, -0.0048,  0.1447,  ..., -0.2088, -0.0824, -0.1317],
+        ...,
+        [-0.0085,  0.0062, -0.1057,  ..., -0.0028,  0.1166,  0.0609],
+        [ 0.0040, -0.0202, -0.0847,  ..., -0.1818,  0.0732, -0.1320],
+        [-0.0059, -0.0258, -0.0450,  ...,  0.0317, -0.0874,  0.0170]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.3568e-05,  ..., -9.1270e-08,
+          3.6741e-07,  3.4319e-07],
+        [ 0.0000e+00,  0.0000e+00,  6.5900e-06,  ...,  1.5348e-06,
+          1.4799e-06,  3.2242e-06],
+        [ 0.0000e+00,  0.0000e+00, -9.4712e-05,  ...,  1.1222e-07,
+         -5.5581e-06, -8.5542e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  6.2048e-05,  ...,  4.8839e-06,
+          3.5539e-06,  9.2834e-06],
+        [ 0.0000e+00,  0.0000e+00,  6.9998e-06,  ...,  1.1502e-07,
+          1.4454e-06,  2.7753e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.6950e-06,  ...,  6.6087e-06,
+          2.5947e-06,  1.2934e-05]], device='cuda:0')
+Epoch 169, bias, value: tensor([-0.0255,  0.0125,  0.0259,  0.0052,  0.0290, -0.0079, -0.0070, -0.0156,
+        -0.0167,  0.0179], device='cuda:0'), grad: tensor([ 2.2069e-05,  1.4782e-05, -1.4436e-04, -1.3784e-06, -2.3559e-05,
+         3.2801e-06, -1.0945e-05,  1.0538e-04,  1.4648e-05,  2.0146e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 168, time 220.80, cls_loss 0.0021 cls_loss_mapping 0.0036 cls_loss_causal 0.5408 re_mapping 0.0065 re_causal 0.0197 /// teacc 98.96 lr 0.00010000
+Epoch 170, weight, value: tensor([[ 0.0094,  0.0110,  0.0114,  ...,  0.0604, -0.1363, -0.1300],
+        [ 0.0367, -0.0185, -0.0032,  ..., -0.1399,  0.0449, -0.0957],
+        [-0.0019, -0.0048,  0.1449,  ..., -0.2098, -0.0827, -0.1313],
+        ...,
+        [-0.0085,  0.0062, -0.1065,  ..., -0.0019,  0.1169,  0.0612],
+        [ 0.0040, -0.0202, -0.0849,  ..., -0.1823,  0.0733, -0.1322],
+        [-0.0059, -0.0258, -0.0452,  ...,  0.0316, -0.0879,  0.0170]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  9.2201e-08,  ...,  1.1083e-07,
+          4.9826e-08,  2.7986e-07],
+        [ 3.3062e-08,  0.0000e+00,  1.5087e-07,  ...,  1.4249e-07,
+         -3.5437e-07,  9.7603e-07],
+        [-4.6566e-09,  0.0000e+00,  1.5832e-07,  ...,  6.1467e-08,
+          2.8685e-06,  2.1271e-06],
+        ...,
+        [-9.4529e-08,  0.0000e+00,  3.6042e-07,  ...,  2.6869e-07,
+         -4.5672e-06, -3.4515e-06],
+        [ 1.4435e-08,  0.0000e+00,  1.8859e-07,  ...,  1.8440e-06,
+         -3.3993e-08,  4.8466e-06],
+        [ 1.8161e-08,  0.0000e+00,  4.6659e-07,  ..., -9.3043e-05,
+          8.2608e-07, -2.1076e-04]], device='cuda:0')
+Epoch 170, bias, value: tensor([-0.0254,  0.0126,  0.0258,  0.0052,  0.0287, -0.0083, -0.0065, -0.0155,
+        -0.0167,  0.0178], device='cuda:0'), grad: tensor([ 7.1339e-07,  6.1514e-07,  1.0900e-05, -2.7437e-06,  2.5296e-04,
+         8.8066e-06,  1.0971e-06, -1.1459e-05,  5.9344e-06, -2.6679e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 169, time 220.62, cls_loss 0.0027 cls_loss_mapping 0.0052 cls_loss_causal 0.5419 re_mapping 0.0062 re_causal 0.0192 /// teacc 98.97 lr 0.00010000
+Epoch 171, weight, value: tensor([[ 0.0093,  0.0110,  0.0117,  ...,  0.0602, -0.1395, -0.1302],
+        [ 0.0384, -0.0185, -0.0034,  ..., -0.1413,  0.0456, -0.0943],
+        [-0.0027, -0.0048,  0.1453,  ..., -0.2107, -0.0830, -0.1316],
+        ...,
+        [-0.0086,  0.0062, -0.1068,  ..., -0.0020,  0.1168,  0.0609],
+        [ 0.0039, -0.0202, -0.0851,  ..., -0.1834,  0.0737, -0.1327],
+        [-0.0059, -0.0258, -0.0455,  ...,  0.0311, -0.0884,  0.0165]],
+       device='cuda:0'), grad: tensor([[ 2.0349e-07,  0.0000e+00,  1.0105e-07,  ...,  7.7765e-08,
+          1.0421e-06,  8.9966e-07],
+        [-1.0508e-04,  0.0000e+00, -5.2512e-05,  ...,  4.0978e-08,
+         -2.0409e-04,  2.4419e-06],
+        [ 8.8811e-05,  0.0000e+00,  4.4286e-05,  ...,  3.0035e-07,
+          1.7941e-04,  3.3751e-06],
+        ...,
+        [ 1.0319e-05,  0.0000e+00,  5.6885e-06,  ..., -8.7498e-07,
+          4.5486e-06, -2.3469e-05],
+        [ 7.8697e-07,  0.0000e+00,  3.4506e-07,  ...,  1.4622e-07,
+         -2.5611e-07,  3.2336e-06],
+        [ 3.4086e-07,  0.0000e+00,  6.5193e-08,  ..., -1.0198e-07,
+          3.6508e-06,  3.1479e-06]], device='cuda:0')
+Epoch 171, bias, value: tensor([-0.0257,  0.0133,  0.0258,  0.0051,  0.0291, -0.0089, -0.0062, -0.0159,
+        -0.0164,  0.0173], device='cuda:0'), grad: tensor([ 3.3807e-06, -4.2820e-04,  3.8958e-04,  1.2554e-05,  7.8157e-06,
+         5.0813e-06,  3.1497e-06, -1.1899e-05, -4.5523e-06,  2.3529e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 170----------------------------------------------------
+epoch 170, time 221.15, cls_loss 0.0017 cls_loss_mapping 0.0031 cls_loss_causal 0.5458 re_mapping 0.0064 re_causal 0.0200 /// teacc 99.05 lr 0.00010000
+Epoch 172, weight, value: tensor([[ 0.0092,  0.0110,  0.0122,  ...,  0.0604, -0.1402, -0.1304],
+        [ 0.0415, -0.0185, -0.0034,  ..., -0.1420,  0.0457, -0.0942],
+        [-0.0050, -0.0048,  0.1454,  ..., -0.2119, -0.0834, -0.1320],
+        ...,
+        [-0.0085,  0.0062, -0.1070,  ..., -0.0015,  0.1175,  0.0611],
+        [ 0.0037, -0.0202, -0.0852,  ..., -0.1841,  0.0736, -0.1330],
+        [-0.0059, -0.0258, -0.0457,  ...,  0.0311, -0.0888,  0.0166]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  3.4925e-07,  ...,  5.2620e-08,
+          3.2596e-07,  8.9407e-08],
+        [ 0.0000e+00,  0.0000e+00, -2.0236e-05,  ...,  3.4459e-08,
+         -2.9907e-05,  1.2061e-07],
+        [ 0.0000e+00,  0.0000e+00,  2.1905e-05,  ...,  3.3993e-08,
+          2.6107e-05,  6.1933e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  6.6534e-06,  ...,  3.7765e-07,
+          1.4585e-06,  3.6554e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.2927e-05,  ...,  4.2841e-08,
+          5.5786e-07,  1.0803e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.0040e-06,  ..., -4.2375e-07,
+          1.2051e-06, -1.0105e-06]], device='cuda:0')
+Epoch 172, bias, value: tensor([-0.0256,  0.0133,  0.0256,  0.0051,  0.0288, -0.0089, -0.0061, -0.0155,
+        -0.0166,  0.0173], device='cuda:0'), grad: tensor([ 2.4941e-06, -1.1671e-04,  1.2231e-04, -1.1224e-04,  3.1926e-06,
+         1.1794e-05, -3.2280e-06,  3.0756e-05,  5.7071e-05,  4.6492e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 171, time 220.70, cls_loss 0.0018 cls_loss_mapping 0.0043 cls_loss_causal 0.5283 re_mapping 0.0062 re_causal 0.0191 /// teacc 98.97 lr 0.00010000
+Epoch 173, weight, value: tensor([[ 0.0091,  0.0110,  0.0127,  ...,  0.0607, -0.1406, -0.1305],
+        [ 0.0416, -0.0185, -0.0034,  ..., -0.1431,  0.0458, -0.0943],
+        [-0.0051, -0.0048,  0.1455,  ..., -0.2133, -0.0836, -0.1324],
+        ...,
+        [-0.0086,  0.0062, -0.1074,  ..., -0.0016,  0.1176,  0.0610],
+        [ 0.0036, -0.0202, -0.0857,  ..., -0.1853,  0.0747, -0.1334],
+        [-0.0059, -0.0258, -0.0458,  ...,  0.0310, -0.0888,  0.0167]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.9092e-08,  ..., -7.7300e-08,
+          3.4273e-07,  6.8918e-08],
+        [ 1.3970e-09,  0.0000e+00, -7.1246e-07,  ...,  1.1642e-07,
+         -8.4788e-06,  1.9418e-07],
+        [-3.2596e-09,  0.0000e+00, -3.6927e-07,  ...,  7.8697e-08,
+          7.1898e-07,  1.0338e-07],
+        ...,
+        [ 2.7940e-09,  0.0000e+00,  4.5123e-07,  ...,  8.3912e-07,
+          1.7416e-06,  1.6503e-06],
+        [ 1.8626e-09,  0.0000e+00,  1.3178e-07,  ...,  1.5879e-07,
+          4.5495e-07,  2.9802e-07],
+        [ 6.0536e-09,  0.0000e+00,  1.1921e-07,  ..., -1.7677e-06,
+          1.1623e-06, -5.0776e-06]], device='cuda:0')
+Epoch 173, bias, value: tensor([-0.0255,  0.0134,  0.0254,  0.0051,  0.0290, -0.0093, -0.0070, -0.0155,
+        -0.0158,  0.0174], device='cuda:0'), grad: tensor([ 2.6338e-06, -6.6638e-05,  5.3123e-06,  1.9208e-05,  7.1749e-06,
+         4.7684e-06,  3.0473e-06,  1.6481e-05,  4.0978e-06,  3.8780e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 172, time 220.77, cls_loss 0.0021 cls_loss_mapping 0.0045 cls_loss_causal 0.5210 re_mapping 0.0064 re_causal 0.0189 /// teacc 98.96 lr 0.00010000
+Epoch 174, weight, value: tensor([[ 0.0091,  0.0110,  0.0130,  ...,  0.0607, -0.1410, -0.1317],
+        [ 0.0426, -0.0185, -0.0034,  ..., -0.1461,  0.0460, -0.0948],
+        [-0.0059, -0.0048,  0.1459,  ..., -0.2150, -0.0838, -0.1326],
+        ...,
+        [-0.0086,  0.0062, -0.1090,  ..., -0.0021,  0.1178,  0.0610],
+        [ 0.0034, -0.0202, -0.0865,  ..., -0.1862,  0.0749, -0.1337],
+        [-0.0059, -0.0258, -0.0460,  ...,  0.0313, -0.0888,  0.0171]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  0.0000e+00, -2.7940e-08,  ...,  8.1770e-07,
+          5.4250e-07,  1.7928e-06],
+        [-3.0268e-08,  0.0000e+00, -2.2864e-07,  ...,  4.8522e-07,
+         -7.0920e-07,  1.0701e-06],
+        [ 1.3504e-08,  0.0000e+00, -2.1420e-07,  ...,  4.1118e-07,
+          7.4273e-07,  8.6334e-07],
+        ...,
+        [ 5.5879e-09,  0.0000e+00,  8.8010e-08,  ...,  2.2873e-06,
+          1.0943e-07,  2.5816e-06],
+        [ 1.8626e-09,  0.0000e+00,  6.5658e-08,  ...,  3.5346e-05,
+          9.0078e-06,  5.6118e-05],
+        [ 4.6566e-10,  0.0000e+00,  2.7940e-08,  ..., -1.0777e-04,
+         -2.7895e-05, -1.7095e-04]], device='cuda:0')
+Epoch 174, bias, value: tensor([-0.0257,  0.0135,  0.0256,  0.0051,  0.0290, -0.0088, -0.0076, -0.0156,
+        -0.0160,  0.0177], device='cuda:0'), grad: tensor([ 4.6045e-06, -1.1232e-06,  2.8815e-06,  1.7192e-06,  2.2280e-04,
+         7.4245e-06,  1.3169e-06,  6.8285e-06,  1.1909e-04, -3.6526e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 173, time 220.85, cls_loss 0.0024 cls_loss_mapping 0.0053 cls_loss_causal 0.5519 re_mapping 0.0064 re_causal 0.0192 /// teacc 99.04 lr 0.00010000
+Epoch 175, weight, value: tensor([[ 0.0090,  0.0110,  0.0129,  ...,  0.0609, -0.1420, -0.1319],
+        [ 0.0423, -0.0185, -0.0036,  ..., -0.1472,  0.0461, -0.0942],
+        [-0.0051, -0.0048,  0.1466,  ..., -0.2160, -0.0840, -0.1334],
+        ...,
+        [-0.0086,  0.0062, -0.1099,  ..., -0.0023,  0.1186,  0.0607],
+        [ 0.0032, -0.0202, -0.0874,  ..., -0.1868,  0.0754, -0.1338],
+        [-0.0059, -0.0258, -0.0461,  ...,  0.0314, -0.0899,  0.0175]],
+       device='cuda:0'), grad: tensor([[ 4.9360e-08,  0.0000e+00,  6.8452e-08,  ...,  1.5553e-07,
+          1.5227e-07,  3.4412e-07],
+        [ 1.1586e-06,  0.0000e+00,  3.6806e-06,  ...,  1.2107e-06,
+          8.1398e-07,  1.2564e-06],
+        [-3.8669e-06,  0.0000e+00, -2.1949e-05,  ...,  2.5425e-07,
+         -2.1253e-06,  2.3097e-07],
+        ...,
+        [ 1.1101e-06,  0.0000e+00,  1.1988e-05,  ...,  5.8450e-06,
+          1.1055e-06,  5.8226e-06],
+        [ 5.4482e-07,  0.0000e+00,  2.0117e-06,  ...,  4.1649e-06,
+          8.3400e-07,  3.6638e-06],
+        [ 2.0489e-08,  0.0000e+00,  2.2771e-07,  ..., -1.7136e-05,
+         -1.9874e-06, -1.6913e-05]], device='cuda:0')
+Epoch 175, bias, value: tensor([-0.0259,  0.0135,  0.0257,  0.0045,  0.0287, -0.0081, -0.0077, -0.0155,
+        -0.0159,  0.0176], device='cuda:0'), grad: tensor([ 1.5805e-06,  8.7172e-06, -3.5346e-05, -5.3310e-04,  1.9511e-07,
+         5.4836e-04,  3.2783e-06,  3.3379e-05,  1.7196e-05, -4.4137e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 174, time 220.72, cls_loss 0.0027 cls_loss_mapping 0.0055 cls_loss_causal 0.5582 re_mapping 0.0063 re_causal 0.0186 /// teacc 99.02 lr 0.00010000
+Epoch 176, weight, value: tensor([[ 0.0088,  0.0110,  0.0132,  ...,  0.0605, -0.1457, -0.1321],
+        [ 0.0434, -0.0185, -0.0038,  ..., -0.1502,  0.0460, -0.0946],
+        [-0.0054, -0.0048,  0.1475,  ..., -0.2180, -0.0840, -0.1338],
+        ...,
+        [-0.0088,  0.0062, -0.1116,  ..., -0.0025,  0.1191,  0.0609],
+        [ 0.0031, -0.0202, -0.0876,  ..., -0.1879,  0.0754, -0.1341],
+        [-0.0061, -0.0258, -0.0463,  ...,  0.0338, -0.0877,  0.0198]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09,  0.0000e+00, -5.3383e-06,  ..., -9.0897e-06,
+         -2.4913e-07,  9.2667e-08],
+        [ 1.2573e-07,  0.0000e+00,  4.1686e-06,  ...,  6.6822e-07,
+          1.6261e-06,  8.6287e-07],
+        [-1.9791e-07,  0.0000e+00, -6.2808e-06,  ...,  1.1306e-06,
+         -6.0443e-07,  1.1325e-06],
+        ...,
+        [ 4.3120e-07,  0.0000e+00,  2.1588e-06,  ..., -1.3553e-05,
+         -2.2963e-05, -2.4229e-05],
+        [ 5.3970e-07,  0.0000e+00,  1.9521e-06,  ...,  3.1106e-06,
+          1.9409e-06,  3.3472e-06],
+        [-1.0300e-06,  0.0000e+00,  6.0163e-07,  ..., -3.2410e-07,
+         -7.7393e-07, -6.9737e-06]], device='cuda:0')
+Epoch 176, bias, value: tensor([-0.0270,  0.0133,  0.0261,  0.0041,  0.0263, -0.0099, -0.0047, -0.0154,
+        -0.0161,  0.0197], device='cuda:0'), grad: tensor([-1.9133e-05,  8.5011e-06, -6.3814e-06,  4.9233e-05,  8.0988e-06,
+        -1.2636e-05,  6.9551e-06, -4.8846e-05,  2.0504e-05, -6.1952e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 175, time 220.97, cls_loss 0.0024 cls_loss_mapping 0.0042 cls_loss_causal 0.5241 re_mapping 0.0067 re_causal 0.0191 /// teacc 98.98 lr 0.00010000
+Epoch 177, weight, value: tensor([[ 0.0086,  0.0110,  0.0134,  ...,  0.0603, -0.1462, -0.1323],
+        [ 0.0446, -0.0185, -0.0038,  ..., -0.1505,  0.0468, -0.0947],
+        [-0.0054, -0.0048,  0.1478,  ..., -0.2195, -0.0844, -0.1339],
+        ...,
+        [-0.0090,  0.0062, -0.1125,  ..., -0.0029,  0.1187,  0.0609],
+        [ 0.0029, -0.0202, -0.0871,  ..., -0.1872,  0.0757, -0.1344],
+        [-0.0061, -0.0258, -0.0460,  ...,  0.0348, -0.0878,  0.0206]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.2726e-05,  ..., -1.4573e-05,
+         -4.5858e-06,  9.3132e-09],
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-08,  ...,  9.0804e-08,
+         -3.1618e-07,  3.4925e-08],
+        [-4.6566e-10,  0.0000e+00, -1.5132e-05,  ...,  4.0047e-08,
+         -4.7050e-06,  5.1223e-09],
+        ...,
+        [-4.6566e-10,  0.0000e+00,  1.1045e-06,  ...,  3.1386e-07,
+          4.2422e-07,  4.0513e-07],
+        [ 4.6566e-10,  0.0000e+00,  1.4141e-05,  ...,  4.0932e-07,
+          6.0424e-06,  1.7881e-07],
+        [ 9.3132e-10,  0.0000e+00,  1.8859e-07,  ..., -1.7248e-06,
+          1.2759e-07, -5.1484e-06]], device='cuda:0')
+Epoch 177, bias, value: tensor([-0.0275,  0.0136,  0.0261,  0.0038,  0.0255, -0.0097, -0.0052, -0.0158,
+        -0.0152,  0.0205], device='cuda:0'), grad: tensor([-6.7651e-05, -4.2375e-08, -2.1964e-05,  3.3349e-05,  9.7901e-06,
+        -4.5717e-05,  5.7340e-05,  3.4124e-06,  3.4869e-05, -3.5278e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 176, time 220.81, cls_loss 0.0021 cls_loss_mapping 0.0046 cls_loss_causal 0.5389 re_mapping 0.0066 re_causal 0.0191 /// teacc 98.98 lr 0.00010000
+Epoch 178, weight, value: tensor([[ 0.0086,  0.0110,  0.0148,  ...,  0.0610, -0.1466, -0.1328],
+        [ 0.0452, -0.0185, -0.0039,  ..., -0.1519,  0.0469, -0.0947],
+        [-0.0059, -0.0048,  0.1483,  ..., -0.2203, -0.0844, -0.1337],
+        ...,
+        [-0.0091,  0.0062, -0.1135,  ..., -0.0038,  0.1188,  0.0609],
+        [ 0.0028, -0.0202, -0.0881,  ..., -0.1879,  0.0760, -0.1346],
+        [-0.0062, -0.0258, -0.0466,  ...,  0.0345, -0.0880,  0.0205]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.0338e-07,  ..., -5.5181e-07,
+          1.0803e-07,  5.3411e-07],
+        [ 0.0000e+00,  0.0000e+00,  9.1735e-07,  ...,  2.1886e-08,
+         -3.9442e-07,  3.4589e-06],
+        [ 0.0000e+00,  0.0000e+00, -1.7211e-06,  ...,  3.5856e-08,
+          1.2778e-06,  6.9067e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.6345e-06,  ...,  9.9186e-08,
+          1.7583e-06,  2.8387e-05],
+        [ 0.0000e+00,  0.0000e+00,  2.1681e-06,  ...,  1.8021e-07,
+          8.6101e-07,  6.2510e-06],
+        [ 0.0000e+00,  0.0000e+00,  9.9093e-07,  ..., -7.4040e-08,
+         -4.3958e-06, -4.9889e-05]], device='cuda:0')
+Epoch 178, bias, value: tensor([-0.0270,  0.0137,  0.0262,  0.0040,  0.0256, -0.0098, -0.0053, -0.0160,
+        -0.0154,  0.0202], device='cuda:0'), grad: tensor([ 7.9116e-07,  6.3255e-06,  1.5229e-05, -9.3281e-06,  3.2857e-06,
+         2.3209e-06,  8.7265e-07,  6.0827e-05,  1.7568e-05, -9.7871e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 177, time 220.49, cls_loss 0.0019 cls_loss_mapping 0.0034 cls_loss_causal 0.5303 re_mapping 0.0062 re_causal 0.0189 /// teacc 98.98 lr 0.00010000
+Epoch 179, weight, value: tensor([[ 0.0086,  0.0110,  0.0134,  ...,  0.0597, -0.1468, -0.1330],
+        [ 0.0452, -0.0185, -0.0038,  ..., -0.1526,  0.0468, -0.0950],
+        [-0.0059, -0.0048,  0.1488,  ..., -0.2210, -0.0845, -0.1331],
+        ...,
+        [-0.0091,  0.0062, -0.1159,  ..., -0.0046,  0.1191,  0.0608],
+        [ 0.0028, -0.0202, -0.0887,  ..., -0.1886,  0.0760, -0.1349],
+        [-0.0062, -0.0258, -0.0454,  ...,  0.0352, -0.0880,  0.0205]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -5.6252e-06,  ..., -7.8455e-06,
+          1.6065e-07,  2.7940e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.2689e-07,  ...,  2.5658e-07,
+         -8.9407e-08,  6.7055e-07],
+        [ 0.0000e+00,  0.0000e+00, -1.6317e-06,  ...,  2.6450e-07,
+          2.7521e-07,  1.8626e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.4005e-07,  ...,  1.1288e-06,
+         -5.0431e-07,  2.0657e-06],
+        [ 0.0000e+00,  0.0000e+00,  6.7754e-07,  ...,  3.4040e-07,
+          2.4680e-07,  2.0536e-07],
+        [ 0.0000e+00,  0.0000e+00,  4.5076e-06,  ...,  3.9488e-06,
+         -2.7753e-07, -6.6198e-06]], device='cuda:0')
+Epoch 179, bias, value: tensor([-0.0286,  0.0138,  0.0265,  0.0041,  0.0258, -0.0097, -0.0053, -0.0162,
+        -0.0157,  0.0208], device='cuda:0'), grad: tensor([-1.4059e-05,  7.9395e-07, -1.1623e-06,  2.1178e-06,  3.5278e-06,
+         1.2740e-06, -2.2687e-06,  2.3358e-06,  2.6952e-06,  4.7348e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 178, time 220.68, cls_loss 0.0021 cls_loss_mapping 0.0036 cls_loss_causal 0.5515 re_mapping 0.0059 re_causal 0.0187 /// teacc 98.83 lr 0.00010000
+Epoch 180, weight, value: tensor([[ 0.0086,  0.0110,  0.0144,  ...,  0.0602, -0.1470, -0.1331],
+        [ 0.0452, -0.0185, -0.0040,  ..., -0.1539,  0.0473, -0.0950],
+        [-0.0060, -0.0048,  0.1500,  ..., -0.2224, -0.0849, -0.1339],
+        ...,
+        [-0.0092,  0.0062, -0.1168,  ..., -0.0045,  0.1191,  0.0613],
+        [ 0.0027, -0.0202, -0.0889,  ..., -0.1895,  0.0763, -0.1347],
+        [-0.0063, -0.0258, -0.0462,  ...,  0.0345, -0.0886,  0.0202]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00, -1.9651e-07,  ...,  1.3551e-07,
+          6.4261e-08,  8.3819e-07],
+        [ 9.7789e-09,  0.0000e+00,  3.6675e-06,  ...,  8.7842e-06,
+         -6.5519e-07,  1.0140e-05],
+        [ 1.2852e-07,  0.0000e+00,  2.2911e-06,  ...,  4.9882e-06,
+          1.1465e-06,  6.7316e-06],
+        ...,
+        [-1.9930e-07,  0.0000e+00,  1.3877e-07,  ...,  5.2061e-07,
+         -7.7952e-07, -3.4459e-08],
+        [ 1.6298e-08,  0.0000e+00,  1.5600e-07,  ...,  3.5763e-07,
+         -1.5208e-06,  9.1689e-07],
+        [ 4.1910e-09,  0.0000e+00,  2.7660e-06,  ...,  5.2117e-06,
+          1.7229e-07,  5.0105e-06]], device='cuda:0')
+Epoch 180, bias, value: tensor([-0.0281,  0.0142,  0.0266,  0.0036,  0.0259, -0.0094, -0.0050, -0.0162,
+        -0.0156,  0.0197], device='cuda:0'), grad: tensor([ 6.0815e-07,  1.5408e-05,  1.5408e-05,  1.1042e-05, -5.6446e-05,
+         9.4920e-06,  1.5885e-05, -3.2829e-07, -2.1204e-05,  1.0066e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 179----------------------------------------------------
+epoch 179, time 221.55, cls_loss 0.0032 cls_loss_mapping 0.0045 cls_loss_causal 0.5688 re_mapping 0.0065 re_causal 0.0182 /// teacc 99.06 lr 0.00010000
+Epoch 181, weight, value: tensor([[ 0.0086,  0.0110,  0.0143,  ...,  0.0604, -0.1482, -0.1335],
+        [ 0.0454, -0.0185, -0.0041,  ..., -0.1554,  0.0475, -0.0947],
+        [-0.0061, -0.0048,  0.1508,  ..., -0.2234, -0.0852, -0.1327],
+        ...,
+        [-0.0092,  0.0062, -0.1173,  ..., -0.0055,  0.1192,  0.0596],
+        [ 0.0027, -0.0202, -0.0893,  ..., -0.1911,  0.0777, -0.1353],
+        [-0.0063, -0.0258, -0.0464,  ...,  0.0341, -0.0886,  0.0195]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -3.9600e-06,  ..., -6.1877e-06,
+          6.8918e-08, -9.9838e-07],
+        [ 0.0000e+00,  0.0000e+00, -5.2005e-06,  ...,  1.5460e-07,
+         -1.3895e-05,  2.0070e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.0245e-06,  ...,  4.8568e-07,
+          3.9376e-06,  1.4249e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.6058e-06,  ...,  8.1025e-08,
+          4.7684e-06, -7.6508e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.3728e-06,  ...,  8.1770e-07,
+          4.3027e-07,  1.8999e-07],
+        [ 0.0000e+00,  0.0000e+00,  6.0443e-07,  ...,  6.1467e-07,
+          5.9884e-07,  4.7637e-07]], device='cuda:0')
+Epoch 181, bias, value: tensor([-0.0287,  0.0144,  0.0268,  0.0039,  0.0276, -0.0105, -0.0058, -0.0173,
+        -0.0145,  0.0194], device='cuda:0'), grad: tensor([-1.2353e-05, -3.8743e-05,  1.0967e-05,  1.4648e-05,  1.8617e-06,
+        -1.2599e-05,  9.9093e-06,  1.4298e-05,  8.3894e-06,  3.5726e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 180, time 220.74, cls_loss 0.0018 cls_loss_mapping 0.0043 cls_loss_causal 0.4770 re_mapping 0.0062 re_causal 0.0178 /// teacc 98.98 lr 0.00010000
+Epoch 182, weight, value: tensor([[ 0.0086,  0.0110,  0.0149,  ...,  0.0609, -0.1485, -0.1337],
+        [ 0.0453, -0.0185, -0.0043,  ..., -0.1557,  0.0478, -0.0948],
+        [-0.0061, -0.0048,  0.1510,  ..., -0.2257, -0.0854, -0.1338],
+        ...,
+        [-0.0092,  0.0062, -0.1175,  ..., -0.0029,  0.1199,  0.0607],
+        [ 0.0027, -0.0202, -0.0895,  ..., -0.1922,  0.0776, -0.1357],
+        [-0.0063, -0.0258, -0.0467,  ...,  0.0337, -0.0892,  0.0192]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.0710e-08,  ..., -8.0094e-08,
+          9.3132e-09,  4.9826e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-08,  ...,  7.0129e-07,
+         -2.3190e-07,  1.2182e-06],
+        [ 0.0000e+00,  0.0000e+00,  1.4715e-06,  ...,  7.9628e-08,
+          3.2783e-07,  3.0361e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6333e-07,  ...,  2.6822e-07,
+         -2.5705e-07,  2.7847e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.2424e-06,  ...,  1.3644e-07,
+         -1.1176e-08,  3.3528e-07],
+        [ 0.0000e+00,  0.0000e+00,  3.1339e-07,  ..., -2.6310e-07,
+          4.1910e-08, -1.1930e-06]], device='cuda:0')
+Epoch 182, bias, value: tensor([-0.0283,  0.0146,  0.0267,  0.0035,  0.0275, -0.0099, -0.0060, -0.0165,
+        -0.0150,  0.0189], device='cuda:0'), grad: tensor([ 4.1164e-07,  1.6624e-06,  8.0541e-06, -2.3246e-05, -1.3344e-05,
+         5.9493e-06,  1.1317e-05,  2.3209e-06,  7.2904e-06, -4.4191e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 181, time 220.58, cls_loss 0.0018 cls_loss_mapping 0.0039 cls_loss_causal 0.5388 re_mapping 0.0061 re_causal 0.0190 /// teacc 98.91 lr 0.00010000
+Epoch 183, weight, value: tensor([[ 0.0086,  0.0110,  0.0152,  ...,  0.0612, -0.1487, -0.1341],
+        [ 0.0454, -0.0185, -0.0043,  ..., -0.1560,  0.0481, -0.0950],
+        [-0.0061, -0.0048,  0.1512,  ..., -0.2267, -0.0856, -0.1342],
+        ...,
+        [-0.0092,  0.0062, -0.1177,  ..., -0.0036,  0.1200,  0.0604],
+        [ 0.0026, -0.0202, -0.0899,  ..., -0.1934,  0.0775, -0.1359],
+        [-0.0063, -0.0258, -0.0471,  ...,  0.0341, -0.0893,  0.0196]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -5.3085e-08,  ..., -8.8476e-08,
+          1.8533e-07,  1.0245e-07],
+        [ 9.3132e-10,  0.0000e+00,  3.4925e-08,  ...,  4.4238e-08,
+          1.0524e-07,  2.8266e-07],
+        [ 0.0000e+00,  0.0000e+00, -3.0780e-07,  ...,  1.5367e-08,
+          1.9465e-07,  3.2689e-07],
+        ...,
+        [-2.3283e-09,  0.0000e+00,  1.0571e-07,  ...,  1.1940e-06,
+         -5.4995e-07,  1.9446e-06],
+        [ 0.0000e+00,  0.0000e+00,  1.0524e-07,  ...,  5.4482e-08,
+          6.4680e-07,  1.7984e-06],
+        [ 9.3132e-10,  0.0000e+00,  4.7497e-08,  ..., -2.8051e-06,
+          2.1607e-07, -1.0677e-05]], device='cuda:0')
+Epoch 183, bias, value: tensor([-0.0279,  0.0148,  0.0265,  0.0035,  0.0271, -0.0094, -0.0059, -0.0166,
+        -0.0154,  0.0191], device='cuda:0'), grad: tensor([ 5.7090e-07,  8.8196e-07,  6.8964e-07,  1.1429e-05,  4.8019e-06,
+         2.4792e-06, -2.1569e-06,  1.5246e-06,  1.0841e-05, -3.1024e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 182, time 220.87, cls_loss 0.0023 cls_loss_mapping 0.0049 cls_loss_causal 0.5358 re_mapping 0.0066 re_causal 0.0193 /// teacc 99.02 lr 0.00010000
+Epoch 184, weight, value: tensor([[ 0.0086,  0.0110,  0.0164,  ...,  0.0618, -0.1491, -0.1344],
+        [ 0.0455, -0.0185, -0.0043,  ..., -0.1554,  0.0483, -0.0949],
+        [-0.0062, -0.0048,  0.1512,  ..., -0.2293, -0.0858, -0.1349],
+        ...,
+        [-0.0092,  0.0062, -0.1185,  ..., -0.0041,  0.1201,  0.0602],
+        [ 0.0026, -0.0202, -0.0886,  ..., -0.1942,  0.0790, -0.1362],
+        [-0.0063, -0.0258, -0.0480,  ...,  0.0337, -0.0895,  0.0180]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00, -1.8626e-09,  ...,  3.2689e-07,
+          3.0268e-08,  5.4482e-07],
+        [-9.2667e-08,  0.0000e+00,  7.9162e-09,  ..., -1.1846e-06,
+         -3.0622e-06,  6.0070e-08],
+        [ 1.3970e-08,  0.0000e+00,  1.6019e-07,  ...,  1.6224e-06,
+          8.6892e-07,  2.4308e-06],
+        ...,
+        [ 1.2107e-08,  0.0000e+00,  9.3132e-09,  ...,  3.0687e-07,
+          3.9721e-07,  2.8312e-07],
+        [ 1.7695e-08,  0.0000e+00, -2.1234e-07,  ...,  1.9092e-06,
+          5.2154e-08,  2.0154e-06],
+        [ 2.3283e-09,  0.0000e+00,  9.7789e-09,  ..., -3.3583e-06,
+          9.5461e-08, -5.7817e-06]], device='cuda:0')
+Epoch 184, bias, value: tensor([-0.0277,  0.0150,  0.0262,  0.0059,  0.0290, -0.0118, -0.0072, -0.0168,
+        -0.0143,  0.0174], device='cuda:0'), grad: tensor([ 1.2368e-06, -8.6203e-06,  7.1749e-06,  1.6898e-05,  4.2357e-06,
+        -1.6898e-05,  3.9861e-07,  1.5870e-06,  5.6438e-06, -1.1683e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 183, time 220.79, cls_loss 0.0018 cls_loss_mapping 0.0027 cls_loss_causal 0.5131 re_mapping 0.0061 re_causal 0.0184 /// teacc 98.92 lr 0.00010000
+Epoch 185, weight, value: tensor([[ 0.0085,  0.0110,  0.0166,  ...,  0.0619, -0.1493, -0.1346],
+        [ 0.0465, -0.0185, -0.0040,  ..., -0.1556,  0.0492, -0.0946],
+        [-0.0067, -0.0048,  0.1516,  ..., -0.2302, -0.0867, -0.1351],
+        ...,
+        [-0.0093,  0.0062, -0.1189,  ..., -0.0045,  0.1200,  0.0604],
+        [ 0.0023, -0.0202, -0.0882,  ..., -0.1948,  0.0785, -0.1364],
+        [-0.0063, -0.0258, -0.0482,  ...,  0.0340, -0.0896,  0.0181]],
+       device='cuda:0'), grad: tensor([[ 2.7008e-08,  0.0000e+00, -1.8161e-08,  ...,  3.3062e-08,
+          4.0559e-07,  3.6228e-07],
+        [ 3.3993e-08,  0.0000e+00, -2.1514e-06,  ...,  1.1660e-06,
+         -3.7067e-06,  6.9588e-06],
+        [ 7.1246e-08,  0.0000e+00,  1.8151e-06,  ...,  3.4273e-07,
+          4.3213e-06,  2.0489e-06],
+        ...,
+        [ 1.2048e-05,  0.0000e+00,  5.6345e-08,  ...,  8.2776e-06,
+          1.3039e-07,  5.0098e-05],
+        [ 8.8289e-07,  0.0000e+00,  6.3796e-08,  ...,  4.2561e-07,
+          4.0978e-06,  2.2091e-06],
+        [ 6.9151e-07,  0.0000e+00,  9.3132e-08,  ...,  1.5664e-04,
+          6.7847e-07,  9.5701e-04]], device='cuda:0')
+Epoch 185, bias, value: tensor([-0.0277,  0.0154,  0.0261,  0.0050,  0.0287, -0.0110, -0.0056, -0.0167,
+        -0.0158,  0.0175], device='cuda:0'), grad: tensor([ 1.1772e-06,  5.4948e-07,  1.0580e-05, -2.9564e-05, -9.5606e-04,
+        -8.0019e-06, -1.2815e-05,  7.9274e-05,  1.1265e-05,  9.0313e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 184, time 221.13, cls_loss 0.0018 cls_loss_mapping 0.0026 cls_loss_causal 0.5202 re_mapping 0.0059 re_causal 0.0178 /// teacc 98.94 lr 0.00010000
+Epoch 186, weight, value: tensor([[ 0.0081,  0.0110,  0.0169,  ...,  0.0622, -0.1496, -0.1348],
+        [ 0.0486, -0.0185, -0.0039,  ..., -0.1586,  0.0492, -0.0950],
+        [-0.0071, -0.0048,  0.1518,  ..., -0.2310, -0.0868, -0.1358],
+        ...,
+        [-0.0097,  0.0062, -0.1197,  ..., -0.0050,  0.1200,  0.0602],
+        [ 0.0010, -0.0202, -0.0887,  ..., -0.1953,  0.0785, -0.1367],
+        [-0.0056, -0.0258, -0.0482,  ...,  0.0338, -0.0898,  0.0179]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  2.8312e-05,  ...,  1.9092e-08,
+          2.7772e-06,  6.0070e-08],
+        [-3.3993e-08,  0.0000e+00,  2.3935e-07,  ...,  6.3330e-08,
+         -3.6601e-07,  3.7113e-07],
+        [ 9.3132e-09,  0.0000e+00, -4.2409e-05,  ...,  1.8626e-08,
+          3.9488e-07,  1.8068e-07],
+        ...,
+        [ 2.7940e-09,  0.0000e+00,  5.4901e-07,  ...,  3.4925e-08,
+         -2.2873e-06, -6.1616e-06],
+        [ 6.0536e-09,  0.0000e+00,  8.8662e-06,  ..., -5.5879e-09,
+         -1.9511e-07,  5.3458e-07],
+        [ 4.6566e-10,  0.0000e+00,  5.3551e-07,  ..., -2.6496e-07,
+          1.7341e-06,  3.8147e-06]], device='cuda:0')
+Epoch 186, bias, value: tensor([-0.0275,  0.0152,  0.0260,  0.0047,  0.0293, -0.0107, -0.0056, -0.0170,
+        -0.0160,  0.0173], device='cuda:0'), grad: tensor([ 6.2823e-05, -4.6566e-09, -6.6638e-05,  1.4231e-06,  1.0263e-06,
+         3.2689e-06, -1.6958e-05, -8.1137e-06,  1.5497e-05,  7.6666e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 185, time 220.87, cls_loss 0.0017 cls_loss_mapping 0.0033 cls_loss_causal 0.5073 re_mapping 0.0059 re_causal 0.0177 /// teacc 98.94 lr 0.00010000
+Epoch 187, weight, value: tensor([[ 0.0080,  0.0110,  0.0169,  ...,  0.0625, -0.1500, -0.1350],
+        [ 0.0491, -0.0185, -0.0035,  ..., -0.1592,  0.0495, -0.0964],
+        [-0.0070, -0.0048,  0.1519,  ..., -0.2320, -0.0880, -0.1367],
+        ...,
+        [-0.0099,  0.0062, -0.1206,  ..., -0.0050,  0.1212,  0.0611],
+        [ 0.0008, -0.0202, -0.0892,  ..., -0.1957,  0.0785, -0.1368],
+        [-0.0055, -0.0258, -0.0486,  ...,  0.0334, -0.0904,  0.0176]],
+       device='cuda:0'), grad: tensor([[ 9.7789e-09,  0.0000e+00, -6.6450e-07,  ..., -6.2911e-07,
+          1.2619e-07,  1.7928e-07],
+        [ 1.5600e-07,  0.0000e+00,  1.5413e-07,  ...,  8.5682e-08,
+          8.5495e-07,  1.2452e-06],
+        [ 4.3735e-06,  0.0000e+00,  1.0189e-06,  ...,  1.9046e-07,
+          1.7986e-05,  1.7926e-05],
+        ...,
+        [-4.9770e-06,  0.0000e+00, -9.7137e-07,  ...,  2.8685e-07,
+         -2.2665e-05, -2.3678e-05],
+        [ 2.8452e-07,  0.0000e+00,  5.2014e-07,  ...,  4.0885e-07,
+          1.5236e-06,  1.9390e-06],
+        [ 2.5611e-08,  0.0000e+00,  1.3281e-06,  ...,  1.0617e-06,
+          1.0263e-06,  3.2075e-06]], device='cuda:0')
+Epoch 187, bias, value: tensor([-0.0276,  0.0154,  0.0251,  0.0048,  0.0296, -0.0106, -0.0056, -0.0160,
+        -0.0161,  0.0168], device='cuda:0'), grad: tensor([-2.3469e-07,  3.8967e-06,  4.0531e-05, -3.5226e-05,  1.5292e-06,
+        -2.3544e-05,  1.9446e-05, -5.0098e-05,  1.3366e-05,  3.0398e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 186, time 220.65, cls_loss 0.0028 cls_loss_mapping 0.0049 cls_loss_causal 0.5291 re_mapping 0.0060 re_causal 0.0176 /// teacc 98.91 lr 0.00010000
+Epoch 188, weight, value: tensor([[ 0.0079,  0.0110,  0.0169,  ...,  0.0626, -0.1510, -0.1354],
+        [ 0.0493, -0.0185, -0.0035,  ..., -0.1598,  0.0495, -0.0968],
+        [-0.0047, -0.0048,  0.1526,  ..., -0.2328, -0.0878, -0.1348],
+        ...,
+        [-0.0111,  0.0062, -0.1237,  ..., -0.0059,  0.1207,  0.0610],
+        [ 0.0006, -0.0202, -0.0896,  ..., -0.1968,  0.0787, -0.1369],
+        [-0.0084, -0.0258, -0.0489,  ...,  0.0326, -0.0908,  0.0167]],
+       device='cuda:0'), grad: tensor([[ 6.9849e-09,  0.0000e+00, -9.3598e-08,  ..., -1.7602e-07,
+          5.3970e-07,  1.8626e-07],
+        [ 2.1094e-07,  0.0000e+00,  8.3372e-06,  ...,  9.6392e-08,
+          7.3947e-06,  6.0312e-06],
+        [ 1.8161e-08,  0.0000e+00, -1.1735e-05,  ...,  2.3283e-08,
+         -3.3192e-06,  3.3667e-07],
+        ...,
+        [-6.1514e-07,  0.0000e+00,  3.0734e-06,  ...,  9.2201e-08,
+         -5.7966e-06, -1.6198e-05],
+        [ 1.5367e-08,  0.0000e+00,  2.0396e-07,  ...,  4.1444e-08,
+         -1.1034e-05,  8.7544e-08],
+        [ 2.8498e-07,  0.0000e+00,  1.0012e-07,  ...,  1.7742e-07,
+          6.8434e-06,  7.0408e-06]], device='cuda:0')
+Epoch 188, bias, value: tensor([-0.0280,  0.0149,  0.0254,  0.0030,  0.0306, -0.0086, -0.0055, -0.0168,
+        -0.0163,  0.0165], device='cuda:0'), grad: tensor([ 2.6897e-06,  2.8968e-05, -7.3053e-06,  7.1190e-06,  3.5390e-06,
+         1.0841e-05,  5.6252e-06, -2.0429e-05, -6.4611e-05,  3.3408e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 187, time 220.71, cls_loss 0.0029 cls_loss_mapping 0.0042 cls_loss_causal 0.5540 re_mapping 0.0064 re_causal 0.0183 /// teacc 99.01 lr 0.00010000
+Epoch 189, weight, value: tensor([[ 0.0075,  0.0110,  0.0185,  ...,  0.0632, -0.1517, -0.1366],
+        [ 0.0496, -0.0185, -0.0058,  ..., -0.1600,  0.0469, -0.0962],
+        [-0.0047, -0.0048,  0.1558,  ..., -0.2342, -0.0861, -0.1345],
+        ...,
+        [-0.0112,  0.0062, -0.1271,  ..., -0.0064,  0.1221,  0.0608],
+        [ 0.0003, -0.0202, -0.0900,  ..., -0.1985,  0.0787, -0.1372],
+        [-0.0083, -0.0258, -0.0499,  ...,  0.0328, -0.0913,  0.0168]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00, -3.5856e-07,  ...,  4.6473e-07,
+          1.2433e-07,  2.0582e-07],
+        [-1.0245e-08,  0.0000e+00,  1.4435e-08,  ...,  4.9826e-08,
+         -2.4261e-03, -2.9755e-03],
+        [ 5.5879e-09,  0.0000e+00, -4.5635e-08,  ...,  5.3691e-07,
+          7.8138e-07,  6.3144e-07],
+        ...,
+        [-6.5193e-09,  0.0000e+00,  2.0489e-08,  ..., -4.1444e-07,
+          2.3460e-03,  2.8744e-03],
+        [ 4.1910e-09,  0.0000e+00,  8.1025e-08,  ...,  9.1270e-08,
+          2.9840e-06,  4.0717e-06],
+        [ 1.3970e-09,  0.0000e+00,  8.8010e-08,  ...,  5.4762e-07,
+          6.0767e-05,  7.8380e-05]], device='cuda:0')
+Epoch 189, bias, value: tensor([-0.0273,  0.0127,  0.0276,  0.0028,  0.0304, -0.0083, -0.0054, -0.0169,
+        -0.0166,  0.0165], device='cuda:0'), grad: tensor([ 5.3197e-06, -6.3896e-03,  6.8955e-06,  3.1367e-06,  4.8101e-05,
+         3.1255e-06, -1.6868e-05,  6.1798e-03,  3.8017e-06,  1.6463e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 188, time 220.53, cls_loss 0.0019 cls_loss_mapping 0.0037 cls_loss_causal 0.5097 re_mapping 0.0062 re_causal 0.0180 /// teacc 99.06 lr 0.00010000
+Epoch 190, weight, value: tensor([[ 7.4816e-03,  1.0998e-02,  1.8470e-02,  ...,  6.2829e-02,
+         -1.5214e-01, -1.3809e-01],
+        [ 4.9818e-02, -1.8468e-02, -5.9027e-03,  ..., -1.6031e-01,
+          4.8798e-02, -9.3775e-02],
+        [-4.7799e-03, -4.7728e-03,  1.5678e-01,  ..., -2.3489e-01,
+         -8.5785e-02, -1.3463e-01],
+        ...,
+        [-1.1210e-02,  6.2061e-03, -1.2909e-01,  ..., -6.5265e-03,
+          1.1999e-01,  5.9929e-02],
+        [-2.9313e-05, -2.0220e-02, -9.0371e-02,  ..., -1.9982e-01,
+          7.8641e-02, -1.3785e-01],
+        [-8.2615e-03, -2.5834e-02, -5.0036e-02,  ...,  3.2980e-02,
+         -9.1768e-02,  1.6747e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -9.7044e-07,  ..., -5.8860e-06,
+         -2.8173e-07, -1.4957e-06],
+        [ 0.0000e+00,  0.0000e+00,  3.8650e-08,  ...,  1.4110e-07,
+          3.4496e-06,  1.5832e-06],
+        [ 0.0000e+00,  0.0000e+00, -6.0536e-09,  ...,  1.4044e-06,
+          1.8049e-06,  1.3113e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.7474e-08,  ...,  1.4435e-07,
+         -7.1786e-06, -3.3230e-06],
+        [ 0.0000e+00,  0.0000e+00,  6.7987e-08,  ...,  1.0282e-06,
+          2.0629e-07,  7.4692e-07],
+        [-4.6566e-10,  0.0000e+00,  2.0349e-07,  ...,  1.8440e-06,
+          3.4971e-07,  2.2724e-06]], device='cuda:0')
+Epoch 190, bias, value: tensor([-0.0275,  0.0141,  0.0279,  0.0031,  0.0303, -0.0083, -0.0055, -0.0185,
+        -0.0170,  0.0165], device='cuda:0'), grad: tensor([-1.4000e-05,  1.0610e-05,  8.2254e-06,  4.8950e-06, -5.0757e-07,
+         9.9093e-07,  3.7961e-06, -2.0877e-05,  2.8983e-06,  3.9712e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 189, time 220.46, cls_loss 0.0018 cls_loss_mapping 0.0033 cls_loss_causal 0.5387 re_mapping 0.0057 re_causal 0.0178 /// teacc 98.96 lr 0.00010000
+Epoch 191, weight, value: tensor([[ 7.3922e-03,  1.0998e-02,  1.8818e-02,  ...,  6.2905e-02,
+         -1.5245e-01, -1.3855e-01],
+        [ 4.9907e-02, -1.8468e-02, -5.9654e-03,  ..., -1.6050e-01,
+          4.8589e-02, -9.3843e-02],
+        [-4.7904e-03, -4.7728e-03,  1.5678e-01,  ..., -2.3595e-01,
+         -8.6592e-02, -1.3557e-01],
+        ...,
+        [-1.1246e-02,  6.2061e-03, -1.2875e-01,  ..., -6.7532e-03,
+          1.2092e-01,  6.0399e-02],
+        [-1.4391e-04, -2.0220e-02, -9.0693e-02,  ..., -2.0049e-01,
+          7.7626e-02, -1.3817e-01],
+        [-8.5302e-03, -2.5834e-02, -5.0256e-02,  ...,  3.3599e-02,
+         -9.1997e-02,  1.7795e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.1921e-07,  ..., -1.2852e-07,
+          1.4808e-07,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.0151e-07,  ...,  2.0023e-08,
+          1.2107e-08,  1.1921e-07],
+        [ 0.0000e+00,  0.0000e+00, -1.3299e-06,  ...,  1.4435e-08,
+          1.1325e-06,  1.4948e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  8.4704e-07,  ...,  1.3504e-08,
+         -4.1444e-07, -5.4343e-07],
+        [ 0.0000e+00,  0.0000e+00,  2.2957e-07,  ...,  1.4901e-08,
+         -2.3097e-06,  2.4680e-08],
+        [ 0.0000e+00,  0.0000e+00,  4.3306e-08,  ...,  1.3039e-08,
+          6.2119e-07,  8.7079e-08]], device='cuda:0')
+Epoch 191, bias, value: tensor([-0.0275,  0.0140,  0.0276,  0.0031,  0.0293, -0.0084, -0.0045, -0.0180,
+        -0.0178,  0.0172], device='cuda:0'), grad: tensor([ 1.5926e-06,  1.4016e-06,  1.6525e-05,  8.9034e-06,  6.0862e-07,
+        -2.0992e-06,  3.6843e-06,  1.2601e-06, -4.3243e-05,  1.1370e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 190, time 220.55, cls_loss 0.0018 cls_loss_mapping 0.0037 cls_loss_causal 0.5339 re_mapping 0.0059 re_causal 0.0174 /// teacc 98.98 lr 0.00010000
+Epoch 192, weight, value: tensor([[ 7.3888e-03,  1.0998e-02,  1.9396e-02,  ...,  6.2899e-02,
+         -1.5306e-01, -1.3919e-01],
+        [ 4.9909e-02, -1.8468e-02, -5.9361e-03,  ..., -1.6085e-01,
+          4.8851e-02, -9.3886e-02],
+        [-4.7899e-03, -4.7728e-03,  1.5686e-01,  ..., -2.3704e-01,
+         -8.6881e-02, -1.3592e-01],
+        ...,
+        [-1.1247e-02,  6.2061e-03, -1.2881e-01,  ..., -6.9983e-03,
+          1.2096e-01,  6.0451e-02],
+        [-1.4901e-04, -2.0220e-02, -9.1095e-02,  ..., -2.0181e-01,
+          7.7872e-02, -1.3837e-01],
+        [-8.5310e-03, -2.5834e-02, -5.0486e-02,  ...,  3.3903e-02,
+         -9.2206e-02,  1.7925e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.4760e-05,  ..., -5.1549e-07,
+          2.3115e-06,  1.0710e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.7462e-07,  ...,  1.0710e-07,
+          7.8082e-05,  4.1863e-07],
+        [ 0.0000e+00,  0.0000e+00,  6.0350e-07,  ...,  1.2200e-07,
+          1.4879e-05,  4.4610e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  8.8010e-08,  ...,  1.7276e-07,
+         -1.2445e-04, -5.6950e-07],
+        [ 0.0000e+00,  0.0000e+00,  2.2631e-07,  ...,  1.4761e-07,
+          2.7254e-05,  4.9779e-07],
+        [ 0.0000e+00,  0.0000e+00,  2.5099e-07,  ..., -8.8941e-08,
+          1.8217e-06, -5.4250e-07]], device='cuda:0')
+Epoch 192, bias, value: tensor([-0.0278,  0.0142,  0.0274,  0.0039,  0.0293, -0.0091, -0.0043, -0.0181,
+        -0.0180,  0.0174], device='cuda:0'), grad: tensor([ 8.6188e-05,  1.3888e-04,  2.9862e-05,  3.1274e-06,  1.5907e-06,
+         2.0713e-06, -9.5546e-05, -2.1899e-04,  4.9442e-05,  3.1386e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 191, time 220.53, cls_loss 0.0019 cls_loss_mapping 0.0036 cls_loss_causal 0.5106 re_mapping 0.0060 re_causal 0.0175 /// teacc 99.04 lr 0.00010000
+Epoch 193, weight, value: tensor([[ 7.3867e-03,  1.0998e-02,  1.9735e-02,  ...,  6.3190e-02,
+         -1.5340e-01, -1.3888e-01],
+        [ 4.9914e-02, -1.8468e-02, -5.9129e-03,  ..., -1.6119e-01,
+          5.0581e-02, -9.2477e-02],
+        [-4.7914e-03, -4.7728e-03,  1.5687e-01,  ..., -2.3933e-01,
+         -8.7093e-02, -1.3623e-01],
+        ...,
+        [-1.1249e-02,  6.2061e-03, -1.2887e-01,  ..., -7.2148e-03,
+          1.1949e-01,  5.9925e-02],
+        [-1.5749e-04, -2.0220e-02, -9.1350e-02,  ..., -2.0223e-01,
+          7.7694e-02, -1.3857e-01],
+        [-8.5213e-03, -2.5834e-02, -5.0659e-02,  ...,  3.3801e-02,
+         -9.2439e-02,  1.7821e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.0245e-08,  ...,  7.4040e-08,
+          6.4727e-08,  1.3923e-07],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  1.9092e-08,
+         -5.7090e-07,  1.9884e-07],
+        [ 0.0000e+00,  0.0000e+00, -1.3923e-07,  ...,  6.1933e-08,
+          2.4820e-07,  1.9325e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.2375e-08,  ...,  1.5832e-08,
+         -2.5220e-06, -3.3788e-06],
+        [ 0.0000e+00,  0.0000e+00,  6.1002e-08,  ...,  1.9092e-08,
+          1.5078e-06,  1.7816e-06],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  6.1141e-07,
+          9.3831e-07,  1.9521e-06]], device='cuda:0')
+Epoch 193, bias, value: tensor([-0.0276,  0.0156,  0.0271,  0.0039,  0.0292, -0.0089, -0.0043, -0.0191,
+        -0.0183,  0.0171], device='cuda:0'), grad: tensor([ 4.4005e-07, -1.8161e-06,  8.1211e-07, -1.3737e-07, -1.4883e-06,
+         4.5681e-07,  3.2783e-07, -6.2846e-06,  2.8461e-06,  4.8093e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 192, time 220.18, cls_loss 0.0015 cls_loss_mapping 0.0034 cls_loss_causal 0.4951 re_mapping 0.0063 re_causal 0.0182 /// teacc 98.97 lr 0.00010000
+Epoch 194, weight, value: tensor([[ 7.3754e-03,  1.0998e-02,  2.0252e-02,  ...,  6.3371e-02,
+         -1.5361e-01, -1.3884e-01],
+        [ 5.0152e-02, -1.8468e-02, -5.9264e-03,  ..., -1.6170e-01,
+          5.1410e-02, -9.2189e-02],
+        [-4.8933e-03, -4.7728e-03,  1.5716e-01,  ..., -2.3977e-01,
+         -8.7329e-02, -1.3596e-01],
+        ...,
+        [-1.1260e-02,  6.2061e-03, -1.2937e-01,  ..., -7.3174e-03,
+          1.1877e-01,  5.9739e-02],
+        [-2.0346e-04, -2.0220e-02, -9.1559e-02,  ..., -2.0255e-01,
+          7.7942e-02, -1.3905e-01],
+        [-8.4917e-03, -2.5834e-02, -5.0954e-02,  ...,  3.3838e-02,
+         -9.2693e-02,  1.7993e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -7.6275e-07,  ..., -5.9512e-07,
+          1.3504e-08,  4.9360e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.1199e-08,  ...,  9.9186e-08,
+         -1.1176e-08,  1.6624e-07],
+        [ 0.0000e+00,  0.0000e+00, -3.7253e-08,  ...,  8.8476e-08,
+          1.3672e-06,  2.7847e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  6.4261e-08,  ...,  1.3085e-07,
+         -1.7090e-07, -2.0256e-07],
+        [ 0.0000e+00,  0.0000e+00,  6.2399e-08,  ...,  2.0396e-07,
+         -1.7229e-06,  3.7299e-07],
+        [ 0.0000e+00,  0.0000e+00,  3.5437e-07,  ...,  4.6730e-05,
+          5.4017e-08,  8.8155e-05]], device='cuda:0')
+Epoch 194, bias, value: tensor([-0.0273,  0.0163,  0.0269,  0.0044,  0.0291, -0.0093, -0.0044, -0.0197,
+        -0.0183,  0.0172], device='cuda:0'), grad: tensor([-2.2538e-06,  9.1270e-08,  2.8871e-06,  6.5332e-07, -1.0347e-04,
+         1.3597e-07, -2.4047e-06, -2.6636e-07, -2.2203e-06,  1.0663e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 193, time 220.68, cls_loss 0.0019 cls_loss_mapping 0.0037 cls_loss_causal 0.5166 re_mapping 0.0057 re_causal 0.0177 /// teacc 98.94 lr 0.00010000
+Epoch 195, weight, value: tensor([[ 0.0073,  0.0110,  0.0204,  ...,  0.0634, -0.1539, -0.1392],
+        [ 0.0502, -0.0185, -0.0060,  ..., -0.1620,  0.0513, -0.0924],
+        [-0.0049, -0.0048,  0.1574,  ..., -0.2402, -0.0875, -0.1361],
+        ...,
+        [-0.0120,  0.0062, -0.1295,  ..., -0.0073,  0.1191,  0.0601],
+        [-0.0005, -0.0202, -0.0916,  ..., -0.2028,  0.0781, -0.1394],
+        [-0.0085, -0.0258, -0.0511,  ...,  0.0341, -0.0931,  0.0179]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.5832e-07,  ...,  6.2631e-07,
+          1.3784e-06,  4.3735e-06],
+        [ 9.3132e-10,  0.0000e+00,  3.9581e-08,  ...,  4.3884e-06,
+          5.0943e-07,  5.7817e-06],
+        [ 0.0000e+00,  0.0000e+00,  1.6065e-07,  ...,  9.4483e-07,
+          2.8033e-07,  4.7237e-06],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  8.4750e-08,  ...,  3.2689e-07,
+         -7.3723e-06, -4.5113e-06],
+        [ 4.6566e-10,  0.0000e+00,  6.4261e-07,  ...,  1.8673e-07,
+          2.1001e-07,  5.6252e-07],
+        [ 3.3062e-08,  0.0000e+00,  7.6834e-08,  ...,  8.9034e-06,
+          2.0191e-06,  1.2055e-05]], device='cuda:0')
+Epoch 195, bias, value: tensor([-0.0274,  0.0162,  0.0266,  0.0062,  0.0291, -0.0111, -0.0042, -0.0193,
+        -0.0182,  0.0170], device='cuda:0'), grad: tensor([ 4.2588e-05,  1.7300e-05,  4.8369e-05, -3.5148e-06, -3.1918e-05,
+         1.5251e-05, -9.8765e-05, -3.1829e-05,  4.6939e-06,  3.7879e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 194, time 220.76, cls_loss 0.0017 cls_loss_mapping 0.0027 cls_loss_causal 0.5364 re_mapping 0.0054 re_causal 0.0169 /// teacc 98.98 lr 0.00010000
+Epoch 196, weight, value: tensor([[ 0.0072,  0.0110,  0.0203,  ...,  0.0632, -0.1544, -0.1396],
+        [ 0.0501, -0.0185, -0.0061,  ..., -0.1624,  0.0515, -0.0924],
+        [-0.0050, -0.0048,  0.1578,  ..., -0.2405, -0.0876, -0.1358],
+        ...,
+        [-0.0120,  0.0062, -0.1300,  ..., -0.0075,  0.1190,  0.0601],
+        [-0.0006, -0.0202, -0.0919,  ..., -0.2032,  0.0784, -0.1395],
+        [-0.0086, -0.0258, -0.0513,  ...,  0.0340, -0.0934,  0.0175]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.1269e-06,  ..., -5.2946e-07,
+          7.9721e-06,  2.3283e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.3528e-07,  ...,  2.8405e-08,
+          5.4948e-08,  1.2387e-07],
+        [ 0.0000e+00,  0.0000e+00, -4.9453e-07,  ...,  2.3283e-08,
+          7.8464e-07,  2.3749e-08],
+        ...,
+        [-4.6566e-10,  0.0000e+00,  7.7765e-08,  ...,  5.1223e-08,
+         -1.0477e-07,  3.4459e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.0151e-07,  ...,  1.8673e-07,
+         -1.2502e-05,  6.0583e-07],
+        [ 0.0000e+00,  0.0000e+00,  8.1956e-08,  ..., -3.4226e-07,
+          8.1491e-08, -1.4426e-06]], device='cuda:0')
+Epoch 196, bias, value: tensor([-0.0278,  0.0164,  0.0268,  0.0063,  0.0294, -0.0110, -0.0042, -0.0196,
+        -0.0181,  0.0167], device='cuda:0'), grad: tensor([ 3.0085e-05,  6.6822e-07,  2.4736e-06,  6.9244e-07,  1.1325e-06,
+         1.0002e-06,  1.4596e-05,  4.1397e-07, -4.9263e-05, -1.8086e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 195, time 220.24, cls_loss 0.0025 cls_loss_mapping 0.0040 cls_loss_causal 0.5561 re_mapping 0.0058 re_causal 0.0168 /// teacc 98.98 lr 0.00010000
+Epoch 197, weight, value: tensor([[ 0.0072,  0.0110,  0.0208,  ...,  0.0633, -0.1558, -0.1404],
+        [ 0.0500, -0.0185, -0.0061,  ..., -0.1631,  0.0516, -0.0922],
+        [-0.0050, -0.0048,  0.1586,  ..., -0.2419, -0.0883, -0.1342],
+        ...,
+        [-0.0120,  0.0062, -0.1305,  ..., -0.0080,  0.1197,  0.0603],
+        [-0.0007, -0.0202, -0.0935,  ..., -0.2041,  0.0786, -0.1403],
+        [-0.0085, -0.0258, -0.0525,  ...,  0.0340, -0.0941,  0.0172]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.1874e-07,  ..., -3.2689e-07,
+          1.4855e-07,  1.5413e-07],
+        [ 0.0000e+00,  0.0000e+00,  6.7521e-08,  ...,  1.8021e-06,
+          1.7330e-05,  2.4289e-05],
+        [ 0.0000e+00,  0.0000e+00,  9.1270e-08,  ...,  7.2177e-08,
+          5.1782e-07,  4.1723e-07],
+        ...,
+        [ 1.3970e-09,  0.0000e+00,  2.1793e-07,  ...,  1.0729e-06,
+          1.0617e-05,  1.4432e-05],
+        [ 1.1642e-08,  0.0000e+00, -9.7416e-07,  ...,  4.9472e-06,
+          4.6641e-05,  6.7294e-05],
+        [ 2.7940e-09,  0.0000e+00,  1.7602e-07,  ...,  7.8790e-07,
+          7.9051e-06,  1.0408e-05]], device='cuda:0')
+Epoch 197, bias, value: tensor([-0.0280,  0.0164,  0.0269,  0.0062,  0.0294, -0.0111, -0.0041, -0.0189,
+        -0.0189,  0.0166], device='cuda:0'), grad: tensor([ 5.6950e-07,  6.0052e-05,  1.8366e-06,  1.9908e-05, -2.9397e-04,
+        -1.9848e-05,  3.9712e-06,  3.7432e-05,  1.6284e-04,  2.7627e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 196, time 220.61, cls_loss 0.0024 cls_loss_mapping 0.0053 cls_loss_causal 0.5462 re_mapping 0.0058 re_causal 0.0175 /// teacc 98.93 lr 0.00010000
+Epoch 198, weight, value: tensor([[ 0.0072,  0.0110,  0.0212,  ...,  0.0638, -0.1565, -0.1407],
+        [ 0.0500, -0.0185, -0.0062,  ..., -0.1646,  0.0509, -0.0928],
+        [-0.0050, -0.0048,  0.1587,  ..., -0.2427, -0.0887, -0.1343],
+        ...,
+        [-0.0120,  0.0062, -0.1305,  ..., -0.0081,  0.1210,  0.0607],
+        [-0.0007, -0.0202, -0.0944,  ..., -0.2049,  0.0784, -0.1400],
+        [-0.0085, -0.0258, -0.0529,  ...,  0.0335, -0.0950,  0.0167]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.0105e-07,  ...,  2.3283e-09,
+          5.3085e-08,  5.4948e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.2061e-07,  ...,  2.3283e-08,
+         -6.3330e-08,  2.2911e-07],
+        [ 0.0000e+00,  0.0000e+00, -1.9848e-05,  ...,  4.6566e-09,
+          7.2177e-07, -1.0058e-05],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.7568e-05,  ...,  1.7695e-08,
+         -1.9707e-06,  8.3968e-06],
+        [ 0.0000e+00,  0.0000e+00,  1.7630e-06,  ...,  5.4017e-08,
+          9.9093e-07,  1.2666e-06],
+        [ 0.0000e+00,  0.0000e+00,  4.1677e-07,  ..., -4.8894e-08,
+          1.2200e-07,  1.7229e-08]], device='cuda:0')
+Epoch 198, bias, value: tensor([-0.0283,  0.0159,  0.0264,  0.0068,  0.0299, -0.0111, -0.0042, -0.0179,
+        -0.0196,  0.0158], device='cuda:0'), grad: tensor([ 4.5309e-07, -5.0524e-07, -3.7789e-05,  4.5821e-07,  1.7323e-07,
+        -2.0303e-06,  4.4005e-07,  3.1710e-05,  6.1952e-06,  8.5589e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 197, time 220.66, cls_loss 0.0016 cls_loss_mapping 0.0027 cls_loss_causal 0.5084 re_mapping 0.0058 re_causal 0.0174 /// teacc 98.96 lr 0.00010000
+Epoch 199, weight, value: tensor([[ 0.0072,  0.0110,  0.0211,  ...,  0.0632, -0.1572, -0.1409],
+        [ 0.0500, -0.0185, -0.0063,  ..., -0.1652,  0.0512, -0.0926],
+        [-0.0050, -0.0048,  0.1591,  ..., -0.2439, -0.0888, -0.1341],
+        ...,
+        [-0.0120,  0.0062, -0.1308,  ..., -0.0083,  0.1209,  0.0605],
+        [-0.0007, -0.0202, -0.0949,  ..., -0.2056,  0.0783, -0.1409],
+        [-0.0085, -0.0258, -0.0527,  ...,  0.0340, -0.0951,  0.0167]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -5.0524e-07,  ..., -1.5087e-07,
+          6.5193e-09,  4.1910e-08],
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-09,  ...,  4.0010e-06,
+          1.2098e-06,  7.0333e-06],
+        [ 0.0000e+00,  0.0000e+00,  2.7521e-07,  ...,  1.2433e-07,
+          6.1467e-08,  1.2480e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.0710e-08,  ...,  2.0722e-07,
+          5.4482e-08,  4.7684e-07],
+        [ 0.0000e+00,  0.0000e+00,  2.0023e-08,  ...,  1.0468e-06,
+          5.2107e-07,  4.2431e-06],
+        [ 0.0000e+00,  0.0000e+00,  8.9873e-08,  ...,  2.2948e-06,
+          1.3318e-07, -1.5227e-06]], device='cuda:0')
+Epoch 199, bias, value: tensor([-0.0294,  0.0161,  0.0266,  0.0067,  0.0299, -0.0110, -0.0039, -0.0182,
+        -0.0198,  0.0160], device='cuda:0'), grad: tensor([-7.9023e-07,  1.7464e-05,  8.6194e-07,  1.4249e-07, -3.2485e-05,
+        -6.8499e-07,  1.7704e-06,  9.3598e-07,  5.9307e-06,  6.8657e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 198, time 220.39, cls_loss 0.0014 cls_loss_mapping 0.0031 cls_loss_causal 0.4634 re_mapping 0.0057 re_causal 0.0170 /// teacc 98.94 lr 0.00010000
+Epoch 200, weight, value: tensor([[ 0.0072,  0.0110,  0.0216,  ...,  0.0630, -0.1575, -0.1422],
+        [ 0.0500, -0.0185, -0.0065,  ..., -0.1657,  0.0512, -0.0928],
+        [-0.0050, -0.0048,  0.1595,  ..., -0.2448, -0.0890, -0.1342],
+        ...,
+        [-0.0120,  0.0062, -0.1310,  ..., -0.0082,  0.1212,  0.0610],
+        [-0.0007, -0.0202, -0.0952,  ..., -0.2060,  0.0783, -0.1413],
+        [-0.0085, -0.0258, -0.0529,  ...,  0.0341, -0.0958,  0.0165]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.8394e-07,  ..., -1.8952e-07,
+          1.3039e-08,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.2107e-08,  ...,  1.3039e-08,
+         -1.7509e-07,  1.7229e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.7789e-09,  ...,  3.1199e-08,
+          2.0722e-07,  6.0536e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.0489e-08,  ...,  1.8161e-08,
+          2.4214e-08, -1.7229e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.2817e-08,  ...,  9.7789e-09,
+         -2.8731e-07,  3.2596e-09],
+        [ 0.0000e+00,  0.0000e+00,  5.8673e-08,  ...,  6.1467e-08,
+          1.0058e-07, -1.8161e-08]], device='cuda:0')
+Epoch 200, bias, value: tensor([-0.0295,  0.0164,  0.0266,  0.0066,  0.0302, -0.0109, -0.0039, -0.0183,
+        -0.0199,  0.0156], device='cuda:0'), grad: tensor([-3.6880e-07, -5.6904e-07,  6.9104e-07,  8.6753e-07,  1.3504e-07,
+        -1.3262e-06,  5.7742e-08,  2.0862e-07, -5.1875e-07,  8.1910e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 199, time 220.73, cls_loss 0.0017 cls_loss_mapping 0.0035 cls_loss_causal 0.5148 re_mapping 0.0056 re_causal 0.0169 /// teacc 99.00 lr 0.00010000
+Epoch 201, weight, value: tensor([[ 0.0072,  0.0110,  0.0222,  ...,  0.0627, -0.1576, -0.1423],
+        [ 0.0499, -0.0185, -0.0064,  ..., -0.1661,  0.0507, -0.0931],
+        [-0.0050, -0.0048,  0.1596,  ..., -0.2457, -0.0894, -0.1345],
+        ...,
+        [-0.0126,  0.0062, -0.1312,  ..., -0.0087,  0.1215,  0.0612],
+        [-0.0009, -0.0202, -0.0956,  ..., -0.2078,  0.0783, -0.1420],
+        [-0.0085, -0.0258, -0.0530,  ...,  0.0345, -0.0958,  0.0165]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.7017e-05,  ..., -1.7822e-05,
+          3.8557e-07, -5.2303e-06],
+        [ 0.0000e+00,  0.0000e+00,  2.5667e-06,  ...,  2.6710e-06,
+          5.3495e-05,  2.6494e-05],
+        [ 0.0000e+00,  0.0000e+00,  2.1365e-06,  ...,  2.3171e-06,
+          5.2527e-06,  2.9542e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  8.0615e-06,  ...,  8.3521e-06,
+         -1.0890e-04, -4.9174e-05],
+        [ 0.0000e+00,  0.0000e+00,  1.4398e-06,  ...,  1.5534e-06,
+          5.0589e-06,  3.2000e-06],
+        [ 0.0000e+00,  0.0000e+00,  1.8384e-06,  ...,  1.6894e-06,
+          4.8168e-06,  3.5558e-06]], device='cuda:0')
+Epoch 201, bias, value: tensor([-0.0298,  0.0161,  0.0264,  0.0067,  0.0303, -0.0108, -0.0034, -0.0182,
+        -0.0204,  0.0160], device='cuda:0'), grad: tensor([-5.6088e-05,  1.7929e-04,  2.4378e-05,  1.0335e-04,  4.9956e-06,
+         1.6510e-05,  2.6133e-06, -3.1924e-04,  2.2262e-05,  2.1428e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 200, time 220.17, cls_loss 0.0022 cls_loss_mapping 0.0030 cls_loss_causal 0.5102 re_mapping 0.0055 re_causal 0.0167 /// teacc 98.96 lr 0.00010000
+Epoch 202, weight, value: tensor([[ 0.0072,  0.0110,  0.0232,  ...,  0.0630, -0.1602, -0.1428],
+        [ 0.0499, -0.0185, -0.0069,  ..., -0.1678,  0.0507, -0.0932],
+        [-0.0050, -0.0048,  0.1602,  ..., -0.2470, -0.0903, -0.1348],
+        ...,
+        [-0.0133,  0.0062, -0.1313,  ..., -0.0096,  0.1218,  0.0610],
+        [-0.0009, -0.0202, -0.0960,  ..., -0.2089,  0.0780, -0.1430],
+        [-0.0085, -0.0258, -0.0538,  ...,  0.0341, -0.0962,  0.0163]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.9427e-06,  ..., -1.1623e-06,
+          2.7195e-07,  1.9488e-07],
+        [ 0.0000e+00,  0.0000e+00,  2.8452e-07,  ...,  7.0548e-08,
+         -2.5816e-06,  3.0547e-07],
+        [ 0.0000e+00,  0.0000e+00, -7.0147e-06,  ...,  1.0533e-06,
+          1.7742e-07, -1.8412e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.7125e-06,  ...,  6.7288e-08,
+         -3.4366e-06, -1.0595e-05],
+        [ 0.0000e+00,  0.0000e+00,  1.4412e-07,  ...,  4.4936e-08,
+          1.1399e-06,  1.2890e-06],
+        [ 0.0000e+00,  0.0000e+00,  2.0419e-07,  ...,  1.1409e-08,
+          3.5297e-07,  3.1367e-06]], device='cuda:0')
+Epoch 202, bias, value: tensor([-0.0302,  0.0160,  0.0261,  0.0063,  0.0314, -0.0103, -0.0030, -0.0182,
+        -0.0208,  0.0156], device='cuda:0'), grad: tensor([-7.9582e-07, -5.7407e-06, -1.8373e-05, -1.3426e-05,  1.7554e-05,
+         1.1198e-05, -7.2904e-06, -6.7195e-07,  7.7635e-06,  9.7156e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 201, time 220.52, cls_loss 0.0015 cls_loss_mapping 0.0033 cls_loss_causal 0.5080 re_mapping 0.0057 re_causal 0.0176 /// teacc 98.99 lr 0.00010000
+Epoch 203, weight, value: tensor([[ 0.0072,  0.0110,  0.0236,  ...,  0.0632, -0.1604, -0.1430],
+        [ 0.0501, -0.0185, -0.0069,  ..., -0.1683,  0.0507, -0.0931],
+        [-0.0050, -0.0048,  0.1605,  ..., -0.2475, -0.0906, -0.1348],
+        ...,
+        [-0.0134,  0.0062, -0.1316,  ..., -0.0127,  0.1206,  0.0586],
+        [-0.0010, -0.0202, -0.0966,  ..., -0.2095,  0.0790, -0.1434],
+        [-0.0086, -0.0258, -0.0540,  ...,  0.0355, -0.0936,  0.0183]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -1.5460e-06,  ..., -4.9435e-06,
+          1.3970e-08,  2.7940e-09],
+        [-6.5193e-09,  0.0000e+00,  5.6857e-07,  ...,  3.1199e-08,
+         -1.2806e-07,  1.1269e-07],
+        [ 3.7719e-08,  0.0000e+00, -6.0257e-07,  ...,  2.0210e-07,
+          5.8673e-07,  5.3644e-07],
+        ...,
+        [-6.0536e-08,  0.0000e+00,  2.3004e-07,  ...,  3.0734e-08,
+         -8.8941e-07, -9.6485e-07],
+        [ 6.5193e-09,  0.0000e+00,  1.1967e-07,  ...,  1.4901e-07,
+          7.4506e-09,  5.0757e-08],
+        [ 1.0710e-08,  0.0000e+00,  3.7998e-07,  ...,  7.2038e-07,
+          1.5739e-07,  4.8243e-07]], device='cuda:0')
+Epoch 203, bias, value: tensor([-0.0302,  0.0159,  0.0260,  0.0063,  0.0312, -0.0104, -0.0026, -0.0198,
+        -0.0203,  0.0175], device='cuda:0'), grad: tensor([-3.7760e-05,  5.5740e-07,  8.5309e-07,  3.1553e-06, -3.0175e-07,
+        -3.8594e-06,  3.4809e-05, -1.4659e-06,  7.1106e-07,  3.3751e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 202, time 220.55, cls_loss 0.0012 cls_loss_mapping 0.0021 cls_loss_causal 0.4985 re_mapping 0.0058 re_causal 0.0176 /// teacc 99.02 lr 0.00010000
+Epoch 204, weight, value: tensor([[ 0.0071,  0.0110,  0.0240,  ...,  0.0637, -0.1609, -0.1433],
+        [ 0.0507, -0.0185, -0.0069,  ..., -0.1687,  0.0505, -0.0933],
+        [-0.0052, -0.0048,  0.1605,  ..., -0.2489, -0.0907, -0.1350],
+        ...,
+        [-0.0134,  0.0062, -0.1316,  ..., -0.0131,  0.1209,  0.0586],
+        [-0.0011, -0.0202, -0.0972,  ..., -0.2111,  0.0789, -0.1439],
+        [-0.0086, -0.0258, -0.0544,  ...,  0.0354, -0.0936,  0.0184]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -8.4005e-07,  ..., -7.7765e-07,
+          1.6764e-08,  8.8476e-09],
+        [ 9.3132e-10,  0.0000e+00,  2.8685e-07,  ...,  3.6787e-08,
+         -8.4797e-07, -4.8429e-07],
+        [ 0.0000e+00,  0.0000e+00, -1.0487e-06,  ...,  5.4948e-08,
+         -5.9605e-08,  5.2620e-08],
+        ...,
+        [ 4.6566e-10,  0.0000e+00,  6.5425e-07,  ...,  4.0513e-08,
+          3.3760e-07, -5.4017e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.5658e-07,  ...,  1.3364e-07,
+          1.7602e-07,  1.4435e-07],
+        [ 1.4435e-08,  0.0000e+00,  1.9744e-07,  ...,  1.7276e-07,
+          2.2911e-07,  1.5227e-07]], device='cuda:0')
+Epoch 204, bias, value: tensor([-0.0302,  0.0158,  0.0257,  0.0064,  0.0314, -0.0105, -0.0022, -0.0196,
+        -0.0206,  0.0175], device='cuda:0'), grad: tensor([-2.0564e-06, -1.9558e-06, -1.1232e-06,  1.7869e-04,  3.4552e-07,
+        -2.1482e-04,  8.3959e-07,  1.8878e-06,  1.5765e-05,  2.1979e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 203, time 220.29, cls_loss 0.0019 cls_loss_mapping 0.0039 cls_loss_causal 0.4944 re_mapping 0.0056 re_causal 0.0168 /// teacc 98.94 lr 0.00010000
+Epoch 205, weight, value: tensor([[ 0.0070,  0.0110,  0.0251,  ...,  0.0644, -0.1604, -0.1433],
+        [ 0.0507, -0.0185, -0.0069,  ..., -0.1712,  0.0509, -0.0932],
+        [-0.0050, -0.0048,  0.1613,  ..., -0.2497, -0.0914, -0.1340],
+        ...,
+        [-0.0135,  0.0062, -0.1330,  ..., -0.0123,  0.1209,  0.0598],
+        [-0.0015, -0.0202, -0.0977,  ..., -0.2122,  0.0793, -0.1444],
+        [-0.0087, -0.0258, -0.0547,  ...,  0.0345, -0.0943,  0.0166]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-08,  ..., -2.5611e-08,
+          2.0489e-08,  1.8626e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-07,  ...,  2.0955e-08,
+          4.8755e-07,  7.2643e-07],
+        [ 0.0000e+00,  0.0000e+00, -1.9707e-06,  ...,  4.6566e-09,
+          5.8534e-07,  6.1002e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.0163e-07,  ...,  3.8650e-08,
+         -1.2927e-06, -1.5218e-06],
+        [ 0.0000e+00,  0.0000e+00,  5.7463e-07,  ...,  4.3306e-08,
+         -1.1176e-08,  1.8906e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.9558e-08,  ..., -1.1455e-07,
+          5.6345e-08, -2.0117e-07]], device='cuda:0')
+Epoch 205, bias, value: tensor([-0.0294,  0.0160,  0.0259,  0.0064,  0.0323, -0.0103, -0.0022, -0.0191,
+        -0.0210,  0.0156], device='cuda:0'), grad: tensor([ 1.7276e-07,  1.9204e-06, -7.5530e-07,  1.6373e-06,  1.2200e-07,
+        -2.1160e-06,  6.7800e-07, -3.5204e-06,  1.9390e-06, -8.4285e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 204, time 220.69, cls_loss 0.0020 cls_loss_mapping 0.0037 cls_loss_causal 0.5303 re_mapping 0.0058 re_causal 0.0167 /// teacc 98.92 lr 0.00010000
+Epoch 206, weight, value: tensor([[ 0.0069,  0.0110,  0.0259,  ...,  0.0647, -0.1603, -0.1438],
+        [ 0.0504, -0.0185, -0.0073,  ..., -0.1729,  0.0511, -0.0933],
+        [-0.0048, -0.0048,  0.1629,  ..., -0.2502, -0.0917, -0.1342],
+        ...,
+        [-0.0135,  0.0062, -0.1348,  ..., -0.0123,  0.1210,  0.0600],
+        [-0.0016, -0.0202, -0.0982,  ..., -0.2132,  0.0789, -0.1453],
+        [-0.0087, -0.0258, -0.0549,  ...,  0.0341, -0.0946,  0.0163]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -3.0175e-07,  ..., -1.9558e-07,
+          2.7940e-08, -7.4506e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-08,  ...,  5.1223e-08,
+         -3.2410e-07,  1.1455e-07],
+        [ 0.0000e+00,  0.0000e+00,  5.3756e-06,  ...,  5.4948e-08,
+          2.6263e-07,  6.4261e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.2841e-08,  ...,  1.2107e-08,
+         -1.3970e-08, -2.4214e-08],
+        [ 0.0000e+00,  0.0000e+00, -9.0338e-08,  ...,  1.8626e-08,
+         -2.1420e-07,  2.7940e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-07,  ..., -1.7695e-08,
+          8.2888e-08, -3.9116e-08]], device='cuda:0')
+Epoch 206, bias, value: tensor([-0.0292,  0.0159,  0.0268,  0.0059,  0.0330, -0.0095, -0.0026, -0.0193,
+        -0.0216,  0.0150], device='cuda:0'), grad: tensor([-1.1735e-07, -5.0012e-07,  1.0498e-05, -9.0152e-06,  6.7987e-08,
+         3.0268e-07,  6.6962e-07,  9.3132e-08, -3.3714e-06,  1.3867e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 205, time 220.26, cls_loss 0.0021 cls_loss_mapping 0.0046 cls_loss_causal 0.5136 re_mapping 0.0058 re_causal 0.0162 /// teacc 98.97 lr 0.00010000
+Epoch 207, weight, value: tensor([[ 0.0068,  0.0110,  0.0260,  ...,  0.0646, -0.1612, -0.1444],
+        [ 0.0502, -0.0185, -0.0074,  ..., -0.1737,  0.0513, -0.0935],
+        [-0.0049, -0.0048,  0.1630,  ..., -0.2524, -0.0921, -0.1344],
+        ...,
+        [-0.0143,  0.0062, -0.1349,  ..., -0.0126,  0.1209,  0.0599],
+        [-0.0018, -0.0202, -0.0984,  ..., -0.2145,  0.0790, -0.1471],
+        [-0.0087, -0.0258, -0.0551,  ...,  0.0369, -0.0947,  0.0186]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -3.4124e-06,  ..., -5.4277e-06,
+         -1.0906e-06,  2.7008e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.5483e-07,  ...,  3.8836e-07,
+          1.3039e-08,  1.5460e-07],
+        [ 0.0000e+00,  0.0000e+00, -1.0710e-06,  ...,  2.6077e-07,
+          9.9652e-08,  2.6077e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  6.3330e-07,  ...,  7.8045e-07,
+          1.7602e-07,  9.5926e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.6298e-07,  ...,  5.3272e-07,
+         -3.7253e-09,  5.5134e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.2238e-06,  ...,  5.2378e-06,
+          3.5111e-07,  4.9956e-06]], device='cuda:0')
+Epoch 207, bias, value: tensor([-0.0296,  0.0161,  0.0263,  0.0059,  0.0301, -0.0093, -0.0022, -0.0195,
+        -0.0223,  0.0177], device='cuda:0'), grad: tensor([-1.4707e-05,  1.2266e-06, -5.4762e-07,  1.4687e-06, -7.5474e-06,
+         2.1327e-06,  1.0254e-06,  2.5779e-06,  1.3290e-06,  1.3039e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 206, time 220.77, cls_loss 0.0017 cls_loss_mapping 0.0029 cls_loss_causal 0.5133 re_mapping 0.0056 re_causal 0.0170 /// teacc 98.96 lr 0.00010000
+Epoch 208, weight, value: tensor([[ 0.0068,  0.0110,  0.0284,  ...,  0.0669, -0.1616, -0.1445],
+        [ 0.0502, -0.0185, -0.0086,  ..., -0.1766,  0.0501, -0.0939],
+        [-0.0049, -0.0048,  0.1641,  ..., -0.2534, -0.0924, -0.1346],
+        ...,
+        [-0.0153,  0.0062, -0.1350,  ..., -0.0129,  0.1214,  0.0599],
+        [-0.0019, -0.0202, -0.0987,  ..., -0.2151,  0.0790, -0.1474],
+        [-0.0088, -0.0258, -0.0571,  ...,  0.0356, -0.0950,  0.0183]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -3.7253e-07,  ..., -5.0012e-07,
+          4.0047e-08,  2.8871e-08],
+        [ 0.0000e+00,  0.0000e+00,  4.4797e-07,  ...,  2.8871e-08,
+          2.8238e-06,  1.6680e-06],
+        [ 0.0000e+00,  0.0000e+00,  3.7879e-05,  ...,  3.5390e-08,
+          5.2154e-07,  5.8919e-05],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -4.0680e-05,  ...,  6.3330e-08,
+         -3.8221e-06, -6.4135e-05],
+        [ 0.0000e+00,  0.0000e+00,  1.2480e-07,  ...,  9.1270e-08,
+          7.6368e-08,  1.3132e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.8720e-07,  ...,  2.8219e-07,
+          1.3784e-07,  1.0906e-06]], device='cuda:0')
+Epoch 208, bias, value: tensor([-0.0273,  0.0142,  0.0269,  0.0062,  0.0310, -0.0094, -0.0008, -0.0193,
+        -0.0223,  0.0167], device='cuda:0'), grad: tensor([-9.6764e-07,  6.7502e-06,  1.6212e-04,  1.5888e-06,  6.3106e-06,
+         4.8801e-07,  4.8988e-07, -1.7941e-04,  4.5728e-07,  1.8775e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 207, time 220.40, cls_loss 0.0016 cls_loss_mapping 0.0024 cls_loss_causal 0.5218 re_mapping 0.0052 re_causal 0.0169 /// teacc 98.94 lr 0.00010000
+Epoch 209, weight, value: tensor([[ 0.0068,  0.0110,  0.0285,  ...,  0.0670, -0.1621, -0.1447],
+        [ 0.0502, -0.0185, -0.0109,  ..., -0.1767,  0.0500, -0.0941],
+        [-0.0049, -0.0048,  0.1660,  ..., -0.2566, -0.0922, -0.1361],
+        ...,
+        [-0.0153,  0.0062, -0.1347,  ..., -0.0126,  0.1215,  0.0601],
+        [-0.0019, -0.0202, -0.0988,  ..., -0.2166,  0.0791, -0.1482],
+        [-0.0088, -0.0258, -0.0576,  ...,  0.0356, -0.0949,  0.0184]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.1420e-08,  ...,  1.1176e-08,
+          4.3772e-08,  3.4459e-08],
+        [-3.7253e-09,  0.0000e+00,  5.5879e-09,  ...,  4.8708e-07,
+          1.1083e-07,  1.1586e-06],
+        [ 2.7940e-09,  0.0000e+00, -2.0023e-07,  ...,  2.2352e-08,
+          4.6380e-07,  6.5379e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.4214e-08,  ...,  1.0245e-07,
+         -1.2591e-06, -1.5954e-06],
+        [ 0.0000e+00,  0.0000e+00,  6.4261e-08,  ...,  3.0734e-08,
+          5.8673e-08,  1.9372e-07],
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ...,  7.0594e-07,
+          5.9605e-08,  1.1418e-06]], device='cuda:0')
+Epoch 209, bias, value: tensor([-0.0274,  0.0132,  0.0281,  0.0063,  0.0311, -0.0100, -0.0004, -0.0192,
+        -0.0226,  0.0170], device='cuda:0'), grad: tensor([ 2.1048e-07,  1.8105e-06,  1.4994e-06,  2.1979e-06, -4.1984e-06,
+        -3.6787e-07,  6.4261e-07, -4.1984e-06,  3.8743e-07,  2.0005e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 208, time 220.79, cls_loss 0.0021 cls_loss_mapping 0.0030 cls_loss_causal 0.5299 re_mapping 0.0055 re_causal 0.0164 /// teacc 99.03 lr 0.00010000
+Epoch 210, weight, value: tensor([[ 0.0067,  0.0110,  0.0290,  ...,  0.0671, -0.1625, -0.1457],
+        [ 0.0524, -0.0185, -0.0128,  ..., -0.1773,  0.0497, -0.0941],
+        [-0.0063, -0.0048,  0.1678,  ..., -0.2580, -0.0915, -0.1363],
+        ...,
+        [-0.0152,  0.0062, -0.1346,  ..., -0.0127,  0.1217,  0.0602],
+        [-0.0020, -0.0202, -0.0988,  ..., -0.2175,  0.0797, -0.1474],
+        [-0.0088, -0.0258, -0.0584,  ...,  0.0347, -0.0952,  0.0175]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.3962e-05,  ..., -9.5740e-06,
+         -2.2314e-06,  7.0408e-07],
+        [ 0.0000e+00,  0.0000e+00,  2.0582e-07,  ...,  1.8440e-07,
+          2.8871e-08,  1.1548e-07],
+        [ 0.0000e+00,  0.0000e+00,  6.1654e-07,  ...,  1.6838e-06,
+          1.7509e-07,  4.3139e-06],
+        ...,
+        [-9.3132e-10,  0.0000e+00,  3.5018e-07,  ...,  3.4925e-07,
+          7.4506e-09,  2.6450e-07],
+        [ 0.0000e+00,  0.0000e+00,  8.4415e-06,  ...,  3.8207e-05,
+          1.5469e-06,  1.1456e-04],
+        [ 0.0000e+00,  0.0000e+00,  7.2643e-07,  ..., -3.8534e-05,
+          1.2852e-07, -1.3804e-04]], device='cuda:0')
+Epoch 210, bias, value: tensor([-0.0274,  0.0121,  0.0294,  0.0060,  0.0323, -0.0096, -0.0010, -0.0191,
+        -0.0219,  0.0161], device='cuda:0'), grad: tensor([-3.5524e-05,  8.1677e-07,  1.4849e-05,  1.7639e-06,  1.0684e-05,
+         4.3750e-05,  6.7391e-06,  1.5814e-06,  3.6764e-04, -4.1270e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 209, time 220.49, cls_loss 0.0018 cls_loss_mapping 0.0031 cls_loss_causal 0.4993 re_mapping 0.0054 re_causal 0.0164 /// teacc 98.93 lr 0.00010000
+Epoch 211, weight, value: tensor([[ 0.0066,  0.0110,  0.0306,  ...,  0.0679, -0.1628, -0.1475],
+        [ 0.0525, -0.0185, -0.0128,  ..., -0.1775,  0.0498, -0.0938],
+        [-0.0064, -0.0048,  0.1681,  ..., -0.2596, -0.0917, -0.1370],
+        ...,
+        [-0.0151,  0.0062, -0.1352,  ..., -0.0129,  0.1217,  0.0601],
+        [-0.0021, -0.0202, -0.0994,  ..., -0.2198,  0.0799, -0.1486],
+        [-0.0088, -0.0258, -0.0588,  ...,  0.0339, -0.0954,  0.0164]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.3027e-07,  ..., -2.5239e-07,
+          2.8126e-07,  1.8626e-09],
+        [-9.3132e-09,  0.0000e+00,  2.8126e-07,  ...,  5.5879e-09,
+          1.3225e-07, -1.3039e-08],
+        [ 1.8626e-09,  0.0000e+00, -2.3767e-06,  ...,  1.9185e-07,
+          4.2561e-07,  1.2107e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  7.0874e-07,  ...,  1.8626e-08,
+         -9.3132e-09, -4.2841e-08],
+        [ 9.3132e-10,  0.0000e+00,  2.1979e-07,  ...,  1.5832e-08,
+         -9.2108e-07,  9.3132e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.5635e-08,  ...,  4.4703e-08,
+          2.7008e-08,  5.9605e-08]], device='cuda:0')
+Epoch 211, bias, value: tensor([-0.0264,  0.0123,  0.0293,  0.0060,  0.0337, -0.0097, -0.0012, -0.0193,
+        -0.0222,  0.0151], device='cuda:0'), grad: tensor([ 1.7704e-06,  6.7148e-07, -2.4699e-06,  2.7046e-06,  1.5274e-07,
+         1.0356e-06, -2.9430e-06,  1.2685e-06, -2.4140e-06,  2.1141e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 210, time 220.36, cls_loss 0.0014 cls_loss_mapping 0.0029 cls_loss_causal 0.4821 re_mapping 0.0057 re_causal 0.0167 /// teacc 98.99 lr 0.00010000
+Epoch 212, weight, value: tensor([[ 0.0064,  0.0110,  0.0315,  ...,  0.0680, -0.1645, -0.1487],
+        [ 0.0532, -0.0185, -0.0129,  ..., -0.1777,  0.0499, -0.0937],
+        [-0.0067, -0.0048,  0.1682,  ..., -0.2603, -0.0919, -0.1373],
+        ...,
+        [-0.0151,  0.0062, -0.1354,  ..., -0.0131,  0.1218,  0.0601],
+        [-0.0023, -0.0202, -0.0997,  ..., -0.2209,  0.0800, -0.1493],
+        [-0.0088, -0.0258, -0.0590,  ...,  0.0341, -0.0955,  0.0165]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.0421e-06,  ..., -8.0746e-07,
+          2.9597e-06,  1.1176e-08],
+        [-9.3132e-10,  0.0000e+00,  9.8348e-06,  ..., -4.2841e-08,
+          2.6617e-06, -4.0978e-08],
+        [ 0.0000e+00,  0.0000e+00, -1.0408e-05,  ...,  6.8918e-08,
+         -2.9802e-06,  4.1910e-08],
+        ...,
+        [-2.7940e-09,  0.0000e+00,  2.1141e-07,  ...,  4.7497e-08,
+         -1.9558e-08, -5.8673e-08],
+        [ 0.0000e+00,  0.0000e+00,  5.2340e-07,  ...,  1.6950e-07,
+          2.7847e-07,  1.0235e-06],
+        [ 1.8626e-09,  0.0000e+00,  6.5099e-07,  ...,  5.6997e-07,
+         -4.9360e-08, -6.4354e-07]], device='cuda:0')
+Epoch 212, bias, value: tensor([-0.0270,  0.0125,  0.0293,  0.0048,  0.0336, -0.0087, -0.0008, -0.0194,
+        -0.0223,  0.0152], device='cuda:0'), grad: tensor([ 1.2361e-05,  1.3918e-05, -1.4052e-05,  3.4273e-06,  1.5292e-06,
+        -2.0131e-05, -1.4096e-05,  5.1409e-07,  1.3404e-05,  3.1237e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 211, time 220.43, cls_loss 0.0018 cls_loss_mapping 0.0031 cls_loss_causal 0.5263 re_mapping 0.0052 re_causal 0.0158 /// teacc 99.03 lr 0.00010000
+Epoch 213, weight, value: tensor([[ 0.0062,  0.0110,  0.0349,  ...,  0.0700, -0.1649, -0.1454],
+        [ 0.0536, -0.0185, -0.0128,  ..., -0.1779,  0.0500, -0.0934],
+        [-0.0069, -0.0048,  0.1682,  ..., -0.2619, -0.0922, -0.1379],
+        ...,
+        [-0.0153,  0.0062, -0.1360,  ..., -0.0132,  0.1221,  0.0606],
+        [-0.0024, -0.0202, -0.1005,  ..., -0.2222,  0.0800, -0.1499],
+        [-0.0088, -0.0258, -0.0616,  ...,  0.0347, -0.0959,  0.0169]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.7695e-08,  ..., -7.4506e-09,
+          9.3132e-09,  8.3819e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.8184e-08,  ...,  1.0245e-08,
+         -1.8626e-07, -1.5832e-08],
+        [ 0.0000e+00,  0.0000e+00, -7.0781e-08,  ...,  1.8626e-09,
+          5.7742e-08,  4.6566e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  6.8918e-08,  ...,  1.3970e-08,
+          4.2841e-08,  2.7008e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.6897e-06,  ...,  5.1223e-08,
+         -8.8476e-08,  9.4995e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.5146e-08,  ..., -4.5262e-06,
+          1.4901e-08, -9.0376e-06]], device='cuda:0')
+Epoch 213, bias, value: tensor([-0.0248,  0.0128,  0.0290,  0.0050,  0.0321, -0.0086, -0.0009, -0.0191,
+        -0.0228,  0.0151], device='cuda:0'), grad: tensor([ 8.1025e-08, -5.5321e-07,  3.7998e-07, -7.0669e-06,  1.2368e-05,
+         1.5358e-06, -5.1223e-08,  2.8405e-07,  5.0142e-06, -1.2010e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 212----------------------------------------------------
+epoch 212, time 221.23, cls_loss 0.0016 cls_loss_mapping 0.0033 cls_loss_causal 0.4916 re_mapping 0.0054 re_causal 0.0159 /// teacc 99.15 lr 0.00010000
+Epoch 214, weight, value: tensor([[ 0.0062,  0.0110,  0.0356,  ...,  0.0700, -0.1649, -0.1460],
+        [ 0.0538, -0.0185, -0.0128,  ..., -0.1780,  0.0503, -0.0928],
+        [-0.0069, -0.0048,  0.1682,  ..., -0.2630, -0.0926, -0.1382],
+        ...,
+        [-0.0153,  0.0062, -0.1363,  ..., -0.0131,  0.1223,  0.0608],
+        [-0.0025, -0.0202, -0.1015,  ..., -0.2230,  0.0806, -0.1505],
+        [-0.0088, -0.0258, -0.0618,  ...,  0.0360, -0.0964,  0.0172]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.1129e-06,  ..., -2.4773e-07,
+          1.5134e-06,  2.0675e-06],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-08,  ...,  3.3304e-06,
+          2.9523e-06,  8.9109e-06],
+        [-9.3132e-10,  0.0000e+00, -6.9849e-08,  ...,  1.3690e-07,
+          3.9861e-07,  4.4052e-07],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  5.4017e-08,  ..., -2.8205e-04,
+         -2.9683e-04, -7.4244e-04],
+        [ 0.0000e+00,  0.0000e+00,  1.5832e-07,  ...,  4.5449e-07,
+          2.9504e-05,  1.4398e-06],
+        [ 0.0000e+00,  0.0000e+00,  7.5437e-08,  ...,  2.5415e-04,
+          2.7633e-04,  6.7854e-04]], device='cuda:0')
+Epoch 214, bias, value: tensor([-0.0246,  0.0133,  0.0288,  0.0051,  0.0315, -0.0085, -0.0014, -0.0190,
+        -0.0227,  0.0152], device='cuda:0'), grad: tensor([ 1.5954e-06,  1.4313e-05,  1.2405e-06,  6.6794e-06,  7.0035e-05,
+         1.5974e-05, -5.7399e-05, -1.3552e-03,  6.2644e-05,  1.2388e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 213, time 220.20, cls_loss 0.0015 cls_loss_mapping 0.0036 cls_loss_causal 0.5394 re_mapping 0.0053 re_causal 0.0164 /// teacc 98.99 lr 0.00010000
+Epoch 215, weight, value: tensor([[ 0.0061,  0.0110,  0.0354,  ...,  0.0697, -0.1653, -0.1463],
+        [ 0.0554, -0.0185, -0.0126,  ..., -0.1783,  0.0508, -0.0929],
+        [-0.0078, -0.0048,  0.1689,  ..., -0.2633, -0.0927, -0.1381],
+        ...,
+        [-0.0153,  0.0062, -0.1372,  ..., -0.0124,  0.1222,  0.0613],
+        [-0.0026, -0.0202, -0.1024,  ..., -0.2234,  0.0809, -0.1505],
+        [-0.0088, -0.0258, -0.0617,  ...,  0.0358, -0.0972,  0.0168]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  3.1665e-07,  ...,  1.4715e-07,
+          3.4459e-08,  2.0489e-07],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  4.0978e-08,
+         -7.0781e-08,  7.2643e-08],
+        [ 0.0000e+00,  0.0000e+00, -5.9232e-07,  ...,  4.3772e-08,
+          8.0094e-08,  6.7987e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.6764e-08,  ...,  1.2666e-07,
+         -6.5193e-09,  2.3190e-07],
+        [ 0.0000e+00,  0.0000e+00,  4.0047e-08,  ...,  2.4214e-08,
+         -1.1362e-06,  3.7253e-08],
+        [ 0.0000e+00,  0.0000e+00, -3.2596e-08,  ..., -4.0606e-07,
+          1.9558e-08, -8.4378e-07]], device='cuda:0')
+Epoch 215, bias, value: tensor([-0.0250,  0.0136,  0.0291,  0.0051,  0.0316, -0.0085, -0.0017, -0.0189,
+        -0.0227,  0.0147], device='cuda:0'), grad: tensor([ 7.9256e-07, -4.6566e-08, -3.4645e-07,  5.3179e-07,  1.6205e-07,
+         1.7714e-06, -2.1979e-07,  3.5577e-07, -1.9353e-06, -1.0720e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 214, time 220.63, cls_loss 0.0015 cls_loss_mapping 0.0031 cls_loss_causal 0.5145 re_mapping 0.0053 re_causal 0.0166 /// teacc 98.91 lr 0.00010000
+Epoch 216, weight, value: tensor([[ 0.0060,  0.0110,  0.0357,  ...,  0.0699, -0.1656, -0.1463],
+        [ 0.0554, -0.0185, -0.0125,  ..., -0.1785,  0.0509, -0.0930],
+        [-0.0078, -0.0048,  0.1688,  ..., -0.2642, -0.0933, -0.1384],
+        ...,
+        [-0.0153,  0.0062, -0.1373,  ..., -0.0123,  0.1223,  0.0615],
+        [-0.0027, -0.0202, -0.1025,  ..., -0.2239,  0.0813, -0.1506],
+        [-0.0089, -0.0258, -0.0620,  ...,  0.0368, -0.0974,  0.0175]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -7.5437e-08,  ...,  1.7472e-06,
+          5.5879e-09,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.5146e-08,  ...,  2.7008e-08,
+         -1.0245e-08,  6.9849e-08],
+        [-9.3132e-10,  0.0000e+00, -1.8654e-06,  ...,  1.3970e-08,
+          7.4506e-09,  8.3819e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.3772e-08,  ...,  1.3970e-08,
+         -7.7300e-08, -8.3819e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.3746e-06,  ...,  4.9360e-08,
+          1.2107e-08,  1.2107e-08],
+        [ 0.0000e+00,  0.0000e+00,  6.9849e-08,  ...,  2.9150e-07,
+          3.4459e-08,  4.0419e-07]], device='cuda:0')
+Epoch 216, bias, value: tensor([-0.0247,  0.0138,  0.0287,  0.0065,  0.0308, -0.0099, -0.0020, -0.0187,
+        -0.0225,  0.0152], device='cuda:0'), grad: tensor([ 1.0513e-05,  3.7253e-08, -2.6785e-06,  7.2084e-07,  4.2375e-07,
+        -4.0978e-07, -1.1727e-05, -7.3574e-08,  2.3916e-06,  7.9162e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 215, time 220.69, cls_loss 0.0017 cls_loss_mapping 0.0030 cls_loss_causal 0.4950 re_mapping 0.0051 re_causal 0.0155 /// teacc 99.01 lr 0.00010000
+Epoch 217, weight, value: tensor([[ 0.0059,  0.0110,  0.0360,  ...,  0.0704, -0.1659, -0.1464],
+        [ 0.0568, -0.0185, -0.0123,  ..., -0.1787,  0.0511, -0.0929],
+        [-0.0086, -0.0048,  0.1690,  ..., -0.2645, -0.0935, -0.1385],
+        ...,
+        [-0.0153,  0.0062, -0.1374,  ..., -0.0124,  0.1225,  0.0620],
+        [-0.0031, -0.0202, -0.1045,  ..., -0.2242,  0.0811, -0.1513],
+        [-0.0089, -0.0258, -0.0621,  ...,  0.0370, -0.0977,  0.0175]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -9.3319e-07,  ..., -6.9290e-07,
+          5.7742e-08,  3.9116e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.6764e-08,  ...,  2.1420e-08,
+          6.5118e-06,  2.5909e-06],
+        [ 0.0000e+00,  0.0000e+00, -2.7940e-09,  ...,  1.6764e-08,
+          5.1223e-08,  3.0734e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.9116e-08,  ...,  2.4308e-07,
+         -9.4101e-06, -2.8722e-06],
+        [ 0.0000e+00,  0.0000e+00,  3.3528e-08,  ...,  5.4948e-08,
+          1.2843e-06,  1.5413e-06],
+        [ 0.0000e+00,  0.0000e+00,  4.3772e-08,  ..., -2.8554e-06,
+          8.0466e-07, -8.1807e-06]], device='cuda:0')
+Epoch 217, bias, value: tensor([-0.0258,  0.0142,  0.0288,  0.0077,  0.0306, -0.0102, -0.0018, -0.0184,
+        -0.0253,  0.0151], device='cuda:0'), grad: tensor([-2.9318e-06,  1.5378e-05,  3.4645e-07,  1.2275e-06,  1.0334e-05,
+        -2.3898e-06,  2.4680e-06, -2.0757e-05,  2.7120e-06, -6.4448e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 216, time 220.35, cls_loss 0.0022 cls_loss_mapping 0.0041 cls_loss_causal 0.5101 re_mapping 0.0055 re_causal 0.0153 /// teacc 98.91 lr 0.00010000
+Epoch 218, weight, value: tensor([[ 0.0059,  0.0110,  0.0362,  ...,  0.0713, -0.1668, -0.1452],
+        [ 0.0568, -0.0185, -0.0124,  ..., -0.1792,  0.0508, -0.0932],
+        [-0.0087, -0.0048,  0.1696,  ..., -0.2650, -0.0939, -0.1376],
+        ...,
+        [-0.0153,  0.0062, -0.1375,  ..., -0.0126,  0.1230,  0.0627],
+        [-0.0031, -0.0202, -0.1048,  ..., -0.2248,  0.0823, -0.1508],
+        [-0.0089, -0.0258, -0.0642,  ...,  0.0365, -0.0983,  0.0166]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.2655e-07,  ..., -7.6927e-07,
+          2.9150e-07,  1.0338e-07],
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-09,  ...,  8.6613e-08,
+          4.4052e-07,  1.7136e-06],
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ...,  2.7940e-08,
+          1.7015e-06,  4.8336e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.6764e-08,  ...,  1.9465e-07,
+         -1.3366e-05, -4.5121e-05],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-08,  ...,  5.2154e-08,
+         -2.1696e-05,  3.9116e-07],
+        [ 0.0000e+00,  0.0000e+00,  6.0536e-08,  ...,  2.7660e-07,
+          1.7643e-05,  4.0591e-05]], device='cuda:0')
+Epoch 218, bias, value: tensor([-0.0241,  0.0139,  0.0289,  0.0075,  0.0307, -0.0097, -0.0028, -0.0177,
+        -0.0247,  0.0137], device='cuda:0'), grad: tensor([-4.3958e-07,  3.4533e-06,  8.4043e-06,  1.3731e-05,  1.5348e-05,
+         3.7551e-05,  3.1292e-06, -7.8619e-05, -1.0478e-04,  1.0234e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 217, time 220.67, cls_loss 0.0014 cls_loss_mapping 0.0022 cls_loss_causal 0.5102 re_mapping 0.0056 re_causal 0.0167 /// teacc 98.95 lr 0.00010000
+Epoch 219, weight, value: tensor([[ 0.0058,  0.0110,  0.0360,  ...,  0.0713, -0.1677, -0.1454],
+        [ 0.0568, -0.0185, -0.0124,  ..., -0.1794,  0.0509, -0.0933],
+        [-0.0084, -0.0048,  0.1698,  ..., -0.2655, -0.0943, -0.1379],
+        ...,
+        [-0.0155,  0.0062, -0.1378,  ..., -0.0128,  0.1231,  0.0628],
+        [-0.0032, -0.0202, -0.1047,  ..., -0.2253,  0.0840, -0.1497],
+        [-0.0089, -0.0258, -0.0643,  ...,  0.0365, -0.0989,  0.0165]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.3660e-06,  ...,  1.3039e-08,
+          3.1386e-07,  2.8871e-07],
+        [ 0.0000e+00,  0.0000e+00,  4.0047e-08,  ...,  3.0734e-08,
+          8.5961e-07,  3.9209e-07],
+        [ 0.0000e+00,  0.0000e+00, -8.4043e-06,  ...,  6.5193e-09,
+          1.4901e-07,  1.1362e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.2852e-07,  ..., -1.2573e-07,
+         -2.7083e-06, -3.3304e-06],
+        [ 0.0000e+00,  0.0000e+00,  8.2888e-08,  ...,  3.3826e-06,
+          4.1574e-06,  1.0505e-05],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-08,  ...,  4.3772e-08,
+          1.8142e-06,  2.0899e-06]], device='cuda:0')
+Epoch 219, bias, value: tensor([-0.0242,  0.0139,  0.0289,  0.0074,  0.0306, -0.0099, -0.0025, -0.0177,
+        -0.0234,  0.0134], device='cuda:0'), grad: tensor([ 7.0110e-06,  1.8217e-06, -1.1608e-05,  5.6177e-06, -2.1771e-05,
+         1.2346e-05, -1.8522e-05, -6.2063e-06,  2.7150e-05,  4.1947e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 218, time 220.79, cls_loss 0.0020 cls_loss_mapping 0.0031 cls_loss_causal 0.5388 re_mapping 0.0053 re_causal 0.0166 /// teacc 99.06 lr 0.00010000
+Epoch 220, weight, value: tensor([[ 0.0057,  0.0110,  0.0360,  ...,  0.0708, -0.1682, -0.1457],
+        [ 0.0568, -0.0185, -0.0125,  ..., -0.1802,  0.0486, -0.0958],
+        [-0.0083, -0.0048,  0.1709,  ..., -0.2661, -0.0938, -0.1379],
+        ...,
+        [-0.0186,  0.0062, -0.1401,  ..., -0.0129,  0.1246,  0.0634],
+        [-0.0039, -0.0202, -0.1050,  ..., -0.2269,  0.0845, -0.1513],
+        [-0.0088, -0.0258, -0.0643,  ...,  0.0365, -0.0986,  0.0167]],
+       device='cuda:0'), grad: tensor([[ 3.8370e-07,  0.0000e+00,  2.1420e-08,  ...,  4.9453e-07,
+          1.2945e-07,  1.4957e-06],
+        [ 3.9674e-07,  0.0000e+00,  4.0047e-07,  ...,  7.8417e-07,
+          3.2410e-07,  2.3991e-06],
+        [-1.7136e-07,  0.0000e+00, -2.3283e-06,  ...,  3.9209e-07,
+          8.5682e-07,  1.9651e-06],
+        ...,
+        [ 3.1367e-06,  0.0000e+00,  6.4448e-07,  ...,  6.6236e-06,
+         -1.5358e-06,  1.4283e-05],
+        [ 2.4773e-06,  0.0000e+00,  5.8394e-07,  ...,  3.7141e-06,
+          2.1420e-07,  9.6858e-06],
+        [-6.1810e-05,  0.0000e+00,  4.4703e-08,  ..., -1.3864e-04,
+          8.6892e-07, -3.4285e-04]], device='cuda:0')
+Epoch 220, bias, value: tensor([-0.0248,  0.0119,  0.0297,  0.0086,  0.0308, -0.0100, -0.0021, -0.0180,
+        -0.0234,  0.0139], device='cuda:0'), grad: tensor([ 6.3814e-06,  6.5155e-06,  1.5181e-06,  1.1235e-05,  3.9649e-04,
+         3.2520e-04, -3.3081e-05,  2.3529e-05,  2.7224e-05, -7.6485e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 219, time 220.35, cls_loss 0.0019 cls_loss_mapping 0.0026 cls_loss_causal 0.5160 re_mapping 0.0055 re_causal 0.0156 /// teacc 98.96 lr 0.00010000
+Epoch 221, weight, value: tensor([[ 0.0051,  0.0110,  0.0360,  ...,  0.0710, -0.1691, -0.1460],
+        [ 0.0567, -0.0185, -0.0125,  ..., -0.1806,  0.0487, -0.0958],
+        [-0.0083, -0.0048,  0.1710,  ..., -0.2668, -0.0946, -0.1389],
+        ...,
+        [-0.0186,  0.0062, -0.1404,  ..., -0.0132,  0.1248,  0.0638],
+        [-0.0047, -0.0202, -0.1043,  ..., -0.2278,  0.0850, -0.1520],
+        [-0.0074, -0.0258, -0.0644,  ...,  0.0366, -0.0988,  0.0167]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09,  0.0000e+00,  1.2759e-07,  ..., -7.5474e-06,
+          3.8184e-08,  5.0291e-08],
+        [ 9.3132e-10,  0.0000e+00, -8.1025e-08,  ...,  6.5938e-07,
+         -4.0978e-07,  1.7909e-06],
+        [-3.4459e-07,  0.0000e+00, -3.0100e-06,  ...,  1.1921e-07,
+          3.4273e-07,  1.2107e-07],
+        ...,
+        [ 1.1548e-07,  0.0000e+00,  1.7406e-06,  ...,  7.0129e-07,
+         -1.3122e-06, -4.6007e-07],
+        [ 8.3819e-09,  0.0000e+00,  5.1316e-07,  ...,  1.0338e-07,
+          2.1420e-07,  2.0862e-07],
+        [ 6.5193e-09,  0.0000e+00,  2.2165e-07,  ...,  1.0729e-05,
+          1.1483e-06,  1.3523e-05]], device='cuda:0')
+Epoch 221, bias, value: tensor([-0.0248,  0.0120,  0.0288,  0.0084,  0.0305, -0.0098, -0.0029, -0.0174,
+        -0.0229,  0.0140], device='cuda:0'), grad: tensor([-1.7583e-05,  1.7881e-07, -2.7344e-06, -3.9395e-07, -1.7509e-05,
+         8.8383e-07,  1.7080e-06,  2.0321e-06,  2.0899e-06,  3.1322e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 220, time 220.46, cls_loss 0.0016 cls_loss_mapping 0.0027 cls_loss_causal 0.5336 re_mapping 0.0055 re_causal 0.0166 /// teacc 98.90 lr 0.00010000
+Epoch 222, weight, value: tensor([[ 0.0049,  0.0110,  0.0360,  ...,  0.0712, -0.1703, -0.1461],
+        [ 0.0566, -0.0185, -0.0124,  ..., -0.1812,  0.0486, -0.0961],
+        [-0.0071, -0.0048,  0.1714,  ..., -0.2670, -0.0949, -0.1391],
+        ...,
+        [-0.0187,  0.0062, -0.1409,  ..., -0.0137,  0.1249,  0.0636],
+        [-0.0050, -0.0202, -0.1051,  ..., -0.2286,  0.0854, -0.1527],
+        [-0.0067, -0.0258, -0.0645,  ...,  0.0366, -0.0991,  0.0163]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.5832e-08,  ..., -3.4459e-08,
+          6.5193e-09,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00, -1.3240e-05,  ...,  9.3132e-09,
+         -3.5018e-07, -1.1455e-07],
+        [ 0.0000e+00,  0.0000e+00,  8.5384e-06,  ...,  2.7940e-09,
+          1.7881e-07,  8.2888e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.1237e-06,  ...,  2.6077e-08,
+          3.6322e-08,  2.7008e-08],
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-09,  ...,  4.6566e-09,
+          1.3970e-08,  5.4017e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.2352e-08,  ...,  6.5193e-09,
+          3.1665e-08, -1.3877e-07]], device='cuda:0')
+Epoch 222, bias, value: tensor([-0.0250,  0.0120,  0.0287,  0.0083,  0.0315, -0.0098, -0.0032, -0.0176,
+        -0.0227,  0.0137], device='cuda:0'), grad: tensor([ 4.5635e-08, -7.4029e-05,  4.7863e-05,  8.2105e-06,  3.8091e-07,
+         7.4506e-08, -3.5390e-08,  1.7345e-05,  1.9465e-07,  0.0000e+00],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 221, time 220.33, cls_loss 0.0021 cls_loss_mapping 0.0034 cls_loss_causal 0.4795 re_mapping 0.0059 re_causal 0.0162 /// teacc 98.97 lr 0.00010000
+Epoch 223, weight, value: tensor([[ 0.0048,  0.0110,  0.0363,  ...,  0.0712, -0.1709, -0.1463],
+        [ 0.0575, -0.0185, -0.0124,  ..., -0.1826,  0.0494, -0.0965],
+        [-0.0078, -0.0048,  0.1714,  ..., -0.2688, -0.0965, -0.1389],
+        ...,
+        [-0.0186,  0.0062, -0.1406,  ..., -0.0138,  0.1247,  0.0637],
+        [-0.0054, -0.0202, -0.1050,  ..., -0.2300,  0.0858, -0.1536],
+        [-0.0063, -0.0258, -0.0657,  ...,  0.0364, -0.0994,  0.0164]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.1816e-07,  ...,  1.8161e-07,
+          5.5041e-07,  7.4133e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.0803e-07,  ...,  2.7101e-07,
+         -1.1310e-05, -4.2394e-06],
+        [ 0.0000e+00,  0.0000e+00,  1.1520e-06,  ...,  4.1071e-07,
+          1.1474e-06,  1.4324e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -1.7863e-06,  ...,  7.0501e-07,
+         -2.0899e-06, -1.6401e-06],
+        [ 0.0000e+00,  0.0000e+00,  3.9116e-08,  ...,  2.8219e-07,
+          6.7707e-07,  5.4762e-07],
+        [-9.3132e-10,  0.0000e+00,  2.1979e-07,  ...,  1.7369e-06,
+          4.1258e-07,  1.6997e-06]], device='cuda:0')
+Epoch 223, bias, value: tensor([-0.0256,  0.0122,  0.0271,  0.0080,  0.0321, -0.0098, -0.0020, -0.0171,
+        -0.0225,  0.0132], device='cuda:0'), grad: tensor([ 2.0787e-06, -2.6256e-05,  5.9083e-06,  1.4342e-07, -8.2552e-06,
+         2.7940e-07,  2.7820e-05, -8.0839e-06,  2.2389e-06,  4.1313e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 222, time 220.59, cls_loss 0.0021 cls_loss_mapping 0.0026 cls_loss_causal 0.5311 re_mapping 0.0057 re_causal 0.0169 /// teacc 98.91 lr 0.00010000
+Epoch 224, weight, value: tensor([[ 0.0045,  0.0110,  0.0366,  ...,  0.0714, -0.1713, -0.1465],
+        [ 0.0594, -0.0185, -0.0122,  ..., -0.1828,  0.0493, -0.0967],
+        [-0.0094, -0.0048,  0.1717,  ..., -0.2703, -0.0973, -0.1384],
+        ...,
+        [-0.0186,  0.0062, -0.1407,  ..., -0.0143,  0.1252,  0.0635],
+        [-0.0061, -0.0202, -0.1072,  ..., -0.2311,  0.0860, -0.1547],
+        [-0.0060, -0.0258, -0.0660,  ...,  0.0360, -0.0997,  0.0132]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -6.5751e-07,  ..., -3.6322e-08,
+          1.9837e-07,  1.3877e-07],
+        [ 0.0000e+00,  0.0000e+00,  4.9360e-08,  ...,  4.6566e-09,
+          3.9209e-07,  8.6240e-07],
+        [ 0.0000e+00,  0.0000e+00, -1.0990e-07,  ...,  8.3819e-09,
+          2.3004e-07,  3.8929e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.0245e-08,  ...,  1.1176e-08,
+         -1.4398e-06,  7.0743e-06],
+        [ 0.0000e+00,  0.0000e+00,  2.1420e-07,  ...,  7.7300e-08,
+         -5.2247e-07,  5.5041e-07],
+        [ 0.0000e+00,  0.0000e+00,  3.0827e-07,  ..., -2.1327e-07,
+          4.3120e-07,  5.9418e-07]], device='cuda:0')
+Epoch 224, bias, value: tensor([-0.0256,  0.0120,  0.0259,  0.0079,  0.0353, -0.0096, -0.0023, -0.0161,
+        -0.0232,  0.0103], device='cuda:0'), grad: tensor([ 6.6869e-07,  1.9819e-06,  2.0228e-06,  3.6433e-06,  1.0297e-05,
+        -4.2543e-06, -6.9916e-05,  4.8250e-05,  2.6673e-06,  4.5411e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 223, time 220.34, cls_loss 0.0013 cls_loss_mapping 0.0023 cls_loss_causal 0.4962 re_mapping 0.0056 re_causal 0.0163 /// teacc 98.94 lr 0.00010000
+Epoch 225, weight, value: tensor([[ 0.0044,  0.0110,  0.0363,  ...,  0.0706, -0.1717, -0.1474],
+        [ 0.0595, -0.0185, -0.0122,  ..., -0.1830,  0.0494, -0.0965],
+        [-0.0094, -0.0048,  0.1720,  ..., -0.2707, -0.0975, -0.1386],
+        ...,
+        [-0.0186,  0.0062, -0.1409,  ..., -0.0144,  0.1253,  0.0635],
+        [-0.0062, -0.0202, -0.1083,  ..., -0.2318,  0.0859, -0.1554],
+        [-0.0060, -0.0258, -0.0657,  ...,  0.0360, -0.1000,  0.0128]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -9.3132e-09,  ..., -1.4901e-08,
+          9.3132e-10,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.9116e-08,  ...,  2.7940e-09,
+          2.1420e-08,  3.3528e-08],
+        [-9.3132e-10,  0.0000e+00, -4.2748e-07,  ...,  0.0000e+00,
+          3.7253e-09,  6.5193e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  7.7300e-08,  ...,  3.0734e-08,
+         -5.2154e-08,  2.2165e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.0245e-07,  ...,  7.0781e-08,
+          0.0000e+00,  6.2492e-07],
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ..., -1.6671e-07,
+          9.3132e-09, -1.4007e-06]], device='cuda:0')
+Epoch 225, bias, value: tensor([-0.0264,  0.0121,  0.0260,  0.0078,  0.0358, -0.0095, -0.0022, -0.0160,
+        -0.0234,  0.0099], device='cuda:0'), grad: tensor([-3.0734e-08,  1.3411e-07, -6.7428e-07,  2.2911e-07,  5.9512e-07,
+        -1.2573e-07,  1.4156e-07,  3.5670e-07,  1.0272e-06, -1.6615e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 224, time 220.68, cls_loss 0.0014 cls_loss_mapping 0.0025 cls_loss_causal 0.4909 re_mapping 0.0053 re_causal 0.0163 /// teacc 98.93 lr 0.00010000
+Epoch 226, weight, value: tensor([[ 0.0044,  0.0110,  0.0363,  ...,  0.0702, -0.1722, -0.1478],
+        [ 0.0595, -0.0185, -0.0146,  ..., -0.1832,  0.0486, -0.0966],
+        [-0.0094, -0.0048,  0.1745,  ..., -0.2711, -0.0954, -0.1387],
+        ...,
+        [-0.0186,  0.0062, -0.1414,  ..., -0.0145,  0.1255,  0.0638],
+        [-0.0062, -0.0202, -0.1088,  ..., -0.2325,  0.0861, -0.1561],
+        [-0.0060, -0.0258, -0.0659,  ...,  0.0369, -0.1002,  0.0131]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00, -6.8452e-08,  ..., -1.8673e-07,
+          4.7497e-08,  2.7008e-08],
+        [-6.0536e-09,  0.0000e+00,  6.9384e-08,  ...,  8.6566e-07,
+         -1.2275e-06,  1.9595e-06],
+        [ 1.0980e-06,  0.0000e+00,  5.8264e-06,  ...,  2.6077e-08,
+          3.8045e-07,  2.4121e-07],
+        ...,
+        [ 8.6613e-08,  0.0000e+00,  7.8324e-07,  ...,  1.8785e-06,
+         -1.5181e-07,  3.0305e-06],
+        [ 5.1223e-09,  0.0000e+00,  2.1188e-07,  ...,  3.4925e-08,
+         -2.1420e-08,  8.3819e-08],
+        [ 1.3970e-09,  0.0000e+00,  6.1467e-08,  ...,  1.1707e-06,
+          2.9849e-07,  2.7083e-06]], device='cuda:0')
+Epoch 226, bias, value: tensor([-0.0268,  0.0106,  0.0280,  0.0078,  0.0353, -0.0093, -0.0024, -0.0159,
+        -0.0236,  0.0103], device='cuda:0'), grad: tensor([-1.4389e-07,  5.6159e-07,  3.1292e-05, -3.3140e-05, -1.2167e-05,
+        -1.8906e-07,  6.3563e-07,  7.9200e-06,  4.0326e-07,  4.8019e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 225, time 220.42, cls_loss 0.0017 cls_loss_mapping 0.0030 cls_loss_causal 0.5187 re_mapping 0.0053 re_causal 0.0155 /// teacc 98.98 lr 0.00010000
+Epoch 227, weight, value: tensor([[ 0.0043,  0.0110,  0.0358,  ...,  0.0694, -0.1731, -0.1484],
+        [ 0.0594, -0.0185, -0.0146,  ..., -0.1837,  0.0482, -0.0971],
+        [-0.0098, -0.0048,  0.1749,  ..., -0.2715, -0.0959, -0.1391],
+        ...,
+        [-0.0186,  0.0062, -0.1416,  ..., -0.0150,  0.1262,  0.0644],
+        [-0.0064, -0.0202, -0.1092,  ..., -0.2337,  0.0870, -0.1560],
+        [-0.0061, -0.0258, -0.0661,  ...,  0.0380, -0.1006,  0.0134]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.4529e-06,  ..., -2.2817e-08,
+          3.1665e-08,  5.0105e-07],
+        [ 0.0000e+00,  0.0000e+00,  5.2620e-08,  ...,  1.2154e-07,
+         -3.8415e-05, -2.0072e-05],
+        [ 0.0000e+00,  0.0000e+00, -2.8722e-06,  ...,  3.2596e-09,
+          1.5600e-07, -1.2023e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.2610e-06,  ...,  8.9407e-08,
+          3.4302e-05,  1.8179e-05],
+        [ 0.0000e+00,  0.0000e+00,  1.5926e-06,  ...,  9.3132e-09,
+          2.0023e-07,  1.5879e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.6298e-07,  ...,  1.2852e-07,
+          3.2447e-06,  1.9986e-06]], device='cuda:0')
+Epoch 227, bias, value: tensor([-0.0276,  0.0104,  0.0278,  0.0075,  0.0348, -0.0094, -0.0020, -0.0152,
+        -0.0233,  0.0107], device='cuda:0'), grad: tensor([ 2.4699e-06, -8.4341e-05,  3.0138e-06,  1.3024e-05,  1.5777e-06,
+        -4.1515e-05, -4.6566e-10,  8.4519e-05,  1.3717e-05,  7.5251e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 226, time 220.59, cls_loss 0.0011 cls_loss_mapping 0.0020 cls_loss_causal 0.5139 re_mapping 0.0054 re_causal 0.0160 /// teacc 98.99 lr 0.00010000
+Epoch 228, weight, value: tensor([[ 0.0038,  0.0110,  0.0359,  ...,  0.0693, -0.1735, -0.1487],
+        [ 0.0607, -0.0185, -0.0146,  ..., -0.1840,  0.0483, -0.0972],
+        [-0.0103, -0.0048,  0.1750,  ..., -0.2723, -0.0961, -0.1392],
+        ...,
+        [-0.0186,  0.0062, -0.1420,  ..., -0.0162,  0.1261,  0.0639],
+        [-0.0065, -0.0202, -0.1095,  ..., -0.2343,  0.0883, -0.1565],
+        [-0.0061, -0.0258, -0.0662,  ...,  0.0382, -0.1008,  0.0136]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.1910e-09,  ...,  1.3504e-08,
+          5.6345e-08,  2.1420e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.4680e-08,  ...,  1.9744e-07,
+          6.6636e-07,  4.8522e-07],
+        [ 0.0000e+00,  0.0000e+00, -1.2200e-07,  ...,  1.0710e-08,
+          6.4708e-06,  6.1607e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  5.7742e-08,  ...,  3.5716e-07,
+         -8.1584e-06, -2.0256e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.7229e-08,  ...,  1.9837e-07,
+          1.4156e-07,  3.3621e-07],
+        [ 0.0000e+00,  0.0000e+00,  9.7789e-09,  ...,  1.3951e-06,
+          5.3784e-07,  2.1756e-06]], device='cuda:0')
+Epoch 228, bias, value: tensor([-0.0277,  0.0105,  0.0277,  0.0076,  0.0349, -0.0095, -0.0022, -0.0155,
+        -0.0228,  0.0109], device='cuda:0'), grad: tensor([ 2.8871e-07,  2.9095e-06,  2.1815e-05,  1.6978e-06, -4.7237e-06,
+        -2.0891e-05,  1.9418e-07, -2.6047e-05,  2.0295e-05,  4.4852e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 227, time 220.53, cls_loss 0.0020 cls_loss_mapping 0.0028 cls_loss_causal 0.5197 re_mapping 0.0057 re_causal 0.0157 /// teacc 99.00 lr 0.00010000
+Epoch 229, weight, value: tensor([[ 0.0037,  0.0110,  0.0360,  ...,  0.0693, -0.1741, -0.1491],
+        [ 0.0611, -0.0185, -0.0147,  ..., -0.1845,  0.0489, -0.0971],
+        [-0.0103, -0.0048,  0.1757,  ..., -0.2729, -0.0967, -0.1390],
+        ...,
+        [-0.0186,  0.0062, -0.1427,  ..., -0.0166,  0.1262,  0.0638],
+        [-0.0074, -0.0202, -0.1089,  ..., -0.2344,  0.0885, -0.1569],
+        [-0.0062, -0.0258, -0.0663,  ...,  0.0382, -0.1012,  0.0135]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.2573e-08,  ..., -2.7940e-09,
+          5.5879e-09,  1.2107e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  5.6438e-07,
+         -4.2375e-08,  5.1083e-07],
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-09,  ...,  8.9407e-08,
+          1.1176e-08,  8.1491e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.1910e-09,  ...,  1.9930e-07,
+          1.1642e-08,  1.8347e-07],
+        [ 0.0000e+00,  0.0000e+00,  3.2596e-09,  ...,  3.0268e-08,
+         -1.9558e-08,  4.9360e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-08,  ...,  4.8615e-07,
+          6.5193e-09,  3.4180e-07]], device='cuda:0')
+Epoch 229, bias, value: tensor([-0.0278,  0.0113,  0.0278,  0.0072,  0.0354, -0.0092, -0.0046, -0.0157,
+        -0.0227,  0.0107], device='cuda:0'), grad: tensor([ 1.8161e-08,  9.0571e-07,  2.2119e-07,  8.9500e-07, -2.5295e-06,
+        -8.6566e-07,  6.5658e-08,  3.9767e-07,  9.4995e-08,  7.9069e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 228, time 220.21, cls_loss 0.0015 cls_loss_mapping 0.0030 cls_loss_causal 0.4832 re_mapping 0.0055 re_causal 0.0155 /// teacc 98.97 lr 0.00010000
+Epoch 230, weight, value: tensor([[ 0.0037,  0.0110,  0.0341,  ...,  0.0694, -0.1745, -0.1492],
+        [ 0.0611, -0.0185, -0.0151,  ..., -0.1848,  0.0494, -0.0971],
+        [-0.0103, -0.0048,  0.1762,  ..., -0.2733, -0.0969, -0.1392],
+        ...,
+        [-0.0186,  0.0062, -0.1432,  ..., -0.0167,  0.1265,  0.0639],
+        [-0.0074, -0.0202, -0.1096,  ..., -0.2351,  0.0869, -0.1575],
+        [-0.0062, -0.0258, -0.0666,  ...,  0.0383, -0.1015,  0.0136]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.2852e-07,  ..., -9.3132e-08,
+          1.4715e-07,  2.9802e-08],
+        [ 0.0000e+00,  0.0000e+00, -3.7998e-06,  ...,  2.2817e-08,
+         -2.3752e-05, -5.1521e-06],
+        [ 0.0000e+00,  0.0000e+00,  1.7704e-06,  ...,  1.9558e-08,
+          4.8392e-06,  1.8682e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.0172e-06,  ...,  5.0291e-08,
+          5.7220e-06,  2.3823e-06],
+        [ 0.0000e+00,  0.0000e+00, -6.3749e-07,  ...,  5.7276e-08,
+          9.3281e-06,  8.3260e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.2154e-07,  ..., -1.9558e-07,
+          3.0221e-07, -5.4296e-07]], device='cuda:0')
+Epoch 230, bias, value: tensor([-0.0289,  0.0118,  0.0280,  0.0074,  0.0354, -0.0089, -0.0050, -0.0156,
+        -0.0242,  0.0107], device='cuda:0'), grad: tensor([ 1.8161e-08, -6.3777e-05,  1.4991e-05,  1.0334e-05,  8.3633e-07,
+         2.9821e-06,  1.0878e-06,  1.7002e-05,  1.6645e-05, -1.1874e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 229, time 220.66, cls_loss 0.0016 cls_loss_mapping 0.0031 cls_loss_causal 0.5351 re_mapping 0.0051 re_causal 0.0160 /// teacc 98.89 lr 0.00010000
+Epoch 231, weight, value: tensor([[ 0.0037,  0.0110,  0.0331,  ...,  0.0696, -0.1752, -0.1493],
+        [ 0.0611, -0.0185, -0.0166,  ..., -0.1852,  0.0494, -0.0975],
+        [-0.0103, -0.0048,  0.1780,  ..., -0.2746, -0.0964, -0.1388],
+        ...,
+        [-0.0186,  0.0062, -0.1436,  ..., -0.0165,  0.1267,  0.0641],
+        [-0.0074, -0.0202, -0.1108,  ..., -0.2392,  0.0855, -0.1598],
+        [-0.0062, -0.0258, -0.0666,  ...,  0.0386, -0.1016,  0.0136]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.2201e-08,  ..., -6.1467e-08,
+          7.0408e-07,  1.1781e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.8450e-06,  ...,  5.5879e-08,
+         -3.8855e-06, -1.4622e-07],
+        [ 0.0000e+00,  0.0000e+00, -6.3330e-06,  ...,  3.3062e-08,
+          5.7695e-07,  9.3598e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.8452e-07,  ..., -2.3283e-09,
+          1.7602e-06, -2.0023e-07],
+        [ 0.0000e+00,  0.0000e+00,  2.3330e-07,  ...,  5.0757e-08,
+         -5.3318e-07,  2.3982e-07],
+        [ 0.0000e+00,  0.0000e+00,  4.8429e-08,  ...,  3.0268e-08,
+          4.2329e-07,  4.6100e-08]], device='cuda:0')
+Epoch 231, bias, value: tensor([-0.0293,  0.0112,  0.0291,  0.0074,  0.0353, -0.0089, -0.0044, -0.0155,
+        -0.0259,  0.0109], device='cuda:0'), grad: tensor([ 4.1015e-06, -1.1392e-05, -9.9838e-06,  6.7875e-06,  1.3318e-06,
+         7.2923e-07,  2.3097e-06,  4.2096e-06,  8.1817e-07,  1.0598e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 230, time 220.95, cls_loss 0.0015 cls_loss_mapping 0.0024 cls_loss_causal 0.5078 re_mapping 0.0052 re_causal 0.0150 /// teacc 99.02 lr 0.00010000
+Epoch 232, weight, value: tensor([[ 0.0037,  0.0110,  0.0331,  ...,  0.0699, -0.1760, -0.1497],
+        [ 0.0610, -0.0185, -0.0171,  ..., -0.1855,  0.0499, -0.0973],
+        [-0.0104, -0.0048,  0.1785,  ..., -0.2756, -0.0969, -0.1390],
+        ...,
+        [-0.0186,  0.0062, -0.1438,  ..., -0.0169,  0.1266,  0.0641],
+        [-0.0075, -0.0202, -0.1112,  ..., -0.2396,  0.0856, -0.1604],
+        [-0.0058, -0.0258, -0.0667,  ...,  0.0384, -0.1019,  0.0135]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ..., -7.4506e-09,
+          6.5658e-08,  3.7253e-09],
+        [ 9.3132e-10,  0.0000e+00,  4.6566e-09,  ...,  2.2817e-08,
+         -2.4900e-05,  5.1223e-08],
+        [ 4.6566e-10,  0.0000e+00,  1.9139e-07,  ...,  3.7253e-09,
+          3.2177e-07,  1.2107e-08],
+        ...,
+        [-4.6566e-09,  0.0000e+00,  1.2107e-08,  ...,  2.0489e-08,
+          2.3738e-05, -2.0023e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-08,  ...,  3.2596e-09,
+          1.1362e-07,  1.2107e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.2107e-08,  ..., -2.6543e-08,
+          6.1933e-08, -1.1781e-07]], device='cuda:0')
+Epoch 232, bias, value: tensor([-0.0293,  0.0113,  0.0292,  0.0074,  0.0355, -0.0091, -0.0037, -0.0156,
+        -0.0261,  0.0108], device='cuda:0'), grad: tensor([ 2.3143e-07, -4.4286e-05,  9.7416e-07,  1.3551e-07,  7.7300e-08,
+         1.1856e-06, -9.5135e-07,  4.2349e-05,  3.3434e-07,  2.3283e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 231, time 220.54, cls_loss 0.0013 cls_loss_mapping 0.0024 cls_loss_causal 0.4761 re_mapping 0.0051 re_causal 0.0150 /// teacc 98.97 lr 0.00010000
+Epoch 233, weight, value: tensor([[ 0.0034,  0.0110,  0.0331,  ...,  0.0701, -0.1777, -0.1498],
+        [ 0.0592, -0.0185, -0.0171,  ..., -0.1859,  0.0502, -0.0975],
+        [-0.0110, -0.0048,  0.1788,  ..., -0.2777, -0.0970, -0.1395],
+        ...,
+        [-0.0185,  0.0062, -0.1446,  ..., -0.0148,  0.1267,  0.0654],
+        [-0.0076, -0.0202, -0.1118,  ..., -0.2405,  0.0853, -0.1612],
+        [-0.0059, -0.0258, -0.0666,  ...,  0.0377, -0.1022,  0.0131]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.0571e-06,  ..., -1.2163e-06,
+          1.9558e-08,  8.3819e-09],
+        [ 0.0000e+00,  0.0000e+00,  5.1223e-08,  ...,  8.5682e-08,
+          1.2107e-07,  1.2107e-07],
+        [ 0.0000e+00,  0.0000e+00,  9.7230e-07,  ...,  1.8124e-06,
+          4.9360e-08,  2.3022e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.9652e-08,  ...,  1.3318e-07,
+         -2.0955e-07, -1.3877e-07],
+        [ 0.0000e+00,  0.0000e+00,  9.0338e-08,  ...,  1.1362e-07,
+          5.1223e-08,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.7532e-07,  ...,  4.5542e-07,
+          9.5926e-08,  9.9652e-08]], device='cuda:0')
+Epoch 233, bias, value: tensor([-0.0297,  0.0115,  0.0292,  0.0072,  0.0356, -0.0091, -0.0032, -0.0150,
+        -0.0265,  0.0103], device='cuda:0'), grad: tensor([-2.8573e-06,  4.9453e-07,  3.9786e-06,  1.2470e-06, -3.2075e-06,
+        -4.1313e-06,  1.8142e-06, -1.4622e-07,  1.3588e-06,  1.4305e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 232, time 220.76, cls_loss 0.0019 cls_loss_mapping 0.0029 cls_loss_causal 0.4986 re_mapping 0.0053 re_causal 0.0154 /// teacc 98.99 lr 0.00010000
+Epoch 234, weight, value: tensor([[ 0.0032,  0.0110,  0.0333,  ...,  0.0702, -0.1787, -0.1500],
+        [ 0.0579, -0.0185, -0.0171,  ..., -0.1873,  0.0496, -0.0980],
+        [-0.0115, -0.0048,  0.1788,  ..., -0.2808, -0.0980, -0.1405],
+        ...,
+        [-0.0183,  0.0062, -0.1448,  ..., -0.0130,  0.1279,  0.0675],
+        [-0.0077, -0.0202, -0.1120,  ..., -0.2406,  0.0877, -0.1620],
+        [-0.0058, -0.0258, -0.0668,  ...,  0.0367, -0.1043,  0.0124]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.9744e-06,  ..., -9.3132e-10,
+          3.3528e-08,  5.3085e-08],
+        [ 0.0000e+00,  0.0000e+00,  5.3365e-07,  ...,  1.5832e-07,
+         -6.7055e-08,  3.6415e-07],
+        [ 0.0000e+00,  0.0000e+00, -1.5807e-04,  ...,  5.5879e-08,
+          8.5682e-08,  1.7602e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  7.1432e-07,  ...,  2.2072e-06,
+         -2.3004e-07,  3.2671e-06],
+        [ 0.0000e+00,  0.0000e+00,  6.6645e-06,  ...,  3.4459e-08,
+          6.5193e-08,  7.0781e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.4994e-07,  ...,  1.7183e-06,
+          4.9360e-08,  4.9472e-06]], device='cuda:0')
+Epoch 234, bias, value: tensor([-0.0297,  0.0111,  0.0286,  0.0066,  0.0359, -0.0088, -0.0032, -0.0136,
+        -0.0254,  0.0094], device='cuda:0'), grad: tensor([ 3.3155e-06,  9.7323e-07, -2.4986e-04,  2.2793e-04, -1.3627e-05,
+         1.2338e-05, -5.4762e-06,  5.8040e-06,  1.0885e-05,  8.0466e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 233, time 221.17, cls_loss 0.0011 cls_loss_mapping 0.0017 cls_loss_causal 0.4761 re_mapping 0.0055 re_causal 0.0162 /// teacc 99.01 lr 0.00010000
+Epoch 235, weight, value: tensor([[ 0.0032,  0.0110,  0.0334,  ...,  0.0704, -0.1793, -0.1500],
+        [ 0.0579, -0.0185, -0.0168,  ..., -0.1877,  0.0498, -0.0980],
+        [-0.0116, -0.0048,  0.1790,  ..., -0.2814, -0.0994, -0.1416],
+        ...,
+        [-0.0183,  0.0062, -0.1452,  ..., -0.0127,  0.1284,  0.0679],
+        [-0.0077, -0.0202, -0.1125,  ..., -0.2413,  0.0879, -0.1627],
+        [-0.0058, -0.0258, -0.0670,  ...,  0.0368, -0.1046,  0.0123]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -6.3330e-08,  ..., -6.0536e-08,
+          3.7253e-09,  8.3819e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  2.0489e-08,
+          6.7987e-08,  3.8277e-07],
+        [ 0.0000e+00,  0.0000e+00,  3.5390e-08,  ...,  6.5193e-09,
+          8.8476e-08,  5.1223e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-08,  ...,  1.0245e-08,
+         -6.2957e-06, -1.1839e-05],
+        [ 0.0000e+00,  0.0000e+00,  3.2596e-08,  ...,  2.0489e-08,
+         -6.9849e-08,  3.0734e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.4901e-08,  ...,  1.0431e-06,
+          2.2091e-06,  5.8189e-06]], device='cuda:0')
+Epoch 235, bias, value: tensor([-0.0297,  0.0118,  0.0279,  0.0063,  0.0359, -0.0088, -0.0033, -0.0133,
+        -0.0255,  0.0094], device='cuda:0'), grad: tensor([-1.4715e-07,  5.1409e-07,  4.2003e-07,  1.3821e-05, -1.8692e-06,
+         6.1840e-07,  1.2759e-07, -2.3514e-05, -2.3469e-07,  1.0252e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 234, time 221.03, cls_loss 0.0016 cls_loss_mapping 0.0040 cls_loss_causal 0.4843 re_mapping 0.0055 re_causal 0.0157 /// teacc 98.92 lr 0.00010000
+Epoch 236, weight, value: tensor([[ 0.0032,  0.0110,  0.0337,  ...,  0.0706, -0.1796, -0.1501],
+        [ 0.0579, -0.0185, -0.0168,  ..., -0.1886,  0.0496, -0.0981],
+        [-0.0116, -0.0048,  0.1791,  ..., -0.2823, -0.0997, -0.1419],
+        ...,
+        [-0.0183,  0.0062, -0.1454,  ..., -0.0130,  0.1286,  0.0678],
+        [-0.0077, -0.0202, -0.1129,  ..., -0.2417,  0.0879, -0.1629],
+        [-0.0058, -0.0258, -0.0674,  ...,  0.0363, -0.1046,  0.0121]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.9073e-06,  ...,  4.2841e-08,
+          7.9907e-07,  1.2349e-06],
+        [ 0.0000e+00,  0.0000e+00,  1.7975e-07,  ...,  2.8871e-08,
+          6.7413e-05,  1.0777e-04],
+        [ 0.0000e+00,  0.0000e+00,  2.3127e-05,  ...,  8.3819e-09,
+          3.1173e-05,  4.9680e-05],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  5.6811e-08,  ...,  3.7253e-08,
+          2.6488e-04,  4.2343e-04],
+        [ 0.0000e+00,  0.0000e+00, -3.5733e-05,  ...,  1.2107e-08,
+          8.2701e-06,  1.5043e-05],
+        [ 0.0000e+00,  0.0000e+00,  1.5385e-06,  ...,  5.2154e-08,
+         -3.8314e-04, -6.1321e-04]], device='cuda:0')
+Epoch 236, bias, value: tensor([-0.0297,  0.0117,  0.0276,  0.0063,  0.0362, -0.0088, -0.0026, -0.0132,
+        -0.0256,  0.0091], device='cuda:0'), grad: tensor([ 9.9912e-06,  3.9268e-04,  2.3580e-04,  2.9385e-05,  1.5251e-05,
+         3.3051e-05,  4.4331e-06,  1.5411e-03, -3.3170e-05, -2.2278e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 235, time 220.51, cls_loss 0.0013 cls_loss_mapping 0.0022 cls_loss_causal 0.4939 re_mapping 0.0051 re_causal 0.0152 /// teacc 98.98 lr 0.00010000
+Epoch 237, weight, value: tensor([[ 0.0032,  0.0110,  0.0336,  ...,  0.0705, -0.1800, -0.1507],
+        [ 0.0579, -0.0185, -0.0168,  ..., -0.1892,  0.0493, -0.0987],
+        [-0.0116, -0.0048,  0.1791,  ..., -0.2842, -0.1002, -0.1431],
+        ...,
+        [-0.0183,  0.0062, -0.1456,  ..., -0.0132,  0.1287,  0.0674],
+        [-0.0077, -0.0202, -0.1126,  ..., -0.2422,  0.0883, -0.1629],
+        [-0.0058, -0.0258, -0.0670,  ...,  0.0364, -0.1033,  0.0124]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -3.0734e-08,  ..., -1.9278e-07,
+          1.4901e-08,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  2.7940e-09,
+         -6.4000e-06, -3.4198e-06],
+        [ 0.0000e+00,  0.0000e+00, -9.3132e-10,  ...,  2.7940e-09,
+          6.4448e-06,  1.0245e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  3.7253e-09,
+          7.3090e-06,  3.2578e-06],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  7.4506e-09,
+         -8.2403e-06,  1.6764e-08],
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-09,  ...,  2.5146e-08,
+          2.3842e-07,  9.8720e-08]], device='cuda:0')
+Epoch 237, bias, value: tensor([-0.0301,  0.0114,  0.0273,  0.0063,  0.0362, -0.0090, -0.0024, -0.0138,
+        -0.0253,  0.0100], device='cuda:0'), grad: tensor([-7.5996e-07, -1.6570e-05,  1.6108e-05,  7.6462e-07,  2.1793e-07,
+        -1.6019e-07,  1.3812e-06,  1.8835e-05, -2.0504e-05,  6.7987e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 236, time 221.04, cls_loss 0.0010 cls_loss_mapping 0.0020 cls_loss_causal 0.4829 re_mapping 0.0050 re_causal 0.0157 /// teacc 98.97 lr 0.00010000
+Epoch 238, weight, value: tensor([[ 0.0032,  0.0110,  0.0338,  ...,  0.0708, -0.1801, -0.1509],
+        [ 0.0579, -0.0185, -0.0168,  ..., -0.1895,  0.0494, -0.0988],
+        [-0.0116, -0.0048,  0.1792,  ..., -0.2845, -0.1006, -0.1431],
+        ...,
+        [-0.0183,  0.0062, -0.1458,  ..., -0.0135,  0.1287,  0.0673],
+        [-0.0077, -0.0202, -0.1127,  ..., -0.2426,  0.0888, -0.1629],
+        [-0.0058, -0.0258, -0.0671,  ...,  0.0364, -0.1033,  0.0124]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -9.3132e-10,  ..., -2.8219e-07,
+          8.3819e-09,  7.4506e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  7.4506e-09,
+         -1.0226e-06,  2.9802e-08],
+        [ 0.0000e+00,  0.0000e+00, -9.3132e-10,  ...,  3.7253e-09,
+          9.3877e-07,  1.4072e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.7695e-08,  ...,  1.1735e-07,
+         -8.1584e-07, -2.9579e-06],
+        [ 0.0000e+00,  0.0000e+00, -3.5390e-08,  ...,  3.6322e-08,
+         -2.3376e-07, -4.7497e-08],
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ..., -1.7136e-07,
+          7.8138e-07,  1.1614e-06]], device='cuda:0')
+Epoch 238, bias, value: tensor([-0.0299,  0.0114,  0.0271,  0.0062,  0.0362, -0.0090, -0.0027, -0.0138,
+        -0.0250,  0.0100], device='cuda:0'), grad: tensor([-1.4948e-06, -1.7378e-06,  3.5949e-06,  3.6880e-07,  6.5565e-07,
+         4.9453e-07,  7.2829e-07, -5.1856e-06, -4.6194e-07,  3.0398e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 237, time 220.35, cls_loss 0.0012 cls_loss_mapping 0.0030 cls_loss_causal 0.4914 re_mapping 0.0049 re_causal 0.0149 /// teacc 99.00 lr 0.00010000
+Epoch 239, weight, value: tensor([[ 0.0032,  0.0110,  0.0341,  ...,  0.0711, -0.1803, -0.1508],
+        [ 0.0579, -0.0185, -0.0170,  ..., -0.1900,  0.0502, -0.0978],
+        [-0.0116, -0.0048,  0.1807,  ..., -0.2850, -0.1010, -0.1429],
+        ...,
+        [-0.0183,  0.0062, -0.1478,  ..., -0.0137,  0.1280,  0.0666],
+        [-0.0077, -0.0202, -0.1129,  ..., -0.2428,  0.0892, -0.1630],
+        [-0.0058, -0.0258, -0.0675,  ...,  0.0362, -0.1036,  0.0124]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.5926e-07,  ..., -1.3039e-08,
+          2.0117e-07,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-08,  ...,  3.8184e-08,
+          9.3132e-09,  6.4261e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.7905e-07,  ...,  4.6566e-09,
+          8.8476e-08,  1.5832e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.3528e-08,  ...,  4.2841e-08,
+          2.8871e-08,  8.1956e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.0813e-06,  ...,  1.7509e-07,
+          5.5134e-07,  1.1176e-07],
+        [ 0.0000e+00,  0.0000e+00,  2.1420e-08,  ...,  3.3528e-08,
+          2.6077e-08, -8.9407e-08]], device='cuda:0')
+Epoch 239, bias, value: tensor([-0.0297,  0.0121,  0.0282,  0.0056,  0.0363, -0.0088, -0.0026, -0.0149,
+        -0.0248,  0.0099], device='cuda:0'), grad: tensor([ 9.9186e-07,  2.3004e-07,  1.6745e-06, -1.3271e-06,  1.3225e-07,
+         1.1194e-06, -1.0908e-05,  4.5169e-07,  5.3160e-06,  2.2799e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 238, time 221.02, cls_loss 0.0013 cls_loss_mapping 0.0027 cls_loss_causal 0.4921 re_mapping 0.0050 re_causal 0.0151 /// teacc 98.87 lr 0.00010000
+Epoch 240, weight, value: tensor([[ 0.0032,  0.0110,  0.0344,  ...,  0.0707, -0.1805, -0.1513],
+        [ 0.0579, -0.0185, -0.0170,  ..., -0.1910,  0.0498, -0.0983],
+        [-0.0116, -0.0048,  0.1811,  ..., -0.2854, -0.1011, -0.1432],
+        ...,
+        [-0.0183,  0.0062, -0.1488,  ..., -0.0135,  0.1285,  0.0670],
+        [-0.0077, -0.0202, -0.1133,  ..., -0.2436,  0.0892, -0.1641],
+        [-0.0058, -0.0258, -0.0676,  ...,  0.0363, -0.1038,  0.0124]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.3283e-08,  ..., -3.1665e-08,
+          9.4064e-08,  4.9360e-08],
+        [ 0.0000e+00,  0.0000e+00, -1.9550e-05,  ...,  3.0175e-07,
+         -2.0042e-05,  1.3569e-06],
+        [ 0.0000e+00,  0.0000e+00,  1.6078e-05,  ...,  3.6322e-08,
+          1.7762e-05,  1.5181e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.4380e-06,  ...,  6.7987e-08,
+         -4.7404e-07, -4.2319e-06],
+        [ 0.0000e+00,  0.0000e+00,  1.1520e-06,  ...,  1.7323e-07,
+          1.7416e-07,  6.7707e-07],
+        [ 0.0000e+00,  0.0000e+00,  3.2596e-08,  ..., -1.4724e-06,
+          6.0629e-07, -4.4852e-06]], device='cuda:0')
+Epoch 240, bias, value: tensor([-0.0297,  0.0116,  0.0282,  0.0055,  0.0363, -0.0084, -0.0029, -0.0144,
+        -0.0253,  0.0099], device='cuda:0'), grad: tensor([ 2.2165e-07, -6.6459e-05,  5.8204e-05,  3.3788e-06,  9.1642e-06,
+         2.4121e-06, -1.6037e-06, -3.6135e-06,  3.8780e-06, -5.5395e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 239, time 220.76, cls_loss 0.0011 cls_loss_mapping 0.0027 cls_loss_causal 0.5306 re_mapping 0.0047 re_causal 0.0154 /// teacc 99.08 lr 0.00010000
+Epoch 241, weight, value: tensor([[ 0.0032,  0.0110,  0.0353,  ...,  0.0707, -0.1810, -0.1518],
+        [ 0.0579, -0.0185, -0.0170,  ..., -0.1916,  0.0499, -0.0985],
+        [-0.0116, -0.0048,  0.1811,  ..., -0.2862, -0.1014, -0.1435],
+        ...,
+        [-0.0183,  0.0062, -0.1492,  ..., -0.0138,  0.1287,  0.0671],
+        [-0.0077, -0.0202, -0.1139,  ..., -0.2471,  0.0890, -0.1679],
+        [-0.0058, -0.0258, -0.0678,  ...,  0.0369, -0.1037,  0.0126]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -5.0366e-06,  ..., -5.7444e-06,
+          5.4017e-08,  1.8626e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.0489e-08,  ...,  5.1223e-08,
+          3.8184e-08,  1.4156e-07],
+        [ 0.0000e+00,  0.0000e+00,  5.4296e-07,  ...,  6.1654e-07,
+          2.7940e-08,  5.5879e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.5832e-08,  ...,  6.3330e-08,
+         -3.0734e-08,  2.0396e-07],
+        [ 0.0000e+00,  0.0000e+00,  3.2596e-07,  ...,  4.0885e-07,
+         -4.4890e-07, -2.2352e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.8892e-06,  ..., -1.8910e-05,
+          1.9744e-07, -1.0461e-04]], device='cuda:0')
+Epoch 241, bias, value: tensor([-0.0296,  0.0117,  0.0281,  0.0052,  0.0362, -0.0081, -0.0031, -0.0144,
+        -0.0268,  0.0104], device='cuda:0'), grad: tensor([-1.1154e-05,  4.7032e-07,  1.4855e-06,  5.1130e-07,  1.0955e-04,
+        -2.2352e-06,  6.1560e-07,  3.3807e-07, -2.2743e-06, -9.7394e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 240, time 220.84, cls_loss 0.0013 cls_loss_mapping 0.0024 cls_loss_causal 0.5046 re_mapping 0.0049 re_causal 0.0149 /// teacc 99.02 lr 0.00010000
+Epoch 242, weight, value: tensor([[ 0.0032,  0.0110,  0.0360,  ...,  0.0713, -0.1815, -0.1519],
+        [ 0.0579, -0.0185, -0.0170,  ..., -0.1924,  0.0502, -0.0983],
+        [-0.0115, -0.0048,  0.1813,  ..., -0.2879, -0.1018, -0.1439],
+        ...,
+        [-0.0183,  0.0062, -0.1497,  ..., -0.0150,  0.1287,  0.0670],
+        [-0.0077, -0.0202, -0.1142,  ..., -0.2467,  0.0896, -0.1686],
+        [-0.0058, -0.0258, -0.0681,  ...,  0.0377, -0.1039,  0.0130]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.4983e-07,  ..., -4.3027e-07,
+          2.1420e-08,  8.3819e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.5146e-08,  ...,  4.0047e-08,
+          8.1956e-08,  1.0058e-07],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-08,  ...,  3.1665e-08,
+          2.0117e-07,  2.0489e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-09,  ..., -5.5879e-09,
+         -1.1176e-07, -1.3504e-07],
+        [ 0.0000e+00,  0.0000e+00,  2.4214e-08,  ...,  5.0291e-08,
+          8.9593e-07,  6.7055e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-08,  ..., -2.9523e-07,
+          6.3330e-08, -5.5414e-07]], device='cuda:0')
+Epoch 242, bias, value: tensor([-0.0293,  0.0120,  0.0279,  0.0056,  0.0358, -0.0090, -0.0027, -0.0146,
+        -0.0262,  0.0108], device='cuda:0'), grad: tensor([-7.5996e-07,  3.0268e-07,  5.3458e-07, -3.1084e-05,  6.4541e-07,
+         3.1829e-05, -2.6077e-06, -2.7101e-07,  1.8841e-06, -5.1688e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 241, time 220.43, cls_loss 0.0012 cls_loss_mapping 0.0018 cls_loss_causal 0.4973 re_mapping 0.0051 re_causal 0.0153 /// teacc 98.98 lr 0.00010000
+Epoch 243, weight, value: tensor([[ 0.0032,  0.0110,  0.0363,  ...,  0.0714, -0.1818, -0.1521],
+        [ 0.0581, -0.0185, -0.0157,  ..., -0.1929,  0.0509, -0.0990],
+        [-0.0117, -0.0048,  0.1803,  ..., -0.2887, -0.1043, -0.1454],
+        ...,
+        [-0.0183,  0.0062, -0.1492,  ..., -0.0147,  0.1302,  0.0699],
+        [-0.0078, -0.0202, -0.1165,  ..., -0.2468,  0.0888, -0.1690],
+        [-0.0058, -0.0258, -0.0684,  ...,  0.0378, -0.1042,  0.0131]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -3.5446e-06,  ..., -3.2783e-06,
+          4.8708e-07,  4.7870e-07],
+        [-4.6566e-09,  0.0000e+00,  2.9914e-06,  ...,  5.6718e-07,
+          1.1045e-06,  8.3912e-07],
+        [ 1.8626e-09,  0.0000e+00, -9.8646e-06,  ...,  4.8801e-07,
+          1.5218e-06,  4.9174e-07],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  1.7881e-06,  ...,  4.1947e-06,
+         -5.5879e-08,  3.1982e-06],
+        [ 9.3132e-10,  0.0000e+00,  8.8941e-07,  ...,  4.5262e-07,
+          1.8356e-06,  6.3051e-07],
+        [ 0.0000e+00,  0.0000e+00,  8.6240e-07,  ...,  1.4296e-06,
+          3.0734e-08,  1.0831e-06]], device='cuda:0')
+Epoch 243, bias, value: tensor([-0.0293,  0.0132,  0.0261,  0.0031,  0.0356, -0.0092, -0.0023, -0.0115,
+        -0.0274,  0.0109], device='cuda:0'), grad: tensor([-6.5342e-06,  1.0699e-05, -2.1398e-05, -4.3847e-06, -5.7407e-06,
+         1.4761e-06,  3.0547e-06,  1.2435e-05,  5.9977e-06,  4.3735e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 242, time 220.98, cls_loss 0.0016 cls_loss_mapping 0.0020 cls_loss_causal 0.5068 re_mapping 0.0052 re_causal 0.0144 /// teacc 99.00 lr 0.00010000
+Epoch 244, weight, value: tensor([[ 0.0031,  0.0110,  0.0374,  ...,  0.0724, -0.1824, -0.1531],
+        [ 0.0581, -0.0185, -0.0156,  ..., -0.1938,  0.0512, -0.0994],
+        [-0.0118, -0.0048,  0.1817,  ..., -0.2870, -0.1048, -0.1439],
+        ...,
+        [-0.0184,  0.0062, -0.1529,  ..., -0.0154,  0.1302,  0.0700],
+        [-0.0079, -0.0202, -0.1177,  ..., -0.2472,  0.0893, -0.1694],
+        [-0.0058, -0.0258, -0.0693,  ...,  0.0375, -0.1044,  0.0129]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.9185e-07,  ..., -1.2945e-07,
+          7.4506e-09,  6.6124e-08],
+        [ 0.0000e+00,  0.0000e+00, -4.4852e-06,  ...,  2.2445e-07,
+         -9.3505e-06,  2.3190e-07],
+        [ 0.0000e+00,  0.0000e+00,  3.2708e-06,  ...,  8.2888e-08,
+          6.9924e-06,  8.1956e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.0990e-06,  ...,  2.6822e-07,
+          2.0526e-06,  1.0617e-07],
+        [ 0.0000e+00,  0.0000e+00,  6.6124e-08,  ...,  1.3784e-07,
+          4.1910e-08,  1.3504e-07],
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-08,  ...,  3.9116e-06,
+          6.3330e-08,  2.5257e-06]], device='cuda:0')
+Epoch 244, bias, value: tensor([-0.0285,  0.0134,  0.0267,  0.0028,  0.0358, -0.0090, -0.0027, -0.0117,
+        -0.0279,  0.0107], device='cuda:0'), grad: tensor([-2.3469e-07, -2.0370e-05,  1.5691e-05,  2.5015e-06, -6.6943e-06,
+        -9.4101e-06,  3.1367e-06,  4.9546e-06,  4.7311e-06,  5.6475e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 243, time 220.71, cls_loss 0.0016 cls_loss_mapping 0.0027 cls_loss_causal 0.4890 re_mapping 0.0048 re_causal 0.0140 /// teacc 98.92 lr 0.00010000
+Epoch 245, weight, value: tensor([[ 0.0031,  0.0110,  0.0396,  ...,  0.0751, -0.1831, -0.1527],
+        [ 0.0562, -0.0185, -0.0155,  ..., -0.1949,  0.0508, -0.1006],
+        [-0.0119, -0.0048,  0.1824,  ..., -0.2879, -0.1049, -0.1440],
+        ...,
+        [-0.0181,  0.0062, -0.1538,  ..., -0.0157,  0.1308,  0.0705],
+        [-0.0079, -0.0202, -0.1200,  ..., -0.2476,  0.0899, -0.1685],
+        [-0.0059, -0.0258, -0.0703,  ...,  0.0374, -0.1049,  0.0129]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  1.5926e-07,  ..., -4.5635e-08,
+          1.1176e-08,  9.3132e-09],
+        [-7.0781e-08,  0.0000e+00,  7.0222e-07,  ...,  3.7253e-08,
+         -1.6205e-07,  5.5879e-08],
+        [ 5.1223e-08,  0.0000e+00, -1.9725e-06,  ...,  1.5739e-07,
+          4.9081e-07,  5.0385e-07],
+        ...,
+        [-1.0245e-08,  0.0000e+00,  8.5123e-07,  ..., -1.6484e-07,
+         -4.8708e-07, -8.1398e-07],
+        [ 1.2107e-08,  0.0000e+00,  5.4296e-07,  ...,  9.3132e-09,
+          8.9407e-08,  1.2945e-07],
+        [ 9.3132e-10,  0.0000e+00,  9.2201e-08,  ...,  1.3597e-07,
+          2.6077e-08,  2.9895e-07]], device='cuda:0')
+Epoch 245, bias, value: tensor([-0.0257,  0.0134,  0.0269,  0.0032,  0.0358, -0.0094, -0.0044, -0.0116,
+        -0.0281,  0.0104], device='cuda:0'), grad: tensor([ 4.4983e-07,  1.1129e-06, -1.3337e-06, -3.8520e-06,  2.2911e-07,
+         2.4494e-07,  8.3540e-07,  4.7497e-07,  1.2368e-06,  5.9791e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 244, time 220.76, cls_loss 0.0013 cls_loss_mapping 0.0018 cls_loss_causal 0.4707 re_mapping 0.0051 re_causal 0.0147 /// teacc 98.99 lr 0.00010000
+Epoch 246, weight, value: tensor([[ 0.0029,  0.0110,  0.0399,  ...,  0.0757, -0.1842, -0.1529],
+        [ 0.0556, -0.0185, -0.0154,  ..., -0.1958,  0.0509, -0.1011],
+        [-0.0122, -0.0048,  0.1825,  ..., -0.2884, -0.1057, -0.1445],
+        ...,
+        [-0.0181,  0.0062, -0.1540,  ..., -0.0159,  0.1311,  0.0706],
+        [-0.0092, -0.0202, -0.1210,  ..., -0.2479,  0.0902, -0.1693],
+        [-0.0050, -0.0258, -0.0706,  ...,  0.0374, -0.1050,  0.0130]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.5646e-07,  ..., -1.8626e-09,
+          3.0994e-06,  2.3283e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.5204e-07,  ...,  1.5274e-07,
+         -8.4788e-06,  2.5425e-07],
+        [ 0.0000e+00,  0.0000e+00, -7.9628e-07,  ...,  0.0000e+00,
+          1.7732e-06,  6.5193e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  6.0163e-07,  ..., -1.9092e-07,
+          2.0489e-08, -3.3341e-07],
+        [ 0.0000e+00,  0.0000e+00,  2.5518e-06,  ...,  6.5193e-09,
+          3.3248e-07,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.2200e-07,  ...,  2.1793e-07,
+          1.0431e-07,  3.2224e-07]], device='cuda:0')
+Epoch 246, bias, value: tensor([-0.0252,  0.0134,  0.0265,  0.0037,  0.0358, -0.0102, -0.0044, -0.0116,
+        -0.0282,  0.0105], device='cuda:0'), grad: tensor([ 1.3202e-05, -3.2932e-05,  1.0520e-05, -1.4460e-04,  1.1269e-07,
+         1.1194e-04,  2.6241e-05,  1.7555e-06,  1.2800e-05,  1.2675e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 245, time 221.12, cls_loss 0.0018 cls_loss_mapping 0.0032 cls_loss_causal 0.4955 re_mapping 0.0051 re_causal 0.0149 /// teacc 98.97 lr 0.00010000
+Epoch 247, weight, value: tensor([[ 0.0028,  0.0110,  0.0380,  ...,  0.0733, -0.1853, -0.1560],
+        [ 0.0556, -0.0185, -0.0148,  ..., -0.1981,  0.0509, -0.1014],
+        [-0.0107, -0.0048,  0.1828,  ..., -0.2877, -0.1063, -0.1449],
+        ...,
+        [-0.0182,  0.0062, -0.1558,  ..., -0.0163,  0.1315,  0.0710],
+        [-0.0092, -0.0202, -0.1217,  ..., -0.2482,  0.0901, -0.1701],
+        [-0.0050, -0.0258, -0.0688,  ...,  0.0397, -0.1054,  0.0137]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.5842e-06,  ..., -1.1204e-06,
+          6.5193e-09,  8.3819e-09],
+        [ 0.0000e+00,  0.0000e+00,  6.2399e-08,  ...,  1.1828e-07,
+         -1.2107e-08,  1.0338e-07],
+        [ 0.0000e+00,  0.0000e+00, -1.8906e-07,  ...,  5.2154e-08,
+          1.0151e-07,  1.3970e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.4715e-07,  ...,  1.5087e-07,
+          4.6566e-09,  1.0617e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.8813e-07,  ...,  1.2759e-07,
+         -1.4901e-07,  1.0245e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.0082e-07,  ...,  7.2643e-07,
+          2.7940e-08,  5.8487e-07]], device='cuda:0')
+Epoch 247, bias, value: tensor([-0.0277,  0.0139,  0.0262,  0.0038,  0.0361, -0.0104, -0.0046, -0.0117,
+        -0.0285,  0.0124], device='cuda:0'), grad: tensor([-3.6806e-06,  2.9150e-07,  7.4506e-08,  2.4457e-06, -1.7378e-06,
+        -2.8126e-06,  2.8778e-06,  4.3120e-07,  2.2538e-07,  1.8533e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 246, time 220.89, cls_loss 0.0014 cls_loss_mapping 0.0016 cls_loss_causal 0.4924 re_mapping 0.0051 re_causal 0.0144 /// teacc 99.01 lr 0.00010000
+Epoch 248, weight, value: tensor([[ 0.0028,  0.0110,  0.0380,  ...,  0.0733, -0.1866, -0.1561],
+        [ 0.0556, -0.0185, -0.0149,  ..., -0.1985,  0.0500, -0.1014],
+        [-0.0106, -0.0048,  0.1830,  ..., -0.2883, -0.1067, -0.1451],
+        ...,
+        [-0.0182,  0.0062, -0.1560,  ..., -0.0164,  0.1315,  0.0709],
+        [-0.0094, -0.0202, -0.1219,  ..., -0.2484,  0.0932, -0.1703],
+        [-0.0050, -0.0258, -0.0689,  ...,  0.0396, -0.1055,  0.0136]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ..., -5.5879e-09,
+          1.5832e-08,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-09,  ...,  9.3132e-10,
+         -2.8498e-07,  1.0245e-08],
+        [ 0.0000e+00,  0.0000e+00,  8.8476e-08,  ...,  0.0000e+00,
+          2.6170e-07,  1.3318e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.0734e-08,  ...,  2.7940e-09,
+          7.9162e-08, -3.8184e-08],
+        [ 0.0000e+00,  0.0000e+00, -2.6543e-07,  ...,  0.0000e+00,
+         -1.4221e-06, -8.9221e-07],
+        [ 0.0000e+00,  0.0000e+00,  2.7008e-07,  ...,  0.0000e+00,
+          1.2787e-06,  7.5251e-07]], device='cuda:0')
+Epoch 248, bias, value: tensor([-0.0277,  0.0130,  0.0260,  0.0037,  0.0364, -0.0107, -0.0045, -0.0117,
+        -0.0259,  0.0124], device='cuda:0'), grad: tensor([ 1.0896e-07, -7.9721e-07,  8.6054e-07, -4.6194e-07,  2.9430e-07,
+        -3.9674e-07, -1.7416e-07,  3.4366e-07, -3.5856e-06,  3.8091e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 247, time 221.03, cls_loss 0.0012 cls_loss_mapping 0.0014 cls_loss_causal 0.4677 re_mapping 0.0050 re_causal 0.0149 /// teacc 99.06 lr 0.00010000
+Epoch 249, weight, value: tensor([[ 0.0028,  0.0110,  0.0371,  ...,  0.0733, -0.1891, -0.1561],
+        [ 0.0556, -0.0185, -0.0148,  ..., -0.1987,  0.0501, -0.1015],
+        [-0.0106, -0.0048,  0.1833,  ..., -0.2885, -0.1070, -0.1450],
+        ...,
+        [-0.0182,  0.0062, -0.1569,  ..., -0.0167,  0.1314,  0.0707],
+        [-0.0094, -0.0202, -0.1226,  ..., -0.2484,  0.0935, -0.1701],
+        [-0.0050, -0.0258, -0.0690,  ...,  0.0395, -0.1056,  0.0125]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.0245e-08,  ..., -8.3819e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+         -1.2107e-08,  1.3039e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.9802e-08,  ...,  0.0000e+00,
+          1.6764e-08,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ...,  8.3819e-09,
+         -6.7055e-08, -1.2666e-07],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  1.8626e-09,
+         -3.1665e-08,  1.3039e-08],
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ..., -5.5879e-09,
+          5.6811e-08,  8.7544e-08]], device='cuda:0')
+Epoch 249, bias, value: tensor([-0.0282,  0.0131,  0.0259,  0.0036,  0.0375, -0.0098, -0.0032, -0.0119,
+        -0.0259,  0.0118], device='cuda:0'), grad: tensor([-1.5832e-08, -2.7008e-08,  9.2201e-08, -2.2911e-07,  2.8871e-08,
+         1.6578e-07, -2.6077e-08, -1.6857e-07, -3.2596e-08,  2.1700e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 248, time 220.91, cls_loss 0.0011 cls_loss_mapping 0.0020 cls_loss_causal 0.5523 re_mapping 0.0049 re_causal 0.0154 /// teacc 99.03 lr 0.00010000
+Epoch 250, weight, value: tensor([[ 0.0028,  0.0110,  0.0372,  ...,  0.0733, -0.1900, -0.1562],
+        [ 0.0556, -0.0185, -0.0147,  ..., -0.1990,  0.0501, -0.1017],
+        [-0.0106, -0.0048,  0.1832,  ..., -0.2889, -0.1074, -0.1452],
+        ...,
+        [-0.0182,  0.0062, -0.1570,  ..., -0.0168,  0.1317,  0.0708],
+        [-0.0095, -0.0202, -0.1228,  ..., -0.2485,  0.0936, -0.1703],
+        [-0.0050, -0.0258, -0.0690,  ...,  0.0395, -0.1057,  0.0127]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -3.7253e-08,  ..., -1.5832e-08,
+          1.1176e-08,  1.3039e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  5.5879e-09,
+          5.4017e-08,  1.4994e-07],
+        [-9.3132e-10,  0.0000e+00, -9.8720e-08,  ...,  1.8626e-09,
+          2.6077e-08,  5.1223e-08],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  3.6322e-08,  ...,  6.4261e-08,
+         -1.4100e-06, -3.3267e-06],
+        [ 9.3132e-10,  0.0000e+00,  8.0094e-08,  ...,  1.0245e-08,
+         -4.6566e-09,  5.5879e-08],
+        [-1.3970e-08,  0.0000e+00,  1.6764e-08,  ..., -6.1560e-07,
+          4.8522e-07, -1.7202e-06]], device='cuda:0')
+Epoch 250, bias, value: tensor([-0.0282,  0.0131,  0.0255,  0.0037,  0.0373, -0.0099, -0.0029, -0.0116,
+        -0.0259,  0.0118], device='cuda:0'), grad: tensor([-1.2107e-08,  4.2375e-07,  6.2399e-08,  2.4494e-07,  8.0913e-06,
+         1.4016e-06,  2.1420e-08, -1.0200e-05, -2.1420e-08, -1.3039e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 249, time 220.93, cls_loss 0.0009 cls_loss_mapping 0.0021 cls_loss_causal 0.4873 re_mapping 0.0049 re_causal 0.0149 /// teacc 99.06 lr 0.00010000
+Epoch 251, weight, value: tensor([[ 0.0028,  0.0110,  0.0373,  ...,  0.0733, -0.1910, -0.1562],
+        [ 0.0556, -0.0185, -0.0146,  ..., -0.1993,  0.0501, -0.1019],
+        [-0.0106, -0.0048,  0.1833,  ..., -0.2891, -0.1076, -0.1453],
+        ...,
+        [-0.0182,  0.0062, -0.1573,  ..., -0.0169,  0.1317,  0.0709],
+        [-0.0095, -0.0202, -0.1237,  ..., -0.2488,  0.0938, -0.1707],
+        [-0.0050, -0.0258, -0.0691,  ...,  0.0395, -0.1059,  0.0127]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -6.1654e-07,  ..., -2.9150e-07,
+          1.6764e-08,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.7008e-07,  ...,  1.4994e-07,
+          6.7987e-08,  2.8126e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.9558e-07,  ...,  7.7300e-08,
+          2.6263e-07,  2.0675e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -9.3132e-09,  ...,  3.1665e-08,
+         -5.2713e-07, -3.4831e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.4529e-07,  ...,  6.5193e-08,
+         -4.1258e-07, -1.3411e-07],
+        [ 0.0000e+00,  0.0000e+00,  6.2399e-08,  ...,  4.6566e-08,
+          4.2934e-07,  8.1025e-08]], device='cuda:0')
+Epoch 251, bias, value: tensor([-0.0283,  0.0131,  0.0255,  0.0036,  0.0372, -0.0099, -0.0018, -0.0116,
+        -0.0260,  0.0118], device='cuda:0'), grad: tensor([-1.2703e-06,  6.5751e-07,  9.9279e-07,  1.9744e-07,  1.5832e-08,
+         3.7253e-08,  4.9360e-08, -9.4343e-07, -5.9046e-07,  8.6706e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 250, time 220.75, cls_loss 0.0012 cls_loss_mapping 0.0021 cls_loss_causal 0.5105 re_mapping 0.0046 re_causal 0.0140 /// teacc 98.92 lr 0.00010000
+Epoch 252, weight, value: tensor([[ 0.0028,  0.0110,  0.0375,  ...,  0.0733, -0.1915, -0.1562],
+        [ 0.0556, -0.0185, -0.0143,  ..., -0.2006,  0.0502, -0.1022],
+        [-0.0106, -0.0048,  0.1832,  ..., -0.2895, -0.1080, -0.1456],
+        ...,
+        [-0.0182,  0.0062, -0.1575,  ..., -0.0177,  0.1318,  0.0706],
+        [-0.0095, -0.0202, -0.1250,  ..., -0.2493,  0.0935, -0.1716],
+        [-0.0050, -0.0258, -0.0692,  ...,  0.0394, -0.1061,  0.0126]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.1353e-05,  ..., -4.5747e-06,
+          7.4506e-09, -1.2862e-06],
+        [ 0.0000e+00,  0.0000e+00,  1.1824e-05,  ...,  1.8068e-06,
+         -6.5193e-09,  4.4703e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.0955e-06,  ...,  3.5670e-07,
+          1.3039e-08,  5.2154e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-08,  ...,  1.9558e-08,
+         -3.2969e-07, -3.5483e-07],
+        [ 0.0000e+00,  0.0000e+00,  4.4517e-07,  ...,  1.6391e-07,
+          4.8429e-08,  1.6391e-07],
+        [ 0.0000e+00,  0.0000e+00,  5.4613e-06,  ...,  1.8580e-06,
+          2.0582e-07,  1.2424e-06]], device='cuda:0')
+Epoch 252, bias, value: tensor([-0.0282,  0.0133,  0.0252,  0.0035,  0.0376, -0.0099, -0.0015, -0.0118,
+        -0.0267,  0.0118], device='cuda:0'), grad: tensor([-4.4256e-05,  2.5719e-05,  4.5076e-06,  7.5623e-07,  2.9895e-07,
+         1.2396e-06,  1.4780e-06, -5.8580e-07,  1.1493e-06,  9.7379e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 251, time 220.50, cls_loss 0.0010 cls_loss_mapping 0.0022 cls_loss_causal 0.5081 re_mapping 0.0049 re_causal 0.0151 /// teacc 98.98 lr 0.00010000
+Epoch 253, weight, value: tensor([[ 0.0028,  0.0110,  0.0375,  ...,  0.0733, -0.1926, -0.1563],
+        [ 0.0556, -0.0185, -0.0146,  ..., -0.2014,  0.0501, -0.1025],
+        [-0.0106, -0.0048,  0.1839,  ..., -0.2897, -0.1078, -0.1459],
+        ...,
+        [-0.0182,  0.0062, -0.1577,  ..., -0.0178,  0.1319,  0.0707],
+        [-0.0095, -0.0202, -0.1269,  ..., -0.2498,  0.0934, -0.1731],
+        [-0.0050, -0.0258, -0.0692,  ...,  0.0395, -0.1062,  0.0127]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.2352e-08,  ...,  4.6566e-09,
+          1.8626e-09,  5.9139e-08],
+        [ 0.0000e+00,  0.0000e+00, -1.3504e-08,  ...,  5.1223e-09,
+         -1.2713e-07,  3.2596e-08],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  6.9849e-09,
+          3.1199e-08,  1.8161e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.0245e-08,  ...,  3.0734e-08,
+          5.1223e-08, -1.1176e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-09,  ...,  1.7229e-08,
+         -1.0012e-07,  9.4529e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.0710e-08,  ..., -6.0769e-07,
+          2.4214e-08, -1.4883e-06]], device='cuda:0')
+Epoch 253, bias, value: tensor([-0.0282,  0.0130,  0.0254,  0.0036,  0.0375, -0.0102, -0.0006, -0.0117,
+        -0.0273,  0.0118], device='cuda:0'), grad: tensor([ 3.8650e-08, -3.1246e-07,  1.1269e-07,  2.6962e-07,  1.7099e-06,
+        -3.5251e-07,  3.0920e-07,  2.0396e-07,  5.1688e-08, -2.0172e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 252, time 220.85, cls_loss 0.0010 cls_loss_mapping 0.0025 cls_loss_causal 0.5097 re_mapping 0.0047 re_causal 0.0146 /// teacc 98.98 lr 0.00010000
+Epoch 254, weight, value: tensor([[ 0.0028,  0.0110,  0.0376,  ...,  0.0734, -0.1928, -0.1563],
+        [ 0.0556, -0.0185, -0.0145,  ..., -0.2017,  0.0503, -0.1025],
+        [-0.0106, -0.0048,  0.1841,  ..., -0.2901, -0.1083, -0.1458],
+        ...,
+        [-0.0182,  0.0062, -0.1581,  ..., -0.0187,  0.1318,  0.0703],
+        [-0.0095, -0.0202, -0.1274,  ..., -0.2505,  0.0935, -0.1752],
+        [-0.0049, -0.0258, -0.0693,  ...,  0.0396, -0.1062,  0.0131]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.0955e-08,  ..., -5.5414e-08,
+          6.5193e-09,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.2107e-08,  ...,  2.4214e-08,
+         -2.7474e-08,  4.0047e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.6065e-07,  ...,  5.5879e-09,
+          7.0315e-08,  3.7253e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.6298e-08,  ...,  5.4017e-08,
+          2.2352e-08,  1.1222e-07],
+        [ 0.0000e+00,  0.0000e+00, -3.1153e-07,  ...,  1.3039e-08,
+         -1.8533e-07,  3.5856e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.3458e-07,  ..., -1.4110e-07,
+          5.1223e-08, -6.1560e-07]], device='cuda:0')
+Epoch 254, bias, value: tensor([-0.0281,  0.0133,  0.0253,  0.0035,  0.0371, -0.0097, -0.0011, -0.0120,
+        -0.0275,  0.0121], device='cuda:0'), grad: tensor([ 9.7789e-09,  1.7695e-08,  6.6310e-07, -8.1956e-08,  4.8336e-07,
+         1.9651e-07,  3.1944e-07,  2.1560e-07, -1.6168e-06, -1.9465e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 253, time 220.67, cls_loss 0.0016 cls_loss_mapping 0.0030 cls_loss_causal 0.4781 re_mapping 0.0048 re_causal 0.0137 /// teacc 98.95 lr 0.00010000
+Epoch 255, weight, value: tensor([[ 0.0028,  0.0110,  0.0346,  ...,  0.0734, -0.1937, -0.1563],
+        [ 0.0556, -0.0185, -0.0145,  ..., -0.2024,  0.0504, -0.1025],
+        [-0.0106, -0.0048,  0.1841,  ..., -0.2907, -0.1090, -0.1473],
+        ...,
+        [-0.0182,  0.0062, -0.1583,  ..., -0.0191,  0.1322,  0.0704],
+        [-0.0095, -0.0202, -0.1287,  ..., -0.2511,  0.0938, -0.1761],
+        [-0.0049, -0.0258, -0.0693,  ...,  0.0401, -0.1065,  0.0144]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.5832e-07,  ..., -1.3970e-09,
+          7.9162e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  8.8476e-09,  ...,  4.1910e-09,
+          1.9278e-06,  1.6233e-06],
+        [ 0.0000e+00,  0.0000e+00, -7.6462e-07,  ...,  9.3132e-10,
+         -1.6438e-07,  6.5193e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  7.5996e-07,  ...,  1.3039e-08,
+         -1.9334e-06, -1.7192e-06],
+        [ 0.0000e+00,  0.0000e+00,  1.4575e-07,  ...,  2.1420e-08,
+         -2.7474e-08,  5.6811e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-08,  ...,  1.0710e-08,
+          1.0524e-07,  1.9558e-08]], device='cuda:0')
+Epoch 255, bias, value: tensor([-0.0307,  0.0135,  0.0245,  0.0060,  0.0359, -0.0084, -0.0020, -0.0118,
+        -0.0274,  0.0128], device='cuda:0'), grad: tensor([ 2.3022e-06,  4.2096e-06, -9.6858e-07,  7.6741e-07,  5.8208e-08,
+         4.0948e-05, -4.5896e-05, -3.4384e-06,  1.4929e-06,  5.0850e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 254, time 220.95, cls_loss 0.0013 cls_loss_mapping 0.0021 cls_loss_causal 0.5021 re_mapping 0.0049 re_causal 0.0147 /// teacc 98.95 lr 0.00010000
+Epoch 256, weight, value: tensor([[ 0.0028,  0.0110,  0.0345,  ...,  0.0730, -0.1942, -0.1565],
+        [ 0.0556, -0.0185, -0.0144,  ..., -0.2040,  0.0505, -0.1028],
+        [-0.0106, -0.0048,  0.1842,  ..., -0.2913, -0.1094, -0.1474],
+        ...,
+        [-0.0182,  0.0062, -0.1585,  ..., -0.0197,  0.1324,  0.0704],
+        [-0.0095, -0.0202, -0.1292,  ..., -0.2514,  0.0942, -0.1759],
+        [-0.0049, -0.0258, -0.0691,  ...,  0.0407, -0.1072,  0.0145]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.2200e-07,  ...,  5.1223e-09,
+          1.0710e-08,  1.2573e-08],
+        [ 0.0000e+00,  0.0000e+00, -2.3935e-07,  ...,  2.7940e-09,
+         -7.0268e-07,  9.7789e-09],
+        [ 0.0000e+00,  0.0000e+00, -5.6764e-07,  ..., -2.8871e-08,
+          4.5914e-07, -7.3574e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.3236e-07,  ...,  1.5367e-08,
+          1.0245e-08,  1.9558e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.0105e-07,  ...,  1.9092e-08,
+          8.3819e-09,  3.6322e-08],
+        [ 0.0000e+00,  0.0000e+00,  4.2841e-08,  ...,  6.5193e-09,
+          1.8626e-08,  1.0245e-08]], device='cuda:0')
+Epoch 256, bias, value: tensor([-0.0310,  0.0136,  0.0242,  0.0060,  0.0359, -0.0082, -0.0019, -0.0119,
+        -0.0271,  0.0130], device='cuda:0'), grad: tensor([ 2.6729e-07, -1.9874e-06,  7.9628e-08,  4.6520e-07,  6.8592e-07,
+        -4.5495e-07, -2.1467e-07,  4.5076e-07,  5.7044e-07,  1.4389e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 255, time 220.78, cls_loss 0.0012 cls_loss_mapping 0.0020 cls_loss_causal 0.4870 re_mapping 0.0049 re_causal 0.0146 /// teacc 98.91 lr 0.00010000
+Epoch 257, weight, value: tensor([[ 0.0028,  0.0110,  0.0345,  ...,  0.0733, -0.1948, -0.1562],
+        [ 0.0556, -0.0185, -0.0145,  ..., -0.2047,  0.0512, -0.1021],
+        [-0.0106, -0.0048,  0.1844,  ..., -0.2919, -0.1098, -0.1479],
+        ...,
+        [-0.0182,  0.0062, -0.1587,  ..., -0.0199,  0.1326,  0.0708],
+        [-0.0095, -0.0202, -0.1297,  ..., -0.2520,  0.0934, -0.1779],
+        [-0.0049, -0.0258, -0.0692,  ...,  0.0406, -0.1079,  0.0144]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.5146e-08,  ..., -5.0291e-08,
+          1.3970e-09,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.3504e-08,  ...,  1.1176e-08,
+          1.7136e-07,  1.6764e-07],
+        [ 0.0000e+00,  0.0000e+00,  5.1688e-08,  ...,  1.3970e-09,
+          2.9057e-07,  3.2596e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ...,  2.1420e-08,
+         -2.6077e-07, -1.9511e-07],
+        [ 0.0000e+00,  0.0000e+00, -1.1176e-07,  ...,  2.1374e-07,
+         -5.3737e-07,  1.0757e-06],
+        [ 0.0000e+00,  0.0000e+00,  8.8476e-09,  ..., -3.7486e-07,
+         -8.7544e-08, -1.5954e-06]], device='cuda:0')
+Epoch 257, bias, value: tensor([-0.0308,  0.0146,  0.0240,  0.0060,  0.0361, -0.0083, -0.0025, -0.0117,
+        -0.0285,  0.0127], device='cuda:0'), grad: tensor([-1.0524e-07,  5.2107e-07,  8.5915e-07,  3.7299e-07,  7.7952e-07,
+         3.3528e-07,  4.6333e-07, -5.6718e-07,  2.4866e-07, -2.9020e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 256, time 220.93, cls_loss 0.0014 cls_loss_mapping 0.0026 cls_loss_causal 0.5040 re_mapping 0.0045 re_causal 0.0138 /// teacc 98.91 lr 0.00010000
+Epoch 258, weight, value: tensor([[ 0.0028,  0.0110,  0.0346,  ...,  0.0734, -0.1953, -0.1562],
+        [ 0.0556, -0.0185, -0.0146,  ..., -0.2052,  0.0479, -0.1056],
+        [-0.0106, -0.0048,  0.1847,  ..., -0.2922, -0.1104, -0.1477],
+        ...,
+        [-0.0182,  0.0062, -0.1593,  ..., -0.0202,  0.1365,  0.0728],
+        [-0.0095, -0.0202, -0.1300,  ..., -0.2525,  0.0928, -0.1796],
+        [-0.0049, -0.0258, -0.0692,  ...,  0.0405, -0.1082,  0.0145]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.6915e-07,  ..., -1.9837e-07,
+          1.4901e-08,  5.1223e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.2352e-08,  ...,  2.0023e-08,
+         -4.8894e-08,  9.3132e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.0710e-08,  ...,  3.0268e-08,
+          1.0012e-07,  6.9849e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  6.1467e-08,  ..., -2.7427e-07,
+         -1.0291e-07, -1.3197e-06],
+        [ 0.0000e+00,  0.0000e+00,  1.9558e-08,  ...,  2.1420e-08,
+          3.5763e-06,  1.9092e-08],
+        [ 0.0000e+00,  0.0000e+00,  7.0315e-08,  ..., -5.0291e-08,
+          3.3993e-08, -3.2363e-07]], device='cuda:0')
+Epoch 258, bias, value: tensor([-0.0308,  0.0111,  0.0238,  0.0060,  0.0360, -0.0079, -0.0029, -0.0086,
+        -0.0292,  0.0128], device='cuda:0'), grad: tensor([-5.6531e-07, -3.1199e-07,  4.0000e-07,  1.7323e-07,  2.9169e-06,
+        -8.5309e-06,  2.3609e-07, -2.0787e-06,  7.9200e-06, -1.6065e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 257, time 220.62, cls_loss 0.0014 cls_loss_mapping 0.0022 cls_loss_causal 0.4941 re_mapping 0.0048 re_causal 0.0140 /// teacc 98.94 lr 0.00010000
+Epoch 259, weight, value: tensor([[ 0.0028,  0.0110,  0.0346,  ...,  0.0734, -0.1963, -0.1562],
+        [ 0.0556, -0.0185, -0.0159,  ..., -0.2057,  0.0482, -0.1058],
+        [-0.0106, -0.0048,  0.1863,  ..., -0.2927, -0.1109, -0.1483],
+        ...,
+        [-0.0182,  0.0062, -0.1599,  ..., -0.0227,  0.1364,  0.0720],
+        [-0.0096, -0.0202, -0.1303,  ..., -0.2525,  0.0929, -0.1807],
+        [-0.0049, -0.0258, -0.0692,  ...,  0.0404, -0.1089,  0.0144]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.3935e-07,  ..., -2.7614e-07,
+          1.7695e-08,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.0955e-08,  ...,  7.4506e-09,
+         -1.7975e-07, -3.0268e-08],
+        [ 0.0000e+00,  0.0000e+00, -8.1118e-07,  ...,  2.0955e-08,
+          1.9465e-07,  8.1025e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.9430e-07,  ...,  1.6298e-08,
+          9.9186e-08,  3.3062e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.7521e-07,  ...,  3.7253e-09,
+         -6.0303e-07, -2.7101e-07],
+        [ 0.0000e+00,  0.0000e+00,  3.4971e-07,  ...,  2.1840e-07,
+          9.6392e-08,  6.5193e-08]], device='cuda:0')
+Epoch 259, bias, value: tensor([-0.0308,  0.0110,  0.0245,  0.0060,  0.0368, -0.0079, -0.0031, -0.0090,
+        -0.0292,  0.0127], device='cuda:0'), grad: tensor([-4.1770e-07, -5.4436e-07, -1.0515e-06,  2.5239e-07,  1.3784e-07,
+         4.7497e-07,  1.8626e-08,  8.5449e-07, -7.2457e-07,  9.9838e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 258, time 221.18, cls_loss 0.0014 cls_loss_mapping 0.0025 cls_loss_causal 0.5057 re_mapping 0.0047 re_causal 0.0142 /// teacc 99.03 lr 0.00010000
+Epoch 260, weight, value: tensor([[ 0.0028,  0.0110,  0.0346,  ...,  0.0735, -0.1976, -0.1563],
+        [ 0.0556, -0.0185, -0.0160,  ..., -0.2062,  0.0492, -0.1035],
+        [-0.0106, -0.0048,  0.1868,  ..., -0.2930, -0.1109, -0.1483],
+        ...,
+        [-0.0182,  0.0062, -0.1604,  ..., -0.0250,  0.1362,  0.0709],
+        [-0.0096, -0.0202, -0.1308,  ..., -0.2528,  0.0940, -0.1798],
+        [-0.0049, -0.0258, -0.0693,  ...,  0.0402, -0.1120,  0.0134]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.8161e-07,  ..., -1.9511e-07,
+          1.0710e-08,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  3.4459e-08,  ...,  7.9162e-09,
+         -6.1933e-08,  6.9849e-09],
+        [ 0.0000e+00,  0.0000e+00, -2.8545e-07,  ...,  8.8476e-09,
+          5.0757e-08,  9.7789e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  6.4261e-08,  ...,  1.7695e-08,
+          2.3283e-08,  3.5856e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.5146e-08,  ...,  3.9581e-08,
+         -6.5425e-07, -5.4110e-07],
+        [ 0.0000e+00,  0.0000e+00,  2.2724e-07,  ..., -1.7323e-07,
+          4.0093e-07, -2.4680e-08]], device='cuda:0')
+Epoch 260, bias, value: tensor([-0.0308,  0.0119,  0.0247,  0.0060,  0.0374, -0.0080, -0.0025, -0.0095,
+        -0.0287,  0.0116], device='cuda:0'), grad: tensor([-4.3446e-07, -1.1828e-07, -2.3004e-07, -3.4925e-08,  8.5542e-07,
+         6.7893e-07,  2.1700e-07,  2.2398e-07, -4.1462e-06,  3.0063e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 259, time 220.71, cls_loss 0.0011 cls_loss_mapping 0.0024 cls_loss_causal 0.4864 re_mapping 0.0048 re_causal 0.0141 /// teacc 99.03 lr 0.00010000
+Epoch 261, weight, value: tensor([[ 0.0028,  0.0110,  0.0346,  ...,  0.0735, -0.1973, -0.1563],
+        [ 0.0556, -0.0185, -0.0164,  ..., -0.2072,  0.0493, -0.1031],
+        [-0.0103, -0.0048,  0.1878,  ..., -0.2935, -0.1112, -0.1484],
+        ...,
+        [-0.0182,  0.0062, -0.1615,  ..., -0.0251,  0.1362,  0.0707],
+        [-0.0096, -0.0202, -0.1312,  ..., -0.2531,  0.0945, -0.1799],
+        [-0.0049, -0.0258, -0.0694,  ...,  0.0403, -0.1121,  0.0135]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.7008e-08,  ...,  7.7300e-08,
+          1.8626e-08,  3.1199e-08],
+        [ 9.3132e-10,  0.0000e+00,  2.5844e-07,  ...,  8.5682e-08,
+          5.2620e-08,  1.4994e-07],
+        [ 0.0000e+00,  0.0000e+00, -3.3900e-07,  ...,  2.7008e-08,
+          4.1910e-08,  2.7474e-08],
+        ...,
+        [ 1.8626e-09,  0.0000e+00,  6.5193e-08,  ...,  1.0198e-06,
+         -2.2491e-07, -3.8324e-07],
+        [ 4.6566e-10,  0.0000e+00,  2.4214e-08,  ...,  1.9558e-08,
+         -1.1176e-08,  3.4925e-08],
+        [ 2.7940e-08,  0.0000e+00,  1.1176e-08,  ..., -1.7956e-06,
+          1.8766e-07,  1.4491e-06]], device='cuda:0')
+Epoch 261, bias, value: tensor([-0.0307,  0.0119,  0.0255,  0.0060,  0.0371, -0.0081, -0.0026, -0.0098,
+        -0.0284,  0.0117], device='cuda:0'), grad: tensor([ 2.0163e-07,  8.1444e-07, -3.2131e-07,  1.5367e-08,  2.4028e-07,
+         3.1944e-07, -5.3830e-07,  3.3295e-07,  1.9325e-07, -1.2610e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 260, time 221.16, cls_loss 0.0014 cls_loss_mapping 0.0018 cls_loss_causal 0.5012 re_mapping 0.0046 re_causal 0.0142 /// teacc 98.99 lr 0.00010000
+Epoch 262, weight, value: tensor([[ 0.0027,  0.0110,  0.0347,  ...,  0.0735, -0.1980, -0.1564],
+        [ 0.0556, -0.0185, -0.0168,  ..., -0.2080,  0.0498, -0.1003],
+        [-0.0103, -0.0048,  0.1883,  ..., -0.2940, -0.1122, -0.1502],
+        ...,
+        [-0.0182,  0.0062, -0.1622,  ..., -0.0253,  0.1360,  0.0683],
+        [-0.0096, -0.0202, -0.1318,  ..., -0.2534,  0.0944, -0.1804],
+        [-0.0060, -0.0258, -0.0694,  ...,  0.0403, -0.1123,  0.0134]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ..., -3.3528e-08,
+          4.6566e-10,  2.3283e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.4435e-08,  ...,  8.3819e-09,
+         -7.4506e-09,  2.9337e-08],
+        [ 0.0000e+00,  0.0000e+00, -3.9069e-07,  ...,  1.8626e-09,
+          6.9849e-09,  4.1910e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.1199e-08,  ...,  1.3504e-08,
+         -3.3528e-08,  1.1642e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.3923e-07,  ...,  7.9162e-09,
+          4.6566e-10,  3.0268e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.1420e-08,  ..., -1.3039e-08,
+          2.5146e-08, -2.1933e-07]], device='cuda:0')
+Epoch 262, bias, value: tensor([-0.0307,  0.0144,  0.0242,  0.0062,  0.0373, -0.0082, -0.0027, -0.0118,
+        -0.0287,  0.0115], device='cuda:0'), grad: tensor([-4.7963e-08,  1.4435e-08, -5.4250e-07,  2.0629e-07,  2.6170e-07,
+         4.6566e-08,  9.2201e-08, -3.8184e-08,  2.8545e-07, -2.7707e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 261, time 221.09, cls_loss 0.0011 cls_loss_mapping 0.0017 cls_loss_causal 0.5146 re_mapping 0.0046 re_causal 0.0142 /// teacc 98.93 lr 0.00010000
+Epoch 263, weight, value: tensor([[ 0.0027,  0.0110,  0.0347,  ...,  0.0736, -0.1981, -0.1564],
+        [ 0.0556, -0.0185, -0.0170,  ..., -0.2087,  0.0498, -0.0995],
+        [-0.0103, -0.0048,  0.1888,  ..., -0.2944, -0.1124, -0.1504],
+        ...,
+        [-0.0185,  0.0062, -0.1627,  ..., -0.0253,  0.1359,  0.0675],
+        [-0.0098, -0.0202, -0.1323,  ..., -0.2538,  0.0953, -0.1790],
+        [-0.0060, -0.0258, -0.0695,  ...,  0.0403, -0.1124,  0.0134]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.4238e-07,  ..., -4.7917e-07,
+          2.9337e-08,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.1688e-07,  ...,  9.7323e-08,
+         -4.7963e-08,  8.6147e-08],
+        [ 0.0000e+00,  0.0000e+00, -5.1223e-09,  ...,  3.0268e-08,
+          3.4925e-08,  1.8161e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.7229e-08,  ...,  1.3504e-08,
+         -7.4971e-08, -2.9942e-07],
+        [ 0.0000e+00,  0.0000e+00,  5.1223e-08,  ...,  8.5682e-08,
+          1.7229e-08,  3.1199e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.1270e-08,  ...,  8.8476e-08,
+          5.0757e-08,  6.0536e-09]], device='cuda:0')
+Epoch 263, bias, value: tensor([-0.0309,  0.0151,  0.0242,  0.0062,  0.0372, -0.0076, -0.0016, -0.0126,
+        -0.0283,  0.0113], device='cuda:0'), grad: tensor([-3.0845e-06,  3.5344e-07,  1.7835e-07,  2.2631e-07,  1.5367e-07,
+         3.0361e-07,  8.7637e-07, -7.1665e-07,  7.0175e-07,  1.0096e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 262, time 220.68, cls_loss 0.0013 cls_loss_mapping 0.0023 cls_loss_causal 0.5258 re_mapping 0.0047 re_causal 0.0143 /// teacc 98.99 lr 0.00010000
+Epoch 264, weight, value: tensor([[ 0.0027,  0.0110,  0.0347,  ...,  0.0736, -0.2002, -0.1565],
+        [ 0.0556, -0.0185, -0.0165,  ..., -0.2098,  0.0501, -0.0995],
+        [-0.0086, -0.0048,  0.1888,  ..., -0.2954, -0.1139, -0.1504],
+        ...,
+        [-0.0187,  0.0062, -0.1638,  ..., -0.0251,  0.1360,  0.0675],
+        [-0.0101, -0.0202, -0.1334,  ..., -0.2553,  0.0952, -0.1805],
+        [-0.0060, -0.0258, -0.0697,  ...,  0.0402, -0.1127,  0.0134]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.7789e-09,  ...,  4.6566e-10,
+          9.3132e-10,  2.3283e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.8871e-08,  ...,  2.3283e-09,
+          4.0978e-08,  3.5856e-08],
+        [ 0.0000e+00,  0.0000e+00, -2.0536e-07,  ...,  9.3132e-10,
+          1.1735e-07,  3.1199e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.3644e-07,  ...,  4.1910e-09,
+         -9.3179e-07, -4.3167e-07],
+        [ 0.0000e+00,  0.0000e+00, -1.0291e-07,  ...,  8.8476e-09,
+         -8.4750e-08,  3.0734e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.9337e-08,  ..., -3.1199e-08,
+          4.8429e-08, -5.9139e-08]], device='cuda:0')
+Epoch 264, bias, value: tensor([-0.0309,  0.0152,  0.0235,  0.0064,  0.0370, -0.0077, -0.0007, -0.0125,
+        -0.0288,  0.0112], device='cuda:0'), grad: tensor([ 4.2841e-08,  2.0675e-07,  1.0291e-07,  2.5742e-06,  1.0198e-07,
+        -3.1712e-07,  3.1944e-07, -2.5649e-06, -7.0268e-07,  2.2305e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 263, time 220.99, cls_loss 0.0014 cls_loss_mapping 0.0027 cls_loss_causal 0.5004 re_mapping 0.0048 re_causal 0.0139 /// teacc 99.05 lr 0.00010000
+Epoch 265, weight, value: tensor([[ 0.0024,  0.0110,  0.0348,  ...,  0.0737, -0.2007, -0.1566],
+        [ 0.0555, -0.0185, -0.0171,  ..., -0.2123,  0.0497, -0.0996],
+        [-0.0076, -0.0048,  0.1894,  ..., -0.2982, -0.1142, -0.1518],
+        ...,
+        [-0.0191,  0.0062, -0.1646,  ..., -0.0236,  0.1365,  0.0677],
+        [-0.0105, -0.0202, -0.1318,  ..., -0.2559,  0.0955, -0.1813],
+        [-0.0039, -0.0258, -0.0698,  ...,  0.0402, -0.1129,  0.0136]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.0489e-08,  ..., -7.0315e-08,
+          9.7323e-08,  3.9581e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.8184e-08,  ...,  1.0245e-07,
+         -9.7230e-07,  3.0315e-07],
+        [ 0.0000e+00,  0.0000e+00,  5.9512e-07,  ...,  1.4435e-08,
+          2.7334e-07,  4.0047e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.9186e-08,  ...,  2.7176e-06,
+          4.9826e-08,  8.5980e-06],
+        [ 0.0000e+00,  0.0000e+00,  2.2305e-07,  ...,  4.5169e-08,
+          4.8429e-08,  1.2387e-07],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-08,  ..., -3.3900e-06,
+          5.0291e-08, -1.0774e-05]], device='cuda:0')
+Epoch 265, bias, value: tensor([-0.0308,  0.0149,  0.0233,  0.0064,  0.0363, -0.0080, -0.0003, -0.0122,
+        -0.0284,  0.0111], device='cuda:0'), grad: tensor([ 1.4473e-06, -3.4310e-06,  2.8461e-06, -1.0747e-06,  2.1607e-06,
+         1.2584e-05, -1.3515e-05,  1.3538e-05,  1.3392e-06, -1.5929e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 264, time 220.83, cls_loss 0.0013 cls_loss_mapping 0.0025 cls_loss_causal 0.5090 re_mapping 0.0047 re_causal 0.0139 /// teacc 98.98 lr 0.00010000
+Epoch 266, weight, value: tensor([[ 0.0021,  0.0110,  0.0349,  ...,  0.0739, -0.2015, -0.1566],
+        [ 0.0555, -0.0185, -0.0172,  ..., -0.2133,  0.0497, -0.0996],
+        [-0.0054, -0.0048,  0.1903,  ..., -0.2987, -0.1144, -0.1516],
+        ...,
+        [-0.0194,  0.0062, -0.1666,  ..., -0.0241,  0.1367,  0.0676],
+        [-0.0111, -0.0202, -0.1317,  ..., -0.2562,  0.0958, -0.1815],
+        [-0.0009, -0.0258, -0.0699,  ...,  0.0402, -0.1131,  0.0139]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -8.3819e-09,
+          1.5274e-07,  3.0734e-08],
+        [-1.8626e-09,  0.0000e+00,  2.8871e-08,  ...,  3.7253e-09,
+          3.0726e-05,  1.2387e-07],
+        [ 9.3132e-10,  0.0000e+00,  7.6462e-07,  ...,  1.8626e-09,
+          3.6396e-06,  1.6354e-06],
+        ...,
+        [ 4.6566e-10,  0.0000e+00, -3.6368e-07,  ...,  9.7789e-09,
+         -3.4630e-05, -1.9372e-06],
+        [ 0.0000e+00,  0.0000e+00,  4.0978e-08,  ...,  8.3819e-09,
+          2.0955e-08,  1.6764e-08],
+        [-6.9849e-09,  0.0000e+00,  3.3062e-08,  ..., -9.4995e-08,
+          5.6345e-08, -6.7521e-08]], device='cuda:0')
+Epoch 266, bias, value: tensor([-0.0306,  0.0149,  0.0236,  0.0063,  0.0362, -0.0080, -0.0008, -0.0123,
+        -0.0282,  0.0112], device='cuda:0'), grad: tensor([ 9.6671e-07,  8.1837e-05,  1.4372e-05, -4.2794e-07,  4.7358e-07,
+         4.1304e-07, -1.4324e-06, -9.6679e-05,  1.7602e-07,  1.8720e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 265, time 220.89, cls_loss 0.0016 cls_loss_mapping 0.0025 cls_loss_causal 0.4892 re_mapping 0.0050 re_causal 0.0144 /// teacc 99.07 lr 0.00010000
+Epoch 267, weight, value: tensor([[ 0.0019,  0.0110,  0.0350,  ...,  0.0741, -0.2017, -0.1567],
+        [ 0.0554, -0.0185, -0.0173,  ..., -0.2160,  0.0495, -0.0997],
+        [-0.0051, -0.0048,  0.1913,  ..., -0.2996, -0.1147, -0.1516],
+        ...,
+        [-0.0224,  0.0062, -0.1679,  ..., -0.0241,  0.1341,  0.0664],
+        [-0.0134, -0.0202, -0.1323,  ..., -0.2577,  0.0959, -0.1832],
+        [-0.0013, -0.0258, -0.0701,  ...,  0.0403, -0.1132,  0.0140]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -3.1665e-08,  ..., -1.9744e-07,
+          7.4506e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.7276e-07,  ...,  1.8161e-08,
+          1.4156e-07,  4.5169e-08],
+        [ 0.0000e+00,  0.0000e+00, -9.4296e-07,  ...,  3.2596e-09,
+          2.3749e-07,  2.3749e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  6.4261e-07,  ...,  1.3504e-08,
+         -7.8417e-07, -5.0617e-07],
+        [ 0.0000e+00,  0.0000e+00,  7.8231e-08,  ...,  2.0489e-08,
+         -4.8848e-07,  1.0245e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.0245e-08,  ...,  1.1623e-06,
+          1.4342e-07,  2.8871e-08]], device='cuda:0')
+Epoch 267, bias, value: tensor([-0.0305,  0.0149,  0.0240,  0.0090,  0.0360, -0.0076, -0.0011, -0.0149,
+        -0.0287,  0.0113], device='cuda:0'), grad: tensor([-6.5099e-07,  9.3272e-07, -6.3004e-07,  6.5602e-06,  2.5472e-07,
+        -1.9506e-05,  2.1420e-08, -2.0079e-06, -1.2694e-06,  1.6287e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 266, time 221.40, cls_loss 0.0011 cls_loss_mapping 0.0021 cls_loss_causal 0.5473 re_mapping 0.0048 re_causal 0.0146 /// teacc 98.95 lr 0.00010000
+Epoch 268, weight, value: tensor([[ 0.0018,  0.0110,  0.0350,  ...,  0.0741, -0.2025, -0.1567],
+        [ 0.0553, -0.0185, -0.0174,  ..., -0.2183,  0.0493, -0.0997],
+        [-0.0051, -0.0048,  0.1915,  ..., -0.3001, -0.1151, -0.1519],
+        ...,
+        [-0.0226,  0.0062, -0.1680,  ..., -0.0238,  0.1342,  0.0665],
+        [-0.0138, -0.0202, -0.1327,  ..., -0.2583,  0.0958, -0.1839],
+        [-0.0017, -0.0258, -0.0702,  ...,  0.0400, -0.1141,  0.0136]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.2352e-08,  ..., -1.2107e-08,
+          1.9511e-07,  6.0536e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.2596e-08,  ...,  3.4925e-08,
+          2.0918e-06,  1.4435e-08],
+        [ 0.0000e+00,  0.0000e+00, -8.2422e-08,  ..., -4.1910e-08,
+          2.3842e-07,  6.0536e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.6077e-08,  ...,  4.0978e-08,
+          9.3132e-10,  7.3574e-08],
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ...,  8.3819e-08,
+          1.8626e-09,  1.5926e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.4901e-08,  ..., -3.8510e-07,
+          1.9558e-08, -8.4192e-07]], device='cuda:0')
+Epoch 268, bias, value: tensor([-0.0305,  0.0148,  0.0239,  0.0092,  0.0362, -0.0077, -0.0006, -0.0149,
+        -0.0289,  0.0109], device='cuda:0'), grad: tensor([ 1.3299e-06,  4.6715e-06,  5.3318e-07,  8.5775e-07,  9.9093e-07,
+        -4.3260e-07, -4.3251e-06,  3.1805e-07, -2.6412e-06, -1.2890e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 267, time 220.97, cls_loss 0.0010 cls_loss_mapping 0.0017 cls_loss_causal 0.4740 re_mapping 0.0048 re_causal 0.0140 /// teacc 98.88 lr 0.00010000
+Epoch 269, weight, value: tensor([[ 0.0017,  0.0110,  0.0350,  ...,  0.0742, -0.2031, -0.1567],
+        [ 0.0553, -0.0185, -0.0174,  ..., -0.2211,  0.0491, -0.0998],
+        [-0.0047, -0.0048,  0.1918,  ..., -0.3003, -0.1153, -0.1522],
+        ...,
+        [-0.0226,  0.0062, -0.1686,  ..., -0.0236,  0.1344,  0.0666],
+        [-0.0139, -0.0202, -0.1332,  ..., -0.2595,  0.0957, -0.1862],
+        [-0.0016, -0.0258, -0.0702,  ...,  0.0401, -0.1149,  0.0138]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.1910e-09,  ..., -6.9849e-09,
+          1.7695e-08,  2.3283e-08],
+        [-1.0710e-08,  0.0000e+00,  5.1223e-09,  ...,  6.0536e-09,
+         -2.3842e-07,  2.8778e-07],
+        [ 3.7253e-09,  0.0000e+00, -4.0606e-07,  ...,  9.3132e-10,
+          5.0338e-07,  3.2503e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.3947e-07,  ...,  1.0710e-08,
+         -1.3001e-06, -1.7285e-06],
+        [ 0.0000e+00,  0.0000e+00,  1.5832e-08,  ...,  2.0489e-08,
+          3.1665e-08,  1.4435e-07],
+        [-4.6566e-10,  0.0000e+00,  3.2596e-08,  ..., -1.2945e-07,
+          6.1840e-07,  3.3202e-07]], device='cuda:0')
+Epoch 269, bias, value: tensor([-0.0304,  0.0147,  0.0239,  0.0092,  0.0362, -0.0077, -0.0009, -0.0148,
+        -0.0293,  0.0110], device='cuda:0'), grad: tensor([ 5.4482e-08, -2.8126e-07,  1.4137e-06,  2.9197e-07,  1.0580e-06,
+        -5.8534e-07,  5.4762e-07, -5.0254e-06,  6.8545e-07,  1.8459e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 268, time 220.82, cls_loss 0.0014 cls_loss_mapping 0.0018 cls_loss_causal 0.4671 re_mapping 0.0051 re_causal 0.0136 /// teacc 98.91 lr 0.00010000
+Epoch 270, weight, value: tensor([[ 0.0017,  0.0110,  0.0350,  ...,  0.0741, -0.2048, -0.1569],
+        [ 0.0553, -0.0185, -0.0176,  ..., -0.2226,  0.0480, -0.0998],
+        [-0.0054, -0.0048,  0.1923,  ..., -0.3010, -0.1159, -0.1530],
+        ...,
+        [-0.0226,  0.0062, -0.1687,  ..., -0.0234,  0.1349,  0.0667],
+        [-0.0142, -0.0202, -0.1342,  ..., -0.2598,  0.0966, -0.1868],
+        [-0.0016, -0.0258, -0.0703,  ...,  0.0402, -0.1151,  0.0139]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          1.7695e-08,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.4901e-08,
+         -2.2165e-07,  3.9116e-08],
+        [ 0.0000e+00,  0.0000e+00, -2.0489e-08,  ...,  0.0000e+00,
+          1.0710e-07,  1.0245e-08],
+        ...,
+        [-9.3132e-10,  0.0000e+00,  4.6566e-09,  ...,  3.7253e-09,
+         -7.7300e-08, -1.3039e-07],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  6.5193e-09,
+          3.2596e-08,  1.0245e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -3.9116e-08,
+          4.0047e-08, -2.7008e-08]], device='cuda:0')
+Epoch 270, bias, value: tensor([-0.0305,  0.0144,  0.0239,  0.0093,  0.0363, -0.0104,  0.0008, -0.0146,
+        -0.0307,  0.0111], device='cuda:0'), grad: tensor([ 1.3597e-07, -6.6031e-07,  3.4273e-07,  3.8091e-07,  9.1270e-08,
+         5.8860e-07, -8.6520e-07, -2.8219e-07,  2.3469e-07,  2.2352e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 269, time 221.49, cls_loss 0.0015 cls_loss_mapping 0.0020 cls_loss_causal 0.5110 re_mapping 0.0052 re_causal 0.0147 /// teacc 98.82 lr 0.00010000
+Epoch 271, weight, value: tensor([[ 0.0016,  0.0110,  0.0354,  ...,  0.0735, -0.2061, -0.1586],
+        [ 0.0552, -0.0185, -0.0179,  ..., -0.2244,  0.0476, -0.0999],
+        [-0.0054, -0.0048,  0.1942,  ..., -0.3032, -0.1166, -0.1527],
+        ...,
+        [-0.0226,  0.0062, -0.1706,  ..., -0.0237,  0.1352,  0.0667],
+        [-0.0148, -0.0202, -0.1347,  ..., -0.2607,  0.0970, -0.1873],
+        [-0.0008, -0.0258, -0.0705,  ...,  0.0409, -0.1159,  0.0138]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  5.8580e-07,  ..., -1.8626e-08,
+          3.4645e-07,  1.2852e-07],
+        [ 0.0000e+00,  0.0000e+00, -3.2205e-06,  ...,  9.3132e-10,
+         -1.1148e-06, -1.5814e-06],
+        [ 0.0000e+00,  0.0000e+00,  5.7835e-07,  ...,  0.0000e+00,
+          6.8825e-07,  9.9465e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.3528e-07,  ...,  9.3132e-10,
+          3.9116e-07,  1.6764e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.5739e-07,  ...,  5.5879e-09,
+          6.3330e-08,  1.4435e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.2759e-07,  ..., -4.6566e-09,
+          5.4017e-08,  2.6077e-08]], device='cuda:0')
+Epoch 271, bias, value: tensor([-0.0304,  0.0142,  0.0239,  0.0092,  0.0368, -0.0108,  0.0009, -0.0146,
+        -0.0309,  0.0113], device='cuda:0'), grad: tensor([ 3.2298e-06, -1.0237e-05,  6.2138e-06, -3.2187e-06,  5.4613e-06,
+         4.7311e-06, -9.8497e-06,  1.7304e-06,  1.1269e-06,  7.7486e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 270, time 221.18, cls_loss 0.0013 cls_loss_mapping 0.0026 cls_loss_causal 0.4702 re_mapping 0.0052 re_causal 0.0138 /// teacc 98.97 lr 0.00010000
+Epoch 272, weight, value: tensor([[ 0.0014,  0.0110,  0.0354,  ...,  0.0735, -0.2087, -0.1591],
+        [ 0.0552, -0.0185, -0.0178,  ..., -0.2253,  0.0476, -0.0999],
+        [-0.0054, -0.0048,  0.1946,  ..., -0.3038, -0.1174, -0.1532],
+        ...,
+        [-0.0226,  0.0062, -0.1711,  ..., -0.0239,  0.1354,  0.0668],
+        [-0.0152, -0.0202, -0.1353,  ..., -0.2613,  0.1001, -0.1877],
+        [ 0.0020, -0.0258, -0.0704,  ...,  0.0413, -0.1162,  0.0148]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -5.6811e-08,  ..., -9.2201e-08,
+          1.8626e-09,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.1665e-08,  ...,  5.7742e-08,
+         -3.4459e-08,  2.5053e-07],
+        [ 0.0000e+00,  0.0000e+00, -1.4389e-06,  ...,  8.3819e-09,
+         -4.6566e-09, -5.2154e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.3011e-06,  ...,  1.1176e-08,
+         -1.7695e-08,  1.2107e-07],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-08,  ...,  1.1176e-08,
+          1.5832e-08,  5.4948e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-08,  ...,  2.7940e-08,
+          3.7253e-08, -4.9546e-07]], device='cuda:0')
+Epoch 272, bias, value: tensor([-0.0305,  0.0142,  0.0239,  0.0092,  0.0359, -0.0115, -0.0015, -0.0145,
+        -0.0280,  0.0117], device='cuda:0'), grad: tensor([-1.4715e-07,  2.9337e-07, -2.7455e-06, -2.6170e-07,  9.9652e-08,
+         7.0129e-07, -4.8243e-07,  2.7120e-06,  4.7684e-07, -6.4168e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 271, time 221.11, cls_loss 0.0010 cls_loss_mapping 0.0024 cls_loss_causal 0.4877 re_mapping 0.0048 re_causal 0.0142 /// teacc 98.99 lr 0.00010000
+Epoch 273, weight, value: tensor([[ 0.0013,  0.0110,  0.0357,  ...,  0.0757, -0.2092, -0.1581],
+        [ 0.0551, -0.0185, -0.0177,  ..., -0.2260,  0.0481, -0.0999],
+        [-0.0055, -0.0048,  0.1947,  ..., -0.3043, -0.1178, -0.1533],
+        ...,
+        [-0.0226,  0.0062, -0.1714,  ..., -0.0238,  0.1354,  0.0669],
+        [-0.0152, -0.0202, -0.1359,  ..., -0.2621,  0.0999, -0.1887],
+        [ 0.0016, -0.0258, -0.0712,  ...,  0.0391, -0.1169,  0.0140]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  3.4459e-08,  ...,  1.8626e-09,
+          6.3330e-08,  2.3283e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.1548e-07,  ...,  6.9849e-08,
+          1.6019e-07,  2.0023e-07],
+        [ 0.0000e+00,  0.0000e+00,  2.1141e-07,  ...,  1.1176e-08,
+          4.2189e-07,  1.7043e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  1.6764e-08,
+         -4.0978e-08, -1.4622e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.4529e-07,  ...,  3.7253e-09,
+         -6.6496e-07,  7.6368e-08],
+        [ 2.7940e-09,  0.0000e+00,  1.8626e-09,  ...,  1.0524e-07,
+          5.0291e-08,  2.4494e-07]], device='cuda:0')
+Epoch 273, bias, value: tensor([-0.0289,  0.0143,  0.0237,  0.0092,  0.0363, -0.0112, -0.0016, -0.0145,
+        -0.0282,  0.0095], device='cuda:0'), grad: tensor([ 1.6298e-07,  5.9791e-07,  1.0598e-06,  1.5758e-06,  1.7509e-07,
+         1.2107e-07,  5.9512e-07, -2.9337e-07, -4.7758e-06,  7.8697e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 272, time 220.97, cls_loss 0.0013 cls_loss_mapping 0.0023 cls_loss_causal 0.4860 re_mapping 0.0046 re_causal 0.0137 /// teacc 99.01 lr 0.00010000
+Epoch 274, weight, value: tensor([[ 0.0011,  0.0110,  0.0357,  ...,  0.0758, -0.2103, -0.1581],
+        [ 0.0546, -0.0185, -0.0180,  ..., -0.2269,  0.0489, -0.0996],
+        [-0.0056, -0.0048,  0.1950,  ..., -0.3047, -0.1180, -0.1536],
+        ...,
+        [-0.0226,  0.0062, -0.1716,  ..., -0.0244,  0.1352,  0.0666],
+        [-0.0156, -0.0202, -0.1367,  ..., -0.2628,  0.1000, -0.1893],
+        [ 0.0013, -0.0258, -0.0714,  ...,  0.0390, -0.1171,  0.0138]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.5891e-07,  ..., -1.2387e-07,
+          1.8626e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.3120e-07,  ...,  6.5193e-09,
+          8.0094e-08,  1.5274e-07],
+        [ 0.0000e+00,  0.0000e+00, -9.7882e-07,  ...,  1.3970e-08,
+          1.8626e-09,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.7905e-07,  ...,  2.5146e-08,
+         -1.3132e-07, -1.8533e-07],
+        [ 0.0000e+00,  0.0000e+00,  5.3085e-08,  ...,  9.3132e-09,
+          3.7253e-09,  1.5832e-08],
+        [ 0.0000e+00,  0.0000e+00,  8.4750e-08,  ..., -4.4703e-08,
+          1.3039e-08, -3.3900e-07]], device='cuda:0')
+Epoch 274, bias, value: tensor([-0.0289,  0.0147,  0.0236,  0.0092,  0.0366, -0.0098, -0.0018, -0.0148,
+        -0.0283,  0.0092], device='cuda:0'), grad: tensor([-6.4075e-07,  1.0673e-06, -1.6093e-06,  4.2841e-08,  4.9174e-07,
+         1.9092e-07,  2.1700e-07,  2.6915e-07,  1.6671e-07, -1.9092e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 273, time 220.49, cls_loss 0.0010 cls_loss_mapping 0.0018 cls_loss_causal 0.4972 re_mapping 0.0043 re_causal 0.0136 /// teacc 98.97 lr 0.00010000
+Epoch 275, weight, value: tensor([[ 0.0011,  0.0110,  0.0358,  ...,  0.0759, -0.2119, -0.1581],
+        [ 0.0544, -0.0185, -0.0180,  ..., -0.2283,  0.0488, -0.0996],
+        [-0.0056, -0.0048,  0.1952,  ..., -0.3052, -0.1184, -0.1540],
+        ...,
+        [-0.0226,  0.0062, -0.1718,  ..., -0.0245,  0.1353,  0.0666],
+        [-0.0157, -0.0202, -0.1376,  ..., -0.2635,  0.0999, -0.1902],
+        [ 0.0015, -0.0258, -0.0714,  ...,  0.0394, -0.1173,  0.0153]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.4064e-08,  ..., -4.6566e-09,
+          4.4703e-08,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.1828e-06,  ...,  8.3819e-09,
+         -1.0803e-07,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00, -1.3066e-06,  ...,  2.7940e-09,
+          3.1665e-08,  2.7940e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.0990e-07,  ...,  9.3132e-10,
+          1.2107e-08, -5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-08,  ...,  1.8626e-09,
+          8.3819e-09,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ..., -1.8626e-09,
+          8.3819e-09, -7.4506e-09]], device='cuda:0')
+Epoch 275, bias, value: tensor([-0.0289,  0.0147,  0.0236,  0.0092,  0.0351, -0.0099, -0.0017, -0.0148,
+        -0.0285,  0.0099], device='cuda:0'), grad: tensor([ 2.5798e-07,  1.3914e-06, -1.8002e-06,  1.6764e-08,  4.8429e-08,
+        -4.5635e-08, -2.2631e-07,  2.0582e-07,  9.3132e-08,  5.4017e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 274, time 220.86, cls_loss 0.0012 cls_loss_mapping 0.0015 cls_loss_causal 0.4715 re_mapping 0.0046 re_causal 0.0133 /// teacc 98.92 lr 0.00010000
+Epoch 276, weight, value: tensor([[ 0.0011,  0.0110,  0.0357,  ...,  0.0751, -0.2134, -0.1592],
+        [ 0.0544, -0.0185, -0.0180,  ..., -0.2294,  0.0486, -0.0996],
+        [-0.0056, -0.0048,  0.1954,  ..., -0.3062, -0.1190, -0.1548],
+        ...,
+        [-0.0226,  0.0062, -0.1721,  ..., -0.0246,  0.1355,  0.0667],
+        [-0.0158, -0.0202, -0.1383,  ..., -0.2638,  0.1003, -0.1903],
+        [ 0.0016, -0.0258, -0.0710,  ...,  0.0401, -0.1176,  0.0156]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.2554e-06,  ...,  1.9744e-07,
+          9.3132e-09,  1.3728e-06],
+        [ 0.0000e+00,  0.0000e+00,  1.3039e-08,  ...,  9.1270e-08,
+         -5.8673e-07,  2.3134e-06],
+        [ 0.0000e+00,  0.0000e+00,  2.6915e-07,  ...,  5.5414e-07,
+          5.3644e-07,  5.3138e-05],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  7.1712e-08,  ...,  1.1269e-07,
+         -4.5542e-07, -5.1975e-05],
+        [ 0.0000e+00,  0.0000e+00,  1.6112e-07,  ...,  4.7125e-07,
+          9.7789e-08,  1.9222e-06],
+        [ 0.0000e+00,  0.0000e+00,  1.5181e-07,  ..., -5.7593e-06,
+          8.9407e-08, -1.5765e-05]], device='cuda:0')
+Epoch 276, bias, value: tensor([-0.0292,  0.0147,  0.0231,  0.0092,  0.0351, -0.0100, -0.0017, -0.0147,
+        -0.0284,  0.0103], device='cuda:0'), grad: tensor([-1.8440e-06,  2.0005e-06,  2.0063e-04,  1.8366e-06,  1.5482e-05,
+         9.3319e-07,  3.9041e-06, -1.9765e-04,  3.6843e-06, -2.8878e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 275, time 220.81, cls_loss 0.0016 cls_loss_mapping 0.0024 cls_loss_causal 0.4872 re_mapping 0.0048 re_causal 0.0138 /// teacc 98.94 lr 0.00010000
+Epoch 277, weight, value: tensor([[ 0.0011,  0.0110,  0.0358,  ...,  0.0751, -0.2153, -0.1594],
+        [ 0.0544, -0.0185, -0.0180,  ..., -0.2323,  0.0492, -0.0997],
+        [-0.0056, -0.0048,  0.1954,  ..., -0.3067, -0.1211, -0.1571],
+        ...,
+        [-0.0226,  0.0062, -0.1725,  ..., -0.0247,  0.1355,  0.0668],
+        [-0.0159, -0.0202, -0.1401,  ..., -0.2640,  0.1003, -0.1915],
+        [ 0.0011, -0.0258, -0.0711,  ...,  0.0400, -0.1178,  0.0151]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -3.3062e-06,  ..., -4.7162e-06,
+          2.2352e-08, -3.4738e-07],
+        [ 0.0000e+00,  0.0000e+00,  2.6077e-08,  ...,  1.8533e-07,
+         -5.4017e-08,  3.6787e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-08,  ...,  3.7253e-08,
+          5.5879e-08,  8.3819e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.8184e-08,  ...,  9.5926e-08,
+          3.7253e-09,  2.4214e-07],
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ...,  6.5193e-09,
+          1.2107e-08,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  3.1814e-06,  ...,  4.5523e-06,
+          3.7253e-09,  3.6042e-07]], device='cuda:0')
+Epoch 277, bias, value: tensor([-0.0293,  0.0149,  0.0210,  0.0092,  0.0359, -0.0080, -0.0018, -0.0145,
+        -0.0299,  0.0100], device='cuda:0'), grad: tensor([-1.2144e-05,  3.4180e-07,  4.1071e-07,  1.9092e-07, -8.5495e-07,
+         4.2003e-07, -7.4785e-07,  4.5728e-07,  9.3132e-08,  1.1846e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 276, time 220.95, cls_loss 0.0013 cls_loss_mapping 0.0023 cls_loss_causal 0.4897 re_mapping 0.0049 re_causal 0.0141 /// teacc 98.89 lr 0.00010000
+Epoch 278, weight, value: tensor([[ 0.0011,  0.0110,  0.0358,  ...,  0.0751, -0.2162, -0.1597],
+        [ 0.0544, -0.0185, -0.0188,  ..., -0.2336,  0.0490, -0.0997],
+        [-0.0056, -0.0048,  0.1963,  ..., -0.3071, -0.1215, -0.1573],
+        ...,
+        [-0.0226,  0.0062, -0.1727,  ..., -0.0249,  0.1356,  0.0669],
+        [-0.0159, -0.0202, -0.1407,  ..., -0.2647,  0.1009, -0.1940],
+        [ 0.0012, -0.0258, -0.0713,  ...,  0.0400, -0.1180,  0.0152]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.5611e-07,  ..., -4.7218e-07,
+          2.2352e-08,  8.3819e-09],
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  4.4238e-07,
+          1.1073e-06,  2.1197e-06],
+        [ 9.3132e-10,  0.0000e+00,  2.7940e-09,  ...,  1.0245e-08,
+          3.7253e-09,  2.2352e-08],
+        ...,
+        [ 2.1793e-07,  0.0000e+00,  5.5879e-09,  ...,  7.9162e-08,
+         -8.9966e-07, -7.7300e-07],
+        [ 9.3132e-10,  0.0000e+00,  2.0489e-08,  ...,  1.2852e-07,
+         -2.8405e-07,  6.1374e-07],
+        [ 0.0000e+00,  0.0000e+00,  2.9802e-08,  ..., -3.0268e-07,
+         -3.4831e-07, -2.4922e-06]], device='cuda:0')
+Epoch 278, bias, value: tensor([-0.0293,  0.0147,  0.0216,  0.0093,  0.0361, -0.0091, -0.0016, -0.0145,
+        -0.0297,  0.0100], device='cuda:0'), grad: tensor([-2.2613e-06,  3.6471e-06,  7.9162e-08, -5.3905e-06, -1.2163e-06,
+        -8.5589e-07,  3.7272e-06,  4.1574e-06,  9.2294e-07, -2.8145e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 277, time 220.57, cls_loss 0.0013 cls_loss_mapping 0.0016 cls_loss_causal 0.5051 re_mapping 0.0049 re_causal 0.0142 /// teacc 98.94 lr 0.00010000
+Epoch 279, weight, value: tensor([[ 0.0010,  0.0110,  0.0358,  ...,  0.0750, -0.2181, -0.1600],
+        [ 0.0544, -0.0185, -0.0190,  ..., -0.2346,  0.0496, -0.0997],
+        [-0.0056, -0.0048,  0.1963,  ..., -0.3071, -0.1229, -0.1591],
+        ...,
+        [-0.0226,  0.0062, -0.1721,  ..., -0.0250,  0.1356,  0.0669],
+        [-0.0159, -0.0202, -0.1416,  ..., -0.2649,  0.1011, -0.1951],
+        [ 0.0012, -0.0258, -0.0713,  ...,  0.0400, -0.1185,  0.0156]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.9837e-07,  ..., -1.2759e-07,
+          1.9558e-08,  1.2107e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.2352e-08,  ...,  3.8184e-07,
+         -5.3719e-06,  6.8080e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.5832e-08,  ...,  2.1420e-08,
+          1.5181e-07,  3.0734e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  4.9174e-07,
+          1.7229e-06,  1.4128e-06],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ...,  2.3283e-08,
+          1.5739e-07,  6.4261e-08],
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-08,  ...,  9.9279e-07,
+          3.2447e-06,  1.7649e-06]], device='cuda:0')
+Epoch 279, bias, value: tensor([-0.0294,  0.0148,  0.0203,  0.0094,  0.0360, -0.0107, -0.0012, -0.0144,
+        -0.0296,  0.0102], device='cuda:0'), grad: tensor([-7.5903e-07, -1.3642e-05,  5.3458e-07,  2.5053e-07, -6.4820e-06,
+         2.6356e-07,  2.5425e-07,  6.9700e-06,  5.8860e-07,  1.2010e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 278, time 220.77, cls_loss 0.0010 cls_loss_mapping 0.0015 cls_loss_causal 0.4966 re_mapping 0.0044 re_causal 0.0137 /// teacc 98.99 lr 0.00010000
+Epoch 280, weight, value: tensor([[ 0.0010,  0.0110,  0.0358,  ...,  0.0751, -0.2186, -0.1601],
+        [ 0.0544, -0.0185, -0.0192,  ..., -0.2359,  0.0496, -0.0997],
+        [-0.0056, -0.0048,  0.1967,  ..., -0.3072, -0.1232, -0.1593],
+        ...,
+        [-0.0226,  0.0062, -0.1723,  ..., -0.0254,  0.1357,  0.0669],
+        [-0.0160, -0.0202, -0.1420,  ..., -0.2657,  0.1010, -0.1962],
+        [ 0.0013, -0.0258, -0.0714,  ...,  0.0401, -0.1186,  0.0159]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -3.0734e-08,  ..., -1.4901e-08,
+          9.3132e-09,  3.1665e-08],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  3.3528e-08,
+         -1.7695e-07,  6.5193e-08],
+        [ 0.0000e+00,  0.0000e+00, -2.4214e-08,  ...,  4.6566e-09,
+          2.1420e-08,  1.5832e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.6077e-08,  ...,  3.1665e-08,
+         -3.3528e-08, -1.1176e-08],
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-09,  ...,  6.5193e-09,
+          1.5832e-08,  4.2841e-08],
+        [ 0.0000e+00,  0.0000e+00,  4.3772e-08,  ...,  1.3318e-07,
+          9.3132e-08, -4.6566e-09]], device='cuda:0')
+Epoch 280, bias, value: tensor([-0.0294,  0.0148,  0.0202,  0.0094,  0.0356, -0.0115, -0.0006, -0.0144,
+        -0.0298,  0.0104], device='cuda:0'), grad: tensor([ 8.3819e-09, -6.8918e-07,  9.9652e-08, -9.4064e-07, -1.4715e-07,
+         9.5274e-07,  2.5425e-07,  7.4506e-09,  1.6764e-07,  3.0082e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 279, time 220.65, cls_loss 0.0011 cls_loss_mapping 0.0015 cls_loss_causal 0.4999 re_mapping 0.0047 re_causal 0.0142 /// teacc 99.08 lr 0.00010000
+Epoch 281, weight, value: tensor([[ 0.0010,  0.0110,  0.0359,  ...,  0.0751, -0.2192, -0.1602],
+        [ 0.0544, -0.0185, -0.0193,  ..., -0.2367,  0.0495, -0.0997],
+        [-0.0057, -0.0048,  0.1979,  ..., -0.3064, -0.1235, -0.1579],
+        ...,
+        [-0.0226,  0.0062, -0.1741,  ..., -0.0253,  0.1358,  0.0670],
+        [-0.0162, -0.0202, -0.1428,  ..., -0.2660,  0.1019, -0.1961],
+        [ 0.0013, -0.0258, -0.0714,  ...,  0.0401, -0.1190,  0.0158]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -4.7591e-07,  ..., -3.3434e-07,
+          1.7695e-08,  3.7253e-08],
+        [ 2.7940e-09,  0.0000e+00,  2.0117e-07,  ...,  8.2888e-08,
+          4.2841e-08,  2.3935e-07],
+        [ 7.2643e-08,  0.0000e+00, -5.4389e-07,  ...,  6.1467e-08,
+          9.5274e-07,  2.0713e-06],
+        ...,
+        [-8.1025e-08,  0.0000e+00, -9.4064e-07,  ...,  2.7940e-08,
+         -1.2992e-06, -2.9467e-06],
+        [ 1.8626e-09,  0.0000e+00,  2.4959e-07,  ...,  1.5274e-07,
+         -9.2201e-08,  2.0489e-08],
+        [ 9.3132e-10,  0.0000e+00,  8.2888e-08,  ...,  7.1712e-08,
+          1.6764e-07,  1.3225e-07]], device='cuda:0')
+Epoch 281, bias, value: tensor([-0.0293,  0.0148,  0.0204,  0.0094,  0.0352, -0.0121, -0.0007, -0.0143,
+        -0.0294,  0.0103], device='cuda:0'), grad: tensor([-1.4193e-06,  8.0280e-07,  3.2149e-06,  2.9150e-06, -2.3469e-07,
+         1.3132e-07,  1.1269e-07, -6.8694e-06,  4.7963e-07,  8.4192e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 280, time 220.88, cls_loss 0.0011 cls_loss_mapping 0.0022 cls_loss_causal 0.5049 re_mapping 0.0048 re_causal 0.0145 /// teacc 98.95 lr 0.00010000
+Epoch 282, weight, value: tensor([[ 0.0010,  0.0110,  0.0359,  ...,  0.0747, -0.2206, -0.1611],
+        [ 0.0544, -0.0185, -0.0195,  ..., -0.2375,  0.0499, -0.0994],
+        [-0.0057, -0.0048,  0.1982,  ..., -0.3087, -0.1240, -0.1586],
+        ...,
+        [-0.0227,  0.0062, -0.1746,  ..., -0.0255,  0.1358,  0.0668],
+        [-0.0162, -0.0202, -0.1436,  ..., -0.2663,  0.1019, -0.1964],
+        [ 0.0021, -0.0258, -0.0713,  ...,  0.0404, -0.1198,  0.0156]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  8.1956e-08,  ...,  0.0000e+00,
+          0.0000e+00,  5.8860e-07],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  7.4506e-09,
+         -2.7940e-09,  3.4459e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.5553e-07,  ...,  1.8626e-09,
+          1.8626e-09,  1.0878e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.0734e-08,  ...,  7.4506e-09,
+         -1.5832e-08,  2.2352e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.0489e-08,  ...,  0.0000e+00,
+          0.0000e+00,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00, -2.5425e-07,  ...,  2.7940e-08,
+          1.1176e-08, -1.8599e-06]], device='cuda:0')
+Epoch 282, bias, value: tensor([-0.0296,  0.0151,  0.0202,  0.0094,  0.0355, -0.0124, -0.0002, -0.0144,
+        -0.0296,  0.0103], device='cuda:0'), grad: tensor([ 7.5717e-07,  5.4948e-08,  1.4557e-06, -5.3160e-06,  1.9558e-08,
+         5.0478e-06,  4.0978e-08,  8.8476e-08,  1.4063e-07, -2.2948e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 281, time 220.57, cls_loss 0.0009 cls_loss_mapping 0.0024 cls_loss_causal 0.5064 re_mapping 0.0048 re_causal 0.0147 /// teacc 98.93 lr 0.00010000
+Epoch 283, weight, value: tensor([[ 0.0010,  0.0110,  0.0359,  ...,  0.0748, -0.2220, -0.1613],
+        [ 0.0543, -0.0185, -0.0198,  ..., -0.2384,  0.0502, -0.0995],
+        [-0.0057, -0.0048,  0.1985,  ..., -0.3100, -0.1242, -0.1593],
+        ...,
+        [-0.0227,  0.0062, -0.1749,  ..., -0.0256,  0.1358,  0.0667],
+        [-0.0162, -0.0202, -0.1440,  ..., -0.2669,  0.1020, -0.1972],
+        [ 0.0026, -0.0258, -0.0716,  ...,  0.0404, -0.1200,  0.0161]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ..., -7.4506e-09,
+          1.6764e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-08,  ...,  9.3132e-10,
+         -2.4939e-04,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00, -2.0768e-07,  ...,  0.0000e+00,
+          4.5449e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  7.1712e-08,  ...,  1.8626e-09,
+          2.4819e-04,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.0978e-08,  ...,  1.8626e-09,
+          8.9966e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.5832e-08,  ...,  0.0000e+00,
+          5.0664e-07, -5.5879e-09]], device='cuda:0')
+Epoch 283, bias, value: tensor([-2.9378e-02,  1.5172e-02,  2.0078e-02,  9.3762e-03,  3.5473e-02,
+        -1.2130e-02,  1.8693e-05, -1.4565e-02, -2.9749e-02,  1.0314e-02],
+       device='cuda:0'), grad: tensor([ 9.9652e-08, -9.3365e-04,  1.3057e-06, -4.2081e-05,  1.6578e-07,
+         3.6448e-05,  3.4813e-06,  9.2936e-04,  2.9393e-06,  1.9278e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 282, time 220.97, cls_loss 0.0015 cls_loss_mapping 0.0020 cls_loss_causal 0.4792 re_mapping 0.0049 re_causal 0.0134 /// teacc 98.98 lr 0.00010000
+Epoch 284, weight, value: tensor([[ 0.0009,  0.0110,  0.0360,  ...,  0.0749, -0.2225, -0.1615],
+        [ 0.0529, -0.0185, -0.0199,  ..., -0.2406,  0.0539, -0.0991],
+        [-0.0059, -0.0048,  0.1993,  ..., -0.3101, -0.1247, -0.1589],
+        ...,
+        [-0.0226,  0.0062, -0.1752,  ..., -0.0258,  0.1337,  0.0667],
+        [-0.0168, -0.0202, -0.1458,  ..., -0.2671,  0.1026, -0.1976],
+        [ 0.0025, -0.0258, -0.0719,  ...,  0.0399, -0.1226,  0.0145]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -6.5193e-08,  ..., -4.8429e-08,
+          3.1665e-08,  6.2399e-08],
+        [ 9.3132e-10,  0.0000e+00,  5.5879e-09,  ...,  5.6811e-08,
+          7.1712e-08,  2.1420e-07],
+        [-4.6566e-09,  0.0000e+00, -8.3819e-09,  ...,  6.5193e-09,
+          3.5390e-08,  2.8871e-08],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  9.3132e-09,  ...,  1.1548e-07,
+         -4.8894e-07, -3.7532e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.3039e-08,  ...,  1.1176e-08,
+          9.3132e-09,  1.0245e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-08,  ..., -5.1223e-08,
+          2.8778e-07,  1.0151e-07]], device='cuda:0')
+Epoch 284, bias, value: tensor([-0.0293,  0.0176,  0.0203,  0.0088,  0.0367, -0.0092, -0.0002, -0.0158,
+        -0.0298,  0.0091], device='cuda:0'), grad: tensor([-3.0734e-08,  4.3306e-07,  9.7789e-08,  8.8476e-08, -1.1642e-07,
+         2.9802e-08,  6.3330e-08, -1.7621e-06,  9.2201e-08,  1.1064e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 283, time 220.48, cls_loss 0.0011 cls_loss_mapping 0.0020 cls_loss_causal 0.4709 re_mapping 0.0052 re_causal 0.0141 /// teacc 98.88 lr 0.00010000
+Epoch 285, weight, value: tensor([[ 0.0008,  0.0110,  0.0361,  ...,  0.0752, -0.2227, -0.1616],
+        [ 0.0528, -0.0185, -0.0204,  ..., -0.2418,  0.0534, -0.0992],
+        [-0.0059, -0.0048,  0.2002,  ..., -0.3103, -0.1273, -0.1607],
+        ...,
+        [-0.0226,  0.0062, -0.1753,  ..., -0.0260,  0.1344,  0.0670],
+        [-0.0182, -0.0202, -0.1479,  ..., -0.2679,  0.1025, -0.1978],
+        [ 0.0027, -0.0258, -0.0721,  ...,  0.0395, -0.1231,  0.0139]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.4901e-08,  ...,  8.6613e-08,
+          5.8394e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.4214e-08,  ...,  8.3819e-09,
+          3.9116e-08,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.1665e-08,  ...,  9.3132e-10,
+          5.8021e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.6764e-08,  ...,  4.6566e-09,
+          5.5879e-09,  8.3819e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.1176e-08,  ...,  5.5879e-09,
+         -1.0245e-06,  0.0000e+00],
+        [-9.3132e-10,  0.0000e+00,  8.3819e-09,  ...,  4.6566e-09,
+          1.6764e-08, -1.4901e-08]], device='cuda:0')
+Epoch 285, bias, value: tensor([-0.0291,  0.0173,  0.0195,  0.0089,  0.0374, -0.0095, -0.0003, -0.0155,
+        -0.0302,  0.0086], device='cuda:0'), grad: tensor([ 2.1234e-06,  2.4680e-07,  2.5108e-06,  1.9278e-07,  4.6566e-07,
+         5.1595e-07, -2.3507e-06,  1.1921e-07, -3.9414e-06,  1.0990e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 284, time 220.38, cls_loss 0.0011 cls_loss_mapping 0.0022 cls_loss_causal 0.5085 re_mapping 0.0045 re_causal 0.0136 /// teacc 98.99 lr 0.00010000
+Epoch 286, weight, value: tensor([[ 0.0007,  0.0110,  0.0362,  ...,  0.0752, -0.2243, -0.1617],
+        [ 0.0530, -0.0185, -0.0212,  ..., -0.2433,  0.0531, -0.0994],
+        [-0.0061, -0.0048,  0.2006,  ..., -0.3104, -0.1298, -0.1615],
+        ...,
+        [-0.0226,  0.0062, -0.1754,  ..., -0.0261,  0.1348,  0.0670],
+        [-0.0184, -0.0202, -0.1486,  ..., -0.2683,  0.1025, -0.1985],
+        [ 0.0026, -0.0258, -0.0722,  ...,  0.0395, -0.1233,  0.0142]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -9.6858e-08,  ..., -8.3819e-08,
+          2.1420e-08,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.6764e-08,  ...,  5.1223e-08,
+          3.1386e-07,  9.5926e-08],
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ...,  7.4506e-09,
+          4.8615e-07,  2.7940e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.1176e-08,  ...,  8.3819e-08,
+         -8.6799e-07,  1.1735e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.2107e-08,  ...,  2.2352e-08,
+         -3.7160e-07,  5.1223e-08],
+        [-2.7940e-08,  0.0000e+00,  2.7940e-08,  ...,  4.3772e-07,
+          1.8813e-07,  4.6939e-07]], device='cuda:0')
+Epoch 286, bias, value: tensor([-2.8958e-02,  1.7021e-02,  1.9224e-02,  8.7337e-03,  3.7541e-02,
+        -8.7722e-03,  8.2775e-05, -1.5397e-02, -3.0287e-02,  8.6985e-03],
+       device='cuda:0'), grad: tensor([-1.9930e-07,  1.4268e-06,  1.7760e-06,  2.7474e-07, -1.2880e-06,
+         1.8440e-07,  3.2596e-07, -2.7493e-06, -1.2396e-06,  1.4985e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 285, time 220.55, cls_loss 0.0012 cls_loss_mapping 0.0013 cls_loss_causal 0.4665 re_mapping 0.0046 re_causal 0.0133 /// teacc 99.01 lr 0.00010000
+Epoch 287, weight, value: tensor([[ 0.0006,  0.0110,  0.0362,  ...,  0.0752, -0.2253, -0.1620],
+        [ 0.0564, -0.0185, -0.0213,  ..., -0.2439,  0.0540, -0.0993],
+        [-0.0086, -0.0048,  0.2012,  ..., -0.3106, -0.1308, -0.1609],
+        ...,
+        [-0.0227,  0.0062, -0.1756,  ..., -0.0263,  0.1343,  0.0669],
+        [-0.0185, -0.0202, -0.1490,  ..., -0.2700,  0.1030, -0.1994],
+        [ 0.0027, -0.0258, -0.0725,  ...,  0.0396, -0.1236,  0.0143]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.1642e-07,  ..., -1.0431e-07,
+          8.3819e-09,  9.3132e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-08,  ...,  1.5832e-08,
+          1.2107e-08,  5.8673e-08],
+        [ 0.0000e+00,  0.0000e+00, -2.6766e-06,  ...,  1.0245e-08,
+         -4.5076e-07, -2.3954e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.4473e-06,  ...,  1.1176e-08,
+          3.5297e-07,  3.3565e-06],
+        [ 0.0000e+00,  0.0000e+00,  1.3197e-06,  ...,  1.0245e-08,
+          2.3469e-07,  1.1325e-06],
+        [ 0.0000e+00,  0.0000e+00,  1.2787e-06,  ...,  2.1420e-08,
+         -1.6671e-07, -1.9670e-06]], device='cuda:0')
+Epoch 287, bias, value: tensor([-0.0288,  0.0185,  0.0186,  0.0088,  0.0374, -0.0096, -0.0007, -0.0162,
+        -0.0302,  0.0088], device='cuda:0'), grad: tensor([-4.1910e-07,  1.7229e-07, -5.3309e-06, -2.9504e-06,  3.7625e-07,
+        -1.2666e-07, -1.8626e-07,  5.7891e-06,  3.2447e-06, -5.7649e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 286, time 220.70, cls_loss 0.0011 cls_loss_mapping 0.0013 cls_loss_causal 0.4622 re_mapping 0.0045 re_causal 0.0137 /// teacc 98.93 lr 0.00010000
+Epoch 288, weight, value: tensor([[ 0.0006,  0.0110,  0.0363,  ...,  0.0753, -0.2255, -0.1618],
+        [ 0.0564, -0.0185, -0.0218,  ..., -0.2452,  0.0537, -0.0993],
+        [-0.0087, -0.0048,  0.2024,  ..., -0.3107, -0.1310, -0.1609],
+        ...,
+        [-0.0227,  0.0062, -0.1759,  ..., -0.0264,  0.1345,  0.0670],
+        [-0.0187, -0.0202, -0.1497,  ..., -0.2702,  0.1031, -0.1994],
+        [ 0.0029, -0.0258, -0.0729,  ...,  0.0395, -0.1242,  0.0142]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -6.4448e-07,  ..., -3.3434e-07,
+          3.1665e-08,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.4901e-08,  ...,  5.5879e-09,
+          1.3039e-08,  1.9558e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.6764e-07,  ...,  1.5274e-07,
+          9.3132e-09,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.5832e-08,  ...,  1.8626e-09,
+         -7.7300e-08, -4.3772e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.4901e-07,  ...,  6.4261e-08,
+          2.7940e-09,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.7789e-08,  ...,  5.1223e-08,
+          2.4214e-08,  2.3283e-08]], device='cuda:0')
+Epoch 288, bias, value: tensor([-0.0286,  0.0183,  0.0188,  0.0087,  0.0372, -0.0094, -0.0006, -0.0159,
+        -0.0303,  0.0085], device='cuda:0'), grad: tensor([-1.1465e-06,  7.2643e-08,  4.3958e-07,  8.8569e-07,  2.4214e-08,
+        -7.2736e-07, -1.6205e-07, -1.6671e-07,  4.0978e-07,  3.6042e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 287, time 221.21, cls_loss 0.0012 cls_loss_mapping 0.0014 cls_loss_causal 0.4891 re_mapping 0.0046 re_causal 0.0136 /// teacc 98.94 lr 0.00010000
+Epoch 289, weight, value: tensor([[ 0.0005,  0.0110,  0.0366,  ...,  0.0756, -0.2265, -0.1614],
+        [ 0.0563, -0.0185, -0.0220,  ..., -0.2482,  0.0534, -0.1003],
+        [-0.0086, -0.0048,  0.2031,  ..., -0.3106, -0.1316, -0.1609],
+        ...,
+        [-0.0227,  0.0062, -0.1763,  ..., -0.0259,  0.1350,  0.0674],
+        [-0.0191, -0.0202, -0.1502,  ..., -0.2713,  0.1033, -0.2003],
+        [ 0.0041, -0.0258, -0.0740,  ...,  0.0397, -0.1245,  0.0167]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ..., -3.7253e-09,
+          1.5832e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-08,  ...,  1.8626e-09,
+         -4.3772e-08,  6.5193e-09],
+        [ 0.0000e+00,  0.0000e+00, -6.4541e-07,  ...,  0.0000e+00,
+          3.1292e-07,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.1828e-07,  ...,  2.7940e-09,
+          1.8626e-09,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00, -4.3772e-07,  ...,  0.0000e+00,
+         -5.6159e-07,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ..., -1.8626e-09,
+          1.1455e-07, -2.7008e-08]], device='cuda:0')
+Epoch 289, bias, value: tensor([-0.0282,  0.0172,  0.0191,  0.0088,  0.0342, -0.0098, -0.0005, -0.0157,
+        -0.0303,  0.0105], device='cuda:0'), grad: tensor([ 5.2154e-08, -6.9849e-08,  8.5309e-07,  1.1194e-06,  2.7008e-08,
+         1.9558e-08,  6.0536e-08,  1.7853e-06, -4.1723e-06,  3.2689e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 288, time 220.99, cls_loss 0.0013 cls_loss_mapping 0.0016 cls_loss_causal 0.4897 re_mapping 0.0048 re_causal 0.0137 /// teacc 99.01 lr 0.00010000
+Epoch 290, weight, value: tensor([[ 2.1439e-04,  1.0998e-02,  3.6620e-02,  ...,  7.5673e-02,
+         -2.2930e-01, -1.6144e-01],
+        [ 5.6262e-02, -1.8468e-02, -2.3394e-02,  ..., -2.4891e-01,
+          5.3238e-02, -1.0040e-01],
+        [-8.8295e-03, -4.7728e-03,  2.0407e-01,  ..., -3.1121e-01,
+         -1.3213e-01, -1.6107e-01],
+        ...,
+        [-2.2740e-02,  6.2061e-03, -1.7686e-01,  ..., -2.6144e-02,
+          1.3504e-01,  6.7378e-02],
+        [-2.0624e-02, -2.0220e-02, -1.4894e-01,  ..., -2.7172e-01,
+          1.0426e-01, -2.0103e-01],
+        [ 5.2439e-03, -2.5834e-02, -7.4102e-02,  ...,  3.9734e-02,
+         -1.2440e-01,  1.7342e-02]], device='cuda:0'), grad: tensor([[ 2.7940e-09,  0.0000e+00,  4.1425e-06,  ..., -2.4214e-08,
+          3.4459e-08,  8.8476e-09],
+        [ 3.3667e-07,  0.0000e+00,  2.5555e-06,  ...,  6.0536e-09,
+          1.5162e-06,  6.8266e-07],
+        [ 6.4261e-08,  0.0000e+00, -1.4380e-05,  ...,  6.5193e-09,
+          2.9476e-07,  1.3458e-07],
+        ...,
+        [-5.6159e-07,  0.0000e+00,  3.4943e-06,  ...,  1.8626e-09,
+         -2.6040e-06, -1.1921e-06],
+        [ 6.3796e-08,  0.0000e+00,  2.0266e-06,  ...,  8.8476e-09,
+          3.6787e-08,  1.2992e-07],
+        [ 4.1444e-08,  0.0000e+00,  2.3236e-07,  ...,  2.3749e-07,
+          4.0932e-07,  4.7777e-07]], device='cuda:0')
+Epoch 290, bias, value: tensor([-0.0284,  0.0170,  0.0173,  0.0087,  0.0334, -0.0096, -0.0007, -0.0154,
+        -0.0292,  0.0110], device='cuda:0'), grad: tensor([ 7.8902e-06,  8.9854e-06, -3.1978e-05,  2.9337e-06, -3.5856e-08,
+         2.8452e-07,  1.4426e-06,  4.0308e-06,  4.1276e-06,  2.2668e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 289, time 220.51, cls_loss 0.0009 cls_loss_mapping 0.0014 cls_loss_causal 0.4684 re_mapping 0.0044 re_causal 0.0135 /// teacc 98.97 lr 0.00010000
+Epoch 291, weight, value: tensor([[ 1.0084e-04,  1.0998e-02,  3.6778e-02,  ...,  7.5777e-02,
+         -2.3005e-01, -1.6140e-01],
+        [ 5.6171e-02, -1.8468e-02, -2.3119e-02,  ..., -2.4963e-01,
+          5.3226e-02, -1.0045e-01],
+        [-8.9897e-03, -4.7728e-03,  2.0462e-01,  ..., -3.1156e-01,
+         -1.3370e-01, -1.6121e-01],
+        ...,
+        [-2.2739e-02,  6.2061e-03, -1.7715e-01,  ..., -2.6300e-02,
+          1.3529e-01,  6.7492e-02],
+        [-2.1068e-02, -2.0220e-02, -1.4981e-01,  ..., -2.7200e-01,
+          1.0472e-01, -2.0138e-01],
+        [ 4.6935e-03, -2.5834e-02, -7.4619e-02,  ...,  3.9694e-02,
+         -1.2506e-01,  1.7284e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.3912e-07,  ..., -4.8289e-07,
+          5.1223e-09,  9.3132e-10],
+        [ 4.6566e-10,  0.0000e+00,  4.6100e-08,  ...,  4.7963e-08,
+         -2.0955e-08,  1.5367e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.2247e-07,  ...,  8.8476e-08,
+          3.2596e-09,  4.1910e-09],
+        ...,
+        [-3.2596e-09,  0.0000e+00,  4.8429e-08,  ...,  4.3772e-08,
+          6.0536e-09, -4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  9.2201e-08,  ...,  7.5903e-08,
+          6.0536e-09,  6.5193e-09],
+        [ 9.3132e-10,  0.0000e+00,  1.5600e-07,  ...,  3.2783e-07,
+          2.7940e-09,  2.1514e-07]], device='cuda:0')
+Epoch 291, bias, value: tensor([-0.0282,  0.0170,  0.0169,  0.0088,  0.0334, -0.0104, -0.0008, -0.0152,
+        -0.0290,  0.0107], device='cuda:0'), grad: tensor([-1.3541e-06,  9.9652e-08,  4.0699e-07, -2.2352e-07, -3.7905e-07,
+         2.1700e-07,  1.0710e-08,  1.7323e-07,  2.7195e-07,  7.8790e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 290, time 220.74, cls_loss 0.0012 cls_loss_mapping 0.0021 cls_loss_causal 0.4948 re_mapping 0.0044 re_causal 0.0132 /// teacc 98.93 lr 0.00010000
+Epoch 292, weight, value: tensor([[ 6.8219e-05,  1.0998e-02,  3.6802e-02,  ...,  7.5664e-02,
+         -2.3363e-01, -1.6158e-01],
+        [ 5.6292e-02, -1.8468e-02, -2.3233e-02,  ..., -2.5039e-01,
+          5.2650e-02, -1.0047e-01],
+        [-9.0924e-03, -4.7728e-03,  2.0491e-01,  ..., -3.1211e-01,
+         -1.3435e-01, -1.6142e-01],
+        ...,
+        [-2.2739e-02,  6.2061e-03, -1.7755e-01,  ..., -2.6598e-02,
+          1.3551e-01,  6.7509e-02],
+        [-2.1234e-02, -2.0220e-02, -1.5047e-01,  ..., -2.7268e-01,
+          1.0601e-01, -2.0164e-01],
+        [ 4.7603e-03, -2.5834e-02, -7.4729e-02,  ...,  3.9858e-02,
+         -1.2543e-01,  1.7372e-02]], device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.0710e-08,  ..., -2.7940e-09,
+          2.9337e-08,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.0710e-08,  ...,  8.8476e-09,
+          2.0489e-08,  2.2352e-08],
+        [ 0.0000e+00,  0.0000e+00,  6.9849e-09,  ...,  0.0000e+00,
+          4.9826e-08,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ...,  7.4506e-09,
+          4.6566e-09,  3.0268e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.1176e-08,  ...,  4.6566e-10,
+         -6.4727e-08,  1.3970e-09],
+        [-2.3283e-09,  0.0000e+00,  5.1223e-09,  ..., -1.5367e-08,
+          4.1910e-08, -9.4995e-08]], device='cuda:0')
+Epoch 292, bias, value: tensor([-2.8331e-02,  1.6652e-02,  1.6853e-02,  8.6544e-03,  3.3372e-02,
+        -1.0386e-02,  3.2685e-05, -1.5136e-02, -2.8345e-02,  1.0769e-02],
+       device='cuda:0'), grad: tensor([ 7.9628e-08,  8.5682e-08,  8.2888e-08,  4.9360e-08, -2.3236e-07,
+         1.8161e-08,  5.5879e-08,  7.4506e-08, -1.8673e-07, -1.4435e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 291, time 220.97, cls_loss 0.0011 cls_loss_mapping 0.0020 cls_loss_causal 0.4932 re_mapping 0.0046 re_causal 0.0132 /// teacc 98.98 lr 0.00010000
+Epoch 293, weight, value: tensor([[-0.0004,  0.0110,  0.0368,  ...,  0.0757, -0.2347, -0.1617],
+        [ 0.0562, -0.0185, -0.0235,  ..., -0.2515,  0.0519, -0.1005],
+        [-0.0075, -0.0048,  0.2058,  ..., -0.3125, -0.1346, -0.1614],
+        ...,
+        [-0.0227,  0.0062, -0.1793,  ..., -0.0268,  0.1364,  0.0676],
+        [-0.0217, -0.0202, -0.1511,  ..., -0.2729,  0.1078, -0.2013],
+        [ 0.0052, -0.0258, -0.0749,  ...,  0.0398, -0.1261,  0.0173]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  5.1223e-09,  ...,  3.4459e-08,
+          1.2713e-06,  2.8871e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.7789e-09,  ...,  2.3283e-09,
+          3.2596e-08,  5.5879e-08],
+        [ 1.8626e-09,  0.0000e+00, -7.1246e-08,  ...,  1.7695e-08,
+          1.3039e-08,  2.5146e-08],
+        ...,
+        [-4.6566e-09,  0.0000e+00,  4.7497e-08,  ...,  1.9092e-08,
+         -8.9407e-08, -1.3039e-07],
+        [ 0.0000e+00,  0.0000e+00,  4.0047e-08,  ...,  3.7253e-09,
+          1.2154e-07,  5.1223e-09],
+        [ 4.6566e-10,  0.0000e+00,  6.0536e-09,  ..., -3.0920e-07,
+          7.2177e-08, -2.3469e-07]], device='cuda:0')
+Epoch 293, bias, value: tensor([-0.0284,  0.0162,  0.0173,  0.0084,  0.0335, -0.0102, -0.0006, -0.0148,
+        -0.0272,  0.0106], device='cuda:0'), grad: tensor([ 1.9580e-05,  2.5379e-07, -6.5193e-09,  0.0000e+00,  5.0524e-07,
+         9.6977e-05, -1.1879e-04, -6.7055e-08,  1.9148e-06, -9.9652e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 292, time 221.37, cls_loss 0.0009 cls_loss_mapping 0.0017 cls_loss_causal 0.4653 re_mapping 0.0047 re_causal 0.0134 /// teacc 99.00 lr 0.00010000
+Epoch 294, weight, value: tensor([[-0.0004,  0.0110,  0.0369,  ...,  0.0758, -0.2364, -0.1617],
+        [ 0.0562, -0.0185, -0.0258,  ..., -0.2522,  0.0517, -0.1005],
+        [-0.0075, -0.0048,  0.2094,  ..., -0.3126, -0.1329, -0.1595],
+        ...,
+        [-0.0227,  0.0062, -0.1838,  ..., -0.0271,  0.1364,  0.0676],
+        [-0.0218, -0.0202, -0.1522,  ..., -0.2732,  0.1083, -0.2015],
+        [ 0.0051, -0.0258, -0.0750,  ...,  0.0399, -0.1266,  0.0173]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  6.7521e-08,  ...,  4.1910e-09,
+          2.2724e-07,  6.0536e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.0978e-08,  ...,  1.6298e-08,
+         -7.6648e-07,  1.0245e-08],
+        [ 0.0000e+00,  0.0000e+00, -6.5286e-07,  ..., -7.5437e-08,
+          8.3353e-08,  4.6566e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.6392e-08,  ...,  2.8405e-08,
+          2.9337e-08,  2.0023e-08],
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-08,  ...,  1.5507e-07,
+          2.8126e-07,  1.7509e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.4994e-07,  ...,  4.2096e-07,
+          2.5611e-08,  4.4750e-07]], device='cuda:0')
+Epoch 294, bias, value: tensor([-0.0284,  0.0160,  0.0198,  0.0084,  0.0335, -0.0109, -0.0002, -0.0150,
+        -0.0270,  0.0105], device='cuda:0'), grad: tensor([ 9.7603e-07, -2.6766e-06, -1.0915e-06,  2.2212e-07, -1.1548e-06,
+         1.1129e-07,  2.7241e-07,  3.7160e-07,  1.5832e-06,  1.3886e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 293, time 220.90, cls_loss 0.0009 cls_loss_mapping 0.0017 cls_loss_causal 0.4632 re_mapping 0.0046 re_causal 0.0135 /// teacc 99.09 lr 0.00010000
+Epoch 295, weight, value: tensor([[-0.0004,  0.0110,  0.0369,  ...,  0.0758, -0.2378, -0.1618],
+        [ 0.0562, -0.0185, -0.0260,  ..., -0.2528,  0.0521, -0.1005],
+        [-0.0075, -0.0048,  0.2098,  ..., -0.3129, -0.1331, -0.1596],
+        ...,
+        [-0.0227,  0.0062, -0.1840,  ..., -0.0273,  0.1362,  0.0676],
+        [-0.0218, -0.0202, -0.1537,  ..., -0.2760,  0.1087, -0.2030],
+        [ 0.0051, -0.0258, -0.0751,  ...,  0.0400, -0.1269,  0.0175]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -3.6927e-07,  ..., -4.1910e-07,
+          1.8626e-09, -4.0513e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-08,  ...,  8.2888e-08,
+         -2.9802e-08,  7.6834e-08],
+        [ 0.0000e+00,  0.0000e+00,  7.2177e-08,  ...,  8.0559e-08,
+          2.3283e-09,  1.7229e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-08,  ...,  4.8429e-08,
+          3.2596e-09,  6.2864e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.0245e-08,  ...,  1.9092e-08,
+          1.0245e-08,  2.1886e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.0629e-07,  ...,  2.8359e-07,
+          1.8626e-09,  1.1688e-07]], device='cuda:0')
+Epoch 295, bias, value: tensor([-2.8444e-02,  1.6286e-02,  1.9898e-02,  8.3496e-03,  3.3004e-02,
+        -1.1125e-02,  3.4407e-05, -1.5153e-02, -2.7145e-02,  1.0535e-02],
+       device='cuda:0'), grad: tensor([-1.5339e-06,  9.7323e-08,  2.8778e-07,  1.8300e-07, -4.3167e-07,
+        -4.7032e-08,  2.3283e-07,  1.9372e-07,  1.4948e-07,  8.8615e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 294, time 221.14, cls_loss 0.0012 cls_loss_mapping 0.0018 cls_loss_causal 0.4780 re_mapping 0.0047 re_causal 0.0135 /// teacc 98.97 lr 0.00010000
+Epoch 296, weight, value: tensor([[-0.0006,  0.0110,  0.0369,  ...,  0.0759, -0.2422, -0.1620],
+        [ 0.0569, -0.0185, -0.0260,  ..., -0.2546,  0.0519, -0.1006],
+        [-0.0097, -0.0048,  0.2103,  ..., -0.3132, -0.1352, -0.1605],
+        ...,
+        [-0.0228,  0.0062, -0.1849,  ..., -0.0275,  0.1367,  0.0678],
+        [-0.0220, -0.0202, -0.1554,  ..., -0.2768,  0.1090, -0.2030],
+        [ 0.0051, -0.0258, -0.0752,  ...,  0.0400, -0.1274,  0.0174]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  5.1223e-09,
+          8.8476e-09,  1.2107e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.4995e-08,
+         -3.7253e-09,  2.7381e-07],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  7.9162e-09,
+          6.0536e-09,  2.4680e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  1.5832e-08,
+         -1.9558e-08, -5.4482e-08],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  1.7229e-08,
+          1.1828e-07,  4.2841e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-09,  ...,  2.9095e-06,
+          7.9162e-09,  7.9200e-06]], device='cuda:0')
+Epoch 296, bias, value: tensor([-0.0295,  0.0162,  0.0195,  0.0084,  0.0336, -0.0110,  0.0010, -0.0150,
+        -0.0271,  0.0105], device='cuda:0'), grad: tensor([ 6.5658e-08,  4.5449e-07,  7.8697e-08,  1.1828e-07, -1.3612e-05,
+         3.5437e-07, -1.0040e-06, -1.5879e-07,  6.8452e-07,  1.3016e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 295, time 220.64, cls_loss 0.0010 cls_loss_mapping 0.0015 cls_loss_causal 0.5004 re_mapping 0.0045 re_causal 0.0134 /// teacc 99.04 lr 0.00010000
+Epoch 297, weight, value: tensor([[-0.0006,  0.0110,  0.0369,  ...,  0.0760, -0.2444, -0.1621],
+        [ 0.0569, -0.0185, -0.0265,  ..., -0.2559,  0.0505, -0.1006],
+        [-0.0097, -0.0048,  0.2111,  ..., -0.3133, -0.1359, -0.1608],
+        ...,
+        [-0.0228,  0.0062, -0.1854,  ..., -0.0277,  0.1369,  0.0678],
+        [-0.0223, -0.0202, -0.1560,  ..., -0.2773,  0.1121, -0.2035],
+        [ 0.0050, -0.0258, -0.0753,  ...,  0.0395, -0.1281,  0.0167]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.8498e-07,  ...,  3.3667e-07,
+          5.0152e-07,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00, -4.6566e-10,  ...,  1.3970e-09,
+          2.3283e-09,  1.7229e-08],
+        [ 0.0000e+00,  0.0000e+00, -8.8476e-09,  ...,  4.6566e-10,
+          5.1223e-09,  5.5879e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  1.1642e-08,
+         -5.5879e-08, -3.8650e-08],
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-09,  ...,  5.1223e-09,
+          9.3132e-10,  1.2107e-08],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ..., -5.2154e-08,
+          2.0023e-08, -1.9465e-07]], device='cuda:0')
+Epoch 297, bias, value: tensor([-0.0297,  0.0149,  0.0197,  0.0085,  0.0348, -0.0114,  0.0010, -0.0150,
+        -0.0243,  0.0100], device='cuda:0'), grad: tensor([ 2.2519e-06,  1.4435e-08,  6.9849e-09,  6.7987e-08,  2.3143e-07,
+         7.4506e-09, -2.2985e-06, -6.2864e-08,  3.4925e-08, -2.3842e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 296, time 220.57, cls_loss 0.0013 cls_loss_mapping 0.0016 cls_loss_causal 0.5020 re_mapping 0.0044 re_causal 0.0130 /// teacc 98.99 lr 0.00010000
+Epoch 298, weight, value: tensor([[-0.0006,  0.0110,  0.0369,  ...,  0.0760, -0.2463, -0.1624],
+        [ 0.0569, -0.0185, -0.0270,  ..., -0.2584,  0.0506, -0.1006],
+        [-0.0097, -0.0048,  0.2122,  ..., -0.3138, -0.1360, -0.1603],
+        ...,
+        [-0.0228,  0.0062, -0.1863,  ..., -0.0291,  0.1364,  0.0676],
+        [-0.0224, -0.0202, -0.1566,  ..., -0.2787,  0.1134, -0.2035],
+        [ 0.0051, -0.0258, -0.0758,  ...,  0.0397, -0.1281,  0.0171]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -6.9849e-09,  ..., -1.8161e-08,
+          4.1910e-09,  1.3039e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.8207e-07,  ...,  1.0384e-07,
+         -7.0315e-08,  2.4540e-07],
+        [ 0.0000e+00,  0.0000e+00, -8.2562e-07,  ...,  3.2596e-09,
+          1.8161e-08, -2.9895e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  6.4075e-07,  ...,  4.6100e-08,
+          5.8673e-08,  3.8277e-07],
+        [ 0.0000e+00,  0.0000e+00,  2.4214e-08,  ...,  1.1781e-07,
+         -1.9092e-08,  3.0128e-07],
+        [ 0.0000e+00,  0.0000e+00,  7.2643e-08,  ...,  6.1514e-07,
+          3.7253e-09,  1.4044e-06]], device='cuda:0')
+Epoch 298, bias, value: tensor([-0.0301,  0.0149,  0.0203,  0.0085,  0.0347, -0.0118,  0.0015, -0.0154,
+        -0.0235,  0.0103], device='cuda:0'), grad: tensor([ 1.3970e-09,  5.8068e-07, -1.4193e-06, -4.5169e-07, -2.7176e-06,
+         1.5320e-07, -2.7334e-07,  1.4231e-06,  5.2713e-07,  2.1979e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 297, time 220.76, cls_loss 0.0010 cls_loss_mapping 0.0017 cls_loss_causal 0.4869 re_mapping 0.0044 re_causal 0.0132 /// teacc 99.07 lr 0.00010000
+Epoch 299, weight, value: tensor([[-0.0006,  0.0110,  0.0369,  ...,  0.0761, -0.2465, -0.1625],
+        [ 0.0569, -0.0185, -0.0271,  ..., -0.2600,  0.0506, -0.1007],
+        [-0.0089, -0.0048,  0.2129,  ..., -0.3142, -0.1362, -0.1597],
+        ...,
+        [-0.0229,  0.0062, -0.1872,  ..., -0.0293,  0.1362,  0.0676],
+        [-0.0228, -0.0202, -0.1585,  ..., -0.2794,  0.1137, -0.2031],
+        [ 0.0051, -0.0258, -0.0759,  ...,  0.0397, -0.1284,  0.0172]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.5832e-08,  ..., -1.9558e-08,
+          1.8626e-08,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.1735e-07,  ...,  1.8626e-09,
+          1.4901e-07,  4.3772e-08],
+        [ 0.0000e+00,  0.0000e+00, -2.5425e-07,  ...,  9.3132e-10,
+          1.0431e-07, -9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  5.0943e-07,  ...,  7.4506e-09,
+          4.2059e-06,  9.1176e-07],
+        [ 0.0000e+00,  0.0000e+00,  9.0338e-08,  ...,  9.3132e-09,
+          7.4506e-08,  3.5390e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.5146e-08,  ..., -1.6205e-07,
+          9.3132e-08, -4.0326e-07]], device='cuda:0')
+Epoch 299, bias, value: tensor([-0.0301,  0.0150,  0.0207,  0.0089,  0.0347, -0.0125,  0.0015, -0.0157,
+        -0.0235,  0.0102], device='cuda:0'), grad: tensor([ 5.1223e-08,  1.1679e-06,  3.2410e-07, -3.7313e-05,  6.2864e-07,
+         5.7667e-06,  8.2888e-08,  2.8670e-05,  7.1246e-07, -1.2200e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 298, time 221.03, cls_loss 0.0009 cls_loss_mapping 0.0016 cls_loss_causal 0.4533 re_mapping 0.0044 re_causal 0.0131 /// teacc 99.03 lr 0.00010000
+Epoch 300, weight, value: tensor([[-0.0007,  0.0110,  0.0369,  ...,  0.0761, -0.2470, -0.1625],
+        [ 0.0568, -0.0185, -0.0271,  ..., -0.2603,  0.0508, -0.1007],
+        [-0.0089, -0.0048,  0.2131,  ..., -0.3143, -0.1364, -0.1599],
+        ...,
+        [-0.0229,  0.0062, -0.1874,  ..., -0.0296,  0.1363,  0.0677],
+        [-0.0228, -0.0202, -0.1601,  ..., -0.2803,  0.1134, -0.2039],
+        [ 0.0056, -0.0258, -0.0759,  ...,  0.0400, -0.1287,  0.0177]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.1828e-07,  ..., -1.3039e-07,
+          3.7253e-08,  6.0536e-08],
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-09,  ...,  6.5193e-09,
+         -3.5614e-05, -1.6481e-05],
+        [ 0.0000e+00,  0.0000e+00,  2.0489e-08,  ...,  1.0245e-08,
+          2.8871e-08,  1.1176e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-09,  ...,  4.6566e-09,
+          3.2604e-05,  1.5117e-05],
+        [ 0.0000e+00,  0.0000e+00,  4.5635e-08,  ...,  8.3819e-09,
+         -2.8871e-08,  9.3132e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.1910e-08,  ...,  2.3283e-08,
+          2.2389e-06,  1.1176e-06]], device='cuda:0')
+Epoch 300, bias, value: tensor([-0.0301,  0.0150,  0.0206,  0.0089,  0.0339, -0.0128,  0.0020, -0.0156,
+        -0.0239,  0.0105], device='cuda:0'), grad: tensor([-1.7323e-07, -7.5400e-05,  1.6578e-07,  1.2666e-06,  5.4017e-07,
+        -2.1532e-06,  1.6419e-06,  6.8724e-05,  3.4925e-07,  5.1036e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 299, time 220.73, cls_loss 0.0010 cls_loss_mapping 0.0016 cls_loss_causal 0.4753 re_mapping 0.0045 re_causal 0.0132 /// teacc 98.99 lr 0.00010000
+Epoch 301, weight, value: tensor([[-0.0007,  0.0110,  0.0370,  ...,  0.0762, -0.2471, -0.1626],
+        [ 0.0568, -0.0185, -0.0277,  ..., -0.2627,  0.0539, -0.0991],
+        [-0.0090, -0.0048,  0.2135,  ..., -0.3146, -0.1362, -0.1600],
+        ...,
+        [-0.0229,  0.0062, -0.1875,  ..., -0.0294,  0.1333,  0.0663],
+        [-0.0229, -0.0202, -0.1612,  ..., -0.2815,  0.1135, -0.2043],
+        [ 0.0056, -0.0258, -0.0760,  ...,  0.0401, -0.1297,  0.0179]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.0489e-08,  ...,  0.0000e+00,
+          1.8626e-09,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.4028e-07,  ...,  9.3132e-10,
+         -8.3819e-09,  4.4703e-08],
+        [ 0.0000e+00,  0.0000e+00, -4.2841e-06,  ...,  9.3132e-10,
+          1.2107e-08,  5.5879e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.6764e-08,  ...,  3.7253e-09,
+         -5.2154e-08, -1.3504e-07],
+        [ 0.0000e+00,  0.0000e+00,  3.9451e-06,  ...,  2.7940e-09,
+          2.5146e-08,  1.0245e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.9802e-08,  ..., -8.3819e-09,
+          2.7940e-08,  4.6566e-08]], device='cuda:0')
+Epoch 301, bias, value: tensor([-0.0300,  0.0178,  0.0209,  0.0088,  0.0339, -0.0131,  0.0021, -0.0181,
+        -0.0240,  0.0107], device='cuda:0'), grad: tensor([ 6.6124e-08,  6.9384e-07, -1.1094e-05, -6.5193e-08,  8.5682e-08,
+        -3.0641e-07,  1.4342e-07, -2.7474e-07,  1.0528e-05,  2.3097e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 300, time 220.19, cls_loss 0.0011 cls_loss_mapping 0.0016 cls_loss_causal 0.5017 re_mapping 0.0042 re_causal 0.0126 /// teacc 99.04 lr 0.00010000
+Epoch 302, weight, value: tensor([[-0.0007,  0.0110,  0.0372,  ...,  0.0762, -0.2475, -0.1630],
+        [ 0.0568, -0.0185, -0.0278,  ..., -0.2660,  0.0539, -0.0990],
+        [-0.0090, -0.0048,  0.2137,  ..., -0.3150, -0.1365, -0.1600],
+        ...,
+        [-0.0229,  0.0062, -0.1877,  ..., -0.0303,  0.1334,  0.0661],
+        [-0.0230, -0.0202, -0.1633,  ..., -0.2834,  0.1134, -0.2064],
+        [ 0.0056, -0.0258, -0.0762,  ...,  0.0409, -0.1299,  0.0189]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.3225e-07,  ..., -1.6298e-07,
+          0.0000e+00,  1.6764e-08],
+        [ 0.0000e+00,  0.0000e+00,  4.0978e-08,  ...,  6.8918e-08,
+         -7.7300e-08,  1.3784e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.0338e-07,  ...,  2.2352e-08,
+          1.5832e-08,  2.1420e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  5.7742e-08,  ...,  7.7300e-08,
+         -1.8626e-09,  9.9652e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.3225e-07,  ...,  1.4137e-06,
+          2.7940e-09,  2.5406e-06],
+        [ 0.0000e+00,  0.0000e+00,  4.1910e-08,  ..., -4.4815e-06,
+         -1.4249e-07, -8.5607e-06]], device='cuda:0')
+Epoch 302, bias, value: tensor([-0.0299,  0.0179,  0.0207,  0.0088,  0.0329, -0.0134,  0.0020, -0.0182,
+        -0.0243,  0.0115], device='cuda:0'), grad: tensor([-3.5018e-07,  2.4587e-07,  4.0233e-07,  2.8722e-06,  1.1384e-05,
+        -5.7481e-06,  1.1595e-06,  3.9488e-07,  6.3889e-06, -1.6809e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 301, time 220.98, cls_loss 0.0013 cls_loss_mapping 0.0017 cls_loss_causal 0.4695 re_mapping 0.0044 re_causal 0.0122 /// teacc 99.01 lr 0.00010000
+Epoch 303, weight, value: tensor([[-0.0007,  0.0110,  0.0372,  ...,  0.0762, -0.2520, -0.1631],
+        [ 0.0568, -0.0185, -0.0283,  ..., -0.2683,  0.0538, -0.0991],
+        [-0.0090, -0.0048,  0.2147,  ..., -0.3158, -0.1365, -0.1605],
+        ...,
+        [-0.0229,  0.0062, -0.1886,  ..., -0.0309,  0.1336,  0.0662],
+        [-0.0231, -0.0202, -0.1649,  ..., -0.2849,  0.1135, -0.2074],
+        [ 0.0055, -0.0258, -0.0763,  ...,  0.0412, -0.1303,  0.0195]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.0047e-08,  ..., -5.6811e-08,
+          8.3819e-09,  7.4506e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.2596e-08,  ...,  4.6566e-09,
+          8.2888e-08,  1.0245e-07],
+        [ 0.0000e+00,  0.0000e+00,  2.8312e-07,  ...,  3.7253e-09,
+          5.6550e-06,  4.5449e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -1.9092e-07,  ...,  1.8626e-09,
+         -5.5395e-06, -4.6901e-06],
+        [ 0.0000e+00,  0.0000e+00,  1.0245e-08,  ...,  2.7940e-09,
+         -1.0543e-06, -2.5053e-07],
+        [ 0.0000e+00,  0.0000e+00,  3.9116e-08,  ...,  2.7940e-08,
+          2.4866e-07,  1.9465e-07]], device='cuda:0')
+Epoch 303, bias, value: tensor([-0.0305,  0.0177,  0.0212,  0.0087,  0.0326, -0.0146,  0.0032, -0.0180,
+        -0.0245,  0.0119], device='cuda:0'), grad: tensor([-7.3574e-08,  4.9733e-07,  2.0936e-05, -2.8312e-07,  3.8650e-07,
+         4.4797e-07,  6.4913e-07, -2.0206e-05, -3.5912e-06,  1.2117e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 302, time 220.27, cls_loss 0.0011 cls_loss_mapping 0.0023 cls_loss_causal 0.4851 re_mapping 0.0045 re_causal 0.0130 /// teacc 99.01 lr 0.00010000
+Epoch 304, weight, value: tensor([[-0.0007,  0.0110,  0.0373,  ...,  0.0758, -0.2522, -0.1641],
+        [ 0.0568, -0.0185, -0.0286,  ..., -0.2703,  0.0540, -0.0991],
+        [-0.0090, -0.0048,  0.2153,  ..., -0.3163, -0.1368, -0.1609],
+        ...,
+        [-0.0229,  0.0062, -0.1894,  ..., -0.0313,  0.1337,  0.0660],
+        [-0.0231, -0.0202, -0.1652,  ..., -0.2859,  0.1132, -0.2092],
+        [ 0.0055, -0.0258, -0.0764,  ...,  0.0413, -0.1306,  0.0194]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.3039e-08,  ..., -1.3970e-08,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  2.7940e-09,
+          2.0955e-07,  2.0768e-07],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  2.7940e-09,
+          2.7940e-09,  2.7940e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -2.4680e-07, -2.5146e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-10,
+          3.7253e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  1.1176e-08,
+          2.9802e-08,  4.8429e-08]], device='cuda:0')
+Epoch 304, bias, value: tensor([-0.0307,  0.0178,  0.0213,  0.0090,  0.0332, -0.0158,  0.0024, -0.0180,
+        -0.0249,  0.0121], device='cuda:0'), grad: tensor([-2.5146e-08,  4.9360e-07,  1.5832e-08, -1.3039e-08, -1.4901e-08,
+         2.8871e-08, -2.4214e-08, -5.7090e-07,  1.3039e-08,  1.0617e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 303, time 220.64, cls_loss 0.0008 cls_loss_mapping 0.0017 cls_loss_causal 0.4891 re_mapping 0.0044 re_causal 0.0130 /// teacc 99.02 lr 0.00010000
+Epoch 305, weight, value: tensor([[-0.0007,  0.0110,  0.0373,  ...,  0.0759, -0.2523, -0.1641],
+        [ 0.0568, -0.0185, -0.0287,  ..., -0.2719,  0.0536, -0.0995],
+        [-0.0090, -0.0048,  0.2156,  ..., -0.3166, -0.1370, -0.1613],
+        ...,
+        [-0.0229,  0.0062, -0.1896,  ..., -0.0315,  0.1340,  0.0665],
+        [-0.0231, -0.0202, -0.1655,  ..., -0.2863,  0.1134, -0.2097],
+        [ 0.0055, -0.0258, -0.0765,  ...,  0.0412, -0.1309,  0.0194]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  6.7987e-08,  ...,  4.4703e-08,
+          2.3935e-07,  1.4901e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.4901e-08,  ...,  1.4901e-08,
+          2.9709e-07,  6.0629e-07],
+        [ 0.0000e+00,  0.0000e+00, -6.5565e-07,  ..., -2.1327e-07,
+          1.0710e-07, -5.5879e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.4424e-07,  ...,  1.4529e-07,
+         -1.0142e-06, -9.2201e-07],
+        [ 0.0000e+00,  0.0000e+00,  2.0489e-08,  ..., -1.9558e-08,
+          1.2107e-08,  1.9372e-07],
+        [ 0.0000e+00,  0.0000e+00,  2.1420e-08,  ...,  1.4901e-08,
+          1.0524e-07,  5.0291e-08]], device='cuda:0')
+Epoch 305, bias, value: tensor([-0.0307,  0.0176,  0.0213,  0.0090,  0.0334, -0.0159,  0.0024, -0.0178,
+        -0.0249,  0.0120], device='cuda:0'), grad: tensor([ 1.2601e-06,  2.7660e-07, -7.3574e-07, -4.4703e-08,  6.4261e-08,
+         1.3039e-07,  3.9954e-07, -1.1837e-06, -3.8743e-07,  2.2259e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 304, time 220.68, cls_loss 0.0012 cls_loss_mapping 0.0022 cls_loss_causal 0.4648 re_mapping 0.0043 re_causal 0.0127 /// teacc 98.98 lr 0.00010000
+Epoch 306, weight, value: tensor([[-0.0007,  0.0110,  0.0373,  ...,  0.0762, -0.2527, -0.1643],
+        [ 0.0568, -0.0185, -0.0287,  ..., -0.2769,  0.0536, -0.0999],
+        [-0.0090, -0.0048,  0.2162,  ..., -0.3170, -0.1377, -0.1611],
+        ...,
+        [-0.0229,  0.0062, -0.1899,  ..., -0.0324,  0.1340,  0.0658],
+        [-0.0231, -0.0202, -0.1667,  ..., -0.2886,  0.1138, -0.2110],
+        [ 0.0055, -0.0258, -0.0770,  ...,  0.0442, -0.1291,  0.0242]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.5358e-06,  ..., -2.9802e-06,
+          4.6566e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  8.4657e-07,  ...,  1.6205e-06,
+          3.6925e-05,  2.8759e-06],
+        [ 0.0000e+00,  0.0000e+00,  1.2759e-07,  ...,  2.5053e-07,
+          7.3574e-08,  2.7940e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.5146e-08,  ...,  4.0978e-08,
+         -3.9726e-05, -3.0883e-06],
+        [ 0.0000e+00,  0.0000e+00,  4.7591e-07,  ...,  9.0897e-07,
+          1.5842e-06,  1.2573e-07],
+        [ 0.0000e+00,  0.0000e+00,  4.4703e-08,  ...,  1.1735e-07,
+          1.4342e-07,  1.2107e-08]], device='cuda:0')
+Epoch 306, bias, value: tensor([-0.0314,  0.0175,  0.0215,  0.0090,  0.0297, -0.0159,  0.0032, -0.0180,
+        -0.0249,  0.0157], device='cuda:0'), grad: tensor([-7.3910e-06,  6.9976e-05,  8.0187e-07,  1.7118e-06,  2.2352e-08,
+         8.2888e-08,  6.8918e-08, -7.0751e-05,  5.0589e-06,  5.2154e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 305, time 221.15, cls_loss 0.0011 cls_loss_mapping 0.0023 cls_loss_causal 0.5154 re_mapping 0.0043 re_causal 0.0132 /// teacc 99.00 lr 0.00010000
+Epoch 307, weight, value: tensor([[-0.0007,  0.0110,  0.0372,  ...,  0.0765, -0.2530, -0.1645],
+        [ 0.0568, -0.0185, -0.0289,  ..., -0.2786,  0.0524, -0.1016],
+        [-0.0090, -0.0048,  0.2164,  ..., -0.3179, -0.1379, -0.1615],
+        ...,
+        [-0.0229,  0.0062, -0.1901,  ..., -0.0329,  0.1353,  0.0672],
+        [-0.0231, -0.0202, -0.1678,  ..., -0.2909,  0.1137, -0.2117],
+        [ 0.0055, -0.0258, -0.0773,  ...,  0.0444, -0.1300,  0.0244]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3039e-08,
+          2.1420e-08,  1.2107e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  1.0245e-08,
+          3.2317e-07,  2.7847e-07],
+        [ 0.0000e+00,  0.0000e+00, -2.7008e-08,  ...,  9.3132e-10,
+          8.3819e-09,  1.1176e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  5.5879e-09,
+         -4.6752e-07, -4.0233e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  2.0489e-08,
+          1.5832e-08,  4.7497e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  8.8476e-08,
+          7.7300e-08,  2.1979e-07]], device='cuda:0')
+Epoch 307, bias, value: tensor([-0.0314,  0.0164,  0.0213,  0.0101,  0.0298, -0.0185,  0.0029, -0.0170,
+        -0.0252,  0.0157], device='cuda:0'), grad: tensor([ 3.0920e-07,  6.2026e-07,  8.3819e-09,  1.5367e-07,  1.4342e-07,
+         3.1665e-08, -8.8383e-07, -1.0300e-06,  1.6578e-07,  4.6939e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 306, time 220.74, cls_loss 0.0010 cls_loss_mapping 0.0025 cls_loss_causal 0.4840 re_mapping 0.0044 re_causal 0.0128 /// teacc 99.01 lr 0.00010000
+Epoch 308, weight, value: tensor([[-0.0007,  0.0110,  0.0373,  ...,  0.0767, -0.2532, -0.1646],
+        [ 0.0568, -0.0185, -0.0290,  ..., -0.2795,  0.0524, -0.1016],
+        [-0.0090, -0.0048,  0.2176,  ..., -0.3182, -0.1380, -0.1607],
+        ...,
+        [-0.0229,  0.0062, -0.1916,  ..., -0.0343,  0.1354,  0.0673],
+        [-0.0231, -0.0202, -0.1687,  ..., -0.2911,  0.1136, -0.2126],
+        [ 0.0055, -0.0258, -0.0774,  ...,  0.0439, -0.1319,  0.0238]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ..., -1.3970e-08,
+          1.8626e-09,  1.0245e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.0734e-08,  ...,  2.2352e-08,
+          1.5832e-08,  6.7055e-08],
+        [ 0.0000e+00,  0.0000e+00, -4.1816e-07,  ...,  9.3132e-10,
+          7.4506e-09, -1.6764e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.2689e-07,  ...,  1.3970e-08,
+         -8.7544e-08,  4.5635e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.7695e-08,  ...,  9.3132e-10,
+         -6.8918e-08,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.0245e-08,  ...,  8.2888e-08,
+          4.3772e-08,  1.4249e-07]], device='cuda:0')
+Epoch 308, bias, value: tensor([-0.0313,  0.0165,  0.0218,  0.0102,  0.0305, -0.0187,  0.0027, -0.0170,
+        -0.0252,  0.0150], device='cuda:0'), grad: tensor([-1.8626e-09,  1.6205e-07, -5.6904e-07,  1.1362e-07, -1.8906e-07,
+        -1.0338e-07,  8.5682e-08,  2.2352e-07, -6.6124e-08,  3.5483e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 307, time 220.47, cls_loss 0.0011 cls_loss_mapping 0.0012 cls_loss_causal 0.4853 re_mapping 0.0042 re_causal 0.0122 /// teacc 99.00 lr 0.00010000
+Epoch 309, weight, value: tensor([[-0.0007,  0.0110,  0.0373,  ...,  0.0767, -0.2534, -0.1647],
+        [ 0.0568, -0.0185, -0.0292,  ..., -0.2812,  0.0524, -0.1017],
+        [-0.0090, -0.0048,  0.2187,  ..., -0.3184, -0.1390, -0.1603],
+        ...,
+        [-0.0229,  0.0062, -0.1926,  ..., -0.0347,  0.1355,  0.0673],
+        [-0.0231, -0.0202, -0.1692,  ..., -0.2899,  0.1138, -0.2125],
+        [ 0.0055, -0.0258, -0.0775,  ...,  0.0436, -0.1320,  0.0236]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.9558e-08,  ..., -1.6764e-08,
+          3.7532e-07,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.7008e-08,  ...,  1.9558e-08,
+         -1.3947e-05,  4.0978e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.8557e-07,  ...,  1.8626e-09,
+          5.0440e-06,  2.7940e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.0338e-08,  ...,  1.3039e-08,
+          5.3085e-06,  2.4214e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.8999e-07,  ...,  2.7940e-09,
+          1.6391e-06,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.0489e-08,  ...,  2.7660e-07,
+          1.0151e-06,  3.8464e-07]], device='cuda:0')
+Epoch 309, bias, value: tensor([-0.0313,  0.0164,  0.0223,  0.0097,  0.0309, -0.0176,  0.0023, -0.0170,
+        -0.0251,  0.0149], device='cuda:0'), grad: tensor([ 8.5216e-07, -2.9817e-05,  1.1660e-05, -1.4259e-06, -3.9395e-07,
+         3.2224e-07,  6.5286e-07,  1.1697e-05,  4.0531e-06,  2.3842e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 308, time 220.50, cls_loss 0.0010 cls_loss_mapping 0.0019 cls_loss_causal 0.4992 re_mapping 0.0044 re_causal 0.0128 /// teacc 98.90 lr 0.00010000
+Epoch 310, weight, value: tensor([[-0.0007,  0.0110,  0.0374,  ...,  0.0769, -0.2537, -0.1647],
+        [ 0.0568, -0.0185, -0.0298,  ..., -0.2825,  0.0524, -0.1018],
+        [-0.0090, -0.0048,  0.2190,  ..., -0.3189, -0.1383, -0.1603],
+        ...,
+        [-0.0229,  0.0062, -0.1935,  ..., -0.0351,  0.1356,  0.0674],
+        [-0.0231, -0.0202, -0.1670,  ..., -0.2902,  0.1142, -0.2128],
+        [ 0.0055, -0.0258, -0.0775,  ...,  0.0434, -0.1322,  0.0235]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ...,  0.0000e+00,
+          1.6764e-08,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  7.4506e-09,
+          3.1944e-07,  3.4086e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.5832e-08,  ...,  1.8626e-09,
+          1.1809e-06,  1.2098e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  3.7253e-09,
+         -1.7090e-06, -1.7574e-06],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  2.7940e-09,
+         -2.4214e-08,  9.3132e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.1141e-07,  ...,  1.8533e-07,
+          9.4995e-08,  6.2212e-07]], device='cuda:0')
+Epoch 310, bias, value: tensor([-0.0312,  0.0164,  0.0224,  0.0096,  0.0313, -0.0177,  0.0020, -0.0170,
+        -0.0245,  0.0147], device='cuda:0'), grad: tensor([ 7.4506e-08,  1.6773e-06,  6.2920e-06,  8.4043e-05, -3.4645e-07,
+        -8.4519e-05, -9.0338e-08, -8.8885e-06, -9.6858e-08,  1.9819e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 309, time 220.86, cls_loss 0.0011 cls_loss_mapping 0.0016 cls_loss_causal 0.4721 re_mapping 0.0043 re_causal 0.0124 /// teacc 99.06 lr 0.00010000
+Epoch 311, weight, value: tensor([[-0.0007,  0.0110,  0.0380,  ...,  0.0782, -0.2539, -0.1648],
+        [ 0.0568, -0.0185, -0.0276,  ..., -0.2837,  0.0527, -0.1019],
+        [-0.0090, -0.0048,  0.2178,  ..., -0.3209, -0.1422, -0.1606],
+        ...,
+        [-0.0229,  0.0062, -0.1939,  ..., -0.0355,  0.1357,  0.0677],
+        [-0.0231, -0.0202, -0.1674,  ..., -0.2903,  0.1143, -0.2142],
+        [ 0.0055, -0.0258, -0.0779,  ...,  0.0432, -0.1329,  0.0230]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -8.3819e-09,  ...,  8.9407e-08,
+          1.8626e-09,  6.7055e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.1223e-08,
+          2.8871e-08,  1.0338e-07],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  1.3039e-08,
+          2.7008e-08,  5.3085e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-08,
+         -1.5739e-07, -1.9837e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          8.3819e-09,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  4.3698e-06,
+          8.2888e-08,  2.7940e-06]], device='cuda:0')
+Epoch 311, bias, value: tensor([-0.0300,  0.0164,  0.0198,  0.0096,  0.0316, -0.0173,  0.0004, -0.0167,
+        -0.0245,  0.0141], device='cuda:0'), grad: tensor([ 1.2387e-07,  2.1793e-07,  1.3970e-07,  5.2154e-08, -7.4580e-06,
+         1.3970e-08,  1.0943e-06, -5.4110e-07,  8.7544e-08,  6.2510e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 310, time 220.32, cls_loss 0.0009 cls_loss_mapping 0.0013 cls_loss_causal 0.4787 re_mapping 0.0044 re_causal 0.0131 /// teacc 99.02 lr 0.00010000
+Epoch 312, weight, value: tensor([[-0.0007,  0.0110,  0.0381,  ...,  0.0784, -0.2540, -0.1650],
+        [ 0.0568, -0.0185, -0.0276,  ..., -0.2840,  0.0529, -0.1017],
+        [-0.0090, -0.0048,  0.2179,  ..., -0.3211, -0.1428, -0.1612],
+        ...,
+        [-0.0229,  0.0062, -0.1941,  ..., -0.0356,  0.1356,  0.0676],
+        [-0.0231, -0.0202, -0.1678,  ..., -0.2907,  0.1147, -0.2145],
+        [ 0.0055, -0.0258, -0.0781,  ...,  0.0431, -0.1336,  0.0229]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -9.3132e-10,  ..., -9.3132e-10,
+          9.3132e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  3.7253e-09,
+          7.4506e-09,  8.3819e-09],
+        [ 0.0000e+00,  0.0000e+00, -5.5879e-09,  ...,  0.0000e+00,
+          9.3132e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-09,  ...,  1.8626e-09,
+          1.8626e-09,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  1.8626e-09,
+         -2.7753e-07,  1.7695e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ..., -1.8626e-09,
+         -1.8626e-09, -5.2154e-08]], device='cuda:0')
+Epoch 312, bias, value: tensor([-2.9816e-02,  1.6577e-02,  1.9427e-02,  9.5639e-03,  3.1673e-02,
+        -1.7365e-02, -5.0478e-05, -1.6780e-02, -2.4282e-02,  1.3892e-02],
+       device='cuda:0'), grad: tensor([ 3.5390e-08,  3.9116e-08,  1.5832e-08,  1.1176e-08,  4.0047e-08,
+         6.4168e-07, -2.3749e-07,  2.8871e-08, -5.1595e-07, -4.2841e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 311, time 220.52, cls_loss 0.0007 cls_loss_mapping 0.0014 cls_loss_causal 0.4619 re_mapping 0.0040 re_causal 0.0124 /// teacc 99.01 lr 0.00010000
+Epoch 313, weight, value: tensor([[-0.0007,  0.0110,  0.0382,  ...,  0.0785, -0.2541, -0.1651],
+        [ 0.0568, -0.0185, -0.0277,  ..., -0.2845,  0.0529, -0.1017],
+        [-0.0090, -0.0048,  0.2183,  ..., -0.3214, -0.1435, -0.1612],
+        ...,
+        [-0.0229,  0.0062, -0.1945,  ..., -0.0359,  0.1356,  0.0677],
+        [-0.0232, -0.0202, -0.1684,  ..., -0.2914,  0.1148, -0.2154],
+        [ 0.0055, -0.0258, -0.0784,  ...,  0.0431, -0.1340,  0.0229]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          2.7940e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  1.8626e-09,
+          1.8654e-06,  1.9558e-06],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          1.4901e-08,  9.3132e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  9.3132e-10,
+         -3.8482e-06, -4.0457e-06],
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ...,  0.0000e+00,
+         -3.8091e-07, -6.7987e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  2.7940e-08,
+          1.3728e-06,  1.1958e-06]], device='cuda:0')
+Epoch 313, bias, value: tensor([-0.0298,  0.0166,  0.0194,  0.0095,  0.0318, -0.0168, -0.0002, -0.0167,
+        -0.0244,  0.0138], device='cuda:0'), grad: tensor([ 1.3970e-08,  5.3681e-06,  6.2399e-08,  3.9004e-06,  1.6764e-08,
+        -1.3653e-06,  1.0245e-08, -1.0960e-05, -1.2778e-06,  4.2170e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 312, time 220.63, cls_loss 0.0012 cls_loss_mapping 0.0020 cls_loss_causal 0.4757 re_mapping 0.0042 re_causal 0.0123 /// teacc 98.95 lr 0.00010000
+Epoch 314, weight, value: tensor([[-0.0007,  0.0110,  0.0383,  ...,  0.0787, -0.2543, -0.1652],
+        [ 0.0568, -0.0185, -0.0279,  ..., -0.2855,  0.0533, -0.1006],
+        [-0.0090, -0.0048,  0.2228,  ..., -0.3239, -0.1405, -0.1613],
+        ...,
+        [-0.0229,  0.0062, -0.1995,  ..., -0.0363,  0.1350,  0.0672],
+        [-0.0232, -0.0202, -0.1690,  ..., -0.2919,  0.1154, -0.2131],
+        [ 0.0055, -0.0258, -0.0789,  ...,  0.0428, -0.1379,  0.0218]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.3039e-08,  ..., -2.0489e-08,
+          9.3132e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.2107e-08,  ...,  1.2107e-08,
+         -4.8429e-08,  3.3528e-08],
+        [ 0.0000e+00,  0.0000e+00, -2.7940e-09,  ...,  1.8626e-09,
+          4.6566e-09,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  8.3819e-09,
+         -2.3283e-08, -6.5193e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  4.6566e-09,
+          7.6368e-08,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-09,  ...,  4.2841e-08,
+          9.3132e-09,  5.0291e-08]], device='cuda:0')
+Epoch 314, bias, value: tensor([-0.0297,  0.0172,  0.0240,  0.0094,  0.0324, -0.0163, -0.0008, -0.0182,
+        -0.0242,  0.0122], device='cuda:0'), grad: tensor([ 6.5193e-09, -2.1420e-08,  1.4901e-08, -8.5682e-08, -1.9092e-07,
+         3.9116e-08, -6.5193e-08, -1.7695e-08,  1.7229e-07,  1.2945e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 313, time 220.72, cls_loss 0.0010 cls_loss_mapping 0.0017 cls_loss_causal 0.4894 re_mapping 0.0042 re_causal 0.0128 /// teacc 98.96 lr 0.00010000
+Epoch 315, weight, value: tensor([[-0.0007,  0.0110,  0.0383,  ...,  0.0788, -0.2546, -0.1653],
+        [ 0.0568, -0.0185, -0.0263,  ..., -0.2864,  0.0537, -0.1005],
+        [-0.0090, -0.0048,  0.2224,  ..., -0.3244, -0.1423, -0.1630],
+        ...,
+        [-0.0229,  0.0062, -0.1995,  ..., -0.0365,  0.1351,  0.0675],
+        [-0.0232, -0.0202, -0.1695,  ..., -0.2927,  0.1171, -0.2137],
+        [ 0.0055, -0.0258, -0.0791,  ...,  0.0428, -0.1384,  0.0219]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.5146e-08,  ...,  9.3132e-09,
+          9.3132e-10,  1.4901e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  1.6764e-08,
+         -1.1176e-08,  2.8871e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.1176e-07,  ...,  9.3132e-10,
+          4.6566e-09,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ...,  4.2841e-08,
+         -3.7253e-09,  4.4703e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ...,  1.2107e-08,
+         -8.3819e-09,  1.8626e-08],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  3.3900e-07,
+          5.5879e-09,  4.4890e-07]], device='cuda:0')
+Epoch 315, bias, value: tensor([-2.9754e-02,  1.7474e-02,  2.3243e-02,  8.4874e-03,  3.2471e-02,
+        -1.6712e-02, -5.4720e-05, -1.8074e-02, -2.3015e-02,  1.2154e-02],
+       device='cuda:0'), grad: tensor([ 1.1642e-07,  2.1420e-08,  2.8126e-07, -4.2561e-07, -3.2596e-07,
+         5.2154e-08, -6.0443e-07,  9.7789e-08,  4.4703e-08,  7.5437e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 314, time 221.07, cls_loss 0.0008 cls_loss_mapping 0.0012 cls_loss_causal 0.4916 re_mapping 0.0041 re_causal 0.0129 /// teacc 99.00 lr 0.00010000
+Epoch 316, weight, value: tensor([[-0.0007,  0.0110,  0.0384,  ...,  0.0788, -0.2551, -0.1654],
+        [ 0.0568, -0.0185, -0.0261,  ..., -0.2871,  0.0538, -0.1006],
+        [-0.0090, -0.0048,  0.2224,  ..., -0.3255, -0.1427, -0.1633],
+        ...,
+        [-0.0229,  0.0062, -0.1997,  ..., -0.0366,  0.1351,  0.0676],
+        [-0.0232, -0.0202, -0.1698,  ..., -0.2931,  0.1178, -0.2134],
+        [ 0.0055, -0.0258, -0.0792,  ...,  0.0428, -0.1391,  0.0220]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.0245e-08,  ..., -1.5832e-08,
+          2.0750e-06,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.7695e-08,  ...,  9.3132e-10,
+         -6.5863e-06,  8.3819e-08],
+        [ 0.0000e+00,  0.0000e+00, -4.2096e-07,  ...,  1.8626e-09,
+          4.1910e-08,  2.1420e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.4645e-07,  ...,  1.8626e-09,
+         -2.3749e-07, -2.3209e-06],
+        [ 0.0000e+00,  0.0000e+00,  9.2201e-07,  ...,  2.7940e-09,
+          3.6620e-06,  8.3819e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.0245e-08,  ...,  9.3132e-10,
+          3.8464e-07,  1.1232e-06]], device='cuda:0')
+Epoch 316, bias, value: tensor([-0.0299,  0.0174,  0.0229,  0.0084,  0.0323, -0.0164,  0.0002, -0.0180,
+        -0.0227,  0.0121], device='cuda:0'), grad: tensor([ 5.3048e-06, -1.6809e-05, -6.6869e-07, -3.4049e-06,  1.2247e-06,
+         2.3842e-07,  5.3644e-07, -8.2422e-07,  1.2934e-05,  1.4389e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 315, time 220.68, cls_loss 0.0010 cls_loss_mapping 0.0014 cls_loss_causal 0.4942 re_mapping 0.0042 re_causal 0.0127 /// teacc 99.00 lr 0.00010000
+Epoch 317, weight, value: tensor([[-0.0007,  0.0110,  0.0386,  ...,  0.0791, -0.2556, -0.1655],
+        [ 0.0568, -0.0185, -0.0265,  ..., -0.2880,  0.0538, -0.1007],
+        [-0.0090, -0.0048,  0.2226,  ..., -0.3276, -0.1431, -0.1632],
+        ...,
+        [-0.0229,  0.0062, -0.1998,  ..., -0.0369,  0.1352,  0.0679],
+        [-0.0233, -0.0202, -0.1712,  ..., -0.2939,  0.1182, -0.2129],
+        [ 0.0055, -0.0258, -0.0796,  ...,  0.0429, -0.1406,  0.0220]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.6566e-09,  ..., -8.3819e-09,
+          4.6566e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-08,  ..., -2.7940e-09,
+         -2.3097e-07, -1.4342e-07],
+        [ 0.0000e+00,  0.0000e+00, -9.8720e-08,  ...,  0.0000e+00,
+          1.8626e-09,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  9.3132e-10,
+         -9.3132e-10,  6.5193e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.1176e-07,  ...,  9.3132e-10,
+          4.6566e-08,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  9.3132e-09,
+          4.6566e-09, -1.1176e-08]], device='cuda:0')
+Epoch 317, bias, value: tensor([-0.0297,  0.0172,  0.0223,  0.0090,  0.0322, -0.0180,  0.0003, -0.0176,
+        -0.0225,  0.0118], device='cuda:0'), grad: tensor([ 2.7940e-09, -6.1560e-07, -2.1234e-07, -9.2201e-08,  5.0105e-07,
+        -6.0722e-07,  1.1642e-07,  3.9116e-08,  8.4378e-07,  3.6322e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 316, time 220.66, cls_loss 0.0009 cls_loss_mapping 0.0014 cls_loss_causal 0.4825 re_mapping 0.0040 re_causal 0.0125 /// teacc 98.91 lr 0.00010000
+Epoch 318, weight, value: tensor([[-0.0007,  0.0110,  0.0389,  ...,  0.0795, -0.2555, -0.1657],
+        [ 0.0568, -0.0185, -0.0267,  ..., -0.2905,  0.0539, -0.1008],
+        [-0.0090, -0.0048,  0.2226,  ..., -0.3281, -0.1435, -0.1635],
+        ...,
+        [-0.0229,  0.0062, -0.1999,  ..., -0.0371,  0.1353,  0.0681],
+        [-0.0233, -0.0202, -0.1719,  ..., -0.2947,  0.1178, -0.2132],
+        [ 0.0055, -0.0258, -0.0798,  ...,  0.0424, -0.1410,  0.0217]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.6671e-07,  ..., -1.1828e-07,
+          9.3132e-10,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.5832e-08,  ...,  1.3039e-08,
+          2.3283e-08,  2.5146e-08],
+        [ 0.0000e+00,  0.0000e+00, -8.3819e-09,  ...,  7.0781e-08,
+          1.3318e-07,  1.8626e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.3597e-07,  ...,  2.7940e-09,
+         -2.2259e-07, -7.9162e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.6764e-08,  ...,  3.7253e-09,
+         -3.3528e-08,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.3528e-08,  ...,  5.6811e-08,
+          1.2107e-08,  3.4459e-08]], device='cuda:0')
+Epoch 318, bias, value: tensor([-0.0292,  0.0173,  0.0221,  0.0089,  0.0326, -0.0176,  0.0002, -0.0175,
+        -0.0232,  0.0113], device='cuda:0'), grad: tensor([-3.5390e-07,  1.2293e-07,  7.7579e-07,  2.9802e-08, -8.2888e-08,
+         6.4261e-08,  7.1712e-08, -3.4645e-07, -4.5076e-07,  1.6671e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 317, time 220.79, cls_loss 0.0010 cls_loss_mapping 0.0014 cls_loss_causal 0.4705 re_mapping 0.0041 re_causal 0.0121 /// teacc 99.00 lr 0.00010000
+Epoch 319, weight, value: tensor([[-0.0007,  0.0110,  0.0391,  ...,  0.0797, -0.2553, -0.1658],
+        [ 0.0568, -0.0185, -0.0270,  ..., -0.2921,  0.0540, -0.1009],
+        [-0.0090, -0.0048,  0.2206,  ..., -0.3314, -0.1436, -0.1661],
+        ...,
+        [-0.0229,  0.0062, -0.2000,  ..., -0.0385,  0.1353,  0.0682],
+        [-0.0233, -0.0202, -0.1723,  ..., -0.2960,  0.1175, -0.2136],
+        [ 0.0046, -0.0258, -0.0801,  ...,  0.0422, -0.1413,  0.0212]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.4890e-07,  ..., -2.0489e-07,
+          9.3132e-10,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-09,  ...,  1.1176e-08,
+          4.6566e-09,  2.1420e-08],
+        [ 0.0000e+00,  0.0000e+00, -5.4948e-08,  ...,  1.8626e-09,
+          1.8626e-09,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.9802e-08,  ...,  4.6566e-09,
+         -1.3039e-08, -3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  5.2154e-08,  ...,  3.7253e-09,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-08,  ...,  1.4901e-08,
+          0.0000e+00,  1.1176e-08]], device='cuda:0')
+Epoch 319, bias, value: tensor([-0.0289,  0.0172,  0.0200,  0.0088,  0.0355, -0.0165, -0.0002, -0.0176,
+        -0.0235,  0.0108], device='cuda:0'), grad: tensor([-3.1013e-06,  8.6613e-08, -7.7300e-08,  2.7101e-07, -4.3772e-08,
+         9.4995e-07,  1.2899e-06,  1.7602e-07,  2.7753e-07,  1.8254e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 318, time 221.23, cls_loss 0.0008 cls_loss_mapping 0.0020 cls_loss_causal 0.4409 re_mapping 0.0042 re_causal 0.0123 /// teacc 99.05 lr 0.00010000
+Epoch 320, weight, value: tensor([[-0.0007,  0.0110,  0.0394,  ...,  0.0801, -0.2556, -0.1659],
+        [ 0.0568, -0.0185, -0.0270,  ..., -0.2924,  0.0538, -0.1011],
+        [-0.0090, -0.0048,  0.2205,  ..., -0.3316, -0.1438, -0.1668],
+        ...,
+        [-0.0229,  0.0062, -0.2001,  ..., -0.0386,  0.1359,  0.0687],
+        [-0.0233, -0.0202, -0.1731,  ..., -0.2965,  0.1174, -0.2135],
+        [ 0.0046, -0.0258, -0.0808,  ...,  0.0418, -0.1427,  0.0209]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.6019e-07,  ..., -2.6263e-07,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  4.6566e-09,
+          4.6566e-08,  3.8184e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.4214e-08,  ...,  1.9558e-08,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  1.8626e-09,
+         -6.4261e-08, -4.3772e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  7.4506e-09,
+          1.8626e-09,  3.2596e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.3877e-07,  ...,  2.1141e-07,
+          2.7940e-09, -4.0047e-08]], device='cuda:0')
+Epoch 320, bias, value: tensor([-0.0285,  0.0171,  0.0197,  0.0088,  0.0358, -0.0166, -0.0003, -0.0172,
+        -0.0236,  0.0102], device='cuda:0'), grad: tensor([-4.3306e-07,  1.1735e-07,  6.9849e-08, -1.1455e-07,  2.7008e-08,
+         6.7055e-08,  1.3970e-08, -1.1921e-07,  6.3330e-08,  3.1572e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 319, time 220.97, cls_loss 0.0008 cls_loss_mapping 0.0015 cls_loss_causal 0.4754 re_mapping 0.0041 re_causal 0.0123 /// teacc 99.02 lr 0.00010000
+Epoch 321, weight, value: tensor([[-0.0007,  0.0110,  0.0396,  ...,  0.0805, -0.2556, -0.1662],
+        [ 0.0568, -0.0185, -0.0271,  ..., -0.2928,  0.0538, -0.1012],
+        [-0.0090, -0.0048,  0.2201,  ..., -0.3316, -0.1459, -0.1698],
+        ...,
+        [-0.0229,  0.0062, -0.1994,  ..., -0.0388,  0.1366,  0.0698],
+        [-0.0233, -0.0202, -0.1740,  ..., -0.2968,  0.1171, -0.2145],
+        [ 0.0046, -0.0258, -0.0815,  ...,  0.0419, -0.1433,  0.0211]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ..., -3.7253e-09,
+          2.1420e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.0245e-08,  ...,  0.0000e+00,
+          1.0617e-07,  7.7300e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.0734e-08,  ...,  0.0000e+00,
+          1.4529e-07,  3.7253e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  9.3132e-10,
+         -8.5682e-08, -7.8231e-08],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  9.3132e-10,
+          3.3528e-08,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ..., -3.7253e-09,
+          3.7253e-09, -3.0734e-08]], device='cuda:0')
+Epoch 321, bias, value: tensor([-0.0282,  0.0167,  0.0187,  0.0086,  0.0356, -0.0166, -0.0010, -0.0162,
+        -0.0242,  0.0101], device='cuda:0'), grad: tensor([ 1.0524e-07,  4.5635e-07,  8.8196e-07, -1.2387e-07,  3.2783e-07,
+         1.2666e-07, -1.7025e-06, -2.1607e-07,  1.6019e-07, -1.6764e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 320----------------------------------------------------
+epoch 320, time 221.68, cls_loss 0.0011 cls_loss_mapping 0.0017 cls_loss_causal 0.4707 re_mapping 0.0041 re_causal 0.0119 /// teacc 99.18 lr 0.00010000
+Epoch 322, weight, value: tensor([[-0.0007,  0.0110,  0.0397,  ...,  0.0808, -0.2559, -0.1665],
+        [ 0.0568, -0.0185, -0.0272,  ..., -0.2938,  0.0535, -0.1013],
+        [-0.0091, -0.0048,  0.2206,  ..., -0.3316, -0.1460, -0.1690],
+        ...,
+        [-0.0229,  0.0062, -0.1996,  ..., -0.0389,  0.1367,  0.0699],
+        [-0.0233, -0.0202, -0.1747,  ..., -0.2973,  0.1177, -0.2144],
+        [ 0.0046, -0.0258, -0.0830,  ...,  0.0422, -0.1436,  0.0212]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ..., -4.6566e-09,
+          7.4506e-09,  0.0000e+00],
+        [-5.5879e-09,  0.0000e+00,  1.8626e-09,  ...,  7.4506e-09,
+         -3.1665e-08,  6.6124e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          1.0245e-08,  1.8626e-09],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  2.7940e-09,  ...,  3.7253e-09,
+         -1.2852e-07, -1.7509e-07],
+        [ 0.0000e+00,  0.0000e+00, -2.7940e-09,  ...,  2.5146e-08,
+         -1.7695e-08,  1.9092e-07],
+        [ 9.3132e-10,  0.0000e+00,  9.3132e-09,  ...,  2.8871e-08,
+          3.2596e-08, -8.6613e-08]], device='cuda:0')
+Epoch 322, bias, value: tensor([-0.0279,  0.0163,  0.0187,  0.0086,  0.0354, -0.0162, -0.0004, -0.0160,
+        -0.0240,  0.0099], device='cuda:0'), grad: tensor([ 2.5146e-08, -5.5879e-08,  5.2154e-08,  2.3004e-07, -6.2399e-08,
+         8.5682e-08,  3.5390e-08, -5.2247e-07,  2.2352e-07, -2.5146e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 321, time 220.83, cls_loss 0.0007 cls_loss_mapping 0.0016 cls_loss_causal 0.4764 re_mapping 0.0041 re_causal 0.0124 /// teacc 99.02 lr 0.00010000
+Epoch 323, weight, value: tensor([[-0.0008,  0.0110,  0.0398,  ...,  0.0811, -0.2562, -0.1665],
+        [ 0.0568, -0.0185, -0.0273,  ..., -0.2948,  0.0534, -0.1016],
+        [-0.0093, -0.0048,  0.2212,  ..., -0.3317, -0.1461, -0.1684],
+        ...,
+        [-0.0229,  0.0062, -0.2003,  ..., -0.0391,  0.1367,  0.0701],
+        [-0.0238, -0.0202, -0.1749,  ..., -0.2977,  0.1185, -0.2147],
+        [ 0.0046, -0.0258, -0.0841,  ...,  0.0422, -0.1446,  0.0212]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.0245e-08,  ..., -1.5832e-08,
+          1.1176e-08,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+         -9.3132e-09,  1.2107e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.2107e-08,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          2.7940e-09,  7.4506e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  5.5879e-09,
+         -8.3819e-09,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ...,  2.7940e-09,
+         -9.3132e-10, -2.7008e-08]], device='cuda:0')
+Epoch 323, bias, value: tensor([-2.7693e-02,  1.6133e-02,  1.9009e-02,  8.1631e-03,  3.5314e-02,
+        -1.5647e-02,  4.0765e-05, -1.5918e-02, -2.3684e-02,  9.6611e-03],
+       device='cuda:0'), grad: tensor([ 3.4459e-08, -9.3132e-09,  4.0978e-08, -7.1712e-08,  5.1223e-08,
+        -1.9651e-07, -9.3132e-10,  4.2841e-08,  6.7987e-08,  4.4703e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 322, time 221.11, cls_loss 0.0009 cls_loss_mapping 0.0016 cls_loss_causal 0.4715 re_mapping 0.0040 re_causal 0.0121 /// teacc 98.99 lr 0.00010000
+Epoch 324, weight, value: tensor([[-0.0008,  0.0110,  0.0400,  ...,  0.0816, -0.2567, -0.1665],
+        [ 0.0567, -0.0185, -0.0276,  ..., -0.2958,  0.0534, -0.1016],
+        [-0.0093, -0.0048,  0.2213,  ..., -0.3317, -0.1462, -0.1685],
+        ...,
+        [-0.0229,  0.0062, -0.2004,  ..., -0.0396,  0.1369,  0.0702],
+        [-0.0238, -0.0202, -0.1754,  ..., -0.2985,  0.1184, -0.2149],
+        [ 0.0048, -0.0258, -0.0845,  ...,  0.0417, -0.1450,  0.0207]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.9558e-08,  ..., -2.0489e-08,
+          0.0000e+00,  9.3132e-10],
+        [ 9.3132e-10,  0.0000e+00,  2.8871e-08,  ...,  9.3132e-10,
+          1.8720e-07,  1.8626e-08],
+        [ 0.0000e+00,  0.0000e+00, -9.2201e-08,  ...,  5.5879e-09,
+          4.1910e-08,  3.7253e-09],
+        ...,
+        [ 1.1176e-08,  0.0000e+00,  3.5390e-08,  ...,  2.7940e-09,
+         -3.2876e-07, -5.5879e-09],
+        [ 1.8626e-09,  0.0000e+00,  1.8626e-08,  ...,  2.7940e-09,
+          1.8626e-08,  7.3574e-08],
+        [ 2.7940e-09,  0.0000e+00,  1.1176e-08,  ...,  2.7940e-09,
+          7.4506e-09, -9.4995e-08]], device='cuda:0')
+Epoch 324, bias, value: tensor([-0.0275,  0.0160,  0.0185,  0.0083,  0.0357, -0.0153,  0.0001, -0.0156,
+        -0.0240,  0.0090], device='cuda:0'), grad: tensor([-2.5146e-08,  3.6508e-07, -2.9802e-08, -2.7381e-07,  1.5832e-07,
+         1.9558e-08,  3.1665e-08, -3.5018e-07,  1.9092e-07, -7.7300e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 323, time 220.51, cls_loss 0.0011 cls_loss_mapping 0.0027 cls_loss_causal 0.5081 re_mapping 0.0043 re_causal 0.0124 /// teacc 98.81 lr 0.00010000
+Epoch 325, weight, value: tensor([[-0.0009,  0.0110,  0.0439,  ...,  0.0850, -0.2541, -0.1679],
+        [ 0.0568, -0.0185, -0.0278,  ..., -0.2964,  0.0534, -0.1017],
+        [-0.0095, -0.0048,  0.2200,  ..., -0.3331, -0.1465, -0.1698],
+        ...,
+        [-0.0230,  0.0062, -0.2005,  ..., -0.0406,  0.1369,  0.0703],
+        [-0.0240, -0.0202, -0.1762,  ..., -0.2997,  0.1183, -0.2147],
+        [ 0.0051, -0.0258, -0.0849,  ...,  0.0419, -0.1453,  0.0210]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.1176e-08,  ..., -2.3283e-08,
+          2.7940e-09, -1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00, -5.5879e-09,  ...,  4.6566e-09,
+          6.8173e-07,  2.6636e-07],
+        [ 0.0000e+00,  0.0000e+00, -9.3132e-09,  ...,  4.6566e-09,
+          2.6077e-08,  4.6566e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-09,  ...,  1.6764e-08,
+         -7.3574e-07, -2.6543e-07],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  9.3132e-10,
+         -6.5193e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ...,  1.0245e-08,
+          4.6566e-09,  0.0000e+00]], device='cuda:0')
+Epoch 325, bias, value: tensor([-0.0229,  0.0160,  0.0172,  0.0080,  0.0366, -0.0170, -0.0030, -0.0156,
+        -0.0243,  0.0090], device='cuda:0'), grad: tensor([-3.8184e-08,  1.6158e-06,  8.8476e-08,  1.3690e-07, -4.7497e-08,
+         3.4459e-08, -2.0489e-08, -1.7826e-06, -1.4901e-08,  4.0978e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 324, time 221.06, cls_loss 0.0009 cls_loss_mapping 0.0020 cls_loss_causal 0.4849 re_mapping 0.0045 re_causal 0.0130 /// teacc 98.92 lr 0.00010000
+Epoch 326, weight, value: tensor([[-0.0014,  0.0110,  0.0439,  ...,  0.0845, -0.2543, -0.1700],
+        [ 0.0568, -0.0185, -0.0277,  ..., -0.2975,  0.0534, -0.1019],
+        [-0.0100, -0.0048,  0.2197,  ..., -0.3332, -0.1469, -0.1701],
+        ...,
+        [-0.0231,  0.0062, -0.2004,  ..., -0.0414,  0.1371,  0.0700],
+        [-0.0256, -0.0202, -0.1763,  ..., -0.3002,  0.1187, -0.2156],
+        [ 0.0083, -0.0258, -0.0850,  ...,  0.0425, -0.1454,  0.0216]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.3970e-08,  ..., -4.0978e-08,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.3039e-08,  ...,  5.2154e-08,
+          2.8871e-08,  7.0781e-08],
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  9.3132e-09,
+          2.7940e-09,  1.6764e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  9.3132e-10,
+          2.6077e-08, -2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ...,  6.5193e-09,
+          3.7253e-09, -1.6764e-08]], device='cuda:0')
+Epoch 326, bias, value: tensor([-0.0231,  0.0159,  0.0166,  0.0081,  0.0369, -0.0185, -0.0028, -0.0155,
+        -0.0236,  0.0098], device='cuda:0'), grad: tensor([-6.8918e-08,  2.3842e-07,  3.4459e-08, -4.5355e-07, -1.8440e-07,
+         3.9767e-07, -1.0896e-07,  6.9849e-08,  5.4017e-08,  3.3528e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 325, time 220.60, cls_loss 0.0010 cls_loss_mapping 0.0015 cls_loss_causal 0.4865 re_mapping 0.0042 re_causal 0.0126 /// teacc 98.99 lr 0.00010000
+Epoch 327, weight, value: tensor([[-0.0014,  0.0110,  0.0440,  ...,  0.0852, -0.2545, -0.1702],
+        [ 0.0567, -0.0185, -0.0279,  ..., -0.2980,  0.0532, -0.1019],
+        [-0.0100, -0.0048,  0.2183,  ..., -0.3332, -0.1501, -0.1701],
+        ...,
+        [-0.0231,  0.0062, -0.1984,  ..., -0.0421,  0.1394,  0.0698],
+        [-0.0257, -0.0202, -0.1765,  ..., -0.3009,  0.1198, -0.2161],
+        [ 0.0089, -0.0258, -0.0858,  ...,  0.0420, -0.1455,  0.0221]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          5.1130e-07,  3.3993e-07],
+        [ 0.0000e+00,  0.0000e+00, -4.6566e-09,  ...,  0.0000e+00,
+          8.0094e-08,  9.3132e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  8.3819e-09,
+         -6.7521e-07, -3.9116e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          6.5193e-09,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.4901e-08,
+          4.3772e-08,  3.7253e-09]], device='cuda:0')
+Epoch 327, bias, value: tensor([-0.0230,  0.0155,  0.0127,  0.0083,  0.0369, -0.0198, -0.0025, -0.0122,
+        -0.0229,  0.0097], device='cuda:0'), grad: tensor([ 2.2352e-08,  1.3132e-06,  1.9278e-07,  9.4995e-08,  2.1327e-07,
+        -5.9325e-07, -1.0245e-07, -1.6782e-06,  4.8336e-07,  5.4948e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 326, time 220.53, cls_loss 0.0009 cls_loss_mapping 0.0017 cls_loss_causal 0.4981 re_mapping 0.0044 re_causal 0.0126 /// teacc 98.95 lr 0.00010000
+Epoch 328, weight, value: tensor([[-0.0014,  0.0110,  0.0439,  ...,  0.0853, -0.2550, -0.1703],
+        [ 0.0564, -0.0185, -0.0283,  ..., -0.2984,  0.0533, -0.1021],
+        [-0.0100, -0.0048,  0.2188,  ..., -0.3334, -0.1501, -0.1702],
+        ...,
+        [-0.0232,  0.0062, -0.1986,  ..., -0.0425,  0.1395,  0.0697],
+        [-0.0258, -0.0202, -0.1792,  ..., -0.3012,  0.1199, -0.2154],
+        [ 0.0107, -0.0258, -0.0860,  ...,  0.0419, -0.1455,  0.0224]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  8.0839e-07,  ...,  1.0245e-08,
+          3.7253e-09,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  6.5193e-09,
+         -5.0291e-08,  1.7695e-08],
+        [ 0.0000e+00,  0.0000e+00, -1.3057e-06,  ...,  9.3132e-09,
+          6.7987e-08,  3.7253e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.5146e-08,  ...,  7.4506e-09,
+         -1.9558e-08, -2.0489e-08],
+        [ 0.0000e+00,  0.0000e+00,  6.9849e-08,  ..., -2.7008e-08,
+         -6.7987e-08,  4.4703e-08],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ..., -7.5437e-08,
+          4.2841e-08, -2.3562e-07]], device='cuda:0')
+Epoch 328, bias, value: tensor([-0.0230,  0.0155,  0.0127,  0.0085,  0.0370, -0.0198, -0.0025, -0.0122,
+        -0.0233,  0.0098], device='cuda:0'), grad: tensor([ 1.6922e-06,  1.0245e-08, -1.6429e-06,  2.7902e-06,  1.1176e-07,
+        -6.6906e-06,  1.7118e-06,  2.7195e-07,  2.0489e-06, -3.2037e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 327, time 220.67, cls_loss 0.0012 cls_loss_mapping 0.0023 cls_loss_causal 0.4761 re_mapping 0.0043 re_causal 0.0119 /// teacc 98.99 lr 0.00010000
+Epoch 329, weight, value: tensor([[-0.0015,  0.0110,  0.0436,  ...,  0.0851, -0.2560, -0.1708],
+        [ 0.0562, -0.0185, -0.0287,  ..., -0.2989,  0.0519, -0.1021],
+        [-0.0100, -0.0048,  0.2199,  ..., -0.3333, -0.1502, -0.1704],
+        ...,
+        [-0.0232,  0.0062, -0.1990,  ..., -0.0425,  0.1406,  0.0700],
+        [-0.0263, -0.0202, -0.1816,  ..., -0.3023,  0.1200, -0.2161],
+        [ 0.0118, -0.0258, -0.0864,  ...,  0.0421, -0.1470,  0.0225]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.0245e-08,  ..., -1.3039e-08,
+          2.7940e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  1.2107e-08,
+          9.2201e-08,  1.1642e-07],
+        [ 0.0000e+00,  0.0000e+00, -1.6578e-07,  ...,  5.5879e-09,
+          1.8626e-08,  1.4901e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.1910e-08,  ..., -6.6124e-08,
+         -3.8184e-07, -5.2340e-07],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-08,  ...,  1.8626e-09,
+         -1.0245e-08,  6.5193e-09],
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  1.4901e-08,
+          9.9652e-08,  1.8813e-07]], device='cuda:0')
+Epoch 329, bias, value: tensor([-0.0234,  0.0142,  0.0128,  0.0078,  0.0369, -0.0186, -0.0023, -0.0115,
+        -0.0238,  0.0091], device='cuda:0'), grad: tensor([ 6.4261e-08,  4.4052e-07, -1.0338e-07,  3.6135e-07,  6.0350e-07,
+         1.3970e-08, -6.0908e-07, -1.3523e-06,  7.3574e-08,  5.0850e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 328, time 220.50, cls_loss 0.0011 cls_loss_mapping 0.0020 cls_loss_causal 0.4794 re_mapping 0.0042 re_causal 0.0120 /// teacc 98.88 lr 0.00010000
+Epoch 330, weight, value: tensor([[-0.0015,  0.0110,  0.0435,  ...,  0.0828, -0.2568, -0.1739],
+        [ 0.0562, -0.0185, -0.0290,  ..., -0.2993,  0.0520, -0.1023],
+        [-0.0101, -0.0048,  0.2204,  ..., -0.3333, -0.1502, -0.1707],
+        ...,
+        [-0.0235,  0.0062, -0.1993,  ..., -0.0427,  0.1406,  0.0705],
+        [-0.0269, -0.0202, -0.1833,  ..., -0.3026,  0.1204, -0.2163],
+        [ 0.0125, -0.0258, -0.0866,  ...,  0.0445, -0.1481,  0.0234]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -6.5193e-09,
+          9.3132e-10,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ...,  9.3132e-10,
+          2.4214e-07,  1.9092e-07],
+        [ 0.0000e+00,  0.0000e+00,  3.8184e-08,  ...,  0.0000e+00,
+          1.3039e-08,  2.8871e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  0.0000e+00,
+         -5.3830e-07, -1.2750e-06],
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  9.3132e-10,
+          6.5193e-09,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.1665e-08,  ...,  2.7940e-09,
+          2.0955e-07,  8.9593e-07]], device='cuda:0')
+Epoch 330, bias, value: tensor([-0.0241,  0.0142,  0.0129,  0.0081,  0.0365, -0.0184, -0.0021, -0.0115,
+        -0.0239,  0.0103], device='cuda:0'), grad: tensor([ 2.8871e-08,  4.3493e-07,  1.7229e-07, -4.6100e-07,  1.0431e-07,
+         4.4703e-07,  1.4901e-08, -4.3809e-06,  1.0524e-07,  3.5260e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 329, time 220.39, cls_loss 0.0009 cls_loss_mapping 0.0018 cls_loss_causal 0.4474 re_mapping 0.0040 re_causal 0.0118 /// teacc 98.90 lr 0.00010000
+Epoch 331, weight, value: tensor([[-0.0015,  0.0110,  0.0435,  ...,  0.0829, -0.2575, -0.1739],
+        [ 0.0563, -0.0185, -0.0293,  ..., -0.3001,  0.0521, -0.1025],
+        [-0.0102, -0.0048,  0.2214,  ..., -0.3333, -0.1502, -0.1707],
+        ...,
+        [-0.0235,  0.0062, -0.2002,  ..., -0.0433,  0.1406,  0.0704],
+        [-0.0273, -0.0202, -0.1851,  ..., -0.3036,  0.1210, -0.2163],
+        [ 0.0125, -0.0258, -0.0867,  ...,  0.0445, -0.1485,  0.0231]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -6.0536e-08,  ..., -9.4064e-08,
+          7.4506e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-08,  ...,  1.0245e-08,
+         -5.9605e-07,  1.8626e-08],
+        [ 0.0000e+00,  0.0000e+00, -5.2154e-08,  ...,  1.8626e-09,
+          1.0710e-07,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-08,  ...,  4.0047e-08,
+          5.0478e-07,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-08,  ...,  4.6566e-09,
+         -2.2128e-06,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-08,  ...,  2.6077e-08,
+          5.2154e-08, -2.7008e-08]], device='cuda:0')
+Epoch 331, bias, value: tensor([-0.0241,  0.0142,  0.0130,  0.0080,  0.0369, -0.0186, -0.0021, -0.0116,
+        -0.0235,  0.0100], device='cuda:0'), grad: tensor([-2.0675e-07, -9.3728e-06,  8.6613e-07,  5.8953e-07, -7.4506e-09,
+         6.5193e-07,  3.4589e-06,  8.6203e-06, -4.7386e-06,  1.0990e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 330, time 220.84, cls_loss 0.0012 cls_loss_mapping 0.0017 cls_loss_causal 0.4784 re_mapping 0.0039 re_causal 0.0115 /// teacc 99.02 lr 0.00010000
+Epoch 332, weight, value: tensor([[-0.0017,  0.0110,  0.0436,  ...,  0.0832, -0.2578, -0.1740],
+        [ 0.0565, -0.0185, -0.0296,  ..., -0.3010,  0.0521, -0.1026],
+        [-0.0102, -0.0048,  0.2235,  ..., -0.3333, -0.1500, -0.1702],
+        ...,
+        [-0.0235,  0.0062, -0.2027,  ..., -0.0443,  0.1393,  0.0695],
+        [-0.0288, -0.0202, -0.1856,  ..., -0.3048,  0.1243, -0.2133],
+        [ 0.0136, -0.0258, -0.0874,  ...,  0.0446, -0.1490,  0.0234]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.7008e-07,  ..., -2.7940e-09,
+          3.7253e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  6.5193e-09,
+          8.3819e-09,  3.8184e-08],
+        [ 0.0000e+00,  0.0000e+00,  5.9605e-08,  ...,  9.3132e-10,
+          7.4506e-09,  1.3039e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  8.3819e-09,
+         -6.1467e-08, -9.8720e-08],
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  6.5193e-09,
+          1.4901e-08,  1.3970e-08],
+        [ 4.6566e-09,  0.0000e+00,  3.7253e-09,  ...,  7.5810e-07,
+          1.9558e-08,  1.3951e-06]], device='cuda:0')
+Epoch 332, bias, value: tensor([-0.0240,  0.0142,  0.0134,  0.0072,  0.0367, -0.0178, -0.0020, -0.0123,
+        -0.0208,  0.0103], device='cuda:0'), grad: tensor([ 1.1409e-06,  1.3411e-07,  3.2969e-07,  2.3376e-07, -1.2834e-06,
+        -4.8429e-08, -2.1029e-06, -5.4855e-07,  8.7544e-08,  2.0638e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 331, time 220.82, cls_loss 0.0011 cls_loss_mapping 0.0012 cls_loss_causal 0.4792 re_mapping 0.0041 re_causal 0.0119 /// teacc 98.90 lr 0.00010000
+Epoch 333, weight, value: tensor([[-0.0017,  0.0110,  0.0436,  ...,  0.0833, -0.2583, -0.1740],
+        [ 0.0565, -0.0185, -0.0306,  ..., -0.3026,  0.0521, -0.1031],
+        [-0.0098, -0.0048,  0.2225,  ..., -0.3334, -0.1501, -0.1694],
+        ...,
+        [-0.0235,  0.0062, -0.2028,  ..., -0.0418,  0.1395,  0.0707],
+        [-0.0290, -0.0202, -0.1859,  ..., -0.3052,  0.1242, -0.2135],
+        [ 0.0136, -0.0258, -0.0894,  ...,  0.0439, -0.1512,  0.0219]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ...,  9.3132e-10,
+          5.1223e-08,  3.7253e-08],
+        [ 0.0000e+00,  0.0000e+00, -5.6811e-08,  ...,  0.0000e+00,
+         -7.4506e-09,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.5390e-08,  ...,  9.3132e-10,
+         -4.9360e-08, -3.7253e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-08,  ...,  9.3132e-10,
+          1.1176e-08,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -4.6566e-09,
+          4.6566e-09, -8.3819e-09]], device='cuda:0')
+Epoch 333, bias, value: tensor([-0.0241,  0.0140,  0.0131,  0.0087,  0.0370, -0.0182, -0.0016, -0.0121,
+        -0.0210,  0.0087], device='cuda:0'), grad: tensor([ 2.3283e-08,  2.0210e-07, -1.0803e-07,  2.0489e-08,  2.7008e-08,
+        -6.3889e-07, -2.6077e-08, -1.2852e-07,  6.3609e-07, -1.8626e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 332, time 220.55, cls_loss 0.0009 cls_loss_mapping 0.0014 cls_loss_causal 0.4803 re_mapping 0.0041 re_causal 0.0123 /// teacc 98.99 lr 0.00010000
+Epoch 334, weight, value: tensor([[-0.0017,  0.0110,  0.0436,  ...,  0.0835, -0.2583, -0.1741],
+        [ 0.0565, -0.0185, -0.0312,  ..., -0.3037,  0.0520, -0.1033],
+        [-0.0098, -0.0048,  0.2229,  ..., -0.3334, -0.1501, -0.1694],
+        ...,
+        [-0.0235,  0.0062, -0.2030,  ..., -0.0422,  0.1397,  0.0710],
+        [-0.0291, -0.0202, -0.1864,  ..., -0.3056,  0.1239, -0.2136],
+        [ 0.0136, -0.0258, -0.0896,  ...,  0.0440, -0.1514,  0.0224]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  8.3819e-09,
+          2.7940e-09,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  3.9116e-08,
+         -1.0245e-08,  9.2201e-08],
+        [ 0.0000e+00,  0.0000e+00, -5.5879e-08,  ...,  9.3132e-10,
+          1.8626e-09,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-08,  ...,  1.3039e-08,
+          5.5879e-09,  2.5146e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  7.4506e-09,
+          1.8626e-09,  9.3132e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ..., -2.9802e-08,
+          9.3132e-10, -1.4529e-07]], device='cuda:0')
+Epoch 334, bias, value: tensor([-0.0241,  0.0137,  0.0131,  0.0088,  0.0363, -0.0184, -0.0013, -0.0120,
+        -0.0216,  0.0090], device='cuda:0'), grad: tensor([ 3.2596e-08,  1.4342e-07, -8.8476e-08, -1.3877e-07, -1.1455e-07,
+         1.5832e-08,  7.9162e-08,  1.1455e-07,  3.3528e-08, -8.8476e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 333, time 220.58, cls_loss 0.0009 cls_loss_mapping 0.0016 cls_loss_causal 0.4895 re_mapping 0.0041 re_causal 0.0125 /// teacc 99.05 lr 0.00010000
+Epoch 335, weight, value: tensor([[-0.0017,  0.0110,  0.0445,  ...,  0.0839, -0.2578, -0.1742],
+        [ 0.0565, -0.0185, -0.0351,  ..., -0.3071,  0.0519, -0.1035],
+        [-0.0098, -0.0048,  0.2235,  ..., -0.3334, -0.1500, -0.1695],
+        ...,
+        [-0.0235,  0.0062, -0.2033,  ..., -0.0424,  0.1398,  0.0713],
+        [-0.0292, -0.0202, -0.1879,  ..., -0.3063,  0.1235, -0.2135],
+        [ 0.0136, -0.0258, -0.0897,  ...,  0.0438, -0.1517,  0.0219]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          6.5193e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.2107e-08,
+         -5.5879e-09,  3.4459e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          8.3819e-09,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.0489e-08,
+         -8.3819e-09,  3.4459e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          1.2107e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -3.4459e-08,
+          6.5193e-09, -8.7544e-08]], device='cuda:0')
+Epoch 335, bias, value: tensor([-0.0236,  0.0131,  0.0132,  0.0088,  0.0364, -0.0181, -0.0011, -0.0120,
+        -0.0224,  0.0086], device='cuda:0'), grad: tensor([ 4.6566e-08,  8.3819e-08,  6.9849e-08,  6.8918e-07,  1.8533e-07,
+        -4.6380e-06,  2.6897e-06,  8.7544e-08,  9.6112e-07, -1.8254e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 334, time 220.47, cls_loss 0.0007 cls_loss_mapping 0.0017 cls_loss_causal 0.4650 re_mapping 0.0041 re_causal 0.0121 /// teacc 99.06 lr 0.00010000
+Epoch 336, weight, value: tensor([[-0.0018,  0.0110,  0.0445,  ...,  0.0840, -0.2580, -0.1742],
+        [ 0.0567, -0.0185, -0.0379,  ..., -0.3073,  0.0515, -0.1038],
+        [-0.0101, -0.0048,  0.2252,  ..., -0.3335, -0.1501, -0.1696],
+        ...,
+        [-0.0236,  0.0062, -0.2036,  ..., -0.0427,  0.1401,  0.0716],
+        [-0.0297, -0.0202, -0.1884,  ..., -0.3066,  0.1236, -0.2129],
+        [ 0.0136, -0.0258, -0.0899,  ...,  0.0435, -0.1535,  0.0215]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.0245e-08,  ...,  9.3132e-10,
+          9.3132e-10,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  0.0000e+00,
+         -8.3819e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00, -5.2061e-07,  ...,  0.0000e+00,
+         -9.3132e-09,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  5.5134e-07,  ...,  9.3132e-10,
+         -1.4901e-08,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00, -7.7300e-08,  ...,  1.8626e-09,
+          2.4214e-08,  8.3819e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.4901e-08,  ..., -8.3819e-09,
+          9.3132e-10, -4.3772e-08]], device='cuda:0')
+Epoch 336, bias, value: tensor([-0.0236,  0.0123,  0.0134,  0.0088,  0.0366, -0.0178, -0.0011, -0.0118,
+        -0.0220,  0.0077], device='cuda:0'), grad: tensor([ 6.2399e-08,  4.6566e-09, -1.0123e-06,  5.3924e-07,  5.3085e-08,
+        -8.0280e-07,  2.7008e-08,  1.1623e-06, -2.4494e-07,  2.1886e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 335, time 221.01, cls_loss 0.0009 cls_loss_mapping 0.0018 cls_loss_causal 0.4884 re_mapping 0.0039 re_causal 0.0119 /// teacc 99.00 lr 0.00010000
+Epoch 337, weight, value: tensor([[-0.0018,  0.0110,  0.0443,  ...,  0.0840, -0.2582, -0.1742],
+        [ 0.0568, -0.0185, -0.0382,  ..., -0.3076,  0.0516, -0.1038],
+        [-0.0102, -0.0048,  0.2261,  ..., -0.3335, -0.1501, -0.1695],
+        ...,
+        [-0.0236,  0.0062, -0.2040,  ..., -0.0430,  0.1401,  0.0716],
+        [-0.0297, -0.0202, -0.1885,  ..., -0.3074,  0.1237, -0.2130],
+        [ 0.0136, -0.0258, -0.0902,  ...,  0.0436, -0.1538,  0.0217]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.3039e-08,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  2.7940e-09,
+         -1.7695e-08,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00, -1.4622e-07,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  5.1223e-08,  ...,  9.3132e-10,
+          1.1176e-08,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.5832e-08,  ...,  1.8626e-09,
+         -9.3132e-10,  8.3819e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  2.7940e-09,
+          9.3132e-10, -7.4506e-09]], device='cuda:0')
+Epoch 337, bias, value: tensor([-0.0236,  0.0122,  0.0135,  0.0085,  0.0364, -0.0174, -0.0010, -0.0118,
+        -0.0224,  0.0078], device='cuda:0'), grad: tensor([ 3.8184e-08, -2.7940e-08, -1.8813e-07, -2.3209e-06,  3.5390e-08,
+         2.2687e-06, -4.0047e-08,  1.3970e-07,  9.1270e-08, -2.7940e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 336, time 220.86, cls_loss 0.0009 cls_loss_mapping 0.0014 cls_loss_causal 0.4911 re_mapping 0.0039 re_causal 0.0121 /// teacc 99.03 lr 0.00010000
+Epoch 338, weight, value: tensor([[-0.0018,  0.0110,  0.0442,  ...,  0.0841, -0.2587, -0.1742],
+        [ 0.0568, -0.0185, -0.0383,  ..., -0.3080,  0.0517, -0.1039],
+        [-0.0102, -0.0048,  0.2265,  ..., -0.3335, -0.1502, -0.1696],
+        ...,
+        [-0.0236,  0.0062, -0.2042,  ..., -0.0434,  0.1401,  0.0717],
+        [-0.0297, -0.0202, -0.1888,  ..., -0.3078,  0.1237, -0.2131],
+        [ 0.0136, -0.0258, -0.0903,  ...,  0.0437, -0.1540,  0.0218]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.2352e-08,  ...,  7.4506e-09,
+          7.4506e-09,  6.7055e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.1176e-08,  ...,  5.5879e-09,
+         -3.7253e-09,  1.1176e-08],
+        [ 0.0000e+00,  0.0000e+00, -1.1548e-07,  ...,  5.5879e-09,
+          3.7253e-09,  3.7253e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.0489e-08,  ...,  3.1665e-08,
+         -5.5879e-09,  5.0291e-08],
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-08,  ...,  7.4506e-09,
+          9.3132e-09,  2.7940e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.1176e-08,  ..., -6.0350e-07,
+          1.8626e-09, -1.2070e-06]], device='cuda:0')
+Epoch 338, bias, value: tensor([-0.0239,  0.0121,  0.0135,  0.0083,  0.0362, -0.0170, -0.0006, -0.0117,
+        -0.0224,  0.0078], device='cuda:0'), grad: tensor([ 4.4703e-08,  2.4214e-08, -1.6019e-07,  2.0862e-07,  1.4752e-06,
+        -2.2911e-07,  9.3132e-09,  1.2666e-07,  1.8813e-07, -1.7118e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 337, time 220.83, cls_loss 0.0009 cls_loss_mapping 0.0012 cls_loss_causal 0.4610 re_mapping 0.0040 re_causal 0.0114 /// teacc 99.08 lr 0.00010000
+Epoch 339, weight, value: tensor([[-0.0018,  0.0110,  0.0443,  ...,  0.0842, -0.2589, -0.1743],
+        [ 0.0568, -0.0185, -0.0384,  ..., -0.3084,  0.0516, -0.1040],
+        [-0.0102, -0.0048,  0.2272,  ..., -0.3335, -0.1502, -0.1696],
+        ...,
+        [-0.0236,  0.0062, -0.2050,  ..., -0.0442,  0.1402,  0.0717],
+        [-0.0298, -0.0202, -0.1900,  ..., -0.3084,  0.1237, -0.2132],
+        [ 0.0136, -0.0258, -0.0906,  ...,  0.0435, -0.1541,  0.0217]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ..., -1.8626e-09,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.6322e-07,  ...,  3.7253e-09,
+         -2.6077e-08,  9.3132e-09],
+        [ 0.0000e+00,  0.0000e+00, -8.2701e-07,  ...,  0.0000e+00,
+         -1.3039e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.1665e-08,  ...,  1.3039e-08,
+          1.8626e-08,  7.4506e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+         -3.7253e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.6764e-08,
+          1.1176e-08,  4.0978e-08]], device='cuda:0')
+Epoch 339, bias, value: tensor([-0.0239,  0.0120,  0.0136,  0.0084,  0.0364, -0.0167, -0.0006, -0.0118,
+        -0.0228,  0.0077], device='cuda:0'), grad: tensor([ 2.9802e-08,  1.2685e-06, -2.9802e-06, -1.8217e-06,  1.3039e-08,
+         1.7639e-06,  1.4659e-06,  1.6205e-07, -2.9802e-08,  1.4156e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 338, time 220.36, cls_loss 0.0008 cls_loss_mapping 0.0016 cls_loss_causal 0.4629 re_mapping 0.0040 re_causal 0.0117 /// teacc 99.08 lr 0.00010000
+Epoch 340, weight, value: tensor([[-0.0018,  0.0110,  0.0442,  ...,  0.0843, -0.2590, -0.1743],
+        [ 0.0568, -0.0185, -0.0389,  ..., -0.3088,  0.0516, -0.1042],
+        [-0.0102, -0.0048,  0.2278,  ..., -0.3335, -0.1506, -0.1711],
+        ...,
+        [-0.0236,  0.0062, -0.2050,  ..., -0.0451,  0.1405,  0.0722],
+        [-0.0298, -0.0202, -0.1904,  ..., -0.3100,  0.1237, -0.2133],
+        [ 0.0136, -0.0258, -0.0907,  ...,  0.0435, -0.1545,  0.0218]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.4214e-08,  ..., -1.8626e-09,
+          0.0000e+00,  5.4017e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  7.4506e-09,
+          0.0000e+00,  1.1176e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.4901e-08,  ...,  3.9116e-08,
+          4.2841e-08,  9.1270e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.1176e-08,  ...,  1.3039e-08,
+         -5.5879e-08,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.5146e-07,
+          1.8626e-09,  6.1840e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.1176e-08,  ..., -3.0547e-07,
+          1.8626e-09, -8.1025e-07]], device='cuda:0')
+Epoch 340, bias, value: tensor([-0.0239,  0.0119,  0.0136,  0.0083,  0.0364, -0.0167, -0.0007, -0.0117,
+        -0.0230,  0.0079], device='cuda:0'), grad: tensor([ 2.4773e-07,  5.4017e-08,  5.6624e-07, -2.1234e-07,  1.7881e-07,
+         4.2841e-08,  2.0489e-08,  1.2293e-07,  3.3118e-06, -4.3474e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 339, time 220.43, cls_loss 0.0008 cls_loss_mapping 0.0016 cls_loss_causal 0.4727 re_mapping 0.0040 re_causal 0.0120 /// teacc 99.09 lr 0.00010000
+Epoch 341, weight, value: tensor([[-0.0018,  0.0110,  0.0443,  ...,  0.0844, -0.2590, -0.1744],
+        [ 0.0568, -0.0185, -0.0420,  ..., -0.3090,  0.0497, -0.1048],
+        [-0.0102, -0.0048,  0.2304,  ..., -0.3335, -0.1493, -0.1711],
+        ...,
+        [-0.0237,  0.0062, -0.2052,  ..., -0.0457,  0.1410,  0.0727],
+        [-0.0298, -0.0202, -0.1907,  ..., -0.3113,  0.1237, -0.2136],
+        [ 0.0136, -0.0258, -0.0907,  ...,  0.0437, -0.1546,  0.0222]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  0.0000e+00,
+          3.3528e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-08,  ...,  0.0000e+00,
+          4.4145e-07,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00, -2.6077e-08,  ..., -1.8626e-09,
+          5.4017e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  6.7055e-08,  ...,  3.7253e-09,
+         -5.8115e-07,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-08,  ...,  0.0000e+00,
+         -7.4506e-09,  7.4506e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-08,  ...,  1.3039e-07,
+          3.7253e-09,  5.8673e-07]], device='cuda:0')
+Epoch 341, bias, value: tensor([-0.0238,  0.0096,  0.0145,  0.0092,  0.0361, -0.0170, -0.0007, -0.0114,
+        -0.0232,  0.0083], device='cuda:0'), grad: tensor([ 1.7695e-07,  1.1027e-06,  1.3597e-07,  4.0978e-07, -6.1654e-07,
+        -1.4994e-06,  3.1106e-07, -1.1586e-06,  3.8184e-07,  7.5251e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 340, time 220.44, cls_loss 0.0008 cls_loss_mapping 0.0017 cls_loss_causal 0.4605 re_mapping 0.0040 re_causal 0.0119 /// teacc 99.05 lr 0.00010000
+Epoch 342, weight, value: tensor([[-0.0018,  0.0110,  0.0442,  ...,  0.0844, -0.2595, -0.1744],
+        [ 0.0568, -0.0185, -0.0420,  ..., -0.3092,  0.0489, -0.1055],
+        [-0.0102, -0.0048,  0.2305,  ..., -0.3335, -0.1492, -0.1711],
+        ...,
+        [-0.0237,  0.0062, -0.2056,  ..., -0.0465,  0.1417,  0.0734],
+        [-0.0298, -0.0202, -0.1917,  ..., -0.3132,  0.1237, -0.2140],
+        [ 0.0136, -0.0258, -0.0909,  ...,  0.0455, -0.1547,  0.0257]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -3.9116e-08,  ..., -1.3039e-08,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  8.5682e-08,  ...,  1.8626e-09,
+         -1.6764e-08,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00, -4.0606e-07,  ...,  5.5879e-09,
+         -1.8626e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  5.7742e-08,  ...,  0.0000e+00,
+          1.8626e-09, -7.4506e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.4901e-08,  ...,  1.8626e-09,
+          1.8626e-09,  3.1665e-08],
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  1.8626e-09,
+          5.5879e-09, -7.4506e-08]], device='cuda:0')
+Epoch 342, bias, value: tensor([-0.0238,  0.0089,  0.0145,  0.0094,  0.0327, -0.0170, -0.0007, -0.0111,
+        -0.0235,  0.0118], device='cuda:0'), grad: tensor([-5.0291e-08,  1.1362e-07, -7.3761e-07,  4.2841e-08,  4.8243e-07,
+         1.0990e-07, -3.1665e-08,  1.1548e-07,  1.0245e-07, -1.4715e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 341, time 220.58, cls_loss 0.0009 cls_loss_mapping 0.0019 cls_loss_causal 0.4779 re_mapping 0.0042 re_causal 0.0122 /// teacc 98.92 lr 0.00010000
+Epoch 343, weight, value: tensor([[-0.0018,  0.0110,  0.0443,  ...,  0.0845, -0.2597, -0.1744],
+        [ 0.0568, -0.0185, -0.0420,  ..., -0.3093,  0.0490, -0.1056],
+        [-0.0102, -0.0048,  0.2306,  ..., -0.3336, -0.1493, -0.1712],
+        ...,
+        [-0.0239,  0.0062, -0.2059,  ..., -0.0470,  0.1418,  0.0734],
+        [-0.0299, -0.0202, -0.1924,  ..., -0.3135,  0.1244, -0.2142],
+        [ 0.0135, -0.0258, -0.0911,  ...,  0.0452, -0.1550,  0.0256]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.4703e-08,  ..., -2.0489e-08,
+          9.3132e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  3.7253e-09,
+          1.1548e-07,  1.2480e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  1.1176e-08,
+         -1.4342e-07, -1.2666e-07],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  1.1176e-08,
+         -7.4506e-09,  1.4901e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.6077e-08,  ...,  2.1420e-07,
+          1.8626e-09,  3.0361e-07]], device='cuda:0')
+Epoch 343, bias, value: tensor([-0.0238,  0.0090,  0.0145,  0.0098,  0.0328, -0.0191, -0.0009, -0.0111,
+        -0.0218,  0.0117], device='cuda:0'), grad: tensor([-3.1665e-08,  4.3027e-07,  2.6077e-08,  1.8813e-07, -7.3761e-07,
+        -7.5139e-06,  6.4038e-06, -4.6752e-07,  9.9279e-07,  6.7987e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 342, time 220.94, cls_loss 0.0011 cls_loss_mapping 0.0021 cls_loss_causal 0.4883 re_mapping 0.0041 re_causal 0.0122 /// teacc 98.95 lr 0.00010000
+Epoch 344, weight, value: tensor([[-0.0018,  0.0110,  0.0443,  ...,  0.0846, -0.2604, -0.1745],
+        [ 0.0568, -0.0185, -0.0423,  ..., -0.3095,  0.0465, -0.1038],
+        [-0.0102, -0.0048,  0.2308,  ..., -0.3336, -0.1495, -0.1713],
+        ...,
+        [-0.0239,  0.0062, -0.2061,  ..., -0.0477,  0.1442,  0.0711],
+        [-0.0300, -0.0202, -0.1931,  ..., -0.3142,  0.1246, -0.2144],
+        [ 0.0135, -0.0258, -0.0913,  ...,  0.0448, -0.1546,  0.0255]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -7.4506e-09,  ..., -7.4506e-09,
+          1.1176e-08,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00, -5.1595e-07,  ...,  0.0000e+00,
+         -4.4703e-07,  2.0675e-07],
+        [ 0.0000e+00,  0.0000e+00,  3.3714e-07,  ...,  3.7253e-09,
+          1.2591e-06,  1.1176e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.1735e-07,  ...,  0.0000e+00,
+         -1.2126e-06, -3.1851e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-08,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  3.7253e-09,
+          6.8918e-08,  5.0291e-08]], device='cuda:0')
+Epoch 344, bias, value: tensor([-0.0238,  0.0074,  0.0145,  0.0097,  0.0329, -0.0189, -0.0012, -0.0100,
+        -0.0216,  0.0117], device='cuda:0'), grad: tensor([ 3.3528e-08, -1.1269e-06,  3.5316e-06,  8.5495e-07,  8.9407e-08,
+         7.0781e-08,  4.6566e-08, -3.8706e-06,  6.1467e-08,  2.9616e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 343, time 221.09, cls_loss 0.0008 cls_loss_mapping 0.0013 cls_loss_causal 0.4814 re_mapping 0.0038 re_causal 0.0119 /// teacc 99.01 lr 0.00010000
+Epoch 345, weight, value: tensor([[-0.0018,  0.0110,  0.0444,  ...,  0.0846, -0.2608, -0.1746],
+        [ 0.0568, -0.0185, -0.0431,  ..., -0.3097,  0.0465, -0.1027],
+        [-0.0102, -0.0048,  0.2317,  ..., -0.3336, -0.1492, -0.1714],
+        ...,
+        [-0.0239,  0.0062, -0.2063,  ..., -0.0479,  0.1441,  0.0701],
+        [-0.0300, -0.0202, -0.1933,  ..., -0.3144,  0.1246, -0.2144],
+        [ 0.0135, -0.0258, -0.0914,  ...,  0.0447, -0.1551,  0.0256]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.6764e-08,  ..., -3.5390e-08,
+          1.4901e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.4214e-08,  ...,  3.5390e-08,
+         -4.1164e-07,  2.9802e-08],
+        [ 0.0000e+00,  0.0000e+00, -2.9802e-08,  ...,  5.5879e-09,
+         -1.4901e-08,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  6.7055e-08,  ...,  3.7253e-09,
+          5.0291e-08, -2.6077e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.1665e-08,  ...,  0.0000e+00,
+          5.5879e-08,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.0489e-08,  ...,  2.2352e-08,
+          2.6077e-08,  1.4901e-08]], device='cuda:0')
+Epoch 345, bias, value: tensor([-0.0238,  0.0077,  0.0148,  0.0098,  0.0328, -0.0194, -0.0011, -0.0104,
+        -0.0216,  0.0117], device='cuda:0'), grad: tensor([-5.5879e-08, -7.3761e-07,  7.4506e-09, -3.5949e-07, -1.5832e-07,
+         5.4017e-08,  6.5751e-07,  2.3097e-07,  2.2165e-07,  1.4715e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 344, time 220.70, cls_loss 0.0011 cls_loss_mapping 0.0021 cls_loss_causal 0.4724 re_mapping 0.0043 re_causal 0.0124 /// teacc 98.94 lr 0.00010000
+Epoch 346, weight, value: tensor([[-0.0018,  0.0110,  0.0443,  ...,  0.0836, -0.2611, -0.1757],
+        [ 0.0568, -0.0185, -0.0433,  ..., -0.3102,  0.0464, -0.1028],
+        [-0.0102, -0.0048,  0.2324,  ..., -0.3338, -0.1488, -0.1715],
+        ...,
+        [-0.0239,  0.0062, -0.2074,  ..., -0.0489,  0.1440,  0.0701],
+        [-0.0300, -0.0202, -0.1943,  ..., -0.3150,  0.1237, -0.2146],
+        [ 0.0135, -0.0258, -0.0911,  ...,  0.0454, -0.1563,  0.0258]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  3.1665e-08,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.2107e-07,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -2.7195e-07,  ...,  0.0000e+00,
+         -2.7940e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.8429e-08,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  7.6368e-08,  ...,  0.0000e+00,
+          7.4506e-09,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00, -5.5879e-09]], device='cuda:0')
+Epoch 346, bias, value: tensor([-0.0247,  0.0075,  0.0153,  0.0093,  0.0330, -0.0170, -0.0008, -0.0106,
+        -0.0232,  0.0122], device='cuda:0'), grad: tensor([ 6.8918e-08,  2.0489e-07, -4.9919e-07,  2.7940e-08,  1.1176e-08,
+        -9.1270e-08,  2.9802e-08,  9.4995e-08,  1.7136e-07, -7.4506e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 345, time 220.99, cls_loss 0.0007 cls_loss_mapping 0.0014 cls_loss_causal 0.4880 re_mapping 0.0040 re_causal 0.0122 /// teacc 98.94 lr 0.00010000
+Epoch 347, weight, value: tensor([[-0.0018,  0.0110,  0.0440,  ...,  0.0816, -0.2615, -0.1777],
+        [ 0.0568, -0.0185, -0.0434,  ..., -0.3119,  0.0466, -0.1029],
+        [-0.0102, -0.0048,  0.2340,  ..., -0.3339, -0.1476, -0.1718],
+        ...,
+        [-0.0239,  0.0062, -0.2101,  ..., -0.0495,  0.1435,  0.0702],
+        [-0.0300, -0.0202, -0.1952,  ..., -0.3154,  0.1237, -0.2147],
+        [ 0.0135, -0.0258, -0.0901,  ...,  0.0474, -0.1574,  0.0264]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -5.0291e-08,  ..., -1.3039e-08,
+          0.0000e+00,  7.0781e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ...,  1.3039e-08,
+          1.6764e-08,  2.4214e-08],
+        [ 0.0000e+00,  0.0000e+00, -4.6566e-08,  ...,  1.4901e-08,
+          9.3132e-09,  1.3039e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.9116e-08,  ...,  2.6077e-08,
+         -2.9802e-08, -3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.3039e-08,  ...,  5.5879e-09,
+         -1.4901e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.1176e-08,  ..., -1.3970e-07,
+          1.8626e-09, -3.1106e-07]], device='cuda:0')
+Epoch 347, bias, value: tensor([-0.0262,  0.0076,  0.0167,  0.0086,  0.0330, -0.0165, -0.0009, -0.0116,
+        -0.0233,  0.0133], device='cuda:0'), grad: tensor([-4.2841e-08,  7.8231e-08, -3.9116e-08,  5.0291e-08,  2.8126e-07,
+         9.3132e-09,  5.2154e-08,  7.6368e-08, -1.3039e-08, -4.5449e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 346, time 220.60, cls_loss 0.0011 cls_loss_mapping 0.0013 cls_loss_causal 0.4665 re_mapping 0.0040 re_causal 0.0115 /// teacc 98.98 lr 0.00010000
+Epoch 348, weight, value: tensor([[-0.0018,  0.0110,  0.0441,  ...,  0.0816, -0.2621, -0.1778],
+        [ 0.0568, -0.0185, -0.0435,  ..., -0.3132,  0.0467, -0.1030],
+        [-0.0102, -0.0048,  0.2341,  ..., -0.3344, -0.1477, -0.1720],
+        ...,
+        [-0.0239,  0.0062, -0.2102,  ..., -0.0508,  0.1434,  0.0700],
+        [-0.0300, -0.0202, -0.1963,  ..., -0.3168,  0.1237, -0.2149],
+        [ 0.0135, -0.0258, -0.0909,  ...,  0.0473, -0.1566,  0.0263]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.8626e-09,
+          1.3039e-08,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -5.5879e-09, -1.3039e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          9.3132e-09,  9.3132e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+         -5.4017e-08, -9.4995e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ..., -1.8626e-09,
+          2.7940e-08,  5.0291e-08]], device='cuda:0')
+Epoch 348, bias, value: tensor([-0.0262,  0.0076,  0.0166,  0.0089,  0.0335, -0.0164, -0.0010, -0.0117,
+        -0.0235,  0.0131], device='cuda:0'), grad: tensor([ 3.0920e-07, -8.7544e-08,  1.1735e-07,  3.7253e-08,  9.7416e-07,
+         8.1956e-08, -1.4175e-06, -2.1607e-07,  4.6566e-08,  1.4901e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 347, time 220.74, cls_loss 0.0009 cls_loss_mapping 0.0013 cls_loss_causal 0.4669 re_mapping 0.0040 re_causal 0.0115 /// teacc 98.99 lr 0.00010000
+Epoch 349, weight, value: tensor([[-0.0018,  0.0110,  0.0441,  ...,  0.0817, -0.2635, -0.1778],
+        [ 0.0568, -0.0185, -0.0434,  ..., -0.3136,  0.0466, -0.1032],
+        [-0.0101, -0.0048,  0.2341,  ..., -0.3345, -0.1482, -0.1728],
+        ...,
+        [-0.0239,  0.0062, -0.2102,  ..., -0.0515,  0.1437,  0.0704],
+        [-0.0300, -0.0202, -0.1956,  ..., -0.3173,  0.1244, -0.2145],
+        [ 0.0135, -0.0258, -0.0913,  ...,  0.0472, -0.1572,  0.0263]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -9.3132e-09,  ..., -1.8626e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+          1.8626e-09,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00, -1.3039e-08,  ...,  1.8626e-09,
+          1.8626e-09,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.6764e-08,  ...,  3.7253e-09,
+         -2.4214e-08, -1.3039e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  5.5879e-09,
+          0.0000e+00,  1.3039e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ...,  3.1665e-08,
+          1.8626e-08,  2.7940e-08]], device='cuda:0')
+Epoch 349, bias, value: tensor([-0.0265,  0.0076,  0.0163,  0.0084,  0.0335, -0.0159, -0.0009, -0.0115,
+        -0.0221,  0.0130], device='cuda:0'), grad: tensor([-2.7940e-08,  7.0781e-08,  0.0000e+00,  9.7789e-07, -9.6858e-08,
+        -1.4398e-06,  4.8429e-08, -3.5390e-08,  3.5763e-07,  1.4342e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 348, time 220.67, cls_loss 0.0008 cls_loss_mapping 0.0013 cls_loss_causal 0.4918 re_mapping 0.0041 re_causal 0.0121 /// teacc 99.07 lr 0.00010000
+Epoch 350, weight, value: tensor([[-0.0018,  0.0110,  0.0442,  ...,  0.0817, -0.2646, -0.1778],
+        [ 0.0568, -0.0185, -0.0434,  ..., -0.3141,  0.0466, -0.1028],
+        [-0.0101, -0.0048,  0.2342,  ..., -0.3345, -0.1483, -0.1731],
+        ...,
+        [-0.0239,  0.0062, -0.2103,  ..., -0.0524,  0.1440,  0.0702],
+        [-0.0300, -0.0202, -0.1983,  ..., -0.3178,  0.1239, -0.2148],
+        [ 0.0135, -0.0258, -0.0913,  ...,  0.0471, -0.1585,  0.0261]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.2352e-08,  ..., -1.6764e-08,
+          5.5879e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  5.5879e-09,
+         -6.1467e-08,  2.2352e-08],
+        [ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ...,  1.8626e-09,
+          3.3528e-08,  1.8626e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  1.8626e-09,
+         -1.7695e-07, -1.7136e-07],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  1.1176e-08,
+          2.7940e-08,  2.0489e-08],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  1.8626e-09,
+          0.0000e+00, -1.8626e-08]], device='cuda:0')
+Epoch 350, bias, value: tensor([-0.0265,  0.0079,  0.0164,  0.0077,  0.0336, -0.0158, -0.0008, -0.0115,
+        -0.0228,  0.0128], device='cuda:0'), grad: tensor([-3.1665e-08, -8.9407e-08,  1.0617e-07,  5.5321e-07,  1.8626e-09,
+         9.3132e-09,  2.4214e-08, -6.5938e-07,  1.3225e-07, -5.7742e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 349, time 220.69, cls_loss 0.0010 cls_loss_mapping 0.0016 cls_loss_causal 0.4935 re_mapping 0.0040 re_causal 0.0119 /// teacc 99.04 lr 0.00010000
+Epoch 351, weight, value: tensor([[-0.0018,  0.0110,  0.0444,  ...,  0.0816, -0.2653, -0.1780],
+        [ 0.0568, -0.0185, -0.0434,  ..., -0.3154,  0.0483, -0.1018],
+        [-0.0101, -0.0048,  0.2344,  ..., -0.3346, -0.1483, -0.1733],
+        ...,
+        [-0.0239,  0.0062, -0.2106,  ..., -0.0546,  0.1427,  0.0691],
+        [-0.0300, -0.0202, -0.1989,  ..., -0.3186,  0.1228, -0.2150],
+        [ 0.0135, -0.0258, -0.0915,  ...,  0.0473, -0.1590,  0.0262]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.6764e-08,  ..., -2.7940e-08,
+          0.0000e+00,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  7.4506e-09,
+          0.0000e+00,  7.4506e-09],
+        [ 0.0000e+00,  0.0000e+00, -1.3039e-08,  ...,  5.5879e-09,
+          1.3039e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.0489e-08,  ...,  5.5879e-09,
+          0.0000e+00,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  7.4506e-09,
+          3.7253e-09,  1.1176e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.9802e-08,  ..., -9.4995e-08,
+          0.0000e+00, -1.6764e-07]], device='cuda:0')
+Epoch 351, bias, value: tensor([-0.0265,  0.0094,  0.0164,  0.0073,  0.0335, -0.0156, -0.0008, -0.0126,
+        -0.0244,  0.0128], device='cuda:0'), grad: tensor([-5.4017e-08,  3.9116e-08,  1.2480e-07, -2.6822e-07,  2.6636e-07,
+         2.0489e-08, -1.6950e-07,  7.0781e-08,  8.7544e-08, -1.2852e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 350, time 220.51, cls_loss 0.0008 cls_loss_mapping 0.0012 cls_loss_causal 0.4770 re_mapping 0.0039 re_causal 0.0118 /// teacc 99.05 lr 0.00010000
+Epoch 352, weight, value: tensor([[-0.0018,  0.0110,  0.0445,  ...,  0.0817, -0.2656, -0.1780],
+        [ 0.0568, -0.0185, -0.0435,  ..., -0.3167,  0.0484, -0.1016],
+        [-0.0101, -0.0048,  0.2350,  ..., -0.3346, -0.1483, -0.1736],
+        ...,
+        [-0.0239,  0.0062, -0.2115,  ..., -0.0556,  0.1426,  0.0689],
+        [-0.0300, -0.0202, -0.1996,  ..., -0.3193,  0.1229, -0.2153],
+        [ 0.0135, -0.0258, -0.0917,  ...,  0.0473, -0.1594,  0.0263]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          5.5879e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.8243e-07,  3.5949e-07],
+        [ 0.0000e+00,  0.0000e+00, -3.5390e-08,  ...,  0.0000e+00,
+          3.7253e-09,  3.7253e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  0.0000e+00,
+         -6.3702e-07, -6.0350e-07],
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ..., -5.5879e-09,
+          3.7253e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.8626e-09,
+          1.0803e-07,  2.0303e-07]], device='cuda:0')
+Epoch 352, bias, value: tensor([-0.0265,  0.0096,  0.0169,  0.0073,  0.0335, -0.0157, -0.0009, -0.0130,
+        -0.0247,  0.0129], device='cuda:0'), grad: tensor([ 1.4901e-08,  1.4286e-06, -5.7742e-08,  6.8918e-08,  7.0781e-08,
+         3.1665e-08, -3.7253e-08, -2.0750e-06,  1.1176e-08,  5.3085e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 351, time 220.73, cls_loss 0.0007 cls_loss_mapping 0.0014 cls_loss_causal 0.4937 re_mapping 0.0040 re_causal 0.0123 /// teacc 99.04 lr 0.00010000
+Epoch 353, weight, value: tensor([[-0.0018,  0.0110,  0.0453,  ...,  0.0819, -0.2659, -0.1780],
+        [ 0.0568, -0.0185, -0.0435,  ..., -0.3152,  0.0482, -0.1016],
+        [-0.0101, -0.0048,  0.2350,  ..., -0.3346, -0.1486, -0.1749],
+        ...,
+        [-0.0239,  0.0062, -0.2116,  ..., -0.0560,  0.1430,  0.0693],
+        [-0.0300, -0.0202, -0.2001,  ..., -0.3200,  0.1228, -0.2154],
+        [ 0.0135, -0.0258, -0.0928,  ...,  0.0471, -0.1598,  0.0262]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -5.5879e-09,  ..., -7.4506e-09,
+          1.8626e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          6.9849e-07,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          1.8999e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          1.1176e-08, -5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -9.3132e-09,
+         -1.0487e-06,  7.4506e-09],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  1.3039e-08,
+          7.2643e-08, -1.3039e-08]], device='cuda:0')
+Epoch 353, bias, value: tensor([-0.0262,  0.0095,  0.0169,  0.0069,  0.0334, -0.0157, -0.0009, -0.0128,
+        -0.0248,  0.0127], device='cuda:0'), grad: tensor([-7.4506e-09,  1.6987e-06,  4.6939e-07,  1.2480e-07,  2.4214e-08,
+         1.6764e-08,  1.4901e-08,  2.9802e-08, -2.6803e-06,  3.0920e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 352, time 221.00, cls_loss 0.0007 cls_loss_mapping 0.0012 cls_loss_causal 0.4688 re_mapping 0.0039 re_causal 0.0117 /// teacc 98.95 lr 0.00010000
+Epoch 354, weight, value: tensor([[-0.0018,  0.0110,  0.0461,  ...,  0.0821, -0.2662, -0.1780],
+        [ 0.0568, -0.0185, -0.0435,  ..., -0.3155,  0.0481, -0.1017],
+        [-0.0101, -0.0048,  0.2351,  ..., -0.3347, -0.1486, -0.1751],
+        ...,
+        [-0.0239,  0.0062, -0.2118,  ..., -0.0581,  0.1433,  0.0696],
+        [-0.0300, -0.0202, -0.2005,  ..., -0.3206,  0.1228, -0.2156],
+        [ 0.0135, -0.0258, -0.0949,  ...,  0.0470, -0.1606,  0.0262]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.4901e-08,  ..., -3.7253e-09,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00, -3.0547e-07,  ...,  0.0000e+00,
+         -2.0675e-07,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00, -3.5390e-07,  ...,  0.0000e+00,
+          1.2107e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.7323e-07,  ...,  0.0000e+00,
+          8.0094e-08,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00, -1.1176e-08]], device='cuda:0')
+Epoch 354, bias, value: tensor([-0.0259,  0.0094,  0.0169,  0.0069,  0.0334, -0.0151, -0.0010, -0.0127,
+        -0.0249,  0.0125], device='cuda:0'), grad: tensor([ 3.7253e-08, -3.3099e-06,  7.5251e-07,  1.0245e-07,  1.0226e-06,
+        -6.8918e-08,  5.5879e-09,  1.3988e-06,  6.1467e-08, -7.4506e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 353, time 220.84, cls_loss 0.0009 cls_loss_mapping 0.0012 cls_loss_causal 0.4908 re_mapping 0.0040 re_causal 0.0118 /// teacc 99.02 lr 0.00010000
+Epoch 355, weight, value: tensor([[-0.0018,  0.0110,  0.0466,  ...,  0.0823, -0.2662, -0.1780],
+        [ 0.0573, -0.0185, -0.0435,  ..., -0.3160,  0.0479, -0.1019],
+        [-0.0105, -0.0048,  0.2352,  ..., -0.3348, -0.1487, -0.1753],
+        ...,
+        [-0.0239,  0.0062, -0.2119,  ..., -0.0600,  0.1436,  0.0702],
+        [-0.0308, -0.0202, -0.2012,  ..., -0.3220,  0.1227, -0.2159],
+        [ 0.0135, -0.0258, -0.0956,  ...,  0.0470, -0.1623,  0.0259]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -5.5879e-09,  ..., -3.3528e-08,
+          1.4901e-08,  1.4901e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.2037e-07,  ...,  1.8626e-09,
+         -2.4214e-07,  2.5332e-07],
+        [ 0.0000e+00,  0.0000e+00, -1.7621e-06,  ...,  0.0000e+00,
+          6.8918e-08, -1.0915e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.2852e-06,  ...,  3.7253e-09,
+         -1.3784e-07,  6.5379e-07],
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-08,  ...,  0.0000e+00,
+          1.8626e-09,  4.2841e-08],
+        [ 0.0000e+00,  0.0000e+00,  7.6368e-08,  ...,  7.4506e-09,
+          3.9116e-08,  9.8720e-08]], device='cuda:0')
+Epoch 355, bias, value: tensor([-0.0257,  0.0092,  0.0169,  0.0063,  0.0333, -0.0149, -0.0012, -0.0124,
+        -0.0252,  0.0122], device='cuda:0'), grad: tensor([-2.2352e-08, -2.9802e-08, -3.3993e-06,  3.5390e-08,  9.6858e-08,
+         2.7940e-08,  6.4448e-07,  2.1383e-06,  1.5832e-07,  3.3341e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 354, time 220.41, cls_loss 0.0008 cls_loss_mapping 0.0014 cls_loss_causal 0.4792 re_mapping 0.0039 re_causal 0.0119 /// teacc 99.03 lr 0.00010000
+Epoch 356, weight, value: tensor([[-0.0018,  0.0110,  0.0469,  ...,  0.0824, -0.2681, -0.1781],
+        [ 0.0573, -0.0185, -0.0435,  ..., -0.3161,  0.0480, -0.1019],
+        [-0.0105, -0.0048,  0.2354,  ..., -0.3350, -0.1487, -0.1754],
+        ...,
+        [-0.0239,  0.0062, -0.2121,  ..., -0.0613,  0.1436,  0.0702],
+        [-0.0308, -0.0202, -0.2014,  ..., -0.3227,  0.1228, -0.2161],
+        [ 0.0135, -0.0258, -0.0957,  ...,  0.0471, -0.1625,  0.0261]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ..., -1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.2480e-07,  ...,  0.0000e+00,
+         -5.2154e-08, -1.1176e-08],
+        [ 0.0000e+00,  0.0000e+00, -3.9861e-07,  ...,  0.0000e+00,
+         -1.8626e-08,  7.4506e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.3155e-07,  ...,  0.0000e+00,
+          8.0094e-08,  2.0489e-08],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ..., -5.5879e-09,
+          0.0000e+00, -1.3039e-08]], device='cuda:0')
+Epoch 356, bias, value: tensor([-0.0258,  0.0093,  0.0169,  0.0049,  0.0331, -0.0149, -0.0008, -0.0124,
+        -0.0236,  0.0123], device='cuda:0'), grad: tensor([ 2.7940e-08,  8.9407e-08, -4.6566e-07, -3.5390e-07,  9.3132e-09,
+        -1.0431e-07, -3.7253e-08,  7.8417e-07,  5.5879e-08, -5.5879e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 355, time 220.36, cls_loss 0.0008 cls_loss_mapping 0.0013 cls_loss_causal 0.5090 re_mapping 0.0042 re_causal 0.0123 /// teacc 99.08 lr 0.00010000
+Epoch 357, weight, value: tensor([[-0.0018,  0.0110,  0.0479,  ...,  0.0825, -0.2686, -0.1781],
+        [ 0.0573, -0.0185, -0.0436,  ..., -0.3175,  0.0480, -0.1020],
+        [-0.0105, -0.0048,  0.2355,  ..., -0.3354, -0.1488, -0.1756],
+        ...,
+        [-0.0239,  0.0062, -0.2122,  ..., -0.0619,  0.1437,  0.0702],
+        [-0.0308, -0.0202, -0.2022,  ..., -0.3258,  0.1228, -0.2164],
+        [ 0.0135, -0.0258, -0.0964,  ...,  0.0470, -0.1629,  0.0262]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.7509e-07,  ..., -3.5763e-07,
+          0.0000e+00,  1.6764e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ...,  1.6764e-08,
+         -2.9802e-08,  3.5390e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.9116e-08,  ...,  1.8626e-08,
+          0.0000e+00,  8.7544e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  5.0291e-08,  ...,  1.6764e-08,
+          2.0489e-08,  3.9116e-08],
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  7.4506e-09,
+          0.0000e+00,  2.0489e-08],
+        [ 0.0000e+00,  0.0000e+00, -2.7940e-08,  ..., -1.4901e-08,
+          3.7253e-09, -3.5949e-07]], device='cuda:0')
+Epoch 357, bias, value: tensor([-0.0256,  0.0093,  0.0169,  0.0048,  0.0333, -0.0148, -0.0009, -0.0125,
+        -0.0239,  0.0123], device='cuda:0'), grad: tensor([-6.8359e-07, -1.4901e-08,  3.2224e-07, -1.0058e-07, -4.4703e-08,
+         2.7753e-07,  6.4448e-07,  3.3900e-07,  8.0094e-08, -8.3819e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 356, time 220.35, cls_loss 0.0012 cls_loss_mapping 0.0014 cls_loss_causal 0.4648 re_mapping 0.0041 re_causal 0.0114 /// teacc 99.10 lr 0.00010000
+Epoch 358, weight, value: tensor([[-0.0018,  0.0110,  0.0538,  ...,  0.0848, -0.2668, -0.1781],
+        [ 0.0573, -0.0185, -0.0437,  ..., -0.3160,  0.0481, -0.1012],
+        [-0.0105, -0.0048,  0.2359,  ..., -0.3360, -0.1488, -0.1758],
+        ...,
+        [-0.0239,  0.0062, -0.2125,  ..., -0.0633,  0.1437,  0.0702],
+        [-0.0310, -0.0202, -0.2070,  ..., -0.3303,  0.1225, -0.2165],
+        [ 0.0134, -0.0258, -0.1015,  ...,  0.0465, -0.1643,  0.0269]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ...,  3.7253e-09,
+          1.7881e-07,  5.0291e-08],
+        [ 0.0000e+00,  0.0000e+00, -3.0641e-07,  ..., -1.8626e-09,
+         -9.4995e-08,  5.5879e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.4866e-07,  ...,  2.7940e-09,
+         -1.1269e-07, -5.2154e-08],
+        [ 0.0000e+00,  0.0000e+00,  4.2841e-08,  ...,  1.8626e-09,
+          2.7940e-09,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -4.5635e-08,
+          8.3819e-09, -1.0617e-07]], device='cuda:0')
+Epoch 358, bias, value: tensor([-0.0212,  0.0099,  0.0170,  0.0050,  0.0319, -0.0163, -0.0029, -0.0126,
+        -0.0273,  0.0119], device='cuda:0'), grad: tensor([ 1.1176e-08,  4.6194e-07, -7.3574e-07,  7.7300e-08,  1.5926e-07,
+        -1.4901e-07,  4.3772e-08,  1.4435e-07,  1.2480e-07, -1.5553e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 357, time 220.59, cls_loss 0.0010 cls_loss_mapping 0.0019 cls_loss_causal 0.4821 re_mapping 0.0043 re_causal 0.0120 /// teacc 99.04 lr 0.00010000
+Epoch 359, weight, value: tensor([[-0.0018,  0.0110,  0.0540,  ...,  0.0849, -0.2671, -0.1782],
+        [ 0.0573, -0.0185, -0.0437,  ..., -0.3160,  0.0482, -0.1011],
+        [-0.0105, -0.0048,  0.2362,  ..., -0.3361, -0.1490, -0.1762],
+        ...,
+        [-0.0239,  0.0062, -0.2129,  ..., -0.0635,  0.1436,  0.0698],
+        [-0.0310, -0.0202, -0.2072,  ..., -0.3304,  0.1227, -0.2167],
+        [ 0.0134, -0.0258, -0.1019,  ...,  0.0459, -0.1648,  0.0271]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.4063e-07,  ..., -3.8184e-08,
+          2.7008e-08,  3.2559e-06],
+        [ 0.0000e+00,  0.0000e+00,  2.7008e-08,  ...,  3.7253e-09,
+         -1.1986e-06,  9.4064e-08],
+        [ 0.0000e+00,  0.0000e+00, -1.2582e-06,  ...,  2.4214e-08,
+          2.8871e-08,  6.4224e-06],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.5236e-06,  ...,  1.4901e-08,
+         -2.0489e-08,  1.6019e-07],
+        [ 0.0000e+00,  0.0000e+00,  3.5390e-08,  ...,  5.5879e-09,
+          3.7253e-08,  8.9407e-08],
+        [ 0.0000e+00,  0.0000e+00, -8.0839e-07,  ..., -4.0978e-08,
+          9.3132e-09, -1.4618e-05]], device='cuda:0')
+Epoch 359, bias, value: tensor([-0.0211,  0.0100,  0.0171,  0.0055,  0.0320, -0.0155, -0.0033, -0.0128,
+        -0.0274,  0.0118], device='cuda:0'), grad: tensor([ 8.1435e-06, -2.5164e-06,  1.3269e-05,  6.5472e-07,  1.1744e-06,
+         9.8869e-06,  2.4997e-06,  3.1628e-06,  3.6042e-07, -3.6567e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 358, time 220.81, cls_loss 0.0010 cls_loss_mapping 0.0021 cls_loss_causal 0.4852 re_mapping 0.0041 re_causal 0.0118 /// teacc 99.06 lr 0.00010000
+Epoch 360, weight, value: tensor([[-0.0018,  0.0110,  0.0539,  ...,  0.0849, -0.2674, -0.1783],
+        [ 0.0573, -0.0185, -0.0455,  ..., -0.3163,  0.0483, -0.1013],
+        [-0.0105, -0.0048,  0.2385,  ..., -0.3361, -0.1490, -0.1768],
+        ...,
+        [-0.0239,  0.0062, -0.2141,  ..., -0.0668,  0.1436,  0.0689],
+        [-0.0310, -0.0202, -0.2073,  ..., -0.3305,  0.1238, -0.2169],
+        [ 0.0135, -0.0258, -0.1020,  ...,  0.0458, -0.1658,  0.0272]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  1.8626e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          1.2107e-08,  1.2107e-08],
+        [ 0.0000e+00,  0.0000e+00, -9.3132e-08,  ...,  2.7940e-09,
+          2.4214e-08, -2.8871e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ..., -1.3039e-08,
+         -1.1735e-07, -1.1548e-07],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          9.3132e-10,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-08,  ...,  1.2107e-08,
+          3.7253e-09,  7.4506e-08]], device='cuda:0')
+Epoch 360, bias, value: tensor([-0.0212,  0.0093,  0.0183,  0.0050,  0.0328, -0.0155, -0.0039, -0.0134,
+        -0.0268,  0.0119], device='cuda:0'), grad: tensor([ 4.0047e-08,  5.8673e-08, -1.0245e-08,  4.1071e-07,  1.1269e-07,
+        -2.5518e-07,  0.0000e+00, -5.7369e-07,  3.7253e-08,  1.9092e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 359, time 221.01, cls_loss 0.0009 cls_loss_mapping 0.0013 cls_loss_causal 0.4540 re_mapping 0.0040 re_causal 0.0113 /// teacc 99.10 lr 0.00010000
+Epoch 361, weight, value: tensor([[-0.0018,  0.0110,  0.0539,  ...,  0.0850, -0.2678, -0.1784],
+        [ 0.0573, -0.0185, -0.0457,  ..., -0.3165,  0.0482, -0.1015],
+        [-0.0105, -0.0048,  0.2395,  ..., -0.3361, -0.1490, -0.1770],
+        ...,
+        [-0.0239,  0.0062, -0.2155,  ..., -0.0669,  0.1438,  0.0693],
+        [-0.0310, -0.0202, -0.2074,  ..., -0.3306,  0.1246, -0.2171],
+        [ 0.0135, -0.0258, -0.1031,  ...,  0.0456, -0.1681,  0.0269]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          8.1025e-08,  9.5926e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          7.2643e-08,  4.9360e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+         -4.4145e-07, -3.7439e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+         -1.0245e-08,  5.2154e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -4.6566e-09,
+          2.0396e-07,  1.7043e-07]], device='cuda:0')
+Epoch 361, bias, value: tensor([-0.0212,  0.0092,  0.0187,  0.0059,  0.0329, -0.0158, -0.0044, -0.0136,
+        -0.0264,  0.0115], device='cuda:0'), grad: tensor([ 1.0245e-08,  2.1607e-07,  1.8254e-07,  1.7975e-07,  9.3132e-10,
+         1.1735e-07, -4.6566e-09, -1.0822e-06, -4.8429e-08,  4.5449e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 360, time 220.74, cls_loss 0.0008 cls_loss_mapping 0.0014 cls_loss_causal 0.4581 re_mapping 0.0040 re_causal 0.0116 /// teacc 98.98 lr 0.00010000
+Epoch 362, weight, value: tensor([[-0.0018,  0.0110,  0.0539,  ...,  0.0850, -0.2683, -0.1784],
+        [ 0.0578, -0.0185, -0.0458,  ..., -0.3167,  0.0480, -0.1016],
+        [-0.0106, -0.0048,  0.2398,  ..., -0.3361, -0.1491, -0.1773],
+        ...,
+        [-0.0239,  0.0062, -0.2158,  ..., -0.0671,  0.1443,  0.0694],
+        [-0.0311, -0.0202, -0.2075,  ..., -0.3306,  0.1241, -0.2177],
+        [ 0.0134, -0.0258, -0.1031,  ...,  0.0457, -0.1691,  0.0269]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+          1.1176e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+         -7.9162e-08,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  3.2596e-08,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-08,  ...,  0.0000e+00,
+          4.1910e-08, -4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  0.0000e+00,
+          1.6764e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 362, bias, value: tensor([-0.0212,  0.0090,  0.0189,  0.0051,  0.0329, -0.0151, -0.0044, -0.0134,
+        -0.0268,  0.0115], device='cuda:0'), grad: tensor([ 3.5390e-08, -2.4308e-07,  1.0151e-07, -1.3411e-07,  0.0000e+00,
+         1.1176e-08, -3.5390e-08,  2.0210e-07,  5.5879e-08,  3.7253e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 361, time 220.41, cls_loss 0.0009 cls_loss_mapping 0.0016 cls_loss_causal 0.4569 re_mapping 0.0040 re_causal 0.0113 /// teacc 98.99 lr 0.00010000
+Epoch 363, weight, value: tensor([[-0.0019,  0.0110,  0.0541,  ...,  0.0852, -0.2694, -0.1785],
+        [ 0.0578, -0.0185, -0.0458,  ..., -0.3172,  0.0479, -0.1017],
+        [-0.0106, -0.0048,  0.2399,  ..., -0.3362, -0.1492, -0.1774],
+        ...,
+        [-0.0239,  0.0062, -0.2160,  ..., -0.0673,  0.1445,  0.0695],
+        [-0.0312, -0.0202, -0.2075,  ..., -0.3307,  0.1246, -0.2181],
+        [ 0.0134, -0.0258, -0.1034,  ...,  0.0472, -0.1689,  0.0288]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ..., -9.3132e-10,
+          6.5193e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-10,
+         -4.6566e-09,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-09,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  1.8626e-09,
+         -2.7940e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          4.6566e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.8626e-09,
+          2.7940e-09, -9.3132e-10]], device='cuda:0')
+Epoch 363, bias, value: tensor([-0.0212,  0.0090,  0.0189,  0.0047,  0.0317, -0.0149, -0.0049, -0.0133,
+        -0.0265,  0.0127], device='cuda:0'), grad: tensor([ 4.6566e-08, -3.7253e-09,  2.0489e-08,  2.1979e-07, -2.7940e-09,
+        -2.5984e-07, -8.1025e-08,  1.8626e-08,  2.5146e-08,  1.9558e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 362, time 220.86, cls_loss 0.0007 cls_loss_mapping 0.0013 cls_loss_causal 0.4811 re_mapping 0.0039 re_causal 0.0113 /// teacc 99.05 lr 0.00010000
+Epoch 364, weight, value: tensor([[-0.0019,  0.0110,  0.0543,  ...,  0.0852, -0.2699, -0.1785],
+        [ 0.0578, -0.0185, -0.0458,  ..., -0.3173,  0.0479, -0.1018],
+        [-0.0107, -0.0048,  0.2400,  ..., -0.3362, -0.1493, -0.1775],
+        ...,
+        [-0.0239,  0.0062, -0.2161,  ..., -0.0674,  0.1446,  0.0695],
+        [-0.0313, -0.0202, -0.2075,  ..., -0.3307,  0.1247, -0.2181],
+        [ 0.0134, -0.0258, -0.1035,  ...,  0.0471, -0.1692,  0.0286]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -3.1944e-07,  3.0734e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.2165e-07,  2.1420e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -8.0094e-08, -2.0675e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.3970e-08,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          1.1828e-07,  1.4342e-07]], device='cuda:0')
+Epoch 364, bias, value: tensor([-0.0210,  0.0089,  0.0188,  0.0027,  0.0318, -0.0127, -0.0050, -0.0133,
+        -0.0265,  0.0125], device='cuda:0'), grad: tensor([ 5.3085e-08, -2.5444e-06,  1.5544e-06,  2.0489e-08,  3.0734e-07,
+         6.5193e-08, -9.2201e-08, -2.2352e-08,  4.7497e-08,  6.2305e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 363, time 221.03, cls_loss 0.0008 cls_loss_mapping 0.0013 cls_loss_causal 0.4805 re_mapping 0.0036 re_causal 0.0113 /// teacc 99.05 lr 0.00010000
+Epoch 365, weight, value: tensor([[-0.0019,  0.0110,  0.0543,  ...,  0.0852, -0.2709, -0.1787],
+        [ 0.0578, -0.0185, -0.0459,  ..., -0.3176,  0.0483, -0.1015],
+        [-0.0107, -0.0048,  0.2404,  ..., -0.3362, -0.1494, -0.1776],
+        ...,
+        [-0.0239,  0.0062, -0.2164,  ..., -0.0676,  0.1445,  0.0693],
+        [-0.0313, -0.0202, -0.2076,  ..., -0.3307,  0.1243, -0.2184],
+        [ 0.0134, -0.0258, -0.1034,  ...,  0.0470, -0.1704,  0.0285]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ..., -4.6566e-09,
+          4.6566e-09,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  3.0734e-08,
+          2.1420e-08,  5.9605e-08],
+        [ 0.0000e+00,  0.0000e+00, -5.0291e-08,  ...,  1.8626e-09,
+          7.4506e-09,  6.5193e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.8429e-08,  ...,  2.2352e-08,
+         -2.9802e-08,  2.4214e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  9.3132e-10,
+          6.5193e-09,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  2.3190e-07,
+          1.8626e-09,  3.3807e-07]], device='cuda:0')
+Epoch 365, bias, value: tensor([-0.0210,  0.0094,  0.0190,  0.0023,  0.0320, -0.0129, -0.0049, -0.0135,
+        -0.0269,  0.0124], device='cuda:0'), grad: tensor([-2.7940e-09,  1.6112e-07, -5.7742e-08, -2.2352e-08, -7.0408e-07,
+        -2.5053e-07,  4.3772e-08,  1.2666e-07,  2.1793e-07,  5.0478e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 364, time 220.72, cls_loss 0.0008 cls_loss_mapping 0.0009 cls_loss_causal 0.4281 re_mapping 0.0035 re_causal 0.0103 /// teacc 99.06 lr 0.00010000
+Epoch 366, weight, value: tensor([[-0.0019,  0.0110,  0.0544,  ...,  0.0853, -0.2710, -0.1788],
+        [ 0.0576, -0.0185, -0.0459,  ..., -0.3181,  0.0483, -0.1016],
+        [-0.0107, -0.0048,  0.2407,  ..., -0.3364, -0.1496, -0.1777],
+        ...,
+        [-0.0240,  0.0062, -0.2167,  ..., -0.0678,  0.1445,  0.0691],
+        [-0.0313, -0.0202, -0.2077,  ..., -0.3307,  0.1244, -0.2186],
+        [ 0.0147, -0.0258, -0.1036,  ...,  0.0468, -0.1707,  0.0285]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.7043e-07,  ..., -1.0896e-07,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-10,
+          1.0710e-07,  6.3330e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.3039e-07,  ...,  6.8918e-08,
+          2.5146e-08,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  1.8626e-09,
+         -1.2387e-07, -7.0781e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ..., -1.1176e-08,
+         -2.5146e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.8871e-08,  ...,  2.7008e-08,
+          3.7253e-09,  3.7253e-09]], device='cuda:0')
+Epoch 366, bias, value: tensor([-0.0210,  0.0095,  0.0190,  0.0023,  0.0322, -0.0130, -0.0051, -0.0137,
+        -0.0269,  0.0123], device='cuda:0'), grad: tensor([-1.0561e-06,  2.2817e-07,  8.5682e-07, -3.4552e-07, -4.6566e-09,
+         2.8498e-07,  2.0675e-07, -2.3842e-07, -7.7300e-08,  1.3877e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 365, time 220.97, cls_loss 0.0009 cls_loss_mapping 0.0013 cls_loss_causal 0.4830 re_mapping 0.0037 re_causal 0.0112 /// teacc 99.07 lr 0.00010000
+Epoch 367, weight, value: tensor([[-0.0019,  0.0110,  0.0545,  ...,  0.0853, -0.2716, -0.1788],
+        [ 0.0576, -0.0185, -0.0460,  ..., -0.3182,  0.0480, -0.1020],
+        [-0.0107, -0.0048,  0.2406,  ..., -0.3366, -0.1500, -0.1780],
+        ...,
+        [-0.0240,  0.0062, -0.2172,  ..., -0.0678,  0.1452,  0.0699],
+        [-0.0314, -0.0202, -0.2077,  ..., -0.3307,  0.1246, -0.2186],
+        [ 0.0148, -0.0258, -0.1037,  ...,  0.0467, -0.1738,  0.0282]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ..., -1.8626e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  9.3132e-10,
+         -7.4506e-09,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00, -9.3132e-09,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.4901e-08,  ...,  1.8626e-09,
+         -4.6566e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  0.0000e+00,
+          1.1176e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ..., -1.8626e-09,
+          0.0000e+00, -9.3132e-09]], device='cuda:0')
+Epoch 367, bias, value: tensor([-0.0210,  0.0093,  0.0187,  0.0031,  0.0322, -0.0127, -0.0051, -0.0133,
+        -0.0268,  0.0120], device='cuda:0'), grad: tensor([ 1.0245e-08,  0.0000e+00,  7.4506e-09, -1.1176e-07,  2.0489e-08,
+         4.7497e-08, -5.7742e-08,  2.7940e-08,  5.9605e-08, -1.2107e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 366, time 220.72, cls_loss 0.0010 cls_loss_mapping 0.0017 cls_loss_causal 0.4712 re_mapping 0.0038 re_causal 0.0109 /// teacc 99.07 lr 0.00010000
+Epoch 368, weight, value: tensor([[-0.0019,  0.0110,  0.0549,  ...,  0.0854, -0.2730, -0.1789],
+        [ 0.0576, -0.0185, -0.0462,  ..., -0.3194,  0.0481, -0.1016],
+        [-0.0107, -0.0048,  0.2410,  ..., -0.3368, -0.1501, -0.1778],
+        ...,
+        [-0.0240,  0.0062, -0.2177,  ..., -0.0679,  0.1450,  0.0693],
+        [-0.0314, -0.0202, -0.2078,  ..., -0.3307,  0.1248, -0.2191],
+        [ 0.0148, -0.0258, -0.1038,  ...,  0.0467, -0.1746,  0.0284]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  6.7987e-08,  ...,  0.0000e+00,
+          2.7940e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  4.6566e-09,
+          8.9407e-08,  6.6124e-08],
+        [ 0.0000e+00,  0.0000e+00, -1.2666e-07,  ...,  0.0000e+00,
+          2.3283e-08,  1.3970e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  1.8626e-09,
+         -1.6764e-07, -1.0524e-07],
+        [ 0.0000e+00,  0.0000e+00,  3.8184e-08,  ...,  0.0000e+00,
+          4.4703e-08,  2.7008e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          4.6566e-09,  3.7253e-09]], device='cuda:0')
+Epoch 368, bias, value: tensor([-0.0208,  0.0095,  0.0188,  0.0031,  0.0322, -0.0137, -0.0038, -0.0138,
+        -0.0267,  0.0121], device='cuda:0'), grad: tensor([ 1.1455e-07,  1.7695e-07, -1.4715e-07,  3.9116e-08, -2.4214e-08,
+        -1.8626e-09,  1.8626e-09, -3.1386e-07,  1.4529e-07,  1.5832e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 367, time 220.85, cls_loss 0.0010 cls_loss_mapping 0.0011 cls_loss_causal 0.4852 re_mapping 0.0038 re_causal 0.0109 /// teacc 99.05 lr 0.00010000
+Epoch 369, weight, value: tensor([[-0.0019,  0.0110,  0.0552,  ...,  0.0855, -0.2733, -0.1790],
+        [ 0.0576, -0.0185, -0.0464,  ..., -0.3200,  0.0482, -0.1014],
+        [-0.0107, -0.0048,  0.2412,  ..., -0.3369, -0.1503, -0.1787],
+        ...,
+        [-0.0240,  0.0062, -0.2182,  ..., -0.0681,  0.1449,  0.0687],
+        [-0.0314, -0.0202, -0.2079,  ..., -0.3307,  0.1252, -0.2195],
+        [ 0.0148, -0.0258, -0.1039,  ...,  0.0465, -0.1742,  0.0285]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00, -1.1176e-08,  ..., -8.3819e-09,
+          4.8429e-08,  5.5879e-09],
+        [ 1.1176e-08,  0.0000e+00,  3.7253e-09,  ...,  3.0734e-08,
+          5.6438e-07,  4.1910e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-08,  ...,  2.7940e-09,
+          6.5193e-09,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ...,  1.5832e-08,
+         -1.1176e-08,  8.3819e-09],
+        [ 9.3132e-10,  0.0000e+00,  1.8626e-08,  ...,  9.3132e-10,
+          3.9116e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  2.3469e-07,
+          5.5879e-09,  2.5053e-07]], device='cuda:0')
+Epoch 369, bias, value: tensor([-0.0205,  0.0100,  0.0183,  0.0031,  0.0324, -0.0137, -0.0039, -0.0143,
+        -0.0265,  0.0122], device='cuda:0'), grad: tensor([ 2.9150e-07,  2.3805e-06,  2.3283e-07, -2.7940e-09, -5.9325e-07,
+         8.7637e-07, -3.7774e-06,  3.8184e-08, -1.8533e-07,  7.4133e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 368, time 221.49, cls_loss 0.0008 cls_loss_mapping 0.0011 cls_loss_causal 0.4704 re_mapping 0.0038 re_causal 0.0110 /// teacc 99.05 lr 0.00010000
+Epoch 370, weight, value: tensor([[-0.0019,  0.0110,  0.0552,  ...,  0.0851, -0.2737, -0.1798],
+        [ 0.0576, -0.0185, -0.0464,  ..., -0.3202,  0.0483, -0.1016],
+        [-0.0107, -0.0048,  0.2415,  ..., -0.3369, -0.1504, -0.1786],
+        ...,
+        [-0.0240,  0.0062, -0.2185,  ..., -0.0681,  0.1450,  0.0689],
+        [-0.0314, -0.0202, -0.2081,  ..., -0.3308,  0.1252, -0.2200],
+        [ 0.0148, -0.0258, -0.1044,  ...,  0.0464, -0.1759,  0.0281]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  9.3132e-10,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  1.8626e-09,
+          8.4750e-08,  5.6811e-08],
+        [ 0.0000e+00,  0.0000e+00, -3.0734e-07,  ...,  0.0000e+00,
+          4.0978e-08,  6.5193e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.8161e-07,  ...,  9.3132e-10,
+         -1.2619e-06, -4.9733e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.0245e-07,  ...,  9.3132e-10,
+          1.0487e-06,  3.9767e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          2.4214e-08,  1.3039e-08]], device='cuda:0')
+Epoch 370, bias, value: tensor([-0.0209,  0.0101,  0.0183,  0.0029,  0.0328, -0.0135, -0.0037, -0.0143,
+        -0.0265,  0.0119], device='cuda:0'), grad: tensor([ 4.5635e-08,  1.1362e-07, -4.0233e-07,  7.8231e-08,  6.4261e-08,
+         7.4506e-09, -8.1956e-08, -2.0489e-06,  2.1756e-06,  5.0291e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 369, time 220.70, cls_loss 0.0008 cls_loss_mapping 0.0011 cls_loss_causal 0.4775 re_mapping 0.0036 re_causal 0.0111 /// teacc 99.06 lr 0.00010000
+Epoch 371, weight, value: tensor([[-0.0019,  0.0110,  0.0552,  ...,  0.0851, -0.2739, -0.1798],
+        [ 0.0577, -0.0185, -0.0464,  ..., -0.3204,  0.0482, -0.1017],
+        [-0.0107, -0.0048,  0.2414,  ..., -0.3370, -0.1505, -0.1789],
+        ...,
+        [-0.0240,  0.0062, -0.2187,  ..., -0.0682,  0.1452,  0.0691],
+        [-0.0315, -0.0202, -0.2084,  ..., -0.3309,  0.1251, -0.2211],
+        [ 0.0148, -0.0258, -0.1046,  ...,  0.0462, -0.1766,  0.0281]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ...,  1.8626e-09,
+          2.7940e-09,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.6077e-08,
+          1.0245e-08,  3.2596e-08],
+        [ 0.0000e+00,  0.0000e+00, -1.5832e-08,  ...,  9.3132e-10,
+          1.8626e-09,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.0245e-08,  ...,  2.5146e-08,
+          1.1176e-08,  2.8871e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+          3.7253e-09,  8.3819e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  3.2596e-08,
+          1.2107e-08,  1.4901e-08]], device='cuda:0')
+Epoch 371, bias, value: tensor([-0.0209,  0.0100,  0.0181,  0.0033,  0.0328, -0.0136, -0.0035, -0.0142,
+        -0.0269,  0.0119], device='cuda:0'), grad: tensor([ 2.4214e-08,  5.9605e-08, -1.2107e-08, -1.2107e-08, -1.8161e-07,
+         8.3819e-09, -3.7253e-09,  8.2888e-08,  2.8871e-08,  2.4214e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 370, time 220.93, cls_loss 0.0008 cls_loss_mapping 0.0013 cls_loss_causal 0.4815 re_mapping 0.0036 re_causal 0.0110 /// teacc 99.02 lr 0.00010000
+Epoch 372, weight, value: tensor([[-0.0019,  0.0110,  0.0554,  ...,  0.0852, -0.2747, -0.1801],
+        [ 0.0578, -0.0185, -0.0464,  ..., -0.3207,  0.0484, -0.1018],
+        [-0.0107, -0.0048,  0.2416,  ..., -0.3371, -0.1508, -0.1792],
+        ...,
+        [-0.0240,  0.0062, -0.2189,  ..., -0.0684,  0.1453,  0.0691],
+        [-0.0315, -0.0202, -0.2085,  ..., -0.3310,  0.1252, -0.2214],
+        [ 0.0148, -0.0258, -0.1055,  ...,  0.0461, -0.1770,  0.0281]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          1.8626e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          3.7253e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00, -5.5879e-09,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+         -6.5193e-09, -3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -3.7253e-09,
+          9.3132e-10, -3.7253e-09]], device='cuda:0')
+Epoch 372, bias, value: tensor([-0.0211,  0.0103,  0.0179,  0.0031,  0.0328, -0.0134, -0.0028, -0.0143,
+        -0.0270,  0.0119], device='cuda:0'), grad: tensor([ 2.2352e-08,  1.2107e-08, -4.6566e-09,  4.6566e-09,  3.7253e-09,
+         4.6566e-09, -2.7008e-08, -1.4901e-08,  1.2107e-08, -4.6566e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 371, time 221.12, cls_loss 0.0008 cls_loss_mapping 0.0009 cls_loss_causal 0.4574 re_mapping 0.0038 re_causal 0.0110 /// teacc 99.09 lr 0.00010000
+Epoch 373, weight, value: tensor([[-0.0019,  0.0110,  0.0554,  ...,  0.0853, -0.2750, -0.1801],
+        [ 0.0579, -0.0185, -0.0464,  ..., -0.3210,  0.0481, -0.1018],
+        [-0.0107, -0.0048,  0.2418,  ..., -0.3371, -0.1509, -0.1796],
+        ...,
+        [-0.0240,  0.0062, -0.2192,  ..., -0.0687,  0.1456,  0.0689],
+        [-0.0316, -0.0202, -0.2087,  ..., -0.3310,  0.1252, -0.2219],
+        [ 0.0148, -0.0258, -0.1059,  ...,  0.0459, -0.1767,  0.0280]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -9.3132e-10,  ..., -9.3132e-10,
+          4.6566e-09,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-09,
+          6.6124e-08,  3.0641e-07],
+        [ 0.0000e+00,  0.0000e+00, -1.3970e-08,  ...,  2.7940e-09,
+          1.8626e-08,  2.0489e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ..., -1.8626e-09,
+         -1.3039e-07,  9.8068e-07],
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-09,  ...,  0.0000e+00,
+          4.2841e-08,  7.4506e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  2.5146e-08,
+          1.3970e-08, -1.3066e-06]], device='cuda:0')
+Epoch 373, bias, value: tensor([-0.0211,  0.0102,  0.0180,  0.0031,  0.0330, -0.0126, -0.0029, -0.0143,
+        -0.0273,  0.0117], device='cuda:0'), grad: tensor([ 2.7008e-08,  5.5972e-07,  5.9605e-08,  8.8476e-08, -2.7940e-08,
+         3.9823e-06, -4.1798e-06,  1.1940e-06,  1.9092e-07, -1.8952e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 372, time 221.05, cls_loss 0.0009 cls_loss_mapping 0.0016 cls_loss_causal 0.4807 re_mapping 0.0036 re_causal 0.0108 /// teacc 99.09 lr 0.00010000
+Epoch 374, weight, value: tensor([[-0.0019,  0.0110,  0.0553,  ...,  0.0853, -0.2747, -0.1803],
+        [ 0.0581, -0.0185, -0.0466,  ..., -0.3213,  0.0475, -0.1017],
+        [-0.0108, -0.0048,  0.2423,  ..., -0.3372, -0.1511, -0.1799],
+        ...,
+        [-0.0240,  0.0062, -0.2195,  ..., -0.0696,  0.1464,  0.0685],
+        [-0.0316, -0.0202, -0.2089,  ..., -0.3311,  0.1253, -0.2220],
+        [ 0.0148, -0.0258, -0.1061,  ...,  0.0458, -0.1779,  0.0278]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-09,  0.0000e+00],
+        [-9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+         -7.6368e-08, -1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00, -1.4063e-07,  ...,  0.0000e+00,
+         -2.4214e-08,  2.7940e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-07,  ...,  0.0000e+00,
+          5.2154e-08, -2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.0489e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  1.8626e-09]], device='cuda:0')
+Epoch 374, bias, value: tensor([-0.0211,  0.0100,  0.0180,  0.0029,  0.0334, -0.0129, -0.0028, -0.0142,
+        -0.0274,  0.0115], device='cuda:0'), grad: tensor([ 1.3039e-08, -1.5181e-07, -3.6880e-07,  9.3132e-10,  6.8918e-08,
+         8.3819e-09, -3.7253e-08,  4.2282e-07,  4.5635e-08,  3.7253e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 373, time 220.78, cls_loss 0.0008 cls_loss_mapping 0.0014 cls_loss_causal 0.4813 re_mapping 0.0036 re_causal 0.0111 /// teacc 99.16 lr 0.00010000
+Epoch 375, weight, value: tensor([[-0.0019,  0.0110,  0.0555,  ...,  0.0854, -0.2754, -0.1804],
+        [ 0.0581, -0.0185, -0.0466,  ..., -0.3215,  0.0479, -0.1014],
+        [-0.0105, -0.0048,  0.2423,  ..., -0.3372, -0.1515, -0.1823],
+        ...,
+        [-0.0240,  0.0062, -0.2194,  ..., -0.0698,  0.1463,  0.0681],
+        [-0.0317, -0.0202, -0.2090,  ..., -0.3312,  0.1244, -0.2227],
+        [ 0.0148, -0.0258, -0.1066,  ...,  0.0457, -0.1782,  0.0279]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.1176e-08,  ..., -9.3132e-10,
+          8.4750e-08,  5.1223e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -3.6154e-06, -2.1495e-06],
+        [ 0.0000e+00,  0.0000e+00, -3.3528e-08,  ...,  0.0000e+00,
+          4.6566e-08,  2.8871e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.0245e-08,  ...,  0.0000e+00,
+          3.5390e-08,  1.4901e-08],
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-09,  ...,  0.0000e+00,
+          3.3453e-06,  1.9912e-06],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  4.6566e-09,
+          8.4750e-08,  5.7742e-08]], device='cuda:0')
+Epoch 375, bias, value: tensor([-0.0212,  0.0102,  0.0177,  0.0028,  0.0335, -0.0131, -0.0022, -0.0141,
+        -0.0280,  0.0116], device='cuda:0'), grad: tensor([ 4.3586e-07, -1.7881e-05,  1.8533e-07,  1.1176e-08,  1.7695e-08,
+        -6.5193e-09,  2.7008e-08,  1.6950e-07,  1.6570e-05,  4.4890e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 374, time 220.78, cls_loss 0.0009 cls_loss_mapping 0.0015 cls_loss_causal 0.4762 re_mapping 0.0037 re_causal 0.0112 /// teacc 99.05 lr 0.00010000
+Epoch 376, weight, value: tensor([[-0.0019,  0.0110,  0.0559,  ...,  0.0862, -0.2759, -0.1804],
+        [ 0.0582, -0.0185, -0.0463,  ..., -0.3218,  0.0495, -0.0999],
+        [-0.0106, -0.0048,  0.2423,  ..., -0.3373, -0.1521, -0.1825],
+        ...,
+        [-0.0240,  0.0062, -0.2199,  ..., -0.0699,  0.1464,  0.0679],
+        [-0.0317, -0.0202, -0.2091,  ..., -0.3312,  0.1214, -0.2252],
+        [ 0.0148, -0.0258, -0.1068,  ...,  0.0450, -0.1787,  0.0276]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          2.7940e-09,  7.4506e-09],
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ...,  0.0000e+00,
+          1.3039e-08,  4.7497e-08],
+        [ 0.0000e+00,  0.0000e+00, -2.0489e-08,  ...,  0.0000e+00,
+          9.3132e-09,  3.7253e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ...,  9.3132e-10,
+         -2.8871e-08, -1.0524e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -6.5193e-09,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.2107e-08,
+          1.8626e-09, -3.0734e-08]], device='cuda:0')
+Epoch 376, bias, value: tensor([-0.0198,  0.0128,  0.0171,  0.0026,  0.0331, -0.0134, -0.0027, -0.0143,
+        -0.0310,  0.0106], device='cuda:0'), grad: tensor([ 2.5146e-08,  1.3132e-07,  6.5193e-08,  2.1420e-08,  3.5390e-08,
+         3.1665e-08, -2.7940e-09, -2.5518e-07, -1.1176e-08, -3.8184e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 375, time 220.70, cls_loss 0.0010 cls_loss_mapping 0.0012 cls_loss_causal 0.4568 re_mapping 0.0041 re_causal 0.0112 /// teacc 99.05 lr 0.00010000
+Epoch 377, weight, value: tensor([[-0.0019,  0.0110,  0.0559,  ...,  0.0862, -0.2762, -0.1805],
+        [ 0.0582, -0.0185, -0.0466,  ..., -0.3220,  0.0491, -0.1003],
+        [-0.0106, -0.0048,  0.2429,  ..., -0.3373, -0.1522, -0.1830],
+        ...,
+        [-0.0240,  0.0062, -0.2206,  ..., -0.0692,  0.1467,  0.0694],
+        [-0.0317, -0.0202, -0.2091,  ..., -0.3312,  0.1218, -0.2261],
+        [ 0.0148, -0.0258, -0.1073,  ...,  0.0456, -0.1793,  0.0288]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.5146e-08,  ...,  2.7940e-09,
+          0.0000e+00,  8.3819e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.1910e-08,  ...,  7.4506e-09,
+         -2.7008e-08, -2.3376e-07],
+        [ 0.0000e+00,  0.0000e+00, -9.0804e-07,  ...,  2.7940e-09,
+          9.3132e-10,  1.2107e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  8.5589e-07,  ...,  7.4506e-09,
+          5.5879e-09,  7.1712e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ...,  4.6566e-09,
+          2.7940e-09,  3.9116e-08],
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ...,  2.9523e-07,
+          1.1176e-08,  6.4727e-07]], device='cuda:0')
+Epoch 377, bias, value: tensor([-0.0199,  0.0124,  0.0174,  0.0043,  0.0316, -0.0152, -0.0015, -0.0143,
+        -0.0306,  0.0113], device='cuda:0'), grad: tensor([ 1.3504e-07, -4.3586e-07, -1.3215e-06,  9.9242e-06, -5.7649e-07,
+        -1.0185e-05,  2.2352e-08,  1.4380e-06,  1.0245e-07,  9.1642e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 376, time 220.73, cls_loss 0.0009 cls_loss_mapping 0.0015 cls_loss_causal 0.4361 re_mapping 0.0039 re_causal 0.0108 /// teacc 99.10 lr 0.00010000
+Epoch 378, weight, value: tensor([[-0.0019,  0.0110,  0.0560,  ...,  0.0862, -0.2767, -0.1807],
+        [ 0.0582, -0.0185, -0.0465,  ..., -0.3226,  0.0490, -0.1007],
+        [-0.0106, -0.0048,  0.2432,  ..., -0.3376, -0.1524, -0.1845],
+        ...,
+        [-0.0240,  0.0062, -0.2212,  ..., -0.0691,  0.1472,  0.0715],
+        [-0.0317, -0.0202, -0.2092,  ..., -0.3313,  0.1220, -0.2268],
+        [ 0.0148, -0.0258, -0.1073,  ...,  0.0459, -0.1820,  0.0289]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  8.8476e-09,  ...,  1.3970e-09,
+          4.6566e-10,  7.4506e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  2.3283e-09,
+          4.6566e-09,  1.9092e-08],
+        [ 0.0000e+00,  0.0000e+00, -1.2573e-08,  ...,  9.3132e-10,
+          9.3132e-10,  6.5193e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.3504e-08,  ...,  2.3283e-08,
+         -7.9162e-09,  1.5832e-07],
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-09,  ...,  9.3132e-10,
+         -1.3970e-09,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ..., -3.5809e-07,
+          9.3132e-10, -1.5758e-06]], device='cuda:0')
+Epoch 378, bias, value: tensor([-0.0200,  0.0122,  0.0173,  0.0037,  0.0308, -0.0145, -0.0015, -0.0135,
+        -0.0305,  0.0111], device='cuda:0'), grad: tensor([ 3.6322e-08,  3.8650e-08, -3.2596e-09,  3.7719e-08,  1.6829e-06,
+        -1.9046e-07,  1.3970e-09,  1.6624e-07,  1.7695e-08, -1.7677e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 377, time 221.16, cls_loss 0.0010 cls_loss_mapping 0.0017 cls_loss_causal 0.4843 re_mapping 0.0040 re_causal 0.0116 /// teacc 99.10 lr 0.00010000
+Epoch 379, weight, value: tensor([[-0.0019,  0.0110,  0.0567,  ...,  0.0865, -0.2775, -0.1800],
+        [ 0.0582, -0.0185, -0.0472,  ..., -0.3229,  0.0491, -0.1005],
+        [-0.0106, -0.0048,  0.2441,  ..., -0.3377, -0.1525, -0.1844],
+        ...,
+        [-0.0240,  0.0062, -0.2226,  ..., -0.0692,  0.1473,  0.0714],
+        [-0.0317, -0.0202, -0.2095,  ..., -0.3314,  0.1221, -0.2268],
+        [ 0.0148, -0.0258, -0.1099,  ...,  0.0458, -0.1830,  0.0287]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -9.3132e-10,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  1.8626e-09,
+          4.6566e-10,  1.8161e-08],
+        [ 0.0000e+00,  0.0000e+00, -2.2352e-08,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  7.0781e-08,  ...,  1.3970e-09,
+          0.0000e+00,  1.7229e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  4.6566e-10,
+         -1.3970e-09,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ..., -3.2596e-09,
+          9.3132e-10, -3.6322e-08]], device='cuda:0')
+Epoch 379, bias, value: tensor([-0.0197,  0.0121,  0.0176,  0.0051,  0.0308, -0.0158, -0.0007, -0.0138,
+        -0.0304,  0.0107], device='cuda:0'), grad: tensor([ 1.8161e-08,  1.0012e-07,  2.3283e-09, -1.0906e-06,  1.3970e-08,
+         5.8673e-08, -1.0245e-08,  7.6974e-07,  6.5193e-09,  1.4063e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 378, time 220.90, cls_loss 0.0009 cls_loss_mapping 0.0011 cls_loss_causal 0.4560 re_mapping 0.0040 re_causal 0.0112 /// teacc 99.03 lr 0.00010000
+Epoch 380, weight, value: tensor([[-0.0019,  0.0110,  0.0593,  ...,  0.0886, -0.2780, -0.1776],
+        [ 0.0582, -0.0185, -0.0475,  ..., -0.3235,  0.0489, -0.1013],
+        [-0.0106, -0.0048,  0.2450,  ..., -0.3381, -0.1526, -0.1843],
+        ...,
+        [-0.0240,  0.0062, -0.2240,  ..., -0.0693,  0.1477,  0.0721],
+        [-0.0317, -0.0202, -0.2096,  ..., -0.3315,  0.1220, -0.2271],
+        [ 0.0148, -0.0258, -0.1134,  ...,  0.0439, -0.1849,  0.0274]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          9.3132e-10,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ...,  9.3132e-10,
+          1.3970e-09,  1.3504e-08],
+        [ 0.0000e+00,  0.0000e+00, -3.1199e-08,  ...,  0.0000e+00,
+          2.3283e-09,  2.3283e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.9092e-08,  ...,  1.3970e-09,
+         -4.1910e-09, -4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  9.3132e-10,
+         -1.3039e-08,  8.8476e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -5.1223e-09,
+          9.3132e-10, -4.4238e-08]], device='cuda:0')
+Epoch 380, bias, value: tensor([-0.0175,  0.0116,  0.0178,  0.0058,  0.0314, -0.0164, -0.0006, -0.0135,
+        -0.0305,  0.0086], device='cuda:0'), grad: tensor([ 7.4506e-09,  2.5611e-08, -4.0513e-08,  4.9360e-08,  2.3283e-08,
+         2.1420e-08,  6.9849e-09,  4.0513e-08, -5.9605e-08, -6.4261e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 379, time 220.95, cls_loss 0.0009 cls_loss_mapping 0.0014 cls_loss_causal 0.4482 re_mapping 0.0037 re_causal 0.0108 /// teacc 99.03 lr 0.00010000
+Epoch 381, weight, value: tensor([[-0.0019,  0.0110,  0.0593,  ...,  0.0886, -0.2790, -0.1777],
+        [ 0.0582, -0.0185, -0.0476,  ..., -0.3239,  0.0491, -0.1024],
+        [-0.0106, -0.0048,  0.2462,  ..., -0.3381, -0.1528, -0.1815],
+        ...,
+        [-0.0240,  0.0062, -0.2261,  ..., -0.0695,  0.1478,  0.0722],
+        [-0.0317, -0.0202, -0.2098,  ..., -0.3314,  0.1217, -0.2287],
+        [ 0.0148, -0.0258, -0.1135,  ...,  0.0435, -0.1854,  0.0275]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+          0.0000e+00,  3.2596e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+          1.8626e-09,  5.1223e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          4.1910e-09,  6.9849e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  1.3970e-08,
+         -5.5879e-09,  2.0955e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -2.2352e-08,
+          0.0000e+00, -4.5169e-08]], device='cuda:0')
+Epoch 381, bias, value: tensor([-0.0178,  0.0114,  0.0181,  0.0064,  0.0316, -0.0167, -0.0001, -0.0138,
+        -0.0308,  0.0089], device='cuda:0'), grad: tensor([ 8.3819e-09,  1.5832e-08,  3.3528e-08, -5.0850e-07,  2.1420e-08,
+         4.6613e-07,  1.3970e-08,  4.0047e-08,  3.3993e-08, -1.1828e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 380, time 220.71, cls_loss 0.0006 cls_loss_mapping 0.0015 cls_loss_causal 0.4521 re_mapping 0.0039 re_causal 0.0116 /// teacc 99.02 lr 0.00010000
+Epoch 382, weight, value: tensor([[-0.0019,  0.0110,  0.0594,  ...,  0.0886, -0.2792, -0.1778],
+        [ 0.0582, -0.0185, -0.0476,  ..., -0.3241,  0.0485, -0.1031],
+        [-0.0106, -0.0048,  0.2462,  ..., -0.3382, -0.1529, -0.1816],
+        ...,
+        [-0.0240,  0.0062, -0.2264,  ..., -0.0697,  0.1484,  0.0727],
+        [-0.0317, -0.0202, -0.2098,  ..., -0.3315,  0.1221, -0.2287],
+        [ 0.0148, -0.0258, -0.1135,  ...,  0.0428, -0.1855,  0.0264]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -9.3738e-07,  ..., -3.4692e-07,
+          0.0000e+00, -1.1176e-08],
+        [ 0.0000e+00,  0.0000e+00,  7.0781e-08,  ...,  6.9849e-09,
+          1.3970e-09,  6.0536e-09],
+        [ 0.0000e+00,  0.0000e+00, -5.5358e-06,  ...,  9.3132e-10,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-08,  ...,  7.9162e-09,
+         -1.8626e-09,  9.3132e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.6298e-08,  ...,  1.3970e-09,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.2107e-08,  ...,  7.9162e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 382, bias, value: tensor([-0.0177,  0.0111,  0.0180,  0.0064,  0.0326, -0.0166, -0.0004, -0.0137,
+        -0.0305,  0.0082], device='cuda:0'), grad: tensor([-6.2920e-06,  1.7090e-07, -7.6070e-06,  7.4618e-06, -2.1886e-08,
+         6.3330e-08,  5.9605e-06,  1.5367e-07,  4.2375e-08,  7.0315e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 381, time 220.81, cls_loss 0.0007 cls_loss_mapping 0.0010 cls_loss_causal 0.4857 re_mapping 0.0037 re_causal 0.0114 /// teacc 99.08 lr 0.00010000
+Epoch 383, weight, value: tensor([[-0.0019,  0.0110,  0.0596,  ...,  0.0887, -0.2794, -0.1778],
+        [ 0.0582, -0.0185, -0.0477,  ..., -0.3259,  0.0485, -0.1035],
+        [-0.0106, -0.0048,  0.2467,  ..., -0.3384, -0.1530, -0.1819],
+        ...,
+        [-0.0240,  0.0062, -0.2267,  ..., -0.0699,  0.1484,  0.0726],
+        [-0.0317, -0.0202, -0.2100,  ..., -0.3316,  0.1222, -0.2289],
+        [ 0.0148, -0.0258, -0.1136,  ...,  0.0429, -0.1858,  0.0267]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  6.9849e-09,  ..., -2.7940e-09,
+          3.2596e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  6.0536e-09,  ...,  4.6566e-10,
+          7.5437e-08,  1.6997e-07],
+        [ 0.0000e+00,  0.0000e+00, -7.8231e-08,  ..., -1.3039e-08,
+          6.0536e-09,  1.2107e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  8.7079e-08,  ...,  1.3039e-08,
+         -3.7998e-07, -8.4704e-07],
+        [ 0.0000e+00,  0.0000e+00,  4.9826e-08,  ...,  0.0000e+00,
+          6.5193e-09,  1.1642e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-09,  ...,  1.3970e-09,
+          2.8871e-07,  6.4494e-07]], device='cuda:0')
+Epoch 383, bias, value: tensor([-0.0175,  0.0110,  0.0181,  0.0059,  0.0326, -0.0163, -0.0003, -0.0138,
+        -0.0306,  0.0083], device='cuda:0'), grad: tensor([ 3.5390e-08,  3.1060e-07, -1.9884e-07, -2.0443e-07,  3.4925e-08,
+         9.1735e-08, -9.5461e-08, -1.2312e-06,  1.4016e-07,  1.1250e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 382, time 220.49, cls_loss 0.0008 cls_loss_mapping 0.0016 cls_loss_causal 0.4744 re_mapping 0.0037 re_causal 0.0113 /// teacc 99.07 lr 0.00010000
+Epoch 384, weight, value: tensor([[-0.0019,  0.0110,  0.0596,  ...,  0.0887, -0.2798, -0.1780],
+        [ 0.0582, -0.0185, -0.0476,  ..., -0.3265,  0.0480, -0.1040],
+        [-0.0106, -0.0048,  0.2467,  ..., -0.3385, -0.1533, -0.1833],
+        ...,
+        [-0.0240,  0.0062, -0.2267,  ..., -0.0701,  0.1489,  0.0720],
+        [-0.0317, -0.0202, -0.2100,  ..., -0.3316,  0.1222, -0.2292],
+        [ 0.0148, -0.0258, -0.1137,  ...,  0.0397, -0.1861,  0.0235]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.3283e-09,  ..., -1.8626e-08,
+          3.2596e-09,  7.9162e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  6.9849e-09,
+          2.8545e-07,  6.1933e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  4.6566e-10,
+          1.4435e-08,  3.7719e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-10,
+         -4.1910e-08, -2.1979e-07],
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  0.0000e+00,
+         -3.1525e-07,  3.2596e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          1.6764e-08,  8.8476e-08]], device='cuda:0')
+Epoch 384, bias, value: tensor([-0.0177,  0.0111,  0.0177,  0.0061,  0.0359, -0.0166,  0.0004, -0.0140,
+        -0.0307,  0.0052], device='cuda:0'), grad: tensor([ 8.8476e-09,  9.8348e-07,  1.2433e-07,  1.0151e-07, -9.3132e-10,
+        -2.1281e-07,  1.8347e-07, -5.5647e-07, -8.7870e-07,  2.5332e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 383, time 220.48, cls_loss 0.0010 cls_loss_mapping 0.0014 cls_loss_causal 0.4757 re_mapping 0.0039 re_causal 0.0112 /// teacc 99.00 lr 0.00010000
+Epoch 385, weight, value: tensor([[-0.0019,  0.0110,  0.0596,  ...,  0.0886, -0.2802, -0.1783],
+        [ 0.0582, -0.0185, -0.0477,  ..., -0.3268,  0.0476, -0.1047],
+        [-0.0106, -0.0048,  0.2478,  ..., -0.3386, -0.1536, -0.1823],
+        ...,
+        [-0.0240,  0.0062, -0.2283,  ..., -0.0702,  0.1496,  0.0712],
+        [-0.0317, -0.0202, -0.2102,  ..., -0.3317,  0.1220, -0.2295],
+        [ 0.0148, -0.0258, -0.1137,  ...,  0.0397, -0.1860,  0.0237]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  8.9873e-08,  ..., -2.4214e-08,
+          2.3283e-09, -6.9849e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  1.3970e-09,
+         -2.9337e-08,  7.9162e-09],
+        [ 0.0000e+00,  0.0000e+00, -2.3097e-07,  ...,  1.8626e-09,
+          3.2596e-09, -2.1420e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.1176e-08,  ...,  2.7940e-09,
+          1.7229e-08, -4.1910e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.2596e-09,  ...,  4.6566e-10,
+          3.2596e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.5832e-08,  ...,  9.7789e-09,
+          1.8626e-09, -3.2596e-09]], device='cuda:0')
+Epoch 385, bias, value: tensor([-0.0182,  0.0104,  0.0179,  0.0062,  0.0364, -0.0170, -0.0017, -0.0139,
+        -0.0309,  0.0054], device='cuda:0'), grad: tensor([ 2.1253e-06, -8.1956e-08, -3.7067e-07,  2.6897e-06,  4.6846e-07,
+        -2.1104e-06, -2.9467e-06,  1.2061e-07,  4.1910e-08,  4.7497e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 384, time 220.69, cls_loss 0.0009 cls_loss_mapping 0.0021 cls_loss_causal 0.4820 re_mapping 0.0038 re_causal 0.0110 /// teacc 99.08 lr 0.00010000
+Epoch 386, weight, value: tensor([[-0.0019,  0.0110,  0.0599,  ...,  0.0887, -0.2807, -0.1785],
+        [ 0.0582, -0.0185, -0.0478,  ..., -0.3274,  0.0474, -0.1050],
+        [-0.0106, -0.0048,  0.2484,  ..., -0.3389, -0.1537, -0.1820],
+        ...,
+        [-0.0240,  0.0062, -0.2292,  ..., -0.0721,  0.1499,  0.0709],
+        [-0.0318, -0.0202, -0.2101,  ..., -0.3317,  0.1223, -0.2298],
+        [ 0.0148, -0.0258, -0.1141,  ...,  0.0397, -0.1861,  0.0237]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          4.6566e-10,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-09,  ...,  0.0000e+00,
+          0.0000e+00,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00, -2.0489e-08,  ...,  0.0000e+00,
+          9.3132e-10,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ...,  5.1223e-09,
+         -9.3132e-10,  6.0536e-09],
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+          9.3132e-10,  8.8476e-09]], device='cuda:0')
+Epoch 386, bias, value: tensor([-0.0184,  0.0102,  0.0181,  0.0059,  0.0364, -0.0144, -0.0016, -0.0146,
+        -0.0306,  0.0054], device='cuda:0'), grad: tensor([ 3.2596e-09,  2.7940e-09, -3.0268e-08,  6.9849e-09, -1.5832e-08,
+         9.3132e-10, -9.3132e-10,  1.9092e-08,  1.2107e-08,  1.1642e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 385, time 220.74, cls_loss 0.0008 cls_loss_mapping 0.0014 cls_loss_causal 0.4762 re_mapping 0.0038 re_causal 0.0114 /// teacc 98.97 lr 0.00010000
+Epoch 387, weight, value: tensor([[-0.0019,  0.0110,  0.0597,  ...,  0.0888, -0.2812, -0.1786],
+        [ 0.0582, -0.0185, -0.0478,  ..., -0.3276,  0.0473, -0.1052],
+        [-0.0106, -0.0048,  0.2487,  ..., -0.3390, -0.1538, -0.1822],
+        ...,
+        [-0.0240,  0.0062, -0.2294,  ..., -0.0724,  0.1502,  0.0711],
+        [-0.0318, -0.0202, -0.2101,  ..., -0.3317,  0.1224, -0.2300],
+        [ 0.0148, -0.0258, -0.1142,  ...,  0.0397, -0.1863,  0.0238]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  3.8790e-07,  ..., -4.6566e-09,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-09,  ...,  0.0000e+00,
+          4.6566e-10,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00, -1.0123e-06,  ...,  1.3970e-09,
+          0.0000e+00,  1.3970e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  8.2888e-08,  ...,  9.3132e-10,
+          4.6566e-10,  4.1910e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.2817e-08,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ...,  4.6566e-10,
+          0.0000e+00, -9.3132e-09]], device='cuda:0')
+Epoch 387, bias, value: tensor([-0.0187,  0.0101,  0.0182,  0.0058,  0.0363, -0.0141, -0.0015, -0.0146,
+        -0.0305,  0.0055], device='cuda:0'), grad: tensor([ 5.6019e-07,  1.6764e-08, -1.4808e-06,  7.1106e-07,  2.1886e-08,
+         2.3283e-09,  9.7789e-09,  1.4575e-07,  3.4459e-08, -2.7940e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 386, time 220.59, cls_loss 0.0009 cls_loss_mapping 0.0012 cls_loss_causal 0.4842 re_mapping 0.0038 re_causal 0.0110 /// teacc 99.08 lr 0.00010000
+Epoch 388, weight, value: tensor([[-0.0019,  0.0110,  0.0599,  ...,  0.0889, -0.2815, -0.1787],
+        [ 0.0582, -0.0185, -0.0479,  ..., -0.3277,  0.0471, -0.1055],
+        [-0.0106, -0.0048,  0.2488,  ..., -0.3392, -0.1540, -0.1824],
+        ...,
+        [-0.0240,  0.0062, -0.2295,  ..., -0.0725,  0.1509,  0.0710],
+        [-0.0318, -0.0202, -0.2102,  ..., -0.3318,  0.1220, -0.2309],
+        [ 0.0148, -0.0258, -0.1145,  ...,  0.0397, -0.1873,  0.0238]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -6.9849e-09,  ...,  4.6566e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+         -1.3970e-09,  4.1910e-09],
+        [ 0.0000e+00,  0.0000e+00, -4.6566e-09,  ...,  0.0000e+00,
+          9.3132e-10,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-09,
+         -5.1223e-09,  4.1910e-09],
+        [ 0.0000e+00,  0.0000e+00,  6.0536e-09,  ...,  4.6566e-10,
+          4.6566e-10,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          1.8626e-09,  5.5879e-09]], device='cuda:0')
+Epoch 388, bias, value: tensor([-0.0186,  0.0098,  0.0181,  0.0055,  0.0363, -0.0139, -0.0017, -0.0143,
+        -0.0307,  0.0055], device='cuda:0'), grad: tensor([-1.3039e-08,  3.7253e-09, -5.5879e-09,  1.1176e-08, -5.3551e-08,
+         1.8626e-09,  1.5367e-08,  9.3132e-10,  1.9092e-08,  2.1420e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 387, time 220.68, cls_loss 0.0008 cls_loss_mapping 0.0011 cls_loss_causal 0.4729 re_mapping 0.0039 re_causal 0.0115 /// teacc 99.05 lr 0.00010000
+Epoch 389, weight, value: tensor([[-0.0019,  0.0110,  0.0599,  ...,  0.0889, -0.2818, -0.1787],
+        [ 0.0582, -0.0185, -0.0474,  ..., -0.3281,  0.0476, -0.1054],
+        [-0.0106, -0.0048,  0.2491,  ..., -0.3392, -0.1542, -0.1825],
+        ...,
+        [-0.0240,  0.0062, -0.2300,  ..., -0.0727,  0.1507,  0.0707],
+        [-0.0318, -0.0202, -0.2107,  ..., -0.3319,  0.1220, -0.2315],
+        [ 0.0148, -0.0258, -0.1148,  ...,  0.0397, -0.1885,  0.0239]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          3.3062e-08,  7.4506e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+         -3.3993e-08,  4.9826e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          9.3132e-10,  4.1910e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  1.6298e-08,
+         -6.0536e-09,  8.9873e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          9.3132e-10,  6.5193e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -6.1933e-08,
+          4.6566e-09, -4.1677e-07]], device='cuda:0')
+Epoch 389, bias, value: tensor([-0.0187,  0.0102,  0.0181,  0.0056,  0.0363, -0.0139, -0.0018, -0.0144,
+        -0.0309,  0.0056], device='cuda:0'), grad: tensor([ 1.6484e-07, -6.1002e-08,  1.8161e-08,  7.4506e-09,  4.3726e-07,
+         3.1665e-08, -1.3970e-08,  1.7183e-07,  1.8626e-08, -7.6275e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 388, time 220.44, cls_loss 0.0008 cls_loss_mapping 0.0019 cls_loss_causal 0.4508 re_mapping 0.0037 re_causal 0.0107 /// teacc 99.11 lr 0.00010000
+Epoch 390, weight, value: tensor([[-0.0019,  0.0110,  0.0600,  ...,  0.0890, -0.2821, -0.1789],
+        [ 0.0582, -0.0185, -0.0487,  ..., -0.3283,  0.0473, -0.1058],
+        [-0.0106, -0.0048,  0.2508,  ..., -0.3395, -0.1542, -0.1828],
+        ...,
+        [-0.0240,  0.0062, -0.2312,  ..., -0.0728,  0.1495,  0.0704],
+        [-0.0318, -0.0202, -0.2110,  ..., -0.3321,  0.1248, -0.2285],
+        [ 0.0148, -0.0258, -0.1149,  ...,  0.0397, -0.1898,  0.0239]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+         -9.3132e-10,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00, -3.3528e-08,  ...,  0.0000e+00,
+         -7.4506e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.1176e-08,  ...,  0.0000e+00,
+          3.7253e-09,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.0489e-08,  ...,  0.0000e+00,
+          5.5879e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ..., -9.3132e-10,
+          0.0000e+00, -9.3132e-09]], device='cuda:0')
+Epoch 390, bias, value: tensor([-0.0187,  0.0096,  0.0188,  0.0059,  0.0362, -0.0142, -0.0016, -0.0152,
+        -0.0293,  0.0056], device='cuda:0'), grad: tensor([ 1.0245e-08,  4.6566e-09, -6.8918e-08, -6.7987e-08,  7.4506e-09,
+        -1.1176e-08,  9.3132e-09,  5.6811e-08,  7.1712e-08, -3.7253e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 389, time 220.59, cls_loss 0.0006 cls_loss_mapping 0.0009 cls_loss_causal 0.4526 re_mapping 0.0037 re_causal 0.0110 /// teacc 99.12 lr 0.00010000
+Epoch 391, weight, value: tensor([[-0.0019,  0.0110,  0.0600,  ...,  0.0891, -0.2826, -0.1789],
+        [ 0.0582, -0.0185, -0.0487,  ..., -0.3284,  0.0475, -0.1057],
+        [-0.0106, -0.0048,  0.2511,  ..., -0.3395, -0.1547, -0.1831],
+        ...,
+        [-0.0240,  0.0062, -0.2318,  ..., -0.0730,  0.1496,  0.0703],
+        [-0.0318, -0.0202, -0.2113,  ..., -0.3322,  0.1250, -0.2287],
+        [ 0.0148, -0.0258, -0.1151,  ...,  0.0397, -0.1902,  0.0239]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -2.0023e-07,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.6578e-07,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 391, bias, value: tensor([-0.0187,  0.0099,  0.0187,  0.0068,  0.0363, -0.0142, -0.0019, -0.0155,
+        -0.0292,  0.0056], device='cuda:0'), grad: tensor([ 3.7253e-09,  1.5832e-08, -3.0175e-07, -4.6566e-09,  1.8626e-09,
+         9.3132e-09,  2.5146e-08,  1.1176e-08,  2.4773e-07,  3.7253e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 390, time 220.38, cls_loss 0.0009 cls_loss_mapping 0.0010 cls_loss_causal 0.4775 re_mapping 0.0034 re_causal 0.0106 /// teacc 99.09 lr 0.00010000
+Epoch 392, weight, value: tensor([[-0.0019,  0.0110,  0.0598,  ...,  0.0892, -0.2833, -0.1790],
+        [ 0.0582, -0.0185, -0.0489,  ..., -0.3287,  0.0477, -0.1060],
+        [-0.0106, -0.0048,  0.2518,  ..., -0.3396, -0.1549, -0.1837],
+        ...,
+        [-0.0240,  0.0062, -0.2320,  ..., -0.0731,  0.1498,  0.0711],
+        [-0.0318, -0.0202, -0.2119,  ..., -0.3323,  0.1266, -0.2292],
+        [ 0.0148, -0.0258, -0.1154,  ...,  0.0397, -0.1911,  0.0239]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.8871e-08,  ..., -2.7940e-09,
+          0.0000e+00,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+         -1.8626e-07,  8.3819e-09],
+        [ 0.0000e+00,  0.0000e+00, -7.0781e-08,  ...,  0.0000e+00,
+          2.7940e-09,  1.3039e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.9802e-08,  ...,  0.0000e+00,
+          1.8068e-07, -2.5146e-08],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  0.0000e+00,
+         -9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  1.8626e-09,
+          0.0000e+00, -6.5193e-09]], device='cuda:0')
+Epoch 392, bias, value: tensor([-0.0189,  0.0099,  0.0188,  0.0056,  0.0363, -0.0160, -0.0020, -0.0151,
+        -0.0279,  0.0056], device='cuda:0'), grad: tensor([-1.2666e-07, -5.4296e-07, -3.2596e-08,  2.2352e-08,  1.0245e-08,
+        -2.5053e-07,  3.7625e-07,  5.0943e-07,  4.4703e-08,  0.0000e+00],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 391, time 220.66, cls_loss 0.0008 cls_loss_mapping 0.0011 cls_loss_causal 0.4622 re_mapping 0.0038 re_causal 0.0112 /// teacc 99.01 lr 0.00010000
+Epoch 393, weight, value: tensor([[-0.0019,  0.0110,  0.0598,  ...,  0.0893, -0.2843, -0.1791],
+        [ 0.0583, -0.0185, -0.0489,  ..., -0.3289,  0.0478, -0.1058],
+        [-0.0106, -0.0048,  0.2527,  ..., -0.3396, -0.1551, -0.1848],
+        ...,
+        [-0.0240,  0.0062, -0.2330,  ..., -0.0735,  0.1503,  0.0715],
+        [-0.0318, -0.0202, -0.2122,  ..., -0.3323,  0.1272, -0.2294],
+        [ 0.0148, -0.0258, -0.1155,  ...,  0.0397, -0.1924,  0.0239]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -6.5193e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          4.6566e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ..., -9.3132e-10,
+          0.0000e+00, -1.8626e-09]], device='cuda:0')
+Epoch 393, bias, value: tensor([-0.0189,  0.0100,  0.0191,  0.0057,  0.0363, -0.0170, -0.0032, -0.0147,
+        -0.0271,  0.0055], device='cuda:0'), grad: tensor([ 4.0047e-08, -1.8626e-08,  1.8626e-09, -1.8626e-09,  3.9116e-07,
+        -2.7940e-09, -4.3586e-07,  1.9558e-08,  1.3039e-08, -1.8626e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 392, time 220.92, cls_loss 0.0006 cls_loss_mapping 0.0011 cls_loss_causal 0.4617 re_mapping 0.0036 re_causal 0.0108 /// teacc 98.97 lr 0.00010000
+Epoch 394, weight, value: tensor([[-0.0019,  0.0110,  0.0598,  ...,  0.0893, -0.2847, -0.1792],
+        [ 0.0584, -0.0185, -0.0490,  ..., -0.3290,  0.0479, -0.1058],
+        [-0.0106, -0.0048,  0.2547,  ..., -0.3397, -0.1552, -0.1849],
+        ...,
+        [-0.0240,  0.0062, -0.2337,  ..., -0.0736,  0.1504,  0.0715],
+        [-0.0319, -0.0202, -0.2124,  ..., -0.3323,  0.1272, -0.2296],
+        [ 0.0148, -0.0258, -0.1156,  ...,  0.0397, -0.1926,  0.0239]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+         -9.3132e-10,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          1.8626e-09,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+         -2.7940e-09, -7.4506e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  1.8626e-09]], device='cuda:0')
+Epoch 394, bias, value: tensor([-0.0190,  0.0101,  0.0198,  0.0043,  0.0362, -0.0167, -0.0032, -0.0148,
+        -0.0271,  0.0055], device='cuda:0'), grad: tensor([ 2.7940e-09,  4.6566e-09,  9.3132e-09, -1.8626e-08, -3.7253e-09,
+         1.8626e-09,  9.3132e-10, -9.3132e-09,  4.6566e-09,  6.5193e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 393, time 220.41, cls_loss 0.0013 cls_loss_mapping 0.0017 cls_loss_causal 0.4545 re_mapping 0.0039 re_causal 0.0102 /// teacc 98.99 lr 0.00010000
+Epoch 395, weight, value: tensor([[-0.0019,  0.0110,  0.0600,  ...,  0.0893, -0.2887, -0.1794],
+        [ 0.0585, -0.0185, -0.0489,  ..., -0.3294,  0.0517, -0.1055],
+        [-0.0106, -0.0048,  0.2559,  ..., -0.3398, -0.1580, -0.1841],
+        ...,
+        [-0.0240,  0.0062, -0.2353,  ..., -0.0735,  0.1465,  0.0712],
+        [-0.0320, -0.0202, -0.2125,  ..., -0.3324,  0.1265, -0.2299],
+        [ 0.0147, -0.0258, -0.1166,  ...,  0.0397, -0.1944,  0.0239]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.8871e-08,  ...,  1.8626e-09,
+          2.7940e-09,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.4901e-08,  ...,  1.8626e-08,
+          2.7940e-09,  3.3528e-08],
+        [ 0.0000e+00,  0.0000e+00, -1.5926e-07,  ...,  0.0000e+00,
+          2.7940e-09,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  6.4261e-08,  ...,  1.2107e-08,
+         -2.2352e-08,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.7008e-08,  ...,  0.0000e+00,
+          1.8626e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-09,  ...,  1.7323e-07,
+          9.3132e-10,  2.7288e-07]], device='cuda:0')
+Epoch 395, bias, value: tensor([-0.0198,  0.0140,  0.0188,  0.0041,  0.0362, -0.0165, -0.0033, -0.0188,
+        -0.0273,  0.0055], device='cuda:0'), grad: tensor([ 1.6391e-07,  7.0781e-08, -2.4401e-07, -1.3318e-07, -4.5169e-07,
+         7.4506e-08, -6.3330e-08,  7.9162e-08,  8.8476e-08,  4.1258e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 394, time 220.76, cls_loss 0.0012 cls_loss_mapping 0.0017 cls_loss_causal 0.4653 re_mapping 0.0035 re_causal 0.0102 /// teacc 99.05 lr 0.00010000
+Epoch 396, weight, value: tensor([[-0.0021,  0.0110,  0.0599,  ...,  0.0895, -0.2890, -0.1796],
+        [ 0.0586, -0.0185, -0.0495,  ..., -0.3318,  0.0524, -0.1052],
+        [-0.0107, -0.0048,  0.2593,  ..., -0.3401, -0.1581, -0.1838],
+        ...,
+        [-0.0240,  0.0062, -0.2384,  ..., -0.0737,  0.1459,  0.0706],
+        [-0.0325, -0.0202, -0.2128,  ..., -0.3327,  0.1272, -0.2311],
+        [ 0.0147, -0.0258, -0.1170,  ...,  0.0397, -0.1948,  0.0240]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -5.7742e-08,  ..., -9.0338e-08,
+          0.0000e+00, -6.1467e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.0245e-08,  ...,  4.9360e-08,
+          9.3132e-10,  1.5367e-07],
+        [ 0.0000e+00,  0.0000e+00, -2.1420e-08,  ...,  2.6077e-08,
+          0.0000e+00,  5.4017e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.3039e-08,  ...,  9.3132e-09,
+         -3.7253e-09,  2.0489e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  6.5193e-09,
+          0.0000e+00,  1.7695e-08],
+        [ 0.0000e+00,  0.0000e+00,  4.5635e-08,  ...,  6.1002e-07,
+          1.8626e-09,  1.8021e-06]], device='cuda:0')
+Epoch 396, bias, value: tensor([-0.0197,  0.0149,  0.0203,  0.0037,  0.0364, -0.0183, -0.0052, -0.0198,
+        -0.0264,  0.0057], device='cuda:0'), grad: tensor([-5.1688e-07,  3.7067e-07,  9.4995e-08,  4.3772e-08, -4.6678e-06,
+         4.0047e-08,  2.4401e-07,  5.9605e-08,  4.0047e-08,  4.2841e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 395, time 220.38, cls_loss 0.0009 cls_loss_mapping 0.0013 cls_loss_causal 0.4590 re_mapping 0.0036 re_causal 0.0102 /// teacc 99.02 lr 0.00010000
+Epoch 397, weight, value: tensor([[-0.0021,  0.0110,  0.0603,  ...,  0.0896, -0.2892, -0.1798],
+        [ 0.0586, -0.0185, -0.0497,  ..., -0.3321,  0.0524, -0.1054],
+        [-0.0108, -0.0048,  0.2597,  ..., -0.3403, -0.1584, -0.1838],
+        ...,
+        [-0.0240,  0.0062, -0.2387,  ..., -0.0738,  0.1459,  0.0708],
+        [-0.0326, -0.0202, -0.2128,  ..., -0.3328,  0.1273, -0.2314],
+        [ 0.0147, -0.0258, -0.1171,  ...,  0.0397, -0.1953,  0.0240]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.3690e-07,  ...,  0.0000e+00,
+          1.0617e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.8184e-08,  ...,  0.0000e+00,
+          4.6566e-09,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00, -1.1269e-07,  ...,  0.0000e+00,
+          8.3819e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -3.4273e-07,  ...,  9.3132e-10,
+         -3.0920e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ...,  0.0000e+00,
+          1.8626e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  8.3819e-09,  ..., -3.7253e-09,
+          6.5193e-09, -2.4214e-08]], device='cuda:0')
+Epoch 397, bias, value: tensor([-0.0201,  0.0149,  0.0203,  0.0032,  0.0364, -0.0178, -0.0049, -0.0198,
+        -0.0264,  0.0057], device='cuda:0'), grad: tensor([ 1.1055e-06,  1.0151e-07, -1.3039e-07,  1.5553e-07,  6.7055e-08,
+         1.6754e-06,  1.9558e-08, -3.0752e-06,  5.4948e-08,  1.5832e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 396, time 220.38, cls_loss 0.0009 cls_loss_mapping 0.0015 cls_loss_causal 0.4792 re_mapping 0.0036 re_causal 0.0107 /// teacc 99.11 lr 0.00010000
+Epoch 398, weight, value: tensor([[-0.0021,  0.0110,  0.0612,  ...,  0.0890, -0.2893, -0.1807],
+        [ 0.0588, -0.0185, -0.0501,  ..., -0.3333,  0.0524, -0.1059],
+        [-0.0109, -0.0048,  0.2601,  ..., -0.3406, -0.1585, -0.1839],
+        ...,
+        [-0.0240,  0.0062, -0.2388,  ..., -0.0741,  0.1459,  0.0707],
+        [-0.0326, -0.0202, -0.2127,  ..., -0.3330,  0.1274, -0.2316],
+        [ 0.0147, -0.0258, -0.1173,  ...,  0.0396, -0.1954,  0.0235]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.0245e-07,  ..., -9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.3842e-04,  ...,  0.0000e+00,
+          1.5832e-08,  1.2107e-08],
+        [ 0.0000e+00,  0.0000e+00, -2.3973e-04,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.4459e-08,  ...,  0.0000e+00,
+         -8.9407e-08, -6.9849e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.5111e-07,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.0582e-07,  ...,  9.3132e-10,
+          3.7253e-09,  2.7940e-09]], device='cuda:0')
+Epoch 398, bias, value: tensor([-0.0202,  0.0148,  0.0203,  0.0032,  0.0371, -0.0199, -0.0035, -0.0198,
+        -0.0264,  0.0052], device='cuda:0'), grad: tensor([ 1.9372e-07,  4.5466e-04, -4.5705e-04,  7.5810e-07,  1.4808e-07,
+         8.1025e-08,  4.3772e-08, -2.3562e-07,  6.0257e-07,  4.0699e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 397, time 220.45, cls_loss 0.0008 cls_loss_mapping 0.0016 cls_loss_causal 0.4629 re_mapping 0.0037 re_causal 0.0108 /// teacc 99.07 lr 0.00010000
+Epoch 399, weight, value: tensor([[-0.0021,  0.0110,  0.0614,  ...,  0.0892, -0.2895, -0.1808],
+        [ 0.0588, -0.0185, -0.0529,  ..., -0.3337,  0.0524, -0.1060],
+        [-0.0109, -0.0048,  0.2629,  ..., -0.3406, -0.1586, -0.1841],
+        ...,
+        [-0.0240,  0.0062, -0.2391,  ..., -0.0744,  0.1459,  0.0707],
+        [-0.0326, -0.0202, -0.2129,  ..., -0.3331,  0.1273, -0.2318],
+        [ 0.0147, -0.0258, -0.1177,  ...,  0.0396, -0.1958,  0.0232]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  8.3819e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          1.3690e-07,  5.2154e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+          3.7253e-09,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ...,  0.0000e+00,
+         -1.5087e-07, -5.8673e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.2596e-08,  ...,  0.0000e+00,
+          1.8626e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          4.6566e-09,  2.7940e-09]], device='cuda:0')
+Epoch 399, bias, value: tensor([-0.0204,  0.0145,  0.0228,  0.0059,  0.0372, -0.0201, -0.0032, -0.0198,
+        -0.0268,  0.0051], device='cuda:0'), grad: tensor([ 1.8626e-08,  3.4552e-07,  6.3330e-08, -2.5239e-07,  9.3132e-09,
+        -8.3819e-08,  3.7253e-09, -3.6228e-07,  1.4715e-07,  1.1362e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 398, time 220.65, cls_loss 0.0008 cls_loss_mapping 0.0012 cls_loss_causal 0.4748 re_mapping 0.0037 re_causal 0.0111 /// teacc 99.00 lr 0.00010000
+Epoch 400, weight, value: tensor([[-0.0021,  0.0110,  0.0621,  ...,  0.0887, -0.2895, -0.1820],
+        [ 0.0588, -0.0185, -0.0537,  ..., -0.3341,  0.0526, -0.1062],
+        [-0.0109, -0.0048,  0.2637,  ..., -0.3408, -0.1587, -0.1843],
+        ...,
+        [-0.0240,  0.0062, -0.2392,  ..., -0.0745,  0.1457,  0.0707],
+        [-0.0326, -0.0202, -0.2133,  ..., -0.3333,  0.1276, -0.2307],
+        [ 0.0147, -0.0258, -0.1182,  ...,  0.0397, -0.1966,  0.0233]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [-1.8626e-09,  0.0000e+00, -3.7253e-09,  ...,  1.8626e-09,
+         -2.7940e-09,  1.9558e-08],
+        [ 9.3132e-10,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+          6.5193e-09,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+         -8.3819e-09, -1.8626e-09],
+        [ 9.3132e-10,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -5.5879e-09,
+          0.0000e+00, -3.5390e-08]], device='cuda:0')
+Epoch 400, bias, value: tensor([-0.0205,  0.0145,  0.0237,  0.0073,  0.0373, -0.0207, -0.0031, -0.0201,
+        -0.0267,  0.0051], device='cuda:0'), grad: tensor([ 1.6764e-08,  1.2107e-08,  3.1665e-08, -5.5879e-08,  3.0734e-08,
+         1.8626e-09,  9.3132e-10, -1.0245e-08,  2.3283e-08, -5.7742e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 399, time 220.24, cls_loss 0.0009 cls_loss_mapping 0.0014 cls_loss_causal 0.4773 re_mapping 0.0036 re_causal 0.0107 /// teacc 99.07 lr 0.00001000
+Epoch 401, weight, value: tensor([[-0.0021,  0.0110,  0.0624,  ...,  0.0889, -0.2896, -0.1821],
+        [ 0.0589, -0.0185, -0.0538,  ..., -0.3344,  0.0528, -0.1066],
+        [-0.0109, -0.0048,  0.2638,  ..., -0.3410, -0.1595, -0.1853],
+        ...,
+        [-0.0240,  0.0062, -0.2393,  ..., -0.0746,  0.1456,  0.0713],
+        [-0.0326, -0.0202, -0.2137,  ..., -0.3335,  0.1276, -0.2309],
+        [ 0.0148, -0.0258, -0.1185,  ...,  0.0398, -0.1973,  0.0234]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -7.4506e-09,  ..., -1.3039e-08,
+          2.7940e-09,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-08,  ...,  1.3970e-08,
+         -1.1176e-08,  4.0047e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.8871e-08,  ...,  0.0000e+00,
+          1.1176e-08,  2.7940e-09],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  4.9360e-08,  ...,  9.5926e-08,
+          6.5193e-09,  2.1420e-07],
+        [ 0.0000e+00,  0.0000e+00,  9.6858e-08,  ...,  5.5879e-09,
+          3.7253e-09,  1.5832e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.2107e-08,  ..., -3.9395e-07,
+         -1.3970e-07, -1.0105e-06]], device='cuda:0')
+Epoch 401, bias, value: tensor([-0.0203,  0.0148,  0.0234,  0.0052,  0.0372, -0.0187, -0.0031, -0.0203,
+        -0.0270,  0.0052], device='cuda:0'), grad: tensor([-4.0978e-08,  4.6566e-08,  2.4028e-07, -8.2981e-07,  1.1213e-06,
+         1.8254e-07,  7.9162e-08,  3.8464e-07,  3.9488e-07, -1.5832e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 400, time 220.51, cls_loss 0.0012 cls_loss_mapping 0.0012 cls_loss_causal 0.4791 re_mapping 0.0038 re_causal 0.0100 /// teacc 99.13 lr 0.00001000
+Epoch 402, weight, value: tensor([[-0.0021,  0.0110,  0.0624,  ...,  0.0888, -0.2896, -0.1822],
+        [ 0.0588, -0.0185, -0.0538,  ..., -0.3344,  0.0528, -0.1066],
+        [-0.0111, -0.0048,  0.2638,  ..., -0.3410, -0.1595, -0.1855],
+        ...,
+        [-0.0240,  0.0062, -0.2393,  ..., -0.0746,  0.1456,  0.0714],
+        [-0.0326, -0.0202, -0.2137,  ..., -0.3335,  0.1276, -0.2309],
+        [ 0.0149, -0.0258, -0.1185,  ...,  0.0398, -0.1973,  0.0234]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -3.9116e-08,  ..., -7.0781e-08,
+          2.7940e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  4.6566e-09,
+         -1.5367e-07, -3.6322e-08],
+        [ 0.0000e+00,  0.0000e+00, -1.0896e-07,  ...,  2.7940e-09,
+         -2.7940e-09,  7.4506e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.0896e-07,  ...,  9.3132e-10,
+          2.1420e-08, -3.1665e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.8626e-09,
+          6.7055e-08,  2.5146e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.2596e-08,  ...,  5.7742e-08,
+          1.3039e-08,  1.3039e-08]], device='cuda:0')
+Epoch 402, bias, value: tensor([-0.0204,  0.0148,  0.0234,  0.0048,  0.0371, -0.0186, -0.0031, -0.0202,
+        -0.0270,  0.0053], device='cuda:0'), grad: tensor([-1.5087e-07, -8.4098e-07, -1.9744e-07, -3.2596e-08,  8.8476e-08,
+         1.1548e-07,  1.1921e-07,  3.3434e-07,  3.7812e-07,  1.9465e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 401, time 220.19, cls_loss 0.0010 cls_loss_mapping 0.0008 cls_loss_causal 0.4371 re_mapping 0.0035 re_causal 0.0098 /// teacc 99.11 lr 0.00001000
+Epoch 403, weight, value: tensor([[-0.0021,  0.0110,  0.0625,  ...,  0.0888, -0.2896, -0.1822],
+        [ 0.0589, -0.0185, -0.0538,  ..., -0.3345,  0.0528, -0.1067],
+        [-0.0111, -0.0048,  0.2638,  ..., -0.3410, -0.1596, -0.1855],
+        ...,
+        [-0.0240,  0.0062, -0.2394,  ..., -0.0746,  0.1456,  0.0715],
+        [-0.0326, -0.0202, -0.2137,  ..., -0.3335,  0.1276, -0.2310],
+        [ 0.0149, -0.0258, -0.1185,  ...,  0.0399, -0.1974,  0.0235]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -9.3132e-10,  ..., -9.3132e-10,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+         -1.3970e-08,  4.0047e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.0245e-08,  ...,  3.7253e-09,
+          1.8626e-09,  4.1910e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  3.5390e-08,
+          1.8626e-09,  6.5193e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          3.7253e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -3.6322e-08,
+          1.8626e-09, -9.5926e-08]], device='cuda:0')
+Epoch 403, bias, value: tensor([-0.0204,  0.0147,  0.0233,  0.0047,  0.0370, -0.0186, -0.0030, -0.0202,
+        -0.0270,  0.0054], device='cuda:0'), grad: tensor([ 9.3132e-10,  1.8626e-08,  1.2107e-07, -7.7300e-08, -2.7940e-08,
+         1.1176e-08,  6.5193e-09,  9.0338e-08,  2.5146e-08, -1.6205e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 402, time 220.38, cls_loss 0.0009 cls_loss_mapping 0.0006 cls_loss_causal 0.4460 re_mapping 0.0034 re_causal 0.0099 /// teacc 99.11 lr 0.00001000
+Epoch 404, weight, value: tensor([[-0.0021,  0.0110,  0.0625,  ...,  0.0888, -0.2897, -0.1823],
+        [ 0.0589, -0.0185, -0.0538,  ..., -0.3346,  0.0527, -0.1068],
+        [-0.0111, -0.0048,  0.2639,  ..., -0.3411, -0.1596, -0.1856],
+        ...,
+        [-0.0240,  0.0062, -0.2395,  ..., -0.0746,  0.1456,  0.0716],
+        [-0.0327, -0.0202, -0.2137,  ..., -0.3335,  0.1276, -0.2311],
+        [ 0.0149, -0.0258, -0.1185,  ...,  0.0399, -0.1975,  0.0236]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  0.0000e+00,
+          4.0047e-08,  3.5390e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.1176e-08,  ...,  0.0000e+00,
+          3.5390e-08,  3.1665e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ...,  9.3132e-10,
+         -8.1956e-08, -6.7987e-08],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  1.8626e-09,
+         -8.3819e-09,  8.3819e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 404, bias, value: tensor([-0.0205,  0.0147,  0.0234,  0.0046,  0.0370, -0.0186, -0.0030, -0.0202,
+        -0.0270,  0.0054], device='cuda:0'), grad: tensor([ 1.3970e-08,  1.3690e-07,  1.6205e-07, -1.3318e-07, -2.4214e-08,
+         1.0245e-08,  1.6764e-08, -2.1327e-07,  2.1420e-08,  1.6764e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 403, time 220.20, cls_loss 0.0010 cls_loss_mapping 0.0007 cls_loss_causal 0.4271 re_mapping 0.0033 re_causal 0.0097 /// teacc 99.11 lr 0.00001000
+Epoch 405, weight, value: tensor([[-0.0021,  0.0110,  0.0625,  ...,  0.0888, -0.2897, -0.1823],
+        [ 0.0585, -0.0185, -0.0538,  ..., -0.3347,  0.0528, -0.1069],
+        [-0.0112, -0.0048,  0.2639,  ..., -0.3411, -0.1596, -0.1857],
+        ...,
+        [-0.0240,  0.0062, -0.2397,  ..., -0.0746,  0.1456,  0.0716],
+        [-0.0328, -0.0202, -0.2138,  ..., -0.3337,  0.1276, -0.2313],
+        [ 0.0150, -0.0258, -0.1186,  ...,  0.0400, -0.1976,  0.0236]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  3.4273e-07,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  1.3039e-08,
+         -1.6764e-08,  3.5390e-08],
+        [ 0.0000e+00,  0.0000e+00, -8.3819e-09,  ...,  2.3283e-08,
+          1.8626e-09,  2.6077e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  1.2107e-08,
+          1.3970e-08,  1.3970e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -3.7253e-08,
+          0.0000e+00, -6.4261e-08]], device='cuda:0')
+Epoch 405, bias, value: tensor([-0.0205,  0.0148,  0.0234,  0.0044,  0.0369, -0.0186, -0.0029, -0.0202,
+        -0.0270,  0.0055], device='cuda:0'), grad: tensor([ 3.7402e-06,  4.0047e-08,  5.5879e-08,  2.0489e-08, -7.5344e-07,
+         6.5193e-08, -3.1143e-06,  8.6613e-08,  7.4506e-09, -1.5181e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 404, time 220.36, cls_loss 0.0008 cls_loss_mapping 0.0005 cls_loss_causal 0.4305 re_mapping 0.0033 re_causal 0.0100 /// teacc 99.13 lr 0.00001000
+Epoch 406, weight, value: tensor([[-0.0021,  0.0110,  0.0626,  ...,  0.0888, -0.2897, -0.1824],
+        [ 0.0585, -0.0185, -0.0538,  ..., -0.3348,  0.0528, -0.1069],
+        [-0.0112, -0.0048,  0.2639,  ..., -0.3411, -0.1596, -0.1858],
+        ...,
+        [-0.0241,  0.0062, -0.2397,  ..., -0.0747,  0.1456,  0.0716],
+        [-0.0328, -0.0202, -0.2138,  ..., -0.3338,  0.1276, -0.2315],
+        [ 0.0150, -0.0258, -0.1186,  ...,  0.0400, -0.1977,  0.0237]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ...,  0.0000e+00,
+          1.9558e-08,  4.3772e-08],
+        [ 0.0000e+00,  0.0000e+00, -1.1176e-08,  ...,  0.0000e+00,
+          4.6566e-09,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+         -3.3528e-08, -5.4948e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          5.5879e-09,  6.5193e-09]], device='cuda:0')
+Epoch 406, bias, value: tensor([-0.0205,  0.0148,  0.0234,  0.0043,  0.0368, -0.0186, -0.0029, -0.0203,
+        -0.0271,  0.0056], device='cuda:0'), grad: tensor([ 5.5879e-09,  1.2480e-07,  1.2107e-08,  2.2817e-07,  7.4506e-09,
+        -2.4494e-07,  2.3283e-08, -1.9930e-07,  2.6077e-08,  3.0734e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 405, time 220.42, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4192 re_mapping 0.0032 re_causal 0.0098 /// teacc 99.13 lr 0.00001000
+Epoch 407, weight, value: tensor([[-0.0021,  0.0110,  0.0626,  ...,  0.0888, -0.2897, -0.1824],
+        [ 0.0585, -0.0185, -0.0538,  ..., -0.3349,  0.0528, -0.1069],
+        [-0.0112, -0.0048,  0.2639,  ..., -0.3411, -0.1597, -0.1858],
+        ...,
+        [-0.0241,  0.0062, -0.2398,  ..., -0.0747,  0.1456,  0.0716],
+        [-0.0328, -0.0202, -0.2138,  ..., -0.3339,  0.1276, -0.2315],
+        [ 0.0150, -0.0258, -0.1186,  ...,  0.0400, -0.1977,  0.0237]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.4901e-08,  ..., -2.2352e-08,
+          9.3132e-10,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+          4.2841e-08,  2.7008e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.4214e-08,  ...,  1.7695e-08,
+          3.7253e-09,  2.7940e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  0.0000e+00,
+         -7.8231e-08, -5.4017e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.4901e-08,  ...,  4.6566e-09,
+          1.8626e-09,  1.3970e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.4901e-08,  ..., -9.3132e-10,
+          1.0245e-08, -6.5193e-09]], device='cuda:0')
+Epoch 407, bias, value: tensor([-0.0206,  0.0148,  0.0233,  0.0043,  0.0368, -0.0186, -0.0029, -0.0202,
+        -0.0270,  0.0056], device='cuda:0'), grad: tensor([ 1.9558e-08,  1.4622e-07,  5.8673e-08, -3.2876e-07,  1.0245e-08,
+         1.8999e-07, -8.3819e-09, -2.3842e-07,  1.0524e-07,  4.8429e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 406, time 220.19, cls_loss 0.0006 cls_loss_mapping 0.0006 cls_loss_causal 0.4390 re_mapping 0.0032 re_causal 0.0100 /// teacc 99.13 lr 0.00001000
+Epoch 408, weight, value: tensor([[-0.0021,  0.0110,  0.0626,  ...,  0.0888, -0.2897, -0.1825],
+        [ 0.0585, -0.0185, -0.0538,  ..., -0.3350,  0.0528, -0.1068],
+        [-0.0112, -0.0048,  0.2639,  ..., -0.3411, -0.1597, -0.1859],
+        ...,
+        [-0.0241,  0.0062, -0.2398,  ..., -0.0747,  0.1456,  0.0715],
+        [-0.0328, -0.0202, -0.2138,  ..., -0.3339,  0.1276, -0.2315],
+        [ 0.0150, -0.0258, -0.1186,  ...,  0.0400, -0.1975,  0.0237]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -9.3132e-10,  ..., -3.7253e-09,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ...,  0.0000e+00,
+          4.6566e-09,  8.3819e-09],
+        [ 0.0000e+00,  0.0000e+00, -6.7055e-08,  ...,  0.0000e+00,
+          1.8626e-09,  2.7940e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.7497e-08,  ...,  1.2107e-08,
+          1.1176e-08,  1.5646e-07],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+          2.7940e-09,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ..., -1.1176e-08,
+         -2.3283e-08, -1.9465e-07]], device='cuda:0')
+Epoch 408, bias, value: tensor([-0.0206,  0.0148,  0.0233,  0.0043,  0.0368, -0.0186, -0.0030, -0.0202,
+        -0.0270,  0.0056], device='cuda:0'), grad: tensor([ 6.5193e-09,  3.5390e-08, -9.4064e-08,  4.6566e-09,  2.8871e-08,
+         2.5146e-08, -5.0291e-08,  2.6729e-07,  2.7940e-08, -2.5611e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 407, time 220.54, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4533 re_mapping 0.0031 re_causal 0.0104 /// teacc 99.13 lr 0.00001000
+Epoch 409, weight, value: tensor([[-0.0021,  0.0110,  0.0627,  ...,  0.0888, -0.2897, -0.1825],
+        [ 0.0585, -0.0185, -0.0538,  ..., -0.3351,  0.0528, -0.1069],
+        [-0.0112, -0.0048,  0.2640,  ..., -0.3412, -0.1597, -0.1859],
+        ...,
+        [-0.0241,  0.0062, -0.2398,  ..., -0.0747,  0.1456,  0.0715],
+        [-0.0328, -0.0202, -0.2138,  ..., -0.3339,  0.1277, -0.2315],
+        [ 0.0151, -0.0258, -0.1186,  ...,  0.0400, -0.1975,  0.0237]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.5832e-08,  ..., -3.1665e-08,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  1.8626e-09,
+          6.5193e-09,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00, -3.2596e-08,  ...,  9.3132e-10,
+          5.5879e-09,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+         -1.2107e-08, -7.4506e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+         -2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-08,  ...,  2.6077e-08,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 409, bias, value: tensor([-0.0206,  0.0148,  0.0233,  0.0042,  0.0368, -0.0187, -0.0029, -0.0202,
+        -0.0270,  0.0056], device='cuda:0'), grad: tensor([-6.3330e-08,  1.9558e-08, -1.0245e-08,  3.0734e-08,  3.5390e-08,
+        -1.7695e-08, -6.5193e-09, -2.7940e-08, -3.4459e-08,  7.1712e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 408, time 220.27, cls_loss 0.0007 cls_loss_mapping 0.0005 cls_loss_causal 0.4232 re_mapping 0.0031 re_causal 0.0099 /// teacc 99.13 lr 0.00001000
+Epoch 410, weight, value: tensor([[-0.0021,  0.0110,  0.0627,  ...,  0.0887, -0.2897, -0.1825],
+        [ 0.0585, -0.0185, -0.0538,  ..., -0.3351,  0.0528, -0.1069],
+        [-0.0112, -0.0048,  0.2640,  ..., -0.3412, -0.1597, -0.1859],
+        ...,
+        [-0.0241,  0.0062, -0.2398,  ..., -0.0748,  0.1456,  0.0713],
+        [-0.0328, -0.0202, -0.2138,  ..., -0.3339,  0.1277, -0.2315],
+        [ 0.0151, -0.0258, -0.1186,  ...,  0.0400, -0.1973,  0.0237]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3504e-08,
+          4.6566e-10,  1.6764e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.7276e-08,
+          5.5879e-09,  7.1712e-08],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  1.0245e-08,
+          1.8626e-09,  1.3039e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+         -6.5193e-09, -4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+         -1.3970e-08,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ..., -2.7940e-09,
+          6.9849e-09, -1.3504e-08]], device='cuda:0')
+Epoch 410, bias, value: tensor([-0.0207,  0.0148,  0.0233,  0.0042,  0.0368, -0.0187, -0.0029, -0.0202,
+        -0.0270,  0.0057], device='cuda:0'), grad: tensor([ 2.7474e-08,  1.2061e-07,  2.4680e-08, -6.9849e-09, -1.6019e-07,
+         1.6764e-08,  2.5146e-08, -9.7789e-09, -2.9802e-08, -2.7940e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 409, time 220.53, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4443 re_mapping 0.0031 re_causal 0.0100 /// teacc 99.12 lr 0.00001000
+Epoch 411, weight, value: tensor([[-0.0021,  0.0110,  0.0627,  ...,  0.0888, -0.2897, -0.1826],
+        [ 0.0585, -0.0185, -0.0538,  ..., -0.3351,  0.0528, -0.1069],
+        [-0.0112, -0.0048,  0.2640,  ..., -0.3412, -0.1598, -0.1860],
+        ...,
+        [-0.0241,  0.0062, -0.2398,  ..., -0.0748,  0.1456,  0.0714],
+        [-0.0328, -0.0202, -0.2138,  ..., -0.3339,  0.1277, -0.2315],
+        [ 0.0151, -0.0258, -0.1186,  ...,  0.0400, -0.1973,  0.0237]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.1642e-08,  ..., -7.4506e-09,
+          0.0000e+00,  5.1223e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.1642e-08,  ...,  2.1886e-08,
+          4.6566e-10,  1.8161e-08],
+        [ 0.0000e+00,  0.0000e+00, -3.4785e-07,  ...,  6.0536e-09,
+          0.0000e+00,  5.1223e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.3760e-07,  ...,  9.7789e-09,
+          0.0000e+00,  1.1642e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  1.3970e-09,
+          0.0000e+00,  2.3283e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  2.1420e-08,
+          0.0000e+00, -1.8626e-09]], device='cuda:0')
+Epoch 411, bias, value: tensor([-0.0207,  0.0148,  0.0233,  0.0042,  0.0368, -0.0187, -0.0029, -0.0202,
+        -0.0269,  0.0057], device='cuda:0'), grad: tensor([-2.2352e-08,  6.1467e-08, -6.5472e-07,  1.0710e-08, -8.1025e-08,
+        -4.1910e-09,  1.4435e-08,  6.6543e-07,  1.4901e-08,  1.3504e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 410, time 220.34, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4405 re_mapping 0.0031 re_causal 0.0099 /// teacc 99.14 lr 0.00001000
+Epoch 412, weight, value: tensor([[-0.0021,  0.0110,  0.0627,  ...,  0.0888, -0.2897, -0.1826],
+        [ 0.0585, -0.0185, -0.0539,  ..., -0.3352,  0.0528, -0.1070],
+        [-0.0112, -0.0048,  0.2640,  ..., -0.3412, -0.1598, -0.1860],
+        ...,
+        [-0.0241,  0.0062, -0.2398,  ..., -0.0748,  0.1456,  0.0714],
+        [-0.0328, -0.0202, -0.2138,  ..., -0.3339,  0.1277, -0.2315],
+        [ 0.0151, -0.0258, -0.1186,  ...,  0.0400, -0.1973,  0.0237]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.0023e-08,  ..., -7.4506e-09,
+          4.6566e-10,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-10,
+          4.6566e-09,  6.9849e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  4.6566e-10,
+          4.6566e-10,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-09,  ...,  0.0000e+00,
+         -3.2596e-09,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-09,  ...,  9.3132e-10,
+          1.8626e-09,  3.2596e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ..., -1.9558e-08,
+         -1.8626e-09, -9.3132e-08]], device='cuda:0')
+Epoch 412, bias, value: tensor([-0.0207,  0.0148,  0.0232,  0.0042,  0.0368, -0.0187, -0.0029, -0.0202,
+        -0.0269,  0.0057], device='cuda:0'), grad: tensor([-4.3306e-08,  2.1886e-08,  9.7789e-09,  1.1502e-07,  1.2992e-07,
+        -1.2340e-07,  4.6566e-09,  5.5879e-09,  2.1886e-08, -1.3039e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 411, time 220.78, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4560 re_mapping 0.0030 re_causal 0.0100 /// teacc 99.14 lr 0.00001000
+Epoch 413, weight, value: tensor([[-0.0021,  0.0110,  0.0628,  ...,  0.0887, -0.2898, -0.1826],
+        [ 0.0585, -0.0185, -0.0538,  ..., -0.3353,  0.0528, -0.1070],
+        [-0.0112, -0.0048,  0.2640,  ..., -0.3412, -0.1598, -0.1861],
+        ...,
+        [-0.0241,  0.0062, -0.2399,  ..., -0.0748,  0.1456,  0.0714],
+        [-0.0328, -0.0202, -0.2138,  ..., -0.3339,  0.1277, -0.2316],
+        [ 0.0151, -0.0258, -0.1187,  ...,  0.0400, -0.1973,  0.0237]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -7.4506e-09,  ...,  0.0000e+00,
+         -5.0180e-06, -3.6657e-06],
+        [ 0.0000e+00,  0.0000e+00, -1.0245e-08,  ...,  1.2107e-08,
+          2.0023e-08,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  5.3085e-08,  ...,  0.0000e+00,
+          4.8354e-06,  3.5428e-06],
+        [ 0.0000e+00,  0.0000e+00, -3.9116e-08,  ..., -1.3504e-08,
+         -2.7940e-09,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  4.6566e-10,
+          1.4761e-07,  1.0803e-07]], device='cuda:0')
+Epoch 413, bias, value: tensor([-0.0208,  0.0148,  0.0232,  0.0041,  0.0368, -0.0187, -0.0029, -0.0202,
+        -0.0269,  0.0057], device='cuda:0'), grad: tensor([ 4.6566e-09, -1.2293e-05,  1.4435e-07,  6.0536e-09,  3.5856e-08,
+         3.2596e-09,  3.7253e-09,  1.1921e-05, -1.9837e-07,  3.7067e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 412, time 220.85, cls_loss 0.0007 cls_loss_mapping 0.0005 cls_loss_causal 0.4331 re_mapping 0.0030 re_causal 0.0097 /// teacc 99.15 lr 0.00001000
+Epoch 414, weight, value: tensor([[-0.0021,  0.0110,  0.0628,  ...,  0.0887, -0.2898, -0.1828],
+        [ 0.0584, -0.0185, -0.0538,  ..., -0.3353,  0.0528, -0.1070],
+        [-0.0112, -0.0048,  0.2640,  ..., -0.3413, -0.1599, -0.1862],
+        ...,
+        [-0.0241,  0.0062, -0.2400,  ..., -0.0748,  0.1456,  0.0714],
+        [-0.0328, -0.0202, -0.2138,  ..., -0.3339,  0.1277, -0.2316],
+        [ 0.0151, -0.0258, -0.1187,  ...,  0.0400, -0.1974,  0.0237]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ..., -1.3970e-09,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-09,  ...,  9.3132e-10,
+          1.1176e-08,  1.3970e-08],
+        [ 0.0000e+00,  0.0000e+00, -2.6543e-08,  ...,  0.0000e+00,
+          2.7940e-09,  2.3283e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.5367e-08,  ...,  2.3283e-09,
+         -1.8626e-08, -1.1176e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.2596e-09,  ...,  0.0000e+00,
+          9.3132e-10,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ..., -4.1910e-09,
+          4.1910e-09, -1.4901e-08]], device='cuda:0')
+Epoch 414, bias, value: tensor([-0.0208,  0.0148,  0.0231,  0.0040,  0.0368, -0.0187, -0.0028, -0.0202,
+        -0.0270,  0.0057], device='cuda:0'), grad: tensor([ 1.5832e-08,  3.9116e-08, -3.7253e-08, -4.1910e-09,  1.7229e-08,
+         3.7253e-09, -1.1176e-08, -1.3039e-08,  9.3132e-09, -1.3504e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 413, time 220.44, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4265 re_mapping 0.0030 re_causal 0.0096 /// teacc 99.14 lr 0.00001000
+Epoch 415, weight, value: tensor([[-0.0021,  0.0110,  0.0628,  ...,  0.0887, -0.2898, -0.1828],
+        [ 0.0584, -0.0185, -0.0538,  ..., -0.3354,  0.0528, -0.1071],
+        [-0.0111, -0.0048,  0.2640,  ..., -0.3413, -0.1599, -0.1862],
+        ...,
+        [-0.0241,  0.0062, -0.2400,  ..., -0.0748,  0.1456,  0.0714],
+        [-0.0328, -0.0202, -0.2139,  ..., -0.3340,  0.1277, -0.2317],
+        [ 0.0151, -0.0258, -0.1187,  ...,  0.0400, -0.1974,  0.0238]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  3.7253e-09,
+         -3.7253e-09,  8.3819e-09],
+        [ 0.0000e+00,  0.0000e+00, -6.5193e-09,  ...,  0.0000e+00,
+          3.7253e-09,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  1.8626e-09,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.8626e-09,
+          3.5390e-08,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  8.3819e-09,
+          0.0000e+00,  2.7008e-08]], device='cuda:0')
+Epoch 415, bias, value: tensor([-0.0208,  0.0148,  0.0231,  0.0040,  0.0368, -0.0187, -0.0028, -0.0202,
+        -0.0270,  0.0057], device='cuda:0'), grad: tensor([ 7.4506e-09, -8.3819e-09,  1.1176e-08,  8.3819e-09, -4.1910e-08,
+        -4.0140e-07,  1.2759e-07,  9.3132e-09,  2.8312e-07,  2.2352e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 414, time 220.73, cls_loss 0.0006 cls_loss_mapping 0.0005 cls_loss_causal 0.4244 re_mapping 0.0029 re_causal 0.0096 /// teacc 99.14 lr 0.00001000
+Epoch 416, weight, value: tensor([[-0.0021,  0.0110,  0.0628,  ...,  0.0887, -0.2898, -0.1828],
+        [ 0.0584, -0.0185, -0.0539,  ..., -0.3354,  0.0528, -0.1072],
+        [-0.0111, -0.0048,  0.2641,  ..., -0.3413, -0.1600, -0.1863],
+        ...,
+        [-0.0241,  0.0062, -0.2400,  ..., -0.0749,  0.1456,  0.0715],
+        [-0.0328, -0.0202, -0.2139,  ..., -0.3342,  0.1277, -0.2319],
+        [ 0.0152, -0.0258, -0.1187,  ...,  0.0401, -0.1974,  0.0238]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          3.0734e-08,  1.6764e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.4703e-08,  3.3528e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -9.4995e-08, -6.2399e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -9.3132e-10,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -9.3132e-10,
+          5.5879e-09, -1.8626e-09]], device='cuda:0')
+Epoch 416, bias, value: tensor([-0.0209,  0.0148,  0.0231,  0.0040,  0.0367, -0.0187, -0.0028, -0.0202,
+        -0.0271,  0.0058], device='cuda:0'), grad: tensor([ 1.2107e-08,  1.0896e-07,  2.3562e-07,  3.7253e-08,  5.1223e-08,
+        -2.2352e-08, -2.7940e-09, -4.2282e-07, -1.4901e-08,  1.9558e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 415, time 220.49, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4542 re_mapping 0.0028 re_causal 0.0099 /// teacc 99.13 lr 0.00001000
+Epoch 417, weight, value: tensor([[-0.0021,  0.0110,  0.0628,  ...,  0.0887, -0.2898, -0.1828],
+        [ 0.0584, -0.0185, -0.0539,  ..., -0.3355,  0.0528, -0.1072],
+        [-0.0112, -0.0048,  0.2641,  ..., -0.3413, -0.1600, -0.1864],
+        ...,
+        [-0.0241,  0.0062, -0.2401,  ..., -0.0749,  0.1456,  0.0715],
+        [-0.0328, -0.0202, -0.2139,  ..., -0.3342,  0.1277, -0.2320],
+        [ 0.0152, -0.0258, -0.1187,  ...,  0.0401, -0.1974,  0.0238]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -8.3819e-09,  ..., -5.5879e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          0.0000e+00,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          2.7940e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  5.5879e-09,
+          0.0000e+00,  1.1176e-08],
+        [ 0.0000e+00,  0.0000e+00, -9.3132e-10,  ...,  0.0000e+00,
+         -1.8626e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.0047e-08,
+          0.0000e+00,  9.0338e-08]], device='cuda:0')
+Epoch 417, bias, value: tensor([-0.0209,  0.0148,  0.0231,  0.0039,  0.0367, -0.0187, -0.0028, -0.0202,
+        -0.0271,  0.0058], device='cuda:0'), grad: tensor([-4.2841e-08,  1.0245e-08,  1.2107e-08,  2.7940e-09, -1.3225e-07,
+         3.7253e-09,  5.5879e-09,  2.1420e-08, -2.7940e-09,  1.2945e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 416, time 220.55, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4034 re_mapping 0.0029 re_causal 0.0095 /// teacc 99.12 lr 0.00001000
+Epoch 418, weight, value: tensor([[-0.0021,  0.0110,  0.0628,  ...,  0.0887, -0.2898, -0.1828],
+        [ 0.0584, -0.0185, -0.0539,  ..., -0.3356,  0.0528, -0.1073],
+        [-0.0112, -0.0048,  0.2641,  ..., -0.3413, -0.1601, -0.1865],
+        ...,
+        [-0.0241,  0.0062, -0.2401,  ..., -0.0749,  0.1456,  0.0716],
+        [-0.0328, -0.0202, -0.2140,  ..., -0.3342,  0.1277, -0.2320],
+        [ 0.0152, -0.0258, -0.1187,  ...,  0.0401, -0.1975,  0.0238]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  1.8626e-09,
+          1.8626e-09,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  9.3132e-10,
+          1.1176e-08,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.0245e-08,  ...,  0.0000e+00,
+          2.6077e-08,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+         -3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -2.3283e-08,  ...,  2.7940e-09,
+         -7.0781e-08,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ..., -2.3283e-08,
+          1.9558e-08, -5.0291e-08]], device='cuda:0')
+Epoch 418, bias, value: tensor([-0.0209,  0.0148,  0.0231,  0.0039,  0.0367, -0.0188, -0.0028, -0.0202,
+        -0.0271,  0.0058], device='cuda:0'), grad: tensor([ 2.1420e-08,  5.4017e-08,  1.5460e-07,  4.1910e-08,  7.3574e-08,
+         2.2352e-08,  3.4459e-08, -3.7253e-09, -4.1723e-07,  2.0489e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 417, time 220.76, cls_loss 0.0006 cls_loss_mapping 0.0003 cls_loss_causal 0.4556 re_mapping 0.0029 re_causal 0.0102 /// teacc 99.13 lr 0.00001000
+Epoch 419, weight, value: tensor([[-0.0021,  0.0110,  0.0628,  ...,  0.0887, -0.2898, -0.1829],
+        [ 0.0584, -0.0185, -0.0539,  ..., -0.3356,  0.0528, -0.1073],
+        [-0.0111, -0.0048,  0.2641,  ..., -0.3413, -0.1601, -0.1865],
+        ...,
+        [-0.0241,  0.0062, -0.2401,  ..., -0.0750,  0.1456,  0.0716],
+        [-0.0328, -0.0202, -0.2140,  ..., -0.3342,  0.1277, -0.2320],
+        [ 0.0152, -0.0258, -0.1188,  ...,  0.0401, -0.1975,  0.0238]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.0047e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  3.7253e-09,
+          1.9558e-08,  1.1176e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.3528e-08,  ...,  0.0000e+00,
+          1.8626e-09,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.2107e-08,  ...,  2.7940e-09,
+         -2.7940e-08, -6.5193e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.0489e-08,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-08,  ...,  1.8626e-09,
+          0.0000e+00,  2.7940e-09]], device='cuda:0')
+Epoch 419, bias, value: tensor([-0.0210,  0.0148,  0.0230,  0.0040,  0.0367, -0.0188, -0.0027, -0.0202,
+        -0.0271,  0.0058], device='cuda:0'), grad: tensor([ 1.3597e-07,  6.6124e-08,  1.1548e-07, -4.5449e-07, -8.3819e-09,
+         8.3819e-09,  2.7940e-09, -9.3132e-09,  7.4506e-08,  7.1712e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 418, time 220.65, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4521 re_mapping 0.0028 re_causal 0.0098 /// teacc 99.12 lr 0.00001000
+Epoch 420, weight, value: tensor([[-0.0021,  0.0110,  0.0628,  ...,  0.0887, -0.2899, -0.1829],
+        [ 0.0584, -0.0185, -0.0539,  ..., -0.3357,  0.0528, -0.1074],
+        [-0.0111, -0.0048,  0.2641,  ..., -0.3414, -0.1601, -0.1866],
+        ...,
+        [-0.0241,  0.0062, -0.2402,  ..., -0.0750,  0.1456,  0.0716],
+        [-0.0328, -0.0202, -0.2140,  ..., -0.3342,  0.1277, -0.2320],
+        [ 0.0152, -0.0258, -0.1188,  ...,  0.0401, -0.1975,  0.0238]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.2107e-08,  8.3819e-09],
+        [ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ...,  0.0000e+00,
+          5.5879e-09,  5.5879e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+         -4.9360e-08, -5.8673e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.8626e-09,
+          1.8626e-09, -5.5879e-09]], device='cuda:0')
+Epoch 420, bias, value: tensor([-0.0210,  0.0148,  0.0231,  0.0040,  0.0367, -0.0188, -0.0027, -0.0203,
+        -0.0271,  0.0058], device='cuda:0'), grad: tensor([ 9.3132e-10,  3.7253e-08,  1.3970e-08,  4.7497e-08,  7.4506e-08,
+         2.7940e-09,  0.0000e+00, -1.6857e-07,  5.5879e-09, -9.3132e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 419, time 220.37, cls_loss 0.0006 cls_loss_mapping 0.0005 cls_loss_causal 0.4494 re_mapping 0.0028 re_causal 0.0096 /// teacc 99.10 lr 0.00001000
+Epoch 421, weight, value: tensor([[-0.0021,  0.0110,  0.0628,  ...,  0.0887, -0.2899, -0.1829],
+        [ 0.0584, -0.0185, -0.0539,  ..., -0.3358,  0.0528, -0.1074],
+        [-0.0111, -0.0048,  0.2641,  ..., -0.3414, -0.1602, -0.1867],
+        ...,
+        [-0.0241,  0.0062, -0.2403,  ..., -0.0750,  0.1456,  0.0715],
+        [-0.0328, -0.0202, -0.2140,  ..., -0.3342,  0.1277, -0.2321],
+        [ 0.0152, -0.0258, -0.1188,  ...,  0.0401, -0.1974,  0.0238]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -3.7253e-08,  ..., -3.3528e-08,
+          9.3132e-10, -2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ...,  4.6566e-09,
+         -4.6566e-09,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00, -2.1793e-07,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.1234e-07,  ...,  9.3132e-10,
+          9.3132e-10,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          1.8626e-09,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  2.1420e-08,
+          0.0000e+00,  3.2596e-08]], device='cuda:0')
+Epoch 421, bias, value: tensor([-0.0210,  0.0149,  0.0230,  0.0040,  0.0367, -0.0188, -0.0027, -0.0203,
+        -0.0271,  0.0059], device='cuda:0'), grad: tensor([-1.8440e-07,  2.4214e-08, -4.2189e-07, -2.7940e-09, -5.9605e-08,
+         1.7695e-08,  1.2293e-07,  4.2841e-07,  2.8871e-08,  5.7742e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 420, time 220.21, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4301 re_mapping 0.0028 re_causal 0.0096 /// teacc 99.11 lr 0.00001000
+Epoch 422, weight, value: tensor([[-0.0021,  0.0110,  0.0628,  ...,  0.0887, -0.2899, -0.1829],
+        [ 0.0584, -0.0185, -0.0539,  ..., -0.3358,  0.0528, -0.1075],
+        [-0.0112, -0.0048,  0.2641,  ..., -0.3414, -0.1603, -0.1867],
+        ...,
+        [-0.0241,  0.0062, -0.2403,  ..., -0.0750,  0.1456,  0.0715],
+        [-0.0328, -0.0202, -0.2141,  ..., -0.3342,  0.1277, -0.2321],
+        [ 0.0152, -0.0258, -0.1189,  ...,  0.0401, -0.1974,  0.0238]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.6566e-09,  ..., -6.5193e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+         -1.8626e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          9.3132e-10,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+         -1.8626e-09, -8.3819e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.8626e-09,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 422, bias, value: tensor([-0.0210,  0.0148,  0.0230,  0.0039,  0.0367, -0.0188, -0.0027, -0.0203,
+        -0.0271,  0.0059], device='cuda:0'), grad: tensor([-8.3819e-09,  1.8626e-09,  9.3132e-09, -8.9407e-08,  1.0245e-08,
+         5.8673e-08,  2.7940e-09, -4.6566e-09,  7.4506e-09,  9.3132e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 421, time 221.05, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4406 re_mapping 0.0028 re_causal 0.0099 /// teacc 99.10 lr 0.00001000
+Epoch 423, weight, value: tensor([[-0.0021,  0.0110,  0.0628,  ...,  0.0887, -0.2899, -0.1829],
+        [ 0.0584, -0.0185, -0.0540,  ..., -0.3360,  0.0528, -0.1075],
+        [-0.0111, -0.0048,  0.2643,  ..., -0.3414, -0.1603, -0.1868],
+        ...,
+        [-0.0241,  0.0062, -0.2403,  ..., -0.0751,  0.1456,  0.0716],
+        [-0.0328, -0.0202, -0.2141,  ..., -0.3342,  0.1277, -0.2321],
+        [ 0.0152, -0.0258, -0.1189,  ...,  0.0401, -0.1974,  0.0239]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-09,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+         -4.6566e-09, -9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 423, bias, value: tensor([-0.0211,  0.0148,  0.0230,  0.0039,  0.0367, -0.0188, -0.0027, -0.0203,
+        -0.0272,  0.0059], device='cuda:0'), grad: tensor([ 1.1176e-08,  1.2107e-08,  2.7940e-09,  1.3970e-08, -4.6566e-09,
+        -5.8487e-07,  1.5832e-08, -5.5879e-09,  4.7125e-07,  7.9162e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 422, time 220.36, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4339 re_mapping 0.0028 re_causal 0.0096 /// teacc 99.13 lr 0.00001000
+Epoch 424, weight, value: tensor([[-0.0021,  0.0110,  0.0629,  ...,  0.0887, -0.2899, -0.1829],
+        [ 0.0583, -0.0185, -0.0540,  ..., -0.3361,  0.0529, -0.1077],
+        [-0.0111, -0.0048,  0.2643,  ..., -0.3415, -0.1604, -0.1869],
+        ...,
+        [-0.0241,  0.0062, -0.2404,  ..., -0.0751,  0.1455,  0.0716],
+        [-0.0328, -0.0202, -0.2141,  ..., -0.3343,  0.1277, -0.2322],
+        [ 0.0152, -0.0258, -0.1189,  ...,  0.0401, -0.1974,  0.0239]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.9558e-08,  ..., -3.7253e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  0.0000e+00,
+          1.7602e-07,  1.7509e-07],
+        [ 0.0000e+00,  0.0000e+00, -1.2107e-08,  ...,  1.8626e-08,
+          1.2666e-07,  1.1735e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -1.6764e-08,  ...,  1.8626e-09,
+         -3.2596e-07, -3.1106e-07],
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ...,  7.4506e-09,
+          9.3132e-10,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ..., -2.7940e-09,
+          1.3039e-08,  1.8626e-09]], device='cuda:0')
+Epoch 424, bias, value: tensor([-0.0211,  0.0149,  0.0230,  0.0039,  0.0367, -0.0188, -0.0027, -0.0203,
+        -0.0272,  0.0059], device='cuda:0'), grad: tensor([-5.6811e-08,  7.3854e-07,  3.3341e-07, -8.1956e-08,  2.9802e-08,
+         5.6811e-08,  2.4214e-08, -1.1362e-06,  4.1910e-08,  4.4703e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 423, time 220.66, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4466 re_mapping 0.0028 re_causal 0.0098 /// teacc 99.10 lr 0.00001000
+Epoch 425, weight, value: tensor([[-0.0021,  0.0110,  0.0629,  ...,  0.0885, -0.2899, -0.1833],
+        [ 0.0583, -0.0185, -0.0541,  ..., -0.3362,  0.0529, -0.1078],
+        [-0.0111, -0.0048,  0.2644,  ..., -0.3415, -0.1604, -0.1870],
+        ...,
+        [-0.0241,  0.0062, -0.2404,  ..., -0.0751,  0.1456,  0.0717],
+        [-0.0328, -0.0202, -0.2142,  ..., -0.3343,  0.1277, -0.2323],
+        [ 0.0152, -0.0258, -0.1189,  ...,  0.0401, -0.1975,  0.0239]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-10,
+          3.2596e-08,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+         -7.4506e-08,  1.7695e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          5.0291e-08,  1.4901e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+         -2.4214e-08, -2.4214e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.8626e-09,
+          3.7253e-09,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ..., -1.5832e-08,
+          9.3132e-10, -4.8429e-08]], device='cuda:0')
+Epoch 425, bias, value: tensor([-0.0212,  0.0148,  0.0230,  0.0039,  0.0367, -0.0188, -0.0027, -0.0202,
+        -0.0272,  0.0059], device='cuda:0'), grad: tensor([ 1.8254e-07, -3.5204e-07,  2.1048e-07, -5.3085e-08,  8.1025e-08,
+         4.0047e-08, -3.6322e-08, -3.7253e-08,  5.3085e-08, -7.9162e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 424, time 220.47, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4475 re_mapping 0.0027 re_causal 0.0098 /// teacc 99.10 lr 0.00001000
+Epoch 426, weight, value: tensor([[-0.0021,  0.0110,  0.0629,  ...,  0.0885, -0.2899, -0.1833],
+        [ 0.0583, -0.0185, -0.0541,  ..., -0.3363,  0.0528, -0.1079],
+        [-0.0111, -0.0048,  0.2644,  ..., -0.3416, -0.1605, -0.1871],
+        ...,
+        [-0.0241,  0.0062, -0.2404,  ..., -0.0752,  0.1456,  0.0717],
+        [-0.0328, -0.0202, -0.2143,  ..., -0.3344,  0.1277, -0.2324],
+        [ 0.0152, -0.0258, -0.1189,  ...,  0.0401, -0.1975,  0.0239]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  1.6764e-08,
+          0.0000e+00,  2.3283e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.7253e-09,
+          9.3132e-10,  7.4506e-09],
+        [ 0.0000e+00,  0.0000e+00, -3.7253e-09,  ...,  9.3132e-10,
+          9.3132e-10,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  2.7940e-09,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  1.8626e-09,
+         -9.3132e-10,  1.5832e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ..., -1.5739e-07,
+         -9.3132e-10, -2.3190e-07]], device='cuda:0')
+Epoch 426, bias, value: tensor([-0.0212,  0.0148,  0.0231,  0.0039,  0.0367, -0.0188, -0.0027, -0.0202,
+        -0.0273,  0.0060], device='cuda:0'), grad: tensor([ 6.6124e-08,  2.1420e-08,  9.3132e-09, -3.4459e-08,  4.0513e-07,
+         8.3819e-08,  1.8626e-09,  1.3970e-08,  7.6368e-08, -6.3889e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 425, time 220.58, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4290 re_mapping 0.0027 re_causal 0.0097 /// teacc 99.09 lr 0.00001000
+Epoch 427, weight, value: tensor([[-0.0021,  0.0110,  0.0629,  ...,  0.0885, -0.2900, -0.1833],
+        [ 0.0583, -0.0185, -0.0541,  ..., -0.3365,  0.0528, -0.1080],
+        [-0.0111, -0.0048,  0.2644,  ..., -0.3416, -0.1605, -0.1871],
+        ...,
+        [-0.0241,  0.0062, -0.2404,  ..., -0.0752,  0.1456,  0.0718],
+        [-0.0328, -0.0202, -0.2143,  ..., -0.3344,  0.1277, -0.2324],
+        [ 0.0152, -0.0258, -0.1189,  ...,  0.0401, -0.1975,  0.0239]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          1.8626e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  6.5193e-09,
+          6.1467e-08,  3.4459e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          5.3365e-07,  2.1048e-07],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+         -6.2212e-07, -2.4308e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  6.5193e-09,
+          5.5879e-09,  8.3819e-09]], device='cuda:0')
+Epoch 427, bias, value: tensor([-0.0212,  0.0148,  0.0230,  0.0039,  0.0367, -0.0188, -0.0026, -0.0202,
+        -0.0273,  0.0060], device='cuda:0'), grad: tensor([ 1.8626e-08,  4.6287e-07,  4.0494e-06,  1.4063e-07, -5.2154e-08,
+        -3.3528e-08,  1.3970e-08, -4.6827e-06,  4.6566e-09,  6.6124e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 426, time 220.33, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4313 re_mapping 0.0027 re_causal 0.0096 /// teacc 99.12 lr 0.00001000
+Epoch 428, weight, value: tensor([[-0.0021,  0.0110,  0.0630,  ...,  0.0885, -0.2900, -0.1834],
+        [ 0.0583, -0.0185, -0.0541,  ..., -0.3365,  0.0528, -0.1081],
+        [-0.0111, -0.0048,  0.2644,  ..., -0.3416, -0.1606, -0.1872],
+        ...,
+        [-0.0241,  0.0062, -0.2404,  ..., -0.0752,  0.1456,  0.0719],
+        [-0.0328, -0.0202, -0.2144,  ..., -0.3344,  0.1277, -0.2324],
+        [ 0.0152, -0.0258, -0.1190,  ...,  0.0402, -0.1975,  0.0239]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -5.7742e-08,  ..., -1.0990e-07,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  3.7253e-09,
+         -5.5879e-09,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00, -8.6613e-08,  ...,  2.3283e-08,
+          1.0245e-08,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  8.7544e-08,  ...,  2.7940e-09,
+         -4.6566e-09,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.9116e-08,  ...,  7.0781e-08,
+          0.0000e+00, -8.3819e-09]], device='cuda:0')
+Epoch 428, bias, value: tensor([-0.0213,  0.0148,  0.0230,  0.0039,  0.0367, -0.0188, -0.0026, -0.0202,
+        -0.0273,  0.0060], device='cuda:0'), grad: tensor([-2.4121e-07,  4.6566e-09, -1.2945e-07, -8.3819e-09,  6.5193e-09,
+         1.8626e-09,  9.3132e-09,  1.8999e-07,  1.1176e-08,  1.4901e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 427, time 220.23, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4318 re_mapping 0.0026 re_causal 0.0095 /// teacc 99.10 lr 0.00001000
+Epoch 429, weight, value: tensor([[-0.0022,  0.0110,  0.0631,  ...,  0.0885, -0.2900, -0.1834],
+        [ 0.0583, -0.0185, -0.0541,  ..., -0.3366,  0.0528, -0.1082],
+        [-0.0111, -0.0048,  0.2644,  ..., -0.3416, -0.1607, -0.1873],
+        ...,
+        [-0.0241,  0.0062, -0.2405,  ..., -0.0753,  0.1456,  0.0719],
+        [-0.0328, -0.0202, -0.2144,  ..., -0.3344,  0.1277, -0.2325],
+        [ 0.0152, -0.0258, -0.1190,  ...,  0.0402, -0.1975,  0.0239]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.6566e-09,  ..., -4.6566e-09,
+          9.3132e-10,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  1.0245e-08,
+         -6.5193e-09,  1.3970e-08],
+        [ 0.0000e+00,  0.0000e+00, -3.8184e-08,  ...,  6.5193e-09,
+          5.5879e-09,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.4214e-08,  ...,  1.8626e-09,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  1.8626e-09]], device='cuda:0')
+Epoch 429, bias, value: tensor([-0.0212,  0.0148,  0.0230,  0.0039,  0.0367, -0.0188, -0.0026, -0.0202,
+        -0.0273,  0.0060], device='cuda:0'), grad: tensor([-1.8626e-09,  2.1420e-08, -4.8429e-08,  5.5879e-09, -8.9407e-08,
+        -8.2888e-08,  9.4995e-08,  5.2154e-08,  3.8184e-08,  3.7253e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 428, time 220.48, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4613 re_mapping 0.0026 re_causal 0.0097 /// teacc 99.11 lr 0.00001000
+Epoch 430, weight, value: tensor([[-0.0022,  0.0110,  0.0631,  ...,  0.0885, -0.2900, -0.1835],
+        [ 0.0583, -0.0185, -0.0541,  ..., -0.3367,  0.0528, -0.1082],
+        [-0.0111, -0.0048,  0.2645,  ..., -0.3417, -0.1607, -0.1873],
+        ...,
+        [-0.0241,  0.0062, -0.2405,  ..., -0.0753,  0.1456,  0.0719],
+        [-0.0329, -0.0202, -0.2144,  ..., -0.3344,  0.1277, -0.2325],
+        [ 0.0153, -0.0258, -0.1191,  ...,  0.0402, -0.1975,  0.0239]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ...,  9.3132e-10,
+          5.5879e-09,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  7.4506e-09,  ...,  9.3132e-10,
+          6.8918e-08,  2.8871e-08],
+        [ 0.0000e+00,  0.0000e+00, -1.7788e-07,  ...,  0.0000e+00,
+          7.4506e-09, -8.3819e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.6391e-07,  ...,  0.0000e+00,
+         -6.0536e-08, -2.2352e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.8626e-09,
+         -1.7695e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -7.4506e-09,
+          4.6566e-09, -4.6566e-09]], device='cuda:0')
+Epoch 430, bias, value: tensor([-0.0212,  0.0148,  0.0230,  0.0039,  0.0367, -0.0188, -0.0027, -0.0202,
+        -0.0273,  0.0060], device='cuda:0'), grad: tensor([ 4.0047e-08,  3.0361e-07, -5.1223e-07,  9.9652e-08,  2.6077e-08,
+        -2.0117e-07, -7.4506e-08,  3.5111e-07, -7.4506e-08,  4.3772e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 429, time 220.27, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4235 re_mapping 0.0027 re_causal 0.0094 /// teacc 99.09 lr 0.00001000
+Epoch 431, weight, value: tensor([[-0.0022,  0.0110,  0.0632,  ...,  0.0884, -0.2900, -0.1836],
+        [ 0.0583, -0.0185, -0.0541,  ..., -0.3369,  0.0528, -0.1083],
+        [-0.0112, -0.0048,  0.2645,  ..., -0.3417, -0.1607, -0.1874],
+        ...,
+        [-0.0241,  0.0062, -0.2405,  ..., -0.0753,  0.1456,  0.0720],
+        [-0.0329, -0.0202, -0.2145,  ..., -0.3345,  0.1277, -0.2326],
+        [ 0.0153, -0.0258, -0.1192,  ...,  0.0402, -0.1975,  0.0239]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          9.3132e-10,  2.6077e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.0245e-08,
+         -3.7253e-09,  2.5146e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.2107e-08,
+          0.0000e+00,  2.7008e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  2.5146e-08,
+          0.0000e+00,  2.4214e-08]], device='cuda:0')
+Epoch 431, bias, value: tensor([-0.0213,  0.0148,  0.0230,  0.0039,  0.0367, -0.0188, -0.0027, -0.0202,
+        -0.0273,  0.0060], device='cuda:0'), grad: tensor([ 1.4901e-08,  5.4017e-08,  9.3132e-10,  2.6077e-08, -1.6298e-07,
+        -3.1665e-08,  4.6566e-09,  2.7940e-08,  4.7497e-08,  2.3283e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 430, time 220.46, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4935 re_mapping 0.0027 re_causal 0.0101 /// teacc 99.11 lr 0.00001000
+Epoch 432, weight, value: tensor([[-0.0022,  0.0110,  0.0635,  ...,  0.0885, -0.2900, -0.1837],
+        [ 0.0583, -0.0185, -0.0541,  ..., -0.3372,  0.0528, -0.1085],
+        [-0.0112, -0.0048,  0.2645,  ..., -0.3418, -0.1608, -0.1875],
+        ...,
+        [-0.0241,  0.0062, -0.2405,  ..., -0.0754,  0.1456,  0.0720],
+        [-0.0329, -0.0202, -0.2145,  ..., -0.3345,  0.1277, -0.2326],
+        [ 0.0153, -0.0258, -0.1192,  ...,  0.0402, -0.1975,  0.0240]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.1176e-08,  ...,  0.0000e+00,
+         -9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.9558e-08,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.4901e-08,  ...,  0.0000e+00,
+         -9.3132e-10,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 432, bias, value: tensor([-0.0212,  0.0148,  0.0230,  0.0039,  0.0367, -0.0188, -0.0027, -0.0202,
+        -0.0274,  0.0061], device='cuda:0'), grad: tensor([ 3.0734e-08,  2.9802e-08,  5.6811e-08, -2.1234e-07,  5.5879e-09,
+         4.8429e-08, -1.9558e-08,  2.2352e-08,  4.5635e-08,  9.3132e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 431, time 220.56, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4378 re_mapping 0.0027 re_causal 0.0097 /// teacc 99.10 lr 0.00001000
+Epoch 433, weight, value: tensor([[-0.0022,  0.0110,  0.0637,  ...,  0.0885, -0.2901, -0.1837],
+        [ 0.0583, -0.0185, -0.0542,  ..., -0.3375,  0.0528, -0.1086],
+        [-0.0112, -0.0048,  0.2645,  ..., -0.3419, -0.1608, -0.1876],
+        ...,
+        [-0.0241,  0.0062, -0.2406,  ..., -0.0755,  0.1456,  0.0720],
+        [-0.0329, -0.0202, -0.2146,  ..., -0.3345,  0.1277, -0.2327],
+        [ 0.0153, -0.0258, -0.1193,  ...,  0.0402, -0.1976,  0.0240]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  4.6566e-09,
+          9.3132e-10,  8.3819e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.5367e-07,  1.8720e-07],
+        [ 0.0000e+00,  0.0000e+00, -9.3132e-10,  ...,  2.7940e-09,
+          9.3132e-09,  1.2107e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+         -2.1234e-07, -2.8685e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+         -1.8626e-08,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.3039e-08,
+          1.2107e-08, -3.7253e-09]], device='cuda:0')
+Epoch 433, bias, value: tensor([-0.0211,  0.0148,  0.0229,  0.0039,  0.0367, -0.0189, -0.0027, -0.0202,
+        -0.0274,  0.0061], device='cuda:0'), grad: tensor([ 2.4214e-08,  8.4937e-07,  3.8184e-08,  2.8592e-07,  2.5146e-08,
+        -8.3819e-09,  2.7008e-08, -1.1967e-06, -7.6368e-08,  3.4459e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 432, time 220.36, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4382 re_mapping 0.0027 re_causal 0.0097 /// teacc 99.15 lr 0.00001000
+Epoch 434, weight, value: tensor([[-0.0022,  0.0110,  0.0638,  ...,  0.0885, -0.2901, -0.1837],
+        [ 0.0583, -0.0185, -0.0542,  ..., -0.3376,  0.0528, -0.1087],
+        [-0.0112, -0.0048,  0.2645,  ..., -0.3420, -0.1609, -0.1876],
+        ...,
+        [-0.0241,  0.0062, -0.2406,  ..., -0.0755,  0.1456,  0.0720],
+        [-0.0329, -0.0202, -0.2146,  ..., -0.3345,  0.1277, -0.2327],
+        [ 0.0153, -0.0258, -0.1194,  ...,  0.0402, -0.1975,  0.0240]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ..., -9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  2.7940e-09,
+         -9.3132e-10,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.5879e-09,
+          0.0000e+00,  1.2107e-08]], device='cuda:0')
+Epoch 434, bias, value: tensor([-0.0210,  0.0147,  0.0229,  0.0039,  0.0367, -0.0188, -0.0027, -0.0202,
+        -0.0274,  0.0061], device='cuda:0'), grad: tensor([-1.8626e-09,  4.6566e-09,  9.3132e-10,  1.9558e-08, -2.2352e-08,
+        -3.5390e-08,  1.2107e-08,  3.7253e-09,  1.3039e-08,  1.5832e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 433, time 220.68, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4266 re_mapping 0.0027 re_causal 0.0095 /// teacc 99.13 lr 0.00001000
+Epoch 435, weight, value: tensor([[-0.0022,  0.0110,  0.0638,  ...,  0.0886, -0.2901, -0.1837],
+        [ 0.0583, -0.0185, -0.0542,  ..., -0.3376,  0.0528, -0.1087],
+        [-0.0112, -0.0048,  0.2645,  ..., -0.3420, -0.1610, -0.1876],
+        ...,
+        [-0.0241,  0.0062, -0.2406,  ..., -0.0755,  0.1456,  0.0720],
+        [-0.0329, -0.0202, -0.2147,  ..., -0.3345,  0.1277, -0.2327],
+        [ 0.0153, -0.0258, -0.1195,  ...,  0.0402, -0.1975,  0.0240]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.7940e-09,  ..., -2.7940e-09,
+          6.9849e-09,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  1.3970e-09,
+          0.0000e+00,  3.2596e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.3970e-09,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  5.1223e-09,
+         -4.6566e-09,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  3.7253e-09,
+          1.3970e-09,  9.7789e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ..., -6.3330e-08,
+          3.2596e-09, -1.2852e-07]], device='cuda:0')
+Epoch 435, bias, value: tensor([-0.0210,  0.0148,  0.0228,  0.0040,  0.0367, -0.0188, -0.0027, -0.0202,
+        -0.0274,  0.0061], device='cuda:0'), grad: tensor([ 5.9139e-08,  1.1642e-08,  1.0710e-08, -4.1910e-09,  1.3970e-07,
+         1.3877e-07, -1.5553e-07,  0.0000e+00,  6.0536e-08, -2.5006e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 434, time 220.77, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4250 re_mapping 0.0027 re_causal 0.0096 /// teacc 99.13 lr 0.00001000
+Epoch 436, weight, value: tensor([[-0.0022,  0.0110,  0.0639,  ...,  0.0886, -0.2901, -0.1837],
+        [ 0.0583, -0.0185, -0.0542,  ..., -0.3377,  0.0528, -0.1088],
+        [-0.0112, -0.0048,  0.2645,  ..., -0.3421, -0.1610, -0.1877],
+        ...,
+        [-0.0241,  0.0062, -0.2407,  ..., -0.0756,  0.1456,  0.0721],
+        [-0.0329, -0.0202, -0.2147,  ..., -0.3346,  0.1277, -0.2328],
+        [ 0.0153, -0.0258, -0.1196,  ...,  0.0402, -0.1976,  0.0240]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  4.6566e-10,
+          4.6566e-10,  4.1910e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  0.0000e+00,
+          1.8626e-09,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  4.6566e-10,
+         -3.2596e-09, -1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -3.7253e-09,
+          9.3132e-10, -1.5367e-08]], device='cuda:0')
+Epoch 436, bias, value: tensor([-0.0210,  0.0148,  0.0228,  0.0040,  0.0367, -0.0189, -0.0027, -0.0202,
+        -0.0274,  0.0061], device='cuda:0'), grad: tensor([ 5.5879e-09,  9.7789e-09,  1.0710e-08, -4.7963e-08,  1.4435e-08,
+         2.9337e-08, -3.7253e-09,  1.3970e-09,  3.2596e-09, -2.1420e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 435, time 220.41, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4628 re_mapping 0.0027 re_causal 0.0100 /// teacc 99.13 lr 0.00001000
+Epoch 437, weight, value: tensor([[-0.0022,  0.0110,  0.0640,  ...,  0.0886, -0.2901, -0.1838],
+        [ 0.0583, -0.0185, -0.0543,  ..., -0.3378,  0.0528, -0.1089],
+        [-0.0112, -0.0048,  0.2646,  ..., -0.3422, -0.1610, -0.1877],
+        ...,
+        [-0.0241,  0.0062, -0.2407,  ..., -0.0756,  0.1456,  0.0722],
+        [-0.0329, -0.0202, -0.2148,  ..., -0.3346,  0.1277, -0.2328],
+        [ 0.0153, -0.0258, -0.1197,  ...,  0.0402, -0.1977,  0.0240]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.3283e-09,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          2.3283e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00, -7.4506e-09,  ...,  0.0000e+00,
+          2.7940e-09,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+         -5.2154e-08, -3.2596e-08],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          5.1223e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          6.5193e-09,  3.7253e-09]], device='cuda:0')
+Epoch 437, bias, value: tensor([-0.0210,  0.0147,  0.0229,  0.0040,  0.0367, -0.0189, -0.0027, -0.0202,
+        -0.0275,  0.0061], device='cuda:0'), grad: tensor([ 3.0268e-08,  4.1910e-09,  1.8626e-09,  8.0094e-08,  6.9849e-09,
+         3.3993e-08, -8.4285e-08, -1.1874e-07,  3.4925e-08,  1.9092e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 436, time 220.40, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4545 re_mapping 0.0026 re_causal 0.0098 /// teacc 99.11 lr 0.00001000
+Epoch 438, weight, value: tensor([[-0.0022,  0.0110,  0.0641,  ...,  0.0886, -0.2902, -0.1838],
+        [ 0.0582, -0.0185, -0.0543,  ..., -0.3379,  0.0528, -0.1088],
+        [-0.0112, -0.0048,  0.2647,  ..., -0.3423, -0.1611, -0.1878],
+        ...,
+        [-0.0241,  0.0062, -0.2408,  ..., -0.0757,  0.1456,  0.0721],
+        [-0.0329, -0.0202, -0.2148,  ..., -0.3347,  0.1277, -0.2329],
+        [ 0.0153, -0.0258, -0.1197,  ...,  0.0402, -0.1977,  0.0240]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          9.3132e-10,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  7.9162e-09,
+         -7.7300e-08,  1.5367e-08],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          1.3504e-08,  1.3970e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+          6.3330e-08, -4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00, -9.3132e-10,  ...,  4.6566e-10,
+         -6.9849e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  1.9558e-08,
+          1.8626e-09,  1.2107e-08]], device='cuda:0')
+Epoch 438, bias, value: tensor([-0.0210,  0.0148,  0.0229,  0.0040,  0.0367, -0.0189, -0.0027, -0.0202,
+        -0.0275,  0.0061], device='cuda:0'), grad: tensor([ 6.5193e-09, -2.6776e-07,  4.5169e-08,  1.5832e-08, -4.7032e-08,
+        -3.7253e-09, -3.7253e-09,  2.4494e-07, -1.2573e-08,  3.3062e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 437, time 220.47, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4378 re_mapping 0.0026 re_causal 0.0098 /// teacc 99.13 lr 0.00001000
+Epoch 439, weight, value: tensor([[-0.0022,  0.0110,  0.0642,  ...,  0.0887, -0.2902, -0.1839],
+        [ 0.0582, -0.0185, -0.0543,  ..., -0.3380,  0.0528, -0.1089],
+        [-0.0112, -0.0048,  0.2647,  ..., -0.3423, -0.1611, -0.1879],
+        ...,
+        [-0.0241,  0.0062, -0.2408,  ..., -0.0757,  0.1456,  0.0722],
+        [-0.0329, -0.0202, -0.2149,  ..., -0.3347,  0.1278, -0.2329],
+        [ 0.0153, -0.0258, -0.1198,  ...,  0.0402, -0.1978,  0.0240]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.5832e-08,  ..., -4.6566e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -2.3283e-09,  6.9849e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          9.3132e-09,  6.0536e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+         -1.0245e-08, -1.3504e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00]], device='cuda:0')
+Epoch 439, bias, value: tensor([-0.0209,  0.0148,  0.0229,  0.0039,  0.0366, -0.0188, -0.0028, -0.0202,
+        -0.0275,  0.0061], device='cuda:0'), grad: tensor([-6.0536e-08, -1.2573e-08,  2.5611e-08,  4.0978e-08,  2.3283e-09,
+        -6.7521e-08,  5.8673e-08, -1.6764e-08,  3.3528e-08,  3.7253e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 438, time 220.94, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4187 re_mapping 0.0027 re_causal 0.0094 /// teacc 99.11 lr 0.00001000
+Epoch 440, weight, value: tensor([[-0.0022,  0.0110,  0.0642,  ...,  0.0887, -0.2902, -0.1840],
+        [ 0.0582, -0.0185, -0.0543,  ..., -0.3381,  0.0528, -0.1089],
+        [-0.0112, -0.0048,  0.2647,  ..., -0.3423, -0.1612, -0.1880],
+        ...,
+        [-0.0241,  0.0062, -0.2408,  ..., -0.0757,  0.1456,  0.0722],
+        [-0.0329, -0.0202, -0.2149,  ..., -0.3347,  0.1278, -0.2330],
+        [ 0.0153, -0.0258, -0.1198,  ...,  0.0403, -0.1978,  0.0241]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ..., -4.6566e-10,
+          0.0000e+00,  1.3504e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.2596e-09,  ...,  2.3283e-09,
+          1.8626e-09,  1.2107e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.9092e-08,  ...,  1.8626e-09,
+          4.6566e-10,  1.5367e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-09,
+         -4.6566e-10,  1.1176e-08],
+        [ 0.0000e+00,  0.0000e+00,  4.1910e-09,  ...,  1.8626e-09,
+          4.6566e-10,  1.2107e-08],
+        [ 0.0000e+00,  0.0000e+00, -2.1420e-08,  ..., -6.9849e-09,
+         -1.3970e-09, -9.8720e-08]], device='cuda:0')
+Epoch 440, bias, value: tensor([-0.0209,  0.0148,  0.0229,  0.0039,  0.0366, -0.0188, -0.0028, -0.0202,
+        -0.0276,  0.0062], device='cuda:0'), grad: tensor([ 3.3993e-08,  3.4459e-08,  8.3819e-08, -2.7474e-08,  2.1886e-08,
+         4.2841e-08,  7.9162e-09,  2.1886e-08,  3.6787e-08, -2.4727e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 439, time 220.61, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4319 re_mapping 0.0027 re_causal 0.0096 /// teacc 99.12 lr 0.00001000
+Epoch 441, weight, value: tensor([[-0.0022,  0.0110,  0.0643,  ...,  0.0886, -0.2902, -0.1841],
+        [ 0.0582, -0.0185, -0.0543,  ..., -0.3382,  0.0528, -0.1090],
+        [-0.0112, -0.0048,  0.2647,  ..., -0.3424, -0.1612, -0.1881],
+        ...,
+        [-0.0242,  0.0062, -0.2409,  ..., -0.0758,  0.1456,  0.0722],
+        [-0.0329, -0.0202, -0.2150,  ..., -0.3348,  0.1278, -0.2330],
+        [ 0.0153, -0.0258, -0.1199,  ...,  0.0403, -0.1979,  0.0241]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.3283e-09,  ...,  0.0000e+00,
+          2.7940e-09,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+         -1.8161e-07, -7.3109e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          1.1642e-08,  5.1223e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          3.0734e-08,  1.0710e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+          2.8871e-08,  1.3039e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ..., -4.6566e-09,
+          1.3970e-09, -1.4435e-08]], device='cuda:0')
+Epoch 441, bias, value: tensor([-0.0209,  0.0147,  0.0229,  0.0039,  0.0366, -0.0188, -0.0028, -0.0202,
+        -0.0276,  0.0062], device='cuda:0'), grad: tensor([ 2.0955e-08, -7.6881e-07,  5.4017e-08, -4.0513e-08,  2.9569e-07,
+         6.4261e-08,  1.0384e-07,  1.4063e-07,  1.2992e-07, -6.5193e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 440, time 220.47, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4297 re_mapping 0.0026 re_causal 0.0096 /// teacc 99.13 lr 0.00001000
+Epoch 442, weight, value: tensor([[-0.0022,  0.0110,  0.0644,  ...,  0.0887, -0.2903, -0.1841],
+        [ 0.0582, -0.0185, -0.0543,  ..., -0.3382,  0.0528, -0.1090],
+        [-0.0112, -0.0048,  0.2647,  ..., -0.3424, -0.1613, -0.1882],
+        ...,
+        [-0.0242,  0.0062, -0.2409,  ..., -0.0758,  0.1456,  0.0723],
+        [-0.0329, -0.0202, -0.2151,  ..., -0.3348,  0.1278, -0.2331],
+        [ 0.0153, -0.0258, -0.1199,  ...,  0.0403, -0.1980,  0.0241]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          6.9849e-09,  4.1910e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.0710e-08,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+         -3.2596e-09, -6.9849e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.0245e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  4.6566e-10]], device='cuda:0')
+Epoch 442, bias, value: tensor([-0.0209,  0.0147,  0.0229,  0.0039,  0.0366, -0.0188, -0.0028, -0.0202,
+        -0.0276,  0.0062], device='cuda:0'), grad: tensor([ 1.1642e-08,  2.7940e-08,  2.1420e-08, -1.9558e-08,  2.7008e-08,
+         1.5832e-08, -3.3528e-08, -1.7695e-08, -3.3528e-08,  3.2596e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 441, time 220.81, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4063 re_mapping 0.0026 re_causal 0.0093 /// teacc 99.09 lr 0.00001000
+Epoch 443, weight, value: tensor([[-0.0022,  0.0110,  0.0644,  ...,  0.0886, -0.2903, -0.1842],
+        [ 0.0582, -0.0185, -0.0543,  ..., -0.3383,  0.0528, -0.1091],
+        [-0.0112, -0.0048,  0.2647,  ..., -0.3425, -0.1613, -0.1882],
+        ...,
+        [-0.0242,  0.0062, -0.2410,  ..., -0.0758,  0.1456,  0.0723],
+        [-0.0329, -0.0202, -0.2151,  ..., -0.3348,  0.1278, -0.2331],
+        [ 0.0153, -0.0258, -0.1200,  ...,  0.0403, -0.1981,  0.0241]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  3.3062e-08,  ..., -1.4901e-08,
+          0.0000e+00,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.2495e-05,  ...,  4.6566e-10,
+          0.0000e+00,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00, -1.2986e-05,  ...,  9.3132e-10,
+          0.0000e+00,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.0710e-08,  ...,  0.0000e+00,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.3039e-07,  ...,  1.4435e-08,
+         -1.3970e-09,  9.3132e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.9116e-08,  ..., -1.5367e-08,
+          0.0000e+00, -3.2596e-08]], device='cuda:0')
+Epoch 443, bias, value: tensor([-0.0209,  0.0147,  0.0229,  0.0039,  0.0366, -0.0188, -0.0027, -0.0202,
+        -0.0276,  0.0062], device='cuda:0'), grad: tensor([ 5.2154e-08,  2.4483e-05, -2.5421e-05,  1.7509e-07,  2.0629e-07,
+         1.3877e-07,  1.1409e-07,  2.4680e-08,  2.9150e-07, -3.7253e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 442, time 220.55, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4327 re_mapping 0.0026 re_causal 0.0094 /// teacc 99.09 lr 0.00001000
+Epoch 444, weight, value: tensor([[-0.0022,  0.0110,  0.0646,  ...,  0.0887, -0.2903, -0.1842],
+        [ 0.0582, -0.0185, -0.0544,  ..., -0.3384,  0.0528, -0.1091],
+        [-0.0112, -0.0048,  0.2648,  ..., -0.3426, -0.1614, -0.1884],
+        ...,
+        [-0.0242,  0.0062, -0.2410,  ..., -0.0759,  0.1457,  0.0724],
+        [-0.0329, -0.0202, -0.2152,  ..., -0.3348,  0.1278, -0.2331],
+        [ 0.0153, -0.0258, -0.1200,  ...,  0.0403, -0.1981,  0.0241]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          1.2573e-08,  8.8476e-09],
+        [ 0.0000e+00,  0.0000e+00, -5.5879e-09,  ...,  0.0000e+00,
+          1.8626e-09,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  0.0000e+00,
+         -5.0757e-08, -9.1270e-08],
+        [ 0.0000e+00,  0.0000e+00, -4.6566e-10,  ...,  0.0000e+00,
+         -4.6566e-10,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -2.3283e-09,
+          2.7940e-09, -5.1223e-09]], device='cuda:0')
+Epoch 444, bias, value: tensor([-0.0209,  0.0147,  0.0229,  0.0039,  0.0366, -0.0188, -0.0027, -0.0202,
+        -0.0277,  0.0062], device='cuda:0'), grad: tensor([ 1.0710e-08,  4.2375e-08, -3.7253e-09,  2.3283e-09,  3.4925e-08,
+         9.5926e-08,  0.0000e+00, -1.8440e-07,  1.3970e-09,  0.0000e+00],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 443, time 220.48, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4332 re_mapping 0.0026 re_causal 0.0093 /// teacc 99.10 lr 0.00001000
+Epoch 445, weight, value: tensor([[-0.0022,  0.0110,  0.0646,  ...,  0.0887, -0.2904, -0.1842],
+        [ 0.0581, -0.0185, -0.0545,  ..., -0.3384,  0.0528, -0.1092],
+        [-0.0111, -0.0048,  0.2649,  ..., -0.3426, -0.1615, -0.1883],
+        ...,
+        [-0.0242,  0.0062, -0.2411,  ..., -0.0759,  0.1457,  0.0724],
+        [-0.0329, -0.0202, -0.2152,  ..., -0.3349,  0.1278, -0.2333],
+        [ 0.0153, -0.0258, -0.1201,  ...,  0.0403, -0.1982,  0.0241]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -5.3551e-08,  ..., -4.3306e-08,
+          9.3132e-10,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  2.3283e-09,
+          1.7369e-07,  1.5413e-07],
+        [ 0.0000e+00,  0.0000e+00,  1.6764e-08,  ...,  1.3504e-08,
+          3.1665e-08,  2.8871e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+         -3.8836e-07, -3.4738e-07],
+        [ 0.0000e+00,  0.0000e+00,  6.9849e-09,  ...,  5.5879e-09,
+          3.2596e-09,  2.3283e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.2573e-08,  ...,  1.6298e-08,
+          4.4238e-08,  4.8894e-08]], device='cuda:0')
+Epoch 445, bias, value: tensor([-0.0209,  0.0147,  0.0229,  0.0039,  0.0366, -0.0188, -0.0027, -0.0202,
+        -0.0277,  0.0062], device='cuda:0'), grad: tensor([-1.3458e-07,  5.9325e-07,  1.5879e-07,  5.1176e-07, -6.0536e-09,
+        -2.3283e-07,  2.1933e-07, -1.3411e-06,  4.8429e-08,  1.9278e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 444, time 220.51, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4179 re_mapping 0.0025 re_causal 0.0088 /// teacc 99.09 lr 0.00001000
+Epoch 446, weight, value: tensor([[-0.0022,  0.0110,  0.0647,  ...,  0.0887, -0.2904, -0.1842],
+        [ 0.0581, -0.0185, -0.0546,  ..., -0.3386,  0.0528, -0.1094],
+        [-0.0111, -0.0048,  0.2650,  ..., -0.3427, -0.1617, -0.1886],
+        ...,
+        [-0.0242,  0.0062, -0.2412,  ..., -0.0760,  0.1457,  0.0725],
+        [-0.0329, -0.0202, -0.2153,  ..., -0.3350,  0.1279, -0.2333],
+        [ 0.0153, -0.0258, -0.1203,  ...,  0.0403, -0.1983,  0.0241]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  6.0536e-09,  ...,  0.0000e+00,
+          9.3132e-10,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  1.8626e-09,
+          2.6543e-08,  2.0023e-08],
+        [ 0.0000e+00,  0.0000e+00, -3.3993e-08,  ...,  0.0000e+00,
+          5.5879e-09,  3.7253e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.2352e-08,  ...,  4.6566e-10,
+         -4.2841e-08, -2.9802e-08],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  4.6566e-10,
+         -1.3970e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ..., -2.3283e-09,
+          2.3283e-09, -2.3283e-09]], device='cuda:0')
+Epoch 446, bias, value: tensor([-0.0208,  0.0147,  0.0230,  0.0040,  0.0366, -0.0189, -0.0028, -0.0201,
+        -0.0277,  0.0062], device='cuda:0'), grad: tensor([ 4.7032e-08,  8.2422e-08, -5.7742e-08, -9.7789e-09,  2.1886e-08,
+         2.7940e-09, -2.6077e-08, -7.0315e-08,  4.6566e-10, -3.7253e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 445, time 220.60, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4401 re_mapping 0.0026 re_causal 0.0093 /// teacc 99.07 lr 0.00001000
+Epoch 447, weight, value: tensor([[-0.0022,  0.0110,  0.0649,  ...,  0.0887, -0.2904, -0.1843],
+        [ 0.0581, -0.0185, -0.0547,  ..., -0.3389,  0.0528, -0.1097],
+        [-0.0111, -0.0048,  0.2651,  ..., -0.3429, -0.1617, -0.1888],
+        ...,
+        [-0.0242,  0.0062, -0.2412,  ..., -0.0760,  0.1457,  0.0728],
+        [-0.0329, -0.0202, -0.2155,  ..., -0.3351,  0.1279, -0.2335],
+        [ 0.0153, -0.0258, -0.1203,  ...,  0.0403, -0.1985,  0.0242]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -3.3062e-08,  ..., -4.7963e-08,
+          4.6566e-10, -7.4506e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.7695e-08,
+          4.6566e-10,  2.8871e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  8.3819e-09,
+          0.0000e+00,  8.3819e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  1.4901e-08,
+          0.0000e+00,  2.3283e-08],
+        [ 0.0000e+00,  0.0000e+00,  4.1910e-09,  ...,  9.3132e-09,
+          4.6566e-10,  6.0536e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.6298e-08,  ...,  2.9337e-08,
+          0.0000e+00,  6.0536e-09]], device='cuda:0')
+Epoch 447, bias, value: tensor([-0.0208,  0.0146,  0.0230,  0.0039,  0.0366, -0.0189, -0.0029, -0.0201,
+        -0.0278,  0.0063], device='cuda:0'), grad: tensor([-1.0477e-07,  6.2399e-08,  2.0489e-08,  1.1642e-08, -1.5507e-07,
+         2.3283e-09,  3.2596e-08,  5.2620e-08,  2.5146e-08,  5.9605e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 446, time 220.30, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4428 re_mapping 0.0026 re_causal 0.0093 /// teacc 99.07 lr 0.00001000
+Epoch 448, weight, value: tensor([[-0.0022,  0.0110,  0.0650,  ...,  0.0888, -0.2905, -0.1844],
+        [ 0.0581, -0.0185, -0.0547,  ..., -0.3390,  0.0527, -0.1100],
+        [-0.0111, -0.0048,  0.2652,  ..., -0.3430, -0.1618, -0.1889],
+        ...,
+        [-0.0242,  0.0062, -0.2413,  ..., -0.0761,  0.1458,  0.0730],
+        [-0.0329, -0.0202, -0.2155,  ..., -0.3351,  0.1279, -0.2335],
+        [ 0.0153, -0.0258, -0.1204,  ...,  0.0403, -0.1986,  0.0242]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  1.2573e-08,
+          4.6100e-08,  4.1444e-08],
+        [ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ...,  1.3970e-09,
+          1.7229e-08,  1.2107e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -5.7276e-08,
+         -2.5565e-07, -1.9139e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  8.3819e-09,
+          3.2596e-08,  2.6077e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  3.0268e-08,
+          1.1129e-07,  9.0338e-08]], device='cuda:0')
+Epoch 448, bias, value: tensor([-0.0207,  0.0146,  0.0230,  0.0039,  0.0366, -0.0189, -0.0029, -0.0201,
+        -0.0278,  0.0063], device='cuda:0'), grad: tensor([ 3.2596e-09,  1.1548e-07,  4.4238e-08,  3.2596e-08,  4.5635e-08,
+         4.1910e-09,  1.2573e-08, -6.0769e-07,  8.3353e-08,  2.7288e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 447, time 220.44, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4359 re_mapping 0.0025 re_causal 0.0094 /// teacc 99.08 lr 0.00001000
+Epoch 449, weight, value: tensor([[-0.0022,  0.0110,  0.0651,  ...,  0.0889, -0.2905, -0.1844],
+        [ 0.0581, -0.0185, -0.0547,  ..., -0.3391,  0.0527, -0.1100],
+        [-0.0111, -0.0048,  0.2652,  ..., -0.3430, -0.1619, -0.1890],
+        ...,
+        [-0.0242,  0.0062, -0.2414,  ..., -0.0761,  0.1458,  0.0730],
+        [-0.0329, -0.0202, -0.2155,  ..., -0.3352,  0.1280, -0.2335],
+        [ 0.0153, -0.0258, -0.1205,  ...,  0.0403, -0.1987,  0.0242]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  5.5879e-09,
+          2.8405e-08,  6.8918e-08],
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ...,  0.0000e+00,
+          3.7253e-09,  1.3970e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  9.3132e-10,
+         -3.4459e-08, -5.6345e-08],
+        [ 0.0000e+00,  0.0000e+00, -2.3283e-09,  ...,  0.0000e+00,
+         -6.9849e-09,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.8626e-09,
+          4.6566e-09, -1.0245e-08]], device='cuda:0')
+Epoch 449, bias, value: tensor([-0.0206,  0.0146,  0.0229,  0.0040,  0.0366, -0.0190, -0.0030, -0.0201,
+        -0.0278,  0.0063], device='cuda:0'), grad: tensor([ 4.1910e-09,  1.8487e-07,  2.4680e-08,  3.7253e-09, -1.5832e-08,
+         3.7253e-09,  3.2596e-09, -1.7742e-07, -2.4214e-08, -1.0710e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 448, time 220.19, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4399 re_mapping 0.0025 re_causal 0.0092 /// teacc 99.06 lr 0.00001000
+Epoch 450, weight, value: tensor([[-0.0022,  0.0110,  0.0652,  ...,  0.0889, -0.2905, -0.1844],
+        [ 0.0581, -0.0185, -0.0549,  ..., -0.3392,  0.0528, -0.1101],
+        [-0.0111, -0.0048,  0.2654,  ..., -0.3431, -0.1620, -0.1891],
+        ...,
+        [-0.0242,  0.0062, -0.2415,  ..., -0.0762,  0.1458,  0.0731],
+        [-0.0329, -0.0202, -0.2157,  ..., -0.3352,  0.1280, -0.2335],
+        [ 0.0153, -0.0258, -0.1205,  ...,  0.0403, -0.1988,  0.0242]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  5.1223e-09,  ..., -3.3528e-08,
+          1.8626e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          1.4110e-07,  2.3283e-09],
+        [ 0.0000e+00,  0.0000e+00,  8.8476e-09,  ...,  0.0000e+00,
+          1.2573e-08,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-09,  ...,  4.6566e-10,
+         -1.5320e-07,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00, -2.6543e-08,  ...,  4.6566e-10,
+         -1.6764e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.0710e-08,  ...,  0.0000e+00,
+          4.1910e-09, -7.9162e-09]], device='cuda:0')
+Epoch 450, bias, value: tensor([-0.0205,  0.0146,  0.0230,  0.0040,  0.0366, -0.0190, -0.0031, -0.0200,
+        -0.0278,  0.0064], device='cuda:0'), grad: tensor([-2.2678e-07,  3.8557e-07,  7.0315e-08, -1.1642e-08,  2.2352e-08,
+         3.7253e-09,  2.6822e-07, -4.0699e-07, -1.6065e-07,  6.3796e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 449, time 220.33, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4274 re_mapping 0.0025 re_causal 0.0093 /// teacc 99.08 lr 0.00001000
+Epoch 451, weight, value: tensor([[-0.0022,  0.0110,  0.0653,  ...,  0.0890, -0.2905, -0.1844],
+        [ 0.0581, -0.0185, -0.0549,  ..., -0.3393,  0.0528, -0.1103],
+        [-0.0111, -0.0048,  0.2654,  ..., -0.3432, -0.1621, -0.1892],
+        ...,
+        [-0.0242,  0.0062, -0.2415,  ..., -0.0763,  0.1458,  0.0732],
+        [-0.0329, -0.0202, -0.2158,  ..., -0.3353,  0.1280, -0.2337],
+        [ 0.0153, -0.0258, -0.1206,  ...,  0.0404, -0.1989,  0.0242]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.7789e-09,  ...,  0.0000e+00,
+          0.0000e+00,  4.1910e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+          8.8476e-09,  5.5879e-09],
+        [ 0.0000e+00,  0.0000e+00, -5.2620e-08,  ...,  0.0000e+00,
+          2.2352e-08, -1.1642e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.7719e-08,  ...,  0.0000e+00,
+         -3.3528e-08,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  1.3970e-09,
+          1.3970e-09,  3.2596e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -2.7940e-09,
+          9.3132e-10, -3.7253e-09]], device='cuda:0')
+Epoch 451, bias, value: tensor([-0.0205,  0.0145,  0.0230,  0.0040,  0.0365, -0.0190, -0.0031, -0.0200,
+        -0.0279,  0.0064], device='cuda:0'), grad: tensor([ 2.1886e-08,  2.1420e-08, -6.7987e-08, -3.8184e-08,  7.9162e-09,
+         4.1444e-08,  0.0000e+00,  1.9092e-08,  1.1642e-08, -9.3132e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 450, time 220.55, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4227 re_mapping 0.0025 re_causal 0.0091 /// teacc 99.12 lr 0.00001000
+Epoch 452, weight, value: tensor([[-0.0022,  0.0110,  0.0653,  ...,  0.0890, -0.2906, -0.1845],
+        [ 0.0581, -0.0185, -0.0550,  ..., -0.3395,  0.0527, -0.1105],
+        [-0.0111, -0.0048,  0.2655,  ..., -0.3433, -0.1622, -0.1893],
+        ...,
+        [-0.0242,  0.0062, -0.2415,  ..., -0.0763,  0.1458,  0.0735],
+        [-0.0329, -0.0202, -0.2159,  ..., -0.3353,  0.1281, -0.2338],
+        [ 0.0153, -0.0258, -0.1206,  ...,  0.0404, -0.1991,  0.0242]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.3283e-09,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  8.8476e-09,  ...,  9.3132e-10,
+          1.3970e-09,  2.3283e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  0.0000e+00,
+          4.6566e-10,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.1910e-09,  ...,  0.0000e+00,
+         -1.3970e-09, -4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.4901e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.8626e-09,
+          0.0000e+00,  3.7253e-09]], device='cuda:0')
+Epoch 452, bias, value: tensor([-0.0206,  0.0145,  0.0230,  0.0039,  0.0365, -0.0190, -0.0031, -0.0200,
+        -0.0279,  0.0064], device='cuda:0'), grad: tensor([ 8.8476e-09,  3.2596e-08,  1.9558e-08, -1.4435e-07, -6.0536e-09,
+         3.2131e-08,  1.3970e-09,  1.1642e-08,  4.7032e-08,  1.1642e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 451, time 220.40, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4052 re_mapping 0.0025 re_causal 0.0089 /// teacc 99.12 lr 0.00001000
+Epoch 453, weight, value: tensor([[-0.0022,  0.0110,  0.0654,  ...,  0.0890, -0.2907, -0.1845],
+        [ 0.0581, -0.0185, -0.0550,  ..., -0.3396,  0.0527, -0.1108],
+        [-0.0111, -0.0048,  0.2655,  ..., -0.3433, -0.1623, -0.1894],
+        ...,
+        [-0.0242,  0.0062, -0.2417,  ..., -0.0764,  0.1459,  0.0737],
+        [-0.0329, -0.0202, -0.2160,  ..., -0.3354,  0.1280, -0.2339],
+        [ 0.0153, -0.0258, -0.1207,  ...,  0.0404, -0.1992,  0.0242]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.1910e-09,  ..., -3.7253e-09,
+          4.6566e-10,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00, -2.3283e-09,  ...,  2.7940e-09,
+          4.6566e-10,  7.4506e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  2.3283e-09,
+          2.2817e-08,  7.4506e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  1.4901e-08,
+         -5.1223e-09,  1.7229e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -1.3970e-09,
+         -2.8871e-08, -8.8476e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.0757e-07,
+          2.3283e-09,  1.4761e-07]], device='cuda:0')
+Epoch 453, bias, value: tensor([-0.0206,  0.0144,  0.0230,  0.0040,  0.0365, -0.0191, -0.0030, -0.0199,
+        -0.0279,  0.0064], device='cuda:0'), grad: tensor([-7.4506e-09,  3.2596e-09,  5.8208e-08,  5.9139e-08, -2.2585e-07,
+        -6.8918e-08,  0.0000e+00,  1.9092e-08, -3.9116e-08,  2.0489e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 452, time 220.14, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4268 re_mapping 0.0025 re_causal 0.0092 /// teacc 99.12 lr 0.00001000
+Epoch 454, weight, value: tensor([[-0.0022,  0.0110,  0.0654,  ...,  0.0890, -0.2907, -0.1845],
+        [ 0.0580, -0.0185, -0.0550,  ..., -0.3396,  0.0527, -0.1109],
+        [-0.0111, -0.0048,  0.2656,  ..., -0.3434, -0.1624, -0.1895],
+        ...,
+        [-0.0242,  0.0062, -0.2418,  ..., -0.0764,  0.1459,  0.0738],
+        [-0.0329, -0.0202, -0.2160,  ..., -0.3354,  0.1280, -0.2339],
+        [ 0.0153, -0.0258, -0.1208,  ...,  0.0404, -0.1993,  0.0243]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.1910e-09,  ...,  4.6566e-10,
+          1.1642e-08,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-09,  ...,  1.8626e-09,
+         -2.9337e-08,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.4296e-07,  ...,  4.6566e-10,
+          4.6566e-10,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+          2.3283e-09,  2.3283e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  4.6566e-10,
+          1.0710e-08,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ..., -3.7253e-09,
+          1.3970e-09, -9.3132e-09]], device='cuda:0')
+Epoch 454, bias, value: tensor([-0.0207,  0.0144,  0.0230,  0.0039,  0.0365, -0.0190, -0.0029, -0.0199,
+        -0.0280,  0.0064], device='cuda:0'), grad: tensor([ 5.4948e-08, -9.2201e-08,  3.5157e-07, -3.6508e-07,  6.5193e-09,
+        -9.3132e-09,  1.2573e-08,  1.4435e-08,  4.7032e-08, -2.0955e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 453, time 220.07, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4417 re_mapping 0.0025 re_causal 0.0094 /// teacc 99.13 lr 0.00001000
+Epoch 455, weight, value: tensor([[-0.0022,  0.0110,  0.0655,  ...,  0.0889, -0.2908, -0.1847],
+        [ 0.0580, -0.0185, -0.0550,  ..., -0.3398,  0.0526, -0.1110],
+        [-0.0111, -0.0048,  0.2656,  ..., -0.3435, -0.1625, -0.1895],
+        ...,
+        [-0.0242,  0.0062, -0.2419,  ..., -0.0765,  0.1459,  0.0739],
+        [-0.0329, -0.0202, -0.2162,  ..., -0.3354,  0.1280, -0.2340],
+        [ 0.0154, -0.0258, -0.1210,  ...,  0.0404, -0.1994,  0.0243]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.4668e-08,  ..., -1.2573e-08,
+          2.3283e-10, -2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  6.9849e-10,
+         -3.0268e-09,  2.3283e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          5.8208e-09,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  2.3283e-10,
+         -9.3132e-10, -9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          2.3283e-10,  2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  6.9849e-10,
+          2.3283e-10, -1.3970e-09]], device='cuda:0')
+Epoch 455, bias, value: tensor([-0.0207,  0.0144,  0.0230,  0.0040,  0.0365, -0.0191, -0.0029, -0.0199,
+        -0.0280,  0.0064], device='cuda:0'), grad: tensor([-1.1455e-07, -2.0489e-08,  3.0734e-08,  2.3283e-09,  3.2596e-09,
+         1.0710e-08,  9.8720e-08,  4.6566e-10,  3.4925e-09,  3.4925e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 454, time 220.42, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4329 re_mapping 0.0025 re_causal 0.0093 /// teacc 99.13 lr 0.00001000
+Epoch 456, weight, value: tensor([[-0.0022,  0.0110,  0.0656,  ...,  0.0889, -0.2908, -0.1848],
+        [ 0.0579, -0.0185, -0.0550,  ..., -0.3398,  0.0526, -0.1111],
+        [-0.0111, -0.0048,  0.2656,  ..., -0.3435, -0.1626, -0.1896],
+        ...,
+        [-0.0242,  0.0062, -0.2420,  ..., -0.0765,  0.1460,  0.0740],
+        [-0.0329, -0.0202, -0.2162,  ..., -0.3355,  0.1281, -0.2341],
+        [ 0.0154, -0.0258, -0.1211,  ...,  0.0404, -0.1995,  0.0243]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.4680e-08,  ..., -3.3993e-08,
+          2.3283e-10,  2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  3.0268e-09,  ...,  2.3283e-09,
+         -1.1642e-09,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.5611e-09,  ...,  8.3819e-09,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.2596e-09,  ...,  6.5193e-09,
+          9.3132e-10,  8.3819e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  3.7253e-09,
+          2.3283e-10,  2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  3.9581e-09,  ...,  4.4238e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 456, bias, value: tensor([-0.0207,  0.0144,  0.0230,  0.0041,  0.0365, -0.0192, -0.0028, -0.0198,
+        -0.0281,  0.0064], device='cuda:0'), grad: tensor([-1.2456e-07,  5.3551e-09,  3.0734e-08,  2.3516e-08, -5.1223e-09,
+         9.0804e-09,  2.1420e-08,  2.4913e-08,  1.3970e-08,  1.4901e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 455, time 220.29, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4022 re_mapping 0.0025 re_causal 0.0091 /// teacc 99.13 lr 0.00001000
+Epoch 457, weight, value: tensor([[-0.0022,  0.0110,  0.0657,  ...,  0.0889, -0.2909, -0.1849],
+        [ 0.0579, -0.0185, -0.0550,  ..., -0.3399,  0.0526, -0.1112],
+        [-0.0111, -0.0048,  0.2656,  ..., -0.3436, -0.1627, -0.1896],
+        ...,
+        [-0.0242,  0.0062, -0.2421,  ..., -0.0766,  0.1460,  0.0741],
+        [-0.0329, -0.0202, -0.2163,  ..., -0.3355,  0.1281, -0.2341],
+        [ 0.0154, -0.0258, -0.1211,  ...,  0.0404, -0.1996,  0.0243]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  3.2596e-09,  ...,  3.4925e-09,
+          2.3283e-10,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.6298e-09,  ...,  2.5611e-09,
+          9.5228e-08,  1.0710e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.1642e-09,  ...,  1.3970e-09,
+          3.0966e-08,  1.1409e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-09,  ...,  6.0536e-09,
+         -1.4412e-07, -1.1874e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  1.3970e-09,
+          6.9849e-10,  2.3283e-09],
+        [ 0.0000e+00,  0.0000e+00,  6.9849e-10,  ...,  1.8626e-09,
+          6.9849e-10,  5.3551e-09]], device='cuda:0')
+Epoch 457, bias, value: tensor([-0.0208,  0.0144,  0.0230,  0.0041,  0.0365, -0.0192, -0.0028, -0.0198,
+        -0.0281,  0.0064], device='cuda:0'), grad: tensor([ 2.1188e-08,  3.4412e-07,  1.1944e-07,  8.3819e-09, -4.8196e-08,
+         8.8476e-09,  2.7940e-09, -4.7660e-07,  1.1642e-08,  1.6298e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 456, time 220.56, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4452 re_mapping 0.0025 re_causal 0.0095 /// teacc 99.17 lr 0.00001000
+Epoch 458, weight, value: tensor([[-0.0022,  0.0110,  0.0657,  ...,  0.0890, -0.2910, -0.1849],
+        [ 0.0579, -0.0185, -0.0550,  ..., -0.3400,  0.0526, -0.1113],
+        [-0.0111, -0.0048,  0.2657,  ..., -0.3437, -0.1628, -0.1897],
+        ...,
+        [-0.0242,  0.0062, -0.2423,  ..., -0.0767,  0.1460,  0.0741],
+        [-0.0329, -0.0202, -0.2164,  ..., -0.3355,  0.1281, -0.2342],
+        [ 0.0154, -0.0258, -0.1212,  ...,  0.0404, -0.1997,  0.0243]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  0.0000e+00,
+          1.3039e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  8.8476e-09,
+         -8.8476e-09,  2.4214e-08],
+        [ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ...,  2.3283e-10,
+          1.0710e-08,  6.9849e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ..., -1.1642e-08,
+         -6.8219e-08, -5.7276e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.3283e-10,
+          1.8626e-09,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  7.2177e-09,
+          4.2841e-08,  3.4459e-08]], device='cuda:0')
+Epoch 458, bias, value: tensor([-0.0208,  0.0144,  0.0229,  0.0041,  0.0365, -0.0191, -0.0028, -0.0198,
+        -0.0281,  0.0064], device='cuda:0'), grad: tensor([ 5.1688e-08, -6.5193e-08,  3.4925e-08, -3.5390e-08,  6.9849e-10,
+         3.3295e-08,  1.2573e-08, -1.2456e-07,  1.0012e-08,  8.5216e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 457, time 220.56, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4058 re_mapping 0.0025 re_causal 0.0090 /// teacc 99.15 lr 0.00001000
+Epoch 459, weight, value: tensor([[-0.0022,  0.0110,  0.0658,  ...,  0.0890, -0.2911, -0.1850],
+        [ 0.0579, -0.0185, -0.0550,  ..., -0.3400,  0.0526, -0.1113],
+        [-0.0111, -0.0048,  0.2657,  ..., -0.3437, -0.1629, -0.1898],
+        ...,
+        [-0.0242,  0.0062, -0.2423,  ..., -0.0767,  0.1460,  0.0742],
+        [-0.0329, -0.0202, -0.2165,  ..., -0.3356,  0.1281, -0.2342],
+        [ 0.0154, -0.0258, -0.1213,  ...,  0.0404, -0.1998,  0.0243]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.3970e-08,  ..., -6.0070e-08,
+          0.0000e+00, -3.1898e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.1642e-09,  ...,  1.1642e-09,
+         -1.8626e-09,  1.6298e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  4.6566e-10,
+          6.9849e-10,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-09,  ...,  4.6566e-10,
+          1.3970e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  1.8626e-09,
+          4.6566e-10,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.6065e-08,  ...,  5.8906e-08,
+          0.0000e+00,  3.2363e-08]], device='cuda:0')
+Epoch 459, bias, value: tensor([-0.0207,  0.0144,  0.0229,  0.0040,  0.0365, -0.0191, -0.0027, -0.0198,
+        -0.0282,  0.0064], device='cuda:0'), grad: tensor([-1.4389e-07,  9.3132e-10,  9.7789e-09, -1.1735e-07, -8.1491e-09,
+         1.9558e-08,  5.8208e-09,  6.9849e-08,  9.0804e-09,  1.5763e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 458, time 220.54, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4360 re_mapping 0.0025 re_causal 0.0093 /// teacc 99.16 lr 0.00001000
+Epoch 460, weight, value: tensor([[-0.0022,  0.0110,  0.0658,  ...,  0.0891, -0.2911, -0.1850],
+        [ 0.0579, -0.0185, -0.0551,  ..., -0.3401,  0.0525, -0.1116],
+        [-0.0111, -0.0048,  0.2658,  ..., -0.3438, -0.1630, -0.1898],
+        ...,
+        [-0.0242,  0.0062, -0.2424,  ..., -0.0768,  0.1461,  0.0745],
+        [-0.0329, -0.0202, -0.2167,  ..., -0.3356,  0.1281, -0.2343],
+        [ 0.0154, -0.0258, -0.1214,  ...,  0.0404, -0.2001,  0.0243]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.8022e-08,  ...,  0.0000e+00,
+          6.7288e-08,  6.9849e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  4.6566e-10,
+          3.2596e-09,  2.2817e-08],
+        [ 0.0000e+00,  0.0000e+00,  6.9849e-10,  ...,  0.0000e+00,
+          3.9581e-09,  2.3283e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  6.9849e-10,
+         -4.6566e-09,  8.8476e-09],
+        [ 0.0000e+00,  0.0000e+00,  6.9849e-10,  ...,  2.3283e-10,
+          9.3132e-10,  3.0268e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ..., -9.3132e-10,
+         -4.6566e-09, -4.6333e-08]], device='cuda:0')
+Epoch 460, bias, value: tensor([-0.0207,  0.0143,  0.0230,  0.0040,  0.0365, -0.0191, -0.0027, -0.0197,
+        -0.0283,  0.0064], device='cuda:0'), grad: tensor([ 5.1223e-07,  3.6089e-08,  1.5832e-08, -7.9162e-09,  1.9092e-08,
+        -1.5832e-08, -4.9965e-07,  9.0804e-09,  1.8626e-08, -8.1491e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 459, time 220.67, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4289 re_mapping 0.0026 re_causal 0.0093 /// teacc 99.13 lr 0.00001000
+Epoch 461, weight, value: tensor([[-0.0022,  0.0110,  0.0658,  ...,  0.0891, -0.2912, -0.1851],
+        [ 0.0579, -0.0185, -0.0552,  ..., -0.3402,  0.0526, -0.1117],
+        [-0.0111, -0.0048,  0.2659,  ..., -0.3438, -0.1631, -0.1898],
+        ...,
+        [-0.0242,  0.0062, -0.2427,  ..., -0.0768,  0.1461,  0.0746],
+        [-0.0329, -0.0202, -0.2168,  ..., -0.3357,  0.1281, -0.2344],
+        [ 0.0154, -0.0258, -0.1215,  ...,  0.0404, -0.2002,  0.0243]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -5.5879e-09,  ..., -2.4214e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  9.3132e-09,
+          4.6566e-10,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+         -4.6566e-10, -4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  4.6566e-09,
+         -2.3283e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  2.3283e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 461, bias, value: tensor([-0.0208,  0.0143,  0.0231,  0.0040,  0.0365, -0.0191, -0.0028, -0.0198,
+        -0.0283,  0.0064], device='cuda:0'), grad: tensor([-7.2177e-08,  3.7253e-09,  3.0734e-08,  7.4506e-09,  7.9162e-09,
+        -6.0536e-09,  2.1420e-08, -9.3132e-10,  6.0536e-09,  7.4506e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 460, time 220.58, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4224 re_mapping 0.0025 re_causal 0.0091 /// teacc 99.11 lr 0.00001000
+Epoch 462, weight, value: tensor([[-0.0022,  0.0110,  0.0659,  ...,  0.0891, -0.2912, -0.1851],
+        [ 0.0579, -0.0185, -0.0552,  ..., -0.3403,  0.0526, -0.1118],
+        [-0.0111, -0.0048,  0.2660,  ..., -0.3439, -0.1632, -0.1898],
+        ...,
+        [-0.0242,  0.0062, -0.2428,  ..., -0.0768,  0.1461,  0.0747],
+        [-0.0330, -0.0202, -0.2169,  ..., -0.3357,  0.1281, -0.2344],
+        [ 0.0154, -0.0258, -0.1216,  ...,  0.0404, -0.2003,  0.0243]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ..., -1.3970e-09,
+          9.3132e-10,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          4.1910e-09,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00, -1.1176e-08,  ...,  0.0000e+00,
+          2.3283e-09,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+         -1.3970e-08, -9.7789e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+          4.6566e-10,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-09,  ...,  9.3132e-10,
+          5.5879e-09,  4.6566e-09]], device='cuda:0')
+Epoch 462, bias, value: tensor([-0.0207,  0.0143,  0.0231,  0.0040,  0.0365, -0.0191, -0.0028, -0.0198,
+        -0.0284,  0.0064], device='cuda:0'), grad: tensor([ 4.6566e-09,  1.2107e-08, -6.0536e-09, -2.7940e-09,  1.7695e-08,
+         4.6566e-10, -1.5832e-08, -3.4459e-08,  6.9849e-09,  2.2352e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 461, time 220.53, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4298 re_mapping 0.0024 re_causal 0.0089 /// teacc 99.12 lr 0.00001000
+Epoch 463, weight, value: tensor([[-0.0022,  0.0110,  0.0660,  ...,  0.0892, -0.2913, -0.1851],
+        [ 0.0579, -0.0185, -0.0552,  ..., -0.3405,  0.0525, -0.1119],
+        [-0.0111, -0.0048,  0.2660,  ..., -0.3440, -0.1633, -0.1899],
+        ...,
+        [-0.0242,  0.0062, -0.2429,  ..., -0.0769,  0.1461,  0.0747],
+        [-0.0330, -0.0202, -0.2170,  ..., -0.3357,  0.1281, -0.2345],
+        [ 0.0154, -0.0258, -0.1216,  ...,  0.0404, -0.2004,  0.0243]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.1176e-08,  ..., -1.7695e-08,
+          0.0000e+00,  2.3283e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  8.8476e-09,
+          4.1910e-09,  2.0489e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  4.6566e-09,
+          2.1420e-08,  1.9558e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -3.2596e-09,  ...,  3.2596e-08,
+         -2.7940e-08,  4.6566e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          9.3132e-10,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.7789e-09,  ...,  3.1665e-08,
+          4.6566e-10,  3.1199e-08]], device='cuda:0')
+Epoch 463, bias, value: tensor([-0.0207,  0.0143,  0.0230,  0.0040,  0.0365, -0.0191, -0.0028, -0.0197,
+        -0.0284,  0.0064], device='cuda:0'), grad: tensor([-2.2352e-08,  1.1206e-05,  4.3288e-06,  1.6578e-07, -2.5146e-07,
+        -6.7521e-08,  2.6077e-08, -1.5497e-05,  2.0955e-08,  1.0151e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 462, time 221.03, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4279 re_mapping 0.0024 re_causal 0.0089 /// teacc 99.11 lr 0.00001000
+Epoch 464, weight, value: tensor([[-0.0022,  0.0110,  0.0661,  ...,  0.0892, -0.2913, -0.1851],
+        [ 0.0579, -0.0185, -0.0553,  ..., -0.3406,  0.0525, -0.1119],
+        [-0.0111, -0.0048,  0.2661,  ..., -0.3441, -0.1634, -0.1900],
+        ...,
+        [-0.0242,  0.0062, -0.2431,  ..., -0.0770,  0.1461,  0.0748],
+        [-0.0330, -0.0202, -0.2171,  ..., -0.3358,  0.1281, -0.2346],
+        [ 0.0154, -0.0258, -0.1217,  ...,  0.0404, -0.2005,  0.0243]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.7928e-07,  ..., -2.0675e-07,
+          9.3132e-10,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  4.1910e-09,  ...,  6.0536e-09,
+          1.3970e-09,  5.1223e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.3039e-08,  ...,  1.5367e-08,
+          4.6566e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  3.3993e-08,
+          1.3970e-08,  5.0291e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  3.7253e-09,
+         -4.6566e-10,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.7789e-08,  ...,  5.9139e-08,
+         -2.4214e-08, -9.4529e-08]], device='cuda:0')
+Epoch 464, bias, value: tensor([-0.0207,  0.0142,  0.0231,  0.0042,  0.0365, -0.0192, -0.0029, -0.0197,
+        -0.0285,  0.0064], device='cuda:0'), grad: tensor([-6.3702e-07,  2.7474e-08,  5.1688e-08,  6.9849e-08,  7.3574e-08,
+         2.3749e-08,  1.3830e-07,  1.3923e-07,  0.0000e+00,  1.1828e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 463, time 220.74, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4244 re_mapping 0.0024 re_causal 0.0089 /// teacc 99.12 lr 0.00001000
+Epoch 465, weight, value: tensor([[-0.0022,  0.0110,  0.0662,  ...,  0.0893, -0.2914, -0.1852],
+        [ 0.0579, -0.0185, -0.0553,  ..., -0.3407,  0.0525, -0.1120],
+        [-0.0111, -0.0048,  0.2662,  ..., -0.3441, -0.1635, -0.1901],
+        ...,
+        [-0.0242,  0.0062, -0.2432,  ..., -0.0771,  0.1462,  0.0748],
+        [-0.0330, -0.0202, -0.2172,  ..., -0.3359,  0.1281, -0.2347],
+        [ 0.0154, -0.0258, -0.1218,  ...,  0.0404, -0.2005,  0.0243]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -8.8476e-09,  ..., -1.3504e-08,
+          3.2596e-09, -9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+         -9.3132e-09,  7.4506e-09],
+        [ 0.0000e+00,  0.0000e+00, -2.3283e-09,  ...,  1.3970e-09,
+          2.7940e-09,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  3.2596e-09,
+         -6.5193e-09, -7.4506e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  8.8476e-09,  ...,  1.5832e-08,
+          0.0000e+00,  6.5193e-09]], device='cuda:0')
+Epoch 465, bias, value: tensor([-0.0206,  0.0142,  0.0231,  0.0043,  0.0365, -0.0193, -0.0029, -0.0197,
+        -0.0285,  0.0065], device='cuda:0'), grad: tensor([ 1.3504e-08, -1.3970e-08,  9.3132e-09,  6.5193e-09, -1.3970e-08,
+        -1.6857e-07,  1.1874e-07, -2.0489e-08,  4.7963e-08,  3.4925e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 464, time 220.12, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4168 re_mapping 0.0025 re_causal 0.0089 /// teacc 99.10 lr 0.00001000
+Epoch 466, weight, value: tensor([[-0.0022,  0.0110,  0.0663,  ...,  0.0893, -0.2915, -0.1853],
+        [ 0.0579, -0.0185, -0.0553,  ..., -0.3408,  0.0526, -0.1121],
+        [-0.0111, -0.0048,  0.2662,  ..., -0.3442, -0.1636, -0.1902],
+        ...,
+        [-0.0242,  0.0062, -0.2433,  ..., -0.0772,  0.1461,  0.0749],
+        [-0.0330, -0.0202, -0.2173,  ..., -0.3359,  0.1282, -0.2348],
+        [ 0.0154, -0.0258, -0.1219,  ...,  0.0404, -0.2006,  0.0243]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  0.0000e+00,
+          3.2596e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00, -9.7789e-09,  ...,  0.0000e+00,
+          1.8626e-09,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.2596e-09,  ...,  0.0000e+00,
+         -5.1223e-09, -3.2596e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ...,  0.0000e+00,
+          5.1223e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  4.6566e-10]], device='cuda:0')
+Epoch 466, bias, value: tensor([-0.0207,  0.0142,  0.0231,  0.0042,  0.0365, -0.0192, -0.0029, -0.0197,
+        -0.0286,  0.0065], device='cuda:0'), grad: tensor([ 6.0536e-09,  1.2107e-08, -1.0710e-08, -3.1665e-08,  2.3283e-09,
+         6.9849e-09, -7.9162e-09, -6.9849e-09,  2.8871e-08,  6.5193e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 465, time 220.71, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.3986 re_mapping 0.0025 re_causal 0.0089 /// teacc 99.09 lr 0.00001000
+Epoch 467, weight, value: tensor([[-0.0022,  0.0110,  0.0663,  ...,  0.0893, -0.2915, -0.1853],
+        [ 0.0579, -0.0185, -0.0553,  ..., -0.3408,  0.0525, -0.1122],
+        [-0.0111, -0.0048,  0.2663,  ..., -0.3443, -0.1638, -0.1903],
+        ...,
+        [-0.0242,  0.0062, -0.2436,  ..., -0.0773,  0.1461,  0.0750],
+        [-0.0330, -0.0202, -0.2174,  ..., -0.3359,  0.1282, -0.2348],
+        [ 0.0154, -0.0258, -0.1220,  ...,  0.0404, -0.2007,  0.0244]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ..., -4.6566e-09,
+          0.0000e+00,  3.2596e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  7.9162e-09,
+         -1.3970e-09,  1.0245e-08],
+        [ 0.0000e+00,  0.0000e+00, -1.4901e-08,  ...,  0.0000e+00,
+          1.3970e-09,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  2.1420e-08,
+          4.6566e-10,  2.8871e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7940e-09,
+         -1.3970e-09,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  2.7474e-08,
+          0.0000e+00,  3.6322e-08]], device='cuda:0')
+Epoch 467, bias, value: tensor([-0.0207,  0.0142,  0.0231,  0.0042,  0.0365, -0.0192, -0.0029, -0.0197,
+        -0.0286,  0.0065], device='cuda:0'), grad: tensor([-1.2107e-08,  2.1420e-08, -2.0955e-08, -6.6124e-08, -1.5739e-07,
+         6.9849e-08,  3.3062e-08,  6.6590e-08,  5.5879e-09,  7.3109e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 466, time 221.00, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4078 re_mapping 0.0024 re_causal 0.0089 /// teacc 99.10 lr 0.00001000
+Epoch 468, weight, value: tensor([[-0.0022,  0.0110,  0.0665,  ...,  0.0894, -0.2916, -0.1854],
+        [ 0.0579, -0.0185, -0.0554,  ..., -0.3410,  0.0525, -0.1123],
+        [-0.0111, -0.0048,  0.2663,  ..., -0.3444, -0.1639, -0.1904],
+        ...,
+        [-0.0242,  0.0062, -0.2436,  ..., -0.0774,  0.1462,  0.0750],
+        [-0.0330, -0.0202, -0.2175,  ..., -0.3360,  0.1282, -0.2349],
+        [ 0.0154, -0.0258, -0.1222,  ...,  0.0404, -0.2007,  0.0244]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -9.0338e-08,  ..., -9.4064e-08,
+          4.6566e-10,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  1.0245e-08,
+         -3.7253e-08,  6.5193e-09],
+        [ 0.0000e+00,  0.0000e+00, -6.0536e-09,  ...,  9.3132e-09,
+          7.4506e-09,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.1910e-09,  ...,  3.7253e-09,
+          2.7940e-09,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ...,  3.7253e-09,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  8.8476e-09,  ...,  1.5832e-08,
+          0.0000e+00,  8.8476e-09]], device='cuda:0')
+Epoch 468, bias, value: tensor([-0.0206,  0.0141,  0.0231,  0.0042,  0.0365, -0.0192, -0.0030, -0.0196,
+        -0.0286,  0.0065], device='cuda:0'), grad: tensor([-4.5868e-07, -5.6345e-08,  4.4238e-08,  1.0245e-08, -3.7253e-08,
+        -1.3970e-09,  3.7905e-07,  2.7008e-08,  3.2131e-08,  6.0536e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 467, time 220.99, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4040 re_mapping 0.0025 re_causal 0.0089 /// teacc 99.10 lr 0.00001000
+Epoch 469, weight, value: tensor([[-0.0022,  0.0110,  0.0666,  ...,  0.0894, -0.2916, -0.1854],
+        [ 0.0579, -0.0185, -0.0554,  ..., -0.3410,  0.0525, -0.1124],
+        [-0.0111, -0.0048,  0.2664,  ..., -0.3444, -0.1641, -0.1905],
+        ...,
+        [-0.0242,  0.0062, -0.2438,  ..., -0.0775,  0.1462,  0.0751],
+        [-0.0330, -0.0202, -0.2176,  ..., -0.3360,  0.1283, -0.2350],
+        [ 0.0154, -0.0258, -0.1222,  ...,  0.0404, -0.2008,  0.0244]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          9.3132e-10,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+          4.6100e-07,  2.4540e-07],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          6.0536e-09,  3.2596e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  9.3132e-10,
+         -4.8103e-07, -2.5099e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          9.3132e-10,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          1.1176e-08,  3.2596e-09]], device='cuda:0')
+Epoch 469, bias, value: tensor([-0.0206,  0.0142,  0.0230,  0.0042,  0.0365, -0.0192, -0.0030, -0.0196,
+        -0.0286,  0.0065], device='cuda:0'), grad: tensor([ 6.5193e-09,  1.1595e-06,  2.0023e-08,  7.4506e-09,  4.1910e-09,
+         9.3132e-10, -9.7789e-09, -1.2033e-06,  5.1223e-09,  2.0489e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 468, time 220.72, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4350 re_mapping 0.0025 re_causal 0.0093 /// teacc 99.10 lr 0.00001000
+Epoch 470, weight, value: tensor([[-0.0022,  0.0110,  0.0667,  ...,  0.0895, -0.2917, -0.1855],
+        [ 0.0579, -0.0185, -0.0554,  ..., -0.3413,  0.0525, -0.1125],
+        [-0.0111, -0.0048,  0.2664,  ..., -0.3445, -0.1642, -0.1906],
+        ...,
+        [-0.0242,  0.0062, -0.2439,  ..., -0.0776,  0.1462,  0.0751],
+        [-0.0330, -0.0202, -0.2177,  ..., -0.3361,  0.1283, -0.2350],
+        [ 0.0154, -0.0258, -0.1223,  ...,  0.0404, -0.2009,  0.0244]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.1910e-09,  ..., -4.1910e-09,
+          0.0000e+00,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  1.3970e-09,
+          1.8626e-09,  1.2573e-08],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          4.6566e-10,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  4.6566e-10,
+         -3.2596e-09, -4.0978e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          0.0000e+00,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ..., -4.1910e-09,
+          9.3132e-10,  8.8476e-09]], device='cuda:0')
+Epoch 470, bias, value: tensor([-0.0206,  0.0141,  0.0230,  0.0043,  0.0365, -0.0193, -0.0030, -0.0196,
+        -0.0286,  0.0065], device='cuda:0'), grad: tensor([-8.8476e-09,  4.0047e-08,  7.9162e-09,  1.0710e-08,  2.0489e-08,
+         8.8476e-09,  5.1223e-09, -1.3085e-07,  7.4506e-09,  4.8894e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 469, time 220.48, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4502 re_mapping 0.0025 re_causal 0.0095 /// teacc 99.11 lr 0.00001000
+Epoch 471, weight, value: tensor([[-0.0022,  0.0110,  0.0668,  ...,  0.0895, -0.2917, -0.1855],
+        [ 0.0579, -0.0185, -0.0554,  ..., -0.3413,  0.0525, -0.1126],
+        [-0.0111, -0.0048,  0.2664,  ..., -0.3446, -0.1644, -0.1907],
+        ...,
+        [-0.0242,  0.0062, -0.2440,  ..., -0.0776,  0.1462,  0.0752],
+        [-0.0330, -0.0202, -0.2177,  ..., -0.3361,  0.1284, -0.2351],
+        [ 0.0154, -0.0258, -0.1224,  ...,  0.0405, -0.2009,  0.0245]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.6543e-08,  ..., -2.2817e-08,
+          0.0000e+00, -2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  1.3970e-09,
+          9.3132e-10,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  7.9162e-09,  ...,  2.7940e-09,
+          4.6566e-10,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  3.2596e-09,
+         -1.3970e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  1.8626e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.0710e-08,  ...,  1.3039e-08,
+          0.0000e+00,  4.1910e-09]], device='cuda:0')
+Epoch 471, bias, value: tensor([-0.0205,  0.0141,  0.0229,  0.0043,  0.0365, -0.0193, -0.0030, -0.0196,
+        -0.0286,  0.0065], device='cuda:0'), grad: tensor([-7.0781e-08,  1.2107e-08,  2.4680e-08, -2.6077e-08, -2.3283e-09,
+         6.5193e-09,  6.5193e-09,  1.3039e-08,  1.1176e-08,  3.5390e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 470, time 220.92, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.3993 re_mapping 0.0025 re_causal 0.0090 /// teacc 99.09 lr 0.00001000
+Epoch 472, weight, value: tensor([[-0.0022,  0.0110,  0.0669,  ...,  0.0896, -0.2918, -0.1856],
+        [ 0.0579, -0.0185, -0.0554,  ..., -0.3415,  0.0525, -0.1127],
+        [-0.0111, -0.0048,  0.2664,  ..., -0.3447, -0.1646, -0.1908],
+        ...,
+        [-0.0242,  0.0062, -0.2440,  ..., -0.0778,  0.1462,  0.0753],
+        [-0.0330, -0.0202, -0.2178,  ..., -0.3362,  0.1284, -0.2352],
+        [ 0.0154, -0.0258, -0.1226,  ...,  0.0405, -0.2010,  0.0245]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.8626e-09,
+          9.7789e-09,  9.7789e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  0.0000e+00,
+          2.9337e-08,  1.4435e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  1.3970e-09,
+         -4.3306e-08, -1.5832e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          1.3970e-09,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          4.6566e-10,  1.3970e-09]], device='cuda:0')
+Epoch 472, bias, value: tensor([-0.0204,  0.0141,  0.0228,  0.0044,  0.0365, -0.0193, -0.0030, -0.0195,
+        -0.0287,  0.0066], device='cuda:0'), grad: tensor([ 5.1223e-09,  4.4703e-08,  1.1874e-07, -3.8091e-07, -1.6764e-08,
+         1.3039e-08,  4.6566e-10,  1.9092e-07,  2.3749e-08,  8.3819e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 471, time 220.34, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4232 re_mapping 0.0025 re_causal 0.0090 /// teacc 99.12 lr 0.00001000
+Epoch 473, weight, value: tensor([[-0.0022,  0.0110,  0.0671,  ...,  0.0897, -0.2919, -0.1856],
+        [ 0.0579, -0.0185, -0.0555,  ..., -0.3417,  0.0525, -0.1128],
+        [-0.0111, -0.0048,  0.2665,  ..., -0.3448, -0.1648, -0.1910],
+        ...,
+        [-0.0242,  0.0062, -0.2442,  ..., -0.0778,  0.1462,  0.0754],
+        [-0.0330, -0.0202, -0.2179,  ..., -0.3362,  0.1284, -0.2353],
+        [ 0.0154, -0.0258, -0.1226,  ...,  0.0405, -0.2011,  0.0245]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.8161e-08,  ..., -1.1642e-08,
+          0.0000e+00,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.2107e-08,  ...,  1.8626e-09,
+          4.6566e-10,  3.2596e-09],
+        [ 0.0000e+00,  0.0000e+00, -2.2352e-08,  ...,  3.2596e-09,
+          2.7940e-09,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-09,  ...,  3.2596e-09,
+         -2.3283e-09,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.1910e-09,  ...,  2.3283e-09,
+          0.0000e+00,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.7940e-09,  ...,  7.9162e-09,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 473, bias, value: tensor([-0.0203,  0.0141,  0.0227,  0.0046,  0.0365, -0.0193, -0.0030, -0.0195,
+        -0.0288,  0.0066], device='cuda:0'), grad: tensor([-4.1910e-08,  3.2596e-08, -3.1199e-08,  3.7253e-09, -2.3283e-09,
+         3.2596e-09,  1.0245e-08,  2.4214e-08,  1.3039e-08, -5.5879e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 472, time 220.59, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4556 re_mapping 0.0024 re_causal 0.0094 /// teacc 99.12 lr 0.00001000
+Epoch 474, weight, value: tensor([[-0.0022,  0.0110,  0.0671,  ...,  0.0898, -0.2919, -0.1856],
+        [ 0.0578, -0.0185, -0.0555,  ..., -0.3418,  0.0525, -0.1129],
+        [-0.0111, -0.0048,  0.2665,  ..., -0.3449, -0.1649, -0.1911],
+        ...,
+        [-0.0242,  0.0062, -0.2444,  ..., -0.0779,  0.1462,  0.0755],
+        [-0.0330, -0.0202, -0.2181,  ..., -0.3363,  0.1284, -0.2354],
+        [ 0.0154, -0.0258, -0.1228,  ...,  0.0405, -0.2012,  0.0245]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.3970e-09,  ..., -1.3970e-09,
+          4.6566e-10,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          2.7940e-09,  2.3283e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -3.7253e-09, -2.3283e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  9.3132e-10,
+          9.3132e-10,  9.3132e-10]], device='cuda:0')
+Epoch 474, bias, value: tensor([-0.0204,  0.0140,  0.0227,  0.0047,  0.0365, -0.0193, -0.0030, -0.0195,
+        -0.0289,  0.0066], device='cuda:0'), grad: tensor([-4.6566e-10,  9.7789e-09,  2.7940e-09,  5.1223e-09, -2.7940e-09,
+        -1.3039e-08,  7.9162e-09, -7.9162e-09,  1.8626e-09,  5.1223e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 473, time 220.54, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4049 re_mapping 0.0024 re_causal 0.0089 /// teacc 99.11 lr 0.00001000
+Epoch 475, weight, value: tensor([[-0.0022,  0.0110,  0.0672,  ...,  0.0898, -0.2920, -0.1857],
+        [ 0.0578, -0.0185, -0.0556,  ..., -0.3419,  0.0526, -0.1130],
+        [-0.0111, -0.0048,  0.2667,  ..., -0.3449, -0.1652, -0.1912],
+        ...,
+        [-0.0242,  0.0062, -0.2445,  ..., -0.0780,  0.1462,  0.0755],
+        [-0.0330, -0.0202, -0.2182,  ..., -0.3363,  0.1284, -0.2354],
+        [ 0.0154, -0.0258, -0.1229,  ...,  0.0405, -0.2013,  0.0245]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  4.6566e-10,
+          2.2352e-08,  3.2131e-08],
+        [ 0.0000e+00,  0.0000e+00, -3.7253e-09,  ...,  0.0000e+00,
+          4.1910e-09,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  1.8626e-09,
+         -2.7008e-08, -3.0268e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  1.1176e-08,
+          8.8476e-09,  2.5611e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-09,
+          4.6566e-10, -1.1176e-08]], device='cuda:0')
+Epoch 475, bias, value: tensor([-0.0204,  0.0140,  0.0227,  0.0047,  0.0365, -0.0193, -0.0029, -0.0195,
+        -0.0290,  0.0066], device='cuda:0'), grad: tensor([ 6.9849e-09,  9.9652e-08,  6.5193e-09,  2.3749e-08, -5.5879e-08,
+         2.6077e-08, -4.0047e-08, -1.0291e-07,  1.3318e-07, -1.0105e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 474, time 220.61, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4562 re_mapping 0.0024 re_causal 0.0093 /// teacc 99.10 lr 0.00001000
+Epoch 476, weight, value: tensor([[-0.0022,  0.0110,  0.0673,  ...,  0.0897, -0.2921, -0.1859],
+        [ 0.0578, -0.0185, -0.0556,  ..., -0.3420,  0.0526, -0.1130],
+        [-0.0111, -0.0048,  0.2667,  ..., -0.3450, -0.1653, -0.1913],
+        ...,
+        [-0.0242,  0.0062, -0.2446,  ..., -0.0781,  0.1462,  0.0756],
+        [-0.0330, -0.0202, -0.2183,  ..., -0.3363,  0.1284, -0.2355],
+        [ 0.0154, -0.0258, -0.1230,  ...,  0.0405, -0.2014,  0.0246]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  4.6566e-10,
+          1.2713e-07,  2.3283e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.0245e-08,  ...,  0.0000e+00,
+          3.9116e-08,  1.3970e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  6.5193e-09,  ...,  0.0000e+00,
+         -1.8673e-07,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  1.3970e-09,
+          5.5879e-09,  8.8476e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ..., -4.1910e-09,
+          9.3132e-10, -2.8871e-08]], device='cuda:0')
+Epoch 476, bias, value: tensor([-0.0205,  0.0140,  0.0227,  0.0047,  0.0365, -0.0193, -0.0028, -0.0195,
+        -0.0290,  0.0066], device='cuda:0'), grad: tensor([ 9.3132e-09,  2.8778e-07,  1.1129e-07, -8.3819e-09,  5.4482e-08,
+         2.5146e-08,  0.0000e+00, -3.9395e-07,  5.8673e-08, -1.2061e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 475, time 220.51, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4098 re_mapping 0.0024 re_causal 0.0090 /// teacc 99.10 lr 0.00001000
+Epoch 477, weight, value: tensor([[-0.0022,  0.0110,  0.0675,  ...,  0.0897, -0.2921, -0.1860],
+        [ 0.0578, -0.0185, -0.0557,  ..., -0.3422,  0.0525, -0.1131],
+        [-0.0111, -0.0048,  0.2668,  ..., -0.3451, -0.1655, -0.1914],
+        ...,
+        [-0.0242,  0.0062, -0.2447,  ..., -0.0781,  0.1463,  0.0756],
+        [-0.0330, -0.0202, -0.2184,  ..., -0.3364,  0.1284, -0.2355],
+        [ 0.0154, -0.0258, -0.1231,  ...,  0.0406, -0.2015,  0.0247]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.1886e-08,  ...,  0.0000e+00,
+          4.6566e-10,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.5146e-08,  ...,  0.0000e+00,
+         -4.1910e-09,  1.7695e-08],
+        [ 0.0000e+00,  0.0000e+00, -9.7789e-08,  ...,  0.0000e+00,
+          6.0536e-09, -2.3749e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.2352e-08,  ...,  0.0000e+00,
+         -2.7940e-09,  2.3283e-09],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  0.0000e+00,
+          4.6566e-10,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  0.0000e+00,
+          1.3970e-09,  3.7253e-09]], device='cuda:0')
+Epoch 477, bias, value: tensor([-0.0205,  0.0139,  0.0227,  0.0047,  0.0365, -0.0194, -0.0027, -0.0194,
+        -0.0291,  0.0067], device='cuda:0'), grad: tensor([ 2.6543e-08,  5.2620e-08, -1.4529e-07,  2.2817e-08,  7.4506e-09,
+         1.3970e-09,  0.0000e+00,  2.3283e-08,  1.3504e-08,  1.8161e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 476, time 220.51, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4175 re_mapping 0.0024 re_causal 0.0089 /// teacc 99.12 lr 0.00001000
+Epoch 478, weight, value: tensor([[-0.0022,  0.0110,  0.0676,  ...,  0.0897, -0.2922, -0.1860],
+        [ 0.0578, -0.0185, -0.0557,  ..., -0.3422,  0.0525, -0.1132],
+        [-0.0111, -0.0048,  0.2668,  ..., -0.3452, -0.1657, -0.1915],
+        ...,
+        [-0.0242,  0.0062, -0.2447,  ..., -0.0782,  0.1463,  0.0757],
+        [-0.0330, -0.0202, -0.2185,  ..., -0.3364,  0.1284, -0.2356],
+        [ 0.0154, -0.0258, -0.1232,  ...,  0.0406, -0.2016,  0.0247]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          1.8626e-09,  6.0536e-09],
+        [ 0.0000e+00,  0.0000e+00, -1.0990e-07,  ...,  0.0000e+00,
+          2.7940e-09,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.0803e-07,  ...,  4.6566e-10,
+         -3.7253e-09, -6.5193e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+         -5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          4.6566e-10,  1.8626e-09]], device='cuda:0')
+Epoch 478, bias, value: tensor([-0.0205,  0.0139,  0.0226,  0.0049,  0.0364, -0.0195, -0.0027, -0.0194,
+        -0.0292,  0.0067], device='cuda:0'), grad: tensor([ 1.0710e-08,  1.6764e-08, -2.5984e-07, -4.1910e-09,  5.1223e-09,
+         8.3819e-09, -2.7940e-09,  2.4820e-07, -1.6298e-08,  4.6566e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 477, time 220.71, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4157 re_mapping 0.0024 re_causal 0.0090 /// teacc 99.11 lr 0.00001000
+Epoch 479, weight, value: tensor([[-0.0022,  0.0110,  0.0676,  ...,  0.0897, -0.2923, -0.1862],
+        [ 0.0578, -0.0185, -0.0558,  ..., -0.3423,  0.0525, -0.1132],
+        [-0.0111, -0.0048,  0.2668,  ..., -0.3453, -0.1658, -0.1917],
+        ...,
+        [-0.0242,  0.0062, -0.2448,  ..., -0.0783,  0.1463,  0.0758],
+        [-0.0330, -0.0202, -0.2186,  ..., -0.3365,  0.1284, -0.2357],
+        [ 0.0154, -0.0258, -0.1233,  ...,  0.0406, -0.2017,  0.0247]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.3283e-09,  ...,  0.0000e+00,
+          3.2596e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  7.0781e-08,  ...,  0.0000e+00,
+          2.5146e-07,  1.1176e-08],
+        [ 0.0000e+00,  0.0000e+00,  3.7719e-08,  ...,  0.0000e+00,
+          1.4622e-07,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -1.2387e-07,  ...,  0.0000e+00,
+         -4.3679e-07, -1.2573e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          2.3283e-09,  4.6566e-10]], device='cuda:0')
+Epoch 479, bias, value: tensor([-0.0206,  0.0138,  0.0225,  0.0050,  0.0364, -0.0195, -0.0025, -0.0193,
+        -0.0293,  0.0067], device='cuda:0'), grad: tensor([ 1.1642e-08,  1.0012e-07,  7.9209e-07,  9.3598e-08,  2.3283e-09,
+         1.5367e-08,  4.6566e-10, -1.0207e-06, -4.6566e-10,  8.3819e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 478, time 220.72, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4298 re_mapping 0.0024 re_causal 0.0091 /// teacc 99.13 lr 0.00001000
+Epoch 480, weight, value: tensor([[-0.0022,  0.0110,  0.0677,  ...,  0.0897, -0.2923, -0.1862],
+        [ 0.0578, -0.0185, -0.0558,  ..., -0.3424,  0.0525, -0.1133],
+        [-0.0111, -0.0048,  0.2669,  ..., -0.3454, -0.1660, -0.1918],
+        ...,
+        [-0.0242,  0.0062, -0.2450,  ..., -0.0783,  0.1464,  0.0759],
+        [-0.0330, -0.0202, -0.2188,  ..., -0.3365,  0.1284, -0.2357],
+        [ 0.0154, -0.0258, -0.1234,  ...,  0.0406, -0.2019,  0.0247]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          2.3283e-09,  3.2596e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  4.6566e-10,
+         -3.2596e-09, -2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+          4.6566e-10,  2.3283e-09]], device='cuda:0')
+Epoch 480, bias, value: tensor([-0.0206,  0.0138,  0.0225,  0.0051,  0.0364, -0.0197, -0.0025, -0.0192,
+        -0.0294,  0.0067], device='cuda:0'), grad: tensor([ 4.1910e-09,  1.0710e-08,  4.6566e-09, -4.6566e-09, -6.5193e-09,
+        -1.1642e-08, -1.8626e-09, -5.5879e-09,  8.3819e-09,  8.3819e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 479, time 220.24, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4207 re_mapping 0.0023 re_causal 0.0091 /// teacc 99.10 lr 0.00001000
+Epoch 481, weight, value: tensor([[-0.0022,  0.0110,  0.0678,  ...,  0.0898, -0.2924, -0.1863],
+        [ 0.0578, -0.0185, -0.0558,  ..., -0.3425,  0.0525, -0.1133],
+        [-0.0111, -0.0048,  0.2670,  ..., -0.3454, -0.1661, -0.1919],
+        ...,
+        [-0.0242,  0.0062, -0.2451,  ..., -0.0784,  0.1464,  0.0759],
+        [-0.0330, -0.0202, -0.2189,  ..., -0.3367,  0.1284, -0.2359],
+        [ 0.0154, -0.0258, -0.1236,  ...,  0.0406, -0.2021,  0.0247]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          2.3283e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  6.9849e-10,
+          2.7940e-09,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  2.3283e-10,
+         -6.7521e-09, -4.4238e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  1.8626e-09,
+          6.9849e-10,  3.4925e-09]], device='cuda:0')
+Epoch 481, bias, value: tensor([-0.0205,  0.0138,  0.0225,  0.0052,  0.0364, -0.0198, -0.0024, -0.0192,
+        -0.0297,  0.0067], device='cuda:0'), grad: tensor([ 2.3050e-08,  1.2573e-08,  4.1910e-09,  8.3819e-09, -1.0012e-08,
+        -1.6298e-08, -2.8173e-08, -1.7695e-08,  1.2573e-08,  1.3039e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 480, time 220.51, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4114 re_mapping 0.0024 re_causal 0.0089 /// teacc 99.11 lr 0.00001000
+Epoch 482, weight, value: tensor([[-0.0022,  0.0110,  0.0679,  ...,  0.0899, -0.2925, -0.1863],
+        [ 0.0578, -0.0185, -0.0559,  ..., -0.3425,  0.0525, -0.1134],
+        [-0.0111, -0.0048,  0.2672,  ..., -0.3455, -0.1663, -0.1921],
+        ...,
+        [-0.0242,  0.0062, -0.2454,  ..., -0.0785,  0.1464,  0.0760],
+        [-0.0330, -0.0202, -0.2191,  ..., -0.3367,  0.1284, -0.2360],
+        [ 0.0154, -0.0258, -0.1237,  ...,  0.0406, -0.2022,  0.0247]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00, -2.3283e-10,  ...,  0.0000e+00,
+         -1.7462e-08,  2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  3.7951e-08,  ...,  0.0000e+00,
+          3.2596e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          1.0710e-08, -2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+         -4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  0.0000e+00,
+          0.0000e+00,  2.3283e-10]], device='cuda:0')
+Epoch 482, bias, value: tensor([-0.0205,  0.0138,  0.0226,  0.0053,  0.0364, -0.0198, -0.0024, -0.0192,
+        -0.0298,  0.0067], device='cuda:0'), grad: tensor([ 2.3283e-09, -7.6368e-08,  7.5903e-08, -5.4948e-08,  4.8894e-09,
+         4.4238e-09,  1.3970e-09,  4.7497e-08, -9.3132e-10,  1.8626e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 481, time 220.70, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4369 re_mapping 0.0024 re_causal 0.0093 /// teacc 99.12 lr 0.00001000
+Epoch 483, weight, value: tensor([[-0.0022,  0.0110,  0.0680,  ...,  0.0900, -0.2925, -0.1863],
+        [ 0.0578, -0.0185, -0.0560,  ..., -0.3426,  0.0526, -0.1133],
+        [-0.0111, -0.0048,  0.2673,  ..., -0.3456, -0.1664, -0.1922],
+        ...,
+        [-0.0242,  0.0062, -0.2454,  ..., -0.0785,  0.1463,  0.0760],
+        [-0.0330, -0.0202, -0.2191,  ..., -0.3368,  0.1284, -0.2361],
+        [ 0.0154, -0.0258, -0.1238,  ...,  0.0406, -0.2023,  0.0247]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  2.0955e-09,
+          1.4901e-08,  1.3271e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.6298e-09,  ...,  1.1409e-08,
+         -3.6089e-08, -6.9849e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  0.0000e+00,
+          2.3283e-10,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.7229e-08,
+          1.9092e-08,  4.6799e-08]], device='cuda:0')
+Epoch 483, bias, value: tensor([-0.0204,  0.0138,  0.0226,  0.0052,  0.0364, -0.0198, -0.0023, -0.0193,
+        -0.0298,  0.0067], device='cuda:0'), grad: tensor([ 3.4925e-09,  3.4226e-08,  2.7940e-09,  5.8208e-09, -6.5891e-08,
+         3.2596e-09, -2.5611e-09, -4.1910e-08, -5.3551e-09,  7.6136e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 482, time 221.06, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4346 re_mapping 0.0024 re_causal 0.0093 /// teacc 99.12 lr 0.00001000
+Epoch 484, weight, value: tensor([[-0.0022,  0.0110,  0.0681,  ...,  0.0899, -0.2926, -0.1864],
+        [ 0.0578, -0.0185, -0.0561,  ..., -0.3427,  0.0526, -0.1133],
+        [-0.0111, -0.0048,  0.2673,  ..., -0.3457, -0.1666, -0.1924],
+        ...,
+        [-0.0242,  0.0062, -0.2455,  ..., -0.0786,  0.1463,  0.0760],
+        [-0.0330, -0.0202, -0.2192,  ..., -0.3368,  0.1285, -0.2362],
+        [ 0.0154, -0.0258, -0.1239,  ...,  0.0406, -0.2025,  0.0247]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.2573e-08,  ...,  0.0000e+00,
+          5.5879e-09,  1.1642e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.1642e-09,  ...,  9.7789e-09,
+          4.1910e-09,  3.1665e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.3516e-08,  ...,  2.3283e-10,
+          2.7940e-09,  2.3283e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  2.3283e-09,
+         -4.8894e-09,  6.9849e-10],
+        [ 0.0000e+00,  0.0000e+00,  1.6298e-09,  ...,  0.0000e+00,
+          6.9849e-10,  2.3283e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+          9.3132e-10,  1.8626e-09]], device='cuda:0')
+Epoch 484, bias, value: tensor([-0.0205,  0.0139,  0.0226,  0.0052,  0.0363, -0.0198, -0.0021, -0.0193,
+        -0.0299,  0.0067], device='cuda:0'), grad: tensor([ 1.7975e-07,  7.9861e-08,  1.5507e-07,  1.1176e-08, -3.8184e-08,
+         5.7509e-08, -4.4750e-07, -8.6147e-09,  2.1653e-08,  9.5461e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 483, time 220.85, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4043 re_mapping 0.0024 re_causal 0.0088 /// teacc 99.11 lr 0.00001000
+Epoch 485, weight, value: tensor([[-0.0022,  0.0110,  0.0682,  ...,  0.0900, -0.2927, -0.1864],
+        [ 0.0578, -0.0185, -0.0562,  ..., -0.3428,  0.0526, -0.1133],
+        [-0.0111, -0.0048,  0.2674,  ..., -0.3458, -0.1668, -0.1925],
+        ...,
+        [-0.0242,  0.0062, -0.2456,  ..., -0.0787,  0.1463,  0.0760],
+        [-0.0330, -0.0202, -0.2193,  ..., -0.3369,  0.1285, -0.2363],
+        [ 0.0154, -0.0258, -0.1241,  ...,  0.0406, -0.2026,  0.0247]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  5.1223e-09,  ...,  0.0000e+00,
+          2.7940e-09,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  9.3132e-10,
+          6.7521e-09,  5.8208e-09],
+        [ 0.0000e+00,  0.0000e+00, -1.0477e-08,  ...,  2.3283e-10,
+          8.1491e-09,  6.5193e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.0955e-09,  ...,  2.3283e-10,
+         -3.7020e-08, -2.3050e-08],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-10,  ...,  4.6566e-10,
+         -4.6566e-10,  1.6298e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  1.1642e-09,
+          6.5193e-09,  4.4238e-09]], device='cuda:0')
+Epoch 485, bias, value: tensor([-0.0205,  0.0138,  0.0226,  0.0052,  0.0363, -0.0198, -0.0020, -0.0193,
+        -0.0300,  0.0067], device='cuda:0'), grad: tensor([ 4.2608e-08,  2.3749e-08,  1.0943e-08, -3.9348e-08,  6.0536e-09,
+         6.6124e-08, -7.2177e-09, -1.0361e-07, -1.3504e-08,  3.1432e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 484, time 220.45, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4435 re_mapping 0.0024 re_causal 0.0094 /// teacc 99.10 lr 0.00001000
+Epoch 486, weight, value: tensor([[-0.0022,  0.0110,  0.0683,  ...,  0.0901, -0.2928, -0.1864],
+        [ 0.0578, -0.0185, -0.0562,  ..., -0.3429,  0.0526, -0.1133],
+        [-0.0111, -0.0048,  0.2674,  ..., -0.3459, -0.1670, -0.1926],
+        ...,
+        [-0.0242,  0.0062, -0.2457,  ..., -0.0788,  0.1464,  0.0761],
+        [-0.0330, -0.0202, -0.2194,  ..., -0.3370,  0.1286, -0.2364],
+        [ 0.0154, -0.0258, -0.1243,  ...,  0.0406, -0.2028,  0.0247]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.7940e-09,  ..., -3.2596e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  9.3132e-10,
+          5.1223e-09,  2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  4.6566e-10,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+         -4.6566e-09, -1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          4.6566e-10,  0.0000e+00]], device='cuda:0')
+Epoch 486, bias, value: tensor([-0.0205,  0.0138,  0.0224,  0.0054,  0.0363, -0.0200, -0.0020, -0.0192,
+        -0.0299,  0.0067], device='cuda:0'), grad: tensor([-9.7789e-09,  1.5367e-08,  2.3283e-09, -1.0617e-07,  1.3970e-09,
+         1.0571e-07,  2.3283e-09, -9.3132e-09,  3.2596e-09,  2.7940e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 485, time 220.37, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4099 re_mapping 0.0024 re_causal 0.0088 /// teacc 99.09 lr 0.00001000
+Epoch 487, weight, value: tensor([[-0.0022,  0.0110,  0.0684,  ...,  0.0902, -0.2929, -0.1864],
+        [ 0.0578, -0.0185, -0.0562,  ..., -0.3430,  0.0526, -0.1134],
+        [-0.0111, -0.0048,  0.2675,  ..., -0.3459, -0.1672, -0.1929],
+        ...,
+        [-0.0242,  0.0062, -0.2457,  ..., -0.0789,  0.1464,  0.0762],
+        [-0.0330, -0.0202, -0.2195,  ..., -0.3370,  0.1287, -0.2364],
+        [ 0.0154, -0.0258, -0.1244,  ...,  0.0405, -0.2030,  0.0247]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.3970e-08,  ..., -2.0489e-08,
+          0.0000e+00, -1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  6.5193e-09,
+          1.3970e-09,  8.8476e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.2596e-09,  ...,  5.5879e-09,
+          0.0000e+00,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  1.0245e-08,
+         -1.3970e-09,  1.1176e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  2.3283e-09,
+          4.6566e-10,  4.1910e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.1910e-09,  ...,  1.0245e-08,
+         -1.8626e-09,  9.3132e-10]], device='cuda:0')
+Epoch 487, bias, value: tensor([-0.0205,  0.0137,  0.0224,  0.0054,  0.0364, -0.0200, -0.0019, -0.0192,
+        -0.0299,  0.0066], device='cuda:0'), grad: tensor([-4.9826e-08,  2.1886e-08,  1.4901e-08,  3.7253e-09, -5.8673e-08,
+        -2.3283e-09,  2.7474e-08,  2.1420e-08,  1.0710e-08,  1.9092e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 486, time 220.58, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4241 re_mapping 0.0023 re_causal 0.0088 /// teacc 99.10 lr 0.00001000
+Epoch 488, weight, value: tensor([[-0.0022,  0.0110,  0.0685,  ...,  0.0902, -0.2930, -0.1865],
+        [ 0.0578, -0.0185, -0.0562,  ..., -0.3432,  0.0526, -0.1136],
+        [-0.0111, -0.0048,  0.2675,  ..., -0.3460, -0.1675, -0.1931],
+        ...,
+        [-0.0242,  0.0062, -0.2458,  ..., -0.0790,  0.1464,  0.0763],
+        [-0.0330, -0.0202, -0.2196,  ..., -0.3371,  0.1288, -0.2366],
+        [ 0.0154, -0.0258, -0.1244,  ...,  0.0406, -0.2031,  0.0247]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  6.5193e-09,
+          9.3132e-10,  8.8476e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.4901e-08,  ...,  2.7940e-09,
+         -3.8184e-08,  9.3132e-09],
+        [ 0.0000e+00,  0.0000e+00, -2.7241e-07,  ...,  9.3132e-10,
+          2.7940e-08,  1.3970e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  2.3982e-07,  ...,  2.7940e-09,
+          7.9162e-09, -2.7940e-09],
+        [ 0.0000e+00,  0.0000e+00,  3.7253e-09,  ...,  0.0000e+00,
+         -4.6566e-10,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  2.7940e-09,
+          2.7940e-09,  6.5193e-09]], device='cuda:0')
+Epoch 488, bias, value: tensor([-0.0206,  0.0137,  0.0223,  0.0055,  0.0363, -0.0201, -0.0018, -0.0191,
+        -0.0299,  0.0067], device='cuda:0'), grad: tensor([ 2.1420e-08, -5.1688e-08, -6.1933e-07,  8.3819e-09, -1.0245e-07,
+        -6.2399e-08,  1.3458e-07,  6.3702e-07,  3.0268e-08,  1.7695e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 487, time 220.76, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.3947 re_mapping 0.0023 re_causal 0.0087 /// teacc 99.10 lr 0.00001000
+Epoch 489, weight, value: tensor([[-0.0022,  0.0110,  0.0686,  ...,  0.0903, -0.2931, -0.1865],
+        [ 0.0578, -0.0185, -0.0563,  ..., -0.3433,  0.0526, -0.1136],
+        [-0.0111, -0.0048,  0.2676,  ..., -0.3461, -0.1677, -0.1931],
+        ...,
+        [-0.0242,  0.0062, -0.2459,  ..., -0.0792,  0.1465,  0.0764],
+        [-0.0330, -0.0202, -0.2197,  ..., -0.3372,  0.1288, -0.2366],
+        [ 0.0154, -0.0258, -0.1246,  ...,  0.0406, -0.2032,  0.0248]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -2.3097e-07,  4.5635e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.9697e-07,  4.6566e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+         -1.7835e-07, -2.8592e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.1910e-09,  3.7253e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+          1.9837e-07,  2.2538e-07]], device='cuda:0')
+Epoch 489, bias, value: tensor([-0.0206,  0.0137,  0.0222,  0.0056,  0.0363, -0.0202, -0.0018, -0.0191,
+        -0.0300,  0.0067], device='cuda:0'), grad: tensor([ 3.2596e-09, -2.0489e-06,  1.7351e-06,  2.2817e-08, -6.0536e-09,
+         5.5879e-09,  1.4435e-08, -4.1677e-07,  1.4901e-08,  6.8219e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 488, time 220.79, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4269 re_mapping 0.0024 re_causal 0.0090 /// teacc 99.10 lr 0.00001000
+Epoch 490, weight, value: tensor([[-0.0022,  0.0110,  0.0687,  ...,  0.0904, -0.2932, -0.1865],
+        [ 0.0578, -0.0185, -0.0564,  ..., -0.3435,  0.0526, -0.1138],
+        [-0.0111, -0.0048,  0.2677,  ..., -0.3462, -0.1680, -0.1932],
+        ...,
+        [-0.0242,  0.0062, -0.2460,  ..., -0.0793,  0.1465,  0.0765],
+        [-0.0330, -0.0202, -0.2199,  ..., -0.3372,  0.1289, -0.2367],
+        [ 0.0154, -0.0258, -0.1247,  ...,  0.0406, -0.2034,  0.0248]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  1.3970e-09,
+          0.0000e+00,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  6.0536e-09,
+          9.3132e-10,  1.3039e-08],
+        [ 0.0000e+00,  0.0000e+00, -1.2573e-08,  ...,  4.6566e-10,
+          1.8626e-09,  9.3132e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.2573e-08,  ...,  1.5832e-08,
+         -1.0245e-08,  6.9849e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  1.8626e-09,
+          9.3132e-10,  3.2596e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.4901e-08,
+          7.4506e-09,  3.0268e-08]], device='cuda:0')
+Epoch 490, bias, value: tensor([-0.0205,  0.0136,  0.0222,  0.0056,  0.0363, -0.0203, -0.0018, -0.0190,
+        -0.0300,  0.0067], device='cuda:0'), grad: tensor([ 5.5879e-09,  2.5146e-08, -2.2817e-08,  1.9092e-08, -1.0431e-07,
+        -2.5146e-08,  3.2596e-09,  2.9802e-08,  1.2107e-08,  6.7987e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 489, time 220.66, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4132 re_mapping 0.0024 re_causal 0.0089 /// teacc 99.10 lr 0.00001000
+Epoch 491, weight, value: tensor([[-0.0022,  0.0110,  0.0688,  ...,  0.0905, -0.2933, -0.1865],
+        [ 0.0578, -0.0185, -0.0564,  ..., -0.3436,  0.0526, -0.1139],
+        [-0.0111, -0.0048,  0.2678,  ..., -0.3463, -0.1681, -0.1933],
+        ...,
+        [-0.0242,  0.0062, -0.2461,  ..., -0.0794,  0.1465,  0.0766],
+        [-0.0330, -0.0202, -0.2200,  ..., -0.3372,  0.1289, -0.2367],
+        [ 0.0154, -0.0258, -0.1248,  ...,  0.0406, -0.2035,  0.0248]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -1.8626e-09,  ..., -1.3970e-09,
+          4.6566e-10,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.7789e-09,  7.4506e-09],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  4.6566e-10,
+          4.6566e-09,  3.7253e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -2.0489e-08, -1.6298e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          9.3132e-10,  1.3970e-09]], device='cuda:0')
+Epoch 491, bias, value: tensor([-0.0204,  0.0136,  0.0222,  0.0056,  0.0363, -0.0203, -0.0019, -0.0190,
+        -0.0301,  0.0067], device='cuda:0'), grad: tensor([-8.8476e-09,  2.6543e-08,  1.7229e-08,  1.1176e-08,  4.6566e-10,
+         4.6566e-10,  2.3283e-09, -5.8208e-08,  1.8626e-09,  7.9162e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 490, time 220.93, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4447 re_mapping 0.0024 re_causal 0.0092 /// teacc 99.08 lr 0.00001000
+Epoch 492, weight, value: tensor([[-0.0022,  0.0110,  0.0689,  ...,  0.0904, -0.2934, -0.1867],
+        [ 0.0578, -0.0185, -0.0564,  ..., -0.3436,  0.0526, -0.1139],
+        [-0.0111, -0.0048,  0.2679,  ..., -0.3463, -0.1682, -0.1933],
+        ...,
+        [-0.0242,  0.0062, -0.2463,  ..., -0.0795,  0.1465,  0.0766],
+        [-0.0330, -0.0202, -0.2202,  ..., -0.3373,  0.1289, -0.2368],
+        [ 0.0154, -0.0258, -0.1249,  ...,  0.0406, -0.2036,  0.0248]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-10,
+          1.8626e-09,  1.8626e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  0.0000e+00,
+          8.8476e-09,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.6566e-09,
+         -1.3970e-09,  4.6566e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.1176e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  9.3132e-10]], device='cuda:0')
+Epoch 492, bias, value: tensor([-0.0205,  0.0136,  0.0222,  0.0056,  0.0363, -0.0203, -0.0017, -0.0190,
+        -0.0302,  0.0067], device='cuda:0'), grad: tensor([ 1.8626e-09,  6.9849e-09,  2.1886e-08, -1.3970e-09, -9.7789e-09,
+         1.8626e-09,  8.3819e-09,  9.3132e-09, -2.0489e-08, -2.3283e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 491, time 220.48, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4308 re_mapping 0.0024 re_causal 0.0092 /// teacc 99.08 lr 0.00001000
+Epoch 493, weight, value: tensor([[-0.0022,  0.0110,  0.0689,  ...,  0.0904, -0.2934, -0.1868],
+        [ 0.0577, -0.0185, -0.0564,  ..., -0.3437,  0.0525, -0.1141],
+        [-0.0111, -0.0048,  0.2679,  ..., -0.3464, -0.1683, -0.1934],
+        ...,
+        [-0.0242,  0.0062, -0.2465,  ..., -0.0797,  0.1467,  0.0767],
+        [-0.0330, -0.0202, -0.2202,  ..., -0.3374,  0.1289, -0.2370],
+        [ 0.0154, -0.0258, -0.1249,  ...,  0.0407, -0.2037,  0.0249]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-4.6566e-10,  0.0000e+00, -4.6566e-10,  ...,  0.0000e+00,
+         -4.6566e-09,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  4.6566e-10],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  4.6566e-10]], device='cuda:0')
+Epoch 493, bias, value: tensor([-0.0206,  0.0134,  0.0221,  0.0056,  0.0362, -0.0203, -0.0016, -0.0187,
+        -0.0303,  0.0068], device='cuda:0'), grad: tensor([ 1.8626e-09, -9.7789e-09,  2.7940e-09,  5.1223e-09,  1.8626e-09,
+        -3.2596e-09, -1.8626e-09,  2.3283e-09,  6.0536e-09,  1.3970e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 492, time 220.94, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4462 re_mapping 0.0023 re_causal 0.0092 /// teacc 99.08 lr 0.00001000
+Epoch 494, weight, value: tensor([[-0.0022,  0.0110,  0.0690,  ...,  0.0905, -0.2935, -0.1868],
+        [ 0.0578, -0.0185, -0.0565,  ..., -0.3438,  0.0525, -0.1141],
+        [-0.0111, -0.0048,  0.2680,  ..., -0.3465, -0.1686, -0.1937],
+        ...,
+        [-0.0242,  0.0062, -0.2467,  ..., -0.0799,  0.1467,  0.0767],
+        [-0.0330, -0.0202, -0.2203,  ..., -0.3374,  0.1290, -0.2370],
+        [ 0.0154, -0.0258, -0.1251,  ...,  0.0406, -0.2038,  0.0249]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.6566e-09,  ..., -5.5879e-09,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.1910e-09,  4.1910e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          1.8626e-09,  1.8626e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.7695e-08, -1.9558e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.1910e-09,  ...,  5.5879e-09,
+          3.7253e-09,  4.1910e-09]], device='cuda:0')
+Epoch 494, bias, value: tensor([-0.0206,  0.0133,  0.0220,  0.0056,  0.0363, -0.0203, -0.0017, -0.0187,
+        -0.0304,  0.0068], device='cuda:0'), grad: tensor([-1.4901e-08,  1.8626e-08,  1.1176e-08,  4.1910e-08,  4.6566e-10,
+         0.0000e+00,  1.8626e-09, -8.8941e-08,  9.3132e-10,  3.3528e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 493, time 220.59, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4416 re_mapping 0.0024 re_causal 0.0092 /// teacc 99.08 lr 0.00001000
+Epoch 495, weight, value: tensor([[-0.0022,  0.0110,  0.0691,  ...,  0.0905, -0.2936, -0.1869],
+        [ 0.0578, -0.0185, -0.0566,  ..., -0.3439,  0.0525, -0.1142],
+        [-0.0111, -0.0048,  0.2682,  ..., -0.3466, -0.1688, -0.1939],
+        ...,
+        [-0.0242,  0.0062, -0.2468,  ..., -0.0800,  0.1468,  0.0769],
+        [-0.0330, -0.0202, -0.2205,  ..., -0.3375,  0.1290, -0.2371],
+        [ 0.0154, -0.0258, -0.1252,  ...,  0.0406, -0.2039,  0.0249]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  2.3283e-09,
+          0.0000e+00,  2.3283e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          3.4925e-08,  2.3749e-08],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  2.9802e-08,
+          1.8626e-09,  3.1199e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ..., -1.8626e-09,
+         -4.4703e-08, -4.4238e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  0.0000e+00,
+         -2.5146e-08, -1.1176e-08],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  2.3283e-09,
+          1.8626e-09,  4.1910e-09]], device='cuda:0')
+Epoch 495, bias, value: tensor([-0.0206,  0.0133,  0.0221,  0.0056,  0.0363, -0.0203, -0.0017, -0.0187,
+        -0.0305,  0.0068], device='cuda:0'), grad: tensor([ 8.3819e-09,  1.1083e-07,  8.6613e-08,  2.3749e-08, -7.7300e-08,
+         4.6566e-10,  8.0559e-08, -1.7509e-07, -7.4971e-08,  1.3970e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 494, time 220.31, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4102 re_mapping 0.0024 re_causal 0.0089 /// teacc 99.10 lr 0.00001000
+Epoch 496, weight, value: tensor([[-0.0022,  0.0110,  0.0692,  ...,  0.0905, -0.2937, -0.1869],
+        [ 0.0577, -0.0185, -0.0566,  ..., -0.3440,  0.0524, -0.1144],
+        [-0.0111, -0.0048,  0.2682,  ..., -0.3468, -0.1691, -0.1941],
+        ...,
+        [-0.0242,  0.0062, -0.2468,  ..., -0.0801,  0.1468,  0.0771],
+        [-0.0330, -0.0202, -0.2205,  ..., -0.3376,  0.1291, -0.2372],
+        [ 0.0154, -0.0258, -0.1252,  ...,  0.0407, -0.2042,  0.0249]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -9.3132e-10,  ..., -1.8626e-09,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+         -3.2596e-09,  4.1910e-09],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  1.8626e-09,
+          4.6566e-10,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+         -3.2596e-09, -4.1910e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.3970e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  2.3283e-09,
+          1.3970e-09,  4.1910e-09]], device='cuda:0')
+Epoch 496, bias, value: tensor([-0.0208,  0.0133,  0.0219,  0.0056,  0.0363, -0.0202, -0.0014, -0.0186,
+        -0.0306,  0.0068], device='cuda:0'), grad: tensor([ 1.2573e-08, -8.3819e-09,  6.9849e-09,  3.2596e-09, -6.9849e-09,
+         4.6566e-10,  0.0000e+00, -1.2573e-08,  7.4506e-09,  1.0710e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 495, time 220.23, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4414 re_mapping 0.0023 re_causal 0.0090 /// teacc 99.11 lr 0.00001000
+Epoch 497, weight, value: tensor([[-0.0022,  0.0110,  0.0693,  ...,  0.0906, -0.2938, -0.1870],
+        [ 0.0577, -0.0185, -0.0566,  ..., -0.3442,  0.0524, -0.1147],
+        [-0.0111, -0.0048,  0.2683,  ..., -0.3468, -0.1693, -0.1942],
+        ...,
+        [-0.0242,  0.0062, -0.2470,  ..., -0.0803,  0.1469,  0.0772],
+        [-0.0330, -0.0202, -0.2207,  ..., -0.3376,  0.1291, -0.2373],
+        [ 0.0154, -0.0258, -0.1253,  ...,  0.0406, -0.2042,  0.0249]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  4.6566e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00, -1.9558e-08,  ...,  4.6566e-10,
+         -2.5611e-08,  9.3132e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.2352e-08,  ...,  4.6566e-10,
+          2.6077e-08,  4.6566e-10],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  7.9162e-09,  ...,  1.0245e-08,
+          0.0000e+00,  1.2573e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  4.6566e-10,
+          0.0000e+00,  4.6566e-10],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-09,  ...,  7.9162e-09,
+          0.0000e+00,  9.3132e-09]], device='cuda:0')
+Epoch 497, bias, value: tensor([-0.0208,  0.0132,  0.0219,  0.0057,  0.0363, -0.0202, -0.0013, -0.0186,
+        -0.0307,  0.0068], device='cuda:0'), grad: tensor([ 5.5879e-09, -7.6368e-08,  1.0524e-07, -7.9628e-08, -4.2375e-08,
+        -4.6566e-10,  4.1910e-09,  4.8429e-08,  1.4435e-08,  2.6077e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 496, time 219.92, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4042 re_mapping 0.0023 re_causal 0.0088 /// teacc 99.12 lr 0.00001000
+Epoch 498, weight, value: tensor([[-0.0022,  0.0110,  0.0694,  ...,  0.0907, -0.2941, -0.1870],
+        [ 0.0577, -0.0185, -0.0566,  ..., -0.3443,  0.0523, -0.1148],
+        [-0.0111, -0.0048,  0.2683,  ..., -0.3469, -0.1695, -0.1944],
+        ...,
+        [-0.0243,  0.0062, -0.2471,  ..., -0.0805,  0.1470,  0.0775],
+        [-0.0330, -0.0202, -0.2208,  ..., -0.3377,  0.1292, -0.2374],
+        [ 0.0154, -0.0258, -0.1254,  ...,  0.0405, -0.2045,  0.0248]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -4.1910e-09,  ..., -3.2596e-09,
+          1.2107e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          1.3970e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-09,  ...,  3.7253e-09,
+          3.2596e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+         -2.5611e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  1.8626e-09,
+          2.3283e-09,  1.3970e-09]], device='cuda:0')
+Epoch 498, bias, value: tensor([-0.0208,  0.0131,  0.0218,  0.0057,  0.0364, -0.0202, -0.0013, -0.0185,
+        -0.0308,  0.0066], device='cuda:0'), grad: tensor([ 7.3435e-07,  1.2573e-08,  2.7008e-08, -1.0245e-08, -4.6566e-10,
+         2.0489e-08, -7.0687e-07,  7.9162e-09, -9.1270e-08,  1.2107e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 497, time 220.49, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4460 re_mapping 0.0023 re_causal 0.0092 /// teacc 99.11 lr 0.00001000
+Epoch 499, weight, value: tensor([[-0.0022,  0.0110,  0.0694,  ...,  0.0908, -0.2942, -0.1870],
+        [ 0.0577, -0.0185, -0.0567,  ..., -0.3444,  0.0522, -0.1150],
+        [-0.0111, -0.0048,  0.2683,  ..., -0.3470, -0.1697, -0.1945],
+        ...,
+        [-0.0243,  0.0062, -0.2472,  ..., -0.0806,  0.1471,  0.0776],
+        [-0.0330, -0.0202, -0.2209,  ..., -0.3377,  0.1292, -0.2374],
+        [ 0.0154, -0.0258, -0.1255,  ...,  0.0405, -0.2047,  0.0248]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00, -2.7940e-09,  ..., -4.1910e-09,
+          1.8626e-09,  1.3970e-09],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          4.9360e-08,  8.1491e-08],
+        [ 0.0000e+00,  0.0000e+00, -2.6077e-08,  ...,  9.3132e-10,
+          2.6077e-08,  2.5611e-08],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  1.6298e-08,  ...,  4.6566e-10,
+         -1.6391e-07, -2.1793e-07],
+        [ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  4.6566e-10,
+          2.7940e-09,  5.1223e-09],
+        [ 0.0000e+00,  0.0000e+00,  2.3283e-09,  ...,  1.8626e-09,
+          7.5903e-08,  9.7323e-08]], device='cuda:0')
+Epoch 499, bias, value: tensor([-0.0209,  0.0131,  0.0217,  0.0058,  0.0365, -0.0203, -0.0012, -0.0184,
+        -0.0308,  0.0065], device='cuda:0'), grad: tensor([ 9.3132e-10,  2.1467e-07,  8.0094e-08,  5.6811e-08,  1.0710e-08,
+        -1.3225e-07,  8.8476e-08, -6.9337e-07,  4.3306e-08,  3.3993e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 498, time 220.32, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4054 re_mapping 0.0024 re_causal 0.0089 /// teacc 99.12 lr 0.00001000
+Epoch 500, weight, value: tensor([[-0.0022,  0.0110,  0.0695,  ...,  0.0909, -0.2943, -0.1870],
+        [ 0.0577, -0.0185, -0.0567,  ..., -0.3445,  0.0520, -0.1151],
+        [-0.0111, -0.0048,  0.2684,  ..., -0.3471, -0.1699, -0.1947],
+        ...,
+        [-0.0243,  0.0062, -0.2473,  ..., -0.0807,  0.1473,  0.0779],
+        [-0.0330, -0.0202, -0.2210,  ..., -0.3378,  0.1292, -0.2375],
+        [ 0.0154, -0.0258, -0.1256,  ...,  0.0405, -0.2049,  0.0247]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          4.1910e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  3.2596e-09,
+          4.1910e-09,  1.5832e-08],
+        [ 0.0000e+00,  0.0000e+00, -4.0978e-08,  ...,  0.0000e+00,
+          4.1910e-09,  3.7253e-09],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  3.3062e-08,  ...,  3.2596e-09,
+         -1.6764e-08, -1.1642e-08],
+        [ 0.0000e+00,  0.0000e+00,  1.3970e-09,  ...,  0.0000e+00,
+          8.3819e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  4.9360e-08,
+          1.8626e-09,  1.1735e-07]], device='cuda:0')
+Epoch 500, bias, value: tensor([-0.0208,  0.0129,  0.0217,  0.0060,  0.0365, -0.0204, -0.0012, -0.0181,
+        -0.0310,  0.0064], device='cuda:0'), grad: tensor([ 2.4214e-08,  3.3062e-08, -5.5879e-08,  3.7253e-08, -2.0768e-07,
+         6.0536e-09, -8.8941e-08,  9.7789e-09,  5.5414e-08,  1.9465e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 499, time 219.82, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.3970 re_mapping 0.0023 re_causal 0.0086 /// teacc 99.13 lr 0.00001000
+---------------------saving last model at epoch 499----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_skip3', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_skip3/14factor_best.csv', 'channels': 3, 'factor_num': 14, 'stride': 3, 'epoch': 'best', 'eval_mapping': True}
+loading weight of best
+randm: False
+stride: 3
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+Using downloaded and verified file: /home/yuqian_fu/.pytorch/SVHN/test_32x32.mat
+                         mnist   mnist_FA  ...    usps_FA        Avg
+ShearX               99.000000  98.989998  ...  82.561035  71.442439
+ShearY               98.750000  98.699997  ...  82.561035  65.832978
+AutoContrast         99.040001  99.029999  ...  82.561035  64.430552
+Invert               98.720001  98.189995  ...  82.561035  65.502023
+Equalize             98.070000  97.930000  ...  82.561035  68.048062
+Solarize             97.979996  97.839996  ...  82.561035  59.778274
+SolarizeAdd          98.269997  97.979996  ...  82.561035  72.102751
+Posterize            98.930000  98.919998  ...  82.561035  69.134236
+Contrast             99.040001  99.110001  ...  82.561035  70.453847
+Color                98.940002  99.180000  ...  82.561035  60.559358
+Brightness           99.010002  99.080002  ...  82.561035  68.488187
+Sharpness            98.979996  99.089996  ...  82.561035  71.397741
+NoiseSalt            99.070000  99.070000  ...  82.561035  58.064358
+NoiseGaussian        98.979996  99.159996  ...  82.561035  57.520034
+w/o do (original x)  99.180000   0.000000  ...   0.000000  75.009668
+
+[15 rows x 11 columns]
+    mnist      svhn    mnist_m   syndigit       usps       Avg
+do  99.14  68.26598  79.002333  75.829582  84.404584  76.87562
diff --git a/Meta-causal/code-withStyleAttack/66581.error b/Meta-causal/code-withStyleAttack/66581.error
new file mode 100644
index 0000000000000000000000000000000000000000..d904956b40cd15b976a8c6306f579672435ab45d
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/66581.error
@@ -0,0 +1,299 @@
+Solving dependencies
+Installing conda packages
+Empty environment created at prefix: /scratch/yuqian_fu/micromamba/envs/auto-ghfkfyr2kyt5
+error    libmamba Could not lock non-existing path '/scratch/yuqian_fu/micromamba/pkgs'
+Transaction
+
+  Prefix: /scratch/yuqian_fu/micromamba/envs/auto-ghfkfyr2kyt5
+
+
+
+  No specs added or removed.
+
+  Package                 Version  Build                         Channel                           Size
+─────────────────────────────────────────────────────────────────────────────────────────────────────────
+  Install:
+─────────────────────────────────────────────────────────────────────────────────────────────────────────
+
+  + _libgcc_mutex             0.1  conda_forge                   conda-forge                           
+  + _openmp_mutex             4.5  2_kmp_llvm                    conda-forge                           
+  + blas                    2.116  mkl                           conda-forge                           
+  + blas-devel              3.9.0  16_linux64_mkl                conda-forge                           
+  + brotli-python           1.1.0  py311hb755f60_1               conda-forge                           
+  + bzip2                   1.0.8  h4bc722e_7                    conda-forge                           
+  + ca-certificates      2024.7.4  hbcca054_0                    conda-forge                           
+  + certifi              2024.7.4  pyhd8ed1ab_0                  conda-forge                           
+  + cffi                   1.16.0  py311hb3a22ac_0               conda-forge                           
+  + charset-normalizer      3.3.2  pyhd8ed1ab_0                  conda-forge                           
+  + click                   8.1.7  unix_pyh707e725_0             conda-forge                           
+  + cuda-cudart          12.1.105  0                             nvidia                                
+  + cuda-cupti           12.1.105  0                             /work/conda/cache/nvidia              
+  + cuda-libraries         12.1.0  0                             nvidia                                
+  + cuda-nvrtc           12.1.105  0                             /work/conda/cache/nvidia              
+  + cuda-nvtx            12.1.105  0                             nvidia                                
+  + cuda-opencl           12.5.39  0                             nvidia                                
+  + cuda-runtime           12.1.0  0                             nvidia                                
+  + cuda-version             12.5  3                             nvidia                                
+  + ffmpeg                    4.3  hf484d3e_0                    /work/conda/cache/pytorch             
+  + filelock               3.15.4  pyhd8ed1ab_0                  conda-forge                           
+  + freetype               2.12.1  h267a509_2                    conda-forge                           
+  + gmp                     6.3.0  hac33072_2                    conda-forge                           
+  + gmpy2                   2.1.5  py311hc4f1f91_1               conda-forge                           
+  + gnutls                 3.6.13  h85f3911_1                    /work/conda/cache/conda-forge         
+  + h2                      4.1.0  pyhd8ed1ab_0                  conda-forge                           
+  + hpack                   4.0.0  pyh9f0ad1d_0                  conda-forge                           
+  + hyperframe              6.0.1  pyhd8ed1ab_0                  conda-forge                           
+  + icu                      73.2  h59595ed_0                    /work/conda/cache/conda-forge         
+  + idna                      3.7  pyhd8ed1ab_0                  conda-forge                           
+  + jinja2                  3.1.4  pyhd8ed1ab_0                  conda-forge                           
+  + jpeg                       9e  h166bdaf_2                    conda-forge                           
+  + lame                    3.100  h166bdaf_1003                 conda-forge                           
+  + lcms2                    2.15  hfd0df8a_0                    conda-forge                           
+  + ld_impl_linux-64         2.40  hf3520f5_7                    conda-forge                           
+  + lerc                    4.0.0  h27087fc_0                    conda-forge                           
+  + libblas                 3.9.0  16_linux64_mkl                conda-forge                           
+  + libcblas                3.9.0  16_linux64_mkl                conda-forge                           
+  + libcublas           12.1.0.26  0                             /work/conda/cache/nvidia              
+  + libcufft             11.0.2.4  0                             /work/conda/cache/nvidia              
+  + libcufile            1.10.1.7  0                             nvidia                                
+  + libcurand           10.3.6.82  0                             nvidia                                
+  + libcusolver         11.4.4.55  0                             /work/conda/cache/nvidia              
+  + libcusparse         12.0.2.55  0                             /work/conda/cache/nvidia              
+  + libdeflate               1.17  h0b41bf4_0                    conda-forge                           
+  + libexpat                2.6.2  h59595ed_0                    conda-forge                           
+  + libffi                  3.4.2  h7f98852_5                    conda-forge                           
+  + libgcc-ng              14.1.0  h77fa898_0                    conda-forge                           
+  + libgfortran-ng         14.1.0  h69a702a_0                    conda-forge                           
+  + libgfortran5           14.1.0  hc5f4f2c_0                    /work/conda/cache/conda-forge         
+  + libhwloc               2.11.1  default_hecaa2ac_1000         conda-forge                           
+  + libiconv                 1.17  hd590300_2                    conda-forge                           
+  + libjpeg-turbo           2.0.0  h9bf148f_0                    pytorch                               
+  + liblapack               3.9.0  16_linux64_mkl                conda-forge                           
+  + liblapacke              3.9.0  16_linux64_mkl                conda-forge                           
+  + libnpp              12.0.2.50  0                             /work/conda/cache/nvidia              
+  + libnsl                  2.0.1  hd590300_0                    conda-forge                           
+  + libnvjitlink         12.1.105  0                             /work/conda/cache/nvidia              
+  + libnvjpeg           12.1.1.14  0                             /work/conda/cache/nvidia              
+  + libpng                 1.6.43  h2797004_0                    conda-forge                           
+  + libsqlite              3.46.0  hde9e2c9_0                    conda-forge                           
+  + libstdcxx-ng           14.1.0  hc0a3c3a_0                    /work/conda/cache/conda-forge         
+  + libtiff                 4.5.0  h6adf6a1_2                    conda-forge                           
+  + libuuid                2.38.1  h0b41bf4_0                    conda-forge                           
+  + libwebp-base            1.4.0  hd590300_0                    conda-forge                           
+  + libxcb                   1.13  h7f98852_1004                 conda-forge                           
+  + libxcrypt              4.4.36  hd590300_1                    conda-forge                           
+  + libxml2                2.12.7  hc051c1a_1                    conda-forge                           
+  + libzlib                1.2.13  h4ab18f5_6                    conda-forge                           
+  + llvm-openmp            15.0.7  h0cdce71_0                    /work/conda/cache/conda-forge         
+  + markupsafe              2.1.5  py311h459d7ec_0               conda-forge                           
+  + mkl                  2022.1.0  h84fe81f_915                  /work/conda/cache/conda-forge         
+  + mkl-devel            2022.1.0  ha770c72_916                  conda-forge                           
+  + mkl-include          2022.1.0  h84fe81f_915                  conda-forge                           
+  + mpc                     1.3.1  hfe3b2da_0                    conda-forge                           
+  + mpfr                    4.2.1  h9458935_1                    conda-forge                           
+  + mpmath                  1.3.0  pyhd8ed1ab_0                  conda-forge                           
+  + ncurses                   6.5  h59595ed_0                    conda-forge                           
+  + nettle                    3.6  he412f7d_0                    /work/conda/cache/conda-forge         
+  + networkx                  3.3  pyhd8ed1ab_1                  /work/conda/cache/conda-forge         
+  + numpy                   2.0.0  py311h1461c94_0               conda-forge                           
+  + openh264                2.1.1  h780b84a_0                    /work/conda/cache/conda-forge         
+  + openjpeg                2.5.0  hfec8fc6_2                    conda-forge                           
+  + openssl                 3.3.1  h4bc722e_2                    conda-forge                           
+  + pandas                  2.2.2  py311h14de704_1               conda-forge                           
+  + pillow                  9.4.0  py311h50def17_1               /work/conda/cache/conda-forge         
+  + pip                      24.0  pyhd8ed1ab_0                  /work/conda/cache/conda-forge         
+  + pthread-stubs             0.4  h36c2ea0_1001                 conda-forge                           
+  + pycparser                2.22  pyhd8ed1ab_0                  conda-forge                           
+  + pysocks                 1.7.1  pyha2e5f31_6                  conda-forge                           
+  + python                 3.11.9  hb806964_0_cpython            /work/conda/cache/conda-forge         
+  + python-dateutil         2.9.0  pyhd8ed1ab_0                  conda-forge                           
+  + python-tzdata          2024.1  pyhd8ed1ab_0                  conda-forge                           
+  + python_abi               3.11  4_cp311                       conda-forge                           
+  + pytorch                 2.3.1  py3.11_cuda12.1_cudnn8.9.2_0  /work/conda/cache/pytorch             
+  + pytorch-cuda             12.1  ha16c6d3_5                    pytorch                               
+  + pytorch-mutex             1.0  cuda                          pytorch                               
+  + pytz                   2024.1  pyhd8ed1ab_0                  conda-forge                           
+  + pyyaml                  6.0.1  py311h459d7ec_1               conda-forge                           
+  + readline                  8.2  h8228510_1                    conda-forge                           
+  + requests               2.32.3  pyhd8ed1ab_0                  conda-forge                           
+  + setuptools             71.0.3  pyhd8ed1ab_0                  conda-forge                           
+  + six                    1.16.0  pyh6c4a22f_0                  conda-forge                           
+  + sympy                  1.13.0  pypyh2585a3b_103              conda-forge                           
+  + tbb                 2021.12.0  h434a139_3                    conda-forge                           
+  + tk                     8.6.13  noxft_h4845f30_101            /work/conda/cache/conda-forge         
+  + torchtriton             2.3.1  py311                         /work/conda/cache/pytorch             
+  + torchvision            0.18.1  py311_cu121                   /work/conda/cache/pytorch             
+  + typing_extensions      4.12.2  pyha770c72_0                  conda-forge                           
+  + tzdata                  2024a  h0c530f3_0                    conda-forge                           
+  + urllib3                 2.2.2  pyhd8ed1ab_1                  conda-forge                           
+  + wheel                  0.43.0  pyhd8ed1ab_1                  conda-forge                           
+  + xorg-libxau            1.0.11  hd590300_0                    conda-forge                           
+  + xorg-libxdmcp           1.1.3  h516909a_0                    conda-forge                           
+  + xz                      5.2.6  h166bdaf_0                    conda-forge                           
+  + yaml                    0.2.5  h7f98852_2                    conda-forge                           
+  + zlib                   1.2.13  h4ab18f5_6                    conda-forge                           
+  + zstandard              0.23.0  py311h5cd10c7_0               conda-forge                           
+  + zstd                    1.5.6  ha6fb4c9_0                    conda-forge                           
+
+  Summary:
+
+  Install: 119 packages
+
+  Total download: 0 B
+
+─────────────────────────────────────────────────────────────────────────────────────────────────────────
+
+
+
+Transaction starting
+Linking libcublas-12.1.0.26-0
+Linking libcufft-11.0.2.4-0
+Linking libcusolver-11.4.4.55-0
+Linking libcusparse-12.0.2.55-0
+Linking libnpp-12.0.2.50-0
+Linking libnvjitlink-12.1.105-0
+Linking cuda-cudart-12.1.105-0
+Linking cuda-nvrtc-12.1.105-0
+Linking libnvjpeg-12.1.1.14-0
+Linking cuda-cupti-12.1.105-0
+Linking cuda-nvtx-12.1.105-0
+Linking pytorch-mutex-1.0-cuda
+Linking _libgcc_mutex-0.1-conda_forge
+Linking mkl-include-2022.1.0-h84fe81f_915
+Linking python_abi-3.11-4_cp311
+Linking ld_impl_linux-64-2.40-hf3520f5_7
+Linking ca-certificates-2024.7.4-hbcca054_0
+Linking libgcc-ng-14.1.0-h77fa898_0
+Linking libzlib-1.2.13-h4ab18f5_6
+Linking llvm-openmp-15.0.7-h0cdce71_0
+Linking _openmp_mutex-4.5-2_kmp_llvm
+Linking xorg-libxdmcp-1.1.3-h516909a_0
+Linking pthread-stubs-0.4-h36c2ea0_1001
+Linking xorg-libxau-1.0.11-hd590300_0
+Linking libwebp-base-1.4.0-hd590300_0
+Linking libdeflate-1.17-h0b41bf4_0
+Linking jpeg-9e-h166bdaf_2
+Linking libffi-3.4.2-h7f98852_5
+Linking tk-8.6.13-noxft_h4845f30_101
+Linking openssl-3.3.1-h4bc722e_2
+Linking libxcrypt-4.4.36-hd590300_1
+Linking libsqlite-3.46.0-hde9e2c9_0
+Linking yaml-0.2.5-h7f98852_2
+Linking ncurses-6.5-h59595ed_0
+Linking libgfortran5-14.1.0-hc5f4f2c_0
+Linking lame-3.100-h166bdaf_1003
+Linking nettle-3.6-he412f7d_0
+Linking zlib-1.2.13-h4ab18f5_6
+Linking libstdcxx-ng-14.1.0-hc0a3c3a_0
+Linking libiconv-1.17-hd590300_2
+Linking bzip2-1.0.8-h4bc722e_7
+Linking libpng-1.6.43-h2797004_0
+Linking xz-5.2.6-h166bdaf_0
+Linking libuuid-2.38.1-h0b41bf4_0
+Linking libnsl-2.0.1-hd590300_0
+Linking libexpat-2.6.2-h59595ed_0
+Linking libxcb-1.13-h7f98852_1004
+Linking readline-8.2-h8228510_1
+Linking libgfortran-ng-14.1.0-h69a702a_0
+Linking icu-73.2-h59595ed_0
+Linking zstd-1.5.6-ha6fb4c9_0
+Linking lerc-4.0.0-h27087fc_0
+Linking openh264-2.1.1-h780b84a_0
+Linking gnutls-3.6.13-h85f3911_1
+Linking gmp-6.3.0-hac33072_2
+Linking freetype-2.12.1-h267a509_2
+Linking libxml2-2.12.7-hc051c1a_1
+Linking libtiff-4.5.0-h6adf6a1_2
+Linking mpfr-4.2.1-h9458935_1
+Linking libhwloc-2.11.1-default_hecaa2ac_1000
+Linking openjpeg-2.5.0-hfec8fc6_2
+Linking lcms2-2.15-hfd0df8a_0
+Linking mpc-1.3.1-hfe3b2da_0
+Linking tbb-2021.12.0-h434a139_3
+Linking mkl-2022.1.0-h84fe81f_915
+Linking mkl-devel-2022.1.0-ha770c72_916
+Linking libblas-3.9.0-16_linux64_mkl
+Linking liblapack-3.9.0-16_linux64_mkl
+Linking libcblas-3.9.0-16_linux64_mkl
+Linking liblapacke-3.9.0-16_linux64_mkl
+Linking blas-devel-3.9.0-16_linux64_mkl
+Linking blas-2.116-mkl
+Linking cuda-version-12.5-3
+Linking tzdata-2024a-h0c530f3_0
+Linking libjpeg-turbo-2.0.0-h9bf148f_0
+warning  libmamba [libjpeg-turbo-2.0.0-h9bf148f_0] The following files were already present in the environment:
+    - bin/cjpeg
+    - bin/djpeg
+    - bin/jpegtran
+    - bin/rdjpgcom
+    - bin/wrjpgcom
+    - include/jconfig.h
+    - include/jerror.h
+    - include/jmorecfg.h
+    - include/jpeglib.h
+    - lib/libjpeg.a
+    - lib/libjpeg.so
+    - lib/pkgconfig/libjpeg.pc
+    - share/man/man1/cjpeg.1
+    - share/man/man1/djpeg.1
+    - share/man/man1/jpegtran.1
+    - share/man/man1/rdjpgcom.1
+    - share/man/man1/wrjpgcom.1
+Linking ffmpeg-4.3-hf484d3e_0
+Linking libcurand-10.3.6.82-0
+Linking libcufile-1.10.1.7-0
+Linking cuda-opencl-12.5.39-0
+Linking cuda-libraries-12.1.0-0
+Linking cuda-runtime-12.1.0-0
+Linking python-3.11.9-hb806964_0_cpython
+Linking pytorch-cuda-12.1-ha16c6d3_5
+Linking wheel-0.43.0-pyhd8ed1ab_1
+Linking setuptools-71.0.3-pyhd8ed1ab_0
+Linking pip-24.0-pyhd8ed1ab_0
+Linking pycparser-2.22-pyhd8ed1ab_0
+Linking six-1.16.0-pyh6c4a22f_0
+Linking hyperframe-6.0.1-pyhd8ed1ab_0
+Linking pytz-2024.1-pyhd8ed1ab_0
+Linking python-tzdata-2024.1-pyhd8ed1ab_0
+Linking charset-normalizer-3.3.2-pyhd8ed1ab_0
+Linking hpack-4.0.0-pyh9f0ad1d_0
+Linking pysocks-1.7.1-pyha2e5f31_6
+Linking idna-3.7-pyhd8ed1ab_0
+Linking certifi-2024.7.4-pyhd8ed1ab_0
+Linking mpmath-1.3.0-pyhd8ed1ab_0
+Linking typing_extensions-4.12.2-pyha770c72_0
+Linking networkx-3.3-pyhd8ed1ab_1
+Linking filelock-3.15.4-pyhd8ed1ab_0
+Linking click-8.1.7-unix_pyh707e725_0
+Linking python-dateutil-2.9.0-pyhd8ed1ab_0
+Linking h2-4.1.0-pyhd8ed1ab_0
+Linking brotli-python-1.1.0-py311hb755f60_1
+Linking markupsafe-2.1.5-py311h459d7ec_0
+Linking gmpy2-2.1.5-py311hc4f1f91_1
+Linking pyyaml-6.0.1-py311h459d7ec_1
+Linking pillow-9.4.0-py311h50def17_1
+Linking numpy-2.0.0-py311h1461c94_0
+Linking cffi-1.16.0-py311hb3a22ac_0
+Linking pandas-2.2.2-py311h14de704_1
+Linking zstandard-0.23.0-py311h5cd10c7_0
+Linking jinja2-3.1.4-pyhd8ed1ab_0
+Linking sympy-1.13.0-pypyh2585a3b_103
+Linking urllib3-2.2.2-pyhd8ed1ab_1
+Linking requests-2.32.3-pyhd8ed1ab_0
+Linking pytorch-2.3.1-py3.11_cuda12.1_cudnn8.9.2_0
+Linking torchtriton-2.3.1-py311
+Linking torchvision-0.18.1-py311_cu121
+
+Transaction finished
+
+To activate this environment, use:
+
+    mamba activate auto-ghfkfyr2kyt5
+
+Or to execute a single command in this environment, use:
+
+    mamba run -n auto-ghfkfyr2kyt5 mycommand
+
+Installing pip packages
+WARNING: The candidate selected for download or install is a yanked version: 'opencv-python' candidate (version 4.5.5.62 at https://files.pythonhosted.org/packages/9d/98/36bfcbff30da27dd6922ed73ca7802c37d87f77daf4c569da3dcb87b4296/opencv_python-4.5.5.62-cp36-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (from https://pypi.org/simple/opencv-python/) (requires-python:>=3.6))
+Reason for being yanked: deprecated, use 4.5.5.64
diff --git a/Meta-causal/code-withStyleAttack/66581.log b/Meta-causal/code-withStyleAttack/66581.log
new file mode 100644
index 0000000000000000000000000000000000000000..bbfd612f06ddd2d645eca7f9b182eb26b7e824d1
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/66581.log
@@ -0,0 +1,14226 @@
+Collecting h5py>=2.9.0
+  Downloading h5py-3.11.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (2.5 kB)
+Collecting ml-collections
+  Downloading ml_collections-0.1.1.tar.gz (77 kB)
+     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 77.9/77.9 kB 9.0 MB/s eta 0:00:00
+  Preparing metadata (setup.py): started
+  Preparing metadata (setup.py): finished with status 'done'
+Requirement already satisfied: numpy in ./lib/python3.11/site-packages (2.0.0)
+Collecting opencv-python==4.5.5.62
+  Downloading opencv_python-4.5.5.62-cp36-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (18 kB)
+Collecting scipy>=1.3.2
+  Downloading scipy-1.14.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (60 kB)
+     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 60.8/60.8 kB 22.3 MB/s eta 0:00:00
+Collecting tensorboard
+  Downloading tensorboard-2.17.0-py3-none-any.whl.metadata (1.6 kB)
+Collecting tensorboardX>=1.4
+  Downloading tensorboardX-2.6.2.2-py2.py3-none-any.whl.metadata (5.8 kB)
+Collecting timm
+  Downloading timm-1.0.7-py3-none-any.whl.metadata (47 kB)
+     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 47.5/47.5 kB 16.3 MB/s eta 0:00:00
+Collecting absl-py (from ml-collections)
+  Downloading absl_py-2.1.0-py3-none-any.whl.metadata (2.3 kB)
+Requirement already satisfied: PyYAML in ./lib/python3.11/site-packages (from ml-collections) (6.0.1)
+Requirement already satisfied: six in ./lib/python3.11/site-packages (from ml-collections) (1.16.0)
+Collecting contextlib2 (from ml-collections)
+  Downloading contextlib2-21.6.0-py2.py3-none-any.whl.metadata (4.1 kB)
+Collecting grpcio>=1.48.2 (from tensorboard)
+  Downloading grpcio-1.65.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (3.3 kB)
+Collecting markdown>=2.6.8 (from tensorboard)
+  Downloading Markdown-3.6-py3-none-any.whl.metadata (7.0 kB)
+Collecting protobuf!=4.24.0,<5.0.0,>=3.19.6 (from tensorboard)
+  Downloading protobuf-4.25.3-cp37-abi3-manylinux2014_x86_64.whl.metadata (541 bytes)
+Requirement already satisfied: setuptools>=41.0.0 in ./lib/python3.11/site-packages (from tensorboard) (71.0.3)
+Collecting tensorboard-data-server<0.8.0,>=0.7.0 (from tensorboard)
+  Downloading tensorboard_data_server-0.7.2-py3-none-manylinux_2_31_x86_64.whl.metadata (1.1 kB)
+Collecting werkzeug>=1.0.1 (from tensorboard)
+  Downloading werkzeug-3.0.3-py3-none-any.whl.metadata (3.7 kB)
+Collecting packaging (from tensorboardX>=1.4)
+  Downloading packaging-24.1-py3-none-any.whl.metadata (3.2 kB)
+Requirement already satisfied: torch in ./lib/python3.11/site-packages (from timm) (2.3.1)
+Requirement already satisfied: torchvision in ./lib/python3.11/site-packages (from timm) (0.18.1)
+Collecting huggingface_hub (from timm)
+  Downloading huggingface_hub-0.24.0-py3-none-any.whl.metadata (13 kB)
+Collecting safetensors (from timm)
+  Downloading safetensors-0.4.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (3.8 kB)
+Requirement already satisfied: MarkupSafe>=2.1.1 in ./lib/python3.11/site-packages (from werkzeug>=1.0.1->tensorboard) (2.1.5)
+Requirement already satisfied: filelock in ./lib/python3.11/site-packages (from huggingface_hub->timm) (3.15.4)
+Collecting fsspec>=2023.5.0 (from huggingface_hub->timm)
+  Downloading fsspec-2024.6.1-py3-none-any.whl.metadata (11 kB)
+Requirement already satisfied: requests in ./lib/python3.11/site-packages (from huggingface_hub->timm) (2.32.3)
+Collecting tqdm>=4.42.1 (from huggingface_hub->timm)
+  Downloading tqdm-4.66.4-py3-none-any.whl.metadata (57 kB)
+     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 57.6/57.6 kB 25.5 MB/s eta 0:00:00
+Requirement already satisfied: typing-extensions>=3.7.4.3 in ./lib/python3.11/site-packages (from huggingface_hub->timm) (4.12.2)
+Requirement already satisfied: sympy in ./lib/python3.11/site-packages (from torch->timm) (1.13.0)
+Requirement already satisfied: networkx in ./lib/python3.11/site-packages (from torch->timm) (3.3)
+Requirement already satisfied: jinja2 in ./lib/python3.11/site-packages (from torch->timm) (3.1.4)
+Requirement already satisfied: pillow!=8.3.*,>=5.3.0 in ./lib/python3.11/site-packages (from torchvision->timm) (9.4.0)
+Requirement already satisfied: charset-normalizer<4,>=2 in ./lib/python3.11/site-packages (from requests->huggingface_hub->timm) (3.3.2)
+Requirement already satisfied: idna<4,>=2.5 in ./lib/python3.11/site-packages (from requests->huggingface_hub->timm) (3.7)
+Requirement already satisfied: urllib3<3,>=1.21.1 in ./lib/python3.11/site-packages (from requests->huggingface_hub->timm) (2.2.2)
+Requirement already satisfied: certifi>=2017.4.17 in ./lib/python3.11/site-packages (from requests->huggingface_hub->timm) (2024.7.4)
+Requirement already satisfied: mpmath<1.4,>=1.1.0 in ./lib/python3.11/site-packages (from sympy->torch->timm) (1.3.0)
+Downloading opencv_python-4.5.5.62-cp36-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (60.4 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 60.4/60.4 MB 35.8 MB/s eta 0:00:00
+Downloading h5py-3.11.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (5.4 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 5.4/5.4 MB 207.4 MB/s eta 0:00:00
+Downloading scipy-1.14.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (41.1 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 41.1/41.1 MB 112.6 MB/s eta 0:00:00
+Downloading tensorboard-2.17.0-py3-none-any.whl (5.5 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 5.5/5.5 MB 167.4 MB/s eta 0:00:00
+Downloading tensorboardX-2.6.2.2-py2.py3-none-any.whl (101 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 101.7/101.7 kB 38.9 MB/s eta 0:00:00
+Downloading timm-1.0.7-py3-none-any.whl (2.3 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 2.3/2.3 MB 193.1 MB/s eta 0:00:00
+Downloading absl_py-2.1.0-py3-none-any.whl (133 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 133.7/133.7 kB 56.4 MB/s eta 0:00:00
+Downloading grpcio-1.65.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (5.7 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 5.7/5.7 MB 234.0 MB/s eta 0:00:00
+Downloading Markdown-3.6-py3-none-any.whl (105 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 105.4/105.4 kB 42.0 MB/s eta 0:00:00
+Downloading protobuf-4.25.3-cp37-abi3-manylinux2014_x86_64.whl (294 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 294.6/294.6 kB 106.3 MB/s eta 0:00:00
+Downloading tensorboard_data_server-0.7.2-py3-none-manylinux_2_31_x86_64.whl (6.6 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 6.6/6.6 MB 198.6 MB/s eta 0:00:00
+Downloading werkzeug-3.0.3-py3-none-any.whl (227 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 227.3/227.3 kB 77.7 MB/s eta 0:00:00
+Downloading contextlib2-21.6.0-py2.py3-none-any.whl (13 kB)
+Downloading huggingface_hub-0.24.0-py3-none-any.whl (419 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 419.0/419.0 kB 115.7 MB/s eta 0:00:00
+Downloading packaging-24.1-py3-none-any.whl (53 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 54.0/54.0 kB 22.4 MB/s eta 0:00:00
+Downloading safetensors-0.4.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.2 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 1.2/1.2 MB 179.4 MB/s eta 0:00:00
+Downloading fsspec-2024.6.1-py3-none-any.whl (177 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 177.6/177.6 kB 67.1 MB/s eta 0:00:00
+Downloading tqdm-4.66.4-py3-none-any.whl (78 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 78.3/78.3 kB 30.4 MB/s eta 0:00:00
+Building wheels for collected packages: ml-collections
+  Building wheel for ml-collections (setup.py): started
+  Building wheel for ml-collections (setup.py): finished with status 'done'
+  Created wheel for ml-collections: filename=ml_collections-0.1.1-py3-none-any.whl size=94507 sha256=7c8cb802a3eb82a53996f1853748864b8cfe2e63acae5deea5995aee9eda1298
+  Stored in directory: /scratch/yuqian_fu/.cache/pip/wheels/28/82/ef/a6971b09a96519d55ce6efef66f0cbcdef2ae9cc1e6b41daf7
+Successfully built ml-collections
+Installing collected packages: werkzeug, tqdm, tensorboard-data-server, scipy, safetensors, protobuf, packaging, opencv-python, markdown, h5py, grpcio, fsspec, contextlib2, absl-py, tensorboardX, tensorboard, ml-collections, huggingface_hub, timm
+Successfully installed absl-py-2.1.0 contextlib2-21.6.0 fsspec-2024.6.1 grpcio-1.65.1 h5py-3.11.0 huggingface_hub-0.24.0 markdown-3.6 ml-collections-0.1.1 opencv-python-4.5.5.62 packaging-24.1 protobuf-4.25.3 safetensors-0.4.3 scipy-1.14.0 tensorboard-2.17.0 tensorboard-data-server-0.7.2 tensorboardX-2.6.2.2 timm-1.0.7 tqdm-4.66.4 werkzeug-3.0.3
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 500, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_skip4', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 3
+--------------------------CA_multiple--------------------------
+---------------------------14 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+Epoch 1, weight, value: tensor([[-0.0033,  0.0106, -0.0232,  ..., -0.0168, -0.0084, -0.0229],
+        [ 0.0190, -0.0041, -0.0121,  ...,  0.0070,  0.0035, -0.0125],
+        [ 0.0037, -0.0127, -0.0222,  ..., -0.0070,  0.0055,  0.0012],
+        ...,
+        [ 0.0113, -0.0083,  0.0180,  ...,  0.0266, -0.0219,  0.0124],
+        [-0.0019,  0.0299, -0.0147,  ...,  0.0174,  0.0282,  0.0215],
+        [ 0.0080, -0.0058,  0.0244,  ...,  0.0119,  0.0297, -0.0058]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([-0.0090,  0.0254, -0.0144,  0.0130,  0.0250, -0.0216, -0.0249, -0.0214,
+        -0.0198, -0.0243], device='cuda:0'), grad: None
+100
+0.0001
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 220.89, cls_loss 1.2429 cls_loss_mapping 1.8217 cls_loss_causal 2.2111 re_mapping 0.1623 re_causal 0.1722 /// teacc 84.02 lr 0.00010000
+Epoch 2, weight, value: tensor([[-0.0096,  0.0050, -0.0253,  ..., -0.0166, -0.0116, -0.0229],
+        [ 0.0196,  0.0030, -0.0149,  ...,  0.0039,  0.0046, -0.0125],
+        [ 0.0075, -0.0160, -0.0209,  ..., -0.0105,  0.0097,  0.0012],
+        ...,
+        [ 0.0046, -0.0113,  0.0141,  ...,  0.0290, -0.0270,  0.0124],
+        [ 0.0015,  0.0259, -0.0173,  ...,  0.0147,  0.0306,  0.0215],
+        [ 0.0021, -0.0078,  0.0205,  ...,  0.0101,  0.0247, -0.0058]],
+       device='cuda:0'), grad: tensor([[ 0.0097,  0.0004,  0.0005,  ...,  0.0000,  0.0117,  0.0000],
+        [ 0.0275,  0.0021,  0.0007,  ...,  0.0000,  0.0295,  0.0000],
+        [ 0.0309,  0.0035, -0.0082,  ...,  0.0000,  0.0452,  0.0000],
+        ...,
+        [ 0.0035,  0.0014,  0.0021,  ...,  0.0000,  0.0063,  0.0000],
+        [-0.0222,  0.0022,  0.0024,  ...,  0.0000, -0.0240,  0.0000],
+        [ 0.0080,  0.0008,  0.0030,  ...,  0.0000,  0.0024,  0.0000]],
+       device='cuda:0')
+Epoch 2, bias, value: tensor([-0.0099,  0.0248, -0.0146,  0.0121,  0.0247, -0.0200, -0.0255, -0.0207,
+        -0.0201, -0.0235], device='cuda:0'), grad: tensor([ 2.9556e-02,  3.3661e-02,  3.9673e-02, -3.7689e-02,  3.3142e-02,
+        -5.8136e-02, -1.0262e-02,  7.7667e-03,  3.0443e-05, -3.7750e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 221.09, cls_loss 0.4076 cls_loss_mapping 0.7362 cls_loss_causal 1.8887 re_mapping 0.2030 re_causal 0.2662 /// teacc 92.18 lr 0.00010000
+Epoch 3, weight, value: tensor([[-0.0126,  0.0024, -0.0284,  ..., -0.0166, -0.0143, -0.0265],
+        [ 0.0188,  0.0075, -0.0212,  ...,  0.0037,  0.0051, -0.0176],
+        [ 0.0086, -0.0182, -0.0199,  ..., -0.0108,  0.0109, -0.0042],
+        ...,
+        [ 0.0026, -0.0137,  0.0106,  ...,  0.0294, -0.0286,  0.0079],
+        [ 0.0038,  0.0225, -0.0261,  ...,  0.0145,  0.0332,  0.0164],
+        [-0.0020, -0.0118,  0.0185,  ...,  0.0099,  0.0206, -0.0101]],
+       device='cuda:0'), grad: tensor([[ 4.0207e-03,  1.2779e-03,  3.2921e-03,  ...,  7.3910e-05,
+          3.6983e-03,  0.0000e+00],
+        [ 9.6741e-03, -4.7970e-04,  1.1101e-03,  ...,  1.6496e-05,
+          1.0933e-02,  0.0000e+00],
+        [-2.0508e-02, -1.8473e-03,  8.7833e-04,  ...,  8.7619e-06,
+         -3.9520e-02,  0.0000e+00],
+        ...,
+        [ 2.9449e-03,  2.4700e-03, -5.3009e-02,  ..., -6.3705e-03,
+          4.3030e-03,  0.0000e+00],
+        [ 4.3831e-03, -3.2444e-03,  8.0414e-03,  ...,  7.7844e-05,
+          1.2493e-03,  0.0000e+00],
+        [ 3.5343e-03, -2.0390e-03, -1.7365e-02,  ...,  3.7313e-04,
+          1.1215e-03,  0.0000e+00]], device='cuda:0')
+Epoch 3, bias, value: tensor([-0.0104,  0.0243, -0.0147,  0.0123,  0.0246, -0.0190, -0.0260, -0.0213,
+        -0.0200, -0.0229], device='cuda:0'), grad: tensor([ 0.0169,  0.0134, -0.0365,  0.0040,  0.0584, -0.0155,  0.0173, -0.0557,
+         0.0110, -0.0133], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 219.85, cls_loss 0.2705 cls_loss_mapping 0.4382 cls_loss_causal 1.6842 re_mapping 0.1473 re_causal 0.2382 /// teacc 93.87 lr 0.00010000
+Epoch 4, weight, value: tensor([[-1.3754e-02, -9.4881e-04, -3.1061e-02,  ..., -1.5804e-02,
+         -1.5001e-02, -2.9382e-02],
+        [ 1.8693e-02,  1.1509e-02, -2.3888e-02,  ...,  1.0280e-07,
+          5.4352e-03, -2.1072e-02],
+        [ 8.6916e-03, -2.1121e-02, -2.2663e-02,  ..., -1.3761e-02,
+          1.1824e-02, -7.5192e-03],
+        ...,
+        [ 9.5631e-04, -1.7752e-02,  1.1693e-02,  ...,  3.1799e-02,
+         -3.0505e-02,  4.7298e-03],
+        [ 5.0814e-03,  2.2056e-02, -3.1942e-02,  ...,  1.2396e-02,
+          3.5316e-02,  1.3053e-02],
+        [-4.6266e-03, -1.2343e-02,  2.0372e-02,  ...,  6.6468e-03,
+          1.8179e-02, -1.4114e-02]], device='cuda:0'), grad: tensor([[-9.8801e-03,  6.2752e-04,  5.4216e-04,  ...,  6.4122e-07,
+         -6.6757e-03,  0.0000e+00],
+        [-4.5395e-03, -4.0436e-02, -3.1006e-02,  ...,  3.4142e-06,
+         -2.3956e-02,  0.0000e+00],
+        [ 2.3329e-04,  4.0855e-03,  9.7084e-04,  ...,  2.0228e-06,
+          2.6283e-03,  0.0000e+00],
+        ...,
+        [ 8.4448e-04,  6.9313e-03,  1.8478e-02,  ...,  6.1803e-06,
+          6.3095e-03,  0.0000e+00],
+        [-1.6594e-03,  1.8330e-03,  4.0474e-03,  ...,  6.8396e-06,
+          5.2032e-03,  0.0000e+00],
+        [ 2.0695e-03,  3.1548e-03, -8.8577e-03,  ...,  9.8825e-05,
+         -1.0086e-02,  0.0000e+00]], device='cuda:0')
+Epoch 4, bias, value: tensor([-0.0101,  0.0245, -0.0149,  0.0121,  0.0244, -0.0189, -0.0266, -0.0215,
+        -0.0196, -0.0226], device='cuda:0'), grad: tensor([-0.0142, -0.0628,  0.0059,  0.0082,  0.0185,  0.0187,  0.0118,  0.0300,
+         0.0145, -0.0307], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 220.16, cls_loss 0.2136 cls_loss_mapping 0.3193 cls_loss_causal 1.5109 re_mapping 0.1189 re_causal 0.2136 /// teacc 95.49 lr 0.00010000
+Epoch 5, weight, value: tensor([[-0.0149, -0.0046, -0.0337,  ..., -0.0155, -0.0151, -0.0285],
+        [ 0.0180,  0.0138, -0.0253,  ..., -0.0033,  0.0053, -0.0228],
+        [ 0.0092, -0.0222, -0.0219,  ..., -0.0115,  0.0130, -0.0085],
+        ...,
+        [-0.0002, -0.0201,  0.0130,  ...,  0.0344, -0.0319,  0.0018],
+        [ 0.0062,  0.0217, -0.0372,  ...,  0.0043,  0.0368,  0.0099],
+        [-0.0073, -0.0149,  0.0215,  ...,  0.0050,  0.0156, -0.0190]],
+       device='cuda:0'), grad: tensor([[ 1.8597e-04, -1.0557e-03,  2.1720e-04,  ...,  5.5097e-06,
+          2.7990e-04,  0.0000e+00],
+        [ 1.2426e-03, -4.5815e-03,  1.4687e-04,  ...,  7.3239e-06,
+          3.1614e-04,  0.0000e+00],
+        [ 2.6836e-03,  8.2397e-04,  8.6069e-04,  ...,  1.7464e-05,
+          2.0447e-03,  0.0000e+00],
+        ...,
+        [ 1.0958e-03,  8.1444e-04,  3.9902e-03,  ...,  7.4565e-05,
+          1.4744e-03,  0.0000e+00],
+        [-1.5610e-02,  1.8024e-04, -3.2711e-04,  ...,  9.2685e-06,
+         -1.4130e-02,  0.0000e+00],
+        [ 1.0277e-02,  1.0700e-03, -8.3466e-03,  ..., -1.3196e-04,
+          1.0246e-02,  0.0000e+00]], device='cuda:0')
+Epoch 5, bias, value: tensor([-0.0100,  0.0242, -0.0149,  0.0118,  0.0245, -0.0191, -0.0268, -0.0213,
+        -0.0192, -0.0227], device='cuda:0'), grad: tensor([-0.0090, -0.0016,  0.0060, -0.0071,  0.0093,  0.0050,  0.0015,  0.0084,
+        -0.0150,  0.0025], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 219.67, cls_loss 0.1685 cls_loss_mapping 0.2558 cls_loss_causal 1.3716 re_mapping 0.0954 re_causal 0.1943 /// teacc 96.71 lr 0.00010000
+Epoch 6, weight, value: tensor([[-0.0166, -0.0068, -0.0360,  ..., -0.0164, -0.0151, -0.0277],
+        [ 0.0177,  0.0162, -0.0261,  ..., -0.0041,  0.0057, -0.0283],
+        [ 0.0095, -0.0236, -0.0224,  ..., -0.0121,  0.0139, -0.0112],
+        ...,
+        [-0.0012, -0.0219,  0.0139,  ...,  0.0358, -0.0330, -0.0033],
+        [ 0.0076,  0.0222, -0.0411,  ...,  0.0021,  0.0383,  0.0018],
+        [-0.0094, -0.0163,  0.0227,  ...,  0.0050,  0.0139, -0.0240]],
+       device='cuda:0'), grad: tensor([[ 3.2663e-04,  3.5810e-04,  7.1430e-04,  ...,  2.0728e-05,
+          5.3787e-04,  6.6400e-05],
+        [ 1.0884e-04, -9.3079e-03, -8.2321e-03,  ..., -2.1040e-04,
+          1.5812e-03,  8.9034e-06],
+        [-3.1948e-04,  6.9141e-04,  1.0786e-03,  ...,  4.2953e-06,
+         -2.1011e-02,  2.5570e-05],
+        ...,
+        [ 2.3472e-04,  1.5144e-03, -3.1166e-03,  ...,  1.9491e-05,
+          1.8206e-03,  5.5701e-05],
+        [-3.9506e-04,  2.4147e-03,  3.8033e-03,  ...,  5.9605e-05,
+          1.6022e-03,  6.6102e-05],
+        [ 2.7347e-04,  3.5954e-03,  1.0090e-03,  ...,  6.3181e-05,
+          4.4775e-04, -2.6035e-04]], device='cuda:0')
+Epoch 6, bias, value: tensor([-0.0098,  0.0245, -0.0150,  0.0117,  0.0243, -0.0194, -0.0272, -0.0215,
+        -0.0188, -0.0224], device='cuda:0'), grad: tensor([-0.0009, -0.0094, -0.0253, -0.0149,  0.0223,  0.0152,  0.0019, -0.0022,
+         0.0091,  0.0042], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 5----------------------------------------------------
+epoch 5, time 219.77, cls_loss 0.1248 cls_loss_mapping 0.1876 cls_loss_causal 1.2988 re_mapping 0.0819 re_causal 0.1818 /// teacc 96.72 lr 0.00010000
+Epoch 7, weight, value: tensor([[-0.0184, -0.0087, -0.0373,  ..., -0.0176, -0.0162, -0.0281],
+        [ 0.0173,  0.0181, -0.0272,  ..., -0.0049,  0.0058, -0.0315],
+        [ 0.0096, -0.0258, -0.0229,  ..., -0.0130,  0.0148, -0.0116],
+        ...,
+        [-0.0022, -0.0236,  0.0149,  ...,  0.0366, -0.0342, -0.0003],
+        [ 0.0088,  0.0224, -0.0449,  ...,  0.0005,  0.0398, -0.0016],
+        [-0.0104, -0.0166,  0.0230,  ...,  0.0044,  0.0125, -0.0256]],
+       device='cuda:0'), grad: tensor([[ 1.7595e-03,  4.4060e-04,  6.8569e-04,  ...,  1.7691e-04,
+          1.3132e-03,  0.0000e+00],
+        [ 7.9966e-04, -8.1863e-03,  7.5150e-04,  ...,  1.5646e-05,
+         -3.9024e-03,  0.0000e+00],
+        [ 5.0116e-04,  4.2686e-03,  7.4387e-04,  ...,  3.7640e-05,
+          7.9575e-03,  0.0000e+00],
+        ...,
+        [ 1.6899e-03,  1.5955e-03, -2.7466e-03,  ..., -6.2561e-04,
+          4.1542e-03,  0.0000e+00],
+        [-7.0572e-03, -1.0443e-03,  1.8110e-03,  ...,  2.5392e-05,
+         -6.1913e-03,  0.0000e+00],
+        [ 1.9989e-03, -2.1210e-03, -7.8087e-03,  ...,  1.7023e-04,
+         -1.4162e-03,  0.0000e+00]], device='cuda:0')
+Epoch 7, bias, value: tensor([-0.0095,  0.0246, -0.0151,  0.0119,  0.0245, -0.0199, -0.0272, -0.0215,
+        -0.0187, -0.0226], device='cuda:0'), grad: tensor([ 0.0037, -0.0027,  0.0110,  0.0199, -0.0086, -0.0009, -0.0025,  0.0048,
+        -0.0043, -0.0204], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 6----------------------------------------------------
+epoch 6, time 219.42, cls_loss 0.1314 cls_loss_mapping 0.1853 cls_loss_causal 1.2593 re_mapping 0.0696 re_causal 0.1589 /// teacc 97.23 lr 0.00010000
+Epoch 8, weight, value: tensor([[-1.9604e-02, -9.5689e-03, -3.7476e-02,  ..., -1.8186e-02,
+         -1.6059e-02, -2.7094e-02],
+        [ 1.6744e-02,  1.9728e-02, -2.7795e-02,  ..., -5.5014e-03,
+          6.0967e-03, -3.2839e-02],
+        [ 1.0002e-02, -2.7381e-02, -2.2454e-02,  ..., -1.3403e-02,
+          1.5827e-02, -1.2867e-02],
+        ...,
+        [-3.0162e-03, -2.4251e-02,  1.5811e-02,  ...,  3.7565e-02,
+         -3.5452e-02,  2.7019e-05],
+        [ 9.8292e-03,  2.2710e-02, -4.6937e-02,  ..., -6.9613e-04,
+          4.1093e-02, -3.7622e-03],
+        [-1.2419e-02, -1.7763e-02,  2.3166e-02,  ...,  3.9022e-03,
+          1.0741e-02, -2.6499e-02]], device='cuda:0'), grad: tensor([[ 9.6226e-04,  5.6076e-04,  2.3603e-04,  ...,  9.2089e-06,
+         -2.1732e-04,  0.0000e+00],
+        [ 2.7790e-03, -4.2868e-04,  9.5940e-04,  ...,  7.1451e-06,
+          3.0613e-03,  0.0000e+00],
+        [-4.7684e-03, -3.0479e-03,  5.8603e-04,  ...,  8.4862e-06,
+         -7.4654e-03,  0.0000e+00],
+        ...,
+        [ 3.8433e-04,  1.4305e-03, -4.0169e-03,  ...,  5.2266e-06,
+          7.4005e-04,  0.0000e+00],
+        [ 1.3151e-03,  1.1139e-03,  1.1168e-03,  ...,  3.3557e-05,
+          1.4229e-03,  0.0000e+00],
+        [ 1.8919e-04,  4.5419e-04, -3.1616e-02,  ...,  3.8028e-05,
+          2.7585e-04,  0.0000e+00]], device='cuda:0')
+Epoch 8, bias, value: tensor([-0.0092,  0.0246, -0.0150,  0.0118,  0.0245, -0.0200, -0.0277, -0.0210,
+        -0.0184, -0.0229], device='cuda:0'), grad: tensor([-0.0005,  0.0038, -0.0029,  0.0058,  0.0306,  0.0043, -0.0043, -0.0193,
+         0.0052, -0.0227], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 7, time 219.29, cls_loss 0.0951 cls_loss_mapping 0.1423 cls_loss_causal 1.1747 re_mapping 0.0605 re_causal 0.1489 /// teacc 97.17 lr 0.00010000
+Epoch 9, weight, value: tensor([[-0.0210, -0.0107, -0.0386,  ..., -0.0180, -0.0173, -0.0273],
+        [ 0.0160,  0.0207, -0.0294,  ..., -0.0055,  0.0061, -0.0341],
+        [ 0.0101, -0.0289, -0.0227,  ..., -0.0140,  0.0167, -0.0131],
+        ...,
+        [-0.0043, -0.0260,  0.0176,  ...,  0.0385, -0.0368,  0.0007],
+        [ 0.0109,  0.0227, -0.0495,  ..., -0.0017,  0.0423, -0.0048],
+        [-0.0137, -0.0184,  0.0239,  ...,  0.0038,  0.0093, -0.0273]],
+       device='cuda:0'), grad: tensor([[ 3.6144e-04,  3.3307e-04,  2.0611e-04,  ...,  4.9204e-05,
+          5.5933e-04,  0.0000e+00],
+        [-1.6083e-02, -2.3712e-02,  1.0433e-03,  ...,  5.9098e-05,
+         -6.6071e-03,  0.0000e+00],
+        [-4.2229e-03, -1.6212e-03,  1.8921e-03,  ...,  3.0547e-05,
+         -1.4429e-03,  0.0000e+00],
+        ...,
+        [-6.2513e-04,  4.9877e-04,  5.4893e-03,  ...,  1.5154e-03,
+         -2.1648e-03,  0.0000e+00],
+        [ 2.4338e-03,  6.0158e-03,  1.1988e-03,  ...,  2.1410e-04,
+          5.1575e-03,  0.0000e+00],
+        [ 5.6696e-04, -3.1996e-04, -1.1238e-02,  ..., -1.6785e-03,
+          1.6375e-03,  0.0000e+00]], device='cuda:0')
+Epoch 9, bias, value: tensor([-0.0092,  0.0243, -0.0152,  0.0117,  0.0246, -0.0203, -0.0278, -0.0207,
+        -0.0181, -0.0228], device='cuda:0'), grad: tensor([ 0.0003, -0.0122,  0.0075, -0.0140,  0.0060,  0.0040,  0.0129, -0.0064,
+         0.0116, -0.0097], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 8----------------------------------------------------
+epoch 8, time 219.82, cls_loss 0.0875 cls_loss_mapping 0.1296 cls_loss_causal 1.1137 re_mapping 0.0570 re_causal 0.1382 /// teacc 97.46 lr 0.00010000
+Epoch 10, weight, value: tensor([[-0.0225, -0.0116, -0.0383,  ..., -0.0176, -0.0176, -0.0269],
+        [ 0.0153,  0.0222, -0.0306,  ..., -0.0063,  0.0059, -0.0346],
+        [ 0.0105, -0.0302, -0.0230,  ..., -0.0146,  0.0179, -0.0136],
+        ...,
+        [-0.0056, -0.0270,  0.0181,  ...,  0.0407, -0.0389,  0.0014],
+        [ 0.0117,  0.0219, -0.0522,  ..., -0.0040,  0.0431, -0.0054],
+        [-0.0151, -0.0188,  0.0242,  ...,  0.0031,  0.0088, -0.0280]],
+       device='cuda:0'), grad: tensor([[ 7.2575e-04,  2.0719e-04,  1.7667e-04,  ...,  7.0453e-05,
+          6.4468e-04,  3.3099e-06],
+        [ 3.6621e-04, -4.0283e-03, -4.1771e-04,  ...,  1.8060e-04,
+         -1.8919e-04,  1.3486e-06],
+        [ 8.2827e-04,  7.6151e-04,  5.2357e-04,  ...,  5.6934e-04,
+         -2.3613e-03,  1.0729e-05],
+        ...,
+        [ 4.1628e-04,  2.5797e-04, -1.8463e-03,  ...,  1.7524e-04,
+          1.2388e-03,  3.3379e-06],
+        [ 3.5501e-04,  8.0729e-04,  7.0238e-04,  ...,  6.1989e-05,
+         -4.6301e-04,  3.6228e-06],
+        [ 8.4829e-04,  4.2415e-04,  1.8568e-03,  ...,  3.8624e-04,
+          1.3418e-03,  1.0985e-04]], device='cuda:0')
+Epoch 10, bias, value: tensor([-0.0089,  0.0240, -0.0150,  0.0120,  0.0246, -0.0204, -0.0281, -0.0208,
+        -0.0182, -0.0227], device='cuda:0'), grad: tensor([ 0.0009, -0.0010, -0.0002, -0.0061,  0.0033, -0.0021, -0.0007, -0.0012,
+         0.0023,  0.0046], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 9----------------------------------------------------
+epoch 9, time 219.70, cls_loss 0.0855 cls_loss_mapping 0.1226 cls_loss_causal 1.0743 re_mapping 0.0512 re_causal 0.1281 /// teacc 97.66 lr 0.00010000
+Epoch 11, weight, value: tensor([[-0.0237, -0.0129, -0.0377,  ..., -0.0189, -0.0181, -0.0255],
+        [ 0.0150,  0.0237, -0.0316,  ..., -0.0075,  0.0065, -0.0349],
+        [ 0.0106, -0.0317, -0.0242,  ..., -0.0160,  0.0182, -0.0145],
+        ...,
+        [-0.0068, -0.0274,  0.0196,  ...,  0.0418, -0.0402,  0.0017],
+        [ 0.0127,  0.0222, -0.0547,  ..., -0.0053,  0.0441, -0.0059],
+        [-0.0163, -0.0205,  0.0241,  ...,  0.0022,  0.0078, -0.0287]],
+       device='cuda:0'), grad: tensor([[ 5.5790e-04,  3.1829e-04,  8.4281e-05,  ...,  0.0000e+00,
+          2.3019e-04,  0.0000e+00],
+        [ 3.4294e-03,  2.3727e-03, -7.2837e-05,  ...,  0.0000e+00,
+          1.3266e-03,  0.0000e+00],
+        [-3.6001e-04,  9.0837e-05,  2.5868e-04,  ...,  0.0000e+00,
+         -1.6661e-03,  0.0000e+00],
+        ...,
+        [ 2.9325e-04,  6.8378e-04,  1.1314e-02,  ...,  0.0000e+00,
+          2.2984e-04,  0.0000e+00],
+        [ 3.3173e-02,  1.3893e-02,  6.2609e-04,  ...,  0.0000e+00,
+          9.8953e-03,  0.0000e+00],
+        [ 7.6437e-04,  2.5630e-04, -1.2169e-02,  ...,  0.0000e+00,
+          3.5310e-04,  0.0000e+00]], device='cuda:0')
+Epoch 11, bias, value: tensor([-0.0089,  0.0243, -0.0156,  0.0121,  0.0247, -0.0203, -0.0283, -0.0206,
+        -0.0178, -0.0232], device='cuda:0'), grad: tensor([ 0.0275,  0.0027, -0.0003, -0.0036,  0.0006, -0.0581,  0.0044,  0.0145,
+         0.0249, -0.0125], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 10----------------------------------------------------
+epoch 10, time 219.96, cls_loss 0.0820 cls_loss_mapping 0.1164 cls_loss_causal 1.0993 re_mapping 0.0455 re_causal 0.1192 /// teacc 97.89 lr 0.00010000
+Epoch 12, weight, value: tensor([[-0.0250, -0.0141, -0.0387,  ..., -0.0199, -0.0187, -0.0253],
+        [ 0.0141,  0.0243, -0.0316,  ..., -0.0056,  0.0066, -0.0358],
+        [ 0.0110, -0.0322, -0.0237,  ..., -0.0176,  0.0193, -0.0149],
+        ...,
+        [-0.0078, -0.0284,  0.0199,  ...,  0.0425, -0.0416,  0.0021],
+        [ 0.0133,  0.0216, -0.0582,  ..., -0.0067,  0.0449, -0.0066],
+        [-0.0172, -0.0206,  0.0251,  ...,  0.0018,  0.0068, -0.0289]],
+       device='cuda:0'), grad: tensor([[ 2.7585e-04,  3.0494e-04,  3.2067e-05,  ...,  7.5391e-07,
+          1.7357e-04,  0.0000e+00],
+        [ 3.4351e-03, -1.9236e-03,  6.6280e-05,  ...,  8.4098e-07,
+         -3.1395e-03,  0.0000e+00],
+        [ 7.1239e-04,  1.8644e-03,  7.5006e-04,  ...,  2.5262e-07,
+          1.8902e-03,  0.0000e+00],
+        ...,
+        [ 7.7665e-05,  9.1600e-04, -1.3056e-03,  ...,  3.9577e-05,
+          7.7057e-04,  0.0000e+00],
+        [-2.9011e-03,  4.8661e-04,  2.2161e-04,  ...,  9.3132e-07,
+         -5.1689e-03,  0.0000e+00],
+        [ 2.4533e-04,  1.8632e-04, -6.7253e-03,  ..., -6.7055e-05,
+          2.4247e-04,  0.0000e+00]], device='cuda:0')
+Epoch 12, bias, value: tensor([-0.0089,  0.0246, -0.0155,  0.0119,  0.0248, -0.0200, -0.0288, -0.0208,
+        -0.0181, -0.0230], device='cuda:0'), grad: tensor([ 0.0002, -0.0047,  0.0039,  0.0047,  0.0070,  0.0049, -0.0065, -0.0003,
+        -0.0031, -0.0063], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 11, time 219.29, cls_loss 0.0644 cls_loss_mapping 0.0966 cls_loss_causal 1.0539 re_mapping 0.0452 re_causal 0.1130 /// teacc 97.88 lr 0.00010000
+Epoch 13, weight, value: tensor([[-0.0264, -0.0136, -0.0377,  ..., -0.0203, -0.0187, -0.0238],
+        [ 0.0132,  0.0251, -0.0318,  ..., -0.0034,  0.0059, -0.0371],
+        [ 0.0113, -0.0329, -0.0251,  ..., -0.0189,  0.0202, -0.0157],
+        ...,
+        [-0.0081, -0.0301,  0.0218,  ...,  0.0432, -0.0423,  0.0025],
+        [ 0.0142,  0.0216, -0.0606,  ..., -0.0070,  0.0459, -0.0075],
+        [-0.0181, -0.0220,  0.0252,  ...,  0.0020,  0.0060, -0.0293]],
+       device='cuda:0'), grad: tensor([[ 6.1846e-04,  6.5947e-04,  1.4710e-04,  ...,  1.3009e-05,
+         -9.0003e-05,  0.0000e+00],
+        [ 1.4982e-03,  4.1809e-03,  1.2684e-03,  ...,  1.7810e-04,
+          5.0659e-03,  0.0000e+00],
+        [ 4.2458e-03, -1.8911e-03,  1.1711e-03,  ...,  1.1921e-05,
+          4.4107e-04,  0.0000e+00],
+        ...,
+        [ 5.6410e-04,  4.2582e-04, -3.9673e-03,  ..., -6.0272e-04,
+          1.4172e-03,  0.0000e+00],
+        [ 1.4938e-02,  1.9569e-03, -2.2354e-03,  ...,  2.9150e-06,
+         -7.7391e-04,  0.0000e+00],
+        [ 2.3258e-04,  6.0081e-04,  1.2493e-03,  ...,  3.3474e-04,
+          5.6410e-04,  0.0000e+00]], device='cuda:0')
+Epoch 13, bias, value: tensor([-0.0086,  0.0242, -0.0152,  0.0119,  0.0248, -0.0203, -0.0288, -0.0204,
+        -0.0180, -0.0231], device='cuda:0'), grad: tensor([-0.0004,  0.0101,  0.0015, -0.0003,  0.0078, -0.0229,  0.0013, -0.0032,
+         0.0041,  0.0023], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 12----------------------------------------------------
+epoch 12, time 217.62, cls_loss 0.0632 cls_loss_mapping 0.0958 cls_loss_causal 1.0086 re_mapping 0.0419 re_causal 0.1067 /// teacc 98.13 lr 0.00010000
+Epoch 14, weight, value: tensor([[-0.0278, -0.0149, -0.0383,  ..., -0.0213, -0.0196, -0.0236],
+        [ 0.0126,  0.0257, -0.0328,  ..., -0.0037,  0.0058, -0.0377],
+        [ 0.0115, -0.0339, -0.0267,  ..., -0.0202,  0.0210, -0.0162],
+        ...,
+        [-0.0088, -0.0313,  0.0227,  ...,  0.0436, -0.0435,  0.0039],
+        [ 0.0152,  0.0218, -0.0619,  ..., -0.0078,  0.0469, -0.0080],
+        [-0.0193, -0.0218,  0.0257,  ...,  0.0017,  0.0049, -0.0296]],
+       device='cuda:0'), grad: tensor([[ 1.0097e-04,  5.6535e-05,  6.2287e-05,  ...,  9.1968e-09,
+          9.1672e-05, -1.0073e-04],
+        [ 6.6698e-05,  2.1820e-03,  1.6546e-04,  ...,  1.3912e-07,
+          6.8283e-03,  2.3982e-07],
+        [-1.8179e-04, -3.5248e-03, -4.7326e-04,  ...,  7.7998e-09,
+         -8.4381e-03,  1.6261e-06],
+        ...,
+        [ 1.8620e-04,  7.3671e-04, -2.2011e-03,  ...,  3.5693e-07,
+          6.3086e-04,  2.4587e-06],
+        [-3.0804e-03,  4.6968e-04, -7.4816e-04,  ...,  1.1094e-07,
+         -4.8027e-03,  3.4552e-06],
+        [ 2.8343e-03, -4.9353e-05,  2.2678e-03,  ..., -1.3355e-06,
+          4.0894e-03,  1.2346e-05]], device='cuda:0')
+Epoch 14, bias, value: tensor([-0.0088,  0.0238, -0.0157,  0.0124,  0.0248, -0.0203, -0.0291, -0.0204,
+        -0.0175, -0.0231], device='cuda:0'), grad: tensor([-0.0036,  0.0055, -0.0066,  0.0051,  0.0006, -0.0037,  0.0011, -0.0022,
+        -0.0033,  0.0070], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 13, time 217.08, cls_loss 0.0582 cls_loss_mapping 0.0908 cls_loss_causal 0.9903 re_mapping 0.0403 re_causal 0.1048 /// teacc 98.12 lr 0.00010000
+Epoch 15, weight, value: tensor([[-0.0294, -0.0160, -0.0381,  ..., -0.0215, -0.0198, -0.0236],
+        [ 0.0122,  0.0271, -0.0339,  ..., -0.0036,  0.0058, -0.0383],
+        [ 0.0119, -0.0354, -0.0263,  ..., -0.0210,  0.0220, -0.0160],
+        ...,
+        [-0.0098, -0.0320,  0.0237,  ...,  0.0440, -0.0450,  0.0043],
+        [ 0.0157,  0.0216, -0.0642,  ..., -0.0083,  0.0477, -0.0084],
+        [-0.0198, -0.0228,  0.0256,  ...,  0.0017,  0.0038, -0.0298]],
+       device='cuda:0'), grad: tensor([[ 1.3733e-04,  3.3230e-05,  3.4451e-05,  ...,  2.6100e-07,
+         -7.2193e-04,  0.0000e+00],
+        [ 1.7297e-04, -7.9498e-03, -4.0588e-03,  ...,  2.2221e-06,
+         -1.0786e-03,  0.0000e+00],
+        [-6.2370e-04,  3.1877e-04,  1.2636e-04,  ...,  8.4043e-06,
+         -1.4725e-03,  0.0000e+00],
+        ...,
+        [ 1.1533e-04,  6.7711e-03,  4.5433e-03,  ...,  3.2008e-05,
+          1.5421e-03,  0.0000e+00],
+        [-2.8372e-04, -1.5303e-05,  2.6822e-04,  ...,  1.8803e-06,
+          2.0218e-04,  0.0000e+00],
+        [ 4.1008e-05,  1.4448e-04, -2.1152e-03,  ...,  1.4780e-06,
+          2.2840e-04,  0.0000e+00]], device='cuda:0')
+Epoch 15, bias, value: tensor([-0.0086,  0.0239, -0.0155,  0.0123,  0.0249, -0.0202, -0.0291, -0.0204,
+        -0.0176, -0.0234], device='cuda:0'), grad: tensor([-0.0033, -0.0068, -0.0002,  0.0012,  0.0012,  0.0007,  0.0003,  0.0078,
+         0.0007, -0.0015], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 14, time 216.91, cls_loss 0.0555 cls_loss_mapping 0.0857 cls_loss_causal 0.9918 re_mapping 0.0379 re_causal 0.1010 /// teacc 98.06 lr 0.00010000
+Epoch 16, weight, value: tensor([[-0.0305, -0.0157, -0.0388,  ..., -0.0221, -0.0198, -0.0237],
+        [ 0.0116,  0.0278, -0.0342,  ..., -0.0035,  0.0054, -0.0383],
+        [ 0.0121, -0.0356, -0.0271,  ..., -0.0220,  0.0227, -0.0160],
+        ...,
+        [-0.0105, -0.0334,  0.0237,  ...,  0.0437, -0.0460,  0.0043],
+        [ 0.0167,  0.0217, -0.0660,  ..., -0.0096,  0.0489, -0.0085],
+        [-0.0205, -0.0230,  0.0263,  ...,  0.0015,  0.0023, -0.0298]],
+       device='cuda:0'), grad: tensor([[ 4.5228e-04,  1.3947e-04,  7.1704e-05,  ...,  0.0000e+00,
+          1.1593e-04,  0.0000e+00],
+        [ 3.2592e-04, -3.7909e-04,  5.0974e-04,  ...,  0.0000e+00,
+          6.6471e-04,  0.0000e+00],
+        [ 6.4087e-04,  1.9252e-04, -2.1423e-02,  ...,  0.0000e+00,
+          8.3256e-04,  0.0000e+00],
+        ...,
+        [ 2.1029e-04,  7.1704e-05,  2.0264e-02,  ...,  0.0000e+00,
+          2.1052e-04,  0.0000e+00],
+        [-7.8201e-04,  2.8515e-04, -8.0013e-04,  ...,  0.0000e+00,
+         -8.6746e-03,  0.0000e+00],
+        [ 3.8605e-03,  1.6508e-03,  3.3379e-03,  ...,  0.0000e+00,
+          4.7302e-03,  0.0000e+00]], device='cuda:0')
+Epoch 16, bias, value: tensor([-0.0085,  0.0238, -0.0155,  0.0126,  0.0247, -0.0202, -0.0291, -0.0210,
+        -0.0173, -0.0232], device='cuda:0'), grad: tensor([ 0.0003,  0.0012, -0.0272,  0.0057, -0.0015, -0.0169,  0.0044,  0.0271,
+        -0.0011,  0.0079], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 15----------------------------------------------------
+epoch 15, time 217.58, cls_loss 0.0501 cls_loss_mapping 0.0776 cls_loss_causal 0.9917 re_mapping 0.0353 re_causal 0.0977 /// teacc 98.27 lr 0.00010000
+Epoch 17, weight, value: tensor([[-0.0319, -0.0173, -0.0387,  ..., -0.0222, -0.0204, -0.0233],
+        [ 0.0109,  0.0287, -0.0336,  ..., -0.0036,  0.0052, -0.0395],
+        [ 0.0123, -0.0364, -0.0281,  ..., -0.0228,  0.0231, -0.0172],
+        ...,
+        [-0.0109, -0.0345,  0.0248,  ...,  0.0439, -0.0465,  0.0051],
+        [ 0.0176,  0.0216, -0.0681,  ..., -0.0100,  0.0499, -0.0089],
+        [-0.0213, -0.0235,  0.0264,  ...,  0.0015,  0.0017, -0.0304]],
+       device='cuda:0'), grad: tensor([[ 2.5225e-04,  1.6558e-04,  7.1764e-05,  ...,  0.0000e+00,
+          7.2777e-05, -3.2115e-04],
+        [ 4.4131e-04, -2.6822e-04,  1.6856e-04,  ...,  0.0000e+00,
+          3.3259e-04,  2.4363e-06],
+        [-5.7602e-04,  3.9983e-04,  2.6011e-04,  ...,  0.0000e+00,
+         -1.9045e-03,  4.0889e-05],
+        ...,
+        [ 1.2207e-04,  1.4532e-04,  3.1471e-04,  ...,  0.0000e+00,
+          1.6546e-04,  1.2182e-05],
+        [ 2.8610e-03,  1.3351e-03,  1.8616e-03,  ...,  0.0000e+00,
+          1.3037e-03,  1.5050e-05],
+        [ 4.9496e-04,  2.1291e-04, -7.1478e-04,  ...,  0.0000e+00,
+          6.2406e-05,  4.7624e-05]], device='cuda:0')
+Epoch 17, bias, value: tensor([-0.0086,  0.0236, -0.0155,  0.0125,  0.0245, -0.0204, -0.0293, -0.0205,
+        -0.0171, -0.0231], device='cuda:0'), grad: tensor([-0.0026,  0.0006, -0.0006,  0.0013, -0.0048, -0.0020,  0.0012,  0.0010,
+         0.0062, -0.0003], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 16----------------------------------------------------
+epoch 16, time 217.60, cls_loss 0.0470 cls_loss_mapping 0.0740 cls_loss_causal 0.9510 re_mapping 0.0342 re_causal 0.0925 /// teacc 98.47 lr 0.00010000
+Epoch 18, weight, value: tensor([[-0.0327, -0.0181, -0.0388,  ..., -0.0224, -0.0207, -0.0231],
+        [ 0.0104,  0.0291, -0.0347,  ..., -0.0037,  0.0053, -0.0411],
+        [ 0.0127, -0.0370, -0.0289,  ..., -0.0231,  0.0238, -0.0178],
+        ...,
+        [-0.0112, -0.0347,  0.0253,  ...,  0.0440, -0.0477,  0.0048],
+        [ 0.0181,  0.0218, -0.0690,  ..., -0.0101,  0.0507, -0.0101],
+        [-0.0214, -0.0236,  0.0270,  ...,  0.0015,  0.0013, -0.0309]],
+       device='cuda:0'), grad: tensor([[ 3.1757e-04,  1.9801e-04,  3.2097e-05,  ...,  0.0000e+00,
+          1.1617e-04,  0.0000e+00],
+        [-2.4872e-03, -5.6610e-03,  2.3639e-04,  ...,  0.0000e+00,
+         -2.4357e-03,  0.0000e+00],
+        [-8.4519e-05,  2.6679e-04,  1.0282e-04,  ...,  0.0000e+00,
+         -5.6934e-04,  0.0000e+00],
+        ...,
+        [ 1.8060e-04,  6.0463e-04,  7.2861e-04,  ...,  0.0000e+00,
+          2.1088e-04,  0.0000e+00],
+        [ 2.5425e-03,  4.7569e-03,  1.3852e-04,  ...,  0.0000e+00,
+          2.1343e-03,  0.0000e+00],
+        [ 2.0254e-04, -1.0061e-03, -2.1477e-03,  ...,  0.0000e+00,
+          1.4770e-04,  0.0000e+00]], device='cuda:0')
+Epoch 18, bias, value: tensor([-0.0084,  0.0236, -0.0156,  0.0123,  0.0245, -0.0206, -0.0293, -0.0204,
+        -0.0170, -0.0231], device='cuda:0'), grad: tensor([ 1.9598e-04, -4.3526e-03,  3.4243e-05,  5.5542e-03,  1.5259e-03,
+        -5.7678e-03, -3.2377e-04,  2.0218e-03,  4.6921e-03, -3.5820e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 17, time 217.05, cls_loss 0.0421 cls_loss_mapping 0.0660 cls_loss_causal 0.9220 re_mapping 0.0325 re_causal 0.0881 /// teacc 98.45 lr 0.00010000
+Epoch 19, weight, value: tensor([[-3.3687e-02, -1.8973e-02, -3.9390e-02,  ..., -2.2173e-02,
+         -2.1704e-02, -2.3315e-02],
+        [ 1.0102e-02,  2.9863e-02, -3.5722e-02,  ..., -3.7539e-03,
+          4.6851e-03, -4.2936e-02],
+        [ 1.2609e-02, -3.7429e-02, -2.9608e-02,  ..., -2.3292e-02,
+          2.4234e-02, -1.9114e-02],
+        ...,
+        [-1.1490e-02, -3.5047e-02,  2.6501e-02,  ...,  4.3868e-02,
+         -4.8378e-02,  5.2001e-03],
+        [ 1.8665e-02,  2.1461e-02, -7.0798e-02,  ..., -1.0408e-02,
+          5.1416e-02, -8.6810e-03],
+        [-2.1502e-02, -2.3988e-02,  2.7508e-02,  ...,  1.4138e-03,
+          5.0486e-05, -3.1226e-02]], device='cuda:0'), grad: tensor([[ 7.6413e-05, -5.0254e-06,  3.1859e-05,  ...,  0.0000e+00,
+         -2.4939e-04,  0.0000e+00],
+        [ 3.9268e-04,  2.8062e-04,  7.7152e-04,  ...,  0.0000e+00,
+          3.5019e-03,  0.0000e+00],
+        [-1.5898e-03,  5.0735e-04,  3.7193e-04,  ...,  0.0000e+00,
+         -6.7062e-03,  0.0000e+00],
+        ...,
+        [ 4.5371e-04, -2.1191e-03, -1.5564e-03,  ...,  0.0000e+00,
+          1.9140e-03,  0.0000e+00],
+        [ 5.2500e-04,  1.0242e-03,  9.2936e-04,  ...,  0.0000e+00,
+          5.0163e-04,  0.0000e+00],
+        [ 2.0778e-04,  1.7560e-04, -5.1403e-04,  ...,  0.0000e+00,
+          2.1112e-04,  0.0000e+00]], device='cuda:0')
+Epoch 19, bias, value: tensor([-0.0088,  0.0233, -0.0155,  0.0129,  0.0246, -0.0206, -0.0297, -0.0202,
+        -0.0169, -0.0232], device='cuda:0'), grad: tensor([-0.0010,  0.0041, -0.0056,  0.0019, -0.0006, -0.0009,  0.0009, -0.0013,
+         0.0029, -0.0003], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 18, time 216.95, cls_loss 0.0399 cls_loss_mapping 0.0616 cls_loss_causal 0.8926 re_mapping 0.0297 re_causal 0.0823 /// teacc 98.46 lr 0.00010000
+Epoch 20, weight, value: tensor([[-0.0350, -0.0201, -0.0399,  ..., -0.0222, -0.0222, -0.0233],
+        [ 0.0099,  0.0306, -0.0364,  ..., -0.0031,  0.0047, -0.0432],
+        [ 0.0125, -0.0384, -0.0304,  ..., -0.0240,  0.0248, -0.0192],
+        ...,
+        [-0.0121, -0.0352,  0.0267,  ...,  0.0441, -0.0497,  0.0052],
+        [ 0.0195,  0.0216, -0.0725,  ..., -0.0111,  0.0519, -0.0086],
+        [-0.0221, -0.0247,  0.0278,  ...,  0.0013, -0.0004, -0.0313]],
+       device='cuda:0'), grad: tensor([[ 5.1737e-04,  6.5744e-05,  3.7730e-05,  ...,  0.0000e+00,
+          3.0422e-04,  0.0000e+00],
+        [ 4.0436e-04, -5.8383e-05,  2.3270e-04,  ...,  0.0000e+00,
+          5.4455e-04,  0.0000e+00],
+        [-6.8140e-04,  1.5950e-04,  3.5143e-04,  ...,  0.0000e+00,
+         -2.6360e-03,  0.0000e+00],
+        ...,
+        [ 2.1219e-04,  2.6211e-05, -1.6804e-03,  ...,  0.0000e+00,
+          1.5569e-04,  0.0000e+00],
+        [-4.0169e-03, -1.3447e-03,  2.2209e-04,  ...,  0.0000e+00,
+         -6.7253e-03,  0.0000e+00],
+        [ 1.4818e-04,  4.2081e-05, -1.8895e-04,  ...,  0.0000e+00,
+          2.1696e-04,  0.0000e+00]], device='cuda:0')
+Epoch 20, bias, value: tensor([-0.0089,  0.0231, -0.0155,  0.0129,  0.0247, -0.0208, -0.0294, -0.0203,
+        -0.0169, -0.0231], device='cuda:0'), grad: tensor([ 5.0774e-03,  1.5125e-03, -6.1512e-04,  4.2000e-03,  1.9627e-03,
+        -1.5335e-02,  1.1261e-02,  6.0827e-05, -8.6212e-03,  5.0497e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 19, time 216.97, cls_loss 0.0393 cls_loss_mapping 0.0622 cls_loss_causal 0.8830 re_mapping 0.0292 re_causal 0.0823 /// teacc 97.98 lr 0.00010000
+Epoch 21, weight, value: tensor([[-0.0360, -0.0214, -0.0401,  ..., -0.0223, -0.0222, -0.0232],
+        [ 0.0097,  0.0312, -0.0368,  ..., -0.0026,  0.0041, -0.0434],
+        [ 0.0125, -0.0387, -0.0307,  ..., -0.0244,  0.0255, -0.0193],
+        ...,
+        [-0.0124, -0.0347,  0.0274,  ...,  0.0442, -0.0498,  0.0053],
+        [ 0.0201,  0.0214, -0.0731,  ..., -0.0112,  0.0525, -0.0088],
+        [-0.0224, -0.0251,  0.0281,  ...,  0.0013, -0.0012, -0.0314]],
+       device='cuda:0'), grad: tensor([[ 6.4802e-04,  5.0688e-04,  1.4544e-04,  ...,  1.5751e-05,
+          4.9257e-04,  0.0000e+00],
+        [ 1.9207e-03,  1.9646e-03,  4.7255e-04,  ...,  5.7369e-05,
+          4.0169e-03,  0.0000e+00],
+        [-1.0025e-02, -4.5433e-03, -5.4932e-03,  ...,  3.1209e-04,
+         -2.0645e-02,  0.0000e+00],
+        ...,
+        [ 2.3136e-03,  3.2735e-04,  2.2583e-03,  ...,  9.1493e-05,
+          5.1422e-03,  0.0000e+00],
+        [ 3.3760e-03,  2.3899e-03,  2.3174e-03,  ...,  4.4137e-05,
+          7.8049e-03,  0.0000e+00],
+        [ 3.3903e-04,  3.2067e-04,  1.7347e-03,  ...,  1.4275e-05,
+          5.8222e-04,  0.0000e+00]], device='cuda:0')
+Epoch 21, bias, value: tensor([-0.0089,  0.0230, -0.0154,  0.0128,  0.0244, -0.0210, -0.0293, -0.0201,
+        -0.0167, -0.0231], device='cuda:0'), grad: tensor([ 2.0256e-03,  5.4359e-03, -1.9470e-02, -8.5068e-03,  7.5758e-05,
+         1.9646e-03, -2.2469e-03,  7.8659e-03,  8.4991e-03,  4.3449e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 20, time 216.55, cls_loss 0.0378 cls_loss_mapping 0.0593 cls_loss_causal 0.8905 re_mapping 0.0278 re_causal 0.0772 /// teacc 98.26 lr 0.00010000
+Epoch 22, weight, value: tensor([[-0.0367, -0.0224, -0.0393,  ..., -0.0223, -0.0223, -0.0229],
+        [ 0.0092,  0.0318, -0.0372,  ..., -0.0026,  0.0038, -0.0435],
+        [ 0.0128, -0.0402, -0.0313,  ..., -0.0248,  0.0266, -0.0194],
+        ...,
+        [-0.0129, -0.0344,  0.0288,  ...,  0.0442, -0.0504,  0.0053],
+        [ 0.0205,  0.0215, -0.0744,  ..., -0.0114,  0.0526, -0.0089],
+        [-0.0224, -0.0256,  0.0281,  ...,  0.0013, -0.0015, -0.0318]],
+       device='cuda:0'), grad: tensor([[ 1.4820e-03,  2.3782e-04,  9.7334e-05,  ...,  3.3565e-06,
+          8.7833e-04,  0.0000e+00],
+        [ 1.3888e-04, -5.9557e-04,  4.6998e-05,  ...,  2.4983e-07,
+          4.9233e-05,  0.0000e+00],
+        [ 3.1734e-04,  1.6320e-04,  1.3614e-04,  ...,  2.4773e-07,
+          1.3721e-04,  0.0000e+00],
+        ...,
+        [ 1.6022e-04,  2.4748e-04, -6.8903e-05,  ...,  8.3819e-07,
+          1.0455e-04,  0.0000e+00],
+        [-3.9749e-03,  2.2948e-04, -7.1883e-05,  ...,  1.5423e-06,
+         -3.2921e-03,  0.0000e+00],
+        [ 1.8454e-03,  4.4882e-05, -2.0051e-04,  ...,  4.1425e-06,
+          1.3609e-03,  0.0000e+00]], device='cuda:0')
+Epoch 22, bias, value: tensor([-0.0085,  0.0227, -0.0153,  0.0130,  0.0243, -0.0212, -0.0294, -0.0197,
+        -0.0170, -0.0231], device='cuda:0'), grad: tensor([ 0.0032, -0.0002,  0.0011,  0.0014,  0.0003,  0.0009, -0.0015,  0.0004,
+        -0.0093,  0.0036], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 21----------------------------------------------------
+epoch 21, time 217.56, cls_loss 0.0357 cls_loss_mapping 0.0550 cls_loss_causal 0.8442 re_mapping 0.0280 re_causal 0.0753 /// teacc 98.55 lr 0.00010000
+Epoch 23, weight, value: tensor([[-0.0377, -0.0228, -0.0397,  ..., -0.0224, -0.0220, -0.0226],
+        [ 0.0086,  0.0324, -0.0378,  ..., -0.0028,  0.0036, -0.0437],
+        [ 0.0129, -0.0413, -0.0312,  ..., -0.0247,  0.0269, -0.0195],
+        ...,
+        [-0.0140, -0.0350,  0.0294,  ...,  0.0439, -0.0513,  0.0053],
+        [ 0.0213,  0.0216, -0.0760,  ..., -0.0121,  0.0538, -0.0090],
+        [-0.0236, -0.0258,  0.0283,  ...,  0.0012, -0.0026, -0.0321]],
+       device='cuda:0'), grad: tensor([[ 9.2506e-05,  2.5821e-04,  1.9455e-04,  ...,  0.0000e+00,
+          8.3303e-04,  1.0314e-07],
+        [ 4.3583e-04,  1.5335e-03,  1.2426e-03,  ...,  0.0000e+00,
+          1.3552e-03,  3.9581e-07],
+        [ 6.2108e-05, -6.8760e-04,  2.1517e-04,  ...,  0.0000e+00,
+          6.7472e-04,  9.9465e-07],
+        ...,
+        [ 9.0241e-05,  1.7605e-03,  2.1629e-03,  ...,  0.0000e+00,
+          1.1415e-03,  1.0179e-06],
+        [-1.8225e-03, -6.2065e-03, -7.0686e-03,  ...,  0.0000e+00,
+         -3.8681e-03,  1.0536e-07],
+        [ 1.7536e-04,  2.2984e-03,  3.0193e-03,  ...,  0.0000e+00,
+          2.1019e-03,  2.2016e-06]], device='cuda:0')
+Epoch 23, bias, value: tensor([-0.0084,  0.0226, -0.0153,  0.0132,  0.0243, -0.0210, -0.0294, -0.0199,
+        -0.0170, -0.0233], device='cuda:0'), grad: tensor([ 0.0020,  0.0044,  0.0014, -0.0041, -0.0036,  0.0024,  0.0007,  0.0056,
+        -0.0176,  0.0087], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 22, time 217.04, cls_loss 0.0300 cls_loss_mapping 0.0477 cls_loss_causal 0.8279 re_mapping 0.0264 re_causal 0.0732 /// teacc 98.51 lr 0.00010000
+Epoch 24, weight, value: tensor([[-0.0384, -0.0236, -0.0401,  ..., -0.0223, -0.0225, -0.0221],
+        [ 0.0082,  0.0330, -0.0379,  ..., -0.0006,  0.0031, -0.0447],
+        [ 0.0130, -0.0417, -0.0312,  ..., -0.0265,  0.0276, -0.0196],
+        ...,
+        [-0.0147, -0.0353,  0.0300,  ...,  0.0439, -0.0519,  0.0050],
+        [ 0.0216,  0.0216, -0.0776,  ..., -0.0123,  0.0542, -0.0094],
+        [-0.0239, -0.0262,  0.0287,  ...,  0.0012, -0.0035, -0.0327]],
+       device='cuda:0'), grad: tensor([[ 1.9324e-04,  8.3148e-06,  1.1241e-04,  ...,  0.0000e+00,
+          2.9421e-04,  3.5344e-07],
+        [ 2.4390e-04, -1.9276e-04,  1.1557e-04,  ...,  0.0000e+00,
+          3.6359e-04,  1.4680e-07],
+        [-1.4009e-03,  6.7353e-05,  1.1024e-03,  ...,  0.0000e+00,
+         -1.7328e-03, -5.8562e-06],
+        ...,
+        [ 8.9693e-04,  1.0484e-04,  1.9188e-03,  ...,  0.0000e+00,
+          1.4544e-03,  4.2357e-06],
+        [-1.1539e-03,  4.0621e-05,  2.0897e-04,  ...,  0.0000e+00,
+         -2.0466e-03,  5.3272e-07],
+        [ 6.4659e-04, -2.3377e-04, -5.5923e-03,  ...,  0.0000e+00,
+          9.7370e-04,  3.4971e-07]], device='cuda:0')
+Epoch 24, bias, value: tensor([-0.0087,  0.0223, -0.0152,  0.0131,  0.0244, -0.0208, -0.0299, -0.0196,
+        -0.0171, -0.0230], device='cuda:0'), grad: tensor([ 0.0006,  0.0006, -0.0008, -0.0009,  0.0032, -0.0047,  0.0008,  0.0040,
+        -0.0001, -0.0027], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 23, time 216.88, cls_loss 0.0301 cls_loss_mapping 0.0520 cls_loss_causal 0.8519 re_mapping 0.0256 re_causal 0.0752 /// teacc 98.48 lr 0.00010000
+Epoch 25, weight, value: tensor([[-0.0390, -0.0244, -0.0398,  ..., -0.0223, -0.0230, -0.0207],
+        [ 0.0077,  0.0335, -0.0382,  ..., -0.0006,  0.0026, -0.0454],
+        [ 0.0133, -0.0422, -0.0321,  ..., -0.0266,  0.0284, -0.0208],
+        ...,
+        [-0.0156, -0.0356,  0.0305,  ...,  0.0439, -0.0529,  0.0049],
+        [ 0.0221,  0.0216, -0.0784,  ..., -0.0124,  0.0547, -0.0100],
+        [-0.0245, -0.0272,  0.0283,  ...,  0.0013, -0.0045, -0.0331]],
+       device='cuda:0'), grad: tensor([[ 1.4865e-04,  5.5790e-05,  5.8711e-05,  ...,  0.0000e+00,
+         -1.0651e-04,  0.0000e+00],
+        [ 6.7770e-05, -3.3677e-06,  1.3399e-04,  ...,  0.0000e+00,
+          1.0103e-04,  0.0000e+00],
+        [-1.2217e-03,  1.4544e-03,  8.9741e-04,  ...,  0.0000e+00,
+          1.4896e-03,  0.0000e+00],
+        ...,
+        [ 9.9838e-05,  6.6102e-05, -8.5211e-04,  ...,  0.0000e+00,
+          1.1873e-04,  0.0000e+00],
+        [ 9.0122e-04,  3.8028e-04,  2.4080e-04,  ...,  0.0000e+00,
+          8.8930e-05,  0.0000e+00],
+        [ 4.3958e-05,  1.1915e-04, -8.9493e-03,  ...,  0.0000e+00,
+          5.4002e-05,  0.0000e+00]], device='cuda:0')
+Epoch 25, bias, value: tensor([-0.0085,  0.0220, -0.0151,  0.0133,  0.0247, -0.0207, -0.0299, -0.0197,
+        -0.0172, -0.0233], device='cuda:0'), grad: tensor([-0.0004,  0.0004,  0.0031,  0.0019,  0.0156,  0.0016, -0.0013, -0.0021,
+         0.0013, -0.0200], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 24, time 216.77, cls_loss 0.0293 cls_loss_mapping 0.0471 cls_loss_causal 0.8177 re_mapping 0.0254 re_causal 0.0716 /// teacc 98.38 lr 0.00010000
+Epoch 26, weight, value: tensor([[-0.0398, -0.0252, -0.0387,  ..., -0.0222, -0.0234, -0.0193],
+        [ 0.0071,  0.0341, -0.0381,  ..., -0.0006,  0.0022, -0.0474],
+        [ 0.0135, -0.0430, -0.0317,  ..., -0.0267,  0.0290, -0.0218],
+        ...,
+        [-0.0162, -0.0368,  0.0307,  ...,  0.0439, -0.0534,  0.0048],
+        [ 0.0228,  0.0221, -0.0799,  ..., -0.0125,  0.0560, -0.0114],
+        [-0.0257, -0.0279,  0.0284,  ...,  0.0013, -0.0064, -0.0336]],
+       device='cuda:0'), grad: tensor([[ 1.4710e-04,  6.2585e-05,  1.8135e-05,  ...,  3.9814e-08,
+          2.2805e-04,  1.8941e-07],
+        [-6.5041e-04, -2.0485e-03,  4.4674e-05,  ...,  4.4145e-07,
+         -1.0862e-03,  6.8732e-07],
+        [-4.2677e-05,  1.3399e-03,  1.5521e-04,  ...,  1.3076e-06,
+         -3.6311e-04,  9.9652e-07],
+        ...,
+        [ 1.2028e-04,  2.4080e-04, -1.4174e-04,  ...,  3.9884e-07,
+          2.3437e-04,  5.5581e-06],
+        [ 3.3092e-04,  1.0186e-04,  1.6439e-04,  ...,  3.0571e-07,
+          7.9823e-04,  7.8836e-07],
+        [ 1.6049e-05,  1.8388e-05, -4.1962e-04,  ...,  1.8545e-07,
+         -3.4547e-04,  2.2016e-06]], device='cuda:0')
+Epoch 26, bias, value: tensor([-0.0080,  0.0222, -0.0151,  0.0127,  0.0247, -0.0204, -0.0300, -0.0201,
+        -0.0165, -0.0237], device='cuda:0'), grad: tensor([ 1.1928e-05, -3.2005e-03,  1.6117e-03,  8.8930e-04,  4.2856e-05,
+         8.6164e-04, -5.6535e-05,  1.9598e-04,  1.4105e-03, -1.7662e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 25, time 216.81, cls_loss 0.0344 cls_loss_mapping 0.0552 cls_loss_causal 0.8086 re_mapping 0.0236 re_causal 0.0681 /// teacc 98.28 lr 0.00010000
+Epoch 27, weight, value: tensor([[-0.0406, -0.0264, -0.0387,  ..., -0.0230, -0.0237, -0.0188],
+        [ 0.0069,  0.0346, -0.0384,  ..., -0.0004,  0.0022, -0.0492],
+        [ 0.0138, -0.0431, -0.0322,  ..., -0.0274,  0.0297, -0.0217],
+        ...,
+        [-0.0170, -0.0366,  0.0318,  ...,  0.0449, -0.0545,  0.0045],
+        [ 0.0229,  0.0214, -0.0817,  ..., -0.0130,  0.0562, -0.0103],
+        [-0.0263, -0.0285,  0.0289,  ...,  0.0011, -0.0075, -0.0343]],
+       device='cuda:0'), grad: tensor([[ 3.3593e-04,  1.8013e-04,  2.0996e-05,  ...,  0.0000e+00,
+          1.0246e-04, -1.8496e-06],
+        [ 5.5599e-04, -3.9697e-04, -2.6733e-05,  ...,  0.0000e+00,
+          1.7624e-03,  9.1968e-09],
+        [-1.6375e-03, -1.1396e-03, -3.6736e-03,  ...,  0.0000e+00,
+         -7.2937e-03,  6.7754e-08],
+        ...,
+        [ 2.2149e-04,  1.9336e-04,  2.4056e-04,  ...,  0.0000e+00,
+          5.1975e-04,  1.7113e-08],
+        [ 2.4471e-03,  9.3317e-04,  1.8501e-04,  ...,  0.0000e+00,
+          8.5831e-04,  5.9721e-08],
+        [ 2.7442e-04,  1.3065e-04, -2.7061e-04,  ...,  0.0000e+00,
+          2.2268e-04,  6.7847e-07]], device='cuda:0')
+Epoch 27, bias, value: tensor([-0.0083,  0.0222, -0.0150,  0.0129,  0.0245, -0.0208, -0.0297, -0.0196,
+        -0.0169, -0.0235], device='cuda:0'), grad: tensor([ 0.0004,  0.0017, -0.0067, -0.0002,  0.0044, -0.0054,  0.0011,  0.0009,
+         0.0037,  0.0001], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 26----------------------------------------------------
+epoch 26, time 217.35, cls_loss 0.0245 cls_loss_mapping 0.0407 cls_loss_causal 0.8231 re_mapping 0.0228 re_causal 0.0693 /// teacc 98.61 lr 0.00010000
+Epoch 28, weight, value: tensor([[-0.0409, -0.0267, -0.0390,  ..., -0.0230, -0.0236, -0.0188],
+        [ 0.0064,  0.0351, -0.0390,  ..., -0.0004,  0.0021, -0.0493],
+        [ 0.0138, -0.0442, -0.0328,  ..., -0.0274,  0.0300, -0.0217],
+        ...,
+        [-0.0175, -0.0368,  0.0328,  ...,  0.0449, -0.0552,  0.0045],
+        [ 0.0234,  0.0215, -0.0827,  ..., -0.0130,  0.0568, -0.0103],
+        [-0.0274, -0.0292,  0.0295,  ...,  0.0011, -0.0086, -0.0343]],
+       device='cuda:0'), grad: tensor([[ 9.0361e-05,  1.0705e-04,  2.6807e-05,  ...,  3.2666e-07,
+          9.8944e-05,  0.0000e+00],
+        [ 7.3671e-05, -5.2595e-04,  5.5343e-05,  ...,  2.3395e-06,
+          1.1879e-04,  0.0000e+00],
+        [-1.9327e-05,  8.4221e-05,  3.5584e-05,  ...,  1.6624e-06,
+         -3.9554e-04,  0.0000e+00],
+        ...,
+        [ 9.9421e-05,  2.4021e-04,  3.4857e-04,  ..., -1.5557e-04,
+          2.2185e-04,  0.0000e+00],
+        [-5.3310e-04,  8.0943e-05, -7.4804e-06,  ...,  1.8897e-06,
+         -6.0892e-04,  0.0000e+00],
+        [ 1.2863e-04,  1.2312e-03,  2.6073e-03,  ...,  1.1450e-04,
+          1.6737e-04,  0.0000e+00]], device='cuda:0')
+Epoch 28, bias, value: tensor([-0.0078,  0.0221, -0.0154,  0.0128,  0.0244, -0.0202, -0.0300, -0.0194,
+        -0.0169, -0.0237], device='cuda:0'), grad: tensor([-1.7061e-03, -8.1301e-05, -1.3089e-04,  4.0936e-04, -3.1757e-03,
+         6.7186e-04,  7.5996e-05,  1.9722e-03, -5.9891e-04,  2.5654e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 27----------------------------------------------------
+epoch 27, time 217.41, cls_loss 0.0209 cls_loss_mapping 0.0365 cls_loss_causal 0.7677 re_mapping 0.0231 re_causal 0.0672 /// teacc 98.70 lr 0.00010000
+Epoch 29, weight, value: tensor([[-0.0417, -0.0270, -0.0394,  ..., -0.0228, -0.0238, -0.0183],
+        [ 0.0062,  0.0357, -0.0395,  ..., -0.0005,  0.0020, -0.0498],
+        [ 0.0142, -0.0446, -0.0330,  ..., -0.0275,  0.0307, -0.0219],
+        ...,
+        [-0.0185, -0.0375,  0.0334,  ...,  0.0450, -0.0563,  0.0044],
+        [ 0.0236,  0.0214, -0.0840,  ..., -0.0131,  0.0571, -0.0096],
+        [-0.0276, -0.0295,  0.0299,  ...,  0.0011, -0.0095, -0.0348]],
+       device='cuda:0'), grad: tensor([[ 6.1989e-05,  2.9206e-05,  4.2319e-05,  ...,  0.0000e+00,
+          3.0085e-05,  0.0000e+00],
+        [ 1.1986e-04, -6.8903e-05,  3.5942e-05,  ...,  0.0000e+00,
+          1.3280e-04,  0.0000e+00],
+        [ 1.0139e-04,  4.1246e-05,  8.9216e-04,  ...,  0.0000e+00,
+          3.4666e-04,  0.0000e+00],
+        ...,
+        [ 1.2803e-04,  4.4882e-05, -2.1133e-03,  ...,  0.0000e+00,
+         -5.8889e-04,  0.0000e+00],
+        [ 4.3631e-04,  1.2070e-04,  7.1824e-05,  ...,  0.0000e+00,
+          2.6655e-04,  0.0000e+00],
+        [ 5.7787e-05,  4.3094e-05,  1.1641e-04,  ...,  0.0000e+00,
+          4.8548e-05,  0.0000e+00]], device='cuda:0')
+Epoch 29, bias, value: tensor([-0.0076,  0.0219, -0.0152,  0.0127,  0.0246, -0.0203, -0.0301, -0.0196,
+        -0.0168, -0.0236], device='cuda:0'), grad: tensor([ 6.3062e-05,  2.3139e-04,  1.3084e-03, -9.6655e-04,  1.2165e-04,
+         1.8311e-04,  1.0055e-04, -2.1610e-03,  8.8692e-04,  2.3305e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 28, time 216.97, cls_loss 0.0254 cls_loss_mapping 0.0408 cls_loss_causal 0.8584 re_mapping 0.0210 re_causal 0.0681 /// teacc 98.69 lr 0.00010000
+Epoch 30, weight, value: tensor([[-0.0425, -0.0272, -0.0398,  ..., -0.0228, -0.0241, -0.0185],
+        [ 0.0054,  0.0358, -0.0399,  ..., -0.0005,  0.0012, -0.0502],
+        [ 0.0142, -0.0451, -0.0333,  ..., -0.0275,  0.0311, -0.0217],
+        ...,
+        [-0.0190, -0.0374,  0.0344,  ...,  0.0451, -0.0567,  0.0049],
+        [ 0.0237,  0.0218, -0.0852,  ..., -0.0131,  0.0574, -0.0097],
+        [-0.0282, -0.0301,  0.0302,  ...,  0.0010, -0.0102, -0.0349]],
+       device='cuda:0'), grad: tensor([[ 4.4250e-04,  3.7342e-05,  7.8022e-05,  ...,  0.0000e+00,
+          1.9705e-04,  0.0000e+00],
+        [ 2.5272e-04, -1.8835e-04,  1.3925e-05,  ...,  0.0000e+00,
+          2.8801e-04,  0.0000e+00],
+        [ 6.6900e-04,  3.5256e-05,  9.1219e-04,  ...,  0.0000e+00,
+          1.4467e-03,  0.0000e+00],
+        ...,
+        [ 6.2981e-03,  3.9190e-05,  1.7996e-03,  ...,  0.0000e+00,
+          9.4299e-03,  0.0000e+00],
+        [-1.0109e-02,  2.9773e-05, -2.1877e-03,  ...,  0.0000e+00,
+         -1.5594e-02,  0.0000e+00],
+        [-2.8820e-03,  2.8118e-05, -1.1597e-03,  ...,  0.0000e+00,
+          6.0034e-04,  0.0000e+00]], device='cuda:0')
+Epoch 30, bias, value: tensor([-0.0075,  0.0211, -0.0153,  0.0125,  0.0247, -0.0198, -0.0303, -0.0189,
+        -0.0168, -0.0239], device='cuda:0'), grad: tensor([ 0.0002,  0.0004,  0.0018,  0.0020,  0.0028,  0.0065,  0.0031,  0.0145,
+        -0.0199, -0.0114], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 29, time 216.88, cls_loss 0.0218 cls_loss_mapping 0.0366 cls_loss_causal 0.7505 re_mapping 0.0209 re_causal 0.0604 /// teacc 98.69 lr 0.00010000
+Epoch 31, weight, value: tensor([[-0.0429, -0.0282, -0.0402,  ..., -0.0229, -0.0243, -0.0184],
+        [ 0.0049,  0.0367, -0.0396,  ..., -0.0005,  0.0011, -0.0504],
+        [ 0.0145, -0.0465, -0.0344,  ..., -0.0276,  0.0314, -0.0214],
+        ...,
+        [-0.0209, -0.0380,  0.0355,  ...,  0.0452, -0.0580,  0.0049],
+        [ 0.0242,  0.0216, -0.0861,  ..., -0.0133,  0.0583, -0.0098],
+        [-0.0290, -0.0303,  0.0305,  ...,  0.0010, -0.0112, -0.0353]],
+       device='cuda:0'), grad: tensor([[ 1.4290e-05,  3.0309e-05,  5.0187e-05,  ...,  0.0000e+00,
+          2.6846e-04, -6.5845e-07],
+        [ 1.3053e-05,  1.8530e-03,  1.3418e-03,  ...,  0.0000e+00,
+          6.3777e-05,  2.5611e-09],
+        [-6.6638e-05,  4.4018e-05, -1.0747e-04,  ...,  0.0000e+00,
+          1.7118e-04,  1.2200e-07],
+        ...,
+        [ 2.2173e-05,  1.4806e-04, -2.3186e-05,  ...,  0.0000e+00,
+         -2.4471e-03,  1.0943e-08],
+        [-6.1989e-05,  1.1647e-04,  9.9182e-05,  ...,  0.0000e+00,
+          2.3186e-05,  2.4564e-08],
+        [ 3.6120e-05, -3.4027e-03, -2.1667e-03,  ...,  0.0000e+00,
+          1.3847e-03,  3.2899e-07]], device='cuda:0')
+Epoch 31, bias, value: tensor([-0.0074,  0.0216, -0.0157,  0.0129,  0.0241, -0.0201, -0.0300, -0.0189,
+        -0.0168, -0.0238], device='cuda:0'), grad: tensor([ 0.0003,  0.0027,  0.0043,  0.0006,  0.0013,  0.0003,  0.0001, -0.0066,
+         0.0003, -0.0032], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 30, time 216.74, cls_loss 0.0180 cls_loss_mapping 0.0328 cls_loss_causal 0.7582 re_mapping 0.0198 re_causal 0.0601 /// teacc 98.66 lr 0.00010000
+Epoch 32, weight, value: tensor([[-0.0434, -0.0291, -0.0406,  ..., -0.0229, -0.0244, -0.0183],
+        [ 0.0044,  0.0372, -0.0400,  ..., -0.0005,  0.0008, -0.0510],
+        [ 0.0147, -0.0470, -0.0352,  ..., -0.0276,  0.0319, -0.0215],
+        ...,
+        [-0.0215, -0.0388,  0.0360,  ...,  0.0452, -0.0587,  0.0049],
+        [ 0.0246,  0.0221, -0.0871,  ..., -0.0133,  0.0588, -0.0099],
+        [-0.0299, -0.0308,  0.0308,  ...,  0.0010, -0.0122, -0.0355]],
+       device='cuda:0'), grad: tensor([[ 8.4639e-05,  2.3305e-05,  2.6911e-05,  ...,  0.0000e+00,
+          7.5400e-05, -6.6614e-04],
+        [ 3.8981e-05, -1.3697e-04,  5.8472e-05,  ...,  0.0000e+00,
+          7.4208e-05,  6.9961e-06],
+        [-5.9748e-04,  1.3816e-04, -1.6439e-04,  ...,  0.0000e+00,
+         -8.2159e-04,  4.1008e-04],
+        ...,
+        [ 4.8369e-05,  7.7188e-05,  1.9535e-05,  ...,  0.0000e+00,
+          3.4285e-04,  3.3766e-05],
+        [ 4.1276e-05,  9.4950e-05,  2.0623e-04,  ...,  0.0000e+00,
+          3.3617e-04,  1.7375e-05],
+        [ 9.3341e-05,  4.9114e-04, -9.5606e-05,  ...,  0.0000e+00,
+          2.9588e-04,  7.3969e-05]], device='cuda:0')
+Epoch 32, bias, value: tensor([-0.0077,  0.0213, -0.0157,  0.0130,  0.0242, -0.0201, -0.0297, -0.0189,
+        -0.0167, -0.0239], device='cuda:0'), grad: tensor([-8.7786e-04,  1.4055e-04, -5.2881e-04, -1.3075e-03,  3.9876e-05,
+         3.5119e-04,  4.9734e-04,  4.8876e-04,  1.0605e-03,  1.3673e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 31, time 216.83, cls_loss 0.0231 cls_loss_mapping 0.0388 cls_loss_causal 0.7574 re_mapping 0.0200 re_causal 0.0594 /// teacc 98.63 lr 0.00010000
+Epoch 33, weight, value: tensor([[-0.0444, -0.0285, -0.0404,  ..., -0.0229, -0.0242, -0.0176],
+        [ 0.0039,  0.0379, -0.0399,  ..., -0.0004,  0.0005, -0.0521],
+        [ 0.0149, -0.0479, -0.0358,  ..., -0.0276,  0.0326, -0.0222],
+        ...,
+        [-0.0221, -0.0403,  0.0363,  ...,  0.0452, -0.0595,  0.0058],
+        [ 0.0251,  0.0220, -0.0883,  ..., -0.0133,  0.0595, -0.0103],
+        [-0.0303, -0.0309,  0.0314,  ...,  0.0010, -0.0136, -0.0361]],
+       device='cuda:0'), grad: tensor([[-5.6744e-04, -1.1091e-03,  1.9789e-04,  ...,  0.0000e+00,
+         -6.6233e-04,  0.0000e+00],
+        [ 3.9846e-05, -1.3745e-04,  2.4509e-04,  ...,  0.0000e+00,
+          8.0228e-05,  0.0000e+00],
+        [-8.7440e-05,  1.2684e-04,  8.3017e-04,  ...,  0.0000e+00,
+          1.0386e-05,  0.0000e+00],
+        ...,
+        [ 1.3483e-04,  8.1003e-05, -2.6913e-03,  ...,  0.0000e+00,
+          4.9686e-04,  0.0000e+00],
+        [ 2.9469e-04, -8.5211e-04, -8.7881e-04,  ...,  0.0000e+00,
+         -3.3200e-05,  0.0000e+00],
+        [ 1.5712e-04,  1.3123e-03,  2.5234e-03,  ...,  0.0000e+00,
+          8.8739e-04,  0.0000e+00]], device='cuda:0')
+Epoch 33, bias, value: tensor([-0.0078,  0.0213, -0.0157,  0.0128,  0.0241, -0.0199, -0.0296, -0.0192,
+        -0.0166, -0.0235], device='cuda:0'), grad: tensor([-0.0030,  0.0005,  0.0011, -0.0018,  0.0004,  0.0008,  0.0018, -0.0042,
+        -0.0016,  0.0060], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 32, time 217.14, cls_loss 0.0197 cls_loss_mapping 0.0324 cls_loss_causal 0.7567 re_mapping 0.0195 re_causal 0.0593 /// teacc 98.63 lr 0.00010000
+Epoch 34, weight, value: tensor([[-0.0448, -0.0292, -0.0406,  ..., -0.0229, -0.0243, -0.0172],
+        [ 0.0032,  0.0380, -0.0404,  ..., -0.0004,  0.0003, -0.0526],
+        [ 0.0152, -0.0493, -0.0366,  ..., -0.0276,  0.0330, -0.0218],
+        ...,
+        [-0.0226, -0.0401,  0.0372,  ...,  0.0452, -0.0603,  0.0057],
+        [ 0.0254,  0.0222, -0.0894,  ..., -0.0134,  0.0599, -0.0106],
+        [-0.0310, -0.0317,  0.0315,  ...,  0.0010, -0.0147, -0.0365]],
+       device='cuda:0'), grad: tensor([[ 5.2035e-05,  2.6894e-04,  1.1120e-03,  ...,  0.0000e+00,
+          1.1218e-04,  0.0000e+00],
+        [ 4.9055e-05, -6.6853e-04,  1.2010e-04,  ...,  0.0000e+00,
+         -8.8215e-05,  0.0000e+00],
+        [ 2.7686e-05,  1.4496e-04,  1.2517e-04,  ...,  0.0000e+00,
+         -4.9162e-04,  0.0000e+00],
+        ...,
+        [ 4.8816e-05, -2.4870e-05, -2.2984e-03,  ...,  0.0000e+00,
+          9.7215e-05,  0.0000e+00],
+        [-3.7527e-04,  1.4031e-04,  9.1970e-05,  ...,  0.0000e+00,
+         -5.7459e-04,  0.0000e+00],
+        [ 9.5785e-05,  1.3423e-04, -2.8348e-04,  ...,  0.0000e+00,
+          9.6917e-05,  0.0000e+00]], device='cuda:0')
+Epoch 34, bias, value: tensor([-0.0081,  0.0210, -0.0159,  0.0129,  0.0246, -0.0200, -0.0293, -0.0190,
+        -0.0167, -0.0238], device='cuda:0'), grad: tensor([ 0.0021, -0.0001, -0.0002,  0.0018,  0.0005,  0.0007, -0.0002, -0.0038,
+        -0.0005, -0.0002], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 33----------------------------------------------------
+epoch 33, time 217.44, cls_loss 0.0173 cls_loss_mapping 0.0298 cls_loss_causal 0.7670 re_mapping 0.0189 re_causal 0.0582 /// teacc 98.72 lr 0.00010000
+Epoch 35, weight, value: tensor([[-0.0454, -0.0303, -0.0408,  ..., -0.0229, -0.0248, -0.0170],
+        [ 0.0029,  0.0388, -0.0409,  ..., -0.0004,  0.0003, -0.0531],
+        [ 0.0156, -0.0499, -0.0370,  ..., -0.0277,  0.0336, -0.0218],
+        ...,
+        [-0.0231, -0.0409,  0.0376,  ...,  0.0452, -0.0611,  0.0061],
+        [ 0.0259,  0.0223, -0.0904,  ..., -0.0135,  0.0603, -0.0108],
+        [-0.0316, -0.0319,  0.0312,  ...,  0.0010, -0.0156, -0.0373]],
+       device='cuda:0'), grad: tensor([[ 3.0971e-04,  5.9277e-05,  3.7607e-06,  ...,  1.3607e-06,
+          2.6321e-04, -2.9638e-05],
+        [ 6.7532e-05,  3.4481e-05,  2.0981e-05,  ...,  9.8813e-07,
+          7.2479e-05,  1.6636e-07],
+        [-2.7885e-03,  5.6863e-05,  4.2349e-05,  ...,  1.7718e-07,
+         -5.0125e-03,  1.9874e-06],
+        ...,
+        [ 1.4687e-04,  5.6833e-05,  3.8326e-05,  ...,  5.2480e-07,
+          2.6608e-04,  5.0757e-07],
+        [-4.2725e-04,  1.1653e-04,  1.0020e-04,  ...,  1.1331e-04,
+         -2.4402e-04,  8.5542e-07],
+        [ 6.3419e-05,  1.3202e-05, -1.9848e-04,  ...,  5.1185e-06,
+          8.9049e-05,  1.4715e-05]], device='cuda:0')
+Epoch 35, bias, value: tensor([-0.0081,  0.0211, -0.0159,  0.0132,  0.0247, -0.0202, -0.0291, -0.0192,
+        -0.0167, -0.0240], device='cuda:0'), grad: tensor([ 3.7766e-04,  1.2875e-04, -4.8523e-03,  3.7155e-03, -2.5511e-05,
+        -1.0890e-04,  6.5136e-04,  3.5834e-04, -2.0540e-04, -3.2663e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 34, time 216.79, cls_loss 0.0163 cls_loss_mapping 0.0313 cls_loss_causal 0.7729 re_mapping 0.0179 re_causal 0.0584 /// teacc 98.46 lr 0.00010000
+Epoch 36, weight, value: tensor([[-4.6134e-02, -3.0866e-02, -4.1302e-02,  ..., -2.2904e-02,
+         -2.5376e-02, -1.6938e-02],
+        [ 2.3908e-03,  3.9476e-02, -4.1275e-02,  ...,  4.0723e-05,
+          5.1983e-04, -5.3277e-02],
+        [ 1.6075e-02, -5.0772e-02, -3.6967e-02,  ..., -2.7976e-02,
+          3.4245e-02, -2.1628e-02],
+        ...,
+        [-2.3878e-02, -4.0865e-02,  3.8867e-02,  ...,  4.5177e-02,
+         -6.2036e-02,  6.0404e-03],
+        [ 2.6227e-02,  2.2156e-02, -9.1449e-02,  ..., -1.3834e-02,
+          6.0624e-02, -1.0814e-02],
+        [-3.2237e-02, -3.2428e-02,  3.1464e-02,  ...,  1.0267e-03,
+         -1.6312e-02, -3.7305e-02]], device='cuda:0'), grad: tensor([[-1.4879e-05,  2.4941e-06,  1.3578e-04,  ...,  0.0000e+00,
+          1.4462e-05,  0.0000e+00],
+        [ 4.9651e-05, -4.4870e-04, -8.6844e-05,  ...,  0.0000e+00,
+          1.6332e-04,  0.0000e+00],
+        [ 1.4281e-04,  1.4234e-04,  1.0204e-04,  ...,  0.0000e+00,
+          3.4547e-04,  0.0000e+00],
+        ...,
+        [ 2.6911e-05,  1.1194e-04, -8.5413e-05,  ...,  0.0000e+00,
+          4.6551e-05,  0.0000e+00],
+        [-2.7204e-04,  7.2598e-05,  9.6500e-05,  ...,  0.0000e+00,
+         -4.6420e-04,  0.0000e+00],
+        [ 2.6524e-05,  1.4782e-05, -5.8270e-04,  ...,  0.0000e+00,
+         -6.1131e-04,  0.0000e+00]], device='cuda:0')
+Epoch 36, bias, value: tensor([-0.0081,  0.0213, -0.0159,  0.0135,  0.0243, -0.0204, -0.0291, -0.0188,
+        -0.0169, -0.0239], device='cuda:0'), grad: tensor([ 3.3998e-04, -2.6941e-04,  8.3637e-04,  1.7948e-03,  2.0492e-04,
+        -1.9562e-04,  1.8489e-04,  6.0111e-05, -6.5565e-05, -2.8915e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 35, time 216.59, cls_loss 0.0185 cls_loss_mapping 0.0332 cls_loss_causal 0.7768 re_mapping 0.0182 re_causal 0.0546 /// teacc 98.59 lr 0.00010000
+Epoch 37, weight, value: tensor([[-4.6816e-02, -3.1639e-02, -4.2059e-02,  ..., -2.3071e-02,
+         -2.5756e-02, -1.6679e-02],
+        [ 1.5957e-03,  4.0093e-02, -4.1226e-02,  ...,  2.1183e-04,
+          4.6132e-05, -5.3881e-02],
+        [ 1.6526e-02, -5.1302e-02, -3.7503e-02,  ..., -2.8239e-02,
+          3.4891e-02, -2.1590e-02],
+        ...,
+        [-2.4597e-02, -4.1614e-02,  3.9892e-02,  ...,  4.5131e-02,
+         -6.3124e-02,  5.9929e-03],
+        [ 2.6572e-02,  2.2203e-02, -9.2494e-02,  ..., -1.4103e-02,
+          6.1406e-02, -1.1038e-02],
+        [-3.2968e-02, -3.3237e-02,  3.0910e-02,  ...,  1.0046e-03,
+         -1.7226e-02, -3.8440e-02]], device='cuda:0'), grad: tensor([[ 6.4492e-05,  4.3362e-05,  1.3620e-05,  ...,  0.0000e+00,
+          5.2214e-05,  0.0000e+00],
+        [ 4.5156e-04,  1.3113e-04,  9.2164e-06,  ...,  0.0000e+00,
+          7.1955e-04,  0.0000e+00],
+        [-8.3447e-04, -3.2067e-04, -6.5975e-06,  ...,  0.0000e+00,
+         -1.4114e-03,  0.0000e+00],
+        ...,
+        [ 1.3781e-04,  6.2466e-05,  1.4007e-05,  ...,  0.0000e+00,
+          2.0564e-04,  0.0000e+00],
+        [-2.3925e-04, -3.4833e-04,  2.8849e-05,  ...,  0.0000e+00,
+         -8.8453e-05,  0.0000e+00],
+        [ 2.2757e-04,  2.1327e-04, -7.9632e-05,  ...,  0.0000e+00,
+          1.7917e-04,  0.0000e+00]], device='cuda:0')
+Epoch 37, bias, value: tensor([-0.0089,  0.0213, -0.0160,  0.0134,  0.0248, -0.0201, -0.0294, -0.0186,
+        -0.0169, -0.0241], device='cuda:0'), grad: tensor([ 0.0001,  0.0010, -0.0019,  0.0002,  0.0003, -0.0005,  0.0004,  0.0003,
+        -0.0003,  0.0002], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 36, time 217.02, cls_loss 0.0155 cls_loss_mapping 0.0272 cls_loss_causal 0.7149 re_mapping 0.0176 re_causal 0.0552 /// teacc 98.72 lr 0.00010000
+Epoch 38, weight, value: tensor([[-0.0472, -0.0316, -0.0422,  ..., -0.0230, -0.0258, -0.0165],
+        [ 0.0011,  0.0402, -0.0418,  ...,  0.0007, -0.0005, -0.0540],
+        [ 0.0167, -0.0519, -0.0376,  ..., -0.0284,  0.0354, -0.0215],
+        ...,
+        [-0.0252, -0.0410,  0.0399,  ...,  0.0451, -0.0638,  0.0059],
+        [ 0.0269,  0.0224, -0.0932,  ..., -0.0142,  0.0618, -0.0111],
+        [-0.0335, -0.0339,  0.0311,  ...,  0.0010, -0.0177, -0.0387]],
+       device='cuda:0'), grad: tensor([[-7.9691e-05, -3.0231e-04,  7.4655e-06,  ...,  0.0000e+00,
+          1.3866e-05,  0.0000e+00],
+        [ 1.7241e-05, -2.7561e-04,  4.0233e-05,  ...,  0.0000e+00,
+         -1.0306e-04,  0.0000e+00],
+        [-5.7191e-05,  2.6703e-04, -1.9863e-05,  ...,  0.0000e+00,
+          1.2442e-06,  0.0000e+00],
+        ...,
+        [ 5.6386e-05,  6.7532e-05, -4.7445e-05,  ...,  0.0000e+00,
+          8.1003e-05,  0.0000e+00],
+        [-8.9169e-05,  6.9618e-05,  9.1076e-05,  ...,  0.0000e+00,
+         -1.1134e-04,  0.0000e+00],
+        [ 1.1764e-05,  3.1114e-04,  3.4237e-04,  ...,  0.0000e+00,
+          1.0446e-05,  0.0000e+00]], device='cuda:0')
+Epoch 38, bias, value: tensor([-0.0082,  0.0206, -0.0157,  0.0131,  0.0250, -0.0199, -0.0292, -0.0185,
+        -0.0170, -0.0244], device='cuda:0'), grad: tensor([-1.0138e-03, -2.0659e-04,  1.0759e-04,  1.3018e-04, -6.2704e-04,
+         1.1325e-04,  7.9918e-04,  7.2300e-05,  8.4877e-05,  5.4026e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 37, time 216.82, cls_loss 0.0132 cls_loss_mapping 0.0234 cls_loss_causal 0.7466 re_mapping 0.0168 re_causal 0.0532 /// teacc 98.63 lr 0.00010000
+Epoch 39, weight, value: tensor([[-0.0479, -0.0316, -0.0426,  ..., -0.0229, -0.0262, -0.0164],
+        [ 0.0008,  0.0410, -0.0421,  ...,  0.0007, -0.0007, -0.0542],
+        [ 0.0174, -0.0522, -0.0381,  ..., -0.0284,  0.0363, -0.0213],
+        ...,
+        [-0.0258, -0.0417,  0.0408,  ...,  0.0451, -0.0648,  0.0059],
+        [ 0.0271,  0.0224, -0.0943,  ..., -0.0143,  0.0619, -0.0111],
+        [-0.0341, -0.0345,  0.0317,  ...,  0.0010, -0.0178, -0.0388]],
+       device='cuda:0'), grad: tensor([[ 1.5482e-05,  7.7114e-06, -1.5652e-04,  ...,  1.7812e-08,
+         -4.4912e-05, -1.6475e-04],
+        [ 5.2631e-05, -8.8513e-05,  4.1813e-05,  ...,  1.4366e-07,
+          9.2804e-05,  8.3540e-07],
+        [-2.9564e-04, -3.4422e-05,  1.4029e-03,  ..., -1.2508e-06,
+         -6.2990e-04,  1.0484e-04],
+        ...,
+        [ 1.7181e-05,  3.9250e-05, -2.1706e-03,  ...,  3.7835e-08,
+          2.4110e-05,  5.1185e-06],
+        [ 3.2139e-04,  1.0926e-04,  2.4483e-05,  ...,  5.5926e-07,
+          5.3310e-04,  1.9725e-06],
+        [ 3.0041e-05,  1.4913e-04,  4.8113e-04,  ...,  1.0943e-08,
+          2.5153e-05,  3.5644e-05]], device='cuda:0')
+Epoch 39, bias, value: tensor([-0.0082,  0.0206, -0.0153,  0.0130,  0.0247, -0.0200, -0.0298, -0.0185,
+        -0.0172, -0.0238], device='cuda:0'), grad: tensor([-0.0008,  0.0001,  0.0018,  0.0018, -0.0001, -0.0013,  0.0001, -0.0033,
+         0.0008,  0.0009], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 38, time 217.05, cls_loss 0.0170 cls_loss_mapping 0.0290 cls_loss_causal 0.7540 re_mapping 0.0177 re_causal 0.0537 /// teacc 98.70 lr 0.00010000
+Epoch 40, weight, value: tensor([[-0.0488, -0.0321, -0.0428,  ..., -0.0228, -0.0261, -0.0160],
+        [ 0.0006,  0.0416, -0.0419,  ...,  0.0014, -0.0013, -0.0548],
+        [ 0.0175, -0.0523, -0.0383,  ..., -0.0289,  0.0368, -0.0218],
+        ...,
+        [-0.0274, -0.0420,  0.0416,  ...,  0.0451, -0.0661,  0.0058],
+        [ 0.0276,  0.0223, -0.0957,  ..., -0.0144,  0.0622, -0.0113],
+        [-0.0347, -0.0351,  0.0318,  ...,  0.0010, -0.0188, -0.0391]],
+       device='cuda:0'), grad: tensor([[ 1.3709e-05,  1.0975e-05,  9.2313e-06,  ...,  0.0000e+00,
+          1.7554e-05,  0.0000e+00],
+        [ 6.9141e-06, -2.0936e-05,  2.3752e-05,  ...,  0.0000e+00,
+          1.2964e-06,  0.0000e+00],
+        [-3.7104e-05, -4.4666e-06,  2.6271e-05,  ...,  0.0000e+00,
+         -4.8518e-05,  0.0000e+00],
+        ...,
+        [ 3.4887e-06,  1.7449e-05, -7.4053e-04,  ...,  0.0000e+00,
+          8.9407e-06,  0.0000e+00],
+        [-1.0234e-04,  1.0461e-05,  4.0591e-05,  ...,  0.0000e+00,
+         -1.0574e-04,  0.0000e+00],
+        [ 1.6510e-05,  2.1726e-05,  1.6165e-04,  ...,  0.0000e+00,
+          3.0994e-05,  0.0000e+00]], device='cuda:0')
+Epoch 40, bias, value: tensor([-0.0082,  0.0205, -0.0152,  0.0135,  0.0244, -0.0200, -0.0296, -0.0183,
+        -0.0174, -0.0240], device='cuda:0'), grad: tensor([-2.6375e-05,  2.2396e-05,  1.0192e-05,  5.4884e-04, -1.2541e-04,
+         1.0878e-04,  1.0604e-04, -8.3256e-04, -5.7995e-05,  2.4557e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 39, time 216.72, cls_loss 0.0158 cls_loss_mapping 0.0238 cls_loss_causal 0.7398 re_mapping 0.0171 re_causal 0.0509 /// teacc 98.69 lr 0.00010000
+Epoch 41, weight, value: tensor([[-0.0501, -0.0331, -0.0433,  ..., -0.0230, -0.0266, -0.0160],
+        [ 0.0002,  0.0416, -0.0427,  ...,  0.0024, -0.0016, -0.0557],
+        [ 0.0179, -0.0522, -0.0387,  ..., -0.0289,  0.0378, -0.0221],
+        ...,
+        [-0.0281, -0.0411,  0.0424,  ...,  0.0445, -0.0670,  0.0061],
+        [ 0.0278,  0.0221, -0.0970,  ..., -0.0158,  0.0626, -0.0102],
+        [-0.0355, -0.0357,  0.0322,  ...,  0.0014, -0.0195, -0.0393]],
+       device='cuda:0'), grad: tensor([[ 3.1233e-05, -9.2793e-04,  1.4037e-05,  ...,  9.5461e-07,
+         -1.3723e-03,  0.0000e+00],
+        [ 4.2319e-04,  7.1287e-04,  8.9288e-05,  ...,  5.5172e-06,
+          1.4706e-03,  0.0000e+00],
+        [ 1.3769e-04,  4.1652e-04,  1.7333e-04,  ...,  1.0110e-05,
+          7.0572e-04,  0.0000e+00],
+        ...,
+        [ 1.5870e-05,  4.4137e-05, -1.8568e-03,  ..., -1.4913e-04,
+          3.7342e-05,  0.0000e+00],
+        [-9.9373e-04, -1.2207e-03,  2.5749e-05,  ...,  4.9546e-07,
+         -2.7885e-03,  0.0000e+00],
+        [ 7.2777e-05,  8.7917e-05,  3.3045e-04,  ...,  3.6538e-05,
+          1.7703e-04,  0.0000e+00]], device='cuda:0')
+Epoch 41, bias, value: tensor([-0.0085,  0.0200, -0.0149,  0.0129,  0.0244, -0.0198, -0.0295, -0.0179,
+        -0.0175, -0.0239], device='cuda:0'), grad: tensor([-3.2959e-03,  2.3766e-03,  1.4629e-03,  8.2779e-04,  1.0309e-03,
+         2.1877e-03, -5.3287e-05, -1.5945e-03, -3.4943e-03,  5.5218e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 40----------------------------------------------------
+epoch 40, time 217.75, cls_loss 0.0129 cls_loss_mapping 0.0267 cls_loss_causal 0.7035 re_mapping 0.0168 re_causal 0.0497 /// teacc 98.82 lr 0.00010000
+Epoch 42, weight, value: tensor([[-0.0507, -0.0332, -0.0435,  ..., -0.0229, -0.0269, -0.0158],
+        [-0.0001,  0.0424, -0.0433,  ...,  0.0027, -0.0013, -0.0559],
+        [ 0.0180, -0.0534, -0.0397,  ..., -0.0291,  0.0381, -0.0221],
+        ...,
+        [-0.0288, -0.0412,  0.0437,  ...,  0.0445, -0.0676,  0.0061],
+        [ 0.0282,  0.0220, -0.0970,  ..., -0.0164,  0.0633, -0.0103],
+        [-0.0363, -0.0360,  0.0316,  ...,  0.0013, -0.0206, -0.0396]],
+       device='cuda:0'), grad: tensor([[ 7.3671e-05,  6.8188e-05,  6.7428e-06,  ...,  0.0000e+00,
+          1.8403e-05,  2.6543e-08],
+        [ 1.7360e-05, -8.6308e-05,  2.2143e-05,  ...,  0.0000e+00,
+         -1.4253e-05,  9.9419e-08],
+        [ 4.1664e-05,  2.5943e-05,  4.7863e-05,  ...,  0.0000e+00,
+         -2.3633e-05, -5.3039e-07],
+        ...,
+        [-3.4213e-05,  1.9282e-05, -7.7710e-06,  ...,  0.0000e+00,
+          5.3614e-05,  1.4133e-07],
+        [-1.6177e-04,  5.7995e-05,  7.2241e-05,  ...,  0.0000e+00,
+         -1.8668e-04,  4.1444e-08],
+        [ 1.5080e-04,  2.4214e-05,  9.8825e-05,  ...,  0.0000e+00,
+          1.2183e-04,  1.3504e-08]], device='cuda:0')
+Epoch 42, bias, value: tensor([-0.0076,  0.0201, -0.0153,  0.0125,  0.0245, -0.0199, -0.0298, -0.0173,
+        -0.0173, -0.0244], device='cuda:0'), grad: tensor([-5.3868e-06, -2.5593e-06,  1.1730e-04,  3.2043e-04, -7.7295e-04,
+        -2.8896e-04, -1.8227e-04,  1.8287e-04,  4.8876e-05,  5.8365e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 41, time 216.77, cls_loss 0.0118 cls_loss_mapping 0.0237 cls_loss_causal 0.7285 re_mapping 0.0160 re_causal 0.0494 /// teacc 98.82 lr 0.00010000
+Epoch 43, weight, value: tensor([[-0.0518, -0.0339, -0.0438,  ..., -0.0229, -0.0274, -0.0155],
+        [-0.0005,  0.0432, -0.0430,  ...,  0.0032, -0.0014, -0.0563],
+        [ 0.0189, -0.0541, -0.0400,  ..., -0.0296,  0.0390, -0.0220],
+        ...,
+        [-0.0299, -0.0418,  0.0439,  ...,  0.0445, -0.0687,  0.0061],
+        [ 0.0284,  0.0221, -0.0975,  ..., -0.0168,  0.0634, -0.0104],
+        [-0.0369, -0.0365,  0.0320,  ...,  0.0013, -0.0213, -0.0398]],
+       device='cuda:0'), grad: tensor([[ 1.4400e-04,  6.9261e-05,  1.0192e-05,  ...,  0.0000e+00,
+          6.3062e-05,  0.0000e+00],
+        [ 3.2139e-04, -4.0841e-04, -7.6711e-05,  ...,  0.0000e+00,
+          1.9062e-04,  0.0000e+00],
+        [-1.4696e-03, -7.6354e-05,  3.0279e-05,  ...,  0.0000e+00,
+         -1.3056e-03,  0.0000e+00],
+        ...,
+        [ 8.0109e-04,  1.3995e-04,  6.5267e-05,  ...,  0.0000e+00,
+          5.9462e-04,  0.0000e+00],
+        [ 6.5756e-04,  6.0749e-04, -5.5879e-05,  ...,  0.0000e+00,
+          2.8658e-04,  0.0000e+00],
+        [ 2.6131e-04,  5.5343e-05,  1.6665e-04,  ...,  0.0000e+00,
+          9.4295e-05,  0.0000e+00]], device='cuda:0')
+Epoch 43, bias, value: tensor([-0.0076,  0.0204, -0.0150,  0.0122,  0.0244, -0.0198, -0.0298, -0.0178,
+        -0.0170, -0.0243], device='cuda:0'), grad: tensor([ 2.5892e-04,  7.7188e-05, -4.1885e-03,  4.3464e-04,  2.6822e-04,
+         5.4300e-05, -1.2312e-03,  2.7561e-03,  9.0837e-04,  6.6137e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 42, time 216.84, cls_loss 0.0171 cls_loss_mapping 0.0298 cls_loss_causal 0.7264 re_mapping 0.0164 re_causal 0.0479 /// teacc 98.73 lr 0.00010000
+Epoch 44, weight, value: tensor([[-0.0527, -0.0353, -0.0439,  ..., -0.0230, -0.0278, -0.0149],
+        [-0.0015,  0.0435, -0.0434,  ...,  0.0035, -0.0016, -0.0565],
+        [ 0.0190, -0.0548, -0.0408,  ..., -0.0298,  0.0394, -0.0229],
+        ...,
+        [-0.0304, -0.0422,  0.0436,  ...,  0.0445, -0.0693,  0.0060],
+        [ 0.0287,  0.0223, -0.0986,  ..., -0.0171,  0.0639, -0.0106],
+        [-0.0378, -0.0370,  0.0326,  ...,  0.0012, -0.0225, -0.0405]],
+       device='cuda:0'), grad: tensor([[ 3.9399e-05,  2.5883e-05,  9.5516e-06,  ...,  0.0000e+00,
+          5.2482e-05,  2.6152e-06],
+        [ 1.0096e-05, -4.0245e-04,  1.4938e-05,  ...,  0.0000e+00,
+         -1.4699e-04,  1.3923e-07],
+        [ 1.5944e-05,  3.8028e-05,  8.8215e-06,  ...,  0.0000e+00,
+         -5.3316e-05, -4.3921e-06],
+        ...,
+        [ 1.4544e-05,  8.9169e-05, -9.3043e-05,  ...,  0.0000e+00,
+          4.6998e-05,  2.7474e-07],
+        [ 1.2147e-04,  1.8907e-04,  7.3135e-05,  ...,  0.0000e+00,
+          1.3685e-04,  9.3365e-08],
+        [ 7.0333e-05,  8.4817e-05,  1.2517e-04,  ...,  0.0000e+00,
+         -6.7830e-05,  2.3865e-07]], device='cuda:0')
+Epoch 44, bias, value: tensor([-0.0081,  0.0200, -0.0155,  0.0134,  0.0246, -0.0203, -0.0295, -0.0182,
+        -0.0170, -0.0239], device='cuda:0'), grad: tensor([ 2.9802e-04, -4.4823e-04, -5.4032e-05,  7.4482e-04,  1.8165e-05,
+        -1.6165e-03,  6.2346e-05,  5.0455e-05,  5.9748e-04,  3.4690e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 43----------------------------------------------------
+epoch 43, time 217.39, cls_loss 0.0128 cls_loss_mapping 0.0233 cls_loss_causal 0.7277 re_mapping 0.0159 re_causal 0.0498 /// teacc 98.89 lr 0.00010000
+Epoch 45, weight, value: tensor([[-0.0536, -0.0360, -0.0442,  ..., -0.0230, -0.0279, -0.0147],
+        [-0.0019,  0.0438, -0.0436,  ...,  0.0036, -0.0019, -0.0566],
+        [ 0.0188, -0.0553, -0.0410,  ..., -0.0295,  0.0398, -0.0230],
+        ...,
+        [-0.0308, -0.0425,  0.0444,  ...,  0.0445, -0.0700,  0.0060],
+        [ 0.0293,  0.0225, -0.0993,  ..., -0.0172,  0.0644, -0.0106],
+        [-0.0386, -0.0376,  0.0328,  ...,  0.0012, -0.0231, -0.0406]],
+       device='cuda:0'), grad: tensor([[ 1.9401e-05,  8.9267e-07,  5.5470e-06,  ...,  0.0000e+00,
+          2.0072e-05, -3.4515e-06],
+        [ 8.3297e-06, -5.6803e-05,  4.5002e-05,  ...,  0.0000e+00,
+          1.1005e-05,  3.4925e-08],
+        [ 1.8311e-04,  1.4164e-05,  4.6349e-04,  ...,  0.0000e+00,
+          1.9908e-04, -9.5181e-07],
+        ...,
+        [ 2.5010e-04,  5.3525e-05, -4.1080e-04,  ...,  0.0000e+00,
+          3.4857e-04,  1.2200e-07],
+        [-6.6614e-04,  4.1783e-05, -1.5426e-04,  ...,  0.0000e+00,
+         -9.3794e-04,  1.3318e-07],
+        [ 1.3566e-04,  3.7241e-04,  6.0701e-04,  ...,  0.0000e+00,
+          1.4281e-04,  5.6904e-07]], device='cuda:0')
+Epoch 45, bias, value: tensor([-0.0078,  0.0199, -0.0155,  0.0132,  0.0243, -0.0197, -0.0301, -0.0181,
+        -0.0169, -0.0239], device='cuda:0'), grad: tensor([-9.1553e-05,  1.9103e-05,  9.1362e-04, -4.5586e-04, -1.0185e-03,
+         4.8351e-04,  1.9753e-04, -7.5817e-05, -1.2541e-03,  1.2808e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 44, time 216.91, cls_loss 0.0122 cls_loss_mapping 0.0206 cls_loss_causal 0.7150 re_mapping 0.0157 re_causal 0.0477 /// teacc 98.83 lr 0.00010000
+Epoch 46, weight, value: tensor([[-0.0543, -0.0360, -0.0445,  ..., -0.0230, -0.0279, -0.0147],
+        [-0.0021,  0.0449, -0.0438,  ...,  0.0040, -0.0015, -0.0568],
+        [ 0.0188, -0.0562, -0.0413,  ..., -0.0298,  0.0400, -0.0228],
+        ...,
+        [-0.0314, -0.0428,  0.0452,  ...,  0.0445, -0.0705,  0.0060],
+        [ 0.0301,  0.0224, -0.1000,  ..., -0.0173,  0.0650, -0.0107],
+        [-0.0392, -0.0385,  0.0322,  ...,  0.0012, -0.0238, -0.0406]],
+       device='cuda:0'), grad: tensor([[ 1.7196e-05,  1.8030e-05,  5.1880e-04,  ...,  1.0943e-08,
+          5.1069e-04,  4.8894e-08],
+        [-4.8566e-04, -1.7977e-03, -5.1212e-04,  ...,  1.2596e-07,
+          3.2812e-05,  8.5216e-08],
+        [ 4.8429e-05,  3.4785e-04,  1.7488e-04,  ...,  1.4063e-07,
+          3.2410e-06, -5.1688e-07],
+        ...,
+        [ 1.1307e-04,  1.9014e-04, -1.1188e-04,  ...,  2.2305e-07,
+          5.1826e-05,  7.8930e-08],
+        [-1.0413e-04,  3.8654e-05,  2.2161e-04,  ...,  7.5391e-07,
+         -1.0699e-04,  7.2876e-08],
+        [ 2.8685e-05,  2.4304e-05, -1.0900e-03,  ...,  3.9581e-08,
+         -8.0776e-04,  7.4506e-09]], device='cuda:0')
+Epoch 46, bias, value: tensor([-0.0074,  0.0207, -0.0159,  0.0127,  0.0248, -0.0196, -0.0301, -0.0177,
+        -0.0169, -0.0247], device='cuda:0'), grad: tensor([ 4.9706e-03, -2.0428e-03,  9.2220e-04,  1.9741e-03,  1.5917e-03,
+         4.2748e-04,  1.5056e-04,  3.6031e-05,  3.1996e-04, -8.3466e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 45, time 216.82, cls_loss 0.0127 cls_loss_mapping 0.0206 cls_loss_causal 0.7091 re_mapping 0.0147 re_causal 0.0455 /// teacc 98.68 lr 0.00010000
+Epoch 47, weight, value: tensor([[-0.0553, -0.0372, -0.0443,  ..., -0.0230, -0.0281, -0.0146],
+        [-0.0025,  0.0449, -0.0438,  ...,  0.0046, -0.0021, -0.0569],
+        [ 0.0189, -0.0570, -0.0412,  ..., -0.0301,  0.0404, -0.0229],
+        ...,
+        [-0.0323, -0.0418,  0.0454,  ...,  0.0445, -0.0708,  0.0060],
+        [ 0.0299,  0.0221, -0.1008,  ..., -0.0175,  0.0652, -0.0107],
+        [-0.0399, -0.0390,  0.0325,  ...,  0.0011, -0.0244, -0.0407]],
+       device='cuda:0'), grad: tensor([[ 3.6693e-04,  3.3164e-04,  2.6263e-06,  ...,  0.0000e+00,
+          1.7375e-05, -2.5883e-05],
+        [ 8.4400e-05, -2.9773e-05,  8.9873e-07,  ...,  0.0000e+00,
+          5.3585e-05,  1.7951e-07],
+        [ 2.7323e-04,  1.2422e-04,  1.3900e-04,  ...,  0.0000e+00,
+          2.1696e-04,  9.8534e-07],
+        ...,
+        [ 5.0962e-05,  2.7791e-05, -1.9836e-04,  ...,  0.0000e+00,
+         -3.5524e-05,  3.4319e-07],
+        [-9.4557e-04, -1.5879e-04,  2.8133e-05,  ...,  0.0000e+00,
+         -8.8835e-04,  1.5749e-06],
+        [ 1.9383e-04,  1.6823e-05, -1.5616e-05,  ...,  0.0000e+00,
+          1.7154e-04,  7.1973e-06]], device='cuda:0')
+Epoch 47, bias, value: tensor([-0.0072,  0.0205, -0.0158,  0.0128,  0.0245, -0.0196, -0.0296, -0.0175,
+        -0.0174, -0.0247], device='cuda:0'), grad: tensor([ 0.0006,  0.0001,  0.0015,  0.0009,  0.0002,  0.0006, -0.0012, -0.0014,
+        -0.0016,  0.0003], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 46, time 216.77, cls_loss 0.0095 cls_loss_mapping 0.0189 cls_loss_causal 0.6753 re_mapping 0.0146 re_causal 0.0464 /// teacc 98.66 lr 0.00010000
+Epoch 48, weight, value: tensor([[-0.0558, -0.0381, -0.0445,  ..., -0.0230, -0.0282, -0.0146],
+        [-0.0028,  0.0455, -0.0431,  ...,  0.0046, -0.0024, -0.0570],
+        [ 0.0193, -0.0575, -0.0415,  ..., -0.0299,  0.0409, -0.0229],
+        ...,
+        [-0.0328, -0.0428,  0.0453,  ...,  0.0445, -0.0714,  0.0060],
+        [ 0.0306,  0.0223, -0.1019,  ..., -0.0177,  0.0656, -0.0107],
+        [-0.0404, -0.0393,  0.0323,  ...,  0.0011, -0.0245, -0.0407]],
+       device='cuda:0'), grad: tensor([[ 1.7032e-05,  9.4771e-06,  1.9997e-05,  ...,  0.0000e+00,
+          5.8487e-06,  0.0000e+00],
+        [ 1.2785e-05, -1.0353e-04,  1.4983e-05,  ...,  0.0000e+00,
+         -2.0191e-05,  0.0000e+00],
+        [-1.2092e-05,  1.7658e-05,  2.2054e-05,  ...,  0.0000e+00,
+         -2.7597e-05,  0.0000e+00],
+        ...,
+        [ 7.8455e-06,  1.3389e-05, -1.9336e-04,  ...,  0.0000e+00,
+          1.1347e-05,  0.0000e+00],
+        [-6.4909e-05,  3.9250e-05,  1.3687e-05,  ...,  0.0000e+00,
+         -5.4687e-05,  0.0000e+00],
+        [ 1.9252e-05,  1.7479e-05,  9.8050e-05,  ...,  0.0000e+00,
+          1.4648e-05,  0.0000e+00]], device='cuda:0')
+Epoch 48, bias, value: tensor([-0.0072,  0.0206, -0.0158,  0.0127,  0.0248, -0.0197, -0.0296, -0.0178,
+        -0.0172, -0.0247], device='cuda:0'), grad: tensor([ 7.9393e-05, -4.5925e-05,  3.7372e-05,  2.1195e-04, -9.4712e-05,
+        -9.1374e-05,  6.2764e-05, -6.0081e-04,  1.4536e-05,  4.2653e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 47, time 216.61, cls_loss 0.0122 cls_loss_mapping 0.0252 cls_loss_causal 0.6838 re_mapping 0.0141 re_causal 0.0438 /// teacc 98.75 lr 0.00010000
+Epoch 49, weight, value: tensor([[-0.0565, -0.0384, -0.0447,  ..., -0.0230, -0.0279, -0.0146],
+        [-0.0033,  0.0460, -0.0436,  ...,  0.0049, -0.0028, -0.0570],
+        [ 0.0197, -0.0583, -0.0416,  ..., -0.0301,  0.0415, -0.0228],
+        ...,
+        [-0.0335, -0.0430,  0.0455,  ...,  0.0445, -0.0723,  0.0060],
+        [ 0.0302,  0.0213, -0.1030,  ..., -0.0179,  0.0659, -0.0107],
+        [-0.0406, -0.0401,  0.0323,  ...,  0.0011, -0.0253, -0.0408]],
+       device='cuda:0'), grad: tensor([[ 1.2219e-05, -3.6508e-05,  4.6454e-06,  ...,  0.0000e+00,
+         -1.8356e-06,  0.0000e+00],
+        [ 3.9935e-05,  3.1620e-05,  4.8488e-05,  ...,  0.0000e+00,
+          1.0318e-04,  0.0000e+00],
+        [-6.9761e-04,  2.6330e-05, -3.7146e-04,  ...,  0.0000e+00,
+         -1.7710e-03,  0.0000e+00],
+        ...,
+        [ 5.7030e-04,  3.7998e-05,  3.1543e-04,  ...,  0.0000e+00,
+          1.4067e-03,  0.0000e+00],
+        [ 2.0683e-05,  3.2485e-05,  4.6730e-05,  ...,  0.0000e+00,
+          7.7665e-05,  0.0000e+00],
+        [ 1.9208e-05,  4.3154e-05, -1.5244e-05,  ...,  0.0000e+00,
+          2.8476e-05,  0.0000e+00]], device='cuda:0')
+Epoch 49, bias, value: tensor([-0.0070,  0.0203, -0.0157,  0.0125,  0.0251, -0.0198, -0.0289, -0.0181,
+        -0.0175, -0.0246], device='cuda:0'), grad: tensor([-5.8842e-04,  2.1172e-04, -1.9016e-03,  6.6817e-05, -1.7595e-04,
+         2.0444e-04,  3.1829e-04,  1.6298e-03,  1.4377e-04,  9.3102e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 48, time 216.92, cls_loss 0.0110 cls_loss_mapping 0.0209 cls_loss_causal 0.6709 re_mapping 0.0141 re_causal 0.0424 /// teacc 98.86 lr 0.00010000
+Epoch 50, weight, value: tensor([[-0.0576, -0.0389, -0.0451,  ..., -0.0230, -0.0284, -0.0146],
+        [-0.0035,  0.0464, -0.0439,  ...,  0.0049, -0.0023, -0.0571],
+        [ 0.0198, -0.0588, -0.0420,  ..., -0.0300,  0.0417, -0.0227],
+        ...,
+        [-0.0343, -0.0432,  0.0463,  ...,  0.0445, -0.0732,  0.0059],
+        [ 0.0306,  0.0215, -0.1037,  ..., -0.0181,  0.0663, -0.0108],
+        [-0.0414, -0.0406,  0.0323,  ...,  0.0011, -0.0259, -0.0408]],
+       device='cuda:0'), grad: tensor([[ 3.2753e-05,  2.8625e-05,  1.2077e-05,  ...,  4.7032e-08,
+          1.8120e-05,  0.0000e+00],
+        [ 1.1164e-04, -7.6711e-05,  5.2094e-05,  ...,  1.8626e-08,
+          1.3363e-04,  0.0000e+00],
+        [-1.5223e-04,  3.3796e-05, -3.7774e-06,  ...,  7.9162e-09,
+         -3.4451e-04,  0.0000e+00],
+        ...,
+        [ 4.3869e-05,  2.7403e-05, -3.6836e-05,  ...,  2.1886e-08,
+          4.5538e-05,  0.0000e+00],
+        [-1.5676e-05,  9.9987e-06,  3.3021e-05,  ...,  3.1246e-07,
+          1.8209e-05,  0.0000e+00],
+        [ 8.4937e-05,  2.1368e-05,  8.7678e-05,  ...,  4.9826e-08,
+          6.1691e-06,  0.0000e+00]], device='cuda:0')
+Epoch 50, bias, value: tensor([-0.0077,  0.0205, -0.0159,  0.0125,  0.0251, -0.0199, -0.0288, -0.0180,
+        -0.0175, -0.0242], device='cuda:0'), grad: tensor([ 4.9561e-05,  2.3270e-04, -3.1900e-04,  3.1948e-04,  4.4219e-06,
+        -7.5626e-04,  9.2685e-06,  5.5343e-05,  9.2685e-05,  3.1161e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 49, time 216.99, cls_loss 0.0120 cls_loss_mapping 0.0198 cls_loss_causal 0.7202 re_mapping 0.0146 re_causal 0.0441 /// teacc 98.77 lr 0.00010000
+Epoch 51, weight, value: tensor([[-0.0586, -0.0399, -0.0441,  ..., -0.0228, -0.0277, -0.0143],
+        [-0.0043,  0.0462, -0.0440,  ...,  0.0058, -0.0034, -0.0577],
+        [ 0.0205, -0.0580, -0.0413,  ..., -0.0304,  0.0432, -0.0225],
+        ...,
+        [-0.0345, -0.0436,  0.0466,  ...,  0.0445, -0.0735,  0.0059],
+        [ 0.0304,  0.0211, -0.1051,  ..., -0.0186,  0.0663, -0.0108],
+        [-0.0421, -0.0411,  0.0324,  ...,  0.0009, -0.0266, -0.0411]],
+       device='cuda:0'), grad: tensor([[ 2.7761e-05,  2.4393e-05,  6.2473e-06,  ...,  2.2817e-08,
+          4.9442e-05,  0.0000e+00],
+        [ 1.1951e-05, -7.9334e-05,  1.2927e-05,  ...,  5.6345e-08,
+         -5.0634e-05,  0.0000e+00],
+        [ 6.5506e-05,  9.2566e-05,  1.8358e-05,  ...,  3.7160e-07,
+          1.7726e-04,  0.0000e+00],
+        ...,
+        [ 8.0764e-06,  5.3734e-05,  8.8289e-06,  ...,  7.5903e-08,
+          4.0889e-05,  0.0000e+00],
+        [-3.9101e-05,  6.0380e-05,  6.9082e-05,  ...,  3.1525e-07,
+          3.5651e-06,  0.0000e+00],
+        [ 1.0870e-05,  2.8920e-04,  1.6224e-04,  ...,  7.8231e-08,
+          2.7850e-05,  0.0000e+00]], device='cuda:0')
+Epoch 51, bias, value: tensor([-0.0070,  0.0197, -0.0146,  0.0121,  0.0247, -0.0195, -0.0288, -0.0181,
+        -0.0180, -0.0244], device='cuda:0'), grad: tensor([-2.6539e-05, -2.9057e-05,  2.8825e-04, -4.5896e-04, -1.0557e-03,
+         1.2290e-04,  1.3435e-04,  1.3852e-04,  2.4557e-04,  6.3992e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 50, time 216.91, cls_loss 0.0119 cls_loss_mapping 0.0214 cls_loss_causal 0.7097 re_mapping 0.0144 re_causal 0.0444 /// teacc 98.79 lr 0.00010000
+Epoch 52, weight, value: tensor([[-0.0593, -0.0405, -0.0445,  ..., -0.0228, -0.0281, -0.0141],
+        [-0.0044,  0.0465, -0.0442,  ...,  0.0058, -0.0033, -0.0577],
+        [ 0.0203, -0.0585, -0.0424,  ..., -0.0304,  0.0432, -0.0225],
+        ...,
+        [-0.0350, -0.0430,  0.0468,  ...,  0.0445, -0.0739,  0.0059],
+        [ 0.0308,  0.0210, -0.1059,  ..., -0.0188,  0.0670, -0.0108],
+        [-0.0429, -0.0415,  0.0327,  ...,  0.0009, -0.0275, -0.0412]],
+       device='cuda:0'), grad: tensor([[ 6.7770e-05,  2.3097e-05,  3.5912e-05,  ...,  0.0000e+00,
+          7.9036e-05,  0.0000e+00],
+        [ 9.9018e-06, -3.3110e-05,  3.0786e-05,  ...,  0.0000e+00,
+          1.2286e-05,  0.0000e+00],
+        [ 2.3317e-04,  2.3842e-05,  1.4722e-04,  ...,  0.0000e+00,
+          3.4261e-04,  0.0000e+00],
+        ...,
+        [ 1.6227e-05,  1.9759e-05, -3.0160e-04,  ...,  0.0000e+00,
+          2.4140e-05,  0.0000e+00],
+        [-4.4823e-04,  5.4359e-05, -3.4213e-05,  ...,  0.0000e+00,
+         -6.4659e-04,  0.0000e+00],
+        [ 4.1485e-05,  1.1533e-04,  2.6083e-04,  ...,  0.0000e+00,
+          6.1154e-05,  0.0000e+00]], device='cuda:0')
+Epoch 52, bias, value: tensor([-0.0071,  0.0196, -0.0155,  0.0123,  0.0252, -0.0190, -0.0293, -0.0178,
+        -0.0179, -0.0244], device='cuda:0'), grad: tensor([ 7.4208e-05,  3.3498e-05,  4.8661e-04,  2.2662e-04, -8.6594e-04,
+         1.2898e-04,  6.1572e-05, -3.6430e-04, -4.3559e-04,  6.5517e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 51----------------------------------------------------
+epoch 51, time 217.76, cls_loss 0.0101 cls_loss_mapping 0.0179 cls_loss_causal 0.6756 re_mapping 0.0136 re_causal 0.0417 /// teacc 98.90 lr 0.00010000
+Epoch 53, weight, value: tensor([[-0.0600, -0.0411, -0.0447,  ..., -0.0228, -0.0287, -0.0141],
+        [-0.0049,  0.0470, -0.0444,  ...,  0.0053, -0.0033, -0.0577],
+        [ 0.0202, -0.0591, -0.0417,  ..., -0.0307,  0.0432, -0.0225],
+        ...,
+        [-0.0362, -0.0430,  0.0475,  ...,  0.0449, -0.0746,  0.0059],
+        [ 0.0318,  0.0209, -0.1070,  ..., -0.0195,  0.0685, -0.0109],
+        [-0.0439, -0.0416,  0.0327,  ...,  0.0008, -0.0285, -0.0412]],
+       device='cuda:0'), grad: tensor([[ 1.7032e-05,  2.2218e-05,  4.6119e-06,  ...,  0.0000e+00,
+         -7.9334e-05, -2.9579e-05],
+        [ 4.3884e-06, -3.2759e-04,  1.1690e-05,  ...,  0.0000e+00,
+         -9.0897e-05,  8.8010e-08],
+        [ 1.6063e-05,  1.9276e-04,  6.2704e-05,  ...,  0.0000e+00,
+          1.2040e-04,  1.1232e-06],
+        ...,
+        [ 3.0287e-06,  4.6819e-05, -6.6900e-04,  ...,  0.0000e+00,
+         -1.3828e-04,  4.4331e-07],
+        [ 1.0375e-06,  5.2541e-05,  3.2753e-05,  ...,  0.0000e+00,
+          1.8805e-05,  3.6182e-07],
+        [ 1.9982e-05,  1.6183e-05,  2.9492e-04,  ...,  0.0000e+00,
+          1.1331e-04,  2.2128e-05]], device='cuda:0')
+Epoch 53, bias, value: tensor([-0.0074,  0.0197, -0.0157,  0.0118,  0.0249, -0.0192, -0.0291, -0.0175,
+        -0.0172, -0.0244], device='cuda:0'), grad: tensor([-3.9315e-04, -3.1614e-04,  4.8065e-04,  3.2735e-04, -8.8811e-06,
+         3.5143e-04, -4.7922e-05, -1.5659e-03,  1.8799e-04,  9.8324e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 52, time 216.84, cls_loss 0.0109 cls_loss_mapping 0.0187 cls_loss_causal 0.6718 re_mapping 0.0132 re_causal 0.0399 /// teacc 98.80 lr 0.00010000
+Epoch 54, weight, value: tensor([[-0.0608, -0.0415, -0.0447,  ..., -0.0228, -0.0284, -0.0141],
+        [-0.0054,  0.0482, -0.0453,  ...,  0.0055, -0.0038, -0.0578],
+        [ 0.0207, -0.0595, -0.0429,  ..., -0.0309,  0.0439, -0.0225],
+        ...,
+        [-0.0367, -0.0441,  0.0487,  ...,  0.0449, -0.0751,  0.0059],
+        [ 0.0317,  0.0207, -0.1079,  ..., -0.0197,  0.0685, -0.0109],
+        [-0.0446, -0.0421,  0.0335,  ...,  0.0008, -0.0302, -0.0413]],
+       device='cuda:0'), grad: tensor([[ 3.4124e-05,  3.8356e-05,  9.6411e-06,  ...,  0.0000e+00,
+          1.2636e-05,  0.0000e+00],
+        [ 2.7016e-05,  1.8148e-03,  1.1883e-03,  ...,  0.0000e+00,
+          5.9187e-05,  0.0000e+00],
+        [-6.5982e-05,  5.7697e-05,  2.8700e-05,  ...,  0.0000e+00,
+         -1.9908e-04,  0.0000e+00],
+        ...,
+        [ 2.2173e-05,  2.1994e-04,  1.5020e-04,  ...,  0.0000e+00,
+          4.8906e-05,  0.0000e+00],
+        [ 2.9191e-05,  1.1081e-04,  7.9036e-05,  ...,  0.0000e+00,
+          1.8373e-05,  0.0000e+00],
+        [ 4.8019e-06,  1.2932e-03,  7.6008e-04,  ...,  0.0000e+00,
+          2.4214e-06,  0.0000e+00]], device='cuda:0')
+Epoch 54, bias, value: tensor([-0.0069,  0.0200, -0.0159,  0.0121,  0.0249, -0.0197, -0.0288, -0.0170,
+        -0.0180, -0.0246], device='cuda:0'), grad: tensor([ 5.4419e-05,  2.7065e-03, -1.4853e-04,  2.2197e-04, -5.0354e-03,
+         3.5310e-04, -4.7421e-04,  4.1080e-04,  2.3520e-04,  1.6747e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 53----------------------------------------------------
+epoch 53, time 217.76, cls_loss 0.0084 cls_loss_mapping 0.0160 cls_loss_causal 0.6313 re_mapping 0.0131 re_causal 0.0408 /// teacc 98.95 lr 0.00010000
+Epoch 55, weight, value: tensor([[-0.0615, -0.0423, -0.0449,  ..., -0.0228, -0.0287, -0.0140],
+        [-0.0056,  0.0484, -0.0455,  ...,  0.0055, -0.0041, -0.0578],
+        [ 0.0211, -0.0591, -0.0423,  ..., -0.0309,  0.0450, -0.0224],
+        ...,
+        [-0.0375, -0.0445,  0.0494,  ...,  0.0449, -0.0758,  0.0059],
+        [ 0.0317,  0.0204, -0.1084,  ..., -0.0197,  0.0685, -0.0109],
+        [-0.0452, -0.0426,  0.0330,  ...,  0.0008, -0.0305, -0.0413]],
+       device='cuda:0'), grad: tensor([[ 7.6443e-06,  7.0818e-06,  1.0841e-06,  ...,  0.0000e+00,
+          6.7130e-06,  0.0000e+00],
+        [ 1.5068e-04,  1.0532e-04, -4.2580e-06,  ...,  0.0000e+00,
+          2.6870e-04,  0.0000e+00],
+        [-1.7405e-04, -1.2147e-04,  1.0476e-05,  ...,  0.0000e+00,
+         -1.6260e-04,  0.0000e+00],
+        ...,
+        [ 5.6364e-06,  2.6256e-05, -1.4782e-05,  ...,  0.0000e+00,
+          7.6592e-06,  0.0000e+00],
+        [ 2.0891e-05,  3.7372e-05,  7.2084e-06,  ...,  0.0000e+00,
+          5.9634e-05,  0.0000e+00],
+        [ 3.4571e-05,  3.8981e-05, -1.6794e-05,  ...,  0.0000e+00,
+          7.4625e-05,  0.0000e+00]], device='cuda:0')
+Epoch 55, bias, value: tensor([-0.0072,  0.0197, -0.0151,  0.0120,  0.0246, -0.0193, -0.0286, -0.0167,
+        -0.0183, -0.0249], device='cuda:0'), grad: tensor([ 7.2941e-06,  4.8208e-04, -3.1447e-04,  1.4830e-03,  1.0975e-05,
+        -2.2202e-03,  2.6274e-04,  8.6799e-06,  1.4079e-04,  1.3888e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 54, time 216.92, cls_loss 0.0096 cls_loss_mapping 0.0220 cls_loss_causal 0.6747 re_mapping 0.0131 re_causal 0.0415 /// teacc 98.72 lr 0.00010000
+Epoch 56, weight, value: tensor([[-0.0618, -0.0426, -0.0451,  ..., -0.0228, -0.0286, -0.0140],
+        [-0.0055,  0.0491, -0.0451,  ...,  0.0055, -0.0036, -0.0579],
+        [ 0.0214, -0.0595, -0.0428,  ..., -0.0309,  0.0452, -0.0224],
+        ...,
+        [-0.0383, -0.0452,  0.0497,  ...,  0.0449, -0.0759,  0.0059],
+        [ 0.0320,  0.0203, -0.1086,  ..., -0.0197,  0.0687, -0.0109],
+        [-0.0459, -0.0429,  0.0330,  ...,  0.0008, -0.0311, -0.0413]],
+       device='cuda:0'), grad: tensor([[ 3.3200e-05,  7.3537e-06,  1.8820e-05,  ...,  0.0000e+00,
+          6.5923e-05,  1.6734e-05],
+        [-1.6069e-04, -1.3790e-03, -1.2481e-04,  ...,  0.0000e+00,
+         -4.6587e-04,  4.5374e-06],
+        [ 4.8220e-05,  7.6342e-04,  3.0780e-04,  ...,  0.0000e+00,
+          2.0134e-04, -5.9575e-05],
+        ...,
+        [ 5.8264e-05,  3.4475e-04, -3.4523e-03,  ...,  0.0000e+00,
+          1.3494e-04,  2.6852e-05],
+        [-2.8923e-05,  5.4866e-05,  4.2588e-05,  ...,  0.0000e+00,
+         -1.1176e-05,  2.8200e-06],
+        [ 2.0310e-05,  8.6069e-05,  5.9098e-05,  ...,  0.0000e+00,
+          2.1845e-05,  6.9058e-07]], device='cuda:0')
+Epoch 56, bias, value: tensor([-0.0069,  0.0201, -0.0152,  0.0122,  0.0244, -0.0194, -0.0287, -0.0171,
+        -0.0181, -0.0251], device='cuda:0'), grad: tensor([ 1.0216e-04, -1.8520e-03,  1.0376e-03,  3.7998e-07,  3.9368e-03,
+         1.0699e-04,  8.7917e-05, -3.7346e-03,  1.1903e-04,  1.9085e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 55, time 217.18, cls_loss 0.0060 cls_loss_mapping 0.0137 cls_loss_causal 0.6042 re_mapping 0.0129 re_causal 0.0387 /// teacc 98.75 lr 0.00010000
+Epoch 57, weight, value: tensor([[-0.0624, -0.0430, -0.0452,  ..., -0.0229, -0.0284, -0.0140],
+        [-0.0060,  0.0494, -0.0454,  ...,  0.0062, -0.0037, -0.0581],
+        [ 0.0215, -0.0601, -0.0431,  ..., -0.0312,  0.0455, -0.0222],
+        ...,
+        [-0.0388, -0.0449,  0.0501,  ...,  0.0448, -0.0764,  0.0058],
+        [ 0.0319,  0.0203, -0.1092,  ..., -0.0198,  0.0686, -0.0109],
+        [-0.0465, -0.0433,  0.0330,  ...,  0.0008, -0.0317, -0.0414]],
+       device='cuda:0'), grad: tensor([[ 2.5943e-05,  1.6615e-05,  7.5474e-06,  ...,  4.6100e-08,
+          2.5913e-05,  0.0000e+00],
+        [ 3.4004e-05, -2.2262e-05,  2.0757e-05,  ...,  6.6124e-08,
+          4.0323e-05,  0.0000e+00],
+        [ 2.2221e-04,  5.1171e-05,  2.1175e-05,  ...,  9.4529e-08,
+          2.3580e-04,  0.0000e+00],
+        ...,
+        [ 8.6874e-06,  1.9059e-05, -1.0073e-04,  ...,  4.0513e-08,
+          1.2100e-05,  0.0000e+00],
+        [-3.1638e-04, -5.6922e-05,  2.1711e-05,  ...,  8.1956e-08,
+         -3.0661e-04,  0.0000e+00],
+        [ 7.4387e-05,  1.6725e-04,  4.3035e-04,  ...,  3.5111e-07,
+          9.3341e-05,  0.0000e+00]], device='cuda:0')
+Epoch 57, bias, value: tensor([-0.0063,  0.0202, -0.0154,  0.0126,  0.0242, -0.0195, -0.0286, -0.0170,
+        -0.0185, -0.0252], device='cuda:0'), grad: tensor([ 8.5115e-05,  6.2943e-05,  3.0637e-04, -1.1072e-03, -9.1743e-04,
+         5.0831e-04,  1.4102e-04, -8.3268e-05, -3.4302e-05,  1.0376e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 56, time 216.83, cls_loss 0.0111 cls_loss_mapping 0.0228 cls_loss_causal 0.6670 re_mapping 0.0134 re_causal 0.0381 /// teacc 98.82 lr 0.00010000
+Epoch 58, weight, value: tensor([[-0.0635, -0.0442, -0.0455,  ..., -0.0230, -0.0297, -0.0139],
+        [-0.0063,  0.0496, -0.0460,  ...,  0.0061, -0.0038, -0.0582],
+        [ 0.0215, -0.0608, -0.0435,  ..., -0.0326,  0.0464, -0.0222],
+        ...,
+        [-0.0405, -0.0448,  0.0509,  ...,  0.0464, -0.0782,  0.0058],
+        [ 0.0333,  0.0207, -0.1093,  ..., -0.0204,  0.0693, -0.0110],
+        [-0.0479, -0.0437,  0.0328,  ...,  0.0006, -0.0334, -0.0414]],
+       device='cuda:0'), grad: tensor([[ 2.3648e-05,  2.1577e-05,  4.5836e-05,  ...,  0.0000e+00,
+          2.9042e-05,  0.0000e+00],
+        [ 1.0908e-04, -6.3062e-05,  2.9549e-05,  ...,  0.0000e+00,
+          1.9884e-04,  0.0000e+00],
+        [ 7.2670e-04,  3.6091e-05,  1.7571e-04,  ...,  0.0000e+00,
+          1.4248e-03,  0.0000e+00],
+        ...,
+        [-1.6260e-03,  4.3690e-05, -4.6229e-04,  ...,  0.0000e+00,
+         -3.1624e-03,  0.0000e+00],
+        [ 8.8274e-05,  4.2617e-05,  2.2054e-05,  ...,  0.0000e+00,
+          7.4029e-05,  0.0000e+00],
+        [ 2.1607e-05,  1.6272e-05,  8.4490e-06,  ...,  0.0000e+00,
+          3.3677e-05,  0.0000e+00]], device='cuda:0')
+Epoch 58, bias, value: tensor([-0.0069,  0.0198, -0.0152,  0.0130,  0.0244, -0.0203, -0.0286, -0.0169,
+        -0.0173, -0.0258], device='cuda:0'), grad: tensor([ 1.8150e-05,  2.8443e-04,  2.4815e-03,  2.1763e-03, -2.4581e-04,
+         8.9049e-05,  2.7728e-04, -5.4398e-03,  2.5082e-04,  1.0628e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 57, time 217.02, cls_loss 0.0091 cls_loss_mapping 0.0187 cls_loss_causal 0.6815 re_mapping 0.0130 re_causal 0.0401 /// teacc 98.91 lr 0.00010000
+Epoch 59, weight, value: tensor([[-0.0640, -0.0444, -0.0457,  ..., -0.0228, -0.0297, -0.0139],
+        [-0.0066,  0.0501, -0.0459,  ...,  0.0062, -0.0042, -0.0583],
+        [ 0.0214, -0.0612, -0.0437,  ..., -0.0333,  0.0465, -0.0222],
+        ...,
+        [-0.0412, -0.0455,  0.0506,  ...,  0.0466, -0.0789,  0.0058],
+        [ 0.0336,  0.0206, -0.1102,  ..., -0.0206,  0.0701, -0.0110],
+        [-0.0487, -0.0444,  0.0332,  ...,  0.0006, -0.0338, -0.0415]],
+       device='cuda:0'), grad: tensor([[ 4.3690e-05,  3.2961e-05,  4.8522e-07,  ...,  0.0000e+00,
+          7.0259e-06,  0.0000e+00],
+        [ 1.2375e-05,  9.4175e-06,  2.1964e-05,  ...,  0.0000e+00,
+          1.4499e-05,  0.0000e+00],
+        [ 7.0184e-06,  2.3365e-05,  4.8354e-06,  ...,  0.0000e+00,
+          5.9679e-06,  0.0000e+00],
+        ...,
+        [ 6.0797e-06, -1.8820e-05, -7.7069e-05,  ...,  0.0000e+00,
+          2.4244e-05,  0.0000e+00],
+        [ 1.9228e-04,  1.3506e-04,  5.6401e-06,  ...,  0.0000e+00,
+          3.8654e-05,  0.0000e+00],
+        [ 1.1630e-05,  1.2621e-05,  4.1157e-05,  ...,  0.0000e+00,
+          3.3319e-05,  0.0000e+00]], device='cuda:0')
+Epoch 59, bias, value: tensor([-0.0075,  0.0201, -0.0154,  0.0134,  0.0246, -0.0206, -0.0286, -0.0176,
+        -0.0174, -0.0250], device='cuda:0'), grad: tensor([-1.7500e-04,  9.4771e-05,  9.6738e-05, -3.2043e-04, -6.0759e-06,
+         4.0674e-04, -5.4121e-04, -7.5817e-05,  3.3069e-04,  1.9038e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 58, time 216.98, cls_loss 0.0112 cls_loss_mapping 0.0198 cls_loss_causal 0.6596 re_mapping 0.0122 re_causal 0.0374 /// teacc 98.69 lr 0.00010000
+Epoch 60, weight, value: tensor([[-0.0646, -0.0434, -0.0459,  ..., -0.0229, -0.0284, -0.0138],
+        [-0.0074,  0.0507, -0.0462,  ...,  0.0060, -0.0046, -0.0583],
+        [ 0.0219, -0.0620, -0.0443,  ..., -0.0337,  0.0470, -0.0223],
+        ...,
+        [-0.0420, -0.0462,  0.0511,  ...,  0.0465, -0.0799,  0.0058],
+        [ 0.0343,  0.0201, -0.1107,  ..., -0.0215,  0.0699, -0.0110],
+        [-0.0493, -0.0440,  0.0334,  ...,  0.0005, -0.0346, -0.0415]],
+       device='cuda:0'), grad: tensor([[ 6.6459e-05,  2.6673e-05,  1.6987e-05,  ...,  0.0000e+00,
+          7.2896e-05,  0.0000e+00],
+        [ 3.0488e-05, -4.5598e-06,  1.9386e-05,  ...,  0.0000e+00,
+          1.2964e-05,  0.0000e+00],
+        [ 1.0329e-04,  4.3303e-05,  1.1936e-05,  ...,  0.0000e+00,
+          1.4699e-04,  0.0000e+00],
+        ...,
+        [ 5.0455e-05,  8.0645e-05,  2.8896e-04,  ...,  0.0000e+00,
+          2.1189e-05,  0.0000e+00],
+        [-7.8082e-06, -1.6794e-05,  5.0366e-05,  ...,  0.0000e+00,
+         -6.7592e-05,  0.0000e+00],
+        [ 3.3498e-05, -1.2982e-04, -8.4019e-04,  ...,  0.0000e+00,
+          1.4246e-05,  0.0000e+00]], device='cuda:0')
+Epoch 60, bias, value: tensor([-0.0068,  0.0201, -0.0155,  0.0130,  0.0238, -0.0200, -0.0282, -0.0181,
+        -0.0175, -0.0245], device='cuda:0'), grad: tensor([ 2.4045e-04,  6.5744e-05,  3.4022e-04, -1.8775e-04,  7.0810e-04,
+        -6.1321e-04,  4.2892e-04,  7.4816e-04,  5.1677e-05, -1.7834e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 59----------------------------------------------------
+epoch 59, time 217.76, cls_loss 0.0112 cls_loss_mapping 0.0195 cls_loss_causal 0.6962 re_mapping 0.0126 re_causal 0.0370 /// teacc 99.01 lr 0.00010000
+Epoch 61, weight, value: tensor([[-0.0657, -0.0440, -0.0453,  ..., -0.0230, -0.0276, -0.0139],
+        [-0.0075,  0.0515, -0.0453,  ...,  0.0068, -0.0047, -0.0585],
+        [ 0.0222, -0.0628, -0.0450,  ..., -0.0346,  0.0472, -0.0220],
+        ...,
+        [-0.0425, -0.0462,  0.0511,  ...,  0.0464, -0.0804,  0.0057],
+        [ 0.0343,  0.0198, -0.1114,  ..., -0.0217,  0.0703, -0.0110],
+        [-0.0501, -0.0452,  0.0330,  ...,  0.0005, -0.0357, -0.0415]],
+       device='cuda:0'), grad: tensor([[ 3.0667e-05,  1.9129e-06,  1.5572e-06,  ...,  0.0000e+00,
+          6.9082e-05,  0.0000e+00],
+        [ 1.3635e-05, -1.7121e-05,  9.3356e-06,  ...,  0.0000e+00,
+          3.2365e-05,  0.0000e+00],
+        [-2.1338e-04,  5.8003e-06,  5.3495e-06,  ...,  0.0000e+00,
+         -2.8706e-04,  0.0000e+00],
+        ...,
+        [ 1.1139e-05,  1.3195e-05, -2.3007e-04,  ...,  0.0000e+00,
+          2.8282e-05,  0.0000e+00],
+        [ 4.4632e-04,  6.0201e-06,  1.9506e-05,  ...,  0.0000e+00,
+          1.1244e-03,  0.0000e+00],
+        [ 2.8551e-05,  1.4044e-05,  1.9288e-04,  ...,  0.0000e+00,
+          8.2374e-05,  0.0000e+00]], device='cuda:0')
+Epoch 61, bias, value: tensor([-0.0068,  0.0208, -0.0160,  0.0127,  0.0242, -0.0190, -0.0280, -0.0184,
+        -0.0178, -0.0251], device='cuda:0'), grad: tensor([-2.3067e-04,  5.5403e-05, -2.6560e-04, -2.1095e-03, -1.0453e-05,
+         3.2687e-04,  2.2411e-04, -2.6202e-04,  1.8005e-03,  4.7112e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 60, time 216.89, cls_loss 0.0087 cls_loss_mapping 0.0181 cls_loss_causal 0.6627 re_mapping 0.0126 re_causal 0.0391 /// teacc 98.70 lr 0.00010000
+Epoch 62, weight, value: tensor([[-0.0662, -0.0444, -0.0456,  ..., -0.0230, -0.0277, -0.0139],
+        [-0.0078,  0.0518, -0.0461,  ...,  0.0071, -0.0049, -0.0586],
+        [ 0.0223, -0.0634, -0.0457,  ..., -0.0353,  0.0478, -0.0219],
+        ...,
+        [-0.0430, -0.0460,  0.0519,  ...,  0.0465, -0.0811,  0.0057],
+        [ 0.0346,  0.0198, -0.1125,  ..., -0.0218,  0.0707, -0.0110],
+        [-0.0506, -0.0459,  0.0324,  ...,  0.0004, -0.0366, -0.0415]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-06,  7.8604e-06,  4.5523e-06,  ...,  0.0000e+00,
+         -6.6996e-05,  0.0000e+00],
+        [ 2.4913e-07, -3.4451e-05, -9.8720e-07,  ...,  0.0000e+00,
+         -3.4161e-06,  0.0000e+00],
+        [ 5.9791e-06,  5.7630e-06,  4.2990e-06,  ...,  0.0000e+00,
+          1.9848e-05,  0.0000e+00],
+        ...,
+        [ 2.8964e-07,  2.5123e-05, -4.3362e-06,  ...,  0.0000e+00,
+          4.5970e-06,  0.0000e+00],
+        [-3.7923e-06,  2.3350e-05,  3.0309e-05,  ...,  0.0000e+00,
+          9.0957e-05,  0.0000e+00],
+        [ 1.8515e-06,  6.4336e-06, -2.9802e-05,  ...,  0.0000e+00,
+          6.7241e-06,  0.0000e+00]], device='cuda:0')
+Epoch 62, bias, value: tensor([-0.0063,  0.0204, -0.0159,  0.0127,  0.0253, -0.0189, -0.0283, -0.0180,
+        -0.0180, -0.0261], device='cuda:0'), grad: tensor([-1.1420e-04, -2.6524e-05,  4.1217e-05, -6.5982e-05, -1.7524e-05,
+         3.9071e-05, -4.4703e-05,  1.0639e-05,  2.1923e-04, -4.1217e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 61, time 217.12, cls_loss 0.0076 cls_loss_mapping 0.0149 cls_loss_causal 0.6310 re_mapping 0.0117 re_causal 0.0374 /// teacc 98.82 lr 0.00010000
+Epoch 63, weight, value: tensor([[-0.0670, -0.0449, -0.0458,  ..., -0.0230, -0.0279, -0.0139],
+        [-0.0083,  0.0522, -0.0463,  ...,  0.0072, -0.0054, -0.0586],
+        [ 0.0227, -0.0645, -0.0463,  ..., -0.0354,  0.0484, -0.0218],
+        ...,
+        [-0.0434, -0.0459,  0.0520,  ...,  0.0465, -0.0813,  0.0057],
+        [ 0.0348,  0.0201, -0.1137,  ..., -0.0219,  0.0712, -0.0110],
+        [-0.0511, -0.0463,  0.0324,  ...,  0.0004, -0.0373, -0.0415]],
+       device='cuda:0'), grad: tensor([[ 1.1779e-05,  3.2894e-06,  5.6364e-06,  ...,  0.0000e+00,
+          5.4948e-06,  0.0000e+00],
+        [ 2.8685e-05,  3.2306e-05,  1.0800e-04,  ...,  0.0000e+00,
+          3.0115e-05,  0.0000e+00],
+        [-2.7612e-05,  7.3612e-05,  1.2159e-04,  ...,  0.0000e+00,
+         -3.4243e-05,  0.0000e+00],
+        ...,
+        [ 1.4581e-05, -9.1434e-05, -5.7125e-04,  ...,  0.0000e+00,
+          1.4372e-05,  0.0000e+00],
+        [ 8.5354e-05, -8.4564e-06,  2.6298e-04,  ...,  0.0000e+00,
+         -1.7151e-05,  0.0000e+00],
+        [ 1.3195e-05,  8.8885e-06, -4.9263e-05,  ...,  0.0000e+00,
+          1.8865e-05,  0.0000e+00]], device='cuda:0')
+Epoch 63, bias, value: tensor([-0.0075,  0.0202, -0.0162,  0.0125,  0.0258, -0.0191, -0.0279, -0.0177,
+        -0.0179, -0.0257], device='cuda:0'), grad: tensor([-2.4796e-04,  3.1424e-04,  4.1461e-04, -3.5912e-05,  1.5569e-04,
+        -1.6546e-04,  1.1826e-04, -1.3628e-03,  6.9046e-04,  1.1760e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 62, time 217.19, cls_loss 0.0080 cls_loss_mapping 0.0138 cls_loss_causal 0.6243 re_mapping 0.0119 re_causal 0.0341 /// teacc 98.88 lr 0.00010000
+Epoch 64, weight, value: tensor([[-0.0680, -0.0454, -0.0461,  ..., -0.0231, -0.0274, -0.0136],
+        [-0.0087,  0.0533, -0.0460,  ...,  0.0074, -0.0057, -0.0591],
+        [ 0.0234, -0.0651, -0.0466,  ..., -0.0359,  0.0488, -0.0219],
+        ...,
+        [-0.0448, -0.0473,  0.0524,  ...,  0.0466, -0.0820,  0.0057],
+        [ 0.0346,  0.0200, -0.1147,  ..., -0.0222,  0.0713, -0.0111],
+        [-0.0519, -0.0465,  0.0324,  ...,  0.0004, -0.0379, -0.0416]],
+       device='cuda:0'), grad: tensor([[ 3.5465e-05,  4.3422e-05,  2.6077e-06,  ...,  0.0000e+00,
+          1.3329e-05,  0.0000e+00],
+        [ 1.0812e-04,  4.5240e-05,  5.3607e-06,  ...,  0.0000e+00,
+          1.6212e-04,  0.0000e+00],
+        [-1.5998e-04, -4.8488e-05,  1.8626e-05,  ...,  0.0000e+00,
+         -1.5628e-04,  0.0000e+00],
+        ...,
+        [ 3.4183e-05,  4.1537e-06, -1.6749e-05,  ...,  0.0000e+00,
+          1.3983e-04,  0.0000e+00],
+        [ 1.9446e-05,  8.9183e-06,  1.6227e-05,  ...,  0.0000e+00,
+          8.1122e-05,  0.0000e+00],
+        [ 3.5055e-06,  2.1607e-06,  5.2750e-06,  ...,  0.0000e+00,
+          3.3379e-05,  0.0000e+00]], device='cuda:0')
+Epoch 64, bias, value: tensor([-0.0070,  0.0207, -0.0162,  0.0126,  0.0255, -0.0185, -0.0280, -0.0181,
+        -0.0184, -0.0257], device='cuda:0'), grad: tensor([ 8.8274e-05,  2.8181e-04, -1.8680e-04, -9.1887e-04,  1.9357e-05,
+         3.2878e-04, -8.0287e-05,  1.9121e-04,  1.9121e-04,  8.4221e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 63, time 217.00, cls_loss 0.0073 cls_loss_mapping 0.0137 cls_loss_causal 0.6637 re_mapping 0.0120 re_causal 0.0367 /// teacc 98.76 lr 0.00010000
+Epoch 65, weight, value: tensor([[-0.0688, -0.0458, -0.0463,  ..., -0.0232, -0.0276, -0.0137],
+        [-0.0091,  0.0538, -0.0464,  ...,  0.0074, -0.0058, -0.0593],
+        [ 0.0241, -0.0655, -0.0471,  ..., -0.0360,  0.0496, -0.0215],
+        ...,
+        [-0.0457, -0.0475,  0.0531,  ...,  0.0467, -0.0828,  0.0056],
+        [ 0.0346,  0.0198, -0.1156,  ..., -0.0223,  0.0715, -0.0112],
+        [-0.0522, -0.0468,  0.0331,  ...,  0.0004, -0.0385, -0.0416]],
+       device='cuda:0'), grad: tensor([[ 4.5478e-05,  1.7798e-04,  2.0906e-05,  ...,  2.2165e-07,
+          1.3255e-05, -1.4435e-08],
+        [ 1.6496e-05, -1.9446e-05,  1.1064e-06,  ..., -9.1195e-06,
+          1.5587e-05,  0.0000e+00],
+        [-1.0097e-04,  5.0068e-05,  1.9997e-05,  ...,  3.9674e-07,
+         -1.7071e-04,  2.3283e-09],
+        ...,
+        [ 1.3925e-05,  5.3763e-05,  4.5858e-06,  ...,  2.3898e-06,
+          1.7881e-05,  4.6566e-10],
+        [-7.2145e-04, -5.0879e-04,  3.9816e-05,  ...,  8.5682e-07,
+         -6.2346e-05,  4.6566e-10],
+        [ 1.7598e-05,  2.1422e-04,  2.4647e-05,  ...,  3.6824e-06,
+          1.9252e-05,  6.9849e-09]], device='cuda:0')
+Epoch 65, bias, value: tensor([-0.0070,  0.0206, -0.0158,  0.0127,  0.0254, -0.0189, -0.0282, -0.0182,
+        -0.0186, -0.0255], device='cuda:0'), grad: tensor([ 1.3196e-04,  3.8922e-05, -1.3077e-04,  1.0860e-04, -9.1553e-04,
+         1.0042e-03,  2.3568e-04,  1.1575e-04, -9.4080e-04,  3.5000e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 64, time 217.12, cls_loss 0.0084 cls_loss_mapping 0.0168 cls_loss_causal 0.6403 re_mapping 0.0119 re_causal 0.0356 /// teacc 98.89 lr 0.00010000
+Epoch 66, weight, value: tensor([[-0.0695, -0.0465, -0.0465,  ..., -0.0235, -0.0278, -0.0137],
+        [-0.0098,  0.0535, -0.0471,  ...,  0.0078, -0.0059, -0.0596],
+        [ 0.0247, -0.0659, -0.0474,  ..., -0.0362,  0.0502, -0.0208],
+        ...,
+        [-0.0473, -0.0478,  0.0532,  ...,  0.0467, -0.0840,  0.0055],
+        [ 0.0351,  0.0203, -0.1163,  ..., -0.0226,  0.0718, -0.0112],
+        [-0.0528, -0.0480,  0.0331,  ...,  0.0003, -0.0392, -0.0417]],
+       device='cuda:0'), grad: tensor([[ 1.8433e-05,  1.5795e-05,  1.4342e-06,  ...,  0.0000e+00,
+          1.2413e-05,  0.0000e+00],
+        [ 9.4831e-05,  2.0266e-04,  3.3844e-06,  ...,  0.0000e+00,
+          1.3423e-04,  0.0000e+00],
+        [-1.4222e-04,  2.2337e-05,  2.6617e-06,  ...,  0.0000e+00,
+         -1.8013e-04,  0.0000e+00],
+        ...,
+        [ 9.4846e-06,  2.5511e-05, -5.9195e-06,  ...,  0.0000e+00,
+          1.1891e-05,  0.0000e+00],
+        [-2.2018e-04, -7.4291e-04,  4.5896e-06,  ...,  0.0000e+00,
+         -4.1008e-04,  0.0000e+00],
+        [ 8.8751e-05,  3.7217e-04, -4.6313e-05,  ...,  0.0000e+00,
+          1.4126e-04,  0.0000e+00]], device='cuda:0')
+Epoch 66, bias, value: tensor([-0.0071,  0.0202, -0.0156,  0.0132,  0.0259, -0.0192, -0.0279, -0.0187,
+        -0.0184, -0.0255], device='cuda:0'), grad: tensor([ 4.3541e-05,  6.3229e-04, -1.3554e-04,  5.2309e-04,  3.9130e-05,
+         2.8498e-06,  4.1097e-05,  4.2111e-05, -2.0638e-03,  8.7500e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 65, time 217.03, cls_loss 0.0069 cls_loss_mapping 0.0129 cls_loss_causal 0.6120 re_mapping 0.0115 re_causal 0.0341 /// teacc 98.74 lr 0.00010000
+Epoch 67, weight, value: tensor([[-0.0705, -0.0475, -0.0466,  ..., -0.0234, -0.0282, -0.0137],
+        [-0.0103,  0.0530, -0.0472,  ...,  0.0075, -0.0067, -0.0597],
+        [ 0.0249, -0.0647, -0.0476,  ..., -0.0365,  0.0509, -0.0208],
+        ...,
+        [-0.0479, -0.0483,  0.0537,  ...,  0.0471, -0.0844,  0.0055],
+        [ 0.0353,  0.0204, -0.1168,  ..., -0.0231,  0.0721, -0.0113],
+        [-0.0534, -0.0487,  0.0333,  ...,  0.0002, -0.0398, -0.0417]],
+       device='cuda:0'), grad: tensor([[ 1.8224e-05,  2.4676e-05,  3.0380e-06,  ...,  3.0315e-07,
+          1.3700e-06,  0.0000e+00],
+        [ 9.3728e-06,  3.3927e-04,  1.0407e-04,  ...,  1.8580e-07,
+          9.3058e-06,  0.0000e+00],
+        [ 1.6376e-05,  3.8087e-05,  7.9349e-06,  ...,  3.9227e-06,
+          2.8536e-05,  0.0000e+00],
+        ...,
+        [ 2.2985e-06,  2.4676e-05,  7.8008e-06,  ..., -2.3143e-07,
+          3.2447e-06,  0.0000e+00],
+        [-3.6925e-05,  2.3767e-05,  5.6922e-05,  ...,  2.6776e-07,
+         -4.6879e-05,  0.0000e+00],
+        [ 1.7900e-06,  3.9756e-05, -4.9829e-04,  ...,  6.7614e-07,
+          2.6412e-06,  0.0000e+00]], device='cuda:0')
+Epoch 67, bias, value: tensor([-0.0073,  0.0192, -0.0148,  0.0126,  0.0257, -0.0190, -0.0271, -0.0186,
+        -0.0185, -0.0253], device='cuda:0'), grad: tensor([-2.2259e-07,  4.7684e-04,  1.0180e-04, -4.1187e-05,  1.7655e-04,
+         8.3447e-05,  2.0210e-06,  5.6326e-05,  1.1051e-04, -9.6607e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 66, time 217.24, cls_loss 0.0069 cls_loss_mapping 0.0138 cls_loss_causal 0.6458 re_mapping 0.0116 re_causal 0.0365 /// teacc 98.95 lr 0.00010000
+Epoch 68, weight, value: tensor([[-0.0709, -0.0475, -0.0456,  ..., -0.0234, -0.0272, -0.0137],
+        [-0.0106,  0.0533, -0.0477,  ...,  0.0076, -0.0066, -0.0597],
+        [ 0.0251, -0.0654, -0.0479,  ..., -0.0366,  0.0510, -0.0208],
+        ...,
+        [-0.0487, -0.0484,  0.0542,  ...,  0.0471, -0.0852,  0.0055],
+        [ 0.0353,  0.0201, -0.1177,  ..., -0.0231,  0.0725, -0.0113],
+        [-0.0539, -0.0490,  0.0334,  ...,  0.0002, -0.0402, -0.0417]],
+       device='cuda:0'), grad: tensor([[ 9.3272e-07,  3.8743e-05,  6.1989e-06,  ...,  0.0000e+00,
+         -4.5914e-07,  0.0000e+00],
+        [ 3.2000e-06, -5.3942e-05,  2.4512e-05,  ...,  0.0000e+00,
+          4.5449e-06,  0.0000e+00],
+        [ 5.0254e-06,  3.5703e-05,  1.2487e-05,  ...,  0.0000e+00,
+          8.0839e-06,  0.0000e+00],
+        ...,
+        [ 1.3346e-06,  4.7207e-05, -5.3704e-05,  ...,  0.0000e+00,
+          1.5656e-06,  0.0000e+00],
+        [-4.1783e-05,  1.2629e-05,  4.0114e-05,  ...,  0.0000e+00,
+         -4.6790e-05,  0.0000e+00],
+        [ 2.7977e-06, -9.5785e-05, -7.6294e-04,  ...,  0.0000e+00,
+          4.9882e-06,  0.0000e+00]], device='cuda:0')
+Epoch 68, bias, value: tensor([-0.0064,  0.0192, -0.0155,  0.0122,  0.0254, -0.0183, -0.0273, -0.0184,
+        -0.0190, -0.0249], device='cuda:0'), grad: tensor([-3.9697e-04,  5.9344e-06,  1.3769e-04, -4.8709e-04,  1.2646e-03,
+         7.5006e-04,  2.4259e-04, -2.6554e-05,  1.0717e-04, -1.5974e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 67, time 217.10, cls_loss 0.0094 cls_loss_mapping 0.0154 cls_loss_causal 0.6116 re_mapping 0.0122 re_causal 0.0338 /// teacc 98.85 lr 0.00010000
+Epoch 69, weight, value: tensor([[-7.2334e-02, -4.8451e-02, -4.5197e-02,  ..., -2.2278e-02,
+         -2.6256e-02, -1.3744e-02],
+        [-1.1065e-02,  5.3851e-02, -4.7050e-02,  ...,  7.6305e-03,
+         -7.0474e-03, -5.9702e-02],
+        [ 2.5408e-02, -6.5839e-02, -4.8469e-02,  ..., -3.6626e-02,
+          5.1362e-02, -2.0723e-02],
+        ...,
+        [-4.9505e-02, -4.8887e-02,  5.4603e-02,  ...,  4.7106e-02,
+         -8.5734e-02,  5.4447e-03],
+        [ 3.6260e-02,  1.9936e-02, -1.1846e-01,  ..., -2.3340e-02,
+          7.3071e-02, -1.1257e-02],
+        [-5.4607e-02, -4.9695e-02,  3.2880e-02,  ...,  4.4850e-05,
+         -4.0958e-02, -4.1662e-02]], device='cuda:0'), grad: tensor([[ 4.9546e-06,  1.8561e-06,  1.6820e-06,  ..., -4.3097e-07,
+          1.3821e-05,  0.0000e+00],
+        [ 4.9584e-06, -2.7001e-05,  2.3529e-05,  ...,  1.7043e-06,
+          2.0295e-05,  0.0000e+00],
+        [-5.6893e-05,  1.4789e-05,  3.2723e-05,  ..., -1.1437e-05,
+         -2.2471e-04,  0.0000e+00],
+        ...,
+        [ 6.7912e-06,  1.2234e-05,  1.0803e-05,  ..., -6.3777e-06,
+          2.2605e-05,  0.0000e+00],
+        [ 9.1717e-06,  3.0324e-06,  1.4491e-05,  ...,  1.6028e-06,
+          2.3171e-05,  0.0000e+00],
+        [ 5.0738e-06,  1.3411e-06, -1.4019e-04,  ...,  4.5523e-06,
+          5.8413e-06,  0.0000e+00]], device='cuda:0')
+Epoch 69, bias, value: tensor([-0.0058,  0.0193, -0.0160,  0.0121,  0.0261, -0.0189, -0.0279, -0.0180,
+        -0.0182, -0.0258], device='cuda:0'), grad: tensor([ 1.7941e-05,  4.0114e-05, -3.8648e-04,  2.4939e-04,  7.0632e-05,
+         2.3305e-05,  3.3826e-05,  5.2720e-05,  8.2254e-05, -1.8334e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 68, time 217.44, cls_loss 0.0083 cls_loss_mapping 0.0158 cls_loss_causal 0.6460 re_mapping 0.0118 re_causal 0.0334 /// teacc 98.71 lr 0.00010000
+Epoch 70, weight, value: tensor([[-0.0742, -0.0491, -0.0457,  ..., -0.0210, -0.0266, -0.0137],
+        [-0.0116,  0.0550, -0.0463,  ...,  0.0086, -0.0070, -0.0597],
+        [ 0.0252, -0.0663, -0.0494,  ..., -0.0377,  0.0515, -0.0207],
+        ...,
+        [-0.0501, -0.0506,  0.0552,  ...,  0.0471, -0.0863,  0.0054],
+        [ 0.0361,  0.0197, -0.1193,  ..., -0.0238,  0.0737, -0.0113],
+        [-0.0550, -0.0496,  0.0334,  ..., -0.0003, -0.0417, -0.0417]],
+       device='cuda:0'), grad: tensor([[-1.5991e-06, -5.0738e-06,  4.5002e-06,  ...,  0.0000e+00,
+          4.7423e-06,  0.0000e+00],
+        [ 4.4480e-06,  1.0622e-04,  3.0208e-04,  ...,  0.0000e+00,
+          3.8594e-06,  0.0000e+00],
+        [ 1.1057e-05,  8.0988e-06,  8.5831e-06,  ...,  0.0000e+00,
+          1.4797e-05,  0.0000e+00],
+        ...,
+        [ 6.6273e-06, -2.8300e-04, -7.2384e-04,  ...,  0.0000e+00,
+          8.7023e-06,  0.0000e+00],
+        [ 5.5015e-05,  1.1206e-05,  5.0664e-06,  ...,  0.0000e+00,
+          2.0653e-05,  0.0000e+00],
+        [ 3.0220e-05,  1.4687e-04,  3.5357e-04,  ...,  0.0000e+00,
+          1.9804e-05,  0.0000e+00]], device='cuda:0')
+Epoch 70, bias, value: tensor([-0.0067,  0.0201, -0.0166,  0.0119,  0.0255, -0.0189, -0.0270, -0.0181,
+        -0.0185, -0.0248], device='cuda:0'), grad: tensor([-7.2181e-05,  7.2193e-04,  9.4593e-05, -5.8174e-05,  1.2660e-04,
+        -5.5647e-04,  3.4571e-04, -1.6851e-03,  1.3638e-04,  9.4557e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 69, time 216.98, cls_loss 0.0065 cls_loss_mapping 0.0142 cls_loss_causal 0.6340 re_mapping 0.0115 re_causal 0.0338 /// teacc 98.89 lr 0.00010000
+Epoch 71, weight, value: tensor([[-0.0750, -0.0495, -0.0461,  ..., -0.0211, -0.0269, -0.0137],
+        [-0.0125,  0.0558, -0.0466,  ...,  0.0092, -0.0070, -0.0597],
+        [ 0.0253, -0.0671, -0.0498,  ..., -0.0380,  0.0519, -0.0207],
+        ...,
+        [-0.0508, -0.0511,  0.0561,  ...,  0.0469, -0.0870,  0.0054],
+        [ 0.0366,  0.0202, -0.1200,  ..., -0.0240,  0.0742, -0.0113],
+        [-0.0555, -0.0497,  0.0331,  ..., -0.0004, -0.0424, -0.0417]],
+       device='cuda:0'), grad: tensor([[ 8.4266e-06,  2.5686e-06,  2.6170e-06,  ...,  7.1712e-08,
+          3.9749e-06,  0.0000e+00],
+        [ 8.9929e-06, -1.5631e-05,  1.0535e-05,  ...,  6.8080e-07,
+          1.0327e-05,  0.0000e+00],
+        [-4.5538e-05,  3.3379e-06,  5.1968e-06,  ...,  3.3225e-07,
+         -6.3241e-05,  0.0000e+00],
+        ...,
+        [ 2.5511e-05,  6.5863e-06, -4.3988e-05,  ..., -4.5896e-06,
+          3.2753e-05,  0.0000e+00],
+        [-3.7849e-05, -1.6928e-05,  6.0648e-06,  ...,  4.9593e-08,
+         -4.1664e-05,  0.0000e+00],
+        [-5.3905e-06,  6.6832e-06,  4.8988e-07,  ...,  1.7518e-06,
+          2.9951e-06,  0.0000e+00]], device='cuda:0')
+Epoch 71, bias, value: tensor([-0.0065,  0.0204, -0.0169,  0.0119,  0.0252, -0.0190, -0.0271, -0.0178,
+        -0.0183, -0.0251], device='cuda:0'), grad: tensor([ 2.6137e-05,  1.8001e-05, -4.9293e-05,  9.9123e-05,  1.1183e-05,
+        -3.6303e-06,  7.0870e-05, -4.8637e-05, -5.6535e-05, -6.7294e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 70, time 216.89, cls_loss 0.0072 cls_loss_mapping 0.0148 cls_loss_causal 0.6256 re_mapping 0.0108 re_causal 0.0332 /// teacc 98.86 lr 0.00010000
+Epoch 72, weight, value: tensor([[-0.0754, -0.0498, -0.0463,  ..., -0.0211, -0.0271, -0.0137],
+        [-0.0129,  0.0562, -0.0474,  ...,  0.0094, -0.0068, -0.0598],
+        [ 0.0255, -0.0679, -0.0505,  ..., -0.0382,  0.0521, -0.0207],
+        ...,
+        [-0.0519, -0.0512,  0.0564,  ...,  0.0468, -0.0878,  0.0054],
+        [ 0.0369,  0.0201, -0.1208,  ..., -0.0241,  0.0748, -0.0113],
+        [-0.0568, -0.0501,  0.0330,  ..., -0.0004, -0.0435, -0.0417]],
+       device='cuda:0'), grad: tensor([[ 3.8259e-06,  4.8429e-06,  8.3726e-07,  ...,  0.0000e+00,
+          2.4363e-06,  0.0000e+00],
+        [-2.1264e-05, -1.1864e-03, -3.1447e-04,  ...,  0.0000e+00,
+         -7.7188e-05,  0.0000e+00],
+        [ 1.7673e-05,  8.8930e-05,  7.6070e-06,  ...,  0.0000e+00,
+          5.0783e-05,  0.0000e+00],
+        ...,
+        [ 5.2378e-06,  9.9564e-04,  2.8920e-04,  ...,  0.0000e+00,
+          7.3016e-06,  0.0000e+00],
+        [ 9.1083e-07,  1.6078e-05,  8.2254e-06,  ...,  0.0000e+00,
+         -2.0936e-05,  0.0000e+00],
+        [ 3.4925e-06,  1.9342e-05,  5.3719e-06,  ...,  0.0000e+00,
+          4.2692e-06,  0.0000e+00]], device='cuda:0')
+Epoch 72, bias, value: tensor([-0.0063,  0.0203, -0.0174,  0.0129,  0.0257, -0.0196, -0.0270, -0.0181,
+        -0.0182, -0.0254], device='cuda:0'), grad: tensor([ 1.0386e-05, -1.7519e-03,  1.3411e-04,  8.2672e-05, -2.6405e-05,
+        -1.0878e-05,  2.3931e-05,  1.4820e-03,  2.8759e-05,  3.0309e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 71, time 216.74, cls_loss 0.0060 cls_loss_mapping 0.0114 cls_loss_causal 0.6291 re_mapping 0.0108 re_causal 0.0333 /// teacc 98.90 lr 0.00010000
+Epoch 73, weight, value: tensor([[-0.0763, -0.0506, -0.0466,  ..., -0.0211, -0.0274, -0.0137],
+        [-0.0136,  0.0560, -0.0488,  ...,  0.0096, -0.0071, -0.0598],
+        [ 0.0258, -0.0681, -0.0509,  ..., -0.0382,  0.0525, -0.0207],
+        ...,
+        [-0.0525, -0.0507,  0.0572,  ...,  0.0468, -0.0884,  0.0054],
+        [ 0.0373,  0.0201, -0.1218,  ..., -0.0241,  0.0751, -0.0113],
+        [-0.0573, -0.0511,  0.0332,  ..., -0.0005, -0.0440, -0.0417]],
+       device='cuda:0'), grad: tensor([[ 6.0722e-06,  5.8375e-06,  1.5553e-06,  ...,  0.0000e+00,
+          7.6443e-06,  0.0000e+00],
+        [ 5.8934e-06, -2.5649e-06,  1.1884e-05,  ...,  0.0000e+00,
+          7.9721e-06,  0.0000e+00],
+        [ 2.6628e-05,  2.8044e-05,  8.1360e-06,  ...,  0.0000e+00,
+          3.8683e-05,  0.0000e+00],
+        ...,
+        [ 2.6897e-06, -3.3695e-06, -5.0873e-05,  ...,  0.0000e+00,
+          3.1479e-06,  0.0000e+00],
+        [-1.1671e-04, -1.1551e-04,  8.4564e-06,  ...,  0.0000e+00,
+         -2.0146e-04,  0.0000e+00],
+        [ 7.8604e-06,  1.6764e-05,  1.4201e-05,  ...,  0.0000e+00,
+          8.5533e-06,  0.0000e+00]], device='cuda:0')
+Epoch 73, bias, value: tensor([-0.0064,  0.0196, -0.0173,  0.0130,  0.0261, -0.0197, -0.0268, -0.0179,
+        -0.0183, -0.0254], device='cuda:0'), grad: tensor([-6.0469e-05,  2.9951e-05,  9.0539e-05,  2.3723e-04, -4.3035e-05,
+        -3.4273e-05,  5.4628e-05, -6.8903e-05, -2.7943e-04,  7.3493e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 72, time 217.14, cls_loss 0.0052 cls_loss_mapping 0.0111 cls_loss_causal 0.6417 re_mapping 0.0103 re_causal 0.0333 /// teacc 98.81 lr 0.00010000
+Epoch 74, weight, value: tensor([[-0.0770, -0.0509, -0.0472,  ..., -0.0209, -0.0274, -0.0137],
+        [-0.0138,  0.0567, -0.0487,  ...,  0.0097, -0.0069, -0.0598],
+        [ 0.0258, -0.0685, -0.0519,  ..., -0.0383,  0.0525, -0.0207],
+        ...,
+        [-0.0525, -0.0508,  0.0582,  ...,  0.0468, -0.0887,  0.0054],
+        [ 0.0375,  0.0202, -0.1228,  ..., -0.0242,  0.0755, -0.0113],
+        [-0.0576, -0.0511,  0.0331,  ..., -0.0005, -0.0447, -0.0417]],
+       device='cuda:0'), grad: tensor([[ 2.5313e-06,  7.2308e-06,  2.2382e-05,  ..., -4.4005e-08,
+          2.5630e-06,  0.0000e+00],
+        [ 5.4725e-06,  1.9997e-05,  4.7803e-05,  ...,  6.9849e-10,
+          9.0897e-06,  0.0000e+00],
+        [ 1.0744e-05,  4.3996e-06,  1.9997e-05,  ...,  8.6147e-09,
+          2.9519e-05,  0.0000e+00],
+        ...,
+        [ 2.7135e-05,  3.9756e-05,  5.0259e-04,  ...,  1.6298e-09,
+          6.8069e-05,  0.0000e+00],
+        [-6.0588e-05,  5.4277e-06,  2.7493e-05,  ...,  3.9581e-09,
+         -7.0572e-05,  0.0000e+00],
+        [ 1.0207e-05, -2.2817e-04, -1.2331e-03,  ...,  1.1642e-08,
+          1.3687e-05,  0.0000e+00]], device='cuda:0')
+Epoch 74, bias, value: tensor([-0.0064,  0.0200, -0.0178,  0.0127,  0.0258, -0.0195, -0.0268, -0.0173,
+        -0.0184, -0.0255], device='cuda:0'), grad: tensor([ 5.1886e-05,  1.1337e-04,  9.7096e-05, -6.8188e-05,  1.2207e-03,
+         4.9502e-05,  3.0026e-05,  9.5701e-04, -5.4687e-05, -2.3956e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 73, time 216.98, cls_loss 0.0057 cls_loss_mapping 0.0102 cls_loss_causal 0.6054 re_mapping 0.0108 re_causal 0.0326 /// teacc 98.84 lr 0.00010000
+Epoch 75, weight, value: tensor([[-0.0778, -0.0516, -0.0476,  ..., -0.0210, -0.0273, -0.0137],
+        [-0.0140,  0.0567, -0.0491,  ...,  0.0098, -0.0078, -0.0598],
+        [ 0.0262, -0.0681, -0.0518,  ..., -0.0385,  0.0537, -0.0207],
+        ...,
+        [-0.0529, -0.0510,  0.0586,  ...,  0.0467, -0.0892,  0.0054],
+        [ 0.0373,  0.0201, -0.1234,  ..., -0.0243,  0.0752, -0.0113],
+        [-0.0582, -0.0524,  0.0328,  ..., -0.0005, -0.0453, -0.0417]],
+       device='cuda:0'), grad: tensor([[ 6.0052e-06, -2.6226e-05,  2.0880e-06,  ...,  1.4971e-07,
+         -2.7373e-05,  0.0000e+00],
+        [ 1.3262e-06,  4.1649e-06,  6.5863e-06,  ...,  1.6182e-07,
+          1.7174e-06,  0.0000e+00],
+        [ 6.8638e-07,  3.2727e-06,  7.5176e-06,  ...,  5.7369e-07,
+          5.7556e-07,  0.0000e+00],
+        ...,
+        [ 7.2364e-07,  6.5751e-06,  3.1926e-06,  ...,  1.4091e-06,
+          3.3416e-06,  0.0000e+00],
+        [ 6.0759e-06,  1.6708e-06,  5.0813e-06,  ...,  2.1770e-07,
+          2.1145e-05,  0.0000e+00],
+        [ 2.8778e-06,  2.2411e-05, -3.2216e-05,  ...,  2.0750e-06,
+          4.3586e-06,  0.0000e+00]], device='cuda:0')
+Epoch 75, bias, value: tensor([-0.0067,  0.0195, -0.0171,  0.0131,  0.0261, -0.0190, -0.0267, -0.0172,
+        -0.0189, -0.0263], device='cuda:0'), grad: tensor([-4.1795e-04,  2.5898e-05,  6.2227e-05, -5.2541e-05,  1.2405e-05,
+         1.5461e-04,  8.0705e-05,  1.5378e-05,  8.8573e-05,  3.0577e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 74, time 217.11, cls_loss 0.0061 cls_loss_mapping 0.0142 cls_loss_causal 0.6313 re_mapping 0.0111 re_causal 0.0332 /// teacc 98.80 lr 0.00010000
+Epoch 76, weight, value: tensor([[-0.0784, -0.0521, -0.0479,  ..., -0.0209, -0.0276, -0.0137],
+        [-0.0144,  0.0564, -0.0497,  ...,  0.0098, -0.0081, -0.0598],
+        [ 0.0266, -0.0679, -0.0518,  ..., -0.0386,  0.0548, -0.0207],
+        ...,
+        [-0.0534, -0.0506,  0.0590,  ...,  0.0467, -0.0899,  0.0054],
+        [ 0.0372,  0.0199, -0.1242,  ..., -0.0244,  0.0751, -0.0113],
+        [-0.0588, -0.0524,  0.0335,  ..., -0.0005, -0.0457, -0.0417]],
+       device='cuda:0'), grad: tensor([[ 9.1672e-05,  2.9877e-05,  7.7952e-07,  ...,  0.0000e+00,
+          2.5535e-04, -1.4994e-07],
+        [ 3.3677e-05, -1.2502e-05, -2.1197e-06,  ...,  0.0000e+00,
+          1.0043e-04,  6.9849e-10],
+        [-2.1172e-04, -1.4424e-05, -1.7267e-06,  ...,  0.0000e+00,
+         -7.3576e-04,  5.5879e-09],
+        ...,
+        [ 3.5733e-05,  1.2748e-05, -1.8343e-05,  ...,  0.0000e+00,
+          5.9158e-05,  1.6298e-09],
+        [ 1.3304e-04,  4.5657e-05,  2.9784e-06,  ...,  0.0000e+00,
+          1.6582e-04,  4.4238e-09],
+        [ 2.5734e-05,  1.2949e-05,  4.2878e-06,  ...,  0.0000e+00,
+          2.9027e-05,  1.1572e-07]], device='cuda:0')
+Epoch 76, bias, value: tensor([-0.0071,  0.0190, -0.0164,  0.0130,  0.0252, -0.0191, -0.0263, -0.0172,
+        -0.0194, -0.0253], device='cuda:0'), grad: tensor([ 3.7098e-04,  1.3959e-04, -1.0052e-03,  2.1803e-04,  2.0313e-04,
+        -1.0233e-03,  5.7125e-04,  7.5698e-05,  3.6120e-04,  8.9169e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 75, time 216.91, cls_loss 0.0054 cls_loss_mapping 0.0110 cls_loss_causal 0.6232 re_mapping 0.0102 re_causal 0.0319 /// teacc 98.76 lr 0.00010000
+Epoch 77, weight, value: tensor([[-0.0792, -0.0526, -0.0483,  ..., -0.0209, -0.0279, -0.0137],
+        [-0.0147,  0.0570, -0.0498,  ...,  0.0101, -0.0078, -0.0598],
+        [ 0.0267, -0.0685, -0.0522,  ..., -0.0388,  0.0549, -0.0207],
+        ...,
+        [-0.0538, -0.0508,  0.0585,  ...,  0.0467, -0.0903,  0.0054],
+        [ 0.0376,  0.0196, -0.1250,  ..., -0.0245,  0.0757, -0.0114],
+        [-0.0600, -0.0531,  0.0342,  ..., -0.0005, -0.0465, -0.0417]],
+       device='cuda:0'), grad: tensor([[-4.2319e-06,  1.7919e-06,  9.2573e-07,  ...,  0.0000e+00,
+          1.3653e-06,  0.0000e+00],
+        [ 4.0489e-07, -6.2823e-05,  1.0710e-07,  ...,  0.0000e+00,
+          1.7555e-06,  0.0000e+00],
+        [-3.0585e-06,  3.4928e-05,  3.0454e-06,  ...,  4.6566e-10,
+         -1.0869e-06,  0.0000e+00],
+        ...,
+        [ 6.6310e-07,  4.9286e-06, -7.5623e-06,  ...,  2.3283e-10,
+          1.6373e-06,  0.0000e+00],
+        [ 4.2357e-06,  2.4401e-06,  5.0385e-07,  ...,  4.6566e-10,
+          7.9721e-06,  0.0000e+00],
+        [ 6.1747e-07,  1.1530e-06,  2.4177e-06,  ...,  2.3283e-10,
+         -1.7345e-05,  0.0000e+00]], device='cuda:0')
+Epoch 77, bias, value: tensor([-0.0073,  0.0195, -0.0168,  0.0129,  0.0257, -0.0190, -0.0262, -0.0181,
+        -0.0194, -0.0248], device='cuda:0'), grad: tensor([-4.5329e-05, -6.8665e-05,  5.7727e-05,  3.6746e-05, -7.0572e-05,
+         1.7792e-05,  1.2422e-04, -1.7090e-06,  4.1008e-05, -9.1314e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 76, time 216.96, cls_loss 0.0051 cls_loss_mapping 0.0103 cls_loss_causal 0.6286 re_mapping 0.0103 re_causal 0.0326 /// teacc 98.97 lr 0.00010000
+Epoch 78, weight, value: tensor([[-0.0799, -0.0529, -0.0487,  ..., -0.0200, -0.0281, -0.0136],
+        [-0.0149,  0.0569, -0.0503,  ...,  0.0101, -0.0082, -0.0599],
+        [ 0.0270, -0.0684, -0.0525,  ..., -0.0389,  0.0559, -0.0209],
+        ...,
+        [-0.0543, -0.0509,  0.0591,  ...,  0.0467, -0.0911,  0.0054],
+        [ 0.0386,  0.0198, -0.1255,  ..., -0.0246,  0.0762, -0.0114],
+        [-0.0608, -0.0539,  0.0342,  ..., -0.0006, -0.0475, -0.0418]],
+       device='cuda:0'), grad: tensor([[ 3.0249e-06,  2.3395e-06,  6.3609e-07,  ...,  0.0000e+00,
+          1.1511e-06,  0.0000e+00],
+        [ 8.7405e-07, -2.5123e-05,  3.4627e-06,  ...,  0.0000e+00,
+         -2.6263e-06,  0.0000e+00],
+        [-1.4871e-05,  1.3202e-05,  2.6505e-06,  ...,  0.0000e+00,
+         -1.2314e-04,  0.0000e+00],
+        ...,
+        [ 2.2613e-06,  7.8082e-06,  1.1645e-05,  ...,  0.0000e+00,
+          4.8466e-06,  0.0000e+00],
+        [-1.2733e-05, -3.4925e-08,  1.5274e-05,  ...,  0.0000e+00,
+         -4.5151e-06,  0.0000e+00],
+        [ 3.2056e-06,  9.5293e-06, -4.2468e-05,  ...,  0.0000e+00,
+          1.8673e-06,  0.0000e+00]], device='cuda:0')
+Epoch 78, bias, value: tensor([-0.0080,  0.0190, -0.0164,  0.0123,  0.0259, -0.0185, -0.0273, -0.0177,
+        -0.0183, -0.0249], device='cuda:0'), grad: tensor([ 8.6650e-06, -3.0249e-05, -1.3447e-04,  1.3141e-06,  1.4031e-04,
+        -6.2324e-06,  8.1733e-06,  3.7074e-05,  2.1219e-05, -4.5627e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 77----------------------------------------------------
+epoch 77, time 217.93, cls_loss 0.0060 cls_loss_mapping 0.0104 cls_loss_causal 0.6013 re_mapping 0.0100 re_causal 0.0314 /// teacc 99.04 lr 0.00010000
+Epoch 79, weight, value: tensor([[-0.0805, -0.0530, -0.0489,  ..., -0.0194, -0.0281, -0.0135],
+        [-0.0150,  0.0575, -0.0504,  ...,  0.0101, -0.0083, -0.0600],
+        [ 0.0275, -0.0687, -0.0523,  ..., -0.0388,  0.0568, -0.0209],
+        ...,
+        [-0.0546, -0.0513,  0.0594,  ...,  0.0466, -0.0915,  0.0054],
+        [ 0.0380,  0.0192, -0.1261,  ..., -0.0248,  0.0763, -0.0114],
+        [-0.0618, -0.0544,  0.0342,  ..., -0.0007, -0.0490, -0.0419]],
+       device='cuda:0'), grad: tensor([[-9.3430e-06,  1.9800e-06,  7.9395e-07,  ...,  0.0000e+00,
+         -2.3440e-05,  0.0000e+00],
+        [ 1.3430e-06, -1.1069e-04,  3.1218e-06,  ...,  0.0000e+00,
+          3.3099e-06,  0.0000e+00],
+        [-5.3763e-05,  3.5763e-06,  6.8173e-06,  ...,  0.0000e+00,
+         -1.4782e-04,  0.0000e+00],
+        ...,
+        [ 5.6215e-06,  8.7917e-06, -1.4082e-05,  ...,  0.0000e+00,
+          1.4961e-05,  0.0000e+00],
+        [ 2.1756e-05,  2.1428e-05,  6.4149e-06,  ...,  0.0000e+00,
+          5.3465e-05,  0.0000e+00],
+        [ 2.0936e-06,  3.7402e-06, -9.4593e-05,  ...,  0.0000e+00,
+          5.4576e-06,  0.0000e+00]], device='cuda:0')
+Epoch 79, bias, value: tensor([-0.0086,  0.0192, -0.0161,  0.0118,  0.0254, -0.0184, -0.0264, -0.0175,
+        -0.0189, -0.0245], device='cuda:0'), grad: tensor([-1.7178e-04, -1.4663e-04, -2.6584e-04,  1.6153e-04,  2.5153e-04,
+         2.3961e-05,  4.4852e-05,  2.8640e-05,  2.1386e-04, -1.4031e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 78, time 216.88, cls_loss 0.0050 cls_loss_mapping 0.0119 cls_loss_causal 0.6045 re_mapping 0.0103 re_causal 0.0311 /// teacc 98.85 lr 0.00010000
+Epoch 80, weight, value: tensor([[-0.0807, -0.0528, -0.0478,  ..., -0.0191, -0.0271, -0.0134],
+        [-0.0152,  0.0585, -0.0507,  ...,  0.0101, -0.0080, -0.0602],
+        [ 0.0278, -0.0693, -0.0533,  ..., -0.0387,  0.0574, -0.0212],
+        ...,
+        [-0.0556, -0.0516,  0.0605,  ...,  0.0466, -0.0922,  0.0054],
+        [ 0.0384,  0.0190, -0.1267,  ..., -0.0251,  0.0766, -0.0114],
+        [-0.0627, -0.0550,  0.0343,  ..., -0.0007, -0.0504, -0.0420]],
+       device='cuda:0'), grad: tensor([[ 3.0324e-05,  2.1324e-05,  1.1995e-05,  ...,  2.8638e-08,
+          1.9222e-06,  0.0000e+00],
+        [ 1.4594e-06,  3.0939e-06,  5.8003e-06,  ...,  4.4238e-08,
+          3.0011e-05,  0.0000e+00],
+        [-2.0564e-05, -2.0023e-07,  2.0992e-06,  ...,  2.6519e-07,
+         -6.8307e-05,  0.0000e+00],
+        ...,
+        [ 1.3197e-06,  8.8662e-06,  2.3991e-06,  ...,  1.5600e-07,
+          6.4671e-06,  0.0000e+00],
+        [ 1.8910e-05,  1.2174e-05,  9.1791e-06,  ...,  9.1502e-08,
+          2.5168e-05,  0.0000e+00],
+        [ 9.2806e-07,  1.6761e-04,  1.1003e-04,  ...,  5.6112e-08,
+          1.3029e-06,  0.0000e+00]], device='cuda:0')
+Epoch 80, bias, value: tensor([-0.0075,  0.0197, -0.0162,  0.0117,  0.0243, -0.0188, -0.0268, -0.0168,
+        -0.0189, -0.0248], device='cuda:0'), grad: tensor([ 5.1677e-05,  8.0109e-05, -9.7752e-05,  3.1181e-06, -4.3964e-04,
+         1.7390e-05, -1.7202e-04,  3.0845e-05,  7.6830e-05,  4.4870e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 79, time 217.00, cls_loss 0.0045 cls_loss_mapping 0.0095 cls_loss_causal 0.6149 re_mapping 0.0104 re_causal 0.0320 /// teacc 98.86 lr 0.00010000
+Epoch 81, weight, value: tensor([[-0.0812, -0.0531, -0.0479,  ..., -0.0190, -0.0272, -0.0133],
+        [-0.0155,  0.0592, -0.0508,  ...,  0.0103, -0.0079, -0.0602],
+        [ 0.0278, -0.0699, -0.0541,  ..., -0.0389,  0.0575, -0.0212],
+        ...,
+        [-0.0564, -0.0523,  0.0608,  ...,  0.0466, -0.0928,  0.0054],
+        [ 0.0386,  0.0189, -0.1275,  ..., -0.0252,  0.0769, -0.0116],
+        [-0.0631, -0.0553,  0.0335,  ..., -0.0008, -0.0509, -0.0420]],
+       device='cuda:0'), grad: tensor([[ 2.9653e-06,  8.1062e-06,  1.4212e-06,  ...,  0.0000e+00,
+          1.8496e-06,  0.0000e+00],
+        [ 1.5236e-06, -3.9697e-05,  1.0759e-05,  ...,  0.0000e+00,
+         -2.4140e-06,  0.0000e+00],
+        [ 2.2873e-06,  2.1830e-06,  1.0423e-05,  ...,  0.0000e+00,
+          2.2184e-06,  0.0000e+00],
+        ...,
+        [ 2.4978e-06,  5.5619e-06, -1.7643e-05,  ...,  0.0000e+00,
+          3.3751e-06,  0.0000e+00],
+        [-1.8939e-05,  1.4789e-05,  2.6710e-06,  ...,  0.0000e+00,
+         -1.9476e-05,  0.0000e+00],
+        [ 3.3751e-06,  1.6367e-04,  2.2507e-04,  ...,  0.0000e+00,
+          4.4107e-06,  0.0000e+00]], device='cuda:0')
+Epoch 81, bias, value: tensor([-0.0071,  0.0202, -0.0167,  0.0119,  0.0258, -0.0190, -0.0265, -0.0171,
+        -0.0191, -0.0258], device='cuda:0'), grad: tensor([ 1.5378e-05, -2.5362e-05,  3.2097e-05,  1.9252e-05, -5.0926e-04,
+         1.3828e-05,  9.1642e-06, -2.8372e-05, -2.1487e-05,  4.9496e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 80, time 216.87, cls_loss 0.0058 cls_loss_mapping 0.0106 cls_loss_causal 0.6173 re_mapping 0.0100 re_causal 0.0291 /// teacc 98.85 lr 0.00010000
+Epoch 82, weight, value: tensor([[-0.0824, -0.0535, -0.0478,  ..., -0.0189, -0.0276, -0.0133],
+        [-0.0160,  0.0603, -0.0516,  ...,  0.0103, -0.0070, -0.0603],
+        [ 0.0291, -0.0708, -0.0538,  ..., -0.0389,  0.0581, -0.0212],
+        ...,
+        [-0.0572, -0.0527,  0.0614,  ...,  0.0466, -0.0934,  0.0054],
+        [ 0.0380,  0.0188, -0.1285,  ..., -0.0253,  0.0769, -0.0117],
+        [-0.0639, -0.0562,  0.0331,  ..., -0.0008, -0.0516, -0.0420]],
+       device='cuda:0'), grad: tensor([[ 7.0743e-06, -1.7658e-05, -3.4118e-04,  ..., -7.2410e-08,
+         -1.6165e-04,  0.0000e+00],
+        [ 7.1675e-06, -5.1439e-05,  2.0891e-05,  ...,  1.3970e-09,
+          2.9534e-05,  0.0000e+00],
+        [-1.0990e-05,  2.1204e-05,  7.0706e-06,  ...,  4.1910e-09,
+         -1.1688e-04,  0.0000e+00],
+        ...,
+        [ 1.3188e-05,  2.7746e-05,  2.1294e-05,  ...,  2.0955e-09,
+          7.2300e-05,  0.0000e+00],
+        [ 2.0519e-05,  1.2495e-05,  2.2307e-05,  ...,  4.8894e-09,
+          1.2420e-05,  0.0000e+00],
+        [ 8.2105e-06,  3.4180e-06,  3.6985e-05,  ...,  2.7474e-08,
+          1.8746e-05,  0.0000e+00]], device='cuda:0')
+Epoch 82, bias, value: tensor([-0.0069,  0.0211, -0.0169,  0.0117,  0.0263, -0.0187, -0.0269, -0.0170,
+        -0.0199, -0.0264], device='cuda:0'), grad: tensor([-9.0361e-04,  9.0674e-06, -6.9201e-05,  6.3956e-05,  4.5085e-04,
+        -3.0205e-05,  7.0632e-05,  1.7738e-04,  1.0812e-04,  1.2255e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 81, time 217.06, cls_loss 0.0045 cls_loss_mapping 0.0098 cls_loss_causal 0.5931 re_mapping 0.0104 re_causal 0.0326 /// teacc 98.98 lr 0.00010000
+Epoch 83, weight, value: tensor([[-0.0834, -0.0540, -0.0477,  ..., -0.0189, -0.0278, -0.0133],
+        [-0.0165,  0.0604, -0.0520,  ...,  0.0103, -0.0077, -0.0603],
+        [ 0.0294, -0.0708, -0.0541,  ..., -0.0389,  0.0587, -0.0212],
+        ...,
+        [-0.0590, -0.0528,  0.0617,  ...,  0.0466, -0.0951,  0.0054],
+        [ 0.0381,  0.0186, -0.1289,  ..., -0.0254,  0.0780, -0.0117],
+        [-0.0640, -0.0563,  0.0329,  ..., -0.0008, -0.0520, -0.0420]],
+       device='cuda:0'), grad: tensor([[ 1.6183e-05,  1.0012e-07,  3.8296e-06,  ...,  0.0000e+00,
+          1.8165e-05,  0.0000e+00],
+        [ 8.0168e-06, -5.8003e-06,  2.4121e-06,  ...,  0.0000e+00,
+          8.4415e-06,  0.0000e+00],
+        [-3.2401e-04,  3.8184e-06, -7.4685e-05,  ...,  0.0000e+00,
+         -4.0293e-04,  0.0000e+00],
+        ...,
+        [ 9.4920e-06,  1.7537e-06, -7.7160e-07,  ...,  0.0000e+00,
+          1.0617e-05,  0.0000e+00],
+        [ 3.1680e-05,  5.2415e-06,  8.4266e-06,  ...,  0.0000e+00,
+          2.2978e-05,  0.0000e+00],
+        [-5.4501e-06,  1.2526e-06, -7.7039e-06,  ...,  0.0000e+00,
+          4.6752e-06,  0.0000e+00]], device='cuda:0')
+Epoch 83, bias, value: tensor([-0.0071,  0.0207, -0.0166,  0.0118,  0.0265, -0.0182, -0.0271, -0.0173,
+        -0.0202, -0.0262], device='cuda:0'), grad: tensor([ 1.7747e-05,  1.5914e-05, -8.3303e-04,  6.8569e-04,  1.5944e-05,
+         3.4064e-05, -1.3700e-06,  2.2471e-05,  8.1837e-05, -3.9726e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 82, time 216.99, cls_loss 0.0057 cls_loss_mapping 0.0113 cls_loss_causal 0.5912 re_mapping 0.0100 re_causal 0.0294 /// teacc 98.79 lr 0.00010000
+Epoch 84, weight, value: tensor([[-0.0852, -0.0549, -0.0481,  ..., -0.0188, -0.0289, -0.0128],
+        [-0.0176,  0.0605, -0.0523,  ...,  0.0105, -0.0084, -0.0608],
+        [ 0.0300, -0.0709, -0.0540,  ..., -0.0391,  0.0594, -0.0214],
+        ...,
+        [-0.0614, -0.0531,  0.0620,  ...,  0.0466, -0.0971,  0.0054],
+        [ 0.0389,  0.0188, -0.1279,  ..., -0.0254,  0.0801, -0.0119],
+        [-0.0647, -0.0564,  0.0334,  ..., -0.0008, -0.0528, -0.0424]],
+       device='cuda:0'), grad: tensor([[ 1.3206e-06,  1.0908e-05,  4.5486e-06,  ...,  0.0000e+00,
+          3.6564e-06, -5.5879e-09],
+        [ 4.3437e-06,  3.4511e-05,  1.4700e-05,  ...,  0.0000e+00,
+          1.2793e-05,  0.0000e+00],
+        [ 6.3796e-07,  5.4628e-05,  9.6262e-06,  ...,  0.0000e+00,
+          8.7693e-06,  2.3283e-10],
+        ...,
+        [ 2.8517e-06,  7.3612e-06,  1.2912e-05,  ...,  0.0000e+00,
+          6.1020e-06,  0.0000e+00],
+        [ 1.5631e-05,  2.7895e-05,  4.9323e-05,  ...,  0.0000e+00,
+          3.2395e-05,  2.3283e-10],
+        [-6.5804e-05, -9.7692e-05, -3.6836e-04,  ...,  0.0000e+00,
+         -1.3733e-04,  4.6566e-09]], device='cuda:0')
+Epoch 84, bias, value: tensor([-0.0068,  0.0204, -0.0160,  0.0119,  0.0254, -0.0191, -0.0265, -0.0181,
+        -0.0188, -0.0258], device='cuda:0'), grad: tensor([ 2.0400e-05,  1.0520e-04,  1.2040e-04,  2.0728e-05,  1.6260e-04,
+         1.5020e-05,  3.1090e-04,  4.1634e-05,  1.8740e-04, -9.8515e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 83, time 216.94, cls_loss 0.0061 cls_loss_mapping 0.0122 cls_loss_causal 0.5688 re_mapping 0.0099 re_causal 0.0300 /// teacc 98.85 lr 0.00010000
+Epoch 85, weight, value: tensor([[-0.0862, -0.0555, -0.0484,  ..., -0.0188, -0.0293, -0.0128],
+        [-0.0199,  0.0597, -0.0519,  ...,  0.0105, -0.0095, -0.0608],
+        [ 0.0297, -0.0710, -0.0551,  ..., -0.0392,  0.0595, -0.0214],
+        ...,
+        [-0.0618, -0.0541,  0.0625,  ...,  0.0467, -0.0976,  0.0054],
+        [ 0.0387,  0.0188, -0.1289,  ..., -0.0256,  0.0796, -0.0120],
+        [-0.0658, -0.0565,  0.0336,  ..., -0.0008, -0.0538, -0.0424]],
+       device='cuda:0'), grad: tensor([[ 9.6858e-06,  4.9248e-06,  6.3330e-07,  ...,  0.0000e+00,
+          1.6481e-05,  0.0000e+00],
+        [ 1.6332e-05,  1.2957e-05,  4.0345e-06,  ...,  0.0000e+00,
+          3.0816e-05,  0.0000e+00],
+        [ 1.8515e-06,  1.2502e-05,  1.2703e-05,  ...,  0.0000e+00,
+          2.6956e-05,  0.0000e+00],
+        ...,
+        [ 1.8058e-06,  3.9227e-06, -9.2462e-06,  ...,  0.0000e+00,
+          3.0156e-06,  0.0000e+00],
+        [ 1.1191e-05, -3.5465e-05,  1.2312e-06,  ...,  0.0000e+00,
+          4.6909e-05,  0.0000e+00],
+        [ 5.6438e-06,  1.7330e-05,  1.2383e-05,  ...,  0.0000e+00,
+          1.5587e-05,  0.0000e+00]], device='cuda:0')
+Epoch 85, bias, value: tensor([-0.0067,  0.0194, -0.0165,  0.0127,  0.0251, -0.0184, -0.0258, -0.0179,
+        -0.0193, -0.0257], device='cuda:0'), grad: tensor([ 2.9191e-05,  5.3406e-05,  8.4162e-05, -2.4128e-04, -6.9976e-05,
+         5.3551e-07,  2.3991e-05, -1.1265e-05,  7.9632e-05,  5.1528e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 84, time 216.92, cls_loss 0.0050 cls_loss_mapping 0.0101 cls_loss_causal 0.6091 re_mapping 0.0099 re_causal 0.0305 /// teacc 98.90 lr 0.00010000
+Epoch 86, weight, value: tensor([[-0.0884, -0.0560, -0.0483,  ..., -0.0189, -0.0294, -0.0128],
+        [-0.0203,  0.0600, -0.0522,  ...,  0.0113, -0.0098, -0.0609],
+        [ 0.0298, -0.0714, -0.0557,  ..., -0.0393,  0.0597, -0.0214],
+        ...,
+        [-0.0627, -0.0543,  0.0630,  ...,  0.0466, -0.0985,  0.0054],
+        [ 0.0386,  0.0186, -0.1294,  ..., -0.0257,  0.0800, -0.0120],
+        [-0.0669, -0.0573,  0.0337,  ..., -0.0009, -0.0543, -0.0424]],
+       device='cuda:0'), grad: tensor([[ 7.1488e-06,  4.4703e-06,  8.0280e-07,  ...,  0.0000e+00,
+          3.3937e-06,  0.0000e+00],
+        [ 5.8651e-05, -4.4227e-05,  3.9227e-06,  ...,  0.0000e+00,
+         -1.3955e-05,  0.0000e+00],
+        [-3.8855e-06,  5.3912e-05,  1.1623e-06,  ...,  0.0000e+00,
+          2.1368e-05,  0.0000e+00],
+        ...,
+        [ 7.4506e-06,  1.9938e-05, -1.3769e-05,  ...,  0.0000e+00,
+          1.0721e-05,  0.0000e+00],
+        [-5.9319e-04, -3.5334e-04,  3.6024e-06,  ...,  0.0000e+00,
+         -2.4867e-04,  0.0000e+00],
+        [ 9.5144e-06,  1.0967e-05,  5.2806e-07,  ...,  0.0000e+00,
+          6.3740e-06,  0.0000e+00]], device='cuda:0')
+Epoch 86, bias, value: tensor([-0.0074,  0.0192, -0.0168,  0.0119,  0.0251, -0.0182, -0.0240, -0.0178,
+        -0.0194, -0.0258], device='cuda:0'), grad: tensor([-1.3590e-04, -4.0084e-05,  9.0539e-05,  3.1382e-05,  2.1160e-06,
+        -3.0808e-06,  9.0122e-04,  1.0721e-05, -8.8882e-04,  3.1769e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 85, time 217.05, cls_loss 0.0052 cls_loss_mapping 0.0106 cls_loss_causal 0.5962 re_mapping 0.0099 re_causal 0.0287 /// teacc 98.76 lr 0.00010000
+Epoch 87, weight, value: tensor([[-0.0891, -0.0561, -0.0483,  ..., -0.0188, -0.0292, -0.0128],
+        [-0.0206,  0.0601, -0.0524,  ...,  0.0116, -0.0101, -0.0609],
+        [ 0.0302, -0.0710, -0.0563,  ..., -0.0395,  0.0604, -0.0214],
+        ...,
+        [-0.0633, -0.0545,  0.0637,  ...,  0.0466, -0.0991,  0.0054],
+        [ 0.0385,  0.0178, -0.1302,  ..., -0.0261,  0.0801, -0.0120],
+        [-0.0677, -0.0580,  0.0336,  ..., -0.0010, -0.0548, -0.0424]],
+       device='cuda:0'), grad: tensor([[ 4.1798e-06,  9.7826e-06,  2.1644e-06,  ...,  0.0000e+00,
+          4.9248e-06,  0.0000e+00],
+        [ 1.6928e-05, -9.7215e-05, -6.6124e-07,  ...,  0.0000e+00,
+          8.5831e-06,  0.0000e+00],
+        [-2.3991e-05,  5.6118e-05,  4.6343e-05,  ...,  4.6566e-10,
+         -7.1585e-05,  0.0000e+00],
+        ...,
+        [ 2.6077e-06,  2.0117e-05, -1.0991e-04,  ...,  0.0000e+00,
+         -7.2420e-05,  0.0000e+00],
+        [-3.9190e-05, -2.0355e-05,  9.7603e-06,  ...,  0.0000e+00,
+         -2.1920e-05,  0.0000e+00],
+        [ 8.7023e-06,  4.2766e-06,  7.0147e-06,  ...,  0.0000e+00,
+          1.0230e-05,  0.0000e+00]], device='cuda:0')
+Epoch 87, bias, value: tensor([-0.0070,  0.0189, -0.0161,  0.0122,  0.0251, -0.0182, -0.0246, -0.0175,
+        -0.0200, -0.0260], device='cuda:0'), grad: tensor([-5.4017e-06, -1.3459e-04,  1.0931e-04,  3.3522e-04,  3.5405e-05,
+        -3.8296e-06,  9.4995e-06, -4.0865e-04, -1.4737e-05,  7.8619e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 86, time 217.03, cls_loss 0.0045 cls_loss_mapping 0.0088 cls_loss_causal 0.6042 re_mapping 0.0097 re_causal 0.0292 /// teacc 98.89 lr 0.00010000
+Epoch 88, weight, value: tensor([[-0.0897, -0.0572, -0.0490,  ..., -0.0188, -0.0295, -0.0128],
+        [-0.0210,  0.0610, -0.0526,  ...,  0.0109, -0.0099, -0.0609],
+        [ 0.0306, -0.0715, -0.0570,  ..., -0.0408,  0.0609, -0.0214],
+        ...,
+        [-0.0639, -0.0546,  0.0644,  ...,  0.0480, -0.0997,  0.0054],
+        [ 0.0387,  0.0176, -0.1307,  ..., -0.0264,  0.0802, -0.0120],
+        [-0.0686, -0.0589,  0.0335,  ..., -0.0010, -0.0558, -0.0424]],
+       device='cuda:0'), grad: tensor([[ 2.8498e-06,  6.4932e-06,  3.2224e-07,  ...,  0.0000e+00,
+          2.3376e-06,  0.0000e+00],
+        [ 1.6719e-05,  2.5295e-06,  1.7975e-06,  ...,  0.0000e+00,
+          2.0817e-05,  0.0000e+00],
+        [ 1.3575e-05,  1.1146e-05,  1.2359e-06,  ...,  0.0000e+00,
+          1.3039e-05,  0.0000e+00],
+        ...,
+        [ 1.4581e-05,  6.5826e-06,  1.8170e-06,  ...,  0.0000e+00,
+          2.0355e-05,  0.0000e+00],
+        [-3.2097e-05, -2.8357e-05,  1.2871e-06,  ...,  0.0000e+00,
+         -2.3872e-05,  0.0000e+00],
+        [ 2.1737e-06,  9.0897e-06,  1.7760e-06,  ...,  0.0000e+00,
+          3.3602e-06,  0.0000e+00]], device='cuda:0')
+Epoch 88, bias, value: tensor([-0.0076,  0.0194, -0.0162,  0.0113,  0.0249, -0.0173, -0.0249, -0.0171,
+        -0.0203, -0.0259], device='cuda:0'), grad: tensor([ 1.2517e-05,  4.1276e-05,  4.4376e-05, -3.7122e-04, -3.7283e-05,
+         2.1195e-04,  3.6985e-05,  5.6803e-05, -1.0781e-05,  1.5706e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 87, time 217.16, cls_loss 0.0044 cls_loss_mapping 0.0083 cls_loss_causal 0.5952 re_mapping 0.0094 re_causal 0.0283 /// teacc 98.95 lr 0.00010000
+Epoch 89, weight, value: tensor([[-0.0902, -0.0565, -0.0492,  ..., -0.0191, -0.0290, -0.0126],
+        [-0.0213,  0.0611, -0.0531,  ...,  0.0110, -0.0101, -0.0610],
+        [ 0.0310, -0.0720, -0.0574,  ..., -0.0411,  0.0614, -0.0215],
+        ...,
+        [-0.0645, -0.0546,  0.0647,  ...,  0.0481, -0.1004,  0.0053],
+        [ 0.0391,  0.0180, -0.1311,  ..., -0.0265,  0.0805, -0.0120],
+        [-0.0695, -0.0594,  0.0340,  ..., -0.0011, -0.0566, -0.0425]],
+       device='cuda:0'), grad: tensor([[ 5.1148e-06,  6.8992e-06,  5.1595e-06,  ..., -2.2352e-08,
+          6.2445e-07,  0.0000e+00],
+        [ 7.9349e-07, -1.4830e-04, -1.5247e-04,  ...,  1.3039e-08,
+         -1.4633e-05,  0.0000e+00],
+        [ 2.4810e-06,  1.7464e-05,  1.4573e-05,  ...,  2.4680e-08,
+         -2.6729e-07,  0.0000e+00],
+        ...,
+        [ 1.3178e-06,  1.1790e-04,  1.2839e-04,  ...,  9.1735e-08,
+          1.2621e-05,  0.0000e+00],
+        [ 5.1633e-06,  5.4836e-06,  4.9807e-06,  ...,  2.9802e-08,
+          1.1362e-07,  0.0000e+00],
+        [ 2.6412e-06,  1.0186e-04,  1.1861e-04,  ...,  9.4995e-08,
+          2.6058e-06,  0.0000e+00]], device='cuda:0')
+Epoch 89, bias, value: tensor([-0.0069,  0.0191, -0.0163,  0.0114,  0.0251, -0.0174, -0.0254, -0.0172,
+        -0.0201, -0.0257], device='cuda:0'), grad: tensor([-4.1761e-06, -5.0735e-04,  6.0409e-05,  4.2655e-06, -3.4118e-04,
+        -1.1370e-05,  1.3232e-05,  4.2343e-04,  2.6494e-05,  3.3617e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 88, time 216.85, cls_loss 0.0047 cls_loss_mapping 0.0094 cls_loss_causal 0.5914 re_mapping 0.0098 re_causal 0.0290 /// teacc 98.99 lr 0.00010000
+Epoch 90, weight, value: tensor([[-0.0909, -0.0576, -0.0496,  ..., -0.0191, -0.0293, -0.0126],
+        [-0.0221,  0.0608, -0.0538,  ...,  0.0111, -0.0109, -0.0610],
+        [ 0.0314, -0.0718, -0.0577,  ..., -0.0411,  0.0620, -0.0215],
+        ...,
+        [-0.0648, -0.0545,  0.0648,  ...,  0.0481, -0.1006,  0.0053],
+        [ 0.0394,  0.0181, -0.1317,  ..., -0.0265,  0.0810, -0.0120],
+        [-0.0706, -0.0603,  0.0335,  ..., -0.0011, -0.0571, -0.0425]],
+       device='cuda:0'), grad: tensor([[ 5.9940e-06, -1.3271e-07,  2.6450e-06,  ...,  0.0000e+00,
+          6.5491e-06,  0.0000e+00],
+        [ 3.2280e-06, -1.1902e-06,  4.1053e-06,  ...,  0.0000e+00,
+          5.1595e-06,  0.0000e+00],
+        [-7.4431e-06,  2.7083e-06,  3.6824e-06,  ...,  0.0000e+00,
+         -1.4298e-05,  0.0000e+00],
+        ...,
+        [ 6.0489e-07,  2.2240e-06, -1.7211e-05,  ...,  0.0000e+00,
+          6.9216e-06,  0.0000e+00],
+        [ 1.3284e-05,  8.1435e-06,  6.5453e-06,  ...,  0.0000e+00,
+          1.5408e-05,  0.0000e+00],
+        [ 3.2876e-06,  4.3482e-05,  9.4175e-04,  ...,  0.0000e+00,
+          1.9938e-05,  0.0000e+00]], device='cuda:0')
+Epoch 90, bias, value: tensor([-0.0070,  0.0183, -0.0159,  0.0124,  0.0255, -0.0167, -0.0255, -0.0179,
+        -0.0200, -0.0264], device='cuda:0'), grad: tensor([-3.4153e-05,  2.6420e-05,  4.0382e-06, -4.4403e-03, -2.8267e-03,
+         4.3831e-03,  1.7315e-05, -3.3081e-05,  8.7917e-05,  2.8152e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 89, time 216.98, cls_loss 0.0039 cls_loss_mapping 0.0083 cls_loss_causal 0.5913 re_mapping 0.0090 re_causal 0.0292 /// teacc 98.89 lr 0.00010000
+Epoch 91, weight, value: tensor([[-0.0918, -0.0584, -0.0498,  ..., -0.0191, -0.0295, -0.0126],
+        [-0.0229,  0.0606, -0.0545,  ...,  0.0115, -0.0108, -0.0610],
+        [ 0.0321, -0.0724, -0.0582,  ..., -0.0417,  0.0623, -0.0215],
+        ...,
+        [-0.0660, -0.0539,  0.0654,  ...,  0.0481, -0.1015,  0.0053],
+        [ 0.0399,  0.0181, -0.1321,  ..., -0.0266,  0.0816, -0.0120],
+        [-0.0711, -0.0609,  0.0333,  ..., -0.0011, -0.0575, -0.0425]],
+       device='cuda:0'), grad: tensor([[ 2.4382e-06,  5.7071e-06,  8.2403e-06,  ...,  0.0000e+00,
+         -4.4238e-07,  0.0000e+00],
+        [ 1.1008e-06,  5.2786e-04,  6.9809e-04,  ...,  0.0000e+00,
+          6.2957e-07,  0.0000e+00],
+        [-6.9663e-06,  1.5214e-05,  1.9282e-05,  ...,  0.0000e+00,
+         -1.2934e-05,  0.0000e+00],
+        ...,
+        [ 1.6494e-06,  1.8328e-05,  2.3693e-05,  ...,  0.0000e+00,
+          2.3190e-06,  0.0000e+00],
+        [ 5.8040e-06,  1.5393e-05,  2.0459e-05,  ...,  0.0000e+00,
+          5.6289e-06,  0.0000e+00],
+        [ 6.7148e-07, -9.9182e-04, -1.3447e-03,  ...,  0.0000e+00,
+          5.7509e-07,  0.0000e+00]], device='cuda:0')
+Epoch 91, bias, value: tensor([-0.0070,  0.0180, -0.0160,  0.0125,  0.0261, -0.0170, -0.0253, -0.0177,
+        -0.0198, -0.0268], device='cuda:0'), grad: tensor([ 6.8322e-06,  2.0885e-03,  4.5210e-05,  7.4625e-04,  9.0647e-04,
+         1.7479e-05,  9.4026e-06,  7.4863e-05,  7.2658e-05, -3.9673e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 90, time 217.03, cls_loss 0.0039 cls_loss_mapping 0.0089 cls_loss_causal 0.6023 re_mapping 0.0088 re_causal 0.0290 /// teacc 99.00 lr 0.00010000
+Epoch 92, weight, value: tensor([[-0.0925, -0.0587, -0.0501,  ..., -0.0191, -0.0296, -0.0126],
+        [-0.0235,  0.0608, -0.0548,  ...,  0.0115, -0.0109, -0.0610],
+        [ 0.0326, -0.0728, -0.0592,  ..., -0.0417,  0.0630, -0.0215],
+        ...,
+        [-0.0673, -0.0542,  0.0659,  ...,  0.0481, -0.1026,  0.0053],
+        [ 0.0409,  0.0186, -0.1323,  ..., -0.0266,  0.0824, -0.0121],
+        [-0.0717, -0.0605,  0.0338,  ..., -0.0011, -0.0580, -0.0425]],
+       device='cuda:0'), grad: tensor([[ 2.6114e-06,  1.0878e-06,  2.4354e-07,  ...,  0.0000e+00,
+          9.8720e-07,  0.0000e+00],
+        [ 1.9558e-06, -1.7479e-05,  2.3609e-07,  ...,  0.0000e+00,
+          3.3602e-06,  0.0000e+00],
+        [-1.1973e-05,  5.3123e-06,  1.3318e-07,  ...,  0.0000e+00,
+         -1.7747e-05,  0.0000e+00],
+        ...,
+        [ 1.6000e-06,  2.7083e-06,  1.3404e-05,  ...,  0.0000e+00,
+          3.0547e-06,  0.0000e+00],
+        [ 9.4593e-05,  4.1246e-05,  6.8694e-06,  ...,  0.0000e+00,
+          1.0775e-06,  0.0000e+00],
+        [ 6.9058e-07,  4.3027e-07, -2.4527e-05,  ...,  0.0000e+00,
+          3.5530e-07,  0.0000e+00]], device='cuda:0')
+Epoch 92, bias, value: tensor([-0.0069,  0.0176, -0.0163,  0.0121,  0.0260, -0.0168, -0.0263, -0.0176,
+        -0.0190, -0.0262], device='cuda:0'), grad: tensor([-2.6822e-07, -1.5087e-05, -2.9832e-05,  6.7018e-06,  1.4223e-05,
+         5.2415e-06, -9.1553e-05,  4.0740e-05,  1.2231e-04, -5.2333e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 91, time 216.96, cls_loss 0.0047 cls_loss_mapping 0.0101 cls_loss_causal 0.5838 re_mapping 0.0085 re_causal 0.0270 /// teacc 98.85 lr 0.00010000
+Epoch 93, weight, value: tensor([[-0.0933, -0.0594, -0.0501,  ..., -0.0191, -0.0300, -0.0125],
+        [-0.0239,  0.0613, -0.0550,  ...,  0.0116, -0.0114, -0.0612],
+        [ 0.0329, -0.0731, -0.0596,  ..., -0.0417,  0.0638, -0.0217],
+        ...,
+        [-0.0676, -0.0547,  0.0660,  ...,  0.0481, -0.1033,  0.0053],
+        [ 0.0412,  0.0186, -0.1331,  ..., -0.0266,  0.0826, -0.0121],
+        [-0.0721, -0.0599,  0.0344,  ..., -0.0011, -0.0574, -0.0426]],
+       device='cuda:0'), grad: tensor([[ 1.4585e-06,  5.3644e-07,  3.2708e-06,  ...,  0.0000e+00,
+          1.2098e-06,  0.0000e+00],
+        [ 2.5425e-07, -1.1269e-06,  1.7881e-06,  ...,  0.0000e+00,
+          1.2629e-06,  0.0000e+00],
+        [-9.8255e-07,  4.6892e-07,  1.2731e-06,  ...,  0.0000e+00,
+          3.4254e-06,  0.0000e+00],
+        ...,
+        [ 7.8743e-07,  2.5798e-07, -5.3495e-06,  ...,  0.0000e+00,
+          1.5683e-06,  0.0000e+00],
+        [ 1.6000e-06,  8.8895e-07,  4.7572e-06,  ...,  0.0000e+00,
+          1.9260e-06,  0.0000e+00],
+        [ 1.4696e-06,  3.4366e-07,  5.2713e-07,  ...,  0.0000e+00,
+          2.3516e-07,  0.0000e+00]], device='cuda:0')
+Epoch 93, bias, value: tensor([-0.0070,  0.0177, -0.0159,  0.0123,  0.0257, -0.0175, -0.0263, -0.0182,
+        -0.0194, -0.0249], device='cuda:0'), grad: tensor([ 1.9968e-05,  8.0168e-06,  1.8477e-05, -1.9148e-05, -5.1558e-05,
+        -7.3910e-06,  2.9169e-06, -4.0326e-07,  3.2216e-05, -3.0473e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 92, time 217.05, cls_loss 0.0038 cls_loss_mapping 0.0075 cls_loss_causal 0.6087 re_mapping 0.0093 re_causal 0.0289 /// teacc 98.79 lr 0.00010000
+Epoch 94, weight, value: tensor([[-0.0938, -0.0601, -0.0493,  ..., -0.0191, -0.0293, -0.0125],
+        [-0.0242,  0.0621, -0.0547,  ...,  0.0116, -0.0115, -0.0613],
+        [ 0.0328, -0.0739, -0.0597,  ..., -0.0417,  0.0637, -0.0217],
+        ...,
+        [-0.0681, -0.0553,  0.0662,  ...,  0.0481, -0.1039,  0.0053],
+        [ 0.0413,  0.0190, -0.1336,  ..., -0.0266,  0.0832, -0.0121],
+        [-0.0732, -0.0614,  0.0339,  ..., -0.0011, -0.0596, -0.0427]],
+       device='cuda:0'), grad: tensor([[ 1.1958e-06,  1.0915e-06,  1.5795e-06,  ...,  0.0000e+00,
+         -1.0096e-06,  0.0000e+00],
+        [ 2.9095e-06, -2.2277e-05,  9.4995e-06,  ...,  0.0000e+00,
+          3.0212e-06,  0.0000e+00],
+        [-1.2994e-05, -8.3633e-07,  5.6028e-06,  ...,  0.0000e+00,
+         -1.2986e-05,  0.0000e+00],
+        ...,
+        [ 7.5400e-06,  5.9381e-06, -2.6211e-05,  ...,  0.0000e+00,
+          1.0118e-05,  0.0000e+00],
+        [ 1.1921e-07,  7.0781e-06,  5.6513e-06,  ...,  0.0000e+00,
+         -4.1444e-08,  0.0000e+00],
+        [ 2.3823e-06,  1.7911e-05,  2.4557e-05,  ...,  0.0000e+00,
+          3.3285e-06,  0.0000e+00]], device='cuda:0')
+Epoch 94, bias, value: tensor([-0.0064,  0.0182, -0.0166,  0.0126,  0.0260, -0.0170, -0.0263, -0.0183,
+        -0.0194, -0.0259], device='cuda:0'), grad: tensor([-8.4490e-06, -2.2557e-06, -2.5615e-05, -3.8415e-05, -3.8683e-05,
+         1.9655e-05,  2.5839e-05, -2.2545e-05,  2.3723e-05,  6.6698e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 93, time 217.09, cls_loss 0.0052 cls_loss_mapping 0.0092 cls_loss_causal 0.5890 re_mapping 0.0091 re_causal 0.0270 /// teacc 98.87 lr 0.00010000
+Epoch 95, weight, value: tensor([[-0.0946, -0.0604, -0.0497,  ..., -0.0194, -0.0299, -0.0125],
+        [-0.0249,  0.0627, -0.0541,  ...,  0.0119, -0.0117, -0.0613],
+        [ 0.0333, -0.0743, -0.0599,  ..., -0.0418,  0.0643, -0.0217],
+        ...,
+        [-0.0683, -0.0564,  0.0674,  ...,  0.0480, -0.1041,  0.0053],
+        [ 0.0418,  0.0188, -0.1344,  ..., -0.0267,  0.0841, -0.0121],
+        [-0.0755, -0.0608,  0.0332,  ..., -0.0012, -0.0617, -0.0427]],
+       device='cuda:0'), grad: tensor([[ 3.6974e-06,  3.0305e-06,  1.4501e-06,  ...,  0.0000e+00,
+          1.2089e-06,  0.0000e+00],
+        [ 8.7079e-07, -1.2606e-05,  7.5772e-06,  ...,  0.0000e+00,
+          3.1758e-06,  0.0000e+00],
+        [ 4.4070e-06,  9.8944e-06,  1.5453e-05,  ...,  0.0000e+00,
+          3.9116e-06,  0.0000e+00],
+        ...,
+        [-8.4564e-07,  5.6960e-06, -2.8148e-05,  ...,  0.0000e+00,
+          2.0526e-06,  0.0000e+00],
+        [ 1.0803e-06,  3.2455e-05,  5.4166e-06,  ...,  0.0000e+00,
+          1.2636e-05,  0.0000e+00],
+        [ 4.1462e-06,  8.1658e-05,  1.4514e-05,  ...,  0.0000e+00,
+          3.9548e-05,  0.0000e+00]], device='cuda:0')
+Epoch 95, bias, value: tensor([-0.0064,  0.0185, -0.0166,  0.0122,  0.0249, -0.0167, -0.0267, -0.0169,
+        -0.0194, -0.0265], device='cuda:0'), grad: tensor([ 1.7062e-05,  6.9320e-05,  1.8954e-04, -6.8045e-04, -3.4451e-04,
+         6.2847e-04,  4.1604e-05, -2.9850e-04,  1.1313e-04,  2.6464e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 94, time 217.05, cls_loss 0.0052 cls_loss_mapping 0.0084 cls_loss_causal 0.5857 re_mapping 0.0098 re_causal 0.0283 /// teacc 98.93 lr 0.00010000
+Epoch 96, weight, value: tensor([[-0.0954, -0.0622, -0.0500,  ..., -0.0194, -0.0301, -0.0124],
+        [-0.0249,  0.0639, -0.0543,  ...,  0.0120, -0.0114, -0.0614],
+        [ 0.0327, -0.0748, -0.0602,  ..., -0.0418,  0.0642, -0.0218],
+        ...,
+        [-0.0694, -0.0569,  0.0675,  ...,  0.0480, -0.1052,  0.0053],
+        [ 0.0424,  0.0182, -0.1349,  ..., -0.0268,  0.0852, -0.0121],
+        [-0.0765, -0.0614,  0.0329,  ..., -0.0012, -0.0623, -0.0427]],
+       device='cuda:0'), grad: tensor([[ 8.1658e-06, -2.7437e-06, -4.1304e-07,  ...,  0.0000e+00,
+          1.7732e-06,  0.0000e+00],
+        [ 1.9684e-05,  9.9689e-06,  7.2364e-07,  ...,  0.0000e+00,
+          2.1279e-05,  0.0000e+00],
+        [-4.7356e-05, -5.4032e-05,  3.5483e-07,  ...,  0.0000e+00,
+         -4.5925e-05,  0.0000e+00],
+        ...,
+        [ 1.3132e-06,  5.1335e-06, -2.2464e-06,  ...,  0.0000e+00,
+          1.9521e-06,  0.0000e+00],
+        [-1.6257e-05, -7.7719e-07,  1.3504e-07,  ...,  0.0000e+00,
+         -1.3441e-05,  0.0000e+00],
+        [ 1.7565e-06,  3.5074e-06,  7.8743e-07,  ...,  0.0000e+00,
+          2.8964e-06,  0.0000e+00]], device='cuda:0')
+Epoch 96, bias, value: tensor([-0.0072,  0.0188, -0.0173,  0.0131,  0.0249, -0.0173, -0.0263, -0.0164,
+        -0.0195, -0.0268], device='cuda:0'), grad: tensor([-1.4775e-05,  5.4032e-05, -1.4961e-04,  3.4254e-06,  1.8641e-05,
+         6.4857e-06,  8.1480e-05,  5.6885e-06, -1.9923e-05,  1.4625e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 95, time 216.67, cls_loss 0.0032 cls_loss_mapping 0.0082 cls_loss_causal 0.6091 re_mapping 0.0087 re_causal 0.0283 /// teacc 98.95 lr 0.00010000
+Epoch 97, weight, value: tensor([[-0.0961, -0.0623, -0.0502,  ..., -0.0194, -0.0301, -0.0124],
+        [-0.0252,  0.0642, -0.0544,  ...,  0.0120, -0.0116, -0.0614],
+        [ 0.0330, -0.0753, -0.0605,  ..., -0.0418,  0.0648, -0.0218],
+        ...,
+        [-0.0696, -0.0574,  0.0674,  ...,  0.0480, -0.1056,  0.0053],
+        [ 0.0425,  0.0187, -0.1354,  ..., -0.0268,  0.0858, -0.0121],
+        [-0.0776, -0.0624,  0.0334,  ..., -0.0012, -0.0643, -0.0427]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-07,  5.0757e-07,  5.5088e-07,  ...,  0.0000e+00,
+          8.3074e-07,  0.0000e+00],
+        [ 3.7020e-07, -7.8008e-06,  2.0862e-06,  ...,  0.0000e+00,
+         -1.7881e-06,  0.0000e+00],
+        [-1.2308e-05,  4.8503e-06,  8.3633e-07,  ...,  0.0000e+00,
+         -1.4000e-05,  0.0000e+00],
+        ...,
+        [ 1.2806e-06, -1.9418e-07, -6.7502e-06,  ...,  0.0000e+00,
+          2.1849e-06,  0.0000e+00],
+        [ 9.2238e-06,  7.6368e-06,  1.4137e-06,  ...,  0.0000e+00,
+          1.4648e-05,  0.0000e+00],
+        [ 3.2270e-07,  2.3581e-06, -7.6219e-06,  ...,  0.0000e+00,
+          1.5581e-06,  0.0000e+00]], device='cuda:0')
+Epoch 97, bias, value: tensor([-0.0069,  0.0189, -0.0172,  0.0124,  0.0251, -0.0168, -0.0264, -0.0167,
+        -0.0194, -0.0268], device='cuda:0'), grad: tensor([ 3.5353e-06,  2.4922e-06, -1.1377e-05, -3.8967e-06,  1.0878e-05,
+         3.1888e-05,  5.1409e-06,  5.2661e-05,  3.5554e-05, -1.2684e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 96, time 216.70, cls_loss 0.0032 cls_loss_mapping 0.0072 cls_loss_causal 0.6177 re_mapping 0.0086 re_causal 0.0269 /// teacc 98.98 lr 0.00010000
+Epoch 98, weight, value: tensor([[-0.0974, -0.0630, -0.0505,  ..., -0.0193, -0.0303, -0.0124],
+        [-0.0256,  0.0643, -0.0543,  ...,  0.0136, -0.0121, -0.0614],
+        [ 0.0334, -0.0746, -0.0609,  ..., -0.0439,  0.0659, -0.0218],
+        ...,
+        [-0.0701, -0.0578,  0.0677,  ...,  0.0479, -0.1063,  0.0053],
+        [ 0.0425,  0.0184, -0.1360,  ..., -0.0269,  0.0858, -0.0121],
+        [-0.0780, -0.0627,  0.0335,  ..., -0.0012, -0.0650, -0.0427]],
+       device='cuda:0'), grad: tensor([[ 2.7325e-06, -3.0939e-06, -1.0058e-07,  ...,  0.0000e+00,
+         -1.0282e-05,  0.0000e+00],
+        [ 4.2934e-07, -1.7285e-05,  6.2631e-07,  ...,  0.0000e+00,
+          4.2357e-06,  0.0000e+00],
+        [-8.2236e-07,  4.2059e-06,  9.4716e-07,  ...,  0.0000e+00,
+         -2.3236e-07,  0.0000e+00],
+        ...,
+        [ 4.6752e-07,  3.3509e-06, -7.4990e-06,  ...,  0.0000e+00,
+          1.3635e-06,  0.0000e+00],
+        [-1.2860e-05,  2.5947e-06,  6.6496e-07,  ...,  0.0000e+00,
+         -1.5318e-05,  0.0000e+00],
+        [ 3.5986e-06,  2.2408e-06,  3.4999e-06,  ...,  0.0000e+00,
+          5.8301e-06,  0.0000e+00]], device='cuda:0')
+Epoch 98, bias, value: tensor([-0.0071,  0.0188, -0.0163,  0.0126,  0.0250, -0.0170, -0.0260, -0.0168,
+        -0.0199, -0.0269], device='cuda:0'), grad: tensor([-5.4181e-05, -2.0359e-06,  8.9705e-06,  1.0625e-05,  3.6657e-06,
+         8.9705e-06,  2.3291e-05, -5.4911e-06, -1.4499e-05,  2.0534e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 97, time 216.67, cls_loss 0.0051 cls_loss_mapping 0.0106 cls_loss_causal 0.6081 re_mapping 0.0088 re_causal 0.0266 /// teacc 98.84 lr 0.00010000
+Epoch 99, weight, value: tensor([[-0.0981, -0.0635, -0.0513,  ..., -0.0193, -0.0320, -0.0124],
+        [-0.0259,  0.0644, -0.0549,  ...,  0.0136, -0.0133, -0.0614],
+        [ 0.0332, -0.0741, -0.0613,  ..., -0.0440,  0.0669, -0.0218],
+        ...,
+        [-0.0705, -0.0578,  0.0682,  ...,  0.0479, -0.1066,  0.0053],
+        [ 0.0439,  0.0182, -0.1368,  ..., -0.0269,  0.0873, -0.0121],
+        [-0.0791, -0.0635,  0.0338,  ..., -0.0012, -0.0649, -0.0427]],
+       device='cuda:0'), grad: tensor([[ 3.2578e-06,  2.5798e-07,  1.8021e-07,  ...,  0.0000e+00,
+          4.1872e-06,  0.0000e+00],
+        [ 1.7257e-06, -3.4720e-06,  6.3283e-07,  ...,  0.0000e+00,
+          2.1607e-06,  0.0000e+00],
+        [-4.0084e-05,  1.2591e-06, -2.8731e-07,  ...,  0.0000e+00,
+         -7.8619e-05,  0.0000e+00],
+        ...,
+        [ 6.4597e-06,  5.6578e-07,  1.2480e-07,  ...,  0.0000e+00,
+          9.1195e-06,  0.0000e+00],
+        [ 2.2367e-05,  1.2703e-06,  7.7859e-07,  ...,  0.0000e+00,
+          1.9535e-05,  0.0000e+00],
+        [ 7.4245e-06,  1.1558e-06, -6.1430e-06,  ...,  0.0000e+00,
+          1.4761e-06,  0.0000e+00]], device='cuda:0')
+Epoch 99, bias, value: tensor([-0.0085,  0.0177, -0.0151,  0.0128,  0.0247, -0.0175, -0.0262, -0.0167,
+        -0.0192, -0.0262], device='cuda:0'), grad: tensor([-3.5197e-05,  4.0866e-06, -1.1241e-04,  7.4029e-05,  1.3508e-05,
+        -6.9439e-05,  1.8418e-05,  2.6777e-05,  7.2718e-05,  7.4692e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 98, time 216.91, cls_loss 0.0043 cls_loss_mapping 0.0075 cls_loss_causal 0.5661 re_mapping 0.0091 re_causal 0.0259 /// teacc 98.90 lr 0.00010000
+Epoch 100, weight, value: tensor([[-0.0989, -0.0623, -0.0516,  ..., -0.0192, -0.0322, -0.0124],
+        [-0.0261,  0.0652, -0.0550,  ...,  0.0136, -0.0135, -0.0614],
+        [ 0.0331, -0.0753, -0.0616,  ..., -0.0440,  0.0668, -0.0218],
+        ...,
+        [-0.0711, -0.0584,  0.0688,  ...,  0.0479, -0.1071,  0.0053],
+        [ 0.0439,  0.0183, -0.1374,  ..., -0.0270,  0.0876, -0.0121],
+        [-0.0802, -0.0652,  0.0335,  ..., -0.0012, -0.0655, -0.0427]],
+       device='cuda:0'), grad: tensor([[ 6.8871e-07,  7.3854e-07,  3.9600e-06,  ...,  1.1493e-06,
+          1.3262e-06,  0.0000e+00],
+        [ 7.5391e-07, -2.1746e-07,  5.5544e-06,  ...,  1.4938e-06,
+          2.3283e-06,  0.0000e+00],
+        [-7.3714e-07,  1.7779e-06,  4.4376e-05,  ...,  1.2822e-05,
+          1.0848e-05,  0.0000e+00],
+        ...,
+        [ 3.3248e-07, -1.9092e-06, -9.9480e-05,  ..., -2.7791e-05,
+          1.9804e-05,  0.0000e+00],
+        [-8.9034e-06, -6.8024e-06,  2.7027e-06,  ...,  5.2340e-07,
+         -3.9414e-06,  0.0000e+00],
+        [ 1.3122e-06,  2.2762e-06,  1.5333e-05,  ...,  9.4436e-07,
+          4.1947e-06,  0.0000e+00]], device='cuda:0')
+Epoch 100, bias, value: tensor([-0.0077,  0.0183, -0.0159,  0.0130,  0.0249, -0.0170, -0.0266, -0.0166,
+        -0.0198, -0.0267], device='cuda:0'), grad: tensor([ 2.6464e-05,  4.7296e-05,  2.8014e-04, -2.4867e-04,  7.4446e-05,
+         6.2943e-05,  1.5303e-05, -3.6430e-04,  2.1979e-05,  8.4162e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 99, time 216.63, cls_loss 0.0041 cls_loss_mapping 0.0075 cls_loss_causal 0.6123 re_mapping 0.0087 re_causal 0.0261 /// teacc 98.91 lr 0.00010000
+Epoch 101, weight, value: tensor([[-0.0999, -0.0627, -0.0518,  ..., -0.0191, -0.0323, -0.0124],
+        [-0.0263,  0.0651, -0.0554,  ...,  0.0136, -0.0142, -0.0615],
+        [ 0.0333, -0.0759, -0.0619,  ..., -0.0441,  0.0673, -0.0218],
+        ...,
+        [-0.0714, -0.0577,  0.0696,  ...,  0.0480, -0.1066,  0.0053],
+        [ 0.0441,  0.0186, -0.1380,  ..., -0.0271,  0.0882, -0.0122],
+        [-0.0810, -0.0655,  0.0334,  ..., -0.0012, -0.0662, -0.0427]],
+       device='cuda:0'), grad: tensor([[ 1.5674e-06,  7.3481e-07,  2.1234e-07,  ...,  0.0000e+00,
+          8.7917e-06,  0.0000e+00],
+        [ 1.4175e-06, -7.3239e-06,  1.0505e-06,  ...,  0.0000e+00,
+          6.2808e-06,  0.0000e+00],
+        [-1.3307e-05,  1.4737e-05,  5.2489e-06,  ...,  0.0000e+00,
+         -1.2922e-04,  0.0000e+00],
+        ...,
+        [ 2.0862e-06,  7.8529e-06,  4.5970e-06,  ...,  0.0000e+00,
+          6.1095e-06,  0.0000e+00],
+        [ 9.4948e-07,  8.3633e-07,  1.4603e-06,  ...,  0.0000e+00,
+          6.3106e-06,  0.0000e+00],
+        [ 1.0040e-06,  4.1425e-06, -9.0152e-07,  ...,  0.0000e+00,
+         -7.2792e-06,  0.0000e+00]], device='cuda:0')
+Epoch 101, bias, value: tensor([-0.0077,  0.0175, -0.0161,  0.0133,  0.0244, -0.0173, -0.0262, -0.0155,
+        -0.0198, -0.0269], device='cuda:0'), grad: tensor([-1.8024e-04,  1.2547e-05, -1.2290e-04,  1.5330e-04, -1.1593e-05,
+         8.1658e-05,  5.2117e-06,  4.6372e-05,  3.4422e-05, -1.8895e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 100, time 216.93, cls_loss 0.0040 cls_loss_mapping 0.0078 cls_loss_causal 0.5769 re_mapping 0.0085 re_causal 0.0259 /// teacc 99.00 lr 0.00010000
+Epoch 102, weight, value: tensor([[-0.1004, -0.0632, -0.0521,  ..., -0.0190, -0.0330, -0.0124],
+        [-0.0268,  0.0656, -0.0556,  ...,  0.0136, -0.0143, -0.0615],
+        [ 0.0341, -0.0761, -0.0617,  ..., -0.0441,  0.0684, -0.0218],
+        ...,
+        [-0.0718, -0.0580,  0.0698,  ...,  0.0480, -0.1077,  0.0053],
+        [ 0.0451,  0.0197, -0.1385,  ..., -0.0271,  0.0891, -0.0122],
+        [-0.0815, -0.0662,  0.0334,  ..., -0.0013, -0.0672, -0.0427]],
+       device='cuda:0'), grad: tensor([[ 1.8943e-06,  2.0452e-06,  1.9930e-07,  ...,  0.0000e+00,
+          1.1204e-06,  0.0000e+00],
+        [ 1.3541e-06, -9.5740e-06,  2.3749e-08,  ...,  0.0000e+00,
+         -1.4929e-06,  0.0000e+00],
+        [-2.2538e-07,  5.7369e-06,  8.9593e-07,  ...,  0.0000e+00,
+          2.6561e-06,  0.0000e+00],
+        ...,
+        [ 7.5484e-07,  3.5409e-06, -9.9838e-07,  ...,  0.0000e+00,
+          1.1567e-06,  0.0000e+00],
+        [ 4.2319e-04,  2.5773e-04,  6.1467e-07,  ...,  0.0000e+00,
+          6.9022e-05,  0.0000e+00],
+        [ 3.4068e-06,  2.3711e-06, -6.0117e-07,  ...,  0.0000e+00,
+          4.2953e-06,  0.0000e+00]], device='cuda:0')
+Epoch 102, bias, value: tensor([-0.0080,  0.0177, -0.0154,  0.0130,  0.0240, -0.0169, -0.0270, -0.0157,
+        -0.0190, -0.0271], device='cuda:0'), grad: tensor([ 6.1579e-06, -1.2524e-05,  1.1936e-05, -1.1483e-06, -6.2585e-06,
+        -1.0267e-05, -4.6635e-04,  5.5917e-06,  4.6468e-04,  7.1861e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 101----------------------------------------------------
+epoch 101, time 217.60, cls_loss 0.0030 cls_loss_mapping 0.0082 cls_loss_causal 0.5605 re_mapping 0.0086 re_causal 0.0259 /// teacc 99.06 lr 0.00010000
+Epoch 103, weight, value: tensor([[-0.1015, -0.0637, -0.0515,  ..., -0.0188, -0.0329, -0.0123],
+        [-0.0272,  0.0660, -0.0560,  ...,  0.0136, -0.0143, -0.0615],
+        [ 0.0348, -0.0766, -0.0617,  ..., -0.0441,  0.0690, -0.0218],
+        ...,
+        [-0.0730, -0.0584,  0.0699,  ...,  0.0480, -0.1089,  0.0053],
+        [ 0.0451,  0.0192, -0.1395,  ..., -0.0272,  0.0893, -0.0122],
+        [-0.0820, -0.0663,  0.0333,  ..., -0.0013, -0.0678, -0.0427]],
+       device='cuda:0'), grad: tensor([[ 7.7533e-07,  9.9838e-07,  1.1981e-05,  ...,  0.0000e+00,
+          2.6688e-05,  0.0000e+00],
+        [ 1.6447e-06,  2.4755e-06,  7.4916e-06,  ...,  0.0000e+00,
+          2.0131e-05,  0.0000e+00],
+        [-3.5726e-06,  4.9062e-06, -6.8724e-05,  ...,  0.0000e+00,
+         -1.6153e-04,  0.0000e+00],
+        ...,
+        [ 1.2480e-07,  1.3672e-06,  8.7619e-06,  ...,  0.0000e+00,
+          2.1979e-05,  0.0000e+00],
+        [-3.9116e-08,  1.0896e-06,  6.3665e-06,  ...,  0.0000e+00,
+          1.1012e-05,  0.0000e+00],
+        [ 8.6613e-07,  2.2426e-06,  3.0734e-06,  ...,  0.0000e+00,
+          1.0923e-05,  0.0000e+00]], device='cuda:0')
+Epoch 103, bias, value: tensor([-0.0078,  0.0177, -0.0151,  0.0129,  0.0242, -0.0171, -0.0264, -0.0160,
+        -0.0195, -0.0270], device='cuda:0'), grad: tensor([ 6.2823e-05,  4.9680e-05, -4.0531e-04,  6.2525e-05,  2.5228e-05,
+         2.3901e-05,  7.0572e-05,  6.1989e-05,  4.9353e-05, -5.8860e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 102, time 217.29, cls_loss 0.0028 cls_loss_mapping 0.0054 cls_loss_causal 0.5608 re_mapping 0.0081 re_causal 0.0258 /// teacc 98.97 lr 0.00010000
+Epoch 104, weight, value: tensor([[-0.1018, -0.0638, -0.0527,  ..., -0.0186, -0.0332, -0.0123],
+        [-0.0280,  0.0672, -0.0548,  ...,  0.0136, -0.0145, -0.0615],
+        [ 0.0353, -0.0769, -0.0618,  ..., -0.0442,  0.0695, -0.0218],
+        ...,
+        [-0.0733, -0.0601,  0.0695,  ...,  0.0480, -0.1093,  0.0053],
+        [ 0.0452,  0.0195, -0.1399,  ..., -0.0272,  0.0895, -0.0122],
+        [-0.0827, -0.0667,  0.0335,  ..., -0.0013, -0.0685, -0.0428]],
+       device='cuda:0'), grad: tensor([[ 1.8515e-06,  9.8627e-07,  4.1118e-07,  ...,  0.0000e+00,
+          7.2783e-07,  1.7276e-07],
+        [ 6.0815e-07,  4.9174e-07,  1.6540e-06,  ...,  0.0000e+00,
+          5.2340e-07,  3.8650e-08],
+        [-4.9826e-08,  3.5670e-07,  3.9674e-07,  ...,  0.0000e+00,
+         -5.4948e-08,  4.0047e-08],
+        ...,
+        [ 8.2003e-07,  3.5949e-07, -3.9637e-06,  ...,  0.0000e+00,
+          1.1073e-06,  4.7032e-08],
+        [ 6.8657e-06,  4.0345e-06,  1.8459e-06,  ...,  0.0000e+00,
+          6.2818e-07,  8.4657e-07],
+        [ 6.5416e-06,  4.1574e-06, -1.1511e-06,  ...,  0.0000e+00,
+          2.3171e-06,  5.9558e-07]], device='cuda:0')
+Epoch 104, bias, value: tensor([-0.0080,  0.0186, -0.0150,  0.0124,  0.0243, -0.0168, -0.0266, -0.0168,
+        -0.0195, -0.0268], device='cuda:0'), grad: tensor([ 2.4196e-06,  5.1297e-06,  2.2519e-06, -8.8811e-06,  2.6226e-06,
+        -7.2896e-05,  4.7952e-05, -1.7835e-06,  1.6868e-05,  6.2548e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 103, time 217.12, cls_loss 0.0038 cls_loss_mapping 0.0093 cls_loss_causal 0.5458 re_mapping 0.0085 re_causal 0.0246 /// teacc 98.98 lr 0.00010000
+Epoch 105, weight, value: tensor([[-0.1026, -0.0641, -0.0530,  ..., -0.0185, -0.0332, -0.0122],
+        [-0.0275,  0.0684, -0.0550,  ...,  0.0136, -0.0137, -0.0616],
+        [ 0.0358, -0.0778, -0.0620,  ..., -0.0442,  0.0698, -0.0219],
+        ...,
+        [-0.0748, -0.0606,  0.0707,  ...,  0.0480, -0.1106,  0.0053],
+        [ 0.0454,  0.0192, -0.1401,  ..., -0.0273,  0.0898, -0.0124],
+        [-0.0839, -0.0676,  0.0319,  ..., -0.0013, -0.0696, -0.0430]],
+       device='cuda:0'), grad: tensor([[ 3.3434e-06,  5.8003e-06,  6.1691e-06,  ...,  0.0000e+00,
+          1.9185e-06,  0.0000e+00],
+        [ 1.1083e-06, -8.4519e-05, -3.2634e-06,  ...,  0.0000e+00,
+         -5.5462e-05,  0.0000e+00],
+        [ 4.3362e-06,  2.1338e-05,  3.7581e-05,  ...,  0.0000e+00,
+          3.3110e-05,  0.0000e+00],
+        ...,
+        [-5.2825e-06,  4.0531e-05, -1.0967e-04,  ...,  0.0000e+00,
+          1.1295e-05,  0.0000e+00],
+        [ 4.4256e-06,  6.6534e-06,  1.1623e-05,  ...,  0.0000e+00,
+          1.5106e-06,  0.0000e+00],
+        [ 1.5590e-06,  5.9046e-06, -1.0595e-05,  ...,  0.0000e+00,
+          4.2375e-08,  0.0000e+00]], device='cuda:0')
+Epoch 105, bias, value: tensor([-0.0075,  0.0194, -0.0151,  0.0127,  0.0249, -0.0171, -0.0268, -0.0165,
+        -0.0196, -0.0280], device='cuda:0'), grad: tensor([ 1.6570e-05, -2.1672e-04,  1.8156e-04,  1.3626e-04,  4.3362e-05,
+         1.7211e-06, -2.2307e-05, -1.7893e-04,  4.8518e-05, -1.0334e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 104, time 217.03, cls_loss 0.0031 cls_loss_mapping 0.0072 cls_loss_causal 0.5958 re_mapping 0.0085 re_causal 0.0266 /// teacc 98.92 lr 0.00010000
+Epoch 106, weight, value: tensor([[-0.1031, -0.0643, -0.0535,  ..., -0.0185, -0.0334, -0.0121],
+        [-0.0281,  0.0686, -0.0552,  ...,  0.0136, -0.0138, -0.0619],
+        [ 0.0366, -0.0782, -0.0623,  ..., -0.0442,  0.0705, -0.0221],
+        ...,
+        [-0.0758, -0.0608,  0.0714,  ...,  0.0480, -0.1119,  0.0053],
+        [ 0.0456,  0.0195, -0.1411,  ..., -0.0274,  0.0897, -0.0125],
+        [-0.0844, -0.0684,  0.0318,  ..., -0.0013, -0.0699, -0.0434]],
+       device='cuda:0'), grad: tensor([[ 5.2527e-07,  6.7335e-07,  3.5437e-07,  ...,  0.0000e+00,
+          1.3504e-07,  0.0000e+00],
+        [-3.5800e-06, -1.7226e-05,  1.2303e-06,  ...,  0.0000e+00,
+         -1.9353e-06,  0.0000e+00],
+        [ 1.6708e-06,  1.5907e-06,  5.4110e-07,  ...,  0.0000e+00,
+          1.3039e-06,  0.0000e+00],
+        ...,
+        [ 5.5600e-07,  2.2948e-06,  5.2936e-06,  ...,  0.0000e+00,
+          3.6974e-07,  0.0000e+00],
+        [-3.5344e-07,  8.7842e-06,  1.0237e-05,  ...,  0.0000e+00,
+         -2.1309e-06,  0.0000e+00],
+        [ 5.7463e-07,  1.3307e-05, -4.1604e-05,  ...,  0.0000e+00,
+          5.7742e-07,  0.0000e+00]], device='cuda:0')
+Epoch 106, bias, value: tensor([-0.0072,  0.0193, -0.0148,  0.0129,  0.0250, -0.0174, -0.0269, -0.0163,
+        -0.0200, -0.0282], device='cuda:0'), grad: tensor([ 1.6820e-06, -2.0638e-05,  5.4240e-06, -1.7822e-05, -9.2462e-06,
+         8.0705e-05,  1.4976e-06,  2.2843e-05,  3.5256e-05, -9.9838e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 105, time 216.99, cls_loss 0.0048 cls_loss_mapping 0.0097 cls_loss_causal 0.5687 re_mapping 0.0085 re_causal 0.0241 /// teacc 98.97 lr 0.00010000
+Epoch 107, weight, value: tensor([[-0.1045, -0.0649, -0.0540,  ..., -0.0185, -0.0333, -0.0120],
+        [-0.0300,  0.0693, -0.0550,  ...,  0.0136, -0.0155, -0.0619],
+        [ 0.0372, -0.0785, -0.0628,  ..., -0.0442,  0.0715, -0.0221],
+        ...,
+        [-0.0761, -0.0621,  0.0719,  ...,  0.0480, -0.1114,  0.0052],
+        [ 0.0457,  0.0197, -0.1419,  ..., -0.0274,  0.0903, -0.0126],
+        [-0.0851, -0.0692,  0.0317,  ..., -0.0013, -0.0704, -0.0434]],
+       device='cuda:0'), grad: tensor([[ 5.8189e-06,  1.6168e-06,  2.6636e-07,  ...,  0.0000e+00,
+          3.9190e-06,  0.0000e+00],
+        [ 1.1651e-06, -1.0371e-05,  1.8496e-06,  ...,  0.0000e+00,
+          1.6764e-06,  0.0000e+00],
+        [-2.5526e-05,  1.8794e-06, -3.6391e-07,  ...,  0.0000e+00,
+         -2.2113e-05,  0.0000e+00],
+        ...,
+        [ 1.5981e-06,  1.1109e-05, -2.5681e-07,  ...,  0.0000e+00,
+          2.5816e-06,  0.0000e+00],
+        [ 6.0275e-06, -3.1665e-06,  7.5437e-07,  ...,  0.0000e+00,
+         -2.0210e-06,  0.0000e+00],
+        [ 6.8247e-06,  3.6862e-06, -5.8860e-06,  ...,  0.0000e+00,
+          8.2627e-06,  0.0000e+00]], device='cuda:0')
+Epoch 107, bias, value: tensor([-0.0071,  0.0195, -0.0148,  0.0128,  0.0248, -0.0174, -0.0265, -0.0162,
+        -0.0201, -0.0284], device='cuda:0'), grad: tensor([ 1.2696e-05, -1.1459e-05, -5.0366e-05,  9.9987e-06,  1.2647e-06,
+         5.7220e-05, -5.7928e-06,  2.2113e-05, -2.2375e-07, -3.5405e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 106, time 216.87, cls_loss 0.0031 cls_loss_mapping 0.0067 cls_loss_causal 0.5814 re_mapping 0.0087 re_causal 0.0257 /// teacc 99.05 lr 0.00010000
+Epoch 108, weight, value: tensor([[-0.1055, -0.0656, -0.0543,  ..., -0.0186, -0.0335, -0.0118],
+        [-0.0309,  0.0699, -0.0555,  ...,  0.0136, -0.0162, -0.0621],
+        [ 0.0378, -0.0787, -0.0620,  ..., -0.0442,  0.0729, -0.0224],
+        ...,
+        [-0.0769, -0.0628,  0.0721,  ...,  0.0480, -0.1129,  0.0052],
+        [ 0.0461,  0.0199, -0.1425,  ..., -0.0274,  0.0908, -0.0127],
+        [-0.0858, -0.0696,  0.0317,  ..., -0.0013, -0.0710, -0.0435]],
+       device='cuda:0'), grad: tensor([[ 2.1458e-06,  1.3392e-06,  2.8592e-06,  ...,  1.6298e-09,
+          6.7428e-07,  0.0000e+00],
+        [ 2.9970e-06,  2.2650e-06,  1.5348e-06,  ...,  9.3132e-10,
+          3.8669e-06,  0.0000e+00],
+        [ 5.3225e-07,  5.8254e-07,  7.2308e-06,  ...,  4.6566e-09,
+          4.1327e-07,  0.0000e+00],
+        ...,
+        [ 1.0235e-06,  9.7882e-07, -7.2300e-05,  ...,  2.5611e-09,
+          5.8208e-07,  0.0000e+00],
+        [-2.8238e-06, -7.2494e-06,  3.8482e-06,  ...,  1.8626e-09,
+         -1.0163e-05,  0.0000e+00],
+        [ 2.9262e-06,  9.3281e-06,  5.9158e-05,  ...,  1.8626e-09,
+          3.1665e-06,  0.0000e+00]], device='cuda:0')
+Epoch 108, bias, value: tensor([-0.0072,  0.0190, -0.0132,  0.0130,  0.0247, -0.0177, -0.0262, -0.0167,
+        -0.0201, -0.0285], device='cuda:0'), grad: tensor([ 1.1906e-05,  1.2636e-05,  2.0683e-05,  1.8492e-05, -7.5102e-06,
+        -9.9838e-05,  8.6308e-05, -1.5604e-04, -6.0722e-06,  1.1927e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 107, time 216.80, cls_loss 0.0033 cls_loss_mapping 0.0085 cls_loss_causal 0.6105 re_mapping 0.0086 re_causal 0.0258 /// teacc 98.97 lr 0.00010000
+Epoch 109, weight, value: tensor([[-0.1064, -0.0664, -0.0547,  ..., -0.0186, -0.0338, -0.0118],
+        [-0.0313,  0.0702, -0.0555,  ...,  0.0136, -0.0164, -0.0621],
+        [ 0.0386, -0.0791, -0.0624,  ..., -0.0442,  0.0736, -0.0225],
+        ...,
+        [-0.0774, -0.0633,  0.0721,  ...,  0.0480, -0.1134,  0.0052],
+        [ 0.0457,  0.0198, -0.1430,  ..., -0.0275,  0.0906, -0.0127],
+        [-0.0864, -0.0702,  0.0319,  ..., -0.0013, -0.0714, -0.0436]],
+       device='cuda:0'), grad: tensor([[ 9.8273e-06,  3.6135e-06,  1.8114e-07,  ...,  0.0000e+00,
+          3.9227e-06,  0.0000e+00],
+        [ 5.4352e-06,  1.6745e-06,  4.0629e-07,  ...,  0.0000e+00,
+          2.2706e-06,  0.0000e+00],
+        [ 1.0930e-05,  5.7556e-06,  4.4308e-07,  ...,  0.0000e+00,
+          4.5151e-06,  0.0000e+00],
+        ...,
+        [ 5.7407e-06,  2.2873e-06, -1.2619e-06,  ...,  0.0000e+00,
+          2.5090e-06,  0.0000e+00],
+        [ 3.0899e-04,  1.1265e-04,  5.9791e-07,  ...,  0.0000e+00,
+          1.2994e-04,  0.0000e+00],
+        [ 6.0648e-06,  2.3022e-06, -1.6512e-06,  ...,  0.0000e+00,
+          2.6729e-06,  0.0000e+00]], device='cuda:0')
+Epoch 109, bias, value: tensor([-0.0077,  0.0191, -0.0131,  0.0128,  0.0250, -0.0170, -0.0262, -0.0169,
+        -0.0207, -0.0283], device='cuda:0'), grad: tensor([ 2.8193e-05,  1.5482e-05,  2.6032e-05,  1.9431e-04,  9.2387e-06,
+        -7.8297e-04,  8.4162e-05, -1.3769e-04,  5.0211e-04,  6.0320e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 108----------------------------------------------------
+epoch 108, time 217.69, cls_loss 0.0035 cls_loss_mapping 0.0079 cls_loss_causal 0.5749 re_mapping 0.0081 re_causal 0.0244 /// teacc 99.08 lr 0.00010000
+Epoch 110, weight, value: tensor([[-0.1073, -0.0670, -0.0548,  ..., -0.0186, -0.0342, -0.0118],
+        [-0.0320,  0.0705, -0.0556,  ...,  0.0136, -0.0167, -0.0621],
+        [ 0.0388, -0.0796, -0.0628,  ..., -0.0443,  0.0740, -0.0225],
+        ...,
+        [-0.0777, -0.0637,  0.0726,  ...,  0.0480, -0.1137,  0.0052],
+        [ 0.0456,  0.0195, -0.1432,  ..., -0.0279,  0.0911, -0.0128],
+        [-0.0871, -0.0705,  0.0318,  ..., -0.0013, -0.0720, -0.0436]],
+       device='cuda:0'), grad: tensor([[ 6.3926e-06,  6.7987e-06,  3.1404e-06,  ...,  9.3132e-10,
+          1.8990e-06,  0.0000e+00],
+        [ 5.4657e-05,  5.7578e-05,  3.3885e-05,  ...,  2.3283e-10,
+          1.9684e-05,  0.0000e+00],
+        [ 2.3305e-05,  2.5094e-05,  1.2547e-05,  ...,  2.3283e-10,
+          6.8806e-06,  0.0000e+00],
+        ...,
+        [ 1.4794e-04,  1.7332e-06,  4.8041e-04,  ...,  1.1642e-09,
+          6.1374e-07,  2.3283e-10],
+        [ 3.5077e-05,  5.7727e-05,  1.4499e-05,  ...,  2.5611e-09,
+          3.5129e-06,  2.3283e-10],
+        [-1.7166e-04,  2.9132e-06, -5.7697e-04,  ...,  3.0268e-09,
+          1.8831e-06,  2.3283e-10]], device='cuda:0')
+Epoch 110, bias, value: tensor([-0.0081,  0.0190, -0.0132,  0.0126,  0.0248, -0.0163, -0.0265, -0.0164,
+        -0.0210, -0.0285], device='cuda:0'), grad: tensor([ 3.2306e-05,  3.1829e-04,  1.2279e-04,  7.3910e-05,  4.5514e-04,
+         8.2076e-05, -6.0749e-04,  3.2864e-03,  1.6832e-04, -3.9291e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 109, time 217.08, cls_loss 0.0030 cls_loss_mapping 0.0062 cls_loss_causal 0.5546 re_mapping 0.0086 re_causal 0.0248 /// teacc 98.90 lr 0.00010000
+Epoch 111, weight, value: tensor([[-0.1080, -0.0673, -0.0530,  ..., -0.0186, -0.0330, -0.0116],
+        [-0.0326,  0.0710, -0.0558,  ...,  0.0136, -0.0171, -0.0623],
+        [ 0.0406, -0.0803, -0.0627,  ..., -0.0442,  0.0757, -0.0225],
+        ...,
+        [-0.0795, -0.0642,  0.0727,  ...,  0.0480, -0.1149,  0.0052],
+        [ 0.0452,  0.0193, -0.1437,  ..., -0.0281,  0.0908, -0.0128],
+        [-0.0876, -0.0711,  0.0317,  ..., -0.0014, -0.0726, -0.0438]],
+       device='cuda:0'), grad: tensor([[ 5.9232e-07,  4.0466e-07,  6.6357e-08,  ...,  4.6566e-10,
+          8.1025e-08,  0.0000e+00],
+        [ 3.9209e-07, -7.8464e-07,  4.4587e-07,  ...,  4.6566e-10,
+          3.1246e-07,  0.0000e+00],
+        [-1.7630e-06,  5.0385e-07,  1.8952e-07,  ...,  5.3551e-09,
+         -2.6636e-06,  0.0000e+00],
+        ...,
+        [ 1.4924e-07,  5.5227e-07, -1.1772e-06,  ...,  6.9849e-10,
+          2.1583e-07,  0.0000e+00],
+        [ 1.8133e-06,  1.6121e-06,  2.6426e-07,  ...,  3.4925e-09,
+          9.7975e-07,  4.6566e-10],
+        [ 1.3388e-07,  2.1998e-06,  1.5656e-06,  ...,  1.8626e-09,
+          2.3609e-07,  6.9849e-10]], device='cuda:0')
+Epoch 111, bias, value: tensor([-0.0068,  0.0191, -0.0126,  0.0120,  0.0246, -0.0163, -0.0258, -0.0169,
+        -0.0218, -0.0284], device='cuda:0'), grad: tensor([-3.1646e-06,  1.0021e-06, -1.1018e-06, -1.6708e-06, -7.5884e-06,
+         8.5384e-06, -6.9588e-06, -2.0172e-06,  5.2191e-06,  7.7412e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 110, time 216.95, cls_loss 0.0028 cls_loss_mapping 0.0051 cls_loss_causal 0.5271 re_mapping 0.0078 re_causal 0.0228 /// teacc 98.97 lr 0.00010000
+Epoch 112, weight, value: tensor([[-0.1088, -0.0678, -0.0527,  ..., -0.0185, -0.0330, -0.0113],
+        [-0.0328,  0.0718, -0.0561,  ...,  0.0136, -0.0166, -0.0627],
+        [ 0.0408, -0.0813, -0.0631,  ..., -0.0443,  0.0756, -0.0225],
+        ...,
+        [-0.0797, -0.0642,  0.0732,  ...,  0.0480, -0.1152,  0.0051],
+        [ 0.0452,  0.0185, -0.1440,  ..., -0.0282,  0.0908, -0.0140],
+        [-0.0886, -0.0714,  0.0314,  ..., -0.0014, -0.0732, -0.0440]],
+       device='cuda:0'), grad: tensor([[ 3.9930e-07,  2.9779e-07,  1.8533e-07,  ...,  0.0000e+00,
+          3.1060e-07,  1.6298e-09],
+        [ 1.6019e-07, -7.7393e-07,  1.7625e-07,  ...,  0.0000e+00,
+          5.5414e-08,  2.3283e-10],
+        [ 3.2596e-08,  5.6904e-07,  4.4983e-07,  ...,  0.0000e+00,
+          3.6811e-07,  2.3283e-10],
+        ...,
+        [ 1.1991e-07,  5.5321e-07,  1.2992e-07,  ...,  0.0000e+00,
+          3.0338e-07,  1.8626e-09],
+        [ 1.2480e-06,  1.1930e-06,  2.9267e-07,  ...,  0.0000e+00,
+         -4.6566e-07,  2.7940e-09],
+        [ 2.5495e-07,  7.5903e-07, -2.8289e-07,  ...,  0.0000e+00,
+          3.1549e-07,  1.6298e-09]], device='cuda:0')
+Epoch 112, bias, value: tensor([-0.0066,  0.0194, -0.0133,  0.0128,  0.0245, -0.0166, -0.0257, -0.0164,
+        -0.0223, -0.0288], device='cuda:0'), grad: tensor([ 1.1139e-06,  6.1560e-07,  6.1020e-06, -1.4707e-05, -5.5972e-07,
+         2.6543e-06, -3.1497e-06,  2.4941e-06,  3.5372e-06,  1.8813e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 111, time 216.85, cls_loss 0.0037 cls_loss_mapping 0.0066 cls_loss_causal 0.5833 re_mapping 0.0077 re_causal 0.0244 /// teacc 99.01 lr 0.00010000
+Epoch 113, weight, value: tensor([[-0.1097, -0.0685, -0.0530,  ..., -0.0185, -0.0332, -0.0113],
+        [-0.0332,  0.0724, -0.0567,  ...,  0.0136, -0.0161, -0.0630],
+        [ 0.0416, -0.0823, -0.0632,  ..., -0.0443,  0.0762, -0.0226],
+        ...,
+        [-0.0806, -0.0643,  0.0727,  ...,  0.0480, -0.1159,  0.0051],
+        [ 0.0455,  0.0180, -0.1444,  ..., -0.0283,  0.0911, -0.0149],
+        [-0.0893, -0.0717,  0.0324,  ..., -0.0014, -0.0744, -0.0441]],
+       device='cuda:0'), grad: tensor([[ 3.7670e-05,  2.4021e-05,  8.2888e-08,  ...,  0.0000e+00,
+          3.3621e-07,  0.0000e+00],
+        [-9.7416e-07, -1.2167e-05,  1.2014e-07,  ...,  0.0000e+00,
+         -4.0513e-08,  0.0000e+00],
+        [-2.1439e-06,  1.5730e-06,  2.0582e-07,  ...,  0.0000e+00,
+         -2.2743e-06,  0.0000e+00],
+        ...,
+        [ 7.2923e-07,  9.1549e-07,  2.8848e-07,  ...,  0.0000e+00,
+          8.1770e-07,  0.0000e+00],
+        [ 2.9713e-05,  2.0489e-05,  2.0233e-07,  ...,  0.0000e+00,
+          2.5798e-06,  0.0000e+00],
+        [ 2.5630e-06,  1.8785e-06, -2.8056e-07,  ...,  0.0000e+00,
+         -9.4995e-07,  0.0000e+00]], device='cuda:0')
+Epoch 113, bias, value: tensor([-0.0069,  0.0193, -0.0131,  0.0121,  0.0245, -0.0164, -0.0255, -0.0173,
+        -0.0226, -0.0276], device='cuda:0'), grad: tensor([ 6.6757e-05, -1.1310e-05,  4.1388e-06,  5.6699e-06,  2.6841e-06,
+         9.9361e-05, -2.1636e-04,  1.0394e-05,  6.1333e-05, -2.2799e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 112, time 216.79, cls_loss 0.0024 cls_loss_mapping 0.0052 cls_loss_causal 0.5822 re_mapping 0.0076 re_causal 0.0246 /// teacc 98.78 lr 0.00010000
+Epoch 114, weight, value: tensor([[-0.1102, -0.0688, -0.0532,  ..., -0.0186, -0.0333, -0.0112],
+        [-0.0342,  0.0725, -0.0568,  ...,  0.0136, -0.0167, -0.0631],
+        [ 0.0418, -0.0825, -0.0636,  ..., -0.0443,  0.0766, -0.0226],
+        ...,
+        [-0.0809, -0.0643,  0.0728,  ...,  0.0480, -0.1161,  0.0051],
+        [ 0.0459,  0.0182, -0.1447,  ..., -0.0283,  0.0914, -0.0152],
+        [-0.0895, -0.0723,  0.0324,  ..., -0.0014, -0.0746, -0.0441]],
+       device='cuda:0'), grad: tensor([[ 1.1504e-05,  5.8450e-06,  6.1933e-08,  ...,  0.0000e+00,
+          3.6620e-06,  8.5449e-08],
+        [ 7.8045e-07, -6.1560e-07,  2.7963e-07,  ...,  0.0000e+00,
+          6.9384e-07,  8.3819e-09],
+        [-2.7284e-05,  5.4110e-07,  1.0268e-07,  ...,  0.0000e+00,
+         -3.7283e-05,  1.2573e-08],
+        ...,
+        [ 1.4439e-05,  1.0873e-07, -2.1681e-06,  ...,  0.0000e+00,
+          2.1592e-05,  3.1898e-08],
+        [ 5.2340e-06,  1.0394e-06,  7.4506e-08,  ...,  0.0000e+00,
+          2.8312e-06,  1.9488e-07],
+        [ 1.0468e-06,  2.4331e-07,  1.0617e-06,  ...,  0.0000e+00,
+          5.8906e-07,  6.9849e-08]], device='cuda:0')
+Epoch 114, bias, value: tensor([-0.0074,  0.0188, -0.0132,  0.0121,  0.0248, -0.0165, -0.0253, -0.0171,
+        -0.0225, -0.0273], device='cuda:0'), grad: tensor([ 1.8865e-05,  2.1700e-06, -7.9393e-05,  1.5020e-05,  2.0023e-06,
+        -4.8168e-06, -1.3210e-05,  4.2975e-05,  1.0535e-05,  5.9046e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 113, time 216.89, cls_loss 0.0035 cls_loss_mapping 0.0062 cls_loss_causal 0.5871 re_mapping 0.0075 re_causal 0.0226 /// teacc 99.07 lr 0.00010000
+Epoch 115, weight, value: tensor([[-0.1102, -0.0686, -0.0534,  ..., -0.0187, -0.0326, -0.0103],
+        [-0.0351,  0.0732, -0.0571,  ...,  0.0136, -0.0166, -0.0635],
+        [ 0.0420, -0.0834, -0.0642,  ..., -0.0444,  0.0768, -0.0228],
+        ...,
+        [-0.0811, -0.0645,  0.0735,  ...,  0.0481, -0.1166,  0.0049],
+        [ 0.0462,  0.0179, -0.1452,  ..., -0.0283,  0.0916, -0.0157],
+        [-0.0909, -0.0729,  0.0320,  ..., -0.0014, -0.0753, -0.0444]],
+       device='cuda:0'), grad: tensor([[-1.4016e-07,  2.2305e-07,  1.8394e-08,  ...,  0.0000e+00,
+          2.9453e-07,  0.0000e+00],
+        [ 3.8147e-06, -5.9567e-06,  6.1747e-07,  ...,  0.0000e+00,
+          2.4065e-06,  0.0000e+00],
+        [ 3.3770e-06,  3.2093e-06,  6.9663e-07,  ...,  0.0000e+00,
+          2.6859e-06,  0.0000e+00],
+        ...,
+        [-1.2219e-06,  1.6214e-06, -1.9027e-06,  ...,  0.0000e+00,
+          2.8196e-07,  0.0000e+00],
+        [-2.4930e-05, -1.7896e-05,  7.1479e-08,  ...,  0.0000e+00,
+         -1.8895e-05,  0.0000e+00],
+        [ 1.5581e-06,  1.0543e-06,  5.8440e-08,  ...,  0.0000e+00,
+          1.2899e-06,  0.0000e+00]], device='cuda:0')
+Epoch 115, bias, value: tensor([-0.0066,  0.0190, -0.0139,  0.0110,  0.0253, -0.0157, -0.0256, -0.0166,
+        -0.0230, -0.0277], device='cuda:0'), grad: tensor([-4.8935e-05,  3.5949e-07,  1.6853e-05,  5.4017e-06,  2.1327e-06,
+         1.5765e-05,  3.3647e-05, -5.9754e-06, -4.7952e-05,  2.8715e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 114, time 216.93, cls_loss 0.0032 cls_loss_mapping 0.0064 cls_loss_causal 0.5795 re_mapping 0.0075 re_causal 0.0238 /// teacc 98.93 lr 0.00010000
+Epoch 116, weight, value: tensor([[-0.1108, -0.0685, -0.0534,  ..., -0.0182, -0.0326, -0.0094],
+        [-0.0354,  0.0742, -0.0572,  ...,  0.0136, -0.0164, -0.0644],
+        [ 0.0420, -0.0844, -0.0645,  ..., -0.0444,  0.0771, -0.0234],
+        ...,
+        [-0.0831, -0.0646,  0.0738,  ...,  0.0481, -0.1176,  0.0048],
+        [ 0.0473,  0.0177, -0.1455,  ..., -0.0286,  0.0931, -0.0163],
+        [-0.0941, -0.0736,  0.0319,  ..., -0.0015, -0.0769, -0.0451]],
+       device='cuda:0'), grad: tensor([[ 5.2482e-05,  3.0115e-05,  1.7951e-07,  ...,  0.0000e+00,
+          1.3085e-07,  0.0000e+00],
+        [ 5.0850e-06, -5.2035e-05,  6.7800e-07,  ...,  0.0000e+00,
+          2.6682e-07,  0.0000e+00],
+        [ 1.3530e-05,  4.6521e-05,  2.7218e-07,  ...,  0.0000e+00,
+          2.3954e-06,  0.0000e+00],
+        ...,
+        [ 1.3188e-06,  2.5500e-06,  7.4040e-07,  ...,  0.0000e+00,
+          1.5413e-07,  0.0000e+00],
+        [ 4.1395e-05,  2.6360e-05,  7.0361e-07,  ...,  0.0000e+00,
+         -5.4389e-06,  0.0000e+00],
+        [ 3.3248e-06,  1.1846e-05,  9.1940e-06,  ...,  0.0000e+00,
+          3.3318e-07,  0.0000e+00]], device='cuda:0')
+Epoch 116, bias, value: tensor([-0.0061,  0.0194, -0.0149,  0.0114,  0.0251, -0.0159, -0.0255, -0.0164,
+        -0.0223, -0.0282], device='cuda:0'), grad: tensor([-1.0663e-04, -8.0049e-05,  8.9586e-05,  9.0823e-06, -4.4820e-07,
+         1.2070e-04, -1.4281e-04,  1.0118e-05,  6.5327e-05,  3.5554e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 115, time 216.79, cls_loss 0.0035 cls_loss_mapping 0.0075 cls_loss_causal 0.5745 re_mapping 0.0078 re_causal 0.0238 /// teacc 98.91 lr 0.00010000
+Epoch 117, weight, value: tensor([[-0.1122, -0.0700, -0.0536,  ..., -0.0181, -0.0325, -0.0094],
+        [-0.0360,  0.0758, -0.0577,  ...,  0.0136, -0.0167, -0.0644],
+        [ 0.0427, -0.0848, -0.0649,  ..., -0.0445,  0.0780, -0.0234],
+        ...,
+        [-0.0834, -0.0662,  0.0744,  ...,  0.0480, -0.1181,  0.0048],
+        [ 0.0468,  0.0167, -0.1464,  ..., -0.0287,  0.0923, -0.0163],
+        [-0.0943, -0.0748,  0.0311,  ..., -0.0015, -0.0772, -0.0451]],
+       device='cuda:0'), grad: tensor([[-3.8505e-05,  1.1139e-05,  8.4843e-07,  ...,  0.0000e+00,
+         -5.7250e-05,  0.0000e+00],
+        [ 1.9670e-06, -2.3231e-05,  2.0619e-06,  ...,  0.0000e+00,
+          1.2264e-05,  0.0000e+00],
+        [-8.5175e-05,  3.9563e-06, -1.0484e-04,  ...,  0.0000e+00,
+         -2.4104e-04,  0.0000e+00],
+        ...,
+        [ 8.5950e-05,  1.4687e-06,  9.8825e-05,  ...,  0.0000e+00,
+          2.1172e-04,  0.0000e+00],
+        [ 2.6166e-05,  4.1053e-06,  1.4445e-06,  ...,  0.0000e+00,
+          4.6372e-05,  0.0000e+00],
+        [ 9.0823e-06,  8.3372e-06,  4.7721e-06,  ...,  0.0000e+00,
+          1.5572e-05,  0.0000e+00]], device='cuda:0')
+Epoch 117, bias, value: tensor([-0.0061,  0.0202, -0.0146,  0.0127,  0.0257, -0.0163, -0.0261, -0.0166,
+        -0.0236, -0.0288], device='cuda:0'), grad: tensor([ 1.3137e-04,  1.4052e-05, -4.2105e-04,  2.5451e-05,  8.6874e-06,
+         9.1940e-06, -1.8597e-05,  3.7074e-04,  1.1367e-04, -2.3365e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 116, time 216.84, cls_loss 0.0037 cls_loss_mapping 0.0075 cls_loss_causal 0.5904 re_mapping 0.0073 re_causal 0.0244 /// teacc 98.96 lr 0.00010000
+Epoch 118, weight, value: tensor([[-0.1125, -0.0710, -0.0537,  ..., -0.0181, -0.0328, -0.0094],
+        [-0.0365,  0.0746, -0.0595,  ...,  0.0136, -0.0188, -0.0648],
+        [ 0.0427, -0.0857, -0.0652,  ..., -0.0445,  0.0783, -0.0234],
+        ...,
+        [-0.0837, -0.0644,  0.0758,  ...,  0.0481, -0.1164,  0.0048],
+        [ 0.0470,  0.0166, -0.1464,  ..., -0.0288,  0.0927, -0.0165],
+        [-0.0952, -0.0762,  0.0310,  ..., -0.0015, -0.0780, -0.0456]],
+       device='cuda:0'), grad: tensor([[ 4.0582e-07,  2.2328e-07,  1.4412e-07,  ...,  1.6298e-09,
+          2.8405e-07,  1.3970e-09],
+        [ 1.2685e-06, -4.7684e-06,  4.4797e-07,  ...,  6.9849e-10,
+          1.1940e-06,  4.6566e-10],
+        [-3.3993e-06,  4.4852e-06,  1.2154e-07,  ...,  6.9849e-10,
+         -5.7630e-06,  4.6566e-10],
+        ...,
+        [ 1.3709e-06,  7.8045e-07,  3.2107e-07,  ...,  2.3283e-09,
+          1.4780e-06,  3.0268e-09],
+        [-1.1250e-05, -4.0531e-06,  4.4028e-07,  ...,  4.4238e-09,
+         -8.0243e-06,  5.5879e-09],
+        [ 7.1619e-07,  3.5204e-07, -4.0084e-06,  ...,  5.8208e-09,
+          6.1374e-07,  2.3283e-09]], device='cuda:0')
+Epoch 118, bias, value: tensor([-0.0058,  0.0196, -0.0151,  0.0125,  0.0252, -0.0164, -0.0254, -0.0157,
+        -0.0237, -0.0292], device='cuda:0'), grad: tensor([-5.2387e-07, -2.1365e-06, -2.2701e-07, -1.1377e-05,  8.3596e-06,
+         3.4302e-05,  3.8259e-06,  7.1004e-06, -1.9506e-05, -1.9863e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 117, time 216.68, cls_loss 0.0030 cls_loss_mapping 0.0065 cls_loss_causal 0.5465 re_mapping 0.0078 re_causal 0.0233 /// teacc 98.94 lr 0.00010000
+Epoch 119, weight, value: tensor([[-0.1140, -0.0718, -0.0538,  ..., -0.0181, -0.0335, -0.0093],
+        [-0.0391,  0.0730, -0.0611,  ...,  0.0136, -0.0203, -0.0653],
+        [ 0.0433, -0.0850, -0.0654,  ..., -0.0445,  0.0798, -0.0236],
+        ...,
+        [-0.0843, -0.0644,  0.0761,  ...,  0.0481, -0.1170,  0.0047],
+        [ 0.0473,  0.0164, -0.1472,  ..., -0.0288,  0.0934, -0.0179],
+        [-0.0954, -0.0744,  0.0315,  ..., -0.0015, -0.0786, -0.0447]],
+       device='cuda:0'), grad: tensor([[ 4.4680e-07,  1.4738e-07,  4.2375e-08,  ...,  0.0000e+00,
+         -4.9360e-07,  0.0000e+00],
+        [ 1.2144e-06, -2.4159e-06,  8.8941e-08,  ...,  0.0000e+00,
+          1.1167e-06,  0.0000e+00],
+        [-3.6001e-05,  7.4692e-07,  4.9826e-08,  ...,  0.0000e+00,
+         -3.1948e-05,  0.0000e+00],
+        ...,
+        [ 2.6882e-05,  6.9663e-07,  1.9139e-07,  ...,  0.0000e+00,
+          2.4423e-05,  0.0000e+00],
+        [ 3.1386e-06,  1.9697e-07,  2.5984e-07,  ...,  0.0000e+00,
+          2.4270e-06,  0.0000e+00],
+        [ 3.3667e-07,  3.2634e-06, -5.8627e-07,  ...,  0.0000e+00,
+         -2.1537e-07,  0.0000e+00]], device='cuda:0')
+Epoch 119, bias, value: tensor([-0.0062,  0.0182, -0.0142,  0.0125,  0.0256, -0.0168, -0.0244, -0.0157,
+        -0.0237, -0.0281], device='cuda:0'), grad: tensor([-8.8289e-06, -5.1595e-07, -5.6356e-05,  7.1377e-06,  7.4655e-06,
+        -1.4668e-08,  1.1930e-06,  4.9859e-05,  7.3016e-06, -7.1898e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 118, time 217.03, cls_loss 0.0028 cls_loss_mapping 0.0075 cls_loss_causal 0.5644 re_mapping 0.0077 re_causal 0.0236 /// teacc 98.94 lr 0.00010000
+Epoch 120, weight, value: tensor([[-0.1146, -0.0724, -0.0540,  ..., -0.0180, -0.0337, -0.0091],
+        [-0.0394,  0.0735, -0.0610,  ...,  0.0136, -0.0197, -0.0654],
+        [ 0.0432, -0.0857, -0.0671,  ..., -0.0445,  0.0801, -0.0237],
+        ...,
+        [-0.0847, -0.0645,  0.0766,  ...,  0.0481, -0.1173,  0.0047],
+        [ 0.0468,  0.0155, -0.1481,  ..., -0.0288,  0.0934, -0.0182],
+        [-0.0958, -0.0743,  0.0310,  ..., -0.0015, -0.0793, -0.0449]],
+       device='cuda:0'), grad: tensor([[ 1.0533e-06,  5.0291e-07,  1.6461e-07,  ...,  0.0000e+00,
+          4.8894e-08,  0.0000e+00],
+        [ 2.0815e-07,  5.1223e-08,  2.4750e-07,  ...,  0.0000e+00,
+          3.4133e-07,  0.0000e+00],
+        [-2.5760e-06,  1.0408e-07,  1.2061e-07,  ...,  0.0000e+00,
+         -4.3288e-06,  0.0000e+00],
+        ...,
+        [ 2.5914e-07,  2.7707e-08,  1.4603e-06,  ...,  0.0000e+00,
+          4.6007e-06,  0.0000e+00],
+        [ 1.8189e-06,  5.2527e-07,  6.6217e-07,  ...,  0.0000e+00,
+          2.2817e-06,  0.0000e+00],
+        [ 1.6158e-07,  2.4866e-07, -4.6194e-07,  ...,  0.0000e+00,
+          4.0233e-07,  0.0000e+00]], device='cuda:0')
+Epoch 120, bias, value: tensor([-0.0062,  0.0184, -0.0146,  0.0125,  0.0260, -0.0169, -0.0236, -0.0156,
+        -0.0248, -0.0283], device='cuda:0'), grad: tensor([-5.0031e-06,  1.9912e-06, -4.3660e-06, -5.1856e-05, -3.9069e-07,
+         1.6093e-05, -1.6257e-05,  4.0263e-05,  1.2830e-05,  6.7912e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 119, time 216.99, cls_loss 0.0030 cls_loss_mapping 0.0066 cls_loss_causal 0.5491 re_mapping 0.0076 re_causal 0.0232 /// teacc 99.05 lr 0.00010000
+Epoch 121, weight, value: tensor([[-0.1155, -0.0709, -0.0513,  ..., -0.0180, -0.0306, -0.0089],
+        [-0.0398,  0.0736, -0.0612,  ...,  0.0136, -0.0197, -0.0655],
+        [ 0.0429, -0.0862, -0.0685,  ..., -0.0445,  0.0793, -0.0238],
+        ...,
+        [-0.0850, -0.0646,  0.0773,  ...,  0.0481, -0.1175,  0.0046],
+        [ 0.0468,  0.0154, -0.1488,  ..., -0.0289,  0.0936, -0.0183],
+        [-0.0963, -0.0736,  0.0318,  ..., -0.0015, -0.0796, -0.0452]],
+       device='cuda:0'), grad: tensor([[ 1.9884e-07,  4.5216e-07,  1.8976e-07,  ...,  4.6566e-10,
+          2.5309e-07,  4.6566e-10],
+        [ 9.7789e-07, -2.7250e-06,  2.6845e-07,  ...,  2.3283e-10,
+          2.0005e-06,  2.3283e-10],
+        [-1.7220e-06,  5.0617e-07,  2.5914e-07,  ...,  2.3283e-10,
+         -5.4352e-06,  2.3283e-10],
+        ...,
+        [ 7.9582e-07,  1.2852e-06,  2.4717e-06,  ...,  9.3132e-10,
+          2.0303e-06,  1.1642e-09],
+        [-2.5928e-06, -1.4026e-06,  1.4971e-07,  ...,  5.8208e-09,
+         -3.2969e-06,  6.7521e-09],
+        [ 1.8757e-06,  3.5800e-06, -2.1681e-05,  ...,  9.3132e-10,
+          2.5406e-06,  9.3132e-10]], device='cuda:0')
+Epoch 121, bias, value: tensor([-0.0033,  0.0184, -0.0158,  0.0128,  0.0230, -0.0167, -0.0240, -0.0153,
+        -0.0255, -0.0274], device='cuda:0'), grad: tensor([ 3.8184e-07,  2.7157e-06, -1.0476e-05,  8.4266e-06,  1.2061e-06,
+         5.0217e-05,  2.6785e-06,  1.4625e-05, -3.7625e-06, -6.6161e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 120, time 217.18, cls_loss 0.0022 cls_loss_mapping 0.0047 cls_loss_causal 0.5488 re_mapping 0.0082 re_causal 0.0242 /// teacc 98.91 lr 0.00010000
+Epoch 122, weight, value: tensor([[-0.1164, -0.0717, -0.0513,  ..., -0.0180, -0.0308, -0.0087],
+        [-0.0402,  0.0737, -0.0614,  ...,  0.0136, -0.0198, -0.0657],
+        [ 0.0431, -0.0866, -0.0688,  ..., -0.0445,  0.0794, -0.0242],
+        ...,
+        [-0.0862, -0.0647,  0.0774,  ...,  0.0481, -0.1183,  0.0046],
+        [ 0.0469,  0.0155, -0.1503,  ..., -0.0290,  0.0940, -0.0183],
+        [-0.0951, -0.0737,  0.0320,  ..., -0.0016, -0.0789, -0.0453]],
+       device='cuda:0'), grad: tensor([[ 1.5469e-06, -6.5658e-08,  2.2328e-07,  ...,  0.0000e+00,
+          2.5965e-06,  0.0000e+00],
+        [ 1.2610e-06, -5.1968e-06,  3.8743e-07,  ...,  0.0000e+00,
+          1.5795e-06,  0.0000e+00],
+        [-1.8036e-04, -5.0008e-05, -4.6402e-05,  ...,  0.0000e+00,
+         -2.9182e-04,  0.0000e+00],
+        ...,
+        [ 2.2333e-06,  1.2796e-06,  1.8114e-07,  ...,  0.0000e+00,
+          3.9004e-06,  0.0000e+00],
+        [ 1.6880e-04,  4.9114e-05,  4.3899e-05,  ...,  0.0000e+00,
+          2.7275e-04,  0.0000e+00],
+        [ 9.0105e-08,  2.4214e-07, -6.3423e-07,  ...,  0.0000e+00,
+          1.9348e-07,  0.0000e+00]], device='cuda:0')
+Epoch 122, bias, value: tensor([-0.0035,  0.0184, -0.0159,  0.0130,  0.0228, -0.0169, -0.0234, -0.0155,
+        -0.0263, -0.0267], device='cuda:0'), grad: tensor([-1.2219e-06, -4.2096e-06, -2.8872e-04,  1.1525e-07,  5.3681e-06,
+         4.2766e-06,  7.3016e-06,  4.0382e-06,  2.7370e-04, -3.4249e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 121, time 217.06, cls_loss 0.0027 cls_loss_mapping 0.0058 cls_loss_causal 0.5570 re_mapping 0.0077 re_causal 0.0228 /// teacc 98.93 lr 0.00010000
+Epoch 123, weight, value: tensor([[-0.1176, -0.0726, -0.0514,  ..., -0.0180, -0.0310, -0.0086],
+        [-0.0407,  0.0739, -0.0616,  ...,  0.0136, -0.0198, -0.0657],
+        [ 0.0432, -0.0871, -0.0690,  ..., -0.0445,  0.0798, -0.0242],
+        ...,
+        [-0.0869, -0.0648,  0.0777,  ...,  0.0481, -0.1189,  0.0046],
+        [ 0.0480,  0.0152, -0.1507,  ..., -0.0291,  0.0954, -0.0184],
+        [-0.0970, -0.0739,  0.0320,  ..., -0.0016, -0.0808, -0.0454]],
+       device='cuda:0'), grad: tensor([[ 3.9488e-06, -5.5647e-07,  7.0781e-08,  ...,  0.0000e+00,
+          1.1241e-06,  0.0000e+00],
+        [ 4.7497e-06, -2.1644e-06,  7.8883e-07,  ...,  0.0000e+00,
+          3.2969e-06,  0.0000e+00],
+        [ 4.9248e-06,  5.0813e-06,  2.8173e-07,  ...,  0.0000e+00,
+          3.6806e-06,  0.0000e+00],
+        ...,
+        [ 4.5151e-06,  5.0142e-06, -1.5814e-06,  ...,  0.0000e+00,
+          4.5374e-06,  0.0000e+00],
+        [-2.0102e-05, -7.2271e-06,  6.1002e-08,  ...,  0.0000e+00,
+         -3.3349e-05,  0.0000e+00],
+        [ 3.6843e-06,  5.0999e-06, -7.2224e-07,  ...,  0.0000e+00,
+          2.3693e-06,  0.0000e+00]], device='cuda:0')
+Epoch 123, bias, value: tensor([-0.0038,  0.0184, -0.0161,  0.0152,  0.0229, -0.0164, -0.0239, -0.0156,
+        -0.0246, -0.0289], device='cuda:0'), grad: tensor([-5.3227e-05,  9.8720e-06,  1.7166e-05,  2.7746e-05,  1.0543e-05,
+         1.3614e-04, -1.2481e-04,  1.2159e-05, -6.0499e-05,  2.5004e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 122, time 216.71, cls_loss 0.0024 cls_loss_mapping 0.0055 cls_loss_causal 0.5488 re_mapping 0.0071 re_causal 0.0227 /// teacc 98.91 lr 0.00010000
+Epoch 124, weight, value: tensor([[-0.1183, -0.0729, -0.0514,  ..., -0.0180, -0.0311, -0.0086],
+        [-0.0409,  0.0746, -0.0617,  ...,  0.0136, -0.0183, -0.0658],
+        [ 0.0432, -0.0888, -0.0692,  ..., -0.0445,  0.0787, -0.0242],
+        ...,
+        [-0.0871, -0.0649,  0.0780,  ...,  0.0481, -0.1191,  0.0046],
+        [ 0.0482,  0.0151, -0.1510,  ..., -0.0291,  0.0956, -0.0184],
+        [-0.0978, -0.0743,  0.0312,  ..., -0.0016, -0.0803, -0.0455]],
+       device='cuda:0'), grad: tensor([[ 1.3635e-06,  1.6708e-06,  2.5891e-07,  ...,  0.0000e+00,
+          8.5356e-07,  0.0000e+00],
+        [ 2.8219e-07, -1.7118e-06,  6.7893e-07,  ...,  0.0000e+00,
+          1.7900e-06,  0.0000e+00],
+        [ 3.2410e-07,  1.2163e-06,  9.2760e-07,  ...,  0.0000e+00,
+          9.0450e-06,  0.0000e+00],
+        ...,
+        [ 2.2212e-07,  1.1735e-06, -1.5609e-06,  ...,  0.0000e+00,
+          3.1944e-06,  0.0000e+00],
+        [ 2.1122e-06,  2.0750e-06,  3.5809e-07,  ...,  0.0000e+00,
+          1.2331e-05,  0.0000e+00],
+        [ 1.3327e-06,  8.0187e-07, -5.2191e-06,  ...,  0.0000e+00,
+          1.8496e-06,  0.0000e+00]], device='cuda:0')
+Epoch 124, bias, value: tensor([-0.0034,  0.0191, -0.0177,  0.0151,  0.0234, -0.0160, -0.0239, -0.0153,
+        -0.0249, -0.0296], device='cuda:0'), grad: tensor([ 5.2080e-06,  3.2969e-06,  1.8537e-05, -4.6581e-05,  1.5177e-05,
+        -5.6177e-06, -7.8157e-06,  1.9781e-06,  2.9013e-05, -1.3143e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 123, time 216.85, cls_loss 0.0033 cls_loss_mapping 0.0070 cls_loss_causal 0.5597 re_mapping 0.0076 re_causal 0.0225 /// teacc 98.99 lr 0.00010000
+Epoch 125, weight, value: tensor([[-0.1193, -0.0732, -0.0515,  ..., -0.0180, -0.0313, -0.0086],
+        [-0.0414,  0.0747, -0.0619,  ...,  0.0136, -0.0185, -0.0658],
+        [ 0.0431, -0.0892, -0.0698,  ..., -0.0445,  0.0784, -0.0242],
+        ...,
+        [-0.0876, -0.0650,  0.0784,  ...,  0.0481, -0.1196,  0.0046],
+        [ 0.0477,  0.0144, -0.1515,  ..., -0.0292,  0.0956, -0.0184],
+        [-0.0988, -0.0739,  0.0337,  ..., -0.0016, -0.0813, -0.0455]],
+       device='cuda:0'), grad: tensor([[ 2.3115e-06,  2.6170e-07,  9.3132e-08,  ...,  0.0000e+00,
+          3.7290e-06,  0.0000e+00],
+        [ 2.1048e-06, -3.2708e-06,  2.3702e-07,  ...,  0.0000e+00,
+          3.9376e-06,  0.0000e+00],
+        [-1.3575e-05,  2.7101e-07,  7.4971e-08,  ...,  0.0000e+00,
+         -2.6241e-05,  0.0000e+00],
+        ...,
+        [ 1.3411e-06,  6.0536e-07, -2.1420e-06,  ...,  0.0000e+00,
+          2.6487e-06,  0.0000e+00],
+        [ 3.8408e-06,  1.2554e-06,  1.2387e-07,  ...,  0.0000e+00,
+          6.4038e-06,  0.0000e+00],
+        [ 7.1805e-07,  3.9628e-07,  1.0710e-06,  ...,  0.0000e+00,
+          1.0096e-06,  0.0000e+00]], device='cuda:0')
+Epoch 125, bias, value: tensor([-0.0036,  0.0190, -0.0183,  0.0153,  0.0214, -0.0147, -0.0246, -0.0151,
+        -0.0258, -0.0281], device='cuda:0'), grad: tensor([ 9.2015e-06,  6.0834e-06, -6.2108e-05,  1.5497e-05,  3.0734e-06,
+        -1.2666e-05,  1.4044e-05,  1.2349e-06,  1.9923e-05,  5.7518e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 124, time 216.86, cls_loss 0.0029 cls_loss_mapping 0.0064 cls_loss_causal 0.5490 re_mapping 0.0072 re_causal 0.0218 /// teacc 99.04 lr 0.00010000
+Epoch 126, weight, value: tensor([[-0.1202, -0.0735, -0.0517,  ..., -0.0180, -0.0315, -0.0085],
+        [-0.0417,  0.0751, -0.0623,  ...,  0.0136, -0.0186, -0.0658],
+        [ 0.0437, -0.0894, -0.0700,  ..., -0.0445,  0.0792, -0.0242],
+        ...,
+        [-0.0884, -0.0652,  0.0793,  ...,  0.0481, -0.1203,  0.0046],
+        [ 0.0485,  0.0134, -0.1522,  ..., -0.0294,  0.0966, -0.0185],
+        [-0.1023, -0.0750,  0.0317,  ..., -0.0016, -0.0832, -0.0455]],
+       device='cuda:0'), grad: tensor([[ 4.7460e-06,  7.5437e-08,  4.3772e-08,  ...,  4.6566e-10,
+          7.0557e-06,  0.0000e+00],
+        [ 2.1942e-06, -4.2468e-07,  1.8626e-07,  ..., -7.4506e-09,
+          6.9514e-06,  0.0000e+00],
+        [-1.5073e-05,  2.0629e-07,  1.2154e-07,  ...,  9.3132e-10,
+         -2.6882e-05,  0.0000e+00],
+        ...,
+        [ 1.8543e-06,  8.8755e-07,  1.0710e-06,  ...,  3.2596e-09,
+          2.9821e-06,  0.0000e+00],
+        [ 3.8650e-07,  1.5367e-08,  3.7299e-07,  ...,  1.3970e-09,
+          1.2126e-06,  0.0000e+00],
+        [ 2.2678e-07,  3.3155e-07, -8.2096e-07,  ...,  4.6566e-10,
+          2.5751e-07,  0.0000e+00]], device='cuda:0')
+Epoch 126, bias, value: tensor([-0.0038,  0.0192, -0.0179,  0.0145,  0.0234, -0.0139, -0.0243, -0.0147,
+        -0.0255, -0.0304], device='cuda:0'), grad: tensor([ 1.9699e-05,  1.3620e-05, -6.5684e-05,  1.0774e-05,  6.6170e-07,
+        -8.7731e-07,  1.1280e-05,  8.7023e-06,  4.3921e-06, -2.5034e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 125, time 216.82, cls_loss 0.0022 cls_loss_mapping 0.0047 cls_loss_causal 0.5731 re_mapping 0.0068 re_causal 0.0230 /// teacc 99.05 lr 0.00010000
+Epoch 127, weight, value: tensor([[-0.1209, -0.0738, -0.0518,  ..., -0.0180, -0.0317, -0.0084],
+        [-0.0417,  0.0750, -0.0623,  ...,  0.0136, -0.0190, -0.0659],
+        [ 0.0447, -0.0884, -0.0694,  ..., -0.0446,  0.0803, -0.0244],
+        ...,
+        [-0.0887, -0.0653,  0.0799,  ...,  0.0481, -0.1205,  0.0046],
+        [ 0.0483,  0.0132, -0.1538,  ..., -0.0294,  0.0963, -0.0186],
+        [-0.1027, -0.0750,  0.0327,  ..., -0.0016, -0.0836, -0.0456]],
+       device='cuda:0'), grad: tensor([[ 4.8662e-07,  3.7812e-07,  1.3970e-07,  ...,  1.1642e-08,
+         -3.2373e-06,  0.0000e+00],
+        [ 3.4785e-07, -1.2144e-06,  1.9558e-07,  ...,  2.2352e-08,
+          1.7192e-06,  0.0000e+00],
+        [-1.0431e-06,  1.6913e-06,  1.4342e-07,  ...,  1.0710e-08,
+         -2.4848e-06,  0.0000e+00],
+        ...,
+        [ 4.4098e-07,  7.8231e-07,  1.3178e-07,  ...,  1.1642e-08,
+          7.5111e-07,  0.0000e+00],
+        [ 2.4978e-06,  1.1157e-06,  1.4622e-07,  ...,  2.3283e-08,
+          1.6429e-06,  0.0000e+00],
+        [ 3.3854e-07,  3.5716e-07, -5.1688e-07,  ...,  2.4214e-08,
+          4.2655e-07,  0.0000e+00]], device='cuda:0')
+Epoch 127, bias, value: tensor([-0.0038,  0.0188, -0.0167,  0.0145,  0.0218, -0.0142, -0.0240, -0.0145,
+        -0.0257, -0.0293], device='cuda:0'), grad: tensor([-1.3411e-05,  5.3309e-06,  1.6727e-06, -2.1793e-06,  2.9176e-05,
+        -6.1318e-06, -2.7090e-05,  3.3341e-06,  8.5160e-06,  7.6648e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 126, time 216.67, cls_loss 0.0020 cls_loss_mapping 0.0048 cls_loss_causal 0.5456 re_mapping 0.0068 re_causal 0.0219 /// teacc 98.99 lr 0.00010000
+Epoch 128, weight, value: tensor([[-0.1228, -0.0747, -0.0518,  ..., -0.0180, -0.0318, -0.0084],
+        [-0.0420,  0.0754, -0.0627,  ...,  0.0136, -0.0193, -0.0662],
+        [ 0.0445, -0.0885, -0.0694,  ..., -0.0446,  0.0807, -0.0245],
+        ...,
+        [-0.0892, -0.0654,  0.0804,  ...,  0.0480, -0.1209,  0.0045],
+        [ 0.0502,  0.0138, -0.1542,  ..., -0.0296,  0.0970, -0.0186],
+        [-0.1028, -0.0752,  0.0327,  ..., -0.0016, -0.0837, -0.0463]],
+       device='cuda:0'), grad: tensor([[ 1.6298e-07,  2.2119e-07,  7.9628e-08,  ...,  0.0000e+00,
+         -4.3772e-08,  0.0000e+00],
+        [ 2.1886e-08, -2.1040e-05,  1.8161e-08,  ...,  0.0000e+00,
+         -1.4551e-05,  0.0000e+00],
+        [ 2.2538e-07,  1.7956e-05,  5.6811e-08,  ...,  0.0000e+00,
+          1.3120e-05,  0.0000e+00],
+        ...,
+        [ 6.5193e-09,  1.5907e-06,  2.4121e-07,  ...,  0.0000e+00,
+          8.0466e-07,  0.0000e+00],
+        [ 7.9628e-08,  2.0303e-07,  2.0768e-07,  ...,  0.0000e+00,
+          1.6158e-07,  4.6566e-10],
+        [ 1.7229e-08,  3.2363e-07, -2.3702e-07,  ...,  0.0000e+00,
+          1.3597e-07,  4.6566e-10]], device='cuda:0')
+Epoch 128, bias, value: tensor([-0.0047,  0.0189, -0.0165,  0.0143,  0.0218, -0.0140, -0.0248, -0.0143,
+        -0.0246, -0.0294], device='cuda:0'), grad: tensor([-8.3819e-09, -5.2184e-05,  4.6432e-05,  1.4044e-06, -2.0228e-06,
+         5.9977e-07, -5.5879e-08,  4.4033e-06,  1.6717e-06, -2.5565e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 127, time 216.72, cls_loss 0.0025 cls_loss_mapping 0.0049 cls_loss_causal 0.5354 re_mapping 0.0069 re_causal 0.0208 /// teacc 98.89 lr 0.00010000
+Epoch 129, weight, value: tensor([[-0.1238, -0.0757, -0.0520,  ..., -0.0180, -0.0319, -0.0083],
+        [-0.0425,  0.0754, -0.0629,  ...,  0.0136, -0.0194, -0.0663],
+        [ 0.0448, -0.0889, -0.0697,  ..., -0.0446,  0.0809, -0.0247],
+        ...,
+        [-0.0897, -0.0655,  0.0806,  ...,  0.0480, -0.1212,  0.0045],
+        [ 0.0500,  0.0131, -0.1547,  ..., -0.0296,  0.0972, -0.0186],
+        [-0.1034, -0.0756,  0.0325,  ..., -0.0016, -0.0841, -0.0464]],
+       device='cuda:0'), grad: tensor([[ 9.1502e-07,  1.3923e-07,  5.4715e-07,  ...,  0.0000e+00,
+          1.0449e-06,  0.0000e+00],
+        [ 1.3076e-06, -1.9640e-05, -8.4490e-06,  ...,  0.0000e+00,
+          9.1409e-07,  0.0000e+00],
+        [-1.0300e-06,  4.5262e-07, -9.8534e-07,  ...,  0.0000e+00,
+         -6.3255e-06,  0.0000e+00],
+        ...,
+        [ 2.1100e-05,  7.3761e-06,  1.4544e-05,  ...,  0.0000e+00,
+          6.8136e-06,  0.0000e+00],
+        [-2.8491e-05,  4.1863e-07, -1.4871e-05,  ...,  0.0000e+00,
+         -7.9423e-06,  0.0000e+00],
+        [ 4.3623e-06,  1.0051e-05,  6.5453e-06,  ...,  0.0000e+00,
+          1.3262e-06,  0.0000e+00]], device='cuda:0')
+Epoch 129, bias, value: tensor([-0.0049,  0.0187, -0.0168,  0.0143,  0.0222, -0.0151, -0.0228, -0.0143,
+        -0.0252, -0.0295], device='cuda:0'), grad: tensor([ 4.5002e-06, -4.6968e-05, -8.1509e-06,  2.8107e-06,  4.6343e-06,
+         1.9800e-06,  9.0003e-06,  1.1373e-04, -1.2362e-04,  4.2021e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 128, time 216.79, cls_loss 0.0032 cls_loss_mapping 0.0056 cls_loss_causal 0.5704 re_mapping 0.0075 re_causal 0.0219 /// teacc 99.00 lr 0.00010000
+Epoch 130, weight, value: tensor([[-0.1255, -0.0782, -0.0515,  ..., -0.0180, -0.0317, -0.0080],
+        [-0.0431,  0.0754, -0.0633,  ...,  0.0136, -0.0197, -0.0665],
+        [ 0.0457, -0.0893, -0.0710,  ..., -0.0446,  0.0820, -0.0252],
+        ...,
+        [-0.0910, -0.0656,  0.0809,  ...,  0.0480, -0.1220,  0.0045],
+        [ 0.0501,  0.0130, -0.1552,  ..., -0.0297,  0.0976, -0.0187],
+        [-0.1040, -0.0757,  0.0326,  ..., -0.0016, -0.0846, -0.0465]],
+       device='cuda:0'), grad: tensor([[ 4.0093e-07,  4.5169e-08,  1.9558e-08,  ...,  0.0000e+00,
+          3.5716e-07,  0.0000e+00],
+        [ 2.8871e-07, -1.5236e-06,  4.2375e-08,  ...,  0.0000e+00,
+          3.2829e-07,  0.0000e+00],
+        [-3.0315e-07,  1.7276e-07,  1.2107e-08,  ...,  0.0000e+00,
+         -5.7183e-07,  0.0000e+00],
+        ...,
+        [ 1.0580e-06,  7.7160e-07, -1.1036e-07,  ...,  0.0000e+00,
+          1.0915e-06,  0.0000e+00],
+        [-2.5630e-06,  2.3423e-07,  2.6077e-08,  ...,  0.0000e+00,
+         -3.0082e-06,  0.0000e+00],
+        [ 8.9779e-07,  2.0815e-07, -6.4727e-08,  ...,  0.0000e+00,
+          7.3109e-07,  0.0000e+00]], device='cuda:0')
+Epoch 130, bias, value: tensor([-0.0075,  0.0184, -0.0160,  0.0135,  0.0224, -0.0145, -0.0222, -0.0144,
+        -0.0253, -0.0283], device='cuda:0'), grad: tensor([-2.3320e-05, -9.6764e-07,  1.1623e-05,  1.9409e-06,  8.7218e-07,
+        -1.1669e-06,  4.9807e-06,  5.7742e-06, -5.1521e-06,  5.3793e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 129, time 216.62, cls_loss 0.0030 cls_loss_mapping 0.0070 cls_loss_causal 0.5318 re_mapping 0.0069 re_causal 0.0213 /// teacc 98.95 lr 0.00010000
+Epoch 131, weight, value: tensor([[-0.1264, -0.0786, -0.0515,  ..., -0.0180, -0.0320, -0.0072],
+        [-0.0434,  0.0757, -0.0641,  ...,  0.0136, -0.0198, -0.0672],
+        [ 0.0458, -0.0895, -0.0711,  ..., -0.0446,  0.0822, -0.0270],
+        ...,
+        [-0.0934, -0.0658,  0.0807,  ...,  0.0480, -0.1235,  0.0045],
+        [ 0.0506,  0.0131, -0.1556,  ..., -0.0298,  0.0981, -0.0188],
+        [-0.1047, -0.0759,  0.0328,  ..., -0.0017, -0.0851, -0.0469]],
+       device='cuda:0'), grad: tensor([[ 2.1653e-07,  2.4214e-07,  2.8498e-07,  ...,  4.6566e-10,
+          1.7481e-06,  0.0000e+00],
+        [ 1.1874e-07,  5.4315e-06,  1.8165e-05,  ...,  2.3283e-09,
+          8.9109e-06,  0.0000e+00],
+        [-1.1176e-06,  3.5623e-07,  1.8207e-07,  ...,  3.2596e-09,
+         -4.1455e-05,  0.0000e+00],
+        ...,
+        [ 1.0198e-07,  1.1232e-06, -1.0990e-06,  ...,  1.3970e-09,
+          3.3434e-06,  0.0000e+00],
+        [ 6.4401e-07,  4.9034e-07,  3.8045e-07,  ...,  7.9162e-09,
+          4.5449e-06,  0.0000e+00],
+        [ 7.6368e-08, -2.2843e-05, -6.7890e-05,  ...,  4.1910e-09,
+          1.1278e-06,  0.0000e+00]], device='cuda:0')
+Epoch 131, bias, value: tensor([-0.0074,  0.0183, -0.0161,  0.0155,  0.0225, -0.0157, -0.0225, -0.0158,
+        -0.0253, -0.0278], device='cuda:0'), grad: tensor([ 4.1872e-06,  8.3983e-05, -7.5340e-05,  4.7177e-05,  1.5986e-04,
+         9.7454e-06,  7.3239e-06,  7.3314e-06,  1.0423e-05, -2.5487e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 130, time 216.92, cls_loss 0.0027 cls_loss_mapping 0.0058 cls_loss_causal 0.5431 re_mapping 0.0073 re_causal 0.0219 /// teacc 98.97 lr 0.00010000
+Epoch 132, weight, value: tensor([[-0.1270, -0.0790, -0.0515,  ..., -0.0180, -0.0321, -0.0071],
+        [-0.0438,  0.0757, -0.0645,  ...,  0.0136, -0.0200, -0.0672],
+        [ 0.0460, -0.0897, -0.0714,  ..., -0.0446,  0.0826, -0.0270],
+        ...,
+        [-0.0942, -0.0658,  0.0811,  ...,  0.0480, -0.1241,  0.0045],
+        [ 0.0514,  0.0131, -0.1562,  ..., -0.0299,  0.0990, -0.0188],
+        [-0.1052, -0.0759,  0.0332,  ..., -0.0017, -0.0858, -0.0469]],
+       device='cuda:0'), grad: tensor([[ 3.4183e-05,  3.4899e-05,  1.1502e-07,  ...,  0.0000e+00,
+          1.3867e-06,  0.0000e+00],
+        [-6.3106e-06, -1.5247e-04,  7.5577e-07,  ...,  0.0000e+00,
+         -6.9916e-05,  0.0000e+00],
+        [ 7.7039e-06,  1.3053e-04,  4.4703e-07,  ...,  0.0000e+00,
+          5.6863e-05,  0.0000e+00],
+        ...,
+        [ 8.4983e-07,  4.7684e-06, -1.5404e-06,  ...,  0.0000e+00,
+          2.4773e-06,  0.0000e+00],
+        [ 6.0024e-07,  7.9423e-06,  2.6124e-07,  ...,  0.0000e+00,
+         -3.4049e-06,  0.0000e+00],
+        [ 2.7716e-06,  8.2627e-06,  2.4308e-06,  ...,  0.0000e+00,
+          2.3171e-06,  0.0000e+00]], device='cuda:0')
+Epoch 132, bias, value: tensor([-0.0071,  0.0181, -0.0163,  0.0148,  0.0220, -0.0155, -0.0227, -0.0156,
+        -0.0250, -0.0273], device='cuda:0'), grad: tensor([ 1.1855e-04, -2.9826e-04,  2.6917e-04,  9.1642e-06, -4.8071e-05,
+         3.7789e-05, -1.3578e-04,  7.2904e-06,  1.2413e-05,  2.8193e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 131, time 216.88, cls_loss 0.0030 cls_loss_mapping 0.0060 cls_loss_causal 0.5564 re_mapping 0.0076 re_causal 0.0221 /// teacc 99.04 lr 0.00010000
+Epoch 133, weight, value: tensor([[-0.1277, -0.0791, -0.0518,  ..., -0.0179, -0.0324, -0.0071],
+        [-0.0439,  0.0759, -0.0648,  ...,  0.0136, -0.0201, -0.0672],
+        [ 0.0466, -0.0901, -0.0720,  ..., -0.0446,  0.0832, -0.0271],
+        ...,
+        [-0.0944, -0.0659,  0.0817,  ...,  0.0480, -0.1244,  0.0045],
+        [ 0.0528,  0.0124, -0.1569,  ..., -0.0300,  0.1012, -0.0188],
+        [-0.1056, -0.0763,  0.0324,  ..., -0.0017, -0.0868, -0.0469]],
+       device='cuda:0'), grad: tensor([[ 1.0896e-07,  3.5996e-07,  1.1967e-06,  ..., -7.4506e-09,
+          2.8871e-08,  0.0000e+00],
+        [ 3.6787e-08, -2.2426e-06,  4.3102e-06,  ...,  4.6566e-10,
+          2.9337e-08,  0.0000e+00],
+        [ 4.7963e-08,  8.4331e-07,  2.6971e-06,  ...,  2.7940e-09,
+         -7.4040e-08,  0.0000e+00],
+        ...,
+        [ 2.2352e-08,  1.2256e-06,  1.5274e-05,  ...,  4.6566e-10,
+          5.6811e-08,  0.0000e+00],
+        [ 5.6345e-08,  8.3167e-07,  3.4180e-06,  ...,  1.8626e-09,
+         -3.0128e-07,  0.0000e+00],
+        [ 1.1548e-07,  7.5102e-06,  1.2326e-04,  ...,  3.2596e-09,
+          4.8429e-08,  0.0000e+00]], device='cuda:0')
+Epoch 133, bias, value: tensor([-0.0070,  0.0181, -0.0165,  0.0140,  0.0236, -0.0160, -0.0230, -0.0154,
+        -0.0237, -0.0282], device='cuda:0'), grad: tensor([ 3.5316e-06,  6.0052e-06,  6.1169e-06,  3.9451e-06, -2.7895e-04,
+         5.1558e-06,  1.0319e-05,  6.5804e-05,  8.5384e-06,  1.6975e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 132, time 216.94, cls_loss 0.0022 cls_loss_mapping 0.0040 cls_loss_causal 0.5397 re_mapping 0.0071 re_causal 0.0218 /// teacc 99.04 lr 0.00010000
+Epoch 134, weight, value: tensor([[-0.1280, -0.0790, -0.0528,  ..., -0.0176, -0.0324, -0.0071],
+        [-0.0442,  0.0762, -0.0654,  ...,  0.0137, -0.0202, -0.0672],
+        [ 0.0467, -0.0906, -0.0723,  ..., -0.0446,  0.0834, -0.0271],
+        ...,
+        [-0.0949, -0.0662,  0.0817,  ...,  0.0480, -0.1247,  0.0045],
+        [ 0.0531,  0.0125, -0.1574,  ..., -0.0303,  0.1016, -0.0188],
+        [-0.1063, -0.0765,  0.0326,  ..., -0.0020, -0.0876, -0.0469]],
+       device='cuda:0'), grad: tensor([[ 9.2667e-08,  1.6624e-07, -5.5395e-06,  ..., -2.3702e-07,
+         -1.6671e-06,  0.0000e+00],
+        [ 5.5414e-08, -2.2408e-06,  3.5064e-07,  ...,  6.9849e-09,
+          2.1048e-07,  0.0000e+00],
+        [-6.6264e-07,  2.1933e-07,  1.4016e-07,  ...,  2.8405e-08,
+         -4.3809e-06,  0.0000e+00],
+        ...,
+        [ 5.4948e-08,  5.2527e-07, -8.3726e-07,  ...,  1.0710e-08,
+          2.8638e-07,  0.0000e+00],
+        [ 2.0023e-08,  5.0897e-07,  2.4773e-06,  ...,  5.1223e-09,
+          6.6729e-07,  0.0000e+00],
+        [ 4.5169e-08,  4.3400e-07,  7.3574e-07,  ...,  1.5274e-07,
+          1.3188e-06,  0.0000e+00]], device='cuda:0')
+Epoch 134, bias, value: tensor([-0.0078,  0.0180, -0.0168,  0.0141,  0.0239, -0.0162, -0.0232, -0.0158,
+        -0.0235, -0.0275], device='cuda:0'), grad: tensor([-4.5896e-05, -1.0710e-06,  6.1095e-06, -9.9754e-04,  1.1794e-05,
+         9.9277e-04,  5.4389e-07,  1.2973e-06,  1.3970e-05,  1.6674e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 133, time 216.86, cls_loss 0.0020 cls_loss_mapping 0.0040 cls_loss_causal 0.5290 re_mapping 0.0068 re_causal 0.0214 /// teacc 99.06 lr 0.00010000
+Epoch 135, weight, value: tensor([[-0.1283, -0.0792, -0.0526,  ..., -0.0169, -0.0324, -0.0071],
+        [-0.0448,  0.0763, -0.0657,  ...,  0.0137, -0.0207, -0.0672],
+        [ 0.0474, -0.0907, -0.0726,  ..., -0.0446,  0.0844, -0.0271],
+        ...,
+        [-0.0952, -0.0664,  0.0823,  ...,  0.0480, -0.1249,  0.0045],
+        [ 0.0529,  0.0122, -0.1584,  ..., -0.0305,  0.1014, -0.0188],
+        [-0.1065, -0.0767,  0.0325,  ..., -0.0020, -0.0879, -0.0469]],
+       device='cuda:0'), grad: tensor([[ 2.0359e-06,  2.1663e-06,  2.0117e-07,  ...,  0.0000e+00,
+          6.1002e-08,  0.0000e+00],
+        [ 3.0641e-07, -9.6112e-06,  1.0375e-06,  ...,  0.0000e+00,
+          1.0384e-07,  0.0000e+00],
+        [ 3.1618e-07,  2.4457e-06,  3.8557e-07,  ...,  0.0000e+00,
+         -1.8347e-07,  0.0000e+00],
+        ...,
+        [ 8.6147e-08,  3.8017e-06, -1.2182e-06,  ...,  0.0000e+00,
+          1.7323e-07,  0.0000e+00],
+        [ 8.4713e-06,  5.7705e-06,  2.3423e-07,  ...,  0.0000e+00,
+          2.1942e-06,  0.0000e+00],
+        [ 2.3609e-07,  3.2410e-06,  2.4568e-06,  ...,  0.0000e+00,
+          1.6624e-07,  0.0000e+00]], device='cuda:0')
+Epoch 135, bias, value: tensor([-0.0070,  0.0179, -0.0164,  0.0141,  0.0241, -0.0165, -0.0236, -0.0158,
+        -0.0240, -0.0276], device='cuda:0'), grad: tensor([ 4.3549e-06, -1.1176e-05,  4.3511e-06,  1.9036e-06, -1.2524e-05,
+         6.0797e-06, -2.2888e-05,  2.9653e-06,  1.7285e-05,  9.5889e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 134, time 216.70, cls_loss 0.0021 cls_loss_mapping 0.0052 cls_loss_causal 0.5024 re_mapping 0.0072 re_causal 0.0210 /// teacc 98.92 lr 0.00010000
+Epoch 136, weight, value: tensor([[-0.1291, -0.0796, -0.0527,  ..., -0.0167, -0.0324, -0.0071],
+        [-0.0453,  0.0772, -0.0651,  ...,  0.0137, -0.0209, -0.0672],
+        [ 0.0478, -0.0909, -0.0735,  ..., -0.0446,  0.0850, -0.0271],
+        ...,
+        [-0.0956, -0.0674,  0.0827,  ...,  0.0480, -0.1252,  0.0044],
+        [ 0.0531,  0.0121, -0.1590,  ..., -0.0307,  0.1017, -0.0188],
+        [-0.1076, -0.0771,  0.0324,  ..., -0.0021, -0.0891, -0.0469]],
+       device='cuda:0'), grad: tensor([[ 2.9709e-07,  3.2131e-07,  3.1106e-07,  ...,  0.0000e+00,
+          5.6345e-07,  0.0000e+00],
+        [ 5.1875e-07,  8.7544e-08,  7.6788e-07,  ...,  0.0000e+00,
+          2.3842e-06,  0.0000e+00],
+        [ 1.0524e-06,  3.0128e-07,  2.5425e-07,  ...,  0.0000e+00,
+          3.5018e-06,  0.0000e+00],
+        ...,
+        [ 2.2957e-07,  7.5903e-08, -2.2836e-06,  ...,  0.0000e+00,
+          7.3714e-07,  0.0000e+00],
+        [-8.8587e-06, -4.0345e-06,  1.0412e-06,  ...,  0.0000e+00,
+         -6.4000e-06,  0.0000e+00],
+        [ 4.0680e-06,  8.0047e-07, -2.0284e-06,  ...,  0.0000e+00,
+          1.1809e-05,  0.0000e+00]], device='cuda:0')
+Epoch 136, bias, value: tensor([-0.0070,  0.0185, -0.0163,  0.0140,  0.0243, -0.0166, -0.0238, -0.0161,
+        -0.0241, -0.0278], device='cuda:0'), grad: tensor([ 1.9744e-07,  1.0967e-05,  1.6630e-05,  9.9659e-05,  7.9274e-06,
+        -1.7381e-04,  4.2245e-06, -8.7591e-07, -7.1041e-06,  4.2140e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 135, time 216.54, cls_loss 0.0025 cls_loss_mapping 0.0065 cls_loss_causal 0.5633 re_mapping 0.0068 re_causal 0.0208 /// teacc 98.87 lr 0.00010000
+Epoch 137, weight, value: tensor([[-0.1302, -0.0773, -0.0527,  ..., -0.0167, -0.0301, -0.0071],
+        [-0.0457,  0.0767, -0.0649,  ...,  0.0137, -0.0223, -0.0672],
+        [ 0.0479, -0.0914, -0.0742,  ..., -0.0448,  0.0851, -0.0271],
+        ...,
+        [-0.0958, -0.0675,  0.0832,  ...,  0.0482, -0.1256,  0.0044],
+        [ 0.0529,  0.0118, -0.1602,  ..., -0.0309,  0.1018, -0.0188],
+        [-0.1080, -0.0777,  0.0324,  ..., -0.0021, -0.0897, -0.0469]],
+       device='cuda:0'), grad: tensor([[ 6.8843e-06,  7.0315e-08,  6.9849e-07,  ...,  0.0000e+00,
+          8.3148e-06,  0.0000e+00],
+        [ 3.1572e-07, -2.0675e-07,  6.9570e-07,  ...,  0.0000e+00,
+          6.3563e-07,  0.0000e+00],
+        [ 1.8012e-06,  4.2375e-08,  2.6543e-07,  ...,  0.0000e+00,
+          3.6992e-06,  0.0000e+00],
+        ...,
+        [ 9.0618e-07,  6.0536e-08, -2.2743e-06,  ...,  0.0000e+00,
+          1.4324e-06,  0.0000e+00],
+        [-3.8743e-05, -2.3236e-07, -2.4084e-06,  ...,  0.0000e+00,
+         -4.5180e-05,  0.0000e+00],
+        [ 2.5570e-05,  4.7032e-08,  1.1437e-06,  ...,  0.0000e+00,
+          3.0756e-05,  0.0000e+00]], device='cuda:0')
+Epoch 137, bias, value: tensor([-0.0051,  0.0175, -0.0167,  0.0136,  0.0244, -0.0156, -0.0245, -0.0160,
+        -0.0247, -0.0279], device='cuda:0'), grad: tensor([ 2.9594e-05,  3.0436e-06,  1.6555e-05,  7.0858e-04,  4.8280e-06,
+        -7.1573e-04,  3.0417e-06,  2.2240e-06, -1.6928e-04,  1.1784e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 136----------------------------------------------------
+epoch 136, time 217.34, cls_loss 0.0023 cls_loss_mapping 0.0040 cls_loss_causal 0.5444 re_mapping 0.0065 re_causal 0.0206 /// teacc 99.09 lr 0.00010000
+Epoch 138, weight, value: tensor([[-0.1313, -0.0775, -0.0529,  ..., -0.0167, -0.0303, -0.0071],
+        [-0.0467,  0.0768, -0.0650,  ...,  0.0137, -0.0228, -0.0673],
+        [ 0.0495, -0.0916, -0.0746,  ..., -0.0448,  0.0865, -0.0271],
+        ...,
+        [-0.0962, -0.0676,  0.0826,  ...,  0.0482, -0.1274,  0.0044],
+        [ 0.0526,  0.0120, -0.1610,  ..., -0.0310,  0.1016, -0.0188],
+        [-0.1086, -0.0793,  0.0315,  ..., -0.0022, -0.0903, -0.0469]],
+       device='cuda:0'), grad: tensor([[ 4.1584e-07,  4.9826e-07,  1.8626e-08,  ...,  0.0000e+00,
+          1.0366e-06,  0.0000e+00],
+        [-1.8626e-07, -1.0096e-05,  1.0384e-07,  ...,  0.0000e+00,
+         -1.5497e-06,  0.0000e+00],
+        [ 1.8328e-06,  2.4345e-06,  1.7229e-07,  ...,  0.0000e+00,
+          4.4666e-06,  0.0000e+00],
+        ...,
+        [ 1.0803e-06,  1.9986e-06,  3.4086e-07,  ...,  0.0000e+00,
+          2.7269e-06,  0.0000e+00],
+        [ 7.0967e-07,  8.5309e-07,  1.3504e-07,  ...,  0.0000e+00,
+          1.6140e-06,  4.6566e-10],
+        [ 1.1269e-07,  2.0675e-06,  2.2817e-07,  ...,  0.0000e+00,
+         -1.5140e-05,  0.0000e+00]], device='cuda:0')
+Epoch 138, bias, value: tensor([-0.0051,  0.0173, -0.0161,  0.0142,  0.0254, -0.0153, -0.0246, -0.0166,
+        -0.0249, -0.0286], device='cuda:0'), grad: tensor([ 1.1943e-05, -1.6212e-05,  3.0607e-05,  6.2048e-05,  8.0988e-06,
+         5.6267e-05, -1.0980e-06,  1.6659e-05,  1.2934e-05, -1.8120e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 137, time 216.71, cls_loss 0.0022 cls_loss_mapping 0.0049 cls_loss_causal 0.5327 re_mapping 0.0065 re_causal 0.0195 /// teacc 98.99 lr 0.00010000
+Epoch 139, weight, value: tensor([[-0.1318, -0.0776, -0.0530,  ..., -0.0167, -0.0304, -0.0070],
+        [-0.0475,  0.0781, -0.0646,  ...,  0.0137, -0.0227, -0.0673],
+        [ 0.0498, -0.0921, -0.0752,  ..., -0.0449,  0.0870, -0.0272],
+        ...,
+        [-0.0964, -0.0681,  0.0831,  ...,  0.0483, -0.1277,  0.0044],
+        [ 0.0527,  0.0120, -0.1618,  ..., -0.0310,  0.1020, -0.0188],
+        [-0.1093, -0.0802,  0.0314,  ..., -0.0022, -0.0911, -0.0470]],
+       device='cuda:0'), grad: tensor([[ 5.1223e-07,  8.6520e-07,  4.7032e-08,  ...,  0.0000e+00,
+          2.6263e-07,  0.0000e+00],
+        [ 2.4447e-07, -1.0639e-05,  2.6356e-07,  ...,  0.0000e+00,
+          1.8813e-07,  0.0000e+00],
+        [-2.1141e-06,  5.2387e-07,  8.8941e-08,  ...,  0.0000e+00,
+         -1.8599e-06,  0.0000e+00],
+        ...,
+        [ 4.5588e-07,  1.4268e-06, -5.1782e-07,  ...,  0.0000e+00,
+          4.0000e-07,  0.0000e+00],
+        [ 2.0657e-06,  5.2787e-06,  7.5437e-08,  ...,  0.0000e+00,
+          4.2794e-07,  0.0000e+00],
+        [ 2.4727e-07,  4.7451e-07,  8.8057e-07,  ...,  0.0000e+00,
+         -5.5879e-07,  0.0000e+00]], device='cuda:0')
+Epoch 139, bias, value: tensor([-0.0051,  0.0183, -0.0162,  0.0143,  0.0250, -0.0154, -0.0246, -0.0168,
+        -0.0250, -0.0289], device='cuda:0'), grad: tensor([ 2.1905e-06, -1.0639e-05, -3.6582e-06,  3.0436e-06, -5.9605e-08,
+         4.6715e-06, -2.5127e-06,  2.1653e-07,  8.9854e-06, -2.2575e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 138, time 216.64, cls_loss 0.0028 cls_loss_mapping 0.0045 cls_loss_causal 0.5518 re_mapping 0.0067 re_causal 0.0199 /// teacc 99.06 lr 0.00010000
+Epoch 140, weight, value: tensor([[-0.1321, -0.0779, -0.0530,  ..., -0.0163, -0.0305, -0.0070],
+        [-0.0486,  0.0787, -0.0638,  ...,  0.0138, -0.0232, -0.0673],
+        [ 0.0502, -0.0921, -0.0756,  ..., -0.0449,  0.0876, -0.0272],
+        ...,
+        [-0.0967, -0.0688,  0.0829,  ...,  0.0482, -0.1280,  0.0040],
+        [ 0.0527,  0.0119, -0.1625,  ..., -0.0312,  0.1020, -0.0188],
+        [-0.1116, -0.0806,  0.0315,  ..., -0.0022, -0.0919, -0.0470]],
+       device='cuda:0'), grad: tensor([[ 8.8587e-06,  2.2259e-07,  1.3737e-07,  ...,  0.0000e+00,
+          2.6003e-05,  9.3132e-10],
+        [ 5.3225e-07, -1.7695e-07,  2.2212e-07,  ...,  0.0000e+00,
+          1.5777e-06,  4.6566e-10],
+        [-1.3821e-05,  3.7439e-07,  8.1956e-08,  ...,  0.0000e+00,
+         -4.1753e-05,  0.0000e+00],
+        ...,
+        [ 6.8638e-07,  9.8255e-08,  8.8476e-09,  ...,  0.0000e+00,
+          2.2724e-06,  9.3132e-10],
+        [ 2.3209e-06,  5.7044e-07,  1.5330e-06,  ...,  0.0000e+00,
+          6.5565e-06,  1.4901e-08],
+        [ 5.6066e-07,  5.2946e-07, -2.7139e-06,  ...,  0.0000e+00,
+          1.8366e-06,  3.2596e-09]], device='cuda:0')
+Epoch 140, bias, value: tensor([-0.0049,  0.0184, -0.0161,  0.0141,  0.0249, -0.0145, -0.0257, -0.0174,
+        -0.0252, -0.0285], device='cuda:0'), grad: tensor([ 4.6670e-05,  3.7495e-06, -7.4744e-05, -1.1660e-05,  1.6708e-06,
+         1.2174e-05,  2.9840e-06,  5.6140e-06,  1.9342e-05, -5.9195e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 139, time 216.75, cls_loss 0.0025 cls_loss_mapping 0.0060 cls_loss_causal 0.5292 re_mapping 0.0068 re_causal 0.0203 /// teacc 98.97 lr 0.00010000
+Epoch 141, weight, value: tensor([[-0.1340, -0.0780, -0.0530,  ..., -0.0151, -0.0300, -0.0070],
+        [-0.0506,  0.0786, -0.0641,  ...,  0.0142, -0.0240, -0.0674],
+        [ 0.0524, -0.0916, -0.0761,  ..., -0.0450,  0.0899, -0.0272],
+        ...,
+        [-0.0972, -0.0691,  0.0837,  ...,  0.0481, -0.1284,  0.0040],
+        [ 0.0522,  0.0116, -0.1631,  ..., -0.0314,  0.1017, -0.0189],
+        [-0.1121, -0.0809,  0.0314,  ..., -0.0027, -0.0934, -0.0470]],
+       device='cuda:0'), grad: tensor([[-1.0328e-06, -3.6880e-07,  5.4017e-08,  ..., -9.4529e-08,
+         -1.3020e-06,  0.0000e+00],
+        [ 6.1467e-08, -3.7858e-07,  2.1560e-07,  ...,  2.7940e-09,
+          1.0943e-07,  0.0000e+00],
+        [-8.1956e-08,  3.1432e-07,  2.9663e-07,  ...,  9.7789e-09,
+         -5.7602e-07,  0.0000e+00],
+        ...,
+        [ 1.4855e-07,  2.4354e-07, -1.3523e-06,  ...,  1.3970e-09,
+          2.9756e-07,  0.0000e+00],
+        [ 3.5856e-07,  5.1549e-07,  1.1362e-07,  ...,  2.3283e-09,
+          2.5984e-07,  0.0000e+00],
+        [ 1.8720e-07,  1.4845e-06,  9.3039e-07,  ...,  8.8476e-09,
+          2.1514e-07,  0.0000e+00]], device='cuda:0')
+Epoch 141, bias, value: tensor([-0.0047,  0.0176, -0.0140,  0.0145,  0.0248, -0.0153, -0.0257, -0.0169,
+        -0.0258, -0.0287], device='cuda:0'), grad: tensor([-1.4223e-05,  5.6997e-07,  1.7397e-06,  1.2722e-06, -4.7162e-06,
+         5.5181e-07,  7.5325e-06, -3.0547e-06,  3.2149e-06,  7.1339e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 140, time 216.74, cls_loss 0.0023 cls_loss_mapping 0.0054 cls_loss_causal 0.5598 re_mapping 0.0065 re_causal 0.0198 /// teacc 98.79 lr 0.00010000
+Epoch 142, weight, value: tensor([[-0.1345, -0.0781, -0.0532,  ..., -0.0150, -0.0300, -0.0070],
+        [-0.0512,  0.0789, -0.0639,  ...,  0.0143, -0.0242, -0.0674],
+        [ 0.0526, -0.0918, -0.0770,  ..., -0.0451,  0.0901, -0.0272],
+        ...,
+        [-0.0980, -0.0695,  0.0839,  ...,  0.0480, -0.1287,  0.0040],
+        [ 0.0526,  0.0112, -0.1638,  ..., -0.0323,  0.1021, -0.0189],
+        [-0.1144, -0.0813,  0.0312,  ..., -0.0028, -0.0947, -0.0470]],
+       device='cuda:0'), grad: tensor([[ 1.5590e-06,  1.5916e-06,  2.7567e-07,  ...,  1.8626e-09,
+          3.9972e-06,  0.0000e+00],
+        [ 2.7530e-06, -1.8254e-07,  1.2135e-06,  ...,  3.7253e-09,
+          7.2420e-06,  0.0000e+00],
+        [ 1.5408e-05,  1.5318e-05,  7.5437e-07,  ...,  9.3132e-10,
+          4.0680e-05,  0.0000e+00],
+        ...,
+        [ 2.0321e-06,  2.1383e-06, -8.5086e-06,  ...,  1.8626e-09,
+          5.4166e-06,  0.0000e+00],
+        [ 3.4925e-06,  3.9749e-06,  2.2352e-07,  ...,  1.8626e-08,
+          9.8944e-06,  0.0000e+00],
+        [ 9.0804e-07,  1.0598e-06,  4.1164e-06,  ...,  2.7940e-09,
+          2.2668e-06,  0.0000e+00]], device='cuda:0')
+Epoch 142, bias, value: tensor([-0.0046,  0.0176, -0.0143,  0.0143,  0.0250, -0.0150, -0.0259, -0.0168,
+        -0.0254, -0.0291], device='cuda:0'), grad: tensor([ 1.0408e-05,  1.8790e-05,  1.0163e-04, -2.4843e-04,  8.0466e-05,
+         1.0842e-04,  3.3319e-05,  2.5690e-05,  3.0786e-05, -1.6069e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 141, time 216.59, cls_loss 0.0024 cls_loss_mapping 0.0041 cls_loss_causal 0.5709 re_mapping 0.0065 re_causal 0.0199 /// teacc 98.92 lr 0.00010000
+Epoch 143, weight, value: tensor([[-0.1352, -0.0785, -0.0533,  ..., -0.0151, -0.0302, -0.0070],
+        [-0.0525,  0.0790, -0.0643,  ...,  0.0144, -0.0248, -0.0674],
+        [ 0.0531, -0.0925, -0.0778,  ..., -0.0454,  0.0908, -0.0272],
+        ...,
+        [-0.0982, -0.0696,  0.0843,  ...,  0.0478, -0.1290,  0.0040],
+        [ 0.0528,  0.0107, -0.1646,  ..., -0.0335,  0.1024, -0.0189],
+        [-0.1153, -0.0829,  0.0296,  ..., -0.0031, -0.0955, -0.0470]],
+       device='cuda:0'), grad: tensor([[ 1.4454e-06,  1.9819e-06,  4.0047e-08,  ...,  9.3132e-10,
+         -8.1025e-08,  0.0000e+00],
+        [ 1.7695e-07, -5.7369e-06,  3.0734e-08,  ...,  9.3132e-10,
+         -4.0233e-07,  0.0000e+00],
+        [-1.9111e-06,  4.2692e-06, -9.3691e-07,  ...,  9.3132e-10,
+         -2.2240e-06,  0.0000e+00],
+        ...,
+        [ 1.7472e-06,  4.3120e-07,  8.1118e-07,  ...,  1.8626e-09,
+          2.6673e-06,  0.0000e+00],
+        [ 4.0140e-07,  5.3924e-07,  1.3970e-08,  ...,  1.8626e-08,
+          4.5635e-08,  0.0000e+00],
+        [ 1.1642e-07,  1.0710e-07,  1.4901e-08,  ...,  3.7253e-09,
+          1.1735e-07,  0.0000e+00]], device='cuda:0')
+Epoch 143, bias, value: tensor([-0.0045,  0.0173, -0.0145,  0.0143,  0.0275, -0.0153, -0.0254, -0.0166,
+        -0.0254, -0.0308], device='cuda:0'), grad: tensor([-4.3511e-06, -6.8806e-06,  5.0217e-06, -1.8319e-06,  1.5721e-06,
+         1.1735e-06, -4.5262e-06,  6.9886e-06,  1.4240e-06,  1.3523e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 142, time 216.59, cls_loss 0.0031 cls_loss_mapping 0.0063 cls_loss_causal 0.5457 re_mapping 0.0068 re_causal 0.0190 /// teacc 99.09 lr 0.00010000
+Epoch 144, weight, value: tensor([[-0.1356, -0.0789, -0.0533,  ..., -0.0124, -0.0305, -0.0070],
+        [-0.0545,  0.0793, -0.0644,  ...,  0.0146, -0.0246, -0.0674],
+        [ 0.0523, -0.0940, -0.0785,  ..., -0.0458,  0.0910, -0.0272],
+        ...,
+        [-0.0989, -0.0696,  0.0850,  ...,  0.0476, -0.1296,  0.0040],
+        [ 0.0530,  0.0097, -0.1659,  ..., -0.0335,  0.1031, -0.0189],
+        [-0.1158, -0.0829,  0.0286,  ..., -0.0033, -0.0962, -0.0470]],
+       device='cuda:0'), grad: tensor([[ 8.9034e-07,  1.1018e-06,  5.2806e-07,  ...,  9.3132e-10,
+          2.4773e-07,  0.0000e+00],
+        [ 5.6904e-07,  1.0148e-05,  3.1143e-05,  ...,  6.5193e-09,
+          4.2375e-07,  0.0000e+00],
+        [-5.3868e-06,  3.1963e-06,  3.9637e-06,  ...,  2.1420e-08,
+         -2.2929e-06,  0.0000e+00],
+        ...,
+        [ 8.4657e-07, -5.5224e-05, -2.0385e-04,  ...,  2.7940e-09,
+          5.2154e-07,  0.0000e+00],
+        [ 1.4519e-06,  2.0452e-06,  5.6550e-06,  ...,  9.3132e-10,
+          3.3714e-07,  0.0000e+00],
+        [ 1.2759e-07,  4.3482e-05,  1.3089e-04,  ...,  9.3132e-10,
+          1.2200e-07,  0.0000e+00]], device='cuda:0')
+Epoch 144, bias, value: tensor([-0.0042,  0.0174, -0.0152,  0.0137,  0.0269, -0.0153, -0.0240, -0.0167,
+        -0.0257, -0.0302], device='cuda:0'), grad: tensor([ 3.7476e-06,  1.8263e-04,  9.5442e-06,  1.4508e-04,  1.1027e-05,
+         8.8066e-06,  4.2617e-06, -1.1892e-03,  3.5495e-05,  7.8773e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 143, time 216.75, cls_loss 0.0026 cls_loss_mapping 0.0044 cls_loss_causal 0.5699 re_mapping 0.0069 re_causal 0.0204 /// teacc 98.96 lr 0.00010000
+Epoch 145, weight, value: tensor([[-0.1364, -0.0792, -0.0534,  ..., -0.0120, -0.0306, -0.0063],
+        [-0.0545,  0.0800, -0.0646,  ...,  0.0148, -0.0245, -0.0677],
+        [ 0.0522, -0.0953, -0.0792,  ..., -0.0461,  0.0912, -0.0274],
+        ...,
+        [-0.0993, -0.0699,  0.0856,  ...,  0.0477, -0.1299,  0.0040],
+        [ 0.0534,  0.0091, -0.1669,  ..., -0.0338,  0.1035, -0.0191],
+        [-0.1164, -0.0832,  0.0279,  ..., -0.0035, -0.0968, -0.0472]],
+       device='cuda:0'), grad: tensor([[ 2.1476e-06,  2.4084e-06,  8.9221e-07,  ...,  0.0000e+00,
+          4.0792e-07,  2.1420e-08],
+        [-1.4799e-06, -4.3362e-05, -1.8090e-05,  ...,  9.3132e-10,
+          1.5628e-06,  6.5193e-09],
+        [-1.4072e-06,  5.9083e-06,  2.9057e-06,  ...,  6.5193e-09,
+         -4.4629e-06,  1.1176e-08],
+        ...,
+        [ 3.6396e-06,  3.0294e-05,  8.7097e-06,  ...,  2.7940e-09,
+          1.2405e-06,  2.8871e-08],
+        [ 6.5938e-06,  2.5202e-06,  7.9069e-07,  ...,  9.3132e-09,
+          5.4091e-06,  3.3528e-08],
+        [ 1.6093e-06,  6.5714e-06, -1.3448e-06,  ...,  1.8626e-09,
+          5.3458e-07,  2.8871e-08]], device='cuda:0')
+Epoch 145, bias, value: tensor([-0.0042,  0.0177, -0.0159,  0.0139,  0.0266, -0.0157, -0.0238, -0.0165,
+        -0.0259, -0.0301], device='cuda:0'), grad: tensor([ 1.0289e-05, -1.5199e-04,  1.7703e-05,  1.0431e-04,  6.2846e-06,
+        -1.2910e-04, -2.3656e-07,  1.1265e-04,  2.9370e-05,  3.3528e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 144, time 216.54, cls_loss 0.0026 cls_loss_mapping 0.0046 cls_loss_causal 0.5330 re_mapping 0.0066 re_causal 0.0196 /// teacc 99.06 lr 0.00010000
+Epoch 146, weight, value: tensor([[-0.1376, -0.0795, -0.0532,  ..., -0.0126, -0.0308, -0.0062],
+        [-0.0544,  0.0797, -0.0656,  ...,  0.0149, -0.0244, -0.0678],
+        [ 0.0525, -0.0957, -0.0798,  ..., -0.0464,  0.0922, -0.0275],
+        ...,
+        [-0.1005, -0.0692,  0.0865,  ...,  0.0469, -0.1305,  0.0039],
+        [ 0.0540,  0.0086, -0.1679,  ..., -0.0385,  0.1043, -0.0192],
+        [-0.1171, -0.0846,  0.0272,  ..., -0.0042, -0.0975, -0.0473]],
+       device='cuda:0'), grad: tensor([[ 6.0536e-08,  3.0827e-07,  6.6124e-08,  ..., -3.9116e-08,
+          5.5041e-07,  0.0000e+00],
+        [ 5.1223e-08,  6.8359e-06,  1.9558e-07,  ...,  7.4506e-09,
+          1.7211e-05,  0.0000e+00],
+        [ 9.3132e-09, -7.7635e-06,  4.8429e-08,  ...,  9.3132e-09,
+         -2.0236e-05,  0.0000e+00],
+        ...,
+        [ 1.5832e-08,  3.3714e-07, -8.0094e-08,  ...,  6.5193e-09,
+          6.3051e-07,  0.0000e+00],
+        [-3.7253e-08,  2.2724e-07,  1.6298e-07,  ...,  2.1420e-08,
+          1.5087e-07,  0.0000e+00],
+        [ 3.9116e-08,  2.5034e-06,  3.2503e-07,  ...,  1.7695e-08,
+          1.4808e-07,  0.0000e+00]], device='cuda:0')
+Epoch 146, bias, value: tensor([-0.0040,  0.0172, -0.0157,  0.0133,  0.0270, -0.0160, -0.0239, -0.0158,
+        -0.0255, -0.0304], device='cuda:0'), grad: tensor([ 3.0883e-06,  6.4790e-05, -6.9976e-05, -1.5438e-05, -4.3958e-06,
+         1.6168e-05,  5.0068e-06,  3.0063e-06,  3.1702e-06, -5.5768e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 145, time 216.86, cls_loss 0.0019 cls_loss_mapping 0.0037 cls_loss_causal 0.5297 re_mapping 0.0066 re_causal 0.0202 /// teacc 99.01 lr 0.00010000
+Epoch 147, weight, value: tensor([[-0.1386, -0.0799, -0.0532,  ..., -0.0126, -0.0310, -0.0061],
+        [-0.0548,  0.0801, -0.0659,  ...,  0.0157, -0.0244, -0.0678],
+        [ 0.0531, -0.0961, -0.0800,  ..., -0.0469,  0.0929, -0.0276],
+        ...,
+        [-0.1020, -0.0694,  0.0866,  ...,  0.0462, -0.1315,  0.0039],
+        [ 0.0541,  0.0082, -0.1684,  ..., -0.0391,  0.1045, -0.0192],
+        [-0.1173, -0.0850,  0.0273,  ..., -0.0045, -0.0990, -0.0474]],
+       device='cuda:0'), grad: tensor([[ 1.0198e-06,  1.4743e-06,  1.1176e-07,  ...,  9.3132e-10,
+         -6.4261e-08,  0.0000e+00],
+        [ 1.3690e-07,  1.4454e-06,  1.0962e-06,  ...,  2.7940e-09,
+          6.2678e-07,  0.0000e+00],
+        [-5.4948e-07,  9.6112e-07,  4.1816e-07,  ...,  8.3819e-09,
+         -1.1595e-06,  0.0000e+00],
+        ...,
+        [ 2.7753e-07,  1.4063e-07, -1.0215e-05,  ...,  3.7253e-09,
+          8.7731e-07,  0.0000e+00],
+        [ 1.4612e-06,  1.0692e-06,  7.2643e-08,  ...,  1.3970e-08,
+          9.9372e-07,  0.0000e+00],
+        [ 1.8720e-07,  7.5996e-07,  8.8960e-06,  ...,  1.8626e-09,
+          2.1420e-07,  0.0000e+00]], device='cuda:0')
+Epoch 147, bias, value: tensor([-0.0039,  0.0173, -0.0151,  0.0133,  0.0269, -0.0159, -0.0234, -0.0164,
+        -0.0258, -0.0304], device='cuda:0'), grad: tensor([ 2.6263e-06,  5.5358e-06,  1.4547e-06, -5.2564e-06, -4.9174e-06,
+         1.6198e-05, -1.7941e-05, -3.3826e-05,  4.2282e-06,  3.1859e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 146, time 216.61, cls_loss 0.0020 cls_loss_mapping 0.0052 cls_loss_causal 0.5083 re_mapping 0.0069 re_causal 0.0203 /// teacc 98.80 lr 0.00010000
+Epoch 148, weight, value: tensor([[-0.1395, -0.0800, -0.0534,  ..., -0.0126, -0.0313, -0.0060],
+        [-0.0554,  0.0807, -0.0664,  ...,  0.0157, -0.0246, -0.0678],
+        [ 0.0522, -0.0966, -0.0805,  ..., -0.0469,  0.0927, -0.0276],
+        ...,
+        [-0.1030, -0.0698,  0.0872,  ...,  0.0462, -0.1324,  0.0039],
+        [ 0.0548,  0.0072, -0.1686,  ..., -0.0392,  0.1059, -0.0192],
+        [-0.1182, -0.0856,  0.0273,  ..., -0.0045, -0.1002, -0.0474]],
+       device='cuda:0'), grad: tensor([[ 3.2317e-07,  4.7684e-07,  7.5772e-06,  ...,  0.0000e+00,
+          1.4249e-07,  0.0000e+00],
+        [ 3.6322e-08, -1.0459e-06,  1.1399e-06,  ...,  0.0000e+00,
+          2.7940e-08,  0.0000e+00],
+        [-7.0501e-07,  1.8720e-07,  6.1095e-07,  ...,  0.0000e+00,
+         -4.5914e-07,  0.0000e+00],
+        ...,
+        [ 5.3924e-07,  1.8710e-06,  2.0452e-06,  ...,  0.0000e+00,
+          3.7532e-07,  0.0000e+00],
+        [-1.0384e-06,  4.9267e-07,  5.0571e-07,  ...,  0.0000e+00,
+         -8.0373e-07,  9.3132e-10],
+        [ 5.1223e-08,  1.8299e-05,  1.0043e-05,  ...,  0.0000e+00,
+          9.3132e-08,  0.0000e+00]], device='cuda:0')
+Epoch 148, bias, value: tensor([-0.0041,  0.0176, -0.0153,  0.0130,  0.0269, -0.0162, -0.0228, -0.0167,
+        -0.0252, -0.0303], device='cuda:0'), grad: tensor([ 3.0726e-05,  2.0321e-06,  2.3209e-06,  2.0992e-06, -8.3625e-05,
+         2.1718e-06,  5.1372e-06,  8.6501e-06, -1.5553e-07,  3.0726e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 147, time 216.65, cls_loss 0.0031 cls_loss_mapping 0.0065 cls_loss_causal 0.5393 re_mapping 0.0069 re_causal 0.0203 /// teacc 99.06 lr 0.00010000
+Epoch 149, weight, value: tensor([[-0.1414, -0.0806, -0.0535,  ..., -0.0128, -0.0314, -0.0060],
+        [-0.0553,  0.0825, -0.0660,  ...,  0.0158, -0.0254, -0.0678],
+        [ 0.0527, -0.0964, -0.0808,  ..., -0.0470,  0.0937, -0.0276],
+        ...,
+        [-0.1043, -0.0716,  0.0847,  ...,  0.0462, -0.1334,  0.0039],
+        [ 0.0555,  0.0069, -0.1714,  ..., -0.0397,  0.1064, -0.0193],
+        [-0.1206, -0.0867,  0.0292,  ..., -0.0047, -0.1017, -0.0475]],
+       device='cuda:0'), grad: tensor([[ 5.6345e-07,  4.9639e-07,  3.2410e-07,  ...,  3.7253e-09,
+          4.2003e-07,  0.0000e+00],
+        [ 9.4324e-06,  8.6725e-06,  2.0396e-07,  ...,  9.3132e-10,
+          6.8769e-06,  0.0000e+00],
+        [-2.2445e-07,  4.1816e-07,  2.0210e-07,  ...,  9.3132e-09,
+          1.9744e-07,  0.0000e+00],
+        ...,
+        [ 4.1630e-07,  3.3900e-07, -1.6363e-06,  ...,  5.5879e-09,
+          5.8394e-07,  0.0000e+00],
+        [-8.2552e-05, -7.5102e-05,  6.6124e-08,  ...,  8.3819e-09,
+         -5.9336e-05,  0.0000e+00],
+        [ 1.2200e-06,  1.1260e-06,  3.9767e-07,  ...,  1.5832e-08,
+          9.6299e-07,  9.3132e-10]], device='cuda:0')
+Epoch 149, bias, value: tensor([-0.0043,  0.0187, -0.0137,  0.0130,  0.0269, -0.0165, -0.0221, -0.0200,
+        -0.0252, -0.0284], device='cuda:0'), grad: tensor([ 9.5740e-07,  2.4885e-05,  1.7863e-06,  7.6890e-06,  7.0222e-07,
+         4.9211e-06,  1.6630e-04, -7.5847e-06, -2.0576e-04,  6.2026e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 148, time 216.76, cls_loss 0.0021 cls_loss_mapping 0.0048 cls_loss_causal 0.5181 re_mapping 0.0067 re_causal 0.0199 /// teacc 99.06 lr 0.00010000
+Epoch 150, weight, value: tensor([[-0.1431, -0.0815, -0.0536,  ..., -0.0128, -0.0315, -0.0059],
+        [-0.0557,  0.0826, -0.0662,  ...,  0.0159, -0.0249, -0.0679],
+        [ 0.0526, -0.0974, -0.0812,  ..., -0.0482,  0.0914, -0.0278],
+        ...,
+        [-0.1046, -0.0716,  0.0854,  ...,  0.0461, -0.1338,  0.0039],
+        [ 0.0558,  0.0068, -0.1726,  ..., -0.0398,  0.1068, -0.0193],
+        [-0.1231, -0.0888,  0.0291,  ..., -0.0048, -0.1034, -0.0476]],
+       device='cuda:0'), grad: tensor([[-6.6832e-06, -1.9558e-08,  1.3039e-08,  ..., -8.0094e-08,
+         -1.1414e-05,  0.0000e+00],
+        [ 5.8673e-08, -1.2191e-06,  6.5193e-08,  ...,  2.7940e-09,
+          1.1083e-07,  0.0000e+00],
+        [ 2.9337e-07,  9.5926e-08,  9.3132e-09,  ...,  6.5193e-09,
+          4.2282e-07,  0.0000e+00],
+        ...,
+        [ 2.7940e-08,  5.6066e-07, -9.9652e-08,  ...,  1.8626e-09,
+          5.9605e-08,  0.0000e+00],
+        [ 2.3134e-06,  1.5739e-07,  6.5658e-07,  ...,  2.7940e-09,
+          3.8482e-06,  0.0000e+00],
+        [ 7.7300e-08,  6.3330e-07, -6.8638e-07,  ...,  5.5879e-09,
+          6.9849e-08,  0.0000e+00]], device='cuda:0')
+Epoch 150, bias, value: tensor([-0.0044,  0.0189, -0.0163,  0.0138,  0.0259, -0.0165, -0.0197, -0.0193,
+        -0.0253, -0.0289], device='cuda:0'), grad: tensor([-3.9220e-05, -6.6124e-07,  1.9334e-06,  1.2061e-06, -6.9477e-07,
+         7.1153e-07,  2.3454e-05,  8.2143e-07,  1.3702e-05, -1.1967e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 149, time 216.63, cls_loss 0.0018 cls_loss_mapping 0.0044 cls_loss_causal 0.5383 re_mapping 0.0067 re_causal 0.0200 /// teacc 98.90 lr 0.00010000
+Epoch 151, weight, value: tensor([[-0.1444, -0.0802, -0.0539,  ..., -0.0127, -0.0296, -0.0059],
+        [-0.0562,  0.0826, -0.0663,  ...,  0.0159, -0.0252, -0.0679],
+        [ 0.0526, -0.0980, -0.0811,  ..., -0.0482,  0.0916, -0.0278],
+        ...,
+        [-0.1050, -0.0716,  0.0855,  ...,  0.0461, -0.1347,  0.0039],
+        [ 0.0564,  0.0072, -0.1732,  ..., -0.0399,  0.1076, -0.0194],
+        [-0.1232, -0.0890,  0.0291,  ..., -0.0048, -0.1040, -0.0476]],
+       device='cuda:0'), grad: tensor([[ 2.8871e-07,  1.2480e-07,  7.0781e-08,  ...,  0.0000e+00,
+          2.3190e-07,  0.0000e+00],
+        [ 1.6205e-07,  2.4214e-08,  1.4342e-07,  ...,  0.0000e+00,
+          4.1444e-07,  0.0000e+00],
+        [-5.9698e-07,  2.3283e-08,  5.2154e-08,  ...,  0.0000e+00,
+         -9.4902e-07,  0.0000e+00],
+        ...,
+        [ 2.5239e-07,  6.2399e-08, -4.8708e-07,  ...,  0.0000e+00,
+          3.7905e-07,  0.0000e+00],
+        [ 8.9686e-07,  4.9360e-08,  2.6077e-08,  ...,  0.0000e+00,
+          8.5402e-07,  0.0000e+00],
+        [ 1.2014e-07,  3.7346e-07,  2.6170e-07,  ...,  0.0000e+00,
+          1.4249e-07,  0.0000e+00]], device='cuda:0')
+Epoch 151, bias, value: tensor([-0.0035,  0.0188, -0.0164,  0.0135,  0.0257, -0.0165, -0.0204, -0.0193,
+        -0.0248, -0.0288], device='cuda:0'), grad: tensor([ 2.4308e-07,  1.3961e-06, -1.1949e-06,  3.3081e-05, -7.2736e-07,
+        -3.9548e-05,  7.3016e-07,  3.3993e-07,  3.4291e-06,  2.2538e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 150, time 216.66, cls_loss 0.0021 cls_loss_mapping 0.0047 cls_loss_causal 0.5462 re_mapping 0.0062 re_causal 0.0189 /// teacc 99.02 lr 0.00010000
+Epoch 152, weight, value: tensor([[-0.1452, -0.0804, -0.0542,  ..., -0.0126, -0.0299, -0.0060],
+        [-0.0566,  0.0827, -0.0667,  ...,  0.0161, -0.0255, -0.0681],
+        [ 0.0529, -0.0980, -0.0815,  ..., -0.0482,  0.0920, -0.0278],
+        ...,
+        [-0.1053, -0.0716,  0.0858,  ...,  0.0461, -0.1350,  0.0039],
+        [ 0.0560,  0.0069, -0.1743,  ..., -0.0402,  0.1070, -0.0201],
+        [-0.1235, -0.0878,  0.0292,  ..., -0.0048, -0.1043, -0.0477]],
+       device='cuda:0'), grad: tensor([[ 3.3900e-07,  1.3404e-05,  2.5686e-06,  ...,  0.0000e+00,
+          1.1235e-05,  4.7497e-08],
+        [ 7.3574e-08, -3.8564e-05, -4.2133e-06,  ...,  9.3132e-10,
+         -2.5481e-05,  1.1176e-08],
+        [ 5.4017e-08,  9.8906e-07,  6.1002e-07,  ...,  1.8626e-09,
+          3.9954e-07,  1.1176e-08],
+        ...,
+        [ 2.4494e-07,  3.4645e-06,  6.9439e-06,  ...,  9.3132e-10,
+          1.6326e-06,  3.6322e-08],
+        [ 4.7311e-07,  8.3223e-06,  1.9111e-06,  ...,  2.7940e-09,
+          7.0222e-06,  6.9849e-08],
+        [ 4.1258e-07,  3.8520e-06, -1.1355e-04,  ...,  9.3132e-10,
+          1.1371e-06,  6.3330e-08]], device='cuda:0')
+Epoch 152, bias, value: tensor([-0.0035,  0.0187, -0.0164,  0.0131,  0.0248, -0.0157, -0.0206, -0.0191,
+        -0.0257, -0.0281], device='cuda:0'), grad: tensor([ 3.7253e-05, -9.8705e-05,  4.6529e-06,  8.7768e-06,  6.0737e-05,
+         1.3006e-04,  1.5453e-05,  1.3709e-05,  2.9683e-05, -2.0182e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 151, time 216.87, cls_loss 0.0022 cls_loss_mapping 0.0044 cls_loss_causal 0.5404 re_mapping 0.0062 re_causal 0.0183 /// teacc 99.03 lr 0.00010000
+Epoch 153, weight, value: tensor([[-0.1467, -0.0807, -0.0544,  ..., -0.0127, -0.0306, -0.0061],
+        [-0.0569,  0.0829, -0.0669,  ...,  0.0162, -0.0255, -0.0689],
+        [ 0.0540, -0.0982, -0.0819,  ..., -0.0483,  0.0932, -0.0282],
+        ...,
+        [-0.1066, -0.0716,  0.0863,  ...,  0.0461, -0.1362,  0.0038],
+        [ 0.0565,  0.0069, -0.1752,  ..., -0.0405,  0.1074, -0.0209],
+        [-0.1240, -0.0884,  0.0290,  ..., -0.0049, -0.1060, -0.0482]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-07,  4.2561e-07,  1.0431e-07,  ...,  0.0000e+00,
+          6.4261e-08, -9.3132e-10],
+        [ 4.4703e-08,  5.6624e-07,  6.5751e-07,  ...,  0.0000e+00,
+          1.2107e-07,  0.0000e+00],
+        [-2.7940e-09,  3.0547e-07,  1.7881e-07,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 2.4214e-08,  1.2312e-06,  4.0513e-07,  ...,  0.0000e+00,
+          1.0245e-07,  0.0000e+00],
+        [ 1.2200e-07,  6.0070e-07,  5.3737e-07,  ...,  0.0000e+00,
+          1.3504e-07,  0.0000e+00],
+        [ 7.5437e-08,  2.9951e-06,  5.8860e-07,  ...,  0.0000e+00,
+          1.1828e-07,  0.0000e+00]], device='cuda:0')
+Epoch 153, bias, value: tensor([-0.0038,  0.0186, -0.0155,  0.0131,  0.0250, -0.0157, -0.0210, -0.0187,
+        -0.0257, -0.0286], device='cuda:0'), grad: tensor([ 1.1586e-06,  3.3118e-06,  1.3085e-06,  4.4610e-07, -1.2890e-05,
+        -5.6103e-06,  2.3171e-06,  3.7588e-06,  3.7886e-06,  2.3656e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 152, time 216.77, cls_loss 0.0023 cls_loss_mapping 0.0049 cls_loss_causal 0.5409 re_mapping 0.0066 re_causal 0.0191 /// teacc 98.89 lr 0.00010000
+Epoch 154, weight, value: tensor([[-0.1507, -0.0811, -0.0546,  ..., -0.0127, -0.0306, -0.0058],
+        [-0.0580,  0.0831, -0.0669,  ...,  0.0162, -0.0254, -0.0702],
+        [ 0.0561, -0.0987, -0.0835,  ..., -0.0483,  0.0943, -0.0283],
+        ...,
+        [-0.1070, -0.0718,  0.0865,  ...,  0.0461, -0.1365,  0.0038],
+        [ 0.0548,  0.0053, -0.1757,  ..., -0.0407,  0.1071, -0.0223],
+        [-0.1245, -0.0886,  0.0289,  ..., -0.0049, -0.1073, -0.0488]],
+       device='cuda:0'), grad: tensor([[ 3.6322e-07,  6.5193e-08,  2.2352e-08,  ...,  9.3132e-10,
+          6.6496e-07,  0.0000e+00],
+        [ 1.4137e-06,  6.7241e-07,  5.5879e-08,  ...,  9.3132e-10,
+          2.0340e-06,  0.0000e+00],
+        [ 3.2242e-06,  8.5309e-07,  6.2957e-07,  ...,  0.0000e+00,
+          5.6252e-06,  0.0000e+00],
+        ...,
+        [ 3.1292e-06,  8.1956e-08, -5.9418e-07,  ...,  9.3132e-10,
+          5.1558e-06,  0.0000e+00],
+        [-2.7195e-06,  1.8952e-06,  6.4261e-08,  ...,  9.3132e-10,
+          1.1334e-06,  0.0000e+00],
+        [ 2.0899e-06,  4.6194e-07, -3.8650e-07,  ...,  9.3132e-10,
+          1.7183e-06,  0.0000e+00]], device='cuda:0')
+Epoch 154, bias, value: tensor([-0.0045,  0.0188, -0.0152,  0.0134,  0.0250, -0.0157, -0.0197, -0.0186,
+        -0.0272, -0.0288], device='cuda:0'), grad: tensor([ 2.4103e-06,  7.6666e-06,  2.0683e-05, -6.7234e-05,  1.3234e-06,
+        -3.2745e-06,  6.2399e-06,  1.5512e-05,  1.2338e-05,  4.3884e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 153, time 216.86, cls_loss 0.0024 cls_loss_mapping 0.0053 cls_loss_causal 0.5473 re_mapping 0.0064 re_causal 0.0201 /// teacc 98.83 lr 0.00010000
+Epoch 155, weight, value: tensor([[-0.1509, -0.0812, -0.0546,  ..., -0.0127, -0.0292, -0.0058],
+        [-0.0587,  0.0831, -0.0670,  ...,  0.0162, -0.0260, -0.0702],
+        [ 0.0572, -0.0988, -0.0829,  ..., -0.0483,  0.0956, -0.0283],
+        ...,
+        [-0.1075, -0.0718,  0.0869,  ...,  0.0461, -0.1368,  0.0038],
+        [ 0.0557,  0.0053, -0.1764,  ..., -0.0407,  0.1088, -0.0223],
+        [-0.1252, -0.0900,  0.0278,  ..., -0.0049, -0.1099, -0.0488]],
+       device='cuda:0'), grad: tensor([[ 1.0058e-07,  1.0524e-07,  1.4808e-07,  ...,  0.0000e+00,
+          8.5682e-08,  0.0000e+00],
+        [ 1.6298e-07, -4.2841e-08,  6.5099e-07,  ...,  0.0000e+00,
+          1.9372e-07,  0.0000e+00],
+        [-2.2352e-07,  5.3085e-08,  4.8429e-08,  ...,  0.0000e+00,
+         -2.6729e-07,  0.0000e+00],
+        ...,
+        [ 3.8184e-08,  2.6356e-07,  3.9488e-07,  ...,  0.0000e+00,
+          5.5879e-08,  0.0000e+00],
+        [-4.4517e-07, -1.1642e-07,  1.3802e-06,  ...,  0.0000e+00,
+         -8.5868e-07,  0.0000e+00],
+        [ 1.9558e-08, -2.7753e-06, -2.0429e-05,  ...,  0.0000e+00,
+          2.7008e-08,  0.0000e+00]], device='cuda:0')
+Epoch 155, bias, value: tensor([-0.0038,  0.0186, -0.0146,  0.0136,  0.0264, -0.0166, -0.0198, -0.0180,
+        -0.0259, -0.0310], device='cuda:0'), grad: tensor([ 9.4250e-07,  3.8035e-06, -3.0641e-07,  1.3234e-06,  7.3016e-05,
+         7.9256e-07,  7.3388e-07,  1.3495e-06,  5.0515e-06, -8.6725e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 154, time 216.74, cls_loss 0.0026 cls_loss_mapping 0.0043 cls_loss_causal 0.5153 re_mapping 0.0063 re_causal 0.0197 /// teacc 99.00 lr 0.00010000
+Epoch 156, weight, value: tensor([[-0.1511, -0.0814, -0.0549,  ..., -0.0127, -0.0288, -0.0058],
+        [-0.0590,  0.0831, -0.0673,  ...,  0.0162, -0.0260, -0.0702],
+        [ 0.0573, -0.0997, -0.0834,  ..., -0.0482,  0.0958, -0.0283],
+        ...,
+        [-0.1078, -0.0717,  0.0880,  ...,  0.0461, -0.1372,  0.0036],
+        [ 0.0568,  0.0077, -0.1776,  ..., -0.0407,  0.1107, -0.0224],
+        [-0.1277, -0.0921,  0.0279,  ..., -0.0049, -0.1130, -0.0488]],
+       device='cuda:0'), grad: tensor([[ 2.1048e-07,  1.2852e-07,  4.1910e-08,  ...,  0.0000e+00,
+          2.8219e-07,  9.3132e-10],
+        [ 1.7695e-07, -2.3507e-06,  5.8673e-08,  ...,  0.0000e+00,
+          3.7719e-07,  0.0000e+00],
+        [ 3.3155e-07,  3.0827e-07,  2.1420e-08,  ...,  0.0000e+00,
+          4.6380e-07,  0.0000e+00],
+        ...,
+        [ 3.4180e-07,  6.4261e-07, -8.5682e-08,  ...,  0.0000e+00,
+          7.7020e-07,  9.3132e-10],
+        [ 1.5181e-07,  1.3504e-07,  1.9185e-07,  ...,  0.0000e+00,
+          3.8650e-07,  5.5879e-09],
+        [ 4.0978e-07,  4.4610e-07, -3.7346e-07,  ...,  0.0000e+00,
+          4.2468e-07,  9.3132e-10]], device='cuda:0')
+Epoch 156, bias, value: tensor([-0.0035,  0.0184, -0.0151,  0.0113,  0.0249, -0.0138, -0.0202, -0.0164,
+        -0.0231, -0.0327], device='cuda:0'), grad: tensor([-2.8033e-07, -1.2927e-06,  3.9339e-06,  3.6329e-05,  1.0952e-06,
+        -5.3674e-05,  2.2762e-06,  4.9137e-06,  4.1723e-06,  2.4512e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 155, time 216.88, cls_loss 0.0020 cls_loss_mapping 0.0033 cls_loss_causal 0.5498 re_mapping 0.0059 re_causal 0.0188 /// teacc 99.00 lr 0.00010000
+Epoch 157, weight, value: tensor([[-0.1513, -0.0818, -0.0551,  ..., -0.0127, -0.0290, -0.0058],
+        [-0.0591,  0.0826, -0.0677,  ...,  0.0177, -0.0267, -0.0702],
+        [ 0.0576, -0.0995, -0.0838,  ..., -0.0489,  0.0969, -0.0283],
+        ...,
+        [-0.1084, -0.0714,  0.0882,  ...,  0.0455, -0.1381,  0.0036],
+        [ 0.0566,  0.0073, -0.1781,  ..., -0.0408,  0.1106, -0.0225],
+        [-0.1278, -0.0921,  0.0278,  ..., -0.0050, -0.1131, -0.0488]],
+       device='cuda:0'), grad: tensor([[ 1.0431e-07, -6.7707e-07,  1.4435e-07,  ...,  0.0000e+00,
+         -2.8778e-07,  0.0000e+00],
+        [ 3.1665e-08,  2.7455e-06,  2.4065e-06,  ...,  0.0000e+00,
+          1.7509e-07,  0.0000e+00],
+        [-2.3004e-07,  5.1223e-07,  3.7253e-07,  ...,  0.0000e+00,
+         -1.7509e-07,  0.0000e+00],
+        ...,
+        [ 1.0710e-07, -1.9744e-06, -2.4885e-06,  ...,  0.0000e+00,
+          1.0710e-07,  0.0000e+00],
+        [-2.4214e-08,  2.4587e-07,  2.1141e-07,  ...,  0.0000e+00,
+         -6.5193e-08,  0.0000e+00],
+        [ 1.8626e-08,  7.1153e-06,  4.0755e-06,  ...,  0.0000e+00,
+          5.7742e-08,  0.0000e+00]], device='cuda:0')
+Epoch 157, bias, value: tensor([-0.0036,  0.0174, -0.0141,  0.0113,  0.0251, -0.0141, -0.0199, -0.0160,
+        -0.0233, -0.0326], device='cuda:0'), grad: tensor([-4.8503e-06,  1.2033e-05,  1.7639e-06,  1.9222e-06, -3.3706e-05,
+         2.7101e-07,  1.4240e-06, -7.9647e-06,  1.0757e-06,  2.8044e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 156, time 216.64, cls_loss 0.0018 cls_loss_mapping 0.0044 cls_loss_causal 0.5204 re_mapping 0.0063 re_causal 0.0185 /// teacc 98.95 lr 0.00010000
+Epoch 158, weight, value: tensor([[-0.1516, -0.0820, -0.0554,  ..., -0.0128, -0.0294, -0.0058],
+        [-0.0597,  0.0826, -0.0679,  ...,  0.0177, -0.0268, -0.0703],
+        [ 0.0577, -0.0997, -0.0841,  ..., -0.0488,  0.0972, -0.0283],
+        ...,
+        [-0.1087, -0.0714,  0.0884,  ...,  0.0455, -0.1386,  0.0036],
+        [ 0.0571,  0.0073, -0.1790,  ..., -0.0409,  0.1110, -0.0225],
+        [-0.1280, -0.0924,  0.0278,  ..., -0.0050, -0.1133, -0.0489]],
+       device='cuda:0'), grad: tensor([[ 2.6170e-07, -9.5926e-07,  4.2282e-07,  ..., -5.5879e-09,
+          8.5682e-07,  0.0000e+00],
+        [ 1.0617e-07,  5.7090e-07,  2.3376e-06,  ...,  0.0000e+00,
+          1.5832e-07,  0.0000e+00],
+        [-2.5090e-06,  1.9744e-07, -8.0001e-07,  ...,  0.0000e+00,
+         -5.5730e-06,  0.0000e+00],
+        ...,
+        [ 4.9174e-07,  2.5593e-06,  7.6219e-06,  ...,  0.0000e+00,
+          6.6403e-07,  0.0000e+00],
+        [-1.5134e-06,  3.6322e-07,  4.7684e-07,  ...,  0.0000e+00,
+         -9.5647e-07,  0.0000e+00],
+        [ 2.8089e-06,  3.0473e-06,  1.0654e-05,  ...,  9.3132e-10,
+          2.2277e-06,  0.0000e+00]], device='cuda:0')
+Epoch 158, bias, value: tensor([-0.0037,  0.0173, -0.0140,  0.0114,  0.0250, -0.0141, -0.0199, -0.0159,
+        -0.0232, -0.0327], device='cuda:0'), grad: tensor([-1.6958e-05,  7.2792e-06, -1.0215e-05,  8.2031e-06, -6.7890e-05,
+         1.2957e-05,  1.1936e-05,  2.2069e-05, -4.1537e-07,  3.2961e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 157, time 216.84, cls_loss 0.0018 cls_loss_mapping 0.0024 cls_loss_causal 0.5213 re_mapping 0.0062 re_causal 0.0182 /// teacc 99.08 lr 0.00010000
+Epoch 159, weight, value: tensor([[-0.1519, -0.0823, -0.0559,  ..., -0.0126, -0.0301, -0.0058],
+        [-0.0603,  0.0827, -0.0680,  ...,  0.0177, -0.0272, -0.0703],
+        [ 0.0581, -0.0999, -0.0844,  ..., -0.0488,  0.0989, -0.0283],
+        ...,
+        [-0.1091, -0.0714,  0.0886,  ...,  0.0454, -0.1391,  0.0036],
+        [ 0.0574,  0.0073, -0.1801,  ..., -0.0413,  0.1115, -0.0226],
+        [-0.1281, -0.0926,  0.0277,  ..., -0.0051, -0.1134, -0.0489]],
+       device='cuda:0'), grad: tensor([[ 3.8091e-07,  1.1548e-07,  8.6613e-08,  ...,  0.0000e+00,
+          1.4715e-07,  0.0000e+00],
+        [ 5.2266e-06, -3.5390e-07,  1.1828e-06,  ...,  0.0000e+00,
+          7.4953e-06,  0.0000e+00],
+        [-1.6451e-05, -6.7800e-07, -2.3954e-06,  ...,  0.0000e+00,
+         -2.4557e-05,  0.0000e+00],
+        ...,
+        [ 3.3900e-07,  2.8126e-07, -3.2987e-06,  ...,  0.0000e+00,
+          9.5740e-07,  0.0000e+00],
+        [-6.3330e-08,  1.5646e-07,  5.8115e-07,  ...,  0.0000e+00,
+         -6.9384e-07,  0.0000e+00],
+        [ 4.2655e-07,  2.1234e-07,  1.3690e-06,  ...,  0.0000e+00,
+          1.1828e-07,  0.0000e+00]], device='cuda:0')
+Epoch 159, bias, value: tensor([-0.0041,  0.0173, -0.0131,  0.0110,  0.0250, -0.0144, -0.0199, -0.0157,
+        -0.0232, -0.0326], device='cuda:0'), grad: tensor([ 1.3188e-06,  1.2405e-05, -4.0144e-05,  5.0478e-06,  2.4885e-06,
+        -6.7838e-06,  2.5257e-05, -5.6475e-06,  1.5246e-06,  4.4927e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 158, time 216.89, cls_loss 0.0021 cls_loss_mapping 0.0041 cls_loss_causal 0.5504 re_mapping 0.0061 re_causal 0.0193 /// teacc 98.97 lr 0.00010000
+Epoch 160, weight, value: tensor([[-0.1520, -0.0825, -0.0560,  ..., -0.0126, -0.0298, -0.0059],
+        [-0.0612,  0.0836, -0.0669,  ...,  0.0217, -0.0275, -0.0703],
+        [ 0.0592, -0.1005, -0.0853,  ..., -0.0522,  0.1019, -0.0283],
+        ...,
+        [-0.1104, -0.0725,  0.0882,  ...,  0.0418, -0.1406,  0.0025],
+        [ 0.0575,  0.0071, -0.1815,  ..., -0.0416,  0.1116, -0.0227],
+        [-0.1283, -0.0925,  0.0281,  ..., -0.0052, -0.1136, -0.0489]],
+       device='cuda:0'), grad: tensor([[ 4.3772e-08,  1.2107e-07,  4.2468e-07,  ...,  0.0000e+00,
+          4.9546e-07,  0.0000e+00],
+        [ 4.8429e-08, -3.7812e-07,  2.8498e-07,  ...,  0.0000e+00,
+          9.0245e-07,  0.0000e+00],
+        [-7.4506e-08,  1.6764e-07,  2.6114e-06,  ...,  0.0000e+00,
+          3.3360e-06,  0.0000e+00],
+        ...,
+        [ 7.4506e-09,  3.3434e-07, -4.0717e-06,  ...,  0.0000e+00,
+          4.5169e-07,  0.0000e+00],
+        [ 4.6566e-09,  1.5460e-07,  6.4261e-08,  ...,  0.0000e+00,
+          3.0287e-06,  0.0000e+00],
+        [ 1.3039e-08,  4.1816e-07,  9.0711e-07,  ...,  0.0000e+00,
+          1.4212e-06,  0.0000e+00]], device='cuda:0')
+Epoch 160, bias, value: tensor([-0.0032,  0.0180, -0.0106,  0.0097,  0.0248, -0.0145, -0.0198, -0.0164,
+        -0.0233, -0.0325], device='cuda:0'), grad: tensor([ 3.3975e-06,  2.4252e-06,  2.0742e-05, -2.2918e-05, -2.6152e-06,
+         7.2457e-07,  1.8841e-06, -1.8969e-05,  7.6592e-06,  7.6964e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 159, time 216.84, cls_loss 0.0020 cls_loss_mapping 0.0045 cls_loss_causal 0.5588 re_mapping 0.0060 re_causal 0.0185 /// teacc 99.01 lr 0.00010000
+Epoch 161, weight, value: tensor([[-0.1522, -0.0827, -0.0562,  ..., -0.0126, -0.0298, -0.0059],
+        [-0.0612,  0.0841, -0.0667,  ...,  0.0219, -0.0268, -0.0703],
+        [ 0.0592, -0.1018, -0.0900,  ..., -0.0525,  0.1018, -0.0283],
+        ...,
+        [-0.1100, -0.0729,  0.0883,  ...,  0.0417, -0.1411,  0.0025],
+        [ 0.0575,  0.0070, -0.1825,  ..., -0.0417,  0.1114, -0.0227],
+        [-0.1286, -0.0923,  0.0282,  ..., -0.0052, -0.1139, -0.0489]],
+       device='cuda:0'), grad: tensor([[ 2.4959e-07,  4.1630e-07,  2.2165e-07,  ...,  9.3132e-09,
+          3.8557e-07,  0.0000e+00],
+        [ 5.8673e-08, -1.3504e-07,  7.6555e-07,  ...,  5.5879e-08,
+          3.4831e-07,  0.0000e+00],
+        [ 2.7847e-07,  5.7742e-07,  1.1912e-06,  ...,  2.7493e-06,
+          1.3441e-05,  0.0000e+00],
+        ...,
+        [ 1.5832e-08,  7.9535e-07, -4.2990e-06,  ...,  3.9116e-08,
+          2.1793e-07,  0.0000e+00],
+        [-1.8831e-06, -1.7975e-06,  2.8498e-07,  ...,  5.5879e-09,
+         -3.3379e-06,  0.0000e+00],
+        [ 4.1071e-07,  2.0228e-06,  3.2000e-06,  ...,  1.0245e-08,
+          9.2853e-07,  0.0000e+00]], device='cuda:0')
+Epoch 161, bias, value: tensor([-0.0028,  0.0183, -0.0116,  0.0101,  0.0247, -0.0145, -0.0202, -0.0165,
+        -0.0235, -0.0323], device='cuda:0'), grad: tensor([ 1.7816e-06,  3.9600e-06,  3.4034e-05, -2.7657e-05, -7.5847e-06,
+         3.7476e-06,  2.9784e-06, -2.4915e-05, -4.7609e-06,  1.8388e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 160, time 216.82, cls_loss 0.0014 cls_loss_mapping 0.0032 cls_loss_causal 0.4918 re_mapping 0.0063 re_causal 0.0185 /// teacc 99.08 lr 0.00010000
+Epoch 162, weight, value: tensor([[-0.1527, -0.0832, -0.0562,  ..., -0.0126, -0.0308, -0.0059],
+        [-0.0617,  0.0842, -0.0669,  ...,  0.0219, -0.0268, -0.0703],
+        [ 0.0598, -0.1023, -0.0903,  ..., -0.0527,  0.1019, -0.0283],
+        ...,
+        [-0.1106, -0.0729,  0.0885,  ...,  0.0417, -0.1415,  0.0025],
+        [ 0.0575,  0.0070, -0.1836,  ..., -0.0417,  0.1119, -0.0227],
+        [-0.1288, -0.0924,  0.0281,  ..., -0.0052, -0.1140, -0.0489]],
+       device='cuda:0'), grad: tensor([[ 6.3237e-07,  3.2317e-07,  2.5425e-07,  ...,  0.0000e+00,
+          3.9442e-07,  1.3970e-09],
+        [ 1.6950e-06,  2.4820e-07,  1.6252e-07,  ...,  0.0000e+00,
+          1.5479e-06,  0.0000e+00],
+        [ 7.3388e-07,  3.2736e-07,  3.0221e-07,  ...,  0.0000e+00,
+          7.1619e-07,  0.0000e+00],
+        ...,
+        [ 2.9476e-07,  2.6310e-07, -9.9279e-07,  ...,  0.0000e+00,
+          3.3388e-07,  0.0000e+00],
+        [-1.6928e-05, -6.4187e-06,  1.2526e-07,  ...,  0.0000e+00,
+         -1.5020e-05,  4.6566e-10],
+        [ 2.0117e-07,  2.3097e-07, -4.0978e-08,  ...,  0.0000e+00,
+          2.6682e-07,  0.0000e+00]], device='cuda:0')
+Epoch 162, bias, value: tensor([-0.0031,  0.0182, -0.0118,  0.0100,  0.0247, -0.0144, -0.0201, -0.0163,
+        -0.0234, -0.0323], device='cuda:0'), grad: tensor([ 9.4064e-08,  4.7535e-06,  3.4720e-06,  2.9523e-07,  4.4610e-07,
+         2.3276e-05,  1.1444e-05, -2.6338e-06, -4.3899e-05,  2.7455e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 161, time 216.67, cls_loss 0.0021 cls_loss_mapping 0.0044 cls_loss_causal 0.5491 re_mapping 0.0059 re_causal 0.0181 /// teacc 98.95 lr 0.00010000
+Epoch 163, weight, value: tensor([[-0.1531, -0.0837, -0.0579,  ..., -0.0126, -0.0309, -0.0059],
+        [-0.0627,  0.0843, -0.0671,  ...,  0.0219, -0.0271, -0.0703],
+        [ 0.0600, -0.1027, -0.0904,  ..., -0.0527,  0.1019, -0.0283],
+        ...,
+        [-0.1113, -0.0730,  0.0892,  ...,  0.0417, -0.1421,  0.0025],
+        [ 0.0575,  0.0065, -0.1848,  ..., -0.0419,  0.1121, -0.0229],
+        [-0.1289, -0.0928,  0.0280,  ..., -0.0052, -0.1141, -0.0489]],
+       device='cuda:0'), grad: tensor([[ 8.8941e-08,  2.7847e-07,  2.4214e-08,  ...,  0.0000e+00,
+          2.2855e-06,  0.0000e+00],
+        [ 7.8231e-08, -4.2357e-06,  2.1281e-07,  ...,  0.0000e+00,
+          8.2180e-06,  0.0000e+00],
+        [-1.7928e-07,  4.5309e-07,  3.1898e-07,  ...,  0.0000e+00,
+          1.5259e-05,  0.0000e+00],
+        ...,
+        [ 1.0012e-07,  1.3709e-06, -7.4320e-07,  ...,  0.0000e+00,
+          2.7135e-05,  0.0000e+00],
+        [-2.8312e-07,  6.2445e-07,  2.1793e-07,  ...,  0.0000e+00,
+          3.7625e-06,  4.6566e-10],
+        [ 1.1269e-07,  5.4296e-07, -3.4645e-07,  ...,  0.0000e+00,
+          3.1404e-06,  0.0000e+00]], device='cuda:0')
+Epoch 163, bias, value: tensor([-0.0034,  0.0181, -0.0120,  0.0102,  0.0243, -0.0145, -0.0196, -0.0157,
+        -0.0236, -0.0324], device='cuda:0'), grad: tensor([ 1.2442e-06,  2.1219e-05,  5.0753e-05, -2.0397e-04, -7.5847e-06,
+         3.0696e-05,  7.2606e-06,  7.2062e-05,  1.5661e-05,  1.2614e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 162, time 216.77, cls_loss 0.0016 cls_loss_mapping 0.0038 cls_loss_causal 0.4939 re_mapping 0.0060 re_causal 0.0180 /// teacc 99.01 lr 0.00010000
+Epoch 164, weight, value: tensor([[-0.1536, -0.0844, -0.0576,  ..., -0.0126, -0.0314, -0.0059],
+        [-0.0634,  0.0845, -0.0672,  ...,  0.0219, -0.0280, -0.0703],
+        [ 0.0607, -0.1024, -0.0911,  ..., -0.0527,  0.1024, -0.0283],
+        ...,
+        [-0.1118, -0.0731,  0.0894,  ...,  0.0417, -0.1429,  0.0025],
+        [ 0.0569,  0.0058, -0.1858,  ..., -0.0422,  0.1119, -0.0229],
+        [-0.1290, -0.0931,  0.0280,  ..., -0.0052, -0.1142, -0.0489]],
+       device='cuda:0'), grad: tensor([[ 3.6322e-08,  4.7032e-08,  9.8720e-08,  ...,  0.0000e+00,
+          4.7497e-08,  4.6566e-10],
+        [ 2.6543e-08, -5.7183e-07,  1.0757e-07,  ...,  0.0000e+00,
+          4.7497e-08,  0.0000e+00],
+        [-1.7602e-07,  1.5227e-07,  1.2061e-07,  ...,  0.0000e+00,
+         -1.8626e-07,  0.0000e+00],
+        ...,
+        [ 5.1223e-08,  3.9814e-07,  1.0207e-06,  ...,  0.0000e+00,
+          8.8010e-08,  0.0000e+00],
+        [-4.6566e-08,  1.2573e-08,  4.0326e-07,  ...,  0.0000e+00,
+          1.0710e-08,  4.6566e-10],
+        [ 3.4925e-08,  1.0338e-07,  1.5870e-05,  ...,  0.0000e+00,
+          1.5646e-07,  0.0000e+00]], device='cuda:0')
+Epoch 164, bias, value: tensor([-0.0035,  0.0181, -0.0118,  0.0105,  0.0242, -0.0149, -0.0190, -0.0156,
+        -0.0239, -0.0323], device='cuda:0'), grad: tensor([ 7.1665e-07, -8.2422e-08,  5.7789e-07, -5.4389e-07, -1.2022e-04,
+         3.1525e-07,  5.4715e-07,  7.3351e-06,  2.2426e-06,  1.0890e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 163, time 216.80, cls_loss 0.0017 cls_loss_mapping 0.0035 cls_loss_causal 0.5275 re_mapping 0.0061 re_causal 0.0186 /// teacc 99.06 lr 0.00010000
+Epoch 165, weight, value: tensor([[-0.1543, -0.0852, -0.0578,  ..., -0.0126, -0.0318, -0.0059],
+        [-0.0639,  0.0850, -0.0673,  ...,  0.0219, -0.0280, -0.0703],
+        [ 0.0609, -0.1030, -0.0914,  ..., -0.0527,  0.1024, -0.0283],
+        ...,
+        [-0.1122, -0.0732,  0.0894,  ...,  0.0417, -0.1443,  0.0025],
+        [ 0.0562,  0.0050, -0.1876,  ..., -0.0422,  0.1116, -0.0229],
+        [-0.1292, -0.0933,  0.0282,  ..., -0.0052, -0.1142, -0.0489]],
+       device='cuda:0'), grad: tensor([[ 4.7684e-05,  5.0329e-06,  4.9826e-08,  ...,  0.0000e+00,
+          1.1653e-04,  0.0000e+00],
+        [-1.2979e-05, -3.5256e-05, -8.3223e-06,  ...,  0.0000e+00,
+         -1.5587e-05,  0.0000e+00],
+        [ 2.0698e-05,  2.5034e-05,  5.9307e-06,  ...,  0.0000e+00,
+          4.0412e-05,  0.0000e+00],
+        ...,
+        [ 4.9621e-06,  8.2850e-06,  1.6233e-06,  ...,  0.0000e+00,
+          8.3297e-06,  0.0000e+00],
+        [-9.3520e-05,  1.9670e-06,  8.7079e-08,  ...,  0.0000e+00,
+         -2.5344e-04,  0.0000e+00],
+        [ 1.0423e-05,  3.7160e-07, -1.2340e-07,  ...,  0.0000e+00,
+          2.7061e-05,  0.0000e+00]], device='cuda:0')
+Epoch 165, bias, value: tensor([-0.0036,  0.0184, -0.0120,  0.0109,  0.0240, -0.0141, -0.0196, -0.0158,
+        -0.0244, -0.0321], device='cuda:0'), grad: tensor([ 2.4366e-04, -6.6102e-05,  1.0705e-04,  1.2839e-04,  1.2860e-05,
+         7.0810e-05, -8.2076e-05,  2.4706e-05, -4.9353e-04,  5.4181e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 164, time 217.03, cls_loss 0.0019 cls_loss_mapping 0.0052 cls_loss_causal 0.5109 re_mapping 0.0059 re_causal 0.0174 /// teacc 98.98 lr 0.00010000
+Epoch 166, weight, value: tensor([[-0.1551, -0.0857, -0.0578,  ..., -0.0126, -0.0322, -0.0059],
+        [-0.0642,  0.0861, -0.0674,  ...,  0.0219, -0.0300, -0.0703],
+        [ 0.0608, -0.1035, -0.0917,  ..., -0.0527,  0.1023, -0.0283],
+        ...,
+        [-0.1129, -0.0733,  0.0895,  ...,  0.0417, -0.1446,  0.0025],
+        [ 0.0558,  0.0035, -0.1886,  ..., -0.0422,  0.1127, -0.0230],
+        [-0.1295, -0.0934,  0.0283,  ..., -0.0053, -0.1144, -0.0489]],
+       device='cuda:0'), grad: tensor([[ 9.0012e-07,  5.1223e-08,  1.1642e-08,  ...,  0.0000e+00,
+          2.5518e-07,  0.0000e+00],
+        [ 3.8324e-07, -6.9756e-07,  3.3528e-08,  ...,  0.0000e+00,
+          3.8883e-07,  0.0000e+00],
+        [ 1.1809e-06,  1.0431e-07,  1.0245e-08,  ...,  0.0000e+00,
+          9.8627e-07,  0.0000e+00],
+        ...,
+        [ 4.2468e-07,  7.4320e-07,  2.9895e-07,  ...,  0.0000e+00,
+          3.1618e-07,  0.0000e+00],
+        [-1.0636e-06,  9.9186e-08,  7.4040e-08,  ...,  0.0000e+00,
+         -1.5022e-06,  0.0000e+00],
+        [ 1.2051e-06,  2.9337e-07, -3.6601e-07,  ...,  0.0000e+00,
+          4.1630e-07,  0.0000e+00]], device='cuda:0')
+Epoch 166, bias, value: tensor([-0.0037,  0.0191, -0.0123,  0.0118,  0.0238, -0.0147, -0.0195, -0.0157,
+        -0.0252, -0.0320], device='cuda:0'), grad: tensor([ 2.8610e-06,  1.4994e-06,  3.3509e-06,  2.4721e-05, -5.4762e-07,
+        -5.5194e-05,  2.2855e-06,  5.0701e-06,  2.6040e-06,  1.3344e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 165, time 216.49, cls_loss 0.0017 cls_loss_mapping 0.0032 cls_loss_causal 0.5394 re_mapping 0.0060 re_causal 0.0179 /// teacc 99.04 lr 0.00010000
+Epoch 167, weight, value: tensor([[-0.1553, -0.0856, -0.0580,  ..., -0.0126, -0.0318, -0.0059],
+        [-0.0643,  0.0863, -0.0676,  ...,  0.0219, -0.0303, -0.0703],
+        [ 0.0613, -0.1036, -0.0942,  ..., -0.0527,  0.1025, -0.0283],
+        ...,
+        [-0.1134, -0.0734,  0.0904,  ...,  0.0417, -0.1451,  0.0025],
+        [ 0.0559,  0.0034, -0.1902,  ..., -0.0422,  0.1128, -0.0230],
+        [-0.1297, -0.0937,  0.0279,  ..., -0.0053, -0.1145, -0.0489]],
+       device='cuda:0'), grad: tensor([[ 4.8727e-06,  1.9912e-06,  3.8650e-08,  ...,  0.0000e+00,
+          5.4538e-06,  0.0000e+00],
+        [-1.5441e-06, -2.1502e-05,  3.2131e-08,  ...,  0.0000e+00,
+          1.3933e-06,  0.0000e+00],
+        [-1.3843e-05,  1.1418e-06,  8.5216e-08,  ...,  0.0000e+00,
+         -1.1995e-05,  0.0000e+00],
+        ...,
+        [ 4.8354e-06,  1.7658e-06,  3.6974e-07,  ...,  0.0000e+00,
+          4.2394e-06,  0.0000e+00],
+        [-1.6391e-05, -2.3544e-06, -2.6869e-07,  ...,  0.0000e+00,
+         -2.0206e-05,  0.0000e+00],
+        [ 1.7611e-06,  1.7360e-06,  1.5581e-06,  ...,  0.0000e+00,
+          2.1178e-06,  0.0000e+00]], device='cuda:0')
+Epoch 167, bias, value: tensor([-0.0032,  0.0190, -0.0131,  0.0115,  0.0239, -0.0149, -0.0196, -0.0147,
+        -0.0253, -0.0324], device='cuda:0'), grad: tensor([ 1.2107e-05, -2.6867e-05, -2.8878e-05,  3.6955e-05,  6.2026e-07,
+         1.6034e-05,  1.2487e-05,  1.3791e-05, -4.6253e-05,  1.0081e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 166, time 216.84, cls_loss 0.0020 cls_loss_mapping 0.0027 cls_loss_causal 0.5250 re_mapping 0.0061 re_causal 0.0182 /// teacc 98.99 lr 0.00010000
+Epoch 168, weight, value: tensor([[-0.1560, -0.0863, -0.0586,  ..., -0.0126, -0.0320, -0.0059],
+        [-0.0652,  0.0858, -0.0676,  ...,  0.0219, -0.0312, -0.0703],
+        [ 0.0634, -0.1022, -0.0947,  ..., -0.0527,  0.1035, -0.0283],
+        ...,
+        [-0.1144, -0.0736,  0.0904,  ...,  0.0417, -0.1457,  0.0025],
+        [ 0.0551,  0.0027, -0.1926,  ..., -0.0422,  0.1124, -0.0230],
+        [-0.1299, -0.0951,  0.0278,  ..., -0.0053, -0.1145, -0.0489]],
+       device='cuda:0'), grad: tensor([[ 3.5390e-08,  7.0315e-08,  1.6764e-08,  ...,  0.0000e+00,
+          2.0489e-07,  0.0000e+00],
+        [ 1.2107e-08, -4.6007e-07,  8.9873e-08,  ...,  9.3132e-10,
+          1.5693e-07,  0.0000e+00],
+        [-1.7695e-08,  1.2433e-07,  2.0023e-08,  ...,  2.3283e-09,
+          1.4761e-07,  0.0000e+00],
+        ...,
+        [ 2.2352e-08,  2.0443e-07, -1.6857e-07,  ...,  4.6566e-10,
+          1.4435e-07,  0.0000e+00],
+        [ 2.4680e-07,  1.6112e-07,  3.7719e-08,  ...,  1.3970e-09,
+          4.3912e-07,  0.0000e+00],
+        [ 4.4703e-08,  2.1746e-07, -1.9278e-07,  ...,  4.6566e-10,
+          4.2096e-07,  0.0000e+00]], device='cuda:0')
+Epoch 168, bias, value: tensor([-0.0037,  0.0184, -0.0118,  0.0112,  0.0246, -0.0151, -0.0186, -0.0147,
+        -0.0259, -0.0326], device='cuda:0'), grad: tensor([ 1.2722e-06,  5.8999e-07,  1.1679e-06, -3.5971e-05, -4.3306e-07,
+         2.9773e-05, -1.2387e-07, -4.7777e-07,  2.2948e-06,  1.8459e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 167, time 216.95, cls_loss 0.0019 cls_loss_mapping 0.0039 cls_loss_causal 0.5135 re_mapping 0.0064 re_causal 0.0181 /// teacc 99.01 lr 0.00010000
+Epoch 169, weight, value: tensor([[-0.1564, -0.0869, -0.0587,  ..., -0.0124, -0.0326, -0.0059],
+        [-0.0653,  0.0868, -0.0678,  ...,  0.0219, -0.0309, -0.0704],
+        [ 0.0639, -0.1043, -0.0952,  ..., -0.0528,  0.1035, -0.0283],
+        ...,
+        [-0.1155, -0.0737,  0.0905,  ...,  0.0417, -0.1468,  0.0024],
+        [ 0.0553,  0.0028, -0.1937,  ..., -0.0427,  0.1126, -0.0232],
+        [-0.1306, -0.0954,  0.0277,  ..., -0.0055, -0.1170, -0.0489]],
+       device='cuda:0'), grad: tensor([[ 1.3020e-06,  1.0282e-06,  3.2131e-08,  ...,  0.0000e+00,
+          6.6683e-07,  0.0000e+00],
+        [ 4.0280e-07, -9.8255e-08,  9.7323e-08,  ...,  0.0000e+00,
+          5.1735e-07,  0.0000e+00],
+        [-1.8384e-06,  2.0210e-07, -7.3994e-07,  ...,  0.0000e+00,
+         -4.9844e-06,  0.0000e+00],
+        ...,
+        [ 3.9488e-07,  1.1828e-07, -1.8720e-07,  ...,  0.0000e+00,
+          5.7369e-07,  0.0000e+00],
+        [-6.7148e-07, -1.0859e-06,  7.9162e-09,  ...,  0.0000e+00,
+         -3.1069e-06,  0.0000e+00],
+        [ 2.1365e-06,  2.2724e-07,  2.0489e-08,  ...,  0.0000e+00,
+         -1.8207e-07,  0.0000e+00]], device='cuda:0')
+Epoch 169, bias, value: tensor([-0.0040,  0.0193, -0.0134,  0.0126,  0.0248, -0.0152, -0.0188, -0.0147,
+        -0.0259, -0.0332], device='cuda:0'), grad: tensor([ 3.7700e-06,  2.4326e-06, -2.9057e-06,  5.5730e-06,  4.8243e-06,
+        -2.0668e-05, -3.4906e-06,  2.3991e-06, -1.0850e-07,  8.1062e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 168, time 216.92, cls_loss 0.0019 cls_loss_mapping 0.0033 cls_loss_causal 0.5550 re_mapping 0.0061 re_causal 0.0180 /// teacc 98.90 lr 0.00010000
+Epoch 170, weight, value: tensor([[-0.1567, -0.0867, -0.0588,  ..., -0.0120, -0.0314, -0.0059],
+        [-0.0658,  0.0875, -0.0678,  ...,  0.0219, -0.0318, -0.0704],
+        [ 0.0642, -0.1053, -0.0954,  ..., -0.0528,  0.1033, -0.0283],
+        ...,
+        [-0.1164, -0.0742,  0.0902,  ...,  0.0417, -0.1480,  0.0024],
+        [ 0.0555,  0.0030, -0.1952,  ..., -0.0427,  0.1130, -0.0232],
+        [-0.1311, -0.0956,  0.0279,  ..., -0.0055, -0.1173, -0.0489]],
+       device='cuda:0'), grad: tensor([[ 1.5507e-07,  8.6650e-06,  5.3784e-07,  ...,  0.0000e+00,
+          1.4435e-08,  0.0000e+00],
+        [ 1.3411e-07, -2.6450e-07,  1.0310e-06,  ...,  0.0000e+00,
+          1.6764e-08,  0.0000e+00],
+        [ 4.3772e-08,  3.4366e-07,  1.2759e-07,  ...,  0.0000e+00,
+         -6.0536e-09,  0.0000e+00],
+        ...,
+        [-2.1420e-08,  4.8475e-07,  1.5378e-05,  ...,  0.0000e+00,
+          1.7229e-08,  0.0000e+00],
+        [-8.3726e-07,  1.2573e-07,  3.5353e-06,  ...,  0.0000e+00,
+         -8.5356e-07,  0.0000e+00],
+        [ 2.1746e-07,  1.3923e-07, -2.5854e-05,  ...,  0.0000e+00,
+          1.6345e-07,  0.0000e+00]], device='cuda:0')
+Epoch 170, bias, value: tensor([-0.0032,  0.0198, -0.0143,  0.0128,  0.0246, -0.0150, -0.0189, -0.0152,
+        -0.0259, -0.0330], device='cuda:0'), grad: tensor([ 1.6585e-05,  2.5034e-06,  8.6380e-07,  6.3293e-06,  1.2770e-05,
+         4.0680e-06, -2.9057e-05,  2.8148e-05,  5.8115e-06, -4.8041e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 169, time 216.75, cls_loss 0.0021 cls_loss_mapping 0.0041 cls_loss_causal 0.4974 re_mapping 0.0061 re_causal 0.0179 /// teacc 98.97 lr 0.00010000
+Epoch 171, weight, value: tensor([[-0.1573, -0.0872, -0.0597,  ..., -0.0120, -0.0320, -0.0059],
+        [-0.0660,  0.0874, -0.0678,  ...,  0.0219, -0.0319, -0.0704],
+        [ 0.0657, -0.1054, -0.0949,  ..., -0.0528,  0.1036, -0.0283],
+        ...,
+        [-0.1190, -0.0744,  0.0898,  ...,  0.0417, -0.1498,  0.0024],
+        [ 0.0554,  0.0030, -0.1979,  ..., -0.0427,  0.1131, -0.0232],
+        [-0.1316, -0.0961,  0.0280,  ..., -0.0055, -0.1175, -0.0489]],
+       device='cuda:0'), grad: tensor([[ 3.5856e-08,  2.9802e-08,  4.3772e-08,  ...,  0.0000e+00,
+          4.7497e-08,  0.0000e+00],
+        [ 5.3234e-06,  6.6916e-07,  6.4448e-07,  ...,  0.0000e+00,
+          5.8487e-06,  0.0000e+00],
+        [ 2.4540e-07,  1.2293e-07,  6.7055e-08,  ...,  0.0000e+00,
+          2.6710e-06,  0.0000e+00],
+        ...,
+        [ 4.8429e-08,  4.3772e-08, -9.3551e-07,  ...,  0.0000e+00,
+          9.9652e-08,  0.0000e+00],
+        [-5.8040e-06, -6.0722e-07,  1.1595e-07,  ...,  0.0000e+00,
+         -6.2250e-06,  0.0000e+00],
+        [ 2.3749e-08,  4.6287e-07, -9.1735e-08,  ...,  0.0000e+00,
+          1.5739e-07,  0.0000e+00]], device='cuda:0')
+Epoch 171, bias, value: tensor([-0.0036,  0.0195, -0.0140,  0.0117,  0.0247, -0.0136, -0.0186, -0.0155,
+        -0.0261, -0.0327], device='cuda:0'), grad: tensor([ 3.4273e-07,  2.4110e-05,  5.0925e-06, -1.1250e-05, -6.3665e-06,
+         1.4253e-05,  5.5321e-06, -2.2456e-05, -9.7752e-06,  5.8720e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 170, time 217.07, cls_loss 0.0015 cls_loss_mapping 0.0041 cls_loss_causal 0.5629 re_mapping 0.0059 re_causal 0.0189 /// teacc 98.93 lr 0.00010000
+Epoch 172, weight, value: tensor([[-0.1583, -0.0876, -0.0598,  ..., -0.0120, -0.0324, -0.0059],
+        [-0.0668,  0.0873, -0.0680,  ...,  0.0219, -0.0318, -0.0704],
+        [ 0.0660, -0.1056, -0.0951,  ..., -0.0528,  0.1039, -0.0283],
+        ...,
+        [-0.1206, -0.0745,  0.0898,  ...,  0.0417, -0.1507,  0.0024],
+        [ 0.0554,  0.0029, -0.1995,  ..., -0.0427,  0.1134, -0.0233],
+        [-0.1320, -0.0962,  0.0280,  ..., -0.0055, -0.1175, -0.0489]],
+       device='cuda:0'), grad: tensor([[ 2.5006e-07,  4.8894e-07,  1.5832e-08,  ...,  0.0000e+00,
+          9.9186e-08,  0.0000e+00],
+        [-8.6520e-07, -1.0923e-05,  7.1712e-08,  ...,  0.0000e+00,
+         -3.8631e-06,  0.0000e+00],
+        [ 1.2554e-06,  4.9993e-06,  3.0734e-08,  ...,  0.0000e+00,
+          2.2352e-06,  0.0000e+00],
+        ...,
+        [-1.0757e-07,  6.9290e-07, -2.1094e-07,  ...,  0.0000e+00,
+          2.6915e-07,  0.0000e+00],
+        [-2.8089e-06,  2.2203e-06,  1.1036e-07,  ...,  0.0000e+00,
+         -2.1271e-06,  0.0000e+00],
+        [ 2.2491e-07,  1.6997e-07, -2.9523e-07,  ...,  0.0000e+00,
+          2.3516e-07,  0.0000e+00]], device='cuda:0')
+Epoch 172, bias, value: tensor([-0.0039,  0.0193, -0.0142,  0.0119,  0.0248, -0.0139, -0.0175, -0.0158,
+        -0.0262, -0.0325], device='cuda:0'), grad: tensor([-3.2177e-07, -2.3514e-05,  1.0639e-05,  2.4755e-06,  8.7265e-07,
+         2.0936e-06,  6.3702e-06,  1.0505e-06,  6.9337e-07, -3.4599e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 171, time 216.92, cls_loss 0.0021 cls_loss_mapping 0.0053 cls_loss_causal 0.5194 re_mapping 0.0056 re_causal 0.0177 /// teacc 99.03 lr 0.00010000
+Epoch 173, weight, value: tensor([[-0.1584, -0.0869, -0.0600,  ..., -0.0120, -0.0304, -0.0059],
+        [-0.0670,  0.0875, -0.0684,  ...,  0.0219, -0.0321, -0.0704],
+        [ 0.0668, -0.1059, -0.0953,  ..., -0.0528,  0.1042, -0.0283],
+        ...,
+        [-0.1201, -0.0745,  0.0909,  ...,  0.0417, -0.1508,  0.0024],
+        [ 0.0557,  0.0028, -0.2012,  ..., -0.0428,  0.1136, -0.0233],
+        [-0.1323, -0.0965,  0.0273,  ..., -0.0056, -0.1175, -0.0489]],
+       device='cuda:0'), grad: tensor([[ 4.8429e-08,  1.3690e-07,  4.0978e-07,  ...,  0.0000e+00,
+          2.7940e-08,  0.0000e+00],
+        [ 2.9802e-08, -2.7269e-06,  3.8184e-07,  ...,  0.0000e+00,
+         -5.5972e-07,  0.0000e+00],
+        [ 1.8626e-08,  2.6654e-06,  6.5286e-07,  ...,  0.0000e+00,
+          5.2433e-07,  0.0000e+00],
+        ...,
+        [-6.5193e-09,  4.9081e-07, -2.4177e-06,  ...,  0.0000e+00,
+          5.6811e-08,  0.0000e+00],
+        [-1.4529e-07,  1.2107e-07,  1.3039e-07,  ...,  0.0000e+00,
+         -3.8929e-07,  0.0000e+00],
+        [ 6.5193e-08,  7.5158e-07,  4.2934e-07,  ...,  0.0000e+00,
+          1.1921e-07,  0.0000e+00]], device='cuda:0')
+Epoch 173, bias, value: tensor([-0.0027,  0.0190, -0.0144,  0.0125,  0.0248, -0.0146, -0.0184, -0.0146,
+        -0.0263, -0.0330], device='cuda:0'), grad: tensor([-3.4459e-06, -3.6731e-06,  7.3314e-06,  2.3637e-06,  4.8168e-06,
+         3.0287e-06,  1.3383e-06, -6.0573e-06,  1.3029e-06, -7.0110e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 172, time 216.93, cls_loss 0.0021 cls_loss_mapping 0.0035 cls_loss_causal 0.5260 re_mapping 0.0056 re_causal 0.0168 /// teacc 98.99 lr 0.00010000
+Epoch 174, weight, value: tensor([[-0.1589, -0.0867, -0.0574,  ..., -0.0120, -0.0304, -0.0059],
+        [-0.0670,  0.0880, -0.0685,  ...,  0.0218, -0.0315, -0.0704],
+        [ 0.0659, -0.1065, -0.0966,  ..., -0.0528,  0.1037, -0.0283],
+        ...,
+        [-0.1201, -0.0746,  0.0910,  ...,  0.0416, -0.1512,  0.0024],
+        [ 0.0553,  0.0025, -0.2025,  ..., -0.0434,  0.1144, -0.0234],
+        [-0.1326, -0.0971,  0.0273,  ..., -0.0056, -0.1177, -0.0490]],
+       device='cuda:0'), grad: tensor([[ 2.4393e-05,  4.5262e-07,  2.4680e-06,  ...,  9.3132e-10,
+          3.7193e-05,  0.0000e+00],
+        [ 1.0924e-06, -8.1025e-08,  1.0831e-06,  ...,  9.3132e-10,
+          1.5106e-06,  0.0000e+00],
+        [-4.9829e-05,  3.5297e-07,  1.4156e-07,  ...,  9.3132e-10,
+         -6.8545e-05,  0.0000e+00],
+        ...,
+        [ 1.0496e-06, -1.2992e-06, -4.6380e-06,  ...,  9.3132e-10,
+          2.2948e-06,  0.0000e+00],
+        [ 2.0623e-05, -1.4249e-07,  7.2643e-08,  ...,  1.8626e-09,
+          2.2173e-05,  0.0000e+00],
+        [ 4.0717e-06,  1.3663e-06,  2.1793e-07,  ...,  0.0000e+00,
+          3.1516e-06,  0.0000e+00]], device='cuda:0')
+Epoch 174, bias, value: tensor([-0.0012,  0.0193, -0.0152,  0.0145,  0.0245, -0.0169, -0.0175, -0.0146,
+        -0.0266, -0.0329], device='cuda:0'), grad: tensor([ 1.1116e-04,  1.3307e-05, -1.4222e-04, -8.3148e-06,  1.3066e-06,
+        -4.3869e-05,  1.9819e-05, -3.4690e-05,  5.4479e-05,  2.8819e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 173, time 216.72, cls_loss 0.0023 cls_loss_mapping 0.0038 cls_loss_causal 0.5206 re_mapping 0.0055 re_causal 0.0162 /// teacc 98.98 lr 0.00010000
+Epoch 175, weight, value: tensor([[-0.1593, -0.0876, -0.0576,  ..., -0.0121, -0.0309, -0.0059],
+        [-0.0671,  0.0884, -0.0687,  ...,  0.0218, -0.0316, -0.0705],
+        [ 0.0663, -0.1070, -0.0970,  ..., -0.0528,  0.1041, -0.0283],
+        ...,
+        [-0.1226, -0.0749,  0.0913,  ...,  0.0415, -0.1527,  0.0024],
+        [ 0.0550,  0.0020, -0.2035,  ..., -0.0441,  0.1148, -0.0236],
+        [-0.1342, -0.1014,  0.0268,  ..., -0.0058, -0.1183, -0.0490]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-07,  3.9022e-07,  2.1700e-07,  ...,  0.0000e+00,
+          8.3819e-07,  2.7940e-09],
+        [ 1.3132e-07, -7.7188e-06,  3.9209e-07,  ...,  0.0000e+00,
+          2.3469e-07,  0.0000e+00],
+        [-1.4314e-06,  5.2806e-07,  1.1269e-07,  ...,  0.0000e+00,
+         -1.5378e-05,  0.0000e+00],
+        ...,
+        [ 1.5367e-07,  5.0515e-06, -3.3341e-07,  ...,  0.0000e+00,
+          4.4331e-07,  1.8626e-09],
+        [ 3.1386e-07,  1.6950e-07,  1.7127e-06,  ...,  0.0000e+00,
+          8.2981e-07,  9.3132e-10],
+        [ 6.9849e-08,  1.3644e-06, -3.2131e-06,  ...,  0.0000e+00,
+          5.7742e-08,  9.3132e-10]], device='cuda:0')
+Epoch 175, bias, value: tensor([-0.0014,  0.0194, -0.0152,  0.0145,  0.0266, -0.0166, -0.0172, -0.0147,
+        -0.0267, -0.0349], device='cuda:0'), grad: tensor([ 2.5854e-06, -1.7673e-05, -1.8418e-05,  2.7657e-05,  1.3253e-06,
+        -5.4426e-06,  2.3823e-06,  1.0900e-05,  9.0674e-06, -1.2442e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 174----------------------------------------------------
+epoch 174, time 217.84, cls_loss 0.0019 cls_loss_mapping 0.0036 cls_loss_causal 0.5235 re_mapping 0.0056 re_causal 0.0164 /// teacc 99.15 lr 0.00010000
+Epoch 176, weight, value: tensor([[-0.1596, -0.0881, -0.0578,  ..., -0.0121, -0.0313, -0.0059],
+        [-0.0672,  0.0889, -0.0687,  ...,  0.0218, -0.0307, -0.0705],
+        [ 0.0666, -0.1073, -0.0972,  ..., -0.0528,  0.1042, -0.0283],
+        ...,
+        [-0.1248, -0.0753,  0.0913,  ...,  0.0415, -0.1541,  0.0024],
+        [ 0.0549,  0.0015, -0.2049,  ..., -0.0444,  0.1152, -0.0237],
+        [-0.1346, -0.1011,  0.0273,  ..., -0.0059, -0.1184, -0.0491]],
+       device='cuda:0'), grad: tensor([[ 1.3225e-07,  1.6484e-07,  6.5193e-08,  ...,  0.0000e+00,
+          1.5832e-08,  0.0000e+00],
+        [ 2.1514e-07,  9.3691e-07,  8.4564e-07,  ...,  0.0000e+00,
+          7.5437e-08,  0.0000e+00],
+        [ 4.1910e-08,  5.7742e-08,  1.4901e-08,  ...,  0.0000e+00,
+         -1.0245e-08,  0.0000e+00],
+        ...,
+        [-3.3621e-07,  1.6484e-07, -1.0598e-06,  ...,  0.0000e+00,
+          2.1420e-08,  0.0000e+00],
+        [-1.3849e-06, -8.8848e-07,  2.0768e-07,  ...,  0.0000e+00,
+         -6.7241e-07,  0.0000e+00],
+        [ 2.2911e-07, -2.2464e-06, -1.4957e-06,  ...,  0.0000e+00,
+          2.3283e-08,  0.0000e+00]], device='cuda:0')
+Epoch 176, bias, value: tensor([-0.0016,  0.0199, -0.0154,  0.0141,  0.0264, -0.0163, -0.0171, -0.0150,
+        -0.0270, -0.0344], device='cuda:0'), grad: tensor([ 4.4517e-07,  1.5140e-05,  2.7195e-07,  4.0792e-06,  1.6153e-05,
+         2.7344e-06,  3.9209e-07, -7.2923e-07, -1.9483e-06, -3.6538e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 175, time 216.92, cls_loss 0.0023 cls_loss_mapping 0.0049 cls_loss_causal 0.5178 re_mapping 0.0054 re_causal 0.0162 /// teacc 99.04 lr 0.00010000
+Epoch 177, weight, value: tensor([[-0.1601, -0.0882, -0.0596,  ..., -0.0115, -0.0307, -0.0056],
+        [-0.0674,  0.0892, -0.0689,  ...,  0.0218, -0.0309, -0.0708],
+        [ 0.0646, -0.1075, -0.0981,  ..., -0.0534,  0.1027, -0.0284],
+        ...,
+        [-0.1249, -0.0754,  0.0900,  ...,  0.0419, -0.1547,  0.0023],
+        [ 0.0564,  0.0013, -0.2058,  ..., -0.0451,  0.1172, -0.0239],
+        [-0.1354, -0.1013,  0.0288,  ..., -0.0061, -0.1188, -0.0492]],
+       device='cuda:0'), grad: tensor([[ 5.0291e-07,  4.9826e-07,  4.4703e-08,  ...,  0.0000e+00,
+          1.4994e-07,  9.3132e-10],
+        [ 9.8627e-07, -8.2050e-07,  1.5181e-07,  ...,  9.3132e-10,
+         -1.6391e-07,  0.0000e+00],
+        [-6.8918e-08,  1.0673e-06,  2.5146e-08,  ...,  9.3132e-10,
+         -3.5390e-08,  0.0000e+00],
+        ...,
+        [ 2.3283e-07,  2.0675e-07, -1.1558e-06,  ...,  1.8626e-09,
+          2.3283e-07,  9.3132e-10],
+        [ 3.5558e-06,  5.3830e-07,  4.0047e-08,  ...,  9.3132e-10,
+          9.1270e-07,  4.6566e-09],
+        [ 3.9861e-07,  1.5274e-07,  6.1374e-07,  ...,  0.0000e+00,
+          4.8615e-07,  9.3132e-10]], device='cuda:0')
+Epoch 177, bias, value: tensor([-0.0015,  0.0198, -0.0166,  0.0141,  0.0258, -0.0162, -0.0173, -0.0170,
+        -0.0267, -0.0323], device='cuda:0'), grad: tensor([-3.0566e-06, -5.3085e-08,  2.1122e-06,  3.2753e-05,  2.0340e-06,
+        -5.2840e-05, -4.2003e-07, -3.3546e-06,  1.6332e-05,  6.5640e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 176, time 216.81, cls_loss 0.0019 cls_loss_mapping 0.0032 cls_loss_causal 0.5179 re_mapping 0.0056 re_causal 0.0168 /// teacc 99.03 lr 0.00010000
+Epoch 178, weight, value: tensor([[-0.1604, -0.0886, -0.0607,  ..., -0.0104, -0.0308, -0.0074],
+        [-0.0677,  0.0889, -0.0691,  ...,  0.0218, -0.0313, -0.0730],
+        [ 0.0653, -0.1076, -0.0982,  ..., -0.0536,  0.1032, -0.0286],
+        ...,
+        [-0.1255, -0.0748,  0.0901,  ...,  0.0418, -0.1557,  0.0025],
+        [ 0.0563,  0.0011, -0.2065,  ..., -0.0459,  0.1171, -0.0247],
+        [-0.1356, -0.1015,  0.0290,  ..., -0.0063, -0.1189, -0.0523]],
+       device='cuda:0'), grad: tensor([[ 3.3528e-07,  1.0561e-06,  1.6764e-08,  ...,  1.8626e-09,
+          4.5076e-07,  0.0000e+00],
+        [ 2.2165e-07, -1.6307e-06,  8.6613e-08,  ...,  0.0000e+00,
+          1.0524e-07,  0.0000e+00],
+        [ 3.3155e-06,  1.0245e-07,  1.0245e-08,  ...,  0.0000e+00,
+          4.0084e-06,  0.0000e+00],
+        ...,
+        [ 3.3528e-08,  3.1851e-07, -1.6857e-07,  ...,  9.3132e-10,
+          7.5437e-08,  0.0000e+00],
+        [-5.3085e-06, -4.4703e-07,  2.9244e-07,  ...,  1.8626e-09,
+         -6.5714e-06,  0.0000e+00],
+        [ 4.6194e-07,  1.9558e-07, -4.2282e-07,  ...,  9.3132e-10,
+          5.7369e-07,  0.0000e+00]], device='cuda:0')
+Epoch 178, bias, value: tensor([-0.0019,  0.0193, -0.0164,  0.0154,  0.0253, -0.0175, -0.0159, -0.0167,
+        -0.0270, -0.0322], device='cuda:0'), grad: tensor([ 2.5239e-07, -2.8051e-06,  8.7023e-06, -3.4552e-07,  7.9349e-07,
+         3.5036e-06,  1.3271e-06,  4.9919e-07, -1.0684e-05, -1.2880e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 177, time 217.00, cls_loss 0.0018 cls_loss_mapping 0.0032 cls_loss_causal 0.4880 re_mapping 0.0058 re_causal 0.0167 /// teacc 99.05 lr 0.00010000
+Epoch 179, weight, value: tensor([[-0.1610, -0.0897, -0.0608,  ..., -0.0104, -0.0310, -0.0075],
+        [-0.0677,  0.0893, -0.0694,  ...,  0.0219, -0.0316, -0.0731],
+        [ 0.0663, -0.1079, -0.0975,  ..., -0.0537,  0.1039, -0.0286],
+        ...,
+        [-0.1268, -0.0749,  0.0902,  ...,  0.0417, -0.1568,  0.0024],
+        [ 0.0567,  0.0012, -0.2074,  ..., -0.0472,  0.1174, -0.0251],
+        [-0.1348, -0.1015,  0.0291,  ..., -0.0064, -0.1190, -0.0528]],
+       device='cuda:0'), grad: tensor([[7.0110e-06, 5.0515e-06, 3.1888e-06,  ..., 2.1700e-07, 1.3132e-06,
+         0.0000e+00],
+        [1.3292e-05, 2.3544e-05, 6.2957e-07,  ..., 1.6764e-08, 6.5044e-06,
+         0.0000e+00],
+        [2.6766e-06, 3.9861e-06, 4.5728e-07,  ..., 3.0734e-08, 9.3691e-07,
+         0.0000e+00],
+        ...,
+        [6.5230e-06, 4.3958e-07, 4.2804e-06,  ..., 3.2596e-07, 8.7544e-08,
+         0.0000e+00],
+        [3.6992e-06, 4.9286e-06, 9.0152e-07,  ..., 6.1467e-08, 1.1958e-06,
+         0.0000e+00],
+        [1.7453e-06, 4.7497e-07, 1.3057e-06,  ..., 8.1025e-08, 9.8720e-08,
+         0.0000e+00]], device='cuda:0')
+Epoch 179, bias, value: tensor([-0.0020,  0.0193, -0.0160,  0.0154,  0.0247, -0.0175, -0.0169, -0.0166,
+        -0.0272, -0.0316], device='cuda:0'), grad: tensor([ 1.8403e-05,  4.9084e-05,  8.9705e-06,  5.4799e-06,  5.6475e-06,
+        -3.0115e-05, -8.6546e-05,  1.2316e-05,  1.2152e-05,  4.5225e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 178, time 217.09, cls_loss 0.0017 cls_loss_mapping 0.0030 cls_loss_causal 0.5425 re_mapping 0.0054 re_causal 0.0172 /// teacc 99.01 lr 0.00010000
+Epoch 180, weight, value: tensor([[-0.1630, -0.0907, -0.0610,  ..., -0.0104, -0.0300, -0.0075],
+        [-0.0680,  0.0896, -0.0697,  ...,  0.0219, -0.0315, -0.0731],
+        [ 0.0672, -0.1083, -0.0978,  ..., -0.0538,  0.1042, -0.0286],
+        ...,
+        [-0.1278, -0.0749,  0.0906,  ...,  0.0417, -0.1577,  0.0024],
+        [ 0.0567,  0.0014, -0.2083,  ..., -0.0476,  0.1175, -0.0252],
+        [-0.1345, -0.1019,  0.0290,  ..., -0.0065, -0.1191, -0.0528]],
+       device='cuda:0'), grad: tensor([[ 7.2643e-08,  1.1455e-07,  3.5390e-08,  ...,  0.0000e+00,
+          1.7136e-07,  0.0000e+00],
+        [ 9.3132e-09, -2.6450e-07,  3.5670e-07,  ...,  0.0000e+00,
+          8.1025e-08,  0.0000e+00],
+        [ 1.6764e-08,  1.1548e-07,  3.3528e-08,  ...,  0.0000e+00,
+          2.5406e-06,  0.0000e+00],
+        ...,
+        [ 4.3772e-08,  3.1292e-07,  7.7635e-06,  ...,  0.0000e+00,
+          6.7987e-08,  0.0000e+00],
+        [ 5.6811e-08,  9.4064e-08,  6.4261e-08,  ...,  0.0000e+00,
+         -4.6566e-09,  0.0000e+00],
+        [ 4.3772e-08,  6.3330e-07, -8.2180e-06,  ...,  0.0000e+00,
+          8.7544e-08,  0.0000e+00]], device='cuda:0')
+Epoch 180, bias, value: tensor([-0.0020,  0.0194, -0.0163,  0.0153,  0.0249, -0.0175, -0.0167, -0.0165,
+        -0.0275, -0.0316], device='cuda:0'), grad: tensor([ 8.5868e-07,  2.8796e-06,  6.0685e-06, -5.2992e-07, -8.2105e-06,
+        -4.9248e-06,  9.3691e-07,  6.2466e-05,  7.9349e-07, -6.0439e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 179, time 216.91, cls_loss 0.0017 cls_loss_mapping 0.0032 cls_loss_causal 0.5005 re_mapping 0.0059 re_causal 0.0168 /// teacc 99.09 lr 0.00010000
+Epoch 181, weight, value: tensor([[-0.1632, -0.0910, -0.0614,  ..., -0.0101, -0.0300, -0.0075],
+        [-0.0684,  0.0893, -0.0710,  ...,  0.0218, -0.0319, -0.0731],
+        [ 0.0677, -0.1084, -0.0984,  ..., -0.0538,  0.1045, -0.0286],
+        ...,
+        [-0.1284, -0.0747,  0.0915,  ...,  0.0416, -0.1585,  0.0024],
+        [ 0.0567,  0.0006, -0.2124,  ..., -0.0498,  0.1177, -0.0252],
+        [-0.1348, -0.1022,  0.0287,  ..., -0.0067, -0.1193, -0.0528]],
+       device='cuda:0'), grad: tensor([[ 2.0489e-08, -2.2817e-07,  3.7253e-09,  ...,  0.0000e+00,
+          1.8999e-07,  0.0000e+00],
+        [ 1.3877e-06,  5.0198e-07,  5.4017e-08,  ...,  9.3132e-10,
+          3.0864e-06,  0.0000e+00],
+        [ 3.2596e-08,  2.9802e-08,  4.1910e-08,  ...,  9.3132e-10,
+          2.7101e-06,  0.0000e+00],
+        ...,
+        [ 2.3283e-08,  1.9185e-07, -3.4831e-07,  ...,  9.3132e-10,
+          3.2745e-06,  0.0000e+00],
+        [-2.2948e-06, -1.3467e-06,  1.6764e-08,  ...,  0.0000e+00,
+          5.2638e-06,  0.0000e+00],
+        [ 6.4261e-08,  1.1828e-07,  1.1083e-07,  ...,  9.3132e-10,
+          2.2538e-07,  0.0000e+00]], device='cuda:0')
+Epoch 181, bias, value: tensor([-0.0019,  0.0186, -0.0163,  0.0151,  0.0253, -0.0175, -0.0164, -0.0156,
+        -0.0283, -0.0316], device='cuda:0'), grad: tensor([-1.8235e-06,  7.3425e-06,  6.2250e-06, -3.4839e-05,  3.0827e-07,
+         1.5004e-06,  2.7306e-06,  6.8322e-06,  1.0483e-05,  1.2638e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 180, time 216.88, cls_loss 0.0018 cls_loss_mapping 0.0034 cls_loss_causal 0.4957 re_mapping 0.0053 re_causal 0.0157 /// teacc 99.11 lr 0.00010000
+Epoch 182, weight, value: tensor([[-0.1635, -0.0912, -0.0615,  ..., -0.0101, -0.0302, -0.0075],
+        [-0.0686,  0.0899, -0.0706,  ...,  0.0218, -0.0322, -0.0731],
+        [ 0.0687, -0.1084, -0.0999,  ..., -0.0539,  0.1052, -0.0286],
+        ...,
+        [-0.1289, -0.0753,  0.0920,  ...,  0.0416, -0.1590,  0.0024],
+        [ 0.0568,  0.0006, -0.2141,  ..., -0.0504,  0.1176, -0.0252],
+        [-0.1354, -0.1023,  0.0290,  ..., -0.0069, -0.1198, -0.0528]],
+       device='cuda:0'), grad: tensor([[ 3.1665e-08,  2.2352e-08,  4.2841e-08,  ...,  2.7940e-09,
+          2.6356e-07,  0.0000e+00],
+        [ 1.6112e-07,  3.4459e-08,  1.6242e-06,  ...,  1.3970e-08,
+          3.8370e-07,  0.0000e+00],
+        [-6.1467e-08,  3.3528e-08,  2.0675e-07,  ...,  8.3819e-09,
+         -1.7077e-05,  0.0000e+00],
+        ...,
+        [ 5.4948e-08,  1.0896e-07, -4.9621e-06,  ...,  1.2107e-08,
+          4.1164e-07,  0.0000e+00],
+        [-1.2089e-06, -3.4459e-07,  7.9162e-08,  ...,  5.5879e-09,
+         -1.3616e-06,  0.0000e+00],
+        [ 1.5553e-07,  1.1362e-07,  2.7567e-06,  ...,  2.6077e-08,
+          1.4633e-05,  0.0000e+00]], device='cuda:0')
+Epoch 182, bias, value: tensor([-0.0019,  0.0188, -0.0163,  0.0148,  0.0246, -0.0175, -0.0166, -0.0150,
+        -0.0288, -0.0313], device='cuda:0'), grad: tensor([-2.5518e-07,  1.0312e-05, -2.8402e-05,  1.9409e-06, -2.6003e-06,
+         3.0212e-06,  1.4231e-06, -2.7016e-05, -2.0675e-06,  4.3601e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 181, time 217.00, cls_loss 0.0015 cls_loss_mapping 0.0025 cls_loss_causal 0.5025 re_mapping 0.0055 re_causal 0.0166 /// teacc 99.00 lr 0.00010000
+Epoch 183, weight, value: tensor([[-0.1639, -0.0915, -0.0616,  ..., -0.0101, -0.0304, -0.0075],
+        [-0.0691,  0.0901, -0.0709,  ...,  0.0218, -0.0322, -0.0731],
+        [ 0.0691, -0.1089, -0.1002,  ..., -0.0539,  0.1056, -0.0286],
+        ...,
+        [-0.1285, -0.0753,  0.0923,  ...,  0.0416, -0.1594,  0.0024],
+        [ 0.0575,  0.0009, -0.2148,  ..., -0.0506,  0.1180, -0.0252],
+        [-0.1362, -0.1024,  0.0289,  ..., -0.0070, -0.1202, -0.0528]],
+       device='cuda:0'), grad: tensor([[ 1.9744e-07,  7.3295e-07,  1.2200e-07,  ...,  0.0000e+00,
+          1.1362e-07,  0.0000e+00],
+        [ 1.4901e-08, -1.5110e-05, -8.5961e-07,  ...,  0.0000e+00,
+          9.3132e-09,  0.0000e+00],
+        [-5.5879e-09,  1.3821e-06,  1.7323e-07,  ...,  0.0000e+00,
+         -4.0606e-07,  0.0000e+00],
+        ...,
+        [ 2.0489e-08,  2.3060e-06,  4.5076e-07,  ...,  0.0000e+00,
+          3.3528e-08,  0.0000e+00],
+        [ 9.8720e-08,  4.2692e-06,  1.6764e-07,  ...,  0.0000e+00,
+         -9.3132e-09,  0.0000e+00],
+        [ 2.4214e-08,  1.1306e-06,  6.3121e-05,  ...,  0.0000e+00,
+          3.5390e-08,  0.0000e+00]], device='cuda:0')
+Epoch 183, bias, value: tensor([-0.0018,  0.0187, -0.0166,  0.0149,  0.0247, -0.0176, -0.0171, -0.0146,
+        -0.0285, -0.0315], device='cuda:0'), grad: tensor([ 9.7044e-07, -3.3826e-05,  3.0063e-06,  2.4885e-06, -2.5797e-04,
+         5.9605e-08,  2.5108e-06,  6.6310e-06,  1.0595e-05,  2.6584e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 182, time 217.10, cls_loss 0.0019 cls_loss_mapping 0.0032 cls_loss_causal 0.5289 re_mapping 0.0052 re_causal 0.0158 /// teacc 98.99 lr 0.00010000
+Epoch 184, weight, value: tensor([[-0.1644, -0.0923, -0.0618,  ..., -0.0102, -0.0306, -0.0075],
+        [-0.0693,  0.0904, -0.0711,  ...,  0.0218, -0.0323, -0.0731],
+        [ 0.0696, -0.1091, -0.1005,  ..., -0.0539,  0.1060, -0.0286],
+        ...,
+        [-0.1287, -0.0755,  0.0924,  ...,  0.0416, -0.1601,  0.0024],
+        [ 0.0576,  0.0009, -0.2166,  ..., -0.0507,  0.1182, -0.0252],
+        [-0.1365, -0.1025,  0.0287,  ..., -0.0071, -0.1204, -0.0528]],
+       device='cuda:0'), grad: tensor([[ 1.5181e-07,  1.4901e-07,  2.3283e-07,  ...,  3.7253e-08,
+          4.9360e-08,  0.0000e+00],
+        [ 1.1735e-07, -3.4541e-05,  1.5646e-07,  ...,  1.8626e-08,
+          4.0978e-08,  0.0000e+00],
+        [ 5.3644e-07,  3.2317e-07,  2.0415e-06,  ...,  4.0326e-07,
+         -1.6671e-07,  0.0000e+00],
+        ...,
+        [-1.7062e-06,  3.0503e-05, -6.1393e-06,  ..., -1.1269e-06,
+          5.4017e-08,  0.0000e+00],
+        [ 2.7101e-07,  3.4831e-07,  1.8161e-07,  ...,  1.1176e-08,
+          1.8347e-07,  0.0000e+00],
+        [ 2.2911e-07,  7.6834e-07, -2.5891e-07,  ...,  1.5832e-08,
+          5.4017e-08,  0.0000e+00]], device='cuda:0')
+Epoch 184, bias, value: tensor([-0.0021,  0.0188, -0.0166,  0.0145,  0.0249, -0.0173, -0.0174, -0.0147,
+        -0.0285, -0.0313], device='cuda:0'), grad: tensor([ 7.8697e-07, -7.5042e-05,  3.8818e-06,  6.1654e-06,  2.9728e-06,
+         1.8328e-06,  6.0722e-07,  5.5611e-05,  2.0415e-06,  1.2675e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 183, time 217.11, cls_loss 0.0014 cls_loss_mapping 0.0038 cls_loss_causal 0.4751 re_mapping 0.0057 re_causal 0.0162 /// teacc 99.06 lr 0.00010000
+Epoch 185, weight, value: tensor([[-0.1648, -0.0929, -0.0619,  ..., -0.0102, -0.0309, -0.0075],
+        [-0.0695,  0.0906, -0.0711,  ...,  0.0218, -0.0325, -0.0731],
+        [ 0.0697, -0.1093, -0.1007,  ..., -0.0540,  0.1062, -0.0286],
+        ...,
+        [-0.1293, -0.0758,  0.0924,  ...,  0.0416, -0.1609,  0.0024],
+        [ 0.0585,  0.0010, -0.2175,  ..., -0.0513,  0.1190, -0.0252],
+        [-0.1379, -0.1030,  0.0284,  ..., -0.0071, -0.1210, -0.0528]],
+       device='cuda:0'), grad: tensor([[ 1.8720e-07,  1.6950e-07,  2.7008e-08,  ...,  0.0000e+00,
+          5.7742e-08,  0.0000e+00],
+        [ 3.2596e-08, -5.3085e-07,  2.3283e-08,  ...,  0.0000e+00,
+          9.9652e-08,  0.0000e+00],
+        [ 1.2107e-07,  1.1548e-07,  4.6566e-09,  ...,  0.0000e+00,
+          9.3039e-07,  0.0000e+00],
+        ...,
+        [ 3.9116e-08,  1.3970e-07,  7.2643e-08,  ...,  0.0000e+00,
+          1.9092e-07,  0.0000e+00],
+        [-4.7311e-07,  1.6019e-07,  1.3970e-07,  ...,  0.0000e+00,
+         -4.9639e-07,  0.0000e+00],
+        [ 2.3842e-07,  5.0291e-08, -6.8359e-07,  ...,  0.0000e+00,
+          1.4901e-07,  0.0000e+00]], device='cuda:0')
+Epoch 185, bias, value: tensor([-0.0021,  0.0188, -0.0166,  0.0145,  0.0247, -0.0173, -0.0175, -0.0148,
+        -0.0282, -0.0312], device='cuda:0'), grad: tensor([ 5.1688e-07, -3.6974e-07,  2.8405e-06, -3.1404e-06,  1.4221e-06,
+         3.5390e-07, -8.9314e-07,  1.0347e-06,  2.5611e-07, -2.0135e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 184, time 216.99, cls_loss 0.0018 cls_loss_mapping 0.0028 cls_loss_causal 0.4907 re_mapping 0.0053 re_causal 0.0150 /// teacc 98.99 lr 0.00010000
+Epoch 186, weight, value: tensor([[-0.1653, -0.0933, -0.0643,  ..., -0.0103, -0.0313, -0.0075],
+        [-0.0696,  0.0910, -0.0714,  ...,  0.0219, -0.0324, -0.0731],
+        [ 0.0702, -0.1096, -0.1008,  ..., -0.0540,  0.1067, -0.0286],
+        ...,
+        [-0.1304, -0.0759,  0.0926,  ...,  0.0416, -0.1626,  0.0024],
+        [ 0.0589,  0.0011, -0.2184,  ..., -0.0516,  0.1194, -0.0253],
+        [-0.1388, -0.1030,  0.0287,  ..., -0.0074, -0.1215, -0.0528]],
+       device='cuda:0'), grad: tensor([[ 2.6822e-07,  3.6787e-07,  1.2573e-07,  ...,  0.0000e+00,
+          1.2293e-07,  0.0000e+00],
+        [ 1.7136e-07, -3.6880e-07,  3.3248e-07,  ...,  0.0000e+00,
+          1.6298e-07,  0.0000e+00],
+        [ 9.0059e-07,  6.9477e-07,  2.4028e-07,  ...,  0.0000e+00,
+          1.0338e-06,  0.0000e+00],
+        ...,
+        [-6.3330e-08,  1.2573e-07, -9.4902e-07,  ...,  0.0000e+00,
+          3.6322e-08,  0.0000e+00],
+        [-1.1334e-06,  9.7789e-08,  2.6822e-07,  ...,  0.0000e+00,
+         -3.2149e-06,  0.0000e+00],
+        [ 1.1371e-06,  5.6811e-07, -2.1104e-06,  ...,  0.0000e+00,
+          1.3057e-06,  0.0000e+00]], device='cuda:0')
+Epoch 186, bias, value: tensor([-0.0034,  0.0191, -0.0167,  0.0146,  0.0247, -0.0173, -0.0182, -0.0149,
+        -0.0281, -0.0308], device='cuda:0'), grad: tensor([-6.5304e-06,  1.4352e-06,  4.9770e-06,  3.3714e-06,  1.8803e-06,
+         5.6326e-06, -2.9523e-06, -3.9190e-06, -1.6559e-06, -2.2929e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 185, time 216.90, cls_loss 0.0016 cls_loss_mapping 0.0033 cls_loss_causal 0.5370 re_mapping 0.0053 re_causal 0.0163 /// teacc 98.98 lr 0.00010000
+Epoch 187, weight, value: tensor([[-0.1662, -0.0939, -0.0650,  ..., -0.0104, -0.0317, -0.0075],
+        [-0.0698,  0.0918, -0.0717,  ...,  0.0219, -0.0329, -0.0731],
+        [ 0.0705, -0.1098, -0.1014,  ..., -0.0541,  0.1068, -0.0286],
+        ...,
+        [-0.1313, -0.0765,  0.0930,  ...,  0.0415, -0.1628,  0.0024],
+        [ 0.0593,  0.0012, -0.2198,  ..., -0.0522,  0.1199, -0.0253],
+        [-0.1396, -0.1035,  0.0286,  ..., -0.0075, -0.1219, -0.0528]],
+       device='cuda:0'), grad: tensor([[ 1.0245e-07,  3.5390e-08,  2.8126e-07,  ...,  0.0000e+00,
+          1.9092e-07,  0.0000e+00],
+        [ 1.2293e-07, -6.0536e-08,  3.6657e-06,  ...,  0.0000e+00,
+          4.4890e-07,  0.0000e+00],
+        [-3.5670e-07,  1.3039e-08,  8.1304e-07,  ...,  0.0000e+00,
+         -1.1669e-06,  0.0000e+00],
+        ...,
+        [ 6.0536e-08,  8.6613e-08, -1.0200e-05,  ...,  0.0000e+00,
+          2.4401e-07,  0.0000e+00],
+        [ 5.7463e-07,  2.3376e-07,  1.1353e-06,  ...,  0.0000e+00,
+          1.0338e-07,  0.0000e+00],
+        [ 8.9407e-08, -3.2671e-06, -1.5251e-05,  ...,  0.0000e+00,
+          2.9337e-07,  0.0000e+00]], device='cuda:0')
+Epoch 187, bias, value: tensor([-0.0037,  0.0194, -0.0169,  0.0144,  0.0249, -0.0170, -0.0190, -0.0148,
+        -0.0280, -0.0310], device='cuda:0'), grad: tensor([-6.7148e-07,  1.3947e-05,  1.6028e-06,  9.7901e-06,  8.5890e-05,
+        -2.5723e-06,  1.7723e-06, -3.5554e-05,  7.1712e-06, -8.1480e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 186, time 216.89, cls_loss 0.0019 cls_loss_mapping 0.0034 cls_loss_causal 0.5221 re_mapping 0.0054 re_causal 0.0165 /// teacc 98.98 lr 0.00010000
+Epoch 188, weight, value: tensor([[-0.1684, -0.0976, -0.0654,  ..., -0.0104, -0.0321, -0.0075],
+        [-0.0697,  0.0927, -0.0720,  ...,  0.0219, -0.0322, -0.0731],
+        [ 0.0706, -0.1101, -0.1017,  ..., -0.0541,  0.1070, -0.0286],
+        ...,
+        [-0.1320, -0.0767,  0.0933,  ...,  0.0415, -0.1639,  0.0024],
+        [ 0.0591,  0.0008, -0.2203,  ..., -0.0524,  0.1186, -0.0253],
+        [-0.1402, -0.1013,  0.0314,  ..., -0.0076, -0.1224, -0.0528]],
+       device='cuda:0'), grad: tensor([[ 1.1455e-07,  2.6077e-08, -1.6391e-07,  ...,  0.0000e+00,
+          6.5491e-06,  0.0000e+00],
+        [ 4.3400e-07, -1.3039e-07,  2.9653e-06,  ...,  0.0000e+00,
+          8.1360e-06,  0.0000e+00],
+        [-2.0824e-06,  7.6368e-08,  5.7742e-08,  ...,  0.0000e+00,
+          7.3351e-06,  0.0000e+00],
+        ...,
+        [ 1.6708e-06,  6.3330e-08, -5.0515e-06,  ...,  0.0000e+00,
+          2.6748e-05,  0.0000e+00],
+        [-5.6159e-07, -1.9092e-07,  1.2293e-07,  ...,  9.3132e-10,
+          7.5847e-06,  0.0000e+00],
+        [ 9.9652e-08,  2.9802e-08,  1.7378e-06,  ...,  0.0000e+00,
+          2.4185e-05,  0.0000e+00]], device='cuda:0')
+Epoch 188, bias, value: tensor([-0.0048,  0.0199, -0.0171,  0.0145,  0.0221, -0.0168, -0.0178, -0.0145,
+        -0.0288, -0.0286], device='cuda:0'), grad: tensor([ 1.9297e-05,  3.6716e-05,  2.4989e-05, -2.6655e-04,  1.4585e-06,
+        -5.9083e-06,  1.3024e-05,  6.7949e-05,  2.5570e-05,  8.3566e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 187, time 216.98, cls_loss 0.0018 cls_loss_mapping 0.0037 cls_loss_causal 0.5097 re_mapping 0.0056 re_causal 0.0161 /// teacc 98.92 lr 0.00010000
+Epoch 189, weight, value: tensor([[-0.1686, -0.0978, -0.0658,  ..., -0.0105, -0.0326, -0.0075],
+        [-0.0702,  0.0931, -0.0723,  ...,  0.0219, -0.0333, -0.0731],
+        [ 0.0727, -0.1106, -0.1021,  ..., -0.0541,  0.1083, -0.0286],
+        ...,
+        [-0.1356, -0.0773,  0.0934,  ...,  0.0414, -0.1688,  0.0024],
+        [ 0.0600,  0.0012, -0.2210,  ..., -0.0535,  0.1191, -0.0253],
+        [-0.1409, -0.1014,  0.0314,  ..., -0.0078, -0.1228, -0.0528]],
+       device='cuda:0'), grad: tensor([[ 6.9849e-08,  1.5553e-07,  1.7695e-08,  ...,  0.0000e+00,
+          4.1910e-08,  0.0000e+00],
+        [-6.6124e-08, -3.5688e-06,  6.2957e-07,  ...,  0.0000e+00,
+         -7.8883e-07,  0.0000e+00],
+        [-1.9092e-07,  7.1526e-07,  7.1712e-08,  ...,  0.0000e+00,
+         -2.8126e-07,  0.0000e+00],
+        ...,
+        [ 4.6566e-08,  7.0781e-07, -1.1604e-06,  ...,  0.0000e+00,
+          1.0431e-07,  0.0000e+00],
+        [ 2.5798e-07,  1.5087e-06,  2.5146e-08,  ...,  0.0000e+00,
+          5.7556e-07,  0.0000e+00],
+        [ 3.4086e-07,  4.6566e-07,  2.5053e-07,  ...,  0.0000e+00,
+          1.3132e-07,  0.0000e+00]], device='cuda:0')
+Epoch 189, bias, value: tensor([-0.0047,  0.0197, -0.0160,  0.0149,  0.0221, -0.0169, -0.0183, -0.0155,
+        -0.0287, -0.0286], device='cuda:0'), grad: tensor([-8.2329e-07, -3.5074e-06,  1.2135e-06,  2.8946e-06,  5.6811e-07,
+        -1.7835e-06,  3.6322e-07, -5.7667e-06,  4.0717e-06,  2.7567e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 188, time 216.67, cls_loss 0.0019 cls_loss_mapping 0.0043 cls_loss_causal 0.5438 re_mapping 0.0057 re_causal 0.0173 /// teacc 99.00 lr 0.00010000
+Epoch 190, weight, value: tensor([[-0.1689, -0.0969, -0.0663,  ..., -0.0105, -0.0329, -0.0075],
+        [-0.0680,  0.0944, -0.0730,  ...,  0.0219, -0.0299, -0.0731],
+        [ 0.0718, -0.1119, -0.1036,  ..., -0.0541,  0.1079, -0.0286],
+        ...,
+        [-0.1362, -0.0776,  0.0943,  ...,  0.0414, -0.1692,  0.0024],
+        [ 0.0582, -0.0012, -0.2216,  ..., -0.0537,  0.1171, -0.0253],
+        [-0.1423, -0.1019,  0.0313,  ..., -0.0079, -0.1237, -0.0528]],
+       device='cuda:0'), grad: tensor([[ 1.0896e-07,  1.3970e-07,  4.3772e-08,  ...,  0.0000e+00,
+          1.3039e-08,  0.0000e+00],
+        [ 7.9162e-08, -5.6811e-07,  9.6112e-07,  ...,  0.0000e+00,
+          4.9360e-08,  0.0000e+00],
+        [ 1.6764e-08,  2.0955e-07,  5.3085e-08,  ...,  0.0000e+00,
+         -7.4506e-09,  0.0000e+00],
+        ...,
+        [-4.3772e-08,  2.5705e-07, -3.1292e-06,  ...,  9.3132e-10,
+          7.5437e-08,  0.0000e+00],
+        [ 7.8231e-08,  3.0734e-08,  8.7544e-08,  ...,  0.0000e+00,
+          2.1420e-08,  0.0000e+00],
+        [ 1.0598e-06,  1.5087e-07,  1.2182e-06,  ...,  0.0000e+00,
+          3.6322e-08,  0.0000e+00]], device='cuda:0')
+Epoch 190, bias, value: tensor([-0.0014,  0.0213, -0.0167,  0.0149,  0.0220, -0.0163, -0.0193, -0.0151,
+        -0.0308, -0.0296], device='cuda:0'), grad: tensor([ 4.1910e-07,  1.5236e-06,  6.3237e-07,  1.0943e-06,  2.6133e-06,
+        -2.7753e-06, -1.1437e-06, -6.9961e-06,  5.9605e-07,  4.0010e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 189, time 216.86, cls_loss 0.0021 cls_loss_mapping 0.0029 cls_loss_causal 0.4966 re_mapping 0.0056 re_causal 0.0155 /// teacc 99.00 lr 0.00010000
+Epoch 191, weight, value: tensor([[-0.1698, -0.0973, -0.0668,  ..., -0.0106, -0.0327, -0.0075],
+        [-0.0699,  0.0941, -0.0738,  ...,  0.0219, -0.0323, -0.0731],
+        [ 0.0722, -0.1124, -0.1039,  ..., -0.0542,  0.1081, -0.0286],
+        ...,
+        [-0.1365, -0.0775,  0.0949,  ...,  0.0413, -0.1696,  0.0024],
+        [ 0.0593, -0.0003, -0.2230,  ..., -0.0540,  0.1192, -0.0253],
+        [-0.1433, -0.1021,  0.0312,  ..., -0.0082, -0.1244, -0.0528]],
+       device='cuda:0'), grad: tensor([[ 4.3772e-08,  6.4261e-08,  9.4529e-07,  ...,  1.8626e-09,
+          4.7404e-07,  0.0000e+00],
+        [ 3.7253e-08,  1.3690e-07,  4.0326e-07,  ...,  7.4506e-09,
+          1.7695e-06,  0.0000e+00],
+        [ 1.9558e-08,  4.8429e-08,  3.3341e-07,  ...,  4.6566e-09,
+          1.3895e-06,  0.0000e+00],
+        ...,
+        [ 9.3132e-09, -4.5262e-07, -2.1365e-06,  ...,  4.6566e-09,
+          4.0233e-07,  0.0000e+00],
+        [ 1.0151e-07,  2.3749e-07,  3.4459e-08,  ...,  3.7253e-09,
+         -2.1327e-07,  0.0000e+00],
+        [ 2.7660e-07,  2.4959e-07,  1.8999e-07,  ...,  1.0245e-08,
+          3.5297e-07,  0.0000e+00]], device='cuda:0')
+Epoch 191, bias, value: tensor([-0.0010,  0.0194, -0.0171,  0.0152,  0.0220, -0.0163, -0.0197, -0.0144,
+        -0.0295, -0.0299], device='cuda:0'), grad: tensor([ 3.7625e-06,  4.8950e-06,  3.7476e-06, -9.9912e-06,  2.5239e-07,
+         1.3560e-06, -2.3749e-07, -6.5044e-06,  4.1537e-07,  2.2873e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 190, time 216.86, cls_loss 0.0014 cls_loss_mapping 0.0025 cls_loss_causal 0.4987 re_mapping 0.0054 re_causal 0.0160 /// teacc 99.00 lr 0.00010000
+Epoch 192, weight, value: tensor([[-0.1706, -0.0976, -0.0669,  ..., -0.0107, -0.0338, -0.0075],
+        [-0.0701,  0.0945, -0.0735,  ...,  0.0218, -0.0325, -0.0731],
+        [ 0.0725, -0.1125, -0.1044,  ..., -0.0571,  0.1073, -0.0286],
+        ...,
+        [-0.1367, -0.0780,  0.0950,  ...,  0.0412, -0.1698,  0.0024],
+        [ 0.0594, -0.0004, -0.2243,  ..., -0.0543,  0.1194, -0.0253],
+        [-0.1440, -0.1022,  0.0313,  ..., -0.0084, -0.1248, -0.0528]],
+       device='cuda:0'), grad: tensor([[ 3.8445e-06,  2.7046e-06,  5.5879e-09,  ...,  0.0000e+00,
+          4.1258e-07,  0.0000e+00],
+        [ 1.7695e-07, -1.4342e-07,  4.3772e-08,  ...,  0.0000e+00,
+          3.0734e-08,  0.0000e+00],
+        [-3.3434e-07,  8.6613e-08,  5.5879e-09,  ...,  0.0000e+00,
+         -1.4389e-06,  0.0000e+00],
+        ...,
+        [ 2.1514e-07,  2.7474e-07,  1.4435e-07,  ...,  0.0000e+00,
+          3.1665e-07,  0.0000e+00],
+        [ 1.0449e-06,  7.4226e-07,  1.3039e-08,  ...,  0.0000e+00,
+         -2.4214e-08,  0.0000e+00],
+        [ 6.7987e-08,  3.7253e-07,  2.1700e-07,  ...,  0.0000e+00,
+          5.5879e-08,  0.0000e+00]], device='cuda:0')
+Epoch 192, bias, value: tensor([-0.0011,  0.0194, -0.0179,  0.0156,  0.0220, -0.0164, -0.0193, -0.0145,
+        -0.0296, -0.0299], device='cuda:0'), grad: tensor([ 7.3798e-06,  5.9605e-08, -2.7940e-06,  1.9222e-06, -1.1306e-06,
+         3.0324e-06, -1.3128e-05,  1.0831e-06,  1.8664e-06,  1.6829e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 191, time 217.00, cls_loss 0.0015 cls_loss_mapping 0.0037 cls_loss_causal 0.4904 re_mapping 0.0053 re_causal 0.0159 /// teacc 98.97 lr 0.00010000
+Epoch 193, weight, value: tensor([[-0.1715, -0.0980, -0.0671,  ..., -0.0107, -0.0344, -0.0075],
+        [-0.0705,  0.0951, -0.0735,  ...,  0.0218, -0.0314, -0.0731],
+        [ 0.0742, -0.1135, -0.1045,  ..., -0.0571,  0.1071, -0.0286],
+        ...,
+        [-0.1380, -0.0784,  0.0951,  ...,  0.0412, -0.1709,  0.0024],
+        [ 0.0594, -0.0005, -0.2273,  ..., -0.0543,  0.1195, -0.0253],
+        [-0.1457, -0.1025,  0.0312,  ..., -0.0084, -0.1251, -0.0528]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-08,  3.8184e-08,  2.7940e-08,  ...,  0.0000e+00,
+          9.6392e-08,  0.0000e+00],
+        [ 2.1700e-07, -1.5832e-07,  4.8429e-08,  ...,  0.0000e+00,
+          2.5705e-07,  0.0000e+00],
+        [ 3.5856e-07,  2.0023e-08, -3.2596e-08,  ...,  0.0000e+00,
+          4.6287e-07,  0.0000e+00],
+        ...,
+        [ 2.1746e-07,  6.0070e-08,  8.9873e-07,  ...,  0.0000e+00,
+          3.3528e-07,  0.0000e+00],
+        [-2.3305e-05, -2.7288e-07,  7.3574e-08,  ...,  0.0000e+00,
+         -3.3528e-05,  0.0000e+00],
+        [ 1.1045e-06,  9.2201e-08, -1.5497e-06,  ...,  0.0000e+00,
+          7.2876e-07,  0.0000e+00]], device='cuda:0')
+Epoch 193, bias, value: tensor([-0.0012,  0.0205, -0.0192,  0.0157,  0.0222, -0.0160, -0.0209, -0.0145,
+        -0.0298, -0.0300], device='cuda:0'), grad: tensor([ 3.2131e-07,  3.4086e-07,  1.0692e-06,  5.9336e-05,  1.6186e-06,
+         3.9004e-06,  1.0468e-06,  2.7828e-06, -6.8843e-05, -1.5441e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 192, time 216.74, cls_loss 0.0014 cls_loss_mapping 0.0040 cls_loss_causal 0.5230 re_mapping 0.0059 re_causal 0.0172 /// teacc 98.95 lr 0.00010000
+Epoch 194, weight, value: tensor([[-0.1720, -0.0985, -0.0671,  ..., -0.0107, -0.0351, -0.0075],
+        [-0.0707,  0.0954, -0.0741,  ...,  0.0218, -0.0314, -0.0731],
+        [ 0.0745, -0.1138, -0.1055,  ..., -0.0571,  0.1099, -0.0286],
+        ...,
+        [-0.1390, -0.0785,  0.0973,  ...,  0.0412, -0.1715,  0.0024],
+        [ 0.0595, -0.0004, -0.2326,  ..., -0.0544,  0.1197, -0.0253],
+        [-0.1449, -0.1026,  0.0306,  ..., -0.0084, -0.1253, -0.0528]],
+       device='cuda:0'), grad: tensor([[ 5.1269e-07,  5.7416e-07,  8.3353e-08,  ...,  0.0000e+00,
+          6.9849e-09,  0.0000e+00],
+        [ 5.2620e-08, -3.5437e-07,  8.5682e-08,  ...,  0.0000e+00,
+          3.1665e-08,  0.0000e+00],
+        [ 5.1223e-08,  6.6124e-08,  2.0955e-08,  ...,  0.0000e+00,
+          3.2131e-08,  0.0000e+00],
+        ...,
+        [ 1.9558e-08,  3.1246e-07, -2.1979e-07,  ...,  0.0000e+00,
+          3.1199e-08,  0.0000e+00],
+        [-6.5239e-07,  6.0070e-08,  3.0268e-08,  ...,  0.0000e+00,
+         -7.7114e-07,  0.0000e+00],
+        [ 8.2888e-08,  4.3074e-07,  7.6368e-08,  ...,  0.0000e+00,
+          1.0850e-07,  0.0000e+00]], device='cuda:0')
+Epoch 194, bias, value: tensor([-0.0011,  0.0204, -0.0169,  0.0143,  0.0222, -0.0161, -0.0204, -0.0132,
+        -0.0304, -0.0304], device='cuda:0'), grad: tensor([-9.9093e-06, -3.0920e-07,  3.5530e-07,  5.8208e-07,  2.0459e-05,
+         7.6927e-07, -2.3976e-05,  6.1002e-08, -1.1763e-06,  1.3128e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 193, time 216.89, cls_loss 0.0012 cls_loss_mapping 0.0025 cls_loss_causal 0.4799 re_mapping 0.0056 re_causal 0.0156 /// teacc 99.02 lr 0.00010000
+Epoch 195, weight, value: tensor([[-0.1723, -0.0987, -0.0672,  ..., -0.0107, -0.0353, -0.0075],
+        [-0.0709,  0.0958, -0.0733,  ...,  0.0218, -0.0314, -0.0731],
+        [ 0.0749, -0.1139, -0.1059,  ..., -0.0571,  0.1101, -0.0286],
+        ...,
+        [-0.1392, -0.0791,  0.0974,  ...,  0.0412, -0.1718,  0.0024],
+        [ 0.0600, -0.0004, -0.2328,  ..., -0.0544,  0.1201, -0.0253],
+        [-0.1457, -0.1029,  0.0301,  ..., -0.0084, -0.1257, -0.0528]],
+       device='cuda:0'), grad: tensor([[ 1.2573e-07,  5.1130e-07,  2.4680e-08,  ...,  0.0000e+00,
+          1.2340e-07,  0.0000e+00],
+        [ 7.0781e-08, -6.0536e-06,  4.3772e-08,  ...,  0.0000e+00,
+         -1.4696e-06,  0.0000e+00],
+        [-1.5134e-07,  8.3819e-08,  3.7253e-09,  ...,  0.0000e+00,
+         -2.8545e-07,  0.0000e+00],
+        ...,
+        [ 3.6322e-08,  1.1604e-06, -1.6298e-08,  ...,  0.0000e+00,
+          3.7998e-07,  0.0000e+00],
+        [ 9.3132e-09,  2.1309e-06,  4.5169e-08,  ...,  0.0000e+00,
+          5.8021e-07,  0.0000e+00],
+        [ 6.0536e-09,  1.9204e-06, -9.8068e-07,  ...,  0.0000e+00,
+          5.1875e-07,  0.0000e+00]], device='cuda:0')
+Epoch 195, bias, value: tensor([-0.0010,  0.0207, -0.0169,  0.0142,  0.0225, -0.0162, -0.0203, -0.0132,
+        -0.0302, -0.0308], device='cuda:0'), grad: tensor([ 2.2519e-06, -2.8893e-05, -3.2596e-08,  2.3842e-07,  4.7944e-06,
+         1.1921e-07, -4.9407e-07,  5.9605e-06,  1.0535e-05,  5.4911e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 194, time 216.94, cls_loss 0.0019 cls_loss_mapping 0.0029 cls_loss_causal 0.5285 re_mapping 0.0052 re_causal 0.0153 /// teacc 99.00 lr 0.00010000
+Epoch 196, weight, value: tensor([[-0.1731, -0.0993, -0.0673,  ..., -0.0107, -0.0358, -0.0075],
+        [-0.0712,  0.0944, -0.0732,  ...,  0.0218, -0.0321, -0.0731],
+        [ 0.0750, -0.1144, -0.1079,  ..., -0.0571,  0.1100, -0.0287],
+        ...,
+        [-0.1395, -0.0771,  0.0975,  ...,  0.0412, -0.1714,  0.0009],
+        [ 0.0607, -0.0005, -0.2330,  ..., -0.0545,  0.1208, -0.0253],
+        [-0.1468, -0.1032,  0.0297,  ..., -0.0085, -0.1264, -0.0528]],
+       device='cuda:0'), grad: tensor([[ 8.1956e-08,  1.6857e-07,  3.0268e-08,  ...,  0.0000e+00,
+          9.4995e-08,  0.0000e+00],
+        [ 3.9116e-08, -6.7987e-07,  8.3819e-09,  ...,  0.0000e+00,
+          5.7742e-08,  0.0000e+00],
+        [-8.5961e-07,  4.7963e-08,  8.8476e-09,  ...,  0.0000e+00,
+         -8.7311e-07,  0.0000e+00],
+        ...,
+        [ 1.8766e-07,  2.1700e-07,  2.3283e-09,  ...,  0.0000e+00,
+          2.2026e-07,  0.0000e+00],
+        [ 4.7032e-08,  5.0291e-08,  4.6100e-08,  ...,  0.0000e+00,
+          4.2841e-08,  0.0000e+00],
+        [ 2.1048e-07,  4.0047e-08, -3.3341e-07,  ...,  0.0000e+00,
+          6.5193e-08,  0.0000e+00]], device='cuda:0')
+Epoch 196, bias, value: tensor([-0.0012,  0.0192, -0.0172,  0.0141,  0.0228, -0.0157, -0.0203, -0.0120,
+        -0.0301, -0.0311], device='cuda:0'), grad: tensor([ 6.8033e-07, -1.0580e-06, -2.0955e-06,  1.0449e-06,  7.4646e-07,
+         1.6298e-07,  4.0652e-07,  9.9838e-07,  6.9709e-07, -1.5795e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 195, time 216.90, cls_loss 0.0015 cls_loss_mapping 0.0022 cls_loss_causal 0.5009 re_mapping 0.0052 re_causal 0.0153 /// teacc 98.96 lr 0.00010000
+Epoch 197, weight, value: tensor([[-0.1751, -0.1009, -0.0676,  ..., -0.0107, -0.0361, -0.0075],
+        [-0.0714,  0.0947, -0.0731,  ...,  0.0218, -0.0321, -0.0731],
+        [ 0.0750, -0.1145, -0.1082,  ..., -0.0571,  0.1101, -0.0287],
+        ...,
+        [-0.1405, -0.0774,  0.0974,  ...,  0.0412, -0.1718,  0.0008],
+        [ 0.0611, -0.0005, -0.2333,  ..., -0.0545,  0.1212, -0.0253],
+        [-0.1474, -0.1033,  0.0297,  ..., -0.0085, -0.1269, -0.0528]],
+       device='cuda:0'), grad: tensor([[ 8.3819e-08,  4.0978e-08,  3.7719e-08,  ...,  0.0000e+00,
+          3.4785e-07,  0.0000e+00],
+        [ 3.3062e-08, -1.3709e-06,  6.2864e-08,  ...,  0.0000e+00,
+          2.7288e-07,  0.0000e+00],
+        [-7.4832e-07,  2.7940e-08,  1.3970e-08,  ...,  0.0000e+00,
+         -2.3432e-06,  0.0000e+00],
+        ...,
+        [ 6.0070e-08,  6.9384e-07,  2.1420e-07,  ...,  0.0000e+00,
+          4.7544e-07,  0.0000e+00],
+        [-2.9150e-07,  7.3109e-08,  7.4506e-08,  ...,  0.0000e+00,
+          4.0140e-07,  0.0000e+00],
+        [ 2.4866e-07,  8.5458e-06,  1.7375e-05,  ...,  0.0000e+00,
+          7.2224e-07,  0.0000e+00]], device='cuda:0')
+Epoch 197, bias, value: tensor([-0.0017,  0.0193, -0.0173,  0.0139,  0.0227, -0.0154, -0.0199, -0.0121,
+        -0.0300, -0.0309], device='cuda:0'), grad: tensor([-1.2480e-05, -9.5088e-07, -3.5819e-06, -5.1688e-08, -7.8499e-05,
+         1.2703e-06,  5.3598e-07,  1.4506e-05,  2.3358e-06,  7.6890e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 196, time 216.86, cls_loss 0.0017 cls_loss_mapping 0.0032 cls_loss_causal 0.5170 re_mapping 0.0054 re_causal 0.0156 /// teacc 99.07 lr 0.00010000
+Epoch 198, weight, value: tensor([[-0.1755, -0.1012, -0.0682,  ..., -0.0107, -0.0366, -0.0075],
+        [-0.0719,  0.0954, -0.0730,  ...,  0.0218, -0.0324, -0.0731],
+        [ 0.0765, -0.1147, -0.1083,  ..., -0.0571,  0.1108, -0.0287],
+        ...,
+        [-0.1412, -0.0780,  0.0977,  ...,  0.0412, -0.1728,  0.0008],
+        [ 0.0612, -0.0005, -0.2335,  ..., -0.0545,  0.1212, -0.0254],
+        [-0.1481, -0.1037,  0.0295,  ..., -0.0085, -0.1274, -0.0528]],
+       device='cuda:0'), grad: tensor([[ 2.9709e-07,  1.5367e-07,  1.2573e-08,  ...,  0.0000e+00,
+          3.1618e-07,  0.0000e+00],
+        [ 3.0361e-07,  1.1176e-07,  9.4436e-07,  ...,  0.0000e+00,
+          3.2270e-07,  0.0000e+00],
+        [ 9.3132e-07,  5.2899e-07,  2.5611e-08,  ...,  0.0000e+00,
+          9.7137e-07,  0.0000e+00],
+        ...,
+        [ 1.0617e-07, -1.2061e-07, -6.5006e-07,  ...,  0.0000e+00,
+          1.2619e-07,  0.0000e+00],
+        [-6.1579e-06, -2.8610e-06,  2.0117e-07,  ...,  0.0000e+00,
+         -6.5640e-06,  0.0000e+00],
+        [ 3.3714e-07,  1.8859e-07, -6.9924e-06,  ...,  0.0000e+00,
+          3.5809e-07,  0.0000e+00]], device='cuda:0')
+Epoch 198, bias, value: tensor([-0.0018,  0.0197, -0.0167,  0.0135,  0.0229, -0.0151, -0.0206, -0.0124,
+        -0.0301, -0.0312], device='cuda:0'), grad: tensor([-3.8333e-06,  7.2867e-06,  3.2261e-06,  6.9514e-06,  6.4746e-06,
+         3.9250e-05,  3.2652e-06, -4.3772e-06, -1.7628e-05, -4.0621e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 197, time 216.81, cls_loss 0.0012 cls_loss_mapping 0.0028 cls_loss_causal 0.5068 re_mapping 0.0054 re_causal 0.0161 /// teacc 99.01 lr 0.00010000
+Epoch 199, weight, value: tensor([[-0.1759, -0.1018, -0.0682,  ..., -0.0107, -0.0366, -0.0075],
+        [-0.0722,  0.0953, -0.0731,  ...,  0.0218, -0.0326, -0.0731],
+        [ 0.0766, -0.1149, -0.1089,  ..., -0.0571,  0.1109, -0.0287],
+        ...,
+        [-0.1411, -0.0779,  0.0976,  ...,  0.0412, -0.1727,  0.0008],
+        [ 0.0613, -0.0005, -0.2336,  ..., -0.0545,  0.1214, -0.0254],
+        [-0.1485, -0.1039,  0.0295,  ..., -0.0085, -0.1277, -0.0528]],
+       device='cuda:0'), grad: tensor([[ 6.5658e-08,  6.5193e-08,  6.0536e-09,  ...,  0.0000e+00,
+          1.5786e-07,  0.0000e+00],
+        [ 6.5938e-07, -4.2142e-07,  9.3132e-09,  ...,  0.0000e+00,
+          2.6505e-06,  0.0000e+00],
+        [-1.0878e-06,  4.9360e-08,  2.3283e-08,  ...,  0.0000e+00,
+         -3.7812e-06,  0.0000e+00],
+        ...,
+        [ 1.2526e-07,  1.2573e-07,  3.6787e-08,  ...,  0.0000e+00,
+          2.4401e-07,  0.0000e+00],
+        [ 3.6322e-08,  6.8452e-08,  3.2596e-09,  ...,  0.0000e+00,
+          8.6147e-08,  0.0000e+00],
+        [ 4.6566e-09,  2.2724e-07, -1.3690e-07,  ...,  0.0000e+00,
+          3.1199e-08,  0.0000e+00]], device='cuda:0')
+Epoch 199, bias, value: tensor([-0.0013,  0.0193, -0.0169,  0.0134,  0.0230, -0.0150, -0.0212, -0.0121,
+        -0.0301, -0.0311], device='cuda:0'), grad: tensor([ 4.1816e-07,  5.3719e-06, -8.3596e-06,  9.8255e-07, -1.3318e-07,
+         1.8952e-07,  6.2399e-08,  1.1614e-06,  3.6461e-07, -4.1444e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 198, time 217.17, cls_loss 0.0021 cls_loss_mapping 0.0043 cls_loss_causal 0.5211 re_mapping 0.0050 re_causal 0.0155 /// teacc 98.93 lr 0.00010000
+Epoch 200, weight, value: tensor([[-0.1765, -0.1023, -0.0683,  ..., -0.0107, -0.0372, -0.0075],
+        [-0.0727,  0.0940, -0.0729,  ...,  0.0218, -0.0342, -0.0731],
+        [ 0.0774, -0.1151, -0.1094,  ..., -0.0571,  0.1113, -0.0287],
+        ...,
+        [-0.1416, -0.0765,  0.0983,  ...,  0.0412, -0.1704,  0.0008],
+        [ 0.0619, -0.0012, -0.2337,  ..., -0.0545,  0.1216, -0.0254],
+        [-0.1503, -0.1048,  0.0291,  ..., -0.0085, -0.1289, -0.0528]],
+       device='cuda:0'), grad: tensor([[ 1.5041e-07,  1.2806e-07,  5.2154e-08,  ...,  0.0000e+00,
+          1.3504e-07,  0.0000e+00],
+        [ 6.9384e-08,  1.8580e-07,  2.5947e-06,  ...,  4.6566e-10,
+          1.2061e-07,  0.0000e+00],
+        [ 3.0780e-07,  8.8941e-08,  5.8673e-08,  ...,  4.6566e-10,
+          6.0257e-07,  0.0000e+00],
+        ...,
+        [ 5.1688e-08,  1.3877e-07, -1.8597e-05,  ...,  9.3132e-10,
+          1.8999e-07,  0.0000e+00],
+        [-2.7418e-06,  2.7008e-08,  2.8405e-08,  ...,  0.0000e+00,
+         -4.8205e-06,  0.0000e+00],
+        [ 2.7008e-08,  2.1383e-06,  1.4409e-05,  ...,  4.6566e-10,
+          1.1036e-07,  0.0000e+00]], device='cuda:0')
+Epoch 200, bias, value: tensor([-0.0013,  0.0186, -0.0174,  0.0134,  0.0236, -0.0150, -0.0209, -0.0111,
+        -0.0303, -0.0320], device='cuda:0'), grad: tensor([ 8.2050e-07,  7.3537e-06,  1.4836e-06, -1.5562e-06, -4.6939e-06,
+         2.9542e-06,  2.8387e-06, -4.5538e-05, -6.6198e-06,  4.2975e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 199, time 217.03, cls_loss 0.0018 cls_loss_mapping 0.0030 cls_loss_causal 0.4992 re_mapping 0.0055 re_causal 0.0156 /// teacc 99.00 lr 0.00010000
+Epoch 201, weight, value: tensor([[-0.1770, -0.1029, -0.0696,  ..., -0.0107, -0.0375, -0.0075],
+        [-0.0748,  0.0933, -0.0754,  ...,  0.0217, -0.0351, -0.0731],
+        [ 0.0784, -0.1154, -0.1108,  ..., -0.0571,  0.1116, -0.0287],
+        ...,
+        [-0.1427, -0.0765,  0.0989,  ...,  0.0412, -0.1707,  0.0008],
+        [ 0.0629, -0.0008, -0.2332,  ..., -0.0546,  0.1222, -0.0254],
+        [-0.1517, -0.1053,  0.0292,  ..., -0.0085, -0.1294, -0.0528]],
+       device='cuda:0'), grad: tensor([[ 2.4214e-07,  1.8161e-07,  6.7055e-08,  ...,  0.0000e+00,
+          1.2573e-08,  0.0000e+00],
+        [ 1.0990e-07, -5.5274e-07,  2.4540e-07,  ...,  0.0000e+00,
+          3.4459e-08,  0.0000e+00],
+        [ 2.7940e-08,  5.3830e-07,  1.1874e-07,  ...,  0.0000e+00,
+         -8.9360e-07,  0.0000e+00],
+        ...,
+        [ 1.0282e-06,  1.0142e-06,  3.8603e-07,  ...,  0.0000e+00,
+          1.0021e-06,  0.0000e+00],
+        [ 3.2363e-07,  1.9325e-07,  9.0804e-08,  ...,  0.0000e+00,
+          7.6368e-08,  0.0000e+00],
+        [ 3.6787e-08,  7.6648e-07,  5.7230e-07,  ...,  0.0000e+00,
+          2.2817e-08,  0.0000e+00]], device='cuda:0')
+Epoch 201, bias, value: tensor([-0.0016,  0.0181, -0.0173,  0.0136,  0.0237, -0.0150, -0.0206, -0.0110,
+        -0.0297, -0.0319], device='cuda:0'), grad: tensor([ 5.2806e-07, -1.0803e-07,  3.2596e-09, -5.9092e-07, -7.5512e-06,
+         5.6252e-07, -3.1497e-06,  5.7034e-06,  1.0775e-06,  3.5111e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 200, time 216.79, cls_loss 0.0015 cls_loss_mapping 0.0031 cls_loss_causal 0.5178 re_mapping 0.0057 re_causal 0.0162 /// teacc 99.05 lr 0.00010000
+Epoch 202, weight, value: tensor([[-0.1777, -0.1033, -0.0698,  ..., -0.0108, -0.0376, -0.0075],
+        [-0.0750,  0.0935, -0.0745,  ...,  0.0215, -0.0351, -0.0731],
+        [ 0.0789, -0.1157, -0.1115,  ..., -0.0573,  0.1117, -0.0287],
+        ...,
+        [-0.1454, -0.0768,  0.0979,  ...,  0.0406, -0.1711,  0.0008],
+        [ 0.0625, -0.0008, -0.2336,  ..., -0.0566,  0.1219, -0.0254],
+        [-0.1504, -0.1055,  0.0298,  ..., -0.0091, -0.1288, -0.0528]],
+       device='cuda:0'), grad: tensor([[ 6.7055e-08,  6.1467e-08,  2.4214e-08,  ...,  0.0000e+00,
+          6.8918e-08,  0.0000e+00],
+        [ 6.7055e-08,  2.5798e-07,  3.9954e-07,  ...,  0.0000e+00,
+          1.5460e-07,  0.0000e+00],
+        [-2.5332e-07,  1.4901e-08,  9.2201e-08,  ...,  0.0000e+00,
+         -3.0827e-07,  0.0000e+00],
+        ...,
+        [-2.7940e-09, -1.7881e-07, -5.0850e-07,  ...,  0.0000e+00,
+          3.8929e-07,  0.0000e+00],
+        [-1.2014e-07,  2.4214e-08,  2.7940e-08,  ...,  0.0000e+00,
+          8.5682e-08,  0.0000e+00],
+        [ 4.9360e-08,  3.2298e-06,  2.1104e-06,  ...,  0.0000e+00,
+          7.8231e-08,  0.0000e+00]], device='cuda:0')
+Epoch 202, bias, value: tensor([-0.0014,  0.0181, -0.0174,  0.0138,  0.0228, -0.0146, -0.0209, -0.0113,
+        -0.0305, -0.0307], device='cuda:0'), grad: tensor([ 6.3051e-07,  2.4512e-06,  2.3283e-08, -1.8794e-06, -1.7107e-05,
+        -4.9286e-06,  6.1840e-07, -1.8394e-06,  4.7125e-07,  2.1517e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 201, time 216.60, cls_loss 0.0021 cls_loss_mapping 0.0045 cls_loss_causal 0.5244 re_mapping 0.0051 re_causal 0.0151 /// teacc 99.02 lr 0.00010000
+Epoch 203, weight, value: tensor([[-0.1795, -0.1040, -0.0725,  ..., -0.0108, -0.0393, -0.0075],
+        [-0.0753,  0.0937, -0.0747,  ...,  0.0215, -0.0339, -0.0731],
+        [ 0.0769, -0.1161, -0.1121,  ..., -0.0573,  0.1100, -0.0287],
+        ...,
+        [-0.1460, -0.0769,  0.0986,  ...,  0.0406, -0.1717,  0.0008],
+        [ 0.0653, -0.0007, -0.2343,  ..., -0.0568,  0.1247, -0.0254],
+        [-0.1507, -0.1061,  0.0297,  ..., -0.0091, -0.1293, -0.0528]],
+       device='cuda:0'), grad: tensor([[ 6.3330e-08,  7.7300e-08,  2.1420e-08,  ...,  0.0000e+00,
+          1.9558e-08,  0.0000e+00],
+        [ 1.0710e-07, -5.8673e-08,  9.3132e-09,  ...,  0.0000e+00,
+          1.0710e-07,  0.0000e+00],
+        [ 4.6566e-08,  1.7695e-08,  4.6566e-09,  ...,  0.0000e+00,
+          3.9116e-08,  0.0000e+00],
+        ...,
+        [ 9.2201e-08,  7.1712e-08,  1.1176e-07,  ...,  0.0000e+00,
+          1.1176e-07,  0.0000e+00],
+        [-9.8161e-07, -1.3970e-08,  1.2107e-08,  ...,  0.0000e+00,
+         -1.0338e-06,  0.0000e+00],
+        [ 2.2538e-07,  9.4157e-07,  4.0457e-06,  ...,  0.0000e+00,
+          2.2445e-07,  0.0000e+00]], device='cuda:0')
+Epoch 203, bias, value: tensor([-0.0031,  0.0187, -0.0197,  0.0138,  0.0230, -0.0145, -0.0210, -0.0111,
+        -0.0291, -0.0309], device='cuda:0'), grad: tensor([-1.6131e-06,  2.3562e-07,  1.6671e-07,  4.5169e-07, -1.2942e-05,
+         1.0850e-06, -1.1921e-07,  7.5437e-07, -2.7847e-06,  1.4730e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 202, time 217.03, cls_loss 0.0017 cls_loss_mapping 0.0029 cls_loss_causal 0.4707 re_mapping 0.0057 re_causal 0.0149 /// teacc 99.02 lr 0.00010000
+Epoch 204, weight, value: tensor([[-0.1801, -0.1045, -0.0726,  ..., -0.0108, -0.0396, -0.0075],
+        [-0.0755,  0.0938, -0.0752,  ...,  0.0215, -0.0340, -0.0731],
+        [ 0.0774, -0.1161, -0.1123,  ..., -0.0573,  0.1102, -0.0287],
+        ...,
+        [-0.1465, -0.0769,  0.1009,  ...,  0.0405, -0.1720,  0.0008],
+        [ 0.0659, -0.0007, -0.2345,  ..., -0.0568,  0.1254, -0.0254],
+        [-0.1517, -0.1065,  0.0286,  ..., -0.0092, -0.1297, -0.0528]],
+       device='cuda:0'), grad: tensor([[ 9.6858e-07,  2.5146e-06,  2.4214e-08,  ...,  0.0000e+00,
+          9.3132e-09,  0.0000e+00],
+        [ 5.4017e-08,  2.4214e-07,  3.0361e-07,  ...,  0.0000e+00,
+          8.3819e-09,  0.0000e+00],
+        [ 4.9360e-08,  2.4028e-07,  5.4017e-08,  ...,  0.0000e+00,
+          1.1176e-08,  0.0000e+00],
+        ...,
+        [ 6.8918e-08,  1.2480e-06, -4.0792e-07,  ...,  0.0000e+00,
+          8.7544e-08,  0.0000e+00],
+        [-3.4552e-07,  8.1956e-08,  1.0245e-07,  ...,  0.0000e+00,
+         -4.0513e-07,  0.0000e+00],
+        [ 1.7136e-07,  4.3493e-07,  5.0664e-07,  ...,  0.0000e+00,
+          1.6205e-07,  0.0000e+00]], device='cuda:0')
+Epoch 204, bias, value: tensor([-0.0029,  0.0186, -0.0197,  0.0138,  0.0233, -0.0147, -0.0213, -0.0106,
+        -0.0289, -0.0318], device='cuda:0'), grad: tensor([ 5.1856e-06,  1.2917e-06,  6.3609e-07,  3.5297e-07, -3.1441e-06,
+         5.8115e-07, -7.0967e-06,  6.9197e-07, -3.0920e-07,  1.7593e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 203, time 216.76, cls_loss 0.0018 cls_loss_mapping 0.0033 cls_loss_causal 0.4988 re_mapping 0.0055 re_causal 0.0147 /// teacc 99.01 lr 0.00010000
+Epoch 205, weight, value: tensor([[-0.1808, -0.1070, -0.0726,  ..., -0.0108, -0.0402, -0.0075],
+        [-0.0757,  0.0938, -0.0757,  ...,  0.0215, -0.0341, -0.0731],
+        [ 0.0785, -0.1163, -0.1125,  ..., -0.0573,  0.1107, -0.0287],
+        ...,
+        [-0.1470, -0.0769,  0.1011,  ...,  0.0405, -0.1724,  0.0008],
+        [ 0.0648, -0.0009, -0.2350,  ..., -0.0568,  0.1243, -0.0254],
+        [-0.1520, -0.1067,  0.0286,  ..., -0.0092, -0.1298, -0.0529]],
+       device='cuda:0'), grad: tensor([[ 3.7067e-07,  2.0489e-07,  6.5193e-09,  ...,  0.0000e+00,
+          4.3772e-07,  0.0000e+00],
+        [ 1.1269e-07, -5.0291e-08,  8.3819e-09,  ...,  0.0000e+00,
+          1.4994e-07,  0.0000e+00],
+        [-8.2552e-06,  1.2107e-08,  2.7940e-09,  ...,  0.0000e+00,
+         -1.0952e-05,  0.0000e+00],
+        ...,
+        [ 1.1642e-07,  3.4459e-08,  1.6764e-08,  ...,  0.0000e+00,
+          1.6578e-07,  0.0000e+00],
+        [ 6.4261e-06,  9.3132e-10,  1.1176e-08,  ...,  0.0000e+00,
+          8.6054e-06,  0.0000e+00],
+        [ 7.1712e-08,  1.4342e-07, -1.1548e-07,  ...,  0.0000e+00,
+          9.4064e-08,  0.0000e+00]], device='cuda:0')
+Epoch 205, bias, value: tensor([-0.0028,  0.0186, -0.0196,  0.0141,  0.0234, -0.0146, -0.0209, -0.0106,
+        -0.0302, -0.0317], device='cuda:0'), grad: tensor([ 1.3988e-06,  2.2445e-07, -1.5616e-05,  2.0191e-06, -1.3942e-06,
+         2.1886e-07,  1.0710e-07,  3.9209e-07,  1.2182e-05,  4.9639e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 204, time 216.72, cls_loss 0.0021 cls_loss_mapping 0.0052 cls_loss_causal 0.4822 re_mapping 0.0053 re_causal 0.0150 /// teacc 99.11 lr 0.00010000
+Epoch 206, weight, value: tensor([[-0.1815, -0.1075, -0.0728,  ..., -0.0108, -0.0387, -0.0076],
+        [-0.0774,  0.0935, -0.0758,  ...,  0.0215, -0.0346, -0.0732],
+        [ 0.0792, -0.1167, -0.1128,  ..., -0.0573,  0.1109, -0.0287],
+        ...,
+        [-0.1460, -0.0766,  0.1019,  ...,  0.0405, -0.1723,  0.0008],
+        [ 0.0650, -0.0015, -0.2354,  ..., -0.0568,  0.1248, -0.0254],
+        [-0.1540, -0.1070,  0.0281,  ..., -0.0092, -0.1303, -0.0529]],
+       device='cuda:0'), grad: tensor([[ 4.7497e-08,  5.7742e-08,  9.3132e-10,  ...,  0.0000e+00,
+          1.8626e-08,  0.0000e+00],
+        [ 4.5635e-08, -1.4184e-06,  4.6566e-09,  ...,  0.0000e+00,
+          5.3085e-08,  0.0000e+00],
+        [-3.3341e-07,  7.4506e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -4.5355e-07,  0.0000e+00],
+        ...,
+        [ 1.6671e-07,  4.4890e-07,  2.0489e-08,  ...,  0.0000e+00,
+          1.9092e-07,  0.0000e+00],
+        [ 6.7987e-08,  1.3970e-08,  9.3132e-10,  ...,  0.0000e+00,
+          3.0734e-08,  0.0000e+00],
+        [ 1.9558e-07,  4.0326e-07,  5.5879e-09,  ...,  0.0000e+00,
+          7.3574e-08,  0.0000e+00]], device='cuda:0')
+Epoch 206, bias, value: tensor([-0.0025,  0.0180, -0.0197,  0.0123,  0.0236, -0.0130, -0.0206, -0.0098,
+        -0.0303, -0.0323], device='cuda:0'), grad: tensor([-1.3411e-07, -2.4363e-06, -6.9384e-07,  5.3644e-07,  9.0245e-07,
+        -1.2256e-06,  1.4901e-07,  1.2554e-06,  2.8405e-07,  1.3411e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 205, time 216.62, cls_loss 0.0010 cls_loss_mapping 0.0022 cls_loss_causal 0.5127 re_mapping 0.0050 re_causal 0.0162 /// teacc 99.11 lr 0.00010000
+Epoch 207, weight, value: tensor([[-0.1821, -0.1078, -0.0729,  ..., -0.0108, -0.0390, -0.0076],
+        [-0.0780,  0.0937, -0.0751,  ...,  0.0215, -0.0349, -0.0732],
+        [ 0.0822, -0.1168, -0.1140,  ..., -0.0573,  0.1130, -0.0287],
+        ...,
+        [-0.1494, -0.0767,  0.1016,  ...,  0.0405, -0.1754,  0.0008],
+        [ 0.0652, -0.0014, -0.2358,  ..., -0.0568,  0.1249, -0.0254],
+        [-0.1544, -0.1073,  0.0278,  ..., -0.0092, -0.1309, -0.0529]],
+       device='cuda:0'), grad: tensor([[1.6391e-07, 2.2072e-07, 4.0326e-07,  ..., 0.0000e+00, 2.0862e-07,
+         0.0000e+00],
+        [1.9465e-07, 2.7120e-06, 5.4687e-06,  ..., 0.0000e+00, 4.3213e-07,
+         0.0000e+00],
+        [3.3956e-06, 2.1979e-07, 4.1910e-07,  ..., 0.0000e+00, 4.2766e-06,
+         0.0000e+00],
+        ...,
+        [3.7532e-07, 1.5013e-05, 2.8625e-05,  ..., 0.0000e+00, 5.9046e-07,
+         0.0000e+00],
+        [1.4514e-05, 5.3179e-07, 1.1185e-06,  ..., 0.0000e+00, 1.9118e-05,
+         0.0000e+00],
+        [4.8708e-07, 4.0494e-06, 7.5214e-06,  ..., 0.0000e+00, 6.3144e-07,
+         0.0000e+00]], device='cuda:0')
+Epoch 207, bias, value: tensor([-0.0025,  0.0181, -0.0181,  0.0124,  0.0238, -0.0129, -0.0205, -0.0105,
+        -0.0302, -0.0325], device='cuda:0'), grad: tensor([ 1.8105e-06,  1.9401e-05,  9.6858e-06,  5.0664e-06, -1.5295e-04,
+        -5.3823e-05,  3.8482e-06,  9.8646e-05,  4.1485e-05,  2.6733e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 206, time 216.81, cls_loss 0.0015 cls_loss_mapping 0.0028 cls_loss_causal 0.5087 re_mapping 0.0048 re_causal 0.0151 /// teacc 99.12 lr 0.00010000
+Epoch 208, weight, value: tensor([[-0.1825, -0.1083, -0.0729,  ..., -0.0108, -0.0393, -0.0076],
+        [-0.0783,  0.0937, -0.0751,  ...,  0.0215, -0.0352, -0.0732],
+        [ 0.0827, -0.1167, -0.1150,  ..., -0.0573,  0.1136, -0.0287],
+        ...,
+        [-0.1497, -0.0768,  0.1015,  ...,  0.0405, -0.1759,  0.0008],
+        [ 0.0654, -0.0014, -0.2366,  ..., -0.0568,  0.1251, -0.0255],
+        [-0.1550, -0.1074,  0.0281,  ..., -0.0092, -0.1312, -0.0529]],
+       device='cuda:0'), grad: tensor([[ 1.7444e-06,  9.9186e-07,  1.8626e-09,  ...,  0.0000e+00,
+          4.7497e-08,  0.0000e+00],
+        [ 2.5053e-07, -7.5717e-07,  1.0245e-08,  ...,  0.0000e+00,
+          2.8964e-07,  0.0000e+00],
+        [ 4.5635e-07,  3.3714e-07,  4.6566e-09,  ...,  0.0000e+00,
+         -2.3749e-07,  0.0000e+00],
+        ...,
+        [ 1.1828e-07,  4.1910e-07, -6.9849e-08,  ...,  0.0000e+00,
+          9.1270e-08,  0.0000e+00],
+        [-9.6634e-06, -1.2359e-06,  1.8626e-09,  ...,  0.0000e+00,
+         -6.6496e-06,  0.0000e+00],
+        [ 3.4235e-06,  1.4063e-07,  3.6322e-08,  ...,  0.0000e+00,
+          2.6189e-06,  0.0000e+00]], device='cuda:0')
+Epoch 208, bias, value: tensor([-0.0025,  0.0180, -0.0176,  0.0121,  0.0236, -0.0126, -0.0203, -0.0107,
+        -0.0303, -0.0322], device='cuda:0'), grad: tensor([ 3.3081e-06, -6.4448e-07,  8.3912e-07,  1.0535e-05,  5.5134e-07,
+         8.9929e-06, -7.3835e-06,  7.9907e-07, -2.8536e-05,  1.1563e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 207, time 216.90, cls_loss 0.0013 cls_loss_mapping 0.0022 cls_loss_causal 0.5335 re_mapping 0.0049 re_causal 0.0154 /// teacc 99.01 lr 0.00010000
+Epoch 209, weight, value: tensor([[-0.1835, -0.1091, -0.0730,  ..., -0.0108, -0.0402, -0.0076],
+        [-0.0788,  0.0938, -0.0751,  ...,  0.0215, -0.0358, -0.0732],
+        [ 0.0836, -0.1169, -0.1153,  ..., -0.0573,  0.1144, -0.0287],
+        ...,
+        [-0.1504, -0.0769,  0.1012,  ...,  0.0405, -0.1768,  0.0008],
+        [ 0.0659, -0.0012, -0.2368,  ..., -0.0569,  0.1261, -0.0255],
+        [-0.1558, -0.1076,  0.0281,  ..., -0.0093, -0.1318, -0.0529]],
+       device='cuda:0'), grad: tensor([[-1.7416e-07,  3.3528e-08,  2.7940e-09,  ...,  0.0000e+00,
+         -1.4901e-08,  0.0000e+00],
+        [ 9.3132e-10, -5.7090e-07,  6.5193e-09,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 1.4901e-08,  6.1467e-07,  2.7940e-09,  ...,  0.0000e+00,
+         -1.3039e-08,  0.0000e+00],
+        ...,
+        [ 6.5193e-09,  5.8487e-07,  5.8673e-08,  ...,  0.0000e+00,
+          2.3283e-08,  0.0000e+00],
+        [ 0.0000e+00,  1.2107e-07,  9.3132e-09,  ...,  0.0000e+00,
+         -5.9605e-08,  0.0000e+00],
+        [ 9.1270e-08,  2.1141e-07, -5.6811e-08,  ...,  0.0000e+00,
+          1.4901e-08,  0.0000e+00]], device='cuda:0')
+Epoch 209, bias, value: tensor([-0.0027,  0.0179, -0.0167,  0.0122,  0.0238, -0.0131, -0.0190, -0.0112,
+        -0.0296, -0.0322], device='cuda:0'), grad: tensor([-8.8569e-07, -1.6140e-06,  1.6149e-06,  1.5646e-07, -2.1476e-06,
+         9.7789e-08,  3.1665e-07,  1.4575e-06,  3.2503e-07,  6.7428e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 208, time 216.87, cls_loss 0.0012 cls_loss_mapping 0.0022 cls_loss_causal 0.5391 re_mapping 0.0049 re_causal 0.0162 /// teacc 98.95 lr 0.00010000
+Epoch 210, weight, value: tensor([[-0.1839, -0.1097, -0.0731,  ..., -0.0108, -0.0404, -0.0076],
+        [-0.0792,  0.0943, -0.0745,  ...,  0.0215, -0.0358, -0.0732],
+        [ 0.0838, -0.1172, -0.1154,  ..., -0.0573,  0.1146, -0.0287],
+        ...,
+        [-0.1505, -0.0774,  0.1009,  ...,  0.0405, -0.1770,  0.0008],
+        [ 0.0674, -0.0010, -0.2370,  ..., -0.0570,  0.1272, -0.0255],
+        [-0.1566, -0.1077,  0.0281,  ..., -0.0094, -0.1325, -0.0529]],
+       device='cuda:0'), grad: tensor([[ 1.2200e-07,  5.9605e-08,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-08,  0.0000e+00],
+        [ 7.4506e-08, -7.0967e-07,  5.5879e-09,  ...,  0.0000e+00,
+         -5.2154e-08,  0.0000e+00],
+        [-5.9754e-06,  1.1455e-07,  3.7253e-09,  ...,  0.0000e+00,
+         -1.5602e-05,  0.0000e+00],
+        ...,
+        [ 2.0582e-07,  1.3690e-07, -2.6077e-08,  ...,  0.0000e+00,
+          8.1025e-08,  0.0000e+00],
+        [ 6.2659e-06,  2.8871e-07,  3.7253e-09,  ...,  0.0000e+00,
+          1.5184e-05,  0.0000e+00],
+        [ 6.3051e-07,  4.0047e-08,  9.3132e-10,  ...,  0.0000e+00,
+          4.2841e-08,  0.0000e+00]], device='cuda:0')
+Epoch 210, bias, value: tensor([-0.0028,  0.0182, -0.0167,  0.0125,  0.0239, -0.0136, -0.0189, -0.0115,
+        -0.0290, -0.0322], device='cuda:0'), grad: tensor([ 3.0641e-07, -7.8231e-07, -2.0012e-05,  3.1084e-05,  6.3796e-07,
+        -3.9488e-05,  3.2037e-06,  8.7544e-07,  2.2069e-05,  2.0936e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 209, time 216.61, cls_loss 0.0015 cls_loss_mapping 0.0027 cls_loss_causal 0.4923 re_mapping 0.0050 re_causal 0.0152 /// teacc 99.01 lr 0.00010000
+Epoch 211, weight, value: tensor([[-0.1841, -0.1098, -0.0731,  ..., -0.0101, -0.0405, -0.0069],
+        [-0.0793,  0.0944, -0.0748,  ...,  0.0215, -0.0360, -0.0732],
+        [ 0.0863, -0.1173, -0.1130,  ..., -0.0574,  0.1160, -0.0287],
+        ...,
+        [-0.1528, -0.0775,  0.1016,  ...,  0.0405, -0.1784,  0.0008],
+        [ 0.0677, -0.0012, -0.2375,  ..., -0.0571,  0.1275, -0.0255],
+        [-0.1570, -0.1073,  0.0292,  ..., -0.0096, -0.1332, -0.0537]],
+       device='cuda:0'), grad: tensor([[ 3.1665e-08,  2.7940e-08,  3.7253e-08,  ...,  9.3132e-10,
+          2.9802e-08,  0.0000e+00],
+        [ 5.3085e-08, -6.7614e-07,  2.1420e-08,  ...,  9.3132e-10,
+         -4.7497e-08,  0.0000e+00],
+        [-3.5390e-08,  2.2911e-07,  2.1420e-08,  ...,  3.7253e-09,
+         -2.1141e-07,  0.0000e+00],
+        ...,
+        [ 4.4703e-08,  1.4901e-07, -4.0978e-08,  ...,  2.7940e-09,
+          1.4622e-07,  0.0000e+00],
+        [-4.3306e-07, -1.0151e-07,  4.5635e-08,  ...,  7.4506e-09,
+         -6.6776e-07,  0.0000e+00],
+        [ 6.2399e-08,  5.1223e-08, -9.4250e-07,  ...,  4.6566e-09,
+          9.6858e-08,  0.0000e+00]], device='cuda:0')
+Epoch 211, bias, value: tensor([-0.0026,  0.0181, -0.0155,  0.0125,  0.0217, -0.0137, -0.0185, -0.0119,
+        -0.0290, -0.0303], device='cuda:0'), grad: tensor([ 1.0245e-07, -7.4692e-07,  2.2165e-07,  2.1160e-06,  5.7109e-06,
+        -3.7253e-09,  8.1211e-07,  7.0501e-07, -8.3633e-07, -8.1062e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 210, time 216.65, cls_loss 0.0015 cls_loss_mapping 0.0024 cls_loss_causal 0.4864 re_mapping 0.0047 re_causal 0.0141 /// teacc 98.99 lr 0.00010000
+Epoch 212, weight, value: tensor([[-0.1848, -0.1103, -0.0735,  ..., -0.0092, -0.0409, -0.0067],
+        [-0.0800,  0.0945, -0.0751,  ...,  0.0215, -0.0363, -0.0732],
+        [ 0.0862, -0.1175, -0.1133,  ..., -0.0575,  0.1161, -0.0287],
+        ...,
+        [-0.1529, -0.0775,  0.1018,  ...,  0.0405, -0.1786,  0.0008],
+        [ 0.0698, -0.0003, -0.2378,  ..., -0.0571,  0.1290, -0.0255],
+        [-0.1578, -0.1079,  0.0279,  ..., -0.0099, -0.1343, -0.0539]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09,  1.0803e-07,  1.8626e-08,  ...,  0.0000e+00,
+         -8.9407e-08,  0.0000e+00],
+        [ 1.3039e-08, -3.3174e-06,  1.2852e-07,  ...,  0.0000e+00,
+          9.3132e-09,  0.0000e+00],
+        [-1.0151e-07,  2.4214e-07,  1.7695e-08,  ...,  0.0000e+00,
+         -1.2759e-07,  0.0000e+00],
+        ...,
+        [ 1.2107e-07,  2.4363e-06,  3.1944e-07,  ...,  0.0000e+00,
+          1.7043e-07,  0.0000e+00],
+        [-1.0533e-06,  4.7218e-07,  4.7497e-08,  ...,  0.0000e+00,
+         -9.9558e-07,  0.0000e+00],
+        [ 1.3877e-07,  8.4713e-06,  7.9498e-06,  ...,  0.0000e+00,
+          1.8068e-07,  0.0000e+00]], device='cuda:0')
+Epoch 212, bias, value: tensor([-0.0026,  0.0181, -0.0155,  0.0126,  0.0222, -0.0139, -0.0190, -0.0119,
+        -0.0280, -0.0308], device='cuda:0'), grad: tensor([-7.9349e-07, -6.2212e-06,  2.0023e-07,  1.5059e-06, -3.7462e-05,
+         1.4352e-06,  5.0757e-07,  6.3479e-06, -1.5590e-06,  3.6031e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 211, time 216.78, cls_loss 0.0015 cls_loss_mapping 0.0026 cls_loss_causal 0.5141 re_mapping 0.0047 re_causal 0.0145 /// teacc 99.01 lr 0.00010000
+Epoch 213, weight, value: tensor([[-0.1863, -0.1122, -0.0737,  ..., -0.0092, -0.0418, -0.0065],
+        [-0.0802,  0.0953, -0.0731,  ...,  0.0215, -0.0369, -0.0732],
+        [ 0.0864, -0.1180, -0.1136,  ..., -0.0575,  0.1164, -0.0287],
+        ...,
+        [-0.1530, -0.0781,  0.1013,  ...,  0.0405, -0.1788,  0.0008],
+        [ 0.0703, -0.0004, -0.2383,  ..., -0.0571,  0.1295, -0.0255],
+        [-0.1582, -0.1086,  0.0279,  ..., -0.0099, -0.1344, -0.0539]],
+       device='cuda:0'), grad: tensor([[ 1.2200e-07,  1.0896e-07,  5.3085e-08,  ...,  0.0000e+00,
+          9.5926e-08,  0.0000e+00],
+        [ 1.9707e-06, -2.8033e-07,  6.3516e-07,  ...,  0.0000e+00,
+          2.6636e-06,  0.0000e+00],
+        [ 3.3062e-06,  5.4017e-08,  9.8441e-07,  ...,  0.0000e+00,
+          4.4741e-06,  0.0000e+00],
+        ...,
+        [-5.9493e-06,  2.2259e-07, -1.6522e-06,  ...,  0.0000e+00,
+         -8.0615e-06,  0.0000e+00],
+        [-8.8476e-08,  2.8126e-07,  1.6671e-07,  ...,  0.0000e+00,
+         -4.8429e-07,  0.0000e+00],
+        [ 1.1642e-07,  4.5225e-06,  3.0212e-06,  ...,  0.0000e+00,
+          1.9092e-07,  0.0000e+00]], device='cuda:0')
+Epoch 213, bias, value: tensor([-0.0032,  0.0183, -0.0152,  0.0126,  0.0224, -0.0138, -0.0191, -0.0124,
+        -0.0280, -0.0306], device='cuda:0'), grad: tensor([ 5.7183e-07,  1.0274e-05,  1.8001e-05,  3.7029e-06, -1.2092e-05,
+         7.2457e-07, -8.9779e-07, -3.1710e-05,  2.6450e-07,  1.1124e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 212, time 216.95, cls_loss 0.0010 cls_loss_mapping 0.0019 cls_loss_causal 0.5027 re_mapping 0.0045 re_causal 0.0150 /// teacc 99.05 lr 0.00010000
+Epoch 214, weight, value: tensor([[-1.8663e-01, -1.1273e-01, -7.4335e-02,  ..., -9.2088e-03,
+         -4.2467e-02, -6.5127e-03],
+        [-8.0497e-02,  9.5519e-02, -7.2964e-02,  ...,  2.1458e-02,
+         -3.6959e-02, -7.3216e-02],
+        [ 8.6466e-02, -1.1796e-01, -1.1389e-01,  ..., -5.7499e-02,
+          1.1651e-01, -2.8714e-02],
+        ...,
+        [-1.5306e-01, -7.8324e-02,  1.0146e-01,  ...,  4.0573e-02,
+         -1.7895e-01,  8.2038e-04],
+        [ 7.0909e-02,  8.2639e-06, -2.3875e-01,  ..., -5.7160e-02,
+          1.2999e-01, -2.5547e-02],
+        [-1.5889e-01, -1.0897e-01,  2.7832e-02,  ..., -9.9094e-03,
+         -1.3428e-01, -5.3909e-02]], device='cuda:0'), grad: tensor([[ 2.8871e-08,  5.2154e-08,  1.3039e-08,  ...,  9.3132e-10,
+          1.4901e-08,  0.0000e+00],
+        [ 4.3772e-08, -7.1712e-07,  2.8405e-07,  ...,  9.3132e-10,
+         -4.3772e-08,  0.0000e+00],
+        [-3.7253e-08,  1.1735e-07,  3.0734e-08,  ...,  1.8626e-09,
+         -5.4948e-08,  0.0000e+00],
+        ...,
+        [-6.4261e-08,  2.8126e-07, -3.8836e-07,  ...,  6.5193e-09,
+          4.2841e-08,  0.0000e+00],
+        [-3.3714e-07,  1.4342e-07,  1.6578e-07,  ...,  9.3132e-10,
+         -3.8836e-07,  0.0000e+00],
+        [ 1.3877e-07,  5.0105e-07,  5.0291e-08,  ...,  5.5879e-09,
+          9.4064e-08,  0.0000e+00]], device='cuda:0')
+Epoch 214, bias, value: tensor([-0.0038,  0.0184, -0.0152,  0.0126,  0.0224, -0.0137, -0.0195, -0.0125,
+        -0.0278, -0.0306], device='cuda:0'), grad: tensor([ 1.6298e-07,  2.2724e-07,  2.3004e-07,  4.6194e-07, -7.4226e-07,
+        -3.9767e-07,  3.0734e-07, -1.4994e-06,  7.1712e-08,  1.1502e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 213, time 216.53, cls_loss 0.0016 cls_loss_mapping 0.0029 cls_loss_causal 0.5276 re_mapping 0.0047 re_causal 0.0146 /// teacc 98.98 lr 0.00010000
+Epoch 215, weight, value: tensor([[-0.1875, -0.1130, -0.0743,  ..., -0.0092, -0.0427, -0.0065],
+        [-0.0815,  0.0957, -0.0730,  ...,  0.0214, -0.0373, -0.0732],
+        [ 0.0874, -0.1183, -0.1143,  ..., -0.0576,  0.1174, -0.0287],
+        ...,
+        [-0.1531, -0.0784,  0.1017,  ...,  0.0406, -0.1792,  0.0008],
+        [ 0.0710, -0.0003, -0.2392,  ..., -0.0577,  0.1302, -0.0255],
+        [-0.1599, -0.1095,  0.0276,  ..., -0.0102, -0.1354, -0.0539]],
+       device='cuda:0'), grad: tensor([[ 7.8231e-08,  7.6368e-08,  1.8626e-08,  ...,  0.0000e+00,
+         -4.3865e-07,  0.0000e+00],
+        [ 3.1292e-07,  2.4028e-07,  2.4959e-07,  ...,  0.0000e+00,
+          5.5134e-07,  0.0000e+00],
+        [ 9.5926e-08,  6.4261e-08,  8.5682e-08,  ...,  0.0000e+00,
+          4.4052e-07,  0.0000e+00],
+        ...,
+        [ 4.8429e-08,  8.3819e-08, -2.6543e-07,  ...,  0.0000e+00,
+          2.1141e-07,  0.0000e+00],
+        [-9.7416e-07, -7.4506e-08,  8.6613e-08,  ...,  0.0000e+00,
+         -1.0375e-06,  0.0000e+00],
+        [ 2.0489e-07,  1.7406e-06,  7.8510e-07,  ...,  0.0000e+00,
+          3.5297e-07,  0.0000e+00]], device='cuda:0')
+Epoch 215, bias, value: tensor([-0.0032,  0.0185, -0.0148,  0.0126,  0.0224, -0.0137, -0.0196, -0.0125,
+        -0.0281, -0.0309], device='cuda:0'), grad: tensor([-4.7460e-06,  2.0172e-06,  1.8729e-06, -4.5635e-07, -2.8871e-06,
+         1.5292e-06,  4.8429e-08, -1.5646e-07, -1.0049e-06,  3.7998e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 214, time 216.91, cls_loss 0.0013 cls_loss_mapping 0.0022 cls_loss_causal 0.4895 re_mapping 0.0047 re_causal 0.0143 /// teacc 98.96 lr 0.00010000
+Epoch 216, weight, value: tensor([[-0.1882, -0.1134, -0.0761,  ..., -0.0092, -0.0430, -0.0065],
+        [-0.0821,  0.0958, -0.0735,  ...,  0.0214, -0.0369, -0.0732],
+        [ 0.0876, -0.1187, -0.1153,  ..., -0.0576,  0.1176, -0.0287],
+        ...,
+        [-0.1531, -0.0785,  0.1016,  ...,  0.0406, -0.1792,  0.0008],
+        [ 0.0704, -0.0013, -0.2398,  ..., -0.0577,  0.1293, -0.0255],
+        [-0.1609, -0.1113,  0.0272,  ..., -0.0102, -0.1365, -0.0539]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-09,  3.3528e-08,  2.7940e-09,  ...,  0.0000e+00,
+          1.3039e-08,  0.0000e+00],
+        [ 2.2352e-08,  5.0105e-07,  1.3039e-08,  ...,  0.0000e+00,
+          2.4214e-08,  0.0000e+00],
+        [-3.9022e-07,  2.6077e-08,  6.5193e-09,  ...,  0.0000e+00,
+         -3.9209e-07,  0.0000e+00],
+        ...,
+        [ 3.5111e-07,  8.8476e-08,  9.8720e-08,  ...,  0.0000e+00,
+          3.6880e-07,  0.0000e+00],
+        [-7.8510e-07,  7.3574e-08,  1.3039e-08,  ...,  0.0000e+00,
+         -7.7114e-07,  0.0000e+00],
+        [ 3.7253e-08, -1.1604e-06, -2.2631e-07,  ...,  0.0000e+00,
+          3.4459e-08,  0.0000e+00]], device='cuda:0')
+Epoch 216, bias, value: tensor([-0.0037,  0.0186, -0.0150,  0.0128,  0.0232, -0.0136, -0.0193, -0.0126,
+        -0.0294, -0.0314], device='cuda:0'), grad: tensor([-2.9802e-08,  6.5416e-06, -9.8068e-07,  4.4927e-06,  1.6643e-06,
+         4.0140e-07,  1.0990e-07,  1.9670e-06, -7.9349e-07, -1.3374e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 215, time 216.85, cls_loss 0.0013 cls_loss_mapping 0.0024 cls_loss_causal 0.5070 re_mapping 0.0050 re_causal 0.0147 /// teacc 99.06 lr 0.00010000
+Epoch 217, weight, value: tensor([[-0.1885, -0.1137, -0.0761,  ..., -0.0091, -0.0428, -0.0065],
+        [-0.0819,  0.0960, -0.0737,  ...,  0.0214, -0.0367, -0.0732],
+        [ 0.0874, -0.1195, -0.1164,  ..., -0.0576,  0.1174, -0.0287],
+        ...,
+        [-0.1530, -0.0786,  0.1018,  ...,  0.0405, -0.1790,  0.0007],
+        [ 0.0705, -0.0012, -0.2402,  ..., -0.0578,  0.1296, -0.0256],
+        [-0.1620, -0.1119,  0.0271,  ..., -0.0103, -0.1372, -0.0539]],
+       device='cuda:0'), grad: tensor([[ 6.0536e-08,  5.5879e-09,  2.0303e-07,  ...,  0.0000e+00,
+          7.0781e-08,  0.0000e+00],
+        [ 2.1420e-07, -3.1665e-08,  9.7230e-07,  ...,  0.0000e+00,
+          3.3807e-07,  0.0000e+00],
+        [-1.9222e-06,  4.6566e-09,  1.5832e-08,  ...,  0.0000e+00,
+         -3.1218e-06,  0.0000e+00],
+        ...,
+        [ 4.5169e-07,  2.2352e-08, -1.6065e-06,  ...,  0.0000e+00,
+          6.9384e-07,  0.0000e+00],
+        [ 7.6927e-07,  4.1444e-07,  1.2759e-07,  ...,  0.0000e+00,
+          8.1584e-07,  0.0000e+00],
+        [ 1.6298e-07,  1.2480e-07, -2.2352e-08,  ...,  0.0000e+00,
+          8.2888e-08,  0.0000e+00]], device='cuda:0')
+Epoch 217, bias, value: tensor([-0.0035,  0.0187, -0.0157,  0.0126,  0.0235, -0.0132, -0.0197, -0.0124,
+        -0.0295, -0.0317], device='cuda:0'), grad: tensor([ 3.1106e-07,  3.3826e-06, -5.6922e-06, -1.4439e-05, -5.4576e-07,
+         1.4700e-05,  1.0021e-06, -2.9504e-06,  3.7700e-06,  4.3400e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 216, time 216.77, cls_loss 0.0016 cls_loss_mapping 0.0032 cls_loss_causal 0.4849 re_mapping 0.0054 re_causal 0.0146 /// teacc 99.05 lr 0.00010000
+Epoch 218, weight, value: tensor([[-0.1882, -0.1138, -0.0759,  ..., -0.0091, -0.0417, -0.0065],
+        [-0.0820,  0.0964, -0.0742,  ...,  0.0214, -0.0367, -0.0732],
+        [ 0.0885, -0.1200, -0.1168,  ..., -0.0576,  0.1179, -0.0287],
+        ...,
+        [-0.1534, -0.0788,  0.1014,  ...,  0.0405, -0.1793,  0.0007],
+        [ 0.0696, -0.0023, -0.2408,  ..., -0.0578,  0.1290, -0.0256],
+        [-0.1628, -0.1124,  0.0272,  ..., -0.0103, -0.1377, -0.0539]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-08,  3.1665e-08, -3.7253e-09,  ...,  0.0000e+00,
+          1.2107e-08,  0.0000e+00],
+        [ 1.1176e-08, -3.8091e-07,  1.1176e-08,  ...,  0.0000e+00,
+          1.7695e-08,  0.0000e+00],
+        [-1.5367e-07,  3.3528e-08,  9.3132e-09,  ...,  0.0000e+00,
+         -2.3562e-07,  0.0000e+00],
+        ...,
+        [ 2.2352e-08,  2.2724e-07,  4.0047e-08,  ...,  0.0000e+00,
+          4.6566e-08,  0.0000e+00],
+        [ 2.7940e-09,  8.8476e-08,  2.8871e-08,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 2.0489e-08,  3.7532e-07,  9.1270e-08,  ...,  0.0000e+00,
+          3.4459e-08,  0.0000e+00]], device='cuda:0')
+Epoch 218, bias, value: tensor([-0.0028,  0.0186, -0.0158,  0.0126,  0.0237, -0.0131, -0.0204, -0.0124,
+        -0.0311, -0.0314], device='cuda:0'), grad: tensor([ 2.1420e-08, -5.4948e-07, -3.7812e-07, -2.1607e-06, -1.7053e-06,
+         2.1178e-06,  1.6857e-07,  6.6776e-07,  4.0699e-07,  1.4128e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 217, time 216.48, cls_loss 0.0015 cls_loss_mapping 0.0030 cls_loss_causal 0.4788 re_mapping 0.0049 re_causal 0.0138 /// teacc 99.05 lr 0.00010000
+Epoch 219, weight, value: tensor([[-0.1888, -0.1146, -0.0764,  ..., -0.0091, -0.0420, -0.0065],
+        [-0.0824,  0.0974, -0.0724,  ...,  0.0214, -0.0367, -0.0732],
+        [ 0.0893, -0.1202, -0.1170,  ..., -0.0576,  0.1185, -0.0287],
+        ...,
+        [-0.1536, -0.0798,  0.1007,  ...,  0.0405, -0.1795,  0.0007],
+        [ 0.0687, -0.0026, -0.2412,  ..., -0.0579,  0.1286, -0.0256],
+        [-0.1631, -0.1128,  0.0272,  ..., -0.0103, -0.1379, -0.0539]],
+       device='cuda:0'), grad: tensor([[ 1.0058e-07,  9.0338e-08,  1.9558e-08,  ...,  0.0000e+00,
+          7.9162e-08,  0.0000e+00],
+        [ 2.3600e-06,  1.5274e-07,  9.8720e-08,  ...,  0.0000e+00,
+          2.1886e-07,  0.0000e+00],
+        [ 1.2787e-06,  8.8010e-07,  1.8626e-08,  ...,  0.0000e+00,
+          1.1539e-06,  0.0000e+00],
+        ...,
+        [-2.0899e-06,  1.1735e-07, -2.6189e-06,  ...,  0.0000e+00,
+          1.2200e-07,  0.0000e+00],
+        [-3.2596e-06, -2.1961e-06,  8.3819e-09,  ...,  0.0000e+00,
+         -3.0436e-06,  0.0000e+00],
+        [ 2.7474e-07,  8.2701e-07,  2.5965e-06,  ...,  0.0000e+00,
+          2.5891e-07,  0.0000e+00]], device='cuda:0')
+Epoch 219, bias, value: tensor([-0.0028,  0.0192, -0.0154,  0.0128,  0.0236, -0.0132, -0.0205, -0.0130,
+        -0.0321, -0.0312], device='cuda:0'), grad: tensor([ 1.6391e-07,  7.3135e-05,  4.4703e-06,  1.2442e-06, -5.5581e-06,
+         1.6289e-06,  9.1083e-07, -8.5890e-05, -7.9274e-06,  1.7911e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 218, time 217.11, cls_loss 0.0014 cls_loss_mapping 0.0033 cls_loss_causal 0.4738 re_mapping 0.0052 re_causal 0.0148 /// teacc 99.05 lr 0.00010000
+Epoch 220, weight, value: tensor([[-0.1896, -0.1153, -0.0764,  ..., -0.0091, -0.0424, -0.0067],
+        [-0.0832,  0.0975, -0.0726,  ...,  0.0214, -0.0371, -0.0732],
+        [ 0.0901, -0.1206, -0.1197,  ..., -0.0576,  0.1189, -0.0287],
+        ...,
+        [-0.1547, -0.0798,  0.1010,  ...,  0.0405, -0.1804,  0.0007],
+        [ 0.0709, -0.0023, -0.2413,  ..., -0.0579,  0.1300, -0.0256],
+        [-0.1651, -0.1130,  0.0271,  ..., -0.0103, -0.1391, -0.0542]],
+       device='cuda:0'), grad: tensor([[ 1.7695e-08,  2.4214e-08,  1.8626e-09,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 9.3132e-09, -1.5832e-08,  9.3132e-09,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00],
+        [ 2.7940e-09,  9.3132e-09,  1.3970e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  2.0489e-08, -6.5193e-08,  ...,  0.0000e+00,
+          6.5193e-09,  0.0000e+00],
+        [-2.2352e-08,  1.4901e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -6.7055e-08,  0.0000e+00],
+        [ 1.7695e-08,  3.5390e-08,  4.9360e-08,  ...,  0.0000e+00,
+          1.6764e-08,  0.0000e+00]], device='cuda:0')
+Epoch 220, bias, value: tensor([-0.0026,  0.0191, -0.0156,  0.0129,  0.0237, -0.0134, -0.0204, -0.0132,
+        -0.0308, -0.0314], device='cuda:0'), grad: tensor([ 5.8673e-08,  4.4703e-08,  9.6858e-08,  1.0617e-07,  2.3469e-07,
+         1.0617e-07, -5.3179e-07, -3.1106e-07, -9.1270e-08,  2.9989e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 219, time 217.15, cls_loss 0.0014 cls_loss_mapping 0.0028 cls_loss_causal 0.4915 re_mapping 0.0050 re_causal 0.0147 /// teacc 99.01 lr 0.00010000
+Epoch 221, weight, value: tensor([[-0.1902, -0.1156, -0.0765,  ..., -0.0091, -0.0429, -0.0067],
+        [-0.0838,  0.0974, -0.0729,  ...,  0.0214, -0.0374, -0.0732],
+        [ 0.0902, -0.1209, -0.1199,  ..., -0.0576,  0.1190, -0.0287],
+        ...,
+        [-0.1549, -0.0798,  0.1011,  ...,  0.0405, -0.1806,  0.0005],
+        [ 0.0725, -0.0018, -0.2415,  ..., -0.0579,  0.1312, -0.0256],
+        [-0.1666, -0.1131,  0.0270,  ..., -0.0104, -0.1404, -0.0542]],
+       device='cuda:0'), grad: tensor([[-9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [ 4.6566e-09, -1.2107e-08,  2.7940e-09,  ...,  0.0000e+00,
+          2.0489e-08,  0.0000e+00],
+        [ 9.3132e-09,  1.8626e-09,  1.8626e-09,  ...,  0.0000e+00,
+          4.1910e-08,  0.0000e+00],
+        ...,
+        [ 3.7253e-09,  2.2352e-08,  6.5193e-08,  ...,  0.0000e+00,
+          2.7008e-08,  0.0000e+00],
+        [-2.8871e-08,  9.3132e-10,  9.3132e-10,  ...,  0.0000e+00,
+         -2.3283e-08,  0.0000e+00],
+        [ 7.4506e-09,  1.1176e-08, -6.6124e-08,  ...,  0.0000e+00,
+          8.3819e-09,  0.0000e+00]], device='cuda:0')
+Epoch 221, bias, value: tensor([-0.0027,  0.0188, -0.0155,  0.0130,  0.0252, -0.0136, -0.0202, -0.0131,
+        -0.0299, -0.0327], device='cuda:0'), grad: tensor([-1.4333e-06,  1.0710e-07,  2.0675e-07,  1.3690e-07,  5.5879e-09,
+        -2.2724e-07,  1.7323e-07,  4.2003e-07,  1.1176e-08,  5.9884e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 220, time 216.87, cls_loss 0.0014 cls_loss_mapping 0.0030 cls_loss_causal 0.4636 re_mapping 0.0051 re_causal 0.0144 /// teacc 99.01 lr 0.00010000
+Epoch 222, weight, value: tensor([[-0.1912, -0.1161, -0.0765,  ..., -0.0091, -0.0436, -0.0067],
+        [-0.0853,  0.0977, -0.0730,  ...,  0.0214, -0.0379, -0.0732],
+        [ 0.0904, -0.1231, -0.1200,  ..., -0.0576,  0.1192, -0.0287],
+        ...,
+        [-0.1552, -0.0799,  0.1015,  ...,  0.0405, -0.1808,  0.0004],
+        [ 0.0736, -0.0005, -0.2416,  ..., -0.0579,  0.1318, -0.0256],
+        [-0.1676, -0.1141,  0.0267,  ..., -0.0104, -0.1414, -0.0542]],
+       device='cuda:0'), grad: tensor([[ 3.0221e-07,  3.5996e-07,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-09,  0.0000e+00],
+        [ 2.5285e-07,  3.5297e-07,  1.8626e-09,  ...,  0.0000e+00,
+          6.5193e-09,  0.0000e+00],
+        [ 9.7789e-08,  1.7416e-07,  0.0000e+00,  ...,  0.0000e+00,
+         -1.4901e-08,  0.0000e+00],
+        ...,
+        [ 1.7695e-08,  3.2131e-08,  7.4506e-09,  ...,  0.0000e+00,
+          1.2573e-08,  0.0000e+00],
+        [ 4.4480e-06,  3.4142e-06,  2.3283e-09,  ...,  0.0000e+00,
+         -1.4901e-08,  0.0000e+00],
+        [ 1.0198e-07,  8.0094e-08, -2.2817e-08,  ...,  0.0000e+00,
+          6.5193e-09,  0.0000e+00]], device='cuda:0')
+Epoch 222, bias, value: tensor([-0.0028,  0.0187, -0.0159,  0.0132,  0.0259, -0.0136, -0.0202, -0.0124,
+        -0.0289, -0.0342], device='cuda:0'), grad: tensor([-1.1735e-05,  1.0412e-06,  5.4995e-07,  5.6885e-06,  6.9514e-06,
+         2.8446e-05, -4.2677e-05,  2.1607e-07,  1.0662e-05,  8.4471e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 221, time 217.01, cls_loss 0.0016 cls_loss_mapping 0.0028 cls_loss_causal 0.5106 re_mapping 0.0047 re_causal 0.0144 /// teacc 98.98 lr 0.00010000
+Epoch 223, weight, value: tensor([[-1.9172e-01, -1.1634e-01, -7.6547e-02,  ..., -9.1411e-03,
+         -4.3811e-02, -6.7061e-03],
+        [-8.6416e-02,  9.8063e-02, -7.3186e-02,  ...,  2.1414e-02,
+         -3.8688e-02, -7.3246e-02],
+        [ 9.2028e-02, -1.2350e-01, -1.2047e-01,  ..., -5.7849e-02,
+          1.2027e-01, -2.8723e-02],
+        ...,
+        [-1.5560e-01, -8.0108e-02,  1.0180e-01,  ...,  4.1343e-02,
+         -1.8112e-01,  3.5939e-04],
+        [ 7.2655e-02,  4.0799e-05, -2.4182e-01,  ..., -5.7875e-02,
+          1.3152e-01, -2.5795e-02],
+        [-1.6836e-01, -1.1457e-01,  2.6524e-02,  ..., -1.0380e-02,
+         -1.4203e-01, -5.4188e-02]], device='cuda:0'), grad: tensor([[ 1.1502e-07,  2.5751e-07,  6.0536e-09,  ...,  0.0000e+00,
+          2.5611e-08,  0.0000e+00],
+        [ 2.1420e-08, -2.9095e-06,  2.5146e-08,  ...,  0.0000e+00,
+          6.7055e-08,  0.0000e+00],
+        [-2.9476e-07,  8.7544e-08,  7.9162e-09,  ...,  0.0000e+00,
+         -1.9325e-07,  0.0000e+00],
+        ...,
+        [ 9.7789e-09,  6.8778e-07, -3.4925e-08,  ...,  0.0000e+00,
+          7.3574e-08,  0.0000e+00],
+        [ 2.1094e-07,  6.4354e-07,  5.5879e-09,  ...,  0.0000e+00,
+          3.9628e-07,  0.0000e+00],
+        [ 2.9337e-08,  3.7253e-07,  7.8697e-08,  ...,  0.0000e+00,
+          6.5658e-08,  0.0000e+00]], device='cuda:0')
+Epoch 223, bias, value: tensor([-0.0026,  0.0187, -0.0153,  0.0143,  0.0261, -0.0147, -0.0202, -0.0126,
+        -0.0290, -0.0344], device='cuda:0'), grad: tensor([ 9.8813e-07, -5.9381e-06,  1.0990e-07, -1.2908e-06,  2.2203e-06,
+         5.9512e-07, -4.8336e-07,  1.8310e-06,  2.1383e-06, -1.7975e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 222, time 217.12, cls_loss 0.0012 cls_loss_mapping 0.0025 cls_loss_causal 0.4984 re_mapping 0.0046 re_causal 0.0142 /// teacc 99.05 lr 0.00010000
+Epoch 224, weight, value: tensor([[-1.9275e-01, -1.1662e-01, -7.6921e-02,  ..., -9.1412e-03,
+         -4.3634e-02, -6.7061e-03],
+        [-8.6890e-02,  9.8653e-02, -7.2771e-02,  ...,  2.1414e-02,
+         -3.8974e-02, -7.3249e-02],
+        [ 9.2500e-02, -1.2391e-01, -1.2088e-01,  ..., -5.7849e-02,
+          1.2063e-01, -2.8723e-02],
+        ...,
+        [-1.5591e-01, -8.0533e-02,  1.0128e-01,  ...,  4.1343e-02,
+         -1.8133e-01,  3.5666e-04],
+        [ 7.1789e-02, -4.6508e-05, -2.4196e-01,  ..., -5.7875e-02,
+          1.3119e-01, -2.5822e-02],
+        [-1.6939e-01, -1.1496e-01,  2.6472e-02,  ..., -1.0381e-02,
+         -1.4276e-01, -5.4191e-02]], device='cuda:0'), grad: tensor([[ 1.6158e-07,  7.4040e-08,  2.3749e-08,  ...,  0.0000e+00,
+          8.9407e-08,  0.0000e+00],
+        [ 9.8255e-08, -2.4587e-07,  2.0023e-08,  ...,  0.0000e+00,
+          1.0896e-07,  0.0000e+00],
+        [-1.4212e-06,  2.3283e-08, -2.4121e-07,  ...,  0.0000e+00,
+         -8.2795e-07,  0.0000e+00],
+        ...,
+        [ 1.6205e-06,  9.7789e-08,  3.8650e-08,  ...,  0.0000e+00,
+          1.0449e-06,  0.0000e+00],
+        [-8.8708e-07,  5.5414e-08,  3.5390e-08,  ...,  0.0000e+00,
+         -5.9465e-07,  0.0000e+00],
+        [ 3.8650e-08,  3.3528e-08,  1.8626e-08,  ...,  0.0000e+00,
+          3.5996e-07,  0.0000e+00]], device='cuda:0')
+Epoch 224, bias, value: tensor([-0.0025,  0.0189, -0.0150,  0.0142,  0.0264, -0.0144, -0.0202, -0.0131,
+        -0.0297, -0.0345], device='cuda:0'), grad: tensor([ 2.0210e-07,  2.3562e-07, -2.3693e-06, -7.6413e-05,  4.6799e-07,
+         3.6120e-05, -4.1304e-07,  4.1008e-05, -8.8476e-07,  2.1085e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 223, time 216.95, cls_loss 0.0012 cls_loss_mapping 0.0028 cls_loss_causal 0.4873 re_mapping 0.0049 re_causal 0.0145 /// teacc 99.03 lr 0.00010000
+Epoch 225, weight, value: tensor([[-1.9369e-01, -1.1485e-01, -7.7003e-02,  ..., -9.1412e-03,
+         -4.3972e-02, -6.7079e-03],
+        [-8.7865e-02,  9.8752e-02, -7.2720e-02,  ...,  2.1413e-02,
+         -3.9117e-02, -7.3249e-02],
+        [ 9.2882e-02, -1.2418e-01, -1.2092e-01,  ..., -5.7850e-02,
+          1.2090e-01, -2.8723e-02],
+        ...,
+        [-1.5590e-01, -8.0714e-02,  1.0168e-01,  ...,  4.1343e-02,
+         -1.8144e-01,  3.5499e-04],
+        [ 7.2085e-02, -2.0381e-04, -2.4222e-01,  ..., -5.7876e-02,
+          1.3136e-01, -2.5834e-02],
+        [-1.7000e-01, -1.1540e-01,  2.6451e-02,  ..., -1.0384e-02,
+         -1.4327e-01, -5.4193e-02]], device='cuda:0'), grad: tensor([[ 4.3772e-08,  1.4529e-07,  5.1223e-09,  ...,  0.0000e+00,
+          2.6543e-08,  0.0000e+00],
+        [ 2.3702e-07, -1.0185e-05,  1.8161e-08,  ...,  0.0000e+00,
+          2.4308e-07,  0.0000e+00],
+        [ 7.0641e-07,  1.7555e-07,  9.3132e-10,  ...,  0.0000e+00,
+          6.7335e-07,  0.0000e+00],
+        ...,
+        [ 4.3660e-06,  2.5965e-06,  1.0431e-07,  ...,  0.0000e+00,
+          4.7050e-06,  0.0000e+00],
+        [-8.4490e-06,  1.5032e-06,  1.2340e-07,  ...,  0.0000e+00,
+         -8.5756e-06,  0.0000e+00],
+        [ 3.6741e-07,  3.2037e-07, -1.5087e-05,  ...,  0.0000e+00,
+          4.0699e-07,  0.0000e+00]], device='cuda:0')
+Epoch 225, bias, value: tensor([-0.0009,  0.0189, -0.0148,  0.0143,  0.0263, -0.0145, -0.0219, -0.0131,
+        -0.0298, -0.0346], device='cuda:0'), grad: tensor([ 1.3113e-06, -2.3454e-05,  2.5444e-06,  1.7900e-06,  9.6500e-05,
+         6.9737e-06,  1.1493e-06,  2.1398e-05, -2.0117e-05, -8.8215e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 224, time 216.76, cls_loss 0.0011 cls_loss_mapping 0.0020 cls_loss_causal 0.5009 re_mapping 0.0045 re_causal 0.0144 /// teacc 98.97 lr 0.00010000
+Epoch 226, weight, value: tensor([[-1.9546e-01, -1.1545e-01, -7.7046e-02,  ..., -9.1376e-03,
+         -4.4513e-02, -6.7080e-03],
+        [-8.8140e-02,  9.9137e-02, -7.2634e-02,  ...,  2.1413e-02,
+         -3.9199e-02, -7.3249e-02],
+        [ 9.3353e-02, -1.2451e-01, -1.2082e-01,  ..., -5.7850e-02,
+          1.2119e-01, -2.8723e-02],
+        ...,
+        [-1.5628e-01, -8.0968e-02,  1.0176e-01,  ...,  4.1343e-02,
+         -1.8174e-01,  3.5491e-04],
+        [ 7.2746e-02, -2.0172e-04, -2.4237e-01,  ..., -5.7876e-02,
+          1.3180e-01, -2.5838e-02],
+        [-1.7053e-01, -1.1573e-01,  2.6105e-02,  ..., -1.0386e-02,
+         -1.4377e-01, -5.4193e-02]], device='cuda:0'), grad: tensor([[ 8.7079e-08,  9.1735e-08,  1.1595e-07,  ...,  0.0000e+00,
+          6.5193e-09,  0.0000e+00],
+        [ 3.5856e-08, -6.0536e-08,  3.1386e-07,  ...,  0.0000e+00,
+          7.9162e-09,  0.0000e+00],
+        [ 2.1886e-08,  6.0536e-08,  1.8673e-07,  ...,  0.0000e+00,
+         -2.1886e-08,  0.0000e+00],
+        ...,
+        [ 2.2352e-08,  1.1036e-07, -3.2932e-05,  ...,  0.0000e+00,
+          1.4435e-08,  0.0000e+00],
+        [ 1.2387e-07,  1.3877e-07,  1.0943e-07,  ...,  0.0000e+00,
+         -7.1712e-08,  0.0000e+00],
+        [ 4.5635e-08,  1.2713e-07,  3.1918e-05,  ...,  0.0000e+00,
+          2.3283e-08,  0.0000e+00]], device='cuda:0')
+Epoch 226, bias, value: tensor([-0.0011,  0.0190, -0.0144,  0.0144,  0.0264, -0.0142, -0.0229, -0.0133,
+        -0.0295, -0.0348], device='cuda:0'), grad: tensor([ 1.5227e-07,  1.5907e-06,  1.0282e-06,  2.0377e-06,  7.9488e-07,
+        -2.2687e-06,  2.4633e-07, -1.7726e-04,  1.2796e-06,  1.7214e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 225, time 217.01, cls_loss 0.0013 cls_loss_mapping 0.0026 cls_loss_causal 0.4990 re_mapping 0.0046 re_causal 0.0141 /// teacc 98.85 lr 0.00010000
+Epoch 227, weight, value: tensor([[-0.1968, -0.1170, -0.0771,  ..., -0.0091, -0.0448, -0.0067],
+        [-0.0903,  0.0979, -0.0728,  ...,  0.0214, -0.0393, -0.0732],
+        [ 0.0934, -0.1248, -0.1215,  ..., -0.0579,  0.1212, -0.0287],
+        ...,
+        [-0.1564, -0.0802,  0.1019,  ...,  0.0413, -0.1820,  0.0004],
+        [ 0.0754,  0.0010, -0.2427,  ..., -0.0579,  0.1336, -0.0258],
+        [-0.1717, -0.1163,  0.0259,  ..., -0.0104, -0.1440, -0.0542]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-09,  3.8883e-07,  2.4447e-07,  ...,  0.0000e+00,
+          1.2107e-08,  0.0000e+00],
+        [ 8.3819e-09,  1.5832e-08,  5.6904e-07,  ...,  0.0000e+00,
+          3.2596e-08,  0.0000e+00],
+        [ 8.8476e-09,  4.7823e-07,  3.5437e-07,  ...,  0.0000e+00,
+          5.7276e-08,  0.0000e+00],
+        ...,
+        [ 5.5879e-09,  1.1884e-06, -9.0804e-07,  ...,  0.0000e+00,
+          4.3306e-08,  0.0000e+00],
+        [-9.1270e-08,  1.6578e-07,  1.3318e-07,  ...,  0.0000e+00,
+         -1.1409e-07,  0.0000e+00],
+        [ 2.4680e-08,  4.7266e-05,  5.2482e-05,  ...,  0.0000e+00,
+          3.2131e-08,  0.0000e+00]], device='cuda:0')
+Epoch 227, bias, value: tensor([-0.0019,  0.0181, -0.0147,  0.0142,  0.0266, -0.0148, -0.0204, -0.0127,
+        -0.0275, -0.0349], device='cuda:0'), grad: tensor([ 2.1104e-06,  2.7809e-06,  2.5127e-06,  2.0526e-06, -3.1734e-04,
+        -4.2329e-07,  1.7639e-06, -8.4564e-06,  1.1157e-06,  3.1352e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 226, time 216.75, cls_loss 0.0026 cls_loss_mapping 0.0043 cls_loss_causal 0.5290 re_mapping 0.0050 re_causal 0.0144 /// teacc 98.93 lr 0.00010000
+Epoch 228, weight, value: tensor([[-0.2001, -0.1187, -0.0773,  ..., -0.0088, -0.0453, -0.0067],
+        [-0.0895,  0.0990, -0.0737,  ...,  0.0214, -0.0393, -0.0732],
+        [ 0.0935, -0.1267, -0.1236,  ..., -0.0579,  0.1217, -0.0287],
+        ...,
+        [-0.1569, -0.0804,  0.1011,  ...,  0.0413, -0.1825,  0.0004],
+        [ 0.0758, -0.0009, -0.2467,  ..., -0.0580,  0.1344, -0.0258],
+        [-0.1707, -0.1192,  0.0261,  ..., -0.0105, -0.1451, -0.0542]],
+       device='cuda:0'), grad: tensor([[ 3.2037e-07,  7.4040e-08,  1.3970e-09,  ...,  0.0000e+00,
+          3.9814e-07,  0.0000e+00],
+        [ 8.9873e-08, -1.1921e-07, -1.9092e-08,  ...,  0.0000e+00,
+          1.2340e-07,  0.0000e+00],
+        [-7.7337e-06,  3.7719e-08,  7.9162e-09,  ...,  0.0000e+00,
+         -1.0557e-05,  0.0000e+00],
+        ...,
+        [ 4.4070e-06,  5.3085e-08,  1.0245e-08,  ...,  0.0000e+00,
+          5.9791e-06,  0.0000e+00],
+        [ 2.5630e-06,  8.8476e-09,  9.7789e-09,  ...,  0.0000e+00,
+          3.4571e-06,  0.0000e+00],
+        [ 6.7055e-08,  1.0757e-07,  1.0245e-08,  ...,  0.0000e+00,
+          8.4750e-08,  0.0000e+00]], device='cuda:0')
+Epoch 228, bias, value: tensor([-0.0004,  0.0183, -0.0153,  0.0131,  0.0282, -0.0149, -0.0219, -0.0142,
+        -0.0287, -0.0336], device='cuda:0'), grad: tensor([ 1.1381e-06, -1.1176e-08, -2.3201e-05,  9.4622e-07,  1.3597e-07,
+         1.2247e-07, -4.7917e-07,  1.3329e-05,  7.7188e-06,  2.7008e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 227, time 216.67, cls_loss 0.0014 cls_loss_mapping 0.0029 cls_loss_causal 0.5022 re_mapping 0.0050 re_causal 0.0150 /// teacc 99.08 lr 0.00010000
+Epoch 229, weight, value: tensor([[-0.2007, -0.1193, -0.0774,  ..., -0.0088, -0.0462, -0.0066],
+        [-0.0895,  0.0978, -0.0759,  ...,  0.0214, -0.0396, -0.0733],
+        [ 0.0942, -0.1277, -0.1236,  ..., -0.0579,  0.1223, -0.0287],
+        ...,
+        [-0.1575, -0.0791,  0.1022,  ...,  0.0413, -0.1831,  0.0004],
+        [ 0.0766, -0.0011, -0.2472,  ..., -0.0580,  0.1347, -0.0258],
+        [-0.1737, -0.1203,  0.0259,  ..., -0.0105, -0.1459, -0.0542]],
+       device='cuda:0'), grad: tensor([[ 2.1979e-06,  1.5527e-05,  1.3830e-07,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00],
+        [ 8.0559e-08, -6.5193e-09,  6.2864e-08,  ...,  0.0000e+00,
+          9.0804e-08,  0.0000e+00],
+        [-1.5227e-07,  3.2736e-07,  9.4529e-08,  ...,  0.0000e+00,
+         -2.4308e-07,  0.0000e+00],
+        ...,
+        [ 7.9162e-09,  2.6543e-07,  3.7253e-09,  ...,  0.0000e+00,
+          3.5856e-08,  0.0000e+00],
+        [-6.9849e-09,  1.7416e-07,  1.5367e-08,  ...,  0.0000e+00,
+         -1.2107e-08,  0.0000e+00],
+        [ 2.3283e-08,  2.6636e-06,  1.4259e-06,  ...,  0.0000e+00,
+          1.5832e-08,  0.0000e+00]], device='cuda:0')
+Epoch 229, bias, value: tensor([-0.0004,  0.0168, -0.0150,  0.0129,  0.0284, -0.0148, -0.0218, -0.0128,
+        -0.0283, -0.0340], device='cuda:0'), grad: tensor([ 3.4273e-05,  4.2375e-07,  5.0012e-07,  3.1851e-07, -1.2435e-05,
+         1.1148e-06, -3.3796e-05,  5.9186e-07,  3.9116e-07,  8.6203e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 228, time 216.69, cls_loss 0.0016 cls_loss_mapping 0.0030 cls_loss_causal 0.4910 re_mapping 0.0050 re_causal 0.0142 /// teacc 99.07 lr 0.00010000
+Epoch 230, weight, value: tensor([[-0.2012, -0.1199, -0.0775,  ..., -0.0088, -0.0465, -0.0066],
+        [-0.0918,  0.0984, -0.0763,  ...,  0.0214, -0.0388, -0.0733],
+        [ 0.0944, -0.1285, -0.1244,  ..., -0.0579,  0.1226, -0.0287],
+        ...,
+        [-0.1577, -0.0791,  0.1027,  ...,  0.0413, -0.1834,  0.0003],
+        [ 0.0774, -0.0012, -0.2476,  ..., -0.0581,  0.1342, -0.0259],
+        [-0.1744, -0.1206,  0.0253,  ..., -0.0105, -0.1469, -0.0542]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-08,  1.3039e-08,  1.3039e-08,  ...,  0.0000e+00,
+         -1.2573e-08,  0.0000e+00],
+        [ 6.9384e-08, -1.0571e-07,  1.5972e-07,  ...,  0.0000e+00,
+          6.9849e-09,  0.0000e+00],
+        [-3.2596e-09,  6.9849e-09,  9.5926e-08,  ...,  0.0000e+00,
+         -2.5611e-08,  0.0000e+00],
+        ...,
+        [ 6.5193e-09,  9.2667e-08, -7.4413e-07,  ...,  0.0000e+00,
+          8.3819e-09,  0.0000e+00],
+        [ 5.8999e-07,  1.1409e-07,  6.5193e-09,  ...,  0.0000e+00,
+          3.5390e-08,  0.0000e+00],
+        [ 4.7032e-08,  1.0245e-08, -3.7253e-09,  ...,  0.0000e+00,
+          1.8626e-08,  0.0000e+00]], device='cuda:0')
+Epoch 230, bias, value: tensor([-0.0004,  0.0172, -0.0151,  0.0124,  0.0285, -0.0138, -0.0222, -0.0127,
+        -0.0296, -0.0343], device='cuda:0'), grad: tensor([ 1.8161e-08,  1.0151e-06,  6.0489e-07,  2.8461e-06,  5.3784e-07,
+        -1.9930e-06,  1.9092e-07, -3.7886e-06,  1.4501e-06, -8.8802e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 229, time 216.68, cls_loss 0.0012 cls_loss_mapping 0.0020 cls_loss_causal 0.5045 re_mapping 0.0050 re_causal 0.0148 /// teacc 99.10 lr 0.00010000
+Epoch 231, weight, value: tensor([[-0.2015, -0.1202, -0.0775,  ..., -0.0088, -0.0465, -0.0064],
+        [-0.0920,  0.0987, -0.0764,  ...,  0.0214, -0.0385, -0.0733],
+        [ 0.0945, -0.1290, -0.1251,  ..., -0.0580,  0.1226, -0.0288],
+        ...,
+        [-0.1578, -0.0792,  0.1031,  ...,  0.0413, -0.1833,  0.0003],
+        [ 0.0778, -0.0017, -0.2479,  ..., -0.0582,  0.1342, -0.0259],
+        [-0.1748, -0.1212,  0.0252,  ..., -0.0106, -0.1476, -0.0542]],
+       device='cuda:0'), grad: tensor([[ 2.0489e-08,  5.8673e-08,  5.1223e-09,  ...,  0.0000e+00,
+         -1.9558e-08,  0.0000e+00],
+        [ 8.8476e-09, -1.2480e-07,  1.7695e-08,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [ 2.6543e-08,  6.2864e-08,  4.6566e-09,  ...,  0.0000e+00,
+          6.0070e-08,  0.0000e+00],
+        ...,
+        [ 4.1910e-09,  1.5972e-07,  4.9360e-08,  ...,  0.0000e+00,
+          1.6298e-08,  0.0000e+00],
+        [-1.3970e-08,  8.8476e-09,  2.8918e-07,  ...,  0.0000e+00,
+         -4.3772e-08,  0.0000e+00],
+        [ 2.1886e-08,  6.6590e-08, -5.5134e-07,  ...,  0.0000e+00,
+          2.5146e-08,  0.0000e+00]], device='cuda:0')
+Epoch 231, bias, value: tensor([-0.0002,  0.0172, -0.0158,  0.0121,  0.0283, -0.0136, -0.0220, -0.0125,
+        -0.0299, -0.0345], device='cuda:0'), grad: tensor([-5.1688e-08,  5.5879e-08,  2.5379e-07,  2.6543e-07,  1.1642e-07,
+         8.5402e-07, -1.8487e-07,  6.9477e-07,  2.8331e-06, -4.8392e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 230----------------------------------------------------
+epoch 230, time 217.75, cls_loss 0.0012 cls_loss_mapping 0.0020 cls_loss_causal 0.4993 re_mapping 0.0049 re_causal 0.0149 /// teacc 99.16 lr 0.00010000
+Epoch 232, weight, value: tensor([[-0.2018, -0.1202, -0.0776,  ..., -0.0088, -0.0451, -0.0064],
+        [-0.0921,  0.0989, -0.0764,  ...,  0.0214, -0.0386, -0.0733],
+        [ 0.0948, -0.1292, -0.1254,  ..., -0.0580,  0.1229, -0.0288],
+        ...,
+        [-0.1579, -0.0793,  0.1032,  ...,  0.0413, -0.1835,  0.0003],
+        [ 0.0778, -0.0017, -0.2483,  ..., -0.0582,  0.1342, -0.0259],
+        [-0.1751, -0.1215,  0.0253,  ..., -0.0106, -0.1477, -0.0542]],
+       device='cuda:0'), grad: tensor([[ 1.4435e-08,  1.5739e-07,  1.8626e-09,  ...,  0.0000e+00,
+          9.0338e-08,  0.0000e+00],
+        [ 1.6298e-08, -2.7101e-06,  6.9849e-09,  ...,  0.0000e+00,
+         -1.2182e-06,  0.0000e+00],
+        [-6.8080e-07,  2.7800e-07,  1.8626e-09,  ...,  0.0000e+00,
+         -9.5926e-07,  0.0000e+00],
+        ...,
+        [ 5.0804e-07,  1.0626e-06,  1.5832e-08,  ...,  0.0000e+00,
+          1.2089e-06,  0.0000e+00],
+        [ 2.0489e-08,  2.7195e-07,  1.1642e-08,  ...,  0.0000e+00,
+          1.2619e-07,  0.0000e+00],
+        [ 2.7940e-09,  5.5656e-06,  4.5029e-07,  ...,  0.0000e+00,
+          2.7474e-08,  0.0000e+00]], device='cuda:0')
+Epoch 232, bias, value: tensor([-0.0038,  0.0173, -0.0159,  0.0124,  0.0282, -0.0142, -0.0183, -0.0125,
+        -0.0302, -0.0343], device='cuda:0'), grad: tensor([ 2.9011e-07, -5.6699e-06, -1.3374e-06,  4.8662e-07, -1.8954e-05,
+         6.2864e-08,  1.4100e-06,  3.8128e-06,  7.4599e-07,  1.9163e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 231, time 216.69, cls_loss 0.0013 cls_loss_mapping 0.0027 cls_loss_causal 0.4581 re_mapping 0.0046 re_causal 0.0132 /// teacc 99.07 lr 0.00010000
+Epoch 233, weight, value: tensor([[-2.0201e-01, -1.2037e-01, -7.7646e-02,  ..., -8.7844e-03,
+         -4.5422e-02, -9.0024e-03],
+        [-9.3186e-02,  9.9006e-02, -7.6731e-02,  ...,  2.1394e-02,
+         -3.9342e-02, -7.4775e-02],
+        [ 9.5471e-02, -1.2995e-01, -1.2572e-01,  ..., -5.7978e-02,
+          1.2297e-01, -2.9387e-02],
+        ...,
+        [-1.5811e-01, -7.9166e-02,  1.0350e-01,  ...,  4.1264e-02,
+         -1.8370e-01,  4.0327e-05],
+        [ 7.7648e-02, -1.8562e-03, -2.4880e-01,  ..., -5.8184e-02,
+          1.3367e-01, -2.6239e-02],
+        [-1.7543e-01, -1.2281e-01,  2.5206e-02,  ..., -1.0605e-02,
+         -1.4874e-01, -5.7162e-02]], device='cuda:0'), grad: tensor([[ 1.2573e-08,  1.8161e-08,  4.0047e-08,  ...,  0.0000e+00,
+          2.3283e-09,  0.0000e+00],
+        [ 7.4506e-09, -4.7963e-08,  1.1874e-07,  ...,  0.0000e+00,
+          2.3283e-09,  0.0000e+00],
+        [ 1.3039e-08,  6.0536e-09,  1.0058e-07,  ...,  0.0000e+00,
+          2.5611e-08,  0.0000e+00],
+        ...,
+        [ 1.0710e-08,  7.1712e-08, -9.4017e-07,  ...,  0.0000e+00,
+          4.6566e-09,  0.0000e+00],
+        [ 6.5193e-09,  6.5193e-09,  4.7032e-08,  ...,  0.0000e+00,
+         -4.3772e-08,  0.0000e+00],
+        [ 4.5169e-08,  5.2387e-07,  6.5193e-07,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 233, bias, value: tensor([-0.0039,  0.0171, -0.0164,  0.0125,  0.0284, -0.0138, -0.0182, -0.0123,
+        -0.0306, -0.0345], device='cuda:0'), grad: tensor([-3.6731e-06,  6.9570e-07,  6.3563e-07,  4.3474e-06, -4.1351e-07,
+        -3.8296e-06,  3.4226e-07, -4.7423e-06,  7.1479e-07,  5.9120e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 232, time 216.66, cls_loss 0.0014 cls_loss_mapping 0.0019 cls_loss_causal 0.5138 re_mapping 0.0046 re_causal 0.0138 /// teacc 99.06 lr 0.00010000
+Epoch 234, weight, value: tensor([[-2.0226e-01, -1.2351e-01, -8.0257e-02,  ..., -8.7699e-03,
+         -4.5734e-02, -8.9966e-03],
+        [-9.3510e-02,  9.8953e-02, -7.7203e-02,  ...,  2.1389e-02,
+         -3.9628e-02, -7.4790e-02],
+        [ 9.5965e-02, -1.3012e-01, -1.2584e-01,  ..., -5.7994e-02,
+          1.2340e-01, -2.9394e-02],
+        ...,
+        [-1.5835e-01, -7.9040e-02,  1.0491e-01,  ...,  4.1248e-02,
+         -1.8400e-01,  1.7539e-05],
+        [ 7.8122e-02, -1.6745e-03, -2.4931e-01,  ..., -5.8231e-02,
+          1.3444e-01, -2.6393e-02],
+        [-1.7704e-01, -1.2352e-01,  2.4784e-02,  ..., -1.0625e-02,
+         -1.5182e-01, -5.7191e-02]], device='cuda:0'), grad: tensor([[ 5.1223e-09,  1.3039e-08,  1.8626e-09,  ...,  0.0000e+00,
+          8.3819e-09,  0.0000e+00],
+        [ 5.5879e-09, -1.1548e-07,  7.4506e-09,  ...,  0.0000e+00,
+          4.8894e-08,  0.0000e+00],
+        [-1.0710e-08,  7.4506e-09,  9.3132e-09,  ...,  0.0000e+00,
+         -7.6834e-08,  0.0000e+00],
+        ...,
+        [ 2.7940e-09,  6.2399e-08, -4.4703e-08,  ...,  0.0000e+00,
+          4.6100e-08,  0.0000e+00],
+        [-2.3749e-08,  1.7695e-08,  3.1665e-08,  ...,  0.0000e+00,
+         -8.3819e-09,  0.0000e+00],
+        [ 1.3970e-09,  7.9162e-09,  7.4273e-07,  ...,  0.0000e+00,
+          2.5146e-08,  0.0000e+00]], device='cuda:0')
+Epoch 234, bias, value: tensor([-0.0046,  0.0169, -0.0159,  0.0143,  0.0282, -0.0154, -0.0175, -0.0121,
+        -0.0301, -0.0350], device='cuda:0'), grad: tensor([ 2.3283e-08,  5.8673e-08,  8.3819e-09, -1.6633e-06, -4.6566e-06,
+         1.1846e-06, -1.7695e-08,  3.3621e-07,  3.4692e-07,  4.3623e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 233, time 216.56, cls_loss 0.0014 cls_loss_mapping 0.0025 cls_loss_causal 0.5133 re_mapping 0.0045 re_causal 0.0135 /// teacc 99.06 lr 0.00010000
+Epoch 235, weight, value: tensor([[-2.0250e-01, -1.2347e-01, -8.0417e-02,  ..., -6.3677e-03,
+         -4.5952e-02, -9.0058e-03],
+        [-9.3955e-02,  9.9016e-02, -7.7663e-02,  ...,  2.1359e-02,
+         -3.9723e-02, -7.4799e-02],
+        [ 9.6321e-02, -1.3017e-01, -1.2754e-01,  ..., -5.8051e-02,
+          1.2341e-01, -2.9399e-02],
+        ...,
+        [-1.5846e-01, -7.9080e-02,  1.0596e-01,  ...,  4.1202e-02,
+         -1.8396e-01,  5.0989e-06],
+        [ 7.8248e-02, -1.6715e-03, -2.5104e-01,  ..., -5.8936e-02,
+          1.3462e-01, -2.6856e-02],
+        [-1.7723e-01, -1.2394e-01,  2.4714e-02,  ..., -1.1414e-02,
+         -1.5239e-01, -5.7205e-02]], device='cuda:0'), grad: tensor([[ 5.1223e-09,  5.5879e-09,  8.8476e-09,  ...,  0.0000e+00,
+          1.2573e-08,  0.0000e+00],
+        [ 2.0023e-08,  2.4214e-08,  4.1910e-08,  ...,  0.0000e+00,
+          3.6787e-08,  0.0000e+00],
+        [-1.9558e-08,  9.3132e-09,  5.6345e-08,  ...,  0.0000e+00,
+         -6.1467e-08,  0.0000e+00],
+        ...,
+        [ 2.1886e-08,  1.6298e-08, -2.0955e-07,  ...,  0.0000e+00,
+          8.0094e-08,  0.0000e+00],
+        [ 1.3970e-09, -7.1246e-08,  6.9849e-08,  ...,  0.0000e+00,
+         -1.4761e-07,  0.0000e+00],
+        [ 1.5832e-08,  3.2037e-07,  1.6904e-07,  ...,  0.0000e+00,
+          1.1921e-07,  0.0000e+00]], device='cuda:0')
+Epoch 235, bias, value: tensor([-0.0045,  0.0169, -0.0160,  0.0145,  0.0279, -0.0155, -0.0177, -0.0119,
+        -0.0305, -0.0347], device='cuda:0'), grad: tensor([ 1.2806e-07,  4.7917e-07,  2.3283e-07,  3.4496e-06, -3.1758e-07,
+        -6.6012e-06,  1.8347e-07, -4.3539e-07,  7.6601e-07,  2.1160e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 234, time 216.61, cls_loss 0.0010 cls_loss_mapping 0.0019 cls_loss_causal 0.4837 re_mapping 0.0044 re_causal 0.0140 /// teacc 99.05 lr 0.00010000
+Epoch 236, weight, value: tensor([[-2.0263e-01, -1.2349e-01, -8.0480e-02,  ..., -6.3021e-03,
+         -4.6115e-02, -8.9909e-03],
+        [-9.4003e-02,  9.9172e-02, -7.7449e-02,  ...,  2.1357e-02,
+         -3.9836e-02, -7.4799e-02],
+        [ 9.6463e-02, -1.3035e-01, -1.2781e-01,  ..., -5.8055e-02,
+          1.2342e-01, -2.9422e-02],
+        ...,
+        [-1.5857e-01, -7.9195e-02,  1.0559e-01,  ...,  4.1197e-02,
+         -1.8417e-01,  5.0957e-06],
+        [ 7.8250e-02, -1.7065e-03, -2.5154e-01,  ..., -5.9139e-02,
+          1.3476e-01, -2.6907e-02],
+        [-1.7751e-01, -1.2478e-01,  2.4670e-02,  ..., -1.1502e-02,
+         -1.5271e-01, -5.7208e-02]], device='cuda:0'), grad: tensor([[ 3.3528e-08,  1.3039e-08,  1.3039e-08,  ...,  0.0000e+00,
+          4.0978e-08,  0.0000e+00],
+        [ 3.5390e-08, -3.2131e-08,  1.7369e-07,  ...,  0.0000e+00,
+          5.6345e-08,  0.0000e+00],
+        [-1.7649e-07,  2.8871e-08,  2.3656e-07,  ...,  0.0000e+00,
+         -2.3283e-07,  0.0000e+00],
+        ...,
+        [ 2.2817e-08,  7.5903e-08, -7.6890e-06,  ...,  0.0000e+00,
+          5.4017e-08,  0.0000e+00],
+        [-7.5437e-08, -2.8871e-08,  1.5367e-08,  ...,  0.0000e+00,
+         -4.8429e-08,  0.0000e+00],
+        [ 1.3039e-08,  2.5844e-07,  7.1749e-06,  ...,  0.0000e+00,
+          2.7940e-08,  0.0000e+00]], device='cuda:0')
+Epoch 236, bias, value: tensor([-0.0045,  0.0169, -0.0161,  0.0146,  0.0281, -0.0155, -0.0177, -0.0120,
+        -0.0307, -0.0347], device='cuda:0'), grad: tensor([-1.2042e-06,  6.5612e-07,  5.6531e-07,  6.7009e-07, -1.2303e-06,
+         3.7579e-07,  1.6605e-06, -2.1115e-05, -1.6345e-07,  1.9804e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 235, time 216.40, cls_loss 0.0015 cls_loss_mapping 0.0028 cls_loss_causal 0.4984 re_mapping 0.0044 re_causal 0.0136 /// teacc 99.07 lr 0.00010000
+Epoch 237, weight, value: tensor([[-2.0321e-01, -1.2347e-01, -8.2093e-02,  ..., -6.3280e-03,
+         -4.5097e-02, -8.9909e-03],
+        [-9.4333e-02,  9.9276e-02, -7.7870e-02,  ...,  2.1352e-02,
+         -4.0150e-02, -7.4799e-02],
+        [ 9.6589e-02, -1.3078e-01, -1.2867e-01,  ..., -5.8367e-02,
+          1.2354e-01, -2.9422e-02],
+        ...,
+        [-1.5877e-01, -7.9261e-02,  1.0308e-01,  ...,  4.1712e-02,
+         -1.8478e-01,  5.0957e-06],
+        [ 7.9485e-02, -1.6296e-03, -2.5178e-01,  ..., -5.9288e-02,
+          1.3614e-01, -2.6907e-02],
+        [-1.7797e-01, -1.2521e-01,  2.7008e-02,  ..., -1.1514e-02,
+         -1.5349e-01, -5.7208e-02]], device='cuda:0'), grad: tensor([[ 2.7940e-09, -2.6673e-06, -3.9227e-06,  ...,  0.0000e+00,
+          9.3132e-09,  0.0000e+00],
+        [ 1.0710e-08,  3.6787e-07,  5.6345e-08,  ...,  0.0000e+00,
+          2.7008e-08,  0.0000e+00],
+        [-3.5856e-08,  2.6077e-07,  2.1094e-07,  ...,  0.0000e+00,
+         -5.4017e-08,  0.0000e+00],
+        ...,
+        [ 4.6566e-09, -1.8515e-06, -3.7719e-08,  ...,  0.0000e+00,
+          2.2352e-08,  0.0000e+00],
+        [ 5.4017e-08,  9.9279e-07,  6.8452e-08,  ...,  0.0000e+00,
+          4.3306e-08,  0.0000e+00],
+        [ 2.7940e-09,  1.1651e-06,  8.1211e-07,  ...,  0.0000e+00,
+          1.7695e-08,  0.0000e+00]], device='cuda:0')
+Epoch 237, bias, value: tensor([-0.0044,  0.0168, -0.0162,  0.0152,  0.0283, -0.0163, -0.0181, -0.0129,
+        -0.0300, -0.0328], device='cuda:0'), grad: tensor([-3.1590e-05,  3.9279e-05,  7.8157e-06,  1.0552e-06, -2.7753e-06,
+         1.5832e-07,  3.0503e-05, -9.1851e-05,  3.8594e-05,  8.8736e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 236, time 216.40, cls_loss 0.0013 cls_loss_mapping 0.0024 cls_loss_causal 0.4777 re_mapping 0.0046 re_causal 0.0134 /// teacc 98.96 lr 0.00010000
+Epoch 238, weight, value: tensor([[-2.0351e-01, -1.2342e-01, -8.1754e-02,  ..., -3.4160e-03,
+         -4.5143e-02, -8.7210e-03],
+        [-9.4862e-02,  9.9336e-02, -7.8725e-02,  ...,  2.1342e-02,
+         -4.0585e-02, -7.4801e-02],
+        [ 9.6773e-02, -1.3153e-01, -1.3067e-01,  ..., -5.8373e-02,
+          1.2364e-01, -2.9429e-02],
+        ...,
+        [-1.5890e-01, -7.9269e-02,  1.0322e-01,  ...,  4.1707e-02,
+         -1.8524e-01,  3.0746e-06],
+        [ 7.9480e-02, -1.5260e-03, -2.5286e-01,  ..., -5.9337e-02,
+          1.3664e-01, -2.6986e-02],
+        [-1.7809e-01, -1.2534e-01,  2.6637e-02,  ..., -1.1600e-02,
+         -1.5409e-01, -5.7228e-02]], device='cuda:0'), grad: tensor([[ 7.7300e-08,  2.3283e-08,  5.5879e-09,  ...,  0.0000e+00,
+          7.2643e-08,  0.0000e+00],
+        [ 2.3749e-08, -7.6368e-08,  1.3039e-08,  ...,  0.0000e+00,
+          4.6100e-08,  0.0000e+00],
+        [ 1.1409e-07,  8.3819e-09,  1.0245e-08,  ...,  0.0000e+00,
+         -6.1002e-08,  0.0000e+00],
+        ...,
+        [ 2.8498e-07,  4.7497e-08,  1.0524e-07,  ...,  0.0000e+00,
+          3.3900e-07,  0.0000e+00],
+        [-9.6671e-07,  1.0710e-08,  3.0734e-08,  ...,  0.0000e+00,
+         -1.1688e-06,  0.0000e+00],
+        [ 2.7707e-07,  5.7742e-08, -3.8557e-06,  ...,  0.0000e+00,
+          3.1386e-07,  0.0000e+00]], device='cuda:0')
+Epoch 238, bias, value: tensor([-0.0043,  0.0167, -0.0165,  0.0154,  0.0288, -0.0162, -0.0183, -0.0129,
+        -0.0301, -0.0329], device='cuda:0'), grad: tensor([-1.3988e-06,  6.8918e-08,  2.1094e-07,  9.4390e-07, -2.9290e-07,
+         2.2367e-05, -9.5218e-06,  1.6084e-06, -2.6692e-06, -1.1332e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 237, time 216.31, cls_loss 0.0012 cls_loss_mapping 0.0022 cls_loss_causal 0.4996 re_mapping 0.0046 re_causal 0.0138 /// teacc 98.90 lr 0.00010000
+Epoch 239, weight, value: tensor([[-0.2039, -0.1234, -0.0817,  ..., -0.0034, -0.0451, -0.0118],
+        [-0.0950,  0.1000, -0.0761,  ...,  0.0213, -0.0408, -0.0764],
+        [ 0.0974, -0.1319, -0.1307,  ..., -0.0584,  0.1242, -0.0299],
+        ...,
+        [-0.1590, -0.0799,  0.1018,  ...,  0.0417, -0.1855, -0.0003],
+        [ 0.0792, -0.0015, -0.2535,  ..., -0.0594,  0.1365, -0.0274],
+        [-0.1786, -0.1256,  0.0271,  ..., -0.0116, -0.1544, -0.0597]],
+       device='cuda:0'), grad: tensor([[ 4.7497e-08,  8.6147e-08,  5.1223e-09,  ...,  0.0000e+00,
+          2.4214e-08,  0.0000e+00],
+        [ 5.6764e-07,  1.3206e-06,  1.7462e-07,  ...,  0.0000e+00,
+          3.3528e-08,  0.0000e+00],
+        [ 4.8056e-07,  2.0117e-07,  3.9628e-07,  ...,  0.0000e+00,
+          1.8114e-07,  0.0000e+00],
+        ...,
+        [-4.8196e-07,  8.3353e-08, -6.5379e-07,  ...,  0.0000e+00,
+          8.8010e-08,  0.0000e+00],
+        [-4.6100e-07, -5.2154e-08,  9.7789e-09,  ...,  0.0000e+00,
+         -1.0887e-06,  4.6566e-10],
+        [ 1.1595e-07,  2.1420e-07, -1.9558e-08,  ...,  0.0000e+00,
+          1.1269e-07,  0.0000e+00]], device='cuda:0')
+Epoch 239, bias, value: tensor([-0.0042,  0.0168, -0.0161,  0.0154,  0.0286, -0.0163, -0.0183, -0.0132,
+        -0.0304, -0.0324], device='cuda:0'), grad: tensor([-6.2492e-07,  2.5481e-06,  2.3413e-06,  9.2313e-06,  1.6671e-07,
+        -8.2403e-06, -1.6000e-06, -2.5108e-06, -1.7621e-06,  4.8848e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 238, time 216.48, cls_loss 0.0012 cls_loss_mapping 0.0021 cls_loss_causal 0.5012 re_mapping 0.0048 re_causal 0.0138 /// teacc 98.99 lr 0.00010000
+Epoch 240, weight, value: tensor([[-0.2042, -0.1235, -0.0818,  ..., -0.0034, -0.0455, -0.0118],
+        [-0.0950,  0.1003, -0.0763,  ...,  0.0213, -0.0407, -0.0764],
+        [ 0.0976, -0.1324, -0.1313,  ..., -0.0584,  0.1243, -0.0299],
+        ...,
+        [-0.1592, -0.0802,  0.1019,  ...,  0.0417, -0.1858, -0.0003],
+        [ 0.0791, -0.0018, -0.2546,  ..., -0.0594,  0.1365, -0.0274],
+        [-0.1787, -0.1262,  0.0271,  ..., -0.0116, -0.1545, -0.0597]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  8.8476e-09,  2.7474e-08,  ...,  0.0000e+00,
+          4.6566e-09,  0.0000e+00],
+        [ 4.6566e-10, -6.2864e-08,  2.5518e-07,  ...,  0.0000e+00,
+          5.1223e-09,  0.0000e+00],
+        [-3.7253e-09,  3.6322e-08,  3.3062e-08,  ...,  0.0000e+00,
+         -1.0710e-08,  0.0000e+00],
+        ...,
+        [ 1.3970e-09,  1.9930e-07, -6.8173e-07,  ...,  0.0000e+00,
+          4.0978e-08,  0.0000e+00],
+        [-6.5193e-09,  3.6322e-08,  2.6543e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  3.2736e-07,  6.3842e-07,  ...,  0.0000e+00,
+          1.6298e-08,  0.0000e+00]], device='cuda:0')
+Epoch 240, bias, value: tensor([-0.0042,  0.0172, -0.0162,  0.0151,  0.0288, -0.0160, -0.0183, -0.0135,
+        -0.0309, -0.0323], device='cuda:0'), grad: tensor([ 1.2107e-08,  3.8277e-07,  1.2247e-07, -3.8976e-07, -2.5108e-06,
+         4.9826e-07,  2.5984e-07, -7.9954e-07,  1.7369e-07,  2.2594e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 239, time 216.55, cls_loss 0.0012 cls_loss_mapping 0.0014 cls_loss_causal 0.4839 re_mapping 0.0043 re_causal 0.0129 /// teacc 99.06 lr 0.00010000
+Epoch 241, weight, value: tensor([[-0.2048, -0.1235, -0.0824,  ..., -0.0034, -0.0460, -0.0118],
+        [-0.0952,  0.1004, -0.0765,  ...,  0.0213, -0.0408, -0.0764],
+        [ 0.0979, -0.1329, -0.1323,  ..., -0.0584,  0.1245, -0.0299],
+        ...,
+        [-0.1594, -0.0803,  0.1018,  ...,  0.0417, -0.1862, -0.0003],
+        [ 0.0793, -0.0017, -0.2557,  ..., -0.0594,  0.1368, -0.0274],
+        [-0.1793, -0.1266,  0.0272,  ..., -0.0116, -0.1551, -0.0597]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00, -1.8626e-09,  ...,  0.0000e+00,
+          4.1910e-09,  0.0000e+00],
+        [ 3.2596e-09, -9.3132e-09,  3.1665e-08,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00],
+        [-2.7940e-09,  9.3132e-10,  3.3528e-08,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  9.3132e-09, -2.3236e-07,  ...,  0.0000e+00,
+          9.7789e-09,  0.0000e+00],
+        [-9.7789e-08, -2.2352e-08,  1.8626e-09,  ...,  0.0000e+00,
+         -1.0105e-07,  0.0000e+00],
+        [ 2.7940e-09,  6.0536e-09,  1.4016e-07,  ...,  0.0000e+00,
+          8.3819e-09,  0.0000e+00]], device='cuda:0')
+Epoch 241, bias, value: tensor([-0.0042,  0.0172, -0.0164,  0.0157,  0.0289, -0.0164, -0.0183, -0.0137,
+        -0.0309, -0.0323], device='cuda:0'), grad: tensor([-7.0315e-08,  7.4925e-07,  6.7474e-07,  8.7079e-08,  2.3283e-08,
+         1.5413e-07,  8.2888e-08, -2.2054e-06,  1.3039e-08,  5.0059e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 240, time 216.83, cls_loss 0.0017 cls_loss_mapping 0.0026 cls_loss_causal 0.5266 re_mapping 0.0045 re_causal 0.0132 /// teacc 99.13 lr 0.00010000
+Epoch 242, weight, value: tensor([[-0.2054, -0.1238, -0.0825,  ..., -0.0034, -0.0465, -0.0118],
+        [-0.0958,  0.1007, -0.0768,  ...,  0.0213, -0.0409, -0.0764],
+        [ 0.0984, -0.1334, -0.1328,  ..., -0.0584,  0.1248, -0.0299],
+        ...,
+        [-0.1600, -0.0804,  0.1028,  ...,  0.0417, -0.1866, -0.0003],
+        [ 0.0802, -0.0017, -0.2566,  ..., -0.0597,  0.1374, -0.0275],
+        [-0.1801, -0.1269,  0.0268,  ..., -0.0119, -0.1563, -0.0597]],
+       device='cuda:0'), grad: tensor([[ 9.8255e-08,  1.2014e-07, -3.8184e-08,  ...,  0.0000e+00,
+          9.3598e-08,  0.0000e+00],
+        [ 7.1712e-08, -1.6354e-06,  1.3039e-08,  ...,  0.0000e+00,
+         -4.9593e-07,  0.0000e+00],
+        [ 2.1094e-07,  2.9430e-07, -1.7695e-08,  ...,  0.0000e+00,
+          3.6275e-07,  0.0000e+00],
+        ...,
+        [ 1.6531e-07,  2.3097e-07,  1.1269e-07,  ...,  0.0000e+00,
+          2.9756e-07,  0.0000e+00],
+        [-1.8487e-06, -7.1432e-07,  4.6566e-09,  ...,  0.0000e+00,
+         -2.6375e-06,  0.0000e+00],
+        [ 5.9512e-07,  1.0636e-06,  2.9337e-08,  ...,  0.0000e+00,
+          1.1362e-06,  0.0000e+00]], device='cuda:0')
+Epoch 242, bias, value: tensor([-0.0045,  0.0172, -0.0163,  0.0162,  0.0285, -0.0170, -0.0183, -0.0134,
+        -0.0310, -0.0320], device='cuda:0'), grad: tensor([ 1.0477e-07, -4.1239e-06,  7.2690e-07,  1.2815e-06,  3.4506e-07,
+         6.7847e-07,  8.5775e-07,  1.4994e-06, -5.2527e-06,  3.8743e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 241, time 216.67, cls_loss 0.0015 cls_loss_mapping 0.0022 cls_loss_causal 0.5095 re_mapping 0.0048 re_causal 0.0143 /// teacc 99.01 lr 0.00010000
+Epoch 243, weight, value: tensor([[-0.2063, -0.1238, -0.0835,  ..., -0.0036, -0.0458, -0.0118],
+        [-0.0964,  0.1027, -0.0751,  ...,  0.0213, -0.0410, -0.0764],
+        [ 0.1010, -0.1383, -0.1339,  ..., -0.0584,  0.1276, -0.0299],
+        ...,
+        [-0.1607, -0.0815,  0.1019,  ...,  0.0417, -0.1870, -0.0003],
+        [ 0.0786, -0.0018, -0.2582,  ..., -0.0602,  0.1350, -0.0277],
+        [-0.1806, -0.1277,  0.0266,  ..., -0.0123, -0.1576, -0.0597]],
+       device='cuda:0'), grad: tensor([[ 6.0536e-09,  9.6392e-08,  3.7253e-09,  ...,  0.0000e+00,
+          2.0023e-08,  0.0000e+00],
+        [ 2.3283e-09, -3.5111e-07,  2.2817e-08,  ...,  0.0000e+00,
+         -3.4459e-08,  0.0000e+00],
+        [ 1.9558e-08,  2.3283e-08,  4.1910e-09,  ...,  0.0000e+00,
+          2.6077e-08,  0.0000e+00],
+        ...,
+        [ 3.7253e-09,  1.2340e-07,  7.6368e-08,  ...,  0.0000e+00,
+          7.9162e-09,  0.0000e+00],
+        [-4.7032e-08,  1.3877e-07,  1.5460e-07,  ...,  0.0000e+00,
+         -5.1688e-08,  0.0000e+00],
+        [ 1.6764e-08, -8.1817e-07, -1.1828e-06,  ...,  0.0000e+00,
+          2.0955e-08,  0.0000e+00]], device='cuda:0')
+Epoch 243, bias, value: tensor([-0.0045,  0.0185, -0.0158,  0.0166,  0.0291, -0.0169, -0.0186, -0.0145,
+        -0.0328, -0.0320], device='cuda:0'), grad: tensor([ 2.0815e-07, -4.8382e-07,  1.3411e-07, -6.3330e-08,  7.0147e-06,
+         7.4506e-08,  2.3702e-07,  7.0734e-07,  1.1660e-06, -8.9854e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 242----------------------------------------------------
+epoch 242, time 217.68, cls_loss 0.0012 cls_loss_mapping 0.0019 cls_loss_causal 0.4935 re_mapping 0.0045 re_causal 0.0139 /// teacc 99.20 lr 0.00010000
+Epoch 244, weight, value: tensor([[-0.2068, -0.1240, -0.0836,  ..., -0.0039, -0.0460, -0.0118],
+        [-0.0972,  0.1033, -0.0736,  ...,  0.0213, -0.0412, -0.0764],
+        [ 0.1015, -0.1384, -0.1358,  ..., -0.0585,  0.1279, -0.0299],
+        ...,
+        [-0.1610, -0.0821,  0.1014,  ...,  0.0421, -0.1874, -0.0003],
+        [ 0.0787, -0.0018, -0.2592,  ..., -0.0602,  0.1351, -0.0278],
+        [-0.1814, -0.1287,  0.0275,  ..., -0.0124, -0.1582, -0.0597]],
+       device='cuda:0'), grad: tensor([[ 1.3504e-08,  1.0245e-08,  2.3283e-09,  ...,  0.0000e+00,
+          9.7789e-09,  0.0000e+00],
+        [ 7.4971e-08,  1.5367e-07,  1.4342e-07,  ...,  0.0000e+00,
+          1.1642e-08,  0.0000e+00],
+        [ 1.1977e-06,  1.1176e-08,  2.2259e-07,  ...,  0.0000e+00,
+         -4.8894e-08,  0.0000e+00],
+        ...,
+        [-1.2582e-06,  6.7987e-08, -2.6077e-07,  ...,  0.0000e+00,
+          1.5832e-08,  0.0000e+00],
+        [ 2.0070e-07,  1.2573e-07,  6.2399e-08,  ...,  0.0000e+00,
+          2.5146e-08,  0.0000e+00],
+        [ 6.8452e-08,  5.5414e-08,  4.3772e-08,  ...,  0.0000e+00,
+          9.3132e-09,  0.0000e+00]], device='cuda:0')
+Epoch 244, bias, value: tensor([-0.0044,  0.0186, -0.0157,  0.0167,  0.0283, -0.0170, -0.0186, -0.0147,
+        -0.0328, -0.0316], device='cuda:0'), grad: tensor([-4.9360e-08,  6.3516e-07,  6.1356e-06,  1.8878e-06, -7.5344e-07,
+        -3.6601e-06,  1.0803e-06, -6.5379e-06,  7.9349e-07,  4.8662e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 243, time 216.77, cls_loss 0.0009 cls_loss_mapping 0.0027 cls_loss_causal 0.4528 re_mapping 0.0045 re_causal 0.0135 /// teacc 99.11 lr 0.00010000
+Epoch 245, weight, value: tensor([[-0.2069, -0.1231, -0.0836,  ..., -0.0039, -0.0446, -0.0118],
+        [-0.0975,  0.1033, -0.0737,  ...,  0.0213, -0.0413, -0.0764],
+        [ 0.1016, -0.1385, -0.1361,  ..., -0.0585,  0.1282, -0.0299],
+        ...,
+        [-0.1618, -0.0821,  0.1016,  ...,  0.0421, -0.1877, -0.0003],
+        [ 0.0793, -0.0017, -0.2581,  ..., -0.0603,  0.1352, -0.0279],
+        [-0.1825, -0.1291,  0.0269,  ..., -0.0124, -0.1588, -0.0597]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09,  9.3132e-09,  3.7253e-09,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 9.3132e-10, -6.2399e-08,  1.2293e-07,  ...,  0.0000e+00,
+         -2.3283e-09,  0.0000e+00],
+        [-9.3132e-10,  5.1223e-09,  9.3132e-09,  ...,  0.0000e+00,
+         -2.3283e-09,  0.0000e+00],
+        ...,
+        [ 1.3970e-09,  2.5611e-08, -4.2422e-07,  ...,  0.0000e+00,
+          2.3283e-09,  0.0000e+00],
+        [ 1.8161e-08,  1.1642e-08,  4.1910e-09,  ...,  0.0000e+00,
+         -2.7940e-09,  0.0000e+00],
+        [ 4.6566e-09,  1.0710e-08,  2.6450e-07,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 245, bias, value: tensor([-0.0038,  0.0186, -0.0154,  0.0163,  0.0284, -0.0167, -0.0192, -0.0147,
+        -0.0324, -0.0319], device='cuda:0'), grad: tensor([-1.4435e-08,  1.4389e-07,  2.4214e-08,  1.0338e-07, -1.4342e-07,
+        -4.7032e-08, -1.8626e-09, -7.6368e-07,  6.9849e-08,  6.3749e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 244, time 216.67, cls_loss 0.0016 cls_loss_mapping 0.0022 cls_loss_causal 0.5318 re_mapping 0.0046 re_causal 0.0134 /// teacc 99.11 lr 0.00010000
+Epoch 246, weight, value: tensor([[-0.2085, -0.1237, -0.0838,  ..., -0.0039, -0.0452, -0.0118],
+        [-0.0986,  0.1034, -0.0742,  ...,  0.0213, -0.0430, -0.0764],
+        [ 0.1018, -0.1389, -0.1382,  ..., -0.0587,  0.1292, -0.0299],
+        ...,
+        [-0.1618, -0.0822,  0.1020,  ...,  0.0426, -0.1879, -0.0003],
+        [ 0.0799, -0.0017, -0.2593,  ..., -0.0604,  0.1357, -0.0279],
+        [-0.1841, -0.1299,  0.0268,  ..., -0.0126, -0.1612, -0.0597]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09,  9.3132e-09,  8.3819e-09,  ...,  0.0000e+00,
+          1.3970e-09,  0.0000e+00],
+        [ 4.6566e-09, -1.8720e-07,  8.3819e-09,  ...,  0.0000e+00,
+          6.5193e-09,  0.0000e+00],
+        [-4.5169e-08,  1.9558e-08,  5.1223e-09,  ...,  0.0000e+00,
+         -9.5461e-08,  0.0000e+00],
+        ...,
+        [ 4.1910e-09,  6.0536e-08,  1.0710e-08,  ...,  0.0000e+00,
+          6.9849e-09,  0.0000e+00],
+        [ 2.1420e-08,  2.4680e-08,  1.8161e-08,  ...,  0.0000e+00,
+          2.0023e-08,  0.0000e+00],
+        [ 1.0245e-08,  3.2596e-08, -6.8452e-08,  ...,  0.0000e+00,
+          1.3970e-09,  0.0000e+00]], device='cuda:0')
+Epoch 246, bias, value: tensor([-0.0039,  0.0179, -0.0141,  0.0192,  0.0292, -0.0196, -0.0192, -0.0145,
+        -0.0321, -0.0324], device='cuda:0'), grad: tensor([-1.3784e-07, -2.5146e-07, -9.0338e-08,  1.5320e-07,  3.3528e-08,
+        -3.5856e-08,  1.3970e-08,  2.5053e-07,  1.7742e-07, -1.1874e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 245, time 216.53, cls_loss 0.0009 cls_loss_mapping 0.0014 cls_loss_causal 0.4860 re_mapping 0.0049 re_causal 0.0140 /// teacc 99.13 lr 0.00010000
+Epoch 247, weight, value: tensor([[-0.2095, -0.1239, -0.0837,  ..., -0.0039, -0.0455, -0.0118],
+        [-0.0989,  0.1035, -0.0743,  ...,  0.0213, -0.0431, -0.0764],
+        [ 0.1017, -0.1391, -0.1399,  ..., -0.0587,  0.1293, -0.0299],
+        ...,
+        [-0.1617, -0.0822,  0.1021,  ...,  0.0424, -0.1880, -0.0003],
+        [ 0.0803, -0.0017, -0.2593,  ..., -0.0605,  0.1360, -0.0279],
+        [-0.1850, -0.1306,  0.0267,  ..., -0.0127, -0.1618, -0.0597]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-08,  4.6566e-09,  1.8626e-09,  ...,  0.0000e+00,
+          3.2596e-09,  0.0000e+00],
+        [ 2.6077e-08, -9.1735e-08,  2.1886e-08,  ...,  0.0000e+00,
+          1.7229e-08,  0.0000e+00],
+        [-1.0710e-08,  3.1199e-08,  1.2573e-08,  ...,  0.0000e+00,
+         -2.2817e-08,  0.0000e+00],
+        ...,
+        [ 3.4925e-08,  5.4017e-08, -7.9162e-08,  ...,  0.0000e+00,
+          2.1886e-08,  0.0000e+00],
+        [ 1.1222e-07, -1.8626e-09,  3.7253e-09,  ...,  0.0000e+00,
+         -5.1688e-08,  0.0000e+00],
+        [ 8.6660e-07,  9.5461e-08,  8.1025e-08,  ...,  0.0000e+00,
+          1.0245e-08,  0.0000e+00]], device='cuda:0')
+Epoch 247, bias, value: tensor([-0.0041,  0.0179, -0.0143,  0.0189,  0.0292, -0.0192, -0.0189, -0.0145,
+        -0.0319, -0.0326], device='cuda:0'), grad: tensor([-1.7229e-08,  1.3504e-08,  9.5461e-08,  3.5902e-07, -1.2852e-07,
+        -4.3884e-06,  2.8592e-07, -6.8452e-08,  4.2934e-07,  3.4161e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 246, time 216.76, cls_loss 0.0014 cls_loss_mapping 0.0024 cls_loss_causal 0.5221 re_mapping 0.0044 re_causal 0.0132 /// teacc 98.99 lr 0.00010000
+Epoch 248, weight, value: tensor([[-0.2111, -0.1242, -0.0838,  ..., -0.0039, -0.0460, -0.0118],
+        [-0.0993,  0.1037, -0.0745,  ...,  0.0213, -0.0433, -0.0764],
+        [ 0.1015, -0.1394, -0.1413,  ..., -0.0587,  0.1293, -0.0299],
+        ...,
+        [-0.1616, -0.0824,  0.1024,  ...,  0.0424, -0.1882, -0.0003],
+        [ 0.0810, -0.0016, -0.2599,  ..., -0.0608,  0.1367, -0.0280],
+        [-0.1874, -0.1314,  0.0267,  ..., -0.0127, -0.1633, -0.0597]],
+       device='cuda:0'), grad: tensor([[ 1.2573e-08,  1.5832e-07,  2.2352e-08,  ...,  0.0000e+00,
+          2.3283e-09,  0.0000e+00],
+        [ 2.2817e-08, -3.9786e-06,  1.2713e-07,  ...,  0.0000e+00,
+          1.3970e-08,  0.0000e+00],
+        [ 3.7253e-09,  3.1590e-06,  1.0990e-07,  ...,  0.0000e+00,
+         -8.8476e-09,  0.0000e+00],
+        ...,
+        [ 1.6764e-08,  3.2224e-07, -3.5390e-07,  ...,  0.0000e+00,
+          1.3970e-08,  0.0000e+00],
+        [-2.1551e-06, -3.9162e-07,  5.5879e-08,  ...,  0.0000e+00,
+         -1.5693e-06,  0.0000e+00],
+        [-1.1465e-06,  3.1851e-07, -1.4473e-06,  ...,  0.0000e+00,
+          6.9849e-09,  0.0000e+00]], device='cuda:0')
+Epoch 248, bias, value: tensor([-0.0041,  0.0179, -0.0146,  0.0186,  0.0291, -0.0193, -0.0184, -0.0145,
+        -0.0316, -0.0326], device='cuda:0'), grad: tensor([ 4.2468e-07, -8.5235e-06,  7.7263e-06,  4.9211e-06,  5.6326e-06,
+        -3.6322e-07,  1.1362e-06, -5.8999e-07, -4.3809e-06, -6.0163e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 247, time 216.77, cls_loss 0.0015 cls_loss_mapping 0.0020 cls_loss_causal 0.5111 re_mapping 0.0044 re_causal 0.0130 /// teacc 99.04 lr 0.00010000
+Epoch 249, weight, value: tensor([[-0.2118, -0.1244, -0.0833,  ..., -0.0039, -0.0470, -0.0118],
+        [-0.1010,  0.1035, -0.0747,  ...,  0.0212, -0.0465, -0.0764],
+        [ 0.1007, -0.1402, -0.1428,  ..., -0.0588,  0.1318, -0.0299],
+        ...,
+        [-0.1602, -0.0824,  0.1028,  ...,  0.0422, -0.1889, -0.0003],
+        [ 0.0817, -0.0004, -0.2607,  ..., -0.0613,  0.1385, -0.0285],
+        [-0.1881, -0.1322,  0.0264,  ..., -0.0129, -0.1641, -0.0597]],
+       device='cuda:0'), grad: tensor([[ 2.5611e-08,  1.0710e-08,  1.2107e-08,  ...,  0.0000e+00,
+          3.4459e-08,  0.0000e+00],
+        [ 5.1223e-09, -3.8603e-07,  2.5751e-07,  ...,  0.0000e+00,
+          1.0710e-08,  0.0000e+00],
+        [-8.5216e-08,  9.3132e-09,  1.7509e-07,  ...,  0.0000e+00,
+         -8.5682e-08,  0.0000e+00],
+        ...,
+        [ 4.8429e-08,  8.1491e-08, -7.1852e-07,  ...,  0.0000e+00,
+          7.3109e-08,  0.0000e+00],
+        [-3.3528e-08,  3.3528e-08,  3.3528e-08,  ...,  0.0000e+00,
+         -3.7719e-08,  0.0000e+00],
+        [ 3.7253e-09,  3.9116e-08,  4.6566e-08,  ...,  0.0000e+00,
+          9.7789e-09,  0.0000e+00]], device='cuda:0')
+Epoch 249, bias, value: tensor([-0.0039,  0.0173, -0.0135,  0.0174,  0.0292, -0.0192, -0.0183, -0.0141,
+        -0.0302, -0.0328], device='cuda:0'), grad: tensor([ 1.6671e-07,  7.4226e-07,  6.4401e-07, -1.0543e-06,  3.9116e-07,
+         1.4529e-07,  5.4948e-08, -1.5823e-06,  1.5972e-07,  3.4599e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 248, time 216.76, cls_loss 0.0013 cls_loss_mapping 0.0022 cls_loss_causal 0.5093 re_mapping 0.0045 re_causal 0.0132 /// teacc 99.05 lr 0.00010000
+Epoch 250, weight, value: tensor([[-0.2124, -0.1245, -0.0837,  ..., -0.0039, -0.0473, -0.0118],
+        [-0.1019,  0.1037, -0.0748,  ...,  0.0212, -0.0467, -0.0764],
+        [ 0.1017, -0.1407, -0.1466,  ..., -0.0589,  0.1322, -0.0299],
+        ...,
+        [-0.1609, -0.0824,  0.1031,  ...,  0.0421, -0.1895, -0.0004],
+        [ 0.0816, -0.0004, -0.2624,  ..., -0.0616,  0.1385, -0.0308],
+        [-0.1882, -0.1337,  0.0263,  ..., -0.0130, -0.1646, -0.0598]],
+       device='cuda:0'), grad: tensor([[ 4.1910e-09,  2.0023e-08,  1.8626e-09,  ...,  0.0000e+00,
+          4.6566e-09,  0.0000e+00],
+        [ 7.4506e-09, -5.7789e-07,  3.7160e-07,  ...,  0.0000e+00,
+          6.0536e-09,  0.0000e+00],
+        [-5.5879e-09,  5.3458e-07,  1.3504e-08,  ...,  0.0000e+00,
+         -9.3132e-09,  0.0000e+00],
+        ...,
+        [-4.1910e-09, -7.7300e-08, -6.3097e-07,  ...,  0.0000e+00,
+          2.0023e-08,  0.0000e+00],
+        [-2.9802e-08,  4.6566e-09,  4.6566e-09,  ...,  0.0000e+00,
+         -2.9802e-08,  0.0000e+00],
+        [ 6.0536e-09,  4.9826e-08,  1.4016e-07,  ...,  0.0000e+00,
+          2.4680e-08,  0.0000e+00]], device='cuda:0')
+Epoch 250, bias, value: tensor([-0.0039,  0.0170, -0.0133,  0.0172,  0.0296, -0.0189, -0.0184, -0.0139,
+        -0.0306, -0.0330], device='cuda:0'), grad: tensor([-2.3283e-09, -1.8161e-07,  7.9256e-07, -1.4529e-07,  2.6915e-07,
+         5.6811e-08, -3.3993e-08, -1.2163e-06, -3.7253e-09,  4.6566e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 249, time 216.74, cls_loss 0.0013 cls_loss_mapping 0.0032 cls_loss_causal 0.5031 re_mapping 0.0045 re_causal 0.0135 /// teacc 99.10 lr 0.00010000
+Epoch 251, weight, value: tensor([[-0.2128, -0.1246, -0.0837,  ..., -0.0039, -0.0477, -0.0119],
+        [-0.1033,  0.1037, -0.0755,  ...,  0.0211, -0.0470, -0.0765],
+        [ 0.1014, -0.1407, -0.1511,  ..., -0.0590,  0.1320, -0.0300],
+        ...,
+        [-0.1584, -0.0822,  0.1053,  ...,  0.0421, -0.1879, -0.0006],
+        [ 0.0814, -0.0006, -0.2647,  ..., -0.0618,  0.1385, -0.0319],
+        [-0.1880, -0.1335,  0.0267,  ..., -0.0131, -0.1653, -0.0598]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  4.1910e-09,  4.3306e-08,  ...,  0.0000e+00,
+          5.1223e-09,  0.0000e+00],
+        [ 1.1176e-08,  2.3469e-07,  3.7672e-07,  ...,  0.0000e+00,
+          1.2573e-08,  0.0000e+00],
+        [-7.3109e-08,  4.0513e-08,  5.9139e-08,  ...,  0.0000e+00,
+         -1.1222e-07,  0.0000e+00],
+        ...,
+        [ 8.7079e-08,  5.4622e-07, -1.4395e-05,  ...,  0.0000e+00,
+          6.0536e-08,  0.0000e+00],
+        [ 9.7789e-09,  1.0012e-07,  1.3690e-07,  ...,  0.0000e+00,
+          1.3504e-08,  9.3132e-10],
+        [ 4.9826e-08,  1.0021e-06,  1.5542e-05,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00]], device='cuda:0')
+Epoch 251, bias, value: tensor([-0.0038,  0.0168, -0.0139,  0.0164,  0.0290, -0.0187, -0.0187, -0.0128,
+        -0.0310, -0.0325], device='cuda:0'), grad: tensor([-3.6182e-07,  1.4901e-06,  1.8626e-08,  2.2119e-07, -9.0376e-06,
+         1.9791e-07,  5.1130e-07, -4.8220e-05,  7.4925e-07,  5.4508e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 250, time 216.67, cls_loss 0.0012 cls_loss_mapping 0.0019 cls_loss_causal 0.4656 re_mapping 0.0044 re_causal 0.0125 /// teacc 99.02 lr 0.00010000
+Epoch 252, weight, value: tensor([[-0.2133, -0.1247, -0.0842,  ..., -0.0040, -0.0483, -0.0120],
+        [-0.1035,  0.1040, -0.0756,  ...,  0.0210, -0.0470, -0.0768],
+        [ 0.1014, -0.1419, -0.1522,  ..., -0.0592,  0.1317, -0.0301],
+        ...,
+        [-0.1584, -0.0823,  0.1058,  ...,  0.0419, -0.1881, -0.0009],
+        [ 0.0814, -0.0006, -0.2657,  ..., -0.0625,  0.1386, -0.0332],
+        [-0.1868, -0.1333,  0.0271,  ..., -0.0133, -0.1660, -0.0600]],
+       device='cuda:0'), grad: tensor([[ 8.3819e-09,  3.7253e-09,  6.4261e-08,  ...,  0.0000e+00,
+          3.2596e-09,  0.0000e+00],
+        [ 7.4506e-09, -5.0664e-07,  2.9756e-07,  ...,  0.0000e+00,
+         -2.8405e-08,  0.0000e+00],
+        [ 2.7940e-09,  5.0105e-07,  2.8498e-07,  ...,  0.0000e+00,
+          3.2131e-08,  0.0000e+00],
+        ...,
+        [ 1.2107e-08,  4.9826e-08, -2.2110e-06,  ...,  0.0000e+00,
+          1.3039e-08,  0.0000e+00],
+        [ 3.0734e-06,  5.5879e-09,  1.4063e-07,  ...,  0.0000e+00,
+          1.2349e-06,  0.0000e+00],
+        [ 1.0850e-07,  2.7474e-08,  2.5099e-07,  ...,  0.0000e+00,
+          4.2375e-08,  0.0000e+00]], device='cuda:0')
+Epoch 252, bias, value: tensor([-0.0036,  0.0169, -0.0147,  0.0162,  0.0282, -0.0181, -0.0190, -0.0126,
+        -0.0313, -0.0319], device='cuda:0'), grad: tensor([ 4.5681e-07,  8.9034e-07,  3.1013e-06,  2.5146e-06,  3.7085e-06,
+        -9.5293e-06,  2.9523e-07, -1.1593e-05,  8.5682e-06,  1.6168e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 251, time 216.86, cls_loss 0.0016 cls_loss_mapping 0.0026 cls_loss_causal 0.4615 re_mapping 0.0044 re_causal 0.0126 /// teacc 99.07 lr 0.00010000
+Epoch 253, weight, value: tensor([[-0.2140, -0.1250, -0.0873,  ..., -0.0040, -0.0489, -0.0120],
+        [-0.1038,  0.1040, -0.0756,  ...,  0.0210, -0.0471, -0.0768],
+        [ 0.1017, -0.1421, -0.1529,  ..., -0.0593,  0.1321, -0.0301],
+        ...,
+        [-0.1585, -0.0824,  0.1057,  ...,  0.0418, -0.1886, -0.0009],
+        [ 0.0805, -0.0012, -0.2665,  ..., -0.0630,  0.1388, -0.0332],
+        [-0.1861, -0.1339,  0.0297,  ..., -0.0136, -0.1651, -0.0600]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  5.5879e-09,  4.1910e-09,  ...,  6.0536e-09,
+          2.3749e-08,  0.0000e+00],
+        [ 1.4156e-07,  4.1910e-09,  1.2061e-07,  ...,  1.0710e-08,
+          2.9523e-07,  0.0000e+00],
+        [-1.7369e-07,  1.0245e-08,  9.3132e-09,  ...,  2.2817e-08,
+         -2.5006e-07,  0.0000e+00],
+        ...,
+        [-1.6764e-08,  3.9116e-08, -2.2165e-07,  ...,  1.5832e-08,
+          6.4261e-08,  0.0000e+00],
+        [ 6.9849e-09,  6.1467e-08,  4.6100e-08,  ...,  1.1642e-08,
+          3.5390e-08,  0.0000e+00],
+        [ 1.2107e-08,  3.4412e-07,  4.1025e-07,  ...,  2.0955e-08,
+          8.6147e-08,  0.0000e+00]], device='cuda:0')
+Epoch 253, bias, value: tensor([-0.0060,  0.0168, -0.0146,  0.0158,  0.0278, -0.0209, -0.0161, -0.0130,
+        -0.0320, -0.0285], device='cuda:0'), grad: tensor([-2.5611e-08,  1.1232e-06, -5.2573e-07, -1.7444e-06, -1.1167e-06,
+         5.4948e-07,  1.5600e-07, -5.6392e-07,  3.5670e-07,  1.7826e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 252, time 216.45, cls_loss 0.0014 cls_loss_mapping 0.0022 cls_loss_causal 0.4768 re_mapping 0.0042 re_causal 0.0127 /// teacc 99.08 lr 0.00010000
+Epoch 254, weight, value: tensor([[-0.2142, -0.1253, -0.0874,  ..., -0.0042, -0.0494, -0.0120],
+        [-0.1042,  0.1045, -0.0748,  ...,  0.0209, -0.0471, -0.0768],
+        [ 0.1019, -0.1429, -0.1550,  ..., -0.0594,  0.1323, -0.0301],
+        ...,
+        [-0.1587, -0.0827,  0.1058,  ...,  0.0395, -0.1888, -0.0009],
+        [ 0.0804, -0.0015, -0.2675,  ..., -0.0651,  0.1389, -0.0332],
+        [-0.1865, -0.1355,  0.0322,  ..., -0.0140, -0.1658, -0.0600]],
+       device='cuda:0'), grad: tensor([[ 1.6298e-08,  1.5367e-08,  7.4506e-09,  ...,  0.0000e+00,
+          2.4680e-08,  0.0000e+00],
+        [ 1.4249e-06,  6.0722e-07,  6.4494e-07,  ...,  0.0000e+00,
+          4.5337e-06,  0.0000e+00],
+        [ 5.7742e-08,  2.6543e-08,  6.1141e-07,  ...,  0.0000e+00,
+          1.3458e-07,  0.0000e+00],
+        ...,
+        [ 2.0489e-08, -2.4820e-07, -1.3737e-06,  ...,  0.0000e+00,
+          4.1444e-08,  0.0000e+00],
+        [-2.9616e-06, -9.3831e-07,  2.6077e-08,  ...,  0.0000e+00,
+         -8.2627e-06,  0.0000e+00],
+        [ 7.6788e-07,  3.3760e-07,  1.6764e-08,  ...,  0.0000e+00,
+          1.5125e-06,  0.0000e+00]], device='cuda:0')
+Epoch 254, bias, value: tensor([-0.0060,  0.0171, -0.0151,  0.0158,  0.0250, -0.0208, -0.0161, -0.0132,
+        -0.0322, -0.0257], device='cuda:0'), grad: tensor([-2.1867e-06,  1.1601e-05,  2.2277e-06,  1.7583e-06,  1.7649e-07,
+         2.9597e-06,  1.3364e-06, -3.5260e-06, -1.9774e-05,  5.3905e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 253, time 216.64, cls_loss 0.0012 cls_loss_mapping 0.0014 cls_loss_causal 0.4838 re_mapping 0.0042 re_causal 0.0133 /// teacc 99.02 lr 0.00010000
+Epoch 255, weight, value: tensor([[-0.2146, -0.1254, -0.0872,  ..., -0.0042, -0.0502, -0.0120],
+        [-0.1048,  0.1047, -0.0752,  ...,  0.0209, -0.0474, -0.0768],
+        [ 0.1034, -0.1430, -0.1548,  ..., -0.0594,  0.1328, -0.0301],
+        ...,
+        [-0.1589, -0.0829,  0.1062,  ...,  0.0395, -0.1891, -0.0009],
+        [ 0.0805, -0.0015, -0.2683,  ..., -0.0652,  0.1392, -0.0332],
+        [-0.1871, -0.1357,  0.0326,  ..., -0.0141, -0.1676, -0.0600]],
+       device='cuda:0'), grad: tensor([[ 6.6124e-08,  1.1595e-07,  9.3132e-10,  ...,  0.0000e+00,
+          1.5832e-08,  0.0000e+00],
+        [ 8.8941e-08,  8.0094e-08,  1.8626e-09,  ...,  0.0000e+00,
+          1.8347e-07,  0.0000e+00],
+        [-7.5903e-08,  5.0291e-08,  9.3132e-10,  ...,  0.0000e+00,
+         -5.9139e-08,  0.0000e+00],
+        ...,
+        [ 1.1222e-07,  4.8429e-08,  1.7229e-08,  ...,  0.0000e+00,
+          1.7788e-07,  0.0000e+00],
+        [-1.8114e-07, -1.6158e-07,  3.7253e-09,  ...,  0.0000e+00,
+         -5.1269e-07,  0.0000e+00],
+        [ 2.5099e-07,  2.5192e-07,  1.0384e-07,  ...,  0.0000e+00,
+          2.3283e-08,  0.0000e+00]], device='cuda:0')
+Epoch 255, bias, value: tensor([-0.0064,  0.0169, -0.0145,  0.0157,  0.0245, -0.0208, -0.0158, -0.0132,
+        -0.0320, -0.0254], device='cuda:0'), grad: tensor([-8.7498e-07,  7.3342e-07, -1.3504e-08,  1.6317e-06, -1.9334e-06,
+        -1.4603e-06, -3.9581e-07,  2.2482e-06, -1.3364e-06,  1.4286e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 254, time 216.76, cls_loss 0.0015 cls_loss_mapping 0.0030 cls_loss_causal 0.5075 re_mapping 0.0044 re_causal 0.0135 /// teacc 99.06 lr 0.00010000
+Epoch 256, weight, value: tensor([[-0.2148, -0.1254, -0.0900,  ..., -0.0041, -0.0503, -0.0132],
+        [-0.1050,  0.1050, -0.0752,  ...,  0.0209, -0.0475, -0.0785],
+        [ 0.1035, -0.1435, -0.1551,  ..., -0.0594,  0.1329, -0.0327],
+        ...,
+        [-0.1595, -0.0830,  0.1064,  ...,  0.0394, -0.1897, -0.0011],
+        [ 0.0811, -0.0016, -0.2685,  ..., -0.0653,  0.1396, -0.0334],
+        [-0.1874, -0.1369,  0.0334,  ..., -0.0142, -0.1682, -0.0609]],
+       device='cuda:0'), grad: tensor([[ 6.0536e-09,  1.3970e-09,  9.7789e-09,  ...,  0.0000e+00,
+          3.2550e-07,  0.0000e+00],
+        [ 2.3749e-08, -7.1712e-08,  1.3970e-09,  ...,  0.0000e+00,
+          1.4063e-07,  0.0000e+00],
+        [ 4.1910e-09,  4.6566e-09,  1.3970e-09,  ...,  0.0000e+00,
+          3.9535e-07,  0.0000e+00],
+        ...,
+        [ 2.1886e-08,  4.3306e-08,  4.6566e-10,  ...,  0.0000e+00,
+          1.4342e-07,  0.0000e+00],
+        [-2.5844e-07,  6.5193e-09,  4.6566e-10,  ...,  0.0000e+00,
+         -3.7253e-08,  0.0000e+00],
+        [ 6.1002e-08,  2.5611e-08, -1.3970e-08,  ...,  0.0000e+00,
+          2.2585e-07,  0.0000e+00]], device='cuda:0')
+Epoch 256, bias, value: tensor([-0.0083,  0.0170, -0.0147,  0.0157,  0.0246, -0.0206, -0.0161, -0.0133,
+        -0.0319, -0.0240], device='cuda:0'), grad: tensor([ 1.1139e-06,  3.2922e-07,  1.4137e-06, -6.2287e-06,  6.1002e-08,
+         1.9539e-06,  2.1467e-07,  5.7276e-07, -1.1316e-07,  6.8219e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 255, time 216.64, cls_loss 0.0015 cls_loss_mapping 0.0017 cls_loss_causal 0.4854 re_mapping 0.0046 re_causal 0.0126 /// teacc 98.99 lr 0.00010000
+Epoch 257, weight, value: tensor([[-0.2144, -0.1254, -0.0900,  ..., -0.0041, -0.0507, -0.0124],
+        [-0.1051,  0.1051, -0.0756,  ...,  0.0209, -0.0479, -0.0787],
+        [ 0.1037, -0.1438, -0.1556,  ..., -0.0594,  0.1335, -0.0328],
+        ...,
+        [-0.1596, -0.0831,  0.1065,  ...,  0.0394, -0.1899, -0.0012],
+        [ 0.0804, -0.0020, -0.2696,  ..., -0.0654,  0.1394, -0.0337],
+        [-0.1884, -0.1395,  0.0333,  ..., -0.0142, -0.1707, -0.0631]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-09,  8.8476e-09,  9.3132e-10,  ...,  0.0000e+00,
+          6.0536e-09,  0.0000e+00],
+        [ 7.9162e-09, -5.9232e-07,  5.1223e-09,  ...,  0.0000e+00,
+          7.9162e-09,  0.0000e+00],
+        [-1.2573e-08,  1.3970e-08,  1.3970e-09,  ...,  0.0000e+00,
+         -1.7695e-08,  0.0000e+00],
+        ...,
+        [ 1.0245e-08,  2.5844e-07, -2.9337e-08,  ...,  0.0000e+00,
+          1.8161e-08,  0.0000e+00],
+        [-6.8918e-08,  3.7719e-08,  1.3970e-09,  ...,  0.0000e+00,
+         -1.5274e-07,  0.0000e+00],
+        [ 2.9802e-08,  9.4529e-08, -3.7253e-08,  ...,  0.0000e+00,
+          4.2375e-08,  0.0000e+00]], device='cuda:0')
+Epoch 257, bias, value: tensor([-0.0081,  0.0169, -0.0146,  0.0160,  0.0248, -0.0199, -0.0168, -0.0133,
+        -0.0330, -0.0242], device='cuda:0'), grad: tensor([-6.9849e-08, -9.7044e-07,  3.7253e-09,  3.0128e-07,  6.6264e-07,
+        -1.9604e-07,  1.4435e-07,  3.5483e-07, -2.0722e-07, -7.9162e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 256, time 217.11, cls_loss 0.0013 cls_loss_mapping 0.0021 cls_loss_causal 0.4962 re_mapping 0.0045 re_causal 0.0135 /// teacc 98.96 lr 0.00010000
+Epoch 258, weight, value: tensor([[-0.2148, -0.1256, -0.0900,  ..., -0.0041, -0.0509, -0.0124],
+        [-0.1059,  0.1037, -0.0757,  ...,  0.0209, -0.0480, -0.0787],
+        [ 0.1038, -0.1440, -0.1558,  ..., -0.0595,  0.1336, -0.0328],
+        ...,
+        [-0.1598, -0.0832,  0.1067,  ...,  0.0394, -0.1900, -0.0012],
+        [ 0.0811, -0.0022, -0.2700,  ..., -0.0654,  0.1402, -0.0337],
+        [-0.1893, -0.1408,  0.0333,  ..., -0.0143, -0.1720, -0.0631]],
+       device='cuda:0'), grad: tensor([[ 4.0513e-08,  1.2824e-06,  1.9558e-08,  ...,  0.0000e+00,
+          9.4622e-07,  0.0000e+00],
+        [ 1.2247e-07, -4.2170e-06,  7.4506e-08,  ...,  0.0000e+00,
+         -2.9486e-06,  0.0000e+00],
+        [ 1.3970e-08,  1.2154e-07,  2.9337e-08,  ...,  0.0000e+00,
+         -5.5414e-08,  0.0000e+00],
+        ...,
+        [ 6.1728e-06,  3.0780e-07,  3.2205e-06,  ...,  0.0000e+00,
+          2.1979e-07,  0.0000e+00],
+        [-5.8534e-07,  3.9069e-07,  4.2375e-08,  ...,  0.0000e+00,
+         -7.0594e-07,  0.0000e+00],
+        [-5.9791e-06,  5.8627e-07, -2.9970e-06,  ...,  0.0000e+00,
+          9.2899e-07,  0.0000e+00]], device='cuda:0')
+Epoch 258, bias, value: tensor([-0.0081,  0.0160, -0.0146,  0.0172,  0.0249, -0.0206, -0.0164, -0.0130,
+        -0.0328, -0.0243], device='cuda:0'), grad: tensor([ 3.7104e-06, -9.0599e-06,  1.5702e-06,  1.1614e-06, -1.5534e-06,
+         9.9838e-07,  8.2552e-06,  1.5748e-04,  7.6462e-07, -1.6332e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 257, time 216.92, cls_loss 0.0012 cls_loss_mapping 0.0026 cls_loss_causal 0.5001 re_mapping 0.0048 re_causal 0.0137 /// teacc 98.97 lr 0.00010000
+Epoch 259, weight, value: tensor([[-0.2151, -0.1259, -0.0900,  ..., -0.0041, -0.0513, -0.0125],
+        [-0.1061,  0.1040, -0.0760,  ...,  0.0208, -0.0480, -0.0787],
+        [ 0.1040, -0.1446, -0.1562,  ..., -0.0595,  0.1336, -0.0328],
+        ...,
+        [-0.1602, -0.0833,  0.1071,  ...,  0.0394, -0.1906, -0.0012],
+        [ 0.0819, -0.0023, -0.2704,  ..., -0.0654,  0.1411, -0.0337],
+        [-0.1897, -0.1423,  0.0332,  ..., -0.0144, -0.1734, -0.0634]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  4.6566e-08,  6.1467e-08,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00],
+        [ 6.0536e-09,  5.4669e-07,  1.2368e-06,  ...,  0.0000e+00,
+          1.4435e-08,  0.0000e+00],
+        [ 3.4459e-08,  7.5903e-08,  3.2084e-07,  ...,  0.0000e+00,
+          5.2620e-08,  0.0000e+00],
+        ...,
+        [ 5.5879e-09,  1.3225e-07, -9.6299e-07,  ...,  0.0000e+00,
+          2.0023e-08,  0.0000e+00],
+        [-3.6787e-08,  1.9791e-07,  1.9697e-07,  ...,  0.0000e+00,
+         -4.0047e-08,  0.0000e+00],
+        [ 1.4901e-08,  4.3884e-06,  4.4703e-06,  ...,  0.0000e+00,
+          4.3772e-08,  0.0000e+00]], device='cuda:0')
+Epoch 259, bias, value: tensor([-0.0082,  0.0161, -0.0148,  0.0167,  0.0250, -0.0203, -0.0163, -0.0131,
+        -0.0323, -0.0244], device='cuda:0'), grad: tensor([ 1.7146e-06,  1.4067e-05,  5.9791e-06,  1.1779e-05, -1.8477e-05,
+        -2.6137e-05,  8.2515e-07, -2.1115e-05,  8.3772e-07,  3.0547e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 258, time 217.02, cls_loss 0.0015 cls_loss_mapping 0.0032 cls_loss_causal 0.4896 re_mapping 0.0044 re_causal 0.0129 /// teacc 98.93 lr 0.00010000
+Epoch 260, weight, value: tensor([[-0.2156, -0.1257, -0.0899,  ..., -0.0041, -0.0498, -0.0125],
+        [-0.1066,  0.1056, -0.0765,  ...,  0.0208, -0.0457, -0.0787],
+        [ 0.1043, -0.1477, -0.1572,  ..., -0.0596,  0.1318, -0.0328],
+        ...,
+        [-0.1602, -0.0834,  0.1096,  ...,  0.0394, -0.1912, -0.0012],
+        [ 0.0834, -0.0018, -0.2712,  ..., -0.0655,  0.1424, -0.0337],
+        [-0.1921, -0.1459,  0.0324,  ..., -0.0144, -0.1773, -0.0634]],
+       device='cuda:0'), grad: tensor([[ 2.0489e-08, -7.3109e-08, -2.7940e-08,  ...,  0.0000e+00,
+          2.2352e-08,  0.0000e+00],
+        [ 1.0738e-06,  2.2212e-07,  2.1420e-08,  ...,  0.0000e+00,
+          1.1967e-06,  0.0000e+00],
+        [-2.1886e-06, -9.2527e-07,  1.3970e-08,  ...,  0.0000e+00,
+         -2.4512e-06,  0.0000e+00],
+        ...,
+        [ 8.0094e-08,  1.8300e-07, -5.2294e-07,  ...,  0.0000e+00,
+          1.0477e-07,  0.0000e+00],
+        [ 2.6915e-07,  1.4296e-07,  1.3504e-08,  ...,  0.0000e+00,
+          3.0035e-07,  0.0000e+00],
+        [ 1.3271e-07,  1.2340e-07,  4.0652e-07,  ...,  0.0000e+00,
+          1.4482e-07,  0.0000e+00]], device='cuda:0')
+Epoch 260, bias, value: tensor([-0.0080,  0.0184, -0.0179,  0.0171,  0.0253, -0.0206, -0.0164, -0.0121,
+        -0.0313, -0.0251], device='cuda:0'), grad: tensor([-9.3272e-07,  3.6936e-06, -7.7635e-06,  2.4196e-06,  2.6077e-07,
+         8.3353e-08,  3.7346e-07, -3.1814e-06,  1.1334e-06,  3.8929e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 259, time 216.58, cls_loss 0.0015 cls_loss_mapping 0.0021 cls_loss_causal 0.4796 re_mapping 0.0045 re_causal 0.0125 /// teacc 99.05 lr 0.00010000
+Epoch 261, weight, value: tensor([[-0.2165, -0.1259, -0.0899,  ..., -0.0041, -0.0500, -0.0125],
+        [-0.1085,  0.1053, -0.0770,  ...,  0.0208, -0.0461, -0.0787],
+        [ 0.1047, -0.1478, -0.1582,  ..., -0.0596,  0.1326, -0.0328],
+        ...,
+        [-0.1599, -0.0829,  0.1108,  ...,  0.0394, -0.1914, -0.0012],
+        [ 0.0840, -0.0021, -0.2719,  ..., -0.0655,  0.1430, -0.0337],
+        [-0.1932, -0.1472,  0.0322,  ..., -0.0144, -0.1808, -0.0634]],
+       device='cuda:0'), grad: tensor([[ 2.0023e-08,  6.0536e-08, -8.3819e-09,  ...,  0.0000e+00,
+          5.8440e-07,  0.0000e+00],
+        [ 1.3039e-08, -1.1399e-06,  1.3970e-08,  ...,  0.0000e+00,
+          3.7067e-07,  0.0000e+00],
+        [ 5.5879e-09,  1.0757e-07,  9.7789e-09,  ...,  0.0000e+00,
+          1.2529e-04,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  5.5134e-07, -1.5739e-07,  ...,  0.0000e+00,
+          9.2201e-08,  0.0000e+00],
+        [ 4.6566e-09,  1.9604e-07,  2.7940e-09,  ...,  0.0000e+00,
+          2.2817e-08,  0.0000e+00],
+        [ 3.2596e-09,  3.4925e-08,  1.1874e-07,  ...,  0.0000e+00,
+          5.4017e-08,  0.0000e+00]], device='cuda:0')
+Epoch 261, bias, value: tensor([-0.0080,  0.0177, -0.0175,  0.0168,  0.0254, -0.0205, -0.0165, -0.0110,
+        -0.0313, -0.0253], device='cuda:0'), grad: tensor([ 1.5302e-06, -7.3202e-07,  3.3545e-04, -3.4475e-04,  3.3574e-07,
+         6.0722e-06, -6.8918e-08,  7.5204e-07,  4.0280e-07,  4.4471e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 260, time 216.60, cls_loss 0.0010 cls_loss_mapping 0.0020 cls_loss_causal 0.4907 re_mapping 0.0043 re_causal 0.0131 /// teacc 99.04 lr 0.00010000
+Epoch 262, weight, value: tensor([[-0.2168, -0.1260, -0.0899,  ..., -0.0041, -0.0502, -0.0125],
+        [-0.1094,  0.1047, -0.0792,  ...,  0.0208, -0.0463, -0.0787],
+        [ 0.1046, -0.1479, -0.1585,  ..., -0.0596,  0.1319, -0.0328],
+        ...,
+        [-0.1600, -0.0820,  0.1119,  ...,  0.0394, -0.1916, -0.0012],
+        [ 0.0844, -0.0014, -0.2725,  ..., -0.0656,  0.1436, -0.0338],
+        [-0.1940, -0.1484,  0.0322,  ..., -0.0144, -0.1818, -0.0635]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-09,  1.3970e-09,  1.1642e-09,  ...,  0.0000e+00,
+          1.7229e-08,  0.0000e+00],
+        [ 5.3551e-09, -8.3819e-08,  1.1642e-09,  ...,  0.0000e+00,
+          5.5414e-08,  0.0000e+00],
+        [-2.0955e-09,  4.6566e-09,  4.6566e-10,  ...,  0.0000e+00,
+         -1.1083e-07,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  6.9616e-08,  2.0722e-08,  ...,  0.0000e+00,
+          1.1642e-08,  0.0000e+00],
+        [-2.1653e-08, -1.3271e-08,  3.2596e-09,  ...,  0.0000e+00,
+         -2.0023e-08,  0.0000e+00],
+        [ 3.2596e-09,  7.6834e-09, -5.0990e-08,  ...,  0.0000e+00,
+          1.0943e-08,  0.0000e+00]], device='cuda:0')
+Epoch 262, bias, value: tensor([-0.0080,  0.0174, -0.0179,  0.0174,  0.0255, -0.0205, -0.0165, -0.0106,
+        -0.0307, -0.0254], device='cuda:0'), grad: tensor([-6.1747e-07,  7.2876e-08, -3.0501e-07,  6.0303e-08,  1.2503e-07,
+         3.9139e-07,  6.1234e-08,  2.2398e-07, -3.4925e-09,  1.2340e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 261, time 216.83, cls_loss 0.0012 cls_loss_mapping 0.0018 cls_loss_causal 0.5199 re_mapping 0.0041 re_causal 0.0131 /// teacc 98.98 lr 0.00010000
+Epoch 263, weight, value: tensor([[-0.2177, -0.1261, -0.0900,  ..., -0.0041, -0.0505, -0.0125],
+        [-0.1100,  0.1048, -0.0794,  ...,  0.0208, -0.0465, -0.0787],
+        [ 0.1078, -0.1480, -0.1587,  ..., -0.0596,  0.1348, -0.0328],
+        ...,
+        [-0.1633, -0.0823,  0.1118,  ...,  0.0394, -0.1949, -0.0012],
+        [ 0.0842, -0.0016, -0.2732,  ..., -0.0656,  0.1436, -0.0338],
+        [-0.1948, -0.1496,  0.0322,  ..., -0.0144, -0.1823, -0.0635]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  8.3819e-09,  6.9849e-10,  ...,  0.0000e+00,
+          9.3132e-09,  0.0000e+00],
+        [ 5.5879e-09, -5.8813e-07,  1.3970e-09,  ...,  0.0000e+00,
+         -1.7020e-07,  0.0000e+00],
+        [ 9.7789e-09,  4.8243e-07,  4.6566e-10,  ...,  0.0000e+00,
+          2.2701e-07,  0.0000e+00],
+        ...,
+        [ 3.4925e-09,  1.1409e-07,  8.6846e-08,  ...,  0.0000e+00,
+          1.0617e-07,  0.0000e+00],
+        [-3.3528e-08, -1.7462e-08,  1.3970e-09,  ...,  0.0000e+00,
+         -2.7474e-08,  0.0000e+00],
+        [ 6.9849e-09,  5.2154e-08, -1.8533e-07,  ...,  0.0000e+00,
+          2.8638e-08,  0.0000e+00]], device='cuda:0')
+Epoch 263, bias, value: tensor([-0.0080,  0.0173, -0.0153,  0.0173,  0.0255, -0.0203, -0.0165, -0.0136,
+        -0.0312, -0.0253], device='cuda:0'), grad: tensor([-8.1258e-08, -1.9632e-06,  1.9241e-06, -1.0105e-06, -6.4494e-08,
+         4.8801e-07,  2.7474e-08,  9.4669e-07,  2.1653e-08, -2.7660e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 262, time 216.72, cls_loss 0.0010 cls_loss_mapping 0.0017 cls_loss_causal 0.4544 re_mapping 0.0040 re_causal 0.0127 /// teacc 98.99 lr 0.00010000
+Epoch 264, weight, value: tensor([[-0.2181, -0.1261, -0.0900,  ..., -0.0041, -0.0510, -0.0125],
+        [-0.1132,  0.1042, -0.0794,  ...,  0.0208, -0.0491, -0.0787],
+        [ 0.1079, -0.1481, -0.1587,  ..., -0.0597,  0.1350, -0.0328],
+        ...,
+        [-0.1634, -0.0824,  0.1118,  ...,  0.0393, -0.1950, -0.0012],
+        [ 0.0869,  0.0013, -0.2733,  ..., -0.0657,  0.1463, -0.0338],
+        [-0.1951, -0.1504,  0.0323,  ..., -0.0144, -0.1826, -0.0635]],
+       device='cuda:0'), grad: tensor([[ 1.0012e-08,  9.7789e-09, -2.7008e-08,  ...,  0.0000e+00,
+         -1.2247e-06,  0.0000e+00],
+        [-1.7928e-08, -1.5218e-06,  2.0955e-09,  ...,  0.0000e+00,
+          9.5693e-08,  0.0000e+00],
+        [ 1.6647e-07,  1.0077e-06, -2.0489e-08,  ...,  0.0000e+00,
+          2.7986e-07,  0.0000e+00],
+        ...,
+        [ 3.8650e-08,  1.3225e-07,  1.6065e-08,  ...,  0.0000e+00,
+          2.3656e-07,  0.0000e+00],
+        [-5.2806e-07,  2.0000e-07,  1.3970e-09,  ...,  0.0000e+00,
+         -5.9418e-07,  0.0000e+00],
+        [ 6.8219e-08,  3.9581e-08,  1.7928e-08,  ...,  0.0000e+00,
+          8.9221e-07,  0.0000e+00]], device='cuda:0')
+Epoch 264, bias, value: tensor([-0.0079,  0.0166, -0.0152,  0.0173,  0.0252, -0.0203, -0.0166, -0.0136,
+        -0.0286, -0.0253], device='cuda:0'), grad: tensor([-1.1005e-05, -2.4643e-06,  3.6806e-06, -9.6392e-07,  4.9826e-07,
+         9.5367e-07,  1.1194e-06,  1.0766e-06, -1.6065e-07,  7.2829e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 263, time 217.05, cls_loss 0.0011 cls_loss_mapping 0.0018 cls_loss_causal 0.4784 re_mapping 0.0041 re_causal 0.0124 /// teacc 99.05 lr 0.00010000
+Epoch 265, weight, value: tensor([[-0.2184, -0.1264, -0.0900,  ..., -0.0042, -0.0509, -0.0125],
+        [-0.1134,  0.1057, -0.0795,  ...,  0.0206, -0.0490, -0.0787],
+        [ 0.1080, -0.1486, -0.1589,  ..., -0.0603,  0.1351, -0.0328],
+        ...,
+        [-0.1634, -0.0829,  0.1118,  ...,  0.0388, -0.1951, -0.0012],
+        [ 0.0872,  0.0014, -0.2736,  ..., -0.0666,  0.1464, -0.0338],
+        [-0.1953, -0.1517,  0.0323,  ..., -0.0146, -0.1829, -0.0635]],
+       device='cuda:0'), grad: tensor([[ 4.6799e-08,  6.7754e-08,  4.6566e-10,  ...,  0.0000e+00,
+          8.8476e-09,  0.0000e+00],
+        [ 1.4901e-08, -4.0303e-07,  1.9092e-08,  ...,  0.0000e+00,
+         -1.0943e-08,  0.0000e+00],
+        [ 1.3970e-09,  2.7474e-08,  8.3819e-09,  ...,  0.0000e+00,
+          9.5461e-09,  0.0000e+00],
+        ...,
+        [ 2.5611e-09,  1.9348e-07, -5.1456e-08,  ...,  0.0000e+00,
+          1.0710e-08,  0.0000e+00],
+        [ 6.2771e-07,  4.5309e-07,  3.0268e-09,  ...,  0.0000e+00,
+          1.9325e-08,  0.0000e+00],
+        [ 1.0245e-08,  5.3318e-08,  1.1176e-08,  ...,  0.0000e+00,
+          3.4925e-09,  0.0000e+00]], device='cuda:0')
+Epoch 265, bias, value: tensor([-0.0078,  0.0173, -0.0152,  0.0176,  0.0248, -0.0205, -0.0167, -0.0139,
+        -0.0286, -0.0252], device='cuda:0'), grad: tensor([ 1.3225e-07, -5.2340e-07,  1.0408e-07,  2.2887e-07, -1.1642e-08,
+         1.1455e-06, -2.5406e-06,  1.4505e-07,  1.1241e-06,  1.8557e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 264, time 217.04, cls_loss 0.0009 cls_loss_mapping 0.0017 cls_loss_causal 0.4370 re_mapping 0.0042 re_causal 0.0125 /// teacc 99.13 lr 0.00010000
+Epoch 266, weight, value: tensor([[-0.2187, -0.1265, -0.0900,  ..., -0.0042, -0.0515, -0.0125],
+        [-0.1135,  0.1058, -0.0796,  ...,  0.0206, -0.0492, -0.0787],
+        [ 0.1081, -0.1487, -0.1591,  ..., -0.0603,  0.1351, -0.0328],
+        ...,
+        [-0.1635, -0.0829,  0.1119,  ...,  0.0388, -0.1952, -0.0012],
+        [ 0.0873,  0.0014, -0.2737,  ..., -0.0666,  0.1466, -0.0338],
+        [-0.1959, -0.1535,  0.0323,  ..., -0.0147, -0.1834, -0.0635]],
+       device='cuda:0'), grad: tensor([[ 2.0955e-09,  1.3271e-08,  0.0000e+00,  ...,  0.0000e+00,
+          2.5844e-08,  0.0000e+00],
+        [ 9.5461e-09, -6.9104e-07,  1.3970e-09,  ...,  0.0000e+00,
+          3.1618e-07,  0.0000e+00],
+        [-3.7020e-08,  1.1502e-07,  4.6566e-10,  ...,  0.0000e+00,
+         -9.0338e-07,  0.0000e+00],
+        ...,
+        [ 1.6531e-08,  2.3050e-07, -4.6566e-09,  ...,  0.0000e+00,
+          1.8091e-07,  0.0000e+00],
+        [ 1.3970e-09,  7.0548e-08,  0.0000e+00,  ...,  0.0000e+00,
+          7.8697e-08,  0.0000e+00],
+        [ 2.0955e-09,  2.1653e-08,  2.3283e-09,  ...,  0.0000e+00,
+          1.5832e-08,  0.0000e+00]], device='cuda:0')
+Epoch 266, bias, value: tensor([-0.0077,  0.0173, -0.0152,  0.0183,  0.0249, -0.0207, -0.0168, -0.0139,
+        -0.0286, -0.0253], device='cuda:0'), grad: tensor([-4.6566e-10, -2.7311e-07, -1.8058e-06,  4.4634e-07,  3.6927e-07,
+         5.5879e-09,  1.6158e-07,  6.9197e-07,  2.8848e-07,  1.4133e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 265, time 216.87, cls_loss 0.0010 cls_loss_mapping 0.0017 cls_loss_causal 0.4627 re_mapping 0.0043 re_causal 0.0126 /// teacc 99.03 lr 0.00010000
+Epoch 267, weight, value: tensor([[-0.2195, -0.1271, -0.0900,  ..., -0.0042, -0.0516, -0.0125],
+        [-0.1136,  0.1061, -0.0796,  ...,  0.0206, -0.0492, -0.0787],
+        [ 0.1081, -0.1489, -0.1600,  ..., -0.0612,  0.1352, -0.0328],
+        ...,
+        [-0.1635, -0.0831,  0.1120,  ...,  0.0397, -0.1952, -0.0012],
+        [ 0.0875,  0.0014, -0.2742,  ..., -0.0666,  0.1467, -0.0338],
+        [-0.1967, -0.1545,  0.0323,  ..., -0.0147, -0.1842, -0.0635]],
+       device='cuda:0'), grad: tensor([[ 6.9849e-10,  2.0093e-07,  1.4738e-07,  ...,  0.0000e+00,
+          6.9849e-10,  0.0000e+00],
+        [-2.6310e-08,  1.3411e-05,  1.1623e-05,  ...,  0.0000e+00,
+          3.2596e-09,  0.0000e+00],
+        [-1.3970e-09,  1.6792e-06,  1.2890e-06,  ...,  0.0000e+00,
+         -4.6566e-09,  0.0000e+00],
+        ...,
+        [ 1.8626e-09, -2.5034e-05, -1.9580e-05,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [-7.6834e-09,  7.3910e-06,  5.6587e-06,  ...,  0.0000e+00,
+         -1.1176e-08,  0.0000e+00],
+        [ 1.1642e-09,  8.4564e-07,  6.8359e-07,  ...,  0.0000e+00,
+          6.9849e-10,  0.0000e+00]], device='cuda:0')
+Epoch 267, bias, value: tensor([-0.0077,  0.0174, -0.0153,  0.0178,  0.0249, -0.0204, -0.0166, -0.0139,
+        -0.0287, -0.0254], device='cuda:0'), grad: tensor([ 9.4622e-07,  7.0274e-05,  8.1211e-06,  1.3411e-07,  8.4797e-07,
+         1.1898e-07,  2.1011e-06, -1.2231e-04,  3.5524e-05,  4.4033e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 266, time 216.95, cls_loss 0.0013 cls_loss_mapping 0.0026 cls_loss_causal 0.4584 re_mapping 0.0042 re_causal 0.0120 /// teacc 99.16 lr 0.00010000
+Epoch 268, weight, value: tensor([[-0.2200, -0.1270, -0.0900,  ..., -0.0042, -0.0516, -0.0125],
+        [-0.1138,  0.1061, -0.0802,  ...,  0.0206, -0.0493, -0.0787],
+        [ 0.1081, -0.1491, -0.1604,  ..., -0.0612,  0.1352, -0.0328],
+        ...,
+        [-0.1635, -0.0828,  0.1128,  ...,  0.0397, -0.1954, -0.0012],
+        [ 0.0879,  0.0014, -0.2767,  ..., -0.0666,  0.1470, -0.0338],
+        [-0.1981, -0.1569,  0.0321,  ..., -0.0147, -0.1854, -0.0635]],
+       device='cuda:0'), grad: tensor([[ 9.8487e-08,  9.8720e-08,  4.1910e-09,  ...,  0.0000e+00,
+          9.0804e-09,  0.0000e+00],
+        [ 1.6997e-08,  3.5902e-07,  1.0058e-07,  ...,  0.0000e+00,
+          1.7695e-08,  0.0000e+00],
+        [-1.1642e-07,  2.6077e-08,  4.6566e-09,  ...,  0.0000e+00,
+         -6.7754e-08,  0.0000e+00],
+        ...,
+        [ 1.0058e-07,  2.3912e-07,  8.2888e-08,  ...,  0.0000e+00,
+          9.1735e-08,  0.0000e+00],
+        [ 9.6159e-08,  3.4226e-08,  6.7521e-09,  ...,  0.0000e+00,
+          1.8650e-07,  0.0000e+00],
+        [ 8.6147e-09,  4.7162e-06,  1.7211e-06,  ...,  0.0000e+00,
+          1.5367e-08,  0.0000e+00]], device='cuda:0')
+Epoch 268, bias, value: tensor([-0.0076,  0.0172, -0.0153,  0.0205,  0.0251, -0.0224, -0.0168, -0.0136,
+        -0.0285, -0.0257], device='cuda:0'), grad: tensor([-5.5041e-07,  9.5926e-07, -1.7835e-07, -8.8522e-07, -1.5497e-05,
+         3.6461e-07,  1.8766e-06,  9.6485e-07,  7.7300e-07,  1.2137e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 267, time 217.08, cls_loss 0.0011 cls_loss_mapping 0.0019 cls_loss_causal 0.4971 re_mapping 0.0043 re_causal 0.0130 /// teacc 99.09 lr 0.00010000
+Epoch 269, weight, value: tensor([[-0.2211, -0.1270, -0.0900,  ..., -0.0042, -0.0519, -0.0125],
+        [-0.1138,  0.1070, -0.0803,  ...,  0.0206, -0.0493, -0.0789],
+        [ 0.1081, -0.1493, -0.1607,  ..., -0.0612,  0.1353, -0.0328],
+        ...,
+        [-0.1636, -0.0829,  0.1127,  ...,  0.0397, -0.1954, -0.0013],
+        [ 0.0908,  0.0012, -0.2752,  ..., -0.0666,  0.1481, -0.0338],
+        [-0.2016, -0.1595,  0.0319,  ..., -0.0147, -0.1886, -0.0636]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  8.1491e-09,  0.0000e+00,  ...,  0.0000e+00,
+          5.6345e-08,  0.0000e+00],
+        [ 3.7253e-09, -7.9162e-07,  7.2177e-09,  ...,  0.0000e+00,
+          3.8184e-08,  0.0000e+00],
+        [-8.7544e-08,  3.1572e-07,  9.3132e-10,  ...,  0.0000e+00,
+         -7.1013e-07,  0.0000e+00],
+        ...,
+        [ 4.8429e-08,  3.1898e-07, -9.5461e-09,  ...,  0.0000e+00,
+          5.1130e-07,  0.0000e+00],
+        [ 6.7521e-09,  3.4692e-08,  4.6566e-10,  ...,  0.0000e+00,
+          3.4692e-08,  0.0000e+00],
+        [ 4.4238e-09,  7.1479e-08,  4.1910e-09,  ...,  0.0000e+00,
+          4.8894e-09,  0.0000e+00]], device='cuda:0')
+Epoch 269, bias, value: tensor([-0.0075,  0.0176, -0.0154,  0.0206,  0.0252, -0.0225, -0.0169, -0.0137,
+        -0.0266, -0.0266], device='cuda:0'), grad: tensor([ 1.4878e-07, -1.1194e-06, -1.1940e-06,  1.8789e-07,  2.5844e-08,
+        -6.3097e-08,  4.3074e-08,  1.7369e-06,  1.0850e-07,  1.3667e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 268, time 216.83, cls_loss 0.0011 cls_loss_mapping 0.0020 cls_loss_causal 0.4975 re_mapping 0.0044 re_causal 0.0132 /// teacc 99.12 lr 0.00010000
+Epoch 270, weight, value: tensor([[-0.2215, -0.1271, -0.0900,  ..., -0.0042, -0.0489, -0.0125],
+        [-0.1139,  0.1075, -0.0802,  ...,  0.0206, -0.0493, -0.0794],
+        [ 0.1082, -0.1494, -0.1616,  ..., -0.0612,  0.1354, -0.0328],
+        ...,
+        [-0.1637, -0.0833,  0.1114,  ...,  0.0397, -0.1955, -0.0013],
+        [ 0.0908,  0.0011, -0.2756,  ..., -0.0666,  0.1482, -0.0338],
+        [-0.2016, -0.1603,  0.0319,  ..., -0.0147, -0.1903, -0.0639]],
+       device='cuda:0'), grad: tensor([[ 2.6543e-08,  2.8871e-08,  2.5611e-08,  ...,  0.0000e+00,
+          1.0245e-08,  0.0000e+00],
+        [ 1.8161e-08,  7.4878e-07,  6.7800e-07,  ...,  0.0000e+00,
+          2.2352e-08,  0.0000e+00],
+        [-7.0874e-07,  2.2817e-08,  2.0489e-08,  ...,  0.0000e+00,
+         -1.1530e-06,  0.0000e+00],
+        ...,
+        [ 4.4703e-08,  1.2312e-06,  1.0841e-06,  ...,  0.0000e+00,
+          5.8208e-08,  0.0000e+00],
+        [ 6.3144e-07,  7.2410e-07,  6.3656e-07,  ...,  0.0000e+00,
+          9.6392e-07,  0.0000e+00],
+        [ 3.9721e-07,  2.2277e-06,  2.1178e-06,  ...,  0.0000e+00,
+          6.8452e-08,  0.0000e+00]], device='cuda:0')
+Epoch 270, bias, value: tensor([-0.0070,  0.0176, -0.0153,  0.0205,  0.0261, -0.0224, -0.0169, -0.0141,
+        -0.0267, -0.0273], device='cuda:0'), grad: tensor([ 1.7835e-07,  3.4850e-06, -2.2054e-06,  3.0510e-06, -2.4334e-05,
+        -4.7646e-06,  7.9209e-07,  5.6364e-06,  5.3868e-06,  1.2778e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 269, time 216.73, cls_loss 0.0011 cls_loss_mapping 0.0015 cls_loss_causal 0.4744 re_mapping 0.0041 re_causal 0.0121 /// teacc 99.09 lr 0.00010000
+Epoch 271, weight, value: tensor([[-0.2233, -0.1279, -0.0900,  ..., -0.0042, -0.0488, -0.0126],
+        [-0.1141,  0.1075, -0.0805,  ...,  0.0206, -0.0494, -0.0795],
+        [ 0.1083, -0.1495, -0.1635,  ..., -0.0612,  0.1355, -0.0329],
+        ...,
+        [-0.1637, -0.0834,  0.1113,  ...,  0.0397, -0.1955, -0.0014],
+        [ 0.0908,  0.0011, -0.2761,  ..., -0.0666,  0.1483, -0.0339],
+        [-0.2017, -0.1610,  0.0318,  ..., -0.0147, -0.1904, -0.0640]],
+       device='cuda:0'), grad: tensor([[ 1.0245e-08,  1.5832e-08, -3.2410e-07,  ...,  0.0000e+00,
+          7.9162e-09,  0.0000e+00],
+        [ 3.2596e-09, -4.0513e-08,  2.5611e-08,  ...,  0.0000e+00,
+          3.2596e-09,  0.0000e+00],
+        [-7.8697e-08,  3.7719e-08,  5.4482e-08,  ...,  0.0000e+00,
+         -1.4948e-07,  0.0000e+00],
+        ...,
+        [ 7.9628e-08,  1.9558e-08, -8.8010e-08,  ...,  0.0000e+00,
+          1.2666e-07,  0.0000e+00],
+        [ 3.5390e-08,  1.3039e-08,  1.6298e-08,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [ 9.4995e-08,  2.6356e-07,  5.7928e-07,  ...,  0.0000e+00,
+          6.5193e-09,  0.0000e+00]], device='cuda:0')
+Epoch 271, bias, value: tensor([-0.0071,  0.0175, -0.0153,  0.0203,  0.0264, -0.0221, -0.0168, -0.0141,
+        -0.0268, -0.0275], device='cuda:0'), grad: tensor([-5.9158e-06,  2.2445e-07,  3.7346e-07,  1.8915e-06, -2.0415e-06,
+         3.1712e-07,  2.3935e-07,  2.6403e-07,  2.7521e-07,  4.3735e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 270, time 216.69, cls_loss 0.0010 cls_loss_mapping 0.0018 cls_loss_causal 0.5010 re_mapping 0.0042 re_causal 0.0128 /// teacc 99.11 lr 0.00010000
+Epoch 272, weight, value: tensor([[-0.2239, -0.1279, -0.0900,  ..., -0.0041, -0.0489, -0.0127],
+        [-0.1142,  0.1077, -0.0808,  ...,  0.0205, -0.0495, -0.0796],
+        [ 0.1083, -0.1495, -0.1634,  ..., -0.0612,  0.1357, -0.0329],
+        ...,
+        [-0.1638, -0.0837,  0.1115,  ...,  0.0396, -0.1956, -0.0014],
+        [ 0.0904,  0.0007, -0.2763,  ..., -0.0666,  0.1482, -0.0339],
+        [-0.2018, -0.1613,  0.0318,  ..., -0.0147, -0.1909, -0.0649]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  1.8626e-09,  9.3132e-10,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 4.6566e-10, -1.6484e-07,  6.9849e-09,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10,  4.6566e-09,  1.3970e-09,  ...,  0.0000e+00,
+         -4.6566e-10,  0.0000e+00],
+        ...,
+        [ 1.3970e-09,  1.1967e-07, -8.8476e-09,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [-3.3993e-08,  1.5367e-08,  1.3970e-09,  ...,  0.0000e+00,
+         -2.5611e-08,  0.0000e+00],
+        [ 2.6543e-08,  1.5041e-07,  1.4761e-07,  ...,  0.0000e+00,
+          2.0023e-08,  0.0000e+00]], device='cuda:0')
+Epoch 272, bias, value: tensor([-0.0070,  0.0175, -0.0152,  0.0198,  0.0265, -0.0215, -0.0169, -0.0142,
+        -0.0271, -0.0276], device='cuda:0'), grad: tensor([-2.9802e-08, -1.9232e-07,  1.6298e-08,  1.2107e-08, -8.2236e-07,
+        -6.9849e-09,  4.6566e-08,  1.3877e-07, -6.8452e-08,  9.2154e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 271, time 216.41, cls_loss 0.0011 cls_loss_mapping 0.0022 cls_loss_causal 0.4802 re_mapping 0.0042 re_causal 0.0127 /// teacc 99.02 lr 0.00010000
+Epoch 273, weight, value: tensor([[-0.2258, -0.1287, -0.0900,  ..., -0.0041, -0.0490, -0.0127],
+        [-0.1142,  0.1084, -0.0810,  ...,  0.0205, -0.0495, -0.0796],
+        [ 0.1084, -0.1498, -0.1637,  ..., -0.0612,  0.1360, -0.0329],
+        ...,
+        [-0.1638, -0.0842,  0.1120,  ...,  0.0396, -0.1957, -0.0014],
+        [ 0.0909,  0.0005, -0.2766,  ..., -0.0666,  0.1487, -0.0339],
+        [-0.2019, -0.1616,  0.0317,  ..., -0.0147, -0.1915, -0.0649]],
+       device='cuda:0'), grad: tensor([[ 1.4901e-08,  1.3970e-08,  1.3970e-09,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 1.3039e-08,  3.3937e-06,  4.0047e-08,  ...,  0.0000e+00,
+          6.5193e-09,  0.0000e+00],
+        [ 1.0338e-07,  9.9186e-08,  7.4506e-09,  ...,  0.0000e+00,
+         -4.6566e-10,  0.0000e+00],
+        ...,
+        [-2.3283e-09, -4.6045e-06, -9.2201e-08,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 3.9814e-07,  7.0035e-07,  2.7940e-09,  ...,  0.0000e+00,
+          3.2596e-09,  0.0000e+00],
+        [ 1.8626e-09,  4.3027e-07,  8.9873e-08,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 273, bias, value: tensor([-0.0071,  0.0180, -0.0151,  0.0194,  0.0263, -0.0212, -0.0172, -0.0142,
+        -0.0269, -0.0276], device='cuda:0'), grad: tensor([-9.3132e-09,  5.3793e-05,  1.1399e-06,  3.8892e-06, -3.5577e-07,
+         1.2200e-07, -1.0608e-06, -7.1943e-05,  9.0897e-06,  5.3495e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 272, time 217.17, cls_loss 0.0011 cls_loss_mapping 0.0021 cls_loss_causal 0.4703 re_mapping 0.0042 re_causal 0.0128 /// teacc 99.10 lr 0.00010000
+Epoch 274, weight, value: tensor([[-0.2273, -0.1293, -0.0904,  ..., -0.0041, -0.0491, -0.0127],
+        [-0.1143,  0.1088, -0.0808,  ...,  0.0205, -0.0494, -0.0796],
+        [ 0.1085, -0.1502, -0.1647,  ..., -0.0612,  0.1360, -0.0330],
+        ...,
+        [-0.1639, -0.0848,  0.1119,  ...,  0.0396, -0.1958, -0.0014],
+        [ 0.0881, -0.0023, -0.2769,  ..., -0.0666,  0.1482, -0.0340],
+        [-0.2020, -0.1622,  0.0318,  ..., -0.0147, -0.1916, -0.0649]],
+       device='cuda:0'), grad: tensor([[4.6566e-10, 7.4506e-09, 3.2596e-09,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 2.9150e-07, 4.9826e-08,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 3.3528e-08, 1.2573e-08,  ..., 0.0000e+00, 4.6566e-10,
+         0.0000e+00],
+        ...,
+        [0.0000e+00, 4.4238e-08, 3.6554e-07,  ..., 0.0000e+00, 4.6566e-10,
+         0.0000e+00],
+        [2.7940e-09, 7.9162e-09, 6.9849e-09,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [9.3132e-10, 3.5716e-07, 1.2806e-06,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00]], device='cuda:0')
+Epoch 274, bias, value: tensor([-0.0072,  0.0181, -0.0153,  0.0193,  0.0271, -0.0209, -0.0169, -0.0142,
+        -0.0294, -0.0277], device='cuda:0'), grad: tensor([-2.1886e-07,  7.4133e-07,  1.1036e-07,  9.3132e-09, -7.8231e-06,
+         2.3283e-09,  1.3364e-07,  9.6112e-07,  5.5414e-08,  6.0350e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 273, time 217.03, cls_loss 0.0010 cls_loss_mapping 0.0017 cls_loss_causal 0.5055 re_mapping 0.0042 re_causal 0.0133 /// teacc 99.06 lr 0.00010000
+Epoch 275, weight, value: tensor([[-0.2280, -0.1294, -0.0904,  ..., -0.0041, -0.0491, -0.0128],
+        [-0.1155,  0.1101, -0.0792,  ...,  0.0205, -0.0503, -0.0797],
+        [ 0.1092, -0.1511, -0.1655,  ..., -0.0612,  0.1367, -0.0330],
+        ...,
+        [-0.1639, -0.0864,  0.1119,  ...,  0.0396, -0.1959, -0.0014],
+        [ 0.0880, -0.0024, -0.2772,  ..., -0.0666,  0.1481, -0.0340],
+        [-0.2020, -0.1632,  0.0314,  ..., -0.0147, -0.1917, -0.0651]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  9.3132e-10,  1.3970e-09,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 9.3132e-10, -6.1002e-08,  2.2352e-08,  ...,  0.0000e+00,
+         -6.5193e-09,  0.0000e+00],
+        [-1.3970e-09,  2.0023e-08,  2.7940e-09,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        ...,
+        [ 3.2596e-09,  2.2352e-08, -2.6543e-08,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [ 2.2072e-07,  8.3819e-09,  4.1910e-09,  ...,  0.0000e+00,
+          8.3819e-08,  0.0000e+00],
+        [ 5.7276e-08,  3.7253e-09, -1.6252e-07,  ...,  0.0000e+00,
+          2.2352e-08,  0.0000e+00]], device='cuda:0')
+Epoch 275, bias, value: tensor([-0.0071,  0.0184, -0.0150,  0.0192,  0.0274, -0.0210, -0.0170, -0.0144,
+        -0.0297, -0.0280], device='cuda:0'), grad: tensor([-7.5903e-08, -3.7253e-09,  4.2841e-08,  1.4352e-06,  7.1619e-07,
+        -2.1718e-06,  4.2375e-08, -2.6543e-08,  5.9931e-07, -5.5553e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 274, time 216.91, cls_loss 0.0010 cls_loss_mapping 0.0016 cls_loss_causal 0.5108 re_mapping 0.0039 re_causal 0.0125 /// teacc 99.09 lr 0.00010000
+Epoch 276, weight, value: tensor([[-0.2291, -0.1307, -0.0904,  ..., -0.0041, -0.0494, -0.0128],
+        [-0.1157,  0.1104, -0.0795,  ...,  0.0205, -0.0504, -0.0797],
+        [ 0.1095, -0.1514, -0.1655,  ..., -0.0612,  0.1371, -0.0330],
+        ...,
+        [-0.1642, -0.0866,  0.1128,  ...,  0.0396, -0.1962, -0.0014],
+        [ 0.0879, -0.0025, -0.2775,  ..., -0.0666,  0.1481, -0.0340],
+        [-0.2021, -0.1642,  0.0311,  ..., -0.0147, -0.1920, -0.0651]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09,  5.1223e-09,  9.3132e-10,  ...,  0.0000e+00,
+          3.2596e-09,  0.0000e+00],
+        [ 5.5879e-09,  9.3132e-09,  1.2759e-07,  ...,  0.0000e+00,
+          2.3283e-09,  0.0000e+00],
+        [ 4.1910e-09,  1.0245e-08,  3.2596e-09,  ...,  0.0000e+00,
+          4.6566e-09,  0.0000e+00],
+        ...,
+        [ 3.2596e-09,  9.7789e-09, -1.3597e-07,  ...,  0.0000e+00,
+          4.6566e-09,  0.0000e+00],
+        [-4.1910e-09,  1.9558e-08,  6.0536e-09,  ...,  0.0000e+00,
+         -5.3085e-08,  0.0000e+00],
+        [ 2.4214e-08,  2.0070e-07,  5.3085e-08,  ...,  0.0000e+00,
+          4.6566e-09,  0.0000e+00]], device='cuda:0')
+Epoch 276, bias, value: tensor([-0.0075,  0.0185, -0.0147,  0.0189,  0.0275, -0.0207, -0.0165, -0.0145,
+        -0.0299, -0.0283], device='cuda:0'), grad: tensor([-9.4995e-08,  4.5169e-07,  4.8429e-08,  2.6543e-08, -5.6205e-07,
+         1.4435e-07, -6.7055e-08, -4.2561e-07, -8.3819e-08,  5.6438e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 275, time 216.56, cls_loss 0.0011 cls_loss_mapping 0.0015 cls_loss_causal 0.4607 re_mapping 0.0038 re_causal 0.0120 /// teacc 99.02 lr 0.00010000
+Epoch 277, weight, value: tensor([[-0.2314, -0.1317, -0.0904,  ..., -0.0040, -0.0491, -0.0128],
+        [-0.1156,  0.1107, -0.0798,  ...,  0.0205, -0.0505, -0.0797],
+        [ 0.1102, -0.1516, -0.1657,  ..., -0.0614,  0.1374, -0.0330],
+        ...,
+        [-0.1648, -0.0869,  0.1130,  ...,  0.0398, -0.1965, -0.0014],
+        [ 0.0874, -0.0029, -0.2777,  ..., -0.0667,  0.1482, -0.0341],
+        [-0.2022, -0.1644,  0.0311,  ..., -0.0149, -0.1921, -0.0651]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  4.1910e-08, -9.3132e-10,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 4.1910e-09, -1.4016e-07,  2.0955e-08,  ...,  0.0000e+00,
+          9.7789e-09,  0.0000e+00],
+        [-5.1223e-09,  2.9802e-07,  2.7940e-09,  ...,  0.0000e+00,
+         -6.9849e-09,  0.0000e+00],
+        ...,
+        [ 3.2596e-09,  5.6811e-08,  1.1176e-08,  ...,  0.0000e+00,
+          6.0536e-09,  0.0000e+00],
+        [-1.1176e-08,  1.3970e-08,  1.4435e-08,  ...,  0.0000e+00,
+         -1.8161e-08,  0.0000e+00],
+        [ 7.9162e-09,  2.4494e-07,  4.6566e-10,  ...,  0.0000e+00,
+          1.0245e-08,  0.0000e+00]], device='cuda:0')
+Epoch 277, bias, value: tensor([-0.0075,  0.0187, -0.0143,  0.0192,  0.0274, -0.0204, -0.0163, -0.0153,
+        -0.0303, -0.0282], device='cuda:0'), grad: tensor([-1.1222e-07, -7.5437e-08,  9.3225e-07,  4.5169e-08, -2.0266e-06,
+         9.3132e-09,  5.0012e-07,  1.5320e-07,  6.6590e-08,  5.2061e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 276, time 216.82, cls_loss 0.0016 cls_loss_mapping 0.0030 cls_loss_causal 0.4743 re_mapping 0.0038 re_causal 0.0116 /// teacc 98.99 lr 0.00010000
+Epoch 278, weight, value: tensor([[-0.2350, -0.1337, -0.0905,  ..., -0.0038, -0.0493, -0.0128],
+        [-0.1159,  0.1108, -0.0805,  ...,  0.0205, -0.0506, -0.0797],
+        [ 0.1104, -0.1519, -0.1653,  ..., -0.0614,  0.1376, -0.0330],
+        ...,
+        [-0.1649, -0.0869,  0.1126,  ...,  0.0398, -0.1965, -0.0014],
+        [ 0.0878, -0.0028, -0.2782,  ..., -0.0667,  0.1483, -0.0341],
+        [-0.2024, -0.1645,  0.0314,  ..., -0.0150, -0.1924, -0.0651]],
+       device='cuda:0'), grad: tensor([[ 1.1157e-06,  2.4419e-06,  4.6566e-10,  ...,  0.0000e+00,
+          2.5611e-08,  0.0000e+00],
+        [ 1.7695e-08, -1.3784e-06,  4.1910e-09,  ...,  0.0000e+00,
+          1.4901e-08,  0.0000e+00],
+        [ 5.3085e-08,  1.2713e-07,  9.3132e-10,  ...,  0.0000e+00,
+          3.8650e-08,  0.0000e+00],
+        ...,
+        [ 1.8626e-08,  8.0001e-07, -2.7940e-09,  ...,  0.0000e+00,
+          1.5367e-08,  0.0000e+00],
+        [-3.1199e-07,  1.2619e-07,  6.5193e-09,  ...,  0.0000e+00,
+         -4.5355e-07,  0.0000e+00],
+        [ 2.9756e-07,  8.8662e-07,  2.9337e-08,  ...,  0.0000e+00,
+          1.9092e-08,  0.0000e+00]], device='cuda:0')
+Epoch 278, bias, value: tensor([-0.0076,  0.0184, -0.0142,  0.0168,  0.0273, -0.0180, -0.0162, -0.0156,
+        -0.0299, -0.0282], device='cuda:0'), grad: tensor([ 1.0684e-05, -2.7958e-06,  4.4191e-07,  1.1446e-06, -4.0792e-06,
+        -1.0198e-06, -1.0811e-05,  1.9446e-06, -3.1944e-07,  4.8056e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 277, time 216.73, cls_loss 0.0010 cls_loss_mapping 0.0017 cls_loss_causal 0.4882 re_mapping 0.0040 re_causal 0.0126 /// teacc 99.08 lr 0.00010000
+Epoch 279, weight, value: tensor([[-0.2362, -0.1338, -0.0906,  ..., -0.0038, -0.0495, -0.0128],
+        [-0.1168,  0.1108, -0.0807,  ...,  0.0205, -0.0509, -0.0797],
+        [ 0.1106, -0.1522, -0.1643,  ..., -0.0614,  0.1378, -0.0330],
+        ...,
+        [-0.1654, -0.0870,  0.1129,  ...,  0.0398, -0.1968, -0.0015],
+        [ 0.0885, -0.0025, -0.2787,  ..., -0.0667,  0.1490, -0.0342],
+        [-0.2025, -0.1650,  0.0313,  ..., -0.0151, -0.1927, -0.0651]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  4.1910e-09,  1.8626e-09,  ...,  0.0000e+00,
+          2.5146e-08,  0.0000e+00],
+        [ 3.7253e-09, -2.1374e-07,  1.1502e-07,  ...,  0.0000e+00,
+          2.3283e-09,  0.0000e+00],
+        [-6.0536e-09,  1.4901e-08,  6.0070e-08,  ...,  0.0000e+00,
+         -5.5879e-08,  0.0000e+00],
+        ...,
+        [ 3.2922e-07,  1.6857e-07, -2.5053e-07,  ...,  0.0000e+00,
+          1.5786e-07,  0.0000e+00],
+        [-3.6880e-07,  5.5879e-08,  2.5611e-08,  ...,  0.0000e+00,
+         -1.6391e-07,  0.0000e+00],
+        [ 1.1176e-08,  1.2666e-07,  5.8208e-08,  ...,  0.0000e+00,
+          4.1910e-09,  0.0000e+00]], device='cuda:0')
+Epoch 279, bias, value: tensor([-0.0075,  0.0181, -0.0140,  0.0159,  0.0274, -0.0171, -0.0164, -0.0158,
+        -0.0293, -0.0284], device='cuda:0'), grad: tensor([-1.3970e-08,  9.5926e-08,  9.9652e-08,  7.1246e-08, -7.6694e-07,
+         2.5146e-08,  4.2375e-08,  1.8114e-07, -5.4110e-07,  8.2655e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 278, time 216.91, cls_loss 0.0012 cls_loss_mapping 0.0020 cls_loss_causal 0.5034 re_mapping 0.0038 re_causal 0.0120 /// teacc 99.09 lr 0.00010000
+Epoch 280, weight, value: tensor([[-0.2371, -0.1339, -0.0906,  ..., -0.0038, -0.0496, -0.0128],
+        [-0.1169,  0.1111, -0.0809,  ...,  0.0205, -0.0510, -0.0797],
+        [ 0.1109, -0.1524, -0.1649,  ..., -0.0614,  0.1381, -0.0330],
+        ...,
+        [-0.1656, -0.0871,  0.1135,  ...,  0.0398, -0.1970, -0.0015],
+        [ 0.0883, -0.0026, -0.2792,  ..., -0.0667,  0.1488, -0.0343],
+        [-0.2027, -0.1656,  0.0312,  ..., -0.0151, -0.1930, -0.0651]],
+       device='cuda:0'), grad: tensor([[ 3.1199e-08,  3.8464e-07,  4.6566e-10,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [ 3.2596e-08, -8.9407e-06,  5.1223e-09,  ...,  0.0000e+00,
+          1.7229e-08,  0.0000e+00],
+        [ 3.7253e-09,  9.9652e-08,  4.6566e-10,  ...,  0.0000e+00,
+         -4.7963e-08,  0.0000e+00],
+        ...,
+        [ 6.1467e-08,  2.8871e-06, -3.2596e-09,  ...,  0.0000e+00,
+          2.2817e-08,  0.0000e+00],
+        [ 8.4750e-08,  4.7451e-07,  7.9162e-09,  ...,  0.0000e+00,
+         -5.2620e-08,  0.0000e+00],
+        [ 3.0361e-07,  2.8824e-07, -3.2596e-08,  ...,  0.0000e+00,
+          2.3283e-09,  0.0000e+00]], device='cuda:0')
+Epoch 280, bias, value: tensor([-0.0073,  0.0182, -0.0139,  0.0150,  0.0274, -0.0161, -0.0165, -0.0157,
+        -0.0298, -0.0287], device='cuda:0'), grad: tensor([-6.7540e-06, -1.6063e-05,  9.4529e-08,  3.5614e-05,  1.0356e-06,
+        -4.0084e-05,  1.7121e-05,  5.5395e-06,  1.2666e-06,  2.1458e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 279, time 216.58, cls_loss 0.0010 cls_loss_mapping 0.0020 cls_loss_causal 0.4807 re_mapping 0.0042 re_causal 0.0124 /// teacc 99.14 lr 0.00010000
+Epoch 281, weight, value: tensor([[-0.2373, -0.1338, -0.0906,  ..., -0.0038, -0.0497, -0.0128],
+        [-0.1170,  0.1121, -0.0801,  ...,  0.0205, -0.0511, -0.0797],
+        [ 0.1109, -0.1529, -0.1654,  ..., -0.0614,  0.1382, -0.0330],
+        ...,
+        [-0.1656, -0.0883,  0.1133,  ...,  0.0398, -0.1971, -0.0015],
+        [ 0.0884, -0.0027, -0.2795,  ..., -0.0667,  0.1488, -0.0344],
+        [-0.2027, -0.1662,  0.0311,  ..., -0.0151, -0.1930, -0.0651]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-08,  6.3330e-08,  9.3132e-10,  ...,  0.0000e+00,
+          4.1910e-09,  0.0000e+00],
+        [ 8.1025e-08, -3.5483e-07,  1.0245e-08,  ...,  0.0000e+00,
+          1.6112e-07,  0.0000e+00],
+        [-1.8068e-07,  3.4459e-08,  1.3970e-09,  ...,  0.0000e+00,
+         -3.7579e-07,  0.0000e+00],
+        ...,
+        [ 2.8871e-08,  1.2992e-07, -1.3504e-08,  ...,  0.0000e+00,
+          5.5414e-08,  0.0000e+00],
+        [ 1.6158e-07,  4.4703e-08,  3.7253e-09,  ...,  0.0000e+00,
+          1.3923e-07,  0.0000e+00],
+        [-9.7789e-08,  4.1910e-08, -1.1176e-08,  ...,  0.0000e+00,
+          1.3970e-09,  0.0000e+00]], device='cuda:0')
+Epoch 281, bias, value: tensor([-0.0071,  0.0186, -0.0141,  0.0150,  0.0274, -0.0161, -0.0170, -0.0158,
+        -0.0299, -0.0288], device='cuda:0'), grad: tensor([-2.1560e-07, -6.9849e-09, -9.5554e-07,  1.4994e-07,  2.4633e-07,
+        -3.2596e-09, -7.6834e-08,  3.5297e-07,  2.0526e-06, -1.5562e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 280, time 216.90, cls_loss 0.0013 cls_loss_mapping 0.0017 cls_loss_causal 0.4792 re_mapping 0.0040 re_causal 0.0117 /// teacc 99.02 lr 0.00010000
+Epoch 282, weight, value: tensor([[-0.2383, -0.1340, -0.0905,  ..., -0.0038, -0.0499, -0.0128],
+        [-0.1148,  0.1140, -0.0805,  ...,  0.0205, -0.0510, -0.0798],
+        [ 0.1099, -0.1555, -0.1658,  ..., -0.0614,  0.1384, -0.0330],
+        ...,
+        [-0.1657, -0.0886,  0.1137,  ...,  0.0398, -0.1972, -0.0015],
+        [ 0.0884, -0.0034, -0.2800,  ..., -0.0667,  0.1489, -0.0345],
+        [-0.2030, -0.1667,  0.0310,  ..., -0.0151, -0.1935, -0.0651]],
+       device='cuda:0'), grad: tensor([[ 1.7229e-08,  4.2841e-08,  4.1910e-09,  ...,  0.0000e+00,
+          9.7789e-09,  0.0000e+00],
+        [ 9.7789e-09, -7.5903e-08,  1.0710e-08,  ...,  0.0000e+00,
+          1.3970e-08,  0.0000e+00],
+        [-1.4901e-08,  1.1176e-08, -1.8626e-08,  ...,  0.0000e+00,
+         -6.9384e-08,  0.0000e+00],
+        ...,
+        [ 5.1223e-09,  1.7695e-08,  3.4925e-08,  ...,  0.0000e+00,
+          5.8673e-08,  0.0000e+00],
+        [-9.3132e-09,  3.8184e-08,  2.7940e-09,  ...,  0.0000e+00,
+          1.8207e-07,  0.0000e+00],
+        [ 2.7940e-09,  3.4459e-08, -2.3469e-07,  ...,  0.0000e+00,
+          9.3132e-09,  0.0000e+00]], device='cuda:0')
+Epoch 282, bias, value: tensor([-0.0066,  0.0198, -0.0149,  0.0150,  0.0274, -0.0160, -0.0177, -0.0157,
+        -0.0305, -0.0290], device='cuda:0'), grad: tensor([-1.0453e-05,  2.8079e-07,  2.4009e-06, -2.0117e-07,  5.8189e-06,
+         7.9023e-07, -1.8934e-06,  1.0841e-06,  1.1157e-06,  1.0543e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 281, time 216.79, cls_loss 0.0010 cls_loss_mapping 0.0016 cls_loss_causal 0.4863 re_mapping 0.0039 re_causal 0.0123 /// teacc 99.11 lr 0.00010000
+Epoch 283, weight, value: tensor([[-0.2388, -0.1340, -0.0905,  ..., -0.0038, -0.0500, -0.0128],
+        [-0.1148,  0.1139, -0.0806,  ...,  0.0205, -0.0512, -0.0798],
+        [ 0.1101, -0.1555, -0.1660,  ..., -0.0614,  0.1388, -0.0330],
+        ...,
+        [-0.1658, -0.0882,  0.1138,  ...,  0.0398, -0.1973, -0.0015],
+        [ 0.0884, -0.0034, -0.2801,  ..., -0.0667,  0.1489, -0.0345],
+        [-0.2030, -0.1665,  0.0310,  ..., -0.0151, -0.1937, -0.0651]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-08,  7.9162e-09, -5.9139e-08,  ...,  0.0000e+00,
+          4.1910e-09,  0.0000e+00],
+        [ 3.4925e-08, -3.8650e-08,  6.6590e-08,  ...,  0.0000e+00,
+          4.7497e-08,  0.0000e+00],
+        [ 9.3132e-09,  5.5879e-09,  5.7742e-08,  ...,  0.0000e+00,
+         -5.3551e-08,  0.0000e+00],
+        ...,
+        [ 2.0955e-08,  2.1886e-08, -5.1921e-07,  ...,  0.0000e+00,
+          2.7474e-08,  0.0000e+00],
+        [-1.6717e-07,  6.9849e-09,  1.0245e-08,  ...,  0.0000e+00,
+         -1.2200e-07,  0.0000e+00],
+        [ 1.8626e-09,  2.3050e-07,  7.1572e-07,  ...,  0.0000e+00,
+          2.3283e-09,  0.0000e+00]], device='cuda:0')
+Epoch 283, bias, value: tensor([-0.0064,  0.0194, -0.0148,  0.0150,  0.0272, -0.0161, -0.0177, -0.0154,
+        -0.0306, -0.0289], device='cuda:0'), grad: tensor([-2.0444e-05,  1.1064e-06,  1.3793e-06,  1.9427e-06, -5.4110e-07,
+         2.5220e-06,  1.5190e-06, -5.5321e-07,  8.3353e-08,  1.2994e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 282, time 216.86, cls_loss 0.0014 cls_loss_mapping 0.0026 cls_loss_causal 0.4885 re_mapping 0.0042 re_causal 0.0118 /// teacc 99.07 lr 0.00010000
+Epoch 284, weight, value: tensor([[-0.2414, -0.1345, -0.0904,  ..., -0.0037, -0.0502, -0.0128],
+        [-0.1150,  0.1140, -0.0808,  ...,  0.0193, -0.0513, -0.0798],
+        [ 0.1091, -0.1556, -0.1657,  ..., -0.0621,  0.1390, -0.0330],
+        ...,
+        [-0.1645, -0.0882,  0.1141,  ...,  0.0392, -0.1975, -0.0015],
+        [ 0.0884, -0.0035, -0.2806,  ..., -0.0672,  0.1488, -0.0345],
+        [-0.2031, -0.1666,  0.0309,  ..., -0.0153, -0.1940, -0.0652]],
+       device='cuda:0'), grad: tensor([[ 3.1665e-08,  1.3970e-09,  2.7940e-08,  ...,  0.0000e+00,
+          1.3597e-07,  0.0000e+00],
+        [ 5.5879e-09, -7.4506e-09,  1.3504e-08,  ...,  0.0000e+00,
+          9.7789e-09,  0.0000e+00],
+        [-9.9186e-08,  9.3132e-10, -5.2154e-08,  ...,  0.0000e+00,
+         -3.5996e-07,  0.0000e+00],
+        ...,
+        [ 1.7229e-08,  9.7789e-09, -3.1665e-08,  ...,  0.0000e+00,
+          3.8184e-08,  0.0000e+00],
+        [ 2.3749e-08,  5.5879e-09,  6.0536e-09,  ...,  0.0000e+00,
+          2.7008e-08,  0.0000e+00],
+        [ 1.1642e-08,  1.1921e-07,  1.0245e-08,  ...,  0.0000e+00,
+          4.3772e-08,  0.0000e+00]], device='cuda:0')
+Epoch 284, bias, value: tensor([-0.0057,  0.0192, -0.0175,  0.0150,  0.0269, -0.0161, -0.0170, -0.0127,
+        -0.0311, -0.0291], device='cuda:0'), grad: tensor([-3.1292e-07,  1.4482e-07, -5.0664e-07,  9.0338e-08, -3.9302e-07,
+        -1.8626e-09,  7.4040e-08, -8.1491e-08,  1.2852e-07,  8.7498e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 283, time 216.73, cls_loss 0.0011 cls_loss_mapping 0.0019 cls_loss_causal 0.5063 re_mapping 0.0040 re_causal 0.0121 /// teacc 99.07 lr 0.00010000
+Epoch 285, weight, value: tensor([[-0.2428, -0.1347, -0.0905,  ..., -0.0037, -0.0503, -0.0128],
+        [-0.1151,  0.1142, -0.0813,  ...,  0.0193, -0.0516, -0.0798],
+        [ 0.1093, -0.1558, -0.1659,  ..., -0.0621,  0.1395, -0.0330],
+        ...,
+        [-0.1646, -0.0889,  0.1145,  ...,  0.0392, -0.1977, -0.0015],
+        [ 0.0884, -0.0036, -0.2814,  ..., -0.0672,  0.1487, -0.0345],
+        [-0.2032, -0.1676,  0.0306,  ..., -0.0153, -0.1942, -0.0652]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-09, -2.9337e-08,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-09,  0.0000e+00],
+        [ 4.6566e-09, -1.9558e-08,  4.1910e-09,  ...,  0.0000e+00,
+          6.0536e-09,  0.0000e+00],
+        [-1.8161e-08,  4.1910e-09, -1.3970e-09,  ...,  0.0000e+00,
+         -2.3283e-08,  0.0000e+00],
+        ...,
+        [ 5.1223e-09,  1.6298e-08, -4.6566e-09,  ...,  0.0000e+00,
+          8.3819e-09,  0.0000e+00],
+        [-4.1910e-09,  4.6566e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -5.5879e-09,  0.0000e+00],
+        [ 1.3970e-09,  4.7032e-08,  8.8476e-09,  ...,  0.0000e+00,
+          2.3283e-09,  0.0000e+00]], device='cuda:0')
+Epoch 285, bias, value: tensor([-0.0056,  0.0192, -0.0174,  0.0150,  0.0274, -0.0160, -0.0178, -0.0128,
+        -0.0314, -0.0293], device='cuda:0'), grad: tensor([-3.7206e-07,  5.4948e-08, -2.7940e-08,  9.3132e-10, -1.5274e-07,
+         1.7695e-08,  2.1374e-07, -3.0734e-08,  9.7789e-09,  2.8452e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 284, time 216.92, cls_loss 0.0015 cls_loss_mapping 0.0025 cls_loss_causal 0.4709 re_mapping 0.0041 re_causal 0.0117 /// teacc 99.07 lr 0.00010000
+Epoch 286, weight, value: tensor([[-0.2452, -0.1352, -0.0905,  ..., -0.0037, -0.0507, -0.0128],
+        [-0.1153,  0.1145, -0.0816,  ...,  0.0200, -0.0517, -0.0798],
+        [ 0.1095, -0.1559, -0.1664,  ..., -0.0623,  0.1397, -0.0330],
+        ...,
+        [-0.1646, -0.0888,  0.1156,  ...,  0.0389, -0.1978, -0.0015],
+        [ 0.0881, -0.0042, -0.2816,  ..., -0.0677,  0.1485, -0.0345],
+        [-0.2029, -0.1683,  0.0305,  ..., -0.0157, -0.1940, -0.0652]],
+       device='cuda:0'), grad: tensor([[ 1.3225e-07,  5.2759e-07,  1.2573e-08,  ...,  0.0000e+00,
+          5.7276e-08,  0.0000e+00],
+        [ 5.1223e-09, -1.4631e-06,  2.7940e-09,  ...,  0.0000e+00,
+         -1.2806e-07,  0.0000e+00],
+        [ 2.7940e-09,  4.1444e-08,  9.3132e-10,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 3.7253e-09,  4.2655e-07,  4.6566e-08,  ...,  0.0000e+00,
+          2.1886e-08,  0.0000e+00],
+        [-3.2596e-09,  1.3830e-07,  1.8626e-09,  ...,  0.0000e+00,
+          5.1223e-09,  0.0000e+00],
+        [ 4.5635e-08,  1.4016e-07, -9.6858e-08,  ...,  0.0000e+00,
+          1.1642e-08,  0.0000e+00]], device='cuda:0')
+Epoch 286, bias, value: tensor([-0.0050,  0.0192, -0.0175,  0.0130,  0.0274, -0.0141, -0.0175, -0.0126,
+        -0.0332, -0.0291], device='cuda:0'), grad: tensor([ 1.4510e-06, -3.1367e-06,  1.0105e-07,  1.4622e-07,  1.9139e-07,
+         9.1717e-06, -9.2164e-06,  1.2470e-06,  3.1013e-07, -2.5658e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 285, time 217.00, cls_loss 0.0009 cls_loss_mapping 0.0016 cls_loss_causal 0.4673 re_mapping 0.0042 re_causal 0.0125 /// teacc 99.08 lr 0.00010000
+Epoch 287, weight, value: tensor([[-0.2462, -0.1355, -0.0905,  ..., -0.0037, -0.0509, -0.0128],
+        [-0.1154,  0.1151, -0.0808,  ...,  0.0183, -0.0516, -0.0799],
+        [ 0.1096, -0.1560, -0.1671,  ..., -0.0633,  0.1399, -0.0330],
+        ...,
+        [-0.1647, -0.0896,  0.1154,  ...,  0.0380, -0.1980, -0.0015],
+        [ 0.0879, -0.0043, -0.2817,  ..., -0.0680,  0.1484, -0.0345],
+        [-0.2025, -0.1686,  0.0305,  ..., -0.0159, -0.1936, -0.0652]],
+       device='cuda:0'), grad: tensor([[ 6.2399e-08,  2.7940e-09,  1.3039e-08,  ...,  0.0000e+00,
+          7.7300e-08,  0.0000e+00],
+        [ 6.5193e-08,  1.8626e-09,  1.8626e-08,  ...,  0.0000e+00,
+          6.9849e-08,  0.0000e+00],
+        [-2.2445e-07,  1.8626e-09, -4.2841e-08,  ...,  0.0000e+00,
+         -3.0175e-07,  0.0000e+00],
+        ...,
+        [ 5.9605e-08,  9.3132e-09, -2.1420e-08,  ...,  0.0000e+00,
+          7.9162e-08,  0.0000e+00],
+        [-2.9504e-06, -5.8301e-07,  6.5193e-09,  ...,  0.0000e+00,
+         -1.3430e-06,  0.0000e+00],
+        [ 5.6811e-08,  4.3772e-08,  3.3528e-08,  ...,  0.0000e+00,
+          6.2399e-08,  0.0000e+00]], device='cuda:0')
+Epoch 287, bias, value: tensor([-0.0050,  0.0195, -0.0174,  0.0126,  0.0273, -0.0137, -0.0175, -0.0127,
+        -0.0345, -0.0286], device='cuda:0'), grad: tensor([ 2.1700e-07,  3.6508e-07, -9.4343e-07, -3.2596e-08, -7.8231e-08,
+         8.0746e-07,  4.7944e-06,  3.5390e-08, -5.5432e-06,  3.7160e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 286, time 216.72, cls_loss 0.0010 cls_loss_mapping 0.0026 cls_loss_causal 0.4965 re_mapping 0.0041 re_causal 0.0124 /// teacc 99.06 lr 0.00010000
+Epoch 288, weight, value: tensor([[-0.2472, -0.1359, -0.0907,  ..., -0.0037, -0.0508, -0.0128],
+        [-0.1156,  0.1151, -0.0809,  ...,  0.0183, -0.0517, -0.0799],
+        [ 0.1095, -0.1563, -0.1673,  ..., -0.0634,  0.1397, -0.0330],
+        ...,
+        [-0.1649, -0.0897,  0.1156,  ...,  0.0380, -0.1989, -0.0015],
+        [ 0.0884, -0.0043, -0.2819,  ..., -0.0681,  0.1492, -0.0345],
+        [-0.2026, -0.1697,  0.0304,  ..., -0.0159, -0.1939, -0.0653]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09, -2.9616e-07,  1.8626e-09,  ...,  0.0000e+00,
+          1.8626e-08,  0.0000e+00],
+        [ 1.8626e-09,  3.7253e-08,  1.8626e-09,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [-3.7253e-08,  1.6764e-08, -1.8626e-08,  ...,  0.0000e+00,
+         -1.6205e-07,  0.0000e+00],
+        ...,
+        [ 3.7253e-09,  5.5879e-09, -3.7253e-09,  ...,  0.0000e+00,
+          2.0489e-08,  0.0000e+00],
+        [ 7.4506e-09,  4.0978e-08,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-09,  0.0000e+00],
+        [ 7.4506e-09,  5.0291e-08,  1.8626e-09,  ...,  0.0000e+00,
+          1.6764e-08,  0.0000e+00]], device='cuda:0')
+Epoch 288, bias, value: tensor([-0.0056,  0.0192, -0.0175,  0.0126,  0.0277, -0.0137, -0.0175, -0.0128,
+        -0.0342, -0.0283], device='cuda:0'), grad: tensor([-2.6226e-06,  1.3039e-07, -2.1607e-07,  2.6636e-07, -3.7160e-06,
+        -5.4017e-08,  5.5358e-06,  2.7940e-08,  3.5390e-07,  2.7008e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 287, time 216.88, cls_loss 0.0010 cls_loss_mapping 0.0014 cls_loss_causal 0.5013 re_mapping 0.0038 re_causal 0.0120 /// teacc 98.92 lr 0.00010000
+Epoch 289, weight, value: tensor([[-0.2487, -0.1362, -0.0907,  ..., -0.0037, -0.0511, -0.0128],
+        [-0.1157,  0.1151, -0.0810,  ...,  0.0183, -0.0518, -0.0799],
+        [ 0.1096, -0.1564, -0.1672,  ..., -0.0634,  0.1399, -0.0330],
+        ...,
+        [-0.1650, -0.0899,  0.1158,  ...,  0.0380, -0.1991, -0.0015],
+        [ 0.0884, -0.0044, -0.2822,  ..., -0.0681,  0.1493, -0.0346],
+        [-0.2026, -0.1670,  0.0327,  ..., -0.0159, -0.1942, -0.0653]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09,  1.1176e-08,  1.8626e-09,  ...,  0.0000e+00,
+          1.1176e-08,  0.0000e+00],
+        [ 3.7253e-09, -7.6368e-08,  3.7253e-09,  ...,  0.0000e+00,
+         -1.6764e-08,  0.0000e+00],
+        [-1.6764e-08,  1.6764e-08,  1.8626e-09,  ...,  0.0000e+00,
+         -1.3039e-08,  0.0000e+00],
+        ...,
+        [ 5.5879e-09,  2.2352e-08,  6.7055e-08,  ...,  0.0000e+00,
+          4.4703e-08,  0.0000e+00],
+        [-1.1176e-08,  2.6077e-08,  1.8626e-08,  ...,  0.0000e+00,
+          3.3528e-08,  0.0000e+00],
+        [ 1.8626e-09,  2.6077e-08, -1.6391e-07,  ...,  0.0000e+00,
+          3.5390e-08,  0.0000e+00]], device='cuda:0')
+Epoch 289, bias, value: tensor([-0.0056,  0.0191, -0.0175,  0.0126,  0.0250, -0.0137, -0.0175, -0.0128,
+        -0.0343, -0.0258], device='cuda:0'), grad: tensor([ 4.0978e-07,  2.1793e-07,  2.9802e-08,  2.9244e-07,  2.3786e-06,
+         2.7027e-06,  8.5682e-08,  6.3330e-06,  1.7397e-06, -1.4223e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 288, time 216.67, cls_loss 0.0015 cls_loss_mapping 0.0018 cls_loss_causal 0.5114 re_mapping 0.0042 re_causal 0.0123 /// teacc 99.03 lr 0.00010000
+Epoch 290, weight, value: tensor([[-0.2515, -0.1389, -0.0908,  ..., -0.0037, -0.0523, -0.0128],
+        [-0.1159,  0.1173, -0.0810,  ...,  0.0183, -0.0490, -0.0799],
+        [ 0.1096, -0.1567, -0.1675,  ..., -0.0634,  0.1404, -0.0330],
+        ...,
+        [-0.1651, -0.0903,  0.1157,  ...,  0.0380, -0.1993, -0.0016],
+        [ 0.0888, -0.0066, -0.2829,  ..., -0.0681,  0.1471, -0.0346],
+        [-0.2027, -0.1670,  0.0328,  ..., -0.0159, -0.1953, -0.0656]],
+       device='cuda:0'), grad: tensor([[ 5.1409e-07,  4.2841e-06,  0.0000e+00,  ...,  0.0000e+00,
+          2.0489e-08,  0.0000e+00],
+        [ 1.1176e-08, -2.6450e-07,  5.5879e-09,  ...,  0.0000e+00,
+         -7.2643e-08,  0.0000e+00],
+        [ 0.0000e+00,  2.9802e-08,  1.8626e-09,  ...,  0.0000e+00,
+          1.6764e-08,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  5.7742e-08, -2.6077e-08,  ...,  0.0000e+00,
+          2.6077e-08,  0.0000e+00],
+        [-2.0489e-08,  9.1270e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -9.6858e-08,  0.0000e+00],
+        [ 1.1176e-08,  7.6368e-08,  2.7940e-08,  ...,  0.0000e+00,
+          4.0978e-08,  0.0000e+00]], device='cuda:0')
+Epoch 290, bias, value: tensor([-0.0058,  0.0209, -0.0175,  0.0126,  0.0250, -0.0137, -0.0174, -0.0129,
+        -0.0359, -0.0258], device='cuda:0'), grad: tensor([ 1.6376e-05, -3.9861e-07,  1.0990e-07, -5.4017e-08,  4.6566e-07,
+         8.7172e-07, -1.7941e-05,  9.1270e-08, -9.3132e-09,  4.7125e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 289, time 216.84, cls_loss 0.0010 cls_loss_mapping 0.0022 cls_loss_causal 0.4667 re_mapping 0.0040 re_causal 0.0120 /// teacc 99.05 lr 0.00010000
+Epoch 291, weight, value: tensor([[-0.2533, -0.1395, -0.0908,  ..., -0.0037, -0.0528, -0.0138],
+        [-0.1161,  0.1176, -0.0818,  ...,  0.0183, -0.0491, -0.0801],
+        [ 0.1095, -0.1568, -0.1704,  ..., -0.0634,  0.1413, -0.0331],
+        ...,
+        [-0.1651, -0.0904,  0.1172,  ...,  0.0380, -0.1994, -0.0016],
+        [ 0.0891, -0.0067, -0.2832,  ..., -0.0681,  0.1476, -0.0346],
+        [-0.2029, -0.1672,  0.0324,  ..., -0.0160, -0.1957, -0.0671]],
+       device='cuda:0'), grad: tensor([[ 3.5390e-08,  1.6764e-08,  0.0000e+00,  ...,  0.0000e+00,
+          2.6077e-08,  0.0000e+00],
+        [ 9.3877e-07,  1.5274e-07,  1.4901e-08,  ...,  0.0000e+00,
+          8.1584e-07,  0.0000e+00],
+        [-2.1514e-06, -3.7812e-07,  1.8626e-09,  ...,  0.0000e+00,
+         -1.8813e-06,  0.0000e+00],
+        ...,
+        [ 1.9930e-07,  7.4506e-08,  1.3039e-08,  ...,  0.0000e+00,
+          1.8999e-07,  0.0000e+00],
+        [ 4.2841e-08,  1.3039e-08,  5.5879e-09,  ...,  0.0000e+00,
+         -7.4506e-09,  0.0000e+00],
+        [ 2.4214e-08,  3.5018e-07,  2.4028e-07,  ...,  0.0000e+00,
+          1.3039e-08,  0.0000e+00]], device='cuda:0')
+Epoch 291, bias, value: tensor([-0.0057,  0.0207, -0.0174,  0.0126,  0.0252, -0.0137, -0.0172, -0.0126,
+        -0.0358, -0.0261], device='cuda:0'), grad: tensor([ 1.1176e-08,  2.9448e-06, -6.5453e-06,  5.6066e-07, -7.6182e-07,
+        -2.8498e-07,  8.1770e-07,  9.0711e-07,  2.1607e-07,  2.1234e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 290, time 216.84, cls_loss 0.0013 cls_loss_mapping 0.0025 cls_loss_causal 0.5041 re_mapping 0.0043 re_causal 0.0119 /// teacc 99.09 lr 0.00010000
+Epoch 292, weight, value: tensor([[-0.2557, -0.1400, -0.0908,  ..., -0.0037, -0.0531, -0.0140],
+        [-0.1162,  0.1186, -0.0821,  ...,  0.0183, -0.0490, -0.0803],
+        [ 0.1112, -0.1571, -0.1678,  ..., -0.0634,  0.1442, -0.0331],
+        ...,
+        [-0.1660, -0.0906,  0.1184,  ...,  0.0379, -0.2006, -0.0017],
+        [ 0.0891, -0.0073, -0.2840,  ..., -0.0681,  0.1474, -0.0347],
+        [-0.2029, -0.1678,  0.0312,  ..., -0.0160, -0.1961, -0.0681]],
+       device='cuda:0'), grad: tensor([[ 9.4995e-08,  9.3132e-09,  0.0000e+00,  ...,  0.0000e+00,
+          7.0781e-08,  0.0000e+00],
+        [ 1.9558e-07,  3.5390e-08,  0.0000e+00,  ...,  0.0000e+00,
+          1.1362e-07,  0.0000e+00],
+        [ 6.3330e-08,  1.8626e-08,  0.0000e+00,  ...,  0.0000e+00,
+          4.0978e-08,  0.0000e+00],
+        ...,
+        [ 1.1548e-07,  4.6566e-08,  3.7253e-09,  ...,  0.0000e+00,
+          7.4506e-08,  0.0000e+00],
+        [-7.8045e-07, -1.3597e-07,  0.0000e+00,  ...,  0.0000e+00,
+         -5.0664e-07,  0.0000e+00],
+        [ 1.4901e-08,  3.9116e-08,  2.2352e-08,  ...,  0.0000e+00,
+          1.8626e-08,  0.0000e+00]], device='cuda:0')
+Epoch 292, bias, value: tensor([-0.0056,  0.0211, -0.0166,  0.0125,  0.0263, -0.0139, -0.0155, -0.0125,
+        -0.0362, -0.0273], device='cuda:0'), grad: tensor([ 2.0675e-07,  9.4809e-07,  3.1851e-07, -6.2212e-07,  9.8720e-08,
+         9.6485e-07,  1.9185e-07,  6.0163e-07, -2.9933e-06,  2.7195e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 291, time 216.81, cls_loss 0.0009 cls_loss_mapping 0.0013 cls_loss_causal 0.4823 re_mapping 0.0040 re_causal 0.0121 /// teacc 98.94 lr 0.00010000
+Epoch 293, weight, value: tensor([[-0.2576, -0.1405, -0.0908,  ..., -0.0037, -0.0535, -0.0141],
+        [-0.1164,  0.1189, -0.0824,  ...,  0.0183, -0.0492, -0.0804],
+        [ 0.1113, -0.1572, -0.1677,  ..., -0.0634,  0.1444, -0.0331],
+        ...,
+        [-0.1661, -0.0909,  0.1183,  ...,  0.0379, -0.2008, -0.0017],
+        [ 0.0892, -0.0073, -0.2844,  ..., -0.0681,  0.1475, -0.0347],
+        [-0.2030, -0.1678,  0.0312,  ..., -0.0160, -0.1962, -0.0684]],
+       device='cuda:0'), grad: tensor([[ 1.1176e-08,  5.7742e-08, -2.9802e-08,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 1.8626e-09, -2.1979e-07,  0.0000e+00,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00],
+        [-5.5879e-09,  2.0489e-08,  1.8626e-08,  ...,  0.0000e+00,
+         -2.4214e-08,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  1.4529e-07, -1.8626e-08,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00],
+        [-1.8626e-08, -5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -2.6077e-08,  0.0000e+00],
+        [ 5.5879e-09,  4.0978e-08,  1.1176e-08,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 293, bias, value: tensor([-0.0056,  0.0211, -0.0165,  0.0126,  0.0263, -0.0140, -0.0154, -0.0126,
+        -0.0362, -0.0273], device='cuda:0'), grad: tensor([-3.9116e-08, -2.9802e-07,  8.0094e-08,  4.2282e-07,  1.8626e-08,
+        -1.3039e-08, -1.2480e-07, -1.1735e-07, -2.4214e-08,  8.1956e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 292, time 216.48, cls_loss 0.0012 cls_loss_mapping 0.0020 cls_loss_causal 0.4840 re_mapping 0.0038 re_causal 0.0115 /// teacc 99.05 lr 0.00010000
+Epoch 294, weight, value: tensor([[-0.2592, -0.1437, -0.0909,  ..., -0.0037, -0.0541, -0.0141],
+        [-0.1177,  0.1202, -0.0815,  ...,  0.0183, -0.0506, -0.0804],
+        [ 0.1110, -0.1574, -0.1678,  ..., -0.0634,  0.1442, -0.0331],
+        ...,
+        [-0.1658, -0.0915,  0.1182,  ...,  0.0379, -0.2001, -0.0017],
+        [ 0.0900, -0.0072, -0.2851,  ..., -0.0681,  0.1495, -0.0347],
+        [-0.2031, -0.1680,  0.0312,  ..., -0.0160, -0.1966, -0.0684]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.4901e-08,  0.0000e+00],
+        [ 9.3132e-09,  7.2643e-08,  4.0978e-08,  ...,  0.0000e+00,
+          6.3330e-08,  0.0000e+00],
+        [-7.4506e-09,  3.7253e-09, -5.5879e-08,  ...,  0.0000e+00,
+         -2.6450e-07,  0.0000e+00],
+        ...,
+        [ 9.3132e-09,  5.2154e-08,  3.9116e-08,  ...,  0.0000e+00,
+          2.1420e-07,  0.0000e+00],
+        [ 9.3132e-09, -2.4214e-08,  1.8626e-09,  ...,  0.0000e+00,
+         -1.8626e-08,  0.0000e+00],
+        [ 3.5390e-08,  4.6194e-07,  1.2852e-07,  ...,  0.0000e+00,
+          1.3039e-08,  0.0000e+00]], device='cuda:0')
+Epoch 294, bias, value: tensor([-0.0059,  0.0215, -0.0166,  0.0125,  0.0262, -0.0139, -0.0155, -0.0126,
+        -0.0356, -0.0274], device='cuda:0'), grad: tensor([-9.6858e-08,  3.6880e-07, -6.0908e-07, -2.4214e-08, -1.3877e-06,
+        -8.3260e-07,  1.0803e-07,  7.5623e-07,  1.3225e-07,  1.5721e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 293, time 216.82, cls_loss 0.0009 cls_loss_mapping 0.0021 cls_loss_causal 0.5012 re_mapping 0.0042 re_causal 0.0126 /// teacc 98.88 lr 0.00010000
+Epoch 295, weight, value: tensor([[-0.2615, -0.1447, -0.0906,  ..., -0.0037, -0.0550, -0.0141],
+        [-0.1178,  0.1207, -0.0816,  ...,  0.0183, -0.0508, -0.0804],
+        [ 0.1114, -0.1575, -0.1678,  ..., -0.0634,  0.1451, -0.0331],
+        ...,
+        [-0.1661, -0.0919,  0.1189,  ...,  0.0379, -0.2009, -0.0017],
+        [ 0.0905, -0.0069, -0.2853,  ..., -0.0681,  0.1501, -0.0347],
+        [-0.2032, -0.1678,  0.0317,  ..., -0.0160, -0.1974, -0.0684]],
+       device='cuda:0'), grad: tensor([[ 6.7055e-08,  8.1956e-08, -1.4901e-08,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00],
+        [ 1.6019e-07,  3.3714e-07,  4.4703e-08,  ...,  0.0000e+00,
+          6.8918e-08,  0.0000e+00],
+        [-1.1753e-06,  7.4506e-09, -2.0303e-07,  ...,  0.0000e+00,
+         -1.1995e-06,  0.0000e+00],
+        ...,
+        [ 1.1791e-06,  9.3132e-09,  3.3341e-07,  ...,  0.0000e+00,
+          1.3877e-06,  0.0000e+00],
+        [ 2.8685e-07,  3.9674e-07,  1.3039e-07,  ...,  0.0000e+00,
+          6.8918e-08,  0.0000e+00],
+        [ 1.4901e-08,  9.7416e-07, -8.7544e-08,  ...,  0.0000e+00,
+          1.8626e-08,  0.0000e+00]], device='cuda:0')
+Epoch 295, bias, value: tensor([-0.0057,  0.0217, -0.0163,  0.0125,  0.0258, -0.0139, -0.0155, -0.0127,
+        -0.0353, -0.0272], device='cuda:0'), grad: tensor([ 2.6077e-08,  1.0990e-06, -2.2352e-06, -7.7859e-07, -1.8142e-06,
+        -1.9427e-06,  6.1281e-07,  3.4627e-06,  1.9688e-06, -4.0419e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 294, time 216.85, cls_loss 0.0014 cls_loss_mapping 0.0017 cls_loss_causal 0.4793 re_mapping 0.0041 re_causal 0.0120 /// teacc 98.99 lr 0.00010000
+Epoch 296, weight, value: tensor([[-0.2625, -0.1453, -0.0903,  ..., -0.0036, -0.0551, -0.0141],
+        [-0.1179,  0.1210, -0.0819,  ...,  0.0183, -0.0509, -0.0804],
+        [ 0.1115, -0.1577, -0.1689,  ..., -0.0634,  0.1450, -0.0331],
+        ...,
+        [-0.1662, -0.0921,  0.1202,  ...,  0.0379, -0.2008, -0.0017],
+        [ 0.0907, -0.0068, -0.2858,  ..., -0.0681,  0.1504, -0.0347],
+        [-0.2033, -0.1642,  0.0364,  ..., -0.0161, -0.1978, -0.0684]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  7.4506e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 1.8626e-09, -4.8429e-08,  3.7253e-09,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [-2.0489e-08,  5.5879e-09, -3.7253e-09,  ...,  0.0000e+00,
+         -3.7253e-08,  0.0000e+00],
+        ...,
+        [ 5.5879e-09,  3.1665e-08, -3.7253e-09,  ...,  0.0000e+00,
+          1.1176e-08,  0.0000e+00],
+        [ 3.7253e-09,  5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 5.5879e-09,  2.9802e-08,  1.6764e-08,  ...,  0.0000e+00,
+          1.3039e-08,  0.0000e+00]], device='cuda:0')
+Epoch 296, bias, value: tensor([-0.0056,  0.0217, -0.0166,  0.0126,  0.0219, -0.0140, -0.0154, -0.0123,
+        -0.0352, -0.0234], device='cuda:0'), grad: tensor([ 1.3039e-08, -4.8429e-08, -6.8918e-08,  1.8626e-08, -3.9116e-08,
+         1.1176e-08, -3.5390e-08,  4.2841e-08,  1.3039e-08,  8.5682e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 295, time 216.81, cls_loss 0.0009 cls_loss_mapping 0.0014 cls_loss_causal 0.4759 re_mapping 0.0039 re_causal 0.0122 /// teacc 99.02 lr 0.00010000
+Epoch 297, weight, value: tensor([[-0.2643, -0.1463, -0.0905,  ..., -0.0036, -0.0557, -0.0141],
+        [-0.1182,  0.1211, -0.0818,  ...,  0.0183, -0.0509, -0.0804],
+        [ 0.1115, -0.1578, -0.1692,  ..., -0.0634,  0.1450, -0.0331],
+        ...,
+        [-0.1664, -0.0923,  0.1206,  ...,  0.0379, -0.2012, -0.0017],
+        [ 0.0912, -0.0066, -0.2862,  ..., -0.0681,  0.1513, -0.0347],
+        [-0.2034, -0.1643,  0.0363,  ..., -0.0161, -0.1982, -0.0684]],
+       device='cuda:0'), grad: tensor([[ 1.4901e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-08,  0.0000e+00],
+        [ 1.2666e-07,  0.0000e+00,  7.4506e-09,  ...,  0.0000e+00,
+          1.0990e-07,  0.0000e+00],
+        [-1.3970e-07,  7.4506e-09,  1.8626e-09,  ...,  0.0000e+00,
+         -3.3714e-07,  0.0000e+00],
+        ...,
+        [ 4.6566e-08,  1.6764e-08, -1.8626e-08,  ...,  0.0000e+00,
+          1.0058e-07,  0.0000e+00],
+        [-6.0536e-07, -1.1921e-07,  0.0000e+00,  ...,  0.0000e+00,
+         -4.5076e-07,  0.0000e+00],
+        [ 5.7742e-08,  2.7940e-08,  1.4901e-08,  ...,  0.0000e+00,
+          1.0058e-07,  0.0000e+00]], device='cuda:0')
+Epoch 297, bias, value: tensor([-0.0057,  0.0219, -0.0166,  0.0126,  0.0220, -0.0140, -0.0149, -0.0124,
+        -0.0349, -0.0235], device='cuda:0'), grad: tensor([-9.6858e-08,  4.1164e-07, -7.8231e-07,  3.9861e-07, -8.1956e-08,
+         9.6671e-07,  3.4645e-07,  1.6950e-07, -1.7080e-06,  3.5763e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 296, time 216.71, cls_loss 0.0014 cls_loss_mapping 0.0020 cls_loss_causal 0.4774 re_mapping 0.0037 re_causal 0.0114 /// teacc 99.08 lr 0.00010000
+Epoch 298, weight, value: tensor([[-0.2672, -0.1477, -0.0908,  ..., -0.0037, -0.0563, -0.0141],
+        [-0.1187,  0.1212, -0.0828,  ...,  0.0183, -0.0515, -0.0804],
+        [ 0.1124, -0.1578, -0.1731,  ..., -0.0634,  0.1440, -0.0331],
+        ...,
+        [-0.1665, -0.0923,  0.1250,  ...,  0.0379, -0.1993, -0.0017],
+        [ 0.0920, -0.0059, -0.2870,  ..., -0.0683,  0.1518, -0.0347],
+        [-0.2035, -0.1644,  0.0362,  ..., -0.0163, -0.1984, -0.0684]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [ 1.8626e-09, -1.2554e-06, -7.0781e-08,  ...,  0.0000e+00,
+         -1.2852e-07,  0.0000e+00],
+        [-1.4901e-08,  4.2468e-07,  3.1665e-08,  ...,  0.0000e+00,
+          4.4703e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  8.0280e-07,  5.5879e-09,  ...,  0.0000e+00,
+          1.3970e-07,  0.0000e+00],
+        [ 7.4506e-09,  3.7253e-09,  3.7253e-09,  ...,  0.0000e+00,
+          9.1270e-08,  0.0000e+00],
+        [ 0.0000e+00,  2.4214e-08,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-08,  0.0000e+00]], device='cuda:0')
+Epoch 298, bias, value: tensor([-0.0060,  0.0213, -0.0186,  0.0126,  0.0222, -0.0140, -0.0151, -0.0098,
+        -0.0346, -0.0237], device='cuda:0'), grad: tensor([-3.4645e-07, -4.1910e-06,  1.5292e-06, -1.8198e-06, -1.6764e-08,
+         1.2107e-06,  1.6391e-07,  2.7958e-06,  3.6694e-07,  3.0734e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 297, time 216.99, cls_loss 0.0013 cls_loss_mapping 0.0020 cls_loss_causal 0.4706 re_mapping 0.0039 re_causal 0.0113 /// teacc 98.95 lr 0.00010000
+Epoch 299, weight, value: tensor([[-0.2685, -0.1487, -0.0910,  ..., -0.0037, -0.0568, -0.0141],
+        [-0.1195,  0.1204, -0.0860,  ...,  0.0183, -0.0548, -0.0804],
+        [ 0.1133, -0.1567, -0.1727,  ..., -0.0634,  0.1466, -0.0331],
+        ...,
+        [-0.1673, -0.0916,  0.1272,  ...,  0.0379, -0.2000, -0.0017],
+        [ 0.0938, -0.0058, -0.2875,  ..., -0.0683,  0.1532, -0.0347],
+        [-0.2037, -0.1645,  0.0361,  ..., -0.0164, -0.1988, -0.0684]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  1.5646e-07,  5.4017e-08,  ...,  0.0000e+00,
+          1.1176e-08,  0.0000e+00],
+        [ 3.7253e-09,  1.4715e-07,  7.4506e-09,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [-2.4028e-07,  1.4715e-07,  7.0781e-08,  ...,  0.0000e+00,
+         -5.5321e-07,  0.0000e+00],
+        ...,
+        [ 1.6764e-08,  5.5879e-08,  1.3039e-08,  ...,  0.0000e+00,
+          3.5390e-08,  0.0000e+00],
+        [ 1.8626e-09,  1.4715e-07,  2.4214e-08,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00],
+        [ 1.8626e-09,  9.1717e-06,  2.9746e-06,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00]], device='cuda:0')
+Epoch 299, bias, value: tensor([-0.0062,  0.0176, -0.0170,  0.0129,  0.0223, -0.0144, -0.0150, -0.0094,
+        -0.0335, -0.0239], device='cuda:0'), grad: tensor([ 6.0722e-07,  4.8243e-07, -1.0822e-06,  1.5143e-06, -3.8117e-05,
+         2.8126e-07,  6.5379e-07,  1.4715e-07,  5.1223e-07,  3.4958e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 298, time 216.68, cls_loss 0.0011 cls_loss_mapping 0.0017 cls_loss_causal 0.4834 re_mapping 0.0038 re_causal 0.0116 /// teacc 98.98 lr 0.00010000
+Epoch 300, weight, value: tensor([[-0.2694, -0.1481, -0.0910,  ..., -0.0037, -0.0566, -0.0141],
+        [-0.1217,  0.1200, -0.0858,  ...,  0.0183, -0.0564, -0.0804],
+        [ 0.1148, -0.1551, -0.1728,  ..., -0.0634,  0.1478, -0.0331],
+        ...,
+        [-0.1674, -0.0921,  0.1275,  ...,  0.0379, -0.2001, -0.0017],
+        [ 0.0939, -0.0055, -0.2880,  ..., -0.0683,  0.1536, -0.0347],
+        [-0.2038, -0.1646,  0.0361,  ..., -0.0164, -0.1992, -0.0684]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.3970e-07,  0.0000e+00,  ...,  0.0000e+00,
+          1.1548e-07,  0.0000e+00],
+        [ 5.5879e-09, -1.7621e-06,  0.0000e+00,  ...,  0.0000e+00,
+         -1.3877e-06,  0.0000e+00],
+        [ 2.4214e-08,  1.8626e-08,  0.0000e+00,  ...,  0.0000e+00,
+          6.3330e-08,  0.0000e+00],
+        ...,
+        [ 9.3132e-09,  2.2724e-07,  0.0000e+00,  ...,  0.0000e+00,
+          1.7881e-07,  0.0000e+00],
+        [ 7.4506e-09,  1.2144e-06,  0.0000e+00,  ...,  0.0000e+00,
+          1.0263e-06,  0.0000e+00],
+        [ 0.0000e+00,  3.9116e-08, -5.4017e-08,  ...,  0.0000e+00,
+          1.4901e-08,  0.0000e+00]], device='cuda:0')
+Epoch 300, bias, value: tensor([-0.0058,  0.0164, -0.0162,  0.0128,  0.0224, -0.0141, -0.0168, -0.0094,
+        -0.0336, -0.0240], device='cuda:0'), grad: tensor([ 5.6624e-07, -6.9812e-06,  2.4401e-07, -5.2340e-07,  2.4773e-07,
+         2.3283e-07,  4.2096e-07,  9.1828e-07,  5.0440e-06, -1.8626e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 299, time 216.48, cls_loss 0.0012 cls_loss_mapping 0.0019 cls_loss_causal 0.4663 re_mapping 0.0039 re_causal 0.0116 /// teacc 99.02 lr 0.00010000
+Epoch 301, weight, value: tensor([[-0.2708, -0.1454, -0.0911,  ..., -0.0037, -0.0538, -0.0141],
+        [-0.1229,  0.1194, -0.0859,  ...,  0.0183, -0.0572, -0.0804],
+        [ 0.1156, -0.1539, -0.1728,  ..., -0.0634,  0.1485, -0.0331],
+        ...,
+        [-0.1675, -0.0922,  0.1287,  ...,  0.0379, -0.2002, -0.0017],
+        [ 0.0941, -0.0057, -0.2886,  ..., -0.0683,  0.1538, -0.0347],
+        [-0.2039, -0.1647,  0.0359,  ..., -0.0164, -0.1998, -0.0684]],
+       device='cuda:0'), grad: tensor([[ 3.9116e-07,  1.0375e-06,  1.8626e-09,  ...,  0.0000e+00,
+          1.1064e-06,  0.0000e+00],
+        [ 2.8908e-05,  9.4593e-05,  1.6764e-08,  ...,  0.0000e+00,
+          9.1910e-05,  0.0000e+00],
+        [-3.0726e-05, -1.0264e-04,  3.7253e-09,  ...,  0.0000e+00,
+         -9.8348e-05,  0.0000e+00],
+        ...,
+        [ 6.7055e-08,  4.6380e-07,  2.0489e-08,  ...,  0.0000e+00,
+          2.1793e-07,  0.0000e+00],
+        [ 4.5076e-07,  3.8594e-06,  7.4506e-09,  ...,  0.0000e+00,
+          2.4904e-06,  0.0000e+00],
+        [ 5.5879e-08,  6.6310e-07,  3.2596e-07,  ...,  0.0000e+00,
+          1.7323e-07,  0.0000e+00]], device='cuda:0')
+Epoch 301, bias, value: tensor([-0.0042,  0.0154, -0.0157,  0.0125,  0.0227, -0.0138, -0.0188, -0.0092,
+        -0.0337, -0.0243], device='cuda:0'), grad: tensor([ 5.3756e-06,  4.7112e-04, -5.0735e-04,  6.1691e-06,  7.7114e-07,
+         2.0061e-06,  2.2054e-06,  1.5628e-06,  1.6019e-05,  2.7511e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 300, time 216.53, cls_loss 0.0009 cls_loss_mapping 0.0015 cls_loss_causal 0.4761 re_mapping 0.0038 re_causal 0.0119 /// teacc 99.04 lr 0.00010000
+Epoch 302, weight, value: tensor([[-0.2715, -0.1456, -0.0910,  ..., -0.0037, -0.0541, -0.0141],
+        [-0.1236,  0.1195, -0.0861,  ...,  0.0183, -0.0579, -0.0804],
+        [ 0.1161, -0.1526, -0.1728,  ..., -0.0634,  0.1492, -0.0331],
+        ...,
+        [-0.1676, -0.0931,  0.1289,  ...,  0.0379, -0.2006, -0.0018],
+        [ 0.0942, -0.0062, -0.2888,  ..., -0.0683,  0.1540, -0.0347],
+        [-0.2040, -0.1648,  0.0359,  ..., -0.0164, -0.2004, -0.0684]],
+       device='cuda:0'), grad: tensor([[ 4.4703e-08,  6.1467e-08,  3.7253e-09,  ...,  0.0000e+00,
+          3.3528e-08,  0.0000e+00],
+        [ 1.8626e-08, -1.2480e-06,  1.8813e-07,  ...,  0.0000e+00,
+         -2.2072e-06,  0.0000e+00],
+        [ 5.5879e-09,  1.0803e-07,  2.0489e-08,  ...,  0.0000e+00,
+          1.0245e-07,  0.0000e+00],
+        ...,
+        [ 7.2643e-08, -4.0978e-07, -3.0361e-07,  ...,  0.0000e+00,
+          1.5832e-07,  0.0000e+00],
+        [-3.4645e-07,  1.3895e-06,  1.6764e-08,  ...,  0.0000e+00,
+          1.6950e-06,  0.0000e+00],
+        [ 2.4959e-07,  1.3784e-07,  5.0291e-08,  ...,  0.0000e+00,
+          1.1921e-07,  0.0000e+00]], device='cuda:0')
+Epoch 302, bias, value: tensor([-0.0040,  0.0152, -0.0152,  0.0126,  0.0228, -0.0138, -0.0190, -0.0094,
+        -0.0339, -0.0244], device='cuda:0'), grad: tensor([ 2.7567e-07, -2.9933e-06,  6.1281e-07,  4.0978e-08,  1.9930e-07,
+         3.3341e-07, -2.4028e-07, -4.2319e-06,  4.3064e-06,  1.6782e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 301, time 216.79, cls_loss 0.0020 cls_loss_mapping 0.0023 cls_loss_causal 0.4960 re_mapping 0.0040 re_causal 0.0115 /// teacc 98.98 lr 0.00010000
+Epoch 303, weight, value: tensor([[-0.2748, -0.1459, -0.0911,  ..., -0.0037, -0.0544, -0.0141],
+        [-0.1238,  0.1193, -0.0867,  ...,  0.0183, -0.0579, -0.0804],
+        [ 0.1159, -0.1528, -0.1730,  ..., -0.0635,  0.1490, -0.0331],
+        ...,
+        [-0.1678, -0.0933,  0.1285,  ...,  0.0378, -0.2008, -0.0018],
+        [ 0.0950, -0.0063, -0.2911,  ..., -0.0684,  0.1549, -0.0348],
+        [-0.2042, -0.1642,  0.0369,  ..., -0.0164, -0.2009, -0.0685]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  9.3132e-09,  3.7253e-09,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 1.8626e-09, -2.1234e-07,  7.4506e-09,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00],
+        [-2.2352e-08,  3.5390e-08,  1.8626e-09,  ...,  0.0000e+00,
+         -6.5193e-08,  0.0000e+00],
+        ...,
+        [ 7.4506e-09,  1.4901e-07,  1.4901e-08,  ...,  0.0000e+00,
+          1.8626e-08,  0.0000e+00],
+        [ 3.0734e-07,  2.0489e-08,  3.7253e-09,  ...,  0.0000e+00,
+          4.6566e-07,  0.0000e+00],
+        [ 4.6566e-08,  2.0824e-06,  1.4398e-06,  ...,  0.0000e+00,
+          6.7055e-08,  0.0000e+00]], device='cuda:0')
+Epoch 303, bias, value: tensor([-0.0040,  0.0147, -0.0154,  0.0127,  0.0199, -0.0139, -0.0190, -0.0098,
+        -0.0337, -0.0215], device='cuda:0'), grad: tensor([-1.8030e-06, -2.5518e-07,  1.6764e-08,  7.2457e-07, -1.0371e-05,
+        -1.9539e-06,  1.3411e-07,  4.0792e-07,  1.5981e-06,  1.1466e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 302, time 216.73, cls_loss 0.0009 cls_loss_mapping 0.0015 cls_loss_causal 0.4559 re_mapping 0.0039 re_causal 0.0120 /// teacc 99.09 lr 0.00010000
+Epoch 304, weight, value: tensor([[-0.2767, -0.1464, -0.0912,  ..., -0.0037, -0.0545, -0.0141],
+        [-0.1240,  0.1195, -0.0866,  ...,  0.0183, -0.0582, -0.0804],
+        [ 0.1161, -0.1528, -0.1730,  ..., -0.0635,  0.1492, -0.0331],
+        ...,
+        [-0.1679, -0.0935,  0.1300,  ...,  0.0377, -0.2009, -0.0018],
+        [ 0.0954, -0.0058, -0.2918,  ..., -0.0684,  0.1558, -0.0348],
+        [-0.2043, -0.1642,  0.0366,  ..., -0.0164, -0.2013, -0.0685]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09, -3.7253e-09,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -1.1176e-08,  9.3132e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  1.8626e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  1.4901e-08, -3.1665e-08,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 1.7136e-07,  1.8626e-09,  3.7253e-09,  ...,  0.0000e+00,
+         -7.4506e-09,  0.0000e+00],
+        [ 1.8626e-09,  3.2224e-07,  1.4901e-07,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 304, bias, value: tensor([-0.0042,  0.0146, -0.0154,  0.0128,  0.0199, -0.0139, -0.0189, -0.0091,
+        -0.0333, -0.0216], device='cuda:0'), grad: tensor([-5.5879e-08,  3.1665e-08,  1.1176e-07,  2.6077e-08, -1.0692e-06,
+        -3.9302e-07,  5.4017e-08, -1.5832e-07,  3.9116e-07,  1.0487e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 303, time 216.76, cls_loss 0.0008 cls_loss_mapping 0.0019 cls_loss_causal 0.4760 re_mapping 0.0039 re_causal 0.0124 /// teacc 99.00 lr 0.00010000
+Epoch 305, weight, value: tensor([[-0.2773, -0.1464, -0.0912,  ..., -0.0037, -0.0545, -0.0141],
+        [-0.1242,  0.1195, -0.0868,  ...,  0.0183, -0.0583, -0.0804],
+        [ 0.1163, -0.1528, -0.1731,  ..., -0.0635,  0.1495, -0.0331],
+        ...,
+        [-0.1682, -0.0936,  0.1300,  ...,  0.0377, -0.2011, -0.0018],
+        [ 0.0957, -0.0055, -0.2925,  ..., -0.0684,  0.1560, -0.0348],
+        [-0.2043, -0.1642,  0.0366,  ..., -0.0164, -0.2015, -0.0685]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  1.4901e-08,  7.4506e-09,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00],
+        [ 5.5879e-09,  1.7434e-06,  1.3188e-06,  ...,  0.0000e+00,
+          9.3132e-09,  0.0000e+00],
+        [ 9.8720e-08,  6.7055e-08,  3.5390e-08,  ...,  0.0000e+00,
+          1.1176e-07,  0.0000e+00],
+        ...,
+        [ 1.1176e-08,  8.8662e-07,  6.0536e-07,  ...,  0.0000e+00,
+          2.6077e-08,  0.0000e+00],
+        [-1.6764e-07,  1.0617e-07,  1.3970e-07,  ...,  0.0000e+00,
+         -2.2724e-07,  0.0000e+00],
+        [ 3.7253e-09,  7.7672e-07,  5.4576e-07,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00]], device='cuda:0')
+Epoch 305, bias, value: tensor([-0.0040,  0.0145, -0.0153,  0.0128,  0.0199, -0.0139, -0.0190, -0.0091,
+        -0.0331, -0.0216], device='cuda:0'), grad: tensor([ 6.8918e-08,  6.6012e-06,  4.9360e-07,  1.6391e-07, -1.3821e-05,
+         6.7055e-08,  1.4529e-07,  3.0994e-06,  1.2107e-07,  3.0082e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 304, time 216.61, cls_loss 0.0010 cls_loss_mapping 0.0023 cls_loss_causal 0.4880 re_mapping 0.0040 re_causal 0.0114 /// teacc 99.08 lr 0.00010000
+Epoch 306, weight, value: tensor([[-0.2785, -0.1466, -0.0913,  ..., -0.0037, -0.0546, -0.0141],
+        [-0.1243,  0.1197, -0.0861,  ...,  0.0183, -0.0583, -0.0804],
+        [ 0.1165, -0.1531, -0.1732,  ..., -0.0635,  0.1497, -0.0331],
+        ...,
+        [-0.1683, -0.0939,  0.1297,  ...,  0.0377, -0.2014, -0.0019],
+        [ 0.0962, -0.0053, -0.2945,  ..., -0.0684,  0.1568, -0.0348],
+        [-0.2044, -0.1643,  0.0366,  ..., -0.0164, -0.2017, -0.0688]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -2.2352e-08,  0.0000e+00],
+        [ 3.7253e-09, -3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [-3.7253e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 7.4506e-09,  7.4506e-09, -1.8626e-09,  ...,  0.0000e+00,
+          1.3039e-08,  0.0000e+00],
+        [ 2.2352e-08,  1.4901e-08,  1.8626e-09,  ...,  0.0000e+00,
+         -3.9116e-08,  0.0000e+00],
+        [ 3.7253e-09,  8.5682e-08,  1.8626e-09,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00]], device='cuda:0')
+Epoch 306, bias, value: tensor([-0.0041,  0.0147, -0.0154,  0.0128,  0.0200, -0.0139, -0.0191, -0.0093,
+        -0.0328, -0.0217], device='cuda:0'), grad: tensor([-1.1176e-07,  6.1467e-08,  1.8626e-08,  2.0675e-07, -3.9302e-07,
+        -4.4890e-07,  1.3039e-07,  6.7055e-08,  1.0990e-07,  3.6322e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 305, time 216.91, cls_loss 0.0007 cls_loss_mapping 0.0011 cls_loss_causal 0.4644 re_mapping 0.0038 re_causal 0.0118 /// teacc 99.05 lr 0.00010000
+Epoch 307, weight, value: tensor([[-0.2796, -0.1477, -0.0913,  ..., -0.0037, -0.0547, -0.0141],
+        [-0.1251,  0.1195, -0.0857,  ...,  0.0183, -0.0586, -0.0804],
+        [ 0.1165, -0.1532, -0.1732,  ..., -0.0636,  0.1498, -0.0331],
+        ...,
+        [-0.1687, -0.0941,  0.1296,  ...,  0.0376, -0.2017, -0.0019],
+        [ 0.0980, -0.0043, -0.2949,  ..., -0.0685,  0.1587, -0.0348],
+        [-0.2045, -0.1643,  0.0366,  ..., -0.0164, -0.2020, -0.0688]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09, -2.4214e-08,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 1.8626e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 3.7253e-09,  1.3039e-08,  0.0000e+00,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00],
+        [-1.0431e-07, -2.0489e-08, -3.7253e-09,  ...,  0.0000e+00,
+         -1.3039e-07,  0.0000e+00],
+        [ 3.7253e-09,  3.5390e-08,  1.1176e-08,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00]], device='cuda:0')
+Epoch 307, bias, value: tensor([-0.0044,  0.0145, -0.0153,  0.0127,  0.0201, -0.0139, -0.0187, -0.0096,
+        -0.0311, -0.0218], device='cuda:0'), grad: tensor([ 0.0000e+00, -2.6077e-08,  5.5879e-09,  2.4028e-07, -1.1176e-07,
+         4.4703e-08,  7.4506e-09,  3.5390e-08, -3.2410e-07,  1.2107e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 306, time 216.88, cls_loss 0.0009 cls_loss_mapping 0.0013 cls_loss_causal 0.4679 re_mapping 0.0035 re_causal 0.0114 /// teacc 99.09 lr 0.00010000
+Epoch 308, weight, value: tensor([[-0.2800, -0.1476, -0.0942,  ..., -0.0037, -0.0547, -0.0141],
+        [-0.1252,  0.1200, -0.0848,  ...,  0.0183, -0.0586, -0.0804],
+        [ 0.1168, -0.1534, -0.1732,  ..., -0.0638,  0.1502, -0.0331],
+        ...,
+        [-0.1690, -0.0946,  0.1293,  ...,  0.0374, -0.2021, -0.0019],
+        [ 0.0979, -0.0046, -0.2958,  ..., -0.0686,  0.1586, -0.0348],
+        [-0.2046, -0.1645,  0.0363,  ..., -0.0165, -0.2029, -0.0688]],
+       device='cuda:0'), grad: tensor([[ 2.9802e-08,  0.0000e+00, -3.2317e-07,  ...,  0.0000e+00,
+          4.5635e-08,  0.0000e+00],
+        [ 6.5193e-09,  9.3132e-10,  1.0245e-08,  ...,  0.0000e+00,
+          1.5832e-08,  0.0000e+00],
+        [-9.4995e-08,  9.3132e-10,  8.3819e-09,  ...,  0.0000e+00,
+         -1.8254e-07,  0.0000e+00],
+        ...,
+        [ 1.7695e-08,  1.8626e-09, -8.7731e-07,  ...,  0.0000e+00,
+          4.0978e-08,  0.0000e+00],
+        [ 4.6566e-08, -2.4214e-08,  0.0000e+00,  ...,  0.0000e+00,
+          2.0675e-07,  0.0000e+00],
+        [ 5.4948e-08,  3.9116e-08,  1.2238e-06,  ...,  0.0000e+00,
+          1.4249e-07,  0.0000e+00]], device='cuda:0')
+Epoch 308, bias, value: tensor([-0.0068,  0.0147, -0.0152,  0.0127,  0.0207, -0.0140, -0.0187, -0.0098,
+        -0.0314, -0.0221], device='cuda:0'), grad: tensor([-4.5076e-06,  8.2888e-08, -4.3586e-07, -4.7535e-05, -1.9465e-07,
+         4.6611e-05,  5.4948e-08, -2.1104e-06,  6.5193e-07,  7.3984e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 307, time 216.68, cls_loss 0.0011 cls_loss_mapping 0.0016 cls_loss_causal 0.4890 re_mapping 0.0035 re_causal 0.0112 /// teacc 99.04 lr 0.00010000
+Epoch 309, weight, value: tensor([[-0.2814, -0.1481, -0.0943,  ..., -0.0037, -0.0552, -0.0141],
+        [-0.1259,  0.1202, -0.0854,  ...,  0.0185, -0.0589, -0.0804],
+        [ 0.1169, -0.1535, -0.1733,  ..., -0.0640,  0.1501, -0.0331],
+        ...,
+        [-0.1691, -0.0947,  0.1297,  ...,  0.0373, -0.2022, -0.0019],
+        [ 0.0984, -0.0040, -0.2960,  ..., -0.0687,  0.1592, -0.0348],
+        [-0.2047, -0.1646,  0.0362,  ..., -0.0166, -0.2054, -0.0688]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -3.4831e-07,  0.0000e+00],
+        [ 1.8626e-09,  2.7940e-09,  9.3132e-10,  ...,  0.0000e+00,
+          9.3132e-09,  0.0000e+00],
+        [ 2.7940e-09,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          1.6764e-08,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  1.8626e-09, -2.7940e-09,  ...,  0.0000e+00,
+          5.8673e-08,  0.0000e+00],
+        [-2.1420e-08, -5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+          2.7660e-07,  0.0000e+00],
+        [ 2.7940e-09,  2.7474e-07,  2.7940e-09,  ...,  0.0000e+00,
+          3.9116e-08,  0.0000e+00]], device='cuda:0')
+Epoch 309, bias, value: tensor([-0.0070,  0.0145, -0.0153,  0.0131,  0.0207, -0.0141, -0.0185, -0.0098,
+        -0.0309, -0.0221], device='cuda:0'), grad: tensor([-4.7870e-06,  1.1548e-07,  1.3225e-07, -3.1665e-07, -3.3021e-05,
+         2.2538e-07,  2.0396e-07,  3.6042e-07,  6.3814e-06,  3.0756e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 308, time 216.90, cls_loss 0.0010 cls_loss_mapping 0.0014 cls_loss_causal 0.4769 re_mapping 0.0037 re_causal 0.0112 /// teacc 99.07 lr 0.00010000
+Epoch 310, weight, value: tensor([[-0.2826, -0.1482, -0.0943,  ..., -0.0038, -0.0557, -0.0141],
+        [-0.1261,  0.1206, -0.0856,  ...,  0.0184, -0.0589, -0.0804],
+        [ 0.1175, -0.1535, -0.1733,  ..., -0.0644,  0.1508, -0.0331],
+        ...,
+        [-0.1692, -0.0948,  0.1327,  ...,  0.0369, -0.2023, -0.0019],
+        [ 0.0980, -0.0047, -0.2964,  ..., -0.0690,  0.1585, -0.0348],
+        [-0.2050, -0.1647,  0.0358,  ..., -0.0166, -0.2066, -0.0688]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09,  1.3039e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-7.4506e-09, -1.7975e-07,  9.3132e-10,  ...,  0.0000e+00,
+         -1.5832e-08,  0.0000e+00],
+        [ 3.7253e-09,  4.8429e-08, -1.8626e-09,  ...,  0.0000e+00,
+         -5.5879e-09,  0.0000e+00],
+        ...,
+        [ 4.6566e-09,  6.3330e-08,  3.7253e-09,  ...,  0.0000e+00,
+          1.0245e-08,  0.0000e+00],
+        [ 2.0489e-08,  8.6613e-08,  0.0000e+00,  ...,  0.0000e+00,
+          6.5193e-09,  0.0000e+00],
+        [ 4.6566e-09,  8.3819e-08,  7.6368e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 310, bias, value: tensor([-0.0068,  0.0146, -0.0151,  0.0130,  0.0208, -0.0140, -0.0183, -0.0079,
+        -0.0318, -0.0226], device='cuda:0'), grad: tensor([-4.1910e-08, -3.4925e-07,  8.0094e-08,  2.0675e-07, -4.0792e-07,
+        -2.4959e-07, -8.7544e-08,  1.5553e-07,  1.9372e-07,  4.7684e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 309, time 216.73, cls_loss 0.0007 cls_loss_mapping 0.0014 cls_loss_causal 0.4370 re_mapping 0.0036 re_causal 0.0114 /// teacc 99.10 lr 0.00010000
+Epoch 311, weight, value: tensor([[-0.2835, -0.1484, -0.0943,  ..., -0.0038, -0.0558, -0.0141],
+        [-0.1263,  0.1202, -0.0867,  ...,  0.0184, -0.0589, -0.0804],
+        [ 0.1177, -0.1536, -0.1733,  ..., -0.0644,  0.1510, -0.0331],
+        ...,
+        [-0.1693, -0.0953,  0.1328,  ...,  0.0369, -0.2025, -0.0019],
+        [ 0.0977, -0.0054, -0.2970,  ..., -0.0690,  0.1584, -0.0348],
+        [-0.2051, -0.1647,  0.0358,  ..., -0.0166, -0.2068, -0.0688]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-08,  2.6077e-08,  0.0000e+00,  ...,  0.0000e+00,
+          8.3819e-09,  0.0000e+00],
+        [ 3.7253e-09,  1.1735e-07,  0.0000e+00,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [-8.3819e-09,  3.3528e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -1.7229e-07,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  1.0245e-08,  1.8626e-09,  ...,  0.0000e+00,
+          1.0431e-07,  0.0000e+00],
+        [ 6.5193e-09,  5.5879e-09,  9.3132e-10,  ...,  0.0000e+00,
+          6.5193e-09,  0.0000e+00],
+        [ 9.3132e-10,  2.4308e-07, -5.5879e-09,  ...,  0.0000e+00,
+          4.6566e-09,  0.0000e+00]], device='cuda:0')
+Epoch 311, bias, value: tensor([-0.0068,  0.0143, -0.0151,  0.0130,  0.0209, -0.0139, -0.0181, -0.0080,
+        -0.0322, -0.0227], device='cuda:0'), grad: tensor([ 5.0291e-08,  2.7474e-07, -5.0850e-07,  1.5087e-07, -2.7969e-05,
+        -1.3597e-07,  2.7195e-05,  3.8929e-07,  4.7497e-08,  5.3830e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 310, time 216.67, cls_loss 0.0009 cls_loss_mapping 0.0012 cls_loss_causal 0.4838 re_mapping 0.0036 re_causal 0.0119 /// teacc 98.95 lr 0.00010000
+Epoch 312, weight, value: tensor([[-0.2843, -0.1488, -0.0944,  ..., -0.0038, -0.0558, -0.0141],
+        [-0.1266,  0.1201, -0.0872,  ...,  0.0184, -0.0591, -0.0804],
+        [ 0.1176, -0.1539, -0.1733,  ..., -0.0644,  0.1510, -0.0331],
+        ...,
+        [-0.1694, -0.0954,  0.1330,  ...,  0.0369, -0.2026, -0.0019],
+        [ 0.0976, -0.0057, -0.2978,  ..., -0.0690,  0.1584, -0.0348],
+        [-0.2052, -0.1648,  0.0357,  ..., -0.0166, -0.2071, -0.0688]],
+       device='cuda:0'), grad: tensor([[ 2.7008e-08,  1.6764e-08,  0.0000e+00,  ...,  0.0000e+00,
+          4.4703e-08,  0.0000e+00],
+        [ 1.5367e-07, -1.5274e-07,  3.7253e-09,  ...,  0.0000e+00,
+          3.5763e-07,  0.0000e+00],
+        [-1.4165e-06,  1.7695e-08,  1.8626e-09,  ...,  0.0000e+00,
+         -3.3602e-06,  0.0000e+00],
+        ...,
+        [ 9.1270e-07,  1.1455e-07, -4.6566e-09,  ...,  0.0000e+00,
+          2.1718e-06,  0.0000e+00],
+        [ 2.1327e-07,  9.3132e-09,  3.7253e-09,  ...,  0.0000e+00,
+          4.8894e-07,  0.0000e+00],
+        [ 1.7695e-08,  2.7940e-09, -9.3132e-09,  ...,  0.0000e+00,
+          6.5193e-09,  0.0000e+00]], device='cuda:0')
+Epoch 312, bias, value: tensor([-0.0075,  0.0140, -0.0151,  0.0129,  0.0209, -0.0138, -0.0181, -0.0079,
+        -0.0327, -0.0226], device='cuda:0'), grad: tensor([-3.6508e-07,  2.0489e-07, -4.1947e-06, -1.5087e-07,  1.2387e-07,
+         2.8964e-07,  5.7742e-08,  2.9914e-06,  7.3668e-07,  3.0175e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 311, time 216.76, cls_loss 0.0012 cls_loss_mapping 0.0019 cls_loss_causal 0.4742 re_mapping 0.0037 re_causal 0.0108 /// teacc 99.00 lr 0.00010000
+Epoch 313, weight, value: tensor([[-0.2867, -0.1504, -0.0944,  ..., -0.0038, -0.0566, -0.0141],
+        [-0.1269,  0.1204, -0.0875,  ...,  0.0184, -0.0596, -0.0804],
+        [ 0.1179, -0.1540, -0.1732,  ..., -0.0644,  0.1515, -0.0331],
+        ...,
+        [-0.1697, -0.0957,  0.1331,  ...,  0.0369, -0.2030, -0.0019],
+        [ 0.0978, -0.0064, -0.2985,  ..., -0.0690,  0.1588, -0.0348],
+        [-0.2056, -0.1649,  0.0357,  ..., -0.0166, -0.2082, -0.0688]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09,  2.0489e-08,  6.2399e-08,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 2.7940e-09,  4.2096e-07,  2.0396e-07,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [ 5.5879e-09,  7.9162e-08,  1.1269e-07,  ...,  0.0000e+00,
+          2.2352e-08,  0.0000e+00],
+        ...,
+        [ 2.7940e-09, -2.5891e-07,  3.1926e-06,  ...,  0.0000e+00,
+          8.3819e-09,  0.0000e+00],
+        [-4.4703e-08,  4.2841e-08,  1.3784e-07,  ...,  0.0000e+00,
+         -3.2596e-08,  0.0000e+00],
+        [ 2.7940e-09,  4.4424e-07,  2.5518e-06,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00]], device='cuda:0')
+Epoch 313, bias, value: tensor([-0.0069,  0.0138, -0.0149,  0.0129,  0.0211, -0.0138, -0.0176, -0.0079,
+        -0.0330, -0.0229], device='cuda:0'), grad: tensor([ 9.7230e-07,  4.0084e-06,  1.8841e-06, -1.3979e-06, -9.6917e-05,
+         2.7604e-06,  1.4780e-06,  4.6611e-05,  2.0228e-06,  3.8505e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 312, time 216.87, cls_loss 0.0008 cls_loss_mapping 0.0014 cls_loss_causal 0.4962 re_mapping 0.0038 re_causal 0.0115 /// teacc 99.09 lr 0.00010000
+Epoch 314, weight, value: tensor([[-0.2879, -0.1504, -0.0944,  ..., -0.0038, -0.0583, -0.0141],
+        [-0.1270,  0.1207, -0.0876,  ...,  0.0184, -0.0596, -0.0804],
+        [ 0.1182, -0.1542, -0.1732,  ..., -0.0644,  0.1514, -0.0331],
+        ...,
+        [-0.1701, -0.0959,  0.1330,  ...,  0.0369, -0.2033, -0.0019],
+        [ 0.0978, -0.0067, -0.2990,  ..., -0.0690,  0.1588, -0.0348],
+        [-0.2058, -0.1652,  0.0353,  ..., -0.0166, -0.2086, -0.0688]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 2.7940e-09, -9.1828e-07, -1.8626e-08,  ...,  0.0000e+00,
+          4.6566e-09,  0.0000e+00],
+        [ 1.8626e-09,  1.8626e-08,  0.0000e+00,  ...,  0.0000e+00,
+          8.3819e-09,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  3.5483e-07,  8.3819e-09,  ...,  0.0000e+00,
+          1.3970e-08,  0.0000e+00],
+        [-1.9558e-08,  2.3283e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -2.1420e-08,  0.0000e+00],
+        [ 0.0000e+00,  5.5227e-07,  9.3132e-10,  ...,  0.0000e+00,
+          5.0291e-08,  0.0000e+00]], device='cuda:0')
+Epoch 314, bias, value: tensor([-0.0070,  0.0138, -0.0150,  0.0131,  0.0221, -0.0138, -0.0177, -0.0081,
+        -0.0332, -0.0238], device='cuda:0'), grad: tensor([-8.4750e-08, -1.7388e-06,  6.9849e-08, -3.1944e-07, -8.7079e-07,
+         6.7055e-08,  2.8778e-07,  8.1491e-07,  4.0047e-08,  1.7444e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 313, time 217.22, cls_loss 0.0008 cls_loss_mapping 0.0019 cls_loss_causal 0.4944 re_mapping 0.0037 re_causal 0.0116 /// teacc 98.96 lr 0.00010000
+Epoch 315, weight, value: tensor([[-0.2902, -0.1508, -0.0944,  ..., -0.0038, -0.0585, -0.0141],
+        [-0.1271,  0.1209, -0.0878,  ...,  0.0184, -0.0596, -0.0804],
+        [ 0.1183, -0.1544, -0.1732,  ..., -0.0644,  0.1515, -0.0331],
+        ...,
+        [-0.1707, -0.0961,  0.1339,  ...,  0.0369, -0.2037, -0.0019],
+        [ 0.0982, -0.0069, -0.2993,  ..., -0.0690,  0.1591, -0.0349],
+        [-0.2059, -0.1653,  0.0352,  ..., -0.0166, -0.2089, -0.0688]],
+       device='cuda:0'), grad: tensor([[ 1.3039e-07,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          2.4959e-07,  0.0000e+00],
+        [ 9.3132e-10, -4.7497e-08,  4.6566e-09,  ...,  0.0000e+00,
+         -9.3132e-10,  0.0000e+00],
+        [-5.7463e-07,  5.5879e-09,  2.7940e-09,  ...,  0.0000e+00,
+         -1.1064e-06,  0.0000e+00],
+        ...,
+        [ 3.7253e-09,  2.0489e-08, -2.1420e-08,  ...,  0.0000e+00,
+          1.0245e-08,  0.0000e+00],
+        [ 4.0419e-07,  1.1176e-08,  9.3132e-10,  ...,  0.0000e+00,
+          7.8697e-07,  0.0000e+00],
+        [ 6.5193e-09,  2.7940e-09,  9.3132e-09,  ...,  0.0000e+00,
+          9.3132e-09,  0.0000e+00]], device='cuda:0')
+Epoch 315, bias, value: tensor([-0.0070,  0.0138, -0.0150,  0.0129,  0.0222, -0.0137, -0.0178, -0.0071,
+        -0.0330, -0.0241], device='cuda:0'), grad: tensor([ 5.8766e-07, -6.1467e-08, -2.4959e-06,  2.9895e-07,  2.6077e-08,
+        -2.9989e-07,  5.5879e-09, -1.0245e-08,  1.8664e-06,  8.2888e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 314, time 217.11, cls_loss 0.0009 cls_loss_mapping 0.0013 cls_loss_causal 0.4617 re_mapping 0.0038 re_causal 0.0114 /// teacc 99.09 lr 0.00010000
+Epoch 316, weight, value: tensor([[-0.2931, -0.1511, -0.0945,  ..., -0.0038, -0.0588, -0.0141],
+        [-0.1271,  0.1212, -0.0879,  ...,  0.0184, -0.0597, -0.0804],
+        [ 0.1197, -0.1546, -0.1731,  ..., -0.0644,  0.1531, -0.0331],
+        ...,
+        [-0.1710, -0.0962,  0.1340,  ...,  0.0369, -0.2041, -0.0019],
+        [ 0.0984, -0.0071, -0.2996,  ..., -0.0690,  0.1592, -0.0349],
+        [-0.2060, -0.1653,  0.0352,  ..., -0.0166, -0.2096, -0.0689]],
+       device='cuda:0'), grad: tensor([[ 8.3819e-09,  8.3819e-09,  9.3132e-10,  ...,  0.0000e+00,
+          6.5193e-09,  0.0000e+00],
+        [ 3.7253e-09,  8.9779e-07,  1.0245e-08,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [-1.1176e-08,  1.4901e-08,  4.6566e-09,  ...,  0.0000e+00,
+         -2.6077e-08,  0.0000e+00],
+        ...,
+        [ 2.7940e-09,  7.9162e-08, -3.2317e-07,  ...,  0.0000e+00,
+          1.2107e-08,  0.0000e+00],
+        [ 1.8626e-09,  6.3330e-08,  1.8626e-09,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.3690e-07,  5.7742e-08,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 316, bias, value: tensor([-0.0067,  0.0138, -0.0147,  0.0131,  0.0222, -0.0139, -0.0175, -0.0071,
+        -0.0333, -0.0241], device='cuda:0'), grad: tensor([-9.1270e-08,  2.3451e-06,  1.9558e-08,  2.2352e-08, -2.3898e-06,
+         1.4156e-07,  8.4750e-08, -1.2247e-06,  1.7509e-07,  9.1828e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 315, time 216.94, cls_loss 0.0008 cls_loss_mapping 0.0014 cls_loss_causal 0.4630 re_mapping 0.0034 re_causal 0.0109 /// teacc 99.09 lr 0.00010000
+Epoch 317, weight, value: tensor([[-0.2938, -0.1513, -0.0945,  ..., -0.0038, -0.0589, -0.0141],
+        [-0.1271,  0.1222, -0.0870,  ...,  0.0184, -0.0596, -0.0804],
+        [ 0.1198, -0.1548, -0.1731,  ..., -0.0644,  0.1533, -0.0331],
+        ...,
+        [-0.1711, -0.0975,  0.1339,  ...,  0.0369, -0.2042, -0.0019],
+        [ 0.0983, -0.0077, -0.2998,  ..., -0.0690,  0.1594, -0.0350],
+        [-0.2064, -0.1653,  0.0352,  ..., -0.0166, -0.2103, -0.0689]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-08,  2.6077e-08,  1.8626e-09,  ...,  0.0000e+00,
+          1.3039e-08,  0.0000e+00],
+        [ 2.7940e-08,  6.1467e-08,  3.9116e-08,  ...,  0.0000e+00,
+          4.4703e-08,  0.0000e+00],
+        [-1.4901e-08,  8.3819e-09,  1.0058e-07,  ...,  0.0000e+00,
+          4.2841e-08,  0.0000e+00],
+        ...,
+        [ 6.5193e-09,  3.6322e-08, -1.4715e-07,  ...,  0.0000e+00,
+         -1.0803e-07,  0.0000e+00],
+        [ 3.2596e-08,  4.8429e-08,  1.8626e-09,  ...,  0.0000e+00,
+         -2.2352e-08,  0.0000e+00],
+        [ 9.3132e-09,  4.0233e-07,  4.0978e-08,  ...,  0.0000e+00,
+          6.5193e-09,  0.0000e+00]], device='cuda:0')
+Epoch 317, bias, value: tensor([-0.0065,  0.0143, -0.0147,  0.0152,  0.0221, -0.0159, -0.0173, -0.0073,
+        -0.0336, -0.0241], device='cuda:0'), grad: tensor([ 1.6764e-08,  4.8336e-07,  4.4424e-07,  9.8720e-08, -3.0808e-06,
+         1.5758e-06, -1.8254e-06, -5.1782e-07,  9.7789e-08,  2.6990e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 316, time 217.28, cls_loss 0.0011 cls_loss_mapping 0.0022 cls_loss_causal 0.5038 re_mapping 0.0037 re_causal 0.0114 /// teacc 99.03 lr 0.00010000
+Epoch 318, weight, value: tensor([[-0.2960, -0.1515, -0.0945,  ..., -0.0038, -0.0596, -0.0141],
+        [-0.1292,  0.1212, -0.0868,  ...,  0.0184, -0.0619, -0.0804],
+        [ 0.1206, -0.1547, -0.1732,  ..., -0.0644,  0.1539, -0.0331],
+        ...,
+        [-0.1704, -0.0962,  0.1339,  ...,  0.0369, -0.2026, -0.0019],
+        [ 0.1013, -0.0063, -0.3010,  ..., -0.0690,  0.1627, -0.0350],
+        [-0.2066, -0.1654,  0.0350,  ..., -0.0166, -0.2112, -0.0689]],
+       device='cuda:0'), grad: tensor([[ 3.2596e-08,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          3.2596e-08,  0.0000e+00],
+        [ 2.7940e-09, -3.8184e-08,  9.3132e-10,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [-9.3132e-10,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -2.7940e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.2107e-08, -1.8626e-09,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [-1.0617e-07,  2.9802e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -1.3318e-07,  0.0000e+00],
+        [ 8.8476e-08,  7.1712e-08,  1.4901e-08,  ...,  0.0000e+00,
+          9.2201e-08,  0.0000e+00]], device='cuda:0')
+Epoch 318, bias, value: tensor([-0.0065,  0.0125, -0.0144,  0.0152,  0.0223, -0.0166, -0.0170, -0.0063,
+        -0.0308, -0.0243], device='cuda:0'), grad: tensor([-2.5146e-08, -6.5193e-08,  4.5635e-08,  2.0489e-08, -3.2969e-07,
+        -1.8813e-07,  1.6764e-07,  2.0489e-08, -3.7439e-07,  7.3388e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 317, time 216.97, cls_loss 0.0007 cls_loss_mapping 0.0010 cls_loss_causal 0.4706 re_mapping 0.0036 re_causal 0.0111 /// teacc 99.12 lr 0.00010000
+Epoch 319, weight, value: tensor([[-0.2962, -0.1515, -0.0945,  ..., -0.0038, -0.0595, -0.0141],
+        [-0.1295,  0.1218, -0.0863,  ...,  0.0184, -0.0625, -0.0804],
+        [ 0.1208, -0.1549, -0.1734,  ..., -0.0644,  0.1541, -0.0331],
+        ...,
+        [-0.1702, -0.0964,  0.1339,  ...,  0.0369, -0.2020, -0.0019],
+        [ 0.1014, -0.0064, -0.3014,  ..., -0.0690,  0.1628, -0.0350],
+        [-0.2068, -0.1654,  0.0350,  ..., -0.0166, -0.2116, -0.0689]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 9.3132e-10, -1.7975e-07,  2.1420e-08,  ...,  0.0000e+00,
+         -2.1420e-08,  0.0000e+00],
+        [-1.5832e-08,  4.5635e-08,  9.3132e-10,  ...,  0.0000e+00,
+         -7.4506e-09,  0.0000e+00],
+        ...,
+        [ 4.6566e-09,  7.5437e-08, -4.1910e-08,  ...,  0.0000e+00,
+          1.5832e-08,  0.0000e+00],
+        [ 1.5832e-08,  2.8871e-08,  1.8626e-09,  ...,  0.0000e+00,
+          1.3039e-08,  0.0000e+00],
+        [ 4.6566e-09,  1.7695e-08,  3.7253e-09,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 319, bias, value: tensor([-0.0063,  0.0125, -0.0144,  0.0152,  0.0223, -0.0166, -0.0172, -0.0062,
+        -0.0308, -0.0244], device='cuda:0'), grad: tensor([ 1.1176e-08, -1.0151e-07,  5.1223e-08,  2.8871e-08,  4.9360e-08,
+        -8.5682e-08,  3.3528e-08, -1.9372e-07,  9.1270e-08,  1.0803e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 318, time 216.88, cls_loss 0.0009 cls_loss_mapping 0.0018 cls_loss_causal 0.4900 re_mapping 0.0036 re_causal 0.0106 /// teacc 98.99 lr 0.00010000
+Epoch 320, weight, value: tensor([[-0.2968, -0.1518, -0.0945,  ..., -0.0038, -0.0597, -0.0168],
+        [-0.1299,  0.1220, -0.0864,  ...,  0.0184, -0.0627, -0.0818],
+        [ 0.1218, -0.1552, -0.1734,  ..., -0.0644,  0.1551, -0.0337],
+        ...,
+        [-0.1712, -0.0970,  0.1339,  ...,  0.0369, -0.2029, -0.0021],
+        [ 0.1015, -0.0063, -0.3019,  ..., -0.0690,  0.1629, -0.0356],
+        [-0.2072, -0.1655,  0.0350,  ..., -0.0166, -0.2111, -0.0720]],
+       device='cuda:0'), grad: tensor([[ 1.2480e-07,  2.2072e-07,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 1.8626e-09, -4.3772e-08,  5.5879e-09,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [ 8.3819e-09,  1.4901e-08,  2.7940e-09,  ...,  0.0000e+00,
+          1.6764e-08,  0.0000e+00],
+        ...,
+        [ 5.5879e-09,  2.2352e-08, -6.1467e-08,  ...,  0.0000e+00,
+          1.3039e-08,  0.0000e+00],
+        [-6.5193e-09,  4.6566e-09,  2.7940e-09,  ...,  0.0000e+00,
+         -1.3970e-08,  0.0000e+00],
+        [ 1.0245e-08,  4.3772e-08,  5.7742e-08,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00]], device='cuda:0')
+Epoch 320, bias, value: tensor([-0.0062,  0.0124, -0.0140,  0.0152,  0.0225, -0.0166, -0.0174, -0.0068,
+        -0.0307, -0.0245], device='cuda:0'), grad: tensor([ 6.5193e-07, -4.6566e-08,  9.1270e-08,  6.9849e-08, -7.6368e-08,
+        -1.9372e-07, -7.4692e-07, -1.0151e-07,  1.4901e-08,  3.2224e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 319, time 216.82, cls_loss 0.0008 cls_loss_mapping 0.0014 cls_loss_causal 0.4698 re_mapping 0.0036 re_causal 0.0111 /// teacc 98.97 lr 0.00010000
+Epoch 321, weight, value: tensor([[-0.2991, -0.1519, -0.0945,  ..., -0.0038, -0.0606, -0.0170],
+        [-0.1301,  0.1224, -0.0867,  ...,  0.0184, -0.0627, -0.0819],
+        [ 0.1233, -0.1555, -0.1731,  ..., -0.0644,  0.1562, -0.0337],
+        ...,
+        [-0.1724, -0.0973,  0.1340,  ...,  0.0369, -0.2037, -0.0022],
+        [ 0.1016, -0.0067, -0.3025,  ..., -0.0690,  0.1629, -0.0356],
+        [-0.2073, -0.1656,  0.0349,  ..., -0.0166, -0.2117, -0.0723]],
+       device='cuda:0'), grad: tensor([[ 1.1828e-07,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          2.5239e-07,  0.0000e+00],
+        [ 8.9407e-08, -1.7695e-08,  0.0000e+00,  ...,  0.0000e+00,
+          1.1269e-07,  0.0000e+00],
+        [-3.4831e-07,  1.1176e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -7.3295e-07,  0.0000e+00],
+        ...,
+        [ 2.5146e-08,  4.5635e-08,  8.3819e-09,  ...,  0.0000e+00,
+          4.7497e-08,  0.0000e+00],
+        [-1.9558e-07, -1.4156e-07,  0.0000e+00,  ...,  0.0000e+00,
+         -1.5832e-07,  0.0000e+00],
+        [ 1.2107e-08,  6.7987e-08,  3.7253e-09,  ...,  0.0000e+00,
+          1.9558e-08,  0.0000e+00]], device='cuda:0')
+Epoch 321, bias, value: tensor([-0.0063,  0.0126, -0.0135,  0.0152,  0.0225, -0.0166, -0.0178, -0.0071,
+        -0.0308, -0.0246], device='cuda:0'), grad: tensor([ 5.5879e-07,  1.7695e-07, -1.6214e-06,  3.2783e-07, -1.7136e-07,
+         3.8370e-07,  3.9116e-07,  2.4959e-07, -4.8615e-07,  2.0489e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 320, time 216.68, cls_loss 0.0016 cls_loss_mapping 0.0029 cls_loss_causal 0.4982 re_mapping 0.0040 re_causal 0.0112 /// teacc 99.10 lr 0.00010000
+Epoch 322, weight, value: tensor([[-0.3035, -0.1542, -0.0945,  ..., -0.0038, -0.0619, -0.0171],
+        [-0.1304,  0.1231, -0.0871,  ...,  0.0184, -0.0628, -0.0819],
+        [ 0.1265, -0.1560, -0.1733,  ..., -0.0644,  0.1596, -0.0337],
+        ...,
+        [-0.1758, -0.0976,  0.1345,  ...,  0.0369, -0.2056, -0.0023],
+        [ 0.1020, -0.0070, -0.3038,  ..., -0.0690,  0.1631, -0.0357],
+        [-0.2080, -0.1662,  0.0349,  ..., -0.0166, -0.2186, -0.0724]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09,  1.3039e-08,  2.7940e-09,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 6.5193e-09, -4.0978e-08,  2.7940e-09,  ...,  0.0000e+00,
+          6.5193e-09,  0.0000e+00],
+        [ 9.3132e-09,  4.6566e-09,  2.7940e-09,  ...,  0.0000e+00,
+          8.3819e-09,  0.0000e+00],
+        ...,
+        [ 1.5832e-08,  2.8871e-08, -3.7253e-09,  ...,  0.0000e+00,
+          1.2107e-08,  0.0000e+00],
+        [-1.2014e-07,  2.0489e-08,  4.6566e-09,  ...,  0.0000e+00,
+         -1.2852e-07,  0.0000e+00],
+        [ 7.5437e-08,  5.4017e-08, -6.5193e-09,  ...,  0.0000e+00,
+          6.7987e-08,  0.0000e+00]], device='cuda:0')
+Epoch 322, bias, value: tensor([-0.0068,  0.0127, -0.0117,  0.0151,  0.0225, -0.0164, -0.0169, -0.0074,
+        -0.0309, -0.0247], device='cuda:0'), grad: tensor([-4.4703e-08, -3.3528e-08,  9.4064e-08,  7.4506e-09, -1.8813e-07,
+         1.7416e-07, -1.0058e-07, -1.7695e-08, -2.3562e-07,  3.3248e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 321, time 216.76, cls_loss 0.0013 cls_loss_mapping 0.0021 cls_loss_causal 0.4779 re_mapping 0.0038 re_causal 0.0108 /// teacc 99.11 lr 0.00010000
+Epoch 323, weight, value: tensor([[-0.3031, -0.1542, -0.0945,  ..., -0.0038, -0.0616, -0.0171],
+        [-0.1310,  0.1233, -0.0874,  ...,  0.0184, -0.0629, -0.0819],
+        [ 0.1283, -0.1563, -0.1734,  ..., -0.0644,  0.1613, -0.0337],
+        ...,
+        [-0.1762, -0.0979,  0.1346,  ...,  0.0369, -0.2059, -0.0024],
+        [ 0.1018, -0.0075, -0.3044,  ..., -0.0690,  0.1630, -0.0358],
+        [-0.2091, -0.1663,  0.0348,  ..., -0.0166, -0.2220, -0.0724]],
+       device='cuda:0'), grad: tensor([[ 6.8918e-08, -5.5879e-08,  0.0000e+00,  ...,  0.0000e+00,
+          1.1269e-07,  0.0000e+00],
+        [ 3.3528e-08, -7.4506e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.0338e-07,  0.0000e+00],
+        [-4.0419e-07,  3.5390e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -5.8115e-07,  0.0000e+00],
+        ...,
+        [ 1.7695e-07,  1.0245e-08, -1.8626e-09,  ...,  0.0000e+00,
+          2.9150e-07,  0.0000e+00],
+        [ 5.4948e-08,  4.6566e-09,  0.0000e+00,  ...,  0.0000e+00,
+          8.1956e-08,  0.0000e+00],
+        [ 1.7695e-08,  7.0781e-08, -9.3132e-10,  ...,  0.0000e+00,
+          1.2852e-07,  0.0000e+00]], device='cuda:0')
+Epoch 323, bias, value: tensor([-0.0051,  0.0127, -0.0110,  0.0145,  0.0226, -0.0160, -0.0186, -0.0072,
+        -0.0311, -0.0249], device='cuda:0'), grad: tensor([-3.0696e-06,  3.0454e-07, -8.4192e-07, -7.5903e-07, -1.0505e-06,
+         3.7905e-07,  3.5428e-06,  7.1898e-07,  1.8347e-07,  5.9977e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 322, time 216.68, cls_loss 0.0009 cls_loss_mapping 0.0014 cls_loss_causal 0.4551 re_mapping 0.0037 re_causal 0.0109 /// teacc 99.08 lr 0.00010000
+Epoch 324, weight, value: tensor([[-0.3044, -0.1545, -0.0945,  ..., -0.0038, -0.0619, -0.0171],
+        [-0.1312,  0.1236, -0.0874,  ...,  0.0184, -0.0630, -0.0819],
+        [ 0.1286, -0.1564, -0.1733,  ..., -0.0644,  0.1617, -0.0337],
+        ...,
+        [-0.1765, -0.0983,  0.1346,  ...,  0.0369, -0.2061, -0.0024],
+        [ 0.1020, -0.0077, -0.3047,  ..., -0.0690,  0.1632, -0.0358],
+        [-0.2093, -0.1664,  0.0347,  ..., -0.0166, -0.2223, -0.0724]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  7.4506e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  9.3132e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -8.3819e-09,  0.0000e+00],
+        [ 0.0000e+00,  5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  2.6077e-08,  1.8626e-09,  ...,  0.0000e+00,
+          1.6764e-08,  0.0000e+00],
+        [-1.0245e-08,  3.6322e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -4.6566e-09,  0.0000e+00],
+        [ 5.5879e-09,  2.8964e-07,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 324, bias, value: tensor([-0.0051,  0.0127, -0.0109,  0.0144,  0.0228, -0.0159, -0.0185, -0.0075,
+        -0.0310, -0.0252], device='cuda:0'), grad: tensor([ 1.2107e-08,  5.8673e-08,  3.5390e-08, -1.3504e-07, -1.6866e-06,
+         3.7253e-08,  2.0489e-08,  1.8347e-07,  1.2945e-07,  1.3374e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 323, time 216.84, cls_loss 0.0009 cls_loss_mapping 0.0016 cls_loss_causal 0.4759 re_mapping 0.0037 re_causal 0.0110 /// teacc 99.05 lr 0.00010000
+Epoch 325, weight, value: tensor([[-0.3048, -0.1545, -0.0945,  ..., -0.0038, -0.0620, -0.0171],
+        [-0.1316,  0.1238, -0.0875,  ...,  0.0184, -0.0634, -0.0819],
+        [ 0.1292, -0.1567, -0.1734,  ..., -0.0644,  0.1622, -0.0337],
+        ...,
+        [-0.1768, -0.0985,  0.1345,  ...,  0.0369, -0.2064, -0.0024],
+        [ 0.1019, -0.0079, -0.3054,  ..., -0.0690,  0.1632, -0.0360],
+        [-0.2095, -0.1667,  0.0346,  ..., -0.0166, -0.2225, -0.0724]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09, -7.1712e-08,  2.7940e-09,  ...,  0.0000e+00,
+          3.3528e-08,  0.0000e+00],
+        [ 0.0000e+00, -1.8626e-08,  1.9558e-08,  ...,  0.0000e+00,
+          3.8184e-08,  0.0000e+00],
+        [-8.3819e-09,  4.6566e-09,  4.0047e-08,  ...,  0.0000e+00,
+         -6.9849e-08,  0.0000e+00],
+        ...,
+        [ 2.7940e-09,  5.5879e-09, -2.9616e-07,  ...,  0.0000e+00,
+          2.7660e-07,  0.0000e+00],
+        [-5.5879e-09,  7.4506e-09,  1.8626e-09,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 3.7253e-09,  5.3085e-08,  1.9465e-07,  ...,  0.0000e+00,
+          1.3970e-08,  0.0000e+00]], device='cuda:0')
+Epoch 325, bias, value: tensor([-0.0049,  0.0124, -0.0107,  0.0144,  0.0232, -0.0158, -0.0189, -0.0074,
+        -0.0313, -0.0255], device='cuda:0'), grad: tensor([-9.3877e-07,  2.4214e-07,  1.7788e-07, -1.7229e-06,  3.1292e-07,
+         4.7870e-07,  2.4587e-07, -2.0489e-07,  1.2387e-07,  1.2852e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 324, time 217.02, cls_loss 0.0007 cls_loss_mapping 0.0014 cls_loss_causal 0.4679 re_mapping 0.0037 re_causal 0.0114 /// teacc 98.97 lr 0.00010000
+Epoch 326, weight, value: tensor([[-0.3049, -0.1546, -0.0945,  ..., -0.0038, -0.0621, -0.0171],
+        [-0.1319,  0.1241, -0.0876,  ...,  0.0184, -0.0635, -0.0819],
+        [ 0.1299, -0.1569, -0.1734,  ..., -0.0644,  0.1626, -0.0337],
+        ...,
+        [-0.1775, -0.0986,  0.1345,  ...,  0.0369, -0.2069, -0.0024],
+        [ 0.1019, -0.0080, -0.3060,  ..., -0.0690,  0.1632, -0.0360],
+        [-0.2100, -0.1668,  0.0345,  ..., -0.0166, -0.2230, -0.0724]],
+       device='cuda:0'), grad: tensor([[ 1.0245e-08,  2.7008e-08,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-08,  0.0000e+00],
+        [ 1.3039e-08, -6.2585e-06,  0.0000e+00,  ...,  0.0000e+00,
+         -2.3842e-06,  0.0000e+00],
+        [-6.9756e-07,  4.7013e-06,  0.0000e+00,  ...,  0.0000e+00,
+          1.1483e-06,  0.0000e+00],
+        ...,
+        [ 6.5099e-07,  8.2888e-08,  1.6764e-08,  ...,  0.0000e+00,
+          6.5658e-07,  0.0000e+00],
+        [ 7.4506e-09,  2.9057e-07,  0.0000e+00,  ...,  0.0000e+00,
+          1.1362e-07,  0.0000e+00],
+        [ 7.4506e-09,  4.1537e-07, -1.9558e-08,  ...,  0.0000e+00,
+          1.3225e-07,  0.0000e+00]], device='cuda:0')
+Epoch 326, bias, value: tensor([-0.0048,  0.0124, -0.0106,  0.0144,  0.0233, -0.0157, -0.0191, -0.0076,
+        -0.0313, -0.0257], device='cuda:0'), grad: tensor([-1.8626e-09, -2.4185e-05,  1.6063e-05, -5.1223e-08,  8.6334e-07,
+         1.7509e-06,  2.2817e-07,  2.5108e-06,  1.1325e-06,  1.6829e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 325, time 216.95, cls_loss 0.0011 cls_loss_mapping 0.0015 cls_loss_causal 0.4634 re_mapping 0.0035 re_causal 0.0104 /// teacc 99.05 lr 0.00010000
+Epoch 327, weight, value: tensor([[-0.3059, -0.1550, -0.0945,  ..., -0.0038, -0.0628, -0.0171],
+        [-0.1322,  0.1248, -0.0877,  ...,  0.0184, -0.0606, -0.0819],
+        [ 0.1302, -0.1581, -0.1734,  ..., -0.0644,  0.1607, -0.0337],
+        ...,
+        [-0.1777, -0.0981,  0.1345,  ...,  0.0369, -0.2077, -0.0026],
+        [ 0.1020, -0.0085, -0.3075,  ..., -0.0690,  0.1630, -0.0361],
+        [-0.2103, -0.1669,  0.0345,  ..., -0.0166, -0.2244, -0.0724]],
+       device='cuda:0'), grad: tensor([[ 1.5832e-08,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.6764e-08,  0.0000e+00],
+        [ 0.0000e+00, -1.1642e-07,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 2.0489e-08,  4.4703e-08,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-08,  0.0000e+00],
+        ...,
+        [ 2.7940e-09,  1.2107e-08,  0.0000e+00,  ...,  0.0000e+00,
+          1.1828e-07,  0.0000e+00],
+        [-1.5367e-07,  9.3132e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.3597e-07,  0.0000e+00],
+        [ 3.7253e-09,  4.6566e-09, -9.3132e-10,  ...,  0.0000e+00,
+          4.6566e-09,  0.0000e+00]], device='cuda:0')
+Epoch 327, bias, value: tensor([-0.0048,  0.0145, -0.0119,  0.0144,  0.0235, -0.0158, -0.0190, -0.0076,
+        -0.0320, -0.0258], device='cuda:0'), grad: tensor([-3.7253e-09, -2.2352e-07,  2.5891e-07, -5.3924e-07,  7.1712e-08,
+         1.8626e-07,  3.7253e-09,  6.8545e-07, -3.3062e-07, -1.0896e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 326, time 216.59, cls_loss 0.0009 cls_loss_mapping 0.0017 cls_loss_causal 0.4854 re_mapping 0.0038 re_causal 0.0110 /// teacc 99.07 lr 0.00010000
+Epoch 328, weight, value: tensor([[-0.3064, -0.1550, -0.0945,  ..., -0.0038, -0.0631, -0.0171],
+        [-0.1323,  0.1250, -0.0878,  ...,  0.0184, -0.0606, -0.0819],
+        [ 0.1303, -0.1590, -0.1734,  ..., -0.0644,  0.1608, -0.0337],
+        ...,
+        [-0.1778, -0.0982,  0.1346,  ...,  0.0369, -0.2078, -0.0026],
+        [ 0.1023, -0.0088, -0.3078,  ..., -0.0690,  0.1631, -0.0361],
+        [-0.2119, -0.1671,  0.0345,  ..., -0.0166, -0.2267, -0.0724]],
+       device='cuda:0'), grad: tensor([[ 1.2573e-08,  2.7940e-08,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 1.3039e-08, -8.5682e-08,  4.6566e-10,  ...,  0.0000e+00,
+         -3.2596e-09,  0.0000e+00],
+        [ 9.3132e-10,  1.2573e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -1.8626e-09,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  8.8476e-09, -1.3970e-09,  ...,  0.0000e+00,
+          3.2596e-09,  0.0000e+00],
+        [ 1.6764e-08,  1.0245e-07,  0.0000e+00,  ...,  0.0000e+00,
+          3.2596e-09,  0.0000e+00],
+        [ 6.0536e-09,  1.2340e-07,  4.6566e-10,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 328, bias, value: tensor([-0.0046,  0.0145, -0.0120,  0.0143,  0.0236, -0.0158, -0.0185, -0.0074,
+        -0.0319, -0.0260], device='cuda:0'), grad: tensor([-1.2936e-06, -1.6997e-07,  7.5437e-08, -2.9337e-08, -4.1910e-07,
+         4.4238e-08, -2.5751e-07,  3.3062e-08,  6.3516e-07,  1.3877e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 327, time 216.89, cls_loss 0.0009 cls_loss_mapping 0.0020 cls_loss_causal 0.4452 re_mapping 0.0036 re_causal 0.0107 /// teacc 99.00 lr 0.00010000
+Epoch 329, weight, value: tensor([[-0.3093, -0.1552, -0.0945,  ..., -0.0038, -0.0632, -0.0171],
+        [-0.1326,  0.1251, -0.0879,  ...,  0.0184, -0.0606, -0.0819],
+        [ 0.1307, -0.1592, -0.1734,  ..., -0.0644,  0.1610, -0.0337],
+        ...,
+        [-0.1781, -0.0983,  0.1347,  ...,  0.0369, -0.2080, -0.0026],
+        [ 0.1019, -0.0091, -0.3082,  ..., -0.0690,  0.1631, -0.0361],
+        [-0.2121, -0.1672,  0.0345,  ..., -0.0166, -0.2270, -0.0724]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09,  9.3132e-09,  0.0000e+00,  ...,  0.0000e+00,
+          8.3819e-09,  0.0000e+00],
+        [ 1.9558e-08,  9.3132e-10,  9.3132e-10,  ...,  0.0000e+00,
+          2.8871e-08,  0.0000e+00],
+        [ 2.7940e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          2.5146e-08,  0.0000e+00],
+        ...,
+        [ 3.7253e-09,  4.6566e-09, -9.3132e-10,  ...,  0.0000e+00,
+          5.6811e-08,  0.0000e+00],
+        [-3.2596e-07, -1.9278e-07,  0.0000e+00,  ...,  0.0000e+00,
+         -3.8557e-07,  0.0000e+00],
+        [ 2.5239e-07,  1.6950e-07,  0.0000e+00,  ...,  0.0000e+00,
+          3.1851e-07,  0.0000e+00]], device='cuda:0')
+Epoch 329, bias, value: tensor([-0.0050,  0.0145, -0.0120,  0.0143,  0.0237, -0.0156, -0.0184, -0.0075,
+        -0.0325, -0.0261], device='cuda:0'), grad: tensor([ 7.3574e-08,  1.0151e-07,  9.0338e-08, -5.1409e-07,  1.0151e-07,
+         2.8964e-07, -7.4506e-09,  8.0466e-07, -1.2564e-06,  3.1665e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 328, time 216.88, cls_loss 0.0012 cls_loss_mapping 0.0025 cls_loss_causal 0.4907 re_mapping 0.0038 re_causal 0.0114 /// teacc 99.04 lr 0.00010000
+Epoch 330, weight, value: tensor([[-0.3120, -0.1558, -0.0946,  ..., -0.0038, -0.0635, -0.0171],
+        [-0.1328,  0.1253, -0.0877,  ...,  0.0184, -0.0604, -0.0819],
+        [ 0.1301, -0.1595, -0.1735,  ..., -0.0644,  0.1607, -0.0337],
+        ...,
+        [-0.1773, -0.0985,  0.1347,  ...,  0.0369, -0.2083, -0.0026],
+        [ 0.1022, -0.0088, -0.3083,  ..., -0.0690,  0.1633, -0.0362],
+        [-0.2131, -0.1674,  0.0344,  ..., -0.0166, -0.2278, -0.0724]],
+       device='cuda:0'), grad: tensor([[-1.3970e-08, -3.3528e-08,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-08,  0.0000e+00],
+        [ 6.6124e-08,  1.8626e-08,  9.3132e-10,  ...,  0.0000e+00,
+          5.6811e-08,  0.0000e+00],
+        [ 9.3132e-10,  5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.0245e-08,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  2.7940e-09, -3.7253e-09,  ...,  0.0000e+00,
+          9.3132e-09,  0.0000e+00],
+        [-7.4506e-08, -2.7008e-08,  9.3132e-10,  ...,  0.0000e+00,
+         -4.8429e-08,  0.0000e+00],
+        [ 1.8626e-09,  5.5879e-09, -5.5879e-09,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 330, bias, value: tensor([-0.0056,  0.0146, -0.0126,  0.0144,  0.0269, -0.0154, -0.0185, -0.0071,
+        -0.0324, -0.0293], device='cuda:0'), grad: tensor([-1.4994e-07,  1.8999e-07,  5.4017e-08, -1.8347e-07,  1.4696e-06,
+         6.5193e-08,  1.8720e-07, -1.2573e-07, -1.6764e-08, -1.4808e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 329, time 217.10, cls_loss 0.0012 cls_loss_mapping 0.0017 cls_loss_causal 0.4828 re_mapping 0.0035 re_causal 0.0105 /// teacc 99.01 lr 0.00010000
+Epoch 331, weight, value: tensor([[-0.3141, -0.1570, -0.0946,  ..., -0.0038, -0.0640, -0.0171],
+        [-0.1334,  0.1256, -0.0884,  ...,  0.0184, -0.0605, -0.0819],
+        [ 0.1311, -0.1596, -0.1730,  ..., -0.0644,  0.1617, -0.0337],
+        ...,
+        [-0.1776, -0.0981,  0.1345,  ...,  0.0369, -0.2087, -0.0026],
+        [ 0.1024, -0.0090, -0.3098,  ..., -0.0690,  0.1634, -0.0363],
+        [-0.2138, -0.1674,  0.0344,  ..., -0.0166, -0.2284, -0.0724]],
+       device='cuda:0'), grad: tensor([[ 1.3039e-08,  1.0245e-08,  0.0000e+00,  ...,  0.0000e+00,
+          3.0734e-08,  0.0000e+00],
+        [ 2.4494e-07,  2.9523e-07,  0.0000e+00,  ...,  0.0000e+00,
+          5.3365e-07,  0.0000e+00],
+        [ 4.6566e-09,  5.5879e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -1.1362e-07,  0.0000e+00],
+        ...,
+        [ 3.3528e-08,  3.7253e-08,  9.3132e-10,  ...,  0.0000e+00,
+          1.3411e-07,  0.0000e+00],
+        [-3.7625e-07, -6.9663e-07,  0.0000e+00,  ...,  0.0000e+00,
+         -1.0841e-06,  0.0000e+00],
+        [ 1.8626e-08,  2.2352e-08, -4.6566e-09,  ...,  0.0000e+00,
+          4.0047e-08,  0.0000e+00]], device='cuda:0')
+Epoch 331, bias, value: tensor([-0.0059,  0.0143, -0.0122,  0.0144,  0.0269, -0.0154, -0.0177, -0.0083,
+        -0.0325, -0.0292], device='cuda:0'), grad: tensor([ 1.9558e-08,  1.4286e-06, -9.3132e-08, -2.1644e-06,  1.8440e-07,
+        -1.4687e-06,  4.4070e-06,  3.6322e-07, -2.6934e-06,  3.5390e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 330, time 216.75, cls_loss 0.0009 cls_loss_mapping 0.0013 cls_loss_causal 0.4597 re_mapping 0.0038 re_causal 0.0113 /// teacc 99.03 lr 0.00010000
+Epoch 332, weight, value: tensor([[-0.3158, -0.1573, -0.0946,  ..., -0.0038, -0.0642, -0.0171],
+        [-0.1335,  0.1269, -0.0873,  ...,  0.0184, -0.0604, -0.0819],
+        [ 0.1313, -0.1598, -0.1730,  ..., -0.0644,  0.1619, -0.0337],
+        ...,
+        [-0.1779, -0.0995,  0.1343,  ...,  0.0369, -0.2090, -0.0029],
+        [ 0.1020, -0.0087, -0.3103,  ..., -0.0690,  0.1634, -0.0369],
+        [-0.2142, -0.1675,  0.0344,  ..., -0.0166, -0.2287, -0.0724]],
+       device='cuda:0'), grad: tensor([[ 1.1176e-08,  3.1665e-08,  1.8626e-09,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [-1.1828e-07, -6.4634e-07,  3.7253e-09,  ...,  0.0000e+00,
+         -6.8918e-08,  0.0000e+00],
+        [-6.6124e-08,  1.3970e-08, -3.4459e-08,  ...,  0.0000e+00,
+         -2.5611e-07,  0.0000e+00],
+        ...,
+        [ 3.2596e-08,  5.4017e-08,  9.3132e-10,  ...,  0.0000e+00,
+          1.3411e-07,  0.0000e+00],
+        [ 4.6566e-08,  1.3318e-07,  9.3132e-10,  ...,  0.0000e+00,
+          3.2596e-08,  0.0000e+00],
+        [ 2.7940e-09,  1.3039e-08,  8.3819e-09,  ...,  0.0000e+00,
+          4.6566e-09,  0.0000e+00]], device='cuda:0')
+Epoch 332, bias, value: tensor([-0.0062,  0.0147, -0.0123,  0.0145,  0.0269, -0.0153, -0.0170, -0.0087,
+        -0.0330, -0.0292], device='cuda:0'), grad: tensor([ 8.7544e-08, -1.0403e-06, -6.7241e-07,  2.3376e-07,  1.8440e-07,
+         6.0629e-07, -8.6613e-08,  3.3341e-07,  2.7288e-07,  1.0245e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 331, time 216.94, cls_loss 0.0008 cls_loss_mapping 0.0011 cls_loss_causal 0.4686 re_mapping 0.0037 re_causal 0.0113 /// teacc 99.05 lr 0.00010000
+Epoch 333, weight, value: tensor([[-0.3164, -0.1572, -0.0946,  ..., -0.0038, -0.0640, -0.0171],
+        [-0.1338,  0.1283, -0.0874,  ...,  0.0184, -0.0605, -0.0819],
+        [ 0.1336, -0.1600, -0.1724,  ..., -0.0644,  0.1632, -0.0337],
+        ...,
+        [-0.1805, -0.1013,  0.1342,  ...,  0.0369, -0.2111, -0.0030],
+        [ 0.1019, -0.0088, -0.3105,  ..., -0.0690,  0.1634, -0.0370],
+        [-0.2144, -0.1675,  0.0344,  ..., -0.0166, -0.2290, -0.0724]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -7.4506e-09,  0.0000e+00],
+        [ 9.3132e-10, -1.5832e-08,  2.7940e-09,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 8.3819e-09,  4.6566e-09,  3.7253e-09,  ...,  0.0000e+00,
+          4.6566e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  6.5193e-09, -2.7940e-08,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [-1.0245e-08,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.4901e-08,  0.0000e+00],
+        [ 0.0000e+00,  2.7940e-09,  9.3132e-10,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00]], device='cuda:0')
+Epoch 333, bias, value: tensor([-0.0061,  0.0154, -0.0116,  0.0148,  0.0269, -0.0156, -0.0168, -0.0099,
+        -0.0331, -0.0292], device='cuda:0'), grad: tensor([-6.1467e-08,  2.9802e-08,  7.5437e-08,  3.9861e-07,  4.9360e-08,
+         4.6566e-08, -3.3528e-08, -5.1223e-07, -2.4214e-08,  4.3772e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 332, time 216.83, cls_loss 0.0007 cls_loss_mapping 0.0015 cls_loss_causal 0.4755 re_mapping 0.0036 re_causal 0.0111 /// teacc 99.13 lr 0.00010000
+Epoch 334, weight, value: tensor([[-0.3168, -0.1573, -0.0946,  ..., -0.0038, -0.0638, -0.0171],
+        [-0.1341,  0.1287, -0.0875,  ...,  0.0184, -0.0605, -0.0819],
+        [ 0.1343, -0.1606, -0.1725,  ..., -0.0644,  0.1638, -0.0337],
+        ...,
+        [-0.1810, -0.1015,  0.1342,  ...,  0.0369, -0.2116, -0.0030],
+        [ 0.1017, -0.0091, -0.3107,  ..., -0.0690,  0.1633, -0.0370],
+        [-0.2150, -0.1676,  0.0344,  ..., -0.0166, -0.2300, -0.0724]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  1.2107e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 3.7253e-09, -2.0489e-08,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 1.8626e-09,  5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  4.6566e-09,  9.3132e-10,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 2.4214e-08,  2.1420e-08,  0.0000e+00,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [ 1.8626e-09,  8.3819e-09, -2.7940e-09,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00]], device='cuda:0')
+Epoch 334, bias, value: tensor([-0.0057,  0.0154, -0.0115,  0.0149,  0.0270, -0.0156, -0.0173, -0.0101,
+        -0.0333, -0.0294], device='cuda:0'), grad: tensor([-2.7940e-08, -3.0734e-08,  2.0489e-08,  1.0589e-06,  2.5332e-07,
+        -1.1576e-06, -2.5239e-07,  1.9558e-08,  7.8231e-08,  2.7940e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 333, time 216.64, cls_loss 0.0009 cls_loss_mapping 0.0017 cls_loss_causal 0.4743 re_mapping 0.0036 re_causal 0.0109 /// teacc 99.14 lr 0.00010000
+Epoch 335, weight, value: tensor([[-0.3172, -0.1575, -0.0946,  ..., -0.0038, -0.0641, -0.0171],
+        [-0.1346,  0.1293, -0.0876,  ...,  0.0184, -0.0606, -0.0819],
+        [ 0.1345, -0.1609, -0.1726,  ..., -0.0644,  0.1641, -0.0337],
+        ...,
+        [-0.1811, -0.1020,  0.1342,  ...,  0.0369, -0.2121, -0.0030],
+        [ 0.1018, -0.0092, -0.3111,  ..., -0.0690,  0.1635, -0.0370],
+        [-0.2151, -0.1677,  0.0344,  ..., -0.0166, -0.2301, -0.0724]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.0245e-08,  0.0000e+00],
+        [ 2.7940e-09, -3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          8.3819e-09,  0.0000e+00],
+        [-8.3819e-09,  1.8626e-09,  9.3132e-10,  ...,  0.0000e+00,
+         -4.6566e-09,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  9.3132e-10, -7.4506e-09,  ...,  0.0000e+00,
+          1.3970e-08,  0.0000e+00],
+        [ 3.8184e-08,  1.8626e-08,  1.5832e-08,  ...,  0.0000e+00,
+          2.7008e-08,  0.0000e+00],
+        [ 6.5193e-09,  0.0000e+00, -2.2352e-08,  ...,  0.0000e+00,
+          1.8626e-08,  0.0000e+00]], device='cuda:0')
+Epoch 335, bias, value: tensor([-0.0056,  0.0155, -0.0115,  0.0149,  0.0270, -0.0156, -0.0174, -0.0106,
+        -0.0333, -0.0294], device='cuda:0'), grad: tensor([-2.1141e-07,  9.1270e-08,  2.5425e-07, -1.7416e-07,  3.6508e-07,
+        -3.2596e-08, -5.6811e-08, -4.8243e-07,  3.0734e-07, -6.2399e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 334, time 216.80, cls_loss 0.0011 cls_loss_mapping 0.0014 cls_loss_causal 0.4801 re_mapping 0.0036 re_causal 0.0107 /// teacc 99.05 lr 0.00010000
+Epoch 336, weight, value: tensor([[-0.3178, -0.1580, -0.0946,  ..., -0.0038, -0.0646, -0.0171],
+        [-0.1354,  0.1297, -0.0875,  ...,  0.0184, -0.0608, -0.0819],
+        [ 0.1381, -0.1610, -0.1727,  ..., -0.0644,  0.1670, -0.0337],
+        ...,
+        [-0.1840, -0.1022,  0.1342,  ...,  0.0369, -0.2148, -0.0030],
+        [ 0.1018, -0.0093, -0.3116,  ..., -0.0690,  0.1636, -0.0370],
+        [-0.2158, -0.1677,  0.0344,  ..., -0.0166, -0.2308, -0.0724]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09, -3.9395e-07,  0.0000e+00,  ...,  0.0000e+00,
+         -3.3528e-08,  0.0000e+00],
+        [ 6.3982e-07,  5.7090e-07,  0.0000e+00,  ...,  0.0000e+00,
+          8.1211e-07,  0.0000e+00],
+        [ 5.5879e-09,  2.0489e-08,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 7.4506e-09,  1.3970e-08, -9.3132e-10,  ...,  0.0000e+00,
+          1.3039e-08,  0.0000e+00],
+        [-1.0226e-06, -4.3586e-07,  0.0000e+00,  ...,  0.0000e+00,
+         -1.2498e-06,  0.0000e+00],
+        [ 5.9605e-08,  6.7987e-08,  0.0000e+00,  ...,  0.0000e+00,
+          7.6368e-08,  0.0000e+00]], device='cuda:0')
+Epoch 336, bias, value: tensor([-0.0059,  0.0154, -0.0092,  0.0150,  0.0270, -0.0155, -0.0171, -0.0121,
+        -0.0335, -0.0293], device='cuda:0'), grad: tensor([-3.8091e-06,  4.9323e-06,  1.0710e-07, -1.1828e-07,  8.8476e-08,
+         1.0217e-06,  3.1851e-07,  8.1025e-08, -3.1404e-06,  5.2899e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 335, time 216.60, cls_loss 0.0008 cls_loss_mapping 0.0014 cls_loss_causal 0.4899 re_mapping 0.0035 re_causal 0.0111 /// teacc 99.11 lr 0.00010000
+Epoch 337, weight, value: tensor([[-0.3181, -0.1580, -0.0946,  ..., -0.0038, -0.0648, -0.0171],
+        [-0.1363,  0.1316, -0.0875,  ...,  0.0184, -0.0606, -0.0819],
+        [ 0.1384, -0.1641, -0.1728,  ..., -0.0644,  0.1671, -0.0337],
+        ...,
+        [-0.1842, -0.1026,  0.1342,  ...,  0.0369, -0.2152, -0.0030],
+        [ 0.1025, -0.0078, -0.3117,  ..., -0.0690,  0.1645, -0.0370],
+        [-0.2160, -0.1678,  0.0344,  ..., -0.0166, -0.2311, -0.0724]],
+       device='cuda:0'), grad: tensor([[ 1.2107e-08,  1.4901e-08,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 1.0617e-07,  1.4063e-07,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-08,  0.0000e+00],
+        [-6.1467e-08,  1.6764e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -1.6950e-07,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 1.6764e-08,  1.4901e-08,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 2.7940e-09,  7.4506e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 337, bias, value: tensor([-0.0059,  0.0164, -0.0097,  0.0153,  0.0269, -0.0158, -0.0181, -0.0124,
+        -0.0329, -0.0293], device='cuda:0'), grad: tensor([-2.9802e-08,  2.5891e-07, -1.6950e-07,  1.4529e-07,  1.7229e-07,
+         1.8282e-06, -2.2054e-06, -3.0734e-08,  8.3819e-08, -4.2841e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 336, time 217.16, cls_loss 0.0009 cls_loss_mapping 0.0012 cls_loss_causal 0.4606 re_mapping 0.0037 re_causal 0.0108 /// teacc 99.09 lr 0.00010000
+Epoch 338, weight, value: tensor([[-0.3185, -0.1582, -0.0946,  ..., -0.0038, -0.0644, -0.0171],
+        [-0.1380,  0.1310, -0.0875,  ...,  0.0184, -0.0607, -0.0819],
+        [ 0.1383, -0.1647, -0.1728,  ..., -0.0644,  0.1671, -0.0337],
+        ...,
+        [-0.1839, -0.1019,  0.1341,  ...,  0.0369, -0.2152, -0.0030],
+        [ 0.1028, -0.0078, -0.3118,  ..., -0.0690,  0.1650, -0.0370],
+        [-0.2162, -0.1678,  0.0344,  ..., -0.0166, -0.2314, -0.0724]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  4.6566e-09,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 2.7940e-09, -7.0967e-06, -5.9605e-08,  ...,  0.0000e+00,
+          8.3819e-09,  0.0000e+00],
+        [-6.5193e-09,  8.3819e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -8.3819e-09,  0.0000e+00],
+        ...,
+        [ 3.1386e-07,  4.2208e-06,  4.4703e-08,  ...,  0.0000e+00,
+          3.8743e-07,  0.0000e+00],
+        [-3.9861e-07,  1.0803e-07,  1.8626e-09,  ...,  0.0000e+00,
+         -4.7870e-07,  0.0000e+00],
+        [ 1.1176e-08,  1.3523e-06, -3.5390e-08,  ...,  0.0000e+00,
+          1.3039e-08,  0.0000e+00]], device='cuda:0')
+Epoch 338, bias, value: tensor([-0.0054,  0.0155, -0.0098,  0.0152,  0.0270, -0.0159, -0.0182, -0.0123,
+        -0.0328, -0.0293], device='cuda:0'), grad: tensor([ 1.0245e-08, -1.2547e-05,  1.6764e-08, -7.6368e-08,  2.7660e-06,
+         2.7940e-07,  3.2596e-08,  8.1807e-06, -5.4576e-07,  1.8906e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 337, time 216.60, cls_loss 0.0009 cls_loss_mapping 0.0017 cls_loss_causal 0.4670 re_mapping 0.0038 re_causal 0.0110 /// teacc 99.12 lr 0.00010000
+Epoch 339, weight, value: tensor([[-0.3196, -0.1585, -0.0946,  ..., -0.0038, -0.0648, -0.0171],
+        [-0.1387,  0.1314, -0.0875,  ...,  0.0184, -0.0608, -0.0819],
+        [ 0.1385, -0.1650, -0.1728,  ..., -0.0644,  0.1673, -0.0337],
+        ...,
+        [-0.1841, -0.1019,  0.1341,  ...,  0.0369, -0.2156, -0.0030],
+        [ 0.1034, -0.0077, -0.3119,  ..., -0.0690,  0.1659, -0.0372],
+        [-0.2172, -0.1679,  0.0344,  ..., -0.0166, -0.2320, -0.0724]],
+       device='cuda:0'), grad: tensor([[ 1.4901e-08,  9.3132e-10,  7.4506e-09,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00],
+        [ 8.3819e-09, -1.3970e-08,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [-1.2107e-08,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -1.4901e-08,  0.0000e+00],
+        ...,
+        [ 1.5646e-07,  5.5879e-09, -9.3132e-10,  ...,  0.0000e+00,
+          1.5181e-07,  0.0000e+00],
+        [-1.8254e-07,  4.6566e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -2.2352e-07,  0.0000e+00],
+        [ 4.4797e-07,  4.0047e-08, -6.5193e-09,  ...,  0.0000e+00,
+          1.0245e-08,  0.0000e+00]], device='cuda:0')
+Epoch 339, bias, value: tensor([-0.0053,  0.0150, -0.0097,  0.0151,  0.0270, -0.0158, -0.0187, -0.0122,
+        -0.0323, -0.0293], device='cuda:0'), grad: tensor([ 2.7660e-06,  1.8626e-08, -2.0489e-08,  5.1036e-06, -6.9849e-08,
+        -7.5027e-06,  2.8871e-07,  2.9523e-07, -3.4086e-07, -5.6438e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 338, time 216.52, cls_loss 0.0010 cls_loss_mapping 0.0020 cls_loss_causal 0.4639 re_mapping 0.0036 re_causal 0.0106 /// teacc 99.06 lr 0.00010000
+Epoch 340, weight, value: tensor([[-0.3220, -0.1588, -0.0946,  ..., -0.0038, -0.0651, -0.0171],
+        [-0.1404,  0.1313, -0.0876,  ...,  0.0184, -0.0611, -0.0819],
+        [ 0.1385, -0.1652, -0.1728,  ..., -0.0644,  0.1674, -0.0337],
+        ...,
+        [-0.1844, -0.1022,  0.1340,  ...,  0.0369, -0.2158, -0.0030],
+        [ 0.1036, -0.0078, -0.3099,  ..., -0.0690,  0.1662, -0.0372],
+        [-0.2186, -0.1679,  0.0344,  ..., -0.0166, -0.2323, -0.0724]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.6566e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09, -7.1526e-07,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  6.1374e-07,  0.0000e+00,  ...,  0.0000e+00,
+         -2.2352e-08,  0.0000e+00],
+        ...,
+        [ 4.6566e-09,  2.9802e-08, -1.8626e-09,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 6.5193e-09,  2.3283e-08,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 2.1420e-08,  2.3283e-08,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 340, bias, value: tensor([-0.0056,  0.0147, -0.0098,  0.0151,  0.0270, -0.0165, -0.0154, -0.0124,
+        -0.0325, -0.0293], device='cuda:0'), grad: tensor([ 2.6077e-08, -2.1793e-06,  1.9167e-06,  9.5088e-07, -1.8217e-06,
+        -8.2050e-07,  7.0781e-08,  4.6287e-07,  1.8720e-07,  1.1930e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 339, time 216.52, cls_loss 0.0010 cls_loss_mapping 0.0021 cls_loss_causal 0.4364 re_mapping 0.0037 re_causal 0.0105 /// teacc 99.03 lr 0.00010000
+Epoch 341, weight, value: tensor([[-0.3223, -0.1588, -0.0946,  ..., -0.0038, -0.0660, -0.0170],
+        [-0.1437,  0.1299, -0.0873,  ...,  0.0184, -0.0637, -0.0819],
+        [ 0.1387, -0.1658, -0.1728,  ..., -0.0644,  0.1674, -0.0337],
+        ...,
+        [-0.1817, -0.1008,  0.1340,  ...,  0.0369, -0.2135, -0.0030],
+        [ 0.1038, -0.0076, -0.3100,  ..., -0.0690,  0.1667, -0.0372],
+        [-0.2190, -0.1680,  0.0344,  ..., -0.0166, -0.2331, -0.0724]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  1.5832e-08,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 1.8626e-09,  2.4028e-07,  0.0000e+00,  ...,  0.0000e+00,
+         -1.8626e-09,  0.0000e+00],
+        [-2.6077e-08,  9.3132e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -2.2352e-08,  0.0000e+00],
+        ...,
+        [ 1.9558e-08,  2.4494e-07,  0.0000e+00,  ...,  0.0000e+00,
+          2.6077e-08,  0.0000e+00],
+        [-1.9558e-08,  6.7987e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -2.8871e-08,  0.0000e+00],
+        [ 9.3132e-10,  1.6401e-06,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00]], device='cuda:0')
+Epoch 341, bias, value: tensor([-0.0054,  0.0124, -0.0100,  0.0148,  0.0270, -0.0158, -0.0165, -0.0098,
+        -0.0325, -0.0294], device='cuda:0'), grad: tensor([ 1.1921e-07,  1.8030e-06,  4.4610e-07, -2.1607e-07, -1.6436e-05,
+         4.3400e-07,  8.6706e-07,  5.5414e-07,  3.8370e-07,  1.2077e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 340, time 216.54, cls_loss 0.0010 cls_loss_mapping 0.0018 cls_loss_causal 0.4711 re_mapping 0.0035 re_causal 0.0105 /// teacc 98.97 lr 0.00010000
+Epoch 342, weight, value: tensor([[-0.3230, -0.1590, -0.0946,  ..., -0.0038, -0.0670, -0.0170],
+        [-0.1438,  0.1301, -0.0873,  ...,  0.0184, -0.0639, -0.0819],
+        [ 0.1403, -0.1671, -0.1727,  ..., -0.0644,  0.1690, -0.0337],
+        ...,
+        [-0.1817, -0.1008,  0.1340,  ...,  0.0369, -0.2135, -0.0030],
+        [ 0.1029, -0.0071, -0.3100,  ..., -0.0690,  0.1662, -0.0376],
+        [-0.2195, -0.1681,  0.0344,  ..., -0.0166, -0.2340, -0.0725]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [-1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          3.1665e-08,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          7.0781e-08,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-09,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-09,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-09,  0.0000e+00]], device='cuda:0')
+Epoch 342, bias, value: tensor([-0.0056,  0.0125, -0.0096,  0.0147,  0.0271, -0.0154, -0.0175, -0.0099,
+        -0.0327, -0.0294], device='cuda:0'), grad: tensor([-1.2014e-07,  5.6811e-08,  1.4901e-07, -5.2713e-07,  1.4715e-07,
+         1.5926e-07,  3.6322e-08,  1.0701e-06,  4.6380e-07, -1.4212e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 341, time 216.68, cls_loss 0.0009 cls_loss_mapping 0.0011 cls_loss_causal 0.4612 re_mapping 0.0036 re_causal 0.0107 /// teacc 98.98 lr 0.00010000
+Epoch 343, weight, value: tensor([[-0.3234, -0.1591, -0.0946,  ..., -0.0038, -0.0672, -0.0170],
+        [-0.1432,  0.1305, -0.0873,  ...,  0.0184, -0.0636, -0.0819],
+        [ 0.1394, -0.1702, -0.1728,  ..., -0.0644,  0.1687, -0.0337],
+        ...,
+        [-0.1817, -0.1009,  0.1340,  ...,  0.0369, -0.2136, -0.0030],
+        [ 0.1049, -0.0052, -0.3101,  ..., -0.0690,  0.1679, -0.0376],
+        [-0.2198, -0.1681,  0.0344,  ..., -0.0166, -0.2342, -0.0725]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [-3.7253e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.8626e-09,  0.0000e+00],
+        ...,
+        [ 3.7253e-09,  8.3819e-09, -1.8626e-09,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [ 9.3132e-10,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [ 9.3132e-10,  1.4901e-07,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-09,  0.0000e+00]], device='cuda:0')
+Epoch 343, bias, value: tensor([-0.0055,  0.0128, -0.0111,  0.0147,  0.0271, -0.0154, -0.0193, -0.0099,
+        -0.0309, -0.0294], device='cuda:0'), grad: tensor([ 1.0151e-07,  5.2154e-08,  2.1420e-08, -5.4669e-07, -4.7572e-06,
+         5.2247e-07, -1.3039e-08,  1.4622e-07,  6.8732e-07,  3.7849e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 342, time 216.67, cls_loss 0.0007 cls_loss_mapping 0.0011 cls_loss_causal 0.4652 re_mapping 0.0036 re_causal 0.0111 /// teacc 99.12 lr 0.00010000
+Epoch 344, weight, value: tensor([[-0.3237, -0.1592, -0.0946,  ..., -0.0038, -0.0676, -0.0170],
+        [-0.1433,  0.1305, -0.0874,  ...,  0.0184, -0.0636, -0.0819],
+        [ 0.1395, -0.1703, -0.1728,  ..., -0.0644,  0.1691, -0.0337],
+        ...,
+        [-0.1820, -0.1009,  0.1336,  ...,  0.0369, -0.2137, -0.0030],
+        [ 0.1056, -0.0047, -0.3102,  ..., -0.0690,  0.1684, -0.0376],
+        [-0.2201, -0.1683,  0.0344,  ..., -0.0166, -0.2348, -0.0725]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [ 9.3132e-10, -3.4366e-07,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 2.0582e-07,  2.4214e-08,  0.0000e+00,  ...,  0.0000e+00,
+          4.2655e-07,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  1.6578e-07,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [-2.3842e-07,  1.1176e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -4.8801e-07,  0.0000e+00],
+        [ 2.4214e-08,  1.3597e-07, -9.3132e-10,  ...,  0.0000e+00,
+          4.4703e-08,  0.0000e+00]], device='cuda:0')
+Epoch 344, bias, value: tensor([-0.0051,  0.0128, -0.0109,  0.0147,  0.0271, -0.0150, -0.0205, -0.0100,
+        -0.0301, -0.0294], device='cuda:0'), grad: tensor([-1.4901e-07, -6.9849e-07,  8.9966e-07,  3.6322e-08,  4.7497e-08,
+         9.3132e-09,  2.1420e-08,  3.4235e-06, -9.2015e-07, -2.6748e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 343, time 216.59, cls_loss 0.0012 cls_loss_mapping 0.0018 cls_loss_causal 0.4529 re_mapping 0.0034 re_causal 0.0102 /// teacc 99.04 lr 0.00010000
+Epoch 345, weight, value: tensor([[-0.3276, -0.1597, -0.0946,  ..., -0.0038, -0.0712, -0.0170],
+        [-0.1433,  0.1306, -0.0873,  ...,  0.0184, -0.0636, -0.0819],
+        [ 0.1395, -0.1705, -0.1728,  ..., -0.0644,  0.1689, -0.0337],
+        ...,
+        [-0.1821, -0.1009,  0.1335,  ...,  0.0369, -0.2138, -0.0030],
+        [ 0.1059, -0.0047, -0.3104,  ..., -0.0690,  0.1687, -0.0376],
+        [-0.2228, -0.1684,  0.0344,  ..., -0.0166, -0.2377, -0.0725]],
+       device='cuda:0'), grad: tensor([[ 1.0245e-08,  8.3819e-09,  0.0000e+00,  ...,  0.0000e+00,
+          8.3819e-09,  0.0000e+00],
+        [ 8.3819e-09,  3.3528e-08,  0.0000e+00,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [-8.3819e-09,  8.3819e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.8626e-08,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  1.5832e-08,  9.3132e-10,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 3.1665e-08,  1.7695e-08,  9.3132e-10,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00],
+        [ 1.8626e-09,  3.0734e-06,  9.3132e-09,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 345, bias, value: tensor([-0.0085,  0.0128, -0.0114,  0.0179,  0.0271, -0.0150, -0.0233, -0.0099,
+        -0.0299, -0.0295], device='cuda:0'), grad: tensor([ 5.0291e-08,  2.2352e-07, -9.3132e-09, -1.0151e-07, -1.8641e-05,
+         1.0710e-07, -3.8184e-08,  0.0000e+00,  1.1548e-07,  1.8269e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 344, time 216.58, cls_loss 0.0008 cls_loss_mapping 0.0011 cls_loss_causal 0.4577 re_mapping 0.0034 re_causal 0.0104 /// teacc 99.00 lr 0.00010000
+Epoch 346, weight, value: tensor([[-0.3276, -0.1598, -0.0946,  ..., -0.0038, -0.0712, -0.0170],
+        [-0.1434,  0.1307, -0.0874,  ...,  0.0184, -0.0637, -0.0819],
+        [ 0.1396, -0.1707, -0.1728,  ..., -0.0644,  0.1689, -0.0337],
+        ...,
+        [-0.1821, -0.1010,  0.1335,  ...,  0.0369, -0.2139, -0.0030],
+        [ 0.1060, -0.0047, -0.3114,  ..., -0.0690,  0.1689, -0.0376],
+        [-0.2229, -0.1685,  0.0344,  ..., -0.0166, -0.2378, -0.0725]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10, -9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          8.3819e-09,  0.0000e+00],
+        [-3.7253e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        ...,
+        [ 4.6566e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-09,  0.0000e+00],
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-08,  3.7253e-09,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 346, bias, value: tensor([-0.0085,  0.0128, -0.0114,  0.0179,  0.0271, -0.0150, -0.0233, -0.0099,
+        -0.0299, -0.0295], device='cuda:0'), grad: tensor([-1.1642e-07,  3.8184e-08,  3.0734e-08, -2.4214e-07, -3.3993e-07,
+         1.3877e-07,  4.1910e-08,  1.3597e-07,  4.8988e-07, -1.7509e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 345, time 216.98, cls_loss 0.0006 cls_loss_mapping 0.0009 cls_loss_causal 0.4447 re_mapping 0.0034 re_causal 0.0106 /// teacc 99.01 lr 0.00010000
+Epoch 347, weight, value: tensor([[-0.3276, -0.1600, -0.0946,  ..., -0.0038, -0.0712, -0.0170],
+        [-0.1434,  0.1308, -0.0875,  ...,  0.0184, -0.0637, -0.0819],
+        [ 0.1396, -0.1710, -0.1729,  ..., -0.0644,  0.1690, -0.0337],
+        ...,
+        [-0.1821, -0.1010,  0.1335,  ...,  0.0369, -0.2139, -0.0030],
+        [ 0.1060, -0.0048, -0.3115,  ..., -0.0690,  0.1689, -0.0376],
+        [-0.2230, -0.1685,  0.0344,  ..., -0.0166, -0.2377, -0.0725]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [-9.3132e-10,  5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -9.3132e-10,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  1.0245e-08,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [-1.6764e-08,  2.8871e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -1.8626e-08,  0.0000e+00],
+        [ 1.8626e-09,  4.9360e-08, -9.3132e-10,  ...,  0.0000e+00,
+          4.6566e-09,  0.0000e+00]], device='cuda:0')
+Epoch 347, bias, value: tensor([-0.0085,  0.0128, -0.0116,  0.0179,  0.0271, -0.0149, -0.0233, -0.0099,
+        -0.0300, -0.0295], device='cuda:0'), grad: tensor([ 8.3819e-09,  2.7940e-08,  4.0978e-08, -8.5030e-07, -7.4320e-07,
+         8.6986e-07,  9.3132e-10,  8.9407e-08,  1.8347e-07,  3.8277e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 346, time 216.75, cls_loss 0.0012 cls_loss_mapping 0.0014 cls_loss_causal 0.4778 re_mapping 0.0035 re_causal 0.0102 /// teacc 98.97 lr 0.00010000
+Epoch 348, weight, value: tensor([[-0.3276, -0.1602, -0.0947,  ..., -0.0038, -0.0712, -0.0170],
+        [-0.1435,  0.1309, -0.0876,  ...,  0.0183, -0.0636, -0.0819],
+        [ 0.1397, -0.1712, -0.1730,  ..., -0.0644,  0.1689, -0.0337],
+        ...,
+        [-0.1821, -0.1010,  0.1337,  ...,  0.0369, -0.2141, -0.0030],
+        [ 0.1060, -0.0049, -0.3121,  ..., -0.0690,  0.1687, -0.0376],
+        [-0.2232, -0.1686,  0.0343,  ..., -0.0167, -0.2385, -0.0725]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09,  4.6566e-09,  0.0000e+00,  ...,  0.0000e+00,
+          6.5193e-09,  0.0000e+00],
+        [ 1.8626e-09, -4.6566e-09,  0.0000e+00,  ...,  0.0000e+00,
+          6.5193e-09,  0.0000e+00],
+        [ 1.8626e-09,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          8.3819e-09,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  9.3132e-10,  9.3132e-10,  ...,  0.0000e+00,
+          1.0245e-08,  0.0000e+00],
+        [ 6.5193e-09,  7.4506e-09,  0.0000e+00,  ...,  0.0000e+00,
+          8.3819e-09,  0.0000e+00],
+        [ 9.3132e-10,  5.5879e-09, -7.4506e-09,  ...,  0.0000e+00,
+          1.8626e-08,  0.0000e+00]], device='cuda:0')
+Epoch 348, bias, value: tensor([-0.0085,  0.0128, -0.0119,  0.0180,  0.0271, -0.0149, -0.0233, -0.0099,
+        -0.0302, -0.0296], device='cuda:0'), grad: tensor([ 4.8429e-08,  1.1642e-07,  1.7416e-07, -8.0280e-07,  1.6205e-07,
+         5.0757e-07, -8.3819e-08, -3.9395e-07,  6.5193e-08,  2.1514e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 347, time 216.64, cls_loss 0.0008 cls_loss_mapping 0.0015 cls_loss_causal 0.4697 re_mapping 0.0035 re_causal 0.0106 /// teacc 99.03 lr 0.00010000
+Epoch 349, weight, value: tensor([[-0.3276, -0.1603, -0.0948,  ..., -0.0038, -0.0712, -0.0171],
+        [-0.1435,  0.1309, -0.0877,  ...,  0.0183, -0.0635, -0.0819],
+        [ 0.1397, -0.1713, -0.1731,  ..., -0.0644,  0.1690, -0.0337],
+        ...,
+        [-0.1833, -0.1010,  0.1307,  ...,  0.0369, -0.2142, -0.0030],
+        [ 0.1060, -0.0049, -0.3125,  ..., -0.0690,  0.1687, -0.0376],
+        [-0.2235, -0.1688,  0.0341,  ..., -0.0167, -0.2388, -0.0726]],
+       device='cuda:0'), grad: tensor([[ 9.7789e-09,  9.3132e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.1642e-08,  0.0000e+00],
+        [ 1.3970e-09, -6.6590e-08,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-09,  0.0000e+00],
+        [ 1.3970e-09,  7.4506e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.4435e-08,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  2.7474e-08,  0.0000e+00,  ...,  0.0000e+00,
+          3.2596e-09,  0.0000e+00],
+        [ 2.7008e-08,  3.0734e-08,  9.3132e-10,  ...,  0.0000e+00,
+          6.5193e-09,  0.0000e+00],
+        [ 9.3132e-10,  3.2596e-09, -1.8626e-09,  ...,  0.0000e+00,
+          2.3283e-09,  0.0000e+00]], device='cuda:0')
+Epoch 349, bias, value: tensor([-0.0084,  0.0128, -0.0121,  0.0180,  0.0271, -0.0136, -0.0234, -0.0104,
+        -0.0303, -0.0297], device='cuda:0'), grad: tensor([ 5.5879e-08,  9.7789e-09,  2.9709e-07, -1.0151e-07,  7.6368e-08,
+         3.2317e-07, -2.7986e-07, -4.4797e-07,  1.7555e-07, -8.8476e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 348, time 216.65, cls_loss 0.0011 cls_loss_mapping 0.0019 cls_loss_causal 0.5147 re_mapping 0.0036 re_causal 0.0108 /// teacc 99.03 lr 0.00010000
+Epoch 350, weight, value: tensor([[-0.3276, -0.1604, -0.0948,  ..., -0.0038, -0.0712, -0.0171],
+        [-0.1436,  0.1311, -0.0876,  ...,  0.0183, -0.0636, -0.0819],
+        [ 0.1397, -0.1721, -0.1735,  ..., -0.0644,  0.1685, -0.0337],
+        ...,
+        [-0.1833, -0.1011,  0.1307,  ...,  0.0369, -0.2143, -0.0030],
+        [ 0.1059, -0.0050, -0.3129,  ..., -0.0690,  0.1688, -0.0376],
+        [-0.2212, -0.1685,  0.0341,  ..., -0.0167, -0.2391, -0.0726]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          6.9849e-09,  0.0000e+00],
+        [ 1.3970e-09, -1.3970e-08,  0.0000e+00,  ...,  0.0000e+00,
+          7.4040e-08,  0.0000e+00],
+        [-4.6566e-09,  5.1223e-09,  0.0000e+00,  ...,  0.0000e+00,
+          7.8697e-08,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  3.2596e-09,  9.3132e-10,  ...,  0.0000e+00,
+          8.4285e-08,  0.0000e+00],
+        [-4.6566e-09,  1.3970e-09,  0.0000e+00,  ...,  0.0000e+00,
+          2.8871e-08,  0.0000e+00],
+        [ 2.7940e-09,  4.2375e-08, -1.3970e-09,  ...,  0.0000e+00,
+          6.0536e-09,  0.0000e+00]], device='cuda:0')
+Epoch 350, bias, value: tensor([-0.0084,  0.0129, -0.0127,  0.0173,  0.0270, -0.0098, -0.0235, -0.0104,
+        -0.0304, -0.0296], device='cuda:0'), grad: tensor([ 2.9989e-07,  2.4168e-07,  3.5996e-07, -1.3039e-06,  1.5274e-07,
+         6.2259e-07,  2.1420e-08,  2.3581e-06,  1.4994e-07, -2.9113e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 349, time 216.75, cls_loss 0.0008 cls_loss_mapping 0.0012 cls_loss_causal 0.4436 re_mapping 0.0035 re_causal 0.0105 /// teacc 99.06 lr 0.00010000
+Epoch 351, weight, value: tensor([[-0.3276, -0.1607, -0.0948,  ..., -0.0038, -0.0712, -0.0171],
+        [-0.1438,  0.1312, -0.0877,  ...,  0.0183, -0.0643, -0.0819],
+        [ 0.1399, -0.1728, -0.1736,  ..., -0.0645,  0.1693, -0.0337],
+        ...,
+        [-0.1834, -0.1010,  0.1307,  ...,  0.0369, -0.2144, -0.0030],
+        [ 0.1060, -0.0049, -0.3129,  ..., -0.0690,  0.1689, -0.0376],
+        [-0.2213, -0.1686,  0.0341,  ..., -0.0167, -0.2394, -0.0726]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  2.3283e-09,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10, -5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [-4.6566e-10,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -2.7940e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  8.8476e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 2.7940e-09,  5.1223e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -2.3283e-09,  0.0000e+00],
+        [-1.4435e-08,  5.6345e-08,  1.8626e-09,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 351, bias, value: tensor([-0.0084,  0.0126, -0.0124,  0.0172,  0.0270, -0.0093, -0.0236, -0.0103,
+        -0.0304, -0.0296], device='cuda:0'), grad: tensor([ 1.0524e-07, -2.3283e-09, -3.7253e-09,  9.7789e-09, -1.1828e-07,
+         2.0489e-08, -1.6298e-08,  2.7940e-08,  1.9558e-08, -2.6077e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 350, time 216.70, cls_loss 0.0007 cls_loss_mapping 0.0009 cls_loss_causal 0.4471 re_mapping 0.0034 re_causal 0.0109 /// teacc 98.99 lr 0.00010000
+Epoch 352, weight, value: tensor([[-0.3276, -0.1608, -0.0948,  ..., -0.0038, -0.0712, -0.0171],
+        [-0.1441,  0.1309, -0.0880,  ...,  0.0183, -0.0666, -0.0819],
+        [ 0.1400, -0.1717, -0.1737,  ..., -0.0645,  0.1715, -0.0337],
+        ...,
+        [-0.1834, -0.1010,  0.1307,  ...,  0.0369, -0.2145, -0.0030],
+        [ 0.1060, -0.0049, -0.3131,  ..., -0.0690,  0.1690, -0.0377],
+        [-0.2213, -0.1688,  0.0341,  ..., -0.0167, -0.2394, -0.0726]],
+       device='cuda:0'), grad: tensor([[ 5.1223e-09,  4.1910e-09,  8.8476e-09,  ...,  0.0000e+00,
+          2.6077e-08,  0.0000e+00],
+        [ 4.1910e-09, -1.0477e-07,  4.6566e-10,  ...,  0.0000e+00,
+         -7.9162e-09,  0.0000e+00],
+        [-4.1910e-09,  2.1886e-08, -2.0023e-08,  ...,  0.0000e+00,
+         -5.3085e-08,  0.0000e+00],
+        ...,
+        [ 1.3970e-09, -2.8871e-08,  1.8626e-09,  ...,  0.0000e+00,
+          9.7789e-09,  0.0000e+00],
+        [-2.3283e-08,  3.3062e-08,  3.2596e-09,  ...,  0.0000e+00,
+         -1.2107e-08,  0.0000e+00],
+        [ 7.9162e-09,  7.2122e-06,  4.6566e-10,  ...,  0.0000e+00,
+          9.7789e-09,  0.0000e+00]], device='cuda:0')
+Epoch 352, bias, value: tensor([-0.0084,  0.0120, -0.0104,  0.0172,  0.0270, -0.0093, -0.0235, -0.0102,
+        -0.0304, -0.0296], device='cuda:0'), grad: tensor([ 7.6834e-08,  9.3132e-09,  8.2888e-08,  3.4040e-07, -6.8307e-05,
+         4.0978e-08, -8.8476e-08, -1.0896e-06,  9.2201e-08,  6.8784e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 351, time 216.82, cls_loss 0.0009 cls_loss_mapping 0.0016 cls_loss_causal 0.4577 re_mapping 0.0037 re_causal 0.0106 /// teacc 99.01 lr 0.00010000
+Epoch 353, weight, value: tensor([[-0.3277, -0.1621, -0.0949,  ..., -0.0038, -0.0712, -0.0172],
+        [-0.1436,  0.1317, -0.0874,  ...,  0.0183, -0.0658, -0.0819],
+        [ 0.1394, -0.1737, -0.1744,  ..., -0.0645,  0.1709, -0.0337],
+        ...,
+        [-0.1834, -0.1011,  0.1307,  ...,  0.0369, -0.2146, -0.0030],
+        [ 0.1057, -0.0058, -0.3132,  ..., -0.0690,  0.1690, -0.0377],
+        [-0.2213, -0.1689,  0.0341,  ..., -0.0167, -0.2395, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 2.1886e-08,  2.7008e-08,  2.3283e-09,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 4.7963e-08,  1.2107e-08,  4.6566e-10,  ...,  0.0000e+00,
+         -2.7940e-09,  0.0000e+00],
+        [ 9.7789e-09,  2.1420e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -8.8476e-09,  0.0000e+00],
+        ...,
+        [ 1.3970e-09,  1.6298e-08,  8.8476e-09,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [-8.8476e-09,  1.6764e-08,  4.6566e-10,  ...,  0.0000e+00,
+         -1.4901e-08,  0.0000e+00],
+        [ 5.1223e-09,  7.9162e-09, -5.0757e-08,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 353, bias, value: tensor([-0.0084,  0.0125, -0.0121,  0.0172,  0.0270, -0.0092, -0.0234, -0.0102,
+        -0.0307, -0.0296], device='cuda:0'), grad: tensor([ 8.1956e-08,  1.0012e-07,  3.1665e-08,  4.7032e-08,  8.7498e-07,
+         1.5972e-07, -9.7789e-07,  7.4552e-07,  6.0536e-09, -1.0673e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 352, time 216.60, cls_loss 0.0010 cls_loss_mapping 0.0012 cls_loss_causal 0.4609 re_mapping 0.0036 re_causal 0.0103 /// teacc 99.09 lr 0.00010000
+Epoch 354, weight, value: tensor([[-0.3277, -0.1644, -0.0949,  ..., -0.0038, -0.0712, -0.0172],
+        [-0.1436,  0.1317, -0.0874,  ...,  0.0183, -0.0663, -0.0819],
+        [ 0.1414, -0.1738, -0.1744,  ..., -0.0645,  0.1727, -0.0337],
+        ...,
+        [-0.1848, -0.1012,  0.1307,  ...,  0.0368, -0.2163, -0.0030],
+        [ 0.1057, -0.0058, -0.3137,  ..., -0.0691,  0.1691, -0.0377],
+        [-0.2214, -0.1690,  0.0343,  ..., -0.0167, -0.2392, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          1.3970e-09,  0.0000e+00],
+        [-1.3970e-09,  9.3132e-10,  1.6764e-08,  ...,  0.0000e+00,
+         -4.1910e-09,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  1.8626e-09, -1.7695e-08,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 9.3132e-10,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -1.8626e-09,  0.0000e+00],
+        [ 4.6566e-10,  2.3283e-08,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 354, bias, value: tensor([-0.0084,  0.0124, -0.0109,  0.0172,  0.0269, -0.0096, -0.0232, -0.0107,
+        -0.0308, -0.0294], device='cuda:0'), grad: tensor([-2.4568e-06,  1.3039e-08,  6.6916e-07,  3.7253e-09, -3.8650e-08,
+         1.0245e-08,  1.3504e-08, -6.7381e-07,  1.6764e-08,  2.4717e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 353, time 216.72, cls_loss 0.0008 cls_loss_mapping 0.0018 cls_loss_causal 0.4646 re_mapping 0.0034 re_causal 0.0103 /// teacc 99.02 lr 0.00010000
+Epoch 355, weight, value: tensor([[-0.3277, -0.1648, -0.0949,  ..., -0.0038, -0.0712, -0.0171],
+        [-0.1438,  0.1317, -0.0875,  ...,  0.0182, -0.0666, -0.0819],
+        [ 0.1414, -0.1739, -0.1745,  ..., -0.0647,  0.1726, -0.0337],
+        ...,
+        [-0.1848, -0.1012,  0.1307,  ...,  0.0367, -0.2165, -0.0030],
+        [ 0.1057, -0.0059, -0.3139,  ..., -0.0691,  0.1693, -0.0377],
+        [-0.2215, -0.1691,  0.0343,  ..., -0.0167, -0.2397, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  2.0955e-08,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10, -1.4585e-06,  0.0000e+00,  ...,  0.0000e+00,
+          5.1223e-09,  0.0000e+00],
+        [-4.6566e-09,  6.8452e-07,  0.0000e+00,  ...,  0.0000e+00,
+         -2.1420e-08,  0.0000e+00],
+        ...,
+        [ 2.3283e-09,  5.6624e-07,  0.0000e+00,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00],
+        [ 8.3819e-09,  6.9849e-09,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [ 2.7940e-09,  5.3551e-08, -4.6566e-10,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00]], device='cuda:0')
+Epoch 355, bias, value: tensor([-0.0084,  0.0123, -0.0111,  0.0174,  0.0270, -0.0105, -0.0230, -0.0107,
+        -0.0308, -0.0295], device='cuda:0'), grad: tensor([ 3.4925e-08, -3.3919e-06,  1.5683e-06,  9.8720e-08,  2.0629e-07,
+        -5.6811e-08,  3.2596e-08,  1.3215e-06,  3.8650e-08,  1.4342e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 354, time 216.65, cls_loss 0.0012 cls_loss_mapping 0.0016 cls_loss_causal 0.4810 re_mapping 0.0035 re_causal 0.0103 /// teacc 99.12 lr 0.00010000
+Epoch 356, weight, value: tensor([[-0.3278, -0.1657, -0.0949,  ..., -0.0038, -0.0712, -0.0171],
+        [-0.1439,  0.1299, -0.0876,  ...,  0.0191, -0.0668, -0.0819],
+        [ 0.1415, -0.1740, -0.1746,  ..., -0.0649,  0.1729, -0.0337],
+        ...,
+        [-0.1849, -0.0992,  0.1308,  ...,  0.0361, -0.2166, -0.0030],
+        [ 0.1058, -0.0060, -0.3139,  ..., -0.0691,  0.1694, -0.0377],
+        [-0.2217, -0.1695,  0.0343,  ..., -0.0167, -0.2400, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -1.0896e-07,  0.0000e+00],
+        [ 0.0000e+00, -3.8184e-08,  0.0000e+00,  ...,  0.0000e+00,
+          1.7602e-07,  0.0000e+00],
+        [-1.4901e-08,  9.3132e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -2.2445e-07,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  1.3039e-08,  0.0000e+00,  ...,  0.0000e+00,
+          2.9802e-08,  0.0000e+00],
+        [ 9.3132e-10,  4.6566e-09,  0.0000e+00,  ...,  0.0000e+00,
+          2.2352e-08,  0.0000e+00],
+        [ 7.4506e-09,  1.9558e-08,  1.8626e-09,  ...,  0.0000e+00,
+          4.1910e-08,  0.0000e+00]], device='cuda:0')
+Epoch 356, bias, value: tensor([-0.0085,  0.0099, -0.0114,  0.0172,  0.0268, -0.0109, -0.0230, -0.0076,
+        -0.0309, -0.0296], device='cuda:0'), grad: tensor([-5.1782e-07,  3.7812e-07, -4.1723e-07,  2.3842e-07, -8.5682e-08,
+        -1.4156e-07,  2.2352e-08,  8.5682e-08,  1.1642e-07,  3.2689e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 355, time 216.86, cls_loss 0.0009 cls_loss_mapping 0.0010 cls_loss_causal 0.4506 re_mapping 0.0035 re_causal 0.0101 /// teacc 99.02 lr 0.00010000
+Epoch 357, weight, value: tensor([[-0.3278, -0.1661, -0.0949,  ..., -0.0038, -0.0712, -0.0171],
+        [-0.1440,  0.1294, -0.0876,  ...,  0.0191, -0.0667, -0.0819],
+        [ 0.1417, -0.1741, -0.1746,  ..., -0.0649,  0.1730, -0.0337],
+        ...,
+        [-0.1849, -0.0986,  0.1308,  ...,  0.0361, -0.2167, -0.0030],
+        [ 0.1050, -0.0079, -0.3140,  ..., -0.0691,  0.1691, -0.0379],
+        [-0.2211, -0.1696,  0.0343,  ..., -0.0167, -0.2403, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  5.7742e-08,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00, -4.9546e-07,  0.0000e+00,  ...,  0.0000e+00,
+         -4.4703e-08,  0.0000e+00],
+        [ 0.0000e+00,  1.3039e-08,  0.0000e+00,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.3039e-08,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [-9.3132e-10,  5.9605e-08,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  8.0094e-08,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 357, bias, value: tensor([-0.0085,  0.0092, -0.0116,  0.0171,  0.0266, -0.0106, -0.0226, -0.0069,
+        -0.0320, -0.0296], device='cuda:0'), grad: tensor([ 4.5635e-08, -9.7603e-07,  3.2596e-08,  1.9558e-08, -2.9616e-07,
+         3.2596e-08,  6.9477e-07,  3.1665e-08,  1.2480e-07,  2.8219e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 356, time 216.80, cls_loss 0.0008 cls_loss_mapping 0.0012 cls_loss_causal 0.4680 re_mapping 0.0034 re_causal 0.0105 /// teacc 99.03 lr 0.00010000
+Epoch 358, weight, value: tensor([[-0.3278, -0.1669, -0.0949,  ..., -0.0038, -0.0712, -0.0171],
+        [-0.1440,  0.1295, -0.0876,  ...,  0.0191, -0.0666, -0.0819],
+        [ 0.1417, -0.1742, -0.1746,  ..., -0.0649,  0.1731, -0.0337],
+        ...,
+        [-0.1850, -0.0986,  0.1308,  ...,  0.0361, -0.2169, -0.0030],
+        [ 0.1050, -0.0080, -0.3140,  ..., -0.0691,  0.1690, -0.0379],
+        [-0.2209, -0.1703,  0.0339,  ..., -0.0167, -0.2404, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-09,  0.0000e+00],
+        [-3.7253e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -3.1665e-08,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  9.3132e-10,  9.3132e-10,  ...,  0.0000e+00,
+          1.3039e-08,  0.0000e+00],
+        [-8.3819e-09, -3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -2.7008e-08,  0.0000e+00],
+        [ 1.8626e-09,  1.2107e-08, -6.5193e-09,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00]], device='cuda:0')
+Epoch 358, bias, value: tensor([-0.0085,  0.0093, -0.0117,  0.0171,  0.0269, -0.0106, -0.0225, -0.0069,
+        -0.0321, -0.0299], device='cuda:0'), grad: tensor([ 1.1083e-07,  3.6787e-07,  3.1851e-07,  6.2585e-07,  1.9744e-06,
+         1.5460e-07,  9.3132e-09, -4.2506e-06, -2.3283e-08,  7.1060e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 357, time 216.55, cls_loss 0.0009 cls_loss_mapping 0.0012 cls_loss_causal 0.4503 re_mapping 0.0034 re_causal 0.0099 /// teacc 99.03 lr 0.00010000
+Epoch 359, weight, value: tensor([[-0.3278, -0.1680, -0.0949,  ..., -0.0039, -0.0712, -0.0171],
+        [-0.1441,  0.1301, -0.0876,  ...,  0.0191, -0.0659, -0.0819],
+        [ 0.1418, -0.1743, -0.1746,  ..., -0.0650,  0.1734, -0.0337],
+        ...,
+        [-0.1850, -0.0990,  0.1308,  ...,  0.0360, -0.2177, -0.0030],
+        [ 0.1050, -0.0082, -0.3140,  ..., -0.0691,  0.1690, -0.0379],
+        [-0.2206, -0.1711,  0.0338,  ..., -0.0167, -0.2412, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 1.8626e-08, -1.2014e-07,  0.0000e+00,  ...,  0.0000e+00,
+          4.0047e-08,  0.0000e+00],
+        [ 1.5832e-08,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          3.1665e-08,  0.0000e+00],
+        ...,
+        [ 2.7940e-08,  7.9162e-08,  0.0000e+00,  ...,  0.0000e+00,
+          6.3330e-08,  0.0000e+00],
+        [-4.3958e-07,  5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -9.8720e-07,  0.0000e+00],
+        [ 7.4506e-09,  1.5367e-07,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-09,  0.0000e+00]], device='cuda:0')
+Epoch 359, bias, value: tensor([-0.0085,  0.0094, -0.0118,  0.0171,  0.0270, -0.0105, -0.0224, -0.0070,
+        -0.0323, -0.0300], device='cuda:0'), grad: tensor([ 1.5832e-08, -1.2666e-07,  6.6124e-08,  3.1944e-07,  4.2319e-06,
+         8.0187e-07,  2.7753e-07,  6.9663e-07, -2.6636e-07, -6.0499e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 358, time 216.56, cls_loss 0.0009 cls_loss_mapping 0.0012 cls_loss_causal 0.4645 re_mapping 0.0033 re_causal 0.0100 /// teacc 98.99 lr 0.00010000
+Epoch 360, weight, value: tensor([[-0.3279, -0.1693, -0.0949,  ..., -0.0039, -0.0712, -0.0171],
+        [-0.1444,  0.1302, -0.0876,  ...,  0.0191, -0.0660, -0.0819],
+        [ 0.1422, -0.1745, -0.1747,  ..., -0.0650,  0.1735, -0.0337],
+        ...,
+        [-0.1851, -0.0990,  0.1307,  ...,  0.0360, -0.2180, -0.0030],
+        [ 0.1053, -0.0083, -0.3140,  ..., -0.0691,  0.1698, -0.0379],
+        [-0.2208, -0.1714,  0.0338,  ..., -0.0167, -0.2420, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 8.4750e-08,  6.6124e-08,  0.0000e+00,  ...,  0.0000e+00,
+          2.6450e-07,  0.0000e+00],
+        [ 6.5193e-09, -1.2107e-08,  0.0000e+00,  ...,  0.0000e+00,
+          2.0154e-06,  0.0000e+00],
+        [ 4.6566e-09,  4.6566e-09, -1.8626e-09,  ...,  0.0000e+00,
+          5.8673e-06,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  9.3132e-09,  0.0000e+00,  ...,  0.0000e+00,
+          3.0518e-05,  0.0000e+00],
+        [-2.4214e-08,  9.3132e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.6652e-06,  0.0000e+00],
+        [ 1.1176e-08,  1.3039e-07,  0.0000e+00,  ...,  0.0000e+00,
+          1.8347e-07,  0.0000e+00]], device='cuda:0')
+Epoch 360, bias, value: tensor([-0.0085,  0.0094, -0.0117,  0.0171,  0.0271, -0.0105, -0.0220, -0.0071,
+        -0.0322, -0.0301], device='cuda:0'), grad: tensor([ 2.2352e-06,  1.4693e-05,  4.2766e-05, -3.0804e-04, -2.5425e-07,
+         1.1265e-05, -4.0606e-07,  2.2340e-04,  1.2457e-05,  1.8524e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 359, time 216.72, cls_loss 0.0009 cls_loss_mapping 0.0020 cls_loss_causal 0.4332 re_mapping 0.0036 re_causal 0.0102 /// teacc 99.01 lr 0.00010000
+Epoch 361, weight, value: tensor([[-0.3279, -0.1695, -0.0949,  ..., -0.0039, -0.0712, -0.0171],
+        [-0.1449,  0.1304, -0.0851,  ...,  0.0191, -0.0670, -0.0819],
+        [ 0.1413, -0.1745, -0.1768,  ..., -0.0650,  0.1722, -0.0337],
+        ...,
+        [-0.1852, -0.0992,  0.1307,  ...,  0.0360, -0.2192, -0.0030],
+        [ 0.1059, -0.0084, -0.3140,  ..., -0.0691,  0.1717, -0.0379],
+        [-0.2212, -0.1716,  0.0338,  ..., -0.0167, -0.2422, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.2107e-08,  0.0000e+00],
+        [ 1.8626e-09, -1.3970e-08,  0.0000e+00,  ...,  0.0000e+00,
+          2.1420e-08,  0.0000e+00],
+        [-2.4587e-07,  1.8626e-09, -1.3039e-08,  ...,  0.0000e+00,
+         -4.0419e-07,  0.0000e+00],
+        ...,
+        [ 3.3528e-08,  9.3132e-10,  9.3132e-10,  ...,  0.0000e+00,
+          6.9849e-08,  0.0000e+00],
+        [ 1.8533e-07,  8.3819e-09,  1.0245e-08,  ...,  0.0000e+00,
+          2.3935e-07,  0.0000e+00],
+        [ 9.3132e-10,  1.3039e-08,  0.0000e+00,  ...,  0.0000e+00,
+          1.0245e-08,  0.0000e+00]], device='cuda:0')
+Epoch 361, bias, value: tensor([-0.0085,  0.0094, -0.0126,  0.0174,  0.0271, -0.0124, -0.0205, -0.0072,
+        -0.0317, -0.0302], device='cuda:0'), grad: tensor([ 2.5146e-08,  1.1735e-07, -8.0001e-07,  1.7043e-07,  2.5146e-08,
+         4.0978e-08,  1.8626e-08,  1.9483e-06,  5.3458e-07, -2.0973e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 360, time 216.59, cls_loss 0.0008 cls_loss_mapping 0.0015 cls_loss_causal 0.4674 re_mapping 0.0034 re_causal 0.0103 /// teacc 99.03 lr 0.00010000
+Epoch 362, weight, value: tensor([[-0.3279, -0.1697, -0.0950,  ..., -0.0039, -0.0712, -0.0171],
+        [-0.1450,  0.1305, -0.0851,  ...,  0.0191, -0.0670, -0.0819],
+        [ 0.1414, -0.1746, -0.1768,  ..., -0.0651,  0.1724, -0.0337],
+        ...,
+        [-0.1852, -0.0993,  0.1307,  ...,  0.0360, -0.2193, -0.0030],
+        [ 0.1059, -0.0085, -0.3141,  ..., -0.0691,  0.1718, -0.0379],
+        [-0.2213, -0.1718,  0.0338,  ..., -0.0167, -0.2417, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 1.5832e-08, -3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.4901e-08,  0.0000e+00],
+        [ 7.4506e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          8.3819e-09,  0.0000e+00],
+        ...,
+        [ 5.5879e-09,  6.5193e-09,  0.0000e+00,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [-6.7987e-08,  6.5193e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -7.7300e-08,  0.0000e+00],
+        [ 9.3132e-10,  5.4948e-08,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 362, bias, value: tensor([-0.0085,  0.0094, -0.0127,  0.0173,  0.0271, -0.0124, -0.0206, -0.0072,
+        -0.0318, -0.0301], device='cuda:0'), grad: tensor([-6.1467e-08,  3.7253e-08,  2.7008e-08,  6.5193e-09, -5.1782e-07,
+         1.5646e-07, -1.8626e-08,  5.3085e-08, -1.2014e-07,  4.3958e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 361, time 216.62, cls_loss 0.0009 cls_loss_mapping 0.0015 cls_loss_causal 0.4786 re_mapping 0.0034 re_causal 0.0103 /// teacc 98.99 lr 0.00010000
+Epoch 363, weight, value: tensor([[-0.3280, -0.1703, -0.0951,  ..., -0.0039, -0.0712, -0.0171],
+        [-0.1450,  0.1306, -0.0851,  ...,  0.0190, -0.0671, -0.0819],
+        [ 0.1415, -0.1747, -0.1765,  ..., -0.0651,  0.1727, -0.0337],
+        ...,
+        [-0.1853, -0.0993,  0.1307,  ...,  0.0359, -0.2201, -0.0030],
+        [ 0.1060, -0.0086, -0.3142,  ..., -0.0691,  0.1721, -0.0379],
+        [-0.2215, -0.1721,  0.0337,  ..., -0.0167, -0.2421, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 1.6764e-07,  1.9092e-07,  0.0000e+00,  ...,  0.0000e+00,
+          8.6613e-08,  0.0000e+00],
+        [ 2.2352e-08,  6.5193e-09,  0.0000e+00,  ...,  0.0000e+00,
+          3.1665e-08,  0.0000e+00],
+        [ 7.4506e-09,  6.5193e-09,  0.0000e+00,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        ...,
+        [ 1.4901e-08,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          4.9360e-08,  0.0000e+00],
+        [ 1.1269e-07,  1.8813e-07,  0.0000e+00,  ...,  0.0000e+00,
+         -1.0245e-08,  0.0000e+00],
+        [ 4.6566e-09,  3.3528e-08,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 363, bias, value: tensor([-0.0085,  0.0094, -0.0127,  0.0174,  0.0273, -0.0127, -0.0205, -0.0073,
+        -0.0318, -0.0302], device='cuda:0'), grad: tensor([ 6.7893e-07,  1.1548e-07,  5.6811e-08,  3.3062e-07,  2.5239e-07,
+         5.0478e-07, -2.7288e-06,  2.2165e-07,  5.7556e-07, -1.3970e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 362, time 216.84, cls_loss 0.0010 cls_loss_mapping 0.0017 cls_loss_causal 0.4150 re_mapping 0.0035 re_causal 0.0101 /// teacc 98.98 lr 0.00010000
+Epoch 364, weight, value: tensor([[-0.3280, -0.1708, -0.0951,  ..., -0.0039, -0.0712, -0.0171],
+        [-0.1452,  0.1306, -0.0851,  ...,  0.0190, -0.0672, -0.0819],
+        [ 0.1414, -0.1747, -0.1765,  ..., -0.0654,  0.1728, -0.0337],
+        ...,
+        [-0.1853, -0.0993,  0.1307,  ...,  0.0358, -0.2202, -0.0030],
+        [ 0.1060, -0.0087, -0.3144,  ..., -0.0691,  0.1724, -0.0379],
+        [-0.2218, -0.1725,  0.0337,  ..., -0.0167, -0.2423, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 8.7544e-08,  7.7300e-08,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-09,  0.0000e+00],
+        [ 1.0245e-08, -4.0978e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -2.5146e-08,  0.0000e+00],
+        [ 2.8871e-08,  6.0536e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -5.7742e-08,  0.0000e+00],
+        ...,
+        [ 2.7940e-09,  1.5832e-08,  0.0000e+00,  ...,  0.0000e+00,
+          2.5146e-08,  0.0000e+00],
+        [ 1.3039e-08,  1.9558e-08,  0.0000e+00,  ...,  0.0000e+00,
+          1.5832e-08,  0.0000e+00],
+        [ 5.5879e-09,  9.9652e-08, -9.3132e-10,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 364, bias, value: tensor([-0.0086,  0.0094, -0.0130,  0.0171,  0.0279, -0.0116, -0.0205, -0.0072,
+        -0.0318, -0.0307], device='cuda:0'), grad: tensor([ 3.9674e-07,  1.1921e-07,  3.8631e-06,  1.8440e-07, -4.7684e-07,
+         8.1025e-08, -1.2144e-06, -4.1611e-06,  1.2945e-07,  1.0766e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 363, time 216.80, cls_loss 0.0011 cls_loss_mapping 0.0016 cls_loss_causal 0.4632 re_mapping 0.0037 re_causal 0.0107 /// teacc 99.04 lr 0.00010000
+Epoch 365, weight, value: tensor([[-0.3281, -0.1714, -0.0951,  ..., -0.0040, -0.0712, -0.0169],
+        [-0.1452,  0.1308, -0.0852,  ...,  0.0224, -0.0672, -0.0819],
+        [ 0.1416, -0.1749, -0.1765,  ..., -0.0689,  0.1732, -0.0337],
+        ...,
+        [-0.1854, -0.0994,  0.1308,  ...,  0.0331, -0.2205, -0.0030],
+        [ 0.1066, -0.0086, -0.3147,  ..., -0.0691,  0.1738, -0.0379],
+        [-0.2222, -0.1733,  0.0335,  ..., -0.0168, -0.2434, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09, -3.3528e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -2.0117e-07,  0.0000e+00],
+        [ 0.0000e+00,  1.3039e-08,  0.0000e+00,  ...,  0.0000e+00,
+          1.3039e-08,  0.0000e+00],
+        [ 1.8626e-09,  1.8626e-08,  0.0000e+00,  ...,  0.0000e+00,
+          9.1270e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  2.2352e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  3.5390e-08,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  3.1292e-07,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 365, bias, value: tensor([-0.0085,  0.0094, -0.0131,  0.0171,  0.0288, -0.0117, -0.0206, -0.0072,
+        -0.0314, -0.0317], device='cuda:0'), grad: tensor([-6.1095e-07,  9.6858e-08,  2.8126e-07,  6.3330e-08, -1.0580e-06,
+         1.3039e-08,  2.3097e-07,  2.0489e-08,  9.8720e-08,  8.6613e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 364, time 216.81, cls_loss 0.0007 cls_loss_mapping 0.0013 cls_loss_causal 0.4807 re_mapping 0.0036 re_causal 0.0111 /// teacc 99.01 lr 0.00010000
+Epoch 366, weight, value: tensor([[-0.3281, -0.1721, -0.0952,  ..., -0.0040, -0.0712, -0.0169],
+        [-0.1456,  0.1310, -0.0850,  ...,  0.0229, -0.0671, -0.0819],
+        [ 0.1415, -0.1753, -0.1767,  ..., -0.0693,  0.1733, -0.0337],
+        ...,
+        [-0.1854, -0.0995,  0.1308,  ...,  0.0327, -0.2206, -0.0030],
+        [ 0.1066, -0.0088, -0.3148,  ..., -0.0691,  0.1741, -0.0379],
+        [-0.2224, -0.1735,  0.0334,  ..., -0.0168, -0.2439, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09,  7.4506e-09,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00, -3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 1.8626e-09,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.8626e-09,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  1.1176e-08,  0.0000e+00,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00],
+        [ 1.8626e-09,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.1176e-07,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 366, bias, value: tensor([-0.0085,  0.0094, -0.0133,  0.0174,  0.0291, -0.0128, -0.0205, -0.0072,
+        -0.0314, -0.0320], device='cuda:0'), grad: tensor([ 2.4214e-08,  5.5879e-09,  9.3132e-09, -5.5879e-08, -5.2527e-07,
+         3.7253e-08, -2.9802e-08,  2.7940e-08,  5.5879e-09,  4.8988e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 365, time 216.76, cls_loss 0.0010 cls_loss_mapping 0.0013 cls_loss_causal 0.4698 re_mapping 0.0035 re_causal 0.0102 /// teacc 98.95 lr 0.00010000
+Epoch 367, weight, value: tensor([[-0.3281, -0.1732, -0.0953,  ..., -0.0040, -0.0712, -0.0169],
+        [-0.1460,  0.1310, -0.0851,  ...,  0.0229, -0.0673, -0.0819],
+        [ 0.1419, -0.1755, -0.1767,  ..., -0.0694,  0.1740, -0.0337],
+        ...,
+        [-0.1855, -0.0994,  0.1308,  ...,  0.0327, -0.2210, -0.0030],
+        [ 0.1063, -0.0092, -0.3154,  ..., -0.0691,  0.1737, -0.0379],
+        [-0.2225, -0.1738,  0.0334,  ..., -0.0168, -0.2440, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.3039e-08,  0.0000e+00],
+        [ 7.4506e-09, -3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.4901e-08,  0.0000e+00],
+        [-9.1270e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.6950e-07,  0.0000e+00],
+        ...,
+        [ 4.8429e-08,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          8.9407e-08,  0.0000e+00],
+        [ 8.3260e-07,  4.9174e-07,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-08,  0.0000e+00],
+        [ 5.5879e-09,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.1176e-08,  0.0000e+00]], device='cuda:0')
+Epoch 367, bias, value: tensor([-0.0085,  0.0093, -0.0129,  0.0174,  0.0292, -0.0127, -0.0205, -0.0071,
+        -0.0320, -0.0321], device='cuda:0'), grad: tensor([-5.9605e-08,  5.5879e-08, -4.9919e-07,  7.4506e-08,  2.7940e-08,
+         2.1771e-05, -2.2903e-05,  2.5332e-07,  1.1772e-06,  5.5879e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 366, time 216.85, cls_loss 0.0008 cls_loss_mapping 0.0010 cls_loss_causal 0.4631 re_mapping 0.0035 re_causal 0.0106 /// teacc 99.01 lr 0.00010000
+Epoch 368, weight, value: tensor([[-0.3281, -0.1735, -0.0953,  ..., -0.0040, -0.0712, -0.0169],
+        [-0.1461,  0.1312, -0.0849,  ...,  0.0229, -0.0671, -0.0819],
+        [ 0.1412, -0.1759, -0.1767,  ..., -0.0696,  0.1733, -0.0337],
+        ...,
+        [-0.1855, -0.0995,  0.1308,  ...,  0.0323, -0.2212, -0.0030],
+        [ 0.1064, -0.0096, -0.3156,  ..., -0.0692,  0.1741, -0.0379],
+        [-0.2229, -0.1741,  0.0333,  ..., -0.0168, -0.2460, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -2.0489e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-3.7253e-09,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.3039e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  2.0489e-08,  1.8626e-09,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [-1.8626e-09,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  6.5193e-08, -1.4901e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 368, bias, value: tensor([-0.0085,  0.0094, -0.0136,  0.0175,  0.0292, -0.0132, -0.0200, -0.0072,
+        -0.0321, -0.0321], device='cuda:0'), grad: tensor([-4.6566e-08, -2.4214e-08,  1.3039e-08,  2.2352e-08, -3.0547e-07,
+         2.7940e-08,  5.5879e-09, -2.2352e-08,  1.1176e-08,  3.0547e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 367, time 217.01, cls_loss 0.0010 cls_loss_mapping 0.0018 cls_loss_causal 0.4725 re_mapping 0.0036 re_causal 0.0104 /// teacc 99.02 lr 0.00010000
+Epoch 369, weight, value: tensor([[-0.3282, -0.1738, -0.0956,  ..., -0.0040, -0.0712, -0.0169],
+        [-0.1464,  0.1314, -0.0851,  ...,  0.0229, -0.0670, -0.0819],
+        [ 0.1413, -0.1765, -0.1766,  ..., -0.0696,  0.1735, -0.0337],
+        ...,
+        [-0.1856, -0.0996,  0.1309,  ...,  0.0322, -0.2213, -0.0030],
+        [ 0.1063, -0.0098, -0.3160,  ..., -0.0692,  0.1743, -0.0379],
+        [-0.2231, -0.1746,  0.0333,  ..., -0.0168, -0.2471, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+          8.1956e-08,  0.0000e+00],
+        [ 0.0000e+00, -1.1921e-07,  0.0000e+00,  ...,  0.0000e+00,
+         -7.4506e-09,  0.0000e+00],
+        [ 0.0000e+00,  5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -8.7358e-07,  0.0000e+00],
+        ...,
+        [ 5.5879e-09,  5.5879e-08,  0.0000e+00,  ...,  0.0000e+00,
+          1.7509e-07,  0.0000e+00],
+        [-7.4506e-09,  5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -7.4506e-09,  0.0000e+00],
+        [ 1.8626e-09, -7.4506e-09,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 369, bias, value: tensor([-0.0085,  0.0094, -0.0143,  0.0175,  0.0293, -0.0132, -0.0200, -0.0072,
+        -0.0323, -0.0322], device='cuda:0'), grad: tensor([ 2.3656e-07, -2.6263e-07, -3.4403e-06,  2.4550e-06,  1.1194e-06,
+         5.5879e-08,  2.7940e-08,  8.1211e-07,  9.3132e-09, -1.0207e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 368, time 216.78, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4722 re_mapping 0.0035 re_causal 0.0108 /// teacc 98.90 lr 0.00010000
+Epoch 370, weight, value: tensor([[-0.3282, -0.1738, -0.0957,  ..., -0.0040, -0.0712, -0.0169],
+        [-0.1464,  0.1334, -0.0851,  ...,  0.0229, -0.0670, -0.0819],
+        [ 0.1414, -0.1766, -0.1766,  ..., -0.0696,  0.1738, -0.0337],
+        ...,
+        [-0.1856, -0.1012,  0.1309,  ...,  0.0322, -0.2215, -0.0030],
+        [ 0.1065, -0.0099, -0.3162,  ..., -0.0692,  0.1747, -0.0379],
+        [-0.2237, -0.1747,  0.0333,  ..., -0.0168, -0.2487, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09, -1.6950e-07,  9.3132e-09,  ...,  0.0000e+00,
+          1.4901e-08,  0.0000e+00],
+        [ 1.8626e-09, -1.3039e-08,  3.7253e-09,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00],
+        [-5.9605e-08,  1.8626e-09, -1.0431e-07,  ...,  0.0000e+00,
+         -1.6764e-07,  0.0000e+00],
+        ...,
+        [ 4.0978e-08,  1.6764e-08,  7.0781e-08,  ...,  0.0000e+00,
+          1.1921e-07,  0.0000e+00],
+        [-9.3132e-09,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -9.3132e-09,  0.0000e+00],
+        [ 5.5879e-09,  2.9430e-07, -1.8626e-09,  ...,  0.0000e+00,
+          1.1176e-08,  0.0000e+00]], device='cuda:0')
+Epoch 370, bias, value: tensor([-0.0085,  0.0098, -0.0142,  0.0176,  0.0293, -0.0133, -0.0200, -0.0076,
+        -0.0321, -0.0322], device='cuda:0'), grad: tensor([-7.2084e-07,  2.0489e-08, -7.6368e-07,  5.8115e-07, -1.0040e-06,
+        -4.9919e-07,  8.0280e-07,  5.3830e-07,  2.4214e-08,  1.0189e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 369, time 217.23, cls_loss 0.0007 cls_loss_mapping 0.0010 cls_loss_causal 0.4505 re_mapping 0.0033 re_causal 0.0100 /// teacc 98.97 lr 0.00010000
+Epoch 371, weight, value: tensor([[-0.3282, -0.1741, -0.0960,  ..., -0.0040, -0.0712, -0.0169],
+        [-0.1466,  0.1336, -0.0853,  ...,  0.0229, -0.0671, -0.0819],
+        [ 0.1416, -0.1768, -0.1768,  ..., -0.0696,  0.1741, -0.0337],
+        ...,
+        [-0.1858, -0.1015,  0.1310,  ...,  0.0322, -0.2218, -0.0030],
+        [ 0.1065, -0.0100, -0.3171,  ..., -0.0692,  0.1748, -0.0379],
+        [-0.2238, -0.1747,  0.0334,  ..., -0.0168, -0.2491, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -2.2352e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.1176e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.4901e-08, -7.4506e-09,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [-1.8626e-09, -1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -7.4506e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.6764e-08,  1.8626e-09,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 371, bias, value: tensor([-0.0085,  0.0099, -0.0142,  0.0176,  0.0292, -0.0134, -0.0199, -0.0076,
+        -0.0322, -0.0321], device='cuda:0'), grad: tensor([ 4.6939e-07,  2.0489e-08,  1.4529e-07,  1.1921e-07,  2.7381e-07,
+         1.4529e-07, -1.4901e-08,  4.6566e-08,  7.8231e-08, -1.2908e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 370, time 216.90, cls_loss 0.0009 cls_loss_mapping 0.0013 cls_loss_causal 0.4778 re_mapping 0.0033 re_causal 0.0101 /// teacc 99.05 lr 0.00010000
+Epoch 372, weight, value: tensor([[-0.3283, -0.1761, -0.0960,  ..., -0.0040, -0.0712, -0.0169],
+        [-0.1466,  0.1353, -0.0860,  ...,  0.0230, -0.0670, -0.0819],
+        [ 0.1416, -0.1772, -0.1771,  ..., -0.0697,  0.1741, -0.0337],
+        ...,
+        [-0.1858, -0.1029,  0.1295,  ...,  0.0322, -0.2221, -0.0030],
+        [ 0.1065, -0.0102, -0.3188,  ..., -0.0692,  0.1749, -0.0379],
+        [-0.2240, -0.1750,  0.0342,  ..., -0.0168, -0.2495, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -3.1851e-07,  0.0000e+00],
+        [ 0.0000e+00, -2.9802e-08,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 1.8626e-09,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-09,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  2.4214e-08,  1.8626e-09,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [-4.0978e-08,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.4901e-08,  0.0000e+00],
+        [ 2.7940e-08,  9.3132e-09, -7.4506e-09,  ...,  0.0000e+00,
+          1.6019e-07,  0.0000e+00]], device='cuda:0')
+Epoch 372, bias, value: tensor([-0.0085,  0.0103, -0.0144,  0.0176,  0.0291, -0.0137, -0.0198, -0.0081,
+        -0.0324, -0.0318], device='cuda:0'), grad: tensor([-1.0476e-05, -2.9802e-08,  2.5332e-07,  1.5460e-07,  7.6368e-08,
+         2.4028e-07,  3.6266e-06, -1.6764e-08,  1.3858e-06,  4.7870e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 371, time 216.52, cls_loss 0.0008 cls_loss_mapping 0.0012 cls_loss_causal 0.4530 re_mapping 0.0033 re_causal 0.0098 /// teacc 99.05 lr 0.00010000
+Epoch 373, weight, value: tensor([[-0.3283, -0.1770, -0.0960,  ..., -0.0040, -0.0712, -0.0169],
+        [-0.1468,  0.1360, -0.0862,  ...,  0.0230, -0.0671, -0.0819],
+        [ 0.1418, -0.1775, -0.1776,  ..., -0.0698,  0.1748, -0.0337],
+        ...,
+        [-0.1859, -0.1036,  0.1295,  ...,  0.0321, -0.2227, -0.0030],
+        [ 0.1065, -0.0105, -0.3219,  ..., -0.0692,  0.1750, -0.0379],
+        [-0.2243, -0.1752,  0.0343,  ..., -0.0168, -0.2499, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09, -1.3039e-08, -5.5879e-09,  ...,  0.0000e+00,
+         -5.5879e-09,  0.0000e+00],
+        [ 1.8626e-09, -2.7940e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-3.7253e-09,  5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.1176e-08,  0.0000e+00],
+        ...,
+        [-9.3132e-09,  1.6764e-08,  0.0000e+00,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [ 1.8626e-09,  2.2352e-08,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 1.8626e-09,  2.0862e-07,  2.4214e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 373, bias, value: tensor([-0.0085,  0.0105, -0.0144,  0.0177,  0.0291, -0.0140, -0.0194, -0.0083,
+        -0.0328, -0.0317], device='cuda:0'), grad: tensor([-9.1642e-07,  2.9802e-08,  2.7940e-08,  2.3842e-07, -8.4192e-07,
+         3.3528e-08,  2.3469e-07, -2.3469e-07,  2.9244e-07,  1.1455e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 372, time 216.78, cls_loss 0.0010 cls_loss_mapping 0.0014 cls_loss_causal 0.4554 re_mapping 0.0032 re_causal 0.0096 /// teacc 99.03 lr 0.00010000
+Epoch 374, weight, value: tensor([[-0.3283, -0.1770, -0.0962,  ..., -0.0040, -0.0712, -0.0169],
+        [-0.1471,  0.1362, -0.0863,  ...,  0.0230, -0.0673, -0.0819],
+        [ 0.1426, -0.1777, -0.1775,  ..., -0.0698,  0.1757, -0.0337],
+        ...,
+        [-0.1862, -0.1038,  0.1297,  ...,  0.0321, -0.2234, -0.0030],
+        [ 0.1070, -0.0104, -0.3215,  ..., -0.0692,  0.1760, -0.0379],
+        [-0.2246, -0.1762,  0.0343,  ..., -0.0168, -0.2513, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.4901e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.8626e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.8626e-09, -1.4901e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-3.7253e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00,  6.9290e-07,  3.7253e-09,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 374, bias, value: tensor([-0.0083,  0.0105, -0.0135,  0.0177,  0.0292, -0.0141, -0.0195, -0.0084,
+        -0.0325, -0.0320], device='cuda:0'), grad: tensor([ 3.7253e-09,  5.5879e-08,  7.4506e-09,  1.8626e-08, -2.4568e-06,
+        -1.3039e-08,  1.1176e-08, -3.5390e-08,  9.3132e-09,  2.3842e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 373, time 216.84, cls_loss 0.0007 cls_loss_mapping 0.0007 cls_loss_causal 0.4706 re_mapping 0.0031 re_causal 0.0103 /// teacc 99.07 lr 0.00010000
+Epoch 375, weight, value: tensor([[-0.3284, -0.1772, -0.0962,  ..., -0.0040, -0.0712, -0.0169],
+        [-0.1472,  0.1362, -0.0866,  ...,  0.0230, -0.0673, -0.0819],
+        [ 0.1426, -0.1778, -0.1774,  ..., -0.0698,  0.1759, -0.0337],
+        ...,
+        [-0.1862, -0.1038,  0.1306,  ...,  0.0321, -0.2235, -0.0030],
+        [ 0.1081, -0.0096, -0.3217,  ..., -0.0692,  0.1788, -0.0379],
+        [-0.2247, -0.1766,  0.0343,  ..., -0.0168, -0.2514, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.1176e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.4901e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.4156e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-09,  0.0000e+00],
+        [ 1.8626e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.0245e-07,  0.0000e+00],
+        [ 0.0000e+00, -5.2154e-08,  0.0000e+00,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00]], device='cuda:0')
+Epoch 375, bias, value: tensor([-0.0083,  0.0105, -0.0137,  0.0175,  0.0291, -0.0139, -0.0195, -0.0082,
+        -0.0317, -0.0320], device='cuda:0'), grad: tensor([ 3.9116e-08,  5.5879e-08,  4.0233e-07, -1.1250e-06,  6.3516e-07,
+         2.9989e-07,  3.7253e-09,  4.4703e-08,  3.0547e-07, -6.7241e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 374, time 217.00, cls_loss 0.0007 cls_loss_mapping 0.0013 cls_loss_causal 0.4328 re_mapping 0.0035 re_causal 0.0104 /// teacc 98.96 lr 0.00010000
+Epoch 376, weight, value: tensor([[-0.3284, -0.1794, -0.0962,  ..., -0.0040, -0.0712, -0.0169],
+        [-0.1472,  0.1365, -0.0863,  ...,  0.0230, -0.0673, -0.0819],
+        [ 0.1427, -0.1781, -0.1772,  ..., -0.0698,  0.1767, -0.0337],
+        ...,
+        [-0.1863, -0.1041,  0.1307,  ...,  0.0321, -0.2237, -0.0030],
+        [ 0.1081, -0.0097, -0.3220,  ..., -0.0692,  0.1789, -0.0379],
+        [-0.2251, -0.1770,  0.0342,  ..., -0.0168, -0.2524, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -3.4273e-07,  4.6566e-08,  ...,  0.0000e+00,
+         -1.7136e-07,  0.0000e+00],
+        [ 0.0000e+00,  5.2154e-08,  3.7253e-09,  ...,  0.0000e+00,
+          2.0489e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.8626e-09, -5.4017e-08,  ...,  0.0000e+00,
+          2.4214e-08,  0.0000e+00],
+        [ 0.0000e+00,  1.6764e-08,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-09,  0.0000e+00],
+        [ 0.0000e+00,  7.8231e-08, -1.8626e-09,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00]], device='cuda:0')
+Epoch 376, bias, value: tensor([-0.0083,  0.0105, -0.0135,  0.0186,  0.0290, -0.0139, -0.0195, -0.0092,
+        -0.0317, -0.0320], device='cuda:0'), grad: tensor([ 7.4506e-09, -5.6438e-07,  1.3039e-07, -1.5758e-06, -1.6019e-07,
+         2.1141e-06, -1.3039e-08, -1.9185e-07,  5.5879e-08,  1.8254e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 375, time 216.84, cls_loss 0.0010 cls_loss_mapping 0.0022 cls_loss_causal 0.4824 re_mapping 0.0036 re_causal 0.0106 /// teacc 99.04 lr 0.00010000
+Epoch 377, weight, value: tensor([[-0.3284, -0.1795, -0.0964,  ..., -0.0040, -0.0712, -0.0169],
+        [-0.1475,  0.1367, -0.0863,  ...,  0.0230, -0.0674, -0.0819],
+        [ 0.1432, -0.1787, -0.1775,  ..., -0.0698,  0.1767, -0.0337],
+        ...,
+        [-0.1863, -0.1042,  0.1307,  ...,  0.0321, -0.2242, -0.0030],
+        [ 0.1083, -0.0097, -0.3225,  ..., -0.0692,  0.1793, -0.0379],
+        [-0.2261, -0.1796,  0.0346,  ..., -0.0168, -0.2545, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  9.3132e-09,  2.8685e-07,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 5.5879e-09, -2.3115e-06,  0.0000e+00,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [ 3.1665e-08,  4.0978e-08,  1.8626e-09,  ...,  0.0000e+00,
+          3.9116e-08,  0.0000e+00],
+        ...,
+        [ 3.7253e-09,  2.2072e-06,  2.4587e-07,  ...,  0.0000e+00,
+          9.3132e-09,  0.0000e+00],
+        [-1.3970e-07, -1.4901e-07,  0.0000e+00,  ...,  0.0000e+00,
+         -1.6764e-07,  0.0000e+00],
+        [ 5.4017e-08,  1.3970e-07, -5.4762e-07,  ...,  0.0000e+00,
+          6.8918e-08,  0.0000e+00]], device='cuda:0')
+Epoch 377, bias, value: tensor([-0.0083,  0.0105, -0.0134,  0.0189,  0.0304, -0.0150, -0.0194, -0.0092,
+        -0.0315, -0.0335], device='cuda:0'), grad: tensor([ 2.0694e-06, -5.6699e-06,  2.4587e-07, -1.2480e-07,  5.5134e-07,
+         5.8301e-07,  1.0058e-07,  7.3090e-06, -8.4750e-07, -4.2580e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 376, time 216.68, cls_loss 0.0008 cls_loss_mapping 0.0014 cls_loss_causal 0.4743 re_mapping 0.0034 re_causal 0.0105 /// teacc 99.09 lr 0.00010000
+Epoch 378, weight, value: tensor([[-0.3284, -0.1797, -0.0946,  ..., -0.0040, -0.0711, -0.0169],
+        [-0.1476,  0.1368, -0.0868,  ...,  0.0230, -0.0678, -0.0819],
+        [ 0.1428, -0.1787, -0.1815,  ..., -0.0698,  0.1764, -0.0337],
+        ...,
+        [-0.1864, -0.1043,  0.1307,  ...,  0.0321, -0.2249, -0.0030],
+        [ 0.1082, -0.0098, -0.3253,  ..., -0.0692,  0.1790, -0.0379],
+        [-0.2263, -0.1797,  0.0346,  ..., -0.0168, -0.2576, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00],
+        [ 3.7253e-09, -5.5879e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -1.8626e-09,  0.0000e+00],
+        [-1.1176e-08,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.0245e-07,  0.0000e+00],
+        ...,
+        [ 3.7253e-09,  4.8056e-07,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-08,  0.0000e+00],
+        [ 0.0000e+00,  2.7940e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00, -3.3770e-06, -9.4995e-08,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 378, bias, value: tensor([-0.0081,  0.0105, -0.0141,  0.0191,  0.0303, -0.0151, -0.0193, -0.0093,
+        -0.0319, -0.0336], device='cuda:0'), grad: tensor([ 4.6566e-08, -8.7544e-08, -2.2724e-07,  1.8068e-07,  1.9222e-05,
+         8.1956e-08, -7.4506e-08,  3.0007e-06,  1.0617e-07, -2.2262e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 377, time 216.86, cls_loss 0.0008 cls_loss_mapping 0.0012 cls_loss_causal 0.4698 re_mapping 0.0034 re_causal 0.0101 /// teacc 99.04 lr 0.00010000
+Epoch 379, weight, value: tensor([[-0.3284, -0.1799, -0.0955,  ..., -0.0040, -0.0712, -0.0169],
+        [-0.1477,  0.1374, -0.0866,  ...,  0.0230, -0.0677, -0.0819],
+        [ 0.1428, -0.1788, -0.1819,  ..., -0.0698,  0.1763, -0.0337],
+        ...,
+        [-0.1864, -0.1048,  0.1305,  ...,  0.0321, -0.2252, -0.0030],
+        [ 0.1079, -0.0103, -0.3264,  ..., -0.0692,  0.1787, -0.0379],
+        [-0.2268, -0.1797,  0.0348,  ..., -0.0168, -0.2583, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 1.8626e-09,  1.8626e-09,  1.8626e-09,  ...,  0.0000e+00,
+          1.3039e-08,  0.0000e+00],
+        [ 3.7253e-09,  1.8626e-09,  1.8626e-09,  ...,  0.0000e+00,
+         -9.3132e-09,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  0.0000e+00, -1.8626e-09,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [-5.0291e-08, -7.4506e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -2.9802e-08,  0.0000e+00],
+        [ 1.8626e-09,  7.4506e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 379, bias, value: tensor([-0.0081,  0.0107, -0.0149,  0.0193,  0.0303, -0.0147, -0.0193, -0.0097,
+        -0.0325, -0.0334], device='cuda:0'), grad: tensor([-1.4529e-07,  2.6207e-06,  6.5193e-08,  7.9721e-07,  5.9791e-07,
+        -6.6496e-07,  1.4715e-07, -2.0206e-05, -7.8231e-08,  1.6853e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 378, time 216.72, cls_loss 0.0007 cls_loss_mapping 0.0009 cls_loss_causal 0.4584 re_mapping 0.0032 re_causal 0.0103 /// teacc 99.02 lr 0.00010000
+Epoch 380, weight, value: tensor([[-0.3284, -0.1801, -0.0954,  ..., -0.0040, -0.0712, -0.0169],
+        [-0.1481,  0.1382, -0.0871,  ...,  0.0230, -0.0682, -0.0819],
+        [ 0.1432, -0.1790, -0.1814,  ..., -0.0698,  0.1770, -0.0337],
+        ...,
+        [-0.1865, -0.1053,  0.1305,  ...,  0.0321, -0.2257, -0.0030],
+        [ 0.1079, -0.0106, -0.3265,  ..., -0.0692,  0.1788, -0.0379],
+        [-0.2269, -0.1791,  0.0348,  ..., -0.0168, -0.2582, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-09,  9.3132e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 6.5193e-08,  6.3330e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  3.7253e-09,  5.5879e-09,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  9.3132e-09, -1.8626e-09,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 2.6077e-08,  2.4214e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  7.4506e-09, -3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 380, bias, value: tensor([-0.0081,  0.0109, -0.0149,  0.0192,  0.0296, -0.0144, -0.0193, -0.0098,
+        -0.0327, -0.0328], device='cuda:0'), grad: tensor([ 2.2352e-08,  1.3411e-07,  7.8417e-07,  0.0000e+00,  3.5390e-08,
+         2.3283e-07, -4.8056e-07, -4.7870e-07,  7.0781e-08, -3.1292e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 379, time 216.87, cls_loss 0.0008 cls_loss_mapping 0.0011 cls_loss_causal 0.4610 re_mapping 0.0034 re_causal 0.0101 /// teacc 98.98 lr 0.00010000
+Epoch 381, weight, value: tensor([[-0.3284, -0.1802, -0.0954,  ..., -0.0040, -0.0696, -0.0169],
+        [-0.1482,  0.1384, -0.0873,  ...,  0.0230, -0.0686, -0.0819],
+        [ 0.1433, -0.1791, -0.1812,  ..., -0.0698,  0.1757, -0.0337],
+        ...,
+        [-0.1866, -0.1054,  0.1304,  ...,  0.0321, -0.2263, -0.0030],
+        [ 0.1079, -0.0107, -0.3269,  ..., -0.0692,  0.1786, -0.0379],
+        [-0.2284, -0.1792,  0.0348,  ..., -0.0168, -0.2613, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.3039e-08,  0.0000e+00],
+        [ 3.7253e-09, -4.0978e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -1.8626e-09,  0.0000e+00],
+        [-2.9802e-08,  1.8626e-09, -1.8626e-09,  ...,  0.0000e+00,
+         -9.3132e-08,  0.0000e+00],
+        ...,
+        [ 5.5879e-09,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          2.9802e-08,  0.0000e+00],
+        [ 3.7253e-09,  2.2352e-08,  0.0000e+00,  ...,  0.0000e+00,
+          4.9733e-07,  0.0000e+00],
+        [ 0.0000e+00,  3.7253e-09, -1.8626e-09,  ...,  0.0000e+00,
+         -9.0897e-07,  0.0000e+00]], device='cuda:0')
+Epoch 381, bias, value: tensor([-0.0073,  0.0109, -0.0157,  0.0193,  0.0295, -0.0145, -0.0193, -0.0099,
+        -0.0328, -0.0335], device='cuda:0'), grad: tensor([ 5.5879e-08, -2.0489e-08, -1.8440e-07,  6.5379e-07,  1.6373e-06,
+         5.8673e-07,  2.9802e-08,  1.0058e-07,  3.1982e-06, -6.0722e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 380, time 216.90, cls_loss 0.0008 cls_loss_mapping 0.0015 cls_loss_causal 0.4603 re_mapping 0.0032 re_causal 0.0098 /// teacc 99.11 lr 0.00010000
+Epoch 382, weight, value: tensor([[-0.3285, -0.1804, -0.0953,  ..., -0.0040, -0.0693, -0.0169],
+        [-0.1482,  0.1385, -0.0880,  ...,  0.0239, -0.0680, -0.0819],
+        [ 0.1434, -0.1796, -0.1811,  ..., -0.0703,  0.1742, -0.0337],
+        ...,
+        [-0.1867, -0.1054,  0.1306,  ...,  0.0313, -0.2269, -0.0030],
+        [ 0.1080, -0.0108, -0.3283,  ..., -0.0692,  0.1784, -0.0379],
+        [-0.2287, -0.1783,  0.0374,  ..., -0.0168, -0.2619, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 5.5879e-09,  3.7253e-08,  3.7253e-09,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.4901e-08,  ...,  0.0000e+00,
+         -1.8626e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.8626e-09, -2.7940e-08,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [-3.1665e-08, -1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -3.7253e-08,  0.0000e+00],
+        [ 0.0000e+00,  1.4529e-07,  1.8626e-09,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 382, bias, value: tensor([-0.0071,  0.0110, -0.0168,  0.0193,  0.0273, -0.0141, -0.0195, -0.0099,
+        -0.0335, -0.0314], device='cuda:0'), grad: tensor([ 1.0990e-07,  1.2107e-07,  6.5193e-08,  3.7253e-08, -7.8231e-08,
+         1.5832e-07,  1.6764e-08,  1.0245e-07, -8.7544e-08, -4.5076e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 381, time 216.70, cls_loss 0.0009 cls_loss_mapping 0.0014 cls_loss_causal 0.4655 re_mapping 0.0032 re_causal 0.0098 /// teacc 99.07 lr 0.00010000
+Epoch 383, weight, value: tensor([[-0.3285, -0.1806, -0.0954,  ..., -0.0040, -0.0693, -0.0169],
+        [-0.1484,  0.1416, -0.0885,  ...,  0.0239, -0.0679, -0.0819],
+        [ 0.1437, -0.1798, -0.1812,  ..., -0.0704,  0.1747, -0.0337],
+        ...,
+        [-0.1870, -0.1084,  0.1304,  ...,  0.0312, -0.2281, -0.0030],
+        [ 0.1081, -0.0108, -0.3310,  ..., -0.0692,  0.1786, -0.0379],
+        [-0.2289, -0.1783,  0.0376,  ..., -0.0168, -0.2619, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00],
+        [ 4.6566e-08,  0.0000e+00,  1.1176e-08,  ...,  0.0000e+00,
+          6.6496e-07,  0.0000e+00],
+        [-5.2154e-08,  0.0000e+00, -2.6077e-08,  ...,  0.0000e+00,
+         -7.0408e-07,  0.0000e+00],
+        ...,
+        [ 7.4506e-09,  1.8626e-09,  1.8626e-09,  ...,  0.0000e+00,
+          2.4214e-08,  0.0000e+00],
+        [-1.1176e-08, -1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.4901e-08,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-09,  1.8626e-09,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 383, bias, value: tensor([-0.0070,  0.0131, -0.0165,  0.0192,  0.0271, -0.0136, -0.0198, -0.0117,
+        -0.0335, -0.0313], device='cuda:0'), grad: tensor([ 1.4901e-08,  1.2144e-06, -1.2852e-06,  2.9802e-08, -7.4506e-09,
+         2.6077e-08, -1.3039e-08,  1.4901e-08, -3.9116e-08,  3.9116e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 382, time 216.60, cls_loss 0.0008 cls_loss_mapping 0.0014 cls_loss_causal 0.4729 re_mapping 0.0031 re_causal 0.0096 /// teacc 99.03 lr 0.00010000
+Epoch 384, weight, value: tensor([[-0.3285, -0.1809, -0.0954,  ..., -0.0040, -0.0693, -0.0169],
+        [-0.1484,  0.1417, -0.0893,  ...,  0.0246, -0.0678, -0.0819],
+        [ 0.1431, -0.1800, -0.1823,  ..., -0.0709,  0.1736, -0.0337],
+        ...,
+        [-0.1870, -0.1084,  0.1313,  ...,  0.0308, -0.2271, -0.0030],
+        [ 0.1085, -0.0112, -0.3313,  ..., -0.0693,  0.1792, -0.0379],
+        [-0.2297, -0.1784,  0.0376,  ..., -0.0168, -0.2619, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 1.8626e-09, -2.6077e-08,  0.0000e+00,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00],
+        [-5.5879e-09,  3.7253e-09, -1.8626e-09,  ...,  0.0000e+00,
+         -1.8626e-09,  0.0000e+00],
+        ...,
+        [ 3.7253e-09,  7.4506e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-09,  0.0000e+00],
+        [ 5.5879e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09, -1.8626e-09,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 384, bias, value: tensor([-0.0070,  0.0131, -0.0183,  0.0190,  0.0271, -0.0131, -0.0197, -0.0116,
+        -0.0332, -0.0313], device='cuda:0'), grad: tensor([ 1.8626e-09, -2.2352e-08, -7.4506e-09, -7.3835e-06,  1.8440e-07,
+         7.2718e-06,  1.1176e-08,  3.1665e-08,  1.3411e-07, -2.4214e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 383, time 216.71, cls_loss 0.0011 cls_loss_mapping 0.0014 cls_loss_causal 0.4770 re_mapping 0.0033 re_causal 0.0097 /// teacc 99.01 lr 0.00010000
+Epoch 385, weight, value: tensor([[-0.3286, -0.1811, -0.0956,  ..., -0.0040, -0.0693, -0.0169],
+        [-0.1471,  0.1421, -0.0892,  ...,  0.0246, -0.0677, -0.0819],
+        [ 0.1432, -0.1826, -0.1836,  ..., -0.0709,  0.1719, -0.0337],
+        ...,
+        [-0.1873, -0.1085,  0.1312,  ...,  0.0308, -0.2279, -0.0030],
+        [ 0.1085, -0.0114, -0.3315,  ..., -0.0693,  0.1795, -0.0379],
+        [-0.2302, -0.1785,  0.0377,  ..., -0.0168, -0.2620, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-09,  7.4506e-09, -3.7253e-09,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 5.5879e-09,  6.5193e-09,  0.0000e+00,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00],
+        [-8.3819e-09,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -1.7695e-08,  0.0000e+00],
+        ...,
+        [ 4.6566e-09,  1.8626e-09,  9.3132e-10,  ...,  0.0000e+00,
+          9.3132e-09,  0.0000e+00],
+        [ 2.2352e-08,  2.7940e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  1.3970e-08, -9.3132e-10,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 385, bias, value: tensor([-0.0070,  0.0133, -0.0205,  0.0194,  0.0270, -0.0137, -0.0199, -0.0117,
+        -0.0333, -0.0312], device='cuda:0'), grad: tensor([-1.2051e-06,  6.5193e-08, -9.3132e-09,  1.2387e-07, -4.1910e-08,
+         8.3819e-08,  8.4098e-07, -7.6368e-08,  8.6613e-08,  1.1921e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 384, time 216.53, cls_loss 0.0008 cls_loss_mapping 0.0011 cls_loss_causal 0.4346 re_mapping 0.0032 re_causal 0.0097 /// teacc 98.97 lr 0.00010000
+Epoch 386, weight, value: tensor([[-0.3286, -0.1802, -0.0955,  ..., -0.0040, -0.0693, -0.0169],
+        [-0.1471,  0.1422, -0.0898,  ...,  0.0246, -0.0679, -0.0819],
+        [ 0.1431, -0.1829, -0.1840,  ..., -0.0709,  0.1719, -0.0337],
+        ...,
+        [-0.1872, -0.1085,  0.1314,  ...,  0.0308, -0.2279, -0.0030],
+        [ 0.1089, -0.0116, -0.3316,  ..., -0.0693,  0.1802, -0.0379],
+        [-0.2317, -0.1787,  0.0377,  ..., -0.0168, -0.2620, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  6.5193e-09,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 1.0245e-08, -2.7940e-08,  0.0000e+00,  ...,  0.0000e+00,
+          1.1176e-08,  0.0000e+00],
+        [-5.6811e-08,  2.7940e-09, -9.3132e-10,  ...,  0.0000e+00,
+         -7.9162e-08,  0.0000e+00],
+        ...,
+        [ 2.9802e-08,  1.1176e-08,  9.3132e-10,  ...,  0.0000e+00,
+          4.1910e-08,  0.0000e+00],
+        [-3.9116e-08,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -6.0536e-08,  0.0000e+00],
+        [ 3.7253e-09,  9.3132e-09,  0.0000e+00,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00]], device='cuda:0')
+Epoch 386, bias, value: tensor([-0.0069,  0.0133, -0.0210,  0.0194,  0.0270, -0.0163, -0.0174, -0.0116,
+        -0.0330, -0.0313], device='cuda:0'), grad: tensor([-9.0338e-08, -3.7253e-09, -1.7043e-07,  1.4715e-07,  3.0641e-07,
+         4.9360e-08,  4.8429e-08,  1.7602e-07, -1.7043e-07, -2.8405e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 385, time 216.96, cls_loss 0.0007 cls_loss_mapping 0.0011 cls_loss_causal 0.4405 re_mapping 0.0033 re_causal 0.0099 /// teacc 98.98 lr 0.00010000
+Epoch 387, weight, value: tensor([[-0.3286, -0.1803, -0.0956,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1472,  0.1424, -0.0896,  ...,  0.0246, -0.0681, -0.0819],
+        [ 0.1434, -0.1831, -0.1840,  ..., -0.0709,  0.1720, -0.0337],
+        ...,
+        [-0.1874, -0.1085,  0.1314,  ...,  0.0308, -0.2276, -0.0030],
+        [ 0.1089, -0.0116, -0.3317,  ..., -0.0693,  0.1803, -0.0379],
+        [-0.2319, -0.1787,  0.0377,  ..., -0.0168, -0.2620, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 2.6356e-07,  4.6007e-07,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 7.4506e-09,  3.1665e-08,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.3970e-08, -1.8626e-09,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 2.8871e-08,  6.4261e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -3.6322e-08,  0.0000e+00],
+        [ 9.3132e-10,  3.8836e-07, -9.3132e-10,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 387, bias, value: tensor([-0.0069,  0.0133, -0.0217,  0.0194,  0.0270, -0.0162, -0.0174, -0.0116,
+        -0.0330, -0.0313], device='cuda:0'), grad: tensor([ 1.4072e-06,  9.9652e-08,  1.3039e-08,  8.7544e-08, -1.4165e-06,
+         5.4948e-08, -1.5860e-06,  2.7008e-08,  6.5193e-08,  1.2564e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 386, time 216.74, cls_loss 0.0009 cls_loss_mapping 0.0017 cls_loss_causal 0.4501 re_mapping 0.0033 re_causal 0.0098 /// teacc 99.13 lr 0.00010000
+Epoch 388, weight, value: tensor([[-0.3287, -0.1807, -0.0957,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1475,  0.1424, -0.0900,  ...,  0.0246, -0.0683, -0.0819],
+        [ 0.1436, -0.1832, -0.1851,  ..., -0.0709,  0.1709, -0.0337],
+        ...,
+        [-0.1876, -0.1086,  0.1318,  ...,  0.0308, -0.2259, -0.0030],
+        [ 0.1092, -0.0115, -0.3318,  ..., -0.0693,  0.1806, -0.0379],
+        [-0.2330, -0.1804,  0.0372,  ..., -0.0168, -0.2621, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 1.3039e-08,  1.8626e-09, -8.3819e-09,  ...,  0.0000e+00,
+         -5.0850e-07,  0.0000e+00],
+        [ 2.7940e-09, -2.4214e-07,  9.3132e-10,  ...,  0.0000e+00,
+          1.5832e-08,  0.0000e+00],
+        [ 0.0000e+00,  2.7940e-08,  1.8626e-09,  ...,  0.0000e+00,
+          7.7300e-08,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  1.4063e-07,  2.7940e-09,  ...,  0.0000e+00,
+          4.7497e-08,  0.0000e+00],
+        [-4.1910e-08,  2.3283e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -1.3039e-08,  0.0000e+00],
+        [ 1.1176e-08,  8.0653e-07,  1.1735e-07,  ...,  0.0000e+00,
+          3.9488e-07,  0.0000e+00]], device='cuda:0')
+Epoch 388, bias, value: tensor([-0.0067,  0.0133, -0.0234,  0.0194,  0.0286, -0.0162, -0.0175, -0.0114,
+        -0.0327, -0.0329], device='cuda:0'), grad: tensor([-5.9605e-06, -5.1409e-07,  8.0187e-07, -3.0827e-07, -2.1551e-06,
+         4.7870e-07,  2.6170e-07, -1.1977e-06,  2.6077e-08,  8.5533e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 387, time 216.88, cls_loss 0.0006 cls_loss_mapping 0.0010 cls_loss_causal 0.4696 re_mapping 0.0033 re_causal 0.0101 /// teacc 99.06 lr 0.00010000
+Epoch 389, weight, value: tensor([[-0.3287, -0.1809, -0.0956,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1476,  0.1425, -0.0928,  ...,  0.0247, -0.0683, -0.0819],
+        [ 0.1438, -0.1833, -0.1851,  ..., -0.0710,  0.1711, -0.0337],
+        ...,
+        [-0.1877, -0.1086,  0.1319,  ...,  0.0307, -0.2260, -0.0030],
+        [ 0.1093, -0.0117, -0.3319,  ..., -0.0693,  0.1807, -0.0380],
+        [-0.2333, -0.1809,  0.0372,  ..., -0.0168, -0.2621, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10, -1.5832e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -3.0734e-08,  0.0000e+00],
+        [ 0.0000e+00, -1.9558e-08,  0.0000e+00,  ...,  0.0000e+00,
+          2.1420e-08,  0.0000e+00],
+        [-9.3132e-10,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -4.6566e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  2.3283e-08,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  9.4064e-08,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00]], device='cuda:0')
+Epoch 389, bias, value: tensor([-0.0064,  0.0134, -0.0234,  0.0193,  0.0292, -0.0161, -0.0175, -0.0114,
+        -0.0327, -0.0337], device='cuda:0'), grad: tensor([-1.9185e-07,  6.2399e-08, -5.5879e-09,  2.2352e-08, -1.7136e-07,
+         7.4506e-09,  4.1910e-08,  4.1910e-08,  2.2352e-08,  1.7602e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 388, time 216.55, cls_loss 0.0008 cls_loss_mapping 0.0014 cls_loss_causal 0.4436 re_mapping 0.0031 re_causal 0.0095 /// teacc 99.05 lr 0.00010000
+Epoch 390, weight, value: tensor([[-0.3287, -0.1811, -0.0956,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1477,  0.1427, -0.0935,  ...,  0.0247, -0.0681, -0.0819],
+        [ 0.1446, -0.1834, -0.1850,  ..., -0.0710,  0.1719, -0.0337],
+        ...,
+        [-0.1881, -0.1087,  0.1319,  ...,  0.0307, -0.2267, -0.0030],
+        [ 0.1095, -0.0122, -0.3321,  ..., -0.0693,  0.1810, -0.0380],
+        [-0.2337, -0.1810,  0.0372,  ..., -0.0168, -0.2621, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -3.7253e-09,  0.0000e+00],
+        [ 2.7940e-09,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 390, bias, value: tensor([-0.0063,  0.0134, -0.0230,  0.0192,  0.0292, -0.0160, -0.0177, -0.0115,
+        -0.0331, -0.0337], device='cuda:0'), grad: tensor([ 1.5739e-07,  1.7602e-07,  1.0245e-08,  7.2643e-08,  4.8243e-06,
+         4.8429e-08, -3.9116e-07,  7.6741e-06,  4.4052e-07, -1.3039e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 389, time 216.63, cls_loss 0.0010 cls_loss_mapping 0.0020 cls_loss_causal 0.4597 re_mapping 0.0032 re_causal 0.0096 /// teacc 99.02 lr 0.00010000
+Epoch 391, weight, value: tensor([[-0.3288, -0.1818, -0.0956,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1480,  0.1431, -0.0938,  ...,  0.0247, -0.0682, -0.0819],
+        [ 0.1449, -0.1837, -0.1851,  ..., -0.0710,  0.1723, -0.0337],
+        ...,
+        [-0.1890, -0.1088,  0.1322,  ...,  0.0307, -0.2267, -0.0030],
+        [ 0.1098, -0.0145, -0.3325,  ..., -0.0693,  0.1807, -0.0380],
+        [-0.2339, -0.1816,  0.0372,  ..., -0.0168, -0.2622, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10, -9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [-6.5193e-09,  0.0000e+00, -2.7940e-09,  ...,  0.0000e+00,
+         -8.3819e-09,  0.0000e+00],
+        ...,
+        [ 2.7940e-09,  5.5879e-09,  9.3132e-10,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [-4.6566e-09,  1.8626e-09,  9.3132e-10,  ...,  0.0000e+00,
+         -8.3819e-09,  0.0000e+00],
+        [ 0.0000e+00,  2.1420e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 391, bias, value: tensor([-0.0063,  0.0136, -0.0242,  0.0190,  0.0294, -0.0160, -0.0177, -0.0106,
+        -0.0353, -0.0344], device='cuda:0'), grad: tensor([-2.6077e-08,  2.2352e-08, -2.7008e-08,  2.8871e-08, -2.2352e-08,
+         8.3819e-09,  2.6077e-08,  1.0245e-08,  8.3819e-09, -2.5146e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 390, time 216.60, cls_loss 0.0009 cls_loss_mapping 0.0011 cls_loss_causal 0.4484 re_mapping 0.0033 re_causal 0.0097 /// teacc 99.06 lr 0.00010000
+Epoch 392, weight, value: tensor([[-0.3288, -0.1821, -0.0956,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1480,  0.1433, -0.0940,  ...,  0.0247, -0.0660, -0.0819],
+        [ 0.1454, -0.1840, -0.1850,  ..., -0.0710,  0.1720, -0.0337],
+        ...,
+        [-0.1892, -0.1090,  0.1322,  ...,  0.0307, -0.2272, -0.0030],
+        [ 0.1097, -0.0146, -0.3328,  ..., -0.0693,  0.1805, -0.0380],
+        [-0.2339, -0.1817,  0.0372,  ..., -0.0168, -0.2622, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-09,  4.6566e-09,  9.3132e-10,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [ 1.9558e-08,  2.7940e-09,  9.3132e-10,  ...,  0.0000e+00,
+          1.1176e-08,  0.0000e+00],
+        [-1.7695e-08,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -2.8871e-08,  0.0000e+00],
+        ...,
+        [-9.1270e-08, -3.7253e-09,  3.7253e-09,  ...,  0.0000e+00,
+          8.3819e-09,  0.0000e+00],
+        [ 1.1642e-07,  3.2596e-08,  9.3132e-10,  ...,  0.0000e+00,
+          4.1910e-08,  0.0000e+00],
+        [ 1.8626e-09, -4.6566e-09, -4.8429e-08,  ...,  0.0000e+00,
+          1.9558e-08,  0.0000e+00]], device='cuda:0')
+Epoch 392, bias, value: tensor([-0.0063,  0.0137, -0.0247,  0.0192,  0.0294, -0.0164, -0.0178, -0.0108,
+        -0.0360, -0.0342], device='cuda:0'), grad: tensor([ 8.2888e-08,  1.7416e-07, -1.1176e-08, -3.0454e-07,  1.5320e-06,
+         2.5425e-07, -1.4715e-07, -3.3807e-07,  6.3144e-07, -1.8636e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 391, time 216.81, cls_loss 0.0009 cls_loss_mapping 0.0019 cls_loss_causal 0.4718 re_mapping 0.0031 re_causal 0.0097 /// teacc 99.12 lr 0.00010000
+Epoch 393, weight, value: tensor([[-0.3288, -0.1812, -0.0960,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1484,  0.1435, -0.0943,  ...,  0.0247, -0.0655, -0.0819],
+        [ 0.1477, -0.1856, -0.1850,  ..., -0.0710,  0.1730, -0.0337],
+        ...,
+        [-0.1893, -0.1090,  0.1326,  ...,  0.0307, -0.2275, -0.0030],
+        [ 0.1097, -0.0146, -0.3333,  ..., -0.0693,  0.1804, -0.0380],
+        [-0.2340, -0.1817,  0.0372,  ..., -0.0168, -0.2622, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          6.5193e-09,  0.0000e+00],
+        [ 1.3970e-08, -6.5193e-09,  4.6566e-09,  ...,  0.0000e+00,
+          1.8626e-08,  0.0000e+00],
+        [-2.2817e-07,  9.3132e-10,  1.8626e-08,  ...,  0.0000e+00,
+         -3.3807e-07,  0.0000e+00],
+        ...,
+        [ 1.6019e-07,  9.3132e-10, -2.6077e-08,  ...,  0.0000e+00,
+          2.4401e-07,  0.0000e+00],
+        [ 5.5879e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [ 3.7253e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00]], device='cuda:0')
+Epoch 393, bias, value: tensor([-0.0061,  0.0138, -0.0242,  0.0191,  0.0292, -0.0164, -0.0183, -0.0105,
+        -0.0364, -0.0344], device='cuda:0'), grad: tensor([ 4.7497e-08,  1.8254e-07, -1.0459e-06,  6.7055e-08,  2.3190e-07,
+         5.2154e-08,  1.9558e-08,  3.6415e-07,  4.3772e-08,  4.5635e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 392, time 216.51, cls_loss 0.0007 cls_loss_mapping 0.0011 cls_loss_causal 0.4516 re_mapping 0.0034 re_causal 0.0099 /// teacc 99.11 lr 0.00010000
+Epoch 394, weight, value: tensor([[-0.3289, -0.1816, -0.0960,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1486,  0.1439, -0.0944,  ...,  0.0247, -0.0657, -0.0819],
+        [ 0.1490, -0.1858, -0.1851,  ..., -0.0710,  0.1741, -0.0337],
+        ...,
+        [-0.1894, -0.1090,  0.1327,  ...,  0.0307, -0.2276, -0.0030],
+        [ 0.1097, -0.0147, -0.3333,  ..., -0.0693,  0.1804, -0.0380],
+        [-0.2341, -0.1819,  0.0372,  ..., -0.0168, -0.2622, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -1.9558e-08,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [-9.3132e-10,  9.3132e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.8626e-09,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  1.3039e-08,  9.3132e-10,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 5.2154e-08,  2.7940e-09, -9.3132e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 394, bias, value: tensor([-0.0062,  0.0139, -0.0235,  0.0191,  0.0290, -0.0169, -0.0184, -0.0105,
+        -0.0366, -0.0341], device='cuda:0'), grad: tensor([ 2.2352e-08,  3.7253e-09,  1.6764e-08,  8.9966e-07,  1.2657e-06,
+         3.6322e-08,  4.0978e-08,  6.7055e-08,  8.8476e-08, -2.4531e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 393, time 216.94, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.4340 re_mapping 0.0033 re_causal 0.0101 /// teacc 99.01 lr 0.00010000
+Epoch 395, weight, value: tensor([[-0.3289, -0.1826, -0.0960,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1487,  0.1439, -0.0943,  ...,  0.0247, -0.0657, -0.0819],
+        [ 0.1491, -0.1860, -0.1851,  ..., -0.0710,  0.1742, -0.0337],
+        ...,
+        [-0.1896, -0.1091,  0.1328,  ...,  0.0307, -0.2279, -0.0030],
+        [ 0.1097, -0.0148, -0.3333,  ..., -0.0693,  0.1806, -0.0380],
+        [-0.2342, -0.1823,  0.0372,  ..., -0.0168, -0.2622, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -8.3819e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.3970e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-2.7940e-09,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -5.5879e-09,  0.0000e+00],
+        ...,
+        [ 2.7940e-09,  5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-09,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 3.7253e-09,  5.7556e-07,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 395, bias, value: tensor([-0.0061,  0.0139, -0.0235,  0.0186,  0.0291, -0.0157, -0.0184, -0.0105,
+        -0.0366, -0.0342], device='cuda:0'), grad: tensor([-1.0151e-07,  5.4948e-08, -6.5193e-09,  1.1083e-07, -1.2731e-06,
+        -9.1270e-08,  8.6613e-08,  5.0291e-08,  8.3819e-09,  1.1548e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 394, time 216.84, cls_loss 0.0007 cls_loss_mapping 0.0011 cls_loss_causal 0.4479 re_mapping 0.0033 re_causal 0.0100 /// teacc 99.10 lr 0.00010000
+Epoch 396, weight, value: tensor([[-0.3290, -0.1824, -0.0960,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1500,  0.1437, -0.0945,  ...,  0.0247, -0.0659, -0.0819],
+        [ 0.1495, -0.1869, -0.1851,  ..., -0.0710,  0.1744, -0.0337],
+        ...,
+        [-0.1889, -0.1087,  0.1328,  ...,  0.0307, -0.2282, -0.0030],
+        [ 0.1097, -0.0150, -0.3334,  ..., -0.0693,  0.1808, -0.0380],
+        [-0.2344, -0.1826,  0.0372,  ..., -0.0168, -0.2622, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.0151e-07,  0.0000e+00,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [ 1.8626e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          5.7090e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  6.5193e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.4398e-06,  0.0000e+00],
+        [-1.8626e-09,  9.4995e-08,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.8533e-07, -1.8626e-09,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 396, bias, value: tensor([-0.0062,  0.0136, -0.0238,  0.0187,  0.0292, -0.0158, -0.0184, -0.0102,
+        -0.0367, -0.0342], device='cuda:0'), grad: tensor([ 6.2399e-08,  2.9337e-07,  6.1207e-06, -2.2426e-05, -9.5740e-07,
+         6.3609e-07,  3.1665e-08,  1.5527e-05,  2.6263e-07,  4.5821e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 395, time 216.79, cls_loss 0.0008 cls_loss_mapping 0.0010 cls_loss_causal 0.4551 re_mapping 0.0030 re_causal 0.0095 /// teacc 99.12 lr 0.00010000
+Epoch 397, weight, value: tensor([[-0.3291, -0.1828, -0.0963,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1502,  0.1437, -0.0949,  ...,  0.0247, -0.0659, -0.0819],
+        [ 0.1500, -0.1875, -0.1849,  ..., -0.0710,  0.1748, -0.0337],
+        ...,
+        [-0.1892, -0.1087,  0.1326,  ...,  0.0307, -0.2287, -0.0030],
+        [ 0.1097, -0.0151, -0.3341,  ..., -0.0693,  0.1808, -0.0380],
+        [-0.2347, -0.1832,  0.0373,  ..., -0.0168, -0.2622, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 1.2107e-08,  2.7940e-09,  2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  1.8626e-09,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-1.8626e-09,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -1.8626e-09,  0.0000e+00],
+        ...,
+        [ 1.7695e-08,  2.7940e-09,  2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.0245e-08,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [-5.4017e-08,  2.1420e-08, -1.3039e-08,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 397, bias, value: tensor([-0.0062,  0.0136, -0.0238,  0.0188,  0.0294, -0.0158, -0.0186, -0.0103,
+        -0.0368, -0.0343], device='cuda:0'), grad: tensor([ 1.0151e-07,  3.6322e-08,  3.7253e-09,  1.2759e-07,  6.8918e-08,
+        -2.0675e-07,  9.7789e-08,  1.1642e-07,  5.5879e-08, -4.0699e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 396, time 216.56, cls_loss 0.0009 cls_loss_mapping 0.0020 cls_loss_causal 0.4790 re_mapping 0.0031 re_causal 0.0097 /// teacc 99.08 lr 0.00010000
+Epoch 398, weight, value: tensor([[-0.3293, -0.1856, -0.0964,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1499,  0.1439, -0.0947,  ...,  0.0247, -0.0652, -0.0819],
+        [ 0.1503, -0.1877, -0.1838,  ..., -0.0710,  0.1755, -0.0337],
+        ...,
+        [-0.1894, -0.1088,  0.1325,  ...,  0.0307, -0.2291, -0.0030],
+        [ 0.1097, -0.0160, -0.3368,  ..., -0.0693,  0.1801, -0.0380],
+        [-0.2355, -0.1836,  0.0373,  ..., -0.0168, -0.2623, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-08,  0.0000e+00],
+        [ 0.0000e+00,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          8.3819e-09,  0.0000e+00],
+        ...,
+        [ 3.7253e-09,  1.1176e-08,  9.3132e-10,  ...,  0.0000e+00,
+          2.1420e-08,  0.0000e+00],
+        [-3.7253e-09,  5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [ 0.0000e+00,  7.3574e-08, -3.1665e-08,  ...,  0.0000e+00,
+          1.1176e-08,  0.0000e+00]], device='cuda:0')
+Epoch 398, bias, value: tensor([-0.0063,  0.0136, -0.0235,  0.0190,  0.0294, -0.0167, -0.0180, -0.0103,
+        -0.0375, -0.0345], device='cuda:0'), grad: tensor([ 1.3039e-08,  7.8231e-08,  3.0734e-08, -4.7311e-07,  5.8394e-07,
+         2.4959e-07,  2.6077e-08,  1.0338e-07,  3.6322e-08, -6.3423e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 397, time 216.86, cls_loss 0.0007 cls_loss_mapping 0.0013 cls_loss_causal 0.4652 re_mapping 0.0035 re_causal 0.0104 /// teacc 99.06 lr 0.00010000
+Epoch 399, weight, value: tensor([[-0.3293, -0.1858, -0.0965,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1533,  0.1438, -0.0949,  ...,  0.0247, -0.0675, -0.0819],
+        [ 0.1491, -0.1883, -0.1838,  ..., -0.0710,  0.1749, -0.0337],
+        ...,
+        [-0.1882, -0.1087,  0.1330,  ...,  0.0307, -0.2291, -0.0030],
+        [ 0.1120, -0.0157, -0.3375,  ..., -0.0693,  0.1826, -0.0380],
+        [-0.2357, -0.1838,  0.0373,  ..., -0.0168, -0.2623, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 1.4901e-08, -1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          3.6322e-08,  0.0000e+00],
+        [-2.7008e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -4.2841e-08,  0.0000e+00],
+        ...,
+        [ 6.5193e-09,  2.7940e-09,  1.8626e-09,  ...,  0.0000e+00,
+          4.4517e-07,  0.0000e+00],
+        [-4.6566e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -4.6566e-09,  0.0000e+00],
+        [ 0.0000e+00,  3.1665e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 399, bias, value: tensor([-0.0065,  0.0133, -0.0242,  0.0191,  0.0294, -0.0163, -0.0180, -0.0101,
+        -0.0353, -0.0345], device='cuda:0'), grad: tensor([-5.8673e-08,  1.2107e-07,  2.5053e-07, -5.2229e-06, -6.0536e-08,
+         1.3039e-07,  6.6124e-08,  4.7274e-06, -4.6566e-09,  5.4017e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 398, time 216.57, cls_loss 0.0007 cls_loss_mapping 0.0015 cls_loss_causal 0.4677 re_mapping 0.0034 re_causal 0.0102 /// teacc 99.02 lr 0.00010000
+Epoch 400, weight, value: tensor([[-0.3294, -0.1859, -0.0965,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1541,  0.1443, -0.0944,  ...,  0.0246, -0.0686, -0.0819],
+        [ 0.1487, -0.1886, -0.1838,  ..., -0.0711,  0.1749, -0.0337],
+        ...,
+        [-0.1888, -0.1091,  0.1329,  ...,  0.0307, -0.2300, -0.0030],
+        [ 0.1133, -0.0154, -0.3376,  ..., -0.0693,  0.1842, -0.0380],
+        [-0.2359, -0.1839,  0.0373,  ..., -0.0168, -0.2623, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -1.2107e-07,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  2.6077e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-1.8626e-09,  7.4506e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-09, -3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 400, bias, value: tensor([-0.0065,  0.0133, -0.0241,  0.0191,  0.0294, -0.0164, -0.0181, -0.0103,
+        -0.0339, -0.0346], device='cuda:0'), grad: tensor([ 3.9116e-08, -2.6263e-07,  5.5879e-09, -2.2352e-08,  7.3016e-07,
+         6.8918e-08, -1.6950e-07,  1.1921e-07,  4.6566e-08, -5.7369e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 399, time 216.67, cls_loss 0.0008 cls_loss_mapping 0.0010 cls_loss_causal 0.4849 re_mapping 0.0034 re_causal 0.0103 /// teacc 98.98 lr 0.00001000
+Epoch 401, weight, value: tensor([[-0.3294, -0.1857, -0.0965,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1543,  0.1446, -0.0945,  ...,  0.0246, -0.0687, -0.0819],
+        [ 0.1489, -0.1886, -0.1839,  ..., -0.0711,  0.1756, -0.0337],
+        ...,
+        [-0.1889, -0.1093,  0.1330,  ...,  0.0307, -0.2305, -0.0030],
+        [ 0.1134, -0.0155, -0.3376,  ..., -0.0693,  0.1843, -0.0380],
+        [-0.2363, -0.1809,  0.0372,  ..., -0.0168, -0.2623, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [-1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -7.4506e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 3.7253e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -3.7253e-09,  0.0000e+00],
+        [ 1.8626e-09,  4.6566e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 401, bias, value: tensor([-0.0063,  0.0134, -0.0236,  0.0191,  0.0265, -0.0165, -0.0182, -0.0104,
+        -0.0340, -0.0317], device='cuda:0'), grad: tensor([ 3.7253e-09,  1.3039e-08, -2.6077e-08,  2.2352e-08, -1.2666e-07,
+        -1.4342e-07,  1.2480e-07,  1.8626e-08, -1.8626e-09,  1.1921e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 400, time 216.76, cls_loss 0.0006 cls_loss_mapping 0.0009 cls_loss_causal 0.4528 re_mapping 0.0032 re_causal 0.0100 /// teacc 99.00 lr 0.00001000
+Epoch 402, weight, value: tensor([[-0.3294, -0.1857, -0.0965,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1543,  0.1446, -0.0945,  ...,  0.0246, -0.0687, -0.0819],
+        [ 0.1490, -0.1886, -0.1839,  ..., -0.0711,  0.1756, -0.0337],
+        ...,
+        [-0.1890, -0.1093,  0.1330,  ...,  0.0307, -0.2306, -0.0030],
+        [ 0.1133, -0.0155, -0.3376,  ..., -0.0693,  0.1843, -0.0380],
+        [-0.2363, -0.1809,  0.0372,  ..., -0.0168, -0.2623, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 402, bias, value: tensor([-0.0063,  0.0134, -0.0235,  0.0191,  0.0265, -0.0165, -0.0182, -0.0104,
+        -0.0340, -0.0317], device='cuda:0'), grad: tensor([-6.5193e-08, -1.8626e-09,  5.5879e-09,  1.1176e-08, -1.8626e-09,
+        -3.7253e-09,  2.2352e-08,  3.7253e-09,  7.4506e-09,  2.9802e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 401, time 217.01, cls_loss 0.0006 cls_loss_mapping 0.0006 cls_loss_causal 0.4442 re_mapping 0.0031 re_causal 0.0097 /// teacc 99.02 lr 0.00001000
+Epoch 403, weight, value: tensor([[-0.3294, -0.1858, -0.0965,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1543,  0.1446, -0.0945,  ...,  0.0246, -0.0687, -0.0819],
+        [ 0.1490, -0.1886, -0.1839,  ..., -0.0711,  0.1757, -0.0337],
+        ...,
+        [-0.1890, -0.1093,  0.1330,  ...,  0.0307, -0.2306, -0.0030],
+        [ 0.1133, -0.0155, -0.3376,  ..., -0.0693,  0.1843, -0.0380],
+        [-0.2363, -0.1809,  0.0372,  ..., -0.0168, -0.2623, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  1.8626e-09,  ...,  0.0000e+00,
+         -1.8626e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.8626e-09,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.5087e-07,  2.4587e-07,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 403, bias, value: tensor([-0.0063,  0.0134, -0.0235,  0.0191,  0.0265, -0.0165, -0.0182, -0.0104,
+        -0.0340, -0.0317], device='cuda:0'), grad: tensor([ 7.4506e-09,  4.0978e-08,  1.8626e-09,  0.0000e+00, -9.9465e-07,
+         1.1176e-08,  7.4506e-09, -2.9616e-07,  1.1176e-08,  1.2163e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 402, time 216.88, cls_loss 0.0006 cls_loss_mapping 0.0005 cls_loss_causal 0.4326 re_mapping 0.0030 re_causal 0.0095 /// teacc 98.99 lr 0.00001000
+Epoch 404, weight, value: tensor([[-0.3294, -0.1859, -0.0966,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1543,  0.1446, -0.0945,  ...,  0.0246, -0.0687, -0.0819],
+        [ 0.1490, -0.1886, -0.1839,  ..., -0.0711,  0.1758, -0.0337],
+        ...,
+        [-0.1890, -0.1093,  0.1330,  ...,  0.0307, -0.2307, -0.0030],
+        [ 0.1133, -0.0156, -0.3376,  ..., -0.0693,  0.1843, -0.0380],
+        [-0.2363, -0.1809,  0.0372,  ..., -0.0168, -0.2623, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -1.1176e-08,  0.0000e+00,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00, -1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.1176e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 404, bias, value: tensor([-0.0063,  0.0134, -0.0234,  0.0191,  0.0265, -0.0165, -0.0182, -0.0104,
+        -0.0341, -0.0317], device='cuda:0'), grad: tensor([-5.2340e-07,  1.6764e-08, -5.7742e-08,  2.7940e-08,  5.2154e-08,
+         0.0000e+00,  4.5821e-07,  2.6077e-08,  1.3039e-08, -1.3039e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 403, time 216.80, cls_loss 0.0006 cls_loss_mapping 0.0005 cls_loss_causal 0.4317 re_mapping 0.0029 re_causal 0.0093 /// teacc 99.01 lr 0.00001000
+Epoch 405, weight, value: tensor([[-0.3294, -0.1859, -0.0966,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1543,  0.1446, -0.0945,  ...,  0.0246, -0.0687, -0.0819],
+        [ 0.1491, -0.1887, -0.1839,  ..., -0.0711,  0.1759, -0.0337],
+        ...,
+        [-0.1890, -0.1093,  0.1330,  ...,  0.0307, -0.2308, -0.0030],
+        [ 0.1133, -0.0156, -0.3376,  ..., -0.0693,  0.1843, -0.0380],
+        [-0.2364, -0.1809,  0.0372,  ..., -0.0168, -0.2623, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.4995e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -2.9616e-07,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-08,  0.0000e+00],
+        [-5.5879e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.3039e-08,  0.0000e+00],
+        [ 0.0000e+00,  2.1048e-07,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 405, bias, value: tensor([-0.0063,  0.0134, -0.0233,  0.0191,  0.0265, -0.0165, -0.0182, -0.0104,
+        -0.0341, -0.0317], device='cuda:0'), grad: tensor([ 2.8312e-07,  1.9372e-07, -5.6438e-07,  2.1234e-07, -4.9546e-07,
+         1.7509e-07,  5.5879e-09,  1.1921e-07, -1.6764e-08,  9.4995e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 404, time 216.90, cls_loss 0.0006 cls_loss_mapping 0.0005 cls_loss_causal 0.4228 re_mapping 0.0029 re_causal 0.0094 /// teacc 99.01 lr 0.00001000
+Epoch 406, weight, value: tensor([[-0.3294, -0.1859, -0.0966,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1543,  0.1447, -0.0944,  ...,  0.0246, -0.0687, -0.0819],
+        [ 0.1491, -0.1887, -0.1839,  ..., -0.0711,  0.1760, -0.0337],
+        ...,
+        [-0.1891, -0.1093,  0.1330,  ...,  0.0307, -0.2309, -0.0030],
+        [ 0.1133, -0.0156, -0.3376,  ..., -0.0693,  0.1843, -0.0380],
+        [-0.2364, -0.1809,  0.0372,  ..., -0.0168, -0.2623, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [-1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -9.3132e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 7.4506e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 406, bias, value: tensor([-0.0063,  0.0135, -0.0233,  0.0191,  0.0265, -0.0165, -0.0182, -0.0104,
+        -0.0341, -0.0317], device='cuda:0'), grad: tensor([ 3.7253e-09,  9.3132e-09, -2.0489e-08,  3.7253e-08,  2.9802e-08,
+        -2.9802e-08,  1.1176e-08, -2.0489e-08,  4.0978e-08, -5.7742e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 405, time 216.92, cls_loss 0.0006 cls_loss_mapping 0.0005 cls_loss_causal 0.4601 re_mapping 0.0029 re_causal 0.0096 /// teacc 99.01 lr 0.00001000
+Epoch 407, weight, value: tensor([[-0.3294, -0.1859, -0.0966,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1543,  0.1447, -0.0944,  ...,  0.0246, -0.0687, -0.0819],
+        [ 0.1492, -0.1887, -0.1839,  ..., -0.0711,  0.1761, -0.0337],
+        ...,
+        [-0.1891, -0.1093,  0.1330,  ...,  0.0307, -0.2310, -0.0030],
+        [ 0.1133, -0.0156, -0.3376,  ..., -0.0693,  0.1843, -0.0380],
+        [-0.2365, -0.1810,  0.0372,  ..., -0.0168, -0.2623, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00],
+        [-5.0291e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.3411e-07,  0.0000e+00],
+        ...,
+        [ 8.0094e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-08,  0.0000e+00],
+        [-5.7742e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -8.0094e-08,  0.0000e+00],
+        [ 1.3039e-08,  9.3132e-09,  1.8626e-09,  ...,  0.0000e+00,
+          4.8429e-08,  0.0000e+00]], device='cuda:0')
+Epoch 407, bias, value: tensor([-0.0063,  0.0135, -0.0232,  0.0191,  0.0265, -0.0165, -0.0182, -0.0105,
+        -0.0341, -0.0317], device='cuda:0'), grad: tensor([-7.0781e-08,  1.6764e-08, -2.9802e-07,  6.7055e-08, -9.3132e-09,
+         8.9407e-08,  1.8626e-09,  2.3283e-07, -1.8440e-07,  1.5460e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 406, time 216.95, cls_loss 0.0006 cls_loss_mapping 0.0005 cls_loss_causal 0.4415 re_mapping 0.0027 re_causal 0.0093 /// teacc 99.02 lr 0.00001000
+Epoch 408, weight, value: tensor([[-0.3294, -0.1860, -0.0966,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1543,  0.1447, -0.0944,  ...,  0.0246, -0.0687, -0.0819],
+        [ 0.1492, -0.1887, -0.1839,  ..., -0.0711,  0.1762, -0.0337],
+        ...,
+        [-0.1891, -0.1093,  0.1330,  ...,  0.0307, -0.2310, -0.0030],
+        [ 0.1133, -0.0156, -0.3376,  ..., -0.0693,  0.1843, -0.0380],
+        [-0.2365, -0.1810,  0.0372,  ..., -0.0168, -0.2623, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [ 1.8626e-09, -1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [-2.6077e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -6.1467e-08,  0.0000e+00],
+        ...,
+        [ 3.7253e-09,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-09,  0.0000e+00],
+        [-3.7253e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 408, bias, value: tensor([-0.0063,  0.0135, -0.0231,  0.0191,  0.0265, -0.0166, -0.0182, -0.0105,
+        -0.0341, -0.0317], device='cuda:0'), grad: tensor([ 4.0978e-08,  8.0094e-08, -1.9930e-07,  1.0058e-07,  5.0291e-08,
+         6.3330e-08, -1.1176e-08, -1.0617e-07, -1.8626e-09, -1.4901e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 407, time 216.72, cls_loss 0.0006 cls_loss_mapping 0.0005 cls_loss_causal 0.4232 re_mapping 0.0027 re_causal 0.0091 /// teacc 99.05 lr 0.00001000
+Epoch 409, weight, value: tensor([[-0.3294, -0.1861, -0.0966,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1544,  0.1447, -0.0944,  ...,  0.0246, -0.0688, -0.0819],
+        [ 0.1492, -0.1887, -0.1839,  ..., -0.0711,  0.1762, -0.0337],
+        ...,
+        [-0.1891, -0.1093,  0.1330,  ...,  0.0306, -0.2311, -0.0030],
+        [ 0.1133, -0.0156, -0.3376,  ..., -0.0693,  0.1843, -0.0380],
+        [-0.2365, -0.1810,  0.0372,  ..., -0.0168, -0.2623, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  1.8626e-09,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [-1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.8626e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.8626e-09, -5.5879e-09,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 1.8626e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.6764e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 409, bias, value: tensor([-0.0063,  0.0134, -0.0231,  0.0191,  0.0265, -0.0166, -0.0182, -0.0104,
+        -0.0342, -0.0318], device='cuda:0'), grad: tensor([ 1.4901e-08,  9.3132e-09, -3.5390e-08, -7.4506e-09, -6.3330e-08,
+         3.9116e-08, -9.3132e-09, -1.6764e-08,  3.7253e-09,  5.9605e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 408, time 216.75, cls_loss 0.0006 cls_loss_mapping 0.0005 cls_loss_causal 0.4232 re_mapping 0.0027 re_causal 0.0093 /// teacc 99.04 lr 0.00001000
+Epoch 410, weight, value: tensor([[-0.3294, -0.1861, -0.0966,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1544,  0.1447, -0.0945,  ...,  0.0246, -0.0688, -0.0819],
+        [ 0.1493, -0.1887, -0.1839,  ..., -0.0711,  0.1763, -0.0337],
+        ...,
+        [-0.1891, -0.1093,  0.1330,  ...,  0.0306, -0.2311, -0.0030],
+        [ 0.1134, -0.0156, -0.3376,  ..., -0.0693,  0.1843, -0.0380],
+        [-0.2366, -0.1810,  0.0372,  ..., -0.0168, -0.2623, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00, -7.4506e-09,  0.0000e+00,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -9.3132e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [ 7.4506e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 3.7253e-09,  3.5390e-08,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 410, bias, value: tensor([-0.0063,  0.0134, -0.0230,  0.0191,  0.0265, -0.0166, -0.0182, -0.0104,
+        -0.0342, -0.0318], device='cuda:0'), grad: tensor([ 2.2352e-08,  4.6566e-08, -7.4506e-08, -3.7253e-08, -1.0245e-07,
+        -4.1164e-07,  3.4645e-07,  6.5193e-08,  2.0489e-08,  1.1921e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 409, time 216.65, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4414 re_mapping 0.0028 re_causal 0.0093 /// teacc 99.06 lr 0.00001000
+Epoch 411, weight, value: tensor([[-0.3294, -0.1862, -0.0966,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1544,  0.1447, -0.0945,  ...,  0.0246, -0.0688, -0.0819],
+        [ 0.1493, -0.1887, -0.1839,  ..., -0.0711,  0.1764, -0.0337],
+        ...,
+        [-0.1891, -0.1093,  0.1331,  ...,  0.0306, -0.2311, -0.0030],
+        [ 0.1134, -0.0156, -0.3376,  ..., -0.0693,  0.1843, -0.0380],
+        [-0.2366, -0.1810,  0.0372,  ..., -0.0168, -0.2623, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-08,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.6764e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8813e-07,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          2.4214e-08,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09, -1.8626e-09,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 411, bias, value: tensor([-0.0063,  0.0134, -0.0230,  0.0191,  0.0265, -0.0166, -0.0182, -0.0104,
+        -0.0341, -0.0318], device='cuda:0'), grad: tensor([ 7.4506e-09,  1.1362e-07, -4.6566e-08, -1.0692e-06,  6.7055e-08,
+         8.9407e-08,  0.0000e+00,  7.4133e-07,  1.0990e-07, -3.7253e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 410, time 216.77, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4148 re_mapping 0.0026 re_causal 0.0092 /// teacc 99.04 lr 0.00001000
+Epoch 412, weight, value: tensor([[-0.3294, -0.1862, -0.0966,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1544,  0.1447, -0.0945,  ...,  0.0246, -0.0688, -0.0819],
+        [ 0.1493, -0.1888, -0.1839,  ..., -0.0711,  0.1764, -0.0337],
+        ...,
+        [-0.1891, -0.1093,  0.1331,  ...,  0.0306, -0.2312, -0.0030],
+        [ 0.1134, -0.0156, -0.3376,  ..., -0.0693,  0.1843, -0.0380],
+        [-0.2366, -0.1810,  0.0372,  ..., -0.0168, -0.2623, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.8626e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.4214e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 412, bias, value: tensor([-0.0063,  0.0134, -0.0230,  0.0192,  0.0265, -0.0166, -0.0182, -0.0104,
+        -0.0342, -0.0318], device='cuda:0'), grad: tensor([-1.6764e-08,  3.7253e-09, -5.5879e-09, -3.7253e-08, -2.7940e-08,
+         2.0489e-08,  9.3132e-09,  2.6077e-08,  3.7253e-09,  2.4214e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 411, time 216.87, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.3975 re_mapping 0.0027 re_causal 0.0090 /// teacc 99.08 lr 0.00001000
+Epoch 413, weight, value: tensor([[-0.3294, -0.1862, -0.0966,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1544,  0.1447, -0.0945,  ...,  0.0246, -0.0688, -0.0819],
+        [ 0.1493, -0.1888, -0.1839,  ..., -0.0711,  0.1764, -0.0337],
+        ...,
+        [-0.1891, -0.1094,  0.1331,  ...,  0.0306, -0.2312, -0.0030],
+        [ 0.1134, -0.0156, -0.3376,  ..., -0.0693,  0.1843, -0.0380],
+        [-0.2367, -0.1810,  0.0372,  ..., -0.0168, -0.2623, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -1.1176e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.6764e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 413, bias, value: tensor([-0.0062,  0.0134, -0.0229,  0.0192,  0.0265, -0.0166, -0.0182, -0.0105,
+        -0.0342, -0.0318], device='cuda:0'), grad: tensor([ 0.0000e+00, -2.7940e-08,  9.3132e-09,  5.0291e-08, -4.4703e-08,
+        -5.4017e-08,  5.5879e-09,  9.3132e-09,  5.5879e-09,  4.2841e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 412, time 216.53, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4552 re_mapping 0.0026 re_causal 0.0095 /// teacc 99.05 lr 0.00001000
+Epoch 414, weight, value: tensor([[-0.3294, -0.1862, -0.0966,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1544,  0.1447, -0.0947,  ...,  0.0246, -0.0688, -0.0819],
+        [ 0.1494, -0.1888, -0.1839,  ..., -0.0711,  0.1765, -0.0337],
+        ...,
+        [-0.1892, -0.1094,  0.1331,  ...,  0.0306, -0.2312, -0.0030],
+        [ 0.1134, -0.0156, -0.3376,  ..., -0.0693,  0.1843, -0.0380],
+        [-0.2367, -0.1810,  0.0372,  ..., -0.0168, -0.2623, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          2.0489e-08,  0.0000e+00],
+        [ 3.7253e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-09,  0.0000e+00],
+        [ 7.4506e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.6764e-08,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.3039e-08,  0.0000e+00],
+        [-3.7253e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.2293e-07,  0.0000e+00],
+        [ 1.3039e-08,  4.7684e-07,  0.0000e+00,  ...,  0.0000e+00,
+          3.5390e-08,  0.0000e+00]], device='cuda:0')
+Epoch 414, bias, value: tensor([-0.0062,  0.0134, -0.0229,  0.0192,  0.0265, -0.0166, -0.0182, -0.0105,
+        -0.0342, -0.0318], device='cuda:0'), grad: tensor([ 8.7544e-08,  4.6566e-08,  1.0245e-07,  9.3132e-08, -1.3970e-06,
+         3.3528e-08,  2.9802e-08,  7.4506e-08, -3.5949e-07,  1.2740e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 413, time 216.59, cls_loss 0.0005 cls_loss_mapping 0.0005 cls_loss_causal 0.4317 re_mapping 0.0027 re_causal 0.0093 /// teacc 99.07 lr 0.00001000
+Epoch 415, weight, value: tensor([[-0.3294, -0.1862, -0.0966,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1545,  0.1447, -0.0947,  ...,  0.0246, -0.0688, -0.0819],
+        [ 0.1494, -0.1888, -0.1839,  ..., -0.0711,  0.1765, -0.0337],
+        ...,
+        [-0.1891, -0.1094,  0.1331,  ...,  0.0306, -0.2313, -0.0030],
+        [ 0.1134, -0.0157, -0.3376,  ..., -0.0693,  0.1843, -0.0380],
+        [-0.2367, -0.1810,  0.0372,  ..., -0.0168, -0.2623, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 1.8626e-09, -1.6764e-08,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [-3.9116e-08,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -4.6566e-08,  0.0000e+00],
+        ...,
+        [ 2.0489e-08,  5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+          2.4214e-08,  0.0000e+00],
+        [-3.7253e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.1176e-08,  0.0000e+00],
+        [ 1.1176e-08,  2.0489e-08,  0.0000e+00,  ...,  0.0000e+00,
+          1.3039e-08,  0.0000e+00]], device='cuda:0')
+Epoch 415, bias, value: tensor([-0.0062,  0.0134, -0.0229,  0.0192,  0.0265, -0.0166, -0.0182, -0.0105,
+        -0.0342, -0.0318], device='cuda:0'), grad: tensor([-4.2841e-08, -2.4214e-08, -1.6391e-07,  4.0978e-08, -9.1270e-08,
+         1.3039e-08,  4.0978e-08,  9.8720e-08, -1.3039e-08,  1.4156e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 414, time 216.55, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4570 re_mapping 0.0025 re_causal 0.0093 /// teacc 99.07 lr 0.00001000
+Epoch 416, weight, value: tensor([[-0.3295, -0.1864, -0.0966,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1545,  0.1447, -0.0948,  ...,  0.0246, -0.0688, -0.0819],
+        [ 0.1494, -0.1888, -0.1839,  ..., -0.0711,  0.1766, -0.0337],
+        ...,
+        [-0.1891, -0.1094,  0.1331,  ...,  0.0306, -0.2313, -0.0030],
+        [ 0.1133, -0.0157, -0.3376,  ..., -0.0693,  0.1843, -0.0380],
+        [-0.2367, -0.1810,  0.0372,  ..., -0.0168, -0.2623, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  3.7253e-09,  1.7136e-07,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  2.0489e-08,  ...,  0.0000e+00,
+         -3.7253e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.8626e-09, -1.9372e-07,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.4703e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 416, bias, value: tensor([-0.0062,  0.0134, -0.0229,  0.0192,  0.0265, -0.0166, -0.0181, -0.0105,
+        -0.0342, -0.0318], device='cuda:0'), grad: tensor([-2.0489e-08,  9.3319e-07,  1.0245e-07,  3.3528e-08, -1.2852e-07,
+        -5.5879e-09,  5.5879e-09, -1.0431e-06,  7.4506e-09,  1.2107e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 415, time 216.81, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4585 re_mapping 0.0025 re_causal 0.0092 /// teacc 99.09 lr 0.00001000
+Epoch 417, weight, value: tensor([[-0.3295, -0.1865, -0.0966,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1545,  0.1448, -0.0949,  ...,  0.0246, -0.0688, -0.0819],
+        [ 0.1494, -0.1889, -0.1839,  ..., -0.0711,  0.1766, -0.0337],
+        ...,
+        [-0.1891, -0.1094,  0.1332,  ...,  0.0306, -0.2314, -0.0030],
+        [ 0.1134, -0.0157, -0.3376,  ..., -0.0693,  0.1843, -0.0380],
+        [-0.2368, -0.1810,  0.0372,  ..., -0.0168, -0.2624, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -3.7253e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-3.7253e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  5.2154e-08,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 417, bias, value: tensor([-0.0062,  0.0134, -0.0229,  0.0192,  0.0265, -0.0166, -0.0181, -0.0105,
+        -0.0342, -0.0318], device='cuda:0'), grad: tensor([ 4.4703e-08,  1.4901e-08,  1.7509e-07,  1.4901e-08, -1.7323e-07,
+         7.4506e-09,  1.8626e-08, -2.6636e-07, -1.1176e-08,  1.8254e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 416, time 216.63, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4376 re_mapping 0.0025 re_causal 0.0090 /// teacc 99.09 lr 0.00001000
+Epoch 418, weight, value: tensor([[-0.3295, -0.1866, -0.0966,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1545,  0.1448, -0.0949,  ...,  0.0246, -0.0688, -0.0819],
+        [ 0.1494, -0.1889, -0.1839,  ..., -0.0711,  0.1766, -0.0337],
+        ...,
+        [-0.1891, -0.1094,  0.1332,  ...,  0.0306, -0.2314, -0.0030],
+        [ 0.1133, -0.0157, -0.3376,  ..., -0.0693,  0.1843, -0.0380],
+        [-0.2368, -0.1810,  0.0372,  ..., -0.0168, -0.2624, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -7.4506e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-1.3039e-08, -1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.3039e-08,  0.0000e+00],
+        [ 9.3132e-09,  5.5879e-09, -1.8626e-09,  ...,  0.0000e+00,
+          1.1176e-08,  0.0000e+00]], device='cuda:0')
+Epoch 418, bias, value: tensor([-0.0062,  0.0134, -0.0229,  0.0192,  0.0265, -0.0166, -0.0181, -0.0105,
+        -0.0342, -0.0318], device='cuda:0'), grad: tensor([ 1.8626e-09, -2.6077e-08,  1.3039e-08, -4.4331e-06, -3.7253e-09,
+         4.4182e-06, -3.7253e-09,  3.1665e-08, -4.2841e-08,  2.2352e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 417, time 216.79, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4190 re_mapping 0.0025 re_causal 0.0088 /// teacc 99.10 lr 0.00001000
+Epoch 419, weight, value: tensor([[-0.3295, -0.1866, -0.0966,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1546,  0.1448, -0.0949,  ...,  0.0246, -0.0688, -0.0819],
+        [ 0.1494, -0.1889, -0.1839,  ..., -0.0711,  0.1767, -0.0337],
+        ...,
+        [-0.1890, -0.1094,  0.1332,  ...,  0.0306, -0.2314, -0.0030],
+        [ 0.1133, -0.0157, -0.3376,  ..., -0.0693,  0.1843, -0.0380],
+        [-0.2369, -0.1810,  0.0372,  ..., -0.0168, -0.2624, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.3039e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -3.7253e-09, -5.5879e-09,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.4901e-08,  0.0000e+00,  ...,  0.0000e+00,
+          1.1176e-08,  0.0000e+00]], device='cuda:0')
+Epoch 419, bias, value: tensor([-0.0062,  0.0134, -0.0228,  0.0192,  0.0265, -0.0167, -0.0180, -0.0105,
+        -0.0343, -0.0318], device='cuda:0'), grad: tensor([-1.8626e-09,  2.2352e-08, -2.9802e-08, -2.6077e-08, -5.5879e-08,
+         7.4506e-09,  5.5879e-09, -2.0489e-08,  1.8626e-09,  8.7544e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 418, time 216.74, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4188 re_mapping 0.0025 re_causal 0.0089 /// teacc 99.10 lr 0.00001000
+Epoch 420, weight, value: tensor([[-0.3295, -0.1868, -0.0966,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1546,  0.1448, -0.0949,  ...,  0.0246, -0.0688, -0.0819],
+        [ 0.1495, -0.1889, -0.1839,  ..., -0.0711,  0.1767, -0.0337],
+        ...,
+        [-0.1891, -0.1094,  0.1332,  ...,  0.0306, -0.2315, -0.0030],
+        [ 0.1133, -0.0157, -0.3376,  ..., -0.0693,  0.1843, -0.0380],
+        [-0.2368, -0.1810,  0.0372,  ..., -0.0168, -0.2624, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 1.8626e-09, -1.0245e-08,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [-3.7253e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.8626e-08,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [-8.3819e-09, -1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -7.4506e-09,  0.0000e+00],
+        [ 1.8626e-09,  6.5193e-09,  9.3132e-10,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00]], device='cuda:0')
+Epoch 420, bias, value: tensor([-0.0062,  0.0134, -0.0228,  0.0192,  0.0265, -0.0167, -0.0180, -0.0105,
+        -0.0343, -0.0318], device='cuda:0'), grad: tensor([ 4.0978e-08, -1.3039e-08, -5.0291e-08,  1.1269e-07,  3.8184e-08,
+        -5.3085e-08,  6.5193e-09,  2.2352e-08, -6.5193e-09, -9.6858e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 419, time 216.96, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4513 re_mapping 0.0025 re_causal 0.0092 /// teacc 99.08 lr 0.00001000
+Epoch 421, weight, value: tensor([[-0.3295, -0.1868, -0.0966,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1546,  0.1448, -0.0946,  ...,  0.0246, -0.0688, -0.0819],
+        [ 0.1495, -0.1890, -0.1839,  ..., -0.0711,  0.1768, -0.0337],
+        ...,
+        [-0.1891, -0.1094,  0.1332,  ...,  0.0306, -0.2315, -0.0030],
+        [ 0.1133, -0.0157, -0.3376,  ..., -0.0693,  0.1843, -0.0380],
+        [-0.2367, -0.1810,  0.0371,  ..., -0.0168, -0.2624, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [ 9.3132e-10,  9.3132e-10, -9.3132e-10,  ...,  0.0000e+00,
+         -6.5193e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.6764e-08,  0.0000e+00],
+        [-2.3283e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -2.7008e-08,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 421, bias, value: tensor([-0.0062,  0.0134, -0.0228,  0.0192,  0.0265, -0.0166, -0.0180, -0.0105,
+        -0.0343, -0.0318], device='cuda:0'), grad: tensor([-4.3772e-08,  1.6764e-08, -2.9802e-07,  1.4994e-07,  1.4901e-08,
+         8.3819e-08,  2.5146e-08,  7.6368e-08, -5.8673e-08,  5.0291e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 420, time 216.85, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4279 re_mapping 0.0024 re_causal 0.0088 /// teacc 99.08 lr 0.00001000
+Epoch 422, weight, value: tensor([[-0.3295, -0.1868, -0.0966,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1547,  0.1448, -0.0946,  ...,  0.0246, -0.0688, -0.0819],
+        [ 0.1495, -0.1890, -0.1839,  ..., -0.0711,  0.1768, -0.0337],
+        ...,
+        [-0.1891, -0.1095,  0.1332,  ...,  0.0306, -0.2316, -0.0030],
+        [ 0.1133, -0.0158, -0.3376,  ..., -0.0693,  0.1843, -0.0380],
+        [-0.2368, -0.1811,  0.0371,  ..., -0.0168, -0.2624, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          8.3819e-09,  0.0000e+00],
+        [ 4.6566e-09,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-09,  0.0000e+00],
+        [ 1.8626e-09,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -2.4214e-08,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00],
+        [-5.8673e-08, -1.3970e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -6.4261e-08,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 422, bias, value: tensor([-0.0062,  0.0134, -0.0228,  0.0192,  0.0265, -0.0167, -0.0180, -0.0105,
+        -0.0343, -0.0318], device='cuda:0'), grad: tensor([ 3.0734e-08,  3.3528e-08, -6.2399e-08,  7.6089e-07,  1.6764e-08,
+        -6.2492e-07,  7.7300e-08, -1.7695e-08, -2.3842e-07,  3.6322e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 421, time 216.88, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4164 re_mapping 0.0024 re_causal 0.0086 /// teacc 99.09 lr 0.00001000
+Epoch 423, weight, value: tensor([[-0.3295, -0.1869, -0.0966,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1547,  0.1448, -0.0947,  ...,  0.0246, -0.0689, -0.0819],
+        [ 0.1495, -0.1890, -0.1839,  ..., -0.0711,  0.1769, -0.0337],
+        ...,
+        [-0.1891, -0.1094,  0.1332,  ...,  0.0306, -0.2316, -0.0030],
+        [ 0.1133, -0.0158, -0.3376,  ..., -0.0693,  0.1843, -0.0380],
+        [-0.2368, -0.1811,  0.0371,  ..., -0.0168, -0.2624, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-8.3819e-09,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -6.5193e-09,  0.0000e+00],
+        ...,
+        [ 9.3132e-09,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [-7.4506e-09, -9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -1.3039e-08,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 423, bias, value: tensor([-0.0062,  0.0134, -0.0228,  0.0192,  0.0265, -0.0167, -0.0180, -0.0105,
+        -0.0343, -0.0318], device='cuda:0'), grad: tensor([-6.5193e-09,  3.7253e-09, -1.7695e-08,  1.7695e-08,  7.4506e-09,
+        -2.9802e-08,  3.1665e-08,  1.7695e-08, -3.1665e-08,  7.4506e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 422, time 216.93, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4251 re_mapping 0.0024 re_causal 0.0089 /// teacc 99.08 lr 0.00001000
+Epoch 424, weight, value: tensor([[-0.3295, -0.1869, -0.0966,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1547,  0.1449, -0.0947,  ...,  0.0246, -0.0689, -0.0819],
+        [ 0.1496, -0.1891, -0.1839,  ..., -0.0711,  0.1769, -0.0337],
+        ...,
+        [-0.1891, -0.1095,  0.1333,  ...,  0.0306, -0.2317, -0.0030],
+        [ 0.1133, -0.0158, -0.3376,  ..., -0.0693,  0.1843, -0.0380],
+        [-0.2368, -0.1811,  0.0371,  ..., -0.0168, -0.2624, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10, -4.6566e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-3.7253e-09,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -9.3132e-09,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  4.6566e-09,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-09,  0.0000e+00],
+        [-7.4506e-09, -4.6566e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.0245e-08,  0.0000e+00],
+        [ 9.3132e-09,  1.2107e-08,  9.3132e-10,  ...,  0.0000e+00,
+          8.3819e-09,  0.0000e+00]], device='cuda:0')
+Epoch 424, bias, value: tensor([-0.0062,  0.0134, -0.0228,  0.0191,  0.0265, -0.0167, -0.0180, -0.0105,
+        -0.0343, -0.0318], device='cuda:0'), grad: tensor([-5.5879e-09,  1.8626e-09, -2.3283e-08,  7.3574e-08, -2.7008e-08,
+        -1.4529e-07,  8.7544e-08, -2.7940e-09, -3.4459e-08,  7.1712e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 423, time 216.63, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4220 re_mapping 0.0024 re_causal 0.0089 /// teacc 99.09 lr 0.00001000
+Epoch 425, weight, value: tensor([[-0.3295, -0.1870, -0.0967,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1547,  0.1449, -0.0947,  ...,  0.0246, -0.0689, -0.0819],
+        [ 0.1496, -0.1891, -0.1839,  ..., -0.0711,  0.1770, -0.0337],
+        ...,
+        [-0.1891, -0.1095,  0.1333,  ...,  0.0306, -0.2317, -0.0030],
+        [ 0.1133, -0.0158, -0.3377,  ..., -0.0693,  0.1844, -0.0380],
+        [-0.2369, -0.1811,  0.0371,  ..., -0.0168, -0.2624, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [-2.7940e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -3.6322e-08,  0.0000e+00],
+        ...,
+        [ 1.3970e-08,  9.3132e-10, -9.3132e-10,  ...,  0.0000e+00,
+          1.8626e-08,  0.0000e+00],
+        [ 1.8626e-09,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 8.3819e-09,  7.4506e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.1176e-08,  0.0000e+00]], device='cuda:0')
+Epoch 425, bias, value: tensor([-0.0062,  0.0134, -0.0227,  0.0192,  0.0265, -0.0167, -0.0180, -0.0105,
+        -0.0343, -0.0318], device='cuda:0'), grad: tensor([ 8.3819e-09,  1.4901e-08, -1.0896e-07,  3.2596e-08, -6.5193e-09,
+        -9.3132e-09, -1.0245e-08,  1.6764e-08,  5.5879e-09,  6.7055e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 424, time 216.70, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4331 re_mapping 0.0024 re_causal 0.0089 /// teacc 99.09 lr 0.00001000
+Epoch 426, weight, value: tensor([[-0.3295, -0.1871, -0.0967,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1548,  0.1449, -0.0948,  ...,  0.0246, -0.0689, -0.0819],
+        [ 0.1496, -0.1891, -0.1839,  ..., -0.0711,  0.1770, -0.0337],
+        ...,
+        [-0.1891, -0.1095,  0.1333,  ...,  0.0306, -0.2318, -0.0030],
+        [ 0.1133, -0.0158, -0.3377,  ..., -0.0693,  0.1844, -0.0380],
+        [-0.2369, -0.1811,  0.0371,  ..., -0.0168, -0.2624, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00, -1.1176e-08,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-09,  0.0000e+00],
+        [ 5.5879e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          6.5193e-09,  0.0000e+00],
+        [ 1.8626e-09,  6.5193e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 426, bias, value: tensor([-0.0062,  0.0134, -0.0227,  0.0192,  0.0265, -0.0167, -0.0179, -0.0104,
+        -0.0343, -0.0318], device='cuda:0'), grad: tensor([ 3.4459e-08, -6.5193e-09,  1.3039e-08,  6.3330e-08, -8.3819e-09,
+        -2.2072e-07,  3.7253e-08,  1.5832e-08,  5.2154e-08,  2.7008e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 425, time 216.77, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4612 re_mapping 0.0024 re_causal 0.0092 /// teacc 99.08 lr 0.00001000
+Epoch 427, weight, value: tensor([[-0.3295, -0.1871, -0.0967,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1548,  0.1449, -0.0948,  ...,  0.0246, -0.0689, -0.0819],
+        [ 0.1496, -0.1891, -0.1839,  ..., -0.0711,  0.1770, -0.0337],
+        ...,
+        [-0.1890, -0.1094,  0.1333,  ...,  0.0306, -0.2318, -0.0030],
+        [ 0.1133, -0.0158, -0.3377,  ..., -0.0693,  0.1844, -0.0380],
+        [-0.2369, -0.1811,  0.0371,  ..., -0.0168, -0.2624, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-09,  7.4506e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  8.3819e-09,  5.5879e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -1.1176e-08, -8.3819e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  8.3819e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 427, bias, value: tensor([-0.0062,  0.0134, -0.0227,  0.0192,  0.0265, -0.0167, -0.0179, -0.0104,
+        -0.0344, -0.0318], device='cuda:0'), grad: tensor([ 2.5146e-08,  3.9116e-08,  7.4506e-09,  4.6566e-09,  5.5879e-09,
+         9.3132e-09, -3.3528e-08, -4.8429e-08, -2.7940e-09, -1.7695e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 426, time 216.89, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4605 re_mapping 0.0024 re_causal 0.0090 /// teacc 99.09 lr 0.00001000
+Epoch 428, weight, value: tensor([[-0.3296, -0.1873, -0.0967,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1548,  0.1448, -0.0948,  ...,  0.0246, -0.0689, -0.0819],
+        [ 0.1496, -0.1891, -0.1840,  ..., -0.0711,  0.1771, -0.0337],
+        ...,
+        [-0.1891, -0.1094,  0.1333,  ...,  0.0306, -0.2319, -0.0030],
+        [ 0.1133, -0.0158, -0.3377,  ..., -0.0693,  0.1844, -0.0380],
+        [-0.2369, -0.1811,  0.0371,  ..., -0.0168, -0.2624, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -2.3283e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.8626e-09,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10, -2.0489e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 428, bias, value: tensor([-0.0062,  0.0134, -0.0227,  0.0192,  0.0265, -0.0167, -0.0179, -0.0104,
+        -0.0344, -0.0318], device='cuda:0'), grad: tensor([-2.5518e-07,  6.5193e-09, -3.7253e-09,  1.9558e-08,  3.9861e-07,
+        -7.4506e-09,  2.1700e-07, -1.3970e-08,  5.5879e-09, -3.6601e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 427, time 216.85, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4352 re_mapping 0.0023 re_causal 0.0087 /// teacc 99.15 lr 0.00001000
+Epoch 429, weight, value: tensor([[-0.3296, -0.1873, -0.0967,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1549,  0.1448, -0.0948,  ...,  0.0245, -0.0689, -0.0819],
+        [ 0.1497, -0.1892, -0.1840,  ..., -0.0711,  0.1772, -0.0337],
+        ...,
+        [-0.1890, -0.1094,  0.1333,  ...,  0.0306, -0.2319, -0.0030],
+        [ 0.1133, -0.0158, -0.3377,  ..., -0.0693,  0.1844, -0.0380],
+        [-0.2370, -0.1811,  0.0371,  ..., -0.0168, -0.2624, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  9.3132e-10,  3.7253e-09,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00, -7.4506e-09,  8.3819e-09,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  2.7940e-09,  1.8626e-09,  ...,  0.0000e+00,
+         -3.7253e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  3.7253e-09, -5.1223e-08,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 2.7940e-09,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  1.8626e-08,  2.9802e-08,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 429, bias, value: tensor([-0.0062,  0.0134, -0.0226,  0.0192,  0.0265, -0.0168, -0.0179, -0.0104,
+        -0.0344, -0.0318], device='cuda:0'), grad: tensor([-5.5879e-09,  4.0978e-08,  1.7695e-08,  1.2107e-08, -5.3830e-07,
+         1.3970e-08,  1.2107e-08,  1.4249e-07,  7.4506e-09,  3.1106e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 428, time 216.66, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4246 re_mapping 0.0023 re_causal 0.0089 /// teacc 99.09 lr 0.00001000
+Epoch 430, weight, value: tensor([[-0.3296, -0.1873, -0.0967,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1549,  0.1449, -0.0947,  ...,  0.0245, -0.0690, -0.0819],
+        [ 0.1497, -0.1892, -0.1840,  ..., -0.0711,  0.1772, -0.0337],
+        ...,
+        [-0.1890, -0.1095,  0.1333,  ...,  0.0306, -0.2320, -0.0030],
+        [ 0.1134, -0.0158, -0.3377,  ..., -0.0693,  0.1844, -0.0380],
+        [-0.2370, -0.1812,  0.0371,  ..., -0.0168, -0.2624, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [ 2.7940e-09,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [-2.8871e-08,  0.0000e+00, -4.6566e-09,  ...,  0.0000e+00,
+         -2.8871e-08,  0.0000e+00],
+        ...,
+        [ 1.3039e-08,  1.8626e-09,  1.8626e-09,  ...,  0.0000e+00,
+          1.3039e-08,  0.0000e+00],
+        [ 1.8626e-09,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10,  4.6566e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 430, bias, value: tensor([-0.0062,  0.0134, -0.0226,  0.0192,  0.0265, -0.0168, -0.0179, -0.0104,
+        -0.0344, -0.0318], device='cuda:0'), grad: tensor([-1.5832e-08,  1.9558e-08, -1.5181e-07,  1.8626e-09,  3.0734e-08,
+         3.3528e-08,  1.5832e-08,  8.1025e-08,  1.1176e-08, -1.6764e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 429, time 216.87, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4476 re_mapping 0.0023 re_causal 0.0089 /// teacc 99.04 lr 0.00001000
+Epoch 431, weight, value: tensor([[-0.3296, -0.1873, -0.0967,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1549,  0.1449, -0.0947,  ...,  0.0245, -0.0690, -0.0819],
+        [ 0.1498, -0.1892, -0.1840,  ..., -0.0711,  0.1773, -0.0337],
+        ...,
+        [-0.1891, -0.1095,  0.1333,  ...,  0.0306, -0.2320, -0.0030],
+        [ 0.1134, -0.0158, -0.3377,  ..., -0.0693,  0.1844, -0.0380],
+        [-0.2371, -0.1812,  0.0371,  ..., -0.0168, -0.2624, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  4.6566e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10, -1.7602e-07,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [ 1.8626e-09,  8.4750e-08,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  6.0536e-08,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-09,  0.0000e+00],
+        [-6.5193e-09, -9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -6.5193e-09,  0.0000e+00],
+        [ 1.8626e-09,  1.4901e-08,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 431, bias, value: tensor([-0.0061,  0.0134, -0.0226,  0.0192,  0.0265, -0.0168, -0.0179, -0.0105,
+        -0.0344, -0.0318], device='cuda:0'), grad: tensor([-8.3819e-09, -3.4273e-07,  1.8440e-07, -5.0291e-08,  1.9185e-07,
+         4.0978e-08, -2.2538e-07,  1.4342e-07, -1.9558e-08,  8.1025e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 430, time 216.58, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4391 re_mapping 0.0023 re_causal 0.0087 /// teacc 99.07 lr 0.00001000
+Epoch 432, weight, value: tensor([[-0.3296, -0.1873, -0.0967,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1549,  0.1449, -0.0947,  ...,  0.0245, -0.0690, -0.0819],
+        [ 0.1498, -0.1893, -0.1840,  ..., -0.0711,  0.1774, -0.0337],
+        ...,
+        [-0.1891, -0.1095,  0.1333,  ...,  0.0306, -0.2321, -0.0030],
+        [ 0.1134, -0.0159, -0.3377,  ..., -0.0693,  0.1844, -0.0380],
+        [-0.2372, -0.1812,  0.0371,  ..., -0.0168, -0.2624, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [ 3.7253e-09, -1.3970e-08,  0.0000e+00,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00],
+        [-1.0617e-07,  7.4506e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.9185e-07,  0.0000e+00],
+        ...,
+        [ 8.5682e-08,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.5274e-07,  0.0000e+00],
+        [ 1.8626e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-09,  0.0000e+00],
+        [ 9.3132e-10,  1.3039e-08,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 432, bias, value: tensor([-0.0061,  0.0134, -0.0226,  0.0192,  0.0265, -0.0168, -0.0179, -0.0105,
+        -0.0344, -0.0318], device='cuda:0'), grad: tensor([ 1.9558e-08,  1.5832e-08, -9.1363e-07,  4.0978e-08,  5.1595e-07,
+         0.0000e+00,  1.0245e-08,  8.3819e-07,  1.7695e-08, -5.2620e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 431, time 216.97, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4148 re_mapping 0.0023 re_causal 0.0084 /// teacc 99.11 lr 0.00001000
+Epoch 433, weight, value: tensor([[-0.3296, -0.1874, -0.0967,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1550,  0.1449, -0.0949,  ...,  0.0245, -0.0690, -0.0819],
+        [ 0.1498, -0.1893, -0.1840,  ..., -0.0711,  0.1774, -0.0337],
+        ...,
+        [-0.1890, -0.1095,  0.1334,  ...,  0.0306, -0.2322, -0.0030],
+        [ 0.1134, -0.0159, -0.3377,  ..., -0.0693,  0.1844, -0.0380],
+        [-0.2372, -0.1812,  0.0372,  ..., -0.0168, -0.2624, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 1.2107e-08,  4.6566e-09,  0.0000e+00,  ...,  0.0000e+00,
+          3.8184e-08,  0.0000e+00],
+        [ 2.7940e-09, -6.5193e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.0245e-08,  0.0000e+00],
+        [-1.4249e-07,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -5.2340e-07,  0.0000e+00],
+        ...,
+        [ 1.0896e-07,  4.6566e-09,  5.5879e-09,  ...,  0.0000e+00,
+          4.0047e-07,  0.0000e+00],
+        [ 9.3132e-10,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10, -1.8626e-09, -1.0245e-08,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 433, bias, value: tensor([-0.0061,  0.0134, -0.0225,  0.0192,  0.0265, -0.0168, -0.0179, -0.0104,
+        -0.0344, -0.0318], device='cuda:0'), grad: tensor([ 1.0990e-07,  2.8871e-08, -1.3961e-06,  2.1234e-07,  5.7556e-07,
+         7.4506e-08, -4.6566e-09,  1.3085e-06,  1.4901e-08, -9.1922e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 432, time 216.81, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4275 re_mapping 0.0022 re_causal 0.0088 /// teacc 99.11 lr 0.00001000
+Epoch 434, weight, value: tensor([[-0.3296, -0.1874, -0.0967,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1551,  0.1449, -0.0949,  ...,  0.0245, -0.0690, -0.0819],
+        [ 0.1499, -0.1894, -0.1840,  ..., -0.0711,  0.1775, -0.0337],
+        ...,
+        [-0.1890, -0.1095,  0.1334,  ...,  0.0306, -0.2322, -0.0030],
+        [ 0.1134, -0.0159, -0.3377,  ..., -0.0693,  0.1845, -0.0380],
+        [-0.2373, -0.1812,  0.0372,  ..., -0.0168, -0.2624, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  4.0047e-08,  2.2352e-08,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [-6.5193e-09,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -2.0489e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -4.5635e-08, -2.3283e-08,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  2.1420e-08,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 434, bias, value: tensor([-0.0061,  0.0134, -0.0225,  0.0192,  0.0265, -0.0168, -0.0179, -0.0105,
+        -0.0344, -0.0318], device='cuda:0'), grad: tensor([ 7.4506e-09,  1.6019e-07, -6.8918e-08, -9.3132e-09, -5.4017e-08,
+         6.8918e-08,  9.3132e-10, -1.7136e-07,  2.7940e-09,  6.6124e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 433, time 216.77, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4322 re_mapping 0.0022 re_causal 0.0086 /// teacc 99.11 lr 0.00001000
+Epoch 435, weight, value: tensor([[-0.3296, -0.1874, -0.0967,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1551,  0.1450, -0.0948,  ...,  0.0245, -0.0690, -0.0819],
+        [ 0.1499, -0.1894, -0.1840,  ..., -0.0711,  0.1776, -0.0337],
+        ...,
+        [-0.1891, -0.1095,  0.1334,  ...,  0.0306, -0.2323, -0.0030],
+        [ 0.1134, -0.0159, -0.3377,  ..., -0.0693,  0.1845, -0.0380],
+        [-0.2374, -0.1812,  0.0372,  ..., -0.0168, -0.2624, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00, -9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10, -4.6566e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [-1.8626e-09,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -2.7940e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-1.8626e-09,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.3970e-08, -6.5193e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 435, bias, value: tensor([-0.0061,  0.0134, -0.0225,  0.0191,  0.0265, -0.0168, -0.0179, -0.0105,
+        -0.0344, -0.0318], device='cuda:0'), grad: tensor([-3.0734e-08, -9.3132e-10, -4.6566e-09,  1.0245e-08,  2.3283e-08,
+         8.3819e-09,  2.6077e-08,  7.4506e-09, -4.6566e-09, -2.9802e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 434, time 217.12, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4290 re_mapping 0.0023 re_causal 0.0086 /// teacc 99.11 lr 0.00001000
+Epoch 436, weight, value: tensor([[-0.3296, -0.1875, -0.0967,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1551,  0.1450, -0.0949,  ...,  0.0245, -0.0690, -0.0819],
+        [ 0.1500, -0.1894, -0.1841,  ..., -0.0711,  0.1777, -0.0337],
+        ...,
+        [-0.1891, -0.1095,  0.1335,  ...,  0.0306, -0.2324, -0.0030],
+        [ 0.1134, -0.0159, -0.3377,  ..., -0.0693,  0.1845, -0.0380],
+        [-0.2375, -0.1812,  0.0372,  ..., -0.0168, -0.2625, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  9.3132e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.2107e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [-3.7253e-09,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00,  2.0489e-08, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 436, bias, value: tensor([-0.0061,  0.0134, -0.0225,  0.0191,  0.0265, -0.0168, -0.0179, -0.0105,
+        -0.0344, -0.0318], device='cuda:0'), grad: tensor([ 3.3528e-08,  7.4506e-09, -2.2352e-08,  1.4901e-08, -6.3330e-08,
+         1.4901e-08, -3.0734e-08, -1.2107e-08, -3.7253e-09,  6.8918e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 435, time 216.86, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4287 re_mapping 0.0022 re_causal 0.0085 /// teacc 99.12 lr 0.00001000
+Epoch 437, weight, value: tensor([[-0.3297, -0.1875, -0.0967,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1551,  0.1450, -0.0949,  ...,  0.0245, -0.0691, -0.0819],
+        [ 0.1500, -0.1895, -0.1841,  ..., -0.0711,  0.1777, -0.0337],
+        ...,
+        [-0.1891, -0.1095,  0.1335,  ...,  0.0306, -0.2324, -0.0030],
+        [ 0.1134, -0.0159, -0.3377,  ..., -0.0693,  0.1845, -0.0380],
+        [-0.2376, -0.1812,  0.0372,  ..., -0.0168, -0.2625, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 1.3039e-08,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          1.2107e-08,  0.0000e+00],
+        [ 0.0000e+00, -1.0524e-07,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [-2.8871e-08,  2.4214e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -3.5390e-08,  0.0000e+00],
+        ...,
+        [ 5.5879e-09,  7.4506e-08,  0.0000e+00,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 9.3132e-10,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 437, bias, value: tensor([-0.0061,  0.0134, -0.0225,  0.0191,  0.0265, -0.0167, -0.0179, -0.0105,
+        -0.0344, -0.0318], device='cuda:0'), grad: tensor([-2.8871e-08, -3.7961e-06,  6.4168e-07,  1.7975e-07,  1.8626e-09,
+         5.9605e-08,  1.3970e-08,  2.8051e-06,  7.4506e-09,  1.1362e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 436, time 216.79, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4180 re_mapping 0.0022 re_causal 0.0086 /// teacc 99.10 lr 0.00001000
+Epoch 438, weight, value: tensor([[-0.3297, -0.1875, -0.0967,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1551,  0.1450, -0.0950,  ...,  0.0245, -0.0691, -0.0819],
+        [ 0.1501, -0.1895, -0.1841,  ..., -0.0711,  0.1778, -0.0337],
+        ...,
+        [-0.1891, -0.1095,  0.1336,  ...,  0.0306, -0.2324, -0.0030],
+        [ 0.1134, -0.0160, -0.3377,  ..., -0.0693,  0.1846, -0.0380],
+        [-0.2377, -0.1813,  0.0372,  ..., -0.0168, -0.2625, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00, -6.5193e-09,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  2.7940e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 438, bias, value: tensor([-0.0061,  0.0134, -0.0225,  0.0191,  0.0265, -0.0167, -0.0179, -0.0105,
+        -0.0344, -0.0318], device='cuda:0'), grad: tensor([ 9.3132e-10,  3.7253e-08,  2.0489e-08,  2.8405e-07,  3.1665e-08,
+        -2.6729e-07,  9.3132e-09, -2.0117e-07,  1.0245e-08,  7.8231e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 437, time 216.83, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4486 re_mapping 0.0023 re_causal 0.0088 /// teacc 99.11 lr 0.00001000
+Epoch 439, weight, value: tensor([[-0.3297, -0.1876, -0.0967,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1552,  0.1450, -0.0951,  ...,  0.0245, -0.0691, -0.0819],
+        [ 0.1502, -0.1896, -0.1841,  ..., -0.0711,  0.1780, -0.0337],
+        ...,
+        [-0.1892, -0.1096,  0.1337,  ...,  0.0306, -0.2325, -0.0030],
+        [ 0.1134, -0.0160, -0.3377,  ..., -0.0693,  0.1846, -0.0380],
+        [-0.2378, -0.1813,  0.0372,  ..., -0.0168, -0.2625, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 3.7253e-09, -3.7253e-09,  9.3132e-10,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 1.8626e-09,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -5.5879e-09,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  4.6566e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [-1.3039e-08, -9.3132e-09, -1.8626e-09,  ...,  0.0000e+00,
+         -1.1176e-08,  0.0000e+00],
+        [ 1.8626e-09,  5.5879e-09, -4.6566e-09,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00]], device='cuda:0')
+Epoch 439, bias, value: tensor([-0.0061,  0.0134, -0.0224,  0.0191,  0.0265, -0.0167, -0.0179, -0.0105,
+        -0.0344, -0.0318], device='cuda:0'), grad: tensor([ 1.1176e-08,  1.4901e-08, -6.5193e-09,  1.0896e-07,  7.3574e-08,
+        -7.5437e-08,  5.5879e-09, -1.8626e-09, -4.2841e-08, -9.0338e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 438, time 216.95, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4410 re_mapping 0.0022 re_causal 0.0085 /// teacc 99.10 lr 0.00001000
+Epoch 440, weight, value: tensor([[-0.3297, -0.1876, -0.0967,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1552,  0.1450, -0.0951,  ...,  0.0245, -0.0692, -0.0819],
+        [ 0.1502, -0.1896, -0.1841,  ..., -0.0711,  0.1781, -0.0337],
+        ...,
+        [-0.1892, -0.1096,  0.1337,  ...,  0.0306, -0.2327, -0.0030],
+        [ 0.1135, -0.0160, -0.3377,  ..., -0.0693,  0.1846, -0.0380],
+        [-0.2380, -0.1813,  0.0372,  ..., -0.0168, -0.2625, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -2.7940e-09,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.7789e-09,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          3.2596e-09,  0.0000e+00],
+        [-6.5193e-09,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -5.5879e-09,  0.0000e+00],
+        [ 1.3970e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          3.2596e-09,  0.0000e+00]], device='cuda:0')
+Epoch 440, bias, value: tensor([-0.0061,  0.0134, -0.0223,  0.0190,  0.0266, -0.0166, -0.0179, -0.0105,
+        -0.0344, -0.0319], device='cuda:0'), grad: tensor([-5.8208e-08,  3.3993e-08,  2.5146e-08, -6.4494e-07,  6.9849e-09,
+         9.2667e-08,  3.6322e-08,  5.2201e-07, -1.6764e-08,  1.7229e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 439, time 216.55, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4314 re_mapping 0.0023 re_causal 0.0086 /// teacc 99.11 lr 0.00001000
+Epoch 441, weight, value: tensor([[-0.3297, -0.1877, -0.0968,  ..., -0.0041, -0.0693, -0.0169],
+        [-0.1552,  0.1451, -0.0952,  ...,  0.0245, -0.0692, -0.0819],
+        [ 0.1503, -0.1897, -0.1841,  ..., -0.0711,  0.1782, -0.0337],
+        ...,
+        [-0.1893, -0.1096,  0.1337,  ...,  0.0306, -0.2328, -0.0030],
+        [ 0.1135, -0.0160, -0.3377,  ..., -0.0693,  0.1847, -0.0380],
+        [-0.2381, -0.1813,  0.0372,  ..., -0.0168, -0.2625, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  2.3283e-09,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 1.3504e-08,  7.4506e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.1176e-08,  0.0000e+00],
+        [-1.9092e-08,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -2.7008e-08,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.3970e-09,  0.0000e+00],
+        [-3.5856e-08, -1.2107e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -3.0268e-08,  0.0000e+00],
+        [ 1.8626e-09,  1.2573e-08,  2.3283e-09,  ...,  0.0000e+00,
+          1.3970e-09,  0.0000e+00]], device='cuda:0')
+Epoch 441, bias, value: tensor([-0.0060,  0.0134, -0.0223,  0.0190,  0.0266, -0.0166, -0.0179, -0.0105,
+        -0.0344, -0.0319], device='cuda:0'), grad: tensor([ 1.4435e-08,  4.7032e-08, -7.2643e-08,  2.0489e-08,  9.8720e-08,
+         3.3528e-08, -1.3039e-08,  2.5146e-08, -9.7323e-08, -5.8208e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 440, time 216.77, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4152 re_mapping 0.0022 re_causal 0.0085 /// teacc 99.12 lr 0.00001000
+Epoch 442, weight, value: tensor([[-0.3297, -0.1877, -0.0968,  ..., -0.0041, -0.0694, -0.0169],
+        [-0.1552,  0.1452, -0.0950,  ...,  0.0245, -0.0692, -0.0819],
+        [ 0.1503, -0.1897, -0.1841,  ..., -0.0711,  0.1783, -0.0337],
+        ...,
+        [-0.1893, -0.1097,  0.1337,  ...,  0.0306, -0.2329, -0.0030],
+        [ 0.1135, -0.0160, -0.3377,  ..., -0.0693,  0.1847, -0.0380],
+        [-0.2382, -0.1814,  0.0372,  ..., -0.0168, -0.2625, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  4.6566e-10, -4.6566e-10,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 1.3970e-09,  1.3970e-09,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 5.5879e-09,  1.0710e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 442, bias, value: tensor([-0.0060,  0.0134, -0.0222,  0.0190,  0.0266, -0.0166, -0.0179, -0.0105,
+        -0.0344, -0.0319], device='cuda:0'), grad: tensor([-6.5193e-09,  2.1420e-08,  9.3132e-09,  1.5367e-08,  4.2375e-08,
+        -7.4040e-08,  2.9337e-08, -4.3306e-08,  9.3132e-09,  6.0536e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 441, time 216.69, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.3966 re_mapping 0.0023 re_causal 0.0084 /// teacc 99.14 lr 0.00001000
+Epoch 443, weight, value: tensor([[-0.3297, -0.1877, -0.0968,  ..., -0.0041, -0.0694, -0.0169],
+        [-0.1554,  0.1451, -0.0950,  ...,  0.0245, -0.0692, -0.0819],
+        [ 0.1503, -0.1898, -0.1841,  ..., -0.0711,  0.1783, -0.0337],
+        ...,
+        [-0.1891, -0.1097,  0.1337,  ...,  0.0306, -0.2329, -0.0030],
+        [ 0.1136, -0.0160, -0.3377,  ..., -0.0693,  0.1848, -0.0380],
+        [-0.2382, -0.1814,  0.0372,  ..., -0.0168, -0.2625, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  3.7253e-09,  6.0536e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -5.5879e-09, -1.3039e-08,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.3283e-09,  1.3970e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 443, bias, value: tensor([-0.0060,  0.0134, -0.0223,  0.0190,  0.0266, -0.0166, -0.0180, -0.0105,
+        -0.0344, -0.0319], device='cuda:0'), grad: tensor([ 2.3283e-09,  6.7521e-08,  1.4901e-08, -2.5146e-08,  3.0734e-08,
+         1.5367e-08,  9.3132e-10, -1.2293e-07,  2.3283e-09,  2.3749e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 442, time 216.87, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4280 re_mapping 0.0022 re_causal 0.0086 /// teacc 99.14 lr 0.00001000
+Epoch 444, weight, value: tensor([[-0.3298, -0.1878, -0.0968,  ..., -0.0041, -0.0694, -0.0169],
+        [-0.1555,  0.1452, -0.0950,  ...,  0.0245, -0.0692, -0.0819],
+        [ 0.1504, -0.1898, -0.1841,  ..., -0.0711,  0.1784, -0.0337],
+        ...,
+        [-0.1891, -0.1097,  0.1337,  ...,  0.0306, -0.2330, -0.0030],
+        [ 0.1136, -0.0161, -0.3377,  ..., -0.0693,  0.1848, -0.0380],
+        [-0.2383, -0.1814,  0.0372,  ..., -0.0168, -0.2625, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          4.1910e-09,  0.0000e+00],
+        [ 4.6566e-10,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [-1.2107e-08,  1.3970e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -3.2131e-08,  0.0000e+00],
+        ...,
+        [ 6.0536e-09,  4.1910e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.4901e-08,  0.0000e+00],
+        [ 1.8626e-09,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 2.7940e-09,  6.7055e-08,  0.0000e+00,  ...,  0.0000e+00,
+          6.0536e-09,  0.0000e+00]], device='cuda:0')
+Epoch 444, bias, value: tensor([-0.0060,  0.0134, -0.0222,  0.0190,  0.0266, -0.0166, -0.0179, -0.0105,
+        -0.0344, -0.0319], device='cuda:0'), grad: tensor([ 1.1642e-08,  9.7789e-09, -5.3551e-08,  6.7987e-08, -5.0431e-07,
+        -6.3796e-08,  1.1176e-08,  4.5169e-08,  1.2573e-08,  4.8103e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 443, time 216.99, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4428 re_mapping 0.0023 re_causal 0.0086 /// teacc 99.13 lr 0.00001000
+Epoch 445, weight, value: tensor([[-0.3298, -0.1879, -0.0968,  ..., -0.0041, -0.0694, -0.0169],
+        [-0.1555,  0.1452, -0.0950,  ...,  0.0245, -0.0693, -0.0819],
+        [ 0.1504, -0.1899, -0.1841,  ..., -0.0711,  0.1786, -0.0337],
+        ...,
+        [-0.1892, -0.1097,  0.1337,  ...,  0.0306, -0.2332, -0.0030],
+        [ 0.1136, -0.0161, -0.3378,  ..., -0.0693,  0.1849, -0.0380],
+        [-0.2384, -0.1814,  0.0372,  ..., -0.0168, -0.2625, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 5.1223e-09,  5.1223e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10, -6.6124e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  8.3819e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  4.8429e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-09,  3.2596e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.3970e-09, -4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 445, bias, value: tensor([-0.0060,  0.0134, -0.0221,  0.0190,  0.0266, -0.0166, -0.0179, -0.0105,
+        -0.0344, -0.0319], device='cuda:0'), grad: tensor([ 6.8452e-08, -1.3039e-07,  1.7695e-08,  3.2596e-09,  2.7008e-08,
+         3.7719e-08, -6.8452e-08,  1.0617e-07,  9.7789e-09, -6.2399e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 444, time 216.90, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4225 re_mapping 0.0023 re_causal 0.0085 /// teacc 99.10 lr 0.00001000
+Epoch 446, weight, value: tensor([[-0.3298, -0.1879, -0.0968,  ..., -0.0041, -0.0694, -0.0169],
+        [-0.1555,  0.1453, -0.0951,  ...,  0.0245, -0.0693, -0.0819],
+        [ 0.1505, -0.1900, -0.1841,  ..., -0.0711,  0.1786, -0.0337],
+        ...,
+        [-0.1892, -0.1098,  0.1337,  ...,  0.0306, -0.2333, -0.0030],
+        [ 0.1136, -0.0161, -0.3378,  ..., -0.0693,  0.1849, -0.0380],
+        [-0.2386, -0.1815,  0.0371,  ..., -0.0168, -0.2626, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-09,  0.0000e+00],
+        [ 0.0000e+00, -5.6345e-08,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [-1.3970e-08,  1.1176e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -2.6077e-08,  0.0000e+00],
+        ...,
+        [ 3.7253e-09,  2.0489e-08,  4.6566e-10,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [ 0.0000e+00,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 4.6566e-10,  9.3132e-10, -1.8626e-09,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 446, bias, value: tensor([-0.0060,  0.0134, -0.0221,  0.0190,  0.0266, -0.0166, -0.0179, -0.0105,
+        -0.0344, -0.0319], device='cuda:0'), grad: tensor([ 1.9092e-08, -1.0431e-07, -6.3330e-08,  1.0664e-07,  5.5879e-07,
+        -5.1223e-08,  1.7229e-08,  8.1491e-08,  5.7276e-08, -6.1234e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 445, time 216.77, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4218 re_mapping 0.0022 re_causal 0.0085 /// teacc 99.12 lr 0.00001000
+Epoch 447, weight, value: tensor([[-0.3298, -0.1880, -0.0968,  ..., -0.0041, -0.0694, -0.0169],
+        [-0.1555,  0.1453, -0.0951,  ...,  0.0245, -0.0693, -0.0819],
+        [ 0.1506, -0.1901, -0.1841,  ..., -0.0711,  0.1787, -0.0337],
+        ...,
+        [-0.1892, -0.1098,  0.1338,  ...,  0.0306, -0.2334, -0.0030],
+        [ 0.1136, -0.0162, -0.3378,  ..., -0.0693,  0.1850, -0.0380],
+        [-0.2386, -0.1815,  0.0371,  ..., -0.0168, -0.2626, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 5.1223e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-09,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-09,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 9.7789e-09,  1.3970e-09, -5.1223e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.7695e-08,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 1.2107e-08,  1.8161e-08,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 447, bias, value: tensor([-0.0060,  0.0134, -0.0221,  0.0190,  0.0266, -0.0167, -0.0179, -0.0105,
+        -0.0344, -0.0319], device='cuda:0'), grad: tensor([ 1.7695e-08,  2.6077e-08,  1.8626e-08,  3.5018e-07, -1.1222e-07,
+        -4.8149e-07,  6.1467e-08, -8.5682e-08,  4.7963e-08,  1.7090e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 446, time 216.75, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4305 re_mapping 0.0023 re_causal 0.0087 /// teacc 99.14 lr 0.00001000
+Epoch 448, weight, value: tensor([[-0.3298, -0.1880, -0.0968,  ..., -0.0041, -0.0694, -0.0169],
+        [-0.1555,  0.1454, -0.0951,  ...,  0.0245, -0.0693, -0.0819],
+        [ 0.1506, -0.1901, -0.1842,  ..., -0.0711,  0.1788, -0.0337],
+        ...,
+        [-0.1893, -0.1098,  0.1338,  ...,  0.0306, -0.2334, -0.0030],
+        [ 0.1137, -0.0162, -0.3378,  ..., -0.0693,  0.1850, -0.0380],
+        [-0.2387, -0.1815,  0.0371,  ..., -0.0168, -0.2626, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-3.7253e-09,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -4.6566e-09,  0.0000e+00],
+        ...,
+        [ 1.8626e-09,  3.2596e-09,  0.0000e+00,  ...,  0.0000e+00,
+          4.1910e-09,  0.0000e+00],
+        [ 2.7940e-09,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 4.6566e-10,  1.3970e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 448, bias, value: tensor([-0.0060,  0.0134, -0.0221,  0.0190,  0.0266, -0.0167, -0.0179, -0.0106,
+        -0.0344, -0.0319], device='cuda:0'), grad: tensor([-1.3039e-08,  1.6764e-08, -1.5367e-08,  2.3609e-07,  5.5879e-09,
+        -1.6345e-07,  6.5193e-09, -8.1491e-08,  9.3132e-09,  1.3039e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 447, time 216.81, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4234 re_mapping 0.0022 re_causal 0.0087 /// teacc 99.13 lr 0.00001000
+Epoch 449, weight, value: tensor([[-0.3299, -0.1881, -0.0968,  ..., -0.0041, -0.0694, -0.0169],
+        [-0.1556,  0.1454, -0.0951,  ...,  0.0245, -0.0694, -0.0819],
+        [ 0.1506, -0.1901, -0.1842,  ..., -0.0711,  0.1788, -0.0337],
+        ...,
+        [-0.1893, -0.1098,  0.1339,  ...,  0.0306, -0.2334, -0.0030],
+        [ 0.1137, -0.0163, -0.3378,  ..., -0.0693,  0.1851, -0.0380],
+        [-0.2388, -0.1816,  0.0371,  ..., -0.0168, -0.2626, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 4.1910e-09,  5.1223e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 7.9162e-09,  1.0710e-08,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 3.2596e-09,  5.1223e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.8626e-09,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-10,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.3970e-09,  0.0000e+00],
+        [ 4.6566e-10,  4.3772e-08, -4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 449, bias, value: tensor([-0.0060,  0.0134, -0.0222,  0.0190,  0.0266, -0.0168, -0.0179, -0.0105,
+        -0.0344, -0.0319], device='cuda:0'), grad: tensor([-6.0536e-09,  3.2596e-08,  1.4901e-08,  2.2352e-08, -2.3283e-08,
+         1.4901e-08, -1.6671e-07,  1.3039e-08,  3.7253e-09,  1.0012e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 448, time 216.88, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4196 re_mapping 0.0022 re_causal 0.0084 /// teacc 99.11 lr 0.00001000
+Epoch 450, weight, value: tensor([[-0.3299, -0.1881, -0.0968,  ..., -0.0041, -0.0694, -0.0169],
+        [-0.1556,  0.1454, -0.0951,  ...,  0.0245, -0.0694, -0.0819],
+        [ 0.1507, -0.1902, -0.1842,  ..., -0.0711,  0.1789, -0.0337],
+        ...,
+        [-0.1894, -0.1098,  0.1339,  ...,  0.0306, -0.2335, -0.0030],
+        [ 0.1137, -0.0163, -0.3378,  ..., -0.0693,  0.1851, -0.0380],
+        [-0.2389, -0.1816,  0.0371,  ..., -0.0168, -0.2626, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.1910e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00, -1.8161e-07,  0.0000e+00,  ...,  0.0000e+00,
+         -2.5146e-08,  0.0000e+00],
+        [-9.3132e-10,  9.7789e-08,  0.0000e+00,  ...,  0.0000e+00,
+          1.1642e-08,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  7.3109e-08,  9.3132e-10,  ...,  0.0000e+00,
+          1.1642e-08,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 450, bias, value: tensor([-0.0060,  0.0134, -0.0221,  0.0190,  0.0266, -0.0168, -0.0179, -0.0105,
+        -0.0343, -0.0320], device='cuda:0'), grad: tensor([ 5.5879e-09, -3.9255e-07,  2.0815e-07,  1.5367e-08,  6.0070e-08,
+         1.1176e-08,  2.7940e-09,  2.1467e-07,  1.3970e-09, -1.1176e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 449, time 216.58, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4108 re_mapping 0.0022 re_causal 0.0083 /// teacc 99.10 lr 0.00001000
+Epoch 451, weight, value: tensor([[-0.3299, -0.1882, -0.0968,  ..., -0.0041, -0.0694, -0.0169],
+        [-0.1556,  0.1455, -0.0951,  ...,  0.0245, -0.0694, -0.0819],
+        [ 0.1508, -0.1902, -0.1842,  ..., -0.0711,  0.1790, -0.0337],
+        ...,
+        [-0.1894, -0.1099,  0.1339,  ...,  0.0306, -0.2336, -0.0030],
+        [ 0.1137, -0.0164, -0.3378,  ..., -0.0693,  0.1852, -0.0380],
+        [-0.2389, -0.1816,  0.0371,  ..., -0.0168, -0.2626, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [-1.3970e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -2.7940e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 4.6566e-10,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -1.2107e-08,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00]], device='cuda:0')
+Epoch 451, bias, value: tensor([-0.0060,  0.0135, -0.0221,  0.0190,  0.0267, -0.0168, -0.0179, -0.0106,
+        -0.0344, -0.0320], device='cuda:0'), grad: tensor([ 1.2573e-08,  4.8429e-08, -5.5879e-09, -1.4110e-07,  3.7020e-07,
+         1.2061e-07,  9.3132e-10,  2.4214e-08,  1.8626e-08, -4.4052e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 450, time 216.94, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4198 re_mapping 0.0022 re_causal 0.0086 /// teacc 99.12 lr 0.00001000
+Epoch 452, weight, value: tensor([[-0.3299, -0.1882, -0.0968,  ..., -0.0041, -0.0694, -0.0169],
+        [-0.1556,  0.1455, -0.0951,  ...,  0.0245, -0.0695, -0.0819],
+        [ 0.1509, -0.1903, -0.1842,  ..., -0.0711,  0.1791, -0.0337],
+        ...,
+        [-0.1894, -0.1099,  0.1339,  ...,  0.0306, -0.2337, -0.0030],
+        [ 0.1137, -0.0164, -0.3378,  ..., -0.0693,  0.1852, -0.0380],
+        [-0.2390, -0.1817,  0.0371,  ..., -0.0168, -0.2626, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  9.3132e-10,  4.6566e-10,  ...,  0.0000e+00,
+          3.2596e-09,  0.0000e+00],
+        [ 1.3970e-09, -1.1176e-08,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [-1.3039e-08,  2.3283e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -5.2620e-08,  0.0000e+00],
+        ...,
+        [ 6.5193e-09,  6.9849e-09, -4.6566e-10,  ...,  0.0000e+00,
+          2.0955e-08,  0.0000e+00],
+        [ 2.7940e-09,  1.3970e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.3970e-09,  0.0000e+00],
+        [ 4.6566e-10,  6.0536e-09, -4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 452, bias, value: tensor([-0.0060,  0.0135, -0.0220,  0.0190,  0.0267, -0.0168, -0.0179, -0.0106,
+        -0.0344, -0.0320], device='cuda:0'), grad: tensor([ 1.3039e-08, -3.2596e-09, -2.0629e-07,  9.3598e-08, -1.1176e-08,
+        -1.7276e-07,  1.6764e-07,  8.4285e-08,  1.3970e-08,  2.2352e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 451, time 216.65, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.3967 re_mapping 0.0021 re_causal 0.0083 /// teacc 99.12 lr 0.00001000
+Epoch 453, weight, value: tensor([[-0.3299, -0.1882, -0.0968,  ..., -0.0041, -0.0694, -0.0169],
+        [-0.1557,  0.1456, -0.0951,  ...,  0.0245, -0.0695, -0.0819],
+        [ 0.1509, -0.1903, -0.1842,  ..., -0.0711,  0.1792, -0.0337],
+        ...,
+        [-0.1895, -0.1100,  0.1339,  ...,  0.0306, -0.2338, -0.0030],
+        [ 0.1137, -0.0164, -0.3378,  ..., -0.0693,  0.1852, -0.0380],
+        [-0.2390, -0.1817,  0.0371,  ..., -0.0168, -0.2626, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.3970e-09,  0.0000e+00],
+        [ 4.6566e-10,  4.6566e-10,  4.6566e-10,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [-6.0536e-09,  0.0000e+00,  1.3970e-09,  ...,  0.0000e+00,
+         -1.3504e-08,  0.0000e+00],
+        ...,
+        [ 3.7253e-09,  4.6566e-10, -4.6566e-09,  ...,  0.0000e+00,
+          7.9162e-09,  0.0000e+00],
+        [ 2.7940e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-09,  0.0000e+00],
+        [ 6.9849e-09,  5.5879e-09,  1.3970e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 453, bias, value: tensor([-0.0060,  0.0135, -0.0220,  0.0190,  0.0267, -0.0168, -0.0179, -0.0106,
+        -0.0345, -0.0320], device='cuda:0'), grad: tensor([-3.2131e-08,  1.8161e-08, -1.1176e-08,  1.4715e-07, -1.5367e-08,
+        -5.2154e-07,  3.8138e-07, -4.2375e-08,  1.3504e-08,  6.2864e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 452, time 216.71, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4062 re_mapping 0.0022 re_causal 0.0083 /// teacc 99.11 lr 0.00001000
+Epoch 454, weight, value: tensor([[-0.3300, -0.1883, -0.0969,  ..., -0.0041, -0.0694, -0.0169],
+        [-0.1557,  0.1456, -0.0952,  ...,  0.0245, -0.0695, -0.0819],
+        [ 0.1510, -0.1904, -0.1842,  ..., -0.0711,  0.1793, -0.0337],
+        ...,
+        [-0.1895, -0.1100,  0.1340,  ...,  0.0306, -0.2339, -0.0030],
+        [ 0.1137, -0.0165, -0.3378,  ..., -0.0693,  0.1852, -0.0380],
+        [-0.2391, -0.1817,  0.0371,  ..., -0.0168, -0.2626, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 1.8626e-09, -6.9849e-09,  9.3132e-10,  ...,  0.0000e+00,
+          2.3283e-09,  0.0000e+00],
+        [ 9.3132e-10,  1.3970e-09,  4.6566e-10,  ...,  0.0000e+00,
+          1.3970e-09,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  4.1910e-09, -3.7253e-09,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [-3.2131e-08, -3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -3.6322e-08,  0.0000e+00],
+        [ 1.8626e-09,  4.6566e-10,  1.8626e-09,  ...,  0.0000e+00,
+          2.3283e-09,  0.0000e+00]], device='cuda:0')
+Epoch 454, bias, value: tensor([-0.0060,  0.0135, -0.0220,  0.0191,  0.0267, -0.0169, -0.0179, -0.0107,
+        -0.0345, -0.0320], device='cuda:0'), grad: tensor([-1.3039e-08,  1.9558e-08,  1.5367e-08,  4.1444e-08,  3.6322e-08,
+         6.3796e-08,  6.0536e-09, -7.2643e-08, -1.1735e-07,  2.6077e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 453, time 216.69, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4108 re_mapping 0.0022 re_causal 0.0083 /// teacc 99.10 lr 0.00001000
+Epoch 455, weight, value: tensor([[-0.3300, -0.1885, -0.0969,  ..., -0.0041, -0.0694, -0.0169],
+        [-0.1557,  0.1457, -0.0952,  ...,  0.0245, -0.0695, -0.0819],
+        [ 0.1510, -0.1905, -0.1843,  ..., -0.0711,  0.1793, -0.0337],
+        ...,
+        [-0.1895, -0.1101,  0.1340,  ...,  0.0306, -0.2340, -0.0030],
+        [ 0.1137, -0.0165, -0.3379,  ..., -0.0693,  0.1852, -0.0380],
+        [-0.2392, -0.1818,  0.0372,  ..., -0.0168, -0.2626, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 1.4901e-08,  1.9092e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 2.7940e-09,  2.3283e-09,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 2.3283e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  9.3132e-10, -4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-5.5879e-09,  6.0536e-09, -4.6566e-10,  ...,  0.0000e+00,
+         -1.0245e-08,  0.0000e+00],
+        [ 4.6566e-10,  1.8161e-08, -9.3132e-10,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00]], device='cuda:0')
+Epoch 455, bias, value: tensor([-0.0060,  0.0135, -0.0220,  0.0191,  0.0267, -0.0170, -0.0178, -0.0107,
+        -0.0346, -0.0320], device='cuda:0'), grad: tensor([ 5.7742e-08,  2.0955e-08,  1.9092e-08,  2.5146e-08, -5.4482e-08,
+         7.5437e-08, -1.7183e-07, -3.6787e-08, -4.6566e-09,  7.4971e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 454, time 216.62, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4445 re_mapping 0.0021 re_causal 0.0085 /// teacc 99.10 lr 0.00001000
+Epoch 456, weight, value: tensor([[-0.3300, -0.1888, -0.0969,  ..., -0.0041, -0.0694, -0.0169],
+        [-0.1558,  0.1459, -0.0950,  ...,  0.0245, -0.0695, -0.0819],
+        [ 0.1511, -0.1906, -0.1843,  ..., -0.0711,  0.1794, -0.0337],
+        ...,
+        [-0.1895, -0.1103,  0.1339,  ...,  0.0306, -0.2341, -0.0030],
+        [ 0.1137, -0.0166, -0.3379,  ..., -0.0693,  0.1853, -0.0380],
+        [-0.2392, -0.1818,  0.0371,  ..., -0.0168, -0.2626, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09,  4.6566e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [-1.2573e-08,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -2.7940e-08,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  1.3970e-09, -4.6566e-10,  ...,  0.0000e+00,
+          1.3970e-09,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  1.3970e-09, -9.3132e-10,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00]], device='cuda:0')
+Epoch 456, bias, value: tensor([-0.0060,  0.0136, -0.0220,  0.0191,  0.0267, -0.0170, -0.0177, -0.0107,
+        -0.0346, -0.0320], device='cuda:0'), grad: tensor([ 1.1176e-08,  5.1223e-09, -5.8208e-08,  4.9360e-08,  4.8429e-08,
+         1.8626e-08, -2.2817e-08, -8.3819e-09,  4.6566e-10, -4.7963e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 455, time 216.84, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4074 re_mapping 0.0021 re_causal 0.0081 /// teacc 99.11 lr 0.00001000
+Epoch 457, weight, value: tensor([[-0.3300, -0.1889, -0.0969,  ..., -0.0041, -0.0694, -0.0169],
+        [-0.1558,  0.1460, -0.0951,  ...,  0.0245, -0.0696, -0.0819],
+        [ 0.1512, -0.1907, -0.1843,  ..., -0.0711,  0.1796, -0.0337],
+        ...,
+        [-0.1896, -0.1103,  0.1339,  ...,  0.0306, -0.2342, -0.0030],
+        [ 0.1137, -0.0167, -0.3379,  ..., -0.0693,  0.1853, -0.0380],
+        [-0.2393, -0.1819,  0.0372,  ..., -0.0168, -0.2627, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 2.7940e-09,  6.0536e-09,  0.0000e+00,  ...,  0.0000e+00,
+          3.2596e-09,  0.0000e+00],
+        [ 4.6566e-10, -1.0245e-08,  0.0000e+00,  ...,  0.0000e+00,
+          1.3970e-09,  0.0000e+00],
+        [-2.7940e-09,  1.3970e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -3.2596e-09,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+          4.1910e-09,  0.0000e+00],
+        [ 1.8626e-09,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-09,  0.0000e+00],
+        [ 9.3132e-10,  5.1223e-09, -4.6566e-10,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00]], device='cuda:0')
+Epoch 457, bias, value: tensor([-0.0060,  0.0136, -0.0219,  0.0191,  0.0267, -0.0170, -0.0177, -0.0108,
+        -0.0347, -0.0320], device='cuda:0'), grad: tensor([ 2.0489e-08, -1.1176e-08, -7.9162e-09, -4.9314e-07,  5.1223e-09,
+         4.5076e-07, -2.0023e-08,  1.8626e-08,  1.3970e-08,  1.4435e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 456, time 216.62, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4238 re_mapping 0.0022 re_causal 0.0083 /// teacc 99.10 lr 0.00001000
+Epoch 458, weight, value: tensor([[-0.3301, -0.1889, -0.0969,  ..., -0.0041, -0.0694, -0.0169],
+        [-0.1558,  0.1460, -0.0951,  ...,  0.0245, -0.0696, -0.0819],
+        [ 0.1513, -0.1907, -0.1843,  ..., -0.0711,  0.1797, -0.0337],
+        ...,
+        [-0.1897, -0.1104,  0.1340,  ...,  0.0306, -0.2344, -0.0030],
+        [ 0.1137, -0.0167, -0.3379,  ..., -0.0693,  0.1853, -0.0380],
+        [-0.2394, -0.1819,  0.0371,  ..., -0.0168, -0.2627, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.3970e-09,  0.0000e+00],
+        [-5.1223e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -9.7789e-09,  0.0000e+00],
+        ...,
+        [ 2.3283e-09,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [ 3.2596e-09,  1.3970e-09,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 4.6566e-10,  0.0000e+00, -1.3970e-09,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00]], device='cuda:0')
+Epoch 458, bias, value: tensor([-0.0060,  0.0136, -0.0219,  0.0191,  0.0267, -0.0170, -0.0177, -0.0108,
+        -0.0348, -0.0320], device='cuda:0'), grad: tensor([-2.4959e-07,  6.9849e-09, -6.9849e-09,  2.5611e-08,  1.6764e-08,
+        -4.1910e-09,  6.9849e-09,  2.4214e-08,  1.4435e-08,  1.8207e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 457, time 216.66, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.3982 re_mapping 0.0021 re_causal 0.0082 /// teacc 99.10 lr 0.00001000
+Epoch 459, weight, value: tensor([[-0.3301, -0.1890, -0.0969,  ..., -0.0041, -0.0694, -0.0169],
+        [-0.1559,  0.1461, -0.0951,  ...,  0.0245, -0.0696, -0.0819],
+        [ 0.1514, -0.1908, -0.1843,  ..., -0.0711,  0.1799, -0.0337],
+        ...,
+        [-0.1898, -0.1104,  0.1340,  ...,  0.0306, -0.2345, -0.0030],
+        [ 0.1137, -0.0168, -0.3379,  ..., -0.0693,  0.1854, -0.0380],
+        [-0.2395, -0.1820,  0.0371,  ..., -0.0168, -0.2627, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00, -6.9849e-09,  1.3970e-09,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 0.0000e+00,  2.3283e-09,  2.3283e-09,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  3.7253e-09, -5.1223e-09,  ...,  0.0000e+00,
+          1.9558e-08,  0.0000e+00],
+        [ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -2.3283e-09,  0.0000e+00],
+        [ 1.3970e-09,  3.1199e-08, -4.6566e-10,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00]], device='cuda:0')
+Epoch 459, bias, value: tensor([-0.0060,  0.0136, -0.0218,  0.0191,  0.0268, -0.0171, -0.0177, -0.0108,
+        -0.0348, -0.0320], device='cuda:0'), grad: tensor([-4.6566e-10,  1.3970e-09,  1.5832e-08, -4.7497e-08, -1.1642e-07,
+        -1.8626e-08,  9.3132e-10,  4.7497e-08, -1.3970e-09,  1.0896e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 458, time 217.27, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4024 re_mapping 0.0021 re_causal 0.0080 /// teacc 99.12 lr 0.00001000
+Epoch 460, weight, value: tensor([[-0.3302, -0.1890, -0.0969,  ..., -0.0041, -0.0694, -0.0169],
+        [-0.1559,  0.1461, -0.0951,  ...,  0.0245, -0.0697, -0.0819],
+        [ 0.1515, -0.1909, -0.1843,  ..., -0.0711,  0.1799, -0.0337],
+        ...,
+        [-0.1898, -0.1105,  0.1340,  ...,  0.0306, -0.2345, -0.0030],
+        [ 0.1137, -0.0168, -0.3379,  ..., -0.0693,  0.1854, -0.0380],
+        [-0.2396, -0.1821,  0.0371,  ..., -0.0168, -0.2627, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  6.9849e-10,  2.3283e-10,  ...,  0.0000e+00,
+          2.5611e-09,  0.0000e+00],
+        [ 1.6298e-09,  3.9581e-09,  2.3283e-10,  ...,  0.0000e+00,
+          4.4238e-09,  0.0000e+00],
+        [-1.1874e-08,  1.1642e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -2.7241e-08,  0.0000e+00],
+        ...,
+        [ 4.1910e-09,  7.2177e-09,  2.3283e-10,  ...,  0.0000e+00,
+          1.1642e-08,  0.0000e+00],
+        [ 4.6566e-09,  1.6298e-09,  2.3283e-10,  ...,  0.0000e+00,
+          1.1176e-08,  0.0000e+00],
+        [ 0.0000e+00,  1.5204e-07,  6.9849e-10,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 460, bias, value: tensor([-0.0060,  0.0137, -0.0218,  0.0191,  0.0268, -0.0172, -0.0177, -0.0108,
+        -0.0348, -0.0321], device='cuda:0'), grad: tensor([ 4.8894e-09,  5.9139e-08, -5.6811e-08,  1.9791e-08, -5.3737e-07,
+         8.5216e-08,  2.7474e-08, -4.2142e-08,  5.3085e-08,  4.0536e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 459, time 217.03, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4203 re_mapping 0.0021 re_causal 0.0081 /// teacc 99.11 lr 0.00001000
+Epoch 461, weight, value: tensor([[-0.3302, -0.1892, -0.0969,  ..., -0.0041, -0.0694, -0.0169],
+        [-0.1559,  0.1462, -0.0952,  ...,  0.0245, -0.0697, -0.0819],
+        [ 0.1515, -0.1910, -0.1843,  ..., -0.0711,  0.1800, -0.0337],
+        ...,
+        [-0.1898, -0.1105,  0.1341,  ...,  0.0306, -0.2346, -0.0030],
+        [ 0.1137, -0.0169, -0.3379,  ..., -0.0693,  0.1855, -0.0380],
+        [-0.2396, -0.1821,  0.0371,  ..., -0.0168, -0.2627, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  1.1642e-09, -9.0804e-09,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [ 2.3283e-10,  2.3283e-10,  4.6566e-10,  ...,  0.0000e+00,
+          6.7521e-09,  0.0000e+00],
+        [ 2.3283e-10,  2.3283e-10,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-09,  0.0000e+00],
+        ...,
+        [ 2.3283e-10,  1.6298e-09, -4.6566e-10,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [-3.7253e-09, -9.3132e-10,  9.3132e-10,  ...,  0.0000e+00,
+         -3.0268e-09,  0.0000e+00],
+        [ 6.9849e-10,  1.4668e-08,  2.3283e-10,  ...,  0.0000e+00,
+          1.6298e-09,  0.0000e+00]], device='cuda:0')
+Epoch 461, bias, value: tensor([-0.0060,  0.0136, -0.0218,  0.0191,  0.0268, -0.0172, -0.0176, -0.0108,
+        -0.0348, -0.0321], device='cuda:0'), grad: tensor([-1.9907e-07,  5.2853e-08,  6.1234e-08,  1.9791e-08,  3.5623e-08,
+         1.0012e-07,  2.4447e-08, -1.2922e-07,  3.9581e-09,  3.7719e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 460, time 216.83, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.3931 re_mapping 0.0021 re_causal 0.0079 /// teacc 99.12 lr 0.00001000
+Epoch 462, weight, value: tensor([[-0.3302, -0.1892, -0.0969,  ..., -0.0041, -0.0694, -0.0169],
+        [-0.1560,  0.1463, -0.0952,  ...,  0.0245, -0.0698, -0.0819],
+        [ 0.1516, -0.1910, -0.1844,  ..., -0.0711,  0.1801, -0.0337],
+        ...,
+        [-0.1899, -0.1106,  0.1342,  ...,  0.0306, -0.2348, -0.0030],
+        [ 0.1137, -0.0169, -0.3380,  ..., -0.0693,  0.1855, -0.0380],
+        [-0.2397, -0.1821,  0.0371,  ..., -0.0168, -0.2627, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 2.0955e-09,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 6.9849e-10,  3.0268e-09,  2.3283e-10,  ...,  0.0000e+00,
+          2.3283e-10,  0.0000e+00],
+        [ 4.6566e-10,  1.6298e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -3.4925e-09,  0.0000e+00],
+        ...,
+        [ 2.3283e-10,  2.3283e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.1642e-09,  0.0000e+00],
+        [-9.5461e-09, -6.0536e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -8.1491e-09,  0.0000e+00],
+        [ 1.1642e-09,  9.1968e-08,  1.6298e-09,  ...,  0.0000e+00,
+          6.9849e-10,  0.0000e+00]], device='cuda:0')
+Epoch 462, bias, value: tensor([-0.0060,  0.0137, -0.0217,  0.0192,  0.0268, -0.0172, -0.0177, -0.0109,
+        -0.0349, -0.0321], device='cuda:0'), grad: tensor([ 3.4925e-09,  1.5832e-08, -5.1223e-09,  1.4901e-08,  6.8452e-08,
+         2.9104e-08, -8.1724e-08,  7.2876e-08, -2.3283e-08, -7.2876e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 461, time 216.84, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4043 re_mapping 0.0021 re_causal 0.0081 /// teacc 99.11 lr 0.00001000
+Epoch 463, weight, value: tensor([[-0.3303, -0.1893, -0.0969,  ..., -0.0041, -0.0694, -0.0169],
+        [-0.1560,  0.1463, -0.0952,  ...,  0.0245, -0.0698, -0.0819],
+        [ 0.1517, -0.1911, -0.1843,  ..., -0.0711,  0.1803, -0.0337],
+        ...,
+        [-0.1899, -0.1106,  0.1342,  ...,  0.0306, -0.2349, -0.0030],
+        [ 0.1137, -0.0169, -0.3380,  ..., -0.0693,  0.1856, -0.0380],
+        [-0.2398, -0.1822,  0.0371,  ..., -0.0168, -0.2628, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  6.9849e-10,  2.3283e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -1.1409e-08,  2.3283e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  6.2864e-09, -4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 6.9849e-10,  1.3970e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  3.0268e-09, -3.4925e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 463, bias, value: tensor([-0.0060,  0.0137, -0.0217,  0.0192,  0.0268, -0.0173, -0.0177, -0.0109,
+        -0.0349, -0.0321], device='cuda:0'), grad: tensor([-8.3819e-09, -1.2573e-08,  6.9849e-09,  7.6834e-09,  5.6811e-08,
+         6.9849e-09,  7.2177e-09,  1.6298e-09,  1.1409e-08, -5.5181e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 462, time 217.01, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4287 re_mapping 0.0021 re_causal 0.0083 /// teacc 99.13 lr 0.00001000
+Epoch 464, weight, value: tensor([[-0.3303, -0.1893, -0.0969,  ..., -0.0041, -0.0694, -0.0169],
+        [-0.1562,  0.1464, -0.0952,  ...,  0.0245, -0.0699, -0.0819],
+        [ 0.1518, -0.1912, -0.1844,  ..., -0.0711,  0.1804, -0.0337],
+        ...,
+        [-0.1898, -0.1107,  0.1342,  ...,  0.0306, -0.2350, -0.0030],
+        [ 0.1138, -0.0170, -0.3380,  ..., -0.0693,  0.1857, -0.0380],
+        [-0.2399, -0.1822,  0.0371,  ..., -0.0168, -0.2628, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+          1.0943e-08,  0.0000e+00],
+        [ 0.0000e+00, -1.0710e-08,  2.3283e-10,  ...,  0.0000e+00,
+          2.3283e-10,  0.0000e+00],
+        [ 0.0000e+00,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          6.9849e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.8859e-08,  6.7521e-09,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 2.3283e-10,  6.9849e-10,  0.0000e+00,  ...,  0.0000e+00,
+          6.9849e-10,  0.0000e+00],
+        [ 2.3283e-10,  5.5879e-09, -2.9569e-08,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 464, bias, value: tensor([-0.0060,  0.0136, -0.0217,  0.0192,  0.0268, -0.0173, -0.0177, -0.0108,
+        -0.0349, -0.0321], device='cuda:0'), grad: tensor([ 6.4261e-08, -1.3970e-08,  1.1642e-08, -4.9127e-08,  4.8662e-08,
+         3.0734e-08,  3.0268e-09,  1.5064e-07,  8.8476e-09, -2.4587e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 463, time 216.94, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.3987 re_mapping 0.0022 re_causal 0.0082 /// teacc 99.12 lr 0.00001000
+Epoch 465, weight, value: tensor([[-0.3304, -0.1894, -0.0970,  ..., -0.0041, -0.0694, -0.0169],
+        [-0.1562,  0.1464, -0.0952,  ...,  0.0245, -0.0700, -0.0819],
+        [ 0.1520, -0.1913, -0.1844,  ..., -0.0711,  0.1805, -0.0337],
+        ...,
+        [-0.1899, -0.1107,  0.1343,  ...,  0.0306, -0.2352, -0.0030],
+        [ 0.1138, -0.0171, -0.3380,  ..., -0.0693,  0.1857, -0.0380],
+        [-0.2399, -0.1823,  0.0371,  ..., -0.0168, -0.2628, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 4.1910e-09,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.1642e-09,  0.0000e+00],
+        [ 9.3132e-10, -3.2596e-09,  2.3283e-10,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [-4.6566e-09,  9.3132e-10, -2.3283e-10,  ...,  0.0000e+00,
+         -2.8405e-08,  0.0000e+00],
+        ...,
+        [ 6.9849e-10,  3.4925e-09,  0.0000e+00,  ...,  0.0000e+00,
+          4.8894e-09,  0.0000e+00],
+        [ 1.2340e-08,  1.0012e-08,  0.0000e+00,  ...,  0.0000e+00,
+          3.0268e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.3970e-09, -2.7940e-09,  ...,  0.0000e+00,
+          2.3283e-10,  0.0000e+00]], device='cuda:0')
+Epoch 465, bias, value: tensor([-0.0060,  0.0136, -0.0216,  0.0192,  0.0268, -0.0173, -0.0177, -0.0109,
+        -0.0349, -0.0321], device='cuda:0'), grad: tensor([ 1.0943e-08,  6.9849e-10, -8.7079e-08,  9.4529e-08,  2.2352e-08,
+         4.4005e-08, -7.8697e-08, -6.2864e-09,  3.7020e-08, -2.0023e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 464, time 216.78, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4000 re_mapping 0.0022 re_causal 0.0081 /// teacc 99.13 lr 0.00001000
+Epoch 466, weight, value: tensor([[-0.3304, -0.1894, -0.0970,  ..., -0.0041, -0.0694, -0.0169],
+        [-0.1563,  0.1464, -0.0953,  ...,  0.0245, -0.0700, -0.0819],
+        [ 0.1520, -0.1913, -0.1844,  ..., -0.0711,  0.1806, -0.0337],
+        ...,
+        [-0.1899, -0.1107,  0.1343,  ...,  0.0306, -0.2353, -0.0030],
+        [ 0.1138, -0.0171, -0.3380,  ..., -0.0693,  0.1858, -0.0380],
+        [-0.2400, -0.1823,  0.0371,  ..., -0.0168, -0.2628, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [-2.3283e-10,  1.1642e-09, -9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-7.2177e-09, -4.6566e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -6.0536e-09,  0.0000e+00],
+        [ 1.1642e-09,  3.4925e-09, -6.9849e-10,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00]], device='cuda:0')
+Epoch 466, bias, value: tensor([-0.0059,  0.0136, -0.0216,  0.0193,  0.0268, -0.0174, -0.0177, -0.0109,
+        -0.0350, -0.0321], device='cuda:0'), grad: tensor([ 7.6834e-09,  9.0804e-09,  2.4959e-07,  2.9337e-08,  5.0291e-08,
+        -1.6065e-08,  6.5193e-09, -2.5728e-07, -1.4901e-08, -6.1933e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 465, time 217.13, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4330 re_mapping 0.0021 re_causal 0.0084 /// teacc 99.15 lr 0.00001000
+Epoch 467, weight, value: tensor([[-0.3304, -0.1895, -0.0970,  ..., -0.0041, -0.0694, -0.0169],
+        [-0.1564,  0.1466, -0.0953,  ...,  0.0245, -0.0701, -0.0819],
+        [ 0.1522, -0.1914, -0.1844,  ..., -0.0711,  0.1808, -0.0337],
+        ...,
+        [-0.1900, -0.1108,  0.1344,  ...,  0.0306, -0.2354, -0.0030],
+        [ 0.1138, -0.0172, -0.3381,  ..., -0.0693,  0.1858, -0.0380],
+        [-0.2401, -0.1824,  0.0372,  ..., -0.0168, -0.2628, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  4.6566e-10,  4.6566e-10,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 9.3132e-10,  4.4238e-09,  0.0000e+00,  ...,  0.0000e+00,
+          4.4238e-09,  0.0000e+00],
+        [-2.7940e-09,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          8.3819e-09,  0.0000e+00],
+        ...,
+        [ 2.3283e-09,  3.2596e-09,  1.3970e-09,  ...,  0.0000e+00,
+          8.6147e-09,  0.0000e+00],
+        [-2.5611e-09, -9.3132e-10,  2.3283e-10,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 4.6566e-10,  3.8184e-08, -8.8476e-09,  ...,  0.0000e+00,
+          1.3970e-09,  0.0000e+00]], device='cuda:0')
+Epoch 467, bias, value: tensor([-0.0059,  0.0137, -0.0216,  0.0192,  0.0268, -0.0174, -0.0178, -0.0109,
+        -0.0351, -0.0321], device='cuda:0'), grad: tensor([ 2.6543e-08,  4.0513e-08,  2.9802e-08, -6.6357e-08, -1.8743e-07,
+         3.6322e-08,  2.1653e-08,  5.7742e-08,  6.0536e-09,  4.0513e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 466, time 216.82, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4040 re_mapping 0.0022 re_causal 0.0082 /// teacc 99.14 lr 0.00001000
+Epoch 468, weight, value: tensor([[-0.3305, -0.1895, -0.0970,  ..., -0.0041, -0.0694, -0.0169],
+        [-0.1564,  0.1466, -0.0954,  ...,  0.0245, -0.0702, -0.0819],
+        [ 0.1522, -0.1915, -0.1844,  ..., -0.0711,  0.1809, -0.0337],
+        ...,
+        [-0.1901, -0.1108,  0.1345,  ...,  0.0306, -0.2355, -0.0030],
+        [ 0.1137, -0.0172, -0.3381,  ..., -0.0693,  0.1859, -0.0380],
+        [-0.2401, -0.1825,  0.0372,  ..., -0.0168, -0.2628, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 2.5611e-09,  1.3970e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.3970e-09,  0.0000e+00],
+        [ 1.6298e-09, -2.0955e-09,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-10,  0.0000e+00],
+        [ 1.8626e-09,  1.6298e-09,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  4.1910e-09,  2.3283e-10,  ...,  0.0000e+00,
+          3.2596e-09,  0.0000e+00],
+        [-1.5832e-08, -2.0955e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.5367e-08,  0.0000e+00],
+        [ 4.6566e-10,  3.0617e-07, -9.3132e-10,  ...,  0.0000e+00,
+          1.1642e-09,  0.0000e+00]], device='cuda:0')
+Epoch 468, bias, value: tensor([-0.0059,  0.0136, -0.0216,  0.0193,  0.0269, -0.0173, -0.0178, -0.0109,
+        -0.0352, -0.0321], device='cuda:0'), grad: tensor([-8.1491e-09,  1.0943e-08,  1.6764e-08, -1.2806e-08, -9.4203e-07,
+         4.0745e-08,  7.2643e-08,  3.9116e-08, -4.5635e-08,  8.4378e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 467, time 216.77, cls_loss 0.0006 cls_loss_mapping 0.0003 cls_loss_causal 0.4559 re_mapping 0.0021 re_causal 0.0084 /// teacc 99.12 lr 0.00001000
+Epoch 469, weight, value: tensor([[-0.3305, -0.1898, -0.0970,  ..., -0.0041, -0.0695, -0.0169],
+        [-0.1565,  0.1466, -0.0954,  ...,  0.0245, -0.0703, -0.0819],
+        [ 0.1524, -0.1916, -0.1844,  ..., -0.0711,  0.1810, -0.0337],
+        ...,
+        [-0.1902, -0.1109,  0.1346,  ...,  0.0306, -0.2357, -0.0030],
+        [ 0.1137, -0.0172, -0.3381,  ..., -0.0693,  0.1860, -0.0380],
+        [-0.2403, -0.1826,  0.0372,  ..., -0.0168, -0.2628, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-10,  6.9849e-10,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 9.3132e-10, -6.0536e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.1642e-09,  0.0000e+00],
+        [-6.2864e-09,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -1.0477e-08,  0.0000e+00],
+        ...,
+        [ 1.3970e-09,  3.4925e-09,  2.3283e-10,  ...,  0.0000e+00,
+          5.8208e-09,  0.0000e+00],
+        [-4.1910e-09,  2.5611e-09,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-10,  0.0000e+00],
+        [ 4.6566e-10,  2.3283e-10, -9.3132e-10,  ...,  0.0000e+00,
+          6.9849e-10,  0.0000e+00]], device='cuda:0')
+Epoch 469, bias, value: tensor([-0.0059,  0.0136, -0.0215,  0.0194,  0.0269, -0.0173, -0.0179, -0.0110,
+        -0.0352, -0.0322], device='cuda:0'), grad: tensor([ 8.6147e-09,  2.3283e-09, -7.9162e-09, -2.0000e-07,  1.6764e-08,
+         1.8580e-07,  3.2596e-09,  5.3551e-09,  3.4925e-09, -6.9849e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 468, time 216.89, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4111 re_mapping 0.0021 re_causal 0.0083 /// teacc 99.10 lr 0.00001000
+Epoch 470, weight, value: tensor([[-0.3306, -0.1898, -0.0970,  ..., -0.0041, -0.0695, -0.0169],
+        [-0.1566,  0.1466, -0.0954,  ...,  0.0245, -0.0704, -0.0819],
+        [ 0.1525, -0.1917, -0.1844,  ..., -0.0711,  0.1812, -0.0337],
+        ...,
+        [-0.1903, -0.1109,  0.1346,  ...,  0.0306, -0.2360, -0.0030],
+        [ 0.1137, -0.0173, -0.3381,  ..., -0.0693,  0.1861, -0.0380],
+        [-0.2404, -0.1827,  0.0371,  ..., -0.0168, -0.2629, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09, -5.1223e-09,  0.0000e+00,  ...,  0.0000e+00,
+          4.2375e-08,  0.0000e+00],
+        [ 9.3132e-10,  1.1874e-08,  1.6298e-09,  ...,  0.0000e+00,
+          2.9104e-08,  0.0000e+00],
+        [ 3.8883e-08,  1.2340e-08,  2.3283e-10,  ...,  0.0000e+00,
+          7.8697e-08,  0.0000e+00],
+        ...,
+        [ 2.3283e-10, -4.6566e-10, -2.0955e-09,  ...,  0.0000e+00,
+          4.0047e-08,  0.0000e+00],
+        [ 1.6298e-09,  1.6298e-09,  0.0000e+00,  ...,  0.0000e+00,
+          3.2131e-08,  0.0000e+00],
+        [ 6.9849e-10,  4.1677e-08,  0.0000e+00,  ...,  0.0000e+00,
+          2.3749e-08,  0.0000e+00]], device='cuda:0')
+Epoch 470, bias, value: tensor([-0.0059,  0.0135, -0.0214,  0.0194,  0.0270, -0.0174, -0.0179, -0.0110,
+        -0.0353, -0.0322], device='cuda:0'), grad: tensor([ 6.2399e-08,  1.2759e-07,  2.9290e-07, -7.1712e-07, -3.8021e-07,
+         6.2631e-08,  1.1036e-07,  1.1479e-07,  1.0617e-07,  2.2398e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 469, time 217.01, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.3916 re_mapping 0.0021 re_causal 0.0079 /// teacc 99.10 lr 0.00001000
+Epoch 471, weight, value: tensor([[-0.3307, -0.1899, -0.0970,  ..., -0.0041, -0.0695, -0.0169],
+        [-0.1566,  0.1466, -0.0955,  ...,  0.0245, -0.0704, -0.0819],
+        [ 0.1526, -0.1917, -0.1844,  ..., -0.0711,  0.1813, -0.0337],
+        ...,
+        [-0.1903, -0.1109,  0.1347,  ...,  0.0306, -0.2361, -0.0030],
+        [ 0.1137, -0.0173, -0.3381,  ..., -0.0693,  0.1861, -0.0380],
+        [-0.2405, -0.1828,  0.0371,  ..., -0.0168, -0.2629, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.0804e-09,  0.0000e+00],
+        [ 0.0000e+00, -3.4925e-09,  1.3970e-09,  ...,  0.0000e+00,
+          1.1874e-08,  0.0000e+00],
+        [-6.9849e-10,  6.9849e-10,  4.6566e-10,  ...,  0.0000e+00,
+         -3.1432e-08,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  4.4238e-09, -6.2864e-09,  ...,  0.0000e+00,
+          9.3132e-09,  0.0000e+00],
+        [ 5.3551e-09,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-09,  0.0000e+00],
+        [ 4.6566e-10,  6.7521e-09,  1.1642e-09,  ...,  0.0000e+00,
+          1.6298e-09,  0.0000e+00]], device='cuda:0')
+Epoch 471, bias, value: tensor([-0.0059,  0.0135, -0.0214,  0.0193,  0.0270, -0.0173, -0.0179, -0.0110,
+        -0.0353, -0.0322], device='cuda:0'), grad: tensor([-1.0408e-07,  3.6554e-08, -3.1665e-08,  1.4901e-08, -7.2177e-09,
+        -5.3551e-08,  7.0781e-08, -6.7521e-09,  2.2817e-08,  7.5204e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 470, time 216.89, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.3974 re_mapping 0.0021 re_causal 0.0079 /// teacc 99.13 lr 0.00001000
+Epoch 472, weight, value: tensor([[-0.3307, -0.1900, -0.0971,  ..., -0.0041, -0.0695, -0.0169],
+        [-0.1567,  0.1466, -0.0955,  ...,  0.0245, -0.0704, -0.0819],
+        [ 0.1527, -0.1918, -0.1844,  ..., -0.0711,  0.1814, -0.0337],
+        ...,
+        [-0.1904, -0.1109,  0.1347,  ...,  0.0306, -0.2362, -0.0030],
+        [ 0.1137, -0.0174, -0.3382,  ..., -0.0693,  0.1862, -0.0380],
+        [-0.2407, -0.1829,  0.0371,  ..., -0.0168, -0.2629, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  4.6566e-10,  2.3283e-10,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 4.6566e-09, -1.6298e-09,  0.0000e+00,  ...,  0.0000e+00,
+          5.3551e-09,  0.0000e+00],
+        [-1.0524e-07,  2.3283e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -1.1642e-07,  0.0000e+00],
+        ...,
+        [ 9.3365e-08,  1.3970e-09,  4.6566e-10,  ...,  0.0000e+00,
+          1.0245e-07,  0.0000e+00],
+        [ 4.6566e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 3.9581e-09,  3.2596e-09, -2.7940e-09,  ...,  0.0000e+00,
+          6.9849e-10,  0.0000e+00]], device='cuda:0')
+Epoch 472, bias, value: tensor([-0.0059,  0.0135, -0.0214,  0.0193,  0.0270, -0.0172, -0.0179, -0.0110,
+        -0.0353, -0.0323], device='cuda:0'), grad: tensor([ 6.7521e-09,  2.2585e-08, -4.4098e-07,  2.9569e-08, -3.7253e-09,
+        -3.7719e-08,  5.8208e-09,  3.7998e-07,  2.0955e-08,  2.4913e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 471, time 216.79, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4315 re_mapping 0.0021 re_causal 0.0082 /// teacc 99.10 lr 0.00001000
+Epoch 473, weight, value: tensor([[-0.3308, -0.1901, -0.0971,  ..., -0.0041, -0.0695, -0.0169],
+        [-0.1567,  0.1467, -0.0955,  ...,  0.0245, -0.0706, -0.0819],
+        [ 0.1528, -0.1919, -0.1845,  ..., -0.0711,  0.1816, -0.0337],
+        ...,
+        [-0.1905, -0.1110,  0.1348,  ...,  0.0306, -0.2364, -0.0030],
+        [ 0.1138, -0.0174, -0.3382,  ..., -0.0693,  0.1863, -0.0380],
+        [-0.2409, -0.1830,  0.0371,  ..., -0.0168, -0.2630, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 3.2596e-09,  6.9849e-10,  4.6566e-10,  ...,  0.0000e+00,
+          5.3551e-09,  0.0000e+00],
+        [ 4.1910e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          8.1491e-09,  0.0000e+00],
+        [-8.8010e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.7253e-07,  0.0000e+00],
+        ...,
+        [ 6.3796e-08,  2.3283e-10,  9.3132e-10,  ...,  0.0000e+00,
+          1.1665e-07,  0.0000e+00],
+        [ 1.0477e-08,  4.6566e-10,  2.3283e-10,  ...,  0.0000e+00,
+          1.3970e-09,  0.0000e+00],
+        [ 1.1642e-09, -2.7707e-08, -4.8894e-09,  ...,  0.0000e+00,
+          1.6298e-09,  0.0000e+00]], device='cuda:0')
+Epoch 473, bias, value: tensor([-0.0059,  0.0135, -0.0214,  0.0193,  0.0271, -0.0171, -0.0179, -0.0110,
+        -0.0353, -0.0323], device='cuda:0'), grad: tensor([ 3.0966e-08,  4.0978e-08, -7.0548e-07,  1.3900e-07,  6.5612e-07,
+        -3.9116e-08,  2.6543e-08,  4.6776e-07,  3.7951e-08, -6.3656e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 472, time 217.07, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4038 re_mapping 0.0020 re_causal 0.0081 /// teacc 99.13 lr 0.00001000
+Epoch 474, weight, value: tensor([[-0.3309, -0.1904, -0.0971,  ..., -0.0041, -0.0695, -0.0169],
+        [-0.1570,  0.1468, -0.0956,  ...,  0.0245, -0.0707, -0.0819],
+        [ 0.1530, -0.1920, -0.1845,  ..., -0.0711,  0.1818, -0.0337],
+        ...,
+        [-0.1905, -0.1111,  0.1349,  ...,  0.0306, -0.2366, -0.0030],
+        [ 0.1138, -0.0174, -0.3382,  ..., -0.0693,  0.1863, -0.0380],
+        [-0.2410, -0.1831,  0.0371,  ..., -0.0168, -0.2630, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          6.9849e-10,  0.0000e+00],
+        [ 0.0000e+00, -1.3970e-09,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [-2.5611e-09,  6.9849e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -4.6566e-09,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.1642e-09,  0.0000e+00],
+        [ 6.9849e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 2.3283e-10,  1.0710e-08,  0.0000e+00,  ...,  0.0000e+00,
+          2.3283e-10,  0.0000e+00]], device='cuda:0')
+Epoch 474, bias, value: tensor([-0.0059,  0.0135, -0.0213,  0.0193,  0.0271, -0.0171, -0.0178, -0.0111,
+        -0.0354, -0.0323], device='cuda:0'), grad: tensor([-1.1409e-08, -2.3283e-10, -6.7521e-09, -2.9569e-08, -2.7241e-08,
+         2.3050e-08,  3.4925e-09,  1.5134e-08,  7.6834e-09,  3.3062e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 473, time 216.94, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4268 re_mapping 0.0020 re_causal 0.0083 /// teacc 99.12 lr 0.00001000
+Epoch 475, weight, value: tensor([[-0.3310, -0.1904, -0.0971,  ..., -0.0041, -0.0695, -0.0169],
+        [-0.1570,  0.1468, -0.0956,  ...,  0.0245, -0.0708, -0.0819],
+        [ 0.1531, -0.1921, -0.1845,  ..., -0.0711,  0.1820, -0.0337],
+        ...,
+        [-0.1905, -0.1111,  0.1349,  ...,  0.0306, -0.2367, -0.0030],
+        [ 0.1138, -0.0175, -0.3382,  ..., -0.0693,  0.1864, -0.0380],
+        [-0.2411, -0.1832,  0.0370,  ..., -0.0168, -0.2630, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  1.3970e-09,  2.3283e-10,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 6.9849e-10,  8.8476e-09,  7.4506e-09,  ...,  0.0000e+00,
+          2.3283e-10,  0.0000e+00],
+        [ 4.6566e-10,  1.6298e-09,  1.1642e-09,  ...,  0.0000e+00,
+          2.3283e-10,  0.0000e+00],
+        ...,
+        [ 4.6566e-10, -8.8476e-09, -1.1409e-08,  ...,  0.0000e+00,
+          1.1642e-09,  0.0000e+00],
+        [-2.4680e-08,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.8859e-08,  0.0000e+00],
+        [ 0.0000e+00,  6.7288e-08,  3.4925e-09,  ...,  0.0000e+00,
+          2.3283e-10,  0.0000e+00]], device='cuda:0')
+Epoch 475, bias, value: tensor([-0.0059,  0.0135, -0.0212,  0.0193,  0.0271, -0.0171, -0.0177, -0.0111,
+        -0.0354, -0.0324], device='cuda:0'), grad: tensor([ 9.7789e-09,  8.3353e-08,  1.4435e-08,  1.1642e-09, -1.3295e-07,
+         4.6799e-08, -1.3271e-08, -1.1292e-07, -3.3993e-08,  1.4040e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 474, time 217.03, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4239 re_mapping 0.0021 re_causal 0.0083 /// teacc 99.13 lr 0.00001000
+Epoch 476, weight, value: tensor([[-0.3311, -0.1906, -0.0971,  ..., -0.0041, -0.0695, -0.0169],
+        [-0.1570,  0.1468, -0.0956,  ...,  0.0245, -0.0708, -0.0819],
+        [ 0.1532, -0.1922, -0.1845,  ..., -0.0711,  0.1821, -0.0337],
+        ...,
+        [-0.1906, -0.1111,  0.1350,  ...,  0.0306, -0.2369, -0.0030],
+        [ 0.1138, -0.0176, -0.3382,  ..., -0.0693,  0.1864, -0.0380],
+        [-0.2411, -0.1833,  0.0370,  ..., -0.0168, -0.2630, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  4.1910e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.0710e-08, -5.5879e-09, -1.3970e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 6.0536e-09,  6.9849e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.7695e-08,  2.7940e-09,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 1.8626e-09,  1.3970e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  6.0536e-09, -3.2596e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 476, bias, value: tensor([-0.0060,  0.0135, -0.0211,  0.0193,  0.0272, -0.0171, -0.0177, -0.0111,
+        -0.0355, -0.0324], device='cuda:0'), grad: tensor([ 1.4901e-08,  8.8476e-09,  1.9092e-08,  2.7940e-08,  1.0524e-07,
+         5.5879e-09, -1.0850e-07,  6.1002e-08,  1.2573e-08, -1.3271e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 475, time 216.86, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4111 re_mapping 0.0020 re_causal 0.0081 /// teacc 99.14 lr 0.00001000
+Epoch 477, weight, value: tensor([[-0.3311, -0.1906, -0.0971,  ..., -0.0041, -0.0695, -0.0169],
+        [-0.1572,  0.1469, -0.0957,  ...,  0.0245, -0.0708, -0.0819],
+        [ 0.1534, -0.1923, -0.1845,  ..., -0.0711,  0.1823, -0.0337],
+        ...,
+        [-0.1906, -0.1112,  0.1351,  ...,  0.0306, -0.2371, -0.0030],
+        [ 0.1138, -0.0176, -0.3382,  ..., -0.0693,  0.1865, -0.0380],
+        [-0.2412, -0.1834,  0.0370,  ..., -0.0168, -0.2630, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-10,  0.0000e+00],
+        [ 6.0536e-09, -1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          7.9162e-09,  0.0000e+00],
+        [-1.3504e-08,  0.0000e+00,  4.6566e-10,  ...,  0.0000e+00,
+         -1.7695e-08,  0.0000e+00],
+        ...,
+        [ 5.1223e-09,  1.8626e-09, -4.6566e-10,  ...,  0.0000e+00,
+          6.5193e-09,  0.0000e+00],
+        [ 1.8626e-09,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  2.3283e-09, -9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 477, bias, value: tensor([-0.0060,  0.0134, -0.0210,  0.0193,  0.0272, -0.0172, -0.0177, -0.0111,
+        -0.0355, -0.0325], device='cuda:0'), grad: tensor([-2.7940e-09,  3.3993e-08, -1.1176e-08,  2.7940e-09,  2.1886e-08,
+         3.2596e-09, -2.7940e-09, -3.3528e-08,  1.0710e-08, -1.3970e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 476, time 216.95, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4346 re_mapping 0.0020 re_causal 0.0083 /// teacc 99.08 lr 0.00001000
+Epoch 478, weight, value: tensor([[-0.3312, -0.1907, -0.0971,  ..., -0.0041, -0.0695, -0.0169],
+        [-0.1573,  0.1469, -0.0958,  ...,  0.0245, -0.0708, -0.0819],
+        [ 0.1535, -0.1924, -0.1845,  ..., -0.0711,  0.1825, -0.0337],
+        ...,
+        [-0.1906, -0.1112,  0.1353,  ...,  0.0306, -0.2373, -0.0030],
+        [ 0.1138, -0.0177, -0.3382,  ..., -0.0693,  0.1865, -0.0380],
+        [-0.2413, -0.1836,  0.0369,  ..., -0.0168, -0.2631, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 4.1910e-09,  4.6566e-09,  0.0000e+00,  ...,  0.0000e+00,
+          3.2596e-09,  0.0000e+00],
+        [ 2.3283e-09,  1.8626e-09,  4.6566e-10,  ...,  0.0000e+00,
+          2.3283e-09,  0.0000e+00],
+        [ 1.1642e-08,  1.6298e-08,  0.0000e+00,  ...,  0.0000e+00,
+          1.0710e-08,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  3.2596e-09, -1.8626e-09,  ...,  0.0000e+00,
+          3.2596e-09,  0.0000e+00],
+        [ 6.5193e-09,  6.0536e-09,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-09,  0.0000e+00],
+        [ 4.6566e-09,  3.8650e-08,  2.7008e-08,  ...,  0.0000e+00,
+          2.3283e-09,  0.0000e+00]], device='cuda:0')
+Epoch 478, bias, value: tensor([-0.0060,  0.0134, -0.0210,  0.0193,  0.0274, -0.0172, -0.0176, -0.0111,
+        -0.0357, -0.0326], device='cuda:0'), grad: tensor([ 2.3749e-08,  1.8161e-08,  6.0536e-08,  8.1491e-08, -1.1176e-08,
+        -1.3039e-07, -1.6764e-07, -1.6298e-08,  3.0268e-08,  1.2014e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 477, time 216.96, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4206 re_mapping 0.0020 re_causal 0.0080 /// teacc 99.10 lr 0.00001000
+Epoch 479, weight, value: tensor([[-0.3313, -0.1908, -0.0971,  ..., -0.0041, -0.0695, -0.0169],
+        [-0.1573,  0.1469, -0.0959,  ...,  0.0245, -0.0709, -0.0819],
+        [ 0.1536, -0.1925, -0.1845,  ..., -0.0711,  0.1826, -0.0337],
+        ...,
+        [-0.1907, -0.1112,  0.1353,  ...,  0.0306, -0.2374, -0.0030],
+        [ 0.1138, -0.0178, -0.3382,  ..., -0.0693,  0.1866, -0.0380],
+        [-0.2414, -0.1838,  0.0369,  ..., -0.0168, -0.2631, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  4.6566e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10, -3.0780e-07,  4.6566e-10,  ...,  0.0000e+00,
+         -6.5193e-09,  0.0000e+00],
+        [ 4.6566e-10,  4.6566e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 4.6566e-10,  9.1270e-08, -1.3970e-09,  ...,  0.0000e+00,
+          1.3970e-09,  0.0000e+00],
+        [ 3.7253e-09,  7.4506e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  9.1735e-08,  4.6566e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 479, bias, value: tensor([-0.0060,  0.0133, -0.0210,  0.0193,  0.0274, -0.0173, -0.0176, -0.0110,
+        -0.0357, -0.0326], device='cuda:0'), grad: tensor([ 1.4435e-08, -5.9931e-07,  1.4435e-08,  2.2817e-08,  1.7509e-07,
+         2.9337e-08, -3.9116e-08,  1.1083e-07,  2.2352e-08,  2.5658e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 478, time 216.87, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4028 re_mapping 0.0020 re_causal 0.0079 /// teacc 99.13 lr 0.00001000
+Epoch 480, weight, value: tensor([[-0.3314, -0.1910, -0.0971,  ..., -0.0041, -0.0695, -0.0169],
+        [-0.1574,  0.1470, -0.0960,  ...,  0.0245, -0.0710, -0.0819],
+        [ 0.1537, -0.1926, -0.1845,  ..., -0.0711,  0.1827, -0.0337],
+        ...,
+        [-0.1907, -0.1113,  0.1354,  ...,  0.0306, -0.2376, -0.0030],
+        [ 0.1138, -0.0178, -0.3382,  ..., -0.0693,  0.1867, -0.0380],
+        [-0.2415, -0.1841,  0.0369,  ..., -0.0168, -0.2632, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 4.0047e-08,  2.4214e-08,  0.0000e+00,  ...,  0.0000e+00,
+          1.5367e-08,  0.0000e+00],
+        [ 3.7253e-09, -4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+          7.9162e-09,  0.0000e+00],
+        [-9.0804e-08,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.8533e-07,  0.0000e+00],
+        ...,
+        [ 2.4680e-08,  4.1910e-09,  4.6566e-10,  ...,  0.0000e+00,
+          4.4703e-08,  0.0000e+00],
+        [ 9.3132e-09,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.4435e-08,  0.0000e+00],
+        [ 1.8626e-09,  3.1199e-08,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 480, bias, value: tensor([-0.0060,  0.0133, -0.0209,  0.0194,  0.0276, -0.0174, -0.0175, -0.0110,
+        -0.0357, -0.0328], device='cuda:0'), grad: tensor([ 1.2619e-07,  2.5611e-08, -5.3970e-07,  2.0303e-07, -1.1222e-07,
+         4.0047e-08, -6.3330e-08,  1.5460e-07,  5.2620e-08,  1.1688e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 479, time 216.85, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4165 re_mapping 0.0021 re_causal 0.0080 /// teacc 99.12 lr 0.00001000
+Epoch 481, weight, value: tensor([[-0.3315, -0.1911, -0.0971,  ..., -0.0041, -0.0695, -0.0169],
+        [-0.1574,  0.1471, -0.0959,  ...,  0.0245, -0.0712, -0.0819],
+        [ 0.1539, -0.1927, -0.1845,  ..., -0.0711,  0.1829, -0.0337],
+        ...,
+        [-0.1908, -0.1113,  0.1354,  ...,  0.0306, -0.2375, -0.0030],
+        [ 0.1138, -0.0179, -0.3382,  ..., -0.0693,  0.1868, -0.0380],
+        [-0.2416, -0.1842,  0.0369,  ..., -0.0168, -0.2632, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09, -4.0047e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  4.0978e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -1.8626e-09,  0.0000e+00],
+        ...,
+        [-9.3132e-10,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 8.3819e-09,  7.4506e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  1.1735e-07,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 481, bias, value: tensor([-0.0060,  0.0133, -0.0210,  0.0193,  0.0277, -0.0173, -0.0175, -0.0110,
+        -0.0358, -0.0329], device='cuda:0'), grad: tensor([-2.1420e-08, -7.7300e-08,  9.0338e-08,  3.7253e-08, -4.2934e-07,
+        -1.3039e-08, -1.8626e-09, -9.3132e-09,  2.7940e-08,  4.0233e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 480, time 216.97, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4368 re_mapping 0.0021 re_causal 0.0084 /// teacc 99.14 lr 0.00001000
+Epoch 482, weight, value: tensor([[-0.3316, -0.1911, -0.0971,  ..., -0.0041, -0.0695, -0.0169],
+        [-0.1575,  0.1471, -0.0960,  ...,  0.0245, -0.0712, -0.0819],
+        [ 0.1539, -0.1928, -0.1845,  ..., -0.0711,  0.1830, -0.0337],
+        ...,
+        [-0.1908, -0.1114,  0.1355,  ...,  0.0306, -0.2376, -0.0030],
+        [ 0.1139, -0.0180, -0.3382,  ..., -0.0693,  0.1869, -0.0380],
+        [-0.2417, -0.1844,  0.0369,  ..., -0.0168, -0.2632, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10, -2.9802e-08,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 1.8626e-09,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -9.3132e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  2.1420e-08,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [-2.7940e-09,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -6.5193e-09,  0.0000e+00],
+        [ 3.7253e-09,  9.3132e-10, -2.7940e-09,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00]], device='cuda:0')
+Epoch 482, bias, value: tensor([-0.0058,  0.0133, -0.0210,  0.0193,  0.0277, -0.0173, -0.0175, -0.0110,
+        -0.0357, -0.0330], device='cuda:0'), grad: tensor([ 1.4901e-08, -3.4459e-08,  4.6566e-09, -2.3656e-07,  5.8673e-08,
+         2.6263e-07, -5.4948e-08,  4.2841e-08, -7.4506e-09, -4.3772e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 481, time 216.68, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4139 re_mapping 0.0021 re_causal 0.0080 /// teacc 99.13 lr 0.00001000
+Epoch 483, weight, value: tensor([[-0.3316, -0.1913, -0.0971,  ..., -0.0041, -0.0695, -0.0169],
+        [-0.1575,  0.1472, -0.0959,  ...,  0.0245, -0.0713, -0.0819],
+        [ 0.1541, -0.1929, -0.1845,  ..., -0.0711,  0.1832, -0.0337],
+        ...,
+        [-0.1909, -0.1115,  0.1355,  ...,  0.0306, -0.2378, -0.0030],
+        [ 0.1140, -0.0180, -0.3382,  ..., -0.0693,  0.1871, -0.0380],
+        [-0.2418, -0.1845,  0.0368,  ..., -0.0168, -0.2633, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.3970e-08,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [-1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -3.7253e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -9.3132e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  1.1176e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 483, bias, value: tensor([-0.0058,  0.0133, -0.0208,  0.0192,  0.0278, -0.0174, -0.0174, -0.0110,
+        -0.0357, -0.0330], device='cuda:0'), grad: tensor([-2.7940e-09,  1.1828e-07, -1.0245e-08,  1.1176e-08, -1.0245e-08,
+         7.4506e-09,  7.4506e-09, -8.0094e-08,  5.5879e-09, -4.0047e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 482, time 217.13, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4438 re_mapping 0.0021 re_causal 0.0082 /// teacc 99.13 lr 0.00001000
+Epoch 484, weight, value: tensor([[-0.3318, -0.1914, -0.0971,  ..., -0.0041, -0.0695, -0.0169],
+        [-0.1576,  0.1473, -0.0958,  ...,  0.0245, -0.0715, -0.0819],
+        [ 0.1542, -0.1930, -0.1845,  ..., -0.0711,  0.1835, -0.0337],
+        ...,
+        [-0.1910, -0.1116,  0.1355,  ...,  0.0306, -0.2379, -0.0030],
+        [ 0.1141, -0.0181, -0.3383,  ..., -0.0693,  0.1873, -0.0380],
+        [-0.2419, -0.1846,  0.0368,  ..., -0.0168, -0.2633, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [-1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.2107e-08,  0.0000e+00],
+        ...,
+        [ 2.7940e-09,  1.8626e-09,  1.8626e-09,  ...,  0.0000e+00,
+          5.5879e-09,  0.0000e+00],
+        [-9.3132e-09, -9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -9.3132e-09,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10, -5.5879e-09,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 484, bias, value: tensor([-0.0058,  0.0132, -0.0206,  0.0192,  0.0278, -0.0173, -0.0172, -0.0111,
+        -0.0356, -0.0331], device='cuda:0'), grad: tensor([ 1.8626e-08,  2.7940e-08, -3.1665e-08, -3.8184e-08,  1.3411e-07,
+         4.1910e-08, -1.8626e-09,  5.4017e-08, -2.7940e-08, -1.5646e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 483, time 216.63, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4014 re_mapping 0.0021 re_causal 0.0079 /// teacc 99.12 lr 0.00001000
+Epoch 485, weight, value: tensor([[-0.3319, -0.1917, -0.0971,  ..., -0.0041, -0.0695, -0.0169],
+        [-0.1578,  0.1473, -0.0959,  ...,  0.0245, -0.0716, -0.0819],
+        [ 0.1544, -0.1931, -0.1845,  ..., -0.0711,  0.1838, -0.0337],
+        ...,
+        [-0.1910, -0.1116,  0.1356,  ...,  0.0306, -0.2381, -0.0030],
+        [ 0.1142, -0.0182, -0.3383,  ..., -0.0693,  0.1875, -0.0380],
+        [-0.2420, -0.1848,  0.0368,  ..., -0.0168, -0.2633, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00, -5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -9.3132e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 485, bias, value: tensor([-0.0058,  0.0131, -0.0204,  0.0191,  0.0278, -0.0173, -0.0170, -0.0110,
+        -0.0357, -0.0331], device='cuda:0'), grad: tensor([ 1.8626e-09, -9.3132e-09, -2.7940e-09,  2.9802e-08,  9.8720e-08,
+        -1.8626e-09,  9.3132e-10,  9.3132e-10,  3.7253e-09, -1.1921e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 484, time 216.78, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.3907 re_mapping 0.0020 re_causal 0.0078 /// teacc 99.13 lr 0.00001000
+Epoch 486, weight, value: tensor([[-0.3320, -0.1918, -0.0971,  ..., -0.0041, -0.0696, -0.0169],
+        [-0.1578,  0.1474, -0.0958,  ...,  0.0245, -0.0717, -0.0819],
+        [ 0.1546, -0.1932, -0.1845,  ..., -0.0711,  0.1840, -0.0337],
+        ...,
+        [-0.1911, -0.1117,  0.1355,  ...,  0.0306, -0.2383, -0.0030],
+        [ 0.1142, -0.0182, -0.3383,  ..., -0.0693,  0.1876, -0.0380],
+        [-0.2421, -0.1849,  0.0368,  ..., -0.0168, -0.2634, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 5.5879e-09,  8.3819e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 9.3132e-10,  4.6566e-08,  1.8626e-09,  ...,  0.0000e+00,
+          3.7253e-09,  0.0000e+00],
+        [ 1.8626e-09,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.3039e-08,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 6.5193e-09,  2.5146e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  1.7509e-07,  5.5879e-09,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 486, bias, value: tensor([-0.0058,  0.0131, -0.0203,  0.0190,  0.0279, -0.0173, -0.0169, -0.0111,
+        -0.0357, -0.0332], device='cuda:0'), grad: tensor([ 2.6077e-08,  1.4156e-07,  1.7695e-08, -3.1665e-08, -7.1060e-07,
+         5.1223e-08, -8.2888e-08,  3.6322e-08,  6.7987e-08,  4.8708e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 485, time 216.79, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4238 re_mapping 0.0020 re_causal 0.0082 /// teacc 99.15 lr 0.00001000
+Epoch 487, weight, value: tensor([[-0.3321, -0.1919, -0.0971,  ..., -0.0041, -0.0696, -0.0169],
+        [-0.1579,  0.1476, -0.0958,  ...,  0.0245, -0.0717, -0.0819],
+        [ 0.1547, -0.1933, -0.1845,  ..., -0.0711,  0.1842, -0.0337],
+        ...,
+        [-0.1911, -0.1118,  0.1356,  ...,  0.0306, -0.2384, -0.0030],
+        [ 0.1143, -0.0183, -0.3383,  ..., -0.0693,  0.1877, -0.0380],
+        [-0.2422, -0.1850,  0.0368,  ..., -0.0168, -0.2634, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -3.7253e-09,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 487, bias, value: tensor([-0.0058,  0.0132, -0.0202,  0.0190,  0.0279, -0.0173, -0.0168, -0.0111,
+        -0.0357, -0.0332], device='cuda:0'), grad: tensor([-8.3819e-09,  9.3132e-10,  3.7253e-09,  6.5193e-09, -9.3132e-10,
+        -3.7253e-09,  1.8626e-09,  9.3132e-10, -4.6566e-09,  1.5832e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 486, time 216.66, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4396 re_mapping 0.0021 re_causal 0.0083 /// teacc 99.13 lr 0.00001000
+Epoch 488, weight, value: tensor([[-0.3322, -0.1920, -0.0971,  ..., -0.0041, -0.0696, -0.0169],
+        [-0.1580,  0.1477, -0.0957,  ...,  0.0245, -0.0718, -0.0819],
+        [ 0.1549, -0.1933, -0.1845,  ..., -0.0711,  0.1844, -0.0337],
+        ...,
+        [-0.1912, -0.1119,  0.1356,  ...,  0.0306, -0.2386, -0.0030],
+        [ 0.1144, -0.0183, -0.3383,  ..., -0.0693,  0.1879, -0.0380],
+        [-0.2424, -0.1852,  0.0367,  ..., -0.0168, -0.2634, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 1.8626e-09, -6.5193e-09,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [-9.3132e-09,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -1.3039e-08,  0.0000e+00],
+        ...,
+        [ 7.4506e-09,  5.5879e-09, -9.3132e-10,  ...,  0.0000e+00,
+          1.0245e-08,  0.0000e+00],
+        [ 5.5879e-09,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00, -5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00]], device='cuda:0')
+Epoch 488, bias, value: tensor([-0.0058,  0.0132, -0.0200,  0.0190,  0.0279, -0.0175, -0.0168, -0.0111,
+        -0.0357, -0.0333], device='cuda:0'), grad: tensor([-1.0524e-07,  8.3819e-09, -2.7940e-08,  2.7847e-07,  1.2200e-07,
+        -4.5449e-07,  1.7416e-07,  4.6566e-08,  2.6077e-08, -6.8918e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 487, time 216.87, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.3920 re_mapping 0.0020 re_causal 0.0078 /// teacc 99.11 lr 0.00001000
+Epoch 489, weight, value: tensor([[-0.3323, -0.1921, -0.0971,  ..., -0.0041, -0.0696, -0.0169],
+        [-0.1581,  0.1477, -0.0957,  ...,  0.0245, -0.0720, -0.0819],
+        [ 0.1551, -0.1934, -0.1844,  ..., -0.0711,  0.1847, -0.0337],
+        ...,
+        [-0.1913, -0.1120,  0.1356,  ...,  0.0306, -0.2387, -0.0030],
+        [ 0.1145, -0.0184, -0.3383,  ..., -0.0693,  0.1881, -0.0380],
+        [-0.2425, -0.1853,  0.0367,  ..., -0.0168, -0.2635, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [-9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 489, bias, value: tensor([-0.0058,  0.0132, -0.0198,  0.0190,  0.0280, -0.0174, -0.0167, -0.0111,
+        -0.0356, -0.0333], device='cuda:0'), grad: tensor([-1.8626e-09,  1.8626e-09,  2.7940e-09,  5.5879e-09,  2.2352e-08,
+        -1.8626e-09,  3.7253e-09,  7.4506e-09, -1.0245e-08, -1.9558e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 488, time 216.69, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4182 re_mapping 0.0021 re_causal 0.0080 /// teacc 99.13 lr 0.00001000
+Epoch 490, weight, value: tensor([[-0.3324, -0.1922, -0.0971,  ..., -0.0041, -0.0696, -0.0169],
+        [-0.1583,  0.1478, -0.0957,  ...,  0.0245, -0.0721, -0.0819],
+        [ 0.1552, -0.1935, -0.1844,  ..., -0.0711,  0.1849, -0.0337],
+        ...,
+        [-0.1913, -0.1121,  0.1355,  ...,  0.0306, -0.2389, -0.0030],
+        [ 0.1146, -0.0184, -0.3383,  ..., -0.0693,  0.1883, -0.0380],
+        [-0.2426, -0.1855,  0.0367,  ..., -0.0168, -0.2635, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  1.8626e-09,  9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10, -4.7497e-08,  1.8626e-09,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.0245e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -5.5879e-09,  0.0000e+00],
+        ...,
+        [ 2.7940e-09,  3.9116e-08, -1.4901e-08,  ...,  0.0000e+00,
+          6.5193e-09,  0.0000e+00],
+        [-9.3132e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.0245e-08,  0.0000e+00],
+        [ 3.7253e-09,  1.6764e-08,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 490, bias, value: tensor([-0.0058,  0.0131, -0.0196,  0.0188,  0.0280, -0.0174, -0.0166, -0.0111,
+        -0.0355, -0.0333], device='cuda:0'), grad: tensor([ 4.6566e-09, -9.2387e-07,  1.8626e-07,  1.2293e-07,  1.5832e-08,
+         6.1467e-08, -7.3574e-08,  5.5879e-07, -2.0489e-08,  8.0094e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 489, time 216.93, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4158 re_mapping 0.0020 re_causal 0.0079 /// teacc 99.13 lr 0.00001000
+Epoch 491, weight, value: tensor([[-0.3325, -0.1922, -0.0971,  ..., -0.0041, -0.0696, -0.0169],
+        [-0.1583,  0.1478, -0.0958,  ...,  0.0245, -0.0723, -0.0819],
+        [ 0.1554, -0.1937, -0.1844,  ..., -0.0711,  0.1852, -0.0337],
+        ...,
+        [-0.1914, -0.1121,  0.1357,  ...,  0.0306, -0.2390, -0.0030],
+        [ 0.1147, -0.0184, -0.3383,  ..., -0.0693,  0.1885, -0.0380],
+        [-0.2427, -0.1856,  0.0367,  ..., -0.0168, -0.2636, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00, -9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  1.0245e-08, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 491, bias, value: tensor([-0.0059,  0.0130, -0.0195,  0.0188,  0.0280, -0.0174, -0.0166, -0.0110,
+        -0.0355, -0.0333], device='cuda:0'), grad: tensor([-3.7253e-09,  7.4506e-09,  3.7253e-09,  8.5682e-08,  2.5146e-08,
+        -9.1270e-08,  1.4901e-08, -2.2352e-08,  6.5193e-09, -1.7695e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 490, time 217.03, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4149 re_mapping 0.0020 re_causal 0.0080 /// teacc 99.14 lr 0.00001000
+Epoch 492, weight, value: tensor([[-0.3326, -0.1923, -0.0971,  ..., -0.0041, -0.0697, -0.0169],
+        [-0.1586,  0.1479, -0.0957,  ...,  0.0245, -0.0724, -0.0819],
+        [ 0.1556, -0.1938, -0.1844,  ..., -0.0711,  0.1854, -0.0337],
+        ...,
+        [-0.1913, -0.1121,  0.1357,  ...,  0.0306, -0.2391, -0.0030],
+        [ 0.1147, -0.0186, -0.3383,  ..., -0.0693,  0.1886, -0.0380],
+        [-0.2428, -0.1857,  0.0367,  ..., -0.0168, -0.2636, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00, -1.1269e-07,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [ 9.3132e-10,  5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -6.5193e-09,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  9.0338e-08,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [-8.3819e-09,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -8.3819e-09,  0.0000e+00],
+        [ 9.3132e-10, -1.3970e-08,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 492, bias, value: tensor([-0.0059,  0.0128, -0.0193,  0.0187,  0.0280, -0.0173, -0.0165, -0.0109,
+        -0.0355, -0.0334], device='cuda:0'), grad: tensor([ 1.2107e-08, -2.0303e-07, -3.7253e-09,  1.3970e-08,  9.6858e-08,
+         2.7940e-09,  6.5193e-09,  2.1979e-07, -9.3132e-10, -1.4435e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 491, time 216.75, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4593 re_mapping 0.0020 re_causal 0.0083 /// teacc 99.17 lr 0.00001000
+Epoch 493, weight, value: tensor([[-0.3327, -0.1923, -0.0972,  ..., -0.0041, -0.0697, -0.0169],
+        [-0.1586,  0.1480, -0.0958,  ...,  0.0245, -0.0725, -0.0819],
+        [ 0.1557, -0.1939, -0.1844,  ..., -0.0711,  0.1856, -0.0337],
+        ...,
+        [-0.1913, -0.1122,  0.1357,  ...,  0.0306, -0.2392, -0.0030],
+        [ 0.1147, -0.0188, -0.3383,  ..., -0.0693,  0.1887, -0.0380],
+        [-0.2429, -0.1858,  0.0367,  ..., -0.0168, -0.2637, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.8626e-09,  0.0000e+00],
+        [ 4.6566e-09,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          2.7940e-09,  0.0000e+00],
+        [-6.4261e-08,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -5.6811e-08,  0.0000e+00],
+        ...,
+        [ 6.5193e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          5.4948e-08,  0.0000e+00],
+        [ 1.5832e-08,  1.2107e-08,  0.0000e+00,  ...,  0.0000e+00,
+         -1.3970e-08,  0.0000e+00],
+        [ 9.3132e-10,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00]], device='cuda:0')
+Epoch 493, bias, value: tensor([-0.0059,  0.0129, -0.0192,  0.0186,  0.0280, -0.0175, -0.0163, -0.0110,
+        -0.0355, -0.0333], device='cuda:0'), grad: tensor([-6.5193e-09,  2.5146e-08, -1.3877e-07, -2.7940e-08,  2.1420e-08,
+         8.8476e-08, -1.3039e-07,  1.3597e-07,  1.2107e-08,  2.7008e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 492, time 217.12, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4512 re_mapping 0.0021 re_causal 0.0082 /// teacc 99.16 lr 0.00001000
+Epoch 494, weight, value: tensor([[-0.3328, -0.1923, -0.0972,  ..., -0.0041, -0.0697, -0.0169],
+        [-0.1587,  0.1481, -0.0958,  ...,  0.0245, -0.0728, -0.0819],
+        [ 0.1558, -0.1941, -0.1845,  ..., -0.0711,  0.1857, -0.0337],
+        ...,
+        [-0.1914, -0.1123,  0.1360,  ...,  0.0306, -0.2391, -0.0030],
+        [ 0.1147, -0.0188, -0.3383,  ..., -0.0693,  0.1889, -0.0380],
+        [-0.2430, -0.1859,  0.0366,  ..., -0.0168, -0.2637, -0.0731]],
+       device='cuda:0'), grad: tensor([[9.3132e-10, 1.8626e-09, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 9.3132e-10, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 1.8626e-09, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        ...,
+        [0.0000e+00, 2.7940e-09, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [9.3132e-10, 9.3132e-10, 0.0000e+00,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00],
+        [0.0000e+00, 3.7253e-08, 1.0245e-08,  ..., 0.0000e+00, 0.0000e+00,
+         0.0000e+00]], device='cuda:0')
+Epoch 494, bias, value: tensor([-0.0059,  0.0128, -0.0194,  0.0185,  0.0280, -0.0174, -0.0163, -0.0108,
+        -0.0355, -0.0334], device='cuda:0'), grad: tensor([ 1.8626e-09,  1.1176e-08,  4.6566e-09,  1.3970e-08, -1.8626e-07,
+        -9.3132e-09, -2.7940e-09,  2.4214e-08,  8.3819e-09,  1.4249e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 493, time 216.81, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4203 re_mapping 0.0020 re_causal 0.0077 /// teacc 99.14 lr 0.00001000
+Epoch 495, weight, value: tensor([[-0.3329, -0.1926, -0.0972,  ..., -0.0041, -0.0697, -0.0169],
+        [-0.1587,  0.1482, -0.0959,  ...,  0.0245, -0.0729, -0.0819],
+        [ 0.1559, -0.1942, -0.1845,  ..., -0.0711,  0.1858, -0.0337],
+        ...,
+        [-0.1914, -0.1124,  0.1361,  ...,  0.0306, -0.2392, -0.0030],
+        [ 0.1147, -0.0189, -0.3383,  ..., -0.0693,  0.1890, -0.0380],
+        [-0.2431, -0.1861,  0.0366,  ..., -0.0168, -0.2637, -0.0731]],
+       device='cuda:0'), grad: tensor([[-1.8626e-09,  4.6566e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -8.7544e-08,  0.0000e+00],
+        [ 1.8626e-09,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.3970e-08,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10,  8.3819e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.8626e-09,  0.0000e+00],
+        [ 9.3132e-10,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-08,  0.0000e+00]], device='cuda:0')
+Epoch 495, bias, value: tensor([-0.0060,  0.0128, -0.0195,  0.0185,  0.0280, -0.0174, -0.0160, -0.0108,
+        -0.0357, -0.0334], device='cuda:0'), grad: tensor([-5.4017e-07,  1.7695e-08,  6.9849e-08,  8.8476e-08, -9.3132e-10,
+         1.1176e-08,  8.4750e-08, -1.1176e-08,  1.5832e-08,  2.6543e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 494, time 216.84, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4178 re_mapping 0.0020 re_causal 0.0078 /// teacc 99.12 lr 0.00001000
+Epoch 496, weight, value: tensor([[-0.3331, -0.1927, -0.0972,  ..., -0.0041, -0.0697, -0.0169],
+        [-0.1588,  0.1484, -0.0960,  ...,  0.0245, -0.0730, -0.0819],
+        [ 0.1560, -0.1945, -0.1846,  ..., -0.0711,  0.1859, -0.0337],
+        ...,
+        [-0.1915, -0.1126,  0.1364,  ...,  0.0306, -0.2391, -0.0030],
+        [ 0.1147, -0.0191, -0.3383,  ..., -0.0693,  0.1891, -0.0380],
+        [-0.2433, -0.1863,  0.0365,  ..., -0.0168, -0.2638, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 4.6566e-09,  6.5193e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  5.5879e-09,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  5.8673e-08, -1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 496, bias, value: tensor([-0.0060,  0.0128, -0.0197,  0.0182,  0.0281, -0.0173, -0.0160, -0.0107,
+        -0.0358, -0.0334], device='cuda:0'), grad: tensor([ 9.3132e-09,  1.0245e-08,  2.6077e-08,  2.0489e-07, -3.5670e-07,
+        -2.0023e-07, -2.9802e-08,  3.2596e-08,  1.8626e-09,  3.0827e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 495, time 216.96, cls_loss 0.0005 cls_loss_mapping 0.0004 cls_loss_causal 0.4223 re_mapping 0.0020 re_causal 0.0079 /// teacc 99.11 lr 0.00001000
+Epoch 497, weight, value: tensor([[-0.3332, -0.1928, -0.0972,  ..., -0.0041, -0.0697, -0.0169],
+        [-0.1588,  0.1486, -0.0960,  ...,  0.0245, -0.0731, -0.0819],
+        [ 0.1561, -0.1948, -0.1846,  ..., -0.0711,  0.1860, -0.0337],
+        ...,
+        [-0.1915, -0.1126,  0.1365,  ...,  0.0306, -0.2392, -0.0030],
+        [ 0.1148, -0.0191, -0.3383,  ..., -0.0693,  0.1892, -0.0380],
+        [-0.2434, -0.1865,  0.0364,  ..., -0.0168, -0.2638, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  2.7940e-09,  3.7253e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  9.3132e-10,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        ...,
+        [ 0.0000e+00, -2.7940e-09, -8.3819e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09, -9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -9.3132e-10,  0.0000e+00],
+        [ 9.3132e-10,  1.5832e-08,  1.8626e-09,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 497, bias, value: tensor([-0.0061,  0.0128, -0.0197,  0.0181,  0.0281, -0.0171, -0.0159, -0.0107,
+        -0.0359, -0.0335], device='cuda:0'), grad: tensor([ 1.8626e-09,  4.4703e-08,  1.9558e-08,  3.4459e-08, -4.0047e-08,
+        -1.7975e-07,  1.3225e-07, -6.8918e-08,  4.6566e-09,  5.4948e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 496, time 217.05, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4198 re_mapping 0.0020 re_causal 0.0080 /// teacc 99.11 lr 0.00001000
+Epoch 498, weight, value: tensor([[-0.3333, -0.1929, -0.0972,  ..., -0.0041, -0.0697, -0.0169],
+        [-0.1589,  0.1487, -0.0961,  ...,  0.0245, -0.0731, -0.0819],
+        [ 0.1562, -0.1950, -0.1846,  ..., -0.0711,  0.1862, -0.0337],
+        ...,
+        [-0.1915, -0.1127,  0.1366,  ...,  0.0306, -0.2394, -0.0030],
+        [ 0.1148, -0.0193, -0.3383,  ..., -0.0693,  0.1894, -0.0380],
+        [-0.2435, -0.1866,  0.0365,  ..., -0.0168, -0.2639, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        ...,
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.8626e-09,  2.7940e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -1.8626e-09,  0.0000e+00],
+        [ 0.0000e+00,  1.4901e-08,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 498, bias, value: tensor([-0.0061,  0.0128, -0.0197,  0.0179,  0.0281, -0.0169, -0.0158, -0.0106,
+        -0.0359, -0.0335], device='cuda:0'), grad: tensor([-6.5193e-09,  4.6566e-09,  2.7940e-09,  4.0047e-08, -3.8184e-08,
+        -4.1910e-08, -1.0245e-08, -8.6613e-08,  3.7253e-09,  1.2666e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 497, time 217.11, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4015 re_mapping 0.0020 re_causal 0.0078 /// teacc 99.12 lr 0.00001000
+Epoch 499, weight, value: tensor([[-0.3335, -0.1930, -0.0972,  ..., -0.0041, -0.0697, -0.0169],
+        [-0.1591,  0.1487, -0.0961,  ...,  0.0245, -0.0733, -0.0819],
+        [ 0.1563, -0.1952, -0.1847,  ..., -0.0711,  0.1862, -0.0337],
+        ...,
+        [-0.1914, -0.1127,  0.1367,  ...,  0.0306, -0.2393, -0.0030],
+        [ 0.1148, -0.0193, -0.3383,  ..., -0.0693,  0.1895, -0.0380],
+        [-0.2436, -0.1868,  0.0365,  ..., -0.0168, -0.2639, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 4.6566e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          7.4506e-09,  0.0000e+00],
+        [ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [-3.0734e-08,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -5.8673e-08,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          1.8626e-09,  0.0000e+00],
+        [-1.0245e-08, -3.7253e-09,  9.3132e-10,  ...,  0.0000e+00,
+         -5.5879e-09,  0.0000e+00],
+        [ 3.2596e-08,  4.6566e-09, -2.7940e-09,  ...,  0.0000e+00,
+          4.7497e-08,  0.0000e+00]], device='cuda:0')
+Epoch 499, bias, value: tensor([-0.0062,  0.0127, -0.0198,  0.0177,  0.0281, -0.0167, -0.0157, -0.0104,
+        -0.0360, -0.0335], device='cuda:0'), grad: tensor([ 2.4214e-08,  6.5193e-09, -1.5181e-07,  3.8184e-08, -6.5193e-09,
+        -3.6322e-08,  5.5879e-09,  8.3819e-09, -2.1420e-08,  1.2759e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 498, time 217.03, cls_loss 0.0005 cls_loss_mapping 0.0003 cls_loss_causal 0.4455 re_mapping 0.0021 re_causal 0.0084 /// teacc 99.13 lr 0.00001000
+Epoch 500, weight, value: tensor([[-0.3336, -0.1931, -0.0972,  ..., -0.0041, -0.0697, -0.0169],
+        [-0.1592,  0.1487, -0.0962,  ...,  0.0245, -0.0734, -0.0819],
+        [ 0.1565, -0.1953, -0.1846,  ..., -0.0711,  0.1866, -0.0337],
+        ...,
+        [-0.1915, -0.1127,  0.1368,  ...,  0.0306, -0.2394, -0.0030],
+        [ 0.1148, -0.0194, -0.3383,  ..., -0.0693,  0.1897, -0.0380],
+        [-0.2437, -0.1869,  0.0364,  ..., -0.0168, -0.2640, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 2.1420e-08,  3.7253e-09,  0.0000e+00,  ...,  0.0000e+00,
+          4.6566e-09,  0.0000e+00],
+        [-3.7253e-09,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+         -5.5879e-09,  0.0000e+00],
+        ...,
+        [ 9.3132e-10,  1.8626e-09,  0.0000e+00,  ...,  0.0000e+00,
+          9.3132e-10,  0.0000e+00],
+        [ 9.8720e-08,  1.7695e-08,  0.0000e+00,  ...,  0.0000e+00,
+          2.5146e-08,  0.0000e+00],
+        [ 0.0000e+00,  4.6566e-09, -9.3132e-10,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 500, bias, value: tensor([-0.0061,  0.0126, -0.0196,  0.0174,  0.0281, -0.0165, -0.0157, -0.0104,
+        -0.0360, -0.0335], device='cuda:0'), grad: tensor([-8.3819e-09,  5.4017e-08, -1.3970e-08,  1.5832e-07, -1.3039e-08,
+        -5.1130e-07,  5.9605e-08,  7.4506e-09,  2.5239e-07,  2.2352e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 499, time 217.00, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4034 re_mapping 0.0021 re_causal 0.0080 /// teacc 99.11 lr 0.00001000
+---------------------saving last model at epoch 499----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_skip4', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_skip4/14factor_best.csv', 'channels': 3, 'factor_num': 14, 'stride': 3, 'epoch': 'best', 'eval_mapping': True}
+loading weight of best
+randm: False
+stride: 3
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+Using downloaded and verified file: /home/yuqian_fu/.pytorch/SVHN/test_32x32.mat
+                         mnist   mnist_FA  ...    usps_FA        Avg
+ShearX               98.809998  98.959999  ...  83.906326  70.694491
+ShearY               98.699997  98.729996  ...  83.906326  67.395161
+AutoContrast         98.930000  99.119995  ...  83.906326  62.679251
+Invert               98.699997  98.089996  ...  83.906326  62.888086
+Equalize             98.209999  97.939995  ...  83.906326  68.967734
+Solarize             98.070000  97.739998  ...  83.906326  66.233051
+SolarizeAdd          98.419998  97.919998  ...  83.906326  71.701561
+Posterize            99.000000  98.979996  ...  83.906326  73.696783
+Contrast             99.070000  99.129997  ...  83.906326  67.761722
+Color                99.010002  99.199997  ...  83.906326  60.734499
+Brightness           98.979996  99.139999  ...  83.906326  66.071666
+Sharpness            98.919998  99.070000  ...  83.906326  69.373529
+NoiseSalt            98.900002  99.049995  ...  83.906326  56.324764
+NoiseGaussian        98.979996  99.190002  ...  83.906326  58.073993
+w/o do (original x)  99.200000   0.000000  ...   0.000000  75.410608
+
+[15 rows x 11 columns]
+    mnist      svhn    mnist_m   syndigit       usps        Avg
+do  99.14  66.13783  78.802355  75.034021  84.055805  76.007503
diff --git a/Meta-causal/code-withStyleAttack/71579.error b/Meta-causal/code-withStyleAttack/71579.error
new file mode 100644
index 0000000000000000000000000000000000000000..ae0356cda6d135bef0ff92139078c691affce8be
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/71579.error
@@ -0,0 +1,4 @@
+Solving dependencies
+slurmstepd: error: *** JOB 71579 ON gcp-eu-1 CANCELLED AT 2024-07-25T07:37:45 ***
+srun: Job step aborted: Waiting up to 32 seconds for job step to finish.
+slurmstepd: error: *** STEP 71579.0 ON gcp-eu-1 CANCELLED AT 2024-07-25T07:37:46 ***
diff --git a/Meta-causal/code-withStyleAttack/71579.log b/Meta-causal/code-withStyleAttack/71579.log
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/Meta-causal/code-withStyleAttack/71580.error b/Meta-causal/code-withStyleAttack/71580.error
new file mode 100644
index 0000000000000000000000000000000000000000..07addde1c3ebd8d64d93028d12ef4d0776b5b5f7
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/71580.error
@@ -0,0 +1,321 @@
+Solving dependencies
+Installing conda packages
+Empty environment created at prefix: /scratch/yuqian_fu/micromamba/envs/auto-v5ewbna3m2oe
+error    libmamba Could not lock non-existing path '/scratch/yuqian_fu/micromamba/pkgs'
+Transaction
+
+  Prefix: /scratch/yuqian_fu/micromamba/envs/auto-v5ewbna3m2oe
+
+
+
+  No specs added or removed.
+
+  Package                 Version  Build                         Channel                           Size
+─────────────────────────────────────────────────────────────────────────────────────────────────────────
+  Install:
+─────────────────────────────────────────────────────────────────────────────────────────────────────────
+
+  + _libgcc_mutex             0.1  conda_forge                   conda-forge                           
+  + _openmp_mutex             4.5  2_kmp_llvm                    conda-forge                           
+  + blas                    2.116  mkl                           conda-forge                           
+  + blas-devel              3.9.0  16_linux64_mkl                conda-forge                           
+  + brotli-python           1.1.0  py311hb755f60_1               conda-forge                           
+  + bzip2                   1.0.8  h4bc722e_7                    conda-forge                           
+  + ca-certificates      2024.7.4  hbcca054_0                    conda-forge                           
+  + certifi              2024.7.4  pyhd8ed1ab_0                  conda-forge                           
+  + cffi                   1.16.0  py311hb3a22ac_0               conda-forge                           
+  + charset-normalizer      3.3.2  pyhd8ed1ab_0                  conda-forge                           
+  + click                   8.1.7  unix_pyh707e725_0             conda-forge                           
+  + cuda-cudart          12.1.105  0                             nvidia                                
+  + cuda-cupti           12.1.105  0                             /work/conda/cache/nvidia              
+  + cuda-libraries         12.1.0  0                             nvidia                                
+  + cuda-nvrtc           12.1.105  0                             /work/conda/cache/nvidia              
+  + cuda-nvtx            12.1.105  0                             nvidia                                
+  + cuda-opencl           12.5.39  0                             nvidia                                
+  + cuda-runtime           12.1.0  0                             nvidia                                
+  + cuda-version             12.5  3                             nvidia                                
+  + ffmpeg                    4.3  hf484d3e_0                    /work/conda/cache/pytorch             
+  + filelock               3.15.4  pyhd8ed1ab_0                  conda-forge                           
+  + freetype               2.12.1  h267a509_2                    conda-forge                           
+  + gmp                     6.3.0  hac33072_2                    conda-forge                           
+  + gmpy2                   2.1.5  py311hc4f1f91_1               conda-forge                           
+  + gnutls                 3.6.13  h85f3911_1                    /work/conda/cache/conda-forge         
+  + h2                      4.1.0  pyhd8ed1ab_0                  conda-forge                           
+  + hpack                   4.0.0  pyh9f0ad1d_0                  conda-forge                           
+  + hyperframe              6.0.1  pyhd8ed1ab_0                  conda-forge                           
+  + icu                      73.2  h59595ed_0                    /work/conda/cache/conda-forge         
+  + idna                      3.7  pyhd8ed1ab_0                  conda-forge                           
+  + jinja2                  3.1.4  pyhd8ed1ab_0                  conda-forge                           
+  + jpeg                       9e  h166bdaf_2                    conda-forge                           
+  + lame                    3.100  h166bdaf_1003                 conda-forge                           
+  + lcms2                    2.15  hfd0df8a_0                    conda-forge                           
+  + ld_impl_linux-64         2.40  hf3520f5_7                    conda-forge                           
+  + lerc                    4.0.0  h27087fc_0                    conda-forge                           
+  + libblas                 3.9.0  16_linux64_mkl                conda-forge                           
+  + libcblas                3.9.0  16_linux64_mkl                conda-forge                           
+  + libcublas           12.1.0.26  0                             /work/conda/cache/nvidia              
+  + libcufft             11.0.2.4  0                             /work/conda/cache/nvidia              
+  + libcufile            1.10.1.7  0                             nvidia                                
+  + libcurand           10.3.6.82  0                             nvidia                                
+  + libcusolver         11.4.4.55  0                             /work/conda/cache/nvidia              
+  + libcusparse         12.0.2.55  0                             /work/conda/cache/nvidia              
+  + libdeflate               1.17  h0b41bf4_0                    conda-forge                           
+  + libexpat                2.6.2  h59595ed_0                    conda-forge                           
+  + libffi                  3.4.2  h7f98852_5                    conda-forge                           
+  + libgcc-ng              14.1.0  h77fa898_0                    conda-forge                           
+  + libgfortran-ng         14.1.0  h69a702a_0                    conda-forge                           
+  + libgfortran5           14.1.0  hc5f4f2c_0                    /work/conda/cache/conda-forge         
+  + libhwloc               2.11.1  default_hecaa2ac_1000         conda-forge                           
+  + libiconv                 1.17  hd590300_2                    conda-forge                           
+  + libjpeg-turbo           2.0.0  h9bf148f_0                    pytorch                               
+  + liblapack               3.9.0  16_linux64_mkl                conda-forge                           
+  + liblapacke              3.9.0  16_linux64_mkl                conda-forge                           
+  + libnpp              12.0.2.50  0                             /work/conda/cache/nvidia              
+  + libnsl                  2.0.1  hd590300_0                    conda-forge                           
+  + libnvjitlink         12.1.105  0                             /work/conda/cache/nvidia              
+  + libnvjpeg           12.1.1.14  0                             /work/conda/cache/nvidia              
+  + libpng                 1.6.43  h2797004_0                    conda-forge                           
+  + libsqlite              3.46.0  hde9e2c9_0                    conda-forge                           
+  + libstdcxx-ng           14.1.0  hc0a3c3a_0                    /work/conda/cache/conda-forge         
+  + libtiff                 4.5.0  h6adf6a1_2                    conda-forge                           
+  + libuuid                2.38.1  h0b41bf4_0                    conda-forge                           
+  + libwebp-base            1.4.0  hd590300_0                    conda-forge                           
+  + libxcb                   1.13  h7f98852_1004                 conda-forge                           
+  + libxcrypt              4.4.36  hd590300_1                    conda-forge                           
+  + libxml2                2.12.7  hc051c1a_1                    conda-forge                           
+  + libzlib                1.2.13  h4ab18f5_6                    conda-forge                           
+  + llvm-openmp            15.0.7  h0cdce71_0                    /work/conda/cache/conda-forge         
+  + markupsafe              2.1.5  py311h459d7ec_0               conda-forge                           
+  + mkl                  2022.1.0  h84fe81f_915                  /work/conda/cache/conda-forge         
+  + mkl-devel            2022.1.0  ha770c72_916                  conda-forge                           
+  + mkl-include          2022.1.0  h84fe81f_915                  conda-forge                           
+  + mpc                     1.3.1  hfe3b2da_0                    conda-forge                           
+  + mpfr                    4.2.1  h9458935_1                    conda-forge                           
+  + mpmath                  1.3.0  pyhd8ed1ab_0                  conda-forge                           
+  + ncurses                   6.5  h59595ed_0                    conda-forge                           
+  + nettle                    3.6  he412f7d_0                    /work/conda/cache/conda-forge         
+  + networkx                  3.3  pyhd8ed1ab_1                  /work/conda/cache/conda-forge         
+  + numpy                   2.0.0  py311h1461c94_0               conda-forge                           
+  + openh264                2.1.1  h780b84a_0                    /work/conda/cache/conda-forge         
+  + openjpeg                2.5.0  hfec8fc6_2                    conda-forge                           
+  + openssl                 3.3.1  h4bc722e_2                    conda-forge                           
+  + pandas                  2.2.2  py311h14de704_1               conda-forge                           
+  + pillow                  9.4.0  py311h50def17_1               /work/conda/cache/conda-forge         
+  + pip                      24.0  pyhd8ed1ab_0                  /work/conda/cache/conda-forge         
+  + pthread-stubs             0.4  h36c2ea0_1001                 conda-forge                           
+  + pycparser                2.22  pyhd8ed1ab_0                  conda-forge                           
+  + pysocks                 1.7.1  pyha2e5f31_6                  conda-forge                           
+  + python                 3.11.9  hb806964_0_cpython            /work/conda/cache/conda-forge         
+  + python-dateutil         2.9.0  pyhd8ed1ab_0                  conda-forge                           
+  + python-tzdata          2024.1  pyhd8ed1ab_0                  conda-forge                           
+  + python_abi               3.11  4_cp311                       conda-forge                           
+  + pytorch                 2.4.0  py3.11_cuda12.1_cudnn9.1.0_0  pytorch                               
+  + pytorch-cuda             12.1  ha16c6d3_5                    pytorch                               
+  + pytorch-mutex             1.0  cuda                          pytorch                               
+  + pytz                   2024.1  pyhd8ed1ab_0                  conda-forge                           
+  + pyyaml                  6.0.1  py311h459d7ec_1               conda-forge                           
+  + readline                  8.2  h8228510_1                    conda-forge                           
+  + requests               2.32.3  pyhd8ed1ab_0                  conda-forge                           
+  + setuptools             71.0.4  pyhd8ed1ab_0                  conda-forge                           
+  + six                    1.16.0  pyh6c4a22f_0                  conda-forge                           
+  + sympy                  1.13.0  pypyh2585a3b_103              conda-forge                           
+  + tbb                 2021.12.0  h434a139_3                    conda-forge                           
+  + tk                     8.6.13  noxft_h4845f30_101            /work/conda/cache/conda-forge         
+  + torchtriton             3.0.0  py311                         pytorch                               
+  + torchvision            0.19.0  py311_cu121                   pytorch                               
+  + typing_extensions      4.12.2  pyha770c72_0                  conda-forge                           
+  + tzdata                  2024a  h0c530f3_0                    conda-forge                           
+  + urllib3                 2.2.2  pyhd8ed1ab_1                  conda-forge                           
+  + wheel                  0.43.0  pyhd8ed1ab_1                  conda-forge                           
+  + xorg-libxau            1.0.11  hd590300_0                    conda-forge                           
+  + xorg-libxdmcp           1.1.3  h516909a_0                    conda-forge                           
+  + xz                      5.2.6  h166bdaf_0                    conda-forge                           
+  + yaml                    0.2.5  h7f98852_2                    conda-forge                           
+  + zlib                   1.2.13  h4ab18f5_6                    conda-forge                           
+  + zstandard              0.23.0  py311h5cd10c7_0               conda-forge                           
+  + zstd                    1.5.6  ha6fb4c9_0                    conda-forge                           
+
+  Summary:
+
+  Install: 119 packages
+
+  Total download: 0 B
+
+─────────────────────────────────────────────────────────────────────────────────────────────────────────
+
+
+
+Transaction starting
+Linking libcublas-12.1.0.26-0
+Linking libcufft-11.0.2.4-0
+Linking libcusolver-11.4.4.55-0
+Linking libcusparse-12.0.2.55-0
+Linking libnpp-12.0.2.50-0
+Linking libnvjitlink-12.1.105-0
+Linking cuda-cudart-12.1.105-0
+Linking cuda-nvrtc-12.1.105-0
+Linking libnvjpeg-12.1.1.14-0
+Linking cuda-cupti-12.1.105-0
+Linking cuda-nvtx-12.1.105-0
+Linking pytorch-mutex-1.0-cuda
+Linking _libgcc_mutex-0.1-conda_forge
+Linking mkl-include-2022.1.0-h84fe81f_915
+Linking python_abi-3.11-4_cp311
+Linking ld_impl_linux-64-2.40-hf3520f5_7
+Linking ca-certificates-2024.7.4-hbcca054_0
+Linking libgcc-ng-14.1.0-h77fa898_0
+Linking libzlib-1.2.13-h4ab18f5_6
+Linking llvm-openmp-15.0.7-h0cdce71_0
+Linking _openmp_mutex-4.5-2_kmp_llvm
+Linking xorg-libxdmcp-1.1.3-h516909a_0
+Linking pthread-stubs-0.4-h36c2ea0_1001
+Linking xorg-libxau-1.0.11-hd590300_0
+Linking libwebp-base-1.4.0-hd590300_0
+Linking libdeflate-1.17-h0b41bf4_0
+Linking jpeg-9e-h166bdaf_2
+Linking libffi-3.4.2-h7f98852_5
+Linking tk-8.6.13-noxft_h4845f30_101
+Linking openssl-3.3.1-h4bc722e_2
+Linking libxcrypt-4.4.36-hd590300_1
+Linking libsqlite-3.46.0-hde9e2c9_0
+Linking yaml-0.2.5-h7f98852_2
+Linking ncurses-6.5-h59595ed_0
+Linking libgfortran5-14.1.0-hc5f4f2c_0
+Linking lame-3.100-h166bdaf_1003
+Linking nettle-3.6-he412f7d_0
+Linking zlib-1.2.13-h4ab18f5_6
+Linking libstdcxx-ng-14.1.0-hc0a3c3a_0
+Linking libiconv-1.17-hd590300_2
+Linking bzip2-1.0.8-h4bc722e_7
+Linking libpng-1.6.43-h2797004_0
+Linking xz-5.2.6-h166bdaf_0
+Linking libuuid-2.38.1-h0b41bf4_0
+Linking libnsl-2.0.1-hd590300_0
+Linking libexpat-2.6.2-h59595ed_0
+Linking libxcb-1.13-h7f98852_1004
+Linking readline-8.2-h8228510_1
+Linking libgfortran-ng-14.1.0-h69a702a_0
+Linking icu-73.2-h59595ed_0
+Linking zstd-1.5.6-ha6fb4c9_0
+Linking lerc-4.0.0-h27087fc_0
+Linking openh264-2.1.1-h780b84a_0
+Linking gnutls-3.6.13-h85f3911_1
+Linking gmp-6.3.0-hac33072_2
+Linking freetype-2.12.1-h267a509_2
+Linking libxml2-2.12.7-hc051c1a_1
+Linking libtiff-4.5.0-h6adf6a1_2
+Linking mpfr-4.2.1-h9458935_1
+Linking libhwloc-2.11.1-default_hecaa2ac_1000
+Linking openjpeg-2.5.0-hfec8fc6_2
+Linking lcms2-2.15-hfd0df8a_0
+Linking mpc-1.3.1-hfe3b2da_0
+Linking tbb-2021.12.0-h434a139_3
+Linking mkl-2022.1.0-h84fe81f_915
+Linking mkl-devel-2022.1.0-ha770c72_916
+Linking libblas-3.9.0-16_linux64_mkl
+Linking liblapack-3.9.0-16_linux64_mkl
+Linking libcblas-3.9.0-16_linux64_mkl
+Linking liblapacke-3.9.0-16_linux64_mkl
+Linking blas-devel-3.9.0-16_linux64_mkl
+Linking blas-2.116-mkl
+Linking cuda-version-12.5-3
+Linking tzdata-2024a-h0c530f3_0
+Linking libjpeg-turbo-2.0.0-h9bf148f_0
+warning  libmamba [libjpeg-turbo-2.0.0-h9bf148f_0] The following files were already present in the environment:
+    - bin/cjpeg
+    - bin/djpeg
+    - bin/jpegtran
+    - bin/rdjpgcom
+    - bin/wrjpgcom
+    - include/jconfig.h
+    - include/jerror.h
+    - include/jmorecfg.h
+    - include/jpeglib.h
+    - lib/libjpeg.a
+    - lib/libjpeg.so
+    - lib/pkgconfig/libjpeg.pc
+    - share/man/man1/cjpeg.1
+    - share/man/man1/djpeg.1
+    - share/man/man1/jpegtran.1
+    - share/man/man1/rdjpgcom.1
+    - share/man/man1/wrjpgcom.1
+Linking ffmpeg-4.3-hf484d3e_0
+Linking libcurand-10.3.6.82-0
+Linking libcufile-1.10.1.7-0
+Linking cuda-opencl-12.5.39-0
+Linking cuda-libraries-12.1.0-0
+Linking cuda-runtime-12.1.0-0
+Linking python-3.11.9-hb806964_0_cpython
+Linking pytorch-cuda-12.1-ha16c6d3_5
+Linking wheel-0.43.0-pyhd8ed1ab_1
+Linking setuptools-71.0.4-pyhd8ed1ab_0
+Linking pip-24.0-pyhd8ed1ab_0
+Linking pycparser-2.22-pyhd8ed1ab_0
+Linking six-1.16.0-pyh6c4a22f_0
+Linking hyperframe-6.0.1-pyhd8ed1ab_0
+Linking pytz-2024.1-pyhd8ed1ab_0
+Linking python-tzdata-2024.1-pyhd8ed1ab_0
+Linking charset-normalizer-3.3.2-pyhd8ed1ab_0
+Linking hpack-4.0.0-pyh9f0ad1d_0
+Linking pysocks-1.7.1-pyha2e5f31_6
+Linking idna-3.7-pyhd8ed1ab_0
+Linking certifi-2024.7.4-pyhd8ed1ab_0
+Linking mpmath-1.3.0-pyhd8ed1ab_0
+Linking typing_extensions-4.12.2-pyha770c72_0
+Linking networkx-3.3-pyhd8ed1ab_1
+Linking filelock-3.15.4-pyhd8ed1ab_0
+Linking click-8.1.7-unix_pyh707e725_0
+Linking python-dateutil-2.9.0-pyhd8ed1ab_0
+Linking h2-4.1.0-pyhd8ed1ab_0
+Linking brotli-python-1.1.0-py311hb755f60_1
+Linking markupsafe-2.1.5-py311h459d7ec_0
+Linking gmpy2-2.1.5-py311hc4f1f91_1
+Linking pyyaml-6.0.1-py311h459d7ec_1
+Linking pillow-9.4.0-py311h50def17_1
+Linking numpy-2.0.0-py311h1461c94_0
+Linking cffi-1.16.0-py311hb3a22ac_0
+Linking pandas-2.2.2-py311h14de704_1
+Linking zstandard-0.23.0-py311h5cd10c7_0
+Linking jinja2-3.1.4-pyhd8ed1ab_0
+Linking sympy-1.13.0-pypyh2585a3b_103
+Linking urllib3-2.2.2-pyhd8ed1ab_1
+Linking requests-2.32.3-pyhd8ed1ab_0
+Linking pytorch-2.4.0-py3.11_cuda12.1_cudnn9.1.0_0
+Linking torchtriton-3.0.0-py311
+Linking torchvision-0.19.0-py311_cu121
+
+Transaction finished
+
+To activate this environment, use:
+
+    mamba activate auto-v5ewbna3m2oe
+
+Or to execute a single command in this environment, use:
+
+    mamba run -n auto-v5ewbna3m2oe mycommand
+
+Installing pip packages
+WARNING: The candidate selected for download or install is a yanked version: 'opencv-python' candidate (version 4.5.5.62 at https://files.pythonhosted.org/packages/9d/98/36bfcbff30da27dd6922ed73ca7802c37d87f77daf4c569da3dcb87b4296/opencv_python-4.5.5.62-cp36-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (from https://pypi.org/simple/opencv-python/) (requires-python:>=3.6))
+Reason for being yanked: deprecated, use 4.5.5.64
+/scratch/yuqian_fu/micromamba/envs/auto-v5ewbna3m2oe/lib/python3.11/site-packages/torch/storage.py:414: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  return torch.load(io.BytesIO(b))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py:225: FutureWarning: `torch.cuda.amp.GradScaler(args...)` is deprecated. Please use `torch.amp.GradScaler('cuda', args...)` instead.
+  scaler = GradScaler()
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py:247: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with autocast():
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_digit_v13.py:45: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'best_cls_net.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_digit_v13.py:62: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'best_mapping_'+str(i)+'.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_digit_v13.py:72: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'best_E_to_W.pkl'))
+/scratch/yuqian_fu/micromamba/envs/auto-v5ewbna3m2oe/lib/python3.11/site-packages/torch/storage.py:414: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  return torch.load(io.BytesIO(b))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_digit_v13.py:48: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'last_cls_net.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_digit_v13.py:65: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'last_mapping_'+str(i)+'.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_digit_v13.py:75: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'last_E_to_W.pkl'))
+/scratch/yuqian_fu/micromamba/envs/auto-v5ewbna3m2oe/lib/python3.11/site-packages/torch/storage.py:414: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  return torch.load(io.BytesIO(b))
diff --git a/Meta-causal/code-withStyleAttack/71580.log b/Meta-causal/code-withStyleAttack/71580.log
new file mode 100644
index 0000000000000000000000000000000000000000..713fb2fbe48114ed0845be2d5b03b7f099f3c514
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/71580.log
@@ -0,0 +1,13446 @@
+Collecting h5py>=2.9.0
+  Downloading h5py-3.11.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (2.5 kB)
+Collecting ml-collections
+  Downloading ml_collections-0.1.1.tar.gz (77 kB)
+     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 77.9/77.9 kB 9.4 MB/s eta 0:00:00
+  Preparing metadata (setup.py): started
+  Preparing metadata (setup.py): finished with status 'done'
+Requirement already satisfied: numpy in ./lib/python3.11/site-packages (2.0.0)
+Collecting opencv-python==4.5.5.62
+  Downloading opencv_python-4.5.5.62-cp36-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (18 kB)
+Collecting scipy>=1.3.2
+  Downloading scipy-1.14.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (60 kB)
+     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 60.8/60.8 kB 20.4 MB/s eta 0:00:00
+Collecting tensorboard
+  Downloading tensorboard-2.17.0-py3-none-any.whl.metadata (1.6 kB)
+Collecting tensorboardX>=1.4
+  Downloading tensorboardX-2.6.2.2-py2.py3-none-any.whl.metadata (5.8 kB)
+Collecting timm
+  Downloading timm-1.0.7-py3-none-any.whl.metadata (47 kB)
+     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 47.5/47.5 kB 7.7 MB/s eta 0:00:00
+Collecting absl-py (from ml-collections)
+  Downloading absl_py-2.1.0-py3-none-any.whl.metadata (2.3 kB)
+Requirement already satisfied: PyYAML in ./lib/python3.11/site-packages (from ml-collections) (6.0.1)
+Requirement already satisfied: six in ./lib/python3.11/site-packages (from ml-collections) (1.16.0)
+Collecting contextlib2 (from ml-collections)
+  Downloading contextlib2-21.6.0-py2.py3-none-any.whl.metadata (4.1 kB)
+Collecting grpcio>=1.48.2 (from tensorboard)
+  Downloading grpcio-1.65.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (3.3 kB)
+Collecting markdown>=2.6.8 (from tensorboard)
+  Downloading Markdown-3.6-py3-none-any.whl.metadata (7.0 kB)
+Collecting protobuf!=4.24.0,<5.0.0,>=3.19.6 (from tensorboard)
+  Downloading protobuf-4.25.4-cp37-abi3-manylinux2014_x86_64.whl.metadata (541 bytes)
+Requirement already satisfied: setuptools>=41.0.0 in ./lib/python3.11/site-packages (from tensorboard) (71.0.4)
+Collecting tensorboard-data-server<0.8.0,>=0.7.0 (from tensorboard)
+  Downloading tensorboard_data_server-0.7.2-py3-none-manylinux_2_31_x86_64.whl.metadata (1.1 kB)
+Collecting werkzeug>=1.0.1 (from tensorboard)
+  Downloading werkzeug-3.0.3-py3-none-any.whl.metadata (3.7 kB)
+Collecting packaging (from tensorboardX>=1.4)
+  Downloading packaging-24.1-py3-none-any.whl.metadata (3.2 kB)
+Requirement already satisfied: torch in ./lib/python3.11/site-packages (from timm) (2.4.0)
+Requirement already satisfied: torchvision in ./lib/python3.11/site-packages (from timm) (0.19.0)
+Collecting huggingface_hub (from timm)
+  Downloading huggingface_hub-0.24.2-py3-none-any.whl.metadata (13 kB)
+Collecting safetensors (from timm)
+  Downloading safetensors-0.4.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (3.8 kB)
+Requirement already satisfied: MarkupSafe>=2.1.1 in ./lib/python3.11/site-packages (from werkzeug>=1.0.1->tensorboard) (2.1.5)
+Requirement already satisfied: filelock in ./lib/python3.11/site-packages (from huggingface_hub->timm) (3.15.4)
+Collecting fsspec>=2023.5.0 (from huggingface_hub->timm)
+  Downloading fsspec-2024.6.1-py3-none-any.whl.metadata (11 kB)
+Requirement already satisfied: requests in ./lib/python3.11/site-packages (from huggingface_hub->timm) (2.32.3)
+Collecting tqdm>=4.42.1 (from huggingface_hub->timm)
+  Downloading tqdm-4.66.4-py3-none-any.whl.metadata (57 kB)
+     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 57.6/57.6 kB 23.2 MB/s eta 0:00:00
+Requirement already satisfied: typing-extensions>=3.7.4.3 in ./lib/python3.11/site-packages (from huggingface_hub->timm) (4.12.2)
+Requirement already satisfied: sympy in ./lib/python3.11/site-packages (from torch->timm) (1.13.0)
+Requirement already satisfied: networkx in ./lib/python3.11/site-packages (from torch->timm) (3.3)
+Requirement already satisfied: jinja2 in ./lib/python3.11/site-packages (from torch->timm) (3.1.4)
+Requirement already satisfied: pillow!=8.3.*,>=5.3.0 in ./lib/python3.11/site-packages (from torchvision->timm) (9.4.0)
+Requirement already satisfied: charset-normalizer<4,>=2 in ./lib/python3.11/site-packages (from requests->huggingface_hub->timm) (3.3.2)
+Requirement already satisfied: idna<4,>=2.5 in ./lib/python3.11/site-packages (from requests->huggingface_hub->timm) (3.7)
+Requirement already satisfied: urllib3<3,>=1.21.1 in ./lib/python3.11/site-packages (from requests->huggingface_hub->timm) (2.2.2)
+Requirement already satisfied: certifi>=2017.4.17 in ./lib/python3.11/site-packages (from requests->huggingface_hub->timm) (2024.7.4)
+Requirement already satisfied: mpmath<1.4,>=1.1.0 in ./lib/python3.11/site-packages (from sympy->torch->timm) (1.3.0)
+Downloading opencv_python-4.5.5.62-cp36-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (60.4 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 60.4/60.4 MB 93.3 MB/s eta 0:00:00
+Downloading h5py-3.11.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (5.4 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 5.4/5.4 MB 176.7 MB/s eta 0:00:00
+Downloading scipy-1.14.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (41.1 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 41.1/41.1 MB 109.8 MB/s eta 0:00:00
+Downloading tensorboard-2.17.0-py3-none-any.whl (5.5 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 5.5/5.5 MB 174.1 MB/s eta 0:00:00
+Downloading tensorboardX-2.6.2.2-py2.py3-none-any.whl (101 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 101.7/101.7 kB 38.9 MB/s eta 0:00:00
+Downloading timm-1.0.7-py3-none-any.whl (2.3 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 2.3/2.3 MB 155.9 MB/s eta 0:00:00
+Downloading absl_py-2.1.0-py3-none-any.whl (133 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 133.7/133.7 kB 46.0 MB/s eta 0:00:00
+Downloading grpcio-1.65.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (5.7 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 5.7/5.7 MB 158.3 MB/s eta 0:00:00
+Downloading Markdown-3.6-py3-none-any.whl (105 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 105.4/105.4 kB 36.7 MB/s eta 0:00:00
+Downloading protobuf-4.25.4-cp37-abi3-manylinux2014_x86_64.whl (294 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 294.6/294.6 kB 47.4 MB/s eta 0:00:00
+Downloading tensorboard_data_server-0.7.2-py3-none-manylinux_2_31_x86_64.whl (6.6 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 6.6/6.6 MB 101.1 MB/s eta 0:00:00
+Downloading werkzeug-3.0.3-py3-none-any.whl (227 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 227.3/227.3 kB 75.6 MB/s eta 0:00:00
+Downloading contextlib2-21.6.0-py2.py3-none-any.whl (13 kB)
+Downloading huggingface_hub-0.24.2-py3-none-any.whl (417 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 417.2/417.2 kB 112.9 MB/s eta 0:00:00
+Downloading packaging-24.1-py3-none-any.whl (53 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 54.0/54.0 kB 22.6 MB/s eta 0:00:00
+Downloading safetensors-0.4.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.2 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 1.2/1.2 MB 172.7 MB/s eta 0:00:00
+Downloading fsspec-2024.6.1-py3-none-any.whl (177 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 177.6/177.6 kB 33.7 MB/s eta 0:00:00
+Downloading tqdm-4.66.4-py3-none-any.whl (78 kB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 78.3/78.3 kB 27.3 MB/s eta 0:00:00
+Building wheels for collected packages: ml-collections
+  Building wheel for ml-collections (setup.py): started
+  Building wheel for ml-collections (setup.py): finished with status 'done'
+  Created wheel for ml-collections: filename=ml_collections-0.1.1-py3-none-any.whl size=94506 sha256=f632daf5aa75bd3ea372c8262b8885507277a3546feb9656e476217cb0ff6a79
+  Stored in directory: /scratch/yuqian_fu/.cache/pip/wheels/28/82/ef/a6971b09a96519d55ce6efef66f0cbcdef2ae9cc1e6b41daf7
+Successfully built ml-collections
+Installing collected packages: werkzeug, tqdm, tensorboard-data-server, scipy, safetensors, protobuf, packaging, opencv-python, markdown, h5py, grpcio, fsspec, contextlib2, absl-py, tensorboardX, tensorboard, ml-collections, huggingface_hub, timm
+Successfully installed absl-py-2.1.0 contextlib2-21.6.0 fsspec-2024.6.1 grpcio-1.65.1 h5py-3.11.0 huggingface_hub-0.24.2 markdown-3.6 ml-collections-0.1.1 opencv-python-4.5.5.62 packaging-24.1 protobuf-4.25.4 safetensors-0.4.3 scipy-1.14.0 tensorboard-2.17.0 tensorboard-data-server-0.7.2 tensorboardX-2.6.2.2 timm-1.0.7 tqdm-4.66.4 werkzeug-3.0.3
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 500, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps5_RA', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 3
+--------------------------CA_multiple--------------------------
+---------------------------14 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+Epoch 1, weight, value: tensor([[ 0.0095,  0.0272, -0.0073,  ..., -0.0262,  0.0269, -0.0030],
+        [ 0.0103, -0.0206,  0.0275,  ..., -0.0174,  0.0309,  0.0206],
+        [ 0.0035, -0.0229, -0.0102,  ...,  0.0293, -0.0305, -0.0187],
+        ...,
+        [ 0.0102, -0.0112,  0.0231,  ...,  0.0112,  0.0303,  0.0193],
+        [-0.0256,  0.0085, -0.0285,  ...,  0.0235, -0.0175,  0.0119],
+        [-0.0263, -0.0056, -0.0095,  ..., -0.0270,  0.0204,  0.0019]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([ 0.0252,  0.0012,  0.0123,  0.0068, -0.0063, -0.0001,  0.0048,  0.0301,
+        -0.0290,  0.0285], device='cuda:0'), grad: None
+100
+0.0001
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 218.83, cls_loss 2.2628 cls_loss_mapping 2.2137 cls_loss_causal 2.2802 re_mapping 0.0098 re_causal 0.0094 /// teacc 48.94 lr 0.00010000
+Epoch 2, weight, value: tensor([[ 0.0077,  0.0274, -0.0079,  ..., -0.0266,  0.0241, -0.0030],
+        [ 0.0101, -0.0251,  0.0287,  ..., -0.0187,  0.0286,  0.0206],
+        [ 0.0051, -0.0237, -0.0112,  ...,  0.0295, -0.0319, -0.0187],
+        ...,
+        [ 0.0074, -0.0107,  0.0229,  ...,  0.0105,  0.0303,  0.0193],
+        [-0.0250,  0.0089, -0.0277,  ...,  0.0215, -0.0188,  0.0119],
+        [-0.0292, -0.0066, -0.0114,  ..., -0.0269,  0.0238,  0.0019]],
+       device='cuda:0'), grad: tensor([[ 0.0010,  0.0023,  0.0001,  ..., -0.0020,  0.0053,  0.0000],
+        [-0.0089, -0.0020,  0.0002,  ..., -0.0020,  0.0044,  0.0000],
+        [-0.0005,  0.0027, -0.0007,  ...,  0.0027,  0.0056,  0.0000],
+        ...,
+        [-0.0044, -0.0017,  0.0002,  ..., -0.0014,  0.0012,  0.0000],
+        [-0.0068,  0.0015,  0.0001,  ...,  0.0029, -0.0018,  0.0000],
+        [ 0.0110,  0.0048,  0.0002,  ...,  0.0024,  0.0081,  0.0000]],
+       device='cuda:0')
+Epoch 2, bias, value: tensor([ 0.0249,  0.0025,  0.0115,  0.0072, -0.0066, -0.0016,  0.0049,  0.0307,
+        -0.0285,  0.0277], device='cuda:0'), grad: tensor([ 0.0123, -0.0538,  0.0145,  0.0702,  0.0202, -0.0529, -0.0338, -0.0144,
+        -0.0310,  0.0687], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 217.42, cls_loss 1.9329 cls_loss_mapping 1.1602 cls_loss_causal 1.9270 re_mapping 0.1142 re_causal 0.1214 /// teacc 86.57 lr 0.00010000
+Epoch 3, weight, value: tensor([[ 0.0054,  0.0313, -0.0136,  ..., -0.0261,  0.0163, -0.0118],
+        [ 0.0072, -0.0337,  0.0304,  ..., -0.0221,  0.0197,  0.0104],
+        [ 0.0091, -0.0251, -0.0084,  ...,  0.0350, -0.0387, -0.0234],
+        ...,
+        [ 0.0013, -0.0176,  0.0242,  ...,  0.0065,  0.0306,  0.0275],
+        [-0.0231,  0.0108, -0.0255,  ...,  0.0168, -0.0239,  0.0078],
+        [-0.0339, -0.0088, -0.0128,  ..., -0.0291,  0.0304,  0.0035]],
+       device='cuda:0'), grad: tensor([[ 0.0080,  0.0030,  0.0046,  ...,  0.0006,  0.0029,  0.0078],
+        [-0.0130, -0.0060, -0.0048,  ..., -0.0022,  0.0017, -0.0074],
+        [ 0.0110,  0.0175,  0.0072,  ...,  0.0015,  0.0022,  0.0067],
+        ...,
+        [ 0.0060,  0.0102, -0.0039,  ...,  0.0005,  0.0017, -0.0014],
+        [-0.0218, -0.0349,  0.0058,  ...,  0.0015,  0.0005,  0.0034],
+        [ 0.0064, -0.0118, -0.0073,  ...,  0.0010, -0.0098, -0.0089]],
+       device='cuda:0')
+Epoch 3, bias, value: tensor([ 0.0231,  0.0026,  0.0107,  0.0078, -0.0073,  0.0002,  0.0051,  0.0302,
+        -0.0279,  0.0279], device='cuda:0'), grad: tensor([ 0.0482, -0.0417,  0.0839, -0.0696,  0.0262,  0.0281,  0.0073, -0.0024,
+        -0.0199, -0.0601], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 217.37, cls_loss 1.6248 cls_loss_mapping 0.5084 cls_loss_causal 1.5625 re_mapping 0.1169 re_causal 0.1794 /// teacc 92.03 lr 0.00010000
+Epoch 4, weight, value: tensor([[ 0.0020,  0.0332, -0.0224,  ..., -0.0256,  0.0110, -0.0152],
+        [ 0.0037, -0.0416,  0.0265,  ..., -0.0251,  0.0146,  0.0057],
+        [ 0.0115, -0.0274, -0.0043,  ...,  0.0414, -0.0410, -0.0230],
+        ...,
+        [-0.0030, -0.0249,  0.0331,  ...,  0.0038,  0.0302,  0.0321],
+        [-0.0223,  0.0116, -0.0251,  ...,  0.0125, -0.0266,  0.0068],
+        [-0.0379, -0.0101, -0.0118,  ..., -0.0324,  0.0334,  0.0067]],
+       device='cuda:0'), grad: tensor([[ 8.7967e-03,  1.1612e-02,  6.0692e-03,  ...,  3.8803e-05,
+          1.3752e-03,  7.1144e-03],
+        [ 1.0590e-02,  7.0610e-03,  3.4149e-02,  ..., -3.9011e-05,
+          1.8454e-03,  2.9816e-02],
+        [-3.4668e-02, -3.2471e-02, -3.4821e-02,  ...,  2.1577e-04,
+          1.4334e-03, -3.0350e-02],
+        ...,
+        [-4.2305e-03,  1.0307e-02, -3.9062e-02,  ...,  8.1837e-05,
+          1.8616e-03, -3.1952e-02],
+        [-3.8719e-03, -1.4496e-02, -2.2934e-02,  ...,  1.8227e-04,
+         -1.2329e-02, -2.6077e-02],
+        [ 1.1101e-02,  1.4145e-02,  1.6739e-02,  ...,  6.6280e-05,
+         -3.2253e-03,  1.4969e-02]], device='cuda:0')
+Epoch 4, bias, value: tensor([ 0.0227,  0.0016,  0.0112,  0.0080, -0.0066,  0.0002,  0.0055,  0.0302,
+        -0.0275,  0.0271], device='cuda:0'), grad: tensor([ 0.0322,  0.0464, -0.0427,  0.0150,  0.0161, -0.0079, -0.0164, -0.0410,
+        -0.0745,  0.0728], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 217.63, cls_loss 1.3867 cls_loss_mapping 0.3279 cls_loss_causal 1.3136 re_mapping 0.0921 re_causal 0.1685 /// teacc 94.16 lr 0.00010000
+Epoch 5, weight, value: tensor([[-0.0015,  0.0348, -0.0253,  ..., -0.0250,  0.0076, -0.0155],
+        [ 0.0014, -0.0455,  0.0248,  ..., -0.0267,  0.0118,  0.0044],
+        [ 0.0135, -0.0299, -0.0013,  ...,  0.0452, -0.0441, -0.0236],
+        ...,
+        [-0.0063, -0.0289,  0.0381,  ...,  0.0031,  0.0299,  0.0344],
+        [-0.0215,  0.0125, -0.0261,  ...,  0.0080, -0.0295,  0.0050],
+        [-0.0406, -0.0098, -0.0129,  ..., -0.0341,  0.0354,  0.0076]],
+       device='cuda:0'), grad: tensor([[-0.0070, -0.0242, -0.0029,  ..., -0.0107, -0.0019, -0.0060],
+        [ 0.0079,  0.0094,  0.0124,  ...,  0.0056,  0.0030,  0.0181],
+        [ 0.0079,  0.0175,  0.0050,  ...,  0.0014,  0.0022,  0.0093],
+        ...,
+        [ 0.0057,  0.0146,  0.0153,  ...,  0.0040,  0.0034,  0.0289],
+        [ 0.0347,  0.0348, -0.0003,  ...,  0.0080, -0.0068,  0.0055],
+        [ 0.0081,  0.0176, -0.0179,  ...,  0.0004,  0.0042, -0.0221]],
+       device='cuda:0')
+Epoch 5, bias, value: tensor([ 0.0223,  0.0015,  0.0115,  0.0086, -0.0070,  0.0005,  0.0050,  0.0300,
+        -0.0281,  0.0277], device='cuda:0'), grad: tensor([-0.0794,  0.0531,  0.0204, -0.0726,  0.0237, -0.0667,  0.0069,  0.0593,
+         0.0478,  0.0075], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 226.71, cls_loss 1.2666 cls_loss_mapping 0.2560 cls_loss_causal 1.2034 re_mapping 0.0710 re_causal 0.1461 /// teacc 94.29 lr 0.00010000
+Epoch 6, weight, value: tensor([[-0.0029,  0.0361, -0.0261,  ..., -0.0254,  0.0061, -0.0149],
+        [-0.0010, -0.0497,  0.0234,  ..., -0.0260,  0.0083,  0.0036],
+        [ 0.0136, -0.0323,  0.0015,  ...,  0.0487, -0.0465, -0.0242],
+        ...,
+        [-0.0080, -0.0310,  0.0403,  ...,  0.0014,  0.0286,  0.0355],
+        [-0.0205,  0.0139, -0.0262,  ...,  0.0049, -0.0336,  0.0035],
+        [-0.0427, -0.0099, -0.0132,  ..., -0.0368,  0.0377,  0.0084]],
+       device='cuda:0'), grad: tensor([[ 0.0134,  0.0190,  0.0089,  ...,  0.0059,  0.0052,  0.0140],
+        [-0.0009,  0.0052,  0.0072,  ...,  0.0007,  0.0034,  0.0076],
+        [ 0.0093,  0.0117,  0.0036,  ...,  0.0014,  0.0030,  0.0083],
+        ...,
+        [-0.0027, -0.0126, -0.0267,  ..., -0.0100, -0.0082, -0.0247],
+        [-0.0130, -0.0124,  0.0021,  ...,  0.0054,  0.0062,  0.0083],
+        [ 0.0003,  0.0013, -0.0035,  ...,  0.0035,  0.0020, -0.0114]],
+       device='cuda:0')
+Epoch 6, bias, value: tensor([ 0.0220,  0.0007,  0.0112,  0.0092, -0.0072,  0.0004,  0.0054,  0.0303,
+        -0.0284,  0.0286], device='cuda:0'), grad: tensor([ 0.0711,  0.0070,  0.0405,  0.0262,  0.0407, -0.0315, -0.0495, -0.1036,
+         0.0211, -0.0219], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 5----------------------------------------------------
+epoch 5, time 220.75, cls_loss 1.1997 cls_loss_mapping 0.2134 cls_loss_causal 1.1503 re_mapping 0.0598 re_causal 0.1353 /// teacc 95.64 lr 0.00010000
+Epoch 7, weight, value: tensor([[-0.0047,  0.0369, -0.0267,  ..., -0.0265,  0.0036, -0.0144],
+        [-0.0031, -0.0526,  0.0220,  ..., -0.0277,  0.0066,  0.0029],
+        [ 0.0146, -0.0335,  0.0025,  ...,  0.0527, -0.0494, -0.0256],
+        ...,
+        [-0.0091, -0.0330,  0.0420,  ..., -0.0005,  0.0274,  0.0362],
+        [-0.0193,  0.0146, -0.0275,  ...,  0.0017, -0.0370,  0.0015],
+        [-0.0457, -0.0106, -0.0133,  ..., -0.0395,  0.0394,  0.0090]],
+       device='cuda:0'), grad: tensor([[ 0.0053, -0.0075, -0.0006,  ...,  0.0002, -0.0013, -0.0126],
+        [ 0.0055,  0.0205,  0.0138,  ...,  0.0104,  0.0069,  0.0194],
+        [ 0.0042,  0.0123,  0.0093,  ...,  0.0055,  0.0027,  0.0084],
+        ...,
+        [-0.0013, -0.0050, -0.0138,  ..., -0.0020, -0.0009, -0.0031],
+        [-0.0040, -0.0168,  0.0030,  ...,  0.0008,  0.0007,  0.0025],
+        [ 0.0023,  0.0027,  0.0010,  ..., -0.0054,  0.0025, -0.0045]],
+       device='cuda:0')
+Epoch 7, bias, value: tensor([ 0.0215,  0.0002,  0.0111,  0.0102, -0.0069,  0.0007,  0.0062,  0.0303,
+        -0.0294,  0.0283], device='cuda:0'), grad: tensor([-0.0126,  0.0987,  0.0489, -0.0104, -0.0756, -0.0614,  0.0859, -0.0290,
+        -0.0336, -0.0109], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 6, time 216.67, cls_loss 1.1758 cls_loss_mapping 0.2151 cls_loss_causal 1.1197 re_mapping 0.0481 re_causal 0.1177 /// teacc 95.51 lr 0.00010000
+Epoch 8, weight, value: tensor([[-0.0071,  0.0373, -0.0278,  ..., -0.0267,  0.0017, -0.0146],
+        [-0.0043, -0.0548,  0.0207,  ..., -0.0281,  0.0031,  0.0021],
+        [ 0.0151, -0.0343,  0.0048,  ...,  0.0556, -0.0501, -0.0247],
+        ...,
+        [-0.0110, -0.0343,  0.0431,  ..., -0.0021,  0.0270,  0.0365],
+        [-0.0181,  0.0156, -0.0286,  ..., -0.0006, -0.0381,  0.0004],
+        [-0.0473, -0.0107, -0.0128,  ..., -0.0404,  0.0408,  0.0102]],
+       device='cuda:0'), grad: tensor([[ 0.0034,  0.0058, -0.0032,  ...,  0.0015,  0.0075,  0.0040],
+        [ 0.0014,  0.0004, -0.0065,  ..., -0.0028, -0.0067, -0.0080],
+        [-0.0033,  0.0015, -0.0064,  ..., -0.0001,  0.0041, -0.0035],
+        ...,
+        [ 0.0047,  0.0129,  0.0081,  ...,  0.0033,  0.0067,  0.0100],
+        [ 0.0008, -0.0001,  0.0005,  ...,  0.0011,  0.0009, -0.0007],
+        [ 0.0087,  0.0055,  0.0064,  ..., -0.0045,  0.0001,  0.0044]],
+       device='cuda:0')
+Epoch 8, bias, value: tensor([ 0.0213,  0.0002,  0.0117,  0.0100, -0.0072,  0.0011,  0.0057,  0.0302,
+        -0.0292,  0.0284], device='cuda:0'), grad: tensor([ 0.0112, -0.0307, -0.0153,  0.0024, -0.0254,  0.0297, -0.0230,  0.0467,
+        -0.0155,  0.0199], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 7----------------------------------------------------
+epoch 7, time 216.87, cls_loss 1.1054 cls_loss_mapping 0.1779 cls_loss_causal 1.0566 re_mapping 0.0468 re_causal 0.1158 /// teacc 96.52 lr 0.00010000
+Epoch 9, weight, value: tensor([[-0.0088,  0.0376, -0.0287,  ..., -0.0272,  0.0012, -0.0147],
+        [-0.0066, -0.0573,  0.0195,  ..., -0.0294,  0.0008,  0.0013],
+        [ 0.0157, -0.0350,  0.0052,  ...,  0.0581, -0.0508, -0.0251],
+        ...,
+        [-0.0127, -0.0367,  0.0454,  ..., -0.0029,  0.0261,  0.0376],
+        [-0.0163,  0.0164, -0.0288,  ..., -0.0034, -0.0405, -0.0008],
+        [-0.0493, -0.0105, -0.0144,  ..., -0.0417,  0.0422,  0.0097]],
+       device='cuda:0'), grad: tensor([[-0.0031, -0.0093, -0.0256,  ..., -0.0034, -0.0073, -0.0296],
+        [ 0.0049,  0.0035,  0.0106,  ...,  0.0040,  0.0062,  0.0158],
+        [-0.0025,  0.0025, -0.0007,  ..., -0.0023,  0.0031,  0.0093],
+        ...,
+        [ 0.0004, -0.0001,  0.0129,  ..., -0.0007,  0.0095,  0.0209],
+        [-0.0105, -0.0043,  0.0124,  ...,  0.0073,  0.0067,  0.0165],
+        [-0.0189, -0.0245, -0.0086,  ..., -0.0050, -0.0145, -0.0171]],
+       device='cuda:0')
+Epoch 9, bias, value: tensor([ 0.0212, -0.0003,  0.0116,  0.0109, -0.0070,  0.0013,  0.0058,  0.0300,
+        -0.0296,  0.0282], device='cuda:0'), grad: tensor([-0.0415,  0.0263, -0.0097,  0.0704, -0.0694,  0.0310,  0.0201,  0.0145,
+         0.0471, -0.0886], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 8, time 217.02, cls_loss 1.0884 cls_loss_mapping 0.1654 cls_loss_causal 1.0527 re_mapping 0.0405 re_causal 0.1071 /// teacc 96.35 lr 0.00010000
+Epoch 10, weight, value: tensor([[-9.5411e-03,  3.8084e-02, -2.9978e-02,  ..., -2.7504e-02,
+          8.0280e-05, -1.4423e-02],
+        [-7.3192e-03, -5.8688e-02,  1.9413e-02,  ..., -2.9372e-02,
+          1.5264e-03,  1.6764e-03],
+        [ 1.5923e-02, -3.5433e-02,  5.2620e-03,  ...,  5.9611e-02,
+         -5.2308e-02, -2.6169e-02],
+        ...,
+        [-1.3919e-02, -3.8028e-02,  4.6723e-02,  ..., -3.3156e-03,
+          2.4247e-02,  3.7828e-02],
+        [-1.6081e-02,  1.6333e-02, -2.8588e-02,  ..., -4.1636e-03,
+         -4.2218e-02, -1.3364e-03],
+        [-5.0494e-02, -1.0398e-02, -1.4826e-02,  ..., -4.3717e-02,
+          4.3390e-02,  1.0094e-02]], device='cuda:0'), grad: tensor([[ 0.0040,  0.0039,  0.0046,  ..., -0.0005,  0.0033,  0.0014],
+        [-0.0032, -0.0011,  0.0012,  ..., -0.0011, -0.0009,  0.0006],
+        [ 0.0139,  0.0181,  0.0160,  ...,  0.0065,  0.0018,  0.0150],
+        ...,
+        [-0.0033,  0.0025,  0.0101,  ..., -0.0060, -0.0013,  0.0007],
+        [ 0.0053, -0.0166, -0.0129,  ..., -0.0018, -0.0025, -0.0068],
+        [-0.0073, -0.0079, -0.0018,  ...,  0.0030, -0.0084, -0.0060]],
+       device='cuda:0')
+Epoch 10, bias, value: tensor([ 0.0210, -0.0005,  0.0116,  0.0109, -0.0070,  0.0022,  0.0055,  0.0299,
+        -0.0296,  0.0281], device='cuda:0'), grad: tensor([ 0.0154, -0.0066,  0.0435,  0.0589, -0.0491,  0.0026, -0.0157, -0.0076,
+        -0.0282, -0.0133], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 9, time 216.41, cls_loss 1.0504 cls_loss_mapping 0.1403 cls_loss_causal 1.0000 re_mapping 0.0377 re_causal 0.1006 /// teacc 96.50 lr 0.00010000
+Epoch 11, weight, value: tensor([[-1.0354e-02,  3.9085e-02, -3.1131e-02,  ..., -2.8179e-02,
+         -1.0718e-03, -1.4528e-02],
+        [-7.6688e-03, -6.0395e-02,  1.8029e-02,  ..., -2.9617e-02,
+          7.5836e-05,  3.5740e-04],
+        [ 1.5929e-02, -3.6129e-02,  6.9685e-03,  ...,  6.2759e-02,
+         -5.2846e-02, -2.5856e-02],
+        ...,
+        [-1.4738e-02, -3.9359e-02,  4.7834e-02,  ..., -3.7286e-03,
+          2.3894e-02,  3.8862e-02],
+        [-1.5861e-02,  1.7052e-02, -2.8853e-02,  ..., -5.8908e-03,
+         -4.3508e-02, -1.0083e-03],
+        [-5.1986e-02, -1.0698e-02, -1.4607e-02,  ..., -4.4143e-02,
+          4.4128e-02,  1.0334e-02]], device='cuda:0'), grad: tensor([[ 0.0105,  0.0072,  0.0056,  ...,  0.0015,  0.0026,  0.0003],
+        [ 0.0028,  0.0063, -0.0164,  ...,  0.0009,  0.0005, -0.0056],
+        [ 0.0155,  0.0090,  0.0220,  ...,  0.0020,  0.0007,  0.0131],
+        ...,
+        [-0.0017, -0.0044, -0.0351,  ..., -0.0015, -0.0024, -0.0258],
+        [-0.0140, -0.0129,  0.0262,  ...,  0.0002,  0.0034,  0.0161],
+        [ 0.0011, -0.0022, -0.0002,  ..., -0.0014, -0.0042,  0.0025]],
+       device='cuda:0')
+Epoch 11, bias, value: tensor([ 0.0214, -0.0008,  0.0117,  0.0115, -0.0070,  0.0016,  0.0050,  0.0296,
+        -0.0293,  0.0283], device='cuda:0'), grad: tensor([ 0.0293, -0.0260,  0.0507, -0.0420, -0.0053,  0.0445,  0.0079, -0.0313,
+        -0.0134, -0.0145], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 10----------------------------------------------------
+epoch 10, time 223.52, cls_loss 1.0304 cls_loss_mapping 0.1483 cls_loss_causal 0.9890 re_mapping 0.0352 re_causal 0.0970 /// teacc 96.71 lr 0.00010000
+Epoch 12, weight, value: tensor([[-0.0117,  0.0394, -0.0320,  ..., -0.0286, -0.0022, -0.0137],
+        [-0.0078, -0.0608,  0.0174,  ..., -0.0295, -0.0016, -0.0002],
+        [ 0.0162, -0.0368,  0.0074,  ...,  0.0652, -0.0544, -0.0264],
+        ...,
+        [-0.0162, -0.0409,  0.0485,  ..., -0.0051,  0.0236,  0.0393],
+        [-0.0145,  0.0179, -0.0294,  ..., -0.0085, -0.0462, -0.0024],
+        [-0.0535, -0.0103, -0.0153,  ..., -0.0454,  0.0451,  0.0103]],
+       device='cuda:0'), grad: tensor([[ 6.1913e-03, -6.5460e-03,  2.3785e-03,  ...,  6.0768e-03,
+          2.8076e-03,  2.5558e-03],
+        [ 3.0632e-03,  1.7639e-02,  7.4692e-03,  ...,  1.0967e-03,
+          6.0349e-03,  1.7105e-02],
+        [-2.2469e-03, -2.6741e-03, -9.1934e-03,  ..., -2.8515e-03,
+         -2.3270e-03, -8.8348e-03],
+        ...,
+        [ 3.4943e-03,  1.2482e-02,  2.2087e-03,  ...,  2.5826e-03,
+          1.7939e-03,  1.0979e-02],
+        [-1.5366e-02, -1.1017e-02, -5.3825e-03,  ..., -3.6373e-03,
+          6.9733e-03, -6.9737e-05],
+        [ 1.1703e-02,  2.7802e-02,  1.7120e-02,  ...,  2.4223e-03,
+          1.3512e-02,  3.6682e-02]], device='cuda:0')
+Epoch 12, bias, value: tensor([ 0.0210, -0.0006,  0.0116,  0.0111, -0.0068,  0.0019,  0.0055,  0.0296,
+        -0.0293,  0.0282], device='cuda:0'), grad: tensor([-0.0032,  0.0504, -0.0212, -0.0570,  0.0157, -0.0019, -0.0776,  0.0358,
+        -0.0076,  0.0667], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 11----------------------------------------------------
+epoch 11, time 226.52, cls_loss 0.9942 cls_loss_mapping 0.1232 cls_loss_causal 0.9522 re_mapping 0.0341 re_causal 0.0936 /// teacc 97.27 lr 0.00010000
+Epoch 13, weight, value: tensor([[-0.0125,  0.0398, -0.0335,  ..., -0.0293, -0.0030, -0.0135],
+        [-0.0085, -0.0618,  0.0177,  ..., -0.0301, -0.0021, -0.0008],
+        [ 0.0165, -0.0379,  0.0083,  ...,  0.0672, -0.0562, -0.0267],
+        ...,
+        [-0.0173, -0.0413,  0.0490,  ..., -0.0057,  0.0230,  0.0392],
+        [-0.0133,  0.0188, -0.0298,  ..., -0.0105, -0.0478, -0.0028],
+        [-0.0545, -0.0105, -0.0156,  ..., -0.0456,  0.0456,  0.0102]],
+       device='cuda:0'), grad: tensor([[ 0.0182,  0.0408,  0.0057,  ...,  0.0018,  0.0061,  0.0054],
+        [ 0.0054,  0.0105,  0.0153,  ...,  0.0033,  0.0125,  0.0147],
+        [ 0.0057,  0.0061,  0.0103,  ...,  0.0128,  0.0005,  0.0012],
+        ...,
+        [ 0.0035,  0.0055, -0.0318,  ..., -0.0015, -0.0149, -0.0262],
+        [ 0.0093,  0.0205,  0.0073,  ...,  0.0028,  0.0067,  0.0090],
+        [ 0.0009, -0.0082,  0.0050,  ...,  0.0016,  0.0046,  0.0063]],
+       device='cuda:0')
+Epoch 13, bias, value: tensor([ 0.0211, -0.0007,  0.0116,  0.0116, -0.0069,  0.0015,  0.0056,  0.0294,
+        -0.0291,  0.0282], device='cuda:0'), grad: tensor([ 0.0398,  0.0449,  0.0273, -0.1050, -0.0115, -0.0125,  0.0008, -0.0352,
+         0.0491,  0.0022], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 12, time 225.77, cls_loss 0.9430 cls_loss_mapping 0.1201 cls_loss_causal 0.8963 re_mapping 0.0324 re_causal 0.0904 /// teacc 96.93 lr 0.00010000
+Epoch 14, weight, value: tensor([[-0.0126,  0.0407, -0.0341,  ..., -0.0303, -0.0041, -0.0130],
+        [-0.0095, -0.0627,  0.0171,  ..., -0.0308, -0.0017, -0.0012],
+        [ 0.0163, -0.0383,  0.0091,  ...,  0.0686, -0.0570, -0.0265],
+        ...,
+        [-0.0188, -0.0434,  0.0502,  ..., -0.0052,  0.0223,  0.0398],
+        [-0.0129,  0.0191, -0.0301,  ..., -0.0116, -0.0486, -0.0025],
+        [-0.0556, -0.0109, -0.0158,  ..., -0.0466,  0.0468,  0.0101]],
+       device='cuda:0'), grad: tensor([[ 0.0203,  0.0132, -0.0043,  ...,  0.0037, -0.0012, -0.0055],
+        [ 0.0041,  0.0098,  0.0003,  ...,  0.0002, -0.0022,  0.0031],
+        [ 0.0092,  0.0108,  0.0003,  ...,  0.0020, -0.0007,  0.0028],
+        ...,
+        [-0.0008, -0.0028, -0.0114,  ..., -0.0021, -0.0096, -0.0189],
+        [-0.0107, -0.0190, -0.0123,  ..., -0.0106, -0.0052, -0.0091],
+        [ 0.0057,  0.0100,  0.0154,  ...,  0.0057,  0.0081,  0.0170]],
+       device='cuda:0')
+Epoch 14, bias, value: tensor([ 0.0215, -0.0010,  0.0118,  0.0116, -0.0063,  0.0013,  0.0053,  0.0292,
+        -0.0291,  0.0279], device='cuda:0'), grad: tensor([-1.7197e-02,  1.9135e-02,  2.2293e-02,  1.8539e-02, -1.8311e-02,
+         2.2568e-02, -7.8082e-05, -3.4943e-02, -5.2856e-02,  4.0771e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 13----------------------------------------------------
+epoch 13, time 228.56, cls_loss 0.9522 cls_loss_mapping 0.1339 cls_loss_causal 0.9151 re_mapping 0.0299 re_causal 0.0857 /// teacc 97.62 lr 0.00010000
+Epoch 15, weight, value: tensor([[-0.0142,  0.0411, -0.0353,  ..., -0.0309, -0.0051, -0.0130],
+        [-0.0101, -0.0637,  0.0172,  ..., -0.0304, -0.0016, -0.0021],
+        [ 0.0170, -0.0381,  0.0095,  ...,  0.0713, -0.0573, -0.0271],
+        ...,
+        [-0.0195, -0.0446,  0.0511,  ..., -0.0055,  0.0216,  0.0401],
+        [-0.0119,  0.0194, -0.0302,  ..., -0.0126, -0.0496, -0.0022],
+        [-0.0573, -0.0110, -0.0160,  ..., -0.0479,  0.0474,  0.0106]],
+       device='cuda:0'), grad: tensor([[ 0.0035,  0.0056,  0.0004,  ..., -0.0097,  0.0037,  0.0042],
+        [ 0.0058,  0.0114,  0.0077,  ...,  0.0022,  0.0029,  0.0072],
+        [ 0.0040,  0.0125,  0.0073,  ...,  0.0058,  0.0023,  0.0087],
+        ...,
+        [ 0.0025, -0.0094, -0.0165,  ..., -0.0085, -0.0064, -0.0250],
+        [-0.0030, -0.0268, -0.0011,  ...,  0.0024, -0.0028, -0.0055],
+        [ 0.0053,  0.0165, -0.0008,  ...,  0.0029,  0.0046,  0.0106]],
+       device='cuda:0')
+Epoch 15, bias, value: tensor([ 0.0212, -0.0011,  0.0118,  0.0118, -0.0062,  0.0015,  0.0053,  0.0290,
+        -0.0289,  0.0277], device='cuda:0'), grad: tensor([ 0.0039,  0.0280,  0.0319,  0.0123,  0.0382, -0.0155, -0.0292, -0.0605,
+        -0.0226,  0.0137], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 14, time 227.47, cls_loss 0.9330 cls_loss_mapping 0.1255 cls_loss_causal 0.8960 re_mapping 0.0289 re_causal 0.0839 /// teacc 97.44 lr 0.00010000
+Epoch 16, weight, value: tensor([[-0.0149,  0.0413, -0.0356,  ..., -0.0316, -0.0059, -0.0131],
+        [-0.0104, -0.0643,  0.0165,  ..., -0.0314, -0.0028, -0.0034],
+        [ 0.0169, -0.0388,  0.0104,  ...,  0.0731, -0.0575, -0.0267],
+        ...,
+        [-0.0210, -0.0458,  0.0520,  ..., -0.0056,  0.0216,  0.0410],
+        [-0.0116,  0.0192, -0.0311,  ..., -0.0142, -0.0515, -0.0038],
+        [-0.0574, -0.0102, -0.0163,  ..., -0.0494,  0.0480,  0.0102]],
+       device='cuda:0'), grad: tensor([[ 0.0052,  0.0082,  0.0057,  ...,  0.0028,  0.0018,  0.0071],
+        [-0.0061, -0.0082, -0.0092,  ..., -0.0005, -0.0017, -0.0109],
+        [-0.0047, -0.0064, -0.0120,  ...,  0.0058, -0.0047, -0.0117],
+        ...,
+        [ 0.0034,  0.0083,  0.0093,  ...,  0.0040,  0.0049,  0.0117],
+        [ 0.0044,  0.0087,  0.0068,  ...,  0.0023,  0.0021,  0.0072],
+        [-0.0075, -0.0223, -0.0004,  ...,  0.0026, -0.0038, -0.0041]],
+       device='cuda:0')
+Epoch 16, bias, value: tensor([ 0.0211, -0.0013,  0.0116,  0.0123, -0.0062,  0.0019,  0.0056,  0.0288,
+        -0.0292,  0.0276], device='cuda:0'), grad: tensor([ 0.0270, -0.0314, -0.0223, -0.0402,  0.0208,  0.0186, -0.0069,  0.0320,
+         0.0285, -0.0262], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 15, time 226.42, cls_loss 0.9395 cls_loss_mapping 0.1125 cls_loss_causal 0.9087 re_mapping 0.0284 re_causal 0.0858 /// teacc 97.45 lr 0.00010000
+Epoch 17, weight, value: tensor([[-0.0149,  0.0424, -0.0370,  ..., -0.0337, -0.0066, -0.0135],
+        [-0.0111, -0.0650,  0.0162,  ..., -0.0319, -0.0039, -0.0043],
+        [ 0.0164, -0.0394,  0.0121,  ...,  0.0754, -0.0576, -0.0254],
+        ...,
+        [-0.0222, -0.0466,  0.0518,  ..., -0.0060,  0.0220,  0.0407],
+        [-0.0120,  0.0193, -0.0312,  ..., -0.0157, -0.0515, -0.0037],
+        [-0.0582, -0.0102, -0.0158,  ..., -0.0491,  0.0482,  0.0105]],
+       device='cuda:0'), grad: tensor([[ 0.0064,  0.0133,  0.0190,  ...,  0.0082,  0.0030,  0.0140],
+        [ 0.0042,  0.0012, -0.0141,  ..., -0.0048, -0.0019, -0.0106],
+        [ 0.0141,  0.0029,  0.0435,  ...,  0.0195,  0.0041,  0.0168],
+        ...,
+        [-0.0010, -0.0126, -0.0160,  ...,  0.0073, -0.0083, -0.0145],
+        [-0.0044,  0.0082, -0.0318,  ..., -0.0239,  0.0014, -0.0022],
+        [-0.0239, -0.0244, -0.0199,  ..., -0.0089, -0.0065, -0.0188]],
+       device='cuda:0')
+Epoch 17, bias, value: tensor([ 0.0211, -0.0016,  0.0117,  0.0128, -0.0065,  0.0019,  0.0057,  0.0285,
+        -0.0293,  0.0279], device='cuda:0'), grad: tensor([ 0.0454, -0.0235,  0.0379, -0.0055,  0.0306,  0.0068,  0.0227, -0.0376,
+         0.0035, -0.0803], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 16, time 226.64, cls_loss 0.8922 cls_loss_mapping 0.1079 cls_loss_causal 0.8550 re_mapping 0.0267 re_causal 0.0747 /// teacc 97.35 lr 0.00010000
+Epoch 18, weight, value: tensor([[-0.0163,  0.0425, -0.0385,  ..., -0.0356, -0.0071, -0.0133],
+        [-0.0111, -0.0651,  0.0163,  ..., -0.0311, -0.0038, -0.0041],
+        [ 0.0162, -0.0405,  0.0125,  ...,  0.0770, -0.0576, -0.0255],
+        ...,
+        [-0.0226, -0.0474,  0.0524,  ..., -0.0052,  0.0216,  0.0409],
+        [-0.0105,  0.0203, -0.0322,  ..., -0.0164, -0.0525, -0.0039],
+        [-0.0581, -0.0098, -0.0155,  ..., -0.0502,  0.0489,  0.0105]],
+       device='cuda:0'), grad: tensor([[ 4.0894e-03,  7.3051e-03,  5.5351e-03,  ...,  1.2331e-03,
+          9.6679e-05,  4.8141e-03],
+        [ 3.2330e-03,  4.6959e-03, -1.2337e-02,  ..., -1.4849e-03,
+          1.9777e-04, -2.2869e-03],
+        [ 5.5847e-03,  1.2085e-02,  1.5640e-02,  ...,  1.9951e-03,
+          5.7077e-04,  1.5533e-02],
+        ...,
+        [-2.7618e-03, -7.1945e-03,  2.5272e-03,  ...,  4.1533e-04,
+          4.5776e-03,  4.8294e-03],
+        [-2.0264e-02, -2.3911e-02,  3.1052e-03,  ...,  1.3313e-03,
+          5.8603e-04, -4.1842e-04],
+        [ 3.8853e-03,  4.1161e-03,  5.7068e-03,  ...,  2.4719e-03,
+         -1.6375e-03,  4.0207e-03]], device='cuda:0')
+Epoch 18, bias, value: tensor([ 0.0208, -0.0013,  0.0114,  0.0127, -0.0071,  0.0020,  0.0056,  0.0290,
+        -0.0293,  0.0282], device='cuda:0'), grad: tensor([ 0.0211, -0.0112,  0.0481, -0.0007, -0.0090,  0.0173, -0.0377, -0.0231,
+        -0.0222,  0.0174], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 17, time 226.81, cls_loss 0.8646 cls_loss_mapping 0.1033 cls_loss_causal 0.8408 re_mapping 0.0270 re_causal 0.0784 /// teacc 97.22 lr 0.00010000
+Epoch 19, weight, value: tensor([[-0.0166,  0.0430, -0.0390,  ..., -0.0347, -0.0082, -0.0137],
+        [-0.0112, -0.0652,  0.0166,  ..., -0.0314, -0.0042, -0.0047],
+        [ 0.0168, -0.0408,  0.0134,  ...,  0.0781, -0.0580, -0.0256],
+        ...,
+        [-0.0237, -0.0490,  0.0523,  ..., -0.0050,  0.0213,  0.0405],
+        [-0.0106,  0.0204, -0.0315,  ..., -0.0171, -0.0524, -0.0034],
+        [-0.0594, -0.0098, -0.0154,  ..., -0.0516,  0.0499,  0.0112]],
+       device='cuda:0'), grad: tensor([[-2.9259e-03, -1.3229e-02,  9.2864e-05,  ...,  1.5287e-03,
+          1.1444e-03, -5.7716e-03],
+        [-1.4048e-03, -6.3744e-03, -5.8899e-03,  ...,  6.0558e-04,
+         -2.2259e-03, -2.0924e-03],
+        [ 2.9507e-03,  8.2474e-03,  2.4910e-03,  ..., -3.0956e-03,
+          2.0657e-03,  4.3488e-03],
+        ...,
+        [-4.4174e-03, -2.0027e-03, -1.3535e-02,  ..., -5.4970e-03,
+         -8.0347e-04, -8.9951e-03],
+        [ 2.9259e-03,  4.6501e-03,  6.5346e-03,  ...,  2.2221e-03,
+          4.9667e-03,  3.1013e-03],
+        [ 2.7599e-03,  2.5406e-03,  1.4544e-03,  ...,  2.4014e-03,
+         -6.1378e-03,  4.6945e-04]], device='cuda:0')
+Epoch 19, bias, value: tensor([ 0.0208, -0.0009,  0.0112,  0.0126, -0.0066,  0.0020,  0.0050,  0.0286,
+        -0.0288,  0.0281], device='cuda:0'), grad: tensor([-0.0038,  0.0013,  0.0240,  0.0178,  0.0394, -0.0431, -0.0133, -0.0372,
+        -0.0026,  0.0175], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 18----------------------------------------------------
+epoch 18, time 228.00, cls_loss 0.8921 cls_loss_mapping 0.0992 cls_loss_causal 0.8556 re_mapping 0.0253 re_causal 0.0762 /// teacc 97.75 lr 0.00010000
+Epoch 20, weight, value: tensor([[-0.0173,  0.0432, -0.0389,  ..., -0.0348, -0.0092, -0.0140],
+        [-0.0121, -0.0657,  0.0159,  ..., -0.0328, -0.0051, -0.0054],
+        [ 0.0171, -0.0412,  0.0134,  ...,  0.0799, -0.0590, -0.0263],
+        ...,
+        [-0.0240, -0.0493,  0.0531,  ..., -0.0049,  0.0218,  0.0417],
+        [-0.0106,  0.0201, -0.0319,  ..., -0.0181, -0.0539, -0.0040],
+        [-0.0606, -0.0100, -0.0159,  ..., -0.0535,  0.0512,  0.0109]],
+       device='cuda:0'), grad: tensor([[-6.9389e-03, -3.0869e-02, -6.8359e-03,  ...,  2.8267e-03,
+          2.9984e-03, -8.0719e-03],
+        [ 7.3700e-03,  1.3245e-02,  2.0096e-02,  ...,  8.4991e-03,
+          6.7520e-03,  1.5106e-02],
+        [-6.7787e-03, -6.5880e-03, -8.1863e-03,  ..., -1.0071e-02,
+         -7.2050e-04, -3.9940e-03],
+        ...,
+        [ 6.8474e-03,  6.6795e-03,  7.7171e-03,  ...,  3.4561e-03,
+         -1.1650e-02,  9.1982e-04],
+        [ 1.0880e-02,  1.3695e-02,  7.2479e-03,  ...,  3.1662e-03,
+         -2.4080e-05,  2.7599e-03],
+        [-1.3031e-02, -2.5223e-02, -1.6586e-02,  ..., -2.5024e-03,
+         -1.0941e-02, -2.2964e-02]], device='cuda:0')
+Epoch 20, bias, value: tensor([ 0.0212, -0.0017,  0.0111,  0.0127, -0.0064,  0.0024,  0.0051,  0.0292,
+        -0.0295,  0.0280], device='cuda:0'), grad: tensor([-0.0350,  0.0636, -0.0220, -0.0195,  0.0234,  0.0222, -0.0275,  0.0199,
+         0.0306, -0.0558], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 19, time 226.29, cls_loss 0.8621 cls_loss_mapping 0.0878 cls_loss_causal 0.8357 re_mapping 0.0247 re_causal 0.0714 /// teacc 97.48 lr 0.00010000
+Epoch 21, weight, value: tensor([[-0.0181,  0.0434, -0.0396,  ..., -0.0358, -0.0102, -0.0141],
+        [-0.0132, -0.0666,  0.0157,  ..., -0.0328, -0.0051, -0.0055],
+        [ 0.0179, -0.0417,  0.0141,  ...,  0.0816, -0.0590, -0.0268],
+        ...,
+        [-0.0231, -0.0496,  0.0530,  ..., -0.0059,  0.0209,  0.0418],
+        [-0.0103,  0.0203, -0.0321,  ..., -0.0191, -0.0535, -0.0042],
+        [-0.0612, -0.0096, -0.0156,  ..., -0.0541,  0.0514,  0.0107]],
+       device='cuda:0'), grad: tensor([[ 2.1992e-03, -9.3002e-03, -1.1650e-02,  ..., -1.3819e-03,
+         -9.9487e-03, -2.0584e-02],
+        [-1.2733e-02, -1.8265e-02,  4.3064e-05,  ...,  1.4341e-04,
+         -6.8130e-03,  4.4594e-03],
+        [ 1.2909e-02,  7.2060e-03,  2.8976e-02,  ...,  1.8082e-02,
+          3.5419e-03,  9.3384e-03],
+        ...,
+        [-1.6724e-02, -2.5238e-02, -7.3059e-02,  ..., -2.6596e-02,
+         -1.8494e-02, -3.3600e-02],
+        [ 1.1269e-02,  2.0782e-02,  9.5215e-03,  ...,  3.7632e-03,
+          6.3286e-03,  8.1177e-03],
+        [ 4.5624e-03,  2.4948e-02,  4.1412e-02,  ...,  5.7449e-03,
+          2.1713e-02,  3.1586e-02]], device='cuda:0')
+Epoch 21, bias, value: tensor([ 0.0211, -0.0016,  0.0110,  0.0133, -0.0065,  0.0027,  0.0049,  0.0289,
+        -0.0298,  0.0282], device='cuda:0'), grad: tensor([-0.0356, -0.0396,  0.0470, -0.0423,  0.0033,  0.0089,  0.0145, -0.1085,
+         0.0559,  0.0963], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 20, time 226.67, cls_loss 0.8654 cls_loss_mapping 0.1032 cls_loss_causal 0.8324 re_mapping 0.0232 re_causal 0.0702 /// teacc 97.52 lr 0.00010000
+Epoch 22, weight, value: tensor([[-0.0190,  0.0439, -0.0400,  ..., -0.0367, -0.0104, -0.0140],
+        [-0.0135, -0.0673,  0.0155,  ..., -0.0326, -0.0044, -0.0059],
+        [ 0.0173, -0.0426,  0.0143,  ...,  0.0832, -0.0592, -0.0271],
+        ...,
+        [-0.0237, -0.0500,  0.0537,  ..., -0.0060,  0.0202,  0.0421],
+        [-0.0092,  0.0209, -0.0326,  ..., -0.0201, -0.0547, -0.0041],
+        [-0.0622, -0.0102, -0.0161,  ..., -0.0555,  0.0521,  0.0103]],
+       device='cuda:0'), grad: tensor([[ 9.2840e-04, -1.0890e-04,  4.8332e-03,  ...,  1.5068e-03,
+         -1.3340e-04,  1.8778e-03],
+        [ 4.8790e-03,  4.8103e-03,  7.1907e-03,  ...,  3.1548e-03,
+          2.2240e-03,  7.1907e-03],
+        [ 3.2177e-03, -5.6267e-04, -6.7177e-03,  ..., -3.7346e-03,
+         -4.1885e-03, -9.6664e-03],
+        ...,
+        [ 3.1776e-03,  1.5732e-02,  1.1436e-02,  ...,  3.1757e-03,
+          4.6387e-03,  1.0147e-02],
+        [-1.3863e-02, -2.7008e-02, -3.7231e-03,  ..., -7.5579e-05,
+         -1.1854e-03, -3.1338e-03],
+        [ 3.2368e-03, -4.3564e-03, -1.8036e-02,  ..., -9.3002e-03,
+         -9.2239e-03, -1.4351e-02]], device='cuda:0')
+Epoch 22, bias, value: tensor([ 0.0212, -0.0020,  0.0108,  0.0132, -0.0065,  0.0026,  0.0055,  0.0289,
+        -0.0298,  0.0282], device='cuda:0'), grad: tensor([ 0.0101,  0.0344, -0.0279,  0.0219, -0.0088,  0.0154,  0.0239,  0.0567,
+        -0.0887, -0.0370], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 21, time 227.12, cls_loss 0.9032 cls_loss_mapping 0.0922 cls_loss_causal 0.8670 re_mapping 0.0237 re_causal 0.0716 /// teacc 97.72 lr 0.00010000
+Epoch 23, weight, value: tensor([[-0.0196,  0.0438, -0.0410,  ..., -0.0374, -0.0113, -0.0147],
+        [-0.0136, -0.0686,  0.0149,  ..., -0.0323, -0.0044, -0.0072],
+        [ 0.0171, -0.0426,  0.0149,  ...,  0.0844, -0.0596, -0.0267],
+        ...,
+        [-0.0240, -0.0507,  0.0541,  ..., -0.0062,  0.0197,  0.0427],
+        [-0.0093,  0.0208, -0.0322,  ..., -0.0206, -0.0556, -0.0036],
+        [-0.0637, -0.0099, -0.0160,  ..., -0.0546,  0.0528,  0.0101]],
+       device='cuda:0'), grad: tensor([[-0.0097, -0.0066, -0.0040,  ..., -0.0015,  0.0003, -0.0019],
+        [-0.0025, -0.0061, -0.0154,  ..., -0.0033,  0.0006, -0.0070],
+        [-0.0054, -0.0035, -0.0194,  ..., -0.0116, -0.0003, -0.0053],
+        ...,
+        [ 0.0024, -0.0053,  0.0294,  ...,  0.0048,  0.0125,  0.0173],
+        [ 0.0006, -0.0015,  0.0062,  ...,  0.0029,  0.0009,  0.0021],
+        [ 0.0021,  0.0044, -0.0259,  ...,  0.0018, -0.0167, -0.0362]],
+       device='cuda:0')
+Epoch 23, bias, value: tensor([ 0.0213, -0.0028,  0.0111,  0.0138, -0.0058,  0.0020,  0.0054,  0.0289,
+        -0.0298,  0.0281], device='cuda:0'), grad: tensor([-0.0272, -0.0363, -0.0356,  0.0399,  0.0600,  0.0243, -0.0034,  0.0330,
+         0.0022, -0.0569], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 22----------------------------------------------------
+epoch 22, time 229.72, cls_loss 0.8259 cls_loss_mapping 0.0869 cls_loss_causal 0.7883 re_mapping 0.0237 re_causal 0.0675 /// teacc 97.84 lr 0.00010000
+Epoch 24, weight, value: tensor([[-0.0203,  0.0443, -0.0419,  ..., -0.0374, -0.0123, -0.0155],
+        [-0.0145, -0.0698,  0.0146,  ..., -0.0326, -0.0048, -0.0074],
+        [ 0.0170, -0.0432,  0.0156,  ...,  0.0860, -0.0597, -0.0268],
+        ...,
+        [-0.0235, -0.0512,  0.0547,  ..., -0.0059,  0.0189,  0.0429],
+        [-0.0089,  0.0212, -0.0327,  ..., -0.0206, -0.0561, -0.0041],
+        [-0.0639, -0.0099, -0.0160,  ..., -0.0561,  0.0532,  0.0103]],
+       device='cuda:0'), grad: tensor([[-1.7061e-03, -1.0284e-02, -3.1013e-03,  ..., -5.5885e-04,
+          5.6791e-04, -1.5342e-04],
+        [-3.7708e-03, -5.7144e-03, -1.8250e-02,  ..., -8.8425e-03,
+         -8.2970e-05, -1.1726e-02],
+        [ 6.2714e-03,  7.9880e-03,  2.8992e-02,  ...,  9.4376e-03,
+          1.2999e-03,  1.9806e-02],
+        ...,
+        [ 5.4628e-05,  1.0895e-02, -1.7900e-03,  ..., -2.8825e-04,
+          9.2163e-03,  8.7814e-03],
+        [ 4.1695e-03,  1.3609e-03,  4.4632e-03,  ...,  1.4477e-03,
+          8.3113e-04,  3.4275e-03],
+        [ 1.2712e-03,  1.2964e-05, -9.9945e-03,  ...,  2.8534e-03,
+         -9.3613e-03, -1.2466e-02]], device='cuda:0')
+Epoch 24, bias, value: tensor([ 0.0208, -0.0022,  0.0113,  0.0137, -0.0063,  0.0020,  0.0058,  0.0292,
+        -0.0299,  0.0278], device='cuda:0'), grad: tensor([-0.0138, -0.0447,  0.0674, -0.0774,  0.0284,  0.0137, -0.0066,  0.0156,
+         0.0188, -0.0014], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 23, time 226.55, cls_loss 0.8239 cls_loss_mapping 0.0745 cls_loss_causal 0.7879 re_mapping 0.0229 re_causal 0.0662 /// teacc 97.84 lr 0.00010000
+Epoch 25, weight, value: tensor([[-0.0204,  0.0452, -0.0422,  ..., -0.0377, -0.0121, -0.0155],
+        [-0.0153, -0.0704,  0.0148,  ..., -0.0323, -0.0048, -0.0068],
+        [ 0.0174, -0.0442,  0.0157,  ...,  0.0872, -0.0599, -0.0273],
+        ...,
+        [-0.0238, -0.0519,  0.0545,  ..., -0.0068,  0.0182,  0.0421],
+        [-0.0086,  0.0216, -0.0322,  ..., -0.0218, -0.0568, -0.0046],
+        [-0.0647, -0.0098, -0.0161,  ..., -0.0562,  0.0535,  0.0102]],
+       device='cuda:0'), grad: tensor([[-0.0136, -0.0254,  0.0036,  ...,  0.0014, -0.0019, -0.0058],
+        [ 0.0054,  0.0083,  0.0044,  ...,  0.0009,  0.0036,  0.0070],
+        [-0.0176, -0.0170, -0.0108,  ..., -0.0116, -0.0067, -0.0167],
+        ...,
+        [-0.0022, -0.0040, -0.0141,  ..., -0.0009, -0.0087, -0.0236],
+        [ 0.0042,  0.0045, -0.0033,  ...,  0.0008, -0.0034, -0.0063],
+        [ 0.0028,  0.0046,  0.0109,  ...,  0.0010,  0.0112,  0.0213]],
+       device='cuda:0')
+Epoch 25, bias, value: tensor([ 0.0215, -0.0024,  0.0112,  0.0138, -0.0055,  0.0021,  0.0046,  0.0284,
+        -0.0296,  0.0280], device='cuda:0'), grad: tensor([-0.0435,  0.0354, -0.0656,  0.0272,  0.0455, -0.0083,  0.0266, -0.0462,
+        -0.0084,  0.0373], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 24----------------------------------------------------
+epoch 24, time 229.48, cls_loss 0.8154 cls_loss_mapping 0.0748 cls_loss_causal 0.7841 re_mapping 0.0230 re_causal 0.0638 /// teacc 98.16 lr 0.00010000
+Epoch 26, weight, value: tensor([[-0.0205,  0.0465, -0.0428,  ..., -0.0384, -0.0122, -0.0151],
+        [-0.0148, -0.0704,  0.0148,  ..., -0.0317, -0.0060, -0.0078],
+        [ 0.0172, -0.0446,  0.0156,  ...,  0.0881, -0.0599, -0.0277],
+        ...,
+        [-0.0247, -0.0524,  0.0551,  ..., -0.0069,  0.0178,  0.0426],
+        [-0.0081,  0.0217, -0.0323,  ..., -0.0234, -0.0579, -0.0049],
+        [-0.0657, -0.0102, -0.0154,  ..., -0.0566,  0.0553,  0.0110]],
+       device='cuda:0'), grad: tensor([[-2.2297e-03, -7.2441e-03, -4.8332e-03,  ...,  5.1880e-04,
+         -9.4318e-04, -4.0016e-03],
+        [ 4.0932e-03,  4.9782e-03,  6.8359e-03,  ...,  1.2445e-03,
+          1.0557e-03,  5.0774e-03],
+        [-1.5060e-02, -7.4081e-03, -3.3264e-02,  ..., -1.1208e-02,
+          2.5129e-04, -1.7334e-02],
+        ...,
+        [ 1.0277e-02,  5.5733e-03,  1.4114e-02,  ...,  8.6899e-03,
+         -3.6955e-05,  1.5732e-02],
+        [-2.2078e-04, -3.1090e-03, -2.9316e-03,  ...,  2.4757e-03,
+         -6.3276e-04, -8.0490e-03],
+        [ 5.4512e-03,  4.9973e-03,  1.0757e-02,  ...,  1.0729e-03,
+         -2.2545e-03,  4.9057e-03]], device='cuda:0')
+Epoch 26, bias, value: tensor([ 0.0212, -0.0023,  0.0114,  0.0136, -0.0060,  0.0020,  0.0049,  0.0289,
+        -0.0296,  0.0279], device='cuda:0'), grad: tensor([-0.0169,  0.0242, -0.0336,  0.0439, -0.0021, -0.0627, -0.0045,  0.0478,
+        -0.0260,  0.0301], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 25, time 226.62, cls_loss 0.8332 cls_loss_mapping 0.0719 cls_loss_causal 0.8090 re_mapping 0.0223 re_causal 0.0647 /// teacc 97.96 lr 0.00010000
+Epoch 27, weight, value: tensor([[-0.0211,  0.0463, -0.0426,  ..., -0.0392, -0.0133, -0.0150],
+        [-0.0155, -0.0714,  0.0147,  ..., -0.0322, -0.0054, -0.0082],
+        [ 0.0174, -0.0445,  0.0160,  ...,  0.0890, -0.0603, -0.0278],
+        ...,
+        [-0.0257, -0.0531,  0.0556,  ..., -0.0063,  0.0170,  0.0426],
+        [-0.0082,  0.0216, -0.0326,  ..., -0.0243, -0.0584, -0.0051],
+        [-0.0666, -0.0104, -0.0149,  ..., -0.0578,  0.0562,  0.0113]],
+       device='cuda:0'), grad: tensor([[ 1.0319e-03, -2.9850e-03,  3.9330e-03,  ...,  9.5987e-04,
+          1.1444e-03,  4.0169e-03],
+        [-6.7139e-03, -7.9727e-03, -9.6436e-03,  ...,  1.6432e-03,
+          5.1212e-04, -9.9564e-03],
+        [ 2.8000e-03,  2.5921e-03, -6.6261e-03,  ..., -5.0850e-03,
+          1.0509e-03, -2.4014e-03],
+        ...,
+        [ 1.6155e-03,  4.8332e-03, -1.2268e-02,  ..., -1.8489e-04,
+         -1.0986e-02, -1.1139e-02],
+        [ 2.4586e-03,  4.4632e-03,  1.3247e-03,  ..., -4.5085e-04,
+          1.1854e-03,  1.1806e-03],
+        [ 9.2745e-04, -1.1406e-03,  7.9269e-03,  ...,  4.7445e-05,
+          9.2239e-03,  1.0620e-02]], device='cuda:0')
+Epoch 27, bias, value: tensor([ 0.0207, -0.0023,  0.0117,  0.0140, -0.0060,  0.0017,  0.0050,  0.0287,
+        -0.0300,  0.0286], device='cuda:0'), grad: tensor([-0.0113, -0.0451, -0.0295,  0.0090,  0.0303, -0.0069,  0.0267, -0.0054,
+         0.0153,  0.0169], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 26----------------------------------------------------
+epoch 26, time 227.40, cls_loss 0.7994 cls_loss_mapping 0.0760 cls_loss_causal 0.7791 re_mapping 0.0229 re_causal 0.0636 /// teacc 98.20 lr 0.00010000
+Epoch 28, weight, value: tensor([[-0.0214,  0.0468, -0.0424,  ..., -0.0394, -0.0138, -0.0145],
+        [-0.0155, -0.0717,  0.0146,  ..., -0.0320, -0.0058, -0.0090],
+        [ 0.0179, -0.0448,  0.0154,  ...,  0.0901, -0.0613, -0.0284],
+        ...,
+        [-0.0267, -0.0544,  0.0558,  ..., -0.0071,  0.0169,  0.0428],
+        [-0.0079,  0.0218, -0.0321,  ..., -0.0254, -0.0583, -0.0036],
+        [-0.0681, -0.0111, -0.0150,  ..., -0.0594,  0.0562,  0.0108]],
+       device='cuda:0'), grad: tensor([[ 3.2692e-03,  7.6485e-03,  5.6458e-03,  ...,  1.3237e-03,
+          1.3247e-03,  5.1689e-03],
+        [ 1.4029e-03, -1.3666e-03, -7.2403e-03,  ..., -1.5259e-03,
+         -4.7226e-03, -1.7197e-02],
+        [-2.1347e-02, -1.7120e-02, -2.4612e-02,  ..., -1.4130e-02,
+         -3.8910e-03, -1.4183e-02],
+        ...,
+        [ 1.2612e-04,  3.6049e-03,  4.3449e-03,  ...,  7.5102e-05,
+          2.0905e-03,  5.0049e-03],
+        [ 1.8520e-03, -1.2708e-04,  2.1992e-03,  ...,  3.5725e-03,
+          1.9855e-03,  7.0877e-03],
+        [-2.8744e-03, -1.2283e-02,  1.3285e-03,  ...,  4.7350e-04,
+         -3.8948e-03,  1.0500e-03]], device='cuda:0')
+Epoch 28, bias, value: tensor([ 0.0213, -0.0023,  0.0115,  0.0146, -0.0057,  0.0020,  0.0046,  0.0280,
+        -0.0300,  0.0280], device='cuda:0'), grad: tensor([ 0.0303, -0.0131, -0.1014,  0.0478,  0.0120,  0.0176, -0.0164,  0.0080,
+         0.0163, -0.0011], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 27, time 226.95, cls_loss 0.8180 cls_loss_mapping 0.0683 cls_loss_causal 0.7849 re_mapping 0.0214 re_causal 0.0627 /// teacc 97.88 lr 0.00010000
+Epoch 29, weight, value: tensor([[-0.0221,  0.0469, -0.0431,  ..., -0.0401, -0.0140, -0.0144],
+        [-0.0162, -0.0723,  0.0146,  ..., -0.0313, -0.0049, -0.0094],
+        [ 0.0179, -0.0453,  0.0159,  ...,  0.0908, -0.0625, -0.0284],
+        ...,
+        [-0.0276, -0.0551,  0.0559,  ..., -0.0074,  0.0164,  0.0432],
+        [-0.0081,  0.0218, -0.0327,  ..., -0.0255, -0.0578, -0.0041],
+        [-0.0686, -0.0112, -0.0146,  ..., -0.0593,  0.0560,  0.0109]],
+       device='cuda:0'), grad: tensor([[ 1.2245e-03,  3.4943e-03,  7.3624e-03,  ...,  5.9032e-04,
+          2.0542e-03,  7.8430e-03],
+        [ 4.8790e-03,  6.0310e-03,  8.1253e-03,  ...,  7.9489e-04,
+          1.9608e-03,  1.4610e-02],
+        [-8.1956e-05,  3.9520e-03, -4.0512e-03,  ..., -5.2147e-03,
+          1.0653e-03, -5.2147e-03],
+        ...,
+        [ 1.7805e-03, -4.3831e-03, -1.1299e-02,  ..., -2.5101e-03,
+         -1.0666e-02, -1.5808e-02],
+        [-6.8321e-03, -2.4242e-03, -8.1482e-03,  ..., -1.3828e-03,
+          1.1711e-03, -3.5095e-03],
+        [-1.0201e-02, -1.8600e-02, -4.5204e-03,  ...,  7.8535e-04,
+          2.6894e-03, -1.6203e-03]], device='cuda:0')
+Epoch 29, bias, value: tensor([ 0.0212, -0.0023,  0.0114,  0.0144, -0.0054,  0.0020,  0.0047,  0.0279,
+        -0.0303,  0.0284], device='cuda:0'), grad: tensor([ 0.0155,  0.0413, -0.0022,  0.0218,  0.0045, -0.0391,  0.0278, -0.0270,
+        -0.0303, -0.0123], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 28, time 226.17, cls_loss 0.7914 cls_loss_mapping 0.0711 cls_loss_causal 0.7628 re_mapping 0.0226 re_causal 0.0643 /// teacc 97.75 lr 0.00010000
+Epoch 30, weight, value: tensor([[-0.0224,  0.0474, -0.0438,  ..., -0.0394, -0.0155, -0.0149],
+        [-0.0169, -0.0735,  0.0152,  ..., -0.0303, -0.0052, -0.0103],
+        [ 0.0180, -0.0457,  0.0159,  ...,  0.0918, -0.0627, -0.0286],
+        ...,
+        [-0.0285, -0.0562,  0.0572,  ..., -0.0069,  0.0161,  0.0447],
+        [-0.0074,  0.0218, -0.0329,  ..., -0.0254, -0.0581, -0.0042],
+        [-0.0694, -0.0110, -0.0153,  ..., -0.0615,  0.0569,  0.0103]],
+       device='cuda:0'), grad: tensor([[ 0.0031,  0.0059,  0.0052,  ...,  0.0018,  0.0016,  0.0051],
+        [-0.0076, -0.0100, -0.0247,  ..., -0.0075, -0.0026, -0.0199],
+        [ 0.0036,  0.0079,  0.0092,  ...,  0.0027,  0.0018,  0.0100],
+        ...,
+        [-0.0049, -0.0095, -0.0141,  ..., -0.0029, -0.0027, -0.0103],
+        [-0.0019, -0.0021,  0.0004,  ...,  0.0011,  0.0019,  0.0011],
+        [ 0.0028,  0.0016,  0.0061,  ...,  0.0011, -0.0016,  0.0041]],
+       device='cuda:0')
+Epoch 30, bias, value: tensor([ 0.0208, -0.0020,  0.0113,  0.0142, -0.0056,  0.0021,  0.0050,  0.0281,
+        -0.0299,  0.0281], device='cuda:0'), grad: tensor([ 0.0258, -0.0979,  0.0434,  0.0533, -0.0159,  0.0296, -0.0174, -0.0352,
+        -0.0012,  0.0154], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 29----------------------------------------------------
+epoch 29, time 226.36, cls_loss 0.7956 cls_loss_mapping 0.0745 cls_loss_causal 0.7673 re_mapping 0.0216 re_causal 0.0644 /// teacc 98.25 lr 0.00010000
+Epoch 31, weight, value: tensor([[-0.0226,  0.0474, -0.0447,  ..., -0.0408, -0.0171, -0.0154],
+        [-0.0177, -0.0743,  0.0142,  ..., -0.0312, -0.0057, -0.0119],
+        [ 0.0190, -0.0453,  0.0163,  ...,  0.0929, -0.0619, -0.0290],
+        ...,
+        [-0.0291, -0.0570,  0.0577,  ..., -0.0069,  0.0157,  0.0460],
+        [-0.0069,  0.0219, -0.0328,  ..., -0.0265, -0.0601, -0.0045],
+        [-0.0700, -0.0103, -0.0155,  ..., -0.0620,  0.0576,  0.0100]],
+       device='cuda:0'), grad: tensor([[ 0.0026,  0.0036,  0.0049,  ...,  0.0022,  0.0019,  0.0048],
+        [-0.0024, -0.0044, -0.0212,  ...,  0.0013, -0.0254, -0.0129],
+        [ 0.0046,  0.0047, -0.0035,  ...,  0.0019, -0.0016, -0.0043],
+        ...,
+        [-0.0010, -0.0020, -0.0081,  ...,  0.0019, -0.0100,  0.0033],
+        [-0.0102, -0.0066,  0.0033,  ...,  0.0006,  0.0083,  0.0019],
+        [ 0.0060,  0.0208,  0.0419,  ...,  0.0010,  0.0387,  0.0329]],
+       device='cuda:0')
+Epoch 31, bias, value: tensor([ 0.0206, -0.0023,  0.0111,  0.0142, -0.0063,  0.0025,  0.0054,  0.0282,
+        -0.0298,  0.0285], device='cuda:0'), grad: tensor([ 0.0185, -0.0408,  0.0036, -0.0357, -0.0212,  0.0294, -0.0035,  0.0057,
+        -0.0279,  0.0719], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 30, time 225.92, cls_loss 0.7558 cls_loss_mapping 0.0641 cls_loss_causal 0.7325 re_mapping 0.0210 re_causal 0.0592 /// teacc 98.09 lr 0.00010000
+Epoch 32, weight, value: tensor([[-0.0233,  0.0476, -0.0443,  ..., -0.0418, -0.0178, -0.0154],
+        [-0.0178, -0.0742,  0.0140,  ..., -0.0307, -0.0059, -0.0129],
+        [ 0.0196, -0.0457,  0.0168,  ...,  0.0938, -0.0617, -0.0292],
+        ...,
+        [-0.0301, -0.0574,  0.0579,  ..., -0.0070,  0.0141,  0.0461],
+        [-0.0070,  0.0225, -0.0338,  ..., -0.0285, -0.0612, -0.0050],
+        [-0.0704, -0.0107, -0.0151,  ..., -0.0637,  0.0585,  0.0107]],
+       device='cuda:0'), grad: tensor([[ 0.0002, -0.0007,  0.0006,  ...,  0.0028, -0.0002, -0.0017],
+        [-0.0008,  0.0029, -0.0092,  ...,  0.0010, -0.0101,  0.0010],
+        [-0.0024, -0.0068, -0.0155,  ..., -0.0069, -0.0046, -0.0124],
+        ...,
+        [ 0.0018,  0.0032,  0.0072,  ...,  0.0024,  0.0020, -0.0021],
+        [ 0.0035,  0.0061,  0.0092,  ...,  0.0024,  0.0061,  0.0028],
+        [ 0.0025,  0.0164, -0.0024,  ...,  0.0012,  0.0212,  0.0139]],
+       device='cuda:0')
+Epoch 32, bias, value: tensor([ 0.0208, -0.0021,  0.0110,  0.0146, -0.0064,  0.0015,  0.0055,  0.0280,
+        -0.0299,  0.0287], device='cuda:0'), grad: tensor([ 0.0008, -0.0382, -0.0518, -0.0333, -0.0009, -0.0091,  0.0288,  0.0235,
+         0.0388,  0.0414], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 31, time 226.04, cls_loss 0.7964 cls_loss_mapping 0.0711 cls_loss_causal 0.7664 re_mapping 0.0209 re_causal 0.0561 /// teacc 97.88 lr 0.00010000
+Epoch 33, weight, value: tensor([[-0.0243,  0.0477, -0.0453,  ..., -0.0427, -0.0189, -0.0158],
+        [-0.0175, -0.0752,  0.0140,  ..., -0.0300, -0.0076, -0.0138],
+        [ 0.0198, -0.0458,  0.0168,  ...,  0.0951, -0.0607, -0.0285],
+        ...,
+        [-0.0313, -0.0587,  0.0583,  ..., -0.0069,  0.0140,  0.0468],
+        [-0.0064,  0.0230, -0.0341,  ..., -0.0303, -0.0616, -0.0045],
+        [-0.0694, -0.0103, -0.0153,  ..., -0.0640,  0.0594,  0.0095]],
+       device='cuda:0'), grad: tensor([[ 0.0050,  0.0138,  0.0055,  ...,  0.0005,  0.0019,  0.0068],
+        [ 0.0031,  0.0061,  0.0092,  ...,  0.0013,  0.0037,  0.0081],
+        [-0.0137, -0.0119, -0.0061,  ..., -0.0042, -0.0005, -0.0052],
+        ...,
+        [ 0.0020,  0.0044,  0.0066,  ...,  0.0007,  0.0033,  0.0060],
+        [ 0.0014, -0.0209,  0.0073,  ...,  0.0032,  0.0041,  0.0005],
+        [ 0.0035, -0.0034, -0.0184,  ..., -0.0025, -0.0155, -0.0106]],
+       device='cuda:0')
+Epoch 33, bias, value: tensor([ 0.0202, -0.0025,  0.0109,  0.0147, -0.0061,  0.0017,  0.0054,  0.0288,
+        -0.0301,  0.0288], device='cuda:0'), grad: tensor([ 0.0333,  0.0316, -0.0235, -0.0114, -0.0118, -0.0146,  0.0587,  0.0231,
+        -0.0218, -0.0636], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 32----------------------------------------------------
+epoch 32, time 226.85, cls_loss 0.7760 cls_loss_mapping 0.0590 cls_loss_causal 0.7459 re_mapping 0.0201 re_causal 0.0548 /// teacc 98.30 lr 0.00010000
+Epoch 34, weight, value: tensor([[-0.0251,  0.0476, -0.0450,  ..., -0.0422, -0.0201, -0.0163],
+        [-0.0176, -0.0758,  0.0144,  ..., -0.0303, -0.0069, -0.0138],
+        [ 0.0196, -0.0457,  0.0170,  ...,  0.0964, -0.0603, -0.0279],
+        ...,
+        [-0.0313, -0.0596,  0.0585,  ..., -0.0069,  0.0135,  0.0474],
+        [-0.0065,  0.0231, -0.0347,  ..., -0.0316, -0.0625, -0.0052],
+        [-0.0697, -0.0103, -0.0145,  ..., -0.0649,  0.0602,  0.0093]],
+       device='cuda:0'), grad: tensor([[ 0.0059,  0.0109,  0.0051,  ...,  0.0052,  0.0026,  0.0074],
+        [-0.0068, -0.0184, -0.0068,  ..., -0.0089, -0.0059, -0.0122],
+        [ 0.0118,  0.0185,  0.0103,  ...,  0.0182,  0.0026,  0.0088],
+        ...,
+        [ 0.0022,  0.0050, -0.0025,  ..., -0.0046,  0.0026,  0.0032],
+        [ 0.0063,  0.0069,  0.0036,  ...,  0.0022,  0.0024,  0.0044],
+        [ 0.0028,  0.0049,  0.0042,  ...,  0.0010,  0.0026,  0.0044]],
+       device='cuda:0')
+Epoch 34, bias, value: tensor([ 0.0199, -0.0020,  0.0115,  0.0146, -0.0067,  0.0021,  0.0058,  0.0285,
+        -0.0306,  0.0287], device='cuda:0'), grad: tensor([ 0.0439, -0.0538,  0.0682, -0.0832, -0.0420,  0.0338, -0.0243,  0.0117,
+         0.0252,  0.0207], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 33, time 225.96, cls_loss 0.7505 cls_loss_mapping 0.0613 cls_loss_causal 0.7287 re_mapping 0.0204 re_causal 0.0558 /// teacc 98.29 lr 0.00010000
+Epoch 35, weight, value: tensor([[-0.0256,  0.0481, -0.0453,  ..., -0.0433, -0.0210, -0.0158],
+        [-0.0178, -0.0764,  0.0141,  ..., -0.0292, -0.0081, -0.0142],
+        [ 0.0198, -0.0467,  0.0176,  ...,  0.0975, -0.0606, -0.0277],
+        ...,
+        [-0.0302, -0.0599,  0.0587,  ..., -0.0074,  0.0133,  0.0476],
+        [-0.0064,  0.0237, -0.0345,  ..., -0.0325, -0.0631, -0.0050],
+        [-0.0710, -0.0105, -0.0142,  ..., -0.0647,  0.0603,  0.0087]],
+       device='cuda:0'), grad: tensor([[ 0.0014,  0.0010,  0.0022,  ...,  0.0022,  0.0006,  0.0048],
+        [-0.0055,  0.0041, -0.0007,  ..., -0.0187,  0.0006,  0.0025],
+        [ 0.0115,  0.0041,  0.0142,  ...,  0.0273,  0.0010,  0.0082],
+        ...,
+        [ 0.0055,  0.0052, -0.0065,  ..., -0.0078,  0.0039, -0.0019],
+        [-0.0059, -0.0105, -0.0130,  ..., -0.0025,  0.0009, -0.0136],
+        [-0.0202, -0.0170, -0.0079,  ..., -0.0033, -0.0119, -0.0060]],
+       device='cuda:0')
+Epoch 35, bias, value: tensor([ 0.0200, -0.0019,  0.0112,  0.0149, -0.0066,  0.0017,  0.0060,  0.0286,
+        -0.0307,  0.0288], device='cuda:0'), grad: tensor([ 0.0067, -0.0114,  0.0673,  0.0040, -0.0054,  0.0349, -0.0075, -0.0028,
+        -0.0591, -0.0267], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 34, time 226.10, cls_loss 0.7531 cls_loss_mapping 0.0660 cls_loss_causal 0.7337 re_mapping 0.0193 re_causal 0.0538 /// teacc 97.94 lr 0.00010000
+Epoch 36, weight, value: tensor([[-0.0268,  0.0480, -0.0456,  ..., -0.0437, -0.0222, -0.0155],
+        [-0.0175, -0.0767,  0.0146,  ..., -0.0285, -0.0072, -0.0141],
+        [ 0.0203, -0.0468,  0.0182,  ...,  0.0986, -0.0605, -0.0281],
+        ...,
+        [-0.0304, -0.0605,  0.0588,  ..., -0.0085,  0.0138,  0.0476],
+        [-0.0059,  0.0237, -0.0348,  ..., -0.0332, -0.0647, -0.0046],
+        [-0.0715, -0.0102, -0.0139,  ..., -0.0653,  0.0612,  0.0089]],
+       device='cuda:0'), grad: tensor([[-0.0074, -0.0075,  0.0035,  ..., -0.0007,  0.0005, -0.0029],
+        [ 0.0029,  0.0027, -0.0041,  ..., -0.0039,  0.0010,  0.0003],
+        [-0.0009,  0.0039, -0.0048,  ..., -0.0022,  0.0013, -0.0007],
+        ...,
+        [ 0.0017,  0.0054,  0.0116,  ...,  0.0016,  0.0068,  0.0082],
+        [-0.0019, -0.0264, -0.0046,  ...,  0.0028, -0.0080, -0.0038],
+        [-0.0004,  0.0027,  0.0094,  ...,  0.0012,  0.0148,  0.0046]],
+       device='cuda:0')
+Epoch 36, bias, value: tensor([ 0.0200, -0.0014,  0.0109,  0.0154, -0.0068,  0.0020,  0.0058,  0.0280,
+        -0.0310,  0.0290], device='cuda:0'), grad: tensor([-0.0142,  0.0098, -0.0050,  0.0230, -0.0037,  0.0177, -0.0055,  0.0414,
+        -0.0875,  0.0239], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 35, time 226.02, cls_loss 0.7611 cls_loss_mapping 0.0472 cls_loss_causal 0.7321 re_mapping 0.0196 re_causal 0.0564 /// teacc 98.09 lr 0.00010000
+Epoch 37, weight, value: tensor([[-0.0273,  0.0486, -0.0464,  ..., -0.0450, -0.0220, -0.0149],
+        [-0.0178, -0.0772,  0.0143,  ..., -0.0303, -0.0069, -0.0145],
+        [ 0.0203, -0.0477,  0.0192,  ...,  0.0998, -0.0613, -0.0279],
+        ...,
+        [-0.0316, -0.0610,  0.0585,  ..., -0.0094,  0.0137,  0.0473],
+        [-0.0052,  0.0242, -0.0349,  ..., -0.0324, -0.0653, -0.0050],
+        [-0.0728, -0.0108, -0.0141,  ..., -0.0660,  0.0612,  0.0084]],
+       device='cuda:0'), grad: tensor([[-0.0004,  0.0045,  0.0025,  ...,  0.0004,  0.0016,  0.0046],
+        [ 0.0010,  0.0023, -0.0093,  ..., -0.0008, -0.0014, -0.0035],
+        [-0.0010,  0.0012, -0.0075,  ..., -0.0074,  0.0016, -0.0063],
+        ...,
+        [ 0.0011,  0.0018,  0.0063,  ...,  0.0027,  0.0045,  0.0052],
+        [ 0.0031,  0.0053,  0.0046,  ...,  0.0021,  0.0022,  0.0060],
+        [ 0.0007,  0.0005, -0.0092,  ..., -0.0002, -0.0055, -0.0070]],
+       device='cuda:0')
+Epoch 37, bias, value: tensor([ 0.0197, -0.0019,  0.0113,  0.0155, -0.0065,  0.0021,  0.0059,  0.0283,
+        -0.0306,  0.0281], device='cuda:0'), grad: tensor([ 0.0271, -0.0133, -0.0178,  0.0379, -0.0090, -0.0157, -0.0180,  0.0220,
+         0.0319, -0.0452], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 36, time 226.21, cls_loss 0.7660 cls_loss_mapping 0.0546 cls_loss_causal 0.7394 re_mapping 0.0182 re_causal 0.0532 /// teacc 98.14 lr 0.00010000
+Epoch 38, weight, value: tensor([[-0.0278,  0.0492, -0.0471,  ..., -0.0462, -0.0219, -0.0151],
+        [-0.0182, -0.0778,  0.0143,  ..., -0.0298, -0.0066, -0.0151],
+        [ 0.0207, -0.0478,  0.0203,  ...,  0.1012, -0.0612, -0.0273],
+        ...,
+        [-0.0319, -0.0620,  0.0582,  ..., -0.0107,  0.0127,  0.0468],
+        [-0.0056,  0.0241, -0.0346,  ..., -0.0330, -0.0641, -0.0045],
+        [-0.0732, -0.0103, -0.0145,  ..., -0.0668,  0.0607,  0.0085]],
+       device='cuda:0'), grad: tensor([[ 3.1281e-03,  5.7869e-03,  3.7537e-03,  ...,  1.6441e-03,
+          5.7602e-04,  3.6697e-03],
+        [-1.0157e-03, -2.9774e-03, -4.6234e-03,  ...,  1.1501e-03,
+         -1.7233e-03, -2.7447e-03],
+        [ 1.5268e-03, -5.2023e-04, -2.8210e-03,  ..., -8.9779e-06,
+          1.3733e-03,  9.2649e-04],
+        ...,
+        [ 1.8287e-04,  2.8825e-04,  5.6381e-03,  ..., -5.9471e-03,
+          4.7951e-03,  6.1646e-03],
+        [ 2.7943e-04, -4.4823e-04,  5.3406e-03,  ...,  1.8396e-03,
+          1.5297e-03,  2.4529e-03],
+        [-2.6608e-03, -4.2496e-03, -2.5845e-03,  ...,  1.0767e-03,
+         -1.4782e-03, -1.0025e-02]], device='cuda:0')
+Epoch 38, bias, value: tensor([ 0.0199, -0.0024,  0.0114,  0.0161, -0.0064,  0.0024,  0.0059,  0.0277,
+        -0.0311,  0.0285], device='cuda:0'), grad: tensor([ 0.0184, -0.0186, -0.0033,  0.0324, -0.0059, -0.0339,  0.0113,  0.0009,
+         0.0081, -0.0095], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 37, time 226.80, cls_loss 0.7589 cls_loss_mapping 0.0509 cls_loss_causal 0.7280 re_mapping 0.0189 re_causal 0.0525 /// teacc 98.09 lr 0.00010000
+Epoch 39, weight, value: tensor([[-0.0279,  0.0497, -0.0484,  ..., -0.0472, -0.0223, -0.0153],
+        [-0.0187, -0.0777,  0.0150,  ..., -0.0301, -0.0060, -0.0150],
+        [ 0.0207, -0.0479,  0.0196,  ...,  0.1019, -0.0618, -0.0277],
+        ...,
+        [-0.0326, -0.0628,  0.0586,  ..., -0.0097,  0.0127,  0.0471],
+        [-0.0057,  0.0239, -0.0342,  ..., -0.0346, -0.0652, -0.0049],
+        [-0.0742, -0.0106, -0.0141,  ..., -0.0680,  0.0616,  0.0092]],
+       device='cuda:0'), grad: tensor([[-0.0072, -0.0156, -0.0039,  ..., -0.0003, -0.0011, -0.0023],
+        [ 0.0013,  0.0038, -0.0072,  ...,  0.0005, -0.0018, -0.0012],
+        [ 0.0094,  0.0058,  0.0049,  ...,  0.0002,  0.0010,  0.0007],
+        ...,
+        [-0.0025,  0.0017, -0.0055,  ...,  0.0003, -0.0071, -0.0043],
+        [-0.0094, -0.0025,  0.0014,  ...,  0.0007,  0.0042,  0.0023],
+        [ 0.0029,  0.0041,  0.0080,  ...,  0.0005,  0.0073,  0.0038]],
+       device='cuda:0')
+Epoch 39, bias, value: tensor([ 0.0196, -0.0017,  0.0108,  0.0160, -0.0064,  0.0028,  0.0054,  0.0278,
+        -0.0312,  0.0287], device='cuda:0'), grad: tensor([-0.0289, -0.0120,  0.0181, -0.0024,  0.0221,  0.0063,  0.0127, -0.0063,
+        -0.0359,  0.0263], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 38, time 226.81, cls_loss 0.7464 cls_loss_mapping 0.0552 cls_loss_causal 0.7116 re_mapping 0.0196 re_causal 0.0529 /// teacc 98.28 lr 0.00010000
+Epoch 40, weight, value: tensor([[-0.0287,  0.0497, -0.0481,  ..., -0.0479, -0.0228, -0.0142],
+        [-0.0199, -0.0794,  0.0149,  ..., -0.0310, -0.0058, -0.0155],
+        [ 0.0205, -0.0482,  0.0203,  ...,  0.1035, -0.0619, -0.0274],
+        ...,
+        [-0.0324, -0.0629,  0.0592,  ..., -0.0101,  0.0131,  0.0478],
+        [-0.0056,  0.0236, -0.0342,  ..., -0.0356, -0.0657, -0.0045],
+        [-0.0744, -0.0103, -0.0147,  ..., -0.0679,  0.0627,  0.0088]],
+       device='cuda:0'), grad: tensor([[-4.2725e-03, -6.9771e-03, -1.4069e-02,  ..., -6.8016e-03,
+          1.1864e-03, -1.4038e-02],
+        [-1.3342e-03,  2.0809e-03, -2.8658e-04,  ...,  2.2948e-04,
+          1.3971e-03,  4.0779e-03],
+        [ 5.5045e-05, -9.9754e-04, -5.9605e-04,  ..., -2.7809e-03,
+          1.4544e-04,  3.5934e-03],
+        ...,
+        [ 2.5349e-03,  1.8930e-03,  1.2474e-03,  ...,  2.3746e-03,
+         -1.9588e-03, -5.2601e-06],
+        [ 5.2261e-04,  4.0894e-03,  4.2152e-03,  ...,  1.1415e-03,
+          3.4046e-03,  5.3482e-03],
+        [-5.2118e-04, -2.2583e-03, -1.1082e-03,  ...,  1.4591e-03,
+          3.5596e-04,  3.5191e-03]], device='cuda:0')
+Epoch 40, bias, value: tensor([ 0.0199, -0.0024,  0.0113,  0.0158, -0.0070,  0.0030,  0.0059,  0.0285,
+        -0.0310,  0.0280], device='cuda:0'), grad: tensor([-0.0727,  0.0122,  0.0009,  0.0391, -0.0082, -0.0296,  0.0258,  0.0168,
+         0.0174, -0.0017], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 39, time 226.73, cls_loss 0.7457 cls_loss_mapping 0.0515 cls_loss_causal 0.7120 re_mapping 0.0175 re_causal 0.0456 /// teacc 98.19 lr 0.00010000
+Epoch 41, weight, value: tensor([[-0.0287,  0.0497, -0.0491,  ..., -0.0489, -0.0240, -0.0145],
+        [-0.0210, -0.0798,  0.0149,  ..., -0.0324, -0.0060, -0.0157],
+        [ 0.0209, -0.0484,  0.0202,  ...,  0.1041, -0.0625, -0.0274],
+        ...,
+        [-0.0333, -0.0623,  0.0595,  ..., -0.0095,  0.0129,  0.0480],
+        [-0.0055,  0.0233, -0.0341,  ..., -0.0353, -0.0658, -0.0035],
+        [-0.0744, -0.0102, -0.0143,  ..., -0.0693,  0.0625,  0.0085]],
+       device='cuda:0'), grad: tensor([[ 0.0014, -0.0034, -0.0029,  ..., -0.0028, -0.0020, -0.0053],
+        [ 0.0011,  0.0036,  0.0028,  ...,  0.0017,  0.0002,  0.0031],
+        [ 0.0027,  0.0049,  0.0053,  ...,  0.0029,  0.0031,  0.0086],
+        ...,
+        [ 0.0003, -0.0041, -0.0181,  ...,  0.0005, -0.0100, -0.0084],
+        [ 0.0008,  0.0025,  0.0014,  ...,  0.0015, -0.0019, -0.0030],
+        [ 0.0008,  0.0026,  0.0093,  ...,  0.0008,  0.0076,  0.0011]],
+       device='cuda:0')
+Epoch 41, bias, value: tensor([ 0.0202, -0.0026,  0.0112,  0.0163, -0.0072,  0.0021,  0.0059,  0.0281,
+        -0.0307,  0.0285], device='cuda:0'), grad: tensor([-0.0117,  0.0123,  0.0369, -0.0297,  0.0684, -0.0480, -0.0102, -0.0262,
+        -0.0082,  0.0165], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 40, time 225.97, cls_loss 0.6902 cls_loss_mapping 0.0514 cls_loss_causal 0.6573 re_mapping 0.0195 re_causal 0.0523 /// teacc 98.16 lr 0.00010000
+Epoch 42, weight, value: tensor([[-0.0293,  0.0504, -0.0503,  ..., -0.0499, -0.0247, -0.0140],
+        [-0.0211, -0.0802,  0.0145,  ..., -0.0328, -0.0059, -0.0161],
+        [ 0.0219, -0.0481,  0.0204,  ...,  0.1055, -0.0639, -0.0288],
+        ...,
+        [-0.0334, -0.0625,  0.0602,  ..., -0.0090,  0.0123,  0.0484],
+        [-0.0056,  0.0232, -0.0346,  ..., -0.0359, -0.0655, -0.0037],
+        [-0.0748, -0.0105, -0.0133,  ..., -0.0707,  0.0631,  0.0092]],
+       device='cuda:0'), grad: tensor([[ 0.0011,  0.0036,  0.0053,  ...,  0.0023,  0.0030,  0.0062],
+        [ 0.0016,  0.0066,  0.0076,  ...,  0.0027,  0.0035,  0.0095],
+        [ 0.0016,  0.0046,  0.0015,  ..., -0.0064,  0.0030,  0.0003],
+        ...,
+        [ 0.0014, -0.0005,  0.0013,  ...,  0.0018,  0.0012,  0.0025],
+        [ 0.0071,  0.0090,  0.0041,  ...,  0.0016,  0.0065,  0.0077],
+        [-0.0289, -0.0224, -0.0084,  ..., -0.0144, -0.0145,  0.0036]],
+       device='cuda:0')
+Epoch 42, bias, value: tensor([ 0.0201, -0.0028,  0.0110,  0.0159, -0.0073,  0.0021,  0.0060,  0.0286,
+        -0.0307,  0.0288], device='cuda:0'), grad: tensor([ 2.4048e-02,  3.4088e-02, -3.3140e-05,  9.4833e-03,  6.9962e-03,
+        -1.8311e-02, -3.7689e-02, -5.8670e-03,  1.3138e-02, -2.5879e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 41, time 225.86, cls_loss 0.7214 cls_loss_mapping 0.0461 cls_loss_causal 0.6935 re_mapping 0.0186 re_causal 0.0519 /// teacc 98.21 lr 0.00010000
+Epoch 43, weight, value: tensor([[-0.0306,  0.0503, -0.0504,  ..., -0.0498, -0.0256, -0.0140],
+        [-0.0219, -0.0814,  0.0145,  ..., -0.0335, -0.0066, -0.0173],
+        [ 0.0224, -0.0483,  0.0208,  ...,  0.1061, -0.0640, -0.0289],
+        ...,
+        [-0.0333, -0.0628,  0.0605,  ..., -0.0097,  0.0125,  0.0487],
+        [-0.0050,  0.0241, -0.0347,  ..., -0.0356, -0.0670, -0.0043],
+        [-0.0741, -0.0093, -0.0141,  ..., -0.0716,  0.0633,  0.0090]],
+       device='cuda:0'), grad: tensor([[ 1.1778e-03,  1.4963e-03,  3.1452e-03,  ...,  1.8339e-03,
+          2.3842e-03,  3.9482e-03],
+        [ 2.9068e-03,  5.6190e-03,  5.7945e-03,  ...,  3.2368e-03,
+          3.0174e-03,  2.2430e-03],
+        [-3.2024e-03,  9.9087e-04,  5.4741e-04,  ..., -2.2850e-03,
+         -1.9388e-03, -5.2032e-03],
+        ...,
+        [ 5.1069e-04,  1.7576e-03,  6.8069e-05,  ...,  6.3372e-04,
+          3.7785e-03,  2.5673e-03],
+        [ 4.9706e-03, -1.4450e-02, -1.8005e-02,  ...,  2.9049e-03,
+         -2.4490e-02, -1.9424e-02],
+        [ 7.6723e-04,  1.8036e-02,  1.4870e-02,  ...,  5.6362e-04,
+          1.6159e-02,  1.5350e-02]], device='cuda:0')
+Epoch 43, bias, value: tensor([ 0.0199, -0.0031,  0.0109,  0.0158, -0.0072,  0.0019,  0.0062,  0.0289,
+        -0.0300,  0.0284], device='cuda:0'), grad: tensor([-0.0058,  0.0438, -0.0158, -0.0144,  0.0043, -0.0064, -0.0295,  0.0184,
+        -0.0366,  0.0421], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 42, time 226.69, cls_loss 0.7411 cls_loss_mapping 0.0483 cls_loss_causal 0.7129 re_mapping 0.0180 re_causal 0.0495 /// teacc 98.16 lr 0.00010000
+Epoch 44, weight, value: tensor([[-0.0310,  0.0501, -0.0499,  ..., -0.0506, -0.0272, -0.0146],
+        [-0.0217, -0.0816,  0.0146,  ..., -0.0330, -0.0072, -0.0179],
+        [ 0.0220, -0.0487,  0.0212,  ...,  0.1068, -0.0649, -0.0283],
+        ...,
+        [-0.0343, -0.0643,  0.0606,  ..., -0.0096,  0.0115,  0.0490],
+        [-0.0051,  0.0240, -0.0349,  ..., -0.0355, -0.0668, -0.0047],
+        [-0.0749, -0.0093, -0.0142,  ..., -0.0719,  0.0636,  0.0088]],
+       device='cuda:0'), grad: tensor([[ 0.0025,  0.0053,  0.0043,  ...,  0.0034,  0.0010,  0.0108],
+        [ 0.0048,  0.0034,  0.0027,  ...,  0.0014,  0.0055,  0.0065],
+        [-0.0001, -0.0005,  0.0021,  ..., -0.0012, -0.0013,  0.0013],
+        ...,
+        [ 0.0033,  0.0106,  0.0201,  ...,  0.0011,  0.0151,  0.0264],
+        [ 0.0027,  0.0082,  0.0041,  ...,  0.0015,  0.0057,  0.0087],
+        [ 0.0004, -0.0020, -0.0155,  ..., -0.0004, -0.0138, -0.0191]],
+       device='cuda:0')
+Epoch 44, bias, value: tensor([ 0.0195, -0.0028,  0.0103,  0.0158, -0.0068,  0.0021,  0.0064,  0.0288,
+        -0.0307,  0.0292], device='cuda:0'), grad: tensor([ 0.0277,  0.0210,  0.0114, -0.0831,  0.0266, -0.0152, -0.0339,  0.0458,
+         0.0096, -0.0098], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 43, time 226.20, cls_loss 0.7163 cls_loss_mapping 0.0514 cls_loss_causal 0.6812 re_mapping 0.0180 re_causal 0.0481 /// teacc 98.02 lr 0.00010000
+Epoch 45, weight, value: tensor([[-0.0306,  0.0512, -0.0502,  ..., -0.0519, -0.0273, -0.0152],
+        [-0.0215, -0.0807,  0.0143,  ..., -0.0330, -0.0078, -0.0183],
+        [ 0.0223, -0.0493,  0.0212,  ...,  0.1071, -0.0642, -0.0292],
+        ...,
+        [-0.0348, -0.0652,  0.0608,  ..., -0.0095,  0.0107,  0.0495],
+        [-0.0052,  0.0239, -0.0341,  ..., -0.0362, -0.0672, -0.0046],
+        [-0.0761, -0.0099, -0.0147,  ..., -0.0734,  0.0640,  0.0086]],
+       device='cuda:0'), grad: tensor([[ 2.3117e-03,  3.7060e-03,  4.7722e-03,  ...,  1.2951e-03,
+          2.0695e-03,  5.2338e-03],
+        [ 5.3902e-03,  1.1261e-02,  1.1787e-02,  ...,  1.7376e-03,
+          4.7989e-03,  1.6083e-02],
+        [-1.3924e-03, -3.0956e-03, -1.9479e-04,  ...,  6.6996e-05,
+         -3.9291e-04,  3.7581e-05],
+        ...,
+        [-2.1687e-03, -9.8724e-03, -2.2369e-02,  ..., -5.2757e-03,
+         -4.2229e-03, -1.6281e-02],
+        [ 4.4098e-03,  1.2207e-03, -5.2490e-03,  ..., -3.0918e-03,
+         -1.1539e-03, -3.4027e-03],
+        [-2.2144e-03, -3.8910e-03, -1.3704e-03,  ...,  9.3126e-04,
+          4.0960e-04, -8.9359e-04]], device='cuda:0')
+Epoch 45, bias, value: tensor([ 0.0193, -0.0024,  0.0103,  0.0159, -0.0066,  0.0025,  0.0066,  0.0288,
+        -0.0304,  0.0278], device='cuda:0'), grad: tensor([ 0.0186,  0.0479, -0.0007, -0.0197, -0.0134,  0.0319,  0.0232, -0.0732,
+        -0.0078, -0.0068], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 44----------------------------------------------------
+epoch 44, time 228.14, cls_loss 0.7127 cls_loss_mapping 0.0430 cls_loss_causal 0.6778 re_mapping 0.0178 re_causal 0.0492 /// teacc 98.38 lr 0.00010000
+Epoch 46, weight, value: tensor([[-0.0312,  0.0511, -0.0508,  ..., -0.0529, -0.0283, -0.0152],
+        [-0.0220, -0.0814,  0.0131,  ..., -0.0345, -0.0080, -0.0193],
+        [ 0.0225, -0.0503,  0.0216,  ...,  0.1077, -0.0628, -0.0286],
+        ...,
+        [-0.0346, -0.0650,  0.0608,  ..., -0.0088,  0.0096,  0.0497],
+        [-0.0047,  0.0242, -0.0344,  ..., -0.0365, -0.0674, -0.0048],
+        [-0.0767, -0.0099, -0.0136,  ..., -0.0735,  0.0644,  0.0086]],
+       device='cuda:0'), grad: tensor([[-0.0047, -0.0221, -0.0025,  ..., -0.0008, -0.0084, -0.0137],
+        [ 0.0015,  0.0028,  0.0068,  ...,  0.0017,  0.0022,  0.0070],
+        [ 0.0020,  0.0053,  0.0077,  ...,  0.0009,  0.0029,  0.0074],
+        ...,
+        [ 0.0013,  0.0016, -0.0097,  ..., -0.0019,  0.0008, -0.0077],
+        [-0.0061, -0.0005, -0.0047,  ..., -0.0008,  0.0022,  0.0010],
+        [-0.0066, -0.0191, -0.0196,  ..., -0.0062, -0.0132, -0.0227]],
+       device='cuda:0')
+Epoch 46, bias, value: tensor([ 0.0193, -0.0026,  0.0107,  0.0160, -0.0064,  0.0023,  0.0064,  0.0288,
+        -0.0306,  0.0280], device='cuda:0'), grad: tensor([-0.0408,  0.0303,  0.0355,  0.0121,  0.0691,  0.0334, -0.0137, -0.0362,
+        -0.0171, -0.0724], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 45, time 226.62, cls_loss 0.6903 cls_loss_mapping 0.0410 cls_loss_causal 0.6545 re_mapping 0.0183 re_causal 0.0497 /// teacc 97.94 lr 0.00010000
+Epoch 47, weight, value: tensor([[-0.0327,  0.0505, -0.0506,  ..., -0.0533, -0.0290, -0.0161],
+        [-0.0228, -0.0818,  0.0127,  ..., -0.0359, -0.0079, -0.0190],
+        [ 0.0228, -0.0509,  0.0217,  ...,  0.1090, -0.0627, -0.0287],
+        ...,
+        [-0.0348, -0.0657,  0.0612,  ..., -0.0080,  0.0083,  0.0494],
+        [-0.0049,  0.0242, -0.0341,  ..., -0.0377, -0.0680, -0.0048],
+        [-0.0771, -0.0090, -0.0134,  ..., -0.0738,  0.0650,  0.0090]],
+       device='cuda:0'), grad: tensor([[ 0.0034,  0.0088,  0.0059,  ...,  0.0006,  0.0020,  0.0054],
+        [-0.0065, -0.0091, -0.0167,  ..., -0.0050, -0.0030, -0.0082],
+        [ 0.0050,  0.0100,  0.0090,  ...,  0.0022,  0.0020,  0.0068],
+        ...,
+        [ 0.0017,  0.0038,  0.0025,  ...,  0.0010,  0.0003,  0.0021],
+        [-0.0005, -0.0019,  0.0050,  ...,  0.0012,  0.0016,  0.0054],
+        [-0.0016, -0.0036, -0.0035,  ...,  0.0001, -0.0019, -0.0021]],
+       device='cuda:0')
+Epoch 47, bias, value: tensor([ 0.0189, -0.0023,  0.0105,  0.0164, -0.0066,  0.0016,  0.0068,  0.0289,
+        -0.0307,  0.0283], device='cuda:0'), grad: tensor([ 0.0335, -0.0731,  0.0464,  0.0208, -0.0122,  0.0131, -0.0537,  0.0199,
+         0.0226, -0.0171], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 46, time 226.22, cls_loss 0.7119 cls_loss_mapping 0.0429 cls_loss_causal 0.6780 re_mapping 0.0170 re_causal 0.0471 /// teacc 98.32 lr 0.00010000
+Epoch 48, weight, value: tensor([[-0.0334,  0.0508, -0.0505,  ..., -0.0532, -0.0288, -0.0156],
+        [-0.0238, -0.0820,  0.0130,  ..., -0.0359, -0.0084, -0.0191],
+        [ 0.0226, -0.0509,  0.0220,  ...,  0.1103, -0.0637, -0.0294],
+        ...,
+        [-0.0357, -0.0667,  0.0611,  ..., -0.0095,  0.0090,  0.0490],
+        [-0.0053,  0.0239, -0.0341,  ..., -0.0390, -0.0695, -0.0043],
+        [-0.0765, -0.0085, -0.0132,  ..., -0.0738,  0.0661,  0.0090]],
+       device='cuda:0'), grad: tensor([[ 9.2363e-04,  2.7191e-02,  2.9049e-03,  ...,  4.1509e-04,
+          1.2293e-03,  1.5961e-02],
+        [ 7.0143e-04,  3.0384e-03,  1.0624e-03,  ...,  3.6836e-04,
+          1.9369e-03,  2.5501e-03],
+        [ 2.3155e-03,  2.3440e-05, -2.1610e-03,  ..., -3.0308e-03,
+          9.1124e-04,  2.3212e-03],
+        ...,
+        [ 1.3561e-03, -4.2419e-03, -6.0577e-03,  ..., -2.8515e-04,
+         -6.8970e-03, -5.4817e-03],
+        [ 7.7744e-03,  7.1106e-03,  7.5264e-03,  ...,  9.4748e-04,
+          1.8606e-03,  3.9864e-03],
+        [ 1.1377e-03,  3.1109e-03,  3.6869e-03,  ...,  4.9353e-04,
+          1.9169e-03,  2.7161e-03]], device='cuda:0')
+Epoch 48, bias, value: tensor([ 0.0189, -0.0016,  0.0103,  0.0163, -0.0070,  0.0014,  0.0064,  0.0280,
+        -0.0310,  0.0298], device='cuda:0'), grad: tensor([ 0.0452, -0.0008, -0.0014, -0.0222, -0.0181, -0.0230, -0.0165, -0.0309,
+         0.0462,  0.0214], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 47, time 226.52, cls_loss 0.7337 cls_loss_mapping 0.0462 cls_loss_causal 0.6959 re_mapping 0.0171 re_causal 0.0481 /// teacc 98.07 lr 0.00010000
+Epoch 49, weight, value: tensor([[-0.0340,  0.0508, -0.0508,  ..., -0.0529, -0.0295, -0.0161],
+        [-0.0249, -0.0825,  0.0124,  ..., -0.0377, -0.0087, -0.0194],
+        [ 0.0216, -0.0519,  0.0226,  ...,  0.1110, -0.0632, -0.0294],
+        ...,
+        [-0.0364, -0.0674,  0.0612,  ..., -0.0096,  0.0082,  0.0493],
+        [-0.0050,  0.0240, -0.0340,  ..., -0.0400, -0.0695, -0.0041],
+        [-0.0760, -0.0085, -0.0134,  ..., -0.0752,  0.0664,  0.0085]],
+       device='cuda:0'), grad: tensor([[-0.0059, -0.0140,  0.0016,  ..., -0.0006, -0.0034, -0.0067],
+        [ 0.0005, -0.0111,  0.0025,  ...,  0.0012, -0.0053, -0.0020],
+        [-0.0070, -0.0022, -0.0039,  ..., -0.0023,  0.0011, -0.0010],
+        ...,
+        [ 0.0014,  0.0025,  0.0064,  ..., -0.0014,  0.0027,  0.0043],
+        [ 0.0020,  0.0039,  0.0027,  ...,  0.0013,  0.0019,  0.0030],
+        [-0.0020,  0.0027, -0.0096,  ...,  0.0013,  0.0038, -0.0022]],
+       device='cuda:0')
+Epoch 49, bias, value: tensor([ 0.0183, -0.0016,  0.0100,  0.0163, -0.0069,  0.0014,  0.0067,  0.0278,
+        -0.0301,  0.0295], device='cuda:0'), grad: tensor([-0.0175, -0.0217, -0.0202,  0.0196, -0.0165,  0.0330,  0.0154,  0.0091,
+         0.0074, -0.0086], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 48, time 226.65, cls_loss 0.6825 cls_loss_mapping 0.0446 cls_loss_causal 0.6499 re_mapping 0.0168 re_causal 0.0461 /// teacc 98.18 lr 0.00010000
+Epoch 50, weight, value: tensor([[-0.0342,  0.0509, -0.0514,  ..., -0.0539, -0.0295, -0.0166],
+        [-0.0254, -0.0831,  0.0124,  ..., -0.0371, -0.0083, -0.0193],
+        [ 0.0208, -0.0516,  0.0231,  ...,  0.1109, -0.0640, -0.0292],
+        ...,
+        [-0.0364, -0.0678,  0.0615,  ..., -0.0102,  0.0087,  0.0502],
+        [-0.0041,  0.0246, -0.0345,  ..., -0.0408, -0.0699, -0.0046],
+        [-0.0770, -0.0092, -0.0132,  ..., -0.0755,  0.0669,  0.0087]],
+       device='cuda:0'), grad: tensor([[ 3.6025e-04,  2.9635e-04, -1.7214e-04,  ...,  2.1000e-03,
+          1.0920e-03, -5.8222e-04],
+        [-8.4043e-06, -2.1610e-03, -1.0977e-03,  ...,  2.7008e-03,
+         -8.7881e-04, -3.0994e-03],
+        [ 6.6452e-03,  4.6921e-03,  1.0399e-02,  ...,  1.4160e-02,
+          8.6546e-04,  2.8248e-03],
+        ...,
+        [-6.0701e-04, -3.3169e-03, -9.5062e-03,  ..., -4.2877e-03,
+         -3.3321e-03, -1.0727e-02],
+        [ 1.4389e-02,  1.9608e-02,  4.3488e-03,  ...,  1.1040e-02,
+          1.4181e-03,  6.7291e-03],
+        [ 1.9574e-04, -2.1667e-03, -1.0529e-02,  ..., -2.4529e-03,
+          3.9864e-03,  7.6408e-03]], device='cuda:0')
+Epoch 50, bias, value: tensor([ 0.0185, -0.0012,  0.0104,  0.0159, -0.0072,  0.0014,  0.0062,  0.0285,
+        -0.0302,  0.0293], device='cuda:0'), grad: tensor([ 0.0047, -0.0166,  0.0548, -0.0645,  0.0192, -0.0393,  0.0048, -0.0291,
+         0.0589,  0.0071], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 49----------------------------------------------------
+epoch 49, time 228.72, cls_loss 0.6859 cls_loss_mapping 0.0447 cls_loss_causal 0.6509 re_mapping 0.0167 re_causal 0.0443 /// teacc 98.52 lr 0.00010000
+Epoch 51, weight, value: tensor([[-0.0343,  0.0512, -0.0517,  ..., -0.0546, -0.0299, -0.0168],
+        [-0.0258, -0.0839,  0.0119,  ..., -0.0367, -0.0088, -0.0201],
+        [ 0.0210, -0.0516,  0.0231,  ...,  0.1116, -0.0652, -0.0293],
+        ...,
+        [-0.0362, -0.0677,  0.0620,  ..., -0.0101,  0.0082,  0.0508],
+        [-0.0041,  0.0249, -0.0342,  ..., -0.0420, -0.0704, -0.0045],
+        [-0.0781, -0.0092, -0.0133,  ..., -0.0762,  0.0671,  0.0083]],
+       device='cuda:0'), grad: tensor([[-2.7885e-03, -1.2123e-02, -6.3820e-03,  ..., -1.7214e-04,
+         -4.4708e-03, -6.8626e-03],
+        [-2.4050e-05, -1.4353e-04, -7.6141e-03,  ...,  6.3658e-05,
+          1.7774e-04, -1.9610e-04],
+        [-1.2253e-02,  3.9444e-03,  1.5182e-03,  ..., -7.9880e-03,
+         -8.9951e-03, -1.5160e-02],
+        ...,
+        [ 2.1133e-03, -8.6308e-04,  7.1487e-03,  ...,  1.5533e-04,
+          5.3482e-03,  6.3171e-03],
+        [-3.1319e-03,  5.1193e-03,  1.1154e-02,  ...,  1.0282e-04,
+          3.3894e-03,  3.9215e-03],
+        [ 2.2049e-03,  6.1646e-03,  3.2330e-03,  ...,  1.2076e-04,
+          1.0424e-03,  1.0948e-03]], device='cuda:0')
+Epoch 51, bias, value: tensor([ 0.0182, -0.0016,  0.0107,  0.0160, -0.0071,  0.0015,  0.0060,  0.0290,
+        -0.0300,  0.0288], device='cuda:0'), grad: tensor([-0.0488, -0.0372, -0.0086,  0.0036,  0.0135,  0.0052, -0.0160,  0.0095,
+         0.0545,  0.0242], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 50, time 226.66, cls_loss 0.6712 cls_loss_mapping 0.0366 cls_loss_causal 0.6333 re_mapping 0.0163 re_causal 0.0423 /// teacc 98.38 lr 0.00010000
+Epoch 52, weight, value: tensor([[-0.0352,  0.0514, -0.0517,  ..., -0.0553, -0.0290, -0.0169],
+        [-0.0266, -0.0845,  0.0112,  ..., -0.0391, -0.0103, -0.0207],
+        [ 0.0219, -0.0522,  0.0239,  ...,  0.1133, -0.0650, -0.0294],
+        ...,
+        [-0.0354, -0.0679,  0.0616,  ..., -0.0104,  0.0073,  0.0502],
+        [-0.0040,  0.0246, -0.0336,  ..., -0.0421, -0.0699, -0.0036],
+        [-0.0789, -0.0087, -0.0132,  ..., -0.0767,  0.0678,  0.0092]],
+       device='cuda:0'), grad: tensor([[-0.0092, -0.0251,  0.0036,  ..., -0.0009, -0.0015, -0.0066],
+        [ 0.0010,  0.0020,  0.0049,  ...,  0.0012,  0.0036,  0.0031],
+        [-0.0088, -0.0083, -0.0095,  ..., -0.0008, -0.0038, -0.0105],
+        ...,
+        [ 0.0021,  0.0037,  0.0046,  ...,  0.0012,  0.0040,  0.0048],
+        [ 0.0048,  0.0076, -0.0058,  ..., -0.0013, -0.0107,  0.0028],
+        [ 0.0043,  0.0080,  0.0044,  ...,  0.0008,  0.0040,  0.0056]],
+       device='cuda:0')
+Epoch 52, bias, value: tensor([ 0.0183, -0.0016,  0.0107,  0.0159, -0.0074,  0.0020,  0.0055,  0.0286,
+        -0.0300,  0.0295], device='cuda:0'), grad: tensor([-0.0065,  0.0223, -0.0439, -0.0007, -0.0422,  0.0358, -0.0065,  0.0236,
+        -0.0144,  0.0325], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 51, time 226.81, cls_loss 0.6661 cls_loss_mapping 0.0409 cls_loss_causal 0.6391 re_mapping 0.0170 re_causal 0.0459 /// teacc 98.28 lr 0.00010000
+Epoch 53, weight, value: tensor([[-0.0354,  0.0520, -0.0511,  ..., -0.0569, -0.0286, -0.0171],
+        [-0.0274, -0.0850,  0.0114,  ..., -0.0382, -0.0110, -0.0211],
+        [ 0.0220, -0.0520,  0.0237,  ...,  0.1137, -0.0657, -0.0293],
+        ...,
+        [-0.0355, -0.0682,  0.0617,  ..., -0.0101,  0.0068,  0.0505],
+        [-0.0042,  0.0251, -0.0345,  ..., -0.0425, -0.0710, -0.0042],
+        [-0.0792, -0.0096, -0.0128,  ..., -0.0781,  0.0680,  0.0084]],
+       device='cuda:0'), grad: tensor([[ 0.0015,  0.0043,  0.0025,  ..., -0.0006,  0.0015,  0.0070],
+        [ 0.0009,  0.0022, -0.0040,  ..., -0.0005,  0.0007, -0.0053],
+        [ 0.0181,  0.0119,  0.0288,  ...,  0.0286,  0.0011,  0.0114],
+        ...,
+        [-0.0117, -0.0109, -0.0216,  ..., -0.0206, -0.0038, -0.0165],
+        [ 0.0019,  0.0020, -0.0062,  ..., -0.0030, -0.0006, -0.0101],
+        [-0.0030, -0.0124, -0.0096,  ...,  0.0005, -0.0062, -0.0095]],
+       device='cuda:0')
+Epoch 53, bias, value: tensor([ 0.0184, -0.0013,  0.0100,  0.0161, -0.0072,  0.0017,  0.0061,  0.0286,
+        -0.0302,  0.0293], device='cuda:0'), grad: tensor([ 0.0205, -0.0089,  0.0682, -0.0128, -0.0026,  0.0395,  0.0297, -0.0662,
+        -0.0129, -0.0546], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 52, time 226.13, cls_loss 0.6679 cls_loss_mapping 0.0425 cls_loss_causal 0.6361 re_mapping 0.0166 re_causal 0.0432 /// teacc 98.33 lr 0.00010000
+Epoch 54, weight, value: tensor([[-0.0345,  0.0528, -0.0510,  ..., -0.0570, -0.0288, -0.0163],
+        [-0.0277, -0.0857,  0.0111,  ..., -0.0365, -0.0121, -0.0232],
+        [ 0.0217, -0.0524,  0.0233,  ...,  0.1127, -0.0659, -0.0289],
+        ...,
+        [-0.0358, -0.0685,  0.0620,  ..., -0.0104,  0.0065,  0.0505],
+        [-0.0029,  0.0253, -0.0346,  ..., -0.0426, -0.0711, -0.0040],
+        [-0.0796, -0.0101, -0.0129,  ..., -0.0797,  0.0687,  0.0084]],
+       device='cuda:0'), grad: tensor([[-0.0056,  0.0018,  0.0075,  ...,  0.0041,  0.0006,  0.0050],
+        [-0.0014, -0.0038, -0.0024,  ...,  0.0006, -0.0013, -0.0036],
+        [ 0.0001, -0.0030, -0.0047,  ..., -0.0030, -0.0012, -0.0044],
+        ...,
+        [ 0.0026,  0.0046,  0.0046,  ...,  0.0009,  0.0017,  0.0046],
+        [-0.0213, -0.0342, -0.0049,  ...,  0.0015, -0.0121, -0.0203],
+        [ 0.0064,  0.0106,  0.0029,  ...,  0.0002,  0.0135,  0.0097]],
+       device='cuda:0')
+Epoch 54, bias, value: tensor([ 0.0183, -0.0023,  0.0101,  0.0159, -0.0068,  0.0017,  0.0064,  0.0283,
+        -0.0292,  0.0292], device='cuda:0'), grad: tensor([ 0.0288, -0.0157, -0.0209,  0.0493, -0.0677,  0.0279,  0.0364,  0.0258,
+        -0.0811,  0.0170], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 53, time 226.18, cls_loss 0.6747 cls_loss_mapping 0.0370 cls_loss_causal 0.6357 re_mapping 0.0157 re_causal 0.0415 /// teacc 98.37 lr 0.00010000
+Epoch 55, weight, value: tensor([[-0.0356,  0.0524, -0.0521,  ..., -0.0576, -0.0282, -0.0160],
+        [-0.0278, -0.0863,  0.0111,  ..., -0.0371, -0.0116, -0.0228],
+        [ 0.0214, -0.0521,  0.0241,  ...,  0.1141, -0.0658, -0.0285],
+        ...,
+        [-0.0359, -0.0681,  0.0623,  ..., -0.0107,  0.0073,  0.0509],
+        [-0.0034,  0.0247, -0.0357,  ..., -0.0439, -0.0721, -0.0046],
+        [-0.0812, -0.0105, -0.0121,  ..., -0.0790,  0.0688,  0.0085]],
+       device='cuda:0'), grad: tensor([[ 0.0017,  0.0037,  0.0028,  ...,  0.0006,  0.0007,  0.0056],
+        [-0.0056, -0.0110, -0.0077,  ...,  0.0003, -0.0008, -0.0124],
+        [-0.0217, -0.0215,  0.0062,  ...,  0.0018,  0.0008, -0.0045],
+        ...,
+        [ 0.0012,  0.0035,  0.0125,  ...,  0.0004,  0.0028,  0.0152],
+        [-0.0026, -0.0064, -0.0058,  ..., -0.0025, -0.0107, -0.0149],
+        [ 0.0001, -0.0068, -0.0189,  ...,  0.0006, -0.0031, -0.0189]],
+       device='cuda:0')
+Epoch 55, bias, value: tensor([ 0.0179, -0.0020,  0.0104,  0.0155, -0.0066,  0.0011,  0.0067,  0.0290,
+        -0.0299,  0.0295], device='cuda:0'), grad: tensor([ 0.0172, -0.0447, -0.0288,  0.0693,  0.0080,  0.0182,  0.0126,  0.0401,
+        -0.0438, -0.0482], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 54, time 226.04, cls_loss 0.6712 cls_loss_mapping 0.0365 cls_loss_causal 0.6395 re_mapping 0.0162 re_causal 0.0419 /// teacc 98.27 lr 0.00010000
+Epoch 56, weight, value: tensor([[-0.0357,  0.0529, -0.0519,  ..., -0.0586, -0.0280, -0.0163],
+        [-0.0287, -0.0859,  0.0111,  ..., -0.0380, -0.0110, -0.0230],
+        [ 0.0219, -0.0519,  0.0240,  ...,  0.1150, -0.0666, -0.0297],
+        ...,
+        [-0.0368, -0.0696,  0.0625,  ..., -0.0103,  0.0069,  0.0509],
+        [-0.0031,  0.0253, -0.0354,  ..., -0.0449, -0.0728, -0.0041],
+        [-0.0816, -0.0105, -0.0122,  ..., -0.0804,  0.0694,  0.0090]],
+       device='cuda:0'), grad: tensor([[ 0.0014,  0.0058,  0.0044,  ...,  0.0005,  0.0012,  0.0069],
+        [ 0.0015,  0.0018,  0.0027,  ...,  0.0013,  0.0014,  0.0031],
+        [ 0.0046,  0.0071,  0.0045,  ...,  0.0010,  0.0016,  0.0047],
+        ...,
+        [ 0.0027,  0.0010, -0.0019,  ...,  0.0003,  0.0041, -0.0051],
+        [ 0.0047,  0.0099,  0.0045,  ...,  0.0012,  0.0012,  0.0035],
+        [-0.0135, -0.0258, -0.0221,  ..., -0.0064, -0.0102, -0.0215]],
+       device='cuda:0')
+Epoch 56, bias, value: tensor([ 0.0181, -0.0016,  0.0096,  0.0167, -0.0072,  0.0003,  0.0070,  0.0286,
+        -0.0295,  0.0294], device='cuda:0'), grad: tensor([ 7.0839e-03,  1.5373e-02,  2.4277e-02,  3.2471e-02,  8.2791e-05,
+        -1.8860e-02, -1.3485e-03,  5.7945e-03,  2.8000e-02, -9.2834e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 55, time 225.42, cls_loss 0.6823 cls_loss_mapping 0.0381 cls_loss_causal 0.6443 re_mapping 0.0159 re_causal 0.0399 /// teacc 98.28 lr 0.00010000
+Epoch 57, weight, value: tensor([[-0.0357,  0.0528, -0.0521,  ..., -0.0597, -0.0287, -0.0167],
+        [-0.0274, -0.0861,  0.0107,  ..., -0.0383, -0.0112, -0.0238],
+        [ 0.0225, -0.0516,  0.0242,  ...,  0.1153, -0.0669, -0.0303],
+        ...,
+        [-0.0370, -0.0702,  0.0628,  ..., -0.0096,  0.0066,  0.0506],
+        [-0.0029,  0.0255, -0.0349,  ..., -0.0441, -0.0729, -0.0033],
+        [-0.0822, -0.0113, -0.0121,  ..., -0.0801,  0.0693,  0.0095]],
+       device='cuda:0'), grad: tensor([[ 2.0409e-04, -3.1605e-03,  1.6499e-03,  ..., -9.0539e-05,
+         -6.5422e-04,  1.3218e-03],
+        [ 6.5880e-03,  2.1610e-03,  1.0094e-02,  ...,  2.5120e-03,
+          2.7580e-03,  1.5427e-02],
+        [-2.8305e-03,  1.8854e-03,  4.2572e-03,  ...,  2.7561e-04,
+          1.7586e-03, -3.4065e-03],
+        ...,
+        [ 7.9334e-05, -3.0689e-03,  3.6488e-03,  ...,  1.1092e-04,
+          2.0790e-04, -8.8644e-04],
+        [-1.0620e-02, -7.4310e-03, -1.2140e-03,  ...,  2.2435e-04,
+         -4.5471e-03, -8.8806e-03],
+        [-6.2981e-03, -4.1428e-03,  3.7689e-03,  ...,  1.0234e-04,
+         -6.5384e-03,  5.5809e-03]], device='cuda:0')
+Epoch 57, bias, value: tensor([ 0.0181, -0.0020,  0.0095,  0.0162, -0.0068,  0.0005,  0.0063,  0.0288,
+        -0.0296,  0.0303], device='cuda:0'), grad: tensor([ 0.0103,  0.0757, -0.0004,  0.0129,  0.0306, -0.0754,  0.0052, -0.0086,
+        -0.0562,  0.0058], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 56, time 225.88, cls_loss 0.6724 cls_loss_mapping 0.0355 cls_loss_causal 0.6382 re_mapping 0.0163 re_causal 0.0408 /// teacc 98.31 lr 0.00010000
+Epoch 58, weight, value: tensor([[-0.0371,  0.0531, -0.0529,  ..., -0.0613, -0.0293, -0.0169],
+        [-0.0270, -0.0863,  0.0108,  ..., -0.0381, -0.0116, -0.0240],
+        [ 0.0225, -0.0521,  0.0243,  ...,  0.1154, -0.0672, -0.0296],
+        ...,
+        [-0.0378, -0.0712,  0.0633,  ..., -0.0091,  0.0062,  0.0510],
+        [-0.0022,  0.0255, -0.0347,  ..., -0.0442, -0.0733, -0.0033],
+        [-0.0814, -0.0108, -0.0120,  ..., -0.0796,  0.0698,  0.0094]],
+       device='cuda:0'), grad: tensor([[ 9.5177e-04,  9.1493e-05,  3.8471e-03,  ...,  3.9506e-04,
+          1.1787e-03,  6.5899e-04],
+        [ 5.2929e-04,  2.6035e-03,  5.1155e-03,  ...,  6.1214e-05,
+          1.2169e-03,  4.2381e-03],
+        [ 6.6376e-03,  3.5992e-03, -7.5722e-03,  ...,  1.0948e-02,
+         -9.2363e-04, -2.7390e-03],
+        ...,
+        [-7.3013e-03, -4.8141e-03, -1.7853e-02,  ..., -1.2039e-02,
+         -3.8280e-03, -1.0094e-02],
+        [ 5.0812e-03,  9.1324e-03,  8.5449e-03,  ...,  1.3514e-03,
+          3.6316e-03,  6.2141e-03],
+        [ 1.8322e-04, -2.2736e-03,  3.1257e-04,  ..., -2.8801e-04,
+         -1.2903e-03, -2.1191e-03]], device='cuda:0')
+Epoch 58, bias, value: tensor([ 0.0180, -0.0023,  0.0095,  0.0163, -0.0071,  0.0009,  0.0065,  0.0284,
+        -0.0297,  0.0309], device='cuda:0'), grad: tensor([-0.0018,  0.0269, -0.0139, -0.0264,  0.0259,  0.0119, -0.0048, -0.0521,
+         0.0383, -0.0040], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 57----------------------------------------------------
+epoch 57, time 228.64, cls_loss 0.6365 cls_loss_mapping 0.0406 cls_loss_causal 0.6092 re_mapping 0.0159 re_causal 0.0407 /// teacc 98.54 lr 0.00010000
+Epoch 59, weight, value: tensor([[-0.0366,  0.0537, -0.0535,  ..., -0.0621, -0.0298, -0.0171],
+        [-0.0270, -0.0868,  0.0106,  ..., -0.0365, -0.0125, -0.0243],
+        [ 0.0224, -0.0525,  0.0248,  ...,  0.1154, -0.0671, -0.0304],
+        ...,
+        [-0.0390, -0.0721,  0.0632,  ..., -0.0090,  0.0069,  0.0510],
+        [-0.0019,  0.0263, -0.0352,  ..., -0.0459, -0.0723, -0.0039],
+        [-0.0830, -0.0120, -0.0120,  ..., -0.0809,  0.0695,  0.0090]],
+       device='cuda:0'), grad: tensor([[ 0.0022,  0.0106,  0.0074,  ...,  0.0014,  0.0007,  0.0070],
+        [-0.0012, -0.0026, -0.0035,  ...,  0.0005,  0.0001, -0.0026],
+        [ 0.0010,  0.0052,  0.0008,  ..., -0.0038,  0.0003,  0.0005],
+        ...,
+        [ 0.0006,  0.0036,  0.0212,  ...,  0.0010,  0.0072,  0.0034],
+        [ 0.0024,  0.0026,  0.0002,  ...,  0.0013,  0.0007, -0.0016],
+        [-0.0068, -0.0139, -0.0307,  ..., -0.0006, -0.0082,  0.0017]],
+       device='cuda:0')
+Epoch 59, bias, value: tensor([ 0.0177, -0.0020,  0.0099,  0.0166, -0.0066,  0.0014,  0.0065,  0.0281,
+        -0.0300,  0.0297], device='cuda:0'), grad: tensor([ 0.0427, -0.0184,  0.0140, -0.0380, -0.0161, -0.0168,  0.0395,  0.0373,
+         0.0034, -0.0475], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 58, time 226.68, cls_loss 0.6881 cls_loss_mapping 0.0377 cls_loss_causal 0.6485 re_mapping 0.0147 re_causal 0.0393 /// teacc 98.43 lr 0.00010000
+Epoch 60, weight, value: tensor([[-0.0381,  0.0538, -0.0543,  ..., -0.0638, -0.0292, -0.0168],
+        [-0.0273, -0.0867,  0.0103,  ..., -0.0364, -0.0125, -0.0245],
+        [ 0.0219, -0.0531,  0.0251,  ...,  0.1157, -0.0671, -0.0306],
+        ...,
+        [-0.0395, -0.0730,  0.0640,  ..., -0.0080,  0.0062,  0.0512],
+        [-0.0004,  0.0268, -0.0363,  ..., -0.0460, -0.0736, -0.0047],
+        [-0.0828, -0.0122, -0.0110,  ..., -0.0809,  0.0702,  0.0097]],
+       device='cuda:0'), grad: tensor([[-0.0090, -0.0113, -0.0314,  ..., -0.0004,  0.0005, -0.0241],
+        [-0.0005, -0.0023, -0.0052,  ...,  0.0001, -0.0018, -0.0109],
+        [ 0.0026,  0.0032,  0.0050,  ..., -0.0018,  0.0006,  0.0042],
+        ...,
+        [ 0.0015,  0.0016, -0.0014,  ...,  0.0006,  0.0004, -0.0014],
+        [-0.0065, -0.0066, -0.0010,  ..., -0.0013, -0.0033, -0.0034],
+        [ 0.0024,  0.0026,  0.0063,  ...,  0.0002,  0.0015,  0.0053]],
+       device='cuda:0')
+Epoch 60, bias, value: tensor([ 0.0179, -0.0021,  0.0099,  0.0168, -0.0067,  0.0009,  0.0067,  0.0280,
+        -0.0305,  0.0306], device='cuda:0'), grad: tensor([-0.0433, -0.0425,  0.0190,  0.0196,  0.0495,  0.0256, -0.0205,  0.0062,
+        -0.0369,  0.0234], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 59----------------------------------------------------
+epoch 59, time 227.65, cls_loss 0.6835 cls_loss_mapping 0.0333 cls_loss_causal 0.6546 re_mapping 0.0155 re_causal 0.0405 /// teacc 98.64 lr 0.00010000
+Epoch 61, weight, value: tensor([[-0.0387,  0.0539, -0.0538,  ..., -0.0632, -0.0289, -0.0163],
+        [-0.0276, -0.0863,  0.0095,  ..., -0.0380, -0.0122, -0.0255],
+        [ 0.0214, -0.0531,  0.0263,  ...,  0.1166, -0.0668, -0.0296],
+        ...,
+        [-0.0392, -0.0728,  0.0641,  ..., -0.0085,  0.0056,  0.0514],
+        [-0.0006,  0.0265, -0.0363,  ..., -0.0457, -0.0740, -0.0050],
+        [-0.0831, -0.0124, -0.0107,  ..., -0.0822,  0.0704,  0.0103]],
+       device='cuda:0'), grad: tensor([[ 5.5170e-04, -6.1417e-03,  1.6546e-03,  ...,  4.1202e-06,
+         -1.7899e-02, -9.1782e-03],
+        [ 8.2433e-05,  2.8114e-03,  6.0234e-03,  ...,  1.3962e-03,
+          2.3251e-03,  6.1417e-03],
+        [ 1.9836e-03,  6.3248e-03, -2.4887e-02,  ..., -1.9424e-02,
+          1.3666e-03, -2.4170e-02],
+        ...,
+        [ 1.0853e-03,  6.2895e-04,  6.7482e-03,  ...,  2.2106e-03,
+          1.2779e-03,  2.0294e-03],
+        [-5.9128e-04, -4.1885e-03, -1.4580e-02,  ..., -3.3975e-04,
+          2.4772e-04, -9.6054e-03],
+        [ 7.6962e-04,  7.1869e-03, -6.0158e-03,  ..., -3.9406e-03,
+          9.0942e-03,  3.9291e-03]], device='cuda:0')
+Epoch 61, bias, value: tensor([ 0.0183, -0.0021,  0.0099,  0.0164, -0.0074,  0.0002,  0.0067,  0.0284,
+        -0.0301,  0.0311], device='cuda:0'), grad: tensor([-0.0379,  0.0271,  0.0182,  0.0088,  0.0208, -0.0104,  0.0229,  0.0105,
+        -0.0547, -0.0054], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 60, time 225.52, cls_loss 0.6773 cls_loss_mapping 0.0337 cls_loss_causal 0.6352 re_mapping 0.0149 re_causal 0.0393 /// teacc 98.39 lr 0.00010000
+Epoch 62, weight, value: tensor([[-0.0387,  0.0540, -0.0543,  ..., -0.0629, -0.0274, -0.0164],
+        [-0.0274, -0.0867,  0.0099,  ..., -0.0379, -0.0125, -0.0259],
+        [ 0.0219, -0.0536,  0.0269,  ...,  0.1179, -0.0663, -0.0302],
+        ...,
+        [-0.0378, -0.0721,  0.0636,  ..., -0.0088,  0.0059,  0.0513],
+        [-0.0014,  0.0266, -0.0355,  ..., -0.0467, -0.0739, -0.0046],
+        [-0.0847, -0.0138, -0.0105,  ..., -0.0818,  0.0702,  0.0103]],
+       device='cuda:0'), grad: tensor([[-1.2064e-03, -4.0932e-03, -3.9635e-03,  ...,  2.2900e-04,
+          3.2353e-04, -1.3771e-03],
+        [-1.7500e-03, -6.3629e-03,  1.8730e-03,  ...,  8.3971e-04,
+          5.0926e-04, -2.3613e-03],
+        [ 1.5621e-03,  6.2218e-03,  6.0310e-03,  ...,  2.8439e-03,
+          1.3304e-03,  9.0637e-03],
+        ...,
+        [ 6.6662e-04,  5.9929e-03,  1.1177e-02,  ...,  9.4080e-04,
+          4.0321e-03,  9.9716e-03],
+        [-3.3677e-05,  2.7809e-03,  5.3787e-03,  ...,  9.4080e-04,
+          2.2030e-03,  7.7171e-03],
+        [-2.3270e-03, -3.6716e-03, -7.0877e-03,  ..., -7.7286e-03,
+         -9.7427e-03, -1.3519e-02]], device='cuda:0')
+Epoch 62, bias, value: tensor([ 0.0185, -0.0020,  0.0098,  0.0166, -0.0075,  0.0005,  0.0062,  0.0284,
+        -0.0300,  0.0308], device='cuda:0'), grad: tensor([-0.0248, -0.0038,  0.0413, -0.1012,  0.0020,  0.0222,  0.0177,  0.0454,
+         0.0350, -0.0338], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 61, time 225.67, cls_loss 0.6390 cls_loss_mapping 0.0318 cls_loss_causal 0.5948 re_mapping 0.0148 re_causal 0.0373 /// teacc 98.39 lr 0.00010000
+Epoch 63, weight, value: tensor([[-0.0397,  0.0540, -0.0539,  ..., -0.0628, -0.0281, -0.0165],
+        [-0.0284, -0.0870,  0.0099,  ..., -0.0392, -0.0132, -0.0267],
+        [ 0.0222, -0.0534,  0.0264,  ...,  0.1177, -0.0666, -0.0307],
+        ...,
+        [-0.0369, -0.0727,  0.0643,  ..., -0.0082,  0.0062,  0.0517],
+        [-0.0015,  0.0266, -0.0364,  ..., -0.0471, -0.0746, -0.0049],
+        [-0.0851, -0.0140, -0.0103,  ..., -0.0817,  0.0715,  0.0107]],
+       device='cuda:0'), grad: tensor([[-0.0006, -0.0044,  0.0001,  ..., -0.0006,  0.0014, -0.0010],
+        [ 0.0003,  0.0040,  0.0039,  ...,  0.0002,  0.0038,  0.0087],
+        [-0.0050,  0.0009, -0.0023,  ..., -0.0016, -0.0051, -0.0049],
+        ...,
+        [ 0.0005, -0.0022, -0.0056,  ..., -0.0010, -0.0002, -0.0093],
+        [-0.0075, -0.0057,  0.0019,  ...,  0.0007, -0.0014,  0.0046],
+        [ 0.0061,  0.0062, -0.0044,  ...,  0.0010, -0.0039, -0.0090]],
+       device='cuda:0')
+Epoch 63, bias, value: tensor([ 0.0184, -0.0017,  0.0091,  0.0168, -0.0073,  0.0007,  0.0059,  0.0280,
+        -0.0302,  0.0314], device='cuda:0'), grad: tensor([ 0.0065,  0.0336, -0.0253,  0.0053, -0.0055,  0.0256,  0.0030, -0.0451,
+         0.0044, -0.0024], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 62, time 225.76, cls_loss 0.6761 cls_loss_mapping 0.0316 cls_loss_causal 0.6399 re_mapping 0.0149 re_causal 0.0416 /// teacc 98.50 lr 0.00010000
+Epoch 64, weight, value: tensor([[-0.0403,  0.0543, -0.0545,  ..., -0.0630, -0.0284, -0.0165],
+        [-0.0285, -0.0878,  0.0099,  ..., -0.0394, -0.0134, -0.0280],
+        [ 0.0217, -0.0541,  0.0276,  ...,  0.1177, -0.0665, -0.0295],
+        ...,
+        [-0.0377, -0.0728,  0.0646,  ..., -0.0094,  0.0060,  0.0525],
+        [-0.0014,  0.0264, -0.0359,  ..., -0.0470, -0.0744, -0.0044],
+        [-0.0848, -0.0130, -0.0110,  ..., -0.0819,  0.0708,  0.0103]],
+       device='cuda:0'), grad: tensor([[-0.0071, -0.0098, -0.0007,  ..., -0.0021,  0.0011, -0.0010],
+        [ 0.0004,  0.0011,  0.0030,  ...,  0.0009,  0.0004,  0.0021],
+        [ 0.0031,  0.0066, -0.0009,  ..., -0.0031,  0.0014,  0.0042],
+        ...,
+        [ 0.0039,  0.0045,  0.0056,  ...,  0.0099, -0.0041,  0.0034],
+        [ 0.0014, -0.0012, -0.0116,  ...,  0.0015, -0.0005, -0.0069],
+        [ 0.0015, -0.0005,  0.0063,  ...,  0.0036,  0.0065, -0.0019]],
+       device='cuda:0')
+Epoch 64, bias, value: tensor([ 0.0179, -0.0022,  0.0099,  0.0170, -0.0077, -0.0004,  0.0065,  0.0281,
+        -0.0304,  0.0324], device='cuda:0'), grad: tensor([-0.0050,  0.0107, -0.0107,  0.0059,  0.0193,  0.0007, -0.0114,  0.0303,
+        -0.0332, -0.0067], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 63, time 226.05, cls_loss 0.6449 cls_loss_mapping 0.0339 cls_loss_causal 0.6116 re_mapping 0.0146 re_causal 0.0378 /// teacc 98.47 lr 0.00010000
+Epoch 65, weight, value: tensor([[-0.0409,  0.0547, -0.0549,  ..., -0.0644, -0.0292, -0.0165],
+        [-0.0289, -0.0877,  0.0113,  ..., -0.0386, -0.0126, -0.0276],
+        [ 0.0224, -0.0551,  0.0281,  ...,  0.1194, -0.0685, -0.0304],
+        ...,
+        [-0.0388, -0.0740,  0.0645,  ..., -0.0100,  0.0064,  0.0520],
+        [-0.0015,  0.0263, -0.0360,  ..., -0.0485, -0.0748, -0.0031],
+        [-0.0848, -0.0140, -0.0116,  ..., -0.0835,  0.0711,  0.0102]],
+       device='cuda:0'), grad: tensor([[-2.5959e-03, -1.7500e-03,  3.0708e-03,  ...,  1.1549e-03,
+          1.0004e-03,  3.0079e-03],
+        [-4.2152e-04, -1.2302e-03, -7.0715e-04,  ...,  4.6039e-04,
+         -6.9022e-05, -8.6212e-04],
+        [-2.4378e-04,  2.3632e-03, -1.0710e-03,  ..., -5.7259e-03,
+          6.4278e-04,  2.1515e-03],
+        ...,
+        [-7.6151e-04, -9.7322e-04, -4.8470e-04,  ...,  1.7414e-03,
+          2.2852e-04, -1.2531e-03],
+        [ 1.0399e-02,  1.1169e-02,  7.3166e-03,  ...,  8.2684e-04,
+          2.8210e-03,  5.2147e-03],
+        [-3.7050e-04, -2.7237e-03, -6.4583e-03,  ...,  2.9430e-03,
+         -6.2866e-03, -4.8780e-04]], device='cuda:0')
+Epoch 65, bias, value: tensor([ 0.0177, -0.0011,  0.0098,  0.0169, -0.0071,  0.0005,  0.0059,  0.0268,
+        -0.0301,  0.0320], device='cuda:0'), grad: tensor([ 0.0082, -0.0071, -0.0075, -0.0064,  0.0299, -0.0768,  0.0347, -0.0115,
+         0.0434, -0.0068], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 64, time 226.03, cls_loss 0.6046 cls_loss_mapping 0.0328 cls_loss_causal 0.5681 re_mapping 0.0149 re_causal 0.0382 /// teacc 98.64 lr 0.00010000
+Epoch 66, weight, value: tensor([[-0.0419,  0.0548, -0.0558,  ..., -0.0650, -0.0296, -0.0168],
+        [-0.0293, -0.0875,  0.0108,  ..., -0.0385, -0.0135, -0.0281],
+        [ 0.0230, -0.0554,  0.0283,  ...,  0.1197, -0.0686, -0.0308],
+        ...,
+        [-0.0396, -0.0750,  0.0653,  ..., -0.0105,  0.0059,  0.0524],
+        [-0.0020,  0.0264, -0.0366,  ..., -0.0499, -0.0756, -0.0026],
+        [-0.0855, -0.0144, -0.0111,  ..., -0.0821,  0.0721,  0.0101]],
+       device='cuda:0'), grad: tensor([[ 0.0033,  0.0100, -0.0013,  ...,  0.0012,  0.0005,  0.0051],
+        [ 0.0011, -0.0029, -0.0038,  ..., -0.0015,  0.0009, -0.0078],
+        [ 0.0039,  0.0047, -0.0005,  ...,  0.0019, -0.0018, -0.0013],
+        ...,
+        [ 0.0034,  0.0022,  0.0008,  ..., -0.0008,  0.0005,  0.0016],
+        [-0.0155, -0.0079,  0.0030,  ..., -0.0075,  0.0014,  0.0035],
+        [-0.0006, -0.0067, -0.0061,  ..., -0.0004, -0.0047, -0.0092]],
+       device='cuda:0')
+Epoch 66, bias, value: tensor([ 1.7603e-02, -1.0856e-03,  9.8284e-03,  1.7770e-02, -7.4962e-03,
+        -4.2738e-05,  5.9178e-03,  2.6733e-02, -3.0441e-02,  3.2410e-02],
+       device='cuda:0'), grad: tensor([ 0.0049, -0.0088, -0.0015,  0.0350,  0.0335, -0.0113,  0.0010,  0.0099,
+        -0.0093, -0.0534], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 65, time 228.32, cls_loss 0.6810 cls_loss_mapping 0.0285 cls_loss_causal 0.6407 re_mapping 0.0137 re_causal 0.0376 /// teacc 98.61 lr 0.00010000
+Epoch 67, weight, value: tensor([[-0.0425,  0.0543, -0.0561,  ..., -0.0635, -0.0309, -0.0166],
+        [-0.0304, -0.0895,  0.0117,  ..., -0.0393, -0.0127, -0.0292],
+        [ 0.0232, -0.0552,  0.0285,  ...,  0.1202, -0.0696, -0.0308],
+        ...,
+        [-0.0409, -0.0760,  0.0658,  ..., -0.0113,  0.0064,  0.0526],
+        [-0.0021,  0.0261, -0.0368,  ..., -0.0507, -0.0754, -0.0030],
+        [-0.0858, -0.0135, -0.0122,  ..., -0.0831,  0.0720,  0.0098]],
+       device='cuda:0'), grad: tensor([[-7.4053e-04, -3.8319e-03, -1.2865e-03,  ...,  4.4250e-04,
+          6.5947e-04, -1.7242e-03],
+        [ 8.0347e-04, -5.0449e-04, -1.7667e-04,  ...,  1.3387e-04,
+         -9.5415e-04, -1.0366e-03],
+        [ 2.2106e-03,  1.4791e-03,  9.0361e-04,  ...,  1.4353e-03,
+         -1.0014e-03, -2.4632e-05],
+        ...,
+        [ 1.1091e-03,  4.9400e-04, -8.0185e-03,  ..., -5.8975e-03,
+         -7.7188e-06, -3.6831e-03],
+        [-1.9455e-02, -2.4475e-02,  1.9026e-03,  ..., -1.0939e-03,
+          9.5940e-04,  2.7580e-03],
+        [ 1.1721e-03,  5.1765e-03,  4.5662e-03,  ...,  2.9874e-04,
+          1.5059e-03,  6.5155e-03]], device='cuda:0')
+Epoch 67, bias, value: tensor([ 0.0174, -0.0022,  0.0097,  0.0185, -0.0063, -0.0004,  0.0059,  0.0269,
+        -0.0303,  0.0320], device='cuda:0'), grad: tensor([-0.0111, -0.0181, -0.0002, -0.0252,  0.0039,  0.0138,  0.0347,  0.0017,
+        -0.0298,  0.0303], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 66, time 229.06, cls_loss 0.6512 cls_loss_mapping 0.0361 cls_loss_causal 0.6123 re_mapping 0.0145 re_causal 0.0378 /// teacc 98.54 lr 0.00010000
+Epoch 68, weight, value: tensor([[-0.0431,  0.0547, -0.0559,  ..., -0.0643, -0.0313, -0.0151],
+        [-0.0295, -0.0897,  0.0120,  ..., -0.0403, -0.0130, -0.0297],
+        [ 0.0227, -0.0565,  0.0286,  ...,  0.1209, -0.0703, -0.0313],
+        ...,
+        [-0.0413, -0.0751,  0.0649,  ..., -0.0115,  0.0061,  0.0534],
+        [-0.0012,  0.0275, -0.0375,  ..., -0.0506, -0.0751, -0.0031],
+        [-0.0869, -0.0147, -0.0112,  ..., -0.0832,  0.0723,  0.0091]],
+       device='cuda:0'), grad: tensor([[ 1.7471e-03,  6.8512e-03,  3.8452e-03,  ...,  9.4366e-04,
+         -7.6914e-04,  1.7986e-03],
+        [ 1.3962e-03,  5.6190e-03,  9.4986e-03,  ...,  1.4343e-03,
+          3.7372e-05,  5.2452e-03],
+        [ 1.6556e-03,  6.2485e-03,  6.9160e-03,  ...,  1.5593e-03,
+          1.0103e-04,  6.7635e-03],
+        ...,
+        [-1.0052e-03, -9.1553e-03, -2.3651e-02,  ...,  2.2087e-03,
+         -4.2796e-04, -8.5068e-03],
+        [-9.2173e-04, -1.1879e-02, -4.1656e-03,  ..., -4.6015e-04,
+          2.0313e-04, -6.1455e-03],
+        [-8.8692e-04,  2.1858e-03,  1.3153e-02,  ..., -7.5378e-03,
+          3.8481e-04, -7.3814e-03]], device='cuda:0')
+Epoch 68, bias, value: tensor([ 1.8258e-02, -1.6316e-03,  8.8844e-03,  1.8368e-02, -6.5816e-03,
+         2.6904e-05,  5.5888e-03,  2.7426e-02, -3.0487e-02,  3.1418e-02],
+       device='cuda:0'), grad: tensor([ 0.0107,  0.0483,  0.0381,  0.0153, -0.0068,  0.0077,  0.0025, -0.0738,
+        -0.0606,  0.0186], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 67, time 227.05, cls_loss 0.6749 cls_loss_mapping 0.0267 cls_loss_causal 0.6382 re_mapping 0.0146 re_causal 0.0399 /// teacc 98.52 lr 0.00010000
+Epoch 69, weight, value: tensor([[-0.0434,  0.0547, -0.0562,  ..., -0.0643, -0.0321, -0.0156],
+        [-0.0294, -0.0905,  0.0117,  ..., -0.0403, -0.0140, -0.0308],
+        [ 0.0224, -0.0568,  0.0295,  ...,  0.1217, -0.0697, -0.0316],
+        ...,
+        [-0.0413, -0.0753,  0.0639,  ..., -0.0135,  0.0052,  0.0528],
+        [-0.0015,  0.0273, -0.0373,  ..., -0.0499, -0.0751, -0.0021],
+        [-0.0874, -0.0146, -0.0107,  ..., -0.0834,  0.0726,  0.0106]],
+       device='cuda:0'), grad: tensor([[ 4.1533e-04, -3.5057e-03, -9.5987e-04,  ..., -4.5824e-04,
+          1.1992e-04, -2.1591e-03],
+        [ 1.3380e-03, -9.8133e-04, -8.0566e-03,  ...,  1.9896e-04,
+         -2.6875e-03, -7.0686e-03],
+        [ 1.5593e-03,  3.2043e-03,  3.9368e-03,  ...,  3.1137e-04,
+          1.7214e-04,  1.6737e-03],
+        ...,
+        [ 2.9874e-04,  2.9049e-03,  2.3823e-03,  ...,  1.8597e-05,
+          4.8661e-04,  9.1505e-04],
+        [ 2.7418e-04,  1.8892e-03, -8.3466e-03,  ...,  8.2731e-05,
+         -2.4676e-04,  1.5450e-03],
+        [ 6.5088e-04,  1.0368e-02,  1.1444e-02,  ...,  5.6362e-04,
+          1.9016e-03,  1.9388e-03]], device='cuda:0')
+Epoch 69, bias, value: tensor([ 0.0180, -0.0017,  0.0084,  0.0181, -0.0068, -0.0010,  0.0066,  0.0273,
+        -0.0298,  0.0320], device='cuda:0'), grad: tensor([-0.0122, -0.0420,  0.0236, -0.0612,  0.0295,  0.0200,  0.0297,  0.0178,
+        -0.0383,  0.0332], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 68, time 225.80, cls_loss 0.6386 cls_loss_mapping 0.0252 cls_loss_causal 0.6106 re_mapping 0.0137 re_causal 0.0366 /// teacc 98.36 lr 0.00010000
+Epoch 70, weight, value: tensor([[-0.0430,  0.0553, -0.0560,  ..., -0.0643, -0.0325, -0.0150],
+        [-0.0282, -0.0903,  0.0120,  ..., -0.0421, -0.0144, -0.0308],
+        [ 0.0227, -0.0566,  0.0297,  ...,  0.1228, -0.0694, -0.0323],
+        ...,
+        [-0.0420, -0.0763,  0.0647,  ..., -0.0142,  0.0051,  0.0535],
+        [-0.0018,  0.0267, -0.0382,  ..., -0.0503, -0.0754, -0.0026],
+        [-0.0875, -0.0144, -0.0115,  ..., -0.0836,  0.0716,  0.0092]],
+       device='cuda:0'), grad: tensor([[ 0.0007,  0.0026, -0.0212,  ..., -0.0014,  0.0003, -0.0069],
+        [ 0.0005,  0.0020,  0.0031,  ..., -0.0001,  0.0011,  0.0041],
+        [-0.0009, -0.0017, -0.0036,  ..., -0.0045,  0.0003, -0.0009],
+        ...,
+        [ 0.0012,  0.0088,  0.0485,  ...,  0.0053,  0.0031,  0.0248],
+        [ 0.0014,  0.0016, -0.0008,  ...,  0.0005, -0.0003, -0.0032],
+        [-0.0016, -0.0050, -0.0044,  ...,  0.0003, -0.0041, -0.0065]],
+       device='cuda:0')
+Epoch 70, bias, value: tensor([ 0.0189, -0.0017,  0.0090,  0.0180, -0.0070, -0.0009,  0.0069,  0.0272,
+        -0.0311,  0.0322], device='cuda:0'), grad: tensor([-0.0145,  0.0287, -0.0231, -0.0825, -0.0432,  0.0334,  0.0121,  0.1119,
+        -0.0116, -0.0112], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 69, time 226.10, cls_loss 0.6301 cls_loss_mapping 0.0314 cls_loss_causal 0.5936 re_mapping 0.0139 re_causal 0.0362 /// teacc 98.55 lr 0.00010000
+Epoch 71, weight, value: tensor([[-0.0422,  0.0552, -0.0561,  ..., -0.0639, -0.0333, -0.0146],
+        [-0.0291, -0.0902,  0.0120,  ..., -0.0432, -0.0140, -0.0311],
+        [ 0.0227, -0.0566,  0.0290,  ...,  0.1229, -0.0697, -0.0326],
+        ...,
+        [-0.0426, -0.0773,  0.0651,  ..., -0.0132,  0.0043,  0.0529],
+        [-0.0022,  0.0265, -0.0373,  ..., -0.0499, -0.0743, -0.0012],
+        [-0.0877, -0.0132, -0.0112,  ..., -0.0836,  0.0717,  0.0091]],
+       device='cuda:0'), grad: tensor([[ 1.8167e-03,  4.1656e-03, -1.2093e-03,  ...,  1.5087e-03,
+          6.4611e-04,  9.5272e-04],
+        [ 2.0421e-04,  1.7338e-03,  6.2714e-03,  ...,  1.9026e-03,
+          1.4658e-03,  5.7297e-03],
+        [ 8.5068e-04,  2.7370e-03, -2.0866e-03,  ...,  4.4584e-04,
+         -2.1458e-03, -3.8452e-03],
+        ...,
+        [ 2.0182e-04, -1.3150e-05, -3.5477e-03,  ..., -2.9678e-03,
+          1.4725e-03,  1.0204e-03],
+        [ 1.9646e-03,  7.7105e-04,  2.9526e-03,  ...,  7.0906e-04,
+          1.2312e-03,  2.8706e-03],
+        [ 5.2023e-04,  1.9493e-03, -9.5940e-04,  ...,  3.5191e-04,
+         -4.6754e-04, -1.4496e-03]], device='cuda:0')
+Epoch 71, bias, value: tensor([ 0.0194, -0.0008,  0.0083,  0.0176, -0.0073, -0.0001,  0.0064,  0.0267,
+        -0.0308,  0.0321], device='cuda:0'), grad: tensor([-0.0095,  0.0610, -0.0403,  0.0127, -0.0036, -0.0500,  0.0111,  0.0070,
+         0.0179, -0.0063], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 70, time 228.70, cls_loss 0.6502 cls_loss_mapping 0.0295 cls_loss_causal 0.6116 re_mapping 0.0135 re_causal 0.0351 /// teacc 98.47 lr 0.00010000
+Epoch 72, weight, value: tensor([[-0.0422,  0.0558, -0.0568,  ..., -0.0649, -0.0345, -0.0141],
+        [-0.0291, -0.0902,  0.0116,  ..., -0.0436, -0.0147, -0.0316],
+        [ 0.0223, -0.0567,  0.0294,  ...,  0.1230, -0.0699, -0.0327],
+        ...,
+        [-0.0418, -0.0773,  0.0650,  ..., -0.0138,  0.0036,  0.0525],
+        [-0.0028,  0.0259, -0.0373,  ..., -0.0493, -0.0740, -0.0016],
+        [-0.0890, -0.0137, -0.0109,  ..., -0.0847,  0.0726,  0.0095]],
+       device='cuda:0'), grad: tensor([[ 7.6294e-05, -1.4048e-03, -2.6436e-03,  ...,  3.4630e-05,
+          3.7503e-04, -2.8825e-04],
+        [ 1.5318e-04,  2.4009e-04, -2.4757e-03,  ...,  2.7969e-05,
+         -2.2030e-03, -3.8319e-03],
+        [ 3.8052e-04, -4.5624e-03, -7.1449e-03,  ..., -5.3525e-05,
+          2.4307e-04, -4.4518e-03],
+        ...,
+        [ 3.7527e-04, -6.9761e-04, -3.1796e-03,  ..., -4.1342e-04,
+          2.7370e-04, -2.5864e-03],
+        [ 6.3705e-04,  2.0409e-03,  2.5253e-03,  ...,  8.4758e-05,
+          3.2139e-04,  2.8610e-03],
+        [ 2.7061e-04,  2.7847e-03,  6.5269e-03,  ...,  4.4775e-04,
+          9.0408e-04,  6.6719e-03]], device='cuda:0')
+Epoch 72, bias, value: tensor([ 1.9179e-02, -1.5928e-03,  8.4327e-03,  1.8024e-02, -7.2094e-03,
+        -4.1723e-05,  6.1879e-03,  2.6946e-02, -3.0677e-02,  3.2112e-02],
+       device='cuda:0'), grad: tensor([-0.0005,  0.0157, -0.0378,  0.0142,  0.0067, -0.0083, -0.0269, -0.0195,
+         0.0235,  0.0328], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 71, time 227.74, cls_loss 0.6488 cls_loss_mapping 0.0239 cls_loss_causal 0.6095 re_mapping 0.0135 re_causal 0.0367 /// teacc 98.34 lr 0.00010000
+Epoch 73, weight, value: tensor([[-0.0427,  0.0560, -0.0574,  ..., -0.0642, -0.0348, -0.0144],
+        [-0.0288, -0.0899,  0.0117,  ..., -0.0431, -0.0152, -0.0310],
+        [ 0.0225, -0.0576,  0.0295,  ...,  0.1242, -0.0709, -0.0320],
+        ...,
+        [-0.0418, -0.0777,  0.0651,  ..., -0.0140,  0.0027,  0.0528],
+        [-0.0025,  0.0262, -0.0363,  ..., -0.0499, -0.0728, -0.0016],
+        [-0.0896, -0.0139, -0.0109,  ..., -0.0857,  0.0727,  0.0092]],
+       device='cuda:0'), grad: tensor([[ 0.0004,  0.0025,  0.0017,  ...,  0.0014,  0.0002,  0.0011],
+        [ 0.0006, -0.0010,  0.0012,  ...,  0.0043,  0.0008,  0.0010],
+        [-0.0030, -0.0008,  0.0049,  ..., -0.0089,  0.0001,  0.0012],
+        ...,
+        [ 0.0001,  0.0013,  0.0058,  ...,  0.0060,  0.0006,  0.0024],
+        [ 0.0025,  0.0042,  0.0043,  ...,  0.0039,  0.0004, -0.0022],
+        [-0.0008, -0.0028, -0.0124,  ..., -0.0046, -0.0021, -0.0072]],
+       device='cuda:0')
+Epoch 73, bias, value: tensor([ 0.0187, -0.0009,  0.0080,  0.0178, -0.0083,  0.0004,  0.0066,  0.0274,
+        -0.0305,  0.0321], device='cuda:0'), grad: tensor([ 0.0178,  0.0100, -0.0012, -0.0193,  0.0150,  0.0117, -0.0179,  0.0338,
+         0.0056, -0.0555], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 72----------------------------------------------------
+epoch 72, time 228.19, cls_loss 0.6241 cls_loss_mapping 0.0260 cls_loss_causal 0.5784 re_mapping 0.0135 re_causal 0.0354 /// teacc 98.66 lr 0.00010000
+Epoch 74, weight, value: tensor([[-0.0431,  0.0564, -0.0582,  ..., -0.0640, -0.0344, -0.0141],
+        [-0.0290, -0.0905,  0.0113,  ..., -0.0429, -0.0154, -0.0318],
+        [ 0.0218, -0.0572,  0.0295,  ...,  0.1245, -0.0702, -0.0317],
+        ...,
+        [-0.0423, -0.0782,  0.0661,  ..., -0.0133,  0.0022,  0.0527],
+        [-0.0016,  0.0258, -0.0370,  ..., -0.0508, -0.0739, -0.0017],
+        [-0.0896, -0.0141, -0.0099,  ..., -0.0861,  0.0735,  0.0098]],
+       device='cuda:0'), grad: tensor([[-2.5253e-03, -4.5662e-03,  1.1616e-03,  ..., -1.3375e-04,
+          1.3769e-04,  1.0548e-03],
+        [-1.1415e-03, -3.8528e-03, -5.3291e-03,  ...,  4.0025e-05,
+          1.0166e-03, -6.1378e-03],
+        [ 4.3845e-04,  1.6460e-03,  2.8076e-03,  ..., -2.3937e-04,
+          4.6849e-04,  2.3098e-03],
+        ...,
+        [ 2.0111e-04, -3.9768e-04, -8.7051e-03,  ...,  2.3472e-04,
+         -3.2063e-03, -3.3913e-03],
+        [ 6.4182e-04,  2.6894e-03,  2.2259e-03,  ...,  1.8156e-04,
+          4.5419e-04,  2.2564e-03],
+        [ 3.6263e-04,  1.7529e-03, -1.8644e-03,  ..., -1.4257e-03,
+         -1.8616e-03,  1.9398e-03]], device='cuda:0')
+Epoch 74, bias, value: tensor([ 0.0186, -0.0015,  0.0088,  0.0181, -0.0084, -0.0006,  0.0066,  0.0274,
+        -0.0302,  0.0323], device='cuda:0'), grad: tensor([-0.0002, -0.0573,  0.0219, -0.0025, -0.0076,  0.0192,  0.0302, -0.0414,
+         0.0228,  0.0150], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 73, time 226.38, cls_loss 0.6455 cls_loss_mapping 0.0308 cls_loss_causal 0.6098 re_mapping 0.0133 re_causal 0.0347 /// teacc 98.52 lr 0.00010000
+Epoch 75, weight, value: tensor([[-0.0430,  0.0572, -0.0586,  ..., -0.0669, -0.0354, -0.0131],
+        [-0.0294, -0.0912,  0.0127,  ..., -0.0434, -0.0148, -0.0325],
+        [ 0.0219, -0.0576,  0.0293,  ...,  0.1255, -0.0705, -0.0321],
+        ...,
+        [-0.0423, -0.0785,  0.0651,  ..., -0.0138,  0.0026,  0.0529],
+        [-0.0017,  0.0256, -0.0362,  ..., -0.0504, -0.0747, -0.0022],
+        [-0.0907, -0.0149, -0.0102,  ..., -0.0872,  0.0734,  0.0089]],
+       device='cuda:0'), grad: tensor([[ 0.0010,  0.0034, -0.0017,  ...,  0.0003,  0.0003, -0.0017],
+        [ 0.0011,  0.0020,  0.0012,  ...,  0.0007, -0.0012,  0.0007],
+        [-0.0081, -0.0052, -0.0018,  ..., -0.0063,  0.0003, -0.0034],
+        ...,
+        [ 0.0065,  0.0070,  0.0086,  ...,  0.0010,  0.0002,  0.0054],
+        [-0.0099, -0.0086, -0.0149,  ..., -0.0026,  0.0003, -0.0011],
+        [ 0.0012,  0.0019,  0.0015,  ...,  0.0001, -0.0010, -0.0021]],
+       device='cuda:0')
+Epoch 75, bias, value: tensor([ 0.0191, -0.0012,  0.0079,  0.0186, -0.0074, -0.0004,  0.0066,  0.0267,
+        -0.0300,  0.0315], device='cuda:0'), grad: tensor([-0.0087,  0.0097, -0.0126,  0.0735, -0.0047, -0.0582,  0.0034,  0.0317,
+        -0.0278, -0.0064], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 74, time 226.87, cls_loss 0.6441 cls_loss_mapping 0.0245 cls_loss_causal 0.6149 re_mapping 0.0136 re_causal 0.0348 /// teacc 98.45 lr 0.00010000
+Epoch 76, weight, value: tensor([[-0.0426,  0.0569, -0.0588,  ..., -0.0669, -0.0364, -0.0140],
+        [-0.0295, -0.0910,  0.0120,  ..., -0.0443, -0.0142, -0.0320],
+        [ 0.0210, -0.0589,  0.0295,  ...,  0.1259, -0.0716, -0.0322],
+        ...,
+        [-0.0432, -0.0796,  0.0665,  ..., -0.0132,  0.0023,  0.0532],
+        [-0.0013,  0.0261, -0.0362,  ..., -0.0515, -0.0758, -0.0019],
+        [-0.0915, -0.0146, -0.0107,  ..., -0.0884,  0.0741,  0.0085]],
+       device='cuda:0'), grad: tensor([[ 8.6403e-04, -4.1962e-03, -2.8629e-03,  ...,  2.5821e-04,
+         -1.0347e-04, -7.3242e-03],
+        [ 1.4400e-03,  4.0321e-03,  4.1313e-03,  ...,  1.3466e-03,
+          2.7132e-04,  3.8605e-03],
+        [-2.4662e-03, -7.5340e-04, -5.6343e-03,  ..., -8.1635e-03,
+          1.5414e-04,  5.0926e-03],
+        ...,
+        [ 7.4720e-04,  3.0632e-03,  6.1035e-03,  ...,  2.8801e-03,
+         -2.8256e-06,  1.9283e-03],
+        [-8.2970e-04, -8.4019e-04, -3.7003e-03,  ..., -1.5011e-03,
+         -1.7328e-03, -5.1498e-03],
+        [-3.0231e-04, -1.6365e-03, -3.7060e-03,  ..., -6.8045e-04,
+          9.1219e-04, -2.7771e-03]], device='cuda:0')
+Epoch 76, bias, value: tensor([ 0.0190, -0.0007,  0.0074,  0.0180, -0.0075,  0.0003,  0.0064,  0.0274,
+        -0.0303,  0.0313], device='cuda:0'), grad: tensor([-0.0284,  0.0282,  0.0019, -0.0122,  0.0155, -0.0085,  0.0227,  0.0247,
+        -0.0268, -0.0172], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 75, time 226.61, cls_loss 0.6185 cls_loss_mapping 0.0259 cls_loss_causal 0.5847 re_mapping 0.0137 re_causal 0.0343 /// teacc 98.37 lr 0.00010000
+Epoch 77, weight, value: tensor([[-0.0425,  0.0571, -0.0588,  ..., -0.0676, -0.0375, -0.0139],
+        [-0.0308, -0.0924,  0.0119,  ..., -0.0445, -0.0129, -0.0319],
+        [ 0.0218, -0.0589,  0.0306,  ...,  0.1269, -0.0714, -0.0321],
+        ...,
+        [-0.0438, -0.0794,  0.0659,  ..., -0.0141,  0.0018,  0.0533],
+        [-0.0022,  0.0252, -0.0368,  ..., -0.0523, -0.0776, -0.0036],
+        [-0.0905, -0.0137, -0.0110,  ..., -0.0899,  0.0751,  0.0087]],
+       device='cuda:0'), grad: tensor([[ 8.6725e-05, -2.5444e-03, -1.7643e-03,  ...,  1.0878e-04,
+         -2.1589e-04, -1.5182e-03],
+        [ 1.2839e-04, -2.1362e-03, -1.1864e-03,  ...,  3.9744e-04,
+          6.8855e-04, -1.6394e-03],
+        [-6.3002e-05,  1.9102e-03,  1.8167e-03,  ..., -6.3133e-04,
+          1.0557e-03,  1.4496e-03],
+        ...,
+        [-7.3814e-04,  1.0700e-03, -6.8436e-03,  ..., -2.3842e-03,
+         -5.2109e-03,  5.9986e-04],
+        [ 1.8999e-05,  1.5440e-03,  3.3340e-03,  ...,  7.7009e-04,
+          1.5802e-03,  1.4248e-03],
+        [ 3.4523e-04, -2.2259e-03,  4.0131e-03,  ...,  2.5616e-03,
+          7.0534e-03,  3.3340e-03]], device='cuda:0')
+Epoch 77, bias, value: tensor([ 0.0191, -0.0011,  0.0078,  0.0181, -0.0074,  0.0005,  0.0065,  0.0275,
+        -0.0307,  0.0312], device='cuda:0'), grad: tensor([-0.0161, -0.0129,  0.0145, -0.0179,  0.0057,  0.0129,  0.0135, -0.0168,
+         0.0178, -0.0008], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 76, time 226.83, cls_loss 0.6265 cls_loss_mapping 0.0260 cls_loss_causal 0.5866 re_mapping 0.0132 re_causal 0.0336 /// teacc 98.50 lr 0.00010000
+Epoch 78, weight, value: tensor([[-0.0432,  0.0571, -0.0586,  ..., -0.0674, -0.0378, -0.0141],
+        [-0.0324, -0.0933,  0.0116,  ..., -0.0448, -0.0135, -0.0330],
+        [ 0.0216, -0.0588,  0.0305,  ...,  0.1266, -0.0706, -0.0324],
+        ...,
+        [-0.0426, -0.0796,  0.0664,  ..., -0.0152,  0.0008,  0.0534],
+        [-0.0006,  0.0255, -0.0372,  ..., -0.0519, -0.0789, -0.0041],
+        [-0.0913, -0.0138, -0.0112,  ..., -0.0896,  0.0752,  0.0095]],
+       device='cuda:0'), grad: tensor([[ 1.6680e-03,  2.8172e-03, -1.1597e-03,  ...,  1.8291e-03,
+         -6.5136e-04,  2.1076e-03],
+        [ 1.4629e-03,  2.2888e-03,  2.0580e-03,  ...,  1.4553e-03,
+          9.7752e-04,  2.8076e-03],
+        [ 1.0559e-02,  5.7564e-03,  1.3481e-02,  ...,  7.0801e-03,
+         -5.3167e-04,  5.5885e-03],
+        ...,
+        [ 1.9054e-03,  2.7103e-03,  4.5853e-03,  ...,  3.1090e-03,
+          1.7862e-03,  2.6798e-03],
+        [ 1.0696e-02,  2.8267e-03,  2.6779e-03,  ...,  2.7905e-03,
+          2.1771e-05, -8.5068e-04],
+        [ 2.4166e-03,  6.3467e-04, -4.7722e-03,  ..., -1.0080e-03,
+         -6.6528e-03, -6.2675e-03]], device='cuda:0')
+Epoch 78, bias, value: tensor([ 0.0191, -0.0016,  0.0083,  0.0190, -0.0076, -0.0005,  0.0075,  0.0271,
+        -0.0317,  0.0318], device='cuda:0'), grad: tensor([-0.0035,  0.0231,  0.0032, -0.0332, -0.0245,  0.0065, -0.0003,  0.0215,
+         0.0081, -0.0008], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 77, time 226.71, cls_loss 0.6465 cls_loss_mapping 0.0254 cls_loss_causal 0.6097 re_mapping 0.0140 re_causal 0.0345 /// teacc 98.50 lr 0.00010000
+Epoch 79, weight, value: tensor([[-0.0433,  0.0580, -0.0591,  ..., -0.0670, -0.0383, -0.0147],
+        [-0.0326, -0.0935,  0.0108,  ..., -0.0460, -0.0133, -0.0332],
+        [ 0.0212, -0.0594,  0.0303,  ...,  0.1262, -0.0723, -0.0331],
+        ...,
+        [-0.0432, -0.0802,  0.0671,  ..., -0.0152,  0.0005,  0.0542],
+        [ 0.0013,  0.0263, -0.0370,  ..., -0.0520, -0.0800, -0.0046],
+        [-0.0931, -0.0145, -0.0103,  ..., -0.0911,  0.0759,  0.0107]],
+       device='cuda:0'), grad: tensor([[-5.1003e-03, -1.2489e-02,  1.0700e-03,  ...,  1.5187e-04,
+         -3.6240e-04, -3.2825e-03],
+        [ 8.6129e-05, -3.0231e-03, -6.0701e-04,  ...,  5.9080e-04,
+         -1.6909e-03, -2.7046e-03],
+        [ 1.1168e-03,  1.6537e-03,  1.1091e-03,  ..., -1.3723e-03,
+          3.6550e-04, -4.8685e-04],
+        ...,
+        [-1.0529e-03,  1.3819e-03, -1.1070e-02,  ..., -6.5994e-03,
+         -8.0299e-04, -2.2564e-03],
+        [ 1.7345e-04,  1.6069e-03,  1.0300e-03,  ...,  1.9252e-04,
+          2.6965e-04,  1.1902e-03],
+        [ 4.7445e-04,  1.7662e-03,  7.5951e-03,  ...,  3.8357e-03,
+          1.1005e-03,  3.9749e-03]], device='cuda:0')
+Epoch 79, bias, value: tensor([ 0.0192, -0.0016,  0.0085,  0.0176, -0.0086, -0.0011,  0.0080,  0.0278,
+        -0.0316,  0.0332], device='cuda:0'), grad: tensor([-0.0155, -0.0165,  0.0107,  0.0152, -0.0182, -0.0178,  0.0050,  0.0051,
+         0.0135,  0.0186], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 78, time 227.24, cls_loss 0.6620 cls_loss_mapping 0.0257 cls_loss_causal 0.6273 re_mapping 0.0139 re_causal 0.0358 /// teacc 98.46 lr 0.00010000
+Epoch 80, weight, value: tensor([[-0.0442,  0.0581, -0.0596,  ..., -0.0675, -0.0397, -0.0151],
+        [-0.0333, -0.0942,  0.0104,  ..., -0.0463, -0.0143, -0.0343],
+        [ 0.0224, -0.0592,  0.0294,  ...,  0.1273, -0.0734, -0.0337],
+        ...,
+        [-0.0435, -0.0804,  0.0677,  ..., -0.0147,  0.0015,  0.0541],
+        [ 0.0016,  0.0268, -0.0365,  ..., -0.0529, -0.0800, -0.0031],
+        [-0.0956, -0.0159, -0.0100,  ..., -0.0912,  0.0754,  0.0107]],
+       device='cuda:0'), grad: tensor([[ 0.0008,  0.0031,  0.0031,  ...,  0.0005,  0.0003,  0.0023],
+        [ 0.0014,  0.0027,  0.0062,  ...,  0.0013,  0.0008,  0.0036],
+        [-0.0035,  0.0015, -0.0077,  ..., -0.0091,  0.0003, -0.0007],
+        ...,
+        [ 0.0019, -0.0005,  0.0025,  ...,  0.0018,  0.0007, -0.0022],
+        [ 0.0055,  0.0028, -0.0009,  ...,  0.0007,  0.0025, -0.0005],
+        [ 0.0013,  0.0049,  0.0041,  ...,  0.0003,  0.0067,  0.0094]],
+       device='cuda:0')
+Epoch 80, bias, value: tensor([ 0.0190, -0.0022,  0.0086,  0.0184, -0.0084, -0.0016,  0.0078,  0.0282,
+        -0.0306,  0.0319], device='cuda:0'), grad: tensor([ 0.0254,  0.0325, -0.0261, -0.0292, -0.0288, -0.0015, -0.0032, -0.0009,
+         0.0060,  0.0258], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 79, time 226.69, cls_loss 0.6192 cls_loss_mapping 0.0255 cls_loss_causal 0.5819 re_mapping 0.0137 re_causal 0.0348 /// teacc 98.47 lr 0.00010000
+Epoch 81, weight, value: tensor([[-0.0445,  0.0584, -0.0595,  ..., -0.0673, -0.0402, -0.0152],
+        [-0.0327, -0.0945,  0.0115,  ..., -0.0452, -0.0147, -0.0347],
+        [ 0.0223, -0.0598,  0.0299,  ...,  0.1279, -0.0735, -0.0341],
+        ...,
+        [-0.0436, -0.0810,  0.0679,  ..., -0.0147,  0.0014,  0.0544],
+        [ 0.0013,  0.0268, -0.0355,  ..., -0.0546, -0.0797, -0.0020],
+        [-0.0957, -0.0144, -0.0109,  ..., -0.0923,  0.0764,  0.0109]],
+       device='cuda:0'), grad: tensor([[-3.5954e-03, -1.1955e-02, -4.1008e-03,  ...,  1.7071e-04,
+         -5.3978e-03, -1.2306e-02],
+        [-8.0395e-04, -2.3293e-04, -5.0592e-04,  ..., -2.0981e-03,
+          1.5039e-03,  3.9363e-04],
+        [-1.5373e-03, -1.6022e-02, -6.9733e-03,  ..., -1.1002e-02,
+          1.0633e-03,  3.3779e-03],
+        ...,
+        [-1.7128e-03,  1.9461e-05,  6.1264e-03,  ...,  2.6798e-03,
+          3.0994e-03,  5.2185e-03],
+        [ 3.3245e-03,  2.3560e-02,  1.1086e-02,  ...,  7.6027e-03,
+          5.8174e-03,  7.4005e-03],
+        [ 1.2493e-03,  5.4588e-03, -3.7956e-03,  ...,  9.7752e-04,
+         -6.1188e-03, -8.1787e-03]], device='cuda:0')
+Epoch 81, bias, value: tensor([ 0.0189, -0.0020,  0.0085,  0.0186, -0.0084, -0.0020,  0.0074,  0.0279,
+        -0.0304,  0.0326], device='cuda:0'), grad: tensor([-0.0739, -0.0110,  0.0056, -0.0341,  0.0227, -0.0147,  0.0272, -0.0026,
+         0.0657,  0.0152], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 80, time 222.21, cls_loss 0.6297 cls_loss_mapping 0.0220 cls_loss_causal 0.5907 re_mapping 0.0130 re_causal 0.0339 /// teacc 98.62 lr 0.00010000
+Epoch 82, weight, value: tensor([[-0.0453,  0.0584, -0.0598,  ..., -0.0680, -0.0401, -0.0152],
+        [-0.0326, -0.0947,  0.0115,  ..., -0.0457, -0.0153, -0.0355],
+        [ 0.0211, -0.0606,  0.0298,  ...,  0.1281, -0.0737, -0.0351],
+        ...,
+        [-0.0438, -0.0814,  0.0680,  ..., -0.0135,  0.0018,  0.0548],
+        [ 0.0016,  0.0261, -0.0351,  ..., -0.0548, -0.0800, -0.0026],
+        [-0.0955, -0.0136, -0.0103,  ..., -0.0928,  0.0767,  0.0106]],
+       device='cuda:0'), grad: tensor([[-2.4719e-03, -6.4163e-03,  2.3708e-03,  ...,  3.9506e-04,
+          9.5272e-04,  1.2856e-03],
+        [ 8.0347e-04,  2.7008e-03, -9.0103e-03,  ...,  3.2574e-05,
+          2.9063e-04,  3.4070e-04],
+        [-5.4283e-03, -4.7417e-03, -3.9940e-03,  ..., -4.4746e-03,
+         -6.0606e-04, -2.1420e-03],
+        ...,
+        [ 1.0071e-03,  3.9368e-03,  1.1971e-02,  ...,  2.6321e-04,
+          9.6655e-04,  3.0670e-03],
+        [ 4.6120e-03, -1.7977e-03, -5.4703e-03,  ...,  2.0142e-03,
+         -2.1667e-03, -5.2032e-03],
+        [ 1.2703e-03,  7.1449e-03,  3.3703e-03,  ...,  2.5702e-04,
+          7.7200e-04,  3.5915e-03]], device='cuda:0')
+Epoch 82, bias, value: tensor([ 0.0192, -0.0019,  0.0075,  0.0186, -0.0085, -0.0014,  0.0075,  0.0275,
+        -0.0306,  0.0332], device='cuda:0'), grad: tensor([-0.0097, -0.0114, -0.0278,  0.0007, -0.0138,  0.0106, -0.0010,  0.0427,
+        -0.0208,  0.0304], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 81, time 223.25, cls_loss 0.6008 cls_loss_mapping 0.0235 cls_loss_causal 0.5609 re_mapping 0.0133 re_causal 0.0328 /// teacc 98.66 lr 0.00010000
+Epoch 83, weight, value: tensor([[-0.0469,  0.0587, -0.0603,  ..., -0.0690, -0.0411, -0.0144],
+        [-0.0331, -0.0951,  0.0114,  ..., -0.0463, -0.0153, -0.0369],
+        [ 0.0215, -0.0603,  0.0309,  ...,  0.1289, -0.0725, -0.0339],
+        ...,
+        [-0.0436, -0.0820,  0.0677,  ..., -0.0146,  0.0008,  0.0552],
+        [ 0.0028,  0.0271, -0.0360,  ..., -0.0557, -0.0801, -0.0038],
+        [-0.0958, -0.0135, -0.0098,  ..., -0.0932,  0.0770,  0.0105]],
+       device='cuda:0'), grad: tensor([[ 0.0070,  0.0075,  0.0009,  ...,  0.0014,  0.0006,  0.0027],
+        [ 0.0016,  0.0018,  0.0010,  ...,  0.0004,  0.0002,  0.0011],
+        [ 0.0057,  0.0094, -0.0002,  ...,  0.0010, -0.0004, -0.0034],
+        ...,
+        [ 0.0015,  0.0010,  0.0035,  ...,  0.0006,  0.0034,  0.0009],
+        [-0.0224, -0.0194, -0.0020,  ..., -0.0008,  0.0017, -0.0040],
+        [-0.0032, -0.0072, -0.0029,  ..., -0.0008, -0.0081, -0.0019]],
+       device='cuda:0')
+Epoch 83, bias, value: tensor([ 0.0196, -0.0026,  0.0082,  0.0184, -0.0087, -0.0002,  0.0066,  0.0270,
+        -0.0309,  0.0337], device='cuda:0'), grad: tensor([ 0.0210,  0.0114,  0.0205, -0.0307,  0.0148,  0.0039,  0.0218,  0.0108,
+        -0.0632, -0.0102], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 82, time 220.92, cls_loss 0.6119 cls_loss_mapping 0.0219 cls_loss_causal 0.5715 re_mapping 0.0125 re_causal 0.0333 /// teacc 98.54 lr 0.00010000
+Epoch 84, weight, value: tensor([[-0.0477,  0.0584, -0.0603,  ..., -0.0690, -0.0415, -0.0143],
+        [-0.0330, -0.0949,  0.0116,  ..., -0.0464, -0.0139, -0.0359],
+        [ 0.0218, -0.0602,  0.0306,  ...,  0.1298, -0.0740, -0.0351],
+        ...,
+        [-0.0437, -0.0824,  0.0679,  ..., -0.0146, -0.0001,  0.0556],
+        [ 0.0025,  0.0269, -0.0366,  ..., -0.0565, -0.0803, -0.0037],
+        [-0.0969, -0.0143, -0.0096,  ..., -0.0938,  0.0775,  0.0101]],
+       device='cuda:0'), grad: tensor([[ 5.3215e-04,  2.6608e-03,  1.2550e-03,  ...,  4.2200e-04,
+          3.4142e-04,  2.2392e-03],
+        [-6.0987e-04, -5.4893e-03, -5.2910e-03,  ...,  1.8048e-04,
+         -9.0837e-05, -4.3564e-03],
+        [ 6.7978e-03,  6.6566e-03,  2.2526e-03,  ...,  3.0003e-03,
+          3.9434e-04,  3.1471e-03],
+        ...,
+        [ 3.2520e-04,  1.7443e-03, -6.0707e-05,  ..., -3.9749e-03,
+          1.1435e-03, -1.5297e-03],
+        [ 9.5940e-04,  3.8433e-03,  3.3989e-03,  ...,  5.1737e-04,
+          8.3256e-04,  4.5700e-03],
+        [-1.0500e-03, -4.3449e-03,  4.4899e-03,  ...,  2.1343e-03,
+          3.6812e-03,  2.6302e-03]], device='cuda:0')
+Epoch 84, bias, value: tensor([ 0.0192, -0.0020,  0.0077,  0.0189, -0.0088, -0.0002,  0.0068,  0.0269,
+        -0.0314,  0.0339], device='cuda:0'), grad: tensor([ 0.0173, -0.0475,  0.0264, -0.0201, -0.0181,  0.0296, -0.0022, -0.0051,
+         0.0288, -0.0089], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 83, time 217.84, cls_loss 0.6318 cls_loss_mapping 0.0212 cls_loss_causal 0.5988 re_mapping 0.0128 re_causal 0.0339 /// teacc 98.32 lr 0.00010000
+Epoch 85, weight, value: tensor([[-0.0469,  0.0587, -0.0585,  ..., -0.0671, -0.0408, -0.0138],
+        [-0.0336, -0.0950,  0.0118,  ..., -0.0464, -0.0138, -0.0361],
+        [ 0.0219, -0.0607,  0.0315,  ...,  0.1310, -0.0733, -0.0351],
+        ...,
+        [-0.0445, -0.0833,  0.0679,  ..., -0.0157, -0.0013,  0.0560],
+        [ 0.0029,  0.0277, -0.0373,  ..., -0.0581, -0.0803, -0.0027],
+        [-0.0975, -0.0154, -0.0099,  ..., -0.0932,  0.0776,  0.0104]],
+       device='cuda:0'), grad: tensor([[ 1.0614e-03,  1.2608e-03,  1.7762e-04,  ...,  2.4748e-04,
+          1.1368e-03,  8.1110e-04],
+        [ 1.7309e-03,  3.1071e-03,  1.4191e-03,  ..., -4.7922e-05,
+          1.8322e-04,  1.4515e-03],
+        [-2.3994e-03, -9.0408e-03, -7.1335e-03,  ..., -1.0643e-03,
+         -3.8624e-03, -6.2637e-03],
+        ...,
+        [ 1.9264e-04, -1.3599e-03, -2.3460e-03,  ...,  4.5490e-04,
+          7.8869e-04, -1.6403e-03],
+        [-1.2878e-02, -4.6310e-03,  1.6737e-03,  ...,  4.9162e-04,
+          1.3695e-03,  1.9722e-03],
+        [-1.3809e-03, -2.7504e-03, -7.2289e-04,  ...,  3.2759e-04,
+         -5.9471e-03, -2.7599e-03]], device='cuda:0')
+Epoch 85, bias, value: tensor([ 0.0200, -0.0021,  0.0073,  0.0187, -0.0083, -0.0019,  0.0070,  0.0271,
+        -0.0304,  0.0336], device='cuda:0'), grad: tensor([ 0.0004,  0.0193, -0.0638,  0.0115,  0.0252,  0.0511, -0.0014, -0.0193,
+        -0.0226, -0.0006], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 84, time 221.43, cls_loss 0.5719 cls_loss_mapping 0.0207 cls_loss_causal 0.5408 re_mapping 0.0127 re_causal 0.0324 /// teacc 98.59 lr 0.00010000
+Epoch 86, weight, value: tensor([[-0.0476,  0.0590, -0.0596,  ..., -0.0671, -0.0421, -0.0145],
+        [-0.0340, -0.0955,  0.0134,  ..., -0.0452, -0.0147, -0.0369],
+        [ 0.0225, -0.0599,  0.0315,  ...,  0.1301, -0.0735, -0.0351],
+        ...,
+        [-0.0448, -0.0834,  0.0683,  ..., -0.0157, -0.0022,  0.0564],
+        [ 0.0033,  0.0279, -0.0378,  ..., -0.0586, -0.0812, -0.0019],
+        [-0.0986, -0.0155, -0.0100,  ..., -0.0948,  0.0775,  0.0100]],
+       device='cuda:0'), grad: tensor([[ 0.0006,  0.0027,  0.0021,  ...,  0.0002,  0.0012,  0.0016],
+        [-0.0008, -0.0027, -0.0039,  ..., -0.0002, -0.0007, -0.0028],
+        [-0.0024, -0.0005, -0.0033,  ..., -0.0012,  0.0007,  0.0021],
+        ...,
+        [ 0.0023,  0.0021,  0.0047,  ...,  0.0022,  0.0014,  0.0019],
+        [ 0.0031,  0.0011, -0.0041,  ...,  0.0007, -0.0072,  0.0014],
+        [ 0.0011,  0.0040,  0.0068,  ...,  0.0005,  0.0051,  0.0045]],
+       device='cuda:0')
+Epoch 86, bias, value: tensor([ 0.0195, -0.0024,  0.0074,  0.0186, -0.0079, -0.0024,  0.0076,  0.0273,
+        -0.0305,  0.0339], device='cuda:0'), grad: tensor([ 0.0108, -0.0264,  0.0012, -0.0044, -0.0210,  0.0086, -0.0034,  0.0113,
+         0.0037,  0.0198], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 85, time 218.48, cls_loss 0.5577 cls_loss_mapping 0.0209 cls_loss_causal 0.5268 re_mapping 0.0122 re_causal 0.0310 /// teacc 98.53 lr 0.00010000
+Epoch 87, weight, value: tensor([[-0.0483,  0.0588, -0.0598,  ..., -0.0681, -0.0430, -0.0149],
+        [-0.0337, -0.0956,  0.0140,  ..., -0.0458, -0.0154, -0.0376],
+        [ 0.0218, -0.0605,  0.0310,  ...,  0.1307, -0.0749, -0.0351],
+        ...,
+        [-0.0452, -0.0840,  0.0682,  ..., -0.0164, -0.0016,  0.0568],
+        [ 0.0025,  0.0275, -0.0382,  ..., -0.0588, -0.0819, -0.0029],
+        [-0.0984, -0.0152, -0.0101,  ..., -0.0958,  0.0778,  0.0098]],
+       device='cuda:0'), grad: tensor([[-7.5758e-05, -2.1725e-03, -7.8249e-04,  ..., -2.7865e-05,
+          5.4359e-05,  2.7657e-04],
+        [-4.2686e-03, -6.8169e-03, -2.8801e-03,  ..., -4.8137e-04,
+         -1.8892e-03, -1.3590e-04],
+        [ 2.5768e-03, -1.7471e-03, -1.9226e-03,  ...,  3.8481e-04,
+          2.2161e-04, -1.6470e-03],
+        ...,
+        [ 7.9775e-04,  1.1883e-03,  8.6403e-04,  ...,  1.3435e-04,
+          5.9319e-04,  5.0879e-04],
+        [ 1.6870e-03,  1.8396e-03,  8.5926e-04,  ...,  1.9777e-04,
+          7.2718e-04,  3.7169e-04],
+        [-5.4646e-04,  9.5510e-04, -5.4026e-04,  ..., -1.0931e-04,
+         -2.2831e-03, -1.4067e-03]], device='cuda:0')
+Epoch 87, bias, value: tensor([ 0.0192, -0.0027,  0.0071,  0.0194, -0.0074, -0.0021,  0.0082,  0.0272,
+        -0.0316,  0.0337], device='cuda:0'), grad: tensor([ 0.0046, -0.0372, -0.0102, -0.0008,  0.0141,  0.0157,  0.0186,  0.0077,
+         0.0129, -0.0255], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 86, time 217.94, cls_loss 0.5955 cls_loss_mapping 0.0217 cls_loss_causal 0.5670 re_mapping 0.0130 re_causal 0.0334 /// teacc 98.58 lr 0.00010000
+Epoch 88, weight, value: tensor([[-0.0487,  0.0591, -0.0604,  ..., -0.0701, -0.0434, -0.0137],
+        [-0.0348, -0.0958,  0.0133,  ..., -0.0462, -0.0161, -0.0386],
+        [ 0.0220, -0.0609,  0.0318,  ...,  0.1316, -0.0762, -0.0359],
+        ...,
+        [-0.0458, -0.0846,  0.0681,  ..., -0.0165, -0.0014,  0.0582],
+        [ 0.0020,  0.0276, -0.0377,  ..., -0.0590, -0.0810, -0.0031],
+        [-0.0969, -0.0146, -0.0103,  ..., -0.0965,  0.0779,  0.0097]],
+       device='cuda:0'), grad: tensor([[-7.4720e-04, -2.6531e-03, -5.1689e-03,  ...,  6.6280e-05,
+         -1.4696e-03, -5.4550e-03],
+        [ 8.1348e-04,  8.9502e-04, -2.3422e-03,  ...,  2.1115e-05,
+         -9.6142e-05, -1.2547e-05],
+        [ 8.0347e-04,  1.0872e-03,  7.5388e-04,  ..., -1.5736e-03,
+          5.3644e-04,  2.2831e-03],
+        ...,
+        [-2.5368e-03, -1.3933e-03, -3.9253e-03,  ..., -9.1434e-05,
+         -5.6534e-03, -4.5052e-03],
+        [ 5.2643e-03,  2.8419e-03,  7.8917e-04,  ...,  8.0109e-05,
+          2.9659e-03,  4.4098e-03],
+        [ 7.8344e-04,  2.6398e-03,  4.5357e-03,  ...,  3.8028e-05,
+          1.1003e-04,  2.2011e-03]], device='cuda:0')
+Epoch 88, bias, value: tensor([ 0.0196, -0.0027,  0.0061,  0.0192, -0.0081, -0.0026,  0.0091,  0.0278,
+        -0.0316,  0.0343], device='cuda:0'), grad: tensor([-0.0494, -0.0034,  0.0159,  0.0427, -0.0093, -0.0122, -0.0107, -0.0032,
+         0.0068,  0.0228], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 87, time 218.37, cls_loss 0.6062 cls_loss_mapping 0.0226 cls_loss_causal 0.5756 re_mapping 0.0121 re_causal 0.0315 /// teacc 98.57 lr 0.00010000
+Epoch 89, weight, value: tensor([[-0.0506,  0.0583, -0.0606,  ..., -0.0706, -0.0437, -0.0143],
+        [-0.0362, -0.0960,  0.0132,  ..., -0.0459, -0.0162, -0.0397],
+        [ 0.0234, -0.0604,  0.0313,  ...,  0.1312, -0.0756, -0.0356],
+        ...,
+        [-0.0453, -0.0849,  0.0682,  ..., -0.0165, -0.0019,  0.0585],
+        [ 0.0022,  0.0276, -0.0366,  ..., -0.0583, -0.0815, -0.0026],
+        [-0.0980, -0.0156, -0.0098,  ..., -0.0973,  0.0788,  0.0094]],
+       device='cuda:0'), grad: tensor([[ 1.0452e-03,  1.0405e-03,  2.2163e-03,  ...,  1.7605e-03,
+          9.6381e-05,  3.5458e-03],
+        [ 1.1644e-03,  1.5144e-03,  1.5080e-04,  ...,  9.1600e-04,
+          1.5020e-04, -3.2082e-03],
+        [ 3.2578e-03,  2.4109e-03,  2.2125e-03,  ...,  1.4038e-03,
+          1.0043e-04,  3.7689e-03],
+        ...,
+        [ 2.8591e-03,  1.5163e-03,  7.2384e-04,  ..., -3.6316e-03,
+          3.4595e-04,  4.0722e-04],
+        [ 4.0340e-04, -1.4524e-03,  2.1076e-04,  ...,  1.2789e-03,
+         -5.9204e-03, -9.3307e-03],
+        [ 4.2763e-03,  6.5804e-03,  4.1695e-03,  ...,  6.7186e-04,
+          7.3471e-03,  1.5572e-02]], device='cuda:0')
+Epoch 89, bias, value: tensor([ 0.0192, -0.0033,  0.0066,  0.0203, -0.0086, -0.0030,  0.0088,  0.0277,
+        -0.0312,  0.0343], device='cuda:0'), grad: tensor([ 0.0190, -0.0142,  0.0236, -0.0778, -0.0082, -0.0243,  0.0280,  0.0089,
+         0.0063,  0.0386], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 88, time 217.87, cls_loss 0.5699 cls_loss_mapping 0.0159 cls_loss_causal 0.5314 re_mapping 0.0125 re_causal 0.0339 /// teacc 98.48 lr 0.00010000
+Epoch 90, weight, value: tensor([[-0.0509,  0.0585, -0.0610,  ..., -0.0713, -0.0438, -0.0137],
+        [-0.0365, -0.0951,  0.0132,  ..., -0.0460, -0.0165, -0.0397],
+        [ 0.0234, -0.0597,  0.0323,  ...,  0.1314, -0.0757, -0.0350],
+        ...,
+        [-0.0466, -0.0850,  0.0681,  ..., -0.0162, -0.0022,  0.0576],
+        [ 0.0014,  0.0265, -0.0364,  ..., -0.0586, -0.0813, -0.0021],
+        [-0.0985, -0.0158, -0.0097,  ..., -0.0979,  0.0792,  0.0093]],
+       device='cuda:0'), grad: tensor([[ 2.7924e-03,  3.4657e-03,  3.3493e-03,  ...,  1.5774e-03,
+          5.8031e-04,  2.4014e-03],
+        [ 4.2844e-04,  1.2188e-03, -4.2114e-03,  ...,  9.8991e-04,
+         -3.0708e-04, -3.0651e-03],
+        [ 1.4372e-03,  2.1286e-03,  3.9711e-03,  ...,  5.5838e-04,
+          1.0157e-03,  3.8128e-03],
+        ...,
+        [ 5.6267e-04,  1.1835e-03,  4.9019e-03,  ...,  2.8038e-04,
+          1.9407e-03,  3.7556e-03],
+        [-7.1373e-03, -8.4763e-03,  2.2089e-04,  ..., -4.6196e-03,
+          7.5054e-04, -1.0356e-05],
+        [ 5.1384e-03,  5.5771e-03,  8.1711e-03,  ..., -7.3290e-04,
+          1.4755e-02,  1.6289e-03]], device='cuda:0')
+Epoch 90, bias, value: tensor([ 0.0191, -0.0034,  0.0070,  0.0192, -0.0086, -0.0024,  0.0089,  0.0274,
+        -0.0311,  0.0349], device='cuda:0'), grad: tensor([ 0.0249, -0.0313,  0.0262, -0.0347,  0.0185, -0.0081, -0.0142,  0.0321,
+        -0.0252,  0.0118], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 89, time 218.39, cls_loss 0.6179 cls_loss_mapping 0.0240 cls_loss_causal 0.5852 re_mapping 0.0111 re_causal 0.0278 /// teacc 98.66 lr 0.00010000
+Epoch 91, weight, value: tensor([[-0.0516,  0.0585, -0.0614,  ..., -0.0715, -0.0455, -0.0130],
+        [-0.0378, -0.0958,  0.0123,  ..., -0.0472, -0.0172, -0.0399],
+        [ 0.0227, -0.0613,  0.0319,  ...,  0.1306, -0.0753, -0.0353],
+        ...,
+        [-0.0477, -0.0858,  0.0689,  ..., -0.0157, -0.0027,  0.0581],
+        [ 0.0027,  0.0271, -0.0369,  ..., -0.0582, -0.0820, -0.0023],
+        [-0.0982, -0.0155, -0.0100,  ..., -0.0982,  0.0788,  0.0083]],
+       device='cuda:0'), grad: tensor([[ 0.0022,  0.0032,  0.0009,  ...,  0.0002,  0.0003,  0.0011],
+        [-0.0017, -0.0032,  0.0002,  ...,  0.0002,  0.0011, -0.0037],
+        [-0.0008, -0.0022, -0.0025,  ..., -0.0020,  0.0002, -0.0014],
+        ...,
+        [-0.0002, -0.0012, -0.0062,  ...,  0.0002, -0.0011, -0.0044],
+        [ 0.0043,  0.0071,  0.0018,  ...,  0.0004,  0.0005,  0.0016],
+        [ 0.0005, -0.0002,  0.0003,  ...,  0.0017, -0.0022,  0.0012]],
+       device='cuda:0')
+Epoch 91, bias, value: tensor([ 0.0191, -0.0036,  0.0059,  0.0197, -0.0078, -0.0019,  0.0084,  0.0274,
+        -0.0313,  0.0350], device='cuda:0'), grad: tensor([ 0.0135, -0.0126, -0.0254,  0.0066,  0.0076,  0.0066,  0.0107, -0.0440,
+         0.0241,  0.0129], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 90, time 218.37, cls_loss 0.6074 cls_loss_mapping 0.0247 cls_loss_causal 0.5776 re_mapping 0.0112 re_causal 0.0298 /// teacc 98.50 lr 0.00010000
+Epoch 92, weight, value: tensor([[-0.0521,  0.0584, -0.0617,  ..., -0.0708, -0.0463, -0.0134],
+        [-0.0376, -0.0964,  0.0119,  ..., -0.0463, -0.0173, -0.0404],
+        [ 0.0231, -0.0614,  0.0324,  ...,  0.1306, -0.0750, -0.0343],
+        ...,
+        [-0.0484, -0.0857,  0.0694,  ..., -0.0151, -0.0026,  0.0585],
+        [ 0.0025,  0.0270, -0.0365,  ..., -0.0577, -0.0830, -0.0026],
+        [-0.0993, -0.0157, -0.0099,  ..., -0.1001,  0.0796,  0.0081]],
+       device='cuda:0'), grad: tensor([[ 2.7394e-04,  1.0223e-03,  1.4887e-03,  ...,  2.7919e-04,
+          3.3879e-04,  1.6489e-03],
+        [ 7.9632e-04, -2.9316e-03, -3.3498e-04,  ...,  1.9550e-03,
+         -1.3418e-03, -2.9812e-03],
+        [-6.0987e-04,  2.6155e-04, -2.3994e-03,  ..., -5.3864e-03,
+         -9.9945e-04, -3.2845e-03],
+        ...,
+        [ 6.2609e-04,  1.8969e-03,  8.8120e-03,  ...,  4.4060e-03,
+          1.5354e-03,  5.0926e-03],
+        [-3.0479e-03, -1.3672e-02, -3.7861e-03,  ..., -8.7452e-04,
+         -6.0797e-05, -2.0084e-03],
+        [ 4.8590e-04,  1.2054e-03, -6.3896e-03,  ..., -5.1460e-03,
+          2.8954e-03, -1.9580e-05]], device='cuda:0')
+Epoch 92, bias, value: tensor([ 0.0184, -0.0036,  0.0068,  0.0187, -0.0082, -0.0012,  0.0090,  0.0272,
+        -0.0313,  0.0353], device='cuda:0'), grad: tensor([ 0.0197, -0.0453, -0.0133,  0.0100, -0.0066,  0.0420,  0.0077,  0.0475,
+        -0.0596, -0.0020], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 91, time 217.84, cls_loss 0.6034 cls_loss_mapping 0.0231 cls_loss_causal 0.5750 re_mapping 0.0115 re_causal 0.0306 /// teacc 98.39 lr 0.00010000
+Epoch 93, weight, value: tensor([[-0.0521,  0.0585, -0.0617,  ..., -0.0716, -0.0467, -0.0131],
+        [-0.0372, -0.0971,  0.0120,  ..., -0.0445, -0.0160, -0.0408],
+        [ 0.0232, -0.0619,  0.0323,  ...,  0.1306, -0.0744, -0.0337],
+        ...,
+        [-0.0495, -0.0862,  0.0696,  ..., -0.0144, -0.0032,  0.0576],
+        [ 0.0036,  0.0278, -0.0359,  ..., -0.0585, -0.0838, -0.0019],
+        [-0.1012, -0.0160, -0.0092,  ..., -0.0999,  0.0799,  0.0089]],
+       device='cuda:0'), grad: tensor([[ 9.7322e-04,  1.2383e-02,  1.5974e-03,  ...,  3.6526e-04,
+          5.0157e-05,  8.0185e-03],
+        [ 5.0449e-04,  1.1053e-03,  1.2493e-03,  ...,  2.8968e-04,
+          1.0774e-05,  1.2159e-03],
+        [ 1.2695e-02,  5.4626e-03,  6.4354e-03,  ...,  7.0343e-03,
+          7.0274e-05,  9.1743e-04],
+        ...,
+        [-6.8855e-03, -3.0575e-03, -2.0187e-02,  ..., -4.8065e-03,
+          5.9795e-04, -2.5177e-03],
+        [-3.7174e-03, -7.2937e-03, -7.4196e-04,  ..., -2.8038e-03,
+          1.0481e-03, -3.8700e-03],
+        [ 3.3302e-03,  3.5076e-03, -1.1854e-03,  ...,  5.7793e-04,
+          4.1056e-04,  3.7823e-03]], device='cuda:0')
+Epoch 93, bias, value: tensor([ 0.0184, -0.0036,  0.0071,  0.0187, -0.0085, -0.0022,  0.0088,  0.0263,
+        -0.0293,  0.0351], device='cuda:0'), grad: tensor([ 0.0342,  0.0137,  0.0244,  0.0201,  0.0109, -0.0130, -0.0101, -0.0804,
+         0.0035, -0.0032], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 92, time 217.99, cls_loss 0.6269 cls_loss_mapping 0.0210 cls_loss_causal 0.5941 re_mapping 0.0131 re_causal 0.0340 /// teacc 98.59 lr 0.00010000
+Epoch 94, weight, value: tensor([[-0.0510,  0.0591, -0.0616,  ..., -0.0719, -0.0470, -0.0129],
+        [-0.0380, -0.0981,  0.0117,  ..., -0.0456, -0.0160, -0.0419],
+        [ 0.0215, -0.0628,  0.0334,  ...,  0.1312, -0.0747, -0.0342],
+        ...,
+        [-0.0500, -0.0871,  0.0700,  ..., -0.0150, -0.0032,  0.0580],
+        [ 0.0040,  0.0277, -0.0360,  ..., -0.0588, -0.0834, -0.0030],
+        [-0.1012, -0.0172, -0.0098,  ..., -0.0996,  0.0801,  0.0098]],
+       device='cuda:0'), grad: tensor([[ 7.7200e-04, -3.9520e-03,  9.6738e-05,  ..., -9.6411e-06,
+          2.6011e-04, -3.5458e-03],
+        [ 4.4250e-04,  2.7046e-03, -2.2221e-04,  ...,  1.4268e-06,
+          7.5579e-04,  2.3537e-03],
+        [ 1.1654e-03,  2.1820e-03,  5.7507e-04,  ..., -1.1660e-05,
+          1.9598e-04,  2.6474e-03],
+        ...,
+        [ 7.8583e-04, -3.6144e-03, -1.5378e-04,  ...,  3.3733e-06,
+         -3.7253e-05, -2.4910e-03],
+        [ 9.2173e-04, -2.5058e-04,  1.6022e-04,  ...,  3.5614e-06,
+          2.9540e-04,  7.4148e-04],
+        [ 1.1396e-03,  2.6512e-03,  8.2397e-04,  ...,  7.5102e-06,
+          4.7421e-04,  4.0741e-03]], device='cuda:0')
+Epoch 94, bias, value: tensor([ 0.0186, -0.0042,  0.0065,  0.0196, -0.0078, -0.0014,  0.0078,  0.0264,
+        -0.0297,  0.0352], device='cuda:0'), grad: tensor([-0.0229,  0.0036,  0.0215, -0.0137, -0.0076, -0.0090,  0.0301, -0.0323,
+         0.0002,  0.0302], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 93, time 218.55, cls_loss 0.5965 cls_loss_mapping 0.0220 cls_loss_causal 0.5625 re_mapping 0.0112 re_causal 0.0280 /// teacc 98.52 lr 0.00010000
+Epoch 95, weight, value: tensor([[-0.0518,  0.0591, -0.0617,  ..., -0.0731, -0.0458, -0.0125],
+        [-0.0370, -0.0976,  0.0114,  ..., -0.0455, -0.0173, -0.0430],
+        [ 0.0217, -0.0630,  0.0336,  ...,  0.1314, -0.0745, -0.0345],
+        ...,
+        [-0.0510, -0.0878,  0.0696,  ..., -0.0160, -0.0031,  0.0573],
+        [ 0.0044,  0.0276, -0.0365,  ..., -0.0588, -0.0839, -0.0030],
+        [-0.1019, -0.0168, -0.0094,  ..., -0.1000,  0.0802,  0.0111]],
+       device='cuda:0'), grad: tensor([[ 5.8746e-04,  2.1458e-03,  1.2760e-03,  ...,  4.6635e-04,
+          1.7428e-04,  1.7309e-03],
+        [-2.6393e-04, -2.9106e-03, -9.8991e-04,  ...,  9.3412e-04,
+          7.2718e-05, -7.4272e-03],
+        [ 1.8940e-03,  2.4681e-03,  3.0861e-03,  ...,  3.3531e-03,
+          1.0090e-03,  7.2327e-03],
+        ...,
+        [ 2.8706e-04, -1.8082e-03, -3.9635e-03,  ..., -9.4652e-04,
+          3.5214e-04,  2.0657e-03],
+        [-2.4014e-03,  8.6689e-04,  1.2856e-03,  ..., -9.4748e-04,
+          2.7204e-04, -9.8648e-03],
+        [ 1.7214e-03,  7.1259e-03,  8.9216e-04,  ...,  9.4366e-04,
+          7.0858e-04,  3.2921e-03]], device='cuda:0')
+Epoch 95, bias, value: tensor([ 0.0189, -0.0045,  0.0063,  0.0197, -0.0076, -0.0015,  0.0069,  0.0261,
+        -0.0293,  0.0358], device='cuda:0'), grad: tensor([ 0.0154, -0.0405,  0.0322, -0.0339, -0.0067,  0.0135,  0.0155, -0.0059,
+        -0.0208,  0.0312], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 94----------------------------------------------------
+epoch 94, time 218.48, cls_loss 0.6129 cls_loss_mapping 0.0261 cls_loss_causal 0.5824 re_mapping 0.0107 re_causal 0.0273 /// teacc 98.68 lr 0.00010000
+Epoch 96, weight, value: tensor([[-0.0527,  0.0586, -0.0617,  ..., -0.0730, -0.0466, -0.0121],
+        [-0.0373, -0.0981,  0.0121,  ..., -0.0456, -0.0178, -0.0424],
+        [ 0.0225, -0.0624,  0.0339,  ...,  0.1318, -0.0747, -0.0352],
+        ...,
+        [-0.0511, -0.0879,  0.0697,  ..., -0.0159, -0.0032,  0.0577],
+        [ 0.0050,  0.0282, -0.0362,  ..., -0.0571, -0.0851, -0.0026],
+        [-0.1013, -0.0163, -0.0095,  ..., -0.1014,  0.0809,  0.0112]],
+       device='cuda:0'), grad: tensor([[ 3.0923e-04, -1.3704e-03,  1.8044e-03,  ..., -2.5959e-03,
+          1.0090e-03,  2.4395e-03],
+        [ 3.9101e-04,  2.5253e-03, -1.5998e-04,  ...,  2.7585e-04,
+          1.3695e-03,  5.5504e-04],
+        [ 5.5923e-03,  7.0534e-03, -8.1177e-03,  ...,  5.5428e-03,
+          7.5102e-04,  2.7866e-03],
+        ...,
+        [-7.4482e-04,  1.6193e-03, -4.8494e-04,  ..., -1.1301e-03,
+          6.5422e-04,  4.0054e-05],
+        [ 9.0790e-04,  2.7943e-03,  2.9144e-03,  ...,  9.5081e-04,
+         -1.5187e-04,  2.6093e-03],
+        [ 9.7084e-04, -7.1669e-04, -2.0647e-04,  ...,  9.2447e-05,
+         -5.1737e-05, -3.0651e-03]], device='cuda:0')
+Epoch 96, bias, value: tensor([ 0.0192, -0.0039,  0.0064,  0.0194, -0.0083, -0.0022,  0.0063,  0.0266,
+        -0.0294,  0.0367], device='cuda:0'), grad: tensor([-0.0108,  0.0132,  0.0043, -0.0146,  0.0024, -0.0416,  0.0088,  0.0126,
+         0.0235,  0.0023], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 95, time 217.81, cls_loss 0.5925 cls_loss_mapping 0.0203 cls_loss_causal 0.5648 re_mapping 0.0115 re_causal 0.0295 /// teacc 98.66 lr 0.00010000
+Epoch 97, weight, value: tensor([[-0.0529,  0.0589, -0.0623,  ..., -0.0729, -0.0457, -0.0112],
+        [-0.0377, -0.0981,  0.0128,  ..., -0.0457, -0.0193, -0.0429],
+        [ 0.0227, -0.0623,  0.0346,  ...,  0.1330, -0.0746, -0.0357],
+        ...,
+        [-0.0513, -0.0880,  0.0687,  ..., -0.0167, -0.0044,  0.0573],
+        [ 0.0044,  0.0280, -0.0363,  ..., -0.0577, -0.0841, -0.0022],
+        [-0.1018, -0.0163, -0.0088,  ..., -0.1024,  0.0808,  0.0116]],
+       device='cuda:0'), grad: tensor([[-1.4999e-02, -2.7008e-03,  3.7789e-04,  ..., -9.5520e-03,
+          1.0405e-03,  2.4128e-03],
+        [ 3.0303e-04,  1.0128e-03, -5.6076e-03,  ...,  4.3988e-04,
+         -1.0345e-02, -4.8294e-03],
+        [ 1.1505e-02,  3.0589e-04, -6.2943e-03,  ...,  6.0883e-03,
+         -6.9122e-03, -7.8583e-03],
+        ...,
+        [ 8.8513e-05, -1.2255e-03, -2.5988e-04,  ...,  1.2255e-03,
+          3.2902e-03, -6.4993e-04],
+        [ 1.0710e-03,  1.4648e-03,  1.9445e-03,  ...,  1.0853e-03,
+          2.4776e-03,  2.5501e-03],
+        [ 2.6894e-04,  3.1986e-03,  1.0424e-03,  ..., -5.9929e-03,
+          5.2414e-03,  5.3062e-03]], device='cuda:0')
+Epoch 97, bias, value: tensor([ 0.0191, -0.0038,  0.0065,  0.0184, -0.0089, -0.0022,  0.0068,  0.0267,
+        -0.0290,  0.0371], device='cuda:0'), grad: tensor([-0.0201,  0.0007, -0.0297,  0.0086,  0.0234, -0.0469,  0.0126, -0.0121,
+         0.0214,  0.0421], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 96, time 218.38, cls_loss 0.6149 cls_loss_mapping 0.0260 cls_loss_causal 0.5832 re_mapping 0.0117 re_causal 0.0283 /// teacc 98.45 lr 0.00010000
+Epoch 98, weight, value: tensor([[-0.0525,  0.0595, -0.0624,  ..., -0.0731, -0.0454, -0.0111],
+        [-0.0389, -0.0982,  0.0128,  ..., -0.0459, -0.0195, -0.0441],
+        [ 0.0227, -0.0623,  0.0347,  ...,  0.1328, -0.0747, -0.0359],
+        ...,
+        [-0.0519, -0.0879,  0.0690,  ..., -0.0175, -0.0055,  0.0580],
+        [ 0.0055,  0.0282, -0.0374,  ..., -0.0584, -0.0845, -0.0034],
+        [-0.1033, -0.0178, -0.0087,  ..., -0.1021,  0.0810,  0.0122]],
+       device='cuda:0'), grad: tensor([[ 3.7060e-03,  4.5204e-03,  4.6372e-04,  ...,  4.5204e-04,
+          4.0722e-04,  3.4618e-03],
+        [ 7.3481e-04, -4.0746e-04, -5.3120e-04,  ...,  3.1495e-04,
+          3.6263e-04, -4.0054e-04],
+        [ 2.0294e-03,  2.5845e-03,  5.6219e-04,  ..., -1.2093e-03,
+          2.2638e-04,  2.2945e-03],
+        ...,
+        [ 6.9904e-04,  1.8139e-03, -4.2915e-06,  ..., -2.7871e-04,
+          3.3903e-04,  1.6947e-03],
+        [-5.5820e-05, -8.5068e-04,  2.4796e-03,  ...,  1.5945e-03,
+         -2.0256e-03,  7.9203e-04],
+        [ 1.6670e-03,  1.3351e-04,  1.2388e-03,  ...,  7.1430e-04,
+          1.9016e-03,  9.5415e-04]], device='cuda:0')
+Epoch 98, bias, value: tensor([ 0.0192, -0.0041,  0.0060,  0.0189, -0.0083, -0.0030,  0.0072,  0.0274,
+        -0.0297,  0.0372], device='cuda:0'), grad: tensor([ 0.0066, -0.0078,  0.0173, -0.0053, -0.0356, -0.0046, -0.0253,  0.0149,
+         0.0183,  0.0213], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 97, time 218.12, cls_loss 0.6057 cls_loss_mapping 0.0195 cls_loss_causal 0.5707 re_mapping 0.0117 re_causal 0.0292 /// teacc 98.62 lr 0.00010000
+Epoch 99, weight, value: tensor([[-0.0530,  0.0588, -0.0628,  ..., -0.0741, -0.0460, -0.0108],
+        [-0.0393, -0.0988,  0.0122,  ..., -0.0457, -0.0192, -0.0451],
+        [ 0.0241, -0.0618,  0.0355,  ...,  0.1337, -0.0739, -0.0361],
+        ...,
+        [-0.0508, -0.0873,  0.0691,  ..., -0.0179, -0.0061,  0.0581],
+        [ 0.0045,  0.0281, -0.0369,  ..., -0.0593, -0.0841, -0.0024],
+        [-0.1025, -0.0164, -0.0089,  ..., -0.1026,  0.0818,  0.0123]],
+       device='cuda:0'), grad: tensor([[ 2.2869e-03,  5.3902e-03,  1.6651e-03,  ...,  1.5211e-04,
+          6.4731e-05,  3.0518e-03],
+        [ 3.8290e-04, -2.2640e-03, -2.5578e-03,  ...,  7.8976e-05,
+          5.0217e-05, -3.2539e-03],
+        [ 1.5192e-03,  4.0245e-03,  1.3332e-03,  ..., -1.1272e-03,
+          1.4937e-04,  2.8534e-03],
+        ...,
+        [ 6.0844e-04,  1.9312e-03,  2.3499e-03,  ...,  3.2091e-04,
+          1.3113e-03,  2.2144e-03],
+        [ 2.3975e-03,  5.4054e-03,  1.1911e-03,  ...,  2.7442e-04,
+          2.6226e-03,  1.6861e-03],
+        [ 6.6423e-04,  1.8234e-03, -5.7459e-04,  ..., -1.3900e-04,
+         -1.6603e-03,  1.5240e-03]], device='cuda:0')
+Epoch 99, bias, value: tensor([ 0.0191, -0.0041,  0.0056,  0.0188, -0.0091, -0.0029,  0.0075,  0.0287,
+        -0.0295,  0.0366], device='cuda:0'), grad: tensor([ 0.0365, -0.0410,  0.0279, -0.0593, -0.0455,  0.0004,  0.0183,  0.0241,
+         0.0262,  0.0124], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 98, time 218.07, cls_loss 0.6235 cls_loss_mapping 0.0199 cls_loss_causal 0.5912 re_mapping 0.0114 re_causal 0.0286 /// teacc 98.50 lr 0.00010000
+Epoch 100, weight, value: tensor([[-0.0544,  0.0585, -0.0619,  ..., -0.0749, -0.0461, -0.0104],
+        [-0.0394, -0.0991,  0.0117,  ..., -0.0442, -0.0189, -0.0459],
+        [ 0.0243, -0.0625,  0.0356,  ...,  0.1336, -0.0753, -0.0367],
+        ...,
+        [-0.0505, -0.0874,  0.0693,  ..., -0.0179, -0.0056,  0.0584],
+        [ 0.0040,  0.0283, -0.0365,  ..., -0.0599, -0.0843, -0.0016],
+        [-0.1028, -0.0162, -0.0098,  ..., -0.1034,  0.0816,  0.0122]],
+       device='cuda:0'), grad: tensor([[ 0.0004, -0.0002,  0.0010,  ...,  0.0004,  0.0003, -0.0024],
+        [-0.0016, -0.0019,  0.0005,  ..., -0.0003,  0.0009,  0.0005],
+        [-0.0038, -0.0020, -0.0026,  ..., -0.0051,  0.0003,  0.0018],
+        ...,
+        [ 0.0006,  0.0010, -0.0024,  ...,  0.0009,  0.0012, -0.0019],
+        [ 0.0013,  0.0025,  0.0011,  ...,  0.0005,  0.0006,  0.0022],
+        [ 0.0004, -0.0026, -0.0022,  ..., -0.0007, -0.0058, -0.0092]],
+       device='cuda:0')
+Epoch 100, bias, value: tensor([ 0.0194, -0.0045,  0.0049,  0.0188, -0.0092, -0.0027,  0.0076,  0.0289,
+        -0.0293,  0.0369], device='cuda:0'), grad: tensor([-0.0143, -0.0353,  0.0056,  0.0188,  0.0213,  0.0224,  0.0177,  0.0026,
+         0.0198, -0.0587], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 99, time 218.38, cls_loss 0.5585 cls_loss_mapping 0.0209 cls_loss_causal 0.5284 re_mapping 0.0118 re_causal 0.0297 /// teacc 98.63 lr 0.00010000
+Epoch 101, weight, value: tensor([[-0.0567,  0.0580, -0.0621,  ..., -0.0759, -0.0471, -0.0105],
+        [-0.0395, -0.0992,  0.0117,  ..., -0.0447, -0.0195, -0.0468],
+        [ 0.0227, -0.0632,  0.0354,  ...,  0.1348, -0.0763, -0.0365],
+        ...,
+        [-0.0499, -0.0881,  0.0697,  ..., -0.0189, -0.0057,  0.0587],
+        [ 0.0052,  0.0285, -0.0366,  ..., -0.0591, -0.0844, -0.0015],
+        [-0.1038, -0.0169, -0.0094,  ..., -0.1036,  0.0820,  0.0117]],
+       device='cuda:0'), grad: tensor([[ 8.0585e-04, -4.8027e-03,  5.4646e-04,  ...,  1.5938e-04,
+          1.2932e-03,  2.1973e-03],
+        [ 8.6117e-04,  1.5087e-03,  1.6298e-03,  ...,  3.6389e-05,
+          1.0080e-03,  1.6174e-03],
+        [-8.7738e-03, -2.9011e-03,  7.2765e-04,  ...,  4.5627e-05,
+          6.8903e-04,  1.2674e-03],
+        ...,
+        [ 4.1962e-03,  3.3360e-03, -5.3825e-03,  ...,  1.0973e-04,
+         -6.8521e-04,  6.4898e-04],
+        [ 6.6452e-03,  5.0774e-03,  1.3952e-03,  ...,  1.3924e-04,
+          2.8572e-03,  2.6131e-03],
+        [ 5.7507e-04, -5.5695e-03, -9.4986e-04,  ..., -3.2616e-03,
+         -8.1177e-03, -7.4654e-03]], device='cuda:0')
+Epoch 101, bias, value: tensor([ 0.0191, -0.0042,  0.0047,  0.0192, -0.0093, -0.0030,  0.0077,  0.0287,
+        -0.0290,  0.0367], device='cuda:0'), grad: tensor([ 0.0040,  0.0145, -0.0081, -0.0229,  0.0335, -0.0215,  0.0200, -0.0082,
+         0.0295, -0.0408], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 100, time 218.04, cls_loss 0.5476 cls_loss_mapping 0.0168 cls_loss_causal 0.5120 re_mapping 0.0119 re_causal 0.0313 /// teacc 98.43 lr 0.00010000
+Epoch 102, weight, value: tensor([[-0.0577,  0.0576, -0.0629,  ..., -0.0759, -0.0466, -0.0099],
+        [-0.0398, -0.0993,  0.0110,  ..., -0.0460, -0.0189, -0.0468],
+        [ 0.0240, -0.0619,  0.0354,  ...,  0.1358, -0.0764, -0.0373],
+        ...,
+        [-0.0515, -0.0894,  0.0700,  ..., -0.0196, -0.0059,  0.0584],
+        [ 0.0063,  0.0296, -0.0367,  ..., -0.0600, -0.0855, -0.0026],
+        [-0.1031, -0.0159, -0.0095,  ..., -0.1044,  0.0816,  0.0120]],
+       device='cuda:0'), grad: tensor([[ 2.9778e-04, -9.1696e-04,  4.5466e-04,  ..., -2.1782e-03,
+          1.1492e-03,  1.9951e-03],
+        [ 5.0783e-04,  8.2874e-04,  7.6962e-04,  ...,  1.3638e-04,
+          6.9094e-04,  1.4753e-03],
+        [-2.5511e-04,  1.4963e-03, -5.7459e-04,  ..., -6.0081e-04,
+         -1.2140e-03, -8.6498e-04],
+        ...,
+        [-2.1350e-04, -3.8481e-04, -4.3945e-03,  ..., -3.2559e-06,
+          1.1272e-03, -5.0583e-03],
+        [ 2.7466e-03,  3.8681e-03,  1.3027e-03,  ...,  1.0090e-03,
+          9.0742e-04,  3.8700e-03],
+        [-5.2309e-04,  1.8415e-03,  7.0989e-05,  ...,  5.4598e-04,
+         -1.5345e-03, -4.7350e-04]], device='cuda:0')
+Epoch 102, bias, value: tensor([ 0.0190, -0.0045,  0.0048,  0.0186, -0.0085, -0.0026,  0.0076,  0.0280,
+        -0.0291,  0.0376], device='cuda:0'), grad: tensor([ 0.0065, -0.0098, -0.0126,  0.0015, -0.0029, -0.0105,  0.0170, -0.0256,
+         0.0253,  0.0111], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 101, time 218.30, cls_loss 0.5738 cls_loss_mapping 0.0209 cls_loss_causal 0.5383 re_mapping 0.0120 re_causal 0.0296 /// teacc 98.54 lr 0.00010000
+Epoch 103, weight, value: tensor([[-0.0585,  0.0578, -0.0622,  ..., -0.0747, -0.0454, -0.0101],
+        [-0.0397, -0.0999,  0.0119,  ..., -0.0457, -0.0187, -0.0467],
+        [ 0.0252, -0.0613,  0.0355,  ...,  0.1367, -0.0768, -0.0380],
+        ...,
+        [-0.0527, -0.0900,  0.0706,  ..., -0.0195, -0.0053,  0.0596],
+        [ 0.0064,  0.0298, -0.0369,  ..., -0.0610, -0.0858, -0.0029],
+        [-0.1032, -0.0159, -0.0102,  ..., -0.1056,  0.0810,  0.0112]],
+       device='cuda:0'), grad: tensor([[-3.4094e-04, -5.4073e-04,  1.4477e-03,  ...,  4.0340e-04,
+          2.1815e-04,  6.3801e-04],
+        [ 5.2357e-04, -1.2140e-03,  3.4790e-03,  ...,  1.0162e-02,
+          1.5855e-04,  8.2874e-04],
+        [-1.0239e-02, -2.7523e-03, -7.8678e-04,  ..., -9.7752e-04,
+         -1.9872e-04, -5.8174e-03],
+        ...,
+        [-7.9036e-05, -1.6508e-03, -3.7365e-03,  ...,  9.0313e-04,
+         -6.0043e-03, -3.7708e-03],
+        [ 4.1389e-03,  2.1420e-03,  1.4029e-03,  ...,  2.1100e-04,
+          3.9148e-04,  3.1090e-03],
+        [ 3.3402e-04, -2.0046e-03, -5.5504e-04,  ...,  5.0068e-04,
+         -6.6795e-03, -5.3177e-03]], device='cuda:0')
+Epoch 103, bias, value: tensor([ 0.0190, -0.0045,  0.0048,  0.0193, -0.0083, -0.0037,  0.0078,  0.0277,
+        -0.0293,  0.0379], device='cuda:0'), grad: tensor([ 0.0123,  0.0166, -0.0462, -0.0416,  0.0420,  0.0144, -0.0131, -0.0137,
+         0.0231,  0.0062], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 102, time 218.59, cls_loss 0.6020 cls_loss_mapping 0.0199 cls_loss_causal 0.5659 re_mapping 0.0114 re_causal 0.0283 /// teacc 98.67 lr 0.00010000
+Epoch 104, weight, value: tensor([[-0.0588,  0.0578, -0.0627,  ..., -0.0761, -0.0464, -0.0097],
+        [-0.0386, -0.0989,  0.0119,  ..., -0.0452, -0.0185, -0.0453],
+        [ 0.0248, -0.0618,  0.0359,  ...,  0.1369, -0.0774, -0.0389],
+        ...,
+        [-0.0536, -0.0910,  0.0708,  ..., -0.0202, -0.0063,  0.0587],
+        [ 0.0071,  0.0297, -0.0365,  ..., -0.0617, -0.0855, -0.0019],
+        [-0.1050, -0.0155, -0.0102,  ..., -0.1046,  0.0820,  0.0110]],
+       device='cuda:0'), grad: tensor([[ 3.9876e-05, -8.9169e-04, -1.1673e-02,  ..., -5.3520e-03,
+         -1.0414e-03,  2.1400e-03],
+        [ 1.6804e-03,  1.8425e-03,  5.9776e-03,  ...,  4.4632e-03,
+          1.4582e-03,  5.7564e-03],
+        [-7.3128e-03, -3.2406e-03, -7.0839e-03,  ..., -8.7309e-04,
+          4.2707e-05, -5.3558e-03],
+        ...,
+        [ 2.9564e-03,  2.2888e-03,  8.4925e-04,  ...,  3.2449e-04,
+          1.4992e-03,  2.6441e-04],
+        [-3.7060e-03, -4.6463e-03, -4.1389e-03,  ..., -9.4995e-06,
+         -4.3755e-03, -9.6588e-03],
+        [ 1.2569e-03, -3.7556e-03, -1.5659e-03,  ...,  2.6965e-04,
+         -1.1047e-02, -2.3972e-02]], device='cuda:0')
+Epoch 104, bias, value: tensor([ 0.0189, -0.0028,  0.0047,  0.0188, -0.0086, -0.0041,  0.0076,  0.0273,
+        -0.0289,  0.0376], device='cuda:0'), grad: tensor([-0.0408,  0.0460, -0.0248, -0.0080,  0.0840,  0.0205,  0.0031,  0.0033,
+        -0.0398, -0.0434], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 103, time 219.07, cls_loss 0.5724 cls_loss_mapping 0.0200 cls_loss_causal 0.5468 re_mapping 0.0111 re_causal 0.0281 /// teacc 98.61 lr 0.00010000
+Epoch 105, weight, value: tensor([[-0.0591,  0.0581, -0.0631,  ..., -0.0772, -0.0474, -0.0111],
+        [-0.0391, -0.0985,  0.0122,  ..., -0.0455, -0.0195, -0.0469],
+        [ 0.0254, -0.0625,  0.0361,  ...,  0.1364, -0.0769, -0.0386],
+        ...,
+        [-0.0542, -0.0918,  0.0708,  ..., -0.0198, -0.0069,  0.0583],
+        [ 0.0069,  0.0294, -0.0366,  ..., -0.0620, -0.0862, -0.0019],
+        [-0.1068, -0.0162, -0.0097,  ..., -0.1056,  0.0830,  0.0116]],
+       device='cuda:0'), grad: tensor([[ 0.0005, -0.0004, -0.0046,  ...,  0.0004,  0.0004, -0.0047],
+        [-0.0016, -0.0046, -0.0049,  ...,  0.0008, -0.0018, -0.0173],
+        [ 0.0010,  0.0010,  0.0033,  ...,  0.0008,  0.0009,  0.0056],
+        ...,
+        [ 0.0011,  0.0022,  0.0012,  ...,  0.0012,  0.0020,  0.0091],
+        [ 0.0010,  0.0018,  0.0001,  ..., -0.0005, -0.0018, -0.0028],
+        [ 0.0018,  0.0022,  0.0053,  ...,  0.0010,  0.0030,  0.0112]],
+       device='cuda:0')
+Epoch 105, bias, value: tensor([ 0.0188, -0.0035,  0.0046,  0.0193, -0.0087, -0.0036,  0.0079,  0.0272,
+        -0.0288,  0.0376], device='cuda:0'), grad: tensor([-0.0170, -0.0350,  0.0280,  0.0217,  0.0290, -0.0024, -0.0726,  0.0224,
+         0.0084,  0.0174], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 104, time 219.98, cls_loss 0.5892 cls_loss_mapping 0.0172 cls_loss_causal 0.5507 re_mapping 0.0113 re_causal 0.0270 /// teacc 98.56 lr 0.00010000
+Epoch 106, weight, value: tensor([[-0.0595,  0.0580, -0.0638,  ..., -0.0779, -0.0482, -0.0107],
+        [-0.0384, -0.0985,  0.0115,  ..., -0.0460, -0.0198, -0.0471],
+        [ 0.0260, -0.0616,  0.0365,  ...,  0.1366, -0.0770, -0.0382],
+        ...,
+        [-0.0541, -0.0911,  0.0717,  ..., -0.0183, -0.0064,  0.0589],
+        [ 0.0071,  0.0295, -0.0359,  ..., -0.0631, -0.0855, -0.0017],
+        [-0.1069, -0.0162, -0.0103,  ..., -0.1068,  0.0829,  0.0104]],
+       device='cuda:0'), grad: tensor([[ 1.1749e-03, -5.6028e-04,  1.8930e-04,  ...,  5.0664e-06,
+          2.4676e-04,  7.3290e-04],
+        [ 7.3624e-04,  1.1921e-03,  2.6817e-03,  ...,  1.4055e-04,
+          1.3790e-03,  6.1951e-03],
+        [-1.7297e-04,  1.3244e-04, -1.9150e-03,  ...,  8.8811e-05,
+         -3.3915e-05, -3.4847e-03],
+        ...,
+        [ 3.1776e-03,  8.5211e-04, -5.3520e-03,  ..., -4.6432e-05,
+         -4.5891e-03, -8.8348e-03],
+        [ 7.8964e-04,  1.2894e-03,  1.7939e-03,  ...,  5.1558e-05,
+          1.0900e-03,  3.9062e-03],
+        [ 5.3549e-04,  5.9605e-04,  2.4796e-03,  ...,  1.9360e-04,
+         -1.5001e-03, -4.5204e-03]], device='cuda:0')
+Epoch 106, bias, value: tensor([ 0.0184, -0.0037,  0.0052,  0.0191, -0.0093, -0.0037,  0.0078,  0.0284,
+        -0.0287,  0.0371], device='cuda:0'), grad: tensor([ 0.0062,  0.0338, -0.0129, -0.0233,  0.0407,  0.0177, -0.0494, -0.0209,
+         0.0217, -0.0137], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 105----------------------------------------------------
+epoch 105, time 219.74, cls_loss 0.6047 cls_loss_mapping 0.0194 cls_loss_causal 0.5775 re_mapping 0.0107 re_causal 0.0276 /// teacc 98.74 lr 0.00010000
+Epoch 107, weight, value: tensor([[-0.0592,  0.0583, -0.0634,  ..., -0.0765, -0.0482, -0.0099],
+        [-0.0384, -0.0992,  0.0124,  ..., -0.0457, -0.0195, -0.0467],
+        [ 0.0259, -0.0621,  0.0368,  ...,  0.1369, -0.0784, -0.0385],
+        ...,
+        [-0.0545, -0.0917,  0.0708,  ..., -0.0178, -0.0068,  0.0584],
+        [ 0.0070,  0.0295, -0.0359,  ..., -0.0631, -0.0855, -0.0017],
+        [-0.1087, -0.0171, -0.0100,  ..., -0.1074,  0.0828,  0.0102]],
+       device='cuda:0'), grad: tensor([[ 1.5650e-03, -9.0551e-04,  2.9993e-04,  ...,  1.1230e-04,
+          2.0981e-04,  1.1616e-03],
+        [-2.3067e-04,  1.9705e-04,  2.2948e-04,  ..., -6.6328e-04,
+         -1.6565e-03, -1.6537e-03],
+        [ 1.5764e-03,  4.5300e-04, -1.7824e-03,  ..., -3.7432e-04,
+          3.7122e-04,  2.7370e-03],
+        ...,
+        [ 1.1396e-03,  6.3038e-04,  1.4868e-03,  ...,  2.3639e-04,
+          1.0147e-03,  2.1610e-03],
+        [-4.4847e-04,  3.2745e-06,  1.1644e-03,  ...,  1.7929e-04,
+          4.3750e-04,  2.1439e-03],
+        [ 1.1101e-03, -9.6083e-04, -7.6008e-04,  ...,  1.9646e-04,
+         -2.2488e-03, -1.6441e-03]], device='cuda:0')
+Epoch 107, bias, value: tensor([ 0.0188, -0.0037,  0.0051,  0.0191, -0.0091, -0.0034,  0.0077,  0.0275,
+        -0.0285,  0.0372], device='cuda:0'), grad: tensor([ 0.0193, -0.0184,  0.0019,  0.0154,  0.0178, -0.0197, -0.0662,  0.0234,
+         0.0195,  0.0069], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 106, time 219.57, cls_loss 0.5996 cls_loss_mapping 0.0167 cls_loss_causal 0.5687 re_mapping 0.0114 re_causal 0.0289 /// teacc 98.68 lr 0.00010000
+Epoch 108, weight, value: tensor([[-0.0598,  0.0583, -0.0641,  ..., -0.0785, -0.0489, -0.0104],
+        [-0.0394, -0.1001,  0.0125,  ..., -0.0456, -0.0191, -0.0473],
+        [ 0.0258, -0.0629,  0.0376,  ...,  0.1377, -0.0791, -0.0383],
+        ...,
+        [-0.0562, -0.0922,  0.0708,  ..., -0.0186, -0.0068,  0.0584],
+        [ 0.0073,  0.0293, -0.0361,  ..., -0.0631, -0.0856, -0.0008],
+        [-0.1086, -0.0154, -0.0112,  ..., -0.1084,  0.0830,  0.0104]],
+       device='cuda:0'), grad: tensor([[ 0.0002, -0.0003,  0.0008,  ...,  0.0006,  0.0006,  0.0017],
+        [-0.0014, -0.0013, -0.0008,  ...,  0.0203, -0.0004, -0.0020],
+        [ 0.0004,  0.0006, -0.0004,  ..., -0.0065, -0.0002, -0.0047],
+        ...,
+        [ 0.0003,  0.0003,  0.0025,  ..., -0.0198,  0.0021,  0.0035],
+        [ 0.0082,  0.0118, -0.0023,  ...,  0.0013, -0.0055, -0.0048],
+        [ 0.0004,  0.0008,  0.0002,  ...,  0.0012,  0.0011,  0.0033]],
+       device='cuda:0')
+Epoch 108, bias, value: tensor([ 0.0175, -0.0026,  0.0044,  0.0188, -0.0089, -0.0033,  0.0079,  0.0278,
+        -0.0278,  0.0368], device='cuda:0'), grad: tensor([ 0.0089,  0.0126, -0.0121,  0.0097, -0.0068,  0.0031,  0.0105, -0.0082,
+        -0.0328,  0.0151], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 107, time 219.67, cls_loss 0.5612 cls_loss_mapping 0.0187 cls_loss_causal 0.5313 re_mapping 0.0120 re_causal 0.0298 /// teacc 98.74 lr 0.00010000
+Epoch 109, weight, value: tensor([[-0.0607,  0.0587, -0.0636,  ..., -0.0798, -0.0487, -0.0107],
+        [-0.0397, -0.1007,  0.0129,  ..., -0.0451, -0.0191, -0.0463],
+        [ 0.0259, -0.0636,  0.0375,  ...,  0.1383, -0.0795, -0.0388],
+        ...,
+        [-0.0559, -0.0923,  0.0701,  ..., -0.0194, -0.0074,  0.0592],
+        [ 0.0069,  0.0294, -0.0366,  ..., -0.0641, -0.0867, -0.0025],
+        [-0.1080, -0.0163, -0.0106,  ..., -0.1084,  0.0840,  0.0097]],
+       device='cuda:0'), grad: tensor([[ 0.0073,  0.0107,  0.0013,  ...,  0.0006,  0.0005,  0.0029],
+        [ 0.0014,  0.0011,  0.0033,  ..., -0.0007,  0.0012,  0.0031],
+        [ 0.0016,  0.0014,  0.0023,  ...,  0.0021,  0.0006,  0.0037],
+        ...,
+        [ 0.0006,  0.0006, -0.0072,  ..., -0.0018, -0.0026, -0.0014],
+        [-0.0084, -0.0026, -0.0026,  ..., -0.0020, -0.0036, -0.0126],
+        [ 0.0019,  0.0015,  0.0018,  ...,  0.0003,  0.0009,  0.0033]],
+       device='cuda:0')
+Epoch 109, bias, value: tensor([ 0.0173, -0.0022,  0.0040,  0.0192, -0.0091, -0.0033,  0.0086,  0.0276,
+        -0.0288,  0.0375], device='cuda:0'), grad: tensor([ 0.0280,  0.0278,  0.0262, -0.0480,  0.0265,  0.0006,  0.0019, -0.0385,
+        -0.0476,  0.0231], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 108----------------------------------------------------
+epoch 108, time 219.68, cls_loss 0.5787 cls_loss_mapping 0.0170 cls_loss_causal 0.5451 re_mapping 0.0111 re_causal 0.0278 /// teacc 98.76 lr 0.00010000
+Epoch 110, weight, value: tensor([[-0.0605,  0.0595, -0.0639,  ..., -0.0785, -0.0487, -0.0107],
+        [-0.0406, -0.1010,  0.0124,  ..., -0.0446, -0.0197, -0.0466],
+        [ 0.0254, -0.0646,  0.0377,  ...,  0.1386, -0.0786, -0.0385],
+        ...,
+        [-0.0581, -0.0940,  0.0704,  ..., -0.0190, -0.0077,  0.0590],
+        [ 0.0074,  0.0300, -0.0367,  ..., -0.0638, -0.0866, -0.0025],
+        [-0.1081, -0.0167, -0.0098,  ..., -0.1106,  0.0840,  0.0103]],
+       device='cuda:0'), grad: tensor([[ 4.9305e-04, -2.7084e-03, -1.1549e-03,  ..., -9.3758e-05,
+          5.2691e-04,  2.1410e-04],
+        [-1.0180e-04, -2.9316e-03, -3.8719e-03,  ...,  6.9678e-05,
+         -4.0092e-03, -5.9090e-03],
+        [ 3.1414e-03,  2.7752e-03,  1.1396e-03,  ...,  8.8120e-04,
+          1.2274e-03,  2.9068e-03],
+        ...,
+        [-2.7447e-03, -8.2541e-04, -7.6332e-03,  ..., -1.6575e-03,
+         -4.3831e-03, -8.7433e-03],
+        [ 3.6931e-04,  2.1744e-03,  4.8523e-03,  ...,  4.3392e-04,
+          2.8591e-03,  4.6463e-03],
+        [-1.9825e-04, -6.7472e-04,  1.6537e-03,  ...,  1.1292e-03,
+          2.7313e-03,  1.4734e-03]], device='cuda:0')
+Epoch 110, bias, value: tensor([ 0.0177, -0.0027,  0.0044,  0.0194, -0.0093, -0.0038,  0.0091,  0.0276,
+        -0.0290,  0.0373], device='cuda:0'), grad: tensor([ 0.0028, -0.0440,  0.0236, -0.0003,  0.0068,  0.0173,  0.0205, -0.0553,
+         0.0248,  0.0037], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 109, time 218.86, cls_loss 0.5955 cls_loss_mapping 0.0189 cls_loss_causal 0.5682 re_mapping 0.0104 re_causal 0.0275 /// teacc 98.40 lr 0.00010000
+Epoch 111, weight, value: tensor([[-0.0609,  0.0596, -0.0635,  ..., -0.0779, -0.0492, -0.0108],
+        [-0.0401, -0.1004,  0.0114,  ..., -0.0447, -0.0197, -0.0483],
+        [ 0.0243, -0.0662,  0.0381,  ...,  0.1388, -0.0784, -0.0374],
+        ...,
+        [-0.0585, -0.0947,  0.0710,  ..., -0.0191, -0.0064,  0.0598],
+        [ 0.0068,  0.0299, -0.0369,  ..., -0.0642, -0.0870, -0.0026],
+        [-0.1080, -0.0164, -0.0107,  ..., -0.1115,  0.0828,  0.0090]],
+       device='cuda:0'), grad: tensor([[ 2.2817e-04, -7.8321e-05,  7.2145e-04,  ...,  4.6015e-04,
+          4.9591e-04,  8.7786e-04],
+        [-1.9073e-03,  2.8801e-04,  3.1738e-03,  ...,  1.5535e-03,
+         -2.1877e-03,  6.9160e-03],
+        [-3.1033e-03, -5.8556e-03, -3.9024e-03,  ..., -6.2981e-03,
+         -6.2714e-03,  1.2150e-03],
+        ...,
+        [ 4.1819e-04,  1.0929e-03,  8.2111e-04,  ...,  1.1120e-03,
+          5.1641e-04,  2.1782e-03],
+        [-4.6234e-03, -6.9857e-04,  2.7657e-03,  ...,  2.9316e-03,
+          3.8986e-03,  2.0885e-03],
+        [ 8.6594e-04,  1.3580e-03,  1.1196e-03,  ...,  1.2951e-03,
+          1.4029e-03,  7.5340e-04]], device='cuda:0')
+Epoch 111, bias, value: tensor([ 0.0182, -0.0031,  0.0045,  0.0192, -0.0093, -0.0035,  0.0093,  0.0284,
+        -0.0294,  0.0364], device='cuda:0'), grad: tensor([ 1.1406e-02,  1.7807e-02, -2.5604e-02, -3.7933e-02, -1.9608e-02,
+         2.3727e-02, -5.9545e-05,  2.1393e-02,  1.9806e-02, -1.0918e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 110, time 219.12, cls_loss 0.5871 cls_loss_mapping 0.0176 cls_loss_causal 0.5519 re_mapping 0.0104 re_causal 0.0267 /// teacc 98.65 lr 0.00010000
+Epoch 112, weight, value: tensor([[-0.0603,  0.0600, -0.0639,  ..., -0.0788, -0.0495, -0.0105],
+        [-0.0406, -0.1009,  0.0124,  ..., -0.0449, -0.0195, -0.0473],
+        [ 0.0243, -0.0669,  0.0389,  ...,  0.1394, -0.0784, -0.0385],
+        ...,
+        [-0.0587, -0.0950,  0.0712,  ..., -0.0200, -0.0060,  0.0587],
+        [ 0.0071,  0.0304, -0.0367,  ..., -0.0644, -0.0870, -0.0024],
+        [-0.1080, -0.0158, -0.0107,  ..., -0.1112,  0.0834,  0.0101]],
+       device='cuda:0'), grad: tensor([[ 1.3943e-03,  1.7080e-03,  1.1940e-03,  ...,  6.9475e-04,
+          1.2648e-04,  2.2621e-03],
+        [ 5.8031e-04, -1.5240e-03, -1.4372e-03,  ...,  1.2326e-04,
+          2.1577e-05, -6.2332e-03],
+        [-1.0330e-02, -1.0880e-02,  5.2977e-04,  ..., -1.2808e-03,
+          4.0196e-06, -1.1969e-03],
+        ...,
+        [ 9.3079e-04,  1.5011e-03, -3.2227e-02,  ...,  8.9312e-04,
+         -1.6586e-02,  2.6970e-03],
+        [-2.5349e-03, -1.9550e-03, -1.9503e-03,  ...,  3.0637e-04,
+          1.3542e-03, -2.1324e-03],
+        [-1.1158e-03, -2.7504e-03,  2.8992e-02,  ..., -2.8286e-03,
+          1.3809e-02, -3.1853e-03]], device='cuda:0')
+Epoch 112, bias, value: tensor([ 0.0185, -0.0025,  0.0042,  0.0184, -0.0098, -0.0034,  0.0090,  0.0280,
+        -0.0293,  0.0376], device='cuda:0'), grad: tensor([ 0.0120, -0.0274, -0.0257,  0.0181,  0.0078,  0.0240,  0.0146, -0.0137,
+        -0.0173,  0.0076], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 111, time 218.97, cls_loss 0.6020 cls_loss_mapping 0.0207 cls_loss_causal 0.5686 re_mapping 0.0110 re_causal 0.0270 /// teacc 98.59 lr 0.00010000
+Epoch 113, weight, value: tensor([[-0.0607,  0.0596, -0.0627,  ..., -0.0791, -0.0500, -0.0097],
+        [-0.0398, -0.1009,  0.0123,  ..., -0.0443, -0.0198, -0.0481],
+        [ 0.0237, -0.0688,  0.0374,  ...,  0.1396, -0.0796, -0.0394],
+        ...,
+        [-0.0590, -0.0954,  0.0727,  ..., -0.0195, -0.0065,  0.0596],
+        [ 0.0075,  0.0307, -0.0369,  ..., -0.0655, -0.0870, -0.0033],
+        [-0.1085, -0.0149, -0.0116,  ..., -0.1123,  0.0838,  0.0105]],
+       device='cuda:0'), grad: tensor([[ 5.5933e-04, -3.1929e-03, -2.1493e-04,  ...,  7.2718e-05,
+         -1.0902e-04, -2.9831e-03],
+        [ 7.0667e-04,  1.3609e-03,  2.2602e-03,  ...,  3.9673e-04,
+          2.5916e-04,  3.0365e-03],
+        [-5.2910e-03, -3.8948e-03, -6.9122e-03,  ..., -5.8174e-03,
+          1.7512e-04, -6.4039e-04],
+        ...,
+        [ 1.2941e-03,  1.6270e-03,  3.0441e-03,  ...,  5.2643e-04,
+          5.5218e-04,  3.6926e-03],
+        [-2.0981e-03, -2.8992e-03,  3.6049e-04,  ...,  4.2367e-04,
+          4.5967e-04,  1.8415e-03],
+        [ 9.4271e-04,  8.2684e-04, -3.3894e-03,  ...,  1.1406e-03,
+          2.0075e-04,  5.4264e-04]], device='cuda:0')
+Epoch 113, bias, value: tensor([ 0.0191, -0.0025,  0.0036,  0.0183, -0.0092, -0.0032,  0.0087,  0.0283,
+        -0.0297,  0.0374], device='cuda:0'), grad: tensor([-0.0182,  0.0300, -0.0053,  0.0362, -0.0402, -0.0359,  0.0183,  0.0328,
+        -0.0151, -0.0026], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 112, time 217.88, cls_loss 0.5869 cls_loss_mapping 0.0156 cls_loss_causal 0.5511 re_mapping 0.0105 re_causal 0.0269 /// teacc 98.57 lr 0.00010000
+Epoch 114, weight, value: tensor([[-0.0612,  0.0596, -0.0631,  ..., -0.0794, -0.0512, -0.0096],
+        [-0.0400, -0.1010,  0.0120,  ..., -0.0437, -0.0207, -0.0480],
+        [ 0.0251, -0.0667,  0.0375,  ...,  0.1398, -0.0806, -0.0392],
+        ...,
+        [-0.0608, -0.0971,  0.0729,  ..., -0.0195, -0.0065,  0.0590],
+        [ 0.0086,  0.0307, -0.0368,  ..., -0.0659, -0.0874, -0.0042],
+        [-0.1092, -0.0155, -0.0116,  ..., -0.1121,  0.0844,  0.0105]],
+       device='cuda:0'), grad: tensor([[ 7.6103e-04,  2.9349e-04, -2.9716e-03,  ...,  1.1182e-04,
+         -3.5524e-04, -7.7171e-03],
+        [ 2.0131e-05,  8.4925e-04,  1.5240e-03,  ...,  3.0041e-04,
+          4.6563e-04,  2.5120e-03],
+        [-8.9188e-03, -1.6159e-02,  6.7568e-04,  ...,  1.5938e-04,
+          2.9707e-04, -7.3957e-04],
+        ...,
+        [-5.5466e-03, -7.7677e-04, -1.8883e-04,  ...,  6.1655e-04,
+          8.4734e-04,  1.3685e-04],
+        [-7.7391e-04, -7.1144e-04,  1.2217e-03,  ...,  1.8418e-04,
+          3.9172e-04,  1.3933e-03],
+        [ 1.8358e-03,  8.4686e-04,  1.4572e-03,  ...,  2.5082e-04,
+         -3.0589e-04,  1.8349e-03]], device='cuda:0')
+Epoch 114, bias, value: tensor([ 0.0190, -0.0020,  0.0033,  0.0183, -0.0083, -0.0033,  0.0080,  0.0277,
+        -0.0298,  0.0377], device='cuda:0'), grad: tensor([-0.0200,  0.0070, -0.0164,  0.0459, -0.0122,  0.0113, -0.0212, -0.0254,
+         0.0129,  0.0180], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 113, time 217.97, cls_loss 0.5889 cls_loss_mapping 0.0131 cls_loss_causal 0.5463 re_mapping 0.0109 re_causal 0.0271 /// teacc 98.75 lr 0.00010000
+Epoch 115, weight, value: tensor([[-0.0617,  0.0598, -0.0654,  ..., -0.0799, -0.0517, -0.0105],
+        [-0.0396, -0.1016,  0.0120,  ..., -0.0441, -0.0212, -0.0492],
+        [ 0.0246, -0.0673,  0.0372,  ...,  0.1399, -0.0816, -0.0376],
+        ...,
+        [-0.0603, -0.0986,  0.0736,  ..., -0.0186, -0.0067,  0.0592],
+        [ 0.0086,  0.0306, -0.0360,  ..., -0.0662, -0.0870, -0.0043],
+        [-0.1084, -0.0151, -0.0117,  ..., -0.1118,  0.0849,  0.0107]],
+       device='cuda:0'), grad: tensor([[ 2.1095e-03,  1.5154e-03, -6.2943e-04,  ...,  1.3657e-03,
+         -7.4923e-05, -1.2159e-03],
+        [-6.4850e-04, -1.5297e-03, -4.2267e-03,  ..., -2.3899e-03,
+         -5.1022e-04, -3.0613e-03],
+        [ 4.6730e-03,  6.9046e-03,  3.1185e-03,  ..., -1.5078e-03,
+         -1.4591e-04,  5.2338e-03],
+        ...,
+        [-5.5466e-03, -8.1348e-04, -4.4518e-03,  ...,  2.6703e-04,
+          9.8324e-04, -1.5192e-03],
+        [ 4.1885e-03,  6.0043e-03,  7.0000e-03,  ...,  1.4639e-03,
+          1.1606e-03,  4.8790e-03],
+        [ 4.3750e-04, -1.9236e-03, -1.1768e-03,  ...,  1.2589e-03,
+         -2.1210e-03, -2.5692e-03]], device='cuda:0')
+Epoch 115, bias, value: tensor([ 0.0186, -0.0023,  0.0037,  0.0182, -0.0080, -0.0037,  0.0085,  0.0280,
+        -0.0301,  0.0378], device='cuda:0'), grad: tensor([-0.0163, -0.0314,  0.0278,  0.0316,  0.0107, -0.0130, -0.0259, -0.0204,
+         0.0315,  0.0055], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 114, time 217.91, cls_loss 0.5692 cls_loss_mapping 0.0117 cls_loss_causal 0.5348 re_mapping 0.0115 re_causal 0.0296 /// teacc 98.44 lr 0.00010000
+Epoch 116, weight, value: tensor([[-0.0632,  0.0595, -0.0642,  ..., -0.0811, -0.0510, -0.0091],
+        [-0.0407, -0.1026,  0.0117,  ..., -0.0449, -0.0221, -0.0499],
+        [ 0.0248, -0.0680,  0.0373,  ...,  0.1406, -0.0813, -0.0373],
+        ...,
+        [-0.0602, -0.0996,  0.0732,  ..., -0.0192, -0.0069,  0.0589],
+        [ 0.0088,  0.0315, -0.0354,  ..., -0.0654, -0.0863, -0.0039],
+        [-0.1085, -0.0144, -0.0121,  ..., -0.1112,  0.0847,  0.0109]],
+       device='cuda:0'), grad: tensor([[ 1.6356e-03,  6.6471e-04, -3.2692e-03,  ..., -2.2182e-03,
+         -1.7147e-03, -1.6857e-07],
+        [-3.2253e-03,  6.4850e-04, -1.0681e-04,  ...,  3.6764e-04,
+          2.8157e-04,  1.3657e-03],
+        [ 6.0349e-03,  7.4234e-03,  2.9964e-03,  ...,  2.2755e-03,
+          4.2367e-04,  6.1417e-03],
+        ...,
+        [ 5.0020e-04, -2.8387e-05,  5.7220e-05,  ...,  3.6621e-04,
+          3.4189e-04, -3.4904e-03],
+        [-9.7504e-03, -7.3204e-03, -4.3564e-03,  ..., -2.8324e-04,
+          5.2567e-03, -2.1095e-03],
+        [-2.6035e-03, -6.5384e-03, -5.3310e-04,  ...,  4.8375e-04,
+         -1.1452e-02, -1.1345e-02]], device='cuda:0')
+Epoch 116, bias, value: tensor([ 0.0198, -0.0022,  0.0039,  0.0185, -0.0081, -0.0038,  0.0081,  0.0270,
+        -0.0300,  0.0377], device='cuda:0'), grad: tensor([ 0.0050, -0.0117,  0.0476,  0.0474,  0.0309, -0.0541,  0.0517, -0.0391,
+        -0.0536, -0.0241], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 115, time 216.66, cls_loss 0.5500 cls_loss_mapping 0.0155 cls_loss_causal 0.5188 re_mapping 0.0112 re_causal 0.0278 /// teacc 98.67 lr 0.00010000
+Epoch 117, weight, value: tensor([[-0.0626,  0.0588, -0.0649,  ..., -0.0802, -0.0508, -0.0091],
+        [-0.0405, -0.1016,  0.0117,  ..., -0.0455, -0.0221, -0.0510],
+        [ 0.0260, -0.0666,  0.0383,  ...,  0.1408, -0.0811, -0.0363],
+        ...,
+        [-0.0600, -0.0992,  0.0728,  ..., -0.0197, -0.0072,  0.0588],
+        [ 0.0094,  0.0312, -0.0361,  ..., -0.0658, -0.0870, -0.0043],
+        [-0.1095, -0.0144, -0.0111,  ..., -0.1115,  0.0845,  0.0107]],
+       device='cuda:0'), grad: tensor([[ 5.3310e-04,  1.4277e-03,  1.4858e-03,  ...,  5.7817e-05,
+          5.5218e-04,  1.8492e-03],
+        [-8.1177e-03, -2.3079e-03,  1.3145e-02,  ...,  6.5863e-05,
+          1.2770e-03,  4.2191e-03],
+        [-4.0007e-04, -1.0586e-03, -2.1011e-02,  ..., -4.9896e-03,
+          4.2582e-04, -1.6708e-02],
+        ...,
+        [ 6.5231e-04,  9.4414e-04,  6.4659e-03,  ..., -6.5267e-05,
+          1.7262e-03,  1.1055e-02],
+        [ 3.5305e-03, -2.5139e-03,  2.0275e-03,  ...,  2.4071e-03,
+         -4.4365e-03,  3.9697e-04],
+        [ 1.4296e-03, -6.0797e-04,  4.1008e-03,  ...,  1.9455e-04,
+          4.2534e-03,  4.6692e-03]], device='cuda:0')
+Epoch 117, bias, value: tensor([ 0.0193, -0.0020,  0.0041,  0.0178, -0.0086, -0.0047,  0.0091,  0.0273,
+        -0.0298,  0.0381], device='cuda:0'), grad: tensor([-0.0069,  0.0231, -0.0409,  0.0024,  0.0076,  0.0029, -0.0187,  0.0358,
+        -0.0093,  0.0040], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 116, time 216.53, cls_loss 0.5764 cls_loss_mapping 0.0192 cls_loss_causal 0.5469 re_mapping 0.0109 re_causal 0.0276 /// teacc 98.71 lr 0.00010000
+Epoch 118, weight, value: tensor([[-0.0622,  0.0592, -0.0657,  ..., -0.0797, -0.0519, -0.0085],
+        [-0.0395, -0.1012,  0.0105,  ..., -0.0462, -0.0223, -0.0521],
+        [ 0.0251, -0.0678,  0.0382,  ...,  0.1403, -0.0816, -0.0358],
+        ...,
+        [-0.0590, -0.0989,  0.0731,  ..., -0.0189, -0.0079,  0.0585],
+        [ 0.0093,  0.0312, -0.0357,  ..., -0.0643, -0.0866, -0.0046],
+        [-0.1106, -0.0160, -0.0103,  ..., -0.1110,  0.0851,  0.0118]],
+       device='cuda:0'), grad: tensor([[-0.0001, -0.0017, -0.0003,  ...,  0.0002, -0.0001, -0.0006],
+        [ 0.0001,  0.0013,  0.0036,  ...,  0.0016,  0.0014,  0.0074],
+        [ 0.0004, -0.0072, -0.0098,  ..., -0.0078,  0.0008, -0.0040],
+        ...,
+        [ 0.0003,  0.0024,  0.0061,  ...,  0.0028,  0.0012,  0.0074],
+        [ 0.0013,  0.0037,  0.0023,  ...,  0.0011, -0.0012,  0.0027],
+        [ 0.0021,  0.0066,  0.0014,  ..., -0.0007, -0.0042, -0.0097]],
+       device='cuda:0')
+Epoch 118, bias, value: tensor([ 0.0195, -0.0027,  0.0036,  0.0180, -0.0086, -0.0040,  0.0088,  0.0283,
+        -0.0302,  0.0379], device='cuda:0'), grad: tensor([-0.0105,  0.0375, -0.0258,  0.0087, -0.0526, -0.0069, -0.0098,  0.0389,
+         0.0105,  0.0099], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 117----------------------------------------------------
+epoch 117, time 217.40, cls_loss 0.5931 cls_loss_mapping 0.0179 cls_loss_causal 0.5546 re_mapping 0.0107 re_causal 0.0261 /// teacc 98.79 lr 0.00010000
+Epoch 119, weight, value: tensor([[-0.0629,  0.0587, -0.0666,  ..., -0.0802, -0.0529, -0.0091],
+        [-0.0399, -0.1022,  0.0093,  ..., -0.0482, -0.0233, -0.0533],
+        [ 0.0251, -0.0672,  0.0388,  ...,  0.1411, -0.0821, -0.0362],
+        ...,
+        [-0.0587, -0.0994,  0.0732,  ..., -0.0188, -0.0078,  0.0580],
+        [ 0.0103,  0.0318, -0.0348,  ..., -0.0643, -0.0869, -0.0038],
+        [-0.1116, -0.0166, -0.0099,  ..., -0.1113,  0.0853,  0.0120]],
+       device='cuda:0'), grad: tensor([[ 3.6383e-04,  1.3285e-03,  1.0324e-04,  ...,  9.5427e-05,
+          5.2869e-05, -6.5851e-04],
+        [-1.4591e-04, -6.8474e-04,  6.6185e-04,  ...,  7.5459e-05,
+          8.1241e-05,  3.0994e-04],
+        [ 2.0161e-03,  2.2736e-03, -2.1820e-03,  ..., -1.4782e-03,
+          2.3997e-04, -2.9354e-03],
+        ...,
+        [ 1.4381e-03,  3.4122e-03, -2.1267e-03,  ...,  9.7847e-04,
+         -7.4339e-04, -4.2953e-03],
+        [ 6.0081e-03,  4.7531e-03, -1.5278e-03,  ...,  1.0186e-04,
+          1.4086e-03,  3.4466e-03],
+        [ 4.6883e-03,  6.3477e-03,  3.3321e-03,  ...,  7.7307e-05,
+         -6.0129e-04,  6.8588e-03]], device='cuda:0')
+Epoch 119, bias, value: tensor([ 0.0190, -0.0039,  0.0042,  0.0181, -0.0083, -0.0046,  0.0098,  0.0275,
+        -0.0293,  0.0382], device='cuda:0'), grad: tensor([ 0.0106, -0.0010, -0.0307, -0.0133,  0.0227, -0.0087, -0.0341,  0.0090,
+        -0.0013,  0.0469], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 118, time 216.98, cls_loss 0.6002 cls_loss_mapping 0.0167 cls_loss_causal 0.5776 re_mapping 0.0102 re_causal 0.0259 /// teacc 98.66 lr 0.00010000
+Epoch 120, weight, value: tensor([[-0.0628,  0.0593, -0.0682,  ..., -0.0806, -0.0537, -0.0095],
+        [-0.0397, -0.1023,  0.0103,  ..., -0.0480, -0.0230, -0.0533],
+        [ 0.0256, -0.0672,  0.0381,  ...,  0.1401, -0.0812, -0.0372],
+        ...,
+        [-0.0583, -0.0985,  0.0735,  ..., -0.0186, -0.0088,  0.0591],
+        [ 0.0104,  0.0317, -0.0343,  ..., -0.0655, -0.0871, -0.0041],
+        [-0.1117, -0.0170, -0.0100,  ..., -0.1109,  0.0860,  0.0116]],
+       device='cuda:0'), grad: tensor([[ 2.1744e-03,  3.4924e-03,  2.3193e-03,  ...,  5.2547e-04,
+          3.7980e-04,  2.2926e-03],
+        [-1.1975e-04, -8.7082e-05,  4.9667e-03,  ..., -8.3351e-04,
+          4.4227e-04, -5.2605e-03],
+        [-1.5869e-03, -1.2062e-02, -2.4548e-03,  ..., -1.0500e-03,
+         -1.6193e-03, -3.8986e-03],
+        ...,
+        [ 1.1129e-03,  2.9144e-03, -9.5062e-03,  ...,  1.2302e-03,
+          7.8201e-04,  2.5439e-04],
+        [-7.7286e-03, -5.1804e-03,  2.1439e-03,  ...,  9.5654e-04,
+          4.2820e-04,  2.3670e-03],
+        [ 1.2140e-03, -8.6784e-04, -3.1342e-02,  ..., -3.9902e-03,
+         -3.2215e-03, -1.4244e-02]], device='cuda:0')
+Epoch 120, bias, value: tensor([ 0.0180, -0.0035,  0.0043,  0.0187, -0.0091, -0.0040,  0.0103,  0.0277,
+        -0.0295,  0.0378], device='cuda:0'), grad: tensor([ 0.0351, -0.0217, -0.0521,  0.0139,  0.0556,  0.0215,  0.0273, -0.0197,
+        -0.0034, -0.0565], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 119, time 216.35, cls_loss 0.5646 cls_loss_mapping 0.0135 cls_loss_causal 0.5301 re_mapping 0.0106 re_causal 0.0266 /// teacc 98.62 lr 0.00010000
+Epoch 121, weight, value: tensor([[-0.0630,  0.0588, -0.0688,  ..., -0.0805, -0.0545, -0.0087],
+        [-0.0395, -0.1023,  0.0096,  ..., -0.0501, -0.0223, -0.0528],
+        [ 0.0250, -0.0673,  0.0402,  ...,  0.1412, -0.0816, -0.0378],
+        ...,
+        [-0.0588, -0.0991,  0.0736,  ..., -0.0183, -0.0092,  0.0601],
+        [ 0.0110,  0.0323, -0.0330,  ..., -0.0658, -0.0860, -0.0033],
+        [-0.1120, -0.0167, -0.0101,  ..., -0.1115,  0.0858,  0.0114]],
+       device='cuda:0'), grad: tensor([[ 7.0620e-04,  8.2169e-03,  1.7681e-03,  ...,  1.0185e-03,
+          6.1002e-07,  3.4714e-03],
+        [ 9.7096e-05,  2.8563e-04, -7.2527e-04,  ..., -2.1708e-04,
+          4.4368e-06, -1.1368e-03],
+        [ 6.3515e-04,  1.0815e-03,  5.3368e-03,  ...,  5.2910e-03,
+          3.8967e-06,  6.1035e-03],
+        ...,
+        [ 4.8828e-04,  1.8606e-03,  6.2904e-03,  ..., -1.6918e-03,
+          2.5332e-05,  1.7776e-03],
+        [ 5.5361e-04,  1.9855e-03,  1.8234e-03,  ...,  1.0252e-03,
+          1.2293e-05,  2.4509e-03],
+        [ 9.4748e-04,  3.8090e-03, -9.1476e-03,  ...,  3.0804e-03,
+          9.3639e-05,  2.6054e-03]], device='cuda:0')
+Epoch 121, bias, value: tensor([ 0.0184, -0.0037,  0.0042,  0.0179, -0.0104, -0.0040,  0.0102,  0.0282,
+        -0.0291,  0.0388], device='cuda:0'), grad: tensor([ 0.0346, -0.0335,  0.0428,  0.0231, -0.0676, -0.0705,  0.0263,  0.0229,
+         0.0193,  0.0027], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 120, time 216.77, cls_loss 0.5408 cls_loss_mapping 0.0129 cls_loss_causal 0.5122 re_mapping 0.0109 re_causal 0.0274 /// teacc 98.75 lr 0.00010000
+Epoch 122, weight, value: tensor([[-0.0630,  0.0586, -0.0685,  ..., -0.0790, -0.0552, -0.0083],
+        [-0.0384, -0.1017,  0.0080,  ..., -0.0514, -0.0220, -0.0527],
+        [ 0.0245, -0.0672,  0.0396,  ...,  0.1410, -0.0818, -0.0377],
+        ...,
+        [-0.0592, -0.0996,  0.0738,  ..., -0.0184, -0.0108,  0.0601],
+        [ 0.0108,  0.0319, -0.0316,  ..., -0.0652, -0.0863, -0.0036],
+        [-0.1121, -0.0171, -0.0103,  ..., -0.1122,  0.0862,  0.0115]],
+       device='cuda:0'), grad: tensor([[ 2.7637e-03,  4.2191e-03,  1.4687e-03,  ..., -1.6963e-04,
+          2.1613e-04,  2.7657e-03],
+        [-5.6696e-04,  2.5940e-04, -7.4625e-05,  ...,  2.3935e-06,
+         -3.5787e-04, -2.4700e-04],
+        [ 1.6708e-03,  1.6909e-03,  8.8549e-04,  ...,  3.6311e-04,
+          4.3720e-05,  1.3695e-03],
+        ...,
+        [ 4.5371e-04,  8.2397e-04,  1.2598e-03,  ...,  1.6764e-05,
+          4.3702e-04,  1.4620e-03],
+        [ 2.7790e-03,  2.6970e-03,  8.1444e-04,  ...,  1.7631e-04,
+          3.3450e-04,  2.0809e-03],
+        [-3.2616e-03, -8.3771e-03, -2.5730e-03,  ...,  1.9336e-04,
+         -5.1689e-04, -5.2223e-03]], device='cuda:0')
+Epoch 122, bias, value: tensor([ 0.0184, -0.0032,  0.0046,  0.0170, -0.0098, -0.0043,  0.0102,  0.0282,
+        -0.0294,  0.0389], device='cuda:0'), grad: tensor([ 0.0172, -0.0003,  0.0130, -0.0239, -0.0209,  0.0327, -0.0377,  0.0120,
+         0.0188, -0.0109], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 121, time 216.62, cls_loss 0.5873 cls_loss_mapping 0.0153 cls_loss_causal 0.5475 re_mapping 0.0108 re_causal 0.0267 /// teacc 98.64 lr 0.00010000
+Epoch 123, weight, value: tensor([[-0.0634,  0.0587, -0.0684,  ..., -0.0780, -0.0570, -0.0084],
+        [-0.0388, -0.1003,  0.0082,  ..., -0.0514, -0.0224, -0.0533],
+        [ 0.0246, -0.0677,  0.0396,  ...,  0.1411, -0.0798, -0.0372],
+        ...,
+        [-0.0598, -0.1005,  0.0744,  ..., -0.0185, -0.0107,  0.0605],
+        [ 0.0113,  0.0316, -0.0326,  ..., -0.0655, -0.0873, -0.0031],
+        [-0.1125, -0.0171, -0.0104,  ..., -0.1132,  0.0860,  0.0110]],
+       device='cuda:0'), grad: tensor([[-3.5343e-03, -3.0441e-03, -6.7043e-04,  ...,  2.0671e-04,
+          5.9068e-05, -5.8594e-03],
+        [ 1.0653e-03,  1.0662e-03, -3.8872e-03,  ..., -1.2466e-02,
+          1.1835e-03, -1.6785e-03],
+        [ 1.9684e-03,  1.0080e-03,  7.6904e-03,  ...,  1.0223e-02,
+          5.4836e-04,  5.0545e-03],
+        ...,
+        [ 7.9632e-04, -1.8203e-04, -1.7223e-03,  ..., -3.3212e-04,
+          4.7994e-04, -5.0449e-04],
+        [ 2.1191e-03,  1.6718e-03,  8.3618e-03,  ...,  6.1226e-04,
+          8.5211e-04,  2.2850e-03],
+        [ 1.4572e-03,  1.5135e-03, -1.0185e-02,  ...,  1.1454e-03,
+          2.5177e-03,  4.4098e-03]], device='cuda:0')
+Epoch 123, bias, value: tensor([ 0.0181, -0.0035,  0.0052,  0.0176, -0.0098, -0.0043,  0.0096,  0.0277,
+        -0.0292,  0.0391], device='cuda:0'), grad: tensor([-0.0428, -0.0110,  0.0449, -0.0108,  0.0117,  0.0201, -0.0290, -0.0145,
+         0.0316, -0.0002], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 122, time 216.62, cls_loss 0.5489 cls_loss_mapping 0.0138 cls_loss_causal 0.5254 re_mapping 0.0109 re_causal 0.0261 /// teacc 98.73 lr 0.00010000
+Epoch 124, weight, value: tensor([[-0.0640,  0.0584, -0.0691,  ..., -0.0785, -0.0568, -0.0077],
+        [-0.0390, -0.1009,  0.0078,  ..., -0.0513, -0.0224, -0.0539],
+        [ 0.0246, -0.0684,  0.0392,  ...,  0.1424, -0.0817, -0.0375],
+        ...,
+        [-0.0613, -0.1012,  0.0745,  ..., -0.0187, -0.0110,  0.0608],
+        [ 0.0112,  0.0314, -0.0339,  ..., -0.0655, -0.0871, -0.0038],
+        [-0.1132, -0.0170, -0.0094,  ..., -0.1125,  0.0873,  0.0106]],
+       device='cuda:0'), grad: tensor([[ 4.7088e-04,  1.1892e-03,  2.6436e-03,  ..., -5.1707e-05,
+          6.7830e-05,  2.8267e-03],
+        [ 5.6362e-04, -6.1989e-04,  1.8177e-03,  ..., -1.4566e-06,
+          4.7255e-04, -2.2945e-03],
+        [ 1.3523e-03,  2.0847e-03,  2.4071e-03,  ..., -1.1444e-05,
+          1.2410e-04,  2.1896e-03],
+        ...,
+        [ 6.1131e-04, -3.1872e-03, -4.9667e-03,  ...,  1.3851e-05,
+          5.8794e-04, -3.4466e-03],
+        [ 8.4000e-03,  8.2626e-03,  2.1687e-03,  ...,  1.4186e-05,
+          1.1911e-03,  2.5501e-03],
+        [-2.1896e-03,  9.2363e-04,  2.3327e-03,  ...,  1.5870e-05,
+         -4.4098e-03, -1.0598e-04]], device='cuda:0')
+Epoch 124, bias, value: tensor([ 0.0180, -0.0037,  0.0041,  0.0185, -0.0089, -0.0046,  0.0100,  0.0277,
+        -0.0296,  0.0390], device='cuda:0'), grad: tensor([-0.0029,  0.0050,  0.0243, -0.0464, -0.0014,  0.0149, -0.0099, -0.0226,
+         0.0344,  0.0046], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 123, time 216.35, cls_loss 0.5421 cls_loss_mapping 0.0138 cls_loss_causal 0.5054 re_mapping 0.0113 re_causal 0.0283 /// teacc 98.47 lr 0.00010000
+Epoch 125, weight, value: tensor([[-0.0631,  0.0591, -0.0684,  ..., -0.0785, -0.0581, -0.0061],
+        [-0.0386, -0.1013,  0.0073,  ..., -0.0511, -0.0237, -0.0551],
+        [ 0.0256, -0.0681,  0.0384,  ...,  0.1421, -0.0809, -0.0383],
+        ...,
+        [-0.0621, -0.1024,  0.0749,  ..., -0.0173, -0.0121,  0.0609],
+        [ 0.0112,  0.0312, -0.0331,  ..., -0.0671, -0.0874, -0.0033],
+        [-0.1133, -0.0159, -0.0097,  ..., -0.1126,  0.0879,  0.0107]],
+       device='cuda:0'), grad: tensor([[ 3.7575e-03,  6.1836e-03,  2.3518e-03,  ...,  1.4019e-03,
+          9.9564e-04,  2.2907e-03],
+        [-1.0824e-03, -6.4373e-04, -3.2063e-03,  ...,  3.3402e-04,
+          6.9714e-04, -4.1809e-03],
+        [ 3.8052e-03,  5.5046e-03,  2.8915e-03,  ...,  1.2856e-03,
+          5.5552e-04,  3.7518e-03],
+        ...,
+        [-6.1452e-05,  1.5373e-03,  3.7060e-03,  ...,  2.8682e-04,
+          1.8349e-03, -2.0084e-03],
+        [ 3.9902e-03,  3.5248e-03,  3.5667e-03,  ...,  5.8365e-04,
+          1.9836e-03,  5.3978e-03],
+        [-3.4294e-03, -6.7558e-03, -1.2604e-02,  ..., -3.9935e-04,
+         -7.8812e-03, -6.3400e-03]], device='cuda:0')
+Epoch 125, bias, value: tensor([ 0.0189, -0.0037,  0.0034,  0.0176, -0.0089, -0.0036,  0.0097,  0.0275,
+        -0.0295,  0.0394], device='cuda:0'), grad: tensor([ 0.0361, -0.0335,  0.0375, -0.0420,  0.0509,  0.0103, -0.0154, -0.0120,
+         0.0475, -0.0794], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 124, time 216.43, cls_loss 0.5840 cls_loss_mapping 0.0144 cls_loss_causal 0.5501 re_mapping 0.0107 re_causal 0.0283 /// teacc 98.63 lr 0.00010000
+Epoch 126, weight, value: tensor([[-0.0640,  0.0588, -0.0694,  ..., -0.0795, -0.0573, -0.0050],
+        [-0.0394, -0.1017,  0.0074,  ..., -0.0508, -0.0234, -0.0554],
+        [ 0.0251, -0.0692,  0.0391,  ...,  0.1432, -0.0809, -0.0389],
+        ...,
+        [-0.0618, -0.1019,  0.0741,  ..., -0.0179, -0.0131,  0.0611],
+        [ 0.0119,  0.0314, -0.0333,  ..., -0.0677, -0.0880, -0.0041],
+        [-0.1136, -0.0159, -0.0094,  ..., -0.1131,  0.0875,  0.0101]],
+       device='cuda:0'), grad: tensor([[ 1.2522e-03,  1.2379e-03, -2.1572e-03,  ...,  7.3493e-05,
+          1.8072e-04, -4.2877e-03],
+        [-2.3384e-03, -1.5745e-03, -1.7662e-03,  ...,  1.7568e-05,
+         -4.0885e-07, -3.8261e-03],
+        [ 1.5697e-03,  1.4896e-03,  7.8678e-04,  ..., -3.3951e-04,
+          2.7075e-05,  1.5240e-03],
+        ...,
+        [ 4.3106e-03,  1.0490e-03,  4.9896e-03,  ..., -2.1279e-04,
+          2.2531e-04,  7.0229e-03],
+        [-2.4857e-02, -1.4511e-02, -8.8882e-03,  ...,  3.8862e-05,
+         -3.6488e-03, -1.3466e-02],
+        [ 7.8201e-03,  3.1948e-03,  2.7809e-03,  ...,  2.3127e-04,
+          1.3437e-03,  4.6844e-03]], device='cuda:0')
+Epoch 126, bias, value: tensor([ 0.0187, -0.0038,  0.0026,  0.0176, -0.0083, -0.0027,  0.0096,  0.0280,
+        -0.0296,  0.0385], device='cuda:0'), grad: tensor([-0.0196, -0.0185,  0.0115,  0.0375,  0.0179,  0.0143, -0.0126,  0.0294,
+        -0.0658,  0.0059], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 125, time 216.51, cls_loss 0.5511 cls_loss_mapping 0.0120 cls_loss_causal 0.5215 re_mapping 0.0105 re_causal 0.0261 /// teacc 98.62 lr 0.00010000
+Epoch 127, weight, value: tensor([[-0.0627,  0.0600, -0.0704,  ..., -0.0810, -0.0571, -0.0049],
+        [-0.0396, -0.1024,  0.0075,  ..., -0.0515, -0.0238, -0.0558],
+        [ 0.0248, -0.0699,  0.0401,  ...,  0.1435, -0.0811, -0.0373],
+        ...,
+        [-0.0633, -0.1027,  0.0744,  ..., -0.0177, -0.0124,  0.0611],
+        [ 0.0123,  0.0318, -0.0349,  ..., -0.0671, -0.0882, -0.0046],
+        [-0.1127, -0.0159, -0.0088,  ..., -0.1127,  0.0881,  0.0104]],
+       device='cuda:0'), grad: tensor([[ 1.6928e-03,  2.1439e-03,  1.2541e-03,  ...,  3.8838e-04,
+          5.3501e-04,  1.3971e-03],
+        [ 3.0351e-04,  8.3065e-04,  5.3835e-04,  ...,  5.7578e-05,
+          2.9087e-04,  1.1081e-04],
+        [-1.8728e-04,  6.3658e-04,  7.1096e-04,  ..., -6.4421e-04,
+          4.2605e-04,  7.0143e-04],
+        ...,
+        [-1.1730e-03, -4.6539e-03, -5.9128e-03,  ..., -4.4785e-03,
+         -5.4474e-03, -1.1797e-03],
+        [-1.2696e-05,  2.0180e-03, -2.1534e-03,  ...,  6.5565e-04,
+          5.5599e-04, -7.9498e-03],
+        [ 2.7103e-03,  2.3232e-03,  5.7869e-03,  ...,  2.4948e-03,
+          2.2984e-03,  6.4087e-03]], device='cuda:0')
+Epoch 127, bias, value: tensor([ 0.0194, -0.0038,  0.0035,  0.0178, -0.0094, -0.0033,  0.0096,  0.0271,
+        -0.0297,  0.0394], device='cuda:0'), grad: tensor([ 0.0156,  0.0008,  0.0060,  0.0109,  0.0169, -0.0088, -0.0340, -0.0481,
+         0.0039,  0.0367], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 126, time 216.37, cls_loss 0.5705 cls_loss_mapping 0.0125 cls_loss_causal 0.5433 re_mapping 0.0108 re_causal 0.0275 /// teacc 98.73 lr 0.00010000
+Epoch 128, weight, value: tensor([[-0.0633,  0.0603, -0.0726,  ..., -0.0814, -0.0580, -0.0064],
+        [-0.0403, -0.1022,  0.0090,  ..., -0.0515, -0.0243, -0.0552],
+        [ 0.0253, -0.0706,  0.0404,  ...,  0.1445, -0.0817, -0.0375],
+        ...,
+        [-0.0642, -0.1025,  0.0749,  ..., -0.0180, -0.0117,  0.0617],
+        [ 0.0124,  0.0322, -0.0354,  ..., -0.0684, -0.0888, -0.0052],
+        [-0.1120, -0.0160, -0.0093,  ..., -0.1129,  0.0881,  0.0106]],
+       device='cuda:0'), grad: tensor([[ 7.5626e-04,  1.3933e-03, -7.3612e-05,  ...,  6.6280e-04,
+          4.5210e-05,  1.0958e-03],
+        [ 2.5196e-03,  3.8648e-04, -1.0424e-03,  ...,  8.9312e-04,
+          2.8133e-05,  3.4580e-03],
+        [ 1.0815e-03,  1.2617e-03, -1.6966e-03,  ..., -4.8714e-03,
+          1.6809e-04,  1.0242e-03],
+        ...,
+        [ 6.6185e-04,  1.6422e-03,  2.3937e-03,  ...,  3.1161e-04,
+          1.3268e-04, -3.3951e-03],
+        [ 1.3046e-03, -3.3951e-04, -2.0943e-03,  ...,  6.3229e-04,
+          6.9761e-04,  4.4899e-03],
+        [-2.4147e-03,  1.3418e-03,  2.4834e-03,  ...,  4.7803e-04,
+          1.0788e-04, -7.4806e-03]], device='cuda:0')
+Epoch 128, bias, value: tensor([ 0.0180, -0.0037,  0.0041,  0.0177, -0.0100, -0.0037,  0.0096,  0.0272,
+        -0.0295,  0.0409], device='cuda:0'), grad: tensor([-0.0134, -0.0012,  0.0021,  0.0465, -0.0323, -0.0216,  0.0269, -0.0025,
+        -0.0035, -0.0010], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 127, time 216.37, cls_loss 0.5473 cls_loss_mapping 0.0119 cls_loss_causal 0.5111 re_mapping 0.0100 re_causal 0.0241 /// teacc 98.61 lr 0.00010000
+Epoch 129, weight, value: tensor([[-0.0625,  0.0615, -0.0723,  ..., -0.0818, -0.0576, -0.0053],
+        [-0.0408, -0.1034,  0.0092,  ..., -0.0517, -0.0230, -0.0552],
+        [ 0.0251, -0.0710,  0.0400,  ...,  0.1445, -0.0816, -0.0391],
+        ...,
+        [-0.0651, -0.1042,  0.0740,  ..., -0.0189, -0.0128,  0.0617],
+        [ 0.0121,  0.0321, -0.0358,  ..., -0.0689, -0.0884, -0.0053],
+        [-0.1128, -0.0163, -0.0077,  ..., -0.1140,  0.0884,  0.0103]],
+       device='cuda:0'), grad: tensor([[-4.4346e-04,  5.2452e-05, -1.1826e-04,  ..., -4.0531e-05,
+          1.2338e-04, -2.2030e-03],
+        [-6.2332e-03, -5.1804e-03, -4.8752e-03,  ..., -1.8024e-03,
+         -8.8990e-05, -5.7487e-03],
+        [ 2.7485e-03,  1.8663e-03,  1.4334e-03,  ..., -6.1616e-06,
+          9.5546e-05,  3.2272e-03],
+        ...,
+        [-1.2957e-05, -7.3051e-04, -1.0347e-03,  ...,  3.9744e-04,
+          3.0613e-04, -2.2831e-03],
+        [ 2.8324e-03,  2.5959e-03,  2.7466e-03,  ...,  7.8440e-04,
+          3.2330e-04,  4.0741e-03],
+        [ 1.8444e-03,  6.1321e-04, -4.4823e-03,  ...,  3.1614e-04,
+         -5.2185e-03, -2.8019e-03]], device='cuda:0')
+Epoch 129, bias, value: tensor([ 0.0185, -0.0036,  0.0033,  0.0186, -0.0099, -0.0041,  0.0101,  0.0267,
+        -0.0298,  0.0410], device='cuda:0'), grad: tensor([-0.0064, -0.0563,  0.0241, -0.0567,  0.0464,  0.0202,  0.0256, -0.0096,
+         0.0386, -0.0260], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 128, time 216.66, cls_loss 0.5629 cls_loss_mapping 0.0154 cls_loss_causal 0.5415 re_mapping 0.0102 re_causal 0.0257 /// teacc 98.72 lr 0.00010000
+Epoch 130, weight, value: tensor([[-0.0642,  0.0611, -0.0723,  ..., -0.0815, -0.0574, -0.0063],
+        [-0.0404, -0.1024,  0.0081,  ..., -0.0536, -0.0240, -0.0563],
+        [ 0.0244, -0.0724,  0.0405,  ...,  0.1455, -0.0816, -0.0395],
+        ...,
+        [-0.0646, -0.1041,  0.0742,  ..., -0.0193, -0.0134,  0.0619],
+        [ 0.0131,  0.0320, -0.0363,  ..., -0.0682, -0.0884, -0.0043],
+        [-0.1141, -0.0158, -0.0076,  ..., -0.1142,  0.0890,  0.0100]],
+       device='cuda:0'), grad: tensor([[ 1.6050e-03, -9.3102e-05,  6.0558e-04,  ...,  1.7226e-04,
+          2.6011e-04,  7.4387e-04],
+        [-3.7441e-03, -4.0817e-03, -2.3384e-03,  ...,  5.4884e-04,
+          7.6962e-04, -3.5934e-03],
+        [ 1.5652e-04,  1.3037e-03,  8.1730e-04,  ..., -7.6723e-04,
+          4.8923e-04,  1.5793e-03],
+        ...,
+        [ 1.0004e-03,  1.4048e-03,  2.1400e-03,  ...,  1.3762e-03,
+          1.5697e-03,  1.5574e-03],
+        [ 1.5211e-03,  1.9073e-03, -3.9101e-04,  ...,  2.8324e-04,
+          8.6594e-04,  1.3542e-04],
+        [-2.3746e-03, -3.2520e-03, -1.2169e-02,  ..., -8.9798e-03,
+         -2.1835e-02, -3.4885e-03]], device='cuda:0')
+Epoch 130, bias, value: tensor([ 0.0181, -0.0047,  0.0037,  0.0183, -0.0088, -0.0048,  0.0103,  0.0265,
+        -0.0293,  0.0412], device='cuda:0'), grad: tensor([ 0.0133, -0.0463,  0.0186,  0.0153,  0.0345,  0.0213, -0.0081,  0.0183,
+        -0.0067, -0.0602], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 129, time 216.37, cls_loss 0.5746 cls_loss_mapping 0.0136 cls_loss_causal 0.5504 re_mapping 0.0106 re_causal 0.0263 /// teacc 98.59 lr 0.00010000
+Epoch 131, weight, value: tensor([[-0.0650,  0.0608, -0.0721,  ..., -0.0817, -0.0574, -0.0065],
+        [-0.0397, -0.1021,  0.0068,  ..., -0.0539, -0.0240, -0.0564],
+        [ 0.0252, -0.0731,  0.0409,  ...,  0.1463, -0.0817, -0.0398],
+        ...,
+        [-0.0658, -0.1038,  0.0743,  ..., -0.0186, -0.0144,  0.0637],
+        [ 0.0130,  0.0319, -0.0349,  ..., -0.0678, -0.0875, -0.0049],
+        [-0.1147, -0.0161, -0.0073,  ..., -0.1152,  0.0893,  0.0096]],
+       device='cuda:0'), grad: tensor([[-0.0217, -0.0273,  0.0010,  ...,  0.0003,  0.0004,  0.0004],
+        [-0.0015, -0.0007, -0.0010,  ...,  0.0006,  0.0007, -0.0002],
+        [-0.0087,  0.0007, -0.0015,  ..., -0.0040, -0.0028,  0.0017],
+        ...,
+        [-0.0013, -0.0003, -0.0028,  ...,  0.0004, -0.0016, -0.0029],
+        [ 0.0252,  0.0205,  0.0036,  ...,  0.0044,  0.0028,  0.0015],
+        [ 0.0022,  0.0017,  0.0034,  ...,  0.0008,  0.0017,  0.0020]],
+       device='cuda:0')
+Epoch 131, bias, value: tensor([ 0.0179, -0.0050,  0.0037,  0.0180, -0.0090, -0.0047,  0.0098,  0.0271,
+        -0.0292,  0.0418], device='cuda:0'), grad: tensor([-0.0486, -0.0195, -0.0147, -0.0073, -0.0107,  0.0154,  0.0102, -0.0128,
+         0.0640,  0.0240], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 130, time 216.47, cls_loss 0.5655 cls_loss_mapping 0.0166 cls_loss_causal 0.5395 re_mapping 0.0097 re_causal 0.0228 /// teacc 98.69 lr 0.00010000
+Epoch 132, weight, value: tensor([[-0.0650,  0.0605, -0.0720,  ..., -0.0826, -0.0587, -0.0055],
+        [-0.0380, -0.1022,  0.0067,  ..., -0.0547, -0.0254, -0.0567],
+        [ 0.0240, -0.0734,  0.0408,  ...,  0.1460, -0.0820, -0.0406],
+        ...,
+        [-0.0653, -0.1023,  0.0748,  ..., -0.0184, -0.0140,  0.0632],
+        [ 0.0128,  0.0318, -0.0348,  ..., -0.0674, -0.0886, -0.0053],
+        [-0.1151, -0.0161, -0.0084,  ..., -0.1160,  0.0899,  0.0093]],
+       device='cuda:0'), grad: tensor([[ 2.0087e-04, -9.3997e-05, -1.7033e-03,  ...,  1.4544e-04,
+         -1.6257e-05, -2.7771e-03],
+        [-3.6073e-04,  5.3465e-05, -1.8921e-03,  ...,  1.9625e-05,
+          1.1832e-05, -1.5450e-03],
+        [ 6.8092e-04,  3.8409e-04,  1.5221e-03,  ...,  1.9461e-05,
+          1.0198e-04,  1.7157e-03],
+        ...,
+        [ 2.5916e-04,  7.9215e-05,  2.8858e-03,  ...,  9.2015e-06,
+          1.1101e-03,  2.7962e-03],
+        [ 3.3646e-03,  2.1267e-03,  2.0161e-03,  ...,  8.6260e-04,
+          4.6611e-04,  1.3199e-03],
+        [ 5.1355e-04,  2.6774e-04, -6.0768e-03,  ..., -9.6436e-03,
+          2.0123e-03,  2.8934e-03]], device='cuda:0')
+Epoch 132, bias, value: tensor([ 0.0183, -0.0043,  0.0040,  0.0183, -0.0088, -0.0051,  0.0095,  0.0269,
+        -0.0287,  0.0404], device='cuda:0'), grad: tensor([-0.0173, -0.0196,  0.0169,  0.0064, -0.0199, -0.0511,  0.0570,  0.0212,
+         0.0178, -0.0114], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 131, time 216.33, cls_loss 0.6068 cls_loss_mapping 0.0126 cls_loss_causal 0.5726 re_mapping 0.0103 re_causal 0.0252 /// teacc 98.71 lr 0.00010000
+Epoch 133, weight, value: tensor([[-0.0655,  0.0601, -0.0719,  ..., -0.0838, -0.0580, -0.0054],
+        [-0.0373, -0.1025,  0.0075,  ..., -0.0543, -0.0246, -0.0553],
+        [ 0.0246, -0.0733,  0.0407,  ...,  0.1459, -0.0829, -0.0407],
+        ...,
+        [-0.0666, -0.1039,  0.0745,  ..., -0.0165, -0.0150,  0.0627],
+        [ 0.0131,  0.0323, -0.0344,  ..., -0.0677, -0.0891, -0.0048],
+        [-0.1155, -0.0159, -0.0086,  ..., -0.1182,  0.0896,  0.0082]],
+       device='cuda:0'), grad: tensor([[ 1.8921e-03,  1.6031e-03,  1.3323e-03,  ...,  1.2264e-03,
+          6.1083e-04,  1.9293e-03],
+        [ 3.5024e-04,  1.5247e-04, -1.1101e-03,  ..., -1.0500e-03,
+          4.2677e-05,  9.8991e-04],
+        [-6.9046e-03, -6.9733e-03, -1.5106e-03,  ..., -1.6155e-03,
+         -2.3327e-03, -4.5509e-03],
+        ...,
+        [ 6.0654e-04,  9.7752e-04, -1.0548e-03,  ...,  4.6873e-04,
+          7.8583e-04, -1.4782e-03],
+        [ 9.8133e-04,  1.4992e-03,  2.9240e-03,  ...,  1.0700e-03,
+          9.6655e-04,  2.5997e-03],
+        [ 5.8413e-04, -2.0561e-03, -1.9093e-03,  ...,  8.3780e-04,
+         -2.0542e-03, -9.2125e-04]], device='cuda:0')
+Epoch 133, bias, value: tensor([ 0.0181, -0.0030,  0.0043,  0.0174, -0.0080, -0.0049,  0.0092,  0.0258,
+        -0.0284,  0.0400], device='cuda:0'), grad: tensor([ 0.0137, -0.0025, -0.0313, -0.0158, -0.0162,  0.0109,  0.0138,  0.0093,
+         0.0187, -0.0006], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 132, time 216.32, cls_loss 0.5845 cls_loss_mapping 0.0157 cls_loss_causal 0.5565 re_mapping 0.0098 re_causal 0.0234 /// teacc 98.56 lr 0.00010000
+Epoch 134, weight, value: tensor([[-0.0660,  0.0602, -0.0711,  ..., -0.0842, -0.0593, -0.0058],
+        [-0.0388, -0.1034,  0.0072,  ..., -0.0542, -0.0237, -0.0564],
+        [ 0.0243, -0.0738,  0.0403,  ...,  0.1455, -0.0841, -0.0417],
+        ...,
+        [-0.0648, -0.1032,  0.0744,  ..., -0.0159, -0.0152,  0.0629],
+        [ 0.0128,  0.0329, -0.0349,  ..., -0.0692, -0.0888, -0.0043],
+        [-0.1151, -0.0151, -0.0076,  ..., -0.1172,  0.0906,  0.0093]],
+       device='cuda:0'), grad: tensor([[ 5.4312e-04,  3.2276e-05, -1.5841e-03,  ...,  5.0116e-04,
+          1.8394e-04,  1.0471e-03],
+        [ 4.0984e-04,  2.2042e-04,  1.0862e-03,  ...,  3.1662e-04,
+          1.9443e-04,  1.0519e-03],
+        [ 2.0218e-03,  3.3426e-04, -1.0562e-04,  ..., -3.3703e-03,
+          3.2330e-04,  2.3918e-03],
+        ...,
+        [ 9.9182e-04,  3.6573e-04,  1.2894e-03,  ...,  5.0497e-04,
+          4.3011e-04,  1.8892e-03],
+        [-4.3526e-03, -2.5082e-03,  2.2869e-03,  ...,  3.0441e-03,
+          4.1223e-04,  1.4791e-03],
+        [ 3.7479e-04,  1.9038e-04, -2.5005e-03,  ...,  8.6248e-05,
+         -9.8228e-04, -3.0613e-03]], device='cuda:0')
+Epoch 134, bias, value: tensor([ 0.0180, -0.0036,  0.0034,  0.0176, -0.0080, -0.0042,  0.0091,  0.0264,
+        -0.0285,  0.0403], device='cuda:0'), grad: tensor([-0.0206,  0.0102,  0.0124, -0.0015,  0.0090, -0.0173,  0.0093,  0.0126,
+         0.0082, -0.0221], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 133, time 216.23, cls_loss 0.5706 cls_loss_mapping 0.0145 cls_loss_causal 0.5414 re_mapping 0.0098 re_causal 0.0227 /// teacc 98.72 lr 0.00010000
+Epoch 135, weight, value: tensor([[-0.0649,  0.0601, -0.0719,  ..., -0.0848, -0.0622, -0.0059],
+        [-0.0397, -0.1037,  0.0074,  ..., -0.0555, -0.0243, -0.0568],
+        [ 0.0250, -0.0741,  0.0407,  ...,  0.1453, -0.0857, -0.0409],
+        ...,
+        [-0.0646, -0.1025,  0.0739,  ..., -0.0162, -0.0151,  0.0616],
+        [ 0.0125,  0.0333, -0.0347,  ..., -0.0689, -0.0888, -0.0048],
+        [-0.1144, -0.0152, -0.0076,  ..., -0.1158,  0.0909,  0.0101]],
+       device='cuda:0'), grad: tensor([[-3.0174e-03, -4.0054e-03, -2.4624e-03,  ..., -2.1112e-04,
+         -2.5821e-04, -3.7060e-03],
+        [ 1.1101e-03,  1.1873e-03,  8.5115e-05,  ..., -1.5581e-04,
+          1.0979e-04,  1.3285e-03],
+        [-3.1261e-03, -1.6432e-03, -4.1656e-03,  ..., -3.9291e-03,
+         -6.6519e-05, -1.7624e-03],
+        ...,
+        [ 1.0519e-03,  1.5135e-03, -1.4677e-03,  ...,  4.7207e-04,
+         -1.1082e-03, -4.2439e-04],
+        [-3.0479e-03, -3.2101e-03,  9.2649e-04,  ...,  9.8896e-04,
+          1.9634e-04,  2.4211e-04],
+        [ 3.6144e-03,  4.2305e-03,  3.7441e-03,  ...,  1.5478e-03,
+          1.3065e-03,  3.8357e-03]], device='cuda:0')
+Epoch 135, bias, value: tensor([ 0.0178, -0.0034,  0.0039,  0.0172, -0.0079, -0.0044,  0.0093,  0.0263,
+        -0.0285,  0.0402], device='cuda:0'), grad: tensor([-0.0352,  0.0173, -0.0282,  0.0289, -0.0380,  0.0131, -0.0075,  0.0095,
+        -0.0013,  0.0416], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 134, time 216.25, cls_loss 0.5656 cls_loss_mapping 0.0148 cls_loss_causal 0.5374 re_mapping 0.0104 re_causal 0.0253 /// teacc 98.56 lr 0.00010000
+Epoch 136, weight, value: tensor([[-0.0636,  0.0614, -0.0730,  ..., -0.0842, -0.0629, -0.0074],
+        [-0.0397, -0.1039,  0.0072,  ..., -0.0559, -0.0252, -0.0564],
+        [ 0.0244, -0.0750,  0.0400,  ...,  0.1450, -0.0871, -0.0412],
+        ...,
+        [-0.0658, -0.1029,  0.0745,  ..., -0.0163, -0.0144,  0.0619],
+        [ 0.0126,  0.0337, -0.0344,  ..., -0.0692, -0.0891, -0.0061],
+        [-0.1143, -0.0154, -0.0086,  ..., -0.1164,  0.0908,  0.0107]],
+       device='cuda:0'), grad: tensor([[ 5.6953e-03,  7.9651e-03,  1.4935e-03,  ...,  7.8812e-03,
+          3.2753e-05,  1.7223e-03],
+        [ 1.4839e-03,  9.2745e-04,  1.8988e-03,  ...,  9.3174e-04,
+          9.5308e-05,  2.2507e-03],
+        [ 3.5839e-03, -1.5993e-03, -1.5163e-03,  ...,  2.6684e-03,
+          5.7757e-05, -3.8815e-04],
+        ...,
+        [ 4.3488e-03,  1.1530e-03,  8.7891e-03,  ...,  9.0866e-03,
+          1.7595e-03,  6.8398e-03],
+        [ 4.2419e-03,  1.8167e-03, -2.4300e-03,  ...,  1.0624e-03,
+         -3.0637e-05, -6.3896e-04],
+        [ 7.4120e-03,  1.2789e-03,  6.9618e-04,  ...,  5.6686e-03,
+          4.1080e-04,  2.1381e-03]], device='cuda:0')
+Epoch 136, bias, value: tensor([ 0.0173, -0.0040,  0.0039,  0.0180, -0.0078, -0.0042,  0.0095,  0.0266,
+        -0.0292,  0.0402], device='cuda:0'), grad: tensor([ 0.0505,  0.0272, -0.0178, -0.0737, -0.0546,  0.0384, -0.0158,  0.0495,
+        -0.0311,  0.0273], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 135, time 216.36, cls_loss 0.5639 cls_loss_mapping 0.0138 cls_loss_causal 0.5343 re_mapping 0.0099 re_causal 0.0235 /// teacc 98.68 lr 0.00010000
+Epoch 137, weight, value: tensor([[-0.0634,  0.0613, -0.0731,  ..., -0.0863, -0.0622, -0.0064],
+        [-0.0403, -0.1050,  0.0078,  ..., -0.0547, -0.0258, -0.0560],
+        [ 0.0255, -0.0745,  0.0409,  ...,  0.1468, -0.0870, -0.0411],
+        ...,
+        [-0.0668, -0.1033,  0.0741,  ..., -0.0169, -0.0150,  0.0619],
+        [ 0.0126,  0.0329, -0.0351,  ..., -0.0707, -0.0889, -0.0064],
+        [-0.1135, -0.0152, -0.0082,  ..., -0.1161,  0.0910,  0.0110]],
+       device='cuda:0'), grad: tensor([[ 2.3365e-03,  2.7065e-03,  1.5078e-03,  ...,  4.0126e-04,
+          3.9387e-04,  8.4066e-04],
+        [ 8.1015e-04,  3.1304e-04,  1.8864e-03,  ...,  1.0014e-03,
+          7.3290e-04,  1.4105e-03],
+        [ 6.2981e-03,  6.4230e-04,  6.9847e-03,  ...,  6.2752e-03,
+          1.4982e-03,  3.2482e-03],
+        ...,
+        [ 3.9840e-04,  3.8892e-05,  1.2314e-02,  ...,  1.3786e-02,
+          3.6964e-03,  4.6539e-03],
+        [-6.1264e-03,  4.1270e-04,  9.0218e-04,  ...,  6.2704e-04,
+          7.1716e-04,  8.5545e-04],
+        [-2.4319e-03,  4.0317e-04, -8.0414e-03,  ..., -1.3094e-03,
+         -6.3934e-03, -9.5320e-04]], device='cuda:0')
+Epoch 137, bias, value: tensor([ 0.0178, -0.0029,  0.0038,  0.0175, -0.0078, -0.0036,  0.0088,  0.0260,
+        -0.0301,  0.0410], device='cuda:0'), grad: tensor([ 0.0210,  0.0204,  0.0298,  0.0158, -0.0248, -0.0343, -0.0099,  0.0014,
+         0.0029, -0.0223], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 136, time 216.17, cls_loss 0.5763 cls_loss_mapping 0.0140 cls_loss_causal 0.5520 re_mapping 0.0100 re_causal 0.0255 /// teacc 98.60 lr 0.00010000
+Epoch 138, weight, value: tensor([[-0.0631,  0.0612, -0.0732,  ..., -0.0851, -0.0622, -0.0068],
+        [-0.0403, -0.1053,  0.0074,  ..., -0.0554, -0.0268, -0.0557],
+        [ 0.0264, -0.0745,  0.0408,  ...,  0.1469, -0.0888, -0.0415],
+        ...,
+        [-0.0676, -0.1043,  0.0744,  ..., -0.0159, -0.0160,  0.0633],
+        [ 0.0130,  0.0328, -0.0350,  ..., -0.0716, -0.0880, -0.0066],
+        [-0.1148, -0.0152, -0.0082,  ..., -0.1161,  0.0911,  0.0106]],
+       device='cuda:0'), grad: tensor([[ 7.8964e-04,  5.1212e-04,  1.6832e-03,  ...,  3.2926e-04,
+          5.8031e-04,  1.0433e-03],
+        [-1.9798e-03, -3.7694e-04, -5.4741e-03,  ..., -1.3494e-04,
+         -4.5633e-04, -1.5917e-03],
+        [ 8.0299e-04,  3.9029e-04,  9.5415e-04,  ..., -5.4646e-04,
+          4.6563e-04,  8.1301e-04],
+        ...,
+        [-2.3985e-04,  6.1035e-04,  9.5010e-05,  ..., -3.8385e-04,
+          5.4884e-04, -1.2074e-03],
+        [ 1.9913e-03, -6.7139e-04,  1.0834e-03,  ...,  1.0653e-03,
+         -3.3283e-04,  4.3907e-03],
+        [-1.7490e-03, -2.1400e-03, -6.1913e-03,  ..., -1.7433e-03,
+         -2.3422e-03, -6.8359e-03]], device='cuda:0')
+Epoch 138, bias, value: tensor([ 0.0181, -0.0025,  0.0038,  0.0169, -0.0072, -0.0034,  0.0076,  0.0259,
+        -0.0296,  0.0409], device='cuda:0'), grad: tensor([ 0.0154, -0.0699,  0.0120,  0.0104,  0.0227,  0.0106,  0.0111, -0.0070,
+         0.0124, -0.0177], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 137, time 216.59, cls_loss 0.6004 cls_loss_mapping 0.0131 cls_loss_causal 0.5679 re_mapping 0.0099 re_causal 0.0242 /// teacc 98.59 lr 0.00010000
+Epoch 139, weight, value: tensor([[-0.0636,  0.0612, -0.0729,  ..., -0.0846, -0.0622, -0.0067],
+        [-0.0409, -0.1057,  0.0070,  ..., -0.0572, -0.0285, -0.0561],
+        [ 0.0258, -0.0760,  0.0400,  ...,  0.1468, -0.0898, -0.0414],
+        ...,
+        [-0.0670, -0.1051,  0.0746,  ..., -0.0153, -0.0169,  0.0635],
+        [ 0.0130,  0.0325, -0.0350,  ..., -0.0721, -0.0885, -0.0073],
+        [-0.1149, -0.0152, -0.0078,  ..., -0.1158,  0.0915,  0.0109]],
+       device='cuda:0'), grad: tensor([[ 6.7329e-04,  1.8847e-04,  1.5235e-04,  ...,  1.4257e-04,
+          1.6165e-04,  1.3809e-03],
+        [ 4.1847e-03,  1.2121e-03,  5.0783e-04,  ...,  4.5609e-04,
+          3.6311e-04,  3.4676e-03],
+        [-1.4286e-03,  5.3549e-04,  2.6989e-04,  ..., -3.4547e-04,
+         -6.6996e-04,  6.9365e-06],
+        ...,
+        [ 1.4963e-03,  6.2323e-04,  7.5245e-04,  ...,  9.9277e-04,
+          1.1034e-03,  3.6011e-03],
+        [-4.0192e-02, -2.1515e-02,  2.0301e-04,  ..., -2.0676e-03,
+         -7.4768e-03, -1.2093e-03],
+        [ 7.2823e-03,  8.3313e-03, -2.5215e-03,  ..., -2.1629e-03,
+          7.7324e-03, -1.3695e-03]], device='cuda:0')
+Epoch 139, bias, value: tensor([ 0.0174, -0.0029,  0.0038,  0.0183, -0.0074, -0.0046,  0.0091,  0.0267,
+        -0.0296,  0.0396], device='cuda:0'), grad: tensor([ 0.0060,  0.0266, -0.0201,  0.0244, -0.0165, -0.0054,  0.0294,  0.0153,
+        -0.0722,  0.0126], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 138, time 216.40, cls_loss 0.5361 cls_loss_mapping 0.0163 cls_loss_causal 0.5118 re_mapping 0.0101 re_causal 0.0239 /// teacc 98.67 lr 0.00010000
+Epoch 140, weight, value: tensor([[-0.0642,  0.0608, -0.0734,  ..., -0.0852, -0.0637, -0.0061],
+        [-0.0418, -0.1064,  0.0066,  ..., -0.0570, -0.0282, -0.0571],
+        [ 0.0252, -0.0765,  0.0404,  ...,  0.1471, -0.0906, -0.0417],
+        ...,
+        [-0.0672, -0.1063,  0.0748,  ..., -0.0158, -0.0181,  0.0643],
+        [ 0.0129,  0.0325, -0.0354,  ..., -0.0732, -0.0876, -0.0068],
+        [-0.1139, -0.0159, -0.0079,  ..., -0.1160,  0.0918,  0.0107]],
+       device='cuda:0'), grad: tensor([[ 1.2703e-05, -3.9444e-03,  5.7459e-04,  ...,  4.2725e-04,
+          2.3997e-04,  4.0841e-04],
+        [ 1.1492e-03, -8.5652e-05,  3.5882e-04,  ...,  6.6519e-04,
+         -7.9250e-04, -1.9855e-03],
+        [ 4.7302e-04,  5.0974e-04, -7.8106e-04,  ..., -3.4122e-03,
+          4.9448e-04,  2.6226e-03],
+        ...,
+        [-1.2493e-03,  2.7943e-04, -1.2703e-03,  ..., -2.2736e-03,
+          1.6022e-03, -2.8229e-03],
+        [ 1.6356e-04,  1.0490e-03,  6.7663e-04,  ...,  5.2404e-04,
+          6.7663e-04,  2.1400e-03],
+        [ 2.1446e-04,  8.3160e-04,  2.5902e-03,  ...,  8.3923e-04,
+          3.1548e-03,  3.7918e-03]], device='cuda:0')
+Epoch 140, bias, value: tensor([ 0.0183, -0.0025,  0.0027,  0.0181, -0.0070, -0.0051,  0.0092,  0.0263,
+        -0.0292,  0.0395], device='cuda:0'), grad: tensor([ 0.0142, -0.0208,  0.0012,  0.0330, -0.0688,  0.0211,  0.0396, -0.0483,
+         0.0276,  0.0012], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 139, time 216.47, cls_loss 0.5318 cls_loss_mapping 0.0088 cls_loss_causal 0.5048 re_mapping 0.0098 re_causal 0.0248 /// teacc 98.60 lr 0.00010000
+Epoch 141, weight, value: tensor([[-0.0647,  0.0612, -0.0736,  ..., -0.0844, -0.0630, -0.0055],
+        [-0.0428, -0.1082,  0.0070,  ..., -0.0564, -0.0278, -0.0577],
+        [ 0.0256, -0.0766,  0.0404,  ...,  0.1470, -0.0912, -0.0412],
+        ...,
+        [-0.0675, -0.1068,  0.0747,  ..., -0.0171, -0.0184,  0.0644],
+        [ 0.0138,  0.0332, -0.0353,  ..., -0.0741, -0.0879, -0.0078],
+        [-0.1143, -0.0161, -0.0081,  ..., -0.1172,  0.0919,  0.0115]],
+       device='cuda:0'), grad: tensor([[ 1.7204e-03,  3.1605e-03,  6.3801e-04,  ...,  4.2208e-06,
+          7.2336e-04,  8.0013e-04],
+        [-5.3740e-04, -4.8232e-04, -1.9848e-04,  ..., -3.3069e-04,
+          2.1291e-04, -1.7691e-04],
+        [ 2.2233e-04,  3.4094e-04,  7.8201e-04,  ...,  2.2392e-03,
+         -9.1410e-04,  1.3609e-03],
+        ...,
+        [ 5.4502e-04,  1.1766e-04,  2.5415e-04,  ...,  1.6475e-04,
+          8.6308e-05,  5.6553e-04],
+        [ 1.2497e-02,  1.2672e-02,  1.1482e-03,  ...,  9.2447e-05,
+          2.6035e-04,  5.7077e-04],
+        [ 5.6314e-04, -5.9557e-04,  6.3814e-06,  ...,  1.3316e-04,
+         -1.1012e-05,  5.2595e-04]], device='cuda:0')
+Epoch 141, bias, value: tensor([ 0.0184, -0.0028,  0.0029,  0.0176, -0.0070, -0.0048,  0.0101,  0.0259,
+        -0.0295,  0.0397], device='cuda:0'), grad: tensor([ 0.0193, -0.0301, -0.0113,  0.0131,  0.0117, -0.0068, -0.0566,  0.0142,
+         0.0630, -0.0164], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 140, time 216.56, cls_loss 0.5360 cls_loss_mapping 0.0114 cls_loss_causal 0.5033 re_mapping 0.0090 re_causal 0.0225 /// teacc 98.44 lr 0.00010000
+Epoch 142, weight, value: tensor([[-0.0651,  0.0611, -0.0740,  ..., -0.0853, -0.0626, -0.0062],
+        [-0.0426, -0.1094,  0.0067,  ..., -0.0562, -0.0280, -0.0575],
+        [ 0.0255, -0.0776,  0.0402,  ...,  0.1470, -0.0919, -0.0417],
+        ...,
+        [-0.0683, -0.1064,  0.0755,  ..., -0.0179, -0.0170,  0.0647],
+        [ 0.0146,  0.0323, -0.0351,  ..., -0.0732, -0.0888, -0.0080],
+        [-0.1148, -0.0151, -0.0084,  ..., -0.1165,  0.0924,  0.0117]],
+       device='cuda:0'), grad: tensor([[ 7.7772e-04,  3.3684e-03,  4.7183e-04,  ...,  1.8346e-04,
+          2.2709e-05,  2.2392e-03],
+        [-1.1292e-03,  6.2084e-04, -4.2725e-04,  ...,  2.4772e-04,
+          3.2187e-05,  5.2214e-04],
+        [ 4.6611e-04,  4.1199e-04,  7.1716e-04,  ...,  1.3304e-04,
+          4.2468e-05,  2.7542e-03],
+        ...,
+        [-4.9925e-04, -3.6430e-04, -2.1660e-04,  ..., -4.6206e-04,
+          4.9859e-05, -4.9706e-03],
+        [ 3.0732e-04,  4.9639e-04,  4.0722e-04,  ...,  7.4625e-05,
+          2.6017e-05,  1.2264e-03],
+        [ 3.0422e-04,  2.7275e-04, -2.2335e-03,  ..., -8.4829e-04,
+         -2.9659e-04, -5.6686e-03]], device='cuda:0')
+Epoch 142, bias, value: tensor([ 0.0182, -0.0025,  0.0033,  0.0171, -0.0066, -0.0050,  0.0092,  0.0263,
+        -0.0288,  0.0393], device='cuda:0'), grad: tensor([ 0.0334, -0.0128,  0.0253,  0.0193,  0.0183, -0.0157, -0.0237, -0.0451,
+         0.0176, -0.0166], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 141, time 218.07, cls_loss 0.5029 cls_loss_mapping 0.0087 cls_loss_causal 0.4719 re_mapping 0.0099 re_causal 0.0248 /// teacc 98.77 lr 0.00010000
+Epoch 143, weight, value: tensor([[-0.0654,  0.0604, -0.0736,  ..., -0.0849, -0.0625, -0.0040],
+        [-0.0429, -0.1097,  0.0075,  ..., -0.0555, -0.0279, -0.0572],
+        [ 0.0257, -0.0786,  0.0404,  ...,  0.1477, -0.0905, -0.0419],
+        ...,
+        [-0.0681, -0.1057,  0.0759,  ..., -0.0174, -0.0169,  0.0642],
+        [ 0.0141,  0.0326, -0.0353,  ..., -0.0736, -0.0888, -0.0071],
+        [-0.1158, -0.0160, -0.0082,  ..., -0.1175,  0.0918,  0.0115]],
+       device='cuda:0'), grad: tensor([[-8.3771e-03, -7.5531e-03, -2.6474e-03,  ..., -2.4071e-03,
+          1.8072e-04,  4.5514e-04],
+        [ 2.4486e-04,  1.3161e-04,  7.9727e-04,  ...,  1.6475e-04,
+          1.3268e-04,  1.4248e-03],
+        [-3.4294e-03,  2.2995e-04,  8.6880e-04,  ...,  6.9499e-05,
+          2.2745e-04, -1.3056e-03],
+        ...,
+        [ 2.4891e-03,  9.8705e-05,  4.7379e-03,  ..., -1.6248e-04,
+          1.5650e-03,  2.5101e-03],
+        [ 1.0128e-03,  1.0985e-04,  8.5974e-04,  ...,  1.4976e-05,
+          1.3793e-04,  1.3380e-03],
+        [ 1.0796e-03,  1.2589e-04, -5.8937e-04,  ...,  6.1035e-05,
+         -2.0809e-03,  6.7406e-03]], device='cuda:0')
+Epoch 143, bias, value: tensor([ 0.0191, -0.0019,  0.0030,  0.0169, -0.0068, -0.0054,  0.0096,  0.0260,
+        -0.0295,  0.0394], device='cuda:0'), grad: tensor([-0.0251,  0.0068, -0.0210,  0.0061,  0.0072, -0.0142, -0.0116,  0.0265,
+         0.0109,  0.0143], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 142, time 218.52, cls_loss 0.5548 cls_loss_mapping 0.0123 cls_loss_causal 0.5266 re_mapping 0.0096 re_causal 0.0244 /// teacc 98.68 lr 0.00010000
+Epoch 144, weight, value: tensor([[-0.0657,  0.0610, -0.0744,  ..., -0.0861, -0.0627, -0.0040],
+        [-0.0426, -0.1099,  0.0080,  ..., -0.0543, -0.0287, -0.0572],
+        [ 0.0263, -0.0801,  0.0401,  ...,  0.1467, -0.0901, -0.0417],
+        ...,
+        [-0.0695, -0.1069,  0.0756,  ..., -0.0169, -0.0178,  0.0636],
+        [ 0.0144,  0.0323, -0.0345,  ..., -0.0719, -0.0880, -0.0067],
+        [-0.1158, -0.0145, -0.0084,  ..., -0.1193,  0.0916,  0.0109]],
+       device='cuda:0'), grad: tensor([[ 0.0004,  0.0003,  0.0006,  ...,  0.0004,  0.0005,  0.0017],
+        [-0.0006,  0.0003,  0.0003,  ..., -0.0005,  0.0008,  0.0019],
+        [ 0.0033,  0.0017,  0.0017,  ...,  0.0038,  0.0006,  0.0020],
+        ...,
+        [ 0.0001,  0.0002,  0.0008,  ...,  0.0009,  0.0007,  0.0016],
+        [-0.0053, -0.0027,  0.0002,  ..., -0.0015,  0.0014, -0.0023],
+        [ 0.0004,  0.0005,  0.0010,  ...,  0.0006,  0.0011,  0.0023]],
+       device='cuda:0')
+Epoch 144, bias, value: tensor([ 0.0195, -0.0024,  0.0033,  0.0165, -0.0073, -0.0050,  0.0104,  0.0258,
+        -0.0298,  0.0397], device='cuda:0'), grad: tensor([ 0.0170, -0.0115,  0.0323,  0.0164, -0.0358, -0.0151, -0.0081,  0.0013,
+        -0.0180,  0.0213], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 143, time 218.36, cls_loss 0.5661 cls_loss_mapping 0.0125 cls_loss_causal 0.5327 re_mapping 0.0097 re_causal 0.0240 /// teacc 98.65 lr 0.00010000
+Epoch 145, weight, value: tensor([[-0.0659,  0.0611, -0.0760,  ..., -0.0864, -0.0634, -0.0027],
+        [-0.0428, -0.1100,  0.0075,  ..., -0.0555, -0.0286, -0.0578],
+        [ 0.0262, -0.0813,  0.0396,  ...,  0.1464, -0.0906, -0.0416],
+        ...,
+        [-0.0690, -0.1069,  0.0760,  ..., -0.0174, -0.0188,  0.0640],
+        [ 0.0142,  0.0320, -0.0338,  ..., -0.0714, -0.0881, -0.0062],
+        [-0.1163, -0.0145, -0.0075,  ..., -0.1191,  0.0926,  0.0110]],
+       device='cuda:0'), grad: tensor([[ 1.2512e-03,  2.7275e-03,  4.4518e-03,  ...,  2.6627e-03,
+          3.4627e-06,  7.1669e-04],
+        [-7.7581e-04, -6.5947e-04,  1.7655e-04,  ..., -5.7983e-04,
+          6.2846e-06,  1.4420e-03],
+        [ 2.8205e-04,  1.1349e-03,  4.0741e-03,  ...,  3.1757e-03,
+          4.4554e-06,  2.3956e-03],
+        ...,
+        [-6.8998e-04, -7.1678e-03, -1.0767e-03,  ..., -3.5744e-03,
+          7.2050e-04,  7.4081e-03],
+        [ 2.0027e-03,  2.0046e-03,  2.0866e-03,  ...,  1.6890e-03,
+          2.7156e-04,  9.0265e-04],
+        [ 2.1565e-04,  4.0174e-04, -6.1111e-03,  ..., -2.5997e-03,
+          2.1048e-07,  1.5059e-03]], device='cuda:0')
+Epoch 145, bias, value: tensor([ 0.0193, -0.0019,  0.0037,  0.0160, -0.0086, -0.0051,  0.0107,  0.0260,
+        -0.0294,  0.0400], device='cuda:0'), grad: tensor([ 0.0202, -0.0084, -0.0043, -0.0188,  0.0076, -0.0156,  0.0009, -0.0047,
+         0.0218,  0.0012], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 144, time 220.29, cls_loss 0.5604 cls_loss_mapping 0.0093 cls_loss_causal 0.5360 re_mapping 0.0098 re_causal 0.0243 /// teacc 98.68 lr 0.00010000
+Epoch 146, weight, value: tensor([[-0.0660,  0.0621, -0.0761,  ..., -0.0863, -0.0633, -0.0019],
+        [-0.0430, -0.1098,  0.0075,  ..., -0.0545, -0.0274, -0.0583],
+        [ 0.0264, -0.0820,  0.0400,  ...,  0.1456, -0.0900, -0.0416],
+        ...,
+        [-0.0694, -0.1069,  0.0759,  ..., -0.0168, -0.0202,  0.0631],
+        [ 0.0141,  0.0316, -0.0324,  ..., -0.0713, -0.0872, -0.0055],
+        [-0.1166, -0.0153, -0.0076,  ..., -0.1190,  0.0921,  0.0106]],
+       device='cuda:0'), grad: tensor([[ 2.5578e-03,  1.8206e-03,  5.5742e-04,  ...,  1.2434e-04,
+          5.4091e-06,  1.4763e-03],
+        [ 1.9379e-03,  7.7391e-04,  8.9502e-04,  ...,  9.2924e-05,
+          1.8179e-06,  1.0262e-03],
+        [-8.3876e-04, -1.8895e-05, -2.1152e-03,  ..., -1.9646e-03,
+          1.8075e-05, -2.1529e-04],
+        ...,
+        [ 1.7405e-03,  6.3133e-04,  3.1033e-03,  ...,  3.9649e-04,
+          1.1950e-03,  1.1396e-03],
+        [ 8.4229e-03,  2.0485e-03,  5.0354e-03,  ...,  5.3139e-03,
+          1.4257e-03,  2.1229e-03],
+        [-2.2602e-03,  1.2064e-03, -6.1951e-03,  ...,  8.8930e-04,
+         -3.0994e-03, -4.6425e-03]], device='cuda:0')
+Epoch 146, bias, value: tensor([ 0.0196, -0.0025,  0.0037,  0.0165, -0.0080, -0.0058,  0.0098,  0.0258,
+        -0.0294,  0.0409], device='cuda:0'), grad: tensor([ 0.0154,  0.0181, -0.0110,  0.0033,  0.0117,  0.0219, -0.0421,  0.0197,
+         0.0152, -0.0523], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 145, time 218.22, cls_loss 0.5253 cls_loss_mapping 0.0085 cls_loss_causal 0.5006 re_mapping 0.0094 re_causal 0.0245 /// teacc 98.72 lr 0.00010000
+Epoch 147, weight, value: tensor([[-0.0655,  0.0627, -0.0768,  ..., -0.0867, -0.0646, -0.0026],
+        [-0.0432, -0.1097,  0.0074,  ..., -0.0547, -0.0275, -0.0589],
+        [ 0.0258, -0.0818,  0.0399,  ...,  0.1459, -0.0905, -0.0405],
+        ...,
+        [-0.0688, -0.1076,  0.0758,  ..., -0.0172, -0.0199,  0.0626],
+        [ 0.0145,  0.0315, -0.0332,  ..., -0.0716, -0.0876, -0.0060],
+        [-0.1172, -0.0146, -0.0073,  ..., -0.1202,  0.0924,  0.0106]],
+       device='cuda:0'), grad: tensor([[ 6.4564e-04,  1.7905e-04,  6.2227e-04,  ...,  3.6788e-04,
+          1.2624e-04,  7.6580e-04],
+        [ 6.9761e-04,  1.2600e-04,  9.4461e-04,  ...,  5.4121e-04,
+          2.3689e-03,  4.4022e-03],
+        [ 2.5387e-03,  1.8835e-04,  4.3068e-03,  ...,  1.8291e-03,
+          9.3460e-05,  3.3035e-03],
+        ...,
+        [-1.9188e-03, -2.4548e-03, -1.2436e-03,  ...,  4.5371e-04,
+          5.7507e-04, -2.4242e-03],
+        [ 1.7891e-03,  1.0376e-03,  1.0567e-03,  ...,  4.3154e-04,
+          3.7527e-04,  1.0433e-03],
+        [-1.1663e-03,  2.7924e-03, -7.9727e-03,  ..., -3.1204e-03,
+          3.5000e-04,  1.0605e-03]], device='cuda:0')
+Epoch 147, bias, value: tensor([ 0.0187, -0.0025,  0.0030,  0.0165, -0.0064, -0.0057,  0.0097,  0.0258,
+        -0.0295,  0.0409], device='cuda:0'), grad: tensor([ 0.0064,  0.0248,  0.0278, -0.0104, -0.0236, -0.0105,  0.0212, -0.0491,
+         0.0115,  0.0019], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 146----------------------------------------------------
+epoch 146, time 220.63, cls_loss 0.5374 cls_loss_mapping 0.0096 cls_loss_causal 0.5066 re_mapping 0.0096 re_causal 0.0245 /// teacc 98.84 lr 0.00010000
+Epoch 148, weight, value: tensor([[-0.0653,  0.0629, -0.0776,  ..., -0.0863, -0.0648, -0.0017],
+        [-0.0445, -0.1108,  0.0072,  ..., -0.0546, -0.0286, -0.0600],
+        [ 0.0260, -0.0809,  0.0408,  ...,  0.1459, -0.0922, -0.0398],
+        ...,
+        [-0.0700, -0.1082,  0.0765,  ..., -0.0171, -0.0198,  0.0645],
+        [ 0.0142,  0.0310, -0.0337,  ..., -0.0720, -0.0880, -0.0077],
+        [-0.1171, -0.0149, -0.0075,  ..., -0.1212,  0.0931,  0.0111]],
+       device='cuda:0'), grad: tensor([[ 0.0038,  0.0039, -0.0011,  ...,  0.0019, -0.0083, -0.0066],
+        [-0.0071, -0.0006, -0.0013,  ...,  0.0010, -0.0038, -0.0092],
+        [ 0.0024,  0.0006, -0.0011,  ..., -0.0039,  0.0016,  0.0025],
+        ...,
+        [ 0.0038,  0.0009,  0.0059,  ...,  0.0032,  0.0039,  0.0042],
+        [-0.0029, -0.0037,  0.0006,  ..., -0.0016,  0.0031, -0.0043],
+        [ 0.0015,  0.0004,  0.0011,  ...,  0.0009,  0.0016,  0.0022]],
+       device='cuda:0')
+Epoch 148, bias, value: tensor([ 0.0187, -0.0034,  0.0027,  0.0166, -0.0064, -0.0049,  0.0103,  0.0255,
+        -0.0292,  0.0408], device='cuda:0'), grad: tensor([ 0.0025, -0.0596,  0.0144,  0.0194,  0.0453, -0.0033, -0.0281,  0.0417,
+        -0.0251, -0.0070], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 147, time 218.24, cls_loss 0.5371 cls_loss_mapping 0.0107 cls_loss_causal 0.5029 re_mapping 0.0095 re_causal 0.0231 /// teacc 98.70 lr 0.00010000
+Epoch 149, weight, value: tensor([[-0.0661,  0.0633, -0.0769,  ..., -0.0853, -0.0633, -0.0024],
+        [-0.0453, -0.1099,  0.0065,  ..., -0.0556, -0.0290, -0.0600],
+        [ 0.0254, -0.0818,  0.0401,  ...,  0.1444, -0.0933, -0.0407],
+        ...,
+        [-0.0700, -0.1085,  0.0772,  ..., -0.0164, -0.0200,  0.0649],
+        [ 0.0144,  0.0311, -0.0333,  ..., -0.0712, -0.0881, -0.0068],
+        [-0.1174, -0.0145, -0.0080,  ..., -0.1209,  0.0934,  0.0115]],
+       device='cuda:0'), grad: tensor([[ 1.8167e-03,  8.4209e-04,  1.6518e-03,  ...,  4.2105e-04,
+          1.0401e-04, -2.6722e-03],
+        [ 1.0948e-03,  3.2616e-04,  1.0281e-03,  ...,  2.7680e-04,
+          2.2519e-06,  1.8702e-03],
+        [-9.3317e-04, -4.2343e-04,  6.9618e-04,  ..., -1.5030e-03,
+          1.6332e-04,  2.8439e-03],
+        ...,
+        [-8.3618e-03,  1.1170e-04,  4.1046e-03,  ..., -3.1147e-03,
+          2.7103e-03, -3.3684e-03],
+        [ 2.3861e-03,  6.7663e-04,  3.2043e-03,  ...,  5.4646e-04,
+          7.7677e-04,  2.9488e-03],
+        [-1.0335e-04,  4.5061e-04, -5.2376e-03,  ...,  4.6539e-04,
+          1.0979e-02,  5.0468e-03]], device='cuda:0')
+Epoch 149, bias, value: tensor([ 0.0189, -0.0029,  0.0019,  0.0166, -0.0061, -0.0051,  0.0100,  0.0263,
+        -0.0296,  0.0404], device='cuda:0'), grad: tensor([-0.0107,  0.0143,  0.0142,  0.0536, -0.0654,  0.0399, -0.0442, -0.0128,
+         0.0268, -0.0157], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 148, time 218.97, cls_loss 0.5451 cls_loss_mapping 0.0116 cls_loss_causal 0.5140 re_mapping 0.0092 re_causal 0.0229 /// teacc 98.56 lr 0.00010000
+Epoch 150, weight, value: tensor([[-0.0658,  0.0625, -0.0763,  ..., -0.0855, -0.0632, -0.0017],
+        [-0.0432, -0.1112,  0.0056,  ..., -0.0566, -0.0301, -0.0595],
+        [ 0.0253, -0.0815,  0.0403,  ...,  0.1450, -0.0929, -0.0405],
+        ...,
+        [-0.0697, -0.1098,  0.0764,  ..., -0.0163, -0.0206,  0.0639],
+        [ 0.0148,  0.0317, -0.0326,  ..., -0.0704, -0.0859, -0.0071],
+        [-0.1184, -0.0141, -0.0077,  ..., -0.1215,  0.0932,  0.0119]],
+       device='cuda:0'), grad: tensor([[ 4.9400e-03,  7.9880e-03,  1.1721e-03,  ...,  3.5584e-05,
+          7.0333e-05, -1.2077e-02],
+        [-2.0075e-04,  3.4642e-04,  6.3944e-04,  ..., -4.1223e-04,
+          1.1437e-05,  1.2865e-03],
+        [ 3.4404e-04,  5.0592e-04, -3.2163e-04,  ..., -5.2035e-05,
+          1.5557e-05, -4.1461e-04],
+        ...,
+        [ 1.1003e-04,  1.2922e-04,  3.4142e-03,  ..., -8.2195e-05,
+          1.8284e-05,  1.5011e-03],
+        [ 4.9114e-04, -3.6182e-03, -1.6365e-03,  ...,  1.2445e-04,
+         -3.9711e-03, -3.7861e-03],
+        [ 7.4577e-04,  2.0466e-03, -7.0343e-03,  ..., -1.4467e-03,
+         -3.6449e-03, -2.6870e-04]], device='cuda:0')
+Epoch 150, bias, value: tensor([ 0.0202, -0.0025,  0.0019,  0.0161, -0.0056, -0.0057,  0.0094,  0.0258,
+        -0.0297,  0.0405], device='cuda:0'), grad: tensor([ 0.0111,  0.0109, -0.0101, -0.0147, -0.0137,  0.0293,  0.0228,  0.0338,
+        -0.0294, -0.0399], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 149, time 217.57, cls_loss 0.5185 cls_loss_mapping 0.0107 cls_loss_causal 0.4909 re_mapping 0.0098 re_causal 0.0233 /// teacc 98.67 lr 0.00010000
+Epoch 151, weight, value: tensor([[-0.0673,  0.0623, -0.0770,  ..., -0.0867, -0.0647, -0.0008],
+        [-0.0430, -0.1117,  0.0054,  ..., -0.0569, -0.0296, -0.0596],
+        [ 0.0280, -0.0790,  0.0393,  ...,  0.1457, -0.0932, -0.0409],
+        ...,
+        [-0.0710, -0.1109,  0.0766,  ..., -0.0158, -0.0204,  0.0641],
+        [ 0.0149,  0.0313, -0.0325,  ..., -0.0714, -0.0858, -0.0069],
+        [-0.1191, -0.0140, -0.0080,  ..., -0.1218,  0.0926,  0.0113]],
+       device='cuda:0'), grad: tensor([[ 3.6259e-03, -6.3419e-04, -2.5487e-04,  ...,  4.1053e-06,
+         -4.1485e-04, -2.4929e-03],
+        [-7.2632e-03,  4.1509e-04, -5.1498e-04,  ...,  7.3127e-06,
+          1.7214e-04, -8.1444e-04],
+        [ 3.4924e-03,  1.7920e-03, -1.2558e-02,  ..., -1.4961e-04,
+          7.6723e-04, -4.2114e-03],
+        ...,
+        [ 5.8746e-04, -2.8725e-03, -9.8610e-04,  ...,  5.7071e-05,
+         -1.1902e-02, -1.6479e-03],
+        [ 1.1891e-04,  1.9681e-04, -8.0442e-04,  ...,  2.2113e-05,
+          1.3936e-04, -8.5068e-04],
+        [ 9.9468e-04,  3.3779e-03,  1.3847e-02,  ...,  3.7067e-06,
+          1.1917e-02,  7.5607e-03]], device='cuda:0')
+Epoch 151, bias, value: tensor([ 0.0195, -0.0025,  0.0029,  0.0163, -0.0055, -0.0054,  0.0094,  0.0253,
+        -0.0300,  0.0406], device='cuda:0'), grad: tensor([-0.0038, -0.0235, -0.0354, -0.0025, -0.0105, -0.0041,  0.0285,  0.0127,
+        -0.0113,  0.0500], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 150, time 218.74, cls_loss 0.5601 cls_loss_mapping 0.0126 cls_loss_causal 0.5309 re_mapping 0.0092 re_causal 0.0238 /// teacc 98.73 lr 0.00010000
+Epoch 152, weight, value: tensor([[-0.0687,  0.0619, -0.0769,  ..., -0.0870, -0.0655, -0.0006],
+        [-0.0431, -0.1124,  0.0044,  ..., -0.0574, -0.0303, -0.0606],
+        [ 0.0279, -0.0800,  0.0392,  ...,  0.1455, -0.0923, -0.0403],
+        ...,
+        [-0.0706, -0.1113,  0.0767,  ..., -0.0161, -0.0198,  0.0645],
+        [ 0.0142,  0.0320, -0.0322,  ..., -0.0711, -0.0863, -0.0072],
+        [-0.1179, -0.0138, -0.0077,  ..., -0.1221,  0.0929,  0.0111]],
+       device='cuda:0'), grad: tensor([[ 1.3037e-03,  2.0809e-03,  1.4296e-03,  ...,  1.1644e-03,
+          3.6716e-04,  3.6964e-03],
+        [-3.7146e-04,  1.1486e-04,  5.2404e-04,  ...,  2.3854e-04,
+          4.4852e-05, -6.1750e-04],
+        [-4.9305e-04, -1.5478e-03, -2.0752e-03,  ..., -3.7270e-03,
+          1.4174e-04, -4.1151e-04],
+        ...,
+        [ 5.9700e-04,  2.5415e-04,  1.0824e-03,  ...,  3.8052e-04,
+          3.2830e-04, -2.2221e-03],
+        [ 2.9206e-04,  9.1696e-04,  1.2312e-03,  ...,  2.7561e-04,
+          4.6396e-04, -9.2077e-04],
+        [-2.4376e-03, -3.8457e-04,  2.3460e-03,  ...,  1.2560e-03,
+         -6.9809e-04, -2.2964e-03]], device='cuda:0')
+Epoch 152, bias, value: tensor([ 0.0196, -0.0028,  0.0032,  0.0170, -0.0057, -0.0056,  0.0079,  0.0250,
+        -0.0299,  0.0418], device='cuda:0'), grad: tensor([ 0.0256, -0.0060, -0.0029, -0.0148,  0.0098,  0.0241, -0.0036, -0.0129,
+        -0.0108, -0.0085], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 151, time 218.31, cls_loss 0.5558 cls_loss_mapping 0.0097 cls_loss_causal 0.5285 re_mapping 0.0097 re_causal 0.0243 /// teacc 98.65 lr 0.00010000
+Epoch 153, weight, value: tensor([[-0.0688,  0.0615, -0.0776,  ..., -0.0875, -0.0652, -0.0013],
+        [-0.0431, -0.1108,  0.0047,  ..., -0.0565, -0.0308, -0.0603],
+        [ 0.0284, -0.0793,  0.0388,  ...,  0.1459, -0.0925, -0.0407],
+        ...,
+        [-0.0714, -0.1121,  0.0772,  ..., -0.0153, -0.0190,  0.0650],
+        [ 0.0151,  0.0322, -0.0312,  ..., -0.0697, -0.0847, -0.0066],
+        [-0.1182, -0.0140, -0.0083,  ..., -0.1229,  0.0918,  0.0110]],
+       device='cuda:0'), grad: tensor([[ 5.0926e-04,  2.9182e-04,  6.3896e-04,  ...,  7.8022e-05,
+          1.3143e-05,  1.2913e-03],
+        [-5.1230e-05, -1.0926e-04, -1.1358e-03,  ...,  4.0913e-04,
+          4.8494e-04, -9.3365e-04],
+        [ 2.3854e-04,  1.5652e-04,  2.1183e-04,  ...,  7.2062e-05,
+          3.0309e-05,  1.3323e-03],
+        ...,
+        [-7.1287e-04,  7.0095e-05,  2.5702e-04,  ...,  7.3314e-05,
+          2.8268e-05,  3.7346e-03],
+        [ 3.8109e-03,  3.4142e-03,  6.6090e-04,  ...,  9.9897e-05,
+          3.9995e-05,  1.1921e-03],
+        [ 3.9005e-04,  2.0123e-04, -8.7118e-04,  ...,  9.5010e-05,
+          2.5332e-05, -6.6071e-03]], device='cuda:0')
+Epoch 153, bias, value: tensor([ 0.0196, -0.0016,  0.0026,  0.0173, -0.0055, -0.0055,  0.0078,  0.0247,
+        -0.0295,  0.0404], device='cuda:0'), grad: tensor([ 0.0199, -0.0334,  0.0156,  0.0249, -0.0388, -0.0126, -0.0100,  0.0316,
+         0.0334, -0.0305], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 152, time 219.26, cls_loss 0.5339 cls_loss_mapping 0.0115 cls_loss_causal 0.5028 re_mapping 0.0098 re_causal 0.0237 /// teacc 98.73 lr 0.00010000
+Epoch 154, weight, value: tensor([[-0.0688,  0.0620, -0.0784,  ..., -0.0877, -0.0650, -0.0016],
+        [-0.0433, -0.1104,  0.0038,  ..., -0.0553, -0.0323, -0.0615],
+        [ 0.0286, -0.0799,  0.0397,  ...,  0.1460, -0.0931, -0.0403],
+        ...,
+        [-0.0714, -0.1114,  0.0776,  ..., -0.0148, -0.0193,  0.0655],
+        [ 0.0149,  0.0322, -0.0304,  ..., -0.0696, -0.0841, -0.0068],
+        [-0.1186, -0.0134, -0.0079,  ..., -0.1213,  0.0925,  0.0116]],
+       device='cuda:0'), grad: tensor([[ 8.4209e-04,  2.8305e-03,  5.8651e-04,  ...,  2.4378e-04,
+          1.8036e-04,  4.9829e-04],
+        [ 2.9135e-04,  1.6499e-04,  5.8508e-04,  ...,  5.5075e-04,
+          7.5221e-05,  1.1969e-03],
+        [ 3.5644e-05,  4.0197e-04,  9.8705e-04,  ...,  1.6522e-04,
+          6.5207e-05,  1.2226e-03],
+        ...,
+        [-5.2564e-06,  1.7977e-04, -3.4485e-03,  ..., -2.7351e-03,
+         -9.6917e-05, -6.8817e-03],
+        [ 2.1229e-03,  4.7340e-03,  3.5739e-04,  ...,  1.2600e-04,
+          1.0222e-04,  3.6573e-04],
+        [ 1.5459e-03,  4.1542e-03,  2.9488e-03,  ...,  7.1669e-04,
+          2.7695e-03,  1.8368e-03]], device='cuda:0')
+Epoch 154, bias, value: tensor([ 0.0194, -0.0026,  0.0033,  0.0168, -0.0055, -0.0057,  0.0089,  0.0250,
+        -0.0303,  0.0412], device='cuda:0'), grad: tensor([ 0.0137,  0.0090,  0.0098,  0.0107,  0.0066, -0.0080, -0.0601, -0.0218,
+         0.0127,  0.0274], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 153, time 218.44, cls_loss 0.5141 cls_loss_mapping 0.0078 cls_loss_causal 0.4911 re_mapping 0.0094 re_causal 0.0237 /// teacc 98.67 lr 0.00010000
+Epoch 155, weight, value: tensor([[-0.0691,  0.0621, -0.0772,  ..., -0.0880, -0.0644, -0.0008],
+        [-0.0436, -0.1108,  0.0031,  ..., -0.0559, -0.0327, -0.0620],
+        [ 0.0288, -0.0800,  0.0392,  ...,  0.1465, -0.0939, -0.0405],
+        ...,
+        [-0.0706, -0.1124,  0.0771,  ..., -0.0147, -0.0209,  0.0650],
+        [ 0.0146,  0.0336, -0.0281,  ..., -0.0695, -0.0844, -0.0073],
+        [-0.1179, -0.0145, -0.0091,  ..., -0.1226,  0.0927,  0.0126]],
+       device='cuda:0'), grad: tensor([[ 1.8730e-03,  1.5945e-03,  7.7105e-04,  ...,  5.6982e-04,
+          5.7316e-04,  2.1057e-03],
+        [ 2.0194e-04,  7.8976e-05, -1.2497e-02,  ..., -1.7654e-02,
+         -1.3084e-03, -1.4629e-03],
+        [ 7.6485e-04,  1.6165e-04,  5.2223e-03,  ...,  9.4986e-03,
+          1.1940e-03,  3.3164e-04],
+        ...,
+        [-2.3136e-03,  6.5231e-04,  5.1689e-03,  ...,  1.0178e-02,
+          8.3303e-04,  1.5078e-03],
+        [-9.9421e-05, -8.2684e-04, -4.4899e-03,  ..., -3.2215e-03,
+         -2.2049e-03,  1.1539e-03],
+        [-1.4486e-03, -1.9302e-03,  1.8673e-03,  ...,  3.9482e-03,
+         -8.1730e-04, -8.3923e-03]], device='cuda:0')
+Epoch 155, bias, value: tensor([ 0.0196, -0.0024,  0.0028,  0.0162, -0.0055, -0.0048,  0.0081,  0.0253,
+        -0.0304,  0.0415], device='cuda:0'), grad: tensor([ 0.0198, -0.0584, -0.0014, -0.0150,  0.0047, -0.0131,  0.0321,  0.0469,
+         0.0019, -0.0175], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 154, time 216.62, cls_loss 0.5601 cls_loss_mapping 0.0084 cls_loss_causal 0.5348 re_mapping 0.0094 re_causal 0.0237 /// teacc 98.58 lr 0.00010000
+Epoch 156, weight, value: tensor([[-0.0684,  0.0620, -0.0767,  ..., -0.0891, -0.0635, -0.0006],
+        [-0.0440, -0.1118,  0.0037,  ..., -0.0545, -0.0315, -0.0609],
+        [ 0.0298, -0.0786,  0.0392,  ...,  0.1461, -0.0949, -0.0404],
+        ...,
+        [-0.0711, -0.1125,  0.0767,  ..., -0.0155, -0.0219,  0.0643],
+        [ 0.0159,  0.0336, -0.0288,  ..., -0.0707, -0.0841, -0.0074],
+        [-0.1188, -0.0138, -0.0088,  ..., -0.1226,  0.0929,  0.0123]],
+       device='cuda:0'), grad: tensor([[ 1.4763e-03,  9.6893e-04,  2.8825e-04,  ...,  9.6858e-06,
+          3.7932e-04, -1.3113e-04],
+        [ 8.3303e-04,  6.5994e-04, -6.5374e-04,  ...,  3.1495e-04,
+          5.0831e-04,  1.4753e-03],
+        [ 1.2794e-02, -5.6877e-03,  2.0432e-02,  ...,  2.2491e-02,
+          3.5167e-04,  1.8826e-03],
+        ...,
+        [-2.4902e-02,  2.1183e-04, -2.5848e-02,  ..., -2.6611e-02,
+          1.8597e-04, -1.1511e-03],
+        [ 9.5367e-03,  6.2561e-03,  1.5440e-03,  ...,  6.2132e-04,
+          1.7118e-04,  9.2411e-04],
+        [ 1.5430e-03,  3.9911e-04,  2.5368e-03,  ...,  1.2064e-03,
+          1.5039e-03,  2.2392e-03]], device='cuda:0')
+Epoch 156, bias, value: tensor([ 0.0203, -0.0014,  0.0024,  0.0173, -0.0060, -0.0053,  0.0077,  0.0242,
+        -0.0304,  0.0418], device='cuda:0'), grad: tensor([-0.0111, -0.0139,  0.0411,  0.0025, -0.0092, -0.0127,  0.0215, -0.0431,
+         0.0056,  0.0193], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 155, time 216.64, cls_loss 0.5699 cls_loss_mapping 0.0099 cls_loss_causal 0.5400 re_mapping 0.0094 re_causal 0.0240 /// teacc 98.45 lr 0.00010000
+Epoch 157, weight, value: tensor([[-0.0696,  0.0614, -0.0764,  ..., -0.0896, -0.0645, -0.0004],
+        [-0.0440, -0.1117,  0.0033,  ..., -0.0546, -0.0322, -0.0613],
+        [ 0.0292, -0.0786,  0.0392,  ...,  0.1456, -0.0958, -0.0409],
+        ...,
+        [-0.0702, -0.1121,  0.0765,  ..., -0.0154, -0.0223,  0.0643],
+        [ 0.0160,  0.0347, -0.0289,  ..., -0.0698, -0.0843, -0.0062],
+        [-0.1205, -0.0151, -0.0082,  ..., -0.1219,  0.0944,  0.0123]],
+       device='cuda:0'), grad: tensor([[ 1.0815e-03,  4.4733e-05,  3.8028e-04,  ...,  1.4658e-03,
+          1.4818e-04,  2.4452e-03],
+        [-1.8787e-03,  1.2428e-05, -1.2913e-03,  ..., -8.9979e-04,
+         -1.2579e-03, -2.5320e-04],
+        [-5.3501e-04,  2.0444e-04,  3.9864e-04,  ...,  2.4748e-04,
+          1.6057e-04,  1.7290e-03],
+        ...,
+        [-2.5921e-03,  4.1038e-05,  3.7026e-04,  ..., -2.9392e-03,
+          2.9349e-04, -9.2316e-03],
+        [ 2.2564e-03,  1.8177e-03,  3.9816e-04,  ...,  6.0415e-04,
+          1.1616e-03,  1.3151e-03],
+        [ 2.6646e-03, -7.9203e-04, -4.2272e-04,  ..., -7.6008e-04,
+          1.1063e-03, -1.4429e-03]], device='cuda:0')
+Epoch 157, bias, value: tensor([ 0.0200, -0.0017,  0.0026,  0.0167, -0.0067, -0.0050,  0.0091,  0.0237,
+        -0.0293,  0.0411], device='cuda:0'), grad: tensor([ 0.0261, -0.0650, -0.0051,  0.0284, -0.0093,  0.0081,  0.0181, -0.0122,
+         0.0248, -0.0139], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 156, time 216.58, cls_loss 0.5667 cls_loss_mapping 0.0105 cls_loss_causal 0.5379 re_mapping 0.0095 re_causal 0.0240 /// teacc 98.82 lr 0.00010000
+Epoch 158, weight, value: tensor([[-0.0692,  0.0617, -0.0769,  ..., -0.0904, -0.0650, -0.0008],
+        [-0.0454, -0.1122,  0.0030,  ..., -0.0544, -0.0306, -0.0622],
+        [ 0.0284, -0.0800,  0.0391,  ...,  0.1458, -0.0955, -0.0416],
+        ...,
+        [-0.0702, -0.1129,  0.0766,  ..., -0.0161, -0.0230,  0.0644],
+        [ 0.0150,  0.0340, -0.0285,  ..., -0.0696, -0.0847, -0.0053],
+        [-0.1204, -0.0147, -0.0079,  ..., -0.1208,  0.0940,  0.0118]],
+       device='cuda:0'), grad: tensor([[ 1.2512e-02,  1.7715e-02, -3.4404e-04,  ...,  3.1147e-03,
+          7.7009e-05, -1.6606e-04],
+        [ 8.0299e-04,  6.1369e-04,  1.6241e-03,  ..., -1.6883e-05,
+          2.1338e-04,  1.3552e-03],
+        [-3.0041e-04,  3.4189e-04,  1.2903e-03,  ..., -1.3757e-04,
+          2.4295e-04,  1.5755e-03],
+        ...,
+        [ 7.8821e-04,  4.7350e-04,  3.4828e-03,  ...,  1.4007e-04,
+          5.6362e-04,  3.9787e-03],
+        [-1.1292e-02, -1.7090e-02,  1.3580e-03,  ..., -3.0479e-03,
+         -2.9564e-03,  1.0147e-03],
+        [-1.4524e-03, -4.5753e-04, -1.2337e-02,  ..., -8.4639e-05,
+          4.1618e-03, -1.4633e-02]], device='cuda:0')
+Epoch 158, bias, value: tensor([ 0.0201, -0.0027,  0.0026,  0.0176, -0.0068, -0.0060,  0.0098,  0.0244,
+        -0.0296,  0.0411], device='cuda:0'), grad: tensor([ 0.0139,  0.0188, -0.0008,  0.0282,  0.0453, -0.0166,  0.0192,  0.0264,
+        -0.0400, -0.0944], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 157, time 218.92, cls_loss 0.5431 cls_loss_mapping 0.0114 cls_loss_causal 0.5171 re_mapping 0.0091 re_causal 0.0219 /// teacc 98.80 lr 0.00010000
+Epoch 159, weight, value: tensor([[-0.0683,  0.0618, -0.0781,  ..., -0.0909, -0.0652, -0.0007],
+        [-0.0448, -0.1129,  0.0022,  ..., -0.0543, -0.0319, -0.0631],
+        [ 0.0300, -0.0779,  0.0391,  ...,  0.1452, -0.0967, -0.0417],
+        ...,
+        [-0.0703, -0.1143,  0.0775,  ..., -0.0150, -0.0235,  0.0645],
+        [ 0.0140,  0.0338, -0.0277,  ..., -0.0691, -0.0851, -0.0050],
+        [-0.1212, -0.0143, -0.0075,  ..., -0.1212,  0.0943,  0.0122]],
+       device='cuda:0'), grad: tensor([[ 5.7030e-04,  9.7132e-04,  1.1015e-03,  ...,  3.6091e-05,
+          8.8739e-04,  2.0275e-03],
+        [ 8.2636e-04,  1.0605e-03,  3.2902e-04,  ...,  1.9884e-04,
+          1.4067e-03,  2.0523e-03],
+        [ 3.3307e-04,  1.4317e-04, -1.2608e-03,  ...,  5.5432e-05,
+         -1.7691e-04, -1.1835e-03],
+        ...,
+        [ 2.5105e-04,  1.1396e-03,  5.9223e-04,  ...,  5.7077e-04,
+          1.0681e-03,  2.5787e-03],
+        [ 3.5882e-04,  7.7534e-04,  1.5068e-03,  ...,  1.5569e-04,
+          1.4734e-03,  2.5101e-03],
+        [ 1.1292e-03,  3.7689e-03,  1.6571e-02,  ...,  3.8028e-04,
+          1.0933e-02,  7.9346e-03]], device='cuda:0')
+Epoch 159, bias, value: tensor([ 0.0208, -0.0024,  0.0027,  0.0152, -0.0067, -0.0057,  0.0100,  0.0248,
+        -0.0298,  0.0418], device='cuda:0'), grad: tensor([ 0.0188,  0.0134, -0.0178, -0.0408, -0.0386,  0.0123, -0.0091,  0.0180,
+         0.0164,  0.0275], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 158, time 219.29, cls_loss 0.5245 cls_loss_mapping 0.0097 cls_loss_causal 0.5013 re_mapping 0.0091 re_causal 0.0220 /// teacc 98.73 lr 0.00010000
+Epoch 160, weight, value: tensor([[-6.8483e-02,  6.1669e-02, -7.7909e-02,  ..., -9.0573e-02,
+         -6.4763e-02, -5.0795e-05],
+        [-4.5457e-02, -1.1327e-01,  2.4119e-03,  ..., -5.3127e-02,
+         -3.2702e-02, -6.2612e-02],
+        [ 2.9776e-02, -7.8854e-02,  4.0121e-02,  ...,  1.4512e-01,
+         -9.4742e-02, -4.0965e-02],
+        ...,
+        [-7.0818e-02, -1.1364e-01,  7.7740e-02,  ..., -1.4546e-02,
+         -2.4119e-02,  6.3351e-02],
+        [ 1.4701e-02,  3.3704e-02, -2.7862e-02,  ..., -7.0124e-02,
+         -8.6117e-02, -5.2873e-03],
+        [-1.2245e-01, -1.4197e-02, -8.0442e-03,  ..., -1.2212e-01,
+          9.3973e-02,  1.2549e-02]], device='cuda:0'), grad: tensor([[ 0.0051,  0.0048,  0.0010,  ...,  0.0003,  0.0004,  0.0008],
+        [-0.0067, -0.0014,  0.0007,  ...,  0.0015, -0.0005,  0.0011],
+        [ 0.0044,  0.0012,  0.0009,  ..., -0.0009,  0.0006,  0.0008],
+        ...,
+        [-0.0104,  0.0003, -0.0058,  ..., -0.0015, -0.0007, -0.0027],
+        [-0.0058, -0.0047, -0.0017,  ...,  0.0005, -0.0033, -0.0005],
+        [ 0.0015,  0.0013,  0.0013,  ...,  0.0002,  0.0002,  0.0006]],
+       device='cuda:0')
+Epoch 160, bias, value: tensor([ 0.0202, -0.0009,  0.0031,  0.0144, -0.0067, -0.0061,  0.0097,  0.0246,
+        -0.0294,  0.0416], device='cuda:0'), grad: tensor([ 0.0220,  0.0174,  0.0215, -0.0139,  0.0146, -0.0145,  0.0062, -0.0420,
+        -0.0281,  0.0166], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 159, time 216.86, cls_loss 0.5329 cls_loss_mapping 0.0089 cls_loss_causal 0.5042 re_mapping 0.0091 re_causal 0.0228 /// teacc 98.71 lr 0.00010000
+Epoch 161, weight, value: tensor([[-0.0694,  0.0620, -0.0792,  ..., -0.0914, -0.0661, -0.0004],
+        [-0.0467, -0.1146,  0.0017,  ..., -0.0543, -0.0338, -0.0642],
+        [ 0.0292, -0.0791,  0.0410,  ...,  0.1458, -0.0963, -0.0416],
+        ...,
+        [-0.0710, -0.1135,  0.0776,  ..., -0.0158, -0.0240,  0.0633],
+        [ 0.0141,  0.0334, -0.0282,  ..., -0.0702, -0.0872, -0.0056],
+        [-0.1244, -0.0148, -0.0082,  ..., -0.1229,  0.0942,  0.0126]],
+       device='cuda:0'), grad: tensor([[ 4.0674e-04,  7.0333e-04,  3.0088e-04,  ...,  4.7266e-05,
+          2.1446e-04,  8.1730e-04],
+        [ 2.5940e-04,  3.0851e-04,  9.7466e-04,  ...,  2.1517e-05,
+          2.3651e-04,  2.6302e-03],
+        [ 3.9101e-04,  4.0531e-04,  2.4581e-04,  ...,  1.6403e-04,
+          1.9467e-04,  6.9189e-04],
+        ...,
+        [-2.0492e-04, -4.9353e-04, -5.1308e-03,  ..., -9.8705e-04,
+         -2.7466e-03, -7.4501e-03],
+        [ 5.0592e-04,  2.4259e-04,  4.5872e-04,  ...,  3.6192e-04,
+          3.4499e-04,  9.3937e-04],
+        [ 8.3637e-04,  1.3685e-03,  3.0193e-03,  ...,  7.9393e-04,
+          2.5864e-03,  3.3760e-03]], device='cuda:0')
+Epoch 161, bias, value: tensor([ 0.0194, -0.0016,  0.0028,  0.0154, -0.0063, -0.0068,  0.0105,  0.0246,
+        -0.0295,  0.0418], device='cuda:0'), grad: tensor([ 0.0050,  0.0123,  0.0041,  0.0147,  0.0080,  0.0010, -0.0366, -0.0305,
+         0.0080,  0.0140], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 160, time 216.85, cls_loss 0.5387 cls_loss_mapping 0.0099 cls_loss_causal 0.5163 re_mapping 0.0095 re_causal 0.0247 /// teacc 98.65 lr 0.00010000
+Epoch 162, weight, value: tensor([[-0.0695,  0.0615, -0.0795,  ..., -0.0910, -0.0656, -0.0011],
+        [-0.0471, -0.1145,  0.0031,  ..., -0.0542, -0.0334, -0.0643],
+        [ 0.0291, -0.0797,  0.0421,  ...,  0.1472, -0.0981, -0.0422],
+        ...,
+        [-0.0718, -0.1146,  0.0779,  ..., -0.0163, -0.0242,  0.0634],
+        [ 0.0148,  0.0334, -0.0293,  ..., -0.0706, -0.0884, -0.0056],
+        [-0.1238, -0.0139, -0.0087,  ..., -0.1234,  0.0943,  0.0128]],
+       device='cuda:0'), grad: tensor([[ 5.7650e-04,  4.5705e-04,  2.0289e-04,  ...,  2.9469e-04,
+         -1.6356e-03, -2.4376e-03],
+        [-3.4422e-05, -2.4307e-04,  3.2997e-04,  ...,  5.4359e-04,
+          2.6464e-04,  3.6454e-04],
+        [ 9.4700e-04,  9.8801e-04, -6.9542e-03,  ..., -3.3016e-03,
+          1.8930e-04,  2.2209e-04],
+        ...,
+        [-6.6662e-04, -4.9829e-04,  3.8033e-03,  ...,  1.8873e-03,
+          6.3801e-04,  1.5509e-04],
+        [-2.0552e-04,  3.2926e-04,  6.1274e-04,  ...,  4.5443e-04,
+          1.5640e-04,  1.9860e-04],
+        [ 2.6250e-04,  3.5691e-04,  1.1272e-03,  ...,  5.0735e-04,
+          2.3866e-04,  2.2471e-04]], device='cuda:0')
+Epoch 162, bias, value: tensor([ 0.0191, -0.0009,  0.0027,  0.0143, -0.0071, -0.0055,  0.0106,  0.0248,
+        -0.0298,  0.0423], device='cuda:0'), grad: tensor([-0.0204, -0.0152, -0.0044,  0.0034,  0.0371, -0.0184,  0.0128, -0.0162,
+         0.0099,  0.0113], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 161, time 216.65, cls_loss 0.5446 cls_loss_mapping 0.0124 cls_loss_causal 0.5147 re_mapping 0.0088 re_causal 0.0214 /// teacc 98.71 lr 0.00010000
+Epoch 163, weight, value: tensor([[-0.0702,  0.0617, -0.0803,  ..., -0.0923, -0.0657, -0.0011],
+        [-0.0474, -0.1145,  0.0038,  ..., -0.0545, -0.0319, -0.0647],
+        [ 0.0277, -0.0806,  0.0431,  ...,  0.1472, -0.0983, -0.0412],
+        ...,
+        [-0.0722, -0.1153,  0.0784,  ..., -0.0155, -0.0247,  0.0633],
+        [ 0.0159,  0.0329, -0.0297,  ..., -0.0699, -0.0883, -0.0060],
+        [-0.1240, -0.0136, -0.0092,  ..., -0.1232,  0.0943,  0.0131]],
+       device='cuda:0'), grad: tensor([[-1.4257e-03, -9.5825e-03,  1.6820e-04,  ..., -2.8563e-04,
+          4.0102e-04, -5.7030e-04],
+        [-1.5173e-03, -8.7404e-04, -3.2902e-04,  ...,  3.1680e-05,
+         -3.5572e-04,  5.4979e-04],
+        [ 2.3697e-02,  1.1482e-02, -1.5097e-03,  ...,  6.1111e-03,
+          3.6764e-04,  6.8951e-04],
+        ...,
+        [ 4.2033e-04,  5.3501e-04,  2.7680e-04,  ...,  2.7418e-04,
+          6.1655e-04,  5.7983e-04],
+        [ 1.6317e-03,  2.5272e-03,  1.9741e-03,  ...,  2.1458e-04,
+          3.4046e-04,  6.9857e-05],
+        [ 1.6060e-03,  1.8539e-03,  2.3117e-03,  ...,  5.9962e-05,
+          1.3657e-03,  1.0414e-03]], device='cuda:0')
+Epoch 163, bias, value: tensor([ 0.0188, -0.0013,  0.0022,  0.0136, -0.0073, -0.0056,  0.0106,  0.0259,
+        -0.0295,  0.0429], device='cuda:0'), grad: tensor([ 0.0060, -0.0081,  0.0283, -0.0225,  0.0071, -0.0155, -0.0064,  0.0115,
+        -0.0250,  0.0246], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 162, time 216.73, cls_loss 0.5395 cls_loss_mapping 0.0104 cls_loss_causal 0.5126 re_mapping 0.0094 re_causal 0.0226 /// teacc 98.77 lr 0.00010000
+Epoch 164, weight, value: tensor([[-0.0709,  0.0615, -0.0808,  ..., -0.0931, -0.0663, -0.0017],
+        [-0.0483, -0.1164,  0.0043,  ..., -0.0537, -0.0305, -0.0641],
+        [ 0.0277, -0.0812,  0.0425,  ...,  0.1464, -0.0981, -0.0408],
+        ...,
+        [-0.0731, -0.1171,  0.0789,  ..., -0.0147, -0.0255,  0.0641],
+        [ 0.0150,  0.0325, -0.0295,  ..., -0.0694, -0.0881, -0.0062],
+        [-0.1237, -0.0127, -0.0093,  ..., -0.1228,  0.0939,  0.0127]],
+       device='cuda:0'), grad: tensor([[-0.0101, -0.0087,  0.0009,  ...,  0.0002,  0.0003, -0.0039],
+        [ 0.0006,  0.0005,  0.0008,  ...,  0.0085,  0.0006,  0.0024],
+        [ 0.0028,  0.0020, -0.0007,  ..., -0.0002, -0.0010, -0.0009],
+        ...,
+        [ 0.0007,  0.0007, -0.0028,  ...,  0.0002,  0.0007, -0.0008],
+        [ 0.0023,  0.0022,  0.0009,  ...,  0.0001,  0.0006,  0.0035],
+        [ 0.0002,  0.0008,  0.0019,  ...,  0.0002, -0.0015, -0.0017]],
+       device='cuda:0')
+Epoch 164, bias, value: tensor([ 0.0183, -0.0011,  0.0021,  0.0141, -0.0068, -0.0053,  0.0093,  0.0264,
+        -0.0294,  0.0427], device='cuda:0'), grad: tensor([-0.0026,  0.0468, -0.0079,  0.0012,  0.0122,  0.0154, -0.0718,  0.0049,
+         0.0195, -0.0178], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 163, time 216.43, cls_loss 0.5199 cls_loss_mapping 0.0110 cls_loss_causal 0.4898 re_mapping 0.0092 re_causal 0.0223 /// teacc 98.76 lr 0.00010000
+Epoch 165, weight, value: tensor([[-0.0711,  0.0615, -0.0806,  ..., -0.0926, -0.0664, -0.0013],
+        [-0.0494, -0.1171,  0.0045,  ..., -0.0546, -0.0306, -0.0638],
+        [ 0.0291, -0.0809,  0.0430,  ...,  0.1470, -0.0989, -0.0398],
+        ...,
+        [-0.0741, -0.1171,  0.0776,  ..., -0.0154, -0.0246,  0.0637],
+        [ 0.0148,  0.0326, -0.0297,  ..., -0.0689, -0.0891, -0.0075],
+        [-0.1240, -0.0135, -0.0075,  ..., -0.1221,  0.0935,  0.0142]],
+       device='cuda:0'), grad: tensor([[ 9.1743e-04,  1.0662e-03,  1.1168e-03,  ...,  1.8990e-04,
+          6.1369e-04,  1.4267e-03],
+        [ 9.7847e-04,  5.5075e-04,  1.7529e-03,  ...,  6.8665e-04,
+          8.0729e-04,  8.4066e-04],
+        [-6.7282e-04, -5.8889e-04, -2.3270e-03,  ..., -2.9545e-03,
+          4.5633e-04,  3.1710e-04],
+        ...,
+        [ 3.7432e-04,  4.2367e-04,  3.4885e-03,  ...,  1.2989e-03,
+          2.3818e-04,  5.3596e-04],
+        [-5.1422e-03,  1.6451e-03,  8.9264e-04,  ...,  1.3030e-04,
+          2.1672e-04,  6.4135e-04],
+        [ 4.5490e-04, -1.5104e-04, -6.5689e-03,  ...,  8.1599e-05,
+         -1.8692e-03,  1.1959e-03]], device='cuda:0')
+Epoch 165, bias, value: tensor([ 0.0193, -0.0017,  0.0029,  0.0142, -0.0065, -0.0051,  0.0093,  0.0259,
+        -0.0306,  0.0427], device='cuda:0'), grad: tensor([ 0.0230,  0.0268, -0.0196,  0.0280, -0.0609, -0.0074,  0.0026,  0.0243,
+        -0.0050, -0.0118], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 164, time 216.57, cls_loss 0.5489 cls_loss_mapping 0.0087 cls_loss_causal 0.5102 re_mapping 0.0091 re_causal 0.0225 /// teacc 98.79 lr 0.00010000
+Epoch 166, weight, value: tensor([[-0.0707,  0.0618, -0.0810,  ..., -0.0937, -0.0670, -0.0018],
+        [-0.0505, -0.1173,  0.0039,  ..., -0.0560, -0.0300, -0.0645],
+        [ 0.0292, -0.0816,  0.0430,  ...,  0.1481, -0.0996, -0.0400],
+        ...,
+        [-0.0750, -0.1181,  0.0775,  ..., -0.0161, -0.0240,  0.0645],
+        [ 0.0151,  0.0327, -0.0296,  ..., -0.0680, -0.0903, -0.0071],
+        [-0.1245, -0.0120, -0.0072,  ..., -0.1225,  0.0946,  0.0153]],
+       device='cuda:0'), grad: tensor([[-6.4611e-04, -7.2908e-04,  5.4264e-04,  ..., -1.6558e-04,
+          1.2815e-04, -1.5898e-03],
+        [-1.2350e-03, -3.0575e-03, -7.8888e-03,  ..., -5.4245e-03,
+          1.4949e-04, -2.7218e-03],
+        [ 1.0929e-03,  1.9426e-03,  6.4697e-03,  ...,  3.6888e-03,
+          1.3912e-04,  2.1572e-03],
+        ...,
+        [ 8.9874e-03,  1.0977e-03,  4.5433e-03,  ...,  2.4724e-04,
+          3.3522e-04,  1.3151e-03],
+        [ 3.7689e-03,  2.3575e-03, -3.8743e-05,  ...,  1.3030e-04,
+          9.8467e-05, -5.8889e-04],
+        [ 4.6277e-04, -2.2030e-03, -2.3918e-03,  ...,  2.8753e-04,
+         -2.4357e-03, -3.6354e-03]], device='cuda:0')
+Epoch 166, bias, value: tensor([ 0.0188, -0.0018,  0.0029,  0.0150, -0.0074, -0.0047,  0.0088,  0.0254,
+        -0.0302,  0.0435], device='cuda:0'), grad: tensor([-0.0121, -0.0804,  0.0479, -0.0323,  0.0293, -0.0011,  0.0247,  0.0488,
+        -0.0315,  0.0067], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 165, time 216.89, cls_loss 0.5125 cls_loss_mapping 0.0077 cls_loss_causal 0.4796 re_mapping 0.0097 re_causal 0.0233 /// teacc 98.69 lr 0.00010000
+Epoch 167, weight, value: tensor([[-0.0699,  0.0631, -0.0811,  ..., -0.0932, -0.0687, -0.0016],
+        [-0.0510, -0.1170,  0.0050,  ..., -0.0544, -0.0307, -0.0640],
+        [ 0.0282, -0.0822,  0.0429,  ...,  0.1475, -0.1005, -0.0404],
+        ...,
+        [-0.0755, -0.1197,  0.0772,  ..., -0.0164, -0.0234,  0.0647],
+        [ 0.0153,  0.0324, -0.0299,  ..., -0.0679, -0.0913, -0.0071],
+        [-0.1253, -0.0119, -0.0068,  ..., -0.1233,  0.0952,  0.0153]],
+       device='cuda:0'), grad: tensor([[ 0.0007,  0.0007,  0.0003,  ...,  0.0003,  0.0003,  0.0007],
+        [ 0.0006,  0.0006, -0.0035,  ..., -0.0011, -0.0056, -0.0067],
+        [ 0.0036,  0.0012,  0.0011,  ...,  0.0016,  0.0008,  0.0019],
+        ...,
+        [-0.0008, -0.0032, -0.0030,  ..., -0.0016, -0.0005, -0.0034],
+        [ 0.0065,  0.0028,  0.0009,  ...,  0.0023,  0.0013,  0.0017],
+        [-0.0006, -0.0006,  0.0010,  ...,  0.0006,  0.0007, -0.0028]],
+       device='cuda:0')
+Epoch 167, bias, value: tensor([ 0.0186, -0.0015,  0.0022,  0.0162, -0.0068, -0.0056,  0.0088,  0.0248,
+        -0.0301,  0.0436], device='cuda:0'), grad: tensor([ 0.0100, -0.0319,  0.0195, -0.0168,  0.0083,  0.0032,  0.0286, -0.0419,
+         0.0243, -0.0033], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 166, time 217.03, cls_loss 0.5415 cls_loss_mapping 0.0099 cls_loss_causal 0.5131 re_mapping 0.0087 re_causal 0.0218 /// teacc 98.77 lr 0.00010000
+Epoch 168, weight, value: tensor([[-0.0699,  0.0630, -0.0823,  ..., -0.0944, -0.0709, -0.0027],
+        [-0.0507, -0.1167,  0.0051,  ..., -0.0534, -0.0309, -0.0644],
+        [ 0.0288, -0.0816,  0.0444,  ...,  0.1480, -0.1003, -0.0401],
+        ...,
+        [-0.0759, -0.1203,  0.0777,  ..., -0.0163, -0.0230,  0.0657],
+        [ 0.0148,  0.0323, -0.0300,  ..., -0.0683, -0.0923, -0.0074],
+        [-0.1258, -0.0120, -0.0074,  ..., -0.1243,  0.0960,  0.0153]],
+       device='cuda:0'), grad: tensor([[ 4.4727e-04,  1.2903e-03,  1.3940e-05,  ...,  6.0701e-04,
+          1.9109e-04,  1.6344e-04],
+        [-1.9302e-03,  1.7395e-03, -2.0695e-03,  ...,  1.1683e-03,
+          2.3305e-04,  2.8014e-04],
+        [ 1.2522e-03,  1.5841e-03,  4.8876e-04,  ...,  1.5993e-03,
+          9.2745e-05,  6.5744e-05],
+        ...,
+        [ 5.0688e-04,  5.8413e-04, -3.6210e-05,  ...,  2.0683e-04,
+          2.0850e-04,  1.6117e-04],
+        [ 5.3978e-04, -3.7003e-03,  1.3247e-03,  ..., -4.9553e-03,
+          2.2149e-04,  2.0576e-04],
+        [ 5.2738e-04,  3.4618e-03,  3.6287e-04,  ...,  1.4174e-04,
+          5.7335e-03,  7.4615e-03]], device='cuda:0')
+Epoch 168, bias, value: tensor([ 0.0180, -0.0013,  0.0025,  0.0158, -0.0071, -0.0045,  0.0091,  0.0245,
+        -0.0302,  0.0435], device='cuda:0'), grad: tensor([ 0.0109, -0.0069,  0.0193, -0.0249, -0.0107,  0.0147, -0.0268,  0.0074,
+        -0.0077,  0.0246], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 167, time 216.32, cls_loss 0.5262 cls_loss_mapping 0.0087 cls_loss_causal 0.4966 re_mapping 0.0087 re_causal 0.0202 /// teacc 98.81 lr 0.00010000
+Epoch 169, weight, value: tensor([[-0.0696,  0.0629, -0.0824,  ..., -0.0953, -0.0734, -0.0044],
+        [-0.0509, -0.1166,  0.0045,  ..., -0.0541, -0.0304, -0.0652],
+        [ 0.0278, -0.0811,  0.0438,  ...,  0.1483, -0.1017, -0.0408],
+        ...,
+        [-0.0757, -0.1205,  0.0767,  ..., -0.0161, -0.0226,  0.0670],
+        [ 0.0143,  0.0318, -0.0295,  ..., -0.0692, -0.0911, -0.0057],
+        [-0.1259, -0.0126, -0.0071,  ..., -0.1240,  0.0949,  0.0137]],
+       device='cuda:0'), grad: tensor([[-2.3413e-04, -1.5602e-03,  2.9826e-04,  ...,  3.6657e-05,
+         -7.6914e-04, -2.0182e-04],
+        [ 7.3767e-04,  1.2054e-03,  3.2973e-04,  ...,  5.6356e-05,
+          1.0090e-03,  2.6379e-03],
+        [-5.2032e-03, -3.2120e-03, -1.5354e-03,  ..., -2.0254e-04,
+         -2.4490e-03, -1.8402e-02],
+        ...,
+        [-8.9025e-04,  4.1366e-04, -9.4223e-04,  ..., -1.5438e-04,
+         -8.7357e-04, -7.2632e-03],
+        [ 9.6226e-04,  1.4849e-03,  3.3021e-04,  ...,  9.8407e-05,
+          9.6369e-04,  2.0809e-03],
+        [ 8.5068e-04,  1.0481e-03,  2.7132e-04,  ...,  6.1452e-05,
+          8.0490e-04,  2.9678e-03]], device='cuda:0')
+Epoch 169, bias, value: tensor([ 0.0180, -0.0014,  0.0020,  0.0150, -0.0071, -0.0054,  0.0100,  0.0251,
+        -0.0294,  0.0433], device='cuda:0'), grad: tensor([-0.0131,  0.0296, -0.0702, -0.0208,  0.0155,  0.0301,  0.0197, -0.0396,
+         0.0237,  0.0250], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 168, time 216.99, cls_loss 0.5649 cls_loss_mapping 0.0093 cls_loss_causal 0.5421 re_mapping 0.0090 re_causal 0.0222 /// teacc 98.73 lr 0.00010000
+Epoch 170, weight, value: tensor([[-0.0703,  0.0623, -0.0815,  ..., -0.0959, -0.0728, -0.0032],
+        [-0.0497, -0.1162,  0.0031,  ..., -0.0551, -0.0314, -0.0649],
+        [ 0.0277, -0.0814,  0.0447,  ...,  0.1490, -0.1018, -0.0396],
+        ...,
+        [-0.0756, -0.1209,  0.0781,  ..., -0.0155, -0.0217,  0.0670],
+        [ 0.0141,  0.0320, -0.0309,  ..., -0.0694, -0.0928, -0.0077],
+        [-0.1272, -0.0135, -0.0079,  ..., -0.1253,  0.0950,  0.0140]],
+       device='cuda:0'), grad: tensor([[-2.1493e-04, -1.0335e-04,  1.6558e-04,  ...,  5.9217e-05,
+          6.5756e-04,  2.3639e-04],
+        [ 7.9107e-04,  7.9393e-04,  1.7631e-04,  ...,  1.3566e-04,
+          6.9904e-04,  7.1955e-04],
+        [ 1.5745e-03,  1.0176e-03, -3.6001e-04,  ..., -7.7677e-04,
+          4.2796e-04,  2.5654e-04],
+        ...,
+        [ 6.2656e-04,  1.3342e-03,  9.3126e-04,  ...,  1.1426e-04,
+          2.1267e-03,  5.4330e-05],
+        [ 1.3409e-03,  1.8158e-03,  5.8985e-04,  ...,  9.5320e-04,
+          5.2500e-04,  2.5201e-04],
+        [-5.9853e-03, -1.2970e-02, -2.0714e-03,  ..., -9.0170e-04,
+         -2.1152e-03,  9.1124e-04]], device='cuda:0')
+Epoch 170, bias, value: tensor([ 0.0171, -0.0005,  0.0020,  0.0144, -0.0067, -0.0059,  0.0102,  0.0258,
+        -0.0301,  0.0437], device='cuda:0'), grad: tensor([-0.0179,  0.0210,  0.0165,  0.0209, -0.0090, -0.0292,  0.0145,  0.0138,
+        -0.0114, -0.0191], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 169----------------------------------------------------
+epoch 169, time 217.07, cls_loss 0.5367 cls_loss_mapping 0.0080 cls_loss_causal 0.5119 re_mapping 0.0090 re_causal 0.0230 /// teacc 98.95 lr 0.00010000
+Epoch 171, weight, value: tensor([[-0.0695,  0.0633, -0.0825,  ..., -0.0966, -0.0737, -0.0042],
+        [-0.0499, -0.1174,  0.0027,  ..., -0.0546, -0.0319, -0.0661],
+        [ 0.0273, -0.0819,  0.0449,  ...,  0.1487, -0.1018, -0.0394],
+        ...,
+        [-0.0764, -0.1214,  0.0792,  ..., -0.0152, -0.0224,  0.0662],
+        [ 0.0135,  0.0311, -0.0308,  ..., -0.0697, -0.0935, -0.0079],
+        [-0.1262, -0.0129, -0.0086,  ..., -0.1264,  0.0955,  0.0143]],
+       device='cuda:0'), grad: tensor([[-0.0059, -0.0079,  0.0004,  ...,  0.0010,  0.0009,  0.0024],
+        [-0.0006,  0.0010, -0.0113,  ..., -0.0052,  0.0001, -0.0099],
+        [ 0.0050,  0.0016,  0.0067,  ...,  0.0043, -0.0021,  0.0040],
+        ...,
+        [-0.0036,  0.0005, -0.0012,  ...,  0.0028,  0.0005,  0.0064],
+        [ 0.0083,  0.0085,  0.0033,  ...,  0.0017,  0.0016,  0.0029],
+        [-0.0006, -0.0020, -0.0016,  ..., -0.0004, -0.0046, -0.0011]],
+       device='cuda:0')
+Epoch 171, bias, value: tensor([ 0.0163, -0.0001,  0.0022,  0.0148, -0.0064, -0.0059,  0.0107,  0.0254,
+        -0.0302,  0.0436], device='cuda:0'), grad: tensor([-0.0048, -0.0514, -0.0113, -0.0313,  0.0182,  0.0283, -0.0125,  0.0250,
+         0.0469, -0.0072], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 170, time 216.23, cls_loss 0.5484 cls_loss_mapping 0.0075 cls_loss_causal 0.5235 re_mapping 0.0088 re_causal 0.0224 /// teacc 98.73 lr 0.00010000
+Epoch 172, weight, value: tensor([[-0.0693,  0.0631, -0.0817,  ..., -0.0963, -0.0723, -0.0037],
+        [-0.0501, -0.1168,  0.0028,  ..., -0.0542, -0.0319, -0.0654],
+        [ 0.0274, -0.0818,  0.0445,  ...,  0.1503, -0.1010, -0.0416],
+        ...,
+        [-0.0758, -0.1202,  0.0791,  ..., -0.0152, -0.0233,  0.0667],
+        [ 0.0134,  0.0316, -0.0316,  ..., -0.0684, -0.0936, -0.0073],
+        [-0.1264, -0.0131, -0.0080,  ..., -0.1265,  0.0964,  0.0148]],
+       device='cuda:0'), grad: tensor([[ 5.2452e-05,  7.2122e-05,  1.8907e-04,  ..., -2.7728e-04,
+          1.3745e-04,  1.3313e-03],
+        [ 1.0037e-04,  4.0340e-04,  3.1257e-04,  ...,  1.6820e-04,
+          5.1212e-04,  1.6813e-03],
+        [-2.4891e-03, -1.1473e-03, -3.4351e-03,  ..., -7.6332e-03,
+          7.4983e-05, -7.1406e-05],
+        ...,
+        [ 9.5701e-04, -7.9572e-05,  1.3037e-03,  ...,  4.1428e-03,
+         -1.0031e-04, -5.2719e-03],
+        [ 5.1051e-05, -1.5411e-03, -3.0762e-02,  ..., -2.0767e-02,
+         -2.3575e-02, -1.0460e-02],
+        [ 1.3924e-03,  4.1161e-03,  3.1677e-02,  ...,  2.0401e-02,
+          2.7451e-02,  1.2024e-02]], device='cuda:0')
+Epoch 172, bias, value: tensor([ 1.7415e-02,  8.6663e-05,  1.1879e-03,  1.5293e-02, -6.2449e-03,
+        -6.7732e-03,  1.0391e-02,  2.6085e-02, -3.0433e-02,  4.3132e-02],
+       device='cuda:0'), grad: tensor([ 0.0082,  0.0205, -0.0051, -0.0039, -0.0174,  0.0100,  0.0198, -0.0416,
+        -0.0463,  0.0557], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 171, time 216.42, cls_loss 0.5544 cls_loss_mapping 0.0097 cls_loss_causal 0.5225 re_mapping 0.0091 re_causal 0.0228 /// teacc 98.63 lr 0.00010000
+Epoch 173, weight, value: tensor([[-0.0690,  0.0626, -0.0826,  ..., -0.0970, -0.0727, -0.0040],
+        [-0.0504, -0.1173,  0.0022,  ..., -0.0530, -0.0330, -0.0667],
+        [ 0.0276, -0.0817,  0.0441,  ...,  0.1502, -0.1025, -0.0416],
+        ...,
+        [-0.0754, -0.1200,  0.0789,  ..., -0.0158, -0.0239,  0.0658],
+        [ 0.0128,  0.0308, -0.0309,  ..., -0.0679, -0.0933, -0.0073],
+        [-0.1259, -0.0132, -0.0082,  ..., -0.1277,  0.0966,  0.0140]],
+       device='cuda:0'), grad: tensor([[ 2.6393e-04,  8.3566e-05,  1.8835e-04,  ...,  4.0078e-04,
+          4.7374e-04,  1.1072e-03],
+        [ 8.9121e-04, -5.2643e-03, -4.3640e-03,  ..., -4.1122e-03,
+         -1.0239e-02, -4.8637e-03],
+        [-1.1797e-03,  3.5620e-04,  3.1567e-04,  ..., -5.2223e-03,
+          2.8276e-04, -2.5406e-03],
+        ...,
+        [ 6.8045e-04,  3.2210e-04,  3.0303e-04,  ...,  8.4591e-04,
+          6.0749e-04,  2.0828e-03],
+        [-1.0309e-03,  2.2471e-05,  5.8126e-04,  ...,  8.7023e-04,
+          1.0576e-03,  1.8406e-03],
+        [ 1.1978e-03, -2.2614e-04, -2.2888e-03,  ...,  2.0828e-03,
+          1.4791e-03,  4.0283e-03]], device='cuda:0')
+Epoch 173, bias, value: tensor([ 0.0165,  0.0007,  0.0007,  0.0158, -0.0050, -0.0055,  0.0096,  0.0252,
+        -0.0311,  0.0435], device='cuda:0'), grad: tensor([ 0.0050, -0.0113, -0.0121, -0.0144,  0.0206,  0.0456, -0.0521,  0.0101,
+         0.0019,  0.0066], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 172, time 216.43, cls_loss 0.5141 cls_loss_mapping 0.0094 cls_loss_causal 0.4981 re_mapping 0.0087 re_causal 0.0216 /// teacc 98.55 lr 0.00010000
+Epoch 174, weight, value: tensor([[-0.0695,  0.0628, -0.0833,  ..., -0.0971, -0.0733, -0.0047],
+        [-0.0497, -0.1186,  0.0010,  ..., -0.0523, -0.0332, -0.0673],
+        [ 0.0289, -0.0814,  0.0444,  ...,  0.1504, -0.1023, -0.0413],
+        ...,
+        [-0.0761, -0.1202,  0.0788,  ..., -0.0162, -0.0237,  0.0662],
+        [ 0.0134,  0.0306, -0.0286,  ..., -0.0684, -0.0945, -0.0073],
+        [-0.1254, -0.0126, -0.0090,  ..., -0.1279,  0.0958,  0.0138]],
+       device='cuda:0'), grad: tensor([[ 1.3634e-02,  5.1910e-02,  4.8184e-04,  ...,  1.0014e-04,
+          1.9181e-04,  1.2465e-03],
+        [ 1.0357e-03,  7.4816e-04,  1.1330e-03,  ...,  7.3051e-04,
+          6.2513e-04,  2.1992e-03],
+        [ 6.9332e-04,  3.5572e-04,  7.7486e-04,  ...,  1.7750e-04,
+          2.1529e-04,  1.4133e-03],
+        ...,
+        [-1.6298e-03,  3.0060e-03,  1.3666e-03,  ..., -8.7786e-04,
+         -6.9332e-04,  1.8368e-03],
+        [-2.0826e-04, -1.0252e-03, -9.7752e-04,  ..., -3.0309e-05,
+          3.0851e-04, -2.3785e-03],
+        [ 8.5211e-04, -2.6779e-03, -3.1357e-03,  ...,  3.1996e-04,
+          2.5439e-04, -3.2921e-03]], device='cuda:0')
+Epoch 174, bias, value: tensor([ 0.0170, -0.0003,  0.0008,  0.0161, -0.0050, -0.0065,  0.0106,  0.0250,
+        -0.0314,  0.0438], device='cuda:0'), grad: tensor([ 0.0493,  0.0223,  0.0187, -0.0115,  0.0081,  0.0177, -0.0682, -0.0055,
+        -0.0202, -0.0105], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 173, time 216.47, cls_loss 0.5503 cls_loss_mapping 0.0087 cls_loss_causal 0.5193 re_mapping 0.0085 re_causal 0.0223 /// teacc 98.51 lr 0.00010000
+Epoch 175, weight, value: tensor([[-6.9965e-02,  6.1906e-02, -8.2484e-02,  ..., -9.6635e-02,
+         -7.2429e-02, -3.9269e-03],
+        [-4.8821e-02, -1.1833e-01, -1.0903e-04,  ..., -5.3002e-02,
+         -3.3274e-02, -6.7328e-02],
+        [ 2.7929e-02, -8.1985e-02,  4.4894e-02,  ...,  1.5076e-01,
+         -1.0295e-01, -4.2292e-02],
+        ...,
+        [-7.6694e-02, -1.2054e-01,  7.8714e-02,  ..., -1.6565e-02,
+         -2.2227e-02,  6.6462e-02],
+        [ 1.4325e-02,  3.0944e-02, -2.8314e-02,  ..., -6.8235e-02,
+         -9.4947e-02, -5.5364e-03],
+        [-1.2593e-01, -1.2112e-02, -8.2851e-03,  ..., -1.2762e-01,
+          9.6167e-02,  1.4126e-02]], device='cuda:0'), grad: tensor([[ 1.0324e-04,  4.8757e-04,  2.7323e-04,  ...,  5.7191e-05,
+          7.9155e-04,  1.6003e-03],
+        [ 4.5449e-05,  4.8637e-04,  4.9877e-04,  ...,  4.2248e-04,
+          1.0424e-03, -3.2825e-03],
+        [-9.6369e-04, -9.7370e-04, -4.2272e-04,  ..., -1.8330e-03,
+          5.3024e-04,  1.3409e-03],
+        ...,
+        [ 2.3556e-04,  3.2544e-04,  1.0562e-04,  ...,  4.6909e-05,
+          1.0996e-03,  2.9564e-03],
+        [ 1.5211e-03,  1.6518e-03, -6.3705e-04,  ...,  1.7834e-03,
+         -1.2789e-03, -3.4285e-04],
+        [ 2.2516e-05, -9.6917e-05, -6.0606e-04,  ..., -7.5531e-04,
+         -5.4054e-03, -7.6332e-03]], device='cuda:0')
+Epoch 175, bias, value: tensor([ 0.0163, -0.0005,  0.0001,  0.0160, -0.0054, -0.0067,  0.0108,  0.0250,
+        -0.0296,  0.0440], device='cuda:0'), grad: tensor([ 0.0023,  0.0028,  0.0240, -0.0028, -0.0018, -0.0387,  0.0340,  0.0067,
+         0.0066, -0.0330], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 174, time 216.92, cls_loss 0.5278 cls_loss_mapping 0.0090 cls_loss_causal 0.5052 re_mapping 0.0087 re_causal 0.0237 /// teacc 98.57 lr 0.00010000
+Epoch 176, weight, value: tensor([[-0.0691,  0.0626, -0.0833,  ..., -0.0966, -0.0720, -0.0033],
+        [-0.0498, -0.1194, -0.0003,  ..., -0.0547, -0.0339, -0.0667],
+        [ 0.0278, -0.0821,  0.0449,  ...,  0.1514, -0.1047, -0.0431],
+        ...,
+        [-0.0769, -0.1217,  0.0786,  ..., -0.0175, -0.0227,  0.0655],
+        [ 0.0148,  0.0319, -0.0282,  ..., -0.0695, -0.0932, -0.0053],
+        [-0.1248, -0.0127, -0.0084,  ..., -0.1278,  0.0959,  0.0144]],
+       device='cuda:0'), grad: tensor([[ 2.3842e-03,  2.6588e-03,  4.3809e-05,  ...,  1.1406e-03,
+          7.8773e-04,  2.0008e-03],
+        [ 8.4019e-04,  5.0020e-04,  3.2568e-04,  ...,  2.0766e-04,
+          1.4229e-03,  3.1071e-03],
+        [ 1.1396e-03,  2.8992e-04, -4.4370e-04,  ...,  2.1305e-03,
+         -1.4696e-03,  4.0970e-03],
+        ...,
+        [ 7.1764e-04,  4.4465e-04,  3.4380e-04,  ...,  6.1893e-04,
+          1.4296e-03,  7.2908e-04],
+        [-1.2405e-02, -1.9730e-02,  2.8157e-04,  ..., -7.2746e-03,
+         -4.0984e-04, -5.5580e-03],
+        [-2.4338e-03,  4.9114e-04, -4.4537e-04,  ..., -3.7327e-03,
+         -4.3321e-04, -9.2697e-03]], device='cuda:0')
+Epoch 176, bias, value: tensor([ 0.0166, -0.0005,  0.0007,  0.0164, -0.0049, -0.0063,  0.0100,  0.0239,
+        -0.0305,  0.0447], device='cuda:0'), grad: tensor([ 0.0314,  0.0118, -0.0206,  0.0099,  0.0342, -0.0346,  0.0443,  0.0037,
+        -0.0460, -0.0342], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 175, time 216.81, cls_loss 0.4971 cls_loss_mapping 0.0082 cls_loss_causal 0.4723 re_mapping 0.0086 re_causal 0.0208 /// teacc 98.61 lr 0.00010000
+Epoch 177, weight, value: tensor([[-6.9226e-02,  6.2831e-02, -8.3256e-02,  ..., -9.6361e-02,
+         -7.3134e-02, -3.8521e-03],
+        [-5.0508e-02, -1.2032e-01, -2.3686e-05,  ..., -5.3952e-02,
+         -3.3701e-02, -6.6643e-02],
+        [ 2.8754e-02, -8.1108e-02,  4.4591e-02,  ...,  1.5136e-01,
+         -1.0379e-01, -4.1775e-02],
+        ...,
+        [-7.7369e-02, -1.2254e-01,  7.8718e-02,  ..., -1.9078e-02,
+         -2.1372e-02,  6.6297e-02],
+        [ 1.6148e-02,  3.2348e-02, -2.7663e-02,  ..., -6.8503e-02,
+         -9.4267e-02, -6.3687e-03],
+        [-1.2572e-01, -1.2485e-02, -9.2211e-03,  ..., -1.2760e-01,
+          9.5618e-02,  1.3852e-02]], device='cuda:0'), grad: tensor([[ 0.0006, -0.0041,  0.0006,  ...,  0.0003,  0.0016,  0.0021],
+        [ 0.0006,  0.0012,  0.0012,  ...,  0.0006,  0.0068,  0.0051],
+        [ 0.0058,  0.0007,  0.0007,  ...,  0.0134,  0.0007,  0.0014],
+        ...,
+        [-0.0049,  0.0008,  0.0015,  ..., -0.0129, -0.0002,  0.0018],
+        [-0.0024, -0.0055, -0.0152,  ..., -0.0119, -0.0145, -0.0186],
+        [ 0.0003,  0.0007,  0.0086,  ...,  0.0082, -0.0003,  0.0009]],
+       device='cuda:0')
+Epoch 177, bias, value: tensor([ 1.6456e-02,  1.5497e-05,  1.5415e-03,  1.6224e-02, -4.8792e-03,
+        -7.0658e-03,  1.0408e-02,  2.4556e-02, -3.0561e-02,  4.3433e-02],
+       device='cuda:0'), grad: tensor([-0.0044,  0.0474,  0.0443,  0.0249,  0.0278, -0.0073,  0.0330, -0.0375,
+        -0.1026, -0.0257], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 176, time 216.53, cls_loss 0.5477 cls_loss_mapping 0.0083 cls_loss_causal 0.5178 re_mapping 0.0077 re_causal 0.0203 /// teacc 98.70 lr 0.00010000
+Epoch 178, weight, value: tensor([[-6.8983e-02,  6.2895e-02, -8.3069e-02,  ..., -9.6342e-02,
+         -7.4834e-02, -4.8973e-03],
+        [-5.1704e-02, -1.2068e-01,  6.7164e-05,  ..., -5.2615e-02,
+         -3.4823e-02, -6.6787e-02],
+        [ 2.9235e-02, -8.1604e-02,  4.5308e-02,  ...,  1.5170e-01,
+         -1.0453e-01, -4.1781e-02],
+        ...,
+        [-7.9470e-02, -1.2269e-01,  7.9291e-02,  ..., -1.8789e-02,
+         -2.1512e-02,  6.5551e-02],
+        [ 1.6077e-02,  3.1168e-02, -2.6168e-02,  ..., -6.7920e-02,
+         -9.2890e-02, -5.2729e-03],
+        [-1.2579e-01, -1.1817e-02, -9.8941e-03,  ..., -1.2812e-01,
+          9.6352e-02,  1.3815e-02]], device='cuda:0'), grad: tensor([[ 1.9627e-03, -1.2070e-04,  1.3137e-04,  ..., -7.3195e-05,
+          6.9332e-04,  9.2649e-04],
+        [-8.6746e-03, -8.0566e-03, -8.7690e-04,  ...,  1.2517e-05,
+         -7.0877e-03, -5.4169e-03],
+        [ 3.0899e-04,  2.8276e-04,  6.6578e-05,  ..., -6.9976e-05,
+          6.6423e-04,  1.3037e-03],
+        ...,
+        [ 1.8954e-04,  2.2781e-04,  2.9302e-04,  ...,  9.3460e-05,
+          9.6941e-04, -2.8896e-03],
+        [ 4.3106e-03,  3.5820e-03,  1.4842e-04,  ...,  1.5959e-05,
+          7.7581e-04,  9.6416e-04],
+        [ 7.1347e-05,  2.2316e-04, -3.9220e-04,  ...,  2.6155e-04,
+          5.2977e-04,  8.8501e-04]], device='cuda:0')
+Epoch 178, bias, value: tensor([ 0.0156, -0.0007,  0.0011,  0.0166, -0.0050, -0.0065,  0.0114,  0.0237,
+        -0.0303,  0.0442], device='cuda:0'), grad: tensor([ 0.0113, -0.1301,  0.0178,  0.0117,  0.0026,  0.0127,  0.0325, -0.0155,
+         0.0246,  0.0324], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 177, time 216.61, cls_loss 0.5509 cls_loss_mapping 0.0122 cls_loss_causal 0.5205 re_mapping 0.0087 re_causal 0.0211 /// teacc 98.77 lr 0.00010000
+Epoch 179, weight, value: tensor([[-0.0686,  0.0637, -0.0842,  ..., -0.0980, -0.0742, -0.0059],
+        [-0.0521, -0.1204, -0.0009,  ..., -0.0533, -0.0360, -0.0661],
+        [ 0.0295, -0.0818,  0.0454,  ...,  0.1518, -0.1053, -0.0427],
+        ...,
+        [-0.0785, -0.1244,  0.0793,  ..., -0.0180, -0.0215,  0.0655],
+        [ 0.0157,  0.0309, -0.0255,  ..., -0.0673, -0.0925, -0.0058],
+        [-0.1258, -0.0115, -0.0104,  ..., -0.1282,  0.0958,  0.0137]],
+       device='cuda:0'), grad: tensor([[ 4.9686e-04,  3.8600e-04,  6.1703e-04,  ...,  4.3178e-04,
+         -6.4468e-04,  6.3848e-04],
+        [ 6.1274e-04,  4.1056e-04,  4.0770e-04,  ...,  1.4627e-04,
+          4.8637e-04,  5.1785e-04],
+        [-1.5661e-05,  1.1616e-03,  2.9373e-03,  ...,  5.0507e-03,
+          2.1915e-03,  2.5406e-03],
+        ...,
+        [-5.6982e-04,  3.4595e-04, -2.7275e-03,  ..., -2.5940e-03,
+         -1.8454e-03,  4.8327e-04],
+        [ 1.3342e-03,  1.7653e-03,  1.3113e-03,  ...,  1.2770e-03,
+          2.1553e-03,  1.3561e-03],
+        [ 2.4605e-04, -2.4509e-03, -4.2992e-03,  ..., -5.7030e-03,
+         -2.7771e-03, -5.8594e-03]], device='cuda:0')
+Epoch 179, bias, value: tensor([ 0.0156, -0.0015,  0.0009,  0.0166, -0.0043, -0.0052,  0.0107,  0.0242,
+        -0.0302,  0.0433], device='cuda:0'), grad: tensor([-1.2779e-02, -2.3270e-02, -2.6710e-06, -1.4252e-02,  2.7664e-02,
+         2.5959e-03, -6.1989e-03,  6.1760e-03,  2.5894e-02, -5.8327e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 178, time 216.37, cls_loss 0.5181 cls_loss_mapping 0.0072 cls_loss_causal 0.4903 re_mapping 0.0089 re_causal 0.0224 /// teacc 98.60 lr 0.00010000
+Epoch 180, weight, value: tensor([[-0.0688,  0.0632, -0.0836,  ..., -0.0969, -0.0751, -0.0056],
+        [-0.0517, -0.1213, -0.0018,  ..., -0.0544, -0.0361, -0.0665],
+        [ 0.0297, -0.0810,  0.0450,  ...,  0.1524, -0.1046, -0.0435],
+        ...,
+        [-0.0795, -0.1255,  0.0804,  ..., -0.0175, -0.0221,  0.0657],
+        [ 0.0155,  0.0311, -0.0255,  ..., -0.0674, -0.0919, -0.0062],
+        [-0.1260, -0.0119, -0.0106,  ..., -0.1279,  0.0952,  0.0137]],
+       device='cuda:0'), grad: tensor([[ 2.2209e-04,  2.4586e-03,  4.5815e-03,  ...,  2.4527e-05,
+          5.4073e-04,  6.1846e-04],
+        [-1.6487e-04, -1.7321e-04,  2.4259e-04,  ...,  9.1314e-05,
+         -6.3372e-04,  8.1921e-04],
+        [-2.4188e-04,  8.0919e-04,  5.7173e-04,  ..., -5.7840e-04,
+          6.5708e-04,  9.9945e-04],
+        ...,
+        [ 8.6212e-04,  5.1537e-03,  3.3684e-03,  ...,  7.5586e-06,
+          1.4372e-03,  2.2411e-03],
+        [-3.7956e-03, -2.1606e-02, -1.5030e-02,  ...,  3.1382e-05,
+         -4.2992e-03, -3.8090e-03],
+        [ 4.0007e-04,  1.1124e-02,  5.9395e-03,  ...,  6.3181e-05,
+          8.8978e-04,  1.2617e-03]], device='cuda:0')
+Epoch 180, bias, value: tensor([ 0.0153, -0.0016,  0.0012,  0.0180, -0.0043, -0.0050,  0.0101,  0.0235,
+        -0.0301,  0.0429], device='cuda:0'), grad: tensor([ 0.0115, -0.0178,  0.0147,  0.0251, -0.0316,  0.0199,  0.0164,  0.0266,
+        -0.0986,  0.0337], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 179, time 216.50, cls_loss 0.5018 cls_loss_mapping 0.0086 cls_loss_causal 0.4725 re_mapping 0.0090 re_causal 0.0230 /// teacc 98.76 lr 0.00010000
+Epoch 181, weight, value: tensor([[-0.0688,  0.0638, -0.0846,  ..., -0.0960, -0.0751, -0.0054],
+        [-0.0518, -0.1211, -0.0006,  ..., -0.0545, -0.0349, -0.0668],
+        [ 0.0294, -0.0814,  0.0458,  ...,  0.1531, -0.1065, -0.0445],
+        ...,
+        [-0.0804, -0.1274,  0.0802,  ..., -0.0186, -0.0236,  0.0654],
+        [ 0.0161,  0.0307, -0.0258,  ..., -0.0670, -0.0919, -0.0058],
+        [-0.1267, -0.0120, -0.0095,  ..., -0.1271,  0.0973,  0.0147]],
+       device='cuda:0'), grad: tensor([[ 2.7351e-03,  5.9624e-03,  2.1064e-04,  ...,  6.7018e-06,
+          2.9111e-04,  6.8569e-04],
+        [ 1.9050e-04,  3.5286e-04,  1.7750e-04,  ...,  4.9826e-07,
+          2.9922e-04,  6.4278e-04],
+        [ 1.5736e-04, -4.2939e-04,  1.2684e-04,  ..., -1.0267e-05,
+          1.6272e-04,  4.1127e-04],
+        ...,
+        [ 1.1116e-05,  3.0088e-04,  1.3471e-04,  ...,  1.4426e-06,
+          1.9193e-04,  3.9673e-04],
+        [-3.6945e-03, -7.2212e-03,  1.2708e-04,  ...,  2.3246e-06,
+          1.5438e-04,  3.7432e-04],
+        [ 2.0695e-04,  4.1223e-04,  1.0834e-03,  ...,  2.8044e-05,
+          1.4076e-03,  1.8730e-03]], device='cuda:0')
+Epoch 181, bias, value: tensor([ 0.0155, -0.0017, -0.0001,  0.0180, -0.0045, -0.0044,  0.0107,  0.0229,
+        -0.0302,  0.0440], device='cuda:0'), grad: tensor([ 0.0170,  0.0111, -0.0210, -0.0262,  0.0103, -0.0126, -0.0118,  0.0079,
+         0.0072,  0.0182], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 180, time 216.39, cls_loss 0.5808 cls_loss_mapping 0.0116 cls_loss_causal 0.5517 re_mapping 0.0081 re_causal 0.0210 /// teacc 98.77 lr 0.00010000
+Epoch 182, weight, value: tensor([[-0.0706,  0.0629, -0.0850,  ..., -0.0960, -0.0750, -0.0038],
+        [-0.0513, -0.1209, -0.0005,  ..., -0.0558, -0.0356, -0.0685],
+        [ 0.0299, -0.0816,  0.0454,  ...,  0.1529, -0.1066, -0.0438],
+        ...,
+        [-0.0793, -0.1266,  0.0803,  ..., -0.0181, -0.0233,  0.0664],
+        [ 0.0169,  0.0323, -0.0266,  ..., -0.0679, -0.0917, -0.0065],
+        [-0.1283, -0.0112, -0.0094,  ..., -0.1270,  0.0964,  0.0136]],
+       device='cuda:0'), grad: tensor([[-3.1967e-03, -2.1713e-02,  2.2292e-04,  ...,  1.9050e-04,
+          2.1434e-04, -2.6989e-03],
+        [ 8.4925e-04,  1.1768e-03, -1.5411e-03,  ...,  1.6177e-04,
+         -1.4365e-04, -1.2684e-03],
+        [ 4.5586e-04,  8.3017e-04, -6.9199e-03,  ..., -8.1968e-04,
+         -4.7255e-04, -4.8327e-04],
+        ...,
+        [ 2.6989e-04,  4.5824e-04,  3.8090e-03,  ...,  4.6396e-04,
+          1.6289e-03,  1.2369e-03],
+        [-2.9011e-03, -2.2869e-03, -1.4725e-02,  ..., -3.2485e-05,
+          2.9594e-05,  6.4802e-04],
+        [ 8.3780e-04,  1.4811e-03,  1.5564e-02,  ..., -6.9857e-04,
+         -6.4039e-04, -2.7943e-04]], device='cuda:0')
+Epoch 182, bias, value: tensor([ 0.0159, -0.0016,  0.0009,  0.0181, -0.0041, -0.0043,  0.0094,  0.0239,
+        -0.0315,  0.0436], device='cuda:0'), grad: tensor([-0.0418,  0.0031, -0.0372,  0.0202, -0.0018, -0.0002,  0.0602,  0.0269,
+        -0.0276, -0.0017], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 181, time 216.34, cls_loss 0.5296 cls_loss_mapping 0.0077 cls_loss_causal 0.5123 re_mapping 0.0084 re_causal 0.0211 /// teacc 98.75 lr 0.00010000
+Epoch 183, weight, value: tensor([[-0.0698,  0.0636, -0.0861,  ..., -0.0965, -0.0755, -0.0041],
+        [-0.0524, -0.1213, -0.0013,  ..., -0.0570, -0.0354, -0.0683],
+        [ 0.0298, -0.0816,  0.0455,  ...,  0.1528, -0.1059, -0.0422],
+        ...,
+        [-0.0790, -0.1269,  0.0805,  ..., -0.0172, -0.0237,  0.0658],
+        [ 0.0186,  0.0331, -0.0268,  ..., -0.0673, -0.0911, -0.0067],
+        [-0.1274, -0.0103, -0.0100,  ..., -0.1273,  0.0972,  0.0139]],
+       device='cuda:0'), grad: tensor([[ 1.8990e-04,  2.5864e-03,  3.7169e-04,  ...,  3.4547e-04,
+          2.0623e-05,  1.7083e-04],
+        [ 7.5436e-04,  1.7011e-04,  2.8372e-04,  ...,  3.0637e-04,
+         -6.3610e-04, -1.1911e-03],
+        [ 5.4169e-04, -5.7030e-04,  1.1091e-03,  ..., -2.4014e-03,
+          7.8440e-05,  2.4462e-04],
+        ...,
+        [-3.2768e-03,  1.1748e-04, -1.3084e-02,  ..., -4.7340e-03,
+         -1.1726e-02, -1.0040e-02],
+        [ 1.8177e-03,  9.1600e-04,  5.3692e-04,  ...,  5.4502e-04,
+          2.9540e-04, -2.6560e-04],
+        [ 1.5106e-02,  1.0824e-03,  7.5798e-03,  ...,  3.2883e-03,
+          8.0643e-03,  7.1869e-03]], device='cuda:0')
+Epoch 183, bias, value: tensor([ 0.0161, -0.0023,  0.0018,  0.0177, -0.0045, -0.0057,  0.0101,  0.0235,
+        -0.0307,  0.0442], device='cuda:0'), grad: tensor([ 0.0380, -0.0188, -0.0033, -0.0385, -0.0118,  0.0330,  0.0052, -0.0237,
+        -0.0150,  0.0350], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 182, time 216.21, cls_loss 0.5577 cls_loss_mapping 0.0087 cls_loss_causal 0.5277 re_mapping 0.0084 re_causal 0.0209 /// teacc 98.62 lr 0.00010000
+Epoch 184, weight, value: tensor([[-0.0710,  0.0632, -0.0860,  ..., -0.0969, -0.0744, -0.0020],
+        [-0.0519, -0.1215,  0.0003,  ..., -0.0571, -0.0353, -0.0678],
+        [ 0.0303, -0.0803,  0.0449,  ...,  0.1531, -0.1059, -0.0410],
+        ...,
+        [-0.0796, -0.1274,  0.0811,  ..., -0.0177, -0.0246,  0.0644],
+        [ 0.0181,  0.0325, -0.0265,  ..., -0.0684, -0.0908, -0.0078],
+        [-0.1290, -0.0112, -0.0107,  ..., -0.1285,  0.0974,  0.0138]],
+       device='cuda:0'), grad: tensor([[ 6.3562e-04,  4.0746e-04, -2.8801e-04,  ...,  1.0359e-04,
+         -2.3766e-03, -2.0695e-03],
+        [ 8.9169e-04,  3.3736e-04,  7.6962e-04,  ...,  5.4806e-05,
+          3.1681e-03,  4.9133e-03],
+        [-3.2825e-03,  8.1730e-04,  2.0921e-04,  ...,  1.9491e-04,
+         -8.6117e-04, -1.0437e-02],
+        ...,
+        [ 8.6069e-04,  2.2277e-05,  6.6109e-03,  ...,  6.7115e-05,
+          1.7691e-03, -4.4785e-03],
+        [-6.1035e-04, -1.2711e-02,  5.2643e-04,  ...,  4.0269e-04,
+         -9.5062e-03,  2.8629e-03],
+        [ 8.9264e-04,  6.5565e-04, -8.8806e-03,  ...,  1.6487e-04,
+         -6.3133e-03,  2.8000e-03]], device='cuda:0')
+Epoch 184, bias, value: tensor([ 0.0159, -0.0009,  0.0014,  0.0178, -0.0036, -0.0050,  0.0088,  0.0233,
+        -0.0314,  0.0439], device='cuda:0'), grad: tensor([-0.0292,  0.0395, -0.0434, -0.0021,  0.0232,  0.0155,  0.0194, -0.0145,
+        -0.0088,  0.0005], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 183, time 216.85, cls_loss 0.5183 cls_loss_mapping 0.0103 cls_loss_causal 0.4935 re_mapping 0.0084 re_causal 0.0210 /// teacc 98.68 lr 0.00010000
+Epoch 185, weight, value: tensor([[-0.0710,  0.0640, -0.0862,  ..., -0.0964, -0.0751, -0.0018],
+        [-0.0523, -0.1211,  0.0002,  ..., -0.0570, -0.0359, -0.0688],
+        [ 0.0285, -0.0806,  0.0449,  ...,  0.1528, -0.1060, -0.0414],
+        ...,
+        [-0.0798, -0.1281,  0.0809,  ..., -0.0168, -0.0248,  0.0651],
+        [ 0.0188,  0.0328, -0.0266,  ..., -0.0689, -0.0908, -0.0077],
+        [-0.1295, -0.0107, -0.0102,  ..., -0.1289,  0.0977,  0.0142]],
+       device='cuda:0'), grad: tensor([[ 3.2377e-04, -1.6010e-04,  1.1629e-04,  ...,  6.9261e-05,
+          9.2649e-04,  6.9332e-04],
+        [ 3.5453e-04,  7.1287e-04,  5.1737e-04,  ...,  1.8024e-04,
+          2.4872e-03,  2.3861e-03],
+        [-6.3324e-04,  1.5604e-04,  3.9768e-04,  ..., -5.0688e-04,
+          4.0102e-04, -1.4758e-04],
+        ...,
+        [ 4.4680e-04,  5.6553e-04, -4.7569e-03,  ..., -1.2417e-03,
+          8.3733e-04, -1.1032e-02],
+        [ 4.1885e-03,  5.6114e-03,  1.0923e-05,  ...,  2.7084e-04,
+         -2.5120e-03, -3.1033e-03],
+        [-9.0027e-03, -5.9967e-03,  4.1509e-04,  ...,  2.7299e-04,
+          1.7614e-03,  2.5501e-03]], device='cuda:0')
+Epoch 185, bias, value: tensor([ 0.0164, -0.0014,  0.0013,  0.0175, -0.0035, -0.0060,  0.0099,  0.0229,
+        -0.0318,  0.0448], device='cuda:0'), grad: tensor([ 0.0282,  0.0336, -0.0109,  0.0173,  0.0374,  0.0182, -0.0299, -0.0221,
+        -0.0407, -0.0311], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 184, time 216.94, cls_loss 0.5342 cls_loss_mapping 0.0061 cls_loss_causal 0.5082 re_mapping 0.0082 re_causal 0.0214 /// teacc 98.75 lr 0.00010000
+Epoch 186, weight, value: tensor([[-0.0696,  0.0645, -0.0867,  ..., -0.0968, -0.0759, -0.0024],
+        [-0.0519, -0.1217,  0.0002,  ..., -0.0575, -0.0361, -0.0682],
+        [ 0.0294, -0.0803,  0.0466,  ...,  0.1535, -0.1050, -0.0397],
+        ...,
+        [-0.0814, -0.1290,  0.0818,  ..., -0.0174, -0.0242,  0.0659],
+        [ 0.0183,  0.0325, -0.0274,  ..., -0.0681, -0.0915, -0.0084],
+        [-0.1297, -0.0114, -0.0099,  ..., -0.1271,  0.0976,  0.0142]],
+       device='cuda:0'), grad: tensor([[ 8.3303e-04, -3.3855e-05, -5.8603e-04,  ...,  2.7204e-04,
+          4.0889e-04,  8.6355e-04],
+        [ 4.8780e-04,  2.7752e-04,  1.3494e-03,  ...,  5.8222e-04,
+          1.7319e-03,  1.6975e-03],
+        [ 9.0170e-04,  5.0211e-04,  2.4090e-03,  ...,  1.0862e-03,
+          2.1095e-03,  2.4433e-03],
+        ...,
+        [ 4.9162e-04,  2.3055e-04,  1.3809e-03,  ...,  4.8065e-04,
+          1.4496e-03,  1.7891e-03],
+        [ 9.9564e-03,  1.1414e-02,  8.2850e-05,  ...,  2.2388e-04,
+          1.9855e-03,  7.7629e-04],
+        [ 9.2506e-04,  1.1759e-03,  2.2068e-03,  ...,  1.1864e-03,
+          3.1490e-03,  2.8362e-03]], device='cuda:0')
+Epoch 186, bias, value: tensor([ 0.0165, -0.0014,  0.0029,  0.0175, -0.0042, -0.0068,  0.0099,  0.0232,
+        -0.0317,  0.0442], device='cuda:0'), grad: tensor([-0.0468,  0.0216,  0.0267, -0.0113,  0.0167, -0.0298, -0.0475,  0.0184,
+         0.0296,  0.0225], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 185, time 216.66, cls_loss 0.5646 cls_loss_mapping 0.0094 cls_loss_causal 0.5401 re_mapping 0.0084 re_causal 0.0225 /// teacc 98.83 lr 0.00010000
+Epoch 187, weight, value: tensor([[-0.0693,  0.0645, -0.0861,  ..., -0.0965, -0.0756, -0.0031],
+        [-0.0542, -0.1233,  0.0013,  ..., -0.0572, -0.0358, -0.0688],
+        [ 0.0305, -0.0786,  0.0456,  ...,  0.1533, -0.1056, -0.0389],
+        ...,
+        [-0.0808, -0.1295,  0.0817,  ..., -0.0183, -0.0241,  0.0656],
+        [ 0.0167,  0.0318, -0.0274,  ..., -0.0684, -0.0914, -0.0082],
+        [-0.1312, -0.0121, -0.0092,  ..., -0.1263,  0.0978,  0.0137]],
+       device='cuda:0'), grad: tensor([[ 1.4734e-04,  8.6010e-05,  7.6652e-05,  ..., -3.1944e-06,
+          5.5885e-04,  1.9379e-03],
+        [ 3.8981e-04,  2.8944e-04,  1.5175e-04,  ...,  1.4659e-06,
+          1.2455e-03,  3.2921e-03],
+        [ 7.9966e-04,  3.3569e-04,  1.6582e-04,  ...,  3.5703e-05,
+          4.7255e-04,  1.8969e-03],
+        ...,
+        [-1.1244e-03,  1.7166e-04,  1.5192e-03,  ...,  3.1069e-06,
+         -2.8992e-04, -2.0390e-03],
+        [ 4.2953e-03,  1.1473e-03, -4.1151e-04,  ...,  2.6774e-04,
+         -2.1038e-03, -3.5591e-03],
+        [-1.1511e-03,  2.3758e-04, -3.6373e-03,  ...,  4.9211e-06,
+         -2.4357e-03, -7.3624e-03]], device='cuda:0')
+Epoch 187, bias, value: tensor([ 0.0171, -0.0021,  0.0033,  0.0170, -0.0036, -0.0070,  0.0098,  0.0229,
+        -0.0311,  0.0437], device='cuda:0'), grad: tensor([ 0.0224,  0.0374,  0.0223,  0.0254, -0.0030,  0.0087,  0.0277, -0.0341,
+        -0.0262, -0.0806], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 186, time 216.91, cls_loss 0.5263 cls_loss_mapping 0.0071 cls_loss_causal 0.4967 re_mapping 0.0078 re_causal 0.0206 /// teacc 98.77 lr 0.00010000
+Epoch 188, weight, value: tensor([[-0.0704,  0.0633, -0.0877,  ..., -0.0962, -0.0771, -0.0038],
+        [-0.0540, -0.1234,  0.0010,  ..., -0.0564, -0.0372, -0.0700],
+        [ 0.0296, -0.0784,  0.0464,  ...,  0.1532, -0.1057, -0.0388],
+        ...,
+        [-0.0820, -0.1298,  0.0817,  ..., -0.0177, -0.0239,  0.0660],
+        [ 0.0159,  0.0316, -0.0276,  ..., -0.0696, -0.0922, -0.0093],
+        [-0.1303, -0.0139, -0.0073,  ..., -0.1273,  0.0988,  0.0147]],
+       device='cuda:0'), grad: tensor([[ 3.3545e-04, -2.7771e-03,  1.1568e-03,  ...,  7.8440e-04,
+          3.6502e-04,  4.2152e-04],
+        [ 1.0869e-06, -1.1408e-04, -8.9407e-04,  ...,  1.8263e-04,
+          9.5367e-04,  5.0468e-03],
+        [ 1.0037e-04,  2.2709e-04,  1.1539e-03,  ..., -1.4472e-04,
+          3.6526e-04,  7.3910e-04],
+        ...,
+        [ 1.4023e-02,  2.5501e-03,  5.6458e-03,  ..., -3.0661e-04,
+          2.7037e-04, -2.4261e-03],
+        [-7.4158e-03, -1.7667e-04, -5.1928e-04,  ...,  8.6927e-04,
+          3.9148e-04,  3.7646e-04],
+        [ 2.0492e-04,  4.3392e-04,  2.9926e-03,  ...,  2.2926e-03,
+          2.2662e-04,  5.5218e-04]], device='cuda:0')
+Epoch 188, bias, value: tensor([ 0.0163, -0.0016,  0.0030,  0.0175, -0.0037, -0.0073,  0.0098,  0.0231,
+        -0.0316,  0.0444], device='cuda:0'), grad: tensor([ 0.0099,  0.0459,  0.0204, -0.0448, -0.0078, -0.0203, -0.0212,  0.0053,
+        -0.0089,  0.0214], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 187, time 216.58, cls_loss 0.5198 cls_loss_mapping 0.0073 cls_loss_causal 0.4878 re_mapping 0.0087 re_causal 0.0211 /// teacc 98.77 lr 0.00010000
+Epoch 189, weight, value: tensor([[-0.0711,  0.0629, -0.0892,  ..., -0.0972, -0.0784, -0.0051],
+        [-0.0552, -0.1234,  0.0005,  ..., -0.0564, -0.0376, -0.0705],
+        [ 0.0303, -0.0782,  0.0482,  ...,  0.1547, -0.1061, -0.0385],
+        ...,
+        [-0.0828, -0.1296,  0.0808,  ..., -0.0190, -0.0237,  0.0654],
+        [ 0.0176,  0.0324, -0.0268,  ..., -0.0688, -0.0903, -0.0080],
+        [-0.1309, -0.0124, -0.0076,  ..., -0.1280,  0.0983,  0.0148]],
+       device='cuda:0'), grad: tensor([[-0.0080, -0.0232,  0.0006,  ...,  0.0003,  0.0003, -0.0036],
+        [-0.0103, -0.0087,  0.0011,  ..., -0.0158,  0.0009,  0.0024],
+        [ 0.0105,  0.0090,  0.0044,  ...,  0.0141,  0.0005,  0.0049],
+        ...,
+        [ 0.0002,  0.0002, -0.0045,  ..., -0.0052,  0.0020, -0.0010],
+        [ 0.0088,  0.0076,  0.0010,  ...,  0.0006,  0.0007,  0.0035],
+        [-0.0004,  0.0002, -0.0055,  ...,  0.0001, -0.0074, -0.0091]],
+       device='cuda:0')
+Epoch 189, bias, value: tensor([ 0.0158, -0.0019,  0.0029,  0.0163, -0.0036, -0.0080,  0.0110,  0.0238,
+        -0.0305,  0.0442], device='cuda:0'), grad: tensor([-0.0474, -0.0136,  0.0615, -0.0274,  0.0132,  0.0102,  0.0252, -0.0203,
+         0.0308, -0.0322], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 188, time 216.44, cls_loss 0.5447 cls_loss_mapping 0.0072 cls_loss_causal 0.5212 re_mapping 0.0081 re_causal 0.0212 /// teacc 98.84 lr 0.00010000
+Epoch 190, weight, value: tensor([[-0.0712,  0.0627, -0.0899,  ..., -0.0971, -0.0783, -0.0046],
+        [-0.0561, -0.1241,  0.0017,  ..., -0.0561, -0.0365, -0.0706],
+        [ 0.0289, -0.0790,  0.0488,  ...,  0.1554, -0.1069, -0.0401],
+        ...,
+        [-0.0825, -0.1299,  0.0816,  ..., -0.0189, -0.0231,  0.0660],
+        [ 0.0176,  0.0326, -0.0275,  ..., -0.0698, -0.0907, -0.0078],
+        [-0.1312, -0.0128, -0.0083,  ..., -0.1284,  0.0980,  0.0151]],
+       device='cuda:0'), grad: tensor([[ 1.9535e-05,  1.9598e-04,  4.6778e-04,  ...,  9.0778e-05,
+          3.3855e-04,  9.8324e-04],
+        [ 6.1750e-05,  1.5855e-05,  9.8801e-04,  ...,  1.2226e-03,
+          8.4925e-04,  1.7462e-03],
+        [ 5.1349e-05,  5.9932e-05,  1.0319e-03,  ...,  9.4271e-04,
+          8.8358e-04,  1.6222e-03],
+        ...,
+        [ 6.4522e-06,  2.7478e-05, -1.7195e-03,  ...,  1.1473e-03,
+         -4.4608e-04, -1.5688e-03],
+        [ 2.6986e-05,  1.5485e-04,  6.5470e-04,  ...,  6.1512e-04,
+          4.3678e-04,  1.0328e-03],
+        [ 2.4781e-05,  2.4453e-05, -5.7191e-05,  ..., -3.4332e-03,
+         -1.5390e-04, -7.5054e-04]], device='cuda:0')
+Epoch 190, bias, value: tensor([ 0.0166, -0.0016,  0.0023,  0.0167, -0.0040, -0.0080,  0.0107,  0.0236,
+        -0.0312,  0.0446], device='cuda:0'), grad: tensor([ 0.0163,  0.0238,  0.0237,  0.0284, -0.0654,  0.0158, -0.0131, -0.0301,
+         0.0214, -0.0208], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 189, time 216.64, cls_loss 0.5371 cls_loss_mapping 0.0071 cls_loss_causal 0.5194 re_mapping 0.0083 re_causal 0.0213 /// teacc 98.82 lr 0.00010000
+Epoch 191, weight, value: tensor([[-0.0706,  0.0630, -0.0906,  ..., -0.0958, -0.0786, -0.0031],
+        [-0.0570, -0.1242,  0.0014,  ..., -0.0555, -0.0377, -0.0718],
+        [ 0.0293, -0.0785,  0.0482,  ...,  0.1557, -0.1081, -0.0396],
+        ...,
+        [-0.0832, -0.1309,  0.0820,  ..., -0.0191, -0.0231,  0.0646],
+        [ 0.0172,  0.0319, -0.0267,  ..., -0.0709, -0.0910, -0.0086],
+        [-0.1315, -0.0132, -0.0081,  ..., -0.1287,  0.0978,  0.0159]],
+       device='cuda:0'), grad: tensor([[ 1.9610e-04,  1.0914e-04,  8.9979e-04,  ...,  1.1154e-05,
+          2.8396e-04,  7.2622e-04],
+        [ 2.5654e-04,  1.3328e-04,  1.0223e-03,  ...,  7.9811e-05,
+          5.4741e-04,  2.3327e-03],
+        [ 6.3467e-04,  4.9591e-04,  1.3313e-03,  ..., -6.9380e-05,
+          6.8378e-04,  7.7677e-04],
+        ...,
+        [-2.8172e-03, -2.5558e-03, -5.3940e-03,  ...,  1.7095e-04,
+         -4.8409e-03, -3.1624e-03],
+        [ 1.2445e-03,  1.4887e-03, -1.6421e-05,  ...,  7.0751e-05,
+          2.0428e-03, -3.2120e-03],
+        [ 1.0128e-03,  7.6342e-04,  2.4738e-03,  ...,  1.4400e-04,
+          1.3084e-03,  1.3790e-03]], device='cuda:0')
+Epoch 191, bias, value: tensor([ 0.0161, -0.0022,  0.0025,  0.0165, -0.0037, -0.0067,  0.0108,  0.0232,
+        -0.0319,  0.0452], device='cuda:0'), grad: tensor([ 0.0227,  0.0333, -0.0011, -0.0203,  0.0199,  0.0092, -0.0012, -0.0657,
+        -0.0272,  0.0304], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 190, time 216.51, cls_loss 0.5427 cls_loss_mapping 0.0081 cls_loss_causal 0.5140 re_mapping 0.0087 re_causal 0.0215 /// teacc 98.69 lr 0.00010000
+Epoch 192, weight, value: tensor([[-0.0704,  0.0616, -0.0904,  ..., -0.0967, -0.0787, -0.0026],
+        [-0.0571, -0.1241,  0.0012,  ..., -0.0553, -0.0378, -0.0721],
+        [ 0.0297, -0.0774,  0.0480,  ...,  0.1557, -0.1077, -0.0401],
+        ...,
+        [-0.0837, -0.1320,  0.0825,  ..., -0.0191, -0.0222,  0.0657],
+        [ 0.0172,  0.0320, -0.0270,  ..., -0.0719, -0.0909, -0.0077],
+        [-0.1320, -0.0137, -0.0087,  ..., -0.1286,  0.0973,  0.0154]],
+       device='cuda:0'), grad: tensor([[ 7.2813e-04,  1.2159e-03,  1.3571e-03,  ...,  4.4537e-04,
+          5.7906e-05,  2.0390e-03],
+        [ 1.1492e-04,  1.6475e-04,  1.0910e-03,  ...,  4.4727e-04,
+          1.9908e-04,  3.6120e-04],
+        [ 3.1242e-03,  3.7327e-03,  5.2643e-03,  ...,  3.2291e-03,
+          1.0175e-04,  4.5433e-03],
+        ...,
+        [-3.8671e-04,  4.6301e-04, -2.2755e-03,  ..., -2.1706e-03,
+          2.4199e-04, -5.4550e-03],
+        [ 6.7616e-04,  1.1511e-03, -1.3533e-03,  ..., -1.5192e-03,
+          1.0586e-04, -1.5831e-04],
+        [-2.0373e-04, -3.0460e-03, -3.1052e-03,  ...,  6.2847e-04,
+          4.0603e-04, -9.0551e-04]], device='cuda:0')
+Epoch 192, bias, value: tensor([ 0.0158, -0.0026,  0.0033,  0.0165, -0.0035, -0.0066,  0.0099,  0.0235,
+        -0.0311,  0.0448], device='cuda:0'), grad: tensor([ 0.0189, -0.0224,  0.0502,  0.0236,  0.0162, -0.0197, -0.0289, -0.0415,
+        -0.0038,  0.0073], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 191, time 216.77, cls_loss 0.5321 cls_loss_mapping 0.0077 cls_loss_causal 0.5007 re_mapping 0.0086 re_causal 0.0208 /// teacc 98.74 lr 0.00010000
+Epoch 193, weight, value: tensor([[-0.0701,  0.0621, -0.0911,  ..., -0.0974, -0.0788, -0.0029],
+        [-0.0572, -0.1236, -0.0007,  ..., -0.0560, -0.0363, -0.0716],
+        [ 0.0308, -0.0775,  0.0476,  ...,  0.1559, -0.1093, -0.0405],
+        ...,
+        [-0.0837, -0.1321,  0.0842,  ..., -0.0180, -0.0225,  0.0649],
+        [ 0.0168,  0.0324, -0.0273,  ..., -0.0730, -0.0913, -0.0082],
+        [-0.1336, -0.0139, -0.0080,  ..., -0.1266,  0.0981,  0.0163]],
+       device='cuda:0'), grad: tensor([[-9.7990e-05,  8.8453e-05,  2.8849e-04,  ..., -6.4313e-05,
+          5.3167e-04,  3.1233e-04],
+        [ 3.2067e-04,  2.4509e-04,  1.5774e-03,  ...,  4.2892e-04,
+          1.2398e-03,  7.7009e-04],
+        [-1.1045e-04,  4.0817e-04, -3.8948e-03,  ..., -2.8458e-03,
+          7.0810e-04, -4.1618e-03],
+        ...,
+        [ 9.9659e-04,  5.2309e-04,  8.4610e-03,  ...,  3.6621e-03,
+          3.9177e-03,  5.1689e-03],
+        [-2.0754e-04,  1.0338e-03,  9.8991e-04,  ...,  6.0320e-04,
+          1.5535e-03,  7.5912e-04],
+        [-7.5626e-04, -1.7052e-03, -8.1253e-03,  ..., -2.7618e-03,
+         -7.7820e-03, -2.6169e-03]], device='cuda:0')
+Epoch 193, bias, value: tensor([ 0.0163, -0.0017,  0.0017,  0.0163, -0.0040, -0.0062,  0.0093,  0.0238,
+        -0.0313,  0.0456], device='cuda:0'), grad: tensor([ 0.0031,  0.0083, -0.0169,  0.0035,  0.0117,  0.0094, -0.0297,  0.0329,
+         0.0003, -0.0228], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 192, time 216.98, cls_loss 0.5266 cls_loss_mapping 0.0058 cls_loss_causal 0.5044 re_mapping 0.0086 re_causal 0.0223 /// teacc 98.91 lr 0.00010000
+Epoch 194, weight, value: tensor([[-0.0698,  0.0633, -0.0918,  ..., -0.0965, -0.0778, -0.0015],
+        [-0.0578, -0.1240,  0.0008,  ..., -0.0553, -0.0369, -0.0719],
+        [ 0.0308, -0.0781,  0.0467,  ...,  0.1555, -0.1096, -0.0397],
+        ...,
+        [-0.0835, -0.1338,  0.0825,  ..., -0.0193, -0.0234,  0.0639],
+        [ 0.0154,  0.0315, -0.0270,  ..., -0.0743, -0.0913, -0.0074],
+        [-0.1333, -0.0137, -0.0070,  ..., -0.1267,  0.0987,  0.0166]],
+       device='cuda:0'), grad: tensor([[ 8.8882e-04,  3.1681e-03,  9.8038e-04,  ..., -7.0333e-04,
+          6.6328e-04,  8.5640e-04],
+        [ 3.1066e-04,  3.8385e-04,  1.5259e-03,  ...,  1.5831e-04,
+          9.7942e-04,  1.3037e-03],
+        [ 3.6812e-04,  5.4121e-04, -2.4891e-04,  ...,  6.4325e-04,
+         -3.9177e-03, -3.6755e-03],
+        ...,
+        [ 1.2720e-04,  2.1458e-04, -8.1015e-04,  ...,  3.2455e-05,
+          5.5361e-04,  4.2915e-04],
+        [ 2.2531e-04, -5.9175e-04, -1.7071e-03,  ...,  4.6849e-05,
+          8.2779e-04, -1.5936e-03],
+        [ 1.4985e-04,  1.0270e-04,  9.9373e-04,  ...,  1.4067e-05,
+          7.6246e-04,  1.1349e-03]], device='cuda:0')
+Epoch 194, bias, value: tensor([ 0.0165, -0.0010,  0.0016,  0.0160, -0.0040, -0.0066,  0.0093,  0.0230,
+        -0.0309,  0.0459], device='cuda:0'), grad: tensor([ 0.0311,  0.0349, -0.0034,  0.0198, -0.0981,  0.0213,  0.0436, -0.0105,
+        -0.0638,  0.0252], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 193, time 217.01, cls_loss 0.5194 cls_loss_mapping 0.0088 cls_loss_causal 0.4913 re_mapping 0.0080 re_causal 0.0195 /// teacc 98.86 lr 0.00010000
+Epoch 195, weight, value: tensor([[-7.0703e-02,  6.2668e-02, -9.2921e-02,  ..., -9.7764e-02,
+         -7.7635e-02, -1.8272e-03],
+        [-5.7739e-02, -1.2412e-01, -1.5446e-04,  ..., -5.5505e-02,
+         -3.8477e-02, -7.2565e-02],
+        [ 3.0456e-02, -7.8659e-02,  4.6852e-02,  ...,  1.5563e-01,
+         -1.0945e-01, -3.9049e-02],
+        ...,
+        [-8.3024e-02, -1.3367e-01,  8.2073e-02,  ..., -1.8765e-02,
+         -2.3848e-02,  6.4101e-02],
+        [ 1.5413e-02,  3.1137e-02, -2.6366e-02,  ..., -7.5537e-02,
+         -9.0539e-02, -8.5435e-03],
+        [-1.3345e-01, -1.3066e-02, -7.4456e-03,  ..., -1.2657e-01,
+          9.8735e-02,  1.6453e-02]], device='cuda:0'), grad: tensor([[-0.0025, -0.0077,  0.0005,  ...,  0.0006,  0.0001, -0.0006],
+        [ 0.0022,  0.0021,  0.0009,  ...,  0.0014,  0.0002,  0.0011],
+        [ 0.0027,  0.0030, -0.0005,  ...,  0.0021,  0.0002,  0.0015],
+        ...,
+        [ 0.0004,  0.0003,  0.0006,  ...,  0.0005,  0.0001,  0.0007],
+        [ 0.0014,  0.0032,  0.0011,  ...,  0.0008,  0.0001,  0.0009],
+        [ 0.0005,  0.0015,  0.0005,  ...,  0.0004,  0.0002,  0.0008]],
+       device='cuda:0')
+Epoch 195, bias, value: tensor([ 0.0150, -0.0016,  0.0015,  0.0166, -0.0030, -0.0060,  0.0094,  0.0244,
+        -0.0314,  0.0451], device='cuda:0'), grad: tensor([-0.0010,  0.0493, -0.0003,  0.0277, -0.0443, -0.0286, -0.0389,  0.0160,
+         0.0032,  0.0169], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 194, time 216.79, cls_loss 0.5495 cls_loss_mapping 0.0095 cls_loss_causal 0.5190 re_mapping 0.0087 re_causal 0.0219 /// teacc 98.85 lr 0.00010000
+Epoch 196, weight, value: tensor([[-0.0709,  0.0627, -0.0928,  ..., -0.0968, -0.0789, -0.0015],
+        [-0.0579, -0.1244, -0.0015,  ..., -0.0566, -0.0379, -0.0731],
+        [ 0.0311, -0.0782,  0.0467,  ...,  0.1554, -0.1092, -0.0388],
+        ...,
+        [-0.0846, -0.1336,  0.0842,  ..., -0.0167, -0.0240,  0.0638],
+        [ 0.0172,  0.0318, -0.0269,  ..., -0.0748, -0.0910, -0.0083],
+        [-0.1342, -0.0135, -0.0077,  ..., -0.1289,  0.0984,  0.0156]],
+       device='cuda:0'), grad: tensor([[ 3.0947e-04,  6.8998e-04,  1.2617e-03,  ...,  7.7486e-04,
+          6.1655e-04,  1.4372e-03],
+        [ 2.1368e-05,  7.7128e-05, -3.4499e-04,  ..., -6.5422e-04,
+         -1.3523e-03,  1.3475e-03],
+        [ 4.7326e-04,  9.0694e-04,  9.6142e-05,  ...,  7.9918e-04,
+          9.6512e-04,  1.3504e-03],
+        ...,
+        [ 1.2946e-04, -5.2273e-05,  1.2253e-02,  ..., -1.3018e-03,
+          1.1606e-03,  2.2240e-03],
+        [ 9.0122e-05, -1.0815e-03,  1.3266e-03,  ...,  6.8903e-04,
+          8.3637e-04, -2.5215e-03],
+        [ 5.7459e-04,  1.3638e-03, -1.8797e-03,  ...,  4.4227e-05,
+         -3.0403e-03, -2.9202e-03]], device='cuda:0')
+Epoch 196, bias, value: tensor([ 0.0158, -0.0016,  0.0012,  0.0155, -0.0027, -0.0052,  0.0090,  0.0242,
+        -0.0309,  0.0446], device='cuda:0'), grad: tensor([ 0.0229, -0.0045, -0.0080, -0.0266, -0.0247,  0.0163,  0.0158,  0.0323,
+        -0.0146, -0.0089], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 195, time 216.77, cls_loss 0.5532 cls_loss_mapping 0.0079 cls_loss_causal 0.5223 re_mapping 0.0084 re_causal 0.0223 /// teacc 98.80 lr 0.00010000
+Epoch 197, weight, value: tensor([[-0.0710,  0.0627, -0.0958,  ..., -0.0969, -0.0795, -0.0020],
+        [-0.0578, -0.1251, -0.0018,  ..., -0.0564, -0.0380, -0.0732],
+        [ 0.0300, -0.0792,  0.0468,  ...,  0.1555, -0.1084, -0.0376],
+        ...,
+        [-0.0852, -0.1347,  0.0832,  ..., -0.0172, -0.0248,  0.0639],
+        [ 0.0183,  0.0331, -0.0258,  ..., -0.0758, -0.0919, -0.0085],
+        [-0.1343, -0.0137, -0.0076,  ..., -0.1289,  0.0985,  0.0151]],
+       device='cuda:0'), grad: tensor([[ 2.3544e-05,  4.1395e-05, -2.5539e-03,  ...,  3.8147e-04,
+          1.2708e-04,  6.0511e-04],
+        [ 2.4235e-04,  3.2187e-05,  3.5191e-04,  ...,  1.3037e-03,
+          5.2166e-04,  1.0033e-03],
+        [ 2.1744e-03,  8.0109e-04,  3.2539e-03,  ...,  2.9697e-03,
+          7.2336e-04,  2.2449e-03],
+        ...,
+        [ 4.1771e-04,  4.3726e-04,  1.7233e-03,  ...,  2.3632e-03,
+          1.2598e-03,  2.5597e-03],
+        [ 8.6641e-04,  6.2418e-04,  2.0428e-03,  ...,  9.4414e-04,
+          2.6178e-04,  1.6556e-03],
+        [-1.0118e-03, -3.0441e-03, -7.4120e-03,  ..., -4.4327e-03,
+         -1.9627e-03, -6.0844e-03]], device='cuda:0')
+Epoch 197, bias, value: tensor([ 0.0145, -0.0007,  0.0020,  0.0164, -0.0037, -0.0056,  0.0085,  0.0235,
+        -0.0309,  0.0457], device='cuda:0'), grad: tensor([-0.0461, -0.0059,  0.0428, -0.0569,  0.0141,  0.0319,  0.0093,  0.0027,
+         0.0302, -0.0222], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 196, time 216.81, cls_loss 0.5131 cls_loss_mapping 0.0067 cls_loss_causal 0.4905 re_mapping 0.0083 re_causal 0.0215 /// teacc 98.74 lr 0.00010000
+Epoch 198, weight, value: tensor([[-0.0720,  0.0616, -0.0962,  ..., -0.0951, -0.0794, -0.0010],
+        [-0.0580, -0.1258, -0.0022,  ..., -0.0575, -0.0374, -0.0719],
+        [ 0.0285, -0.0800,  0.0476,  ...,  0.1558, -0.1083, -0.0376],
+        ...,
+        [-0.0835, -0.1343,  0.0829,  ..., -0.0179, -0.0254,  0.0639],
+        [ 0.0173,  0.0320, -0.0265,  ..., -0.0757, -0.0926, -0.0087],
+        [-0.1341, -0.0123, -0.0067,  ..., -0.1293,  0.0990,  0.0141]],
+       device='cuda:0'), grad: tensor([[-1.8021e-02, -2.1210e-02, -5.1231e-03,  ..., -1.0880e-02,
+         -2.3308e-03, -1.7166e-03],
+        [ 4.1783e-05,  9.3818e-05,  9.3222e-04,  ..., -2.1541e-04,
+          6.1846e-04,  2.1420e-03],
+        [ 1.0170e-02,  1.0506e-02, -6.9714e-04,  ...,  4.4060e-03,
+         -5.5408e-04,  9.9480e-05],
+        ...,
+        [ 9.0957e-05,  1.8227e-04, -3.0327e-03,  ...,  2.5201e-04,
+         -1.3471e-04, -8.7118e-04],
+        [-9.4950e-05,  2.8682e-04,  1.5182e-03,  ...,  6.3610e-04,
+          8.2970e-04,  1.6022e-03],
+        [ 4.0293e-04,  9.6798e-04,  1.2764e-02,  ...,  8.9111e-03,
+          7.5035e-03,  8.4152e-03]], device='cuda:0')
+Epoch 198, bias, value: tensor([ 0.0151, -0.0003,  0.0022,  0.0162, -0.0040, -0.0057,  0.0089,  0.0234,
+        -0.0320,  0.0460], device='cuda:0'), grad: tensor([-0.0426,  0.0168, -0.0229,  0.0330, -0.0370,  0.0098, -0.0064, -0.0186,
+         0.0178,  0.0500], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 197, time 217.05, cls_loss 0.5264 cls_loss_mapping 0.0086 cls_loss_causal 0.4933 re_mapping 0.0077 re_causal 0.0189 /// teacc 98.87 lr 0.00010000
+Epoch 199, weight, value: tensor([[-0.0709,  0.0619, -0.0966,  ..., -0.0945, -0.0794, -0.0011],
+        [-0.0582, -0.1264, -0.0016,  ..., -0.0565, -0.0366, -0.0714],
+        [ 0.0271, -0.0807,  0.0462,  ...,  0.1544, -0.1060, -0.0387],
+        ...,
+        [-0.0827, -0.1351,  0.0841,  ..., -0.0152, -0.0266,  0.0643],
+        [ 0.0186,  0.0336, -0.0266,  ..., -0.0768, -0.0921, -0.0084],
+        [-0.1352, -0.0130, -0.0066,  ..., -0.1307,  0.0989,  0.0144]],
+       device='cuda:0'), grad: tensor([[ 1.7214e-03,  9.7322e-04,  4.9448e-04,  ...,  1.2362e-04,
+          2.0504e-04,  1.3676e-03],
+        [ 9.5129e-04,  4.5490e-04,  2.7347e-04,  ...,  4.0436e-03,
+          5.6190e-03,  2.2755e-03],
+        [ 1.0204e-03,  9.3222e-04,  3.3212e-04,  ..., -1.4277e-03,
+          1.2767e-04,  1.2560e-03],
+        ...,
+        [ 5.7030e-04,  2.9469e-04,  1.3924e-04,  ...,  5.3972e-05,
+          4.0740e-05,  4.8470e-04],
+        [-5.6877e-03, -3.6678e-03,  4.7946e-04,  ...,  1.3857e-03,
+         -7.5865e-04,  1.1654e-03],
+        [ 5.8508e-04,  3.2210e-04,  6.9189e-04,  ...,  3.0541e-04,
+          3.7456e-04,  7.7343e-04]], device='cuda:0')
+Epoch 199, bias, value: tensor([ 0.0155, -0.0003,  0.0012,  0.0162, -0.0039, -0.0065,  0.0095,  0.0238,
+        -0.0317,  0.0460], device='cuda:0'), grad: tensor([ 0.0269,  0.0269, -0.0101, -0.0430, -0.0373,  0.0337, -0.0356,  0.0180,
+         0.0026,  0.0180], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 198, time 216.90, cls_loss 0.5126 cls_loss_mapping 0.0072 cls_loss_causal 0.4849 re_mapping 0.0084 re_causal 0.0204 /// teacc 98.37 lr 0.00010000
+Epoch 200, weight, value: tensor([[-0.0712,  0.0620, -0.0975,  ..., -0.0952, -0.0794, -0.0012],
+        [-0.0583, -0.1268, -0.0017,  ..., -0.0558, -0.0367, -0.0731],
+        [ 0.0271, -0.0809,  0.0465,  ...,  0.1547, -0.1050, -0.0385],
+        ...,
+        [-0.0834, -0.1354,  0.0842,  ..., -0.0154, -0.0264,  0.0637],
+        [ 0.0168,  0.0329, -0.0261,  ..., -0.0761, -0.0925, -0.0094],
+        [-0.1347, -0.0134, -0.0073,  ..., -0.1314,  0.0989,  0.0149]],
+       device='cuda:0'), grad: tensor([[ 1.9288e-04,  2.6155e-04,  6.3276e-04,  ...,  3.3545e-04,
+          5.4693e-04,  1.6890e-03],
+        [ 2.1505e-04,  2.1684e-04,  1.0824e-03,  ...,  8.1253e-04,
+          7.2336e-04,  2.8515e-03],
+        [-8.5449e-04,  4.1753e-05, -4.9782e-03,  ..., -4.8637e-03,
+         -2.6073e-03, -1.8764e-04],
+        ...,
+        [ 2.3854e-04,  2.2316e-04, -4.4298e-04,  ...,  8.7595e-04,
+          8.0395e-04, -6.6605e-03],
+        [-1.6201e-04,  4.6253e-05,  2.0294e-03,  ...,  1.3533e-03,
+          2.1896e-03,  2.6627e-03],
+        [ 1.4839e-03, -1.2122e-05, -4.6654e-03,  ..., -2.9278e-03,
+         -7.1220e-03, -6.7596e-03]], device='cuda:0')
+Epoch 200, bias, value: tensor([ 0.0141, -0.0008,  0.0019,  0.0166, -0.0031, -0.0064,  0.0099,  0.0223,
+        -0.0313,  0.0464], device='cuda:0'), grad: tensor([ 0.0174,  0.0250, -0.0088, -0.0376,  0.0251, -0.0155,  0.0224, -0.0532,
+         0.0240,  0.0011], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 199, time 217.19, cls_loss 0.5097 cls_loss_mapping 0.0086 cls_loss_causal 0.4880 re_mapping 0.0075 re_causal 0.0184 /// teacc 98.93 lr 0.00010000
+Epoch 201, weight, value: tensor([[-0.0720,  0.0612, -0.0969,  ..., -0.0954, -0.0800, -0.0007],
+        [-0.0577, -0.1259, -0.0024,  ..., -0.0550, -0.0362, -0.0750],
+        [ 0.0272, -0.0817,  0.0476,  ...,  0.1549, -0.1048, -0.0379],
+        ...,
+        [-0.0839, -0.1369,  0.0836,  ..., -0.0165, -0.0268,  0.0642],
+        [ 0.0171,  0.0343, -0.0260,  ..., -0.0763, -0.0933, -0.0098],
+        [-0.1348, -0.0142, -0.0079,  ..., -0.1320,  0.0989,  0.0152]],
+       device='cuda:0'), grad: tensor([[ 1.4715e-03, -1.1463e-03,  1.1349e-04,  ...,  2.9588e-04,
+          6.9380e-05, -2.3975e-03],
+        [ 8.7070e-04,  2.5058e-04,  1.2046e-04,  ...,  9.5725e-05,
+          2.7776e-04,  8.5592e-04],
+        [-1.7548e-03,  1.4019e-03,  6.5184e-04,  ...,  5.9700e-04,
+          3.0851e-04, -2.1191e-03],
+        ...,
+        [ 9.5940e-04,  4.1437e-04,  2.6751e-04,  ...,  9.4831e-05,
+          5.2929e-04,  1.7433e-03],
+        [-2.0008e-03, -1.4143e-03, -1.6098e-03,  ..., -9.7847e-04,
+         -3.1328e-04,  1.3227e-03],
+        [ 1.1616e-03, -9.0480e-05, -3.0804e-04,  ...,  2.5916e-04,
+         -9.0647e-04,  6.4993e-04]], device='cuda:0')
+Epoch 201, bias, value: tensor([ 0.0145, -0.0010,  0.0022,  0.0164, -0.0036, -0.0055,  0.0095,  0.0220,
+        -0.0317,  0.0470], device='cuda:0'), grad: tensor([ 0.0103, -0.0168, -0.0066, -0.0106,  0.0053,  0.0187, -0.0174,  0.0180,
+         0.0097, -0.0105], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 200, time 217.02, cls_loss 0.5171 cls_loss_mapping 0.0060 cls_loss_causal 0.4910 re_mapping 0.0084 re_causal 0.0204 /// teacc 98.73 lr 0.00010000
+Epoch 202, weight, value: tensor([[-0.0721,  0.0614, -0.0974,  ..., -0.0959, -0.0797, -0.0017],
+        [-0.0588, -0.1262, -0.0020,  ..., -0.0550, -0.0364, -0.0761],
+        [ 0.0277, -0.0810,  0.0470,  ...,  0.1546, -0.1052, -0.0375],
+        ...,
+        [-0.0845, -0.1382,  0.0841,  ..., -0.0152, -0.0267,  0.0644],
+        [ 0.0179,  0.0355, -0.0264,  ..., -0.0764, -0.0940, -0.0098],
+        [-0.1351, -0.0136, -0.0077,  ..., -0.1319,  0.0994,  0.0156]],
+       device='cuda:0'), grad: tensor([[ 1.4973e-04, -1.3375e-04,  9.2506e-05,  ...,  7.8976e-05,
+          1.1563e-04, -3.4657e-03],
+        [ 8.7881e-04,  8.6799e-06,  2.9755e-04,  ...,  1.2102e-03,
+          1.6189e-04,  2.1706e-03],
+        [ 1.1330e-03,  6.6221e-05,  2.7728e-04,  ...,  9.5701e-04,
+          1.7774e-04,  2.3804e-03],
+        ...,
+        [-3.1681e-03,  4.7870e-06, -8.3494e-04,  ..., -5.6496e-03,
+          2.6083e-04, -5.1422e-03],
+        [-3.5954e-03, -2.1992e-03,  6.7949e-05,  ...,  1.5545e-04,
+         -1.0214e-03,  1.4668e-03],
+        [ 1.9693e-04,  2.6926e-05,  2.3949e-04,  ...,  1.0312e-04,
+          5.0306e-04,  1.6155e-03]], device='cuda:0')
+Epoch 202, bias, value: tensor([ 0.0137, -0.0017,  0.0029,  0.0153, -0.0036, -0.0064,  0.0102,  0.0241,
+        -0.0311,  0.0463], device='cuda:0'), grad: tensor([-0.0265,  0.0129,  0.0136,  0.0222,  0.0112, -0.0199,  0.0059, -0.0278,
+         0.0012,  0.0071], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 201, time 216.96, cls_loss 0.5395 cls_loss_mapping 0.0079 cls_loss_causal 0.5098 re_mapping 0.0080 re_causal 0.0195 /// teacc 98.61 lr 0.00010000
+Epoch 203, weight, value: tensor([[-0.0714,  0.0620, -0.0973,  ..., -0.0967, -0.0802, -0.0018],
+        [-0.0600, -0.1274, -0.0017,  ..., -0.0556, -0.0371, -0.0764],
+        [ 0.0281, -0.0806,  0.0475,  ...,  0.1543, -0.1046, -0.0378],
+        ...,
+        [-0.0856, -0.1393,  0.0838,  ..., -0.0148, -0.0269,  0.0644],
+        [ 0.0175,  0.0348, -0.0264,  ..., -0.0769, -0.0948, -0.0088],
+        [-0.1360, -0.0137, -0.0075,  ..., -0.1317,  0.1002,  0.0158]],
+       device='cuda:0'), grad: tensor([[ 7.3195e-05,  1.3423e-04,  5.3215e-04,  ...,  2.7567e-05,
+          2.7943e-04,  1.0834e-03],
+        [ 8.6069e-05,  1.7893e-04,  9.9754e-04,  ...,  5.8413e-05,
+          5.4932e-04,  1.6432e-03],
+        [ 1.0300e-03,  4.1199e-04,  1.8444e-03,  ...,  7.5674e-04,
+          2.9421e-04,  1.5001e-03],
+        ...,
+        [-2.4509e-03, -1.8129e-03, -8.4076e-03,  ..., -2.1076e-03,
+         -2.0885e-03, -5.7373e-03],
+        [ 3.2749e-03,  2.0504e-03,  1.4553e-03,  ...,  5.6362e-04,
+          3.6073e-04,  1.2445e-03],
+        [ 1.7965e-04,  1.7726e-04,  1.7538e-03,  ...,  5.5522e-05,
+          1.0624e-03,  1.8816e-03]], device='cuda:0')
+Epoch 203, bias, value: tensor([ 0.0138, -0.0020,  0.0027,  0.0156, -0.0037, -0.0060,  0.0110,  0.0241,
+        -0.0322,  0.0464], device='cuda:0'), grad: tensor([ 0.0145,  0.0255,  0.0233, -0.0166,  0.0016,  0.0102, -0.0415, -0.0705,
+         0.0264,  0.0273], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 202, time 217.09, cls_loss 0.5510 cls_loss_mapping 0.0071 cls_loss_causal 0.5274 re_mapping 0.0081 re_causal 0.0199 /// teacc 98.74 lr 0.00010000
+Epoch 204, weight, value: tensor([[-0.0713,  0.0629, -0.0973,  ..., -0.0957, -0.0802, -0.0024],
+        [-0.0602, -0.1251, -0.0024,  ..., -0.0565, -0.0362, -0.0761],
+        [ 0.0275, -0.0809,  0.0466,  ...,  0.1539, -0.1065, -0.0393],
+        ...,
+        [-0.0867, -0.1390,  0.0853,  ..., -0.0148, -0.0259,  0.0654],
+        [ 0.0189,  0.0345, -0.0269,  ..., -0.0763, -0.0960, -0.0094],
+        [-0.1364, -0.0134, -0.0080,  ..., -0.1312,  0.1001,  0.0163]],
+       device='cuda:0'), grad: tensor([[ 2.7609e-04, -4.9448e-04,  3.9041e-05,  ...,  9.7901e-06,
+          2.8992e-04,  3.5024e-04],
+        [ 9.0456e-04,  4.4775e-04,  1.7238e-04,  ...,  1.4298e-05,
+          7.6199e-04,  1.1549e-03],
+        [-4.2992e-03,  3.9148e-04,  8.2588e-04,  ..., -2.6315e-05,
+          4.1294e-04,  5.3358e-04],
+        ...,
+        [ 6.4850e-04,  1.2058e-04, -6.2256e-03,  ...,  1.0632e-05,
+         -1.0529e-03,  3.6025e-04],
+        [ 1.5411e-03,  8.3160e-03,  5.3177e-03,  ...,  2.2933e-05,
+          4.9934e-03,  3.9124e-04],
+        [-1.2388e-03, -1.0948e-02, -2.0199e-03,  ..., -1.9360e-04,
+         -4.8103e-03, -2.1286e-03]], device='cuda:0')
+Epoch 204, bias, value: tensor([ 0.0143, -0.0017,  0.0014,  0.0158, -0.0040, -0.0061,  0.0120,  0.0242,
+        -0.0325,  0.0464], device='cuda:0'), grad: tensor([-0.0147,  0.0348,  0.0088,  0.0003,  0.0150,  0.0143, -0.0358, -0.0330,
+         0.0459, -0.0356], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 203, time 216.82, cls_loss 0.5056 cls_loss_mapping 0.0071 cls_loss_causal 0.4816 re_mapping 0.0079 re_causal 0.0202 /// teacc 98.89 lr 0.00010000
+Epoch 205, weight, value: tensor([[-0.0724,  0.0622, -0.0979,  ..., -0.0956, -0.0803, -0.0022],
+        [-0.0595, -0.1251, -0.0024,  ..., -0.0567, -0.0371, -0.0774],
+        [ 0.0287, -0.0807,  0.0477,  ...,  0.1541, -0.1063, -0.0398],
+        ...,
+        [-0.0871, -0.1402,  0.0854,  ..., -0.0146, -0.0259,  0.0669],
+        [ 0.0193,  0.0343, -0.0260,  ..., -0.0768, -0.0955, -0.0085],
+        [-0.1351, -0.0121, -0.0083,  ..., -0.1315,  0.0999,  0.0164]],
+       device='cuda:0'), grad: tensor([[-2.9373e-03, -2.2049e-03,  2.8324e-04,  ...,  2.2137e-04,
+          4.4560e-04, -7.0496e-03],
+        [ 1.2589e-03, -4.2653e-04, -1.2326e-04,  ...,  6.9904e-04,
+          6.6328e-04,  1.0443e-03],
+        [ 8.0490e-03,  7.3204e-03,  6.8016e-03,  ...,  1.0666e-02,
+          1.9426e-03,  3.7880e-03],
+        ...,
+        [-4.7684e-03,  2.8586e-04, -3.1128e-03,  ..., -2.8610e-03,
+          8.7452e-04, -1.0170e-02],
+        [-4.3124e-05, -3.3398e-03, -1.0185e-03,  ..., -2.8915e-03,
+          1.3609e-03,  1.5915e-02],
+        [ 2.6226e-03,  6.5088e-04,  1.3180e-03,  ...,  8.1778e-04,
+          1.0643e-03,  3.5877e-03]], device='cuda:0')
+Epoch 205, bias, value: tensor([ 0.0145, -0.0026,  0.0013,  0.0158, -0.0036, -0.0065,  0.0119,  0.0238,
+        -0.0312,  0.0464], device='cuda:0'), grad: tensor([-0.0219, -0.0324,  0.0278, -0.0392, -0.0401,  0.0075,  0.0262, -0.0274,
+         0.0583,  0.0412], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 204, time 216.87, cls_loss 0.5628 cls_loss_mapping 0.0078 cls_loss_causal 0.5340 re_mapping 0.0076 re_causal 0.0204 /// teacc 98.70 lr 0.00010000
+Epoch 206, weight, value: tensor([[-0.0727,  0.0626, -0.0975,  ..., -0.0954, -0.0817, -0.0004],
+        [-0.0600, -0.1257, -0.0023,  ..., -0.0572, -0.0364, -0.0786],
+        [ 0.0285, -0.0820,  0.0476,  ...,  0.1534, -0.1072, -0.0399],
+        ...,
+        [-0.0880, -0.1414,  0.0850,  ..., -0.0141, -0.0257,  0.0669],
+        [ 0.0189,  0.0346, -0.0259,  ..., -0.0758, -0.0958, -0.0076],
+        [-0.1337, -0.0115, -0.0082,  ..., -0.1323,  0.0998,  0.0154]],
+       device='cuda:0'), grad: tensor([[ 4.5657e-04,  1.0376e-03,  1.5430e-03,  ...,  3.4571e-04,
+          9.0599e-04,  1.5125e-03],
+        [ 1.9443e-04,  5.6314e-04,  1.3151e-03,  ...,  3.7742e-04,
+         -1.4029e-03, -2.3594e-03],
+        [ 6.5088e-04,  1.2503e-03,  6.0730e-03,  ...,  4.0588e-03,
+          1.2321e-03,  2.3956e-03],
+        ...,
+        [ 7.7868e-04,  8.6832e-04,  5.4741e-04,  ...,  9.2983e-04,
+          1.5268e-03,  1.0777e-03],
+        [ 7.2098e-04, -2.5177e-04, -1.7166e-03,  ...,  6.6280e-05,
+          2.1374e-04,  7.9203e-04],
+        [ 1.0967e-05,  9.9087e-04, -2.6493e-03,  ..., -1.0195e-03,
+         -2.3346e-03, -6.3562e-04]], device='cuda:0')
+Epoch 206, bias, value: tensor([ 0.0149, -0.0026,  0.0018,  0.0158, -0.0026, -0.0058,  0.0105,  0.0232,
+        -0.0309,  0.0454], device='cuda:0'), grad: tensor([ 0.0271, -0.0317,  0.0444,  0.0107,  0.0278, -0.0020, -0.0563,  0.0305,
+        -0.0211, -0.0294], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 205, time 216.76, cls_loss 0.5494 cls_loss_mapping 0.0071 cls_loss_causal 0.5205 re_mapping 0.0077 re_causal 0.0192 /// teacc 98.88 lr 0.00010000
+Epoch 207, weight, value: tensor([[-0.0727,  0.0627, -0.0977,  ..., -0.0949, -0.0812,  0.0002],
+        [-0.0607, -0.1251, -0.0015,  ..., -0.0549, -0.0366, -0.0788],
+        [ 0.0291, -0.0816,  0.0476,  ...,  0.1529, -0.1063, -0.0398],
+        ...,
+        [-0.0884, -0.1439,  0.0851,  ..., -0.0142, -0.0252,  0.0676],
+        [ 0.0194,  0.0357, -0.0252,  ..., -0.0755, -0.0962, -0.0078],
+        [-0.1343, -0.0113, -0.0080,  ..., -0.1329,  0.1001,  0.0159]],
+       device='cuda:0'), grad: tensor([[ 2.7180e-04, -5.0735e-04,  6.6376e-04,  ...,  5.5027e-04,
+          1.3864e-04,  1.3132e-03],
+        [ 1.1702e-03,  7.2181e-05,  2.2566e-04,  ...,  2.3258e-04,
+          4.5776e-04,  2.4071e-03],
+        [-3.5686e-03, -8.7798e-05, -5.3596e-03,  ..., -2.2755e-03,
+          2.4867e-04, -2.0561e-03],
+        ...,
+        [ 1.1301e-03,  1.2751e-03,  3.7518e-03,  ...,  4.7264e-03,
+          2.8396e-04,  2.3746e-03],
+        [ 2.0809e-03,  1.6594e-03,  2.0332e-03,  ...,  6.1369e-04,
+          2.2812e-03,  1.8187e-03],
+        [-2.9159e-04, -5.4646e-04, -1.4925e-04,  ...,  1.0139e-04,
+         -1.8082e-03,  1.5211e-03]], device='cuda:0')
+Epoch 207, bias, value: tensor([ 0.0142, -0.0024,  0.0024,  0.0149, -0.0019, -0.0059,  0.0102,  0.0228,
+        -0.0307,  0.0460], device='cuda:0'), grad: tensor([-0.0103,  0.0010, -0.0659, -0.0348,  0.0249, -0.0269,  0.0215,  0.0400,
+         0.0315,  0.0190], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 206, time 216.35, cls_loss 0.5388 cls_loss_mapping 0.0067 cls_loss_causal 0.5085 re_mapping 0.0077 re_causal 0.0197 /// teacc 98.84 lr 0.00010000
+Epoch 208, weight, value: tensor([[-0.0742,  0.0626, -0.0984,  ..., -0.0948, -0.0815, -0.0008],
+        [-0.0611, -0.1259, -0.0028,  ..., -0.0549, -0.0370, -0.0784],
+        [ 0.0284, -0.0825,  0.0479,  ...,  0.1531, -0.1071, -0.0413],
+        ...,
+        [-0.0884, -0.1444,  0.0866,  ..., -0.0147, -0.0250,  0.0685],
+        [ 0.0199,  0.0358, -0.0256,  ..., -0.0756, -0.0977, -0.0089],
+        [-0.1344, -0.0106, -0.0079,  ..., -0.1343,  0.0999,  0.0160]],
+       device='cuda:0'), grad: tensor([[ 4.9448e-04,  3.3689e-04,  4.3541e-05,  ...,  1.4663e-05,
+          9.2864e-05,  8.8632e-05],
+        [ 1.9646e-04,  5.8264e-05, -3.6573e-04,  ...,  4.8727e-05,
+         -2.4052e-03, -1.6384e-03],
+        [-8.1730e-04, -1.6844e-04, -3.9005e-04,  ..., -7.0906e-04,
+          3.1948e-04, -6.0892e-04],
+        ...,
+        [ 7.2718e-04, -5.3197e-05, -2.4681e-03,  ..., -2.4929e-03,
+         -1.5411e-03, -9.6226e-04],
+        [ 6.2256e-03,  6.1302e-03,  4.1366e-04,  ...,  4.6325e-04,
+          9.1553e-04,  3.8123e-04],
+        [ 7.3280e-03,  1.3466e-03,  1.9817e-03,  ...,  2.2125e-03,
+          3.8662e-03,  1.0910e-03]], device='cuda:0')
+Epoch 208, bias, value: tensor([ 0.0132, -0.0025,  0.0012,  0.0155, -0.0019, -0.0059,  0.0115,  0.0239,
+        -0.0316,  0.0462], device='cuda:0'), grad: tensor([ 0.0035, -0.0083, -0.0022, -0.0198,  0.0103,  0.0201, -0.0026, -0.0320,
+         0.0104,  0.0204], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 207, time 216.49, cls_loss 0.5022 cls_loss_mapping 0.0070 cls_loss_causal 0.4746 re_mapping 0.0081 re_causal 0.0198 /// teacc 98.72 lr 0.00010000
+Epoch 209, weight, value: tensor([[-7.4057e-02,  6.2417e-02, -9.7483e-02,  ..., -9.4999e-02,
+         -8.0842e-02,  7.6059e-05],
+        [-5.9102e-02, -1.2654e-01, -2.6437e-03,  ..., -5.5748e-02,
+         -3.7958e-02, -7.8459e-02],
+        [ 3.0034e-02, -8.1824e-02,  4.8012e-02,  ...,  1.5286e-01,
+         -1.0770e-01, -4.0497e-02],
+        ...,
+        [-8.9937e-02, -1.4599e-01,  8.7592e-02,  ..., -1.3495e-02,
+         -2.3887e-02,  6.8349e-02],
+        [ 1.9564e-02,  3.4569e-02, -2.4923e-02,  ..., -7.5668e-02,
+         -9.7231e-02, -8.1318e-03],
+        [-1.3464e-01, -1.0048e-02, -9.7181e-03,  ..., -1.3546e-01,
+          1.0077e-01,  1.6536e-02]], device='cuda:0'), grad: tensor([[ 1.5497e-04, -7.5798e-03, -7.9870e-04,  ...,  1.4591e-04,
+          7.2908e-04,  8.2397e-04],
+        [ 6.0415e-04,  2.4748e-04,  9.3508e-04,  ...,  2.8777e-04,
+          1.6403e-03,  1.9350e-03],
+        [ 5.1165e-04,  1.3041e-04,  8.7404e-04,  ...,  2.1040e-05,
+          6.6233e-04,  1.0509e-03],
+        ...,
+        [ 2.3699e-04,  1.8167e-04, -4.7278e-04,  ...,  1.3781e-04,
+          9.2793e-04,  2.4363e-05],
+        [ 2.7013e-04,  7.3547e-03,  1.8749e-03,  ...,  1.5533e-04,
+         -9.6846e-04, -1.5535e-03],
+        [ 1.3199e-03, -1.6367e-04, -1.0128e-03,  ..., -1.3571e-03,
+         -1.9331e-03,  7.9012e-04]], device='cuda:0')
+Epoch 209, bias, value: tensor([ 0.0143, -0.0021,  0.0018,  0.0151, -0.0018, -0.0064,  0.0107,  0.0233,
+        -0.0311,  0.0458], device='cuda:0'), grad: tensor([-0.0089,  0.0218,  0.0106, -0.0052, -0.0186, -0.0201,  0.0093,  0.0074,
+        -0.0025,  0.0063], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 208, time 216.60, cls_loss 0.4987 cls_loss_mapping 0.0061 cls_loss_causal 0.4661 re_mapping 0.0080 re_causal 0.0199 /// teacc 98.67 lr 0.00010000
+Epoch 210, weight, value: tensor([[-7.2646e-02,  6.2751e-02, -9.6438e-02,  ..., -9.5820e-02,
+         -8.0766e-02,  6.8615e-05],
+        [-5.8439e-02, -1.2608e-01, -1.4281e-03,  ..., -5.6710e-02,
+         -3.7786e-02, -7.8263e-02],
+        [ 2.7939e-02, -8.2531e-02,  4.8889e-02,  ...,  1.5314e-01,
+         -1.0864e-01, -4.0386e-02],
+        ...,
+        [-9.0720e-02, -1.4743e-01,  8.7264e-02,  ..., -1.4834e-02,
+         -2.3625e-02,  6.8466e-02],
+        [ 1.9324e-02,  3.3986e-02, -2.5800e-02,  ..., -7.6315e-02,
+         -9.6993e-02, -8.2106e-03],
+        [-1.3437e-01, -1.0299e-02, -9.4718e-03,  ..., -1.3508e-01,
+          1.0134e-01,  1.7188e-02]], device='cuda:0'), grad: tensor([[ 8.1444e-04,  4.8542e-04,  5.4550e-04,  ...,  7.4530e-04,
+          2.2769e-05,  1.0379e-05],
+        [ 9.8801e-04,  5.2899e-06, -2.0157e-02,  ...,  9.6703e-04,
+          3.5390e-06,  2.0824e-06],
+        [ 3.3054e-03,  2.5228e-05,  7.1096e-04,  ...,  3.9139e-03,
+          3.4183e-05,  3.9153e-06],
+        ...,
+        [ 3.1281e-04,  8.3372e-06,  8.7280e-03,  ...,  3.8958e-04,
+          3.2043e-04, -7.3090e-06],
+        [ 6.1274e-04,  1.3089e-04,  3.7651e-03,  ...,  6.6853e-04,
+          1.0405e-03,  1.7986e-05],
+        [ 1.2815e-04, -2.4939e-04, -3.0556e-03,  ..., -3.3116e-04,
+         -1.8158e-03, -2.4462e-04]], device='cuda:0')
+Epoch 210, bias, value: tensor([ 0.0152, -0.0017,  0.0018,  0.0157, -0.0023, -0.0071,  0.0104,  0.0225,
+        -0.0317,  0.0468], device='cuda:0'), grad: tensor([ 0.0064, -0.0164, -0.0042,  0.0060, -0.0105,  0.0077, -0.0155,  0.0196,
+         0.0142, -0.0072], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 209, time 216.75, cls_loss 0.4989 cls_loss_mapping 0.0072 cls_loss_causal 0.4712 re_mapping 0.0077 re_causal 0.0190 /// teacc 98.82 lr 0.00010000
+Epoch 211, weight, value: tensor([[-0.0734,  0.0633, -0.0962,  ..., -0.0962, -0.0813, -0.0006],
+        [-0.0597, -0.1264,  0.0009,  ..., -0.0561, -0.0376, -0.0777],
+        [ 0.0293, -0.0816,  0.0493,  ...,  0.1535, -0.1082, -0.0403],
+        ...,
+        [-0.0891, -0.1486,  0.0867,  ..., -0.0152, -0.0246,  0.0690],
+        [ 0.0194,  0.0341, -0.0255,  ..., -0.0770, -0.0972, -0.0072],
+        [-0.1355, -0.0105, -0.0108,  ..., -0.1357,  0.1014,  0.0167]],
+       device='cuda:0'), grad: tensor([[ 4.6134e-04, -2.4307e-04,  5.9557e-04,  ...,  3.5477e-04,
+          1.5759e-04,  1.8966e-04],
+        [ 9.1374e-05,  2.3067e-05,  7.4673e-04,  ...,  3.7742e-04,
+          9.6202e-05, -9.4414e-04],
+        [ 3.2158e-03,  2.3727e-03,  1.5669e-03,  ...,  1.3628e-03,
+          3.8385e-04,  2.2495e-04],
+        ...,
+        [ 4.8161e-04,  1.1075e-04, -4.6577e-03,  ..., -3.6383e-04,
+          1.0157e-03, -6.5660e-04],
+        [ 1.0910e-03,  9.9754e-04,  3.2959e-03,  ...,  1.7729e-03,
+          2.9144e-03,  1.1253e-03],
+        [ 2.2793e-03,  1.2789e-03, -8.2970e-05,  ...,  1.2617e-03,
+         -1.0738e-03,  2.1706e-03]], device='cuda:0')
+Epoch 211, bias, value: tensor([ 0.0151, -0.0010,  0.0011,  0.0164, -0.0025, -0.0061,  0.0110,  0.0221,
+        -0.0323,  0.0460], device='cuda:0'), grad: tensor([ 0.0086, -0.0446,  0.0234, -0.0192, -0.0254,  0.0122,  0.0173, -0.0124,
+         0.0207,  0.0194], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 210, time 216.92, cls_loss 0.5168 cls_loss_mapping 0.0077 cls_loss_causal 0.4919 re_mapping 0.0076 re_causal 0.0192 /// teacc 98.73 lr 0.00010000
+Epoch 212, weight, value: tensor([[-0.0742,  0.0628, -0.0963,  ..., -0.0962, -0.0815, -0.0007],
+        [-0.0573, -0.1256,  0.0013,  ..., -0.0555, -0.0373, -0.0789],
+        [ 0.0291, -0.0812,  0.0496,  ...,  0.1532, -0.1087, -0.0401],
+        ...,
+        [-0.0904, -0.1497,  0.0863,  ..., -0.0150, -0.0245,  0.0689],
+        [ 0.0194,  0.0342, -0.0256,  ..., -0.0766, -0.0972, -0.0071],
+        [-0.1371, -0.0100, -0.0104,  ..., -0.1365,  0.1017,  0.0162]],
+       device='cuda:0'), grad: tensor([[ 1.2039e-02,  5.5933e-04,  9.3174e-04,  ...,  1.9255e-03,
+          5.9366e-04,  1.1711e-03],
+        [-5.8748e-06,  5.0850e-06,  1.3294e-03,  ...,  7.7581e-04,
+          7.4387e-04,  2.7714e-03],
+        [ 2.1954e-03,  5.1409e-05,  1.9026e-03,  ...,  1.5802e-03,
+          2.4378e-04,  3.6259e-03],
+        ...,
+        [ 7.7724e-05,  3.5651e-06, -1.5807e-04,  ...,  6.7139e-04,
+          5.2118e-04,  5.9557e-04],
+        [ 6.3467e-04,  1.6336e-03,  2.2163e-03,  ...,  1.2980e-03,
+          9.2316e-04,  1.8454e-03],
+        [ 1.4973e-04,  2.2367e-05, -6.5947e-04,  ...,  5.9748e-04,
+         -5.3062e-03, -8.9340e-03]], device='cuda:0')
+Epoch 212, bias, value: tensor([ 0.0156, -0.0005,  0.0003,  0.0165, -0.0024, -0.0057,  0.0106,  0.0221,
+        -0.0325,  0.0459], device='cuda:0'), grad: tensor([ 0.0059,  0.0315,  0.0201, -0.0185,  0.0174,  0.0084, -0.0163,  0.0072,
+         0.0217, -0.0774], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 211, time 217.09, cls_loss 0.5061 cls_loss_mapping 0.0081 cls_loss_causal 0.4782 re_mapping 0.0078 re_causal 0.0191 /// teacc 98.81 lr 0.00010000
+Epoch 213, weight, value: tensor([[-0.0755,  0.0628, -0.0967,  ..., -0.0960, -0.0828, -0.0012],
+        [-0.0585, -0.1260,  0.0013,  ..., -0.0561, -0.0377, -0.0798],
+        [ 0.0310, -0.0806,  0.0496,  ...,  0.1540, -0.1093, -0.0401],
+        ...,
+        [-0.0904, -0.1494,  0.0859,  ..., -0.0163, -0.0243,  0.0699],
+        [ 0.0176,  0.0340, -0.0255,  ..., -0.0782, -0.0970, -0.0094],
+        [-0.1357, -0.0101, -0.0112,  ..., -0.1377,  0.1009,  0.0164]],
+       device='cuda:0'), grad: tensor([[-5.8899e-03, -9.5749e-03, -1.5011e-03,  ..., -1.4297e-02,
+          1.2052e-04, -3.7217e-04],
+        [ 3.7217e-04,  4.7654e-05,  1.1086e-04,  ...,  3.0670e-03,
+          2.9159e-04,  4.1533e-04],
+        [ 1.8883e-03,  3.1300e-03,  6.8092e-04,  ...,  1.0004e-03,
+          1.4329e-04,  2.7847e-04],
+        ...,
+        [ 2.7037e-04,  7.5579e-05, -2.5678e-04,  ...,  4.0150e-04,
+          1.8919e-04,  2.7776e-04],
+        [ 2.0409e-03,  1.4484e-04,  1.2279e-04,  ...,  2.2583e-03,
+          1.6584e-03,  1.8930e-03],
+        [ 5.3263e-04,  2.5415e-04,  1.8764e-04,  ...,  6.8903e-04,
+         -7.3671e-05,  4.6372e-04]], device='cuda:0')
+Epoch 213, bias, value: tensor([ 0.0143, -0.0005,  0.0014,  0.0168, -0.0032, -0.0049,  0.0116,  0.0220,
+        -0.0339,  0.0463], device='cuda:0'), grad: tensor([-0.0665,  0.0135,  0.0131,  0.0277, -0.0228, -0.0148,  0.0118,  0.0048,
+         0.0251,  0.0081], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 212, time 217.06, cls_loss 0.4885 cls_loss_mapping 0.0070 cls_loss_causal 0.4738 re_mapping 0.0084 re_causal 0.0200 /// teacc 98.72 lr 0.00010000
+Epoch 214, weight, value: tensor([[-0.0754,  0.0633, -0.0970,  ..., -0.0958, -0.0837, -0.0016],
+        [-0.0587, -0.1266,  0.0012,  ..., -0.0559, -0.0383, -0.0804],
+        [ 0.0295, -0.0816,  0.0496,  ...,  0.1533, -0.1084, -0.0398],
+        ...,
+        [-0.0886, -0.1483,  0.0859,  ..., -0.0168, -0.0250,  0.0693],
+        [ 0.0182,  0.0350, -0.0265,  ..., -0.0782, -0.0967, -0.0091],
+        [-0.1367, -0.0106, -0.0097,  ..., -0.1375,  0.1018,  0.0163]],
+       device='cuda:0'), grad: tensor([[-1.6487e-04, -3.3817e-03,  1.6782e-06,  ..., -4.6921e-04,
+          9.8109e-05,  2.2924e-04],
+        [ 3.2902e-04,  2.6989e-04,  4.7028e-05,  ...,  1.3936e-04,
+         -3.0136e-04, -1.5125e-03],
+        [ 3.6359e-04,  2.9278e-04, -7.1004e-06,  ...,  5.2869e-05,
+          1.3804e-04,  3.2449e-04],
+        ...,
+        [ 2.5892e-04,  1.7726e-04,  5.5283e-05,  ...,  3.3379e-05,
+          3.1519e-04,  5.8079e-04],
+        [ 1.3742e-03,  7.2670e-04,  7.1049e-05,  ...,  1.4853e-04,
+          4.9734e-04,  4.7112e-04],
+        [ 2.5487e-04,  2.5105e-04, -1.1587e-04,  ...,  3.8654e-05,
+          2.5058e-04,  6.4135e-05]], device='cuda:0')
+Epoch 214, bias, value: tensor([ 0.0138, -0.0007,  0.0016,  0.0176, -0.0032, -0.0058,  0.0122,  0.0222,
+        -0.0333,  0.0457], device='cuda:0'), grad: tensor([-0.0461, -0.0070,  0.0135,  0.0169, -0.0151,  0.0056,  0.0187,  0.0102,
+         0.0194, -0.0162], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 213, time 216.87, cls_loss 0.5122 cls_loss_mapping 0.0074 cls_loss_causal 0.4878 re_mapping 0.0076 re_causal 0.0192 /// teacc 98.77 lr 0.00010000
+Epoch 215, weight, value: tensor([[-0.0758,  0.0632, -0.0971,  ..., -0.0956, -0.0833, -0.0008],
+        [-0.0588, -0.1271,  0.0012,  ..., -0.0549, -0.0380, -0.0802],
+        [ 0.0297, -0.0811,  0.0499,  ...,  0.1530, -0.1082, -0.0393],
+        ...,
+        [-0.0888, -0.1493,  0.0858,  ..., -0.0159, -0.0262,  0.0698],
+        [ 0.0170,  0.0344, -0.0258,  ..., -0.0785, -0.0958, -0.0085],
+        [-0.1361, -0.0105, -0.0089,  ..., -0.1372,  0.1021,  0.0159]],
+       device='cuda:0'), grad: tensor([[ 1.7595e-03,  3.9649e-04,  5.5254e-05,  ...,  1.1158e-04,
+          4.1462e-06,  4.4084e-04],
+        [ 2.0337e-04, -8.3303e-04, -3.6831e-03,  ..., -3.5214e-04,
+          5.4657e-05, -1.9817e-03],
+        [ 6.8045e-04,  2.3037e-05,  5.0831e-04,  ...,  1.8096e-04,
+          7.2271e-06,  1.6555e-05],
+        ...,
+        [ 2.0218e-03,  1.8626e-05,  4.2229e-03,  ..., -3.8099e-04,
+          1.9360e-04,  2.3174e-03],
+        [ 1.0509e-03,  8.1837e-05, -1.9598e-04,  ...,  2.4498e-05,
+          4.6670e-05,  8.0824e-05],
+        [ 1.2188e-03,  2.0504e-05,  9.1934e-03,  ...,  2.4125e-05,
+          2.2907e-03,  3.2101e-03]], device='cuda:0')
+Epoch 215, bias, value: tensor([ 1.4044e-02,  4.3852e-06,  1.4508e-03,  1.7602e-02, -3.6247e-03,
+        -5.6474e-03,  1.1832e-02,  2.2295e-02, -3.3486e-02,  4.5416e-02],
+       device='cuda:0'), grad: tensor([ 0.0181, -0.0211,  0.0020, -0.0530, -0.0598, -0.0096,  0.0435,  0.0396,
+         0.0111,  0.0292], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 214, time 217.02, cls_loss 0.5209 cls_loss_mapping 0.0081 cls_loss_causal 0.4954 re_mapping 0.0078 re_causal 0.0191 /// teacc 98.81 lr 0.00010000
+Epoch 216, weight, value: tensor([[-7.6291e-02,  6.3425e-02, -9.6967e-02,  ..., -9.5763e-02,
+         -8.3218e-02, -1.6413e-04],
+        [-6.0292e-02, -1.2800e-01, -1.1051e-04,  ..., -5.6342e-02,
+         -3.8162e-02, -8.1411e-02],
+        [ 3.0789e-02, -8.0815e-02,  4.9649e-02,  ...,  1.5367e-01,
+         -1.0790e-01, -3.9853e-02],
+        ...,
+        [-8.9448e-02, -1.4985e-01,  8.6237e-02,  ..., -1.6696e-02,
+         -2.6110e-02,  6.9438e-02],
+        [ 1.6858e-02,  3.4398e-02, -2.6439e-02,  ..., -7.8977e-02,
+         -9.6478e-02, -8.2318e-03],
+        [-1.3624e-01, -1.1467e-02, -8.7653e-03,  ..., -1.3797e-01,
+          1.0147e-01,  1.6420e-02]], device='cuda:0'), grad: tensor([[-1.9894e-03, -1.2283e-03,  8.8835e-04,  ..., -1.4581e-05,
+          4.4274e-04, -1.7300e-03],
+        [ 1.1170e-04,  8.0884e-05, -1.8473e-03,  ...,  2.8324e-04,
+          3.7432e-05, -3.2544e-04],
+        [-2.6455e-03,  8.9169e-04,  8.0490e-04,  ..., -2.4624e-03,
+          4.0054e-04,  6.2561e-04],
+        ...,
+        [ 8.8978e-04,  8.3399e-04,  1.0748e-03,  ...,  4.7278e-04,
+          8.0204e-04,  1.7347e-03],
+        [ 1.4124e-03,  1.1530e-03,  4.8652e-06,  ...,  1.2197e-03,
+          8.6021e-04, -3.7270e-03],
+        [-2.0218e-03, -4.9133e-03, -1.2451e-02,  ..., -2.3708e-03,
+         -2.0477e-02, -8.8272e-03]], device='cuda:0')
+Epoch 216, bias, value: tensor([ 0.0144, -0.0006,  0.0016,  0.0180, -0.0038, -0.0054,  0.0108,  0.0232,
+        -0.0330,  0.0446], device='cuda:0'), grad: tensor([-0.0006, -0.0089, -0.0284,  0.0259,  0.0421,  0.0101, -0.0179,  0.0198,
+        -0.0143, -0.0280], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 215, time 216.84, cls_loss 0.4900 cls_loss_mapping 0.0078 cls_loss_causal 0.4614 re_mapping 0.0081 re_causal 0.0199 /// teacc 98.79 lr 0.00010000
+Epoch 217, weight, value: tensor([[-0.0770,  0.0630, -0.0961,  ..., -0.0965, -0.0831, -0.0007],
+        [-0.0616, -0.1274, -0.0003,  ..., -0.0574, -0.0386, -0.0812],
+        [ 0.0325, -0.0806,  0.0500,  ...,  0.1541, -0.1087, -0.0402],
+        ...,
+        [-0.0897, -0.1511,  0.0855,  ..., -0.0172, -0.0275,  0.0689],
+        [ 0.0167,  0.0338, -0.0262,  ..., -0.0784, -0.0972, -0.0090],
+        [-0.1355, -0.0116, -0.0091,  ..., -0.1393,  0.1017,  0.0174]],
+       device='cuda:0'), grad: tensor([[ 0.0004, -0.0017,  0.0006,  ...,  0.0004,  0.0006,  0.0010],
+        [ 0.0012,  0.0002,  0.0008,  ...,  0.0005,  0.0013,  0.0029],
+        [-0.0012,  0.0008, -0.0012,  ..., -0.0004, -0.0022, -0.0050],
+        ...,
+        [ 0.0010,  0.0004,  0.0020,  ...,  0.0005,  0.0012,  0.0003],
+        [ 0.0021,  0.0009,  0.0019,  ...,  0.0007,  0.0018,  0.0020],
+        [-0.0031, -0.0004, -0.0103,  ...,  0.0003, -0.0067, -0.0082]],
+       device='cuda:0')
+Epoch 217, bias, value: tensor([ 0.0133, -0.0006,  0.0021,  0.0167, -0.0040, -0.0051,  0.0112,  0.0233,
+        -0.0330,  0.0459], device='cuda:0'), grad: tensor([ 0.0117,  0.0392, -0.0401,  0.0046,  0.0038, -0.0143, -0.0020,  0.0157,
+         0.0161, -0.0347], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 216, time 216.97, cls_loss 0.4935 cls_loss_mapping 0.0061 cls_loss_causal 0.4657 re_mapping 0.0076 re_causal 0.0189 /// teacc 98.91 lr 0.00010000
+Epoch 218, weight, value: tensor([[-0.0767,  0.0639, -0.0963,  ..., -0.0974, -0.0831, -0.0010],
+        [-0.0618, -0.1277, -0.0007,  ..., -0.0563, -0.0404, -0.0810],
+        [ 0.0327, -0.0809,  0.0503,  ...,  0.1537, -0.1084, -0.0410],
+        ...,
+        [-0.0890, -0.1507,  0.0847,  ..., -0.0170, -0.0286,  0.0690],
+        [ 0.0175,  0.0341, -0.0253,  ..., -0.0799, -0.0947, -0.0082],
+        [-0.1367, -0.0108, -0.0077,  ..., -0.1376,  0.1021,  0.0175]],
+       device='cuda:0'), grad: tensor([[-1.5916e-06,  6.1941e-04, -7.9870e-04,  ...,  9.1600e-04,
+         -6.7520e-04, -2.3041e-03],
+        [ 1.6499e-04,  1.0836e-04,  9.4128e-04,  ...,  6.6280e-04,
+          1.3094e-03,  1.8253e-03],
+        [ 1.0777e-03,  1.3340e-04,  5.1308e-03,  ...,  4.7417e-03,
+          7.2861e-04,  3.4084e-03],
+        ...,
+        [-1.8549e-03,  2.7701e-05, -9.0561e-03,  ..., -9.6512e-03,
+          7.0667e-04, -5.3749e-03],
+        [ 6.3591e-03,  2.3937e-03,  7.1487e-03,  ...,  6.3095e-03,
+          9.0504e-04,  5.1231e-03],
+        [ 2.9826e-04,  1.9383e-04,  5.8460e-04,  ...,  1.9407e-03,
+          4.6760e-05, -2.9488e-03]], device='cuda:0')
+Epoch 218, bias, value: tensor([ 0.0131,  0.0004,  0.0019,  0.0173, -0.0040, -0.0048,  0.0109,  0.0225,
+        -0.0331,  0.0457], device='cuda:0'), grad: tensor([-0.0168, -0.0120,  0.0296,  0.0048,  0.0163, -0.0079, -0.0112, -0.0131,
+         0.0213, -0.0110], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 217, time 216.59, cls_loss 0.5118 cls_loss_mapping 0.0049 cls_loss_causal 0.4758 re_mapping 0.0079 re_causal 0.0194 /// teacc 98.91 lr 0.00010000
+Epoch 219, weight, value: tensor([[-0.0759,  0.0640, -0.0951,  ..., -0.0980, -0.0844, -0.0004],
+        [-0.0619, -0.1275, -0.0011,  ..., -0.0571, -0.0430, -0.0821],
+        [ 0.0320, -0.0817,  0.0499,  ...,  0.1550, -0.1075, -0.0412],
+        ...,
+        [-0.0891, -0.1517,  0.0860,  ..., -0.0166, -0.0276,  0.0699],
+        [ 0.0175,  0.0334, -0.0238,  ..., -0.0796, -0.0943, -0.0076],
+        [-0.1381, -0.0102, -0.0085,  ..., -0.1383,  0.1029,  0.0171]],
+       device='cuda:0'), grad: tensor([[-0.0006, -0.0075, -0.0011,  ..., -0.0007, -0.0015, -0.0008],
+        [ 0.0039,  0.0005,  0.0012,  ...,  0.0009,  0.0017,  0.0026],
+        [-0.0098, -0.0021, -0.0021,  ..., -0.0010, -0.0030, -0.0015],
+        ...,
+        [-0.0061,  0.0004,  0.0004,  ...,  0.0003,  0.0007, -0.0076],
+        [ 0.0033,  0.0008,  0.0009,  ...,  0.0002,  0.0019,  0.0015],
+        [ 0.0011,  0.0006, -0.0022,  ...,  0.0003, -0.0021,  0.0020]],
+       device='cuda:0')
+Epoch 219, bias, value: tensor([ 0.0143,  0.0003,  0.0014,  0.0166, -0.0031, -0.0052,  0.0113,  0.0229,
+        -0.0341,  0.0454], device='cuda:0'), grad: tensor([-0.0205,  0.0325, -0.0380, -0.0001,  0.0246,  0.0176, -0.0086, -0.0286,
+         0.0217, -0.0006], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 218, time 216.53, cls_loss 0.4898 cls_loss_mapping 0.0075 cls_loss_causal 0.4634 re_mapping 0.0077 re_causal 0.0189 /// teacc 98.93 lr 0.00010000
+Epoch 220, weight, value: tensor([[-7.6528e-02,  6.3376e-02, -9.5938e-02,  ..., -9.8430e-02,
+         -8.5538e-02,  2.0891e-05],
+        [-6.1817e-02, -1.2835e-01, -1.5504e-03,  ..., -5.8066e-02,
+         -4.3641e-02, -8.4410e-02],
+        [ 3.2337e-02, -8.1896e-02,  4.9603e-02,  ...,  1.5535e-01,
+         -1.0745e-01, -4.1453e-02],
+        ...,
+        [-8.9323e-02, -1.5344e-01,  8.6413e-02,  ..., -1.7023e-02,
+         -2.7817e-02,  7.0138e-02],
+        [ 1.7315e-02,  3.4587e-02, -2.3796e-02,  ..., -8.0280e-02,
+         -9.4301e-02, -7.2682e-03],
+        [-1.3855e-01, -9.2106e-03, -9.3394e-03,  ..., -1.3879e-01,
+          1.0266e-01,  1.7238e-02]], device='cuda:0'), grad: tensor([[ 1.1677e-04, -4.9686e-04,  4.2766e-05,  ..., -2.5821e-04,
+          7.1144e-04,  4.4703e-04],
+        [ 9.8324e-04,  2.2662e-04,  1.1578e-03,  ..., -2.0351e-03,
+         -8.1491e-04,  1.9932e-03],
+        [-3.8643e-03, -2.4681e-03, -3.4809e-03,  ..., -3.8204e-03,
+          1.2970e-03, -9.8038e-04],
+        ...,
+        [ 3.3212e-04, -2.8759e-05,  1.7939e-03,  ...,  6.0225e-04,
+          3.4637e-03,  1.9989e-03],
+        [ 6.6185e-04,  3.3796e-05,  1.5230e-03,  ...,  1.1854e-03,
+          1.7605e-03,  1.3227e-03],
+        [ 2.1958e-04,  3.1567e-04, -1.6403e-03,  ...,  5.4979e-04,
+         -7.1812e-04, -1.1635e-03]], device='cuda:0')
+Epoch 220, bias, value: tensor([ 1.3825e-02, -6.2837e-05,  8.1852e-04,  1.7045e-02, -3.4797e-03,
+        -4.3526e-03,  1.0905e-02,  2.3613e-02, -3.4609e-02,  4.6139e-02],
+       device='cuda:0'), grad: tensor([ 0.0119,  0.0271, -0.0426,  0.0050, -0.0634, -0.0126,  0.0323,  0.0302,
+         0.0294, -0.0173], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 219, time 216.53, cls_loss 0.5163 cls_loss_mapping 0.0057 cls_loss_causal 0.4854 re_mapping 0.0083 re_causal 0.0209 /// teacc 98.68 lr 0.00010000
+Epoch 221, weight, value: tensor([[-7.6742e-02,  6.3735e-02, -9.7190e-02,  ..., -9.8263e-02,
+         -8.5737e-02,  1.5193e-05],
+        [-6.1077e-02, -1.2866e-01, -8.6821e-04,  ..., -5.5736e-02,
+         -4.2908e-02, -8.3877e-02],
+        [ 3.3761e-02, -8.0482e-02,  4.9377e-02,  ...,  1.5501e-01,
+         -1.0585e-01, -4.0966e-02],
+        ...,
+        [-9.0139e-02, -1.5342e-01,  8.7181e-02,  ..., -1.6901e-02,
+         -2.7128e-02,  7.0656e-02],
+        [ 1.7329e-02,  3.4434e-02, -2.4409e-02,  ..., -8.1378e-02,
+         -9.4831e-02, -8.3996e-03],
+        [-1.3849e-01, -8.9221e-03, -9.3580e-03,  ..., -1.3968e-01,
+          1.0133e-01,  1.6568e-02]], device='cuda:0'), grad: tensor([[-9.0313e-04, -1.5497e-03,  1.3626e-04,  ...,  4.4078e-05,
+          2.3723e-04,  6.5422e-04],
+        [ 1.1911e-03,  9.9719e-05,  1.9586e-04,  ...,  1.3068e-05,
+          1.0767e-03,  2.3060e-03],
+        [-1.1139e-02,  5.1689e-04,  1.8525e-04,  ..., -6.3477e-03,
+         -3.8166e-03, -5.7106e-03],
+        ...,
+        [ 4.5323e-04,  8.6427e-05,  1.8871e-04,  ...,  1.1390e-04,
+          6.3324e-04,  1.3952e-03],
+        [ 4.9782e-04,  2.3460e-04, -2.3973e-04,  ..., -3.9315e-04,
+          1.3914e-03,  2.4772e-04],
+        [ 1.3275e-03, -6.6794e-06, -1.5526e-03,  ...,  5.3465e-05,
+         -7.7581e-04, -1.3685e-03]], device='cuda:0')
+Epoch 221, bias, value: tensor([ 0.0133,  0.0006,  0.0019,  0.0160, -0.0018, -0.0052,  0.0115,  0.0233,
+        -0.0357,  0.0459], device='cuda:0'), grad: tensor([ 0.0064,  0.0153, -0.0378,  0.0232,  0.0237,  0.0098, -0.0152,  0.0123,
+        -0.0162, -0.0216], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 220, time 216.85, cls_loss 0.5128 cls_loss_mapping 0.0061 cls_loss_causal 0.4867 re_mapping 0.0084 re_causal 0.0209 /// teacc 98.68 lr 0.00010000
+Epoch 222, weight, value: tensor([[-0.0778,  0.0635, -0.0978,  ..., -0.0977, -0.0868, -0.0008],
+        [-0.0599, -0.1303,  0.0003,  ..., -0.0552, -0.0430, -0.0816],
+        [ 0.0327, -0.0803,  0.0493,  ...,  0.1547, -0.1057, -0.0426],
+        ...,
+        [-0.0912, -0.1543,  0.0872,  ..., -0.0171, -0.0265,  0.0697],
+        [ 0.0179,  0.0355, -0.0249,  ..., -0.0815, -0.0941, -0.0087],
+        [-0.1384, -0.0086, -0.0094,  ..., -0.1395,  0.1014,  0.0174]],
+       device='cuda:0'), grad: tensor([[ 1.7993e-06, -4.1485e-04, -2.7409e-03,  ..., -3.0398e-04,
+         -1.7414e-03, -3.1128e-03],
+        [ 1.3106e-05,  1.5843e-04, -5.4407e-04,  ...,  5.6535e-05,
+         -2.2435e-04, -5.3263e-04],
+        [-1.6260e-04, -2.4605e-03, -4.1504e-03,  ..., -7.0381e-04,
+          2.6631e-04, -9.6321e-05],
+        ...,
+        [ 1.1168e-05,  2.1660e-04,  6.5422e-04,  ...,  1.2290e-04,
+          2.1148e-04, -1.3435e-04],
+        [ 5.1670e-06,  2.3520e-04,  4.4250e-03,  ...,  5.6314e-04,
+          9.2983e-04,  1.9627e-03],
+        [ 1.6838e-05,  4.7827e-04, -3.2253e-03,  ..., -2.2936e-04,
+         -7.3814e-04, -3.3436e-03]], device='cuda:0')
+Epoch 222, bias, value: tensor([ 0.0134,  0.0018,  0.0013,  0.0174, -0.0019, -0.0058,  0.0109,  0.0223,
+        -0.0358,  0.0461], device='cuda:0'), grad: tensor([-0.0179, -0.0190, -0.0108,  0.0314,  0.0194,  0.0107,  0.0148, -0.0022,
+        -0.0052, -0.0212], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 221, time 217.04, cls_loss 0.5078 cls_loss_mapping 0.0059 cls_loss_causal 0.4817 re_mapping 0.0077 re_causal 0.0187 /// teacc 98.72 lr 0.00010000
+Epoch 223, weight, value: tensor([[-0.0771,  0.0643, -0.0975,  ..., -0.0983, -0.0872, -0.0006],
+        [-0.0600, -0.1309,  0.0011,  ..., -0.0551, -0.0431, -0.0829],
+        [ 0.0318, -0.0811,  0.0504,  ...,  0.1544, -0.1056, -0.0418],
+        ...,
+        [-0.0900, -0.1539,  0.0859,  ..., -0.0170, -0.0273,  0.0704],
+        [ 0.0183,  0.0354, -0.0252,  ..., -0.0819, -0.0941, -0.0083],
+        [-0.1382, -0.0083, -0.0091,  ..., -0.1396,  0.1014,  0.0182]],
+       device='cuda:0'), grad: tensor([[-3.2120e-03, -5.2567e-03,  1.7571e-04,  ..., -4.0460e-04,
+          1.2338e-04, -1.4086e-03],
+        [ 8.0824e-05,  1.1647e-04,  4.8470e-04,  ...,  1.8871e-04,
+          3.3832e-04,  5.5456e-04],
+        [ 3.4124e-05,  3.3307e-04,  3.8948e-03,  ...,  3.8986e-03,
+          3.0637e-04,  6.6042e-04],
+        ...,
+        [-1.5929e-05,  8.1599e-05, -3.0460e-03,  ..., -3.7365e-03,
+          8.8406e-04,  9.2506e-04],
+        [ 3.8099e-04,  6.0129e-04, -1.7033e-03,  ..., -8.5974e-04,
+         -2.6054e-03, -3.2330e-03],
+        [ 1.0556e-04,  2.7037e-04,  2.3460e-04,  ...,  2.5058e-04,
+         -4.4899e-03, -1.1971e-02]], device='cuda:0')
+Epoch 223, bias, value: tensor([ 0.0138,  0.0022,  0.0015,  0.0167, -0.0029, -0.0049,  0.0110,  0.0219,
+        -0.0358,  0.0464], device='cuda:0'), grad: tensor([-0.0378,  0.0300,  0.0247, -0.0201,  0.0447,  0.0108,  0.0015,  0.0033,
+        -0.0086, -0.0485], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 222, time 216.89, cls_loss 0.5233 cls_loss_mapping 0.0055 cls_loss_causal 0.4955 re_mapping 0.0076 re_causal 0.0192 /// teacc 98.73 lr 0.00010000
+Epoch 224, weight, value: tensor([[-0.0765,  0.0649, -0.0963,  ..., -0.0991, -0.0866,  0.0002],
+        [-0.0600, -0.1304,  0.0006,  ..., -0.0557, -0.0441, -0.0843],
+        [ 0.0325, -0.0808,  0.0505,  ...,  0.1551, -0.1066, -0.0420],
+        ...,
+        [-0.0899, -0.1544,  0.0857,  ..., -0.0170, -0.0273,  0.0721],
+        [ 0.0175,  0.0357, -0.0246,  ..., -0.0811, -0.0937, -0.0070],
+        [-0.1387, -0.0082, -0.0087,  ..., -0.1401,  0.1019,  0.0179]],
+       device='cuda:0'), grad: tensor([[ 8.7023e-04,  5.1165e-04,  3.6693e-04,  ...,  5.3436e-05,
+          4.1890e-04,  7.2336e-04],
+        [-1.4782e-04, -1.0580e-04,  4.0627e-04,  ..., -2.3329e-04,
+          1.2836e-03,  4.6086e-04],
+        [-4.0398e-03, -1.7605e-03, -1.4200e-03,  ..., -3.1972e-04,
+         -2.3499e-03, -4.4823e-03],
+        ...,
+        [ 5.0592e-04,  2.6751e-04,  7.8678e-04,  ...,  2.3293e-04,
+          3.9315e-04,  1.1024e-03],
+        [ 1.2894e-03,  3.0708e-04,  2.1362e-04,  ...,  8.2195e-05,
+          5.5027e-04,  5.6696e-04],
+        [ 5.9700e-04,  3.0351e-04,  2.5582e-04,  ...,  6.6578e-05,
+          2.4068e-04,  6.5660e-04]], device='cuda:0')
+Epoch 224, bias, value: tensor([ 0.0142,  0.0006,  0.0015,  0.0154, -0.0034, -0.0055,  0.0117,  0.0245,
+        -0.0358,  0.0465], device='cuda:0'), grad: tensor([ 0.0160,  0.0165, -0.0744,  0.0128,  0.0143,  0.0130, -0.0437,  0.0163,
+         0.0173,  0.0120], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 223, time 216.93, cls_loss 0.5051 cls_loss_mapping 0.0051 cls_loss_causal 0.4789 re_mapping 0.0078 re_causal 0.0195 /// teacc 98.61 lr 0.00010000
+Epoch 225, weight, value: tensor([[-7.5705e-02,  6.5057e-02, -9.6651e-02,  ..., -9.8695e-02,
+         -8.7838e-02,  2.5364e-04],
+        [-5.9702e-02, -1.3142e-01,  7.2629e-05,  ..., -5.6327e-02,
+         -4.4034e-02, -8.5485e-02],
+        [ 3.2587e-02, -8.1580e-02,  4.9748e-02,  ...,  1.5438e-01,
+         -1.0759e-01, -4.2532e-02],
+        ...,
+        [-9.1109e-02, -1.5617e-01,  8.6575e-02,  ..., -1.6083e-02,
+         -2.6857e-02,  7.2959e-02],
+        [ 1.8029e-02,  3.5479e-02, -2.4660e-02,  ..., -8.1157e-02,
+         -9.3686e-02, -5.9525e-03],
+        [-1.3963e-01, -9.4385e-03, -8.0830e-03,  ..., -1.4093e-01,
+          1.0150e-01,  1.7618e-02]], device='cuda:0'), grad: tensor([[ 1.0309e-03,  5.2309e-04,  2.3174e-04,  ...,  1.5087e-07,
+          2.4755e-06,  8.7082e-05],
+        [-8.2245e-03, -4.6921e-03, -2.6894e-03,  ...,  6.5705e-07,
+          8.2672e-05,  1.4579e-04],
+        [ 3.0565e-04,  1.7822e-04,  4.1866e-04,  ...,  4.4554e-06,
+          1.3925e-05, -3.5858e-04],
+        ...,
+        [ 1.2803e-04,  8.6248e-05,  1.3676e-03,  ..., -2.6718e-05,
+          6.8426e-04,  5.3549e-04],
+        [ 1.4114e-03,  8.4686e-04,  1.7333e-04,  ...,  4.4294e-06,
+          3.2276e-05,  9.0420e-05],
+        [ 4.4632e-04,  2.6679e-04, -5.3644e-04,  ...,  9.4771e-06,
+         -9.7322e-04, -5.6410e-04]], device='cuda:0')
+Epoch 225, bias, value: tensor([ 0.0141,  0.0003,  0.0007,  0.0172, -0.0041, -0.0054,  0.0122,  0.0247,
+        -0.0358,  0.0458], device='cuda:0'), grad: tensor([ 0.0115, -0.0480, -0.0201, -0.0189,  0.0099,  0.0107,  0.0191,  0.0164,
+         0.0113,  0.0080], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 224, time 217.00, cls_loss 0.5129 cls_loss_mapping 0.0088 cls_loss_causal 0.4918 re_mapping 0.0076 re_causal 0.0196 /// teacc 98.79 lr 0.00010000
+Epoch 226, weight, value: tensor([[-7.6439e-02,  6.4840e-02, -9.6080e-02,  ..., -9.9004e-02,
+         -8.7635e-02,  7.6137e-05],
+        [-5.9554e-02, -1.3136e-01, -4.8082e-04,  ..., -5.7820e-02,
+         -4.5352e-02, -8.7186e-02],
+        [ 3.2991e-02, -8.1821e-02,  4.9883e-02,  ...,  1.5568e-01,
+         -1.0774e-01, -4.2622e-02],
+        ...,
+        [-9.0588e-02, -1.5698e-01,  8.5661e-02,  ..., -1.5900e-02,
+         -2.7640e-02,  7.2811e-02],
+        [ 1.7583e-02,  3.5243e-02, -2.3870e-02,  ..., -8.1277e-02,
+         -9.3213e-02, -5.9424e-03],
+        [-1.4059e-01, -9.7433e-03, -7.9690e-03,  ..., -1.4102e-01,
+          1.0133e-01,  1.8298e-02]], device='cuda:0'), grad: tensor([[-3.8071e-03, -8.2245e-03,  1.9157e-04,  ...,  3.3545e-04,
+          5.6887e-04,  8.9502e-04],
+        [ 1.8120e-04,  2.2769e-04,  5.2118e-04,  ...,  2.2185e-04,
+          5.6076e-04,  9.4223e-04],
+        [ 3.5763e-03,  2.0657e-03,  8.2636e-04,  ...,  2.8629e-03,
+          1.4820e-03,  2.1229e-03],
+        ...,
+        [ 1.2999e-03,  8.0538e-04, -8.2254e-04,  ...,  9.8991e-04,
+          2.4289e-05,  5.6088e-05],
+        [ 5.5218e-04,  9.0551e-04,  8.9169e-04,  ...,  5.8126e-04,
+          4.5753e-04,  1.4677e-03],
+        [-1.0309e-03, -2.6779e-03, -4.2725e-03,  ..., -2.9678e-03,
+         -4.7989e-03, -6.0501e-03]], device='cuda:0')
+Epoch 226, bias, value: tensor([ 1.5006e-02, -2.2494e-05,  8.8826e-04,  1.7924e-02, -3.9751e-03,
+        -6.1819e-03,  1.2592e-02,  2.3800e-02, -3.5788e-02,  4.5523e-02],
+       device='cuda:0'), grad: tensor([-0.0120,  0.0098,  0.0180,  0.0212, -0.0465,  0.0077,  0.0219, -0.0148,
+         0.0125, -0.0176], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 225, time 216.78, cls_loss 0.5041 cls_loss_mapping 0.0069 cls_loss_causal 0.4726 re_mapping 0.0082 re_causal 0.0200 /// teacc 98.81 lr 0.00010000
+Epoch 227, weight, value: tensor([[-0.0760,  0.0659, -0.0956,  ..., -0.0998, -0.0868,  0.0006],
+        [-0.0594, -0.1312, -0.0020,  ..., -0.0586, -0.0454, -0.0876],
+        [ 0.0328, -0.0825,  0.0503,  ...,  0.1565, -0.1083, -0.0432],
+        ...,
+        [-0.0900, -0.1566,  0.0876,  ..., -0.0139, -0.0271,  0.0718],
+        [ 0.0179,  0.0359, -0.0234,  ..., -0.0809, -0.0928, -0.0061],
+        [-0.1401, -0.0093, -0.0083,  ..., -0.1408,  0.1012,  0.0182]],
+       device='cuda:0'), grad: tensor([[ 1.7672e-03,  3.6869e-03,  6.7663e-04,  ...,  1.1927e-04,
+          9.6262e-05,  6.4659e-04],
+        [-2.3975e-03,  1.1516e-04, -6.3515e-04,  ...,  2.5296e-04,
+          1.3262e-05, -9.6359e-03],
+        [ 3.4118e-04,  5.4121e-04,  1.7977e-03,  ...,  4.9782e-04,
+          6.2895e-04,  1.6260e-03],
+        ...,
+        [ 2.1038e-03,  2.7585e-04, -3.4275e-03,  ..., -1.0729e-03,
+         -1.4582e-03,  3.5400e-03],
+        [ 1.6966e-03,  1.0023e-03, -3.0594e-03,  ..., -5.2071e-04,
+          7.5531e-04,  7.8726e-04],
+        [ 5.6915e-03,  7.6580e-04,  1.9646e-03,  ...,  1.2293e-03,
+          2.2373e-03,  1.0651e-02]], device='cuda:0')
+Epoch 227, bias, value: tensor([ 0.0151, -0.0007,  0.0006,  0.0165, -0.0035, -0.0051,  0.0132,  0.0230,
+        -0.0353,  0.0460], device='cuda:0'), grad: tensor([-0.0012, -0.0440,  0.0127,  0.0030, -0.0077, -0.0084,  0.0207,  0.0199,
+        -0.0317,  0.0367], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 226, time 216.98, cls_loss 0.5045 cls_loss_mapping 0.0054 cls_loss_causal 0.4803 re_mapping 0.0080 re_causal 0.0195 /// teacc 98.78 lr 0.00010000
+Epoch 228, weight, value: tensor([[-0.0764,  0.0661, -0.0962,  ..., -0.1009, -0.0868,  0.0020],
+        [-0.0605, -0.1320, -0.0021,  ..., -0.0589, -0.0450, -0.0870],
+        [ 0.0331, -0.0828,  0.0505,  ...,  0.1563, -0.1094, -0.0441],
+        ...,
+        [-0.0903, -0.1574,  0.0872,  ..., -0.0149, -0.0287,  0.0711],
+        [ 0.0185,  0.0364, -0.0233,  ..., -0.0806, -0.0932, -0.0063],
+        [-0.1413, -0.0089, -0.0087,  ..., -0.1409,  0.1013,  0.0175]],
+       device='cuda:0'), grad: tensor([[-2.6584e-04, -1.9817e-03,  4.6849e-04,  ...,  2.7609e-04,
+          1.1301e-03,  3.4999e-06],
+        [ 1.3702e-05,  2.8276e-04, -1.1311e-03,  ...,  2.1672e-04,
+          4.2629e-04,  1.0881e-03],
+        [ 1.3313e-03, -1.8024e-04,  1.2696e-04,  ..., -6.8951e-04,
+          2.3222e-04,  3.2330e-04],
+        ...,
+        [-7.7820e-03, -3.3379e-04,  1.2894e-03,  ...,  2.7251e-04,
+          6.4754e-04,  2.7504e-03],
+        [ 1.7204e-03,  1.1482e-03,  6.8092e-04,  ...,  2.7132e-04,
+          4.0030e-04,  7.5197e-04],
+        [ 7.0858e-04, -7.6103e-04,  1.1950e-03,  ...,  2.7046e-03,
+          1.9531e-03, -9.2447e-05]], device='cuda:0')
+Epoch 228, bias, value: tensor([ 0.0149, -0.0006,  0.0005,  0.0175, -0.0030, -0.0048,  0.0130,  0.0224,
+        -0.0354,  0.0455], device='cuda:0'), grad: tensor([-0.0044,  0.0033,  0.0166, -0.0022, -0.0456,  0.0135,  0.0147, -0.0083,
+        -0.0081,  0.0204], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 227, time 217.26, cls_loss 0.5128 cls_loss_mapping 0.0052 cls_loss_causal 0.4803 re_mapping 0.0075 re_causal 0.0185 /// teacc 98.79 lr 0.00010000
+Epoch 229, weight, value: tensor([[-0.0760,  0.0663, -0.0966,  ..., -0.0998, -0.0889,  0.0016],
+        [-0.0616, -0.1334, -0.0023,  ..., -0.0593, -0.0445, -0.0858],
+        [ 0.0327, -0.0838,  0.0505,  ...,  0.1559, -0.1098, -0.0453],
+        ...,
+        [-0.0914, -0.1569,  0.0873,  ..., -0.0144, -0.0301,  0.0712],
+        [ 0.0186,  0.0357, -0.0240,  ..., -0.0813, -0.0936, -0.0078],
+        [-0.1417, -0.0093, -0.0077,  ..., -0.1406,  0.1016,  0.0180]],
+       device='cuda:0'), grad: tensor([[ 4.8876e-04,  6.0892e-04,  5.8556e-04,  ...,  1.0335e-04,
+          3.5906e-04,  9.6273e-04],
+        [ 2.1899e-04,  1.8911e-03,  4.2038e-03,  ...,  1.4753e-03,
+          6.8951e-04,  3.1738e-03],
+        [ 7.1383e-04,  2.0814e-04,  1.3380e-03,  ...,  4.8637e-04,
+          2.5249e-04,  1.2054e-03],
+        ...,
+        [ 3.7766e-04,  4.5514e-04, -4.9896e-03,  ..., -5.2214e-04,
+          7.7343e-04, -6.9618e-04],
+        [ 1.0834e-03,  9.5177e-04,  7.7820e-04,  ...,  1.7929e-04,
+          4.9114e-04,  1.6899e-03],
+        [-6.9261e-05, -1.9321e-03, -2.3422e-03,  ...,  2.7490e-04,
+         -6.5002e-03, -5.7106e-03]], device='cuda:0')
+Epoch 229, bias, value: tensor([ 0.0154, -0.0005,  0.0008,  0.0167, -0.0030, -0.0037,  0.0132,  0.0219,
+        -0.0348,  0.0442], device='cuda:0'), grad: tensor([ 0.0116, -0.0010,  0.0133, -0.0167,  0.0077, -0.0196,  0.0046, -0.0073,
+         0.0150, -0.0077], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 228, time 216.94, cls_loss 0.5197 cls_loss_mapping 0.0064 cls_loss_causal 0.4936 re_mapping 0.0075 re_causal 0.0182 /// teacc 98.91 lr 0.00010000
+Epoch 230, weight, value: tensor([[-0.0756,  0.0660, -0.0971,  ..., -0.1008, -0.0881,  0.0016],
+        [-0.0602, -0.1318, -0.0016,  ..., -0.0598, -0.0448, -0.0860],
+        [ 0.0323, -0.0845,  0.0521,  ...,  0.1577, -0.1117, -0.0452],
+        ...,
+        [-0.0914, -0.1584,  0.0874,  ..., -0.0152, -0.0296,  0.0718],
+        [ 0.0174,  0.0350, -0.0250,  ..., -0.0817, -0.0929, -0.0073],
+        [-0.1410, -0.0077, -0.0076,  ..., -0.1404,  0.1012,  0.0172]],
+       device='cuda:0'), grad: tensor([[ 4.1270e-04,  2.8461e-05,  2.6488e-04,  ...,  6.3956e-05,
+          3.6812e-04,  6.7902e-04],
+        [-7.1764e-04,  7.9691e-05,  7.2527e-04,  ...,  1.4663e-04,
+         -5.3406e-03,  9.2983e-04],
+        [ 2.9588e-04,  7.2517e-03,  8.4610e-03,  ...,  1.1200e-02,
+          3.8767e-04,  1.0071e-03],
+        ...,
+        [ 9.2566e-05, -2.0218e-04, -3.9864e-03,  ...,  1.2076e-04,
+         -2.0695e-03, -2.3594e-03],
+        [ 4.9639e-04,  8.5711e-05,  5.4646e-04,  ...,  1.0771e-04,
+          4.9925e-04,  1.0462e-03],
+        [ 1.0675e-04,  1.7405e-04,  3.4332e-03,  ...,  1.3304e-04,
+          1.3838e-03,  2.1820e-03]], device='cuda:0')
+Epoch 230, bias, value: tensor([ 0.0141,  0.0004,  0.0008,  0.0161, -0.0026, -0.0045,  0.0135,  0.0223,
+        -0.0341,  0.0441], device='cuda:0'), grad: tensor([ 0.0101, -0.0107,  0.0293,  0.0222, -0.0093, -0.0691,  0.0248,  0.0009,
+         0.0141, -0.0122], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 229, time 217.05, cls_loss 0.5171 cls_loss_mapping 0.0066 cls_loss_causal 0.4935 re_mapping 0.0082 re_causal 0.0205 /// teacc 98.84 lr 0.00010000
+Epoch 231, weight, value: tensor([[-0.0742,  0.0661, -0.0982,  ..., -0.1010, -0.0882,  0.0006],
+        [-0.0602, -0.1310, -0.0022,  ..., -0.0596, -0.0449, -0.0863],
+        [ 0.0318, -0.0853,  0.0526,  ...,  0.1578, -0.1118, -0.0445],
+        ...,
+        [-0.0912, -0.1588,  0.0863,  ..., -0.0163, -0.0299,  0.0715],
+        [ 0.0176,  0.0354, -0.0255,  ..., -0.0826, -0.0931, -0.0080],
+        [-0.1422, -0.0089, -0.0068,  ..., -0.1400,  0.1017,  0.0171]],
+       device='cuda:0'), grad: tensor([[-3.0304e-02, -3.9795e-02,  2.5153e-04,  ...,  4.2245e-06,
+          1.1474e-04,  3.0947e-04],
+        [ 2.3580e-04,  2.9579e-05,  3.7932e-04,  ...,  2.1234e-05,
+          2.3091e-04,  5.4407e-04],
+        [-8.2445e-04,  6.0946e-05, -2.6741e-03,  ..., -8.8155e-05,
+         -2.4910e-03, -4.5357e-03],
+        ...,
+        [ 2.8396e-04,  1.0365e-04,  9.0265e-04,  ...,  2.1905e-05,
+          1.0376e-03,  1.7376e-03],
+        [ 8.7214e-04,  1.1005e-03,  1.1511e-03,  ...,  4.1819e-04,
+          1.1110e-03,  1.0471e-03],
+        [-9.1743e-04, -2.0790e-03, -6.2656e-04,  ..., -9.0170e-04,
+         -1.3428e-03, -1.2836e-03]], device='cuda:0')
+Epoch 231, bias, value: tensor([ 0.0151,  0.0002,  0.0006,  0.0162, -0.0031, -0.0049,  0.0136,  0.0219,
+        -0.0345,  0.0450], device='cuda:0'), grad: tensor([-0.0091,  0.0208, -0.0452,  0.0152,  0.0238, -0.0108,  0.0262,  0.0173,
+        -0.0433,  0.0051], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 230, time 216.69, cls_loss 0.5284 cls_loss_mapping 0.0086 cls_loss_causal 0.5060 re_mapping 0.0075 re_causal 0.0180 /// teacc 98.71 lr 0.00010000
+Epoch 232, weight, value: tensor([[-7.4027e-02,  6.6639e-02, -9.9123e-02,  ..., -1.0170e-01,
+         -8.8190e-02,  1.0178e-03],
+        [-5.9879e-02, -1.3252e-01, -1.2692e-04,  ..., -5.8554e-02,
+         -4.4243e-02, -8.5391e-02],
+        [ 3.2622e-02, -8.4710e-02,  5.2322e-02,  ...,  1.5747e-01,
+         -1.0960e-01, -4.3564e-02],
+        ...,
+        [-9.3093e-02, -1.5956e-01,  8.6105e-02,  ..., -1.6627e-02,
+         -2.9192e-02,  7.1240e-02],
+        [ 1.8403e-02,  3.6425e-02, -2.5548e-02,  ..., -8.1421e-02,
+         -9.3490e-02, -8.8011e-03],
+        [-1.4267e-01, -8.4241e-03, -6.4305e-03,  ..., -1.3997e-01,
+          1.0093e-01,  1.7119e-02]], device='cuda:0'), grad: tensor([[ 9.5665e-05,  2.7466e-04,  7.4565e-05,  ...,  4.8131e-06,
+          4.1127e-04,  8.4972e-04],
+        [ 1.0567e-03,  3.8773e-05,  6.5327e-05,  ...,  8.7544e-07,
+          1.4591e-03,  1.6069e-03],
+        [ 3.3593e-04,  8.8692e-05, -9.1568e-06,  ...,  3.4952e-04,
+          2.6345e-04, -9.6130e-04],
+        ...,
+        [ 5.1260e-04,  1.1206e-04,  1.7822e-02,  ...,  5.6505e-04,
+          1.1276e-02,  1.9474e-03],
+        [-1.3189e-03, -4.7565e-05,  1.0198e-04,  ...,  4.1187e-05,
+         -3.1738e-03,  6.6137e-04],
+        [ 3.4481e-05, -8.4162e-05, -2.0432e-02,  ..., -4.6700e-05,
+         -1.3451e-02, -6.8893e-03]], device='cuda:0')
+Epoch 232, bias, value: tensor([ 0.0151,  0.0014,  0.0005,  0.0166, -0.0039, -0.0053,  0.0131,  0.0220,
+        -0.0347,  0.0452], device='cuda:0'), grad: tensor([ 0.0156,  0.0188, -0.0150, -0.0222,  0.0223,  0.0123,  0.0192, -0.0052,
+        -0.0134, -0.0325], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 231, time 216.94, cls_loss 0.5010 cls_loss_mapping 0.0076 cls_loss_causal 0.4813 re_mapping 0.0081 re_causal 0.0191 /// teacc 98.91 lr 0.00010000
+Epoch 233, weight, value: tensor([[-0.0736,  0.0668, -0.0995,  ..., -0.1010, -0.0875,  0.0003],
+        [-0.0597, -0.1315,  0.0017,  ..., -0.0584, -0.0446, -0.0854],
+        [ 0.0322, -0.0849,  0.0529,  ...,  0.1576, -0.1086, -0.0443],
+        ...,
+        [-0.0919, -0.1596,  0.0863,  ..., -0.0164, -0.0305,  0.0720],
+        [ 0.0181,  0.0354, -0.0268,  ..., -0.0823, -0.0937, -0.0085],
+        [-0.1442, -0.0087, -0.0063,  ..., -0.1412,  0.1015,  0.0169]],
+       device='cuda:0'), grad: tensor([[ 2.2945e-03,  3.7594e-03,  2.1711e-05,  ...,  6.6042e-04,
+          2.4354e-04,  8.3745e-05],
+        [-2.7132e-04,  6.0529e-05,  5.9366e-05,  ...,  6.5744e-05,
+          5.7840e-04,  2.6274e-04],
+        [-1.6418e-02,  1.4317e-04,  6.3181e-05,  ..., -4.9686e-04,
+          2.0838e-04,  2.1470e-04],
+        ...,
+        [ 8.7380e-05,  4.1693e-05,  2.6188e-03,  ...,  1.8418e-05,
+          2.9716e-03,  4.2076e-03],
+        [ 2.6016e-03,  2.6531e-03,  2.7037e-04,  ...,  3.3712e-04,
+          1.4181e-03,  6.6996e-04],
+        [ 1.3745e-04,  1.9252e-04,  7.6637e-03,  ...,  3.1292e-05,
+          3.1471e-03,  1.0040e-02]], device='cuda:0')
+Epoch 233, bias, value: tensor([ 0.0140,  0.0014,  0.0016,  0.0169, -0.0030, -0.0045,  0.0113,  0.0217,
+        -0.0345,  0.0451], device='cuda:0'), grad: tensor([ 0.0120, -0.0084, -0.0221, -0.0120, -0.0146,  0.0026,  0.0132,  0.0128,
+         0.0172, -0.0008], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 232, time 216.74, cls_loss 0.4765 cls_loss_mapping 0.0043 cls_loss_causal 0.4504 re_mapping 0.0080 re_causal 0.0197 /// teacc 98.84 lr 0.00010000
+Epoch 234, weight, value: tensor([[-0.0735,  0.0663, -0.0993,  ..., -0.1017, -0.0873,  0.0014],
+        [-0.0595, -0.1316,  0.0012,  ..., -0.0579, -0.0453, -0.0872],
+        [ 0.0327, -0.0847,  0.0523,  ...,  0.1578, -0.1077, -0.0446],
+        ...,
+        [-0.0923, -0.1597,  0.0869,  ..., -0.0153, -0.0300,  0.0706],
+        [ 0.0180,  0.0351, -0.0274,  ..., -0.0822, -0.0957, -0.0092],
+        [-0.1436, -0.0091, -0.0057,  ..., -0.1407,  0.1029,  0.0191]],
+       device='cuda:0'), grad: tensor([[ 7.4768e-04,  5.7888e-04,  1.9522e-03,  ...,  2.8419e-04,
+          2.2113e-04,  1.0281e-03],
+        [ 3.2115e-04,  5.2065e-05,  2.1255e-04,  ..., -7.1287e-05,
+          3.6144e-04, -1.7471e-03],
+        [ 4.6959e-03,  2.4948e-03,  3.2558e-03,  ...,  7.5378e-03,
+         -4.3488e-04, -1.4200e-03],
+        ...,
+        [ 8.3685e-04,  5.8317e-04,  3.5172e-03,  ..., -1.0666e-02,
+          1.0147e-03,  1.9274e-03],
+        [-1.5533e-04, -2.1477e-03, -8.8501e-03,  ...,  1.6899e-03,
+         -1.2608e-03, -1.7033e-03],
+        [ 7.5531e-04,  2.1756e-04, -1.0681e-04,  ...,  4.4060e-03,
+         -9.0981e-04,  8.2636e-04]], device='cuda:0')
+Epoch 234, bias, value: tensor([ 0.0145,  0.0016,  0.0022,  0.0162, -0.0029, -0.0046,  0.0106,  0.0219,
+        -0.0354,  0.0457], device='cuda:0'), grad: tensor([ 0.0226, -0.0167, -0.0177, -0.0732,  0.0323,  0.0329,  0.0133, -0.0049,
+        -0.0173,  0.0288], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 233, time 216.66, cls_loss 0.5264 cls_loss_mapping 0.0057 cls_loss_causal 0.4980 re_mapping 0.0073 re_causal 0.0179 /// teacc 98.80 lr 0.00010000
+Epoch 235, weight, value: tensor([[-0.0738,  0.0660, -0.0976,  ..., -0.1022, -0.0849,  0.0036],
+        [-0.0598, -0.1323,  0.0008,  ..., -0.0590, -0.0454, -0.0873],
+        [ 0.0325, -0.0851,  0.0510,  ...,  0.1570, -0.1082, -0.0445],
+        ...,
+        [-0.0927, -0.1599,  0.0874,  ..., -0.0144, -0.0301,  0.0713],
+        [ 0.0182,  0.0350, -0.0276,  ..., -0.0825, -0.0962, -0.0092],
+        [-0.1439, -0.0087, -0.0060,  ..., -0.1413,  0.1040,  0.0187]],
+       device='cuda:0'), grad: tensor([[ 2.1350e-04,  2.9516e-04,  3.3051e-05,  ...,  4.6706e-04,
+          7.2479e-04,  2.9106e-03],
+        [ 7.8157e-06,  1.4231e-05,  1.3885e-03,  ...,  5.4598e-04,
+          1.2817e-03,  2.6073e-03],
+        [-3.1605e-03, -5.7602e-03, -5.1270e-03,  ..., -4.7760e-03,
+         -2.1286e-03, -2.2144e-03],
+        ...,
+        [ 2.9349e-04,  5.3453e-04,  3.7041e-03,  ...,  9.5558e-04,
+          1.0796e-03,  5.5695e-03],
+        [ 4.7374e-04,  8.6737e-04, -3.9506e-04,  ...,  7.0667e-04,
+         -1.0242e-03, -2.3308e-03],
+        [ 9.8038e-04,  1.7900e-03, -1.9276e-04,  ...,  2.5330e-03,
+          2.5444e-03,  1.0939e-03]], device='cuda:0')
+Epoch 235, bias, value: tensor([ 0.0156,  0.0015,  0.0019,  0.0159, -0.0028, -0.0059,  0.0118,  0.0218,
+        -0.0349,  0.0450], device='cuda:0'), grad: tensor([ 0.0052,  0.0025,  0.0027,  0.0459, -0.0199, -0.0403, -0.0563,  0.0382,
+         0.0007,  0.0212], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 234, time 216.39, cls_loss 0.4830 cls_loss_mapping 0.0049 cls_loss_causal 0.4567 re_mapping 0.0080 re_causal 0.0201 /// teacc 98.70 lr 0.00010000
+Epoch 236, weight, value: tensor([[-0.0744,  0.0667, -0.0968,  ..., -0.1029, -0.0860,  0.0035],
+        [-0.0603, -0.1329,  0.0023,  ..., -0.0595, -0.0453, -0.0869],
+        [ 0.0328, -0.0863,  0.0517,  ...,  0.1579, -0.1084, -0.0454],
+        ...,
+        [-0.0936, -0.1602,  0.0877,  ..., -0.0138, -0.0306,  0.0708],
+        [ 0.0185,  0.0357, -0.0289,  ..., -0.0832, -0.0966, -0.0106],
+        [-0.1447, -0.0090, -0.0067,  ..., -0.1418,  0.1046,  0.0194]],
+       device='cuda:0'), grad: tensor([[ 2.4700e-04,  3.9458e-04,  8.6367e-05,  ...,  2.6271e-05,
+          7.4029e-05,  1.5438e-04],
+        [ 1.2767e-04,  3.4237e-04,  4.9770e-05,  ...,  1.6525e-05,
+          4.8137e-04,  6.0654e-04],
+        [ 4.3464e-04,  5.1451e-04, -2.6762e-05,  ..., -2.0909e-04,
+          2.8700e-05,  8.5056e-05],
+        ...,
+        [ 1.5378e-04,  2.3675e-04,  1.8609e-04,  ...,  9.9897e-05,
+          2.1243e-04, -8.6260e-04],
+        [-2.1152e-03, -1.5478e-03, -4.1890e-04,  ...,  3.5111e-07,
+          6.8140e-04, -4.7064e-04],
+        [-9.6369e-04, -2.8343e-03,  7.5459e-05,  ...,  4.9174e-05,
+         -5.0316e-03, -4.1580e-03]], device='cuda:0')
+Epoch 236, bias, value: tensor([ 0.0156,  0.0009,  0.0014,  0.0159, -0.0036, -0.0051,  0.0121,  0.0219,
+        -0.0343,  0.0452], device='cuda:0'), grad: tensor([ 0.0105,  0.0111,  0.0080, -0.0193, -0.0051,  0.0107,  0.0159,  0.0033,
+         0.0073, -0.0424], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 235, time 216.43, cls_loss 0.5199 cls_loss_mapping 0.0072 cls_loss_causal 0.4930 re_mapping 0.0071 re_causal 0.0178 /// teacc 98.67 lr 0.00010000
+Epoch 237, weight, value: tensor([[-0.0746,  0.0663, -0.0972,  ..., -0.1038, -0.0865,  0.0036],
+        [-0.0598, -0.1327,  0.0023,  ..., -0.0601, -0.0448, -0.0862],
+        [ 0.0331, -0.0871,  0.0519,  ...,  0.1583, -0.1098, -0.0456],
+        ...,
+        [-0.0936, -0.1596,  0.0875,  ..., -0.0149, -0.0310,  0.0705],
+        [ 0.0188,  0.0369, -0.0295,  ..., -0.0837, -0.0978, -0.0114],
+        [-0.1443, -0.0089, -0.0072,  ..., -0.1416,  0.1042,  0.0205]],
+       device='cuda:0'), grad: tensor([[ 8.0526e-05,  4.5709e-06,  2.2757e-04,  ...,  1.6105e-04,
+          3.9250e-05,  1.3075e-03],
+        [ 4.9448e-04,  9.0122e-05,  3.4541e-05,  ...,  1.9622e-04,
+          3.4541e-05,  2.2678e-03],
+        [ 1.3605e-05,  1.3185e-04, -1.8854e-03,  ...,  2.5299e-02,
+          1.4591e-03,  1.9264e-03],
+        ...,
+        [ 1.6165e-04,  1.8084e-04,  1.9779e-03,  ...,  9.6321e-04,
+          1.1644e-03,  2.5501e-03],
+        [-7.1168e-05, -4.9162e-04,  4.7231e-04,  ...,  1.4486e-03,
+         -7.5912e-04,  8.3637e-04],
+        [ 1.1945e-04,  8.5771e-05, -1.0614e-03,  ...,  1.3340e-04,
+         -8.6308e-04,  1.4219e-03]], device='cuda:0')
+Epoch 237, bias, value: tensor([ 0.0158,  0.0019,  0.0007,  0.0156, -0.0030, -0.0050,  0.0121,  0.0217,
+        -0.0349,  0.0450], device='cuda:0'), grad: tensor([ 0.0109, -0.0122,  0.0320, -0.0180, -0.0418,  0.0090, -0.0116,  0.0168,
+         0.0048,  0.0102], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 236, time 216.35, cls_loss 0.5083 cls_loss_mapping 0.0054 cls_loss_causal 0.4881 re_mapping 0.0074 re_causal 0.0182 /// teacc 98.65 lr 0.00010000
+Epoch 238, weight, value: tensor([[-0.0750,  0.0660, -0.0969,  ..., -0.1033, -0.0860,  0.0047],
+        [-0.0603, -0.1341,  0.0026,  ..., -0.0605, -0.0441, -0.0871],
+        [ 0.0346, -0.0873,  0.0526,  ...,  0.1590, -0.1110, -0.0447],
+        ...,
+        [-0.0937, -0.1607,  0.0874,  ..., -0.0150, -0.0309,  0.0705],
+        [ 0.0172,  0.0361, -0.0294,  ..., -0.0845, -0.0981, -0.0116],
+        [-0.1449, -0.0079, -0.0073,  ..., -0.1409,  0.1044,  0.0199]],
+       device='cuda:0'), grad: tensor([[ 3.8838e-04,  1.3914e-03,  1.6183e-05,  ...,  2.1851e-04,
+          2.6178e-04,  4.6325e-04],
+        [ 7.6950e-05,  2.2840e-04, -2.6536e-04,  ...,  3.3808e-04,
+          8.5592e-05,  5.0449e-04],
+        [ 1.7227e-02,  2.2018e-02,  6.2943e-05,  ...,  6.2714e-03,
+          3.5971e-05,  3.2234e-04],
+        ...,
+        [ 1.7238e-04,  1.8311e-04,  1.6224e-04,  ...,  1.4925e-04,
+          1.6332e-04,  4.8542e-04],
+        [ 1.2222e-02,  1.1841e-02, -2.8157e-04,  ...,  8.5545e-04,
+         -3.9315e-04, -5.0735e-04],
+        [ 5.7077e-04,  9.0647e-04,  4.5156e-04,  ...,  2.5892e-04,
+          7.8249e-04, -2.4853e-03]], device='cuda:0')
+Epoch 238, bias, value: tensor([ 0.0160,  0.0026,  0.0011,  0.0154, -0.0039, -0.0059,  0.0117,  0.0220,
+        -0.0347,  0.0457], device='cuda:0'), grad: tensor([ 0.0097,  0.0120,  0.0520, -0.0277, -0.0383,  0.0300, -0.0397,  0.0264,
+        -0.0205, -0.0039], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 237, time 216.44, cls_loss 0.5159 cls_loss_mapping 0.0059 cls_loss_causal 0.4848 re_mapping 0.0073 re_causal 0.0184 /// teacc 98.59 lr 0.00010000
+Epoch 239, weight, value: tensor([[-0.0759,  0.0650, -0.0962,  ..., -0.1041, -0.0851,  0.0053],
+        [-0.0604, -0.1347,  0.0026,  ..., -0.0602, -0.0446, -0.0860],
+        [ 0.0350, -0.0886,  0.0529,  ...,  0.1587, -0.1110, -0.0447],
+        ...,
+        [-0.0939, -0.1623,  0.0866,  ..., -0.0152, -0.0312,  0.0701],
+        [ 0.0176,  0.0366, -0.0299,  ..., -0.0846, -0.0983, -0.0121],
+        [-0.1444, -0.0075, -0.0071,  ..., -0.1420,  0.1052,  0.0204]],
+       device='cuda:0'), grad: tensor([[ 0.0009,  0.0011,  0.0008,  ...,  0.0011,  0.0003,  0.0013],
+        [ 0.0003,  0.0005, -0.0018,  ..., -0.0015,  0.0002, -0.0023],
+        [ 0.0008,  0.0011,  0.0026,  ...,  0.0015,  0.0005,  0.0028],
+        ...,
+        [ 0.0002, -0.0018, -0.0064,  ..., -0.0033, -0.0046, -0.0066],
+        [-0.0004, -0.0014, -0.0015,  ..., -0.0022,  0.0002, -0.0007],
+        [ 0.0008,  0.0019,  0.0067,  ...,  0.0027,  0.0074,  0.0062]],
+       device='cuda:0')
+Epoch 239, bias, value: tensor([ 0.0164,  0.0024,  0.0003,  0.0156, -0.0038, -0.0067,  0.0119,  0.0224,
+        -0.0349,  0.0462], device='cuda:0'), grad: tensor([ 0.0183,  0.0023,  0.0236,  0.0166, -0.0039, -0.0021, -0.0211, -0.0067,
+        -0.0575,  0.0305], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 238, time 216.50, cls_loss 0.4993 cls_loss_mapping 0.0056 cls_loss_causal 0.4659 re_mapping 0.0074 re_causal 0.0189 /// teacc 98.74 lr 0.00010000
+Epoch 240, weight, value: tensor([[-0.0765,  0.0643, -0.0960,  ..., -0.1045, -0.0852,  0.0060],
+        [-0.0619, -0.1371,  0.0046,  ..., -0.0588, -0.0444, -0.0858],
+        [ 0.0353, -0.0878,  0.0521,  ...,  0.1590, -0.1101, -0.0454],
+        ...,
+        [-0.0948, -0.1640,  0.0870,  ..., -0.0146, -0.0311,  0.0702],
+        [ 0.0180,  0.0371, -0.0292,  ..., -0.0856, -0.0958, -0.0115],
+        [-0.1445, -0.0085, -0.0079,  ..., -0.1423,  0.1045,  0.0201]],
+       device='cuda:0'), grad: tensor([[-2.0035e-02,  6.9976e-05, -7.2441e-03,  ...,  7.3338e-04,
+          2.7895e-04,  1.3237e-03],
+        [ 5.9032e-04, -1.9205e-04,  6.1703e-04,  ...,  2.8777e-04,
+          2.1267e-04,  9.4032e-04],
+        [ 3.4981e-03, -1.2236e-03,  6.6996e-04,  ..., -8.3923e-04,
+         -1.4849e-03, -3.3302e-03],
+        ...,
+        [ 2.3193e-03, -3.3140e-04, -1.8954e-05,  ...,  4.6945e-04,
+         -1.0357e-03, -7.8964e-03],
+        [ 2.3651e-03,  6.3705e-04,  5.1785e-04,  ...,  4.5228e-04,
+          2.7370e-04,  1.2274e-03],
+        [ 5.4626e-03,  5.0116e-04,  6.2180e-04,  ...,  4.8351e-04,
+          3.5834e-04,  1.8349e-03]], device='cuda:0')
+Epoch 240, bias, value: tensor([ 0.0159,  0.0021,  0.0002,  0.0152, -0.0032, -0.0070,  0.0116,  0.0226,
+        -0.0341,  0.0465], device='cuda:0'), grad: tensor([-0.0134, -0.0053, -0.0038,  0.0216,  0.0304,  0.0013, -0.0094, -0.0658,
+         0.0095,  0.0349], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 239, time 216.47, cls_loss 0.5053 cls_loss_mapping 0.0063 cls_loss_causal 0.4764 re_mapping 0.0073 re_causal 0.0174 /// teacc 98.78 lr 0.00010000
+Epoch 241, weight, value: tensor([[-0.0749,  0.0646, -0.0971,  ..., -0.1053, -0.0865,  0.0051],
+        [-0.0623, -0.1385,  0.0041,  ..., -0.0584, -0.0449, -0.0862],
+        [ 0.0340, -0.0881,  0.0516,  ...,  0.1585, -0.1103, -0.0456],
+        ...,
+        [-0.0952, -0.1659,  0.0880,  ..., -0.0140, -0.0313,  0.0715],
+        [ 0.0185,  0.0371, -0.0287,  ..., -0.0854, -0.0953, -0.0103],
+        [-0.1451, -0.0095, -0.0084,  ..., -0.1437,  0.1040,  0.0191]],
+       device='cuda:0'), grad: tensor([[ 1.1630e-05,  6.8665e-04,  2.4211e-04,  ...,  1.1967e-06,
+          4.6939e-06,  7.4768e-04],
+        [ 4.8995e-05,  6.2799e-04,  4.8137e-04,  ...,  2.2426e-06,
+          1.8425e-03,  1.3504e-03],
+        [ 5.8860e-05, -1.5421e-03,  2.9683e-04,  ..., -1.4439e-05,
+          1.8284e-05, -7.1573e-04],
+        ...,
+        [ 3.4189e-04,  7.7105e-04, -1.2159e-04,  ..., -5.5470e-06,
+          6.4516e-04,  1.2312e-03],
+        [ 8.4519e-05,  7.0763e-04,  2.5487e-04,  ...,  6.2548e-06,
+          2.5582e-04,  7.5340e-04],
+        [ 2.7433e-05,  7.3528e-04,  4.2105e-04,  ...,  3.5670e-06,
+          6.7282e-04, -8.2684e-04]], device='cuda:0')
+Epoch 241, bias, value: tensor([ 0.0154,  0.0014,  0.0003,  0.0158, -0.0027, -0.0080,  0.0113,  0.0234,
+        -0.0334,  0.0460], device='cuda:0'), grad: tensor([ 0.0184,  0.0290, -0.0449, -0.0139,  0.0046, -0.0469, -0.0095,  0.0216,
+         0.0195,  0.0220], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 240, time 217.05, cls_loss 0.4999 cls_loss_mapping 0.0047 cls_loss_causal 0.4801 re_mapping 0.0076 re_causal 0.0191 /// teacc 98.87 lr 0.00010000
+Epoch 242, weight, value: tensor([[-0.0755,  0.0644, -0.0979,  ..., -0.1054, -0.0864,  0.0042],
+        [-0.0629, -0.1380,  0.0037,  ..., -0.0593, -0.0433, -0.0858],
+        [ 0.0342, -0.0877,  0.0527,  ...,  0.1587, -0.1109, -0.0460],
+        ...,
+        [-0.0953, -0.1648,  0.0884,  ..., -0.0137, -0.0320,  0.0709],
+        [ 0.0202,  0.0381, -0.0294,  ..., -0.0855, -0.0962, -0.0098],
+        [-0.1446, -0.0082, -0.0087,  ..., -0.1441,  0.1049,  0.0209]],
+       device='cuda:0'), grad: tensor([[ 1.9860e-04,  3.5691e-04,  6.7616e-04,  ...,  1.1462e-04,
+          3.0303e-04,  1.3018e-03],
+        [ 4.0889e-04,  6.7830e-05, -7.4482e-04,  ..., -1.7917e-04,
+          8.0633e-04, -7.3576e-04],
+        [-2.0409e-03,  8.3685e-05, -1.5507e-03,  ..., -1.6069e-03,
+          2.8253e-04, -1.0742e-02],
+        ...,
+        [ 4.2534e-04,  1.3888e-04, -2.4166e-03,  ...,  3.3474e-04,
+          8.1682e-04,  3.1681e-03],
+        [-1.0500e-03, -1.0300e-03, -9.8133e-04,  ...,  1.4043e-04,
+         -4.0398e-03, -4.4136e-03],
+        [ 1.0405e-03,  8.3637e-04,  3.5496e-03,  ...,  1.2189e-04,
+          3.7556e-03,  5.2643e-03]], device='cuda:0')
+Epoch 242, bias, value: tensor([ 0.0145,  0.0016,  0.0002,  0.0163, -0.0029, -0.0078,  0.0115,  0.0234,
+        -0.0329,  0.0456], device='cuda:0'), grad: tensor([ 0.0128, -0.0290, -0.0151,  0.0159,  0.0131,  0.0109, -0.0086,  0.0061,
+        -0.0389,  0.0327], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 241, time 216.82, cls_loss 0.5156 cls_loss_mapping 0.0047 cls_loss_causal 0.4896 re_mapping 0.0075 re_causal 0.0196 /// teacc 98.88 lr 0.00010000
+Epoch 243, weight, value: tensor([[-0.0752,  0.0644, -0.0981,  ..., -0.1048, -0.0873,  0.0044],
+        [-0.0629, -0.1377,  0.0028,  ..., -0.0603, -0.0450, -0.0866],
+        [ 0.0358, -0.0868,  0.0523,  ...,  0.1587, -0.1093, -0.0455],
+        ...,
+        [-0.0950, -0.1647,  0.0883,  ..., -0.0130, -0.0324,  0.0722],
+        [ 0.0203,  0.0369, -0.0282,  ..., -0.0857, -0.0962, -0.0099],
+        [-0.1441, -0.0066, -0.0089,  ..., -0.1447,  0.1057,  0.0202]],
+       device='cuda:0'), grad: tensor([[-2.0714e-03, -4.6158e-03,  7.1049e-04,  ...,  1.8612e-05,
+          1.1474e-05,  7.2622e-04],
+        [ 2.8181e-04,  3.0184e-04,  2.7013e-04,  ...,  1.8978e-04,
+          6.4373e-05,  6.7425e-04],
+        [ 2.2762e-06,  1.7014e-03, -2.0428e-03,  ..., -1.3142e-03,
+         -7.0429e-04, -2.2125e-03],
+        ...,
+        [ 4.1676e-04, -5.1594e-04, -1.4992e-03,  ...,  4.7302e-04,
+          7.6473e-05, -8.4496e-04],
+        [ 1.6525e-02,  8.2779e-03, -4.1127e-04,  ...,  2.4164e-04,
+          2.6488e-04,  4.6992e-04],
+        [ 2.8086e-04,  9.3126e-04,  9.7942e-04,  ...,  8.5607e-06,
+          1.3793e-04,  9.3651e-04]], device='cuda:0')
+Epoch 243, bias, value: tensor([ 0.0141,  0.0012,  0.0011,  0.0156, -0.0033, -0.0070,  0.0112,  0.0246,
+        -0.0328,  0.0447], device='cuda:0'), grad: tensor([-0.0004,  0.0349,  0.0050,  0.0089,  0.0139, -0.0858,  0.0223,  0.0065,
+         0.0360, -0.0414], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 242, time 216.90, cls_loss 0.5048 cls_loss_mapping 0.0056 cls_loss_causal 0.4814 re_mapping 0.0073 re_causal 0.0197 /// teacc 98.94 lr 0.00010000
+Epoch 244, weight, value: tensor([[-0.0763,  0.0633, -0.0982,  ..., -0.1058, -0.0873,  0.0049],
+        [-0.0627, -0.1382,  0.0029,  ..., -0.0601, -0.0459, -0.0869],
+        [ 0.0365, -0.0860,  0.0530,  ...,  0.1590, -0.1097, -0.0459],
+        ...,
+        [-0.0951, -0.1654,  0.0885,  ..., -0.0136, -0.0314,  0.0720],
+        [ 0.0199,  0.0366, -0.0287,  ..., -0.0844, -0.0978, -0.0108],
+        [-0.1442, -0.0064, -0.0088,  ..., -0.1451,  0.1062,  0.0198]],
+       device='cuda:0'), grad: tensor([[-3.0090e-02, -3.3081e-02,  6.2466e-04,  ...,  1.1814e-04,
+          1.8084e-04,  5.4359e-04],
+        [-6.7472e-04, -1.4963e-03, -1.9608e-03,  ..., -2.7313e-03,
+         -2.7142e-03,  3.0303e-04],
+        [ 1.7576e-03,  1.1158e-03,  1.2070e-04,  ...,  5.2500e-04,
+          9.5844e-04,  7.4482e-04],
+        ...,
+        [-9.1970e-05, -1.7338e-03, -1.0101e-02,  ..., -3.2368e-03,
+         -1.9779e-03, -8.1024e-03],
+        [-2.5330e-02, -1.6647e-02,  2.1248e-03,  ...,  3.3054e-03,
+          3.2501e-03,  1.9140e-03],
+        [ 5.8079e-04, -8.2254e-05,  1.5001e-03,  ...,  6.9046e-04,
+          5.2643e-04,  2.6093e-03]], device='cuda:0')
+Epoch 244, bias, value: tensor([ 0.0144,  0.0007,  0.0010,  0.0155, -0.0022, -0.0067,  0.0109,  0.0237,
+        -0.0330,  0.0453], device='cuda:0'), grad: tensor([-0.0720,  0.0048,  0.0291, -0.0052,  0.0001, -0.0451,  0.0706, -0.0170,
+         0.0415, -0.0068], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 243, time 216.66, cls_loss 0.5122 cls_loss_mapping 0.0067 cls_loss_causal 0.4841 re_mapping 0.0073 re_causal 0.0179 /// teacc 98.81 lr 0.00010000
+Epoch 245, weight, value: tensor([[-0.0765,  0.0635, -0.0988,  ..., -0.1057, -0.0882,  0.0050],
+        [-0.0634, -0.1385,  0.0028,  ..., -0.0589, -0.0459, -0.0867],
+        [ 0.0354, -0.0860,  0.0523,  ...,  0.1584, -0.1100, -0.0454],
+        ...,
+        [-0.0962, -0.1656,  0.0878,  ..., -0.0138, -0.0321,  0.0726],
+        [ 0.0208,  0.0369, -0.0291,  ..., -0.0843, -0.0989, -0.0116],
+        [-0.1436, -0.0060, -0.0075,  ..., -0.1451,  0.1064,  0.0201]],
+       device='cuda:0'), grad: tensor([[ 6.5625e-05, -2.5749e-04,  4.4680e-04,  ...,  1.8373e-05,
+          6.6233e-04,  9.3985e-04],
+        [ 3.6687e-05,  6.6042e-04, -1.0586e-03,  ...,  1.7108e-06,
+          1.5676e-04,  7.4053e-04],
+        [ 4.5389e-05, -6.5422e-04,  2.2769e-04,  ...,  6.7540e-06,
+          1.3578e-04, -3.1700e-03],
+        ...,
+        [ 5.0515e-05,  6.0892e-04,  4.5729e-04,  ...,  5.9344e-06,
+          3.0422e-04,  6.1417e-04],
+        [ 6.4015e-05,  7.1764e-04,  5.3596e-04,  ...,  4.9323e-05,
+          6.4278e-04,  9.8610e-04],
+        [ 2.4605e-04,  6.4011e-03,  3.7537e-03,  ...,  5.7936e-04,
+          7.3662e-03,  5.4321e-03]], device='cuda:0')
+Epoch 245, bias, value: tensor([ 0.0147,  0.0010,  0.0010,  0.0149, -0.0028, -0.0059,  0.0108,  0.0235,
+        -0.0336,  0.0460], device='cuda:0'), grad: tensor([-0.0059,  0.0058, -0.0440, -0.0387, -0.0668,  0.0201,  0.0293,  0.0245,
+         0.0154,  0.0604], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 244, time 216.35, cls_loss 0.5142 cls_loss_mapping 0.0070 cls_loss_causal 0.4857 re_mapping 0.0075 re_causal 0.0191 /// teacc 98.64 lr 0.00010000
+Epoch 246, weight, value: tensor([[-0.0776,  0.0631, -0.0984,  ..., -0.1048, -0.0886,  0.0054],
+        [-0.0630, -0.1389,  0.0019,  ..., -0.0586, -0.0464, -0.0870],
+        [ 0.0354, -0.0862,  0.0527,  ...,  0.1585, -0.1115, -0.0454],
+        ...,
+        [-0.0963, -0.1663,  0.0877,  ..., -0.0150, -0.0341,  0.0717],
+        [ 0.0198,  0.0374, -0.0288,  ..., -0.0855, -0.0996, -0.0110],
+        [-0.1445, -0.0068, -0.0077,  ..., -0.1451,  0.1071,  0.0200]],
+       device='cuda:0'), grad: tensor([[ 4.8685e-04,  1.9515e-04,  2.3210e-04,  ...,  1.4591e-04,
+          3.0804e-04,  7.9727e-04],
+        [-2.3460e-03,  5.0116e-04, -5.1546e-04,  ..., -4.0054e-03,
+         -3.1090e-03,  2.5597e-03],
+        [ 1.4534e-03,  1.7047e-04,  2.3052e-05,  ...,  1.9205e-04,
+          1.0624e-03,  1.4381e-03],
+        ...,
+        [ 8.0228e-05,  4.2295e-04,  4.8866e-03,  ...,  2.7633e-04,
+          2.1152e-03,  2.8248e-03],
+        [-8.8196e-03, -3.0594e-03,  2.0099e-04,  ...,  5.0592e-04,
+         -1.0201e-02, -1.0017e-02],
+        [ 1.0262e-03,  3.5644e-04,  7.3576e-04,  ...,  3.8528e-04,
+          8.5688e-04,  1.8044e-03]], device='cuda:0')
+Epoch 246, bias, value: tensor([ 0.0149,  0.0012,  0.0016,  0.0151, -0.0021, -0.0056,  0.0106,  0.0224,
+        -0.0340,  0.0457], device='cuda:0'), grad: tensor([ 0.0098,  0.0007,  0.0219,  0.0076,  0.0354, -0.0153, -0.0158,  0.0022,
+        -0.0642,  0.0177], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 245, time 216.55, cls_loss 0.5412 cls_loss_mapping 0.0060 cls_loss_causal 0.5127 re_mapping 0.0078 re_causal 0.0196 /// teacc 98.81 lr 0.00010000
+Epoch 247, weight, value: tensor([[-0.0770,  0.0642, -0.0991,  ..., -0.1061, -0.0900,  0.0058],
+        [-0.0628, -0.1377,  0.0012,  ..., -0.0584, -0.0481, -0.0884],
+        [ 0.0339, -0.0867,  0.0530,  ...,  0.1582, -0.1104, -0.0450],
+        ...,
+        [-0.0963, -0.1674,  0.0870,  ..., -0.0144, -0.0350,  0.0719],
+        [ 0.0200,  0.0364, -0.0288,  ..., -0.0859, -0.1006, -0.0116],
+        [-0.1455, -0.0069, -0.0075,  ..., -0.1444,  0.1073,  0.0194]],
+       device='cuda:0'), grad: tensor([[ 2.1183e-04,  8.2779e-04,  7.0715e-04,  ...,  9.2313e-06,
+          2.3115e-04, -9.8228e-04],
+        [ 3.6740e-04,  4.8304e-04,  1.1024e-03,  ..., -4.0680e-06,
+          1.8096e-04, -6.2447e-03],
+        [ 2.5034e-05,  1.0604e-04,  1.2436e-03,  ...,  7.6151e-04,
+          1.6677e-04,  2.3327e-03],
+        ...,
+        [-9.8324e-04, -2.7447e-03, -1.6983e-02,  ..., -8.1396e-04,
+         -6.3591e-03, -1.1269e-02],
+        [ 1.8704e-04,  4.0960e-04,  9.5654e-04,  ...,  1.9744e-05,
+          2.4533e-04,  3.0994e-03],
+        [ 5.8460e-04,  9.1696e-04,  1.2177e-02,  ...,  3.1382e-05,
+          5.0240e-03,  1.0521e-02]], device='cuda:0')
+Epoch 247, bias, value: tensor([ 0.0150,  0.0008,  0.0021,  0.0152, -0.0028, -0.0060,  0.0113,  0.0222,
+        -0.0337,  0.0455], device='cuda:0'), grad: tensor([-0.0054, -0.0716,  0.0195,  0.0226,  0.0170,  0.0091, -0.0224, -0.0583,
+         0.0230,  0.0665], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 246, time 216.52, cls_loss 0.4956 cls_loss_mapping 0.0047 cls_loss_causal 0.4714 re_mapping 0.0073 re_causal 0.0174 /// teacc 98.67 lr 0.00010000
+Epoch 248, weight, value: tensor([[-0.0761,  0.0649, -0.0979,  ..., -0.1059, -0.0895,  0.0059],
+        [-0.0633, -0.1376,  0.0013,  ..., -0.0588, -0.0468, -0.0867],
+        [ 0.0334, -0.0877,  0.0521,  ...,  0.1576, -0.1117, -0.0457],
+        ...,
+        [-0.0947, -0.1669,  0.0874,  ..., -0.0143, -0.0351,  0.0723],
+        [ 0.0202,  0.0360, -0.0270,  ..., -0.0851, -0.1000, -0.0112],
+        [-0.1464, -0.0079, -0.0081,  ..., -0.1450,  0.1072,  0.0190]],
+       device='cuda:0'), grad: tensor([[ 4.0207e-03,  4.2038e-03,  1.0653e-03,  ...,  2.0351e-03,
+          3.6049e-04,  8.6117e-04],
+        [ 1.2207e-03,  5.2404e-04,  3.2115e-04,  ...,  2.2018e-04,
+          2.9802e-04,  1.2970e-03],
+        [-7.7744e-03,  3.5596e-04,  1.9484e-03,  ..., -4.7073e-03,
+          3.0971e-04,  1.1883e-03],
+        ...,
+        [ 1.9436e-03,  5.8270e-04,  9.8419e-04,  ...,  9.7847e-04,
+          8.2541e-04,  1.6737e-03],
+        [ 2.8248e-03,  4.6501e-03,  3.2940e-03,  ...,  9.5129e-04,
+          1.1463e-03,  2.3556e-03],
+        [ 5.4407e-04,  5.9158e-05, -1.3000e-02,  ..., -2.6760e-03,
+          3.9864e-03,  6.3667e-03]], device='cuda:0')
+Epoch 248, bias, value: tensor([ 0.0151,  0.0014,  0.0013,  0.0152, -0.0023, -0.0062,  0.0117,  0.0230,
+        -0.0336,  0.0441], device='cuda:0'), grad: tensor([ 0.0256,  0.0215,  0.0010,  0.0017, -0.0342,  0.0451, -0.0353,  0.0197,
+         0.0305, -0.0756], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 247, time 216.42, cls_loss 0.4912 cls_loss_mapping 0.0051 cls_loss_causal 0.4596 re_mapping 0.0074 re_causal 0.0179 /// teacc 98.66 lr 0.00010000
+Epoch 249, weight, value: tensor([[-0.0766,  0.0645, -0.0989,  ..., -0.1071, -0.0911,  0.0055],
+        [-0.0634, -0.1372,  0.0008,  ..., -0.0587, -0.0473, -0.0869],
+        [ 0.0334, -0.0883,  0.0523,  ...,  0.1560, -0.1114, -0.0463],
+        ...,
+        [-0.0948, -0.1680,  0.0885,  ..., -0.0117, -0.0347,  0.0727],
+        [ 0.0202,  0.0363, -0.0265,  ..., -0.0850, -0.0997, -0.0113],
+        [-0.1464, -0.0070, -0.0078,  ..., -0.1455,  0.1071,  0.0191]],
+       device='cuda:0'), grad: tensor([[-5.2929e-04,  3.4733e-03,  5.0831e-04,  ...,  9.6023e-05,
+         -1.7443e-03, -4.9820e-03],
+        [ 1.4746e-04, -8.9359e-04,  1.9360e-04,  ...,  3.4976e-04,
+         -9.4175e-05, -8.2731e-05],
+        [ 1.0166e-03,  1.0576e-03, -3.6736e-03,  ..., -1.2884e-03,
+         -1.3173e-04, -5.2986e-03],
+        ...,
+        [ 9.9754e-04,  9.9277e-04,  2.0657e-03,  ...,  1.2083e-03,
+          1.0319e-03,  3.4084e-03],
+        [-6.2828e-03, -4.1351e-03,  2.4680e-06,  ..., -2.5978e-03,
+          9.2363e-04,  2.5940e-03],
+        [ 3.9554e-04,  1.7252e-03,  1.8454e-03,  ...,  7.2241e-04,
+          1.7662e-03,  4.3335e-03]], device='cuda:0')
+Epoch 249, bias, value: tensor([ 0.0145,  0.0012,  0.0006,  0.0168, -0.0022, -0.0060,  0.0117,  0.0227,
+        -0.0336,  0.0439], device='cuda:0'), grad: tensor([-0.0076, -0.0186, -0.0163,  0.0083,  0.0113,  0.0143, -0.0243,  0.0188,
+        -0.0087,  0.0229], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 248, time 216.47, cls_loss 0.4994 cls_loss_mapping 0.0044 cls_loss_causal 0.4707 re_mapping 0.0071 re_causal 0.0173 /// teacc 98.77 lr 0.00010000
+Epoch 250, weight, value: tensor([[-7.7217e-02,  6.4318e-02, -9.9880e-02,  ..., -1.0734e-01,
+         -9.1987e-02,  4.5442e-03],
+        [-6.3571e-02, -1.3776e-01,  2.8957e-05,  ..., -5.9381e-02,
+         -4.6915e-02, -8.7548e-02],
+        [ 3.4441e-02, -8.7237e-02,  5.3367e-02,  ...,  1.5760e-01,
+         -1.1179e-01, -4.3985e-02],
+        ...,
+        [-9.4915e-02, -1.6923e-01,  8.9419e-02,  ..., -1.1650e-02,
+         -3.4268e-02,  7.2982e-02],
+        [ 2.0525e-02,  3.6374e-02, -2.6922e-02,  ..., -8.5980e-02,
+         -9.8245e-02, -1.1492e-02],
+        [-1.4686e-01, -6.1683e-03, -7.8076e-03,  ..., -1.4561e-01,
+          1.0737e-01,  1.9321e-02]], device='cuda:0'), grad: tensor([[ 2.2352e-04,  2.0361e-04,  5.1880e-04,  ...,  8.8513e-06,
+          9.5546e-05,  7.9346e-04],
+        [ 4.7302e-04,  5.1451e-04,  2.7105e-05,  ...,  3.1274e-06,
+          2.0182e-04, -4.7040e-04],
+        [ 1.7643e-03,  8.7929e-04,  6.7663e-04,  ...,  7.7677e-04,
+          3.3045e-04, -4.2081e-04],
+        ...,
+        [-3.8967e-03, -6.9809e-03, -1.6418e-02,  ..., -5.2490e-03,
+         -5.7335e-03, -1.5556e-02],
+        [ 1.5114e-02,  4.9782e-03,  1.0811e-02,  ...,  2.3479e-03,
+          4.3373e-03,  1.0025e-02],
+        [-1.0590e-02,  2.9812e-03, -1.5116e-03,  ...,  9.3889e-04,
+         -1.1009e-02, -3.0079e-03]], device='cuda:0')
+Epoch 250, bias, value: tensor([ 0.0138,  0.0015,  0.0011,  0.0167, -0.0024, -0.0068,  0.0127,  0.0223,
+        -0.0336,  0.0444], device='cuda:0'), grad: tensor([ 0.0188, -0.0007, -0.0071, -0.0587,  0.0430, -0.0308,  0.0239, -0.0525,
+         0.0826, -0.0185], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 249, time 216.39, cls_loss 0.5040 cls_loss_mapping 0.0044 cls_loss_causal 0.4820 re_mapping 0.0077 re_causal 0.0194 /// teacc 98.67 lr 0.00010000
+Epoch 251, weight, value: tensor([[-0.0767,  0.0648, -0.0998,  ..., -0.1080, -0.0923,  0.0040],
+        [-0.0641, -0.1380,  0.0023,  ..., -0.0587, -0.0445, -0.0873],
+        [ 0.0340, -0.0877,  0.0524,  ...,  0.1575, -0.1127, -0.0446],
+        ...,
+        [-0.0943, -0.1691,  0.0891,  ..., -0.0104, -0.0345,  0.0729],
+        [ 0.0197,  0.0367, -0.0284,  ..., -0.0877, -0.0993, -0.0126],
+        [-0.1474, -0.0057, -0.0076,  ..., -0.1453,  0.1082,  0.0200]],
+       device='cuda:0'), grad: tensor([[ 2.1800e-05,  1.3065e-04,  8.9598e-04,  ...,  9.7036e-05,
+          2.9802e-04,  1.8034e-03],
+        [ 5.3930e-04,  6.3038e-04,  8.1205e-04,  ...,  4.5091e-05,
+          2.8253e-04,  1.8158e-03],
+        [ 3.1125e-06,  7.5936e-05,  6.7282e-04,  ...,  7.4446e-05,
+          2.2697e-04,  1.3905e-03],
+        ...,
+        [ 1.3642e-05,  1.7488e-04, -2.3212e-03,  ..., -6.9094e-04,
+          3.4523e-04, -3.2120e-03],
+        [ 1.1292e-03,  1.0414e-03,  3.2735e-04,  ...,  1.2290e-04,
+          4.5872e-04,  3.3641e-04],
+        [ 2.6188e-03,  7.0453e-05, -4.3869e-04,  ...,  1.1927e-04,
+          3.0880e-03, -1.7872e-03]], device='cuda:0')
+Epoch 251, bias, value: tensor([ 0.0137,  0.0010,  0.0005,  0.0168, -0.0027, -0.0071,  0.0143,  0.0222,
+        -0.0342,  0.0451], device='cuda:0'), grad: tensor([ 0.0209,  0.0225,  0.0156, -0.0093,  0.0289,  0.0328, -0.0707, -0.0311,
+        -0.0079, -0.0017], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 250, time 216.31, cls_loss 0.5077 cls_loss_mapping 0.0050 cls_loss_causal 0.4807 re_mapping 0.0069 re_causal 0.0172 /// teacc 98.72 lr 0.00010000
+Epoch 252, weight, value: tensor([[-0.0759,  0.0649, -0.0997,  ..., -0.1081, -0.0932,  0.0048],
+        [-0.0651, -0.1376,  0.0030,  ..., -0.0580, -0.0442, -0.0877],
+        [ 0.0340, -0.0884,  0.0529,  ...,  0.1579, -0.1130, -0.0453],
+        ...,
+        [-0.0951, -0.1711,  0.0884,  ..., -0.0100, -0.0351,  0.0730],
+        [ 0.0198,  0.0367, -0.0281,  ..., -0.0890, -0.0998, -0.0122],
+        [-0.1482, -0.0057, -0.0069,  ..., -0.1464,  0.1083,  0.0200]],
+       device='cuda:0'), grad: tensor([[ 2.3079e-03,  5.6458e-03,  2.8191e-03,  ...,  1.9064e-03,
+          2.2182e-03,  2.3766e-03],
+        [ 1.4377e-04, -7.9823e-04,  2.5845e-03,  ...,  3.4428e-03,
+          2.9316e-03,  2.2640e-03],
+        [-9.5701e-04, -2.8872e-04,  3.4409e-03,  ...,  4.4098e-03,
+          4.6616e-03,  3.6736e-03],
+        ...,
+        [ 8.6248e-05,  2.9540e-04, -7.5455e-03,  ...,  4.5204e-04,
+         -5.2032e-03, -4.2381e-03],
+        [ 1.6088e-03,  2.4853e-03,  1.0519e-03,  ...,  3.1614e-04,
+          5.1498e-04,  6.5422e-04],
+        [ 3.8958e-04,  9.5129e-04, -2.7351e-03,  ..., -1.3046e-02,
+         -5.8708e-03, -5.0163e-03]], device='cuda:0')
+Epoch 252, bias, value: tensor([ 0.0140,  0.0020,  0.0005,  0.0165, -0.0029, -0.0070,  0.0140,  0.0225,
+        -0.0340,  0.0441], device='cuda:0'), grad: tensor([ 0.0263, -0.0172,  0.0126, -0.0570,  0.0128,  0.0136,  0.0160, -0.0145,
+         0.0124, -0.0051], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 251, time 216.26, cls_loss 0.5473 cls_loss_mapping 0.0052 cls_loss_causal 0.5165 re_mapping 0.0066 re_causal 0.0165 /// teacc 98.73 lr 0.00010000
+Epoch 253, weight, value: tensor([[-0.0760,  0.0649, -0.0994,  ..., -0.1074, -0.0928,  0.0050],
+        [-0.0654, -0.1390,  0.0014,  ..., -0.0583, -0.0464, -0.0882],
+        [ 0.0348, -0.0861,  0.0532,  ...,  0.1578, -0.1105, -0.0456],
+        ...,
+        [-0.0955, -0.1721,  0.0891,  ..., -0.0084, -0.0349,  0.0739],
+        [ 0.0203,  0.0361, -0.0261,  ..., -0.0902, -0.0990, -0.0120],
+        [-0.1474, -0.0060, -0.0092,  ..., -0.1476,  0.1087,  0.0203]],
+       device='cuda:0'), grad: tensor([[ 0.0006, -0.0003,  0.0009,  ..., -0.0004,  0.0007,  0.0019],
+        [-0.0070,  0.0003, -0.0013,  ..., -0.0004,  0.0003, -0.0056],
+        [ 0.0020,  0.0020,  0.0016,  ...,  0.0018,  0.0018,  0.0042],
+        ...,
+        [ 0.0004,  0.0005,  0.0016,  ...,  0.0005,  0.0017,  0.0020],
+        [ 0.0171,  0.0184,  0.0005,  ...,  0.0002,  0.0004,  0.0036],
+        [ 0.0008, -0.0038, -0.0072,  ..., -0.0046, -0.0119, -0.0032]],
+       device='cuda:0')
+Epoch 253, bias, value: tensor([ 0.0135,  0.0018,  0.0013,  0.0166, -0.0033, -0.0063,  0.0136,  0.0222,
+        -0.0338,  0.0441], device='cuda:0'), grad: tensor([ 0.0082, -0.0298,  0.0287,  0.0350, -0.0459,  0.0054, -0.0555,  0.0199,
+         0.0544, -0.0204], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 252, time 216.44, cls_loss 0.5016 cls_loss_mapping 0.0055 cls_loss_causal 0.4761 re_mapping 0.0071 re_causal 0.0183 /// teacc 98.76 lr 0.00010000
+Epoch 254, weight, value: tensor([[-0.0757,  0.0642, -0.1017,  ..., -0.1094, -0.0939,  0.0045],
+        [-0.0644, -0.1384,  0.0022,  ..., -0.0581, -0.0468, -0.0879],
+        [ 0.0350, -0.0848,  0.0536,  ...,  0.1572, -0.1089, -0.0454],
+        ...,
+        [-0.0961, -0.1733,  0.0887,  ..., -0.0085, -0.0349,  0.0739],
+        [ 0.0193,  0.0349, -0.0251,  ..., -0.0879, -0.0987, -0.0118],
+        [-0.1474, -0.0063, -0.0090,  ..., -0.1482,  0.1087,  0.0199]],
+       device='cuda:0'), grad: tensor([[-5.1165e-04, -4.8304e-04,  3.4261e-04,  ..., -2.4068e-04,
+          1.7035e-04,  9.2316e-04],
+        [ 6.0081e-05, -6.6566e-04, -1.5316e-03,  ...,  1.8507e-05,
+         -1.1845e-03, -7.3814e-03],
+        [-6.6757e-04, -3.0575e-03, -4.7073e-03,  ..., -1.7862e-03,
+          2.5344e-04, -6.3944e-04],
+        ...,
+        [ 1.1271e-04,  7.3099e-04, -2.6207e-03,  ...,  1.8632e-04,
+         -3.1352e-04,  8.1635e-04],
+        [-1.5926e-03,  7.9250e-04,  1.4229e-03,  ...,  4.7946e-04,
+          1.5306e-04,  6.5899e-04],
+        [-2.9774e-03, -8.4229e-03,  1.9522e-03,  ...,  2.3580e-04,
+         -2.9430e-03,  3.7014e-05]], device='cuda:0')
+Epoch 254, bias, value: tensor([ 0.0121,  0.0025,  0.0020,  0.0168, -0.0037, -0.0066,  0.0128,  0.0224,
+        -0.0334,  0.0444], device='cuda:0'), grad: tensor([ 0.0022, -0.0524, -0.0415,  0.0437,  0.0211,  0.0078,  0.0133,  0.0066,
+         0.0126, -0.0135], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 253, time 216.53, cls_loss 0.5367 cls_loss_mapping 0.0055 cls_loss_causal 0.5152 re_mapping 0.0067 re_causal 0.0166 /// teacc 98.71 lr 0.00010000
+Epoch 255, weight, value: tensor([[-0.0748,  0.0644, -0.1018,  ..., -0.1089, -0.0933,  0.0049],
+        [-0.0639, -0.1376,  0.0022,  ..., -0.0571, -0.0468, -0.0885],
+        [ 0.0355, -0.0847,  0.0527,  ...,  0.1568, -0.1096, -0.0461],
+        ...,
+        [-0.0964, -0.1727,  0.0892,  ..., -0.0091, -0.0339,  0.0747],
+        [ 0.0186,  0.0347, -0.0250,  ..., -0.0870, -0.0998, -0.0127],
+        [-0.1473, -0.0079, -0.0087,  ..., -0.1476,  0.1096,  0.0198]],
+       device='cuda:0'), grad: tensor([[ 2.6178e-04,  6.3610e-04,  7.4434e-04,  ...,  4.6277e-04,
+          3.3164e-04,  1.5192e-03],
+        [ 5.6684e-05,  3.2282e-04,  2.8777e-04,  ...,  2.1279e-05,
+          7.0870e-05,  6.2714e-03],
+        [ 3.5210e-03,  5.2185e-03,  3.1853e-03,  ...,  7.4272e-03,
+          1.9550e-04, -5.3864e-03],
+        ...,
+        [ 1.5087e-03,  3.6144e-03,  6.1493e-03,  ...,  1.0055e-04,
+          1.6365e-03,  2.9049e-03],
+        [ 1.0002e-02,  1.3596e-02, -4.1542e-03,  ...,  4.3321e-04,
+          5.1689e-04,  9.7466e-04],
+        [ 1.4091e-04, -2.1839e-03, -4.9629e-03,  ...,  5.4896e-05,
+         -1.5354e-03, -8.5592e-04]], device='cuda:0')
+Epoch 255, bias, value: tensor([ 0.0131,  0.0038,  0.0008,  0.0167, -0.0034, -0.0070,  0.0127,  0.0229,
+        -0.0343,  0.0440], device='cuda:0'), grad: tensor([-0.0041,  0.0228, -0.0259, -0.0320, -0.0329, -0.0150,  0.0253,  0.0411,
+         0.0251, -0.0044], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 254, time 216.32, cls_loss 0.5119 cls_loss_mapping 0.0058 cls_loss_causal 0.4796 re_mapping 0.0071 re_causal 0.0183 /// teacc 98.74 lr 0.00010000
+Epoch 256, weight, value: tensor([[-0.0743,  0.0632, -0.1012,  ..., -0.1087, -0.0950,  0.0057],
+        [-0.0651, -0.1374,  0.0015,  ..., -0.0568, -0.0468, -0.0900],
+        [ 0.0355, -0.0856,  0.0533,  ...,  0.1572, -0.1115, -0.0466],
+        ...,
+        [-0.0961, -0.1730,  0.0883,  ..., -0.0095, -0.0343,  0.0747],
+        [ 0.0193,  0.0352, -0.0264,  ..., -0.0873, -0.1005, -0.0119],
+        [-0.1477, -0.0065, -0.0068,  ..., -0.1476,  0.1102,  0.0196]],
+       device='cuda:0'), grad: tensor([[-3.8513e-02, -2.1759e-02,  3.0923e-04,  ...,  1.3952e-03,
+         -2.1229e-03, -1.8244e-03],
+        [ 1.0748e-03,  1.4563e-03,  1.9535e-05,  ...,  1.8254e-05,
+          1.1168e-03,  5.2404e-04],
+        [ 1.0319e-03,  1.2903e-03,  5.5313e-04,  ...,  1.1044e-03,
+          9.3651e-04,  2.9802e-04],
+        ...,
+        [ 4.5562e-04,  4.8876e-04,  1.0198e-04,  ...,  2.0289e-04,
+          5.1212e-04,  3.6907e-04],
+        [-5.1727e-03, -5.9662e-03, -5.9547e-03,  ..., -3.8776e-03,
+         -5.9128e-03, -3.3402e-04],
+        [ 3.8013e-03,  3.6316e-03,  5.3177e-03,  ...,  3.6755e-03,
+          5.0926e-03,  1.6451e-03]], device='cuda:0')
+Epoch 256, bias, value: tensor([ 0.0144,  0.0043,  0.0006,  0.0160, -0.0031, -0.0070,  0.0121,  0.0219,
+        -0.0346,  0.0450], device='cuda:0'), grad: tensor([-0.0435,  0.0192,  0.0128,  0.0169, -0.0222, -0.0058,  0.0453,  0.0085,
+        -0.0605,  0.0293], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 255, time 216.44, cls_loss 0.5151 cls_loss_mapping 0.0058 cls_loss_causal 0.4919 re_mapping 0.0074 re_causal 0.0189 /// teacc 98.83 lr 0.00010000
+Epoch 257, weight, value: tensor([[-0.0734,  0.0636, -0.1001,  ..., -0.1079, -0.0948,  0.0065],
+        [-0.0667, -0.1385,  0.0016,  ..., -0.0559, -0.0469, -0.0904],
+        [ 0.0352, -0.0861,  0.0518,  ...,  0.1567, -0.1130, -0.0475],
+        ...,
+        [-0.0963, -0.1727,  0.0897,  ..., -0.0099, -0.0337,  0.0749],
+        [ 0.0203,  0.0357, -0.0273,  ..., -0.0871, -0.1002, -0.0119],
+        [-0.1485, -0.0066, -0.0073,  ..., -0.1471,  0.1096,  0.0190]],
+       device='cuda:0'), grad: tensor([[ 6.6280e-04,  3.1757e-04,  9.2697e-04,  ...,  1.6534e-04,
+          1.1659e-04,  8.8310e-04],
+        [ 3.8958e-04,  9.2387e-05,  5.4979e-04,  ...,  8.1480e-05,
+          1.0908e-04,  4.5276e-04],
+        [-1.5373e-03,  3.8838e-04, -1.6212e-03,  ..., -3.4714e-03,
+          2.5153e-04,  6.5708e-04],
+        ...,
+        [-3.0684e-04, -1.5821e-03, -6.9797e-05,  ...,  1.7042e-03,
+          9.8705e-04, -2.1973e-03],
+        [-5.4283e-03,  1.1981e-04, -3.7975e-03,  ...,  9.6858e-05,
+         -5.3596e-04,  6.7139e-04],
+        [ 6.1893e-04,  2.4819e-04, -4.3831e-03,  ..., -4.7588e-04,
+         -5.2643e-03, -1.3981e-03]], device='cuda:0')
+Epoch 257, bias, value: tensor([ 0.0147,  0.0040,  0.0014,  0.0168, -0.0036, -0.0067,  0.0109,  0.0228,
+        -0.0345,  0.0438], device='cuda:0'), grad: tensor([ 0.0195,  0.0204, -0.0204, -0.0674,  0.0198,  0.0419,  0.0157,  0.0171,
+        -0.0217, -0.0248], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 256, time 216.52, cls_loss 0.4910 cls_loss_mapping 0.0042 cls_loss_causal 0.4631 re_mapping 0.0075 re_causal 0.0194 /// teacc 98.59 lr 0.00010000
+Epoch 258, weight, value: tensor([[-0.0749,  0.0636, -0.1004,  ..., -0.1079, -0.0951,  0.0057],
+        [-0.0656, -0.1383,  0.0032,  ..., -0.0557, -0.0461, -0.0888],
+        [ 0.0350, -0.0863,  0.0530,  ...,  0.1572, -0.1131, -0.0471],
+        ...,
+        [-0.0960, -0.1730,  0.0878,  ..., -0.0111, -0.0356,  0.0735],
+        [ 0.0204,  0.0357, -0.0261,  ..., -0.0865, -0.0995, -0.0117],
+        [-0.1481, -0.0058, -0.0084,  ..., -0.1471,  0.1097,  0.0192]],
+       device='cuda:0'), grad: tensor([[ 2.2471e-05, -1.2531e-03,  7.4267e-05,  ..., -9.7692e-05,
+          2.8944e-04,  3.6573e-04],
+        [ 1.2573e-06, -4.6015e-05,  1.3361e-03,  ...,  1.2740e-06,
+          8.2731e-04,  6.6614e-04],
+        [ 8.3521e-06,  1.0908e-04,  5.7936e-04,  ...,  2.4587e-06,
+          2.1100e-04,  2.6941e-04],
+        ...,
+        [ 3.7462e-05,  1.4532e-04, -1.8139e-03,  ...,  5.3318e-07,
+         -1.3590e-03,  6.3610e-04],
+        [ 1.8224e-05,  4.9973e-04, -2.0943e-03,  ...,  3.2902e-05,
+         -4.7135e-04, -2.1248e-03],
+        [-6.4278e-04, -1.6184e-03, -3.7556e-03,  ...,  2.1771e-05,
+         -3.8624e-03, -5.6610e-03]], device='cuda:0')
+Epoch 258, bias, value: tensor([ 0.0146,  0.0041,  0.0016,  0.0161, -0.0038, -0.0070,  0.0115,  0.0220,
+        -0.0344,  0.0447], device='cuda:0'), grad: tensor([-0.0213,  0.0054,  0.0219,  0.0257,  0.0291,  0.0198, -0.0125, -0.0075,
+        -0.0360, -0.0246], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 257, time 217.13, cls_loss 0.4977 cls_loss_mapping 0.0033 cls_loss_causal 0.4728 re_mapping 0.0074 re_causal 0.0184 /// teacc 98.77 lr 0.00010000
+Epoch 259, weight, value: tensor([[-0.0743,  0.0646, -0.1011,  ..., -0.1093, -0.0961,  0.0067],
+        [-0.0662, -0.1388,  0.0022,  ..., -0.0566, -0.0468, -0.0896],
+        [ 0.0346, -0.0864,  0.0528,  ...,  0.1565, -0.1133, -0.0477],
+        ...,
+        [-0.0959, -0.1716,  0.0887,  ..., -0.0110, -0.0351,  0.0736],
+        [ 0.0201,  0.0348, -0.0265,  ..., -0.0858, -0.0997, -0.0125],
+        [-0.1488, -0.0060, -0.0088,  ..., -0.1472,  0.1093,  0.0186]],
+       device='cuda:0'), grad: tensor([[ 6.7532e-05,  4.3839e-05, -6.7997e-04,  ...,  7.7820e-04,
+          2.4033e-04,  6.1941e-04],
+        [ 8.8155e-05,  7.1406e-05,  6.6900e-04,  ...,  4.1932e-05,
+          4.6706e-04,  2.1553e-03],
+        [ 1.4889e-04,  8.7857e-05,  3.8767e-04,  ...,  1.4734e-04,
+          5.1451e-04,  2.7637e-03],
+        ...,
+        [ 4.0698e-04, -2.2907e-03, -1.1833e-02,  ...,  1.6034e-04,
+         -2.2964e-03,  3.1490e-03],
+        [ 1.0794e-04, -9.8124e-06,  6.5470e-04,  ...,  1.2767e-04,
+          7.5197e-04,  2.1400e-03],
+        [ 3.1471e-04,  2.6474e-03,  1.3489e-02,  ...,  3.6389e-05,
+          4.2076e-03, -7.6790e-03]], device='cuda:0')
+Epoch 259, bias, value: tensor([ 0.0148,  0.0032,  0.0011,  0.0167, -0.0028, -0.0075,  0.0114,  0.0227,
+        -0.0350,  0.0447], device='cuda:0'), grad: tensor([-0.0124,  0.0202, -0.0108, -0.0383,  0.0227,  0.0124, -0.0237, -0.0321,
+         0.0176,  0.0444], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 258, time 216.39, cls_loss 0.5075 cls_loss_mapping 0.0047 cls_loss_causal 0.4874 re_mapping 0.0074 re_causal 0.0189 /// teacc 98.68 lr 0.00010000
+Epoch 260, weight, value: tensor([[-0.0747,  0.0641, -0.1015,  ..., -0.1103, -0.0982,  0.0060],
+        [-0.0674, -0.1391,  0.0019,  ..., -0.0567, -0.0455, -0.0888],
+        [ 0.0343, -0.0860,  0.0515,  ...,  0.1563, -0.1128, -0.0482],
+        ...,
+        [-0.0964, -0.1724,  0.0896,  ..., -0.0102, -0.0343,  0.0745],
+        [ 0.0200,  0.0343, -0.0269,  ..., -0.0863, -0.1006, -0.0151],
+        [-0.1476, -0.0056, -0.0091,  ..., -0.1475,  0.1092,  0.0190]],
+       device='cuda:0'), grad: tensor([[ 2.6631e-04,  4.7207e-04,  4.1246e-04,  ...,  2.4021e-04,
+          3.5673e-05,  5.4216e-04],
+        [ 6.5975e-06,  1.0654e-05,  2.0123e-03,  ...,  2.7370e-04,
+          4.8220e-05,  4.1389e-04],
+        [ 4.6968e-05,  5.3614e-05, -2.2373e-03,  ..., -3.4499e-04,
+          5.6803e-05, -1.7433e-03],
+        ...,
+        [ 1.1973e-05,  5.1737e-05,  2.5024e-03,  ...,  3.8505e-04,
+          6.5613e-04,  1.2350e-03],
+        [ 4.6462e-05,  1.3828e-04, -2.3842e-03,  ...,  2.1422e-04,
+          5.4479e-05,  3.7980e-04],
+        [ 4.0829e-05,  1.0121e-04, -8.9645e-04,  ...,  2.5368e-04,
+          1.4651e-04, -5.9080e-04]], device='cuda:0')
+Epoch 260, bias, value: tensor([ 0.0143,  0.0037,  0.0007,  0.0162, -0.0037, -0.0063,  0.0119,  0.0240,
+        -0.0355,  0.0443], device='cuda:0'), grad: tensor([ 0.0229,  0.0433, -0.0333, -0.0100, -0.0085,  0.0179, -0.0071,  0.0090,
+        -0.0013, -0.0330], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 259, time 216.46, cls_loss 0.5479 cls_loss_mapping 0.0065 cls_loss_causal 0.5216 re_mapping 0.0072 re_causal 0.0177 /// teacc 98.77 lr 0.00010000
+Epoch 261, weight, value: tensor([[-0.0742,  0.0641, -0.1027,  ..., -0.1106, -0.0982,  0.0069],
+        [-0.0674, -0.1397,  0.0024,  ..., -0.0566, -0.0453, -0.0889],
+        [ 0.0346, -0.0861,  0.0507,  ...,  0.1560, -0.1129, -0.0491],
+        ...,
+        [-0.0989, -0.1734,  0.0901,  ..., -0.0100, -0.0354,  0.0741],
+        [ 0.0202,  0.0333, -0.0264,  ..., -0.0864, -0.0997, -0.0149],
+        [-0.1486, -0.0051, -0.0083,  ..., -0.1477,  0.1087,  0.0198]],
+       device='cuda:0'), grad: tensor([[-3.2692e-03, -5.2223e-03,  4.5919e-04,  ...,  1.3399e-04,
+          2.5138e-05, -3.0804e-04],
+        [ 2.6774e-04,  1.1116e-04,  1.1520e-03,  ...,  6.0225e-04,
+          3.7640e-05,  7.8392e-04],
+        [ 7.3147e-04,  6.9284e-04, -9.7351e-03,  ..., -6.1393e-05,
+         -5.9624e-03, -5.2605e-03],
+        ...,
+        [ 3.8314e-04,  2.3055e-04,  6.6996e-04,  ...,  1.2197e-03,
+          5.1594e-04,  8.8167e-04],
+        [-4.9925e-04,  5.3138e-05,  2.5921e-03,  ...,  2.0492e-04,
+          1.2560e-03,  1.8177e-03],
+        [ 1.0872e-03,  1.1377e-03,  8.5983e-03,  ...,  2.1350e-04,
+          3.5248e-03,  7.1335e-04]], device='cuda:0')
+Epoch 261, bias, value: tensor([ 0.0139,  0.0038,  0.0008,  0.0165, -0.0051, -0.0071,  0.0126,  0.0241,
+        -0.0355,  0.0452], device='cuda:0'), grad: tensor([-0.0072, -0.0045, -0.0406, -0.0392,  0.0238,  0.0184, -0.0166,  0.0249,
+         0.0279,  0.0131], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 260, time 216.28, cls_loss 0.4879 cls_loss_mapping 0.0056 cls_loss_causal 0.4542 re_mapping 0.0074 re_causal 0.0184 /// teacc 98.62 lr 0.00010000
+Epoch 262, weight, value: tensor([[-0.0735,  0.0638, -0.1033,  ..., -0.1107, -0.0978,  0.0071],
+        [-0.0681, -0.1408,  0.0025,  ..., -0.0560, -0.0454, -0.0888],
+        [ 0.0336, -0.0864,  0.0527,  ...,  0.1557, -0.1112, -0.0482],
+        ...,
+        [-0.1008, -0.1731,  0.0884,  ..., -0.0102, -0.0363,  0.0733],
+        [ 0.0204,  0.0346, -0.0276,  ..., -0.0864, -0.0987, -0.0150],
+        [-0.1476, -0.0063, -0.0080,  ..., -0.1486,  0.1073,  0.0199]],
+       device='cuda:0'), grad: tensor([[-6.0768e-03, -5.3329e-03,  1.0548e-03,  ...,  1.8343e-05,
+          6.3848e-04, -4.6082e-03],
+        [ 6.3944e-04,  3.2139e-04,  1.4067e-03,  ...,  1.0341e-04,
+          1.3065e-03,  1.9026e-03],
+        [ 1.2875e-03,  8.8644e-04,  1.8969e-03,  ...,  1.2779e-04,
+          8.4019e-04,  2.0123e-03],
+        ...,
+        [ 9.9468e-04,  1.0233e-03,  9.3079e-04,  ...,  1.6785e-04,
+         -6.6710e-04, -1.1230e-04],
+        [-4.2820e-04, -5.2643e-03, -1.0002e-02,  ...,  5.1588e-05,
+         -8.3313e-03, -5.2490e-03],
+        [ 9.8896e-04,  4.2877e-03,  7.5417e-03,  ...,  3.7402e-05,
+          5.3062e-03,  3.6449e-03]], device='cuda:0')
+Epoch 262, bias, value: tensor([ 0.0142,  0.0035,  0.0011,  0.0174, -0.0049, -0.0069,  0.0119,  0.0237,
+        -0.0351,  0.0445], device='cuda:0'), grad: tensor([ 0.0004,  0.0056,  0.0316, -0.0092, -0.0364,  0.0140, -0.0074, -0.0038,
+        -0.0373,  0.0425], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 261, time 216.55, cls_loss 0.5148 cls_loss_mapping 0.0052 cls_loss_causal 0.4904 re_mapping 0.0072 re_causal 0.0173 /// teacc 98.79 lr 0.00010000
+Epoch 263, weight, value: tensor([[-0.0741,  0.0646, -0.1031,  ..., -0.1106, -0.0974,  0.0067],
+        [-0.0675, -0.1409,  0.0020,  ..., -0.0558, -0.0464, -0.0898],
+        [ 0.0333, -0.0866,  0.0522,  ...,  0.1559, -0.1117, -0.0484],
+        ...,
+        [-0.1013, -0.1735,  0.0883,  ..., -0.0105, -0.0369,  0.0725],
+        [ 0.0200,  0.0344, -0.0270,  ..., -0.0866, -0.0986, -0.0143],
+        [-0.1476, -0.0062, -0.0066,  ..., -0.1490,  0.1090,  0.0215]],
+       device='cuda:0'), grad: tensor([[-4.0436e-03, -7.6637e-03,  1.9588e-03,  ...,  1.2417e-03,
+          2.9445e-04,  6.8855e-04],
+        [ 4.7088e-04,  4.6015e-05, -3.9368e-03,  ...,  2.6703e-05,
+         -1.1215e-03, -4.2152e-03],
+        [ 4.3793e-03,  1.1659e-04,  2.2259e-03,  ...,  1.8988e-03,
+          5.6314e-04,  7.2193e-04],
+        ...,
+        [ 1.2159e-03,  6.3837e-05,  3.4676e-03,  ...,  9.1219e-04,
+          1.2407e-03,  3.0851e-04],
+        [ 3.4475e-04,  7.6532e-04, -2.6436e-03,  ...,  4.6730e-04,
+         -7.5340e-04,  2.1725e-03],
+        [ 1.5240e-03,  4.4966e-04,  8.9035e-03,  ...,  8.9121e-04,
+          3.3760e-03,  3.0174e-03]], device='cuda:0')
+Epoch 263, bias, value: tensor([ 0.0143,  0.0032,  0.0009,  0.0177, -0.0052, -0.0075,  0.0114,  0.0224,
+        -0.0342,  0.0460], device='cuda:0'), grad: tensor([-0.0276, -0.0662,  0.0104, -0.0353, -0.0374,  0.0241,  0.0485,  0.0334,
+        -0.0049,  0.0550], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 262, time 217.20, cls_loss 0.4679 cls_loss_mapping 0.0067 cls_loss_causal 0.4404 re_mapping 0.0070 re_causal 0.0169 /// teacc 98.83 lr 0.00010000
+Epoch 264, weight, value: tensor([[-0.0743,  0.0648, -0.1032,  ..., -0.1112, -0.0983,  0.0068],
+        [-0.0678, -0.1409,  0.0020,  ..., -0.0549, -0.0464, -0.0897],
+        [ 0.0340, -0.0864,  0.0530,  ...,  0.1566, -0.1134, -0.0484],
+        ...,
+        [-0.1008, -0.1720,  0.0890,  ..., -0.0117, -0.0356,  0.0725],
+        [ 0.0205,  0.0353, -0.0285,  ..., -0.0880, -0.0988, -0.0143],
+        [-0.1479, -0.0067, -0.0071,  ..., -0.1484,  0.1092,  0.0221]],
+       device='cuda:0'), grad: tensor([[ 7.1704e-05, -3.6788e-04,  3.7551e-04,  ..., -9.6202e-05,
+          2.1160e-04,  1.8919e-04],
+        [ 1.9121e-04,  3.4004e-05,  2.5177e-04,  ...,  2.1362e-04,
+          1.9884e-04,  2.9325e-04],
+        [-1.9860e-04, -4.2844e-04, -5.9080e-04,  ..., -5.7220e-04,
+          2.6679e-04,  3.7479e-04],
+        ...,
+        [ 2.3317e-04,  2.0370e-05,  1.8188e-02,  ...,  1.8430e-04,
+          5.8746e-03,  1.6251e-02],
+        [ 5.2595e-04,  1.5676e-04,  8.6498e-04,  ...,  3.2157e-05,
+          6.7234e-04,  7.6532e-04],
+        [-2.5570e-05, -4.0352e-05, -2.6917e-02,  ...,  2.3618e-05,
+         -2.9922e-02, -3.1891e-02]], device='cuda:0')
+Epoch 264, bias, value: tensor([ 0.0142,  0.0029,  0.0010,  0.0171, -0.0042, -0.0073,  0.0110,  0.0232,
+        -0.0344,  0.0457], device='cuda:0'), grad: tensor([-0.0092, -0.0053, -0.0126, -0.0355,  0.0107, -0.0094, -0.0076,  0.0600,
+         0.0253, -0.0166], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 263, time 217.17, cls_loss 0.4710 cls_loss_mapping 0.0038 cls_loss_causal 0.4488 re_mapping 0.0073 re_causal 0.0183 /// teacc 98.70 lr 0.00010000
+Epoch 265, weight, value: tensor([[-0.0742,  0.0643, -0.1031,  ..., -0.1096, -0.0984,  0.0068],
+        [-0.0688, -0.1418,  0.0011,  ..., -0.0554, -0.0459, -0.0900],
+        [ 0.0351, -0.0872,  0.0524,  ...,  0.1554, -0.1137, -0.0478],
+        ...,
+        [-0.1004, -0.1722,  0.0892,  ..., -0.0112, -0.0357,  0.0719],
+        [ 0.0204,  0.0358, -0.0285,  ..., -0.0864, -0.0989, -0.0142],
+        [-0.1486, -0.0073, -0.0072,  ..., -0.1487,  0.1089,  0.0215]],
+       device='cuda:0'), grad: tensor([[ 7.4005e-03,  1.6373e-02, -1.8101e-03,  ...,  1.0461e-05,
+         -2.9964e-03, -1.4305e-03],
+        [ 4.2534e-04,  1.0723e-04, -4.1270e-04,  ...,  1.3714e-03,
+          1.1528e-04, -1.4133e-03],
+        [-6.6185e-03,  2.8396e-04, -1.1435e-03,  ...,  5.6289e-06,
+          1.3423e-04,  1.0118e-03],
+        ...,
+        [ 1.3390e-03,  5.1594e-04,  3.0632e-03,  ...,  1.0785e-06,
+          1.2255e-03,  1.4019e-03],
+        [-6.2408e-03, -1.8524e-02,  1.5669e-03,  ...,  6.7689e-06,
+          8.0824e-04,  1.0729e-03],
+        [-8.1968e-04,  8.8310e-04,  2.4700e-03,  ...,  3.7160e-07,
+          8.6594e-04,  1.0424e-03]], device='cuda:0')
+Epoch 265, bias, value: tensor([ 0.0153,  0.0030,  0.0016,  0.0175, -0.0038, -0.0076,  0.0106,  0.0224,
+        -0.0350,  0.0454], device='cuda:0'), grad: tensor([ 0.0079, -0.0084, -0.0417,  0.0172, -0.0375,  0.0005,  0.0071,  0.0298,
+         0.0006,  0.0244], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 264, time 216.65, cls_loss 0.5110 cls_loss_mapping 0.0045 cls_loss_causal 0.4896 re_mapping 0.0072 re_causal 0.0183 /// teacc 98.74 lr 0.00010000
+Epoch 266, weight, value: tensor([[-0.0727,  0.0643, -0.1012,  ..., -0.1086, -0.0966,  0.0076],
+        [-0.0691, -0.1418,  0.0003,  ..., -0.0560, -0.0465, -0.0901],
+        [ 0.0348, -0.0865,  0.0531,  ...,  0.1554, -0.1134, -0.0482],
+        ...,
+        [-0.1012, -0.1726,  0.0891,  ..., -0.0127, -0.0362,  0.0718],
+        [ 0.0214,  0.0382, -0.0291,  ..., -0.0861, -0.0999, -0.0158],
+        [-0.1491, -0.0083, -0.0078,  ..., -0.1481,  0.1095,  0.0217]],
+       device='cuda:0'), grad: tensor([[-3.0537e-03, -2.0580e-03, -1.6136e-03,  ..., -8.4400e-04,
+         -1.4801e-03, -2.3308e-03],
+        [ 4.1628e-04,  3.2926e-04,  1.0252e-03,  ...,  1.6749e-04,
+          3.8075e-04,  9.4461e-04],
+        [-8.4839e-03,  4.8208e-04,  3.6645e-04,  ..., -6.2418e-04,
+          2.8300e-04,  9.0933e-04],
+        ...,
+        [ 7.1192e-04, -6.7949e-04, -1.0284e-02,  ...,  1.8287e-04,
+         -1.4467e-03, -4.7379e-03],
+        [ 3.3379e-03, -4.2605e-04,  2.5392e-04,  ...,  5.2929e-04,
+          8.7261e-05, -3.0565e-04],
+        [-1.3649e-04,  4.0627e-04,  4.0932e-03,  ...,  8.0967e-04,
+          1.3027e-03,  2.1114e-03]], device='cuda:0')
+Epoch 266, bias, value: tensor([ 0.0168,  0.0027,  0.0016,  0.0169, -0.0042, -0.0067,  0.0100,  0.0222,
+        -0.0350,  0.0453], device='cuda:0'), grad: tensor([-0.0457,  0.0179, -0.0096,  0.0203,  0.0172,  0.0293,  0.0156, -0.0386,
+        -0.0019, -0.0044], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 265, time 216.87, cls_loss 0.4993 cls_loss_mapping 0.0048 cls_loss_causal 0.4708 re_mapping 0.0072 re_causal 0.0179 /// teacc 98.83 lr 0.00010000
+Epoch 267, weight, value: tensor([[-7.2752e-02,  6.5027e-02, -1.0135e-01,  ..., -1.0890e-01,
+         -9.7826e-02,  7.2279e-03],
+        [-7.0749e-02, -1.4266e-01, -1.5249e-04,  ..., -5.6530e-02,
+         -4.6439e-02, -8.9667e-02],
+        [ 3.6627e-02, -8.6513e-02,  5.3497e-02,  ...,  1.5643e-01,
+         -1.1317e-01, -4.7342e-02],
+        ...,
+        [-1.0193e-01, -1.7195e-01,  8.8295e-02,  ..., -1.3229e-02,
+         -3.6909e-02,  7.1158e-02],
+        [ 2.0295e-02,  3.7046e-02, -2.7305e-02,  ..., -8.5798e-02,
+         -1.0029e-01, -1.6967e-02],
+        [-1.4924e-01, -7.8893e-03, -7.2194e-03,  ..., -1.4763e-01,
+          1.0989e-01,  2.2084e-02]], device='cuda:0'), grad: tensor([[ 2.8191e-03,  1.2177e-02,  2.8348e-04,  ...,  2.9616e-07,
+          5.1498e-04,  2.5511e-04],
+        [-3.2215e-03, -2.0504e-03,  3.5048e-04,  ...,  1.7369e-07,
+          1.1444e-04, -4.0054e-03],
+        [ 3.3283e-04,  9.7322e-04,  3.3259e-04,  ..., -3.3915e-05,
+          3.1805e-04,  2.8133e-04],
+        ...,
+        [ 1.8132e-04,  8.0287e-05,  2.2831e-03,  ...,  3.1328e-04,
+          1.4610e-03,  1.0595e-03],
+        [ 2.6474e-03,  1.9569e-03,  2.6941e-04,  ...,  1.6084e-06,
+          6.8474e-04,  3.5477e-03],
+        [ 2.6464e-04,  3.6764e-04, -2.1877e-03,  ..., -3.3832e-04,
+         -1.3819e-03, -3.9792e-04]], device='cuda:0')
+Epoch 267, bias, value: tensor([ 0.0166,  0.0030,  0.0021,  0.0168, -0.0049, -0.0069,  0.0104,  0.0221,
+        -0.0346,  0.0450], device='cuda:0'), grad: tensor([ 0.0070,  0.0055,  0.0177, -0.0339, -0.0097, -0.0148,  0.0188, -0.0132,
+         0.0388, -0.0163], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 266, time 216.73, cls_loss 0.5264 cls_loss_mapping 0.0040 cls_loss_causal 0.4996 re_mapping 0.0070 re_causal 0.0178 /// teacc 98.83 lr 0.00010000
+Epoch 268, weight, value: tensor([[-0.0727,  0.0660, -0.1007,  ..., -0.1086, -0.0971,  0.0072],
+        [-0.0711, -0.1436, -0.0011,  ..., -0.0558, -0.0480, -0.0906],
+        [ 0.0354, -0.0888,  0.0531,  ...,  0.1562, -0.1135, -0.0482],
+        ...,
+        [-0.1019, -0.1716,  0.0887,  ..., -0.0132, -0.0373,  0.0716],
+        [ 0.0219,  0.0368, -0.0280,  ..., -0.0858, -0.1008, -0.0174],
+        [-0.1494, -0.0078, -0.0070,  ..., -0.1479,  0.1105,  0.0224]],
+       device='cuda:0'), grad: tensor([[ 3.7842e-03,  6.9466e-03,  9.3746e-04,  ...,  1.7195e-03,
+          9.0647e-04,  1.0977e-03],
+        [ 7.4089e-05, -4.1747e-04, -4.6778e-04,  ...,  3.2276e-05,
+         -1.1654e-03, -5.3549e-04],
+        [-1.1040e-02, -1.0254e-02,  1.9989e-03,  ...,  6.3210e-03,
+         -4.1809e-03,  1.9369e-03],
+        ...,
+        [ 1.3590e-03,  8.7738e-04, -3.2997e-03,  ...,  3.8087e-05,
+          4.4155e-04, -3.0804e-03],
+        [ 2.9678e-03,  2.4662e-03,  5.4359e-04,  ...,  3.4547e-04,
+          1.2341e-03,  8.4543e-04],
+        [ 2.6417e-03,  2.2774e-03,  5.1918e-03,  ...,  4.8429e-05,
+          1.8682e-03,  4.9324e-03]], device='cuda:0')
+Epoch 268, bias, value: tensor([ 0.0160,  0.0033,  0.0016,  0.0162, -0.0049, -0.0067,  0.0110,  0.0231,
+        -0.0362,  0.0460], device='cuda:0'), grad: tensor([ 0.0334, -0.0307,  0.0079, -0.0316, -0.0075, -0.0094, -0.0590,  0.0396,
+         0.0215,  0.0357], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 267, time 217.06, cls_loss 0.4872 cls_loss_mapping 0.0039 cls_loss_causal 0.4549 re_mapping 0.0071 re_causal 0.0173 /// teacc 98.82 lr 0.00010000
+Epoch 269, weight, value: tensor([[-0.0735,  0.0662, -0.1007,  ..., -0.1088, -0.0966,  0.0081],
+        [-0.0720, -0.1440, -0.0008,  ..., -0.0559, -0.0473, -0.0906],
+        [ 0.0363, -0.0882,  0.0537,  ...,  0.1570, -0.1130, -0.0486],
+        ...,
+        [-0.1015, -0.1736,  0.0881,  ..., -0.0131, -0.0371,  0.0728],
+        [ 0.0230,  0.0361, -0.0283,  ..., -0.0852, -0.1014, -0.0171],
+        [-0.1488, -0.0076, -0.0065,  ..., -0.1490,  0.1100,  0.0217]],
+       device='cuda:0'), grad: tensor([[ 1.0742e-02,  1.5930e-02,  1.1110e-03,  ..., -2.3282e-04,
+          4.9877e-04, -8.8549e-04],
+        [-4.9639e-04,  2.4962e-04,  6.0940e-04,  ...,  4.5029e-07,
+         -3.0441e-03, -2.6073e-03],
+        [ 1.1435e-03,  1.9951e-03,  1.0128e-03,  ..., -5.5879e-05,
+          6.6328e-04,  1.7643e-03],
+        ...,
+        [ 7.6866e-04,  1.3018e-03, -4.4975e-03,  ...,  2.5146e-06,
+          6.7234e-04, -3.3607e-03],
+        [ 2.0695e-03,  1.3626e-04, -5.0783e-04,  ...,  1.1766e-04,
+          3.0947e-04,  9.8705e-04],
+        [ 1.9445e-03,  3.2024e-03,  2.5444e-03,  ...,  1.1874e-06,
+          1.8559e-03,  4.0054e-03]], device='cuda:0')
+Epoch 269, bias, value: tensor([ 0.0161,  0.0034,  0.0014,  0.0166, -0.0043, -0.0075,  0.0101,  0.0225,
+        -0.0356,  0.0465], device='cuda:0'), grad: tensor([-0.0027, -0.0030,  0.0202, -0.0003,  0.0200, -0.0345,  0.0102, -0.0398,
+        -0.0059,  0.0357], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 268, time 216.75, cls_loss 0.4834 cls_loss_mapping 0.0036 cls_loss_causal 0.4585 re_mapping 0.0074 re_causal 0.0194 /// teacc 98.92 lr 0.00010000
+Epoch 270, weight, value: tensor([[-0.0743,  0.0652, -0.0995,  ..., -0.1080, -0.0977,  0.0077],
+        [-0.0721, -0.1448, -0.0003,  ..., -0.0556, -0.0470, -0.0916],
+        [ 0.0365, -0.0881,  0.0533,  ...,  0.1564, -0.1134, -0.0486],
+        ...,
+        [-0.1014, -0.1735,  0.0879,  ..., -0.0130, -0.0371,  0.0721],
+        [ 0.0233,  0.0367, -0.0288,  ..., -0.0850, -0.1019, -0.0166],
+        [-0.1487, -0.0067, -0.0058,  ..., -0.1505,  0.1108,  0.0223]],
+       device='cuda:0'), grad: tensor([[-1.0635e-02, -1.4000e-02, -3.6621e-03,  ..., -2.3346e-03,
+         -7.4434e-04, -1.4477e-03],
+        [ 6.8069e-05,  2.4390e-04,  1.8001e-04,  ...,  2.5511e-05,
+         -5.3436e-05,  4.9305e-04],
+        [ 2.9049e-03,  2.7370e-03,  2.7103e-03,  ...,  1.3456e-03,
+          1.3566e-04,  1.2445e-03],
+        ...,
+        [ 3.1567e-03,  5.6791e-04,  5.5923e-03,  ...,  8.4639e-04,
+          7.0190e-04,  2.0828e-03],
+        [-8.8043e-03, -5.4550e-03, -7.3204e-03,  ..., -4.3750e-04,
+         -3.6865e-05, -1.6479e-03],
+        [ 3.2687e-04,  7.4816e-04, -4.8685e-04,  ...,  6.6662e-04,
+         -6.9523e-04, -4.4274e-04]], device='cuda:0')
+Epoch 270, bias, value: tensor([ 0.0164,  0.0034,  0.0016,  0.0166, -0.0038, -0.0074,  0.0091,  0.0226,
+        -0.0348,  0.0456], device='cuda:0'), grad: tensor([-0.0361,  0.0085,  0.0254,  0.0629,  0.0124, -0.0626,  0.0089,  0.0285,
+        -0.0584,  0.0105], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 269, time 217.01, cls_loss 0.4902 cls_loss_mapping 0.0037 cls_loss_causal 0.4628 re_mapping 0.0068 re_causal 0.0179 /// teacc 98.84 lr 0.00010000
+Epoch 271, weight, value: tensor([[-0.0741,  0.0661, -0.0995,  ..., -0.1081, -0.0978,  0.0084],
+        [-0.0723, -0.1453, -0.0011,  ..., -0.0557, -0.0471, -0.0924],
+        [ 0.0360, -0.0892,  0.0545,  ...,  0.1574, -0.1125, -0.0491],
+        ...,
+        [-0.1014, -0.1721,  0.0878,  ..., -0.0123, -0.0378,  0.0731],
+        [ 0.0224,  0.0366, -0.0298,  ..., -0.0856, -0.1031, -0.0178],
+        [-0.1479, -0.0083, -0.0064,  ..., -0.1518,  0.1103,  0.0214]],
+       device='cuda:0'), grad: tensor([[-2.2240e-03, -3.9101e-03,  6.4898e-04,  ...,  1.1587e-04,
+          1.3506e-04,  5.3787e-04],
+        [ 1.1218e-04, -3.8791e-04,  4.3321e-04,  ...,  1.2314e-04,
+          7.4387e-05,  5.5647e-04],
+        [ 1.6890e-03,  1.8559e-03, -1.6451e-05,  ...,  1.3733e-03,
+          1.5154e-03, -1.8835e-03],
+        ...,
+        [ 6.3181e-04,  5.8603e-04, -5.0116e-04,  ...,  3.4785e-04,
+          1.4770e-04,  8.1837e-05],
+        [-9.4299e-03, -6.5002e-03, -2.9469e-03,  ..., -2.9163e-03,
+         -1.2655e-03, -2.4281e-03],
+        [ 7.6675e-04,  5.0974e-04,  2.3499e-03,  ...,  4.1556e-04,
+         -2.1000e-03,  1.5888e-03]], device='cuda:0')
+Epoch 271, bias, value: tensor([ 0.0152,  0.0028,  0.0014,  0.0162, -0.0035, -0.0065,  0.0108,  0.0232,
+        -0.0342,  0.0440], device='cuda:0'), grad: tensor([ 0.0013, -0.0217, -0.0176, -0.0031,  0.0083,  0.0204,  0.0185,  0.0118,
+        -0.0228,  0.0049], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 270, time 216.61, cls_loss 0.5168 cls_loss_mapping 0.0030 cls_loss_causal 0.4858 re_mapping 0.0070 re_causal 0.0179 /// teacc 98.64 lr 0.00010000
+Epoch 272, weight, value: tensor([[-0.0745,  0.0659, -0.1000,  ..., -0.1096, -0.0966,  0.0084],
+        [-0.0714, -0.1452, -0.0010,  ..., -0.0551, -0.0455, -0.0921],
+        [ 0.0359, -0.0887,  0.0546,  ...,  0.1583, -0.1126, -0.0485],
+        ...,
+        [-0.1014, -0.1726,  0.0881,  ..., -0.0125, -0.0381,  0.0729],
+        [ 0.0230,  0.0369, -0.0303,  ..., -0.0849, -0.1038, -0.0184],
+        [-0.1474, -0.0085, -0.0061,  ..., -0.1524,  0.1101,  0.0214]],
+       device='cuda:0'), grad: tensor([[-2.8000e-03, -1.2192e-02,  8.2970e-04,  ..., -1.8234e-03,
+          5.1355e-04,  1.5116e-03],
+        [ 6.6996e-05,  2.1017e-04, -2.2278e-03,  ..., -7.1526e-04,
+         -2.5826e-03, -4.4250e-03],
+        [ 5.2166e-04,  1.5461e-04,  9.9792e-03,  ...,  3.7155e-03,
+          5.7173e-04,  2.7046e-03],
+        ...,
+        [-4.6425e-03,  4.5359e-05, -1.9485e-02,  ..., -2.8629e-03,
+         -3.0785e-03, -1.0010e-02],
+        [ 7.6294e-04,  1.1845e-03,  1.6079e-03,  ...,  4.2605e-04,
+          8.2636e-04,  1.5984e-03],
+        [ 7.8154e-04,  4.0770e-04,  2.3880e-03,  ...,  4.5037e-04,
+          1.2274e-03,  3.7289e-03]], device='cuda:0')
+Epoch 272, bias, value: tensor([ 0.0141,  0.0035,  0.0007,  0.0157, -0.0033, -0.0058,  0.0114,  0.0229,
+        -0.0350,  0.0450], device='cuda:0'), grad: tensor([-0.0069, -0.0352,  0.0342, -0.0121,  0.0445, -0.0013,  0.0321, -0.0768,
+        -0.0078,  0.0292], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 271, time 216.98, cls_loss 0.5328 cls_loss_mapping 0.0046 cls_loss_causal 0.5130 re_mapping 0.0070 re_causal 0.0189 /// teacc 98.73 lr 0.00010000
+Epoch 273, weight, value: tensor([[-0.0748,  0.0670, -0.1012,  ..., -0.1097, -0.0965,  0.0073],
+        [-0.0721, -0.1442, -0.0011,  ..., -0.0563, -0.0445, -0.0926],
+        [ 0.0354, -0.0893,  0.0543,  ...,  0.1583, -0.1133, -0.0480],
+        ...,
+        [-0.1009, -0.1736,  0.0883,  ..., -0.0126, -0.0397,  0.0729],
+        [ 0.0234,  0.0361, -0.0311,  ..., -0.0860, -0.1044, -0.0177],
+        [-0.1473, -0.0088, -0.0061,  ..., -0.1522,  0.1099,  0.0213]],
+       device='cuda:0'), grad: tensor([[ 6.7234e-04,  7.2098e-04,  7.9215e-05,  ...,  4.6613e-07,
+          3.0637e-05,  1.4887e-03],
+        [ 1.1367e-04,  7.3910e-05,  2.4959e-05,  ...,  1.6196e-06,
+          8.1211e-06,  5.6000e-03],
+        [-2.0920e-02, -3.8025e-02,  1.9705e-04,  ..., -4.6287e-07,
+          4.7952e-05,  1.4954e-03],
+        ...,
+        [ 6.2799e-04,  3.0088e-04,  5.3978e-04,  ..., -4.1164e-06,
+          9.9182e-05, -8.8501e-03],
+        [ 1.0042e-03, -1.0979e-02,  3.9411e-04,  ...,  4.3176e-06,
+          8.3566e-05,  2.3689e-03],
+        [ 3.8910e-04,  2.6798e-04, -6.3241e-05,  ...,  1.9390e-06,
+         -1.3418e-03,  9.0265e-04]], device='cuda:0')
+Epoch 273, bias, value: tensor([ 0.0143,  0.0035, -0.0003,  0.0158, -0.0035, -0.0052,  0.0107,  0.0226,
+        -0.0343,  0.0457], device='cuda:0'), grad: tensor([ 0.0122,  0.0225, -0.0183, -0.0050,  0.0134, -0.0405,  0.0701, -0.0156,
+        -0.0421,  0.0034], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 272, time 216.94, cls_loss 0.5042 cls_loss_mapping 0.0042 cls_loss_causal 0.4810 re_mapping 0.0071 re_causal 0.0186 /// teacc 98.86 lr 0.00010000
+Epoch 274, weight, value: tensor([[-0.0748,  0.0668, -0.1012,  ..., -0.1096, -0.0955,  0.0080],
+        [-0.0715, -0.1443, -0.0003,  ..., -0.0553, -0.0447, -0.0929],
+        [ 0.0356, -0.0885,  0.0541,  ...,  0.1579, -0.1124, -0.0482],
+        ...,
+        [-0.1010, -0.1743,  0.0893,  ..., -0.0126, -0.0406,  0.0726],
+        [ 0.0237,  0.0367, -0.0319,  ..., -0.0865, -0.1057, -0.0194],
+        [-0.1480, -0.0098, -0.0064,  ..., -0.1531,  0.1117,  0.0223]],
+       device='cuda:0'), grad: tensor([[ 3.3951e-04,  5.8031e-04,  5.1498e-04,  ...,  2.5868e-04,
+          8.4782e-04,  2.0065e-03],
+        [ 6.2644e-05, -3.5954e-04, -2.3880e-03,  ...,  9.0718e-05,
+         -2.6870e-04,  3.8552e-04],
+        [ 3.6508e-05,  1.8990e-04,  1.5628e-04,  ..., -9.2888e-04,
+          1.2964e-05,  9.8038e-04],
+        ...,
+        [ 2.3335e-05,  3.0351e-04,  1.2598e-03,  ...,  3.8576e-04,
+          7.6723e-04, -3.3531e-03],
+        [ 3.9744e-04,  6.7043e-04,  4.4942e-04,  ...,  5.1826e-05,
+          9.7513e-04,  2.0714e-03],
+        [-1.5092e-04, -1.2484e-03, -3.8290e-04,  ...,  1.0614e-03,
+         -1.7405e-03, -4.9515e-03]], device='cuda:0')
+Epoch 274, bias, value: tensor([ 0.0154,  0.0039, -0.0006,  0.0157, -0.0040, -0.0043,  0.0091,  0.0228,
+        -0.0344,  0.0457], device='cuda:0'), grad: tensor([ 0.0211, -0.0161,  0.0112,  0.0276, -0.0202,  0.0004,  0.0195, -0.0443,
+         0.0155, -0.0147], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 273, time 217.14, cls_loss 0.4833 cls_loss_mapping 0.0034 cls_loss_causal 0.4624 re_mapping 0.0065 re_causal 0.0165 /// teacc 98.84 lr 0.00010000
+Epoch 275, weight, value: tensor([[-0.0758,  0.0665, -0.1026,  ..., -0.1114, -0.0965,  0.0071],
+        [-0.0710, -0.1428, -0.0004,  ..., -0.0558, -0.0444, -0.0935],
+        [ 0.0356, -0.0882,  0.0539,  ...,  0.1576, -0.1134, -0.0491],
+        ...,
+        [-0.1012, -0.1764,  0.0899,  ..., -0.0125, -0.0407,  0.0722],
+        [ 0.0232,  0.0367, -0.0311,  ..., -0.0862, -0.1050, -0.0191],
+        [-0.1475, -0.0091, -0.0068,  ..., -0.1541,  0.1120,  0.0220]],
+       device='cuda:0'), grad: tensor([[-0.0014, -0.0035, -0.0025,  ..., -0.0030, -0.0018, -0.0003],
+        [ 0.0003,  0.0004,  0.0003,  ...,  0.0002,  0.0003,  0.0006],
+        [-0.0061,  0.0007,  0.0002,  ..., -0.0038,  0.0003,  0.0002],
+        ...,
+        [ 0.0001,  0.0002,  0.0003,  ...,  0.0002,  0.0004, -0.0001],
+        [ 0.0049,  0.0018,  0.0017,  ...,  0.0034,  0.0016,  0.0014],
+        [ 0.0002, -0.0003, -0.0115,  ...,  0.0004, -0.0131, -0.0149]],
+       device='cuda:0')
+Epoch 275, bias, value: tensor([ 0.0145,  0.0036, -0.0007,  0.0154, -0.0034, -0.0051,  0.0095,  0.0232,
+        -0.0329,  0.0450], device='cuda:0'), grad: tensor([-0.0088,  0.0157, -0.0325,  0.0167,  0.0319,  0.0117, -0.0251,  0.0119,
+         0.0297, -0.0512], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 274, time 216.66, cls_loss 0.5281 cls_loss_mapping 0.0042 cls_loss_causal 0.5011 re_mapping 0.0066 re_causal 0.0169 /// teacc 98.85 lr 0.00010000
+Epoch 276, weight, value: tensor([[-0.0764,  0.0668, -0.1020,  ..., -0.1115, -0.0965,  0.0076],
+        [-0.0706, -0.1436, -0.0009,  ..., -0.0560, -0.0438, -0.0936],
+        [ 0.0355, -0.0880,  0.0532,  ...,  0.1559, -0.1141, -0.0485],
+        ...,
+        [-0.1018, -0.1783,  0.0907,  ..., -0.0124, -0.0412,  0.0725],
+        [ 0.0227,  0.0354, -0.0305,  ..., -0.0841, -0.1053, -0.0181],
+        [-0.1478, -0.0090, -0.0078,  ..., -0.1562,  0.1116,  0.0217]],
+       device='cuda:0'), grad: tensor([[ 3.1352e-05,  6.3848e-04,  1.6079e-03,  ...,  2.0397e-04,
+          8.8692e-04,  1.7204e-03],
+        [ 2.6017e-05,  1.6069e-04,  9.3460e-04,  ...,  1.8430e-04,
+          9.0694e-04,  1.8559e-03],
+        [-7.5035e-03, -5.1041e-03,  3.4428e-03,  ..., -6.9084e-03,
+          6.7043e-04, -2.2354e-03],
+        ...,
+        [ 2.4915e-04,  1.0357e-03,  1.2598e-03,  ...,  7.5579e-04,
+          2.2590e-04,  1.1845e-03],
+        [ 9.9487e-03,  1.1070e-02,  6.0005e-03,  ...,  5.5504e-03,
+          1.1797e-03,  4.5967e-03],
+        [ 2.9668e-05, -8.3923e-04, -3.6240e-03,  ...,  5.2357e-04,
+         -4.7150e-03, -7.6256e-03]], device='cuda:0')
+Epoch 276, bias, value: tensor([ 0.0142,  0.0038, -0.0006,  0.0155, -0.0029, -0.0037,  0.0092,  0.0229,
+        -0.0335,  0.0443], device='cuda:0'), grad: tensor([ 0.0173,  0.0213,  0.0040, -0.0253,  0.0270, -0.0331, -0.0197, -0.0341,
+         0.0484, -0.0058], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 275, time 216.71, cls_loss 0.5221 cls_loss_mapping 0.0046 cls_loss_causal 0.5008 re_mapping 0.0066 re_causal 0.0172 /// teacc 98.85 lr 0.00010000
+Epoch 277, weight, value: tensor([[-0.0772,  0.0671, -0.1027,  ..., -0.1120, -0.0981,  0.0058],
+        [-0.0699, -0.1445, -0.0007,  ..., -0.0566, -0.0442, -0.0937],
+        [ 0.0352, -0.0882,  0.0543,  ...,  0.1569, -0.1146, -0.0481],
+        ...,
+        [-0.1007, -0.1773,  0.0910,  ..., -0.0121, -0.0399,  0.0740],
+        [ 0.0224,  0.0352, -0.0301,  ..., -0.0847, -0.1049, -0.0180],
+        [-0.1490, -0.0097, -0.0094,  ..., -0.1570,  0.1109,  0.0204]],
+       device='cuda:0'), grad: tensor([[ 1.0252e-03,  1.0176e-03,  3.6120e-04,  ...,  7.4029e-05,
+          5.1832e-04,  1.3399e-03],
+        [ 5.1260e-05,  1.4019e-04,  7.1478e-04,  ...,  2.3972e-06,
+          1.5841e-03,  3.7308e-03],
+        [ 7.0610e-03,  4.7455e-03,  4.0030e-04,  ...,  3.3617e-04,
+         -3.7432e-04, -1.2617e-03],
+        ...,
+        [ 4.5896e-05,  5.3072e-04,  1.9207e-03,  ...,  6.8367e-05,
+          2.5387e-03,  4.2686e-03],
+        [ 3.1624e-03,  1.6470e-03, -2.1591e-02,  ..., -1.4648e-02,
+         -4.9820e-03,  6.5155e-03],
+        [ 2.4343e-04, -3.0518e-04,  1.8341e-02,  ...,  1.4305e-02,
+          5.1842e-03, -9.6359e-03]], device='cuda:0')
+Epoch 277, bias, value: tensor([ 0.0130,  0.0038, -0.0017,  0.0163, -0.0030, -0.0049,  0.0121,  0.0236,
+        -0.0339,  0.0439], device='cuda:0'), grad: tensor([ 0.0176,  0.0258, -0.0021, -0.0269, -0.0029,  0.0221, -0.0151,  0.0107,
+        -0.0021, -0.0270], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 276, time 216.62, cls_loss 0.5046 cls_loss_mapping 0.0035 cls_loss_causal 0.4762 re_mapping 0.0075 re_causal 0.0192 /// teacc 98.90 lr 0.00010000
+Epoch 278, weight, value: tensor([[-0.0775,  0.0675, -0.1036,  ..., -0.1128, -0.0992,  0.0054],
+        [-0.0693, -0.1442, -0.0009,  ..., -0.0577, -0.0449, -0.0937],
+        [ 0.0359, -0.0879,  0.0540,  ...,  0.1567, -0.1144, -0.0471],
+        ...,
+        [-0.1016, -0.1784,  0.0908,  ..., -0.0117, -0.0410,  0.0740],
+        [ 0.0223,  0.0351, -0.0294,  ..., -0.0839, -0.1044, -0.0187],
+        [-0.1507, -0.0095, -0.0087,  ..., -0.1577,  0.1129,  0.0218]],
+       device='cuda:0'), grad: tensor([[ 2.9802e-04, -2.9778e-04,  2.9492e-04,  ...,  7.7105e-04,
+          8.8215e-05,  7.4768e-04],
+        [ 3.3212e-04, -1.1015e-04,  5.1403e-04,  ...,  1.4629e-03,
+          1.2839e-04,  1.2894e-03],
+        [ 5.8126e-04,  5.7936e-04,  4.2009e-04,  ...,  1.2913e-03,
+          1.4567e-04,  1.2722e-03],
+        ...,
+        [ 1.8406e-04,  2.8896e-04,  1.9276e-04,  ...,  2.3520e-04,
+          9.9659e-05,  2.5082e-04],
+        [-2.3193e-03, -1.6975e-03, -2.6250e-04,  ...,  1.4830e-04,
+          5.6505e-05, -4.8804e-04],
+        [ 4.9019e-04,  6.0368e-04,  7.4625e-05,  ...,  1.4365e-04,
+          2.1696e-04,  4.9877e-04]], device='cuda:0')
+Epoch 278, bias, value: tensor([ 0.0130,  0.0045, -0.0019,  0.0166, -0.0037, -0.0052,  0.0125,  0.0238,
+        -0.0348,  0.0445], device='cuda:0'), grad: tensor([-0.0096, -0.0008,  0.0220, -0.0469,  0.0150,  0.0137,  0.0200,  0.0147,
+        -0.0424,  0.0144], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 277, time 216.46, cls_loss 0.4995 cls_loss_mapping 0.0057 cls_loss_causal 0.4783 re_mapping 0.0069 re_causal 0.0172 /// teacc 98.86 lr 0.00010000
+Epoch 279, weight, value: tensor([[-0.0772,  0.0670, -0.1030,  ..., -0.1110, -0.0986,  0.0047],
+        [-0.0685, -0.1434, -0.0012,  ..., -0.0573, -0.0449, -0.0947],
+        [ 0.0365, -0.0885,  0.0536,  ...,  0.1573, -0.1150, -0.0479],
+        ...,
+        [-0.1032, -0.1793,  0.0910,  ..., -0.0126, -0.0411,  0.0739],
+        [ 0.0224,  0.0361, -0.0291,  ..., -0.0841, -0.1049, -0.0169],
+        [-0.1506, -0.0091, -0.0090,  ..., -0.1587,  0.1123,  0.0216]],
+       device='cuda:0'), grad: tensor([[ 1.5612e-03,  6.9475e-04,  7.6914e-04,  ...,  5.5838e-04,
+          6.5660e-04,  1.0617e-07],
+        [ 8.5652e-05,  1.3244e-04, -1.0691e-03,  ..., -1.1891e-04,
+          2.1684e-04,  7.5960e-04],
+        [-1.6713e-04, -9.6226e-04, -4.2343e-03,  ..., -3.6087e-03,
+         -2.5749e-03, -7.0419e-03],
+        ...,
+        [ 1.1486e-04,  3.3569e-04,  1.7872e-03,  ...,  1.0290e-03,
+          1.2398e-03,  2.6417e-03],
+        [-2.5892e-04, -6.4945e-04,  2.9516e-04,  ...,  2.9588e-04,
+         -6.7568e-04,  1.1215e-03],
+        [ 1.6499e-03,  1.3857e-03, -5.9938e-04,  ...,  4.4036e-04,
+         -6.2990e-04, -8.8310e-04]], device='cuda:0')
+Epoch 279, bias, value: tensor([ 0.0126,  0.0036, -0.0020,  0.0168, -0.0032, -0.0058,  0.0128,  0.0241,
+        -0.0338,  0.0440], device='cuda:0'), grad: tensor([-0.0117,  0.0064, -0.0636,  0.0155, -0.0209,  0.0149,  0.0195,  0.0275,
+         0.0136, -0.0012], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 278, time 216.56, cls_loss 0.5167 cls_loss_mapping 0.0050 cls_loss_causal 0.4911 re_mapping 0.0068 re_causal 0.0163 /// teacc 98.77 lr 0.00010000
+Epoch 280, weight, value: tensor([[-0.0767,  0.0676, -0.1036,  ..., -0.1125, -0.0987,  0.0048],
+        [-0.0686, -0.1427, -0.0017,  ..., -0.0570, -0.0449, -0.0951],
+        [ 0.0365, -0.0887,  0.0529,  ...,  0.1575, -0.1154, -0.0468],
+        ...,
+        [-0.1029, -0.1779,  0.0907,  ..., -0.0122, -0.0414,  0.0731],
+        [ 0.0217,  0.0342, -0.0284,  ..., -0.0837, -0.1056, -0.0163],
+        [-0.1509, -0.0083, -0.0082,  ..., -0.1578,  0.1126,  0.0223]],
+       device='cuda:0'), grad: tensor([[ 1.0307e-02,  1.6754e-02,  6.4254e-05,  ...,  8.4579e-05,
+          2.2292e-05,  6.9439e-05],
+        [ 5.3436e-05,  6.1810e-05,  4.3440e-04,  ...,  8.6737e-04,
+          2.1592e-05,  4.2486e-04],
+        [ 1.7810e-04,  1.2600e-04, -1.3371e-03,  ..., -4.2686e-03,
+          5.4806e-05, -1.3590e-03],
+        ...,
+        [-2.2564e-03, -4.1771e-03, -6.7635e-03,  ...,  1.6594e-04,
+         -7.3204e-03, -5.6725e-03],
+        [-1.5930e-02, -2.8473e-02,  4.7779e-04,  ...,  7.6342e-04,
+          7.5579e-04,  5.0259e-04],
+        [ 2.9240e-03,  5.6419e-03,  6.1760e-03,  ...,  5.7983e-04,
+          6.7902e-03,  5.4855e-03]], device='cuda:0')
+Epoch 280, bias, value: tensor([ 0.0125,  0.0041, -0.0018,  0.0184, -0.0041, -0.0060,  0.0114,  0.0246,
+        -0.0340,  0.0438], device='cuda:0'), grad: tensor([ 0.0193,  0.0088, -0.0104,  0.0202,  0.0057,  0.0033, -0.0178, -0.0425,
+        -0.0438,  0.0573], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 279, time 216.76, cls_loss 0.4807 cls_loss_mapping 0.0058 cls_loss_causal 0.4537 re_mapping 0.0071 re_causal 0.0175 /// teacc 98.74 lr 0.00010000
+Epoch 281, weight, value: tensor([[-0.0774,  0.0663, -0.1038,  ..., -0.1118, -0.0981,  0.0044],
+        [-0.0685, -0.1453, -0.0021,  ..., -0.0582, -0.0441, -0.0950],
+        [ 0.0372, -0.0888,  0.0549,  ...,  0.1598, -0.1166, -0.0460],
+        ...,
+        [-0.1032, -0.1778,  0.0898,  ..., -0.0136, -0.0414,  0.0735],
+        [ 0.0226,  0.0349, -0.0284,  ..., -0.0839, -0.1060, -0.0171],
+        [-0.1505, -0.0082, -0.0082,  ..., -0.1587,  0.1122,  0.0224]],
+       device='cuda:0'), grad: tensor([[ 1.3838e-03,  1.4277e-03,  3.4881e-04,  ...,  9.9659e-04,
+          5.9186e-07, -3.2306e-04],
+        [ 1.7554e-05,  2.4170e-05,  5.1403e-04,  ...,  1.2510e-05,
+          5.0497e-04,  1.0195e-03],
+        [-4.7874e-03, -3.1719e-03, -2.2469e-03,  ..., -3.8414e-03,
+          5.3681e-06, -2.3246e-04],
+        ...,
+        [ 1.2522e-03,  7.0810e-05, -4.9706e-03,  ...,  5.8174e-05,
+         -5.0125e-03,  1.4534e-03],
+        [ 1.2465e-03,  1.4305e-03,  3.7932e-04,  ...,  8.8644e-04,
+          8.9630e-06,  5.2071e-04],
+        [-1.2999e-03,  1.1873e-04,  1.6527e-03,  ...,  2.9549e-05,
+          1.6546e-03, -7.5989e-03]], device='cuda:0')
+Epoch 281, bias, value: tensor([ 0.0121,  0.0045, -0.0008,  0.0178, -0.0050, -0.0058,  0.0111,  0.0256,
+        -0.0342,  0.0438], device='cuda:0'), grad: tensor([-0.0170,  0.0160, -0.0289, -0.0149,  0.0194,  0.0106,  0.0119,  0.0115,
+         0.0188, -0.0273], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 280, time 216.47, cls_loss 0.4888 cls_loss_mapping 0.0034 cls_loss_causal 0.4668 re_mapping 0.0071 re_causal 0.0177 /// teacc 98.89 lr 0.00010000
+Epoch 282, weight, value: tensor([[-0.0760,  0.0670, -0.1034,  ..., -0.1120, -0.0972,  0.0050],
+        [-0.0686, -0.1457, -0.0016,  ..., -0.0585, -0.0445, -0.0966],
+        [ 0.0366, -0.0893,  0.0555,  ...,  0.1609, -0.1172, -0.0457],
+        ...,
+        [-0.1040, -0.1794,  0.0904,  ..., -0.0144, -0.0404,  0.0741],
+        [ 0.0223,  0.0356, -0.0296,  ..., -0.0846, -0.1050, -0.0182],
+        [-0.1518, -0.0088, -0.0086,  ..., -0.1579,  0.1115,  0.0228]],
+       device='cuda:0'), grad: tensor([[ 1.3423e-04, -1.4400e-04,  1.4412e-04,  ...,  4.1556e-04,
+          5.3734e-05,  1.6606e-04],
+        [ 3.1147e-03,  2.2650e-05, -1.3981e-03,  ..., -8.7690e-04,
+         -6.0987e-04, -5.5170e-04],
+        [-7.5150e-03,  7.3552e-05,  4.8101e-05,  ..., -7.4625e-05,
+          1.2147e-04, -3.7231e-03],
+        ...,
+        [ 6.4325e-04,  3.5077e-05,  9.3603e-04,  ...,  4.6730e-05,
+          2.5964e-04,  1.2894e-03],
+        [ 5.1079e-03,  1.0471e-03,  7.7133e-03,  ...,  1.4082e-05,
+          3.0861e-03,  1.0094e-02],
+        [ 3.1543e-04,  1.4949e-04,  1.1024e-03,  ...,  2.5779e-06,
+          2.7013e-04,  1.4095e-03]], device='cuda:0')
+Epoch 282, bias, value: tensor([ 0.0124,  0.0043, -0.0006,  0.0165, -0.0044, -0.0052,  0.0113,  0.0256,
+        -0.0342,  0.0434], device='cuda:0'), grad: tensor([-0.0065, -0.0997, -0.0133,  0.0117,  0.0005, -0.0010,  0.0300,  0.0187,
+         0.0437,  0.0159], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 281----------------------------------------------------
+epoch 281, time 217.34, cls_loss 0.5126 cls_loss_mapping 0.0039 cls_loss_causal 0.4871 re_mapping 0.0068 re_causal 0.0167 /// teacc 98.96 lr 0.00010000
+Epoch 283, weight, value: tensor([[-0.0761,  0.0674, -0.1026,  ..., -0.1129, -0.0983,  0.0045],
+        [-0.0690, -0.1451, -0.0012,  ..., -0.0581, -0.0449, -0.0973],
+        [ 0.0358, -0.0892,  0.0556,  ...,  0.1602, -0.1181, -0.0458],
+        ...,
+        [-0.1029, -0.1801,  0.0896,  ..., -0.0153, -0.0417,  0.0752],
+        [ 0.0217,  0.0347, -0.0301,  ..., -0.0837, -0.1061, -0.0192],
+        [-0.1512, -0.0092, -0.0084,  ..., -0.1576,  0.1121,  0.0225]],
+       device='cuda:0'), grad: tensor([[ 1.3575e-05, -1.0073e-05,  3.6120e-04,  ...,  4.7135e-04,
+          8.8096e-05,  5.0402e-04],
+        [-1.5230e-03,  4.6581e-05, -4.6463e-03,  ..., -7.8011e-03,
+         -3.1567e-03, -7.9956e-03],
+        [ 4.2319e-04,  1.3638e-04,  2.9812e-03,  ...,  4.5166e-03,
+          9.7132e-04,  4.7150e-03],
+        ...,
+        [ 4.9621e-05,  1.1623e-04,  1.4687e-03,  ...,  2.9588e-04,
+          2.8439e-03,  3.2043e-04],
+        [-3.2234e-03, -4.4327e-03, -4.7874e-04,  ...,  3.1233e-04,
+          6.8235e-04, -3.9339e-04],
+        [ 4.7159e-04,  7.7426e-05, -1.5907e-03,  ...,  2.8563e-04,
+         -2.4757e-03,  1.4007e-04]], device='cuda:0')
+Epoch 283, bias, value: tensor([ 0.0118,  0.0042, -0.0005,  0.0164, -0.0042, -0.0054,  0.0115,  0.0257,
+        -0.0344,  0.0440], device='cuda:0'), grad: tensor([ 0.0066, -0.0435,  0.0019,  0.0215,  0.0094,  0.0088, -0.0250,  0.0132,
+         0.0024,  0.0047], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 282, time 216.62, cls_loss 0.5215 cls_loss_mapping 0.0045 cls_loss_causal 0.4974 re_mapping 0.0068 re_causal 0.0174 /// teacc 98.84 lr 0.00010000
+Epoch 284, weight, value: tensor([[-0.0765,  0.0673, -0.1035,  ..., -0.1132, -0.0995,  0.0039],
+        [-0.0686, -0.1449, -0.0025,  ..., -0.0584, -0.0436, -0.0978],
+        [ 0.0357, -0.0893,  0.0546,  ...,  0.1596, -0.1188, -0.0456],
+        ...,
+        [-0.1026, -0.1789,  0.0907,  ..., -0.0159, -0.0426,  0.0753],
+        [ 0.0215,  0.0337, -0.0292,  ..., -0.0844, -0.1062, -0.0200],
+        [-0.1508, -0.0098, -0.0082,  ..., -0.1558,  0.1124,  0.0238]],
+       device='cuda:0'), grad: tensor([[ 1.6193e-03,  1.9569e-03,  1.7052e-03,  ...,  5.0640e-04,
+          4.0412e-04,  2.8973e-03],
+        [ 4.7760e-03,  2.0117e-05,  1.7948e-03,  ...,  8.3148e-05,
+          9.4509e-04,  7.4272e-03],
+        [ 2.8019e-03,  3.5191e-03,  2.9850e-03,  ...,  6.6233e-04,
+          8.6069e-04,  4.0474e-03],
+        ...,
+        [ 1.3137e-04,  1.3244e-04,  3.5210e-03,  ...,  1.6034e-04,
+          1.8730e-03,  2.5806e-03],
+        [-4.3831e-03,  9.1553e-05,  1.1988e-03,  ...,  3.0279e-04,
+          2.0123e-03,  4.0550e-03],
+        [-6.0654e-03, -7.4844e-03,  2.3079e-04,  ..., -1.6994e-03,
+          4.4785e-03,  5.7716e-03]], device='cuda:0')
+Epoch 284, bias, value: tensor([ 0.0112,  0.0051, -0.0008,  0.0163, -0.0044, -0.0045,  0.0110,  0.0254,
+        -0.0346,  0.0443], device='cuda:0'), grad: tensor([ 0.0197,  0.0275,  0.0271, -0.0137, -0.0389, -0.0499,  0.0137, -0.0007,
+         0.0130,  0.0022], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 283, time 216.72, cls_loss 0.4928 cls_loss_mapping 0.0044 cls_loss_causal 0.4707 re_mapping 0.0067 re_causal 0.0165 /// teacc 98.85 lr 0.00010000
+Epoch 285, weight, value: tensor([[-0.0776,  0.0681, -0.1041,  ..., -0.1124, -0.0987,  0.0060],
+        [-0.0697, -0.1455, -0.0019,  ..., -0.0600, -0.0428, -0.0978],
+        [ 0.0346, -0.0892,  0.0556,  ...,  0.1607, -0.1197, -0.0461],
+        ...,
+        [-0.1020, -0.1793,  0.0899,  ..., -0.0160, -0.0423,  0.0738],
+        [ 0.0219,  0.0339, -0.0298,  ..., -0.0840, -0.1063, -0.0199],
+        [-0.1506, -0.0104, -0.0075,  ..., -0.1575,  0.1122,  0.0238]],
+       device='cuda:0'), grad: tensor([[ 8.3017e-04,  2.4853e-03,  3.0971e-04,  ...,  8.8811e-05,
+          8.8010e-07,  4.5562e-04],
+        [ 5.3287e-05,  1.6189e-04,  1.1802e-04,  ...,  7.4565e-05,
+          8.8010e-07,  3.5405e-04],
+        [-4.4751e-04, -1.9944e-04,  3.3164e-04,  ..., -9.0420e-05,
+          1.1986e-06,  1.6479e-03],
+        ...,
+        [ 7.8082e-05,  2.0313e-04,  8.5926e-04,  ...,  5.6076e-04,
+          1.9282e-05,  1.5688e-03],
+        [-2.9302e-04, -2.2188e-05, -3.4561e-03,  ..., -2.0561e-03,
+          6.9253e-06, -5.9166e-03],
+        [ 2.5201e-04,  1.2708e-04,  2.5344e-04,  ...,  2.0111e-04,
+         -3.4392e-05,  4.8494e-04]], device='cuda:0')
+Epoch 285, bias, value: tensor([ 0.0117,  0.0053, -0.0014,  0.0165, -0.0036, -0.0051,  0.0112,  0.0247,
+        -0.0345,  0.0443], device='cuda:0'), grad: tensor([-0.0377,  0.0106,  0.0101,  0.0113,  0.0073,  0.0089, -0.0085,  0.0128,
+        -0.0231,  0.0082], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 284, time 216.64, cls_loss 0.5002 cls_loss_mapping 0.0057 cls_loss_causal 0.4755 re_mapping 0.0071 re_causal 0.0174 /// teacc 98.77 lr 0.00010000
+Epoch 286, weight, value: tensor([[-0.0782,  0.0680, -0.1050,  ..., -0.1129, -0.0979,  0.0059],
+        [-0.0688, -0.1457, -0.0017,  ..., -0.0596, -0.0432, -0.0990],
+        [ 0.0336, -0.0903,  0.0555,  ...,  0.1605, -0.1199, -0.0450],
+        ...,
+        [-0.1001, -0.1772,  0.0901,  ..., -0.0160, -0.0422,  0.0732],
+        [ 0.0213,  0.0338, -0.0296,  ..., -0.0846, -0.1069, -0.0195],
+        [-0.1533, -0.0105, -0.0076,  ..., -0.1583,  0.1126,  0.0227]],
+       device='cuda:0'), grad: tensor([[-7.8154e-04, -3.0422e-03,  2.8753e-04,  ..., -7.9346e-04,
+          1.9944e-04,  3.4380e-04],
+        [-3.7479e-03, -5.1384e-03, -1.4315e-03,  ..., -5.1842e-03,
+         -6.9923e-03, -8.6451e-04],
+        [ 8.5545e-04,  9.5320e-04,  9.9277e-04,  ...,  1.0166e-03,
+          8.8406e-04,  1.7700e-03],
+        ...,
+        [ 5.0879e-04, -2.7075e-05, -2.2526e-03,  ...,  6.8951e-04,
+         -1.5011e-03,  3.3927e-04],
+        [-7.3195e-04, -1.0920e-03, -1.7700e-03,  ...,  6.3419e-04,
+          4.9019e-04,  2.3365e-03],
+        [-1.6232e-03,  6.5899e-04,  3.0556e-03,  ...,  7.5817e-04,
+          2.7847e-03, -3.8376e-03]], device='cuda:0')
+Epoch 286, bias, value: tensor([ 0.0127,  0.0048, -0.0011,  0.0166, -0.0041, -0.0057,  0.0115,  0.0249,
+        -0.0344,  0.0439], device='cuda:0'), grad: tensor([-0.0031, -0.0256,  0.0157,  0.0033, -0.0284,  0.0186,  0.0208,  0.0023,
+        -0.0116,  0.0081], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 285, time 216.36, cls_loss 0.4891 cls_loss_mapping 0.0039 cls_loss_causal 0.4683 re_mapping 0.0066 re_causal 0.0158 /// teacc 98.92 lr 0.00010000
+Epoch 287, weight, value: tensor([[-0.0781,  0.0677, -0.1055,  ..., -0.1132, -0.0989,  0.0064],
+        [-0.0669, -0.1441, -0.0019,  ..., -0.0592, -0.0425, -0.1000],
+        [ 0.0351, -0.0907,  0.0563,  ...,  0.1613, -0.1209, -0.0452],
+        ...,
+        [-0.1021, -0.1803,  0.0904,  ..., -0.0161, -0.0430,  0.0726],
+        [ 0.0224,  0.0347, -0.0296,  ..., -0.0840, -0.1067, -0.0194],
+        [-0.1544, -0.0107, -0.0060,  ..., -0.1571,  0.1129,  0.0242]],
+       device='cuda:0'), grad: tensor([[ 8.7967e-03,  3.8967e-03,  1.3742e-03,  ...,  1.1373e-04,
+          4.7112e-04,  5.8289e-03],
+        [ 7.0989e-05,  1.8680e-04,  5.0879e-04,  ..., -1.9512e-03,
+         -3.8695e-04, -2.3193e-03],
+        [ 3.0589e-04,  7.2956e-04,  1.6088e-03,  ...,  1.1444e-03,
+          3.3116e-04,  1.7376e-03],
+        ...,
+        [ 2.0361e-04,  5.9223e-04, -2.9259e-03,  ...,  1.2910e-04,
+          6.0606e-04,  2.1420e-03],
+        [ 1.1826e-03,  3.9787e-03,  1.2264e-03,  ...,  1.1206e-04,
+          5.2595e-04,  1.4744e-03],
+        [ 3.6716e-04,  4.8351e-04, -7.7343e-04,  ...,  4.7982e-05,
+         -3.2120e-03, -2.1496e-03]], device='cuda:0')
+Epoch 287, bias, value: tensor([ 0.0132,  0.0045, -0.0008,  0.0159, -0.0046, -0.0055,  0.0114,  0.0250,
+        -0.0349,  0.0449], device='cuda:0'), grad: tensor([-0.0104, -0.0053,  0.0248, -0.0080,  0.0237, -0.0445,  0.0176, -0.0029,
+         0.0043,  0.0006], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 286----------------------------------------------------
+epoch 286, time 217.02, cls_loss 0.4944 cls_loss_mapping 0.0034 cls_loss_causal 0.4715 re_mapping 0.0072 re_causal 0.0187 /// teacc 99.00 lr 0.00010000
+Epoch 288, weight, value: tensor([[-0.0784,  0.0683, -0.1061,  ..., -0.1120, -0.0980,  0.0059],
+        [-0.0673, -0.1429, -0.0010,  ..., -0.0596, -0.0415, -0.0993],
+        [ 0.0344, -0.0914,  0.0560,  ...,  0.1615, -0.1208, -0.0453],
+        ...,
+        [-0.1009, -0.1797,  0.0898,  ..., -0.0170, -0.0439,  0.0720],
+        [ 0.0233,  0.0353, -0.0305,  ..., -0.0831, -0.1063, -0.0199],
+        [-0.1545, -0.0108, -0.0060,  ..., -0.1577,  0.1134,  0.0244]],
+       device='cuda:0'), grad: tensor([[ 4.2081e-05, -8.9502e-04, -1.2293e-03,  ...,  1.1700e-04,
+         -4.6492e-04, -1.1406e-03],
+        [ 2.0027e-05,  1.4329e-04,  5.1022e-04,  ...,  1.4627e-04,
+          2.6283e-03,  6.0511e-04],
+        [-9.4473e-05,  1.4555e-04, -6.4468e-04,  ..., -6.2895e-04,
+          7.3910e-04,  4.0007e-04],
+        ...,
+        [-1.3332e-03,  9.0957e-05, -1.2604e-02,  ..., -3.2163e-04,
+         -1.1673e-02, -5.9319e-03],
+        [ 1.8644e-03,  4.8804e-04,  1.8339e-03,  ...,  9.8586e-05,
+          9.7809e-03,  7.1001e-04],
+        [ 2.9236e-05,  2.6536e-04,  1.0582e-02,  ...,  1.1581e-04,
+         -3.0403e-03,  3.1147e-03]], device='cuda:0')
+Epoch 288, bias, value: tensor([ 0.0134,  0.0052, -0.0005,  0.0155, -0.0038, -0.0042,  0.0102,  0.0244,
+        -0.0359,  0.0449], device='cuda:0'), grad: tensor([-0.0200,  0.0021,  0.0096,  0.0138, -0.0030,  0.0106,  0.0147, -0.0455,
+         0.0290, -0.0112], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 287, time 217.06, cls_loss 0.5041 cls_loss_mapping 0.0039 cls_loss_causal 0.4791 re_mapping 0.0067 re_causal 0.0173 /// teacc 98.78 lr 0.00010000
+Epoch 289, weight, value: tensor([[-0.0780,  0.0682, -0.1050,  ..., -0.1129, -0.0999,  0.0038],
+        [-0.0683, -0.1432, -0.0009,  ..., -0.0584, -0.0434, -0.0987],
+        [ 0.0350, -0.0910,  0.0554,  ...,  0.1620, -0.1208, -0.0455],
+        ...,
+        [-0.1017, -0.1800,  0.0908,  ..., -0.0170, -0.0447,  0.0716],
+        [ 0.0218,  0.0343, -0.0301,  ..., -0.0820, -0.1050, -0.0187],
+        [-0.1550, -0.0095, -0.0068,  ..., -0.1584,  0.1142,  0.0242]],
+       device='cuda:0'), grad: tensor([[ 1.1796e-04,  1.5583e-03,  4.8041e-04,  ...,  5.5218e-04,
+          5.6624e-05,  6.1321e-04],
+        [ 1.4806e-04,  1.0312e-04,  1.0433e-03,  ...,  1.8609e-04,
+          9.3102e-05, -4.6682e-04],
+        [ 1.0738e-03,  1.6994e-03,  2.2755e-03,  ...,  2.2984e-03,
+          5.6267e-04,  1.3180e-03],
+        ...,
+        [ 7.5877e-05,  8.1480e-05, -1.0918e-02,  ...,  5.3167e-04,
+         -8.9502e-04, -2.7370e-03],
+        [ 1.1861e-04,  1.3561e-03,  3.6507e-03,  ..., -1.9379e-03,
+          5.1689e-04, -4.2963e-04],
+        [ 9.4950e-05,  1.7357e-04,  3.7746e-03,  ...,  3.9244e-04,
+          2.8682e-04,  1.4715e-03]], device='cuda:0')
+Epoch 289, bias, value: tensor([ 0.0137,  0.0041, -0.0014,  0.0161, -0.0047, -0.0045,  0.0115,  0.0249,
+        -0.0353,  0.0446], device='cuda:0'), grad: tensor([ 0.0269,  0.0011,  0.0405, -0.0533, -0.0080,  0.0263, -0.0080,  0.0085,
+        -0.0298, -0.0042], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 288, time 216.85, cls_loss 0.4799 cls_loss_mapping 0.0057 cls_loss_causal 0.4531 re_mapping 0.0065 re_causal 0.0158 /// teacc 98.83 lr 0.00010000
+Epoch 290, weight, value: tensor([[-0.0764,  0.0689, -0.1060,  ..., -0.1117, -0.1006,  0.0051],
+        [-0.0690, -0.1441,  0.0003,  ..., -0.0578, -0.0440, -0.0986],
+        [ 0.0355, -0.0909,  0.0561,  ...,  0.1627, -0.1216, -0.0441],
+        ...,
+        [-0.1030, -0.1809,  0.0916,  ..., -0.0181, -0.0449,  0.0716],
+        [ 0.0218,  0.0351, -0.0299,  ..., -0.0820, -0.1059, -0.0201],
+        [-0.1542, -0.0100, -0.0077,  ..., -0.1582,  0.1144,  0.0245]],
+       device='cuda:0'), grad: tensor([[ 5.1451e-04,  2.7466e-04, -1.6940e-04,  ...,  1.8433e-05,
+          1.7732e-05, -1.3542e-03],
+        [-1.4763e-03,  5.6207e-05,  2.1708e-04,  ...,  3.6880e-06,
+         -1.8954e-04, -8.1062e-04],
+        [ 2.8872e-04,  2.8658e-04,  1.2672e-04,  ..., -5.9319e-04,
+          3.2353e-04,  1.5411e-03],
+        ...,
+        [ 2.4068e-04,  9.9540e-05,  3.9625e-04,  ...,  6.6459e-05,
+          3.2806e-04,  1.5097e-03],
+        [ 1.4496e-03,  1.4563e-03,  3.0041e-04,  ...,  2.0608e-05,
+          3.2330e-04,  2.5425e-03],
+        [ 4.6992e-04,  3.6860e-04,  6.2752e-04,  ...,  3.8743e-04,
+          3.8385e-04,  1.6336e-03]], device='cuda:0')
+Epoch 290, bias, value: tensor([ 0.0132,  0.0036, -0.0010,  0.0159, -0.0051, -0.0056,  0.0114,  0.0256,
+        -0.0351,  0.0461], device='cuda:0'), grad: tensor([-0.0094, -0.0084,  0.0181,  0.0249, -0.0260, -0.0182, -0.0257,  0.0238,
+        -0.0028,  0.0237], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 289, time 216.70, cls_loss 0.4690 cls_loss_mapping 0.0033 cls_loss_causal 0.4494 re_mapping 0.0066 re_causal 0.0165 /// teacc 98.88 lr 0.00010000
+Epoch 291, weight, value: tensor([[-0.0773,  0.0685, -0.1058,  ..., -0.1121, -0.1004,  0.0056],
+        [-0.0690, -0.1446,  0.0010,  ..., -0.0572, -0.0425, -0.0978],
+        [ 0.0362, -0.0912,  0.0565,  ...,  0.1623, -0.1205, -0.0424],
+        ...,
+        [-0.1044, -0.1805,  0.0911,  ..., -0.0183, -0.0451,  0.0704],
+        [ 0.0228,  0.0355, -0.0307,  ..., -0.0825, -0.1053, -0.0197],
+        [-0.1530, -0.0099, -0.0070,  ..., -0.1576,  0.1154,  0.0259]],
+       device='cuda:0'), grad: tensor([[-1.3304e-04, -2.0161e-03,  2.4915e-04,  ...,  6.7055e-05,
+         -5.7220e-04, -1.1387e-03],
+        [ 3.2991e-05,  3.1805e-04,  3.1686e-04,  ...,  7.9393e-05,
+          5.1212e-04,  6.9332e-04],
+        [-3.1185e-04,  2.9826e-04,  2.1350e-04,  ..., -2.8782e-03,
+          4.3344e-04,  9.4700e-04],
+        ...,
+        [ 4.5151e-05,  4.5681e-04,  1.6880e-03,  ...,  3.8314e-04,
+          1.1921e-03,  1.9436e-03],
+        [-6.7770e-05, -3.4809e-04,  7.8201e-04,  ...,  2.6059e-04,
+          9.4509e-04,  1.3742e-03],
+        [ 6.3479e-05, -3.4547e-04, -3.8624e-04,  ..., -1.4651e-04,
+         -1.5984e-03, -1.2434e-04]], device='cuda:0')
+Epoch 291, bias, value: tensor([ 1.2857e-02,  4.1527e-03, -8.1386e-05,  1.5289e-02, -5.0530e-03,
+        -5.2054e-03,  1.1382e-02,  2.4315e-02, -3.4696e-02,  4.6049e-02],
+       device='cuda:0'), grad: tensor([-0.0203,  0.0103,  0.0054, -0.0132, -0.0402,  0.0059,  0.0189,  0.0161,
+         0.0133,  0.0039], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 290, time 216.58, cls_loss 0.4807 cls_loss_mapping 0.0025 cls_loss_causal 0.4492 re_mapping 0.0065 re_causal 0.0165 /// teacc 98.90 lr 0.00010000
+Epoch 292, weight, value: tensor([[-0.0774,  0.0694, -0.1061,  ..., -0.1121, -0.1011,  0.0051],
+        [-0.0684, -0.1457, -0.0015,  ..., -0.0562, -0.0434, -0.0983],
+        [ 0.0374, -0.0911,  0.0565,  ...,  0.1619, -0.1213, -0.0426],
+        ...,
+        [-0.1054, -0.1813,  0.0912,  ..., -0.0180, -0.0452,  0.0694],
+        [ 0.0220,  0.0347, -0.0306,  ..., -0.0827, -0.1038, -0.0184],
+        [-0.1534, -0.0100, -0.0067,  ..., -0.1568,  0.1151,  0.0263]],
+       device='cuda:0'), grad: tensor([[ 5.4693e-04,  1.1406e-03,  1.0300e-03,  ...,  1.9836e-04,
+          8.1348e-04,  9.7847e-04],
+        [ 2.6250e-04,  1.7548e-04,  8.5115e-04,  ...,  2.2209e-04,
+          9.5844e-04,  2.5463e-03],
+        [ 2.4223e-04,  7.1526e-04, -5.5408e-04,  ..., -1.2417e-03,
+          9.3460e-04,  2.5482e-03],
+        ...,
+        [ 3.4595e-04,  4.4894e-04,  1.4572e-03,  ...,  2.6393e-04,
+          1.1549e-03,  3.1319e-03],
+        [-3.5191e-03, -4.0970e-03, -1.6813e-03,  ..., -1.8299e-04,
+         -2.0370e-03, -5.2795e-03],
+        [-7.1108e-05, -1.4296e-03, -8.7452e-04,  ...,  1.7333e-04,
+         -6.4969e-05, -1.3828e-03]], device='cuda:0')
+Epoch 292, bias, value: tensor([ 1.4339e-02,  3.6475e-03,  5.2438e-05,  1.4124e-02, -4.8172e-03,
+        -5.2183e-03,  1.0803e-02,  2.5139e-02, -3.4642e-02,  4.5703e-02],
+       device='cuda:0'), grad: tensor([-0.0080,  0.0217,  0.0187,  0.0343, -0.0383,  0.0193, -0.0435,  0.0249,
+        -0.0327,  0.0036], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 291, time 216.70, cls_loss 0.4965 cls_loss_mapping 0.0041 cls_loss_causal 0.4724 re_mapping 0.0065 re_causal 0.0167 /// teacc 98.79 lr 0.00010000
+Epoch 293, weight, value: tensor([[-0.0759,  0.0705, -0.1055,  ..., -0.1124, -0.1016,  0.0041],
+        [-0.0693, -0.1459, -0.0030,  ..., -0.0557, -0.0446, -0.0986],
+        [ 0.0373, -0.0922,  0.0566,  ...,  0.1613, -0.1211, -0.0418],
+        ...,
+        [-0.1040, -0.1815,  0.0922,  ..., -0.0168, -0.0452,  0.0702],
+        [ 0.0218,  0.0343, -0.0308,  ..., -0.0832, -0.1039, -0.0184],
+        [-0.1548, -0.0104, -0.0074,  ..., -0.1573,  0.1141,  0.0250]],
+       device='cuda:0'), grad: tensor([[ 4.0150e-04, -1.2457e-04, -1.6379e-04,  ..., -1.9073e-05,
+          1.3812e-06,  9.1732e-05],
+        [-2.2560e-05, -9.9003e-05,  1.2377e-06,  ...,  1.1828e-07,
+          8.3912e-07,  4.3839e-05],
+        [ 2.1725e-03,  1.5020e-03,  9.9316e-06,  ...,  9.2667e-07,
+          1.1465e-06,  4.2796e-04],
+        ...,
+        [ 8.1241e-05,  5.7667e-05,  3.8952e-05,  ...,  4.2003e-07,
+          5.0247e-05,  3.2395e-05],
+        [-5.0621e-03, -3.2101e-03,  2.3544e-05,  ...,  1.5004e-06,
+          1.9416e-05, -1.0900e-03],
+        [ 4.5085e-04,  9.6142e-05,  5.8460e-04,  ...,  1.7015e-06,
+          9.4700e-04,  6.8903e-04]], device='cuda:0')
+Epoch 293, bias, value: tensor([ 0.0150,  0.0041, -0.0003,  0.0143, -0.0051, -0.0051,  0.0110,  0.0252,
+        -0.0352,  0.0452], device='cuda:0'), grad: tensor([ 0.0051,  0.0090,  0.0131, -0.0232,  0.0051,  0.0053,  0.0070, -0.0263,
+        -0.0011,  0.0061], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 292, time 216.54, cls_loss 0.5202 cls_loss_mapping 0.0035 cls_loss_causal 0.4916 re_mapping 0.0063 re_causal 0.0162 /// teacc 98.76 lr 0.00010000
+Epoch 294, weight, value: tensor([[-0.0757,  0.0693, -0.1063,  ..., -0.1123, -0.1010,  0.0046],
+        [-0.0708, -0.1459, -0.0010,  ..., -0.0550, -0.0425, -0.0985],
+        [ 0.0373, -0.0931,  0.0570,  ...,  0.1608, -0.1225, -0.0425],
+        ...,
+        [-0.1048, -0.1818,  0.0909,  ..., -0.0175, -0.0468,  0.0706],
+        [ 0.0216,  0.0340, -0.0318,  ..., -0.0839, -0.1037, -0.0195],
+        [-0.1566, -0.0109, -0.0066,  ..., -0.1575,  0.1135,  0.0243]],
+       device='cuda:0'), grad: tensor([[ 2.6569e-03,  1.0662e-03,  2.1756e-04,  ...,  5.8365e-04,
+          2.7493e-06,  3.7622e-04],
+        [ 1.5013e-05,  5.4979e-04,  7.0572e-04,  ...,  8.2731e-04,
+          1.2445e-04,  6.2561e-04],
+        [ 5.5122e-04, -2.5964e-04,  1.1864e-03,  ..., -2.4509e-04,
+          1.2070e-05, -1.0262e-03],
+        ...,
+        [ 1.9401e-05,  3.3236e-04,  1.1349e-03,  ...,  4.2915e-04,
+          2.3532e-04,  2.3985e-04],
+        [-3.6693e-04,  1.7631e-04, -1.8187e-03,  ..., -3.1452e-03,
+          6.0272e-04,  4.9210e-04],
+        [ 1.7628e-05, -1.6582e-04, -4.6349e-03,  ...,  2.2471e-04,
+         -9.4032e-04, -4.8876e-04]], device='cuda:0')
+Epoch 294, bias, value: tensor([ 0.0147,  0.0037, -0.0002,  0.0153, -0.0044, -0.0057,  0.0115,  0.0250,
+        -0.0368,  0.0461], device='cuda:0'), grad: tensor([-0.0023,  0.0116, -0.0012,  0.0066,  0.0089,  0.0039,  0.0056, -0.0223,
+        -0.0051, -0.0057], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 293, time 216.33, cls_loss 0.4845 cls_loss_mapping 0.0040 cls_loss_causal 0.4622 re_mapping 0.0066 re_causal 0.0165 /// teacc 98.69 lr 0.00010000
+Epoch 295, weight, value: tensor([[-0.0755,  0.0697, -0.1052,  ..., -0.1106, -0.1006,  0.0051],
+        [-0.0695, -0.1470,  0.0002,  ..., -0.0551, -0.0419, -0.0992],
+        [ 0.0376, -0.0932,  0.0571,  ...,  0.1616, -0.1234, -0.0420],
+        ...,
+        [-0.1061, -0.1815,  0.0909,  ..., -0.0171, -0.0462,  0.0707],
+        [ 0.0224,  0.0348, -0.0322,  ..., -0.0836, -0.1030, -0.0193],
+        [-0.1551, -0.0106, -0.0065,  ..., -0.1580,  0.1132,  0.0238]],
+       device='cuda:0'), grad: tensor([[-1.9012e-02, -2.0203e-02, -8.7357e-04,  ...,  1.4687e-04,
+          2.2483e-04,  2.7227e-04],
+        [ 1.1593e-04,  2.2435e-04,  3.0065e-04,  ...,  1.7166e-04,
+          8.8155e-05,  3.0375e-04],
+        [ 2.1057e-03,  2.3632e-03,  4.6521e-05,  ..., -3.2234e-04,
+          9.5546e-05, -2.7823e-04],
+        ...,
+        [ 1.9598e-04,  1.9515e-04,  1.1120e-03,  ...,  3.5262e-04,
+          5.9426e-05, -5.0974e-04],
+        [ 2.3003e-03,  8.4734e-04,  1.6518e-03,  ...,  1.2863e-04,
+          6.6876e-05,  1.5652e-04],
+        [-8.2550e-03,  1.2760e-03, -6.0005e-03,  ...,  1.4555e-04,
+          1.3685e-04,  2.0587e-04]], device='cuda:0')
+Epoch 295, bias, value: tensor([ 0.0146,  0.0037, -0.0002,  0.0155, -0.0050, -0.0054,  0.0117,  0.0252,
+        -0.0371,  0.0462], device='cuda:0'), grad: tensor([-0.0119,  0.0177, -0.0190,  0.0317, -0.0173,  0.0382, -0.0091, -0.0163,
+         0.0251, -0.0390], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 294, time 216.58, cls_loss 0.5080 cls_loss_mapping 0.0047 cls_loss_causal 0.4826 re_mapping 0.0065 re_causal 0.0155 /// teacc 98.73 lr 0.00010000
+Epoch 296, weight, value: tensor([[-0.0744,  0.0709, -0.1039,  ..., -0.1113, -0.1006,  0.0048],
+        [-0.0707, -0.1486,  0.0008,  ..., -0.0549, -0.0416, -0.0992],
+        [ 0.0375, -0.0937,  0.0561,  ...,  0.1605, -0.1216, -0.0408],
+        ...,
+        [-0.1064, -0.1813,  0.0907,  ..., -0.0166, -0.0482,  0.0702],
+        [ 0.0229,  0.0359, -0.0333,  ..., -0.0831, -0.1029, -0.0187],
+        [-0.1528, -0.0115, -0.0052,  ..., -0.1571,  0.1146,  0.0249]],
+       device='cuda:0'), grad: tensor([[ 4.0197e-04, -2.1839e-04,  8.7070e-04,  ...,  3.9220e-04,
+          4.3297e-04,  7.5054e-04],
+        [ 6.1035e-04,  2.3711e-04, -1.7729e-03,  ...,  3.6597e-04,
+          1.4009e-03,  1.3199e-03],
+        [-1.3876e-04,  3.2449e-04, -3.8922e-05,  ..., -3.1185e-04,
+          6.8903e-04,  1.0738e-03],
+        ...,
+        [ 2.1800e-05,  1.9038e-04, -1.7920e-03,  ...,  1.5926e-04,
+         -4.8089e-04, -1.7014e-03],
+        [ 1.1943e-05,  4.7013e-06,  1.2856e-03,  ...,  6.0177e-04,
+          1.0929e-03,  1.5240e-03],
+        [ 6.1846e-04,  4.5586e-04, -6.1464e-04,  ..., -5.7888e-04,
+         -3.5858e-03, -4.2229e-03]], device='cuda:0')
+Epoch 296, bias, value: tensor([ 0.0137,  0.0038, -0.0007,  0.0154, -0.0049, -0.0068,  0.0119,  0.0247,
+        -0.0367,  0.0484], device='cuda:0'), grad: tensor([-0.0169, -0.0006,  0.0112, -0.0232,  0.0182,  0.0108, -0.0062,  0.0040,
+         0.0162, -0.0134], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 295, time 216.51, cls_loss 0.5086 cls_loss_mapping 0.0042 cls_loss_causal 0.4757 re_mapping 0.0063 re_causal 0.0150 /// teacc 98.69 lr 0.00010000
+Epoch 297, weight, value: tensor([[-0.0722,  0.0711, -0.1047,  ..., -0.1117, -0.0996,  0.0061],
+        [-0.0734, -0.1499,  0.0015,  ..., -0.0566, -0.0421, -0.0994],
+        [ 0.0372, -0.0930,  0.0568,  ...,  0.1614, -0.1208, -0.0415],
+        ...,
+        [-0.1074, -0.1820,  0.0911,  ..., -0.0162, -0.0479,  0.0704],
+        [ 0.0227,  0.0352, -0.0331,  ..., -0.0828, -0.1020, -0.0185],
+        [-0.1534, -0.0111, -0.0055,  ..., -0.1583,  0.1138,  0.0245]],
+       device='cuda:0'), grad: tensor([[ 2.0351e-03,  1.7710e-03,  2.6798e-03,  ...,  3.0785e-03,
+          1.3269e-05,  1.6689e-05],
+        [ 5.7846e-05,  4.2059e-06,  3.4254e-06,  ...,  3.1758e-06,
+          2.4915e-04,  3.2830e-04],
+        [ 1.3447e-04,  1.2118e-04,  1.6725e-04,  ...,  1.8418e-04,
+          1.3061e-05,  1.9684e-05],
+        ...,
+        [ 4.9734e-04,  2.0638e-05, -8.3566e-05,  ...,  2.5600e-05,
+          1.2201e-04,  6.3181e-05],
+        [-6.8741e-03, -3.9444e-03, -5.4817e-03,  ..., -6.3133e-03,
+          2.1303e-04,  2.6751e-04],
+        [-1.7586e-03,  5.9700e-04,  6.6471e-04,  ...,  5.6553e-04,
+         -1.0551e-02, -1.3855e-02]], device='cuda:0')
+Epoch 297, bias, value: tensor([ 0.0130,  0.0031, -0.0002,  0.0151, -0.0053, -0.0065,  0.0129,  0.0254,
+        -0.0365,  0.0478], device='cuda:0'), grad: tensor([ 0.0177, -0.0169,  0.0072,  0.0092,  0.0302, -0.0229,  0.0168, -0.0101,
+        -0.0228, -0.0084], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 296, time 216.19, cls_loss 0.4993 cls_loss_mapping 0.0032 cls_loss_causal 0.4671 re_mapping 0.0068 re_causal 0.0172 /// teacc 98.80 lr 0.00010000
+Epoch 298, weight, value: tensor([[-0.0723,  0.0708, -0.1040,  ..., -0.1115, -0.0993,  0.0053],
+        [-0.0757, -0.1507,  0.0022,  ..., -0.0562, -0.0440, -0.1003],
+        [ 0.0382, -0.0932,  0.0564,  ...,  0.1614, -0.1215, -0.0416],
+        ...,
+        [-0.1058, -0.1823,  0.0910,  ..., -0.0171, -0.0478,  0.0708],
+        [ 0.0232,  0.0355, -0.0331,  ..., -0.0834, -0.1021, -0.0196],
+        [-0.1527, -0.0110, -0.0061,  ..., -0.1598,  0.1141,  0.0250]],
+       device='cuda:0'), grad: tensor([[ 9.1121e-06,  4.8971e-04,  6.1846e-04,  ...,  4.2844e-04,
+          1.3125e-04,  1.5459e-03],
+        [ 4.4560e-04,  9.8050e-05, -2.3441e-03,  ..., -2.0065e-03,
+         -6.1989e-04, -5.2490e-03],
+        [ 1.7529e-03,  9.7990e-05,  2.2583e-03,  ...,  1.9684e-03,
+          1.2410e-04,  2.5101e-03],
+        ...,
+        [-1.7462e-03,  5.9509e-04, -1.2903e-03,  ..., -2.4357e-03,
+          1.5240e-03,  1.0052e-03],
+        [-8.8596e-04,  3.2878e-04, -2.7485e-03,  ...,  3.4285e-04,
+         -2.7428e-03,  2.0638e-03],
+        [ 7.5674e-04,  1.1997e-03,  2.2144e-03,  ...,  3.9339e-04,
+          1.8997e-03, -3.8509e-03]], device='cuda:0')
+Epoch 298, bias, value: tensor([ 0.0142,  0.0024, -0.0013,  0.0152, -0.0049, -0.0060,  0.0126,  0.0256,
+        -0.0363,  0.0475], device='cuda:0'), grad: tensor([ 0.0241, -0.0604,  0.0265,  0.0191, -0.0070,  0.0103, -0.0172, -0.0115,
+         0.0191, -0.0030], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 297, time 216.73, cls_loss 0.4648 cls_loss_mapping 0.0050 cls_loss_causal 0.4418 re_mapping 0.0066 re_causal 0.0160 /// teacc 98.86 lr 0.00010000
+Epoch 299, weight, value: tensor([[-0.0718,  0.0713, -0.1040,  ..., -0.1123, -0.0996,  0.0052],
+        [-0.0763, -0.1512,  0.0023,  ..., -0.0562, -0.0441, -0.1003],
+        [ 0.0385, -0.0930,  0.0561,  ...,  0.1607, -0.1219, -0.0407],
+        ...,
+        [-0.1033, -0.1820,  0.0905,  ..., -0.0175, -0.0462,  0.0709],
+        [ 0.0230,  0.0363, -0.0322,  ..., -0.0829, -0.1025, -0.0204],
+        [-0.1532, -0.0113, -0.0061,  ..., -0.1602,  0.1140,  0.0252]],
+       device='cuda:0'), grad: tensor([[ 1.0681e-03, -4.0865e-04,  5.2929e-04,  ...,  5.5879e-08,
+          5.3495e-05, -2.0370e-03],
+        [ 4.2057e-04,  8.6308e-05,  1.8430e-04,  ...,  2.6450e-07,
+         -6.3610e-04, -4.6883e-03],
+        [ 9.3460e-04,  1.3483e-04,  2.0838e-04,  ..., -1.6103e-06,
+          1.5676e-04,  2.0065e-03],
+        ...,
+        [ 2.1839e-03,  8.9765e-05, -1.5650e-03,  ...,  1.2610e-06,
+         -4.5514e-04,  7.2432e-04],
+        [ 1.0529e-02,  9.0790e-04,  2.2602e-04,  ...,  2.4168e-07,
+          1.4806e-04,  1.1463e-03],
+        [-3.5095e-03,  1.4234e-04, -1.5169e-05,  ...,  4.0699e-07,
+          1.0386e-05, -4.5853e-03]], device='cuda:0')
+Epoch 299, bias, value: tensor([ 0.0141,  0.0024, -0.0018,  0.0161, -0.0045, -0.0053,  0.0126,  0.0253,
+        -0.0365,  0.0467], device='cuda:0'), grad: tensor([-0.0051, -0.0327,  0.0201,  0.0239,  0.0183, -0.0241, -0.0090,  0.0061,
+         0.0399, -0.0373], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 298, time 216.78, cls_loss 0.5022 cls_loss_mapping 0.0034 cls_loss_causal 0.4781 re_mapping 0.0069 re_causal 0.0171 /// teacc 98.78 lr 0.00010000
+Epoch 300, weight, value: tensor([[-0.0720,  0.0709, -0.1049,  ..., -0.1129, -0.1008,  0.0043],
+        [-0.0769, -0.1527,  0.0018,  ..., -0.0561, -0.0448, -0.0995],
+        [ 0.0381, -0.0937,  0.0561,  ...,  0.1605, -0.1233, -0.0422],
+        ...,
+        [-0.1035, -0.1830,  0.0903,  ..., -0.0180, -0.0470,  0.0717],
+        [ 0.0233,  0.0362, -0.0322,  ..., -0.0816, -0.1021, -0.0203],
+        [-0.1524, -0.0110, -0.0060,  ..., -0.1606,  0.1147,  0.0240]],
+       device='cuda:0'), grad: tensor([[-8.7619e-05, -2.6073e-03, -3.0441e-03,  ...,  1.6558e-04,
+          3.2020e-04,  4.1652e-04],
+        [-6.3753e-04, -1.7798e-04,  2.7585e-04,  ...,  2.2388e-04,
+          5.7191e-05,  4.5991e-04],
+        [ 2.8157e-04, -4.2953e-03, -8.9188e-03,  ..., -5.3406e-03,
+         -3.4866e-03, -2.5616e-03],
+        ...,
+        [ 2.9135e-04,  5.1355e-04,  7.1859e-04,  ...,  8.4400e-04,
+          9.7513e-04,  1.4610e-03],
+        [ 1.4234e-04,  3.7384e-03,  8.1863e-03,  ...,  4.2229e-03,
+          2.9316e-03,  2.6722e-03],
+        [ 3.8433e-04,  1.6012e-03,  3.2730e-03,  ...,  1.8911e-03,
+          2.0065e-03,  2.0638e-03]], device='cuda:0')
+Epoch 300, bias, value: tensor([ 0.0141,  0.0030, -0.0017,  0.0161, -0.0045, -0.0046,  0.0123,  0.0252,
+        -0.0359,  0.0452], device='cuda:0'), grad: tensor([-0.0154,  0.0050, -0.0099, -0.0138,  0.0106,  0.0154, -0.0083,  0.0170,
+        -0.0235,  0.0229], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 299, time 216.51, cls_loss 0.4940 cls_loss_mapping 0.0042 cls_loss_causal 0.4711 re_mapping 0.0067 re_causal 0.0168 /// teacc 98.84 lr 0.00010000
+Epoch 301, weight, value: tensor([[-0.0720,  0.0714, -0.1054,  ..., -0.1132, -0.1006,  0.0049],
+        [-0.0765, -0.1524,  0.0015,  ..., -0.0581, -0.0452, -0.0999],
+        [ 0.0371, -0.0952,  0.0557,  ...,  0.1599, -0.1224, -0.0417],
+        ...,
+        [-0.1034, -0.1829,  0.0912,  ..., -0.0156, -0.0484,  0.0713],
+        [ 0.0226,  0.0359, -0.0317,  ..., -0.0809, -0.1011, -0.0210],
+        [-0.1532, -0.0114, -0.0057,  ..., -0.1609,  0.1152,  0.0246]],
+       device='cuda:0'), grad: tensor([[ 1.9703e-03, -8.5878e-04,  6.3598e-05,  ...,  5.5695e-04,
+          2.3603e-04,  9.2268e-05],
+        [ 7.1859e-04,  2.0802e-05,  2.2328e-04,  ...,  2.2769e-04,
+          9.2983e-05,  8.4043e-05],
+        [-7.8735e-03,  6.7353e-05,  3.4027e-03,  ...,  3.4332e-03,
+         -8.1539e-04,  1.2827e-04],
+        ...,
+        [ 3.4809e-04,  7.3195e-05,  3.1643e-03,  ...,  3.7384e-03,
+          9.8050e-05,  2.0218e-04],
+        [-4.0550e-03,  1.0836e-04, -1.2390e-02,  ..., -1.3565e-02,
+         -2.3270e-04,  1.0008e-04],
+        [ 1.9526e-04,  2.7442e-04,  8.8596e-04,  ...,  8.7786e-04,
+         -2.2382e-05, -2.1458e-04]], device='cuda:0')
+Epoch 301, bias, value: tensor([ 0.0140,  0.0029, -0.0014,  0.0157, -0.0055, -0.0048,  0.0119,  0.0257,
+        -0.0351,  0.0456], device='cuda:0'), grad: tensor([ 0.0227,  0.0253, -0.0547,  0.0232, -0.0260,  0.0401,  0.0198, -0.0204,
+        -0.0528,  0.0227], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 300, time 217.09, cls_loss 0.5455 cls_loss_mapping 0.0057 cls_loss_causal 0.5205 re_mapping 0.0065 re_causal 0.0163 /// teacc 98.84 lr 0.00010000
+Epoch 302, weight, value: tensor([[-0.0717,  0.0713, -0.1053,  ..., -0.1143, -0.0985,  0.0055],
+        [-0.0771, -0.1536,  0.0024,  ..., -0.0565, -0.0453, -0.0993],
+        [ 0.0391, -0.0944,  0.0567,  ...,  0.1601, -0.1239, -0.0424],
+        ...,
+        [-0.1031, -0.1839,  0.0904,  ..., -0.0166, -0.0473,  0.0724],
+        [ 0.0224,  0.0360, -0.0304,  ..., -0.0796, -0.1016, -0.0206],
+        [-0.1545, -0.0117, -0.0052,  ..., -0.1619,  0.1154,  0.0253]],
+       device='cuda:0'), grad: tensor([[ 7.8659e-03,  8.1635e-03,  2.9588e-04,  ...,  2.2605e-05,
+          1.8513e-04,  6.7406e-03],
+        [-1.0462e-03,  1.1539e-04,  2.3985e-04,  ...,  2.0489e-05,
+         -2.2268e-04, -5.5218e-04],
+        [ 5.3263e-04,  3.0994e-04,  2.7442e-04,  ...,  2.5705e-05,
+          1.3030e-04, -1.2884e-03],
+        ...,
+        [ 6.8665e-04,  6.0892e-04,  3.3016e-03,  ...,  3.2616e-04,
+          2.0862e-04,  2.1267e-03],
+        [-1.3971e-03, -1.4296e-03, -2.3603e-04,  ...,  2.2843e-05,
+          2.4700e-04,  4.4203e-04],
+        [ 7.3338e-04,  3.9291e-04, -1.7273e-02,  ..., -2.6672e-02,
+         -3.4149e-02, -2.5162e-02]], device='cuda:0')
+Epoch 302, bias, value: tensor([ 0.0144,  0.0033, -0.0012,  0.0152, -0.0051, -0.0054,  0.0108,  0.0255,
+        -0.0352,  0.0467], device='cuda:0'), grad: tensor([ 0.0364,  0.0014, -0.0245,  0.0101,  0.0498, -0.0190, -0.0198,  0.0229,
+         0.0034, -0.0608], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 301, time 217.03, cls_loss 0.5029 cls_loss_mapping 0.0053 cls_loss_causal 0.4780 re_mapping 0.0067 re_causal 0.0168 /// teacc 98.87 lr 0.00010000
+Epoch 303, weight, value: tensor([[-0.0737,  0.0708, -0.1052,  ..., -0.1147, -0.1003,  0.0041],
+        [-0.0783, -0.1542,  0.0029,  ..., -0.0556, -0.0450, -0.0989],
+        [ 0.0381, -0.0950,  0.0568,  ...,  0.1596, -0.1229, -0.0429],
+        ...,
+        [-0.1039, -0.1853,  0.0903,  ..., -0.0168, -0.0472,  0.0726],
+        [ 0.0222,  0.0369, -0.0309,  ..., -0.0801, -0.1012, -0.0212],
+        [-0.1540, -0.0122, -0.0055,  ..., -0.1606,  0.1153,  0.0267]],
+       device='cuda:0'), grad: tensor([[ 1.3475e-03,  5.0735e-04,  3.1376e-04,  ...,  5.7250e-05,
+          2.9135e-04,  5.8889e-04],
+        [ 5.0306e-04,  1.8454e-04, -1.1194e-04,  ...,  1.1951e-04,
+         -2.0771e-03,  4.2415e-04],
+        [ 9.4223e-04,  2.7704e-04,  5.6124e-04,  ..., -1.0520e-04,
+          2.9373e-04,  7.9441e-04],
+        ...,
+        [ 1.6432e-03, -6.0177e-04, -5.7106e-03,  ..., -2.4357e-03,
+         -1.9665e-03,  7.3910e-04],
+        [ 1.0700e-03,  1.6427e-04,  4.3082e-04,  ...,  9.7394e-05,
+          2.7156e-04,  6.3515e-04],
+        [-9.9487e-03,  4.2057e-04,  4.7493e-03,  ...,  1.7786e-03,
+          1.9627e-03, -7.9155e-04]], device='cuda:0')
+Epoch 303, bias, value: tensor([ 0.0130,  0.0040, -0.0008,  0.0157, -0.0063, -0.0040,  0.0111,  0.0249,
+        -0.0365,  0.0478], device='cuda:0'), grad: tensor([ 0.0207, -0.0242,  0.0224,  0.0068, -0.0327,  0.0282,  0.0095,  0.0064,
+         0.0186, -0.0557], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 302, time 217.00, cls_loss 0.5064 cls_loss_mapping 0.0030 cls_loss_causal 0.4748 re_mapping 0.0071 re_causal 0.0189 /// teacc 98.77 lr 0.00010000
+Epoch 304, weight, value: tensor([[-0.0736,  0.0707, -0.1059,  ..., -0.1158, -0.1001,  0.0053],
+        [-0.0802, -0.1564,  0.0030,  ..., -0.0557, -0.0438, -0.0976],
+        [ 0.0383, -0.0938,  0.0561,  ...,  0.1605, -0.1239, -0.0435],
+        ...,
+        [-0.1041, -0.1856,  0.0917,  ..., -0.0171, -0.0471,  0.0720],
+        [ 0.0216,  0.0360, -0.0305,  ..., -0.0811, -0.1005, -0.0204],
+        [-0.1549, -0.0114, -0.0069,  ..., -0.1597,  0.1143,  0.0266]],
+       device='cuda:0'), grad: tensor([[ 7.6818e-04,  1.7810e-04,  7.8344e-04,  ...,  6.0022e-05,
+          9.5129e-04,  1.0328e-03],
+        [-7.4530e-04,  2.4393e-05,  9.9850e-04,  ...,  2.5824e-05,
+         -8.7881e-04, -4.1699e-04],
+        [-7.1764e-05,  2.3246e-04, -2.7409e-03,  ..., -8.3780e-04,
+          9.8038e-04,  1.0042e-03],
+        ...,
+        [ 2.5616e-03,  2.9993e-04,  1.0319e-03,  ..., -6.6876e-05,
+          2.1152e-03,  2.3994e-03],
+        [-1.6983e-02,  2.5768e-03,  1.7338e-03,  ...,  5.5361e-04,
+          7.4196e-03,  4.1924e-03],
+        [ 2.9049e-03,  9.0408e-04, -2.7008e-03,  ...,  9.8348e-05,
+         -3.4828e-03, -1.3056e-03]], device='cuda:0')
+Epoch 304, bias, value: tensor([ 0.0131,  0.0042, -0.0015,  0.0154, -0.0059, -0.0049,  0.0115,  0.0249,
+        -0.0358,  0.0478], device='cuda:0'), grad: tensor([ 0.0201, -0.0255, -0.0164,  0.0373, -0.0039, -0.0404, -0.0085,  0.0298,
+         0.0087, -0.0011], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 303, time 217.24, cls_loss 0.4586 cls_loss_mapping 0.0032 cls_loss_causal 0.4305 re_mapping 0.0068 re_causal 0.0162 /// teacc 98.93 lr 0.00010000
+Epoch 305, weight, value: tensor([[-0.0744,  0.0702, -0.1066,  ..., -0.1170, -0.1007,  0.0056],
+        [-0.0800, -0.1568,  0.0044,  ..., -0.0556, -0.0423, -0.0974],
+        [ 0.0370, -0.0941,  0.0574,  ...,  0.1608, -0.1238, -0.0440],
+        ...,
+        [-0.1046, -0.1855,  0.0916,  ..., -0.0175, -0.0478,  0.0714],
+        [ 0.0218,  0.0355, -0.0315,  ..., -0.0820, -0.1009, -0.0211],
+        [-0.1553, -0.0116, -0.0076,  ..., -0.1598,  0.1139,  0.0274]],
+       device='cuda:0'), grad: tensor([[ 8.0585e-04,  8.3521e-06, -3.5763e-03,  ..., -1.2445e-03,
+          1.1599e-04,  1.6861e-02],
+        [ 3.4380e-04,  2.2585e-07,  1.2960e-03,  ..., -4.5052e-03,
+          2.2793e-04, -1.0643e-03],
+        [ 3.0518e-04,  6.7540e-06,  2.4643e-03,  ...,  3.8958e-04,
+          2.1410e-04,  1.8749e-03],
+        ...,
+        [-5.7650e-04,  1.0291e-06, -1.2062e-02,  ..., -9.6634e-06,
+         -4.7340e-03, -2.1729e-02],
+        [ 2.4796e-04,  1.9431e-05,  3.2635e-03,  ...,  1.5774e-03,
+          1.7893e-04,  1.0624e-03],
+        [-8.9765e-05, -2.3112e-05, -6.6032e-03,  ..., -8.5068e-04,
+         -1.0902e-02, -7.2937e-03]], device='cuda:0')
+Epoch 305, bias, value: tensor([ 0.0136,  0.0045, -0.0006,  0.0148, -0.0065, -0.0048,  0.0111,  0.0254,
+        -0.0362,  0.0475], device='cuda:0'), grad: tensor([-0.0150, -0.0115,  0.0239,  0.0206,  0.0176,  0.0095, -0.0213, -0.0515,
+         0.0272,  0.0006], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 304, time 216.91, cls_loss 0.4784 cls_loss_mapping 0.0044 cls_loss_causal 0.4604 re_mapping 0.0066 re_causal 0.0166 /// teacc 98.92 lr 0.00010000
+Epoch 306, weight, value: tensor([[-0.0745,  0.0709, -0.1065,  ..., -0.1168, -0.1010,  0.0046],
+        [-0.0809, -0.1577,  0.0045,  ..., -0.0550, -0.0422, -0.0982],
+        [ 0.0369, -0.0944,  0.0569,  ...,  0.1612, -0.1248, -0.0441],
+        ...,
+        [-0.1055, -0.1858,  0.0918,  ..., -0.0182, -0.0480,  0.0715],
+        [ 0.0228,  0.0356, -0.0311,  ..., -0.0834, -0.1005, -0.0203],
+        [-0.1561, -0.0117, -0.0073,  ..., -0.1599,  0.1139,  0.0269]],
+       device='cuda:0'), grad: tensor([[ 1.5507e-03,  1.1930e-03,  3.6573e-04,  ...,  2.6989e-04,
+          2.7132e-04,  5.9748e-04],
+        [-1.4458e-03,  1.5008e-04,  1.6677e-04,  ...,  1.8406e-04,
+          9.4414e-05,  3.5691e-04],
+        [-2.4261e-02, -2.7585e-04, -2.3010e-02,  ..., -5.2872e-03,
+          2.0099e-04, -1.2183e-04],
+        ...,
+        [-2.3499e-03,  2.3782e-04,  6.0768e-03,  ...,  3.5977e-04,
+          4.0207e-03,  3.6850e-03],
+        [ 1.8959e-03,  1.0862e-03,  5.2118e-04,  ...,  2.9182e-04,
+          5.0497e-04,  9.5797e-04],
+        [ 1.3533e-03,  5.6410e-04, -6.9580e-03,  ...,  4.1842e-04,
+         -3.2291e-03, -8.9340e-03]], device='cuda:0')
+Epoch 306, bias, value: tensor([ 1.3114e-02,  4.2845e-03, -8.3676e-05,  1.5501e-02, -6.0908e-03,
+        -3.9465e-03,  1.1738e-02,  2.4172e-02, -3.6074e-02,  4.6386e-02],
+       device='cuda:0'), grad: tensor([-0.0126,  0.0101, -0.0272,  0.0202,  0.0148, -0.0308, -0.0062,  0.0117,
+         0.0230, -0.0031], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 305, time 217.18, cls_loss 0.4877 cls_loss_mapping 0.0035 cls_loss_causal 0.4658 re_mapping 0.0067 re_causal 0.0178 /// teacc 98.84 lr 0.00010000
+Epoch 307, weight, value: tensor([[-0.0736,  0.0717, -0.1068,  ..., -0.1170, -0.1017,  0.0051],
+        [-0.0805, -0.1583,  0.0044,  ..., -0.0544, -0.0424, -0.0978],
+        [ 0.0366, -0.0940,  0.0566,  ...,  0.1604, -0.1243, -0.0440],
+        ...,
+        [-0.1056, -0.1854,  0.0921,  ..., -0.0180, -0.0488,  0.0714],
+        [ 0.0235,  0.0362, -0.0296,  ..., -0.0820, -0.0994, -0.0203],
+        [-0.1562, -0.0120, -0.0064,  ..., -0.1610,  0.1136,  0.0274]],
+       device='cuda:0'), grad: tensor([[ 4.4674e-05,  2.9545e-03,  1.5032e-04,  ...,  7.5161e-05,
+          1.6272e-04, -3.7719e-06],
+        [ 3.0458e-05,  9.1374e-05,  2.6464e-04,  ...,  2.2900e-04,
+          2.1470e-04,  4.8243e-07],
+        [ 1.2994e-04, -1.1864e-03,  3.8004e-04,  ...,  2.5225e-04,
+         -1.7605e-03,  2.9188e-06],
+        ...,
+        [ 5.6982e-05,  1.4126e-04,  6.6698e-05,  ...,  2.1183e-04,
+          2.3663e-04,  1.8024e-04],
+        [ 6.2275e-04,  6.9094e-04,  5.7459e-04,  ...,  2.7514e-04,
+          4.3344e-04,  1.3053e-04],
+        [ 1.4067e-04, -4.3488e-03,  6.0892e-04,  ...,  1.0216e-04,
+          2.6178e-04,  2.0480e-04]], device='cuda:0')
+Epoch 307, bias, value: tensor([ 0.0149,  0.0051, -0.0007,  0.0145, -0.0056, -0.0048,  0.0109,  0.0234,
+        -0.0349,  0.0465], device='cuda:0'), grad: tensor([ 0.0150,  0.0119, -0.0230, -0.0230, -0.0241,  0.0157,  0.0087,  0.0081,
+         0.0150, -0.0043], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 306, time 216.85, cls_loss 0.4836 cls_loss_mapping 0.0043 cls_loss_causal 0.4539 re_mapping 0.0063 re_causal 0.0160 /// teacc 98.75 lr 0.00010000
+Epoch 308, weight, value: tensor([[-0.0734,  0.0710, -0.1081,  ..., -0.1171, -0.1022,  0.0051],
+        [-0.0796, -0.1585,  0.0063,  ..., -0.0529, -0.0421, -0.0982],
+        [ 0.0365, -0.0941,  0.0567,  ...,  0.1591, -0.1240, -0.0430],
+        ...,
+        [-0.1060, -0.1860,  0.0907,  ..., -0.0182, -0.0500,  0.0708],
+        [ 0.0244,  0.0371, -0.0306,  ..., -0.0827, -0.1008, -0.0222],
+        [-0.1567, -0.0120, -0.0066,  ..., -0.1631,  0.1145,  0.0278]],
+       device='cuda:0'), grad: tensor([[ 9.1362e-04,  2.5272e-03,  3.4256e-03,  ...,  5.3120e-04,
+          9.1553e-04,  2.3098e-03],
+        [ 7.1239e-04,  1.3294e-03,  8.3208e-04,  ...,  3.7241e-04,
+          1.0920e-03,  2.0161e-03],
+        [-3.1322e-05,  5.3644e-04,  1.5802e-03,  ...,  4.5490e-04,
+          1.1988e-03,  3.2692e-03],
+        ...,
+        [ 7.5877e-05,  4.1533e-04,  1.8034e-03,  ...,  3.9077e-04,
+          1.3113e-03,  2.9640e-03],
+        [-3.0494e-04, -8.0252e-04,  1.4925e-03,  ...,  3.2377e-04,
+          1.0796e-03,  2.5482e-03],
+        [ 3.4809e-04,  6.9761e-04, -9.8267e-03,  ..., -2.1095e-03,
+         -1.0658e-02, -1.4778e-02]], device='cuda:0')
+Epoch 308, bias, value: tensor([ 0.0159,  0.0049, -0.0007,  0.0154, -0.0056, -0.0054,  0.0107,  0.0234,
+        -0.0356,  0.0461], device='cuda:0'), grad: tensor([ 0.0445,  0.0290,  0.0324, -0.0342, -0.0321,  0.0039,  0.0320,  0.0439,
+         0.0176, -0.1368], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 307, time 217.19, cls_loss 0.4893 cls_loss_mapping 0.0037 cls_loss_causal 0.4635 re_mapping 0.0063 re_causal 0.0160 /// teacc 98.78 lr 0.00010000
+Epoch 309, weight, value: tensor([[-0.0732,  0.0712, -0.1086,  ..., -0.1171, -0.1022,  0.0055],
+        [-0.0793, -0.1585,  0.0064,  ..., -0.0534, -0.0424, -0.0979],
+        [ 0.0367, -0.0943,  0.0565,  ...,  0.1595, -0.1241, -0.0435],
+        ...,
+        [-0.1066, -0.1875,  0.0918,  ..., -0.0166, -0.0496,  0.0703],
+        [ 0.0242,  0.0378, -0.0314,  ..., -0.0830, -0.0995, -0.0221],
+        [-0.1564, -0.0121, -0.0064,  ..., -0.1626,  0.1139,  0.0277]],
+       device='cuda:0'), grad: tensor([[ 2.1577e-04,  9.2745e-05,  1.5535e-03,  ...,  8.4460e-05,
+          5.2124e-05,  5.0545e-05],
+        [ 3.4547e-04,  6.3896e-05, -2.3670e-03,  ...,  1.5378e-05,
+          1.5244e-05,  1.6138e-05],
+        [ 2.5964e-04,  3.1090e-04,  1.2565e-04,  ...,  2.4483e-05,
+          2.5883e-05,  2.4766e-05],
+        ...,
+        [ 9.9987e-06,  3.1620e-05, -4.6425e-03,  ..., -7.6648e-07,
+         -1.3721e-04,  4.4107e-06],
+        [-2.9993e-04,  1.4734e-04,  6.7115e-05,  ..., -4.6846e-07,
+          4.0196e-06,  2.5436e-05],
+        [ 6.6817e-05,  1.7464e-04,  4.9858e-03,  ...,  2.1100e-05,
+          2.2793e-04,  7.3195e-05]], device='cuda:0')
+Epoch 309, bias, value: tensor([ 0.0161,  0.0063, -0.0001,  0.0144, -0.0071, -0.0046,  0.0100,  0.0236,
+        -0.0351,  0.0457], device='cuda:0'), grad: tensor([ 0.0235, -0.0107,  0.0055, -0.0175,  0.0058, -0.0040, -0.0051,  0.0012,
+         0.0031, -0.0017], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 308, time 217.23, cls_loss 0.4796 cls_loss_mapping 0.0039 cls_loss_causal 0.4584 re_mapping 0.0062 re_causal 0.0155 /// teacc 98.87 lr 0.00010000
+Epoch 310, weight, value: tensor([[-0.0735,  0.0712, -0.1074,  ..., -0.1159, -0.1023,  0.0063],
+        [-0.0792, -0.1566,  0.0054,  ..., -0.0546, -0.0430, -0.0980],
+        [ 0.0388, -0.0932,  0.0563,  ...,  0.1600, -0.1251, -0.0436],
+        ...,
+        [-0.1079, -0.1887,  0.0913,  ..., -0.0179, -0.0497,  0.0704],
+        [ 0.0227,  0.0376, -0.0305,  ..., -0.0818, -0.0992, -0.0231],
+        [-0.1547, -0.0118, -0.0065,  ..., -0.1648,  0.1136,  0.0273]],
+       device='cuda:0'), grad: tensor([[ 5.3930e-04,  1.2941e-03,  1.8299e-04,  ...,  1.1814e-04,
+          1.5879e-03,  7.4768e-04],
+        [ 2.5606e-04,  9.4056e-05,  3.2139e-04,  ...,  1.5438e-04,
+          1.1420e-04,  2.5487e-04],
+        [ 3.0479e-03,  7.3481e-04,  1.4663e-04,  ..., -1.4174e-04,
+          4.3201e-04, -7.2813e-04],
+        ...,
+        [ 2.0933e-04,  1.2469e-04,  2.2638e-04,  ..., -1.0200e-05,
+          2.4891e-04,  2.8276e-04],
+        [ 5.4270e-05, -7.2336e-04, -1.1616e-03,  ...,  2.0668e-05,
+         -4.8637e-03, -3.7746e-03],
+        [-1.2846e-03, -9.1629e-03,  5.8937e-04,  ..., -7.2861e-04,
+         -7.6485e-03, -1.8625e-03]], device='cuda:0')
+Epoch 310, bias, value: tensor([ 0.0157,  0.0068, -0.0004,  0.0142, -0.0063, -0.0044,  0.0107,  0.0229,
+        -0.0353,  0.0454], device='cuda:0'), grad: tensor([ 0.0154, -0.0160, -0.0133,  0.0188,  0.0284,  0.0114, -0.0136,  0.0147,
+        -0.0088, -0.0370], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 309, time 216.82, cls_loss 0.5042 cls_loss_mapping 0.0036 cls_loss_causal 0.4715 re_mapping 0.0064 re_causal 0.0158 /// teacc 98.71 lr 0.00010000
+Epoch 311, weight, value: tensor([[-0.0737,  0.0719, -0.1079,  ..., -0.1159, -0.1024,  0.0086],
+        [-0.0780, -0.1565,  0.0054,  ..., -0.0556, -0.0426, -0.0970],
+        [ 0.0375, -0.0942,  0.0562,  ...,  0.1597, -0.1262, -0.0441],
+        ...,
+        [-0.1088, -0.1891,  0.0918,  ..., -0.0175, -0.0495,  0.0710],
+        [ 0.0222,  0.0380, -0.0310,  ..., -0.0826, -0.0982, -0.0217],
+        [-0.1541, -0.0120, -0.0070,  ..., -0.1658,  0.1136,  0.0257]],
+       device='cuda:0'), grad: tensor([[ 4.0221e-04,  1.6654e-04,  2.7990e-04,  ...,  3.1686e-04,
+          4.4018e-05,  6.9380e-04],
+        [ 8.3637e-04,  2.9111e-04, -1.1406e-03,  ..., -4.4250e-04,
+          2.0814e-04, -1.0366e-03],
+        [ 8.9121e-04,  3.0160e-04,  1.9140e-03,  ...,  1.6184e-03,
+          1.7011e-04,  3.1719e-03],
+        ...,
+        [ 1.9016e-03,  1.6773e-04, -2.8172e-03,  ..., -1.7366e-03,
+          4.4870e-04, -5.6207e-05],
+        [-4.5967e-03, -2.1572e-03,  6.7377e-04,  ...,  5.4693e-04,
+         -1.1654e-03, -2.5597e-03],
+        [ 3.2043e-04,  2.7671e-05, -9.6893e-04,  ..., -6.2418e-04,
+         -1.0567e-03,  4.0793e-04]], device='cuda:0')
+Epoch 311, bias, value: tensor([ 0.0153,  0.0078, -0.0009,  0.0149, -0.0065, -0.0046,  0.0104,  0.0225,
+        -0.0345,  0.0449], device='cuda:0'), grad: tensor([ 0.0127, -0.0048,  0.0294,  0.0127, -0.0192,  0.0077,  0.0201, -0.0225,
+        -0.0146, -0.0217], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 310, time 216.37, cls_loss 0.5123 cls_loss_mapping 0.0039 cls_loss_causal 0.4847 re_mapping 0.0066 re_causal 0.0164 /// teacc 98.83 lr 0.00010000
+Epoch 312, weight, value: tensor([[-0.0740,  0.0720, -0.1078,  ..., -0.1156, -0.1013,  0.0092],
+        [-0.0783, -0.1569,  0.0064,  ..., -0.0560, -0.0423, -0.0974],
+        [ 0.0380, -0.0941,  0.0562,  ...,  0.1595, -0.1268, -0.0442],
+        ...,
+        [-0.1068, -0.1884,  0.0912,  ..., -0.0161, -0.0488,  0.0729],
+        [ 0.0219,  0.0376, -0.0304,  ..., -0.0821, -0.0987, -0.0211],
+        [-0.1534, -0.0112, -0.0063,  ..., -0.1664,  0.1137,  0.0253]],
+       device='cuda:0'), grad: tensor([[ 2.2084e-05,  3.3081e-05,  3.4761e-04,  ...,  9.1255e-05,
+          4.0531e-04,  1.9302e-03],
+        [ 3.9414e-06,  1.0185e-05,  7.2479e-04,  ..., -5.4359e-04,
+          1.5516e-03,  9.1600e-04],
+        [ 1.6794e-05,  1.2606e-05, -3.6411e-03,  ...,  2.3282e-04,
+         -5.1231e-03, -8.4534e-03],
+        ...,
+        [ 1.8761e-05,  1.4856e-05,  1.5383e-03,  ...,  1.1683e-04,
+          2.5368e-03,  5.8632e-03],
+        [ 3.4885e-03,  3.7174e-03,  6.1703e-04,  ...,  1.7476e-04,
+          3.0041e-03,  4.3182e-03],
+        [ 1.5235e-04,  1.4842e-04, -2.3899e-03,  ...,  1.6606e-04,
+         -6.6566e-03,  1.6365e-03]], device='cuda:0')
+Epoch 312, bias, value: tensor([ 0.0147,  0.0071, -0.0013,  0.0152, -0.0060, -0.0050,  0.0106,  0.0236,
+        -0.0348,  0.0452], device='cuda:0'), grad: tensor([ 0.0137,  0.0018, -0.0146, -0.0586, -0.0397,  0.0175,  0.0170,  0.0303,
+         0.0356, -0.0030], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 311, time 216.23, cls_loss 0.4802 cls_loss_mapping 0.0029 cls_loss_causal 0.4524 re_mapping 0.0065 re_causal 0.0166 /// teacc 98.88 lr 0.00010000
+Epoch 313, weight, value: tensor([[-0.0745,  0.0721, -0.1070,  ..., -0.1165, -0.1011,  0.0096],
+        [-0.0783, -0.1566,  0.0069,  ..., -0.0561, -0.0426, -0.0985],
+        [ 0.0367, -0.0944,  0.0569,  ...,  0.1601, -0.1269, -0.0447],
+        ...,
+        [-0.1066, -0.1885,  0.0908,  ..., -0.0170, -0.0499,  0.0737],
+        [ 0.0219,  0.0365, -0.0317,  ..., -0.0825, -0.0991, -0.0211],
+        [-0.1541, -0.0114, -0.0066,  ..., -0.1667,  0.1146,  0.0251]],
+       device='cuda:0'), grad: tensor([[ 2.4867e-04,  2.8396e-04,  7.7772e-04,  ...,  9.8991e-04,
+          4.1842e-04,  1.7195e-03],
+        [ 3.7456e-04,  4.0841e-04,  3.7265e-04,  ...,  7.9536e-04,
+          1.4496e-03,  1.9989e-03],
+        [ 1.7762e-04,  1.9443e-04,  4.1938e-04,  ...,  5.1022e-04,
+          3.0494e-04,  9.2983e-04],
+        ...,
+        [ 9.1970e-05,  3.6407e-04,  3.6221e-03,  ...,  2.2113e-04,
+          3.5238e-04,  1.6365e-03],
+        [ 5.6505e-04,  6.4373e-04,  3.4380e-04,  ...,  5.7077e-04,
+          1.0433e-03,  1.1673e-03],
+        [ 1.1606e-03,  2.9716e-03, -2.4414e-03,  ...,  4.6325e-04,
+          3.4084e-03,  1.4830e-03]], device='cuda:0')
+Epoch 313, bias, value: tensor([ 0.0146,  0.0069, -0.0012,  0.0148, -0.0056, -0.0043,  0.0113,  0.0239,
+        -0.0361,  0.0450], device='cuda:0'), grad: tensor([ 0.0173, -0.0106,  0.0125, -0.0539,  0.0206,  0.0246, -0.0422, -0.0130,
+         0.0178,  0.0268], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 312, time 216.77, cls_loss 0.4927 cls_loss_mapping 0.0032 cls_loss_causal 0.4690 re_mapping 0.0064 re_causal 0.0160 /// teacc 98.77 lr 0.00010000
+Epoch 314, weight, value: tensor([[-0.0746,  0.0720, -0.1066,  ..., -0.1171, -0.1013,  0.0094],
+        [-0.0784, -0.1573,  0.0065,  ..., -0.0564, -0.0428, -0.0988],
+        [ 0.0374, -0.0930,  0.0571,  ...,  0.1599, -0.1276, -0.0443],
+        ...,
+        [-0.1075, -0.1881,  0.0913,  ..., -0.0157, -0.0493,  0.0728],
+        [ 0.0211,  0.0355, -0.0313,  ..., -0.0804, -0.0991, -0.0219],
+        [-0.1540, -0.0116, -0.0068,  ..., -0.1660,  0.1147,  0.0258]],
+       device='cuda:0'), grad: tensor([[ 1.0824e-03, -8.5974e-04, -2.8324e-03,  ..., -3.5820e-03,
+         -8.9979e-04, -4.0779e-03],
+        [ 2.3103e-04,  1.1753e-06,  4.7874e-04,  ...,  6.4754e-04,
+          1.2177e-04,  9.5177e-04],
+        [ 1.8959e-03,  1.5751e-05, -2.0706e-02,  ..., -1.4038e-02,
+          9.9361e-05,  9.6369e-04],
+        ...,
+        [ 2.8038e-04,  1.8440e-07,  2.1606e-02,  ...,  1.5083e-02,
+          1.6940e-04,  6.9380e-04],
+        [ 8.8692e-04,  5.1618e-05,  2.8348e-04,  ...,  3.2377e-04,
+          1.1235e-04,  6.1083e-04],
+        [-1.0742e-02,  1.2666e-05, -2.5158e-03,  ..., -1.2789e-03,
+          1.2994e-04, -2.3289e-03]], device='cuda:0')
+Epoch 314, bias, value: tensor([ 0.0142,  0.0082, -0.0009,  0.0153, -0.0066, -0.0056,  0.0102,  0.0249,
+        -0.0360,  0.0455], device='cuda:0'), grad: tensor([-0.0191,  0.0240, -0.0431,  0.0112,  0.0295, -0.0214,  0.0201,  0.0121,
+         0.0137, -0.0270], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 313, time 217.07, cls_loss 0.4572 cls_loss_mapping 0.0036 cls_loss_causal 0.4257 re_mapping 0.0064 re_causal 0.0162 /// teacc 98.82 lr 0.00010000
+Epoch 315, weight, value: tensor([[-0.0753,  0.0717, -0.1061,  ..., -0.1173, -0.1014,  0.0098],
+        [-0.0775, -0.1587,  0.0066,  ..., -0.0568, -0.0420, -0.1004],
+        [ 0.0370, -0.0930,  0.0575,  ...,  0.1608, -0.1276, -0.0432],
+        ...,
+        [-0.1080, -0.1870,  0.0914,  ..., -0.0162, -0.0496,  0.0737],
+        [ 0.0203,  0.0362, -0.0306,  ..., -0.0784, -0.0996, -0.0208],
+        [-0.1542, -0.0121, -0.0062,  ..., -0.1665,  0.1146,  0.0256]],
+       device='cuda:0'), grad: tensor([[ 4.6349e-03,  2.6274e-04, -7.7105e-04,  ...,  7.7057e-04,
+          2.6608e-04,  2.0676e-03],
+        [ 3.1471e-04,  7.2181e-05, -2.3508e-04,  ..., -3.1929e-03,
+         -6.7663e-04, -7.9346e-03],
+        [ 1.0803e-02,  9.8515e-04,  2.5043e-03,  ...,  2.5845e-03,
+          6.6280e-04,  1.1536e-02],
+        ...,
+        [ 1.1168e-03,  4.8876e-04,  5.5838e-04,  ...,  1.4582e-03,
+          7.7200e-04,  4.3373e-03],
+        [ 4.7264e-03,  6.3753e-04,  9.6178e-04,  ...,  1.1864e-03,
+         -9.4891e-04, -4.1733e-03],
+        [ 6.6376e-03,  8.6021e-04,  9.6703e-04,  ...,  5.3215e-04,
+          6.8321e-03,  1.4633e-02]], device='cuda:0')
+Epoch 315, bias, value: tensor([ 1.3526e-02,  7.0558e-03, -6.3644e-06,  1.5316e-02, -6.6357e-03,
+        -5.6672e-03,  9.3662e-03,  2.5560e-02, -3.5389e-02,  4.5892e-02],
+       device='cuda:0'), grad: tensor([-0.0255, -0.0464,  0.0338, -0.0106,  0.0083,  0.0095, -0.0146,  0.0234,
+        -0.0070,  0.0293], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 314, time 216.96, cls_loss 0.4769 cls_loss_mapping 0.0035 cls_loss_causal 0.4562 re_mapping 0.0061 re_causal 0.0160 /// teacc 98.74 lr 0.00010000
+Epoch 316, weight, value: tensor([[-0.0730,  0.0722, -0.1066,  ..., -0.1169, -0.1001,  0.0105],
+        [-0.0771, -0.1594,  0.0073,  ..., -0.0551, -0.0427, -0.0997],
+        [ 0.0363, -0.0936,  0.0575,  ...,  0.1609, -0.1286, -0.0444],
+        ...,
+        [-0.1090, -0.1881,  0.0911,  ..., -0.0160, -0.0506,  0.0735],
+        [ 0.0199,  0.0358, -0.0319,  ..., -0.0801, -0.1007, -0.0222],
+        [-0.1539, -0.0111, -0.0058,  ..., -0.1668,  0.1148,  0.0255]],
+       device='cuda:0'), grad: tensor([[ 7.0524e-04, -5.5218e-04,  2.4390e-04,  ..., -7.6517e-06,
+         -1.6203e-03,  1.5650e-03],
+        [ 5.2691e-04,  3.7909e-05,  1.1721e-03,  ...,  2.0676e-03,
+          3.1322e-05,  5.2595e-04],
+        [ 1.1511e-03,  5.2881e-04, -1.2522e-03,  ..., -3.4256e-03,
+          3.5858e-04,  9.5224e-04],
+        ...,
+        [ 3.5439e-03,  1.9288e-04,  4.5166e-03,  ...,  1.0786e-03,
+          1.5316e-03,  3.4122e-03],
+        [ 8.5592e-04,  6.6137e-04,  9.9087e-04,  ...,  8.7881e-04,
+          4.9782e-04,  1.0061e-03],
+        [ 1.9474e-03,  1.1606e-03, -6.0997e-03,  ...,  5.5265e-04,
+         -2.9469e-03,  1.3447e-03]], device='cuda:0')
+Epoch 316, bias, value: tensor([ 0.0134,  0.0079, -0.0002,  0.0155, -0.0078, -0.0048,  0.0095,  0.0251,
+        -0.0360,  0.0463], device='cuda:0'), grad: tensor([ 0.0083, -0.0352, -0.0025, -0.0023,  0.0193, -0.0355, -0.0087,  0.0288,
+         0.0156,  0.0123], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 315, time 217.08, cls_loss 0.4735 cls_loss_mapping 0.0032 cls_loss_causal 0.4486 re_mapping 0.0065 re_causal 0.0165 /// teacc 98.71 lr 0.00010000
+Epoch 317, weight, value: tensor([[-0.0745,  0.0713, -0.1069,  ..., -0.1176, -0.1002,  0.0111],
+        [-0.0771, -0.1607,  0.0064,  ..., -0.0559, -0.0422, -0.1000],
+        [ 0.0368, -0.0931,  0.0580,  ...,  0.1594, -0.1271, -0.0434],
+        ...,
+        [-0.1093, -0.1876,  0.0896,  ..., -0.0163, -0.0510,  0.0736],
+        [ 0.0204,  0.0366, -0.0317,  ..., -0.0798, -0.1009, -0.0230],
+        [-0.1544, -0.0120, -0.0054,  ..., -0.1659,  0.1141,  0.0257]],
+       device='cuda:0'), grad: tensor([[ 7.0477e-04, -3.0923e-04,  1.6630e-04,  ..., -3.4189e-04,
+          1.3494e-04,  4.0507e-04],
+        [ 1.8282e-03,  1.1742e-05,  2.1744e-04,  ...,  1.8120e-04,
+          1.4627e-04,  2.1100e-04],
+        [ 1.2722e-03,  1.2550e-03,  7.9751e-05,  ..., -1.1021e-04,
+          1.0747e-04,  2.7895e-04],
+        ...,
+        [ 8.7321e-05,  1.4794e-04,  4.6158e-04,  ...,  2.7227e-04,
+          1.1426e-04,  3.9339e-04],
+        [ 1.4505e-03,  3.4447e-03,  6.5422e-04,  ...,  9.7227e-04,
+          5.6791e-04,  1.1873e-03],
+        [ 1.2255e-03,  1.9159e-03,  6.7377e-04,  ...,  9.9659e-04,
+          8.4305e-04,  1.6136e-03]], device='cuda:0')
+Epoch 317, bias, value: tensor([ 1.3124e-02,  6.9803e-03, -8.3176e-05,  1.6050e-02, -7.8318e-03,
+        -4.1140e-03,  9.8540e-03,  2.5551e-02, -3.5425e-02,  4.4936e-02],
+       device='cuda:0'), grad: tensor([-0.0127,  0.0282,  0.0069, -0.0432, -0.0023,  0.0109,  0.0041,  0.0071,
+        -0.0116,  0.0126], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 316, time 217.23, cls_loss 0.5022 cls_loss_mapping 0.0043 cls_loss_causal 0.4828 re_mapping 0.0065 re_causal 0.0158 /// teacc 98.64 lr 0.00010000
+Epoch 318, weight, value: tensor([[-0.0743,  0.0720, -0.1079,  ..., -0.1181, -0.1013,  0.0102],
+        [-0.0773, -0.1618,  0.0097,  ..., -0.0557, -0.0404, -0.1000],
+        [ 0.0366, -0.0922,  0.0575,  ...,  0.1609, -0.1275, -0.0437],
+        ...,
+        [-0.1096, -0.1884,  0.0893,  ..., -0.0165, -0.0504,  0.0745],
+        [ 0.0207,  0.0364, -0.0319,  ..., -0.0817, -0.1008, -0.0241],
+        [-0.1539, -0.0121, -0.0056,  ..., -0.1661,  0.1144,  0.0270]],
+       device='cuda:0'), grad: tensor([[ 2.8062e-04,  7.4387e-05,  8.8120e-04,  ...,  7.0381e-04,
+          3.7456e-04,  5.0020e-04],
+        [ 1.1206e-04,  1.3471e-04,  8.5258e-04,  ...,  9.2983e-04,
+          2.4414e-04,  1.0109e-03],
+        [ 2.6608e-04,  2.1029e-04, -2.9445e-04,  ..., -5.3596e-04,
+         -1.1265e-04, -1.9360e-03],
+        ...,
+        [ 3.0947e-04,  3.1161e-04,  2.4014e-03,  ...,  2.5673e-03,
+          1.9131e-03,  4.5090e-03],
+        [ 1.9970e-03,  1.7748e-03,  7.3242e-04,  ...,  6.9523e-04,
+          1.6565e-03,  3.1223e-03],
+        [-5.0163e-04, -4.7970e-04,  1.8406e-03,  ...,  2.0237e-03,
+         -9.7370e-04, -1.7166e-03]], device='cuda:0')
+Epoch 318, bias, value: tensor([ 0.0125,  0.0083, -0.0001,  0.0162, -0.0067, -0.0040,  0.0093,  0.0246,
+        -0.0363,  0.0454], device='cuda:0'), grad: tensor([-0.0453,  0.0198, -0.0132, -0.0347, -0.0115, -0.0081,  0.0223,  0.0320,
+         0.0242,  0.0146], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 317, time 217.25, cls_loss 0.4940 cls_loss_mapping 0.0043 cls_loss_causal 0.4677 re_mapping 0.0063 re_causal 0.0161 /// teacc 98.72 lr 0.00010000
+Epoch 319, weight, value: tensor([[-0.0725,  0.0736, -0.1065,  ..., -0.1157, -0.1029,  0.0100],
+        [-0.0778, -0.1616,  0.0083,  ..., -0.0569, -0.0405, -0.1001],
+        [ 0.0358, -0.0929,  0.0570,  ...,  0.1614, -0.1276, -0.0439],
+        ...,
+        [-0.1065, -0.1885,  0.0897,  ..., -0.0168, -0.0515,  0.0753],
+        [ 0.0208,  0.0372, -0.0301,  ..., -0.0786, -0.1002, -0.0242],
+        [-0.1544, -0.0121, -0.0063,  ..., -0.1673,  0.1142,  0.0265]],
+       device='cuda:0'), grad: tensor([[ 0.0041,  0.0047,  0.0018,  ...,  0.0030,  0.0003, -0.0044],
+        [ 0.0002,  0.0002,  0.0008,  ...,  0.0021,  0.0003,  0.0008],
+        [ 0.0024,  0.0020, -0.0059,  ...,  0.0022, -0.0020, -0.0012],
+        ...,
+        [ 0.0004,  0.0001,  0.0023,  ...,  0.0023,  0.0004,  0.0013],
+        [ 0.0222,  0.0213,  0.0033,  ...,  0.0070,  0.0002,  0.0007],
+        [-0.0019, -0.0035, -0.0058,  ..., -0.0039, -0.0005,  0.0005]],
+       device='cuda:0')
+Epoch 319, bias, value: tensor([ 0.0120,  0.0087, -0.0003,  0.0155, -0.0063, -0.0038,  0.0092,  0.0250,
+        -0.0355,  0.0446], device='cuda:0'), grad: tensor([-0.0172,  0.0221, -0.0059, -0.0523,  0.0216,  0.0106, -0.0176,  0.0238,
+         0.0782, -0.0634], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 318, time 217.23, cls_loss 0.4809 cls_loss_mapping 0.0034 cls_loss_causal 0.4674 re_mapping 0.0065 re_causal 0.0170 /// teacc 98.74 lr 0.00010000
+Epoch 320, weight, value: tensor([[-0.0742,  0.0727, -0.1068,  ..., -0.1150, -0.1041,  0.0107],
+        [-0.0784, -0.1619,  0.0084,  ..., -0.0576, -0.0400, -0.1016],
+        [ 0.0364, -0.0931,  0.0564,  ...,  0.1612, -0.1270, -0.0432],
+        ...,
+        [-0.1074, -0.1886,  0.0904,  ..., -0.0162, -0.0519,  0.0748],
+        [ 0.0204,  0.0362, -0.0303,  ..., -0.0784, -0.1000, -0.0227],
+        [-0.1536, -0.0118, -0.0069,  ..., -0.1686,  0.1141,  0.0260]],
+       device='cuda:0'), grad: tensor([[ 9.6634e-06, -4.7326e-04,  3.2234e-04,  ...,  4.6015e-04,
+          2.7251e-04,  3.3665e-04],
+        [ 1.6525e-05, -1.0705e-04, -1.1988e-03,  ..., -2.3422e-03,
+         -1.0777e-03, -2.2755e-03],
+        [ 1.4849e-05,  3.1978e-05,  2.2411e-03,  ...,  1.6756e-03,
+          4.5514e-04,  9.1982e-04],
+        ...,
+        [ 1.2212e-05,  2.8312e-05,  1.5240e-03,  ...,  1.7328e-03,
+          2.1839e-03,  1.4687e-03],
+        [-2.0134e-04,  6.1929e-05,  4.1437e-04,  ..., -9.5415e-04,
+         -1.3676e-03, -3.9902e-03],
+        [ 1.3374e-05,  8.0287e-05,  2.7695e-03,  ...,  2.6035e-03,
+          1.8635e-03,  2.5158e-03]], device='cuda:0')
+Epoch 320, bias, value: tensor([ 0.0137,  0.0081,  0.0003,  0.0150, -0.0056, -0.0048,  0.0094,  0.0249,
+        -0.0355,  0.0438], device='cuda:0'), grad: tensor([ 0.0077, -0.0186,  0.0150,  0.0116, -0.0057, -0.0207,  0.0152, -0.0084,
+        -0.0167,  0.0205], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 319, time 216.53, cls_loss 0.5118 cls_loss_mapping 0.0036 cls_loss_causal 0.4834 re_mapping 0.0061 re_causal 0.0156 /// teacc 98.85 lr 0.00010000
+Epoch 321, weight, value: tensor([[-0.0742,  0.0724, -0.1067,  ..., -0.1162, -0.1049,  0.0110],
+        [-0.0784, -0.1618,  0.0083,  ..., -0.0574, -0.0395, -0.1016],
+        [ 0.0361, -0.0942,  0.0564,  ...,  0.1604, -0.1274, -0.0427],
+        ...,
+        [-0.1078, -0.1896,  0.0917,  ..., -0.0168, -0.0509,  0.0748],
+        [ 0.0203,  0.0369, -0.0308,  ..., -0.0804, -0.1009, -0.0227],
+        [-0.1537, -0.0118, -0.0074,  ..., -0.1669,  0.1152,  0.0259]],
+       device='cuda:0'), grad: tensor([[ 1.4365e-04, -3.0667e-05,  1.1081e-04,  ...,  1.6344e-04,
+          3.0708e-04,  3.3665e-04],
+        [ 4.3917e-04,  3.4499e-04,  1.1009e-04,  ...,  2.7451e-02,
+          1.1663e-03,  9.6846e-04],
+        [-4.2707e-05, -9.5189e-05, -1.3304e-04,  ..., -2.7969e-02,
+          3.7766e-04,  4.4417e-04],
+        ...,
+        [ 8.2016e-05,  1.1826e-04,  9.5367e-04,  ...,  5.3549e-04,
+          7.7629e-04,  3.1471e-03],
+        [-6.9523e-04,  1.0866e-04,  1.5867e-04,  ...,  7.0810e-05,
+         -3.3116e-04, -6.6471e-04],
+        [ 1.8144e-04, -2.1005e-04, -2.6779e-03,  ..., -1.0109e-03,
+         -7.1239e-04, -3.6602e-03]], device='cuda:0')
+Epoch 321, bias, value: tensor([ 0.0138,  0.0083,  0.0001,  0.0148, -0.0053, -0.0049,  0.0091,  0.0247,
+        -0.0350,  0.0436], device='cuda:0'), grad: tensor([ 0.0045,  0.0353, -0.0219, -0.0190, -0.0068, -0.0048,  0.0069,  0.0106,
+         0.0024, -0.0072], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 320, time 217.01, cls_loss 0.4999 cls_loss_mapping 0.0025 cls_loss_causal 0.4724 re_mapping 0.0068 re_causal 0.0173 /// teacc 98.87 lr 0.00010000
+Epoch 322, weight, value: tensor([[-0.0745,  0.0728, -0.1069,  ..., -0.1172, -0.1060,  0.0106],
+        [-0.0801, -0.1644,  0.0077,  ..., -0.0582, -0.0391, -0.1011],
+        [ 0.0359, -0.0937,  0.0568,  ...,  0.1611, -0.1266, -0.0428],
+        ...,
+        [-0.1092, -0.1907,  0.0915,  ..., -0.0173, -0.0504,  0.0751],
+        [ 0.0213,  0.0376, -0.0309,  ..., -0.0813, -0.1018, -0.0235],
+        [-0.1547, -0.0118, -0.0069,  ..., -0.1665,  0.1153,  0.0260]],
+       device='cuda:0'), grad: tensor([[ 1.1051e-04,  1.2445e-04,  2.8944e-04,  ...,  4.8250e-05,
+          2.8729e-04, -2.0790e-03],
+        [ 2.1386e-04,  4.6164e-05,  1.1146e-05,  ...,  2.8983e-06,
+          2.0409e-04,  9.4652e-04],
+        [ 5.9664e-05,  1.6317e-05, -1.0020e-04,  ..., -2.0516e-04,
+          9.0241e-05,  5.7602e-04],
+        ...,
+        [ 2.2554e-04,  4.3797e-04,  6.8665e-04,  ...,  9.9421e-05,
+          9.4509e-04,  2.2659e-03],
+        [-9.5272e-04,  2.3842e-04,  1.6832e-04,  ...,  1.9103e-05,
+         -4.4537e-04, -1.5135e-03],
+        [-2.5535e-04,  2.7800e-04, -4.3607e-04,  ..., -2.0802e-04,
+         -1.7471e-03,  1.9073e-03]], device='cuda:0')
+Epoch 322, bias, value: tensor([ 0.0138,  0.0083, -0.0005,  0.0159, -0.0055, -0.0055,  0.0088,  0.0249,
+        -0.0355,  0.0444], device='cuda:0'), grad: tensor([-0.0133, -0.0086,  0.0153, -0.0405,  0.0215,  0.0150,  0.0169, -0.0004,
+         0.0028, -0.0088], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 321, time 216.77, cls_loss 0.5124 cls_loss_mapping 0.0035 cls_loss_causal 0.4812 re_mapping 0.0066 re_causal 0.0169 /// teacc 98.75 lr 0.00010000
+Epoch 323, weight, value: tensor([[-0.0748,  0.0733, -0.1068,  ..., -0.1172, -0.1068,  0.0110],
+        [-0.0818, -0.1642,  0.0066,  ..., -0.0598, -0.0395, -0.1025],
+        [ 0.0355, -0.0941,  0.0562,  ...,  0.1603, -0.1262, -0.0428],
+        ...,
+        [-0.1094, -0.1918,  0.0917,  ..., -0.0174, -0.0503,  0.0757],
+        [ 0.0211,  0.0372, -0.0305,  ..., -0.0801, -0.1004, -0.0227],
+        [-0.1554, -0.0117, -0.0081,  ..., -0.1678,  0.1140,  0.0255]],
+       device='cuda:0'), grad: tensor([[ 6.7520e-04,  5.7258e-06,  6.3956e-05,  ...,  1.0049e-04,
+          9.3225e-07,  4.7445e-04],
+        [ 1.9398e-03,  1.9744e-06,  3.4869e-05,  ...,  5.6118e-05,
+          5.6811e-08,  1.3113e-03],
+        [-3.8204e-03, -3.1173e-05, -2.2907e-03,  ..., -3.7384e-03,
+          6.7521e-07, -1.3628e-03],
+        ...,
+        [ 1.4842e-04,  1.5637e-06,  1.9753e-04,  ...,  3.1829e-04,
+          6.6962e-07, -1.6527e-03],
+        [ 4.5753e-04,  2.6509e-05,  1.0214e-03,  ...,  1.6451e-03,
+          7.7039e-06,  2.2519e-04],
+        [ 3.2157e-05,  1.6034e-05,  3.2723e-05,  ...,  5.2691e-05,
+          7.5661e-06,  2.2995e-04]], device='cuda:0')
+Epoch 323, bias, value: tensor([ 0.0142,  0.0073, -0.0007,  0.0161, -0.0049, -0.0065,  0.0091,  0.0255,
+        -0.0343,  0.0433], device='cuda:0'), grad: tensor([-0.0173,  0.0242, -0.0121,  0.0166,  0.0126, -0.0216,  0.0110, -0.0118,
+         0.0170, -0.0185], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 322, time 216.91, cls_loss 0.4596 cls_loss_mapping 0.0051 cls_loss_causal 0.4392 re_mapping 0.0062 re_causal 0.0150 /// teacc 98.74 lr 0.00010000
+Epoch 324, weight, value: tensor([[-0.0752,  0.0724, -0.1069,  ..., -0.1163, -0.1076,  0.0109],
+        [-0.0830, -0.1651,  0.0067,  ..., -0.0595, -0.0396, -0.1018],
+        [ 0.0364, -0.0944,  0.0577,  ...,  0.1616, -0.1263, -0.0430],
+        ...,
+        [-0.1095, -0.1920,  0.0892,  ..., -0.0187, -0.0516,  0.0757],
+        [ 0.0219,  0.0378, -0.0305,  ..., -0.0804, -0.1001, -0.0234],
+        [-0.1548, -0.0112, -0.0079,  ..., -0.1667,  0.1135,  0.0245]],
+       device='cuda:0'), grad: tensor([[-1.7080e-03, -2.7637e-03,  1.6857e-06,  ..., -8.4341e-06,
+          3.3677e-06, -1.1568e-03],
+        [ 2.6917e-04,  9.3102e-05,  2.2445e-06,  ...,  1.0151e-06,
+          4.7982e-06,  6.8367e-05],
+        [-4.0588e-03,  3.6931e-04,  1.6332e-05,  ...,  5.5879e-05,
+          2.0072e-05,  4.5824e-04],
+        ...,
+        [ 7.6532e-04,  1.5330e-04, -8.7261e-05,  ..., -1.9342e-05,
+         -4.6566e-06,  5.1451e-04],
+        [ 1.9913e-03,  7.5960e-04,  2.1141e-06,  ..., -4.6432e-05,
+          3.0026e-05,  1.2674e-03],
+        [ 4.8790e-03,  3.4666e-04,  9.1016e-05,  ...,  6.6876e-05,
+          1.0854e-04,  1.9989e-03]], device='cuda:0')
+Epoch 324, bias, value: tensor([ 0.0139,  0.0079,  0.0003,  0.0163, -0.0058, -0.0061,  0.0091,  0.0239,
+        -0.0344,  0.0438], device='cuda:0'), grad: tensor([-0.0505,  0.0077, -0.0203,  0.0104,  0.0086,  0.0083,  0.0102, -0.0152,
+         0.0128,  0.0281], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 323, time 216.94, cls_loss 0.4973 cls_loss_mapping 0.0040 cls_loss_causal 0.4717 re_mapping 0.0059 re_causal 0.0150 /// teacc 98.68 lr 0.00010000
+Epoch 325, weight, value: tensor([[-0.0759,  0.0717, -0.1075,  ..., -0.1181, -0.1085,  0.0106],
+        [-0.0835, -0.1649,  0.0077,  ..., -0.0596, -0.0384, -0.1023],
+        [ 0.0366, -0.0935,  0.0570,  ...,  0.1616, -0.1277, -0.0434],
+        ...,
+        [-0.1091, -0.1902,  0.0891,  ..., -0.0186, -0.0511,  0.0752],
+        [ 0.0211,  0.0369, -0.0307,  ..., -0.0808, -0.0994, -0.0232],
+        [-0.1554, -0.0113, -0.0066,  ..., -0.1662,  0.1148,  0.0259]],
+       device='cuda:0'), grad: tensor([[-3.9554e-04, -1.5659e-03,  2.2840e-04,  ...,  3.6860e-04,
+          2.4557e-04,  3.9554e-04],
+        [-8.5878e-04, -2.7940e-08, -3.3245e-03,  ..., -5.7297e-03,
+         -1.8454e-04, -2.7237e-03],
+        [ 7.4577e-04,  1.4830e-04,  2.7847e-03,  ...,  4.1428e-03,
+          8.4734e-04,  2.5063e-03],
+        ...,
+        [ 2.9159e-04,  8.7202e-05,  1.4114e-03,  ...,  2.0981e-03,
+          8.1348e-04,  1.6184e-03],
+        [-6.7329e-04, -5.3215e-04, -8.2791e-05,  ...,  6.0320e-04,
+         -1.4763e-03, -9.5177e-04],
+        [ 1.1683e-04,  4.0126e-04,  3.3307e-04,  ...,  5.1737e-04,
+          3.6716e-04,  5.9080e-04]], device='cuda:0')
+Epoch 325, bias, value: tensor([ 1.2629e-02,  8.2973e-03,  6.6948e-05,  1.5399e-02, -5.8506e-03,
+        -5.8256e-03,  9.5625e-03,  2.3627e-02, -3.4739e-02,  4.5730e-02],
+       device='cuda:0'), grad: tensor([ 0.0102, -0.0338, -0.0009,  0.0122,  0.0185, -0.0172, -0.0164,  0.0257,
+        -0.0165,  0.0183], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 324, time 217.06, cls_loss 0.4752 cls_loss_mapping 0.0022 cls_loss_causal 0.4493 re_mapping 0.0064 re_causal 0.0166 /// teacc 98.77 lr 0.00010000
+Epoch 326, weight, value: tensor([[-0.0778,  0.0708, -0.1078,  ..., -0.1185, -0.1091,  0.0109],
+        [-0.0832, -0.1658,  0.0077,  ..., -0.0591, -0.0384, -0.1025],
+        [ 0.0364, -0.0935,  0.0560,  ...,  0.1608, -0.1279, -0.0435],
+        ...,
+        [-0.1095, -0.1909,  0.0894,  ..., -0.0180, -0.0512,  0.0751],
+        [ 0.0217,  0.0366, -0.0307,  ..., -0.0811, -0.0992, -0.0230],
+        [-0.1566, -0.0113, -0.0063,  ..., -0.1669,  0.1157,  0.0259]],
+       device='cuda:0'), grad: tensor([[ 1.1027e-05, -2.3198e-04,  1.5163e-04,  ...,  1.1444e-04,
+          7.9535e-07,  2.5965e-06],
+        [ 4.2498e-05, -4.0680e-05,  3.7289e-04,  ...,  7.0095e-04,
+          2.5760e-06,  2.2829e-05],
+        [ 4.7415e-05,  1.1459e-05,  2.3103e-04,  ..., -1.6680e-03,
+          1.3644e-06,  3.4660e-05],
+        ...,
+        [-4.5090e-03,  1.1206e-05, -1.6565e-03,  ...,  5.2795e-03,
+          8.8096e-05,  3.4571e-04],
+        [ 4.2763e-03,  4.6343e-05,  7.0381e-04,  ...,  5.2214e-04,
+          7.5735e-06,  6.2943e-03],
+        [ 4.5395e-03,  2.2799e-05, -4.3716e-03,  ..., -8.0338e-03,
+         -8.5831e-04, -3.5095e-04]], device='cuda:0')
+Epoch 326, bias, value: tensor([ 0.0121,  0.0092, -0.0003,  0.0149, -0.0045, -0.0051,  0.0084,  0.0244,
+        -0.0353,  0.0451], device='cuda:0'), grad: tensor([ 0.0140, -0.0103,  0.0134,  0.0167, -0.0028, -0.0175, -0.0471, -0.0166,
+         0.0394,  0.0109], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 325, time 216.74, cls_loss 0.4993 cls_loss_mapping 0.0033 cls_loss_causal 0.4657 re_mapping 0.0065 re_causal 0.0172 /// teacc 98.85 lr 0.00010000
+Epoch 327, weight, value: tensor([[-0.0772,  0.0713, -0.1068,  ..., -0.1182, -0.1104,  0.0104],
+        [-0.0851, -0.1653,  0.0075,  ..., -0.0585, -0.0397, -0.1034],
+        [ 0.0368, -0.0932,  0.0555,  ...,  0.1600, -0.1275, -0.0418],
+        ...,
+        [-0.1090, -0.1920,  0.0890,  ..., -0.0174, -0.0518,  0.0742],
+        [ 0.0215,  0.0371, -0.0302,  ..., -0.0817, -0.0989, -0.0233],
+        [-0.1557, -0.0113, -0.0062,  ..., -0.1669,  0.1160,  0.0256]],
+       device='cuda:0'), grad: tensor([[ 1.0881e-03,  1.8015e-03,  1.0643e-03,  ...,  1.6918e-03,
+          1.6165e-03,  3.8013e-03],
+        [-4.7475e-05,  1.7822e-04,  3.5071e-04,  ...,  2.5964e-04,
+         -2.3365e-05,  1.2360e-03],
+        [ 6.8998e-04,  1.0214e-03, -2.8934e-03,  ..., -3.2921e-03,
+          1.0805e-03,  3.0136e-03],
+        ...,
+        [ 1.1325e-04,  1.1063e-04,  5.6553e-04,  ...,  3.4008e-03,
+          3.9607e-05,  1.4887e-03],
+        [ 1.1940e-03,  1.7338e-03,  9.1267e-04,  ..., -1.0455e-04,
+          2.0485e-03,  3.9711e-03],
+        [ 2.8944e-04,  3.2854e-04,  2.5082e-03,  ...,  1.1644e-03,
+          5.8222e-04,  1.7643e-03]], device='cuda:0')
+Epoch 327, bias, value: tensor([ 0.0122,  0.0103,  0.0001,  0.0145, -0.0041, -0.0052,  0.0080,  0.0247,
+        -0.0358,  0.0442], device='cuda:0'), grad: tensor([ 0.0212,  0.0109,  0.0095, -0.0777,  0.0183,  0.0116, -0.0163,  0.0095,
+        -0.0054,  0.0184], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 326, time 217.13, cls_loss 0.4773 cls_loss_mapping 0.0043 cls_loss_causal 0.4618 re_mapping 0.0060 re_causal 0.0161 /// teacc 98.77 lr 0.00010000
+Epoch 328, weight, value: tensor([[-0.0776,  0.0729, -0.1067,  ..., -0.1182, -0.1097,  0.0109],
+        [-0.0859, -0.1667,  0.0074,  ..., -0.0581, -0.0396, -0.1033],
+        [ 0.0360, -0.0931,  0.0554,  ...,  0.1601, -0.1277, -0.0430],
+        ...,
+        [-0.1087, -0.1915,  0.0904,  ..., -0.0168, -0.0509,  0.0755],
+        [ 0.0218,  0.0352, -0.0307,  ..., -0.0822, -0.0992, -0.0233],
+        [-0.1546, -0.0099, -0.0068,  ..., -0.1675,  0.1154,  0.0244]],
+       device='cuda:0'), grad: tensor([[ 1.2457e-04, -8.2159e-04,  1.3351e-04,  ...,  1.8090e-05,
+          5.0038e-05,  1.0414e-03],
+        [ 4.9621e-05,  1.6484e-06,  9.4950e-05,  ...,  5.5358e-06,
+         -4.8971e-04,  4.2939e-04],
+        [-4.9965e-07,  2.8200e-06,  2.0742e-04,  ..., -2.1482e-04,
+          4.7237e-05,  6.4898e-04],
+        ...,
+        [-4.9925e-04,  1.1928e-05, -1.3409e-03,  ...,  1.3173e-04,
+          4.3559e-04, -2.3594e-03],
+        [ 8.4996e-05,  3.3647e-05,  2.5678e-04,  ...,  5.6565e-05,
+          4.0865e-04,  1.0519e-03],
+        [-1.5044e-04, -1.2660e-04,  2.2101e-04,  ..., -1.2302e-04,
+         -1.6384e-03,  3.0541e-04]], device='cuda:0')
+Epoch 328, bias, value: tensor([ 1.3299e-02,  9.8099e-03, -1.2428e-05,  1.5741e-02, -4.4775e-03,
+        -6.7836e-03,  7.8718e-03,  2.4853e-02, -3.4515e-02,  4.3177e-02],
+       device='cuda:0'), grad: tensor([ 0.0062,  0.0016,  0.0057,  0.0071, -0.0195,  0.0056, -0.0246, -0.0019,
+         0.0089,  0.0111], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 327, time 217.48, cls_loss 0.5054 cls_loss_mapping 0.0039 cls_loss_causal 0.4905 re_mapping 0.0055 re_causal 0.0143 /// teacc 98.73 lr 0.00010000
+Epoch 329, weight, value: tensor([[-0.0775,  0.0730, -0.1067,  ..., -0.1181, -0.1103,  0.0114],
+        [-0.0871, -0.1678,  0.0064,  ..., -0.0593, -0.0389, -0.1033],
+        [ 0.0372, -0.0931,  0.0550,  ...,  0.1602, -0.1290, -0.0430],
+        ...,
+        [-0.1087, -0.1915,  0.0910,  ..., -0.0165, -0.0505,  0.0752],
+        [ 0.0208,  0.0349, -0.0312,  ..., -0.0822, -0.0992, -0.0239],
+        [-0.1544, -0.0099, -0.0065,  ..., -0.1668,  0.1161,  0.0251]],
+       device='cuda:0'), grad: tensor([[ 1.3800e-03,  1.5697e-03,  2.1515e-03,  ...,  6.4087e-04,
+          1.4771e-06,  7.0620e-04],
+        [ 1.1975e-04,  1.0151e-04, -2.2209e-04,  ..., -3.7432e-04,
+          2.2491e-07, -7.9584e-04],
+        [ 1.4610e-03,  9.6941e-04, -1.9943e-02,  ..., -3.1776e-03,
+          3.4906e-06,  1.0500e-03],
+        ...,
+        [ 1.3053e-04,  9.5189e-05,  1.2238e-02,  ...,  3.9253e-03,
+          3.6880e-06,  1.2712e-03],
+        [-2.4068e-04, -1.6460e-03,  8.8692e-04,  ..., -4.2653e-04,
+          2.3376e-06,  4.8089e-04],
+        [ 5.2929e-04,  5.8985e-04,  1.7624e-03,  ...,  3.2377e-04,
+          7.0371e-06,  7.0429e-04]], device='cuda:0')
+Epoch 329, bias, value: tensor([ 0.0135,  0.0090,  0.0002,  0.0159, -0.0055, -0.0061,  0.0083,  0.0251,
+        -0.0354,  0.0440], device='cuda:0'), grad: tensor([-0.0093, -0.0105, -0.0359, -0.0065,  0.0112,  0.0023, -0.0114,  0.0551,
+        -0.0096,  0.0147], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 328, time 217.19, cls_loss 0.4546 cls_loss_mapping 0.0032 cls_loss_causal 0.4316 re_mapping 0.0060 re_causal 0.0149 /// teacc 98.70 lr 0.00010000
+Epoch 330, weight, value: tensor([[-0.0781,  0.0726, -0.1078,  ..., -0.1183, -0.1106,  0.0113],
+        [-0.0874, -0.1689,  0.0059,  ..., -0.0589, -0.0376, -0.1037],
+        [ 0.0371, -0.0934,  0.0549,  ...,  0.1602, -0.1309, -0.0436],
+        ...,
+        [-0.1085, -0.1933,  0.0911,  ..., -0.0160, -0.0511,  0.0755],
+        [ 0.0205,  0.0338, -0.0323,  ..., -0.0827, -0.0988, -0.0241],
+        [-0.1536, -0.0089, -0.0065,  ..., -0.1674,  0.1155,  0.0252]],
+       device='cuda:0'), grad: tensor([[ 1.3158e-05,  1.5612e-03,  4.6778e-04,  ...,  2.1133e-03,
+          4.3660e-05,  4.8733e-04],
+        [ 8.7768e-06,  3.7193e-05,  4.4107e-04,  ..., -2.1973e-03,
+          1.6403e-03,  2.8973e-03],
+        [ 2.0428e-03, -1.0042e-03, -2.1172e-03,  ...,  7.0763e-04,
+         -3.8013e-03, -5.9052e-03],
+        ...,
+        [ 9.1136e-05,  3.0923e-04, -1.1005e-03,  ..., -3.5119e-04,
+          6.8188e-04,  1.7395e-03],
+        [-3.7022e-03,  6.3419e-04,  1.4620e-03,  ...,  1.1568e-03,
+          2.6417e-03,  2.3804e-03],
+        [ 1.4156e-05,  2.0981e-04,  8.2397e-04,  ...,  3.9530e-04,
+          4.9263e-05,  8.2922e-04]], device='cuda:0')
+Epoch 330, bias, value: tensor([ 0.0129,  0.0098,  0.0011,  0.0166, -0.0063, -0.0055,  0.0078,  0.0250,
+        -0.0363,  0.0437], device='cuda:0'), grad: tensor([ 0.0244,  0.0067,  0.0021, -0.0236,  0.0223, -0.0320, -0.0037, -0.0097,
+        -0.0054,  0.0189], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 329, time 216.99, cls_loss 0.4674 cls_loss_mapping 0.0026 cls_loss_causal 0.4416 re_mapping 0.0064 re_causal 0.0159 /// teacc 98.73 lr 0.00010000
+Epoch 331, weight, value: tensor([[-0.0788,  0.0727, -0.1081,  ..., -0.1185, -0.1107,  0.0117],
+        [-0.0875, -0.1687,  0.0060,  ..., -0.0585, -0.0374, -0.1041],
+        [ 0.0372, -0.0944,  0.0554,  ...,  0.1600, -0.1300, -0.0429],
+        ...,
+        [-0.1082, -0.1943,  0.0915,  ..., -0.0170, -0.0513,  0.0756],
+        [ 0.0208,  0.0345, -0.0314,  ..., -0.0812, -0.0992, -0.0239],
+        [-0.1531, -0.0097, -0.0072,  ..., -0.1675,  0.1152,  0.0247]],
+       device='cuda:0'), grad: tensor([[-3.6240e-03, -7.0457e-03,  1.0653e-03,  ...,  9.5987e-04,
+          2.1636e-04,  1.9693e-04],
+        [ 1.1462e-04,  1.1152e-04,  2.0051e-04,  ...,  4.2111e-05,
+          1.3435e-04,  1.4532e-04],
+        [ 1.8132e-04,  4.1604e-04,  5.1928e-04,  ...,  4.1032e-04,
+          1.7273e-04,  1.6940e-04],
+        ...,
+        [ 1.1402e-04,  2.5892e-04,  6.7329e-04,  ...,  3.2473e-04,
+          4.8685e-04,  4.7326e-04],
+        [-2.4204e-03,  7.8869e-04, -1.3132e-03,  ...,  5.0688e-04,
+         -1.3208e-03, -1.7567e-03],
+        [ 2.7609e-04,  6.2227e-04, -1.5564e-03,  ...,  3.9887e-04,
+         -3.4657e-03, -3.9635e-03]], device='cuda:0')
+Epoch 331, bias, value: tensor([ 0.0123,  0.0094,  0.0008,  0.0159, -0.0068, -0.0048,  0.0091,  0.0252,
+        -0.0358,  0.0436], device='cuda:0'), grad: tensor([ 0.0002,  0.0058,  0.0078,  0.0095,  0.0266,  0.0039, -0.0119, -0.0223,
+        -0.0241,  0.0045], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 330, time 216.84, cls_loss 0.5300 cls_loss_mapping 0.0037 cls_loss_causal 0.5056 re_mapping 0.0062 re_causal 0.0159 /// teacc 98.73 lr 0.00010000
+Epoch 332, weight, value: tensor([[-0.0791,  0.0718, -0.1068,  ..., -0.1189, -0.1115,  0.0119],
+        [-0.0874, -0.1704,  0.0063,  ..., -0.0583, -0.0380, -0.1055],
+        [ 0.0377, -0.0943,  0.0545,  ...,  0.1595, -0.1294, -0.0437],
+        ...,
+        [-0.1089, -0.1956,  0.0927,  ..., -0.0159, -0.0517,  0.0765],
+        [ 0.0212,  0.0333, -0.0320,  ..., -0.0815, -0.0993, -0.0231],
+        [-0.1538, -0.0092, -0.0082,  ..., -0.1685,  0.1151,  0.0242]],
+       device='cuda:0'), grad: tensor([[ 8.5163e-04,  1.5509e-04,  3.6454e-04,  ...,  7.2908e-04,
+          3.6144e-04,  2.7924e-03],
+        [ 8.0490e-04,  1.4031e-04,  1.5354e-03,  ...,  6.0158e-03,
+         -1.6556e-03, -4.0894e-03],
+        [-2.2564e-03, -2.5082e-04, -1.6060e-03,  ..., -2.3329e-04,
+         -1.1473e-03, -8.5526e-03],
+        ...,
+        [ 2.8133e-04,  1.4555e-04, -5.1498e-04,  ..., -2.6941e-04,
+          6.2275e-04,  1.0614e-03],
+        [ 1.5926e-04, -1.3943e-03, -2.5415e-04,  ...,  1.1474e-04,
+          2.3651e-04,  1.0128e-03],
+        [ 2.1088e-04, -8.4519e-05,  4.2439e-04,  ...,  1.7715e-04,
+          4.8470e-04,  1.3838e-03]], device='cuda:0')
+Epoch 332, bias, value: tensor([ 0.0121,  0.0088,  0.0001,  0.0160, -0.0064, -0.0043,  0.0097,  0.0256,
+        -0.0356,  0.0431], device='cuda:0'), grad: tensor([-0.0109,  0.0116, -0.0460, -0.0067,  0.0161,  0.0057, -0.0083,  0.0164,
+         0.0078,  0.0144], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 331, time 217.34, cls_loss 0.4920 cls_loss_mapping 0.0031 cls_loss_causal 0.4679 re_mapping 0.0063 re_causal 0.0150 /// teacc 98.77 lr 0.00010000
+Epoch 333, weight, value: tensor([[-0.0786,  0.0720, -0.1062,  ..., -0.1169, -0.1130,  0.0113],
+        [-0.0870, -0.1701,  0.0074,  ..., -0.0589, -0.0375, -0.1034],
+        [ 0.0382, -0.0941,  0.0549,  ...,  0.1591, -0.1310, -0.0430],
+        ...,
+        [-0.1098, -0.1963,  0.0915,  ..., -0.0162, -0.0521,  0.0761],
+        [ 0.0222,  0.0342, -0.0325,  ..., -0.0808, -0.0999, -0.0226],
+        [-0.1530, -0.0087, -0.0058,  ..., -0.1687,  0.1163,  0.0240]],
+       device='cuda:0'), grad: tensor([[-2.5902e-03, -4.8141e-03, -3.2825e-03,  ..., -8.2159e-04,
+         -8.8310e-04, -2.2650e-04],
+        [ 2.3913e-04,  1.6904e-04, -4.8876e-04,  ..., -3.7231e-03,
+          2.9135e-04,  5.5885e-04],
+        [ 8.4496e-04, -4.9667e-03,  3.8934e-04,  ...,  1.4181e-03,
+          2.1231e-04, -8.6288e-03],
+        ...,
+        [ 4.2367e-04,  1.0324e-04,  2.4796e-04,  ...,  5.8079e-04,
+          2.1374e-04,  4.2701e-04],
+        [ 4.6806e-03,  1.2598e-03, -5.8556e-04,  ..., -5.7757e-05,
+         -1.9474e-03, -3.1185e-03],
+        [ 2.0809e-03,  1.4699e-04,  1.5557e-04,  ...,  6.3479e-05,
+          9.9778e-05,  6.5470e-04]], device='cuda:0')
+Epoch 333, bias, value: tensor([ 0.0115,  0.0095,  0.0009,  0.0142, -0.0061, -0.0056,  0.0099,  0.0255,
+        -0.0349,  0.0440], device='cuda:0'), grad: tensor([-0.0461, -0.0280, -0.0079, -0.0081,  0.0164,  0.0571,  0.0211,  0.0156,
+        -0.0335,  0.0134], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 332, time 217.01, cls_loss 0.5127 cls_loss_mapping 0.0044 cls_loss_causal 0.4854 re_mapping 0.0062 re_causal 0.0156 /// teacc 98.79 lr 0.00010000
+Epoch 334, weight, value: tensor([[-0.0790,  0.0707, -0.1057,  ..., -0.1161, -0.1134,  0.0115],
+        [-0.0878, -0.1709,  0.0066,  ..., -0.0581, -0.0369, -0.1037],
+        [ 0.0369, -0.0944,  0.0545,  ...,  0.1581, -0.1316, -0.0430],
+        ...,
+        [-0.1116, -0.1985,  0.0916,  ..., -0.0159, -0.0520,  0.0767],
+        [ 0.0228,  0.0352, -0.0326,  ..., -0.0814, -0.1006, -0.0228],
+        [-0.1526, -0.0068, -0.0055,  ..., -0.1685,  0.1166,  0.0240]],
+       device='cuda:0'), grad: tensor([[ 1.3332e-03,  1.6298e-03,  3.2997e-04,  ...,  1.6582e-04,
+          8.3268e-05,  5.6028e-04],
+        [ 2.2411e-03,  1.2171e-04,  9.0885e-04,  ...,  8.3113e-04,
+          9.8467e-05,  6.8245e-03],
+        [ 4.0436e-04,  3.5977e-04,  6.0081e-04,  ...,  4.4847e-04,
+          2.4283e-04,  1.0471e-03],
+        ...,
+        [ 3.4022e-04,  2.7895e-04, -1.6546e-03,  ..., -1.4553e-03,
+          3.8099e-04, -3.1281e-04],
+        [ 1.4486e-03,  1.7338e-03,  9.1124e-04,  ...,  6.0844e-04,
+          4.4489e-04,  2.1496e-03],
+        [ 3.6383e-04, -1.6146e-03, -4.9515e-03,  ..., -4.0436e-03,
+         -4.0474e-03, -6.8130e-03]], device='cuda:0')
+Epoch 334, bias, value: tensor([ 1.1737e-02,  9.0262e-03, -6.0031e-05,  1.3714e-02, -6.5299e-03,
+        -3.6511e-03,  1.0299e-02,  2.4812e-02, -3.4604e-02,  4.4219e-02],
+       device='cuda:0'), grad: tensor([ 0.0188,  0.0202,  0.0170, -0.0191, -0.0030, -0.0293,  0.0219, -0.0433,
+         0.0260, -0.0092], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 333, time 217.35, cls_loss 0.4616 cls_loss_mapping 0.0040 cls_loss_causal 0.4341 re_mapping 0.0065 re_causal 0.0159 /// teacc 98.67 lr 0.00010000
+Epoch 335, weight, value: tensor([[-0.0779,  0.0715, -0.1055,  ..., -0.1155, -0.1139,  0.0124],
+        [-0.0882, -0.1720,  0.0056,  ..., -0.0584, -0.0372, -0.1040],
+        [ 0.0373, -0.0940,  0.0543,  ...,  0.1584, -0.1309, -0.0419],
+        ...,
+        [-0.1123, -0.1982,  0.0926,  ..., -0.0158, -0.0522,  0.0764],
+        [ 0.0209,  0.0342, -0.0326,  ..., -0.0813, -0.1011, -0.0236],
+        [-0.1540, -0.0073, -0.0064,  ..., -0.1696,  0.1164,  0.0222]],
+       device='cuda:0'), grad: tensor([[-4.5896e-04, -1.3361e-03,  1.0848e-04,  ...,  1.3387e-04,
+          1.7554e-05,  1.0386e-05],
+        [-3.6373e-03,  1.9819e-05,  3.1281e-04,  ...,  3.1137e-04,
+          3.0577e-05,  1.3876e-04],
+        [ 3.1257e-04,  1.9073e-04, -1.9064e-03,  ..., -1.5850e-03,
+          1.0848e-05,  1.9640e-05],
+        ...,
+        [ 2.4796e-04,  2.9504e-05,  1.6851e-03,  ...,  1.4620e-03,
+         -2.4334e-05, -2.7514e-04],
+        [ 1.2245e-03,  8.5163e-04,  1.1277e-04,  ...,  1.1361e-04,
+          3.4690e-04,  1.1645e-05],
+        [ 4.2224e-04,  5.7936e-04,  3.7241e-04,  ...,  4.0627e-04,
+          5.7936e-05,  1.1313e-04]], device='cuda:0')
+Epoch 335, bias, value: tensor([ 0.0120,  0.0078,  0.0013,  0.0137, -0.0063, -0.0034,  0.0106,  0.0246,
+        -0.0350,  0.0437], device='cuda:0'), grad: tensor([ 0.0027, -0.0205,  0.0050,  0.0065, -0.0011,  0.0090,  0.0078,  0.0053,
+         0.0107, -0.0253], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 334, time 216.85, cls_loss 0.4804 cls_loss_mapping 0.0031 cls_loss_causal 0.4606 re_mapping 0.0063 re_causal 0.0161 /// teacc 98.77 lr 0.00010000
+Epoch 336, weight, value: tensor([[-0.0775,  0.0720, -0.1058,  ..., -0.1147, -0.1153,  0.0116],
+        [-0.0883, -0.1741,  0.0062,  ..., -0.0584, -0.0378, -0.1035],
+        [ 0.0366, -0.0953,  0.0530,  ...,  0.1573, -0.1317, -0.0418],
+        ...,
+        [-0.1122, -0.1980,  0.0934,  ..., -0.0158, -0.0514,  0.0757],
+        [ 0.0202,  0.0335, -0.0318,  ..., -0.0810, -0.1011, -0.0244],
+        [-0.1535, -0.0066, -0.0064,  ..., -0.1695,  0.1168,  0.0245]],
+       device='cuda:0'), grad: tensor([[ 2.1858e-03,  1.9207e-03, -6.8808e-04,  ...,  3.6210e-06,
+          2.0843e-06,  3.2926e-04],
+        [ 4.7565e-05,  1.7011e-04, -3.0208e-04,  ...,  4.5133e-04,
+          8.8573e-05, -1.1759e-03],
+        [ 3.6764e-04,  5.8651e-04,  6.3801e-04,  ...,  7.6175e-05,
+          6.4373e-05,  9.4843e-04],
+        ...,
+        [ 1.8194e-05,  1.2255e-04, -2.5902e-03,  ..., -6.8617e-04,
+         -6.4492e-05, -3.3989e-03],
+        [ 9.7179e-04,  1.0653e-03,  3.3927e-04,  ...,  3.8117e-05,
+          3.9101e-05,  5.1641e-04],
+        [ 7.3612e-05, -7.1764e-04,  3.3069e-04,  ...,  1.5903e-04,
+         -9.4700e-04,  5.6458e-04]], device='cuda:0')
+Epoch 336, bias, value: tensor([ 0.0121,  0.0080,  0.0007,  0.0129, -0.0073, -0.0043,  0.0115,  0.0254,
+        -0.0348,  0.0447], device='cuda:0'), grad: tensor([-0.0122,  0.0027,  0.0204,  0.0021, -0.0132,  0.0161, -0.0212,  0.0315,
+        -0.0142, -0.0119], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 335, time 217.17, cls_loss 0.4494 cls_loss_mapping 0.0031 cls_loss_causal 0.4264 re_mapping 0.0068 re_causal 0.0173 /// teacc 98.87 lr 0.00010000
+Epoch 337, weight, value: tensor([[-0.0761,  0.0722, -0.1073,  ..., -0.1143, -0.1165,  0.0108],
+        [-0.0876, -0.1734,  0.0064,  ..., -0.0589, -0.0368, -0.1035],
+        [ 0.0366, -0.0959,  0.0549,  ...,  0.1579, -0.1316, -0.0402],
+        ...,
+        [-0.1131, -0.1990,  0.0927,  ..., -0.0169, -0.0523,  0.0757],
+        [ 0.0202,  0.0336, -0.0306,  ..., -0.0803, -0.0994, -0.0232],
+        [-0.1541, -0.0078, -0.0064,  ..., -0.1703,  0.1164,  0.0246]],
+       device='cuda:0'), grad: tensor([[ 4.0793e-04,  6.0201e-05,  5.2452e-05,  ...,  3.4618e-04,
+          2.3954e-06, -3.0923e-04],
+        [ 7.0190e-04,  5.3644e-05,  4.0746e-04,  ...,  5.8937e-04,
+          2.9492e-04,  4.3941e-04],
+        [-2.5986e-02, -1.6373e-02, -3.3447e-02,  ..., -8.3466e-03,
+         -1.4448e-04, -6.2084e-04],
+        ...,
+        [ 3.8934e-04,  3.3021e-05,  3.4308e-04,  ...,  2.0039e-04,
+          4.3607e-04,  7.5579e-05],
+        [ 2.3627e-04, -1.6861e-03,  5.0545e-04,  ...,  7.6818e-04,
+         -4.0169e-03, -3.5934e-03],
+        [-4.5151e-05,  3.3706e-05, -5.1051e-05,  ...,  1.5700e-04,
+         -2.5725e-04,  1.6665e-04]], device='cuda:0')
+Epoch 337, bias, value: tensor([ 0.0120,  0.0098,  0.0009,  0.0119, -0.0076, -0.0043,  0.0110,  0.0238,
+        -0.0328,  0.0442], device='cuda:0'), grad: tensor([-0.0418,  0.0376, -0.0439,  0.0224,  0.0284, -0.0408,  0.0007,  0.0173,
+         0.0076,  0.0126], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 336, time 216.83, cls_loss 0.4597 cls_loss_mapping 0.0035 cls_loss_causal 0.4359 re_mapping 0.0066 re_causal 0.0161 /// teacc 98.65 lr 0.00010000
+Epoch 338, weight, value: tensor([[-0.0772,  0.0724, -0.1064,  ..., -0.1145, -0.1161,  0.0116],
+        [-0.0884, -0.1732,  0.0060,  ..., -0.0592, -0.0360, -0.1031],
+        [ 0.0354, -0.0969,  0.0555,  ...,  0.1573, -0.1315, -0.0410],
+        ...,
+        [-0.1128, -0.1993,  0.0936,  ..., -0.0159, -0.0517,  0.0762],
+        [ 0.0209,  0.0354, -0.0319,  ..., -0.0816, -0.0999, -0.0235],
+        [-0.1542, -0.0091, -0.0070,  ..., -0.1706,  0.1156,  0.0236]],
+       device='cuda:0'), grad: tensor([[ 3.1948e-04, -1.6570e-04,  5.9223e-04,  ..., -1.2837e-05,
+          4.1630e-07,  2.2292e-04],
+        [ 1.0169e-04,  1.0794e-04, -1.2512e-03,  ...,  2.3050e-07,
+          3.1432e-07, -3.8128e-03],
+        [ 3.2139e-04,  3.2902e-04,  3.3989e-03,  ...,  3.3248e-07,
+          6.7754e-07,  4.4847e-04],
+        ...,
+        [-2.5439e-04, -2.2805e-04,  4.1847e-03,  ...,  3.6024e-06,
+          6.9141e-06,  8.5878e-04],
+        [ 4.0531e-04,  4.3154e-04, -1.3649e-02,  ...,  9.7416e-07,
+          2.8774e-05,  3.7026e-04],
+        [ 3.1137e-04,  3.7527e-04,  2.7714e-03,  ...,  3.6329e-05,
+          5.0038e-05,  5.4836e-04]], device='cuda:0')
+Epoch 338, bias, value: tensor([ 0.0118,  0.0095,  0.0009,  0.0133, -0.0070, -0.0051,  0.0113,  0.0236,
+        -0.0332,  0.0439], device='cuda:0'), grad: tensor([ 0.0041, -0.0325,  0.0109,  0.0135,  0.0047, -0.0110,  0.0097,  0.0005,
+        -0.0096,  0.0097], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 337, time 216.71, cls_loss 0.4976 cls_loss_mapping 0.0039 cls_loss_causal 0.4774 re_mapping 0.0061 re_causal 0.0146 /// teacc 98.68 lr 0.00010000
+Epoch 339, weight, value: tensor([[-0.0783,  0.0722, -0.1075,  ..., -0.1153, -0.1173,  0.0106],
+        [-0.0878, -0.1726,  0.0069,  ..., -0.0595, -0.0369, -0.1039],
+        [ 0.0369, -0.0954,  0.0561,  ...,  0.1576, -0.1313, -0.0400],
+        ...,
+        [-0.1123, -0.2006,  0.0927,  ..., -0.0163, -0.0522,  0.0761],
+        [ 0.0204,  0.0351, -0.0326,  ..., -0.0816, -0.0999, -0.0232],
+        [-0.1534, -0.0077, -0.0061,  ..., -0.1683,  0.1158,  0.0243]],
+       device='cuda:0'), grad: tensor([[-1.6624e-06,  1.4503e-02,  4.4465e-04,  ...,  2.1410e-04,
+          3.5501e-04,  7.8821e-04],
+        [ 1.0973e-04,  2.1756e-04,  6.5708e-04,  ..., -1.4381e-03,
+          3.0780e-04,  1.1005e-03],
+        [ 3.3760e-04,  4.3845e-04,  6.3705e-04,  ...,  3.2878e-04,
+          6.5374e-04,  1.3504e-03],
+        ...,
+        [ 7.7069e-05,  9.1743e-04,  1.1740e-03,  ...,  2.5678e-04,
+          8.9836e-04, -4.0550e-03],
+        [-7.4625e-05, -1.4885e-02, -1.5297e-03,  ..., -1.0371e-04,
+         -1.7334e-02, -7.5073e-03],
+        [ 7.2956e-04, -8.1587e-04, -2.8667e-03,  ...,  6.9284e-04,
+          1.0643e-02,  7.5760e-03]], device='cuda:0')
+Epoch 339, bias, value: tensor([ 0.0118,  0.0089,  0.0024,  0.0126, -0.0082, -0.0053,  0.0111,  0.0241,
+        -0.0332,  0.0448], device='cuda:0'), grad: tensor([ 0.0457, -0.0434,  0.0240,  0.0186,  0.0045,  0.0212, -0.0105, -0.0022,
+        -0.0594,  0.0013], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 338, time 216.54, cls_loss 0.4683 cls_loss_mapping 0.0027 cls_loss_causal 0.4496 re_mapping 0.0065 re_causal 0.0154 /// teacc 98.98 lr 0.00010000
+Epoch 340, weight, value: tensor([[-0.0770,  0.0718, -0.1069,  ..., -0.1155, -0.1171,  0.0115],
+        [-0.0887, -0.1710,  0.0068,  ..., -0.0587, -0.0365, -0.1043],
+        [ 0.0372, -0.0944,  0.0569,  ...,  0.1576, -0.1314, -0.0400],
+        ...,
+        [-0.1130, -0.2020,  0.0928,  ..., -0.0163, -0.0528,  0.0757],
+        [ 0.0203,  0.0347, -0.0337,  ..., -0.0815, -0.1000, -0.0242],
+        [-0.1543, -0.0091, -0.0064,  ..., -0.1679,  0.1159,  0.0252]],
+       device='cuda:0'), grad: tensor([[ 3.1471e-04, -1.5755e-03,  1.1033e-04,  ...,  5.3048e-05,
+          3.6895e-05,  1.0973e-04],
+        [ 8.6948e-06,  1.0192e-04,  7.1943e-05,  ...,  1.0338e-03,
+          7.2956e-04, -1.1623e-04],
+        [ 8.1158e-04,  4.4608e-04,  4.5031e-05,  ...,  4.2462e-04,
+          2.9421e-04,  4.1634e-05],
+        ...,
+        [ 2.6263e-06, -4.1556e-04,  4.9257e-04,  ...,  8.6665e-05,
+          6.3658e-04,  2.2566e-04],
+        [ 5.1022e-04,  1.5087e-03,  2.1076e-04,  ...,  2.8396e-04,
+          3.4189e-04,  2.1601e-04],
+        [ 3.1471e-05, -3.5620e-04, -1.2913e-03,  ..., -3.0022e-03,
+         -2.9316e-03, -9.0790e-04]], device='cuda:0')
+Epoch 340, bias, value: tensor([ 0.0128,  0.0089,  0.0022,  0.0126, -0.0088, -0.0058,  0.0111,  0.0245,
+        -0.0330,  0.0445], device='cuda:0'), grad: tensor([-0.0095, -0.0128,  0.0070,  0.0125,  0.0213, -0.0078,  0.0123, -0.0141,
+         0.0159, -0.0247], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 339, time 216.77, cls_loss 0.4778 cls_loss_mapping 0.0033 cls_loss_causal 0.4464 re_mapping 0.0064 re_causal 0.0155 /// teacc 98.88 lr 0.00010000
+Epoch 341, weight, value: tensor([[-0.0763,  0.0722, -0.1065,  ..., -0.1151, -0.1161,  0.0139],
+        [-0.0882, -0.1710,  0.0070,  ..., -0.0586, -0.0364, -0.1038],
+        [ 0.0376, -0.0940,  0.0568,  ...,  0.1574, -0.1324, -0.0407],
+        ...,
+        [-0.1124, -0.2029,  0.0933,  ..., -0.0165, -0.0528,  0.0761],
+        [ 0.0208,  0.0353, -0.0335,  ..., -0.0814, -0.1002, -0.0233],
+        [-0.1549, -0.0093, -0.0074,  ..., -0.1685,  0.1159,  0.0244]],
+       device='cuda:0'), grad: tensor([[ 3.2949e-04,  2.0123e-03,  1.3554e-04,  ...,  6.2525e-05,
+          4.3750e-04,  5.5194e-05],
+        [ 1.8120e-04,  2.3525e-06,  1.6890e-03,  ...,  3.6526e-04,
+          4.0460e-04,  8.0347e-04],
+        [ 2.8896e-04,  2.6062e-05, -1.2035e-03,  ..., -2.2259e-03,
+          3.6049e-04,  1.5128e-04],
+        ...,
+        [-6.6338e-03,  1.6972e-05, -4.1084e-03,  ...,  3.6335e-04,
+         -4.9515e-03, -2.5120e-03],
+        [ 5.2881e-04,  2.4885e-05,  1.0528e-05,  ...,  8.9347e-05,
+          5.6934e-04,  1.0872e-04],
+        [ 3.6311e-04, -6.8331e-04,  6.1321e-04,  ...,  3.8767e-04,
+         -1.0309e-03,  1.8525e-04]], device='cuda:0')
+Epoch 341, bias, value: tensor([ 0.0146,  0.0088,  0.0014,  0.0117, -0.0081, -0.0057,  0.0104,  0.0242,
+        -0.0327,  0.0445], device='cuda:0'), grad: tensor([ 0.0228,  0.0283,  0.0069, -0.0150, -0.0107,  0.0236, -0.0263, -0.0386,
+         0.0150, -0.0058], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 340, time 216.87, cls_loss 0.4670 cls_loss_mapping 0.0024 cls_loss_causal 0.4356 re_mapping 0.0059 re_causal 0.0148 /// teacc 98.72 lr 0.00010000
+Epoch 342, weight, value: tensor([[-0.0761,  0.0727, -0.1068,  ..., -0.1150, -0.1169,  0.0132],
+        [-0.0886, -0.1714,  0.0084,  ..., -0.0578, -0.0355, -0.1028],
+        [ 0.0380, -0.0953,  0.0566,  ...,  0.1569, -0.1320, -0.0413],
+        ...,
+        [-0.1131, -0.2040,  0.0932,  ..., -0.0159, -0.0526,  0.0763],
+        [ 0.0204,  0.0356, -0.0348,  ..., -0.0811, -0.0998, -0.0238],
+        [-0.1550, -0.0095, -0.0073,  ..., -0.1685,  0.1156,  0.0249]],
+       device='cuda:0'), grad: tensor([[ 1.4370e-06,  2.0802e-05,  1.3590e-04,  ...,  1.1027e-04,
+          4.9025e-05, -2.2182e-03],
+        [ 2.4199e-05,  1.0002e-04, -5.8289e-03,  ..., -8.8549e-04,
+          5.4032e-05,  7.9584e-04],
+        [-8.9407e-05,  6.1333e-05, -4.5800e-04,  ..., -5.1451e-04,
+          4.0293e-05, -2.7132e-04],
+        ...,
+        [ 4.7863e-05,  3.8803e-05,  4.0665e-03,  ...,  3.9911e-04,
+          3.7432e-05,  9.8419e-04],
+        [ 6.8367e-05,  1.7273e-04,  1.2293e-03,  ...,  5.0545e-04,
+         -5.1165e-04, -3.9368e-03],
+        [ 8.3894e-06,  2.6464e-05,  8.9025e-04,  ...,  1.6856e-04,
+          1.2410e-04,  9.6369e-04]], device='cuda:0')
+Epoch 342, bias, value: tensor([ 0.0125,  0.0095,  0.0017,  0.0116, -0.0081, -0.0058,  0.0107,  0.0245,
+        -0.0324,  0.0446], device='cuda:0'), grad: tensor([-0.0155, -0.0216,  0.0134, -0.0118,  0.0168, -0.0149, -0.0144,  0.0334,
+        -0.0059,  0.0205], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 341, time 217.04, cls_loss 0.4799 cls_loss_mapping 0.0027 cls_loss_causal 0.4558 re_mapping 0.0062 re_causal 0.0158 /// teacc 98.89 lr 0.00010000
+Epoch 343, weight, value: tensor([[-0.0769,  0.0722, -0.1074,  ..., -0.1152, -0.1173,  0.0131],
+        [-0.0881, -0.1739,  0.0081,  ..., -0.0578, -0.0357, -0.1021],
+        [ 0.0381, -0.0944,  0.0563,  ...,  0.1566, -0.1320, -0.0418],
+        ...,
+        [-0.1140, -0.2040,  0.0936,  ..., -0.0162, -0.0521,  0.0764],
+        [ 0.0208,  0.0354, -0.0342,  ..., -0.0812, -0.0996, -0.0239],
+        [-0.1548, -0.0101, -0.0086,  ..., -0.1675,  0.1155,  0.0245]],
+       device='cuda:0'), grad: tensor([[ 3.8314e-04, -1.1015e-03, -2.4052e-03,  ...,  3.1143e-05,
+          4.3941e-04, -7.9966e-04],
+        [ 7.9870e-05, -1.3285e-03,  4.9019e-04,  ...,  6.4421e-04,
+         -3.8886e-04,  6.8188e-04],
+        [ 1.3647e-03,  8.4686e-04, -3.4142e-04,  ..., -1.0176e-03,
+          5.4026e-04, -6.2943e-04],
+        ...,
+        [-5.3167e-05,  5.3740e-04,  3.1757e-04,  ...,  2.9707e-04,
+          3.0184e-04,  9.0218e-04],
+        [ 5.4836e-04,  1.2207e-03,  4.3797e-04,  ...,  1.0133e-04,
+          9.3269e-04,  1.0529e-03],
+        [ 4.8018e-04, -5.0068e-04, -1.8895e-04,  ...,  8.5711e-05,
+         -7.8201e-04, -2.9778e-04]], device='cuda:0')
+Epoch 343, bias, value: tensor([ 0.0128,  0.0090,  0.0018,  0.0109, -0.0083, -0.0047,  0.0115,  0.0250,
+        -0.0332,  0.0442], device='cuda:0'), grad: tensor([ 0.0113, -0.0189, -0.0402,  0.0035,  0.0240, -0.0334,  0.0057,  0.0257,
+         0.0324, -0.0100], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 342, time 217.18, cls_loss 0.4857 cls_loss_mapping 0.0030 cls_loss_causal 0.4561 re_mapping 0.0063 re_causal 0.0166 /// teacc 98.87 lr 0.00010000
+Epoch 344, weight, value: tensor([[-0.0762,  0.0715, -0.1077,  ..., -0.1158, -0.1183,  0.0119],
+        [-0.0871, -0.1740,  0.0086,  ..., -0.0583, -0.0362, -0.1036],
+        [ 0.0369, -0.0955,  0.0571,  ...,  0.1572, -0.1324, -0.0418],
+        ...,
+        [-0.1136, -0.2037,  0.0932,  ..., -0.0163, -0.0510,  0.0767],
+        [ 0.0197,  0.0355, -0.0348,  ..., -0.0812, -0.1017, -0.0221],
+        [-0.1547, -0.0094, -0.0074,  ..., -0.1688,  0.1160,  0.0256]],
+       device='cuda:0'), grad: tensor([[ 3.1948e-03, -4.9896e-03, -3.3264e-03,  ..., -4.0283e-03,
+         -3.2711e-03,  2.5787e-03],
+        [ 2.0832e-05,  6.7234e-05,  9.9754e-04,  ...,  1.5545e-03,
+         -1.2417e-03, -6.2103e-03],
+        [ 3.8099e-04,  3.6097e-04,  5.0735e-04,  ...,  4.1747e-04,
+          2.3532e-04,  6.6805e-04],
+        ...,
+        [ 6.8545e-06,  8.7842e-06,  3.6073e-04,  ...,  4.1890e-04,
+          7.5483e-04, -1.7366e-03],
+        [ 5.4073e-04,  1.1740e-03,  2.8419e-04,  ...,  2.6631e-04,
+          1.9634e-04,  6.1321e-04],
+        [ 3.1859e-05,  4.2486e-04,  1.3552e-03,  ...,  5.4550e-04,
+          1.5478e-03,  4.4861e-03]], device='cuda:0')
+Epoch 344, bias, value: tensor([ 0.0125,  0.0095,  0.0031,  0.0105, -0.0084, -0.0045,  0.0113,  0.0239,
+        -0.0330,  0.0441], device='cuda:0'), grad: tensor([-0.0285, -0.0076, -0.0172,  0.0180, -0.0125,  0.0381, -0.0284,  0.0125,
+         0.0114,  0.0142], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 343, time 216.85, cls_loss 0.4529 cls_loss_mapping 0.0029 cls_loss_causal 0.4350 re_mapping 0.0065 re_causal 0.0159 /// teacc 98.94 lr 0.00010000
+Epoch 345, weight, value: tensor([[-0.0766,  0.0723, -0.1063,  ..., -0.1157, -0.1177,  0.0120],
+        [-0.0875, -0.1744,  0.0071,  ..., -0.0589, -0.0345, -0.1037],
+        [ 0.0368, -0.0954,  0.0577,  ...,  0.1575, -0.1301, -0.0405],
+        ...,
+        [-0.1118, -0.2026,  0.0925,  ..., -0.0160, -0.0518,  0.0768],
+        [ 0.0208,  0.0356, -0.0360,  ..., -0.0820, -0.1018, -0.0222],
+        [-0.1551, -0.0095, -0.0070,  ..., -0.1689,  0.1159,  0.0240]],
+       device='cuda:0'), grad: tensor([[ 5.9605e-04,  2.2984e-03,  9.0075e-04,  ...,  1.0958e-03,
+          4.4405e-05,  4.5276e-04],
+        [ 4.8590e-04,  2.0123e-04,  1.4715e-03,  ...,  9.7942e-04,
+          7.2718e-04,  1.5965e-03],
+        [ 7.3719e-04, -6.3934e-03, -2.5349e-03,  ..., -2.7657e-03,
+          7.5638e-05,  7.1716e-04],
+        ...,
+        [ 5.7697e-04,  2.3520e-04, -8.0109e-03,  ..., -5.8899e-03,
+         -4.1885e-03, -5.6763e-03],
+        [ 1.6708e-03,  9.0885e-04,  4.2953e-03,  ...,  3.9635e-03,
+          2.0046e-03,  3.7575e-03],
+        [ 5.1117e-04,  2.5010e-04,  9.9182e-04,  ...,  7.6008e-04,
+          5.1022e-04,  1.4219e-03]], device='cuda:0')
+Epoch 345, bias, value: tensor([ 0.0125,  0.0089,  0.0030,  0.0103, -0.0073, -0.0049,  0.0119,  0.0228,
+        -0.0325,  0.0442], device='cuda:0'), grad: tensor([ 0.0190,  0.0224,  0.0095, -0.0103,  0.0256, -0.0367, -0.0449, -0.0067,
+         0.0018,  0.0202], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 344, time 216.85, cls_loss 0.4881 cls_loss_mapping 0.0047 cls_loss_causal 0.4624 re_mapping 0.0057 re_causal 0.0145 /// teacc 98.78 lr 0.00010000
+Epoch 346, weight, value: tensor([[-0.0759,  0.0727, -0.1074,  ..., -0.1165, -0.1177,  0.0132],
+        [-0.0878, -0.1751,  0.0072,  ..., -0.0584, -0.0357, -0.1035],
+        [ 0.0359, -0.0970,  0.0571,  ...,  0.1567, -0.1298, -0.0406],
+        ...,
+        [-0.1115, -0.2022,  0.0916,  ..., -0.0155, -0.0505,  0.0769],
+        [ 0.0219,  0.0356, -0.0344,  ..., -0.0814, -0.1007, -0.0215],
+        [-0.1564, -0.0112, -0.0061,  ..., -0.1699,  0.1143,  0.0231]],
+       device='cuda:0'), grad: tensor([[ 2.8300e-04,  1.9360e-04,  3.6502e-04,  ...,  9.9778e-05,
+          4.3988e-04,  3.5357e-04],
+        [ 2.1243e-04,  1.5724e-04,  1.1692e-03,  ...,  2.7061e-04,
+          1.2302e-03,  1.2665e-03],
+        [ 3.0518e-04,  2.8396e-04,  1.8139e-03,  ...,  9.0981e-04,
+          8.5640e-04,  1.0929e-03],
+        ...,
+        [-1.0824e-03, -3.8314e-04,  9.8419e-03,  ...,  9.7046e-03,
+         -3.0289e-03, -9.8705e-04],
+        [-1.9007e-03, -3.4046e-03,  4.7326e-04,  ...,  3.4213e-04,
+         -7.0267e-03, -2.6493e-03],
+        [ 2.4414e-03,  2.8057e-03, -1.2848e-02,  ..., -1.2421e-02,
+          6.0349e-03,  2.1076e-03]], device='cuda:0')
+Epoch 346, bias, value: tensor([ 0.0123,  0.0090,  0.0028,  0.0103, -0.0070, -0.0053,  0.0121,  0.0225,
+        -0.0321,  0.0443], device='cuda:0'), grad: tensor([ 0.0061,  0.0125,  0.0121,  0.0430,  0.0100, -0.0584, -0.0231,  0.0029,
+        -0.0166,  0.0116], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 345, time 217.32, cls_loss 0.4830 cls_loss_mapping 0.0033 cls_loss_causal 0.4590 re_mapping 0.0060 re_causal 0.0152 /// teacc 98.90 lr 0.00010000
+Epoch 347, weight, value: tensor([[-0.0761,  0.0728, -0.1108,  ..., -0.1170, -0.1180,  0.0136],
+        [-0.0879, -0.1755,  0.0061,  ..., -0.0595, -0.0362, -0.1034],
+        [ 0.0361, -0.0971,  0.0570,  ...,  0.1571, -0.1302, -0.0405],
+        ...,
+        [-0.1114, -0.2023,  0.0933,  ..., -0.0152, -0.0506,  0.0773],
+        [ 0.0225,  0.0364, -0.0349,  ..., -0.0815, -0.1022, -0.0236],
+        [-0.1561, -0.0112, -0.0047,  ..., -0.1692,  0.1154,  0.0246]],
+       device='cuda:0'), grad: tensor([[ 2.4629e-04,  5.7906e-05,  6.2275e-04,  ...,  1.1981e-04,
+          1.1225e-03,  7.2670e-04],
+        [ 2.2912e-04,  4.7386e-05,  5.2738e-04,  ...,  8.7380e-05,
+          1.2646e-03,  8.4066e-04],
+        [ 4.1962e-04,  1.0830e-04,  9.4891e-04,  ...,  7.6115e-05,
+          1.4896e-03,  8.3923e-04],
+        ...,
+        [ 1.1206e-03,  7.0572e-04,  2.7962e-03,  ...,  1.6677e-04,
+          1.5335e-03, -3.2768e-03],
+        [ 5.1641e-04,  6.7592e-05, -3.5038e-03,  ..., -1.5011e-03,
+         -4.0588e-03, -3.9597e-03],
+        [-1.3137e-04, -8.2111e-04, -1.3666e-03,  ...,  3.1352e-04,
+         -3.6030e-03,  1.3056e-03]], device='cuda:0')
+Epoch 347, bias, value: tensor([ 0.0123,  0.0088,  0.0032,  0.0100, -0.0072, -0.0041,  0.0113,  0.0221,
+        -0.0328,  0.0455], device='cuda:0'), grad: tensor([ 0.0119,  0.0148,  0.0146,  0.0169, -0.0132, -0.0141,  0.0119, -0.0065,
+        -0.0154, -0.0208], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 346, time 216.51, cls_loss 0.4865 cls_loss_mapping 0.0039 cls_loss_causal 0.4591 re_mapping 0.0061 re_causal 0.0152 /// teacc 98.89 lr 0.00010000
+Epoch 348, weight, value: tensor([[-0.0759,  0.0724, -0.1108,  ..., -0.1166, -0.1189,  0.0137],
+        [-0.0885, -0.1764,  0.0073,  ..., -0.0589, -0.0372, -0.1038],
+        [ 0.0362, -0.0969,  0.0571,  ...,  0.1580, -0.1308, -0.0399],
+        ...,
+        [-0.1117, -0.2036,  0.0930,  ..., -0.0152, -0.0497,  0.0780],
+        [ 0.0212,  0.0366, -0.0345,  ..., -0.0813, -0.1021, -0.0245],
+        [-0.1560, -0.0098, -0.0043,  ..., -0.1692,  0.1156,  0.0260]],
+       device='cuda:0'), grad: tensor([[ 1.0335e-04,  3.9792e-04,  1.6012e-03,  ...,  1.3685e-04,
+          7.3195e-04,  9.4652e-04],
+        [ 5.6744e-04, -1.3542e-03, -2.8515e-03,  ...,  1.6189e-04,
+          7.6580e-04,  1.4486e-03],
+        [ 4.5128e-03,  3.1209e-04,  2.0504e-03,  ...,  3.8195e-04,
+          1.3046e-03,  2.6627e-03],
+        ...,
+        [-2.5439e-04,  1.3173e-04, -2.3918e-03,  ...,  9.9242e-05,
+          6.1417e-04,  1.0490e-03],
+        [-1.1383e-02, -1.6272e-04,  6.0052e-05,  ..., -8.5592e-05,
+          3.8242e-04, -2.5158e-03],
+        [-8.3983e-05,  2.4402e-04, -1.6527e-03,  ...,  1.4496e-04,
+         -5.7297e-03, -1.7242e-03]], device='cuda:0')
+Epoch 348, bias, value: tensor([ 0.0120,  0.0088,  0.0031,  0.0116, -0.0072, -0.0057,  0.0108,  0.0222,
+        -0.0329,  0.0462], device='cuda:0'), grad: tensor([ 0.0156, -0.0101,  0.0280, -0.0373, -0.0029,  0.0226,  0.0252,  0.0003,
+        -0.0217, -0.0198], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 347, time 216.94, cls_loss 0.4598 cls_loss_mapping 0.0030 cls_loss_causal 0.4379 re_mapping 0.0062 re_causal 0.0156 /// teacc 98.75 lr 0.00010000
+Epoch 349, weight, value: tensor([[-0.0752,  0.0726, -0.1125,  ..., -0.1166, -0.1207,  0.0128],
+        [-0.0878, -0.1766,  0.0088,  ..., -0.0578, -0.0373, -0.1037],
+        [ 0.0358, -0.0969,  0.0557,  ...,  0.1581, -0.1317, -0.0393],
+        ...,
+        [-0.1120, -0.2042,  0.0934,  ..., -0.0151, -0.0499,  0.0774],
+        [ 0.0214,  0.0364, -0.0358,  ..., -0.0825, -0.1026, -0.0247],
+        [-0.1571, -0.0094, -0.0046,  ..., -0.1699,  0.1155,  0.0271]],
+       device='cuda:0'), grad: tensor([[ 4.3344e-04,  4.9171e-03, -7.6580e-04,  ...,  3.7342e-05,
+         -2.8667e-03, -2.9507e-03],
+        [ 9.2536e-06,  9.0599e-05, -5.5275e-03,  ..., -5.0888e-03,
+         -7.7295e-04, -3.5801e-03],
+        [ 3.2163e-04,  2.8086e-04,  5.8136e-03,  ...,  5.2109e-03,
+          4.7541e-04,  2.1076e-03],
+        ...,
+        [ 1.3418e-05,  7.3731e-05,  5.3978e-04,  ...,  5.0640e-04,
+          5.7459e-04,  8.8882e-04],
+        [-1.5080e-04,  1.4281e-04,  1.8573e-04,  ...,  1.3769e-05,
+          5.1308e-04,  6.6280e-04],
+        [ 1.0210e-04,  2.0933e-04,  5.3072e-04,  ...,  2.8658e-04,
+          1.0242e-03,  1.2960e-03]], device='cuda:0')
+Epoch 349, bias, value: tensor([ 0.0119,  0.0091,  0.0023,  0.0128, -0.0069, -0.0071,  0.0114,  0.0219,
+        -0.0331,  0.0465], device='cuda:0'), grad: tensor([-0.0099, -0.0324,  0.0253,  0.0011,  0.0131,  0.0222, -0.0238,  0.0117,
+         0.0087, -0.0161], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 348, time 216.34, cls_loss 0.4767 cls_loss_mapping 0.0035 cls_loss_causal 0.4517 re_mapping 0.0058 re_causal 0.0151 /// teacc 98.78 lr 0.00010000
+Epoch 350, weight, value: tensor([[-0.0757,  0.0727, -0.1121,  ..., -0.1166, -0.1201,  0.0132],
+        [-0.0872, -0.1764,  0.0075,  ..., -0.0577, -0.0374, -0.1047],
+        [ 0.0358, -0.0972,  0.0569,  ...,  0.1589, -0.1319, -0.0391],
+        ...,
+        [-0.1130, -0.2037,  0.0931,  ..., -0.0162, -0.0504,  0.0775],
+        [ 0.0218,  0.0376, -0.0355,  ..., -0.0829, -0.1016, -0.0251],
+        [-0.1560, -0.0087, -0.0048,  ..., -0.1700,  0.1162,  0.0276]],
+       device='cuda:0'), grad: tensor([[-4.8447e-03, -6.3133e-03,  6.0052e-05,  ...,  1.0496e-04,
+          1.1283e-04,  9.4593e-05],
+        [ 7.5579e-05,  5.1916e-05,  1.4889e-04,  ...,  6.5446e-05,
+         -3.8147e-04,  3.5739e-04],
+        [ 6.6662e-04,  7.0763e-04,  6.0606e-04,  ...,  5.8126e-04,
+          4.1056e-04,  5.4789e-04],
+        ...,
+        [ 4.9114e-04,  3.7670e-05,  2.1000e-03,  ...,  1.4508e-04,
+          2.3937e-04,  1.9407e-04],
+        [ 9.5940e-04,  2.3327e-03, -3.5667e-03,  ...,  2.0969e-04,
+          2.6393e-04,  2.2340e-04],
+        [ 1.6117e-04,  1.7583e-04,  3.7041e-03,  ...,  1.2589e-04,
+          7.1831e-03,  5.4626e-03]], device='cuda:0')
+Epoch 350, bias, value: tensor([ 0.0126,  0.0086,  0.0029,  0.0128, -0.0074, -0.0064,  0.0121,  0.0217,
+        -0.0332,  0.0453], device='cuda:0'), grad: tensor([-0.0071, -0.0069,  0.0268,  0.0158, -0.0286, -0.0768,  0.0233,  0.0170,
+         0.0123,  0.0241], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 349, time 216.50, cls_loss 0.4933 cls_loss_mapping 0.0029 cls_loss_causal 0.4680 re_mapping 0.0060 re_causal 0.0153 /// teacc 98.82 lr 0.00010000
+Epoch 351, weight, value: tensor([[-0.0752,  0.0727, -0.1127,  ..., -0.1163, -0.1209,  0.0135],
+        [-0.0870, -0.1773,  0.0078,  ..., -0.0581, -0.0385, -0.1059],
+        [ 0.0347, -0.0988,  0.0561,  ...,  0.1583, -0.1320, -0.0395],
+        ...,
+        [-0.1138, -0.2042,  0.0927,  ..., -0.0152, -0.0512,  0.0777],
+        [ 0.0227,  0.0376, -0.0361,  ..., -0.0821, -0.1010, -0.0248],
+        [-0.1560, -0.0075, -0.0028,  ..., -0.1702,  0.1168,  0.0271]],
+       device='cuda:0'), grad: tensor([[ 3.1543e-04,  2.0275e-03,  5.3692e-04,  ...,  8.6844e-05,
+          2.9349e-04,  1.5278e-03],
+        [ 3.3116e-04,  6.1369e-04,  1.0815e-03,  ...,  5.3978e-04,
+          1.5678e-03,  1.2636e-03],
+        [-2.1076e-03, -1.3800e-03, -3.2558e-03,  ..., -3.0575e-03,
+         -2.9812e-03, -9.3985e-04],
+        ...,
+        [ 2.3651e-04,  1.9693e-04, -2.6112e-03,  ..., -7.3731e-05,
+          2.0123e-04, -2.4872e-03],
+        [ 1.9512e-03,  2.0474e-05,  3.0575e-03,  ...,  2.3365e-03,
+          6.7997e-04,  1.8702e-03],
+        [ 3.7575e-04,  4.1389e-04,  1.2484e-03,  ...,  4.1366e-04,
+          9.9754e-04,  1.2712e-03]], device='cuda:0')
+Epoch 351, bias, value: tensor([ 0.0122,  0.0081,  0.0032,  0.0129, -0.0084, -0.0053,  0.0122,  0.0213,
+        -0.0332,  0.0460], device='cuda:0'), grad: tensor([ 0.0167, -0.0042, -0.0073,  0.0231, -0.0043,  0.0105, -0.0031, -0.0620,
+         0.0105,  0.0202], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 350, time 216.44, cls_loss 0.5014 cls_loss_mapping 0.0028 cls_loss_causal 0.4735 re_mapping 0.0063 re_causal 0.0160 /// teacc 98.68 lr 0.00010000
+Epoch 352, weight, value: tensor([[-0.0759,  0.0713, -0.1109,  ..., -0.1152, -0.1192,  0.0140],
+        [-0.0868, -0.1777,  0.0083,  ..., -0.0586, -0.0388, -0.1072],
+        [ 0.0329, -0.0990,  0.0570,  ...,  0.1592, -0.1330, -0.0397],
+        ...,
+        [-0.1140, -0.2045,  0.0923,  ..., -0.0148, -0.0518,  0.0785],
+        [ 0.0222,  0.0380, -0.0373,  ..., -0.0834, -0.1015, -0.0240],
+        [-0.1556, -0.0061, -0.0034,  ..., -0.1722,  0.1162,  0.0262]],
+       device='cuda:0'), grad: tensor([[ 3.5739e-04,  4.9162e-04,  5.0831e-04,  ...,  7.2420e-05,
+          1.1225e-03,  2.6169e-03],
+        [ 4.6611e-05,  4.2111e-05,  4.9448e-04,  ...,  1.7750e-04,
+         -7.6437e-04,  2.7313e-03],
+        [ 5.1260e-04,  5.9128e-04,  7.8011e-04,  ...,  2.7132e-04,
+          1.3170e-03,  3.4904e-03],
+        ...,
+        [ 7.2420e-05,  6.3837e-05, -1.2741e-03,  ...,  1.6522e-04,
+         -2.0695e-03, -2.4452e-03],
+        [ 2.5105e-04,  3.0613e-04,  7.0333e-04,  ...,  1.8585e-04,
+          1.6785e-03,  2.6779e-03],
+        [ 4.7952e-05, -5.3501e-04,  5.6267e-04,  ...,  9.7930e-05,
+          2.0409e-03,  4.1389e-03]], device='cuda:0')
+Epoch 352, bias, value: tensor([ 0.0116,  0.0082,  0.0028,  0.0140, -0.0068, -0.0060,  0.0114,  0.0218,
+        -0.0326,  0.0446], device='cuda:0'), grad: tensor([ 0.0162, -0.0010,  0.0257,  0.0280,  0.0170, -0.0416, -0.0847, -0.0066,
+         0.0201,  0.0269], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 351, time 216.78, cls_loss 0.4739 cls_loss_mapping 0.0039 cls_loss_causal 0.4490 re_mapping 0.0062 re_causal 0.0159 /// teacc 98.76 lr 0.00010000
+Epoch 353, weight, value: tensor([[-0.0760,  0.0723, -0.1104,  ..., -0.1149, -0.1180,  0.0142],
+        [-0.0867, -0.1785,  0.0089,  ..., -0.0583, -0.0394, -0.1080],
+        [ 0.0327, -0.0994,  0.0562,  ...,  0.1586, -0.1338, -0.0399],
+        ...,
+        [-0.1138, -0.2035,  0.0929,  ..., -0.0145, -0.0514,  0.0789],
+        [ 0.0226,  0.0383, -0.0365,  ..., -0.0829, -0.1006, -0.0244],
+        [-0.1557, -0.0062, -0.0036,  ..., -0.1729,  0.1157,  0.0248]],
+       device='cuda:0'), grad: tensor([[ 4.3321e-04,  1.7777e-05,  1.4400e-04,  ...,  2.1946e-04,
+          4.5538e-04,  7.1859e-04],
+        [ 3.0875e-04,  7.9945e-06,  9.8038e-04,  ...,  5.6410e-04,
+          8.1491e-04,  1.3132e-03],
+        [ 1.5469e-03,  6.9737e-05, -5.3864e-03,  ..., -4.0932e-03,
+          9.8896e-04,  1.1444e-03],
+        ...,
+        [ 2.7275e-04,  4.4972e-05,  5.1994e-03,  ...,  4.1618e-03,
+          8.5878e-04,  4.7731e-04],
+        [ 4.5128e-03, -1.2743e-04, -7.7581e-04,  ..., -7.2145e-04,
+          3.4428e-04,  3.9148e-04],
+        [ 2.5010e-04, -3.9458e-05, -1.3018e-04,  ...,  6.7520e-04,
+          1.1635e-03, -4.4441e-03]], device='cuda:0')
+Epoch 353, bias, value: tensor([ 0.0114,  0.0078,  0.0030,  0.0133, -0.0076, -0.0067,  0.0123,  0.0221,
+        -0.0326,  0.0458], device='cuda:0'), grad: tensor([-0.0176,  0.0247, -0.0021,  0.0324, -0.0040, -0.0315, -0.0415,  0.0333,
+         0.0173, -0.0110], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 352, time 216.61, cls_loss 0.4929 cls_loss_mapping 0.0035 cls_loss_causal 0.4705 re_mapping 0.0062 re_causal 0.0158 /// teacc 98.83 lr 0.00010000
+Epoch 354, weight, value: tensor([[-0.0749,  0.0718, -0.1113,  ..., -0.1155, -0.1187,  0.0152],
+        [-0.0863, -0.1786,  0.0088,  ..., -0.0581, -0.0388, -0.1094],
+        [ 0.0343, -0.0998,  0.0556,  ...,  0.1590, -0.1358, -0.0400],
+        ...,
+        [-0.1160, -0.2041,  0.0936,  ..., -0.0141, -0.0512,  0.0791],
+        [ 0.0234,  0.0389, -0.0366,  ..., -0.0834, -0.1010, -0.0243],
+        [-0.1543, -0.0050, -0.0039,  ..., -0.1738,  0.1171,  0.0257]],
+       device='cuda:0'), grad: tensor([[ 1.2436e-03,  8.9073e-04,  1.3542e-03,  ...,  4.3559e-04,
+          1.0228e-04,  1.2407e-03],
+        [ 3.3438e-05,  4.9680e-05,  3.0279e-04,  ...,  2.9731e-04,
+         -9.7561e-04, -3.6335e-03],
+        [ 3.7994e-03,  1.9989e-03,  1.2197e-03,  ...,  2.1629e-03,
+          1.3340e-04,  1.3351e-03],
+        ...,
+        [ 3.7265e-04,  2.9540e-04,  6.1035e-04,  ...,  3.1781e-04,
+          3.0205e-05, -1.3561e-03],
+        [ 2.4109e-03,  1.3266e-03,  7.1716e-04,  ...,  1.1625e-03,
+          1.2219e-04,  1.1530e-03],
+        [ 4.2486e-04,  4.3368e-04,  4.7612e-04,  ...,  3.1447e-04,
+          1.1289e-04,  1.4124e-03]], device='cuda:0')
+Epoch 354, bias, value: tensor([ 0.0115,  0.0075,  0.0025,  0.0133, -0.0067, -0.0061,  0.0117,  0.0224,
+        -0.0331,  0.0458], device='cuda:0'), grad: tensor([ 0.0240, -0.0130,  0.0266,  0.0127, -0.0404, -0.0139,  0.0060, -0.0425,
+         0.0214,  0.0191], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 353, time 216.35, cls_loss 0.4677 cls_loss_mapping 0.0036 cls_loss_causal 0.4444 re_mapping 0.0057 re_causal 0.0146 /// teacc 98.85 lr 0.00010000
+Epoch 355, weight, value: tensor([[-0.0761,  0.0708, -0.1109,  ..., -0.1158, -0.1193,  0.0150],
+        [-0.0851, -0.1778,  0.0090,  ..., -0.0580, -0.0373, -0.1087],
+        [ 0.0343, -0.1005,  0.0552,  ...,  0.1594, -0.1354, -0.0394],
+        ...,
+        [-0.1165, -0.2043,  0.0935,  ..., -0.0139, -0.0512,  0.0785],
+        [ 0.0240,  0.0391, -0.0373,  ..., -0.0833, -0.1015, -0.0227],
+        [-0.1540, -0.0050, -0.0045,  ..., -0.1742,  0.1157,  0.0257]],
+       device='cuda:0'), grad: tensor([[-0.0127, -0.0025,  0.0003,  ...,  0.0002,  0.0006,  0.0004],
+        [ 0.0009,  0.0008,  0.0012,  ...,  0.0007,  0.0020,  0.0017],
+        [-0.0007, -0.0016, -0.0041,  ..., -0.0023, -0.0052, -0.0049],
+        ...,
+        [ 0.0030,  0.0008,  0.0008,  ..., -0.0012,  0.0007, -0.0004],
+        [ 0.0017,  0.0014,  0.0012,  ...,  0.0004,  0.0028,  0.0021],
+        [ 0.0007, -0.0027, -0.0038,  ...,  0.0003, -0.0081, -0.0051]],
+       device='cuda:0')
+Epoch 355, bias, value: tensor([ 0.0106,  0.0085,  0.0021,  0.0141, -0.0074, -0.0062,  0.0107,  0.0235,
+        -0.0330,  0.0457], device='cuda:0'), grad: tensor([-0.0191,  0.0209, -0.0167, -0.0081,  0.0339,  0.0206, -0.0002,  0.0119,
+        -0.0069, -0.0363], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 354, time 216.82, cls_loss 0.4904 cls_loss_mapping 0.0027 cls_loss_causal 0.4653 re_mapping 0.0060 re_causal 0.0156 /// teacc 98.84 lr 0.00010000
+Epoch 356, weight, value: tensor([[-0.0755,  0.0702, -0.1103,  ..., -0.1172, -0.1205,  0.0148],
+        [-0.0855, -0.1766,  0.0085,  ..., -0.0583, -0.0389, -0.1101],
+        [ 0.0336, -0.1014,  0.0558,  ...,  0.1593, -0.1352, -0.0396],
+        ...,
+        [-0.1162, -0.2053,  0.0934,  ..., -0.0135, -0.0517,  0.0795],
+        [ 0.0234,  0.0383, -0.0368,  ..., -0.0831, -0.1008, -0.0237],
+        [-0.1541, -0.0052, -0.0043,  ..., -0.1744,  0.1166,  0.0256]],
+       device='cuda:0'), grad: tensor([[ 0.0015, -0.0007, -0.0007,  ...,  0.0004,  0.0003,  0.0027],
+        [ 0.0015, -0.0065,  0.0007,  ...,  0.0006,  0.0004, -0.0133],
+        [ 0.0008,  0.0007,  0.0010,  ...,  0.0010,  0.0007,  0.0036],
+        ...,
+        [ 0.0011,  0.0004,  0.0027,  ...,  0.0021,  0.0016,  0.0023],
+        [-0.0120, -0.0002,  0.0002,  ..., -0.0010, -0.0007, -0.0056],
+        [ 0.0013,  0.0009,  0.0034,  ...,  0.0021,  0.0009,  0.0019]],
+       device='cuda:0')
+Epoch 356, bias, value: tensor([ 0.0106,  0.0088,  0.0010,  0.0141, -0.0080, -0.0068,  0.0128,  0.0236,
+        -0.0332,  0.0458], device='cuda:0'), grad: tensor([ 0.0132, -0.0401,  0.0199, -0.0056, -0.0345,  0.0158,  0.0236,  0.0230,
+        -0.0384,  0.0230], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 355, time 216.25, cls_loss 0.4997 cls_loss_mapping 0.0034 cls_loss_causal 0.4753 re_mapping 0.0064 re_causal 0.0155 /// teacc 98.81 lr 0.00010000
+Epoch 357, weight, value: tensor([[-0.0756,  0.0710, -0.1097,  ..., -0.1169, -0.1208,  0.0162],
+        [-0.0865, -0.1757,  0.0102,  ..., -0.0571, -0.0386, -0.1091],
+        [ 0.0326, -0.1024,  0.0570,  ...,  0.1598, -0.1359, -0.0395],
+        ...,
+        [-0.1143, -0.2059,  0.0932,  ..., -0.0140, -0.0508,  0.0790],
+        [ 0.0233,  0.0382, -0.0370,  ..., -0.0828, -0.1018, -0.0232],
+        [-0.1536, -0.0050, -0.0046,  ..., -0.1755,  0.1180,  0.0256]],
+       device='cuda:0'), grad: tensor([[-2.4281e-03, -4.2498e-05, -2.7752e-03,  ..., -2.7490e-04,
+         -1.2245e-03, -4.1122e-03],
+        [ 1.6296e-04,  6.5044e-06,  9.5129e-04,  ...,  2.2650e-04,
+          7.3814e-04,  1.0509e-03],
+        [ 4.8089e-04, -4.8965e-05,  8.9264e-04,  ...,  7.8902e-06,
+          4.3535e-04,  1.0281e-03],
+        ...,
+        [ 3.6860e-04,  8.3372e-06,  9.5442e-06,  ...,  4.1795e-04,
+          1.3723e-03,  2.0638e-03],
+        [ 3.2711e-04,  3.9816e-05,  8.7166e-04,  ...,  1.5616e-04,
+          4.5395e-04,  8.5115e-04],
+        [ 2.9087e-04,  1.5497e-05,  1.5669e-03,  ..., -1.1396e-03,
+         -1.1206e-03, -4.0436e-03]], device='cuda:0')
+Epoch 357, bias, value: tensor([ 0.0109,  0.0086,  0.0013,  0.0140, -0.0072, -0.0059,  0.0117,  0.0239,
+        -0.0342,  0.0458], device='cuda:0'), grad: tensor([-0.0243,  0.0127,  0.0132,  0.0136, -0.0192, -0.0197,  0.0068, -0.0101,
+         0.0120,  0.0150], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 356, time 216.92, cls_loss 0.4821 cls_loss_mapping 0.0057 cls_loss_causal 0.4654 re_mapping 0.0063 re_causal 0.0158 /// teacc 98.87 lr 0.00010000
+Epoch 358, weight, value: tensor([[-0.0744,  0.0722, -0.1108,  ..., -0.1179, -0.1199,  0.0166],
+        [-0.0877, -0.1758,  0.0110,  ..., -0.0571, -0.0384, -0.1097],
+        [ 0.0322, -0.1023,  0.0562,  ...,  0.1597, -0.1365, -0.0378],
+        ...,
+        [-0.1138, -0.2067,  0.0937,  ..., -0.0142, -0.0507,  0.0782],
+        [ 0.0243,  0.0378, -0.0374,  ..., -0.0834, -0.1022, -0.0237],
+        [-0.1546, -0.0065, -0.0049,  ..., -0.1752,  0.1181,  0.0253]],
+       device='cuda:0'), grad: tensor([[ 1.6761e-04,  6.3038e-04,  5.3734e-05,  ...,  7.8604e-06,
+          5.2452e-04,  4.9543e-04],
+        [-3.7861e-03, -2.9697e-03,  6.1750e-05,  ..., -7.2690e-07,
+          1.0413e-04,  3.2091e-04],
+        [-8.8990e-05,  2.5749e-04, -1.2314e-04,  ..., -3.2902e-04,
+          5.1069e-04,  4.6134e-04],
+        ...,
+        [ 1.9753e-04,  2.9016e-04,  8.8632e-05,  ...,  1.3560e-06,
+          5.7697e-04,  4.8470e-04],
+        [ 7.2813e-04,  1.3475e-03,  3.3164e-04,  ...,  2.5487e-04,
+          7.1526e-04,  4.3559e-04],
+        [ 1.8203e-04,  5.3215e-04, -8.3313e-03,  ...,  3.6843e-06,
+         -4.0100e-02, -3.0548e-02]], device='cuda:0')
+Epoch 358, bias, value: tensor([ 0.0122,  0.0078,  0.0019,  0.0138, -0.0070, -0.0068,  0.0114,  0.0239,
+        -0.0341,  0.0456], device='cuda:0'), grad: tensor([ 0.0161, -0.0281,  0.0173,  0.0141,  0.0149, -0.0468, -0.0117,  0.0183,
+         0.0209, -0.0151], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 357, time 216.70, cls_loss 0.4983 cls_loss_mapping 0.0042 cls_loss_causal 0.4697 re_mapping 0.0056 re_causal 0.0141 /// teacc 98.88 lr 0.00010000
+Epoch 359, weight, value: tensor([[-0.0766,  0.0713, -0.1100,  ..., -0.1170, -0.1203,  0.0158],
+        [-0.0872, -0.1753,  0.0111,  ..., -0.0564, -0.0388, -0.1094],
+        [ 0.0322, -0.1022,  0.0568,  ...,  0.1599, -0.1368, -0.0382],
+        ...,
+        [-0.1139, -0.2060,  0.0924,  ..., -0.0156, -0.0505,  0.0791],
+        [ 0.0237,  0.0375, -0.0384,  ..., -0.0843, -0.1035, -0.0246],
+        [-0.1547, -0.0065, -0.0040,  ..., -0.1756,  0.1188,  0.0252]],
+       device='cuda:0'), grad: tensor([[-4.0855e-03, -5.0449e-04, -2.4319e-04,  ...,  2.4235e-04,
+          3.1710e-05,  1.3566e-04],
+        [ 3.6478e-04,  1.0200e-05,  1.2827e-04,  ...,  8.4019e-04,
+          1.3225e-05,  1.8275e-04],
+        [-2.5425e-03,  3.5882e-05,  1.8096e-04,  ..., -4.3297e-03,
+          3.5226e-05, -7.5455e-03],
+        ...,
+        [ 6.4516e-04,  6.0946e-05, -6.2180e-04,  ...,  1.4043e-04,
+         -1.5128e-04,  1.5867e-04],
+        [ 7.3290e-04,  1.2982e-04,  1.0115e-04,  ...,  5.3501e-04,
+          1.3351e-04,  1.9121e-04],
+        [-2.5129e-04, -1.2410e-04, -1.4508e-04,  ..., -1.5850e-03,
+         -1.3041e-04, -1.3056e-03]], device='cuda:0')
+Epoch 359, bias, value: tensor([ 0.0119,  0.0086,  0.0019,  0.0143, -0.0075, -0.0064,  0.0105,  0.0241,
+        -0.0343,  0.0455], device='cuda:0'), grad: tensor([-0.0519,  0.0168,  0.0041, -0.0076,  0.0253,  0.0208, -0.0134,  0.0135,
+         0.0138, -0.0213], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 358, time 216.98, cls_loss 0.4557 cls_loss_mapping 0.0023 cls_loss_causal 0.4337 re_mapping 0.0063 re_causal 0.0159 /// teacc 98.82 lr 0.00010000
+Epoch 360, weight, value: tensor([[-0.0763,  0.0714, -0.1106,  ..., -0.1172, -0.1195,  0.0163],
+        [-0.0882, -0.1750,  0.0103,  ..., -0.0563, -0.0381, -0.1094],
+        [ 0.0323, -0.1021,  0.0572,  ...,  0.1606, -0.1364, -0.0370],
+        ...,
+        [-0.1136, -0.2057,  0.0938,  ..., -0.0155, -0.0508,  0.0787],
+        [ 0.0237,  0.0370, -0.0385,  ..., -0.0843, -0.1039, -0.0258],
+        [-0.1559, -0.0069, -0.0043,  ..., -0.1760,  0.1184,  0.0250]],
+       device='cuda:0'), grad: tensor([[-1.0757e-03, -5.8861e-03, -6.4964e-03,  ..., -3.2234e-03,
+         -1.0815e-03, -1.5503e-02],
+        [ 2.9087e-04,  1.6034e-04,  9.7132e-04,  ...,  1.0786e-03,
+          7.0477e-04,  3.1033e-03],
+        [ 8.2314e-05,  1.6193e-03, -1.2960e-03,  ..., -1.6556e-03,
+         -3.2501e-03, -3.9864e-03],
+        ...,
+        [ 4.0245e-04,  1.4424e-04, -8.4734e-04,  ...,  1.1292e-03,
+          7.5483e-04,  4.0398e-03],
+        [ 4.9353e-04,  3.5882e-04,  5.6982e-04,  ...,  6.0368e-04,
+          4.1771e-04,  3.1300e-03],
+        [ 8.8787e-04,  1.8177e-03,  2.8992e-03,  ..., -2.0313e-03,
+          6.2943e-04,  2.3060e-03]], device='cuda:0')
+Epoch 360, bias, value: tensor([ 0.0122,  0.0081,  0.0016,  0.0141, -0.0072, -0.0064,  0.0108,  0.0236,
+        -0.0338,  0.0457], device='cuda:0'), grad: tensor([-0.0612, -0.0074, -0.0022,  0.0285,  0.0314,  0.0162, -0.0080,  0.0201,
+         0.0189, -0.0363], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 359, time 216.58, cls_loss 0.4666 cls_loss_mapping 0.0028 cls_loss_causal 0.4437 re_mapping 0.0061 re_causal 0.0148 /// teacc 98.76 lr 0.00010000
+Epoch 361, weight, value: tensor([[-0.0769,  0.0723, -0.1099,  ..., -0.1177, -0.1209,  0.0162],
+        [-0.0884, -0.1752,  0.0094,  ..., -0.0571, -0.0373, -0.1093],
+        [ 0.0312, -0.1029,  0.0564,  ...,  0.1595, -0.1366, -0.0377],
+        ...,
+        [-0.1133, -0.2071,  0.0929,  ..., -0.0149, -0.0524,  0.0768],
+        [ 0.0238,  0.0366, -0.0376,  ..., -0.0841, -0.1044, -0.0268],
+        [-0.1573, -0.0080, -0.0038,  ..., -0.1751,  0.1188,  0.0262]],
+       device='cuda:0'), grad: tensor([[-3.8185e-03, -8.7357e-03, -6.7711e-03,  ...,  1.6065e-07,
+         -1.2648e-04, -3.5305e-03],
+        [ 2.2620e-05,  1.5936e-03,  4.0169e-03,  ..., -6.4898e-04,
+          5.3883e-04,  5.5885e-04],
+        [ 2.7871e-04,  5.2834e-04,  5.3078e-05,  ...,  6.3705e-04,
+          1.9300e-04,  5.9175e-04],
+        ...,
+        [ 9.9018e-06, -1.0691e-03,  1.4544e-03,  ...,  1.3644e-06,
+          5.5075e-04,  5.6458e-04],
+        [ 6.0940e-04,  1.2932e-03,  2.1195e-04,  ...,  2.4009e-06,
+          3.0470e-04,  9.4891e-04],
+        [ 4.7326e-05,  5.8031e-04,  1.2569e-03,  ...,  3.5483e-07,
+          1.3332e-03,  1.2627e-03]], device='cuda:0')
+Epoch 361, bias, value: tensor([ 0.0120,  0.0081,  0.0013,  0.0144, -0.0073, -0.0066,  0.0117,  0.0231,
+        -0.0337,  0.0458], device='cuda:0'), grad: tensor([-0.0615,  0.0410,  0.0098,  0.0096, -0.0022, -0.0213,  0.0112,  0.0104,
+        -0.0098,  0.0128], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 360, time 216.36, cls_loss 0.4785 cls_loss_mapping 0.0041 cls_loss_causal 0.4486 re_mapping 0.0062 re_causal 0.0146 /// teacc 98.95 lr 0.00010000
+Epoch 362, weight, value: tensor([[-0.0756,  0.0730, -0.1091,  ..., -0.1183, -0.1198,  0.0177],
+        [-0.0882, -0.1750,  0.0078,  ..., -0.0582, -0.0379, -0.1110],
+        [ 0.0314, -0.1030,  0.0555,  ...,  0.1594, -0.1368, -0.0386],
+        ...,
+        [-0.1127, -0.2090,  0.0926,  ..., -0.0157, -0.0545,  0.0771],
+        [ 0.0242,  0.0375, -0.0369,  ..., -0.0840, -0.1041, -0.0280],
+        [-0.1571, -0.0079, -0.0035,  ..., -0.1749,  0.1192,  0.0270]],
+       device='cuda:0'), grad: tensor([[ 1.2338e-04,  7.7188e-05,  8.3148e-05,  ...,  1.1867e-04,
+          3.6097e-04,  9.5654e-04],
+        [ 4.5359e-05, -3.1638e-04,  2.7847e-04,  ...,  1.2994e-04,
+         -7.8201e-04, -1.1606e-03],
+        [-2.3308e-03, -1.1358e-03, -8.5783e-04,  ..., -2.4433e-03,
+          4.3201e-04, -1.8778e-03],
+        ...,
+        [ 8.6498e-04,  1.1635e-03,  2.3766e-03,  ...,  7.0047e-04,
+          1.1148e-03,  1.4009e-03],
+        [ 1.7679e-04,  5.4312e-04,  4.2176e-04,  ...,  1.4210e-04,
+          8.4257e-04,  1.3857e-03],
+        [ 4.5002e-05,  1.7917e-04,  9.5654e-04,  ...,  1.7023e-04,
+          1.5144e-03,  2.5940e-03]], device='cuda:0')
+Epoch 362, bias, value: tensor([ 0.0128,  0.0079,  0.0001,  0.0138, -0.0076, -0.0060,  0.0124,  0.0232,
+        -0.0338,  0.0461], device='cuda:0'), grad: tensor([ 0.0066, -0.0206, -0.0124,  0.0115, -0.0103, -0.0245,  0.0060,  0.0204,
+         0.0103,  0.0131], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 361, time 216.73, cls_loss 0.4645 cls_loss_mapping 0.0039 cls_loss_causal 0.4428 re_mapping 0.0059 re_causal 0.0149 /// teacc 98.79 lr 0.00010000
+Epoch 363, weight, value: tensor([[-0.0765,  0.0722, -0.1092,  ..., -0.1180, -0.1200,  0.0185],
+        [-0.0881, -0.1756,  0.0083,  ..., -0.0569, -0.0390, -0.1116],
+        [ 0.0318, -0.1036,  0.0566,  ...,  0.1586, -0.1347, -0.0386],
+        ...,
+        [-0.1137, -0.2090,  0.0916,  ..., -0.0163, -0.0541,  0.0763],
+        [ 0.0258,  0.0393, -0.0375,  ..., -0.0848, -0.1036, -0.0275],
+        [-0.1562, -0.0074, -0.0036,  ..., -0.1762,  0.1175,  0.0267]],
+       device='cuda:0'), grad: tensor([[ 1.1766e-04,  8.7404e-04,  6.6090e-04,  ...,  1.9741e-04,
+          1.1263e-03,  2.0771e-03],
+        [ 1.8328e-05,  3.7646e-04,  7.0906e-04,  ...,  2.9850e-04,
+          1.3342e-03,  1.7204e-03],
+        [-9.7215e-05, -3.6716e-05,  3.9864e-04,  ..., -2.2554e-04,
+          5.5742e-04,  1.5020e-03],
+        ...,
+        [ 5.4926e-05, -2.3422e-03,  3.8028e-04,  ..., -2.9612e-04,
+         -5.8222e-04, -4.4518e-03],
+        [ 3.8457e-04,  6.6757e-04,  5.8222e-04,  ...,  2.8396e-04,
+          8.1205e-04,  1.3742e-03],
+        [ 3.1257e-04,  6.5851e-04,  5.2881e-04,  ...,  3.8314e-04,
+          1.2503e-03,  1.5345e-03]], device='cuda:0')
+Epoch 363, bias, value: tensor([ 0.0133,  0.0083,  0.0008,  0.0129, -0.0089, -0.0056,  0.0116,  0.0235,
+        -0.0336,  0.0466], device='cuda:0'), grad: tensor([ 0.0205, -0.0320,  0.0170,  0.0053,  0.0133, -0.0372, -0.0130, -0.0139,
+         0.0225,  0.0176], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 362, time 216.72, cls_loss 0.4534 cls_loss_mapping 0.0031 cls_loss_causal 0.4276 re_mapping 0.0062 re_causal 0.0150 /// teacc 98.99 lr 0.00010000
+Epoch 364, weight, value: tensor([[-0.0768,  0.0715, -0.1094,  ..., -0.1169, -0.1190,  0.0189],
+        [-0.0889, -0.1766,  0.0082,  ..., -0.0551, -0.0399, -0.1133],
+        [ 0.0322, -0.1019,  0.0561,  ...,  0.1579, -0.1359, -0.0387],
+        ...,
+        [-0.1140, -0.2087,  0.0906,  ..., -0.0168, -0.0550,  0.0766],
+        [ 0.0256,  0.0397, -0.0359,  ..., -0.0844, -0.1015, -0.0255],
+        [-0.1558, -0.0077, -0.0038,  ..., -0.1767,  0.1170,  0.0263]],
+       device='cuda:0'), grad: tensor([[ 1.1018e-06, -1.8759e-03, -2.3117e-03,  ..., -6.5947e-04,
+         -1.3418e-03, -3.7223e-05],
+        [-7.5054e-04, -3.4695e-03,  4.0174e-04,  ...,  1.1981e-04,
+          2.3639e-04, -7.5758e-05],
+        [ 9.3222e-05,  6.5374e-04,  7.8392e-04,  ...,  3.1686e-04,
+          3.3474e-04,  1.8346e-04],
+        ...,
+        [-8.4331e-07,  4.4227e-05, -5.2738e-04,  ..., -3.5930e-04,
+          1.4901e-04, -2.3901e-04],
+        [ 9.8288e-05,  1.2798e-03,  3.1204e-03,  ...,  1.4484e-04,
+          1.0662e-03,  1.0324e-04],
+        [ 6.1929e-05, -1.0805e-03, -5.8174e-03,  ..., -5.8842e-04,
+         -5.8670e-03, -2.3174e-03]], device='cuda:0')
+Epoch 364, bias, value: tensor([ 0.0129,  0.0089, -0.0003,  0.0128, -0.0094, -0.0043,  0.0113,  0.0233,
+        -0.0336,  0.0472], device='cuda:0'), grad: tensor([ 0.0054, -0.0178, -0.0168,  0.0189,  0.0209,  0.0190,  0.0129, -0.0246,
+         0.0152, -0.0331], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 363, time 216.79, cls_loss 0.4632 cls_loss_mapping 0.0027 cls_loss_causal 0.4409 re_mapping 0.0063 re_causal 0.0154 /// teacc 98.92 lr 0.00010000
+Epoch 365, weight, value: tensor([[-0.0768,  0.0715, -0.1095,  ..., -0.1179, -0.1197,  0.0184],
+        [-0.0875, -0.1763,  0.0092,  ..., -0.0554, -0.0412, -0.1144],
+        [ 0.0320, -0.1018,  0.0564,  ...,  0.1579, -0.1374, -0.0389],
+        ...,
+        [-0.1158, -0.2095,  0.0896,  ..., -0.0173, -0.0550,  0.0773],
+        [ 0.0254,  0.0399, -0.0363,  ..., -0.0851, -0.1009, -0.0249],
+        [-0.1552, -0.0076, -0.0032,  ..., -0.1757,  0.1184,  0.0271]],
+       device='cuda:0'), grad: tensor([[ 6.3479e-05,  2.0623e-05, -6.2883e-06,  ..., -3.3490e-06,
+          6.7711e-05,  4.1910e-09],
+        [ 1.1295e-04,  8.5533e-05,  2.1625e-06,  ...,  9.2760e-06,
+         -1.1253e-03,  5.5414e-08],
+        [ 2.9254e-04,  2.5344e-04, -1.6429e-06,  ...,  2.9132e-06,
+          9.2268e-05,  3.8650e-08],
+        ...,
+        [ 4.5627e-05,  7.5054e-04,  1.6079e-03,  ...,  2.8033e-06,
+          1.8768e-03,  8.7547e-04],
+        [-5.4932e-03, -5.6458e-03,  5.7332e-06,  ...,  1.1057e-04,
+          9.4128e-04,  3.2783e-07],
+        [ 2.1625e-04, -5.1260e-04, -1.6155e-03,  ...,  1.4305e-06,
+         -1.7366e-03, -8.7833e-04]], device='cuda:0')
+Epoch 365, bias, value: tensor([ 1.1985e-02,  9.8359e-03, -4.9688e-05,  1.1470e-02, -9.1320e-03,
+        -4.1009e-03,  1.2912e-02,  2.2462e-02, -3.3616e-02,  4.7048e-02],
+       device='cuda:0'), grad: tensor([ 0.0115, -0.0237, -0.0503,  0.0157, -0.0173,  0.0129,  0.0181,  0.0166,
+         0.0060,  0.0105], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 364, time 216.24, cls_loss 0.4570 cls_loss_mapping 0.0028 cls_loss_causal 0.4377 re_mapping 0.0058 re_causal 0.0139 /// teacc 98.82 lr 0.00010000
+Epoch 366, weight, value: tensor([[-0.0771,  0.0715, -0.1094,  ..., -0.1181, -0.1192,  0.0199],
+        [-0.0875, -0.1766,  0.0086,  ..., -0.0551, -0.0412, -0.1140],
+        [ 0.0327, -0.1016,  0.0567,  ...,  0.1583, -0.1376, -0.0394],
+        ...,
+        [-0.1168, -0.2085,  0.0898,  ..., -0.0169, -0.0551,  0.0748],
+        [ 0.0252,  0.0409, -0.0367,  ..., -0.0862, -0.1011, -0.0253],
+        [-0.1561, -0.0081, -0.0032,  ..., -0.1766,  0.1187,  0.0282]],
+       device='cuda:0'), grad: tensor([[-2.1229e-03,  2.2781e-02, -3.2082e-03,  ...,  4.5076e-06,
+         -6.0749e-04,  3.8028e-04],
+        [ 4.3325e-06,  2.6774e-04,  3.2163e-04,  ...,  7.4841e-06,
+         -2.0564e-04,  2.4128e-04],
+        [ 1.5414e-04, -1.5044e-04,  6.2418e-04,  ..., -2.2873e-05,
+         -5.8222e-04,  3.2377e-04],
+        ...,
+        [ 1.7300e-05,  1.1700e-04,  9.6416e-04,  ...,  4.0829e-05,
+          6.2466e-04,  5.2404e-04],
+        [ 9.3651e-04,  1.7996e-03, -6.0921e-03,  ...,  1.8924e-05,
+         -2.1648e-03, -1.7719e-03],
+        [ 2.5415e-04, -2.6764e-02,  4.5776e-03,  ..., -2.6733e-05,
+          4.2462e-04, -1.1873e-03]], device='cuda:0')
+Epoch 366, bias, value: tensor([ 0.0130,  0.0107, -0.0002,  0.0121, -0.0086, -0.0055,  0.0128,  0.0211,
+        -0.0335,  0.0471], device='cuda:0'), grad: tensor([ 0.0267,  0.0013, -0.0473,  0.0160,  0.0134,  0.0158,  0.0135,  0.0166,
+        -0.0240, -0.0321], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 365, time 216.66, cls_loss 0.4793 cls_loss_mapping 0.0029 cls_loss_causal 0.4543 re_mapping 0.0059 re_causal 0.0150 /// teacc 98.71 lr 0.00010000
+Epoch 367, weight, value: tensor([[-0.0768,  0.0718, -0.1097,  ..., -0.1176, -0.1195,  0.0195],
+        [-0.0877, -0.1777,  0.0085,  ..., -0.0552, -0.0422, -0.1142],
+        [ 0.0321, -0.1006,  0.0577,  ...,  0.1597, -0.1363, -0.0395],
+        ...,
+        [-0.1162, -0.2085,  0.0901,  ..., -0.0176, -0.0537,  0.0750],
+        [ 0.0250,  0.0400, -0.0379,  ..., -0.0871, -0.1034, -0.0251],
+        [-0.1573, -0.0086, -0.0029,  ..., -0.1769,  0.1194,  0.0289]],
+       device='cuda:0'), grad: tensor([[ 5.4419e-05,  2.7597e-05,  9.6619e-05,  ...,  1.6391e-04,
+          5.2061e-07,  4.5728e-07],
+        [ 2.4724e-04,  1.1288e-05,  7.7772e-04,  ...,  1.4858e-03,
+          9.0450e-06,  1.1429e-05],
+        [-3.0365e-03, -6.8426e-05, -1.2598e-03,  ..., -3.1033e-03,
+          7.9796e-06,  1.2055e-05],
+        ...,
+        [ 2.8920e-04,  1.4536e-05,  6.3553e-06,  ...,  3.9363e-04,
+          2.4700e-04,  3.1441e-05],
+        [ 2.1100e-04,  2.8685e-05,  2.9659e-04,  ...,  5.5504e-04,
+          7.4431e-06,  3.8072e-06],
+        [ 1.4365e-05,  8.6278e-06, -9.9361e-05,  ...,  1.6141e-04,
+         -8.7798e-05,  1.7929e-04]], device='cuda:0')
+Epoch 367, bias, value: tensor([ 0.0131,  0.0110, -0.0001,  0.0126, -0.0090, -0.0052,  0.0119,  0.0208,
+        -0.0335,  0.0473], device='cuda:0'), grad: tensor([ 0.0092,  0.0212, -0.0091,  0.0131,  0.0095,  0.0075,  0.0131, -0.0875,
+         0.0128,  0.0102], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 366, time 216.56, cls_loss 0.4561 cls_loss_mapping 0.0028 cls_loss_causal 0.4263 re_mapping 0.0062 re_causal 0.0156 /// teacc 98.63 lr 0.00010000
+Epoch 368, weight, value: tensor([[-0.0768,  0.0718, -0.1092,  ..., -0.1172, -0.1194,  0.0200],
+        [-0.0873, -0.1769,  0.0078,  ..., -0.0544, -0.0419, -0.1138],
+        [ 0.0332, -0.1011,  0.0573,  ...,  0.1592, -0.1372, -0.0391],
+        ...,
+        [-0.1166, -0.2080,  0.0905,  ..., -0.0181, -0.0527,  0.0761],
+        [ 0.0245,  0.0392, -0.0379,  ..., -0.0876, -0.1043, -0.0255],
+        [-0.1568, -0.0082, -0.0038,  ..., -0.1766,  0.1189,  0.0275]],
+       device='cuda:0'), grad: tensor([[ 4.8351e-04, -3.4618e-04,  3.3975e-04,  ...,  2.9159e-04,
+          4.7326e-04,  8.4448e-04],
+        [ 2.2030e-04,  2.2686e-04,  8.5771e-05,  ...,  1.1933e-04,
+          1.7405e-04,  2.8133e-04],
+        [-4.9257e-04, -9.5654e-04, -8.0109e-04,  ..., -1.7309e-03,
+          4.0364e-04,  2.4706e-05],
+        ...,
+        [ 3.4904e-04,  1.7214e-04,  3.7581e-05,  ...,  9.5606e-05,
+          3.0017e-04,  3.3593e-04],
+        [ 1.6851e-03,  2.9392e-03,  9.2173e-04,  ...,  9.3269e-04,
+          2.0981e-03,  3.8261e-03],
+        [ 6.6853e-04, -4.1008e-04,  9.2983e-05,  ...,  9.3579e-05,
+          5.9462e-04,  2.6822e-04]], device='cuda:0')
+Epoch 368, bias, value: tensor([ 0.0125,  0.0106,  0.0003,  0.0126, -0.0087, -0.0064,  0.0123,  0.0221,
+        -0.0334,  0.0469], device='cuda:0'), grad: tensor([ 0.0095,  0.0188,  0.0122, -0.0054, -0.0099, -0.0082,  0.0201, -0.0169,
+        -0.0045, -0.0157], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 367, time 216.65, cls_loss 0.4584 cls_loss_mapping 0.0027 cls_loss_causal 0.4377 re_mapping 0.0059 re_causal 0.0149 /// teacc 98.92 lr 0.00010000
+Epoch 369, weight, value: tensor([[-0.0763,  0.0732, -0.1097,  ..., -0.1188, -0.1192,  0.0211],
+        [-0.0877, -0.1776,  0.0076,  ..., -0.0538, -0.0417, -0.1145],
+        [ 0.0339, -0.1016,  0.0567,  ...,  0.1604, -0.1378, -0.0383],
+        ...,
+        [-0.1164, -0.2082,  0.0911,  ..., -0.0177, -0.0528,  0.0758],
+        [ 0.0238,  0.0386, -0.0384,  ..., -0.0885, -0.1044, -0.0256],
+        [-0.1572, -0.0082, -0.0034,  ..., -0.1763,  0.1190,  0.0278]],
+       device='cuda:0'), grad: tensor([[ 3.3212e-04,  3.5787e-04,  1.0556e-04,  ...,  4.2844e-04,
+          4.0680e-05,  7.0143e-04],
+        [ 2.5344e-04,  2.1017e-04,  8.2374e-05,  ...,  3.0208e-04,
+          7.8976e-05, -2.3880e-03],
+        [-1.7986e-03, -2.4815e-03,  4.5729e-04,  ..., -2.2202e-03,
+          1.7452e-04,  5.0640e-04],
+        ...,
+        [ 4.9973e-04,  8.3208e-05,  1.1158e-03,  ...,  7.8201e-04,
+          4.8971e-04,  2.3136e-03],
+        [-9.2840e-04,  7.0286e-04, -3.2063e-03,  ..., -1.6222e-03,
+         -1.2760e-03, -4.2458e-03],
+        [ 1.0210e-04, -5.5522e-05,  1.8060e-04,  ...,  1.6701e-04,
+         -3.9376e-06,  8.2064e-04]], device='cuda:0')
+Epoch 369, bias, value: tensor([ 0.0124,  0.0111,  0.0009,  0.0124, -0.0092, -0.0072,  0.0139,  0.0219,
+        -0.0341,  0.0468], device='cuda:0'), grad: tensor([ 0.0197, -0.0013, -0.0266,  0.0285,  0.0162, -0.0126,  0.0002, -0.0025,
+        -0.0066, -0.0150], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 368, time 216.55, cls_loss 0.4608 cls_loss_mapping 0.0023 cls_loss_causal 0.4384 re_mapping 0.0064 re_causal 0.0154 /// teacc 98.73 lr 0.00010000
+Epoch 370, weight, value: tensor([[-0.0758,  0.0736, -0.1094,  ..., -0.1181, -0.1204,  0.0183],
+        [-0.0887, -0.1769,  0.0075,  ..., -0.0537, -0.0409, -0.1135],
+        [ 0.0337, -0.1021,  0.0572,  ...,  0.1618, -0.1373, -0.0381],
+        ...,
+        [-0.1168, -0.2087,  0.0911,  ..., -0.0177, -0.0528,  0.0775],
+        [ 0.0246,  0.0388, -0.0380,  ..., -0.0900, -0.1052, -0.0249],
+        [-0.1580, -0.0074, -0.0035,  ..., -0.1771,  0.1187,  0.0266]],
+       device='cuda:0'), grad: tensor([[ 3.2485e-06, -8.3017e-04,  1.3673e-04,  ...,  6.5565e-04,
+          1.7667e-04, -1.1176e-05],
+        [ 8.9705e-06,  4.5031e-05,  6.2943e-04,  ...,  1.2236e-03,
+          4.9114e-04,  6.5613e-04],
+        [-7.4387e-03, -1.2074e-03, -1.0986e-02,  ..., -9.8572e-03,
+          3.8028e-04, -1.8282e-03],
+        ...,
+        [ 4.0084e-06,  4.0233e-05,  5.8937e-04,  ...,  1.8673e-03,
+          1.4019e-04,  1.4889e-04],
+        [ 6.0350e-06,  4.5002e-05, -4.6272e-03,  ..., -1.1650e-02,
+          3.0875e-04,  3.6120e-04],
+        [ 1.1586e-05,  4.5371e-04,  7.6437e-04,  ...,  1.4048e-03,
+          5.0926e-04,  3.1114e-04]], device='cuda:0')
+Epoch 370, bias, value: tensor([ 0.0123,  0.0105,  0.0007,  0.0118, -0.0082, -0.0064,  0.0132,  0.0218,
+        -0.0337,  0.0467], device='cuda:0'), grad: tensor([-0.0486,  0.0245, -0.0072,  0.0099, -0.0041,  0.0164,  0.0195,  0.0176,
+        -0.0159, -0.0122], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 369, time 216.49, cls_loss 0.4541 cls_loss_mapping 0.0026 cls_loss_causal 0.4279 re_mapping 0.0058 re_causal 0.0143 /// teacc 98.85 lr 0.00010000
+Epoch 371, weight, value: tensor([[-0.0759,  0.0731, -0.1095,  ..., -0.1192, -0.1202,  0.0177],
+        [-0.0887, -0.1768,  0.0079,  ..., -0.0537, -0.0407, -0.1141],
+        [ 0.0329, -0.1030,  0.0573,  ...,  0.1624, -0.1377, -0.0373],
+        ...,
+        [-0.1174, -0.2095,  0.0919,  ..., -0.0166, -0.0517,  0.0790],
+        [ 0.0266,  0.0390, -0.0379,  ..., -0.0892, -0.1044, -0.0249],
+        [-0.1569, -0.0058, -0.0033,  ..., -0.1770,  0.1186,  0.0260]],
+       device='cuda:0'), grad: tensor([[ 1.4305e-04,  1.4460e-04,  2.9540e-04,  ...,  4.4608e-04,
+          4.0978e-05,  3.2091e-04],
+        [ 4.5359e-05,  5.5104e-05,  9.2864e-05,  ..., -1.9178e-03,
+         -8.1968e-04, -5.9509e-03],
+        [ 1.0939e-03,  2.2926e-03,  6.9580e-03,  ...,  2.3468e-02,
+          1.0741e-04,  1.1797e-03],
+        ...,
+        [ 3.9101e-04, -1.5381e-02, -3.0151e-02,  ...,  9.5940e-04,
+         -3.3264e-02, -1.1358e-03],
+        [ 9.4032e-04,  1.2350e-03,  1.8396e-03,  ...,  2.4223e-03,
+          1.6820e-04,  7.7820e-04],
+        [ 5.3406e-05,  1.5457e-02,  2.9831e-02,  ...,  3.8481e-04,
+          3.3142e-02,  2.6302e-03]], device='cuda:0')
+Epoch 371, bias, value: tensor([ 0.0121,  0.0117,  0.0011,  0.0111, -0.0076, -0.0069,  0.0126,  0.0219,
+        -0.0332,  0.0460], device='cuda:0'), grad: tensor([ 0.0056, -0.0185,  0.0103, -0.0280,  0.0096, -0.0167,  0.0063, -0.0205,
+         0.0154,  0.0364], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 370, time 216.40, cls_loss 0.4689 cls_loss_mapping 0.0023 cls_loss_causal 0.4445 re_mapping 0.0058 re_causal 0.0143 /// teacc 98.94 lr 0.00010000
+Epoch 372, weight, value: tensor([[-0.0762,  0.0724, -0.1092,  ..., -0.1178, -0.1204,  0.0185],
+        [-0.0886, -0.1771,  0.0077,  ..., -0.0540, -0.0424, -0.1150],
+        [ 0.0322, -0.1013,  0.0575,  ...,  0.1613, -0.1387, -0.0378],
+        ...,
+        [-0.1180, -0.2103,  0.0923,  ..., -0.0162, -0.0509,  0.0801],
+        [ 0.0262,  0.0375, -0.0382,  ..., -0.0894, -0.1061, -0.0269],
+        [-0.1574, -0.0061, -0.0039,  ..., -0.1772,  0.1183,  0.0261]],
+       device='cuda:0'), grad: tensor([[ 1.0687e-04,  8.7023e-06,  5.3691e-07,  ...,  1.1725e-06,
+          5.7649e-07,  7.9632e-04],
+        [ 1.1063e-04,  1.9465e-06,  1.7388e-06,  ...,  5.8534e-07,
+          8.3959e-07,  1.1950e-03],
+        [ 8.7309e-04,  1.4436e-04, -9.1717e-06,  ...,  1.3582e-05,
+          1.0049e-06,  1.9455e-03],
+        ...,
+        [-1.1795e-02,  1.1791e-06, -5.3495e-06,  ...,  1.1064e-06,
+          5.3495e-06, -4.2694e-02],
+        [-4.4203e-04, -8.9943e-05,  3.6694e-06,  ...,  7.6666e-06,
+          4.0770e-05,  5.1117e-03],
+        [ 1.6928e-03,  1.3329e-05,  1.9944e-04,  ...,  3.0696e-06,
+          3.3069e-04,  9.9945e-03]], device='cuda:0')
+Epoch 372, bias, value: tensor([ 0.0116,  0.0118,  0.0001,  0.0111, -0.0081, -0.0067,  0.0127,  0.0227,
+        -0.0332,  0.0467], device='cuda:0'), grad: tensor([ 0.0094,  0.0124,  0.0111, -0.0040, -0.0208, -0.0097,  0.0241, -0.0162,
+        -0.0260,  0.0198], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 371, time 216.47, cls_loss 0.4678 cls_loss_mapping 0.0020 cls_loss_causal 0.4433 re_mapping 0.0059 re_causal 0.0146 /// teacc 98.94 lr 0.00010000
+Epoch 373, weight, value: tensor([[-0.0772,  0.0727, -0.1087,  ..., -0.1173, -0.1201,  0.0188],
+        [-0.0875, -0.1765,  0.0078,  ..., -0.0540, -0.0439, -0.1147],
+        [ 0.0320, -0.1031,  0.0580,  ...,  0.1619, -0.1392, -0.0378],
+        ...,
+        [-0.1181, -0.2111,  0.0918,  ..., -0.0169, -0.0515,  0.0793],
+        [ 0.0264,  0.0377, -0.0392,  ..., -0.0899, -0.1075, -0.0265],
+        [-0.1576, -0.0060, -0.0037,  ..., -0.1777,  0.1192,  0.0270]],
+       device='cuda:0'), grad: tensor([[ 4.2647e-05,  1.5771e-04,  4.6134e-05,  ...,  4.0627e-04,
+          6.3229e-04,  4.7731e-04],
+        [ 3.9786e-05,  1.7059e-04, -1.2922e-03,  ...,  1.2779e-04,
+         -2.3441e-03, -2.0504e-03],
+        [ 3.8415e-05,  2.4152e-04,  5.8746e-04,  ...,  1.5879e-03,
+          1.2541e-03,  9.2506e-04],
+        ...,
+        [-2.2531e-05,  1.1438e-04, -1.3793e-04,  ...,  3.2091e-04,
+          7.5579e-04,  5.9128e-04],
+        [-4.2391e-04, -6.8245e-03,  1.1343e-04,  ...,  7.9870e-04,
+         -1.2636e-04,  8.8739e-04],
+        [ 5.7369e-05,  2.1958e-04,  6.3848e-04,  ...,  5.0020e-04,
+          1.7166e-03,  1.3103e-03]], device='cuda:0')
+Epoch 373, bias, value: tensor([ 0.0119,  0.0118,  0.0012,  0.0105, -0.0072, -0.0058,  0.0123,  0.0212,
+        -0.0333,  0.0463], device='cuda:0'), grad: tensor([ 0.0350, -0.0184,  0.0173,  0.0171,  0.0100, -0.0439,  0.0112,  0.0080,
+        -0.0480,  0.0116], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 372, time 216.78, cls_loss 0.4885 cls_loss_mapping 0.0034 cls_loss_causal 0.4651 re_mapping 0.0055 re_causal 0.0142 /// teacc 98.91 lr 0.00010000
+Epoch 374, weight, value: tensor([[-0.0773,  0.0716, -0.1092,  ..., -0.1187, -0.1208,  0.0185],
+        [-0.0869, -0.1767,  0.0074,  ..., -0.0548, -0.0429, -0.1136],
+        [ 0.0321, -0.1035,  0.0572,  ...,  0.1623, -0.1399, -0.0381],
+        ...,
+        [-0.1182, -0.2119,  0.0918,  ..., -0.0166, -0.0512,  0.0784],
+        [ 0.0265,  0.0379, -0.0382,  ..., -0.0886, -0.1067, -0.0251],
+        [-0.1593, -0.0063, -0.0044,  ..., -0.1772,  0.1181,  0.0270]],
+       device='cuda:0'), grad: tensor([[-2.0351e-03, -3.0174e-03, -2.5291e-03,  ..., -3.6831e-03,
+         -3.3970e-03, -5.8250e-03],
+        [-4.4298e-04, -3.3116e-04,  1.3375e-04,  ..., -1.4954e-03,
+         -2.7199e-03,  2.4605e-04],
+        [-8.1444e-04,  4.3130e-04,  3.4022e-04,  ...,  4.8113e-04,
+          5.7840e-04,  8.0729e-04],
+        ...,
+        [ 2.0874e-04,  2.5630e-04, -3.0577e-05,  ...,  3.1948e-04,
+          3.7766e-04, -1.7185e-03],
+        [ 1.0052e-03,  1.2589e-03,  2.7061e-04,  ...,  5.3024e-04,
+          1.7653e-03,  9.6607e-04],
+        [-2.5535e-04, -1.4219e-03,  2.8729e-04,  ...,  4.6635e-04,
+         -1.1387e-03,  8.6212e-04]], device='cuda:0')
+Epoch 374, bias, value: tensor([ 0.0111,  0.0120, -0.0001,  0.0105, -0.0071, -0.0068,  0.0124,  0.0225,
+        -0.0313,  0.0455], device='cuda:0'), grad: tensor([-0.0019, -0.0080, -0.0266,  0.0154, -0.0123,  0.0258,  0.0245, -0.0198,
+         0.0224, -0.0197], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 373, time 216.80, cls_loss 0.4934 cls_loss_mapping 0.0039 cls_loss_causal 0.4712 re_mapping 0.0061 re_causal 0.0159 /// teacc 98.84 lr 0.00010000
+Epoch 375, weight, value: tensor([[-0.0781,  0.0703, -0.1093,  ..., -0.1195, -0.1217,  0.0202],
+        [-0.0879, -0.1784,  0.0086,  ..., -0.0560, -0.0427, -0.1137],
+        [ 0.0332, -0.1024,  0.0569,  ...,  0.1631, -0.1402, -0.0388],
+        ...,
+        [-0.1192, -0.2115,  0.0918,  ..., -0.0160, -0.0509,  0.0781],
+        [ 0.0258,  0.0383, -0.0374,  ..., -0.0886, -0.1067, -0.0256],
+        [-0.1584, -0.0036, -0.0046,  ..., -0.1767,  0.1195,  0.0281]],
+       device='cuda:0'), grad: tensor([[ 3.5185e-06, -8.9216e-04,  2.3454e-05,  ...,  2.8753e-04,
+         -9.5520e-03, -6.6566e-03],
+        [ 3.3855e-05,  3.1561e-05, -1.3399e-03,  ..., -1.1162e-02,
+         -1.1164e-04, -5.9662e-03],
+        [ 2.9421e-04,  1.6618e-04,  8.8310e-04,  ...,  4.4594e-03,
+          4.4203e-04,  4.1656e-03],
+        ...,
+        [ 6.7800e-06,  3.1471e-05,  9.3207e-06,  ...,  7.2289e-04,
+          3.2473e-04,  8.8787e-04],
+        [ 6.1214e-05,  2.9182e-04,  3.9548e-05,  ...,  6.5613e-04,
+          2.4834e-03,  1.8826e-03],
+        [ 6.6049e-06,  3.5739e-04,  2.0063e-04,  ...,  1.4615e-04,
+          3.7365e-03,  2.7084e-03]], device='cuda:0')
+Epoch 375, bias, value: tensor([ 0.0113,  0.0114, -0.0008,  0.0106, -0.0077, -0.0052,  0.0122,  0.0229,
+        -0.0317,  0.0456], device='cuda:0'), grad: tensor([-0.0202,  0.0016, -0.0321,  0.0121,  0.0246,  0.0095, -0.0175,  0.0132,
+        -0.0107,  0.0195], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 374, time 216.57, cls_loss 0.4819 cls_loss_mapping 0.0029 cls_loss_causal 0.4496 re_mapping 0.0062 re_causal 0.0150 /// teacc 98.91 lr 0.00010000
+Epoch 376, weight, value: tensor([[-0.0775,  0.0704, -0.1089,  ..., -0.1204, -0.1193,  0.0210],
+        [-0.0868, -0.1780,  0.0086,  ..., -0.0554, -0.0423, -0.1134],
+        [ 0.0318, -0.1030,  0.0561,  ...,  0.1622, -0.1410, -0.0394],
+        ...,
+        [-0.1187, -0.2118,  0.0926,  ..., -0.0158, -0.0505,  0.0788],
+        [ 0.0262,  0.0383, -0.0371,  ..., -0.0891, -0.1070, -0.0252],
+        [-0.1579, -0.0029, -0.0053,  ..., -0.1758,  0.1195,  0.0274]],
+       device='cuda:0'), grad: tensor([[ 4.6611e-05,  2.0206e-04,  3.7193e-04,  ...,  7.2777e-05,
+          8.6367e-05,  1.7178e-04],
+        [ 2.0325e-05,  5.9634e-05, -5.5599e-04,  ...,  2.1040e-05,
+         -1.2815e-04,  7.5936e-05],
+        [-1.9097e-04,  4.2319e-05, -8.1420e-05,  ..., -3.2282e-04,
+          1.3091e-05,  1.1784e-04],
+        ...,
+        [ 4.3511e-05, -1.5903e-04, -3.7217e-04,  ..., -1.4710e-04,
+         -1.1885e-04, -3.1900e-04],
+        [ 1.0830e-04,  1.8215e-04,  5.0974e-04,  ...,  1.3316e-04,
+         -1.4938e-06,  2.0432e-04],
+        [ 8.5354e-05,  3.7646e-04,  7.1335e-04,  ...,  2.0099e-04,
+          4.9162e-04,  5.4884e-04]], device='cuda:0')
+Epoch 376, bias, value: tensor([ 0.0116,  0.0115, -0.0013,  0.0117, -0.0071, -0.0055,  0.0111,  0.0229,
+        -0.0316,  0.0453], device='cuda:0'), grad: tensor([ 0.0148, -0.0441,  0.0127,  0.0147, -0.0187,  0.0179, -0.0147,  0.0146,
+         0.0193, -0.0166], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 375, time 216.66, cls_loss 0.4622 cls_loss_mapping 0.0028 cls_loss_causal 0.4426 re_mapping 0.0060 re_causal 0.0148 /// teacc 98.95 lr 0.00010000
+Epoch 377, weight, value: tensor([[-0.0775,  0.0693, -0.1092,  ..., -0.1195, -0.1190,  0.0220],
+        [-0.0870, -0.1762,  0.0082,  ..., -0.0543, -0.0422, -0.1135],
+        [ 0.0321, -0.1020,  0.0555,  ...,  0.1610, -0.1422, -0.0398],
+        ...,
+        [-0.1187, -0.2123,  0.0933,  ..., -0.0142, -0.0513,  0.0784],
+        [ 0.0246,  0.0373, -0.0369,  ..., -0.0893, -0.1059, -0.0251],
+        [-0.1576, -0.0030, -0.0059,  ..., -0.1758,  0.1193,  0.0268]],
+       device='cuda:0'), grad: tensor([[ 1.8875e-02,  2.3254e-02,  3.0780e-04,  ...,  8.0795e-03,
+          2.9635e-04,  2.8133e-04],
+        [ 3.1054e-05,  1.8641e-05,  5.6362e-04,  ...,  2.0072e-05,
+         -2.5253e-03, -3.2406e-03],
+        [-1.8951e-02, -2.3849e-02,  2.4390e-04,  ..., -8.3466e-03,
+          1.9586e-04,  2.4092e-04],
+        ...,
+        [ 1.4508e-04, -6.8140e-04, -5.4970e-03,  ...,  7.1287e-05,
+         -2.2144e-03,  5.6839e-04],
+        [-3.9406e-03, -1.1608e-05,  3.5977e-04,  ...,  1.4436e-04,
+          5.2929e-04,  5.4932e-04],
+        [ 1.0711e-04,  7.4959e-04,  5.8022e-03,  ...,  4.7475e-05,
+          2.7390e-03,  2.8872e-04]], device='cuda:0')
+Epoch 377, bias, value: tensor([ 0.0125,  0.0115, -0.0020,  0.0113, -0.0068, -0.0066,  0.0114,  0.0234,
+        -0.0324,  0.0464], device='cuda:0'), grad: tensor([ 0.0506, -0.0196, -0.0500, -0.0202,  0.0130,  0.0006,  0.0073,  0.0116,
+        -0.0132,  0.0200], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 376, time 216.76, cls_loss 0.4533 cls_loss_mapping 0.0022 cls_loss_causal 0.4292 re_mapping 0.0067 re_causal 0.0164 /// teacc 98.94 lr 0.00010000
+Epoch 378, weight, value: tensor([[-0.0783,  0.0703, -0.1098,  ..., -0.1213, -0.1201,  0.0216],
+        [-0.0892, -0.1761,  0.0086,  ..., -0.0529, -0.0414, -0.1128],
+        [ 0.0336, -0.1020,  0.0548,  ...,  0.1606, -0.1421, -0.0400],
+        ...,
+        [-0.1199, -0.2128,  0.0927,  ..., -0.0148, -0.0529,  0.0774],
+        [ 0.0258,  0.0378, -0.0362,  ..., -0.0902, -0.1068, -0.0248],
+        [-0.1581, -0.0028, -0.0053,  ..., -0.1759,  0.1192,  0.0272]],
+       device='cuda:0'), grad: tensor([[-0.0023, -0.0015,  0.0007,  ...,  0.0011, -0.0053, -0.0040],
+        [ 0.0001,  0.0010,  0.0041,  ...,  0.0064,  0.0058,  0.0037],
+        [ 0.0004,  0.0005,  0.0011,  ...,  0.0014,  0.0013,  0.0009],
+        ...,
+        [ 0.0002, -0.0015, -0.0041,  ...,  0.0015, -0.0060, -0.0064],
+        [ 0.0012,  0.0015,  0.0010,  ...,  0.0009,  0.0023,  0.0018],
+        [ 0.0001,  0.0013, -0.0020,  ..., -0.0082,  0.0021,  0.0043]],
+       device='cuda:0')
+Epoch 378, bias, value: tensor([ 0.0120,  0.0110, -0.0023,  0.0119, -0.0067, -0.0061,  0.0112,  0.0231,
+        -0.0323,  0.0469], device='cuda:0'), grad: tensor([-0.0696,  0.0480, -0.0112,  0.0300,  0.0209, -0.0252, -0.0051, -0.0152,
+         0.0240,  0.0034], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 377, time 216.71, cls_loss 0.4663 cls_loss_mapping 0.0033 cls_loss_causal 0.4497 re_mapping 0.0057 re_causal 0.0143 /// teacc 98.86 lr 0.00010000
+Epoch 379, weight, value: tensor([[-0.0794,  0.0708, -0.1099,  ..., -0.1216, -0.1193,  0.0216],
+        [-0.0898, -0.1769,  0.0082,  ..., -0.0538, -0.0416, -0.1130],
+        [ 0.0329, -0.1018,  0.0553,  ...,  0.1614, -0.1432, -0.0409],
+        ...,
+        [-0.1204, -0.2126,  0.0921,  ..., -0.0160, -0.0533,  0.0764],
+        [ 0.0269,  0.0380, -0.0363,  ..., -0.0916, -0.1072, -0.0236],
+        [-0.1583, -0.0029, -0.0048,  ..., -0.1739,  0.1193,  0.0274]],
+       device='cuda:0'), grad: tensor([[-1.0736e-05, -3.6925e-05,  8.0943e-05,  ...,  2.8729e-04,
+          4.3440e-04,  4.5037e-04],
+        [-1.5521e-04, -1.3475e-03, -8.1539e-04,  ..., -2.9011e-03,
+         -4.2992e-03, -3.5992e-03],
+        [ 6.9678e-05,  1.0359e-04,  2.3520e-04,  ...,  7.4530e-04,
+          4.3011e-04,  8.4925e-04],
+        ...,
+        [ 3.6824e-06,  1.9956e-04,  6.5765e-03,  ...,  6.4774e-03,
+          8.5373e-03,  6.5727e-03],
+        [ 1.6141e-04,  1.1034e-03,  1.6952e-04,  ...,  3.5429e-04,
+          1.6441e-03,  7.4339e-04],
+        [ 2.3454e-05, -1.3769e-04, -9.3689e-03,  ..., -8.8120e-03,
+         -1.0628e-02, -8.0643e-03]], device='cuda:0')
+Epoch 379, bias, value: tensor([ 0.0127,  0.0117, -0.0024,  0.0118, -0.0063, -0.0073,  0.0109,  0.0225,
+        -0.0317,  0.0468], device='cuda:0'), grad: tensor([ 0.0080, -0.0859,  0.0128,  0.0093,  0.0011,  0.0153,  0.0107,  0.0186,
+         0.0143, -0.0042], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 378, time 216.80, cls_loss 0.4854 cls_loss_mapping 0.0024 cls_loss_causal 0.4635 re_mapping 0.0058 re_causal 0.0157 /// teacc 98.97 lr 0.00010000
+Epoch 380, weight, value: tensor([[-0.0790,  0.0710, -0.1109,  ..., -0.1227, -0.1202,  0.0216],
+        [-0.0904, -0.1760,  0.0082,  ..., -0.0534, -0.0399, -0.1123],
+        [ 0.0329, -0.1011,  0.0554,  ...,  0.1614, -0.1450, -0.0419],
+        ...,
+        [-0.1199, -0.2122,  0.0919,  ..., -0.0163, -0.0533,  0.0769],
+        [ 0.0262,  0.0375, -0.0360,  ..., -0.0918, -0.1063, -0.0249],
+        [-0.1581, -0.0036, -0.0047,  ..., -0.1743,  0.1189,  0.0278]],
+       device='cuda:0'), grad: tensor([[ 0.0004, -0.0004,  0.0003,  ...,  0.0019,  0.0006,  0.0002],
+        [ 0.0001,  0.0003,  0.0003,  ...,  0.0004,  0.0007,  0.0002],
+        [ 0.0023,  0.0024,  0.0005,  ...,  0.0019, -0.0006,  0.0002],
+        ...,
+        [ 0.0009,  0.0018,  0.0086,  ...,  0.0004,  0.0036,  0.0028],
+        [-0.0001,  0.0004,  0.0001,  ...,  0.0012, -0.0007, -0.0003],
+        [-0.0003, -0.0002, -0.0080,  ...,  0.0010, -0.0015, -0.0022]],
+       device='cuda:0')
+Epoch 380, bias, value: tensor([ 0.0127,  0.0111, -0.0021,  0.0121, -0.0067, -0.0081,  0.0110,  0.0225,
+        -0.0317,  0.0477], device='cuda:0'), grad: tensor([ 0.0172,  0.0146, -0.0076, -0.0055,  0.0186, -0.0011, -0.0552,  0.0319,
+        -0.0231,  0.0102], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 379, time 216.37, cls_loss 0.5031 cls_loss_mapping 0.0033 cls_loss_causal 0.4794 re_mapping 0.0056 re_causal 0.0150 /// teacc 98.86 lr 0.00010000
+Epoch 381, weight, value: tensor([[-0.0788,  0.0703, -0.1114,  ..., -0.1250, -0.1219,  0.0213],
+        [-0.0903, -0.1758,  0.0082,  ..., -0.0534, -0.0400, -0.1128],
+        [ 0.0328, -0.1007,  0.0557,  ...,  0.1596, -0.1451, -0.0414],
+        ...,
+        [-0.1204, -0.2131,  0.0922,  ..., -0.0147, -0.0530,  0.0790],
+        [ 0.0262,  0.0369, -0.0360,  ..., -0.0890, -0.1064, -0.0247],
+        [-0.1584, -0.0027, -0.0050,  ..., -0.1759,  0.1183,  0.0264]],
+       device='cuda:0'), grad: tensor([[ 1.1081e-04, -2.0587e-04,  8.3065e-04,  ...,  5.3358e-04,
+          2.8586e-04,  1.0157e-03],
+        [ 3.7402e-05,  1.5426e-04,  9.9659e-04,  ...,  2.2030e-03,
+          8.7404e-04,  1.8787e-03],
+        [ 2.6817e-03,  4.0436e-03,  3.7060e-03,  ...,  4.0627e-03,
+          4.0703e-03,  4.1275e-03],
+        ...,
+        [ 1.4198e-04,  2.4772e-04,  9.7885e-03,  ..., -2.8114e-03,
+          1.4400e-03,  7.8583e-03],
+        [ 1.3077e-04, -2.8419e-03,  2.5520e-03,  ...,  1.9245e-03,
+          3.0689e-03,  3.5381e-03],
+        [ 3.0828e-04,  6.4516e-04, -8.6136e-03,  ...,  1.8282e-03,
+          4.0436e-03, -1.5898e-03]], device='cuda:0')
+Epoch 381, bias, value: tensor([ 0.0117,  0.0107, -0.0014,  0.0131, -0.0070, -0.0084,  0.0111,  0.0228,
+        -0.0313,  0.0471], device='cuda:0'), grad: tensor([ 0.0086,  0.0321,  0.0240, -0.0350, -0.0296, -0.0249,  0.0254,  0.0191,
+        -0.0037, -0.0161], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 380, time 216.72, cls_loss 0.4469 cls_loss_mapping 0.0034 cls_loss_causal 0.4259 re_mapping 0.0056 re_causal 0.0137 /// teacc 98.96 lr 0.00010000
+Epoch 382, weight, value: tensor([[-0.0793,  0.0712, -0.1114,  ..., -0.1243, -0.1200,  0.0218],
+        [-0.0907, -0.1750,  0.0092,  ..., -0.0540, -0.0399, -0.1124],
+        [ 0.0354, -0.1003,  0.0551,  ...,  0.1591, -0.1471, -0.0423],
+        ...,
+        [-0.1214, -0.2122,  0.0919,  ..., -0.0132, -0.0526,  0.0780],
+        [ 0.0267,  0.0374, -0.0365,  ..., -0.0899, -0.1060, -0.0247],
+        [-0.1591, -0.0029, -0.0028,  ..., -0.1755,  0.1191,  0.0263]],
+       device='cuda:0'), grad: tensor([[ 2.0528e-04, -7.3528e-04,  1.3441e-05,  ...,  1.4436e-04,
+          3.6812e-04,  9.6023e-05],
+        [ 1.7893e-04,  6.4909e-05, -1.1444e-04,  ..., -4.3941e-04,
+         -1.2550e-03, -3.1052e-03],
+        [-5.0354e-03,  1.1406e-03,  1.7881e-05,  ..., -2.4509e-03,
+          3.7503e-04,  7.4720e-04],
+        ...,
+        [ 7.1478e-04,  1.2350e-04,  6.9771e-03,  ...,  3.6502e-04,
+          4.0627e-03,  6.3515e-03],
+        [-5.0640e-04, -6.6710e-04,  4.6998e-05,  ...,  5.5170e-04,
+          2.1915e-03,  1.3428e-03],
+        [ 1.8060e-04,  1.1005e-03,  1.3838e-03,  ...,  1.3196e-04,
+          4.6196e-03,  2.4681e-03]], device='cuda:0')
+Epoch 382, bias, value: tensor([ 0.0123,  0.0107, -0.0013,  0.0131, -0.0074, -0.0079,  0.0106,  0.0218,
+        -0.0315,  0.0481], device='cuda:0'), grad: tensor([ 0.0060, -0.0757,  0.0023,  0.0219, -0.0171, -0.0171,  0.0096,  0.0248,
+         0.0193,  0.0261], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 381, time 216.50, cls_loss 0.4658 cls_loss_mapping 0.0039 cls_loss_causal 0.4405 re_mapping 0.0060 re_causal 0.0147 /// teacc 98.88 lr 0.00010000
+Epoch 383, weight, value: tensor([[-0.0808,  0.0710, -0.1113,  ..., -0.1246, -0.1192,  0.0216],
+        [-0.0910, -0.1752,  0.0087,  ..., -0.0535, -0.0389, -0.1117],
+        [ 0.0349, -0.1011,  0.0559,  ...,  0.1600, -0.1461, -0.0421],
+        ...,
+        [-0.1215, -0.2121,  0.0916,  ..., -0.0134, -0.0517,  0.0789],
+        [ 0.0274,  0.0372, -0.0366,  ..., -0.0886, -0.1063, -0.0243],
+        [-0.1583, -0.0031, -0.0034,  ..., -0.1768,  0.1177,  0.0249]],
+       device='cuda:0'), grad: tensor([[ 4.2105e-04,  5.1355e-04,  1.3137e-04,  ...,  2.3699e-04,
+          3.4308e-04,  8.6874e-06],
+        [ 1.0449e-04,  1.2350e-04, -6.4552e-05,  ...,  1.0288e-04,
+          1.6105e-04,  6.4790e-05],
+        [-6.6643e-03, -3.9291e-03, -7.2021e-03,  ..., -7.6790e-03,
+         -1.2302e-04,  5.5015e-05],
+        ...,
+        [ 6.0290e-05,  1.6880e-04,  2.0199e-03,  ...,  1.1196e-03,
+          8.9216e-04,  5.1355e-04],
+        [ 2.7585e-04,  3.8552e-04,  1.1158e-03,  ...,  8.5592e-04,
+          4.2248e-04,  1.4925e-04],
+        [ 1.0616e-04, -6.8784e-05, -9.2840e-04,  ...,  9.2328e-05,
+         -1.4629e-03, -9.3842e-04]], device='cuda:0')
+Epoch 383, bias, value: tensor([ 0.0128,  0.0114, -0.0006,  0.0126, -0.0072, -0.0069,  0.0092,  0.0214,
+        -0.0316,  0.0474], device='cuda:0'), grad: tensor([ 0.0038, -0.0004, -0.0275,  0.0244,  0.0029, -0.0326,  0.0244,  0.0074,
+         0.0045, -0.0070], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 382, time 216.46, cls_loss 0.4725 cls_loss_mapping 0.0033 cls_loss_causal 0.4456 re_mapping 0.0061 re_causal 0.0156 /// teacc 98.92 lr 0.00010000
+Epoch 384, weight, value: tensor([[-0.0806,  0.0706, -0.1108,  ..., -0.1239, -0.1199,  0.0214],
+        [-0.0908, -0.1756,  0.0092,  ..., -0.0541, -0.0399, -0.1131],
+        [ 0.0340, -0.1025,  0.0559,  ...,  0.1603, -0.1437, -0.0411],
+        ...,
+        [-0.1231, -0.2127,  0.0905,  ..., -0.0147, -0.0518,  0.0784],
+        [ 0.0282,  0.0383, -0.0364,  ..., -0.0887, -0.1061, -0.0249],
+        [-0.1595, -0.0031, -0.0029,  ..., -0.1769,  0.1175,  0.0258]],
+       device='cuda:0'), grad: tensor([[ 7.2241e-04,  7.2098e-04,  3.5882e-04,  ...,  6.2466e-04,
+          1.0891e-03,  1.3714e-03],
+        [-1.6785e-03, -9.0313e-04,  2.5916e-04,  ..., -9.2554e-04,
+          1.0419e-04,  1.0717e-04],
+        [ 6.8724e-05,  3.5596e-04,  3.5524e-04,  ..., -1.1263e-03,
+         -9.1028e-04, -1.0414e-03],
+        ...,
+        [ 4.2892e-04,  8.1635e-04,  1.0643e-02,  ...,  4.6945e-04,
+          1.6846e-02,  1.1688e-02],
+        [ 3.3355e-04, -5.7125e-04, -1.3481e-02,  ...,  9.3937e-04,
+         -1.8799e-02, -1.2764e-02],
+        [-3.0947e-04, -7.7605e-05,  1.0958e-03,  ..., -5.1832e-04,
+          4.1466e-03, -4.7779e-04]], device='cuda:0')
+Epoch 384, bias, value: tensor([ 0.0134,  0.0108, -0.0002,  0.0131, -0.0077, -0.0079,  0.0097,  0.0217,
+        -0.0322,  0.0480], device='cuda:0'), grad: tensor([ 0.0219, -0.0159,  0.0072,  0.0203,  0.0117,  0.0043, -0.0262,  0.0013,
+        -0.0089, -0.0159], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 383, time 216.68, cls_loss 0.4758 cls_loss_mapping 0.0030 cls_loss_causal 0.4561 re_mapping 0.0060 re_causal 0.0152 /// teacc 98.73 lr 0.00010000
+Epoch 385, weight, value: tensor([[-0.0807,  0.0711, -0.1114,  ..., -0.1248, -0.1212,  0.0210],
+        [-0.0913, -0.1750,  0.0093,  ..., -0.0541, -0.0403, -0.1136],
+        [ 0.0348, -0.1026,  0.0561,  ...,  0.1604, -0.1424, -0.0412],
+        ...,
+        [-0.1240, -0.2131,  0.0914,  ..., -0.0143, -0.0521,  0.0772],
+        [ 0.0270,  0.0383, -0.0365,  ..., -0.0902, -0.1057, -0.0246],
+        [-0.1595, -0.0029, -0.0035,  ..., -0.1767,  0.1181,  0.0269]],
+       device='cuda:0'), grad: tensor([[ 1.0738e-03,  1.2493e-04,  1.2124e-04,  ...,  1.9595e-05,
+          1.8704e-04,  5.8502e-05],
+        [ 1.5759e-04,  3.4332e-05,  1.9729e-04,  ...,  6.2704e-05,
+          1.0103e-04,  5.0366e-05],
+        [ 1.8215e-03,  5.0068e-04,  1.6575e-03,  ...,  7.0953e-04,
+          2.8801e-04,  3.1877e-04],
+        ...,
+        [ 5.2547e-04,  6.5029e-05, -2.6340e-03,  ..., -1.2016e-03,
+         -3.9139e-03, -3.1757e-04],
+        [-1.1253e-02, -1.2341e-03,  8.5771e-05,  ...,  9.4116e-05,
+          3.9005e-04,  1.4281e-04],
+        [ 1.6232e-03,  6.8665e-05,  7.7343e-04,  ...,  2.8825e-04,
+          4.5357e-03,  2.3532e-04]], device='cuda:0')
+Epoch 385, bias, value: tensor([ 0.0122,  0.0113, -0.0009,  0.0137, -0.0084, -0.0085,  0.0103,  0.0220,
+        -0.0330,  0.0498], device='cuda:0'), grad: tensor([ 0.0055,  0.0018,  0.0133,  0.0103,  0.0012, -0.0005,  0.0003, -0.0294,
+        -0.0280,  0.0256], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 384, time 216.54, cls_loss 0.4826 cls_loss_mapping 0.0038 cls_loss_causal 0.4607 re_mapping 0.0060 re_causal 0.0151 /// teacc 98.84 lr 0.00010000
+Epoch 386, weight, value: tensor([[-0.0801,  0.0711, -0.1121,  ..., -0.1250, -0.1213,  0.0208],
+        [-0.0929, -0.1753,  0.0094,  ..., -0.0534, -0.0416, -0.1130],
+        [ 0.0344, -0.1034,  0.0553,  ...,  0.1605, -0.1429, -0.0410],
+        ...,
+        [-0.1242, -0.2122,  0.0911,  ..., -0.0134, -0.0524,  0.0778],
+        [ 0.0270,  0.0381, -0.0367,  ..., -0.0910, -0.1060, -0.0241],
+        [-0.1583, -0.0027, -0.0028,  ..., -0.1785,  0.1182,  0.0262]],
+       device='cuda:0'), grad: tensor([[ 1.1292e-02,  1.4315e-03, -1.0031e-04,  ..., -1.7822e-05,
+          7.7963e-05,  1.7440e-04],
+        [ 2.6059e-04,  5.7667e-05, -1.2531e-03,  ..., -2.5010e-04,
+         -6.5660e-04, -6.6459e-05],
+        [-1.2279e-04,  2.3973e-04,  1.8203e-04,  ...,  8.1241e-05,
+         -2.5916e-04,  2.6393e-04],
+        ...,
+        [ 2.1458e-04,  5.2333e-05, -1.8263e-03,  ...,  7.2241e-05,
+         -5.8711e-05,  8.5211e-04],
+        [ 2.0771e-03,  2.7013e-04,  6.4278e-04,  ...,  4.1217e-05,
+          3.1543e-04,  4.1676e-04],
+        [ 9.0742e-04,  2.9922e-04,  1.8978e-03,  ...,  1.4193e-05,
+          1.2283e-03,  9.6607e-04]], device='cuda:0')
+Epoch 386, bias, value: tensor([ 0.0129,  0.0111, -0.0009,  0.0149, -0.0101, -0.0089,  0.0104,  0.0220,
+        -0.0328,  0.0499], device='cuda:0'), grad: tensor([ 0.0257,  0.0117, -0.0105, -0.0394, -0.0140,  0.0195, -0.0595,  0.0152,
+         0.0246,  0.0267], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 385, time 216.49, cls_loss 0.4785 cls_loss_mapping 0.0028 cls_loss_causal 0.4521 re_mapping 0.0059 re_causal 0.0153 /// teacc 98.92 lr 0.00010000
+Epoch 387, weight, value: tensor([[-0.0815,  0.0704, -0.1124,  ..., -0.1242, -0.1216,  0.0217],
+        [-0.0934, -0.1763,  0.0089,  ..., -0.0541, -0.0423, -0.1136],
+        [ 0.0348, -0.1031,  0.0546,  ...,  0.1604, -0.1442, -0.0417],
+        ...,
+        [-0.1233, -0.2129,  0.0914,  ..., -0.0135, -0.0532,  0.0778],
+        [ 0.0263,  0.0386, -0.0369,  ..., -0.0916, -0.1056, -0.0251],
+        [-0.1581, -0.0021, -0.0027,  ..., -0.1783,  0.1187,  0.0274]],
+       device='cuda:0'), grad: tensor([[-6.4621e-03,  6.2103e-03,  3.6678e-03,  ...,  3.1452e-03,
+          1.8320e-03, -5.2605e-03],
+        [ 5.0783e-04,  9.6500e-05,  7.6294e-04,  ...,  3.2005e-03,
+          6.4421e-04,  7.9060e-04],
+        [-3.6793e-03, -8.2474e-03, -9.7418e-04,  ..., -3.5839e-03,
+         -3.5839e-03, -3.1319e-03],
+        ...,
+        [ 4.7989e-03,  1.4246e-04, -5.2757e-03,  ..., -2.2125e-03,
+          8.9455e-04,  7.2289e-04],
+        [ 4.1924e-03,  1.4267e-03,  2.1064e-04,  ...,  2.8419e-04,
+          2.4486e-04,  1.4563e-03],
+        [ 7.0763e-04,  3.2687e-04,  2.5129e-04,  ...,  1.9073e-03,
+         -9.2626e-05,  6.1083e-04]], device='cuda:0')
+Epoch 387, bias, value: tensor([ 0.0125,  0.0113, -0.0013,  0.0138, -0.0099, -0.0087,  0.0114,  0.0216,
+        -0.0330,  0.0508], device='cuda:0'), grad: tensor([ 0.0283,  0.0208, -0.0458, -0.0336,  0.0212,  0.0188, -0.0344, -0.0026,
+         0.0330, -0.0056], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 386, time 216.92, cls_loss 0.4762 cls_loss_mapping 0.0014 cls_loss_causal 0.4468 re_mapping 0.0059 re_causal 0.0152 /// teacc 98.88 lr 0.00010000
+Epoch 388, weight, value: tensor([[-0.0816,  0.0712, -0.1122,  ..., -0.1228, -0.1206,  0.0217],
+        [-0.0929, -0.1767,  0.0090,  ..., -0.0541, -0.0426, -0.1138],
+        [ 0.0329, -0.1033,  0.0542,  ...,  0.1598, -0.1442, -0.0427],
+        ...,
+        [-0.1226, -0.2129,  0.0909,  ..., -0.0133, -0.0536,  0.0775],
+        [ 0.0286,  0.0390, -0.0367,  ..., -0.0913, -0.1054, -0.0240],
+        [-0.1578, -0.0015, -0.0021,  ..., -0.1786,  0.1185,  0.0277]],
+       device='cuda:0'), grad: tensor([[ 2.2769e-04,  4.5705e-04,  3.1944e-07,  ...,  2.4662e-03,
+          6.8235e-04,  1.5211e-04],
+        [ 8.3089e-05,  1.9026e-04,  1.7509e-07,  ...,  2.0158e-04,
+         -2.1210e-03,  3.5167e-05],
+        [ 1.0431e-04, -6.2227e-04,  5.1372e-06,  ...,  9.1314e-05,
+         -9.6273e-04, -1.4596e-05],
+        ...,
+        [ 1.3745e-04,  1.5163e-04, -1.2040e-05,  ...,  8.3566e-05,
+          4.9686e-04,  2.5749e-04],
+        [-5.5075e-04,  3.5024e-04,  9.6764e-07,  ...,  4.1342e-04,
+          9.6846e-04, -8.0490e-04],
+        [ 1.5950e-04,  1.0900e-03,  2.1048e-06,  ...,  2.8534e-03,
+          3.6373e-03,  2.3186e-04]], device='cuda:0')
+Epoch 388, bias, value: tensor([ 0.0125,  0.0112, -0.0019,  0.0144, -0.0099, -0.0083,  0.0100,  0.0208,
+        -0.0315,  0.0510], device='cuda:0'), grad: tensor([-0.0078, -0.0072, -0.0163,  0.0206, -0.0017,  0.0028, -0.0016,  0.0230,
+        -0.0416,  0.0299], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 387, time 216.82, cls_loss 0.4764 cls_loss_mapping 0.0024 cls_loss_causal 0.4472 re_mapping 0.0061 re_causal 0.0152 /// teacc 98.86 lr 0.00010000
+Epoch 389, weight, value: tensor([[-0.0822,  0.0707, -0.1129,  ..., -0.1215, -0.1203,  0.0225],
+        [-0.0916, -0.1758,  0.0088,  ..., -0.0541, -0.0425, -0.1145],
+        [ 0.0323, -0.1035,  0.0556,  ...,  0.1614, -0.1439, -0.0434],
+        ...,
+        [-0.1233, -0.2132,  0.0915,  ..., -0.0141, -0.0532,  0.0785],
+        [ 0.0282,  0.0378, -0.0373,  ..., -0.0913, -0.1048, -0.0243],
+        [-0.1589, -0.0015, -0.0030,  ..., -0.1802,  0.1177,  0.0281]],
+       device='cuda:0'), grad: tensor([[-7.9803e-03, -7.0992e-03,  2.4772e-04,  ..., -1.9341e-03,
+          6.2513e-04,  9.4366e-04],
+        [ 3.3236e-04,  3.7223e-05,  2.5511e-04,  ...,  2.5487e-04,
+          5.0926e-04, -2.5773e-04],
+        [ 3.4428e-03,  2.5368e-03, -3.9077e-04,  ...,  2.0254e-04,
+          3.5763e-04,  6.7997e-04],
+        ...,
+        [ 4.2939e-04,  5.1647e-05, -1.5583e-03,  ...,  1.7536e-04,
+         -4.3259e-03, -5.7831e-03],
+        [ 1.3971e-03,  9.6798e-04, -6.5565e-05,  ...,  4.9925e-04,
+         -1.9951e-03, -2.2793e-03],
+        [ 1.6737e-04,  6.5386e-05,  4.2033e-04,  ...,  2.9635e-04,
+          1.1034e-03,  1.7614e-03]], device='cuda:0')
+Epoch 389, bias, value: tensor([ 0.0124,  0.0108, -0.0011,  0.0154, -0.0094, -0.0090,  0.0093,  0.0221,
+        -0.0323,  0.0501], device='cuda:0'), grad: tensor([-0.0040, -0.0083,  0.0312,  0.0015,  0.0302,  0.0260, -0.0048,  0.0030,
+        -0.0052, -0.0697], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 388, time 217.08, cls_loss 0.4728 cls_loss_mapping 0.0023 cls_loss_causal 0.4419 re_mapping 0.0062 re_causal 0.0162 /// teacc 98.92 lr 0.00010000
+Epoch 390, weight, value: tensor([[-0.0821,  0.0710, -0.1145,  ..., -0.1222, -0.1218,  0.0221],
+        [-0.0900, -0.1771,  0.0100,  ..., -0.0536, -0.0415, -0.1157],
+        [ 0.0326, -0.1029,  0.0558,  ...,  0.1605, -0.1445, -0.0421],
+        ...,
+        [-0.1252, -0.2141,  0.0915,  ..., -0.0146, -0.0531,  0.0789],
+        [ 0.0291,  0.0385, -0.0370,  ..., -0.0911, -0.1049, -0.0247],
+        [-0.1584, -0.0011, -0.0030,  ..., -0.1809,  0.1175,  0.0276]],
+       device='cuda:0'), grad: tensor([[ 3.2019e-06,  6.9332e-04,  6.0536e-07,  ...,  4.0829e-05,
+          5.4091e-05,  4.2057e-04],
+        [ 5.3421e-06,  7.7903e-05,  8.8289e-06,  ...,  9.0480e-05,
+          6.5744e-05,  4.4703e-04],
+        [ 1.7539e-05,  5.7936e-05,  4.0412e-05,  ...,  7.5459e-05,
+          7.5340e-05,  4.2295e-04],
+        ...,
+        [ 8.1360e-05,  1.5044e-04,  7.2098e-04,  ..., -3.3689e-04,
+          9.2745e-04,  9.0361e-04],
+        [-1.3530e-04,  2.0456e-04,  6.0987e-04,  ...,  7.1585e-05,
+          6.9237e-04,  5.3596e-04],
+        [-8.4519e-05, -9.9838e-05, -1.9588e-03,  ..., -2.6870e-04,
+         -2.2202e-03, -3.6025e-04]], device='cuda:0')
+Epoch 390, bias, value: tensor([ 0.0126,  0.0115, -0.0005,  0.0150, -0.0105, -0.0083,  0.0085,  0.0225,
+        -0.0323,  0.0499], device='cuda:0'), grad: tensor([ 0.0257,  0.0187,  0.0191, -0.0123,  0.0122, -0.0444,  0.0128, -0.0050,
+        -0.0358,  0.0090], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 389, time 218.52, cls_loss 0.4915 cls_loss_mapping 0.0027 cls_loss_causal 0.4625 re_mapping 0.0056 re_causal 0.0152 /// teacc 98.98 lr 0.00010000
+Epoch 391, weight, value: tensor([[-0.0806,  0.0716, -0.1152,  ..., -0.1238, -0.1230,  0.0205],
+        [-0.0894, -0.1764,  0.0098,  ..., -0.0552, -0.0415, -0.1152],
+        [ 0.0321, -0.1037,  0.0561,  ...,  0.1608, -0.1433, -0.0409],
+        ...,
+        [-0.1258, -0.2151,  0.0906,  ..., -0.0157, -0.0536,  0.0783],
+        [ 0.0292,  0.0382, -0.0360,  ..., -0.0906, -0.1049, -0.0247],
+        [-0.1585, -0.0012, -0.0034,  ..., -0.1810,  0.1171,  0.0285]],
+       device='cuda:0'), grad: tensor([[ 2.1229e-03,  2.7373e-05,  2.9230e-04,  ...,  8.2493e-04,
+          5.8651e-04,  4.6945e-04],
+        [ 7.2837e-05,  6.0320e-05,  4.3035e-04,  ...,  9.4843e-04,
+          1.1921e-04,  1.6391e-04],
+        [-4.6110e-04,  1.0246e-04, -4.8370e-03,  ..., -1.7120e-02,
+         -1.2367e-02, -7.9803e-03],
+        ...,
+        [ 1.1849e-04,  1.3340e-04, -5.9986e-04,  ...,  7.0906e-04,
+          3.3855e-04,  3.0017e-04],
+        [ 6.1417e-04,  6.4039e-04,  6.1703e-04,  ...,  1.1625e-03,
+          1.5383e-03,  1.8942e-04],
+        [ 6.9094e-04,  2.0063e-04,  1.9379e-03,  ...,  7.1945e-03,
+          9.4299e-03,  6.3934e-03]], device='cuda:0')
+Epoch 391, bias, value: tensor([ 0.0123,  0.0111,  0.0003,  0.0149, -0.0091, -0.0085,  0.0085,  0.0214,
+        -0.0323,  0.0497], device='cuda:0'), grad: tensor([-0.0121, -0.0138, -0.0322, -0.0349,  0.0255,  0.0124,  0.0129,  0.0120,
+        -0.0084,  0.0386], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 390----------------------------------------------------
+epoch 390, time 217.35, cls_loss 0.4913 cls_loss_mapping 0.0028 cls_loss_causal 0.4704 re_mapping 0.0056 re_causal 0.0151 /// teacc 99.01 lr 0.00010000
+Epoch 392, weight, value: tensor([[-0.0799,  0.0720, -0.1152,  ..., -0.1228, -0.1224,  0.0210],
+        [-0.0898, -0.1768,  0.0092,  ..., -0.0555, -0.0417, -0.1153],
+        [ 0.0325, -0.1034,  0.0571,  ...,  0.1610, -0.1422, -0.0388],
+        ...,
+        [-0.1261, -0.2146,  0.0905,  ..., -0.0147, -0.0549,  0.0768],
+        [ 0.0285,  0.0380, -0.0365,  ..., -0.0911, -0.1053, -0.0243],
+        [-0.1597, -0.0011, -0.0040,  ..., -0.1828,  0.1167,  0.0275]],
+       device='cuda:0'), grad: tensor([[ 7.0477e-04,  1.3113e-04,  1.0675e-04,  ...,  5.6446e-05,
+          2.0349e-04,  2.1124e-04],
+        [ 3.0935e-05,  1.0043e-05,  8.3327e-05,  ...,  4.3720e-05,
+          1.5295e-04,  5.5879e-05],
+        [ 8.9502e-04,  1.6654e-04,  8.5592e-05,  ...,  3.2395e-05,
+          1.8811e-04,  2.4486e-04],
+        ...,
+        [ 3.3808e-04,  5.7787e-05,  7.4506e-05,  ...,  4.8786e-05,
+          1.9312e-04,  1.3459e-04],
+        [-5.1537e-03, -5.4455e-04,  1.4818e-04,  ...,  7.7844e-05,
+          3.1638e-04, -1.4343e-03],
+        [ 3.2864e-03,  2.1343e-03,  1.3483e-04,  ...,  6.7115e-05,
+          4.7989e-03,  5.1832e-04]], device='cuda:0')
+Epoch 392, bias, value: tensor([ 0.0127,  0.0115, -0.0002,  0.0134, -0.0084, -0.0079,  0.0096,  0.0206,
+        -0.0324,  0.0496], device='cuda:0'), grad: tensor([ 0.0078,  0.0031,  0.0062,  0.0097,  0.0028, -0.0327,  0.0017,  0.0046,
+        -0.0174,  0.0142], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 391, time 217.31, cls_loss 0.4641 cls_loss_mapping 0.0030 cls_loss_causal 0.4418 re_mapping 0.0059 re_causal 0.0146 /// teacc 98.97 lr 0.00010000
+Epoch 393, weight, value: tensor([[-0.0802,  0.0726, -0.1151,  ..., -0.1246, -0.1237,  0.0199],
+        [-0.0897, -0.1783,  0.0098,  ..., -0.0522, -0.0396, -0.1158],
+        [ 0.0329, -0.1025,  0.0551,  ...,  0.1597, -0.1418, -0.0398],
+        ...,
+        [-0.1258, -0.2136,  0.0901,  ..., -0.0149, -0.0554,  0.0756],
+        [ 0.0289,  0.0387, -0.0361,  ..., -0.0909, -0.1046, -0.0229],
+        [-0.1602, -0.0004, -0.0028,  ..., -0.1821,  0.1160,  0.0269]],
+       device='cuda:0'), grad: tensor([[ 1.0413e-04,  1.0170e-05,  3.6638e-06,  ...,  9.4995e-08,
+          2.1601e-04,  3.0041e-04],
+        [-2.1112e-04, -4.2009e-04, -3.8356e-05,  ..., -1.0617e-06,
+         -2.6569e-03, -3.3836e-03],
+        [ 1.2817e-03,  1.3542e-04,  2.5535e-04,  ..., -2.6211e-05,
+          2.7633e-04,  3.8242e-04],
+        ...,
+        [ 2.4867e-04,  3.8981e-05,  8.3596e-06,  ...,  9.1344e-06,
+          3.1281e-04,  4.1127e-04],
+        [-1.8701e-05, -6.5982e-05, -2.6298e-04,  ...,  8.9556e-06,
+          1.9777e-04,  1.4324e-06],
+        [ 3.5548e-04,  5.4091e-05,  1.0014e-05,  ..., -7.8138e-07,
+          9.9242e-05,  3.1143e-05]], device='cuda:0')
+Epoch 393, bias, value: tensor([ 0.0116,  0.0117, -0.0009,  0.0143, -0.0078, -0.0074,  0.0097,  0.0206,
+        -0.0326,  0.0494], device='cuda:0'), grad: tensor([-0.0138, -0.0453,  0.0285,  0.0120,  0.0183,  0.0105, -0.0117,  0.0326,
+        -0.0210, -0.0099], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 392, time 217.05, cls_loss 0.4699 cls_loss_mapping 0.0030 cls_loss_causal 0.4427 re_mapping 0.0061 re_causal 0.0150 /// teacc 98.58 lr 0.00010000
+Epoch 394, weight, value: tensor([[-0.0793,  0.0724, -0.1151,  ..., -0.1230, -0.1238,  0.0199],
+        [-0.0888, -0.1794,  0.0088,  ..., -0.0532, -0.0395, -0.1161],
+        [ 0.0317, -0.1020,  0.0548,  ...,  0.1595, -0.1442, -0.0407],
+        ...,
+        [-0.1265, -0.2135,  0.0899,  ..., -0.0159, -0.0546,  0.0752],
+        [ 0.0296,  0.0381, -0.0362,  ..., -0.0894, -0.1036, -0.0222],
+        [-0.1602,  0.0003, -0.0025,  ..., -0.1839,  0.1152,  0.0266]],
+       device='cuda:0'), grad: tensor([[7.9679e-04, 7.0953e-04, 1.9097e-04,  ..., 1.2147e-04, 6.0463e-04,
+         4.0603e-04],
+        [2.3782e-05, 1.2648e-04, 2.2724e-05,  ..., 2.7701e-05, 6.6936e-05,
+         1.5116e-04],
+        [4.4608e-04, 6.1703e-04, 7.3850e-05,  ..., 5.3287e-05, 3.1281e-04,
+         2.8944e-04],
+        ...,
+        [2.6727e-04, 2.7728e-04, 1.4436e-04,  ..., 8.7023e-05, 4.1127e-04,
+         2.9588e-04],
+        [4.4727e-04, 4.2510e-04, 1.8013e-04,  ..., 6.0141e-05, 4.7350e-04,
+         3.4976e-04],
+        [2.9683e-04, 6.0654e-04, 1.9097e-04,  ..., 3.7289e-04, 2.4629e-04,
+         5.3406e-04]], device='cuda:0')
+Epoch 394, bias, value: tensor([ 0.0121,  0.0108, -0.0007,  0.0151, -0.0073, -0.0080,  0.0103,  0.0209,
+        -0.0329,  0.0482], device='cuda:0'), grad: tensor([ 0.0168, -0.0128,  0.0168,  0.0183, -0.0591,  0.0080, -0.0115,  0.0189,
+        -0.0130,  0.0176], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 393, time 217.26, cls_loss 0.4580 cls_loss_mapping 0.0031 cls_loss_causal 0.4359 re_mapping 0.0058 re_causal 0.0145 /// teacc 98.93 lr 0.00010000
+Epoch 395, weight, value: tensor([[-7.9330e-02,  7.3517e-02, -1.1472e-01,  ..., -1.2181e-01,
+         -1.2442e-01,  1.9694e-02],
+        [-8.8200e-02, -1.7949e-01,  8.9559e-03,  ..., -5.2675e-02,
+         -3.9793e-02, -1.1631e-01],
+        [ 3.1546e-02, -1.0145e-01,  5.5496e-02,  ...,  1.6058e-01,
+         -1.4407e-01, -4.0807e-02],
+        ...,
+        [-1.2540e-01, -2.1350e-01,  8.9072e-02,  ..., -1.7829e-02,
+         -5.4547e-02,  7.5606e-02],
+        [ 2.9496e-02,  3.8487e-02, -3.7155e-02,  ..., -8.9470e-02,
+         -1.0469e-01, -2.2067e-02],
+        [-1.6049e-01, -1.6982e-04, -1.8611e-03,  ..., -1.8366e-01,
+          1.1544e-01,  2.6853e-02]], device='cuda:0'), grad: tensor([[ 3.7932e-04,  2.5082e-04,  1.0473e-04,  ...,  1.6570e-04,
+         -2.4261e-03,  2.1911e-04],
+        [ 6.1728e-06,  7.3090e-06,  5.0068e-04,  ...,  1.8740e-03,
+          5.0468e-03,  2.7847e-03],
+        [-1.9896e-04, -3.0726e-05, -4.5943e-04,  ..., -2.3019e-04,
+          6.0749e-04,  1.9598e-04],
+        ...,
+        [ 1.2887e-04,  5.4181e-05, -1.1063e-03,  ...,  1.1654e-03,
+          1.8301e-03, -1.8177e-03],
+        [-8.0795e-03, -5.1918e-03,  3.0589e-04,  ...,  2.5725e-04,
+          3.0804e-04,  4.6301e-04],
+        [-4.3154e-04, -6.0797e-04, -1.3342e-03,  ..., -3.6621e-03,
+         -5.7220e-03, -3.2692e-03]], device='cuda:0')
+Epoch 395, bias, value: tensor([ 0.0116,  0.0108, -0.0007,  0.0149, -0.0077, -0.0084,  0.0109,  0.0210,
+        -0.0326,  0.0486], device='cuda:0'), grad: tensor([-0.0143,  0.0075,  0.0167, -0.0115,  0.0246,  0.0202, -0.0300, -0.0008,
+         0.0006, -0.0130], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 394, time 217.31, cls_loss 0.4758 cls_loss_mapping 0.0032 cls_loss_causal 0.4593 re_mapping 0.0055 re_causal 0.0133 /// teacc 98.85 lr 0.00010000
+Epoch 396, weight, value: tensor([[-0.0795,  0.0730, -0.1148,  ..., -0.1222, -0.1244,  0.0217],
+        [-0.0879, -0.1791,  0.0093,  ..., -0.0525, -0.0400, -0.1174],
+        [ 0.0300, -0.1027,  0.0557,  ...,  0.1602, -0.1444, -0.0399],
+        ...,
+        [-0.1237, -0.2148,  0.0896,  ..., -0.0178, -0.0539,  0.0763],
+        [ 0.0311,  0.0399, -0.0369,  ..., -0.0895, -0.1036, -0.0215],
+        [-0.1623, -0.0012, -0.0018,  ..., -0.1840,  0.1158,  0.0274]],
+       device='cuda:0'), grad: tensor([[ 2.7239e-05,  1.5914e-04,  1.9316e-06,  ...,  9.1934e-04,
+          2.4104e-04,  8.2403e-06],
+        [ 1.0476e-05,  1.2338e-04,  1.2152e-05,  ...,  1.2338e-04,
+          1.3084e-03,  5.9456e-05],
+        [-1.8942e-04, -6.3229e-04, -3.8236e-05,  ..., -1.4420e-03,
+         -1.3227e-03,  7.0706e-06],
+        ...,
+        [ 3.6120e-05,  2.2054e-04,  5.2303e-06,  ...,  1.7595e-04,
+         -2.8667e-03, -1.3864e-04],
+        [ 7.7784e-05, -1.3790e-03,  6.7651e-06,  ...,  1.1671e-04,
+          1.2279e-04,  1.1861e-05],
+        [ 1.4150e-04,  2.4509e-04,  1.5080e-05,  ...,  8.5056e-05,
+          6.2323e-04,  5.0962e-05]], device='cuda:0')
+Epoch 396, bias, value: tensor([ 0.0110,  0.0103, -0.0010,  0.0145, -0.0086, -0.0089,  0.0117,  0.0216,
+        -0.0315,  0.0492], device='cuda:0'), grad: tensor([ 0.0381,  0.0189, -0.0203, -0.0205,  0.0192,  0.0389, -0.0177, -0.0451,
+        -0.0267,  0.0152], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 395, time 216.99, cls_loss 0.4706 cls_loss_mapping 0.0023 cls_loss_causal 0.4525 re_mapping 0.0061 re_causal 0.0149 /// teacc 98.84 lr 0.00010000
+Epoch 397, weight, value: tensor([[-0.0792,  0.0723, -0.1154,  ..., -0.1235, -0.1245,  0.0228],
+        [-0.0884, -0.1790,  0.0087,  ..., -0.0528, -0.0395, -0.1175],
+        [ 0.0301, -0.1014,  0.0567,  ...,  0.1612, -0.1435, -0.0399],
+        ...,
+        [-0.1242, -0.2147,  0.0892,  ..., -0.0168, -0.0544,  0.0751],
+        [ 0.0306,  0.0388, -0.0371,  ..., -0.0906, -0.1039, -0.0217],
+        [-0.1608,  0.0007, -0.0015,  ..., -0.1835,  0.1169,  0.0284]],
+       device='cuda:0'), grad: tensor([[-2.3097e-05,  3.0255e-04,  3.2932e-06,  ..., -2.1812e-06,
+          9.7871e-05,  9.0694e-04],
+        [ 2.5555e-06,  1.0967e-04,  1.0826e-05,  ...,  8.8587e-06,
+          5.7459e-05,  4.0507e-04],
+        [ 8.0317e-06,  2.7418e-04,  7.2777e-05,  ..., -2.8074e-05,
+          1.0967e-04,  6.8092e-04],
+        ...,
+        [ 1.3039e-06,  5.0640e-04,  1.7762e-04,  ...,  1.3532e-06,
+          1.8156e-04,  3.7360e-04],
+        [ 3.1531e-05,  7.2575e-04,  3.0160e-04,  ...,  2.4904e-06,
+          2.5797e-04,  7.8583e-04],
+        [ 7.2457e-06, -1.2255e-03, -6.8712e-04,  ...,  2.6450e-06,
+         -2.4390e-04,  7.4053e-04]], device='cuda:0')
+Epoch 397, bias, value: tensor([ 0.0120,  0.0101, -0.0012,  0.0148, -0.0097, -0.0088,  0.0113,  0.0218,
+        -0.0316,  0.0496], device='cuda:0'), grad: tensor([-0.0078,  0.0168, -0.0132,  0.0217, -0.0741,  0.0168,  0.0192, -0.0136,
+         0.0196,  0.0146], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 396, time 216.98, cls_loss 0.4923 cls_loss_mapping 0.0031 cls_loss_causal 0.4710 re_mapping 0.0059 re_causal 0.0147 /// teacc 98.97 lr 0.00010000
+Epoch 398, weight, value: tensor([[-7.9122e-02,  7.2009e-02, -1.1555e-01,  ..., -1.2407e-01,
+         -1.2480e-01,  2.3701e-02],
+        [-8.7489e-02, -1.7872e-01,  8.4283e-03,  ..., -5.2789e-02,
+         -4.0200e-02, -1.1851e-01],
+        [ 3.0251e-02, -1.0188e-01,  5.5779e-02,  ...,  1.6209e-01,
+         -1.4541e-01, -3.9714e-02],
+        ...,
+        [-1.2313e-01, -2.1566e-01,  8.9180e-02,  ..., -1.6824e-02,
+         -5.3718e-02,  7.4880e-02],
+        [ 2.9959e-02,  3.8953e-02, -3.6796e-02,  ..., -9.1124e-02,
+         -1.0394e-01, -2.1862e-02],
+        [-1.6177e-01,  2.1953e-05, -1.0074e-03,  ..., -1.8227e-01,
+          1.1648e-01,  2.7929e-02]], device='cuda:0'), grad: tensor([[ 1.1152e-04,  2.1248e-03,  7.9200e-06,  ...,  2.5004e-05,
+          3.6788e-04,  3.3855e-04],
+        [ 8.5056e-05,  1.9968e-04,  3.6407e-04,  ...,  1.1539e-03,
+          1.2290e-04,  8.1897e-05],
+        [ 2.8114e-03,  1.3943e-03, -9.2793e-04,  ..., -2.9488e-03,
+          1.0502e-04,  4.3893e-04],
+        ...,
+        [ 2.3770e-04,  4.0627e-04,  2.7490e-04,  ...,  8.9407e-04,
+          2.1040e-04,  4.2191e-03],
+        [ 1.3390e-02,  6.1378e-03,  6.2764e-05,  ...,  1.9836e-04,
+          1.5507e-03,  6.1417e-04],
+        [ 1.0800e-04,  6.3801e-04,  1.4819e-05,  ...,  4.2558e-05,
+          3.6812e-04,  9.7752e-04]], device='cuda:0')
+Epoch 398, bias, value: tensor([ 0.0119,  0.0109, -0.0028,  0.0142, -0.0081, -0.0084,  0.0118,  0.0214,
+        -0.0320,  0.0495], device='cuda:0'), grad: tensor([ 0.0094,  0.0088,  0.0081,  0.0062, -0.0225, -0.0226,  0.0083,  0.0270,
+         0.0267, -0.0493], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 397, time 217.05, cls_loss 0.4541 cls_loss_mapping 0.0020 cls_loss_causal 0.4298 re_mapping 0.0064 re_causal 0.0166 /// teacc 98.98 lr 0.00010000
+Epoch 399, weight, value: tensor([[-0.0797,  0.0726, -0.1156,  ..., -0.1245, -0.1251,  0.0224],
+        [-0.0872, -0.1792,  0.0082,  ..., -0.0535, -0.0395, -0.1169],
+        [ 0.0286, -0.1021,  0.0574,  ...,  0.1631, -0.1441, -0.0386],
+        ...,
+        [-0.1236, -0.2155,  0.0877,  ..., -0.0167, -0.0547,  0.0743],
+        [ 0.0302,  0.0386, -0.0381,  ..., -0.0912, -0.1045, -0.0233],
+        [-0.1621, -0.0014, -0.0021,  ..., -0.1832,  0.1160,  0.0271]],
+       device='cuda:0'), grad: tensor([[-1.1332e-05, -1.0967e-04,  1.1021e-04,  ...,  7.6652e-05,
+          2.9874e-04,  3.8671e-04],
+        [ 1.0971e-06,  7.1013e-07,  3.3522e-04,  ...,  1.2755e-04,
+         -5.6572e-03, -4.3373e-03],
+        [-4.6825e-04, -1.6689e-04,  8.2684e-04,  ...,  5.0396e-05,
+          5.5599e-04,  2.6436e-03],
+        ...,
+        [ 1.4439e-05,  6.4611e-05, -4.1542e-03,  ..., -3.1586e-03,
+          1.3123e-03, -4.8370e-03],
+        [ 2.7180e-05,  2.8536e-05,  4.9561e-05,  ...,  3.5381e-04,
+          7.0333e-04,  5.2261e-04],
+        [-1.2249e-05, -2.1800e-05,  4.9770e-05,  ...,  1.4973e-04,
+          1.8635e-03,  1.9875e-03]], device='cuda:0')
+Epoch 399, bias, value: tensor([ 0.0113,  0.0099, -0.0013,  0.0142, -0.0085, -0.0084,  0.0128,  0.0211,
+        -0.0324,  0.0496], device='cuda:0'), grad: tensor([ 0.0110, -0.0019, -0.0063, -0.0410,  0.0136,  0.0136,  0.0170, -0.0058,
+        -0.0203,  0.0202], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 398, time 217.13, cls_loss 0.4537 cls_loss_mapping 0.0025 cls_loss_causal 0.4289 re_mapping 0.0059 re_causal 0.0153 /// teacc 98.95 lr 0.00010000
+Epoch 400, weight, value: tensor([[-0.0798,  0.0729, -0.1162,  ..., -0.1242, -0.1249,  0.0223],
+        [-0.0873, -0.1792,  0.0088,  ..., -0.0538, -0.0392, -0.1169],
+        [ 0.0293, -0.1019,  0.0577,  ...,  0.1646, -0.1441, -0.0382],
+        ...,
+        [-0.1243, -0.2167,  0.0882,  ..., -0.0172, -0.0555,  0.0744],
+        [ 0.0294,  0.0388, -0.0376,  ..., -0.0910, -0.1050, -0.0239],
+        [-0.1619, -0.0010, -0.0024,  ..., -0.1840,  0.1172,  0.0283]],
+       device='cuda:0'), grad: tensor([[ 2.5768e-03,  5.0497e-04,  3.7169e-04,  ...,  3.7861e-04,
+          3.8004e-04,  1.9627e-03],
+        [ 2.0468e-04,  2.0400e-05, -1.0405e-03,  ..., -2.0528e-04,
+         -4.5872e-04,  6.1178e-04],
+        [ 9.9945e-04,  2.9430e-05,  2.6011e-04,  ..., -8.0776e-04,
+          2.1219e-04,  8.8787e-04],
+        ...,
+        [ 8.8692e-05,  2.5630e-04,  5.4926e-05,  ...,  2.0552e-04,
+          6.3753e-04,  8.1396e-04],
+        [ 2.2629e-02,  1.7120e-02,  2.3222e-04,  ...,  3.4332e-04,
+          3.6526e-04,  8.9836e-04],
+        [ 6.9904e-04, -7.6199e-04, -1.2035e-03,  ..., -5.4359e-04,
+         -2.7199e-03, -2.7561e-03]], device='cuda:0')
+Epoch 400, bias, value: tensor([ 9.9376e-03,  1.1229e-02,  6.8231e-05,  1.3903e-02, -8.9988e-03,
+        -6.8252e-03,  1.1963e-02,  2.0408e-02, -3.3853e-02,  5.0367e-02],
+       device='cuda:0'), grad: tensor([ 0.0231, -0.0153,  0.0166, -0.0311,  0.0223, -0.0654,  0.0218,  0.0145,
+         0.0309, -0.0175], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 399, time 216.87, cls_loss 0.4663 cls_loss_mapping 0.0026 cls_loss_causal 0.4449 re_mapping 0.0059 re_causal 0.0149 /// teacc 98.89 lr 0.00001000
+Epoch 401, weight, value: tensor([[-0.0807,  0.0721, -0.1169,  ..., -0.1240, -0.1256,  0.0225],
+        [-0.0880, -0.1789,  0.0083,  ..., -0.0532, -0.0396, -0.1167],
+        [ 0.0302, -0.1006,  0.0563,  ...,  0.1639, -0.1434, -0.0388],
+        ...,
+        [-0.1242, -0.2171,  0.0892,  ..., -0.0149, -0.0551,  0.0758],
+        [ 0.0298,  0.0387, -0.0367,  ..., -0.0917, -0.1051, -0.0240],
+        [-0.1627, -0.0016, -0.0018,  ..., -0.1836,  0.1178,  0.0295]],
+       device='cuda:0'), grad: tensor([[-1.3068e-05, -2.0194e-04,  1.9157e-04,  ...,  1.5903e-04,
+          1.0207e-05,  1.3959e-04],
+        [-2.4681e-03, -4.4136e-03,  1.7095e-04,  ...,  2.1303e-04,
+          1.6737e-04, -9.1791e-04],
+        [-7.0610e-03,  8.1539e-04, -1.7023e-03,  ..., -2.7771e-03,
+          1.8096e-04, -1.3428e-02],
+        ...,
+        [ 3.1519e-04,  1.1122e-04, -9.4318e-04,  ...,  1.9681e-04,
+         -5.7411e-04, -5.2547e-04],
+        [ 3.0975e-03,  3.2234e-04,  1.5581e-04,  ...,  8.2827e-04,
+          3.1090e-04,  5.1765e-03],
+        [-2.6054e-03, -4.3983e-03,  1.0500e-03,  ...,  1.4281e-04,
+         -6.8970e-03,  1.2798e-03]], device='cuda:0')
+Epoch 401, bias, value: tensor([ 0.0104,  0.0109, -0.0008,  0.0140, -0.0086, -0.0064,  0.0110,  0.0212,
+        -0.0341,  0.0507], device='cuda:0'), grad: tensor([-0.0195, -0.0172, -0.0220,  0.0156,  0.0163,  0.0141,  0.0178,  0.0092,
+         0.0231, -0.0376], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 400, time 216.75, cls_loss 0.4600 cls_loss_mapping 0.0020 cls_loss_causal 0.4364 re_mapping 0.0063 re_causal 0.0164 /// teacc 98.99 lr 0.00001000
+Epoch 402, weight, value: tensor([[-0.0807,  0.0721, -0.1170,  ..., -0.1242, -0.1256,  0.0227],
+        [-0.0880, -0.1790,  0.0084,  ..., -0.0533, -0.0394, -0.1167],
+        [ 0.0303, -0.1006,  0.0562,  ...,  0.1638, -0.1435, -0.0388],
+        ...,
+        [-0.1244, -0.2173,  0.0891,  ..., -0.0150, -0.0550,  0.0757],
+        [ 0.0296,  0.0388, -0.0365,  ..., -0.0918, -0.1051, -0.0241],
+        [-0.1627, -0.0015, -0.0016,  ..., -0.1833,  0.1179,  0.0295]],
+       device='cuda:0'), grad: tensor([[ 7.1859e-04, -8.2064e-04,  6.5184e-04,  ...,  2.7776e-04,
+          4.6992e-04,  5.6839e-04],
+        [-6.9809e-03,  7.8440e-05,  9.7609e-04,  ..., -8.6823e-03,
+          1.4496e-04,  1.0147e-03],
+        [ 1.3895e-03,  1.1015e-03, -2.2566e-04,  ..., -2.1172e-03,
+         -1.0496e-04,  5.7650e-04],
+        ...,
+        [ 2.9907e-03,  1.0508e-04,  1.9102e-03,  ...,  7.5493e-03,
+          8.9931e-04,  4.7531e-03],
+        [ 2.9469e-03,  3.1328e-04,  2.7924e-03,  ...,  3.1586e-03,
+          3.5553e-03,  3.3493e-03],
+        [ 1.0748e-03,  1.8227e-04,  2.5272e-03,  ...,  2.9335e-03,
+          8.3208e-04,  1.4267e-03]], device='cuda:0')
+Epoch 402, bias, value: tensor([ 0.0103,  0.0109, -0.0008,  0.0142, -0.0084, -0.0066,  0.0110,  0.0211,
+        -0.0341,  0.0507], device='cuda:0'), grad: tensor([-0.0252, -0.0159, -0.0118,  0.0199, -0.0446,  0.0071, -0.0179,  0.0214,
+         0.0426,  0.0244], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 401, time 216.75, cls_loss 0.4561 cls_loss_mapping 0.0016 cls_loss_causal 0.4315 re_mapping 0.0058 re_causal 0.0148 /// teacc 99.00 lr 0.00001000
+Epoch 403, weight, value: tensor([[-0.0807,  0.0718, -0.1171,  ..., -0.1243, -0.1256,  0.0226],
+        [-0.0880, -0.1790,  0.0085,  ..., -0.0532, -0.0392, -0.1164],
+        [ 0.0305, -0.1006,  0.0562,  ...,  0.1638, -0.1435, -0.0390],
+        ...,
+        [-0.1243, -0.2173,  0.0891,  ..., -0.0151, -0.0550,  0.0756],
+        [ 0.0297,  0.0389, -0.0366,  ..., -0.0917, -0.1051, -0.0241],
+        [-0.1627, -0.0013, -0.0016,  ..., -0.1833,  0.1180,  0.0297]],
+       device='cuda:0'), grad: tensor([[-4.9949e-05, -1.6699e-03, -8.6498e-04,  ..., -3.1447e-04,
+          6.9380e-05,  1.7846e-04],
+        [ 6.9290e-06,  3.9399e-05,  2.1562e-05,  ...,  8.4019e-04,
+          7.1935e-06,  1.0866e-04],
+        [ 3.0413e-05,  3.0613e-04,  2.7800e-04,  ...,  6.4433e-05,
+          2.0444e-05, -5.0879e-04],
+        ...,
+        [ 2.3544e-05,  8.6927e-04,  9.6369e-04,  ..., -9.2888e-04,
+          2.9802e-04,  5.9032e-04],
+        [-7.0429e-04, -9.9242e-05,  1.9383e-04,  ...,  4.5985e-05,
+         -2.8801e-04,  1.3459e-04],
+        [ 1.2493e-04, -6.5422e-04, -1.8444e-03,  ...,  1.8013e-04,
+         -1.5526e-02, -1.1650e-02]], device='cuda:0')
+Epoch 403, bias, value: tensor([ 0.0103,  0.0110, -0.0008,  0.0141, -0.0084, -0.0065,  0.0110,  0.0211,
+        -0.0343,  0.0507], device='cuda:0'), grad: tensor([-0.0022, -0.0064, -0.0213,  0.0108,  0.0341,  0.0057, -0.0083,  0.0086,
+         0.0078, -0.0287], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 402, time 216.84, cls_loss 0.4733 cls_loss_mapping 0.0013 cls_loss_causal 0.4461 re_mapping 0.0054 re_causal 0.0146 /// teacc 98.99 lr 0.00001000
+Epoch 404, weight, value: tensor([[-0.0806,  0.0719, -0.1172,  ..., -0.1245, -0.1255,  0.0227],
+        [-0.0879, -0.1790,  0.0088,  ..., -0.0532, -0.0390, -0.1162],
+        [ 0.0306, -0.1006,  0.0563,  ...,  0.1639, -0.1436, -0.0389],
+        ...,
+        [-0.1244, -0.2174,  0.0892,  ..., -0.0150, -0.0550,  0.0756],
+        [ 0.0296,  0.0389, -0.0367,  ..., -0.0919, -0.1051, -0.0242],
+        [-0.1627, -0.0014, -0.0018,  ..., -0.1834,  0.1179,  0.0296]],
+       device='cuda:0'), grad: tensor([[-1.1347e-05,  6.6185e-04,  1.1230e-04,  ...,  1.5640e-03,
+          3.6049e-04,  2.4414e-03],
+        [ 9.0227e-06,  1.3318e-06,  4.0460e-04,  ...,  1.8632e-04,
+          1.8871e-04,  1.6241e-03],
+        [-5.2005e-05, -7.4673e-04, -4.5657e-04,  ..., -1.7900e-03,
+          4.1485e-04,  8.2111e-04],
+        ...,
+        [ 3.9458e-05,  6.6906e-06, -9.5987e-04,  ...,  4.4197e-05,
+          1.4198e-04,  8.1329e-03],
+        [-3.3706e-05,  3.6031e-05,  6.9916e-05,  ...,  4.5478e-05,
+         -2.1000e-03, -5.6419e-03],
+        [ 4.4763e-05,  3.3200e-05,  1.9431e-04,  ..., -4.6301e-04,
+         -3.4833e-04,  1.4868e-03]], device='cuda:0')
+Epoch 404, bias, value: tensor([ 0.0102,  0.0111, -0.0007,  0.0141, -0.0084, -0.0065,  0.0111,  0.0209,
+        -0.0342,  0.0506], device='cuda:0'), grad: tensor([-0.0423,  0.0145,  0.0125,  0.0199, -0.0137,  0.0090, -0.0156,  0.0355,
+        -0.0104, -0.0095], device='cuda:0')
+100
+1e-05
+changing lr
+---------------------saving model at epoch 403----------------------------------------------------
+epoch 403, time 217.73, cls_loss 0.4734 cls_loss_mapping 0.0017 cls_loss_causal 0.4506 re_mapping 0.0052 re_causal 0.0142 /// teacc 99.04 lr 0.00001000
+Epoch 405, weight, value: tensor([[-0.0807,  0.0718, -0.1172,  ..., -0.1245, -0.1255,  0.0226],
+        [-0.0879, -0.1790,  0.0089,  ..., -0.0531, -0.0390, -0.1161],
+        [ 0.0307, -0.1006,  0.0565,  ...,  0.1639, -0.1437, -0.0390],
+        ...,
+        [-0.1246, -0.2175,  0.0891,  ..., -0.0150, -0.0552,  0.0754],
+        [ 0.0296,  0.0388, -0.0369,  ..., -0.0919, -0.1050, -0.0241],
+        [-0.1629, -0.0015, -0.0018,  ..., -0.1834,  0.1178,  0.0296]],
+       device='cuda:0'), grad: tensor([[ 1.8656e-04,  1.2919e-05,  8.8751e-05,  ...,  1.0788e-04,
+          1.5008e-04, -9.7656e-03],
+        [ 6.7711e-04,  1.3951e-06,  1.0148e-05,  ...,  9.8050e-06,
+          2.3746e-03,  6.3782e-03],
+        [ 8.0109e-05, -1.2302e-04, -9.0599e-04,  ..., -1.1263e-03,
+          5.6839e-04,  4.1504e-03],
+        ...,
+        [ 3.6478e-04,  1.0830e-04,  2.2936e-04,  ...,  1.4210e-04,
+          4.7660e-04,  1.6022e-03],
+        [ 1.8377e-03,  1.1757e-05,  5.9992e-05,  ...,  6.6400e-05,
+          1.5616e-04,  8.0729e-04],
+        [ 1.0914e-04, -4.6700e-05,  6.0177e-04,  ...,  6.9237e-04,
+          5.1111e-05,  9.7275e-04]], device='cuda:0')
+Epoch 405, bias, value: tensor([ 0.0104,  0.0110, -0.0007,  0.0140, -0.0084, -0.0064,  0.0110,  0.0208,
+        -0.0341,  0.0506], device='cuda:0'), grad: tensor([-0.0087,  0.0157,  0.0268, -0.0349, -0.0081, -0.0199, -0.0053,  0.0235,
+         0.0199, -0.0091], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 404, time 217.04, cls_loss 0.4584 cls_loss_mapping 0.0012 cls_loss_causal 0.4394 re_mapping 0.0050 re_causal 0.0137 /// teacc 99.03 lr 0.00001000
+Epoch 406, weight, value: tensor([[-0.0807,  0.0718, -0.1171,  ..., -0.1247, -0.1254,  0.0227],
+        [-0.0879, -0.1791,  0.0090,  ..., -0.0531, -0.0390, -0.1161],
+        [ 0.0306, -0.1005,  0.0566,  ...,  0.1639, -0.1437, -0.0390],
+        ...,
+        [-0.1245, -0.2175,  0.0890,  ..., -0.0152, -0.0552,  0.0755],
+        [ 0.0294,  0.0388, -0.0369,  ..., -0.0919, -0.1050, -0.0243],
+        [-0.1629, -0.0015, -0.0018,  ..., -0.1834,  0.1178,  0.0295]],
+       device='cuda:0'), grad: tensor([[ 3.2282e-04,  1.9300e-04, -3.3826e-06,  ...,  1.5759e-04,
+          1.0662e-03,  1.4467e-03],
+        [ 1.5056e-04,  7.3552e-05,  1.9744e-06,  ...,  1.1528e-04,
+          4.8232e-04,  1.1005e-03],
+        [-9.6941e-04,  2.8682e-04,  1.4126e-04,  ..., -1.0290e-03,
+         -5.0201e-03, -1.1414e-02],
+        ...,
+        [ 2.0742e-04,  1.5604e-04, -1.5247e-04,  ..., -5.1379e-05,
+          5.2214e-04, -2.9588e-04],
+        [ 8.7261e-04,  7.7486e-04,  1.9819e-06,  ...,  2.1112e-04,
+          1.7996e-03,  3.6526e-03],
+        [ 7.7820e-04,  8.0013e-04,  2.6263e-06,  ...,  1.5950e-04,
+          1.3342e-03,  1.9817e-03]], device='cuda:0')
+Epoch 406, bias, value: tensor([ 0.0103,  0.0110, -0.0007,  0.0141, -0.0084, -0.0063,  0.0109,  0.0209,
+        -0.0340,  0.0505], device='cuda:0'), grad: tensor([ 0.0154, -0.0153, -0.0756, -0.0009,  0.0183, -0.0129,  0.0197,  0.0127,
+         0.0202,  0.0184], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 405, time 216.55, cls_loss 0.4670 cls_loss_mapping 0.0013 cls_loss_causal 0.4470 re_mapping 0.0049 re_causal 0.0133 /// teacc 98.99 lr 0.00001000
+Epoch 407, weight, value: tensor([[-0.0806,  0.0718, -0.1172,  ..., -0.1248, -0.1253,  0.0228],
+        [-0.0879, -0.1792,  0.0090,  ..., -0.0531, -0.0389, -0.1160],
+        [ 0.0306, -0.1006,  0.0567,  ...,  0.1639, -0.1435, -0.0390],
+        ...,
+        [-0.1245, -0.2175,  0.0888,  ..., -0.0153, -0.0553,  0.0755],
+        [ 0.0295,  0.0389, -0.0369,  ..., -0.0919, -0.1049, -0.0243],
+        [-0.1629, -0.0015, -0.0017,  ..., -0.1835,  0.1178,  0.0296]],
+       device='cuda:0'), grad: tensor([[ 2.0778e-04,  7.1478e-04,  8.2850e-05,  ...,  1.8418e-05,
+          4.5872e-04,  3.4422e-05],
+        [ 1.3363e-04,  4.0102e-04,  4.7147e-05,  ...,  1.0282e-05,
+          8.6355e-04,  1.6856e-04],
+        [ 7.3385e-04,  7.6294e-04,  1.0401e-04,  ..., -4.0531e-05,
+          4.6897e-04,  4.1038e-05],
+        ...,
+        [ 8.2302e-04,  1.5516e-03,  1.8473e-03,  ...,  1.1196e-03,
+          3.4695e-03,  2.0504e-03],
+        [-3.6697e-03,  9.9087e-04, -9.1982e-04,  ...,  1.9860e-04,
+         -5.2452e-03, -1.5345e-03],
+        [ 6.3276e-04, -3.0136e-04, -2.6321e-03,  ..., -1.7700e-03,
+         -4.4365e-03, -4.0474e-03]], device='cuda:0')
+Epoch 407, bias, value: tensor([ 0.0104,  0.0111, -0.0006,  0.0140, -0.0083, -0.0063,  0.0109,  0.0208,
+        -0.0340,  0.0504], device='cuda:0'), grad: tensor([ 0.0096,  0.0167,  0.0107, -0.0485,  0.0170,  0.0223, -0.0063,  0.0183,
+        -0.0435,  0.0035], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 406, time 216.53, cls_loss 0.4758 cls_loss_mapping 0.0013 cls_loss_causal 0.4544 re_mapping 0.0048 re_causal 0.0133 /// teacc 98.97 lr 0.00001000
+Epoch 408, weight, value: tensor([[-0.0806,  0.0719, -0.1174,  ..., -0.1249, -0.1254,  0.0228],
+        [-0.0878, -0.1792,  0.0091,  ..., -0.0531, -0.0389, -0.1160],
+        [ 0.0306, -0.1006,  0.0567,  ...,  0.1639, -0.1435, -0.0390],
+        ...,
+        [-0.1245, -0.2173,  0.0887,  ..., -0.0154, -0.0552,  0.0755],
+        [ 0.0296,  0.0389, -0.0370,  ..., -0.0919, -0.1049, -0.0243],
+        [-0.1629, -0.0015, -0.0016,  ..., -0.1834,  0.1178,  0.0297]],
+       device='cuda:0'), grad: tensor([[ 2.5481e-06,  2.9188e-06,  5.7071e-05,  ...,  5.8025e-05,
+          6.9523e-04,  6.5374e-04],
+        [-1.4901e-07,  7.0687e-07,  1.0643e-03,  ...,  6.0177e-04,
+          2.3117e-03,  1.7300e-03],
+        [ 2.0154e-06,  2.2762e-06,  3.0589e-04,  ..., -4.4584e-04,
+         -6.1188e-03, -5.0201e-03],
+        ...,
+        [ 2.9411e-06,  7.1563e-06, -3.2043e-03,  ..., -1.0481e-03,
+          1.3943e-03,  8.2636e-04],
+        [ 9.2983e-06,  2.5690e-05,  3.2949e-04,  ...,  2.1791e-04,
+          1.3676e-03,  1.1320e-03],
+        [ 2.9895e-07, -2.0161e-05,  1.1444e-03,  ...,  9.7132e-04,
+          3.9368e-03,  3.4542e-03]], device='cuda:0')
+Epoch 408, bias, value: tensor([ 0.0105,  0.0111, -0.0006,  0.0139, -0.0083, -0.0064,  0.0106,  0.0210,
+        -0.0340,  0.0504], device='cuda:0'), grad: tensor([ 0.0206,  0.0354, -0.0078,  0.0269, -0.0053, -0.0090, -0.0046,  0.0110,
+        -0.0069, -0.0604], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 407, time 216.44, cls_loss 0.4767 cls_loss_mapping 0.0014 cls_loss_causal 0.4573 re_mapping 0.0049 re_causal 0.0132 /// teacc 98.97 lr 0.00001000
+Epoch 409, weight, value: tensor([[-0.0807,  0.0718, -0.1174,  ..., -0.1249, -0.1253,  0.0227],
+        [-0.0878, -0.1793,  0.0090,  ..., -0.0532, -0.0389, -0.1161],
+        [ 0.0305, -0.1007,  0.0567,  ...,  0.1639, -0.1436, -0.0390],
+        ...,
+        [-0.1244, -0.2173,  0.0887,  ..., -0.0153, -0.0552,  0.0756],
+        [ 0.0298,  0.0390, -0.0370,  ..., -0.0919, -0.1050, -0.0244],
+        [-0.1630, -0.0015, -0.0016,  ..., -0.1834,  0.1178,  0.0298]],
+       device='cuda:0'), grad: tensor([[ 0.0004,  0.0013,  0.0002,  ...,  0.0004,  0.0005,  0.0008],
+        [-0.0035, -0.0014, -0.0002,  ..., -0.0025, -0.0034, -0.0033],
+        [ 0.0010,  0.0003,  0.0005,  ...,  0.0006,  0.0009,  0.0018],
+        ...,
+        [ 0.0005,  0.0005,  0.0008,  ...,  0.0004,  0.0006,  0.0013],
+        [ 0.0023, -0.0046,  0.0021,  ...,  0.0011,  0.0022,  0.0026],
+        [-0.0019, -0.0020, -0.0021,  ..., -0.0008, -0.0023, -0.0012]],
+       device='cuda:0')
+Epoch 409, bias, value: tensor([ 0.0106,  0.0111, -0.0007,  0.0139, -0.0083, -0.0064,  0.0105,  0.0212,
+        -0.0341,  0.0504], device='cuda:0'), grad: tensor([ 0.0228, -0.0778,  0.0249, -0.0311, -0.0096,  0.0299,  0.0103,  0.0248,
+        -0.0028,  0.0087], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 408, time 216.45, cls_loss 0.4840 cls_loss_mapping 0.0012 cls_loss_causal 0.4471 re_mapping 0.0047 re_causal 0.0131 /// teacc 98.99 lr 0.00001000
+Epoch 410, weight, value: tensor([[-0.0807,  0.0719, -0.1173,  ..., -0.1249, -0.1255,  0.0227],
+        [-0.0878, -0.1794,  0.0090,  ..., -0.0532, -0.0389, -0.1161],
+        [ 0.0306, -0.1005,  0.0567,  ...,  0.1638, -0.1437, -0.0392],
+        ...,
+        [-0.1243, -0.2174,  0.0887,  ..., -0.0153, -0.0552,  0.0756],
+        [ 0.0299,  0.0391, -0.0371,  ..., -0.0920, -0.1048, -0.0242],
+        [-0.1631, -0.0015, -0.0015,  ..., -0.1833,  0.1178,  0.0298]],
+       device='cuda:0'), grad: tensor([[ 0.0015,  0.0025,  0.0007,  ...,  0.0020,  0.0006,  0.0019],
+        [ 0.0002,  0.0001,  0.0006,  ...,  0.0012,  0.0012,  0.0018],
+        [-0.0107, -0.0092, -0.0008,  ..., -0.0014, -0.0026, -0.0012],
+        ...,
+        [ 0.0004,  0.0004,  0.0011,  ...,  0.0116,  0.0015,  0.0015],
+        [-0.0106,  0.0019,  0.0005,  ...,  0.0013, -0.0058, -0.0070],
+        [ 0.0137,  0.0004, -0.0010,  ...,  0.0004,  0.0066,  0.0087]],
+       device='cuda:0')
+Epoch 410, bias, value: tensor([ 0.0106,  0.0111, -0.0007,  0.0138, -0.0084, -0.0063,  0.0104,  0.0212,
+        -0.0339,  0.0504], device='cuda:0'), grad: tensor([ 0.0322, -0.0382, -0.0155, -0.0294, -0.0227,  0.0188, -0.0091,  0.0486,
+        -0.0027,  0.0182], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 409, time 216.74, cls_loss 0.4393 cls_loss_mapping 0.0011 cls_loss_causal 0.4147 re_mapping 0.0047 re_causal 0.0132 /// teacc 99.00 lr 0.00001000
+Epoch 411, weight, value: tensor([[-0.0806,  0.0719, -0.1175,  ..., -0.1250, -0.1254,  0.0228],
+        [-0.0879, -0.1794,  0.0091,  ..., -0.0531, -0.0389, -0.1161],
+        [ 0.0307, -0.1006,  0.0569,  ...,  0.1640, -0.1437, -0.0391],
+        ...,
+        [-0.1244, -0.2175,  0.0887,  ..., -0.0153, -0.0553,  0.0756],
+        [ 0.0299,  0.0391, -0.0372,  ..., -0.0921, -0.1048, -0.0241],
+        [-0.1632, -0.0014, -0.0015,  ..., -0.1834,  0.1179,  0.0298]],
+       device='cuda:0'), grad: tensor([[-6.8098e-06, -2.1264e-05,  4.4703e-08,  ...,  7.4506e-08,
+          1.7667e-04,  2.3699e-04],
+        [ 1.4775e-05,  3.2224e-07,  2.4587e-06,  ...,  4.3586e-06,
+          3.1090e-04,  4.0054e-04],
+        [ 5.8323e-05,  1.6674e-05, -1.1504e-05,  ..., -1.6227e-05,
+          1.8191e-04,  2.3675e-04],
+        ...,
+        [-2.8496e-03,  1.8310e-06,  1.1474e-05,  ...,  2.1562e-05,
+         -2.7981e-03,  3.5191e-04],
+        [ 5.5084e-03,  9.0170e-04,  3.5334e-06,  ...,  5.2303e-06,
+          1.4896e-03,  2.4605e-04],
+        [ 1.6003e-03,  3.0473e-06,  2.7359e-05,  ...,  3.9637e-05,
+          2.0409e-03,  3.9458e-04]], device='cuda:0')
+Epoch 411, bias, value: tensor([ 0.0107,  0.0111, -0.0006,  0.0138, -0.0083, -0.0063,  0.0103,  0.0211,
+        -0.0339,  0.0502], device='cuda:0'), grad: tensor([-0.0141,  0.0320, -0.0002, -0.0247,  0.0155,  0.0174,  0.0178, -0.0285,
+         0.0235, -0.0386], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 410, time 217.04, cls_loss 0.4514 cls_loss_mapping 0.0008 cls_loss_causal 0.4212 re_mapping 0.0047 re_causal 0.0132 /// teacc 98.97 lr 0.00001000
+Epoch 412, weight, value: tensor([[-0.0806,  0.0720, -0.1176,  ..., -0.1251, -0.1255,  0.0227],
+        [-0.0878, -0.1792,  0.0091,  ..., -0.0533, -0.0389, -0.1160],
+        [ 0.0307, -0.1006,  0.0567,  ...,  0.1640, -0.1437, -0.0391],
+        ...,
+        [-0.1243, -0.2175,  0.0886,  ..., -0.0153, -0.0553,  0.0756],
+        [ 0.0299,  0.0391, -0.0371,  ..., -0.0919, -0.1047, -0.0242],
+        [-0.1632, -0.0013, -0.0014,  ..., -0.1834,  0.1180,  0.0298]],
+       device='cuda:0'), grad: tensor([[ 5.4017e-06, -3.1758e-06,  3.1460e-06,  ...,  5.7966e-06,
+          5.5507e-07,  2.0489e-08],
+        [ 7.5996e-07,  7.8324e-07,  2.2911e-06,  ...,  2.2799e-06,
+          1.2107e-07,  2.7940e-08],
+        [-5.3138e-05,  3.2429e-06,  9.1791e-04,  ...,  1.0347e-03,
+          2.6990e-06,  1.1679e-06],
+        ...,
+        [ 3.5297e-06,  1.4929e-06, -1.2445e-03,  ..., -1.4391e-03,
+          4.2133e-06,  8.0932e-07],
+        [ 3.5238e-04,  7.7438e-04,  7.4990e-06,  ...,  1.0826e-05,
+         -1.0896e-07, -1.7006e-06],
+        [ 3.6024e-06,  1.3607e-06,  2.6608e-04,  ...,  3.0994e-04,
+         -7.4022e-06,  7.8790e-07]], device='cuda:0')
+Epoch 412, bias, value: tensor([ 0.0108,  0.0111, -0.0006,  0.0139, -0.0084, -0.0063,  0.0102,  0.0211,
+        -0.0340,  0.0504], device='cuda:0'), grad: tensor([ 0.0065,  0.0065, -0.0237,  0.0065,  0.0058,  0.0017,  0.0050,  0.0051,
+        -0.0208,  0.0073], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 411, time 216.93, cls_loss 0.4646 cls_loss_mapping 0.0010 cls_loss_causal 0.4313 re_mapping 0.0048 re_causal 0.0131 /// teacc 98.97 lr 0.00001000
+Epoch 413, weight, value: tensor([[-0.0807,  0.0720, -0.1178,  ..., -0.1252, -0.1256,  0.0228],
+        [-0.0878, -0.1791,  0.0092,  ..., -0.0532, -0.0388, -0.1160],
+        [ 0.0307, -0.1006,  0.0567,  ...,  0.1640, -0.1437, -0.0392],
+        ...,
+        [-0.1242, -0.2175,  0.0886,  ..., -0.0154, -0.0554,  0.0755],
+        [ 0.0299,  0.0390, -0.0371,  ..., -0.0917, -0.1048, -0.0244],
+        [-0.1632, -0.0013, -0.0014,  ..., -0.1834,  0.1181,  0.0298]],
+       device='cuda:0'), grad: tensor([[ 4.3130e-04, -1.0262e-03,  9.0027e-04,  ...,  1.1473e-03,
+         -4.9067e-04,  2.6679e-04],
+        [ 1.1481e-05,  2.6181e-05,  5.4657e-05,  ...,  5.5552e-05,
+          3.7742e-04,  1.3101e-04],
+        [-1.7405e-03,  1.6603e-03, -1.3790e-03,  ...,  8.8501e-03,
+          4.0555e-04, -3.8052e-04],
+        ...,
+        [ 1.0854e-04,  2.3651e-04,  2.0847e-03,  ...,  1.4391e-03,
+          5.0783e-04,  1.4973e-04],
+        [ 1.3351e-04, -3.5744e-03, -3.7174e-03,  ..., -1.4542e-02,
+          3.8052e-04,  1.1778e-04],
+        [ 6.6710e-04,  9.5963e-05,  4.6301e-04,  ..., -1.7989e-04,
+         -1.6296e-04,  1.4234e-04]], device='cuda:0')
+Epoch 413, bias, value: tensor([ 0.0107,  0.0113, -0.0005,  0.0139, -0.0083, -0.0064,  0.0102,  0.0211,
+        -0.0340,  0.0503], device='cuda:0'), grad: tensor([ 0.0012, -0.0093, -0.0027, -0.0004, -0.0128,  0.0149, -0.0074,  0.0265,
+        -0.0092, -0.0008], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 412, time 217.75, cls_loss 0.4522 cls_loss_mapping 0.0011 cls_loss_causal 0.4228 re_mapping 0.0047 re_causal 0.0131 /// teacc 98.97 lr 0.00001000
+Epoch 414, weight, value: tensor([[-0.0807,  0.0720, -0.1178,  ..., -0.1253, -0.1255,  0.0227],
+        [-0.0877, -0.1792,  0.0090,  ..., -0.0532, -0.0390, -0.1160],
+        [ 0.0306, -0.1007,  0.0567,  ...,  0.1638, -0.1437, -0.0393],
+        ...,
+        [-0.1243, -0.2176,  0.0887,  ..., -0.0154, -0.0553,  0.0757],
+        [ 0.0299,  0.0391, -0.0371,  ..., -0.0916, -0.1047, -0.0244],
+        [-0.1632, -0.0012, -0.0013,  ..., -0.1833,  0.1181,  0.0298]],
+       device='cuda:0'), grad: tensor([[ 2.8610e-05,  2.2659e-03,  6.2943e-04,  ...,  6.9588e-06,
+          1.5736e-04,  1.5274e-05],
+        [ 6.0272e-04,  1.1654e-03,  3.9577e-04,  ...,  1.6189e-04,
+          1.0462e-03,  2.5344e-04],
+        [ 1.8053e-03,  1.6003e-03,  2.3258e-04,  ...,  6.8808e-04,
+          3.3021e-04,  6.8069e-05],
+        ...,
+        [ 4.2915e-05,  7.2002e-04,  4.9019e-04,  ..., -1.0408e-05,
+         -2.2087e-03, -1.6487e-04],
+        [-1.7567e-03, -9.2173e-04,  4.0841e-04,  ..., -8.0347e-04,
+          3.4285e-04,  7.3075e-05],
+        [ 1.1015e-04, -2.9755e-03, -4.0054e-03,  ...,  4.6849e-05,
+          6.0797e-04,  1.3685e-04]], device='cuda:0')
+Epoch 414, bias, value: tensor([ 0.0106,  0.0112, -0.0007,  0.0141, -0.0083, -0.0064,  0.0102,  0.0211,
+        -0.0339,  0.0503], device='cuda:0'), grad: tensor([ 0.0171,  0.0160,  0.0126,  0.0047,  0.0132,  0.0104,  0.0016, -0.0522,
+         0.0054, -0.0288], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 413, time 217.63, cls_loss 0.4481 cls_loss_mapping 0.0009 cls_loss_causal 0.4189 re_mapping 0.0046 re_causal 0.0132 /// teacc 98.95 lr 0.00001000
+Epoch 415, weight, value: tensor([[-0.0807,  0.0721, -0.1177,  ..., -0.1253, -0.1256,  0.0228],
+        [-0.0878, -0.1793,  0.0090,  ..., -0.0533, -0.0390, -0.1161],
+        [ 0.0305, -0.1008,  0.0566,  ...,  0.1639, -0.1437, -0.0393],
+        ...,
+        [-0.1243, -0.2175,  0.0888,  ..., -0.0154, -0.0553,  0.0756],
+        [ 0.0301,  0.0394, -0.0370,  ..., -0.0916, -0.1047, -0.0243],
+        [-0.1633, -0.0012, -0.0014,  ..., -0.1834,  0.1180,  0.0297]],
+       device='cuda:0'), grad: tensor([[ 6.1607e-04,  1.7178e-04,  2.5615e-05,  ..., -1.8626e-09,
+          1.1599e-04,  6.8569e-04],
+        [ 5.2261e-04,  8.0839e-06,  1.1390e-04,  ...,  9.3132e-10,
+         -1.9369e-03,  5.2452e-04],
+        [ 9.1267e-04,  4.3631e-05,  2.3901e-04,  ..., -6.7987e-08,
+          1.8626e-05,  3.0589e-04],
+        ...,
+        [-4.6802e-04,  2.7716e-05, -5.6791e-04,  ...,  1.8626e-08,
+          2.7180e-05,  3.0160e-04],
+        [ 1.5402e-03,  2.3234e-04,  3.6931e-04,  ...,  2.7940e-08,
+          7.3671e-04,  4.7922e-04],
+        [ 4.9829e-04,  1.5497e-04,  3.8803e-05,  ...,  5.5879e-09,
+          1.4126e-04,  5.1832e-04]], device='cuda:0')
+Epoch 415, bias, value: tensor([ 0.0107,  0.0112, -0.0008,  0.0140, -0.0082, -0.0064,  0.0102,  0.0212,
+        -0.0338,  0.0501], device='cuda:0'), grad: tensor([ 0.0114, -0.0108,  0.0109,  0.0210, -0.0125,  0.0032, -0.0378,  0.0134,
+         0.0231, -0.0219], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 414, time 217.23, cls_loss 0.4691 cls_loss_mapping 0.0011 cls_loss_causal 0.4386 re_mapping 0.0045 re_causal 0.0128 /// teacc 98.94 lr 0.00001000
+Epoch 416, weight, value: tensor([[-0.0808,  0.0718, -0.1178,  ..., -0.1254, -0.1256,  0.0229],
+        [-0.0878, -0.1792,  0.0089,  ..., -0.0532, -0.0390, -0.1161],
+        [ 0.0305, -0.1009,  0.0566,  ...,  0.1639, -0.1437, -0.0394],
+        ...,
+        [-0.1244, -0.2176,  0.0889,  ..., -0.0155, -0.0550,  0.0757],
+        [ 0.0299,  0.0393, -0.0370,  ..., -0.0917, -0.1049, -0.0244],
+        [-0.1633, -0.0012, -0.0017,  ..., -0.1834,  0.1179,  0.0297]],
+       device='cuda:0'), grad: tensor([[ 4.3154e-05,  1.0830e-04,  2.7609e-04,  ...,  3.2902e-04,
+          5.3978e-04,  3.0875e-04],
+        [ 6.8426e-05,  1.2541e-04,  7.0143e-04,  ...,  7.5293e-04,
+          8.2207e-04,  5.7268e-04],
+        [ 7.3075e-05,  1.0759e-04,  8.6260e-04,  ...,  1.1625e-03,
+         -5.4884e-04,  6.7854e-04],
+        ...,
+        [ 6.0320e-05,  1.5700e-04,  9.1362e-04,  ...,  9.2220e-04,
+          8.0585e-04,  5.1165e-04],
+        [-1.1069e-04,  5.7936e-05, -3.6259e-03,  ..., -3.3245e-03,
+         -1.4582e-03, -2.3861e-03],
+        [ 1.1015e-04,  3.6120e-04,  2.0294e-03,  ...,  1.5316e-03,
+          3.2177e-03,  2.9526e-03]], device='cuda:0')
+Epoch 416, bias, value: tensor([ 0.0107,  0.0113, -0.0008,  0.0140, -0.0081, -0.0064,  0.0101,  0.0213,
+        -0.0339,  0.0501], device='cuda:0'), grad: tensor([-0.0101,  0.0164, -0.0021,  0.0274, -0.0005, -0.0100,  0.0165, -0.0349,
+        -0.0047,  0.0020], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 415, time 216.50, cls_loss 0.4476 cls_loss_mapping 0.0010 cls_loss_causal 0.4159 re_mapping 0.0045 re_causal 0.0126 /// teacc 98.98 lr 0.00001000
+Epoch 417, weight, value: tensor([[-0.0809,  0.0718, -0.1178,  ..., -0.1252, -0.1256,  0.0229],
+        [-0.0879, -0.1791,  0.0089,  ..., -0.0534, -0.0391, -0.1163],
+        [ 0.0305, -0.1008,  0.0567,  ...,  0.1638, -0.1436, -0.0392],
+        ...,
+        [-0.1245, -0.2178,  0.0890,  ..., -0.0155, -0.0550,  0.0756],
+        [ 0.0298,  0.0393, -0.0371,  ..., -0.0917, -0.1049, -0.0245],
+        [-0.1632, -0.0011, -0.0017,  ..., -0.1834,  0.1179,  0.0297]],
+       device='cuda:0'), grad: tensor([[ 1.2312e-03,  3.9139e-03,  1.5612e-03,  ...,  2.8729e-04,
+          4.5090e-03,  7.4911e-04],
+        [ 1.1063e-04,  1.3225e-05,  1.3745e-04,  ...,  1.8513e-04,
+          2.5034e-04,  2.9159e-04],
+        [ 8.9645e-05,  4.3601e-05,  5.2261e-04,  ...,  6.9380e-04,
+          7.2527e-04,  6.9809e-04],
+        ...,
+        [ 9.4652e-05,  8.8215e-05,  6.7806e-04,  ...,  8.7595e-04,
+          9.4271e-04,  8.5163e-04],
+        [ 1.0099e-03, -1.1511e-03,  3.4451e-04,  ...,  1.8215e-04,
+          1.2093e-03,  3.1853e-04],
+        [-2.8210e-03, -1.0254e-02, -3.0308e-03,  ...,  5.5265e-04,
+         -9.2697e-03, -1.4563e-03]], device='cuda:0')
+Epoch 417, bias, value: tensor([ 0.0107,  0.0112, -0.0007,  0.0139, -0.0081, -0.0065,  0.0102,  0.0213,
+        -0.0340,  0.0502], device='cuda:0'), grad: tensor([ 0.0263,  0.0178,  0.0203,  0.0210, -0.0417,  0.0182,  0.0237, -0.0102,
+        -0.0125, -0.0629], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 416, time 216.34, cls_loss 0.4349 cls_loss_mapping 0.0009 cls_loss_causal 0.4006 re_mapping 0.0047 re_causal 0.0127 /// teacc 98.98 lr 0.00001000
+Epoch 418, weight, value: tensor([[-0.0809,  0.0719, -0.1178,  ..., -0.1252, -0.1256,  0.0230],
+        [-0.0879, -0.1792,  0.0088,  ..., -0.0534, -0.0391, -0.1163],
+        [ 0.0304, -0.1009,  0.0565,  ...,  0.1638, -0.1435, -0.0393],
+        ...,
+        [-0.1244, -0.2180,  0.0890,  ..., -0.0155, -0.0552,  0.0756],
+        [ 0.0298,  0.0394, -0.0370,  ..., -0.0916, -0.1048, -0.0244],
+        [-0.1630, -0.0011, -0.0016,  ..., -0.1833,  0.1178,  0.0297]],
+       device='cuda:0'), grad: tensor([[ 5.8636e-06, -1.9653e-02,  1.7077e-05,  ..., -6.2026e-06,
+          5.2118e-04,  2.6059e-04],
+        [ 7.3254e-05,  1.6617e-02,  2.2912e-04,  ..., -1.0395e-04,
+          7.1621e-04, -2.1744e-03],
+        [-5.9204e-03, -6.8903e-04,  7.8008e-06,  ..., -2.4462e-04,
+          5.3310e-04, -1.0616e-04],
+        ...,
+        [ 7.6175e-05,  1.3723e-03, -3.9995e-05,  ...,  4.0919e-05,
+          8.2541e-04,  2.9397e-04],
+        [-2.8825e-04,  1.0614e-03,  1.6439e-04,  ...,  1.1939e-04,
+         -5.1928e-04,  2.0131e-05],
+        [ 4.5419e-05, -8.5354e-05, -8.3876e-04,  ..., -4.1795e-04,
+         -2.3727e-03, -7.5102e-04]], device='cuda:0')
+Epoch 418, bias, value: tensor([ 0.0106,  0.0113, -0.0007,  0.0137, -0.0080, -0.0065,  0.0102,  0.0212,
+        -0.0340,  0.0502], device='cuda:0'), grad: tensor([-0.0123,  0.0043,  0.0101,  0.0163, -0.0440,  0.0136,  0.0204,  0.0144,
+        -0.0038, -0.0190], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 417, time 216.84, cls_loss 0.4738 cls_loss_mapping 0.0009 cls_loss_causal 0.4448 re_mapping 0.0046 re_causal 0.0131 /// teacc 98.95 lr 0.00001000
+Epoch 419, weight, value: tensor([[-0.0808,  0.0719, -0.1177,  ..., -0.1253, -0.1255,  0.0229],
+        [-0.0880, -0.1794,  0.0087,  ..., -0.0534, -0.0389, -0.1162],
+        [ 0.0305, -0.1010,  0.0565,  ...,  0.1637, -0.1436, -0.0392],
+        ...,
+        [-0.1244, -0.2181,  0.0890,  ..., -0.0156, -0.0552,  0.0757],
+        [ 0.0300,  0.0395, -0.0370,  ..., -0.0916, -0.1046, -0.0243],
+        [-0.1631, -0.0009, -0.0015,  ..., -0.1832,  0.1177,  0.0297]],
+       device='cuda:0'), grad: tensor([[ 4.4137e-05, -1.9535e-05,  3.7074e-04,  ...,  1.1645e-05,
+          7.4040e-07,  1.0099e-03],
+        [ 2.9504e-05,  2.3376e-07,  2.8110e-04,  ...,  2.7958e-06,
+          8.7637e-07,  1.1911e-03],
+        [ 2.4772e-04,  2.8182e-06,  1.8997e-03,  ..., -9.2685e-05,
+          1.3029e-06,  5.4026e-04],
+        ...,
+        [ 1.6248e-04,  1.6643e-06,  1.4086e-03,  ...,  5.5403e-05,
+          4.5598e-06,  2.2483e-04],
+        [ 1.0318e-04,  2.9411e-06,  8.7023e-04,  ...,  3.4235e-06,
+          1.3234e-06,  3.0017e-04],
+        [ 1.7011e-04,  1.0684e-05,  1.3742e-03,  ...,  3.6694e-06,
+         -2.9221e-05,  1.7226e-04]], device='cuda:0')
+Epoch 419, bias, value: tensor([ 0.0106,  0.0115, -0.0007,  0.0137, -0.0080, -0.0067,  0.0102,  0.0213,
+        -0.0337,  0.0501], device='cuda:0'), grad: tensor([ 0.0146,  0.0234,  0.0200, -0.0115, -0.0172, -0.0197,  0.0008, -0.0420,
+         0.0156,  0.0160], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 418, time 216.89, cls_loss 0.4288 cls_loss_mapping 0.0009 cls_loss_causal 0.3967 re_mapping 0.0046 re_causal 0.0126 /// teacc 98.93 lr 0.00001000
+Epoch 420, weight, value: tensor([[-0.0808,  0.0719, -0.1177,  ..., -0.1253, -0.1255,  0.0229],
+        [-0.0880, -0.1793,  0.0087,  ..., -0.0535, -0.0388, -0.1161],
+        [ 0.0305, -0.1009,  0.0565,  ...,  0.1639, -0.1437, -0.0393],
+        ...,
+        [-0.1244, -0.2180,  0.0888,  ..., -0.0156, -0.0552,  0.0757],
+        [ 0.0301,  0.0396, -0.0370,  ..., -0.0915, -0.1048, -0.0244],
+        [-0.1631, -0.0010, -0.0013,  ..., -0.1833,  0.1176,  0.0297]],
+       device='cuda:0'), grad: tensor([[ 1.7977e-04,  3.0875e-04,  9.5189e-05,  ...,  1.5175e-04,
+          2.0051e-04,  5.5045e-05],
+        [-1.6892e-04,  2.9325e-05,  2.4691e-05,  ..., -7.6830e-05,
+         -2.4140e-04, -4.9978e-05],
+        [ 3.4237e-04,  3.8409e-04,  2.2924e-04,  ...,  3.5739e-04,
+          3.1257e-04,  2.5463e-04],
+        ...,
+        [ 1.8632e-04,  2.4962e-04,  1.0735e-04,  ...,  1.5604e-04,
+          3.9411e-04,  2.4438e-04],
+        [ 1.7729e-03,  2.5330e-03,  1.0192e-04,  ...,  2.6202e-04,
+          1.3790e-03,  3.3355e-04],
+        [ 4.2367e-04,  6.1560e-04,  3.9625e-04,  ...,  6.9237e-04,
+          6.0005e-03,  5.8327e-03]], device='cuda:0')
+Epoch 420, bias, value: tensor([ 0.0106,  0.0115, -0.0007,  0.0137, -0.0080, -0.0066,  0.0102,  0.0214,
+        -0.0336,  0.0499], device='cuda:0'), grad: tensor([-0.0202,  0.0109, -0.0506,  0.0321, -0.0079,  0.0101, -0.0203,  0.0103,
+         0.0171,  0.0184], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 419, time 216.49, cls_loss 0.4746 cls_loss_mapping 0.0009 cls_loss_causal 0.4541 re_mapping 0.0045 re_causal 0.0127 /// teacc 98.97 lr 0.00001000
+Epoch 421, weight, value: tensor([[-0.0807,  0.0719, -0.1177,  ..., -0.1253, -0.1253,  0.0229],
+        [-0.0881, -0.1792,  0.0088,  ..., -0.0534, -0.0388, -0.1162],
+        [ 0.0305, -0.1010,  0.0565,  ...,  0.1638, -0.1437, -0.0393],
+        ...,
+        [-0.1245, -0.2182,  0.0888,  ..., -0.0157, -0.0552,  0.0757],
+        [ 0.0300,  0.0395, -0.0372,  ..., -0.0915, -0.1049, -0.0243],
+        [-0.1633, -0.0012, -0.0014,  ..., -0.1833,  0.1177,  0.0297]],
+       device='cuda:0'), grad: tensor([[-0.0043,  0.0016,  0.0010,  ...,  0.0002,  0.0009, -0.0136],
+        [ 0.0005, -0.0012, -0.0030,  ...,  0.0002, -0.0015, -0.0011],
+        [ 0.0006,  0.0001, -0.0007,  ...,  0.0003, -0.0033, -0.0013],
+        ...,
+        [ 0.0007,  0.0002,  0.0002,  ...,  0.0001,  0.0013,  0.0028],
+        [ 0.0080,  0.0012,  0.0003,  ...,  0.0002,  0.0012,  0.0027],
+        [-0.0064, -0.0008,  0.0008,  ...,  0.0001,  0.0015,  0.0052]],
+       device='cuda:0')
+Epoch 421, bias, value: tensor([ 0.0106,  0.0114, -0.0007,  0.0136, -0.0080, -0.0065,  0.0103,  0.0213,
+        -0.0337,  0.0499], device='cuda:0'), grad: tensor([-0.0296, -0.0276,  0.0024, -0.0210, -0.0292,  0.0392,  0.0348,  0.0163,
+         0.0449, -0.0300], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 420, time 216.48, cls_loss 0.4507 cls_loss_mapping 0.0009 cls_loss_causal 0.4269 re_mapping 0.0044 re_causal 0.0122 /// teacc 98.97 lr 0.00001000
+Epoch 422, weight, value: tensor([[-0.0808,  0.0718, -0.1177,  ..., -0.1253, -0.1254,  0.0228],
+        [-0.0882, -0.1793,  0.0088,  ..., -0.0535, -0.0388, -0.1163],
+        [ 0.0305, -0.1010,  0.0566,  ...,  0.1639, -0.1438, -0.0394],
+        ...,
+        [-0.1246, -0.2182,  0.0889,  ..., -0.0158, -0.0552,  0.0758],
+        [ 0.0300,  0.0397, -0.0373,  ..., -0.0915, -0.1050, -0.0244],
+        [-0.1633, -0.0012, -0.0013,  ..., -0.1833,  0.1177,  0.0297]],
+       device='cuda:0'), grad: tensor([[ 2.9579e-05,  1.0943e-04, -1.2450e-05,  ...,  6.5923e-05,
+          2.5535e-04,  1.5482e-05],
+        [ 8.3387e-05,  3.7885e-04,  5.9605e-06,  ...,  2.5272e-04,
+          7.1526e-04,  1.3220e-04],
+        [-2.4819e-04,  2.5702e-04,  2.8044e-05,  ..., -1.5135e-03,
+         -2.3422e-03,  4.8965e-05],
+        ...,
+        [ 3.7253e-05,  1.4172e-03,  4.7398e-04,  ...,  2.0945e-04,
+          2.9202e-03,  1.7929e-03],
+        [ 2.6450e-05,  6.4230e-04, -9.3222e-05,  ...,  1.1045e-04,
+          8.0872e-04,  2.7347e-04],
+        [ 1.2034e-04,  1.6495e-02, -1.6046e-04,  ..., -8.2552e-05,
+          1.5228e-02,  4.7150e-03]], device='cuda:0')
+Epoch 422, bias, value: tensor([ 0.0105,  0.0114, -0.0008,  0.0136, -0.0079, -0.0065,  0.0103,  0.0213,
+        -0.0337,  0.0500], device='cuda:0'), grad: tensor([ 0.0043,  0.0086, -0.0192, -0.0243, -0.0092, -0.0173,  0.0045,  0.0107,
+         0.0063,  0.0357], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 421, time 216.77, cls_loss 0.4445 cls_loss_mapping 0.0010 cls_loss_causal 0.4206 re_mapping 0.0045 re_causal 0.0124 /// teacc 98.99 lr 0.00001000
+Epoch 423, weight, value: tensor([[-0.0811,  0.0716, -0.1177,  ..., -0.1254, -0.1255,  0.0226],
+        [-0.0882, -0.1791,  0.0087,  ..., -0.0536, -0.0387, -0.1162],
+        [ 0.0307, -0.1008,  0.0567,  ...,  0.1640, -0.1439, -0.0393],
+        ...,
+        [-0.1248, -0.2183,  0.0888,  ..., -0.0158, -0.0550,  0.0758],
+        [ 0.0301,  0.0397, -0.0370,  ..., -0.0915, -0.1050, -0.0245],
+        [-0.1631, -0.0010, -0.0014,  ..., -0.1833,  0.1177,  0.0297]],
+       device='cuda:0'), grad: tensor([[ 4.6039e-04,  1.3285e-03,  8.9359e-04,  ...,  1.4791e-03,
+          3.7432e-04,  3.8600e-04],
+        [ 7.2837e-05,  1.3337e-05,  1.0977e-03,  ...,  5.4073e-04,
+          1.3304e-03,  1.4658e-03],
+        [-1.2329e-02,  3.8147e-04, -3.6201e-03,  ..., -6.5002e-03,
+          5.7268e-04,  1.1587e-03],
+        ...,
+        [ 3.9721e-04,  2.1800e-05, -1.6317e-03,  ...,  3.6216e-04,
+          2.8133e-04, -3.6907e-03],
+        [ 3.5000e-03,  1.0347e-03,  4.3750e-04,  ...,  4.7731e-04,
+          5.8937e-04,  6.8140e-04],
+        [ 1.7536e-04,  5.5283e-05,  9.1314e-04,  ...,  6.2418e-04,
+         -6.7825e-03, -9.7132e-04]], device='cuda:0')
+Epoch 423, bias, value: tensor([ 0.0105,  0.0115, -0.0007,  0.0136, -0.0079, -0.0067,  0.0102,  0.0213,
+        -0.0338,  0.0501], device='cuda:0'), grad: tensor([ 0.0206,  0.0251, -0.0618, -0.0011,  0.0256,  0.0222, -0.0107, -0.0021,
+         0.0219, -0.0396], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 422, time 216.53, cls_loss 0.4490 cls_loss_mapping 0.0010 cls_loss_causal 0.4231 re_mapping 0.0044 re_causal 0.0125 /// teacc 98.91 lr 0.00001000
+Epoch 424, weight, value: tensor([[-0.0811,  0.0715, -0.1175,  ..., -0.1253, -0.1255,  0.0227],
+        [-0.0881, -0.1791,  0.0088,  ..., -0.0536, -0.0387, -0.1162],
+        [ 0.0307, -0.1008,  0.0566,  ...,  0.1639, -0.1439, -0.0392],
+        ...,
+        [-0.1247, -0.2184,  0.0890,  ..., -0.0156, -0.0550,  0.0759],
+        [ 0.0299,  0.0395, -0.0369,  ..., -0.0916, -0.1051, -0.0245],
+        [-0.1630, -0.0010, -0.0016,  ..., -0.1834,  0.1176,  0.0295]],
+       device='cuda:0'), grad: tensor([[ 3.4809e-05,  4.4346e-04,  2.1827e-04,  ...,  4.3333e-05,
+          3.9101e-04,  2.6631e-04],
+        [ 6.2168e-05,  1.0557e-05, -8.0299e-04,  ..., -6.5470e-04,
+         -2.4643e-03, -1.4563e-03],
+        [ 7.7152e-04,  1.7568e-05, -3.1590e-06,  ..., -6.3848e-04,
+         -1.4753e-03,  1.0967e-03],
+        ...,
+        [-2.6360e-03,  3.3140e-04,  4.6997e-03,  ..., -1.5235e-04,
+          7.2517e-03,  7.2289e-03],
+        [ 4.0436e-04,  3.0565e-04,  1.3485e-03,  ...,  2.7037e-04,
+          1.2674e-03,  1.3237e-03],
+        [-3.5691e-04, -9.5606e-04, -3.4332e-03,  ..., -2.1946e-04,
+         -5.5847e-03, -2.2736e-03]], device='cuda:0')
+Epoch 424, bias, value: tensor([ 0.0106,  0.0116, -0.0007,  0.0136, -0.0079, -0.0066,  0.0102,  0.0213,
+        -0.0338,  0.0500], device='cuda:0'), grad: tensor([ 0.0139, -0.0205, -0.0156, -0.0034,  0.0237, -0.0489,  0.0148,  0.0129,
+         0.0200,  0.0032], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 423, time 216.74, cls_loss 0.4554 cls_loss_mapping 0.0010 cls_loss_causal 0.4288 re_mapping 0.0043 re_causal 0.0122 /// teacc 98.96 lr 0.00001000
+Epoch 425, weight, value: tensor([[-0.0811,  0.0715, -0.1173,  ..., -0.1253, -0.1252,  0.0229],
+        [-0.0882, -0.1792,  0.0088,  ..., -0.0536, -0.0388, -0.1162],
+        [ 0.0308, -0.1007,  0.0568,  ...,  0.1641, -0.1439, -0.0392],
+        ...,
+        [-0.1247, -0.2184,  0.0889,  ..., -0.0156, -0.0550,  0.0758],
+        [ 0.0298,  0.0395, -0.0369,  ..., -0.0917, -0.1051, -0.0245],
+        [-0.1630, -0.0010, -0.0017,  ..., -0.1835,  0.1175,  0.0294]],
+       device='cuda:0'), grad: tensor([[-1.2904e-05, -4.5037e-04,  2.2566e-04,  ...,  2.2042e-04,
+          4.2081e-04,  9.6607e-04],
+        [ 3.2485e-05,  5.3160e-06,  6.1333e-05,  ...,  6.7940e-03,
+          5.5847e-03,  1.1711e-03],
+        [ 9.4235e-05,  1.4198e-04,  3.4714e-04,  ...,  7.4530e-04,
+          5.4693e-04,  1.8673e-03],
+        ...,
+        [ 2.7061e-05,  3.2258e-04,  4.0741e-03,  ..., -5.3930e-04,
+          1.9932e-03,  2.3823e-03],
+        [ 1.0071e-02,  5.7831e-03,  4.9305e-04,  ...,  2.9302e-04,
+          1.1902e-03,  2.1935e-03],
+        [ 9.4175e-05,  3.6812e-04,  3.1338e-03,  ...,  1.0900e-03,
+         -4.3559e-04,  6.5470e-04]], device='cuda:0')
+Epoch 425, bias, value: tensor([ 0.0106,  0.0116, -0.0007,  0.0133, -0.0078, -0.0066,  0.0102,  0.0213,
+        -0.0337,  0.0501], device='cuda:0'), grad: tensor([ 0.0140,  0.0177,  0.0231, -0.0239,  0.0261, -0.0334, -0.0423,  0.0018,
+         0.0180, -0.0012], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 424, time 216.53, cls_loss 0.4668 cls_loss_mapping 0.0010 cls_loss_causal 0.4297 re_mapping 0.0043 re_causal 0.0123 /// teacc 98.96 lr 0.00001000
+Epoch 426, weight, value: tensor([[-0.0811,  0.0715, -0.1173,  ..., -0.1254, -0.1252,  0.0230],
+        [-0.0882, -0.1792,  0.0089,  ..., -0.0536, -0.0389, -0.1163],
+        [ 0.0307, -0.1007,  0.0568,  ...,  0.1641, -0.1440, -0.0392],
+        ...,
+        [-0.1247, -0.2185,  0.0889,  ..., -0.0157, -0.0551,  0.0758],
+        [ 0.0297,  0.0393, -0.0370,  ..., -0.0917, -0.1053, -0.0246],
+        [-0.1631, -0.0011, -0.0017,  ..., -0.1835,  0.1175,  0.0294]],
+       device='cuda:0'), grad: tensor([[ 4.9293e-05,  2.7016e-05,  8.3387e-05,  ...,  1.2481e-04,
+          4.1747e-04,  7.2002e-04],
+        [ 2.3339e-06,  4.8071e-05,  6.7472e-05,  ...,  1.1599e-04,
+          5.6791e-04,  9.3174e-04],
+        [ 8.8155e-05,  7.6711e-05, -5.9605e-04,  ..., -1.1320e-03,
+          4.1938e-04,  1.9503e-04],
+        ...,
+        [ 9.5814e-06,  1.7449e-05, -1.2932e-03,  ...,  5.0402e-04,
+          2.7704e-04, -5.7173e-04],
+        [ 1.0866e-04,  1.3053e-05,  9.3758e-05,  ...,  1.1700e-04,
+          4.4918e-04,  7.4577e-04],
+        [-7.3051e-03, -8.9035e-03, -5.7554e-04,  ...,  3.1382e-05,
+         -1.1261e-02, -4.6234e-03]], device='cuda:0')
+Epoch 426, bias, value: tensor([ 0.0105,  0.0115, -0.0007,  0.0134, -0.0078, -0.0065,  0.0102,  0.0214,
+        -0.0339,  0.0501], device='cuda:0'), grad: tensor([ 0.0134,  0.0159,  0.0062,  0.0359,  0.0149, -0.0189, -0.0193,  0.0139,
+         0.0123, -0.0743], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 425, time 216.32, cls_loss 0.4466 cls_loss_mapping 0.0011 cls_loss_causal 0.4201 re_mapping 0.0045 re_causal 0.0123 /// teacc 98.99 lr 0.00001000
+Epoch 427, weight, value: tensor([[-0.0811,  0.0715, -0.1172,  ..., -0.1255, -0.1253,  0.0229],
+        [-0.0882, -0.1793,  0.0091,  ..., -0.0536, -0.0389, -0.1162],
+        [ 0.0306, -0.1008,  0.0569,  ...,  0.1640, -0.1438, -0.0392],
+        ...,
+        [-0.1249, -0.2187,  0.0887,  ..., -0.0159, -0.0553,  0.0758],
+        [ 0.0298,  0.0393, -0.0369,  ..., -0.0916, -0.1052, -0.0245],
+        [-0.1632, -0.0012, -0.0017,  ..., -0.1835,  0.1176,  0.0294]],
+       device='cuda:0'), grad: tensor([[ 1.3923e-07,  2.3127e-05,  9.5844e-04,  ...,  4.4823e-04,
+          7.2908e-04,  7.2384e-04],
+        [ 1.4997e-04, -7.4196e-04, -9.7466e-04,  ...,  7.0035e-05,
+         -1.9112e-03, -5.2977e-04],
+        [-6.4430e-03,  1.3888e-04,  1.0338e-03,  ..., -3.8986e-03,
+          1.0052e-03, -1.1272e-03],
+        ...,
+        [ 3.7918e-03, -3.5238e-04,  3.5954e-04,  ..., -1.3161e-03,
+          1.5049e-03,  3.0861e-03],
+        [ 3.9368e-03,  1.3161e-04,  1.0643e-03,  ...,  3.1967e-03,
+          1.1826e-03,  2.2945e-03],
+        [ 3.7879e-05,  2.5034e-04,  4.1437e-04,  ...,  9.3889e-04,
+         -2.4185e-03,  8.2779e-03]], device='cuda:0')
+Epoch 427, bias, value: tensor([ 0.0104,  0.0116, -0.0007,  0.0137, -0.0079, -0.0066,  0.0102,  0.0212,
+        -0.0338,  0.0501], device='cuda:0'), grad: tensor([ 0.0217, -0.0464, -0.0003,  0.0169, -0.0049, -0.0078, -0.0274, -0.0180,
+         0.0388,  0.0274], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 426, time 216.94, cls_loss 0.4573 cls_loss_mapping 0.0009 cls_loss_causal 0.4329 re_mapping 0.0041 re_causal 0.0120 /// teacc 99.01 lr 0.00001000
+Epoch 428, weight, value: tensor([[-0.0809,  0.0715, -0.1172,  ..., -0.1256, -0.1252,  0.0230],
+        [-0.0883, -0.1793,  0.0092,  ..., -0.0534, -0.0390, -0.1162],
+        [ 0.0305, -0.1007,  0.0568,  ...,  0.1639, -0.1439, -0.0392],
+        ...,
+        [-0.1247, -0.2187,  0.0888,  ..., -0.0159, -0.0551,  0.0759],
+        [ 0.0299,  0.0393, -0.0369,  ..., -0.0916, -0.1053, -0.0246],
+        [-0.1631, -0.0011, -0.0017,  ..., -0.1834,  0.1176,  0.0293]],
+       device='cuda:0'), grad: tensor([[ 2.4033e-04,  3.9041e-05,  7.4923e-05,  ...,  6.2943e-04,
+          1.0365e-04,  5.6839e-04],
+        [ 6.2108e-05, -5.2363e-05,  2.1979e-05,  ...,  1.6391e-04,
+          8.9943e-05,  8.2970e-04],
+        [ 1.7185e-03,  4.4435e-05,  8.3566e-05,  ...,  6.7759e-04,
+          9.3102e-05,  1.0710e-03],
+        ...,
+        [ 2.0528e-04,  5.2869e-05,  1.0300e-04,  ...,  1.9426e-03,
+         -2.2089e-04,  1.4381e-03],
+        [ 3.6869e-03,  3.6011e-03,  4.3690e-05,  ...,  2.6822e-04,
+          2.7514e-04,  1.0080e-03],
+        [ 2.0618e-03, -1.4296e-03,  1.1081e-04,  ..., -1.5125e-03,
+         -3.8986e-03, -1.7960e-02]], device='cuda:0')
+Epoch 428, bias, value: tensor([ 0.0104,  0.0116, -0.0008,  0.0137, -0.0078, -0.0067,  0.0103,  0.0212,
+        -0.0337,  0.0501], device='cuda:0'), grad: tensor([ 0.0188, -0.0128,  0.0224,  0.0010, -0.0032, -0.0050, -0.0120,  0.0003,
+         0.0255, -0.0352], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 427, time 216.87, cls_loss 0.4511 cls_loss_mapping 0.0012 cls_loss_causal 0.4261 re_mapping 0.0041 re_causal 0.0117 /// teacc 99.01 lr 0.00001000
+Epoch 429, weight, value: tensor([[-0.0808,  0.0716, -0.1173,  ..., -0.1257, -0.1252,  0.0230],
+        [-0.0884, -0.1791,  0.0091,  ..., -0.0535, -0.0390, -0.1163],
+        [ 0.0306, -0.1006,  0.0568,  ...,  0.1640, -0.1439, -0.0392],
+        ...,
+        [-0.1246, -0.2188,  0.0887,  ..., -0.0159, -0.0552,  0.0759],
+        [ 0.0298,  0.0392, -0.0368,  ..., -0.0917, -0.1052, -0.0246],
+        [-0.1630, -0.0009, -0.0017,  ..., -0.1835,  0.1176,  0.0294]],
+       device='cuda:0'), grad: tensor([[ 5.5097e-06,  5.0962e-05,  5.5850e-05,  ...,  2.4930e-05,
+          2.2471e-04,  9.4697e-06],
+        [-1.3001e-05, -5.1069e-04,  2.7447e-03,  ..., -2.3818e-04,
+         -2.3212e-03, -8.5449e-04],
+        [ 6.3419e-05,  5.7489e-05, -3.9291e-03,  ...,  1.0085e-04,
+          2.5129e-04,  2.7657e-04],
+        ...,
+        [ 3.7968e-05,  2.9635e-04,  5.7030e-03,  ..., -7.7772e-04,
+          7.8735e-03, -4.7803e-04],
+        [ 2.1410e-04,  3.2377e-04,  1.2074e-03,  ...,  1.2016e-04,
+          8.9312e-04,  3.7932e-04],
+        [-4.8923e-04, -5.4789e-04, -7.1831e-03,  ..., -2.3410e-05,
+         -8.8654e-03, -6.8045e-04]], device='cuda:0')
+Epoch 429, bias, value: tensor([ 0.0103,  0.0115, -0.0009,  0.0137, -0.0078, -0.0066,  0.0103,  0.0212,
+        -0.0337,  0.0502], device='cuda:0'), grad: tensor([ 1.4801e-02, -4.8248e-02, -1.1330e-02, -2.8223e-05,  1.8066e-02,
+         1.6037e-02, -4.3610e-02,  3.0060e-02,  2.5238e-02, -9.8228e-04],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 428, time 217.56, cls_loss 0.4440 cls_loss_mapping 0.0010 cls_loss_causal 0.4163 re_mapping 0.0042 re_causal 0.0119 /// teacc 99.01 lr 0.00001000
+Epoch 430, weight, value: tensor([[-0.0808,  0.0715, -0.1173,  ..., -0.1257, -0.1253,  0.0230],
+        [-0.0884, -0.1792,  0.0090,  ..., -0.0536, -0.0390, -0.1163],
+        [ 0.0306, -0.1006,  0.0568,  ...,  0.1640, -0.1438, -0.0392],
+        ...,
+        [-0.1246, -0.2187,  0.0888,  ..., -0.0159, -0.0551,  0.0759],
+        [ 0.0298,  0.0393, -0.0368,  ..., -0.0917, -0.1052, -0.0247],
+        [-0.1631, -0.0011, -0.0017,  ..., -0.1836,  0.1176,  0.0294]],
+       device='cuda:0'), grad: tensor([[ 1.5467e-05, -2.9488e-03, -3.6755e-03,  ..., -2.1267e-03,
+         -2.8267e-03, -2.9564e-03],
+        [ 2.9206e-05,  9.5701e-04,  4.2462e-04,  ...,  4.9019e-04,
+          1.3027e-03,  1.3695e-03],
+        [ 1.0067e-04,  4.9257e-04,  6.4945e-04,  ...,  5.9843e-04,
+          2.1191e-03,  2.2659e-03],
+        ...,
+        [ 1.8865e-05,  2.2507e-04,  1.5745e-03,  ...,  5.3978e-04,
+          1.9255e-03,  2.2163e-03],
+        [ 1.1402e-04,  6.0463e-04, -6.9189e-04,  ..., -2.1057e-03,
+         -6.5765e-03, -4.2839e-03],
+        [ 2.7418e-04,  2.7065e-03, -9.5558e-04,  ...,  7.6890e-05,
+         -2.5387e-03, -4.7417e-03]], device='cuda:0')
+Epoch 430, bias, value: tensor([ 0.0103,  0.0116, -0.0009,  0.0136, -0.0078, -0.0065,  0.0102,  0.0213,
+        -0.0336,  0.0500], device='cuda:0'), grad: tensor([-0.0211,  0.0185,  0.0187, -0.0211,  0.0394,  0.0149, -0.0154,  0.0203,
+        -0.0477, -0.0064], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 429, time 217.39, cls_loss 0.4444 cls_loss_mapping 0.0008 cls_loss_causal 0.4175 re_mapping 0.0042 re_causal 0.0124 /// teacc 99.00 lr 0.00001000
+Epoch 431, weight, value: tensor([[-0.0808,  0.0715, -0.1173,  ..., -0.1256, -0.1253,  0.0231],
+        [-0.0885, -0.1791,  0.0091,  ..., -0.0537, -0.0390, -0.1163],
+        [ 0.0307, -0.1007,  0.0570,  ...,  0.1642, -0.1438, -0.0393],
+        ...,
+        [-0.1246, -0.2188,  0.0888,  ..., -0.0159, -0.0551,  0.0760],
+        [ 0.0298,  0.0393, -0.0370,  ..., -0.0918, -0.1054, -0.0247],
+        [-0.1632, -0.0011, -0.0017,  ..., -0.1836,  0.1176,  0.0293]],
+       device='cuda:0'), grad: tensor([[-5.6839e-03, -4.8180e-03,  2.4110e-05,  ..., -2.9564e-05,
+          3.5501e-04, -8.5449e-04],
+        [ 6.1655e-04,  4.4894e-04,  2.3317e-04,  ...,  2.5225e-04,
+          1.6241e-03,  3.1986e-03],
+        [ 1.5430e-03,  1.2407e-03, -2.0409e-04,  ...,  2.4867e-04,
+         -4.0269e-04, -3.3073e-03],
+        ...,
+        [ 1.9646e-04,  1.0294e-04,  1.9789e-04,  ...,  2.2495e-04,
+         -1.5631e-03, -2.1019e-03],
+        [ 1.1301e-03,  5.3644e-04, -1.5271e-04,  ...,  1.1940e-03,
+         -3.0351e-04, -1.9836e-03],
+        [ 8.0585e-04,  2.1327e-04, -2.5988e-04,  ...,  1.4601e-03,
+         -7.9095e-05, -2.1477e-03]], device='cuda:0')
+Epoch 431, bias, value: tensor([ 0.0103,  0.0117, -0.0010,  0.0137, -0.0077, -0.0066,  0.0102,  0.0212,
+        -0.0337,  0.0500], device='cuda:0'), grad: tensor([-0.0067,  0.0276, -0.0125,  0.0191,  0.0079,  0.0143,  0.0025, -0.0440,
+        -0.0160,  0.0079], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 430, time 216.99, cls_loss 0.4411 cls_loss_mapping 0.0010 cls_loss_causal 0.4128 re_mapping 0.0042 re_causal 0.0116 /// teacc 99.00 lr 0.00001000
+Epoch 432, weight, value: tensor([[-0.0808,  0.0715, -0.1174,  ..., -0.1257, -0.1255,  0.0231],
+        [-0.0886, -0.1791,  0.0091,  ..., -0.0537, -0.0389, -0.1163],
+        [ 0.0306, -0.1007,  0.0570,  ...,  0.1642, -0.1438, -0.0393],
+        ...,
+        [-0.1249, -0.2189,  0.0887,  ..., -0.0158, -0.0551,  0.0762],
+        [ 0.0299,  0.0394, -0.0369,  ..., -0.0919, -0.1055, -0.0246],
+        [-0.1631, -0.0010, -0.0016,  ..., -0.1835,  0.1176,  0.0292]],
+       device='cuda:0'), grad: tensor([[ 1.0896e-04,  3.9744e-04,  3.4571e-04,  ...,  1.0529e-03,
+          1.7757e-03,  3.2272e-03],
+        [ 7.2904e-06,  1.0651e-04,  2.3353e-04,  ...,  9.0313e-04,
+          1.6699e-03,  2.7218e-03],
+        [ 6.2823e-05,  7.4387e-05,  1.7667e-04,  ...,  8.4829e-04,
+          1.1721e-03,  2.2106e-03],
+        ...,
+        [ 7.9051e-06, -3.7646e-04, -5.7716e-03,  ...,  3.1543e-04,
+         -9.4528e-03, -8.6365e-03],
+        [ 1.4043e-04,  3.4666e-04, -7.9060e-04,  ..., -2.5539e-03,
+         -3.0746e-03, -7.9422e-03],
+        [-3.3647e-05, -2.6970e-03,  2.7027e-03,  ..., -1.8015e-03,
+          3.8357e-03, -4.7264e-03]], device='cuda:0')
+Epoch 432, bias, value: tensor([ 0.0103,  0.0119, -0.0011,  0.0137, -0.0078, -0.0066,  0.0102,  0.0213,
+        -0.0336,  0.0500], device='cuda:0'), grad: tensor([ 0.0172,  0.0200,  0.0177, -0.0012,  0.0244,  0.0166, -0.0075, -0.0707,
+        -0.0378,  0.0213], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 431, time 217.02, cls_loss 0.4422 cls_loss_mapping 0.0008 cls_loss_causal 0.4223 re_mapping 0.0040 re_causal 0.0119 /// teacc 98.99 lr 0.00001000
+Epoch 433, weight, value: tensor([[-0.0806,  0.0717, -0.1174,  ..., -0.1257, -0.1255,  0.0231],
+        [-0.0885, -0.1791,  0.0092,  ..., -0.0536, -0.0389, -0.1164],
+        [ 0.0306, -0.1007,  0.0568,  ...,  0.1639, -0.1438, -0.0393],
+        ...,
+        [-0.1249, -0.2189,  0.0888,  ..., -0.0157, -0.0551,  0.0763],
+        [ 0.0297,  0.0393, -0.0369,  ..., -0.0919, -0.1054, -0.0245],
+        [-0.1632, -0.0010, -0.0017,  ..., -0.1834,  0.1178,  0.0293]],
+       device='cuda:0'), grad: tensor([[ 1.7138e-03,  1.6890e-03,  4.9829e-05,  ...,  9.8038e-04,
+          4.7803e-04,  4.5061e-04],
+        [ 1.1063e-04,  1.7047e-04,  4.0710e-05,  ...,  2.6047e-05,
+          4.5776e-04,  4.5228e-04],
+        [ 1.7061e-03,  4.1437e-04,  3.9291e-03,  ...,  2.0313e-03,
+          3.0255e-04, -9.6798e-04],
+        ...,
+        [-1.9188e-03,  1.6344e-04, -4.8904e-03,  ..., -2.6531e-03,
+          1.1759e-03,  9.1410e-04],
+        [ 3.8471e-03,  3.5915e-03,  3.1322e-05,  ...,  4.5824e-04,
+          3.6502e-04,  4.0889e-04],
+        [ 1.9872e-04, -7.8630e-04, -7.1259e-03,  ...,  2.4843e-04,
+         -7.3242e-03, -5.0392e-03]], device='cuda:0')
+Epoch 433, bias, value: tensor([ 0.0105,  0.0119, -0.0011,  0.0137, -0.0078, -0.0067,  0.0100,  0.0213,
+        -0.0337,  0.0501], device='cuda:0'), grad: tensor([ 0.0168,  0.0116, -0.0474,  0.0002, -0.0220,  0.0008,  0.0156,  0.0035,
+         0.0201,  0.0009], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 432, time 216.72, cls_loss 0.4215 cls_loss_mapping 0.0008 cls_loss_causal 0.4031 re_mapping 0.0042 re_causal 0.0124 /// teacc 99.03 lr 0.00001000
+Epoch 434, weight, value: tensor([[-0.0806,  0.0718, -0.1175,  ..., -0.1258, -0.1255,  0.0230],
+        [-0.0886, -0.1790,  0.0094,  ..., -0.0537, -0.0388, -0.1164],
+        [ 0.0307, -0.1007,  0.0568,  ...,  0.1641, -0.1438, -0.0392],
+        ...,
+        [-0.1249, -0.2191,  0.0888,  ..., -0.0157, -0.0551,  0.0764],
+        [ 0.0298,  0.0393, -0.0369,  ..., -0.0919, -0.1055, -0.0245],
+        [-0.1633, -0.0011, -0.0017,  ..., -0.1834,  0.1177,  0.0293]],
+       device='cuda:0'), grad: tensor([[ 2.2072e-06,  6.8009e-05,  1.1653e-04,  ...,  6.5207e-05,
+          4.4560e-04,  3.4070e-04],
+        [ 2.2091e-06,  7.3481e-07, -1.0633e-03,  ...,  1.7762e-05,
+         -8.2321e-03, -4.2610e-03],
+        [ 1.6797e-04,  4.6380e-06,  6.7329e-04,  ...,  1.7691e-04,
+          2.3460e-04,  3.0351e-04],
+        ...,
+        [-1.8585e-04,  3.0287e-06, -2.6894e-04,  ..., -1.6189e-04,
+          3.1967e-03,  1.6661e-03],
+        [-3.6843e-06,  1.4707e-05,  5.9068e-05,  ..., -1.1128e-04,
+          3.5691e-04, -4.7088e-04],
+        [ 7.3016e-07, -4.6921e-03, -3.8166e-03,  ..., -3.0384e-03,
+         -5.2834e-03, -4.9515e-03]], device='cuda:0')
+Epoch 434, bias, value: tensor([ 0.0105,  0.0118, -0.0010,  0.0138, -0.0078, -0.0067,  0.0100,  0.0213,
+        -0.0337,  0.0500], device='cuda:0'), grad: tensor([ 0.0073, -0.0198,  0.0089,  0.0077,  0.0226,  0.0064,  0.0090,  0.0147,
+        -0.0242, -0.0325], device='cuda:0')
+100
+1e-05
+changing lr
+---------------------saving model at epoch 433----------------------------------------------------
+epoch 433, time 217.76, cls_loss 0.4415 cls_loss_mapping 0.0008 cls_loss_causal 0.4151 re_mapping 0.0042 re_causal 0.0124 /// teacc 99.05 lr 0.00001000
+Epoch 435, weight, value: tensor([[-0.0808,  0.0716, -0.1175,  ..., -0.1257, -0.1256,  0.0231],
+        [-0.0886, -0.1790,  0.0093,  ..., -0.0538, -0.0388, -0.1166],
+        [ 0.0307, -0.1005,  0.0568,  ...,  0.1641, -0.1437, -0.0392],
+        ...,
+        [-0.1248, -0.2190,  0.0888,  ..., -0.0156, -0.0553,  0.0764],
+        [ 0.0298,  0.0393, -0.0369,  ..., -0.0919, -0.1056, -0.0246],
+        [-0.1632, -0.0010, -0.0017,  ..., -0.1835,  0.1177,  0.0293]],
+       device='cuda:0'), grad: tensor([[ 2.8872e-04,  2.5249e-04,  3.3975e-04,  ...,  2.3818e-04,
+          6.1178e-04,  5.3120e-04],
+        [ 1.7837e-05,  1.9953e-05, -3.5019e-03,  ..., -6.5708e-04,
+         -1.6203e-03, -2.7981e-03],
+        [ 2.6727e-04,  2.0266e-04,  3.5977e-04,  ...,  8.8394e-05,
+          6.8331e-04,  5.0974e-04],
+        ...,
+        [ 1.4448e-04,  1.3530e-04,  5.7602e-04,  ...,  1.4353e-04,
+         -3.3512e-03, -1.1930e-03],
+        [ 1.4567e-04, -1.7004e-03,  4.2033e-04,  ...,  9.2924e-05,
+          1.2827e-04,  5.3072e-04],
+        [ 1.9419e-04,  2.0275e-03,  3.6907e-03,  ...,  2.9411e-03,
+          8.1635e-03,  3.7479e-03]], device='cuda:0')
+Epoch 435, bias, value: tensor([ 0.0104,  0.0119, -0.0010,  0.0137, -0.0076, -0.0068,  0.0101,  0.0213,
+        -0.0338,  0.0500], device='cuda:0'), grad: tensor([ 0.0169, -0.0058,  0.0151,  0.0094, -0.0070,  0.0160, -0.0156, -0.0768,
+         0.0118,  0.0362], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 434, time 216.43, cls_loss 0.4307 cls_loss_mapping 0.0007 cls_loss_causal 0.4014 re_mapping 0.0043 re_causal 0.0125 /// teacc 98.99 lr 0.00001000
+Epoch 436, weight, value: tensor([[-0.0808,  0.0715, -0.1175,  ..., -0.1255, -0.1255,  0.0231],
+        [-0.0886, -0.1791,  0.0093,  ..., -0.0538, -0.0389, -0.1165],
+        [ 0.0307, -0.1006,  0.0570,  ...,  0.1640, -0.1438, -0.0393],
+        ...,
+        [-0.1250, -0.2192,  0.0886,  ..., -0.0158, -0.0554,  0.0762],
+        [ 0.0300,  0.0396, -0.0367,  ..., -0.0917, -0.1055, -0.0246],
+        [-0.1633, -0.0010, -0.0016,  ..., -0.1835,  0.1177,  0.0295]],
+       device='cuda:0'), grad: tensor([[-3.2883e-03, -4.1351e-03,  6.3229e-04,  ..., -9.5797e-04,
+         -4.2629e-04, -2.3708e-03],
+        [ 2.3162e-04, -1.6665e-04,  5.1785e-04,  ...,  6.4278e-04,
+          7.0393e-05,  1.0979e-04],
+        [ 7.0453e-05, -8.4758e-05,  6.9952e-04,  ..., -3.1781e-04,
+          9.5189e-05,  5.4359e-04],
+        ...,
+        [ 3.7241e-04,  2.5317e-05,  5.0575e-05,  ...,  4.4632e-04,
+          9.3520e-05,  9.4116e-05],
+        [ 3.1586e-03,  2.1286e-03,  8.8549e-04,  ...,  3.0212e-03,
+         -1.0657e-04,  6.6233e-04],
+        [ 3.4389e-03,  2.2042e-04,  7.9060e-04,  ...,  8.4400e-04,
+          8.6725e-05,  3.8509e-03]], device='cuda:0')
+Epoch 436, bias, value: tensor([ 0.0104,  0.0119, -0.0011,  0.0136, -0.0078, -0.0067,  0.0102,  0.0212,
+        -0.0337,  0.0501], device='cuda:0'), grad: tensor([ 0.0006,  0.0133,  0.0181, -0.0212, -0.0432, -0.0310,  0.0222,  0.0166,
+         0.0225,  0.0021], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 435, time 217.68, cls_loss 0.4292 cls_loss_mapping 0.0008 cls_loss_causal 0.4010 re_mapping 0.0042 re_causal 0.0122 /// teacc 98.97 lr 0.00001000
+Epoch 437, weight, value: tensor([[-0.0810,  0.0715, -0.1176,  ..., -0.1256, -0.1256,  0.0231],
+        [-0.0885, -0.1790,  0.0093,  ..., -0.0539, -0.0388, -0.1165],
+        [ 0.0308, -0.1006,  0.0570,  ...,  0.1641, -0.1437, -0.0392],
+        ...,
+        [-0.1250, -0.2192,  0.0886,  ..., -0.0157, -0.0554,  0.0762],
+        [ 0.0300,  0.0396, -0.0366,  ..., -0.0915, -0.1054, -0.0246],
+        [-0.1633, -0.0011, -0.0017,  ..., -0.1835,  0.1177,  0.0295]],
+       device='cuda:0'), grad: tensor([[ 1.6856e-04,  6.8378e-04,  5.0259e-04,  ...,  4.0197e-04,
+          1.5802e-03,  2.1000e-03],
+        [ 3.0294e-05,  1.0931e-04,  6.9618e-05,  ...,  7.5877e-05,
+          4.5562e-04,  4.0054e-04],
+        [ 3.7336e-04,  2.5153e-04,  7.6199e-04,  ...,  8.0109e-04,
+         -1.4505e-03, -2.2864e-04],
+        ...,
+        [ 4.6802e-04,  6.6900e-04,  2.2774e-03,  ...,  1.1024e-03,
+          2.4548e-03,  2.6360e-03],
+        [ 4.7946e-04,  1.0025e-02, -3.4676e-03,  ..., -5.1880e-03,
+         -4.3297e-03, -4.9057e-03],
+        [-2.5997e-03, -1.2512e-02,  1.2634e-02,  ...,  2.3346e-03,
+          1.1261e-02,  1.2222e-02]], device='cuda:0')
+Epoch 437, bias, value: tensor([ 0.0104,  0.0120, -0.0010,  0.0137, -0.0077, -0.0068,  0.0101,  0.0212,
+        -0.0336,  0.0499], device='cuda:0'), grad: tensor([ 0.0142,  0.0084, -0.0209,  0.0157, -0.0082,  0.0105, -0.0234,  0.0167,
+        -0.0226,  0.0096], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 436, time 216.73, cls_loss 0.4258 cls_loss_mapping 0.0008 cls_loss_causal 0.4048 re_mapping 0.0041 re_causal 0.0117 /// teacc 99.00 lr 0.00001000
+Epoch 438, weight, value: tensor([[-0.0810,  0.0716, -0.1175,  ..., -0.1256, -0.1256,  0.0231],
+        [-0.0885, -0.1790,  0.0095,  ..., -0.0537, -0.0388, -0.1163],
+        [ 0.0306, -0.1007,  0.0570,  ...,  0.1640, -0.1435, -0.0392],
+        ...,
+        [-0.1252, -0.2192,  0.0886,  ..., -0.0158, -0.0555,  0.0761],
+        [ 0.0299,  0.0394, -0.0366,  ..., -0.0916, -0.1055, -0.0247],
+        [-0.1631, -0.0010, -0.0017,  ..., -0.1835,  0.1177,  0.0295]],
+       device='cuda:0'), grad: tensor([[ 2.0945e-04,  3.2224e-06,  7.4625e-05,  ...,  3.0026e-05,
+          2.7132e-04,  5.7220e-04],
+        [ 3.3689e-04,  5.0068e-06,  4.9144e-05,  ..., -1.4222e-04,
+          2.6751e-04,  1.0729e-03],
+        [ 4.5776e-05, -1.0505e-05,  3.5334e-04,  ..., -2.4188e-04,
+          4.9257e-04,  1.1902e-03],
+        ...,
+        [ 1.7929e-04,  1.2971e-05, -1.2579e-03,  ...,  1.3418e-05,
+          3.1757e-04,  4.9973e-04],
+        [ 2.8682e-04,  4.8816e-05,  2.2185e-04,  ...,  8.9705e-05,
+          4.0984e-04,  5.9462e-04],
+        [-1.8969e-03,  1.1122e-04,  4.6015e-04,  ...,  3.7879e-05,
+         -1.3561e-03, -5.5809e-03]], device='cuda:0')
+Epoch 438, bias, value: tensor([ 0.0104,  0.0121, -0.0011,  0.0135, -0.0077, -0.0067,  0.0102,  0.0211,
+        -0.0337,  0.0501], device='cuda:0'), grad: tensor([ 0.0166, -0.0066, -0.0107,  0.0220,  0.0094, -0.0142, -0.0078,  0.0151,
+         0.0179, -0.0416], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 437, time 216.72, cls_loss 0.4529 cls_loss_mapping 0.0008 cls_loss_causal 0.4263 re_mapping 0.0041 re_causal 0.0122 /// teacc 98.99 lr 0.00001000
+Epoch 439, weight, value: tensor([[-0.0809,  0.0716, -0.1174,  ..., -0.1257, -0.1256,  0.0232],
+        [-0.0884, -0.1790,  0.0096,  ..., -0.0534, -0.0389, -0.1163],
+        [ 0.0308, -0.1006,  0.0570,  ...,  0.1639, -0.1436, -0.0393],
+        ...,
+        [-0.1252, -0.2192,  0.0884,  ..., -0.0158, -0.0554,  0.0760],
+        [ 0.0299,  0.0394, -0.0367,  ..., -0.0917, -0.1055, -0.0247],
+        [-0.1633, -0.0010, -0.0017,  ..., -0.1835,  0.1176,  0.0296]],
+       device='cuda:0'), grad: tensor([[ 1.0431e-05,  4.6492e-05,  2.9933e-06,  ..., -3.1166e-03,
+          9.1434e-05, -2.4738e-03],
+        [ 7.9423e-06, -9.3937e-04,  2.0251e-05,  ...,  2.6011e-04,
+          1.5691e-05,  5.6505e-05],
+        [ 3.0875e-05,  8.2195e-05, -2.6654e-06,  ...,  5.4121e-04,
+          1.0431e-04,  8.5211e-04],
+        ...,
+        [ 9.4697e-06,  3.8356e-05, -1.1489e-05,  ...,  1.6718e-03,
+          9.2268e-05,  1.3094e-03],
+        [ 2.2912e-04,  2.2354e-03,  7.0989e-05,  ...,  1.8179e-04,
+          2.6932e-03,  1.6136e-03],
+        [-4.2653e-04, -2.3174e-03,  6.0648e-05,  ...,  1.3959e-04,
+         -4.6158e-03, -2.5082e-03]], device='cuda:0')
+Epoch 439, bias, value: tensor([ 0.0104,  0.0120, -0.0010,  0.0135, -0.0078, -0.0067,  0.0103,  0.0212,
+        -0.0336,  0.0500], device='cuda:0'), grad: tensor([-0.0193, -0.0265,  0.0183, -0.0191,  0.0108,  0.0087,  0.0110, -0.0063,
+         0.0176,  0.0048], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 438, time 216.98, cls_loss 0.4523 cls_loss_mapping 0.0009 cls_loss_causal 0.4243 re_mapping 0.0041 re_causal 0.0121 /// teacc 99.00 lr 0.00001000
+Epoch 440, weight, value: tensor([[-0.0809,  0.0716, -0.1174,  ..., -0.1257, -0.1256,  0.0230],
+        [-0.0885, -0.1790,  0.0096,  ..., -0.0535, -0.0389, -0.1164],
+        [ 0.0308, -0.1005,  0.0571,  ...,  0.1640, -0.1436, -0.0393],
+        ...,
+        [-0.1251, -0.2192,  0.0885,  ..., -0.0158, -0.0553,  0.0760],
+        [ 0.0300,  0.0394, -0.0367,  ..., -0.0918, -0.1055, -0.0247],
+        [-0.1633, -0.0011, -0.0019,  ..., -0.1835,  0.1175,  0.0295]],
+       device='cuda:0'), grad: tensor([[ 1.0681e-04,  1.4699e-04,  3.2806e-04,  ...,  3.3283e-04,
+          4.4012e-04,  7.9393e-04],
+        [ 2.3007e-04,  4.2343e-03, -5.3406e-04,  ..., -1.9045e-03,
+         -1.0414e-03, -3.7613e-03],
+        [-1.0166e-03, -3.1441e-05, -2.3994e-03,  ..., -9.1568e-06,
+          9.3985e-04,  5.9009e-05],
+        ...,
+        [ 2.9564e-04,  1.1641e-04,  5.1689e-04,  ...,  5.3596e-04,
+          5.8031e-04,  1.1616e-03],
+        [-6.9904e-04,  8.0013e-04,  2.0754e-04,  ..., -1.2617e-03,
+          8.5783e-04,  8.1825e-04],
+        [ 4.8518e-05,  2.5773e-04,  5.4657e-05,  ...,  1.6665e-04,
+          5.3358e-04,  1.1120e-03]], device='cuda:0')
+Epoch 440, bias, value: tensor([ 0.0103,  0.0120, -0.0009,  0.0134, -0.0076, -0.0069,  0.0103,  0.0213,
+        -0.0337,  0.0498], device='cuda:0'), grad: tensor([ 8.2550e-03,  4.2468e-05,  4.3259e-03,  1.1940e-02, -4.0802e-02,
+         7.3280e-03,  1.1307e-02,  1.1261e-02,  6.5536e-03, -2.0203e-02],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 439, time 217.04, cls_loss 0.4210 cls_loss_mapping 0.0009 cls_loss_causal 0.3923 re_mapping 0.0042 re_causal 0.0115 /// teacc 98.98 lr 0.00001000
+Epoch 441, weight, value: tensor([[-0.0809,  0.0716, -0.1175,  ..., -0.1258, -0.1257,  0.0229],
+        [-0.0886, -0.1792,  0.0096,  ..., -0.0535, -0.0388, -0.1165],
+        [ 0.0307, -0.1005,  0.0570,  ...,  0.1638, -0.1437, -0.0394],
+        ...,
+        [-0.1251, -0.2194,  0.0886,  ..., -0.0157, -0.0553,  0.0761],
+        [ 0.0300,  0.0395, -0.0367,  ..., -0.0919, -0.1055, -0.0248],
+        [-0.1634, -0.0011, -0.0018,  ..., -0.1834,  0.1176,  0.0295]],
+       device='cuda:0'), grad: tensor([[ 1.0423e-05,  4.1090e-06,  6.9678e-05,  ...,  3.9244e-04,
+          1.6820e-04,  9.4295e-05],
+        [ 1.4508e-04,  5.4210e-05,  2.5272e-04,  ..., -2.4166e-03,
+          1.0324e-04,  6.7711e-05],
+        [ 1.3900e-04,  1.6332e-04,  4.9973e-04,  ...,  7.0477e-04,
+          2.5773e-04,  8.0407e-05],
+        ...,
+        [ 2.4247e-04,  1.0961e-04,  5.7650e-04,  ...,  5.4312e-04,
+          1.0500e-03,  4.7445e-04],
+        [ 1.9083e-03,  9.3699e-04,  3.4542e-03,  ...,  2.6531e-03,
+          1.2693e-03,  2.1684e-04],
+        [-4.9171e-03, -2.4567e-03, -7.8964e-03,  ..., -5.8937e-03,
+         -2.7966e-04,  1.1196e-03]], device='cuda:0')
+Epoch 441, bias, value: tensor([ 0.0104,  0.0119, -0.0008,  0.0135, -0.0074, -0.0069,  0.0103,  0.0213,
+        -0.0337,  0.0497], device='cuda:0'), grad: tensor([ 0.0133, -0.0133, -0.0449, -0.0053, -0.0010,  0.0101,  0.0149,  0.0162,
+         0.0235, -0.0135], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 440, time 217.02, cls_loss 0.4721 cls_loss_mapping 0.0009 cls_loss_causal 0.4576 re_mapping 0.0041 re_causal 0.0121 /// teacc 98.96 lr 0.00001000
+Epoch 442, weight, value: tensor([[-0.0809,  0.0716, -0.1177,  ..., -0.1257, -0.1257,  0.0229],
+        [-0.0885, -0.1792,  0.0099,  ..., -0.0535, -0.0387, -0.1164],
+        [ 0.0306, -0.1006,  0.0568,  ...,  0.1638, -0.1439, -0.0396],
+        ...,
+        [-0.1251, -0.2193,  0.0887,  ..., -0.0157, -0.0553,  0.0762],
+        [ 0.0300,  0.0396, -0.0367,  ..., -0.0918, -0.1057, -0.0249],
+        [-0.1630, -0.0011, -0.0017,  ..., -0.1832,  0.1177,  0.0295]],
+       device='cuda:0'), grad: tensor([[-3.1948e-03, -4.5624e-03, -1.5974e-03,  ...,  1.1653e-05,
+         -5.1737e-04, -6.5994e-04],
+        [ 1.4491e-06,  2.6092e-05, -5.5647e-04,  ..., -4.5300e-04,
+          3.7104e-05,  1.1320e-03],
+        [ 2.0771e-03,  2.7580e-03,  2.9635e-04,  ...,  1.1045e-04,
+          5.9128e-05,  1.5249e-03],
+        ...,
+        [ 9.2015e-07,  6.0558e-05,  4.0388e-04,  ...,  1.8299e-05,
+          1.2827e-04,  3.2864e-03],
+        [ 1.2791e-04,  2.7657e-04,  2.3866e-04,  ...,  4.4525e-05,
+          5.8800e-05,  5.6124e-04],
+        [ 9.8610e-04,  1.3227e-03,  2.4700e-04,  ...,  2.2680e-05,
+         -6.3837e-05,  4.9400e-04]], device='cuda:0')
+Epoch 442, bias, value: tensor([ 0.0104,  0.0120, -0.0010,  0.0134, -0.0073, -0.0068,  0.0101,  0.0213,
+        -0.0337,  0.0499], device='cuda:0'), grad: tensor([-0.0504, -0.0101,  0.0237, -0.0148,  0.0167, -0.0189,  0.0152,  0.0019,
+         0.0167,  0.0199], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 441, time 217.07, cls_loss 0.4526 cls_loss_mapping 0.0009 cls_loss_causal 0.4162 re_mapping 0.0041 re_causal 0.0120 /// teacc 98.95 lr 0.00001000
+Epoch 443, weight, value: tensor([[-0.0808,  0.0716, -0.1177,  ..., -0.1257, -0.1257,  0.0230],
+        [-0.0886, -0.1792,  0.0100,  ..., -0.0536, -0.0387, -0.1165],
+        [ 0.0306, -0.1005,  0.0568,  ...,  0.1638, -0.1438, -0.0396],
+        ...,
+        [-0.1250, -0.2194,  0.0887,  ..., -0.0156, -0.0552,  0.0762],
+        [ 0.0301,  0.0396, -0.0366,  ..., -0.0918, -0.1057, -0.0248],
+        [-0.1630, -0.0010, -0.0017,  ..., -0.1832,  0.1178,  0.0296]],
+       device='cuda:0'), grad: tensor([[-1.7214e-03, -1.2770e-03, -3.4161e-03,  ..., -3.5305e-03,
+         -5.2414e-03, -6.2408e-03],
+        [ 6.3241e-05,  3.6180e-05,  7.8678e-04,  ...,  1.1244e-03,
+          1.7190e-04,  3.5453e-04],
+        [ 1.3018e-04,  1.0371e-04, -7.4501e-03,  ..., -8.0414e-03,
+          3.5548e-04,  8.0156e-04],
+        ...,
+        [-1.6940e-04,  2.1780e-04,  3.2616e-03,  ..., -6.1321e-04,
+          9.9468e-04, -2.6360e-03],
+        [ 6.2132e-04,  2.6584e-04,  3.0270e-03,  ...,  3.7746e-03,
+          1.1692e-03,  1.7767e-03],
+        [ 3.1590e-04,  7.8380e-05,  8.4209e-04,  ...,  1.5612e-03,
+          3.6001e-04,  1.1768e-03]], device='cuda:0')
+Epoch 443, bias, value: tensor([ 0.0105,  0.0120, -0.0010,  0.0133, -0.0074, -0.0066,  0.0100,  0.0212,
+        -0.0338,  0.0499], device='cuda:0'), grad: tensor([-0.0237,  0.0093, -0.0020, -0.0131,  0.0179,  0.0059,  0.0080, -0.0358,
+         0.0173,  0.0162], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 442, time 216.78, cls_loss 0.4471 cls_loss_mapping 0.0009 cls_loss_causal 0.4204 re_mapping 0.0040 re_causal 0.0116 /// teacc 98.99 lr 0.00001000
+Epoch 444, weight, value: tensor([[-0.0808,  0.0716, -0.1178,  ..., -0.1257, -0.1256,  0.0231],
+        [-0.0887, -0.1791,  0.0099,  ..., -0.0536, -0.0387, -0.1165],
+        [ 0.0305, -0.1006,  0.0569,  ...,  0.1638, -0.1439, -0.0396],
+        ...,
+        [-0.1250, -0.2197,  0.0886,  ..., -0.0156, -0.0553,  0.0762],
+        [ 0.0301,  0.0398, -0.0367,  ..., -0.0918, -0.1057, -0.0247],
+        [-0.1631, -0.0011, -0.0016,  ..., -0.1833,  0.1178,  0.0297]],
+       device='cuda:0'), grad: tensor([[ 3.1042e-04, -1.4223e-05,  8.6069e-05,  ...,  1.0663e-04,
+          2.6917e-04,  1.5509e-04],
+        [ 1.3423e-04,  2.0400e-05,  1.5450e-04,  ...,  1.7834e-04,
+          3.9506e-04,  1.8275e-04],
+        [-9.5725e-05,  9.8884e-05, -8.9340e-03,  ..., -1.0073e-05,
+         -4.2152e-03,  1.9526e-04],
+        ...,
+        [ 2.4338e-03,  3.6776e-05,  4.6844e-03,  ...,  2.5129e-04,
+         -3.9940e-03, -2.0752e-03],
+        [ 2.6474e-03,  6.4313e-05,  2.9659e-04,  ...,  2.6917e-04,
+          4.8161e-04,  1.8859e-04],
+        [ 6.3467e-04,  1.2302e-04,  4.0207e-03,  ...,  4.0150e-04,
+          9.0866e-03,  2.5940e-03]], device='cuda:0')
+Epoch 444, bias, value: tensor([ 0.0106,  0.0120, -0.0010,  0.0134, -0.0074, -0.0066,  0.0099,  0.0213,
+        -0.0338,  0.0499], device='cuda:0'), grad: tensor([ 0.0143, -0.0179, -0.0190,  0.0095,  0.0056, -0.0223, -0.0217,  0.0176,
+        -0.0077,  0.0416], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 443, time 216.62, cls_loss 0.4452 cls_loss_mapping 0.0008 cls_loss_causal 0.4187 re_mapping 0.0041 re_causal 0.0122 /// teacc 98.97 lr 0.00001000
+Epoch 445, weight, value: tensor([[-0.0808,  0.0715, -0.1179,  ..., -0.1258, -0.1257,  0.0230],
+        [-0.0889, -0.1792,  0.0099,  ..., -0.0536, -0.0387, -0.1165],
+        [ 0.0304, -0.1005,  0.0569,  ...,  0.1638, -0.1438, -0.0397],
+        ...,
+        [-0.1249, -0.2195,  0.0886,  ..., -0.0156, -0.0552,  0.0763],
+        [ 0.0301,  0.0397, -0.0368,  ..., -0.0918, -0.1057, -0.0246],
+        [-0.1630, -0.0011, -0.0016,  ..., -0.1833,  0.1178,  0.0296]],
+       device='cuda:0'), grad: tensor([[ 7.0810e-05, -1.9360e-04, -4.2152e-04,  ...,  7.9535e-07,
+          2.2507e-04,  2.0385e-04],
+        [ 2.7218e-03,  1.5974e-04,  1.8045e-05,  ...,  8.8057e-07,
+         -1.0185e-03, -3.4070e-04],
+        [ 7.3051e-04,  4.6396e-04,  4.0770e-05,  ..., -1.1760e-04,
+          1.4603e-04,  1.9455e-04],
+        ...,
+        [ 7.1704e-05,  1.7822e-04,  4.6998e-05,  ...,  2.1517e-05,
+          3.6621e-04,  4.0340e-04],
+        [-3.4275e-03,  9.1410e-04,  2.9230e-04,  ...,  1.7881e-05,
+          9.2411e-04,  5.8603e-04],
+        [-3.5137e-05, -1.0128e-03, -2.5988e-04,  ...,  2.4176e-04,
+         -1.1597e-03, -5.6791e-04]], device='cuda:0')
+Epoch 445, bias, value: tensor([ 0.0105,  0.0120, -0.0010,  0.0134, -0.0076, -0.0066,  0.0100,  0.0214,
+        -0.0339,  0.0499], device='cuda:0'), grad: tensor([ 0.0129, -0.0189,  0.0207, -0.0140,  0.0173, -0.0062, -0.0364, -0.0075,
+         0.0171,  0.0150], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 444, time 216.83, cls_loss 0.4529 cls_loss_mapping 0.0006 cls_loss_causal 0.4278 re_mapping 0.0041 re_causal 0.0126 /// teacc 99.01 lr 0.00001000
+Epoch 446, weight, value: tensor([[-0.0808,  0.0715, -0.1177,  ..., -0.1258, -0.1256,  0.0230],
+        [-0.0890, -0.1792,  0.0098,  ..., -0.0536, -0.0388, -0.1166],
+        [ 0.0304, -0.1006,  0.0570,  ...,  0.1638, -0.1439, -0.0398],
+        ...,
+        [-0.1249, -0.2195,  0.0885,  ..., -0.0155, -0.0553,  0.0762],
+        [ 0.0301,  0.0397, -0.0368,  ..., -0.0919, -0.1057, -0.0245],
+        [-0.1630, -0.0009, -0.0015,  ..., -0.1833,  0.1179,  0.0297]],
+       device='cuda:0'), grad: tensor([[ 1.4253e-05,  4.6521e-05,  2.9564e-04,  ..., -9.9754e-04,
+         -3.6240e-03, -3.2768e-03],
+        [ 2.5138e-05,  6.6161e-05,  1.7958e-03,  ...,  2.8515e-04,
+          1.6851e-03,  1.0462e-03],
+        [ 6.4671e-05,  5.4777e-05,  3.7813e-04,  ...,  2.0099e-04,
+          1.0242e-03,  6.5804e-04],
+        ...,
+        [ 2.9385e-05,  7.8261e-05, -2.8442e-02,  ..., -9.9640e-03,
+         -4.7302e-03, -1.1345e-02],
+        [ 8.5831e-05,  1.3137e-04,  2.1470e-04,  ...,  8.9884e-04,
+          1.4973e-03,  9.4604e-04],
+        [ 9.0957e-05,  4.2260e-05,  2.4292e-02,  ...,  9.1400e-03,
+          3.6068e-03,  9.8419e-03]], device='cuda:0')
+Epoch 446, bias, value: tensor([ 0.0106,  0.0119, -0.0011,  0.0134, -0.0076, -0.0066,  0.0099,  0.0213,
+        -0.0338,  0.0500], device='cuda:0'), grad: tensor([-0.0177,  0.0465,  0.0142,  0.0119, -0.0164, -0.0142,  0.0122, -0.0500,
+        -0.0415,  0.0551], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 445, time 216.54, cls_loss 0.4305 cls_loss_mapping 0.0007 cls_loss_causal 0.4047 re_mapping 0.0043 re_causal 0.0123 /// teacc 99.01 lr 0.00001000
+Epoch 447, weight, value: tensor([[-0.0809,  0.0714, -0.1178,  ..., -0.1259, -0.1257,  0.0229],
+        [-0.0891, -0.1791,  0.0098,  ..., -0.0535, -0.0385, -0.1166],
+        [ 0.0304, -0.1005,  0.0570,  ...,  0.1639, -0.1439, -0.0398],
+        ...,
+        [-0.1250, -0.2196,  0.0887,  ..., -0.0154, -0.0552,  0.0763],
+        [ 0.0302,  0.0398, -0.0369,  ..., -0.0919, -0.1058, -0.0245],
+        [-0.1631, -0.0010, -0.0016,  ..., -0.1834,  0.1178,  0.0296]],
+       device='cuda:0'), grad: tensor([[ 8.4209e-04, -7.7534e-04,  3.2592e-04,  ...,  1.4734e-03,
+          4.1771e-04,  1.0371e-04],
+        [ 1.7595e-04,  1.4377e-04,  6.2275e-04,  ...,  1.0748e-03,
+          6.2418e-04,  2.4244e-05],
+        [ 5.0583e-03, -4.6563e-04, -9.8419e-04,  ..., -8.3971e-04,
+         -1.6384e-03, -2.2757e-04],
+        ...,
+        [ 7.7300e-08,  1.4544e-03,  1.5841e-03,  ...,  7.2336e-04,
+          6.3610e-04,  1.4772e-03],
+        [-8.3847e-03, -9.5215e-03, -5.2567e-03,  ..., -7.4816e-04,
+         -3.9444e-03, -6.4659e-03],
+        [ 2.2907e-03,  4.6349e-03,  4.4556e-03,  ...,  1.0796e-03,
+          3.7422e-03,  4.8523e-03]], device='cuda:0')
+Epoch 447, bias, value: tensor([ 0.0104,  0.0119, -0.0009,  0.0134, -0.0076, -0.0067,  0.0099,  0.0214,
+        -0.0338,  0.0500], device='cuda:0'), grad: tensor([-0.0128,  0.0247,  0.0043,  0.0028, -0.0424, -0.0167,  0.0112,  0.0140,
+        -0.0213,  0.0363], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 446, time 216.56, cls_loss 0.4601 cls_loss_mapping 0.0007 cls_loss_causal 0.4296 re_mapping 0.0041 re_causal 0.0122 /// teacc 99.00 lr 0.00001000
+Epoch 448, weight, value: tensor([[-0.0809,  0.0715, -0.1179,  ..., -0.1259, -0.1258,  0.0229],
+        [-0.0890, -0.1789,  0.0099,  ..., -0.0535, -0.0384, -0.1167],
+        [ 0.0303, -0.1006,  0.0570,  ...,  0.1639, -0.1439, -0.0397],
+        ...,
+        [-0.1248, -0.2198,  0.0887,  ..., -0.0155, -0.0552,  0.0763],
+        [ 0.0302,  0.0398, -0.0367,  ..., -0.0918, -0.1058, -0.0244],
+        [-0.1633, -0.0010, -0.0017,  ..., -0.1834,  0.1178,  0.0296]],
+       device='cuda:0'), grad: tensor([[ 3.8236e-05, -2.1696e-04,  1.0127e-04,  ...,  6.1035e-04,
+          4.3178e-04,  4.8494e-04],
+        [ 2.1964e-05,  4.6402e-05,  1.0800e-04,  ...,  1.1930e-03,
+          5.1117e-04,  8.5688e-04],
+        [ 3.9177e-03,  6.0272e-03,  1.2743e-04,  ...,  4.6730e-03,
+          7.1573e-04,  1.3170e-03],
+        ...,
+        [ 5.2571e-05,  1.3411e-04,  3.9029e-04,  ...,  1.1053e-03,
+          8.5497e-04,  9.9277e-04],
+        [-4.3750e-05,  1.1176e-04,  1.0592e-04,  ...,  1.0300e-03,
+          8.3828e-04,  8.3923e-04],
+        [ 5.1528e-05,  1.0502e-04, -2.7370e-04,  ...,  8.2588e-04,
+          2.9802e-04,  5.9223e-04]], device='cuda:0')
+Epoch 448, bias, value: tensor([ 0.0105,  0.0120, -0.0010,  0.0135, -0.0075, -0.0066,  0.0098,  0.0214,
+        -0.0337,  0.0499], device='cuda:0'), grad: tensor([ 0.0091, -0.0406,  0.0278,  0.0133, -0.0452,  0.0212, -0.0452,  0.0221,
+         0.0207,  0.0169], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 447, time 216.48, cls_loss 0.4428 cls_loss_mapping 0.0010 cls_loss_causal 0.4165 re_mapping 0.0040 re_causal 0.0117 /// teacc 99.03 lr 0.00001000
+Epoch 449, weight, value: tensor([[-0.0809,  0.0715, -0.1181,  ..., -0.1259, -0.1259,  0.0229],
+        [-0.0890, -0.1789,  0.0098,  ..., -0.0536, -0.0384, -0.1167],
+        [ 0.0306, -0.1005,  0.0572,  ...,  0.1639, -0.1439, -0.0397],
+        ...,
+        [-0.1249, -0.2198,  0.0885,  ..., -0.0157, -0.0552,  0.0763],
+        [ 0.0302,  0.0398, -0.0369,  ..., -0.0918, -0.1059, -0.0246],
+        [-0.1633, -0.0009, -0.0015,  ..., -0.1834,  0.1179,  0.0295]],
+       device='cuda:0'), grad: tensor([[ 1.6242e-05,  7.0818e-06,  4.5709e-06,  ...,  2.3674e-06,
+          6.7055e-05,  2.1175e-05],
+        [-1.0097e-04,  5.0753e-05,  7.8261e-05,  ...,  1.5676e-05,
+         -2.8944e-04,  6.0469e-05],
+        [ 4.2051e-05,  1.9372e-04,  1.2314e-04,  ...,  9.2208e-05,
+          1.0026e-04,  7.0930e-05],
+        ...,
+        [-8.6904e-05,  1.0140e-05, -6.5947e-04,  ..., -3.2973e-04,
+          1.1736e-04, -3.1543e-04],
+        [ 2.6588e-03,  1.2550e-02,  7.4267e-05,  ...,  5.6887e-04,
+          6.3667e-03,  9.4950e-05],
+        [ 8.6367e-05,  3.6097e-04,  2.0046e-03,  ...,  5.0831e-04,
+          4.7951e-03,  4.7302e-03]], device='cuda:0')
+Epoch 449, bias, value: tensor([ 0.0103,  0.0119, -0.0010,  0.0135, -0.0074, -0.0066,  0.0100,  0.0213,
+        -0.0338,  0.0500], device='cuda:0'), grad: tensor([ 5.7869e-03, -7.4387e-04, -4.1847e-03, -6.9678e-05, -3.8223e-03,
+        -3.7292e-02, -1.9882e-02,  7.7705e-03,  3.5217e-02,  1.7227e-02],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 448, time 216.32, cls_loss 0.4228 cls_loss_mapping 0.0009 cls_loss_causal 0.4000 re_mapping 0.0040 re_causal 0.0115 /// teacc 99.05 lr 0.00001000
+Epoch 450, weight, value: tensor([[-0.0809,  0.0717, -0.1181,  ..., -0.1260, -0.1259,  0.0230],
+        [-0.0890, -0.1789,  0.0099,  ..., -0.0535, -0.0385, -0.1167],
+        [ 0.0306, -0.1005,  0.0571,  ...,  0.1639, -0.1439, -0.0395],
+        ...,
+        [-0.1250, -0.2197,  0.0885,  ..., -0.0157, -0.0551,  0.0762],
+        [ 0.0301,  0.0397, -0.0370,  ..., -0.0920, -0.1060, -0.0246],
+        [-0.1633, -0.0009, -0.0015,  ..., -0.1834,  0.1180,  0.0296]],
+       device='cuda:0'), grad: tensor([[-5.6103e-06, -5.4151e-05, -1.4520e-04,  ...,  2.0421e-04,
+          1.0884e-04,  1.1587e-03],
+        [-1.3041e-04, -4.5514e-04, -5.7817e-05,  ..., -3.1948e-04,
+         -7.5722e-04,  1.4436e-04],
+        [-4.1084e-03, -2.2945e-03, -6.7558e-03,  ..., -5.7602e-03,
+         -2.7847e-03, -7.8506e-03],
+        ...,
+        [ 2.8804e-05,  7.9334e-05,  2.0301e-04,  ...,  1.3781e-03,
+         -2.8839e-03,  1.0881e-03],
+        [ 1.5381e-02,  1.1749e-02,  5.5351e-03,  ...,  2.5368e-03,
+          4.2000e-03,  1.4286e-03],
+        [ 3.0594e-03,  1.7700e-03,  7.1640e-03,  ...,  9.8877e-03,
+          1.9302e-02,  1.0674e-02]], device='cuda:0')
+Epoch 450, bias, value: tensor([ 0.0104,  0.0119, -0.0010,  0.0136, -0.0074, -0.0065,  0.0099,  0.0212,
+        -0.0340,  0.0501], device='cuda:0'), grad: tensor([-0.0179, -0.0124, -0.0436,  0.0193, -0.0374,  0.0033, -0.0209,  0.0006,
+         0.0588,  0.0504], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 449, time 216.47, cls_loss 0.4833 cls_loss_mapping 0.0009 cls_loss_causal 0.4515 re_mapping 0.0040 re_causal 0.0122 /// teacc 99.02 lr 0.00001000
+Epoch 451, weight, value: tensor([[-0.0810,  0.0717, -0.1181,  ..., -0.1259, -0.1257,  0.0231],
+        [-0.0889, -0.1789,  0.0098,  ..., -0.0536, -0.0386, -0.1167],
+        [ 0.0308, -0.1003,  0.0571,  ...,  0.1638, -0.1439, -0.0396],
+        ...,
+        [-0.1250, -0.2198,  0.0885,  ..., -0.0156, -0.0552,  0.0761],
+        [ 0.0302,  0.0397, -0.0369,  ..., -0.0920, -0.1056, -0.0243],
+        [-0.1635, -0.0010, -0.0017,  ..., -0.1835,  0.1179,  0.0296]],
+       device='cuda:0'), grad: tensor([[ 6.0290e-05,  2.0012e-05, -1.0767e-03,  ..., -9.5415e-04,
+         -2.4147e-03, -2.8915e-03],
+        [-7.7553e-03,  8.5263e-07,  1.8167e-04,  ...,  2.6870e-04,
+          6.1464e-04,  6.4898e-04],
+        [-1.4992e-03,  1.6168e-05, -2.6150e-03,  ..., -4.9324e-03,
+         -9.2850e-03, -1.4359e-02],
+        ...,
+        [ 1.8239e-04,  1.8645e-06,  9.1171e-04,  ...,  6.7902e-04,
+          1.3676e-03,  1.5936e-03],
+        [ 7.2746e-03,  8.4400e-05,  1.4818e-04,  ...,  3.1376e-04,
+          6.2609e-04,  5.5027e-04],
+        [ 8.2552e-05, -8.1658e-06,  6.5279e-04,  ...,  4.9496e-04,
+          8.5783e-04,  1.2350e-03]], device='cuda:0')
+Epoch 451, bias, value: tensor([ 0.0104,  0.0118, -0.0010,  0.0135, -0.0073, -0.0065,  0.0099,  0.0211,
+        -0.0338,  0.0500], device='cuda:0'), grad: tensor([-0.0102, -0.0666, -0.0101, -0.0094,  0.0201, -0.0419,  0.0193,  0.0266,
+         0.0491,  0.0232], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 450, time 216.60, cls_loss 0.4285 cls_loss_mapping 0.0008 cls_loss_causal 0.3956 re_mapping 0.0039 re_causal 0.0116 /// teacc 99.04 lr 0.00001000
+Epoch 452, weight, value: tensor([[-0.0810,  0.0716, -0.1182,  ..., -0.1259, -0.1257,  0.0230],
+        [-0.0889, -0.1789,  0.0097,  ..., -0.0537, -0.0387, -0.1168],
+        [ 0.0308, -0.1003,  0.0571,  ...,  0.1637, -0.1440, -0.0397],
+        ...,
+        [-0.1252, -0.2198,  0.0886,  ..., -0.0155, -0.0552,  0.0762],
+        [ 0.0303,  0.0398, -0.0369,  ..., -0.0919, -0.1056, -0.0244],
+        [-0.1634, -0.0011, -0.0017,  ..., -0.1836,  0.1179,  0.0296]],
+       device='cuda:0'), grad: tensor([[ 6.2525e-05,  5.3585e-05,  2.3097e-05,  ...,  8.5175e-05,
+          1.7059e-04,  3.9601e-04],
+        [ 2.4531e-06,  3.8669e-06,  5.4315e-06,  ...,  4.4137e-05,
+          1.4913e-04,  3.6597e-04],
+        [ 1.8632e-04,  1.3959e-04,  6.8486e-05,  ...,  1.2612e-04,
+          2.2602e-04,  4.2605e-04],
+        ...,
+        [ 6.6459e-05,  2.9659e-04,  5.4932e-04,  ...,  9.9689e-06,
+          1.3256e-03,  9.3412e-04],
+        [-3.9101e-03, -9.6607e-04,  1.7628e-05,  ...,  4.9710e-05,
+         -1.5574e-03,  3.8815e-04],
+        [ 3.5667e-03,  5.7888e-04, -7.5483e-04,  ...,  7.5877e-05,
+          1.8787e-04, -4.4012e-04]], device='cuda:0')
+Epoch 452, bias, value: tensor([ 0.0104,  0.0118, -0.0010,  0.0135, -0.0074, -0.0065,  0.0100,  0.0212,
+        -0.0339,  0.0502], device='cuda:0'), grad: tensor([ 0.0086,  0.0112,  0.0088,  0.0106, -0.0535,  0.0095,  0.0095, -0.0191,
+         0.0021,  0.0125], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 451, time 216.32, cls_loss 0.4682 cls_loss_mapping 0.0008 cls_loss_causal 0.4390 re_mapping 0.0040 re_causal 0.0121 /// teacc 99.03 lr 0.00001000
+Epoch 453, weight, value: tensor([[-0.0810,  0.0715, -0.1181,  ..., -0.1259, -0.1257,  0.0230],
+        [-0.0889, -0.1790,  0.0097,  ..., -0.0537, -0.0387, -0.1168],
+        [ 0.0310, -0.1002,  0.0572,  ...,  0.1638, -0.1439, -0.0395],
+        ...,
+        [-0.1253, -0.2199,  0.0886,  ..., -0.0155, -0.0552,  0.0760],
+        [ 0.0301,  0.0399, -0.0369,  ..., -0.0919, -0.1056, -0.0244],
+        [-0.1635, -0.0012, -0.0018,  ..., -0.1838,  0.1179,  0.0297]],
+       device='cuda:0'), grad: tensor([[ 7.1228e-05, -3.6550e-04,  1.4818e-04,  ...,  4.9210e-04,
+          2.9397e-04,  3.7313e-04],
+        [-8.2910e-05,  6.6221e-05,  5.1975e-04,  ..., -6.9666e-04,
+          9.9277e-04, -8.1825e-04],
+        [ 9.9182e-04,  2.5415e-04,  1.0109e-03,  ...,  3.9368e-03,
+          1.1892e-03,  2.7733e-03],
+        ...,
+        [-5.4121e-04,  3.1710e-05, -1.7729e-03,  ..., -2.8095e-03,
+         -3.2578e-03, -6.2408e-03],
+        [-8.8024e-04, -4.7517e-04, -6.8331e-04,  ...,  9.5785e-05,
+          5.1171e-05,  7.7343e-04],
+        [ 1.0967e-04,  1.2082e-04,  1.6665e-04,  ...,  4.5466e-04,
+          4.1842e-04,  7.0143e-04]], device='cuda:0')
+Epoch 453, bias, value: tensor([ 0.0104,  0.0118, -0.0009,  0.0135, -0.0073, -0.0066,  0.0100,  0.0210,
+        -0.0340,  0.0502], device='cuda:0'), grad: tensor([ 0.0108,  0.0147,  0.0037,  0.0157, -0.0440,  0.0362, -0.0125, -0.0474,
+         0.0087,  0.0140], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 452, time 216.66, cls_loss 0.4724 cls_loss_mapping 0.0008 cls_loss_causal 0.4421 re_mapping 0.0040 re_causal 0.0121 /// teacc 99.04 lr 0.00001000
+Epoch 454, weight, value: tensor([[-0.0810,  0.0715, -0.1181,  ..., -0.1260, -0.1257,  0.0230],
+        [-0.0889, -0.1792,  0.0099,  ..., -0.0536, -0.0388, -0.1169],
+        [ 0.0310, -0.1002,  0.0571,  ...,  0.1637, -0.1440, -0.0395],
+        ...,
+        [-0.1252, -0.2199,  0.0886,  ..., -0.0155, -0.0552,  0.0760],
+        [ 0.0302,  0.0400, -0.0368,  ..., -0.0918, -0.1056, -0.0244],
+        [-0.1633, -0.0011, -0.0017,  ..., -0.1837,  0.1180,  0.0298]],
+       device='cuda:0'), grad: tensor([[ 9.0837e-04,  6.7663e-04,  1.1623e-04,  ..., -3.6731e-06,
+         -1.2960e-03,  7.8917e-04],
+        [ 5.0783e-04,  2.9778e-04,  1.7381e-04,  ...,  6.9849e-09,
+         -8.6832e-04,  4.2076e-03],
+        [ 1.0605e-03,  7.4387e-04,  4.3297e-03,  ...,  1.8951e-02,
+          9.8610e-04,  1.7410e-02],
+        ...,
+        [ 9.5701e-04,  9.9421e-05, -5.9624e-03,  ..., -1.9577e-02,
+          3.0651e-03, -3.2837e-02],
+        [ 3.2749e-03,  2.5024e-03,  9.5797e-04,  ...,  7.0572e-05,
+          1.7347e-03,  2.7237e-03],
+        [-1.6623e-03,  2.0850e-04, -1.7834e-03,  ...,  1.8513e-04,
+         -6.3248e-03, -2.5024e-03]], device='cuda:0')
+Epoch 454, bias, value: tensor([ 0.0106,  0.0118, -0.0009,  0.0137, -0.0073, -0.0066,  0.0098,  0.0209,
+        -0.0339,  0.0501], device='cuda:0'), grad: tensor([-0.0133, -0.0083,  0.0523,  0.0215,  0.0312, -0.0011, -0.0126, -0.0652,
+         0.0002, -0.0046], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 453, time 216.73, cls_loss 0.4634 cls_loss_mapping 0.0009 cls_loss_causal 0.4359 re_mapping 0.0040 re_causal 0.0119 /// teacc 99.01 lr 0.00001000
+Epoch 455, weight, value: tensor([[-0.0811,  0.0714, -0.1180,  ..., -0.1260, -0.1256,  0.0231],
+        [-0.0888, -0.1790,  0.0098,  ..., -0.0536, -0.0387, -0.1169],
+        [ 0.0311, -0.1001,  0.0572,  ...,  0.1637, -0.1440, -0.0396],
+        ...,
+        [-0.1253, -0.2197,  0.0885,  ..., -0.0154, -0.0553,  0.0761],
+        [ 0.0300,  0.0398, -0.0367,  ..., -0.0918, -0.1056, -0.0245],
+        [-0.1633, -0.0012, -0.0018,  ..., -0.1837,  0.1180,  0.0296]],
+       device='cuda:0'), grad: tensor([[ 1.4186e-04, -4.5156e-04,  1.4865e-04,  ...,  6.8665e-05,
+          7.4482e-04,  4.7040e-04],
+        [ 1.9407e-04,  1.6832e-04,  2.3448e-04,  ..., -7.7486e-04,
+          7.4053e-04, -4.9973e-04],
+        [ 2.6965e-04,  2.8324e-04,  4.3392e-04,  ...,  1.1082e-03,
+          7.9966e-04,  1.4572e-03],
+        ...,
+        [ 3.3236e-04,  3.1686e-04,  4.4417e-04,  ...,  3.2043e-04,
+          1.1816e-03,  1.0386e-03],
+        [ 2.5902e-03, -7.2575e-04, -6.8378e-04,  ..., -8.1205e-04,
+         -4.4274e-04,  3.6192e-04],
+        [ 5.5981e-04,  1.8673e-06, -3.3226e-03,  ..., -7.0763e-04,
+         -2.4624e-03, -2.4872e-03]], device='cuda:0')
+Epoch 455, bias, value: tensor([ 0.0107,  0.0119, -0.0009,  0.0137, -0.0074, -0.0065,  0.0097,  0.0209,
+        -0.0340,  0.0501], device='cuda:0'), grad: tensor([ 0.0212,  0.0230,  0.0297, -0.0010, -0.0105, -0.1033,  0.0238,  0.0302,
+        -0.0072, -0.0059], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 454, time 216.65, cls_loss 0.4510 cls_loss_mapping 0.0008 cls_loss_causal 0.4208 re_mapping 0.0039 re_causal 0.0114 /// teacc 99.05 lr 0.00001000
+Epoch 456, weight, value: tensor([[-0.0811,  0.0714, -0.1180,  ..., -0.1260, -0.1255,  0.0231],
+        [-0.0887, -0.1789,  0.0096,  ..., -0.0536, -0.0388, -0.1168],
+        [ 0.0310, -0.1001,  0.0572,  ...,  0.1638, -0.1440, -0.0396],
+        ...,
+        [-0.1254, -0.2197,  0.0885,  ..., -0.0154, -0.0553,  0.0761],
+        [ 0.0298,  0.0398, -0.0367,  ..., -0.0920, -0.1057, -0.0245],
+        [-0.1633, -0.0014, -0.0017,  ..., -0.1837,  0.1179,  0.0297]],
+       device='cuda:0'), grad: tensor([[ 7.5150e-04,  1.0498e-05, -8.4591e-04,  ...,  1.7369e-04,
+          4.3893e-04,  9.9945e-04],
+        [ 2.0754e-04,  4.0717e-06,  2.2328e-04,  ..., -8.5473e-05,
+          3.7837e-04,  1.0786e-03],
+        [ 9.3222e-04,  1.6540e-05, -2.1210e-03,  ..., -1.9350e-03,
+         -1.7653e-03,  1.0366e-03],
+        ...,
+        [ 1.0166e-03,  8.8364e-06, -1.3885e-02,  ..., -2.6188e-03,
+         -5.8212e-03, -1.6998e-02],
+        [ 8.3637e-04,  1.1700e-04,  5.4646e-04,  ...,  3.8862e-04,
+          7.7295e-04,  9.5797e-04],
+        [ 5.0354e-04,  2.2650e-05,  1.4000e-03,  ...,  4.8470e-04,
+         -1.7395e-03,  1.9007e-03]], device='cuda:0')
+Epoch 456, bias, value: tensor([ 0.0106,  0.0119, -0.0009,  0.0137, -0.0074, -0.0065,  0.0097,  0.0209,
+        -0.0339,  0.0501], device='cuda:0'), grad: tensor([ 0.0114, -0.0097, -0.0381,  0.0009,  0.0521, -0.0019,  0.0238, -0.0437,
+        -0.0025,  0.0076], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 455, time 216.18, cls_loss 0.4095 cls_loss_mapping 0.0007 cls_loss_causal 0.3793 re_mapping 0.0042 re_causal 0.0119 /// teacc 99.04 lr 0.00001000
+Epoch 457, weight, value: tensor([[-0.0810,  0.0714, -0.1181,  ..., -0.1259, -0.1255,  0.0232],
+        [-0.0888, -0.1791,  0.0096,  ..., -0.0536, -0.0387, -0.1169],
+        [ 0.0309, -0.1000,  0.0571,  ...,  0.1638, -0.1441, -0.0398],
+        ...,
+        [-0.1254, -0.2198,  0.0886,  ..., -0.0154, -0.0553,  0.0763],
+        [ 0.0297,  0.0399, -0.0366,  ..., -0.0921, -0.1057, -0.0245],
+        [-0.1633, -0.0015, -0.0018,  ..., -0.1837,  0.1179,  0.0297]],
+       device='cuda:0'), grad: tensor([[ 9.3579e-06, -1.6093e-06,  1.3697e-04,  ...,  1.1909e-04,
+          4.5389e-05,  1.1194e-04],
+        [ 1.1019e-05,  2.3637e-06,  1.5748e-04,  ...,  2.4498e-05,
+          7.5817e-05,  2.8253e-04],
+        [ 1.8820e-05,  1.2353e-05,  2.3115e-04,  ...,  1.4334e-03,
+          4.5776e-04,  1.3390e-03],
+        ...,
+        [ 1.3717e-05,  1.8580e-06, -2.0866e-03,  ..., -4.2033e-04,
+         -1.0643e-03, -4.1866e-04],
+        [-2.4259e-05, -3.3647e-05,  3.3545e-04,  ...,  2.7275e-04,
+          9.8288e-05,  2.5868e-04],
+        [-1.5283e-04,  4.9062e-06, -1.5819e-04,  ...,  2.6250e-04,
+          6.4671e-05,  1.0198e-04]], device='cuda:0')
+Epoch 457, bias, value: tensor([ 0.0107,  0.0120, -0.0009,  0.0135, -0.0074, -0.0065,  0.0096,  0.0210,
+        -0.0339,  0.0500], device='cuda:0'), grad: tensor([ 0.0155,  0.0188,  0.0252, -0.0681,  0.0190,  0.0155, -0.0139, -0.0157,
+         0.0193, -0.0158], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 456, time 217.25, cls_loss 0.4391 cls_loss_mapping 0.0007 cls_loss_causal 0.4055 re_mapping 0.0040 re_causal 0.0120 /// teacc 98.99 lr 0.00001000
+Epoch 458, weight, value: tensor([[-0.0809,  0.0714, -0.1182,  ..., -0.1259, -0.1255,  0.0232],
+        [-0.0888, -0.1791,  0.0094,  ..., -0.0536, -0.0387, -0.1169],
+        [ 0.0308, -0.1001,  0.0569,  ...,  0.1636, -0.1441, -0.0397],
+        ...,
+        [-0.1255, -0.2198,  0.0887,  ..., -0.0152, -0.0553,  0.0764],
+        [ 0.0298,  0.0400, -0.0364,  ..., -0.0919, -0.1056, -0.0245],
+        [-0.1635, -0.0015, -0.0018,  ..., -0.1836,  0.1178,  0.0296]],
+       device='cuda:0'), grad: tensor([[-1.4126e-04, -6.0921e-03, -8.3237e-03,  ..., -5.9357e-03,
+         -1.5478e-03, -3.5973e-03],
+        [ 1.3046e-05,  1.1545e-04,  3.1143e-05,  ..., -2.2948e-04,
+         -2.7313e-03,  6.2561e-04],
+        [-3.7193e-05,  4.4203e-04,  3.7819e-05,  ..., -3.8385e-05,
+          4.0364e-04,  4.8184e-04],
+        ...,
+        [ 2.1279e-05,  2.3806e-04,  2.2113e-04,  ...,  2.3580e-04,
+          9.1696e-04,  8.1444e-04],
+        [ 3.6955e-04, -1.3294e-03,  3.9667e-05,  ...,  1.1855e-04,
+          3.6120e-04, -9.0456e-04],
+        [ 1.3316e-04,  6.2485e-03,  8.2016e-03,  ...,  6.0272e-03,
+          1.4334e-03,  1.0729e-03]], device='cuda:0')
+Epoch 458, bias, value: tensor([ 0.0107,  0.0118, -0.0009,  0.0136, -0.0073, -0.0066,  0.0096,  0.0211,
+        -0.0338,  0.0500], device='cuda:0'), grad: tensor([-0.0542, -0.0143,  0.0069,  0.0079,  0.0083,  0.0052,  0.0085,  0.0110,
+        -0.0204,  0.0412], device='cuda:0')
+100
+1e-05
+changing lr
+---------------------saving model at epoch 457----------------------------------------------------
+epoch 457, time 217.69, cls_loss 0.4512 cls_loss_mapping 0.0009 cls_loss_causal 0.4250 re_mapping 0.0041 re_causal 0.0119 /// teacc 99.11 lr 0.00001000
+Epoch 459, weight, value: tensor([[-0.0811,  0.0712, -0.1182,  ..., -0.1260, -0.1255,  0.0231],
+        [-0.0888, -0.1791,  0.0094,  ..., -0.0535, -0.0386, -0.1169],
+        [ 0.0308, -0.1000,  0.0570,  ...,  0.1636, -0.1440, -0.0398],
+        ...,
+        [-0.1254, -0.2198,  0.0887,  ..., -0.0151, -0.0553,  0.0764],
+        [ 0.0297,  0.0399, -0.0365,  ..., -0.0920, -0.1055, -0.0246],
+        [-0.1633, -0.0015, -0.0018,  ..., -0.1838,  0.1179,  0.0296]],
+       device='cuda:0'), grad: tensor([[ 1.5354e-04,  1.0324e-04,  5.2378e-06,  ...,  5.8937e-04,
+          1.0538e-04,  2.6608e-04],
+        [ 4.6039e-04,  8.6904e-05,  4.5443e-04,  ...,  3.0327e-04,
+         -8.2111e-04, -2.4242e-03],
+        [ 2.2774e-03,  6.5565e-04,  1.4901e-04,  ...,  3.8738e-03,
+          3.8815e-04,  4.3631e-04],
+        ...,
+        [-5.4359e-05, -3.8123e-04, -9.7656e-04,  ...,  1.2469e-04,
+          1.1468e-04,  2.9016e-04],
+        [-4.8518e-04,  2.2221e-04,  3.8356e-05,  ...,  6.9857e-04,
+          1.3685e-04, -1.4853e-04],
+        [ 5.1200e-05, -1.2192e-02, -2.8870e-02,  ..., -8.7280e-03,
+         -4.6600e-02, -2.9434e-02]], device='cuda:0')
+Epoch 459, bias, value: tensor([ 0.0105,  0.0118, -0.0008,  0.0136, -0.0071, -0.0067,  0.0096,  0.0210,
+        -0.0338,  0.0500], device='cuda:0'), grad: tensor([ 0.0087, -0.0213,  0.0281,  0.0161,  0.0387, -0.0174, -0.0106, -0.0253,
+         0.0053, -0.0223], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 458, time 217.04, cls_loss 0.4415 cls_loss_mapping 0.0009 cls_loss_causal 0.4134 re_mapping 0.0040 re_causal 0.0116 /// teacc 99.05 lr 0.00001000
+Epoch 460, weight, value: tensor([[-0.0811,  0.0713, -0.1184,  ..., -0.1260, -0.1255,  0.0231],
+        [-0.0887, -0.1790,  0.0093,  ..., -0.0533, -0.0387, -0.1169],
+        [ 0.0308, -0.1002,  0.0568,  ...,  0.1633, -0.1442, -0.0399],
+        ...,
+        [-0.1253, -0.2198,  0.0888,  ..., -0.0150, -0.0553,  0.0765],
+        [ 0.0299,  0.0399, -0.0365,  ..., -0.0921, -0.1054, -0.0247],
+        [-0.1633, -0.0016, -0.0018,  ..., -0.1835,  0.1179,  0.0297]],
+       device='cuda:0'), grad: tensor([[ 6.8398e-03,  5.6148e-05,  8.3208e-05,  ...,  2.0534e-05,
+          2.2662e-04,  9.7809e-03],
+        [-1.4260e-05,  8.7738e-05,  9.4175e-05,  ...,  2.2233e-05,
+          2.7657e-04,  7.4720e-04],
+        [ 1.3399e-03,  4.7398e-04,  2.2423e-04,  ...,  1.0878e-04,
+          4.3416e-04, -3.4976e-04],
+        ...,
+        [ 3.5453e-04,  7.6175e-05, -1.8120e-03,  ...,  2.5108e-05,
+          7.5436e-04,  1.3447e-03],
+        [-3.0842e-03, -1.3494e-03,  5.2929e-04,  ...,  2.5243e-05,
+          9.9480e-05,  1.3437e-03],
+        [-7.0691e-05, -2.1255e-04,  3.8314e-04,  ...,  1.8191e-04,
+         -8.2207e-04,  1.5621e-03]], device='cuda:0')
+Epoch 460, bias, value: tensor([ 0.0105,  0.0118, -0.0010,  0.0137, -0.0071, -0.0066,  0.0096,  0.0210,
+        -0.0338,  0.0500], device='cuda:0'), grad: tensor([ 0.0354, -0.0156, -0.0117,  0.0226, -0.0154, -0.0116,  0.0189, -0.0008,
+        -0.0117, -0.0102], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 459, time 217.71, cls_loss 0.4337 cls_loss_mapping 0.0008 cls_loss_causal 0.4055 re_mapping 0.0039 re_causal 0.0113 /// teacc 99.01 lr 0.00001000
+Epoch 461, weight, value: tensor([[-0.0810,  0.0715, -0.1182,  ..., -0.1259, -0.1254,  0.0233],
+        [-0.0888, -0.1790,  0.0093,  ..., -0.0533, -0.0387, -0.1168],
+        [ 0.0309, -0.1001,  0.0568,  ...,  0.1633, -0.1441, -0.0398],
+        ...,
+        [-0.1253, -0.2200,  0.0889,  ..., -0.0150, -0.0555,  0.0764],
+        [ 0.0297,  0.0398, -0.0366,  ..., -0.0921, -0.1054, -0.0247],
+        [-0.1632, -0.0016, -0.0017,  ..., -0.1835,  0.1180,  0.0297]],
+       device='cuda:0'), grad: tensor([[-1.4648e-03, -5.0278e-03,  1.3161e-04,  ...,  3.5405e-05,
+         -2.2912e-04,  9.0599e-05],
+        [ 8.5413e-05,  1.3900e-04,  6.6662e-04,  ...,  7.2777e-05,
+          4.8876e-04,  4.9162e-04],
+        [-2.8801e-04,  1.1253e-04,  6.7472e-04,  ..., -7.7426e-05,
+          3.8338e-04, -2.2221e-04],
+        ...,
+        [ 1.1845e-03,  5.7131e-05,  2.0719e-04,  ..., -1.5152e-04,
+         -3.0651e-03, -4.2610e-03],
+        [ 5.8317e-04,  8.3590e-04,  5.5408e-04,  ...,  7.8738e-05,
+          6.8951e-04,  4.6992e-04],
+        [ 2.6536e-04,  2.1625e-04, -4.7951e-03,  ..., -2.1470e-04,
+          4.8590e-04,  1.8368e-03]], device='cuda:0')
+Epoch 461, bias, value: tensor([ 0.0106,  0.0118, -0.0009,  0.0136, -0.0071, -0.0065,  0.0095,  0.0210,
+        -0.0338,  0.0500], device='cuda:0'), grad: tensor([-0.0080,  0.0269,  0.0197, -0.0050,  0.0274, -0.0221,  0.0431, -0.0285,
+        -0.0390, -0.0145], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 460, time 217.06, cls_loss 0.4530 cls_loss_mapping 0.0008 cls_loss_causal 0.4268 re_mapping 0.0039 re_causal 0.0115 /// teacc 99.04 lr 0.00001000
+Epoch 462, weight, value: tensor([[-0.0811,  0.0714, -0.1183,  ..., -0.1259, -0.1256,  0.0232],
+        [-0.0889, -0.1791,  0.0093,  ..., -0.0532, -0.0388, -0.1168],
+        [ 0.0310, -0.0999,  0.0570,  ...,  0.1635, -0.1440, -0.0397],
+        ...,
+        [-0.1254, -0.2200,  0.0887,  ..., -0.0151, -0.0556,  0.0763],
+        [ 0.0298,  0.0398, -0.0366,  ..., -0.0921, -0.1054, -0.0245],
+        [-0.1632, -0.0015, -0.0016,  ..., -0.1836,  0.1182,  0.0298]],
+       device='cuda:0'), grad: tensor([[-0.0002, -0.0075,  0.0006,  ..., -0.0024,  0.0010,  0.0008],
+        [ 0.0001,  0.0002,  0.0003,  ...,  0.0011, -0.0053, -0.0038],
+        [ 0.0005,  0.0010,  0.0006,  ...,  0.0028,  0.0004,  0.0006],
+        ...,
+        [-0.0004, -0.0007, -0.0034,  ..., -0.0001, -0.0027,  0.0005],
+        [ 0.0028,  0.0057, -0.0084,  ...,  0.0012,  0.0008, -0.0014],
+        [ 0.0004,  0.0008,  0.0082,  ...,  0.0021,  0.0018,  0.0010]],
+       device='cuda:0')
+Epoch 462, bias, value: tensor([ 0.0104,  0.0118, -0.0008,  0.0135, -0.0071, -0.0064,  0.0096,  0.0210,
+        -0.0337,  0.0500], device='cuda:0'), grad: tensor([ 0.0267, -0.0100, -0.0082, -0.0064, -0.0146, -0.0024,  0.0142, -0.0161,
+        -0.0286,  0.0453], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 461, time 216.71, cls_loss 0.4449 cls_loss_mapping 0.0008 cls_loss_causal 0.4189 re_mapping 0.0041 re_causal 0.0119 /// teacc 99.03 lr 0.00001000
+Epoch 463, weight, value: tensor([[-0.0810,  0.0715, -0.1184,  ..., -0.1259, -0.1257,  0.0232],
+        [-0.0887, -0.1791,  0.0092,  ..., -0.0533, -0.0387, -0.1169],
+        [ 0.0309, -0.1000,  0.0569,  ...,  0.1635, -0.1441, -0.0397],
+        ...,
+        [-0.1254, -0.2201,  0.0888,  ..., -0.0151, -0.0556,  0.0763],
+        [ 0.0299,  0.0398, -0.0367,  ..., -0.0922, -0.1053, -0.0245],
+        [-0.1632, -0.0017, -0.0016,  ..., -0.1836,  0.1182,  0.0299]],
+       device='cuda:0'), grad: tensor([[-2.6870e-04, -1.3962e-03,  1.3363e-04,  ..., -8.0019e-06,
+          1.0204e-03,  6.9904e-04],
+        [ 1.7357e-04,  7.6890e-05,  1.3936e-04,  ...,  2.2280e-04,
+          5.1641e-04,  7.8773e-04],
+        [ 1.1616e-03,  5.5075e-04,  1.3828e-03,  ...,  6.9809e-04,
+          4.4727e-04,  1.1663e-03],
+        ...,
+        [ 6.2084e-04,  1.2712e-03,  2.0180e-03,  ...,  1.1930e-03,
+          1.4219e-03,  2.9106e-03],
+        [-1.9760e-02,  3.9148e-04,  6.1417e-04,  ...,  4.0579e-04,
+          1.0252e-03,  2.3232e-03],
+        [-2.5034e-05, -2.0084e-03, -3.2959e-03,  ..., -1.9588e-03,
+         -1.5659e-03, -8.3084e-03]], device='cuda:0')
+Epoch 463, bias, value: tensor([ 0.0104,  0.0118, -0.0009,  0.0135, -0.0071, -0.0063,  0.0094,  0.0209,
+        -0.0337,  0.0501], device='cuda:0'), grad: tensor([-0.0077,  0.0186,  0.0339,  0.0028, -0.0174,  0.0372,  0.0342,  0.0019,
+         0.0013, -0.1049], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 462, time 217.80, cls_loss 0.4521 cls_loss_mapping 0.0009 cls_loss_causal 0.4247 re_mapping 0.0039 re_causal 0.0118 /// teacc 99.02 lr 0.00001000
+Epoch 464, weight, value: tensor([[-0.0809,  0.0717, -0.1183,  ..., -0.1257, -0.1256,  0.0232],
+        [-0.0887, -0.1790,  0.0092,  ..., -0.0533, -0.0387, -0.1169],
+        [ 0.0310, -0.1001,  0.0567,  ...,  0.1633, -0.1442, -0.0398],
+        ...,
+        [-0.1253, -0.2200,  0.0889,  ..., -0.0150, -0.0555,  0.0764],
+        [ 0.0300,  0.0398, -0.0367,  ..., -0.0923, -0.1053, -0.0246],
+        [-0.1633, -0.0017, -0.0015,  ..., -0.1836,  0.1182,  0.0299]],
+       device='cuda:0'), grad: tensor([[-4.4942e-04, -5.4789e-04,  1.0128e-07,  ...,  6.0940e-04,
+          5.3197e-06, -4.0627e-04],
+        [ 7.2327e-03,  3.4199e-03,  1.3672e-06,  ...,  8.2003e-07,
+          2.3003e-03,  1.0967e-05],
+        [ 3.1757e-04,  1.5211e-04,  1.2410e-07,  ...,  1.7956e-06,
+          2.7101e-06,  1.2326e-04],
+        ...,
+        [ 1.1422e-05,  1.8522e-05,  1.1645e-05,  ...,  1.2964e-06,
+          3.0726e-05,  1.6242e-05],
+        [-7.7477e-03, -3.3569e-03,  2.9188e-06,  ...,  1.0524e-06,
+         -2.2831e-03,  1.4901e-05],
+        [ 3.9160e-05,  1.8477e-05, -6.3255e-06,  ...,  3.4958e-05,
+          1.5092e-04,  8.7440e-05]], device='cuda:0')
+Epoch 464, bias, value: tensor([ 0.0106,  0.0118, -0.0011,  0.0136, -0.0071, -0.0064,  0.0093,  0.0209,
+        -0.0337,  0.0502], device='cuda:0'), grad: tensor([ 0.0053,  0.0042,  0.0064,  0.0068,  0.0034,  0.0059,  0.0078,  0.0070,
+        -0.0230, -0.0238], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 463, time 217.88, cls_loss 0.4424 cls_loss_mapping 0.0008 cls_loss_causal 0.4202 re_mapping 0.0040 re_causal 0.0116 /// teacc 99.03 lr 0.00001000
+Epoch 465, weight, value: tensor([[-0.0812,  0.0715, -0.1182,  ..., -0.1258, -0.1257,  0.0233],
+        [-0.0885, -0.1790,  0.0092,  ..., -0.0534, -0.0386, -0.1167],
+        [ 0.0311, -0.1001,  0.0567,  ...,  0.1633, -0.1441, -0.0397],
+        ...,
+        [-0.1253, -0.2201,  0.0889,  ..., -0.0150, -0.0555,  0.0764],
+        [ 0.0300,  0.0397, -0.0366,  ..., -0.0922, -0.1053, -0.0247],
+        [-0.1632, -0.0015, -0.0016,  ..., -0.1836,  0.1184,  0.0300]],
+       device='cuda:0'), grad: tensor([[ 3.3879e-04,  1.6708e-03, -3.0413e-05,  ..., -1.0500e-03,
+         -2.8753e-04,  6.1417e-03],
+        [ 2.4271e-04,  3.8838e-04,  9.4846e-06,  ...,  1.8644e-04,
+          7.0143e-04,  1.3113e-03],
+        [ 5.0592e-04,  6.1095e-05,  8.8751e-05,  ...,  2.4462e-04,
+          6.5374e-04,  1.9722e-03],
+        ...,
+        [ 2.0158e-04,  4.2349e-05, -2.1505e-04,  ...,  9.0539e-05,
+          2.5272e-04,  9.0790e-04],
+        [ 4.7255e-04,  1.5497e-04,  6.3658e-05,  ...,  1.8919e-04,
+          6.0701e-04,  2.1381e-03],
+        [ 3.1352e-04,  1.8692e-04,  5.3614e-05,  ...,  1.1593e-04,
+          4.0960e-04,  1.7166e-03]], device='cuda:0')
+Epoch 465, bias, value: tensor([ 0.0105,  0.0118, -0.0011,  0.0136, -0.0072, -0.0064,  0.0094,  0.0209,
+        -0.0336,  0.0502], device='cuda:0'), grad: tensor([-0.0093,  0.0023,  0.0218, -0.0091, -0.0699,  0.0180, -0.0057,  0.0143,
+         0.0201,  0.0176], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 464, time 217.88, cls_loss 0.4515 cls_loss_mapping 0.0009 cls_loss_causal 0.4242 re_mapping 0.0038 re_causal 0.0114 /// teacc 99.04 lr 0.00001000
+Epoch 466, weight, value: tensor([[-0.0812,  0.0716, -0.1181,  ..., -0.1259, -0.1255,  0.0232],
+        [-0.0887, -0.1792,  0.0092,  ..., -0.0533, -0.0386, -0.1167],
+        [ 0.0310, -0.1000,  0.0566,  ...,  0.1632, -0.1444, -0.0400],
+        ...,
+        [-0.1254, -0.2202,  0.0888,  ..., -0.0150, -0.0555,  0.0763],
+        [ 0.0301,  0.0398, -0.0366,  ..., -0.0922, -0.1054, -0.0248],
+        [-0.1631, -0.0016, -0.0016,  ..., -0.1837,  0.1184,  0.0300]],
+       device='cuda:0'), grad: tensor([[ 1.3518e-04,  2.8804e-05,  3.0780e-04,  ...,  1.4043e-04,
+          1.5271e-04,  4.1986e-04],
+        [ 1.0812e-04,  4.2766e-06,  3.2783e-04,  ...,  1.4234e-04,
+         -1.3981e-03,  4.8828e-04],
+        [ 2.3317e-04,  8.6486e-05,  4.7898e-04,  ...,  1.9479e-04,
+          1.8954e-04,  5.8556e-04],
+        ...,
+        [-7.8773e-04,  5.6177e-06, -2.7122e-03,  ..., -1.1349e-03,
+          1.8156e-04, -3.6201e-03],
+        [ 1.0860e-04,  2.3632e-03,  8.5974e-04,  ...,  1.7643e-04,
+          3.2082e-03,  7.4625e-04],
+        [ 1.0556e-04,  4.4861e-03,  1.1024e-03,  ...,  8.3089e-05,
+          5.9242e-03,  9.2745e-04]], device='cuda:0')
+Epoch 466, bias, value: tensor([ 0.0107,  0.0118, -0.0012,  0.0136, -0.0071, -0.0065,  0.0094,  0.0208,
+        -0.0336,  0.0502], device='cuda:0'), grad: tensor([ 0.0151, -0.0411,  0.0182,  0.0149,  0.0292,  0.0116, -0.0060, -0.0470,
+         0.0177, -0.0126], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 465, time 217.44, cls_loss 0.4386 cls_loss_mapping 0.0009 cls_loss_causal 0.4102 re_mapping 0.0039 re_causal 0.0118 /// teacc 99.09 lr 0.00001000
+Epoch 467, weight, value: tensor([[-0.0812,  0.0716, -0.1182,  ..., -0.1259, -0.1254,  0.0234],
+        [-0.0887, -0.1793,  0.0092,  ..., -0.0534, -0.0387, -0.1169],
+        [ 0.0310, -0.1000,  0.0569,  ...,  0.1633, -0.1443, -0.0400],
+        ...,
+        [-0.1253, -0.2202,  0.0888,  ..., -0.0151, -0.0555,  0.0763],
+        [ 0.0300,  0.0398, -0.0367,  ..., -0.0922, -0.1053, -0.0249],
+        [-0.1630, -0.0016, -0.0016,  ..., -0.1837,  0.1183,  0.0299]],
+       device='cuda:0'), grad: tensor([[ 8.1584e-06,  9.2089e-06,  1.4435e-07,  ...,  2.5928e-06,
+          4.1413e-04,  1.0338e-03],
+        [ 4.3124e-05,  5.0843e-05,  9.3877e-06,  ...,  1.1943e-05,
+          8.6212e-04,  1.3380e-03],
+        [-1.5007e-02,  3.1024e-05, -2.5369e-06,  ..., -6.2485e-03,
+          4.0078e-04, -1.6832e-03],
+        ...,
+        [ 1.0687e-04,  1.1139e-05, -1.0721e-05,  ...,  4.0650e-05,
+          2.6894e-04, -3.8971e-02],
+        [ 6.6936e-05,  3.6955e-05,  9.2387e-06,  ...,  8.7440e-05,
+          7.4863e-04,  1.1969e-03],
+        [-1.3091e-05, -1.2481e-04, -3.0115e-05,  ...,  1.2822e-05,
+         -4.9448e-04,  4.0741e-02]], device='cuda:0')
+Epoch 467, bias, value: tensor([ 0.0107,  0.0118, -0.0011,  0.0135, -0.0071, -0.0064,  0.0093,  0.0208,
+        -0.0337,  0.0503], device='cuda:0'), grad: tensor([ 0.0173,  0.0217, -0.0309, -0.0285, -0.0414,  0.0171,  0.0246, -0.0433,
+         0.0178,  0.0456], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 466, time 217.20, cls_loss 0.4512 cls_loss_mapping 0.0007 cls_loss_causal 0.4160 re_mapping 0.0040 re_causal 0.0118 /// teacc 99.03 lr 0.00001000
+Epoch 468, weight, value: tensor([[-0.0811,  0.0717, -0.1183,  ..., -0.1260, -0.1256,  0.0233],
+        [-0.0887, -0.1793,  0.0093,  ..., -0.0533, -0.0386, -0.1168],
+        [ 0.0308, -0.1002,  0.0569,  ...,  0.1631, -0.1443, -0.0400],
+        ...,
+        [-0.1253, -0.2202,  0.0887,  ..., -0.0152, -0.0555,  0.0764],
+        [ 0.0301,  0.0399, -0.0367,  ..., -0.0919, -0.1052, -0.0250],
+        [-0.1631, -0.0016, -0.0016,  ..., -0.1837,  0.1184,  0.0298]],
+       device='cuda:0'), grad: tensor([[ 8.1122e-05,  9.9838e-05,  2.5518e-06,  ...,  6.7711e-05,
+          6.7234e-04,  1.5574e-03],
+        [ 1.5711e-06,  4.6827e-06,  7.8902e-06,  ...,  3.9041e-06,
+          4.9114e-04,  1.5554e-03],
+        [ 4.4966e-04,  5.4026e-04,  1.9461e-05,  ...,  3.6430e-04,
+          1.3247e-03,  1.6699e-03],
+        ...,
+        [ 2.2292e-05,  3.7819e-05, -1.4353e-04,  ..., -3.3766e-05,
+          1.2827e-03,  2.8915e-03],
+        [ 2.7359e-05,  4.4614e-05,  7.6741e-06,  ...,  7.8201e-05,
+          5.9271e-04,  1.5440e-03],
+        [ 5.1260e-05,  1.8373e-05,  8.8215e-05,  ...,  1.0371e-04,
+         -7.2823e-03, -6.3858e-03]], device='cuda:0')
+Epoch 468, bias, value: tensor([ 0.0107,  0.0121, -0.0012,  0.0135, -0.0072, -0.0065,  0.0093,  0.0208,
+        -0.0336,  0.0502], device='cuda:0'), grad: tensor([ 0.0186, -0.0090, -0.0452,  0.0145, -0.0459,  0.0226,  0.0153,  0.0237,
+         0.0159, -0.0106], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 467, time 217.70, cls_loss 0.4428 cls_loss_mapping 0.0007 cls_loss_causal 0.4199 re_mapping 0.0039 re_causal 0.0117 /// teacc 99.04 lr 0.00001000
+Epoch 469, weight, value: tensor([[-0.0811,  0.0718, -0.1183,  ..., -0.1260, -0.1255,  0.0234],
+        [-0.0888, -0.1793,  0.0094,  ..., -0.0532, -0.0386, -0.1168],
+        [ 0.0308, -0.1002,  0.0568,  ...,  0.1630, -0.1443, -0.0400],
+        ...,
+        [-0.1253, -0.2202,  0.0888,  ..., -0.0151, -0.0556,  0.0763],
+        [ 0.0302,  0.0400, -0.0365,  ..., -0.0919, -0.1050, -0.0249],
+        [-0.1629, -0.0015, -0.0016,  ..., -0.1837,  0.1184,  0.0299]],
+       device='cuda:0'), grad: tensor([[ 5.7936e-04, -9.0003e-05,  1.7881e-04,  ...,  2.6393e-04,
+          2.8625e-05,  1.5316e-03],
+        [-2.4527e-05, -4.2415e-04, -5.1594e-04,  ..., -2.7609e-04,
+         -2.9755e-03, -9.6970e-03],
+        [-3.1166e-03,  6.5947e-04,  1.2958e-04,  ...,  8.2541e-04,
+          9.8407e-05,  1.7042e-03],
+        ...,
+        [ 9.5272e-04,  4.5657e-05,  2.6875e-03,  ...,  1.2183e-04,
+          1.5535e-03, -1.9760e-03],
+        [ 5.3501e-04,  4.7827e-04,  6.2704e-04,  ...,  6.0749e-04,
+          2.1420e-03,  3.0766e-03],
+        [ 4.0817e-04,  4.5872e-04, -1.9474e-03,  ...,  1.1225e-03,
+         -1.1501e-03,  6.1035e-04]], device='cuda:0')
+Epoch 469, bias, value: tensor([ 0.0107,  0.0120, -0.0011,  0.0134, -0.0072, -0.0066,  0.0094,  0.0208,
+        -0.0336,  0.0502], device='cuda:0'), grad: tensor([-0.0096, -0.0249, -0.0065, -0.0100,  0.0253,  0.0186, -0.0319,  0.0245,
+         0.0303, -0.0157], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 468, time 217.14, cls_loss 0.4450 cls_loss_mapping 0.0009 cls_loss_causal 0.4216 re_mapping 0.0038 re_causal 0.0111 /// teacc 99.03 lr 0.00001000
+Epoch 470, weight, value: tensor([[-0.0811,  0.0717, -0.1183,  ..., -0.1261, -0.1255,  0.0235],
+        [-0.0887, -0.1792,  0.0095,  ..., -0.0533, -0.0384, -0.1166],
+        [ 0.0307, -0.1003,  0.0566,  ...,  0.1628, -0.1442, -0.0401],
+        ...,
+        [-0.1253, -0.2203,  0.0890,  ..., -0.0149, -0.0557,  0.0764],
+        [ 0.0302,  0.0400, -0.0366,  ..., -0.0918, -0.1051, -0.0250],
+        [-0.1628, -0.0014, -0.0016,  ..., -0.1836,  0.1185,  0.0300]],
+       device='cuda:0'), grad: tensor([[ 4.9133e-03,  3.2692e-03,  1.1975e-04,  ...,  2.3925e-04,
+          5.6744e-04,  9.1076e-04],
+        [ 5.9557e-04,  1.8644e-03, -6.5327e-04,  ...,  1.8096e-04,
+         -1.4019e-04, -2.3155e-03],
+        [ 2.2972e-04,  1.1176e-04,  1.4138e-04,  ...,  3.0112e-04,
+          6.3467e-04,  1.1044e-03],
+        ...,
+        [-1.0996e-03,  5.9366e-05, -3.8600e-04,  ..., -2.0256e-03,
+         -4.2191e-03, -4.6692e-03],
+        [ 1.0290e-03,  4.8904e-03,  8.7142e-05,  ...,  1.9467e-04,
+          1.7595e-03,  6.9332e-04],
+        [ 2.4271e-04, -2.1877e-03,  2.3031e-04,  ...,  1.4353e-04,
+         -8.7833e-04,  7.1049e-04]], device='cuda:0')
+Epoch 470, bias, value: tensor([ 0.0107,  0.0120, -0.0012,  0.0134, -0.0072, -0.0064,  0.0093,  0.0208,
+        -0.0336,  0.0502], device='cuda:0'), grad: tensor([ 0.0005, -0.0146, -0.0201,  0.0103,  0.0090,  0.0270, -0.0151, -0.0219,
+         0.0179,  0.0069], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 469, time 216.76, cls_loss 0.4299 cls_loss_mapping 0.0009 cls_loss_causal 0.4032 re_mapping 0.0038 re_causal 0.0112 /// teacc 99.04 lr 0.00001000
+Epoch 471, weight, value: tensor([[-0.0811,  0.0717, -0.1184,  ..., -0.1262, -0.1254,  0.0234],
+        [-0.0889, -0.1793,  0.0093,  ..., -0.0534, -0.0384, -0.1167],
+        [ 0.0309, -0.1003,  0.0566,  ...,  0.1629, -0.1442, -0.0400],
+        ...,
+        [-0.1254, -0.2203,  0.0891,  ..., -0.0149, -0.0557,  0.0764],
+        [ 0.0303,  0.0400, -0.0367,  ..., -0.0918, -0.1050, -0.0248],
+        [-0.1629, -0.0013, -0.0016,  ..., -0.1836,  0.1186,  0.0299]],
+       device='cuda:0'), grad: tensor([[-2.2203e-05,  3.6221e-03,  5.2929e-04,  ...,  1.1816e-03,
+          8.0633e-04,  2.2304e-04],
+        [ 1.6809e-05,  6.1274e-05,  1.3220e-04,  ..., -1.1015e-03,
+          4.4465e-04, -6.0558e-04],
+        [ 4.6521e-05,  3.2377e-04,  1.3041e-04,  ...,  4.1580e-04,
+          2.7370e-04,  4.0889e-04],
+        ...,
+        [-6.6340e-05,  1.3672e-05, -1.0614e-03,  ..., -1.2350e-03,
+         -2.4776e-03, -2.8095e-03],
+        [ 2.0564e-04,  7.0858e-04,  1.3733e-04,  ...,  3.7909e-04,
+          3.8815e-04,  3.1567e-04],
+        [ 4.0084e-05, -5.4092e-03,  9.9182e-03,  ...,  3.4981e-03,
+          2.0340e-02,  1.4969e-02]], device='cuda:0')
+Epoch 471, bias, value: tensor([ 0.0107,  0.0120, -0.0011,  0.0135, -0.0073, -0.0066,  0.0093,  0.0207,
+        -0.0335,  0.0503], device='cuda:0'), grad: tensor([ 0.0191, -0.0141,  0.0110,  0.0124, -0.0161, -0.0267,  0.0140, -0.0351,
+         0.0118,  0.0237], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 470, time 216.90, cls_loss 0.4655 cls_loss_mapping 0.0009 cls_loss_causal 0.4396 re_mapping 0.0039 re_causal 0.0117 /// teacc 99.03 lr 0.00001000
+Epoch 472, weight, value: tensor([[-0.0811,  0.0718, -0.1184,  ..., -0.1261, -0.1253,  0.0235],
+        [-0.0889, -0.1795,  0.0093,  ..., -0.0534, -0.0383, -0.1167],
+        [ 0.0308, -0.1004,  0.0567,  ...,  0.1628, -0.1443, -0.0401],
+        ...,
+        [-0.1253, -0.2204,  0.0889,  ..., -0.0149, -0.0557,  0.0764],
+        [ 0.0303,  0.0400, -0.0367,  ..., -0.0916, -0.1050, -0.0247],
+        [-0.1631, -0.0014, -0.0017,  ..., -0.1838,  0.1184,  0.0298]],
+       device='cuda:0'), grad: tensor([[ 1.2493e-04, -9.7454e-05,  6.3702e-06,  ...,  4.0755e-06,
+          8.2135e-05,  1.6183e-05],
+        [ 7.1228e-05,  1.1563e-04,  2.1517e-05,  ...,  2.0102e-05,
+         -2.9325e-05,  4.1397e-07],
+        [ 1.2326e-04,  2.3079e-04, -2.7633e-04,  ..., -2.6822e-04,
+          4.2975e-05,  4.8488e-05],
+        ...,
+        [ 1.3149e-04,  1.1367e-04,  5.1618e-05,  ...,  7.0572e-05,
+          4.0263e-05, -1.6010e-04],
+        [ 3.3402e-04,  2.3115e-04,  5.0306e-05,  ...,  4.7237e-05,
+          8.1837e-05,  7.2131e-07],
+        [ 1.0145e-04,  2.3282e-04,  2.0042e-05,  ...,  8.0839e-06,
+          4.9770e-05,  8.6010e-05]], device='cuda:0')
+Epoch 472, bias, value: tensor([ 0.0108,  0.0119, -0.0011,  0.0135, -0.0072, -0.0066,  0.0095,  0.0208,
+        -0.0335,  0.0500], device='cuda:0'), grad: tensor([ 0.0046,  0.0039, -0.0283,  0.0027,  0.0037, -0.0237,  0.0202,  0.0034,
+         0.0092,  0.0043], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 471, time 217.07, cls_loss 0.4307 cls_loss_mapping 0.0008 cls_loss_causal 0.3957 re_mapping 0.0039 re_causal 0.0112 /// teacc 99.06 lr 0.00001000
+Epoch 473, weight, value: tensor([[-0.0810,  0.0718, -0.1184,  ..., -0.1261, -0.1254,  0.0235],
+        [-0.0889, -0.1793,  0.0094,  ..., -0.0533, -0.0384, -0.1168],
+        [ 0.0309, -0.1001,  0.0567,  ...,  0.1629, -0.1440, -0.0401],
+        ...,
+        [-0.1254, -0.2206,  0.0888,  ..., -0.0151, -0.0558,  0.0762],
+        [ 0.0303,  0.0401, -0.0368,  ..., -0.0918, -0.1051, -0.0249],
+        [-0.1631, -0.0015, -0.0017,  ..., -0.1837,  0.1186,  0.0301]],
+       device='cuda:0'), grad: tensor([[ 1.1241e-04, -1.6136e-03, -1.7047e-04,  ...,  6.0230e-05,
+         -1.0138e-03, -1.1951e-04],
+        [-7.2384e-04,  2.7227e-04,  8.2731e-05,  ...,  7.1585e-05,
+          3.3689e-04, -3.3684e-03],
+        [-6.5446e-05,  1.1158e-04, -3.1900e-04,  ..., -1.0843e-03,
+          1.1325e-04,  7.5996e-05],
+        ...,
+        [ 1.9646e-04,  5.2810e-05,  2.4438e-04,  ...,  2.7108e-04,
+          3.0303e-04,  9.3031e-04],
+        [-4.8409e-03, -6.4011e-03,  3.4046e-04,  ...,  8.5175e-05,
+         -2.5845e-04,  9.4414e-04],
+        [-4.5013e-03, -6.2168e-05, -4.4060e-03,  ..., -1.2131e-03,
+         -1.3819e-03,  2.4605e-04]], device='cuda:0')
+Epoch 473, bias, value: tensor([ 0.0107,  0.0118, -0.0010,  0.0135, -0.0072, -0.0065,  0.0095,  0.0208,
+        -0.0336,  0.0501], device='cuda:0'), grad: tensor([ 0.0062, -0.0184,  0.0199,  0.0036, -0.0483, -0.0059,  0.0271,  0.0023,
+        -0.0045,  0.0178], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 472, time 217.02, cls_loss 0.4514 cls_loss_mapping 0.0008 cls_loss_causal 0.4233 re_mapping 0.0039 re_causal 0.0116 /// teacc 99.03 lr 0.00001000
+Epoch 474, weight, value: tensor([[-0.0809,  0.0718, -0.1184,  ..., -0.1260, -0.1253,  0.0237],
+        [-0.0889, -0.1794,  0.0094,  ..., -0.0533, -0.0384, -0.1168],
+        [ 0.0308, -0.1002,  0.0569,  ...,  0.1629, -0.1438, -0.0399],
+        ...,
+        [-0.1252, -0.2206,  0.0889,  ..., -0.0150, -0.0558,  0.0763],
+        [ 0.0303,  0.0402, -0.0368,  ..., -0.0918, -0.1052, -0.0250],
+        [-0.1632, -0.0015, -0.0017,  ..., -0.1837,  0.1186,  0.0301]],
+       device='cuda:0'), grad: tensor([[-1.0520e-04, -3.7909e-04,  7.7486e-05,  ...,  1.0669e-04,
+          1.8585e-04,  3.3569e-04],
+        [ 4.7445e-04,  1.8969e-05,  1.1683e-05,  ...,  1.5408e-05,
+          2.8551e-05,  1.3552e-03],
+        [ 4.4370e-04,  3.1352e-04,  8.1241e-05,  ...,  9.2685e-05,
+          1.8919e-04,  6.9904e-04],
+        ...,
+        [ 2.2185e-04,  2.8536e-05,  9.8133e-04,  ...,  3.1352e-05,
+          7.5865e-04, -1.5612e-03],
+        [ 3.0899e-04,  8.0526e-05,  5.4061e-05,  ...,  6.4552e-05,
+          1.2648e-04,  5.7745e-04],
+        [ 2.1327e-04,  1.2863e-04, -9.0837e-04,  ...,  1.2010e-04,
+         -5.1880e-04,  6.3753e-04]], device='cuda:0')
+Epoch 474, bias, value: tensor([ 0.0109,  0.0118, -0.0009,  0.0135, -0.0073, -0.0066,  0.0094,  0.0210,
+        -0.0336,  0.0501], device='cuda:0'), grad: tensor([ 0.0061,  0.0189,  0.0082,  0.0089, -0.0301,  0.0044,  0.0113, -0.0424,
+         0.0080,  0.0066], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 473, time 217.08, cls_loss 0.4582 cls_loss_mapping 0.0007 cls_loss_causal 0.4270 re_mapping 0.0039 re_causal 0.0119 /// teacc 99.03 lr 0.00001000
+Epoch 475, weight, value: tensor([[-0.0807,  0.0719, -0.1185,  ..., -0.1261, -0.1254,  0.0236],
+        [-0.0891, -0.1795,  0.0092,  ..., -0.0535, -0.0385, -0.1169],
+        [ 0.0310, -0.1003,  0.0568,  ...,  0.1629, -0.1438, -0.0399],
+        ...,
+        [-0.1253, -0.2207,  0.0890,  ..., -0.0150, -0.0557,  0.0764],
+        [ 0.0303,  0.0403, -0.0368,  ..., -0.0918, -0.1052, -0.0253],
+        [-0.1633, -0.0015, -0.0017,  ..., -0.1838,  0.1187,  0.0301]],
+       device='cuda:0'), grad: tensor([[ 1.6737e-04,  1.6463e-04,  1.5616e-04,  ...,  1.2696e-04,
+          5.5933e-04,  5.1498e-03],
+        [ 1.5986e-04,  1.1891e-04, -1.6749e-04,  ...,  1.1134e-04,
+          9.1887e-04,  2.6989e-03],
+        [ 2.8992e-04,  2.0683e-04,  2.5439e-04,  ...,  1.0258e-04,
+          4.5824e-04,  2.0790e-03],
+        ...,
+        [-8.4496e-04,  6.7472e-05,  9.0714e-03,  ...,  1.1625e-03,
+          3.3236e-04,  5.5313e-03],
+        [-4.6825e-04, -8.3542e-04,  2.0400e-05,  ..., -1.9431e-04,
+         -5.3072e-04,  5.2452e-03],
+        [ 5.9986e-04,  1.1581e-04, -1.0063e-02,  ..., -1.0548e-03,
+         -2.6855e-03, -2.5146e-02]], device='cuda:0')
+Epoch 475, bias, value: tensor([ 0.0109,  0.0117, -0.0010,  0.0134, -0.0073, -0.0065,  0.0094,  0.0210,
+        -0.0336,  0.0501], device='cuda:0'), grad: tensor([ 0.0232,  0.0261,  0.0185,  0.0260, -0.0367, -0.0184,  0.0185,  0.0127,
+        -0.0164, -0.0536], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 474, time 216.66, cls_loss 0.4195 cls_loss_mapping 0.0007 cls_loss_causal 0.3915 re_mapping 0.0039 re_causal 0.0115 /// teacc 99.06 lr 0.00001000
+Epoch 476, weight, value: tensor([[-0.0808,  0.0720, -0.1185,  ..., -0.1261, -0.1254,  0.0236],
+        [-0.0892, -0.1796,  0.0092,  ..., -0.0535, -0.0385, -0.1168],
+        [ 0.0311, -0.1003,  0.0568,  ...,  0.1630, -0.1438, -0.0399],
+        ...,
+        [-0.1253, -0.2209,  0.0890,  ..., -0.0149, -0.0558,  0.0764],
+        [ 0.0302,  0.0403, -0.0369,  ..., -0.0917, -0.1052, -0.0254],
+        [-0.1633, -0.0013, -0.0016,  ..., -0.1838,  0.1188,  0.0300]],
+       device='cuda:0'), grad: tensor([[ 2.7090e-05,  3.3468e-05,  5.4479e-05,  ...,  2.3901e-05,
+          4.8137e-04,  6.5804e-04],
+        [ 3.4869e-05,  9.1195e-06,  2.3484e-04,  ...,  1.2493e-04,
+          2.0599e-03, -2.7847e-03],
+        [-9.1672e-05,  4.2319e-05,  7.0333e-05,  ..., -4.6760e-05,
+         -9.8572e-03, -6.2981e-03],
+        ...,
+        [ 4.3869e-05,  2.9087e-04, -8.1539e-04,  ..., -1.1110e-03,
+          1.6432e-03,  1.0414e-03],
+        [ 2.2486e-05,  7.5817e-04,  2.0742e-04,  ...,  6.6280e-05,
+          2.2373e-03,  9.8419e-04],
+        [-4.8876e-04, -2.8820e-03, -1.4442e-02,  ..., -8.4639e-04,
+         -2.1469e-02, -1.5244e-02]], device='cuda:0')
+Epoch 476, bias, value: tensor([ 0.0109,  0.0118, -0.0010,  0.0135, -0.0072, -0.0065,  0.0093,  0.0210,
+        -0.0337,  0.0501], device='cuda:0'), grad: tensor([ 0.0052, -0.0153, -0.0517,  0.0103,  0.0453,  0.0122,  0.0138,  0.0011,
+         0.0092, -0.0301], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 475, time 216.97, cls_loss 0.4370 cls_loss_mapping 0.0009 cls_loss_causal 0.4068 re_mapping 0.0039 re_causal 0.0115 /// teacc 99.06 lr 0.00001000
+Epoch 477, weight, value: tensor([[-0.0807,  0.0720, -0.1186,  ..., -0.1262, -0.1255,  0.0236],
+        [-0.0892, -0.1795,  0.0093,  ..., -0.0535, -0.0385, -0.1169],
+        [ 0.0312, -0.1002,  0.0568,  ...,  0.1630, -0.1437, -0.0398],
+        ...,
+        [-0.1254, -0.2209,  0.0892,  ..., -0.0149, -0.0558,  0.0764],
+        [ 0.0302,  0.0405, -0.0369,  ..., -0.0919, -0.1052, -0.0255],
+        [-0.1632, -0.0012, -0.0016,  ..., -0.1837,  0.1188,  0.0300]],
+       device='cuda:0'), grad: tensor([[-0.0029, -0.0025,  0.0018,  ...,  0.0006,  0.0002,  0.0017],
+        [ 0.0059,  0.0003,  0.0002,  ...,  0.0002,  0.0001,  0.0009],
+        [ 0.0026,  0.0025,  0.0009,  ...,  0.0010,  0.0002,  0.0011],
+        ...,
+        [-0.0005, -0.0012, -0.0027,  ..., -0.0018, -0.0033, -0.0008],
+        [ 0.0076,  0.0054,  0.0007,  ...,  0.0006,  0.0006,  0.0010],
+        [ 0.0004,  0.0003,  0.0004,  ...,  0.0003,  0.0004, -0.0007]],
+       device='cuda:0')
+Epoch 477, bias, value: tensor([ 0.0109,  0.0118, -0.0009,  0.0135, -0.0074, -0.0066,  0.0094,  0.0210,
+        -0.0337,  0.0501], device='cuda:0'), grad: tensor([ 0.0119,  0.0278,  0.0170,  0.0136, -0.0188, -0.0157, -0.0053, -0.0222,
+         0.0145, -0.0229], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 476, time 216.55, cls_loss 0.4665 cls_loss_mapping 0.0008 cls_loss_causal 0.4428 re_mapping 0.0039 re_causal 0.0118 /// teacc 99.08 lr 0.00001000
+Epoch 478, weight, value: tensor([[-0.0809,  0.0718, -0.1188,  ..., -0.1264, -0.1254,  0.0236],
+        [-0.0894, -0.1796,  0.0092,  ..., -0.0535, -0.0387, -0.1172],
+        [ 0.0311, -0.1001,  0.0566,  ...,  0.1630, -0.1439, -0.0399],
+        ...,
+        [-0.1254, -0.2209,  0.0892,  ..., -0.0149, -0.0557,  0.0765],
+        [ 0.0303,  0.0406, -0.0367,  ..., -0.0916, -0.1052, -0.0256],
+        [-0.1631, -0.0012, -0.0016,  ..., -0.1837,  0.1188,  0.0300]],
+       device='cuda:0'), grad: tensor([[ 0.0002,  0.0003,  0.0005,  ...,  0.0006,  0.0017,  0.0014],
+        [ 0.0002,  0.0005,  0.0008,  ...,  0.0005,  0.0020,  0.0015],
+        [ 0.0012,  0.0013,  0.0015,  ...,  0.0022,  0.0026,  0.0023],
+        ...,
+        [ 0.0002, -0.0004, -0.0010,  ..., -0.0015, -0.0035, -0.0029],
+        [ 0.0006,  0.0013,  0.0008,  ...,  0.0009,  0.0027,  0.0020],
+        [-0.0015, -0.0028, -0.0002,  ..., -0.0021, -0.0051, -0.0043]],
+       device='cuda:0')
+Epoch 478, bias, value: tensor([ 0.0110,  0.0116, -0.0011,  0.0135, -0.0075, -0.0067,  0.0093,  0.0212,
+        -0.0335,  0.0503], device='cuda:0'), grad: tensor([ 0.0016,  0.0167,  0.0099, -0.0658,  0.0348,  0.0112, -0.0019, -0.0367,
+         0.0444, -0.0141], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 477, time 216.77, cls_loss 0.4505 cls_loss_mapping 0.0008 cls_loss_causal 0.4288 re_mapping 0.0040 re_causal 0.0119 /// teacc 99.05 lr 0.00001000
+Epoch 479, weight, value: tensor([[-0.0810,  0.0718, -0.1185,  ..., -0.1263, -0.1253,  0.0236],
+        [-0.0895, -0.1797,  0.0092,  ..., -0.0535, -0.0389, -0.1172],
+        [ 0.0311, -0.1001,  0.0566,  ...,  0.1630, -0.1439, -0.0400],
+        ...,
+        [-0.1256, -0.2210,  0.0891,  ..., -0.0150, -0.0557,  0.0765],
+        [ 0.0304,  0.0407, -0.0368,  ..., -0.0916, -0.1053, -0.0257],
+        [-0.1629, -0.0012, -0.0015,  ..., -0.1839,  0.1189,  0.0301]],
+       device='cuda:0'), grad: tensor([[-1.1879e-02, -1.1311e-03,  1.5144e-03,  ...,  1.6651e-03,
+         -1.4997e-04, -1.2276e-02],
+        [ 6.1005e-05,  8.3968e-06,  2.5702e-04,  ...,  3.5305e-03,
+          9.4354e-05,  6.0415e-04],
+        [ 3.0479e-03, -1.8275e-04, -3.8280e-03,  ..., -7.4654e-03,
+          1.7929e-04,  5.3482e-03],
+        ...,
+        [ 7.0238e-04,  4.5925e-05, -7.3004e-04,  ..., -2.5821e-04,
+          1.4019e-03, -2.4147e-03],
+        [ 1.9083e-03, -5.4588e-03,  6.6996e-05,  ...,  3.6087e-03,
+         -8.0414e-03, -3.6850e-03],
+        [ 1.5812e-03,  5.7297e-03, -7.3075e-05,  ..., -1.7509e-05,
+          4.0512e-03,  4.3106e-03]], device='cuda:0')
+Epoch 479, bias, value: tensor([ 0.0109,  0.0116, -0.0011,  0.0134, -0.0075, -0.0066,  0.0093,  0.0213,
+        -0.0337,  0.0504], device='cuda:0'), grad: tensor([-0.0345,  0.0332, -0.0654, -0.0113,  0.0247,  0.0500,  0.0039, -0.0319,
+         0.0182,  0.0133], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 478, time 216.96, cls_loss 0.4253 cls_loss_mapping 0.0008 cls_loss_causal 0.4042 re_mapping 0.0039 re_causal 0.0110 /// teacc 99.04 lr 0.00001000
+Epoch 480, weight, value: tensor([[-0.0809,  0.0717, -0.1185,  ..., -0.1263, -0.1254,  0.0238],
+        [-0.0895, -0.1798,  0.0092,  ..., -0.0536, -0.0387, -0.1172],
+        [ 0.0311, -0.1002,  0.0566,  ...,  0.1630, -0.1438, -0.0400],
+        ...,
+        [-0.1256, -0.2210,  0.0889,  ..., -0.0150, -0.0558,  0.0765],
+        [ 0.0303,  0.0407, -0.0367,  ..., -0.0916, -0.1052, -0.0257],
+        [-0.1630, -0.0013, -0.0016,  ..., -0.1841,  0.1188,  0.0300]],
+       device='cuda:0'), grad: tensor([[ 7.6828e-03,  1.0025e-02, -2.8229e-04,  ..., -4.6659e-04,
+         -5.3902e-03, -1.2350e-03],
+        [ 1.7166e-04,  2.5344e-04,  4.8971e-04,  ...,  1.4949e-04,
+          5.2691e-04,  3.1013e-03],
+        [-4.2038e-03,  3.5715e-04, -9.3794e-04,  ..., -1.6928e-03,
+         -7.0953e-04, -4.3640e-03],
+        ...,
+        [ 2.6679e-04,  2.5415e-04, -1.0014e-03,  ..., -7.8440e-05,
+         -1.2379e-03, -2.2423e-04],
+        [-8.5220e-03, -1.7075e-02,  3.2711e-04,  ...,  1.3266e-03,
+          5.1737e-04, -2.5085e-02],
+        [ 1.9825e-04,  3.7956e-04,  3.4666e-04,  ...,  1.2147e-04,
+          5.1498e-04,  1.1528e-02]], device='cuda:0')
+Epoch 480, bias, value: tensor([ 0.0108,  0.0116, -0.0010,  0.0135, -0.0075, -0.0067,  0.0094,  0.0212,
+        -0.0336,  0.0504], device='cuda:0'), grad: tensor([-0.0239,  0.0172, -0.0533,  0.0209,  0.0236,  0.0188,  0.0106,  0.0100,
+        -0.0479,  0.0242], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 479, time 216.76, cls_loss 0.4455 cls_loss_mapping 0.0008 cls_loss_causal 0.4177 re_mapping 0.0038 re_causal 0.0111 /// teacc 99.09 lr 0.00001000
+Epoch 481, weight, value: tensor([[-0.0807,  0.0717, -0.1185,  ..., -0.1264, -0.1255,  0.0237],
+        [-0.0895, -0.1798,  0.0092,  ..., -0.0537, -0.0387, -0.1172],
+        [ 0.0310, -0.1003,  0.0564,  ...,  0.1629, -0.1438, -0.0401],
+        ...,
+        [-0.1256, -0.2210,  0.0891,  ..., -0.0149, -0.0558,  0.0765],
+        [ 0.0305,  0.0408, -0.0366,  ..., -0.0915, -0.1052, -0.0255],
+        [-0.1631, -0.0012, -0.0016,  ..., -0.1841,  0.1188,  0.0300]],
+       device='cuda:0'), grad: tensor([[ 5.0664e-05,  1.5333e-05,  1.9586e-04,  ...,  1.7121e-05,
+          2.2858e-05,  3.5167e-04],
+        [ 1.8537e-04,  1.8179e-06,  1.1694e-04,  ...,  2.6539e-05,
+          1.6749e-05,  2.8610e-04],
+        [-9.5487e-05, -2.9624e-05, -6.4433e-05,  ..., -1.0328e-03,
+          3.2574e-05,  3.0088e-04],
+        ...,
+        [ 2.5082e-04,  2.7835e-05,  3.8986e-03,  ...,  3.7384e-04,
+          2.4338e-03, -3.2330e-04],
+        [ 2.1422e-04,  1.0872e-03,  5.4884e-04,  ...,  2.4766e-05,
+          6.3705e-04,  8.0776e-04],
+        [-2.3103e-04,  1.0177e-05, -6.6376e-03,  ...,  3.9041e-05,
+         -2.7847e-03, -2.3041e-03]], device='cuda:0')
+Epoch 481, bias, value: tensor([ 0.0109,  0.0117, -0.0011,  0.0134, -0.0076, -0.0066,  0.0093,  0.0212,
+        -0.0335,  0.0503], device='cuda:0'), grad: tensor([ 0.0084,  0.0082,  0.0060,  0.0074,  0.0142,  0.0088, -0.0227,  0.0018,
+         0.0100, -0.0420], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 480, time 217.10, cls_loss 0.4425 cls_loss_mapping 0.0009 cls_loss_causal 0.4164 re_mapping 0.0038 re_causal 0.0112 /// teacc 99.06 lr 0.00001000
+Epoch 482, weight, value: tensor([[-0.0807,  0.0716, -0.1185,  ..., -0.1264, -0.1256,  0.0237],
+        [-0.0895, -0.1799,  0.0092,  ..., -0.0537, -0.0389, -0.1173],
+        [ 0.0309, -0.1005,  0.0563,  ...,  0.1628, -0.1439, -0.0401],
+        ...,
+        [-0.1256, -0.2211,  0.0891,  ..., -0.0148, -0.0558,  0.0765],
+        [ 0.0304,  0.0407, -0.0368,  ..., -0.0916, -0.1053, -0.0255],
+        [-0.1631, -0.0012, -0.0016,  ..., -0.1840,  0.1188,  0.0299]],
+       device='cuda:0'), grad: tensor([[-1.4853e-04,  6.9094e-04,  3.9786e-06,  ...,  9.0748e-06,
+          6.1417e-04,  2.1124e-04],
+        [ 4.4405e-06,  3.0327e-04,  9.1866e-06,  ...,  1.3731e-05,
+          1.3435e-04,  5.7364e-04],
+        [-1.1063e-03,  4.3297e-04, -2.1458e-03,  ..., -2.5215e-03,
+          1.3161e-04,  8.0287e-05],
+        ...,
+        [ 2.0161e-05,  6.5863e-05,  1.5640e-04,  ...,  3.3498e-05,
+          2.0313e-04,  1.0481e-03],
+        [ 5.1689e-04,  4.3964e-04,  9.9182e-04,  ...,  8.4400e-04,
+          1.8656e-04,  4.2629e-04],
+        [ 1.2267e-04,  4.5776e-04,  6.2103e-03,  ...,  5.7034e-06,
+          6.1073e-03,  1.0735e-02]], device='cuda:0')
+Epoch 482, bias, value: tensor([ 0.0108,  0.0116, -0.0011,  0.0136, -0.0075, -0.0064,  0.0092,  0.0212,
+        -0.0338,  0.0504], device='cuda:0'), grad: tensor([ 0.0073,  0.0028, -0.0022, -0.0175, -0.0247,  0.0038,  0.0018,  0.0025,
+         0.0047,  0.0215], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 481, time 216.81, cls_loss 0.4460 cls_loss_mapping 0.0007 cls_loss_causal 0.4120 re_mapping 0.0038 re_causal 0.0115 /// teacc 98.97 lr 0.00001000
+Epoch 483, weight, value: tensor([[-0.0808,  0.0715, -0.1185,  ..., -0.1265, -0.1256,  0.0235],
+        [-0.0895, -0.1797,  0.0092,  ..., -0.0538, -0.0388, -0.1173],
+        [ 0.0310, -0.1006,  0.0562,  ...,  0.1628, -0.1438, -0.0401],
+        ...,
+        [-0.1254, -0.2211,  0.0891,  ..., -0.0148, -0.0557,  0.0766],
+        [ 0.0303,  0.0407, -0.0367,  ..., -0.0915, -0.1053, -0.0256],
+        [-0.1632, -0.0012, -0.0017,  ..., -0.1842,  0.1188,  0.0300]],
+       device='cuda:0'), grad: tensor([[ 3.4070e-04,  1.6248e-04,  2.1875e-04,  ...,  3.8958e-04,
+          7.2289e-04,  1.2245e-03],
+        [ 1.3888e-04,  7.6294e-05,  1.1587e-04,  ...,  4.0007e-04,
+          1.7948e-03,  2.2640e-03],
+        [ 2.4843e-04,  3.1161e-04,  5.6982e-04,  ...,  9.5224e-04,
+          6.9380e-04,  1.4362e-03],
+        ...,
+        [ 5.8317e-04,  3.7813e-04,  7.9679e-04,  ...,  5.7602e-04,
+          2.4204e-03,  3.0384e-03],
+        [ 3.0804e-04,  2.6584e-04, -3.2210e-04,  ..., -2.8782e-03,
+         -3.3927e-04,  4.9353e-04],
+        [ 3.1662e-04,  1.5640e-03, -2.2984e-03,  ..., -2.6536e-04,
+          1.5764e-03, -1.8063e-03]], device='cuda:0')
+Epoch 483, bias, value: tensor([ 0.0107,  0.0117, -0.0011,  0.0137, -0.0073, -0.0064,  0.0092,  0.0212,
+        -0.0339,  0.0504], device='cuda:0'), grad: tensor([-0.0117,  0.0250,  0.0209, -0.0267,  0.0074, -0.0118, -0.0025,  0.0292,
+        -0.0427,  0.0130], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 482, time 216.96, cls_loss 0.4521 cls_loss_mapping 0.0009 cls_loss_causal 0.4205 re_mapping 0.0037 re_causal 0.0110 /// teacc 98.94 lr 0.00001000
+Epoch 484, weight, value: tensor([[-0.0808,  0.0715, -0.1184,  ..., -0.1265, -0.1256,  0.0238],
+        [-0.0893, -0.1796,  0.0093,  ..., -0.0538, -0.0389, -0.1175],
+        [ 0.0311, -0.1006,  0.0564,  ...,  0.1630, -0.1439, -0.0401],
+        ...,
+        [-0.1254, -0.2212,  0.0890,  ..., -0.0149, -0.0558,  0.0766],
+        [ 0.0301,  0.0406, -0.0368,  ..., -0.0916, -0.1054, -0.0256],
+        [-0.1632, -0.0011, -0.0016,  ..., -0.1842,  0.1190,  0.0302]],
+       device='cuda:0'), grad: tensor([[ 7.7188e-05,  4.5635e-08,  4.1910e-08,  ...,  1.2243e-04,
+          5.3167e-04,  1.0185e-03],
+        [ 6.8657e-06,  1.8463e-05,  2.2557e-06,  ...,  2.1839e-04,
+          5.5456e-04, -2.8954e-03],
+        [ 3.2687e-04,  4.3988e-05,  1.8030e-05,  ...,  4.5562e-04,
+          4.7731e-04,  6.8712e-04],
+        ...,
+        [ 5.1647e-05,  6.6578e-05,  9.2834e-06,  ...,  2.1183e-04,
+          8.8882e-04, -4.9553e-03],
+        [-9.0027e-04, -4.4525e-05,  4.0233e-07,  ..., -7.7677e-04,
+          5.0449e-04,  1.0309e-03],
+        [ 6.5751e-06,  5.8055e-05, -4.0710e-05,  ...,  7.9823e-04,
+          1.3428e-03,  1.9016e-03]], device='cuda:0')
+Epoch 484, bias, value: tensor([ 0.0109,  0.0117, -0.0011,  0.0137, -0.0074, -0.0064,  0.0092,  0.0214,
+        -0.0341,  0.0504], device='cuda:0'), grad: tensor([ 0.0168, -0.0393, -0.0145, -0.0450,  0.0187,  0.0146,  0.0205, -0.0087,
+         0.0128,  0.0241], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 483, time 216.53, cls_loss 0.4510 cls_loss_mapping 0.0008 cls_loss_causal 0.4273 re_mapping 0.0038 re_causal 0.0115 /// teacc 99.04 lr 0.00001000
+Epoch 485, weight, value: tensor([[-0.0807,  0.0714, -0.1185,  ..., -0.1266, -0.1255,  0.0238],
+        [-0.0892, -0.1797,  0.0092,  ..., -0.0538, -0.0388, -0.1174],
+        [ 0.0311, -0.1006,  0.0564,  ...,  0.1630, -0.1439, -0.0403],
+        ...,
+        [-0.1256, -0.2212,  0.0889,  ..., -0.0149, -0.0559,  0.0766],
+        [ 0.0301,  0.0406, -0.0367,  ..., -0.0916, -0.1053, -0.0255],
+        [-0.1630, -0.0010, -0.0016,  ..., -0.1843,  0.1189,  0.0300]],
+       device='cuda:0'), grad: tensor([[ 1.7607e-04,  7.1383e-04,  1.8728e-04,  ...,  5.7316e-04,
+         -2.2106e-03,  1.0675e-04],
+        [ 1.2672e-04,  3.8123e-04,  3.9697e-04,  ...,  2.2995e-04,
+          4.8733e-04,  7.9334e-05],
+        [ 9.0694e-04, -1.7939e-03,  1.8704e-04,  ..., -1.8005e-03,
+          6.6710e-04,  5.3692e-04],
+        ...,
+        [ 5.2166e-04,  1.4913e-04, -5.9748e-04,  ...,  5.8055e-05,
+          4.6754e-04,  2.7680e-04],
+        [-2.9221e-03, -2.9507e-03, -6.3467e-04,  ..., -9.1553e-04,
+         -2.8763e-03, -1.7271e-03],
+        [ 2.0611e-04,  3.5834e-04,  3.4523e-04,  ...,  2.1887e-04,
+          6.7282e-04, -1.0490e-05]], device='cuda:0')
+Epoch 485, bias, value: tensor([ 0.0108,  0.0117, -0.0012,  0.0137, -0.0074, -0.0065,  0.0093,  0.0212,
+        -0.0339,  0.0503], device='cuda:0'), grad: tensor([-0.0107,  0.0185, -0.0104,  0.0203,  0.0170, -0.0320,  0.0153,  0.0186,
+        -0.0246, -0.0122], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 484, time 216.74, cls_loss 0.4512 cls_loss_mapping 0.0009 cls_loss_causal 0.4287 re_mapping 0.0038 re_causal 0.0115 /// teacc 99.04 lr 0.00001000
+Epoch 486, weight, value: tensor([[-0.0808,  0.0715, -0.1186,  ..., -0.1267, -0.1256,  0.0238],
+        [-0.0892, -0.1798,  0.0092,  ..., -0.0539, -0.0389, -0.1175],
+        [ 0.0313, -0.1004,  0.0563,  ...,  0.1629, -0.1438, -0.0403],
+        ...,
+        [-0.1255, -0.2213,  0.0890,  ..., -0.0148, -0.0559,  0.0767],
+        [ 0.0301,  0.0407, -0.0366,  ..., -0.0914, -0.1052, -0.0254],
+        [-0.1631, -0.0010, -0.0016,  ..., -0.1843,  0.1188,  0.0300]],
+       device='cuda:0'), grad: tensor([[-2.0733e-03, -2.3232e-03,  5.6458e-04,  ..., -5.2376e-03,
+          1.9665e-03,  3.9253e-03],
+        [ 1.0818e-04,  7.8559e-05,  2.8992e-04,  ...,  2.7800e-04,
+          1.0180e-04, -5.8556e-04],
+        [-2.4166e-03,  1.5488e-03, -2.2850e-03,  ..., -3.3569e-03,
+         -6.9427e-03, -1.0994e-02],
+        ...,
+        [ 4.1771e-04,  6.9857e-04, -1.1473e-03,  ...,  7.3671e-04,
+         -1.1498e-04,  1.2941e-03],
+        [ 1.0471e-03,  2.7943e-03,  1.6918e-03,  ...,  5.7697e-04,
+          3.2082e-03,  2.9583e-03],
+        [ 2.1565e-04,  1.2951e-03, -2.2554e-04,  ...,  4.5681e-04,
+         -1.2102e-03, -3.4637e-03]], device='cuda:0')
+Epoch 486, bias, value: tensor([ 0.0107,  0.0116, -0.0012,  0.0136, -0.0075, -0.0064,  0.0093,  0.0213,
+        -0.0337,  0.0503], device='cuda:0'), grad: tensor([ 0.0227, -0.0575, -0.0313,  0.0190,  0.0052, -0.0102,  0.0518, -0.0249,
+         0.0340, -0.0087], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 485, time 217.03, cls_loss 0.4339 cls_loss_mapping 0.0009 cls_loss_causal 0.4030 re_mapping 0.0038 re_causal 0.0111 /// teacc 99.05 lr 0.00001000
+Epoch 487, weight, value: tensor([[-0.0810,  0.0713, -0.1187,  ..., -0.1268, -0.1258,  0.0237],
+        [-0.0892, -0.1798,  0.0090,  ..., -0.0539, -0.0389, -0.1175],
+        [ 0.0316, -0.1003,  0.0563,  ...,  0.1630, -0.1437, -0.0403],
+        ...,
+        [-0.1254, -0.2212,  0.0892,  ..., -0.0148, -0.0557,  0.0767],
+        [ 0.0300,  0.0407, -0.0365,  ..., -0.0913, -0.1051, -0.0253],
+        [-0.1632, -0.0011, -0.0016,  ..., -0.1843,  0.1188,  0.0301]],
+       device='cuda:0'), grad: tensor([[ 2.2936e-04,  2.7514e-04,  6.1512e-05,  ...,  1.2619e-07,
+          7.2289e-04,  1.5430e-03],
+        [ 8.3983e-05,  5.7846e-05,  1.3068e-05,  ...,  2.8871e-08,
+          4.8876e-04, -3.9711e-03],
+        [ 7.7486e-04,  6.5804e-04,  1.0145e-04,  ...,  2.7474e-08,
+          7.2908e-04,  1.6747e-03],
+        ...,
+        [ 5.8270e-04,  6.3133e-04,  2.5272e-04,  ...,  1.8299e-05,
+          1.3266e-03,  1.7872e-03],
+        [-1.9588e-03, -4.2686e-03, -2.3823e-03,  ...,  5.0711e-07,
+          1.8415e-03,  8.1778e-04],
+        [ 2.5415e-04, -3.8528e-03, -6.4802e-04,  ..., -9.5308e-05,
+         -3.2330e-03, -2.1343e-03]], device='cuda:0')
+Epoch 487, bias, value: tensor([ 0.0107,  0.0116, -0.0012,  0.0137, -0.0075, -0.0064,  0.0093,  0.0213,
+        -0.0337,  0.0503], device='cuda:0'), grad: tensor([ 0.0250, -0.0314,  0.0271,  0.0371,  0.0022, -0.0529,  0.0326, -0.0013,
+        -0.0219, -0.0164], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 486, time 216.91, cls_loss 0.4222 cls_loss_mapping 0.0008 cls_loss_causal 0.3949 re_mapping 0.0037 re_causal 0.0106 /// teacc 99.04 lr 0.00001000
+Epoch 488, weight, value: tensor([[-0.0812,  0.0712, -0.1189,  ..., -0.1269, -0.1259,  0.0236],
+        [-0.0891, -0.1796,  0.0091,  ..., -0.0539, -0.0391, -0.1176],
+        [ 0.0316, -0.1003,  0.0561,  ...,  0.1629, -0.1438, -0.0403],
+        ...,
+        [-0.1254, -0.2213,  0.0892,  ..., -0.0148, -0.0557,  0.0768],
+        [ 0.0298,  0.0407, -0.0367,  ..., -0.0915, -0.1052, -0.0253],
+        [-0.1631, -0.0010, -0.0016,  ..., -0.1841,  0.1189,  0.0301]],
+       device='cuda:0'), grad: tensor([[ 6.3038e-04,  5.0583e-03,  5.2834e-04,  ...,  3.8910e-04,
+          6.1846e-04,  1.4794e-04],
+        [-6.6645e-06, -6.8569e-04, -1.3065e-03,  ..., -1.1721e-03,
+         -6.2764e-05, -5.2023e-04],
+        [ 7.6115e-05,  1.6797e-04,  3.0780e-04,  ...,  1.9169e-04,
+          2.7180e-04,  1.0502e-04],
+        ...,
+        [-2.3150e-04,  1.8156e-04, -9.3365e-04,  ..., -4.2987e-04,
+          2.6584e-04, -3.0255e-04],
+        [ 5.6356e-05,  3.7718e-04,  1.3363e-04,  ...,  1.1623e-04,
+          1.3399e-03,  8.5294e-05],
+        [ 2.5719e-05,  1.8001e-04,  3.3593e-04,  ...,  1.0484e-04,
+          5.4359e-04,  2.2367e-05]], device='cuda:0')
+Epoch 488, bias, value: tensor([ 0.0106,  0.0116, -0.0012,  0.0135, -0.0075, -0.0064,  0.0094,  0.0213,
+        -0.0338,  0.0505], device='cuda:0'), grad: tensor([-0.0390,  0.0031,  0.0123,  0.0145,  0.0133, -0.0158,  0.0035,  0.0055,
+        -0.0139,  0.0166], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 487, time 216.71, cls_loss 0.4590 cls_loss_mapping 0.0009 cls_loss_causal 0.4320 re_mapping 0.0037 re_causal 0.0109 /// teacc 99.07 lr 0.00001000
+Epoch 489, weight, value: tensor([[-0.0812,  0.0711, -0.1190,  ..., -0.1269, -0.1258,  0.0237],
+        [-0.0892, -0.1796,  0.0093,  ..., -0.0539, -0.0391, -0.1175],
+        [ 0.0318, -0.1002,  0.0562,  ...,  0.1631, -0.1437, -0.0402],
+        ...,
+        [-0.1254, -0.2212,  0.0892,  ..., -0.0149, -0.0555,  0.0768],
+        [ 0.0298,  0.0407, -0.0366,  ..., -0.0915, -0.1053, -0.0254],
+        [-0.1629, -0.0011, -0.0016,  ..., -0.1841,  0.1188,  0.0301]],
+       device='cuda:0'), grad: tensor([[ 7.0035e-05,  4.0078e-04,  2.1172e-04,  ...,  9.0313e-04,
+          2.8253e-04,  4.6420e-04],
+        [ 1.0645e-04,  1.0961e-04,  5.4741e-04,  ...,  4.0555e-04,
+          5.1975e-04,  6.7568e-04],
+        [ 2.1088e-04,  1.0620e-02, -2.4071e-03,  ...,  3.6373e-03,
+          2.9755e-04, -4.2458e-03],
+        ...,
+        [ 1.1225e-03,  7.8535e-04,  2.9068e-03,  ..., -6.0797e-04,
+          2.0885e-03,  1.9293e-03],
+        [-3.8490e-03, -2.4700e-03, -6.9885e-03,  ..., -2.3670e-03,
+         -5.0888e-03, -2.7485e-03],
+        [ 1.1616e-03,  9.3746e-04,  2.4967e-03,  ...,  1.4191e-03,
+          3.0594e-03,  1.8816e-03]], device='cuda:0')
+Epoch 489, bias, value: tensor([ 0.0107,  0.0116, -0.0010,  0.0134, -0.0077, -0.0064,  0.0095,  0.0214,
+        -0.0338,  0.0505], device='cuda:0'), grad: tensor([ 0.0364,  0.0374, -0.0071,  0.0119, -0.0115,  0.0265, -0.0319, -0.0129,
+        -0.0347, -0.0142], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 488, time 216.81, cls_loss 0.4277 cls_loss_mapping 0.0008 cls_loss_causal 0.4036 re_mapping 0.0037 re_causal 0.0109 /// teacc 99.06 lr 0.00001000
+Epoch 490, weight, value: tensor([[-0.0812,  0.0712, -0.1188,  ..., -0.1270, -0.1259,  0.0237],
+        [-0.0892, -0.1795,  0.0094,  ..., -0.0538, -0.0390, -0.1174],
+        [ 0.0318, -0.1004,  0.0562,  ...,  0.1631, -0.1437, -0.0403],
+        ...,
+        [-0.1254, -0.2214,  0.0892,  ..., -0.0148, -0.0555,  0.0768],
+        [ 0.0300,  0.0409, -0.0365,  ..., -0.0916, -0.1054, -0.0254],
+        [-0.1628, -0.0011, -0.0016,  ..., -0.1840,  0.1188,  0.0301]],
+       device='cuda:0'), grad: tensor([[ 6.1886e-07, -3.8576e-04,  1.8859e-04,  ...,  1.9205e-04,
+          1.2980e-03,  1.0595e-03],
+        [ 5.5611e-05,  4.6372e-05,  9.7394e-05,  ...,  1.6332e-04,
+          1.0223e-03,  1.2131e-03],
+        [ 2.6870e-04,  2.4796e-04,  1.1563e-04,  ...,  1.8358e-04,
+          9.8133e-04,  1.0204e-03],
+        ...,
+        [ 2.2006e-04,  6.1607e-04,  2.6369e-04,  ...,  1.5581e-04,
+          1.6909e-03,  1.0891e-03],
+        [ 8.5831e-04,  1.2932e-03, -9.0313e-04,  ..., -1.6489e-03,
+         -2.1057e-03, -2.9888e-03],
+        [ 1.7166e-03, -4.1103e-04, -5.2929e-04,  ...,  1.7977e-04,
+          3.5324e-03,  5.7554e-04]], device='cuda:0')
+Epoch 490, bias, value: tensor([ 0.0108,  0.0117, -0.0010,  0.0133, -0.0077, -0.0064,  0.0094,  0.0214,
+        -0.0337,  0.0504], device='cuda:0'), grad: tensor([ 0.0165, -0.0117, -0.0153, -0.0127, -0.0132, -0.0320,  0.0433,  0.0192,
+        -0.0140,  0.0199], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 489, time 216.98, cls_loss 0.4695 cls_loss_mapping 0.0008 cls_loss_causal 0.4395 re_mapping 0.0038 re_causal 0.0113 /// teacc 99.06 lr 0.00001000
+Epoch 491, weight, value: tensor([[-0.0812,  0.0713, -0.1188,  ..., -0.1271, -0.1259,  0.0237],
+        [-0.0891, -0.1794,  0.0095,  ..., -0.0538, -0.0391, -0.1174],
+        [ 0.0316, -0.1004,  0.0560,  ...,  0.1631, -0.1438, -0.0404],
+        ...,
+        [-0.1253, -0.2214,  0.0893,  ..., -0.0146, -0.0555,  0.0768],
+        [ 0.0301,  0.0409, -0.0365,  ..., -0.0915, -0.1053, -0.0255],
+        [-0.1629, -0.0012, -0.0017,  ..., -0.1841,  0.1188,  0.0300]],
+       device='cuda:0'), grad: tensor([[ 1.1402e-04, -8.5449e-03,  5.4687e-05,  ...,  1.5162e-05,
+          8.1956e-05,  3.0398e-04],
+        [ 1.5192e-05,  3.9786e-05,  1.6320e-04,  ...,  5.0247e-05,
+          1.0788e-04,  4.1914e-04],
+        [ 3.4928e-05,  9.8705e-05,  6.9916e-05,  ...,  2.3365e-05,
+          7.1645e-05,  3.1686e-04],
+        ...,
+        [ 1.0744e-05,  3.6508e-05,  2.4433e-03,  ...,  7.4005e-04,
+          1.2512e-03,  2.2678e-03],
+        [-2.1529e-04,  3.9482e-03,  7.9346e-04,  ...,  2.5272e-04,
+         -5.1647e-05,  8.1968e-04],
+        [ 3.1090e-04,  6.6423e-04, -4.5547e-03,  ..., -1.4029e-03,
+         -1.8167e-03, -3.4256e-03]], device='cuda:0')
+Epoch 491, bias, value: tensor([ 0.0108,  0.0116, -0.0011,  0.0134, -0.0075, -0.0064,  0.0093,  0.0214,
+        -0.0336,  0.0503], device='cuda:0'), grad: tensor([-0.0695,  0.0208, -0.0125,  0.0145,  0.0164,  0.0406, -0.0360,  0.0245,
+         0.0047, -0.0036], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 490, time 217.02, cls_loss 0.4379 cls_loss_mapping 0.0008 cls_loss_causal 0.4088 re_mapping 0.0037 re_causal 0.0111 /// teacc 99.01 lr 0.00001000
+Epoch 492, weight, value: tensor([[-0.0812,  0.0713, -0.1188,  ..., -0.1269, -0.1258,  0.0236],
+        [-0.0891, -0.1793,  0.0095,  ..., -0.0538, -0.0392, -0.1174],
+        [ 0.0315, -0.1004,  0.0561,  ...,  0.1630, -0.1438, -0.0402],
+        ...,
+        [-0.1253, -0.2214,  0.0894,  ..., -0.0148, -0.0555,  0.0769],
+        [ 0.0300,  0.0408, -0.0364,  ..., -0.0914, -0.1053, -0.0256],
+        [-0.1630, -0.0012, -0.0017,  ..., -0.1841,  0.1188,  0.0300]],
+       device='cuda:0'), grad: tensor([[ 2.5421e-05,  1.8370e-04,  4.6158e-04,  ...,  2.6107e-04,
+          7.7724e-04,  2.1324e-03],
+        [ 4.6283e-05,  8.0287e-05,  6.6471e-04,  ...,  2.5964e-04,
+          7.1955e-04,  1.8711e-03],
+        [-7.6517e-06,  3.7646e-04, -1.5056e-04,  ..., -3.6983e-03,
+         -3.8223e-03, -1.3283e-02],
+        ...,
+        [ 1.1861e-04,  3.2496e-04,  1.0672e-03,  ...,  2.8682e-04,
+          1.1082e-03,  2.3880e-03],
+        [ 2.1477e-03,  2.4815e-03,  6.2323e-04,  ...,  2.6059e-04,
+          2.8496e-03,  2.5063e-03],
+        [-1.8530e-03, -8.5402e-04,  2.3594e-03,  ...,  5.2881e-04,
+          2.2316e-03,  5.6419e-03]], device='cuda:0')
+Epoch 492, bias, value: tensor([ 0.0109,  0.0116, -0.0011,  0.0134, -0.0075, -0.0065,  0.0094,  0.0214,
+        -0.0337,  0.0502], device='cuda:0'), grad: tensor([ 0.0319,  0.0318, -0.0611, -0.0660, -0.0569,  0.0252,  0.0241,  0.0016,
+         0.0388,  0.0305], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 491, time 216.81, cls_loss 0.4414 cls_loss_mapping 0.0008 cls_loss_causal 0.4236 re_mapping 0.0037 re_causal 0.0110 /// teacc 99.03 lr 0.00001000
+Epoch 493, weight, value: tensor([[-0.0813,  0.0712, -0.1189,  ..., -0.1269, -0.1259,  0.0236],
+        [-0.0891, -0.1793,  0.0096,  ..., -0.0538, -0.0393, -0.1174],
+        [ 0.0316, -0.1005,  0.0561,  ...,  0.1631, -0.1439, -0.0403],
+        ...,
+        [-0.1253, -0.2214,  0.0894,  ..., -0.0149, -0.0556,  0.0769],
+        [ 0.0300,  0.0410, -0.0364,  ..., -0.0913, -0.1052, -0.0257],
+        [-0.1630, -0.0012, -0.0018,  ..., -0.1841,  0.1187,  0.0301]],
+       device='cuda:0'), grad: tensor([[ 1.4639e-03,  6.1464e-04,  2.2864e-04,  ...,  1.4296e-07,
+          2.0170e-04,  2.9778e-04],
+        [ 1.4153e-03,  1.6606e-04,  1.4110e-06,  ...,  1.2005e-06,
+          2.4486e-04,  6.6996e-04],
+        [ 4.9973e-04,  5.5885e-04,  2.0921e-04,  ..., -4.8459e-05,
+          1.5771e-04,  9.9850e-04],
+        ...,
+        [ 4.5276e-04,  1.5259e-04,  9.5293e-06,  ...,  2.3004e-06,
+          1.9372e-04,  5.7030e-04],
+        [ 1.1730e-03,  2.4204e-03,  1.0948e-03,  ...,  1.9204e-06,
+          1.8632e-04,  3.8099e-04],
+        [-6.6681e-03,  2.1534e-03,  1.1892e-03,  ...,  2.8987e-07,
+         -7.9298e-04, -4.6654e-03]], device='cuda:0')
+Epoch 493, bias, value: tensor([ 0.0109,  0.0114, -0.0012,  0.0135, -0.0074, -0.0064,  0.0094,  0.0214,
+        -0.0338,  0.0503], device='cuda:0'), grad: tensor([ 0.0263,  0.0054,  0.0261, -0.0285,  0.0013,  0.0113, -0.0007, -0.0073,
+         0.0298, -0.0638], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 492, time 216.73, cls_loss 0.4626 cls_loss_mapping 0.0008 cls_loss_causal 0.4391 re_mapping 0.0037 re_causal 0.0113 /// teacc 99.04 lr 0.00001000
+Epoch 494, weight, value: tensor([[-0.0813,  0.0712, -0.1190,  ..., -0.1270, -0.1259,  0.0235],
+        [-0.0892, -0.1795,  0.0097,  ..., -0.0538, -0.0393, -0.1175],
+        [ 0.0317, -0.1004,  0.0561,  ...,  0.1632, -0.1436, -0.0402],
+        ...,
+        [-0.1253, -0.2214,  0.0894,  ..., -0.0149, -0.0557,  0.0767],
+        [ 0.0300,  0.0409, -0.0365,  ..., -0.0913, -0.1052, -0.0258],
+        [-0.1630, -0.0013, -0.0019,  ..., -0.1841,  0.1187,  0.0300]],
+       device='cuda:0'), grad: tensor([[ 3.5495e-05,  9.2268e-05,  2.7871e-04,  ...,  4.1872e-05,
+          4.5657e-04,  4.6539e-04],
+        [ 7.8976e-05,  4.0674e-04, -3.1033e-03,  ..., -6.3086e-04,
+          6.8665e-04,  7.3135e-05],
+        [ 6.8605e-05,  3.5858e-04,  4.8757e-04,  ...,  1.8048e-04,
+          3.8624e-04,  4.5037e-04],
+        ...,
+        [ 2.2084e-05,  1.3709e-04,  4.9210e-04,  ...,  1.0383e-04,
+          7.3910e-04,  3.7932e-04],
+        [ 8.2016e-05,  1.0242e-03,  2.6894e-04,  ...,  7.7009e-05,
+          5.6696e-04,  5.5218e-04],
+        [ 5.3257e-05,  2.7800e-04,  2.4939e-04,  ..., -1.4448e-04,
+         -6.2675e-03, -4.1618e-03]], device='cuda:0')
+Epoch 494, bias, value: tensor([ 0.0108,  0.0113, -0.0010,  0.0136, -0.0073, -0.0065,  0.0094,  0.0213,
+        -0.0338,  0.0502], device='cuda:0'), grad: tensor([ 0.0106, -0.0262,  0.0173, -0.0111,  0.0137,  0.0176, -0.0112, -0.0156,
+         0.0185, -0.0137], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 493, time 217.15, cls_loss 0.4223 cls_loss_mapping 0.0007 cls_loss_causal 0.3950 re_mapping 0.0038 re_causal 0.0113 /// teacc 99.04 lr 0.00001000
+Epoch 495, weight, value: tensor([[-0.0814,  0.0712, -0.1191,  ..., -0.1272, -0.1261,  0.0234],
+        [-0.0893, -0.1796,  0.0097,  ..., -0.0539, -0.0392, -0.1174],
+        [ 0.0316, -0.1004,  0.0562,  ...,  0.1632, -0.1437, -0.0403],
+        ...,
+        [-0.1254, -0.2213,  0.0895,  ..., -0.0148, -0.0555,  0.0768],
+        [ 0.0300,  0.0408, -0.0363,  ..., -0.0910, -0.1054, -0.0258],
+        [-0.1630, -0.0013, -0.0020,  ..., -0.1841,  0.1187,  0.0300]],
+       device='cuda:0'), grad: tensor([[ 1.5569e-04,  2.4223e-04, -2.8300e-04,  ...,  4.2059e-06,
+          1.2708e-04,  2.0218e-04],
+        [ 5.2266e-06,  9.6560e-06,  1.2767e-04,  ...,  2.2240e-06,
+         -2.9698e-05, -6.4468e-04],
+        [ 1.5162e-05,  3.6269e-05,  6.3372e-04,  ...,  1.2837e-05,
+          1.6898e-05,  5.2977e-04],
+        ...,
+        [-2.8687e-03, -4.6921e-03, -1.0254e-02,  ...,  4.1611e-06,
+         -1.0681e-02, -8.8120e-03],
+        [-1.6518e-03, -2.3880e-03, -4.7207e-05,  ..., -2.2125e-04,
+         -9.0981e-04,  6.5565e-04],
+        [ 3.0918e-03,  4.9744e-03,  7.7782e-03,  ...,  4.0308e-06,
+          1.0750e-02,  6.5536e-03]], device='cuda:0')
+Epoch 495, bias, value: tensor([ 0.0107,  0.0114, -0.0011,  0.0136, -0.0074, -0.0064,  0.0095,  0.0214,
+        -0.0337,  0.0502], device='cuda:0'), grad: tensor([-0.0197, -0.0235,  0.0146,  0.0132,  0.0099, -0.0080,  0.0154, -0.0352,
+        -0.0118,  0.0450], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 494, time 217.22, cls_loss 0.4415 cls_loss_mapping 0.0006 cls_loss_causal 0.4131 re_mapping 0.0040 re_causal 0.0120 /// teacc 99.00 lr 0.00001000
+Epoch 496, weight, value: tensor([[-0.0813,  0.0713, -0.1191,  ..., -0.1274, -0.1262,  0.0234],
+        [-0.0892, -0.1796,  0.0096,  ..., -0.0540, -0.0392, -0.1174],
+        [ 0.0317, -0.1002,  0.0563,  ...,  0.1634, -0.1438, -0.0403],
+        ...,
+        [-0.1254, -0.2215,  0.0895,  ..., -0.0148, -0.0556,  0.0767],
+        [ 0.0299,  0.0408, -0.0363,  ..., -0.0912, -0.1054, -0.0259],
+        [-0.1631, -0.0013, -0.0020,  ..., -0.1840,  0.1187,  0.0300]],
+       device='cuda:0'), grad: tensor([[ 1.7190e-04,  1.1897e-04,  3.9674e-07,  ...,  1.1438e-04,
+          1.3542e-03,  1.2579e-03],
+        [ 2.1064e-04,  2.9635e-04,  7.4916e-06,  ...,  1.0079e-04,
+          1.0872e-03,  9.8610e-04],
+        [ 5.1308e-04,  9.5725e-05, -1.8001e-05,  ...,  1.0854e-04,
+          1.0939e-03,  1.3056e-03],
+        ...,
+        [ 1.0961e-04,  9.3102e-05,  6.5029e-05,  ...,  1.0902e-04,
+          8.3780e-04,  8.8644e-04],
+        [-5.4264e-04, -1.3571e-03,  8.3968e-06,  ...,  1.8656e-04,
+          2.2163e-03,  2.8038e-03],
+        [ 1.9264e-04,  1.6761e-04, -1.1086e-04,  ...,  1.0037e-04,
+          2.4605e-03,  2.0542e-03]], device='cuda:0')
+Epoch 496, bias, value: tensor([ 0.0108,  0.0114, -0.0012,  0.0136, -0.0074, -0.0063,  0.0094,  0.0214,
+        -0.0337,  0.0501], device='cuda:0'), grad: tensor([-0.0095,  0.0277,  0.0207, -0.0080, -0.0637, -0.0094,  0.0183, -0.0094,
+         0.0061,  0.0274], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 495, time 216.67, cls_loss 0.4412 cls_loss_mapping 0.0007 cls_loss_causal 0.4135 re_mapping 0.0039 re_causal 0.0119 /// teacc 99.03 lr 0.00001000
+Epoch 497, weight, value: tensor([[-0.0813,  0.0712, -0.1192,  ..., -0.1275, -0.1262,  0.0233],
+        [-0.0893, -0.1797,  0.0098,  ..., -0.0539, -0.0392, -0.1175],
+        [ 0.0317, -0.1001,  0.0563,  ...,  0.1635, -0.1436, -0.0402],
+        ...,
+        [-0.1254, -0.2216,  0.0893,  ..., -0.0149, -0.0557,  0.0766],
+        [ 0.0299,  0.0409, -0.0364,  ..., -0.0911, -0.1056, -0.0258],
+        [-0.1632, -0.0013, -0.0018,  ..., -0.1840,  0.1188,  0.0300]],
+       device='cuda:0'), grad: tensor([[ 2.0657e-06,  6.4373e-05,  8.5413e-05,  ...,  3.5477e-04,
+          2.4438e-04,  5.8413e-04],
+        [ 3.9525e-06, -3.2735e-04,  2.0683e-04,  ...,  3.7980e-04,
+          5.8603e-04,  1.0834e-03],
+        [-4.9067e-04,  4.1932e-05, -1.6129e-04,  ..., -3.4580e-03,
+          4.2367e-04, -2.2507e-03],
+        ...,
+        [ 6.1542e-06,  1.2283e-03,  1.5869e-03,  ...,  6.5470e-04,
+          1.2293e-03,  1.8520e-03],
+        [ 4.5359e-05, -6.0916e-05,  8.3351e-04,  ...,  1.2035e-03,
+          2.3270e-03,  3.4161e-03],
+        [ 1.3402e-06, -1.1520e-03, -3.2425e-03,  ..., -1.2054e-03,
+         -6.2065e-03, -7.5722e-03]], device='cuda:0')
+Epoch 497, bias, value: tensor([ 0.0108,  0.0114, -0.0011,  0.0135, -0.0074, -0.0063,  0.0094,  0.0213,
+        -0.0338,  0.0502], device='cuda:0'), grad: tensor([ 0.0096, -0.0227, -0.0251,  0.0087,  0.0072,  0.0062,  0.0068,  0.0238,
+         0.0182, -0.0327], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 496, time 217.06, cls_loss 0.4157 cls_loss_mapping 0.0006 cls_loss_causal 0.3936 re_mapping 0.0040 re_causal 0.0119 /// teacc 99.07 lr 0.00001000
+Epoch 498, weight, value: tensor([[-0.0814,  0.0712, -0.1193,  ..., -0.1276, -0.1261,  0.0234],
+        [-0.0893, -0.1795,  0.0098,  ..., -0.0539, -0.0391, -0.1175],
+        [ 0.0317, -0.1001,  0.0563,  ...,  0.1634, -0.1435, -0.0402],
+        ...,
+        [-0.1255, -0.2215,  0.0895,  ..., -0.0148, -0.0556,  0.0766],
+        [ 0.0299,  0.0410, -0.0365,  ..., -0.0911, -0.1055, -0.0257],
+        [-0.1633, -0.0015, -0.0019,  ..., -0.1841,  0.1187,  0.0300]],
+       device='cuda:0'), grad: tensor([[ 7.7724e-04,  4.0308e-06,  2.6202e-04,  ...,  3.0589e-04,
+          6.6137e-04,  8.1253e-04],
+        [ 2.0657e-03,  1.6224e-04,  2.6941e-04,  ...,  3.0041e-04,
+          6.1321e-04,  1.3933e-03],
+        [-1.1986e-02,  1.0425e-04,  2.5105e-04,  ...,  3.1185e-04,
+          5.5265e-04, -5.1079e-03],
+        ...,
+        [ 7.2670e-04,  1.9729e-04,  3.5214e-04,  ...,  3.8481e-04,
+          8.3113e-04,  9.0647e-04],
+        [ 4.3182e-03, -4.7755e-04, -8.7023e-04,  ..., -1.6327e-03,
+         -3.4447e-03, -7.3290e-04],
+        [ 4.7064e-04,  2.9564e-04,  4.7398e-04,  ...,  6.1893e-04,
+          1.3752e-03,  1.4954e-03]], device='cuda:0')
+Epoch 498, bias, value: tensor([ 0.0108,  0.0114, -0.0011,  0.0136, -0.0074, -0.0063,  0.0095,  0.0213,
+        -0.0338,  0.0501], device='cuda:0'), grad: tensor([ 0.0196,  0.0331, -0.0700,  0.0259, -0.0157, -0.0440,  0.0195,  0.0242,
+        -0.0090,  0.0162], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 497, time 217.29, cls_loss 0.4603 cls_loss_mapping 0.0008 cls_loss_causal 0.4342 re_mapping 0.0040 re_causal 0.0118 /// teacc 99.05 lr 0.00001000
+Epoch 499, weight, value: tensor([[-0.0813,  0.0713, -0.1193,  ..., -0.1277, -0.1262,  0.0234],
+        [-0.0895, -0.1796,  0.0099,  ..., -0.0540, -0.0391, -0.1175],
+        [ 0.0319, -0.1002,  0.0563,  ...,  0.1634, -0.1435, -0.0401],
+        ...,
+        [-0.1255, -0.2216,  0.0896,  ..., -0.0148, -0.0557,  0.0766],
+        [ 0.0297,  0.0410, -0.0365,  ..., -0.0911, -0.1056, -0.0258],
+        [-0.1633, -0.0015, -0.0021,  ..., -0.1841,  0.1186,  0.0298]],
+       device='cuda:0'), grad: tensor([[ 6.0081e-04, -9.1410e-04, -1.0914e-04,  ...,  1.5929e-05,
+          1.8030e-05, -8.3923e-04],
+        [ 1.7338e-03,  6.3705e-04, -6.5528e-06,  ...,  7.7367e-05,
+          2.9278e-03,  7.7391e-04],
+        [ 4.4060e-04,  4.2057e-04,  6.4373e-04,  ...,  4.0412e-04,
+          5.0879e-04,  9.4891e-04],
+        ...,
+        [ 7.3767e-04,  9.4271e-04, -4.9925e-04,  ..., -3.9029e-04,
+          1.4391e-03,  8.9169e-04],
+        [ 7.4816e-04,  6.4325e-04,  1.7977e-04,  ...,  8.8751e-05,
+          1.0424e-03,  8.7595e-04],
+        [ 4.3344e-04,  6.8760e-04, -9.8586e-05,  ...,  7.8917e-05,
+          4.1056e-04,  9.6893e-04]], device='cuda:0')
+Epoch 499, bias, value: tensor([ 0.0109,  0.0113, -0.0011,  0.0135, -0.0074, -0.0061,  0.0095,  0.0214,
+        -0.0339,  0.0500], device='cuda:0'), grad: tensor([-0.0012,  0.0013,  0.0156, -0.0103, -0.0131, -0.0437,  0.0311,  0.0160,
+         0.0174, -0.0129], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 498, time 217.09, cls_loss 0.4028 cls_loss_mapping 0.0008 cls_loss_causal 0.3797 re_mapping 0.0037 re_causal 0.0106 /// teacc 99.02 lr 0.00001000
+Epoch 500, weight, value: tensor([[-0.0814,  0.0713, -0.1192,  ..., -0.1277, -0.1262,  0.0233],
+        [-0.0896, -0.1795,  0.0099,  ..., -0.0543, -0.0391, -0.1175],
+        [ 0.0318, -0.1003,  0.0563,  ...,  0.1635, -0.1434, -0.0400],
+        ...,
+        [-0.1255, -0.2216,  0.0894,  ..., -0.0149, -0.0559,  0.0765],
+        [ 0.0297,  0.0410, -0.0364,  ..., -0.0911, -0.1056, -0.0257],
+        [-0.1632, -0.0014, -0.0019,  ..., -0.1843,  0.1187,  0.0299]],
+       device='cuda:0'), grad: tensor([[ 6.9962e-03, -1.0315e-02,  2.1164e-02,  ..., -1.7262e-04,
+          5.6744e-04,  6.8808e-04],
+        [ 1.9455e-04,  9.9063e-05,  5.8460e-04,  ...,  2.8014e-04,
+          4.0746e-04,  8.6260e-04],
+        [ 6.7186e-04,  3.3855e-04, -5.9843e-04,  ..., -1.3762e-03,
+         -1.0805e-03, -2.9182e-03],
+        ...,
+        [ 4.9978e-05,  6.0111e-05, -4.2458e-03,  ..., -9.1457e-04,
+         -7.9727e-04, -3.8567e-03],
+        [-5.1880e-04,  5.1346e-03,  8.1825e-04,  ...,  7.2289e-04,
+          6.7997e-04,  7.6723e-04],
+        [ 6.8235e-04,  6.1750e-05,  1.1806e-03,  ...,  6.8808e-04,
+         -6.6221e-05,  1.0767e-03]], device='cuda:0')
+Epoch 500, bias, value: tensor([ 0.0108,  0.0113, -0.0011,  0.0136, -0.0073, -0.0061,  0.0097,  0.0213,
+        -0.0339,  0.0499], device='cuda:0'), grad: tensor([ 0.0377,  0.0120, -0.0233,  0.0055,  0.0143, -0.0003, -0.0074, -0.0510,
+        -0.0055,  0.0179], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 499, time 217.72, cls_loss 0.4445 cls_loss_mapping 0.0007 cls_loss_causal 0.4180 re_mapping 0.0038 re_causal 0.0112 /// teacc 99.02 lr 0.00001000
+---------------------saving last model at epoch 499----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps5_RA', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps5_RA/14factor_best.csv', 'channels': 3, 'factor_num': 14, 'stride': 3, 'epoch': 'best', 'eval_mapping': True}
+loading weight of best
+randm: False
+stride: 3
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+Using downloaded and verified file: /home/yuqian_fu/.pytorch/SVHN/test_32x32.mat
+                         mnist   mnist_FA  ...    usps_FA        Avg
+ShearX               98.940002  98.889999  ...  89.287498  76.723734
+ShearY               98.930000  98.930000  ...  89.287498  73.559136
+AutoContrast         98.949997  99.019997  ...  89.287498  66.443730
+Invert               99.000000  99.000000  ...  89.287498  72.944757
+Equalize             98.419998  98.409996  ...  89.287498  66.992412
+Solarize             98.449997  98.570000  ...  89.287498  69.236865
+SolarizeAdd          98.680000  98.610001  ...  89.287498  72.770916
+Posterize            98.979996  99.019997  ...  89.287498  76.629822
+Contrast             99.180000  99.190002  ...  89.287498  78.385061
+Color                99.040001  99.080002  ...  89.287498  67.632051
+Brightness           99.119995  99.199997  ...  89.287498  77.591179
+Sharpness            99.040001  99.080002  ...  89.287498  78.275154
+NoiseSalt            98.979996  98.970001  ...  89.287498  70.400456
+NoiseGaussian        98.970001  99.080002  ...  89.287498  64.850480
+w/o do (original x)  99.080000   0.000000  ...   0.000000  79.583664
+
+[15 rows x 11 columns]
+    mnist       svhn    mnist_m   syndigit       usps        Avg
+do  99.05  70.586202  77.891345  79.681775  89.586447  79.436442
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps5_RA', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps5_RA/14factor_last.csv', 'channels': 3, 'factor_num': 14, 'stride': 3, 'epoch': 'last', 'eval_mapping': True}
+loading weight of last
+randm: False
+stride: 3
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+Using downloaded and verified file: /home/yuqian_fu/.pytorch/SVHN/test_32x32.mat
+                         mnist   mnist_FA  ...    usps_FA        Avg
+ShearX               98.949997  98.970001  ...  89.486794  76.881126
+ShearY               98.909996  98.909996  ...  89.486794  73.554698
+AutoContrast         98.930000  99.019997  ...  89.486794  66.492076
+Invert               98.979996  99.000000  ...  89.486794  72.618074
+Equalize             98.419998  98.459999  ...  89.486794  67.132525
+Solarize             98.470001  98.580002  ...  89.486794  68.999302
+SolarizeAdd          98.619995  98.659996  ...  89.486794  72.501183
+Posterize            98.949997  99.019997  ...  89.486794  76.556273
+Contrast             99.169998  99.199997  ...  89.486794  78.399466
+Color                99.059998  99.029999  ...  89.486794  67.984040
+Brightness           99.159996  99.190002  ...  89.486794  77.668425
+Sharpness            99.010002  99.049995  ...  89.486794  78.452616
+NoiseSalt            99.049995  99.019997  ...  89.486794  70.660622
+NoiseGaussian        99.019997  99.029999  ...  89.486794  65.199389
+w/o do (original x)  99.030000   0.000000  ...   0.000000  79.652907
+
+[15 rows x 11 columns]
+    mnist       svhn    mnist_m   syndigit      usps       Avg
+do  99.08  70.816687  77.602489  79.838794  89.78575  79.51093
diff --git a/Meta-causal/code-withStyleAttack/71582.error b/Meta-causal/code-withStyleAttack/71582.error
new file mode 100644
index 0000000000000000000000000000000000000000..6299d70f46fb33ff0c8abffa58005ba3dd92ae75
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/71582.error
@@ -0,0 +1,22 @@
+/scratch/yuqian_fu/micromamba/envs/auto-v5ewbna3m2oe/lib/python3.11/site-packages/torch/storage.py:414: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  return torch.load(io.BytesIO(b))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py:225: FutureWarning: `torch.cuda.amp.GradScaler(args...)` is deprecated. Please use `torch.amp.GradScaler('cuda', args...)` instead.
+  scaler = GradScaler()
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py:247: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with autocast():
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_digit_v13.py:45: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'best_cls_net.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_digit_v13.py:62: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'best_mapping_'+str(i)+'.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_digit_v13.py:72: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'best_E_to_W.pkl'))
+/scratch/yuqian_fu/micromamba/envs/auto-v5ewbna3m2oe/lib/python3.11/site-packages/torch/storage.py:414: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  return torch.load(io.BytesIO(b))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_digit_v13.py:48: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'last_cls_net.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_digit_v13.py:65: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'last_mapping_'+str(i)+'.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_digit_v13.py:75: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'last_E_to_W.pkl'))
+/scratch/yuqian_fu/micromamba/envs/auto-v5ewbna3m2oe/lib/python3.11/site-packages/torch/storage.py:414: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  return torch.load(io.BytesIO(b))
diff --git a/Meta-causal/code-withStyleAttack/71582.log b/Meta-causal/code-withStyleAttack/71582.log
new file mode 100644
index 0000000000000000000000000000000000000000..5cbefbea1e2fd98b61c439dfb6d62213d099643d
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/71582.log
@@ -0,0 +1,13338 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 500, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps5_RA', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 3
+--------------------------CA_multiple--------------------------
+---------------------------14 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+Epoch 1, weight, value: tensor([[-0.0120, -0.0010, -0.0128,  ...,  0.0255,  0.0182,  0.0039],
+        [-0.0303,  0.0148, -0.0231,  ...,  0.0144, -0.0009, -0.0120],
+        [-0.0132, -0.0048, -0.0112,  ..., -0.0214, -0.0085, -0.0015],
+        ...,
+        [-0.0015, -0.0011, -0.0129,  ...,  0.0289,  0.0076,  0.0227],
+        [ 0.0211, -0.0194,  0.0239,  ...,  0.0201,  0.0085, -0.0168],
+        [-0.0212, -0.0006,  0.0236,  ...,  0.0008, -0.0251,  0.0069]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([ 0.0239, -0.0221, -0.0014,  0.0055, -0.0262, -0.0104,  0.0130,  0.0054,
+         0.0297, -0.0295], device='cuda:0'), grad: None
+100
+0.0001
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 218.81, cls_loss 2.2794 cls_loss_mapping 2.2514 cls_loss_causal 2.2915 re_mapping 0.0072 re_causal 0.0072 /// teacc 54.17 lr 0.00010000
+Epoch 2, weight, value: tensor([[-0.0123, -0.0056, -0.0133,  ...,  0.0271,  0.0167,  0.0055],
+        [-0.0298,  0.0210, -0.0236,  ...,  0.0114, -0.0003, -0.0132],
+        [-0.0125, -0.0041, -0.0117,  ..., -0.0241, -0.0075,  0.0005],
+        ...,
+        [-0.0023, -0.0014, -0.0134,  ...,  0.0270,  0.0088,  0.0209],
+        [ 0.0218, -0.0197,  0.0234,  ...,  0.0192,  0.0082, -0.0191],
+        [-0.0220, -0.0061,  0.0230,  ...,  0.0011, -0.0250,  0.0042]],
+       device='cuda:0'), grad: tensor([[ 0.0000,  0.0032,  0.0000,  ...,  0.0035,  0.0021,  0.0042],
+        [ 0.0000, -0.0105,  0.0000,  ..., -0.0030, -0.0035, -0.0079],
+        [ 0.0000,  0.0007,  0.0000,  ..., -0.0040,  0.0025, -0.0085],
+        ...,
+        [ 0.0000,  0.0002,  0.0000,  ..., -0.0034, -0.0017, -0.0033],
+        [ 0.0000, -0.0034,  0.0000,  ...,  0.0024, -0.0040,  0.0066],
+        [ 0.0000,  0.0041,  0.0000,  ...,  0.0032,  0.0028,  0.0135]],
+       device='cuda:0')
+Epoch 2, bias, value: tensor([ 0.0236, -0.0205, -0.0016,  0.0059, -0.0261, -0.0128,  0.0132,  0.0061,
+         0.0273, -0.0298], device='cuda:0'), grad: tensor([ 0.0692, -0.0515, -0.0214,  0.0593,  0.0415, -0.0475, -0.0493, -0.0622,
+        -0.0302,  0.0920], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 217.25, cls_loss 1.9695 cls_loss_mapping 1.2944 cls_loss_causal 1.9570 re_mapping 0.1093 re_causal 0.1066 /// teacc 84.67 lr 0.00010000
+Epoch 3, weight, value: tensor([[-0.0203, -0.0097, -0.0147,  ...,  0.0343,  0.0105,  0.0094],
+        [-0.0260,  0.0244, -0.0223,  ...,  0.0084, -0.0055, -0.0168],
+        [-0.0160,  0.0011, -0.0130,  ..., -0.0292, -0.0065,  0.0053],
+        ...,
+        [-0.0027, -0.0015, -0.0149,  ...,  0.0240,  0.0152,  0.0161],
+        [ 0.0266, -0.0198,  0.0219,  ...,  0.0157,  0.0081, -0.0194],
+        [-0.0194, -0.0099,  0.0215,  ...,  0.0016, -0.0215,  0.0012]],
+       device='cuda:0'), grad: tensor([[ 0.0041,  0.0003,  0.0000,  ...,  0.0002, -0.0051, -0.0002],
+        [-0.0094, -0.0365,  0.0000,  ...,  0.0037, -0.0301, -0.0159],
+        [ 0.0033,  0.0128,  0.0000,  ...,  0.0022,  0.0125,  0.0103],
+        ...,
+        [ 0.0048,  0.0088,  0.0000,  ...,  0.0048, -0.0072,  0.0048],
+        [ 0.0039,  0.0041,  0.0000,  ...,  0.0066,  0.0078,  0.0054],
+        [ 0.0025,  0.0001,  0.0000,  ..., -0.0122,  0.0021,  0.0021]],
+       device='cuda:0')
+Epoch 3, bias, value: tensor([ 0.0231, -0.0206, -0.0020,  0.0055, -0.0263, -0.0116,  0.0121,  0.0071,
+         0.0278, -0.0298], device='cuda:0'), grad: tensor([-0.0209, -0.0518,  0.0127, -0.0015,  0.0460,  0.0063,  0.0238,  0.0140,
+         0.0218, -0.0504], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 217.20, cls_loss 1.5947 cls_loss_mapping 0.5548 cls_loss_causal 1.5514 re_mapping 0.1244 re_causal 0.1799 /// teacc 91.84 lr 0.00010000
+Epoch 4, weight, value: tensor([[-2.5938e-02, -1.2469e-02, -2.1475e-02,  ...,  4.2999e-02,
+          6.9269e-03,  1.2125e-02],
+        [-2.6396e-02,  2.5986e-02, -2.9322e-02,  ...,  5.3832e-03,
+         -9.4213e-03, -2.0880e-02],
+        [-1.5223e-02,  5.2595e-03, -1.6341e-02,  ..., -3.3421e-02,
+         -2.9382e-03,  1.0018e-02],
+        ...,
+        [-6.4098e-03, -3.9228e-04, -2.4613e-02,  ...,  2.0228e-02,
+          1.6866e-02,  1.3742e-02],
+        [ 3.0365e-02, -2.1655e-02,  1.8822e-02,  ...,  9.8972e-03,
+          8.7229e-03, -2.1048e-02],
+        [-1.5215e-02, -1.4300e-02,  2.0314e-02,  ..., -1.0346e-03,
+         -1.8924e-02,  2.7899e-05]], device='cuda:0'), grad: tensor([[ 6.6681e-03,  1.7033e-03,  9.1612e-05,  ..., -3.6888e-03,
+          1.6647e-02, -2.0969e-04],
+        [-7.2174e-03, -4.1504e-03,  6.5756e-04,  ...,  8.1205e-04,
+         -1.4297e-02, -5.7030e-03],
+        [ 1.7685e-02,  8.0049e-05,  1.3323e-03,  ...,  5.2490e-03,
+          1.8616e-02,  3.6068e-03],
+        ...,
+        [ 3.6564e-03, -1.0033e-03, -7.5874e-03,  ...,  2.0638e-03,
+         -3.4790e-02,  2.4300e-03],
+        [ 1.3596e-02, -9.4070e-03,  1.7347e-03,  ...,  5.2757e-03,
+          7.0152e-03,  6.5575e-03],
+        [ 9.3689e-03,  2.5463e-03, -7.7152e-04,  ..., -8.0776e-04,
+          1.8997e-02,  3.4695e-03]], device='cuda:0')
+Epoch 4, bias, value: tensor([ 0.0230, -0.0209, -0.0021,  0.0062, -0.0268, -0.0110,  0.0122,  0.0071,
+         0.0273, -0.0298], device='cuda:0'), grad: tensor([ 0.0249, -0.0671,  0.0419, -0.0549,  0.0301,  0.0325, -0.0328, -0.0304,
+         0.0461,  0.0097], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 217.35, cls_loss 1.3769 cls_loss_mapping 0.3419 cls_loss_causal 1.3131 re_mapping 0.0944 re_causal 0.1656 /// teacc 93.47 lr 0.00010000
+Epoch 5, weight, value: tensor([[-3.0271e-02, -1.3065e-02, -2.4105e-02,  ...,  4.6792e-02,
+          4.9514e-03,  1.4469e-02],
+        [-2.9623e-02,  2.9065e-02, -3.0910e-02,  ...,  3.9618e-03,
+         -1.2069e-02, -2.4095e-02],
+        [-1.2703e-02,  7.2855e-03, -1.9777e-02,  ..., -3.4584e-02,
+         -1.4832e-03,  1.4023e-02],
+        ...,
+        [-6.7980e-03,  1.6590e-05, -2.7696e-02,  ...,  1.8759e-02,
+          1.7525e-02,  1.3227e-02],
+        [ 3.1546e-02, -2.2049e-02,  1.8277e-02,  ...,  8.3874e-03,
+          7.6445e-03, -2.2575e-02],
+        [-1.4415e-02, -1.6883e-02,  2.3732e-02,  ..., -3.3791e-03,
+         -1.7307e-02, -1.3963e-03]], device='cuda:0'), grad: tensor([[ 1.2579e-03, -2.3499e-03,  1.0757e-03,  ...,  2.5543e-02,
+          3.6335e-03,  6.0349e-03],
+        [ 3.7599e-04,  6.2227e-05, -1.7834e-03,  ...,  1.2722e-03,
+         -2.4128e-03,  1.7691e-03],
+        [ 2.9182e-04, -8.5754e-03,  9.6226e-04,  ...,  1.0216e-02,
+         -6.8512e-03, -1.2413e-02],
+        ...,
+        [ 1.5249e-03,  2.2964e-03, -2.8539e-04,  ..., -4.1795e-04,
+         -3.5763e-04,  3.8013e-03],
+        [ 9.6560e-04, -1.2274e-03,  1.5392e-03,  ..., -6.9618e-03,
+         -1.6556e-02, -1.9331e-03],
+        [-8.1482e-03,  1.7805e-03,  5.3549e-04,  ...,  7.4539e-03,
+          2.2566e-04,  1.9855e-03]], device='cuda:0')
+Epoch 5, bias, value: tensor([ 0.0230, -0.0211, -0.0016,  0.0059, -0.0274, -0.0112,  0.0126,  0.0073,
+         0.0273, -0.0294], device='cuda:0'), grad: tensor([ 0.0732, -0.0196,  0.0040,  0.0591, -0.0646,  0.0346, -0.0478,  0.0014,
+        -0.0482,  0.0079], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 227.29, cls_loss 1.3115 cls_loss_mapping 0.2684 cls_loss_causal 1.2631 re_mapping 0.0713 re_causal 0.1427 /// teacc 95.05 lr 0.00010000
+Epoch 6, weight, value: tensor([[-0.0322, -0.0146, -0.0247,  ...,  0.0489,  0.0047,  0.0159],
+        [-0.0300,  0.0305, -0.0323,  ...,  0.0046, -0.0129, -0.0256],
+        [-0.0122,  0.0099, -0.0231,  ..., -0.0357, -0.0016,  0.0171],
+        ...,
+        [-0.0077,  0.0009, -0.0277,  ...,  0.0176,  0.0178,  0.0129],
+        [ 0.0329, -0.0223,  0.0167,  ...,  0.0075,  0.0070, -0.0233],
+        [-0.0144, -0.0201,  0.0259,  ..., -0.0054, -0.0159, -0.0026]],
+       device='cuda:0'), grad: tensor([[-0.0153, -0.0041,  0.0007,  ..., -0.0039, -0.0161, -0.0071],
+        [ 0.0157, -0.0035, -0.0033,  ..., -0.0047, -0.0049, -0.0066],
+        [ 0.0129,  0.0023,  0.0034,  ...,  0.0015,  0.0229,  0.0026],
+        ...,
+        [ 0.0057,  0.0012,  0.0016,  ..., -0.0009,  0.0138,  0.0025],
+        [ 0.0302,  0.0023,  0.0037,  ...,  0.0045,  0.0209,  0.0028],
+        [ 0.0242,  0.0018,  0.0132,  ...,  0.0038,  0.0393,  0.0031]],
+       device='cuda:0')
+Epoch 6, bias, value: tensor([ 0.0233, -0.0211, -0.0019,  0.0064, -0.0271, -0.0120,  0.0127,  0.0071,
+         0.0272, -0.0294], device='cuda:0'), grad: tensor([-0.0734, -0.0536,  0.0490, -0.0058,  0.0039, -0.0195, -0.0358,  0.0335,
+         0.0246,  0.0771], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 5----------------------------------------------------
+epoch 5, time 220.22, cls_loss 1.2216 cls_loss_mapping 0.2157 cls_loss_causal 1.1663 re_mapping 0.0606 re_causal 0.1262 /// teacc 95.23 lr 0.00010000
+Epoch 7, weight, value: tensor([[-0.0346, -0.0157, -0.0287,  ...,  0.0510,  0.0034,  0.0168],
+        [-0.0318,  0.0333, -0.0350,  ...,  0.0045, -0.0142, -0.0282],
+        [-0.0113,  0.0113, -0.0259,  ..., -0.0353, -0.0010,  0.0191],
+        ...,
+        [-0.0084,  0.0024, -0.0278,  ...,  0.0169,  0.0180,  0.0124],
+        [ 0.0336, -0.0242,  0.0169,  ...,  0.0068,  0.0065, -0.0249],
+        [-0.0136, -0.0230,  0.0284,  ..., -0.0062, -0.0147, -0.0032]],
+       device='cuda:0'), grad: tensor([[ 0.0219,  0.0033,  0.0008,  ...,  0.0063,  0.0163,  0.0225],
+        [ 0.0018, -0.0050, -0.0089,  ...,  0.0017, -0.0070,  0.0055],
+        [ 0.0159,  0.0068,  0.0100,  ...,  0.0052,  0.0288,  0.0246],
+        ...,
+        [-0.0022, -0.0059,  0.0026,  ..., -0.0035, -0.0173, -0.0099],
+        [-0.0097,  0.0011,  0.0058,  ..., -0.0035,  0.0018, -0.0040],
+        [ 0.0090, -0.0069, -0.0036,  ..., -0.0039, -0.0235, -0.0080]],
+       device='cuda:0')
+Epoch 7, bias, value: tensor([ 0.0234, -0.0212, -0.0016,  0.0060, -0.0271, -0.0113,  0.0122,  0.0067,
+         0.0275, -0.0293], device='cuda:0'), grad: tensor([ 0.0349,  0.0010,  0.1001,  0.0396,  0.0006, -0.0239, -0.0413, -0.0488,
+         0.0088, -0.0712], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 6, time 216.53, cls_loss 1.1757 cls_loss_mapping 0.2028 cls_loss_causal 1.1213 re_mapping 0.0520 re_causal 0.1155 /// teacc 94.60 lr 0.00010000
+Epoch 8, weight, value: tensor([[-0.0341, -0.0159, -0.0325,  ...,  0.0518,  0.0024,  0.0179],
+        [-0.0322,  0.0351, -0.0366,  ...,  0.0045, -0.0157, -0.0298],
+        [-0.0120,  0.0132, -0.0294,  ..., -0.0364, -0.0010,  0.0211],
+        ...,
+        [-0.0085,  0.0038, -0.0262,  ...,  0.0171,  0.0180,  0.0111],
+        [ 0.0350, -0.0244,  0.0155,  ...,  0.0067,  0.0072, -0.0260],
+        [-0.0141, -0.0248,  0.0299,  ..., -0.0073, -0.0140, -0.0029]],
+       device='cuda:0'), grad: tensor([[ 0.0011,  0.0010,  0.0027,  ...,  0.0006,  0.0005, -0.0092],
+        [-0.0101, -0.0037, -0.0013,  ...,  0.0009, -0.0067, -0.0060],
+        [ 0.0066,  0.0013,  0.0057,  ...,  0.0068,  0.0144,  0.0048],
+        ...,
+        [ 0.0065, -0.0030,  0.0002,  ..., -0.0003,  0.0099,  0.0028],
+        [ 0.0051,  0.0058,  0.0065,  ..., -0.0009,  0.0193,  0.0138],
+        [-0.0023,  0.0009,  0.0004,  ..., -0.0036, -0.0089, -0.0011]],
+       device='cuda:0')
+Epoch 8, bias, value: tensor([ 0.0228, -0.0216, -0.0020,  0.0066, -0.0273, -0.0119,  0.0130,  0.0067,
+         0.0279, -0.0290], device='cuda:0'), grad: tensor([-0.0079, -0.0311,  0.0343,  0.0353, -0.0811,  0.0175,  0.0030,  0.0006,
+         0.0624, -0.0331], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 7----------------------------------------------------
+epoch 7, time 217.14, cls_loss 1.1540 cls_loss_mapping 0.1912 cls_loss_causal 1.1180 re_mapping 0.0468 re_causal 0.1153 /// teacc 96.45 lr 0.00010000
+Epoch 9, weight, value: tensor([[-0.0355, -0.0167, -0.0343,  ...,  0.0533,  0.0020,  0.0200],
+        [-0.0336,  0.0365, -0.0384,  ...,  0.0054, -0.0164, -0.0311],
+        [-0.0118,  0.0142, -0.0322,  ..., -0.0362, -0.0012,  0.0233],
+        ...,
+        [-0.0081,  0.0057, -0.0266,  ...,  0.0155,  0.0183,  0.0109],
+        [ 0.0358, -0.0258,  0.0155,  ...,  0.0054,  0.0069, -0.0271],
+        [-0.0142, -0.0269,  0.0314,  ..., -0.0068, -0.0126, -0.0039]],
+       device='cuda:0'), grad: tensor([[ 0.0104,  0.0010,  0.0032,  ...,  0.0024,  0.0046,  0.0039],
+        [-0.0137, -0.0048, -0.0004,  ..., -0.0035, -0.0047, -0.0033],
+        [-0.0015, -0.0035, -0.0051,  ..., -0.0114, -0.0070, -0.0107],
+        ...,
+        [-0.0141, -0.0024, -0.0089,  ..., -0.0036, -0.0199, -0.0095],
+        [ 0.0082, -0.0031, -0.0042,  ...,  0.0003, -0.0081, -0.0211],
+        [-0.0195,  0.0005, -0.0164,  ..., -0.0060, -0.0129, -0.0062]],
+       device='cuda:0')
+Epoch 9, bias, value: tensor([ 0.0233, -0.0215, -0.0017,  0.0067, -0.0271, -0.0123,  0.0128,  0.0068,
+         0.0274, -0.0292], device='cuda:0'), grad: tensor([ 0.0225, -0.0326, -0.0596,  0.0134,  0.0422,  0.0479,  0.0913, -0.0271,
+        -0.0580, -0.0400], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 8----------------------------------------------------
+epoch 8, time 218.09, cls_loss 1.0672 cls_loss_mapping 0.1706 cls_loss_causal 1.0197 re_mapping 0.0429 re_causal 0.1043 /// teacc 96.53 lr 0.00010000
+Epoch 10, weight, value: tensor([[-0.0361, -0.0177, -0.0351,  ...,  0.0544,  0.0012,  0.0204],
+        [-0.0347,  0.0386, -0.0408,  ...,  0.0073, -0.0177, -0.0317],
+        [-0.0125,  0.0161, -0.0328,  ..., -0.0358, -0.0009,  0.0248],
+        ...,
+        [-0.0071,  0.0074, -0.0247,  ...,  0.0145,  0.0188,  0.0104],
+        [ 0.0361, -0.0267,  0.0146,  ...,  0.0047,  0.0069, -0.0278],
+        [-0.0151, -0.0285,  0.0317,  ..., -0.0076, -0.0125, -0.0038]],
+       device='cuda:0'), grad: tensor([[ 0.0036,  0.0027,  0.0008,  ..., -0.0039,  0.0007, -0.0045],
+        [ 0.0023,  0.0034,  0.0050,  ...,  0.0069,  0.0074,  0.0081],
+        [ 0.0039,  0.0010, -0.0004,  ...,  0.0014,  0.0044,  0.0030],
+        ...,
+        [-0.0025, -0.0024,  0.0008,  ...,  0.0032, -0.0038,  0.0016],
+        [-0.0015, -0.0140, -0.0223,  ..., -0.0089, -0.0024, -0.0074],
+        [ 0.0023,  0.0018,  0.0041,  ...,  0.0006,  0.0030, -0.0017]],
+       device='cuda:0')
+Epoch 10, bias, value: tensor([ 0.0234, -0.0217, -0.0015,  0.0066, -0.0272, -0.0118,  0.0123,  0.0067,
+         0.0273, -0.0290], device='cuda:0'), grad: tensor([ 0.0034,  0.0267, -0.0030, -0.0673,  0.0167,  0.0255,  0.0363,  0.0060,
+        -0.0528,  0.0087], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 9, time 217.11, cls_loss 1.0530 cls_loss_mapping 0.1592 cls_loss_causal 1.0063 re_mapping 0.0394 re_causal 0.1011 /// teacc 96.30 lr 0.00010000
+Epoch 11, weight, value: tensor([[-0.0359, -0.0182, -0.0366,  ...,  0.0547,  0.0015,  0.0210],
+        [-0.0360,  0.0399, -0.0427,  ...,  0.0072, -0.0185, -0.0320],
+        [-0.0131,  0.0172, -0.0361,  ..., -0.0358, -0.0010,  0.0265],
+        ...,
+        [-0.0072,  0.0083, -0.0236,  ...,  0.0160,  0.0182,  0.0096],
+        [ 0.0368, -0.0281,  0.0137,  ...,  0.0050,  0.0069, -0.0277],
+        [-0.0149, -0.0312,  0.0325,  ..., -0.0091, -0.0117, -0.0046]],
+       device='cuda:0'), grad: tensor([[ 0.0029, -0.0033, -0.0042,  ..., -0.0028, -0.0067, -0.0012],
+        [ 0.0019,  0.0072,  0.0028,  ...,  0.0020,  0.0074,  0.0065],
+        [-0.0015, -0.0221,  0.0019,  ..., -0.0088, -0.0140, -0.0192],
+        ...,
+        [-0.0071, -0.0150, -0.0144,  ..., -0.0027, -0.0096, -0.0028],
+        [-0.0001,  0.0048,  0.0035,  ...,  0.0034,  0.0033,  0.0037],
+        [ 0.0018,  0.0086,  0.0045,  ...,  0.0039,  0.0035,  0.0027]],
+       device='cuda:0')
+Epoch 11, bias, value: tensor([ 0.0233, -0.0219, -0.0013,  0.0062, -0.0269, -0.0114,  0.0123,  0.0066,
+         0.0276, -0.0293], device='cuda:0'), grad: tensor([-0.0107,  0.0264, -0.0624,  0.0223,  0.0152,  0.0233, -0.0048, -0.0468,
+         0.0178,  0.0197], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 10----------------------------------------------------
+epoch 10, time 224.22, cls_loss 1.0390 cls_loss_mapping 0.1514 cls_loss_causal 1.0004 re_mapping 0.0382 re_causal 0.1046 /// teacc 96.74 lr 0.00010000
+Epoch 12, weight, value: tensor([[-0.0360, -0.0187, -0.0395,  ...,  0.0551,  0.0012,  0.0225],
+        [-0.0362,  0.0411, -0.0436,  ...,  0.0082, -0.0192, -0.0331],
+        [-0.0141,  0.0180, -0.0375,  ..., -0.0364, -0.0006,  0.0279],
+        ...,
+        [-0.0077,  0.0092, -0.0233,  ...,  0.0153,  0.0178,  0.0087],
+        [ 0.0373, -0.0293,  0.0135,  ...,  0.0052,  0.0063, -0.0284],
+        [-0.0138, -0.0322,  0.0340,  ..., -0.0094, -0.0104, -0.0047]],
+       device='cuda:0'), grad: tensor([[ 2.7409e-03,  4.8141e-03,  3.3131e-03,  ...,  5.0659e-03,
+          8.4076e-03,  1.1475e-02],
+        [ 1.0262e-03, -6.1378e-03, -3.0327e-03,  ..., -7.2899e-03,
+         -1.9436e-03, -4.0078e-04],
+        [-5.2338e-03, -1.1063e-02,  1.3280e-04,  ..., -1.6739e-02,
+         -3.0106e-02, -4.0680e-02],
+        ...,
+        [ 1.9970e-03, -9.8646e-05,  1.1772e-02,  ..., -3.0098e-03,
+          1.3321e-02, -3.3779e-03],
+        [-1.6899e-03,  5.3482e-03,  1.5020e-03,  ...,  5.4016e-03,
+          6.4125e-03,  7.2098e-03],
+        [-8.3923e-03, -4.0512e-03, -1.9577e-02,  ..., -1.2856e-03,
+         -2.4384e-02, -9.3918e-03]], device='cuda:0')
+Epoch 12, bias, value: tensor([ 0.0232, -0.0225, -0.0016,  0.0063, -0.0268, -0.0113,  0.0128,  0.0068,
+         0.0278, -0.0294], device='cuda:0'), grad: tensor([ 0.0481, -0.0218, -0.0645,  0.0182,  0.0086,  0.0244, -0.0089,  0.0138,
+         0.0408, -0.0586], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 11----------------------------------------------------
+epoch 11, time 227.86, cls_loss 1.0088 cls_loss_mapping 0.1393 cls_loss_causal 0.9723 re_mapping 0.0333 re_causal 0.0902 /// teacc 97.22 lr 0.00010000
+Epoch 13, weight, value: tensor([[-0.0365, -0.0186, -0.0388,  ...,  0.0556,  0.0008,  0.0226],
+        [-0.0362,  0.0414, -0.0453,  ...,  0.0078, -0.0200, -0.0343],
+        [-0.0149,  0.0184, -0.0400,  ..., -0.0363, -0.0004,  0.0298],
+        ...,
+        [-0.0079,  0.0102, -0.0228,  ...,  0.0148,  0.0183,  0.0084],
+        [ 0.0386, -0.0295,  0.0126,  ...,  0.0050,  0.0060, -0.0299],
+        [-0.0145, -0.0332,  0.0347,  ..., -0.0100, -0.0100, -0.0045]],
+       device='cuda:0'), grad: tensor([[-2.7657e-03, -1.2192e-02, -1.6308e-03,  ..., -1.2733e-02,
+         -3.0441e-03, -4.7531e-03],
+        [-1.5755e-03,  3.6240e-03,  1.6060e-03,  ...,  3.1548e-03,
+          6.7406e-03,  2.9106e-03],
+        [ 1.6956e-03,  6.8188e-04,  2.4624e-03,  ...,  2.9926e-03,
+         -2.5024e-03, -3.5648e-03],
+        ...,
+        [ 2.5501e-03,  7.7820e-03,  6.5269e-03,  ...,  7.6599e-03,
+          1.6434e-02,  3.7785e-03],
+        [ 4.1466e-03, -2.3537e-03,  9.7603e-06,  ..., -2.6226e-04,
+         -2.7394e-04, -1.5879e-03],
+        [ 7.3662e-03,  5.3291e-03,  2.0027e-03,  ..., -3.9101e-03,
+         -9.4910e-03,  2.5311e-03]], device='cuda:0')
+Epoch 13, bias, value: tensor([ 0.0235, -0.0230, -0.0019,  0.0062, -0.0265, -0.0108,  0.0129,  0.0070,
+         0.0276, -0.0295], device='cuda:0'), grad: tensor([-0.0534,  0.0306,  0.0138,  0.0146, -0.0489,  0.0618, -0.0386,  0.0611,
+        -0.0030, -0.0380], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 12, time 226.30, cls_loss 0.9957 cls_loss_mapping 0.1362 cls_loss_causal 0.9603 re_mapping 0.0341 re_causal 0.0938 /// teacc 96.99 lr 0.00010000
+Epoch 14, weight, value: tensor([[-0.0372, -0.0189, -0.0403,  ...,  0.0572,  0.0005,  0.0238],
+        [-0.0363,  0.0417, -0.0482,  ...,  0.0085, -0.0212, -0.0346],
+        [-0.0147,  0.0205, -0.0416,  ..., -0.0352,  0.0003,  0.0315],
+        ...,
+        [-0.0076,  0.0098, -0.0216,  ...,  0.0139,  0.0182,  0.0074],
+        [ 0.0384, -0.0297,  0.0128,  ...,  0.0043,  0.0064, -0.0295],
+        [-0.0151, -0.0333,  0.0356,  ..., -0.0106, -0.0094, -0.0060]],
+       device='cuda:0'), grad: tensor([[-8.4457e-03, -7.7324e-03,  2.8744e-03,  ..., -1.3313e-02,
+         -1.9817e-03, -6.8932e-03],
+        [ 5.5466e-03, -7.4005e-03, -4.9133e-03,  ..., -6.5575e-03,
+         -3.3894e-03, -1.1421e-02],
+        [ 1.3985e-02,  9.2697e-03,  5.6725e-03,  ...,  1.2497e-02,
+          1.7471e-02,  4.6883e-03],
+        ...,
+        [ 3.0766e-03,  7.4434e-04, -1.7290e-03,  ...,  5.1422e-03,
+         -1.4015e-02,  2.8477e-03],
+        [ 4.4518e-03,  9.8953e-03, -5.7638e-05,  ...,  5.2757e-03,
+          2.2934e-02,  3.5782e-03],
+        [-5.2528e-03, -4.4212e-03,  4.4556e-03,  ..., -4.0398e-03,
+          4.6425e-03,  2.2240e-03]], device='cuda:0')
+Epoch 14, bias, value: tensor([ 0.0231, -0.0234, -0.0019,  0.0065, -0.0264, -0.0110,  0.0126,  0.0069,
+         0.0280, -0.0291], device='cuda:0'), grad: tensor([-0.0309, -0.0472,  0.0699,  0.0070,  0.0033, -0.0710,  0.0076,  0.0069,
+         0.0482,  0.0062], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 13, time 227.07, cls_loss 0.9521 cls_loss_mapping 0.1235 cls_loss_causal 0.9164 re_mapping 0.0310 re_causal 0.0879 /// teacc 96.92 lr 0.00010000
+Epoch 15, weight, value: tensor([[-0.0378, -0.0191, -0.0412,  ...,  0.0580,  0.0004,  0.0247],
+        [-0.0372,  0.0428, -0.0489,  ...,  0.0089, -0.0215, -0.0352],
+        [-0.0144,  0.0217, -0.0427,  ..., -0.0360,  0.0001,  0.0325],
+        ...,
+        [-0.0073,  0.0102, -0.0201,  ...,  0.0137,  0.0185,  0.0065],
+        [ 0.0385, -0.0306,  0.0119,  ...,  0.0052,  0.0056, -0.0293],
+        [-0.0154, -0.0348,  0.0356,  ..., -0.0121, -0.0089, -0.0066]],
+       device='cuda:0'), grad: tensor([[ 0.0061,  0.0147,  0.0106,  ...,  0.0080,  0.0118,  0.0014],
+        [ 0.0316,  0.0413,  0.0088,  ...,  0.0143,  0.0214,  0.0052],
+        [-0.0033,  0.0077, -0.0007,  ..., -0.0006,  0.0082,  0.0013],
+        ...,
+        [ 0.0021,  0.0098,  0.0086,  ...,  0.0053,  0.0143,  0.0043],
+        [-0.0491, -0.0449, -0.0163,  ..., -0.0106, -0.0399, -0.0065],
+        [ 0.0006, -0.0054, -0.0222,  ..., -0.0048, -0.0147, -0.0071]],
+       device='cuda:0')
+Epoch 15, bias, value: tensor([ 0.0235, -0.0233, -0.0025,  0.0066, -0.0265, -0.0107,  0.0121,  0.0073,
+         0.0282, -0.0293], device='cuda:0'), grad: tensor([ 0.0541,  0.0702,  0.0065, -0.0316, -0.0043, -0.0299,  0.0477,  0.0434,
+        -0.1163, -0.0397], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 14, time 227.12, cls_loss 0.9381 cls_loss_mapping 0.1244 cls_loss_causal 0.8982 re_mapping 0.0301 re_causal 0.0858 /// teacc 96.85 lr 0.00010000
+Epoch 16, weight, value: tensor([[-0.0379, -0.0198, -0.0439,  ...,  0.0590, -0.0012,  0.0247],
+        [-0.0374,  0.0436, -0.0497,  ...,  0.0098, -0.0220, -0.0354],
+        [-0.0149,  0.0234, -0.0436,  ..., -0.0348,  0.0006,  0.0342],
+        ...,
+        [-0.0073,  0.0104, -0.0201,  ...,  0.0139,  0.0183,  0.0057],
+        [ 0.0389, -0.0319,  0.0123,  ...,  0.0036,  0.0056, -0.0294],
+        [-0.0154, -0.0355,  0.0365,  ..., -0.0127, -0.0082, -0.0066]],
+       device='cuda:0'), grad: tensor([[ 0.0026, -0.0023, -0.0016,  ...,  0.0066,  0.0118,  0.0074],
+        [ 0.0002, -0.0085, -0.0015,  ..., -0.0057, -0.0097,  0.0004],
+        [ 0.0003,  0.0082,  0.0046,  ...,  0.0052,  0.0110,  0.0124],
+        ...,
+        [ 0.0004, -0.0033, -0.0132,  ..., -0.0012, -0.0238, -0.0010],
+        [ 0.0003, -0.0131, -0.0138,  ..., -0.0103, -0.0201, -0.0260],
+        [-0.0037,  0.0033, -0.0021,  ...,  0.0049,  0.0034,  0.0055]],
+       device='cuda:0')
+Epoch 16, bias, value: tensor([ 0.0232, -0.0230, -0.0014,  0.0071, -0.0268, -0.0104,  0.0118,  0.0064,
+         0.0275, -0.0291], device='cuda:0'), grad: tensor([ 0.0218, -0.0243,  0.0531,  0.0410,  0.0464, -0.0158, -0.0039, -0.0399,
+        -0.1104,  0.0318], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 15----------------------------------------------------
+epoch 15, time 227.44, cls_loss 0.9216 cls_loss_mapping 0.1111 cls_loss_causal 0.8931 re_mapping 0.0290 re_causal 0.0830 /// teacc 97.27 lr 0.00010000
+Epoch 17, weight, value: tensor([[-0.0374, -0.0197, -0.0447,  ...,  0.0602, -0.0021,  0.0254],
+        [-0.0380,  0.0441, -0.0500,  ...,  0.0093, -0.0226, -0.0362],
+        [-0.0166,  0.0247, -0.0454,  ..., -0.0347,  0.0006,  0.0349],
+        ...,
+        [-0.0074,  0.0105, -0.0191,  ...,  0.0145,  0.0186,  0.0053],
+        [ 0.0400, -0.0330,  0.0127,  ...,  0.0034,  0.0058, -0.0295],
+        [-0.0145, -0.0357,  0.0372,  ..., -0.0135, -0.0081, -0.0068]],
+       device='cuda:0'), grad: tensor([[ 4.2419e-03, -3.9711e-03,  2.7294e-03,  ..., -2.4185e-03,
+         -1.9302e-03, -7.6027e-03],
+        [ 3.1700e-03, -1.7824e-03,  6.5660e-04,  ..., -3.2387e-03,
+         -8.8751e-05, -2.5234e-03],
+        [ 3.0308e-03,  4.9896e-03,  8.0109e-03,  ...,  1.9608e-03,
+          1.3611e-02,  1.2650e-02],
+        ...,
+        [ 1.2579e-03,  1.9207e-03, -1.4580e-02,  ..., -5.3120e-04,
+         -2.3365e-03,  2.5597e-03],
+        [-2.0065e-02,  1.9550e-03,  1.0881e-03,  ..., -7.8964e-04,
+         -2.0103e-03,  1.7996e-03],
+        [ 1.3237e-02,  8.0919e-04,  4.6806e-03,  ...,  1.3714e-03,
+          1.0559e-02,  2.3861e-03]], device='cuda:0')
+Epoch 17, bias, value: tensor([ 0.0232, -0.0232, -0.0019,  0.0073, -0.0265, -0.0109,  0.0119,  0.0065,
+         0.0279, -0.0290], device='cuda:0'), grad: tensor([-0.0213, -0.0080,  0.0427,  0.0135, -0.0605,  0.0076,  0.0244, -0.0209,
+        -0.0178,  0.0403], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 16----------------------------------------------------
+epoch 16, time 230.04, cls_loss 0.9264 cls_loss_mapping 0.1080 cls_loss_causal 0.9001 re_mapping 0.0269 re_causal 0.0803 /// teacc 97.49 lr 0.00010000
+Epoch 18, weight, value: tensor([[-0.0374, -0.0198, -0.0458,  ...,  0.0602, -0.0020,  0.0252],
+        [-0.0381,  0.0444, -0.0517,  ...,  0.0089, -0.0231, -0.0370],
+        [-0.0167,  0.0252, -0.0453,  ..., -0.0349,  0.0004,  0.0355],
+        ...,
+        [-0.0069,  0.0115, -0.0183,  ...,  0.0143,  0.0193,  0.0047],
+        [ 0.0402, -0.0327,  0.0131,  ...,  0.0040,  0.0059, -0.0291],
+        [-0.0150, -0.0371,  0.0374,  ..., -0.0148, -0.0080, -0.0072]],
+       device='cuda:0'), grad: tensor([[ 2.1591e-03,  3.4103e-03,  4.7150e-03,  ...,  1.7967e-03,
+          4.4975e-03,  4.6921e-03],
+        [-1.5154e-03,  4.5433e-03,  2.9430e-03,  ...,  1.4429e-03,
+          1.6661e-03, -5.8651e-05],
+        [ 7.5073e-03, -7.8487e-04,  8.4610e-03,  ...,  2.1400e-03,
+          8.3389e-03,  2.2972e-04],
+        ...,
+        [-2.3251e-03, -1.8387e-02, -4.6616e-03,  ..., -8.5907e-03,
+         -6.8741e-03, -3.3321e-03],
+        [ 5.3940e-03,  4.0016e-03,  3.1471e-03,  ...,  8.2159e-04,
+          4.6577e-03,  4.2725e-03],
+        [ 6.0539e-03,  6.5269e-03,  1.4496e-02,  ...,  3.3493e-03,
+          1.1932e-02,  8.0872e-03]], device='cuda:0')
+Epoch 18, bias, value: tensor([ 0.0230, -0.0236, -0.0018,  0.0072, -0.0262, -0.0110,  0.0123,  0.0065,
+         0.0283, -0.0293], device='cuda:0'), grad: tensor([ 0.0273, -0.0016,  0.0201, -0.0882,  0.0298, -0.0345,  0.0074, -0.0451,
+         0.0260,  0.0588], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 17, time 227.01, cls_loss 0.8779 cls_loss_mapping 0.0960 cls_loss_causal 0.8401 re_mapping 0.0272 re_causal 0.0792 /// teacc 97.32 lr 0.00010000
+Epoch 19, weight, value: tensor([[-0.0377, -0.0202, -0.0463,  ...,  0.0615, -0.0023,  0.0251],
+        [-0.0379,  0.0454, -0.0526,  ...,  0.0099, -0.0237, -0.0374],
+        [-0.0169,  0.0256, -0.0450,  ..., -0.0354,  0.0011,  0.0371],
+        ...,
+        [-0.0073,  0.0118, -0.0188,  ...,  0.0138,  0.0191,  0.0045],
+        [ 0.0399, -0.0329,  0.0118,  ...,  0.0042,  0.0054, -0.0298],
+        [-0.0146, -0.0376,  0.0384,  ..., -0.0163, -0.0072, -0.0069]],
+       device='cuda:0'), grad: tensor([[ 2.7142e-03, -3.0670e-03, -1.7490e-03,  ..., -1.1284e-02,
+         -7.2050e-04, -8.3084e-03],
+        [ 5.5580e-03, -8.6355e-04,  5.3253e-03,  ...,  7.4806e-03,
+          1.5306e-04,  4.3335e-03],
+        [ 2.6913e-03, -9.4986e-04, -6.7115e-05,  ...,  6.6805e-04,
+          2.8553e-03,  1.3924e-03],
+        ...,
+        [ 3.2353e-04, -2.5225e-04, -4.0817e-03,  ...,  2.4261e-03,
+         -5.1575e-03,  8.5831e-04],
+        [-2.7409e-03,  1.9875e-03,  1.7729e-03,  ..., -4.3755e-03,
+          3.0918e-03, -3.8242e-03],
+        [-1.9928e-02,  2.1248e-03, -4.0474e-03,  ..., -7.8659e-03,
+          2.1725e-03, -6.0415e-04]], device='cuda:0')
+Epoch 19, bias, value: tensor([ 0.0228, -0.0230, -0.0016,  0.0076, -0.0265, -0.0104,  0.0117,  0.0062,
+         0.0279, -0.0294], device='cuda:0'), grad: tensor([-0.0386,  0.0388,  0.0058, -0.0323,  0.0366,  0.0414, -0.0032, -0.0114,
+         0.0004, -0.0376], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 18----------------------------------------------------
+epoch 18, time 227.54, cls_loss 0.8909 cls_loss_mapping 0.0976 cls_loss_causal 0.8551 re_mapping 0.0268 re_causal 0.0803 /// teacc 97.63 lr 0.00010000
+Epoch 20, weight, value: tensor([[-0.0381, -0.0212, -0.0478,  ...,  0.0612, -0.0026,  0.0254],
+        [-0.0375,  0.0458, -0.0530,  ...,  0.0098, -0.0238, -0.0379],
+        [-0.0184,  0.0269, -0.0456,  ..., -0.0340,  0.0009,  0.0382],
+        ...,
+        [-0.0065,  0.0122, -0.0180,  ...,  0.0132,  0.0192,  0.0041],
+        [ 0.0404, -0.0333,  0.0111,  ...,  0.0033,  0.0051, -0.0302],
+        [-0.0153, -0.0383,  0.0382,  ..., -0.0160, -0.0068, -0.0069]],
+       device='cuda:0'), grad: tensor([[-0.0199,  0.0025,  0.0044,  ..., -0.0127,  0.0008, -0.0041],
+        [ 0.0021,  0.0047,  0.0033,  ...,  0.0062,  0.0048,  0.0042],
+        [ 0.0025,  0.0028, -0.0023,  ...,  0.0039, -0.0104, -0.0081],
+        ...,
+        [-0.0134, -0.0026,  0.0036,  ...,  0.0034, -0.0044, -0.0009],
+        [ 0.0066, -0.0020, -0.0437,  ..., -0.0039, -0.0154,  0.0045],
+        [ 0.0032, -0.0118,  0.0244,  ..., -0.0140,  0.0055, -0.0134]],
+       device='cuda:0')
+Epoch 20, bias, value: tensor([ 0.0227, -0.0232, -0.0015,  0.0073, -0.0262, -0.0102,  0.0115,  0.0060,
+         0.0278, -0.0290], device='cuda:0'), grad: tensor([-0.0350,  0.0290, -0.0075,  0.0243,  0.0131,  0.0216,  0.0181,  0.0032,
+        -0.0409, -0.0258], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 19----------------------------------------------------
+epoch 19, time 227.58, cls_loss 0.8763 cls_loss_mapping 0.0929 cls_loss_causal 0.8471 re_mapping 0.0260 re_causal 0.0787 /// teacc 97.67 lr 0.00010000
+Epoch 21, weight, value: tensor([[-0.0379, -0.0215, -0.0481,  ...,  0.0608, -0.0024,  0.0255],
+        [-0.0383,  0.0460, -0.0533,  ...,  0.0098, -0.0245, -0.0390],
+        [-0.0192,  0.0275, -0.0466,  ..., -0.0340,  0.0011,  0.0391],
+        ...,
+        [-0.0062,  0.0129, -0.0172,  ...,  0.0131,  0.0196,  0.0035],
+        [ 0.0413, -0.0334,  0.0108,  ...,  0.0031,  0.0051, -0.0303],
+        [-0.0161, -0.0391,  0.0382,  ..., -0.0153, -0.0063, -0.0075]],
+       device='cuda:0'), grad: tensor([[ 8.4352e-04,  4.3068e-03,  2.0943e-03,  ...,  3.4523e-03,
+          1.8425e-03,  3.8662e-03],
+        [-3.0766e-03, -4.5891e-03,  1.0719e-03,  ..., -4.3526e-03,
+          1.1406e-03,  6.9618e-05],
+        [-3.6793e-03, -1.9054e-03,  4.5776e-03,  ...,  4.8065e-03,
+          3.8795e-03,  1.0986e-03],
+        ...,
+        [ 2.7847e-03,  4.7417e-03,  4.8676e-03,  ...,  2.9354e-03,
+          5.6343e-03,  5.0507e-03],
+        [ 4.2915e-03,  9.6817e-03,  2.6703e-03,  ...,  4.8370e-03,
+          4.0398e-03,  7.3586e-03],
+        [ 1.1091e-03,  3.5057e-03,  6.9160e-03,  ...,  2.2545e-03,
+          3.7479e-03,  3.5019e-03]], device='cuda:0')
+Epoch 21, bias, value: tensor([ 0.0226, -0.0233, -0.0019,  0.0074, -0.0258, -0.0101,  0.0116,  0.0058,
+         0.0283, -0.0291], device='cuda:0'), grad: tensor([ 0.0230, -0.0057,  0.0280, -0.0516,  0.0106,  0.0009, -0.0953,  0.0303,
+         0.0317,  0.0280], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 20----------------------------------------------------
+epoch 20, time 228.95, cls_loss 0.8659 cls_loss_mapping 0.0812 cls_loss_causal 0.8305 re_mapping 0.0265 re_causal 0.0769 /// teacc 97.71 lr 0.00010000
+Epoch 22, weight, value: tensor([[-0.0380, -0.0212, -0.0498,  ...,  0.0612, -0.0028,  0.0261],
+        [-0.0386,  0.0467, -0.0543,  ...,  0.0102, -0.0245, -0.0395],
+        [-0.0202,  0.0275, -0.0471,  ..., -0.0338,  0.0012,  0.0403],
+        ...,
+        [-0.0059,  0.0134, -0.0173,  ...,  0.0136,  0.0194,  0.0027],
+        [ 0.0419, -0.0331,  0.0116,  ...,  0.0029,  0.0045, -0.0299],
+        [-0.0166, -0.0405,  0.0384,  ..., -0.0159, -0.0055, -0.0080]],
+       device='cuda:0'), grad: tensor([[ 2.2507e-03, -4.1199e-03, -2.5768e-03,  ..., -6.0387e-03,
+         -2.4662e-03, -7.6637e-03],
+        [-1.3809e-03, -1.1078e-02, -1.8911e-03,  ..., -1.3680e-02,
+         -3.9220e-05, -4.0665e-03],
+        [ 7.9346e-03, -4.9210e-03, -1.7185e-03,  ..., -3.9330e-03,
+          1.1292e-03, -2.7676e-03],
+        ...,
+        [-2.5921e-03,  3.2501e-03, -7.2060e-03,  ...,  3.3894e-03,
+          4.2272e-04,  4.2763e-03],
+        [-1.2283e-03,  5.8861e-03,  3.8166e-03,  ...,  1.2140e-03,
+          3.9177e-03, -3.5076e-03],
+        [ 9.2163e-03, -1.0986e-03,  3.1738e-03,  ..., -2.2316e-03,
+          4.5280e-03, -4.4403e-03]], device='cuda:0')
+Epoch 22, bias, value: tensor([ 0.0225, -0.0234, -0.0019,  0.0075, -0.0257, -0.0098,  0.0110,  0.0055,
+         0.0285, -0.0290], device='cuda:0'), grad: tensor([-0.0236, -0.0307,  0.0010,  0.0062,  0.0306,  0.0283, -0.0353,  0.0073,
+         0.0068,  0.0093], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 21----------------------------------------------------
+epoch 21, time 230.47, cls_loss 0.8307 cls_loss_mapping 0.0841 cls_loss_causal 0.7975 re_mapping 0.0247 re_causal 0.0710 /// teacc 97.81 lr 0.00010000
+Epoch 23, weight, value: tensor([[-0.0382, -0.0218, -0.0515,  ...,  0.0618, -0.0028,  0.0266],
+        [-0.0395,  0.0472, -0.0544,  ...,  0.0112, -0.0246, -0.0393],
+        [-0.0208,  0.0295, -0.0480,  ..., -0.0342,  0.0012,  0.0406],
+        ...,
+        [-0.0053,  0.0123, -0.0176,  ...,  0.0130,  0.0192,  0.0026],
+        [ 0.0421, -0.0346,  0.0118,  ...,  0.0025,  0.0045, -0.0310],
+        [-0.0166, -0.0393,  0.0391,  ..., -0.0157, -0.0054, -0.0076]],
+       device='cuda:0'), grad: tensor([[ 1.1005e-03, -2.9526e-03, -1.7385e-03,  ..., -2.2869e-03,
+          4.7946e-04, -3.7746e-03],
+        [ 1.7390e-05, -5.1832e-04, -2.5773e-04,  ..., -1.1091e-03,
+         -1.7920e-03,  2.7924e-03],
+        [ 1.0414e-03, -7.9956e-03, -5.5313e-03,  ..., -8.4839e-03,
+         -1.2140e-03, -5.1384e-03],
+        ...,
+        [ 7.2384e-04,  1.0719e-03,  6.6490e-03,  ...,  3.2482e-03,
+          4.1618e-03,  2.1362e-03],
+        [-1.0192e-05,  3.6850e-03,  3.8872e-03,  ...,  4.2953e-03,
+          2.2984e-03,  2.4529e-03],
+        [ 1.1545e-04,  4.4060e-03, -1.3916e-02,  ...,  5.4474e-03,
+         -1.0445e-02,  3.7994e-03]], device='cuda:0')
+Epoch 23, bias, value: tensor([ 0.0223, -0.0230, -0.0021,  0.0078, -0.0257, -0.0098,  0.0109,  0.0053,
+         0.0282, -0.0286], device='cuda:0'), grad: tensor([-0.0003, -0.0126, -0.0307, -0.0155,  0.0279, -0.0653,  0.0466,  0.0238,
+         0.0216,  0.0046], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 22----------------------------------------------------
+epoch 22, time 227.39, cls_loss 0.8332 cls_loss_mapping 0.0831 cls_loss_causal 0.8040 re_mapping 0.0242 re_causal 0.0713 /// teacc 98.05 lr 0.00010000
+Epoch 24, weight, value: tensor([[-0.0381, -0.0219, -0.0522,  ...,  0.0622, -0.0031,  0.0269],
+        [-0.0393,  0.0478, -0.0543,  ...,  0.0112, -0.0247, -0.0400],
+        [-0.0201,  0.0299, -0.0489,  ..., -0.0344,  0.0014,  0.0412],
+        ...,
+        [-0.0048,  0.0127, -0.0175,  ...,  0.0143,  0.0194,  0.0039],
+        [ 0.0419, -0.0353,  0.0128,  ...,  0.0030,  0.0047, -0.0315],
+        [-0.0167, -0.0399,  0.0395,  ..., -0.0166, -0.0052, -0.0083]],
+       device='cuda:0'), grad: tensor([[ 0.0042,  0.0069,  0.0064,  ...,  0.0117,  0.0041,  0.0077],
+        [-0.0053, -0.0043, -0.0021,  ..., -0.0121, -0.0003, -0.0069],
+        [ 0.0019, -0.0083, -0.0175,  ..., -0.0041, -0.0113, -0.0016],
+        ...,
+        [ 0.0010, -0.0014,  0.0025,  ..., -0.0009,  0.0037,  0.0007],
+        [-0.0058,  0.0013,  0.0054,  ...,  0.0047,  0.0032, -0.0004],
+        [ 0.0009, -0.0067,  0.0164,  ..., -0.0116,  0.0101, -0.0087]],
+       device='cuda:0')
+Epoch 24, bias, value: tensor([ 0.0223, -0.0230, -0.0025,  0.0080, -0.0260, -0.0097,  0.0109,  0.0054,
+         0.0281, -0.0284], device='cuda:0'), grad: tensor([ 0.0471, -0.0551, -0.0335, -0.0011,  0.0135,  0.0018,  0.0187,  0.0145,
+         0.0065, -0.0126], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 23, time 226.36, cls_loss 0.8227 cls_loss_mapping 0.0755 cls_loss_causal 0.7833 re_mapping 0.0242 re_causal 0.0717 /// teacc 97.79 lr 0.00010000
+Epoch 25, weight, value: tensor([[-0.0387, -0.0226, -0.0536,  ...,  0.0621, -0.0032,  0.0269],
+        [-0.0395,  0.0483, -0.0543,  ...,  0.0111, -0.0257, -0.0407],
+        [-0.0204,  0.0304, -0.0490,  ..., -0.0343,  0.0014,  0.0419],
+        ...,
+        [-0.0046,  0.0131, -0.0183,  ...,  0.0137,  0.0193,  0.0037],
+        [ 0.0424, -0.0356,  0.0138,  ...,  0.0032,  0.0046, -0.0318],
+        [-0.0179, -0.0401,  0.0395,  ..., -0.0169, -0.0050, -0.0081]],
+       device='cuda:0'), grad: tensor([[-2.9392e-03,  1.4515e-03,  7.5340e-04,  ...,  1.8444e-03,
+         -1.1492e-03,  1.1702e-03],
+        [ 2.0752e-03,  3.8862e-04, -2.4567e-03,  ..., -7.6485e-04,
+          2.3327e-03, -1.8225e-03],
+        [ 1.8034e-03,  5.8441e-03,  1.7166e-03,  ...,  1.6289e-03,
+          8.9264e-03, -1.1711e-03],
+        ...,
+        [ 1.4770e-04,  2.0027e-03,  3.1776e-03,  ...,  2.3804e-03,
+         -7.0286e-04,  1.6603e-03],
+        [ 2.7790e-03, -2.3117e-03,  1.0853e-03,  ..., -7.3493e-05,
+         -3.7575e-03,  1.5841e-03],
+        [-5.8126e-04,  2.7180e-03, -7.2861e-04,  ...,  1.5249e-03,
+          7.2575e-04,  1.0700e-03]], device='cuda:0')
+Epoch 25, bias, value: tensor([ 0.0225, -0.0229, -0.0028,  0.0085, -0.0259, -0.0097,  0.0105,  0.0053,
+         0.0279, -0.0283], device='cuda:0'), grad: tensor([-0.0098,  0.0087,  0.0304, -0.0080,  0.0038, -0.0563,  0.0280,  0.0137,
+        -0.0206,  0.0101], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 24, time 226.94, cls_loss 0.8057 cls_loss_mapping 0.0818 cls_loss_causal 0.7743 re_mapping 0.0224 re_causal 0.0634 /// teacc 98.02 lr 0.00010000
+Epoch 26, weight, value: tensor([[-0.0379, -0.0222, -0.0538,  ...,  0.0626, -0.0026,  0.0271],
+        [-0.0403,  0.0489, -0.0554,  ...,  0.0109, -0.0266, -0.0415],
+        [-0.0215,  0.0307, -0.0494,  ..., -0.0345,  0.0019,  0.0434],
+        ...,
+        [-0.0048,  0.0137, -0.0175,  ...,  0.0136,  0.0195,  0.0027],
+        [ 0.0433, -0.0354,  0.0131,  ...,  0.0043,  0.0045, -0.0308],
+        [-0.0174, -0.0411,  0.0402,  ..., -0.0182, -0.0037, -0.0086]],
+       device='cuda:0'), grad: tensor([[ 0.0040, -0.0005,  0.0006,  ..., -0.0015,  0.0045,  0.0057],
+        [-0.0116,  0.0012, -0.0001,  ..., -0.0036,  0.0032,  0.0015],
+        [-0.0085, -0.0151, -0.0102,  ..., -0.0081, -0.0193, -0.0174],
+        ...,
+        [-0.0044,  0.0037,  0.0036,  ...,  0.0021,  0.0064,  0.0039],
+        [ 0.0033,  0.0086,  0.0094,  ...,  0.0028,  0.0071,  0.0027],
+        [-0.0007,  0.0036,  0.0017,  ...,  0.0035,  0.0004,  0.0020]],
+       device='cuda:0')
+Epoch 26, bias, value: tensor([ 0.0225, -0.0233, -0.0030,  0.0080, -0.0253, -0.0095,  0.0106,  0.0050,
+         0.0285, -0.0283], device='cuda:0'), grad: tensor([ 0.0032, -0.0201, -0.0983, -0.0107,  0.0059,  0.0414,  0.0163,  0.0179,
+         0.0479, -0.0037], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 25, time 226.82, cls_loss 0.7810 cls_loss_mapping 0.0646 cls_loss_causal 0.7430 re_mapping 0.0227 re_causal 0.0666 /// teacc 97.60 lr 0.00010000
+Epoch 27, weight, value: tensor([[-0.0380, -0.0227, -0.0548,  ...,  0.0628, -0.0023,  0.0276],
+        [-0.0398,  0.0488, -0.0562,  ...,  0.0109, -0.0275, -0.0430],
+        [-0.0221,  0.0311, -0.0495,  ..., -0.0339,  0.0018,  0.0444],
+        ...,
+        [-0.0054,  0.0141, -0.0171,  ...,  0.0140,  0.0196,  0.0023],
+        [ 0.0430, -0.0348,  0.0142,  ...,  0.0047,  0.0045, -0.0312],
+        [-0.0173, -0.0409,  0.0409,  ..., -0.0183, -0.0029, -0.0077]],
+       device='cuda:0'), grad: tensor([[ 0.0016, -0.0028, -0.0038,  ..., -0.0012,  0.0022, -0.0013],
+        [ 0.0035, -0.0011, -0.0047,  ..., -0.0032, -0.0037, -0.0070],
+        [ 0.0016,  0.0021,  0.0042,  ...,  0.0041,  0.0074,  0.0059],
+        ...,
+        [ 0.0222,  0.0133,  0.0325,  ...,  0.0026,  0.0183,  0.0041],
+        [ 0.0010,  0.0034,  0.0109,  ..., -0.0072,  0.0032, -0.0021],
+        [-0.0222, -0.0108, -0.0388,  ...,  0.0025, -0.0169,  0.0044]],
+       device='cuda:0')
+Epoch 27, bias, value: tensor([ 0.0222, -0.0242, -0.0021,  0.0078, -0.0258, -0.0093,  0.0109,  0.0053,
+         0.0283, -0.0277], device='cuda:0'), grad: tensor([-0.0006, -0.0324,  0.0354, -0.0411, -0.0292,  0.0188, -0.0086,  0.0636,
+         0.0182, -0.0242], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 26, time 226.88, cls_loss 0.7984 cls_loss_mapping 0.0673 cls_loss_causal 0.7585 re_mapping 0.0232 re_causal 0.0668 /// teacc 97.91 lr 0.00010000
+Epoch 28, weight, value: tensor([[-0.0384, -0.0230, -0.0559,  ...,  0.0639, -0.0034,  0.0280],
+        [-0.0404,  0.0493, -0.0563,  ...,  0.0114, -0.0280, -0.0439],
+        [-0.0230,  0.0314, -0.0500,  ..., -0.0341,  0.0021,  0.0452],
+        ...,
+        [-0.0048,  0.0143, -0.0165,  ...,  0.0134,  0.0200,  0.0020],
+        [ 0.0439, -0.0359,  0.0139,  ...,  0.0039,  0.0046, -0.0310],
+        [-0.0174, -0.0408,  0.0416,  ..., -0.0188, -0.0028, -0.0091]],
+       device='cuda:0'), grad: tensor([[-0.0042,  0.0009, -0.0103,  ..., -0.0028, -0.0089, -0.0021],
+        [ 0.0007,  0.0097, -0.0030,  ...,  0.0116,  0.0002, -0.0027],
+        [ 0.0056, -0.0145, -0.0013,  ..., -0.0254,  0.0036, -0.0010],
+        ...,
+        [-0.0030, -0.0059, -0.0060,  ...,  0.0037, -0.0303,  0.0004],
+        [-0.0130, -0.0002, -0.0056,  ...,  0.0034, -0.0004,  0.0016],
+        [ 0.0128,  0.0029,  0.0065,  ...,  0.0033,  0.0112,  0.0048]],
+       device='cuda:0')
+Epoch 28, bias, value: tensor([ 0.0218, -0.0236, -0.0028,  0.0083, -0.0256, -0.0090,  0.0111,  0.0050,
+         0.0283, -0.0281], device='cuda:0'), grad: tensor([-0.0214,  0.0140, -0.0392,  0.0526,  0.0266,  0.0119, -0.0190, -0.0370,
+        -0.0251,  0.0367], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 27, time 226.04, cls_loss 0.8240 cls_loss_mapping 0.0739 cls_loss_causal 0.7901 re_mapping 0.0222 re_causal 0.0622 /// teacc 97.81 lr 0.00010000
+Epoch 29, weight, value: tensor([[-0.0380, -0.0238, -0.0554,  ...,  0.0643, -0.0039,  0.0278],
+        [-0.0408,  0.0507, -0.0561,  ...,  0.0120, -0.0283, -0.0443],
+        [-0.0230,  0.0325, -0.0502,  ..., -0.0339,  0.0025,  0.0462],
+        ...,
+        [-0.0058,  0.0143, -0.0168,  ...,  0.0136,  0.0198,  0.0019],
+        [ 0.0444, -0.0367,  0.0130,  ...,  0.0040,  0.0041, -0.0314],
+        [-0.0171, -0.0420,  0.0419,  ..., -0.0199, -0.0023, -0.0108]],
+       device='cuda:0'), grad: tensor([[ 3.9053e-04, -7.0572e-05, -5.8174e-04,  ..., -8.4839e-03,
+         -1.8702e-03, -1.2184e-02],
+        [ 2.5463e-03,  7.1287e-04,  3.3398e-03,  ...,  5.6496e-03,
+          9.4080e-04,  6.6185e-03],
+        [ 2.4738e-03, -2.5597e-03, -8.1940e-03,  ..., -7.6141e-03,
+          1.0672e-03, -8.9874e-03],
+        ...,
+        [ 2.7790e-03,  9.4795e-04,  3.8166e-03,  ...,  3.8891e-03,
+          1.5221e-03,  4.5815e-03],
+        [ 3.3092e-03,  9.5308e-05,  2.6455e-03,  ...,  3.8280e-03,
+          1.3924e-03,  6.5386e-05],
+        [-1.8402e-02,  9.1648e-04, -8.3618e-03,  ...,  4.7760e-03,
+         -5.1155e-03,  5.9319e-03]], device='cuda:0')
+Epoch 29, bias, value: tensor([ 0.0219, -0.0235, -0.0022,  0.0080, -0.0255, -0.0096,  0.0114,  0.0050,
+         0.0281, -0.0283], device='cuda:0'), grad: tensor([-0.0657,  0.0356, -0.0192, -0.0240, -0.0347, -0.0024,  0.0679,  0.0266,
+         0.0323, -0.0164], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 28, time 226.04, cls_loss 0.8109 cls_loss_mapping 0.0719 cls_loss_causal 0.7718 re_mapping 0.0223 re_causal 0.0625 /// teacc 98.00 lr 0.00010000
+Epoch 30, weight, value: tensor([[-0.0390, -0.0240, -0.0553,  ...,  0.0647, -0.0036,  0.0282],
+        [-0.0410,  0.0505, -0.0574,  ...,  0.0111, -0.0290, -0.0446],
+        [-0.0236,  0.0325, -0.0514,  ..., -0.0345,  0.0024,  0.0467],
+        ...,
+        [-0.0055,  0.0154, -0.0158,  ...,  0.0140,  0.0204,  0.0017],
+        [ 0.0446, -0.0384,  0.0134,  ...,  0.0033,  0.0041, -0.0318],
+        [-0.0174, -0.0421,  0.0424,  ..., -0.0195, -0.0023, -0.0098]],
+       device='cuda:0'), grad: tensor([[-0.0037,  0.0010,  0.0005,  ..., -0.0062,  0.0006, -0.0058],
+        [ 0.0007, -0.0019, -0.0097,  ..., -0.0036, -0.0051, -0.0035],
+        [-0.0005, -0.0062, -0.0073,  ..., -0.0066, -0.0063, -0.0103],
+        ...,
+        [ 0.0004,  0.0024,  0.0013,  ...,  0.0044,  0.0006,  0.0044],
+        [ 0.0005,  0.0030,  0.0053,  ...,  0.0027,  0.0030,  0.0022],
+        [ 0.0008,  0.0028, -0.0060,  ...,  0.0047, -0.0046,  0.0039]],
+       device='cuda:0')
+Epoch 30, bias, value: tensor([ 0.0221, -0.0235, -0.0030,  0.0083, -0.0254, -0.0094,  0.0113,  0.0050,
+         0.0278, -0.0280], device='cuda:0'), grad: tensor([-0.0179, -0.0585, -0.0434,  0.0353,  0.0244,  0.0024, -0.0214,  0.0121,
+         0.0401,  0.0270], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 29, time 226.76, cls_loss 0.7833 cls_loss_mapping 0.0589 cls_loss_causal 0.7535 re_mapping 0.0220 re_causal 0.0634 /// teacc 97.88 lr 0.00010000
+Epoch 31, weight, value: tensor([[-0.0382, -0.0245, -0.0560,  ...,  0.0651, -0.0036,  0.0283],
+        [-0.0411,  0.0508, -0.0573,  ...,  0.0109, -0.0290, -0.0452],
+        [-0.0236,  0.0332, -0.0519,  ..., -0.0336,  0.0022,  0.0479],
+        ...,
+        [-0.0058,  0.0151, -0.0155,  ...,  0.0136,  0.0208,  0.0010],
+        [ 0.0449, -0.0392,  0.0142,  ...,  0.0033,  0.0047, -0.0315],
+        [-0.0174, -0.0426,  0.0421,  ..., -0.0202, -0.0028, -0.0094]],
+       device='cuda:0'), grad: tensor([[ 0.0004,  0.0004,  0.0026,  ...,  0.0041,  0.0006,  0.0046],
+        [ 0.0002, -0.0138,  0.0031,  ...,  0.0026, -0.0078, -0.0010],
+        [ 0.0002,  0.0080, -0.0040,  ..., -0.0059,  0.0058, -0.0041],
+        ...,
+        [-0.0135,  0.0012, -0.0126,  ..., -0.0010, -0.0029,  0.0021],
+        [-0.0011,  0.0010, -0.0026,  ..., -0.0086, -0.0004, -0.0078],
+        [ 0.0149,  0.0012,  0.0236,  ...,  0.0008,  0.0037, -0.0010]],
+       device='cuda:0')
+Epoch 31, bias, value: tensor([ 0.0222, -0.0230, -0.0027,  0.0080, -0.0251, -0.0088,  0.0106,  0.0046,
+         0.0278, -0.0283], device='cuda:0'), grad: tensor([ 0.0202, -0.0417,  0.0035,  0.0444, -0.0107,  0.0476, -0.0493,  0.0015,
+        -0.0167,  0.0012], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 30----------------------------------------------------
+epoch 30, time 227.13, cls_loss 0.7900 cls_loss_mapping 0.0649 cls_loss_causal 0.7510 re_mapping 0.0218 re_causal 0.0623 /// teacc 98.23 lr 0.00010000
+Epoch 32, weight, value: tensor([[-0.0382, -0.0245, -0.0572,  ...,  0.0656, -0.0047,  0.0276],
+        [-0.0405,  0.0507, -0.0573,  ...,  0.0114, -0.0284, -0.0461],
+        [-0.0242,  0.0344, -0.0524,  ..., -0.0338,  0.0026,  0.0482],
+        ...,
+        [-0.0063,  0.0147, -0.0160,  ...,  0.0137,  0.0200,  0.0004],
+        [ 0.0453, -0.0395,  0.0146,  ...,  0.0034,  0.0049, -0.0307],
+        [-0.0173, -0.0425,  0.0429,  ..., -0.0202, -0.0022, -0.0102]],
+       device='cuda:0'), grad: tensor([[ 0.0012,  0.0018,  0.0020,  ...,  0.0038,  0.0002,  0.0018],
+        [ 0.0012,  0.0027,  0.0039,  ...,  0.0032,  0.0002,  0.0043],
+        [ 0.0012,  0.0005,  0.0042,  ...,  0.0048,  0.0025,  0.0047],
+        ...,
+        [ 0.0019,  0.0019,  0.0036,  ...,  0.0040, -0.0019,  0.0021],
+        [ 0.0130,  0.0023,  0.0086,  ...,  0.0160,  0.0036,  0.0019],
+        [-0.0015, -0.0008, -0.0077,  ..., -0.0004, -0.0022,  0.0013]],
+       device='cuda:0')
+Epoch 32, bias, value: tensor([ 0.0217, -0.0225, -0.0030,  0.0083, -0.0249, -0.0091,  0.0110,  0.0039,
+         0.0281, -0.0281], device='cuda:0'), grad: tensor([ 0.0162,  0.0253,  0.0300, -0.0704, -0.0203, -0.0443, -0.0002,  0.0212,
+         0.0473, -0.0048], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 31, time 226.40, cls_loss 0.7669 cls_loss_mapping 0.0632 cls_loss_causal 0.7349 re_mapping 0.0218 re_causal 0.0613 /// teacc 98.14 lr 0.00010000
+Epoch 33, weight, value: tensor([[-0.0377, -0.0245, -0.0570,  ...,  0.0663, -0.0047,  0.0279],
+        [-0.0415,  0.0505, -0.0574,  ...,  0.0118, -0.0284, -0.0467],
+        [-0.0247,  0.0351, -0.0536,  ..., -0.0342,  0.0024,  0.0482],
+        ...,
+        [-0.0048,  0.0147, -0.0158,  ...,  0.0132,  0.0204,  0.0005],
+        [ 0.0448, -0.0399,  0.0152,  ...,  0.0038,  0.0041, -0.0312],
+        [-0.0170, -0.0419,  0.0431,  ..., -0.0208, -0.0016, -0.0105]],
+       device='cuda:0'), grad: tensor([[ 1.4496e-03, -7.9012e-04, -8.2397e-04,  ..., -7.4387e-03,
+          1.2541e-03, -6.7368e-03],
+        [ 5.4359e-04, -6.9618e-04,  4.4212e-03,  ..., -4.2572e-03,
+         -4.0948e-05,  4.9496e-04],
+        [ 6.3324e-04,  1.5421e-03,  3.0727e-03,  ...,  4.1389e-03,
+          1.3523e-03, -9.8896e-04],
+        ...,
+        [ 1.2589e-02, -7.5264e-03,  2.8687e-03,  ..., -1.5556e-02,
+          5.7755e-03, -8.3694e-03],
+        [ 1.0214e-03,  2.7771e-03,  5.7487e-03,  ...,  9.8114e-03,
+          1.9989e-03,  4.2915e-03],
+        [-2.0081e-02, -2.1992e-03, -2.1301e-02,  ..., -7.0229e-03,
+         -1.4381e-02,  1.3762e-03]], device='cuda:0')
+Epoch 33, bias, value: tensor([ 0.0217, -0.0225, -0.0032,  0.0086, -0.0253, -0.0090,  0.0114,  0.0043,
+         0.0276, -0.0283], device='cuda:0'), grad: tensor([-0.0202, -0.0358,  0.0177,  0.0246,  0.0176,  0.0406,  0.0004, -0.0201,
+         0.0303, -0.0551], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 32, time 226.36, cls_loss 0.7648 cls_loss_mapping 0.0516 cls_loss_causal 0.7234 re_mapping 0.0210 re_causal 0.0606 /// teacc 97.92 lr 0.00010000
+Epoch 34, weight, value: tensor([[-0.0384, -0.0244, -0.0582,  ...,  0.0669, -0.0048,  0.0272],
+        [-0.0422,  0.0505, -0.0572,  ...,  0.0117, -0.0287, -0.0475],
+        [-0.0243,  0.0354, -0.0541,  ..., -0.0334,  0.0028,  0.0492],
+        ...,
+        [-0.0038,  0.0154, -0.0154,  ...,  0.0135,  0.0207,  0.0006],
+        [ 0.0450, -0.0407,  0.0160,  ...,  0.0027,  0.0043, -0.0312],
+        [-0.0179, -0.0419,  0.0430,  ..., -0.0204, -0.0018, -0.0110]],
+       device='cuda:0'), grad: tensor([[ 0.0003,  0.0051,  0.0022,  ...,  0.0068,  0.0023,  0.0055],
+        [-0.0012, -0.0130, -0.0035,  ..., -0.0216, -0.0038, -0.0096],
+        [ 0.0014,  0.0140,  0.0038,  ...,  0.0137,  0.0065,  0.0134],
+        ...,
+        [ 0.0010,  0.0058,  0.0108,  ...,  0.0004,  0.0133, -0.0005],
+        [ 0.0008,  0.0008,  0.0033,  ..., -0.0032,  0.0063,  0.0013],
+        [ 0.0039, -0.0033, -0.0160,  ...,  0.0064, -0.0157,  0.0047]],
+       device='cuda:0')
+Epoch 34, bias, value: tensor([ 0.0207, -0.0225, -0.0027,  0.0078, -0.0245, -0.0088,  0.0107,  0.0044,
+         0.0273, -0.0272], device='cuda:0'), grad: tensor([ 0.0286, -0.0492,  0.0652, -0.0328, -0.0676,  0.0224,  0.0173,  0.0113,
+        -0.0011,  0.0058], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 33, time 226.30, cls_loss 0.7819 cls_loss_mapping 0.0634 cls_loss_causal 0.7460 re_mapping 0.0205 re_causal 0.0558 /// teacc 98.16 lr 0.00010000
+Epoch 35, weight, value: tensor([[-0.0384, -0.0236, -0.0581,  ...,  0.0677, -0.0050,  0.0274],
+        [-0.0431,  0.0513, -0.0577,  ...,  0.0124, -0.0297, -0.0481],
+        [-0.0251,  0.0360, -0.0554,  ..., -0.0319,  0.0021,  0.0497],
+        ...,
+        [-0.0041,  0.0159, -0.0161,  ...,  0.0129,  0.0203,  0.0009],
+        [ 0.0453, -0.0424,  0.0162,  ...,  0.0020,  0.0041, -0.0308],
+        [-0.0181, -0.0422,  0.0437,  ..., -0.0199, -0.0008, -0.0115]],
+       device='cuda:0'), grad: tensor([[-6.2227e-04,  2.6207e-03, -6.1560e-04,  ...,  1.7729e-03,
+          1.6947e-03, -4.3368e-04],
+        [-2.1305e-03,  8.2397e-04, -7.1383e-04,  ..., -1.1864e-03,
+         -2.7637e-03,  3.2501e-03],
+        [ 5.5695e-03,  2.9202e-03,  4.1580e-03,  ...,  2.4071e-03,
+          3.3417e-03,  3.5458e-03],
+        ...,
+        [-2.3010e-02, -1.0475e-02, -1.3947e-02,  ..., -6.8741e-03,
+         -1.6708e-02, -1.3206e-02],
+        [ 3.8147e-03, -1.0624e-03, -2.2423e-04,  ..., -1.9321e-03,
+          1.5850e-03, -8.9884e-04],
+        [ 3.4637e-03, -4.4847e-04,  6.2275e-04,  ..., -2.8467e-04,
+          2.4433e-03,  3.6299e-05]], device='cuda:0')
+Epoch 35, bias, value: tensor([ 0.0209, -0.0222, -0.0027,  0.0087, -0.0246, -0.0088,  0.0103,  0.0034,
+         0.0273, -0.0271], device='cuda:0'), grad: tensor([-0.0018,  0.0225,  0.0235,  0.0357,  0.0541,  0.0103, -0.0367, -0.0941,
+        -0.0249,  0.0115], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 34, time 225.85, cls_loss 0.7737 cls_loss_mapping 0.0488 cls_loss_causal 0.7405 re_mapping 0.0205 re_causal 0.0591 /// teacc 98.19 lr 0.00010000
+Epoch 36, weight, value: tensor([[-0.0396, -0.0239, -0.0605,  ...,  0.0684, -0.0063,  0.0278],
+        [-0.0430,  0.0513, -0.0589,  ...,  0.0126, -0.0298, -0.0478],
+        [-0.0243,  0.0362, -0.0564,  ..., -0.0317,  0.0024,  0.0503],
+        ...,
+        [-0.0041,  0.0165, -0.0153,  ...,  0.0123,  0.0211,  0.0002],
+        [ 0.0455, -0.0420,  0.0167,  ...,  0.0022,  0.0046, -0.0306],
+        [-0.0177, -0.0414,  0.0439,  ..., -0.0200, -0.0006, -0.0113]],
+       device='cuda:0'), grad: tensor([[ 0.0050,  0.0036,  0.0081,  ...,  0.0039,  0.0087,  0.0048],
+        [-0.0132, -0.0116, -0.0196,  ..., -0.0124, -0.0076, -0.0139],
+        [ 0.0015, -0.0005,  0.0052,  ...,  0.0010,  0.0013, -0.0003],
+        ...,
+        [ 0.0011,  0.0081,  0.0154,  ..., -0.0021,  0.0192, -0.0013],
+        [ 0.0076,  0.0017,  0.0028,  ...,  0.0035,  0.0040,  0.0034],
+        [ 0.0045, -0.0088, -0.0188,  ...,  0.0031, -0.0207,  0.0031]],
+       device='cuda:0')
+Epoch 36, bias, value: tensor([ 0.0202, -0.0228, -0.0027,  0.0089, -0.0248, -0.0093,  0.0106,  0.0041,
+         0.0276, -0.0267], device='cuda:0'), grad: tensor([ 0.0418, -0.1187,  0.0183,  0.0327,  0.0097, -0.0139, -0.0080,  0.0218,
+         0.0343, -0.0180], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 35----------------------------------------------------
+epoch 35, time 227.73, cls_loss 0.7575 cls_loss_mapping 0.0559 cls_loss_causal 0.7155 re_mapping 0.0199 re_causal 0.0574 /// teacc 98.40 lr 0.00010000
+Epoch 37, weight, value: tensor([[-0.0402, -0.0244, -0.0611,  ...,  0.0688, -0.0056,  0.0276],
+        [-0.0429,  0.0519, -0.0588,  ...,  0.0127, -0.0300, -0.0488],
+        [-0.0241,  0.0376, -0.0573,  ..., -0.0315,  0.0025,  0.0516],
+        ...,
+        [-0.0034,  0.0169, -0.0154,  ...,  0.0118,  0.0210,  0.0002],
+        [ 0.0449, -0.0423,  0.0169,  ...,  0.0027,  0.0044, -0.0308],
+        [-0.0179, -0.0422,  0.0440,  ..., -0.0198, -0.0009, -0.0122]],
+       device='cuda:0'), grad: tensor([[-0.0019, -0.0003, -0.0057,  ..., -0.0078, -0.0071, -0.0044],
+        [-0.0003, -0.0035,  0.0033,  ..., -0.0079,  0.0014, -0.0004],
+        [ 0.0026,  0.0031, -0.0097,  ..., -0.0040,  0.0017, -0.0030],
+        ...,
+        [-0.0016, -0.0030, -0.0059,  ..., -0.0060,  0.0042, -0.0058],
+        [ 0.0039,  0.0035,  0.0070,  ...,  0.0083,  0.0037,  0.0043],
+        [-0.0011,  0.0005,  0.0307,  ...,  0.0044,  0.0047,  0.0028]],
+       device='cuda:0')
+Epoch 37, bias, value: tensor([ 0.0199, -0.0225, -0.0030,  0.0090, -0.0248, -0.0091,  0.0107,  0.0039,
+         0.0278, -0.0268], device='cuda:0'), grad: tensor([-0.0260, -0.0106, -0.0302, -0.0027, -0.0093,  0.0550, -0.0167, -0.0019,
+         0.0450, -0.0027], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 36, time 226.23, cls_loss 0.7317 cls_loss_mapping 0.0519 cls_loss_causal 0.6881 re_mapping 0.0193 re_causal 0.0555 /// teacc 98.31 lr 0.00010000
+Epoch 38, weight, value: tensor([[-0.0403, -0.0241, -0.0618,  ...,  0.0682, -0.0052,  0.0286],
+        [-0.0423,  0.0521, -0.0598,  ...,  0.0123, -0.0308, -0.0496],
+        [-0.0239,  0.0377, -0.0568,  ..., -0.0308,  0.0026,  0.0517],
+        ...,
+        [-0.0034,  0.0176, -0.0150,  ...,  0.0124,  0.0207,  0.0004],
+        [ 0.0449, -0.0424,  0.0165,  ...,  0.0024,  0.0044, -0.0305],
+        [-0.0186, -0.0430,  0.0439,  ..., -0.0198, -0.0003, -0.0126]],
+       device='cuda:0'), grad: tensor([[-0.0002, -0.0044, -0.0012,  ..., -0.0026, -0.0088, -0.0060],
+        [ 0.0005,  0.0002, -0.0005,  ..., -0.0011,  0.0017,  0.0005],
+        [ 0.0006, -0.0011, -0.0052,  ..., -0.0006,  0.0031,  0.0035],
+        ...,
+        [-0.0009, -0.0091, -0.0027,  ..., -0.0042, -0.0064, -0.0054],
+        [ 0.0007,  0.0049,  0.0032,  ...,  0.0054,  0.0039, -0.0002],
+        [ 0.0006,  0.0046,  0.0034,  ...,  0.0050,  0.0040,  0.0046]],
+       device='cuda:0')
+Epoch 38, bias, value: tensor([ 0.0201, -0.0229, -0.0027,  0.0089, -0.0251, -0.0085,  0.0107,  0.0044,
+         0.0277, -0.0275], device='cuda:0'), grad: tensor([-0.0124, -0.0061,  0.0095, -0.0003,  0.0218,  0.0242, -0.0319, -0.0308,
+        -0.0018,  0.0278], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 37, time 226.87, cls_loss 0.7270 cls_loss_mapping 0.0505 cls_loss_causal 0.6884 re_mapping 0.0195 re_causal 0.0539 /// teacc 98.34 lr 0.00010000
+Epoch 39, weight, value: tensor([[-0.0406, -0.0240, -0.0629,  ...,  0.0701, -0.0059,  0.0291],
+        [-0.0429,  0.0537, -0.0591,  ...,  0.0134, -0.0299, -0.0489],
+        [-0.0233,  0.0386, -0.0561,  ..., -0.0313,  0.0026,  0.0525],
+        ...,
+        [-0.0032,  0.0177, -0.0150,  ...,  0.0113,  0.0207, -0.0011],
+        [ 0.0450, -0.0432,  0.0159,  ...,  0.0021,  0.0038, -0.0310],
+        [-0.0182, -0.0437,  0.0449,  ..., -0.0199,  0.0007, -0.0126]],
+       device='cuda:0'), grad: tensor([[ 0.0011,  0.0030,  0.0037,  ...,  0.0034,  0.0011,  0.0017],
+        [-0.0007, -0.0155,  0.0050,  ..., -0.0052, -0.0040, -0.0123],
+        [-0.0047,  0.0038, -0.0124,  ..., -0.0004,  0.0036,  0.0055],
+        ...,
+        [ 0.0004,  0.0010,  0.0009,  ..., -0.0040,  0.0007,  0.0002],
+        [ 0.0016,  0.0042,  0.0007,  ...,  0.0037, -0.0025,  0.0032],
+        [-0.0047, -0.0125, -0.0122,  ..., -0.0106, -0.0053, -0.0060]],
+       device='cuda:0')
+Epoch 39, bias, value: tensor([ 0.0204, -0.0230, -0.0024,  0.0089, -0.0251, -0.0083,  0.0106,  0.0035,
+         0.0275, -0.0270], device='cuda:0'), grad: tensor([ 0.0196, -0.0506, -0.0382,  0.0220,  0.0422, -0.0086,  0.0396,  0.0001,
+         0.0245, -0.0505], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 38, time 226.43, cls_loss 0.7390 cls_loss_mapping 0.0519 cls_loss_causal 0.6918 re_mapping 0.0194 re_causal 0.0527 /// teacc 98.03 lr 0.00010000
+Epoch 40, weight, value: tensor([[-0.0402, -0.0239, -0.0638,  ...,  0.0705, -0.0061,  0.0296],
+        [-0.0430,  0.0537, -0.0595,  ...,  0.0137, -0.0313, -0.0492],
+        [-0.0234,  0.0389, -0.0558,  ..., -0.0314,  0.0027,  0.0533],
+        ...,
+        [-0.0039,  0.0182, -0.0155,  ...,  0.0123,  0.0200, -0.0019],
+        [ 0.0457, -0.0434,  0.0160,  ...,  0.0020,  0.0042, -0.0305],
+        [-0.0177, -0.0446,  0.0454,  ..., -0.0199,  0.0011, -0.0128]],
+       device='cuda:0'), grad: tensor([[ 0.0003, -0.0042,  0.0027,  ..., -0.0042,  0.0029, -0.0001],
+        [ 0.0027,  0.0006,  0.0023,  ..., -0.0003,  0.0031,  0.0022],
+        [ 0.0038,  0.0068,  0.0061,  ...,  0.0073,  0.0110,  0.0099],
+        ...,
+        [-0.0016, -0.0074, -0.0039,  ...,  0.0014, -0.0028,  0.0036],
+        [ 0.0024,  0.0016,  0.0029,  ...,  0.0066, -0.0001, -0.0023],
+        [ 0.0034,  0.0033,  0.0025,  ..., -0.0008,  0.0080,  0.0036]],
+       device='cuda:0')
+Epoch 40, bias, value: tensor([ 0.0208, -0.0231, -0.0027,  0.0091, -0.0254, -0.0089,  0.0108,  0.0039,
+         0.0275, -0.0269], device='cuda:0'), grad: tensor([-0.0201,  0.0228,  0.0542, -0.0117, -0.0234, -0.0286,  0.0047, -0.0226,
+         0.0116,  0.0132], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 39, time 226.41, cls_loss 0.7181 cls_loss_mapping 0.0475 cls_loss_causal 0.6832 re_mapping 0.0195 re_causal 0.0525 /// teacc 98.14 lr 0.00010000
+Epoch 41, weight, value: tensor([[-0.0412, -0.0236, -0.0651,  ...,  0.0708, -0.0068,  0.0297],
+        [-0.0436,  0.0539, -0.0595,  ...,  0.0133, -0.0312, -0.0501],
+        [-0.0242,  0.0386, -0.0567,  ..., -0.0319,  0.0025,  0.0542],
+        ...,
+        [-0.0038,  0.0197, -0.0157,  ...,  0.0122,  0.0199, -0.0029],
+        [ 0.0467, -0.0441,  0.0183,  ...,  0.0015,  0.0051, -0.0303],
+        [-0.0178, -0.0450,  0.0459,  ..., -0.0204,  0.0015, -0.0125]],
+       device='cuda:0'), grad: tensor([[ 0.0026,  0.0048,  0.0030,  ...,  0.0029,  0.0067,  0.0097],
+        [-0.0008, -0.0139,  0.0003,  ..., -0.0024, -0.0059, -0.0081],
+        [-0.0003,  0.0026,  0.0046,  ...,  0.0026,  0.0025, -0.0020],
+        ...,
+        [-0.0007, -0.0009, -0.0020,  ...,  0.0023, -0.0027,  0.0011],
+        [-0.0011, -0.0006, -0.0083,  ..., -0.0030, -0.0060, -0.0037],
+        [ 0.0023,  0.0073,  0.0044,  ...,  0.0030,  0.0077,  0.0086]],
+       device='cuda:0')
+Epoch 41, bias, value: tensor([ 0.0207, -0.0231, -0.0033,  0.0094, -0.0252, -0.0085,  0.0105,  0.0038,
+         0.0276, -0.0268], device='cuda:0'), grad: tensor([ 0.0490, -0.0558,  0.0203, -0.0062,  0.0104, -0.0534,  0.0032,  0.0206,
+        -0.0237,  0.0356], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 40, time 226.56, cls_loss 0.7253 cls_loss_mapping 0.0567 cls_loss_causal 0.6867 re_mapping 0.0187 re_causal 0.0511 /// teacc 98.24 lr 0.00010000
+Epoch 42, weight, value: tensor([[-0.0416, -0.0246, -0.0655,  ...,  0.0708, -0.0074,  0.0301],
+        [-0.0428,  0.0539, -0.0599,  ...,  0.0131, -0.0313, -0.0512],
+        [-0.0245,  0.0400, -0.0580,  ..., -0.0317,  0.0019,  0.0554],
+        ...,
+        [-0.0049,  0.0200, -0.0148,  ...,  0.0126,  0.0200, -0.0039],
+        [ 0.0465, -0.0447,  0.0181,  ...,  0.0020,  0.0053, -0.0308],
+        [-0.0177, -0.0454,  0.0462,  ..., -0.0210,  0.0013, -0.0126]],
+       device='cuda:0'), grad: tensor([[ 2.9755e-03,  4.2610e-03,  1.6031e-03,  ...,  9.6512e-03,
+          3.7441e-03,  1.4221e-02],
+        [-2.7790e-03, -8.9722e-03, -4.1542e-03,  ..., -1.2161e-02,
+         -7.3586e-03, -1.7410e-02],
+        [ 1.4842e-04,  6.6614e-04,  1.9407e-03,  ...,  1.0774e-05,
+          5.2719e-03, -1.3628e-03],
+        ...,
+        [ 2.0523e-03,  5.4359e-04,  9.2850e-03,  ...,  2.5902e-03,
+          7.0343e-03,  4.3983e-03],
+        [ 8.0948e-03,  1.1015e-03, -6.9475e-04,  ...,  7.9880e-03,
+          4.3488e-03,  8.0013e-04],
+        [-1.0061e-03, -4.3678e-04, -1.1702e-03,  ..., -1.2779e-03,
+          1.1148e-03, -2.6989e-03]], device='cuda:0')
+Epoch 42, bias, value: tensor([ 0.0203, -0.0229, -0.0036,  0.0096, -0.0253, -0.0084,  0.0109,  0.0038,
+         0.0276, -0.0270], device='cuda:0'), grad: tensor([ 0.0470, -0.0646,  0.0125,  0.0083,  0.0084, -0.0055, -0.0314,  0.0268,
+         0.0149, -0.0163], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 41, time 226.57, cls_loss 0.7325 cls_loss_mapping 0.0531 cls_loss_causal 0.6956 re_mapping 0.0184 re_causal 0.0517 /// teacc 98.15 lr 0.00010000
+Epoch 43, weight, value: tensor([[-0.0421, -0.0247, -0.0647,  ...,  0.0719, -0.0076,  0.0303],
+        [-0.0438,  0.0544, -0.0604,  ...,  0.0135, -0.0322, -0.0523],
+        [-0.0245,  0.0404, -0.0576,  ..., -0.0319,  0.0029,  0.0561],
+        ...,
+        [-0.0050,  0.0204, -0.0146,  ...,  0.0117,  0.0201, -0.0037],
+        [ 0.0467, -0.0444,  0.0186,  ...,  0.0017,  0.0052, -0.0311],
+        [-0.0178, -0.0453,  0.0460,  ..., -0.0211,  0.0018, -0.0129]],
+       device='cuda:0'), grad: tensor([[-1.6785e-03,  5.2977e-04,  3.4046e-04,  ..., -3.3684e-03,
+          1.5516e-03, -5.9586e-03],
+        [ 1.7624e-03, -1.6308e-04, -1.0633e-03,  ..., -4.7798e-03,
+          1.6565e-03, -9.6703e-04],
+        [ 9.1493e-05, -5.3024e-03,  1.1606e-03,  ..., -3.5954e-03,
+         -7.5302e-03, -8.8501e-03],
+        ...,
+        [-3.0441e-02, -2.0237e-03, -2.6581e-02,  ..., -1.4824e-02,
+         -1.5106e-02, -1.0872e-02],
+        [ 6.7024e-03,  2.1782e-03,  4.4403e-03,  ...,  4.1618e-03,
+          3.2482e-03,  6.8779e-03],
+        [ 4.8645e-02,  1.3676e-03,  5.5481e-02,  ...,  2.8458e-03,
+          3.8757e-02,  3.2520e-03]], device='cuda:0')
+Epoch 43, bias, value: tensor([ 0.0208, -0.0228, -0.0038,  0.0092, -0.0247, -0.0085,  0.0115,  0.0035,
+         0.0276, -0.0276], device='cuda:0'), grad: tensor([-0.0243, -0.0124, -0.0426,  0.0281,  0.0201,  0.0681, -0.0187, -0.0985,
+         0.0117,  0.0685], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 42, time 227.07, cls_loss 0.6899 cls_loss_mapping 0.0409 cls_loss_causal 0.6543 re_mapping 0.0190 re_causal 0.0503 /// teacc 98.32 lr 0.00010000
+Epoch 44, weight, value: tensor([[-0.0427, -0.0255, -0.0658,  ...,  0.0718, -0.0084,  0.0299],
+        [-0.0438,  0.0540, -0.0607,  ...,  0.0137, -0.0329, -0.0528],
+        [-0.0244,  0.0411, -0.0569,  ..., -0.0307,  0.0031,  0.0569],
+        ...,
+        [-0.0037,  0.0202, -0.0146,  ...,  0.0110,  0.0202, -0.0047],
+        [ 0.0461, -0.0452,  0.0196,  ...,  0.0017,  0.0059, -0.0308],
+        [-0.0189, -0.0448,  0.0456,  ..., -0.0209,  0.0014, -0.0127]],
+       device='cuda:0'), grad: tensor([[ 2.5320e-04,  7.4911e-04,  1.2827e-03,  ...,  4.3373e-03,
+          3.6001e-04,  3.0155e-03],
+        [ 7.3351e-06,  3.2978e-03,  3.8452e-03,  ...,  7.3471e-03,
+          1.1435e-03,  3.1357e-03],
+        [-1.1849e-04,  1.8251e-04,  1.9131e-03,  ...,  6.3133e-03,
+         -6.0129e-04,  2.7485e-03],
+        ...,
+        [ 2.5071e-06,  5.7144e-03,  1.2268e-02,  ...,  4.3373e-03,
+          1.0139e-02,  2.5845e-03],
+        [ 2.3997e-04, -6.0654e-03, -3.1395e-03,  ..., -1.3481e-02,
+          2.4738e-03, -3.0556e-03],
+        [ 1.7524e-05, -8.3847e-03, -1.7033e-03,  ..., -6.7558e-03,
+          5.7564e-03, -7.3357e-03]], device='cuda:0')
+Epoch 44, bias, value: tensor([ 0.0200, -0.0227, -0.0026,  0.0094, -0.0251, -0.0086,  0.0117,  0.0035,
+         0.0275, -0.0280], device='cuda:0'), grad: tensor([ 0.0199,  0.0350,  0.0258, -0.0126, -0.0381,  0.0276, -0.0037,  0.0458,
+        -0.0385, -0.0612], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 43, time 226.59, cls_loss 0.7109 cls_loss_mapping 0.0453 cls_loss_causal 0.6761 re_mapping 0.0182 re_causal 0.0497 /// teacc 98.33 lr 0.00010000
+Epoch 45, weight, value: tensor([[-0.0421, -0.0259, -0.0676,  ...,  0.0718, -0.0092,  0.0293],
+        [-0.0436,  0.0538, -0.0613,  ...,  0.0139, -0.0333, -0.0534],
+        [-0.0250,  0.0420, -0.0564,  ..., -0.0315,  0.0040,  0.0578],
+        ...,
+        [-0.0040,  0.0207, -0.0146,  ...,  0.0109,  0.0207, -0.0052],
+        [ 0.0465, -0.0459,  0.0192,  ...,  0.0030,  0.0058, -0.0295],
+        [-0.0192, -0.0452,  0.0462,  ..., -0.0219,  0.0024, -0.0125]],
+       device='cuda:0'), grad: tensor([[-0.0030,  0.0002, -0.0071,  ..., -0.0074,  0.0025,  0.0006],
+        [-0.0015, -0.0020, -0.0024,  ..., -0.0053, -0.0003, -0.0048],
+        [-0.0011, -0.0013,  0.0012,  ...,  0.0007, -0.0054, -0.0053],
+        ...,
+        [ 0.0052,  0.0009,  0.0039,  ...,  0.0020,  0.0041,  0.0018],
+        [ 0.0032,  0.0011,  0.0048,  ...,  0.0046,  0.0026,  0.0036],
+        [-0.0022,  0.0012,  0.0047,  ...,  0.0022,  0.0073,  0.0018]],
+       device='cuda:0')
+Epoch 45, bias, value: tensor([ 0.0200, -0.0232, -0.0031,  0.0091, -0.0251, -0.0083,  0.0118,  0.0040,
+         0.0279, -0.0282], device='cuda:0'), grad: tensor([-0.0394, -0.0275, -0.0014,  0.0048,  0.0003, -0.0081, -0.0008,  0.0180,
+         0.0401,  0.0141], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 44, time 226.19, cls_loss 0.7191 cls_loss_mapping 0.0435 cls_loss_causal 0.6854 re_mapping 0.0187 re_causal 0.0526 /// teacc 98.28 lr 0.00010000
+Epoch 46, weight, value: tensor([[-0.0431, -0.0261, -0.0682,  ...,  0.0724, -0.0103,  0.0293],
+        [-0.0441,  0.0545, -0.0624,  ...,  0.0149, -0.0337, -0.0531],
+        [-0.0259,  0.0423, -0.0557,  ..., -0.0330,  0.0045,  0.0586],
+        ...,
+        [-0.0027,  0.0209, -0.0152,  ...,  0.0109,  0.0202, -0.0056],
+        [ 0.0465, -0.0467,  0.0198,  ...,  0.0023,  0.0063, -0.0301],
+        [-0.0189, -0.0449,  0.0462,  ..., -0.0210,  0.0024, -0.0121]],
+       device='cuda:0'), grad: tensor([[-1.7462e-03,  1.3266e-03, -6.9261e-05,  ..., -3.3736e-04,
+          1.4639e-03,  2.8725e-03],
+        [-2.4529e-03, -9.0742e-04,  7.9250e-04,  ..., -2.6245e-03,
+         -1.5945e-03,  1.3542e-03],
+        [ 1.4896e-03, -1.2672e-04,  2.9545e-03,  ..., -1.0473e-04,
+          1.8435e-03, -4.8599e-03],
+        ...,
+        [-3.0428e-05, -4.7569e-03, -1.1396e-03,  ..., -6.4421e-04,
+         -8.1491e-04, -3.2101e-03],
+        [ 3.7079e-03,  1.6708e-03,  5.3291e-03,  ...,  2.9888e-03,
+          4.0588e-03,  3.4771e-03],
+        [-8.4381e-03, -7.4804e-05, -3.9856e-02,  ..., -3.8376e-03,
+         -1.7059e-02, -3.4428e-03]], device='cuda:0')
+Epoch 46, bias, value: tensor([ 0.0197, -0.0228, -0.0031,  0.0098, -0.0251, -0.0087,  0.0119,  0.0036,
+         0.0277, -0.0278], device='cuda:0'), grad: tensor([-0.0093, -0.0048,  0.0103, -0.0180,  0.0437,  0.0145,  0.0193, -0.0130,
+         0.0384, -0.0811], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 45, time 226.60, cls_loss 0.7404 cls_loss_mapping 0.0448 cls_loss_causal 0.7016 re_mapping 0.0172 re_causal 0.0496 /// teacc 98.04 lr 0.00010000
+Epoch 47, weight, value: tensor([[-0.0438, -0.0254, -0.0691,  ...,  0.0725, -0.0108,  0.0295],
+        [-0.0442,  0.0546, -0.0639,  ...,  0.0154, -0.0345, -0.0533],
+        [-0.0276,  0.0427, -0.0559,  ..., -0.0331,  0.0047,  0.0588],
+        ...,
+        [-0.0029,  0.0215, -0.0142,  ...,  0.0095,  0.0213, -0.0052],
+        [ 0.0478, -0.0473,  0.0187,  ...,  0.0017,  0.0062, -0.0310],
+        [-0.0191, -0.0456,  0.0472,  ..., -0.0211,  0.0029, -0.0123]],
+       device='cuda:0'), grad: tensor([[-0.0165, -0.0089, -0.0202,  ..., -0.0036, -0.0033, -0.0017],
+        [ 0.0032,  0.0005,  0.0033,  ...,  0.0013,  0.0004,  0.0010],
+        [-0.0211, -0.0005, -0.0035,  ..., -0.0145, -0.0117, -0.0073],
+        ...,
+        [ 0.0028,  0.0028,  0.0036,  ...,  0.0034,  0.0026, -0.0002],
+        [ 0.0151,  0.0021,  0.0078,  ...,  0.0062,  0.0007,  0.0013],
+        [ 0.0030,  0.0011,  0.0049,  ...,  0.0034,  0.0017,  0.0012]],
+       device='cuda:0')
+Epoch 47, bias, value: tensor([ 0.0196, -0.0232, -0.0043,  0.0102, -0.0248, -0.0089,  0.0126,  0.0040,
+         0.0273, -0.0274], device='cuda:0'), grad: tensor([-0.0963,  0.0105, -0.0734,  0.0444,  0.0363, -0.0265,  0.0252,  0.0035,
+         0.0484,  0.0279], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 46, time 226.49, cls_loss 0.6946 cls_loss_mapping 0.0458 cls_loss_causal 0.6574 re_mapping 0.0175 re_causal 0.0478 /// teacc 98.12 lr 0.00010000
+Epoch 48, weight, value: tensor([[-0.0438, -0.0251, -0.0697,  ...,  0.0736, -0.0113,  0.0297],
+        [-0.0453,  0.0559, -0.0639,  ...,  0.0157, -0.0344, -0.0529],
+        [-0.0271,  0.0432, -0.0561,  ..., -0.0327,  0.0049,  0.0600],
+        ...,
+        [-0.0019,  0.0211, -0.0131,  ...,  0.0084,  0.0213, -0.0060],
+        [ 0.0474, -0.0476,  0.0186,  ...,  0.0014,  0.0056, -0.0322],
+        [-0.0192, -0.0456,  0.0474,  ..., -0.0216,  0.0032, -0.0129]],
+       device='cuda:0'), grad: tensor([[ 0.0006,  0.0022,  0.0025,  ...,  0.0033,  0.0012,  0.0025],
+        [ 0.0012,  0.0028,  0.0031,  ...,  0.0026,  0.0026,  0.0031],
+        [ 0.0048,  0.0039,  0.0019,  ...,  0.0043,  0.0018, -0.0012],
+        ...,
+        [ 0.0014, -0.0050,  0.0057,  ..., -0.0023,  0.0020,  0.0003],
+        [-0.0123, -0.0060, -0.0052,  ..., -0.0012, -0.0086, -0.0031],
+        [ 0.0026,  0.0019,  0.0190,  ...,  0.0028,  0.0062,  0.0021]],
+       device='cuda:0')
+Epoch 48, bias, value: tensor([ 0.0196, -0.0229, -0.0042,  0.0105, -0.0246, -0.0080,  0.0117,  0.0036,
+         0.0268, -0.0274], device='cuda:0'), grad: tensor([ 0.0228,  0.0288,  0.0385, -0.0066, -0.0148, -0.0511,  0.0153, -0.0125,
+        -0.0421,  0.0215], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 47, time 227.21, cls_loss 0.7023 cls_loss_mapping 0.0373 cls_loss_causal 0.6725 re_mapping 0.0179 re_causal 0.0495 /// teacc 98.18 lr 0.00010000
+Epoch 49, weight, value: tensor([[-0.0445, -0.0272, -0.0705,  ...,  0.0732, -0.0115,  0.0294],
+        [-0.0457,  0.0568, -0.0633,  ...,  0.0159, -0.0344, -0.0530],
+        [-0.0267,  0.0435, -0.0561,  ..., -0.0326,  0.0049,  0.0604],
+        ...,
+        [-0.0026,  0.0214, -0.0136,  ...,  0.0079,  0.0211, -0.0064],
+        [ 0.0483, -0.0477,  0.0188,  ...,  0.0022,  0.0059, -0.0313],
+        [-0.0190, -0.0446,  0.0474,  ..., -0.0213,  0.0031, -0.0121]],
+       device='cuda:0'), grad: tensor([[-0.0009, -0.0148,  0.0006,  ..., -0.0180, -0.0047, -0.0072],
+        [-0.0050,  0.0062,  0.0013,  ...,  0.0069,  0.0019,  0.0026],
+        [ 0.0020, -0.0007,  0.0017,  ...,  0.0028,  0.0010, -0.0003],
+        ...,
+        [ 0.0008,  0.0017, -0.0070,  ..., -0.0009,  0.0017,  0.0001],
+        [ 0.0170,  0.0065,  0.0167,  ...,  0.0092,  0.0090,  0.0031],
+        [-0.0206, -0.0068, -0.0097,  ..., -0.0053, -0.0045,  0.0010]],
+       device='cuda:0')
+Epoch 49, bias, value: tensor([ 0.0192, -0.0234, -0.0038,  0.0104, -0.0244, -0.0083,  0.0118,  0.0031,
+         0.0271, -0.0266], device='cuda:0'), grad: tensor([-6.4758e-02,  1.5617e-02,  1.4748e-02,  1.8890e-02,  8.2169e-03,
+         8.6278e-06, -5.5733e-03, -6.9237e-03,  7.7698e-02, -5.7953e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 48, time 227.34, cls_loss 0.6866 cls_loss_mapping 0.0417 cls_loss_causal 0.6541 re_mapping 0.0171 re_causal 0.0477 /// teacc 98.35 lr 0.00010000
+Epoch 50, weight, value: tensor([[-0.0440, -0.0265, -0.0721,  ...,  0.0736, -0.0116,  0.0296],
+        [-0.0466,  0.0578, -0.0626,  ...,  0.0166, -0.0347, -0.0534],
+        [-0.0267,  0.0441, -0.0561,  ..., -0.0327,  0.0052,  0.0604],
+        ...,
+        [-0.0028,  0.0207, -0.0134,  ...,  0.0078,  0.0213, -0.0069],
+        [ 0.0473, -0.0478,  0.0186,  ...,  0.0026,  0.0046, -0.0315],
+        [-0.0182, -0.0448,  0.0479,  ..., -0.0216,  0.0032, -0.0119]],
+       device='cuda:0'), grad: tensor([[ 8.5688e-04,  9.1696e-04,  7.3862e-04,  ...,  1.1387e-03,
+          5.3978e-04,  1.0624e-03],
+        [ 1.3232e-04,  4.7951e-03,  2.5406e-03,  ...,  3.4866e-03,
+          8.1539e-04,  2.6855e-03],
+        [ 1.6642e-04, -5.5847e-03,  9.7036e-04,  ...,  7.8869e-04,
+         -1.4639e-03, -2.3136e-03],
+        ...,
+        [ 1.0383e-04,  1.6813e-03, -7.7057e-03,  ..., -4.5395e-04,
+         -3.4790e-03,  6.2180e-04],
+        [ 6.9952e-04, -5.1956e-03, -3.6221e-03,  ..., -1.0155e-02,
+          4.0984e-04, -3.3512e-03],
+        [ 5.2738e-04,  3.5793e-05,  5.8794e-04,  ..., -2.3866e-04,
+          1.1482e-03, -9.1887e-04]], device='cuda:0')
+Epoch 50, bias, value: tensor([ 0.0191, -0.0231, -0.0045,  0.0107, -0.0241, -0.0083,  0.0114,  0.0036,
+         0.0263, -0.0261], device='cuda:0'), grad: tensor([ 0.0138,  0.0297, -0.0013,  0.0136, -0.0064,  0.0176,  0.0025, -0.0144,
+        -0.0435, -0.0117], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 49, time 226.56, cls_loss 0.6725 cls_loss_mapping 0.0417 cls_loss_causal 0.6399 re_mapping 0.0171 re_causal 0.0450 /// teacc 98.37 lr 0.00010000
+Epoch 51, weight, value: tensor([[-0.0446, -0.0268, -0.0722,  ...,  0.0738, -0.0113,  0.0297],
+        [-0.0473,  0.0577, -0.0631,  ...,  0.0169, -0.0348, -0.0543],
+        [-0.0264,  0.0437, -0.0557,  ..., -0.0329,  0.0052,  0.0608],
+        ...,
+        [-0.0029,  0.0211, -0.0137,  ...,  0.0077,  0.0210, -0.0070],
+        [ 0.0483, -0.0484,  0.0186,  ...,  0.0024,  0.0046, -0.0314],
+        [-0.0179, -0.0454,  0.0487,  ..., -0.0223,  0.0037, -0.0126]],
+       device='cuda:0'), grad: tensor([[ 7.8506e-03,  8.2684e-04,  6.1607e-04,  ...,  2.1103e-02,
+          1.5732e-02,  2.4445e-02],
+        [ 1.0834e-03,  2.3022e-03,  1.2798e-03,  ...,  2.8515e-03,
+          1.4257e-03,  2.9793e-03],
+        [ 2.0123e-03,  1.5602e-03,  9.6130e-04,  ...,  3.0994e-03,
+          2.7122e-03,  1.9503e-03],
+        ...,
+        [ 1.3056e-03, -1.2140e-03, -4.7226e-03,  ..., -5.2338e-03,
+          1.4381e-03, -2.6150e-03],
+        [-7.6714e-03, -2.7542e-03,  2.8629e-03,  ..., -1.9798e-03,
+         -1.3959e-04, -2.3575e-03],
+        [ 8.3268e-05, -5.8842e-04,  1.8539e-03,  ..., -3.2578e-03,
+          3.4313e-03, -4.5052e-03]], device='cuda:0')
+Epoch 51, bias, value: tensor([ 0.0191, -0.0235, -0.0041,  0.0106, -0.0240, -0.0083,  0.0117,  0.0034,
+         0.0269, -0.0268], device='cuda:0'), grad: tensor([ 0.0457,  0.0284,  0.0124,  0.0118,  0.0160, -0.0114, -0.0076, -0.0261,
+        -0.0576, -0.0115], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 50, time 227.11, cls_loss 0.6809 cls_loss_mapping 0.0388 cls_loss_causal 0.6497 re_mapping 0.0164 re_causal 0.0435 /// teacc 98.22 lr 0.00010000
+Epoch 52, weight, value: tensor([[-0.0444, -0.0276, -0.0720,  ...,  0.0742, -0.0117,  0.0294],
+        [-0.0473,  0.0584, -0.0635,  ...,  0.0170, -0.0344, -0.0542],
+        [-0.0271,  0.0443, -0.0564,  ..., -0.0329,  0.0051,  0.0614],
+        ...,
+        [-0.0030,  0.0219, -0.0133,  ...,  0.0075,  0.0211, -0.0076],
+        [ 0.0483, -0.0501,  0.0181,  ...,  0.0025,  0.0040, -0.0314],
+        [-0.0174, -0.0460,  0.0490,  ..., -0.0229,  0.0043, -0.0129]],
+       device='cuda:0'), grad: tensor([[ 1.6298e-03,  5.3930e-04,  2.4242e-03,  ..., -1.0857e-02,
+         -3.4118e-04,  6.4039e-04],
+        [-3.1433e-03, -1.3351e-03, -7.8535e-04,  ..., -5.0354e-03,
+         -4.9323e-05, -3.8319e-03],
+        [ 2.7714e-03, -4.0627e-03,  2.6011e-04,  ..., -8.4114e-04,
+         -1.2161e-02,  3.6240e-04],
+        ...,
+        [ 2.2278e-03,  1.8835e-03,  7.0419e-03,  ...,  3.8147e-03,
+          7.0496e-03,  3.0861e-03],
+        [ 1.0595e-03,  1.4105e-03,  1.7929e-03,  ...,  6.2370e-03,
+          5.6458e-03,  1.1120e-03],
+        [-4.6997e-03, -2.5520e-03, -1.7731e-02,  ..., -3.4180e-03,
+         -1.6968e-02, -6.3972e-03]], device='cuda:0')
+Epoch 52, bias, value: tensor([ 0.0187, -0.0232, -0.0040,  0.0103, -0.0242, -0.0080,  0.0119,  0.0037,
+         0.0270, -0.0271], device='cuda:0'), grad: tensor([-0.0045, -0.0361, -0.0267,  0.0038, -0.0066,  0.0656,  0.0363,  0.0419,
+         0.0193, -0.0930], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 51, time 227.34, cls_loss 0.6673 cls_loss_mapping 0.0490 cls_loss_causal 0.6390 re_mapping 0.0175 re_causal 0.0473 /// teacc 98.33 lr 0.00010000
+Epoch 53, weight, value: tensor([[-0.0446, -0.0291, -0.0736,  ...,  0.0748, -0.0121,  0.0299],
+        [-0.0471,  0.0584, -0.0634,  ...,  0.0175, -0.0345, -0.0557],
+        [-0.0278,  0.0448, -0.0579,  ..., -0.0336,  0.0049,  0.0622],
+        ...,
+        [-0.0023,  0.0223, -0.0134,  ...,  0.0084,  0.0210, -0.0071],
+        [ 0.0489, -0.0504,  0.0183,  ...,  0.0023,  0.0041, -0.0317],
+        [-0.0177, -0.0458,  0.0491,  ..., -0.0232,  0.0040, -0.0126]],
+       device='cuda:0'), grad: tensor([[-0.0007, -0.0025, -0.0021,  ..., -0.0001, -0.0026,  0.0006],
+        [ 0.0031,  0.0125,  0.0218,  ...,  0.0167,  0.0017,  0.0051],
+        [ 0.0009,  0.0033,  0.0038,  ...,  0.0032,  0.0009,  0.0044],
+        ...,
+        [ 0.0045, -0.0014,  0.0075,  ...,  0.0001,  0.0032, -0.0015],
+        [-0.0065, -0.0024,  0.0018,  ..., -0.0039, -0.0048, -0.0052],
+        [-0.0042, -0.0123, -0.0290,  ..., -0.0141,  0.0005, -0.0003]],
+       device='cuda:0')
+Epoch 53, bias, value: tensor([ 0.0193, -0.0234, -0.0041,  0.0098, -0.0238, -0.0081,  0.0119,  0.0038,
+         0.0269, -0.0272], device='cuda:0'), grad: tensor([ 0.0106,  0.0634,  0.0417, -0.0006,  0.0294, -0.0698,  0.0068,  0.0222,
+        -0.0464, -0.0572], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 52, time 226.90, cls_loss 0.7091 cls_loss_mapping 0.0366 cls_loss_causal 0.6747 re_mapping 0.0164 re_causal 0.0442 /// teacc 98.15 lr 0.00010000
+Epoch 54, weight, value: tensor([[-0.0447, -0.0297, -0.0739,  ...,  0.0748, -0.0129,  0.0302],
+        [-0.0475,  0.0599, -0.0643,  ...,  0.0177, -0.0354, -0.0552],
+        [-0.0270,  0.0455, -0.0573,  ..., -0.0341,  0.0050,  0.0622],
+        ...,
+        [-0.0030,  0.0214, -0.0131,  ...,  0.0085,  0.0206, -0.0079],
+        [ 0.0495, -0.0506,  0.0185,  ...,  0.0030,  0.0042, -0.0321],
+        [-0.0181, -0.0462,  0.0497,  ..., -0.0238,  0.0054, -0.0124]],
+       device='cuda:0'), grad: tensor([[ 1.4734e-04,  1.7662e-03, -2.2068e-03,  ..., -1.1276e-02,
+         -2.7637e-03, -1.5076e-02],
+        [ 2.0695e-04,  4.1127e-05, -4.4656e-04,  ..., -1.8396e-03,
+          1.1168e-03,  6.2227e-04],
+        [ 2.9397e-04,  3.7708e-03,  2.5997e-03,  ...,  1.8066e-02,
+          4.3449e-03,  1.6922e-02],
+        ...,
+        [ 5.4932e-04, -3.0041e-04,  1.6565e-03,  ...,  3.2120e-03,
+          9.2506e-04,  2.4071e-03],
+        [ 6.9237e-04, -2.1553e-04, -1.1879e-02,  ...,  1.9989e-03,
+         -5.5695e-03,  3.5114e-03],
+        [ 2.4738e-03, -1.0986e-03,  1.6953e-02,  ..., -4.8370e-03,
+          1.0620e-02, -2.4490e-03]], device='cuda:0')
+Epoch 54, bias, value: tensor([ 0.0195, -0.0232, -0.0046,  0.0097, -0.0236, -0.0082,  0.0119,  0.0037,
+         0.0273, -0.0275], device='cuda:0'), grad: tensor([-0.0281, -0.0111,  0.0605,  0.0167, -0.0353, -0.0028, -0.0342,  0.0186,
+         0.0073,  0.0084], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 53, time 226.82, cls_loss 0.6821 cls_loss_mapping 0.0360 cls_loss_causal 0.6485 re_mapping 0.0163 re_causal 0.0434 /// teacc 98.35 lr 0.00010000
+Epoch 55, weight, value: tensor([[-0.0450, -0.0302, -0.0749,  ...,  0.0749, -0.0137,  0.0297],
+        [-0.0475,  0.0607, -0.0648,  ...,  0.0181, -0.0359, -0.0560],
+        [-0.0275,  0.0458, -0.0572,  ..., -0.0337,  0.0051,  0.0628],
+        ...,
+        [-0.0012,  0.0228, -0.0120,  ...,  0.0079,  0.0215, -0.0084],
+        [ 0.0498, -0.0516,  0.0188,  ...,  0.0039,  0.0041, -0.0323],
+        [-0.0188, -0.0464,  0.0493,  ..., -0.0243,  0.0055, -0.0123]],
+       device='cuda:0'), grad: tensor([[ 4.0126e-04,  8.9502e-04,  1.0490e-03,  ...,  2.3384e-03,
+          5.8794e-04,  1.0643e-03],
+        [-6.8550e-03, -1.5732e-02, -7.2060e-03,  ..., -1.2619e-02,
+          2.2333e-06,  1.0357e-03],
+        [ 9.5034e-04,  6.9695e-03,  1.9274e-03,  ...,  5.7335e-03,
+          3.3665e-03,  2.4223e-03],
+        ...,
+        [ 3.6449e-03,  1.7815e-03,  9.3460e-03,  ...,  2.1229e-03,
+          2.2163e-03, -3.2024e-03],
+        [-1.0753e-04,  3.3054e-03, -3.2043e-04,  ...,  1.1435e-03,
+         -1.4715e-03,  1.6963e-04],
+        [ 1.1854e-03,  7.8917e-04, -5.5161e-03,  ...,  2.4624e-03,
+         -1.2026e-03,  7.5006e-04]], device='cuda:0')
+Epoch 55, bias, value: tensor([ 0.0189, -0.0236, -0.0045,  0.0098, -0.0242, -0.0080,  0.0124,  0.0041,
+         0.0279, -0.0280], device='cuda:0'), grad: tensor([ 0.0137, -0.0439,  0.0407,  0.0268, -0.0169,  0.0433, -0.0497, -0.0019,
+        -0.0212,  0.0090], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 54----------------------------------------------------
+epoch 54, time 229.08, cls_loss 0.6730 cls_loss_mapping 0.0358 cls_loss_causal 0.6422 re_mapping 0.0161 re_causal 0.0416 /// teacc 98.60 lr 0.00010000
+Epoch 56, weight, value: tensor([[-0.0443, -0.0309, -0.0749,  ...,  0.0757, -0.0141,  0.0299],
+        [-0.0481,  0.0619, -0.0646,  ...,  0.0194, -0.0365, -0.0556],
+        [-0.0282,  0.0455, -0.0581,  ..., -0.0339,  0.0054,  0.0632],
+        ...,
+        [-0.0009,  0.0224, -0.0124,  ...,  0.0069,  0.0212, -0.0098],
+        [ 0.0506, -0.0512,  0.0183,  ...,  0.0027,  0.0038, -0.0329],
+        [-0.0184, -0.0466,  0.0498,  ..., -0.0242,  0.0059, -0.0125]],
+       device='cuda:0'), grad: tensor([[ 0.0015,  0.0013,  0.0015,  ...,  0.0028,  0.0014,  0.0052],
+        [ 0.0003,  0.0011,  0.0020,  ...,  0.0023,  0.0005,  0.0026],
+        [ 0.0027,  0.0022, -0.0019,  ...,  0.0047,  0.0068,  0.0144],
+        ...,
+        [-0.0064,  0.0018, -0.0065,  ...,  0.0022, -0.0047,  0.0029],
+        [ 0.0014,  0.0028, -0.0003,  ..., -0.0020,  0.0063, -0.0052],
+        [ 0.0165,  0.0010,  0.0365,  ...,  0.0025,  0.0188,  0.0041]],
+       device='cuda:0')
+Epoch 56, bias, value: tensor([ 0.0189, -0.0228, -0.0055,  0.0101, -0.0242, -0.0072,  0.0120,  0.0033,
+         0.0276, -0.0272], device='cuda:0'), grad: tensor([ 0.0251,  0.0193,  0.0441, -0.1143, -0.0420,  0.0113,  0.0137,  0.0134,
+        -0.0309,  0.0601], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 55, time 225.94, cls_loss 0.6639 cls_loss_mapping 0.0393 cls_loss_causal 0.6231 re_mapping 0.0165 re_causal 0.0425 /// teacc 98.56 lr 0.00010000
+Epoch 57, weight, value: tensor([[-0.0457, -0.0319, -0.0760,  ...,  0.0768, -0.0145,  0.0298],
+        [-0.0479,  0.0620, -0.0654,  ...,  0.0196, -0.0371, -0.0557],
+        [-0.0283,  0.0460, -0.0582,  ..., -0.0350,  0.0060,  0.0633],
+        ...,
+        [-0.0009,  0.0228, -0.0130,  ...,  0.0075,  0.0213, -0.0103],
+        [ 0.0517, -0.0509,  0.0192,  ...,  0.0025,  0.0041, -0.0323],
+        [-0.0182, -0.0476,  0.0498,  ..., -0.0246,  0.0059, -0.0123]],
+       device='cuda:0'), grad: tensor([[-0.0014,  0.0006, -0.0035,  ..., -0.0048, -0.0076, -0.0006],
+        [ 0.0005, -0.0028, -0.0019,  ..., -0.0045,  0.0014, -0.0005],
+        [ 0.0012,  0.0017,  0.0028,  ...,  0.0043, -0.0069, -0.0027],
+        ...,
+        [-0.0017, -0.0013, -0.0007,  ..., -0.0074,  0.0029, -0.0018],
+        [ 0.0009,  0.0008,  0.0021,  ...,  0.0037,  0.0023,  0.0031],
+        [ 0.0003,  0.0008, -0.0008,  ...,  0.0025,  0.0007,  0.0020]],
+       device='cuda:0')
+Epoch 57, bias, value: tensor([ 0.0194, -0.0230, -0.0058,  0.0100, -0.0239, -0.0078,  0.0119,  0.0036,
+         0.0279, -0.0273], device='cuda:0'), grad: tensor([-0.0314, -0.0090,  0.0184, -0.0298,  0.0388,  0.0023, -0.0050, -0.0356,
+         0.0311,  0.0202], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 56, time 226.23, cls_loss 0.6539 cls_loss_mapping 0.0365 cls_loss_causal 0.6139 re_mapping 0.0165 re_causal 0.0426 /// teacc 98.47 lr 0.00010000
+Epoch 58, weight, value: tensor([[-0.0471, -0.0323, -0.0768,  ...,  0.0765, -0.0153,  0.0300],
+        [-0.0482,  0.0633, -0.0665,  ...,  0.0199, -0.0374, -0.0559],
+        [-0.0280,  0.0468, -0.0587,  ..., -0.0353,  0.0062,  0.0645],
+        ...,
+        [-0.0016,  0.0226, -0.0123,  ...,  0.0082,  0.0214, -0.0107],
+        [ 0.0514, -0.0511,  0.0197,  ...,  0.0030,  0.0035, -0.0325],
+        [-0.0172, -0.0473,  0.0504,  ..., -0.0255,  0.0068, -0.0117]],
+       device='cuda:0'), grad: tensor([[-0.0006,  0.0002, -0.0003,  ..., -0.0023, -0.0010, -0.0045],
+        [ 0.0004, -0.0015,  0.0019,  ..., -0.0004,  0.0007,  0.0007],
+        [-0.0038, -0.0012, -0.0151,  ..., -0.0027, -0.0051, -0.0018],
+        ...,
+        [ 0.0187,  0.0056,  0.0374,  ...,  0.0016,  0.0205,  0.0017],
+        [-0.0012, -0.0014, -0.0055,  ..., -0.0046, -0.0018, -0.0050],
+        [-0.0163, -0.0038, -0.0199,  ...,  0.0025, -0.0164,  0.0025]],
+       device='cuda:0')
+Epoch 58, bias, value: tensor([ 0.0187, -0.0228, -0.0054,  0.0099, -0.0241, -0.0073,  0.0119,  0.0028,
+         0.0280, -0.0268], device='cuda:0'), grad: tensor([-0.0093,  0.0067, -0.0417,  0.0099,  0.0079, -0.0384,  0.0321,  0.0372,
+        -0.0333,  0.0288], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 57, time 226.68, cls_loss 0.6652 cls_loss_mapping 0.0330 cls_loss_causal 0.6319 re_mapping 0.0156 re_causal 0.0420 /// teacc 98.45 lr 0.00010000
+Epoch 59, weight, value: tensor([[-0.0478, -0.0325, -0.0771,  ...,  0.0767, -0.0148,  0.0303],
+        [-0.0472,  0.0629, -0.0652,  ...,  0.0202, -0.0365, -0.0572],
+        [-0.0285,  0.0469, -0.0581,  ..., -0.0346,  0.0061,  0.0648],
+        ...,
+        [-0.0023,  0.0236, -0.0128,  ...,  0.0085,  0.0207, -0.0112],
+        [ 0.0521, -0.0506,  0.0203,  ...,  0.0026,  0.0037, -0.0321],
+        [-0.0173, -0.0472,  0.0503,  ..., -0.0250,  0.0068, -0.0107]],
+       device='cuda:0'), grad: tensor([[ 0.0001,  0.0048,  0.0034,  ...,  0.0059,  0.0023,  0.0190],
+        [-0.0004, -0.0001,  0.0053,  ..., -0.0019,  0.0031,  0.0022],
+        [-0.0021, -0.0009, -0.0053,  ..., -0.0027, -0.0046, -0.0020],
+        ...,
+        [ 0.0002,  0.0030,  0.0021,  ...,  0.0023,  0.0025,  0.0030],
+        [ 0.0006,  0.0038,  0.0032,  ...,  0.0010,  0.0011,  0.0039],
+        [ 0.0014, -0.0124, -0.0144,  ..., -0.0109, -0.0052, -0.0164]],
+       device='cuda:0')
+Epoch 59, bias, value: tensor([ 0.0184, -0.0231, -0.0054,  0.0100, -0.0245, -0.0077,  0.0119,  0.0030,
+         0.0284, -0.0261], device='cuda:0'), grad: tensor([ 0.0702,  0.0263, -0.0108, -0.0135, -0.0218,  0.0421,  0.0027,  0.0137,
+         0.0092, -0.1180], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 58, time 226.73, cls_loss 0.6412 cls_loss_mapping 0.0307 cls_loss_causal 0.5981 re_mapping 0.0154 re_causal 0.0405 /// teacc 98.35 lr 0.00010000
+Epoch 60, weight, value: tensor([[-0.0479, -0.0326, -0.0773,  ...,  0.0781, -0.0145,  0.0297],
+        [-0.0474,  0.0615, -0.0659,  ...,  0.0199, -0.0367, -0.0575],
+        [-0.0289,  0.0474, -0.0585,  ..., -0.0337,  0.0063,  0.0655],
+        ...,
+        [-0.0014,  0.0241, -0.0129,  ...,  0.0072,  0.0203, -0.0120],
+        [ 0.0523, -0.0504,  0.0215,  ...,  0.0035,  0.0036, -0.0326],
+        [-0.0173, -0.0473,  0.0503,  ..., -0.0254,  0.0069, -0.0108]],
+       device='cuda:0'), grad: tensor([[ 8.9359e-04,  3.3784e-04,  4.8714e-03,  ...,  8.6594e-03,
+         -5.0783e-04, -3.4828e-03],
+        [ 1.7667e-04, -1.5535e-03,  1.8826e-03,  ...,  2.2519e-04,
+          1.1311e-03,  1.6088e-03],
+        [ 8.3542e-04,  1.8482e-03,  2.2125e-03,  ...,  3.6201e-03,
+          4.6577e-03,  3.1872e-03],
+        ...,
+        [-3.6221e-03, -1.4954e-03, -7.9193e-03,  ..., -3.7727e-03,
+         -4.9400e-03, -2.3155e-03],
+        [ 8.4496e-04,  1.1253e-03,  6.4735e-03,  ...,  7.3242e-03,
+          4.8943e-03,  5.7316e-04],
+        [ 1.1168e-03,  9.4831e-05, -2.2003e-02,  ..., -6.6795e-03,
+         -1.4809e-02, -2.4014e-03]], device='cuda:0')
+Epoch 60, bias, value: tensor([ 0.0186, -0.0236, -0.0051,  0.0100, -0.0241, -0.0081,  0.0116,  0.0025,
+         0.0293, -0.0263], device='cuda:0'), grad: tensor([ 0.0017,  0.0059,  0.0284,  0.0343, -0.0070, -0.0084, -0.0024, -0.0397,
+         0.0224, -0.0353], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 59, time 226.32, cls_loss 0.6865 cls_loss_mapping 0.0356 cls_loss_causal 0.6581 re_mapping 0.0152 re_causal 0.0419 /// teacc 98.41 lr 0.00010000
+Epoch 61, weight, value: tensor([[-0.0480, -0.0330, -0.0778,  ...,  0.0787, -0.0154,  0.0292],
+        [-0.0477,  0.0628, -0.0662,  ...,  0.0203, -0.0373, -0.0575],
+        [-0.0289,  0.0475, -0.0595,  ..., -0.0333,  0.0061,  0.0664],
+        ...,
+        [-0.0024,  0.0237, -0.0130,  ...,  0.0078,  0.0205, -0.0118],
+        [ 0.0524, -0.0519,  0.0213,  ...,  0.0016,  0.0026, -0.0343],
+        [-0.0162, -0.0466,  0.0513,  ..., -0.0253,  0.0076, -0.0099]],
+       device='cuda:0'), grad: tensor([[-0.0007, -0.0038, -0.0112,  ...,  0.0026, -0.0105, -0.0054],
+        [-0.0027, -0.0034, -0.0172,  ..., -0.0051, -0.0031,  0.0051],
+        [-0.0020, -0.0051,  0.0040,  ...,  0.0005, -0.0030, -0.0053],
+        ...,
+        [ 0.0021,  0.0044,  0.0101,  ...,  0.0022,  0.0065,  0.0018],
+        [-0.0009, -0.0025, -0.0119,  ..., -0.0163, -0.0023,  0.0002],
+        [ 0.0003,  0.0028,  0.0036,  ...,  0.0084, -0.0002,  0.0018]],
+       device='cuda:0')
+Epoch 61, bias, value: tensor([ 0.0191, -0.0233, -0.0054,  0.0096, -0.0235, -0.0086,  0.0117,  0.0026,
+         0.0281, -0.0256], device='cuda:0'), grad: tensor([-0.0180,  0.0036, -0.0356,  0.0650,  0.0108, -0.0241,  0.0217,  0.0152,
+        -0.0524,  0.0136], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 60, time 226.14, cls_loss 0.6057 cls_loss_mapping 0.0295 cls_loss_causal 0.5746 re_mapping 0.0152 re_causal 0.0396 /// teacc 98.42 lr 0.00010000
+Epoch 62, weight, value: tensor([[-0.0487, -0.0329, -0.0780,  ...,  0.0787, -0.0158,  0.0295],
+        [-0.0477,  0.0638, -0.0664,  ...,  0.0211, -0.0379, -0.0573],
+        [-0.0292,  0.0475, -0.0600,  ..., -0.0337,  0.0068,  0.0663],
+        ...,
+        [-0.0024,  0.0243, -0.0122,  ...,  0.0073,  0.0215, -0.0112],
+        [ 0.0522, -0.0511,  0.0214,  ...,  0.0021,  0.0027, -0.0342],
+        [-0.0164, -0.0464,  0.0517,  ..., -0.0256,  0.0068, -0.0102]],
+       device='cuda:0'), grad: tensor([[ 1.3649e-04,  1.0080e-03,  2.9812e-03,  ...,  2.4853e-03,
+          3.3212e-04,  1.8520e-03],
+        [ 3.0565e-04,  2.1896e-03,  5.0697e-03,  ...,  5.5733e-03,
+          5.1081e-05,  3.9825e-03],
+        [ 9.2685e-05, -1.1969e-03, -1.6069e-03,  ..., -1.7595e-03,
+          1.4079e-04, -2.0504e-03],
+        ...,
+        [ 1.1230e-04, -6.8712e-04, -9.6464e-04,  ..., -1.2226e-03,
+          2.8253e-04, -6.3419e-04],
+        [ 4.3488e-04, -8.8596e-04,  5.4312e-04,  ..., -3.1624e-03,
+          1.2722e-03, -1.2693e-03],
+        [-6.8092e-03,  8.2397e-04, -2.2766e-02,  ...,  3.3264e-03,
+         -1.1589e-02,  1.7939e-03]], device='cuda:0')
+Epoch 62, bias, value: tensor([ 0.0193, -0.0233, -0.0053,  0.0092, -0.0236, -0.0085,  0.0114,  0.0027,
+         0.0283, -0.0253], device='cuda:0'), grad: tensor([ 0.0198,  0.0395, -0.0188, -0.0175,  0.0423, -0.0668,  0.0305, -0.0113,
+        -0.0087, -0.0088], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 61, time 226.40, cls_loss 0.7080 cls_loss_mapping 0.0371 cls_loss_causal 0.6767 re_mapping 0.0153 re_causal 0.0414 /// teacc 98.57 lr 0.00010000
+Epoch 63, weight, value: tensor([[-0.0478, -0.0331, -0.0784,  ...,  0.0786, -0.0153,  0.0288],
+        [-0.0482,  0.0646, -0.0671,  ...,  0.0208, -0.0383, -0.0579],
+        [-0.0294,  0.0479, -0.0585,  ..., -0.0344,  0.0081,  0.0670],
+        ...,
+        [-0.0033,  0.0251, -0.0117,  ...,  0.0080,  0.0209, -0.0114],
+        [ 0.0526, -0.0521,  0.0212,  ...,  0.0017,  0.0025, -0.0341],
+        [-0.0176, -0.0467,  0.0515,  ..., -0.0261,  0.0074, -0.0109]],
+       device='cuda:0'), grad: tensor([[ 3.6716e-03,  3.5267e-03,  3.0251e-03,  ...,  6.1760e-03,
+          1.6232e-03,  8.6136e-03],
+        [ 3.4142e-04, -9.5129e-05,  8.4400e-04,  ..., -2.1267e-04,
+          2.1040e-04,  2.1000e-03],
+        [ 2.1820e-03, -4.3958e-05,  1.4496e-03,  ...,  3.7169e-04,
+          4.2558e-04,  2.6436e-03],
+        ...,
+        [ 6.7253e-03,  1.7166e-03,  8.9874e-03,  ..., -3.9864e-03,
+          4.0131e-03, -4.1199e-03],
+        [-1.1864e-02, -5.1041e-03, -4.6005e-03,  ..., -4.8027e-03,
+         -4.2038e-03, -1.8707e-02],
+        [-5.7945e-03, -6.9008e-03, -2.6321e-03,  ..., -7.9193e-03,
+          8.9931e-04, -6.0997e-03]], device='cuda:0')
+Epoch 63, bias, value: tensor([ 0.0191, -0.0235, -0.0057,  0.0101, -0.0237, -0.0089,  0.0123,  0.0028,
+         0.0281, -0.0259], device='cuda:0'), grad: tensor([ 0.0318,  0.0059,  0.0117,  0.0132,  0.0101,  0.0096,  0.0112, -0.0214,
+        -0.0482, -0.0238], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 62, time 226.75, cls_loss 0.6747 cls_loss_mapping 0.0322 cls_loss_causal 0.6389 re_mapping 0.0153 re_causal 0.0419 /// teacc 98.56 lr 0.00010000
+Epoch 64, weight, value: tensor([[-0.0482, -0.0331, -0.0799,  ...,  0.0787, -0.0139,  0.0296],
+        [-0.0486,  0.0651, -0.0678,  ...,  0.0212, -0.0381, -0.0572],
+        [-0.0298,  0.0490, -0.0588,  ..., -0.0342,  0.0091,  0.0679],
+        ...,
+        [-0.0036,  0.0252, -0.0117,  ...,  0.0078,  0.0200, -0.0122],
+        [ 0.0531, -0.0530,  0.0219,  ...,  0.0023,  0.0026, -0.0345],
+        [-0.0170, -0.0454,  0.0522,  ..., -0.0260,  0.0079, -0.0107]],
+       device='cuda:0'), grad: tensor([[ 1.4725e-03,  1.5841e-03,  1.1702e-03,  ..., -4.5729e-04,
+         -1.6851e-03, -4.3564e-03],
+        [ 8.7500e-04, -1.4465e-02, -1.2150e-03,  ..., -1.5099e-02,
+          1.2465e-03, -7.9117e-03],
+        [ 1.7958e-03,  6.4430e-03,  2.5826e-03,  ...,  4.1313e-03,
+          5.2414e-03,  2.7332e-03],
+        ...,
+        [ 1.0128e-03,  4.3564e-03,  1.9016e-03,  ...,  5.8784e-03,
+         -5.5969e-05,  1.5192e-03],
+        [ 1.7014e-03,  1.9627e-03,  7.3929e-03,  ...,  4.0970e-03,
+          5.7983e-03,  3.8986e-03],
+        [ 7.3147e-04,  1.3962e-03, -1.8539e-03,  ..., -4.2801e-03,
+         -2.9125e-03,  1.9264e-03]], device='cuda:0')
+Epoch 64, bias, value: tensor([ 0.0188, -0.0232, -0.0054,  0.0097, -0.0240, -0.0088,  0.0118,  0.0029,
+         0.0286, -0.0257], device='cuda:0'), grad: tensor([-0.0079, -0.0663,  0.0359, -0.0396, -0.0086,  0.0312, -0.0165,  0.0219,
+         0.0427,  0.0073], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 63, time 226.38, cls_loss 0.6602 cls_loss_mapping 0.0317 cls_loss_causal 0.6214 re_mapping 0.0152 re_causal 0.0407 /// teacc 98.23 lr 0.00010000
+Epoch 65, weight, value: tensor([[-0.0470, -0.0328, -0.0794,  ...,  0.0800, -0.0134,  0.0305],
+        [-0.0492,  0.0657, -0.0683,  ...,  0.0200, -0.0390, -0.0572],
+        [-0.0293,  0.0488, -0.0584,  ..., -0.0338,  0.0093,  0.0675],
+        ...,
+        [-0.0042,  0.0262, -0.0123,  ...,  0.0088,  0.0203, -0.0119],
+        [ 0.0541, -0.0534,  0.0226,  ...,  0.0016,  0.0038, -0.0351],
+        [-0.0172, -0.0464,  0.0523,  ..., -0.0262,  0.0073, -0.0111]],
+       device='cuda:0'), grad: tensor([[-0.0121, -0.0017, -0.0079,  ..., -0.0124, -0.0083, -0.0029],
+        [ 0.0003,  0.0292,  0.0035,  ...,  0.0325,  0.0002,  0.0024],
+        [ 0.0008,  0.0019,  0.0012,  ...,  0.0041,  0.0009,  0.0028],
+        ...,
+        [ 0.0003, -0.0315,  0.0025,  ..., -0.0361,  0.0008, -0.0032],
+        [ 0.0080,  0.0003,  0.0102,  ...,  0.0062,  0.0042, -0.0007],
+        [ 0.0015,  0.0014,  0.0025,  ...,  0.0030,  0.0010,  0.0014]],
+       device='cuda:0')
+Epoch 65, bias, value: tensor([ 0.0200, -0.0235, -0.0054,  0.0092, -0.0240, -0.0096,  0.0123,  0.0038,
+         0.0282, -0.0262], device='cuda:0'), grad: tensor([-0.0443,  0.0531,  0.0212,  0.0180, -0.0452, -0.0095,  0.0087, -0.0460,
+         0.0242,  0.0198], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 64, time 226.36, cls_loss 0.6584 cls_loss_mapping 0.0346 cls_loss_causal 0.6170 re_mapping 0.0147 re_causal 0.0391 /// teacc 98.22 lr 0.00010000
+Epoch 66, weight, value: tensor([[-0.0461, -0.0327, -0.0803,  ...,  0.0796, -0.0139,  0.0312],
+        [-0.0503,  0.0653, -0.0679,  ...,  0.0202, -0.0390, -0.0573],
+        [-0.0291,  0.0499, -0.0582,  ..., -0.0334,  0.0101,  0.0682],
+        ...,
+        [-0.0041,  0.0250, -0.0125,  ...,  0.0086,  0.0197, -0.0124],
+        [ 0.0545, -0.0534,  0.0227,  ...,  0.0008,  0.0030, -0.0360],
+        [-0.0178, -0.0454,  0.0526,  ..., -0.0264,  0.0081, -0.0102]],
+       device='cuda:0'), grad: tensor([[ 5.4502e-04,  8.6117e-04,  1.8444e-03,  ...,  2.4738e-03,
+          8.7204e-03,  3.3588e-03],
+        [-4.8876e-04,  1.4257e-03,  3.5763e-03,  ...,  4.6196e-03,
+          1.7395e-03,  1.9503e-03],
+        [ 2.0349e-04, -1.2312e-03,  8.8310e-04,  ..., -6.7234e-04,
+          6.6185e-03,  9.0313e-04],
+        ...,
+        [ 6.7472e-05, -6.1646e-03, -1.1032e-02,  ..., -1.4099e-02,
+         -2.5139e-03, -1.2131e-03],
+        [ 2.9778e-04,  6.4516e-04, -4.3607e-04,  ..., -1.3161e-03,
+         -2.3804e-02, -8.9417e-03],
+        [ 2.7204e-04,  4.4136e-03,  4.7226e-03,  ...,  7.4692e-03,
+          3.6678e-03,  2.4319e-03]], device='cuda:0')
+Epoch 66, bias, value: tensor([ 0.0202, -0.0234, -0.0051,  0.0092, -0.0236, -0.0094,  0.0115,  0.0032,
+         0.0279, -0.0257], device='cuda:0'), grad: tensor([ 0.0255,  0.0204, -0.0071, -0.0145, -0.0062,  0.0118,  0.0129, -0.0239,
+        -0.0442,  0.0252], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 65, time 229.30, cls_loss 0.6578 cls_loss_mapping 0.0337 cls_loss_causal 0.6216 re_mapping 0.0139 re_causal 0.0387 /// teacc 98.49 lr 0.00010000
+Epoch 67, weight, value: tensor([[-4.6905e-02, -3.3826e-02, -8.0614e-02,  ...,  7.9268e-02,
+         -1.4147e-02,  3.1453e-02],
+        [-5.0401e-02,  6.5258e-02, -6.7531e-02,  ...,  2.0131e-02,
+         -3.8745e-02, -5.8191e-02],
+        [-2.8698e-02,  5.1321e-02, -5.7972e-02,  ..., -3.2998e-02,
+          1.0082e-02,  6.8395e-02],
+        ...,
+        [-4.4422e-03,  2.5881e-02, -1.2292e-02,  ...,  8.6484e-03,
+          2.0632e-02, -1.2349e-02],
+        [ 5.4573e-02, -5.4655e-02,  2.2363e-02,  ...,  6.7149e-05,
+          3.1612e-03, -3.6247e-02],
+        [-1.7869e-02, -4.6922e-02,  5.2582e-02,  ..., -2.7049e-02,
+          7.4955e-03, -1.0648e-02]], device='cuda:0'), grad: tensor([[ 0.0002,  0.0008,  0.0017,  ...,  0.0018,  0.0043,  0.0024],
+        [ 0.0003,  0.0005,  0.0011,  ...,  0.0013,  0.0013,  0.0020],
+        [ 0.0003, -0.0008,  0.0003,  ..., -0.0049, -0.0002, -0.0047],
+        ...,
+        [ 0.0003, -0.0023, -0.0011,  ...,  0.0006,  0.0021,  0.0017],
+        [ 0.0003,  0.0012, -0.0054,  ...,  0.0019,  0.0005,  0.0026],
+        [-0.0023, -0.0031, -0.0024,  ..., -0.0066, -0.0124, -0.0093]],
+       device='cuda:0')
+Epoch 67, bias, value: tensor([ 0.0197, -0.0234, -0.0046,  0.0090, -0.0238, -0.0094,  0.0122,  0.0039,
+         0.0274, -0.0262], device='cuda:0'), grad: tensor([ 2.5085e-02,  1.4954e-02, -2.7252e-02,  4.5280e-03,  2.0844e-02,
+         1.1620e-02,  2.1890e-05,  2.2095e-02,  1.4526e-02, -8.6487e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 66, time 229.68, cls_loss 0.6599 cls_loss_mapping 0.0350 cls_loss_causal 0.6306 re_mapping 0.0145 re_causal 0.0392 /// teacc 98.31 lr 0.00010000
+Epoch 68, weight, value: tensor([[-0.0476, -0.0344, -0.0811,  ...,  0.0789, -0.0144,  0.0306],
+        [-0.0498,  0.0659, -0.0681,  ...,  0.0202, -0.0383, -0.0587],
+        [-0.0286,  0.0510, -0.0582,  ..., -0.0335,  0.0092,  0.0692],
+        ...,
+        [-0.0055,  0.0267, -0.0120,  ...,  0.0087,  0.0205, -0.0126],
+        [ 0.0551, -0.0540,  0.0231,  ...,  0.0007,  0.0030, -0.0357],
+        [-0.0189, -0.0484,  0.0524,  ..., -0.0274,  0.0078, -0.0107]],
+       device='cuda:0'), grad: tensor([[ 7.8678e-05,  5.8794e-04,  1.0853e-03,  ...,  1.1473e-03,
+          9.9564e-04,  1.3666e-03],
+        [ 3.1910e-03,  8.0633e-04,  3.6697e-03,  ...,  8.5640e-04,
+          1.2426e-03,  1.3180e-05],
+        [ 5.8365e-04, -9.1362e-04,  1.7214e-03,  ..., -2.1038e-03,
+          1.5507e-03, -9.2649e-04],
+        ...,
+        [-2.3651e-03, -1.5583e-03,  5.3482e-03,  ...,  6.5517e-04,
+          4.2000e-03,  2.2984e-04],
+        [ 1.6522e-04,  1.4257e-03,  1.0033e-02,  ...,  2.8648e-03,
+          5.5389e-03,  2.7084e-03],
+        [ 7.7629e-04, -1.8625e-03, -2.1469e-02,  ..., -3.2368e-03,
+         -1.3695e-02, -8.8596e-04]], device='cuda:0')
+Epoch 68, bias, value: tensor([ 0.0195, -0.0231, -0.0051,  0.0091, -0.0242, -0.0097,  0.0126,  0.0036,
+         0.0281, -0.0261], device='cuda:0'), grad: tensor([ 0.0118,  0.0091, -0.0165,  0.0082, -0.0292, -0.0159,  0.0166,  0.0137,
+         0.0340, -0.0316], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 67, time 226.23, cls_loss 0.6545 cls_loss_mapping 0.0291 cls_loss_causal 0.6173 re_mapping 0.0150 re_causal 0.0406 /// teacc 98.51 lr 0.00010000
+Epoch 69, weight, value: tensor([[-0.0472, -0.0341, -0.0806,  ...,  0.0796, -0.0149,  0.0310],
+        [-0.0512,  0.0648, -0.0690,  ...,  0.0198, -0.0393, -0.0603],
+        [-0.0288,  0.0524, -0.0593,  ..., -0.0336,  0.0100,  0.0705],
+        ...,
+        [-0.0040,  0.0269, -0.0112,  ...,  0.0085,  0.0213, -0.0134],
+        [ 0.0546, -0.0535,  0.0231,  ...,  0.0010,  0.0029, -0.0349],
+        [-0.0188, -0.0491,  0.0525,  ..., -0.0274,  0.0084, -0.0110]],
+       device='cuda:0'), grad: tensor([[ 8.6874e-06,  8.1968e-04, -2.3174e-03,  ...,  1.8606e-03,
+          1.5192e-03, -1.7834e-03],
+        [ 3.0413e-05,  8.4734e-04,  2.9907e-03,  ...,  3.3226e-03,
+          1.5650e-03,  2.4605e-03],
+        [-1.4551e-05,  2.1305e-03,  1.9383e-04,  ...,  2.2125e-03,
+          1.7147e-03,  7.9441e-04],
+        ...,
+        [ 3.5954e-04,  6.1941e-04, -4.9543e-04,  ..., -1.2827e-03,
+          5.6496e-03, -8.9407e-05],
+        [-7.7486e-04,  3.5782e-03,  4.4403e-03,  ..., -2.0790e-03,
+          2.0123e-03,  3.4332e-03],
+        [-3.8600e-04,  2.6894e-03,  1.1482e-03,  ...,  4.6682e-04,
+         -2.3956e-03,  2.0504e-03]], device='cuda:0')
+Epoch 69, bias, value: tensor([ 0.0194, -0.0239, -0.0053,  0.0091, -0.0243, -0.0092,  0.0126,  0.0041,
+         0.0282, -0.0259], device='cuda:0'), grad: tensor([ 0.0024,  0.0285, -0.0020, -0.1272,  0.0298,  0.0067,  0.0450, -0.0150,
+         0.0235,  0.0082], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 68, time 225.98, cls_loss 0.6531 cls_loss_mapping 0.0285 cls_loss_causal 0.6195 re_mapping 0.0149 re_causal 0.0400 /// teacc 98.27 lr 0.00010000
+Epoch 70, weight, value: tensor([[-0.0463, -0.0350, -0.0811,  ...,  0.0806, -0.0166,  0.0301],
+        [-0.0511,  0.0649, -0.0681,  ...,  0.0197, -0.0380, -0.0601],
+        [-0.0287,  0.0533, -0.0600,  ..., -0.0337,  0.0100,  0.0706],
+        ...,
+        [-0.0048,  0.0265, -0.0109,  ...,  0.0084,  0.0217, -0.0132],
+        [ 0.0541, -0.0537,  0.0220,  ...,  0.0002,  0.0026, -0.0356],
+        [-0.0170, -0.0486,  0.0528,  ..., -0.0276,  0.0095, -0.0099]],
+       device='cuda:0'), grad: tensor([[-0.0009,  0.0003,  0.0004,  ...,  0.0020, -0.0173,  0.0011],
+        [ 0.0002, -0.0014,  0.0002,  ..., -0.0029,  0.0002, -0.0017],
+        [ 0.0004,  0.0019,  0.0031,  ...,  0.0014,  0.0053,  0.0007],
+        ...,
+        [ 0.0057,  0.0293,  0.0137,  ..., -0.0004,  0.0208, -0.0013],
+        [ 0.0011,  0.0003,  0.0010,  ...,  0.0032,  0.0007,  0.0012],
+        [-0.0043, -0.0339, -0.0273,  ..., -0.0039, -0.0274,  0.0007]],
+       device='cuda:0')
+Epoch 70, bias, value: tensor([ 0.0204, -0.0236, -0.0053,  0.0095, -0.0241, -0.0100,  0.0130,  0.0042,
+         0.0267, -0.0259], device='cuda:0'), grad: tensor([-0.0265, -0.0189,  0.0184,  0.0007, -0.0128,  0.0464,  0.0058,  0.0288,
+         0.0179, -0.0597], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 69, time 226.69, cls_loss 0.6430 cls_loss_mapping 0.0250 cls_loss_causal 0.6037 re_mapping 0.0145 re_causal 0.0380 /// teacc 98.45 lr 0.00010000
+Epoch 71, weight, value: tensor([[-0.0452, -0.0355, -0.0804,  ...,  0.0808, -0.0165,  0.0300],
+        [-0.0501,  0.0653, -0.0668,  ...,  0.0198, -0.0377, -0.0599],
+        [-0.0296,  0.0535, -0.0603,  ..., -0.0333,  0.0100,  0.0718],
+        ...,
+        [-0.0048,  0.0264, -0.0115,  ...,  0.0081,  0.0210, -0.0141],
+        [ 0.0545, -0.0548,  0.0223,  ...,  0.0003,  0.0039, -0.0356],
+        [-0.0181, -0.0479,  0.0526,  ..., -0.0276,  0.0090, -0.0106]],
+       device='cuda:0'), grad: tensor([[ 0.0029,  0.0014,  0.0011,  ...,  0.0032,  0.0019,  0.0019],
+        [ 0.0003,  0.0024,  0.0020,  ...,  0.0024,  0.0015,  0.0009],
+        [ 0.0009,  0.0016,  0.0017,  ...,  0.0020,  0.0017,  0.0014],
+        ...,
+        [ 0.0006, -0.0054, -0.0124,  ..., -0.0006, -0.0078,  0.0005],
+        [ 0.0006, -0.0043,  0.0021,  ..., -0.0045,  0.0019, -0.0008],
+        [ 0.0010,  0.0051,  0.0104,  ...,  0.0023,  0.0072,  0.0011]],
+       device='cuda:0')
+Epoch 71, bias, value: tensor([ 0.0205, -0.0228, -0.0051,  0.0090, -0.0234, -0.0100,  0.0119,  0.0037,
+         0.0267, -0.0256], device='cuda:0'), grad: tensor([ 0.0216,  0.0186,  0.0185, -0.0337,  0.0168, -0.0199, -0.0234, -0.0047,
+        -0.0186,  0.0248], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 70, time 228.13, cls_loss 0.6143 cls_loss_mapping 0.0260 cls_loss_causal 0.5900 re_mapping 0.0142 re_causal 0.0382 /// teacc 98.53 lr 0.00010000
+Epoch 72, weight, value: tensor([[-0.0455, -0.0359, -0.0814,  ...,  0.0817, -0.0172,  0.0298],
+        [-0.0508,  0.0663, -0.0665,  ...,  0.0192, -0.0367, -0.0599],
+        [-0.0295,  0.0534, -0.0613,  ..., -0.0347,  0.0100,  0.0715],
+        ...,
+        [-0.0045,  0.0268, -0.0109,  ...,  0.0086,  0.0213, -0.0133],
+        [ 0.0548, -0.0547,  0.0224,  ...,  0.0008,  0.0035, -0.0362],
+        [-0.0180, -0.0489,  0.0521,  ..., -0.0270,  0.0084, -0.0107]],
+       device='cuda:0'), grad: tensor([[ 4.2367e-04, -3.2845e-03, -1.5812e-03,  ..., -1.4374e-02,
+          4.2748e-04, -5.7793e-04],
+        [-1.8513e-04, -9.3126e-04, -7.5645e-03,  ...,  1.2960e-03,
+          3.2634e-05,  9.6798e-04],
+        [-7.3051e-03, -3.2291e-03,  1.8206e-03,  ...,  5.1041e-03,
+         -1.4486e-03,  2.6970e-03],
+        ...,
+        [ 7.5989e-03, -3.1662e-04, -8.4229e-03,  ..., -1.4114e-03,
+         -1.2672e-02, -2.5787e-03],
+        [ 1.3161e-03,  1.9188e-03,  2.6016e-03,  ...,  5.4436e-03,
+          1.6270e-03,  2.7046e-03],
+        [-1.1673e-03,  7.4148e-04,  4.8370e-03,  ...,  2.5272e-03,
+          1.2352e-02,  5.9891e-04]], device='cuda:0')
+Epoch 72, bias, value: tensor([ 0.0195, -0.0231, -0.0061,  0.0092, -0.0238, -0.0093,  0.0121,  0.0047,
+         0.0271, -0.0255], device='cuda:0'), grad: tensor([-0.0212, -0.0265,  0.0022,  0.0019, -0.0429, -0.0065,  0.0258,  0.0101,
+         0.0312,  0.0258], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 71, time 227.25, cls_loss 0.6370 cls_loss_mapping 0.0296 cls_loss_causal 0.6017 re_mapping 0.0141 re_causal 0.0373 /// teacc 98.51 lr 0.00010000
+Epoch 73, weight, value: tensor([[-0.0468, -0.0354, -0.0826,  ...,  0.0825, -0.0180,  0.0297],
+        [-0.0512,  0.0664, -0.0671,  ...,  0.0200, -0.0370, -0.0606],
+        [-0.0289,  0.0545, -0.0620,  ..., -0.0354,  0.0102,  0.0723],
+        ...,
+        [-0.0040,  0.0271, -0.0104,  ...,  0.0085,  0.0219, -0.0139],
+        [ 0.0542, -0.0551,  0.0226,  ...,  0.0005,  0.0031, -0.0362],
+        [-0.0182, -0.0486,  0.0522,  ..., -0.0263,  0.0080, -0.0106]],
+       device='cuda:0'), grad: tensor([[ 0.0010,  0.0018,  0.0044,  ...,  0.0038,  0.0065,  0.0103],
+        [ 0.0007, -0.0049, -0.0051,  ..., -0.0049, -0.0049, -0.0016],
+        [ 0.0005, -0.0025, -0.0048,  ..., -0.0066, -0.0011, -0.0079],
+        ...,
+        [ 0.0001,  0.0014,  0.0052,  ...,  0.0021,  0.0017,  0.0015],
+        [ 0.0008, -0.0012,  0.0027,  ..., -0.0011,  0.0016,  0.0001],
+        [-0.0013,  0.0002, -0.0108,  ..., -0.0011, -0.0103, -0.0100]],
+       device='cuda:0')
+Epoch 73, bias, value: tensor([ 0.0192, -0.0225, -0.0061,  0.0088, -0.0244, -0.0096,  0.0121,  0.0041,
+         0.0279, -0.0249], device='cuda:0'), grad: tensor([ 0.0462, -0.0228, -0.0453, -0.0139,  0.0261,  0.0163,  0.0267,  0.0201,
+        -0.0062, -0.0473], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 72, time 226.96, cls_loss 0.6248 cls_loss_mapping 0.0243 cls_loss_causal 0.5885 re_mapping 0.0140 re_causal 0.0370 /// teacc 98.50 lr 0.00010000
+Epoch 74, weight, value: tensor([[-4.7792e-02, -3.6763e-02, -8.3044e-02,  ...,  8.3481e-02,
+         -1.8326e-02,  2.9715e-02],
+        [-5.0457e-02,  6.6243e-02, -6.7940e-02,  ...,  2.0349e-02,
+         -3.7924e-02, -6.1128e-02],
+        [-2.9030e-02,  5.5064e-02, -6.1821e-02,  ..., -3.5486e-02,
+          1.0169e-02,  7.3595e-02],
+        ...,
+        [-4.4262e-03,  2.7171e-02, -1.0446e-02,  ...,  8.7757e-03,
+          2.2114e-02, -1.5178e-02],
+        [ 5.3918e-02, -5.4403e-02,  2.2416e-02,  ...,  7.5320e-05,
+          4.0763e-03, -3.6509e-02],
+        [-1.8090e-02, -4.8598e-02,  5.2618e-02,  ..., -2.6676e-02,
+          7.8779e-03, -1.0528e-02]], device='cuda:0'), grad: tensor([[ 0.0005, -0.0005,  0.0003,  ..., -0.0011,  0.0004, -0.0008],
+        [ 0.0002, -0.0011, -0.0009,  ..., -0.0012,  0.0001, -0.0019],
+        [ 0.0008,  0.0020,  0.0026,  ...,  0.0028,  0.0012,  0.0029],
+        ...,
+        [ 0.0010, -0.0001, -0.0199,  ...,  0.0034, -0.0046,  0.0039],
+        [-0.0230,  0.0030,  0.0115,  ...,  0.0049,  0.0089, -0.0012],
+        [-0.0017,  0.0004, -0.0109,  ..., -0.0022, -0.0087, -0.0024]],
+       device='cuda:0')
+Epoch 74, bias, value: tensor([ 0.0192, -0.0223, -0.0057,  0.0088, -0.0244, -0.0093,  0.0119,  0.0039,
+         0.0276, -0.0251], device='cuda:0'), grad: tensor([-0.0055, -0.0177,  0.0299,  0.0018,  0.0379, -0.0310,  0.0153,  0.0112,
+        -0.0034, -0.0386], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 73, time 226.97, cls_loss 0.6301 cls_loss_mapping 0.0308 cls_loss_causal 0.6005 re_mapping 0.0142 re_causal 0.0363 /// teacc 98.52 lr 0.00010000
+Epoch 75, weight, value: tensor([[-0.0473, -0.0370, -0.0841,  ...,  0.0841, -0.0186,  0.0303],
+        [-0.0510,  0.0674, -0.0672,  ...,  0.0212, -0.0354, -0.0616],
+        [-0.0294,  0.0555, -0.0623,  ..., -0.0351,  0.0117,  0.0750],
+        ...,
+        [-0.0043,  0.0266, -0.0108,  ...,  0.0075,  0.0207, -0.0167],
+        [ 0.0538, -0.0541,  0.0227,  ..., -0.0005,  0.0033, -0.0373],
+        [-0.0175, -0.0493,  0.0540,  ..., -0.0281,  0.0091, -0.0111]],
+       device='cuda:0'), grad: tensor([[ 0.0027, -0.0009, -0.0004,  ...,  0.0004,  0.0033,  0.0017],
+        [ 0.0006, -0.0004, -0.0011,  ..., -0.0018, -0.0010,  0.0002],
+        [ 0.0006,  0.0026,  0.0030,  ...,  0.0049,  0.0061,  0.0051],
+        ...,
+        [ 0.0004,  0.0021, -0.0045,  ...,  0.0012,  0.0021,  0.0039],
+        [ 0.0002, -0.0018, -0.0017,  ..., -0.0019,  0.0007, -0.0025],
+        [ 0.0004, -0.0001, -0.0023,  ...,  0.0009, -0.0052,  0.0006]],
+       device='cuda:0')
+Epoch 75, bias, value: tensor([ 0.0192, -0.0214, -0.0061,  0.0087, -0.0237, -0.0093,  0.0119,  0.0033,
+         0.0277, -0.0256], device='cuda:0'), grad: tensor([-0.0003, -0.0036,  0.0336,  0.0075, -0.0266,  0.0210, -0.0070,  0.0206,
+        -0.0176, -0.0277], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 74, time 226.97, cls_loss 0.6587 cls_loss_mapping 0.0272 cls_loss_causal 0.6297 re_mapping 0.0131 re_causal 0.0349 /// teacc 98.30 lr 0.00010000
+Epoch 76, weight, value: tensor([[-0.0475, -0.0358, -0.0846,  ...,  0.0849, -0.0183,  0.0308],
+        [-0.0520,  0.0676, -0.0671,  ...,  0.0215, -0.0363, -0.0618],
+        [-0.0295,  0.0558, -0.0632,  ..., -0.0348,  0.0112,  0.0739],
+        ...,
+        [-0.0028,  0.0276, -0.0105,  ...,  0.0078,  0.0215, -0.0168],
+        [ 0.0548, -0.0552,  0.0220,  ..., -0.0012,  0.0024, -0.0381],
+        [-0.0187, -0.0493,  0.0542,  ..., -0.0287,  0.0096, -0.0102]],
+       device='cuda:0'), grad: tensor([[ 0.0017, -0.0009, -0.0013,  ..., -0.0026, -0.0003, -0.0053],
+        [ 0.0011, -0.0008, -0.0018,  ..., -0.0027,  0.0003, -0.0014],
+        [ 0.0096,  0.0034,  0.0008,  ...,  0.0016,  0.0021,  0.0071],
+        ...,
+        [-0.0207, -0.0024,  0.0011,  ...,  0.0022, -0.0041, -0.0066],
+        [ 0.0002,  0.0004,  0.0007,  ...,  0.0014,  0.0003,  0.0014],
+        [ 0.0007,  0.0013,  0.0014,  ...,  0.0020,  0.0004,  0.0022]],
+       device='cuda:0')
+Epoch 76, bias, value: tensor([ 0.0196, -0.0216, -0.0064,  0.0084, -0.0233, -0.0092,  0.0118,  0.0037,
+         0.0272, -0.0253], device='cuda:0'), grad: tensor([-0.0243, -0.0148,  0.0359,  0.0348, -0.0069, -0.0160, -0.0242, -0.0118,
+         0.0096,  0.0177], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 75, time 227.38, cls_loss 0.6007 cls_loss_mapping 0.0286 cls_loss_causal 0.5681 re_mapping 0.0135 re_causal 0.0355 /// teacc 98.36 lr 0.00010000
+Epoch 77, weight, value: tensor([[-0.0473, -0.0360, -0.0851,  ...,  0.0855, -0.0182,  0.0307],
+        [-0.0528,  0.0684, -0.0674,  ...,  0.0217, -0.0360, -0.0614],
+        [-0.0292,  0.0553, -0.0636,  ..., -0.0356,  0.0110,  0.0739],
+        ...,
+        [-0.0028,  0.0277, -0.0102,  ...,  0.0080,  0.0225, -0.0167],
+        [ 0.0550, -0.0550,  0.0224,  ..., -0.0009,  0.0022, -0.0370],
+        [-0.0191, -0.0500,  0.0543,  ..., -0.0289,  0.0094, -0.0109]],
+       device='cuda:0'), grad: tensor([[ 3.0088e-04,  1.7815e-03,  8.5211e-04,  ...,  2.1076e-03,
+          2.2793e-04, -1.7452e-04],
+        [ 7.7009e-04, -2.8744e-03,  5.3024e-04,  ...,  1.2608e-03,
+          1.5366e-04,  4.3899e-05],
+        [ 8.5831e-04, -4.0054e-03, -5.0354e-04,  ..., -1.9274e-03,
+          3.3951e-04, -5.4207e-03],
+        ...,
+        [-4.1084e-03,  1.7099e-03, -6.0997e-03,  ...,  1.8368e-03,
+         -3.1605e-03,  1.2522e-03],
+        [ 1.4219e-03,  3.0098e-03,  6.5041e-04,  ...,  2.1172e-03,
+          4.6754e-04,  3.8395e-03],
+        [ 6.0768e-03,  1.6527e-03,  8.2932e-03,  ...,  1.6747e-03,
+          4.8943e-03,  1.5364e-03]], device='cuda:0')
+Epoch 77, bias, value: tensor([ 0.0199, -0.0216, -0.0065,  0.0079, -0.0237, -0.0084,  0.0117,  0.0038,
+         0.0272, -0.0255], device='cuda:0'), grad: tensor([ 0.0168, -0.0109, -0.0217, -0.0768,  0.0207,  0.0179, -0.0172,  0.0143,
+         0.0259,  0.0311], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 76, time 227.39, cls_loss 0.6338 cls_loss_mapping 0.0309 cls_loss_causal 0.6007 re_mapping 0.0132 re_causal 0.0359 /// teacc 98.40 lr 0.00010000
+Epoch 78, weight, value: tensor([[-0.0478, -0.0360, -0.0852,  ...,  0.0853, -0.0183,  0.0300],
+        [-0.0535,  0.0685, -0.0689,  ...,  0.0223, -0.0372, -0.0612],
+        [-0.0288,  0.0566, -0.0629,  ..., -0.0343,  0.0123,  0.0753],
+        ...,
+        [-0.0029,  0.0277, -0.0110,  ...,  0.0072,  0.0222, -0.0171],
+        [ 0.0554, -0.0557,  0.0226,  ..., -0.0006,  0.0020, -0.0380],
+        [-0.0191, -0.0502,  0.0546,  ..., -0.0287,  0.0096, -0.0109]],
+       device='cuda:0'), grad: tensor([[ 0.0036,  0.0003,  0.0009,  ...,  0.0007,  0.0019,  0.0018],
+        [-0.0022, -0.0053, -0.0019,  ..., -0.0025, -0.0033, -0.0023],
+        [-0.0115,  0.0029,  0.0035,  ...,  0.0028,  0.0012, -0.0005],
+        ...,
+        [ 0.0010, -0.0035, -0.0127,  ..., -0.0040, -0.0164, -0.0090],
+        [-0.0028,  0.0012,  0.0016,  ...,  0.0013,  0.0038,  0.0026],
+        [ 0.0016,  0.0011,  0.0041,  ...,  0.0017,  0.0043,  0.0022]],
+       device='cuda:0')
+Epoch 78, bias, value: tensor([ 0.0197, -0.0212, -0.0054,  0.0077, -0.0231, -0.0084,  0.0112,  0.0029,
+         0.0268, -0.0252], device='cuda:0'), grad: tensor([ 0.0150, -0.0274, -0.0061,  0.0256, -0.0182, -0.0142,  0.0284, -0.0462,
+         0.0189,  0.0243], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 77, time 227.23, cls_loss 0.6198 cls_loss_mapping 0.0250 cls_loss_causal 0.5861 re_mapping 0.0140 re_causal 0.0366 /// teacc 98.50 lr 0.00010000
+Epoch 79, weight, value: tensor([[-0.0470, -0.0364, -0.0857,  ...,  0.0858, -0.0191,  0.0298],
+        [-0.0541,  0.0688, -0.0684,  ...,  0.0231, -0.0367, -0.0623],
+        [-0.0283,  0.0566, -0.0636,  ..., -0.0343,  0.0122,  0.0756],
+        ...,
+        [-0.0037,  0.0286, -0.0112,  ...,  0.0071,  0.0222, -0.0169],
+        [ 0.0555, -0.0555,  0.0225,  ..., -0.0007,  0.0020, -0.0375],
+        [-0.0193, -0.0510,  0.0544,  ..., -0.0289,  0.0098, -0.0110]],
+       device='cuda:0'), grad: tensor([[ 0.0022,  0.0007, -0.0004,  ..., -0.0019,  0.0007,  0.0013],
+        [ 0.0006,  0.0014,  0.0030,  ...,  0.0045,  0.0026,  0.0018],
+        [ 0.0071,  0.0021,  0.0015,  ...,  0.0017,  0.0040,  0.0046],
+        ...,
+        [ 0.0025, -0.0002, -0.0170,  ..., -0.0010, -0.0081,  0.0010],
+        [-0.0138,  0.0013,  0.0093,  ...,  0.0033,  0.0062,  0.0005],
+        [-0.0057, -0.0025, -0.0548,  ..., -0.0021, -0.0375, -0.0002]],
+       device='cuda:0')
+Epoch 79, bias, value: tensor([ 0.0196, -0.0213, -0.0053,  0.0078, -0.0232, -0.0086,  0.0110,  0.0025,
+         0.0274, -0.0250], device='cuda:0'), grad: tensor([ 6.5155e-03,  2.2995e-02,  2.6718e-02, -7.3120e-02,  5.8228e-02,
+        -8.3387e-05,  8.2626e-03, -2.5146e-02,  7.8125e-03, -3.2196e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 78, time 226.93, cls_loss 0.6156 cls_loss_mapping 0.0278 cls_loss_causal 0.5814 re_mapping 0.0132 re_causal 0.0343 /// teacc 98.43 lr 0.00010000
+Epoch 80, weight, value: tensor([[-0.0475, -0.0375, -0.0866,  ...,  0.0864, -0.0198,  0.0298],
+        [-0.0538,  0.0685, -0.0689,  ...,  0.0231, -0.0364, -0.0630],
+        [-0.0292,  0.0566, -0.0643,  ..., -0.0352,  0.0117,  0.0755],
+        ...,
+        [-0.0045,  0.0289, -0.0108,  ...,  0.0070,  0.0212, -0.0174],
+        [ 0.0548, -0.0556,  0.0225,  ..., -0.0010,  0.0028, -0.0374],
+        [-0.0187, -0.0515,  0.0550,  ..., -0.0288,  0.0105, -0.0110]],
+       device='cuda:0'), grad: tensor([[ 0.0004,  0.0003,  0.0013,  ...,  0.0011,  0.0007,  0.0001],
+        [ 0.0004,  0.0004,  0.0011,  ...,  0.0024,  0.0003,  0.0003],
+        [ 0.0002, -0.0003, -0.0012,  ...,  0.0006, -0.0015, -0.0052],
+        ...,
+        [-0.0002, -0.0027, -0.0027,  ..., -0.0064, -0.0009, -0.0010],
+        [ 0.0014,  0.0026,  0.0113,  ...,  0.0019,  0.0173,  0.0125],
+        [-0.0024,  0.0005, -0.0075,  ...,  0.0021, -0.0064,  0.0006]],
+       device='cuda:0')
+Epoch 80, bias, value: tensor([ 0.0191, -0.0214, -0.0058,  0.0080, -0.0236, -0.0083,  0.0115,  0.0022,
+         0.0272, -0.0241], device='cuda:0'), grad: tensor([ 0.0098,  0.0149, -0.0101, -0.0132,  0.0114, -0.0464,  0.0178, -0.0268,
+         0.0501, -0.0075], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 79, time 227.04, cls_loss 0.6487 cls_loss_mapping 0.0268 cls_loss_causal 0.6169 re_mapping 0.0126 re_causal 0.0348 /// teacc 98.40 lr 0.00010000
+Epoch 81, weight, value: tensor([[-0.0474, -0.0376, -0.0873,  ...,  0.0872, -0.0195,  0.0303],
+        [-0.0543,  0.0679, -0.0695,  ...,  0.0233, -0.0371, -0.0629],
+        [-0.0294,  0.0566, -0.0652,  ..., -0.0352,  0.0118,  0.0761],
+        ...,
+        [-0.0043,  0.0296, -0.0105,  ...,  0.0071,  0.0213, -0.0184],
+        [ 0.0558, -0.0561,  0.0226,  ..., -0.0008,  0.0023, -0.0378],
+        [-0.0184, -0.0514,  0.0551,  ..., -0.0298,  0.0112, -0.0100]],
+       device='cuda:0'), grad: tensor([[-0.0012, -0.0007,  0.0011,  ..., -0.0028, -0.0007, -0.0014],
+        [ 0.0004,  0.0002,  0.0014,  ...,  0.0029,  0.0006,  0.0009],
+        [ 0.0003,  0.0012,  0.0010,  ...,  0.0015,  0.0050,  0.0001],
+        ...,
+        [ 0.0006,  0.0012,  0.0048,  ...,  0.0014,  0.0002,  0.0007],
+        [ 0.0004,  0.0004,  0.0002,  ..., -0.0022,  0.0038, -0.0012],
+        [ 0.0002, -0.0004, -0.0097,  ...,  0.0021, -0.0023,  0.0008]],
+       device='cuda:0')
+Epoch 81, bias, value: tensor([ 0.0201, -0.0213, -0.0065,  0.0077, -0.0230, -0.0091,  0.0113,  0.0025,
+         0.0275, -0.0244], device='cuda:0'), grad: tensor([-0.0226,  0.0142,  0.0105, -0.0275,  0.0403, -0.0213,  0.0425,  0.0193,
+        -0.0384, -0.0170], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 80, time 221.46, cls_loss 0.6037 cls_loss_mapping 0.0244 cls_loss_causal 0.5714 re_mapping 0.0132 re_causal 0.0340 /// teacc 98.15 lr 0.00010000
+Epoch 82, weight, value: tensor([[-0.0475, -0.0384, -0.0883,  ...,  0.0868, -0.0203,  0.0304],
+        [-0.0549,  0.0680, -0.0693,  ...,  0.0229, -0.0380, -0.0637],
+        [-0.0297,  0.0574, -0.0659,  ..., -0.0357,  0.0113,  0.0759],
+        ...,
+        [-0.0042,  0.0297, -0.0106,  ...,  0.0080,  0.0220, -0.0187],
+        [ 0.0558, -0.0569,  0.0228,  ..., -0.0023,  0.0017, -0.0385],
+        [-0.0179, -0.0518,  0.0552,  ..., -0.0295,  0.0107, -0.0100]],
+       device='cuda:0'), grad: tensor([[ 3.0565e-04,  4.8780e-04,  1.1835e-03,  ..., -1.2665e-03,
+         -2.6122e-05,  1.5283e-04],
+        [ 1.2760e-03,  2.2087e-03,  4.6158e-03,  ...,  2.9011e-03,
+          1.1425e-03,  1.6680e-03],
+        [-1.9646e-03, -4.4870e-04, -8.1863e-03,  ...,  1.2579e-03,
+         -7.2441e-03, -4.9019e-03],
+        ...,
+        [-5.4359e-03, -6.6147e-03, -9.1934e-03,  ..., -1.4601e-03,
+         -7.9346e-04,  2.3632e-03],
+        [ 4.1351e-03,  2.1601e-04,  5.6610e-03,  ..., -4.9210e-03,
+          2.6131e-03, -1.1787e-03],
+        [ 9.6703e-04,  1.6260e-03,  2.1896e-03,  ..., -8.0347e-04,
+          2.1529e-04,  5.9462e-04]], device='cuda:0')
+Epoch 82, bias, value: tensor([ 0.0196, -0.0218, -0.0071,  0.0081, -0.0231, -0.0088,  0.0117,  0.0026,
+         0.0272, -0.0238], device='cuda:0'), grad: tensor([ 0.0090,  0.0301, -0.0198,  0.0107, -0.0110,  0.0066,  0.0050, -0.0018,
+        -0.0325,  0.0038], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 81, time 223.94, cls_loss 0.6375 cls_loss_mapping 0.0214 cls_loss_causal 0.5982 re_mapping 0.0132 re_causal 0.0356 /// teacc 98.16 lr 0.00010000
+Epoch 83, weight, value: tensor([[-0.0480, -0.0389, -0.0902,  ...,  0.0876, -0.0206,  0.0287],
+        [-0.0551,  0.0688, -0.0690,  ...,  0.0226, -0.0383, -0.0631],
+        [-0.0301,  0.0573, -0.0662,  ..., -0.0364,  0.0110,  0.0768],
+        ...,
+        [-0.0054,  0.0305, -0.0107,  ...,  0.0078,  0.0220, -0.0191],
+        [ 0.0566, -0.0573,  0.0224,  ..., -0.0015,  0.0015, -0.0389],
+        [-0.0173, -0.0521,  0.0553,  ..., -0.0301,  0.0109, -0.0097]],
+       device='cuda:0'), grad: tensor([[ 5.5599e-04,  1.3323e-03,  1.8215e-04,  ...,  2.2564e-03,
+          8.8215e-04,  1.1568e-03],
+        [ 3.0637e-04,  5.7793e-03,  7.3731e-05,  ...,  3.9597e-03,
+          2.5010e-04,  2.3327e-03],
+        [ 4.7684e-04, -3.3627e-03,  1.3936e-04,  ...,  1.8435e-03,
+          3.5930e-04, -1.2589e-03],
+        ...,
+        [-1.9744e-05, -1.1654e-03, -3.8528e-04,  ..., -1.4639e-03,
+          4.1485e-04, -7.3004e-04],
+        [ 1.2388e-03, -5.8212e-03,  3.4857e-04,  ..., -1.0872e-03,
+          1.6499e-03, -4.9067e-04],
+        [-2.5253e-03,  1.0014e-03, -1.7452e-03,  ..., -3.4485e-03,
+         -1.2779e-04,  8.4162e-04]], device='cuda:0')
+Epoch 83, bias, value: tensor([ 0.0183, -0.0217, -0.0068,  0.0094, -0.0230, -0.0095,  0.0123,  0.0021,
+         0.0275, -0.0241], device='cuda:0'), grad: tensor([ 0.0213,  0.0535, -0.0273, -0.0031, -0.0425,  0.0053,  0.0448, -0.0100,
+        -0.0251, -0.0168], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 82, time 220.07, cls_loss 0.5820 cls_loss_mapping 0.0210 cls_loss_causal 0.5441 re_mapping 0.0142 re_causal 0.0357 /// teacc 98.38 lr 0.00010000
+Epoch 84, weight, value: tensor([[-0.0482, -0.0388, -0.0900,  ...,  0.0879, -0.0210,  0.0291],
+        [-0.0553,  0.0678, -0.0689,  ...,  0.0223, -0.0390, -0.0641],
+        [-0.0291,  0.0568, -0.0675,  ..., -0.0353,  0.0108,  0.0777],
+        ...,
+        [-0.0051,  0.0307, -0.0108,  ...,  0.0073,  0.0217, -0.0198],
+        [ 0.0570, -0.0563,  0.0229,  ..., -0.0021,  0.0014, -0.0395],
+        [-0.0180, -0.0510,  0.0559,  ..., -0.0290,  0.0116, -0.0092]],
+       device='cuda:0'), grad: tensor([[-1.0010e-02,  4.4560e-04,  1.1911e-03,  ...,  1.4048e-03,
+          8.1396e-04,  1.0204e-03],
+        [-1.3100e-02, -2.0332e-03, -4.9744e-03,  ..., -5.6763e-03,
+         -3.2616e-03, -7.3910e-04],
+        [ 7.7844e-05, -1.7989e-04,  1.7252e-03,  ...,  1.3437e-03,
+         -2.4486e-04, -8.8739e-04],
+        ...,
+        [ 1.5697e-03,  1.8275e-04,  1.4687e-03,  ...,  1.6823e-03,
+          9.1934e-04,  8.8072e-04],
+        [ 2.0733e-03,  5.0449e-04,  3.1128e-03,  ...,  2.2411e-03,
+          1.9913e-03,  8.3590e-04],
+        [-5.6982e-04,  5.6982e-04, -8.2445e-04,  ..., -5.1260e-04,
+         -8.4782e-04,  6.7949e-04]], device='cuda:0')
+Epoch 84, bias, value: tensor([ 0.0188, -0.0216, -0.0059,  0.0089, -0.0233, -0.0101,  0.0126,  0.0013,
+         0.0270, -0.0231], device='cuda:0'), grad: tensor([-0.0149, -0.0550,  0.0165,  0.0178,  0.0368, -0.0078, -0.0314,  0.0172,
+         0.0202,  0.0007], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 83, time 218.20, cls_loss 0.6049 cls_loss_mapping 0.0246 cls_loss_causal 0.5694 re_mapping 0.0130 re_causal 0.0340 /// teacc 98.37 lr 0.00010000
+Epoch 85, weight, value: tensor([[-0.0477, -0.0382, -0.0909,  ...,  0.0871, -0.0207,  0.0297],
+        [-0.0562,  0.0685, -0.0681,  ...,  0.0239, -0.0383, -0.0650],
+        [-0.0290,  0.0568, -0.0684,  ..., -0.0350,  0.0113,  0.0783],
+        ...,
+        [-0.0047,  0.0312, -0.0102,  ...,  0.0073,  0.0224, -0.0193],
+        [ 0.0579, -0.0573,  0.0235,  ..., -0.0025,  0.0021, -0.0402],
+        [-0.0176, -0.0513,  0.0559,  ..., -0.0289,  0.0106, -0.0093]],
+       device='cuda:0'), grad: tensor([[ 0.0007,  0.0004,  0.0033,  ...,  0.0021,  0.0027,  0.0010],
+        [ 0.0068,  0.0013,  0.0009,  ...,  0.0111,  0.0004,  0.0009],
+        [ 0.0023,  0.0058, -0.0030,  ..., -0.0085, -0.0094,  0.0057],
+        ...,
+        [-0.0021, -0.0143, -0.0071,  ..., -0.0057, -0.0033, -0.0122],
+        [-0.0024,  0.0029,  0.0041,  ...,  0.0016,  0.0031,  0.0037],
+        [ 0.0023,  0.0006, -0.0005,  ..., -0.0046, -0.0008, -0.0019]],
+       device='cuda:0')
+Epoch 85, bias, value: tensor([ 0.0186, -0.0216, -0.0060,  0.0084, -0.0234, -0.0102,  0.0127,  0.0022,
+         0.0273, -0.0234], device='cuda:0'), grad: tensor([ 0.0176,  0.0361, -0.0079,  0.0287, -0.0239,  0.0528,  0.0064, -0.0679,
+         0.0019, -0.0437], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 84----------------------------------------------------
+epoch 84, time 222.13, cls_loss 0.5991 cls_loss_mapping 0.0221 cls_loss_causal 0.5743 re_mapping 0.0121 re_causal 0.0313 /// teacc 98.61 lr 0.00010000
+Epoch 86, weight, value: tensor([[-0.0467, -0.0381, -0.0918,  ...,  0.0867, -0.0213,  0.0296],
+        [-0.0566,  0.0689, -0.0686,  ...,  0.0244, -0.0380, -0.0665],
+        [-0.0289,  0.0575, -0.0671,  ..., -0.0341,  0.0112,  0.0786],
+        ...,
+        [-0.0056,  0.0313, -0.0102,  ...,  0.0071,  0.0221, -0.0191],
+        [ 0.0577, -0.0577,  0.0229,  ..., -0.0032,  0.0010, -0.0402],
+        [-0.0182, -0.0508,  0.0558,  ..., -0.0290,  0.0104, -0.0087]],
+       device='cuda:0'), grad: tensor([[-6.9771e-03,  2.3293e-04,  1.3323e-03,  ..., -7.0534e-03,
+         -1.2159e-03, -4.2343e-03],
+        [ 1.3514e-03, -3.6716e-04,  2.7549e-06,  ..., -8.3029e-05,
+          8.2111e-04, -1.1530e-03],
+        [-5.5847e-03,  1.1024e-03, -4.8485e-03,  ...,  2.0504e-04,
+         -8.0261e-03, -7.6485e-03],
+        ...,
+        [-1.8501e-03, -4.0841e-04,  2.0301e-04,  ..., -3.6488e-03,
+         -2.6093e-03, -8.4877e-04],
+        [ 1.4124e-03,  6.2943e-04,  1.8349e-03,  ...,  1.8740e-03,
+          1.0672e-03,  7.9346e-04],
+        [ 1.4353e-03,  4.0460e-04, -5.8403e-03,  ...,  2.7156e-04,
+         -1.6441e-03,  1.8370e-04]], device='cuda:0')
+Epoch 86, bias, value: tensor([ 0.0185, -0.0228, -0.0053,  0.0085, -0.0230, -0.0099,  0.0125,  0.0029,
+         0.0269, -0.0237], device='cuda:0'), grad: tensor([-0.0304, -0.0234, -0.0132,  0.0032,  0.0290, -0.0106,  0.0353, -0.0107,
+         0.0224, -0.0018], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 85, time 218.12, cls_loss 0.6512 cls_loss_mapping 0.0355 cls_loss_causal 0.6198 re_mapping 0.0125 re_causal 0.0340 /// teacc 98.41 lr 0.00010000
+Epoch 87, weight, value: tensor([[-0.0480, -0.0385, -0.0928,  ...,  0.0874, -0.0217,  0.0293],
+        [-0.0561,  0.0688, -0.0677,  ...,  0.0235, -0.0382, -0.0671],
+        [-0.0282,  0.0571, -0.0676,  ..., -0.0346,  0.0120,  0.0790],
+        ...,
+        [-0.0065,  0.0325, -0.0100,  ...,  0.0085,  0.0218, -0.0183],
+        [ 0.0566, -0.0576,  0.0219,  ..., -0.0042, -0.0003, -0.0400],
+        [-0.0171, -0.0516,  0.0553,  ..., -0.0294,  0.0107, -0.0079]],
+       device='cuda:0'), grad: tensor([[ 0.0012,  0.0014,  0.0003,  ...,  0.0024,  0.0005,  0.0034],
+        [ 0.0012,  0.0038,  0.0014,  ...,  0.0028,  0.0017,  0.0008],
+        [-0.0057, -0.0080,  0.0005,  ..., -0.0021,  0.0006, -0.0007],
+        ...,
+        [ 0.0039,  0.0053, -0.0014,  ...,  0.0018, -0.0008,  0.0031],
+        [-0.0005,  0.0018,  0.0003,  ...,  0.0014, -0.0002,  0.0030],
+        [ 0.0016,  0.0005,  0.0036,  ...,  0.0005,  0.0030, -0.0004]],
+       device='cuda:0')
+Epoch 87, bias, value: tensor([ 0.0189, -0.0224, -0.0050,  0.0087, -0.0239, -0.0097,  0.0130,  0.0030,
+         0.0258, -0.0238], device='cuda:0'), grad: tensor([ 0.0285,  0.0152, -0.0501,  0.0042, -0.0412,  0.0252, -0.0447,  0.0427,
+         0.0227, -0.0023], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 86, time 218.30, cls_loss 0.6088 cls_loss_mapping 0.0186 cls_loss_causal 0.5766 re_mapping 0.0129 re_causal 0.0347 /// teacc 98.46 lr 0.00010000
+Epoch 88, weight, value: tensor([[-0.0484, -0.0390, -0.0934,  ...,  0.0877, -0.0220,  0.0281],
+        [-0.0557,  0.0693, -0.0693,  ...,  0.0242, -0.0385, -0.0677],
+        [-0.0281,  0.0571, -0.0682,  ..., -0.0347,  0.0128,  0.0802],
+        ...,
+        [-0.0053,  0.0318, -0.0092,  ...,  0.0086,  0.0225, -0.0194],
+        [ 0.0581, -0.0579,  0.0222,  ..., -0.0051, -0.0008, -0.0405],
+        [-0.0178, -0.0513,  0.0556,  ..., -0.0303,  0.0112, -0.0076]],
+       device='cuda:0'), grad: tensor([[ 0.0025,  0.0011,  0.0005,  ...,  0.0022,  0.0015,  0.0031],
+        [-0.0003, -0.0077, -0.0043,  ..., -0.0097, -0.0008, -0.0004],
+        [-0.0008,  0.0002,  0.0006,  ...,  0.0015, -0.0007, -0.0021],
+        ...,
+        [-0.0144,  0.0031, -0.0058,  ...,  0.0042, -0.0042,  0.0021],
+        [ 0.0198,  0.0038,  0.0034,  ...,  0.0012,  0.0067,  0.0086],
+        [ 0.0098,  0.0019,  0.0064,  ...,  0.0009, -0.0051, -0.0020]],
+       device='cuda:0')
+Epoch 88, bias, value: tensor([ 0.0182, -0.0223, -0.0053,  0.0091, -0.0242, -0.0100,  0.0135,  0.0023,
+         0.0263, -0.0231], device='cuda:0'), grad: tensor([ 0.0221, -0.0450,  0.0177, -0.0638,  0.0125, -0.0295,  0.0168,  0.0077,
+         0.0554,  0.0061], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 87, time 218.56, cls_loss 0.6392 cls_loss_mapping 0.0172 cls_loss_causal 0.5942 re_mapping 0.0122 re_causal 0.0332 /// teacc 98.39 lr 0.00010000
+Epoch 89, weight, value: tensor([[-0.0489, -0.0400, -0.0935,  ...,  0.0877, -0.0221,  0.0276],
+        [-0.0563,  0.0697, -0.0700,  ...,  0.0242, -0.0387, -0.0678],
+        [-0.0283,  0.0577, -0.0686,  ..., -0.0345,  0.0132,  0.0810],
+        ...,
+        [-0.0045,  0.0314, -0.0089,  ...,  0.0073,  0.0227, -0.0205],
+        [ 0.0579, -0.0585,  0.0225,  ..., -0.0050, -0.0007, -0.0404],
+        [-0.0183, -0.0505,  0.0562,  ..., -0.0295,  0.0118, -0.0076]],
+       device='cuda:0'), grad: tensor([[ 1.1575e-04, -1.0529e-03,  4.1556e-04,  ..., -6.5851e-04,
+         -2.3327e-03, -1.9236e-03],
+        [-1.1787e-03, -4.8409e-03, -2.2869e-03,  ..., -2.4036e-05,
+         -3.8452e-03, -7.2193e-04],
+        [ 2.5978e-03,  1.0918e-02,  4.0746e-04,  ..., -2.8687e-03,
+          9.6741e-03,  1.5526e-02],
+        ...,
+        [ 1.4210e-03,  1.1225e-03,  7.6914e-04,  ...,  1.6518e-03,
+          1.2875e-03,  2.2774e-03],
+        [-1.6083e-02, -2.8706e-04,  6.3705e-04,  ..., -1.6613e-03,
+          7.2193e-04, -1.3676e-03],
+        [ 1.5039e-03, -1.8721e-03, -1.2684e-03,  ..., -7.9775e-04,
+         -3.8123e-04, -1.2321e-03]], device='cuda:0')
+Epoch 89, bias, value: tensor([ 0.0169, -0.0223, -0.0054,  0.0094, -0.0243, -0.0091,  0.0132,  0.0020,
+         0.0268, -0.0227], device='cuda:0'), grad: tensor([ 0.0085, -0.0145,  0.0092,  0.0062,  0.0283,  0.0100, -0.0131,  0.0259,
+        -0.0553, -0.0052], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 88, time 218.05, cls_loss 0.5749 cls_loss_mapping 0.0183 cls_loss_causal 0.5481 re_mapping 0.0123 re_causal 0.0323 /// teacc 98.44 lr 0.00010000
+Epoch 90, weight, value: tensor([[-0.0494, -0.0398, -0.0938,  ...,  0.0882, -0.0220,  0.0284],
+        [-0.0554,  0.0700, -0.0697,  ...,  0.0246, -0.0373, -0.0677],
+        [-0.0289,  0.0577, -0.0682,  ..., -0.0345,  0.0121,  0.0814],
+        ...,
+        [-0.0041,  0.0314, -0.0093,  ...,  0.0069,  0.0229, -0.0210],
+        [ 0.0569, -0.0587,  0.0223,  ..., -0.0051, -0.0007, -0.0409],
+        [-0.0189, -0.0512,  0.0559,  ..., -0.0290,  0.0116, -0.0080]],
+       device='cuda:0'), grad: tensor([[-2.6751e-04, -1.6851e-03,  1.8873e-03,  ..., -2.8152e-03,
+          1.0004e-03, -1.1511e-03],
+        [ 1.0357e-03, -4.2295e-04,  2.1763e-03,  ...,  5.4207e-03,
+          1.1559e-03,  1.4997e-04],
+        [-2.8667e-03,  6.2103e-03, -3.3455e-03,  ..., -3.6736e-03,
+         -1.1587e-03, -2.4748e-04],
+        ...,
+        [-3.0708e-03, -1.2306e-02, -2.5650e-02,  ..., -1.1803e-02,
+         -1.6541e-02, -3.0249e-05],
+        [-6.3419e-05, -1.1921e-03,  2.6250e-04,  ..., -3.8776e-03,
+         -2.4548e-03, -1.3704e-03],
+        [ 1.1168e-03,  7.3853e-03,  2.8076e-02,  ...,  5.3520e-03,
+          1.6953e-02,  6.4421e-04]], device='cuda:0')
+Epoch 90, bias, value: tensor([ 0.0177, -0.0215, -0.0062,  0.0099, -0.0242, -0.0097,  0.0133,  0.0018,
+         0.0259, -0.0226], device='cuda:0'), grad: tensor([-0.0343,  0.0144, -0.0007,  0.0154, -0.0117,  0.0191,  0.0172, -0.0480,
+        -0.0238,  0.0523], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 89----------------------------------------------------
+epoch 89, time 218.84, cls_loss 0.6239 cls_loss_mapping 0.0201 cls_loss_causal 0.5853 re_mapping 0.0119 re_causal 0.0319 /// teacc 98.67 lr 0.00010000
+Epoch 91, weight, value: tensor([[-0.0502, -0.0410, -0.0935,  ...,  0.0879, -0.0218,  0.0283],
+        [-0.0552,  0.0706, -0.0690,  ...,  0.0248, -0.0372, -0.0682],
+        [-0.0281,  0.0583, -0.0683,  ..., -0.0348,  0.0129,  0.0824],
+        ...,
+        [-0.0044,  0.0321, -0.0092,  ...,  0.0078,  0.0221, -0.0209],
+        [ 0.0579, -0.0594,  0.0234,  ..., -0.0053,  0.0016, -0.0412],
+        [-0.0192, -0.0511,  0.0560,  ..., -0.0283,  0.0114, -0.0070]],
+       device='cuda:0'), grad: tensor([[-3.4165e-04, -1.1177e-03, -1.0738e-03,  ...,  3.7253e-05,
+         -2.3441e-03, -2.5291e-03],
+        [-1.1721e-03,  3.0537e-03,  4.5967e-03,  ...,  1.1349e-03,
+          4.0817e-03,  3.0727e-03],
+        [ 1.7967e-03, -3.6316e-03,  2.6684e-03,  ..., -5.8556e-03,
+         -1.5268e-03, -2.6531e-03],
+        ...,
+        [-9.4376e-03, -3.4657e-03, -1.8768e-02,  ...,  2.6264e-03,
+         -1.2001e-02,  3.1738e-03],
+        [-6.7291e-03,  1.3342e-03,  9.3918e-03,  ...,  5.9776e-03,
+          6.8283e-04,  1.6203e-03],
+        [-3.9148e-04,  4.8943e-03,  1.0010e-02,  ...,  5.7907e-03,
+          1.0208e-02,  3.0613e-03]], device='cuda:0')
+Epoch 91, bias, value: tensor([ 0.0175, -0.0211, -0.0066,  0.0088, -0.0240, -0.0104,  0.0138,  0.0021,
+         0.0256, -0.0214], device='cuda:0'), grad: tensor([-0.0199,  0.0109, -0.0048,  0.0121, -0.0464,  0.0240, -0.0221, -0.0184,
+         0.0220,  0.0426], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 90, time 217.96, cls_loss 0.5950 cls_loss_mapping 0.0174 cls_loss_causal 0.5661 re_mapping 0.0123 re_causal 0.0335 /// teacc 98.56 lr 0.00010000
+Epoch 92, weight, value: tensor([[-0.0502, -0.0404, -0.0933,  ...,  0.0896, -0.0209,  0.0295],
+        [-0.0559,  0.0702, -0.0696,  ...,  0.0251, -0.0371, -0.0685],
+        [-0.0292,  0.0593, -0.0693,  ..., -0.0347,  0.0120,  0.0836],
+        ...,
+        [-0.0045,  0.0321, -0.0092,  ...,  0.0073,  0.0226, -0.0221],
+        [ 0.0571, -0.0589,  0.0235,  ..., -0.0045,  0.0019, -0.0414],
+        [-0.0188, -0.0515,  0.0564,  ..., -0.0298,  0.0108, -0.0080]],
+       device='cuda:0'), grad: tensor([[ 1.0815e-03,  1.0023e-03,  9.5558e-04,  ...,  4.5052e-03,
+          7.9489e-04,  2.8267e-03],
+        [ 9.5654e-04, -1.0544e-04,  6.8235e-04,  ...,  8.6498e-04,
+          6.1607e-04, -8.1682e-04],
+        [ 1.3342e-03,  6.1321e-04,  5.6505e-04,  ..., -2.1839e-03,
+          1.2541e-03, -3.0746e-03],
+        ...,
+        [ 1.2445e-03, -1.5106e-03,  3.6011e-03,  ..., -4.7722e-03,
+          2.9588e-04,  8.3521e-06],
+        [ 1.0338e-03,  6.0511e-04,  1.2331e-03,  ..., -1.7893e-04,
+          6.5613e-04, -2.2240e-03],
+        [ 2.8820e-03,  1.2846e-03, -1.2922e-03,  ...,  3.7117e-03,
+         -8.5497e-04,  1.4086e-03]], device='cuda:0')
+Epoch 92, bias, value: tensor([ 0.0184, -0.0212, -0.0065,  0.0090, -0.0231, -0.0107,  0.0131,  0.0010,
+         0.0261, -0.0217], device='cuda:0'), grad: tensor([ 0.0309, -0.0075, -0.0078,  0.0314, -0.0566, -0.0345,  0.0144, -0.0010,
+        -0.0014,  0.0321], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 91, time 218.09, cls_loss 0.6042 cls_loss_mapping 0.0231 cls_loss_causal 0.5701 re_mapping 0.0125 re_causal 0.0320 /// teacc 98.43 lr 0.00010000
+Epoch 93, weight, value: tensor([[-0.0488, -0.0409, -0.0938,  ...,  0.0902, -0.0219,  0.0291],
+        [-0.0566,  0.0702, -0.0695,  ...,  0.0245, -0.0367, -0.0684],
+        [-0.0284,  0.0589, -0.0687,  ..., -0.0344,  0.0126,  0.0843],
+        ...,
+        [-0.0053,  0.0329, -0.0095,  ...,  0.0071,  0.0218, -0.0217],
+        [ 0.0573, -0.0573,  0.0236,  ..., -0.0032,  0.0028, -0.0406],
+        [-0.0185, -0.0514,  0.0565,  ..., -0.0302,  0.0106, -0.0091]],
+       device='cuda:0'), grad: tensor([[ 8.7452e-04,  1.1873e-03,  7.3576e-04,  ...,  2.5997e-03,
+          1.9245e-03,  2.5806e-03],
+        [-9.3889e-04, -2.7981e-03, -1.0948e-03,  ..., -2.1706e-03,
+          8.2850e-05,  2.2483e-04],
+        [ 8.0490e-04, -3.2425e-05,  8.2684e-04,  ..., -2.7447e-03,
+         -4.4403e-03, -2.8877e-03],
+        ...,
+        [ 1.4048e-03,  1.1559e-03,  1.6479e-03,  ...,  3.0231e-03,
+          4.4918e-04,  1.3371e-03],
+        [ 9.5606e-04, -1.7226e-05,  1.7796e-03,  ..., -7.3099e-04,
+          3.0651e-03,  1.6797e-04],
+        [ 1.2398e-03,  1.2064e-03, -6.0129e-04,  ...,  2.5711e-03,
+         -2.8515e-03,  2.6655e-04]], device='cuda:0')
+Epoch 93, bias, value: tensor([ 0.0181, -0.0211, -0.0064,  0.0089, -0.0228, -0.0110,  0.0125,  0.0014,
+         0.0265, -0.0217], device='cuda:0'), grad: tensor([ 0.0244, -0.0291,  0.0004,  0.0242, -0.0683, -0.0149,  0.0114,  0.0299,
+         0.0028,  0.0191], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 92, time 218.04, cls_loss 0.6047 cls_loss_mapping 0.0176 cls_loss_causal 0.5698 re_mapping 0.0117 re_causal 0.0319 /// teacc 98.40 lr 0.00010000
+Epoch 94, weight, value: tensor([[-0.0486, -0.0417, -0.0939,  ...,  0.0909, -0.0226,  0.0278],
+        [-0.0567,  0.0700, -0.0681,  ...,  0.0260, -0.0371, -0.0684],
+        [-0.0278,  0.0589, -0.0695,  ..., -0.0346,  0.0129,  0.0837],
+        ...,
+        [-0.0053,  0.0335, -0.0093,  ...,  0.0075,  0.0222, -0.0208],
+        [ 0.0574, -0.0580,  0.0230,  ..., -0.0031,  0.0023, -0.0394],
+        [-0.0176, -0.0520,  0.0570,  ..., -0.0313,  0.0111, -0.0097]],
+       device='cuda:0'), grad: tensor([[-0.0023, -0.0051,  0.0005,  ..., -0.0070, -0.0006, -0.0059],
+        [ 0.0011,  0.0014,  0.0008,  ...,  0.0068,  0.0009,  0.0009],
+        [ 0.0008,  0.0038,  0.0006,  ...,  0.0017,  0.0029,  0.0009],
+        ...,
+        [ 0.0010, -0.0027,  0.0025,  ...,  0.0051,  0.0019,  0.0002],
+        [ 0.0013,  0.0012, -0.0035,  ..., -0.0094, -0.0015,  0.0008],
+        [ 0.0025, -0.0017,  0.0048,  ..., -0.0033,  0.0021,  0.0004]],
+       device='cuda:0')
+Epoch 94, bias, value: tensor([ 0.0180, -0.0205, -0.0066,  0.0083, -0.0227, -0.0102,  0.0122,  0.0015,
+         0.0265, -0.0221], device='cuda:0'), grad: tensor([-0.0133,  0.0276,  0.0080, -0.0147, -0.0141,  0.0048,  0.0064, -0.0027,
+         0.0008, -0.0029], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 93, time 218.63, cls_loss 0.6161 cls_loss_mapping 0.0171 cls_loss_causal 0.5757 re_mapping 0.0113 re_causal 0.0310 /// teacc 98.40 lr 0.00010000
+Epoch 95, weight, value: tensor([[-0.0490, -0.0417, -0.0943,  ...,  0.0919, -0.0225,  0.0284],
+        [-0.0565,  0.0708, -0.0677,  ...,  0.0264, -0.0371, -0.0683],
+        [-0.0276,  0.0581, -0.0696,  ..., -0.0354,  0.0139,  0.0845],
+        ...,
+        [-0.0046,  0.0339, -0.0101,  ...,  0.0075,  0.0217, -0.0210],
+        [ 0.0583, -0.0590,  0.0248,  ..., -0.0038,  0.0035, -0.0399],
+        [-0.0184, -0.0517,  0.0573,  ..., -0.0323,  0.0112, -0.0098]],
+       device='cuda:0'), grad: tensor([[ 5.2929e-04,  4.3988e-04,  1.6298e-03,  ...,  3.5210e-03,
+          1.6232e-03,  3.2187e-04],
+        [ 1.0729e-03, -8.5545e-04,  5.8317e-04,  ..., -9.4843e-04,
+          6.1274e-04, -2.5868e-04],
+        [ 1.4210e-03,  2.2797e-02,  8.8930e-04,  ...,  2.6093e-03,
+          1.3084e-02,  1.9943e-02],
+        ...,
+        [ 9.9754e-04,  1.6489e-03, -1.2848e-02,  ..., -1.5701e-02,
+         -1.2680e-02,  4.6849e-04],
+        [ 1.4353e-03, -2.7061e-04,  1.4696e-03,  ...,  4.8965e-05,
+          1.7290e-03, -2.3317e-04],
+        [ 2.8000e-03,  6.9475e-04,  1.1215e-02,  ...,  1.6052e-02,
+          1.1147e-02,  6.2799e-04]], device='cuda:0')
+Epoch 95, bias, value: tensor([ 0.0180, -0.0203, -0.0062,  0.0079, -0.0222, -0.0111,  0.0129,  0.0015,
+         0.0265, -0.0225], device='cuda:0'), grad: tensor([ 0.0203, -0.0107,  0.0504, -0.0382,  0.0204, -0.0104, -0.0570, -0.0083,
+        -0.0077,  0.0411], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 94, time 218.48, cls_loss 0.6299 cls_loss_mapping 0.0225 cls_loss_causal 0.5980 re_mapping 0.0122 re_causal 0.0311 /// teacc 98.59 lr 0.00010000
+Epoch 96, weight, value: tensor([[-0.0499, -0.0417, -0.0949,  ...,  0.0919, -0.0233,  0.0277],
+        [-0.0576,  0.0722, -0.0677,  ...,  0.0263, -0.0368, -0.0678],
+        [-0.0261,  0.0586, -0.0697,  ..., -0.0364,  0.0144,  0.0845],
+        ...,
+        [-0.0042,  0.0338, -0.0097,  ...,  0.0084,  0.0219, -0.0214],
+        [ 0.0594, -0.0594,  0.0240,  ..., -0.0043,  0.0028, -0.0400],
+        [-0.0184, -0.0516,  0.0573,  ..., -0.0329,  0.0112, -0.0101]],
+       device='cuda:0'), grad: tensor([[ 0.0028,  0.0009,  0.0037,  ...,  0.0083,  0.0052,  0.0053],
+        [ 0.0007, -0.0018,  0.0002,  ..., -0.0023,  0.0005, -0.0006],
+        [-0.0071,  0.0057, -0.0212,  ..., -0.0083, -0.0194, -0.0074],
+        ...,
+        [ 0.0024, -0.0020,  0.0044,  ...,  0.0034,  0.0017,  0.0007],
+        [-0.0027,  0.0008,  0.0017,  ..., -0.0041,  0.0020, -0.0018],
+        [ 0.0066, -0.0002,  0.0197,  ..., -0.0015,  0.0162,  0.0043]],
+       device='cuda:0')
+Epoch 96, bias, value: tensor([ 0.0170, -0.0199, -0.0055,  0.0069, -0.0217, -0.0110,  0.0131,  0.0019,
+         0.0264, -0.0228], device='cuda:0'), grad: tensor([ 0.0341, -0.0160, -0.0341, -0.0040,  0.0040,  0.0286, -0.0175,  0.0177,
+        -0.0138,  0.0009], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 95, time 218.30, cls_loss 0.5955 cls_loss_mapping 0.0220 cls_loss_causal 0.5620 re_mapping 0.0123 re_causal 0.0315 /// teacc 98.54 lr 0.00010000
+Epoch 97, weight, value: tensor([[-0.0492, -0.0428, -0.0953,  ...,  0.0904, -0.0238,  0.0269],
+        [-0.0590,  0.0735, -0.0679,  ...,  0.0267, -0.0372, -0.0679],
+        [-0.0265,  0.0588, -0.0707,  ..., -0.0363,  0.0138,  0.0848],
+        ...,
+        [-0.0049,  0.0337, -0.0095,  ...,  0.0075,  0.0223, -0.0220],
+        [ 0.0606, -0.0599,  0.0248,  ..., -0.0035,  0.0024, -0.0398],
+        [-0.0180, -0.0522,  0.0569,  ..., -0.0318,  0.0118, -0.0096]],
+       device='cuda:0'), grad: tensor([[ 1.9760e-03,  1.0233e-03,  1.8692e-03,  ..., -3.7932e-04,
+         -1.8702e-03, -2.1763e-03],
+        [ 4.3964e-04, -2.4414e-03,  1.1969e-03,  ...,  2.1343e-03,
+         -1.8179e-04, -7.2765e-04],
+        [-6.7568e-04, -9.7656e-03,  7.5054e-04,  ..., -2.4223e-03,
+          8.2791e-05, -1.9684e-03],
+        ...,
+        [ 8.9693e-04, -3.7193e-03, -6.7377e-04,  ...,  1.2636e-03,
+         -5.2834e-03, -1.4544e-03],
+        [-1.0853e-03,  2.5768e-03, -9.5444e-03,  ...,  6.2141e-03,
+         -3.9291e-03,  1.3256e-03],
+        [-5.5771e-03,  4.6387e-03, -2.2469e-03,  ..., -1.1345e-02,
+          1.5213e-02,  1.0195e-03]], device='cuda:0')
+Epoch 97, bias, value: tensor([ 0.0173, -0.0211, -0.0058,  0.0074, -0.0222, -0.0102,  0.0127,  0.0015,
+         0.0271, -0.0222], device='cuda:0'), grad: tensor([ 0.0017, -0.0020, -0.0802, -0.0083,  0.0337,  0.0052,  0.0479,  0.0002,
+         0.0149, -0.0130], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 96, time 218.43, cls_loss 0.5733 cls_loss_mapping 0.0167 cls_loss_causal 0.5449 re_mapping 0.0119 re_causal 0.0303 /// teacc 98.62 lr 0.00010000
+Epoch 98, weight, value: tensor([[-0.0488, -0.0430, -0.0952,  ...,  0.0915, -0.0241,  0.0275],
+        [-0.0601,  0.0734, -0.0681,  ...,  0.0261, -0.0371, -0.0687],
+        [-0.0281,  0.0603, -0.0714,  ..., -0.0356,  0.0142,  0.0853],
+        ...,
+        [-0.0041,  0.0337, -0.0097,  ...,  0.0069,  0.0215, -0.0224],
+        [ 0.0615, -0.0599,  0.0253,  ..., -0.0040,  0.0027, -0.0404],
+        [-0.0184, -0.0527,  0.0570,  ..., -0.0315,  0.0122, -0.0098]],
+       device='cuda:0'), grad: tensor([[ 3.3617e-05,  4.8041e-04,  8.6641e-04,  ...,  1.3466e-03,
+          2.6155e-04,  6.0797e-04],
+        [-4.6134e-04,  4.5853e-03,  2.3937e-03,  ...,  4.1466e-03,
+          1.8334e-04,  4.9305e-04],
+        [ 1.9932e-03, -1.6909e-03,  5.9814e-03,  ...,  5.4626e-03,
+          3.7885e-04,  8.5652e-05],
+        ...,
+        [-3.7212e-03, -6.8359e-03, -1.3290e-02,  ..., -1.0193e-02,
+         -1.5564e-03,  2.3699e-04],
+        [ 1.3638e-03,  1.4439e-03,  2.4261e-03,  ...,  2.1381e-03,
+          5.2452e-04,  5.3310e-04],
+        [ 4.6229e-04, -3.3331e-04, -1.9445e-03,  ..., -1.3475e-03,
+          3.5119e-04, -1.5478e-03]], device='cuda:0')
+Epoch 98, bias, value: tensor([ 0.0175, -0.0214, -0.0055,  0.0074, -0.0223, -0.0103,  0.0132,  0.0025,
+         0.0261, -0.0226], device='cuda:0'), grad: tensor([ 0.0130,  0.0157,  0.0173, -0.0216,  0.0183, -0.0132,  0.0204, -0.0288,
+         0.0176, -0.0386], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 97, time 218.67, cls_loss 0.5851 cls_loss_mapping 0.0203 cls_loss_causal 0.5483 re_mapping 0.0114 re_causal 0.0294 /// teacc 98.54 lr 0.00010000
+Epoch 99, weight, value: tensor([[-0.0477, -0.0430, -0.0961,  ...,  0.0917, -0.0247,  0.0272],
+        [-0.0601,  0.0737, -0.0680,  ...,  0.0263, -0.0367, -0.0694],
+        [-0.0287,  0.0606, -0.0717,  ..., -0.0345,  0.0144,  0.0862],
+        ...,
+        [-0.0049,  0.0346, -0.0097,  ...,  0.0067,  0.0216, -0.0230],
+        [ 0.0605, -0.0600,  0.0248,  ..., -0.0040,  0.0025, -0.0398],
+        [-0.0186, -0.0533,  0.0574,  ..., -0.0306,  0.0125, -0.0090]],
+       device='cuda:0'), grad: tensor([[ 0.0008, -0.0038,  0.0003,  ..., -0.0056, -0.0010, -0.0006],
+        [-0.0123, -0.0028, -0.0015,  ..., -0.0069, -0.0005,  0.0007],
+        [ 0.0015,  0.0029,  0.0009,  ...,  0.0029,  0.0021,  0.0010],
+        ...,
+        [-0.0008, -0.0043, -0.0004,  ..., -0.0019,  0.0014, -0.0004],
+        [ 0.0026,  0.0013,  0.0006,  ...,  0.0026,  0.0009,  0.0004],
+        [ 0.0046,  0.0037,  0.0013,  ...,  0.0030,  0.0023,  0.0005]],
+       device='cuda:0')
+Epoch 99, bias, value: tensor([ 0.0169, -0.0213, -0.0050,  0.0069, -0.0225, -0.0108,  0.0136,  0.0022,
+         0.0259, -0.0216], device='cuda:0'), grad: tensor([-0.0288, -0.0629,  0.0260, -0.0250,  0.0234,  0.0178,  0.0152, -0.0131,
+         0.0172,  0.0303], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 98----------------------------------------------------
+epoch 98, time 219.17, cls_loss 0.5878 cls_loss_mapping 0.0172 cls_loss_causal 0.5670 re_mapping 0.0121 re_causal 0.0322 /// teacc 98.69 lr 0.00010000
+Epoch 100, weight, value: tensor([[-0.0482, -0.0418, -0.0960,  ...,  0.0922, -0.0250,  0.0283],
+        [-0.0609,  0.0742, -0.0676,  ...,  0.0265, -0.0374, -0.0698],
+        [-0.0292,  0.0603, -0.0731,  ..., -0.0345,  0.0152,  0.0872],
+        ...,
+        [-0.0042,  0.0352, -0.0094,  ...,  0.0070,  0.0217, -0.0231],
+        [ 0.0615, -0.0614,  0.0245,  ..., -0.0046,  0.0026, -0.0413],
+        [-0.0189, -0.0538,  0.0572,  ..., -0.0317,  0.0125, -0.0088]],
+       device='cuda:0'), grad: tensor([[ 3.4928e-04,  6.1369e-04,  2.3258e-04,  ...,  1.4248e-03,
+          9.1076e-05,  5.4693e-04],
+        [ 5.6171e-04,  7.5579e-04,  5.3263e-04,  ...,  2.0466e-03,
+          1.3125e-04,  6.9237e-04],
+        [ 1.1301e-03, -8.3313e-03, -6.9084e-03,  ..., -3.5076e-03,
+         -1.7670e-02, -6.7368e-03],
+        ...,
+        [-9.7561e-04,  1.0595e-03,  1.9760e-03,  ...,  2.5253e-03,
+          6.2103e-03,  1.6813e-03],
+        [ 1.6747e-03,  1.6479e-03,  4.7913e-03,  ...,  1.5717e-03,
+          1.7204e-03,  3.5214e-04],
+        [-1.6327e-02,  1.7376e-03, -2.2919e-02,  ...,  2.7490e-04,
+         -3.6125e-03,  1.2932e-03]], device='cuda:0')
+Epoch 100, bias, value: tensor([ 0.0174, -0.0208, -0.0053,  0.0076, -0.0228, -0.0109,  0.0137,  0.0018,
+         0.0253, -0.0216], device='cuda:0'), grad: tensor([ 0.0132,  0.0173, -0.0427, -0.0356,  0.0122,  0.0089,  0.0100,  0.0212,
+         0.0233, -0.0277], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 99, time 218.04, cls_loss 0.5984 cls_loss_mapping 0.0147 cls_loss_causal 0.5679 re_mapping 0.0119 re_causal 0.0331 /// teacc 98.64 lr 0.00010000
+Epoch 101, weight, value: tensor([[-0.0468, -0.0415, -0.0960,  ...,  0.0934, -0.0251,  0.0280],
+        [-0.0600,  0.0749, -0.0678,  ...,  0.0266, -0.0370, -0.0703],
+        [-0.0289,  0.0601, -0.0731,  ..., -0.0347,  0.0151,  0.0877],
+        ...,
+        [-0.0051,  0.0351, -0.0084,  ...,  0.0051,  0.0220, -0.0241],
+        [ 0.0610, -0.0616,  0.0246,  ..., -0.0047,  0.0027, -0.0406],
+        [-0.0186, -0.0540,  0.0571,  ..., -0.0313,  0.0129, -0.0087]],
+       device='cuda:0'), grad: tensor([[-2.8397e-02,  9.1171e-04, -1.7059e-02,  ...,  1.6174e-03,
+          2.0275e-03,  5.6934e-04],
+        [ 6.5470e-04, -8.0395e-04,  4.2588e-05,  ..., -1.4973e-04,
+          1.1034e-03, -7.8869e-04],
+        [ 3.8815e-04, -3.1109e-03, -4.8906e-05,  ..., -1.8728e-04,
+          1.5106e-03, -2.9469e-03],
+        ...,
+        [ 5.1546e-04,  3.1424e-04,  1.5268e-03,  ..., -4.2992e-03,
+          3.2940e-03,  5.5933e-04],
+        [ 1.0040e-02,  1.0548e-03,  1.0551e-02,  ...,  3.7308e-03,
+          1.5602e-02,  3.0231e-03],
+        [ 1.5688e-03,  6.7806e-04,  1.9379e-03,  ..., -7.5388e-04,
+          4.5471e-03,  6.3658e-04]], device='cuda:0')
+Epoch 101, bias, value: tensor([ 0.0186, -0.0209, -0.0053,  0.0073, -0.0227, -0.0103,  0.0131,  0.0005,
+         0.0255, -0.0213], device='cuda:0'), grad: tensor([-0.0077, -0.0096, -0.0159, -0.0296,  0.0521,  0.0030, -0.0096, -0.0365,
+         0.0517,  0.0022], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 100----------------------------------------------------
+epoch 100, time 218.69, cls_loss 0.6002 cls_loss_mapping 0.0147 cls_loss_causal 0.5663 re_mapping 0.0114 re_causal 0.0309 /// teacc 98.74 lr 0.00010000
+Epoch 102, weight, value: tensor([[-0.0472, -0.0413, -0.0966,  ...,  0.0941, -0.0249,  0.0282],
+        [-0.0611,  0.0754, -0.0686,  ...,  0.0273, -0.0382, -0.0701],
+        [-0.0281,  0.0606, -0.0724,  ..., -0.0356,  0.0158,  0.0868],
+        ...,
+        [-0.0054,  0.0344, -0.0086,  ...,  0.0054,  0.0205, -0.0248],
+        [ 0.0619, -0.0623,  0.0229,  ..., -0.0047,  0.0028, -0.0399],
+        [-0.0187, -0.0541,  0.0576,  ..., -0.0317,  0.0131, -0.0101]],
+       device='cuda:0'), grad: tensor([[ 8.4829e-04,  3.1042e-04,  1.1778e-03,  ..., -8.9722e-03,
+         -2.0351e-03, -6.4011e-03],
+        [ 6.8188e-04, -8.7261e-05,  1.9586e-04,  ..., -1.9445e-03,
+          1.3380e-03,  8.5831e-04],
+        [ 8.6441e-03,  7.2479e-04,  3.2864e-03,  ...,  2.6531e-03,
+          3.8376e-03,  4.5433e-03],
+        ...,
+        [ 6.4135e-04, -4.5729e-04,  2.0847e-03,  ...,  1.3180e-03,
+          4.5052e-03,  3.5620e-04],
+        [-1.5516e-03,  7.4816e-04, -4.7531e-03,  ...,  3.2215e-03,
+         -2.3212e-03,  2.7237e-03],
+        [ 1.0300e-03, -1.8225e-03, -1.4458e-03,  ...,  1.0290e-03,
+          2.7618e-03,  8.5735e-04]], device='cuda:0')
+Epoch 102, bias, value: tensor([ 0.0185, -0.0201, -0.0062,  0.0079, -0.0222, -0.0109,  0.0133,  0.0012,
+         0.0251, -0.0220], device='cuda:0'), grad: tensor([-0.0115, -0.0043,  0.0302, -0.0140, -0.0260, -0.0152, -0.0120,  0.0399,
+         0.0186, -0.0057], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 101, time 218.64, cls_loss 0.6118 cls_loss_mapping 0.0133 cls_loss_causal 0.5710 re_mapping 0.0107 re_causal 0.0276 /// teacc 98.74 lr 0.00010000
+Epoch 103, weight, value: tensor([[-0.0478, -0.0414, -0.0967,  ...,  0.0947, -0.0257,  0.0290],
+        [-0.0620,  0.0753, -0.0698,  ...,  0.0275, -0.0394, -0.0706],
+        [-0.0284,  0.0603, -0.0737,  ..., -0.0347,  0.0152,  0.0873],
+        ...,
+        [-0.0052,  0.0352, -0.0090,  ...,  0.0051,  0.0204, -0.0258],
+        [ 0.0623, -0.0616,  0.0241,  ..., -0.0046,  0.0035, -0.0394],
+        [-0.0188, -0.0543,  0.0577,  ..., -0.0324,  0.0134, -0.0106]],
+       device='cuda:0'), grad: tensor([[ 1.0090e-03, -5.6171e-04,  1.3256e-03,  ..., -6.9160e-03,
+         -1.4572e-03,  1.3695e-03],
+        [-2.2519e-04,  5.0068e-04, -3.6907e-03,  ...,  5.9738e-03,
+          5.7459e-04, -1.1845e-03],
+        [ 9.3555e-04,  1.2445e-04,  9.0504e-04,  ...,  2.2793e-04,
+          1.5907e-03, -1.3542e-04],
+        ...,
+        [ 1.8731e-05,  1.1969e-03,  5.4283e-03,  ...,  2.8839e-03,
+          5.8632e-03,  1.2388e-03],
+        [ 2.5272e-03,  7.1669e-04,  3.8700e-03,  ...,  3.8891e-03,
+          5.2376e-03,  3.0308e-03],
+        [ 1.1796e-04, -2.3308e-03, -2.0935e-02,  ..., -8.7051e-03,
+         -1.6830e-02, -2.5635e-03]], device='cuda:0')
+Epoch 103, bias, value: tensor([ 0.0175, -0.0205, -0.0069,  0.0085, -0.0226, -0.0097,  0.0133,  0.0011,
+         0.0251, -0.0213], device='cuda:0'), grad: tensor([ 0.0056, -0.0127, -0.0189, -0.0003,  0.0260, -0.0013,  0.0010,  0.0259,
+         0.0273, -0.0525], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 102, time 218.14, cls_loss 0.6045 cls_loss_mapping 0.0219 cls_loss_causal 0.5718 re_mapping 0.0120 re_causal 0.0313 /// teacc 98.55 lr 0.00010000
+Epoch 104, weight, value: tensor([[-0.0472, -0.0429, -0.0972,  ...,  0.0943, -0.0269,  0.0275],
+        [-0.0628,  0.0760, -0.0701,  ...,  0.0273, -0.0405, -0.0701],
+        [-0.0287,  0.0614, -0.0745,  ..., -0.0339,  0.0160,  0.0875],
+        ...,
+        [-0.0053,  0.0357, -0.0090,  ...,  0.0055,  0.0209, -0.0264],
+        [ 0.0616, -0.0619,  0.0246,  ..., -0.0047,  0.0038, -0.0401],
+        [-0.0183, -0.0551,  0.0579,  ..., -0.0329,  0.0140, -0.0106]],
+       device='cuda:0'), grad: tensor([[ 0.0003,  0.0005,  0.0004,  ...,  0.0078,  0.0026,  0.0016],
+        [-0.0003, -0.0012,  0.0003,  ..., -0.0061, -0.0060,  0.0003],
+        [ 0.0006,  0.0005,  0.0005,  ...,  0.0042,  0.0030,  0.0015],
+        ...,
+        [-0.0072,  0.0006, -0.0078,  ..., -0.0067, -0.0238, -0.0044],
+        [ 0.0003,  0.0002,  0.0052,  ...,  0.0041,  0.0061,  0.0010],
+        [-0.0033,  0.0002, -0.0207,  ..., -0.0034, -0.0059,  0.0002]],
+       device='cuda:0')
+Epoch 104, bias, value: tensor([ 0.0173, -0.0211, -0.0063,  0.0078, -0.0220, -0.0097,  0.0133,  0.0013,
+         0.0254, -0.0215], device='cuda:0'), grad: tensor([ 0.0327, -0.0329,  0.0209, -0.0009,  0.0490,  0.0259, -0.0190, -0.0609,
+         0.0287, -0.0435], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 103, time 218.88, cls_loss 0.6141 cls_loss_mapping 0.0194 cls_loss_causal 0.5822 re_mapping 0.0113 re_causal 0.0317 /// teacc 98.64 lr 0.00010000
+Epoch 105, weight, value: tensor([[-0.0474, -0.0428, -0.0970,  ...,  0.0941, -0.0264,  0.0273],
+        [-0.0617,  0.0756, -0.0699,  ...,  0.0270, -0.0406, -0.0720],
+        [-0.0291,  0.0611, -0.0747,  ..., -0.0336,  0.0166,  0.0877],
+        ...,
+        [-0.0051,  0.0369, -0.0089,  ...,  0.0052,  0.0209, -0.0262],
+        [ 0.0625, -0.0629,  0.0240,  ..., -0.0043,  0.0029, -0.0401],
+        [-0.0199, -0.0555,  0.0586,  ..., -0.0329,  0.0152, -0.0098]],
+       device='cuda:0'), grad: tensor([[-2.7227e-04,  7.0000e-04,  4.5562e-04,  ...,  6.1703e-04,
+         -1.9938e-05, -7.1812e-04],
+        [ 1.3936e-04, -1.7846e-04,  6.0511e-04,  ..., -3.8891e-03,
+         -3.0732e-04,  7.1907e-04],
+        [-5.0354e-03,  2.3499e-03,  1.0099e-03,  ...,  3.2806e-03,
+          1.4315e-03,  7.4625e-04],
+        ...,
+        [ 4.9353e-04, -3.3855e-03, -1.1148e-03,  ..., -2.5787e-03,
+         -3.7346e-03, -2.0039e-04],
+        [ 4.0793e-04, -5.9748e-04, -6.0883e-03,  ..., -1.6870e-03,
+         -2.0256e-03, -2.2411e-03],
+        [-1.0910e-03, -1.5326e-03, -1.5545e-04,  ..., -1.3781e-03,
+          8.2827e-04, -6.0225e-04]], device='cuda:0')
+Epoch 105, bias, value: tensor([ 0.0165, -0.0210, -0.0064,  0.0070, -0.0219, -0.0095,  0.0135,  0.0011,
+         0.0262, -0.0214], device='cuda:0'), grad: tensor([ 0.0105, -0.0149,  0.0142, -0.0075,  0.0292,  0.0120,  0.0171, -0.0040,
+        -0.0293, -0.0274], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 104, time 219.88, cls_loss 0.5814 cls_loss_mapping 0.0171 cls_loss_causal 0.5524 re_mapping 0.0116 re_causal 0.0293 /// teacc 98.60 lr 0.00010000
+Epoch 106, weight, value: tensor([[-0.0482, -0.0431, -0.0970,  ...,  0.0941, -0.0258,  0.0283],
+        [-0.0620,  0.0764, -0.0699,  ...,  0.0271, -0.0384, -0.0717],
+        [-0.0291,  0.0616, -0.0763,  ..., -0.0346,  0.0161,  0.0879],
+        ...,
+        [-0.0054,  0.0366, -0.0086,  ...,  0.0064,  0.0212, -0.0265],
+        [ 0.0639, -0.0638,  0.0250,  ..., -0.0043,  0.0036, -0.0401],
+        [-0.0193, -0.0555,  0.0579,  ..., -0.0340,  0.0148, -0.0088]],
+       device='cuda:0'), grad: tensor([[ 0.0009,  0.0043, -0.0009,  ...,  0.0038,  0.0054,  0.0077],
+        [-0.0002, -0.0080, -0.0011,  ..., -0.0106, -0.0036, -0.0049],
+        [ 0.0005,  0.0006,  0.0003,  ...,  0.0028,  0.0024,  0.0029],
+        ...,
+        [ 0.0002,  0.0033,  0.0013,  ...,  0.0057,  0.0016,  0.0029],
+        [ 0.0003, -0.0002, -0.0023,  ..., -0.0002, -0.0006, -0.0009],
+        [ 0.0002,  0.0012, -0.0050,  ...,  0.0026, -0.0010,  0.0014]],
+       device='cuda:0')
+Epoch 106, bias, value: tensor([ 0.0170, -0.0212, -0.0064,  0.0073, -0.0222, -0.0098,  0.0137,  0.0014,
+         0.0263, -0.0217], device='cuda:0'), grad: tensor([ 0.0143, -0.0504, -0.0003, -0.0067,  0.0305,  0.0180, -0.0450,  0.0374,
+        -0.0133,  0.0155], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 105----------------------------------------------------
+epoch 105, time 220.20, cls_loss 0.5839 cls_loss_mapping 0.0153 cls_loss_causal 0.5568 re_mapping 0.0118 re_causal 0.0307 /// teacc 98.76 lr 0.00010000
+Epoch 107, weight, value: tensor([[-0.0470, -0.0442, -0.0981,  ...,  0.0928, -0.0253,  0.0282],
+        [-0.0636,  0.0770, -0.0700,  ...,  0.0274, -0.0387, -0.0717],
+        [-0.0285,  0.0616, -0.0769,  ..., -0.0343,  0.0155,  0.0879],
+        ...,
+        [-0.0065,  0.0374, -0.0083,  ...,  0.0072,  0.0223, -0.0268],
+        [ 0.0633, -0.0645,  0.0243,  ..., -0.0049,  0.0037, -0.0403],
+        [-0.0187, -0.0558,  0.0586,  ..., -0.0355,  0.0144, -0.0099]],
+       device='cuda:0'), grad: tensor([[ 6.5756e-04,  1.4668e-03,  4.4227e-05,  ...,  3.3779e-03,
+          8.8573e-05,  3.6907e-03],
+        [-1.1578e-03, -4.2725e-03,  1.2457e-05,  ..., -6.0234e-03,
+          1.0043e-04, -3.3607e-03],
+        [ 6.8235e-04, -1.8301e-03, -4.6577e-03,  ...,  1.2646e-03,
+         -1.2606e-05,  8.3208e-04],
+        ...,
+        [ 4.4179e-04,  6.9771e-03, -1.8024e-04,  ...,  3.2597e-03,
+          1.3878e-02,  8.0643e-03],
+        [ 1.1635e-04,  2.3251e-03,  4.3845e-04,  ...,  2.2850e-03,
+          2.6073e-03,  3.9520e-03],
+        [ 6.4421e-04,  6.7482e-03,  5.1193e-03,  ...,  2.1820e-03,
+          6.6376e-03,  6.3591e-03]], device='cuda:0')
+Epoch 107, bias, value: tensor([ 0.0172, -0.0214, -0.0057,  0.0076, -0.0227, -0.0103,  0.0139,  0.0016,
+         0.0266, -0.0224], device='cuda:0'), grad: tensor([ 0.0254, -0.0124,  0.0024, -0.0752,  0.0165,  0.0374, -0.0688,  0.0361,
+         0.0073,  0.0314], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 106, time 219.48, cls_loss 0.5804 cls_loss_mapping 0.0144 cls_loss_causal 0.5507 re_mapping 0.0111 re_causal 0.0298 /// teacc 98.63 lr 0.00010000
+Epoch 108, weight, value: tensor([[-0.0463, -0.0443, -0.0996,  ...,  0.0929, -0.0266,  0.0276],
+        [-0.0646,  0.0765, -0.0705,  ...,  0.0281, -0.0399, -0.0726],
+        [-0.0282,  0.0628, -0.0764,  ..., -0.0338,  0.0165,  0.0889],
+        ...,
+        [-0.0065,  0.0376, -0.0087,  ...,  0.0068,  0.0221, -0.0284],
+        [ 0.0645, -0.0658,  0.0239,  ..., -0.0050,  0.0028, -0.0400],
+        [-0.0179, -0.0568,  0.0591,  ..., -0.0347,  0.0149, -0.0092]],
+       device='cuda:0'), grad: tensor([[ 8.9340e-03,  1.0185e-03,  8.3351e-04,  ...,  8.0338e-03,
+          1.3100e-02,  3.9330e-03],
+        [ 6.2883e-05,  4.9019e-04,  4.6158e-04,  ...,  1.1282e-03,
+          6.8760e-04,  1.1263e-03],
+        [ 5.7012e-05,  2.2240e-03,  2.9812e-03,  ...,  2.3575e-03,
+          3.8719e-03,  2.5787e-03],
+        ...,
+        [ 2.9731e-04,  2.7714e-03,  1.7176e-03,  ...,  2.9850e-03,
+          3.9406e-03,  3.5248e-03],
+        [-5.4979e-04, -2.0523e-03,  6.0034e-04,  ..., -1.1559e-02,
+         -4.3983e-03, -7.4234e-03],
+        [ 9.2626e-05,  4.0030e-04,  1.5039e-03,  ...,  7.7820e-04,
+          2.7332e-03,  2.1305e-03]], device='cuda:0')
+Epoch 108, bias, value: tensor([ 0.0168, -0.0214, -0.0059,  0.0071, -0.0233, -0.0104,  0.0141,  0.0011,
+         0.0268, -0.0207], device='cuda:0'), grad: tensor([ 0.0370,  0.0112,  0.0307, -0.0123, -0.0102,  0.0284, -0.0762,  0.0321,
+        -0.0351, -0.0056], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 107, time 219.17, cls_loss 0.5792 cls_loss_mapping 0.0139 cls_loss_causal 0.5414 re_mapping 0.0105 re_causal 0.0272 /// teacc 98.70 lr 0.00010000
+Epoch 109, weight, value: tensor([[-0.0463, -0.0437, -0.0996,  ...,  0.0932, -0.0260,  0.0278],
+        [-0.0639,  0.0771, -0.0705,  ...,  0.0283, -0.0388, -0.0722],
+        [-0.0275,  0.0626, -0.0765,  ..., -0.0340,  0.0171,  0.0898],
+        ...,
+        [-0.0066,  0.0383, -0.0078,  ...,  0.0064,  0.0226, -0.0295],
+        [ 0.0646, -0.0672,  0.0240,  ..., -0.0054,  0.0026, -0.0407],
+        [-0.0167, -0.0578,  0.0592,  ..., -0.0343,  0.0154, -0.0086]],
+       device='cuda:0'), grad: tensor([[ 0.0005,  0.0010, -0.0002,  ..., -0.0016, -0.0013, -0.0043],
+        [ 0.0011,  0.0024,  0.0013,  ...,  0.0020,  0.0009,  0.0024],
+        [-0.0016, -0.0046, -0.0005,  ..., -0.0047, -0.0039, -0.0064],
+        ...,
+        [ 0.0015,  0.0020,  0.0089,  ..., -0.0005,  0.0072, -0.0007],
+        [ 0.0004,  0.0007,  0.0011,  ...,  0.0014,  0.0013,  0.0017],
+        [ 0.0025, -0.0010,  0.0035,  ...,  0.0016,  0.0009,  0.0021]],
+       device='cuda:0')
+Epoch 109, bias, value: tensor([ 0.0178, -0.0209, -0.0062,  0.0066, -0.0227, -0.0102,  0.0142,  0.0006,
+         0.0259, -0.0208], device='cuda:0'), grad: tensor([-0.0284,  0.0282, -0.0228,  0.0161, -0.0197,  0.0146,  0.0042, -0.0216,
+         0.0166,  0.0126], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 108, time 218.96, cls_loss 0.6206 cls_loss_mapping 0.0228 cls_loss_causal 0.5859 re_mapping 0.0116 re_causal 0.0312 /// teacc 98.63 lr 0.00010000
+Epoch 110, weight, value: tensor([[-0.0452, -0.0455, -0.0991,  ...,  0.0927, -0.0262,  0.0271],
+        [-0.0643,  0.0767, -0.0718,  ...,  0.0282, -0.0386, -0.0729],
+        [-0.0288,  0.0622, -0.0770,  ..., -0.0332,  0.0156,  0.0897],
+        ...,
+        [-0.0059,  0.0407, -0.0077,  ...,  0.0085,  0.0228, -0.0285],
+        [ 0.0651, -0.0673,  0.0236,  ..., -0.0059,  0.0026, -0.0407],
+        [-0.0165, -0.0586,  0.0593,  ..., -0.0353,  0.0154, -0.0100]],
+       device='cuda:0'), grad: tensor([[ 0.0005,  0.0014,  0.0022,  ...,  0.0050,  0.0023,  0.0016],
+        [-0.0003, -0.0059,  0.0003,  ..., -0.0122,  0.0005, -0.0002],
+        [-0.0009, -0.0014, -0.0013,  ...,  0.0005, -0.0028, -0.0122],
+        ...,
+        [ 0.0002,  0.0017,  0.0016,  ...,  0.0005,  0.0019,  0.0014],
+        [ 0.0004,  0.0009,  0.0023,  ...,  0.0090,  0.0033,  0.0019],
+        [-0.0004,  0.0016,  0.0038,  ..., -0.0028,  0.0008, -0.0015]],
+       device='cuda:0')
+Epoch 110, bias, value: tensor([ 0.0178, -0.0214, -0.0065,  0.0063, -0.0236, -0.0110,  0.0151,  0.0024,
+         0.0262, -0.0211], device='cuda:0'), grad: tensor([ 0.0343, -0.0551,  0.0041, -0.0344,  0.0190,  0.0263, -0.0214, -0.0083,
+         0.0354,  0.0001], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 109, time 219.63, cls_loss 0.6063 cls_loss_mapping 0.0164 cls_loss_causal 0.5604 re_mapping 0.0111 re_causal 0.0279 /// teacc 98.35 lr 0.00010000
+Epoch 111, weight, value: tensor([[-0.0455, -0.0473, -0.0987,  ...,  0.0928, -0.0261,  0.0278],
+        [-0.0647,  0.0787, -0.0718,  ...,  0.0283, -0.0377, -0.0733],
+        [-0.0295,  0.0625, -0.0778,  ..., -0.0327,  0.0156,  0.0910],
+        ...,
+        [-0.0061,  0.0401, -0.0074,  ...,  0.0073,  0.0228, -0.0294],
+        [ 0.0660, -0.0666,  0.0239,  ..., -0.0046,  0.0037, -0.0406],
+        [-0.0172, -0.0598,  0.0593,  ..., -0.0356,  0.0154, -0.0111]],
+       device='cuda:0'), grad: tensor([[ 4.8667e-05, -3.2377e-04,  2.7800e-04,  ..., -1.6947e-03,
+          9.3889e-04, -1.6270e-03],
+        [ 1.3614e-04,  5.0735e-03,  1.6651e-03,  ...,  5.4703e-03,
+          3.8700e-03,  1.3113e-03],
+        [ 1.3435e-04,  2.8381e-03,  9.6655e-04,  ...,  2.9545e-03,
+          5.1346e-03,  6.6032e-03],
+        ...,
+        [ 9.1672e-05,  6.1572e-05,  1.7462e-03,  ..., -4.8332e-03,
+         -2.7084e-03,  8.2636e-04],
+        [ 1.6844e-04, -1.2070e-02, -4.6959e-03,  ..., -7.2632e-03,
+         -3.9291e-03, -7.9918e-04],
+        [ 1.3852e-04,  1.4162e-03,  2.3285e-02,  ...,  1.2646e-03,
+          6.7101e-03,  1.2312e-03]], device='cuda:0')
+Epoch 111, bias, value: tensor([ 0.0173, -0.0213, -0.0058,  0.0056, -0.0236, -0.0096,  0.0147,  0.0016,
+         0.0271, -0.0217], device='cuda:0'), grad: tensor([-0.0013,  0.0339,  0.0395,  0.0077, -0.0199, -0.0366, -0.0138, -0.0174,
+        -0.0429,  0.0508], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 110, time 219.49, cls_loss 0.5507 cls_loss_mapping 0.0162 cls_loss_causal 0.5231 re_mapping 0.0110 re_causal 0.0290 /// teacc 98.39 lr 0.00010000
+Epoch 112, weight, value: tensor([[-0.0464, -0.0473, -0.0988,  ...,  0.0936, -0.0264,  0.0272],
+        [-0.0646,  0.0789, -0.0715,  ...,  0.0289, -0.0380, -0.0740],
+        [-0.0303,  0.0626, -0.0790,  ..., -0.0326,  0.0158,  0.0905],
+        ...,
+        [-0.0055,  0.0394, -0.0078,  ...,  0.0063,  0.0222, -0.0301],
+        [ 0.0661, -0.0667,  0.0232,  ..., -0.0061,  0.0039, -0.0403],
+        [-0.0172, -0.0594,  0.0595,  ..., -0.0352,  0.0152, -0.0107]],
+       device='cuda:0'), grad: tensor([[-0.0021,  0.0007, -0.0012,  ..., -0.0085, -0.0022, -0.0012],
+        [ 0.0002,  0.0012,  0.0009,  ...,  0.0016,  0.0008,  0.0005],
+        [ 0.0002, -0.0068,  0.0006,  ..., -0.0011, -0.0132, -0.0012],
+        ...,
+        [ 0.0007,  0.0013,  0.0021,  ...,  0.0030,  0.0020,  0.0007],
+        [-0.0430,  0.0008, -0.0322,  ...,  0.0056,  0.0025,  0.0015],
+        [ 0.0205, -0.0035,  0.0369,  ..., -0.0012,  0.0051,  0.0008]],
+       device='cuda:0')
+Epoch 112, bias, value: tensor([ 0.0163, -0.0207, -0.0062,  0.0062, -0.0223, -0.0096,  0.0141,  0.0012,
+         0.0263, -0.0211], device='cuda:0'), grad: tensor([-0.0148,  0.0138, -0.0514,  0.0428, -0.0063, -0.0053, -0.0251,  0.0161,
+        -0.0037,  0.0339], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 111----------------------------------------------------
+epoch 111, time 220.00, cls_loss 0.6039 cls_loss_mapping 0.0166 cls_loss_causal 0.5630 re_mapping 0.0107 re_causal 0.0277 /// teacc 98.86 lr 0.00010000
+Epoch 113, weight, value: tensor([[-0.0474, -0.0466, -0.0991,  ...,  0.0945, -0.0262,  0.0266],
+        [-0.0641,  0.0787, -0.0708,  ...,  0.0280, -0.0384, -0.0745],
+        [-0.0307,  0.0634, -0.0798,  ..., -0.0321,  0.0151,  0.0926],
+        ...,
+        [-0.0041,  0.0389, -0.0077,  ...,  0.0064,  0.0228, -0.0311],
+        [ 0.0666, -0.0673,  0.0227,  ..., -0.0056,  0.0032, -0.0404],
+        [-0.0171, -0.0585,  0.0598,  ..., -0.0346,  0.0154, -0.0106]],
+       device='cuda:0'), grad: tensor([[-6.0606e-04,  4.2462e-04,  6.2704e-04,  ..., -6.3992e-04,
+         -3.0935e-05,  2.6488e-04],
+        [ 3.9387e-04, -8.3828e-04, -2.2665e-05,  ..., -1.0118e-03,
+          3.6567e-05, -1.9188e-03],
+        [-3.4618e-03, -1.5378e-04,  9.6798e-05,  ..., -2.3479e-03,
+          3.5167e-04, -2.5043e-03],
+        ...,
+        [ 1.4603e-04,  1.0002e-04, -2.1374e-04,  ...,  4.9448e-04,
+          8.6546e-05,  8.3447e-04],
+        [ 1.1711e-03, -5.4216e-04, -2.0809e-03,  ..., -5.8079e-04,
+         -2.1973e-03, -1.4811e-03],
+        [-1.7071e-03,  3.1209e-04, -1.9073e-02,  ...,  7.7677e-04,
+         -1.0872e-02,  7.4625e-04]], device='cuda:0')
+Epoch 113, bias, value: tensor([ 0.0170, -0.0211, -0.0059,  0.0056, -0.0222, -0.0089,  0.0134,  0.0012,
+         0.0265, -0.0213], device='cuda:0'), grad: tensor([ 0.0061, -0.0231, -0.0208,  0.0061,  0.0350,  0.0104,  0.0159,  0.0088,
+        -0.0208, -0.0176], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 112, time 218.02, cls_loss 0.5557 cls_loss_mapping 0.0159 cls_loss_causal 0.5239 re_mapping 0.0114 re_causal 0.0296 /// teacc 98.53 lr 0.00010000
+Epoch 114, weight, value: tensor([[-0.0484, -0.0461, -0.1002,  ...,  0.0939, -0.0266,  0.0272],
+        [-0.0626,  0.0792, -0.0702,  ...,  0.0289, -0.0384, -0.0749],
+        [-0.0307,  0.0641, -0.0790,  ..., -0.0314,  0.0147,  0.0933],
+        ...,
+        [-0.0041,  0.0389, -0.0078,  ...,  0.0065,  0.0228, -0.0319],
+        [ 0.0672, -0.0685,  0.0221,  ..., -0.0057,  0.0033, -0.0410],
+        [-0.0178, -0.0592,  0.0603,  ..., -0.0344,  0.0156, -0.0100]],
+       device='cuda:0'), grad: tensor([[ 4.7851e-04,  3.6645e-04,  2.3234e-04,  ...,  9.2125e-04,
+          4.7565e-04,  1.4582e-03],
+        [ 1.0862e-03,  1.9188e-03,  6.9666e-04,  ...,  1.2159e-03,
+          5.6887e-04,  1.0042e-03],
+        [ 5.8460e-04, -1.2989e-03,  4.9591e-04,  ...,  1.4519e-06,
+         -3.8624e-04, -1.6136e-03],
+        ...,
+        [ 5.9223e-04, -1.6069e-03,  1.9569e-03,  ..., -2.9266e-05,
+          2.0618e-03,  4.8280e-04],
+        [-6.1798e-03,  2.3794e-04,  6.0415e-04,  ...,  1.3533e-03,
+         -9.5558e-04,  2.1088e-04],
+        [-7.2899e-03, -7.8773e-04, -4.2191e-03,  ...,  4.7445e-04,
+         -7.9651e-03,  4.9621e-05]], device='cuda:0')
+Epoch 114, bias, value: tensor([ 0.0160, -0.0207, -0.0056,  0.0060, -0.0222, -0.0092,  0.0130,  0.0008,
+         0.0262, -0.0202], device='cuda:0'), grad: tensor([ 0.0191,  0.0142, -0.0243,  0.0297, -0.0044,  0.0063, -0.0206,  0.0084,
+         0.0010, -0.0294], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 113, time 218.60, cls_loss 0.5525 cls_loss_mapping 0.0138 cls_loss_causal 0.5171 re_mapping 0.0104 re_causal 0.0277 /// teacc 98.36 lr 0.00010000
+Epoch 115, weight, value: tensor([[-0.0478, -0.0467, -0.1013,  ...,  0.0941, -0.0274,  0.0267],
+        [-0.0630,  0.0794, -0.0698,  ...,  0.0290, -0.0388, -0.0738],
+        [-0.0312,  0.0642, -0.0785,  ..., -0.0325,  0.0152,  0.0926],
+        ...,
+        [-0.0039,  0.0391, -0.0079,  ...,  0.0063,  0.0227, -0.0322],
+        [ 0.0672, -0.0694,  0.0223,  ..., -0.0062,  0.0037, -0.0417],
+        [-0.0163, -0.0590,  0.0603,  ..., -0.0343,  0.0156, -0.0102]],
+       device='cuda:0'), grad: tensor([[-0.0019,  0.0003,  0.0003,  ...,  0.0042,  0.0080,  0.0037],
+        [ 0.0003,  0.0004,  0.0007,  ..., -0.0001,  0.0003,  0.0014],
+        [ 0.0008,  0.0001,  0.0006,  ..., -0.0013, -0.0062, -0.0011],
+        ...,
+        [ 0.0005, -0.0004, -0.0005,  ...,  0.0014,  0.0003,  0.0009],
+        [-0.0026, -0.0016, -0.0021,  ..., -0.0077, -0.0055, -0.0078],
+        [ 0.0003,  0.0008,  0.0008,  ..., -0.0005,  0.0001, -0.0010]],
+       device='cuda:0')
+Epoch 115, bias, value: tensor([ 0.0158, -0.0196, -0.0062,  0.0062, -0.0226, -0.0083,  0.0136,  0.0001,
+         0.0259, -0.0206], device='cuda:0'), grad: tensor([ 0.0254,  0.0221,  0.0025, -0.0024,  0.0009,  0.0201,  0.0168,  0.0137,
+        -0.0833, -0.0159], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 114, time 217.60, cls_loss 0.5915 cls_loss_mapping 0.0157 cls_loss_causal 0.5536 re_mapping 0.0111 re_causal 0.0306 /// teacc 98.51 lr 0.00010000
+Epoch 116, weight, value: tensor([[-0.0478, -0.0478, -0.0996,  ...,  0.0939, -0.0278,  0.0263],
+        [-0.0633,  0.0811, -0.0706,  ...,  0.0296, -0.0396, -0.0726],
+        [-0.0322,  0.0637, -0.0804,  ..., -0.0334,  0.0151,  0.0920],
+        ...,
+        [-0.0038,  0.0395, -0.0064,  ...,  0.0053,  0.0242, -0.0331],
+        [ 0.0671, -0.0699,  0.0230,  ..., -0.0065,  0.0052, -0.0413],
+        [-0.0160, -0.0594,  0.0595,  ..., -0.0340,  0.0152, -0.0097]],
+       device='cuda:0'), grad: tensor([[ 2.0123e-04,  3.5024e-04,  3.8266e-04,  ..., -7.3862e-04,
+         -2.7676e-03, -1.4267e-03],
+        [ 1.7357e-04,  7.2975e-03,  1.3924e-03,  ...,  3.1677e-02,
+          1.1482e-03,  3.7581e-05],
+        [ 2.9874e-04, -7.1669e-04,  3.2592e-04,  ...,  7.5102e-04,
+          2.2173e-04, -1.8764e-04],
+        ...,
+        [ 1.0080e-03,  1.5049e-03,  3.1967e-03,  ...,  1.8501e-03,
+          1.3924e-03,  6.1929e-05],
+        [-2.8062e-04, -3.0384e-03,  8.8549e-04,  ...,  1.7977e-03,
+          7.1812e-04,  1.6057e-04],
+        [ 5.9509e-04,  1.1711e-03,  8.1253e-03,  ..., -4.5700e-03,
+         -4.5490e-04,  3.4618e-04]], device='cuda:0')
+Epoch 116, bias, value: tensor([ 0.0167, -0.0198, -0.0072,  0.0068, -0.0220, -0.0091,  0.0138,  0.0002,
+         0.0254, -0.0205], device='cuda:0'), grad: tensor([-0.0381,  0.0561,  0.0122,  0.0162, -0.0237, -0.0352,  0.0115,  0.0327,
+        -0.0119, -0.0197], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 115, time 216.89, cls_loss 0.5615 cls_loss_mapping 0.0115 cls_loss_causal 0.5316 re_mapping 0.0106 re_causal 0.0274 /// teacc 98.59 lr 0.00010000
+Epoch 117, weight, value: tensor([[-0.0461, -0.0477, -0.0999,  ...,  0.0942, -0.0271,  0.0273],
+        [-0.0635,  0.0803, -0.0694,  ...,  0.0292, -0.0395, -0.0730],
+        [-0.0332,  0.0650, -0.0813,  ..., -0.0332,  0.0151,  0.0920],
+        ...,
+        [-0.0029,  0.0397, -0.0075,  ...,  0.0062,  0.0234, -0.0334],
+        [ 0.0669, -0.0709,  0.0233,  ..., -0.0064,  0.0051, -0.0412],
+        [-0.0169, -0.0595,  0.0601,  ..., -0.0346,  0.0156, -0.0106]],
+       device='cuda:0'), grad: tensor([[-4.4443e-06, -3.1805e-04,  3.2568e-04,  ..., -3.8218e-04,
+          5.7030e-04,  2.7642e-06],
+        [ 1.3983e-04, -4.6253e-04,  3.4785e-04,  ..., -4.2963e-04,
+          5.7697e-04,  2.7370e-04],
+        [ 3.5453e-04, -9.5415e-04,  9.7656e-04,  ..., -1.2751e-03,
+         -6.0606e-04, -9.6750e-04],
+        ...,
+        [ 1.1194e-04, -8.4829e-04,  1.5993e-03,  ..., -1.7631e-04,
+          3.5000e-03, -1.0473e-04],
+        [ 1.3399e-03,  1.1024e-03,  4.7836e-03,  ...,  1.0633e-03,
+          7.1373e-03,  1.7881e-03],
+        [ 7.7820e-04, -1.0958e-03, -4.2839e-03,  ...,  6.1512e-04,
+         -1.2413e-02, -4.6611e-04]], device='cuda:0')
+Epoch 117, bias, value: tensor([ 1.7310e-02, -1.9773e-02, -7.5355e-03,  6.7748e-03, -2.1709e-02,
+        -9.6288e-03,  1.3155e-02,  8.1866e-06,  2.6788e-02, -2.1081e-02],
+       device='cuda:0'), grad: tensor([-0.0159, -0.0260,  0.0144, -0.0087,  0.0328,  0.0167, -0.0082, -0.0081,
+         0.0224, -0.0195], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 116, time 217.03, cls_loss 0.5705 cls_loss_mapping 0.0153 cls_loss_causal 0.5484 re_mapping 0.0100 re_causal 0.0270 /// teacc 98.57 lr 0.00010000
+Epoch 118, weight, value: tensor([[-0.0461, -0.0493, -0.1014,  ...,  0.0936, -0.0277,  0.0273],
+        [-0.0634,  0.0803, -0.0692,  ...,  0.0294, -0.0392, -0.0719],
+        [-0.0324,  0.0655, -0.0818,  ..., -0.0330,  0.0156,  0.0919],
+        ...,
+        [-0.0025,  0.0397, -0.0068,  ...,  0.0056,  0.0247, -0.0343],
+        [ 0.0673, -0.0712,  0.0229,  ..., -0.0061,  0.0041, -0.0420],
+        [-0.0172, -0.0598,  0.0605,  ..., -0.0345,  0.0158, -0.0103]],
+       device='cuda:0'), grad: tensor([[ 3.3474e-04,  1.0958e-03,  5.6171e-04,  ...,  1.4963e-03,
+          3.3474e-03,  2.1496e-03],
+        [ 1.7929e-04, -1.1581e-04,  7.2658e-05,  ...,  6.8855e-04,
+          1.0939e-03, -1.5628e-04],
+        [ 3.3307e-04, -1.7662e-03, -1.8425e-03,  ..., -1.0481e-03,
+         -1.0040e-02, -2.0943e-03],
+        ...,
+        [ 2.9826e-04, -3.6507e-03,  4.7278e-04,  ..., -2.0370e-03,
+         -9.9850e-04,  1.2022e-04],
+        [ 2.9469e-04,  5.2452e-04,  2.7013e-04,  ...,  9.7942e-04,
+          1.3428e-03,  7.6580e-04],
+        [ 4.0627e-04,  7.6866e-04, -1.6785e-02,  ...,  1.7986e-03,
+         -4.6425e-03,  8.2254e-04]], device='cuda:0')
+Epoch 118, bias, value: tensor([ 0.0172, -0.0199, -0.0077,  0.0075, -0.0223, -0.0099,  0.0141,  0.0003,
+         0.0259, -0.0209], device='cuda:0'), grad: tensor([ 0.0361, -0.0087, -0.0578,  0.0135,  0.0128, -0.0298,  0.0089,  0.0017,
+         0.0136,  0.0096], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 117, time 216.75, cls_loss 0.5543 cls_loss_mapping 0.0161 cls_loss_causal 0.5203 re_mapping 0.0100 re_causal 0.0269 /// teacc 98.74 lr 0.00010000
+Epoch 119, weight, value: tensor([[-0.0460, -0.0482, -0.1009,  ...,  0.0958, -0.0272,  0.0272],
+        [-0.0631,  0.0806, -0.0688,  ...,  0.0293, -0.0390, -0.0713],
+        [-0.0317,  0.0648, -0.0820,  ..., -0.0341,  0.0161,  0.0924],
+        ...,
+        [-0.0030,  0.0403, -0.0071,  ...,  0.0053,  0.0245, -0.0341],
+        [ 0.0681, -0.0717,  0.0228,  ..., -0.0064,  0.0047, -0.0424],
+        [-0.0185, -0.0600,  0.0610,  ..., -0.0348,  0.0160, -0.0109]],
+       device='cuda:0'), grad: tensor([[-3.9387e-04, -2.3670e-03,  8.3566e-05,  ..., -2.8915e-03,
+         -1.1339e-03, -2.9278e-04],
+        [ 6.9380e-04,  2.3407e-02,  8.4543e-04,  ...,  6.1569e-03,
+          8.4305e-04,  1.1671e-04],
+        [ 2.2995e-04,  1.5144e-03,  1.3649e-04,  ...,  4.1270e-04,
+          2.0337e-04,  2.0027e-04],
+        ...,
+        [-9.4461e-04, -3.4676e-03, -6.5279e-04,  ...,  6.2943e-04,
+         -4.8733e-04, -2.6059e-04],
+        [ 1.8978e-03, -2.0432e-02,  2.1095e-03,  ..., -3.0384e-03,
+          1.4820e-03,  6.5660e-04],
+        [ 3.7460e-03,  4.6515e-04,  6.6185e-03,  ...,  4.9877e-04,
+          3.3684e-03,  4.8608e-05]], device='cuda:0')
+Epoch 119, bias, value: tensor([ 0.0185, -0.0190, -0.0079,  0.0075, -0.0223, -0.0102,  0.0133, -0.0002,
+         0.0259, -0.0213], device='cuda:0'), grad: tensor([-0.0484,  0.0712,  0.0105,  0.0132, -0.0341, -0.0246, -0.0125,  0.0046,
+         0.0015,  0.0186], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 118----------------------------------------------------
+epoch 118, time 217.67, cls_loss 0.5684 cls_loss_mapping 0.0156 cls_loss_causal 0.5293 re_mapping 0.0107 re_causal 0.0287 /// teacc 98.88 lr 0.00010000
+Epoch 120, weight, value: tensor([[-0.0464, -0.0481, -0.1011,  ...,  0.0968, -0.0271,  0.0276],
+        [-0.0635,  0.0807, -0.0683,  ...,  0.0292, -0.0391, -0.0708],
+        [-0.0320,  0.0656, -0.0818,  ..., -0.0328,  0.0161,  0.0936],
+        ...,
+        [-0.0038,  0.0410, -0.0076,  ...,  0.0050,  0.0241, -0.0345],
+        [ 0.0689, -0.0716,  0.0232,  ..., -0.0061,  0.0049, -0.0431],
+        [-0.0180, -0.0596,  0.0606,  ..., -0.0348,  0.0159, -0.0107]],
+       device='cuda:0'), grad: tensor([[ 2.2066e-04, -2.5101e-03, -4.7565e-04,  ..., -5.8060e-03,
+         -2.8992e-03,  4.1461e-04],
+        [ 1.7347e-03,  4.4823e-03,  5.0068e-04,  ...,  6.1264e-03,
+          3.2425e-03,  6.0797e-04],
+        [-4.8523e-03, -4.3297e-03, -4.3344e-04,  ..., -7.0152e-03,
+         -4.7836e-03, -3.1929e-03],
+        ...,
+        [-4.6349e-03, -7.1564e-03, -1.4885e-02,  ..., -3.0823e-03,
+         -9.7046e-03,  3.4761e-04],
+        [ 6.4707e-04,  1.8787e-03,  8.5449e-04,  ...,  1.0557e-03,
+          1.1196e-03, -5.3525e-05],
+        [ 3.1071e-03,  3.4294e-03,  1.0498e-02,  ...,  3.1662e-03,
+          6.9008e-03,  1.7583e-04]], device='cuda:0')
+Epoch 120, bias, value: tensor([ 0.0193, -0.0189, -0.0076,  0.0073, -0.0219, -0.0111,  0.0128, -0.0004,
+         0.0254, -0.0206], device='cuda:0'), grad: tensor([-0.0094,  0.0388, -0.0649,  0.0124,  0.0090, -0.0231,  0.0403, -0.0208,
+        -0.0103,  0.0280], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 119, time 217.00, cls_loss 0.5833 cls_loss_mapping 0.0214 cls_loss_causal 0.5512 re_mapping 0.0102 re_causal 0.0267 /// teacc 98.58 lr 0.00010000
+Epoch 121, weight, value: tensor([[-0.0471, -0.0483, -0.1028,  ...,  0.0966, -0.0290,  0.0266],
+        [-0.0651,  0.0802, -0.0672,  ...,  0.0283, -0.0405, -0.0717],
+        [-0.0318,  0.0655, -0.0815,  ..., -0.0326,  0.0168,  0.0934],
+        ...,
+        [-0.0031,  0.0411, -0.0076,  ...,  0.0055,  0.0255, -0.0346],
+        [ 0.0682, -0.0713,  0.0228,  ..., -0.0061,  0.0043, -0.0427],
+        [-0.0186, -0.0590,  0.0607,  ..., -0.0346,  0.0162, -0.0103]],
+       device='cuda:0'), grad: tensor([[ 2.7037e-04,  1.0180e-04,  9.7156e-05,  ...,  2.0752e-03,
+         -1.1234e-03, -1.4410e-03],
+        [-2.2354e-03, -3.2353e-04,  1.6165e-04,  ..., -7.2670e-03,
+          4.8089e-04,  8.6784e-05],
+        [ 2.1350e-04,  2.0158e-04,  3.9053e-04,  ...,  4.2343e-04,
+          1.7052e-03,  9.5272e-04],
+        ...,
+        [ 3.1978e-05,  1.9836e-04,  1.0328e-03,  ...,  5.6171e-04,
+          1.1873e-03,  1.7250e-04],
+        [ 4.2415e-04, -8.5831e-04, -2.2564e-03,  ...,  8.2016e-04,
+         -3.7556e-03, -2.6846e-04],
+        [ 1.3995e-04,  7.1287e-05,  8.7738e-04,  ...,  2.7394e-04,
+          4.6635e-04,  1.5903e-04]], device='cuda:0')
+Epoch 121, bias, value: tensor([ 0.0180, -0.0202, -0.0077,  0.0081, -0.0215, -0.0111,  0.0138,  0.0004,
+         0.0249, -0.0203], device='cuda:0'), grad: tensor([ 0.0038, -0.0013,  0.0169, -0.0106,  0.0139, -0.0024,  0.0197,  0.0179,
+        -0.0410, -0.0168], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 120, time 216.81, cls_loss 0.5676 cls_loss_mapping 0.0218 cls_loss_causal 0.5380 re_mapping 0.0101 re_causal 0.0255 /// teacc 98.67 lr 0.00010000
+Epoch 122, weight, value: tensor([[-0.0483, -0.0477, -0.1037,  ...,  0.0972, -0.0303,  0.0267],
+        [-0.0652,  0.0813, -0.0673,  ...,  0.0287, -0.0412, -0.0718],
+        [-0.0314,  0.0649, -0.0832,  ..., -0.0325,  0.0170,  0.0937],
+        ...,
+        [-0.0034,  0.0414, -0.0068,  ...,  0.0050,  0.0254, -0.0336],
+        [ 0.0688, -0.0724,  0.0231,  ..., -0.0065,  0.0045, -0.0430],
+        [-0.0189, -0.0598,  0.0602,  ..., -0.0347,  0.0162, -0.0116]],
+       device='cuda:0'), grad: tensor([[ 2.6003e-05,  3.4261e-04,  1.4015e-05,  ...,  6.1083e-04,
+          1.7631e-04,  6.2764e-05],
+        [ 5.3674e-05,  7.9727e-04,  8.3089e-05,  ...,  3.8505e-04,
+          2.2876e-04,  3.5024e-04],
+        [ 9.2089e-05, -3.9101e-03,  6.1750e-05,  ..., -3.0756e-04,
+         -1.9226e-03, -1.0366e-03],
+        ...,
+        [ 1.0765e-02,  7.1764e-04,  1.2489e-02,  ..., -4.9782e-04,
+          1.3603e-02,  2.0599e-04],
+        [ 3.5954e-04,  3.6550e-04,  4.7135e-04,  ...,  5.1689e-04,
+          4.8661e-04,  1.1712e-04],
+        [-1.1879e-02, -1.0496e-04, -1.4427e-02,  ..., -6.6900e-04,
+         -1.5205e-02,  3.2067e-05]], device='cuda:0')
+Epoch 122, bias, value: tensor([ 0.0174, -0.0199, -0.0081,  0.0076, -0.0222, -0.0097,  0.0139,  0.0009,
+         0.0247, -0.0201], device='cuda:0'), grad: tensor([ 0.0136, -0.0055, -0.0144,  0.0119,  0.0169,  0.0107, -0.0128,  0.0057,
+         0.0146, -0.0407], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 121, time 217.22, cls_loss 0.5583 cls_loss_mapping 0.0120 cls_loss_causal 0.5324 re_mapping 0.0108 re_causal 0.0280 /// teacc 98.77 lr 0.00010000
+Epoch 123, weight, value: tensor([[-0.0482, -0.0475, -0.1050,  ...,  0.0974, -0.0300,  0.0263],
+        [-0.0654,  0.0814, -0.0681,  ...,  0.0296, -0.0419, -0.0722],
+        [-0.0313,  0.0653, -0.0841,  ..., -0.0321,  0.0173,  0.0943],
+        ...,
+        [-0.0044,  0.0412, -0.0062,  ...,  0.0045,  0.0256, -0.0346],
+        [ 0.0687, -0.0718,  0.0228,  ..., -0.0067,  0.0047, -0.0428],
+        [-0.0184, -0.0610,  0.0601,  ..., -0.0356,  0.0157, -0.0128]],
+       device='cuda:0'), grad: tensor([[ 0.0001,  0.0004,  0.0001,  ...,  0.0017,  0.0006,  0.0013],
+        [ 0.0003,  0.0005,  0.0005,  ...,  0.0022,  0.0006,  0.0009],
+        [-0.0009,  0.0017,  0.0007,  ..., -0.0079,  0.0132,  0.0115],
+        ...,
+        [-0.0004, -0.0006, -0.0030,  ...,  0.0008, -0.0070,  0.0005],
+        [ 0.0002, -0.0032,  0.0005,  ...,  0.0013, -0.0147, -0.0179],
+        [ 0.0001,  0.0003,  0.0005,  ...,  0.0007,  0.0009,  0.0002]],
+       device='cuda:0')
+Epoch 123, bias, value: tensor([ 0.0169, -0.0191, -0.0080,  0.0074, -0.0217, -0.0097,  0.0143,  0.0007,
+         0.0243, -0.0208], device='cuda:0'), grad: tensor([ 0.0174,  0.0251, -0.0504, -0.0121, -0.0122, -0.0075,  0.0212,  0.0123,
+        -0.0055,  0.0118], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 122, time 216.85, cls_loss 0.5577 cls_loss_mapping 0.0124 cls_loss_causal 0.5184 re_mapping 0.0109 re_causal 0.0287 /// teacc 98.60 lr 0.00010000
+Epoch 124, weight, value: tensor([[-0.0475, -0.0478, -0.1049,  ...,  0.0986, -0.0294,  0.0257],
+        [-0.0669,  0.0804, -0.0687,  ...,  0.0295, -0.0421, -0.0734],
+        [-0.0313,  0.0661, -0.0835,  ..., -0.0317,  0.0168,  0.0946],
+        ...,
+        [-0.0044,  0.0411, -0.0065,  ...,  0.0044,  0.0254, -0.0356],
+        [ 0.0688, -0.0732,  0.0223,  ..., -0.0072,  0.0048, -0.0423],
+        [-0.0174, -0.0611,  0.0609,  ..., -0.0365,  0.0163, -0.0123]],
+       device='cuda:0'), grad: tensor([[ 0.0017,  0.0004,  0.0042,  ...,  0.0033,  0.0049,  0.0014],
+        [ 0.0007,  0.0002,  0.0016,  ...,  0.0009,  0.0008,  0.0002],
+        [ 0.0012,  0.0003,  0.0003,  ...,  0.0013,  0.0018,  0.0012],
+        ...,
+        [-0.0037, -0.0016,  0.0020,  ...,  0.0012,  0.0022,  0.0002],
+        [ 0.0013,  0.0005,  0.0005,  ...,  0.0017,  0.0008,  0.0003],
+        [ 0.0015,  0.0012,  0.0068,  ...,  0.0015,  0.0041,  0.0002]],
+       device='cuda:0')
+Epoch 124, bias, value: tensor([ 0.0179, -0.0201, -0.0069,  0.0071, -0.0221, -0.0100,  0.0143,  0.0004,
+         0.0240, -0.0202], device='cuda:0'), grad: tensor([ 0.0322, -0.0078,  0.0188, -0.0568, -0.0331, -0.0122,  0.0146, -0.0020,
+         0.0192,  0.0269], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 123, time 216.70, cls_loss 0.5534 cls_loss_mapping 0.0152 cls_loss_causal 0.5215 re_mapping 0.0106 re_causal 0.0263 /// teacc 98.65 lr 0.00010000
+Epoch 125, weight, value: tensor([[-0.0482, -0.0486, -0.1064,  ...,  0.0989, -0.0299,  0.0265],
+        [-0.0657,  0.0819, -0.0685,  ...,  0.0294, -0.0421, -0.0729],
+        [-0.0323,  0.0653, -0.0847,  ..., -0.0323,  0.0167,  0.0945],
+        ...,
+        [-0.0043,  0.0418, -0.0065,  ...,  0.0032,  0.0257, -0.0364],
+        [ 0.0684, -0.0738,  0.0230,  ..., -0.0065,  0.0056, -0.0424],
+        [-0.0178, -0.0622,  0.0612,  ..., -0.0369,  0.0167, -0.0117]],
+       device='cuda:0'), grad: tensor([[ 0.0004,  0.0010, -0.0025,  ..., -0.0065, -0.0049, -0.0021],
+        [-0.0023,  0.0020,  0.0019,  ..., -0.0078,  0.0011, -0.0011],
+        [ 0.0004, -0.0101, -0.0072,  ..., -0.0061, -0.0014,  0.0003],
+        ...,
+        [ 0.0009,  0.0036, -0.0222,  ...,  0.0036, -0.0370,  0.0007],
+        [ 0.0032,  0.0007,  0.0020,  ...,  0.0025,  0.0045,  0.0012],
+        [-0.0025, -0.0007,  0.0229,  ..., -0.0013,  0.0336,  0.0009]],
+       device='cuda:0')
+Epoch 125, bias, value: tensor([ 0.0173, -0.0201, -0.0069,  0.0074, -0.0227, -0.0095,  0.0157, -0.0008,
+         0.0242, -0.0202], device='cuda:0'), grad: tensor([ 0.0002, -0.0275, -0.0408,  0.0057,  0.0223,  0.0356,  0.0355, -0.0198,
+         0.0078, -0.0188], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 124, time 216.89, cls_loss 0.5570 cls_loss_mapping 0.0161 cls_loss_causal 0.5349 re_mapping 0.0099 re_causal 0.0261 /// teacc 98.70 lr 0.00010000
+Epoch 126, weight, value: tensor([[-0.0485, -0.0489, -0.1070,  ...,  0.0995, -0.0303,  0.0263],
+        [-0.0657,  0.0813, -0.0678,  ...,  0.0299, -0.0411, -0.0735],
+        [-0.0328,  0.0666, -0.0849,  ..., -0.0326,  0.0180,  0.0951],
+        ...,
+        [-0.0021,  0.0410, -0.0054,  ...,  0.0024,  0.0264, -0.0373],
+        [ 0.0672, -0.0728,  0.0227,  ..., -0.0062,  0.0048, -0.0423],
+        [-0.0184, -0.0623,  0.0617,  ..., -0.0383,  0.0172, -0.0108]],
+       device='cuda:0'), grad: tensor([[ 5.2643e-04,  2.7394e-04,  4.1580e-04,  ...,  3.2673e-03,
+          1.8730e-03,  4.0793e-04],
+        [ 9.4938e-04, -3.0766e-03, -6.6662e-04,  ..., -1.1597e-03,
+          1.9419e-04,  8.5711e-05],
+        [ 4.6120e-03,  1.5936e-03, -5.0116e-04,  ...,  1.3714e-03,
+         -6.0158e-03, -2.3937e-03],
+        ...,
+        [ 3.8528e-04, -2.6488e-04, -2.6970e-03,  ..., -5.1460e-03,
+          1.1282e-03,  6.0654e-04],
+        [ 1.6832e-03,  9.7752e-04,  2.2316e-03,  ..., -8.1558e-03,
+         -1.9007e-03,  5.0640e-04],
+        [ 3.7718e-04,  1.6041e-03, -7.5197e-04,  ...,  2.0809e-03,
+          1.7385e-03,  9.0408e-04]], device='cuda:0')
+Epoch 126, bias, value: tensor([ 0.0169, -0.0195, -0.0066,  0.0078, -0.0227, -0.0093,  0.0155, -0.0008,
+         0.0241, -0.0208], device='cuda:0'), grad: tensor([ 0.0210, -0.0037,  0.0074,  0.0228,  0.0091, -0.0024, -0.0301, -0.0226,
+        -0.0170,  0.0155], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 125, time 216.82, cls_loss 0.5466 cls_loss_mapping 0.0164 cls_loss_causal 0.5177 re_mapping 0.0103 re_causal 0.0268 /// teacc 98.61 lr 0.00010000
+Epoch 127, weight, value: tensor([[-0.0500, -0.0487, -0.1071,  ...,  0.1001, -0.0306,  0.0268],
+        [-0.0650,  0.0812, -0.0679,  ...,  0.0291, -0.0406, -0.0740],
+        [-0.0327,  0.0674, -0.0833,  ..., -0.0318,  0.0187,  0.0958],
+        ...,
+        [-0.0022,  0.0416, -0.0065,  ...,  0.0033,  0.0248, -0.0376],
+        [ 0.0679, -0.0733,  0.0227,  ..., -0.0059,  0.0051, -0.0421],
+        [-0.0183, -0.0634,  0.0617,  ..., -0.0399,  0.0178, -0.0117]],
+       device='cuda:0'), grad: tensor([[-2.5705e-05,  6.0892e-04,  1.2171e-04,  ...,  7.7635e-06,
+         -2.6321e-04, -2.8586e-04],
+        [ 1.3048e-06, -4.7112e-03, -2.4104e-04,  ..., -3.2310e-03,
+          5.5343e-05,  1.9240e-04],
+        [ 3.7956e-04,  5.9271e-04, -1.0328e-03,  ...,  9.0866e-03,
+          1.3437e-03,  6.4163e-03],
+        ...,
+        [-4.2772e-04,  6.1340e-03,  2.3537e-03,  ..., -2.6059e-04,
+          3.8605e-03,  2.3975e-03],
+        [ 3.8087e-05,  8.4162e-04,  2.8849e-04,  ...,  9.0885e-04,
+          4.4394e-04,  5.5218e-04],
+        [-2.4036e-05,  9.5558e-04,  3.5572e-04,  ...,  3.5644e-04,
+          3.0518e-04,  2.2960e-04]], device='cuda:0')
+Epoch 127, bias, value: tensor([ 0.0168, -0.0191, -0.0071,  0.0077, -0.0220, -0.0102,  0.0160, -0.0005,
+         0.0245, -0.0216], device='cuda:0'), grad: tensor([ 0.0020, -0.0067,  0.0287, -0.0288,  0.0037,  0.0042,  0.0038, -0.0160,
+         0.0054,  0.0037], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 126, time 216.68, cls_loss 0.5993 cls_loss_mapping 0.0116 cls_loss_causal 0.5639 re_mapping 0.0107 re_causal 0.0280 /// teacc 98.57 lr 0.00010000
+Epoch 128, weight, value: tensor([[-0.0496, -0.0477, -0.1086,  ...,  0.1003, -0.0310,  0.0279],
+        [-0.0656,  0.0827, -0.0678,  ...,  0.0282, -0.0408, -0.0745],
+        [-0.0327,  0.0668, -0.0826,  ..., -0.0321,  0.0189,  0.0956],
+        ...,
+        [-0.0027,  0.0407, -0.0062,  ...,  0.0019,  0.0250, -0.0387],
+        [ 0.0680, -0.0737,  0.0234,  ..., -0.0043,  0.0058, -0.0428],
+        [-0.0180, -0.0624,  0.0618,  ..., -0.0387,  0.0178, -0.0115]],
+       device='cuda:0'), grad: tensor([[ 5.0291e-06,  4.3702e-04,  1.8120e-04,  ...,  1.2674e-03,
+          4.9019e-04,  4.1890e-04],
+        [ 3.3703e-03,  1.1292e-03,  7.5579e-04,  ..., -1.7653e-03,
+          4.1795e-04,  2.8515e-04],
+        [ 1.1086e-04, -1.8573e-04, -2.9125e-03,  ..., -7.3586e-03,
+         -3.7079e-03, -5.7297e-03],
+        ...,
+        [-3.8700e-03, -7.8201e-03,  1.1501e-03,  ..., -3.9005e-04,
+         -6.4087e-03,  9.9182e-04],
+        [ 1.4019e-04,  9.6750e-04,  1.5850e-03,  ...,  4.6806e-03,
+          2.8458e-03,  1.5802e-03],
+        [-1.4582e-03,  6.1560e-04, -7.4291e-04,  ..., -1.8549e-04,
+         -5.3501e-04,  4.3440e-04]], device='cuda:0')
+Epoch 128, bias, value: tensor([ 0.0171, -0.0199, -0.0076,  0.0078, -0.0210, -0.0103,  0.0156, -0.0011,
+         0.0249, -0.0213], device='cuda:0'), grad: tensor([ 0.0197,  0.0108, -0.0080,  0.0395, -0.0086, -0.0106,  0.0376, -0.0732,
+         0.0077, -0.0149], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 127, time 217.19, cls_loss 0.5575 cls_loss_mapping 0.0111 cls_loss_causal 0.5281 re_mapping 0.0103 re_causal 0.0271 /// teacc 98.62 lr 0.00010000
+Epoch 129, weight, value: tensor([[-0.0501, -0.0486, -0.1082,  ...,  0.1001, -0.0314,  0.0283],
+        [-0.0647,  0.0835, -0.0687,  ...,  0.0290, -0.0407, -0.0748],
+        [-0.0334,  0.0665, -0.0822,  ..., -0.0320,  0.0201,  0.0962],
+        ...,
+        [-0.0030,  0.0418, -0.0061,  ...,  0.0021,  0.0250, -0.0383],
+        [ 0.0681, -0.0741,  0.0244,  ..., -0.0040,  0.0069, -0.0436],
+        [-0.0185, -0.0629,  0.0623,  ..., -0.0385,  0.0172, -0.0109]],
+       device='cuda:0'), grad: tensor([[ 7.3433e-05, -2.9936e-05,  2.5177e-03,  ..., -7.0620e-04,
+          9.6560e-05, -1.1215e-03],
+        [ 4.9740e-05,  1.4961e-04,  5.4455e-04,  ...,  4.3774e-04,
+          3.9124e-04,  1.8418e-04],
+        [ 7.4506e-05, -4.7112e-04,  4.0841e-04,  ...,  8.7786e-04,
+          6.7472e-04,  4.2415e-04],
+        ...,
+        [ 5.2452e-04,  2.3234e-04,  1.8024e-03,  ...,  5.1069e-04,
+          2.0161e-03,  3.3593e-04],
+        [ 1.6248e-04,  1.4925e-04, -1.5915e-02,  ...,  7.9823e-04,
+         -9.4681e-03,  3.8671e-04],
+        [-2.2793e-03, -1.2946e-04,  3.1757e-03,  ..., -9.6941e-04,
+          7.7486e-04,  7.2360e-05]], device='cuda:0')
+Epoch 129, bias, value: tensor([ 0.0171, -0.0190, -0.0084,  0.0069, -0.0212, -0.0102,  0.0159, -0.0008,
+         0.0252, -0.0208], device='cuda:0'), grad: tensor([ 0.0111,  0.0069,  0.0102,  0.0124,  0.0172,  0.0352, -0.0503,  0.0161,
+        -0.0176, -0.0410], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 128, time 216.91, cls_loss 0.5498 cls_loss_mapping 0.0157 cls_loss_causal 0.5177 re_mapping 0.0100 re_causal 0.0253 /// teacc 98.72 lr 0.00010000
+Epoch 130, weight, value: tensor([[-0.0505, -0.0483, -0.1090,  ...,  0.0994, -0.0318,  0.0278],
+        [-0.0659,  0.0833, -0.0694,  ...,  0.0292, -0.0416, -0.0757],
+        [-0.0336,  0.0673, -0.0823,  ..., -0.0311,  0.0188,  0.0968],
+        ...,
+        [-0.0025,  0.0401, -0.0054,  ...,  0.0014,  0.0264, -0.0377],
+        [ 0.0676, -0.0713,  0.0228,  ..., -0.0039,  0.0055, -0.0441],
+        [-0.0185, -0.0625,  0.0628,  ..., -0.0392,  0.0172, -0.0119]],
+       device='cuda:0'), grad: tensor([[ 4.5872e-04,  2.1672e-04, -4.2796e-05,  ...,  2.0752e-03,
+         -2.4700e-04,  2.2888e-04],
+        [ 2.5845e-04,  6.6614e-04,  3.0017e-04,  ...,  1.9140e-03,
+          4.5371e-04,  3.1948e-04],
+        [ 5.1928e-04,  5.1994e-03,  1.8911e-03,  ...,  7.1182e-03,
+          1.4313e-02,  7.8888e-03],
+        ...,
+        [ 5.8460e-04, -4.9438e-03, -4.6844e-03,  ..., -1.5860e-03,
+         -3.6011e-03, -1.9255e-03],
+        [ 1.8501e-03, -2.2278e-03, -4.1771e-03,  ..., -6.1893e-04,
+         -7.2479e-03, -5.0278e-03],
+        [ 6.7234e-04,  2.7733e-03,  4.5280e-03,  ..., -5.1260e-04,
+          3.3054e-03,  3.9053e-04]], device='cuda:0')
+Epoch 130, bias, value: tensor([ 0.0166, -0.0190, -0.0083,  0.0070, -0.0223, -0.0103,  0.0163, -0.0011,
+         0.0254, -0.0200], device='cuda:0'), grad: tensor([-0.0100,  0.0055,  0.0462, -0.0284, -0.0107,  0.0295, -0.0039,  0.0096,
+        -0.0377, -0.0003], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 129, time 216.91, cls_loss 0.5745 cls_loss_mapping 0.0116 cls_loss_causal 0.5509 re_mapping 0.0104 re_causal 0.0281 /// teacc 98.77 lr 0.00010000
+Epoch 131, weight, value: tensor([[-0.0508, -0.0497, -0.1100,  ...,  0.0999, -0.0327,  0.0278],
+        [-0.0662,  0.0839, -0.0701,  ...,  0.0294, -0.0419, -0.0755],
+        [-0.0349,  0.0669, -0.0818,  ..., -0.0318,  0.0183,  0.0964],
+        ...,
+        [-0.0016,  0.0411, -0.0051,  ...,  0.0013,  0.0271, -0.0381],
+        [ 0.0673, -0.0712,  0.0235,  ..., -0.0042,  0.0060, -0.0439],
+        [-0.0189, -0.0633,  0.0620,  ..., -0.0395,  0.0165, -0.0123]],
+       device='cuda:0'), grad: tensor([[ 9.3356e-06,  3.7622e-04,  2.2924e-04,  ..., -2.4378e-04,
+          1.1349e-03,  1.2529e-04],
+        [-1.4699e-04,  1.1921e-03,  1.1015e-04,  ...,  1.8959e-03,
+          2.4624e-03,  8.6641e-04],
+        [ 3.1084e-05,  1.2941e-03,  2.1911e-04,  ...,  3.5477e-03,
+          2.1629e-03,  6.9427e-04],
+        ...,
+        [ 2.2739e-05, -8.8072e-04, -2.9316e-03,  ...,  4.0793e-04,
+         -2.6340e-03, -2.2128e-05],
+        [ 3.0205e-05,  7.9250e-04,  4.7922e-04,  ..., -1.0666e-02,
+         -2.7962e-03, -8.3828e-04],
+        [ 1.3903e-05,  1.6756e-03,  1.4811e-03,  ...,  4.2343e-03,
+          3.3741e-03,  7.1955e-04]], device='cuda:0')
+Epoch 131, bias, value: tensor([ 0.0173, -0.0195, -0.0094,  0.0078, -0.0229, -0.0108,  0.0176, -0.0011,
+         0.0252, -0.0200], device='cuda:0'), grad: tensor([-1.0948e-02,  2.0355e-02,  2.4246e-02,  8.6823e-03,  1.3245e-02,
+        -5.1453e-02, -9.9564e-03, -4.9829e-05, -2.5497e-02,  3.1372e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 130, time 216.87, cls_loss 0.5722 cls_loss_mapping 0.0118 cls_loss_causal 0.5246 re_mapping 0.0102 re_causal 0.0269 /// teacc 98.77 lr 0.00010000
+Epoch 132, weight, value: tensor([[-0.0500, -0.0501, -0.1113,  ...,  0.1005, -0.0317,  0.0279],
+        [-0.0669,  0.0851, -0.0704,  ...,  0.0292, -0.0428, -0.0745],
+        [-0.0353,  0.0659, -0.0812,  ..., -0.0331,  0.0182,  0.0957],
+        ...,
+        [-0.0015,  0.0419, -0.0054,  ...,  0.0018,  0.0273, -0.0381],
+        [ 0.0669, -0.0712,  0.0224,  ..., -0.0030,  0.0048, -0.0427],
+        [-0.0188, -0.0635,  0.0628,  ..., -0.0399,  0.0172, -0.0133]],
+       device='cuda:0'), grad: tensor([[ 5.0254e-06,  3.4213e-04, -7.1907e-04,  ..., -2.5673e-03,
+         -4.4674e-05,  4.5061e-05],
+        [ 7.7784e-06, -1.4105e-03,  3.9148e-04,  ..., -4.7607e-03,
+         -4.1556e-04,  2.2411e-05],
+        [ 3.7774e-06, -2.9540e-04,  1.3065e-04,  ...,  8.2350e-04,
+         -1.1787e-02, -8.3351e-04],
+        ...,
+        [ 4.2021e-06,  2.5368e-03,  3.0041e-03,  ...,  5.4550e-03,
+          4.1199e-03,  2.1303e-04],
+        [ 5.9754e-06, -7.5388e-04, -3.3131e-03,  ..., -1.6613e-03,
+          4.3416e-04,  1.6439e-04],
+        [ 5.3197e-06,  4.8676e-03,  1.6876e-02,  ...,  5.1193e-03,
+          1.0468e-02,  1.1779e-05]], device='cuda:0')
+Epoch 132, bias, value: tensor([ 0.0174, -0.0195, -0.0102,  0.0081, -0.0229, -0.0105,  0.0172, -0.0008,
+         0.0253, -0.0197], device='cuda:0'), grad: tensor([-0.0179, -0.0134, -0.0164, -0.0046, -0.0159, -0.0101, -0.0175,  0.0393,
+         0.0059,  0.0508], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 131----------------------------------------------------
+epoch 131, time 217.54, cls_loss 0.5743 cls_loss_mapping 0.0126 cls_loss_causal 0.5378 re_mapping 0.0098 re_causal 0.0272 /// teacc 98.89 lr 0.00010000
+Epoch 133, weight, value: tensor([[-0.0491, -0.0498, -0.1118,  ...,  0.1007, -0.0322,  0.0284],
+        [-0.0655,  0.0859, -0.0708,  ...,  0.0294, -0.0440, -0.0746],
+        [-0.0365,  0.0659, -0.0813,  ..., -0.0330,  0.0193,  0.0969],
+        ...,
+        [-0.0018,  0.0419, -0.0055,  ...,  0.0010,  0.0265, -0.0388],
+        [ 0.0672, -0.0730,  0.0228,  ..., -0.0033,  0.0057, -0.0428],
+        [-0.0181, -0.0624,  0.0638,  ..., -0.0396,  0.0175, -0.0134]],
+       device='cuda:0'), grad: tensor([[ 3.1853e-04,  5.3978e-04,  5.9032e-04,  ...,  4.4632e-03,
+          1.8539e-03,  2.6741e-03],
+        [ 2.1204e-05, -1.6537e-03,  1.7321e-04,  ..., -3.1891e-03,
+          4.5705e-04, -3.8300e-03],
+        [ 9.5189e-05,  4.1080e-04, -6.4516e-04,  ...,  1.0061e-03,
+         -8.9455e-04, -1.6880e-04],
+        ...,
+        [-1.1883e-03, -3.2368e-03, -3.2043e-03,  ..., -1.1345e-02,
+         -6.2103e-03, -6.5269e-03],
+        [ 7.8022e-05,  4.5824e-04,  2.5773e-04,  ...,  2.6493e-03,
+          8.3303e-04,  1.3962e-03],
+        [ 4.5753e-04,  9.3842e-04,  1.4744e-03,  ...,  3.8280e-03,
+          2.0294e-03,  1.6537e-03]], device='cuda:0')
+Epoch 133, bias, value: tensor([ 0.0175, -0.0195, -0.0094,  0.0081, -0.0229, -0.0107,  0.0172, -0.0015,
+         0.0248, -0.0193], device='cuda:0'), grad: tensor([ 0.0373, -0.0663,  0.0068, -0.0260, -0.0299,  0.0336,  0.0360, -0.0598,
+         0.0318,  0.0366], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 132, time 217.17, cls_loss 0.5675 cls_loss_mapping 0.0115 cls_loss_causal 0.5351 re_mapping 0.0099 re_causal 0.0261 /// teacc 98.63 lr 0.00010000
+Epoch 134, weight, value: tensor([[-0.0495, -0.0502, -0.1122,  ...,  0.1009, -0.0320,  0.0291],
+        [-0.0656,  0.0869, -0.0703,  ...,  0.0296, -0.0445, -0.0742],
+        [-0.0373,  0.0670, -0.0823,  ..., -0.0319,  0.0195,  0.0984],
+        ...,
+        [-0.0013,  0.0415, -0.0056,  ...,  0.0015,  0.0267, -0.0385],
+        [ 0.0678, -0.0734,  0.0254,  ..., -0.0040,  0.0070, -0.0435],
+        [-0.0182, -0.0625,  0.0630,  ..., -0.0405,  0.0170, -0.0140]],
+       device='cuda:0'), grad: tensor([[ 5.5981e-04,  1.1826e-03,  2.2316e-03,  ...,  3.0422e-03,
+          9.9792e-03,  8.3017e-04],
+        [ 1.8775e-04,  1.3476e-06,  8.8990e-05,  ...,  1.3475e-03,
+          4.8804e-04,  7.4148e-04],
+        [ 1.1034e-05,  8.2445e-04,  6.2823e-05,  ...,  1.8291e-03,
+          1.6232e-03,  8.3923e-04],
+        ...,
+        [-7.5006e-04, -5.6114e-03, -5.0163e-04,  ..., -5.7106e-03,
+         -1.6108e-03, -3.2558e-03],
+        [ 1.0324e-04,  7.6628e-04,  8.9407e-04,  ...,  1.6565e-03,
+          2.3746e-03,  7.7343e-04],
+        [ 4.6730e-04,  6.1131e-04,  1.1787e-03,  ...,  1.3227e-03,
+          2.8248e-03,  4.1771e-04]], device='cuda:0')
+Epoch 134, bias, value: tensor([ 0.0173, -0.0198, -0.0090,  0.0083, -0.0224, -0.0109,  0.0168, -0.0009,
+         0.0243, -0.0195], device='cuda:0'), grad: tensor([ 0.0356,  0.0085,  0.0242,  0.0322, -0.0216, -0.0288,  0.0171, -0.1027,
+         0.0212,  0.0144], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 133, time 216.46, cls_loss 0.5432 cls_loss_mapping 0.0146 cls_loss_causal 0.5058 re_mapping 0.0110 re_causal 0.0287 /// teacc 98.72 lr 0.00010000
+Epoch 135, weight, value: tensor([[-0.0486, -0.0502, -0.1135,  ...,  0.1008, -0.0332,  0.0285],
+        [-0.0655,  0.0867, -0.0698,  ...,  0.0293, -0.0448, -0.0742],
+        [-0.0389,  0.0672, -0.0827,  ..., -0.0315,  0.0185,  0.0986],
+        ...,
+        [-0.0014,  0.0417, -0.0066,  ...,  0.0026,  0.0263, -0.0389],
+        [ 0.0672, -0.0728,  0.0252,  ..., -0.0025,  0.0061, -0.0425],
+        [-0.0177, -0.0619,  0.0636,  ..., -0.0401,  0.0182, -0.0124]],
+       device='cuda:0'), grad: tensor([[ 6.1572e-05,  1.0324e-04,  2.9278e-04,  ..., -1.8227e-04,
+         -3.6430e-03, -1.0757e-03],
+        [-4.3660e-05, -3.4481e-05,  7.0667e-04,  ..., -4.2305e-03,
+          3.2902e-04,  4.2140e-05],
+        [-2.1572e-03,  7.7784e-05,  3.0589e-04,  ..., -4.1542e-03,
+         -7.2212e-03,  6.7854e-04],
+        ...,
+        [ 5.2691e-04,  1.1009e-04,  9.6273e-04,  ...,  2.1477e-03,
+          2.2545e-03,  1.1688e-04],
+        [ 9.1219e-04,  1.1426e-04, -5.3215e-04,  ...,  4.4632e-04,
+          3.3569e-03,  4.3213e-05],
+        [-4.6062e-04,  7.5281e-05, -1.3641e-02,  ...,  1.8463e-03,
+         -1.1387e-03,  2.8682e-04]], device='cuda:0')
+Epoch 135, bias, value: tensor([ 0.0170, -0.0201, -0.0088,  0.0078, -0.0235, -0.0117,  0.0177, -0.0006,
+         0.0246, -0.0181], device='cuda:0'), grad: tensor([-0.0491,  0.0017, -0.0079, -0.0061,  0.0436, -0.0112,  0.0247,  0.0223,
+        -0.0028, -0.0153], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 134, time 216.77, cls_loss 0.5426 cls_loss_mapping 0.0097 cls_loss_causal 0.5159 re_mapping 0.0100 re_causal 0.0258 /// teacc 98.81 lr 0.00010000
+Epoch 136, weight, value: tensor([[-0.0509, -0.0505, -0.1136,  ...,  0.0993, -0.0338,  0.0282],
+        [-0.0658,  0.0863, -0.0695,  ...,  0.0303, -0.0435, -0.0744],
+        [-0.0377,  0.0673, -0.0829,  ..., -0.0313,  0.0199,  0.0997],
+        ...,
+        [-0.0013,  0.0420, -0.0060,  ...,  0.0021,  0.0262, -0.0400],
+        [ 0.0691, -0.0719,  0.0253,  ..., -0.0014,  0.0069, -0.0419],
+        [-0.0177, -0.0620,  0.0635,  ..., -0.0409,  0.0178, -0.0130]],
+       device='cuda:0'), grad: tensor([[-5.0354e-03,  8.0049e-05,  1.8224e-05,  ..., -8.9874e-03,
+         -7.6561e-03,  7.8487e-04],
+        [ 1.5032e-04, -1.4200e-03, -1.1438e-04,  ...,  2.7027e-03,
+          1.2696e-04,  7.7677e-04],
+        [ 4.1223e-04,  3.9601e-04,  1.2052e-04,  ..., -9.0122e-04,
+          1.9491e-04, -4.5891e-03],
+        ...,
+        [ 1.4293e-04,  1.2994e-04,  1.3411e-04,  ..., -2.7955e-05,
+          2.8181e-04, -1.2046e-04],
+        [ 2.1000e-03,  8.2374e-05,  2.2817e-04,  ...,  6.0005e-03,
+          3.1929e-03,  1.8559e-03],
+        [ 3.0637e-04,  1.1045e-04, -7.5293e-04,  ..., -1.7233e-03,
+          2.1076e-04, -1.4753e-03]], device='cuda:0')
+Epoch 136, bias, value: tensor([ 0.0163, -0.0197, -0.0083,  0.0075, -0.0233, -0.0112,  0.0172, -0.0010,
+         0.0255, -0.0189], device='cuda:0'), grad: tensor([-0.0612,  0.0250,  0.0091,  0.0326, -0.0412,  0.0316,  0.0019,  0.0153,
+         0.0234, -0.0364], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 135, time 216.71, cls_loss 0.5682 cls_loss_mapping 0.0135 cls_loss_causal 0.5403 re_mapping 0.0098 re_causal 0.0252 /// teacc 98.66 lr 0.00010000
+Epoch 137, weight, value: tensor([[-0.0516, -0.0508, -0.1140,  ...,  0.1000, -0.0336,  0.0283],
+        [-0.0660,  0.0864, -0.0684,  ...,  0.0292, -0.0427, -0.0751],
+        [-0.0385,  0.0682, -0.0833,  ..., -0.0301,  0.0196,  0.1010],
+        ...,
+        [-0.0018,  0.0425, -0.0056,  ...,  0.0026,  0.0266, -0.0396],
+        [ 0.0709, -0.0717,  0.0251,  ..., -0.0011,  0.0062, -0.0426],
+        [-0.0177, -0.0622,  0.0633,  ..., -0.0408,  0.0180, -0.0144]],
+       device='cuda:0'), grad: tensor([[ 2.5272e-04,  2.4962e-04,  6.0654e-04,  ..., -6.9809e-04,
+          5.0068e-04,  5.5730e-05],
+        [-3.3226e-03, -8.5402e-04,  1.9586e-04,  ..., -8.0795e-03,
+          3.2234e-04,  8.6725e-05],
+        [ 3.1328e-04,  4.1466e-03,  2.3675e-04,  ...,  2.9984e-03,
+          6.8016e-03,  1.6289e-03],
+        ...,
+        [ 6.2418e-04, -7.1716e-03,  4.5061e-04,  ...,  9.2077e-04,
+         -9.4833e-03, -2.8076e-03],
+        [ 3.9959e-04,  7.5340e-04,  2.5654e-04,  ...,  2.8286e-03,
+          7.5579e-04,  1.3947e-04],
+        [-5.4407e-04,  6.9809e-04,  3.3188e-03,  ...,  5.1956e-03,
+         -1.2947e-02,  6.3479e-05]], device='cuda:0')
+Epoch 137, bias, value: tensor([ 0.0166, -0.0208, -0.0092,  0.0070, -0.0223, -0.0115,  0.0171,  0.0007,
+         0.0259, -0.0194], device='cuda:0'), grad: tensor([-0.0160, -0.0578,  0.0334,  0.0125, -0.0084, -0.0162,  0.0120, -0.0008,
+         0.0202,  0.0213], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 136, time 216.86, cls_loss 0.5549 cls_loss_mapping 0.0095 cls_loss_causal 0.5266 re_mapping 0.0097 re_causal 0.0259 /// teacc 98.76 lr 0.00010000
+Epoch 138, weight, value: tensor([[-0.0510, -0.0522, -0.1153,  ...,  0.1005, -0.0348,  0.0285],
+        [-0.0658,  0.0869, -0.0690,  ...,  0.0297, -0.0422, -0.0747],
+        [-0.0389,  0.0689, -0.0839,  ..., -0.0300,  0.0191,  0.1019],
+        ...,
+        [-0.0021,  0.0421, -0.0057,  ...,  0.0020,  0.0267, -0.0406],
+        [ 0.0709, -0.0720,  0.0262,  ..., -0.0008,  0.0062, -0.0432],
+        [-0.0184, -0.0619,  0.0634,  ..., -0.0418,  0.0184, -0.0141]],
+       device='cuda:0'), grad: tensor([[ 1.4150e-04,  3.1757e-04,  2.8777e-04,  ..., -2.8205e-04,
+          7.9393e-04,  3.9196e-04],
+        [ 1.8287e-04,  6.4278e-04,  2.4147e-03,  ...,  1.3514e-03,
+          4.1733e-03,  2.7299e-04],
+        [ 5.3864e-03,  2.4796e-05,  9.6178e-04,  ...,  1.8635e-03,
+          2.1057e-03,  3.9825e-03],
+        ...,
+        [-4.1747e-04, -2.0466e-03, -1.6809e-05,  ..., -3.5095e-03,
+         -3.0804e-04,  8.5115e-04],
+        [-6.6872e-03,  6.6280e-04,  8.3828e-04,  ...,  1.4467e-03,
+          2.0084e-03, -4.0016e-03],
+        [ 7.0632e-05,  8.8215e-04,  2.7065e-03,  ...,  1.4162e-03,
+          4.2114e-03,  6.3324e-04]], device='cuda:0')
+Epoch 138, bias, value: tensor([ 0.0174, -0.0203, -0.0095,  0.0075, -0.0218, -0.0123,  0.0176,  0.0004,
+         0.0252, -0.0200], device='cuda:0'), grad: tensor([-0.0197,  0.0208,  0.0407, -0.0425,  0.0163, -0.0326,  0.0104, -0.0139,
+        -0.0008,  0.0212], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 137, time 216.91, cls_loss 0.5790 cls_loss_mapping 0.0079 cls_loss_causal 0.5456 re_mapping 0.0098 re_causal 0.0275 /// teacc 98.52 lr 0.00010000
+Epoch 139, weight, value: tensor([[-0.0515, -0.0503, -0.1167,  ...,  0.1015, -0.0357,  0.0284],
+        [-0.0651,  0.0859, -0.0691,  ...,  0.0297, -0.0427, -0.0751],
+        [-0.0380,  0.0697, -0.0827,  ..., -0.0304,  0.0193,  0.1020],
+        ...,
+        [-0.0011,  0.0422, -0.0056,  ...,  0.0020,  0.0267, -0.0421],
+        [ 0.0707, -0.0726,  0.0260,  ..., -0.0009,  0.0063, -0.0433],
+        [-0.0183, -0.0611,  0.0641,  ..., -0.0423,  0.0187, -0.0127]],
+       device='cuda:0'), grad: tensor([[ 6.8140e-04,  2.7437e-06,  4.3654e-04,  ..., -1.7593e-02,
+         -4.7607e-03, -7.0038e-03],
+        [ 4.0793e-04,  1.0431e-05,  1.6773e-04,  ...,  1.4744e-03,
+          5.3316e-05,  5.2094e-05],
+        [ 5.8413e-04, -7.0333e-04,  3.0065e-04,  ..., -1.8330e-03,
+         -6.5231e-03, -3.5267e-03],
+        ...,
+        [ 1.0834e-03, -3.4499e-04,  2.1780e-04,  ...,  2.2049e-03,
+          1.9062e-04,  1.8919e-04],
+        [-4.3178e-04,  1.0800e-04,  6.9094e-04,  ..., -1.1244e-03,
+          1.4820e-03,  6.9904e-04],
+        [-1.3800e-03,  3.2187e-04, -1.7776e-03,  ..., -5.6152e-03,
+          3.2258e-04,  1.6093e-04]], device='cuda:0')
+Epoch 139, bias, value: tensor([ 0.0170, -0.0201, -0.0095,  0.0070, -0.0220, -0.0112,  0.0178,  0.0005,
+         0.0246, -0.0199], device='cuda:0'), grad: tensor([-0.0136,  0.0146,  0.0042,  0.0015, -0.0198, -0.0115,  0.0613,  0.0168,
+        -0.0108, -0.0426], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 138, time 216.87, cls_loss 0.5368 cls_loss_mapping 0.0140 cls_loss_causal 0.5152 re_mapping 0.0097 re_causal 0.0238 /// teacc 98.75 lr 0.00010000
+Epoch 140, weight, value: tensor([[-0.0519, -0.0511, -0.1166,  ...,  0.1018, -0.0358,  0.0285],
+        [-0.0632,  0.0858, -0.0695,  ...,  0.0304, -0.0420, -0.0750],
+        [-0.0391,  0.0707, -0.0826,  ..., -0.0287,  0.0197,  0.1036],
+        ...,
+        [-0.0006,  0.0421, -0.0056,  ...,  0.0015,  0.0263, -0.0435],
+        [ 0.0720, -0.0723,  0.0254,  ..., -0.0023,  0.0064, -0.0440],
+        [-0.0195, -0.0611,  0.0649,  ..., -0.0420,  0.0186, -0.0128]],
+       device='cuda:0'), grad: tensor([[-0.0005,  0.0032,  0.0003,  ..., -0.0034, -0.0002, -0.0005],
+        [-0.0005,  0.0028,  0.0008,  ..., -0.0002,  0.0017, -0.0012],
+        [ 0.0006, -0.0120, -0.0074,  ..., -0.0097, -0.0154,  0.0003],
+        ...,
+        [-0.0006, -0.0017,  0.0007,  ..., -0.0035,  0.0078, -0.0008],
+        [-0.0002,  0.0016,  0.0009,  ...,  0.0002, -0.0032,  0.0003],
+        [ 0.0008,  0.0014,  0.0048,  ...,  0.0049,  0.0049,  0.0004]],
+       device='cuda:0')
+Epoch 140, bias, value: tensor([ 0.0165, -0.0189, -0.0085,  0.0070, -0.0221, -0.0111,  0.0174,  0.0006,
+         0.0234, -0.0199], device='cuda:0'), grad: tensor([-0.0089,  0.0038, -0.0371,  0.0124, -0.0146,  0.0115,  0.0240, -0.0135,
+        -0.0082,  0.0304], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 139, time 216.97, cls_loss 0.5596 cls_loss_mapping 0.0127 cls_loss_causal 0.5284 re_mapping 0.0100 re_causal 0.0244 /// teacc 98.41 lr 0.00010000
+Epoch 141, weight, value: tensor([[-5.0124e-02, -5.2366e-02, -1.1733e-01,  ...,  1.0212e-01,
+         -3.5703e-02,  2.9217e-02],
+        [-6.4241e-02,  8.5370e-02, -6.8588e-02,  ...,  3.1041e-02,
+         -4.2077e-02, -7.4141e-02],
+        [-3.9204e-02,  7.1405e-02, -8.3197e-02,  ..., -2.8895e-02,
+          2.0302e-02,  1.0395e-01],
+        ...,
+        [ 8.2416e-05,  4.0851e-02, -4.6927e-03,  ..., -6.8448e-04,
+          2.7246e-02, -4.4662e-02],
+        [ 7.1700e-02, -7.1818e-02,  2.5355e-02,  ..., -1.4577e-03,
+          6.9669e-03, -4.3133e-02],
+        [-2.0408e-02, -5.9976e-02,  6.4477e-02,  ..., -4.1359e-02,
+          1.7415e-02, -1.2823e-02]], device='cuda:0'), grad: tensor([[ 1.4435e-08,  2.2948e-04,  1.1301e-04,  ...,  1.6375e-03,
+          9.3317e-04,  4.6682e-04],
+        [ 9.4064e-08,  6.2037e-04,  1.4710e-04,  ...,  4.6206e-04,
+          4.5872e-04,  4.9114e-04],
+        [ 4.7917e-07, -4.1580e-03, -3.7117e-03,  ..., -3.4485e-03,
+         -5.7831e-03, -9.5062e-03],
+        ...,
+        [ 1.0049e-06, -5.9986e-04,  4.4370e-04,  ...,  4.6659e-04,
+          5.1212e-04,  3.3998e-04],
+        [ 6.9737e-06,  1.0653e-03,  2.8210e-03,  ..., -4.9734e-04,
+          4.2605e-04,  4.4518e-03],
+        [-3.8408e-06,  2.3782e-04, -3.8338e-04,  ...,  4.7565e-04,
+          5.0640e-04,  3.6836e-04]], device='cuda:0')
+Epoch 141, bias, value: tensor([ 0.0158, -0.0190, -0.0084,  0.0062, -0.0216, -0.0112,  0.0175,  0.0006,
+         0.0239, -0.0195], device='cuda:0'), grad: tensor([ 0.0104,  0.0118, -0.0901,  0.0159,  0.0130,  0.0089,  0.0078,  0.0099,
+         0.0027,  0.0097], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 140, time 216.73, cls_loss 0.5728 cls_loss_mapping 0.0129 cls_loss_causal 0.5445 re_mapping 0.0096 re_causal 0.0245 /// teacc 98.39 lr 0.00010000
+Epoch 142, weight, value: tensor([[-4.9237e-02, -5.2068e-02, -1.1817e-01,  ...,  1.0160e-01,
+         -3.5626e-02,  2.9327e-02],
+        [-6.4913e-02,  8.6561e-02, -6.8291e-02,  ...,  3.2080e-02,
+         -4.2003e-02, -7.4834e-02],
+        [-3.9327e-02,  7.1725e-02, -8.3956e-02,  ..., -2.9644e-02,
+          2.0731e-02,  1.0467e-01],
+        ...,
+        [-8.2696e-04,  4.0072e-02, -5.1943e-03,  ..., -5.8640e-05,
+          2.7537e-02, -4.5068e-02],
+        [ 7.2333e-02, -7.3187e-02,  2.5453e-02,  ..., -3.1826e-03,
+          7.3961e-03, -4.3881e-02],
+        [-1.9853e-02, -6.1034e-02,  6.5409e-02,  ..., -4.2222e-02,
+          1.7850e-02, -1.3263e-02]], device='cuda:0'), grad: tensor([[ 1.4067e-04,  5.9271e-04, -9.9421e-05,  ..., -1.1597e-03,
+         -1.0033e-03, -2.1591e-03],
+        [ 8.0585e-04, -2.7809e-03, -4.2648e-03,  ..., -7.0801e-03,
+         -3.9444e-03,  1.4055e-04],
+        [ 7.9269e-03,  1.2871e-02,  6.8998e-04,  ...,  1.5182e-03,
+          8.2779e-04,  1.2529e-04],
+        ...,
+        [-1.0941e-02, -1.5640e-02,  9.3222e-04,  ...,  1.5068e-03,
+          6.8855e-04,  1.0735e-04],
+        [ 3.2163e-04,  1.1177e-03,  1.2541e-03,  ...,  2.2755e-03,
+          1.3056e-03,  8.7214e-04],
+        [ 6.9094e-04,  2.3689e-03,  8.0442e-04,  ...,  2.9984e-03,
+         -1.7948e-03,  2.9707e-04]], device='cuda:0')
+Epoch 142, bias, value: tensor([ 0.0152, -0.0185, -0.0091,  0.0079, -0.0226, -0.0111,  0.0174,  0.0007,
+         0.0240, -0.0198], device='cuda:0'), grad: tensor([-0.0120, -0.0454,  0.0381,  0.0261,  0.0076, -0.0155,  0.0201, -0.0464,
+         0.0216,  0.0058], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 141, time 218.25, cls_loss 0.5784 cls_loss_mapping 0.0117 cls_loss_causal 0.5487 re_mapping 0.0100 re_causal 0.0251 /// teacc 98.51 lr 0.00010000
+Epoch 143, weight, value: tensor([[-0.0462, -0.0518, -0.1190,  ...,  0.1013, -0.0357,  0.0307],
+        [-0.0645,  0.0864, -0.0685,  ...,  0.0320, -0.0428, -0.0756],
+        [-0.0398,  0.0719, -0.0847,  ..., -0.0291,  0.0206,  0.1040],
+        ...,
+        [-0.0003,  0.0403, -0.0048,  ...,  0.0009,  0.0281, -0.0452],
+        [ 0.0717, -0.0728,  0.0254,  ..., -0.0031,  0.0075, -0.0429],
+        [-0.0207, -0.0622,  0.0655,  ..., -0.0436,  0.0182, -0.0130]],
+       device='cuda:0'), grad: tensor([[ 2.8172e-03,  9.7811e-05,  3.4237e-04,  ..., -1.9245e-03,
+          7.9274e-05,  1.1358e-03],
+        [ 3.5346e-05,  3.1233e-05,  4.9639e-04,  ...,  5.0879e-04,
+          5.9652e-04,  5.5599e-04],
+        [-4.4861e-03, -6.2513e-04,  6.1750e-04,  ...,  9.5844e-04,
+         -1.8768e-03, -3.5858e-03],
+        ...,
+        [ 9.0003e-06,  2.7701e-05,  5.0354e-04,  ...,  3.3236e-04,
+          4.6206e-04,  2.7084e-04],
+        [ 1.2982e-04, -1.9419e-04, -3.3054e-03,  ..., -3.5858e-03,
+         -2.9526e-03, -2.7428e-03],
+        [ 2.9221e-05,  1.1796e-04,  1.2932e-03,  ...,  9.0981e-04,
+          1.2693e-03,  8.3590e-04]], device='cuda:0')
+Epoch 143, bias, value: tensor([ 0.0147, -0.0184, -0.0093,  0.0070, -0.0228, -0.0111,  0.0188,  0.0011,
+         0.0238, -0.0196], device='cuda:0'), grad: tensor([ 0.0091,  0.0083, -0.0069,  0.0096, -0.0024,  0.0108,  0.0105,  0.0057,
+        -0.0542,  0.0095], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 142, time 218.31, cls_loss 0.5442 cls_loss_mapping 0.0106 cls_loss_causal 0.5176 re_mapping 0.0095 re_causal 0.0243 /// teacc 98.68 lr 0.00010000
+Epoch 144, weight, value: tensor([[-0.0470, -0.0507, -0.1194,  ...,  0.1015, -0.0365,  0.0308],
+        [-0.0640,  0.0865, -0.0688,  ...,  0.0323, -0.0438, -0.0760],
+        [-0.0392,  0.0721, -0.0861,  ..., -0.0287,  0.0207,  0.1044],
+        ...,
+        [-0.0015,  0.0403, -0.0050,  ...,  0.0007,  0.0280, -0.0445],
+        [ 0.0711, -0.0734,  0.0257,  ..., -0.0032,  0.0073, -0.0439],
+        [-0.0206, -0.0629,  0.0647,  ..., -0.0436,  0.0177, -0.0126]],
+       device='cuda:0'), grad: tensor([[ 1.9443e-04,  9.8038e-04,  3.0446e-04,  ...,  1.8225e-03,
+         -2.0719e-04, -4.9210e-04],
+        [ 4.1544e-05,  9.3918e-03,  1.2846e-03,  ...,  1.4175e-02,
+          7.8058e-04, -2.5845e-04],
+        [ 8.7738e-05, -1.0967e-03, -5.1270e-03,  ..., -3.7441e-03,
+         -3.0842e-03, -1.6146e-03],
+        ...,
+        [ 1.1616e-03,  3.8242e-04,  5.5351e-03,  ...,  2.4834e-03,
+          4.3335e-03,  4.6206e-04],
+        [-2.6207e-03, -1.0780e-02,  1.5364e-03,  ..., -1.7883e-02,
+          3.5834e-04, -1.7862e-03],
+        [-1.4448e-03, -4.0817e-04, -6.9160e-03,  ..., -1.5392e-03,
+         -4.3411e-03,  4.5156e-04]], device='cuda:0')
+Epoch 144, bias, value: tensor([ 0.0149, -0.0190, -0.0096,  0.0071, -0.0227, -0.0113,  0.0180,  0.0010,
+         0.0247, -0.0191], device='cuda:0'), grad: tensor([-0.0139, -0.0139, -0.0466,  0.0317,  0.0261,  0.0184,  0.0056,  0.0360,
+        -0.0228, -0.0206], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 143, time 218.92, cls_loss 0.5555 cls_loss_mapping 0.0137 cls_loss_causal 0.5261 re_mapping 0.0097 re_causal 0.0254 /// teacc 98.54 lr 0.00010000
+Epoch 145, weight, value: tensor([[-0.0468, -0.0509, -0.1205,  ...,  0.1025, -0.0368,  0.0322],
+        [-0.0642,  0.0864, -0.0689,  ...,  0.0318, -0.0440, -0.0768],
+        [-0.0405,  0.0715, -0.0849,  ..., -0.0286,  0.0225,  0.1053],
+        ...,
+        [-0.0015,  0.0419, -0.0044,  ..., -0.0003,  0.0277, -0.0440],
+        [ 0.0715, -0.0742,  0.0254,  ..., -0.0020,  0.0075, -0.0459],
+        [-0.0206, -0.0629,  0.0649,  ..., -0.0440,  0.0174, -0.0138]],
+       device='cuda:0'), grad: tensor([[ 1.7440e-04,  2.4891e-04,  6.8665e-05,  ...,  3.2253e-03,
+          7.3147e-04,  1.1387e-03],
+        [ 1.3530e-04, -9.7427e-03, -2.4796e-03,  ..., -6.5918e-03,
+         -1.7071e-03,  4.3440e-04],
+        [ 2.9144e-03,  1.9083e-03,  1.4853e-04,  ...,  8.0261e-03,
+          1.8501e-03,  5.8403e-03],
+        ...,
+        [ 3.1257e-04,  1.0857e-02,  2.9964e-03,  ...,  1.4820e-03,
+          3.3998e-04,  1.0328e-03],
+        [-3.4866e-03, -5.4207e-03, -1.0920e-04,  ...,  1.9207e-03,
+          8.4591e-04, -6.0501e-03],
+        [ 8.8871e-05,  3.2520e-04,  1.7481e-03,  ...,  9.1553e-04,
+          1.5802e-03,  2.9135e-04]], device='cuda:0')
+Epoch 145, bias, value: tensor([ 0.0160, -0.0190, -0.0098,  0.0068, -0.0223, -0.0111,  0.0176,  0.0007,
+         0.0249, -0.0195], device='cuda:0'), grad: tensor([ 0.0174, -0.0490,  0.0326, -0.0264, -0.0226,  0.0273, -0.0142,  0.0515,
+        -0.0358,  0.0192], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 144, time 219.56, cls_loss 0.5563 cls_loss_mapping 0.0121 cls_loss_causal 0.5208 re_mapping 0.0099 re_causal 0.0252 /// teacc 98.73 lr 0.00010000
+Epoch 146, weight, value: tensor([[-0.0474, -0.0520, -0.1209,  ...,  0.1014, -0.0367,  0.0319],
+        [-0.0642,  0.0869, -0.0679,  ...,  0.0322, -0.0442, -0.0772],
+        [-0.0413,  0.0721, -0.0852,  ..., -0.0279,  0.0227,  0.1054],
+        ...,
+        [-0.0015,  0.0414, -0.0039,  ..., -0.0016,  0.0282, -0.0466],
+        [ 0.0715, -0.0748,  0.0269,  ..., -0.0021,  0.0072, -0.0473],
+        [-0.0203, -0.0619,  0.0645,  ..., -0.0441,  0.0175, -0.0116]],
+       device='cuda:0'), grad: tensor([[ 1.4029e-03,  5.1051e-05,  2.6131e-04,  ...,  6.3324e-03,
+          8.9874e-03,  1.1368e-02],
+        [-3.5048e-05,  2.3872e-05,  7.0953e-04,  ...,  5.0497e-04,
+          8.7023e-04, -5.2643e-04],
+        [ 6.8247e-05,  7.5340e-05, -1.3268e-02,  ..., -4.9782e-03,
+         -1.3451e-02,  2.4533e-04],
+        ...,
+        [ 3.4189e-04,  8.0395e-04,  1.1810e-02,  ...,  9.9468e-04,
+          1.2085e-02, -3.8624e-05],
+        [-1.2121e-03, -1.5650e-03, -3.0746e-03,  ..., -8.5526e-03,
+         -1.1971e-02, -1.2085e-02],
+        [ 1.3709e-04,  2.1279e-04,  2.4815e-03,  ...,  2.5043e-03,
+          2.8534e-03,  3.6263e-04]], device='cuda:0')
+Epoch 146, bias, value: tensor([ 0.0159, -0.0185, -0.0089,  0.0073, -0.0223, -0.0118,  0.0173, -0.0011,
+         0.0252, -0.0190], device='cuda:0'), grad: tensor([ 0.0478, -0.0132, -0.0127,  0.0267,  0.0135, -0.0072,  0.0047,  0.0190,
+        -0.1017,  0.0231], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 145, time 218.44, cls_loss 0.5518 cls_loss_mapping 0.0107 cls_loss_causal 0.5203 re_mapping 0.0096 re_causal 0.0251 /// teacc 98.77 lr 0.00010000
+Epoch 147, weight, value: tensor([[-0.0472, -0.0529, -0.1206,  ...,  0.1009, -0.0367,  0.0314],
+        [-0.0642,  0.0865, -0.0685,  ...,  0.0323, -0.0450, -0.0775],
+        [-0.0413,  0.0728, -0.0830,  ..., -0.0275,  0.0248,  0.1061],
+        ...,
+        [-0.0027,  0.0416, -0.0049,  ..., -0.0026,  0.0276, -0.0467],
+        [ 0.0735, -0.0736,  0.0254,  ..., -0.0021,  0.0060, -0.0468],
+        [-0.0208, -0.0632,  0.0653,  ..., -0.0442,  0.0180, -0.0127]],
+       device='cuda:0'), grad: tensor([[ 1.5903e-04,  1.5748e-04,  9.7334e-05,  ...,  9.9945e-04,
+          4.1515e-05,  1.4901e-04],
+        [-1.5392e-03, -1.6384e-03,  1.2267e-04,  ..., -8.7585e-03,
+          4.4137e-05, -5.9986e-04],
+        [ 1.7059e-04,  4.0936e-04,  3.7551e-04,  ...,  1.1253e-03,
+          2.8920e-04,  2.7156e-04],
+        ...,
+        [ 2.4438e-04, -2.0218e-04,  6.3467e-04,  ..., -6.1572e-05,
+          3.5167e-04, -1.4436e-04],
+        [ 7.1704e-05,  3.3092e-04,  6.5708e-04,  ..., -1.3009e-05,
+          4.6206e-04,  1.1057e-04],
+        [-4.7040e-04, -5.7602e-04, -2.4815e-03,  ...,  4.0221e-04,
+         -1.9007e-03,  9.8050e-05]], device='cuda:0')
+Epoch 147, bias, value: tensor([ 0.0168, -0.0187, -0.0088,  0.0059, -0.0227, -0.0117,  0.0185, -0.0010,
+         0.0246, -0.0187], device='cuda:0'), grad: tensor([ 0.0072, -0.0504,  0.0077,  0.0045, -0.0020,  0.0070,  0.0205,  0.0054,
+         0.0050, -0.0049], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 146, time 219.65, cls_loss 0.5545 cls_loss_mapping 0.0156 cls_loss_causal 0.5203 re_mapping 0.0090 re_causal 0.0234 /// teacc 98.55 lr 0.00010000
+Epoch 148, weight, value: tensor([[-0.0478, -0.0543, -0.1211,  ...,  0.1003, -0.0384,  0.0307],
+        [-0.0651,  0.0876, -0.0667,  ...,  0.0332, -0.0439, -0.0774],
+        [-0.0427,  0.0725, -0.0839,  ..., -0.0279,  0.0245,  0.1066],
+        ...,
+        [-0.0012,  0.0411, -0.0053,  ..., -0.0021,  0.0270, -0.0471],
+        [ 0.0745, -0.0734,  0.0245,  ..., -0.0018,  0.0061, -0.0451],
+        [-0.0215, -0.0626,  0.0657,  ..., -0.0453,  0.0184, -0.0124]],
+       device='cuda:0'), grad: tensor([[ 1.5008e-04,  7.8738e-05,  1.1854e-03,  ...,  1.2503e-03,
+          1.4267e-03,  5.1641e-04],
+        [ 8.1348e-04,  8.7833e-04,  9.3460e-04,  ...,  1.3056e-03,
+          7.8392e-04,  1.1740e-03],
+        [ 3.3259e-04, -8.0338e-03, -7.7782e-03,  ..., -4.1389e-03,
+         -5.0888e-03,  6.6223e-03],
+        ...,
+        [ 1.0519e-03,  5.1117e-03,  9.0256e-03,  ...,  7.0953e-03,
+          8.9417e-03,  2.0351e-03],
+        [ 6.6185e-04,  9.9182e-05,  1.3342e-03,  ...,  1.2522e-03,
+          1.4229e-03, -9.1858e-03],
+        [-9.4528e-03,  3.1543e-04, -7.0381e-03,  ..., -9.7084e-04,
+         -4.2419e-03, -3.4404e-04]], device='cuda:0')
+Epoch 148, bias, value: tensor([ 0.0157, -0.0187, -0.0084,  0.0046, -0.0223, -0.0119,  0.0185, -0.0002,
+         0.0255, -0.0188], device='cuda:0'), grad: tensor([ 0.0119,  0.0263, -0.0014, -0.0081, -0.0359,  0.0049,  0.0152,  0.0595,
+        -0.0339, -0.0386], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 147, time 218.75, cls_loss 0.5467 cls_loss_mapping 0.0136 cls_loss_causal 0.5301 re_mapping 0.0096 re_causal 0.0252 /// teacc 98.73 lr 0.00010000
+Epoch 149, weight, value: tensor([[-0.0494, -0.0540, -0.1222,  ...,  0.1015, -0.0388,  0.0311],
+        [-0.0632,  0.0873, -0.0663,  ...,  0.0325, -0.0456, -0.0782],
+        [-0.0429,  0.0739, -0.0855,  ..., -0.0278,  0.0242,  0.1061],
+        ...,
+        [-0.0012,  0.0411, -0.0040,  ..., -0.0028,  0.0275, -0.0485],
+        [ 0.0745, -0.0744,  0.0258,  ..., -0.0023,  0.0069, -0.0446],
+        [-0.0214, -0.0627,  0.0650,  ..., -0.0440,  0.0183, -0.0109]],
+       device='cuda:0'), grad: tensor([[ 1.2481e-04,  6.1631e-05, -4.6194e-05,  ...,  7.5340e-04,
+         -3.2449e-04, -4.5204e-04],
+        [ 6.4659e-04,  1.3644e-07,  1.6749e-04,  ...,  1.6069e-03,
+          1.2302e-04,  1.9908e-05],
+        [ 1.0920e-03,  6.2704e-05,  5.2547e-04,  ..., -1.7509e-03,
+          2.4915e-04, -1.3435e-04],
+        ...,
+        [ 4.9162e-04, -5.8937e-04,  1.0366e-03,  ...,  1.2293e-03,
+          5.5265e-04,  8.5890e-05],
+        [-3.7537e-03,  6.6221e-05,  1.2147e-04,  ..., -4.8828e-03,
+          7.0751e-05, -3.7163e-05],
+        [ 9.6977e-05,  1.1224e-04,  7.7629e-04,  ..., -4.4131e-04,
+         -6.9571e-04,  1.4532e-04]], device='cuda:0')
+Epoch 149, bias, value: tensor([ 0.0166, -0.0189, -0.0088,  0.0046, -0.0225, -0.0116,  0.0181, -0.0005,
+         0.0254, -0.0184], device='cuda:0'), grad: tensor([ 0.0129,  0.0205, -0.0145,  0.0104,  0.0042,  0.0270, -0.0137,  0.0160,
+        -0.0475, -0.0153], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 148, time 219.44, cls_loss 0.5687 cls_loss_mapping 0.0111 cls_loss_causal 0.5418 re_mapping 0.0095 re_causal 0.0246 /// teacc 98.73 lr 0.00010000
+Epoch 150, weight, value: tensor([[-5.0625e-02, -5.5483e-02, -1.2251e-01,  ...,  1.0156e-01,
+         -3.9017e-02,  3.0644e-02],
+        [-6.4196e-02,  8.8790e-02, -6.6445e-02,  ...,  3.2618e-02,
+         -4.5692e-02, -7.6992e-02],
+        [-4.2810e-02,  7.2717e-02, -8.5510e-02,  ..., -2.8157e-02,
+          2.4343e-02,  1.0534e-01],
+        ...,
+        [ 1.0993e-04,  4.1688e-02, -4.2009e-03,  ..., -1.8091e-03,
+          2.7494e-02, -4.7318e-02],
+        [ 7.4449e-02, -7.4823e-02,  2.5418e-02,  ..., -2.3711e-03,
+          6.9287e-03, -4.3682e-02],
+        [-2.0378e-02, -6.4456e-02,  6.5157e-02,  ..., -4.4950e-02,
+          1.8414e-02, -1.1384e-02]], device='cuda:0'), grad: tensor([[ 6.0052e-06,  3.2020e-04,  7.2575e-04,  ...,  9.4128e-04,
+          5.3358e-04,  7.7248e-04],
+        [-5.4240e-05,  6.0290e-05,  5.7697e-04,  ...,  5.0592e-04,
+          3.5691e-04,  5.5218e-04],
+        [ 7.6741e-06, -1.0562e-04,  8.5402e-04,  ...,  8.4019e-04,
+          5.9080e-04,  6.4659e-04],
+        ...,
+        [ 5.1588e-05, -1.3769e-04, -2.2106e-03,  ..., -3.3131e-03,
+         -2.7866e-03, -2.0561e-03],
+        [ 2.9013e-05,  4.5872e-04,  1.7405e-03,  ...,  1.3227e-03,
+          1.0061e-03,  1.6241e-03],
+        [ 1.4229e-03,  1.3649e-04,  3.0670e-03,  ...,  1.0719e-03,
+          1.7023e-03,  1.0366e-03]], device='cuda:0')
+Epoch 150, bias, value: tensor([ 0.0166, -0.0198, -0.0094,  0.0045, -0.0223, -0.0122,  0.0194,  0.0005,
+         0.0261, -0.0193], device='cuda:0'), grad: tensor([ 0.0074,  0.0049,  0.0058, -0.0274,  0.0050,  0.0033, -0.0190, -0.0081,
+         0.0162,  0.0120], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 149, time 217.70, cls_loss 0.5127 cls_loss_mapping 0.0100 cls_loss_causal 0.4838 re_mapping 0.0098 re_causal 0.0253 /// teacc 98.88 lr 0.00010000
+Epoch 151, weight, value: tensor([[-0.0508, -0.0542, -0.1226,  ...,  0.1017, -0.0396,  0.0310],
+        [-0.0640,  0.0882, -0.0655,  ...,  0.0325, -0.0447, -0.0773],
+        [-0.0429,  0.0733, -0.0859,  ..., -0.0283,  0.0246,  0.1062],
+        ...,
+        [ 0.0006,  0.0414, -0.0040,  ..., -0.0010,  0.0278, -0.0473],
+        [ 0.0743, -0.0756,  0.0239,  ..., -0.0029,  0.0060, -0.0435],
+        [-0.0205, -0.0641,  0.0656,  ..., -0.0463,  0.0190, -0.0127]],
+       device='cuda:0'), grad: tensor([[-2.9755e-04,  6.7568e-04,  2.6837e-05,  ...,  1.3456e-03,
+          2.5868e-05, -1.7452e-03],
+        [-1.7281e-03,  4.3564e-03,  3.7849e-05,  ...,  5.3596e-03,
+          3.3587e-05,  3.7432e-04],
+        [ 2.7013e-04,  1.2493e-03,  4.0936e-04,  ...,  1.4610e-03,
+          1.6394e-03,  8.7118e-04],
+        ...,
+        [ 1.0347e-03,  1.7345e-04,  2.0199e-03,  ...,  4.9067e-04,
+          2.7981e-03,  1.9521e-06],
+        [ 1.9760e-03,  6.2561e-03,  3.9062e-03,  ...,  6.0730e-03,
+          3.8414e-03,  2.2185e-04],
+        [ 8.7309e-04,  1.5211e-04,  1.3332e-03,  ..., -9.2864e-05,
+          5.9166e-03,  9.4295e-05]], device='cuda:0')
+Epoch 151, bias, value: tensor([ 0.0169, -0.0199, -0.0090,  0.0057, -0.0218, -0.0122,  0.0194,  0.0003,
+         0.0249, -0.0200], device='cuda:0'), grad: tensor([-0.0021,  0.0118, -0.0135, -0.0428,  0.0125,  0.0103, -0.0464,  0.0187,
+         0.0440,  0.0074], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 150, time 218.84, cls_loss 0.5391 cls_loss_mapping 0.0120 cls_loss_causal 0.5069 re_mapping 0.0094 re_causal 0.0230 /// teacc 98.74 lr 0.00010000
+Epoch 152, weight, value: tensor([[-0.0518, -0.0542, -0.1224,  ...,  0.1032, -0.0393,  0.0307],
+        [-0.0634,  0.0885, -0.0659,  ...,  0.0307, -0.0456, -0.0767],
+        [-0.0429,  0.0735, -0.0865,  ..., -0.0272,  0.0251,  0.1061],
+        ...,
+        [ 0.0022,  0.0417, -0.0024,  ..., -0.0013,  0.0282, -0.0483],
+        [ 0.0740, -0.0754,  0.0236,  ..., -0.0024,  0.0054, -0.0426],
+        [-0.0210, -0.0649,  0.0659,  ..., -0.0474,  0.0197, -0.0131]],
+       device='cuda:0'), grad: tensor([[-7.0305e-03, -9.7847e-04, -1.4391e-03,  ..., -9.0332e-03,
+         -3.9978e-03, -3.1776e-03],
+        [ 9.0525e-06,  1.6642e-04,  9.5177e-04,  ...,  1.6727e-03,
+          2.4748e-04,  2.3270e-04],
+        [ 1.5986e-04,  7.5996e-05,  6.9571e-04,  ...,  1.1234e-03,
+          4.0817e-04,  2.6369e-04],
+        ...,
+        [ 1.1563e-04,  2.2733e-04, -1.2970e-03,  ..., -9.5987e-04,
+         -1.8978e-03, -8.3923e-05],
+        [ 1.6689e-03,  1.2267e-04,  1.0347e-03,  ...,  2.5864e-03,
+          1.3256e-03,  9.4795e-04],
+        [-3.4118e-04,  9.9540e-05, -2.9869e-03,  ..., -3.7079e-03,
+         -3.1710e-04, -1.4496e-03]], device='cuda:0')
+Epoch 152, bias, value: tensor([ 0.0171, -0.0200, -0.0091,  0.0056, -0.0202, -0.0124,  0.0191,  0.0003,
+         0.0247, -0.0210], device='cuda:0'), grad: tensor([-0.0713,  0.0279, -0.0105, -0.0140,  0.0186,  0.0159,  0.0364,  0.0174,
+        -0.0057, -0.0147], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 151, time 218.08, cls_loss 0.5130 cls_loss_mapping 0.0128 cls_loss_causal 0.4865 re_mapping 0.0100 re_causal 0.0250 /// teacc 98.41 lr 0.00010000
+Epoch 153, weight, value: tensor([[-0.0515, -0.0537, -0.1216,  ...,  0.1033, -0.0388,  0.0311],
+        [-0.0639,  0.0883, -0.0655,  ...,  0.0319, -0.0457, -0.0768],
+        [-0.0423,  0.0734, -0.0866,  ..., -0.0280,  0.0250,  0.1055],
+        ...,
+        [ 0.0018,  0.0416, -0.0029,  ..., -0.0021,  0.0282, -0.0486],
+        [ 0.0746, -0.0749,  0.0250,  ..., -0.0013,  0.0058, -0.0429],
+        [-0.0222, -0.0631,  0.0662,  ..., -0.0476,  0.0195, -0.0124]],
+       device='cuda:0'), grad: tensor([[ 2.9374e-06,  2.5660e-05,  4.2295e-04,  ..., -1.8854e-03,
+          1.9777e-04, -2.2650e-05],
+        [ 7.8559e-05,  7.8354e-03,  8.4734e-04,  ...,  1.2913e-03,
+          1.4269e-04,  2.8402e-05],
+        [ 2.3618e-06,  1.0881e-03,  5.0163e-04,  ..., -1.5526e-03,
+          5.2261e-04,  1.2755e-05],
+        ...,
+        [-7.2317e-07, -1.8635e-03,  1.1003e-04,  ...,  5.1451e-04,
+         -6.7282e-04,  2.9191e-05],
+        [ 6.5506e-05,  9.1434e-05, -6.4201e-03,  ..., -7.4310e-03,
+         -2.6016e-03, -6.6662e-04],
+        [ 1.3605e-05, -7.5340e-03,  1.0824e-03,  ...,  1.4887e-03,
+         -1.7405e-04,  1.1641e-04]], device='cuda:0')
+Epoch 153, bias, value: tensor([ 0.0179, -0.0198, -0.0090,  0.0054, -0.0198, -0.0122,  0.0192, -0.0016,
+         0.0244, -0.0201], device='cuda:0'), grad: tensor([ 0.0050,  0.0399, -0.0239,  0.0054,  0.0017,  0.0252, -0.0159,  0.0017,
+        -0.0161, -0.0229], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 152, time 220.34, cls_loss 0.5446 cls_loss_mapping 0.0121 cls_loss_causal 0.5082 re_mapping 0.0092 re_causal 0.0226 /// teacc 98.84 lr 0.00010000
+Epoch 154, weight, value: tensor([[-5.2125e-02, -5.4604e-02, -1.2012e-01,  ...,  1.0172e-01,
+         -3.8075e-02,  3.1402e-02],
+        [-6.4949e-02,  8.7685e-02, -6.4411e-02,  ...,  3.2875e-02,
+         -4.4460e-02, -7.6388e-02],
+        [-4.1604e-02,  7.3022e-02, -8.7335e-02,  ..., -2.8257e-02,
+          2.4752e-02,  1.0659e-01],
+        ...,
+        [ 1.2217e-03,  4.2745e-02, -3.7406e-03,  ..., -2.3695e-03,
+          2.7150e-02, -4.8546e-02],
+        [ 7.4566e-02, -7.5035e-02,  2.5123e-02,  ..., -2.1353e-05,
+          6.3070e-03, -4.3858e-02],
+        [-2.2788e-02, -6.1422e-02,  6.5785e-02,  ..., -4.7795e-02,
+          1.9485e-02, -1.2961e-02]], device='cuda:0'), grad: tensor([[ 0.0001,  0.0012,  0.0007,  ...,  0.0047,  0.0023,  0.0014],
+        [ 0.0011, -0.0030,  0.0012,  ..., -0.0099, -0.0072, -0.0045],
+        [ 0.0002,  0.0017,  0.0007,  ...,  0.0068,  0.0037,  0.0003],
+        ...,
+        [ 0.0016,  0.0012,  0.0022,  ...,  0.0038,  0.0011,  0.0004],
+        [-0.0124, -0.0006, -0.0453,  ..., -0.0068, -0.0173, -0.0015],
+        [ 0.0039,  0.0005,  0.0131,  ...,  0.0023,  0.0045,  0.0003]],
+       device='cuda:0')
+Epoch 154, bias, value: tensor([ 0.0173, -0.0195, -0.0087,  0.0053, -0.0194, -0.0130,  0.0184, -0.0016,
+         0.0253, -0.0198], device='cuda:0'), grad: tensor([ 0.0334, -0.0038,  0.0321,  0.0348,  0.0340,  0.0300, -0.0674, -0.0565,
+        -0.0775,  0.0408], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 153, time 217.99, cls_loss 0.5606 cls_loss_mapping 0.0081 cls_loss_causal 0.5307 re_mapping 0.0092 re_causal 0.0241 /// teacc 98.69 lr 0.00010000
+Epoch 155, weight, value: tensor([[-0.0497, -0.0547, -0.1203,  ...,  0.1027, -0.0375,  0.0318],
+        [-0.0646,  0.0878, -0.0651,  ...,  0.0335, -0.0443, -0.0768],
+        [-0.0427,  0.0722, -0.0873,  ..., -0.0277,  0.0247,  0.1053],
+        ...,
+        [ 0.0010,  0.0436, -0.0039,  ..., -0.0021,  0.0267, -0.0472],
+        [ 0.0748, -0.0753,  0.0256,  ..., -0.0011,  0.0061, -0.0443],
+        [-0.0217, -0.0618,  0.0659,  ..., -0.0482,  0.0189, -0.0143]],
+       device='cuda:0'), grad: tensor([[-1.9445e-03,  9.3508e-04, -1.3344e-02,  ...,  1.8673e-03,
+         -3.4695e-03,  1.2846e-03],
+        [ 1.2541e-04, -6.3419e-04, -7.6437e-04,  ..., -2.3918e-03,
+         -2.3985e-04, -1.7443e-03],
+        [ 1.5144e-03, -1.2407e-03, -4.9543e-04,  ..., -5.6877e-03,
+          1.6890e-03, -8.8263e-04],
+        ...,
+        [ 8.7357e-04, -3.9597e-03,  8.9943e-05,  ...,  1.7881e-03,
+          5.0831e-04,  4.6873e-04],
+        [ 3.3474e-03,  1.2798e-03,  9.0485e-03,  ...,  1.6546e-03,
+          5.2643e-03,  1.2789e-03],
+        [ 1.0920e-03,  2.3098e-03,  2.8934e-03,  ..., -2.2519e-04,
+          2.1954e-03,  1.2684e-03]], device='cuda:0')
+Epoch 155, bias, value: tensor([ 0.0177, -0.0197, -0.0084,  0.0055, -0.0194, -0.0138,  0.0183, -0.0006,
+         0.0249, -0.0202], device='cuda:0'), grad: tensor([-0.0065, -0.0136, -0.0665,  0.0129,  0.0318,  0.0113, -0.0145,  0.0032,
+         0.0391,  0.0027], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 154, time 216.56, cls_loss 0.5364 cls_loss_mapping 0.0102 cls_loss_causal 0.5046 re_mapping 0.0088 re_causal 0.0218 /// teacc 98.74 lr 0.00010000
+Epoch 156, weight, value: tensor([[-0.0495, -0.0565, -0.1197,  ...,  0.1016, -0.0368,  0.0321],
+        [-0.0651,  0.0874, -0.0646,  ...,  0.0333, -0.0438, -0.0771],
+        [-0.0427,  0.0735, -0.0888,  ..., -0.0282,  0.0253,  0.1051],
+        ...,
+        [ 0.0003,  0.0435, -0.0032,  ..., -0.0008,  0.0270, -0.0467],
+        [ 0.0757, -0.0759,  0.0258,  ..., -0.0013,  0.0060, -0.0455],
+        [-0.0215, -0.0623,  0.0654,  ..., -0.0484,  0.0187, -0.0123]],
+       device='cuda:0'), grad: tensor([[-0.0012,  0.0008, -0.0028,  ..., -0.0012, -0.0137, -0.0006],
+        [ 0.0008,  0.0014,  0.0006,  ...,  0.0014,  0.0003,  0.0003],
+        [-0.0154,  0.0019,  0.0007,  ...,  0.0019, -0.0307, -0.0214],
+        ...,
+        [-0.0020, -0.0023,  0.0015,  ...,  0.0036,  0.0024, -0.0014],
+        [ 0.0011, -0.0013, -0.0008,  ..., -0.0022, -0.0009,  0.0007],
+        [ 0.0011, -0.0015, -0.0015,  ...,  0.0007,  0.0051, -0.0001]],
+       device='cuda:0')
+Epoch 156, bias, value: tensor([ 0.0167, -0.0194, -0.0079,  0.0050, -0.0205, -0.0135,  0.0185, -0.0001,
+         0.0252, -0.0200], device='cuda:0'), grad: tensor([ 0.0030,  0.0303,  0.0044,  0.0643, -0.0345, -0.0037,  0.0147, -0.0192,
+        -0.0590, -0.0002], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 155, time 217.03, cls_loss 0.5340 cls_loss_mapping 0.0120 cls_loss_causal 0.5038 re_mapping 0.0094 re_causal 0.0240 /// teacc 98.82 lr 0.00010000
+Epoch 157, weight, value: tensor([[-4.9805e-02, -5.5961e-02, -1.2005e-01,  ...,  1.0231e-01,
+         -3.7098e-02,  3.2303e-02],
+        [-6.5050e-02,  8.7422e-02, -6.3582e-02,  ...,  3.3190e-02,
+         -4.3809e-02, -7.7360e-02],
+        [-4.1121e-02,  7.3126e-02, -8.8857e-02,  ..., -2.8688e-02,
+          2.4833e-02,  1.0477e-01],
+        ...,
+        [ 7.5611e-04,  4.4394e-02, -2.6403e-03,  ...,  1.7366e-05,
+          2.6599e-02, -4.7002e-02],
+        [ 7.5037e-02, -7.5511e-02,  2.6145e-02,  ..., -5.8573e-04,
+          7.0196e-03, -4.4899e-02],
+        [-2.0853e-02, -6.2832e-02,  6.5807e-02,  ..., -4.9737e-02,
+          1.9347e-02, -1.3142e-02]], device='cuda:0'), grad: tensor([[-9.2602e-04, -8.8787e-04,  1.6654e-04,  ..., -5.0774e-03,
+         -5.2977e-04, -2.7847e-03],
+        [ 2.0313e-03,  6.3324e-03,  5.1320e-05,  ...,  1.5190e-02,
+          1.3149e-04,  4.2701e-04],
+        [-2.2545e-03, -9.3002e-03,  1.4412e-04,  ..., -2.1545e-02,
+         -4.6587e-04, -2.3136e-03],
+        ...,
+        [ 1.6117e-04,  5.9748e-04, -9.8610e-04,  ...,  3.5324e-03,
+         -5.8317e-04,  1.3056e-03],
+        [ 5.2929e-04,  9.4843e-04,  5.9426e-05,  ..., -1.0452e-03,
+          3.0565e-04,  1.2712e-03],
+        [ 2.1362e-04,  6.2132e-04,  8.4162e-04,  ...,  2.1038e-03,
+          8.4209e-04,  6.4850e-04]], device='cuda:0')
+Epoch 157, bias, value: tensor([ 0.0159, -0.0193, -0.0086,  0.0058, -0.0199, -0.0134,  0.0177, -0.0003,
+         0.0260, -0.0201], device='cuda:0'), grad: tensor([-0.0170,  0.0097, -0.0155, -0.0057,  0.0183,  0.0062, -0.0170,  0.0178,
+        -0.0107,  0.0139], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 156, time 217.19, cls_loss 0.5593 cls_loss_mapping 0.0100 cls_loss_causal 0.5289 re_mapping 0.0088 re_causal 0.0231 /// teacc 98.80 lr 0.00010000
+Epoch 158, weight, value: tensor([[-5.0096e-02, -5.6710e-02, -1.2016e-01,  ...,  1.0233e-01,
+         -3.6803e-02,  3.2543e-02],
+        [-6.4083e-02,  8.7536e-02, -6.2770e-02,  ...,  3.3331e-02,
+         -4.4644e-02, -7.9022e-02],
+        [-3.9689e-02,  7.3949e-02, -8.7432e-02,  ..., -2.8299e-02,
+          2.5145e-02,  1.0521e-01],
+        ...,
+        [ 5.2419e-04,  4.4582e-02, -2.9059e-03,  ..., -4.7805e-04,
+          2.6414e-02, -4.7600e-02],
+        [ 7.5638e-02, -7.6667e-02,  2.5605e-02,  ...,  9.3757e-05,
+          6.8568e-03, -4.5763e-02],
+        [-2.2021e-02, -6.3172e-02,  6.5821e-02,  ..., -4.9458e-02,
+          1.9346e-02, -1.3714e-02]], device='cuda:0'), grad: tensor([[ 5.4693e-04,  4.6396e-04,  2.0695e-04,  ...,  1.0662e-03,
+          1.1647e-04,  5.1785e-04],
+        [-1.8806e-03, -1.8275e-04,  7.8154e-04,  ..., -5.1928e-04,
+          4.1389e-04, -1.2655e-03],
+        [ 9.5844e-05,  5.8937e-04,  4.8184e-04,  ...,  1.1063e-03,
+          2.1017e-04, -6.4754e-04],
+        ...,
+        [-2.5201e-04, -1.7471e-03, -1.5512e-05,  ...,  5.9366e-04,
+         -8.3637e-04,  1.0365e-04],
+        [ 2.5675e-05,  1.4029e-03,  2.2221e-03,  ..., -4.3793e-03,
+          9.6750e-04,  1.6081e-04],
+        [-6.3717e-05, -2.5330e-03, -8.6441e-03,  ..., -1.9035e-03,
+         -3.6297e-03,  5.7876e-05]], device='cuda:0')
+Epoch 158, bias, value: tensor([ 0.0167, -0.0191, -0.0082,  0.0057, -0.0204, -0.0143,  0.0183, -0.0007,
+         0.0257, -0.0197], device='cuda:0'), grad: tensor([ 0.0218, -0.0082,  0.0177, -0.0136,  0.0427,  0.0146,  0.0034, -0.0206,
+        -0.0020, -0.0558], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 157, time 218.82, cls_loss 0.5508 cls_loss_mapping 0.0104 cls_loss_causal 0.5220 re_mapping 0.0090 re_causal 0.0225 /// teacc 98.52 lr 0.00010000
+Epoch 159, weight, value: tensor([[-0.0492, -0.0573, -0.1196,  ...,  0.1029, -0.0369,  0.0330],
+        [-0.0653,  0.0867, -0.0634,  ...,  0.0327, -0.0459, -0.0787],
+        [-0.0397,  0.0739, -0.0880,  ..., -0.0287,  0.0254,  0.1054],
+        ...,
+        [ 0.0002,  0.0459, -0.0032,  ..., -0.0007,  0.0262, -0.0466],
+        [ 0.0763, -0.0762,  0.0249,  ..., -0.0006,  0.0070, -0.0468],
+        [-0.0232, -0.0640,  0.0668,  ..., -0.0496,  0.0203, -0.0127]],
+       device='cuda:0'), grad: tensor([[ 6.7949e-04,  8.7452e-04,  1.6413e-03,  ...,  1.4505e-03,
+          3.2949e-04,  4.0674e-04],
+        [ 2.7676e-03,  2.7428e-03,  1.5545e-03,  ...,  4.2992e-03,
+          3.6573e-04,  5.9509e-04],
+        [ 1.5841e-03,  1.3742e-03,  8.5258e-04,  ...,  1.3123e-03,
+          2.1338e-04,  1.0004e-03],
+        ...,
+        [-4.6420e-04, -2.9774e-03, -4.8828e-03,  ..., -1.3380e-03,
+         -2.8095e-03,  3.1805e-04],
+        [ 9.6846e-04,  9.8133e-04, -4.4594e-03,  ..., -2.7008e-03,
+         -1.5984e-03,  2.5773e-04],
+        [-5.8375e-06,  3.0384e-03,  7.0229e-03,  ...,  2.5864e-03,
+          3.1605e-03, -2.6360e-03]], device='cuda:0')
+Epoch 159, bias, value: tensor([ 0.0169, -0.0186, -0.0084,  0.0057, -0.0203, -0.0136,  0.0173, -0.0006,
+         0.0254, -0.0198], device='cuda:0'), grad: tensor([ 0.0259,  0.0530,  0.0313,  0.0249,  0.0226, -0.0162, -0.0881,  0.0112,
+        -0.0062, -0.0584], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 158, time 219.08, cls_loss 0.5607 cls_loss_mapping 0.0092 cls_loss_causal 0.5292 re_mapping 0.0094 re_causal 0.0236 /// teacc 98.78 lr 0.00010000
+Epoch 160, weight, value: tensor([[-0.0496, -0.0574, -0.1196,  ...,  0.1034, -0.0368,  0.0335],
+        [-0.0636,  0.0868, -0.0648,  ...,  0.0325, -0.0472, -0.0787],
+        [-0.0408,  0.0740, -0.0881,  ..., -0.0289,  0.0259,  0.1054],
+        ...,
+        [-0.0006,  0.0464, -0.0034,  ..., -0.0003,  0.0260, -0.0470],
+        [ 0.0753, -0.0756,  0.0242,  ..., -0.0002,  0.0066, -0.0460],
+        [-0.0220, -0.0649,  0.0666,  ..., -0.0495,  0.0201, -0.0121]],
+       device='cuda:0'), grad: tensor([[ 0.0010,  0.0002,  0.0019,  ...,  0.0017,  0.0017,  0.0002],
+        [ 0.0004,  0.0002,  0.0015,  ...,  0.0012,  0.0006,  0.0002],
+        [-0.0001, -0.0007, -0.0147,  ..., -0.0110, -0.0163, -0.0019],
+        ...,
+        [ 0.0001, -0.0005,  0.0026,  ...,  0.0010,  0.0027,  0.0001],
+        [-0.0035,  0.0002,  0.0021,  ...,  0.0009,  0.0036,  0.0001],
+        [ 0.0005,  0.0002, -0.0159,  ...,  0.0032, -0.0009,  0.0001]],
+       device='cuda:0')
+Epoch 160, bias, value: tensor([ 0.0161, -0.0192, -0.0076,  0.0056, -0.0205, -0.0131,  0.0168, -0.0001,
+         0.0256, -0.0196], device='cuda:0'), grad: tensor([ 0.0171,  0.0157, -0.0497, -0.0155,  0.0197,  0.0175, -0.0103,  0.0177,
+        -0.0055, -0.0067], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 159, time 216.59, cls_loss 0.5568 cls_loss_mapping 0.0092 cls_loss_causal 0.5338 re_mapping 0.0090 re_causal 0.0228 /// teacc 98.82 lr 0.00010000
+Epoch 161, weight, value: tensor([[-4.9964e-02, -5.7572e-02, -1.2064e-01,  ...,  1.0325e-01,
+         -3.6575e-02,  3.3500e-02],
+        [-6.4164e-02,  8.5925e-02, -6.2537e-02,  ...,  3.2721e-02,
+         -4.6748e-02, -7.8732e-02],
+        [-4.0277e-02,  7.3879e-02, -8.8294e-02,  ..., -2.9618e-02,
+          2.6307e-02,  1.0586e-01],
+        ...,
+        [-9.7309e-04,  4.7186e-02, -3.3119e-03,  ..., -9.1997e-04,
+          2.5590e-02, -4.6462e-02],
+        [ 7.5950e-02, -7.5854e-02,  2.3652e-02,  ...,  2.3576e-05,
+          6.5415e-03, -4.5078e-02],
+        [-2.2629e-02, -6.4566e-02,  6.6474e-02,  ..., -4.9499e-02,
+          2.0422e-02, -1.2749e-02]], device='cuda:0'), grad: tensor([[ 9.6038e-06,  5.5170e-04, -1.0891e-03,  ...,  3.3331e-04,
+          9.8038e-04,  2.5177e-03],
+        [ 2.5010e-04,  9.6703e-04,  5.0354e-04,  ...,  1.5583e-03,
+          8.8882e-04,  1.3180e-03],
+        [ 1.7128e-03,  6.7749e-03, -2.7990e-04,  ..., -3.6030e-03,
+          2.3861e-03, -1.4906e-03],
+        ...,
+        [-2.2392e-03, -1.2718e-02, -2.5234e-03,  ..., -4.7188e-03,
+         -1.2001e-02, -8.1482e-03],
+        [ 3.2568e-04,  2.8443e-04,  6.3229e-04,  ..., -4.7147e-05,
+          1.1263e-03,  1.2722e-03],
+        [ 8.4877e-05,  7.0333e-04,  1.0099e-03,  ...,  1.4963e-03,
+          6.9761e-04,  9.1410e-04]], device='cuda:0')
+Epoch 161, bias, value: tensor([ 0.0167, -0.0183, -0.0078,  0.0063, -0.0202, -0.0135,  0.0163, -0.0007,
+         0.0257, -0.0204], device='cuda:0'), grad: tensor([ 0.0012,  0.0191, -0.0032,  0.0320,  0.0143,  0.0138, -0.0118, -0.0406,
+        -0.0409,  0.0162], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 160----------------------------------------------------
+epoch 160, time 217.45, cls_loss 0.5346 cls_loss_mapping 0.0100 cls_loss_causal 0.5083 re_mapping 0.0089 re_causal 0.0226 /// teacc 98.95 lr 0.00010000
+Epoch 162, weight, value: tensor([[-0.0501, -0.0584, -0.1204,  ...,  0.1041, -0.0357,  0.0338],
+        [-0.0646,  0.0862, -0.0629,  ...,  0.0331, -0.0464, -0.0788],
+        [-0.0416,  0.0732, -0.0891,  ..., -0.0296,  0.0262,  0.1058],
+        ...,
+        [-0.0012,  0.0488, -0.0034,  ..., -0.0013,  0.0254, -0.0453],
+        [ 0.0752, -0.0765,  0.0237,  ..., -0.0006,  0.0059, -0.0450],
+        [-0.0215, -0.0653,  0.0669,  ..., -0.0494,  0.0205, -0.0130]],
+       device='cuda:0'), grad: tensor([[ 2.6608e-04, -8.1682e-04, -4.6387e-03,  ..., -2.6016e-03,
+         -8.9216e-04, -8.1825e-04],
+        [ 5.3835e-04,  2.8934e-03,  6.6185e-04,  ...,  3.3340e-03,
+          1.8942e-04,  1.5652e-04],
+        [ 2.3043e-04, -8.5373e-03, -2.2575e-05,  ...,  5.3551e-08,
+         -1.4610e-03, -1.9417e-03],
+        ...,
+        [ 2.5201e-04, -2.3918e-03,  1.1629e-04,  ..., -1.0384e-02,
+          8.8787e-04,  1.1196e-03],
+        [ 1.0080e-03,  1.7815e-03,  5.8270e-04,  ...,  2.3804e-03,
+          5.8842e-04,  4.4894e-04],
+        [ 3.5095e-04,  1.2922e-03,  5.6362e-04,  ...,  1.4105e-03,
+          3.8505e-04,  1.4842e-04]], device='cuda:0')
+Epoch 162, bias, value: tensor([ 0.0165, -0.0173, -0.0090,  0.0060, -0.0204, -0.0125,  0.0162, -0.0011,
+         0.0254, -0.0197], device='cuda:0'), grad: tensor([-0.0073,  0.0016, -0.0118,  0.0206,  0.0162, -0.0085,  0.0178, -0.0409,
+         0.0240, -0.0117], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 161, time 215.99, cls_loss 0.5947 cls_loss_mapping 0.0096 cls_loss_causal 0.5629 re_mapping 0.0092 re_causal 0.0252 /// teacc 98.45 lr 0.00010000
+Epoch 163, weight, value: tensor([[-5.0213e-02, -5.7367e-02, -1.2123e-01,  ...,  1.0451e-01,
+         -3.6532e-02,  3.3408e-02],
+        [-6.5297e-02,  8.6723e-02, -6.2957e-02,  ...,  3.2431e-02,
+         -4.6607e-02, -7.8866e-02],
+        [-4.0379e-02,  7.4347e-02, -8.8462e-02,  ..., -2.8959e-02,
+          2.5777e-02,  1.0537e-01],
+        ...,
+        [-2.5674e-03,  4.8025e-02, -2.5567e-03,  ..., -3.8986e-05,
+          2.6235e-02, -4.6650e-02],
+        [ 7.5850e-02, -7.7078e-02,  2.3677e-02,  ..., -5.7740e-04,
+          7.0285e-03, -4.3390e-02],
+        [-2.0221e-02, -6.5053e-02,  6.6873e-02,  ..., -5.0605e-02,
+          2.0479e-02, -1.2347e-02]], device='cuda:0'), grad: tensor([[ 2.4819e-04, -1.7977e-03, -2.4962e-04,  ..., -3.8409e-04,
+         -2.9564e-04, -2.4796e-03],
+        [ 1.2231e-04, -1.9312e-05,  6.3324e-04,  ...,  1.1206e-03,
+          2.1660e-04,  4.3631e-04],
+        [ 2.7966e-04,  5.3978e-04,  1.3459e-04,  ...,  1.5459e-03,
+         -1.4491e-05,  5.7983e-04],
+        ...,
+        [-1.0452e-02,  3.0708e-04, -1.3168e-02,  ...,  1.3781e-03,
+         -9.9106e-03,  7.5197e-04],
+        [ 1.5020e-03,  4.6825e-04, -5.6076e-03,  ..., -1.3275e-03,
+         -6.8092e-04,  5.2691e-04],
+        [ 9.2010e-03,  6.2466e-04,  1.2222e-02,  ...,  1.2045e-03,
+          8.5754e-03,  4.9448e-04]], device='cuda:0')
+Epoch 163, bias, value: tensor([ 0.0168, -0.0178, -0.0081,  0.0062, -0.0205, -0.0126,  0.0151, -0.0012,
+         0.0258, -0.0198], device='cuda:0'), grad: tensor([-0.0087,  0.0188,  0.0245, -0.0058,  0.0149,  0.0335, -0.0784, -0.0387,
+        -0.0035,  0.0434], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 162, time 216.56, cls_loss 0.5495 cls_loss_mapping 0.0102 cls_loss_causal 0.5226 re_mapping 0.0087 re_causal 0.0217 /// teacc 98.72 lr 0.00010000
+Epoch 164, weight, value: tensor([[-0.0515, -0.0581, -0.1218,  ...,  0.1042, -0.0371,  0.0338],
+        [-0.0656,  0.0860, -0.0638,  ...,  0.0325, -0.0468, -0.0798],
+        [-0.0410,  0.0749, -0.0885,  ..., -0.0294,  0.0272,  0.1060],
+        ...,
+        [-0.0018,  0.0497, -0.0031,  ..., -0.0011,  0.0247, -0.0456],
+        [ 0.0766, -0.0773,  0.0241,  ...,  0.0006,  0.0079, -0.0423],
+        [-0.0204, -0.0654,  0.0670,  ..., -0.0506,  0.0203, -0.0130]],
+       device='cuda:0'), grad: tensor([[ 1.3714e-03,  4.1962e-05,  7.7248e-04,  ...,  1.5898e-03,
+          6.9046e-04,  1.3151e-03],
+        [-1.0204e-03,  2.5213e-05,  2.9296e-05,  ..., -1.9348e-04,
+          2.0176e-05, -5.9938e-04],
+        [ 4.5624e-03,  4.5700e-03,  1.1730e-03,  ...,  1.1683e-03,
+          2.6855e-03,  1.1559e-02],
+        ...,
+        [-1.1482e-03,  3.3766e-05, -4.5471e-03,  ..., -1.7138e-03,
+         -4.3945e-03, -3.9368e-03],
+        [ 8.9109e-05,  7.3671e-04, -7.4673e-04,  ...,  7.2575e-04,
+         -9.3126e-04,  8.5068e-04],
+        [-1.5343e-02,  3.3230e-05, -9.6226e-04,  ..., -5.6124e-04,
+          1.9703e-03,  1.8854e-03]], device='cuda:0')
+Epoch 164, bias, value: tensor([ 0.0168, -0.0184, -0.0085,  0.0058, -0.0200, -0.0124,  0.0150, -0.0007,
+         0.0262, -0.0199], device='cuda:0'), grad: tensor([-0.0072, -0.0448,  0.0428, -0.0368,  0.0231,  0.0047,  0.0362, -0.0233,
+         0.0111, -0.0058], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 163, time 216.54, cls_loss 0.5566 cls_loss_mapping 0.0127 cls_loss_causal 0.5224 re_mapping 0.0092 re_causal 0.0230 /// teacc 98.72 lr 0.00010000
+Epoch 165, weight, value: tensor([[-0.0519, -0.0577, -0.1219,  ...,  0.1035, -0.0386,  0.0335],
+        [-0.0650,  0.0860, -0.0654,  ...,  0.0330, -0.0467, -0.0812],
+        [-0.0405,  0.0744, -0.0883,  ..., -0.0296,  0.0266,  0.1062],
+        ...,
+        [-0.0017,  0.0507, -0.0027,  ..., -0.0004,  0.0256, -0.0454],
+        [ 0.0769, -0.0785,  0.0254,  ...,  0.0008,  0.0083, -0.0432],
+        [-0.0199, -0.0651,  0.0672,  ..., -0.0509,  0.0203, -0.0132]],
+       device='cuda:0'), grad: tensor([[-1.0002e-02,  2.7227e-04,  6.5744e-05,  ..., -5.3329e-03,
+         -8.1863e-03, -3.2616e-03],
+        [ 2.9302e-04,  6.9046e-04,  5.0974e-04,  ...,  2.2793e-03,
+          6.0320e-04,  3.3736e-04],
+        [ 1.1339e-03,  1.2312e-03,  3.8767e-04,  ...,  2.5711e-03,
+          1.4906e-03,  7.4005e-04],
+        ...,
+        [ 1.5438e-04, -2.1458e-03,  4.8971e-04,  ...,  5.4407e-04,
+         -7.6151e-04, -5.3596e-04],
+        [ 5.4741e-04, -1.9217e-03, -1.5640e-03,  ..., -8.2932e-03,
+          9.9945e-04, -4.2558e-04],
+        [ 4.1270e-04,  4.0460e-04,  1.6460e-03,  ...,  2.7981e-03,
+          1.0147e-03,  4.0936e-04]], device='cuda:0')
+Epoch 165, bias, value: tensor([ 0.0162, -0.0184, -0.0083,  0.0062, -0.0205, -0.0124,  0.0148, -0.0007,
+         0.0266, -0.0196], device='cuda:0'), grad: tensor([-0.0501,  0.0161,  0.0249,  0.0019,  0.0275, -0.0328,  0.0351, -0.0008,
+        -0.0432,  0.0216], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 164, time 216.53, cls_loss 0.5554 cls_loss_mapping 0.0116 cls_loss_causal 0.5305 re_mapping 0.0092 re_causal 0.0225 /// teacc 98.77 lr 0.00010000
+Epoch 166, weight, value: tensor([[-0.0508, -0.0565, -0.1214,  ...,  0.1028, -0.0389,  0.0338],
+        [-0.0662,  0.0859, -0.0669,  ...,  0.0330, -0.0470, -0.0826],
+        [-0.0402,  0.0734, -0.0887,  ..., -0.0287,  0.0279,  0.1061],
+        ...,
+        [-0.0008,  0.0515, -0.0028,  ..., -0.0007,  0.0247, -0.0467],
+        [ 0.0764, -0.0791,  0.0251,  ...,  0.0017,  0.0083, -0.0430],
+        [-0.0208, -0.0655,  0.0663,  ..., -0.0521,  0.0193, -0.0125]],
+       device='cuda:0'), grad: tensor([[-1.0192e-04,  4.2701e-04,  3.1114e-04,  ...,  6.1393e-05,
+         -6.5029e-05, -1.2708e-04],
+        [ 1.7390e-05,  4.3154e-04,  1.6499e-04,  ...,  1.1339e-03,
+          3.0017e-04,  9.2793e-04],
+        [ 1.8859e-04,  2.3746e-03,  8.6403e-04,  ...,  2.8610e-03,
+          1.8415e-03,  3.3283e-03],
+        ...,
+        [-2.5868e-05, -8.6975e-04,  1.6856e-04,  ..., -4.1618e-03,
+         -5.1594e-04, -6.4850e-04],
+        [ 1.1415e-03,  7.6962e-04,  1.2102e-03,  ...,  2.4853e-03,
+          1.1578e-03,  2.1915e-03],
+        [-1.0723e-04,  1.4534e-03,  3.5172e-03,  ...,  2.7637e-03,
+          2.6379e-03,  1.8063e-03]], device='cuda:0')
+Epoch 166, bias, value: tensor([ 0.0161, -0.0187, -0.0079,  0.0059, -0.0205, -0.0134,  0.0150, -0.0004,
+         0.0271, -0.0194], device='cuda:0'), grad: tensor([ 0.0028,  0.0072,  0.0230,  0.0109, -0.0269, -0.0098, -0.0174, -0.0220,
+         0.0202,  0.0120], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 165, time 217.03, cls_loss 0.5434 cls_loss_mapping 0.0078 cls_loss_causal 0.5155 re_mapping 0.0091 re_causal 0.0220 /// teacc 98.68 lr 0.00010000
+Epoch 167, weight, value: tensor([[-0.0515, -0.0564, -0.1219,  ...,  0.1027, -0.0399,  0.0333],
+        [-0.0656,  0.0878, -0.0663,  ...,  0.0346, -0.0478, -0.0834],
+        [-0.0397,  0.0737, -0.0884,  ..., -0.0290,  0.0281,  0.1066],
+        ...,
+        [-0.0006,  0.0504, -0.0027,  ..., -0.0014,  0.0247, -0.0472],
+        [ 0.0761, -0.0802,  0.0254,  ...,  0.0011,  0.0088, -0.0420],
+        [-0.0213, -0.0650,  0.0661,  ..., -0.0528,  0.0195, -0.0126]],
+       device='cuda:0'), grad: tensor([[-7.9012e-04,  9.3555e-04, -4.5180e-04,  ...,  2.6751e-04,
+         -1.2064e-03, -2.7752e-04],
+        [ 2.3155e-03,  2.4867e-04, -1.9875e-03,  ..., -2.4939e-04,
+          8.8274e-05, -2.5005e-03],
+        [ 1.4906e-03,  1.9855e-03,  1.2197e-03,  ...,  1.8845e-03,
+          9.8324e-04,  9.0122e-04],
+        ...,
+        [ 1.3218e-03, -2.4395e-03, -1.7195e-03,  ..., -5.7983e-03,
+         -3.4561e-03, -4.8310e-05],
+        [-7.7705e-03,  2.6345e-04,  1.2674e-03,  ...,  1.5507e-03,
+          1.6918e-03,  1.6890e-03],
+        [ 1.0099e-03, -6.2704e-04, -4.1618e-03,  ...,  1.4620e-03,
+         -1.9640e-05, -2.4986e-04]], device='cuda:0')
+Epoch 167, bias, value: tensor([ 0.0162, -0.0181, -0.0085,  0.0058, -0.0204, -0.0130,  0.0152, -0.0003,
+         0.0268, -0.0198], device='cuda:0'), grad: tensor([ 0.0080,  0.0034, -0.0005, -0.0017,  0.0290, -0.0134, -0.0053, -0.0387,
+         0.0050,  0.0143], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 166, time 217.13, cls_loss 0.5066 cls_loss_mapping 0.0102 cls_loss_causal 0.4844 re_mapping 0.0090 re_causal 0.0230 /// teacc 98.57 lr 0.00010000
+Epoch 168, weight, value: tensor([[-5.2096e-02, -5.6804e-02, -1.2302e-01,  ...,  1.0298e-01,
+         -4.0624e-02,  3.4111e-02],
+        [-6.5804e-02,  8.5929e-02, -6.6367e-02,  ...,  3.4138e-02,
+         -4.9299e-02, -8.3382e-02],
+        [-4.0069e-02,  7.3088e-02, -8.7793e-02,  ..., -2.9245e-02,
+          2.7887e-02,  1.0697e-01],
+        ...,
+        [ 6.3387e-05,  5.1875e-02, -4.0405e-03,  ..., -2.2354e-03,
+          2.4219e-02, -4.8625e-02],
+        [ 7.4799e-02, -7.8198e-02,  2.6176e-02,  ...,  1.5862e-03,
+          8.9775e-03, -4.2728e-02],
+        [-2.0659e-02, -6.4397e-02,  6.6644e-02,  ..., -5.2116e-02,
+          2.0024e-02, -1.0966e-02]], device='cuda:0'), grad: tensor([[-1.5688e-03, -2.5253e-03, -3.1776e-03,  ..., -9.4795e-04,
+          4.0699e-07, -3.4008e-03],
+        [ 1.4429e-03,  7.3318e-03,  2.0180e-03,  ...,  1.1625e-03,
+          2.1175e-05,  1.3609e-03],
+        [ 1.2970e-04,  8.2016e-04, -1.5211e-03,  ..., -1.4105e-03,
+         -1.0717e-04,  2.2459e-04],
+        ...,
+        [ 3.4070e-04, -1.2596e-02, -1.8143e-02,  ..., -2.3041e-02,
+         -2.7895e-04, -3.0708e-03],
+        [ 1.5783e-04,  5.4026e-04,  1.5914e-04,  ...,  1.0109e-03,
+         -4.3654e-04,  1.1196e-03],
+        [ 2.1887e-04,  1.0471e-03,  1.7786e-03,  ...,  1.5831e-03,
+          5.4646e-04,  1.3943e-03]], device='cuda:0')
+Epoch 168, bias, value: tensor([ 0.0160, -0.0184, -0.0082,  0.0059, -0.0210, -0.0142,  0.0162, -0.0004,
+         0.0270, -0.0192], device='cuda:0'), grad: tensor([-0.0051,  0.0453, -0.0114, -0.0116,  0.0464,  0.0179, -0.0758, -0.0585,
+         0.0237,  0.0292], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 167, time 217.26, cls_loss 0.5485 cls_loss_mapping 0.0120 cls_loss_causal 0.5206 re_mapping 0.0090 re_causal 0.0220 /// teacc 98.47 lr 0.00010000
+Epoch 169, weight, value: tensor([[-0.0537, -0.0580, -0.1234,  ...,  0.1025, -0.0417,  0.0312],
+        [-0.0650,  0.0868, -0.0662,  ...,  0.0332, -0.0493, -0.0832],
+        [-0.0407,  0.0734, -0.0868,  ..., -0.0290,  0.0285,  0.1069],
+        ...,
+        [-0.0006,  0.0529, -0.0046,  ..., -0.0012,  0.0243, -0.0469],
+        [ 0.0752, -0.0779,  0.0253,  ...,  0.0026,  0.0095, -0.0424],
+        [-0.0206, -0.0663,  0.0665,  ..., -0.0525,  0.0194, -0.0113]],
+       device='cuda:0'), grad: tensor([[-3.8319e-03, -1.7004e-03, -2.3937e-03,  ..., -3.3092e-03,
+         -1.8101e-03, -2.6493e-03],
+        [ 2.2678e-03,  7.4043e-03,  3.3498e-04,  ...,  7.5531e-03,
+          2.2650e-05, -4.1664e-05],
+        [ 1.2188e-03, -1.5974e-03, -8.4877e-04,  ...,  2.7108e-04,
+          1.5345e-03, -1.5373e-03],
+        ...,
+        [ 5.3930e-04,  2.2161e-04,  4.8375e-04,  ...,  8.1825e-04,
+         -5.7697e-04,  6.1417e-04],
+        [ 1.4877e-03,  4.9591e-04,  4.8310e-05,  ..., -1.9300e-04,
+          1.0365e-04,  5.7364e-04],
+        [ 1.6481e-05,  1.4076e-03, -2.8443e-04,  ...,  1.0967e-03,
+         -6.1214e-05,  1.5965e-03]], device='cuda:0')
+Epoch 169, bias, value: tensor([ 0.0147, -0.0184, -0.0073,  0.0061, -0.0204, -0.0136,  0.0162, -0.0002,
+         0.0261, -0.0194], device='cuda:0'), grad: tensor([-0.0253,  0.0189,  0.0039, -0.0388,  0.0167,  0.0433, -0.0082, -0.0089,
+        -0.0157,  0.0140], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 168, time 216.70, cls_loss 0.5160 cls_loss_mapping 0.0078 cls_loss_causal 0.4881 re_mapping 0.0097 re_causal 0.0252 /// teacc 98.68 lr 0.00010000
+Epoch 170, weight, value: tensor([[-0.0527, -0.0569, -0.1220,  ...,  0.1047, -0.0403,  0.0326],
+        [-0.0661,  0.0861, -0.0665,  ...,  0.0338, -0.0499, -0.0835],
+        [-0.0408,  0.0735, -0.0879,  ..., -0.0286,  0.0277,  0.1072],
+        ...,
+        [ 0.0007,  0.0531, -0.0032,  ..., -0.0018,  0.0255, -0.0473],
+        [ 0.0743, -0.0805,  0.0247,  ...,  0.0024,  0.0089, -0.0436],
+        [-0.0201, -0.0661,  0.0664,  ..., -0.0522,  0.0191, -0.0120]],
+       device='cuda:0'), grad: tensor([[-2.2717e-03,  2.2638e-04, -2.3632e-03,  ...,  7.4482e-04,
+         -3.1719e-03,  5.8442e-05],
+        [ 4.0293e-05, -1.7738e-04,  2.8872e-04,  ...,  2.0046e-03,
+         -4.1389e-04,  1.6079e-03],
+        [ 5.4932e-04, -3.9215e-03, -3.6488e-03,  ..., -5.2834e-03,
+          3.9711e-03,  6.4697e-03],
+        ...,
+        [-1.5190e-02, -1.1925e-02,  6.5880e-03,  ...,  7.0686e-03,
+          2.8992e-03,  2.1820e-03],
+        [ 8.6212e-04,  5.5885e-04,  1.6870e-03,  ...,  3.0746e-03,
+          1.6565e-03, -2.0332e-03],
+        [ 1.5549e-02,  1.3832e-02, -3.1242e-03,  ...,  2.4338e-03,
+         -4.9770e-05,  1.5812e-03]], device='cuda:0')
+Epoch 170, bias, value: tensor([ 1.6531e-02, -1.8142e-02, -7.5388e-03,  5.4377e-03, -2.0373e-02,
+        -1.3327e-02,  1.5934e-02, -6.0533e-05,  2.5263e-02, -1.9824e-02],
+       device='cuda:0'), grad: tensor([ 0.0200, -0.0074,  0.0156,  0.0079,  0.0034, -0.0515,  0.0028,  0.0131,
+        -0.0295,  0.0257], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 169, time 216.89, cls_loss 0.5237 cls_loss_mapping 0.0069 cls_loss_causal 0.4897 re_mapping 0.0085 re_causal 0.0212 /// teacc 98.61 lr 0.00010000
+Epoch 171, weight, value: tensor([[-0.0525, -0.0595, -0.1213,  ...,  0.1050, -0.0400,  0.0321],
+        [-0.0672,  0.0869, -0.0658,  ...,  0.0344, -0.0496, -0.0846],
+        [-0.0412,  0.0754, -0.0873,  ..., -0.0275,  0.0277,  0.1080],
+        ...,
+        [-0.0007,  0.0524, -0.0038,  ..., -0.0024,  0.0249, -0.0478],
+        [ 0.0756, -0.0808,  0.0254,  ...,  0.0026,  0.0085, -0.0437],
+        [-0.0201, -0.0667,  0.0658,  ..., -0.0523,  0.0199, -0.0130]],
+       device='cuda:0'), grad: tensor([[ 1.8549e-04,  7.0572e-04, -7.9651e-03,  ...,  3.7613e-03,
+         -9.3918e-03, -5.0592e-04],
+        [ 7.7295e-04,  8.9073e-04,  1.0900e-03,  ..., -9.5606e-05,
+          1.4389e-04,  5.3835e-04],
+        [ 4.7898e-04,  1.9026e-03,  2.9926e-03,  ...,  4.3335e-03,
+          3.1261e-03,  4.4098e-03],
+        ...,
+        [ 6.7568e-04, -2.3003e-03,  9.3079e-03,  ..., -1.6212e-03,
+          4.3335e-03, -1.2360e-03],
+        [ 4.7231e-04,  2.2392e-03, -2.6703e-03,  ..., -6.7215e-03,
+          1.1292e-03, -1.4057e-03],
+        [ 5.5838e-04,  1.2274e-03, -8.0338e-03,  ...,  2.2964e-03,
+         -5.5275e-03,  3.2845e-03]], device='cuda:0')
+Epoch 171, bias, value: tensor([ 0.0153, -0.0183, -0.0062,  0.0051, -0.0203, -0.0139,  0.0163, -0.0006,
+         0.0253, -0.0190], device='cuda:0'), grad: tensor([ 0.0048, -0.0094,  0.0294,  0.0421, -0.0016, -0.0262, -0.0169, -0.0029,
+        -0.0281,  0.0087], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 170, time 216.97, cls_loss 0.5175 cls_loss_mapping 0.0084 cls_loss_causal 0.4886 re_mapping 0.0093 re_causal 0.0240 /// teacc 98.64 lr 0.00010000
+Epoch 172, weight, value: tensor([[-0.0524, -0.0597, -0.1203,  ...,  0.1040, -0.0399,  0.0323],
+        [-0.0670,  0.0883, -0.0656,  ...,  0.0347, -0.0487, -0.0837],
+        [-0.0403,  0.0748, -0.0887,  ..., -0.0261,  0.0279,  0.1075],
+        ...,
+        [-0.0004,  0.0526, -0.0046,  ..., -0.0019,  0.0245, -0.0480],
+        [ 0.0756, -0.0805,  0.0252,  ...,  0.0034,  0.0073, -0.0431],
+        [-0.0194, -0.0673,  0.0673,  ..., -0.0524,  0.0209, -0.0132]],
+       device='cuda:0'), grad: tensor([[ 2.0456e-04, -1.5535e-03,  3.0255e-04,  ..., -3.4637e-03,
+          6.3419e-05,  1.2474e-03],
+        [ 2.8801e-04,  1.1247e-04,  5.8079e-04,  ..., -1.6916e-04,
+          4.2975e-05, -5.0211e-04],
+        [-5.1349e-05, -1.8358e-03, -5.8022e-03,  ..., -2.4033e-03,
+         -9.6970e-03, -1.0880e-02],
+        ...,
+        [ 2.1343e-03,  2.9774e-03,  1.5472e-02,  ...,  3.5686e-03,
+          1.2718e-02,  1.3016e-02],
+        [-2.5330e-03,  3.4666e-04, -2.3880e-03,  ..., -1.9348e-04,
+          4.0221e-04, -5.2872e-03],
+        [ 2.9812e-03, -1.2293e-03, -9.2793e-04,  ..., -2.8467e-04,
+         -7.3051e-04, -8.4448e-04]], device='cuda:0')
+Epoch 172, bias, value: tensor([ 0.0159, -0.0187, -0.0061,  0.0049, -0.0196, -0.0150,  0.0159, -0.0001,
+         0.0253, -0.0187], device='cuda:0'), grad: tensor([ 0.0003,  0.0037, -0.0591,  0.0356,  0.0047, -0.0100, -0.0074,  0.0931,
+        -0.0591, -0.0019], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 171, time 217.02, cls_loss 0.5711 cls_loss_mapping 0.0066 cls_loss_causal 0.5463 re_mapping 0.0091 re_causal 0.0243 /// teacc 98.72 lr 0.00010000
+Epoch 173, weight, value: tensor([[-0.0537, -0.0610, -0.1194,  ...,  0.1034, -0.0396,  0.0318],
+        [-0.0664,  0.0864, -0.0664,  ...,  0.0348, -0.0483, -0.0834],
+        [-0.0406,  0.0761, -0.0892,  ..., -0.0270,  0.0272,  0.1079],
+        ...,
+        [-0.0002,  0.0532, -0.0042,  ...,  0.0003,  0.0252, -0.0489],
+        [ 0.0757, -0.0808,  0.0271,  ...,  0.0034,  0.0082, -0.0439],
+        [-0.0194, -0.0670,  0.0673,  ..., -0.0545,  0.0213, -0.0144]],
+       device='cuda:0'), grad: tensor([[ 4.8548e-05,  7.2289e-04,  6.2037e-04,  ...,  1.6632e-03,
+          2.5392e-04,  4.3869e-04],
+        [ 1.1140e-04, -3.6564e-03, -4.9057e-03,  ..., -2.1076e-03,
+          3.9864e-04, -2.4211e-04],
+        [ 1.9205e-04,  1.5612e-03,  1.4248e-03,  ...,  2.9202e-03,
+          1.0490e-03,  1.0986e-03],
+        ...,
+        [ 3.3894e-03, -2.4853e-03, -4.5967e-03,  ..., -6.2447e-03,
+         -1.3771e-03, -3.5429e-04],
+        [ 1.8656e-04, -4.4708e-03, -2.7390e-03,  ..., -1.1543e-02,
+         -2.8687e-03, -5.0087e-03],
+        [ 1.3947e-04,  1.8587e-03,  2.1553e-03,  ...,  3.5629e-03,
+          1.5278e-03,  1.3571e-03]], device='cuda:0')
+Epoch 173, bias, value: tensor([ 0.0145, -0.0184, -0.0062,  0.0036, -0.0194, -0.0138,  0.0166,  0.0008,
+         0.0249, -0.0190], device='cuda:0'), grad: tensor([ 0.0094, -0.0169,  0.0157, -0.0365,  0.0170,  0.0179,  0.0289, -0.0177,
+        -0.0376,  0.0198], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 172, time 216.51, cls_loss 0.5517 cls_loss_mapping 0.0082 cls_loss_causal 0.5258 re_mapping 0.0088 re_causal 0.0231 /// teacc 98.78 lr 0.00010000
+Epoch 174, weight, value: tensor([[-0.0545, -0.0616, -0.1194,  ...,  0.1021, -0.0403,  0.0316],
+        [-0.0660,  0.0868, -0.0676,  ...,  0.0346, -0.0484, -0.0832],
+        [-0.0404,  0.0760, -0.0894,  ..., -0.0275,  0.0274,  0.1081],
+        ...,
+        [-0.0013,  0.0522, -0.0037,  ..., -0.0012,  0.0251, -0.0497],
+        [ 0.0769, -0.0815,  0.0274,  ...,  0.0044,  0.0083, -0.0437],
+        [-0.0175, -0.0660,  0.0676,  ..., -0.0529,  0.0212, -0.0147]],
+       device='cuda:0'), grad: tensor([[ 0.0012,  0.0007,  0.0001,  ...,  0.0006,  0.0005, -0.0003],
+        [ 0.0013, -0.0033,  0.0005,  ..., -0.0130,  0.0005, -0.0004],
+        [ 0.0028,  0.0021,  0.0012,  ...,  0.0015,  0.0011, -0.0003],
+        ...,
+        [ 0.0041,  0.0049,  0.0074,  ..., -0.0038,  0.0038,  0.0005],
+        [-0.0081,  0.0044,  0.0020,  ...,  0.0108, -0.0003, -0.0030],
+        [-0.0071, -0.0122, -0.0221,  ...,  0.0004, -0.0130, -0.0015]],
+       device='cuda:0')
+Epoch 174, bias, value: tensor([ 0.0132, -0.0188, -0.0061,  0.0053, -0.0192, -0.0142,  0.0159, -0.0003,
+         0.0263, -0.0189], device='cuda:0'), grad: tensor([-0.0149, -0.0280, -0.0016,  0.0397,  0.0361,  0.0116,  0.0163, -0.0202,
+         0.0090, -0.0481], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 173, time 216.84, cls_loss 0.5201 cls_loss_mapping 0.0094 cls_loss_causal 0.4939 re_mapping 0.0089 re_causal 0.0218 /// teacc 98.78 lr 0.00010000
+Epoch 175, weight, value: tensor([[-5.3786e-02, -6.1600e-02, -1.1907e-01,  ...,  1.0277e-01,
+         -3.9251e-02,  3.2854e-02],
+        [-6.7441e-02,  8.7620e-02, -6.7223e-02,  ...,  3.5422e-02,
+         -4.8855e-02, -8.3024e-02],
+        [-3.9831e-02,  7.6429e-02, -9.0263e-02,  ..., -2.7734e-02,
+          2.6703e-02,  1.0825e-01],
+        ...,
+        [ 1.1814e-05,  5.2565e-02, -2.8245e-03,  ..., -2.5271e-03,
+          2.6064e-02, -4.9779e-02],
+        [ 7.6373e-02, -8.3185e-02,  2.8016e-02,  ...,  4.9174e-03,
+          7.9745e-03, -4.4562e-02],
+        [-1.7434e-02, -6.5576e-02,  6.6810e-02,  ..., -5.3230e-02,
+          2.0653e-02, -1.5435e-02]], device='cuda:0'), grad: tensor([[ 6.1083e-04,  8.6054e-06,  2.1243e-04,  ...,  9.9659e-04,
+          4.1938e-04,  1.1358e-03],
+        [ 8.1158e-04,  3.8236e-05,  3.7980e-04,  ...,  1.4305e-03,
+          5.1594e-04,  8.2397e-04],
+        [ 6.4373e-04,  3.3230e-05,  1.0037e-04,  ...,  2.6302e-03,
+          1.1301e-03,  3.9787e-03],
+        ...,
+        [ 6.1369e-04,  4.7892e-05,  3.5400e-03,  ...,  2.4338e-03,
+          3.7899e-03,  1.0891e-03],
+        [ 6.6223e-03, -1.9658e-04, -8.2207e-04,  ..., -3.7956e-03,
+         -5.2376e-03, -2.9259e-03],
+        [ 1.5249e-03,  2.2948e-05, -4.7646e-03,  ..., -4.4212e-03,
+         -4.0741e-03,  8.4162e-04]], device='cuda:0')
+Epoch 175, bias, value: tensor([ 0.0145, -0.0185, -0.0063,  0.0056, -0.0185, -0.0145,  0.0150, -0.0003,
+         0.0260, -0.0195], device='cuda:0'), grad: tensor([ 0.0159,  0.0166,  0.0270,  0.0167, -0.0441, -0.0387,  0.0097,  0.0189,
+        -0.0029, -0.0191], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 174, time 216.72, cls_loss 0.5359 cls_loss_mapping 0.0097 cls_loss_causal 0.5022 re_mapping 0.0089 re_causal 0.0221 /// teacc 98.54 lr 0.00010000
+Epoch 176, weight, value: tensor([[-0.0535, -0.0607, -0.1192,  ...,  0.1033, -0.0403,  0.0323],
+        [-0.0678,  0.0869, -0.0691,  ...,  0.0349, -0.0494, -0.0832],
+        [-0.0407,  0.0763, -0.0913,  ..., -0.0283,  0.0270,  0.1086],
+        ...,
+        [ 0.0003,  0.0526, -0.0034,  ..., -0.0038,  0.0247, -0.0507],
+        [ 0.0762, -0.0828,  0.0286,  ...,  0.0070,  0.0078, -0.0442],
+        [-0.0172, -0.0656,  0.0671,  ..., -0.0526,  0.0220, -0.0144]],
+       device='cuda:0'), grad: tensor([[-1.5783e-03, -7.3016e-05, -1.8148e-03,  ..., -2.9068e-03,
+         -2.2564e-03, -2.6917e-04],
+        [ 2.7537e-05, -1.2958e-04,  6.8808e-04,  ...,  1.1053e-03,
+          2.4104e-04,  9.6941e-04],
+        [-3.0327e-04,  1.1856e-02,  9.3651e-04,  ...,  1.2169e-03,
+          2.3880e-03,  5.3864e-03],
+        ...,
+        [ 5.3501e-04, -9.3002e-03,  7.5188e-03,  ...,  1.9064e-03,
+         -5.5389e-03, -7.1754e-03],
+        [ 2.6345e-04,  1.7869e-04, -1.4648e-03,  ..., -2.4357e-03,
+          1.4210e-03,  6.5374e-04],
+        [ 4.4322e-04, -3.0613e-03, -5.0964e-03,  ..., -2.5387e-03,
+         -7.7820e-04, -3.8071e-03]], device='cuda:0')
+Epoch 176, bias, value: tensor([ 0.0144, -0.0186, -0.0054,  0.0054, -0.0191, -0.0146,  0.0151, -0.0004,
+         0.0260, -0.0195], device='cuda:0'), grad: tensor([-0.0077,  0.0156,  0.0300,  0.0117, -0.0357,  0.0217,  0.0188,  0.0209,
+        -0.0102, -0.0650], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 175, time 216.72, cls_loss 0.5581 cls_loss_mapping 0.0086 cls_loss_causal 0.5346 re_mapping 0.0082 re_causal 0.0206 /// teacc 98.76 lr 0.00010000
+Epoch 177, weight, value: tensor([[-0.0538, -0.0613, -0.1195,  ...,  0.1040, -0.0397,  0.0317],
+        [-0.0688,  0.0884, -0.0697,  ...,  0.0369, -0.0499, -0.0833],
+        [-0.0415,  0.0754, -0.0902,  ..., -0.0295,  0.0279,  0.1093],
+        ...,
+        [ 0.0003,  0.0528, -0.0040,  ..., -0.0041,  0.0246, -0.0512],
+        [ 0.0758, -0.0832,  0.0276,  ...,  0.0069,  0.0075, -0.0434],
+        [-0.0162, -0.0663,  0.0667,  ..., -0.0528,  0.0207, -0.0145]],
+       device='cuda:0'), grad: tensor([[-7.7069e-05,  2.9266e-05,  2.0832e-05,  ...,  1.7967e-03,
+         -9.0301e-05,  7.8964e-04],
+        [ 4.9882e-06,  4.0561e-05,  2.2209e-04,  ..., -1.7862e-03,
+          5.6386e-05, -9.2840e-04],
+        [ 7.3425e-06,  4.4197e-05,  5.4932e-04,  ...,  1.2236e-03,
+          2.5535e-04,  2.4283e-04],
+        ...,
+        [ 1.1206e-05,  1.6674e-05, -9.9487e-03,  ..., -6.0158e-03,
+         -6.3362e-03, -6.5842e-03],
+        [-1.1407e-05,  3.3617e-05,  7.8106e-04,  ...,  2.3823e-03,
+          4.0460e-04,  1.3218e-03],
+        [ 4.9084e-05,  4.2647e-05,  8.4305e-03,  ...,  1.4219e-03,
+          5.4779e-03,  4.4212e-03]], device='cuda:0')
+Epoch 177, bias, value: tensor([ 0.0140, -0.0174, -0.0064,  0.0051, -0.0195, -0.0137,  0.0152, -0.0007,
+         0.0259, -0.0189], device='cuda:0'), grad: tensor([ 0.0144, -0.0055, -0.0123, -0.0163,  0.0141, -0.0131,  0.0023, -0.0321,
+         0.0192,  0.0294], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 176, time 216.27, cls_loss 0.5579 cls_loss_mapping 0.0091 cls_loss_causal 0.5280 re_mapping 0.0087 re_causal 0.0232 /// teacc 98.76 lr 0.00010000
+Epoch 178, weight, value: tensor([[-0.0544, -0.0607, -0.1195,  ...,  0.1047, -0.0390,  0.0319],
+        [-0.0684,  0.0888, -0.0711,  ...,  0.0372, -0.0518, -0.0844],
+        [-0.0400,  0.0756, -0.0906,  ..., -0.0307,  0.0274,  0.1095],
+        ...,
+        [ 0.0013,  0.0523, -0.0035,  ..., -0.0039,  0.0255, -0.0508],
+        [ 0.0754, -0.0840,  0.0290,  ...,  0.0065,  0.0084, -0.0436],
+        [-0.0168, -0.0660,  0.0664,  ..., -0.0544,  0.0198, -0.0151]],
+       device='cuda:0'), grad: tensor([[ 2.4866e-06,  5.1451e-04,  1.7729e-03,  ...,  3.6163e-03,
+         -2.3251e-03,  4.1175e-04],
+        [ 2.9162e-05, -2.8872e-04, -8.3160e-03,  ..., -8.7738e-03,
+         -4.4441e-03, -3.2063e-03],
+        [ 5.7131e-05, -8.2684e-04,  6.1798e-04,  ..., -1.8539e-03,
+          9.3269e-04, -1.7910e-03],
+        ...,
+        [-3.0212e-06,  8.7261e-04,  2.6989e-03,  ...,  1.0910e-03,
+          1.4248e-03,  9.1887e-04],
+        [ 3.4064e-05,  4.7898e-04,  1.4982e-03,  ...,  4.3449e-03,
+          7.4053e-04,  7.9727e-04],
+        [-1.3030e-04,  5.9891e-04, -2.2373e-03,  ...,  3.0327e-03,
+         -2.5439e-04,  8.9121e-04]], device='cuda:0')
+Epoch 178, bias, value: tensor([ 0.0146, -0.0173, -0.0066,  0.0050, -0.0198, -0.0124,  0.0146, -0.0003,
+         0.0243, -0.0186], device='cuda:0'), grad: tensor([-0.0126, -0.0194, -0.0043,  0.0072,  0.0013,  0.0029, -0.0240,  0.0065,
+         0.0284,  0.0139], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 177, time 216.59, cls_loss 0.5362 cls_loss_mapping 0.0053 cls_loss_causal 0.4976 re_mapping 0.0087 re_causal 0.0225 /// teacc 98.77 lr 0.00010000
+Epoch 179, weight, value: tensor([[-0.0556, -0.0609, -0.1203,  ...,  0.1064, -0.0389,  0.0335],
+        [-0.0692,  0.0891, -0.0713,  ...,  0.0353, -0.0525, -0.0851],
+        [-0.0394,  0.0751, -0.0906,  ..., -0.0306,  0.0277,  0.1089],
+        ...,
+        [ 0.0015,  0.0531, -0.0030,  ..., -0.0051,  0.0259, -0.0515],
+        [ 0.0754, -0.0846,  0.0294,  ...,  0.0069,  0.0080, -0.0437],
+        [-0.0174, -0.0659,  0.0669,  ..., -0.0529,  0.0200, -0.0152]],
+       device='cuda:0'), grad: tensor([[ 1.6856e-04,  1.0930e-05, -4.4918e-04,  ..., -2.0838e-04,
+         -5.2719e-03, -2.0370e-03],
+        [ 2.9206e-04, -4.7348e-06,  6.1750e-05,  ..., -6.2466e-04,
+          4.0698e-04, -9.9373e-04],
+        [ 1.0662e-03,  4.0978e-05,  1.6356e-04,  ...,  1.5059e-03,
+         -2.3384e-03, -1.9062e-04],
+        ...,
+        [ 3.8791e-04, -1.5825e-05,  1.3275e-03,  ...,  1.4811e-03,
+          1.7118e-03,  1.0509e-03],
+        [-4.2648e-03, -3.7956e-04, -6.6452e-03,  ..., -3.7503e-04,
+         -3.3321e-03, -1.8768e-03],
+        [ 3.2997e-04,  2.9135e-04,  3.8395e-03,  ...,  3.1815e-03,
+          4.3983e-03,  2.1286e-03]], device='cuda:0')
+Epoch 179, bias, value: tensor([ 0.0147, -0.0177, -0.0064,  0.0042, -0.0190, -0.0136,  0.0150, -0.0003,
+         0.0246, -0.0180], device='cuda:0'), grad: tensor([-0.0122, -0.0146, -0.0031,  0.0289,  0.0190, -0.0406, -0.0146,  0.0213,
+        -0.0210,  0.0368], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 178, time 216.70, cls_loss 0.5338 cls_loss_mapping 0.0082 cls_loss_causal 0.5108 re_mapping 0.0084 re_causal 0.0220 /// teacc 98.87 lr 0.00010000
+Epoch 180, weight, value: tensor([[-0.0574, -0.0610, -0.1211,  ...,  0.1068, -0.0397,  0.0346],
+        [-0.0702,  0.0899, -0.0713,  ...,  0.0361, -0.0529, -0.0860],
+        [-0.0402,  0.0753, -0.0901,  ..., -0.0290,  0.0293,  0.1090],
+        ...,
+        [ 0.0011,  0.0532, -0.0036,  ..., -0.0060,  0.0260, -0.0522],
+        [ 0.0767, -0.0856,  0.0303,  ...,  0.0061,  0.0072, -0.0444],
+        [-0.0178, -0.0663,  0.0668,  ..., -0.0527,  0.0201, -0.0144]],
+       device='cuda:0'), grad: tensor([[-2.2173e-04,  1.6117e-04,  6.9618e-04,  ..., -1.6642e-03,
+         -2.7084e-03, -6.2523e-03],
+        [-8.3494e-04, -1.3375e-04,  8.3637e-04,  ...,  1.5192e-03,
+          6.2323e-04,  1.2712e-03],
+        [ 2.3627e-04,  2.7895e-04,  4.0627e-04,  ...,  1.9896e-04,
+          2.8076e-03,  3.7327e-03],
+        ...,
+        [ 2.1264e-05, -8.7833e-04, -1.2627e-03,  ..., -2.6083e-04,
+         -8.1873e-04, -1.6689e-04],
+        [-7.5245e-04,  1.8764e-04, -1.6766e-03,  ...,  2.5368e-03,
+         -5.9605e-04,  2.4104e-04],
+        [ 1.0538e-03, -6.1274e-04, -1.9875e-03,  ..., -1.0399e-02,
+         -2.8057e-03, -2.1381e-03]], device='cuda:0')
+Epoch 180, bias, value: tensor([ 0.0137, -0.0181, -0.0061,  0.0050, -0.0189, -0.0139,  0.0147, -0.0009,
+         0.0245, -0.0167], device='cuda:0'), grad: tensor([ 0.0019,  0.0133,  0.0030, -0.0099,  0.0239,  0.0238, -0.0069, -0.0107,
+        -0.0044, -0.0340], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 179, time 216.70, cls_loss 0.5505 cls_loss_mapping 0.0084 cls_loss_causal 0.5236 re_mapping 0.0083 re_causal 0.0220 /// teacc 98.79 lr 0.00010000
+Epoch 181, weight, value: tensor([[-0.0573, -0.0610, -0.1216,  ...,  0.1072, -0.0401,  0.0337],
+        [-0.0699,  0.0895, -0.0706,  ...,  0.0346, -0.0541, -0.0873],
+        [-0.0405,  0.0763, -0.0914,  ..., -0.0296,  0.0294,  0.1095],
+        ...,
+        [ 0.0024,  0.0528, -0.0030,  ..., -0.0070,  0.0253, -0.0527],
+        [ 0.0755, -0.0852,  0.0305,  ...,  0.0079,  0.0081, -0.0427],
+        [-0.0170, -0.0658,  0.0672,  ..., -0.0535,  0.0203, -0.0142]],
+       device='cuda:0'), grad: tensor([[ 2.6584e-04,  2.6971e-05,  1.0777e-03,  ...,  2.2864e-04,
+          9.3365e-04,  1.2994e-04],
+        [ 8.7738e-04,  1.2436e-03,  3.7813e-04,  ...,  3.4630e-05,
+          3.9458e-04,  2.7299e-05],
+        [ 3.6329e-05, -2.6379e-03,  8.6451e-04,  ..., -3.9749e-03,
+         -1.7195e-03, -3.6449e-03],
+        ...,
+        [-1.1940e-03, -3.6583e-03,  7.8583e-03,  ...,  2.9087e-03,
+          3.0537e-03,  2.9802e-04],
+        [-6.3477e-03,  5.0402e-04, -1.6098e-02,  ..., -1.2604e-02,
+         -1.0586e-04,  5.8556e-04],
+        [ 5.8289e-03,  3.2501e-03,  9.0866e-03,  ...,  1.0361e-02,
+         -1.5221e-03, -7.7105e-04]], device='cuda:0')
+Epoch 181, bias, value: tensor([ 0.0142, -0.0186, -0.0070,  0.0058, -0.0193, -0.0138,  0.0149, -0.0011,
+         0.0246, -0.0165], device='cuda:0'), grad: tensor([ 0.0093,  0.0124, -0.0033,  0.0012,  0.0059, -0.0360, -0.0089,  0.0155,
+        -0.0076,  0.0116], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 180, time 216.89, cls_loss 0.5061 cls_loss_mapping 0.0071 cls_loss_causal 0.4733 re_mapping 0.0085 re_causal 0.0219 /// teacc 98.75 lr 0.00010000
+Epoch 182, weight, value: tensor([[-0.0554, -0.0608, -0.1223,  ...,  0.1072, -0.0399,  0.0339],
+        [-0.0695,  0.0893, -0.0715,  ...,  0.0343, -0.0555, -0.0873],
+        [-0.0402,  0.0768, -0.0909,  ..., -0.0274,  0.0310,  0.1106],
+        ...,
+        [ 0.0018,  0.0529, -0.0035,  ..., -0.0074,  0.0246, -0.0546],
+        [ 0.0756, -0.0854,  0.0310,  ...,  0.0070,  0.0089, -0.0419],
+        [-0.0166, -0.0664,  0.0677,  ..., -0.0547,  0.0205, -0.0150]],
+       device='cuda:0'), grad: tensor([[ 0.0001, -0.0033, -0.0016,  ..., -0.0013, -0.0020, -0.0005],
+        [ 0.0002, -0.0011,  0.0006,  ..., -0.0055, -0.0010, -0.0010],
+        [ 0.0002, -0.0008, -0.0056,  ..., -0.0011, -0.0019, -0.0007],
+        ...,
+        [ 0.0001,  0.0003, -0.0155,  ..., -0.0200, -0.0215, -0.0087],
+        [-0.0010,  0.0010,  0.0009,  ...,  0.0028,  0.0010,  0.0014],
+        [ 0.0002, -0.0017,  0.0245,  ...,  0.0126,  0.0309,  0.0062]],
+       device='cuda:0')
+Epoch 182, bias, value: tensor([ 0.0155, -0.0178, -0.0071,  0.0056, -0.0195, -0.0136,  0.0144, -0.0018,
+         0.0241, -0.0162], device='cuda:0'), grad: tensor([-0.0023, -0.0260, -0.0158, -0.0136, -0.0144,  0.0373,  0.0237, -0.0100,
+         0.0167,  0.0044], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 181, time 216.45, cls_loss 0.5259 cls_loss_mapping 0.0082 cls_loss_causal 0.4944 re_mapping 0.0085 re_causal 0.0223 /// teacc 98.73 lr 0.00010000
+Epoch 183, weight, value: tensor([[-0.0565, -0.0609, -0.1228,  ...,  0.1073, -0.0400,  0.0343],
+        [-0.0694,  0.0886, -0.0713,  ...,  0.0345, -0.0554, -0.0869],
+        [-0.0403,  0.0776, -0.0920,  ..., -0.0274,  0.0303,  0.1094],
+        ...,
+        [ 0.0018,  0.0528, -0.0033,  ..., -0.0078,  0.0236, -0.0542],
+        [ 0.0753, -0.0857,  0.0316,  ...,  0.0071,  0.0107, -0.0416],
+        [-0.0168, -0.0667,  0.0675,  ..., -0.0546,  0.0197, -0.0154]],
+       device='cuda:0'), grad: tensor([[-2.5349e-03, -1.9416e-05,  4.1366e-04,  ..., -1.6499e-03,
+          2.5320e-04, -5.4054e-03],
+        [ 6.6900e-04, -1.8275e-04,  7.6723e-04,  ...,  6.7091e-04,
+          1.4486e-03,  1.3227e-03],
+        [ 6.9046e-04, -2.6345e-04,  3.9172e-04,  ..., -8.9264e-04,
+          1.4629e-03, -2.0199e-03],
+        ...,
+        [ 4.0388e-04,  7.5626e-04,  2.4090e-03,  ...,  7.4053e-04,
+          1.9083e-03, -3.7789e-04],
+        [-2.8362e-03,  1.7416e-04, -5.0659e-03,  ..., -1.8990e-04,
+         -5.8975e-03,  4.6968e-04],
+        [ 3.5238e-04, -9.6321e-04, -9.8953e-03,  ..., -1.5192e-03,
+         -1.2085e-02,  8.7142e-05]], device='cuda:0')
+Epoch 183, bias, value: tensor([ 0.0154, -0.0178, -0.0069,  0.0054, -0.0196, -0.0141,  0.0151, -0.0024,
+         0.0244, -0.0161], device='cuda:0'), grad: tensor([-0.0494,  0.0235, -0.0035,  0.0340,  0.0006, -0.0005,  0.0344, -0.0072,
+         0.0007, -0.0326], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 182, time 216.39, cls_loss 0.5598 cls_loss_mapping 0.0102 cls_loss_causal 0.5321 re_mapping 0.0083 re_causal 0.0213 /// teacc 98.68 lr 0.00010000
+Epoch 184, weight, value: tensor([[-0.0566, -0.0619, -0.1229,  ...,  0.1072, -0.0410,  0.0338],
+        [-0.0701,  0.0880, -0.0720,  ...,  0.0342, -0.0574, -0.0874],
+        [-0.0406,  0.0775, -0.0923,  ..., -0.0271,  0.0302,  0.1096],
+        ...,
+        [ 0.0010,  0.0540, -0.0030,  ..., -0.0074,  0.0241, -0.0539],
+        [ 0.0763, -0.0857,  0.0337,  ...,  0.0055,  0.0118, -0.0410],
+        [-0.0174, -0.0661,  0.0677,  ..., -0.0536,  0.0209, -0.0159]],
+       device='cuda:0'), grad: tensor([[ 4.6730e-03,  2.5535e-04,  5.9634e-05,  ...,  2.9087e-04,
+          1.0097e-04,  9.7752e-04],
+        [ 1.6766e-03,  4.0793e-04,  2.7514e-04,  ...,  9.0837e-05,
+          1.3809e-03,  2.7943e-04],
+        [ 2.3003e-03, -4.2648e-03, -9.3555e-04,  ..., -9.2077e-04,
+         -5.2185e-03, -1.2264e-03],
+        ...,
+        [ 1.2245e-03,  5.3167e-04, -1.0979e-04,  ...,  1.6041e-03,
+          1.2627e-03,  4.5896e-04],
+        [ 1.3664e-02,  6.0034e-04,  2.7752e-04,  ...,  1.7290e-03,
+          1.0347e-03,  2.2163e-03],
+        [-1.3618e-02,  6.1846e-04,  3.8815e-04,  ...,  1.5631e-03,
+          1.2007e-03,  8.0287e-05]], device='cuda:0')
+Epoch 184, bias, value: tensor([ 0.0151, -0.0182, -0.0067,  0.0044, -0.0204, -0.0125,  0.0149, -0.0017,
+         0.0241, -0.0156], device='cuda:0'), grad: tensor([ 0.0164,  0.0162, -0.0791, -0.0141,  0.0163,  0.0213, -0.0265,  0.0177,
+         0.0391, -0.0073], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 183, time 216.51, cls_loss 0.5316 cls_loss_mapping 0.0085 cls_loss_causal 0.4995 re_mapping 0.0083 re_causal 0.0213 /// teacc 98.73 lr 0.00010000
+Epoch 185, weight, value: tensor([[-0.0555, -0.0626, -0.1228,  ...,  0.1079, -0.0408,  0.0338],
+        [-0.0698,  0.0877, -0.0720,  ...,  0.0344, -0.0567, -0.0861],
+        [-0.0406,  0.0773, -0.0919,  ..., -0.0273,  0.0314,  0.1095],
+        ...,
+        [ 0.0004,  0.0543, -0.0032,  ..., -0.0077,  0.0240, -0.0549],
+        [ 0.0781, -0.0852,  0.0327,  ...,  0.0045,  0.0097, -0.0405],
+        [-0.0192, -0.0660,  0.0672,  ..., -0.0536,  0.0207, -0.0169]],
+       device='cuda:0'), grad: tensor([[ 3.1972e-04,  4.2701e-04,  1.2321e-03,  ...,  7.2002e-05,
+          8.9264e-04,  1.2779e-03],
+        [ 4.4870e-04, -2.4471e-03, -3.3436e-03,  ..., -4.2877e-03,
+         -3.5343e-03, -3.4218e-03],
+        [ 8.8739e-04,  3.5095e-04,  7.3481e-04,  ...,  7.7677e-04,
+          5.5838e-04,  9.0694e-04],
+        ...,
+        [-1.4353e-03,  4.2105e-04,  3.6469e-02,  ...,  8.0061e-04,
+          2.2537e-02,  6.9094e-04],
+        [ 1.3599e-03,  1.7464e-04,  8.9788e-04,  ..., -4.0817e-04,
+          4.9019e-04,  6.7043e-04],
+        [ 8.4162e-04, -4.2534e-04, -4.1260e-02,  ..., -1.3292e-04,
+         -2.2858e-02, -1.1787e-03]], device='cuda:0')
+Epoch 185, bias, value: tensor([ 0.0143, -0.0180, -0.0059,  0.0047, -0.0197, -0.0129,  0.0150, -0.0021,
+         0.0236, -0.0156], device='cuda:0'), grad: tensor([-0.0121, -0.0435,  0.0147,  0.0080,  0.0203,  0.0079,  0.0191,  0.0329,
+         0.0166, -0.0637], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 184, time 217.09, cls_loss 0.5298 cls_loss_mapping 0.0089 cls_loss_causal 0.4985 re_mapping 0.0083 re_causal 0.0217 /// teacc 98.82 lr 0.00010000
+Epoch 186, weight, value: tensor([[-0.0554, -0.0635, -0.1232,  ...,  0.1071, -0.0406,  0.0322],
+        [-0.0711,  0.0874, -0.0724,  ...,  0.0347, -0.0562, -0.0859],
+        [-0.0394,  0.0782, -0.0924,  ..., -0.0269,  0.0310,  0.1090],
+        ...,
+        [-0.0004,  0.0537, -0.0032,  ..., -0.0086,  0.0243, -0.0542],
+        [ 0.0797, -0.0851,  0.0331,  ...,  0.0051,  0.0096, -0.0401],
+        [-0.0183, -0.0666,  0.0677,  ..., -0.0539,  0.0210, -0.0144]],
+       device='cuda:0'), grad: tensor([[ 9.7573e-05,  3.0208e-04,  1.8053e-03,  ...,  2.8000e-03,
+          4.0283e-03,  1.6632e-03],
+        [ 9.3102e-05,  3.7074e-05,  3.1519e-04,  ...,  1.0233e-03,
+         -1.0723e-04,  1.5342e-04],
+        [ 3.0732e-04,  3.4785e-04,  1.0872e-03,  ...,  2.3632e-03,
+          3.1776e-03,  1.7843e-03],
+        ...,
+        [ 1.1361e-04, -6.6853e-04, -1.1873e-03,  ..., -4.8141e-03,
+         -5.2338e-03, -5.1842e-03],
+        [-1.9054e-03,  2.5845e-04, -1.0109e-02,  ..., -2.0657e-03,
+         -5.4245e-03, -1.1568e-03],
+        [ 3.1424e-04, -2.2640e-03, -1.7033e-03,  ..., -7.3967e-03,
+         -1.2543e-02,  5.6505e-04]], device='cuda:0')
+Epoch 186, bias, value: tensor([ 0.0134, -0.0175, -0.0059,  0.0058, -0.0199, -0.0130,  0.0151, -0.0033,
+         0.0238, -0.0150], device='cuda:0'), grad: tensor([ 0.0196, -0.0168,  0.0237, -0.0035,  0.0232,  0.0213,  0.0219, -0.0114,
+        -0.0052, -0.0729], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 185, time 217.13, cls_loss 0.5238 cls_loss_mapping 0.0063 cls_loss_causal 0.4986 re_mapping 0.0078 re_causal 0.0205 /// teacc 98.80 lr 0.00010000
+Epoch 187, weight, value: tensor([[-0.0546, -0.0650, -0.1233,  ...,  0.1075, -0.0406,  0.0320],
+        [-0.0707,  0.0879, -0.0712,  ...,  0.0354, -0.0560, -0.0856],
+        [-0.0401,  0.0783, -0.0930,  ..., -0.0280,  0.0301,  0.1085],
+        ...,
+        [-0.0009,  0.0534, -0.0028,  ..., -0.0072,  0.0259, -0.0534],
+        [ 0.0794, -0.0859,  0.0328,  ...,  0.0055,  0.0084, -0.0399],
+        [-0.0177, -0.0656,  0.0680,  ..., -0.0550,  0.0210, -0.0140]],
+       device='cuda:0'), grad: tensor([[ 3.0947e-04,  2.7075e-05, -2.2769e-04,  ...,  3.5787e-04,
+         -9.7942e-04, -7.9203e-04],
+        [ 2.4652e-04, -5.2303e-05,  1.7834e-04,  ...,  1.1492e-03,
+          1.0085e-04,  1.7405e-04],
+        [ 6.6090e-04, -1.9765e-04,  2.7561e-04,  ...,  4.9174e-05,
+          1.5450e-04, -3.2663e-04],
+        ...,
+        [ 7.1812e-04, -7.7343e-04,  1.3800e-03,  ..., -4.0665e-03,
+          2.6093e-03, -1.0643e-03],
+        [-7.5417e-03,  5.0306e-04,  1.2217e-03,  ..., -1.0786e-03,
+          2.0866e-03,  8.1062e-04],
+        [ 3.3319e-05,  3.6895e-05, -2.8172e-03,  ...,  1.8826e-03,
+         -3.6430e-03,  6.2513e-04]], device='cuda:0')
+Epoch 187, bias, value: tensor([ 0.0127, -0.0177, -0.0059,  0.0054, -0.0202, -0.0125,  0.0160, -0.0022,
+         0.0231, -0.0153], device='cuda:0'), grad: tensor([-0.0004,  0.0049,  0.0039, -0.0011,  0.0089, -0.0026,  0.0063, -0.0314,
+         0.0021,  0.0094], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 186----------------------------------------------------
+epoch 186, time 217.19, cls_loss 0.5459 cls_loss_mapping 0.0088 cls_loss_causal 0.5202 re_mapping 0.0081 re_causal 0.0212 /// teacc 99.01 lr 0.00010000
+Epoch 188, weight, value: tensor([[-0.0537, -0.0658, -0.1224,  ...,  0.1071, -0.0395,  0.0321],
+        [-0.0705,  0.0893, -0.0694,  ...,  0.0356, -0.0550, -0.0857],
+        [-0.0408,  0.0782, -0.0940,  ..., -0.0265,  0.0300,  0.1088],
+        ...,
+        [-0.0010,  0.0532, -0.0027,  ..., -0.0075,  0.0259, -0.0529],
+        [ 0.0798, -0.0857,  0.0336,  ...,  0.0051,  0.0086, -0.0403],
+        [-0.0201, -0.0657,  0.0668,  ..., -0.0556,  0.0192, -0.0143]],
+       device='cuda:0'), grad: tensor([[-5.0783e-04,  8.4460e-05, -6.0415e-04,  ..., -8.4400e-05,
+         -2.0428e-03,  1.7512e-04],
+        [ 5.2376e-03,  3.9601e-04,  6.5975e-06,  ...,  1.2894e-03,
+          1.3018e-04,  1.0490e-04],
+        [ 1.3316e-04,  1.6487e-04,  2.1070e-05,  ...,  1.0624e-03,
+          3.3641e-04,  2.2125e-04],
+        ...,
+        [ 3.6860e-04,  3.6597e-04, -5.0366e-05,  ...,  1.2550e-03,
+          1.1027e-04,  7.2122e-05],
+        [ 2.4357e-03,  5.2786e-04,  1.7166e-04,  ...,  1.8244e-03,
+          7.4530e-04,  1.4353e-04],
+        [-2.0508e-02,  2.0671e-04, -4.9133e-02,  ...,  7.1907e-04,
+         -2.0538e-02,  9.5665e-05]], device='cuda:0')
+Epoch 188, bias, value: tensor([ 0.0129, -0.0171, -0.0056,  0.0063, -0.0197, -0.0130,  0.0161, -0.0024,
+         0.0215, -0.0155], device='cuda:0'), grad: tensor([ 0.0079, -0.0019,  0.0124, -0.0211,  0.0409, -0.0156,  0.0110, -0.0192,
+         0.0242, -0.0387], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 187, time 216.63, cls_loss 0.5781 cls_loss_mapping 0.0086 cls_loss_causal 0.5458 re_mapping 0.0078 re_causal 0.0208 /// teacc 98.91 lr 0.00010000
+Epoch 189, weight, value: tensor([[-0.0549, -0.0660, -0.1229,  ...,  0.1066, -0.0395,  0.0323],
+        [-0.0704,  0.0900, -0.0695,  ...,  0.0356, -0.0550, -0.0869],
+        [-0.0398,  0.0780, -0.0948,  ..., -0.0269,  0.0297,  0.1092],
+        ...,
+        [-0.0006,  0.0539, -0.0033,  ..., -0.0072,  0.0251, -0.0531],
+        [ 0.0797, -0.0854,  0.0331,  ...,  0.0054,  0.0078, -0.0403],
+        [-0.0215, -0.0667,  0.0666,  ..., -0.0550,  0.0190, -0.0149]],
+       device='cuda:0'), grad: tensor([[-2.0142e-03,  1.9979e-04, -6.0997e-03,  ..., -4.9323e-05,
+          8.1635e-04, -1.4267e-03],
+        [ 5.4073e-04,  2.4676e-04,  1.5697e-03,  ...,  2.2149e-04,
+          4.6301e-04,  2.3019e-04],
+        [-3.1776e-03,  3.1352e-04,  9.0313e-04,  ..., -3.6883e-04,
+         -5.5466e-03,  7.2765e-04],
+        ...,
+        [ 1.6146e-03, -8.9741e-04,  2.8133e-03,  ..., -1.3390e-03,
+          1.9989e-03, -1.0854e-04],
+        [ 3.8266e-04,  2.0540e-04,  7.3576e-04,  ...,  1.2426e-03,
+          5.9891e-04,  8.8835e-04],
+        [ 4.1699e-04,  4.7350e-04,  2.5864e-03,  ...,  3.5596e-04,
+          6.6519e-04,  2.9445e-04]], device='cuda:0')
+Epoch 189, bias, value: tensor([ 0.0128, -0.0180, -0.0051,  0.0061, -0.0196, -0.0128,  0.0152, -0.0016,
+         0.0223, -0.0161], device='cuda:0'), grad: tensor([-0.0284,  0.0199, -0.0078,  0.0098,  0.0029,  0.0111, -0.0146, -0.0305,
+         0.0173,  0.0204], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 188, time 216.70, cls_loss 0.5708 cls_loss_mapping 0.0074 cls_loss_causal 0.5335 re_mapping 0.0082 re_causal 0.0211 /// teacc 98.80 lr 0.00010000
+Epoch 190, weight, value: tensor([[-0.0544, -0.0669, -0.1239,  ...,  0.1072, -0.0401,  0.0317],
+        [-0.0716,  0.0914, -0.0700,  ...,  0.0359, -0.0551, -0.0859],
+        [-0.0407,  0.0780, -0.0945,  ..., -0.0261,  0.0293,  0.1094],
+        ...,
+        [-0.0012,  0.0538, -0.0028,  ..., -0.0077,  0.0262, -0.0535],
+        [ 0.0794, -0.0864,  0.0326,  ...,  0.0055,  0.0066, -0.0414],
+        [-0.0212, -0.0674,  0.0674,  ..., -0.0559,  0.0206, -0.0147]],
+       device='cuda:0'), grad: tensor([[ 2.0719e-04,  7.3767e-04,  3.0354e-05,  ...,  2.5177e-03,
+          1.3752e-03,  6.5851e-04],
+        [-7.0953e-04, -2.0523e-03, -1.1122e-04,  ..., -1.0178e-02,
+          6.3133e-04, -1.5821e-03],
+        [ 3.5596e-04,  1.5516e-03,  2.7728e-04,  ..., -9.7351e-03,
+         -1.3802e-02, -4.5128e-03],
+        ...,
+        [ 2.9182e-04,  1.9569e-03, -5.5224e-05,  ...,  7.5989e-03,
+          7.1487e-03,  2.0924e-03],
+        [ 2.3878e-04,  1.0033e-03,  3.8099e-04,  ...,  2.0618e-03,
+          1.8129e-03,  3.5644e-04],
+        [ 3.2592e-04,  1.3329e-05,  5.1575e-03,  ...,  2.3518e-03,
+          2.4872e-03,  4.8661e-04]], device='cuda:0')
+Epoch 190, bias, value: tensor([ 0.0138, -0.0172, -0.0054,  0.0066, -0.0212, -0.0133,  0.0157, -0.0019,
+         0.0222, -0.0157], device='cuda:0'), grad: tensor([ 0.0212, -0.0397,  0.0169, -0.0263, -0.0495, -0.0081,  0.0260,  0.0393,
+         0.0213, -0.0011], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 189, time 216.67, cls_loss 0.5326 cls_loss_mapping 0.0066 cls_loss_causal 0.5107 re_mapping 0.0082 re_causal 0.0210 /// teacc 98.77 lr 0.00010000
+Epoch 191, weight, value: tensor([[-5.5098e-02, -6.7679e-02, -1.2387e-01,  ...,  1.0701e-01,
+         -4.0007e-02,  3.1602e-02],
+        [-7.2165e-02,  9.1760e-02, -7.1212e-02,  ...,  3.6626e-02,
+         -5.6083e-02, -8.6049e-02],
+        [-4.0154e-02,  7.8468e-02, -9.5983e-02,  ..., -2.6147e-02,
+          2.9528e-02,  1.0939e-01],
+        ...,
+        [ 2.9341e-06,  5.3700e-02, -2.1607e-03,  ..., -7.5489e-03,
+          2.5882e-02, -5.3486e-02],
+        [ 7.9024e-02, -8.5857e-02,  3.2170e-02,  ...,  5.7040e-03,
+          6.4229e-03, -4.0594e-02],
+        [-2.0709e-02, -6.8212e-02,  6.7334e-02,  ..., -5.5902e-02,
+          2.0720e-02, -1.3800e-02]], device='cuda:0'), grad: tensor([[ 3.5691e-04,  5.9080e-04,  3.8296e-05,  ...,  2.5520e-03,
+          1.2522e-03,  6.5565e-04],
+        [ 2.2945e-03,  2.9349e-04, -1.6159e-02,  ..., -1.4862e-02,
+         -6.1035e-03,  2.5606e-04],
+        [ 3.0065e-04,  2.8019e-03,  4.1771e-04,  ...,  2.1362e-03,
+          6.1989e-03,  9.3508e-04],
+        ...,
+        [ 9.0170e-04,  1.4105e-03,  1.7519e-03,  ...,  3.5095e-03,
+          2.2659e-03,  1.2188e-03],
+        [ 3.7742e-04, -3.8853e-03, -2.8248e-03,  ..., -1.7223e-03,
+         -2.7065e-03, -2.1229e-03],
+        [-1.1559e-02,  1.1950e-03,  9.7961e-03,  ...,  6.3133e-03,
+          6.0806e-03,  1.3180e-03]], device='cuda:0')
+Epoch 191, bias, value: tensor([ 0.0136, -0.0171, -0.0059,  0.0068, -0.0213, -0.0136,  0.0155, -0.0007,
+         0.0219, -0.0157], device='cuda:0'), grad: tensor([ 0.0153, -0.0837,  0.0013, -0.0266,  0.0411, -0.0168,  0.0269,  0.0291,
+        -0.0013,  0.0147], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 190, time 216.27, cls_loss 0.5128 cls_loss_mapping 0.0069 cls_loss_causal 0.4888 re_mapping 0.0084 re_causal 0.0228 /// teacc 98.74 lr 0.00010000
+Epoch 192, weight, value: tensor([[-0.0554, -0.0686, -0.1248,  ...,  0.1073, -0.0409,  0.0323],
+        [-0.0713,  0.0919, -0.0707,  ...,  0.0367, -0.0555, -0.0850],
+        [-0.0401,  0.0791, -0.0976,  ..., -0.0269,  0.0284,  0.1091],
+        ...,
+        [-0.0010,  0.0530, -0.0030,  ..., -0.0076,  0.0257, -0.0537],
+        [ 0.0790, -0.0850,  0.0322,  ...,  0.0071,  0.0056, -0.0411],
+        [-0.0205, -0.0682,  0.0681,  ..., -0.0561,  0.0216, -0.0147]],
+       device='cuda:0'), grad: tensor([[ 3.9864e-04,  1.6987e-04,  1.3447e-03,  ...,  1.2102e-03,
+          2.6226e-03,  1.1311e-03],
+        [ 3.3975e-04,  1.2720e-04,  2.5582e-04,  ...,  1.9588e-03,
+          2.4414e-03, -5.8800e-05],
+        [ 3.2768e-03,  2.1210e-03,  1.9312e-03,  ...,  2.8744e-03,
+          1.8902e-03,  1.5764e-03],
+        ...,
+        [-6.0616e-03, -8.2855e-03, -2.8634e-04,  ..., -9.6283e-03,
+         -1.4824e-02, -3.2825e-03],
+        [ 3.6836e-04,  9.9850e-04, -3.1555e-02,  ...,  7.3767e-04,
+         -1.9470e-02,  2.4414e-03],
+        [ 3.7742e-04,  2.4490e-03,  2.3285e-02,  ...,  4.9667e-03,
+          2.0615e-02,  3.1328e-04]], device='cuda:0')
+Epoch 192, bias, value: tensor([ 0.0135, -0.0165, -0.0068,  0.0064, -0.0200, -0.0127,  0.0149, -0.0012,
+         0.0223, -0.0164], device='cuda:0'), grad: tensor([ 0.0326, -0.0505,  0.0295,  0.0381,  0.0140, -0.0352,  0.0367, -0.0645,
+         0.0241, -0.0248], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 191, time 216.36, cls_loss 0.5525 cls_loss_mapping 0.0078 cls_loss_causal 0.5224 re_mapping 0.0078 re_causal 0.0210 /// teacc 98.71 lr 0.00010000
+Epoch 193, weight, value: tensor([[-0.0552, -0.0684, -0.1263,  ...,  0.1062, -0.0412,  0.0327],
+        [-0.0727,  0.0924, -0.0687,  ...,  0.0369, -0.0542, -0.0855],
+        [-0.0394,  0.0800, -0.0964,  ..., -0.0264,  0.0294,  0.1085],
+        ...,
+        [-0.0004,  0.0525, -0.0026,  ..., -0.0082,  0.0263, -0.0536],
+        [ 0.0792, -0.0855,  0.0325,  ...,  0.0073,  0.0056, -0.0413],
+        [-0.0198, -0.0686,  0.0683,  ..., -0.0569,  0.0212, -0.0146]],
+       device='cuda:0'), grad: tensor([[ 3.4952e-04,  1.5593e-04,  3.0470e-04,  ...,  5.4741e-04,
+          3.6788e-04,  9.5606e-04],
+        [ 2.2948e-05,  2.5123e-05, -1.2121e-03,  ..., -6.5613e-04,
+         -9.9564e-04, -9.4366e-04],
+        [ 4.3535e-04, -1.8263e-04, -8.2350e-04,  ...,  5.9128e-04,
+          6.0940e-04,  7.9498e-06],
+        ...,
+        [-4.5166e-03, -1.0624e-03,  7.8821e-04,  ..., -4.6134e-04,
+          4.4608e-04, -1.5688e-03],
+        [ 3.6335e-04,  1.9896e-04,  9.3794e-04,  ...,  1.5841e-03,
+          4.6849e-04,  3.8314e-04],
+        [ 4.0207e-03,  1.8048e-04, -2.3003e-03,  ..., -2.9831e-03,
+         -8.0633e-04,  7.4673e-04]], device='cuda:0')
+Epoch 193, bias, value: tensor([ 0.0136, -0.0172, -0.0069,  0.0065, -0.0203, -0.0122,  0.0151, -0.0017,
+         0.0219, -0.0153], device='cuda:0'), grad: tensor([ 0.0132, -0.0058,  0.0135, -0.0149,  0.0181,  0.0252, -0.0236, -0.0164,
+        -0.0121,  0.0027], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 192, time 216.74, cls_loss 0.4908 cls_loss_mapping 0.0063 cls_loss_causal 0.4606 re_mapping 0.0088 re_causal 0.0232 /// teacc 98.82 lr 0.00010000
+Epoch 194, weight, value: tensor([[-0.0554, -0.0680, -0.1260,  ...,  0.1074, -0.0410,  0.0332],
+        [-0.0720,  0.0922, -0.0679,  ...,  0.0374, -0.0535, -0.0860],
+        [-0.0404,  0.0789, -0.0981,  ..., -0.0274,  0.0287,  0.1090],
+        ...,
+        [-0.0007,  0.0547, -0.0039,  ..., -0.0080,  0.0254, -0.0527],
+        [ 0.0804, -0.0864,  0.0330,  ...,  0.0070,  0.0063, -0.0414],
+        [-0.0201, -0.0687,  0.0691,  ..., -0.0567,  0.0221, -0.0140]],
+       device='cuda:0'), grad: tensor([[ 4.6700e-05,  1.5306e-04,  1.1486e-04,  ...,  4.5371e-04,
+          9.1851e-05,  3.3832e-04],
+        [ 9.8944e-05,  2.9182e-04,  3.7193e-04,  ...,  7.6485e-04,
+          2.9635e-04,  4.3106e-04],
+        [ 1.7083e-04, -1.2076e-04,  3.3593e-04,  ...,  5.5075e-04,
+          5.3310e-04,  2.5439e-04],
+        ...,
+        [ 2.4819e-04, -1.0519e-03, -2.0580e-03,  ..., -1.1883e-03,
+         -1.4925e-03, -1.1325e-04],
+        [-6.0272e-03,  2.8658e-04, -1.1950e-03,  ...,  8.9216e-04,
+         -4.2009e-04, -9.8133e-04],
+        [ 9.8896e-04, -4.1270e-04, -6.2180e-03,  ...,  1.7214e-03,
+         -2.3289e-03, -1.8082e-03]], device='cuda:0')
+Epoch 194, bias, value: tensor([ 0.0143, -0.0174, -0.0069,  0.0060, -0.0197, -0.0135,  0.0138, -0.0017,
+         0.0235, -0.0151], device='cuda:0'), grad: tensor([ 0.0113,  0.0179,  0.0145,  0.0114,  0.0297,  0.0155, -0.0472, -0.0278,
+        -0.0100, -0.0151], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 193, time 216.69, cls_loss 0.5235 cls_loss_mapping 0.0066 cls_loss_causal 0.4969 re_mapping 0.0079 re_causal 0.0206 /// teacc 98.84 lr 0.00010000
+Epoch 195, weight, value: tensor([[-0.0565, -0.0678, -0.1263,  ...,  0.1067, -0.0424,  0.0333],
+        [-0.0715,  0.0926, -0.0691,  ...,  0.0381, -0.0536, -0.0864],
+        [-0.0393,  0.0799, -0.0982,  ..., -0.0270,  0.0301,  0.1090],
+        ...,
+        [ 0.0001,  0.0537, -0.0029,  ..., -0.0077,  0.0255, -0.0547],
+        [ 0.0799, -0.0869,  0.0334,  ...,  0.0073,  0.0067, -0.0403],
+        [-0.0207, -0.0683,  0.0691,  ..., -0.0576,  0.0222, -0.0133]],
+       device='cuda:0'), grad: tensor([[ 8.2180e-06,  1.9848e-04,  3.9577e-04,  ...,  2.9731e-04,
+          4.0436e-04,  1.7214e-04],
+        [ 1.9073e-05,  2.1827e-04,  3.7074e-04,  ...,  7.8964e-04,
+          4.4155e-04,  3.8099e-04],
+        [-2.8076e-03, -3.4809e-03, -6.4774e-03,  ..., -1.9684e-03,
+         -7.9727e-03, -3.9711e-03],
+        ...,
+        [ 1.6346e-03,  5.4693e-04,  2.0905e-03,  ..., -2.5425e-03,
+          2.9297e-03, -2.6727e-04],
+        [ 1.8263e-04,  4.7040e-04,  1.0071e-03,  ...,  9.5987e-04,
+          1.2589e-03,  6.0987e-04],
+        [ 2.9349e-04,  8.9455e-04, -9.4128e-04,  ...,  1.6108e-03,
+          3.2377e-04,  9.3794e-04]], device='cuda:0')
+Epoch 195, bias, value: tensor([ 0.0142, -0.0171, -0.0075,  0.0067, -0.0196, -0.0134,  0.0149, -0.0011,
+         0.0225, -0.0160], device='cuda:0'), grad: tensor([ 7.6332e-03,  1.3550e-02, -2.8122e-02, -9.2149e-05,  1.6632e-02,
+        -1.3496e-02, -2.4414e-02,  2.3575e-03,  1.3329e-02,  1.2611e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 194, time 216.82, cls_loss 0.4967 cls_loss_mapping 0.0063 cls_loss_causal 0.4691 re_mapping 0.0081 re_causal 0.0216 /// teacc 98.50 lr 0.00010000
+Epoch 196, weight, value: tensor([[-0.0565, -0.0682, -0.1262,  ...,  0.1072, -0.0424,  0.0340],
+        [-0.0718,  0.0920, -0.0694,  ...,  0.0387, -0.0537, -0.0863],
+        [-0.0399,  0.0796, -0.0967,  ..., -0.0264,  0.0304,  0.1094],
+        ...,
+        [ 0.0004,  0.0551, -0.0040,  ..., -0.0088,  0.0246, -0.0545],
+        [ 0.0797, -0.0868,  0.0328,  ...,  0.0069,  0.0065, -0.0410],
+        [-0.0201, -0.0685,  0.0682,  ..., -0.0582,  0.0217, -0.0145]],
+       device='cuda:0'), grad: tensor([[ 1.0222e-04,  2.1100e-04,  2.9683e-04,  ...,  4.5967e-03,
+          1.2579e-03,  3.3760e-03],
+        [-8.4019e-04, -6.7234e-04,  4.6706e-04,  ..., -3.1815e-03,
+          1.7440e-04, -2.3174e-04],
+        [ 7.1168e-05,  2.4486e-04,  1.6487e-04,  ...,  1.3561e-03,
+          8.8310e-04, -1.0567e-03],
+        ...,
+        [ 8.5652e-05,  4.1723e-04,  2.5821e-04,  ...,  2.5196e-03,
+          9.3460e-04,  1.3504e-03],
+        [ 3.1376e-04,  2.8658e-04,  1.5974e-04,  ..., -8.6746e-03,
+         -1.6205e-02, -1.4198e-02],
+        [-2.8324e-04, -1.5202e-03, -1.1988e-03,  ..., -4.1733e-03,
+         -1.3351e-03,  3.9124e-04]], device='cuda:0')
+Epoch 196, bias, value: tensor([ 0.0156, -0.0171, -0.0080,  0.0069, -0.0185, -0.0138,  0.0152, -0.0014,
+         0.0213, -0.0164], device='cuda:0'), grad: tensor([ 0.0316, -0.0314, -0.0124,  0.0637,  0.0213,  0.0282,  0.0045,  0.0291,
+        -0.1285, -0.0060], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 195, time 216.69, cls_loss 0.5305 cls_loss_mapping 0.0128 cls_loss_causal 0.5026 re_mapping 0.0082 re_causal 0.0194 /// teacc 98.85 lr 0.00010000
+Epoch 197, weight, value: tensor([[-0.0567, -0.0688, -0.1267,  ...,  0.1068, -0.0422,  0.0332],
+        [-0.0716,  0.0926, -0.0699,  ...,  0.0386, -0.0537, -0.0852],
+        [-0.0409,  0.0791, -0.0973,  ..., -0.0260,  0.0301,  0.1096],
+        ...,
+        [-0.0002,  0.0556, -0.0044,  ..., -0.0089,  0.0242, -0.0552],
+        [ 0.0800, -0.0862,  0.0339,  ...,  0.0075,  0.0075, -0.0401],
+        [-0.0195, -0.0697,  0.0679,  ..., -0.0583,  0.0211, -0.0142]],
+       device='cuda:0'), grad: tensor([[ 0.0010,  0.0002,  0.0002,  ...,  0.0134,  0.0002,  0.0016],
+        [ 0.0008,  0.0021,  0.0004,  ...,  0.0053,  0.0004,  0.0010],
+        [ 0.0012,  0.0002,  0.0004,  ...,  0.0010, -0.0017, -0.0014],
+        ...,
+        [ 0.0024, -0.0061, -0.0073,  ..., -0.0098, -0.0042, -0.0027],
+        [ 0.0017,  0.0010,  0.0021,  ...,  0.0085,  0.0018,  0.0025],
+        [ 0.0020,  0.0016,  0.0041,  ...,  0.0044,  0.0012,  0.0017]],
+       device='cuda:0')
+Epoch 197, bias, value: tensor([ 0.0151, -0.0159, -0.0076,  0.0064, -0.0199, -0.0141,  0.0150, -0.0011,
+         0.0216, -0.0161], device='cuda:0'), grad: tensor([ 0.0220,  0.0215,  0.0115,  0.0169, -0.0196, -0.0022, -0.0400, -0.0699,
+         0.0333,  0.0266], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 196, time 216.76, cls_loss 0.5386 cls_loss_mapping 0.0062 cls_loss_causal 0.5094 re_mapping 0.0083 re_causal 0.0218 /// teacc 98.66 lr 0.00010000
+Epoch 198, weight, value: tensor([[-0.0563, -0.0687, -0.1287,  ...,  0.1065, -0.0441,  0.0325],
+        [-0.0718,  0.0936, -0.0695,  ...,  0.0376, -0.0535, -0.0847],
+        [-0.0415,  0.0789, -0.0970,  ..., -0.0235,  0.0300,  0.1108],
+        ...,
+        [-0.0006,  0.0567, -0.0044,  ..., -0.0096,  0.0259, -0.0549],
+        [ 0.0790, -0.0875,  0.0344,  ...,  0.0066,  0.0072, -0.0407],
+        [-0.0194, -0.0702,  0.0687,  ..., -0.0589,  0.0212, -0.0150]],
+       device='cuda:0'), grad: tensor([[ 8.3804e-05,  1.0252e-03,  5.0449e-04,  ...,  3.0117e-03,
+          1.8110e-03,  1.5049e-03],
+        [ 5.2780e-05, -1.9932e-03, -2.9850e-03,  ..., -1.8568e-03,
+         -5.3139e-03,  1.6088e-03],
+        [ 2.4334e-05,  2.9068e-03,  1.1053e-03,  ...,  5.6496e-03,
+          3.8490e-03,  3.4618e-03],
+        ...,
+        [ 7.1883e-05,  3.1242e-03,  1.6050e-03,  ...,  4.1466e-03,
+          1.2121e-03,  2.1420e-03],
+        [ 1.8072e-04, -6.1560e-04,  5.5933e-04,  ..., -2.4071e-03,
+          1.5087e-03, -1.8549e-03],
+        [ 2.2292e-04,  1.0328e-03,  1.3123e-03,  ...,  2.6836e-03,
+          2.4376e-03,  1.0376e-03]], device='cuda:0')
+Epoch 198, bias, value: tensor([ 0.0152, -0.0163, -0.0068,  0.0052, -0.0185, -0.0155,  0.0155, -0.0013,
+         0.0219, -0.0160], device='cuda:0'), grad: tensor([ 0.0184, -0.0089,  0.0383, -0.0428, -0.0173,  0.0281, -0.0099,  0.0242,
+        -0.0500,  0.0200], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 197, time 217.04, cls_loss 0.5219 cls_loss_mapping 0.0110 cls_loss_causal 0.4923 re_mapping 0.0080 re_causal 0.0204 /// teacc 98.79 lr 0.00010000
+Epoch 199, weight, value: tensor([[-0.0543, -0.0697, -0.1288,  ...,  0.1079, -0.0444,  0.0333],
+        [-0.0718,  0.0946, -0.0701,  ...,  0.0375, -0.0528, -0.0844],
+        [-0.0413,  0.0776, -0.0970,  ..., -0.0245,  0.0299,  0.1103],
+        ...,
+        [-0.0006,  0.0576, -0.0044,  ..., -0.0095,  0.0255, -0.0540],
+        [ 0.0785, -0.0874,  0.0336,  ...,  0.0066,  0.0062, -0.0416],
+        [-0.0200, -0.0705,  0.0695,  ..., -0.0589,  0.0218, -0.0150]],
+       device='cuda:0'), grad: tensor([[ 5.2786e-04, -6.7043e-04,  1.0538e-04,  ..., -4.2152e-03,
+          5.1880e-04,  2.6631e-04],
+        [ 3.1414e-03,  1.5678e-03,  1.6779e-05,  ..., -4.3602e-03,
+          8.3685e-05, -2.8954e-03],
+        [ 1.3466e-03,  1.9894e-03,  1.4138e-04,  ...,  3.9978e-03,
+          7.2289e-04,  4.3640e-03],
+        ...,
+        [ 5.5408e-04, -1.7099e-03, -7.4959e-04,  ..., -1.1406e-03,
+         -2.3575e-03, -4.4899e-03],
+        [-6.4774e-03, -4.6387e-03,  2.0623e-05,  ..., -3.4237e-03,
+          8.6427e-05, -1.6689e-03],
+        [ 6.0749e-04,  4.3106e-04,  6.8963e-05,  ...,  1.1091e-03,
+          4.0829e-05,  8.2493e-04]], device='cuda:0')
+Epoch 199, bias, value: tensor([ 0.0148, -0.0166, -0.0071,  0.0055, -0.0191, -0.0153,  0.0158, -0.0011,
+         0.0221, -0.0155], device='cuda:0'), grad: tensor([-0.0083,  0.0034,  0.0416, -0.0122,  0.0221, -0.0122,  0.0219, -0.0146,
+        -0.0549,  0.0132], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 198, time 216.67, cls_loss 0.5287 cls_loss_mapping 0.0069 cls_loss_causal 0.4944 re_mapping 0.0079 re_causal 0.0200 /// teacc 98.71 lr 0.00010000
+Epoch 200, weight, value: tensor([[-0.0549, -0.0703, -0.1299,  ...,  0.1072, -0.0461,  0.0331],
+        [-0.0719,  0.0948, -0.0687,  ...,  0.0390, -0.0533, -0.0856],
+        [-0.0415,  0.0782, -0.0965,  ..., -0.0237,  0.0302,  0.1108],
+        ...,
+        [-0.0015,  0.0589, -0.0033,  ..., -0.0090,  0.0274, -0.0537],
+        [ 0.0798, -0.0884,  0.0330,  ...,  0.0071,  0.0063, -0.0417],
+        [-0.0191, -0.0723,  0.0686,  ..., -0.0606,  0.0212, -0.0141]],
+       device='cuda:0'), grad: tensor([[ 6.3229e-04,  5.1975e-04,  2.5415e-04,  ...,  2.9964e-03,
+          5.0831e-04,  1.7538e-03],
+        [ 4.3297e-03,  3.8280e-03,  3.7730e-05,  ..., -1.5812e-03,
+          9.0122e-05, -6.6519e-04],
+        [ 2.3479e-03,  4.1389e-03,  1.7662e-03,  ...,  1.6136e-03,
+          3.9673e-03, -4.6420e-04],
+        ...,
+        [-7.0229e-03, -1.1215e-02, -2.2590e-05,  ..., -6.9351e-03,
+          9.8646e-05,  7.2193e-04],
+        [ 1.8656e-04,  7.4148e-04,  3.9756e-05,  ...,  3.0880e-03,
+          2.1374e-04, -1.1854e-03],
+        [ 1.4639e-04, -7.5865e-04,  1.0639e-04,  ..., -1.0147e-03,
+          1.7333e-04, -1.6613e-03]], device='cuda:0')
+Epoch 200, bias, value: tensor([ 0.0141, -0.0170, -0.0063,  0.0059, -0.0188, -0.0147,  0.0152, -0.0001,
+         0.0215, -0.0163], device='cuda:0'), grad: tensor([ 0.0214, -0.0224,  0.0393, -0.0388,  0.0242, -0.0116,  0.0065, -0.0366,
+         0.0365, -0.0185], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 199, time 216.91, cls_loss 0.5129 cls_loss_mapping 0.0062 cls_loss_causal 0.4736 re_mapping 0.0082 re_causal 0.0209 /// teacc 98.85 lr 0.00010000
+Epoch 201, weight, value: tensor([[-0.0553, -0.0699, -0.1297,  ...,  0.1069, -0.0464,  0.0313],
+        [-0.0720,  0.0951, -0.0694,  ...,  0.0376, -0.0540, -0.0854],
+        [-0.0399,  0.0781, -0.0971,  ..., -0.0232,  0.0305,  0.1124],
+        ...,
+        [-0.0023,  0.0580, -0.0031,  ..., -0.0087,  0.0263, -0.0550],
+        [ 0.0788, -0.0876,  0.0329,  ...,  0.0086,  0.0060, -0.0416],
+        [-0.0193, -0.0720,  0.0688,  ..., -0.0606,  0.0217, -0.0137]],
+       device='cuda:0'), grad: tensor([[-3.4666e-04,  1.5473e-04, -1.8692e-03,  ..., -2.3460e-03,
+         -1.2636e-05,  5.6791e-04],
+        [ 9.5291e-03,  7.4005e-03,  1.2445e-04,  ..., -2.2507e-03,
+          2.8896e-04,  4.2844e-04],
+        [ 3.4738e-04,  1.4293e-04,  9.4831e-05,  ...,  8.9550e-04,
+          8.1968e-04,  3.9959e-04],
+        ...,
+        [ 8.4066e-04,  1.5020e-03,  1.4029e-03,  ...,  1.0376e-03,
+          9.3126e-04,  9.7275e-04],
+        [ 8.8692e-04,  4.6396e-04,  9.8610e-04,  ...,  8.5354e-04,
+          6.6471e-04,  1.8299e-04],
+        [-3.2306e-04,  4.6873e-04,  1.3123e-03,  ..., -1.0271e-03,
+         -2.4853e-03, -3.8643e-03]], device='cuda:0')
+Epoch 201, bias, value: tensor([ 0.0141, -0.0164, -0.0070,  0.0062, -0.0187, -0.0143,  0.0141, -0.0011,
+         0.0227, -0.0162], device='cuda:0'), grad: tensor([ 0.0024,  0.0267,  0.0133,  0.0044, -0.0073, -0.0117, -0.0168,  0.0185,
+        -0.0157, -0.0138], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 200, time 216.72, cls_loss 0.5086 cls_loss_mapping 0.0066 cls_loss_causal 0.4740 re_mapping 0.0086 re_causal 0.0219 /// teacc 98.69 lr 0.00010000
+Epoch 202, weight, value: tensor([[-0.0554, -0.0692, -0.1295,  ...,  0.1073, -0.0465,  0.0321],
+        [-0.0721,  0.0937, -0.0699,  ...,  0.0390, -0.0540, -0.0853],
+        [-0.0397,  0.0783, -0.0970,  ..., -0.0238,  0.0301,  0.1127],
+        ...,
+        [-0.0029,  0.0587, -0.0018,  ..., -0.0087,  0.0274, -0.0554],
+        [ 0.0786, -0.0892,  0.0342,  ...,  0.0072,  0.0067, -0.0412],
+        [-0.0183, -0.0716,  0.0673,  ..., -0.0594,  0.0201, -0.0142]],
+       device='cuda:0'), grad: tensor([[-0.0005,  0.0003,  0.0195,  ...,  0.0004,  0.0260, -0.0002],
+        [ 0.0003, -0.0007,  0.0002,  ..., -0.0027, -0.0003, -0.0004],
+        [ 0.0002,  0.0003,  0.0006,  ...,  0.0004,  0.0005,  0.0005],
+        ...,
+        [ 0.0025,  0.0094,  0.0165,  ...,  0.0009,  0.0223,  0.0002],
+        [-0.0023, -0.0034, -0.0045,  ..., -0.0017, -0.0005,  0.0030],
+        [-0.0024, -0.0080, -0.0346,  ...,  0.0008, -0.0491, -0.0035]],
+       device='cuda:0')
+Epoch 202, bias, value: tensor([ 0.0150, -0.0162, -0.0073,  0.0056, -0.0194, -0.0140,  0.0139, -0.0007,
+         0.0222, -0.0156], device='cuda:0'), grad: tensor([-3.6359e-05, -6.2439e-02,  1.2146e-02,  1.1154e-02,  9.7122e-03,
+         1.3866e-03,  2.5620e-02,  5.1086e-02, -6.4621e-03, -4.2175e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 201, time 216.63, cls_loss 0.5181 cls_loss_mapping 0.0064 cls_loss_causal 0.4961 re_mapping 0.0082 re_causal 0.0222 /// teacc 98.75 lr 0.00010000
+Epoch 203, weight, value: tensor([[-0.0551, -0.0694, -0.1293,  ...,  0.1069, -0.0460,  0.0324],
+        [-0.0721,  0.0936, -0.0702,  ...,  0.0400, -0.0540, -0.0863],
+        [-0.0406,  0.0783, -0.0976,  ..., -0.0244,  0.0300,  0.1124],
+        ...,
+        [-0.0030,  0.0596, -0.0019,  ..., -0.0084,  0.0271, -0.0541],
+        [ 0.0785, -0.0903,  0.0348,  ...,  0.0071,  0.0079, -0.0428],
+        [-0.0184, -0.0723,  0.0684,  ..., -0.0599,  0.0207, -0.0141]],
+       device='cuda:0'), grad: tensor([[ 5.0187e-05,  3.6407e-04,  3.3498e-05,  ...,  5.1546e-04,
+          9.6679e-05,  2.5225e-04],
+        [ 9.5308e-05,  6.6566e-04,  1.5056e-04,  ..., -4.3907e-03,
+          2.5129e-04,  3.7313e-04],
+        [ 8.1539e-05, -8.3685e-04,  1.2612e-04,  ..., -9.2030e-04,
+         -1.1616e-03, -1.4944e-03],
+        ...,
+        [-1.5383e-03, -4.2763e-03, -6.9237e-04,  ..., -1.5478e-03,
+         -5.2309e-04, -1.2064e-03],
+        [ 1.9276e-04,  4.8327e-04,  1.5748e-04,  ...,  1.1997e-03,
+          2.1529e-04,  2.8563e-04],
+        [ 7.4577e-04,  1.3971e-03,  6.8378e-04,  ...,  8.0824e-04,
+          3.9768e-04,  2.5010e-04]], device='cuda:0')
+Epoch 203, bias, value: tensor([ 0.0149, -0.0156, -0.0076,  0.0057, -0.0194, -0.0147,  0.0141, -0.0006,
+         0.0220, -0.0155], device='cuda:0'), grad: tensor([ 0.0146, -0.0016, -0.0099, -0.0049,  0.0136,  0.0171, -0.0118, -0.0589,
+         0.0181,  0.0238], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 202, time 216.72, cls_loss 0.5084 cls_loss_mapping 0.0065 cls_loss_causal 0.4754 re_mapping 0.0079 re_causal 0.0199 /// teacc 98.80 lr 0.00010000
+Epoch 204, weight, value: tensor([[-0.0566, -0.0686, -0.1302,  ...,  0.1065, -0.0471,  0.0315],
+        [-0.0723,  0.0937, -0.0715,  ...,  0.0396, -0.0541, -0.0879],
+        [-0.0403,  0.0785, -0.0973,  ..., -0.0243,  0.0303,  0.1129],
+        ...,
+        [-0.0031,  0.0587, -0.0021,  ..., -0.0089,  0.0270, -0.0550],
+        [ 0.0769, -0.0899,  0.0353,  ...,  0.0067,  0.0080, -0.0424],
+        [-0.0175, -0.0719,  0.0691,  ..., -0.0596,  0.0210, -0.0144]],
+       device='cuda:0'), grad: tensor([[ 2.2352e-08,  2.5535e-04,  7.6342e-04,  ...,  6.5804e-04,
+          6.7139e-04,  1.7281e-03],
+        [ 3.0965e-05,  1.4086e-03,  1.1170e-04,  ...,  3.3587e-05,
+          9.1314e-05,  5.4419e-05],
+        [ 3.3192e-06,  2.8324e-04,  4.1866e-04,  ..., -1.4412e-02,
+         -8.0109e-03, -1.3115e-02],
+        ...,
+        [-3.6359e-05, -1.6079e-03,  1.7548e-03,  ...,  3.5465e-06,
+          1.0929e-03,  2.0874e-04],
+        [ 5.8673e-07, -5.4979e-04, -6.8903e-04,  ...,  1.2970e-02,
+          7.7171e-03,  8.8501e-03],
+        [ 3.5334e-06, -7.2598e-05, -3.3398e-03,  ...,  1.9252e-04,
+         -3.5114e-03,  2.6107e-04]], device='cuda:0')
+Epoch 204, bias, value: tensor([ 0.0143, -0.0162, -0.0078,  0.0058, -0.0184, -0.0139,  0.0145, -0.0010,
+         0.0211, -0.0150], device='cuda:0'), grad: tensor([ 0.0104,  0.0023, -0.0247,  0.0062,  0.0034,  0.0068,  0.0014,  0.0039,
+         0.0085, -0.0184], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 203, time 216.42, cls_loss 0.5232 cls_loss_mapping 0.0069 cls_loss_causal 0.4965 re_mapping 0.0081 re_causal 0.0203 /// teacc 98.83 lr 0.00010000
+Epoch 205, weight, value: tensor([[-0.0567, -0.0683, -0.1302,  ...,  0.1072, -0.0469,  0.0315],
+        [-0.0731,  0.0936, -0.0718,  ...,  0.0394, -0.0540, -0.0877],
+        [-0.0382,  0.0788, -0.0967,  ..., -0.0229,  0.0308,  0.1130],
+        ...,
+        [-0.0025,  0.0583, -0.0029,  ..., -0.0110,  0.0256, -0.0557],
+        [ 0.0773, -0.0899,  0.0347,  ...,  0.0070,  0.0074, -0.0422],
+        [-0.0183, -0.0728,  0.0689,  ..., -0.0609,  0.0215, -0.0152]],
+       device='cuda:0'), grad: tensor([[-1.0030e-06,  1.5950e-04, -6.7902e-04,  ...,  7.4196e-04,
+         -7.6914e-04, -2.4104e-04],
+        [ 2.0992e-06,  9.6381e-05,  2.4414e-04,  ...,  5.3596e-04,
+          2.9016e-04,  4.1771e-04],
+        [ 2.5146e-07,  1.2082e-04,  1.9324e-04,  ...,  1.2999e-03,
+          8.1491e-04,  6.0844e-04],
+        ...,
+        [ 9.1434e-05,  3.4485e-03,  8.6517e-03,  ...,  1.8902e-03,
+          2.2221e-03,  7.4291e-04],
+        [ 4.8950e-06,  1.3018e-04,  3.1209e-04,  ...,  3.1233e-04,
+          4.4680e-04,  4.0436e-04],
+        [ 2.0635e-04, -6.1989e-04, -7.6246e-04,  ...,  4.4012e-04,
+         -1.2398e-03,  2.9135e-04]], device='cuda:0')
+Epoch 205, bias, value: tensor([ 0.0151, -0.0161, -0.0087,  0.0059, -0.0184, -0.0150,  0.0147, -0.0012,
+         0.0227, -0.0157], device='cuda:0'), grad: tensor([-0.0184,  0.0141,  0.0148, -0.0172, -0.0522,  0.0118,  0.0158,  0.0360,
+         0.0121, -0.0170], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 204, time 216.19, cls_loss 0.5225 cls_loss_mapping 0.0073 cls_loss_causal 0.4965 re_mapping 0.0080 re_causal 0.0195 /// teacc 98.54 lr 0.00010000
+Epoch 206, weight, value: tensor([[-0.0574, -0.0687, -0.1300,  ...,  0.1069, -0.0460,  0.0324],
+        [-0.0733,  0.0926, -0.0708,  ...,  0.0393, -0.0537, -0.0870],
+        [-0.0376,  0.0795, -0.0972,  ..., -0.0226,  0.0304,  0.1121],
+        ...,
+        [-0.0024,  0.0565, -0.0036,  ..., -0.0125,  0.0250, -0.0563],
+        [ 0.0769, -0.0878,  0.0342,  ...,  0.0065,  0.0067, -0.0431],
+        [-0.0168, -0.0711,  0.0699,  ..., -0.0603,  0.0224, -0.0142]],
+       device='cuda:0'), grad: tensor([[-1.0960e-05,  2.3222e-04,  2.3961e-04,  ..., -2.1040e-04,
+         -3.0766e-03, -4.0321e-03],
+        [ 3.1944e-07, -1.1015e-03,  1.1873e-04,  ..., -6.6338e-03,
+          1.1522e-04, -2.2087e-03],
+        [ 1.4648e-05,  3.8934e-04,  6.1631e-05,  ...,  3.5596e-04,
+          6.7329e-04,  2.6627e-03],
+        ...,
+        [ 2.7008e-07, -2.1114e-03,  5.2303e-05,  ...,  1.9670e-04,
+          3.7193e-04,  9.5034e-04],
+        [-4.2877e-03,  1.4000e-03,  1.9932e-04,  ...,  3.3360e-03,
+          6.5517e-04,  1.0700e-03],
+        [ 3.0380e-06,  7.6866e-04, -1.7975e-02,  ...,  3.3545e-04,
+         -3.1036e-02,  1.7500e-03]], device='cuda:0')
+Epoch 206, bias, value: tensor([ 0.0144, -0.0155, -0.0081,  0.0055, -0.0178, -0.0143,  0.0146, -0.0020,
+         0.0222, -0.0155], device='cuda:0'), grad: tensor([-0.0369, -0.0236, -0.0049,  0.0156,  0.0212,  0.0086,  0.0255, -0.0214,
+         0.0165, -0.0006], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 205, time 216.32, cls_loss 0.5050 cls_loss_mapping 0.0070 cls_loss_causal 0.4875 re_mapping 0.0086 re_causal 0.0208 /// teacc 98.78 lr 0.00010000
+Epoch 207, weight, value: tensor([[-0.0567, -0.0698, -0.1298,  ...,  0.1065, -0.0455,  0.0332],
+        [-0.0722,  0.0937, -0.0706,  ...,  0.0401, -0.0534, -0.0862],
+        [-0.0371,  0.0804, -0.0979,  ..., -0.0231,  0.0299,  0.1125],
+        ...,
+        [-0.0032,  0.0556, -0.0043,  ..., -0.0112,  0.0249, -0.0563],
+        [ 0.0767, -0.0887,  0.0341,  ...,  0.0058,  0.0060, -0.0435],
+        [-0.0175, -0.0708,  0.0702,  ..., -0.0610,  0.0228, -0.0152]],
+       device='cuda:0'), grad: tensor([[ 4.4078e-05,  9.0790e-04,  1.5485e-04,  ...,  4.6229e-04,
+          1.1177e-03,  1.7319e-03],
+        [-1.2022e-04,  6.9923e-03,  6.0225e-04,  ...,  1.3115e-02,
+          1.2083e-03,  2.2583e-03],
+        [-1.5032e-04, -2.2202e-03,  3.9601e-04,  ..., -2.2984e-03,
+          3.0212e-03,  3.5191e-03],
+        ...,
+        [ 4.6420e-04, -3.8891e-03,  6.3848e-04,  ..., -2.0008e-03,
+          2.0866e-03, -1.6594e-03],
+        [-1.1196e-03,  7.9393e-04, -4.4899e-03,  ..., -8.1778e-04,
+         -2.4304e-05,  1.6708e-03],
+        [ 2.2531e-04, -4.0932e-03,  7.8583e-03,  ..., -1.0597e-02,
+          3.8013e-03,  2.1076e-03]], device='cuda:0')
+Epoch 207, bias, value: tensor([ 0.0145, -0.0147, -0.0077,  0.0051, -0.0177, -0.0144,  0.0153, -0.0019,
+         0.0207, -0.0157], device='cuda:0'), grad: tensor([ 0.0169,  0.0583,  0.0162,  0.0084, -0.0091,  0.0286, -0.0335, -0.0019,
+        -0.0598, -0.0240], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 206, time 216.75, cls_loss 0.5316 cls_loss_mapping 0.0062 cls_loss_causal 0.4981 re_mapping 0.0081 re_causal 0.0206 /// teacc 98.82 lr 0.00010000
+Epoch 208, weight, value: tensor([[-0.0569, -0.0705, -0.1300,  ...,  0.1080, -0.0454,  0.0329],
+        [-0.0720,  0.0939, -0.0712,  ...,  0.0391, -0.0543, -0.0864],
+        [-0.0364,  0.0806, -0.0974,  ..., -0.0216,  0.0304,  0.1135],
+        ...,
+        [-0.0041,  0.0554, -0.0041,  ..., -0.0116,  0.0248, -0.0556],
+        [ 0.0772, -0.0886,  0.0338,  ...,  0.0049,  0.0057, -0.0436],
+        [-0.0177, -0.0705,  0.0697,  ..., -0.0605,  0.0231, -0.0159]],
+       device='cuda:0'), grad: tensor([[-7.7486e-07,  5.0217e-05,  2.0361e-04,  ..., -3.5686e-03,
+         -3.2578e-03,  6.4945e-04],
+        [ 1.8626e-09, -3.3617e-04,  4.8429e-05,  ..., -1.0103e-04,
+          1.0437e-04,  2.1064e-04],
+        [ 1.0151e-07,  7.0305e-03,  1.6522e-04,  ...,  9.5844e-04,
+          3.2663e-04,  8.8272e-03],
+        ...,
+        [-2.0489e-08,  9.4622e-06, -4.8828e-04,  ...,  4.5800e-04,
+          1.1414e-05,  3.2306e-04],
+        [ 3.6322e-08,  1.9348e-04,  1.1986e-04,  ...,  5.4169e-04,
+          2.1839e-04,  2.9826e-04],
+        [ 7.9907e-07,  6.3360e-05,  1.0223e-03,  ...,  4.0841e-04,
+          5.8079e-04,  2.9469e-04]], device='cuda:0')
+Epoch 208, bias, value: tensor([ 0.0147, -0.0155, -0.0066,  0.0050, -0.0181, -0.0140,  0.0155, -0.0014,
+         0.0200, -0.0161], device='cuda:0'), grad: tensor([-0.0316,  0.0025,  0.0369, -0.0544,  0.0055,  0.0153,  0.0086,  0.0054,
+         0.0055,  0.0065], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 207, time 216.89, cls_loss 0.5123 cls_loss_mapping 0.0092 cls_loss_causal 0.4891 re_mapping 0.0076 re_causal 0.0194 /// teacc 98.76 lr 0.00010000
+Epoch 209, weight, value: tensor([[-0.0571, -0.0721, -0.1308,  ...,  0.1063, -0.0461,  0.0316],
+        [-0.0714,  0.0948, -0.0702,  ...,  0.0399, -0.0529, -0.0869],
+        [-0.0368,  0.0812, -0.0959,  ..., -0.0230,  0.0302,  0.1123],
+        ...,
+        [-0.0041,  0.0543, -0.0046,  ..., -0.0107,  0.0249, -0.0560],
+        [ 0.0764, -0.0893,  0.0345,  ...,  0.0053,  0.0062, -0.0435],
+        [-0.0160, -0.0694,  0.0698,  ..., -0.0597,  0.0226, -0.0148]],
+       device='cuda:0'), grad: tensor([[ 1.2573e-07,  7.2813e-04,  2.0325e-04,  ...,  2.9755e-04,
+          5.4300e-05,  2.5606e-04],
+        [ 1.7099e-06, -1.2146e-02,  5.9938e-04,  ..., -3.6125e-03,
+          4.7493e-04, -3.0136e-03],
+        [ 3.3155e-07,  8.5297e-03,  6.3515e-04,  ...,  2.6379e-03,
+         -2.3155e-03, -1.8091e-03],
+        ...,
+        [ 2.8580e-05, -1.8206e-03, -4.4136e-03,  ..., -4.3106e-04,
+         -6.0120e-03,  1.1253e-03],
+        [ 3.6228e-07,  1.6985e-03,  1.8177e-03,  ...,  6.2943e-04,
+          1.5087e-03,  1.4181e-03],
+        [ 1.2755e-04,  1.1959e-03, -8.3466e-03,  ..., -1.1616e-03,
+         -1.3342e-03, -5.9557e-04]], device='cuda:0')
+Epoch 209, bias, value: tensor([ 0.0143, -0.0143, -0.0073,  0.0049, -0.0187, -0.0138,  0.0156, -0.0015,
+         0.0203, -0.0160], device='cuda:0'), grad: tensor([ 0.0040, -0.0563,  0.0292, -0.0069,  0.0052,  0.0272, -0.0113, -0.0033,
+         0.0220, -0.0098], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 208, time 216.83, cls_loss 0.5193 cls_loss_mapping 0.0060 cls_loss_causal 0.4858 re_mapping 0.0080 re_causal 0.0193 /// teacc 98.69 lr 0.00010000
+Epoch 210, weight, value: tensor([[-0.0570, -0.0704, -0.1297,  ...,  0.1076, -0.0457,  0.0316],
+        [-0.0714,  0.0947, -0.0721,  ...,  0.0402, -0.0543, -0.0870],
+        [-0.0373,  0.0810, -0.0945,  ..., -0.0236,  0.0313,  0.1129],
+        ...,
+        [-0.0048,  0.0546, -0.0046,  ..., -0.0108,  0.0251, -0.0565],
+        [ 0.0774, -0.0902,  0.0348,  ...,  0.0059,  0.0059, -0.0419],
+        [-0.0161, -0.0698,  0.0696,  ..., -0.0600,  0.0224, -0.0144]],
+       device='cuda:0'), grad: tensor([[ 1.8282e-06,  6.5327e-04,  2.1343e-03,  ...,  2.9602e-03,
+          2.3785e-03,  5.2643e-04],
+        [ 2.2724e-07,  7.8440e-04, -2.3842e-03,  ..., -9.5367e-04,
+         -2.6493e-03,  2.0301e-04],
+        [ 1.5162e-05, -5.2643e-04,  1.5640e-03,  ..., -4.3559e-04,
+          2.6493e-03,  5.5933e-04],
+        ...,
+        [ 6.9290e-07, -1.4896e-03, -7.7152e-04,  ...,  5.6267e-04,
+         -2.3499e-03, -1.1158e-03],
+        [ 4.1395e-05, -6.9284e-04, -4.6997e-03,  ..., -4.5815e-03,
+          4.7379e-03,  3.0234e-05],
+        [ 7.7579e-07,  2.7966e-04,  7.3853e-03,  ...,  5.0583e-03,
+          3.3417e-03,  2.4700e-04]], device='cuda:0')
+Epoch 210, bias, value: tensor([ 0.0165, -0.0152, -0.0078,  0.0059, -0.0182, -0.0141,  0.0145, -0.0024,
+         0.0201, -0.0157], device='cuda:0'), grad: tensor([ 0.0238, -0.0191,  0.0077, -0.0122,  0.0218, -0.0419,  0.0141, -0.0228,
+        -0.0062,  0.0348], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 209, time 216.83, cls_loss 0.5197 cls_loss_mapping 0.0056 cls_loss_causal 0.4911 re_mapping 0.0082 re_causal 0.0203 /// teacc 98.75 lr 0.00010000
+Epoch 211, weight, value: tensor([[-0.0573, -0.0711, -0.1288,  ...,  0.1074, -0.0460,  0.0318],
+        [-0.0723,  0.0947, -0.0721,  ...,  0.0406, -0.0528, -0.0868],
+        [-0.0379,  0.0812, -0.0957,  ..., -0.0252,  0.0310,  0.1126],
+        ...,
+        [-0.0056,  0.0548, -0.0047,  ..., -0.0106,  0.0257, -0.0565],
+        [ 0.0777, -0.0903,  0.0347,  ...,  0.0048,  0.0053, -0.0424],
+        [-0.0147, -0.0705,  0.0697,  ..., -0.0612,  0.0224, -0.0150]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  2.4724e-04,  7.4911e-04,  ..., -1.3218e-03,
+         -4.8876e-04, -4.3774e-04],
+        [ 4.6566e-09,  4.0665e-03,  3.4580e-03,  ...,  5.4436e-03,
+          1.0853e-03,  1.2696e-04],
+        [ 6.5193e-09,  9.9277e-04, -6.1455e-03,  ..., -2.9964e-03,
+         -5.4970e-03,  7.5102e-04],
+        ...,
+        [ 9.6709e-06,  9.4223e-04,  5.1460e-03,  ...,  3.7518e-03,
+          4.2191e-03,  8.3208e-04],
+        [ 5.6904e-07, -4.3907e-03, -9.2840e-04,  ..., -5.4436e-03,
+          9.5844e-04,  6.3276e-04],
+        [-2.4557e-05, -3.3913e-03, -5.7907e-03,  ..., -2.0866e-03,
+         -3.4103e-03, -2.5082e-03]], device='cuda:0')
+Epoch 211, bias, value: tensor([ 0.0165, -0.0149, -0.0087,  0.0056, -0.0181, -0.0134,  0.0143, -0.0014,
+         0.0198, -0.0161], device='cuda:0'), grad: tensor([ 0.0022, -0.0071, -0.0156,  0.0210,  0.0048,  0.0200, -0.0157,  0.0278,
+        -0.0158, -0.0217], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 210, time 217.12, cls_loss 0.5083 cls_loss_mapping 0.0055 cls_loss_causal 0.4831 re_mapping 0.0079 re_causal 0.0197 /// teacc 98.71 lr 0.00010000
+Epoch 212, weight, value: tensor([[-0.0563, -0.0720, -0.1303,  ...,  0.1076, -0.0460,  0.0313],
+        [-0.0722,  0.0928, -0.0731,  ...,  0.0413, -0.0536, -0.0873],
+        [-0.0384,  0.0822, -0.0952,  ..., -0.0238,  0.0315,  0.1137],
+        ...,
+        [-0.0059,  0.0549, -0.0049,  ..., -0.0116,  0.0258, -0.0569],
+        [ 0.0774, -0.0906,  0.0337,  ...,  0.0045,  0.0035, -0.0432],
+        [-0.0142, -0.0702,  0.0707,  ..., -0.0603,  0.0231, -0.0148]],
+       device='cuda:0'), grad: tensor([[-3.9153e-06,  3.7289e-04,  1.8530e-03,  ...,  4.2772e-04,
+          1.1377e-03,  4.4556e-03],
+        [ 7.2736e-07, -1.3971e-03,  2.9564e-04,  ..., -1.4992e-03,
+         -3.2663e-04, -7.6866e-04],
+        [ 6.4969e-05, -2.8419e-03, -6.2027e-03,  ..., -7.7400e-03,
+         -6.2027e-03,  1.2326e-04],
+        ...,
+        [ 2.9914e-06,  1.5936e-03,  2.7046e-03,  ...,  5.3673e-03,
+          3.7708e-03,  2.7294e-03],
+        [-9.4175e-05,  9.9003e-05, -1.5373e-03,  ..., -2.9449e-03,
+         -4.4479e-03, -6.4240e-03],
+        [ 4.2394e-06,  1.0628e-04,  4.3869e-04,  ...,  9.5844e-05,
+          5.5771e-03,  7.6008e-04]], device='cuda:0')
+Epoch 212, bias, value: tensor([ 0.0160, -0.0152, -0.0083,  0.0056, -0.0184, -0.0132,  0.0142, -0.0013,
+         0.0190, -0.0150], device='cuda:0'), grad: tensor([ 0.0323, -0.0105, -0.0276,  0.0217,  0.0123,  0.0191, -0.0064, -0.0231,
+        -0.0058, -0.0121], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 211, time 216.93, cls_loss 0.4971 cls_loss_mapping 0.0056 cls_loss_causal 0.4696 re_mapping 0.0082 re_causal 0.0210 /// teacc 98.73 lr 0.00010000
+Epoch 213, weight, value: tensor([[-0.0563, -0.0719, -0.1299,  ...,  0.1078, -0.0464,  0.0321],
+        [-0.0729,  0.0935, -0.0733,  ...,  0.0421, -0.0537, -0.0873],
+        [-0.0384,  0.0820, -0.0952,  ..., -0.0226,  0.0320,  0.1141],
+        ...,
+        [-0.0052,  0.0538, -0.0040,  ..., -0.0125,  0.0264, -0.0577],
+        [ 0.0776, -0.0904,  0.0339,  ...,  0.0038,  0.0033, -0.0431],
+        [-0.0140, -0.0691,  0.0708,  ..., -0.0605,  0.0229, -0.0153]],
+       device='cuda:0'), grad: tensor([[ 2.8670e-05,  8.6546e-04,  3.6550e-04,  ...,  1.2331e-03,
+          5.0575e-05,  4.3058e-04],
+        [ 6.5845e-07, -4.5013e-03, -2.5043e-03,  ..., -6.9656e-03,
+          2.5257e-05, -1.0519e-03],
+        [ 9.7394e-05,  1.7776e-03,  2.7466e-04,  ...,  1.8654e-03,
+          2.0146e-04,  1.2341e-03],
+        ...,
+        [-1.0796e-05,  1.0099e-03,  3.4451e-04,  ...,  9.8419e-04,
+          1.0943e-04,  5.7888e-04],
+        [ 3.2353e-04,  1.1501e-03,  6.1321e-04,  ...,  1.2321e-03,
+          3.0017e-04,  1.5049e-03],
+        [ 6.3121e-05,  6.3467e-04, -1.1501e-03,  ...,  8.3876e-04,
+         -2.7966e-04,  3.3188e-04]], device='cuda:0')
+Epoch 213, bias, value: tensor([ 0.0155, -0.0150, -0.0082,  0.0055, -0.0200, -0.0124,  0.0145, -0.0017,
+         0.0197, -0.0144], device='cuda:0'), grad: tensor([ 0.0136, -0.0619,  0.0210, -0.0524,  0.0097,  0.0232,  0.0095,  0.0192,
+        -0.0038,  0.0219], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 212, time 217.40, cls_loss 0.5557 cls_loss_mapping 0.0059 cls_loss_causal 0.5235 re_mapping 0.0079 re_causal 0.0206 /// teacc 98.72 lr 0.00010000
+Epoch 214, weight, value: tensor([[-0.0578, -0.0711, -0.1309,  ...,  0.1095, -0.0473,  0.0319],
+        [-0.0723,  0.0935, -0.0721,  ...,  0.0420, -0.0528, -0.0880],
+        [-0.0388,  0.0819, -0.0959,  ..., -0.0238,  0.0315,  0.1141],
+        ...,
+        [-0.0051,  0.0541, -0.0025,  ..., -0.0120,  0.0280, -0.0575],
+        [ 0.0783, -0.0912,  0.0345,  ...,  0.0046,  0.0046, -0.0428],
+        [-0.0144, -0.0694,  0.0704,  ..., -0.0623,  0.0217, -0.0156]],
+       device='cuda:0'), grad: tensor([[ 2.2662e-04,  3.4881e-04,  4.8828e-04,  ...,  4.2367e-04,
+          5.7554e-04,  1.9372e-05],
+        [ 1.0147e-03, -2.0142e-03, -9.9182e-04,  ..., -5.9128e-03,
+          1.0338e-03, -1.4753e-03],
+        [-3.5381e-03, -7.4081e-03,  4.9973e-04,  ...,  4.6802e-04,
+         -6.5651e-03, -3.4695e-03],
+        ...,
+        [-7.9536e-04, -1.3983e-04,  2.0905e-03,  ...,  3.3340e-03,
+          6.4945e-04,  6.8951e-04],
+        [ 7.2098e-04,  9.9468e-04,  2.8667e-03,  ...,  1.7929e-03,
+          3.3474e-03,  6.2990e-04],
+        [ 2.2469e-03,  2.4300e-03, -8.4839e-03,  ..., -2.4338e-03,
+         -6.8054e-03, -5.5838e-04]], device='cuda:0')
+Epoch 214, bias, value: tensor([ 0.0161, -0.0154, -0.0096,  0.0066, -0.0202, -0.0132,  0.0156, -0.0014,
+         0.0196, -0.0145], device='cuda:0'), grad: tensor([ 0.0103, -0.0318, -0.0716, -0.0030,  0.0107,  0.0401,  0.0114,  0.0261,
+         0.0224, -0.0146], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 213, time 216.98, cls_loss 0.5114 cls_loss_mapping 0.0053 cls_loss_causal 0.4887 re_mapping 0.0079 re_causal 0.0199 /// teacc 98.70 lr 0.00010000
+Epoch 215, weight, value: tensor([[-0.0594, -0.0713, -0.1309,  ...,  0.1097, -0.0472,  0.0325],
+        [-0.0712,  0.0933, -0.0722,  ...,  0.0422, -0.0521, -0.0879],
+        [-0.0388,  0.0815, -0.0977,  ..., -0.0248,  0.0310,  0.1146],
+        ...,
+        [-0.0055,  0.0544, -0.0036,  ..., -0.0111,  0.0265, -0.0569],
+        [ 0.0796, -0.0920,  0.0345,  ...,  0.0047,  0.0042, -0.0423],
+        [-0.0151, -0.0691,  0.0713,  ..., -0.0621,  0.0234, -0.0161]],
+       device='cuda:0'), grad: tensor([[ 1.5664e-04,  6.4492e-05,  3.5310e-04,  ...,  4.5109e-04,
+          2.7800e-04,  3.9387e-04],
+        [ 7.7903e-05,  1.4365e-04,  1.1247e-04,  ...,  6.1798e-04,
+          1.5402e-04,  8.3864e-05],
+        [ 1.0544e-04,  3.0935e-05,  2.1343e-03,  ...,  1.1816e-03,
+          8.5449e-03,  1.4150e-04],
+        ...,
+        [ 2.0117e-05,  1.3089e-04, -3.0365e-03,  ..., -7.9775e-04,
+         -1.7624e-02,  1.7929e-04],
+        [-2.3041e-03,  1.2165e-04,  2.1877e-03,  ...,  1.1921e-03,
+          5.1193e-03, -1.6766e-03],
+        [-2.4331e-04,  1.3983e-04,  5.0402e-04,  ...,  1.1024e-03,
+          8.5115e-05,  1.7643e-04]], device='cuda:0')
+Epoch 215, bias, value: tensor([ 0.0160, -0.0146, -0.0092,  0.0066, -0.0195, -0.0137,  0.0147, -0.0020,
+         0.0190, -0.0139], device='cuda:0'), grad: tensor([ 0.0102, -0.0187,  0.0220,  0.0144,  0.0085, -0.0268,  0.0082, -0.0135,
+        -0.0174,  0.0132], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 214, time 217.02, cls_loss 0.4933 cls_loss_mapping 0.0059 cls_loss_causal 0.4642 re_mapping 0.0075 re_causal 0.0187 /// teacc 98.61 lr 0.00010000
+Epoch 216, weight, value: tensor([[-0.0595, -0.0719, -0.1305,  ...,  0.1107, -0.0473,  0.0327],
+        [-0.0711,  0.0942, -0.0726,  ...,  0.0424, -0.0532, -0.0883],
+        [-0.0383,  0.0812, -0.0976,  ..., -0.0242,  0.0307,  0.1136],
+        ...,
+        [-0.0064,  0.0551, -0.0026,  ..., -0.0118,  0.0270, -0.0555],
+        [ 0.0792, -0.0925,  0.0342,  ...,  0.0046,  0.0039, -0.0422],
+        [-0.0152, -0.0706,  0.0710,  ..., -0.0631,  0.0237, -0.0175]],
+       device='cuda:0'), grad: tensor([[ 1.2189e-04,  4.5609e-04,  4.7565e-04,  ...,  7.7677e-04,
+          3.4857e-04,  1.9395e-04],
+        [ 6.9961e-06,  4.2200e-04,  1.1665e-04,  ...,  9.8228e-04,
+          1.1301e-04,  2.1720e-04],
+        [ 1.6201e-04,  1.6451e-03,  1.6899e-03,  ...,  2.8133e-03,
+          6.8235e-04,  1.0691e-03],
+        ...,
+        [ 2.9892e-05, -1.6689e-03,  1.0948e-03,  ..., -4.2610e-03,
+          8.2207e-04, -2.4009e-06],
+        [ 5.5283e-05,  4.7565e-04,  6.2132e-04,  ...,  1.7948e-03,
+          6.4278e-04, -2.4962e-04],
+        [ 4.1306e-05,  5.8746e-04, -9.1362e-04,  ..., -6.3038e-04,
+          4.9496e-04,  3.0327e-04]], device='cuda:0')
+Epoch 216, bias, value: tensor([ 0.0170, -0.0156, -0.0089,  0.0069, -0.0196, -0.0140,  0.0154, -0.0018,
+         0.0186, -0.0146], device='cuda:0'), grad: tensor([-0.0065,  0.0208,  0.0336, -0.0068, -0.0050,  0.0278, -0.0432, -0.0314,
+         0.0198, -0.0090], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 215, time 216.82, cls_loss 0.4883 cls_loss_mapping 0.0062 cls_loss_causal 0.4641 re_mapping 0.0075 re_causal 0.0196 /// teacc 98.50 lr 0.00010000
+Epoch 217, weight, value: tensor([[-0.0584, -0.0726, -0.1309,  ...,  0.1105, -0.0476,  0.0315],
+        [-0.0710,  0.0944, -0.0729,  ...,  0.0425, -0.0545, -0.0894],
+        [-0.0383,  0.0811, -0.0979,  ..., -0.0240,  0.0309,  0.1136],
+        ...,
+        [-0.0057,  0.0554, -0.0031,  ..., -0.0110,  0.0268, -0.0548],
+        [ 0.0804, -0.0921,  0.0339,  ...,  0.0053,  0.0032, -0.0417],
+        [-0.0160, -0.0708,  0.0710,  ..., -0.0637,  0.0236, -0.0179]],
+       device='cuda:0'), grad: tensor([[ 1.8525e-04,  5.1260e-05,  4.1872e-05,  ...,  1.1969e-03,
+          1.5459e-03,  6.0959e-03],
+        [-5.0621e-03, -4.4479e-03,  7.2896e-05,  ..., -1.1740e-03,
+          3.9250e-05,  1.4591e-04],
+        [-4.0722e-04,  4.3213e-05,  7.3612e-05,  ..., -4.6158e-03,
+         -2.2011e-03, -8.9722e-03],
+        ...,
+        [ 1.1663e-03,  7.7438e-04,  4.1771e-03,  ...,  5.8270e-04,
+          4.3917e-04,  2.3222e-04],
+        [ 2.7924e-03,  3.0899e-04,  9.0885e-04,  ...,  5.3072e-04,
+          2.0850e-04,  3.9005e-04],
+        [-8.2397e-04, -3.7700e-05, -1.1734e-02,  ...,  6.2275e-04,
+         -1.3771e-03,  6.1810e-05]], device='cuda:0')
+Epoch 217, bias, value: tensor([ 0.0167, -0.0152, -0.0089,  0.0061, -0.0193, -0.0144,  0.0166, -0.0010,
+         0.0186, -0.0158], device='cuda:0'), grad: tensor([ 0.0226, -0.0099, -0.0416,  0.0151,  0.0333, -0.0539,  0.0230,  0.0229,
+         0.0131, -0.0245], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 216, time 217.21, cls_loss 0.5205 cls_loss_mapping 0.0056 cls_loss_causal 0.4929 re_mapping 0.0074 re_causal 0.0189 /// teacc 98.74 lr 0.00010000
+Epoch 218, weight, value: tensor([[-0.0602, -0.0732, -0.1312,  ...,  0.1103, -0.0476,  0.0307],
+        [-0.0696,  0.0945, -0.0712,  ...,  0.0429, -0.0542, -0.0892],
+        [-0.0384,  0.0811, -0.0980,  ..., -0.0232,  0.0314,  0.1148],
+        ...,
+        [-0.0061,  0.0552, -0.0041,  ..., -0.0109,  0.0262, -0.0551],
+        [ 0.0810, -0.0933,  0.0342,  ...,  0.0057,  0.0037, -0.0434],
+        [-0.0163, -0.0708,  0.0712,  ..., -0.0639,  0.0235, -0.0176]],
+       device='cuda:0'), grad: tensor([[ 5.1767e-05,  4.6086e-04,  4.5252e-04,  ..., -2.7866e-03,
+          4.8590e-04, -4.3602e-03],
+        [ 1.5676e-05,  2.2364e-04,  2.5725e-04,  ...,  6.4039e-04,
+          1.2243e-04,  7.6580e-04],
+        [ 6.0171e-05, -7.4387e-04,  5.4550e-04,  ...,  1.2379e-03,
+          6.2609e-04,  6.5947e-04],
+        ...,
+        [ 5.8144e-05,  1.3329e-02,  3.0899e-03,  ...,  8.7051e-03,
+          4.9057e-03,  2.6875e-03],
+        [ 6.2406e-05, -3.2597e-03, -2.9793e-03,  ..., -9.9106e-03,
+         -5.6915e-03, -1.7614e-03],
+        [-5.2929e-04, -1.6708e-03, -4.2076e-03,  ..., -2.5787e-03,
+         -1.6441e-03, -2.0237e-03]], device='cuda:0')
+Epoch 218, bias, value: tensor([ 0.0156, -0.0146, -0.0087,  0.0060, -0.0198, -0.0145,  0.0168, -0.0012,
+         0.0181, -0.0143], device='cuda:0'), grad: tensor([-0.0160,  0.0125, -0.0127, -0.0107,  0.0186,  0.0117,  0.0287,  0.0719,
+        -0.0443, -0.0597], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 217, time 216.67, cls_loss 0.5022 cls_loss_mapping 0.0060 cls_loss_causal 0.4694 re_mapping 0.0080 re_causal 0.0200 /// teacc 98.77 lr 0.00010000
+Epoch 219, weight, value: tensor([[-0.0598, -0.0731, -0.1327,  ...,  0.1107, -0.0480,  0.0306],
+        [-0.0689,  0.0952, -0.0729,  ...,  0.0429, -0.0546, -0.0884],
+        [-0.0390,  0.0812, -0.0972,  ..., -0.0226,  0.0322,  0.1155],
+        ...,
+        [-0.0060,  0.0541, -0.0033,  ..., -0.0135,  0.0262, -0.0561],
+        [ 0.0800, -0.0930,  0.0337,  ...,  0.0053,  0.0032, -0.0438],
+        [-0.0163, -0.0715,  0.0714,  ..., -0.0637,  0.0239, -0.0178]],
+       device='cuda:0'), grad: tensor([[ 0.0004,  0.0070,  0.0002,  ...,  0.0013,  0.0053,  0.0048],
+        [ 0.0001, -0.0057,  0.0001,  ...,  0.0009, -0.0052, -0.0055],
+        [-0.0016,  0.0005,  0.0001,  ..., -0.0019,  0.0003, -0.0044],
+        ...,
+        [ 0.0007,  0.0035,  0.0018,  ...,  0.0068, -0.0025,  0.0007],
+        [ 0.0002,  0.0012,  0.0005,  ...,  0.0038,  0.0006,  0.0006],
+        [ 0.0002,  0.0012,  0.0008,  ...,  0.0021,  0.0006, -0.0018]],
+       device='cuda:0')
+Epoch 219, bias, value: tensor([ 0.0154, -0.0149, -0.0092,  0.0071, -0.0191, -0.0136,  0.0163, -0.0016,
+         0.0183, -0.0152], device='cuda:0'), grad: tensor([ 0.0505, -0.0252, -0.0115,  0.0202, -0.0131, -0.0726,  0.0320,  0.0045,
+         0.0240, -0.0087], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 218, time 217.01, cls_loss 0.5014 cls_loss_mapping 0.0062 cls_loss_causal 0.4798 re_mapping 0.0077 re_causal 0.0193 /// teacc 98.79 lr 0.00010000
+Epoch 220, weight, value: tensor([[-0.0600, -0.0739, -0.1338,  ...,  0.1113, -0.0489,  0.0303],
+        [-0.0700,  0.0965, -0.0712,  ...,  0.0441, -0.0533, -0.0877],
+        [-0.0378,  0.0805, -0.0982,  ..., -0.0241,  0.0312,  0.1152],
+        ...,
+        [-0.0057,  0.0537, -0.0026,  ..., -0.0142,  0.0265, -0.0559],
+        [ 0.0813, -0.0920,  0.0344,  ...,  0.0053,  0.0037, -0.0429],
+        [-0.0170, -0.0719,  0.0713,  ..., -0.0646,  0.0241, -0.0182]],
+       device='cuda:0'), grad: tensor([[ 9.5725e-05,  2.2268e-04, -2.2185e-04,  ..., -7.1430e-04,
+         -2.2626e-04, -1.3030e-04],
+        [ 2.3210e-04,  5.9128e-04,  3.5191e-04,  ...,  3.1052e-03,
+          2.8896e-04,  5.5933e-04],
+        [ 1.5259e-04,  3.0208e-04,  5.5218e-04,  ..., -1.1158e-03,
+          5.5981e-04, -1.3990e-03],
+        ...,
+        [ 4.0936e-04,  8.3113e-04,  1.2732e-03,  ...,  5.6610e-03,
+          4.9400e-04,  4.8280e-04],
+        [ 2.9516e-04,  6.0987e-04, -6.1560e-04,  ..., -3.0537e-03,
+          1.2140e-03,  5.4550e-04],
+        [-2.3413e-04, -1.0061e-03, -2.6340e-03,  ..., -1.7996e-03,
+         -3.3607e-03, -4.4417e-04]], device='cuda:0')
+Epoch 220, bias, value: tensor([ 0.0153, -0.0135, -0.0099,  0.0068, -0.0189, -0.0144,  0.0155, -0.0011,
+         0.0186, -0.0153], device='cuda:0'), grad: tensor([-0.0268,  0.0224, -0.0156,  0.0120,  0.0110, -0.0105,  0.0139,  0.0305,
+        -0.0055, -0.0312], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 219, time 216.83, cls_loss 0.5217 cls_loss_mapping 0.0068 cls_loss_causal 0.4897 re_mapping 0.0079 re_causal 0.0199 /// teacc 98.67 lr 0.00010000
+Epoch 221, weight, value: tensor([[-0.0613, -0.0749, -0.1333,  ...,  0.1117, -0.0488,  0.0311],
+        [-0.0702,  0.0949, -0.0705,  ...,  0.0435, -0.0526, -0.0882],
+        [-0.0381,  0.0817, -0.0979,  ..., -0.0241,  0.0309,  0.1155],
+        ...,
+        [-0.0054,  0.0536, -0.0026,  ..., -0.0131,  0.0265, -0.0567],
+        [ 0.0809, -0.0924,  0.0349,  ...,  0.0053,  0.0041, -0.0435],
+        [-0.0167, -0.0709,  0.0709,  ..., -0.0647,  0.0239, -0.0182]],
+       device='cuda:0'), grad: tensor([[-1.7519e-03,  4.7350e-04,  3.3975e-04,  ...,  9.0075e-04,
+         -3.6788e-04,  2.3767e-06],
+        [ 2.4295e-04, -8.2016e-03, -2.6965e-04,  ...,  4.5323e-04,
+         -3.4409e-03,  1.5867e-04],
+        [-1.8549e-04,  5.9853e-03,  1.0481e-03,  ...,  1.4043e-04,
+          3.5725e-03, -7.8535e-04],
+        ...,
+        [-2.1267e-03,  1.0176e-03, -1.1024e-03,  ..., -1.0780e-02,
+         -1.3638e-03,  3.4165e-04],
+        [ 3.0947e-04, -2.8104e-05,  3.1424e-04,  ...,  2.5654e-03,
+          2.0075e-04,  2.0289e-04],
+        [ 1.1072e-03,  8.8406e-04,  2.7275e-03,  ...,  4.7226e-03,
+          2.1858e-03,  4.3726e-04]], device='cuda:0')
+Epoch 221, bias, value: tensor([ 0.0151, -0.0137, -0.0101,  0.0080, -0.0184, -0.0154,  0.0152, -0.0021,
+         0.0194, -0.0146], device='cuda:0'), grad: tensor([ 0.0093, -0.0359,  0.0219, -0.0041,  0.0268, -0.0160,  0.0175, -0.0274,
+        -0.0063,  0.0142], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 220, time 217.07, cls_loss 0.4846 cls_loss_mapping 0.0069 cls_loss_causal 0.4611 re_mapping 0.0077 re_causal 0.0190 /// teacc 98.84 lr 0.00010000
+Epoch 222, weight, value: tensor([[-0.0607, -0.0735, -0.1340,  ...,  0.1116, -0.0485,  0.0313],
+        [-0.0705,  0.0945, -0.0707,  ...,  0.0429, -0.0524, -0.0891],
+        [-0.0395,  0.0839, -0.0981,  ..., -0.0231,  0.0312,  0.1155],
+        ...,
+        [-0.0047,  0.0524, -0.0025,  ..., -0.0139,  0.0260, -0.0569],
+        [ 0.0802, -0.0923,  0.0355,  ...,  0.0051,  0.0049, -0.0435],
+        [-0.0172, -0.0708,  0.0707,  ..., -0.0656,  0.0243, -0.0192]],
+       device='cuda:0'), grad: tensor([[ 2.7418e-04,  3.1471e-05,  8.2350e-04,  ...,  1.5945e-03,
+          3.6931e-04,  6.1464e-04],
+        [ 1.3905e-03, -1.4929e-06,  2.0242e-04,  ...,  5.4502e-04,
+          2.3976e-05,  2.4676e-04],
+        [-2.7237e-03,  3.1400e-04,  1.8895e-04,  ..., -5.4588e-03,
+          6.7186e-04, -1.0853e-03],
+        ...,
+        [ 5.4932e-04, -1.0614e-03, -8.0032e-03,  ...,  1.2531e-03,
+         -2.1458e-03,  1.7226e-04],
+        [ 1.4362e-03,  1.7270e-05,  4.3488e-04,  ...,  3.4904e-03,
+          6.2764e-05,  7.4577e-04],
+        [ 1.0986e-03,  3.8058e-05,  7.7362e-03,  ...,  2.3746e-03,
+          9.5987e-04,  8.0204e-04]], device='cuda:0')
+Epoch 222, bias, value: tensor([ 0.0147, -0.0136, -0.0109,  0.0081, -0.0174, -0.0156,  0.0168, -0.0015,
+         0.0188, -0.0162], device='cuda:0'), grad: tensor([ 0.0196, -0.0068, -0.0465,  0.0319,  0.0203, -0.0815,  0.0225, -0.0361,
+         0.0276,  0.0490], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 221, time 216.96, cls_loss 0.5129 cls_loss_mapping 0.0089 cls_loss_causal 0.4905 re_mapping 0.0083 re_causal 0.0206 /// teacc 98.72 lr 0.00010000
+Epoch 223, weight, value: tensor([[-0.0611, -0.0724, -0.1349,  ...,  0.1120, -0.0494,  0.0314],
+        [-0.0706,  0.0944, -0.0702,  ...,  0.0427, -0.0528, -0.0894],
+        [-0.0379,  0.0842, -0.0984,  ..., -0.0231,  0.0312,  0.1156],
+        ...,
+        [-0.0042,  0.0525, -0.0028,  ..., -0.0140,  0.0260, -0.0575],
+        [ 0.0792, -0.0922,  0.0347,  ...,  0.0054,  0.0048, -0.0424],
+        [-0.0167, -0.0707,  0.0709,  ..., -0.0662,  0.0244, -0.0191]],
+       device='cuda:0'), grad: tensor([[ 1.8291e-03,  5.3453e-04,  8.5878e-04,  ...,  1.7529e-03,
+          1.9813e-04,  8.0442e-04],
+        [ 1.6773e-04,  3.8314e-04,  5.3978e-04,  ...,  7.7581e-04,
+          1.1235e-04,  3.7384e-04],
+        [ 3.3035e-03,  6.2180e-04,  5.1403e-04,  ...,  5.8651e-04,
+          7.2384e-04,  2.5678e-04],
+        ...,
+        [-1.0231e-02,  4.7684e-04,  8.0442e-04,  ..., -4.3373e-03,
+          3.7694e-04,  1.5104e-04],
+        [ 3.9411e-04,  5.3263e-04,  5.7697e-04,  ...,  1.2197e-03,
+          5.6124e-04,  4.0841e-04],
+        [ 8.7070e-04,  1.3189e-03, -3.3474e-03,  ...,  4.7970e-04,
+          2.0885e-03,  6.9678e-05]], device='cuda:0')
+Epoch 223, bias, value: tensor([ 0.0161, -0.0141, -0.0111,  0.0075, -0.0170, -0.0160,  0.0164, -0.0010,
+         0.0196, -0.0172], device='cuda:0'), grad: tensor([ 0.0344,  0.0220,  0.0292,  0.0138,  0.0038, -0.0074,  0.0132, -0.0683,
+        -0.0392, -0.0014], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 222, time 216.88, cls_loss 0.4912 cls_loss_mapping 0.0044 cls_loss_causal 0.4672 re_mapping 0.0078 re_causal 0.0196 /// teacc 98.79 lr 0.00010000
+Epoch 224, weight, value: tensor([[-0.0621, -0.0745, -0.1346,  ...,  0.1122, -0.0495,  0.0310],
+        [-0.0716,  0.0944, -0.0711,  ...,  0.0418, -0.0534, -0.0887],
+        [-0.0381,  0.0849, -0.0982,  ..., -0.0223,  0.0320,  0.1162],
+        ...,
+        [-0.0043,  0.0522, -0.0033,  ..., -0.0146,  0.0251, -0.0572],
+        [ 0.0794, -0.0915,  0.0366,  ...,  0.0059,  0.0050, -0.0424],
+        [-0.0163, -0.0704,  0.0708,  ..., -0.0664,  0.0248, -0.0200]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  1.7011e-04,  5.8532e-05,  ..., -3.3379e-04,
+         -2.0278e-04, -5.8699e-04],
+        [ 0.0000e+00, -1.1981e-05,  8.5592e-04,  ...,  6.0987e-04,
+          6.0606e-04,  2.3410e-05],
+        [ 7.1712e-08,  1.4579e-04,  6.7949e-04,  ...,  9.8705e-04,
+          4.0793e-04,  4.6754e-04],
+        ...,
+        [ 5.1223e-08, -3.1257e-04, -1.9760e-02,  ...,  8.8739e-04,
+         -6.0844e-04,  2.7370e-04],
+        [-1.6019e-07, -1.7953e-04, -9.1324e-03,  ..., -9.7513e-04,
+         -1.3199e-02, -2.9659e-03],
+        [-2.7008e-08,  6.2585e-05,  2.0508e-02,  ..., -3.0899e-03,
+          3.8147e-03,  4.9162e-04]], device='cuda:0')
+Epoch 224, bias, value: tensor([ 0.0155, -0.0138, -0.0100,  0.0079, -0.0175, -0.0167,  0.0171, -0.0023,
+         0.0201, -0.0170], device='cuda:0'), grad: tensor([ 0.0061, -0.0130, -0.0149,  0.0260, -0.0115,  0.0049,  0.0131, -0.0123,
+        -0.0251,  0.0267], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 223, time 217.08, cls_loss 0.5409 cls_loss_mapping 0.0078 cls_loss_causal 0.5114 re_mapping 0.0066 re_causal 0.0177 /// teacc 98.93 lr 0.00010000
+Epoch 225, weight, value: tensor([[-0.0625, -0.0762, -0.1356,  ...,  0.1127, -0.0500,  0.0303],
+        [-0.0714,  0.0951, -0.0718,  ...,  0.0417, -0.0541, -0.0894],
+        [-0.0381,  0.0853, -0.0988,  ..., -0.0231,  0.0324,  0.1160],
+        ...,
+        [-0.0050,  0.0516, -0.0034,  ..., -0.0156,  0.0251, -0.0593],
+        [ 0.0803, -0.0924,  0.0362,  ...,  0.0053,  0.0039, -0.0420],
+        [-0.0161, -0.0707,  0.0715,  ..., -0.0663,  0.0256, -0.0200]],
+       device='cuda:0'), grad: tensor([[ 7.7561e-06,  2.2184e-06,  2.4354e-04,  ...,  2.5439e-04,
+          3.1114e-04,  2.2864e-04],
+        [ 6.5472e-07,  1.7816e-06,  2.3246e-04,  ...,  3.9649e-04,
+          3.2830e-04,  1.5974e-04],
+        [ 8.9183e-06,  1.3185e-04,  4.2295e-04,  ...,  5.9128e-04,
+          9.6083e-04,  3.3164e-04],
+        ...,
+        [ 1.7844e-06, -1.3435e-04, -5.3825e-03,  ...,  7.5400e-05,
+         -1.6068e-02, -1.7872e-03],
+        [ 6.5684e-05, -1.6943e-05, -1.5383e-03,  ..., -2.2411e-04,
+         -2.1744e-03, -1.9588e-03],
+        [ 4.4368e-06,  1.7166e-05, -1.7586e-03,  ..., -4.5624e-03,
+         -2.6360e-03, -7.2050e-04]], device='cuda:0')
+Epoch 225, bias, value: tensor([ 0.0152, -0.0142, -0.0106,  0.0088, -0.0165, -0.0165,  0.0174, -0.0031,
+         0.0197, -0.0169], device='cuda:0'), grad: tensor([ 0.0060,  0.0073,  0.0077,  0.0379,  0.0099,  0.0050,  0.0226, -0.0262,
+        -0.0170, -0.0533], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 224, time 216.45, cls_loss 0.5291 cls_loss_mapping 0.0066 cls_loss_causal 0.5031 re_mapping 0.0074 re_causal 0.0201 /// teacc 98.72 lr 0.00010000
+Epoch 226, weight, value: tensor([[-0.0621, -0.0777, -0.1356,  ...,  0.1128, -0.0512,  0.0303],
+        [-0.0726,  0.0952, -0.0708,  ...,  0.0409, -0.0528, -0.0910],
+        [-0.0384,  0.0848, -0.0988,  ..., -0.0227,  0.0321,  0.1160],
+        ...,
+        [-0.0040,  0.0512, -0.0027,  ..., -0.0126,  0.0262, -0.0595],
+        [ 0.0804, -0.0906,  0.0347,  ...,  0.0050,  0.0038, -0.0417],
+        [-0.0155, -0.0711,  0.0718,  ..., -0.0676,  0.0255, -0.0210]],
+       device='cuda:0'), grad: tensor([[ 2.0814e-04, -1.0834e-03, -7.7009e-05,  ...,  9.3079e-04,
+         -4.2605e-04, -8.4877e-04],
+        [ 1.2798e-03, -1.1330e-03,  1.3971e-04,  ..., -2.2602e-03,
+          5.3596e-04, -1.0405e-03],
+        [ 7.3385e-04, -3.2825e-03, -1.7948e-03,  ..., -4.6611e-04,
+         -3.2997e-03, -1.9264e-03],
+        ...,
+        [-8.9788e-04, -3.7136e-03, -8.2092e-03,  ...,  2.7227e-04,
+         -8.3618e-03,  2.0504e-03],
+        [ 6.7520e-04,  9.7036e-04,  1.8013e-04,  ...,  5.0735e-04,
+          7.8344e-04,  1.2493e-03],
+        [ 9.5673e-03,  5.8823e-03,  2.8519e-02,  ...,  2.7504e-03,
+          1.8616e-02,  1.5297e-03]], device='cuda:0')
+Epoch 226, bias, value: tensor([ 0.0147, -0.0140, -0.0105,  0.0084, -0.0173, -0.0165,  0.0188, -0.0019,
+         0.0194, -0.0178], device='cuda:0'), grad: tensor([-0.0426, -0.0303,  0.0028, -0.0482, -0.0597,  0.0385,  0.0264,  0.0192,
+         0.0216,  0.0723], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 225, time 217.14, cls_loss 0.5115 cls_loss_mapping 0.0089 cls_loss_causal 0.4859 re_mapping 0.0074 re_causal 0.0194 /// teacc 98.82 lr 0.00010000
+Epoch 227, weight, value: tensor([[-0.0621, -0.0776, -0.1353,  ...,  0.1134, -0.0525,  0.0295],
+        [-0.0723,  0.0952, -0.0710,  ...,  0.0398, -0.0529, -0.0915],
+        [-0.0379,  0.0848, -0.0978,  ..., -0.0232,  0.0325,  0.1171],
+        ...,
+        [-0.0031,  0.0518, -0.0029,  ..., -0.0125,  0.0263, -0.0593],
+        [ 0.0802, -0.0896,  0.0351,  ...,  0.0057,  0.0035, -0.0418],
+        [-0.0161, -0.0712,  0.0716,  ..., -0.0686,  0.0261, -0.0223]],
+       device='cuda:0'), grad: tensor([[ 3.3587e-05,  2.6560e-04,  6.2847e-04,  ..., -2.0046e-03,
+          1.2131e-03, -2.6550e-03],
+        [-9.2745e-04, -3.2406e-03,  1.3494e-04,  ..., -6.8016e-03,
+         -1.9035e-03, -1.6489e-03],
+        [ 3.3188e-04,  1.5001e-03,  8.4102e-05,  ...,  3.8681e-03,
+          1.5907e-03,  2.4776e-03],
+        ...,
+        [ 4.3780e-05, -1.2083e-03, -5.3453e-04,  ..., -1.8015e-03,
+         -1.5764e-03, -8.8024e-04],
+        [ 5.5164e-05,  5.2261e-04,  2.7895e-04,  ...,  1.6031e-03,
+          1.1902e-03,  1.3151e-03],
+        [ 1.9297e-05,  3.8576e-04,  1.2522e-03,  ...,  2.7485e-03,
+         -1.6046e-04, -4.5204e-04]], device='cuda:0')
+Epoch 227, bias, value: tensor([ 0.0154, -0.0142, -0.0103,  0.0091, -0.0169, -0.0167,  0.0187, -0.0022,
+         0.0184, -0.0178], device='cuda:0'), grad: tensor([-0.0107, -0.0410,  0.0337,  0.0187,  0.0055,  0.0233,  0.0015, -0.0141,
+         0.0212, -0.0382], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 226, time 216.95, cls_loss 0.5210 cls_loss_mapping 0.0042 cls_loss_causal 0.4903 re_mapping 0.0075 re_causal 0.0204 /// teacc 98.78 lr 0.00010000
+Epoch 228, weight, value: tensor([[-0.0617, -0.0783, -0.1350,  ...,  0.1132, -0.0525,  0.0292],
+        [-0.0734,  0.0958, -0.0727,  ...,  0.0415, -0.0539, -0.0907],
+        [-0.0386,  0.0848, -0.0964,  ..., -0.0229,  0.0328,  0.1159],
+        ...,
+        [-0.0025,  0.0524, -0.0027,  ..., -0.0130,  0.0269, -0.0590],
+        [ 0.0802, -0.0895,  0.0355,  ...,  0.0058,  0.0030, -0.0417],
+        [-0.0157, -0.0709,  0.0719,  ..., -0.0685,  0.0273, -0.0210]],
+       device='cuda:0'), grad: tensor([[ 1.5287e-03,  1.7607e-04,  9.5606e-05,  ...,  1.1969e-03,
+          3.1185e-04,  3.1948e-04],
+        [ 6.4945e-04, -1.5478e-03,  1.8075e-05,  ..., -6.2599e-03,
+          4.9448e-04, -3.6335e-04],
+        [ 2.1687e-03,  6.2256e-03,  3.9978e-03,  ...,  2.1572e-03,
+          6.4812e-03,  5.2185e-03],
+        ...,
+        [-2.6123e-02,  1.1559e-03,  5.2299e-03,  ...,  1.0500e-03,
+          2.0752e-03,  8.0681e-04],
+        [ 2.3823e-03,  8.5115e-04,  4.8542e-04,  ...,  4.8027e-03,
+         -5.4092e-03,  8.9598e-04],
+        [ 1.1444e-02, -7.7209e-03, -1.0399e-02,  ..., -2.0924e-03,
+         -7.3128e-03, -8.3542e-03]], device='cuda:0')
+Epoch 228, bias, value: tensor([ 0.0154, -0.0147, -0.0102,  0.0078, -0.0174, -0.0162,  0.0180, -0.0016,
+         0.0189, -0.0168], device='cuda:0'), grad: tensor([ 0.0162, -0.0187,  0.0405, -0.0088,  0.0260,  0.0117, -0.0334,  0.0203,
+        -0.0002, -0.0537], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 227, time 216.37, cls_loss 0.5350 cls_loss_mapping 0.0048 cls_loss_causal 0.5051 re_mapping 0.0077 re_causal 0.0210 /// teacc 98.68 lr 0.00010000
+Epoch 229, weight, value: tensor([[-0.0597, -0.0778, -0.1357,  ...,  0.1137, -0.0527,  0.0300],
+        [-0.0736,  0.0962, -0.0715,  ...,  0.0410, -0.0536, -0.0913],
+        [-0.0383,  0.0851, -0.0969,  ..., -0.0234,  0.0319,  0.1165],
+        ...,
+        [-0.0025,  0.0520, -0.0022,  ..., -0.0138,  0.0280, -0.0611],
+        [ 0.0810, -0.0885,  0.0345,  ...,  0.0058,  0.0033, -0.0409],
+        [-0.0162, -0.0711,  0.0717,  ..., -0.0677,  0.0267, -0.0199]],
+       device='cuda:0'), grad: tensor([[ 0.0019,  0.0004,  0.0005,  ...,  0.0010,  0.0006,  0.0005],
+        [-0.0033,  0.0028,  0.0034,  ...,  0.0022,  0.0014,  0.0005],
+        [ 0.0007, -0.0056,  0.0002,  ..., -0.0049, -0.0037, -0.0008],
+        ...,
+        [ 0.0005, -0.0003, -0.0016,  ...,  0.0014,  0.0013,  0.0004],
+        [ 0.0013,  0.0009,  0.0011,  ...,  0.0011,  0.0010, -0.0002],
+        [-0.0004, -0.0001, -0.0143,  ..., -0.0023, -0.0067,  0.0002]],
+       device='cuda:0')
+Epoch 229, bias, value: tensor([ 0.0161, -0.0142, -0.0101,  0.0081, -0.0172, -0.0165,  0.0177, -0.0025,
+         0.0194, -0.0174], device='cuda:0'), grad: tensor([ 0.0342,  0.0371, -0.0218, -0.0259, -0.0205,  0.0232,  0.0345, -0.0022,
+        -0.0544, -0.0044], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 228, time 216.80, cls_loss 0.4837 cls_loss_mapping 0.0059 cls_loss_causal 0.4579 re_mapping 0.0076 re_causal 0.0202 /// teacc 98.86 lr 0.00010000
+Epoch 230, weight, value: tensor([[-0.0614, -0.0790, -0.1340,  ...,  0.1128, -0.0520,  0.0310],
+        [-0.0733,  0.0969, -0.0716,  ...,  0.0414, -0.0540, -0.0917],
+        [-0.0392,  0.0856, -0.0964,  ..., -0.0233,  0.0316,  0.1156],
+        ...,
+        [-0.0029,  0.0517, -0.0023,  ..., -0.0144,  0.0276, -0.0599],
+        [ 0.0804, -0.0903,  0.0336,  ...,  0.0053,  0.0038, -0.0416],
+        [-0.0152, -0.0711,  0.0726,  ..., -0.0671,  0.0273, -0.0205]],
+       device='cuda:0'), grad: tensor([[ 4.0555e-04,  2.0933e-04,  4.6343e-05,  ..., -8.8978e-04,
+          3.5954e-04,  1.2541e-04],
+        [ 2.2259e-03, -1.7614e-03,  5.9903e-05,  ..., -1.8873e-03,
+          4.3720e-05, -3.7122e-04],
+        [ 3.9315e-04,  6.3229e-04,  6.6876e-05,  ...,  9.6226e-04,
+          1.1768e-03,  1.0281e-03],
+        ...,
+        [-1.2379e-03,  1.7405e-04, -1.9050e-04,  ...,  7.5340e-04,
+         -9.1457e-04,  2.5964e-04],
+        [ 1.3199e-03,  3.3665e-04,  2.0237e-03,  ...,  6.9714e-04,
+          2.4223e-03,  3.7813e-04],
+        [ 2.9898e-04,  5.3406e-04, -1.3939e-02,  ..., -3.9101e-03,
+         -1.4366e-02,  2.3198e-04]], device='cuda:0')
+Epoch 230, bias, value: tensor([ 0.0152, -0.0145, -0.0105,  0.0095, -0.0180, -0.0161,  0.0164, -0.0020,
+         0.0197, -0.0163], device='cuda:0'), grad: tensor([ 0.0074, -0.0336,  0.0226, -0.0361, -0.0207,  0.0319,  0.0031,  0.0136,
+         0.0165, -0.0049], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 229, time 216.47, cls_loss 0.5051 cls_loss_mapping 0.0068 cls_loss_causal 0.4786 re_mapping 0.0073 re_causal 0.0190 /// teacc 98.85 lr 0.00010000
+Epoch 231, weight, value: tensor([[-0.0608, -0.0797, -0.1348,  ...,  0.1127, -0.0532,  0.0313],
+        [-0.0745,  0.0990, -0.0723,  ...,  0.0420, -0.0550, -0.0910],
+        [-0.0405,  0.0850, -0.0968,  ..., -0.0233,  0.0299,  0.1144],
+        ...,
+        [-0.0019,  0.0523, -0.0014,  ..., -0.0136,  0.0284, -0.0592],
+        [ 0.0818, -0.0922,  0.0323,  ...,  0.0050,  0.0033, -0.0423],
+        [-0.0146, -0.0706,  0.0730,  ..., -0.0676,  0.0288, -0.0198]],
+       device='cuda:0'), grad: tensor([[ 0.0002, -0.0041,  0.0004,  ..., -0.0029, -0.0005, -0.0026],
+        [ 0.0022,  0.0095,  0.0005,  ...,  0.0019,  0.0008,  0.0007],
+        [ 0.0005, -0.0056,  0.0004,  ...,  0.0011,  0.0009,  0.0011],
+        ...,
+        [-0.0057, -0.0037,  0.0010,  ...,  0.0012,  0.0007,  0.0003],
+        [ 0.0009,  0.0028,  0.0013,  ..., -0.0037,  0.0024, -0.0012],
+        [ 0.0012,  0.0029,  0.0020,  ...,  0.0026,  0.0025,  0.0012]],
+       device='cuda:0')
+Epoch 231, bias, value: tensor([ 0.0149, -0.0142, -0.0107,  0.0084, -0.0183, -0.0168,  0.0165, -0.0019,
+         0.0202, -0.0151], device='cuda:0'), grad: tensor([-0.0605,  0.0297,  0.0090,  0.0347, -0.0568,  0.0114,  0.0100, -0.0237,
+         0.0075,  0.0387], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 230, time 216.94, cls_loss 0.5249 cls_loss_mapping 0.0062 cls_loss_causal 0.4971 re_mapping 0.0077 re_causal 0.0194 /// teacc 98.79 lr 0.00010000
+Epoch 232, weight, value: tensor([[-0.0605, -0.0801, -0.1347,  ...,  0.1127, -0.0539,  0.0313],
+        [-0.0753,  0.0988, -0.0719,  ...,  0.0424, -0.0538, -0.0912],
+        [-0.0400,  0.0859, -0.0977,  ..., -0.0231,  0.0291,  0.1138],
+        ...,
+        [-0.0019,  0.0525, -0.0016,  ..., -0.0142,  0.0290, -0.0592],
+        [ 0.0820, -0.0928,  0.0325,  ...,  0.0056,  0.0032, -0.0425],
+        [-0.0141, -0.0716,  0.0732,  ..., -0.0674,  0.0286, -0.0192]],
+       device='cuda:0'), grad: tensor([[ 1.4579e-04,  2.6405e-05,  2.9159e-04,  ...,  4.7755e-04,
+          1.8334e-04,  6.7294e-05],
+        [ 1.1225e-03, -9.7007e-06, -3.7632e-03,  ..., -4.4327e-03,
+         -1.0157e-03, -8.7070e-04],
+        [ 3.8528e-04, -2.1553e-04,  1.6642e-04,  ...,  1.7738e-04,
+         -1.3514e-03, -1.1768e-03],
+        ...,
+        [ 3.6478e-04, -4.7064e-04, -6.6452e-03,  ..., -1.5898e-03,
+         -7.5989e-03, -8.5652e-05],
+        [-4.0894e-03,  2.4247e-04,  1.2312e-03,  ..., -1.5268e-03,
+          1.5020e-03,  9.6846e-04],
+        [ 7.6532e-04,  2.4939e-04,  5.9586e-03,  ...,  2.7943e-03,
+          5.8289e-03,  2.0349e-04]], device='cuda:0')
+Epoch 232, bias, value: tensor([ 0.0149, -0.0135, -0.0108,  0.0091, -0.0178, -0.0177,  0.0160, -0.0018,
+         0.0197, -0.0149], device='cuda:0'), grad: tensor([ 0.0071, -0.0120,  0.0059,  0.0105,  0.0174,  0.0108,  0.0047, -0.0353,
+        -0.0031, -0.0061], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 231, time 216.58, cls_loss 0.4991 cls_loss_mapping 0.0060 cls_loss_causal 0.4645 re_mapping 0.0079 re_causal 0.0186 /// teacc 98.72 lr 0.00010000
+Epoch 233, weight, value: tensor([[-0.0601, -0.0803, -0.1349,  ...,  0.1129, -0.0528,  0.0321],
+        [-0.0755,  0.0988, -0.0715,  ...,  0.0424, -0.0523, -0.0913],
+        [-0.0373,  0.0845, -0.0980,  ..., -0.0225,  0.0282,  0.1141],
+        ...,
+        [-0.0018,  0.0545, -0.0033,  ..., -0.0137,  0.0287, -0.0581],
+        [ 0.0814, -0.0930,  0.0332,  ...,  0.0049,  0.0039, -0.0425],
+        [-0.0131, -0.0702,  0.0723,  ..., -0.0675,  0.0280, -0.0194]],
+       device='cuda:0'), grad: tensor([[ 1.3056e-03,  3.2592e-04,  4.0382e-06,  ...,  1.5616e-04,
+          2.3937e-04,  2.1482e-04],
+        [ 5.4398e-03,  7.1602e-03,  1.6376e-05,  ...,  8.0967e-04,
+          6.0654e-04,  5.3930e-04],
+        [ 2.8439e-03, -3.6144e-03,  1.3840e-04,  ..., -2.4261e-03,
+         -1.5697e-03, -3.0556e-03],
+        ...,
+        [ 2.3341e-04,  7.6580e-04, -7.9751e-05,  ...,  2.7514e-04,
+          3.1400e-04,  4.7088e-04],
+        [-2.1759e-02, -7.3700e-03,  1.7142e-04,  ..., -1.8907e-04,
+          1.0681e-03,  8.7547e-04],
+        [ 8.5678e-03,  7.9584e-04,  1.6556e-03,  ...,  3.4189e-04,
+         -2.1243e-04,  2.8348e-04]], device='cuda:0')
+Epoch 233, bias, value: tensor([ 0.0161, -0.0143, -0.0103,  0.0091, -0.0172, -0.0182,  0.0154, -0.0015,
+         0.0190, -0.0151], device='cuda:0'), grad: tensor([ 0.0070,  0.0408, -0.0199,  0.0172, -0.0190, -0.0072, -0.0043,  0.0110,
+        -0.0076, -0.0180], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 232, time 216.40, cls_loss 0.5014 cls_loss_mapping 0.0050 cls_loss_causal 0.4745 re_mapping 0.0080 re_causal 0.0206 /// teacc 98.61 lr 0.00010000
+Epoch 234, weight, value: tensor([[-0.0595, -0.0806, -0.1361,  ...,  0.1124, -0.0532,  0.0315],
+        [-0.0754,  0.0987, -0.0712,  ...,  0.0425, -0.0522, -0.0914],
+        [-0.0392,  0.0850, -0.0986,  ..., -0.0229,  0.0271,  0.1140],
+        ...,
+        [-0.0013,  0.0548, -0.0024,  ..., -0.0134,  0.0300, -0.0588],
+        [ 0.0824, -0.0941,  0.0348,  ...,  0.0056,  0.0045, -0.0418],
+        [-0.0150, -0.0699,  0.0714,  ..., -0.0683,  0.0274, -0.0194]],
+       device='cuda:0'), grad: tensor([[ 1.9407e-03,  7.3862e-04,  2.1911e-04,  ...,  1.3816e-04,
+          2.9106e-03,  2.2626e-04],
+        [ 6.9559e-05, -3.4313e-03,  6.4373e-05,  ..., -2.4834e-03,
+         -1.9217e-04, -1.9445e-03],
+        [ 2.6751e-04, -7.8888e-03,  5.3120e-04,  ..., -6.5851e-04,
+         -7.9203e-04, -3.4485e-03],
+        ...,
+        [ 2.2340e-04,  7.6370e-03, -9.8228e-04,  ...,  2.0771e-03,
+          5.9414e-04,  3.8719e-03],
+        [-1.0750e-02,  7.1764e-04,  3.5930e-04,  ...,  2.2638e-04,
+         -8.4381e-03,  2.2054e-04],
+        [ 1.9150e-03,  1.0605e-03,  1.3113e-03,  ...,  2.1982e-04,
+          3.4161e-03,  2.7609e-04]], device='cuda:0')
+Epoch 234, bias, value: tensor([ 0.0159, -0.0140, -0.0104,  0.0087, -0.0174, -0.0181,  0.0152, -0.0013,
+         0.0196, -0.0153], device='cuda:0'), grad: tensor([ 0.0142, -0.0199,  0.0025, -0.0239,  0.0116, -0.0166,  0.0214,  0.0050,
+        -0.0167,  0.0225], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 233, time 216.93, cls_loss 0.5011 cls_loss_mapping 0.0061 cls_loss_causal 0.4730 re_mapping 0.0073 re_causal 0.0183 /// teacc 98.68 lr 0.00010000
+Epoch 235, weight, value: tensor([[-0.0579, -0.0806, -0.1357,  ...,  0.1124, -0.0525,  0.0318],
+        [-0.0750,  0.0979, -0.0709,  ...,  0.0421, -0.0512, -0.0919],
+        [-0.0401,  0.0855, -0.0999,  ..., -0.0226,  0.0271,  0.1149],
+        ...,
+        [-0.0033,  0.0543, -0.0032,  ..., -0.0133,  0.0294, -0.0595],
+        [ 0.0827, -0.0942,  0.0369,  ...,  0.0062,  0.0061, -0.0423],
+        [-0.0155, -0.0691,  0.0713,  ..., -0.0685,  0.0271, -0.0172]],
+       device='cuda:0'), grad: tensor([[ 9.4399e-06,  1.0262e-03,  1.2159e-04,  ...,  4.3368e-04,
+          1.2767e-04,  2.7180e-04],
+        [ 9.2089e-06,  1.6670e-03,  4.9210e-04,  ...,  1.0061e-03,
+          1.2755e-04,  4.2820e-04],
+        [ 3.4976e-04, -8.1253e-03,  1.6365e-03,  ...,  4.8518e-04,
+          8.8406e-04,  3.1400e-04],
+        ...,
+        [ 9.1612e-05,  1.4467e-03,  1.3542e-03,  ...,  2.3997e-04,
+          8.2684e-04,  5.2601e-05],
+        [ 1.7700e-03,  8.6546e-04,  7.0419e-03,  ...,  2.0313e-03,
+          2.8687e-03,  9.5701e-04],
+        [ 2.3282e-04,  3.2020e-04, -1.1349e-03,  ..., -1.8282e-03,
+         -2.1744e-03, -2.7828e-03]], device='cuda:0')
+Epoch 235, bias, value: tensor([ 0.0166, -0.0143, -0.0106,  0.0081, -0.0178, -0.0187,  0.0156, -0.0019,
+         0.0199, -0.0140], device='cuda:0'), grad: tensor([ 0.0109, -0.0062, -0.0158, -0.0188, -0.0127, -0.0083,  0.0025,  0.0191,
+         0.0401, -0.0108], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 234, time 216.72, cls_loss 0.4890 cls_loss_mapping 0.0038 cls_loss_causal 0.4538 re_mapping 0.0078 re_causal 0.0202 /// teacc 98.70 lr 0.00010000
+Epoch 236, weight, value: tensor([[-0.0589, -0.0825, -0.1360,  ...,  0.1129, -0.0527,  0.0322],
+        [-0.0752,  0.0985, -0.0714,  ...,  0.0416, -0.0499, -0.0916],
+        [-0.0404,  0.0857, -0.0993,  ..., -0.0230,  0.0276,  0.1158],
+        ...,
+        [-0.0033,  0.0543, -0.0046,  ..., -0.0140,  0.0289, -0.0591],
+        [ 0.0818, -0.0928,  0.0376,  ...,  0.0071,  0.0071, -0.0419],
+        [-0.0162, -0.0688,  0.0723,  ..., -0.0698,  0.0270, -0.0168]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-06,  1.2696e-04,  1.4775e-05,  ...,  3.0976e-06,
+         -2.4494e-07, -1.6146e-03],
+        [-3.5893e-06,  1.0424e-03,  1.2137e-05,  ..., -2.5555e-05,
+          1.0198e-06,  2.6751e-04],
+        [-1.2970e-04,  5.3453e-04,  1.9729e-05,  ...,  2.1346e-06,
+          1.4547e-06,  1.7083e-04],
+        ...,
+        [ 3.2514e-05, -1.3227e-03,  7.7391e-04,  ...,  4.1306e-05,
+          5.2452e-04,  2.1422e-04],
+        [ 4.9740e-05, -1.0643e-03,  1.4627e-04,  ...,  5.4911e-06,
+          5.6118e-05, -7.1907e-04],
+        [-1.2934e-04, -7.1824e-06, -1.2712e-03,  ..., -3.2961e-05,
+         -7.9346e-04,  2.6846e-04]], device='cuda:0')
+Epoch 236, bias, value: tensor([ 0.0162, -0.0142, -0.0097,  0.0073, -0.0171, -0.0174,  0.0144, -0.0030,
+         0.0209, -0.0143], device='cuda:0'), grad: tensor([-0.0230,  0.0075,  0.0059,  0.0058, -0.0119,  0.0061,  0.0261,  0.0041,
+        -0.0241,  0.0036], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 235, time 216.76, cls_loss 0.5263 cls_loss_mapping 0.0053 cls_loss_causal 0.5006 re_mapping 0.0071 re_causal 0.0187 /// teacc 98.69 lr 0.00010000
+Epoch 237, weight, value: tensor([[-0.0585, -0.0828, -0.1364,  ...,  0.1135, -0.0524,  0.0324],
+        [-0.0738,  0.0983, -0.0697,  ...,  0.0424, -0.0495, -0.0919],
+        [-0.0404,  0.0857, -0.0980,  ..., -0.0233,  0.0289,  0.1158],
+        ...,
+        [-0.0043,  0.0533, -0.0048,  ..., -0.0147,  0.0277, -0.0607],
+        [ 0.0831, -0.0928,  0.0363,  ...,  0.0066,  0.0060, -0.0418],
+        [-0.0155, -0.0671,  0.0728,  ..., -0.0706,  0.0271, -0.0170]],
+       device='cuda:0'), grad: tensor([[ 4.3353e-07, -2.3689e-03,  2.1517e-04,  ..., -4.9973e-03,
+          1.0568e-04, -2.6016e-03],
+        [-1.4948e-07,  9.3818e-05,  5.0783e-04,  ...,  5.4121e-04,
+          2.7370e-04,  1.0127e-04],
+        [ 4.8690e-06,  7.0076e-03,  3.4142e-04,  ...,  1.3023e-02,
+          3.3569e-03,  2.8477e-03],
+        ...,
+        [ 2.2165e-07,  1.2517e-04,  4.1199e-04,  ...,  2.7027e-03,
+          6.3419e-04,  3.0947e-04],
+        [ 7.7009e-04,  1.3628e-03,  2.8777e-04,  ...,  3.2921e-03,
+          3.9697e-04,  6.7997e-04],
+        [ 7.4767e-06,  4.6463e-03,  7.7553e-03,  ...,  1.2789e-03,
+          3.3498e-04,  1.3506e-04]], device='cuda:0')
+Epoch 237, bias, value: tensor([ 0.0168, -0.0137, -0.0098,  0.0074, -0.0161, -0.0160,  0.0125, -0.0042,
+         0.0201, -0.0139], device='cuda:0'), grad: tensor([-0.0137,  0.0107,  0.0407, -0.0130, -0.0081, -0.0255, -0.0139,  0.0046,
+         0.0134,  0.0049], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 236, time 216.23, cls_loss 0.4865 cls_loss_mapping 0.0048 cls_loss_causal 0.4582 re_mapping 0.0073 re_causal 0.0178 /// teacc 98.81 lr 0.00010000
+Epoch 238, weight, value: tensor([[-0.0591, -0.0827, -0.1379,  ...,  0.1139, -0.0527,  0.0332],
+        [-0.0721,  0.0973, -0.0699,  ...,  0.0402, -0.0493, -0.0917],
+        [-0.0409,  0.0867, -0.0966,  ..., -0.0242,  0.0299,  0.1154],
+        ...,
+        [-0.0042,  0.0534, -0.0037,  ..., -0.0135,  0.0288, -0.0583],
+        [ 0.0819, -0.0940,  0.0357,  ...,  0.0078,  0.0053, -0.0428],
+        [-0.0152, -0.0679,  0.0718,  ..., -0.0713,  0.0271, -0.0166]],
+       device='cuda:0'), grad: tensor([[ 2.7120e-05,  3.5739e-04, -2.8477e-03,  ..., -4.8714e-03,
+         -4.3755e-03, -8.2731e-04],
+        [-1.9016e-03, -9.3079e-03,  3.2520e-04,  ..., -3.6240e-03,
+         -6.6757e-04, -4.2000e-03],
+        [ 1.2569e-03,  5.4703e-03,  1.7519e-03,  ...,  8.4162e-04,
+          2.3365e-03,  3.1414e-03],
+        ...,
+        [ 1.9395e-04, -4.6849e-04,  5.2595e-04,  ...,  1.5926e-03,
+          3.2496e-04,  5.0735e-04],
+        [-6.8321e-03, -8.5020e-04,  1.2178e-03,  ...,  1.9503e-03,
+          1.2808e-03, -2.9240e-03],
+        [ 2.1172e-04,  5.0402e-04,  3.7918e-03,  ...,  1.4963e-03,
+          3.9215e-03,  3.9577e-04]], device='cuda:0')
+Epoch 238, bias, value: tensor([ 0.0164, -0.0132, -0.0098,  0.0084, -0.0171, -0.0168,  0.0126, -0.0025,
+         0.0185, -0.0136], device='cuda:0'), grad: tensor([-0.0077, -0.0419,  0.0307,  0.0319, -0.0267,  0.0284,  0.0151, -0.0091,
+        -0.0140, -0.0066], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 237, time 216.87, cls_loss 0.5116 cls_loss_mapping 0.0039 cls_loss_causal 0.4790 re_mapping 0.0073 re_causal 0.0185 /// teacc 98.93 lr 0.00010000
+Epoch 239, weight, value: tensor([[-0.0580, -0.0829, -0.1380,  ...,  0.1128, -0.0530,  0.0325],
+        [-0.0722,  0.0971, -0.0712,  ...,  0.0404, -0.0497, -0.0913],
+        [-0.0413,  0.0860, -0.0966,  ..., -0.0242,  0.0297,  0.1147],
+        ...,
+        [-0.0044,  0.0535, -0.0036,  ..., -0.0138,  0.0292, -0.0585],
+        [ 0.0828, -0.0949,  0.0355,  ...,  0.0077,  0.0049, -0.0418],
+        [-0.0151, -0.0684,  0.0722,  ..., -0.0704,  0.0273, -0.0172]],
+       device='cuda:0'), grad: tensor([[-3.3736e-04,  1.1390e-04,  6.8617e-04,  ...,  3.5357e-04,
+          3.7060e-03,  2.5940e-03],
+        [-4.1723e-06, -4.4882e-05,  4.7952e-05,  ..., -3.2093e-06,
+         -1.5283e-04,  7.0870e-05],
+        [ 7.0855e-06,  7.5936e-05,  4.0483e-04,  ...,  1.9538e-04,
+          2.0828e-03,  1.4420e-03],
+        ...,
+        [-2.8044e-05,  6.7616e-04,  3.2368e-03,  ...,  1.1131e-05,
+          2.6741e-03,  6.8426e-05],
+        [ 7.8231e-06,  1.0677e-05,  5.5027e-04,  ...,  5.4151e-05,
+          9.1219e-04,  3.6836e-04],
+        [ 3.7253e-05, -7.1096e-04, -3.9339e-04,  ...,  2.0802e-05,
+          1.0079e-04,  1.4520e-04]], device='cuda:0')
+Epoch 239, bias, value: tensor([ 0.0181, -0.0135, -0.0102,  0.0082, -0.0167, -0.0168,  0.0131, -0.0034,
+         0.0180, -0.0135], device='cuda:0'), grad: tensor([ 0.0233, -0.0208, -0.0138,  0.0154, -0.0099, -0.0519,  0.0124,  0.0154,
+         0.0114,  0.0184], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 238, time 216.79, cls_loss 0.4948 cls_loss_mapping 0.0048 cls_loss_causal 0.4653 re_mapping 0.0073 re_causal 0.0181 /// teacc 98.92 lr 0.00010000
+Epoch 240, weight, value: tensor([[-0.0567, -0.0818, -0.1357,  ...,  0.1126, -0.0509,  0.0323],
+        [-0.0740,  0.0978, -0.0709,  ...,  0.0413, -0.0499, -0.0913],
+        [-0.0393,  0.0856, -0.0981,  ..., -0.0249,  0.0284,  0.1151],
+        ...,
+        [-0.0032,  0.0544, -0.0043,  ..., -0.0146,  0.0299, -0.0578],
+        [ 0.0826, -0.0957,  0.0362,  ...,  0.0082,  0.0062, -0.0424],
+        [-0.0157, -0.0697,  0.0718,  ..., -0.0700,  0.0264, -0.0178]],
+       device='cuda:0'), grad: tensor([[ 6.0463e-04,  3.1567e-04,  7.7868e-04,  ...,  6.4707e-04,
+          1.1625e-03,  3.7408e-04],
+        [-6.6261e-03, -2.6870e-04,  7.9346e-04,  ...,  1.2608e-03,
+          1.7080e-03,  9.0659e-05],
+        [ 2.6345e-04,  8.4448e-04,  3.4866e-03,  ...,  3.0384e-03,
+          5.6458e-03,  5.1022e-04],
+        ...,
+        [ 1.1683e-04, -2.5654e-03, -5.0850e-03,  ..., -4.3945e-03,
+         -4.8757e-04,  8.7380e-05],
+        [ 9.7036e-04,  3.9768e-04, -1.2054e-02,  ..., -4.0703e-03,
+         -1.6846e-02, -8.6746e-03],
+        [ 1.6642e-04,  9.6369e-04,  9.6893e-03,  ...,  1.4877e-03,
+          1.5152e-02,  7.0572e-03]], device='cuda:0')
+Epoch 240, bias, value: tensor([ 0.0178, -0.0124, -0.0102,  0.0067, -0.0172, -0.0168,  0.0132, -0.0032,
+         0.0186, -0.0135], device='cuda:0'), grad: tensor([ 0.0199,  0.0116, -0.0010, -0.0218, -0.0396,  0.0010,  0.0091,  0.0092,
+        -0.0385,  0.0501], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 239, time 217.16, cls_loss 0.5066 cls_loss_mapping 0.0046 cls_loss_causal 0.4791 re_mapping 0.0070 re_causal 0.0176 /// teacc 98.79 lr 0.00010000
+Epoch 241, weight, value: tensor([[-0.0561, -0.0816, -0.1368,  ...,  0.1111, -0.0506,  0.0325],
+        [-0.0739,  0.0990, -0.0709,  ...,  0.0410, -0.0505, -0.0915],
+        [-0.0405,  0.0853, -0.0990,  ..., -0.0245,  0.0274,  0.1154],
+        ...,
+        [-0.0045,  0.0542, -0.0040,  ..., -0.0146,  0.0301, -0.0581],
+        [ 0.0823, -0.0966,  0.0363,  ...,  0.0090,  0.0070, -0.0415],
+        [-0.0149, -0.0703,  0.0714,  ..., -0.0706,  0.0257, -0.0198]],
+       device='cuda:0'), grad: tensor([[ 5.0515e-05, -7.4339e-04,  2.9278e-04,  ..., -2.5539e-03,
+         -3.0708e-03, -6.0225e-04],
+        [ 1.1307e-04,  6.1631e-05,  3.5596e-04,  ...,  9.0790e-04,
+          3.7384e-04,  3.5834e-04],
+        [ 6.5863e-05,  2.7800e-04, -1.8656e-04,  ...,  1.0099e-03,
+          3.0136e-03,  1.5819e-04],
+        ...,
+        [-9.1629e-03, -2.5501e-03,  4.4327e-03,  ..., -1.4153e-03,
+         -4.9162e-04, -9.1982e-04],
+        [ 5.4300e-05,  2.0802e-04,  6.9284e-04,  ...,  6.1083e-04,
+          6.6948e-04,  2.2554e-04],
+        [ 6.9022e-05, -1.6584e-03,  8.6899e-03,  ..., -1.3647e-03,
+          7.7744e-03, -2.3532e-04]], device='cuda:0')
+Epoch 241, bias, value: tensor([ 0.0179, -0.0127, -0.0113,  0.0061, -0.0166, -0.0174,  0.0149, -0.0029,
+         0.0194, -0.0141], device='cuda:0'), grad: tensor([-0.0284,  0.0229, -0.0123,  0.0174, -0.0051,  0.0107,  0.0178, -0.0609,
+         0.0152,  0.0228], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 240, time 216.95, cls_loss 0.5073 cls_loss_mapping 0.0064 cls_loss_causal 0.4783 re_mapping 0.0072 re_causal 0.0183 /// teacc 98.78 lr 0.00010000
+Epoch 242, weight, value: tensor([[-0.0555, -0.0824, -0.1374,  ...,  0.1105, -0.0505,  0.0313],
+        [-0.0740,  0.0982, -0.0711,  ...,  0.0406, -0.0516, -0.0923],
+        [-0.0411,  0.0850, -0.0990,  ..., -0.0245,  0.0273,  0.1166],
+        ...,
+        [-0.0044,  0.0541, -0.0043,  ..., -0.0144,  0.0301, -0.0599],
+        [ 0.0812, -0.0964,  0.0379,  ...,  0.0091,  0.0092, -0.0417],
+        [-0.0150, -0.0698,  0.0721,  ..., -0.0699,  0.0249, -0.0183]],
+       device='cuda:0'), grad: tensor([[ 1.0818e-05,  4.1723e-06,  4.0817e-04,  ...,  6.0014e-06,
+          1.3256e-04,  1.9920e-04],
+        [ 1.4579e-04,  2.0862e-04,  4.7278e-04,  ...,  6.1132e-06,
+          1.7226e-04,  2.5773e-04],
+        [-5.9462e-04, -1.0023e-03,  3.6311e-04,  ...,  5.8860e-06,
+          2.9281e-05, -2.5368e-04],
+        ...,
+        [ 5.1826e-05,  8.2552e-05, -2.0850e-04,  ...,  5.7258e-06,
+          1.6046e-04,  1.8930e-04],
+        [ 4.6790e-05,  8.5056e-05,  4.8327e-04,  ..., -9.8467e-05,
+          3.3903e-04,  3.1567e-04],
+        [ 4.6529e-06,  1.1005e-05, -1.2604e-02,  ...,  1.0282e-05,
+         -7.6599e-03, -1.8930e-03]], device='cuda:0')
+Epoch 242, bias, value: tensor([ 0.0163, -0.0135, -0.0110,  0.0058, -0.0163, -0.0172,  0.0159, -0.0021,
+         0.0199, -0.0148], device='cuda:0'), grad: tensor([ 0.0132, -0.0163,  0.0107,  0.0200,  0.0294,  0.0123, -0.0107, -0.0174,
+        -0.0105, -0.0307], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 241, time 217.00, cls_loss 0.5070 cls_loss_mapping 0.0108 cls_loss_causal 0.4748 re_mapping 0.0079 re_causal 0.0190 /// teacc 98.90 lr 0.00010000
+Epoch 243, weight, value: tensor([[-0.0569, -0.0833, -0.1375,  ...,  0.1101, -0.0508,  0.0315],
+        [-0.0746,  0.0987, -0.0705,  ...,  0.0402, -0.0529, -0.0951],
+        [-0.0404,  0.0845, -0.0977,  ..., -0.0240,  0.0279,  0.1166],
+        ...,
+        [-0.0049,  0.0545, -0.0039,  ..., -0.0143,  0.0294, -0.0602],
+        [ 0.0820, -0.0975,  0.0378,  ...,  0.0089,  0.0096, -0.0425],
+        [-0.0158, -0.0701,  0.0720,  ..., -0.0709,  0.0248, -0.0189]],
+       device='cuda:0'), grad: tensor([[ 1.7002e-05,  4.6110e-04, -1.1490e-02,  ...,  8.2195e-05,
+         -2.8534e-03, -1.6737e-03],
+        [ 1.1757e-05,  3.1090e-04,  2.3484e-04,  ..., -1.9150e-03,
+         -1.1808e-04, -6.5279e-04],
+        [ 1.9252e-05,  1.0977e-03,  9.9897e-05,  ...,  2.8658e-04,
+          4.1890e-04,  1.7852e-05],
+        ...,
+        [ 4.5508e-05, -3.9215e-03, -6.8817e-03,  ..., -5.2810e-05,
+         -4.3182e-03,  6.7294e-05],
+        [ 1.6153e-05,  2.7466e-04,  3.9864e-03,  ...,  2.2542e-04,
+          3.2406e-03,  3.7026e-04],
+        [-1.0765e-02,  5.4932e-04, -1.0605e-02,  ...,  1.7822e-04,
+         -4.7874e-03,  1.6522e-04]], device='cuda:0')
+Epoch 243, bias, value: tensor([ 0.0159, -0.0138, -0.0119,  0.0070, -0.0168, -0.0160,  0.0160, -0.0020,
+         0.0206, -0.0159], device='cuda:0'), grad: tensor([-0.0153, -0.0173,  0.0171,  0.0079,  0.0286,  0.0119,  0.0154, -0.0375,
+         0.0144, -0.0253], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 242, time 216.79, cls_loss 0.5254 cls_loss_mapping 0.0063 cls_loss_causal 0.5000 re_mapping 0.0078 re_causal 0.0195 /// teacc 98.70 lr 0.00010000
+Epoch 244, weight, value: tensor([[-0.0573, -0.0848, -0.1375,  ...,  0.1108, -0.0512,  0.0307],
+        [-0.0745,  0.0982, -0.0711,  ...,  0.0399, -0.0546, -0.0955],
+        [-0.0390,  0.0845, -0.0992,  ..., -0.0247,  0.0278,  0.1174],
+        ...,
+        [-0.0045,  0.0551, -0.0028,  ..., -0.0139,  0.0299, -0.0599],
+        [ 0.0824, -0.0976,  0.0388,  ...,  0.0094,  0.0101, -0.0417],
+        [-0.0155, -0.0702,  0.0712,  ..., -0.0714,  0.0241, -0.0194]],
+       device='cuda:0'), grad: tensor([[ 3.8967e-03,  2.3127e-04, -1.3866e-03,  ...,  4.0084e-05,
+          5.3120e-04,  2.1610e-03],
+        [ 4.6976e-06, -3.8586e-03, -1.8024e-04,  ..., -8.2111e-04,
+         -4.5633e-04,  1.8215e-04],
+        [-3.9864e-04,  3.5834e-04, -9.9182e-04,  ...,  2.4647e-05,
+         -1.9064e-03, -2.6417e-03],
+        ...,
+        [ 2.8915e-03,  5.5790e-04,  1.2276e-02,  ...,  8.8394e-05,
+          9.3536e-03,  4.6062e-04],
+        [ 3.0446e-04,  5.5408e-04,  3.3512e-03,  ...,  2.2030e-04,
+          2.0351e-03,  1.2369e-03],
+        [ 1.0443e-03,  3.2854e-04, -6.4964e-03,  ..., -1.4514e-05,
+         -1.5049e-03, -1.9264e-03]], device='cuda:0')
+Epoch 244, bias, value: tensor([ 0.0158, -0.0146, -0.0124,  0.0062, -0.0171, -0.0155,  0.0162, -0.0017,
+         0.0217, -0.0154], device='cuda:0'), grad: tensor([ 0.0143, -0.0277, -0.0019, -0.0077, -0.0038,  0.0001, -0.0202,  0.0430,
+         0.0300, -0.0261], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 243, time 216.99, cls_loss 0.5227 cls_loss_mapping 0.0074 cls_loss_causal 0.4929 re_mapping 0.0073 re_causal 0.0176 /// teacc 98.68 lr 0.00010000
+Epoch 245, weight, value: tensor([[-0.0566, -0.0846, -0.1355,  ...,  0.1116, -0.0498,  0.0335],
+        [-0.0756,  0.1000, -0.0711,  ...,  0.0412, -0.0549, -0.0937],
+        [-0.0404,  0.0845, -0.1005,  ..., -0.0245,  0.0266,  0.1155],
+        ...,
+        [-0.0044,  0.0546, -0.0030,  ..., -0.0149,  0.0295, -0.0611],
+        [ 0.0823, -0.0981,  0.0381,  ...,  0.0082,  0.0093, -0.0418],
+        [-0.0166, -0.0703,  0.0707,  ..., -0.0719,  0.0238, -0.0204]],
+       device='cuda:0'), grad: tensor([[ 1.7288e-02, -3.5572e-04,  2.7405e-02,  ...,  5.8174e-04,
+          2.0187e-02,  1.6159e-02],
+        [ 1.3709e-04,  5.8621e-05,  4.6754e-04,  ...,  7.6103e-04,
+          3.5119e-04,  7.3099e-04],
+        [ 3.3937e-06,  3.4869e-05,  4.1652e-04,  ...,  6.4135e-04,
+          2.9969e-04,  6.9380e-04],
+        ...,
+        [ 2.0242e-04,  1.0490e-04,  1.4982e-03,  ...,  9.1839e-04,
+          7.1049e-04,  1.0319e-03],
+        [-1.7532e-02,  3.6275e-07, -2.7710e-02,  ..., -5.9547e-03,
+         -2.2964e-02, -1.9669e-02],
+        [-1.3361e-03,  1.9953e-05, -4.3106e-03,  ...,  7.7009e-04,
+         -1.3895e-03,  9.5320e-04]], device='cuda:0')
+Epoch 245, bias, value: tensor([ 0.0176, -0.0136, -0.0136,  0.0076, -0.0170, -0.0169,  0.0149, -0.0020,
+         0.0216, -0.0158], device='cuda:0'), grad: tensor([ 0.0440,  0.0099,  0.0085, -0.0231,  0.0235,  0.0096, -0.0079,  0.0139,
+        -0.0802,  0.0019], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 244, time 216.84, cls_loss 0.5290 cls_loss_mapping 0.0051 cls_loss_causal 0.5006 re_mapping 0.0073 re_causal 0.0187 /// teacc 98.63 lr 0.00010000
+Epoch 246, weight, value: tensor([[-0.0563, -0.0839, -0.1365,  ...,  0.1124, -0.0503,  0.0326],
+        [-0.0745,  0.1000, -0.0697,  ...,  0.0411, -0.0541, -0.0945],
+        [-0.0404,  0.0847, -0.0997,  ..., -0.0241,  0.0270,  0.1149],
+        ...,
+        [-0.0054,  0.0539, -0.0042,  ..., -0.0134,  0.0294, -0.0607],
+        [ 0.0840, -0.0970,  0.0374,  ...,  0.0068,  0.0083, -0.0391],
+        [-0.0179, -0.0699,  0.0715,  ..., -0.0728,  0.0252, -0.0204]],
+       device='cuda:0'), grad: tensor([[-2.6202e-04, -3.3522e-04, -5.0201e-03,  ..., -1.8473e-03,
+         -3.8986e-03, -1.3208e-03],
+        [ 2.4962e-04, -1.5271e-04, -1.1694e-04,  ...,  1.3189e-03,
+         -9.5320e-04, -9.3794e-04],
+        [-1.1415e-03,  3.1185e-04,  4.6806e-03,  ...,  5.9366e-04,
+          3.9005e-03, -2.5368e-03],
+        ...,
+        [ 1.0109e-04,  1.3571e-03,  1.2569e-03,  ..., -3.7918e-03,
+          9.6560e-04, -7.7486e-05],
+        [-5.2547e-04, -5.5456e-04,  4.5657e-04,  ...,  6.0797e-04,
+          6.1941e-04,  6.3848e-04],
+        [ 5.1498e-04,  1.1358e-03,  2.3193e-03,  ...,  1.4610e-03,
+          2.0084e-03,  1.2016e-03]], device='cuda:0')
+Epoch 246, bias, value: tensor([ 0.0171, -0.0122, -0.0137,  0.0072, -0.0171, -0.0163,  0.0149, -0.0016,
+         0.0204, -0.0157], device='cuda:0'), grad: tensor([-0.0091,  0.0039, -0.0124,  0.0124,  0.0096,  0.0196, -0.0121,  0.0045,
+        -0.0189,  0.0024], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 245, time 216.40, cls_loss 0.5100 cls_loss_mapping 0.0047 cls_loss_causal 0.4838 re_mapping 0.0070 re_causal 0.0184 /// teacc 98.75 lr 0.00010000
+Epoch 247, weight, value: tensor([[-0.0567, -0.0847, -0.1363,  ...,  0.1127, -0.0501,  0.0329],
+        [-0.0749,  0.0998, -0.0709,  ...,  0.0421, -0.0542, -0.0962],
+        [-0.0377,  0.0849, -0.1004,  ..., -0.0245,  0.0275,  0.1157],
+        ...,
+        [-0.0052,  0.0545, -0.0045,  ..., -0.0138,  0.0288, -0.0606],
+        [ 0.0831, -0.0976,  0.0375,  ...,  0.0066,  0.0084, -0.0407],
+        [-0.0187, -0.0701,  0.0732,  ..., -0.0731,  0.0259, -0.0203]],
+       device='cuda:0'), grad: tensor([[ 1.3925e-05,  1.4521e-05,  4.1223e-04,  ...,  1.3685e-03,
+          2.8777e-04,  5.2595e-04],
+        [ 2.6170e-07,  3.7700e-05,  6.2287e-05,  ...,  2.4796e-04,
+          4.0203e-05,  5.0449e-04],
+        [-1.4544e-05, -9.5558e-04, -1.9989e-03,  ...,  2.2304e-04,
+         -6.6490e-03, -5.1117e-03],
+        ...,
+        [ 9.0990e-07,  1.7285e-05,  1.1283e-04,  ..., -7.6890e-05,
+          3.2878e-04, -3.1052e-03],
+        [ 2.0862e-06,  6.1083e-04,  4.5419e-04,  ...,  2.8095e-03,
+         -1.8328e-05,  2.0676e-03],
+        [ 6.8871e-07,  1.2517e-05,  1.8911e-03,  ...,  3.9387e-04,
+          6.0883e-03,  3.0327e-03]], device='cuda:0')
+Epoch 247, bias, value: tensor([ 0.0164, -0.0125, -0.0122,  0.0076, -0.0173, -0.0161,  0.0145, -0.0028,
+         0.0199, -0.0145], device='cuda:0'), grad: tensor([ 0.0166, -0.0156, -0.0169, -0.0344,  0.0130,  0.0289,  0.0016, -0.0181,
+         0.0184,  0.0065], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 246, time 216.65, cls_loss 0.5051 cls_loss_mapping 0.0056 cls_loss_causal 0.4745 re_mapping 0.0073 re_causal 0.0182 /// teacc 98.82 lr 0.00010000
+Epoch 248, weight, value: tensor([[-0.0559, -0.0852, -0.1364,  ...,  0.1132, -0.0495,  0.0333],
+        [-0.0755,  0.0998, -0.0713,  ...,  0.0421, -0.0547, -0.0945],
+        [-0.0372,  0.0848, -0.1007,  ..., -0.0244,  0.0272,  0.1162],
+        ...,
+        [-0.0049,  0.0542, -0.0034,  ..., -0.0135,  0.0299, -0.0606],
+        [ 0.0826, -0.0969,  0.0372,  ...,  0.0074,  0.0075, -0.0407],
+        [-0.0189, -0.0700,  0.0729,  ..., -0.0738,  0.0265, -0.0212]],
+       device='cuda:0'), grad: tensor([[ 3.2829e-07,  1.3165e-05,  1.0633e-03,  ..., -3.2288e-02,
+          1.0672e-03,  4.6182e-04],
+        [ 2.0492e-04,  4.5204e-04,  1.1787e-03,  ..., -1.5604e-04,
+          9.5463e-04,  4.0793e-04],
+        [ 2.2464e-06,  2.5585e-05,  7.3290e-04,  ...,  2.4939e-04,
+          2.6169e-03,  2.5120e-03],
+        ...,
+        [-7.1955e-04, -3.1643e-03, -4.1046e-03,  ..., -1.7385e-03,
+         -1.9569e-03, -7.6115e-05],
+        [-1.9148e-05,  5.3644e-04,  3.8261e-03,  ...,  9.2030e-04,
+          4.2381e-03,  5.0497e-04],
+        [ 3.6168e-04,  1.6108e-03, -2.4509e-03,  ...,  9.6655e-04,
+         -6.1646e-03,  3.4451e-04]], device='cuda:0')
+Epoch 248, bias, value: tensor([ 0.0164, -0.0122, -0.0124,  0.0078, -0.0177, -0.0165,  0.0140, -0.0023,
+         0.0201, -0.0144], device='cuda:0'), grad: tensor([-0.0189, -0.0089,  0.0292, -0.0020, -0.0121, -0.0132,  0.0137, -0.0229,
+         0.0299,  0.0053], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 247, time 216.64, cls_loss 0.5056 cls_loss_mapping 0.0041 cls_loss_causal 0.4734 re_mapping 0.0070 re_causal 0.0180 /// teacc 98.82 lr 0.00010000
+Epoch 249, weight, value: tensor([[-0.0571, -0.0856, -0.1372,  ...,  0.1136, -0.0509,  0.0326],
+        [-0.0756,  0.0998, -0.0719,  ...,  0.0422, -0.0555, -0.0948],
+        [-0.0379,  0.0846, -0.1020,  ..., -0.0240,  0.0262,  0.1158],
+        ...,
+        [-0.0047,  0.0556, -0.0033,  ..., -0.0117,  0.0302, -0.0600],
+        [ 0.0836, -0.0972,  0.0382,  ...,  0.0062,  0.0087, -0.0407],
+        [-0.0189, -0.0701,  0.0728,  ..., -0.0727,  0.0264, -0.0201]],
+       device='cuda:0'), grad: tensor([[ 0.0005,  0.0009, -0.0009,  ...,  0.0002, -0.0011, -0.0013],
+        [ 0.0002,  0.0015,  0.0026,  ...,  0.0001,  0.0003,  0.0010],
+        [ 0.0020,  0.0042,  0.0045,  ...,  0.0003,  0.0047,  0.0014],
+        ...,
+        [-0.0031, -0.0134, -0.0128,  ..., -0.0007, -0.0148, -0.0094],
+        [ 0.0013,  0.0013,  0.0010,  ...,  0.0001,  0.0011,  0.0015],
+        [ 0.0006,  0.0064,  0.0096,  ...,  0.0001,  0.0071,  0.0049]],
+       device='cuda:0')
+Epoch 249, bias, value: tensor([ 0.0167, -0.0122, -0.0130,  0.0077, -0.0176, -0.0165,  0.0146, -0.0020,
+         0.0202, -0.0149], device='cuda:0'), grad: tensor([-0.0028, -0.0464,  0.0339,  0.0134, -0.0027, -0.0104, -0.0279, -0.0247,
+         0.0295,  0.0380], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 248, time 216.56, cls_loss 0.4991 cls_loss_mapping 0.0062 cls_loss_causal 0.4791 re_mapping 0.0073 re_causal 0.0189 /// teacc 98.75 lr 0.00010000
+Epoch 250, weight, value: tensor([[-0.0576, -0.0847, -0.1390,  ...,  0.1127, -0.0516,  0.0324],
+        [-0.0752,  0.0996, -0.0709,  ...,  0.0429, -0.0539, -0.0957],
+        [-0.0395,  0.0848, -0.1020,  ..., -0.0233,  0.0263,  0.1168],
+        ...,
+        [-0.0037,  0.0562, -0.0034,  ..., -0.0127,  0.0303, -0.0593],
+        [ 0.0836, -0.0981,  0.0387,  ...,  0.0065,  0.0089, -0.0414],
+        [-0.0181, -0.0712,  0.0728,  ..., -0.0741,  0.0262, -0.0212]],
+       device='cuda:0'), grad: tensor([[ 3.7813e-04,  2.8655e-05, -3.5167e-05,  ...,  3.4481e-05,
+         -5.0831e-04, -3.4794e-06],
+        [ 1.4037e-05,  1.5461e-04,  7.6342e-04,  ...,  1.1611e-04,
+          7.0047e-04,  2.4214e-08],
+        [ 2.1732e-04,  6.1274e-05,  3.7813e-04,  ...,  8.8096e-05,
+          3.5834e-04, -6.0536e-06],
+        ...,
+        [ 1.6257e-05, -5.4884e-04, -2.1706e-03,  ..., -9.2936e-04,
+         -9.8801e-04,  4.7032e-08],
+        [ 4.4870e-04,  3.5077e-05,  2.9325e-04,  ...,  4.6164e-05,
+          3.2568e-04, -5.9744e-07],
+        [ 1.9169e-04, -9.2363e-04, -5.4741e-03,  ..., -3.7432e-05,
+         -4.8676e-03,  6.7288e-07]], device='cuda:0')
+Epoch 250, bias, value: tensor([ 0.0163, -0.0117, -0.0139,  0.0083, -0.0177, -0.0186,  0.0149, -0.0013,
+         0.0204, -0.0140], device='cuda:0'), grad: tensor([-0.0482,  0.0177,  0.0133,  0.0139,  0.0281,  0.0124, -0.0214, -0.0068,
+         0.0130, -0.0220], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 249, time 216.54, cls_loss 0.5031 cls_loss_mapping 0.0047 cls_loss_causal 0.4693 re_mapping 0.0069 re_causal 0.0167 /// teacc 98.63 lr 0.00010000
+Epoch 251, weight, value: tensor([[-0.0588, -0.0858, -0.1392,  ...,  0.1133, -0.0518,  0.0315],
+        [-0.0756,  0.0998, -0.0714,  ...,  0.0431, -0.0544, -0.0962],
+        [-0.0401,  0.0860, -0.1016,  ..., -0.0216,  0.0271,  0.1181],
+        ...,
+        [-0.0042,  0.0555, -0.0021,  ..., -0.0129,  0.0299, -0.0601],
+        [ 0.0832, -0.0980,  0.0390,  ...,  0.0063,  0.0091, -0.0403],
+        [-0.0165, -0.0718,  0.0726,  ..., -0.0757,  0.0263, -0.0219]],
+       device='cuda:0'), grad: tensor([[ 9.1732e-05,  6.3801e-04,  1.6713e-04,  ...,  4.6730e-04,
+          1.1683e-03,  6.4802e-04],
+        [ 9.7275e-04,  1.1784e-04, -1.5717e-03,  ..., -2.7537e-04,
+         -5.1651e-03,  4.5848e-04],
+        [ 1.6365e-03,  3.7174e-03,  4.1175e-04,  ...,  1.2407e-03,
+          1.2951e-03,  3.3207e-03],
+        ...,
+        [ 5.1928e-04, -3.0613e-03,  1.1196e-03,  ..., -4.0703e-03,
+          8.9121e-04,  4.1771e-04],
+        [ 7.4196e-04,  9.8991e-04,  5.3835e-04,  ...,  4.9400e-04,
+          1.0948e-03,  1.0481e-03],
+        [ 1.0958e-03,  6.1655e-04,  1.7538e-03,  ...,  4.6563e-04,
+         -3.0651e-03, -1.2684e-03]], device='cuda:0')
+Epoch 251, bias, value: tensor([ 0.0153, -0.0120, -0.0128,  0.0090, -0.0182, -0.0186,  0.0150, -0.0008,
+         0.0200, -0.0141], device='cuda:0'), grad: tensor([-0.0131, -0.0044,  0.0085,  0.0244, -0.0432,  0.0157,  0.0140, -0.0085,
+         0.0203, -0.0137], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 250, time 216.82, cls_loss 0.5172 cls_loss_mapping 0.0048 cls_loss_causal 0.4888 re_mapping 0.0073 re_causal 0.0187 /// teacc 98.70 lr 0.00010000
+Epoch 252, weight, value: tensor([[-0.0594, -0.0869, -0.1381,  ...,  0.1134, -0.0504,  0.0315],
+        [-0.0755,  0.0992, -0.0713,  ...,  0.0437, -0.0550, -0.0970],
+        [-0.0411,  0.0849, -0.1025,  ..., -0.0206,  0.0268,  0.1187],
+        ...,
+        [-0.0042,  0.0574, -0.0030,  ..., -0.0121,  0.0296, -0.0610],
+        [ 0.0835, -0.0983,  0.0398,  ...,  0.0053,  0.0092, -0.0410],
+        [-0.0171, -0.0727,  0.0712,  ..., -0.0764,  0.0258, -0.0217]],
+       device='cuda:0'), grad: tensor([[ 3.8236e-05, -6.7329e-04,  7.6771e-05,  ..., -1.1177e-03,
+         -9.4175e-04, -5.3253e-03],
+        [-1.2839e-04, -7.1049e-05, -6.1333e-05,  ..., -6.4325e-04,
+         -1.7252e-03, -3.5610e-03],
+        [ 6.0648e-05,  9.4533e-05,  8.3625e-05,  ...,  4.3035e-04,
+          7.8058e-04,  2.2907e-03],
+        ...,
+        [-1.3399e-04, -5.8383e-05,  1.1188e-04,  ...,  1.5652e-04,
+          2.1124e-04,  3.8457e-04],
+        [ 1.9569e-03,  1.6749e-04, -3.5024e-04,  ...,  2.7394e-04,
+          6.8285e-06,  1.0767e-03],
+        [ 1.3733e-04,  1.3387e-04,  1.7273e-04,  ...,  1.3018e-04,
+          3.1161e-04,  5.1117e-04]], device='cuda:0')
+Epoch 252, bias, value: tensor([ 0.0159, -0.0121, -0.0128,  0.0078, -0.0179, -0.0183,  0.0150, -0.0004,
+         0.0196, -0.0140], device='cuda:0'), grad: tensor([-0.0174, -0.0253,  0.0196,  0.0234,  0.0107, -0.0002,  0.0151, -0.0220,
+        -0.0145,  0.0107], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 251, time 216.75, cls_loss 0.5022 cls_loss_mapping 0.0052 cls_loss_causal 0.4734 re_mapping 0.0069 re_causal 0.0181 /// teacc 98.66 lr 0.00010000
+Epoch 253, weight, value: tensor([[-0.0602, -0.0886, -0.1370,  ...,  0.1144, -0.0498,  0.0325],
+        [-0.0760,  0.1002, -0.0727,  ...,  0.0438, -0.0559, -0.0955],
+        [-0.0410,  0.0841, -0.1036,  ..., -0.0205,  0.0270,  0.1191],
+        ...,
+        [-0.0050,  0.0577, -0.0023,  ..., -0.0121,  0.0311, -0.0614],
+        [ 0.0836, -0.0985,  0.0384,  ...,  0.0038,  0.0079, -0.0409],
+        [-0.0170, -0.0726,  0.0720,  ..., -0.0788,  0.0263, -0.0228]],
+       device='cuda:0'), grad: tensor([[ 0.0003,  0.0006,  0.0014,  ...,  0.0022,  0.0023,  0.0017],
+        [-0.0004, -0.0023,  0.0007,  ..., -0.0022, -0.0013, -0.0016],
+        [ 0.0007,  0.0010,  0.0004,  ...,  0.0010,  0.0010,  0.0006],
+        ...,
+        [ 0.0004,  0.0008,  0.0021,  ...,  0.0007,  0.0023,  0.0002],
+        [-0.0043,  0.0007, -0.0103,  ...,  0.0008, -0.0101,  0.0004],
+        [ 0.0011,  0.0009,  0.0109,  ...,  0.0012,  0.0089,  0.0008]],
+       device='cuda:0')
+Epoch 253, bias, value: tensor([ 1.5789e-02, -1.0751e-02, -1.3441e-02,  7.6038e-03, -1.7726e-02,
+        -1.9254e-02,  1.4453e-02,  6.9520e-05,  2.0338e-02, -1.4395e-02],
+       device='cuda:0'), grad: tensor([-0.0053, -0.0089,  0.0131,  0.0136, -0.0611,  0.0163, -0.0061,  0.0231,
+        -0.0209,  0.0364], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 252, time 216.64, cls_loss 0.4951 cls_loss_mapping 0.0047 cls_loss_causal 0.4659 re_mapping 0.0067 re_causal 0.0174 /// teacc 98.80 lr 0.00010000
+Epoch 254, weight, value: tensor([[-0.0605, -0.0878, -0.1361,  ...,  0.1153, -0.0502,  0.0321],
+        [-0.0772,  0.0996, -0.0748,  ...,  0.0437, -0.0567, -0.0958],
+        [-0.0419,  0.0842, -0.1035,  ..., -0.0190,  0.0279,  0.1201],
+        ...,
+        [-0.0040,  0.0576, -0.0023,  ..., -0.0119,  0.0307, -0.0613],
+        [ 0.0841, -0.0986,  0.0388,  ...,  0.0028,  0.0088, -0.0407],
+        [-0.0167, -0.0714,  0.0719,  ..., -0.0778,  0.0260, -0.0218]],
+       device='cuda:0'), grad: tensor([[-1.9436e-03,  9.8161e-07,  3.3760e-04,  ..., -6.2675e-03,
+         -1.0663e-04, -4.7207e-04],
+        [ 6.5565e-04, -2.3469e-05,  6.6233e-04,  ...,  1.5936e-03,
+          1.1690e-05,  2.1219e-04],
+        [ 4.1914e-04,  2.0400e-05,  3.8910e-04,  ...,  9.3985e-04,
+          9.0301e-05,  3.5429e-04],
+        ...,
+        [ 2.5439e-04, -8.1837e-05,  5.8889e-04,  ...,  9.8515e-04,
+         -2.9758e-05,  1.1408e-04],
+        [-1.4334e-03,  1.3091e-05, -4.5357e-03,  ..., -1.5628e-04,
+          1.1921e-04, -7.4863e-04],
+        [ 3.5048e-04,  3.5316e-05,  5.9366e-04,  ...,  8.4782e-04,
+         -5.4300e-05,  1.8048e-04]], device='cuda:0')
+Epoch 254, bias, value: tensor([ 0.0155, -0.0099, -0.0136,  0.0081, -0.0172, -0.0197,  0.0134, -0.0004,
+         0.0196, -0.0132], device='cuda:0'), grad: tensor([-0.0103,  0.0266, -0.0450,  0.0083, -0.0118,  0.0232,  0.0275, -0.0117,
+        -0.0235,  0.0168], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 253, time 216.74, cls_loss 0.5312 cls_loss_mapping 0.0046 cls_loss_causal 0.5034 re_mapping 0.0068 re_causal 0.0187 /// teacc 98.63 lr 0.00010000
+Epoch 255, weight, value: tensor([[-0.0617, -0.0872, -0.1370,  ...,  0.1144, -0.0509,  0.0321],
+        [-0.0766,  0.0988, -0.0740,  ...,  0.0439, -0.0557, -0.0960],
+        [-0.0402,  0.0850, -0.1015,  ..., -0.0170,  0.0292,  0.1198],
+        ...,
+        [-0.0042,  0.0579, -0.0026,  ..., -0.0137,  0.0298, -0.0626],
+        [ 0.0827, -0.0989,  0.0383,  ...,  0.0025,  0.0092, -0.0389],
+        [-0.0158, -0.0725,  0.0724,  ..., -0.0786,  0.0265, -0.0215]],
+       device='cuda:0'), grad: tensor([[ 7.8321e-05,  1.2755e-05,  8.7547e-04,  ..., -9.7046e-03,
+         -2.4948e-03, -4.2114e-03],
+        [ 1.0884e-04,  7.6666e-06, -1.5602e-03,  ...,  1.7416e-04,
+          3.0446e-04,  1.7226e-04],
+        [ 1.7214e-04,  3.8362e-04,  9.0265e-04,  ...,  4.4212e-03,
+          2.1114e-03,  1.3475e-03],
+        ...,
+        [ 1.5450e-04,  4.2289e-05,  5.8174e-04,  ...,  5.3704e-05,
+          5.0211e-04,  2.2411e-04],
+        [-1.5411e-03, -6.0129e-04, -4.4174e-03,  ..., -4.0779e-03,
+         -1.8291e-03, -1.9627e-03],
+        [-1.0624e-03,  1.0237e-05,  4.0317e-04,  ...,  1.6677e-04,
+          3.5400e-03,  4.1413e-04]], device='cuda:0')
+Epoch 255, bias, value: tensor([ 0.0149, -0.0107, -0.0124,  0.0072, -0.0172, -0.0191,  0.0146, -0.0007,
+         0.0184, -0.0123], device='cuda:0'), grad: tensor([-0.0092, -0.0223,  0.0170, -0.0348,  0.0197,  0.0171,  0.0014,  0.0078,
+        -0.0135,  0.0169], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 254, time 216.73, cls_loss 0.4915 cls_loss_mapping 0.0050 cls_loss_causal 0.4612 re_mapping 0.0071 re_causal 0.0187 /// teacc 98.54 lr 0.00010000
+Epoch 256, weight, value: tensor([[-0.0624, -0.0861, -0.1378,  ...,  0.1142, -0.0512,  0.0322],
+        [-0.0762,  0.0987, -0.0743,  ...,  0.0435, -0.0568, -0.0973],
+        [-0.0410,  0.0854, -0.1017,  ..., -0.0178,  0.0302,  0.1192],
+        ...,
+        [-0.0035,  0.0564, -0.0021,  ..., -0.0137,  0.0294, -0.0635],
+        [ 0.0831, -0.0977,  0.0389,  ...,  0.0038,  0.0092, -0.0381],
+        [-0.0165, -0.0715,  0.0726,  ..., -0.0792,  0.0273, -0.0212]],
+       device='cuda:0'), grad: tensor([[ 5.6887e-04,  1.0997e-05, -6.2227e-05,  ...,  7.7486e-04,
+         -1.4126e-04, -6.7377e-04],
+        [ 1.7881e-04, -1.5764e-03,  1.0121e-04,  ..., -1.7487e-02,
+          1.5318e-04, -6.7139e-03],
+        [ 3.4523e-04,  6.5029e-05,  9.2328e-05,  ...,  8.6308e-04,
+          2.0206e-04,  3.6812e-04],
+        ...,
+        [ 2.9564e-03,  1.2922e-03,  3.6979e-04,  ...,  1.7366e-03,
+          2.8086e-04,  8.0287e-05],
+        [ 1.1120e-03,  6.7234e-05, -4.4918e-04,  ..., -5.5428e-03,
+         -1.2808e-03, -5.3644e-04],
+        [ 3.5000e-03,  7.0632e-05, -8.3256e-04,  ...,  8.1015e-04,
+         -2.1696e-04,  3.0565e-04]], device='cuda:0')
+Epoch 256, bias, value: tensor([ 0.0133, -0.0108, -0.0130,  0.0071, -0.0161, -0.0188,  0.0150, -0.0010,
+         0.0194, -0.0125], device='cuda:0'), grad: tensor([ 0.0043, -0.0376,  0.0080, -0.0179,  0.0085,  0.0092,  0.0375,  0.0185,
+        -0.0154, -0.0152], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 255, time 216.79, cls_loss 0.4791 cls_loss_mapping 0.0050 cls_loss_causal 0.4569 re_mapping 0.0070 re_causal 0.0180 /// teacc 98.72 lr 0.00010000
+Epoch 257, weight, value: tensor([[-0.0612, -0.0866, -0.1382,  ...,  0.1141, -0.0515,  0.0333],
+        [-0.0763,  0.1005, -0.0746,  ...,  0.0457, -0.0564, -0.0939],
+        [-0.0403,  0.0849, -0.1033,  ..., -0.0190,  0.0293,  0.1195],
+        ...,
+        [-0.0050,  0.0571, -0.0018,  ..., -0.0136,  0.0285, -0.0643],
+        [ 0.0829, -0.0987,  0.0409,  ...,  0.0050,  0.0109, -0.0380],
+        [-0.0171, -0.0728,  0.0716,  ..., -0.0791,  0.0269, -0.0233]],
+       device='cuda:0'), grad: tensor([[ 6.3591e-06,  1.7846e-04,  5.9414e-04,  ...,  4.2558e-04,
+          6.3086e-04,  3.5357e-04],
+        [ 2.3603e-04,  2.3234e-04, -5.8085e-05,  ...,  2.8849e-04,
+          4.6706e-04,  2.3627e-04],
+        [ 2.4304e-05,  2.2662e-04,  9.8324e-04,  ...,  1.0700e-03,
+          1.1644e-03,  7.5674e-04],
+        ...,
+        [ 7.0274e-05, -2.1229e-03,  1.4104e-05,  ..., -1.6232e-03,
+         -1.4143e-03, -1.6441e-03],
+        [-9.7847e-04, -1.6344e-04, -3.9411e-04,  ..., -5.0507e-03,
+         -1.1415e-03, -2.6226e-03],
+        [ 1.0860e-04,  3.1424e-04,  1.8425e-03,  ...,  5.8699e-04,
+          1.9445e-03,  6.5327e-04]], device='cuda:0')
+Epoch 257, bias, value: tensor([ 0.0136, -0.0108, -0.0135,  0.0068, -0.0170, -0.0182,  0.0147, -0.0002,
+         0.0203, -0.0130], device='cuda:0'), grad: tensor([ 0.0133, -0.0184,  0.0200, -0.0010, -0.0108,  0.0196,  0.0142, -0.0064,
+        -0.0534,  0.0228], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 256, time 216.68, cls_loss 0.5290 cls_loss_mapping 0.0060 cls_loss_causal 0.5032 re_mapping 0.0070 re_causal 0.0186 /// teacc 98.84 lr 0.00010000
+Epoch 258, weight, value: tensor([[-0.0610, -0.0881, -0.1393,  ...,  0.1135, -0.0518,  0.0323],
+        [-0.0770,  0.1006, -0.0748,  ...,  0.0468, -0.0558, -0.0939],
+        [-0.0404,  0.0845, -0.1031,  ..., -0.0189,  0.0295,  0.1198],
+        ...,
+        [-0.0043,  0.0585, -0.0028,  ..., -0.0138,  0.0278, -0.0637],
+        [ 0.0830, -0.1007,  0.0409,  ...,  0.0030,  0.0114, -0.0392],
+        [-0.0155, -0.0732,  0.0736,  ..., -0.0801,  0.0279, -0.0251]],
+       device='cuda:0'), grad: tensor([[ 3.4261e-04,  5.0354e-04,  6.0171e-05,  ...,  1.0529e-02,
+          1.0056e-02,  8.1491e-04],
+        [-1.5192e-05,  1.9464e-03,  8.9034e-06,  ...,  4.1885e-03,
+          6.0415e-04,  2.0676e-03],
+        [ 3.7479e-04, -9.5129e-04,  6.6900e-04,  ...,  1.7147e-03,
+          1.1644e-03,  9.1171e-04],
+        ...,
+        [ 2.6867e-05,  2.9869e-03,  3.2163e-04,  ..., -2.2644e-02,
+         -2.4490e-02,  9.6035e-04],
+        [-7.1373e-03, -3.8385e-04,  4.9210e-03,  ..., -1.7176e-03,
+          7.6752e-03, -1.3533e-03],
+        [ 1.0580e-04, -2.7523e-03, -8.4000e-03,  ...,  1.0979e-02,
+          1.3375e-04, -2.7294e-03]], device='cuda:0')
+Epoch 258, bias, value: tensor([ 0.0134, -0.0108, -0.0135,  0.0068, -0.0182, -0.0185,  0.0151, -0.0003,
+         0.0209, -0.0124], device='cuda:0'), grad: tensor([ 0.0270,  0.0321, -0.0070,  0.0307, -0.0104, -0.0324,  0.0231, -0.0198,
+        -0.0190, -0.0242], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 257, time 216.70, cls_loss 0.4695 cls_loss_mapping 0.0042 cls_loss_causal 0.4451 re_mapping 0.0071 re_causal 0.0183 /// teacc 98.75 lr 0.00010000
+Epoch 259, weight, value: tensor([[-0.0618, -0.0891, -0.1396,  ...,  0.1138, -0.0505,  0.0332],
+        [-0.0760,  0.1003, -0.0745,  ...,  0.0464, -0.0553, -0.0926],
+        [-0.0402,  0.0853, -0.1038,  ..., -0.0199,  0.0289,  0.1195],
+        ...,
+        [-0.0049,  0.0586, -0.0027,  ..., -0.0137,  0.0282, -0.0624],
+        [ 0.0830, -0.1002,  0.0400,  ...,  0.0050,  0.0108, -0.0397],
+        [-0.0160, -0.0733,  0.0731,  ..., -0.0807,  0.0275, -0.0246]],
+       device='cuda:0'), grad: tensor([[ 1.1986e-06,  4.4912e-05,  2.3804e-03,  ...,  3.0220e-05,
+          2.3403e-03,  3.6089e-07],
+        [-5.2661e-05, -7.2861e-04, -2.2304e-04,  ..., -5.6601e-04,
+         -4.9733e-07,  2.0955e-08],
+        [ 2.6431e-06,  1.1760e-04,  2.8133e-04,  ...,  6.8188e-05,
+          2.3210e-04,  1.4491e-06],
+        ...,
+        [ 8.1658e-06, -8.0988e-06,  1.6603e-03,  ...,  6.4492e-05,
+          1.3218e-03,  3.4086e-07],
+        [ 2.0452e-06,  1.1516e-04,  1.1039e-04,  ...,  1.0592e-04,
+          9.0659e-05,  1.4817e-06],
+        [ 1.9046e-06,  5.3763e-05,  1.1683e-03,  ...,  2.9564e-05,
+          1.5326e-03,  4.9099e-06]], device='cuda:0')
+Epoch 259, bias, value: tensor([ 0.0125, -0.0104, -0.0123,  0.0064, -0.0183, -0.0183,  0.0157, -0.0002,
+         0.0202, -0.0127], device='cuda:0'), grad: tensor([ 0.0171, -0.0243, -0.0201, -0.0105,  0.0089,  0.0087,  0.0108,  0.0154,
+        -0.0213,  0.0152], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 258, time 216.43, cls_loss 0.5092 cls_loss_mapping 0.0056 cls_loss_causal 0.4933 re_mapping 0.0072 re_causal 0.0192 /// teacc 98.61 lr 0.00010000
+Epoch 260, weight, value: tensor([[-0.0616, -0.0894, -0.1390,  ...,  0.1150, -0.0506,  0.0323],
+        [-0.0757,  0.1003, -0.0754,  ...,  0.0465, -0.0568, -0.0944],
+        [-0.0403,  0.0850, -0.1044,  ..., -0.0185,  0.0282,  0.1200],
+        ...,
+        [-0.0050,  0.0587, -0.0024,  ..., -0.0132,  0.0289, -0.0622],
+        [ 0.0829, -0.1001,  0.0409,  ...,  0.0039,  0.0116, -0.0406],
+        [-0.0159, -0.0730,  0.0725,  ..., -0.0817,  0.0271, -0.0226]],
+       device='cuda:0'), grad: tensor([[ 4.3035e-04, -8.7547e-04,  9.3269e-04,  ...,  4.3941e-04,
+          6.7377e-04,  9.8801e-04],
+        [ 1.9416e-05, -3.1680e-05,  5.5170e-04,  ...,  4.3559e-04,
+          3.0136e-04,  5.0831e-04],
+        [-3.3283e-03,  3.7909e-05, -4.1389e-03,  ..., -3.7193e-04,
+         -2.2564e-03, -6.3171e-03],
+        ...,
+        [ 8.4862e-06,  1.2898e-04,  1.4595e-02,  ..., -3.8482e-06,
+          4.6082e-03,  2.8110e-04],
+        [-1.2362e-04,  3.0160e-04,  1.7345e-04,  ..., -3.0708e-04,
+         -1.2789e-03,  8.2076e-05],
+        [ 4.6611e-05,  2.2638e-04,  2.6054e-03,  ..., -9.4175e-04,
+          5.1081e-05, -3.0174e-03]], device='cuda:0')
+Epoch 260, bias, value: tensor([ 0.0134, -0.0112, -0.0118,  0.0074, -0.0172, -0.0187,  0.0148, -0.0005,
+         0.0195, -0.0131], device='cuda:0'), grad: tensor([-0.0107,  0.0128, -0.0505, -0.0192, -0.0165,  0.0157,  0.0395,  0.0438,
+        -0.0017, -0.0132], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 259, time 216.77, cls_loss 0.4951 cls_loss_mapping 0.0055 cls_loss_causal 0.4781 re_mapping 0.0068 re_causal 0.0170 /// teacc 98.85 lr 0.00010000
+Epoch 261, weight, value: tensor([[-0.0621, -0.0893, -0.1391,  ...,  0.1151, -0.0509,  0.0332],
+        [-0.0760,  0.1007, -0.0750,  ...,  0.0476, -0.0568, -0.0938],
+        [-0.0416,  0.0850, -0.1038,  ..., -0.0185,  0.0298,  0.1200],
+        ...,
+        [-0.0055,  0.0587, -0.0024,  ..., -0.0137,  0.0288, -0.0628],
+        [ 0.0845, -0.1005,  0.0418,  ...,  0.0029,  0.0113, -0.0417],
+        [-0.0152, -0.0726,  0.0721,  ..., -0.0807,  0.0276, -0.0230]],
+       device='cuda:0'), grad: tensor([[ 2.4170e-05,  7.3850e-05, -6.5947e-04,  ...,  4.3750e-04,
+         -2.0552e-04,  1.0890e-04],
+        [-3.6693e-04, -3.2395e-05,  4.5109e-04,  ..., -2.6245e-03,
+          7.9989e-05, -1.0557e-03],
+        [ 6.6817e-05, -1.2159e-04, -7.1466e-05,  ...,  3.4046e-04,
+          6.1631e-05,  1.2517e-05],
+        ...,
+        [ 7.6175e-05,  1.2646e-03,  4.8790e-03,  ...,  4.3106e-04,
+          2.0909e-04,  1.2422e-04],
+        [-1.8525e-04,  1.6153e-05,  4.0650e-04,  ...,  3.9935e-04,
+          8.2731e-05,  1.4782e-04],
+        [ 7.9751e-05, -1.2922e-03, -4.6844e-03,  ...,  3.3689e-04,
+         -7.6234e-05,  1.1688e-04]], device='cuda:0')
+Epoch 261, bias, value: tensor([ 1.3633e-02, -1.1078e-02, -1.2826e-02,  6.7171e-03, -1.7709e-02,
+        -1.8478e-02,  1.4992e-02, -7.7504e-05,  2.0514e-02, -1.3138e-02],
+       device='cuda:0'), grad: tensor([-0.0141, -0.0089, -0.0141,  0.0192, -0.0394,  0.0151,  0.0173, -0.0029,
+         0.0135,  0.0142], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 260, time 217.12, cls_loss 0.5009 cls_loss_mapping 0.0042 cls_loss_causal 0.4695 re_mapping 0.0072 re_causal 0.0182 /// teacc 98.79 lr 0.00010000
+Epoch 262, weight, value: tensor([[-0.0606, -0.0887, -0.1394,  ...,  0.1167, -0.0515,  0.0331],
+        [-0.0771,  0.1005, -0.0743,  ...,  0.0472, -0.0577, -0.0932],
+        [-0.0416,  0.0830, -0.1040,  ..., -0.0192,  0.0298,  0.1201],
+        ...,
+        [-0.0063,  0.0601, -0.0011,  ..., -0.0145,  0.0301, -0.0619],
+        [ 0.0846, -0.1007,  0.0406,  ...,  0.0018,  0.0107, -0.0428],
+        [-0.0145, -0.0726,  0.0722,  ..., -0.0799,  0.0276, -0.0238]],
+       device='cuda:0'), grad: tensor([[-5.7650e-04, -1.7862e-03, -2.2024e-05,  ..., -2.9640e-03,
+         -1.3828e-03, -2.3174e-03],
+        [ 5.4181e-05,  3.3826e-05, -4.2096e-06,  ...,  8.3828e-04,
+          1.0341e-04,  5.1403e-04],
+        [ 6.1274e-05,  3.4475e-04,  2.1744e-04,  ...,  9.0361e-04,
+          1.9646e-04, -1.5812e-03],
+        ...,
+        [ 4.4286e-05,  5.8450e-06, -2.1720e-04,  ...,  2.3866e-04,
+         -5.7459e-05,  3.6931e-04],
+        [ 5.5999e-05,  1.4365e-04,  1.1303e-05,  ...,  6.0177e-04,
+          2.0826e-04,  5.4932e-04],
+        [ 3.8773e-05,  1.2398e-04,  1.4520e-04,  ..., -3.6926e-03,
+          1.4496e-04, -6.1877e-06]], device='cuda:0')
+Epoch 262, bias, value: tensor([ 0.0135, -0.0102, -0.0131,  0.0065, -0.0182, -0.0178,  0.0155, -0.0003,
+         0.0197, -0.0130], device='cuda:0'), grad: tensor([-0.0185,  0.0227, -0.0186,  0.0189, -0.0154,  0.0151,  0.0169, -0.0167,
+         0.0134, -0.0178], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 261, time 216.45, cls_loss 0.4824 cls_loss_mapping 0.0040 cls_loss_causal 0.4509 re_mapping 0.0070 re_causal 0.0177 /// teacc 98.73 lr 0.00010000
+Epoch 263, weight, value: tensor([[-0.0586, -0.0884, -0.1403,  ...,  0.1165, -0.0523,  0.0319],
+        [-0.0775,  0.1009, -0.0741,  ...,  0.0470, -0.0569, -0.0933],
+        [-0.0388,  0.0824, -0.1041,  ..., -0.0182,  0.0302,  0.1202],
+        ...,
+        [-0.0068,  0.0596, -0.0014,  ..., -0.0165,  0.0311, -0.0617],
+        [ 0.0847, -0.1008,  0.0408,  ...,  0.0027,  0.0105, -0.0427],
+        [-0.0155, -0.0709,  0.0732,  ..., -0.0798,  0.0286, -0.0239]],
+       device='cuda:0'), grad: tensor([[ 2.3410e-05,  3.4294e-03,  1.1692e-03,  ...,  4.8447e-03,
+          1.7862e-03,  3.5763e-04],
+        [ 1.0061e-04,  9.4080e-04,  2.9278e-03,  ...,  1.7986e-03,
+          6.2943e-04,  3.3569e-04],
+        [ 8.0243e-06, -1.5278e-03, -2.0742e-05,  ..., -4.7989e-03,
+         -1.3390e-03, -2.2125e-03],
+        ...,
+        [ 1.1520e-06, -4.6005e-03, -8.9550e-04,  ..., -5.4207e-03,
+         -2.2888e-03,  3.8433e-04],
+        [ 7.8773e-04,  1.4591e-04, -6.6566e-03,  ...,  5.6887e-04,
+         -2.4304e-05,  1.8561e-04],
+        [ 1.2919e-05,  8.9312e-04,  1.1387e-03,  ...,  1.5078e-03,
+          7.9918e-04, -3.0446e-04]], device='cuda:0')
+Epoch 263, bias, value: tensor([ 0.0145, -0.0119, -0.0115,  0.0073, -0.0180, -0.0177,  0.0151, -0.0013,
+         0.0188, -0.0127], device='cuda:0'), grad: tensor([ 0.0281,  0.0304, -0.0642,  0.0159,  0.0233, -0.0327,  0.0264,  0.0021,
+        -0.0157, -0.0136], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 262, time 216.53, cls_loss 0.4739 cls_loss_mapping 0.0054 cls_loss_causal 0.4480 re_mapping 0.0071 re_causal 0.0182 /// teacc 98.67 lr 0.00010000
+Epoch 264, weight, value: tensor([[-0.0586, -0.0892, -0.1395,  ...,  0.1165, -0.0517,  0.0305],
+        [-0.0781,  0.1010, -0.0732,  ...,  0.0466, -0.0568, -0.0924],
+        [-0.0393,  0.0818, -0.1056,  ..., -0.0173,  0.0300,  0.1203],
+        ...,
+        [-0.0059,  0.0605, -0.0011,  ..., -0.0170,  0.0307, -0.0623],
+        [ 0.0852, -0.1006,  0.0402,  ...,  0.0015,  0.0101, -0.0407],
+        [-0.0157, -0.0732,  0.0723,  ..., -0.0792,  0.0280, -0.0244]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  6.5041e-04,  1.3666e-03,  ...,  2.6741e-03,
+          1.8377e-03,  1.4544e-03],
+        [ 0.0000e+00, -1.7462e-03,  1.2417e-03,  ...,  6.6566e-04,
+          1.1053e-03,  7.0286e-04],
+        [ 0.0000e+00,  6.3038e-04,  9.1934e-04,  ...,  1.2999e-03,
+          1.3828e-03,  1.1749e-02],
+        ...,
+        [ 1.2271e-05,  4.5681e-04, -3.5000e-03,  ...,  1.1820e-04,
+         -2.1019e-03,  6.0129e-04],
+        [ 1.3970e-09, -1.2569e-03, -1.5163e-04,  ..., -5.6124e-04,
+         -8.7118e-04, -2.8944e-04],
+        [ 1.8752e-04,  1.7557e-03, -3.0842e-03,  ..., -6.1188e-03,
+         -3.5763e-03, -2.6550e-03]], device='cuda:0')
+Epoch 264, bias, value: tensor([ 0.0130, -0.0115, -0.0117,  0.0079, -0.0181, -0.0171,  0.0152, -0.0013,
+         0.0189, -0.0127], device='cuda:0'), grad: tensor([ 0.0209,  0.0069,  0.0232, -0.0297,  0.0075,  0.0098,  0.0193,  0.0039,
+        -0.0276, -0.0341], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 263, time 216.46, cls_loss 0.5260 cls_loss_mapping 0.0059 cls_loss_causal 0.4990 re_mapping 0.0066 re_causal 0.0166 /// teacc 98.78 lr 0.00010000
+Epoch 265, weight, value: tensor([[-0.0602, -0.0897, -0.1390,  ...,  0.1149, -0.0522,  0.0308],
+        [-0.0784,  0.0984, -0.0746,  ...,  0.0450, -0.0576, -0.0927],
+        [-0.0406,  0.0826, -0.1052,  ..., -0.0160,  0.0295,  0.1199],
+        ...,
+        [-0.0066,  0.0614, -0.0005,  ..., -0.0161,  0.0318, -0.0621],
+        [ 0.0860, -0.1004,  0.0406,  ...,  0.0035,  0.0108, -0.0394],
+        [-0.0163, -0.0732,  0.0717,  ..., -0.0778,  0.0263, -0.0252]],
+       device='cuda:0'), grad: tensor([[ 1.2004e-04,  3.4237e-04,  2.8419e-04,  ...,  5.8222e-04,
+          4.5800e-04,  4.9639e-04],
+        [ 6.6795e-03,  5.0926e-03,  2.0957e-04,  ...,  1.2672e-04,
+          4.5824e-04,  4.0531e-04],
+        [-5.5265e-04, -6.6042e-04,  4.3124e-05,  ...,  1.2035e-03,
+          2.3305e-04, -1.4343e-03],
+        ...,
+        [-6.4468e-04,  2.0587e-04,  4.2343e-03,  ...,  4.1924e-03,
+          6.7749e-03,  8.3351e-04],
+        [ 5.6839e-04,  2.7180e-03,  1.0662e-03,  ...,  2.1133e-03,
+          1.8482e-03,  3.0270e-03],
+        [ 2.4557e-04,  9.3269e-04,  6.3658e-04,  ...,  1.1473e-03,
+          1.2789e-03,  4.8971e-04]], device='cuda:0')
+Epoch 265, bias, value: tensor([ 0.0130, -0.0126, -0.0111,  0.0072, -0.0173, -0.0163,  0.0148, -0.0017,
+         0.0190, -0.0124], device='cuda:0'), grad: tensor([ 0.0082, -0.0030,  0.0034, -0.0150, -0.0220, -0.0197, -0.0102,  0.0244,
+         0.0229,  0.0109], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 264, time 216.73, cls_loss 0.4883 cls_loss_mapping 0.0047 cls_loss_causal 0.4646 re_mapping 0.0079 re_causal 0.0200 /// teacc 98.79 lr 0.00010000
+Epoch 266, weight, value: tensor([[-0.0608, -0.0881, -0.1390,  ...,  0.1151, -0.0518,  0.0308],
+        [-0.0780,  0.0996, -0.0732,  ...,  0.0436, -0.0585, -0.0919],
+        [-0.0405,  0.0826, -0.1036,  ..., -0.0149,  0.0298,  0.1194],
+        ...,
+        [-0.0070,  0.0600, -0.0012,  ..., -0.0169,  0.0312, -0.0628],
+        [ 0.0858, -0.1003,  0.0412,  ...,  0.0037,  0.0110, -0.0401],
+        [-0.0158, -0.0723,  0.0719,  ..., -0.0783,  0.0269, -0.0243]],
+       device='cuda:0'), grad: tensor([[ 2.1886e-08, -2.4527e-05, -3.6931e-04,  ..., -1.8847e-04,
+          3.1519e-04, -5.3108e-05],
+        [ 6.2523e-03,  5.2118e-04,  3.1328e-04,  ..., -7.0229e-03,
+          1.2474e-02,  2.3749e-08],
+        [ 4.1211e-07,  1.1616e-03,  3.0518e-04,  ...,  3.1242e-03,
+          9.8133e-04,  9.6038e-06],
+        ...,
+        [ 1.1045e-06,  4.3869e-03, -4.3702e-04,  ...,  7.1945e-03,
+          3.7909e-04,  1.1036e-07],
+        [-2.9549e-05,  5.2595e-04, -8.7595e-04,  ..., -5.3749e-03,
+         -7.6637e-03,  5.0152e-07],
+        [ 3.6150e-05, -3.0422e-03,  6.2704e-04,  ..., -4.4823e-03,
+          1.6775e-03,  2.1104e-06]], device='cuda:0')
+Epoch 266, bias, value: tensor([ 0.0138, -0.0106, -0.0120,  0.0072, -0.0180, -0.0172,  0.0143, -0.0021,
+         0.0182, -0.0109], device='cuda:0'), grad: tensor([-0.0064,  0.0310,  0.0221,  0.0011, -0.0178, -0.0055,  0.0195,  0.0022,
+        -0.0068, -0.0394], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 265, time 216.54, cls_loss 0.5154 cls_loss_mapping 0.0056 cls_loss_causal 0.4873 re_mapping 0.0071 re_causal 0.0178 /// teacc 98.81 lr 0.00010000
+Epoch 267, weight, value: tensor([[-0.0607, -0.0878, -0.1399,  ...,  0.1153, -0.0526,  0.0309],
+        [-0.0789,  0.0992, -0.0734,  ...,  0.0439, -0.0606, -0.0929],
+        [-0.0403,  0.0820, -0.1034,  ..., -0.0153,  0.0302,  0.1194],
+        ...,
+        [-0.0059,  0.0608, -0.0005,  ..., -0.0160,  0.0322, -0.0629],
+        [ 0.0877, -0.1004,  0.0407,  ...,  0.0039,  0.0102, -0.0399],
+        [-0.0162, -0.0739,  0.0722,  ..., -0.0773,  0.0271, -0.0240]],
+       device='cuda:0'), grad: tensor([[ 9.5987e-04,  1.1735e-07, -4.2200e-04,  ...,  2.1744e-04,
+         -2.1667e-03,  8.5592e-05],
+        [ 3.1710e-05,  5.5321e-06,  1.1392e-05,  ...,  9.2462e-06,
+          4.0680e-05,  1.5333e-05],
+        [ 4.6641e-05,  6.3837e-05,  1.5289e-05,  ...,  3.2365e-05,
+          1.5354e-04,  7.9691e-05],
+        ...,
+        [ 9.6321e-05, -8.9169e-05,  1.1146e-04,  ...,  1.1735e-05,
+          1.6034e-04,  1.9580e-05],
+        [ 5.6219e-04, -3.3975e-05,  3.7956e-04,  ...,  1.4365e-05,
+          8.3065e-04,  8.9824e-05],
+        [ 1.0052e-03,  7.8529e-06, -1.4153e-03,  ...,  1.1611e-04,
+         -1.0681e-03,  2.0459e-05]], device='cuda:0')
+Epoch 267, bias, value: tensor([ 0.0138, -0.0107, -0.0121,  0.0084, -0.0193, -0.0175,  0.0146, -0.0019,
+         0.0180, -0.0108], device='cuda:0'), grad: tensor([-0.0283,  0.0103,  0.0087,  0.0173,  0.0050, -0.0092, -0.0075,  0.0077,
+         0.0144, -0.0182], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 266, time 216.56, cls_loss 0.5042 cls_loss_mapping 0.0057 cls_loss_causal 0.4798 re_mapping 0.0069 re_causal 0.0166 /// teacc 98.78 lr 0.00010000
+Epoch 268, weight, value: tensor([[-6.0039e-02, -8.8452e-02, -1.3959e-01,  ...,  1.1533e-01,
+         -5.1627e-02,  3.0010e-02],
+        [-7.9783e-02,  9.9850e-02, -7.3150e-02,  ...,  4.3850e-02,
+         -5.9882e-02, -9.2902e-02],
+        [-4.0005e-02,  8.1687e-02, -1.0496e-01,  ..., -1.5609e-02,
+          2.9863e-02,  1.2048e-01],
+        ...,
+        [-4.8130e-03,  6.0823e-02, -6.2102e-05,  ..., -1.6696e-02,
+          3.2087e-02, -6.3894e-02],
+        [ 8.7535e-02, -1.0000e-01,  4.1606e-02,  ...,  5.9855e-03,
+          1.1577e-02, -3.9706e-02],
+        [-1.6531e-02, -7.3718e-02,  7.0869e-02,  ..., -7.7165e-02,
+          2.5671e-02, -2.3182e-02]], device='cuda:0'), grad: tensor([[-8.1301e-04,  4.8280e-04, -1.8442e-04,  ..., -6.2418e-04,
+          2.0480e-04,  3.0017e-04],
+        [ 1.9297e-05, -8.8196e-03,  1.7393e-04,  ..., -4.6844e-03,
+          2.4629e-04, -1.5961e-02],
+        [ 5.3123e-06,  7.8201e-03,  2.5606e-04,  ..., -3.0670e-03,
+          2.4748e-04,  1.1124e-02],
+        ...,
+        [ 5.1856e-05,  8.4543e-04,  2.5749e-03,  ...,  2.3632e-03,
+          1.2903e-03,  4.7255e-04],
+        [ 8.2064e-04,  4.6229e-04,  1.3641e-02,  ...,  7.7248e-03,
+          1.9226e-03,  5.5275e-03],
+        [-9.9564e-04,  4.1819e-04, -1.6815e-02,  ...,  1.3266e-03,
+         -2.7542e-03,  3.2949e-04]], device='cuda:0')
+Epoch 268, bias, value: tensor([ 0.0141, -0.0110, -0.0124,  0.0085, -0.0182, -0.0171,  0.0141, -0.0016,
+         0.0180, -0.0115], device='cuda:0'), grad: tensor([ 5.8085e-05, -4.4739e-02, -2.0676e-02,  5.2834e-03,  1.1620e-02,
+        -4.5898e-02,  2.3895e-02,  2.2476e-02,  5.3833e-02, -5.8975e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 267, time 216.49, cls_loss 0.4884 cls_loss_mapping 0.0041 cls_loss_causal 0.4671 re_mapping 0.0074 re_causal 0.0186 /// teacc 98.80 lr 0.00010000
+Epoch 269, weight, value: tensor([[-6.0782e-02, -8.8248e-02, -1.3969e-01,  ...,  1.1505e-01,
+         -5.1991e-02,  2.9857e-02],
+        [-8.0513e-02,  9.9811e-02, -7.4126e-02,  ...,  4.4167e-02,
+         -6.1020e-02, -9.3273e-02],
+        [-4.0539e-02,  8.1702e-02, -1.0500e-01,  ..., -1.5719e-02,
+          3.0462e-02,  1.2136e-01],
+        ...,
+        [-4.8789e-03,  6.0601e-02, -8.8508e-05,  ..., -1.6470e-02,
+          3.1741e-02, -6.4198e-02],
+        [ 8.7241e-02, -1.0003e-01,  4.1184e-02,  ...,  6.5154e-03,
+          1.1091e-02, -4.1137e-02],
+        [-1.5486e-02, -7.3411e-02,  7.0678e-02,  ..., -7.6334e-02,
+          2.5682e-02, -2.3497e-02]], device='cuda:0'), grad: tensor([[ 1.6928e-04,  1.1361e-04,  3.0184e-04,  ...,  6.8092e-04,
+          4.2343e-04,  7.1812e-04],
+        [ 1.6272e-05,  1.3351e-04,  3.9029e-04,  ..., -7.8869e-04,
+         -6.2227e-04, -1.7834e-03],
+        [ 1.2720e-04,  2.2960e-04,  4.7994e-04,  ...,  1.2636e-03,
+          6.0177e-04,  1.1396e-03],
+        ...,
+        [ 1.0186e-04, -9.3877e-05,  2.6913e-03,  ...,  2.1732e-04,
+          9.5272e-04,  2.2745e-04],
+        [ 4.7445e-04, -9.0790e-04,  1.3695e-03,  ..., -3.2063e-03,
+          1.2064e-03, -3.4695e-03],
+        [ 3.8266e-04,  1.0335e-04, -1.2054e-02,  ..., -6.9809e-04,
+         -2.8400e-03,  5.3346e-06]], device='cuda:0')
+Epoch 269, bias, value: tensor([ 0.0136, -0.0115, -0.0121,  0.0080, -0.0196, -0.0170,  0.0141, -0.0010,
+         0.0184, -0.0105], device='cuda:0'), grad: tensor([ 0.0118, -0.0197,  0.0167, -0.0118,  0.0058,  0.0341,  0.0211,  0.0107,
+        -0.0238, -0.0448], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 268, time 216.64, cls_loss 0.5217 cls_loss_mapping 0.0046 cls_loss_causal 0.4989 re_mapping 0.0072 re_causal 0.0181 /// teacc 98.85 lr 0.00010000
+Epoch 270, weight, value: tensor([[-0.0609, -0.0880, -0.1393,  ...,  0.1141, -0.0521,  0.0298],
+        [-0.0813,  0.1002, -0.0734,  ...,  0.0447, -0.0607, -0.0947],
+        [-0.0408,  0.0818, -0.1058,  ..., -0.0172,  0.0305,  0.1209],
+        ...,
+        [-0.0064,  0.0605, -0.0003,  ..., -0.0159,  0.0327, -0.0632],
+        [ 0.0875, -0.0999,  0.0409,  ...,  0.0070,  0.0113, -0.0402],
+        [-0.0161, -0.0740,  0.0714,  ..., -0.0755,  0.0260, -0.0239]],
+       device='cuda:0'), grad: tensor([[ 2.4939e-04,  1.1969e-04,  4.2939e-04,  ...,  1.1082e-03,
+          1.4102e-04,  2.0540e-04],
+        [ 6.7949e-04,  1.0002e-04,  2.7537e-04,  ..., -2.2488e-03,
+          9.8765e-05,  1.4341e-04],
+        [ 1.4362e-03,  1.6677e-04,  7.7963e-04,  ...,  8.5211e-04,
+          1.4305e-04,  1.6689e-04],
+        ...,
+        [-8.8730e-03, -1.5986e-04, -3.9172e-04,  ...,  6.5374e-04,
+          1.2236e-03, -2.4724e-04],
+        [ 1.0290e-03,  1.5056e-04,  7.5483e-04,  ...,  1.3981e-03,
+          2.1529e-04,  1.6046e-04],
+        [ 1.0986e-03,  2.9659e-04,  6.7215e-03,  ...,  1.5411e-03,
+          6.2943e-04,  7.0715e-04]], device='cuda:0')
+Epoch 270, bias, value: tensor([ 0.0138, -0.0124, -0.0119,  0.0074, -0.0192, -0.0162,  0.0137,  0.0006,
+         0.0171, -0.0105], device='cuda:0'), grad: tensor([ 0.0145,  0.0130,  0.0159, -0.0545,  0.0202, -0.0380,  0.0172, -0.0207,
+         0.0217,  0.0107], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 269, time 216.60, cls_loss 0.4897 cls_loss_mapping 0.0048 cls_loss_causal 0.4654 re_mapping 0.0077 re_causal 0.0185 /// teacc 98.91 lr 0.00010000
+Epoch 271, weight, value: tensor([[-0.0609, -0.0885, -0.1389,  ...,  0.1137, -0.0518,  0.0307],
+        [-0.0817,  0.1006, -0.0732,  ...,  0.0447, -0.0594, -0.0940],
+        [-0.0403,  0.0818, -0.1061,  ..., -0.0177,  0.0305,  0.1204],
+        ...,
+        [-0.0057,  0.0607, -0.0014,  ..., -0.0162,  0.0324, -0.0626],
+        [ 0.0873, -0.1003,  0.0406,  ...,  0.0076,  0.0110, -0.0413],
+        [-0.0152, -0.0740,  0.0725,  ..., -0.0761,  0.0267, -0.0221]],
+       device='cuda:0'), grad: tensor([[ 5.4359e-03,  2.9683e-04,  6.1083e-04,  ...,  1.1253e-03,
+          6.9571e-04,  3.3116e-04],
+        [ 2.5909e-06, -9.7322e-04,  1.1473e-03,  ..., -1.5192e-03,
+          6.8665e-05,  2.4366e-04],
+        [ 6.6400e-05,  2.2602e-04,  1.7726e-04,  ...,  9.5749e-04,
+         -2.4423e-05, -3.5435e-05],
+        ...,
+        [ 3.5495e-05, -1.8644e-04, -2.2526e-03,  ..., -3.7498e-03,
+         -4.8599e-03, -3.2520e-04],
+        [ 4.4632e-03,  6.4230e-04,  2.1477e-03,  ...,  1.9102e-03,
+          1.2856e-03,  4.5657e-04],
+        [-1.4656e-02,  1.0803e-05,  8.6451e-04,  ...,  2.1877e-03,
+          1.9236e-03, -9.8705e-04]], device='cuda:0')
+Epoch 271, bias, value: tensor([ 0.0136, -0.0123, -0.0112,  0.0075, -0.0197, -0.0160,  0.0137,  0.0002,
+         0.0163, -0.0097], device='cuda:0'), grad: tensor([ 0.0302,  0.0178,  0.0160,  0.0182, -0.0310, -0.0357,  0.0195,  0.0006,
+         0.0289, -0.0642], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 270, time 216.93, cls_loss 0.4725 cls_loss_mapping 0.0043 cls_loss_causal 0.4459 re_mapping 0.0075 re_causal 0.0185 /// teacc 98.80 lr 0.00010000
+Epoch 272, weight, value: tensor([[-0.0604, -0.0869, -0.1386,  ...,  0.1139, -0.0505,  0.0303],
+        [-0.0808,  0.1007, -0.0727,  ...,  0.0446, -0.0589, -0.0938],
+        [-0.0404,  0.0815, -0.1060,  ..., -0.0165,  0.0320,  0.1216],
+        ...,
+        [-0.0065,  0.0607, -0.0015,  ..., -0.0154,  0.0324, -0.0627],
+        [ 0.0885, -0.1010,  0.0418,  ...,  0.0080,  0.0113, -0.0411],
+        [-0.0142, -0.0741,  0.0724,  ..., -0.0781,  0.0252, -0.0236]],
+       device='cuda:0'), grad: tensor([[-2.2352e-08,  1.7679e-04,  4.4346e-05,  ...,  5.9223e-04,
+         -2.4438e-05,  1.3292e-04],
+        [-4.9826e-08, -2.0733e-03,  7.5161e-05,  ..., -4.1389e-03,
+          4.5806e-05,  2.6178e-04],
+        [ 1.8626e-08,  2.5916e-04,  9.8228e-05,  ...,  1.5364e-03,
+          1.3649e-04,  6.2084e-04],
+        ...,
+        [ 9.3132e-09,  5.1689e-04,  5.4026e-04,  ...,  2.9831e-03,
+          6.2048e-05,  7.7915e-04],
+        [ 1.2433e-07, -4.9973e-04,  7.9651e-03,  ...,  4.6921e-03,
+         -3.4904e-04, -2.5005e-03],
+        [ 2.4680e-08,  1.3697e-04,  2.0504e-03,  ...,  2.0905e-03,
+          4.8208e-04,  1.7345e-04]], device='cuda:0')
+Epoch 272, bias, value: tensor([ 0.0143, -0.0117, -0.0099,  0.0070, -0.0191, -0.0171,  0.0132,  0.0008,
+         0.0161, -0.0108], device='cuda:0'), grad: tensor([ 0.0149,  0.0071, -0.0110,  0.0152,  0.0120, -0.0516,  0.0143,  0.0214,
+        -0.0089, -0.0134], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 271, time 216.61, cls_loss 0.4892 cls_loss_mapping 0.0053 cls_loss_causal 0.4619 re_mapping 0.0073 re_causal 0.0191 /// teacc 98.67 lr 0.00010000
+Epoch 273, weight, value: tensor([[-0.0607, -0.0851, -0.1379,  ...,  0.1138, -0.0504,  0.0304],
+        [-0.0813,  0.1018, -0.0730,  ...,  0.0450, -0.0599, -0.0948],
+        [-0.0399,  0.0822, -0.1045,  ..., -0.0159,  0.0328,  0.1219],
+        ...,
+        [-0.0068,  0.0604, -0.0020,  ..., -0.0159,  0.0318, -0.0631],
+        [ 0.0889, -0.1021,  0.0416,  ...,  0.0076,  0.0119, -0.0403],
+        [-0.0153, -0.0740,  0.0723,  ..., -0.0782,  0.0255, -0.0224]],
+       device='cuda:0'), grad: tensor([[ 7.6485e-04,  2.1875e-04,  9.3508e-04,  ...,  7.2956e-04,
+          1.0729e-03,  9.4748e-04],
+        [ 2.6245e-06, -1.6613e-03,  2.2376e-04,  ..., -1.1168e-03,
+          4.5443e-04,  6.7043e-04],
+        [ 2.0349e-04,  6.2513e-04,  3.6049e-04,  ...,  7.5340e-04,
+          6.8569e-04,  5.0020e-04],
+        ...,
+        [ 8.1062e-05, -3.2020e-04, -4.9057e-03,  ..., -1.3809e-03,
+         -1.2293e-03, -2.0466e-03],
+        [ 5.3177e-03, -6.3467e-04,  6.5575e-03,  ..., -4.2844e-04,
+          2.0428e-03,  6.8903e-05],
+        [ 3.3855e-04,  4.0817e-04,  2.6340e-03,  ...,  5.3120e-04,
+          6.2895e-04,  3.4976e-04]], device='cuda:0')
+Epoch 273, bias, value: tensor([ 0.0134, -0.0110, -0.0091,  0.0071, -0.0180, -0.0187,  0.0134,  0.0002,
+         0.0161, -0.0111], device='cuda:0'), grad: tensor([ 0.0191,  0.0090, -0.0145,  0.0048,  0.0144, -0.0135, -0.0067, -0.0372,
+        -0.0015,  0.0261], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 272, time 216.74, cls_loss 0.4923 cls_loss_mapping 0.0040 cls_loss_causal 0.4652 re_mapping 0.0072 re_causal 0.0175 /// teacc 98.79 lr 0.00010000
+Epoch 274, weight, value: tensor([[-0.0622, -0.0844, -0.1386,  ...,  0.1148, -0.0507,  0.0318],
+        [-0.0832,  0.1019, -0.0742,  ...,  0.0446, -0.0603, -0.0940],
+        [-0.0398,  0.0811, -0.1047,  ..., -0.0163,  0.0326,  0.1204],
+        ...,
+        [-0.0073,  0.0612, -0.0027,  ..., -0.0159,  0.0311, -0.0634],
+        [ 0.0912, -0.1010,  0.0414,  ...,  0.0083,  0.0109, -0.0403],
+        [-0.0149, -0.0739,  0.0725,  ..., -0.0794,  0.0262, -0.0232]],
+       device='cuda:0'), grad: tensor([[ 5.0402e-04,  1.7977e-04,  3.1561e-05,  ...,  7.2384e-04,
+          1.9205e-04,  9.4995e-08],
+        [ 4.9448e-04,  1.1110e-04,  9.8228e-04,  ...,  1.0271e-03,
+          1.6725e-04,  6.5193e-08],
+        [ 1.3816e-04,  1.9467e-04,  4.9561e-05,  ...,  8.4352e-04,
+          3.6860e-04,  2.3795e-07],
+        ...,
+        [ 1.2815e-04,  1.0729e-03,  1.0347e-03,  ...,  1.4572e-03,
+          1.0004e-03,  9.3132e-09],
+        [ 3.9005e-04,  7.6830e-05,  1.0204e-04,  ...,  6.7234e-04,
+         -2.9945e-04,  3.5902e-07],
+        [ 1.2946e-04,  3.0494e-04,  4.9286e-03,  ...,  1.0004e-03,
+          1.2970e-03,  9.6858e-08]], device='cuda:0')
+Epoch 274, bias, value: tensor([ 1.3869e-02, -1.1711e-02, -9.6624e-03,  7.8124e-03, -1.7853e-02,
+        -1.8147e-02,  1.3611e-02,  8.5542e-05,  1.6201e-02, -1.1656e-02],
+       device='cuda:0'), grad: tensor([ 0.0244, -0.0335, -0.0076, -0.0401, -0.0320,  0.0478, -0.0154,  0.0059,
+         0.0043,  0.0461], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 273, time 216.66, cls_loss 0.5127 cls_loss_mapping 0.0056 cls_loss_causal 0.4824 re_mapping 0.0069 re_causal 0.0175 /// teacc 98.71 lr 0.00010000
+Epoch 275, weight, value: tensor([[-0.0594, -0.0851, -0.1389,  ...,  0.1156, -0.0514,  0.0325],
+        [-0.0840,  0.1017, -0.0731,  ...,  0.0451, -0.0606, -0.0949],
+        [-0.0401,  0.0812, -0.1040,  ..., -0.0170,  0.0337,  0.1208],
+        ...,
+        [-0.0065,  0.0621, -0.0028,  ..., -0.0168,  0.0317, -0.0639],
+        [ 0.0914, -0.1011,  0.0419,  ...,  0.0085,  0.0111, -0.0401],
+        [-0.0150, -0.0742,  0.0720,  ..., -0.0806,  0.0267, -0.0247]],
+       device='cuda:0'), grad: tensor([[ 1.8394e-04,  1.0240e-04,  3.4541e-05,  ...,  3.0518e-04,
+          1.3304e-04,  3.0470e-04],
+        [-1.4009e-03, -6.4611e-05,  5.6934e-04,  ...,  5.2422e-05,
+          2.1601e-04, -2.5616e-03],
+        [ 3.9625e-04,  5.7297e-03,  9.4652e-04,  ...,  5.1308e-04,
+          5.0888e-03,  8.0261e-03],
+        ...,
+        [ 1.3781e-04, -1.7595e-03, -1.8072e-03,  ..., -2.7256e-03,
+         -9.9850e-04,  4.9067e-04],
+        [ 1.0452e-03, -4.9400e-03, -5.1804e-03,  ..., -4.1175e-04,
+         -5.6419e-03, -7.3547e-03],
+        [ 1.2529e-04,  6.3515e-04,  5.3406e-03,  ...,  2.1305e-03,
+          1.8873e-03,  2.4235e-04]], device='cuda:0')
+Epoch 275, bias, value: tensor([ 0.0137, -0.0115, -0.0100,  0.0084, -0.0177, -0.0188,  0.0137,  0.0008,
+         0.0168, -0.0128], device='cuda:0'), grad: tensor([ 0.0122, -0.0228,  0.0098, -0.0265,  0.0139,  0.0412, -0.0173, -0.0233,
+        -0.0260,  0.0387], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 274, time 216.70, cls_loss 0.4961 cls_loss_mapping 0.0042 cls_loss_causal 0.4722 re_mapping 0.0071 re_causal 0.0184 /// teacc 98.76 lr 0.00010000
+Epoch 276, weight, value: tensor([[-0.0592, -0.0859, -0.1403,  ...,  0.1158, -0.0520,  0.0314],
+        [-0.0842,  0.1020, -0.0729,  ...,  0.0449, -0.0608, -0.0946],
+        [-0.0395,  0.0801, -0.1033,  ..., -0.0161,  0.0348,  0.1209],
+        ...,
+        [-0.0048,  0.0625, -0.0033,  ..., -0.0165,  0.0307, -0.0645],
+        [ 0.0901, -0.0999,  0.0421,  ...,  0.0068,  0.0106, -0.0399],
+        [-0.0152, -0.0744,  0.0729,  ..., -0.0800,  0.0272, -0.0244]],
+       device='cuda:0'), grad: tensor([[ 1.3089e-04,  3.7408e-04, -4.3154e-04,  ...,  1.7567e-03,
+          1.8692e-04,  1.3504e-03],
+        [ 2.6774e-04,  1.0281e-03,  2.4204e-03,  ...,  8.1940e-03,
+          2.5253e-03,  4.6206e-04],
+        [ 1.0958e-03, -1.3304e-03,  4.2856e-05,  ..., -3.9368e-03,
+         -8.6260e-04, -3.4027e-03],
+        ...,
+        [ 4.8294e-03,  1.2550e-03, -9.0265e-04,  ..., -2.1915e-03,
+         -1.2102e-03, -3.1686e-04],
+        [ 2.7919e-04,  1.2321e-03,  2.7633e-04,  ..., -4.1580e-03,
+          3.2635e-03,  2.4261e-03],
+        [ 3.5024e-04,  1.1301e-03,  1.8339e-03,  ...,  2.9106e-03,
+          2.7790e-03,  1.1559e-03]], device='cuda:0')
+Epoch 276, bias, value: tensor([ 0.0127, -0.0109, -0.0105,  0.0093, -0.0172, -0.0200,  0.0140,  0.0003,
+         0.0166, -0.0119], device='cuda:0'), grad: tensor([-0.0009,  0.0507, -0.0523, -0.0506,  0.0109, -0.0258,  0.0026,  0.0212,
+         0.0309,  0.0132], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 275, time 216.92, cls_loss 0.5075 cls_loss_mapping 0.0043 cls_loss_causal 0.4817 re_mapping 0.0069 re_causal 0.0172 /// teacc 98.77 lr 0.00010000
+Epoch 277, weight, value: tensor([[-0.0594, -0.0872, -0.1406,  ...,  0.1153, -0.0520,  0.0316],
+        [-0.0839,  0.1016, -0.0731,  ...,  0.0442, -0.0622, -0.0946],
+        [-0.0393,  0.0818, -0.1031,  ..., -0.0161,  0.0345,  0.1214],
+        ...,
+        [-0.0042,  0.0614, -0.0027,  ..., -0.0155,  0.0315, -0.0647],
+        [ 0.0899, -0.0996,  0.0426,  ...,  0.0073,  0.0112, -0.0403],
+        [-0.0149, -0.0736,  0.0731,  ..., -0.0818,  0.0271, -0.0256]],
+       device='cuda:0'), grad: tensor([[ 3.3832e-04,  1.6963e-04,  2.2209e-04,  ...,  8.7643e-04,
+          6.2637e-03,  2.3918e-03],
+        [-1.3275e-03, -4.9531e-05,  1.3560e-05,  ...,  7.3338e-04,
+          1.6952e-04,  1.4257e-04],
+        [ 4.5776e-04,  4.5133e-04,  3.1042e-04,  ...,  1.4572e-03,
+          1.0262e-03,  2.6464e-04],
+        ...,
+        [ 1.9693e-04, -1.1702e-03, -4.3182e-03,  ..., -1.5056e-04,
+         -1.7014e-03,  1.4710e-04],
+        [ 5.3644e-04,  3.3402e-04,  1.1444e-02,  ...,  2.8667e-03,
+          1.5099e-02, -4.2572e-03],
+        [-4.7982e-05, -1.6129e-04, -1.0056e-02,  ..., -3.2997e-03,
+         -2.5391e-02,  6.3705e-04]], device='cuda:0')
+Epoch 277, bias, value: tensor([ 0.0123, -0.0115, -0.0096,  0.0092, -0.0182, -0.0204,  0.0147,  0.0002,
+         0.0174, -0.0119], device='cuda:0'), grad: tensor([ 0.0224, -0.0161,  0.0172, -0.0405,  0.0071,  0.0189, -0.0002,  0.0092,
+         0.0142, -0.0321], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 276, time 216.58, cls_loss 0.4929 cls_loss_mapping 0.0046 cls_loss_causal 0.4651 re_mapping 0.0067 re_causal 0.0176 /// teacc 98.84 lr 0.00010000
+Epoch 278, weight, value: tensor([[-0.0590, -0.0874, -0.1422,  ...,  0.1152, -0.0534,  0.0320],
+        [-0.0831,  0.1016, -0.0735,  ...,  0.0438, -0.0626, -0.0949],
+        [-0.0407,  0.0813, -0.1027,  ..., -0.0161,  0.0369,  0.1214],
+        ...,
+        [-0.0048,  0.0613, -0.0038,  ..., -0.0153,  0.0304, -0.0650],
+        [ 0.0894, -0.0996,  0.0423,  ...,  0.0067,  0.0111, -0.0408],
+        [-0.0145, -0.0740,  0.0744,  ..., -0.0833,  0.0270, -0.0272]],
+       device='cuda:0'), grad: tensor([[ 6.6310e-07,  1.2875e-04,  1.0949e-04,  ...,  1.1101e-03,
+          1.5459e-03,  4.9925e-04],
+        [ 1.6997e-08,  6.5327e-05,  1.1319e-04,  ..., -6.3777e-05,
+          1.3561e-03,  4.7755e-04],
+        [ 2.8638e-08, -2.6011e-04, -3.4761e-04,  ...,  2.1541e-04,
+          2.4567e-03, -2.8000e-03],
+        ...,
+        [ 2.3283e-10, -2.0826e-04, -6.2847e-04,  ..., -8.8573e-05,
+         -7.9298e-04, -1.1520e-03],
+        [ 2.0443e-07,  8.6486e-05,  2.6894e-04,  ...,  1.1301e-03,
+          1.7347e-03,  5.3406e-04],
+        [ 1.3970e-09,  8.9586e-05, -4.2486e-04,  ..., -5.9166e-03,
+         -1.3107e-02,  5.1308e-04]], device='cuda:0')
+Epoch 278, bias, value: tensor([ 1.2119e-02, -1.1668e-02, -1.0603e-02,  9.4247e-03, -1.7762e-02,
+        -1.9249e-02,  1.4272e-02,  4.2316e-05,  1.7728e-02, -1.1989e-02],
+       device='cuda:0'), grad: tensor([ 0.0148, -0.0140, -0.0170, -0.0165,  0.0153,  0.0155,  0.0143, -0.0128,
+         0.0146, -0.0142], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 277, time 216.59, cls_loss 0.4879 cls_loss_mapping 0.0039 cls_loss_causal 0.4545 re_mapping 0.0068 re_causal 0.0178 /// teacc 98.78 lr 0.00010000
+Epoch 279, weight, value: tensor([[-0.0595, -0.0875, -0.1414,  ...,  0.1160, -0.0541,  0.0323],
+        [-0.0829,  0.1008, -0.0730,  ...,  0.0437, -0.0642, -0.0955],
+        [-0.0413,  0.0820, -0.1022,  ..., -0.0164,  0.0370,  0.1219],
+        ...,
+        [-0.0057,  0.0618, -0.0038,  ..., -0.0152,  0.0302, -0.0652],
+        [ 0.0888, -0.0999,  0.0420,  ...,  0.0077,  0.0110, -0.0408],
+        [-0.0135, -0.0735,  0.0748,  ..., -0.0832,  0.0282, -0.0267]],
+       device='cuda:0'), grad: tensor([[ 0.0001, -0.0024, -0.0005,  ...,  0.0012, -0.0027,  0.0002],
+        [ 0.0001,  0.0002,  0.0006,  ...,  0.0015,  0.0005,  0.0003],
+        [ 0.0003,  0.0012,  0.0005,  ...,  0.0019,  0.0020,  0.0019],
+        ...,
+        [ 0.0001,  0.0004,  0.0016,  ...,  0.0050,  0.0028,  0.0002],
+        [ 0.0007,  0.0004,  0.0017,  ..., -0.0023,  0.0016,  0.0014],
+        [ 0.0001, -0.0010, -0.0052,  ..., -0.0077, -0.0048,  0.0003]],
+       device='cuda:0')
+Epoch 279, bias, value: tensor([ 1.1731e-02, -1.1451e-02, -1.0940e-02,  1.0407e-02, -1.7771e-02,
+        -1.9125e-02,  1.4092e-02,  3.1270e-05,  1.6842e-02, -1.1581e-02],
+       device='cuda:0'), grad: tensor([-0.0573,  0.0240,  0.0097,  0.0301,  0.0233, -0.0306, -0.0038,  0.0037,
+         0.0097, -0.0087], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 278, time 216.75, cls_loss 0.5254 cls_loss_mapping 0.0040 cls_loss_causal 0.5006 re_mapping 0.0068 re_causal 0.0183 /// teacc 98.77 lr 0.00010000
+Epoch 280, weight, value: tensor([[-0.0594, -0.0884, -0.1421,  ...,  0.1147, -0.0557,  0.0322],
+        [-0.0841,  0.1011, -0.0707,  ...,  0.0441, -0.0613, -0.0958],
+        [-0.0411,  0.0808, -0.1035,  ..., -0.0164,  0.0359,  0.1221],
+        ...,
+        [-0.0051,  0.0619, -0.0032,  ..., -0.0146,  0.0301, -0.0639],
+        [ 0.0889, -0.1005,  0.0415,  ...,  0.0083,  0.0110, -0.0417],
+        [-0.0140, -0.0720,  0.0745,  ..., -0.0828,  0.0278, -0.0277]],
+       device='cuda:0'), grad: tensor([[ 3.5822e-05,  2.2277e-05,  1.2684e-03,  ...,  3.6573e-04,
+          1.8139e-03,  9.2936e-04],
+        [ 6.7472e-05,  3.5119e-04,  1.1959e-03,  ...,  1.0824e-03,
+          1.3247e-03,  4.9734e-04],
+        [ 1.3006e-04, -1.8959e-03, -1.8063e-03,  ..., -1.6747e-03,
+         -3.2959e-03, -7.1526e-03],
+        ...,
+        [-2.7537e-04, -1.0386e-03, -1.3475e-03,  ..., -3.8528e-03,
+          2.7199e-03, -7.1573e-04],
+        [-4.1080e-04,  1.7786e-03,  2.0447e-03,  ...,  5.9223e-04,
+          5.2567e-03,  2.7981e-03],
+        [ 6.3086e-04,  3.9840e-04,  6.5117e-03,  ...,  1.5793e-03,
+          6.0005e-03,  1.4114e-03]], device='cuda:0')
+Epoch 280, bias, value: tensor([ 0.0127, -0.0119, -0.0110,  0.0110, -0.0182, -0.0184,  0.0133, -0.0004,
+         0.0173, -0.0121], device='cuda:0'), grad: tensor([ 0.0172,  0.0172, -0.0327,  0.0131, -0.0502,  0.0229, -0.0124, -0.0366,
+         0.0309,  0.0305], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 279, time 216.62, cls_loss 0.4954 cls_loss_mapping 0.0040 cls_loss_causal 0.4716 re_mapping 0.0064 re_causal 0.0159 /// teacc 98.84 lr 0.00010000
+Epoch 281, weight, value: tensor([[-0.0588, -0.0883, -0.1421,  ...,  0.1145, -0.0544,  0.0330],
+        [-0.0848,  0.1009, -0.0717,  ...,  0.0440, -0.0615, -0.0966],
+        [-0.0407,  0.0808, -0.1042,  ..., -0.0161,  0.0351,  0.1226],
+        ...,
+        [-0.0051,  0.0620, -0.0030,  ..., -0.0149,  0.0303, -0.0645],
+        [ 0.0881, -0.1005,  0.0421,  ...,  0.0089,  0.0114, -0.0409],
+        [-0.0144, -0.0726,  0.0735,  ..., -0.0814,  0.0279, -0.0270]],
+       device='cuda:0'), grad: tensor([[ 9.5248e-05,  6.1214e-05,  2.7609e-04,  ...,  6.3038e-04,
+          3.7241e-04,  9.2316e-04],
+        [ 2.5344e-04,  1.6987e-04,  6.5804e-04,  ...,  1.0700e-03,
+          7.9775e-04,  1.3905e-03],
+        [ 1.4126e-04,  7.3433e-05,  3.4809e-04,  ...,  6.1750e-04,
+          6.1560e-04,  1.3800e-03],
+        ...,
+        [ 2.5344e-04, -6.8855e-04,  3.2783e-04,  ...,  7.9107e-04,
+          6.2275e-04,  1.1883e-03],
+        [ 1.4770e-04,  9.9957e-05,  4.0674e-04,  ...,  3.4618e-04,
+          7.9811e-05,  5.3406e-04],
+        [ 2.5787e-03,  8.9979e-04,  2.8400e-03,  ...,  9.3937e-04,
+          2.8729e-04,  1.0653e-03]], device='cuda:0')
+Epoch 281, bias, value: tensor([ 0.0132, -0.0121, -0.0117,  0.0111, -0.0167, -0.0202,  0.0129, -0.0002,
+         0.0179, -0.0120], device='cuda:0'), grad: tensor([ 0.0125,  0.0186,  0.0147, -0.0453, -0.0164,  0.0128, -0.0178,  0.0165,
+         0.0130, -0.0085], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 280, time 216.43, cls_loss 0.4935 cls_loss_mapping 0.0033 cls_loss_causal 0.4642 re_mapping 0.0068 re_causal 0.0184 /// teacc 98.85 lr 0.00010000
+Epoch 282, weight, value: tensor([[-0.0585, -0.0885, -0.1418,  ...,  0.1145, -0.0541,  0.0329],
+        [-0.0850,  0.1008, -0.0719,  ...,  0.0447, -0.0605, -0.0954],
+        [-0.0399,  0.0812, -0.1031,  ..., -0.0168,  0.0363,  0.1231],
+        ...,
+        [-0.0054,  0.0620, -0.0031,  ..., -0.0141,  0.0289, -0.0635],
+        [ 0.0881, -0.1016,  0.0425,  ...,  0.0088,  0.0130, -0.0416],
+        [-0.0147, -0.0724,  0.0734,  ..., -0.0816,  0.0286, -0.0281]],
+       device='cuda:0'), grad: tensor([[ 2.1625e-04,  2.5082e-04,  2.1112e-04,  ...,  4.3464e-04,
+          4.1223e-04,  6.3801e-04],
+        [ 6.2995e-06,  1.9956e-04,  1.6427e-04,  ...,  5.9891e-04,
+          2.7823e-04,  5.6839e-04],
+        [-1.1581e-04, -2.1763e-03, -4.3225e-04,  ..., -8.9073e-04,
+         -5.9605e-04, -3.9673e-03],
+        ...,
+        [ 1.8448e-05,  7.4387e-03,  1.3626e-02,  ...,  6.1302e-03,
+          1.0414e-02,  2.7924e-03],
+        [ 7.9060e-04,  4.5919e-04,  4.3774e-04,  ..., -2.5864e-03,
+          6.7711e-04, -9.9850e-04],
+        [ 2.7254e-05, -6.9542e-03, -1.7731e-02,  ..., -6.1302e-03,
+         -1.6769e-02, -1.3714e-03]], device='cuda:0')
+Epoch 282, bias, value: tensor([ 0.0129, -0.0110, -0.0121,  0.0114, -0.0161, -0.0208,  0.0136, -0.0003,
+         0.0170, -0.0123], device='cuda:0'), grad: tensor([ 0.0124, -0.0203, -0.0168, -0.0130,  0.0097,  0.0153,  0.0076,  0.0392,
+        -0.0087, -0.0255], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 281, time 216.81, cls_loss 0.5007 cls_loss_mapping 0.0041 cls_loss_causal 0.4802 re_mapping 0.0067 re_causal 0.0172 /// teacc 98.79 lr 0.00010000
+Epoch 283, weight, value: tensor([[-0.0580, -0.0884, -0.1416,  ...,  0.1161, -0.0529,  0.0341],
+        [-0.0850,  0.1019, -0.0707,  ...,  0.0439, -0.0609, -0.0964],
+        [-0.0393,  0.0802, -0.1042,  ..., -0.0161,  0.0355,  0.1226],
+        ...,
+        [-0.0059,  0.0620, -0.0027,  ..., -0.0149,  0.0296, -0.0634],
+        [ 0.0879, -0.1013,  0.0431,  ...,  0.0082,  0.0124, -0.0432],
+        [-0.0141, -0.0722,  0.0722,  ..., -0.0820,  0.0275, -0.0279]],
+       device='cuda:0'), grad: tensor([[ 5.4017e-08, -4.6659e-04, -3.4485e-03,  ..., -2.4147e-03,
+         -5.2643e-03, -4.4403e-03],
+        [ 1.4901e-07,  3.2282e-04,  2.8992e-04,  ...,  2.5773e-04,
+          3.9053e-04,  4.0460e-04],
+        [ 4.4191e-07,  5.0011e-03,  1.4954e-03,  ...,  1.9970e-03,
+          4.0894e-03,  8.6975e-03],
+        ...,
+        [ 9.3746e-04,  1.0994e-02,  8.9884e-04,  ...,  4.4012e-04,
+          1.5554e-03,  3.2120e-03],
+        [ 4.5542e-07,  3.1996e-04,  6.0892e-04,  ..., -1.7130e-04,
+          1.2274e-03, -2.0008e-03],
+        [-9.4128e-04, -1.5450e-02,  1.4484e-04,  ...,  1.3714e-03,
+          8.3733e-04, -6.1264e-03]], device='cuda:0')
+Epoch 283, bias, value: tensor([ 0.0139, -0.0116, -0.0130,  0.0121, -0.0160, -0.0203,  0.0139,  0.0006,
+         0.0154, -0.0125], device='cuda:0'), grad: tensor([-0.0170,  0.0098,  0.0370,  0.0106, -0.0540,  0.0093,  0.0141,  0.0458,
+        -0.0228, -0.0328], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 282, time 216.90, cls_loss 0.4940 cls_loss_mapping 0.0040 cls_loss_causal 0.4655 re_mapping 0.0069 re_causal 0.0177 /// teacc 98.84 lr 0.00010000
+Epoch 284, weight, value: tensor([[-0.0579, -0.0884, -0.1431,  ...,  0.1170, -0.0535,  0.0344],
+        [-0.0862,  0.1019, -0.0709,  ...,  0.0445, -0.0615, -0.0966],
+        [-0.0385,  0.0814, -0.1047,  ..., -0.0156,  0.0361,  0.1234],
+        ...,
+        [-0.0060,  0.0612, -0.0032,  ..., -0.0152,  0.0291, -0.0638],
+        [ 0.0883, -0.1014,  0.0435,  ...,  0.0083,  0.0121, -0.0442],
+        [-0.0143, -0.0715,  0.0728,  ..., -0.0818,  0.0280, -0.0266]],
+       device='cuda:0'), grad: tensor([[ 1.1349e-04,  1.4806e-04,  1.7011e-04,  ...,  3.4904e-04,
+          1.7393e-04,  2.3139e-04],
+        [ 2.4629e-04, -1.5959e-05, -3.8624e-05,  ...,  1.2493e-04,
+          8.1635e-04,  3.0971e-04],
+        [-5.8365e-04, -7.8297e-04, -1.4076e-03,  ..., -4.2439e-04,
+         -5.9853e-03, -1.6193e-03],
+        ...,
+        [ 8.4162e-05,  1.6367e-04,  7.5996e-05,  ..., -1.7595e-03,
+          6.6233e-04,  2.8110e-04],
+        [ 1.5945e-03,  8.4698e-05,  1.2863e-04,  ...,  3.1447e-04,
+          2.4629e-04,  1.8799e-04],
+        [ 9.2328e-05,  1.9461e-05,  7.4089e-05,  ...,  2.8563e-04,
+          1.9872e-04,  3.0303e-04]], device='cuda:0')
+Epoch 284, bias, value: tensor([ 0.0142, -0.0110, -0.0135,  0.0117, -0.0149, -0.0207,  0.0133, -0.0005,
+         0.0159, -0.0121], device='cuda:0'), grad: tensor([-0.0133, -0.0047,  0.0064, -0.0355, -0.0068,  0.0289,  0.0181, -0.0109,
+        -0.0030,  0.0207], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 283, time 216.99, cls_loss 0.5095 cls_loss_mapping 0.0041 cls_loss_causal 0.4748 re_mapping 0.0070 re_causal 0.0187 /// teacc 98.83 lr 0.00010000
+Epoch 285, weight, value: tensor([[-0.0590, -0.0880, -0.1427,  ...,  0.1185, -0.0528,  0.0344],
+        [-0.0866,  0.1016, -0.0704,  ...,  0.0437, -0.0613, -0.0974],
+        [-0.0370,  0.0821, -0.1055,  ..., -0.0162,  0.0352,  0.1225],
+        ...,
+        [-0.0058,  0.0615, -0.0041,  ..., -0.0154,  0.0293, -0.0640],
+        [ 0.0881, -0.0998,  0.0423,  ...,  0.0088,  0.0124, -0.0439],
+        [-0.0141, -0.0721,  0.0741,  ..., -0.0815,  0.0281, -0.0264]],
+       device='cuda:0'), grad: tensor([[ 2.3991e-05,  3.7003e-04, -3.0684e-04,  ..., -2.6836e-03,
+          1.3676e-03, -2.1771e-05],
+        [ 3.3915e-05, -5.3673e-03,  3.5429e-04,  ..., -1.3676e-03,
+          4.6325e-04,  6.9666e-04],
+        [ 1.8537e-05,  7.9193e-03,  7.0286e-04,  ...,  2.4834e-03,
+          1.4992e-03,  8.8501e-03],
+        ...,
+        [-7.5865e-04,  3.1204e-03,  2.7618e-03,  ...,  4.8523e-03,
+          3.0937e-03,  2.8763e-03],
+        [ 1.2290e-04, -5.0812e-03,  1.3657e-03,  ..., -2.5578e-03,
+          2.4319e-03, -9.9182e-03],
+        [ 9.0637e-03, -2.0676e-03, -2.7657e-03,  ..., -4.4174e-03,
+         -2.0905e-03, -2.0523e-03]], device='cuda:0')
+Epoch 285, bias, value: tensor([ 0.0147, -0.0112, -0.0142,  0.0112, -0.0152, -0.0210,  0.0144,  0.0004,
+         0.0155, -0.0121], device='cuda:0'), grad: tensor([-0.0030, -0.0252,  0.0661,  0.0098, -0.0192, -0.0080, -0.0594,  0.0535,
+        -0.0446,  0.0299], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 284, time 217.00, cls_loss 0.4853 cls_loss_mapping 0.0058 cls_loss_causal 0.4574 re_mapping 0.0064 re_causal 0.0164 /// teacc 98.81 lr 0.00010000
+Epoch 286, weight, value: tensor([[-0.0593, -0.0898, -0.1426,  ...,  0.1171, -0.0527,  0.0338],
+        [-0.0871,  0.1033, -0.0711,  ...,  0.0440, -0.0609, -0.0976],
+        [-0.0368,  0.0813, -0.1062,  ..., -0.0166,  0.0358,  0.1225],
+        ...,
+        [-0.0057,  0.0614, -0.0052,  ..., -0.0162,  0.0281, -0.0648],
+        [ 0.0890, -0.0997,  0.0427,  ...,  0.0109,  0.0123, -0.0431],
+        [-0.0147, -0.0719,  0.0744,  ..., -0.0826,  0.0275, -0.0266]],
+       device='cuda:0'), grad: tensor([[-9.0981e-04, -1.8320e-03,  9.0338e-07,  ..., -4.5738e-03,
+         -1.8082e-03, -5.3711e-03],
+        [-6.6910e-03, -7.4959e-03,  3.6154e-06,  ...,  5.3883e-04,
+          7.5281e-05,  9.9003e-05],
+        [ 1.7633e-03,  5.1422e-03, -1.6105e-04,  ...,  6.3658e-04,
+         -2.2686e-04,  8.2731e-04],
+        ...,
+        [ 1.0643e-03, -2.7580e-03,  2.0161e-05,  ...,  1.0071e-03,
+          8.7559e-05,  1.4520e-04],
+        [ 9.5892e-04,  1.3056e-03,  1.9276e-04,  ...,  1.8530e-03,
+          6.4707e-04,  5.4598e-04],
+        [ 5.6171e-04,  5.9700e-04,  2.4188e-04,  ...,  8.4877e-04,
+          2.3437e-04,  1.6725e-04]], device='cuda:0')
+Epoch 286, bias, value: tensor([ 0.0148, -0.0102, -0.0141,  0.0110, -0.0157, -0.0215,  0.0142, -0.0003,
+         0.0174, -0.0131], device='cuda:0'), grad: tensor([-0.0342, -0.0209,  0.0273,  0.0125,  0.0117, -0.0202,  0.0262, -0.0269,
+         0.0141,  0.0103], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 285, time 216.86, cls_loss 0.4613 cls_loss_mapping 0.0031 cls_loss_causal 0.4422 re_mapping 0.0067 re_causal 0.0179 /// teacc 98.59 lr 0.00010000
+Epoch 287, weight, value: tensor([[-0.0599, -0.0900, -0.1430,  ...,  0.1170, -0.0532,  0.0329],
+        [-0.0860,  0.1033, -0.0721,  ...,  0.0436, -0.0611, -0.0980],
+        [-0.0370,  0.0812, -0.1064,  ..., -0.0160,  0.0355,  0.1232],
+        ...,
+        [-0.0051,  0.0620, -0.0048,  ..., -0.0168,  0.0294, -0.0645],
+        [ 0.0903, -0.1001,  0.0423,  ...,  0.0104,  0.0113, -0.0434],
+        [-0.0155, -0.0727,  0.0746,  ..., -0.0823,  0.0276, -0.0272]],
+       device='cuda:0'), grad: tensor([[ 5.5283e-05,  1.4938e-05, -9.8571e-06,  ...,  1.5354e-03,
+         -9.7305e-06,  9.8586e-05],
+        [ 7.1645e-05, -1.5802e-03,  3.6880e-07,  ..., -7.2289e-04,
+          3.8780e-06,  2.6256e-05],
+        [ 1.0834e-03,  1.0422e-02,  1.9372e-06,  ...,  1.9002e-04,
+          1.5223e-04,  1.7703e-04],
+        ...,
+        [ 1.2505e-04,  1.9073e-03,  1.4789e-05,  ...,  1.1120e-03,
+          1.7226e-04, -1.7071e-04],
+        [ 9.9719e-05,  8.6248e-05,  3.2216e-05,  ...,  2.9898e-04,
+          1.1367e-04,  2.2009e-05],
+        [ 7.6234e-05,  2.3529e-05, -5.8919e-05,  ...,  1.1396e-04,
+          2.7394e-04,  8.2180e-06]], device='cuda:0')
+Epoch 287, bias, value: tensor([ 1.4320e-02, -1.0130e-02, -1.3777e-02,  1.1180e-02, -1.5622e-02,
+        -2.1610e-02,  1.4105e-02, -6.7699e-05,  1.7889e-02, -1.3922e-02],
+       device='cuda:0'), grad: tensor([ 0.0178,  0.0091,  0.0290, -0.0823,  0.0075, -0.0242,  0.0143,  0.0110,
+         0.0090,  0.0088], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 286, time 216.94, cls_loss 0.4817 cls_loss_mapping 0.0042 cls_loss_causal 0.4493 re_mapping 0.0068 re_causal 0.0175 /// teacc 98.81 lr 0.00010000
+Epoch 288, weight, value: tensor([[-0.0616, -0.0894, -0.1428,  ...,  0.1163, -0.0528,  0.0346],
+        [-0.0859,  0.1038, -0.0717,  ...,  0.0447, -0.0614, -0.0974],
+        [-0.0364,  0.0812, -0.1037,  ..., -0.0163,  0.0366,  0.1231],
+        ...,
+        [-0.0058,  0.0624, -0.0051,  ..., -0.0165,  0.0296, -0.0639],
+        [ 0.0899, -0.1010,  0.0411,  ...,  0.0095,  0.0118, -0.0431],
+        [-0.0155, -0.0740,  0.0740,  ..., -0.0820,  0.0267, -0.0286]],
+       device='cuda:0'), grad: tensor([[ 8.8476e-09,  1.0304e-05, -8.7738e-03,  ...,  4.9782e-04,
+         -1.2611e-02,  2.4354e-04],
+        [ 1.3970e-09,  2.6628e-05, -3.2520e-03,  ..., -3.4618e-03,
+          2.7599e-03,  1.4044e-05],
+        [ 2.2817e-08, -2.7776e-04,  1.8015e-03,  ...,  3.6335e-04,
+          1.9817e-03,  1.0796e-02],
+        ...,
+        [ 9.3132e-10, -2.2545e-05,  1.8826e-03,  ...,  8.2827e-04,
+          1.2989e-03,  1.8865e-05],
+        [ 7.2923e-07,  2.7776e-05,  1.1530e-03,  ..., -1.8339e-03,
+          8.4591e-04, -1.1345e-02],
+        [ 3.3993e-08,  2.9266e-05,  1.2884e-03,  ...,  9.1267e-04,
+          2.7466e-04,  9.7379e-06]], device='cuda:0')
+Epoch 288, bias, value: tensor([ 0.0135, -0.0098, -0.0141,  0.0115, -0.0161, -0.0210,  0.0142,  0.0004,
+         0.0166, -0.0130], device='cuda:0'), grad: tensor([-0.0163, -0.0635,  0.0456,  0.0173,  0.0217,  0.0158,  0.0212, -0.0122,
+        -0.0456,  0.0160], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 287, time 216.81, cls_loss 0.5012 cls_loss_mapping 0.0041 cls_loss_causal 0.4754 re_mapping 0.0063 re_causal 0.0168 /// teacc 98.65 lr 0.00010000
+Epoch 289, weight, value: tensor([[-0.0620, -0.0889, -0.1427,  ...,  0.1149, -0.0524,  0.0343],
+        [-0.0850,  0.1026, -0.0695,  ...,  0.0450, -0.0594, -0.0977],
+        [-0.0370,  0.0820, -0.1040,  ..., -0.0160,  0.0373,  0.1224],
+        ...,
+        [-0.0059,  0.0628, -0.0061,  ..., -0.0158,  0.0284, -0.0649],
+        [ 0.0903, -0.1004,  0.0420,  ...,  0.0098,  0.0123, -0.0416],
+        [-0.0149, -0.0743,  0.0744,  ..., -0.0807,  0.0263, -0.0295]],
+       device='cuda:0'), grad: tensor([[-2.9135e-04, -1.0719e-03,  4.0457e-06,  ..., -2.6264e-03,
+         -1.3046e-02, -2.4967e-03],
+        [ 2.9945e-04,  7.7934e-03, -4.1294e-04,  ..., -8.2350e-04,
+          3.7503e-04, -8.2064e-04],
+        [ 6.0701e-04,  1.9627e-03,  3.8362e-04,  ...,  1.2436e-03,
+          2.8419e-03,  1.0653e-03],
+        ...,
+        [ 1.2798e-03,  1.8797e-03,  7.0429e-04,  ...,  7.0858e-04,
+          1.2150e-03,  2.3639e-04],
+        [ 4.0269e-04,  8.3399e-04,  2.1374e-04,  ...,  7.2765e-04,
+          8.9359e-04,  6.8283e-04],
+        [-7.6485e-04,  9.2506e-04,  1.1139e-05,  ...,  9.0981e-04,
+          3.7479e-03, -6.2764e-05]], device='cuda:0')
+Epoch 289, bias, value: tensor([ 0.0132, -0.0106, -0.0136,  0.0114, -0.0157, -0.0214,  0.0143,  0.0004,
+         0.0171, -0.0129], device='cuda:0'), grad: tensor([-0.0849,  0.0288,  0.0129,  0.0213,  0.0345, -0.0075, -0.0092,  0.0036,
+         0.0349, -0.0343], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 288, time 216.69, cls_loss 0.4902 cls_loss_mapping 0.0058 cls_loss_causal 0.4570 re_mapping 0.0062 re_causal 0.0157 /// teacc 98.83 lr 0.00010000
+Epoch 290, weight, value: tensor([[-0.0622, -0.0882, -0.1440,  ...,  0.1156, -0.0516,  0.0350],
+        [-0.0837,  0.1031, -0.0687,  ...,  0.0457, -0.0587, -0.0978],
+        [-0.0371,  0.0833, -0.1044,  ..., -0.0162,  0.0367,  0.1220],
+        ...,
+        [-0.0066,  0.0617, -0.0040,  ..., -0.0163,  0.0292, -0.0649],
+        [ 0.0907, -0.1012,  0.0422,  ...,  0.0094,  0.0128, -0.0418],
+        [-0.0161, -0.0744,  0.0733,  ..., -0.0806,  0.0264, -0.0301]],
+       device='cuda:0'), grad: tensor([[ 1.0836e-04,  2.3115e-04, -7.2978e-06,  ...,  9.2268e-04,
+          4.1556e-04,  3.0613e-04],
+        [-3.5167e-04,  7.7820e-04,  2.7552e-05,  ..., -4.2081e-04,
+          3.4857e-04,  3.5596e-04],
+        [ 1.6403e-04,  3.3627e-03, -1.1152e-04,  ...,  1.3676e-03,
+          2.4796e-04,  4.7064e-04],
+        ...,
+        [ 1.2910e-04, -5.8708e-03,  1.8692e-04,  ...,  8.1360e-05,
+          5.9175e-04,  2.5463e-04],
+        [ 6.0892e-04,  3.5596e-04, -5.2357e-04,  ...,  1.8740e-03,
+          2.5597e-03,  1.3285e-03],
+        [-1.6987e-05, -1.3256e-04,  1.1575e-04,  ...,  5.7697e-04,
+         -3.2753e-05, -1.0490e-03]], device='cuda:0')
+Epoch 290, bias, value: tensor([ 0.0131, -0.0100, -0.0135,  0.0113, -0.0161, -0.0204,  0.0142, -0.0006,
+         0.0170, -0.0128], device='cuda:0'), grad: tensor([ 0.0190,  0.0215,  0.0321, -0.0243, -0.0124, -0.0346,  0.0145,  0.0020,
+         0.0206, -0.0383], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 289, time 216.77, cls_loss 0.4708 cls_loss_mapping 0.0042 cls_loss_causal 0.4447 re_mapping 0.0069 re_causal 0.0175 /// teacc 98.55 lr 0.00010000
+Epoch 291, weight, value: tensor([[-0.0624, -0.0884, -0.1439,  ...,  0.1157, -0.0523,  0.0344],
+        [-0.0834,  0.1040, -0.0693,  ...,  0.0460, -0.0588, -0.0979],
+        [-0.0367,  0.0836, -0.1042,  ..., -0.0173,  0.0364,  0.1233],
+        ...,
+        [-0.0074,  0.0615, -0.0045,  ..., -0.0171,  0.0302, -0.0652],
+        [ 0.0905, -0.1018,  0.0418,  ...,  0.0098,  0.0122, -0.0426],
+        [-0.0159, -0.0744,  0.0742,  ..., -0.0798,  0.0268, -0.0303]],
+       device='cuda:0'), grad: tensor([[ 6.4820e-07,  7.6711e-05,  3.2973e-04,  ...,  1.1969e-04,
+          1.3959e-04,  1.2994e-05],
+        [ 3.0279e-04,  7.6199e-04,  7.0512e-05,  ...,  2.3842e-04,
+          8.4788e-06,  1.0622e-04],
+        [-2.0008e-03, -1.2417e-03,  4.4942e-05,  ...,  1.5950e-04,
+          1.6606e-04, -5.1498e-04],
+        ...,
+        [ 1.6174e-03,  1.7014e-03, -8.3447e-04,  ..., -1.5223e-04,
+         -6.5923e-05,  5.9938e-04],
+        [ 5.8115e-05,  3.2425e-04, -1.3571e-03,  ..., -1.1808e-04,
+         -2.3079e-03, -7.5054e-04],
+        [-4.7445e-05,  2.2447e-04, -1.4257e-04,  ...,  5.5981e-04,
+         -3.0696e-05,  9.4354e-05]], device='cuda:0')
+Epoch 291, bias, value: tensor([ 0.0135, -0.0095, -0.0143,  0.0109, -0.0162, -0.0198,  0.0134, -0.0005,
+         0.0171, -0.0124], device='cuda:0'), grad: tensor([ 0.0048,  0.0107,  0.0035, -0.0162,  0.0041, -0.0175,  0.0055,  0.0081,
+        -0.0105,  0.0074], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 290, time 216.51, cls_loss 0.4664 cls_loss_mapping 0.0034 cls_loss_causal 0.4399 re_mapping 0.0063 re_causal 0.0158 /// teacc 98.69 lr 0.00010000
+Epoch 292, weight, value: tensor([[-0.0629, -0.0866, -0.1441,  ...,  0.1169, -0.0516,  0.0352],
+        [-0.0825,  0.1045, -0.0659,  ...,  0.0462, -0.0563, -0.0969],
+        [-0.0380,  0.0842, -0.1048,  ..., -0.0180,  0.0363,  0.1229],
+        ...,
+        [-0.0073,  0.0601, -0.0059,  ..., -0.0171,  0.0297, -0.0645],
+        [ 0.0914, -0.1020,  0.0418,  ...,  0.0088,  0.0123, -0.0425],
+        [-0.0158, -0.0735,  0.0751,  ..., -0.0803,  0.0269, -0.0319]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.3888e-04, -4.5180e-05,  ...,  1.1504e-04,
+         -1.0753e-04,  4.2391e-04],
+        [ 4.6566e-10, -2.4891e-03, -1.0997e-04,  ..., -1.9283e-03,
+          2.5611e-08, -6.3086e-04],
+        [ 1.2107e-08, -1.4313e-05,  8.9183e-06,  ...,  2.4354e-04,
+          2.8638e-07,  2.7037e-04],
+        ...,
+        [-1.0431e-07,  7.8726e-04,  2.6870e-04,  ...,  4.7421e-04,
+          6.2548e-06,  3.7646e-04],
+        [ 3.2596e-09,  2.3508e-04,  6.3121e-05,  ...,  1.6582e-04,
+          1.6335e-06,  3.2473e-04],
+        [ 8.9454e-07,  1.5986e-04,  9.5963e-05,  ...,  1.1921e-04,
+          8.2850e-05,  3.7742e-04]], device='cuda:0')
+Epoch 292, bias, value: tensor([ 1.5171e-02, -9.3187e-03, -1.3921e-02,  9.9335e-03, -1.5742e-02,
+        -1.9475e-02,  1.3338e-02,  6.2332e-05,  1.5981e-02, -1.3471e-02],
+       device='cuda:0'), grad: tensor([ 0.0156, -0.0536,  0.0154,  0.0158, -0.0151,  0.0154, -0.0089, -0.0137,
+         0.0141,  0.0151], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 291, time 216.60, cls_loss 0.4990 cls_loss_mapping 0.0049 cls_loss_causal 0.4738 re_mapping 0.0067 re_causal 0.0169 /// teacc 98.75 lr 0.00010000
+Epoch 293, weight, value: tensor([[-0.0634, -0.0874, -0.1443,  ...,  0.1170, -0.0527,  0.0358],
+        [-0.0829,  0.1044, -0.0668,  ...,  0.0465, -0.0566, -0.0964],
+        [-0.0363,  0.0840, -0.1046,  ..., -0.0184,  0.0361,  0.1227],
+        ...,
+        [-0.0073,  0.0604, -0.0061,  ..., -0.0172,  0.0289, -0.0637],
+        [ 0.0909, -0.1023,  0.0425,  ...,  0.0093,  0.0125, -0.0424],
+        [-0.0168, -0.0739,  0.0751,  ..., -0.0798,  0.0268, -0.0315]],
+       device='cuda:0'), grad: tensor([[ 4.4847e-04, -1.4229e-03,  3.2991e-05,  ..., -1.8251e-04,
+         -7.4911e-04, -9.5129e-04],
+        [ 8.3160e-04,  3.6168e-04,  1.2442e-06,  ..., -3.7060e-03,
+         -1.6727e-03, -9.9850e-04],
+        [ 4.4155e-04,  2.6345e-04,  1.8701e-06,  ...,  6.9046e-04,
+          7.0143e-04,  5.1641e-04],
+        ...,
+        [-8.7881e-04, -3.3307e-04,  7.7020e-07,  ..., -1.8823e-04,
+         -7.0076e-03,  2.4867e-04],
+        [ 3.1872e-03,  4.7302e-04,  2.7623e-06,  ...,  1.3628e-03,
+          1.6537e-03,  2.3293e-04],
+        [ 2.5921e-03,  2.2376e-04,  2.3857e-05,  ...,  4.9353e-04,
+          4.0550e-03,  1.7881e-04]], device='cuda:0')
+Epoch 293, bias, value: tensor([ 0.0152, -0.0090, -0.0147,  0.0107, -0.0162, -0.0199,  0.0131,  0.0003,
+         0.0165, -0.0134], device='cuda:0'), grad: tensor([-0.0223, -0.0154,  0.0147, -0.0147,  0.0138, -0.0105,  0.0188, -0.0386,
+         0.0270,  0.0272], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 292, time 217.02, cls_loss 0.4886 cls_loss_mapping 0.0050 cls_loss_causal 0.4622 re_mapping 0.0071 re_causal 0.0177 /// teacc 98.76 lr 0.00010000
+Epoch 294, weight, value: tensor([[-0.0642, -0.0871, -0.1449,  ...,  0.1172, -0.0530,  0.0362],
+        [-0.0828,  0.1047, -0.0655,  ...,  0.0476, -0.0568, -0.0966],
+        [-0.0382,  0.0837, -0.1050,  ..., -0.0178,  0.0364,  0.1232],
+        ...,
+        [-0.0055,  0.0610, -0.0066,  ..., -0.0178,  0.0283, -0.0642],
+        [ 0.0907, -0.1022,  0.0417,  ...,  0.0091,  0.0126, -0.0417],
+        [-0.0160, -0.0741,  0.0748,  ..., -0.0796,  0.0266, -0.0312]],
+       device='cuda:0'), grad: tensor([[ 2.1327e-04,  5.1886e-05,  3.6263e-04,  ...,  3.4124e-05,
+          5.1975e-04, -4.5824e-04],
+        [ 2.1064e-04, -3.6407e-04,  3.7909e-04,  ..., -7.7188e-05,
+          5.6219e-04, -7.9441e-04],
+        [ 3.2878e-04, -1.0389e-04,  1.1027e-04,  ...,  9.9361e-05,
+          1.5342e-04,  8.6403e-04],
+        ...,
+        [ 1.6916e-04,  1.7142e-04,  4.8518e-04,  ...,  1.3781e-04,
+          4.3488e-04,  3.2520e-04],
+        [-1.2836e-03,  3.0369e-05,  9.8610e-04,  ...,  1.8501e-04,
+          7.2098e-04,  6.9618e-04],
+        [ 3.9005e-04,  4.0770e-05,  2.3315e-02,  ...,  3.2902e-04,
+          9.8267e-03,  5.6362e-04]], device='cuda:0')
+Epoch 294, bias, value: tensor([ 1.5412e-02, -8.5694e-03, -1.4477e-02,  1.0728e-02, -1.6554e-02,
+        -1.9478e-02,  1.2414e-02, -6.0537e-05,  1.5804e-02, -1.2698e-02],
+       device='cuda:0'), grad: tensor([ 0.0042, -0.0136, -0.0094, -0.0302, -0.0387, -0.0065,  0.0342,  0.0143,
+        -0.0019,  0.0475], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 293, time 216.50, cls_loss 0.5101 cls_loss_mapping 0.0035 cls_loss_causal 0.4818 re_mapping 0.0067 re_causal 0.0174 /// teacc 98.77 lr 0.00010000
+Epoch 295, weight, value: tensor([[-0.0640, -0.0875, -0.1454,  ...,  0.1186, -0.0523,  0.0357],
+        [-0.0830,  0.1053, -0.0645,  ...,  0.0482, -0.0559, -0.0973],
+        [-0.0375,  0.0836, -0.1048,  ..., -0.0176,  0.0362,  0.1248],
+        ...,
+        [-0.0071,  0.0612, -0.0061,  ..., -0.0164,  0.0295, -0.0641],
+        [ 0.0902, -0.1019,  0.0407,  ...,  0.0091,  0.0122, -0.0414],
+        [-0.0143, -0.0744,  0.0748,  ..., -0.0786,  0.0271, -0.0311]],
+       device='cuda:0'), grad: tensor([[-1.0604e-04,  4.2200e-04, -5.4032e-05,  ...,  2.9445e-04,
+          6.5327e-05,  7.1192e-04],
+        [ 1.1456e-04, -1.4424e-04,  1.4079e-04,  ..., -5.0879e-04,
+          4.0627e-04,  1.2083e-03],
+        [ 5.2303e-05,  5.7727e-05,  2.7490e-04,  ...,  5.7602e-04,
+          8.0347e-04, -4.9820e-03],
+        ...,
+        [ 7.0155e-05, -1.1158e-03, -1.3895e-03,  ...,  1.2301e-05,
+         -1.8587e-03,  1.0948e-03],
+        [-6.3896e-04,  4.2176e-04,  1.7369e-04,  ..., -3.4070e-04,
+          2.9206e-04,  2.1112e-04],
+        [ 6.1631e-05, -2.3842e-03,  6.3992e-04,  ..., -3.0727e-03,
+         -2.0065e-03, -2.6379e-03]], device='cuda:0')
+Epoch 295, bias, value: tensor([ 0.0145, -0.0078, -0.0140,  0.0113, -0.0176, -0.0195,  0.0114,  0.0013,
+         0.0156, -0.0129], device='cuda:0'), grad: tensor([ 0.0212,  0.0105, -0.0155,  0.0416, -0.0120, -0.0064,  0.0211, -0.0147,
+        -0.0090, -0.0368], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 294, time 216.82, cls_loss 0.4672 cls_loss_mapping 0.0048 cls_loss_causal 0.4407 re_mapping 0.0071 re_causal 0.0172 /// teacc 98.57 lr 0.00010000
+Epoch 296, weight, value: tensor([[-0.0628, -0.0880, -0.1452,  ...,  0.1178, -0.0530,  0.0347],
+        [-0.0815,  0.1051, -0.0636,  ...,  0.0475, -0.0554, -0.0975],
+        [-0.0379,  0.0840, -0.1067,  ..., -0.0186,  0.0356,  0.1259],
+        ...,
+        [-0.0069,  0.0614, -0.0065,  ..., -0.0159,  0.0284, -0.0638],
+        [ 0.0896, -0.1025,  0.0408,  ...,  0.0108,  0.0129, -0.0404],
+        [-0.0147, -0.0746,  0.0756,  ..., -0.0791,  0.0283, -0.0303]],
+       device='cuda:0'), grad: tensor([[ 9.5546e-05,  2.3410e-05,  1.9479e-04,  ...,  7.5102e-04,
+          6.0654e-04,  9.7656e-04],
+        [ 5.0068e-05,  3.2216e-05,  4.5085e-04,  ...,  2.3067e-04,
+          3.0708e-04,  3.0708e-04],
+        [ 5.5838e-04,  1.6248e-04,  2.0981e-05,  ...,  1.0443e-03,
+          2.0733e-03,  1.3943e-03],
+        ...,
+        [ 6.6400e-05, -1.3280e-04, -5.2243e-05,  ...,  9.9063e-05,
+          1.8764e-04,  1.9121e-04],
+        [-8.2731e-04,  1.6499e-04,  1.9264e-04,  ...,  5.6763e-03,
+          1.2074e-03,  8.2703e-03],
+        [-1.2598e-03, -9.3222e-04,  5.2065e-05,  ...,  1.7548e-04,
+         -4.7379e-03, -1.6861e-03]], device='cuda:0')
+Epoch 296, bias, value: tensor([ 0.0137, -0.0081, -0.0138,  0.0102, -0.0169, -0.0202,  0.0126,  0.0017,
+         0.0164, -0.0131], device='cuda:0'), grad: tensor([ 1.9089e-02,  2.7893e-02,  2.3514e-02, -2.7359e-02, -1.2886e-02,
+        -5.8746e-03, -8.8425e-03,  2.0142e-02,  5.2482e-05, -3.5706e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 295, time 216.83, cls_loss 0.4878 cls_loss_mapping 0.0055 cls_loss_causal 0.4661 re_mapping 0.0066 re_causal 0.0166 /// teacc 98.76 lr 0.00010000
+Epoch 297, weight, value: tensor([[-0.0635, -0.0892, -0.1459,  ...,  0.1166, -0.0536,  0.0339],
+        [-0.0820,  0.1053, -0.0636,  ...,  0.0494, -0.0555, -0.0984],
+        [-0.0369,  0.0836, -0.1069,  ..., -0.0188,  0.0362,  0.1262],
+        ...,
+        [-0.0069,  0.0618, -0.0058,  ..., -0.0166,  0.0295, -0.0639],
+        [ 0.0898, -0.1033,  0.0413,  ...,  0.0103,  0.0127, -0.0407],
+        [-0.0152, -0.0757,  0.0744,  ..., -0.0783,  0.0262, -0.0313]],
+       device='cuda:0'), grad: tensor([[ 3.1561e-05,  1.0967e-05,  1.1824e-05,  ...,  3.8147e-05,
+         -3.7169e-04, -1.4601e-03],
+        [ 2.2370e-06, -5.6982e-04,  9.3603e-04,  ..., -8.3160e-04,
+          5.3868e-06,  3.4124e-06],
+        [ 5.7109e-06,  5.8562e-05,  3.3915e-05,  ...,  9.3400e-05,
+          2.5049e-05,  3.3021e-05],
+        ...,
+        [ 2.3305e-04, -9.4855e-07,  1.1586e-05,  ...,  5.5522e-05,
+          9.9465e-06,  9.6112e-06],
+        [-1.9455e-03,  4.6313e-05,  3.7074e-04,  ...,  8.0585e-05,
+          2.0003e-04,  2.4244e-05],
+        [ 1.2360e-03,  3.2961e-05, -8.9359e-04,  ...,  4.4614e-05,
+         -3.2711e-04,  3.7909e-05]], device='cuda:0')
+Epoch 297, bias, value: tensor([ 0.0132, -0.0081, -0.0141,  0.0105, -0.0166, -0.0199,  0.0136,  0.0014,
+         0.0158, -0.0135], device='cuda:0'), grad: tensor([-0.0262, -0.0266,  0.0129, -0.0086,  0.0148,  0.0150,  0.0203,  0.0123,
+         0.0012, -0.0150], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 296, time 216.51, cls_loss 0.5139 cls_loss_mapping 0.0057 cls_loss_causal 0.4842 re_mapping 0.0064 re_causal 0.0161 /// teacc 98.88 lr 0.00010000
+Epoch 298, weight, value: tensor([[-0.0635, -0.0899, -0.1443,  ...,  0.1182, -0.0526,  0.0329],
+        [-0.0822,  0.1047, -0.0639,  ...,  0.0485, -0.0571, -0.0989],
+        [-0.0365,  0.0846, -0.1077,  ..., -0.0182,  0.0366,  0.1257],
+        ...,
+        [-0.0061,  0.0622, -0.0051,  ..., -0.0170,  0.0288, -0.0650],
+        [ 0.0897, -0.1031,  0.0420,  ...,  0.0108,  0.0134, -0.0399],
+        [-0.0148, -0.0755,  0.0743,  ..., -0.0785,  0.0261, -0.0318]],
+       device='cuda:0'), grad: tensor([[ 4.1771e-04,  2.0742e-04,  1.6844e-04,  ...,  1.8942e-04,
+          1.9872e-04,  2.6155e-04],
+        [-2.3155e-03,  2.2888e-04,  1.0471e-03,  ...,  5.8591e-05,
+          1.7405e-03, -8.5306e-04],
+        [ 5.4026e-04, -4.3602e-03,  2.3472e-04,  ...,  2.4211e-04,
+          1.1021e-04,  9.5463e-04],
+        ...,
+        [ 1.5557e-04,  3.1338e-03,  5.1041e-03,  ...,  9.5673e-03,
+         -2.4471e-03,  1.6701e-04],
+        [ 2.5010e-04,  1.2147e-04, -4.0245e-03,  ...,  3.5191e-03,
+         -5.7793e-04, -2.8286e-03],
+        [ 1.1361e-04, -3.6945e-03, -5.0049e-03,  ..., -1.1658e-02,
+         -6.8855e-04,  4.4274e-04]], device='cuda:0')
+Epoch 298, bias, value: tensor([ 0.0129, -0.0084, -0.0141,  0.0100, -0.0160, -0.0207,  0.0129,  0.0005,
+         0.0166, -0.0117], device='cuda:0'), grad: tensor([ 0.0109, -0.0699,  0.0015,  0.0365,  0.0319, -0.0377,  0.0157,  0.0194,
+        -0.0113,  0.0029], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 297, time 216.95, cls_loss 0.5009 cls_loss_mapping 0.0045 cls_loss_causal 0.4738 re_mapping 0.0068 re_causal 0.0177 /// teacc 98.63 lr 0.00010000
+Epoch 299, weight, value: tensor([[-0.0638, -0.0910, -0.1449,  ...,  0.1176, -0.0524,  0.0322],
+        [-0.0826,  0.1062, -0.0640,  ...,  0.0496, -0.0578, -0.0992],
+        [-0.0366,  0.0859, -0.1078,  ..., -0.0176,  0.0380,  0.1267],
+        ...,
+        [-0.0069,  0.0600, -0.0051,  ..., -0.0200,  0.0294, -0.0668],
+        [ 0.0901, -0.1032,  0.0414,  ...,  0.0114,  0.0134, -0.0404],
+        [-0.0143, -0.0759,  0.0752,  ..., -0.0783,  0.0259, -0.0316]],
+       device='cuda:0'), grad: tensor([[ 2.8396e-04,  1.6069e-04,  2.1954e-03,  ...,  2.8229e-03,
+          2.7924e-03,  2.7966e-04],
+        [ 3.6025e-04,  1.6193e-03,  1.4603e-04,  ...,  2.1210e-03,
+          3.7670e-04,  4.3720e-05],
+        [ 2.6202e-04,  1.5438e-04,  2.5320e-04,  ..., -3.3436e-03,
+          9.4032e-04, -2.3155e-03],
+        ...,
+        [ 4.1008e-04, -4.1542e-03,  1.4238e-05,  ..., -5.2681e-03,
+         -8.9979e-04,  4.1270e-04],
+        [ 3.8171e-04,  3.9983e-04,  1.1883e-03,  ...,  3.9139e-03,
+          1.7719e-03,  1.2951e-03],
+        [ 3.5429e-04,  9.7942e-04, -4.7989e-03,  ..., -3.3455e-03,
+         -5.3825e-03,  3.8207e-05]], device='cuda:0')
+Epoch 299, bias, value: tensor([ 0.0127, -0.0070, -0.0140,  0.0100, -0.0159, -0.0201,  0.0131, -0.0001,
+         0.0155, -0.0119], device='cuda:0'), grad: tensor([ 0.0252,  0.0288, -0.0238,  0.0146,  0.0142,  0.0174, -0.0310, -0.0585,
+         0.0242, -0.0110], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 298, time 216.84, cls_loss 0.4996 cls_loss_mapping 0.0060 cls_loss_causal 0.4732 re_mapping 0.0067 re_causal 0.0169 /// teacc 98.81 lr 0.00010000
+Epoch 300, weight, value: tensor([[-0.0641, -0.0895, -0.1451,  ...,  0.1177, -0.0523,  0.0324],
+        [-0.0819,  0.1056, -0.0638,  ...,  0.0475, -0.0581, -0.0995],
+        [-0.0356,  0.0852, -0.1093,  ..., -0.0188,  0.0382,  0.1264],
+        ...,
+        [-0.0088,  0.0616, -0.0045,  ..., -0.0186,  0.0293, -0.0646],
+        [ 0.0905, -0.1050,  0.0411,  ...,  0.0115,  0.0135, -0.0410],
+        [-0.0133, -0.0761,  0.0746,  ..., -0.0776,  0.0260, -0.0318]],
+       device='cuda:0'), grad: tensor([[ 4.6015e-05,  5.5075e-05,  6.1214e-05,  ...,  2.1279e-04,
+          2.5511e-04,  6.8521e-04],
+        [ 2.1651e-05, -1.2589e-03,  1.4696e-03,  ..., -2.1229e-03,
+         -2.2373e-03, -9.4271e-04],
+        [-6.1512e-05,  5.3930e-04,  3.6764e-04,  ...,  9.7561e-04,
+          9.8991e-04,  1.2150e-03],
+        ...,
+        [ 2.4483e-05, -2.3484e-04, -1.9913e-03,  ...,  1.0407e-04,
+          6.5994e-04,  8.0585e-04],
+        [ 7.6652e-05, -4.6277e-04, -4.1342e-04,  ..., -6.5613e-04,
+         -6.1131e-04, -9.5129e-04],
+        [ 2.0444e-05,  2.3937e-04,  1.1360e-02,  ...,  3.7766e-04,
+          7.7629e-04,  6.7329e-04]], device='cuda:0')
+Epoch 300, bias, value: tensor([ 0.0126, -0.0082, -0.0135,  0.0096, -0.0162, -0.0206,  0.0144, -0.0002,
+         0.0167, -0.0124], device='cuda:0'), grad: tensor([ 0.0153, -0.0421,  0.0242, -0.0236,  0.0204, -0.0420,  0.0072,  0.0169,
+         0.0179,  0.0055], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 299, time 216.58, cls_loss 0.4890 cls_loss_mapping 0.0028 cls_loss_causal 0.4649 re_mapping 0.0065 re_causal 0.0170 /// teacc 99.00 lr 0.00010000
+Epoch 301, weight, value: tensor([[-0.0641, -0.0892, -0.1436,  ...,  0.1183, -0.0526,  0.0329],
+        [-0.0812,  0.1054, -0.0644,  ...,  0.0475, -0.0576, -0.0998],
+        [-0.0360,  0.0855, -0.1093,  ..., -0.0192,  0.0389,  0.1263],
+        ...,
+        [-0.0087,  0.0615, -0.0044,  ..., -0.0183,  0.0292, -0.0650],
+        [ 0.0903, -0.1050,  0.0408,  ...,  0.0103,  0.0126, -0.0408],
+        [-0.0143, -0.0767,  0.0738,  ..., -0.0779,  0.0260, -0.0320]],
+       device='cuda:0'), grad: tensor([[ 1.7524e-04,  8.4750e-08,  2.6584e-04,  ..., -3.6359e-04,
+          1.7710e-03,  1.5295e-04],
+        [ 3.2306e-04,  4.7177e-05, -8.3923e-04,  ..., -2.0485e-03,
+          8.2135e-05,  3.0641e-06],
+        [ 1.4699e-04,  9.1362e-04,  1.4675e-04,  ...,  2.3723e-04,
+          4.4847e-04,  5.1230e-05],
+        ...,
+        [ 3.0112e-04,  1.2584e-05,  1.7796e-03,  ...,  3.0184e-04,
+          2.7447e-03,  3.0458e-05],
+        [ 6.0511e-04, -9.8515e-04,  1.6327e-03,  ...,  1.1787e-03,
+          3.7861e-03,  1.0853e-03],
+        [-3.0918e-03,  4.2841e-06, -6.0463e-03,  ..., -1.8282e-03,
+         -2.0370e-02, -3.1319e-03]], device='cuda:0')
+Epoch 301, bias, value: tensor([ 0.0130, -0.0075, -0.0141,  0.0097, -0.0160, -0.0199,  0.0139, -0.0013,
+         0.0171, -0.0126], device='cuda:0'), grad: tensor([ 0.0096, -0.0196, -0.0184,  0.0162,  0.0193,  0.0163,  0.0080,  0.0131,
+         0.0151, -0.0598], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 300, time 216.75, cls_loss 0.4899 cls_loss_mapping 0.0033 cls_loss_causal 0.4623 re_mapping 0.0069 re_causal 0.0176 /// teacc 98.87 lr 0.00010000
+Epoch 302, weight, value: tensor([[-0.0637, -0.0893, -0.1443,  ...,  0.1208, -0.0542,  0.0309],
+        [-0.0805,  0.1062, -0.0640,  ...,  0.0464, -0.0577, -0.1015],
+        [-0.0359,  0.0851, -0.1093,  ..., -0.0189,  0.0382,  0.1269],
+        ...,
+        [-0.0083,  0.0623, -0.0045,  ..., -0.0187,  0.0281, -0.0649],
+        [ 0.0917, -0.1062,  0.0410,  ...,  0.0092,  0.0127, -0.0418],
+        [-0.0137, -0.0775,  0.0741,  ..., -0.0777,  0.0270, -0.0306]],
+       device='cuda:0'), grad: tensor([[-4.6611e-04,  1.9646e-04, -1.6766e-03,  ..., -5.8594e-03,
+         -1.9665e-03, -3.1719e-03],
+        [ 8.5950e-05,  7.3013e-03,  2.8300e-04,  ...,  2.7809e-03,
+          6.0797e-04,  3.3474e-04],
+        [ 6.2525e-05, -1.0204e-04,  1.8632e-04,  ...,  1.0757e-03,
+          2.8580e-05,  3.0935e-05],
+        ...,
+        [ 8.3148e-05, -7.3624e-03,  2.9492e-04,  ...,  7.4530e-04,
+          5.6171e-04,  3.4046e-04],
+        [-3.9935e-04,  1.6701e-04,  1.3840e-04,  ..., -1.6556e-03,
+         -3.5095e-03,  1.7881e-04],
+        [ 1.1814e-04,  1.6141e-04,  2.1994e-04,  ...,  9.8801e-04,
+          5.1880e-04,  3.0780e-04]], device='cuda:0')
+Epoch 302, bias, value: tensor([ 1.3077e-02, -8.3388e-03, -1.3799e-02,  8.9888e-03, -1.5679e-02,
+        -2.0570e-02,  1.3349e-02,  9.2770e-05,  1.7157e-02, -1.2048e-02],
+       device='cuda:0'), grad: tensor([-0.0685,  0.0411,  0.0112,  0.0240, -0.0131,  0.0342, -0.0064, -0.0041,
+        -0.0373,  0.0189], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 301, time 216.62, cls_loss 0.4753 cls_loss_mapping 0.0039 cls_loss_causal 0.4461 re_mapping 0.0064 re_causal 0.0157 /// teacc 98.85 lr 0.00010000
+Epoch 303, weight, value: tensor([[-0.0635, -0.0901, -0.1443,  ...,  0.1206, -0.0542,  0.0310],
+        [-0.0797,  0.1066, -0.0628,  ...,  0.0462, -0.0572, -0.1013],
+        [-0.0365,  0.0849, -0.1086,  ..., -0.0198,  0.0387,  0.1269],
+        ...,
+        [-0.0086,  0.0623, -0.0044,  ..., -0.0179,  0.0276, -0.0648],
+        [ 0.0924, -0.1070,  0.0419,  ...,  0.0087,  0.0127, -0.0419],
+        [-0.0134, -0.0763,  0.0739,  ..., -0.0770,  0.0271, -0.0298]],
+       device='cuda:0'), grad: tensor([[ 2.1820e-03,  4.4793e-05,  1.6415e-04,  ...,  1.8692e-04,
+          2.3766e-03,  3.4466e-03],
+        [ 1.5056e-04, -3.9482e-03, -4.8676e-03,  ..., -1.2497e-02,
+          9.7007e-06, -2.9445e-04],
+        [ 6.4754e-04,  2.8515e-04,  1.1015e-04,  ...,  3.8910e-04,
+          2.6917e-04,  1.6069e-04],
+        ...,
+        [ 4.5347e-04,  3.8586e-03,  7.3776e-03,  ...,  1.5007e-02,
+          1.5656e-02,  5.5504e-03],
+        [-5.4359e-03,  1.0145e-04,  1.2064e-03,  ...,  6.2656e-04,
+         -2.7752e-03, -4.2534e-03],
+        [ 2.9445e-04,  2.6321e-04, -6.4201e-03,  ...,  2.0180e-03,
+         -3.3264e-03,  1.0198e-04]], device='cuda:0')
+Epoch 303, bias, value: tensor([ 0.0130, -0.0085, -0.0133,  0.0092, -0.0167, -0.0219,  0.0142, -0.0005,
+         0.0176, -0.0109], device='cuda:0'), grad: tensor([ 0.0277, -0.0289,  0.0102,  0.0009,  0.0111,  0.0138,  0.0060,  0.0790,
+        -0.0912, -0.0285], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 302, time 216.73, cls_loss 0.4891 cls_loss_mapping 0.0041 cls_loss_causal 0.4636 re_mapping 0.0068 re_causal 0.0167 /// teacc 98.82 lr 0.00010000
+Epoch 304, weight, value: tensor([[-0.0647, -0.0905, -0.1442,  ...,  0.1203, -0.0536,  0.0318],
+        [-0.0793,  0.1077, -0.0632,  ...,  0.0476, -0.0567, -0.1020],
+        [-0.0370,  0.0838, -0.1098,  ..., -0.0199,  0.0383,  0.1280],
+        ...,
+        [-0.0087,  0.0633, -0.0049,  ..., -0.0180,  0.0280, -0.0625],
+        [ 0.0926, -0.1070,  0.0414,  ...,  0.0082,  0.0120, -0.0425],
+        [-0.0131, -0.0773,  0.0748,  ..., -0.0782,  0.0271, -0.0313]],
+       device='cuda:0'), grad: tensor([[ 2.2009e-05,  5.3436e-05,  4.2558e-05,  ...,  2.4244e-05,
+          1.7509e-05,  4.5402e-07],
+        [-9.1248e-03, -1.6413e-03, -2.2354e-03,  ..., -8.6365e-03,
+          1.4588e-05,  3.4831e-07],
+        [ 7.6666e-06,  3.0661e-04,  1.2106e-04,  ...,  3.8415e-05,
+          8.6904e-05, -1.8207e-06],
+        ...,
+        [ 9.0694e-04,  2.2144e-03,  1.4143e-03,  ...,  7.7009e-04,
+         -3.7479e-04,  8.7544e-08],
+        [ 1.7822e-04,  6.0648e-05,  2.3663e-04,  ...,  1.6630e-04,
+          1.9625e-05,  2.3525e-06],
+        [ 3.6774e-03,  3.6263e-04,  1.1921e-04,  ...,  3.5038e-03,
+          1.8048e-04,  2.0768e-07]], device='cuda:0')
+Epoch 304, bias, value: tensor([ 0.0122, -0.0069, -0.0137,  0.0097, -0.0167, -0.0218,  0.0136, -0.0001,
+         0.0175, -0.0119], device='cuda:0'), grad: tensor([ 0.0048, -0.0105,  0.0063,  0.0068,  0.0049, -0.0029, -0.0244, -0.0151,
+         0.0147,  0.0154], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 303, time 216.64, cls_loss 0.5148 cls_loss_mapping 0.0042 cls_loss_causal 0.4857 re_mapping 0.0062 re_causal 0.0162 /// teacc 98.70 lr 0.00010000
+Epoch 305, weight, value: tensor([[-0.0628, -0.0906, -0.1443,  ...,  0.1204, -0.0545,  0.0307],
+        [-0.0795,  0.1061, -0.0636,  ...,  0.0475, -0.0576, -0.1025],
+        [-0.0363,  0.0826, -0.1094,  ..., -0.0189,  0.0402,  0.1273],
+        ...,
+        [-0.0087,  0.0640, -0.0055,  ..., -0.0187,  0.0263, -0.0624],
+        [ 0.0921, -0.1058,  0.0425,  ...,  0.0088,  0.0123, -0.0426],
+        [-0.0124, -0.0762,  0.0749,  ..., -0.0777,  0.0278, -0.0310]],
+       device='cuda:0'), grad: tensor([[ 0.0012, -0.0007, -0.0005,  ...,  0.0004, -0.0031, -0.0009],
+        [-0.0036, -0.0031, -0.0011,  ..., -0.0155, -0.0046, -0.0012],
+        [-0.0028,  0.0002,  0.0001,  ...,  0.0005,  0.0010,  0.0002],
+        ...,
+        [ 0.0007,  0.0007,  0.0003,  ...,  0.0006,  0.0019,  0.0002],
+        [ 0.0056,  0.0003,  0.0010,  ...,  0.0106,  0.0008,  0.0007],
+        [ 0.0009,  0.0003,  0.0004,  ...,  0.0006,  0.0007,  0.0002]],
+       device='cuda:0')
+Epoch 305, bias, value: tensor([ 0.0131, -0.0075, -0.0132,  0.0091, -0.0170, -0.0216,  0.0151, -0.0008,
+         0.0166, -0.0115], device='cuda:0'), grad: tensor([-0.0435, -0.0765,  0.0096, -0.0053,  0.0199, -0.0131,  0.0049,  0.0287,
+         0.0520,  0.0233], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 304, time 216.86, cls_loss 0.4903 cls_loss_mapping 0.0029 cls_loss_causal 0.4656 re_mapping 0.0063 re_causal 0.0165 /// teacc 98.78 lr 0.00010000
+Epoch 306, weight, value: tensor([[-0.0611, -0.0911, -0.1446,  ...,  0.1202, -0.0551,  0.0307],
+        [-0.0802,  0.1059, -0.0649,  ...,  0.0484, -0.0580, -0.1027],
+        [-0.0361,  0.0829, -0.1093,  ..., -0.0196,  0.0405,  0.1276],
+        ...,
+        [-0.0085,  0.0640, -0.0051,  ..., -0.0184,  0.0260, -0.0626],
+        [ 0.0912, -0.1055,  0.0428,  ...,  0.0086,  0.0129, -0.0422],
+        [-0.0126, -0.0760,  0.0756,  ..., -0.0781,  0.0285, -0.0326]],
+       device='cuda:0'), grad: tensor([[ 1.8096e-06,  2.6729e-06,  4.4405e-05,  ..., -7.9721e-06,
+          1.5748e-04,  5.4032e-05],
+        [-4.7266e-05, -1.2684e-04,  1.2144e-05,  ..., -6.9976e-05,
+          1.1843e-04,  1.7560e-04],
+        [ 3.1620e-05,  1.7002e-05,  2.0474e-05,  ...,  9.2238e-06,
+          2.5487e-04,  1.2994e-04],
+        ...,
+        [-5.8323e-05,  1.6943e-05,  4.6468e-04,  ...,  5.1707e-05,
+          5.4359e-04, -1.0862e-03],
+        [ 1.2150e-03,  1.6853e-05,  3.5024e-04,  ...,  7.9945e-06,
+         -3.6411e-03,  2.4104e-04],
+        [ 1.6928e-04,  5.5045e-05, -2.7657e-03,  ...,  1.1064e-06,
+         -9.9182e-04,  7.5996e-05]], device='cuda:0')
+Epoch 306, bias, value: tensor([ 0.0133, -0.0078, -0.0132,  0.0101, -0.0169, -0.0213,  0.0146, -0.0010,
+         0.0158, -0.0113], device='cuda:0'), grad: tensor([-0.0140,  0.0281, -0.0704, -0.0020,  0.0224,  0.0209, -0.0078, -0.0019,
+         0.0042,  0.0205], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 305, time 216.51, cls_loss 0.4929 cls_loss_mapping 0.0051 cls_loss_causal 0.4695 re_mapping 0.0061 re_causal 0.0158 /// teacc 98.87 lr 0.00010000
+Epoch 307, weight, value: tensor([[-0.0618, -0.0915, -0.1443,  ...,  0.1209, -0.0539,  0.0317],
+        [-0.0795,  0.1057, -0.0652,  ...,  0.0477, -0.0584, -0.1033],
+        [-0.0372,  0.0832, -0.1089,  ..., -0.0184,  0.0407,  0.1275],
+        ...,
+        [-0.0068,  0.0636, -0.0046,  ..., -0.0195,  0.0264, -0.0631],
+        [ 0.0920, -0.1068,  0.0434,  ...,  0.0077,  0.0132, -0.0423],
+        [-0.0135, -0.0759,  0.0751,  ..., -0.0774,  0.0278, -0.0328]],
+       device='cuda:0'), grad: tensor([[ 4.5588e-07,  1.0297e-05,  1.6659e-05,  ...,  5.0735e-04,
+          1.1122e-04,  2.1696e-04],
+        [ 5.4762e-06,  2.1422e-04,  2.5854e-05,  ...,  9.2411e-04,
+          9.7215e-05,  5.1117e-04],
+        [ 6.4727e-07,  7.5340e-04,  3.3259e-05,  ...,  6.5088e-04,
+          9.5367e-05,  2.8610e-04],
+        ...,
+        [ 1.2800e-05, -1.0624e-03, -1.5182e-03,  ..., -2.0351e-03,
+          6.8903e-05, -1.4362e-03],
+        [ 2.6003e-06,  1.1154e-05,  1.9228e-04,  ...,  5.8174e-04,
+          1.1832e-04,  2.6846e-04],
+        [ 1.0155e-05,  2.7835e-05, -2.0409e-04,  ...,  4.5538e-04,
+          8.6904e-05,  2.0134e-04]], device='cuda:0')
+Epoch 307, bias, value: tensor([ 0.0133, -0.0076, -0.0125,  0.0108, -0.0167, -0.0219,  0.0134,  0.0005,
+         0.0151, -0.0123], device='cuda:0'), grad: tensor([-0.0199, -0.0088,  0.0161,  0.0084, -0.0122, -0.0140,  0.0196, -0.0202,
+         0.0181,  0.0129], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 306, time 216.53, cls_loss 0.5174 cls_loss_mapping 0.0034 cls_loss_causal 0.5012 re_mapping 0.0063 re_causal 0.0165 /// teacc 98.77 lr 0.00010000
+Epoch 308, weight, value: tensor([[-0.0623, -0.0923, -0.1450,  ...,  0.1196, -0.0540,  0.0322],
+        [-0.0803,  0.1058, -0.0654,  ...,  0.0482, -0.0584, -0.1021],
+        [-0.0376,  0.0832, -0.1093,  ..., -0.0173,  0.0398,  0.1274],
+        ...,
+        [-0.0069,  0.0640, -0.0044,  ..., -0.0194,  0.0270, -0.0640],
+        [ 0.0920, -0.1076,  0.0440,  ...,  0.0082,  0.0135, -0.0419],
+        [-0.0146, -0.0756,  0.0752,  ..., -0.0779,  0.0277, -0.0339]],
+       device='cuda:0'), grad: tensor([[ 3.7622e-04,  9.0170e-04,  5.9575e-05,  ...,  1.7822e-02,
+          3.6987e-02,  1.3412e-02],
+        [ 8.3447e-05,  1.2267e-04,  1.2028e-04,  ...,  1.7023e-03,
+          9.5654e-04,  1.1183e-05],
+        [ 1.1301e-04,  2.8872e-04,  1.6260e-04,  ...,  1.6632e-03,
+          1.1644e-03,  1.4124e-03],
+        ...,
+        [-7.7391e-04, -1.7481e-03,  1.1740e-03,  ...,  1.9855e-03,
+          2.0046e-03,  3.6985e-05],
+        [ 1.2222e-02,  7.7784e-05, -2.2831e-03,  ...,  3.0823e-03,
+         -5.8975e-03, -3.1166e-03],
+        [ 7.7546e-05,  9.2363e-04,  1.3206e-02,  ..., -3.1738e-02,
+         -2.8168e-02, -1.3237e-02]], device='cuda:0')
+Epoch 308, bias, value: tensor([ 0.0131, -0.0072, -0.0127,  0.0107, -0.0174, -0.0225,  0.0137,  0.0004,
+         0.0161, -0.0120], device='cuda:0'), grad: tensor([ 0.0442,  0.0101,  0.0140,  0.0322, -0.0180, -0.0171, -0.0216,  0.0085,
+         0.0002, -0.0525], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 307, time 216.58, cls_loss 0.4888 cls_loss_mapping 0.0039 cls_loss_causal 0.4609 re_mapping 0.0064 re_causal 0.0168 /// teacc 98.80 lr 0.00010000
+Epoch 309, weight, value: tensor([[-0.0623, -0.0931, -0.1426,  ...,  0.1203, -0.0554,  0.0315],
+        [-0.0804,  0.1058, -0.0650,  ...,  0.0510, -0.0589, -0.1034],
+        [-0.0379,  0.0837, -0.1097,  ..., -0.0182,  0.0404,  0.1277],
+        ...,
+        [-0.0070,  0.0641, -0.0043,  ..., -0.0190,  0.0274, -0.0647],
+        [ 0.0928, -0.1082,  0.0440,  ...,  0.0077,  0.0131, -0.0430],
+        [-0.0151, -0.0764,  0.0747,  ..., -0.0777,  0.0290, -0.0301]],
+       device='cuda:0'), grad: tensor([[ 9.0539e-05,  3.4332e-05, -2.5439e-04,  ..., -6.6280e-04,
+          3.0875e-04,  1.2045e-03],
+        [ 5.7787e-05, -6.1572e-05,  5.8556e-04,  ...,  1.2388e-03,
+          1.9324e-04,  5.4979e-04],
+        [ 9.3639e-05, -2.1890e-05,  1.3709e-04,  ...,  9.2983e-04,
+          2.3842e-04, -5.2810e-05],
+        ...,
+        [-6.1846e-04,  2.5183e-05,  9.8228e-04,  ...,  1.2579e-03,
+          1.8120e-04, -1.6451e-04],
+        [-1.2383e-05,  1.7494e-05,  2.3150e-04,  ...,  8.4543e-04,
+          2.0361e-04,  6.7377e-04],
+        [ 4.3297e-04,  6.5684e-05,  1.2941e-03,  ..., -1.0526e-04,
+          2.1291e-04, -3.1681e-03]], device='cuda:0')
+Epoch 309, bias, value: tensor([ 0.0133, -0.0077, -0.0133,  0.0109, -0.0179, -0.0219,  0.0136,  0.0006,
+         0.0162, -0.0119], device='cuda:0'), grad: tensor([ 0.0300,  0.0056,  0.0019, -0.0161,  0.0170, -0.0268, -0.0271, -0.0184,
+         0.0318,  0.0022], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 308, time 216.69, cls_loss 0.5108 cls_loss_mapping 0.0049 cls_loss_causal 0.4886 re_mapping 0.0062 re_causal 0.0160 /// teacc 98.63 lr 0.00010000
+Epoch 310, weight, value: tensor([[-0.0629, -0.0923, -0.1433,  ...,  0.1193, -0.0554,  0.0316],
+        [-0.0820,  0.1061, -0.0652,  ...,  0.0500, -0.0589, -0.1037],
+        [-0.0379,  0.0834, -0.1098,  ..., -0.0189,  0.0403,  0.1289],
+        ...,
+        [-0.0059,  0.0650, -0.0039,  ..., -0.0191,  0.0278, -0.0638],
+        [ 0.0930, -0.1075,  0.0432,  ...,  0.0078,  0.0129, -0.0427],
+        [-0.0147, -0.0772,  0.0739,  ..., -0.0780,  0.0284, -0.0318]],
+       device='cuda:0'), grad: tensor([[-1.1530e-03,  5.8651e-05, -3.7823e-03,  ..., -5.4884e-04,
+         -2.0485e-03,  3.5858e-04],
+        [ 4.3011e-04,  1.3981e-03,  9.7215e-05,  ...,  1.1463e-03,
+          5.1379e-05,  4.4298e-04],
+        [ 2.3520e-04,  4.3416e-04,  2.1070e-05,  ...,  3.3855e-04,
+         -2.3067e-05,  7.6056e-04],
+        ...,
+        [ 3.9530e-04,  8.3542e-03,  5.0038e-05,  ...,  1.1311e-03,
+          4.2945e-05,  3.9124e-04],
+        [-1.7147e-03, -3.4962e-03,  3.6740e-04,  ..., -6.4316e-03,
+          2.0194e-04,  4.5133e-04],
+        [ 2.4772e-04,  3.5572e-04,  1.0595e-03,  ...,  5.3358e-04,
+          2.1720e-04,  3.8052e-04]], device='cuda:0')
+Epoch 310, bias, value: tensor([ 0.0124, -0.0081, -0.0134,  0.0105, -0.0186, -0.0211,  0.0142,  0.0013,
+         0.0174, -0.0125], device='cuda:0'), grad: tensor([-0.0194, -0.0075, -0.0145, -0.0042,  0.0117, -0.0464,  0.0331,  0.0417,
+        -0.0101,  0.0156], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 309, time 216.80, cls_loss 0.4949 cls_loss_mapping 0.0043 cls_loss_causal 0.4642 re_mapping 0.0065 re_causal 0.0163 /// teacc 98.69 lr 0.00010000
+Epoch 311, weight, value: tensor([[-0.0627, -0.0914, -0.1444,  ...,  0.1196, -0.0542,  0.0321],
+        [-0.0823,  0.1066, -0.0652,  ...,  0.0504, -0.0597, -0.1038],
+        [-0.0372,  0.0843, -0.1102,  ..., -0.0188,  0.0405,  0.1294],
+        ...,
+        [-0.0056,  0.0648, -0.0041,  ..., -0.0192,  0.0266, -0.0638],
+        [ 0.0932, -0.1093,  0.0434,  ...,  0.0085,  0.0128, -0.0436],
+        [-0.0148, -0.0779,  0.0735,  ..., -0.0788,  0.0288, -0.0319]],
+       device='cuda:0'), grad: tensor([[-2.4382e-06,  9.6858e-05,  1.2875e-04,  ...,  8.5926e-04,
+          2.7418e-04,  6.9761e-04],
+        [ 1.2014e-07,  7.3671e-05,  5.5522e-05,  ...,  4.4584e-04,
+          1.2362e-04,  2.9898e-04],
+        [ 1.2154e-07,  9.8038e-04,  8.3447e-05,  ...,  4.6992e-04,
+          3.2558e-03,  2.2774e-03],
+        ...,
+        [-9.3937e-04, -4.0936e-04,  4.2707e-05,  ...,  1.3985e-05,
+          5.9462e-04,  4.5419e-04],
+        [ 1.6928e-05,  1.5759e-04,  4.4513e-04,  ..., -1.9288e-04,
+          8.2350e-04, -7.8008e-06],
+        [ 8.3923e-04,  5.6028e-04,  8.3876e-04,  ...,  9.5749e-04,
+          8.2922e-04,  4.6039e-04]], device='cuda:0')
+Epoch 311, bias, value: tensor([ 0.0126, -0.0086, -0.0140,  0.0095, -0.0182, -0.0197,  0.0152,  0.0020,
+         0.0160, -0.0127], device='cuda:0'), grad: tensor([-0.0127,  0.0151,  0.0289, -0.0077, -0.0732,  0.0524, -0.0046,  0.0183,
+        -0.0092, -0.0074], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 310, time 216.76, cls_loss 0.4573 cls_loss_mapping 0.0035 cls_loss_causal 0.4312 re_mapping 0.0065 re_causal 0.0157 /// teacc 98.79 lr 0.00010000
+Epoch 312, weight, value: tensor([[-0.0638, -0.0910, -0.1451,  ...,  0.1201, -0.0544,  0.0313],
+        [-0.0834,  0.1075, -0.0654,  ...,  0.0501, -0.0601, -0.1031],
+        [-0.0380,  0.0837, -0.1107,  ..., -0.0188,  0.0399,  0.1299],
+        ...,
+        [-0.0059,  0.0662, -0.0031,  ..., -0.0198,  0.0284, -0.0643],
+        [ 0.0943, -0.1100,  0.0437,  ...,  0.0080,  0.0132, -0.0427],
+        [-0.0144, -0.0793,  0.0731,  ..., -0.0786,  0.0279, -0.0311]],
+       device='cuda:0'), grad: tensor([[ 1.2910e-04,  2.2966e-06,  9.5606e-05,  ...,  8.3590e-04,
+          6.6185e-04,  1.1148e-03],
+        [ 7.9811e-05,  5.2834e-04,  6.3610e-04,  ...,  1.5283e-04,
+          4.3440e-04,  5.2166e-04],
+        [-1.6308e-03,  1.8415e-03, -1.8778e-03,  ...,  6.4182e-04,
+         -4.3030e-03, -6.4659e-04],
+        ...,
+        [-1.3018e-03, -2.1286e-03, -1.4944e-03,  ..., -3.8090e-03,
+         -1.8406e-03, -9.4271e-04],
+        [ 9.8515e-04,  2.1487e-05,  6.9332e-04,  ...,  1.4181e-03,
+          4.7951e-03,  3.1624e-03],
+        [ 5.2500e-04,  2.2364e-04,  1.9045e-03,  ...,  4.8494e-04,
+          9.3174e-04,  5.0688e-04]], device='cuda:0')
+Epoch 312, bias, value: tensor([ 0.0124, -0.0080, -0.0131,  0.0086, -0.0176, -0.0203,  0.0143,  0.0021,
+         0.0163, -0.0126], device='cuda:0'), grad: tensor([ 0.0182,  0.0188, -0.0095,  0.0218,  0.0107, -0.0113,  0.0031, -0.0742,
+         0.0526, -0.0302], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 311, time 217.04, cls_loss 0.4748 cls_loss_mapping 0.0043 cls_loss_causal 0.4400 re_mapping 0.0064 re_causal 0.0164 /// teacc 98.84 lr 0.00010000
+Epoch 313, weight, value: tensor([[-0.0656, -0.0918, -0.1449,  ...,  0.1202, -0.0534,  0.0321],
+        [-0.0832,  0.1081, -0.0655,  ...,  0.0508, -0.0590, -0.1037],
+        [-0.0395,  0.0835, -0.1110,  ..., -0.0178,  0.0388,  0.1300],
+        ...,
+        [-0.0045,  0.0657, -0.0030,  ..., -0.0200,  0.0282, -0.0640],
+        [ 0.0936, -0.1102,  0.0445,  ...,  0.0076,  0.0136, -0.0430],
+        [-0.0140, -0.0792,  0.0733,  ..., -0.0791,  0.0277, -0.0316]],
+       device='cuda:0'), grad: tensor([[-1.7059e-04,  1.7926e-05,  1.7321e-04,  ..., -1.0719e-03,
+          1.4007e-04, -1.0099e-03],
+        [ 9.9182e-05,  1.2003e-05,  7.1585e-05,  ..., -2.0385e-04,
+          2.6870e-04,  2.1207e-04],
+        [ 9.5546e-05, -3.4332e-04,  1.0961e-04,  ...,  9.0003e-05,
+         -4.9133e-03,  2.2769e-04],
+        ...,
+        [-1.2617e-03, -1.8311e-03, -1.9207e-03,  ...,  2.1195e-04,
+         -7.3738e-03,  2.0897e-04],
+        [ 1.4725e-03,  1.1581e-04,  1.4949e-04,  ...,  9.8801e-04,
+          1.0127e-04, -9.3579e-05],
+        [-2.1534e-03,  2.8968e-04,  5.0163e-04,  ...,  1.3661e-04,
+          1.9608e-03,  1.5354e-04]], device='cuda:0')
+Epoch 313, bias, value: tensor([ 0.0129, -0.0081, -0.0123,  0.0104, -0.0177, -0.0210,  0.0133,  0.0021,
+         0.0151, -0.0126], device='cuda:0'), grad: tensor([-0.0151,  0.0168, -0.0331,  0.0168,  0.0138,  0.0156,  0.0130, -0.0354,
+        -0.0120,  0.0197], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 312, time 216.47, cls_loss 0.4993 cls_loss_mapping 0.0037 cls_loss_causal 0.4727 re_mapping 0.0061 re_causal 0.0157 /// teacc 98.84 lr 0.00010000
+Epoch 314, weight, value: tensor([[-0.0666, -0.0924, -0.1451,  ...,  0.1199, -0.0545,  0.0316],
+        [-0.0802,  0.1069, -0.0652,  ...,  0.0501, -0.0595, -0.1040],
+        [-0.0387,  0.0843, -0.1111,  ..., -0.0160,  0.0399,  0.1303],
+        ...,
+        [-0.0044,  0.0657, -0.0029,  ..., -0.0181,  0.0288, -0.0645],
+        [ 0.0929, -0.1103,  0.0440,  ...,  0.0084,  0.0133, -0.0415],
+        [-0.0143, -0.0774,  0.0738,  ..., -0.0799,  0.0283, -0.0313]],
+       device='cuda:0'), grad: tensor([[ 1.5736e-04,  8.1480e-05,  8.1122e-05,  ..., -1.6680e-03,
+         -1.5898e-03, -9.5081e-04],
+        [ 2.1019e-03,  2.0370e-03,  4.0078e-04,  ...,  5.3644e-04,
+          2.0874e-04,  1.0498e-05],
+        [-8.5592e-04, -3.2711e-03,  7.5281e-05,  ..., -6.4611e-04,
+          2.0981e-05, -8.4043e-05],
+        ...,
+        [ 1.0777e-04,  8.2397e-04,  8.5402e-04,  ..., -8.0681e-04,
+          4.8208e-04,  3.9451e-06],
+        [ 6.2656e-04,  8.5056e-05,  1.1086e-04,  ...,  2.7466e-04,
+          1.3185e-04,  5.8204e-05],
+        [ 8.5711e-05,  3.8594e-05, -6.3599e-02,  ...,  5.0640e-04,
+         -3.7598e-02,  1.4238e-05]], device='cuda:0')
+Epoch 314, bias, value: tensor([ 0.0124, -0.0071, -0.0120,  0.0098, -0.0186, -0.0204,  0.0137,  0.0021,
+         0.0147, -0.0125], device='cuda:0'), grad: tensor([-0.0926,  0.0304,  0.0126,  0.0071,  0.0249, -0.0162,  0.0288, -0.0076,
+         0.0178, -0.0053], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 313, time 216.85, cls_loss 0.4768 cls_loss_mapping 0.0042 cls_loss_causal 0.4533 re_mapping 0.0064 re_causal 0.0162 /// teacc 98.72 lr 0.00010000
+Epoch 315, weight, value: tensor([[-0.0672, -0.0921, -0.1459,  ...,  0.1207, -0.0553,  0.0314],
+        [-0.0809,  0.1067, -0.0639,  ...,  0.0506, -0.0586, -0.1038],
+        [-0.0373,  0.0845, -0.1120,  ..., -0.0155,  0.0386,  0.1311],
+        ...,
+        [-0.0051,  0.0653, -0.0036,  ..., -0.0170,  0.0302, -0.0639],
+        [ 0.0938, -0.1101,  0.0447,  ...,  0.0085,  0.0134, -0.0418],
+        [-0.0144, -0.0761,  0.0746,  ..., -0.0805,  0.0282, -0.0314]],
+       device='cuda:0'), grad: tensor([[ 5.8937e-04,  2.1651e-05,  7.8557e-07,  ..., -2.3127e-04,
+         -3.8433e-04, -4.0550e-03],
+        [ 4.0126e-04,  2.5539e-03,  2.4028e-06,  ...,  4.4751e-04,
+          1.2279e-04,  7.8821e-04],
+        [ 2.6870e-04, -2.8133e-03,  2.0247e-06,  ..., -2.0099e-04,
+          2.6536e-04,  1.2989e-03],
+        ...,
+        [ 6.1452e-05,  5.5492e-05, -1.6198e-05,  ...,  1.1706e-04,
+         -2.7776e-04,  6.4659e-04],
+        [ 2.1973e-03,  1.7419e-05,  2.5351e-06,  ...,  1.2910e-04,
+          9.2447e-05,  6.3133e-04],
+        [ 3.7909e-04,  4.9084e-05,  4.6754e-04,  ...,  1.6451e-04,
+          4.2653e-04,  6.2895e-04]], device='cuda:0')
+Epoch 315, bias, value: tensor([ 0.0118, -0.0063, -0.0124,  0.0101, -0.0178, -0.0209,  0.0123,  0.0020,
+         0.0158, -0.0127], device='cuda:0'), grad: tensor([-0.0168,  0.0339, -0.0118, -0.0102,  0.0102, -0.0124, -0.0315,  0.0200,
+        -0.0036,  0.0223], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 314, time 216.89, cls_loss 0.4751 cls_loss_mapping 0.0031 cls_loss_causal 0.4526 re_mapping 0.0065 re_causal 0.0171 /// teacc 98.84 lr 0.00010000
+Epoch 316, weight, value: tensor([[-0.0675, -0.0927, -0.1465,  ...,  0.1214, -0.0557,  0.0319],
+        [-0.0811,  0.1077, -0.0643,  ...,  0.0505, -0.0596, -0.1057],
+        [-0.0374,  0.0840, -0.1125,  ..., -0.0149,  0.0397,  0.1306],
+        ...,
+        [-0.0050,  0.0654, -0.0042,  ..., -0.0175,  0.0290, -0.0641],
+        [ 0.0939, -0.1100,  0.0466,  ...,  0.0086,  0.0144, -0.0417],
+        [-0.0150, -0.0755,  0.0733,  ..., -0.0810,  0.0270, -0.0310]],
+       device='cuda:0'), grad: tensor([[ 5.6982e-05,  2.0992e-06, -8.3968e-06,  ...,  1.1625e-03,
+          3.9458e-04,  8.3685e-04],
+        [ 1.8501e-03, -4.0866e-06,  1.5602e-05,  ..., -1.2245e-02,
+          3.1781e-04,  5.4455e-04],
+        [-2.2068e-03,  6.3956e-05,  1.5998e-04,  ...,  3.5934e-03,
+          9.9468e-04,  1.2026e-03],
+        ...,
+        [ 8.9824e-05, -2.3878e-04, -5.8222e-04,  ...,  1.2131e-03,
+         -3.1304e-04,  2.4557e-04],
+        [ 3.8314e-04,  6.4373e-05,  1.3804e-04,  ...,  3.7689e-03,
+          6.7282e-04,  8.9645e-04],
+        [ 7.2122e-05,  1.3970e-05, -6.8951e-04,  ...,  7.6437e-04,
+          4.3583e-04,  3.8505e-04]], device='cuda:0')
+Epoch 316, bias, value: tensor([ 0.0119, -0.0068, -0.0126,  0.0098, -0.0175, -0.0201,  0.0115,  0.0017,
+         0.0156, -0.0117], device='cuda:0'), grad: tensor([ 0.0108,  0.0045, -0.0090, -0.0410,  0.0087, -0.0165,  0.0098,  0.0062,
+         0.0190,  0.0075], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 315, time 216.89, cls_loss 0.4790 cls_loss_mapping 0.0027 cls_loss_causal 0.4558 re_mapping 0.0065 re_causal 0.0171 /// teacc 98.78 lr 0.00010000
+Epoch 317, weight, value: tensor([[-0.0681, -0.0920, -0.1474,  ...,  0.1208, -0.0568,  0.0313],
+        [-0.0814,  0.1074, -0.0650,  ...,  0.0491, -0.0606, -0.1050],
+        [-0.0374,  0.0850, -0.1127,  ..., -0.0149,  0.0399,  0.1302],
+        ...,
+        [-0.0044,  0.0653, -0.0047,  ..., -0.0159,  0.0293, -0.0642],
+        [ 0.0939, -0.1100,  0.0466,  ...,  0.0081,  0.0148, -0.0409],
+        [-0.0151, -0.0761,  0.0744,  ..., -0.0807,  0.0275, -0.0307]],
+       device='cuda:0'), grad: tensor([[ 3.2596e-08,  1.3137e-04,  1.6618e-04,  ...,  1.2751e-03,
+          3.6645e-04,  4.9993e-06],
+        [ 9.3132e-10, -4.7994e-04,  3.0115e-05,  ..., -2.7370e-03,
+          4.0263e-05,  1.9837e-07],
+        [ 2.3283e-09,  3.9712e-06,  2.3156e-05,  ...,  1.8194e-05,
+          3.5077e-05,  8.5076e-07],
+        ...,
+        [ 4.6566e-10,  1.6654e-04,  4.2686e-03,  ...,  9.6130e-04,
+          3.8071e-03,  1.8626e-07],
+        [ 5.4017e-08,  1.7202e-04,  3.0651e-03,  ...,  1.0544e-02,
+          6.8779e-03,  5.2720e-05],
+        [ 0.0000e+00,  2.3395e-06, -4.5471e-03,  ...,  1.8761e-05,
+         -4.0054e-03,  7.4273e-07]], device='cuda:0')
+Epoch 317, bias, value: tensor([ 0.0120, -0.0059, -0.0132,  0.0101, -0.0175, -0.0204,  0.0123,  0.0014,
+         0.0147, -0.0116], device='cuda:0'), grad: tensor([-0.0190, -0.0139, -0.0202, -0.0180,  0.0118,  0.0434, -0.0077, -0.0041,
+         0.0306, -0.0030], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 316, time 216.59, cls_loss 0.4903 cls_loss_mapping 0.0054 cls_loss_causal 0.4665 re_mapping 0.0066 re_causal 0.0163 /// teacc 98.77 lr 0.00010000
+Epoch 318, weight, value: tensor([[-0.0679, -0.0929, -0.1483,  ...,  0.1200, -0.0567,  0.0317],
+        [-0.0809,  0.1097, -0.0648,  ...,  0.0480, -0.0603, -0.1060],
+        [-0.0376,  0.0840, -0.1130,  ..., -0.0142,  0.0406,  0.1307],
+        ...,
+        [-0.0038,  0.0645, -0.0032,  ..., -0.0171,  0.0290, -0.0646],
+        [ 0.0931, -0.1111,  0.0467,  ...,  0.0094,  0.0143, -0.0410],
+        [-0.0150, -0.0748,  0.0740,  ..., -0.0804,  0.0270, -0.0292]],
+       device='cuda:0'), grad: tensor([[ 1.1533e-05,  1.0705e-04,  1.7273e-04,  ...,  1.2407e-03,
+          6.0558e-04,  1.0834e-03],
+        [ 1.0028e-05,  6.6566e-04,  2.0599e-03,  ..., -4.2839e-03,
+         -1.8430e-04, -2.0561e-03],
+        [ 2.6766e-06,  4.0174e-04,  3.9220e-04,  ...,  2.8515e-03,
+          2.1992e-03,  2.6531e-03],
+        ...,
+        [ 3.2894e-06,  8.6641e-04,  2.4204e-03,  ...,  1.1616e-03,
+          7.5035e-03,  8.2445e-04],
+        [ 1.0622e-04,  2.2697e-04,  7.6914e-04,  ...,  9.8801e-04,
+          1.5316e-03,  8.0347e-04],
+        [ 8.1584e-06, -2.0943e-03, -9.5444e-03,  ...,  1.5898e-03,
+         -9.8114e-03,  9.8133e-04]], device='cuda:0')
+Epoch 318, bias, value: tensor([ 0.0125, -0.0070, -0.0125,  0.0098, -0.0177, -0.0205,  0.0129,  0.0013,
+         0.0146, -0.0112], device='cuda:0'), grad: tensor([ 0.0218, -0.0492,  0.0365, -0.0076,  0.0400, -0.0414, -0.0391,  0.0370,
+         0.0253, -0.0233], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 317, time 216.73, cls_loss 0.4648 cls_loss_mapping 0.0044 cls_loss_causal 0.4418 re_mapping 0.0062 re_causal 0.0156 /// teacc 98.74 lr 0.00010000
+Epoch 319, weight, value: tensor([[-0.0678, -0.0924, -0.1480,  ...,  0.1199, -0.0562,  0.0322],
+        [-0.0807,  0.1090, -0.0651,  ...,  0.0477, -0.0604, -0.1040],
+        [-0.0387,  0.0842, -0.1129,  ..., -0.0133,  0.0420,  0.1305],
+        ...,
+        [-0.0047,  0.0657, -0.0030,  ..., -0.0180,  0.0294, -0.0646],
+        [ 0.0935, -0.1113,  0.0460,  ...,  0.0087,  0.0140, -0.0416],
+        [-0.0153, -0.0750,  0.0733,  ..., -0.0805,  0.0271, -0.0297]],
+       device='cuda:0'), grad: tensor([[ 3.9116e-06,  1.2410e-04,  6.7592e-05,  ...,  1.2379e-03,
+          1.1450e-04,  2.6369e-04],
+        [ 4.6566e-08,  1.8847e-04, -4.3368e-04,  ..., -2.8057e-03,
+          1.6260e-04, -3.3617e-04],
+        [-6.0606e-04, -8.5211e-04,  7.5817e-05,  ..., -8.6546e-05,
+         -4.0150e-04, -2.0008e-03],
+        ...,
+        [ 3.4762e-07, -6.4230e-04, -6.0797e-04,  ...,  3.6120e-04,
+         -2.3115e-04,  3.0923e-04],
+        [ 1.0125e-05,  8.3089e-05, -2.0957e-04,  ..., -8.8310e-04,
+         -6.1893e-04, -9.1410e-04],
+        [ 1.0692e-06,  9.0981e-04,  7.8964e-04,  ...,  5.1880e-04,
+          4.3607e-04,  3.2449e-04]], device='cuda:0')
+Epoch 319, bias, value: tensor([ 0.0140, -0.0065, -0.0130,  0.0090, -0.0175, -0.0211,  0.0135,  0.0013,
+         0.0142, -0.0115], device='cuda:0'), grad: tensor([ 0.0222, -0.0355,  0.0089, -0.0371,  0.0061,  0.0167,  0.0091, -0.0061,
+        -0.0121,  0.0277], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 318, time 216.98, cls_loss 0.5052 cls_loss_mapping 0.0041 cls_loss_causal 0.4691 re_mapping 0.0060 re_causal 0.0156 /// teacc 98.56 lr 0.00010000
+Epoch 320, weight, value: tensor([[-0.0677, -0.0930, -0.1486,  ...,  0.1197, -0.0567,  0.0316],
+        [-0.0817,  0.1084, -0.0637,  ...,  0.0497, -0.0590, -0.1036],
+        [-0.0383,  0.0855, -0.1137,  ..., -0.0138,  0.0409,  0.1297],
+        ...,
+        [-0.0047,  0.0651, -0.0021,  ..., -0.0186,  0.0300, -0.0636],
+        [ 0.0945, -0.1102,  0.0469,  ...,  0.0084,  0.0137, -0.0420],
+        [-0.0154, -0.0739,  0.0722,  ..., -0.0815,  0.0262, -0.0297]],
+       device='cuda:0'), grad: tensor([[ 2.0087e-05,  1.5748e-04,  7.1704e-05,  ...,  4.0233e-05,
+         -3.4291e-06,  2.9039e-04],
+        [ 1.1194e-04,  4.7565e-04,  2.6211e-05,  ...,  1.4067e-03,
+          8.6939e-07,  3.0708e-04],
+        [ 4.3482e-05, -8.5211e-04, -5.7936e-04,  ..., -2.6703e-04,
+          1.3253e-06, -1.1168e-03],
+        ...,
+        [ 1.4877e-04,  2.1470e-04,  1.2314e-04,  ...,  5.4151e-05,
+         -7.2969e-07,  4.5562e-04],
+        [ 5.4884e-04,  1.4770e-04,  1.2660e-04,  ...,  2.2751e-02,
+          8.0094e-07,  2.3544e-04],
+        [ 4.7607e-03, -9.4748e-04,  6.6137e-04,  ..., -1.5724e-04,
+         -1.4639e-04, -1.5974e-03]], device='cuda:0')
+Epoch 320, bias, value: tensor([ 0.0133, -0.0060, -0.0131,  0.0100, -0.0176, -0.0211,  0.0134,  0.0003,
+         0.0148, -0.0120], device='cuda:0'), grad: tensor([-0.0140,  0.0039,  0.0343,  0.0216,  0.0251, -0.0278, -0.0124,  0.0217,
+         0.0457, -0.0980], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 319, time 216.78, cls_loss 0.4693 cls_loss_mapping 0.0031 cls_loss_causal 0.4447 re_mapping 0.0064 re_causal 0.0167 /// teacc 98.68 lr 0.00010000
+Epoch 321, weight, value: tensor([[-0.0684, -0.0924, -0.1486,  ...,  0.1189, -0.0568,  0.0318],
+        [-0.0822,  0.1085, -0.0630,  ...,  0.0501, -0.0583, -0.1043],
+        [-0.0382,  0.0860, -0.1143,  ..., -0.0135,  0.0399,  0.1286],
+        ...,
+        [-0.0047,  0.0649, -0.0032,  ..., -0.0178,  0.0292, -0.0640],
+        [ 0.0955, -0.1101,  0.0462,  ...,  0.0080,  0.0141, -0.0415],
+        [-0.0156, -0.0750,  0.0729,  ..., -0.0826,  0.0270, -0.0295]],
+       device='cuda:0'), grad: tensor([[ 1.7866e-05,  1.5080e-05,  2.4056e-04,  ...,  3.0208e-04,
+          2.7680e-04,  9.5248e-05],
+        [ 5.1409e-07, -1.3673e-04,  1.7428e-04,  ...,  3.2663e-04,
+          2.0409e-04,  1.8740e-04],
+        [ 1.0826e-05, -5.1111e-05,  9.3699e-04,  ...,  5.3406e-04,
+         -3.7861e-03, -2.1782e-03],
+        ...,
+        [ 1.2256e-06, -2.5630e-05,  6.7558e-03,  ...,  5.2500e-04,
+          7.7324e-03,  2.0480e-04],
+        [-1.2398e-04,  9.3937e-05,  1.4143e-03,  ...,  2.8825e-04,
+          3.2139e-03,  9.1648e-04],
+        [ 4.3124e-05, -8.5652e-05, -1.6541e-02,  ...,  4.8733e-04,
+         -1.8341e-02,  9.7632e-05]], device='cuda:0')
+Epoch 321, bias, value: tensor([ 0.0132, -0.0054, -0.0132,  0.0101, -0.0179, -0.0212,  0.0141,  0.0007,
+         0.0148, -0.0131], device='cuda:0'), grad: tensor([ 0.0115,  0.0169, -0.0221,  0.0260, -0.0106, -0.0165,  0.0120,  0.0249,
+         0.0036, -0.0457], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 320, time 216.64, cls_loss 0.4972 cls_loss_mapping 0.0044 cls_loss_causal 0.4718 re_mapping 0.0059 re_causal 0.0158 /// teacc 98.78 lr 0.00010000
+Epoch 322, weight, value: tensor([[-0.0694, -0.0920, -0.1478,  ...,  0.1189, -0.0575,  0.0311],
+        [-0.0820,  0.1088, -0.0624,  ...,  0.0505, -0.0585, -0.1042],
+        [-0.0376,  0.0859, -0.1138,  ..., -0.0133,  0.0405,  0.1279],
+        ...,
+        [-0.0048,  0.0652, -0.0033,  ..., -0.0175,  0.0294, -0.0633],
+        [ 0.0955, -0.1100,  0.0448,  ...,  0.0085,  0.0123, -0.0411],
+        [-0.0152, -0.0756,  0.0745,  ..., -0.0837,  0.0280, -0.0296]],
+       device='cuda:0'), grad: tensor([[ 9.5367e-05,  7.2233e-06,  4.6134e-04,  ...,  6.3300e-05,
+          5.7697e-04,  1.3471e-04],
+        [ 2.3675e-04,  3.4124e-06,  3.5572e-04,  ...,  2.0310e-05,
+          5.2643e-04,  6.3539e-05],
+        [ 2.9778e-04,  7.7561e-06,  1.4524e-03,  ...,  7.9274e-05,
+          2.3289e-03,  3.6144e-04],
+        ...,
+        [-2.9850e-03, -2.9683e-05, -8.7204e-03,  ...,  6.8367e-05,
+         -7.1793e-03,  2.5940e-04],
+        [ 3.6478e-04,  7.6108e-06,  4.2267e-03,  ...,  2.0817e-05,
+          2.5940e-03,  2.8276e-04],
+        [ 1.0595e-03,  6.1452e-05,  6.1302e-03,  ...,  3.6526e-04,
+          6.1264e-03,  3.8218e-04]], device='cuda:0')
+Epoch 322, bias, value: tensor([ 1.2812e-02, -5.0562e-03, -1.2922e-02,  1.0429e-02, -1.7921e-02,
+        -2.1455e-02,  1.4118e-02, -7.0244e-05,  1.4877e-02, -1.2803e-02],
+       device='cuda:0'), grad: tensor([ 0.0090, -0.0193,  0.0147, -0.0108, -0.0095,  0.0315, -0.0365, -0.0079,
+        -0.0011,  0.0299], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 321, time 216.92, cls_loss 0.4914 cls_loss_mapping 0.0040 cls_loss_causal 0.4718 re_mapping 0.0058 re_causal 0.0156 /// teacc 98.76 lr 0.00010000
+Epoch 323, weight, value: tensor([[-0.0704, -0.0929, -0.1476,  ...,  0.1175, -0.0586,  0.0306],
+        [-0.0816,  0.1086, -0.0630,  ...,  0.0516, -0.0587, -0.1047],
+        [-0.0376,  0.0863, -0.1151,  ..., -0.0131,  0.0408,  0.1284],
+        ...,
+        [-0.0054,  0.0643, -0.0042,  ..., -0.0185,  0.0296, -0.0634],
+        [ 0.0964, -0.1101,  0.0449,  ...,  0.0083,  0.0123, -0.0415],
+        [-0.0155, -0.0748,  0.0754,  ..., -0.0840,  0.0281, -0.0289]],
+       device='cuda:0'), grad: tensor([[ 0.0010,  0.0003,  0.0004,  ...,  0.0013,  0.0089,  0.0001],
+        [ 0.0020, -0.0011,  0.0007,  ...,  0.0039,  0.0003,  0.0001],
+        [ 0.0002, -0.0035, -0.0063,  ..., -0.0136, -0.0163, -0.0079],
+        ...,
+        [ 0.0001,  0.0030, -0.0031,  ...,  0.0073, -0.0022,  0.0037],
+        [-0.0037,  0.0007,  0.0016,  ...,  0.0058,  0.0074,  0.0037],
+        [ 0.0006,  0.0003,  0.0068,  ...,  0.0012, -0.0004,  0.0003]],
+       device='cuda:0')
+Epoch 323, bias, value: tensor([ 0.0129, -0.0057, -0.0138,  0.0102, -0.0168, -0.0215,  0.0142,  0.0002,
+         0.0155, -0.0130], device='cuda:0'), grad: tensor([ 0.0395, -0.0083, -0.0356, -0.0132,  0.0335, -0.0142, -0.0296,  0.0115,
+        -0.0143,  0.0308], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 322, time 216.70, cls_loss 0.4931 cls_loss_mapping 0.0027 cls_loss_causal 0.4714 re_mapping 0.0058 re_causal 0.0158 /// teacc 98.83 lr 0.00010000
+Epoch 324, weight, value: tensor([[-0.0718, -0.0935, -0.1462,  ...,  0.1177, -0.0558,  0.0301],
+        [-0.0820,  0.1083, -0.0629,  ...,  0.0518, -0.0595, -0.1047],
+        [-0.0385,  0.0860, -0.1144,  ..., -0.0127,  0.0403,  0.1288],
+        ...,
+        [-0.0052,  0.0651, -0.0050,  ..., -0.0193,  0.0275, -0.0648],
+        [ 0.0957, -0.1096,  0.0448,  ...,  0.0081,  0.0133, -0.0408],
+        [-0.0140, -0.0733,  0.0751,  ..., -0.0831,  0.0276, -0.0292]],
+       device='cuda:0'), grad: tensor([[ 1.0365e-04,  3.9876e-05, -1.4620e-03,  ...,  1.9369e-03,
+          1.1110e-03,  1.1295e-04],
+        [ 7.9498e-06,  5.6553e-04,  6.4325e-04,  ...,  4.6492e-04,
+          4.8494e-04,  7.5161e-05],
+        [ 6.1207e-06, -1.3304e-03,  2.7180e-04,  ..., -1.3447e-04,
+          1.1617e-04,  1.7965e-04],
+        ...,
+        [ 7.7784e-06,  1.4210e-04, -2.6520e-02,  ..., -4.7913e-03,
+         -2.1393e-02, -2.3413e-04],
+        [ 1.0006e-05,  5.7936e-05,  3.3226e-03,  ...,  2.8086e-04,
+          4.8332e-03,  1.0592e-04],
+        [ 1.7077e-05,  2.7776e-05,  2.1851e-02,  ...,  1.0214e-03,
+          1.3985e-02,  3.9428e-05]], device='cuda:0')
+Epoch 324, bias, value: tensor([ 0.0123, -0.0059, -0.0130,  0.0109, -0.0176, -0.0210,  0.0143, -0.0008,
+         0.0147, -0.0121], device='cuda:0'), grad: tensor([-0.0220,  0.0064, -0.0012, -0.0017,  0.0056,  0.0082,  0.0061, -0.0409,
+         0.0107,  0.0288], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 323, time 216.76, cls_loss 0.4787 cls_loss_mapping 0.0029 cls_loss_causal 0.4566 re_mapping 0.0059 re_causal 0.0155 /// teacc 98.74 lr 0.00010000
+Epoch 325, weight, value: tensor([[-0.0719, -0.0964, -0.1467,  ...,  0.1178, -0.0562,  0.0308],
+        [-0.0791,  0.1079, -0.0639,  ...,  0.0516, -0.0609, -0.1049],
+        [-0.0380,  0.0862, -0.1157,  ..., -0.0130,  0.0398,  0.1274],
+        ...,
+        [-0.0062,  0.0651, -0.0043,  ..., -0.0193,  0.0281, -0.0637],
+        [ 0.0950, -0.1104,  0.0449,  ...,  0.0095,  0.0136, -0.0397],
+        [-0.0146, -0.0743,  0.0748,  ..., -0.0832,  0.0275, -0.0283]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  1.9833e-05, -4.7607e-03,  ..., -3.2902e-04,
+         -8.3618e-03,  5.4628e-05],
+        [ 0.0000e+00,  6.3539e-05,  8.2970e-05,  ...,  7.5221e-05,
+          1.4842e-04,  7.0155e-05],
+        [ 0.0000e+00,  7.8619e-05,  2.9850e-04,  ...,  2.8205e-04,
+          5.3453e-04, -5.0116e-04],
+        ...,
+        [ 4.6566e-10, -5.8842e-04, -6.2895e-04,  ..., -9.3412e-04,
+         -1.2302e-03,  5.2691e-05],
+        [ 0.0000e+00,  5.8264e-05,  5.9795e-04,  ...,  1.0407e-04,
+          8.9121e-04,  4.9084e-05],
+        [ 0.0000e+00,  8.5533e-05,  9.4175e-04,  ...,  1.8632e-04,
+          1.9817e-03,  4.5121e-05]], device='cuda:0')
+Epoch 325, bias, value: tensor([ 0.0130, -0.0057, -0.0130,  0.0096, -0.0165, -0.0203,  0.0129, -0.0010,
+         0.0156, -0.0126], device='cuda:0'), grad: tensor([-0.0120,  0.0163, -0.0483,  0.0152, -0.0472,  0.0066,  0.0210,  0.0081,
+         0.0228,  0.0177], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 324, time 216.92, cls_loss 0.4860 cls_loss_mapping 0.0041 cls_loss_causal 0.4627 re_mapping 0.0057 re_causal 0.0148 /// teacc 98.69 lr 0.00010000
+Epoch 326, weight, value: tensor([[-0.0716, -0.0980, -0.1477,  ...,  0.1186, -0.0565,  0.0314],
+        [-0.0782,  0.1078, -0.0647,  ...,  0.0514, -0.0610, -0.1059],
+        [-0.0381,  0.0861, -0.1164,  ..., -0.0134,  0.0402,  0.1273],
+        ...,
+        [-0.0067,  0.0654, -0.0045,  ..., -0.0197,  0.0285, -0.0634],
+        [ 0.0949, -0.1098,  0.0452,  ...,  0.0101,  0.0138, -0.0395],
+        [-0.0149, -0.0735,  0.0743,  ..., -0.0833,  0.0273, -0.0288]],
+       device='cuda:0'), grad: tensor([[ 3.7432e-05,  1.4240e-06,  2.4680e-08,  ..., -8.8692e-04,
+         -1.5819e-04, -3.0454e-07],
+        [ 1.6034e-05,  4.3702e-04,  3.4133e-07,  ...,  4.1813e-05,
+          1.3761e-05,  6.5658e-08],
+        [ 3.7074e-05,  1.3125e-04,  1.1129e-07,  ...,  1.9789e-05,
+          1.8477e-05,  1.1036e-07],
+        ...,
+        [ 1.1645e-05, -8.8835e-04,  5.7332e-06,  ...,  1.1647e-04,
+          2.1115e-05,  1.4435e-08],
+        [ 6.7115e-05,  8.2999e-06,  3.5875e-06,  ...,  2.2018e-04,
+          2.8640e-05,  1.1854e-05],
+        [ 2.6345e-05,  2.0123e-04,  3.1628e-06,  ...,  1.7512e-04,
+          3.3200e-05,  1.1036e-07]], device='cuda:0')
+Epoch 326, bias, value: tensor([ 1.3754e-02, -6.2315e-03, -1.3279e-02,  9.4605e-03, -1.6676e-02,
+        -1.9688e-02,  1.2999e-02, -4.5535e-05,  1.5291e-02, -1.3381e-02],
+       device='cuda:0'), grad: tensor([ 0.0060,  0.0085, -0.0235, -0.0189,  0.0100,  0.0037, -0.0081,  0.0067,
+         0.0087,  0.0071], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 325, time 216.86, cls_loss 0.5050 cls_loss_mapping 0.0037 cls_loss_causal 0.4789 re_mapping 0.0063 re_causal 0.0162 /// teacc 98.88 lr 0.00010000
+Epoch 327, weight, value: tensor([[-0.0690, -0.0973, -0.1466,  ...,  0.1185, -0.0553,  0.0321],
+        [-0.0784,  0.1076, -0.0656,  ...,  0.0517, -0.0608, -0.1069],
+        [-0.0368,  0.0857, -0.1167,  ..., -0.0131,  0.0400,  0.1278],
+        ...,
+        [-0.0059,  0.0656, -0.0054,  ..., -0.0207,  0.0285, -0.0630],
+        [ 0.0960, -0.1102,  0.0448,  ...,  0.0104,  0.0126, -0.0396],
+        [-0.0158, -0.0744,  0.0741,  ..., -0.0824,  0.0276, -0.0296]],
+       device='cuda:0'), grad: tensor([[ 2.0456e-04,  1.9197e-03, -3.0446e-04,  ...,  9.5444e-03,
+          1.4248e-03,  3.1624e-03],
+        [ 6.8545e-07,  1.1358e-03,  8.3089e-05,  ..., -7.0267e-03,
+          2.6965e-04,  7.3576e-04],
+        [ 2.7671e-05,  1.4868e-03,  1.8096e-04,  ...,  1.6832e-03,
+          1.6708e-03, -5.0116e-04],
+        ...,
+        [ 3.1898e-07,  3.4475e-04, -2.5183e-05,  ...,  1.0884e-04,
+          4.5967e-04,  5.7697e-04],
+        [-4.2000e-03, -3.7632e-03,  4.4018e-05,  ..., -5.1575e-03,
+         -2.1763e-03, -3.1223e-03],
+        [ 7.0632e-06,  1.4248e-03,  1.7776e-02,  ...,  7.9250e-04,
+          9.4223e-03,  5.3835e-04]], device='cuda:0')
+Epoch 327, bias, value: tensor([ 0.0143, -0.0065, -0.0137,  0.0095, -0.0160, -0.0214,  0.0140, -0.0006,
+         0.0163, -0.0138], device='cuda:0'), grad: tensor([ 0.0023,  0.0125,  0.0167, -0.0148, -0.0080,  0.0123, -0.0158,  0.0109,
+        -0.0599,  0.0439], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 326, time 217.02, cls_loss 0.4670 cls_loss_mapping 0.0037 cls_loss_causal 0.4437 re_mapping 0.0062 re_causal 0.0165 /// teacc 98.73 lr 0.00010000
+Epoch 328, weight, value: tensor([[-0.0697, -0.0982, -0.1464,  ...,  0.1193, -0.0569,  0.0317],
+        [-0.0788,  0.1091, -0.0663,  ...,  0.0525, -0.0604, -0.1063],
+        [-0.0371,  0.0844, -0.1161,  ..., -0.0134,  0.0391,  0.1273],
+        ...,
+        [-0.0053,  0.0657, -0.0043,  ..., -0.0205,  0.0278, -0.0634],
+        [ 0.0956, -0.1111,  0.0438,  ...,  0.0106,  0.0112, -0.0399],
+        [-0.0151, -0.0737,  0.0745,  ..., -0.0831,  0.0290, -0.0293]],
+       device='cuda:0'), grad: tensor([[ 3.1944e-07,  3.3528e-05,  2.7224e-05,  ...,  5.5015e-05,
+         -2.8741e-06,  2.6718e-05],
+        [ 2.5797e-04, -4.9067e-04,  2.1696e-05,  ..., -3.6359e-04,
+         -1.0735e-04,  1.7315e-05],
+        [ 4.1537e-06,  1.9014e-04,  2.9147e-05,  ...,  2.9469e-04,
+          4.9740e-05,  1.8626e-05],
+        ...,
+        [-4.4227e-04, -5.9032e-04,  4.4560e-04,  ...,  2.2888e-04,
+          2.6369e-04,  8.2135e-05],
+        [ 3.6368e-07, -1.3638e-04,  2.6077e-05,  ..., -8.9121e-04,
+          4.8876e-05,  2.8923e-05],
+        [ 2.0707e-04,  6.7329e-04, -4.1771e-04,  ...,  2.9278e-04,
+         -3.5882e-04,  1.9550e-04]], device='cuda:0')
+Epoch 328, bias, value: tensor([ 0.0148, -0.0064, -0.0136,  0.0093, -0.0166, -0.0221,  0.0140, -0.0003,
+         0.0162, -0.0131], device='cuda:0'), grad: tensor([-0.0153,  0.0077, -0.0198,  0.0128, -0.0276,  0.0174,  0.0089, -0.0151,
+         0.0122,  0.0187], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 327, time 217.13, cls_loss 0.5025 cls_loss_mapping 0.0036 cls_loss_causal 0.4769 re_mapping 0.0062 re_causal 0.0169 /// teacc 98.71 lr 0.00010000
+Epoch 329, weight, value: tensor([[-0.0699, -0.0983, -0.1460,  ...,  0.1196, -0.0562,  0.0317],
+        [-0.0799,  0.1094, -0.0650,  ...,  0.0518, -0.0601, -0.1064],
+        [-0.0374,  0.0836, -0.1157,  ..., -0.0126,  0.0395,  0.1272],
+        ...,
+        [-0.0039,  0.0656, -0.0042,  ..., -0.0206,  0.0279, -0.0644],
+        [ 0.0960, -0.1086,  0.0429,  ...,  0.0104,  0.0118, -0.0398],
+        [-0.0165, -0.0743,  0.0747,  ..., -0.0843,  0.0278, -0.0288]],
+       device='cuda:0'), grad: tensor([[ 2.6155e-04,  3.9101e-04,  8.2076e-05,  ...,  4.9171e-03,
+          8.1491e-04,  1.7071e-03],
+        [-1.5392e-03, -5.2834e-03, -6.3248e-03,  ..., -7.5817e-05,
+         -4.4899e-03,  6.8617e-04],
+        [-9.4271e-04, -8.7738e-04, -9.6485e-06,  ...,  8.7070e-04,
+         -2.3222e-04, -4.4966e-04],
+        ...,
+        [ 8.8024e-04,  1.7567e-03,  1.1463e-03,  ...,  1.2941e-03,
+          1.3628e-03,  7.1049e-04],
+        [ 1.0681e-03,  8.8072e-04,  6.9916e-05,  ...,  1.5430e-03,
+          3.6693e-04,  8.9598e-04],
+        [ 5.1880e-04,  2.3422e-03,  3.2768e-03,  ...,  8.8787e-04,
+          2.9392e-03,  5.4741e-04]], device='cuda:0')
+Epoch 329, bias, value: tensor([ 0.0157, -0.0062, -0.0134,  0.0095, -0.0158, -0.0223,  0.0129, -0.0008,
+         0.0154, -0.0127], device='cuda:0'), grad: tensor([ 0.0407, -0.0280, -0.0440,  0.0257,  0.0389, -0.0558, -0.0221,  0.0357,
+         0.0273, -0.0185], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 328, time 217.03, cls_loss 0.4776 cls_loss_mapping 0.0031 cls_loss_causal 0.4526 re_mapping 0.0065 re_causal 0.0171 /// teacc 98.75 lr 0.00010000
+Epoch 330, weight, value: tensor([[-0.0700, -0.1004, -0.1454,  ...,  0.1191, -0.0562,  0.0316],
+        [-0.0803,  0.1093, -0.0653,  ...,  0.0534, -0.0601, -0.1044],
+        [-0.0381,  0.0841, -0.1154,  ..., -0.0125,  0.0397,  0.1270],
+        ...,
+        [-0.0043,  0.0661, -0.0046,  ..., -0.0208,  0.0276, -0.0661],
+        [ 0.0953, -0.1090,  0.0432,  ...,  0.0099,  0.0123, -0.0409],
+        [-0.0154, -0.0754,  0.0732,  ..., -0.0843,  0.0267, -0.0264]],
+       device='cuda:0'), grad: tensor([[-4.2343e-03, -1.2144e-05,  8.6576e-06,  ...,  2.0561e-03,
+          1.0910e-03,  1.0004e-03],
+        [ 1.1489e-05,  7.0520e-06,  3.6024e-06,  ...,  4.8399e-04,
+          3.7074e-04,  2.0087e-05],
+        [-2.1839e-04, -2.1458e-03,  1.7500e-04,  ...,  8.5735e-04,
+         -1.2369e-03, -1.1406e-03],
+        ...,
+        [ 4.6134e-04,  2.0847e-03,  1.8254e-05,  ..., -5.0278e-03,
+         -1.7452e-03,  1.2407e-03],
+        [ 5.4359e-04,  6.3293e-06,  3.9488e-05,  ...,  2.5215e-03,
+          1.2684e-03,  1.2290e-04],
+        [-2.6181e-05,  1.8626e-05, -3.3398e-03,  ...,  9.2745e-04,
+         -8.2922e-04,  1.6224e-04]], device='cuda:0')
+Epoch 330, bias, value: tensor([ 0.0163, -0.0057, -0.0133,  0.0100, -0.0160, -0.0224,  0.0134, -0.0012,
+         0.0148, -0.0135], device='cuda:0'), grad: tensor([-0.0074, -0.0406,  0.0176,  0.0363,  0.0183, -0.0782,  0.0377, -0.0341,
+         0.0292,  0.0212], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 329, time 216.86, cls_loss 0.4952 cls_loss_mapping 0.0022 cls_loss_causal 0.4682 re_mapping 0.0066 re_causal 0.0186 /// teacc 98.70 lr 0.00010000
+Epoch 331, weight, value: tensor([[-0.0719, -0.1007, -0.1467,  ...,  0.1187, -0.0570,  0.0313],
+        [-0.0796,  0.1099, -0.0661,  ...,  0.0534, -0.0608, -0.1045],
+        [-0.0390,  0.0846, -0.1156,  ..., -0.0125,  0.0396,  0.1266],
+        ...,
+        [-0.0044,  0.0656, -0.0033,  ..., -0.0206,  0.0290, -0.0656],
+        [ 0.0965, -0.1084,  0.0422,  ...,  0.0099,  0.0111, -0.0412],
+        [-0.0154, -0.0755,  0.0739,  ..., -0.0828,  0.0274, -0.0259]],
+       device='cuda:0'), grad: tensor([[-4.7350e-04,  4.3571e-05,  2.6393e-04,  ...,  6.8367e-05,
+          2.6131e-04,  2.7623e-06],
+        [ 1.7548e-04,  9.2030e-05,  4.5562e-04,  ...,  3.1501e-05,
+          3.6836e-04,  3.1367e-06],
+        [-6.0320e-04, -1.6832e-03,  3.2783e-04,  ..., -5.0724e-05,
+          3.5024e-04, -1.2040e-04],
+        ...,
+        [ 5.2834e-04,  1.7920e-03,  3.4485e-03,  ...,  2.0294e-03,
+          7.9498e-03,  8.5592e-05],
+        [ 4.2129e-04,  6.1214e-05,  1.1787e-03,  ...,  6.5947e-04,
+          2.7046e-03,  8.1863e-07],
+        [ 2.6894e-04, -6.1750e-05, -4.9438e-03,  ..., -3.2692e-03,
+         -1.3329e-02,  5.8627e-07]], device='cuda:0')
+Epoch 331, bias, value: tensor([ 0.0169, -0.0053, -0.0138,  0.0091, -0.0155, -0.0222,  0.0136, -0.0024,
+         0.0148, -0.0128], device='cuda:0'), grad: tensor([ 0.0048, -0.0293,  0.0033,  0.0051, -0.0045,  0.0030,  0.0087,  0.0206,
+         0.0087, -0.0204], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 330, time 216.80, cls_loss 0.4442 cls_loss_mapping 0.0035 cls_loss_causal 0.4215 re_mapping 0.0062 re_causal 0.0145 /// teacc 98.91 lr 0.00010000
+Epoch 332, weight, value: tensor([[-0.0721, -0.0999, -0.1450,  ...,  0.1193, -0.0567,  0.0313],
+        [-0.0795,  0.1091, -0.0665,  ...,  0.0527, -0.0594, -0.1047],
+        [-0.0378,  0.0847, -0.1165,  ..., -0.0118,  0.0403,  0.1270],
+        ...,
+        [-0.0044,  0.0662, -0.0036,  ..., -0.0212,  0.0284, -0.0655],
+        [ 0.0962, -0.1091,  0.0433,  ...,  0.0095,  0.0108, -0.0425],
+        [-0.0153, -0.0767,  0.0736,  ..., -0.0837,  0.0272, -0.0258]],
+       device='cuda:0'), grad: tensor([[-8.8336e-07,  7.6368e-08,  6.6698e-05,  ...,  8.7309e-04,
+         -1.1339e-03, -3.6049e-03],
+        [ 1.3495e-06,  3.1162e-06,  6.2287e-05,  ...,  1.1110e-03,
+          1.3673e-04,  3.8338e-04],
+        [ 4.1462e-06,  9.3505e-06,  5.0217e-05,  ..., -4.8981e-03,
+          2.3210e-04,  5.6696e-04],
+        ...,
+        [-7.6517e-06, -1.7524e-05,  4.9400e-04,  ...,  2.4915e-04,
+          5.1212e-04,  3.2544e-04],
+        [ 1.2945e-07,  7.9162e-08, -7.8201e-05,  ...,  3.3879e-04,
+         -2.5392e-04, -1.1802e-04],
+        [ 2.2296e-06,  4.2841e-06, -2.4509e-04,  ...,  3.4833e-04,
+         -6.1655e-04,  4.9114e-04]], device='cuda:0')
+Epoch 332, bias, value: tensor([ 0.0180, -0.0064, -0.0134,  0.0094, -0.0153, -0.0210,  0.0121, -0.0024,
+         0.0150, -0.0135], device='cuda:0'), grad: tensor([-0.0141, -0.0154, -0.0181,  0.0133,  0.0115, -0.0025,  0.0140,  0.0119,
+         0.0098, -0.0105], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 331, time 216.58, cls_loss 0.4881 cls_loss_mapping 0.0035 cls_loss_causal 0.4660 re_mapping 0.0058 re_causal 0.0156 /// teacc 98.84 lr 0.00010000
+Epoch 333, weight, value: tensor([[-0.0724, -0.1009, -0.1449,  ...,  0.1188, -0.0569,  0.0304],
+        [-0.0802,  0.1086, -0.0670,  ...,  0.0524, -0.0597, -0.1041],
+        [-0.0375,  0.0846, -0.1163,  ..., -0.0111,  0.0409,  0.1269],
+        ...,
+        [-0.0063,  0.0671, -0.0027,  ..., -0.0209,  0.0290, -0.0648],
+        [ 0.0955, -0.1086,  0.0422,  ...,  0.0086,  0.0095, -0.0420],
+        [-0.0144, -0.0786,  0.0731,  ..., -0.0849,  0.0268, -0.0259]],
+       device='cuda:0'), grad: tensor([[-7.1973e-06,  8.2731e-05,  4.1910e-08,  ...,  1.4343e-02,
+          2.2163e-03,  5.9128e-04],
+        [-1.8144e-04, -2.4242e-03,  2.2165e-07,  ..., -2.1423e-02,
+         -3.0727e-03,  5.2229e-06],
+        [ 1.5691e-05,  6.5327e-04,  1.3784e-07,  ...,  7.2908e-04,
+          1.2941e-03,  1.2994e-04],
+        ...,
+        [ 2.5496e-05,  3.9029e-04,  1.8179e-05,  ...,  8.5068e-03,
+         -1.1808e-04,  4.4405e-06],
+        [-5.1155e-03,  2.8825e-04,  1.4435e-06,  ...,  1.7996e-03,
+          3.2634e-05, -1.3673e-04],
+        [ 1.3165e-05,  2.9063e-04, -3.2306e-05,  ..., -2.8992e-03,
+          2.6536e-04,  8.5831e-06]], device='cuda:0')
+Epoch 333, bias, value: tensor([ 0.0176, -0.0065, -0.0131,  0.0095, -0.0142, -0.0222,  0.0114, -0.0019,
+         0.0161, -0.0143], device='cuda:0'), grad: tensor([ 0.0352, -0.0468,  0.0164, -0.0201,  0.0169,  0.0427, -0.0428,  0.0202,
+        -0.0047, -0.0171], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 332, time 216.90, cls_loss 0.4991 cls_loss_mapping 0.0036 cls_loss_causal 0.4692 re_mapping 0.0062 re_causal 0.0160 /// teacc 98.89 lr 0.00010000
+Epoch 334, weight, value: tensor([[-0.0729, -0.0999, -0.1457,  ...,  0.1204, -0.0564,  0.0291],
+        [-0.0791,  0.1084, -0.0673,  ...,  0.0514, -0.0602, -0.1041],
+        [-0.0364,  0.0848, -0.1159,  ..., -0.0097,  0.0415,  0.1277],
+        ...,
+        [-0.0052,  0.0677, -0.0036,  ..., -0.0213,  0.0293, -0.0635],
+        [ 0.0948, -0.1083,  0.0428,  ...,  0.0074,  0.0092, -0.0430],
+        [-0.0141, -0.0780,  0.0736,  ..., -0.0854,  0.0270, -0.0258]],
+       device='cuda:0'), grad: tensor([[ 3.4925e-08,  5.9128e-04,  1.8549e-04,  ...,  5.9986e-04,
+          7.3528e-04,  7.4625e-04],
+        [ 4.1910e-09,  3.2592e-04,  3.4779e-05,  ...,  3.4189e-04,
+          1.2994e-04,  5.5885e-04],
+        [ 6.9849e-09,  9.6226e-04,  2.5535e-04,  ...,  1.0929e-03,
+          1.1234e-03,  1.2474e-03],
+        ...,
+        [ 6.2864e-08,  8.7440e-05,  8.1444e-04,  ..., -4.8012e-05,
+          1.5602e-03,  1.2627e-03],
+        [ 1.1437e-06,  4.7398e-04,  2.6679e-04,  ...,  3.2926e-04,
+          2.1136e-04,  5.3024e-04],
+        [ 1.3504e-08, -3.0537e-03, -8.2550e-03,  ..., -3.6812e-03,
+         -7.1259e-03, -4.6654e-03]], device='cuda:0')
+Epoch 334, bias, value: tensor([ 0.0171, -0.0054, -0.0116,  0.0086, -0.0155, -0.0214,  0.0102, -0.0016,
+         0.0158, -0.0139], device='cuda:0'), grad: tensor([ 0.0147,  0.0131,  0.0212,  0.0098,  0.0253, -0.0105, -0.0030, -0.0354,
+         0.0122, -0.0473], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 333, time 216.73, cls_loss 0.4613 cls_loss_mapping 0.0046 cls_loss_causal 0.4367 re_mapping 0.0061 re_causal 0.0165 /// teacc 98.84 lr 0.00010000
+Epoch 335, weight, value: tensor([[-0.0740, -0.1008, -0.1457,  ...,  0.1211, -0.0572,  0.0284],
+        [-0.0794,  0.1095, -0.0670,  ...,  0.0509, -0.0603, -0.1035],
+        [-0.0372,  0.0832, -0.1149,  ..., -0.0109,  0.0409,  0.1277],
+        ...,
+        [-0.0038,  0.0683, -0.0036,  ..., -0.0201,  0.0297, -0.0629],
+        [ 0.0950, -0.1071,  0.0436,  ...,  0.0075,  0.0095, -0.0418],
+        [-0.0146, -0.0803,  0.0741,  ..., -0.0864,  0.0279, -0.0246]],
+       device='cuda:0'), grad: tensor([[ 2.5725e-04,  2.6226e-04,  2.1231e-04,  ...,  5.1641e-04,
+          2.4509e-04,  3.0175e-05],
+        [ 3.7694e-04,  5.3167e-04,  6.6423e-04,  ...,  6.4039e-04,
+          3.7169e-04,  1.9282e-05],
+        [-4.0054e-03, -1.3031e-02,  4.0460e-04,  ...,  5.5695e-04,
+          3.7599e-04,  1.5780e-05],
+        ...,
+        [ 5.7526e-03,  1.2550e-02, -1.6868e-04,  ..., -1.6832e-04,
+         -1.7338e-03,  2.6256e-05],
+        [ 2.0206e-04,  1.4901e-04,  1.1909e-04,  ...,  1.6189e-04,
+          6.0034e-04, -7.9393e-05],
+        [ 7.9632e-04,  6.3944e-04,  1.3494e-03,  ...,  1.3952e-03,
+          7.9727e-04,  4.0650e-05]], device='cuda:0')
+Epoch 335, bias, value: tensor([ 0.0164, -0.0056, -0.0126,  0.0084, -0.0154, -0.0219,  0.0114, -0.0009,
+         0.0157, -0.0132], device='cuda:0'), grad: tensor([ 0.0164,  0.0258, -0.0021, -0.0105, -0.0962, -0.0038, -0.0169,  0.0345,
+         0.0238,  0.0290], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 334, time 216.91, cls_loss 0.4702 cls_loss_mapping 0.0047 cls_loss_causal 0.4417 re_mapping 0.0057 re_causal 0.0152 /// teacc 98.76 lr 0.00010000
+Epoch 336, weight, value: tensor([[-0.0721, -0.1009, -0.1444,  ...,  0.1206, -0.0578,  0.0282],
+        [-0.0799,  0.1091, -0.0671,  ...,  0.0524, -0.0590, -0.1043],
+        [-0.0359,  0.0835, -0.1159,  ..., -0.0118,  0.0405,  0.1279],
+        ...,
+        [-0.0059,  0.0686, -0.0041,  ..., -0.0203,  0.0292, -0.0630],
+        [ 0.0957, -0.1076,  0.0465,  ...,  0.0077,  0.0109, -0.0409],
+        [-0.0150, -0.0810,  0.0739,  ..., -0.0870,  0.0277, -0.0247]],
+       device='cuda:0'), grad: tensor([[ 0.0002,  0.0002,  0.0015,  ...,  0.0004,  0.0023,  0.0006],
+        [-0.0008, -0.0007,  0.0002,  ..., -0.0013,  0.0003, -0.0002],
+        [ 0.0003,  0.0006, -0.0097,  ...,  0.0006, -0.0059, -0.0048],
+        ...,
+        [ 0.0006,  0.0019,  0.0025,  ...,  0.0020,  0.0053,  0.0009],
+        [ 0.0006,  0.0003,  0.0034,  ...,  0.0011,  0.0056,  0.0003],
+        [-0.0007, -0.0002, -0.0194,  ..., -0.0008, -0.0144,  0.0009]],
+       device='cuda:0')
+Epoch 336, bias, value: tensor([ 0.0163, -0.0055, -0.0129,  0.0090, -0.0146, -0.0210,  0.0116, -0.0009,
+         0.0145, -0.0142], device='cuda:0'), grad: tensor([ 0.0126,  0.0020, -0.0492,  0.0085,  0.0056,  0.0076,  0.0048,  0.0347,
+         0.0142, -0.0408], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 335, time 216.85, cls_loss 0.4918 cls_loss_mapping 0.0038 cls_loss_causal 0.4686 re_mapping 0.0063 re_causal 0.0171 /// teacc 98.73 lr 0.00010000
+Epoch 337, weight, value: tensor([[-0.0701, -0.0998, -0.1434,  ...,  0.1202, -0.0596,  0.0296],
+        [-0.0797,  0.1093, -0.0675,  ...,  0.0522, -0.0589, -0.1030],
+        [-0.0366,  0.0831, -0.1158,  ..., -0.0122,  0.0413,  0.1283],
+        ...,
+        [-0.0058,  0.0681, -0.0051,  ..., -0.0206,  0.0288, -0.0638],
+        [ 0.0957, -0.1075,  0.0453,  ...,  0.0080,  0.0098, -0.0414],
+        [-0.0161, -0.0805,  0.0742,  ..., -0.0871,  0.0291, -0.0245]],
+       device='cuda:0'), grad: tensor([[ 3.3641e-04,  2.8104e-05,  3.0060e-03,  ...,  3.1042e-04,
+         -5.0735e-04,  2.3925e-04],
+        [ 1.3363e-04,  1.3001e-05,  4.1485e-04,  ...,  5.5695e-04,
+          2.5916e-04,  9.5487e-05],
+        [-2.9392e-03, -3.4833e-04, -9.4032e-04,  ...,  7.8201e-04,
+         -2.0847e-03, -2.3041e-03],
+        ...,
+        [ 9.2804e-05,  1.0476e-05,  2.7370e-04,  ...,  5.7268e-04,
+          1.6034e-04,  7.0512e-05],
+        [ 1.3189e-03,  1.5044e-04,  8.8978e-04,  ...,  2.8396e-04,
+          1.5364e-03,  1.0138e-03],
+        [ 1.6546e-04,  1.6987e-05,  3.2692e-03,  ..., -2.5719e-05,
+          9.8610e-04,  1.2255e-04]], device='cuda:0')
+Epoch 337, bias, value: tensor([ 1.6065e-02, -6.0051e-03, -1.1745e-02,  8.0642e-03, -1.4190e-02,
+        -2.1090e-02,  1.1452e-02, -7.0563e-05,  1.3367e-02, -1.3616e-02],
+       device='cuda:0'), grad: tensor([ 0.0294, -0.0300,  0.0070,  0.0259, -0.0274, -0.0166,  0.0015, -0.0307,
+         0.0330,  0.0080], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 336, time 216.85, cls_loss 0.4838 cls_loss_mapping 0.0032 cls_loss_causal 0.4605 re_mapping 0.0060 re_causal 0.0154 /// teacc 98.84 lr 0.00010000
+Epoch 338, weight, value: tensor([[-0.0707, -0.0991, -0.1435,  ...,  0.1212, -0.0592,  0.0301],
+        [-0.0799,  0.1080, -0.0655,  ...,  0.0499, -0.0584, -0.1036],
+        [-0.0366,  0.0836, -0.1162,  ..., -0.0127,  0.0419,  0.1282],
+        ...,
+        [-0.0064,  0.0687, -0.0038,  ..., -0.0203,  0.0294, -0.0641],
+        [ 0.0958, -0.1081,  0.0453,  ...,  0.0091,  0.0099, -0.0410],
+        [-0.0152, -0.0814,  0.0740,  ..., -0.0880,  0.0289, -0.0244]],
+       device='cuda:0'), grad: tensor([[-5.1688e-08,  9.9372e-07, -2.1001e-07,  ...,  7.2736e-07,
+          2.5645e-05,  1.1632e-06],
+        [ 3.8475e-05, -1.9357e-05,  8.8383e-07,  ..., -4.6611e-05,
+          4.4703e-05,  5.9139e-08],
+        [ 5.9698e-07,  2.0176e-05,  6.0024e-07,  ...,  3.2857e-06,
+          4.9095e-03, -1.3504e-07],
+        ...,
+        [ 5.1335e-06, -6.6698e-05, -4.3632e-07,  ...,  1.8865e-05,
+         -9.2697e-03,  9.4064e-08],
+        [-6.7651e-05,  3.8967e-06,  1.7518e-06,  ...,  1.0379e-05,
+          2.0561e-03,  3.3807e-07],
+        [ 1.2822e-05,  3.9130e-05,  3.1710e-04,  ...,  7.0333e-06,
+          1.2505e-04,  3.4459e-07]], device='cuda:0')
+Epoch 338, bias, value: tensor([ 0.0153, -0.0061, -0.0126,  0.0077, -0.0146, -0.0215,  0.0123,  0.0001,
+         0.0139, -0.0124], device='cuda:0'), grad: tensor([ 0.0110,  0.0313,  0.0230, -0.0134, -0.0154,  0.0122,  0.0143, -0.0338,
+        -0.0144, -0.0149], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 337, time 216.77, cls_loss 0.4675 cls_loss_mapping 0.0038 cls_loss_causal 0.4430 re_mapping 0.0061 re_causal 0.0157 /// teacc 98.94 lr 0.00010000
+Epoch 339, weight, value: tensor([[-0.0708, -0.0994, -0.1442,  ...,  0.1214, -0.0603,  0.0311],
+        [-0.0798,  0.1081, -0.0658,  ...,  0.0494, -0.0586, -0.1048],
+        [-0.0356,  0.0834, -0.1162,  ..., -0.0137,  0.0420,  0.1272],
+        ...,
+        [-0.0075,  0.0694, -0.0037,  ..., -0.0198,  0.0294, -0.0630],
+        [ 0.0960, -0.1083,  0.0462,  ...,  0.0099,  0.0096, -0.0396],
+        [-0.0156, -0.0815,  0.0741,  ..., -0.0873,  0.0295, -0.0233]],
+       device='cuda:0'), grad: tensor([[ 1.7583e-05,  3.4988e-05,  1.1034e-05,  ...,  6.1846e-04,
+          1.1669e-06,  1.6820e-04],
+        [ 4.2409e-05, -3.8195e-04,  5.1558e-05,  ..., -4.4346e-05,
+          4.3660e-06,  8.5652e-05],
+        [ 3.1143e-05,  3.8147e-05,  3.7611e-05,  ...,  2.6131e-04,
+          2.2694e-05,  5.7876e-05],
+        ...,
+        [ 7.9727e-04,  3.5793e-05,  2.3384e-03,  ...,  1.8911e-03,
+         -1.5751e-05,  8.8736e-06],
+        [ 8.9228e-05,  3.4481e-05,  9.2983e-05,  ...,  3.4714e-04,
+          4.4060e-04,  8.9705e-05],
+        [ 3.9711e-03,  5.6982e-05,  2.2087e-03,  ..., -1.8196e-03,
+          5.1141e-05,  2.0131e-05]], device='cuda:0')
+Epoch 339, bias, value: tensor([ 0.0151, -0.0051, -0.0125,  0.0072, -0.0159, -0.0207,  0.0127, -0.0003,
+         0.0134, -0.0118], device='cuda:0'), grad: tensor([ 0.0092, -0.0207,  0.0069, -0.0232, -0.0058,  0.0081,  0.0241,  0.0140,
+        -0.0238,  0.0112], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 338, time 216.50, cls_loss 0.4845 cls_loss_mapping 0.0039 cls_loss_causal 0.4583 re_mapping 0.0060 re_causal 0.0156 /// teacc 98.97 lr 0.00010000
+Epoch 340, weight, value: tensor([[-0.0713, -0.1006, -0.1451,  ...,  0.1205, -0.0602,  0.0309],
+        [-0.0790,  0.1074, -0.0655,  ...,  0.0496, -0.0570, -0.1051],
+        [-0.0358,  0.0825, -0.1180,  ..., -0.0134,  0.0417,  0.1271],
+        ...,
+        [-0.0086,  0.0717, -0.0030,  ..., -0.0201,  0.0300, -0.0634],
+        [ 0.0946, -0.1085,  0.0459,  ...,  0.0092,  0.0088, -0.0396],
+        [-0.0148, -0.0821,  0.0742,  ..., -0.0866,  0.0297, -0.0239]],
+       device='cuda:0'), grad: tensor([[ 4.2230e-05,  2.2456e-05, -2.2635e-05,  ...,  3.8123e-04,
+         -1.3852e-04, -3.4046e-04],
+        [-3.6168e-04, -2.2840e-04,  1.4007e-04,  ...,  3.9577e-04,
+          6.0606e-04,  2.8443e-04],
+        [ 3.6316e-03,  1.1377e-03,  1.7262e-04,  ...,  5.3644e-04,
+          2.6588e-03,  2.6379e-03],
+        ...,
+        [ 4.1924e-03,  4.6879e-05,  2.4223e-03,  ...,  4.0364e-04,
+          2.5387e-03,  2.3448e-04],
+        [ 3.1872e-03,  9.3317e-04,  3.2353e-04,  ...,  6.3038e-04,
+          3.3379e-03,  1.0490e-03],
+        [-3.5187e-02,  1.1432e-04, -6.3095e-03,  ...,  3.6716e-04,
+         -1.1192e-02,  1.9467e-04]], device='cuda:0')
+Epoch 340, bias, value: tensor([ 1.4479e-02, -5.3744e-03, -1.2296e-02,  7.1329e-03, -1.4824e-02,
+        -2.1448e-02,  1.2626e-02,  5.5390e-05,  1.4164e-02, -1.2481e-02],
+       device='cuda:0'), grad: tensor([ 0.0060,  0.0111,  0.0292, -0.0084,  0.0370, -0.0159, -0.0361,  0.0057,
+        -0.0124, -0.0163], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 339, time 216.65, cls_loss 0.4706 cls_loss_mapping 0.0026 cls_loss_causal 0.4552 re_mapping 0.0065 re_causal 0.0174 /// teacc 98.90 lr 0.00010000
+Epoch 341, weight, value: tensor([[-0.0710, -0.1013, -0.1451,  ...,  0.1203, -0.0611,  0.0304],
+        [-0.0794,  0.1074, -0.0659,  ...,  0.0500, -0.0578, -0.1048],
+        [-0.0349,  0.0830, -0.1191,  ..., -0.0136,  0.0396,  0.1268],
+        ...,
+        [-0.0085,  0.0709, -0.0008,  ..., -0.0207,  0.0314, -0.0635],
+        [ 0.0944, -0.1075,  0.0456,  ...,  0.0100,  0.0102, -0.0391],
+        [-0.0151, -0.0811,  0.0731,  ..., -0.0862,  0.0295, -0.0235]],
+       device='cuda:0'), grad: tensor([[ 1.3553e-05,  8.6799e-06,  1.7571e-04,  ...,  6.0606e-04,
+          2.7323e-04,  3.8356e-05],
+        [ 5.2601e-05,  1.2815e-04,  2.1000e-03,  ...,  7.7133e-03,
+          1.5945e-03,  5.5552e-05],
+        [-4.9400e-03, -2.9874e-04,  7.7367e-05,  ...,  3.1686e-04,
+          3.2787e-03, -1.1339e-03],
+        ...,
+        [ 1.6665e-04, -1.4603e-05,  1.2016e-03,  ...,  1.0815e-03,
+          8.9836e-04,  3.9876e-05],
+        [ 1.7271e-03,  2.3139e-04, -8.5754e-03,  ..., -3.8223e-03,
+         -1.6571e-02, -1.9073e-04],
+        [ 1.8239e-05,  8.6844e-05, -3.4637e-03,  ...,  2.7084e-03,
+          1.2236e-03,  1.4983e-05]], device='cuda:0')
+Epoch 341, bias, value: tensor([ 0.0140, -0.0054, -0.0129,  0.0073, -0.0140, -0.0217,  0.0132, -0.0004,
+         0.0145, -0.0126], device='cuda:0'), grad: tensor([-0.0202,  0.0360, -0.0216,  0.0525,  0.0398, -0.0358, -0.0106,  0.0178,
+        -0.0315, -0.0264], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 340, time 216.64, cls_loss 0.4685 cls_loss_mapping 0.0043 cls_loss_causal 0.4412 re_mapping 0.0064 re_causal 0.0167 /// teacc 98.72 lr 0.00010000
+Epoch 342, weight, value: tensor([[-0.0697, -0.1015, -0.1451,  ...,  0.1202, -0.0614,  0.0302],
+        [-0.0803,  0.1078, -0.0640,  ...,  0.0488, -0.0580, -0.1057],
+        [-0.0341,  0.0838, -0.1217,  ..., -0.0134,  0.0395,  0.1279],
+        ...,
+        [-0.0096,  0.0703, -0.0007,  ..., -0.0213,  0.0322, -0.0632],
+        [ 0.0944, -0.1071,  0.0455,  ...,  0.0106,  0.0101, -0.0395],
+        [-0.0145, -0.0818,  0.0734,  ..., -0.0863,  0.0292, -0.0238]],
+       device='cuda:0'), grad: tensor([[ 3.7789e-05,  3.2711e-04,  7.5960e-04,  ...,  2.1243e-04,
+          4.5013e-04,  7.1001e-04],
+        [ 2.4261e-03,  8.6188e-05,  9.5010e-05,  ...,  4.1425e-05,
+          2.5660e-05,  8.7738e-04],
+        [-8.4686e-03,  3.9339e-04,  3.9577e-04,  ...,  2.1434e-04,
+          8.9705e-05, -1.6832e-03],
+        ...,
+        [ 3.5839e-03,  1.9109e-04,  3.2020e-04,  ...,  6.5029e-05,
+          2.2292e-04,  1.2350e-03],
+        [ 5.8699e-04,  1.4031e-04,  5.0163e-04,  ...,  2.0802e-04,
+          2.0635e-04,  6.8951e-04],
+        [ 3.7217e-04,  1.0014e-04, -1.1158e-03,  ...,  6.4611e-05,
+         -1.1683e-03,  3.2640e-04]], device='cuda:0')
+Epoch 342, bias, value: tensor([ 0.0135, -0.0053, -0.0114,  0.0063, -0.0134, -0.0216,  0.0133, -0.0010,
+         0.0145, -0.0131], device='cuda:0'), grad: tensor([ 0.0088,  0.0103, -0.0089,  0.0052, -0.0193,  0.0048, -0.0248,  0.0129,
+         0.0093,  0.0017], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 341, time 216.79, cls_loss 0.4663 cls_loss_mapping 0.0034 cls_loss_causal 0.4352 re_mapping 0.0063 re_causal 0.0155 /// teacc 98.85 lr 0.00010000
+Epoch 343, weight, value: tensor([[-0.0691, -0.1020, -0.1462,  ...,  0.1213, -0.0618,  0.0302],
+        [-0.0814,  0.1074, -0.0639,  ...,  0.0483, -0.0589, -0.1043],
+        [-0.0347,  0.0837, -0.1203,  ..., -0.0129,  0.0403,  0.1276],
+        ...,
+        [-0.0093,  0.0710, -0.0008,  ..., -0.0203,  0.0309, -0.0654],
+        [ 0.0955, -0.1082,  0.0455,  ...,  0.0101,  0.0095, -0.0384],
+        [-0.0160, -0.0822,  0.0730,  ..., -0.0864,  0.0310, -0.0248]],
+       device='cuda:0'), grad: tensor([[ 7.0572e-04,  2.3693e-06,  1.4675e-04,  ...,  4.7541e-04,
+         -2.0771e-03,  4.8608e-05],
+        [ 3.9697e-04, -1.5162e-05,  3.9983e-04,  ...,  9.9087e-04,
+          6.0558e-04,  2.8372e-05],
+        [-1.1759e-03,  8.7395e-06,  3.4237e-04,  ..., -2.0599e-03,
+         -1.3566e-04, -1.8865e-05],
+        ...,
+        [ 3.1710e-04, -5.4628e-05,  1.0481e-03,  ...,  1.7452e-03,
+          8.3494e-04,  2.4259e-05],
+        [ 3.4308e-04,  3.9022e-07, -2.4235e-04,  ..., -1.6165e-03,
+          1.2732e-03,  2.6241e-05],
+        [ 4.1652e-04,  5.3763e-05, -4.4346e-05,  ...,  1.6785e-03,
+          4.9829e-04,  9.2760e-06]], device='cuda:0')
+Epoch 343, bias, value: tensor([ 0.0123, -0.0045, -0.0101,  0.0073, -0.0136, -0.0221,  0.0132, -0.0020,
+         0.0135, -0.0122], device='cuda:0'), grad: tensor([ 0.0015,  0.0212, -0.0165, -0.0117, -0.0134,  0.0239, -0.0024, -0.0025,
+        -0.0317,  0.0315], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 342, time 217.05, cls_loss 0.4761 cls_loss_mapping 0.0034 cls_loss_causal 0.4423 re_mapping 0.0059 re_causal 0.0144 /// teacc 98.83 lr 0.00010000
+Epoch 344, weight, value: tensor([[-0.0700, -0.1022, -0.1472,  ...,  0.1208, -0.0630,  0.0310],
+        [-0.0817,  0.1081, -0.0637,  ...,  0.0490, -0.0597, -0.1027],
+        [-0.0352,  0.0827, -0.1208,  ..., -0.0131,  0.0401,  0.1279],
+        ...,
+        [-0.0076,  0.0714, -0.0015,  ..., -0.0197,  0.0304, -0.0642],
+        [ 0.0975, -0.1094,  0.0463,  ...,  0.0098,  0.0105, -0.0389],
+        [-0.0171, -0.0808,  0.0723,  ..., -0.0874,  0.0306, -0.0259]],
+       device='cuda:0'), grad: tensor([[ 1.1864e-03,  3.9972e-06,  4.5800e-04,  ..., -2.1381e-03,
+         -2.3186e-04, -4.7833e-06],
+        [ 2.1915e-03, -6.9499e-05,  2.1839e-04,  ...,  1.2255e-04,
+          2.3746e-04,  1.5581e-06],
+        [ 6.1083e-04, -1.7866e-05,  4.3488e-04,  ...,  1.1212e-04,
+          2.3949e-04, -2.1309e-05],
+        ...,
+        [ 5.2595e-04,  8.5607e-06,  1.9684e-03,  ...,  2.1708e-04,
+          1.8940e-03,  5.2415e-06],
+        [ 3.6926e-03,  1.0341e-05, -7.0686e-03,  ...,  2.6393e-04,
+         -5.9052e-03, -9.0450e-06],
+        [ 5.2071e-04,  3.8743e-06,  3.0637e-04,  ...,  1.7416e-04,
+          3.1924e-04,  4.1611e-06]], device='cuda:0')
+Epoch 344, bias, value: tensor([ 0.0132, -0.0042, -0.0104,  0.0064, -0.0134, -0.0232,  0.0142, -0.0008,
+         0.0132, -0.0132], device='cuda:0'), grad: tensor([-0.0155, -0.0103, -0.0176, -0.0118,  0.0191, -0.0103,  0.0172,  0.0231,
+        -0.0078,  0.0139], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 343, time 216.97, cls_loss 0.5007 cls_loss_mapping 0.0023 cls_loss_causal 0.4825 re_mapping 0.0056 re_causal 0.0151 /// teacc 98.75 lr 0.00010000
+Epoch 345, weight, value: tensor([[-0.0695, -0.1045, -0.1483,  ...,  0.1200, -0.0633,  0.0321],
+        [-0.0824,  0.1096, -0.0639,  ...,  0.0499, -0.0595, -0.1031],
+        [-0.0342,  0.0826, -0.1220,  ..., -0.0132,  0.0397,  0.1281],
+        ...,
+        [-0.0077,  0.0717, -0.0024,  ..., -0.0204,  0.0295, -0.0661],
+        [ 0.0990, -0.1101,  0.0472,  ...,  0.0105,  0.0107, -0.0394],
+        [-0.0164, -0.0818,  0.0732,  ..., -0.0877,  0.0310, -0.0255]],
+       device='cuda:0'), grad: tensor([[ 2.0005e-06,  1.6654e-04,  5.5504e-04,  ...,  4.3064e-05,
+          1.2178e-03,  4.4084e-04],
+        [ 6.8732e-06,  4.8923e-04,  1.8704e-04,  ...,  3.0565e-04,
+          3.3998e-04,  1.3232e-04],
+        [ 3.6545e-06,  2.2620e-05,  1.5965e-03,  ...,  6.3002e-05,
+          3.3417e-03,  4.5967e-03],
+        ...,
+        [ 1.0710e-03, -4.9591e-04, -1.1539e-03,  ..., -6.7949e-04,
+         -6.9141e-04,  5.8460e-04],
+        [ 5.8003e-06, -8.4352e-04,  1.1969e-03,  ...,  1.3971e-04,
+          2.3918e-03, -4.4937e-03],
+        [-1.3838e-03, -7.1287e-04, -7.2594e-03,  ..., -1.0020e-04,
+         -1.3130e-02, -1.3752e-03]], device='cuda:0')
+Epoch 345, bias, value: tensor([ 0.0129, -0.0032, -0.0113,  0.0069, -0.0137, -0.0227,  0.0140, -0.0012,
+         0.0130, -0.0129], device='cuda:0'), grad: tensor([-0.0166,  0.0006,  0.0367, -0.0096,  0.0206,  0.0148,  0.0140,  0.0139,
+        -0.0414, -0.0331], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 344, time 216.67, cls_loss 0.4546 cls_loss_mapping 0.0029 cls_loss_causal 0.4304 re_mapping 0.0063 re_causal 0.0162 /// teacc 98.81 lr 0.00010000
+Epoch 346, weight, value: tensor([[-0.0709, -0.1053, -0.1489,  ...,  0.1204, -0.0626,  0.0317],
+        [-0.0818,  0.1092, -0.0642,  ...,  0.0495, -0.0604, -0.1033],
+        [-0.0337,  0.0828, -0.1226,  ..., -0.0138,  0.0404,  0.1290],
+        ...,
+        [-0.0086,  0.0725, -0.0025,  ..., -0.0196,  0.0297, -0.0670],
+        [ 0.0996, -0.1097,  0.0469,  ...,  0.0119,  0.0100, -0.0399],
+        [-0.0152, -0.0832,  0.0734,  ..., -0.0894,  0.0307, -0.0254]],
+       device='cuda:0'), grad: tensor([[ 4.5562e-04,  6.2864e-07,  6.8620e-06,  ..., -2.8229e-04,
+          3.4809e-04, -3.5000e-04],
+        [ 3.1590e-04, -1.2897e-05,  6.7987e-06,  ...,  4.0263e-05,
+          3.3259e-04,  2.6062e-05],
+        [ 2.3818e-04, -1.4246e-04,  3.5793e-05,  ..., -6.0380e-05,
+          1.6041e-03, -2.0102e-05],
+        ...,
+        [ 4.2558e-05,  2.8014e-06,  1.6718e-03,  ...,  2.1644e-06,
+         -7.5436e-04,  8.2672e-05],
+        [-5.7945e-03,  5.1893e-06,  2.3186e-05,  ..., -4.1872e-05,
+          9.6750e-04,  7.7128e-05],
+        [ 1.1510e-04,  2.1216e-06, -2.5120e-03,  ...,  8.3297e-06,
+         -1.8349e-03,  5.2124e-05]], device='cuda:0')
+Epoch 346, bias, value: tensor([ 0.0121, -0.0037, -0.0123,  0.0081, -0.0138, -0.0235,  0.0151, -0.0009,
+         0.0136, -0.0129], device='cuda:0'), grad: tensor([ 0.0036,  0.0126,  0.0173,  0.0131,  0.0119,  0.0172, -0.0121,  0.0133,
+        -0.0802,  0.0034], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 345, time 216.80, cls_loss 0.5150 cls_loss_mapping 0.0032 cls_loss_causal 0.4838 re_mapping 0.0059 re_causal 0.0155 /// teacc 98.85 lr 0.00010000
+Epoch 347, weight, value: tensor([[-0.0732, -0.1062, -0.1502,  ...,  0.1213, -0.0617,  0.0328],
+        [-0.0808,  0.1094, -0.0647,  ...,  0.0488, -0.0607, -0.1047],
+        [-0.0344,  0.0830, -0.1234,  ..., -0.0128,  0.0401,  0.1288],
+        ...,
+        [-0.0075,  0.0728, -0.0018,  ..., -0.0196,  0.0305, -0.0665],
+        [ 0.0979, -0.1103,  0.0469,  ...,  0.0117,  0.0092, -0.0400],
+        [-0.0137, -0.0832,  0.0742,  ..., -0.0898,  0.0309, -0.0258]],
+       device='cuda:0'), grad: tensor([[ 1.8720e-07, -3.6106e-03,  2.7567e-07,  ..., -7.5111e-03,
+         -3.6430e-03,  5.8794e-04],
+        [-1.3327e-06, -4.4060e-04,  3.1851e-06,  ..., -2.7561e-04,
+          3.3998e-04,  6.1333e-05],
+        [ 2.2184e-06,  3.1452e-03,  2.2948e-05,  ...,  1.6775e-03,
+          7.1764e-04,  4.0588e-03],
+        ...,
+        [ 1.2231e-04, -3.5572e-03,  1.2865e-03,  ...,  7.2956e-05,
+          5.2500e-04, -6.2103e-03],
+        [ 1.8356e-06,  3.5834e-04,  5.2713e-06,  ...,  1.9705e-04,
+          5.7667e-05, -7.4387e-05],
+        [ 2.1935e-05,  1.6296e-04,  2.3925e-04,  ...,  1.5390e-04,
+          1.3304e-04,  2.1446e-04]], device='cuda:0')
+Epoch 347, bias, value: tensor([ 0.0125, -0.0037, -0.0122,  0.0088, -0.0149, -0.0233,  0.0154, -0.0013,
+         0.0129, -0.0123], device='cuda:0'), grad: tensor([-0.0086, -0.0385,  0.0355,  0.0113, -0.0527,  0.0263,  0.0269, -0.0200,
+         0.0091,  0.0106], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 346, time 216.48, cls_loss 0.4858 cls_loss_mapping 0.0037 cls_loss_causal 0.4614 re_mapping 0.0056 re_causal 0.0144 /// teacc 98.80 lr 0.00010000
+Epoch 348, weight, value: tensor([[-0.0720, -0.1057, -0.1504,  ...,  0.1208, -0.0627,  0.0317],
+        [-0.0806,  0.1093, -0.0655,  ...,  0.0483, -0.0616, -0.1053],
+        [-0.0343,  0.0832, -0.1225,  ..., -0.0120,  0.0412,  0.1280],
+        ...,
+        [-0.0079,  0.0724, -0.0016,  ..., -0.0209,  0.0300, -0.0666],
+        [ 0.0977, -0.1084,  0.0459,  ...,  0.0152,  0.0093, -0.0393],
+        [-0.0137, -0.0842,  0.0740,  ..., -0.0895,  0.0317, -0.0255]],
+       device='cuda:0'), grad: tensor([[ 4.4227e-04,  1.5891e-04, -7.8058e-04,  ...,  2.7156e-04,
+         -1.0977e-03,  6.0272e-04],
+        [ 2.6178e-04,  5.4073e-04,  5.1767e-05,  ...,  1.6212e-04,
+          1.6570e-04,  3.4690e-04],
+        [ 4.0174e-04,  8.4782e-04,  7.7784e-05,  ...,  2.1291e-04,
+          2.2995e-04,  4.5347e-04],
+        ...,
+        [-1.2884e-03, -3.9749e-03,  1.5488e-03,  ...,  3.0065e-04,
+          1.3437e-03,  4.3797e-04],
+        [-3.3245e-03,  6.8617e-04,  1.2887e-04,  ...,  1.8156e-04,
+          2.3842e-04,  3.6550e-04],
+        [ 2.4915e-04, -3.1650e-05, -6.2656e-04,  ...,  9.3937e-05,
+          4.4274e-04,  4.2367e-04]], device='cuda:0')
+Epoch 348, bias, value: tensor([ 0.0141, -0.0044, -0.0119,  0.0078, -0.0144, -0.0239,  0.0153, -0.0018,
+         0.0127, -0.0117], device='cuda:0'), grad: tensor([ 0.0103,  0.0160,  0.0143, -0.0164,  0.0067,  0.0077,  0.0163, -0.0081,
+        -0.0266, -0.0201], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 347, time 216.67, cls_loss 0.4757 cls_loss_mapping 0.0034 cls_loss_causal 0.4522 re_mapping 0.0059 re_causal 0.0153 /// teacc 98.80 lr 0.00010000
+Epoch 349, weight, value: tensor([[-0.0708, -0.1042, -0.1512,  ...,  0.1203, -0.0631,  0.0329],
+        [-0.0798,  0.1109, -0.0656,  ...,  0.0477, -0.0617, -0.1060],
+        [-0.0345,  0.0820, -0.1234,  ..., -0.0123,  0.0422,  0.1286],
+        ...,
+        [-0.0082,  0.0731, -0.0018,  ..., -0.0211,  0.0297, -0.0669],
+        [ 0.0982, -0.1092,  0.0477,  ...,  0.0165,  0.0106, -0.0410],
+        [-0.0143, -0.0845,  0.0750,  ..., -0.0889,  0.0310, -0.0248]],
+       device='cuda:0'), grad: tensor([[-8.9931e-04, -3.4356e-04,  6.0558e-05,  ..., -1.5793e-03,
+          1.1712e-04, -5.5466e-03],
+        [ 2.4274e-05, -2.6599e-05,  1.2806e-06,  ..., -9.5427e-05,
+          2.8480e-06,  4.4703e-04],
+        [ 1.6916e-04, -6.6471e-04,  3.3021e-04,  ...,  3.2640e-04,
+          6.7949e-04,  9.7418e-04],
+        ...,
+        [ 8.9109e-06,  6.3144e-06,  4.4137e-05,  ...,  8.5771e-05,
+          1.1760e-04,  2.3925e-04],
+        [ 6.8843e-05,  7.2241e-05,  7.8261e-05,  ..., -6.1083e-04,
+          1.6856e-04,  5.0354e-04],
+        [ 9.9957e-05,  3.0518e-05, -1.4620e-03,  ...,  5.6952e-05,
+         -3.1757e-03,  2.8610e-04]], device='cuda:0')
+Epoch 349, bias, value: tensor([ 0.0145, -0.0053, -0.0119,  0.0074, -0.0143, -0.0228,  0.0147, -0.0018,
+         0.0128, -0.0114], device='cuda:0'), grad: tensor([-0.0634,  0.0172,  0.0208,  0.0191, -0.0161,  0.0571, -0.0656,  0.0178,
+         0.0127,  0.0004], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 348, time 216.72, cls_loss 0.4608 cls_loss_mapping 0.0030 cls_loss_causal 0.4393 re_mapping 0.0058 re_causal 0.0153 /// teacc 98.73 lr 0.00010000
+Epoch 350, weight, value: tensor([[-0.0704, -0.1044, -0.1521,  ...,  0.1201, -0.0632,  0.0315],
+        [-0.0792,  0.1108, -0.0662,  ...,  0.0493, -0.0627, -0.1036],
+        [-0.0352,  0.0819, -0.1239,  ..., -0.0122,  0.0423,  0.1296],
+        ...,
+        [-0.0089,  0.0729, -0.0032,  ..., -0.0211,  0.0291, -0.0674],
+        [ 0.0981, -0.1086,  0.0481,  ...,  0.0155,  0.0101, -0.0411],
+        [-0.0157, -0.0843,  0.0748,  ..., -0.0874,  0.0304, -0.0243]],
+       device='cuda:0'), grad: tensor([[ 1.3924e-04,  7.4040e-08,  4.8256e-04,  ...,  8.8644e-04,
+          1.2290e-04,  1.1498e-04],
+        [ 7.7295e-04, -5.6531e-07,  6.2895e-04,  ...,  1.9388e-03,
+          1.0103e-04,  5.5742e-04],
+        [ 2.7680e-04,  2.3078e-06, -4.9057e-03,  ..., -2.5196e-03,
+          1.4901e-04,  2.0969e-04],
+        ...,
+        [ 1.2982e-04,  7.1526e-04,  1.9522e-03,  ...,  1.0090e-03,
+          8.2016e-04,  1.1784e-04],
+        [-2.5997e-03,  4.4964e-06,  8.1825e-04,  ..., -1.7195e-03,
+          2.8849e-04, -1.6804e-03],
+        [ 1.5330e-04, -8.5974e-04, -7.7868e-04,  ...,  9.9754e-04,
+         -5.8699e-04,  1.4138e-04]], device='cuda:0')
+Epoch 350, bias, value: tensor([ 0.0143, -0.0045, -0.0129,  0.0072, -0.0142, -0.0220,  0.0149, -0.0026,
+         0.0132, -0.0115], device='cuda:0'), grad: tensor([ 0.0190,  0.0043, -0.0428,  0.0113,  0.0263, -0.0048, -0.0582,  0.0229,
+        -0.0039,  0.0258], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 349, time 216.66, cls_loss 0.4499 cls_loss_mapping 0.0040 cls_loss_causal 0.4283 re_mapping 0.0064 re_causal 0.0164 /// teacc 98.83 lr 0.00010000
+Epoch 351, weight, value: tensor([[-0.0696, -0.1055, -0.1527,  ...,  0.1203, -0.0636,  0.0340],
+        [-0.0804,  0.1107, -0.0677,  ...,  0.0489, -0.0643, -0.1038],
+        [-0.0347,  0.0827, -0.1218,  ..., -0.0115,  0.0426,  0.1304],
+        ...,
+        [-0.0085,  0.0727, -0.0018,  ..., -0.0215,  0.0297, -0.0678],
+        [ 0.0990, -0.1079,  0.0472,  ...,  0.0159,  0.0095, -0.0423],
+        [-0.0148, -0.0847,  0.0742,  ..., -0.0880,  0.0302, -0.0234]],
+       device='cuda:0'), grad: tensor([[ 1.5438e-04,  6.4261e-07, -6.6757e-04,  ..., -1.8787e-03,
+         -1.3533e-03, -5.1785e-04],
+        [-2.1076e-03, -5.4576e-06, -2.5183e-06,  ..., -1.7843e-03,
+         -1.0773e-02, -6.9199e-03],
+        [ 1.2469e-04,  2.5487e-04,  1.0055e-04,  ...,  3.2735e-04,
+          1.9159e-03,  1.1358e-03],
+        ...,
+        [ 3.6621e-04, -2.5201e-04, -7.3910e-05,  ...,  7.4744e-05,
+         -6.4969e-06,  7.6413e-05],
+        [ 2.7108e-04, -1.9982e-05,  1.1945e-04,  ...,  6.3467e-04,
+          1.8358e-03,  1.1406e-03],
+        [ 2.6965e-04,  6.4448e-06,  1.2958e-04,  ...,  5.3692e-04,
+          5.5313e-04,  2.8467e-04]], device='cuda:0')
+Epoch 351, bias, value: tensor([ 0.0140, -0.0051, -0.0124,  0.0073, -0.0139, -0.0235,  0.0151, -0.0030,
+         0.0138, -0.0107], device='cuda:0'), grad: tensor([-0.0007, -0.0339, -0.0167,  0.0215, -0.0252,  0.0082,  0.0239,  0.0048,
+         0.0113,  0.0069], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 350, time 216.64, cls_loss 0.4843 cls_loss_mapping 0.0048 cls_loss_causal 0.4545 re_mapping 0.0060 re_causal 0.0150 /// teacc 98.74 lr 0.00010000
+Epoch 352, weight, value: tensor([[-0.0695, -0.1070, -0.1539,  ...,  0.1193, -0.0639,  0.0334],
+        [-0.0809,  0.1101, -0.0664,  ...,  0.0486, -0.0632, -0.1031],
+        [-0.0366,  0.0827, -0.1194,  ..., -0.0117,  0.0422,  0.1296],
+        ...,
+        [-0.0072,  0.0731, -0.0021,  ..., -0.0203,  0.0312, -0.0663],
+        [ 0.0994, -0.1093,  0.0474,  ...,  0.0164,  0.0099, -0.0436],
+        [-0.0142, -0.0831,  0.0744,  ..., -0.0891,  0.0303, -0.0226]],
+       device='cuda:0'), grad: tensor([[ 9.6709e-06,  3.6359e-06,  4.2915e-05,  ...,  1.0109e-04,
+          1.0395e-04,  4.0591e-05],
+        [-1.3649e-04,  6.2725e-07,  4.1924e-03,  ..., -1.6489e-03,
+          2.3425e-04, -4.1342e-04],
+        [ 4.5113e-06, -5.9336e-05, -8.2627e-06,  ...,  2.6655e-04,
+          3.9506e-04,  1.0341e-04],
+        ...,
+        [ 1.0349e-05, -9.9123e-05,  2.8253e-04,  ...,  1.8203e-04,
+          2.9302e-04,  4.8697e-05],
+        [ 2.6450e-05,  2.6181e-05,  4.4441e-04,  ...,  6.4135e-04,
+          3.0208e-04,  4.1276e-05],
+        [ 3.1777e-06,  2.4348e-05, -2.7204e-04,  ...,  1.3316e-04,
+         -2.2739e-05,  4.4644e-05]], device='cuda:0')
+Epoch 352, bias, value: tensor([ 0.0130, -0.0046, -0.0127,  0.0074, -0.0134, -0.0225,  0.0145, -0.0022,
+         0.0127, -0.0106], device='cuda:0'), grad: tensor([ 6.9733e-03, -5.9624e-03,  1.3313e-02, -7.1869e-03, -1.1444e-02,
+         9.2926e-03,  8.6746e-03, -2.1774e-02, -5.6148e-05,  8.1635e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 351, time 216.66, cls_loss 0.4827 cls_loss_mapping 0.0036 cls_loss_causal 0.4598 re_mapping 0.0059 re_causal 0.0154 /// teacc 98.85 lr 0.00010000
+Epoch 353, weight, value: tensor([[-0.0708, -0.1054, -0.1535,  ...,  0.1198, -0.0631,  0.0336],
+        [-0.0813,  0.1102, -0.0661,  ...,  0.0479, -0.0648, -0.1029],
+        [-0.0374,  0.0836, -0.1196,  ..., -0.0119,  0.0400,  0.1282],
+        ...,
+        [-0.0073,  0.0718, -0.0028,  ..., -0.0213,  0.0306, -0.0661],
+        [ 0.0994, -0.1099,  0.0477,  ...,  0.0152,  0.0102, -0.0446],
+        [-0.0137, -0.0818,  0.0744,  ..., -0.0896,  0.0300, -0.0220]],
+       device='cuda:0'), grad: tensor([[-1.2529e-04, -3.8052e-04, -2.6627e-03,  ..., -1.5717e-03,
+         -3.1147e-03, -2.4567e-03],
+        [ 1.7453e-06, -3.8242e-03,  1.0896e-04,  ..., -1.8234e-03,
+         -1.3838e-03,  8.5652e-05],
+        [ 2.5153e-05,  4.1351e-03,  1.0118e-03,  ...,  1.3227e-03,
+          1.5926e-03, -1.3304e-04],
+        ...,
+        [ 3.9898e-06, -2.8172e-03, -2.5058e-04,  ..., -1.4944e-03,
+          1.2660e-04,  2.4652e-04],
+        [ 2.4796e-05,  4.6086e-04,  4.2534e-04,  ..., -9.7466e-04,
+          5.7173e-04,  6.0511e-04],
+        [ 4.6283e-05,  5.0211e-04,  2.5678e-04,  ...,  8.1205e-04,
+          4.0579e-04,  2.2340e-04]], device='cuda:0')
+Epoch 353, bias, value: tensor([ 0.0126, -0.0046, -0.0130,  0.0078, -0.0139, -0.0222,  0.0158, -0.0022,
+         0.0120, -0.0104], device='cuda:0'), grad: tensor([-0.0446, -0.0470,  0.0345,  0.0284,  0.0285,  0.0206, -0.0072, -0.0323,
+        -0.0068,  0.0260], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 352, time 216.58, cls_loss 0.4820 cls_loss_mapping 0.0029 cls_loss_causal 0.4621 re_mapping 0.0059 re_causal 0.0155 /// teacc 98.70 lr 0.00010000
+Epoch 354, weight, value: tensor([[-0.0712, -0.1049, -0.1519,  ...,  0.1196, -0.0630,  0.0336],
+        [-0.0824,  0.1104, -0.0662,  ...,  0.0485, -0.0649, -0.1010],
+        [-0.0365,  0.0838, -0.1184,  ..., -0.0119,  0.0404,  0.1275],
+        ...,
+        [-0.0075,  0.0716, -0.0031,  ..., -0.0219,  0.0306, -0.0669],
+        [ 0.0998, -0.1104,  0.0487,  ...,  0.0151,  0.0116, -0.0442],
+        [-0.0133, -0.0815,  0.0745,  ..., -0.0895,  0.0295, -0.0230]],
+       device='cuda:0'), grad: tensor([[ 1.3970e-09,  1.4722e-04,  6.5207e-05,  ...,  2.4605e-04,
+          1.5080e-04,  2.4214e-08],
+        [ 0.0000e+00,  3.9787e-03,  2.0385e-04,  ...,  7.3891e-03,
+          1.2398e-03,  3.1199e-08],
+        [ 0.0000e+00,  7.7152e-04,  3.9458e-05,  ...,  1.9226e-03,
+          3.0303e-04, -4.0652e-07],
+        ...,
+        [ 0.0000e+00, -1.2550e-03, -2.0905e-03,  ...,  1.3514e-03,
+          6.1226e-04,  5.1688e-08],
+        [ 3.2596e-09, -3.7122e-04,  4.6104e-05,  ..., -4.6120e-03,
+          1.4520e-04,  6.7987e-08],
+        [ 0.0000e+00,  2.2812e-03,  1.3626e-04,  ...,  1.1759e-03,
+         -1.4944e-03,  6.9849e-09]], device='cuda:0')
+Epoch 354, bias, value: tensor([ 0.0122, -0.0046, -0.0127,  0.0069, -0.0139, -0.0222,  0.0156, -0.0020,
+         0.0122, -0.0099], device='cuda:0'), grad: tensor([ 0.0160,  0.0363, -0.0157, -0.0203, -0.0157,  0.0089,  0.0023,  0.0068,
+        -0.0352,  0.0165], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 353, time 216.78, cls_loss 0.4775 cls_loss_mapping 0.0045 cls_loss_causal 0.4525 re_mapping 0.0060 re_causal 0.0148 /// teacc 98.85 lr 0.00010000
+Epoch 355, weight, value: tensor([[-0.0718, -0.1049, -0.1523,  ...,  0.1200, -0.0634,  0.0339],
+        [-0.0838,  0.1113, -0.0659,  ...,  0.0489, -0.0638, -0.1015],
+        [-0.0367,  0.0837, -0.1191,  ..., -0.0115,  0.0401,  0.1277],
+        ...,
+        [-0.0070,  0.0714, -0.0026,  ..., -0.0210,  0.0305, -0.0670],
+        [ 0.1004, -0.1108,  0.0484,  ...,  0.0147,  0.0110, -0.0439],
+        [-0.0124, -0.0820,  0.0746,  ..., -0.0908,  0.0302, -0.0239]],
+       device='cuda:0'), grad: tensor([[ 4.8423e-04,  4.0627e-04,  4.5240e-05,  ...,  1.0473e-04,
+          1.6394e-03,  1.5984e-03],
+        [-1.0719e-03, -1.1368e-03,  3.0808e-06,  ..., -1.9875e-03,
+         -2.2066e-04,  9.0972e-06],
+        [ 3.4499e-04, -1.8883e-03,  5.9158e-06,  ...,  9.6619e-05,
+         -1.5686e-02, -1.3344e-02],
+        ...,
+        [ 6.3658e-04,  2.9445e-04,  6.7055e-06,  ...,  6.2752e-04,
+          1.4544e-04,  3.9876e-05],
+        [ 5.3406e-04,  1.6606e-04, -8.7118e-04,  ...,  3.9530e-04,
+         -4.7417e-03, -6.5851e-04],
+        [ 3.0184e-04,  8.9049e-05,  8.2791e-05,  ...,  1.8597e-04,
+          3.8624e-04,  5.5403e-05]], device='cuda:0')
+Epoch 355, bias, value: tensor([ 0.0127, -0.0042, -0.0134,  0.0067, -0.0137, -0.0227,  0.0155, -0.0015,
+         0.0129, -0.0104], device='cuda:0'), grad: tensor([-0.0069,  0.0008, -0.0138,  0.0339,  0.0100,  0.0129, -0.0080, -0.0175,
+        -0.0231,  0.0118], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 354, time 216.92, cls_loss 0.4868 cls_loss_mapping 0.0055 cls_loss_causal 0.4623 re_mapping 0.0058 re_causal 0.0149 /// teacc 98.89 lr 0.00010000
+Epoch 356, weight, value: tensor([[-0.0720, -0.1060, -0.1489,  ...,  0.1202, -0.0647,  0.0334],
+        [-0.0837,  0.1112, -0.0650,  ...,  0.0486, -0.0647, -0.1010],
+        [-0.0377,  0.0848, -0.1192,  ..., -0.0101,  0.0397,  0.1283],
+        ...,
+        [-0.0077,  0.0704, -0.0034,  ..., -0.0223,  0.0304, -0.0662],
+        [ 0.1003, -0.1104,  0.0476,  ...,  0.0150,  0.0101, -0.0440],
+        [-0.0127, -0.0815,  0.0741,  ..., -0.0912,  0.0316, -0.0233]],
+       device='cuda:0'), grad: tensor([[ 9.9468e-04, -5.1737e-04,  1.5509e-04,  ..., -2.9888e-03,
+         -1.9817e-03, -2.0885e-03],
+        [ 3.2210e-04,  2.9731e-04,  5.6326e-05,  ...,  1.0567e-03,
+          8.8155e-05,  5.5790e-04],
+        [ 5.5599e-04,  5.1975e-04,  2.1887e-04,  ...,  8.0967e-04,
+          2.4104e-04,  1.1663e-03],
+        ...,
+        [-2.5063e-03, -5.3585e-05, -9.2363e-04,  ...,  4.3821e-04,
+         -2.4662e-03,  7.3862e-04],
+        [ 8.7833e-04,  2.8062e-04,  1.8966e-04,  ...,  7.3051e-04,
+          6.4564e-04,  1.0681e-03],
+        [ 6.6280e-04,  5.8460e-04,  2.3448e-04,  ...,  4.8113e-04,
+          2.6321e-04,  8.4209e-04]], device='cuda:0')
+Epoch 356, bias, value: tensor([ 0.0128, -0.0046, -0.0148,  0.0072, -0.0118, -0.0230,  0.0158, -0.0010,
+         0.0126, -0.0115], device='cuda:0'), grad: tensor([-0.0041,  0.0341,  0.0278,  0.0123, -0.0654,  0.0208, -0.0293, -0.0062,
+         0.0179, -0.0081], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 355, time 216.73, cls_loss 0.4908 cls_loss_mapping 0.0052 cls_loss_causal 0.4640 re_mapping 0.0058 re_causal 0.0142 /// teacc 98.84 lr 0.00010000
+Epoch 357, weight, value: tensor([[-0.0725, -0.1065, -0.1487,  ...,  0.1199, -0.0650,  0.0335],
+        [-0.0831,  0.1110, -0.0649,  ...,  0.0485, -0.0641, -0.1019],
+        [-0.0380,  0.0847, -0.1195,  ..., -0.0103,  0.0408,  0.1270],
+        ...,
+        [-0.0056,  0.0702, -0.0041,  ..., -0.0229,  0.0294, -0.0660],
+        [ 0.0989, -0.1104,  0.0475,  ...,  0.0143,  0.0101, -0.0434],
+        [-0.0137, -0.0812,  0.0749,  ..., -0.0912,  0.0331, -0.0229]],
+       device='cuda:0'), grad: tensor([[ 1.3256e-03, -2.0885e-04, -3.2157e-05,  ..., -1.3142e-03,
+         -2.0516e-04, -1.9197e-03],
+        [ 3.6478e-05,  2.9898e-04,  1.7807e-05,  ...,  7.9870e-04,
+          2.8396e-04,  2.5487e-04],
+        [ 1.2910e-04,  6.9046e-04,  3.6098e-06,  ..., -8.8120e-04,
+          2.4152e-04,  2.2411e-04],
+        ...,
+        [ 3.1432e-07, -1.4133e-03, -2.3112e-05,  ..., -3.8171e-04,
+         -3.6097e-04,  2.1780e-04],
+        [ 4.4537e-04,  1.2553e-04,  1.8096e-06,  ...,  3.1519e-04,
+          5.5641e-05,  2.4629e-04],
+        [ 3.4380e-04,  1.2589e-04, -2.7490e-04,  ...,  2.8825e-04,
+         -1.6356e-03,  1.6785e-04]], device='cuda:0')
+Epoch 357, bias, value: tensor([ 0.0125, -0.0029, -0.0152,  0.0074, -0.0137, -0.0223,  0.0157, -0.0010,
+         0.0123, -0.0111], device='cuda:0'), grad: tensor([-0.0512,  0.0152, -0.0170,  0.0139,  0.0115,  0.0209, -0.0208,  0.0070,
+         0.0111,  0.0095], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 356, time 216.81, cls_loss 0.4952 cls_loss_mapping 0.0029 cls_loss_causal 0.4693 re_mapping 0.0060 re_causal 0.0156 /// teacc 98.85 lr 0.00010000
+Epoch 358, weight, value: tensor([[-0.0723, -0.1071, -0.1494,  ...,  0.1196, -0.0654,  0.0328],
+        [-0.0830,  0.1111, -0.0662,  ...,  0.0496, -0.0649, -0.1020],
+        [-0.0380,  0.0841, -0.1196,  ..., -0.0118,  0.0411,  0.1265],
+        ...,
+        [-0.0045,  0.0699, -0.0034,  ..., -0.0228,  0.0295, -0.0676],
+        [ 0.0983, -0.1104,  0.0468,  ...,  0.0152,  0.0091, -0.0420],
+        [-0.0146, -0.0800,  0.0746,  ..., -0.0900,  0.0339, -0.0222]],
+       device='cuda:0'), grad: tensor([[ 1.0014e-04,  5.7280e-05,  3.0115e-05,  ...,  1.3709e-04,
+         -2.0057e-05,  1.8805e-05],
+        [ 1.2007e-03, -3.8815e-03,  1.1218e-04,  ..., -2.7695e-03,
+          3.2991e-05,  7.7868e-04],
+        [ 2.0766e-04,  1.3697e-04,  7.3791e-05,  ...,  5.5790e-04,
+          3.2830e-04,  9.6679e-05],
+        ...,
+        [-5.0621e-03,  5.8975e-03, -2.4090e-03,  ...,  6.6948e-03,
+         -8.1587e-04,  8.2970e-05],
+        [ 6.1464e-04,  8.7917e-05,  2.7728e-04,  ..., -2.2850e-03,
+         -8.4862e-06,  6.5506e-05],
+        [ 1.1883e-03,  5.9754e-05,  5.6410e-04,  ...,  1.8418e-04,
+          2.6464e-04,  2.6122e-05]], device='cuda:0')
+Epoch 358, bias, value: tensor([ 0.0120, -0.0042, -0.0147,  0.0077, -0.0135, -0.0225,  0.0158, -0.0009,
+         0.0132, -0.0112], device='cuda:0'), grad: tensor([ 0.0055,  0.0239, -0.0196,  0.0135,  0.0172, -0.0024, -0.0193, -0.0324,
+         0.0018,  0.0118], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 357----------------------------------------------------
+epoch 357, time 217.44, cls_loss 0.4993 cls_loss_mapping 0.0021 cls_loss_causal 0.4720 re_mapping 0.0056 re_causal 0.0148 /// teacc 99.02 lr 0.00010000
+Epoch 359, weight, value: tensor([[-0.0709, -0.1069, -0.1485,  ...,  0.1208, -0.0644,  0.0336],
+        [-0.0826,  0.1106, -0.0678,  ...,  0.0492, -0.0653, -0.1034],
+        [-0.0384,  0.0845, -0.1203,  ..., -0.0117,  0.0415,  0.1271],
+        ...,
+        [-0.0046,  0.0698, -0.0023,  ..., -0.0240,  0.0299, -0.0683],
+        [ 0.0989, -0.1109,  0.0474,  ...,  0.0148,  0.0097, -0.0412],
+        [-0.0136, -0.0805,  0.0744,  ..., -0.0889,  0.0332, -0.0220]],
+       device='cuda:0'), grad: tensor([[ 1.1623e-04,  7.4387e-05,  1.1861e-05,  ...,  3.3545e-04,
+          3.4999e-06,  5.0575e-05],
+        [-1.0128e-03, -1.5724e-04,  1.9640e-05,  ..., -2.6073e-03,
+          1.3225e-05, -4.1223e-04],
+        [ 2.3758e-04,  4.8071e-05,  1.1645e-05,  ...,  4.0674e-04,
+          4.0978e-06,  1.0687e-04],
+        ...,
+        [ 2.0618e-03,  1.7655e-04,  5.1308e-03,  ...,  1.4353e-03,
+          3.4771e-03,  2.0301e-04],
+        [ 6.3300e-05,  9.7573e-05,  1.4675e-04,  ...,  5.3835e-04,
+          1.0276e-04,  1.4126e-04],
+        [-1.9875e-03,  9.1493e-05, -5.5237e-03,  ..., -6.4182e-04,
+         -3.7441e-03,  1.2136e-04]], device='cuda:0')
+Epoch 359, bias, value: tensor([ 0.0138, -0.0037, -0.0145,  0.0066, -0.0141, -0.0221,  0.0154, -0.0014,
+         0.0129, -0.0110], device='cuda:0'), grad: tensor([ 0.0189, -0.0331,  0.0203, -0.0048,  0.0252, -0.0174, -0.0068, -0.0414,
+         0.0220,  0.0172], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 358, time 216.96, cls_loss 0.4924 cls_loss_mapping 0.0025 cls_loss_causal 0.4649 re_mapping 0.0057 re_causal 0.0145 /// teacc 98.95 lr 0.00010000
+Epoch 360, weight, value: tensor([[-0.0712, -0.1067, -0.1487,  ...,  0.1218, -0.0649,  0.0323],
+        [-0.0834,  0.1109, -0.0687,  ...,  0.0498, -0.0646, -0.1043],
+        [-0.0372,  0.0854, -0.1202,  ..., -0.0115,  0.0412,  0.1278],
+        ...,
+        [-0.0041,  0.0697, -0.0029,  ..., -0.0235,  0.0299, -0.0679],
+        [ 0.0987, -0.1112,  0.0472,  ...,  0.0160,  0.0103, -0.0413],
+        [-0.0126, -0.0810,  0.0748,  ..., -0.0889,  0.0331, -0.0227]],
+       device='cuda:0'), grad: tensor([[ 6.2287e-05,  1.6332e-05,  3.1948e-04,  ...,  1.4009e-03,
+          8.5545e-04,  1.4534e-03],
+        [ 7.6056e-05,  1.1425e-03,  2.7847e-04,  ...,  4.8470e-04,
+          3.6573e-04,  2.2697e-04],
+        [ 8.3089e-05, -7.0839e-03, -5.3644e-04,  ..., -1.7786e-04,
+          1.8139e-03,  1.8940e-03],
+        ...,
+        [-2.7733e-03,  6.9923e-03, -1.4553e-03,  ...,  5.0011e-03,
+         -5.3940e-03,  5.3024e-04],
+        [ 2.4052e-03,  1.8501e-04,  2.8172e-03,  ...,  9.7513e-04,
+          7.2365e-03,  1.5926e-03],
+        [-2.2590e-04, -1.7357e-03,  3.0956e-03,  ...,  3.0470e-04,
+          5.4359e-04,  5.9986e-04]], device='cuda:0')
+Epoch 360, bias, value: tensor([ 0.0134, -0.0039, -0.0142,  0.0082, -0.0151, -0.0226,  0.0148, -0.0015,
+         0.0127, -0.0102], device='cuda:0'), grad: tensor([ 0.0179,  0.0100, -0.0204, -0.0365, -0.0196,  0.0011, -0.0133,  0.0138,
+         0.0345,  0.0126], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 359, time 216.78, cls_loss 0.4690 cls_loss_mapping 0.0048 cls_loss_causal 0.4483 re_mapping 0.0060 re_causal 0.0150 /// teacc 98.80 lr 0.00010000
+Epoch 361, weight, value: tensor([[-0.0714, -0.1063, -0.1489,  ...,  0.1219, -0.0641,  0.0315],
+        [-0.0841,  0.1113, -0.0686,  ...,  0.0503, -0.0649, -0.1035],
+        [-0.0374,  0.0855, -0.1221,  ..., -0.0119,  0.0414,  0.1280],
+        ...,
+        [-0.0038,  0.0700, -0.0029,  ..., -0.0222,  0.0294, -0.0677],
+        [ 0.0988, -0.1128,  0.0491,  ...,  0.0147,  0.0111, -0.0416],
+        [-0.0127, -0.0814,  0.0740,  ..., -0.0897,  0.0329, -0.0230]],
+       device='cuda:0'), grad: tensor([[ 1.5736e-04,  2.2542e-04,  2.9969e-04,  ...,  1.0433e-03,
+          4.2844e-04,  6.0654e-04],
+        [ 1.1969e-03, -7.1716e-04, -1.5783e-03,  ..., -3.4733e-03,
+         -7.8535e-04, -7.7248e-04],
+        [-2.7633e-04,  5.4866e-05,  9.7418e-04,  ..., -3.0422e-03,
+         -6.8808e-04, -2.7580e-03],
+        ...,
+        [-1.6113e-02,  1.7290e-03,  2.8305e-03,  ...,  1.1379e-04,
+          2.3899e-03,  1.3666e-03],
+        [ 4.4870e-04,  2.8443e-04,  3.0398e-04,  ...,  1.2703e-03,
+          6.1417e-04,  1.0595e-03],
+        [ 1.2802e-02, -3.8109e-03, -5.2299e-03,  ...,  3.0756e-04,
+         -5.1994e-03, -2.9678e-03]], device='cuda:0')
+Epoch 361, bias, value: tensor([ 0.0140, -0.0030, -0.0159,  0.0095, -0.0160, -0.0229,  0.0153, -0.0015,
+         0.0122, -0.0102], device='cuda:0'), grad: tensor([ 0.0044, -0.0099, -0.0140,  0.0089,  0.0100, -0.0004,  0.0043, -0.0035,
+         0.0071, -0.0069], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 360, time 216.92, cls_loss 0.4892 cls_loss_mapping 0.0037 cls_loss_causal 0.4668 re_mapping 0.0056 re_causal 0.0146 /// teacc 98.58 lr 0.00010000
+Epoch 362, weight, value: tensor([[-0.0715, -0.1053, -0.1493,  ...,  0.1221, -0.0638,  0.0321],
+        [-0.0844,  0.1104, -0.0674,  ...,  0.0500, -0.0651, -0.1031],
+        [-0.0366,  0.0856, -0.1226,  ..., -0.0128,  0.0398,  0.1285],
+        ...,
+        [-0.0038,  0.0709, -0.0036,  ..., -0.0207,  0.0296, -0.0675],
+        [ 0.0993, -0.1136,  0.0498,  ...,  0.0147,  0.0113, -0.0419],
+        [-0.0131, -0.0814,  0.0737,  ..., -0.0903,  0.0336, -0.0235]],
+       device='cuda:0'), grad: tensor([[ 2.8491e-04,  1.4380e-05,  1.4091e-04,  ...,  8.1241e-05,
+          2.9182e-04,  1.3271e-07],
+        [ 1.3523e-05,  4.7497e-06,  4.5967e-04,  ...,  7.2598e-05,
+          2.6679e-04,  5.0291e-08],
+        [ 9.7930e-05,  2.5034e-04,  1.1978e-03,  ...,  2.4509e-04,
+          1.1730e-03, -8.8960e-06],
+        ...,
+        [ 6.2644e-05, -7.0095e-04, -9.0866e-03,  ..., -8.2731e-04,
+         -3.4561e-03,  3.4785e-07],
+        [-9.0027e-04,  4.2111e-05, -2.4738e-03,  ..., -2.6321e-04,
+         -8.5783e-04,  3.3993e-06],
+        [ 1.7607e-04,  3.3951e-04,  3.9406e-03,  ...,  3.4809e-04,
+          6.9475e-04,  2.3283e-08]], device='cuda:0')
+Epoch 362, bias, value: tensor([ 0.0127, -0.0041, -0.0148,  0.0095, -0.0157, -0.0225,  0.0155, -0.0011,
+         0.0123, -0.0102], device='cuda:0'), grad: tensor([ 0.0188,  0.0152,  0.0154,  0.0203,  0.0166,  0.0201,  0.0118, -0.0952,
+        -0.0538,  0.0309], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 361, time 216.68, cls_loss 0.4793 cls_loss_mapping 0.0041 cls_loss_causal 0.4525 re_mapping 0.0062 re_causal 0.0154 /// teacc 98.88 lr 0.00010000
+Epoch 363, weight, value: tensor([[-0.0696, -0.1055, -0.1509,  ...,  0.1226, -0.0640,  0.0338],
+        [-0.0844,  0.1108, -0.0674,  ...,  0.0490, -0.0655, -0.1038],
+        [-0.0370,  0.0867, -0.1241,  ..., -0.0117,  0.0389,  0.1271],
+        ...,
+        [-0.0038,  0.0707, -0.0039,  ..., -0.0224,  0.0297, -0.0680],
+        [ 0.0994, -0.1150,  0.0499,  ...,  0.0148,  0.0123, -0.0409],
+        [-0.0121, -0.0829,  0.0732,  ..., -0.0902,  0.0330, -0.0243]],
+       device='cuda:0'), grad: tensor([[ 2.6240e-07,  7.9811e-05,  1.4439e-05,  ..., -5.5161e-03,
+         -5.7745e-04,  2.1877e-03],
+        [ 1.6019e-07,  6.2287e-05,  3.9972e-06,  ...,  7.6580e-04,
+          6.0976e-05,  9.2685e-06],
+        [ 6.4494e-08, -5.7554e-04,  1.6699e-03,  ...,  6.1989e-04,
+          2.4738e-03,  6.0171e-05],
+        ...,
+        [ 1.1642e-09,  3.7819e-05,  1.8406e-04,  ...,  1.5461e-04,
+          3.0494e-04,  2.4065e-06],
+        [ 4.8429e-07,  7.3373e-05, -2.4872e-03,  ...,  6.1464e-04,
+         -3.3188e-03,  2.9370e-05],
+        [ 2.1420e-08,  7.1108e-05,  4.0555e-04,  ...,  7.8535e-04,
+          5.9700e-04,  4.7684e-06]], device='cuda:0')
+Epoch 363, bias, value: tensor([ 0.0135, -0.0050, -0.0143,  0.0080, -0.0157, -0.0213,  0.0150, -0.0015,
+         0.0134, -0.0104], device='cuda:0'), grad: tensor([ 0.0010,  0.0135, -0.0124,  0.0125,  0.0112,  0.0167, -0.0171, -0.0501,
+         0.0110,  0.0135], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 362, time 216.80, cls_loss 0.4628 cls_loss_mapping 0.0021 cls_loss_causal 0.4367 re_mapping 0.0062 re_causal 0.0160 /// teacc 98.88 lr 0.00010000
+Epoch 364, weight, value: tensor([[-0.0693, -0.1067, -0.1507,  ...,  0.1232, -0.0637,  0.0339],
+        [-0.0845,  0.1119, -0.0690,  ...,  0.0489, -0.0652, -0.1039],
+        [-0.0375,  0.0861, -0.1251,  ..., -0.0127,  0.0395,  0.1273],
+        ...,
+        [-0.0032,  0.0706, -0.0033,  ..., -0.0225,  0.0301, -0.0689],
+        [ 0.1003, -0.1152,  0.0501,  ...,  0.0151,  0.0122, -0.0421],
+        [-0.0128, -0.0827,  0.0736,  ..., -0.0897,  0.0330, -0.0232]],
+       device='cuda:0'), grad: tensor([[ 6.7043e-04,  1.0006e-05,  3.7122e-04,  ...,  6.2084e-04,
+          5.2595e-04,  1.5974e-03],
+        [ 3.9887e-04, -1.1273e-05,  2.1279e-04,  ...,  3.3998e-04,
+          3.8123e-04,  4.9734e-04],
+        [ 5.0211e-04,  9.4175e-05,  3.3784e-04,  ...,  1.3769e-04,
+          1.1358e-03, -6.0005e-03],
+        ...,
+        [-1.8940e-03,  4.0665e-03,  3.0060e-03,  ..., -1.4944e-03,
+          6.3038e-04, -7.0870e-05],
+        [ 7.5006e-04,  6.5386e-05,  5.8317e-04,  ...,  6.0272e-04,
+          7.8583e-04,  1.2531e-03],
+        [ 1.6212e-03,  6.2370e-04,  4.9934e-03,  ...,  3.3927e-04,
+          4.6196e-03,  4.8113e-04]], device='cuda:0')
+Epoch 364, bias, value: tensor([ 0.0135, -0.0044, -0.0150,  0.0077, -0.0144, -0.0215,  0.0149, -0.0021,
+         0.0145, -0.0114], device='cuda:0'), grad: tensor([ 0.0213,  0.0144, -0.0145, -0.0173, -0.0031,  0.0088, -0.0143, -0.0416,
+         0.0211,  0.0252], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 363, time 216.82, cls_loss 0.4614 cls_loss_mapping 0.0028 cls_loss_causal 0.4343 re_mapping 0.0059 re_causal 0.0149 /// teacc 98.89 lr 0.00010000
+Epoch 365, weight, value: tensor([[-0.0691, -0.1068, -0.1505,  ...,  0.1233, -0.0635,  0.0341],
+        [-0.0841,  0.1130, -0.0683,  ...,  0.0496, -0.0665, -0.1027],
+        [-0.0376,  0.0847, -0.1257,  ..., -0.0130,  0.0387,  0.1281],
+        ...,
+        [-0.0029,  0.0718, -0.0025,  ..., -0.0230,  0.0302, -0.0696],
+        [ 0.0992, -0.1167,  0.0507,  ...,  0.0149,  0.0126, -0.0428],
+        [-0.0124, -0.0829,  0.0735,  ..., -0.0904,  0.0326, -0.0227]],
+       device='cuda:0'), grad: tensor([[-3.0565e-04,  1.8537e-04, -5.1117e-03,  ..., -7.7200e-04,
+         -1.7090e-03, -9.0933e-04],
+        [ 5.3549e-04,  3.8958e-04,  1.2808e-03,  ...,  2.4891e-03,
+          1.8358e-04,  9.8896e-04],
+        [ 6.2704e-04,  2.1434e-04,  2.9969e-04,  ...,  9.1982e-04,
+          2.9847e-05,  3.1805e-04],
+        ...,
+        [-1.9913e-03,  1.8740e-04, -3.2940e-03,  ..., -1.1301e-03,
+          8.1897e-05, -1.3132e-03],
+        [ 2.0523e-03, -1.2894e-03,  2.6455e-03,  ..., -1.1969e-03,
+          4.1485e-04, -7.7307e-05],
+        [ 1.6320e-04, -3.8671e-04, -1.3227e-03,  ..., -4.9324e-03,
+         -7.9012e-04, -9.3746e-04]], device='cuda:0')
+Epoch 365, bias, value: tensor([ 0.0130, -0.0035, -0.0143,  0.0075, -0.0145, -0.0211,  0.0151, -0.0032,
+         0.0140, -0.0112], device='cuda:0'), grad: tensor([-0.0110, -0.0041,  0.0149, -0.0182,  0.0369,  0.0148, -0.0054, -0.0167,
+         0.0097, -0.0210], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 364, time 216.86, cls_loss 0.4841 cls_loss_mapping 0.0026 cls_loss_causal 0.4579 re_mapping 0.0059 re_causal 0.0163 /// teacc 98.97 lr 0.00010000
+Epoch 366, weight, value: tensor([[-0.0696, -0.1074, -0.1504,  ...,  0.1236, -0.0636,  0.0341],
+        [-0.0834,  0.1126, -0.0678,  ...,  0.0504, -0.0661, -0.1018],
+        [-0.0377,  0.0854, -0.1253,  ..., -0.0136,  0.0397,  0.1288],
+        ...,
+        [-0.0019,  0.0714, -0.0027,  ..., -0.0212,  0.0298, -0.0694],
+        [ 0.0986, -0.1152,  0.0516,  ...,  0.0150,  0.0128, -0.0438],
+        [-0.0133, -0.0818,  0.0747,  ..., -0.0911,  0.0326, -0.0232]],
+       device='cuda:0'), grad: tensor([[ 7.2360e-05,  1.2457e-04,  2.4557e-05,  ...,  5.6744e-05,
+         -1.1027e-05,  6.3896e-04],
+        [ 1.2212e-05, -7.0534e-03, -5.0774e-03,  ..., -8.6517e-03,
+         -1.7672e-03, -1.6937e-03],
+        [ 4.4197e-05, -4.1924e-03, -6.5727e-03,  ...,  6.0272e-04,
+         -1.2367e-02,  1.5974e-03],
+        ...,
+        [ 6.3324e-04,  7.9193e-03,  6.1913e-03,  ...,  2.2049e-03,
+          1.2695e-02,  3.9864e-04],
+        [-3.1066e-04,  2.3103e-04,  7.8630e-04,  ...,  8.7643e-04,
+          2.3329e-04, -2.6550e-03],
+        [-5.9128e-04,  1.4257e-03, -9.5673e-03,  ...,  2.6665e-03,
+         -7.1983e-03,  4.4751e-04]], device='cuda:0')
+Epoch 366, bias, value: tensor([ 0.0124, -0.0033, -0.0138,  0.0083, -0.0141, -0.0215,  0.0140, -0.0025,
+         0.0144, -0.0121], device='cuda:0'), grad: tensor([ 0.0094, -0.0424, -0.0032,  0.0090,  0.0261, -0.0240,  0.0060,  0.0357,
+        -0.0175,  0.0009], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 365, time 216.96, cls_loss 0.4716 cls_loss_mapping 0.0040 cls_loss_causal 0.4480 re_mapping 0.0059 re_causal 0.0154 /// teacc 98.80 lr 0.00010000
+Epoch 367, weight, value: tensor([[-0.0699, -0.1067, -0.1509,  ...,  0.1237, -0.0630,  0.0348],
+        [-0.0840,  0.1122, -0.0665,  ...,  0.0509, -0.0647, -0.1005],
+        [-0.0378,  0.0869, -0.1252,  ..., -0.0137,  0.0402,  0.1286],
+        ...,
+        [-0.0016,  0.0707, -0.0035,  ..., -0.0229,  0.0288, -0.0700],
+        [ 0.0975, -0.1168,  0.0515,  ...,  0.0145,  0.0128, -0.0429],
+        [-0.0134, -0.0819,  0.0736,  ..., -0.0924,  0.0322, -0.0249]],
+       device='cuda:0'), grad: tensor([[ 6.8188e-05,  2.0778e-04, -5.6458e-04,  ..., -7.5483e-04,
+          6.9141e-05, -6.0797e-05],
+        [ 7.1637e-06, -9.5308e-05,  3.1233e-05,  ..., -7.1287e-04,
+          2.1055e-05, -1.1892e-03],
+        [ 8.7023e-06,  3.1209e-04,  3.4660e-05,  ...,  8.2302e-04,
+          3.2449e-04,  3.7217e-04],
+        ...,
+        [-5.5408e-04, -1.4410e-03, -2.3460e-04,  ..., -3.9458e-04,
+         -8.3590e-04,  1.7285e-04],
+        [ 2.9027e-05, -8.0168e-05,  8.8155e-05,  ..., -9.3603e-04,
+         -3.1090e-04, -2.0635e-04],
+        [ 5.0306e-04,  8.6308e-04, -5.2404e-04,  ...,  5.6982e-04,
+          2.9945e-04,  1.2732e-04]], device='cuda:0')
+Epoch 367, bias, value: tensor([ 0.0125, -0.0038, -0.0145,  0.0086, -0.0133, -0.0210,  0.0126, -0.0017,
+         0.0138, -0.0115], device='cuda:0'), grad: tensor([ 0.0022, -0.0240,  0.0182,  0.0108,  0.0085,  0.0108,  0.0094,  0.0020,
+        -0.0119, -0.0260], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 366, time 217.07, cls_loss 0.4731 cls_loss_mapping 0.0022 cls_loss_causal 0.4494 re_mapping 0.0059 re_causal 0.0160 /// teacc 98.87 lr 0.00010000
+Epoch 368, weight, value: tensor([[-0.0697, -0.1067, -0.1496,  ...,  0.1227, -0.0630,  0.0348],
+        [-0.0838,  0.1136, -0.0679,  ...,  0.0506, -0.0651, -0.1018],
+        [-0.0375,  0.0862, -0.1256,  ..., -0.0141,  0.0403,  0.1282],
+        ...,
+        [-0.0016,  0.0711, -0.0015,  ..., -0.0230,  0.0302, -0.0704],
+        [ 0.0986, -0.1180,  0.0512,  ...,  0.0147,  0.0129, -0.0426],
+        [-0.0136, -0.0828,  0.0729,  ..., -0.0923,  0.0322, -0.0230]],
+       device='cuda:0'), grad: tensor([[ 7.7844e-05,  1.0765e-04,  2.0444e-04,  ...,  5.1260e-04,
+          9.1612e-05,  9.2745e-05],
+        [-1.1759e-03,  7.4148e-05,  1.4210e-04,  ...,  4.2496e-03,
+          6.4708e-06,  7.3850e-05],
+        [ 5.2363e-05, -6.8855e-04,  1.6451e-04,  ...,  1.1069e-04,
+          9.6738e-05, -7.1573e-04],
+        ...,
+        [ 6.3944e-04,  2.2686e-04,  1.3971e-03,  ...,  7.9823e-04,
+          6.3992e-04,  1.5152e-04],
+        [ 8.2970e-05,  3.2020e-04,  3.8576e-04,  ...,  4.4465e-04,
+          3.0160e-04,  2.5773e-04],
+        [-8.7917e-05, -1.7035e-04, -2.1992e-03,  ...,  5.0688e-04,
+         -1.7853e-03,  1.0979e-04]], device='cuda:0')
+Epoch 368, bias, value: tensor([ 0.0129, -0.0047, -0.0129,  0.0072, -0.0146, -0.0220,  0.0125, -0.0010,
+         0.0145, -0.0103], device='cuda:0'), grad: tensor([ 0.0112,  0.0031,  0.0068,  0.0109,  0.0119, -0.0175, -0.0349,  0.0205,
+         0.0111, -0.0231], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 367, time 216.95, cls_loss 0.4771 cls_loss_mapping 0.0025 cls_loss_causal 0.4552 re_mapping 0.0059 re_causal 0.0158 /// teacc 98.97 lr 0.00010000
+Epoch 369, weight, value: tensor([[-0.0703, -0.1071, -0.1503,  ...,  0.1223, -0.0628,  0.0347],
+        [-0.0838,  0.1135, -0.0675,  ...,  0.0511, -0.0648, -0.1017],
+        [-0.0376,  0.0854, -0.1274,  ..., -0.0145,  0.0397,  0.1291],
+        ...,
+        [-0.0018,  0.0715, -0.0014,  ..., -0.0231,  0.0302, -0.0706],
+        [ 0.0983, -0.1193,  0.0520,  ...,  0.0141,  0.0128, -0.0425],
+        [-0.0144, -0.0822,  0.0727,  ..., -0.0921,  0.0325, -0.0232]],
+       device='cuda:0'), grad: tensor([[-1.9085e-04,  2.5686e-06, -3.9959e-04,  ...,  1.2094e-04,
+          3.1769e-05, -1.8282e-06],
+        [ 3.3832e-04, -5.1200e-05,  3.4142e-04,  ..., -1.4806e-04,
+          1.2231e-04,  7.5949e-07],
+        [-2.6455e-03, -3.0518e-04, -5.2834e-03,  ..., -3.3112e-03,
+         -2.0027e-03, -1.8144e-04],
+        ...,
+        [ 5.7793e-04, -4.3869e-03, -4.1466e-03,  ...,  6.2275e-04,
+         -4.6120e-03,  3.1618e-07],
+        [ 2.1005e-04,  1.3061e-05,  1.9646e-03,  ...,  7.9393e-04,
+          7.0667e-04,  2.6915e-07],
+        [ 5.8126e-04,  4.3144e-03,  6.9923e-03,  ...,  3.6168e-04,
+          5.9471e-03,  5.9232e-07]], device='cuda:0')
+Epoch 369, bias, value: tensor([ 0.0128, -0.0038, -0.0143,  0.0081, -0.0140, -0.0212,  0.0118, -0.0005,
+         0.0133, -0.0106], device='cuda:0'), grad: tensor([-0.0164, -0.0019, -0.0052,  0.0173, -0.0003,  0.0162, -0.0053, -0.0210,
+        -0.0150,  0.0316], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 368, time 217.28, cls_loss 0.4585 cls_loss_mapping 0.0024 cls_loss_causal 0.4325 re_mapping 0.0061 re_causal 0.0162 /// teacc 98.76 lr 0.00010000
+Epoch 370, weight, value: tensor([[-0.0717, -0.1075, -0.1515,  ...,  0.1233, -0.0630,  0.0343],
+        [-0.0841,  0.1135, -0.0656,  ...,  0.0519, -0.0639, -0.1016],
+        [-0.0379,  0.0859, -0.1276,  ..., -0.0138,  0.0406,  0.1288],
+        ...,
+        [-0.0015,  0.0718, -0.0016,  ..., -0.0241,  0.0297, -0.0716],
+        [ 0.0998, -0.1204,  0.0515,  ...,  0.0126,  0.0117, -0.0420],
+        [-0.0152, -0.0827,  0.0724,  ..., -0.0917,  0.0333, -0.0223]],
+       device='cuda:0'), grad: tensor([[ 1.6298e-08,  4.3392e-05, -6.5804e-03,  ...,  8.5309e-06,
+         -4.2648e-03,  3.4499e-04],
+        [ 9.0338e-08,  5.7077e-04,  7.4482e-04,  ...,  3.4779e-05,
+          5.1212e-04,  4.7386e-06],
+        [ 4.3306e-08, -1.5087e-03, -1.5297e-03,  ..., -1.8239e-04,
+         -1.1568e-03,  3.1090e-03],
+        ...,
+        [ 2.9411e-06,  9.3758e-05,  3.0422e-03,  ...,  1.5333e-05,
+          1.9798e-03,  1.8766e-06],
+        [ 2.7508e-05,  1.9324e-04,  5.3310e-04,  ...,  3.3170e-05,
+          3.5763e-04,  2.6398e-03],
+        [-5.5134e-05,  1.6308e-04,  1.4315e-03,  ...,  3.4243e-05,
+          1.0519e-03,  1.4976e-05]], device='cuda:0')
+Epoch 370, bias, value: tensor([ 0.0119, -0.0038, -0.0137,  0.0082, -0.0136, -0.0214,  0.0123, -0.0014,
+         0.0131, -0.0101], device='cuda:0'), grad: tensor([-0.0477,  0.0384, -0.0225,  0.0217, -0.0067, -0.0111, -0.0356, -0.0007,
+         0.0383,  0.0257], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 369, time 217.07, cls_loss 0.4920 cls_loss_mapping 0.0022 cls_loss_causal 0.4754 re_mapping 0.0060 re_causal 0.0156 /// teacc 98.88 lr 0.00010000
+Epoch 371, weight, value: tensor([[-0.0710, -0.1067, -0.1520,  ...,  0.1235, -0.0632,  0.0345],
+        [-0.0833,  0.1128, -0.0646,  ...,  0.0524, -0.0638, -0.1014],
+        [-0.0375,  0.0862, -0.1274,  ..., -0.0142,  0.0414,  0.1292],
+        ...,
+        [-0.0009,  0.0729, -0.0027,  ..., -0.0238,  0.0303, -0.0725],
+        [ 0.0994, -0.1205,  0.0520,  ...,  0.0125,  0.0116, -0.0409],
+        [-0.0154, -0.0838,  0.0723,  ..., -0.0918,  0.0323, -0.0234]],
+       device='cuda:0'), grad: tensor([[ 1.2636e-04,  1.3873e-05,  5.8591e-05,  ...,  7.9060e-04,
+          9.7752e-05,  2.8777e-04],
+        [ 3.3617e-05,  4.4899e-03,  1.6525e-05,  ...,  2.6760e-03,
+          6.6571e-06,  1.4901e-04],
+        [ 2.1648e-04,  6.9284e-04,  1.6892e-04,  ...,  6.1131e-04,
+          1.7965e-04,  1.5533e-04],
+        ...,
+        [ 3.2466e-06, -5.7526e-03,  6.8378e-04,  ..., -2.4281e-03,
+          4.8327e-04,  9.6679e-05],
+        [-2.9621e-03,  1.1200e-04,  5.8889e-04,  ...,  3.0518e-04,
+         -3.1834e-03,  1.0371e-04],
+        [ 1.2636e-05,  3.3319e-05, -2.2850e-03,  ...,  2.3448e-04,
+         -1.8883e-03, -3.1531e-05]], device='cuda:0')
+Epoch 371, bias, value: tensor([ 0.0124, -0.0028, -0.0139,  0.0081, -0.0141, -0.0214,  0.0118, -0.0008,
+         0.0126, -0.0104], device='cuda:0'), grad: tensor([ 0.0102,  0.0317,  0.0107,  0.0010,  0.0037, -0.0236, -0.0142, -0.0273,
+         0.0025,  0.0052], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 370, time 217.32, cls_loss 0.4716 cls_loss_mapping 0.0024 cls_loss_causal 0.4387 re_mapping 0.0063 re_causal 0.0160 /// teacc 98.87 lr 0.00010000
+Epoch 372, weight, value: tensor([[-0.0717, -0.1074, -0.1523,  ...,  0.1247, -0.0626,  0.0353],
+        [-0.0827,  0.1132, -0.0640,  ...,  0.0515, -0.0645, -0.0994],
+        [-0.0381,  0.0869, -0.1278,  ..., -0.0138,  0.0410,  0.1266],
+        ...,
+        [ 0.0019,  0.0724, -0.0026,  ..., -0.0249,  0.0293, -0.0732],
+        [ 0.0986, -0.1214,  0.0514,  ...,  0.0135,  0.0127, -0.0404],
+        [-0.0152, -0.0837,  0.0729,  ..., -0.0923,  0.0327, -0.0229]],
+       device='cuda:0'), grad: tensor([[ 9.1672e-05,  9.2745e-05,  1.3838e-03,  ...,  4.8876e-04,
+          8.9645e-05,  5.9813e-05],
+        [ 1.6665e-04, -1.5507e-03, -1.1625e-03,  ..., -1.4763e-03,
+          1.6296e-04,  1.1003e-04],
+        [ 2.1946e-04,  1.3995e-04,  2.0742e-04,  ...,  1.0462e-03,
+          1.7798e-04,  9.1314e-05],
+        ...,
+        [ 6.1607e-04,  1.0757e-03,  1.1187e-03,  ...,  2.1973e-03,
+          6.6948e-04,  4.2415e-04],
+        [ 3.5024e-04,  5.5504e-04,  7.8201e-04,  ...,  8.8978e-04,
+          3.6788e-04,  2.0897e-04],
+        [ 2.7037e-04,  8.1301e-04,  4.3182e-03,  ...,  1.2465e-03,
+          1.9121e-04,  1.8120e-04]], device='cuda:0')
+Epoch 372, bias, value: tensor([ 0.0120, -0.0031, -0.0143,  0.0082, -0.0139, -0.0219,  0.0130, -0.0016,
+         0.0139, -0.0107], device='cuda:0'), grad: tensor([ 0.0149,  0.0043,  0.0188, -0.0147, -0.0313, -0.0328, -0.0438,  0.0378,
+         0.0171,  0.0297], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 371, time 217.01, cls_loss 0.4586 cls_loss_mapping 0.0022 cls_loss_causal 0.4308 re_mapping 0.0060 re_causal 0.0157 /// teacc 98.84 lr 0.00010000
+Epoch 373, weight, value: tensor([[-0.0713, -0.1066, -0.1513,  ...,  0.1246, -0.0637,  0.0356],
+        [-0.0831,  0.1124, -0.0639,  ...,  0.0516, -0.0636, -0.0992],
+        [-0.0373,  0.0879, -0.1278,  ..., -0.0122,  0.0407,  0.1262],
+        ...,
+        [ 0.0016,  0.0718, -0.0025,  ..., -0.0255,  0.0294, -0.0743],
+        [ 0.0991, -0.1197,  0.0505,  ...,  0.0136,  0.0128, -0.0397],
+        [-0.0136, -0.0838,  0.0733,  ..., -0.0922,  0.0337, -0.0235]],
+       device='cuda:0'), grad: tensor([[ 5.3376e-05,  1.7643e-05,  4.6229e-04,  ...,  6.6519e-05,
+          2.2659e-02, -2.6310e-07],
+        [ 1.3933e-03,  8.5688e-04, -1.9226e-03,  ...,  3.6102e-02,
+          2.9802e-07,  6.6729e-07],
+        [ 9.4652e-05,  2.0771e-03,  3.6693e-04,  ...,  5.7161e-05,
+          1.4111e-05,  6.6310e-06],
+        ...,
+        [ 1.3359e-05, -4.9400e-03, -4.3344e-04,  ...,  2.6655e-04,
+         -6.3367e-06,  2.7055e-07],
+        [ 8.9836e-04,  6.8128e-05,  1.0815e-03,  ..., -3.6926e-02,
+          4.4331e-06,  3.9414e-06],
+        [ 5.1737e-05,  1.0896e-04,  1.7481e-03,  ...,  1.4806e-04,
+         -2.2675e-02,  1.0738e-06]], device='cuda:0')
+Epoch 373, bias, value: tensor([ 0.0137, -0.0028, -0.0142,  0.0082, -0.0146, -0.0223,  0.0121, -0.0016,
+         0.0129, -0.0098], device='cuda:0'), grad: tensor([ 0.0456,  0.0009,  0.0150, -0.0086, -0.0008, -0.0409,  0.0120, -0.0255,
+        -0.0011,  0.0034], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 372, time 217.39, cls_loss 0.4808 cls_loss_mapping 0.0049 cls_loss_causal 0.4581 re_mapping 0.0056 re_causal 0.0146 /// teacc 98.85 lr 0.00010000
+Epoch 374, weight, value: tensor([[-0.0722, -0.1071, -0.1507,  ...,  0.1262, -0.0644,  0.0366],
+        [-0.0843,  0.1124, -0.0638,  ...,  0.0512, -0.0633, -0.0996],
+        [-0.0364,  0.0876, -0.1293,  ..., -0.0120,  0.0405,  0.1261],
+        ...,
+        [ 0.0014,  0.0724, -0.0037,  ..., -0.0267,  0.0293, -0.0748],
+        [ 0.0981, -0.1186,  0.0502,  ...,  0.0153,  0.0131, -0.0396],
+        [-0.0137, -0.0838,  0.0735,  ..., -0.0932,  0.0335, -0.0241]],
+       device='cuda:0'), grad: tensor([[ 8.7857e-05,  4.1604e-05,  3.4356e-04,  ...,  6.0654e-04,
+         -1.8161e-08,  1.6737e-04],
+        [ 1.3041e-04, -8.6451e-04,  1.0033e-03,  ...,  2.5439e-04,
+          2.5183e-06,  9.9599e-05],
+        [ 9.3341e-05,  4.3035e-04,  3.4952e-04,  ...,  1.0271e-03,
+         -3.4589e-06,  2.7493e-05],
+        ...,
+        [ 1.3542e-04,  6.0987e-04,  1.2188e-03,  ...,  1.2970e-03,
+          1.5451e-06,  1.1927e-04],
+        [-1.2720e-04, -6.0844e-04, -8.0185e-03,  ..., -2.7800e-04,
+          2.6915e-07,  3.3283e-04],
+        [ 1.7297e-04,  1.7524e-04,  3.9330e-03,  ..., -2.9106e-03,
+         -1.8924e-05,  1.5342e-04]], device='cuda:0')
+Epoch 374, bias, value: tensor([ 0.0133, -0.0030, -0.0139,  0.0086, -0.0149, -0.0220,  0.0120, -0.0015,
+         0.0129, -0.0100], device='cuda:0'), grad: tensor([-0.0135,  0.0239,  0.0194, -0.0113,  0.0162, -0.0102, -0.0104,  0.0268,
+        -0.0235, -0.0173], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 373, time 217.35, cls_loss 0.4653 cls_loss_mapping 0.0043 cls_loss_causal 0.4444 re_mapping 0.0057 re_causal 0.0147 /// teacc 98.78 lr 0.00010000
+Epoch 375, weight, value: tensor([[-0.0732, -0.1056, -0.1507,  ...,  0.1267, -0.0635,  0.0372],
+        [-0.0841,  0.1121, -0.0643,  ...,  0.0513, -0.0637, -0.0994],
+        [-0.0377,  0.0876, -0.1284,  ..., -0.0124,  0.0411,  0.1270],
+        ...,
+        [ 0.0025,  0.0724, -0.0041,  ..., -0.0274,  0.0291, -0.0748],
+        [ 0.0981, -0.1185,  0.0510,  ...,  0.0153,  0.0130, -0.0402],
+        [-0.0139, -0.0840,  0.0731,  ..., -0.0943,  0.0331, -0.0248]],
+       device='cuda:0'), grad: tensor([[ 1.9580e-05,  9.8467e-05,  1.3285e-03,  ...,  1.6975e-03,
+          5.0211e-04,  9.7322e-04],
+        [ 4.4443e-06,  7.3731e-05,  9.6858e-05,  ...,  4.4405e-05,
+          2.2545e-05,  4.2051e-05],
+        [ 6.2995e-06, -2.0981e-03,  3.4738e-04,  ...,  3.1090e-04,
+          1.2481e-04,  1.8811e-04],
+        ...,
+        [ 2.8595e-05,  1.1034e-03,  4.5657e-04,  ...,  1.8609e-04,
+          7.6830e-05,  2.0623e-04],
+        [ 5.2124e-05,  2.6870e-04, -2.0294e-03,  ..., -3.6945e-03,
+         -9.0694e-04, -1.9550e-03],
+        [-1.7762e-04, -4.1342e-04, -7.4863e-04,  ...,  4.9639e-04,
+          5.5933e-04, -2.7370e-04]], device='cuda:0')
+Epoch 375, bias, value: tensor([ 0.0136, -0.0026, -0.0132,  0.0088, -0.0151, -0.0217,  0.0125, -0.0015,
+         0.0117, -0.0108], device='cuda:0'), grad: tensor([ 0.0098,  0.0046, -0.0339,  0.0084,  0.0046, -0.0015,  0.0059,  0.0110,
+        -0.0037, -0.0051], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 374, time 217.06, cls_loss 0.4781 cls_loss_mapping 0.0039 cls_loss_causal 0.4551 re_mapping 0.0059 re_causal 0.0155 /// teacc 98.90 lr 0.00010000
+Epoch 376, weight, value: tensor([[-0.0741, -0.1057, -0.1499,  ...,  0.1264, -0.0629,  0.0379],
+        [-0.0840,  0.1117, -0.0645,  ...,  0.0516, -0.0637, -0.0992],
+        [-0.0375,  0.0884, -0.1301,  ..., -0.0127,  0.0407,  0.1263],
+        ...,
+        [ 0.0017,  0.0722, -0.0052,  ..., -0.0266,  0.0291, -0.0755],
+        [ 0.0992, -0.1185,  0.0519,  ...,  0.0151,  0.0128, -0.0413],
+        [-0.0143, -0.0842,  0.0728,  ..., -0.0952,  0.0324, -0.0248]],
+       device='cuda:0'), grad: tensor([[-2.0683e-05,  1.3128e-05,  2.7442e-04,  ...,  1.4961e-04,
+          2.5388e-06,  2.6468e-06],
+        [-4.1342e-04, -4.4778e-06,  4.9305e-04,  ..., -4.6268e-06,
+          1.3247e-05,  2.0582e-06],
+        [ 5.3287e-05,  1.2493e-04,  1.9350e-03,  ...,  4.8637e-04,
+          9.1791e-06,  2.2918e-05],
+        ...,
+        [ 4.6778e-04,  1.8626e-05,  2.4776e-03,  ...,  5.2357e-04,
+          9.7847e-04,  1.0483e-05],
+        [ 3.3307e-04,  7.5877e-05,  1.4658e-03,  ...,  9.5010e-05,
+          1.3793e-04,  2.3544e-05],
+        [-4.5090e-03,  2.5019e-05, -3.5496e-03,  ..., -3.0651e-03,
+         -1.2808e-03,  7.1526e-06]], device='cuda:0')
+Epoch 376, bias, value: tensor([ 0.0124, -0.0027, -0.0139,  0.0094, -0.0153, -0.0220,  0.0127, -0.0011,
+         0.0132, -0.0112], device='cuda:0'), grad: tensor([ 0.0045,  0.0131,  0.0122, -0.0217,  0.0133,  0.0018, -0.0045,  0.0135,
+        -0.0011, -0.0312], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 375, time 217.32, cls_loss 0.4794 cls_loss_mapping 0.0031 cls_loss_causal 0.4605 re_mapping 0.0057 re_causal 0.0148 /// teacc 98.74 lr 0.00010000
+Epoch 377, weight, value: tensor([[-0.0737, -0.1048, -0.1506,  ...,  0.1256, -0.0632,  0.0376],
+        [-0.0841,  0.1113, -0.0636,  ...,  0.0524, -0.0635, -0.0987],
+        [-0.0384,  0.0887, -0.1304,  ..., -0.0134,  0.0414,  0.1268],
+        ...,
+        [ 0.0013,  0.0723, -0.0052,  ..., -0.0263,  0.0289, -0.0762],
+        [ 0.1002, -0.1199,  0.0511,  ...,  0.0132,  0.0123, -0.0420],
+        [-0.0150, -0.0834,  0.0730,  ..., -0.0957,  0.0325, -0.0255]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-09,  1.1498e-04,  4.3392e-04,  ..., -8.6164e-04,
+          1.1614e-06,  1.7695e-08],
+        [ 1.4156e-07,  9.9361e-05,  1.7822e-04,  ...,  2.0714e-03,
+          4.1723e-05,  2.7940e-09],
+        [ 2.1420e-08,  2.9526e-03,  4.9412e-05,  ...,  4.1428e-03,
+         -7.3671e-04,  2.5192e-02],
+        ...,
+        [ 4.3035e-05, -5.6791e-04,  7.8249e-04,  ...,  3.4733e-03,
+          5.2309e-04,  1.8999e-07],
+        [ 7.1339e-06,  2.9013e-05,  1.2386e-04,  ...,  1.6937e-03,
+          7.2755e-06,  4.1910e-08],
+        [-1.6830e-02,  2.2411e-04, -2.1515e-02,  ...,  1.9569e-03,
+         -1.3864e-04,  2.7940e-09]], device='cuda:0')
+Epoch 377, bias, value: tensor([ 0.0120, -0.0018, -0.0157,  0.0110, -0.0148, -0.0223,  0.0125, -0.0010,
+         0.0122, -0.0107], device='cuda:0'), grad: tensor([ 0.0124,  0.0002,  0.0188, -0.0035, -0.0164, -0.0008,  0.0229,  0.0050,
+        -0.0099, -0.0288], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 376, time 217.00, cls_loss 0.4835 cls_loss_mapping 0.0028 cls_loss_causal 0.4579 re_mapping 0.0057 re_causal 0.0147 /// teacc 98.90 lr 0.00010000
+Epoch 378, weight, value: tensor([[-0.0749, -0.1058, -0.1501,  ...,  0.1259, -0.0640,  0.0366],
+        [-0.0843,  0.1114, -0.0638,  ...,  0.0524, -0.0633, -0.0983],
+        [-0.0382,  0.0879, -0.1303,  ..., -0.0136,  0.0422,  0.1266],
+        ...,
+        [ 0.0016,  0.0730, -0.0046,  ..., -0.0269,  0.0283, -0.0776],
+        [ 0.1012, -0.1202,  0.0509,  ...,  0.0129,  0.0117, -0.0412],
+        [-0.0137, -0.0836,  0.0745,  ..., -0.0958,  0.0331, -0.0256]],
+       device='cuda:0'), grad: tensor([[ 1.6892e-04,  6.2048e-05,  6.4611e-04,  ...,  1.5078e-03,
+          1.5869e-03, -4.4136e-03],
+        [-1.8291e-03,  2.6846e-04,  2.5940e-04,  ...,  7.6027e-03,
+          2.8706e-03,  3.2210e-04],
+        [ 1.8024e-04, -1.0653e-03,  6.6996e-04,  ...,  3.5610e-03,
+          2.5558e-03,  1.9588e-03],
+        ...,
+        [ 2.6345e-04,  2.8157e-04,  3.0923e-04,  ...,  8.4782e-04,
+          6.7329e-04,  3.4142e-04],
+        [ 2.3818e-04,  1.2493e-04,  6.8474e-04,  ..., -1.5717e-02,
+         -3.2120e-03,  2.5291e-03],
+        [ 5.0621e-03,  7.8440e-05, -5.7888e-04,  ...,  6.1941e-04,
+         -9.1600e-04,  8.8882e-04]], device='cuda:0')
+Epoch 378, bias, value: tensor([ 0.0122, -0.0019, -0.0147,  0.0115, -0.0160, -0.0219,  0.0117, -0.0024,
+         0.0122, -0.0095], device='cuda:0'), grad: tensor([ 0.0014,  0.0113,  0.0320, -0.0216, -0.0052,  0.0273,  0.0023, -0.0378,
+         0.0122, -0.0219], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 377, time 216.90, cls_loss 0.4886 cls_loss_mapping 0.0028 cls_loss_causal 0.4644 re_mapping 0.0057 re_causal 0.0149 /// teacc 98.76 lr 0.00010000
+Epoch 379, weight, value: tensor([[-0.0739, -0.1064, -0.1503,  ...,  0.1249, -0.0643,  0.0372],
+        [-0.0855,  0.1109, -0.0620,  ...,  0.0508, -0.0637, -0.0984],
+        [-0.0386,  0.0880, -0.1321,  ..., -0.0144,  0.0415,  0.1263],
+        ...,
+        [ 0.0009,  0.0726, -0.0042,  ..., -0.0263,  0.0295, -0.0776],
+        [ 0.1015, -0.1183,  0.0496,  ...,  0.0141,  0.0108, -0.0424],
+        [-0.0135, -0.0839,  0.0759,  ..., -0.0960,  0.0344, -0.0255]],
+       device='cuda:0'), grad: tensor([[ 7.4804e-05,  1.3363e-04,  7.0706e-06,  ...,  1.0306e-04,
+          2.5332e-07,  6.8188e-05],
+        [ 1.0484e-04, -1.4305e-03,  5.8621e-05,  ..., -1.7071e-03,
+          4.6566e-09,  6.3598e-05],
+        [ 7.6711e-05,  2.0766e-04,  1.3582e-05,  ...,  1.5342e-04,
+          9.2201e-08,  9.2864e-05],
+        ...,
+        [-7.2479e-04,  6.8322e-06, -8.7929e-04,  ..., -8.5068e-04,
+          4.3958e-07,  3.4332e-05],
+        [ 2.4629e-04,  1.5354e-04,  2.1935e-05,  ...,  1.4555e-04,
+          9.5833e-07,  6.1274e-05],
+        [-1.1612e-02,  9.9599e-05,  7.3290e-04,  ...,  8.4782e-04,
+          6.6590e-07,  5.3346e-05]], device='cuda:0')
+Epoch 379, bias, value: tensor([ 0.0130, -0.0020, -0.0146,  0.0116, -0.0156, -0.0218,  0.0118, -0.0033,
+         0.0123, -0.0100], device='cuda:0'), grad: tensor([-0.0151,  0.0074,  0.0181,  0.0178,  0.0293, -0.0178, -0.0390,  0.0034,
+         0.0153, -0.0193], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 378, time 216.69, cls_loss 0.4972 cls_loss_mapping 0.0025 cls_loss_causal 0.4697 re_mapping 0.0056 re_causal 0.0142 /// teacc 98.83 lr 0.00010000
+Epoch 380, weight, value: tensor([[-0.0735, -0.1066, -0.1511,  ...,  0.1241, -0.0646,  0.0365],
+        [-0.0863,  0.1114, -0.0619,  ...,  0.0509, -0.0631, -0.0982],
+        [-0.0388,  0.0863, -0.1332,  ..., -0.0141,  0.0419,  0.1268],
+        ...,
+        [ 0.0014,  0.0740, -0.0030,  ..., -0.0264,  0.0298, -0.0779],
+        [ 0.1016, -0.1184,  0.0500,  ...,  0.0152,  0.0103, -0.0418],
+        [-0.0143, -0.0841,  0.0751,  ..., -0.0955,  0.0340, -0.0259]],
+       device='cuda:0'), grad: tensor([[ 1.3161e-04,  2.6274e-04,  3.8671e-04,  ...,  2.1124e-04,
+          2.3186e-04,  2.4462e-04],
+        [-3.9744e-04, -1.9875e-03, -4.2343e-03,  ..., -2.5635e-03,
+         -2.3918e-03, -8.4686e-04],
+        [-8.4686e-04,  3.4261e-04,  5.8365e-04,  ...,  4.5371e-04,
+          4.2939e-04, -1.3561e-03],
+        ...,
+        [ 4.3303e-05, -9.1028e-04, -3.6645e-04,  ..., -1.0890e-04,
+         -1.3173e-04, -5.8025e-05],
+        [ 4.1294e-04,  6.1655e-04,  2.9993e-04,  ...,  5.1785e-04,
+          2.6822e-04,  7.0000e-04],
+        [ 3.0726e-05,  4.3392e-04,  4.9210e-04,  ...,  1.9217e-04,
+         -1.3685e-04,  1.2350e-04]], device='cuda:0')
+Epoch 380, bias, value: tensor([ 0.0140, -0.0026, -0.0147,  0.0118, -0.0152, -0.0220,  0.0118, -0.0024,
+         0.0106, -0.0099], device='cuda:0'), grad: tensor([ 0.0136, -0.0373, -0.0257,  0.0128,  0.0475, -0.0490, -0.0032,  0.0103,
+         0.0193,  0.0116], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 379, time 217.34, cls_loss 0.5081 cls_loss_mapping 0.0025 cls_loss_causal 0.4810 re_mapping 0.0058 re_causal 0.0151 /// teacc 98.70 lr 0.00010000
+Epoch 381, weight, value: tensor([[-0.0744, -0.1067, -0.1509,  ...,  0.1237, -0.0631,  0.0362],
+        [-0.0880,  0.1118, -0.0626,  ...,  0.0514, -0.0632, -0.0977],
+        [-0.0378,  0.0865, -0.1323,  ..., -0.0143,  0.0415,  0.1271],
+        ...,
+        [ 0.0005,  0.0733, -0.0022,  ..., -0.0261,  0.0290, -0.0796],
+        [ 0.1008, -0.1172,  0.0497,  ...,  0.0150,  0.0108, -0.0402],
+        [-0.0150, -0.0835,  0.0755,  ..., -0.0956,  0.0333, -0.0277]],
+       device='cuda:0'), grad: tensor([[ 8.0317e-06,  1.0425e-04,  3.0971e-04,  ...,  8.3983e-05,
+          4.8113e-04,  9.5189e-05],
+        [ 1.2350e-04,  5.7936e-04,  1.1379e-04,  ...,  1.8787e-04,
+          1.7405e-04,  5.4502e-04],
+        [ 1.0891e-03,  2.1591e-03,  9.1982e-04,  ..., -1.4715e-03,
+          1.4267e-03,  2.1610e-03],
+        ...,
+        [ 1.9670e-04,  3.5858e-04,  8.7118e-04,  ...,  9.7692e-05,
+          3.5119e-04,  7.1812e-04],
+        [ 6.3360e-05,  5.6362e-04,  1.0878e-04,  ...,  3.7861e-04,
+          1.2791e-04,  5.1117e-04],
+        [-1.6537e-03, -4.9400e-03, -2.3556e-03,  ...,  6.0737e-05,
+         -2.9316e-03, -5.1155e-03]], device='cuda:0')
+Epoch 381, bias, value: tensor([ 0.0148, -0.0025, -0.0147,  0.0115, -0.0151, -0.0221,  0.0106, -0.0021,
+         0.0113, -0.0102], device='cuda:0'), grad: tensor([-0.0155,  0.0026,  0.0163,  0.0128,  0.0149,  0.0113,  0.0055,  0.0120,
+         0.0218, -0.0816], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 380, time 216.82, cls_loss 0.4808 cls_loss_mapping 0.0039 cls_loss_causal 0.4593 re_mapping 0.0059 re_causal 0.0153 /// teacc 98.75 lr 0.00010000
+Epoch 382, weight, value: tensor([[-0.0743, -0.1075, -0.1520,  ...,  0.1237, -0.0631,  0.0373],
+        [-0.0871,  0.1115, -0.0638,  ...,  0.0510, -0.0627, -0.0981],
+        [-0.0374,  0.0865, -0.1318,  ..., -0.0134,  0.0409,  0.1269],
+        ...,
+        [ 0.0008,  0.0725, -0.0025,  ..., -0.0269,  0.0292, -0.0812],
+        [ 0.1008, -0.1177,  0.0496,  ...,  0.0146,  0.0123, -0.0404],
+        [-0.0162, -0.0823,  0.0758,  ..., -0.0923,  0.0325, -0.0287]],
+       device='cuda:0'), grad: tensor([[ 4.1914e-04,  3.0920e-07,  7.1096e-04,  ...,  9.9373e-04,
+          2.1398e-04,  8.5258e-04],
+        [ 2.2364e-04, -4.3869e-05, -4.1962e-03,  ..., -1.0605e-03,
+         -1.9073e-04,  1.5929e-05],
+        [ 2.7984e-05,  6.6608e-06,  6.4850e-04,  ...,  2.6393e-04,
+          8.4381e-03,  8.9645e-03],
+        ...,
+        [-8.2016e-05, -5.6446e-05,  9.9754e-04,  ...,  1.1462e-04,
+          2.2316e-04,  5.7638e-05],
+        [ 4.2295e-04,  3.4161e-06,  2.9316e-03,  ...,  3.9792e-04,
+          5.7316e-04,  3.4642e-04],
+        [-3.4580e-03,  6.5506e-05, -1.0704e-02,  ...,  3.5119e-04,
+         -5.4598e-04,  2.0826e-04]], device='cuda:0')
+Epoch 382, bias, value: tensor([ 0.0148, -0.0022, -0.0138,  0.0107, -0.0150, -0.0218,  0.0102, -0.0023,
+         0.0107, -0.0098], device='cuda:0'), grad: tensor([-0.0169, -0.0256,  0.0203, -0.0239,  0.0228,  0.0154, -0.0016,  0.0105,
+         0.0150, -0.0161], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 381, time 217.30, cls_loss 0.4632 cls_loss_mapping 0.0036 cls_loss_causal 0.4452 re_mapping 0.0062 re_causal 0.0155 /// teacc 98.90 lr 0.00010000
+Epoch 383, weight, value: tensor([[-0.0749, -0.1072, -0.1520,  ...,  0.1243, -0.0635,  0.0379],
+        [-0.0871,  0.1123, -0.0625,  ...,  0.0518, -0.0623, -0.0984],
+        [-0.0353,  0.0873, -0.1325,  ..., -0.0141,  0.0396,  0.1282],
+        ...,
+        [ 0.0020,  0.0716, -0.0018,  ..., -0.0270,  0.0299, -0.0815],
+        [ 0.1000, -0.1184,  0.0500,  ...,  0.0139,  0.0120, -0.0407],
+        [-0.0171, -0.0826,  0.0754,  ..., -0.0918,  0.0332, -0.0300]],
+       device='cuda:0'), grad: tensor([[ 1.0014e-03,  1.1146e-04,  9.7847e-04,  ...,  8.2397e-04,
+          8.4043e-05,  2.1935e-03],
+        [ 2.7924e-03,  2.2697e-03,  2.7943e-04,  ...,  5.1308e-03,
+          4.0345e-06,  5.7526e-03],
+        [ 2.5821e-04,  1.6823e-03,  2.7251e-04,  ...,  1.6909e-03,
+          7.2978e-06,  2.1973e-03],
+        ...,
+        [-3.9520e-03, -2.2316e-03,  4.6563e-04,  ..., -4.6844e-03,
+          2.1651e-05, -5.1727e-03],
+        [ 1.9944e-04,  1.1832e-04,  3.2997e-04,  ...,  1.6701e-04,
+          1.2860e-05,  5.2929e-04],
+        [-4.1275e-03,  6.4492e-05, -3.4981e-03,  ...,  1.2684e-04,
+         -7.5161e-05, -7.5817e-04]], device='cuda:0')
+Epoch 383, bias, value: tensor([ 0.0157, -0.0009, -0.0134,  0.0109, -0.0150, -0.0229,  0.0100, -0.0023,
+         0.0092, -0.0100], device='cuda:0'), grad: tensor([ 0.0278,  0.0508,  0.0017,  0.0159,  0.0010, -0.0531,  0.0141, -0.0508,
+         0.0129, -0.0202], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 382, time 217.31, cls_loss 0.4738 cls_loss_mapping 0.0030 cls_loss_causal 0.4481 re_mapping 0.0064 re_causal 0.0161 /// teacc 99.02 lr 0.00010000
+Epoch 384, weight, value: tensor([[-0.0751, -0.1076, -0.1533,  ...,  0.1250, -0.0647,  0.0365],
+        [-0.0875,  0.1130, -0.0620,  ...,  0.0517, -0.0625, -0.0988],
+        [-0.0360,  0.0874, -0.1327,  ..., -0.0142,  0.0396,  0.1286],
+        ...,
+        [ 0.0007,  0.0712, -0.0021,  ..., -0.0264,  0.0291, -0.0811],
+        [ 0.1009, -0.1182,  0.0500,  ...,  0.0137,  0.0125, -0.0418],
+        [-0.0170, -0.0821,  0.0758,  ..., -0.0922,  0.0344, -0.0285]],
+       device='cuda:0'), grad: tensor([[ 2.8804e-05,  2.7046e-06,  9.9558e-07,  ...,  5.5879e-09,
+         -6.9849e-08,  8.3876e-04],
+        [-3.6216e-04, -5.0831e-04,  1.3504e-07,  ...,  2.7940e-08,
+          8.3819e-09,  6.0844e-04],
+        [ 3.8600e-04,  4.6420e-04,  3.2559e-06,  ..., -1.3411e-07,
+          9.0338e-08,  1.2407e-03],
+        ...,
+        [ 3.2514e-05, -1.5542e-05,  1.4938e-05,  ...,  3.8184e-08,
+          6.5193e-06, -1.9970e-03],
+        [ 3.9041e-05,  2.7224e-05,  1.6633e-06,  ...,  1.0245e-08,
+          1.0990e-07, -1.4458e-03],
+        [ 1.1379e-04,  1.6063e-05,  2.1005e-04,  ...,  2.7940e-09,
+         -7.2308e-06,  7.3099e-04]], device='cuda:0')
+Epoch 384, bias, value: tensor([ 0.0157, -0.0013, -0.0140,  0.0114, -0.0156, -0.0217,  0.0101, -0.0016,
+         0.0085, -0.0100], device='cuda:0'), grad: tensor([-0.0225,  0.0354,  0.0468,  0.0232, -0.0297, -0.0124,  0.0058, -0.0192,
+        -0.0337,  0.0062], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 383, time 217.16, cls_loss 0.5021 cls_loss_mapping 0.0039 cls_loss_causal 0.4763 re_mapping 0.0056 re_causal 0.0140 /// teacc 98.98 lr 0.00010000
+Epoch 385, weight, value: tensor([[-0.0737, -0.1080, -0.1536,  ...,  0.1243, -0.0652,  0.0349],
+        [-0.0876,  0.1131, -0.0618,  ...,  0.0527, -0.0622, -0.0983],
+        [-0.0364,  0.0881, -0.1327,  ..., -0.0139,  0.0393,  0.1288],
+        ...,
+        [ 0.0005,  0.0709, -0.0024,  ..., -0.0278,  0.0296, -0.0810],
+        [ 0.1005, -0.1190,  0.0495,  ...,  0.0133,  0.0122, -0.0415],
+        [-0.0166, -0.0837,  0.0764,  ..., -0.0911,  0.0342, -0.0292]],
+       device='cuda:0'), grad: tensor([[-3.9983e-04,  4.7594e-05, -1.8234e-03,  ...,  2.6464e-04,
+         -2.1973e-03, -1.0958e-03],
+        [-4.3225e-04,  4.6551e-05,  2.2137e-04,  ..., -1.9610e-04,
+          3.2395e-05,  7.6175e-05],
+        [ 3.5214e-04,  1.3697e-04,  1.2493e-03,  ...,  7.4530e-04,
+          9.9659e-04,  7.7868e-04],
+        ...,
+        [ 4.0919e-05,  7.2145e-04,  8.6594e-04,  ...,  2.9907e-03,
+         -5.4896e-05,  7.0190e-04],
+        [-7.2658e-05,  1.0997e-04, -5.0201e-03,  ...,  7.0953e-04,
+         -2.8954e-03, -4.2915e-04],
+        [ 5.0020e-04,  2.5368e-04,  4.9782e-03,  ...,  1.2999e-03,
+          2.3651e-03,  3.5501e-04]], device='cuda:0')
+Epoch 385, bias, value: tensor([ 0.0153, -0.0006, -0.0153,  0.0117, -0.0149, -0.0219,  0.0100, -0.0014,
+         0.0089, -0.0103], device='cuda:0'), grad: tensor([ 0.0024, -0.0469,  0.0192,  0.0341,  0.0147, -0.0116,  0.0207, -0.0327,
+        -0.0393,  0.0393], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 384, time 216.76, cls_loss 0.5062 cls_loss_mapping 0.0033 cls_loss_causal 0.4844 re_mapping 0.0059 re_causal 0.0152 /// teacc 98.80 lr 0.00010000
+Epoch 386, weight, value: tensor([[-7.4435e-02, -1.0911e-01, -1.5397e-01,  ...,  1.2447e-01,
+         -6.5565e-02,  3.4722e-02],
+        [-8.8311e-02,  1.1355e-01, -6.2640e-02,  ...,  5.1881e-02,
+         -6.2637e-02, -9.8109e-02],
+        [-3.8327e-02,  8.7799e-02, -1.3413e-01,  ..., -1.3662e-02,
+          3.8771e-02,  1.2844e-01],
+        ...,
+        [-2.9486e-05,  7.0302e-02, -6.5808e-04,  ..., -2.8064e-02,
+          3.0147e-02, -8.1130e-02],
+        [ 1.0075e-01, -1.2003e-01,  4.8691e-02,  ...,  1.3821e-02,
+          1.2368e-02, -4.1766e-02],
+        [-1.6309e-02, -8.4928e-02,  7.5769e-02,  ..., -9.1804e-02,
+          3.4829e-02, -2.9158e-02]], device='cuda:0'), grad: tensor([[-5.6744e-04,  2.8517e-06, -3.9482e-03,  ...,  3.2043e-04,
+         -2.4281e-03, -2.9445e-04],
+        [ 3.1665e-08, -8.3625e-05,  7.2539e-05,  ...,  2.0134e-04,
+          6.9559e-05,  1.1390e-04],
+        [ 3.3733e-06,  1.9670e-05,  1.5335e-03,  ...,  7.3433e-04,
+          1.0748e-03,  4.3988e-04],
+        ...,
+        [ 3.7923e-06, -7.5936e-05,  1.1110e-03,  ...,  6.7425e-04,
+          5.9414e-04,  5.0402e-04],
+        [ 3.2857e-06,  1.5497e-05, -1.4286e-03,  ...,  9.9659e-04,
+          1.2755e-04,  1.7619e-04],
+        [ 5.3596e-04,  7.6592e-06,  4.1962e-03,  ...,  6.2752e-04,
+          2.7351e-03,  6.4516e-04]], device='cuda:0')
+Epoch 386, bias, value: tensor([ 0.0144, -0.0002, -0.0154,  0.0107, -0.0156, -0.0207,  0.0108, -0.0012,
+         0.0101, -0.0113], device='cuda:0'), grad: tensor([ 0.0012,  0.0200, -0.0351, -0.0443, -0.0107,  0.0049,  0.0196,  0.0241,
+        -0.0121,  0.0323], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 385, time 217.33, cls_loss 0.4697 cls_loss_mapping 0.0027 cls_loss_causal 0.4458 re_mapping 0.0059 re_causal 0.0154 /// teacc 98.93 lr 0.00010000
+Epoch 387, weight, value: tensor([[-0.0757, -0.1100, -0.1539,  ...,  0.1245, -0.0657,  0.0347],
+        [-0.0891,  0.1133, -0.0621,  ...,  0.0518, -0.0625, -0.0980],
+        [-0.0386,  0.0881, -0.1333,  ..., -0.0157,  0.0390,  0.1289],
+        ...,
+        [ 0.0013,  0.0709,  0.0004,  ..., -0.0273,  0.0306, -0.0806],
+        [ 0.1014, -0.1212,  0.0478,  ...,  0.0161,  0.0110, -0.0426],
+        [-0.0176, -0.0857,  0.0742,  ..., -0.0924,  0.0338, -0.0298]],
+       device='cuda:0'), grad: tensor([[ 1.2405e-05,  1.2094e-04,  1.3506e-04,  ...,  2.5071e-06,
+          1.1599e-04,  2.4152e-04],
+        [ 4.2081e-05,  8.4698e-05,  9.4101e-06,  ...,  6.3051e-07,
+          7.2718e-06, -2.3251e-03],
+        [ 6.6459e-05,  1.7762e-04,  1.1563e-04,  ...,  1.0237e-05,
+          9.8169e-05,  4.8018e-04],
+        ...,
+        [-3.9148e-04,  8.8167e-04,  2.2964e-03,  ...,  1.8728e-04,
+          1.9703e-03,  1.0532e-04],
+        [ 3.5495e-05,  1.7738e-04,  1.5950e-04,  ...,  9.4473e-06,
+          1.1098e-04,  5.0497e-04],
+        [ 4.3660e-05, -2.1973e-03, -3.3531e-03,  ..., -2.6417e-04,
+         -2.8324e-03, -9.2602e-04]], device='cuda:0')
+Epoch 387, bias, value: tensor([ 1.4304e-02,  2.2290e-05, -1.6008e-02,  1.1506e-02, -1.5963e-02,
+        -2.0002e-02,  1.0761e-02, -1.8602e-03,  1.0100e-02, -1.1318e-02],
+       device='cuda:0'), grad: tensor([ 0.0128, -0.0411, -0.0111,  0.0227,  0.0173,  0.0155,  0.0122,  0.0051,
+         0.0115, -0.0448], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 386, time 217.07, cls_loss 0.4911 cls_loss_mapping 0.0036 cls_loss_causal 0.4609 re_mapping 0.0056 re_causal 0.0138 /// teacc 98.88 lr 0.00010000
+Epoch 388, weight, value: tensor([[-7.5924e-02, -1.0982e-01, -1.5347e-01,  ...,  1.2613e-01,
+         -6.4998e-02,  3.6935e-02],
+        [-9.0225e-02,  1.1278e-01, -6.2113e-02,  ...,  5.2499e-02,
+         -6.2688e-02, -9.8052e-02],
+        [-3.7567e-02,  8.8071e-02, -1.3109e-01,  ..., -1.5686e-02,
+          3.9017e-02,  1.2742e-01],
+        ...,
+        [ 2.3222e-03,  7.1120e-02, -1.3644e-04,  ..., -2.8234e-02,
+          3.0370e-02, -8.0105e-02],
+        [ 1.0167e-01, -1.2088e-01,  4.7437e-02,  ...,  1.6723e-02,
+          1.1504e-02, -4.2615e-02],
+        [-1.8041e-02, -8.6039e-02,  7.4021e-02,  ..., -9.2388e-02,
+          3.3018e-02, -2.8891e-02]], device='cuda:0'), grad: tensor([[ 1.2815e-04,  4.7743e-05,  3.1781e-04,  ...,  1.0568e-04,
+         -3.7122e-04, -2.8629e-03],
+        [ 8.1837e-05,  4.3488e-04, -3.3784e-04,  ..., -5.3525e-05,
+         -4.3583e-04,  4.0078e-04],
+        [ 8.4221e-05,  3.4404e-04,  2.5439e-04,  ...,  1.2958e-04,
+         -1.2989e-03,  5.2404e-04],
+        ...,
+        [ 2.0421e-04,  5.2500e-04,  1.5116e-04,  ...,  1.7440e-04,
+          1.4246e-04,  3.0518e-04],
+        [ 6.8521e-04,  2.4092e-04,  3.2845e-03,  ...,  1.2374e-04,
+          1.9360e-03,  3.0208e-04],
+        [ 1.7738e-04,  3.6192e-04,  1.1225e-03,  ...,  1.3363e-04,
+          6.0272e-04,  5.1308e-04]], device='cuda:0')
+Epoch 388, bias, value: tensor([ 0.0151, -0.0010, -0.0160,  0.0115, -0.0155, -0.0210,  0.0106, -0.0010,
+         0.0114, -0.0126], device='cuda:0'), grad: tensor([-0.0043,  0.0039, -0.0044, -0.0084, -0.0303,  0.0462, -0.0580,  0.0309,
+        -0.0070,  0.0315], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 387, time 216.75, cls_loss 0.4949 cls_loss_mapping 0.0031 cls_loss_causal 0.4788 re_mapping 0.0062 re_causal 0.0156 /// teacc 98.86 lr 0.00010000
+Epoch 389, weight, value: tensor([[-7.6336e-02, -1.1020e-01, -1.5359e-01,  ...,  1.2608e-01,
+         -6.4614e-02,  3.7344e-02],
+        [-8.9270e-02,  1.1295e-01, -6.0165e-02,  ...,  5.2818e-02,
+         -6.2148e-02, -9.7870e-02],
+        [-3.8720e-02,  8.7815e-02, -1.3154e-01,  ..., -1.6759e-02,
+          3.9403e-02,  1.2759e-01],
+        ...,
+        [ 4.4196e-03,  7.1327e-02,  7.5988e-05,  ..., -2.7929e-02,
+          3.0946e-02, -8.0567e-02],
+        [ 1.0233e-01, -1.1957e-01,  4.7371e-02,  ...,  1.6835e-02,
+          1.1071e-02, -4.2295e-02],
+        [-1.8296e-02, -8.6190e-02,  7.4249e-02,  ..., -9.2815e-02,
+          3.2876e-02, -3.0063e-02]], device='cuda:0'), grad: tensor([[ 2.7156e-04,  7.6182e-07, -2.0415e-05,  ...,  5.0926e-04,
+         -1.8835e-05,  1.9813e-04],
+        [ 3.1519e-04, -1.3530e-05,  3.8855e-06,  ...,  4.7374e-04,
+          1.5348e-05,  1.4353e-04],
+        [ 1.8537e-04,  2.0601e-06,  4.8093e-06,  ...,  2.8443e-04,
+          1.0967e-05,  1.5557e-04],
+        ...,
+        [ 2.1636e-04,  6.1318e-06,  3.2783e-05,  ...,  5.3883e-04,
+          4.8399e-05,  1.5700e-04],
+        [-2.4567e-03,  4.3772e-08,  1.4305e-05,  ..., -3.3998e-04,
+          2.0832e-05,  1.7762e-04],
+        [ 1.4031e-04,  0.0000e+00, -1.1086e-05,  ...,  5.7459e-04,
+          2.6636e-06,  1.5926e-04]], device='cuda:0')
+Epoch 389, bias, value: tensor([ 0.0145, -0.0007, -0.0148,  0.0119, -0.0150, -0.0221,  0.0100, -0.0016,
+         0.0119, -0.0125], device='cuda:0'), grad: tensor([-0.0027, -0.0020,  0.0265, -0.0025, -0.0068,  0.0051, -0.0047,  0.0272,
+        -0.0660,  0.0258], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 388, time 217.28, cls_loss 0.4482 cls_loss_mapping 0.0019 cls_loss_causal 0.4297 re_mapping 0.0060 re_causal 0.0157 /// teacc 98.84 lr 0.00010000
+Epoch 390, weight, value: tensor([[-0.0785, -0.1113, -0.1539,  ...,  0.1264, -0.0649,  0.0380],
+        [-0.0898,  0.1147, -0.0603,  ...,  0.0530, -0.0616, -0.0966],
+        [-0.0388,  0.0874, -0.1313,  ..., -0.0164,  0.0397,  0.1269],
+        ...,
+        [ 0.0043,  0.0705,  0.0002,  ..., -0.0279,  0.0312, -0.0822],
+        [ 0.1022, -0.1188,  0.0468,  ...,  0.0165,  0.0117, -0.0414],
+        [-0.0169, -0.0867,  0.0741,  ..., -0.0928,  0.0325, -0.0294]],
+       device='cuda:0'), grad: tensor([[ 7.1943e-05,  3.2306e-05,  5.3585e-05,  ...,  5.4151e-05,
+          4.8466e-06,  2.1402e-06],
+        [-1.7776e-03,  4.6501e-03,  2.5368e-03,  ...,  1.9491e-04,
+          2.8044e-05,  1.6205e-07],
+        [-4.7493e-04, -8.4610e-03, -3.8509e-03,  ..., -3.5954e-04,
+          1.4439e-05,  5.1782e-06],
+        ...,
+        [ 6.1989e-04, -6.0707e-05,  1.7281e-03,  ...,  8.3399e-04,
+          2.6536e-04,  8.1398e-07],
+        [ 1.0366e-03,  5.0163e-04,  4.1366e-04,  ...,  1.3387e-04,
+          1.2524e-05,  9.7379e-06],
+        [ 1.9014e-04, -2.2173e-04, -4.4060e-03,  ..., -1.5011e-03,
+         -5.1785e-04,  3.6042e-07]], device='cuda:0')
+Epoch 390, bias, value: tensor([ 0.0144, -0.0009, -0.0148,  0.0122, -0.0154, -0.0215,  0.0100, -0.0017,
+         0.0119, -0.0126], device='cuda:0'), grad: tensor([ 0.0154, -0.0165, -0.0962,  0.0173,  0.0264,  0.0143, -0.0096,  0.0254,
+         0.0258, -0.0024], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 389, time 219.15, cls_loss 0.4834 cls_loss_mapping 0.0032 cls_loss_causal 0.4585 re_mapping 0.0057 re_causal 0.0141 /// teacc 98.63 lr 0.00010000
+Epoch 391, weight, value: tensor([[-0.0755, -0.1090, -0.1530,  ...,  0.1263, -0.0653,  0.0390],
+        [-0.0898,  0.1149, -0.0604,  ...,  0.0527, -0.0622, -0.0959],
+        [-0.0388,  0.0867, -0.1323,  ..., -0.0182,  0.0398,  0.1265],
+        ...,
+        [ 0.0043,  0.0706, -0.0006,  ..., -0.0272,  0.0315, -0.0813],
+        [ 0.1009, -0.1177,  0.0468,  ...,  0.0174,  0.0116, -0.0427],
+        [-0.0159, -0.0882,  0.0748,  ..., -0.0936,  0.0331, -0.0293]],
+       device='cuda:0'), grad: tensor([[ 8.7142e-05,  2.1756e-06,  5.7101e-05,  ...,  1.7233e-03,
+          5.9080e-04,  1.3483e-04],
+        [ 3.3945e-05, -7.0989e-05,  3.1963e-06,  ...,  1.8282e-03,
+          6.3276e-04,  1.4949e-04],
+        [ 1.5600e-06, -3.2812e-05,  5.5507e-06,  ...,  1.0605e-03,
+          3.1972e-04,  6.7115e-05],
+        ...,
+        [ 2.6189e-06,  1.1072e-05,  4.0442e-05,  ...,  2.5692e-03,
+          8.0776e-04,  1.9109e-04],
+        [-3.6502e-04,  1.8343e-05, -1.9157e-04,  ...,  1.2398e-03,
+          2.5368e-04,  7.8142e-05],
+        [ 1.0622e-04,  7.9945e-06, -1.3463e-05,  ...,  5.6601e-04,
+          2.2626e-04,  4.8965e-05]], device='cuda:0')
+Epoch 391, bias, value: tensor([ 0.0156, -0.0011, -0.0158,  0.0115, -0.0158, -0.0221,  0.0106, -0.0022,
+         0.0124, -0.0115], device='cuda:0'), grad: tensor([ 0.0296,  0.0224,  0.0099,  0.0324, -0.0489, -0.0466,  0.0147,  0.0212,
+        -0.0196, -0.0152], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 390, time 216.99, cls_loss 0.4611 cls_loss_mapping 0.0036 cls_loss_causal 0.4280 re_mapping 0.0060 re_causal 0.0146 /// teacc 98.89 lr 0.00010000
+Epoch 392, weight, value: tensor([[-0.0728, -0.1093, -0.1523,  ...,  0.1257, -0.0646,  0.0394],
+        [-0.0903,  0.1137, -0.0598,  ...,  0.0512, -0.0627, -0.0967],
+        [-0.0396,  0.0862, -0.1325,  ..., -0.0199,  0.0387,  0.1272],
+        ...,
+        [ 0.0046,  0.0715,  0.0008,  ..., -0.0246,  0.0325, -0.0827],
+        [ 0.1001, -0.1160,  0.0461,  ...,  0.0185,  0.0111, -0.0408],
+        [-0.0163, -0.0880,  0.0741,  ..., -0.0946,  0.0331, -0.0292]],
+       device='cuda:0'), grad: tensor([[ 1.8847e-04,  1.1168e-05,  3.4261e-04,  ..., -2.4815e-03,
+          1.3840e-04, -2.7161e-03],
+        [ 1.5569e-04, -7.0000e-04,  6.1369e-04,  ..., -1.9455e-04,
+          3.5310e-04, -1.6844e-04],
+        [ 4.5300e-04,  6.0701e-04,  9.3699e-04,  ...,  1.2302e-03,
+          5.7364e-04,  5.3072e-04],
+        ...,
+        [ 1.5478e-03,  3.6508e-06,  1.3800e-03,  ...,  5.1498e-04,
+          7.6199e-04,  1.8239e-05],
+        [ 5.2147e-03,  1.2720e-04,  1.6260e-03,  ...,  8.2111e-04,
+          1.0796e-03,  4.1556e-04],
+        [-8.9569e-03, -1.4663e-04,  8.5678e-03,  ...,  5.7697e-04,
+          3.5839e-03,  6.0737e-05]], device='cuda:0')
+Epoch 392, bias, value: tensor([ 0.0158, -0.0017, -0.0150,  0.0113, -0.0156, -0.0208,  0.0107, -0.0028,
+         0.0120, -0.0121], device='cuda:0'), grad: tensor([-0.0112,  0.0114,  0.0204, -0.0146, -0.0004, -0.0152,  0.0201,  0.0171,
+         0.0052, -0.0328], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 391, time 217.24, cls_loss 0.4544 cls_loss_mapping 0.0038 cls_loss_causal 0.4387 re_mapping 0.0056 re_causal 0.0145 /// teacc 98.99 lr 0.00010000
+Epoch 393, weight, value: tensor([[-7.1968e-02, -1.1018e-01, -1.5150e-01,  ...,  1.2666e-01,
+         -6.3999e-02,  3.8967e-02],
+        [-9.1310e-02,  1.1176e-01, -5.9780e-02,  ...,  5.1142e-02,
+         -6.2314e-02, -9.6533e-02],
+        [-4.0806e-02,  8.8398e-02, -1.3271e-01,  ..., -1.8990e-02,
+          4.0475e-02,  1.2694e-01],
+        ...,
+        [ 4.5757e-03,  7.1498e-02,  8.7226e-05,  ..., -2.6237e-02,
+          3.1653e-02, -8.4794e-02],
+        [ 1.0034e-01, -1.1617e-01,  4.5690e-02,  ...,  1.7403e-02,
+          1.0255e-02, -4.0070e-02],
+        [-1.6125e-02, -8.7793e-02,  7.4263e-02,  ..., -9.3914e-02,
+          3.3370e-02, -2.8214e-02]], device='cuda:0'), grad: tensor([[ 7.1526e-04,  5.4240e-05, -3.4714e-04,  ..., -1.5574e-03,
+         -1.4448e-03, -3.8457e-04],
+        [ 1.0757e-02,  3.8357e-03,  2.6703e-04,  ...,  9.5963e-05,
+         -3.4869e-05,  1.9348e-04],
+        [ 1.0170e-02,  8.1177e-03,  1.3943e-03,  ...,  4.2152e-04,
+          1.5678e-03, -5.3787e-03],
+        ...,
+        [ 3.8643e-03,  2.5291e-03,  8.7051e-03,  ...,  8.5754e-03,
+          8.7433e-03,  2.4366e-04],
+        [ 1.9693e-04,  4.7493e-04,  1.2436e-03,  ..., -4.0474e-03,
+         -1.5163e-03,  4.4136e-03],
+        [ 2.8591e-03, -5.3101e-03, -6.0043e-03,  ..., -8.3160e-03,
+         -6.6681e-03,  2.4366e-04]], device='cuda:0')
+Epoch 393, bias, value: tensor([ 0.0157, -0.0026, -0.0141,  0.0112, -0.0157, -0.0220,  0.0105, -0.0023,
+         0.0116, -0.0109], device='cuda:0'), grad: tensor([-0.0053,  0.0153,  0.0079,  0.0500, -0.0366, -0.0403,  0.0136,  0.0370,
+        -0.0244, -0.0173], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 392, time 216.43, cls_loss 0.4525 cls_loss_mapping 0.0026 cls_loss_causal 0.4308 re_mapping 0.0055 re_causal 0.0133 /// teacc 99.01 lr 0.00010000
+Epoch 394, weight, value: tensor([[-0.0712, -0.1108, -0.1523,  ...,  0.1265, -0.0652,  0.0374],
+        [-0.0928,  0.1116, -0.0601,  ...,  0.0509, -0.0623, -0.0962],
+        [-0.0427,  0.0892, -0.1324,  ..., -0.0190,  0.0404,  0.1256],
+        ...,
+        [ 0.0040,  0.0715,  0.0004,  ..., -0.0271,  0.0325, -0.0873],
+        [ 0.1001, -0.1163,  0.0462,  ...,  0.0189,  0.0109, -0.0368],
+        [-0.0138, -0.0888,  0.0736,  ..., -0.0935,  0.0326, -0.0278]],
+       device='cuda:0'), grad: tensor([[ 4.5991e-04,  7.2956e-05,  9.1410e-04,  ...,  2.7466e-04,
+         -1.4178e-05,  9.8133e-04],
+        [ 4.3964e-04, -7.0152e-03, -1.9169e-04,  ..., -5.3711e-03,
+         -3.9787e-03,  2.1350e-04],
+        [-7.7515e-03, -1.4138e-04, -2.1801e-03,  ...,  2.7680e-04,
+          2.0623e-04,  1.4057e-03],
+        ...,
+        [ 2.5291e-03,  1.0185e-02,  9.0332e-03,  ...,  4.3983e-03,
+          2.9694e-02,  2.0587e-04],
+        [ 2.0313e-03,  1.4699e-04,  4.9305e-04,  ...,  6.8474e-04,
+          7.2122e-05,  3.5071e-04],
+        [ 1.0080e-03, -3.4523e-03, -7.8125e-03,  ...,  6.1846e-04,
+         -2.5803e-02,  2.8181e-04]], device='cuda:0')
+Epoch 394, bias, value: tensor([ 0.0155, -0.0024, -0.0142,  0.0108, -0.0157, -0.0222,  0.0103, -0.0032,
+         0.0125, -0.0099], device='cuda:0'), grad: tensor([ 0.0141, -0.0445, -0.0077, -0.0392,  0.0078,  0.0072,  0.0010,  0.0532,
+         0.0144, -0.0064], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 393, time 217.20, cls_loss 0.4609 cls_loss_mapping 0.0025 cls_loss_causal 0.4385 re_mapping 0.0057 re_causal 0.0148 /// teacc 98.90 lr 0.00010000
+Epoch 395, weight, value: tensor([[-0.0714, -0.1104, -0.1519,  ...,  0.1275, -0.0650,  0.0360],
+        [-0.0926,  0.1115, -0.0606,  ...,  0.0510, -0.0626, -0.0952],
+        [-0.0424,  0.0889, -0.1333,  ..., -0.0202,  0.0385,  0.1244],
+        ...,
+        [ 0.0035,  0.0727,  0.0005,  ..., -0.0270,  0.0318, -0.0865],
+        [ 0.0999, -0.1169,  0.0458,  ...,  0.0194,  0.0116, -0.0361],
+        [-0.0133, -0.0893,  0.0739,  ..., -0.0938,  0.0326, -0.0276]],
+       device='cuda:0'), grad: tensor([[ 1.4486e-03,  5.9992e-05,  3.9673e-04,  ...,  1.0319e-03,
+          4.5052e-03,  5.9471e-03],
+        [-7.6180e-03, -7.2250e-03, -4.1275e-03,  ...,  1.4806e-04,
+          9.1612e-05,  2.8706e-04],
+        [ 6.4850e-04,  6.3562e-04,  5.5218e-04,  ...,  1.6892e-04,
+          2.5153e-04, -9.0647e-04],
+        ...,
+        [ 9.1095e-03,  5.4779e-03,  3.7422e-03,  ..., -7.4625e-04,
+          6.4135e-05, -7.7295e-04],
+        [-8.5144e-03,  4.5747e-05,  1.4193e-05,  ..., -2.4891e-03,
+         -4.9324e-03, -7.0801e-03],
+        [-8.0261e-03,  3.1495e-04, -6.9847e-03,  ...,  1.1694e-04,
+         -2.0142e-03,  5.9032e-04]], device='cuda:0')
+Epoch 395, bias, value: tensor([ 0.0154, -0.0020, -0.0151,  0.0099, -0.0155, -0.0221,  0.0106, -0.0020,
+         0.0119, -0.0097], device='cuda:0'), grad: tensor([ 0.0024, -0.0042, -0.0228,  0.0036,  0.0068,  0.0316,  0.0387,  0.0061,
+        -0.0498, -0.0123], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 394, time 217.31, cls_loss 0.4641 cls_loss_mapping 0.0026 cls_loss_causal 0.4460 re_mapping 0.0053 re_causal 0.0144 /// teacc 98.99 lr 0.00010000
+Epoch 396, weight, value: tensor([[-0.0733, -0.1104, -0.1531,  ...,  0.1273, -0.0651,  0.0361],
+        [-0.0933,  0.1114, -0.0611,  ...,  0.0509, -0.0637, -0.0956],
+        [-0.0413,  0.0883, -0.1342,  ..., -0.0199,  0.0380,  0.1236],
+        ...,
+        [ 0.0018,  0.0731,  0.0021,  ..., -0.0270,  0.0323, -0.0858],
+        [ 0.1008, -0.1168,  0.0473,  ...,  0.0201,  0.0123, -0.0348],
+        [-0.0125, -0.0887,  0.0727,  ..., -0.0938,  0.0319, -0.0288]],
+       device='cuda:0'), grad: tensor([[ 3.6764e-04,  1.7032e-05,  4.3392e-05,  ...,  1.2481e-04,
+          4.5729e-04,  2.1255e-04],
+        [ 1.3196e-04, -8.5297e-03,  3.9005e-04,  ..., -5.7297e-03,
+          2.1684e-04,  3.0518e-04],
+        [ 1.6916e-04, -4.4098e-03, -5.3291e-03,  ..., -3.3474e-03,
+          2.7394e-04, -3.2425e-03],
+        ...,
+        [-4.0936e-04,  1.1742e-02,  3.1834e-03,  ...,  8.5831e-03,
+          3.3379e-04,  1.8654e-03],
+        [ 1.7297e-04,  8.4698e-05,  2.6274e-04,  ...,  4.3845e-04,
+          2.6989e-04,  4.9448e-04],
+        [ 8.4591e-04,  3.4976e-04,  1.9875e-03,  ...,  4.8804e-04,
+          9.9468e-04,  4.5562e-04]], device='cuda:0')
+Epoch 396, bias, value: tensor([ 0.0161, -0.0016, -0.0144,  0.0086, -0.0150, -0.0215,  0.0096, -0.0023,
+         0.0128, -0.0107], device='cuda:0'), grad: tensor([-0.0044, -0.0672,  0.0010,  0.0261,  0.0279, -0.0390,  0.0286,  0.0674,
+        -0.0388, -0.0017], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 395, time 217.29, cls_loss 0.4359 cls_loss_mapping 0.0016 cls_loss_causal 0.4087 re_mapping 0.0058 re_causal 0.0153 /// teacc 98.84 lr 0.00010000
+Epoch 397, weight, value: tensor([[-0.0752, -0.1084, -0.1541,  ...,  0.1266, -0.0652,  0.0362],
+        [-0.0931,  0.1106, -0.0605,  ...,  0.0526, -0.0631, -0.0961],
+        [-0.0412,  0.0873, -0.1336,  ..., -0.0219,  0.0379,  0.1253],
+        ...,
+        [ 0.0018,  0.0744,  0.0011,  ..., -0.0260,  0.0318, -0.0862],
+        [ 0.1013, -0.1161,  0.0478,  ...,  0.0201,  0.0122, -0.0346],
+        [-0.0128, -0.0888,  0.0737,  ..., -0.0938,  0.0336, -0.0296]],
+       device='cuda:0'), grad: tensor([[ 2.5854e-05,  6.5453e-06,  6.4559e-06,  ...,  6.2697e-06,
+          5.0589e-06,  3.2596e-08],
+        [ 3.1918e-05,  4.9286e-03,  2.1496e-03,  ...,  1.2146e-02,
+          1.5154e-03,  5.5462e-05],
+        [ 1.1343e-04,  5.0621e-03,  1.7002e-05,  ...,  3.0503e-05,
+          5.1231e-03, -6.3062e-05],
+        ...,
+        [ 2.6188e-03, -1.0902e-02,  4.1161e-03,  ..., -1.2367e-02,
+         -7.4730e-03,  1.6745e-06],
+        [-5.2643e-02,  2.2089e-04,  4.2229e-03,  ...,  1.8511e-03,
+          2.1243e-04,  2.4736e-06],
+        [ 5.4169e-02,  1.3733e-04,  6.2943e-03,  ...,  1.9944e-04,
+          1.2815e-04,  1.5832e-08]], device='cuda:0')
+Epoch 397, bias, value: tensor([ 0.0144, -0.0009, -0.0134,  0.0088, -0.0153, -0.0215,  0.0093, -0.0018,
+         0.0132, -0.0114], device='cuda:0'), grad: tensor([ 0.0006,  0.0346,  0.0149, -0.0404,  0.0046,  0.0024,  0.0005, -0.0420,
+        -0.0118,  0.0365], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 396, time 216.49, cls_loss 0.4488 cls_loss_mapping 0.0017 cls_loss_causal 0.4215 re_mapping 0.0053 re_causal 0.0143 /// teacc 98.72 lr 0.00010000
+Epoch 398, weight, value: tensor([[-0.0748, -0.1090, -0.1533,  ...,  0.1266, -0.0645,  0.0375],
+        [-0.0933,  0.1109, -0.0607,  ...,  0.0523, -0.0640, -0.0961],
+        [-0.0406,  0.0870, -0.1329,  ..., -0.0225,  0.0384,  0.1259],
+        ...,
+        [ 0.0008,  0.0749,  0.0006,  ..., -0.0259,  0.0316, -0.0862],
+        [ 0.1022, -0.1168,  0.0458,  ...,  0.0207,  0.0099, -0.0362],
+        [-0.0121, -0.0882,  0.0743,  ..., -0.0945,  0.0339, -0.0286]],
+       device='cuda:0'), grad: tensor([[ 6.6710e-04,  9.1553e-05,  1.4055e-04,  ...,  2.8944e-04,
+         -1.7233e-03, -5.0354e-04],
+        [ 2.4748e-04, -2.1667e-03,  8.0299e-04,  ..., -8.0032e-03,
+          3.6687e-05, -2.5225e-04],
+        [ 8.3208e-04,  3.1567e-04,  5.7173e-04,  ...,  1.4315e-03,
+          3.6049e-04,  1.0738e-03],
+        ...,
+        [ 5.5790e-04,  2.7943e-04,  1.4696e-03,  ...,  4.7417e-03,
+          2.3496e-04,  7.4267e-05],
+        [-3.7937e-03,  2.6393e-04, -1.7807e-02,  ..., -2.2430e-03,
+         -6.2599e-03,  2.1720e-04],
+        [ 1.2054e-03,  6.6805e-04, -3.0766e-03,  ...,  8.6355e-04,
+         -1.3847e-03,  3.8314e-04]], device='cuda:0')
+Epoch 398, bias, value: tensor([ 0.0152, -0.0013, -0.0132,  0.0096, -0.0147, -0.0218,  0.0094, -0.0028,
+         0.0130, -0.0119], device='cuda:0'), grad: tensor([-0.0160, -0.0542,  0.0349, -0.0306,  0.0497, -0.0058,  0.0266,  0.0008,
+        -0.0211,  0.0157], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 397, time 217.02, cls_loss 0.4452 cls_loss_mapping 0.0020 cls_loss_causal 0.4213 re_mapping 0.0052 re_causal 0.0135 /// teacc 98.97 lr 0.00010000
+Epoch 399, weight, value: tensor([[-0.0755, -0.1092, -0.1541,  ...,  0.1268, -0.0657,  0.0374],
+        [-0.0938,  0.1112, -0.0611,  ...,  0.0538, -0.0643, -0.0959],
+        [-0.0398,  0.0876, -0.1341,  ..., -0.0226,  0.0382,  0.1256],
+        ...,
+        [ 0.0014,  0.0749,  0.0014,  ..., -0.0260,  0.0324, -0.0866],
+        [ 0.1023, -0.1179,  0.0466,  ...,  0.0199,  0.0104, -0.0371],
+        [-0.0127, -0.0890,  0.0745,  ..., -0.0957,  0.0330, -0.0290]],
+       device='cuda:0'), grad: tensor([[-9.5725e-05, -4.7356e-05,  1.4043e-04,  ..., -2.8819e-05,
+         -1.4663e-04, -5.5999e-05],
+        [-4.2152e-03,  1.8820e-05, -3.7270e-03,  ...,  7.9155e-04,
+         -2.1019e-03,  2.6718e-05],
+        [ 1.8090e-05, -3.3665e-04,  8.6248e-05,  ...,  1.6761e-04,
+          3.4302e-05, -4.8590e-04],
+        ...,
+        [ 2.5872e-06,  4.3243e-05,  5.4121e-04,  ...,  9.0301e-05,
+          3.4308e-04,  6.1035e-05],
+        [ 3.8967e-03,  3.0115e-05,  3.9177e-03,  ...,  4.2379e-05,
+          2.0695e-03,  4.2528e-05],
+        [ 9.6619e-05,  2.7925e-05, -1.4133e-03,  ...,  9.5725e-05,
+         -8.6212e-04,  3.6895e-05]], device='cuda:0')
+Epoch 399, bias, value: tensor([ 0.0151, -0.0027, -0.0134,  0.0104, -0.0160, -0.0214,  0.0105, -0.0027,
+         0.0130, -0.0113], device='cuda:0'), grad: tensor([-0.0195, -0.0444,  0.0110,  0.0169,  0.0110,  0.0128,  0.0123, -0.0122,
+         0.0100,  0.0021], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 398, time 216.73, cls_loss 0.4659 cls_loss_mapping 0.0022 cls_loss_causal 0.4385 re_mapping 0.0055 re_causal 0.0150 /// teacc 98.87 lr 0.00010000
+Epoch 400, weight, value: tensor([[-0.0746, -0.1092, -0.1520,  ...,  0.1264, -0.0659,  0.0364],
+        [-0.0931,  0.1108, -0.0599,  ...,  0.0523, -0.0644, -0.0962],
+        [-0.0403,  0.0884, -0.1328,  ..., -0.0223,  0.0404,  0.1258],
+        ...,
+        [ 0.0020,  0.0737,  0.0011,  ..., -0.0254,  0.0318, -0.0866],
+        [ 0.1022, -0.1184,  0.0461,  ...,  0.0201,  0.0096, -0.0367],
+        [-0.0122, -0.0882,  0.0743,  ..., -0.0959,  0.0344, -0.0287]],
+       device='cuda:0'), grad: tensor([[ 7.7486e-06,  2.4270e-06,  8.2254e-06,  ...,  2.2039e-05,
+         -1.0597e-02,  3.3639e-06],
+        [-2.5496e-05, -7.6830e-05, -3.5614e-06,  ..., -4.2963e-04,
+          2.7064e-06,  2.1812e-06],
+        [ 5.1223e-06,  8.4862e-06,  5.9381e-06,  ...,  5.3704e-05,
+          1.1339e-03,  2.8324e-04],
+        ...,
+        [ 2.0787e-06,  1.1660e-06,  8.2254e-06,  ...,  1.8060e-04,
+          9.7603e-06,  3.3490e-06],
+        [ 1.5092e-04,  1.8716e-05,  4.2915e-06,  ...,  6.2287e-05,
+         -5.4893e-03, -4.4403e-03],
+        [ 6.0871e-06,  1.0841e-05,  5.0440e-06,  ...,  2.7552e-05,
+          8.8196e-03,  1.9103e-05]], device='cuda:0')
+Epoch 400, bias, value: tensor([ 0.0144, -0.0027, -0.0137,  0.0100, -0.0149, -0.0217,  0.0110, -0.0036,
+         0.0130, -0.0104], device='cuda:0'), grad: tensor([-0.0266,  0.0157,  0.0205, -0.0059,  0.0153,  0.0132,  0.0148, -0.0152,
+        -0.0259, -0.0060], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 399, time 216.93, cls_loss 0.4413 cls_loss_mapping 0.0024 cls_loss_causal 0.4190 re_mapping 0.0060 re_causal 0.0157 /// teacc 98.81 lr 0.00001000
+Epoch 401, weight, value: tensor([[-0.0745, -0.1092, -0.1526,  ...,  0.1272, -0.0650,  0.0365],
+        [-0.0925,  0.1118, -0.0595,  ...,  0.0525, -0.0649, -0.0961],
+        [-0.0402,  0.0875, -0.1329,  ..., -0.0218,  0.0420,  0.1256],
+        ...,
+        [ 0.0015,  0.0744,  0.0019,  ..., -0.0252,  0.0332, -0.0872],
+        [ 0.1021, -0.1183,  0.0456,  ...,  0.0202,  0.0090, -0.0375],
+        [-0.0124, -0.0875,  0.0743,  ..., -0.0973,  0.0340, -0.0287]],
+       device='cuda:0'), grad: tensor([[ 2.4867e-04,  8.6054e-06,  8.7070e-04,  ...,  2.7728e-04,
+          1.9464e-03,  1.8978e-04],
+        [ 7.7105e-04,  6.5947e-04,  2.0771e-03,  ...,  9.6440e-05,
+          2.2328e-04,  1.1736e-04],
+        [ 1.7858e-04,  9.7132e-04,  3.5095e-04,  ...,  1.8835e-04,
+          3.0155e-03,  1.6403e-03],
+        ...,
+        [ 4.4680e-04, -1.5652e-04,  1.2674e-03,  ...,  8.5473e-05,
+          4.3449e-03,  1.6642e-04],
+        [ 4.5657e-04,  1.6406e-05,  2.6083e-04,  ...,  3.5977e-04,
+          1.0490e-03,  1.1605e-04],
+        [-6.1512e-04,  5.0592e-04, -5.1384e-03,  ...,  1.1063e-04,
+         -9.5081e-04, -2.3115e-04]], device='cuda:0')
+Epoch 401, bias, value: tensor([ 0.0143, -0.0024, -0.0140,  0.0097, -0.0148, -0.0219,  0.0104, -0.0023,
+         0.0130, -0.0108], device='cuda:0'), grad: tensor([ 0.0202,  0.0209,  0.0236,  0.0046, -0.0420, -0.0753,  0.0049,  0.0207,
+         0.0203,  0.0020], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 400, time 217.16, cls_loss 0.4816 cls_loss_mapping 0.0018 cls_loss_causal 0.4638 re_mapping 0.0056 re_causal 0.0155 /// teacc 98.78 lr 0.00001000
+Epoch 402, weight, value: tensor([[-0.0746, -0.1093, -0.1526,  ...,  0.1272, -0.0649,  0.0365],
+        [-0.0925,  0.1117, -0.0595,  ...,  0.0523, -0.0649, -0.0961],
+        [-0.0402,  0.0876, -0.1329,  ..., -0.0216,  0.0420,  0.1255],
+        ...,
+        [ 0.0016,  0.0744,  0.0019,  ..., -0.0251,  0.0331, -0.0870],
+        [ 0.1022, -0.1182,  0.0456,  ...,  0.0204,  0.0089, -0.0375],
+        [-0.0123, -0.0875,  0.0744,  ..., -0.0973,  0.0341, -0.0287]],
+       device='cuda:0'), grad: tensor([[ 1.2326e-04,  2.2352e-06,  1.4110e-07,  ...,  2.1219e-04,
+         -7.2233e-06,  3.4499e-04],
+        [ 1.2875e-03, -1.7273e-04,  1.0384e-07,  ...,  3.0842e-03,
+          1.2480e-06,  1.2867e-05],
+        [ 7.6234e-05,  5.1641e-04,  1.5631e-05,  ...,  3.7909e-04,
+          1.6198e-05,  1.0633e-04],
+        ...,
+        [-2.8804e-05, -4.8184e-04, -1.2076e-04,  ...,  4.5347e-04,
+         -1.1581e-04,  3.9414e-06],
+        [ 1.9515e-04,  6.3062e-05,  1.6704e-05,  ...,  6.1083e-04,
+          1.3731e-05,  2.6062e-05],
+        [-2.2564e-03,  2.7597e-05, -2.4676e-05,  ..., -5.1117e-03,
+          2.8431e-05,  1.5706e-05]], device='cuda:0')
+Epoch 402, bias, value: tensor([ 0.0144, -0.0024, -0.0140,  0.0096, -0.0148, -0.0220,  0.0104, -0.0022,
+         0.0131, -0.0108], device='cuda:0'), grad: tensor([-0.0134,  0.0001, -0.0133,  0.0345,  0.0170, -0.0161,  0.0079,  0.0011,
+         0.0183, -0.0363], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 401, time 217.30, cls_loss 0.4454 cls_loss_mapping 0.0017 cls_loss_causal 0.4106 re_mapping 0.0054 re_causal 0.0146 /// teacc 98.87 lr 0.00001000
+Epoch 403, weight, value: tensor([[-0.0747, -0.1092, -0.1527,  ...,  0.1270, -0.0651,  0.0365],
+        [-0.0925,  0.1120, -0.0595,  ...,  0.0522, -0.0650, -0.0962],
+        [-0.0402,  0.0875, -0.1330,  ..., -0.0217,  0.0417,  0.1252],
+        ...,
+        [ 0.0016,  0.0742,  0.0018,  ..., -0.0251,  0.0331, -0.0868],
+        [ 0.1021, -0.1182,  0.0456,  ...,  0.0206,  0.0094, -0.0374],
+        [-0.0122, -0.0876,  0.0744,  ..., -0.0972,  0.0339, -0.0288]],
+       device='cuda:0'), grad: tensor([[ 5.9336e-05,  5.9426e-05,  4.2081e-04,  ..., -1.3611e-02,
+         -1.1740e-03,  4.5627e-05],
+        [ 2.0027e-04, -4.7989e-03,  2.2817e-04,  ...,  3.0346e-03,
+          2.7061e-04,  9.6977e-05],
+        [ 7.9751e-05,  4.2305e-03,  8.4698e-05,  ..., -5.9938e-04,
+          3.9220e-05, -5.5027e-04],
+        ...,
+        [ 4.8220e-05, -8.5235e-05,  1.3752e-03,  ...,  2.8396e-04,
+          6.5136e-04,  1.3721e-04],
+        [ 1.2684e-04,  1.8978e-04,  1.9398e-03,  ...,  2.3861e-03,
+          1.0080e-03,  1.5330e-04],
+        [ 1.2314e-04,  5.9009e-05,  6.8474e-04,  ...,  1.5812e-03,
+          5.6076e-04,  1.1182e-04]], device='cuda:0')
+Epoch 403, bias, value: tensor([ 0.0144, -0.0024, -0.0141,  0.0095, -0.0150, -0.0219,  0.0105, -0.0022,
+         0.0131, -0.0107], device='cuda:0'), grad: tensor([-0.0427, -0.0018,  0.0235,  0.0168,  0.0087, -0.0150,  0.0324, -0.0172,
+        -0.0143,  0.0096], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 402, time 217.00, cls_loss 0.4653 cls_loss_mapping 0.0009 cls_loss_causal 0.4383 re_mapping 0.0051 re_causal 0.0149 /// teacc 98.87 lr 0.00001000
+Epoch 404, weight, value: tensor([[-0.0748, -0.1093, -0.1528,  ...,  0.1271, -0.0653,  0.0366],
+        [-0.0927,  0.1119, -0.0596,  ...,  0.0520, -0.0651, -0.0964],
+        [-0.0402,  0.0876, -0.1329,  ..., -0.0214,  0.0417,  0.1251],
+        ...,
+        [ 0.0016,  0.0743,  0.0018,  ..., -0.0252,  0.0330, -0.0868],
+        [ 0.1023, -0.1183,  0.0459,  ...,  0.0205,  0.0095, -0.0374],
+        [-0.0121, -0.0877,  0.0743,  ..., -0.0972,  0.0339, -0.0288]],
+       device='cuda:0'), grad: tensor([[ 6.1178e-04,  1.9944e-04,  3.1982e-06,  ...,  9.1076e-05,
+         -1.8686e-05, -6.8903e-05],
+        [ 6.4049e-03,  3.5458e-03, -8.0884e-05,  ...,  1.0180e-04,
+          1.2927e-06,  9.0122e-05],
+        [ 2.0027e-03,  7.4625e-04,  1.8617e-06,  ...,  9.8050e-05,
+          6.9261e-05,  1.4591e-04],
+        ...,
+        [-1.2520e-02, -9.7275e-03, -5.0402e-04,  ..., -5.0604e-05,
+          4.0263e-05,  1.2290e-04],
+        [-1.6083e-02, -3.5515e-03,  1.6645e-05,  ..., -3.3283e-04,
+         -1.1034e-03,  1.2314e-04],
+        [ 8.6594e-03,  6.5956e-03,  5.6028e-05,  ...,  2.4676e-04,
+         -3.1853e-04, -8.8406e-04]], device='cuda:0')
+Epoch 404, bias, value: tensor([ 0.0143, -0.0025, -0.0140,  0.0097, -0.0149, -0.0220,  0.0105, -0.0022,
+         0.0132, -0.0108], device='cuda:0'), grad: tensor([ 0.0128,  0.0245,  0.0211,  0.0148, -0.0121,  0.0109,  0.0100, -0.0016,
+        -0.0426, -0.0379], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 403, time 217.10, cls_loss 0.4555 cls_loss_mapping 0.0012 cls_loss_causal 0.4287 re_mapping 0.0051 re_causal 0.0143 /// teacc 98.86 lr 0.00001000
+Epoch 405, weight, value: tensor([[-0.0749, -0.1093, -0.1529,  ...,  0.1272, -0.0653,  0.0366],
+        [-0.0927,  0.1118, -0.0594,  ...,  0.0519, -0.0650, -0.0965],
+        [-0.0401,  0.0876, -0.1329,  ..., -0.0214,  0.0416,  0.1250],
+        ...,
+        [ 0.0017,  0.0743,  0.0017,  ..., -0.0253,  0.0330, -0.0868],
+        [ 0.1024, -0.1184,  0.0461,  ...,  0.0207,  0.0096, -0.0373],
+        [-0.0122, -0.0877,  0.0743,  ..., -0.0972,  0.0338, -0.0287]],
+       device='cuda:0'), grad: tensor([[ 0.0002,  0.0002,  0.0011,  ...,  0.0010,  0.0014, -0.0002],
+        [ 0.0003,  0.0004,  0.0003,  ...,  0.0009,  0.0005,  0.0006],
+        [ 0.0009,  0.0026,  0.0036,  ...,  0.0006,  0.0136,  0.0048],
+        ...,
+        [-0.0011, -0.0028, -0.0017,  ..., -0.0019, -0.0117, -0.0021],
+        [-0.0007,  0.0003,  0.0009,  ...,  0.0011,  0.0012,  0.0004],
+        [ 0.0003, -0.0019, -0.0055,  ..., -0.0041, -0.0078, -0.0002]],
+       device='cuda:0')
+Epoch 405, bias, value: tensor([ 0.0145, -0.0026, -0.0140,  0.0098, -0.0151, -0.0221,  0.0105, -0.0022,
+         0.0134, -0.0109], device='cuda:0'), grad: tensor([-0.0374, -0.0054,  0.0745,  0.0179,  0.0026, -0.0021, -0.0215, -0.0306,
+         0.0261, -0.0240], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 404, time 216.70, cls_loss 0.4643 cls_loss_mapping 0.0011 cls_loss_causal 0.4317 re_mapping 0.0048 re_causal 0.0136 /// teacc 98.88 lr 0.00001000
+Epoch 406, weight, value: tensor([[-0.0750, -0.1094, -0.1530,  ...,  0.1272, -0.0654,  0.0366],
+        [-0.0927,  0.1118, -0.0594,  ...,  0.0519, -0.0650, -0.0965],
+        [-0.0400,  0.0877, -0.1330,  ..., -0.0214,  0.0414,  0.1247],
+        ...,
+        [ 0.0017,  0.0743,  0.0018,  ..., -0.0252,  0.0331, -0.0868],
+        [ 0.1023, -0.1184,  0.0461,  ...,  0.0207,  0.0097, -0.0372],
+        [-0.0121, -0.0876,  0.0743,  ..., -0.0971,  0.0338, -0.0286]],
+       device='cuda:0'), grad: tensor([[ 2.4214e-05,  2.3544e-05,  1.0952e-06,  ...,  7.3195e-04,
+         -3.1447e-04,  1.9217e-04],
+        [ 1.5080e-04,  8.3297e-06,  1.1884e-06,  ...,  2.0733e-03,
+          8.2433e-05,  9.4950e-05],
+        [ 2.1979e-05, -1.3828e-04,  1.2882e-05,  ...,  1.5182e-03,
+          2.9898e-04,  4.9782e-04],
+        ...,
+        [-1.9148e-05, -3.7163e-05, -8.4534e-03,  ...,  8.5592e-04,
+         -4.5433e-03,  1.3733e-04],
+        [-3.7432e-04,  1.9237e-05,  9.7416e-07,  ..., -3.7365e-03,
+          2.7871e-04,  5.3263e-04],
+        [ 9.7990e-05,  1.4149e-05,  8.4000e-03,  ...,  1.2321e-03,
+          4.6310e-03,  1.4675e-04]], device='cuda:0')
+Epoch 406, bias, value: tensor([ 0.0145, -0.0026, -0.0143,  0.0098, -0.0151, -0.0222,  0.0106, -0.0022,
+         0.0135, -0.0109], device='cuda:0'), grad: tensor([-0.0214,  0.0167,  0.0166,  0.0300, -0.0199,  0.0156, -0.0153,  0.0002,
+        -0.0508,  0.0284], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 405, time 216.63, cls_loss 0.4718 cls_loss_mapping 0.0010 cls_loss_causal 0.4452 re_mapping 0.0045 re_causal 0.0131 /// teacc 98.88 lr 0.00001000
+Epoch 407, weight, value: tensor([[-0.0749, -0.1094, -0.1531,  ...,  0.1271, -0.0655,  0.0366],
+        [-0.0927,  0.1117, -0.0595,  ...,  0.0519, -0.0649, -0.0965],
+        [-0.0399,  0.0877, -0.1329,  ..., -0.0215,  0.0415,  0.1248],
+        ...,
+        [ 0.0018,  0.0744,  0.0017,  ..., -0.0252,  0.0331, -0.0866],
+        [ 0.1022, -0.1185,  0.0460,  ...,  0.0206,  0.0096, -0.0372],
+        [-0.0121, -0.0876,  0.0743,  ..., -0.0971,  0.0337, -0.0287]],
+       device='cuda:0'), grad: tensor([[ 7.1335e-04,  1.0210e-04,  1.7667e-04,  ...,  6.1226e-04,
+          5.2071e-04,  5.2340e-06],
+        [ 5.5361e-04, -1.8549e-04, -7.5912e-04,  ...,  1.2636e-03,
+         -1.2316e-05,  3.7067e-07],
+        [ 7.6723e-04,  1.8179e-04,  4.7040e-04,  ...,  5.5695e-04,
+          8.2493e-04,  4.8876e-05],
+        ...,
+        [ 1.1816e-03,  2.5582e-04,  8.4305e-04,  ...,  7.4100e-04,
+          1.0681e-03,  3.3993e-07],
+        [ 6.0940e-04,  4.4376e-05,  1.6809e-04,  ...,  2.1327e-04,
+          1.3351e-04, -1.4022e-05],
+        [-9.1028e-04,  9.3400e-05, -1.1243e-05,  ...,  4.8256e-04,
+         -1.4992e-03,  4.3735e-06]], device='cuda:0')
+Epoch 407, bias, value: tensor([ 0.0145, -0.0024, -0.0142,  0.0098, -0.0149, -0.0223,  0.0106, -0.0022,
+         0.0134, -0.0110], device='cuda:0'), grad: tensor([ 0.0145,  0.0189,  0.0149,  0.0101, -0.0281, -0.0246, -0.0434,  0.0188,
+         0.0131,  0.0057], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 406, time 217.16, cls_loss 0.4376 cls_loss_mapping 0.0009 cls_loss_causal 0.4133 re_mapping 0.0047 re_causal 0.0131 /// teacc 98.89 lr 0.00001000
+Epoch 408, weight, value: tensor([[-0.0751, -0.1094, -0.1532,  ...,  0.1270, -0.0655,  0.0366],
+        [-0.0927,  0.1119, -0.0594,  ...,  0.0521, -0.0649, -0.0965],
+        [-0.0400,  0.0876, -0.1329,  ..., -0.0216,  0.0414,  0.1247],
+        ...,
+        [ 0.0017,  0.0744,  0.0016,  ..., -0.0252,  0.0331, -0.0864],
+        [ 0.1023, -0.1185,  0.0460,  ...,  0.0206,  0.0096, -0.0372],
+        [-0.0120, -0.0875,  0.0744,  ..., -0.0970,  0.0337, -0.0288]],
+       device='cuda:0'), grad: tensor([[ 1.1301e-04,  1.3220e-04,  2.2125e-04,  ...,  4.5300e-04,
+         -3.6806e-05, -2.2307e-05],
+        [ 3.1018e-04,  2.5463e-03,  6.4230e-04,  ...,  6.6996e-04,
+          7.6741e-06,  3.3760e-07],
+        [ 1.3745e-04, -6.8130e-03,  2.7204e-04,  ...,  4.6611e-05,
+          8.2850e-06, -1.3612e-05],
+        ...,
+        [ 1.0843e-03,  8.2850e-05,  2.3403e-03,  ..., -1.5297e-03,
+         -6.0886e-05, -2.6356e-06],
+        [ 6.5947e-04,  1.3924e-03,  1.4114e-03,  ...,  6.8283e-04,
+          2.3901e-05,  5.2676e-06],
+        [-5.6343e-03,  7.2300e-05, -1.4671e-02,  ...,  7.5054e-04,
+         -7.7963e-04,  3.4031e-06]], device='cuda:0')
+Epoch 408, bias, value: tensor([ 0.0144, -0.0024, -0.0143,  0.0097, -0.0149, -0.0222,  0.0106, -0.0022,
+         0.0135, -0.0109], device='cuda:0'), grad: tensor([ 0.0100, -0.0159,  0.0008, -0.0179,  0.0275, -0.0148,  0.0143, -0.0068,
+         0.0178, -0.0151], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 407, time 217.18, cls_loss 0.4374 cls_loss_mapping 0.0011 cls_loss_causal 0.4186 re_mapping 0.0046 re_causal 0.0130 /// teacc 98.93 lr 0.00001000
+Epoch 409, weight, value: tensor([[-0.0751, -0.1096, -0.1533,  ...,  0.1271, -0.0656,  0.0367],
+        [-0.0927,  0.1120, -0.0594,  ...,  0.0521, -0.0649, -0.0964],
+        [-0.0400,  0.0876, -0.1329,  ..., -0.0216,  0.0413,  0.1246],
+        ...,
+        [ 0.0018,  0.0744,  0.0017,  ..., -0.0252,  0.0334, -0.0862],
+        [ 0.1022, -0.1186,  0.0458,  ...,  0.0205,  0.0095, -0.0373],
+        [-0.0120, -0.0877,  0.0744,  ..., -0.0968,  0.0338, -0.0288]],
+       device='cuda:0'), grad: tensor([[ 2.6131e-03,  1.6761e-04,  9.4995e-08,  ...,  2.9349e-04,
+         -1.4175e-06,  2.3860e-06],
+        [ 1.8377e-03,  1.0443e-03,  2.0154e-06,  ...,  1.6842e-03,
+          1.6671e-06,  1.2591e-06],
+        [ 5.1346e-03, -2.6679e-04,  5.4110e-07,  ...,  2.0695e-04,
+          1.2405e-05,  1.3351e-05],
+        ...,
+        [ 4.0855e-03,  2.3782e-04,  5.4245e-03,  ..., -1.8177e-03,
+          1.8463e-03,  4.8755e-07],
+        [ 2.7943e-03,  3.3569e-04,  6.7102e-07,  ...,  6.0034e-04,
+          7.7561e-06,  8.2105e-06],
+        [ 4.2915e-03,  1.1909e-04, -5.6686e-03,  ...,  1.5278e-03,
+         -1.9741e-03,  1.4305e-06]], device='cuda:0')
+Epoch 409, bias, value: tensor([ 0.0144, -0.0023, -0.0144,  0.0095, -0.0149, -0.0221,  0.0106, -0.0021,
+         0.0134, -0.0109], device='cuda:0'), grad: tensor([ 0.0147,  0.0275,  0.0153, -0.0182, -0.0470, -0.0146,  0.0076, -0.0224,
+         0.0170,  0.0202], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 408, time 217.08, cls_loss 0.4466 cls_loss_mapping 0.0012 cls_loss_causal 0.4184 re_mapping 0.0046 re_causal 0.0132 /// teacc 98.91 lr 0.00001000
+Epoch 410, weight, value: tensor([[-0.0750, -0.1096, -0.1532,  ...,  0.1272, -0.0655,  0.0367],
+        [-0.0927,  0.1121, -0.0594,  ...,  0.0520, -0.0649, -0.0963],
+        [-0.0400,  0.0876, -0.1329,  ..., -0.0216,  0.0414,  0.1248],
+        ...,
+        [ 0.0018,  0.0744,  0.0016,  ..., -0.0252,  0.0334, -0.0862],
+        [ 0.1022, -0.1187,  0.0458,  ...,  0.0205,  0.0093, -0.0373],
+        [-0.0120, -0.0876,  0.0744,  ..., -0.0968,  0.0338, -0.0290]],
+       device='cuda:0'), grad: tensor([[ 1.9825e-04,  2.1622e-05,  1.4019e-04,  ...,  6.7759e-04,
+          5.7173e-04,  5.3905e-06],
+        [ 2.2662e-04, -3.9506e-04,  2.6420e-05,  ..., -5.3692e-04,
+          3.7122e-04,  2.8446e-05],
+        [ 2.1005e-04,  4.8733e-04, -3.0923e-04,  ..., -4.0169e-03,
+         -8.5297e-03,  9.9087e-04],
+        ...,
+        [ 4.3488e-04,  6.0797e-05,  1.3405e-02,  ...,  1.4324e-03,
+          4.2038e-03,  1.5557e-04],
+        [ 1.8311e-04, -4.8923e-04, -1.6966e-03,  ..., -1.1969e-03,
+          9.3699e-04, -1.4153e-03],
+        [ 1.0462e-03,  1.5348e-05,  3.0041e-03,  ...,  1.1253e-03,
+         -1.9207e-03,  3.9160e-05]], device='cuda:0')
+Epoch 410, bias, value: tensor([ 0.0146, -0.0025, -0.0144,  0.0095, -0.0150, -0.0221,  0.0107, -0.0020,
+         0.0135, -0.0109], device='cuda:0'), grad: tensor([ 0.0222, -0.0127, -0.0244, -0.0041, -0.0249, -0.0030,  0.0214,  0.0452,
+        -0.0143, -0.0054], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 409, time 217.54, cls_loss 0.4233 cls_loss_mapping 0.0009 cls_loss_causal 0.3938 re_mapping 0.0046 re_causal 0.0131 /// teacc 98.90 lr 0.00001000
+Epoch 411, weight, value: tensor([[-0.0751, -0.1096, -0.1533,  ...,  0.1272, -0.0655,  0.0368],
+        [-0.0928,  0.1120, -0.0593,  ...,  0.0522, -0.0649, -0.0964],
+        [-0.0400,  0.0877, -0.1329,  ..., -0.0216,  0.0414,  0.1248],
+        ...,
+        [ 0.0018,  0.0744,  0.0016,  ..., -0.0251,  0.0333, -0.0862],
+        [ 0.1021, -0.1187,  0.0460,  ...,  0.0204,  0.0095, -0.0372],
+        [-0.0119, -0.0876,  0.0743,  ..., -0.0969,  0.0337, -0.0291]],
+       device='cuda:0'), grad: tensor([[ 2.9087e-05,  5.4613e-06,  1.0699e-05,  ...,  7.7367e-05,
+          1.1280e-05,  8.5533e-05],
+        [-1.2598e-03, -4.1151e-04,  5.4836e-05,  ..., -8.3089e-05,
+          2.9311e-05,  7.1943e-05],
+        [ 1.1975e-04,  3.4899e-05,  5.5254e-05,  ..., -2.1591e-03,
+          1.3685e-04, -7.2193e-04],
+        ...,
+        [ 5.0336e-05, -5.6171e-04, -1.3800e-03,  ..., -1.8282e-03,
+         -8.9455e-04,  6.7711e-05],
+        [ 1.0319e-03,  3.6526e-04,  4.4060e-04,  ...,  2.6932e-03,
+          2.0421e-04,  1.1339e-03],
+        [ 4.1962e-05,  4.3344e-04,  4.1032e-04,  ...,  1.4133e-03,
+          2.3353e-04,  6.8724e-05]], device='cuda:0')
+Epoch 411, bias, value: tensor([ 0.0144, -0.0023, -0.0144,  0.0095, -0.0150, -0.0221,  0.0107, -0.0021,
+         0.0135, -0.0109], device='cuda:0'), grad: tensor([ 8.2855e-03,  8.2245e-03, -1.6815e-02, -1.9394e-02,  1.1108e-02,
+        -2.4872e-02, -2.2690e-02, -1.1876e-05,  4.4342e-02,  1.1803e-02],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 410, time 216.63, cls_loss 0.4717 cls_loss_mapping 0.0010 cls_loss_causal 0.4419 re_mapping 0.0045 re_causal 0.0135 /// teacc 98.91 lr 0.00001000
+Epoch 412, weight, value: tensor([[-0.0752, -0.1096, -0.1534,  ...,  0.1271, -0.0656,  0.0368],
+        [-0.0929,  0.1120, -0.0593,  ...,  0.0523, -0.0651, -0.0964],
+        [-0.0400,  0.0877, -0.1331,  ..., -0.0218,  0.0412,  0.1247],
+        ...,
+        [ 0.0017,  0.0744,  0.0017,  ..., -0.0252,  0.0334, -0.0861],
+        [ 0.1020, -0.1187,  0.0461,  ...,  0.0205,  0.0096, -0.0373],
+        [-0.0120, -0.0877,  0.0743,  ..., -0.0968,  0.0338, -0.0291]],
+       device='cuda:0'), grad: tensor([[-4.6387e-03,  1.8746e-05, -6.5708e-04,  ...,  1.2565e-04,
+         -4.2686e-03, -1.2627e-03],
+        [ 2.1505e-04, -1.5249e-03, -1.9026e-03,  ..., -2.4204e-03,
+         -1.4696e-03,  3.7998e-05],
+        [ 5.5504e-04, -5.4264e-04,  2.9397e-04,  ..., -3.3927e-04,
+          1.2188e-03,  3.6216e-04],
+        ...,
+        [ 4.8327e-04,  1.0481e-03,  1.4439e-03,  ...,  1.0538e-03,
+          1.4057e-03,  6.0260e-05],
+        [ 6.7282e-04,  4.6611e-05,  4.9114e-04,  ...,  1.1331e-04,
+          1.6088e-03, -3.2157e-05],
+        [ 5.4455e-04,  7.2670e-04,  2.2621e-03,  ...,  1.2379e-03,
+          1.5326e-03,  7.0620e-04]], device='cuda:0')
+Epoch 412, bias, value: tensor([ 0.0144, -0.0022, -0.0147,  0.0094, -0.0149, -0.0220,  0.0109, -0.0021,
+         0.0133, -0.0108], device='cuda:0'), grad: tensor([-0.0226,  0.0084,  0.0115, -0.0050, -0.0376,  0.0168,  0.0307, -0.0125,
+        -0.0132,  0.0236], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 411, time 217.73, cls_loss 0.4317 cls_loss_mapping 0.0012 cls_loss_causal 0.4071 re_mapping 0.0043 re_causal 0.0123 /// teacc 98.93 lr 0.00001000
+Epoch 413, weight, value: tensor([[-0.0751, -0.1094, -0.1535,  ...,  0.1271, -0.0656,  0.0367],
+        [-0.0929,  0.1120, -0.0592,  ...,  0.0523, -0.0650, -0.0964],
+        [-0.0399,  0.0878, -0.1332,  ..., -0.0216,  0.0411,  0.1248],
+        ...,
+        [ 0.0018,  0.0744,  0.0017,  ..., -0.0254,  0.0334, -0.0860],
+        [ 0.1021, -0.1187,  0.0460,  ...,  0.0205,  0.0095, -0.0373],
+        [-0.0119, -0.0879,  0.0744,  ..., -0.0968,  0.0340, -0.0291]],
+       device='cuda:0'), grad: tensor([[ 4.8923e-04,  3.9864e-04,  8.0156e-04,  ...,  2.8038e-03,
+          4.5657e-04,  6.8009e-05],
+        [ 7.9489e-04,  1.6031e-03,  6.1178e-04,  ...,  1.1147e-02,
+          2.9659e-04,  8.4519e-05],
+        [ 4.3392e-04,  1.5330e-04,  7.5912e-03,  ...,  1.2026e-03,
+          3.0613e-04,  6.5498e-03],
+        ...,
+        [-1.5736e-03, -1.1272e-03, -5.4817e-03,  ..., -7.1564e-03,
+         -3.0708e-03, -1.4009e-03],
+        [ 6.3276e-04,  5.7364e-04,  6.3515e-04,  ...,  3.9711e-03,
+          3.7599e-04,  1.8537e-04],
+        [ 5.2691e-04,  2.0051e-04, -7.2174e-03,  ...,  1.2550e-03,
+         -5.1613e-03,  2.4700e-04]], device='cuda:0')
+Epoch 413, bias, value: tensor([ 0.0144, -0.0023, -0.0147,  0.0095, -0.0149, -0.0221,  0.0109, -0.0021,
+         0.0134, -0.0110], device='cuda:0'), grad: tensor([-0.0131,  0.0027,  0.0385, -0.0109,  0.0218,  0.0143,  0.0122, -0.0951,
+         0.0220,  0.0076], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 412, time 217.78, cls_loss 0.4647 cls_loss_mapping 0.0009 cls_loss_causal 0.4330 re_mapping 0.0043 re_causal 0.0128 /// teacc 98.94 lr 0.00001000
+Epoch 414, weight, value: tensor([[-0.0749, -0.1091, -0.1534,  ...,  0.1271, -0.0656,  0.0366],
+        [-0.0930,  0.1120, -0.0593,  ...,  0.0522, -0.0651, -0.0965],
+        [-0.0399,  0.0879, -0.1333,  ..., -0.0216,  0.0412,  0.1249],
+        ...,
+        [ 0.0018,  0.0744,  0.0017,  ..., -0.0253,  0.0333, -0.0859],
+        [ 0.1022, -0.1186,  0.0460,  ...,  0.0205,  0.0095, -0.0374],
+        [-0.0121, -0.0880,  0.0743,  ..., -0.0967,  0.0340, -0.0291]],
+       device='cuda:0'), grad: tensor([[ 5.3078e-05,  4.4167e-05,  1.1593e-04,  ...,  1.2767e-04,
+          2.0182e-04,  1.1230e-04],
+        [ 5.5104e-05,  3.8534e-05,  5.7220e-05,  ..., -5.4646e-04,
+          9.3222e-05,  5.1618e-05],
+        [ 7.0751e-05, -6.3229e-04,  4.0913e-04,  ...,  4.1910e-07,
+          8.1968e-04,  1.0568e-04],
+        ...,
+        [-1.2503e-03, -3.1519e-04, -9.5558e-04,  ..., -6.5088e-04,
+         -1.5850e-03, -5.0926e-04],
+        [ 1.8883e-04,  1.5342e-04,  3.1972e-04,  ...,  8.1396e-04,
+          5.0402e-04,  2.4045e-04],
+        [ 5.8079e-04,  4.3225e-04,  9.7036e-04,  ...,  5.7840e-04,
+          8.7118e-04,  4.0293e-04]], device='cuda:0')
+Epoch 414, bias, value: tensor([ 0.0146, -0.0024, -0.0144,  0.0095, -0.0150, -0.0220,  0.0110, -0.0021,
+         0.0132, -0.0110], device='cuda:0'), grad: tensor([ 0.0049,  0.0009, -0.0238, -0.0080,  0.0020,  0.0055,  0.0072, -0.0083,
+         0.0095,  0.0103], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 413, time 218.35, cls_loss 0.4807 cls_loss_mapping 0.0011 cls_loss_causal 0.4559 re_mapping 0.0042 re_causal 0.0126 /// teacc 98.99 lr 0.00001000
+Epoch 415, weight, value: tensor([[-0.0748, -0.1090, -0.1534,  ...,  0.1271, -0.0656,  0.0367],
+        [-0.0930,  0.1119, -0.0593,  ...,  0.0522, -0.0651, -0.0965],
+        [-0.0400,  0.0878, -0.1334,  ..., -0.0216,  0.0412,  0.1250],
+        ...,
+        [ 0.0018,  0.0743,  0.0016,  ..., -0.0253,  0.0332, -0.0860],
+        [ 0.1023, -0.1185,  0.0461,  ...,  0.0206,  0.0096, -0.0374],
+        [-0.0121, -0.0880,  0.0744,  ..., -0.0967,  0.0340, -0.0293]],
+       device='cuda:0'), grad: tensor([[ 2.2423e-04,  1.1707e-06,  3.1263e-05,  ...,  1.6832e-04,
+          1.0721e-05, -6.0946e-06],
+        [ 3.2163e-04,  8.3148e-06, -1.9050e-04,  ...,  4.5747e-05,
+          1.2694e-06,  3.0734e-08],
+        [ 2.4962e-04,  2.2769e-05,  2.1979e-05,  ...,  1.6439e-04,
+          1.5214e-05,  4.0233e-07],
+        ...,
+        [ 3.2473e-04, -3.8376e-03,  1.3151e-03,  ...,  2.0206e-04,
+          1.0490e-03,  2.9709e-07],
+        [-2.0466e-03,  6.4932e-06,  5.4121e-05,  ...,  1.6916e-04,
+          2.8774e-05,  8.0373e-07],
+        [ 2.1744e-02,  3.6373e-03, -1.8349e-03,  ..., -1.1003e-04,
+         -1.2541e-03,  1.8468e-06]], device='cuda:0')
+Epoch 415, bias, value: tensor([ 0.0147, -0.0024, -0.0144,  0.0093, -0.0151, -0.0219,  0.0109, -0.0020,
+         0.0133, -0.0110], device='cuda:0'), grad: tensor([ 1.3054e-02,  1.5221e-02,  1.2199e-02, -2.1988e-02, -3.7903e-02,
+         2.8076e-02, -1.6907e-02,  1.8388e-05, -7.1144e-03,  1.5350e-02],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 414, time 217.48, cls_loss 0.4195 cls_loss_mapping 0.0009 cls_loss_causal 0.3962 re_mapping 0.0042 re_causal 0.0123 /// teacc 98.96 lr 0.00001000
+Epoch 416, weight, value: tensor([[-0.0749, -0.1089, -0.1534,  ...,  0.1271, -0.0656,  0.0368],
+        [-0.0929,  0.1120, -0.0593,  ...,  0.0524, -0.0652, -0.0965],
+        [-0.0398,  0.0878, -0.1332,  ..., -0.0215,  0.0412,  0.1250],
+        ...,
+        [ 0.0018,  0.0743,  0.0017,  ..., -0.0254,  0.0334, -0.0861],
+        [ 0.1022, -0.1187,  0.0461,  ...,  0.0206,  0.0096, -0.0375],
+        [-0.0121, -0.0881,  0.0743,  ..., -0.0968,  0.0340, -0.0291]],
+       device='cuda:0'), grad: tensor([[ 2.8682e-04,  4.5486e-06,  5.9426e-05,  ...,  2.2650e-04,
+          3.7491e-05,  5.9232e-06],
+        [ 6.1846e-04, -2.3201e-05,  5.0128e-05,  ..., -1.1120e-03,
+          2.7895e-05,  1.0654e-06],
+        [ 1.4811e-03,  1.5426e-04,  1.5102e-05,  ...,  2.9297e-03,
+          5.2376e-03,  2.2392e-03],
+        ...,
+        [ 2.6083e-04,  2.5593e-06,  2.7790e-03,  ...,  2.1136e-04,
+          1.4763e-03,  3.5949e-07],
+        [ 1.4744e-03,  8.3029e-05,  5.6237e-05,  ...,  1.6441e-03,
+          2.7466e-03,  1.1654e-03],
+        [ 2.4092e-04,  1.1958e-06,  8.5144e-03,  ...,  2.0790e-04,
+          4.5547e-03,  1.6829e-06]], device='cuda:0')
+Epoch 416, bias, value: tensor([ 0.0147, -0.0023, -0.0143,  0.0095, -0.0150, -0.0221,  0.0108, -0.0020,
+         0.0132, -0.0111], device='cuda:0'), grad: tensor([ 0.0115, -0.0153,  0.0132, -0.0463, -0.0220,  0.0135, -0.0442,  0.0202,
+         0.0332,  0.0361], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 415, time 217.19, cls_loss 0.4562 cls_loss_mapping 0.0010 cls_loss_causal 0.4299 re_mapping 0.0043 re_causal 0.0130 /// teacc 98.95 lr 0.00001000
+Epoch 417, weight, value: tensor([[-0.0751, -0.1090, -0.1534,  ...,  0.1269, -0.0657,  0.0367],
+        [-0.0929,  0.1119, -0.0594,  ...,  0.0525, -0.0650, -0.0966],
+        [-0.0397,  0.0881, -0.1331,  ..., -0.0212,  0.0413,  0.1251],
+        ...,
+        [ 0.0018,  0.0743,  0.0017,  ..., -0.0255,  0.0334, -0.0860],
+        [ 0.1022, -0.1187,  0.0459,  ...,  0.0205,  0.0095, -0.0377],
+        [-0.0122, -0.0881,  0.0743,  ..., -0.0968,  0.0339, -0.0291]],
+       device='cuda:0'), grad: tensor([[ 2.6178e-04, -8.4460e-05,  4.2510e-04,  ...,  1.7381e-04,
+          1.1301e-03,  6.3705e-04],
+        [ 1.5366e-04,  9.5654e-04,  8.6260e-04,  ..., -3.1376e-04,
+          1.2341e-03,  4.5323e-04],
+        [ 1.8075e-05,  9.0027e-04, -1.0004e-03,  ...,  1.6704e-05,
+         -3.3150e-03, -6.8855e-04],
+        ...,
+        [ 5.8079e-04, -4.7722e-03, -2.2221e-03,  ..., -3.2425e-03,
+         -2.6188e-03,  4.6706e-04],
+        [-1.6820e-04,  1.6558e-04, -6.6102e-05,  ...,  5.3120e-04,
+          4.8375e-04,  6.5899e-04],
+        [ 1.2846e-03,  9.5272e-04,  2.1381e-03,  ...,  8.7452e-04,
+          2.1706e-03,  4.5156e-04]], device='cuda:0')
+Epoch 417, bias, value: tensor([ 0.0146, -0.0023, -0.0141,  0.0095, -0.0150, -0.0220,  0.0109, -0.0021,
+         0.0129, -0.0112], device='cuda:0'), grad: tensor([ 0.0106,  0.0122,  0.0112, -0.0285,  0.0195, -0.0107, -0.0022, -0.0489,
+         0.0245,  0.0124], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 416, time 217.10, cls_loss 0.4689 cls_loss_mapping 0.0011 cls_loss_causal 0.4464 re_mapping 0.0043 re_causal 0.0128 /// teacc 98.98 lr 0.00001000
+Epoch 418, weight, value: tensor([[-0.0751, -0.1091, -0.1535,  ...,  0.1270, -0.0656,  0.0367],
+        [-0.0929,  0.1119, -0.0594,  ...,  0.0525, -0.0650, -0.0967],
+        [-0.0398,  0.0880, -0.1332,  ..., -0.0214,  0.0413,  0.1249],
+        ...,
+        [ 0.0018,  0.0743,  0.0018,  ..., -0.0254,  0.0336, -0.0860],
+        [ 0.1022, -0.1186,  0.0459,  ...,  0.0205,  0.0095, -0.0377],
+        [-0.0123, -0.0881,  0.0742,  ..., -0.0969,  0.0339, -0.0291]],
+       device='cuda:0'), grad: tensor([[-0.0011, -0.0014,  0.0006,  ..., -0.0013,  0.0014,  0.0003],
+        [-0.0038,  0.0031, -0.0019,  ...,  0.0028,  0.0051,  0.0011],
+        [ 0.0005, -0.0007,  0.0006,  ...,  0.0019,  0.0024, -0.0004],
+        ...,
+        [-0.0030, -0.0008, -0.0108,  ...,  0.0008, -0.0073,  0.0001],
+        [-0.0030,  0.0007,  0.0010,  ...,  0.0017,  0.0021,  0.0006],
+        [ 0.0043, -0.0024,  0.0147,  ..., -0.0019,  0.0134, -0.0027]],
+       device='cuda:0')
+Epoch 418, bias, value: tensor([ 0.0146, -0.0023, -0.0142,  0.0096, -0.0150, -0.0218,  0.0109, -0.0021,
+         0.0128, -0.0112], device='cuda:0'), grad: tensor([-0.0123,  0.0172,  0.0242, -0.0335,  0.0388, -0.0413,  0.0202, -0.0289,
+         0.0136,  0.0021], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 417, time 216.96, cls_loss 0.4502 cls_loss_mapping 0.0009 cls_loss_causal 0.4220 re_mapping 0.0042 re_causal 0.0126 /// teacc 99.00 lr 0.00001000
+Epoch 419, weight, value: tensor([[-0.0751, -0.1091, -0.1536,  ...,  0.1270, -0.0658,  0.0367],
+        [-0.0928,  0.1119, -0.0593,  ...,  0.0524, -0.0649, -0.0968],
+        [-0.0397,  0.0881, -0.1332,  ..., -0.0214,  0.0412,  0.1249],
+        ...,
+        [ 0.0018,  0.0742,  0.0017,  ..., -0.0254,  0.0335, -0.0859],
+        [ 0.1022, -0.1184,  0.0459,  ...,  0.0206,  0.0095, -0.0376],
+        [-0.0123, -0.0881,  0.0742,  ..., -0.0969,  0.0339, -0.0291]],
+       device='cuda:0'), grad: tensor([[ 7.3537e-06,  9.2238e-06,  1.2971e-05,  ...,  1.1390e-04,
+          2.4724e-04,  1.2666e-07],
+        [-2.7084e-03,  7.0222e-06,  1.6165e-04,  ..., -2.0809e-03,
+          7.0524e-04,  3.2596e-07],
+        [ 7.1824e-06, -3.0327e-04,  1.5393e-05,  ..., -1.2141e-04,
+          1.9610e-04, -8.4758e-05],
+        ...,
+        [ 9.0525e-06,  1.3936e-04,  1.6403e-03,  ..., -2.0599e-03,
+         -4.7493e-03,  5.6446e-05],
+        [ 7.3910e-05,  6.3777e-05,  1.5986e-04,  ...,  6.1178e-04,
+          1.1702e-03,  1.9819e-05],
+        [-2.3678e-05,  2.4736e-05, -4.1046e-03,  ...,  3.8171e-04,
+          8.7678e-05,  7.4599e-07]], device='cuda:0')
+Epoch 419, bias, value: tensor([ 0.0145, -0.0024, -0.0142,  0.0097, -0.0150, -0.0218,  0.0108, -0.0021,
+         0.0129, -0.0112], device='cuda:0'), grad: tensor([-0.0159, -0.0301, -0.0133,  0.0307,  0.0184,  0.0105,  0.0123, -0.0068,
+        -0.0154,  0.0095], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 418, time 217.34, cls_loss 0.4533 cls_loss_mapping 0.0011 cls_loss_causal 0.4231 re_mapping 0.0042 re_causal 0.0125 /// teacc 99.02 lr 0.00001000
+Epoch 420, weight, value: tensor([[-0.0749, -0.1092, -0.1536,  ...,  0.1268, -0.0659,  0.0367],
+        [-0.0928,  0.1121, -0.0591,  ...,  0.0526, -0.0649, -0.0968],
+        [-0.0397,  0.0880, -0.1333,  ..., -0.0215,  0.0412,  0.1249],
+        ...,
+        [ 0.0018,  0.0743,  0.0016,  ..., -0.0254,  0.0337, -0.0860],
+        [ 0.1022, -0.1184,  0.0460,  ...,  0.0206,  0.0096, -0.0376],
+        [-0.0123, -0.0882,  0.0743,  ..., -0.0969,  0.0340, -0.0292]],
+       device='cuda:0'), grad: tensor([[-4.9744e-03,  8.5294e-05,  5.3138e-05,  ..., -9.8991e-04,
+         -2.5600e-05,  2.5225e-04],
+        [ 3.0446e-04,  1.1349e-03,  4.6998e-05,  ...,  1.6270e-03,
+          6.6638e-05,  9.6512e-04],
+        [ 3.5739e-04, -2.8591e-03,  3.6693e-04,  ..., -2.4853e-03,
+          2.2864e-04,  1.3857e-03],
+        ...,
+        [ 2.6202e-04,  8.1015e-04, -1.0147e-03,  ...,  1.1311e-03,
+         -5.8794e-04,  5.3596e-04],
+        [ 2.0552e-04,  4.0627e-04,  9.0718e-05,  ...,  6.8903e-04,
+          6.7532e-05, -6.5079e-03],
+        [ 3.3522e-04,  1.2922e-04,  6.1333e-05,  ...,  5.5224e-05,
+         -1.7107e-05,  1.9968e-04]], device='cuda:0')
+Epoch 420, bias, value: tensor([ 0.0145, -0.0024, -0.0141,  0.0097, -0.0152, -0.0216,  0.0108, -0.0021,
+         0.0129, -0.0111], device='cuda:0'), grad: tensor([-0.0254,  0.0228,  0.0025, -0.0004,  0.0110,  0.0193, -0.0184,  0.0130,
+        -0.0079, -0.0166], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 419, time 216.50, cls_loss 0.4407 cls_loss_mapping 0.0009 cls_loss_causal 0.4195 re_mapping 0.0042 re_causal 0.0123 /// teacc 99.00 lr 0.00001000
+Epoch 421, weight, value: tensor([[-0.0748, -0.1091, -0.1536,  ...,  0.1269, -0.0658,  0.0368],
+        [-0.0929,  0.1120, -0.0591,  ...,  0.0525, -0.0650, -0.0969],
+        [-0.0397,  0.0881, -0.1329,  ..., -0.0214,  0.0415,  0.1248],
+        ...,
+        [ 0.0020,  0.0743,  0.0016,  ..., -0.0253,  0.0337, -0.0860],
+        [ 0.1022, -0.1184,  0.0459,  ...,  0.0206,  0.0095, -0.0376],
+        [-0.0122, -0.0882,  0.0743,  ..., -0.0970,  0.0339, -0.0292]],
+       device='cuda:0'), grad: tensor([[ 7.0190e-04,  3.0518e-05,  3.0786e-05,  ...,  2.6188e-03,
+          2.5797e-04, -1.9703e-03],
+        [-4.8676e-03,  9.7394e-05,  1.4627e-04,  ..., -4.6844e-03,
+          1.1331e-04,  6.8724e-05],
+        [ 4.8041e-04,  5.1707e-05,  4.8667e-05,  ...,  8.0204e-04,
+          2.8944e-04,  1.8883e-04],
+        ...,
+        [ 2.8181e-04, -3.8370e-07,  4.9353e-05,  ...,  9.5844e-04,
+         -4.3392e-05,  3.2932e-05],
+        [ 1.8358e-03, -4.9877e-04,  7.7438e-04,  ..., -2.0580e-03,
+          8.2922e-04,  2.7776e-04],
+        [ 2.4402e-04,  8.1897e-05,  8.6069e-05,  ...,  8.9216e-04,
+          2.7823e-04,  1.3471e-04]], device='cuda:0')
+Epoch 421, bias, value: tensor([ 0.0147, -0.0024, -0.0141,  0.0097, -0.0153, -0.0217,  0.0108, -0.0021,
+         0.0129, -0.0113], device='cuda:0'), grad: tensor([ 0.0081,  0.0058, -0.0035,  0.0031,  0.0250, -0.0212, -0.0199, -0.0031,
+        -0.0231,  0.0288], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 420, time 217.01, cls_loss 0.4684 cls_loss_mapping 0.0010 cls_loss_causal 0.4342 re_mapping 0.0042 re_causal 0.0128 /// teacc 99.02 lr 0.00001000
+Epoch 422, weight, value: tensor([[-0.0750, -0.1092, -0.1536,  ...,  0.1269, -0.0659,  0.0369],
+        [-0.0930,  0.1120, -0.0590,  ...,  0.0524, -0.0648, -0.0969],
+        [-0.0397,  0.0881, -0.1330,  ..., -0.0214,  0.0414,  0.1248],
+        ...,
+        [ 0.0020,  0.0743,  0.0015,  ..., -0.0253,  0.0336, -0.0859],
+        [ 0.1022, -0.1185,  0.0459,  ...,  0.0206,  0.0095, -0.0375],
+        [-0.0122, -0.0882,  0.0744,  ..., -0.0970,  0.0340, -0.0293]],
+       device='cuda:0'), grad: tensor([[ 1.0663e-04,  9.9391e-06,  6.3705e-04,  ...,  3.8695e-04,
+          2.0351e-03,  1.5736e-04],
+        [ 1.8120e-05, -1.0264e-04, -3.0130e-05,  ...,  2.3508e-04,
+          1.2338e-04,  1.9550e-05],
+        [ 6.3181e-05, -1.9348e-04,  2.3115e-04,  ...,  3.1257e-04,
+          8.3637e-04,  5.3495e-05],
+        ...,
+        [-1.8775e-04, -2.3544e-04, -1.5259e-03,  ..., -5.3883e-05,
+          1.8403e-05,  8.5533e-05],
+        [-1.0681e-03,  4.3869e-05,  4.6754e-04,  ...,  5.3215e-04,
+          2.0599e-03,  3.2616e-04],
+        [-1.7083e-04,  3.3450e-04, -2.2411e-03,  ..., -2.2519e-04,
+         -1.0040e-02, -7.9918e-04]], device='cuda:0')
+Epoch 422, bias, value: tensor([ 0.0147, -0.0025, -0.0141,  0.0098, -0.0152, -0.0217,  0.0109, -0.0020,
+         0.0127, -0.0113], device='cuda:0'), grad: tensor([ 0.0099,  0.0063,  0.0092, -0.0075,  0.0112, -0.0457,  0.0128,  0.0055,
+         0.0025, -0.0042], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 421, time 216.80, cls_loss 0.4330 cls_loss_mapping 0.0009 cls_loss_causal 0.4081 re_mapping 0.0041 re_causal 0.0120 /// teacc 99.02 lr 0.00001000
+Epoch 423, weight, value: tensor([[-0.0751, -0.1092, -0.1538,  ...,  0.1269, -0.0659,  0.0370],
+        [-0.0929,  0.1119, -0.0590,  ...,  0.0524, -0.0648, -0.0968],
+        [-0.0398,  0.0884, -0.1331,  ..., -0.0214,  0.0414,  0.1247],
+        ...,
+        [ 0.0020,  0.0742,  0.0016,  ..., -0.0252,  0.0335, -0.0859],
+        [ 0.1022, -0.1184,  0.0459,  ...,  0.0206,  0.0094, -0.0375],
+        [-0.0123, -0.0882,  0.0745,  ..., -0.0969,  0.0341, -0.0291]],
+       device='cuda:0'), grad: tensor([[ 2.8038e-04,  5.2977e-04,  1.0246e-04,  ...,  4.9973e-03,
+          1.1343e-04,  1.6320e-04],
+        [ 2.2469e-03, -7.8678e-04,  2.2144e-03,  ..., -4.1695e-03,
+          1.0443e-04,  2.6441e-04],
+        [ 6.1214e-05, -9.7179e-04, -8.7976e-04,  ..., -1.5965e-03,
+         -1.2197e-03, -4.2629e-04],
+        ...,
+        [ 1.5914e-04, -1.4290e-05,  7.2360e-05,  ...,  7.3850e-05,
+          5.5403e-05,  7.7307e-05],
+        [-4.1504e-03,  3.2926e-04,  1.1897e-04,  ..., -2.6226e-03,
+          7.2718e-05, -1.6680e-03],
+        [ 2.5916e-04,  8.1420e-05,  1.0026e-04,  ...,  1.6570e-04,
+          7.0333e-05,  1.1098e-04]], device='cuda:0')
+Epoch 423, bias, value: tensor([ 0.0147, -0.0024, -0.0141,  0.0097, -0.0153, -0.0216,  0.0109, -0.0020,
+         0.0127, -0.0113], device='cuda:0'), grad: tensor([ 0.0364, -0.0478,  0.0030,  0.0320, -0.0667,  0.0226,  0.0468, -0.0374,
+        -0.0150,  0.0261], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 422, time 216.93, cls_loss 0.4475 cls_loss_mapping 0.0009 cls_loss_causal 0.4173 re_mapping 0.0043 re_causal 0.0123 /// teacc 98.99 lr 0.00001000
+Epoch 424, weight, value: tensor([[-0.0752, -0.1092, -0.1539,  ...,  0.1270, -0.0659,  0.0370],
+        [-0.0932,  0.1119, -0.0590,  ...,  0.0524, -0.0648, -0.0969],
+        [-0.0395,  0.0885, -0.1331,  ..., -0.0214,  0.0414,  0.1248],
+        ...,
+        [ 0.0020,  0.0741,  0.0017,  ..., -0.0253,  0.0335, -0.0858],
+        [ 0.1022, -0.1185,  0.0458,  ...,  0.0206,  0.0095, -0.0376],
+        [-0.0124, -0.0883,  0.0745,  ..., -0.0968,  0.0342, -0.0291]],
+       device='cuda:0'), grad: tensor([[ 1.5087e-05,  2.5272e-05,  7.4729e-06,  ..., -1.5812e-03,
+          1.1772e-05,  3.2216e-05],
+        [ 3.1348e-06,  4.7493e-03, -3.8567e-03,  ...,  2.0576e-04,
+          8.0559e-07,  8.0168e-06],
+        [-3.9005e-04, -1.3123e-02,  3.1829e-05,  ...,  2.5296e-04,
+          3.1203e-05, -1.2159e-03],
+        ...,
+        [ 3.1561e-05,  4.8846e-05, -3.6125e-03,  ...,  1.0347e-04,
+         -3.4904e-03,  9.6321e-05],
+        [ 8.1122e-05,  2.8419e-04,  2.4962e-04,  ...,  1.9026e-04,
+          1.7941e-04,  2.5845e-04],
+        [ 1.9580e-05,  2.4706e-05,  3.3894e-03,  ...,  1.1015e-04,
+          3.2902e-03,  2.4095e-05]], device='cuda:0')
+Epoch 424, bias, value: tensor([ 0.0147, -0.0024, -0.0141,  0.0097, -0.0152, -0.0215,  0.0109, -0.0021,
+         0.0127, -0.0113], device='cuda:0'), grad: tensor([-0.0185, -0.0160, -0.0291, -0.0124,  0.0131,  0.0181,  0.0415,  0.0104,
+         0.0052, -0.0123], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 423, time 217.42, cls_loss 0.4070 cls_loss_mapping 0.0012 cls_loss_causal 0.3778 re_mapping 0.0040 re_causal 0.0118 /// teacc 99.00 lr 0.00001000
+Epoch 425, weight, value: tensor([[-0.0752, -0.1092, -0.1540,  ...,  0.1268, -0.0661,  0.0371],
+        [-0.0932,  0.1119, -0.0590,  ...,  0.0525, -0.0649, -0.0970],
+        [-0.0391,  0.0885, -0.1332,  ..., -0.0215,  0.0414,  0.1248],
+        ...,
+        [ 0.0020,  0.0741,  0.0017,  ..., -0.0253,  0.0336, -0.0858],
+        [ 0.1022, -0.1186,  0.0457,  ...,  0.0205,  0.0094, -0.0376],
+        [-0.0124, -0.0883,  0.0746,  ..., -0.0968,  0.0343, -0.0291]],
+       device='cuda:0'), grad: tensor([[ 4.7505e-05,  1.0657e-04, -4.0740e-05,  ..., -3.6983e-03,
+         -7.6580e-04,  3.3155e-07],
+        [ 8.1420e-05,  3.4475e-04,  3.5238e-04,  ...,  2.8110e-04,
+          9.6336e-06,  2.1886e-07],
+        [ 5.1528e-05, -1.3588e-02, -6.7353e-05,  ..., -1.0017e-02,
+         -1.6994e-03,  1.5348e-06],
+        ...,
+        [ 1.4353e-04,  1.3115e-02,  6.5804e-05,  ...,  9.7427e-03,
+          1.9035e-03,  2.1234e-07],
+        [ 2.2278e-03,  7.2658e-05,  1.1671e-04,  ...,  1.4334e-03,
+          1.8191e-04,  6.5677e-06],
+        [ 7.3552e-05,  5.1528e-05, -2.5702e-04,  ...,  6.8140e-04,
+          1.2589e-04,  2.6822e-06]], device='cuda:0')
+Epoch 425, bias, value: tensor([ 0.0146, -0.0023, -0.0141,  0.0099, -0.0152, -0.0216,  0.0108, -0.0022,
+         0.0126, -0.0112], device='cuda:0'), grad: tensor([-0.0125,  0.0106, -0.0363,  0.0038,  0.0121, -0.0013,  0.0041,  0.0219,
+         0.0176, -0.0201], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 424, time 217.22, cls_loss 0.4463 cls_loss_mapping 0.0009 cls_loss_causal 0.4234 re_mapping 0.0042 re_causal 0.0125 /// teacc 98.97 lr 0.00001000
+Epoch 426, weight, value: tensor([[-0.0753, -0.1092, -0.1541,  ...,  0.1269, -0.0662,  0.0372],
+        [-0.0932,  0.1119, -0.0590,  ...,  0.0525, -0.0649, -0.0971],
+        [-0.0392,  0.0886, -0.1333,  ..., -0.0215,  0.0414,  0.1248],
+        ...,
+        [ 0.0020,  0.0742,  0.0017,  ..., -0.0253,  0.0335, -0.0857],
+        [ 0.1023, -0.1187,  0.0458,  ...,  0.0205,  0.0093, -0.0377],
+        [-0.0124, -0.0883,  0.0747,  ..., -0.0967,  0.0344, -0.0290]],
+       device='cuda:0'), grad: tensor([[ 2.7061e-05,  1.9953e-05,  1.0386e-03,  ...,  2.8396e-04,
+          4.0507e-04,  1.5652e-04],
+        [ 4.6372e-05, -2.4366e-04, -3.5267e-03,  ..., -2.2564e-03,
+         -8.1205e-04,  3.9428e-05],
+        [-2.6584e-05, -1.3485e-03,  1.3685e-03,  ...,  2.7108e-04,
+         -2.3437e-04, -4.9877e-04],
+        ...,
+        [ 5.9098e-05,  1.2989e-03,  2.2717e-03,  ...,  5.8031e-04,
+          1.4448e-03,  5.0879e-04],
+        [-2.2739e-05,  9.1076e-05,  4.8375e-04,  ..., -1.9670e-04,
+         -3.7861e-04, -5.3692e-04],
+        [-2.6655e-04, -4.4537e-04,  1.9484e-03,  ...,  2.9278e-04,
+          3.1996e-04,  2.0361e-04]], device='cuda:0')
+Epoch 426, bias, value: tensor([ 0.0145, -0.0023, -0.0140,  0.0099, -0.0153, -0.0215,  0.0107, -0.0022,
+         0.0126, -0.0111], device='cuda:0'), grad: tensor([-0.0003, -0.0330,  0.0244, -0.0333, -0.0176, -0.0086,  0.0314,  0.0405,
+        -0.0077,  0.0042], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 425, time 216.81, cls_loss 0.4412 cls_loss_mapping 0.0007 cls_loss_causal 0.4066 re_mapping 0.0041 re_causal 0.0121 /// teacc 98.95 lr 0.00001000
+Epoch 427, weight, value: tensor([[-0.0753, -0.1091, -0.1541,  ...,  0.1268, -0.0661,  0.0373],
+        [-0.0934,  0.1117, -0.0591,  ...,  0.0523, -0.0649, -0.0972],
+        [-0.0392,  0.0886, -0.1332,  ..., -0.0215,  0.0415,  0.1248],
+        ...,
+        [ 0.0022,  0.0742,  0.0018,  ..., -0.0252,  0.0335, -0.0856],
+        [ 0.1023, -0.1188,  0.0458,  ...,  0.0207,  0.0092, -0.0377],
+        [-0.0123, -0.0882,  0.0747,  ..., -0.0967,  0.0344, -0.0290]],
+       device='cuda:0'), grad: tensor([[ 4.1580e-04,  6.3665e-06,  2.2352e-08,  ...,  7.4768e-04,
+          1.2303e-06,  6.4516e-04],
+        [ 4.5681e-04,  2.2926e-03,  1.1455e-07,  ...,  1.2894e-03,
+          8.5115e-04,  7.0906e-04],
+        [ 1.0118e-03, -2.5978e-03,  4.7684e-05,  ..., -3.1471e-05,
+         -9.5654e-04,  1.3533e-03],
+        ...,
+        [ 3.0661e-04,  1.5008e-04,  1.2033e-06,  ...,  1.5891e-04,
+          5.5373e-05,  4.7851e-04],
+        [-1.3153e-02,  1.9610e-05,  2.5760e-06,  ..., -2.4033e-03,
+          5.7593e-06,  8.2922e-04],
+        [ 2.6131e-04,  2.3976e-05, -9.2108e-07,  ...,  2.0719e-04,
+          6.6161e-06,  4.0483e-04]], device='cuda:0')
+Epoch 427, bias, value: tensor([ 0.0145, -0.0023, -0.0140,  0.0098, -0.0153, -0.0216,  0.0108, -0.0021,
+         0.0126, -0.0111], device='cuda:0'), grad: tensor([ 0.0245, -0.0021, -0.0088,  0.0220, -0.0116, -0.0069, -0.0075,  0.0191,
+        -0.0183, -0.0103], device='cuda:0')
+100
+1e-05
+changing lr
+---------------------saving model at epoch 426----------------------------------------------------
+epoch 426, time 217.70, cls_loss 0.4497 cls_loss_mapping 0.0009 cls_loss_causal 0.4197 re_mapping 0.0041 re_causal 0.0121 /// teacc 99.03 lr 0.00001000
+Epoch 428, weight, value: tensor([[-0.0753, -0.1091, -0.1539,  ...,  0.1267, -0.0663,  0.0373],
+        [-0.0934,  0.1116, -0.0589,  ...,  0.0523, -0.0646, -0.0973],
+        [-0.0391,  0.0886, -0.1333,  ..., -0.0214,  0.0415,  0.1248],
+        ...,
+        [ 0.0021,  0.0743,  0.0018,  ..., -0.0252,  0.0336, -0.0857],
+        [ 0.1023, -0.1189,  0.0460,  ...,  0.0206,  0.0093, -0.0376],
+        [-0.0125, -0.0882,  0.0746,  ..., -0.0967,  0.0343, -0.0292]],
+       device='cuda:0'), grad: tensor([[ 8.3923e-03,  9.2363e-04,  1.2410e-04,  ...,  9.4771e-05,
+          6.9695e-03,  7.1239e-04],
+        [ 7.1466e-05, -4.4629e-06,  5.5701e-05,  ..., -1.1330e-03,
+          4.5896e-05,  1.2815e-04],
+        [ 1.0052e-03, -2.1982e-04,  1.2839e-04,  ...,  1.0365e-04,
+          3.4928e-04,  1.5271e-04],
+        ...,
+        [-8.6746e-03, -7.2861e-04,  1.1617e-04,  ...,  1.9503e-04,
+         -7.1869e-03, -3.6478e-04],
+        [ 9.2459e-04, -2.4185e-05,  2.3899e-03,  ..., -2.8515e-04,
+          1.2836e-03, -1.0290e-03],
+        [ 4.4084e-04,  2.8208e-05, -7.0858e-04,  ...,  3.1185e-04,
+         -6.9189e-04,  4.1270e-04]], device='cuda:0')
+Epoch 428, bias, value: tensor([ 0.0145, -0.0023, -0.0141,  0.0098, -0.0151, -0.0215,  0.0108, -0.0020,
+         0.0125, -0.0113], device='cuda:0'), grad: tensor([ 0.0052, -0.0104,  0.0175, -0.0372,  0.0350,  0.0074, -0.0071,  0.0020,
+        -0.0380,  0.0255], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 427, time 216.56, cls_loss 0.4468 cls_loss_mapping 0.0009 cls_loss_causal 0.4227 re_mapping 0.0039 re_causal 0.0119 /// teacc 98.97 lr 0.00001000
+Epoch 429, weight, value: tensor([[-0.0753, -0.1090, -0.1539,  ...,  0.1269, -0.0661,  0.0374],
+        [-0.0934,  0.1116, -0.0589,  ...,  0.0522, -0.0648, -0.0974],
+        [-0.0390,  0.0886, -0.1332,  ..., -0.0212,  0.0417,  0.1249],
+        ...,
+        [ 0.0022,  0.0744,  0.0018,  ..., -0.0252,  0.0336, -0.0856],
+        [ 0.1024, -0.1190,  0.0460,  ...,  0.0206,  0.0093, -0.0378],
+        [-0.0126, -0.0884,  0.0745,  ..., -0.0969,  0.0343, -0.0292]],
+       device='cuda:0'), grad: tensor([[ 4.0621e-05,  1.5211e-04,  1.2863e-04,  ...,  2.5463e-04,
+          3.0375e-04,  5.1945e-05],
+        [ 3.7372e-05,  1.8466e-04,  1.7786e-04,  ...,  3.1376e-04,
+          4.1723e-04,  1.3041e-04],
+        [ 8.4758e-05,  6.3095e-03,  5.2071e-04,  ...,  9.0714e-03,
+          9.8991e-04, -1.0386e-03],
+        ...,
+        [ 6.9499e-05,  1.2035e-03,  3.8195e-04,  ...,  7.0152e-03,
+          9.5177e-04,  3.0208e-04],
+        [ 1.1110e-04, -6.8512e-03,  5.5885e-04,  ..., -1.5465e-02,
+          1.4172e-03,  4.9257e-04],
+        [ 4.7803e-05,  2.3842e-04,  2.5082e-04,  ...,  4.0627e-04,
+          5.9414e-04,  1.9479e-04]], device='cuda:0')
+Epoch 429, bias, value: tensor([ 0.0145, -0.0024, -0.0142,  0.0099, -0.0152, -0.0215,  0.0108, -0.0020,
+         0.0127, -0.0114], device='cuda:0'), grad: tensor([ 0.0148,  0.0133, -0.0015, -0.0557,  0.0103,  0.0090,  0.0086, -0.0062,
+        -0.0056,  0.0130], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 428, time 217.59, cls_loss 0.4290 cls_loss_mapping 0.0009 cls_loss_causal 0.3977 re_mapping 0.0040 re_causal 0.0117 /// teacc 98.97 lr 0.00001000
+Epoch 430, weight, value: tensor([[-0.0753, -0.1090, -0.1537,  ...,  0.1269, -0.0659,  0.0374],
+        [-0.0934,  0.1116, -0.0589,  ...,  0.0522, -0.0648, -0.0973],
+        [-0.0389,  0.0885, -0.1333,  ..., -0.0211,  0.0417,  0.1247],
+        ...,
+        [ 0.0022,  0.0745,  0.0019,  ..., -0.0253,  0.0336, -0.0856],
+        [ 0.1023, -0.1191,  0.0460,  ...,  0.0206,  0.0093, -0.0377],
+        [-0.0126, -0.0884,  0.0744,  ..., -0.0970,  0.0340, -0.0293]],
+       device='cuda:0'), grad: tensor([[ 1.2420e-05,  2.2333e-06,  3.0255e-04,  ...,  1.5843e-04,
+          9.0003e-05,  3.7160e-07],
+        [ 6.1467e-07,  7.5623e-06,  4.7493e-04,  ...,  2.4676e-04,
+          2.2978e-05,  1.9185e-06],
+        [ 1.6810e-06,  7.2765e-04,  6.4707e-04,  ...,  5.0592e-04,
+          1.0052e-03,  1.4710e-04],
+        ...,
+        [-4.2498e-05, -8.3017e-04, -2.4843e-04,  ..., -3.0231e-04,
+         -1.3199e-03,  1.8999e-05],
+        [-9.0332e-03,  1.1545e-04, -3.0518e-03,  ...,  1.9300e-04,
+         -8.6486e-05,  3.3498e-05],
+        [ 5.3436e-05,  2.7753e-06,  4.7531e-03,  ...,  2.3766e-03,
+          4.7374e-04,  2.6776e-07]], device='cuda:0')
+Epoch 430, bias, value: tensor([ 0.0144, -0.0023, -0.0141,  0.0100, -0.0152, -0.0214,  0.0108, -0.0021,
+         0.0127, -0.0114], device='cuda:0'), grad: tensor([ 0.0076,  0.0096,  0.0087,  0.0058, -0.0232, -0.0241,  0.0156,  0.0043,
+        -0.0023, -0.0019], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 429, time 217.07, cls_loss 0.4322 cls_loss_mapping 0.0008 cls_loss_causal 0.4041 re_mapping 0.0039 re_causal 0.0118 /// teacc 98.90 lr 0.00001000
+Epoch 431, weight, value: tensor([[-0.0754, -0.1090, -0.1536,  ...,  0.1269, -0.0658,  0.0375],
+        [-0.0934,  0.1118, -0.0588,  ...,  0.0523, -0.0646, -0.0974],
+        [-0.0390,  0.0885, -0.1333,  ..., -0.0212,  0.0416,  0.1246],
+        ...,
+        [ 0.0022,  0.0745,  0.0019,  ..., -0.0253,  0.0337, -0.0855],
+        [ 0.1023, -0.1192,  0.0460,  ...,  0.0207,  0.0091, -0.0378],
+        [-0.0126, -0.0885,  0.0744,  ..., -0.0971,  0.0339, -0.0293]],
+       device='cuda:0'), grad: tensor([[ 4.4048e-05,  1.0863e-05,  1.4496e-04,  ..., -2.6017e-05,
+          8.1778e-05, -4.9442e-05],
+        [ 4.8578e-05,  2.1112e-04,  8.9109e-05,  ...,  4.8667e-05,
+          1.5199e-05,  9.1255e-05],
+        [ 4.2945e-05, -2.8014e-04, -2.8553e-03,  ...,  1.1981e-05,
+         -4.4785e-03, -1.4460e-04],
+        ...,
+        [ 1.0958e-03, -1.7047e-04,  4.8561e-03,  ...,  6.2561e-04,
+          2.3937e-03,  4.6879e-05],
+        [ 1.0723e-04,  5.6505e-05,  3.0160e-04,  ...,  8.8274e-05,
+          1.4031e-04,  2.1920e-05],
+        [-1.9646e-03, -1.0830e-04, -3.9330e-03,  ..., -1.1768e-03,
+          1.2913e-03, -3.1352e-05]], device='cuda:0')
+Epoch 431, bias, value: tensor([ 0.0143, -0.0024, -0.0141,  0.0101, -0.0153, -0.0213,  0.0108, -0.0020,
+         0.0126, -0.0114], device='cuda:0'), grad: tensor([ 0.0047, -0.0073, -0.0212,  0.0054, -0.0200,  0.0042,  0.0047,  0.0319,
+         0.0079, -0.0103], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 430, time 216.89, cls_loss 0.4411 cls_loss_mapping 0.0008 cls_loss_causal 0.4100 re_mapping 0.0040 re_causal 0.0121 /// teacc 98.92 lr 0.00001000
+Epoch 432, weight, value: tensor([[-0.0754, -0.1090, -0.1535,  ...,  0.1269, -0.0657,  0.0373],
+        [-0.0934,  0.1119, -0.0589,  ...,  0.0523, -0.0647, -0.0974],
+        [-0.0390,  0.0885, -0.1334,  ..., -0.0212,  0.0414,  0.1246],
+        ...,
+        [ 0.0023,  0.0745,  0.0018,  ..., -0.0253,  0.0338, -0.0854],
+        [ 0.1025, -0.1193,  0.0459,  ...,  0.0207,  0.0091, -0.0378],
+        [-0.0127, -0.0885,  0.0744,  ..., -0.0971,  0.0339, -0.0292]],
+       device='cuda:0'), grad: tensor([[ 1.2755e-04,  3.8696e-07,  2.6599e-05,  ...,  2.0351e-03,
+          9.2554e-04,  4.7159e-04],
+        [ 6.7711e-05,  1.1325e-06,  1.5333e-05,  ...,  1.9848e-04,
+          2.9355e-05,  5.7727e-05],
+        [ 8.3625e-05, -8.3223e-06,  1.7345e-05,  ...,  4.8399e-04,
+          1.8520e-03,  2.2805e-04],
+        ...,
+        [ 2.0161e-05, -6.4230e-04, -8.3466e-03,  ..., -1.5039e-03,
+         -4.0855e-03,  1.8224e-05],
+        [ 3.5644e-05,  3.6899e-06,  2.8729e-05,  ...,  2.1589e-04,
+          1.7509e-03,  4.4107e-05],
+        [ 5.2691e-05,  6.3658e-04,  8.3008e-03,  ...,  1.8482e-03,
+          7.1144e-03,  6.1750e-05]], device='cuda:0')
+Epoch 432, bias, value: tensor([ 0.0144, -0.0024, -0.0141,  0.0099, -0.0153, -0.0212,  0.0108, -0.0017,
+         0.0125, -0.0115], device='cuda:0'), grad: tensor([ 0.0166,  0.0091,  0.0148, -0.0125, -0.0521, -0.0084, -0.0055, -0.0071,
+         0.0123,  0.0327], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 431, time 216.99, cls_loss 0.4284 cls_loss_mapping 0.0007 cls_loss_causal 0.4013 re_mapping 0.0041 re_causal 0.0127 /// teacc 98.97 lr 0.00001000
+Epoch 433, weight, value: tensor([[-0.0754, -0.1091, -0.1536,  ...,  0.1269, -0.0657,  0.0372],
+        [-0.0935,  0.1119, -0.0589,  ...,  0.0522, -0.0647, -0.0974],
+        [-0.0390,  0.0886, -0.1334,  ..., -0.0213,  0.0414,  0.1247],
+        ...,
+        [ 0.0024,  0.0745,  0.0016,  ..., -0.0253,  0.0338, -0.0855],
+        [ 0.1024, -0.1193,  0.0459,  ...,  0.0208,  0.0091, -0.0376],
+        [-0.0127, -0.0885,  0.0745,  ..., -0.0971,  0.0341, -0.0293]],
+       device='cuda:0'), grad: tensor([[ 2.7776e-04,  3.5942e-05,  2.7084e-04,  ..., -1.6003e-03,
+          1.0616e-04, -1.9989e-03],
+        [-6.5651e-03, -5.0211e-04, -1.5144e-03,  ..., -1.5230e-03,
+          4.7714e-05,  3.1734e-04],
+        [ 8.5068e-04,  4.7296e-05,  4.1008e-04,  ...,  7.1192e-04,
+          2.3103e-04,  6.9809e-04],
+        ...,
+        [ 3.0270e-03,  1.2815e-04,  4.9248e-03,  ...,  5.7316e-04,
+          1.5652e-04,  2.8801e-04],
+        [ 3.5896e-03,  8.3804e-05,  1.0376e-03,  ..., -3.4213e-05,
+          1.3733e-03,  1.1415e-03],
+        [-1.2341e-03,  3.5262e-04, -2.8896e-03,  ...,  1.3075e-03,
+          4.5085e-04,  4.8876e-04]], device='cuda:0')
+Epoch 433, bias, value: tensor([ 0.0146, -0.0025, -0.0142,  0.0098, -0.0154, -0.0212,  0.0109, -0.0017,
+         0.0125, -0.0115], device='cuda:0'), grad: tensor([-0.0426, -0.0356,  0.0217,  0.0534,  0.0408, -0.0274, -0.0336,  0.0156,
+         0.0055,  0.0022], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 432, time 216.85, cls_loss 0.4186 cls_loss_mapping 0.0008 cls_loss_causal 0.3978 re_mapping 0.0042 re_causal 0.0127 /// teacc 98.96 lr 0.00001000
+Epoch 434, weight, value: tensor([[-0.0755, -0.1092, -0.1536,  ...,  0.1270, -0.0658,  0.0373],
+        [-0.0936,  0.1118, -0.0589,  ...,  0.0521, -0.0646, -0.0975],
+        [-0.0390,  0.0885, -0.1335,  ..., -0.0213,  0.0413,  0.1247],
+        ...,
+        [ 0.0024,  0.0747,  0.0016,  ..., -0.0253,  0.0339, -0.0855],
+        [ 0.1021, -0.1195,  0.0462,  ...,  0.0207,  0.0093, -0.0378],
+        [-0.0127, -0.0885,  0.0744,  ..., -0.0972,  0.0339, -0.0291]],
+       device='cuda:0'), grad: tensor([[ 3.9792e-04,  9.0122e-05,  4.3996e-06,  ...,  3.1805e-07,
+          3.0875e-05,  1.9409e-06],
+        [-1.2863e-02, -2.9469e-03, -3.4451e-05,  ..., -4.4525e-05,
+          2.8566e-05,  1.1120e-06],
+        [ 7.3147e-04,  1.6272e-04,  2.1338e-05,  ..., -7.5577e-07,
+          1.3685e-03,  2.6822e-05],
+        ...,
+        [ 1.9293e-03,  4.7803e-04,  4.8971e-04,  ...,  3.2216e-05,
+         -1.2708e-04,  2.7642e-05],
+        [ 1.0614e-03,  3.1304e-04,  2.7269e-05,  ...,  2.3637e-06,
+          4.7445e-04,  4.2289e-05],
+        [ 3.3989e-03,  7.4816e-04, -5.5408e-04,  ...,  2.2352e-06,
+         -2.7332e-03,  1.4501e-06]], device='cuda:0')
+Epoch 434, bias, value: tensor([ 0.0147, -0.0025, -0.0143,  0.0099, -0.0154, -0.0212,  0.0109, -0.0017,
+         0.0124, -0.0114], device='cuda:0'), grad: tensor([ 0.0073, -0.0149, -0.0188, -0.0212,  0.0148,  0.0073,  0.0070,  0.0235,
+         0.0106, -0.0156], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 433, time 216.98, cls_loss 0.4417 cls_loss_mapping 0.0008 cls_loss_causal 0.4123 re_mapping 0.0040 re_causal 0.0127 /// teacc 98.95 lr 0.00001000
+Epoch 435, weight, value: tensor([[-0.0755, -0.1092, -0.1536,  ...,  0.1270, -0.0658,  0.0374],
+        [-0.0936,  0.1119, -0.0587,  ...,  0.0521, -0.0645, -0.0976],
+        [-0.0388,  0.0885, -0.1334,  ..., -0.0212,  0.0414,  0.1246],
+        ...,
+        [ 0.0023,  0.0747,  0.0017,  ..., -0.0253,  0.0339, -0.0855],
+        [ 0.1021, -0.1197,  0.0463,  ...,  0.0207,  0.0094, -0.0377],
+        [-0.0127, -0.0887,  0.0743,  ..., -0.0972,  0.0339, -0.0291]],
+       device='cuda:0'), grad: tensor([[ 1.4591e-04,  1.0943e-04,  3.3481e-07,  ...,  2.0584e-02,
+          2.1942e-02, -3.2574e-05],
+        [ 2.2948e-04, -9.1672e-05,  1.6671e-06,  ..., -3.6812e-04,
+          1.5065e-05,  3.4319e-07],
+        [ 1.8537e-04,  8.3256e-04,  1.3404e-05,  ..., -2.6443e-02,
+         -2.8351e-02,  1.2375e-05],
+        ...,
+        [ 4.5866e-05, -3.1650e-05, -4.0245e-03,  ...,  4.6082e-03,
+          2.1000e-03,  1.9427e-06],
+        [-4.4465e-04,  2.5257e-05,  1.4019e-04,  ...,  8.4758e-05,
+          1.1168e-05, -9.0078e-06],
+        [ 7.7784e-05,  9.7454e-06,  3.8967e-03,  ...,  1.1368e-03,
+          3.7174e-03,  1.2470e-06]], device='cuda:0')
+Epoch 435, bias, value: tensor([ 0.0146, -0.0026, -0.0144,  0.0100, -0.0155, -0.0211,  0.0109, -0.0018,
+         0.0124, -0.0113], device='cuda:0'), grad: tensor([ 0.0370,  0.0159,  0.0008, -0.0029,  0.0132,  0.0183, -0.0645, -0.0147,
+         0.0113, -0.0145], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 434, time 216.94, cls_loss 0.4491 cls_loss_mapping 0.0008 cls_loss_causal 0.4274 re_mapping 0.0039 re_causal 0.0119 /// teacc 98.95 lr 0.00001000
+Epoch 436, weight, value: tensor([[-0.0754, -0.1092, -0.1535,  ...,  0.1271, -0.0658,  0.0373],
+        [-0.0937,  0.1120, -0.0586,  ...,  0.0521, -0.0645, -0.0974],
+        [-0.0389,  0.0885, -0.1336,  ..., -0.0212,  0.0415,  0.1245],
+        ...,
+        [ 0.0022,  0.0747,  0.0017,  ..., -0.0252,  0.0339, -0.0853],
+        [ 0.1022, -0.1195,  0.0464,  ...,  0.0207,  0.0096, -0.0376],
+        [-0.0128, -0.0888,  0.0742,  ..., -0.0973,  0.0338, -0.0291]],
+       device='cuda:0'), grad: tensor([[ 0.0007,  0.0004,  0.0003,  ...,  0.0013,  0.0004,  0.0004],
+        [ 0.0005,  0.0004,  0.0004,  ...,  0.0018,  0.0005,  0.0004],
+        [ 0.0002, -0.0004, -0.0003,  ..., -0.0008, -0.0005, -0.0007],
+        ...,
+        [ 0.0001,  0.0001,  0.0003,  ...,  0.0005,  0.0002,  0.0001],
+        [ 0.0001,  0.0002,  0.0003,  ...,  0.0007,  0.0002,  0.0002],
+        [ 0.0004,  0.0001, -0.0019,  ...,  0.0006, -0.0009,  0.0001]],
+       device='cuda:0')
+Epoch 436, bias, value: tensor([ 0.0146, -0.0025, -0.0143,  0.0101, -0.0155, -0.0213,  0.0108, -0.0017,
+         0.0125, -0.0114], device='cuda:0'), grad: tensor([-0.0044, -0.0047, -0.0244,  0.0245,  0.0225, -0.0185, -0.0108,  0.0164,
+        -0.0134,  0.0128], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 435, time 218.01, cls_loss 0.4658 cls_loss_mapping 0.0011 cls_loss_causal 0.4381 re_mapping 0.0039 re_causal 0.0122 /// teacc 99.00 lr 0.00001000
+Epoch 437, weight, value: tensor([[-0.0754, -0.1092, -0.1534,  ...,  0.1272, -0.0659,  0.0372],
+        [-0.0936,  0.1121, -0.0585,  ...,  0.0521, -0.0642, -0.0971],
+        [-0.0389,  0.0883, -0.1335,  ..., -0.0212,  0.0415,  0.1244],
+        ...,
+        [ 0.0021,  0.0748,  0.0018,  ..., -0.0251,  0.0339, -0.0851],
+        [ 0.1023, -0.1196,  0.0464,  ...,  0.0206,  0.0097, -0.0376],
+        [-0.0126, -0.0888,  0.0742,  ..., -0.0973,  0.0338, -0.0291]],
+       device='cuda:0'), grad: tensor([[-1.1057e-05,  3.7253e-08,  2.6250e-04,  ...,  1.8418e-04,
+          4.5109e-04, -3.0845e-05],
+        [ 2.9802e-08, -1.6578e-06,  2.4986e-04,  ...,  4.7421e-04,
+          4.8423e-04,  7.4506e-09],
+        [ 1.7975e-07,  4.0513e-08,  1.1903e-04,  ...,  2.4343e-04,
+          4.0412e-04,  3.2783e-07],
+        ...,
+        [ 7.3910e-05, -3.1665e-08,  6.5994e-04,  ...,  3.8600e-04,
+          7.9346e-04,  4.9826e-08],
+        [ 1.3867e-06,  2.5285e-07,  4.1342e-04,  ...,  2.3997e-04,
+          7.2336e-04,  7.1665e-07],
+        [-1.3673e-04,  2.7893e-07,  1.5125e-03,  ...,  3.2997e-04,
+          3.1700e-03,  6.5155e-06]], device='cuda:0')
+Epoch 437, bias, value: tensor([ 0.0145, -0.0023, -0.0144,  0.0099, -0.0155, -0.0213,  0.0109, -0.0016,
+         0.0124, -0.0113], device='cuda:0'), grad: tensor([ 0.0157, -0.0065,  0.0163, -0.0105, -0.0507,  0.0153,  0.0213,  0.0222,
+        -0.0458,  0.0227], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 436, time 216.61, cls_loss 0.4450 cls_loss_mapping 0.0010 cls_loss_causal 0.4217 re_mapping 0.0039 re_causal 0.0118 /// teacc 98.97 lr 0.00001000
+Epoch 438, weight, value: tensor([[-0.0754, -0.1091, -0.1534,  ...,  0.1271, -0.0660,  0.0372],
+        [-0.0938,  0.1121, -0.0585,  ...,  0.0521, -0.0641, -0.0970],
+        [-0.0388,  0.0885, -0.1336,  ..., -0.0212,  0.0414,  0.1245],
+        ...,
+        [ 0.0020,  0.0746,  0.0017,  ..., -0.0251,  0.0338, -0.0852],
+        [ 0.1024, -0.1197,  0.0463,  ...,  0.0206,  0.0095, -0.0377],
+        [-0.0125, -0.0885,  0.0743,  ..., -0.0973,  0.0340, -0.0291]],
+       device='cuda:0'), grad: tensor([[ 3.0268e-06,  9.8944e-06,  4.2170e-05,  ...,  1.0347e-04,
+          7.7546e-05,  2.4855e-05],
+        [ 3.0175e-06, -2.2888e-04,  6.6221e-05,  ...,  2.7999e-05,
+          7.9453e-05,  4.1693e-05],
+        [ 1.8049e-06,  8.2910e-05, -1.7334e-02,  ..., -6.1913e-03,
+         -1.2787e-02,  7.9250e-04],
+        ...,
+        [ 5.6505e-04,  1.1224e-04,  1.7746e-02,  ...,  6.1798e-03,
+          1.2878e-02,  2.1696e-05],
+        [ 9.9912e-06,  3.3885e-05,  2.2507e-04,  ...,  8.0824e-04,
+          8.5640e-04,  1.5268e-03],
+        [ 1.8549e-04, -9.0539e-05, -1.7258e-02,  ...,  2.3425e-04,
+         -3.6454e-04,  4.5449e-05]], device='cuda:0')
+Epoch 438, bias, value: tensor([ 0.0144, -0.0024, -0.0142,  0.0100, -0.0155, -0.0214,  0.0108, -0.0017,
+         0.0125, -0.0112], device='cuda:0'), grad: tensor([ 0.0007, -0.0003, -0.0235, -0.0215,  0.0152, -0.0035,  0.0015,  0.0340,
+         0.0152, -0.0179], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 437, time 216.81, cls_loss 0.4536 cls_loss_mapping 0.0012 cls_loss_causal 0.4269 re_mapping 0.0037 re_causal 0.0114 /// teacc 98.96 lr 0.00001000
+Epoch 439, weight, value: tensor([[-0.0753, -0.1092, -0.1534,  ...,  0.1270, -0.0661,  0.0372],
+        [-0.0938,  0.1121, -0.0586,  ...,  0.0521, -0.0641, -0.0969],
+        [-0.0388,  0.0885, -0.1335,  ..., -0.0210,  0.0415,  0.1246],
+        ...,
+        [ 0.0020,  0.0745,  0.0016,  ..., -0.0253,  0.0336, -0.0853],
+        [ 0.1024, -0.1196,  0.0463,  ...,  0.0206,  0.0096, -0.0377],
+        [-0.0126, -0.0884,  0.0744,  ..., -0.0971,  0.0341, -0.0291]],
+       device='cuda:0'), grad: tensor([[ 7.4506e-07,  1.7333e-04,  5.3085e-06,  ..., -2.7695e-03,
+         -1.4696e-03,  1.3243e-06],
+        [ 1.0252e-05, -7.7438e-03,  1.3318e-06,  ...,  2.4283e-04,
+         -1.9484e-03,  2.1577e-04],
+        [ 8.2143e-07,  1.2178e-03,  2.8729e-04,  ..., -1.2455e-03,
+          1.2941e-03, -7.2956e-04],
+        ...,
+        [ 2.5257e-06,  4.7646e-03,  1.1480e-04,  ...,  2.8467e-04,
+          7.9651e-03,  1.3626e-04],
+        [-2.4676e-05,  4.2224e-04, -4.7469e-04,  ...,  2.4319e-04,
+          3.2306e-04, -1.6308e-04],
+        [ 1.2860e-05, -2.8634e-04, -1.9348e-04,  ...,  3.3259e-04,
+         -8.8196e-03,  1.6797e-04]], device='cuda:0')
+Epoch 439, bias, value: tensor([ 0.0144, -0.0023, -0.0142,  0.0100, -0.0155, -0.0213,  0.0106, -0.0018,
+         0.0125, -0.0112], device='cuda:0'), grad: tensor([-0.0029, -0.0018,  0.0051, -0.0412,  0.0138,  0.0227,  0.0168,  0.0512,
+        -0.0181, -0.0456], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 438, time 216.61, cls_loss 0.4430 cls_loss_mapping 0.0009 cls_loss_causal 0.4109 re_mapping 0.0037 re_causal 0.0112 /// teacc 98.98 lr 0.00001000
+Epoch 440, weight, value: tensor([[-0.0753, -0.1092, -0.1535,  ...,  0.1270, -0.0661,  0.0372],
+        [-0.0938,  0.1120, -0.0586,  ...,  0.0520, -0.0640, -0.0970],
+        [-0.0388,  0.0886, -0.1335,  ..., -0.0208,  0.0416,  0.1247],
+        ...,
+        [ 0.0020,  0.0744,  0.0016,  ..., -0.0254,  0.0335, -0.0854],
+        [ 0.1024, -0.1195,  0.0464,  ...,  0.0207,  0.0096, -0.0377],
+        [-0.0125, -0.0883,  0.0742,  ..., -0.0972,  0.0341, -0.0291]],
+       device='cuda:0'), grad: tensor([[ 3.7923e-06,  3.8445e-06,  6.5714e-06,  ...,  8.4734e-04,
+          1.0166e-03,  7.4878e-07],
+        [-4.9055e-05, -9.1791e-06,  2.5295e-06,  ...,  2.0695e-04,
+          2.1827e-04,  7.3668e-07],
+        [ 1.3840e-04,  3.9749e-06,  9.5516e-06,  ...,  2.3441e-03,
+          3.5496e-03,  2.3738e-05],
+        ...,
+        [-2.8834e-05, -8.6963e-05,  5.6505e-05,  ..., -6.3019e-03,
+         -7.3280e-03,  1.0356e-05],
+        [ 1.2177e-04,  3.3498e-05,  9.5308e-05,  ...,  1.8473e-03,
+          2.2030e-03,  2.8744e-05],
+        [ 3.9339e-05,  2.9594e-05, -2.7222e-02,  ...,  7.0477e-04,
+         -5.7373e-03, -5.4777e-05]], device='cuda:0')
+Epoch 440, bias, value: tensor([ 0.0143, -0.0024, -0.0141,  0.0101, -0.0157, -0.0214,  0.0106, -0.0017,
+         0.0127, -0.0112], device='cuda:0'), grad: tensor([ 0.0083, -0.0248, -0.0089, -0.0131,  0.0368,  0.0126,  0.0050, -0.0099,
+         0.0200, -0.0259], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 439, time 216.87, cls_loss 0.4333 cls_loss_mapping 0.0010 cls_loss_causal 0.4059 re_mapping 0.0038 re_causal 0.0115 /// teacc 98.97 lr 0.00001000
+Epoch 441, weight, value: tensor([[-0.0753, -0.1092, -0.1535,  ...,  0.1269, -0.0663,  0.0371],
+        [-0.0936,  0.1121, -0.0585,  ...,  0.0519, -0.0640, -0.0971],
+        [-0.0389,  0.0885, -0.1336,  ..., -0.0208,  0.0417,  0.1246],
+        ...,
+        [ 0.0020,  0.0745,  0.0016,  ..., -0.0253,  0.0335, -0.0854],
+        [ 0.1022, -0.1194,  0.0463,  ...,  0.0207,  0.0096, -0.0377],
+        [-0.0125, -0.0884,  0.0743,  ..., -0.0973,  0.0342, -0.0291]],
+       device='cuda:0'), grad: tensor([[ 4.5586e-04,  9.5546e-05,  2.4755e-06,  ...,  8.4266e-06,
+          1.4734e-06,  7.4089e-05],
+        [ 2.0218e-03, -3.2330e-04,  1.8016e-05,  ..., -1.1837e-04,
+          5.0943e-07,  9.6202e-05],
+        [ 1.0147e-03,  3.2902e-03,  8.0317e-06,  ...,  2.0587e-04,
+          3.0473e-06,  2.2221e-04],
+        ...,
+        [-1.0719e-02,  3.3545e-04,  4.9877e-04,  ...,  4.3988e-05,
+          1.0252e-04,  1.3280e-04],
+        [ 1.6518e-03, -3.8548e-03,  1.2612e-04,  ..., -1.9825e-04,
+         -5.9700e-04,  7.2837e-05],
+        [ 2.3060e-03,  9.3043e-05, -9.9087e-04,  ...,  6.3889e-06,
+         -3.8099e-04,  7.6652e-05]], device='cuda:0')
+Epoch 441, bias, value: tensor([ 0.0143, -0.0022, -0.0141,  0.0103, -0.0156, -0.0214,  0.0106, -0.0018,
+         0.0126, -0.0113], device='cuda:0'), grad: tensor([ 0.0127, -0.0426,  0.0428,  0.0134,  0.0157, -0.0109, -0.0177, -0.0101,
+        -0.0190,  0.0156], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 440, time 216.85, cls_loss 0.4678 cls_loss_mapping 0.0009 cls_loss_causal 0.4405 re_mapping 0.0039 re_causal 0.0119 /// teacc 98.93 lr 0.00001000
+Epoch 442, weight, value: tensor([[-0.0752, -0.1092, -0.1535,  ...,  0.1270, -0.0662,  0.0371],
+        [-0.0938,  0.1120, -0.0585,  ...,  0.0519, -0.0639, -0.0969],
+        [-0.0388,  0.0886, -0.1336,  ..., -0.0207,  0.0417,  0.1246],
+        ...,
+        [ 0.0019,  0.0744,  0.0015,  ..., -0.0255,  0.0335, -0.0854],
+        [ 0.1021, -0.1193,  0.0464,  ...,  0.0206,  0.0096, -0.0376],
+        [-0.0125, -0.0883,  0.0744,  ..., -0.0972,  0.0342, -0.0292]],
+       device='cuda:0'), grad: tensor([[-6.8588e-03,  2.6751e-04, -9.5797e-04,  ...,  3.2276e-05,
+          1.4424e-04,  1.0710e-08],
+        [ 2.0301e-04,  6.6328e-04,  2.7633e-04,  ...,  4.0144e-05,
+          4.1761e-06,  1.8626e-09],
+        [ 7.8869e-04,  2.9602e-03,  1.1981e-04,  ...,  3.3712e-04,
+          1.7181e-05,  4.2608e-07],
+        ...,
+        [ 5.7173e-04, -7.0953e-03,  3.6955e-04,  ..., -7.6437e-04,
+          7.8201e-04,  3.2596e-09],
+        [ 1.6785e-03,  4.3488e-04,  1.8811e-04,  ...,  5.1111e-05,
+          3.6716e-05, -1.4799e-06],
+        [ 2.5997e-03,  4.0793e-04,  2.2526e-03,  ...,  4.9502e-05,
+          1.4977e-02,  3.9861e-07]], device='cuda:0')
+Epoch 442, bias, value: tensor([ 0.0142, -0.0022, -0.0140,  0.0102, -0.0156, -0.0213,  0.0106, -0.0018,
+         0.0124, -0.0114], device='cuda:0'), grad: tensor([-0.0426,  0.0165,  0.0222,  0.0158, -0.0864,  0.0155,  0.0166,  0.0047,
+         0.0170,  0.0209], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 441, time 216.51, cls_loss 0.4485 cls_loss_mapping 0.0009 cls_loss_causal 0.4208 re_mapping 0.0039 re_causal 0.0119 /// teacc 98.96 lr 0.00001000
+Epoch 443, weight, value: tensor([[-0.0753, -0.1091, -0.1536,  ...,  0.1270, -0.0662,  0.0371],
+        [-0.0940,  0.1120, -0.0585,  ...,  0.0518, -0.0638, -0.0970],
+        [-0.0387,  0.0887, -0.1334,  ..., -0.0206,  0.0417,  0.1247],
+        ...,
+        [ 0.0020,  0.0744,  0.0015,  ..., -0.0255,  0.0335, -0.0854],
+        [ 0.1021, -0.1194,  0.0464,  ...,  0.0206,  0.0097, -0.0376],
+        [-0.0124, -0.0883,  0.0743,  ..., -0.0973,  0.0341, -0.0293]],
+       device='cuda:0'), grad: tensor([[ 1.3518e-04,  1.0291e-06,  2.0981e-04,  ...,  1.4174e-04,
+          3.7342e-05,  5.0336e-05],
+        [ 3.1853e-04, -3.0156e-06,  2.3556e-04,  ...,  7.6234e-05,
+          3.7044e-05,  1.9241e-06],
+        [ 1.5390e-04, -3.1907e-06,  1.9526e-04,  ...,  7.3373e-05,
+          1.1283e-04,  1.3900e-04],
+        ...,
+        [ 1.5604e-04, -1.2673e-05,  9.3079e-03,  ...,  3.4273e-05,
+         -9.1648e-04,  1.6782e-06],
+        [ 2.2447e-04,  6.0163e-06,  7.8678e-04,  ..., -1.2856e-03,
+          1.2684e-04, -3.3528e-05],
+        [ 1.3685e-04,  3.5707e-06, -1.6815e-02,  ...,  5.8264e-05,
+          1.9979e-04,  7.6741e-06]], device='cuda:0')
+Epoch 443, bias, value: tensor([ 0.0143, -0.0023, -0.0139,  0.0101, -0.0156, -0.0213,  0.0107, -0.0019,
+         0.0124, -0.0114], device='cuda:0'), grad: tensor([ 0.0168,  0.0233,  0.0168, -0.0585,  0.0315, -0.0056,  0.0400,  0.0084,
+        -0.0688, -0.0038], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 442, time 216.74, cls_loss 0.4355 cls_loss_mapping 0.0008 cls_loss_causal 0.4128 re_mapping 0.0040 re_causal 0.0123 /// teacc 98.99 lr 0.00001000
+Epoch 444, weight, value: tensor([[-0.0753, -0.1091, -0.1536,  ...,  0.1270, -0.0662,  0.0372],
+        [-0.0941,  0.1120, -0.0586,  ...,  0.0519, -0.0639, -0.0970],
+        [-0.0386,  0.0885, -0.1337,  ..., -0.0207,  0.0415,  0.1246],
+        ...,
+        [ 0.0021,  0.0746,  0.0015,  ..., -0.0254,  0.0335, -0.0853],
+        [ 0.1021, -0.1195,  0.0463,  ...,  0.0206,  0.0095, -0.0376],
+        [-0.0124, -0.0884,  0.0744,  ..., -0.0973,  0.0342, -0.0294]],
+       device='cuda:0'), grad: tensor([[ 5.8502e-05,  5.5097e-06,  9.2447e-05,  ...,  3.0923e-04,
+          2.0373e-04,  1.0687e-04],
+        [ 6.2883e-05,  4.8714e-03,  2.2964e-03,  ...,  4.6730e-03,
+          1.9388e-03,  5.1171e-05],
+        [ 2.2972e-04,  4.4525e-05,  5.4979e-04,  ...,  6.1464e-04,
+          7.0953e-04,  4.7445e-05],
+        ...,
+        [ 4.2191e-03,  6.6185e-03,  1.2579e-03,  ...,  1.3456e-03,
+          1.0195e-03,  3.4682e-06],
+        [ 4.5433e-03,  1.4579e-04,  2.9030e-03,  ..., -2.9421e-04,
+          2.9182e-03, -2.7037e-04],
+        [-3.7937e-03, -5.3368e-03, -7.6752e-03,  ...,  5.0926e-04,
+         -7.3090e-03,  2.5332e-05]], device='cuda:0')
+Epoch 444, bias, value: tensor([ 0.0141, -0.0023, -0.0138,  0.0102, -0.0156, -0.0214,  0.0109, -0.0018,
+         0.0123, -0.0114], device='cuda:0'), grad: tensor([ 0.0021,  0.0248,  0.0035, -0.0275,  0.0062, -0.0343, -0.0173,  0.0208,
+         0.0376, -0.0158], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 443, time 217.12, cls_loss 0.4477 cls_loss_mapping 0.0009 cls_loss_causal 0.4182 re_mapping 0.0038 re_causal 0.0118 /// teacc 98.96 lr 0.00001000
+Epoch 445, weight, value: tensor([[-0.0753, -0.1092, -0.1536,  ...,  0.1268, -0.0661,  0.0374],
+        [-0.0941,  0.1123, -0.0585,  ...,  0.0519, -0.0638, -0.0970],
+        [-0.0386,  0.0885, -0.1339,  ..., -0.0205,  0.0414,  0.1246],
+        ...,
+        [ 0.0020,  0.0744,  0.0015,  ..., -0.0255,  0.0334, -0.0852],
+        [ 0.1021, -0.1195,  0.0463,  ...,  0.0207,  0.0094, -0.0377],
+        [-0.0124, -0.0884,  0.0744,  ..., -0.0974,  0.0343, -0.0295]],
+       device='cuda:0'), grad: tensor([[ 5.4264e-04,  6.8508e-06,  1.1837e-04,  ...,  4.3321e-04,
+          3.9399e-05,  0.0000e+00],
+        [-3.5381e-03, -2.8357e-05,  1.9407e-04,  ..., -4.1466e-03,
+          3.0249e-05,  0.0000e+00],
+        [ 3.4308e-04,  6.5117e-03,  1.5581e-04,  ...,  3.0518e-04,
+          9.1851e-05,  0.0000e+00],
+        ...,
+        [ 4.0817e-04,  1.7118e-04,  3.2139e-04,  ...,  4.4465e-04,
+          2.3639e-04,  4.6566e-10],
+        [ 1.2655e-03,  1.7628e-05,  4.6492e-04,  ...,  9.5654e-04,
+          2.7919e-04,  4.6566e-10],
+        [ 5.3787e-04,  1.7390e-05, -3.7479e-04,  ...,  6.2656e-04,
+         -9.5665e-06,  9.3132e-10]], device='cuda:0')
+Epoch 445, bias, value: tensor([ 0.0140, -0.0024, -0.0138,  0.0102, -0.0156, -0.0213,  0.0108, -0.0019,
+         0.0124, -0.0113], device='cuda:0'), grad: tensor([ 0.0245, -0.0954,  0.0325, -0.0082,  0.0066,  0.0079,  0.0091,  0.0159,
+         0.0230, -0.0159], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 444, time 216.63, cls_loss 0.4414 cls_loss_mapping 0.0008 cls_loss_causal 0.4098 re_mapping 0.0039 re_causal 0.0117 /// teacc 98.94 lr 0.00001000
+Epoch 446, weight, value: tensor([[-0.0754, -0.1090, -0.1536,  ...,  0.1268, -0.0660,  0.0374],
+        [-0.0942,  0.1123, -0.0584,  ...,  0.0518, -0.0636, -0.0970],
+        [-0.0385,  0.0885, -0.1339,  ..., -0.0205,  0.0414,  0.1245],
+        ...,
+        [ 0.0021,  0.0744,  0.0016,  ..., -0.0254,  0.0335, -0.0852],
+        [ 0.1020, -0.1194,  0.0462,  ...,  0.0207,  0.0093, -0.0378],
+        [-0.0124, -0.0885,  0.0744,  ..., -0.0975,  0.0343, -0.0295]],
+       device='cuda:0'), grad: tensor([[ 1.3673e-04,  4.0507e-04,  6.2323e-04,  ...,  1.8435e-03,
+          1.3590e-03,  7.8058e-04],
+        [ 2.8539e-04,  1.3554e-04,  3.0041e-04,  ...,  5.9891e-04,
+          3.5667e-04,  1.4675e-04],
+        [ 2.8205e-04,  4.5128e-03,  2.1019e-03,  ...,  3.4962e-03,
+          3.7575e-03,  2.3994e-03],
+        ...,
+        [ 1.5008e-04, -5.3749e-03, -3.5858e-03,  ..., -2.6760e-03,
+         -4.1542e-03, -2.3746e-03],
+        [ 1.3838e-03,  3.1137e-04,  1.0881e-03,  ...,  1.9207e-03,
+          2.3060e-03,  6.0034e-04],
+        [-1.9872e-04,  1.0502e-04,  7.6234e-05,  ..., -9.0933e-04,
+          5.3978e-04,  1.8489e-04]], device='cuda:0')
+Epoch 446, bias, value: tensor([ 0.0140, -0.0024, -0.0138,  0.0100, -0.0156, -0.0212,  0.0109, -0.0019,
+         0.0124, -0.0112], device='cuda:0'), grad: tensor([ 0.0322,  0.0230,  0.0223, -0.0247, -0.0067, -0.0205,  0.0148, -0.0377,
+         0.0041, -0.0068], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 445, time 216.88, cls_loss 0.4439 cls_loss_mapping 0.0007 cls_loss_causal 0.4177 re_mapping 0.0040 re_causal 0.0126 /// teacc 98.96 lr 0.00001000
+Epoch 447, weight, value: tensor([[-0.0753, -0.1090, -0.1536,  ...,  0.1267, -0.0660,  0.0374],
+        [-0.0942,  0.1123, -0.0584,  ...,  0.0519, -0.0635, -0.0969],
+        [-0.0387,  0.0884, -0.1339,  ..., -0.0206,  0.0413,  0.1246],
+        ...,
+        [ 0.0020,  0.0745,  0.0017,  ..., -0.0254,  0.0335, -0.0852],
+        [ 0.1019, -0.1194,  0.0462,  ...,  0.0206,  0.0094, -0.0378],
+        [-0.0123, -0.0885,  0.0743,  ..., -0.0975,  0.0342, -0.0296]],
+       device='cuda:0'), grad: tensor([[ 1.4389e-04,  8.8274e-05,  1.8072e-04,  ...,  3.6716e-04,
+          1.9896e-04,  4.2319e-05],
+        [-4.0323e-05,  9.4414e-05,  3.6907e-04,  ...,  1.4293e-04,
+          2.5272e-04,  6.5923e-05],
+        [-3.3913e-03,  1.1504e-04,  2.3162e-04,  ...,  6.3610e-04,
+          3.9840e-04,  5.2035e-05],
+        ...,
+        [ 1.5423e-05,  1.2994e-04,  6.1512e-04,  ...,  7.2336e-04,
+          3.7360e-04,  5.0664e-05],
+        [ 1.7083e-04,  1.0794e-04,  3.2306e-04,  ...,  9.0265e-04,
+          6.0081e-04,  4.7952e-05],
+        [ 9.1642e-06,  1.1063e-04,  1.7395e-03,  ..., -1.0509e-03,
+         -1.5430e-03,  4.2915e-05]], device='cuda:0')
+Epoch 447, bias, value: tensor([ 0.0140, -0.0022, -0.0139,  0.0101, -0.0155, -0.0212,  0.0108, -0.0019,
+         0.0123, -0.0112], device='cuda:0'), grad: tensor([ 0.0110,  0.0098,  0.0063, -0.0271,  0.0105, -0.0167, -0.0141,  0.0145,
+         0.0182, -0.0124], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 446, time 217.05, cls_loss 0.4460 cls_loss_mapping 0.0008 cls_loss_causal 0.4177 re_mapping 0.0039 re_causal 0.0120 /// teacc 98.95 lr 0.00001000
+Epoch 448, weight, value: tensor([[-0.0754, -0.1090, -0.1539,  ...,  0.1266, -0.0662,  0.0374],
+        [-0.0943,  0.1122, -0.0584,  ...,  0.0519, -0.0636, -0.0969],
+        [-0.0386,  0.0885, -0.1340,  ..., -0.0206,  0.0416,  0.1248],
+        ...,
+        [ 0.0021,  0.0746,  0.0015,  ..., -0.0253,  0.0333, -0.0851],
+        [ 0.1019, -0.1194,  0.0462,  ...,  0.0206,  0.0094, -0.0378],
+        [-0.0123, -0.0886,  0.0743,  ..., -0.0976,  0.0342, -0.0298]],
+       device='cuda:0'), grad: tensor([[ 4.6641e-06,  1.2314e-04,  1.7035e-04,  ...,  3.6299e-05,
+          7.4878e-06,  6.6698e-05],
+        [-6.3562e-04, -9.3758e-05,  3.5596e-04,  ...,  2.2399e-04,
+          2.1076e-04,  7.3493e-05],
+        [ 9.6023e-05, -1.5008e-04,  2.4366e-04,  ..., -1.1152e-04,
+          9.9361e-05, -8.1110e-04],
+        ...,
+        [ 1.8334e-04, -1.3704e-03,  9.9123e-05,  ..., -7.3957e-04,
+         -4.9305e-04,  1.4114e-04],
+        [ 8.6904e-05,  3.3259e-04,  4.3249e-04,  ...,  1.5390e-04,
+          1.6451e-04,  1.5473e-04],
+        [-8.3208e-05,  3.3736e-04, -7.3862e-04,  ...,  4.1544e-05,
+         -4.6659e-04, -7.2479e-05]], device='cuda:0')
+Epoch 448, bias, value: tensor([ 0.0139, -0.0022, -0.0138,  0.0101, -0.0154, -0.0211,  0.0108, -0.0020,
+         0.0123, -0.0113], device='cuda:0'), grad: tensor([ 0.0081,  0.0158,  0.0082,  0.0129,  0.0164,  0.0048, -0.0150, -0.0104,
+         0.0127, -0.0536], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 447, time 216.66, cls_loss 0.4397 cls_loss_mapping 0.0008 cls_loss_causal 0.4199 re_mapping 0.0038 re_causal 0.0120 /// teacc 98.95 lr 0.00001000
+Epoch 449, weight, value: tensor([[-0.0755, -0.1090, -0.1538,  ...,  0.1265, -0.0660,  0.0374],
+        [-0.0944,  0.1121, -0.0585,  ...,  0.0518, -0.0635, -0.0971],
+        [-0.0387,  0.0885, -0.1339,  ..., -0.0206,  0.0416,  0.1248],
+        ...,
+        [ 0.0020,  0.0746,  0.0015,  ..., -0.0253,  0.0333, -0.0850],
+        [ 0.1020, -0.1194,  0.0461,  ...,  0.0208,  0.0094, -0.0377],
+        [-0.0124, -0.0886,  0.0743,  ..., -0.0976,  0.0342, -0.0298]],
+       device='cuda:0'), grad: tensor([[ 2.9460e-05,  2.6989e-04,  8.8930e-05,  ...,  1.0788e-02,
+          1.8263e-06, -2.2501e-05],
+        [ 2.9802e-05, -4.2534e-04,  1.1319e-04,  ..., -9.6560e-05,
+          2.9430e-05,  1.3597e-07],
+        [ 3.6150e-05,  8.2612e-05, -5.3883e-04,  ..., -1.3514e-03,
+          7.1526e-05, -1.2899e-07],
+        ...,
+        [-9.7334e-05, -5.0497e-04,  2.0587e-04,  ...,  5.4121e-04,
+          4.5776e-04,  6.2818e-07],
+        [-4.3335e-03,  4.2737e-05,  2.9635e-04,  ...,  9.9945e-04,
+          2.9564e-04,  3.7700e-06],
+        [ 3.4738e-04,  4.1890e-04,  1.6680e-03,  ..., -1.8478e-02,
+          1.3981e-03,  9.2611e-06]], device='cuda:0')
+Epoch 449, bias, value: tensor([ 0.0139, -0.0024, -0.0137,  0.0102, -0.0154, -0.0210,  0.0108, -0.0021,
+         0.0123, -0.0114], device='cuda:0'), grad: tensor([ 0.0233,  0.0066, -0.0234,  0.0105,  0.0084, -0.0018,  0.0150,  0.0093,
+        -0.0365, -0.0117], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 448, time 216.73, cls_loss 0.4552 cls_loss_mapping 0.0008 cls_loss_causal 0.4207 re_mapping 0.0039 re_causal 0.0121 /// teacc 98.93 lr 0.00001000
+Epoch 450, weight, value: tensor([[-0.0756, -0.1091, -0.1538,  ...,  0.1266, -0.0661,  0.0374],
+        [-0.0944,  0.1122, -0.0586,  ...,  0.0519, -0.0637, -0.0971],
+        [-0.0387,  0.0885, -0.1340,  ..., -0.0208,  0.0415,  0.1248],
+        ...,
+        [ 0.0022,  0.0745,  0.0016,  ..., -0.0254,  0.0334, -0.0850],
+        [ 0.1022, -0.1195,  0.0462,  ...,  0.0207,  0.0094, -0.0377],
+        [-0.0124, -0.0886,  0.0744,  ..., -0.0975,  0.0343, -0.0297]],
+       device='cuda:0'), grad: tensor([[ 5.5599e-04,  2.1791e-04,  4.8494e-04,  ...,  4.5323e-04,
+          1.5950e-04,  3.6284e-06],
+        [-1.5030e-03, -1.9350e-03, -9.7752e-04,  ...,  1.1301e-04,
+          2.0635e-04,  2.0891e-05],
+        [-9.3765e-03,  2.1708e-04, -1.4732e-02,  ...,  1.3714e-03,
+          4.4990e-04, -1.1343e-04],
+        ...,
+        [ 2.3575e-03,  1.6284e-04,  2.1362e-03,  ...,  9.4461e-04,
+          2.7847e-04, -1.8597e-05],
+        [ 1.3418e-03,  2.7418e-04, -1.0757e-03,  ...,  1.0061e-03,
+          5.8413e-04,  4.0948e-05],
+        [ 1.9341e-03,  3.8266e-04,  2.5330e-03,  ...,  6.7949e-04,
+          4.5514e-04,  3.3021e-05]], device='cuda:0')
+Epoch 450, bias, value: tensor([ 0.0140, -0.0023, -0.0139,  0.0101, -0.0154, -0.0209,  0.0108, -0.0021,
+         0.0123, -0.0113], device='cuda:0'), grad: tensor([ 0.0175, -0.0565, -0.0068, -0.0059,  0.0052,  0.0362,  0.0194,  0.0007,
+        -0.0365,  0.0266], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 449, time 216.42, cls_loss 0.4365 cls_loss_mapping 0.0009 cls_loss_causal 0.4127 re_mapping 0.0039 re_causal 0.0117 /// teacc 98.94 lr 0.00001000
+Epoch 451, weight, value: tensor([[-0.0755, -0.1092, -0.1537,  ...,  0.1267, -0.0660,  0.0374],
+        [-0.0944,  0.1122, -0.0587,  ...,  0.0518, -0.0636, -0.0972],
+        [-0.0386,  0.0885, -0.1337,  ..., -0.0209,  0.0415,  0.1248],
+        ...,
+        [ 0.0023,  0.0746,  0.0017,  ..., -0.0253,  0.0335, -0.0851],
+        [ 0.1022, -0.1194,  0.0461,  ...,  0.0208,  0.0094, -0.0376],
+        [-0.0126, -0.0887,  0.0743,  ..., -0.0975,  0.0343, -0.0297]],
+       device='cuda:0'), grad: tensor([[ 9.8407e-05,  9.5654e-04,  1.6940e-04,  ...,  1.5306e-03,
+          1.0567e-03,  6.8045e-04],
+        [-7.7820e-04,  4.8220e-05,  4.0030e-04,  ...,  3.2825e-03,
+          3.3474e-04,  3.0375e-04],
+        [ 1.2505e-04,  1.8167e-03,  2.0957e-04,  ...,  3.0575e-03,
+          1.7729e-03,  9.6321e-04],
+        ...,
+        [-1.5128e-04, -2.2411e-03, -2.6760e-03,  ..., -8.3466e-03,
+         -4.4403e-03, -1.8921e-03],
+        [-3.0861e-03, -1.5175e-04,  2.7847e-04,  ..., -3.2291e-03,
+          6.9046e-04, -3.2282e-04],
+        [ 1.8275e-04,  2.5344e-04,  6.8760e-04,  ...,  1.1234e-03,
+          6.6423e-04,  1.0103e-04]], device='cuda:0')
+Epoch 451, bias, value: tensor([ 0.0139, -0.0023, -0.0139,  0.0101, -0.0153, -0.0210,  0.0109, -0.0020,
+         0.0123, -0.0114], device='cuda:0'), grad: tensor([ 0.0128, -0.0008,  0.0186, -0.0095,  0.0109, -0.0131,  0.0112, -0.0402,
+        -0.0041,  0.0144], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 450, time 217.01, cls_loss 0.4348 cls_loss_mapping 0.0008 cls_loss_causal 0.4135 re_mapping 0.0038 re_causal 0.0117 /// teacc 98.94 lr 0.00001000
+Epoch 452, weight, value: tensor([[-0.0756, -0.1092, -0.1537,  ...,  0.1268, -0.0661,  0.0374],
+        [-0.0943,  0.1123, -0.0587,  ...,  0.0519, -0.0636, -0.0973],
+        [-0.0388,  0.0884, -0.1337,  ..., -0.0210,  0.0414,  0.1245],
+        ...,
+        [ 0.0022,  0.0746,  0.0017,  ..., -0.0253,  0.0336, -0.0850],
+        [ 0.1024, -0.1196,  0.0461,  ...,  0.0206,  0.0094, -0.0376],
+        [-0.0126, -0.0887,  0.0743,  ..., -0.0975,  0.0343, -0.0295]],
+       device='cuda:0'), grad: tensor([[ 6.1870e-05,  9.4891e-05,  2.4843e-04,  ...,  7.5400e-05,
+          9.7871e-05, -9.2149e-05],
+        [ 6.1691e-05, -9.8419e-04, -8.6641e-04,  ..., -1.3428e-03,
+          2.3198e-04,  1.1832e-04],
+        [ 2.2125e-03,  7.1812e-04,  1.2188e-03,  ...,  2.8992e-04,
+          4.6039e-04,  1.1530e-03],
+        ...,
+        [ 7.1621e-04,  5.0926e-04,  2.4338e-03,  ...,  2.1172e-03,
+          1.3762e-03,  2.1362e-04],
+        [ 4.9496e-04,  6.8140e-04,  1.2703e-03,  ...,  1.0881e-03,
+          3.9506e-04,  1.5593e-04],
+        [-7.0143e-04,  6.0987e-04, -9.7513e-04,  ..., -1.1635e-03,
+         -1.0900e-03,  1.9002e-04]], device='cuda:0')
+Epoch 452, bias, value: tensor([ 0.0137, -0.0022, -0.0139,  0.0101, -0.0153, -0.0210,  0.0107, -0.0019,
+         0.0123, -0.0112], device='cuda:0'), grad: tensor([ 0.0119,  0.0060,  0.0322, -0.0138, -0.0060,  0.0106, -0.0472,  0.0339,
+        -0.0089, -0.0187], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 451, time 216.70, cls_loss 0.4500 cls_loss_mapping 0.0009 cls_loss_causal 0.4216 re_mapping 0.0038 re_causal 0.0118 /// teacc 98.95 lr 0.00001000
+Epoch 453, weight, value: tensor([[-0.0756, -0.1091, -0.1538,  ...,  0.1269, -0.0661,  0.0375],
+        [-0.0942,  0.1123, -0.0588,  ...,  0.0519, -0.0637, -0.0974],
+        [-0.0388,  0.0884, -0.1339,  ..., -0.0208,  0.0415,  0.1245],
+        ...,
+        [ 0.0023,  0.0746,  0.0017,  ..., -0.0253,  0.0337, -0.0849],
+        [ 0.1023, -0.1196,  0.0462,  ...,  0.0206,  0.0094, -0.0376],
+        [-0.0124, -0.0886,  0.0743,  ..., -0.0976,  0.0342, -0.0295]],
+       device='cuda:0'), grad: tensor([[ 1.1638e-05,  9.5248e-05,  2.7370e-03,  ...,  1.8096e-04,
+          3.6144e-03,  3.0494e-04],
+        [ 1.6153e-05, -2.2399e-04, -8.7976e-04,  ..., -6.2799e-04,
+         -3.9368e-03,  7.7114e-06],
+        [ 3.0613e-04,  9.7394e-05,  1.8799e-04,  ...,  2.1601e-04,
+          8.5115e-04,  4.3474e-06],
+        ...,
+        [ 5.4121e-05,  2.9325e-04,  4.4670e-03,  ...,  1.2791e-04,
+          2.3956e-03,  7.1786e-06],
+        [-1.4591e-03,  1.2201e-04,  1.2569e-03,  ...,  2.2328e-04,
+          2.0466e-03,  1.8001e-05],
+        [-1.4820e-03, -1.4174e-04, -1.5099e-02,  ...,  1.9693e-04,
+         -1.1971e-02, -6.1512e-04]], device='cuda:0')
+Epoch 453, bias, value: tensor([ 0.0139, -0.0023, -0.0140,  0.0103, -0.0154, -0.0210,  0.0106, -0.0020,
+         0.0123, -0.0112], device='cuda:0'), grad: tensor([ 0.0274, -0.0278,  0.0184,  0.0229,  0.0226, -0.0121, -0.0092,  0.0383,
+        -0.0149, -0.0655], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 452, time 216.70, cls_loss 0.4123 cls_loss_mapping 0.0007 cls_loss_causal 0.3876 re_mapping 0.0039 re_causal 0.0117 /// teacc 98.93 lr 0.00001000
+Epoch 454, weight, value: tensor([[-0.0757, -0.1092, -0.1538,  ...,  0.1267, -0.0662,  0.0375],
+        [-0.0941,  0.1124, -0.0587,  ...,  0.0520, -0.0636, -0.0975],
+        [-0.0387,  0.0885, -0.1338,  ..., -0.0207,  0.0416,  0.1246],
+        ...,
+        [ 0.0023,  0.0746,  0.0017,  ..., -0.0253,  0.0335, -0.0848],
+        [ 0.1022, -0.1197,  0.0462,  ...,  0.0205,  0.0094, -0.0376],
+        [-0.0125, -0.0887,  0.0745,  ..., -0.0975,  0.0342, -0.0296]],
+       device='cuda:0'), grad: tensor([[-5.3482e-03,  3.3751e-06,  8.1587e-04,  ..., -3.5210e-03,
+          6.1035e-04,  2.9355e-05],
+        [ 3.9177e-03, -3.4332e-04,  2.2240e-03,  ...,  2.4548e-03,
+          1.0948e-03,  1.9029e-05],
+        [ 2.7347e-04,  9.3341e-05,  1.6975e-04,  ...,  4.2820e-04,
+          1.1854e-03,  1.5855e-04],
+        ...,
+        [ 6.6137e-04,  1.5032e-04,  3.1900e-04,  ...,  5.5647e-04,
+          7.8917e-04,  1.1128e-04],
+        [ 1.0681e-03,  1.2591e-05,  1.1911e-03,  ...,  3.3116e-04,
+          7.6818e-04, -5.0925e-06],
+        [ 9.1648e-04,  2.4363e-05,  5.6744e-04,  ...,  2.3985e-04,
+          5.0974e-04,  2.7999e-05]], device='cuda:0')
+Epoch 454, bias, value: tensor([ 0.0139, -0.0021, -0.0140,  0.0103, -0.0154, -0.0211,  0.0106, -0.0019,
+         0.0122, -0.0113], device='cuda:0'), grad: tensor([-0.0237,  0.0340,  0.0085, -0.0118, -0.0440, -0.0077,  0.0060,  0.0089,
+         0.0184,  0.0114], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 453, time 216.52, cls_loss 0.4579 cls_loss_mapping 0.0008 cls_loss_causal 0.4299 re_mapping 0.0040 re_causal 0.0124 /// teacc 98.91 lr 0.00001000
+Epoch 455, weight, value: tensor([[-0.0757, -0.1090, -0.1539,  ...,  0.1268, -0.0662,  0.0376],
+        [-0.0942,  0.1124, -0.0588,  ...,  0.0519, -0.0637, -0.0976],
+        [-0.0387,  0.0885, -0.1338,  ..., -0.0207,  0.0417,  0.1245],
+        ...,
+        [ 0.0022,  0.0746,  0.0015,  ..., -0.0254,  0.0335, -0.0848],
+        [ 0.1022, -0.1198,  0.0465,  ...,  0.0206,  0.0098, -0.0373],
+        [-0.0124, -0.0888,  0.0744,  ..., -0.0976,  0.0341, -0.0296]],
+       device='cuda:0'), grad: tensor([[ 1.0294e-04,  7.4625e-05,  1.4436e-04,  ...,  3.1567e-04,
+          8.9884e-05,  2.5004e-05],
+        [-3.7193e-03, -2.7466e-03, -3.6983e-03,  ...,  3.2687e-04,
+          3.0804e-04,  1.4603e-05],
+        [ 2.8634e-04,  1.0185e-03,  3.1614e-04,  ...,  8.7214e-04,
+          1.5211e-04,  1.4015e-05],
+        ...,
+        [ 9.3412e-04,  1.1887e-02,  1.3170e-03,  ...,  3.4924e-03,
+          3.4285e-04,  7.8902e-06],
+        [ 2.5535e-04,  1.3208e-03,  1.9150e-03,  ...,  6.5899e-04,
+          3.2544e-04,  1.0115e-04],
+        [ 3.4404e-04, -1.2054e-02,  4.1151e-04,  ..., -3.7632e-03,
+          2.8777e-04,  2.4617e-05]], device='cuda:0')
+Epoch 455, bias, value: tensor([ 0.0138, -0.0021, -0.0141,  0.0103, -0.0153, -0.0210,  0.0107, -0.0020,
+         0.0124, -0.0114], device='cuda:0'), grad: tensor([ 0.0212,  0.0143, -0.0060, -0.0354,  0.0014, -0.0529,  0.0284,  0.0370,
+         0.0321, -0.0400], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 454, time 216.76, cls_loss 0.4736 cls_loss_mapping 0.0010 cls_loss_causal 0.4415 re_mapping 0.0038 re_causal 0.0119 /// teacc 98.92 lr 0.00001000
+Epoch 456, weight, value: tensor([[-0.0757, -0.1090, -0.1538,  ...,  0.1268, -0.0663,  0.0377],
+        [-0.0943,  0.1124, -0.0588,  ...,  0.0519, -0.0637, -0.0976],
+        [-0.0387,  0.0885, -0.1339,  ..., -0.0207,  0.0416,  0.1244],
+        ...,
+        [ 0.0025,  0.0746,  0.0015,  ..., -0.0253,  0.0336, -0.0848],
+        [ 0.1023, -0.1198,  0.0464,  ...,  0.0206,  0.0100, -0.0372],
+        [-0.0126, -0.0886,  0.0743,  ..., -0.0976,  0.0341, -0.0297]],
+       device='cuda:0'), grad: tensor([[ 1.0097e-04,  5.8770e-05,  4.4197e-05,  ...,  4.1986e-04,
+          1.0508e-04,  2.2388e-04],
+        [ 2.6777e-05, -1.8349e-03,  6.4909e-05,  ..., -2.3537e-03,
+         -3.4409e-03,  5.6952e-05],
+        [ 8.7261e-05, -8.7261e-04,  1.2982e-04,  ...,  3.8409e-04,
+          1.6105e-04,  1.2386e-04],
+        ...,
+        [-1.0157e-03,  1.2302e-04,  4.7088e-04,  ..., -2.3251e-03,
+          5.0020e-04, -2.2297e-03],
+        [ 1.1927e-04,  1.5182e-03, -1.1854e-03,  ...,  2.0447e-03,
+          1.5211e-03,  1.5163e-04],
+        [-2.8872e-04,  1.1808e-04, -1.1492e-04,  ...,  3.2663e-04,
+          3.4523e-04,  5.0038e-05]], device='cuda:0')
+Epoch 456, bias, value: tensor([ 0.0136, -0.0021, -0.0139,  0.0103, -0.0154, -0.0210,  0.0107, -0.0019,
+         0.0125, -0.0115], device='cuda:0'), grad: tensor([-0.0155, -0.0075, -0.0371,  0.0232,  0.0297,  0.0206, -0.0148, -0.0426,
+         0.0293,  0.0147], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 455, time 216.48, cls_loss 0.4403 cls_loss_mapping 0.0008 cls_loss_causal 0.4146 re_mapping 0.0039 re_causal 0.0119 /// teacc 98.90 lr 0.00001000
+Epoch 457, weight, value: tensor([[-0.0758, -0.1090, -0.1538,  ...,  0.1267, -0.0664,  0.0377],
+        [-0.0944,  0.1125, -0.0587,  ...,  0.0520, -0.0636, -0.0976],
+        [-0.0386,  0.0885, -0.1340,  ..., -0.0206,  0.0416,  0.1244],
+        ...,
+        [ 0.0025,  0.0746,  0.0016,  ..., -0.0253,  0.0338, -0.0847],
+        [ 0.1023, -0.1199,  0.0465,  ...,  0.0207,  0.0099, -0.0371],
+        [-0.0127, -0.0886,  0.0743,  ..., -0.0978,  0.0340, -0.0298]],
+       device='cuda:0'), grad: tensor([[ 8.8802e-07,  1.2696e-04,  8.2888e-08,  ...,  1.1772e-04,
+          2.0832e-05,  7.2177e-07],
+        [-8.3745e-06,  1.7762e-04,  1.4808e-07,  ...,  1.6940e-04,
+          4.2081e-05,  6.5155e-06],
+        [ 1.2852e-07,  7.4029e-05,  1.6484e-07,  ...,  9.0659e-05,
+          2.4676e-05, -6.4015e-05],
+        ...,
+        [ 7.8902e-06,  1.6570e-04,  1.1787e-05,  ...,  1.9813e-04,
+          4.2915e-05,  5.9186e-07],
+        [ 6.4401e-07,  2.0778e-04,  1.2919e-05,  ...,  1.7667e-04,
+          3.4899e-05,  5.1171e-05],
+        [ 8.9547e-07,  1.8656e-04, -3.9041e-05,  ...,  1.5247e-04,
+         -9.3356e-06,  3.1432e-07]], device='cuda:0')
+Epoch 457, bias, value: tensor([ 0.0136, -0.0022, -0.0139,  0.0105, -0.0154, -0.0209,  0.0107, -0.0019,
+         0.0123, -0.0116], device='cuda:0'), grad: tensor([ 0.0134,  0.0175,  0.0128,  0.0147, -0.0457, -0.0194,  0.0199, -0.0166,
+         0.0178, -0.0142], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 456, time 217.78, cls_loss 0.4448 cls_loss_mapping 0.0008 cls_loss_causal 0.4166 re_mapping 0.0037 re_causal 0.0116 /// teacc 98.95 lr 0.00001000
+Epoch 458, weight, value: tensor([[-0.0757, -0.1091, -0.1539,  ...,  0.1267, -0.0664,  0.0378],
+        [-0.0945,  0.1125, -0.0587,  ...,  0.0520, -0.0636, -0.0977],
+        [-0.0386,  0.0887, -0.1339,  ..., -0.0206,  0.0418,  0.1246],
+        ...,
+        [ 0.0026,  0.0746,  0.0015,  ..., -0.0253,  0.0338, -0.0846],
+        [ 0.1024, -0.1200,  0.0464,  ...,  0.0207,  0.0098, -0.0374],
+        [-0.0128, -0.0888,  0.0743,  ..., -0.0977,  0.0340, -0.0298]],
+       device='cuda:0'), grad: tensor([[ 5.4389e-05,  2.3954e-06,  1.6320e-04,  ...,  2.6751e-04,
+          1.1957e-04,  9.4473e-05],
+        [ 9.5963e-05,  9.5218e-06,  4.6343e-05,  ...,  1.5581e-04,
+          4.1753e-05,  4.0621e-05],
+        [ 7.6234e-05, -8.3596e-06, -5.1498e-05,  ..., -3.4475e-04,
+         -7.8726e-04, -2.0695e-04],
+        ...,
+        [-6.0034e-04, -1.4484e-05,  8.4341e-05,  ...,  2.2757e-04,
+          1.1843e-04,  6.1035e-05],
+        [ 5.7757e-05, -4.4882e-05,  3.0804e-04,  ...,  5.3406e-04,
+          7.1955e-04,  2.3246e-04],
+        [ 3.7551e-05,  3.1292e-05,  3.0804e-04,  ...,  1.4114e-04,
+          3.0446e-04,  1.7035e-04]], device='cuda:0')
+Epoch 458, bias, value: tensor([ 0.0137, -0.0021, -0.0139,  0.0105, -0.0154, -0.0209,  0.0106, -0.0018,
+         0.0123, -0.0117], device='cuda:0'), grad: tensor([ 0.0184,  0.0229,  0.0161, -0.0138,  0.0217,  0.0256, -0.0508, -0.0436,
+        -0.0149,  0.0184], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 457, time 217.40, cls_loss 0.4728 cls_loss_mapping 0.0008 cls_loss_causal 0.4367 re_mapping 0.0038 re_causal 0.0118 /// teacc 98.99 lr 0.00001000
+Epoch 459, weight, value: tensor([[-0.0758, -0.1092, -0.1541,  ...,  0.1268, -0.0665,  0.0377],
+        [-0.0946,  0.1126, -0.0586,  ...,  0.0520, -0.0636, -0.0978],
+        [-0.0385,  0.0886, -0.1338,  ..., -0.0207,  0.0417,  0.1245],
+        ...,
+        [ 0.0025,  0.0745,  0.0015,  ..., -0.0253,  0.0338, -0.0846],
+        [ 0.1024, -0.1200,  0.0463,  ...,  0.0206,  0.0098, -0.0373],
+        [-0.0128, -0.0887,  0.0742,  ..., -0.0977,  0.0340, -0.0299]],
+       device='cuda:0'), grad: tensor([[ 3.8324e-07,  5.5265e-04,  6.3086e-04,  ...,  1.5574e-03,
+          6.6805e-04,  9.1553e-04],
+        [ 1.9874e-06,  3.0041e-03,  2.0194e-04,  ...,  3.7556e-03,
+          7.9453e-05,  4.5705e-04],
+        [ 5.5075e-05,  3.2806e-04,  1.5616e-04,  ...,  9.6607e-04,
+          7.1096e-04,  5.3263e-04],
+        ...,
+        [ 2.6003e-05,  3.1233e-04,  1.7715e-04,  ...,  7.9536e-04,
+          3.0160e-04,  4.0579e-04],
+        [ 1.1343e-04, -3.6926e-03, -1.2457e-04,  ..., -3.5210e-03,
+          1.1616e-03, -6.8760e-04],
+        [ 1.3046e-05,  2.4724e-04,  2.4319e-04,  ...,  4.9639e-04,
+          2.7490e-04,  3.1471e-04]], device='cuda:0')
+Epoch 459, bias, value: tensor([ 0.0137, -0.0022, -0.0140,  0.0106, -0.0153, -0.0209,  0.0105, -0.0018,
+         0.0123, -0.0117], device='cuda:0'), grad: tensor([ 0.0229,  0.0034,  0.0191, -0.0535, -0.0155,  0.0236, -0.0155,  0.0206,
+        -0.0203,  0.0152], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 458, time 216.86, cls_loss 0.4747 cls_loss_mapping 0.0009 cls_loss_causal 0.4447 re_mapping 0.0036 re_causal 0.0113 /// teacc 98.99 lr 0.00001000
+Epoch 460, weight, value: tensor([[-0.0759, -0.1092, -0.1541,  ...,  0.1268, -0.0666,  0.0377],
+        [-0.0946,  0.1129, -0.0588,  ...,  0.0518, -0.0635, -0.0979],
+        [-0.0385,  0.0884, -0.1339,  ..., -0.0206,  0.0417,  0.1246],
+        ...,
+        [ 0.0027,  0.0746,  0.0015,  ..., -0.0252,  0.0338, -0.0845],
+        [ 0.1025, -0.1201,  0.0463,  ...,  0.0206,  0.0098, -0.0372],
+        [-0.0129, -0.0887,  0.0744,  ..., -0.0977,  0.0341, -0.0300]],
+       device='cuda:0'), grad: tensor([[ 1.1005e-03,  3.2783e-05,  1.3518e-04,  ...,  1.5173e-03,
+          1.9388e-03,  2.4486e-04],
+        [ 1.1766e-04,  9.5218e-06,  4.8661e-04,  ...,  2.6536e-04,
+          5.9381e-06,  1.6168e-05],
+        [ 1.1837e-04,  8.9228e-05,  9.4354e-05,  ...,  3.3903e-04,
+          5.6885e-06,  1.3262e-05],
+        ...,
+        [-3.5691e-04, -5.4598e-04,  3.4237e-04,  ..., -3.3245e-03,
+         -3.3200e-05,  3.0577e-05],
+        [ 4.9496e-04,  1.0148e-05,  2.7704e-04,  ...,  3.7670e-04,
+          3.1829e-05,  9.0003e-05],
+        [ 9.3365e-04,  4.0197e-04,  7.6389e-04,  ...,  5.7459e-04,
+          2.8625e-05,  1.7154e-04]], device='cuda:0')
+Epoch 460, bias, value: tensor([ 0.0136, -0.0021, -0.0141,  0.0106, -0.0155, -0.0209,  0.0104, -0.0017,
+         0.0125, -0.0117], device='cuda:0'), grad: tensor([ 0.0142,  0.0083,  0.0085, -0.0226, -0.0080,  0.0098,  0.0078, -0.0127,
+        -0.0205,  0.0151], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 459, time 217.27, cls_loss 0.4546 cls_loss_mapping 0.0010 cls_loss_causal 0.4255 re_mapping 0.0036 re_causal 0.0108 /// teacc 98.94 lr 0.00001000
+Epoch 461, weight, value: tensor([[-0.0759, -0.1092, -0.1542,  ...,  0.1268, -0.0666,  0.0378],
+        [-0.0946,  0.1129, -0.0588,  ...,  0.0518, -0.0635, -0.0979],
+        [-0.0386,  0.0884, -0.1338,  ..., -0.0206,  0.0417,  0.1246],
+        ...,
+        [ 0.0026,  0.0746,  0.0014,  ..., -0.0251,  0.0338, -0.0845],
+        [ 0.1026, -0.1203,  0.0463,  ...,  0.0206,  0.0096, -0.0374],
+        [-0.0129, -0.0887,  0.0743,  ..., -0.0978,  0.0341, -0.0299]],
+       device='cuda:0'), grad: tensor([[ 1.5205e-02,  5.6297e-05,  5.0545e-04,  ...,  4.8971e-04,
+          3.8362e-04,  6.3753e-04],
+        [-1.3876e-03, -4.7660e-04, -7.8917e-04,  ..., -1.9417e-03,
+         -6.3038e-04, -1.9684e-03],
+        [-4.4861e-03, -6.5651e-03,  3.8242e-04,  ...,  6.8283e-04,
+         -5.2071e-03, -1.5480e-02],
+        ...,
+        [ 3.7599e-04, -3.1888e-05,  9.0313e-04,  ...,  5.5838e-04,
+          6.8665e-04,  5.4836e-04],
+        [ 3.3188e-03,  5.8860e-05,  3.8075e-04,  ...,  4.3559e-04,
+          2.9516e-04,  4.3511e-04],
+        [ 1.4515e-03,  7.1704e-05,  4.7684e-04,  ...,  4.6802e-04,
+          3.3450e-04,  4.5228e-04]], device='cuda:0')
+Epoch 461, bias, value: tensor([ 0.0136, -0.0021, -0.0141,  0.0106, -0.0155, -0.0209,  0.0105, -0.0017,
+         0.0125, -0.0117], device='cuda:0'), grad: tensor([-0.0079,  0.0002, -0.0824, -0.0021, -0.0006,  0.0231, -0.0021,  0.0017,
+         0.0371,  0.0329], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 460, time 216.89, cls_loss 0.4678 cls_loss_mapping 0.0008 cls_loss_causal 0.4429 re_mapping 0.0037 re_causal 0.0116 /// teacc 98.95 lr 0.00001000
+Epoch 462, weight, value: tensor([[-0.0759, -0.1092, -0.1543,  ...,  0.1268, -0.0667,  0.0378],
+        [-0.0946,  0.1129, -0.0588,  ...,  0.0517, -0.0635, -0.0978],
+        [-0.0385,  0.0886, -0.1338,  ..., -0.0205,  0.0417,  0.1248],
+        ...,
+        [ 0.0026,  0.0745,  0.0014,  ..., -0.0253,  0.0339, -0.0846],
+        [ 0.1026, -0.1204,  0.0463,  ...,  0.0206,  0.0096, -0.0374],
+        [-0.0129, -0.0887,  0.0743,  ..., -0.0979,  0.0341, -0.0300]],
+       device='cuda:0'), grad: tensor([[ 2.9707e-04,  5.8040e-06,  1.1418e-06,  ...,  4.1056e-04,
+          1.0813e-06,  5.9247e-05],
+        [ 2.2006e-04,  7.2598e-05,  5.6058e-05,  ...,  6.8283e-04,
+          3.1292e-05,  9.6858e-05],
+        [-2.0924e-03,  1.0605e-02,  3.1203e-05,  ...,  7.1526e-03,
+         -1.5147e-05,  4.5166e-03],
+        ...,
+        [ 6.1631e-05, -1.0780e-02,  5.9992e-05,  ..., -8.5754e-03,
+          1.4499e-05, -4.5509e-03],
+        [ 6.8855e-04,  4.0531e-05, -2.0087e-04,  ...,  2.4533e-04,
+         -1.3506e-04,  9.2626e-05],
+        [ 5.7578e-05,  6.0871e-06, -1.2153e-04,  ...,  3.2997e-04,
+         -1.4983e-05,  4.3154e-05]], device='cuda:0')
+Epoch 462, bias, value: tensor([ 0.0135, -0.0020, -0.0140,  0.0108, -0.0154, -0.0210,  0.0104, -0.0018,
+         0.0125, -0.0118], device='cuda:0'), grad: tensor([ 0.0158,  0.0205,  0.0041, -0.0166,  0.0116,  0.0135, -0.0117, -0.0712,
+         0.0231,  0.0110], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 461, time 216.90, cls_loss 0.4594 cls_loss_mapping 0.0008 cls_loss_causal 0.4330 re_mapping 0.0038 re_causal 0.0119 /// teacc 98.95 lr 0.00001000
+Epoch 463, weight, value: tensor([[-0.0760, -0.1090, -0.1545,  ...,  0.1268, -0.0668,  0.0376],
+        [-0.0945,  0.1129, -0.0587,  ...,  0.0517, -0.0634, -0.0980],
+        [-0.0386,  0.0886, -0.1339,  ..., -0.0205,  0.0418,  0.1248],
+        ...,
+        [ 0.0026,  0.0745,  0.0014,  ..., -0.0251,  0.0338, -0.0847],
+        [ 0.1024, -0.1205,  0.0463,  ...,  0.0207,  0.0097, -0.0373],
+        [-0.0130, -0.0888,  0.0743,  ..., -0.0980,  0.0340, -0.0299]],
+       device='cuda:0'), grad: tensor([[ 8.3804e-05,  1.1778e-04,  2.0874e-04,  ..., -3.2043e-04,
+          1.6367e-04,  1.8501e-04],
+        [ 1.2279e-04,  1.6665e-04,  3.8356e-05,  ...,  1.3247e-05,
+          2.1636e-05,  3.6764e-04],
+        [ 3.8099e-04,  6.0177e-04,  1.4699e-04,  ...,  8.6129e-05,
+          7.3493e-05,  1.0662e-03],
+        ...,
+        [-1.3714e-03, -2.3117e-03, -5.6534e-03,  ..., -3.0937e-03,
+         -4.9591e-03, -2.3289e-03],
+        [ 2.1172e-04,  2.7800e-04, -1.4400e-03,  ...,  3.8886e-04,
+          3.6454e-04,  4.2009e-04],
+        [ 1.0166e-03,  1.8692e-03,  5.8823e-03,  ...,  2.3537e-03,
+          3.7708e-03,  1.8415e-03]], device='cuda:0')
+Epoch 463, bias, value: tensor([ 0.0134, -0.0021, -0.0140,  0.0109, -0.0155, -0.0211,  0.0107, -0.0017,
+         0.0124, -0.0118], device='cuda:0'), grad: tensor([-0.0146, -0.0083,  0.0292, -0.0081,  0.0170,  0.0154, -0.0453, -0.0406,
+         0.0111,  0.0442], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 462, time 217.23, cls_loss 0.4573 cls_loss_mapping 0.0008 cls_loss_causal 0.4301 re_mapping 0.0038 re_causal 0.0120 /// teacc 98.95 lr 0.00001000
+Epoch 464, weight, value: tensor([[-0.0761, -0.1091, -0.1546,  ...,  0.1268, -0.0669,  0.0375],
+        [-0.0946,  0.1129, -0.0588,  ...,  0.0517, -0.0633, -0.0980],
+        [-0.0384,  0.0885, -0.1339,  ..., -0.0206,  0.0418,  0.1248],
+        ...,
+        [ 0.0025,  0.0747,  0.0014,  ..., -0.0248,  0.0339, -0.0846],
+        [ 0.1024, -0.1206,  0.0463,  ...,  0.0206,  0.0096, -0.0374],
+        [-0.0131, -0.0888,  0.0743,  ..., -0.0980,  0.0340, -0.0299]],
+       device='cuda:0'), grad: tensor([[ 4.2844e-04,  3.3665e-04,  6.1655e-04,  ...,  6.7139e-04,
+         -6.7472e-04, -5.7757e-05],
+        [-2.1439e-03, -2.2907e-03,  1.0939e-03,  ..., -6.9084e-03,
+          5.6171e-04,  7.4327e-05],
+        [ 3.1471e-04,  6.2895e-04,  1.9093e-03,  ...,  5.5981e-04,
+          9.6817e-03,  3.2940e-03],
+        ...,
+        [ 6.3837e-05,  6.1893e-04,  1.1444e-03,  ...,  2.8496e-03,
+         -1.2421e-02,  5.4240e-05],
+        [ 1.4842e-05,  3.1352e-04,  8.6212e-04,  ...,  1.1177e-02,
+          1.8845e-02,  6.5384e-03],
+        [ 3.9911e-04,  3.2115e-04, -3.3264e-03,  ...,  5.0497e-04,
+          4.7922e-04,  1.0049e-04]], device='cuda:0')
+Epoch 464, bias, value: tensor([ 0.0135, -0.0021, -0.0141,  0.0109, -0.0155, -0.0212,  0.0108, -0.0017,
+         0.0124, -0.0119], device='cuda:0'), grad: tensor([-0.0114, -0.0622, -0.0231,  0.0161, -0.0011,  0.0240,  0.0013,  0.0013,
+         0.0401,  0.0150], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 463, time 218.00, cls_loss 0.4478 cls_loss_mapping 0.0007 cls_loss_causal 0.4242 re_mapping 0.0039 re_causal 0.0120 /// teacc 98.97 lr 0.00001000
+Epoch 465, weight, value: tensor([[-0.0761, -0.1091, -0.1546,  ...,  0.1268, -0.0668,  0.0376],
+        [-0.0949,  0.1128, -0.0590,  ...,  0.0517, -0.0634, -0.0979],
+        [-0.0386,  0.0886, -0.1337,  ..., -0.0205,  0.0420,  0.1248],
+        ...,
+        [ 0.0027,  0.0747,  0.0013,  ..., -0.0249,  0.0338, -0.0846],
+        [ 0.1026, -0.1206,  0.0462,  ...,  0.0206,  0.0096, -0.0374],
+        [-0.0131, -0.0888,  0.0743,  ..., -0.0981,  0.0340, -0.0301]],
+       device='cuda:0'), grad: tensor([[-7.1585e-05, -2.7447e-03,  9.8610e-04,  ...,  4.7755e-04,
+          7.7248e-03,  5.0201e-03],
+        [-8.1730e-04,  3.8986e-03,  3.9411e-04,  ...,  6.5660e-04,
+          5.1689e-04,  4.3869e-05],
+        [ 2.2149e-04, -3.7527e-04, -3.3512e-03,  ..., -3.4332e-04,
+          5.2810e-05, -2.7199e-03],
+        ...,
+        [-2.2113e-04, -3.3531e-03, -1.3838e-03,  ..., -2.1572e-03,
+         -5.2547e-04,  6.2943e-04],
+        [-9.6750e-04,  3.3116e-04, -7.1716e-04,  ..., -1.7185e-03,
+         -9.4604e-03, -4.8599e-03],
+        [ 5.2738e-04,  4.6134e-04,  6.2370e-04,  ...,  1.1559e-03,
+          5.0974e-04,  8.6784e-04]], device='cuda:0')
+Epoch 465, bias, value: tensor([ 0.0136, -0.0020, -0.0141,  0.0107, -0.0154, -0.0212,  0.0107, -0.0016,
+         0.0125, -0.0121], device='cuda:0'), grad: tensor([-0.0148, -0.0068, -0.0140, -0.0079,  0.0195,  0.0190,  0.0030,  0.0178,
+        -0.0412,  0.0253], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 464, time 217.68, cls_loss 0.4420 cls_loss_mapping 0.0007 cls_loss_causal 0.4120 re_mapping 0.0037 re_causal 0.0116 /// teacc 98.99 lr 0.00001000
+Epoch 466, weight, value: tensor([[-0.0762, -0.1091, -0.1546,  ...,  0.1264, -0.0670,  0.0375],
+        [-0.0948,  0.1130, -0.0591,  ...,  0.0519, -0.0634, -0.0975],
+        [-0.0386,  0.0886, -0.1338,  ..., -0.0204,  0.0420,  0.1248],
+        ...,
+        [ 0.0028,  0.0746,  0.0013,  ..., -0.0250,  0.0337, -0.0848],
+        [ 0.1026, -0.1206,  0.0464,  ...,  0.0208,  0.0097, -0.0373],
+        [-0.0132, -0.0887,  0.0742,  ..., -0.0982,  0.0341, -0.0301]],
+       device='cuda:0'), grad: tensor([[ 5.1546e-04,  6.4969e-05,  2.6393e-04,  ...,  7.1812e-04,
+          3.6895e-05,  3.1982e-06],
+        [ 1.3769e-04, -7.6246e-04,  7.2062e-05,  ...,  4.3945e-03,
+         -4.3559e-04,  1.4141e-05],
+        [ 6.7949e-05,  4.9305e-04,  7.9691e-05,  ...,  7.3767e-04,
+          2.7966e-04,  4.5836e-05],
+        ...,
+        [ 2.0623e-04, -8.3542e-04,  2.9907e-03,  ...,  4.9084e-05,
+          2.6989e-03, -1.2827e-04],
+        [ 2.2488e-03,  1.6546e-04,  1.2665e-03,  ...,  1.0405e-03,
+          1.9383e-04,  1.0774e-05],
+        [-8.0347e-04,  1.8537e-04, -5.5580e-03,  ...,  5.3644e-04,
+         -3.7384e-03,  1.3947e-05]], device='cuda:0')
+Epoch 466, bias, value: tensor([ 0.0137, -0.0019, -0.0141,  0.0106, -0.0153, -0.0211,  0.0108, -0.0016,
+         0.0124, -0.0122], device='cuda:0'), grad: tensor([ 0.0114, -0.0031,  0.0135, -0.0193,  0.0171, -0.0207, -0.0039,  0.0100,
+         0.0202, -0.0251], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 465, time 217.05, cls_loss 0.4641 cls_loss_mapping 0.0008 cls_loss_causal 0.4383 re_mapping 0.0038 re_causal 0.0119 /// teacc 99.01 lr 0.00001000
+Epoch 467, weight, value: tensor([[-0.0763, -0.1089, -0.1546,  ...,  0.1265, -0.0669,  0.0376],
+        [-0.0950,  0.1130, -0.0591,  ...,  0.0518, -0.0634, -0.0976],
+        [-0.0385,  0.0886, -0.1338,  ..., -0.0206,  0.0419,  0.1248],
+        ...,
+        [ 0.0028,  0.0746,  0.0013,  ..., -0.0249,  0.0338, -0.0848],
+        [ 0.1026, -0.1206,  0.0465,  ...,  0.0210,  0.0099, -0.0373],
+        [-0.0133, -0.0888,  0.0743,  ..., -0.0982,  0.0339, -0.0302]],
+       device='cuda:0'), grad: tensor([[ 3.1900e-04,  2.7823e-04,  1.4341e-04,  ...,  7.0715e-04,
+          2.8396e-04,  4.2152e-04],
+        [ 5.6505e-04, -1.4937e-04,  9.3699e-05,  ..., -6.5708e-04,
+          9.6917e-05,  5.6148e-05],
+        [ 1.6761e-04,  2.0826e-04,  1.5068e-04,  ...,  6.6662e-04,
+          1.9097e-04,  2.7084e-04],
+        ...,
+        [ 1.4915e-03, -3.1203e-05,  1.8597e-03,  ..., -2.6741e-03,
+          9.0694e-04,  3.0756e-05],
+        [ 6.9237e-04,  3.6454e-04, -5.1832e-04,  ...,  1.0939e-03,
+         -2.4509e-04,  2.1446e-04],
+        [-1.1780e-02, -4.4084e-04, -2.7161e-03,  ..., -3.7169e-04,
+         -1.4744e-03,  1.0967e-04]], device='cuda:0')
+Epoch 467, bias, value: tensor([ 0.0138, -0.0020, -0.0143,  0.0107, -0.0152, -0.0212,  0.0109, -0.0016,
+         0.0124, -0.0122], device='cuda:0'), grad: tensor([-0.0091,  0.0157, -0.0125,  0.0218, -0.0028,  0.0069,  0.0035,  0.0050,
+         0.0216, -0.0500], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 466, time 216.56, cls_loss 0.4194 cls_loss_mapping 0.0007 cls_loss_causal 0.3969 re_mapping 0.0037 re_causal 0.0113 /// teacc 99.01 lr 0.00001000
+Epoch 468, weight, value: tensor([[-0.0764, -0.1089, -0.1547,  ...,  0.1266, -0.0670,  0.0376],
+        [-0.0950,  0.1130, -0.0590,  ...,  0.0517, -0.0634, -0.0975],
+        [-0.0385,  0.0887, -0.1338,  ..., -0.0206,  0.0419,  0.1249],
+        ...,
+        [ 0.0027,  0.0746,  0.0012,  ..., -0.0249,  0.0337, -0.0849],
+        [ 0.1026, -0.1208,  0.0466,  ...,  0.0209,  0.0100, -0.0372],
+        [-0.0133, -0.0889,  0.0742,  ..., -0.0984,  0.0339, -0.0301]],
+       device='cuda:0'), grad: tensor([[ 6.7997e-04,  1.5891e-04, -4.1351e-03,  ..., -6.2599e-03,
+         -5.0087e-03, -2.0847e-03],
+        [ 3.2368e-03,  1.1454e-03,  2.1720e-04,  ...,  1.9445e-03,
+          2.5225e-04,  1.0037e-04],
+        [ 6.8903e-04,  1.2231e-04,  5.9652e-04,  ...,  7.4339e-04,
+          1.1253e-03,  2.1577e-04],
+        ...,
+        [ 1.8387e-03,  8.8632e-05,  2.8896e-04,  ...,  1.3037e-03,
+         -6.0034e-04,  3.3951e-04],
+        [-1.2260e-02,  7.4720e-04,  1.2159e-03,  ...,  2.1629e-03,
+          1.7872e-03,  1.6844e-04],
+        [ 4.2229e-03,  9.7752e-05,  4.3154e-04,  ...,  2.6093e-03,
+          4.6015e-04,  8.4066e-04]], device='cuda:0')
+Epoch 468, bias, value: tensor([ 0.0138, -0.0020, -0.0142,  0.0106, -0.0153, -0.0211,  0.0108, -0.0016,
+         0.0124, -0.0122], device='cuda:0'), grad: tensor([-0.0086, -0.0053,  0.0138, -0.0183,  0.0187, -0.0206,  0.0134, -0.0170,
+         0.0013,  0.0224], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 467, time 217.61, cls_loss 0.4222 cls_loss_mapping 0.0008 cls_loss_causal 0.3929 re_mapping 0.0037 re_causal 0.0114 /// teacc 99.01 lr 0.00001000
+Epoch 469, weight, value: tensor([[-0.0764, -0.1089, -0.1548,  ...,  0.1267, -0.0671,  0.0376],
+        [-0.0951,  0.1128, -0.0591,  ...,  0.0516, -0.0634, -0.0975],
+        [-0.0386,  0.0887, -0.1340,  ..., -0.0203,  0.0419,  0.1250],
+        ...,
+        [ 0.0026,  0.0746,  0.0011,  ..., -0.0251,  0.0335, -0.0849],
+        [ 0.1027, -0.1208,  0.0466,  ...,  0.0208,  0.0100, -0.0373],
+        [-0.0131, -0.0889,  0.0743,  ..., -0.0986,  0.0340, -0.0302]],
+       device='cuda:0'), grad: tensor([[ 5.8394e-07,  3.7670e-05,  2.1148e-04,  ...,  2.7561e-04,
+          2.1428e-05,  2.7940e-07],
+        [ 4.6566e-10,  6.4187e-06,  1.2422e-04,  ...,  1.7047e-04,
+          1.5855e-05,  1.0384e-07],
+        [ 3.7719e-08,  2.6684e-03,  4.5836e-05,  ...,  2.4939e-04,
+          4.3821e-04, -2.0787e-06],
+        ...,
+        [ 1.1642e-08, -4.8561e-03, -2.3087e-02,  ...,  1.5318e-04,
+         -6.4392e-03,  8.2329e-07],
+        [ 1.0170e-05,  4.6939e-05,  1.1247e-04,  ...,  2.2936e-04,
+          3.6299e-05,  3.4086e-07],
+        [ 4.3772e-06,  1.7061e-03,  2.3087e-02,  ...,  2.7657e-04,
+          5.7297e-03,  2.3749e-08]], device='cuda:0')
+Epoch 469, bias, value: tensor([ 0.0138, -0.0020, -0.0142,  0.0105, -0.0152, -0.0211,  0.0108, -0.0016,
+         0.0122, -0.0120], device='cuda:0'), grad: tensor([ 0.0108, -0.0177,  0.0143, -0.0206, -0.0342,  0.0097,  0.0162, -0.0217,
+         0.0091,  0.0340], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 468, time 216.93, cls_loss 0.4632 cls_loss_mapping 0.0009 cls_loss_causal 0.4290 re_mapping 0.0037 re_causal 0.0114 /// teacc 98.96 lr 0.00001000
+Epoch 470, weight, value: tensor([[-0.0765, -0.1089, -0.1549,  ...,  0.1268, -0.0671,  0.0377],
+        [-0.0949,  0.1129, -0.0590,  ...,  0.0516, -0.0634, -0.0975],
+        [-0.0387,  0.0888, -0.1340,  ..., -0.0205,  0.0419,  0.1248],
+        ...,
+        [ 0.0025,  0.0745,  0.0012,  ..., -0.0249,  0.0337, -0.0850],
+        [ 0.1027, -0.1208,  0.0467,  ...,  0.0207,  0.0101, -0.0373],
+        [-0.0130, -0.0889,  0.0742,  ..., -0.0987,  0.0339, -0.0301]],
+       device='cuda:0'), grad: tensor([[ 1.4746e-04,  1.8820e-05,  4.9362e-03,  ...,  2.1267e-03,
+          5.0163e-03,  1.1116e-04],
+        [-1.4519e-02, -4.7951e-03, -3.4142e-03,  ..., -4.5128e-03,
+          9.2506e-05, -7.8154e-04],
+        [ 7.8261e-05, -1.8813e-07,  4.6194e-05,  ...,  2.6059e-04,
+         -1.9276e-04, -1.3089e-04],
+        ...,
+        [ 9.0897e-05,  4.8801e-06,  2.0194e-04,  ...,  1.2636e-04,
+          1.0216e-04,  1.1998e-04],
+        [ 9.7513e-05,  2.2769e-05,  6.1893e-04,  ...,  3.2616e-04,
+          4.9210e-04,  5.9903e-05],
+        [ 7.1824e-05,  4.6045e-06,  6.0616e-03,  ..., -4.8943e-03,
+          7.7477e-03,  9.7096e-05]], device='cuda:0')
+Epoch 470, bias, value: tensor([ 0.0138, -0.0019, -0.0143,  0.0106, -0.0151, -0.0209,  0.0106, -0.0017,
+         0.0120, -0.0120], device='cuda:0'), grad: tensor([ 0.0218, -0.0462, -0.0239,  0.0038,  0.0131, -0.0217,  0.0531,  0.0086,
+         0.0072, -0.0157], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 469, time 217.00, cls_loss 0.4335 cls_loss_mapping 0.0008 cls_loss_causal 0.4046 re_mapping 0.0038 re_causal 0.0116 /// teacc 98.97 lr 0.00001000
+Epoch 471, weight, value: tensor([[-0.0766, -0.1090, -0.1547,  ...,  0.1267, -0.0670,  0.0375],
+        [-0.0950,  0.1129, -0.0591,  ...,  0.0517, -0.0634, -0.0975],
+        [-0.0387,  0.0888, -0.1341,  ..., -0.0203,  0.0418,  0.1249],
+        ...,
+        [ 0.0025,  0.0746,  0.0012,  ..., -0.0250,  0.0338, -0.0850],
+        [ 0.1027, -0.1208,  0.0467,  ...,  0.0207,  0.0100, -0.0372],
+        [-0.0130, -0.0889,  0.0741,  ..., -0.0987,  0.0338, -0.0301]],
+       device='cuda:0'), grad: tensor([[ 7.8559e-05,  7.1824e-05,  6.2323e-04,  ...,  7.9751e-05,
+          8.6689e-04,  1.1988e-05],
+        [ 4.1902e-05, -1.4555e-04,  2.0194e-04,  ..., -1.6975e-04,
+          3.8832e-05,  1.4484e-05],
+        [ 6.3181e-04,  4.3839e-05,  1.2171e-04,  ...,  5.8562e-05,
+          3.8576e-04,  1.3661e-04],
+        ...,
+        [ 3.0115e-05,  1.7419e-05,  7.7295e-04,  ...,  9.2983e-06,
+          4.3124e-05,  6.3106e-06],
+        [-3.1948e-03,  3.5260e-06,  3.3426e-04,  ...,  2.3949e-04,
+         -1.1396e-03, -6.9809e-04],
+        [ 4.4465e-05,  6.7241e-06, -3.4070e-04,  ...,  6.8955e-06,
+          3.6550e-04,  9.6038e-06]], device='cuda:0')
+Epoch 471, bias, value: tensor([ 0.0136, -0.0018, -0.0141,  0.0105, -0.0152, -0.0210,  0.0106, -0.0015,
+         0.0121, -0.0120], device='cuda:0'), grad: tensor([-0.0165,  0.0158,  0.0142,  0.0208, -0.0179, -0.0195,  0.0040,  0.0159,
+         0.0011, -0.0179], device='cuda:0')
+100
+1e-05
+changing lr
+---------------------saving model at epoch 470----------------------------------------------------
+epoch 470, time 217.50, cls_loss 0.4385 cls_loss_mapping 0.0007 cls_loss_causal 0.4112 re_mapping 0.0038 re_causal 0.0117 /// teacc 99.04 lr 0.00001000
+Epoch 472, weight, value: tensor([[-0.0766, -0.1090, -0.1547,  ...,  0.1267, -0.0670,  0.0375],
+        [-0.0949,  0.1129, -0.0589,  ...,  0.0516, -0.0634, -0.0975],
+        [-0.0387,  0.0889, -0.1341,  ..., -0.0202,  0.0418,  0.1250],
+        ...,
+        [ 0.0026,  0.0746,  0.0013,  ..., -0.0249,  0.0337, -0.0849],
+        [ 0.1028, -0.1209,  0.0466,  ...,  0.0207,  0.0099, -0.0373],
+        [-0.0131, -0.0890,  0.0742,  ..., -0.0989,  0.0340, -0.0301]],
+       device='cuda:0'), grad: tensor([[ 6.6340e-05,  3.0428e-05, -4.3983e-03,  ..., -2.3937e-03,
+         -1.8549e-03,  2.5421e-05],
+        [-2.2483e-04, -8.4639e-04,  4.6825e-04,  ..., -5.3310e-04,
+          2.3353e-04,  1.4149e-05],
+        [ 2.0218e-04,  2.8467e-04,  2.6679e-04,  ...,  2.4533e-04,
+          2.6369e-04, -1.7250e-04],
+        ...,
+        [ 1.8716e-04, -1.5574e-03,  1.1463e-03,  ...,  6.6185e-04,
+         -1.3924e-03, -1.2531e-03],
+        [ 9.4509e-04,  9.7871e-05,  1.8444e-03,  ...,  6.2323e-04,
+          1.9464e-03,  6.6936e-05],
+        [-2.0428e-03, -7.0930e-05,  2.5291e-03,  ..., -3.4928e-04,
+         -1.7033e-03, -1.1170e-04]], device='cuda:0')
+Epoch 472, bias, value: tensor([ 0.0136, -0.0018, -0.0141,  0.0105, -0.0152, -0.0210,  0.0105, -0.0015,
+         0.0120, -0.0119], device='cuda:0'), grad: tensor([-0.0205,  0.0100, -0.0185,  0.0162,  0.0138,  0.0125, -0.0145,  0.0064,
+        -0.0073,  0.0020], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 471, time 217.18, cls_loss 0.4284 cls_loss_mapping 0.0007 cls_loss_causal 0.4002 re_mapping 0.0038 re_causal 0.0119 /// teacc 99.00 lr 0.00001000
+Epoch 473, weight, value: tensor([[-0.0765, -0.1091, -0.1547,  ...,  0.1267, -0.0669,  0.0374],
+        [-0.0951,  0.1129, -0.0589,  ...,  0.0515, -0.0633, -0.0976],
+        [-0.0386,  0.0889, -0.1341,  ..., -0.0203,  0.0419,  0.1252],
+        ...,
+        [ 0.0025,  0.0746,  0.0011,  ..., -0.0248,  0.0337, -0.0851],
+        [ 0.1029, -0.1211,  0.0465,  ...,  0.0208,  0.0099, -0.0374],
+        [-0.0132, -0.0890,  0.0742,  ..., -0.0990,  0.0340, -0.0301]],
+       device='cuda:0'), grad: tensor([[ 2.3773e-02,  1.4555e-04,  1.9813e-04,  ..., -3.0308e-03,
+         -4.4274e-04,  1.4544e-04],
+        [ 1.1368e-03, -1.3542e-03, -1.6289e-03,  ..., -2.1534e-03,
+          3.0488e-05,  1.3614e-04],
+        [-3.5954e-03, -4.9639e-04,  1.4353e-04,  ..., -1.2770e-03,
+          1.3280e-04,  2.0981e-04],
+        ...,
+        [ 2.7885e-03,  2.9159e-04,  3.7813e-04,  ..., -2.7671e-05,
+         -4.3064e-05, -7.5436e-04],
+        [ 5.0201e-03,  2.5749e-04,  5.7793e-04,  ...,  2.1896e-03,
+          6.1893e-04,  2.9230e-04],
+        [ 2.5291e-03,  1.8716e-04, -6.2752e-04,  ...,  5.7459e-04,
+         -3.2640e-04, -1.9372e-04]], device='cuda:0')
+Epoch 473, bias, value: tensor([ 0.0136, -0.0019, -0.0140,  0.0106, -0.0151, -0.0210,  0.0104, -0.0017,
+         0.0120, -0.0119], device='cuda:0'), grad: tensor([ 0.0014, -0.0216,  0.0002, -0.0055, -0.0055, -0.0150,  0.0046, -0.0073,
+         0.0362,  0.0126], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 472, time 216.44, cls_loss 0.4280 cls_loss_mapping 0.0007 cls_loss_causal 0.3978 re_mapping 0.0038 re_causal 0.0116 /// teacc 98.96 lr 0.00001000
+Epoch 474, weight, value: tensor([[-0.0764, -0.1091, -0.1546,  ...,  0.1267, -0.0669,  0.0373],
+        [-0.0952,  0.1127, -0.0588,  ...,  0.0515, -0.0631, -0.0976],
+        [-0.0385,  0.0890, -0.1340,  ..., -0.0203,  0.0420,  0.1252],
+        ...,
+        [ 0.0027,  0.0747,  0.0013,  ..., -0.0249,  0.0337, -0.0851],
+        [ 0.1029, -0.1211,  0.0467,  ...,  0.0209,  0.0101, -0.0372],
+        [-0.0132, -0.0890,  0.0742,  ..., -0.0991,  0.0338, -0.0301]],
+       device='cuda:0'), grad: tensor([[-9.3269e-04,  2.7609e-04,  3.2043e-04,  ...,  3.0537e-03,
+          3.3760e-03,  4.3368e-04],
+        [ 8.8043e-03,  3.0947e-04,  3.1304e-04,  ...,  1.1396e-03,
+          2.2173e-04,  2.4939e-04],
+        [ 5.7936e-04, -7.7581e-04,  2.0814e-04,  ...,  1.7433e-03,
+          1.8738e-02,  5.8222e-04],
+        ...,
+        [ 1.7273e-04,  2.5010e-04,  4.0817e-03,  ...,  2.0885e-03,
+          4.3602e-03,  3.7837e-04],
+        [ 7.1144e-04,  9.9361e-05, -7.3433e-03,  ..., -7.4692e-03,
+         -6.8817e-03, -2.7523e-03],
+        [-4.4785e-03,  1.4031e-04, -3.1357e-03,  ...,  3.4485e-03,
+         -1.2865e-03,  4.4656e-04]], device='cuda:0')
+Epoch 474, bias, value: tensor([ 0.0137, -0.0019, -0.0140,  0.0106, -0.0151, -0.0211,  0.0105, -0.0016,
+         0.0120, -0.0120], device='cuda:0'), grad: tensor([ 0.0195,  0.0222, -0.0140,  0.0193, -0.0051, -0.0072,  0.0038,  0.0036,
+        -0.0088, -0.0334], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 473, time 216.48, cls_loss 0.4671 cls_loss_mapping 0.0008 cls_loss_causal 0.4395 re_mapping 0.0037 re_causal 0.0119 /// teacc 98.94 lr 0.00001000
+Epoch 475, weight, value: tensor([[-0.0765, -0.1090, -0.1545,  ...,  0.1266, -0.0670,  0.0373],
+        [-0.0951,  0.1127, -0.0588,  ...,  0.0516, -0.0633, -0.0974],
+        [-0.0386,  0.0889, -0.1340,  ..., -0.0202,  0.0421,  0.1253],
+        ...,
+        [ 0.0027,  0.0748,  0.0012,  ..., -0.0249,  0.0336, -0.0852],
+        [ 0.1030, -0.1210,  0.0467,  ...,  0.0209,  0.0101, -0.0374],
+        [-0.0131, -0.0891,  0.0742,  ..., -0.0990,  0.0338, -0.0301]],
+       device='cuda:0'), grad: tensor([[ 5.1737e-05,  1.1349e-04,  5.5218e-04,  ..., -2.9621e-03,
+         -3.2623e-02,  4.1336e-05],
+        [ 2.2256e-04, -1.3626e-04,  2.7084e-04,  ..., -4.9858e-03,
+          8.0824e-05,  3.3081e-05],
+        [-2.4109e-02, -1.1272e-03, -6.8626e-03,  ..., -9.9087e-04,
+          9.1255e-05, -2.2614e-04],
+        ...,
+        [ 3.5610e-03,  3.0136e-04,  9.3555e-04,  ...,  1.8005e-03,
+         -9.3937e-05,  1.0389e-04],
+        [ 2.8920e-04,  2.0719e-04,  1.6463e-04,  ...,  2.9945e-03,
+          1.3924e-02,  5.2869e-05],
+        [ 1.1963e-02, -6.9714e-04,  3.9768e-04,  ...,  7.5960e-04,
+          7.7667e-03,  2.4185e-05]], device='cuda:0')
+Epoch 475, bias, value: tensor([ 0.0135, -0.0017, -0.0140,  0.0105, -0.0150, -0.0210,  0.0104, -0.0016,
+         0.0121, -0.0121], device='cuda:0'), grad: tensor([-0.0097, -0.0193, -0.0199, -0.0517,  0.0389,  0.0355, -0.0242,  0.0195,
+         0.0239,  0.0068], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 474, time 216.67, cls_loss 0.4345 cls_loss_mapping 0.0010 cls_loss_causal 0.4165 re_mapping 0.0037 re_causal 0.0110 /// teacc 98.99 lr 0.00001000
+Epoch 476, weight, value: tensor([[-0.0765, -0.1090, -0.1546,  ...,  0.1266, -0.0669,  0.0374],
+        [-0.0952,  0.1127, -0.0589,  ...,  0.0516, -0.0634, -0.0973],
+        [-0.0384,  0.0890, -0.1340,  ..., -0.0201,  0.0422,  0.1252],
+        ...,
+        [ 0.0027,  0.0748,  0.0011,  ..., -0.0250,  0.0333, -0.0853],
+        [ 0.1030, -0.1212,  0.0468,  ...,  0.0210,  0.0101, -0.0374],
+        [-0.0130, -0.0891,  0.0743,  ..., -0.0991,  0.0339, -0.0302]],
+       device='cuda:0'), grad: tensor([[ 1.2159e-05,  1.9401e-05,  2.4235e-04,  ..., -7.9727e-04,
+          1.4806e-04, -3.5930e-04],
+        [-1.5972e-06, -3.2969e-07,  5.1355e-04,  ...,  1.0414e-03,
+          2.0766e-04,  4.2349e-05],
+        [ 9.4795e-04,  3.2711e-03,  5.9986e-04,  ...,  7.9155e-04,
+          3.2282e-04,  1.3483e-04],
+        ...,
+        [-9.3269e-04, -3.2635e-03, -3.0594e-03,  ..., -4.8370e-03,
+         -1.5020e-03,  3.1769e-05],
+        [ 2.1815e-05,  3.3259e-05,  1.8396e-03,  ...,  1.2226e-03,
+          2.6751e-04,  4.4966e-04],
+        [ 7.4245e-06,  1.1072e-05, -3.1338e-03,  ...,  4.1938e-04,
+         -1.7052e-03,  5.7399e-05]], device='cuda:0')
+Epoch 476, bias, value: tensor([ 0.0135, -0.0017, -0.0140,  0.0106, -0.0149, -0.0209,  0.0104, -0.0017,
+         0.0120, -0.0121], device='cuda:0'), grad: tensor([ 0.0015, -0.0173,  0.0163,  0.0081,  0.0248, -0.0142,  0.0232, -0.0477,
+         0.0180, -0.0128], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 475, time 216.97, cls_loss 0.4248 cls_loss_mapping 0.0007 cls_loss_causal 0.3986 re_mapping 0.0037 re_causal 0.0113 /// teacc 99.01 lr 0.00001000
+Epoch 477, weight, value: tensor([[-0.0766, -0.1090, -0.1545,  ...,  0.1267, -0.0669,  0.0375],
+        [-0.0951,  0.1128, -0.0589,  ...,  0.0515, -0.0633, -0.0972],
+        [-0.0384,  0.0889, -0.1340,  ..., -0.0201,  0.0421,  0.1251],
+        ...,
+        [ 0.0029,  0.0750,  0.0011,  ..., -0.0250,  0.0333, -0.0853],
+        [ 0.1030, -0.1214,  0.0468,  ...,  0.0209,  0.0101, -0.0374],
+        [-0.0130, -0.0893,  0.0743,  ..., -0.0992,  0.0338, -0.0303]],
+       device='cuda:0'), grad: tensor([[ 1.5795e-04,  1.4222e-04, -1.4544e-05,  ..., -1.9646e-04,
+         -1.7655e-04, -5.5969e-05],
+        [ 3.9029e-04, -4.6682e-04,  7.1466e-05,  ...,  2.5511e-04,
+          2.6798e-04,  8.6129e-05],
+        [ 8.2493e-04,  2.8229e-03,  8.1205e-04,  ...,  3.6430e-03,
+          4.2343e-03,  1.3580e-03],
+        ...,
+        [ 2.2495e-04,  8.3160e-04,  3.0756e-04,  ...,  6.0606e-04,
+          6.2561e-04,  1.8752e-04],
+        [ 6.0081e-04,  7.2670e-04,  2.6155e-04,  ...,  1.0576e-03,
+          1.1787e-03,  3.6502e-04],
+        [-1.6113e-02, -4.3373e-03, -1.4830e-03,  ..., -5.1842e-03,
+         -6.4087e-03, -2.0790e-03]], device='cuda:0')
+Epoch 477, bias, value: tensor([ 0.0134, -0.0016, -0.0140,  0.0106, -0.0149, -0.0209,  0.0104, -0.0017,
+         0.0119, -0.0120], device='cuda:0'), grad: tensor([ 0.0064,  0.0081,  0.0235,  0.0324,  0.0069,  0.0045, -0.0246,  0.0108,
+        -0.0204, -0.0476], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 476, time 216.64, cls_loss 0.4620 cls_loss_mapping 0.0008 cls_loss_causal 0.4410 re_mapping 0.0037 re_causal 0.0118 /// teacc 98.95 lr 0.00001000
+Epoch 478, weight, value: tensor([[-0.0766, -0.1091, -0.1546,  ...,  0.1268, -0.0669,  0.0374],
+        [-0.0952,  0.1128, -0.0588,  ...,  0.0514, -0.0633, -0.0973],
+        [-0.0384,  0.0889, -0.1341,  ..., -0.0200,  0.0421,  0.1249],
+        ...,
+        [ 0.0028,  0.0750,  0.0012,  ..., -0.0251,  0.0333, -0.0852],
+        [ 0.1030, -0.1214,  0.0468,  ...,  0.0208,  0.0101, -0.0374],
+        [-0.0131, -0.0894,  0.0743,  ..., -0.0992,  0.0338, -0.0304]],
+       device='cuda:0'), grad: tensor([[ 3.2401e-04,  2.0468e-04,  2.2197e-04,  ..., -9.5825e-03,
+         -2.9349e-04,  2.1124e-04],
+        [-5.2166e-04, -2.6965e-04,  6.6876e-05,  ...,  1.8513e-04,
+          3.1441e-05,  5.8949e-05],
+        [ 5.3912e-05, -1.2565e-04,  1.6959e-06,  ...,  1.4370e-06,
+         -3.8934e-04, -4.6921e-04],
+        ...,
+        [ 1.0008e-04,  6.5744e-05,  2.7753e-06,  ...,  8.7738e-03,
+          2.5711e-03, -8.9550e-04],
+        [ 5.5939e-05, -6.2287e-05,  2.9922e-04,  ...,  1.6534e-04,
+          3.7479e-03,  9.8348e-05],
+        [ 1.6853e-05,  1.1481e-05, -4.8637e-04,  ...,  2.0099e-04,
+         -6.1226e-03,  9.6202e-05]], device='cuda:0')
+Epoch 478, bias, value: tensor([ 0.0133, -0.0016, -0.0140,  0.0107, -0.0149, -0.0209,  0.0103, -0.0015,
+         0.0118, -0.0121], device='cuda:0'), grad: tensor([ 0.0015,  0.0131,  0.0094,  0.0129,  0.0114, -0.0483,  0.0133, -0.0352,
+         0.0115,  0.0105], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 477, time 216.88, cls_loss 0.4565 cls_loss_mapping 0.0008 cls_loss_causal 0.4330 re_mapping 0.0038 re_causal 0.0117 /// teacc 98.97 lr 0.00001000
+Epoch 479, weight, value: tensor([[-0.0766, -0.1091, -0.1547,  ...,  0.1269, -0.0669,  0.0373],
+        [-0.0952,  0.1128, -0.0588,  ...,  0.0514, -0.0633, -0.0973],
+        [-0.0383,  0.0889, -0.1341,  ..., -0.0198,  0.0422,  0.1250],
+        ...,
+        [ 0.0029,  0.0748,  0.0011,  ..., -0.0252,  0.0333, -0.0853],
+        [ 0.1029, -0.1214,  0.0467,  ...,  0.0207,  0.0101, -0.0374],
+        [-0.0133, -0.0892,  0.0741,  ..., -0.0995,  0.0336, -0.0304]],
+       device='cuda:0'), grad: tensor([[ 7.7057e-04,  2.1038e-03,  1.1182e-04,  ...,  5.3062e-03,
+          1.2636e-04,  2.9489e-05],
+        [ 1.5535e-03,  1.6632e-03,  1.1218e-04,  ..., -4.5929e-03,
+          1.0270e-04, -1.6242e-05],
+        [ 2.4128e-03, -4.7531e-03,  1.0180e-04,  ..., -9.0942e-03,
+          3.2711e-04,  1.1139e-03],
+        ...,
+        [ 3.3684e-03,  5.2786e-04,  3.6263e-04,  ...,  1.0824e-03,
+          1.4389e-04,  4.5151e-06],
+        [-1.4015e-02, -1.6022e-03,  1.5903e-04,  ...,  2.7695e-03,
+         -8.8513e-05,  8.1956e-05],
+        [ 3.1204e-03,  4.3416e-04, -6.1655e-04,  ...,  7.5531e-04,
+         -2.4581e-04,  4.1947e-06]], device='cuda:0')
+Epoch 479, bias, value: tensor([ 0.0133, -0.0017, -0.0139,  0.0107, -0.0147, -0.0210,  0.0104, -0.0016,
+         0.0117, -0.0121], device='cuda:0'), grad: tensor([-0.0019, -0.0310, -0.0187, -0.0163,  0.0042, -0.0172,  0.0294,  0.0269,
+         0.0029,  0.0216], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 478, time 217.01, cls_loss 0.4187 cls_loss_mapping 0.0007 cls_loss_causal 0.3959 re_mapping 0.0037 re_causal 0.0112 /// teacc 98.97 lr 0.00001000
+Epoch 480, weight, value: tensor([[-0.0767, -0.1093, -0.1548,  ...,  0.1268, -0.0670,  0.0372],
+        [-0.0951,  0.1127, -0.0587,  ...,  0.0514, -0.0630, -0.0971],
+        [-0.0382,  0.0890, -0.1341,  ..., -0.0197,  0.0421,  0.1251],
+        ...,
+        [ 0.0027,  0.0748,  0.0011,  ..., -0.0251,  0.0333, -0.0853],
+        [ 0.1031, -0.1213,  0.0468,  ...,  0.0207,  0.0101, -0.0374],
+        [-0.0133, -0.0892,  0.0740,  ..., -0.0996,  0.0335, -0.0305]],
+       device='cuda:0'), grad: tensor([[ 7.3314e-05,  1.3375e-04,  7.1488e-06,  ..., -3.9673e-04,
+         -3.3450e-04, -3.7527e-04],
+        [ 2.0313e-03,  1.1320e-03,  7.6151e-04,  ...,  9.3985e-04,
+          1.5247e-04,  2.6509e-05],
+        [ 9.4032e-04, -7.0763e-04,  8.0776e-04,  ...,  4.8566e-04,
+          4.5252e-04,  1.1396e-04],
+        ...,
+        [-9.4986e-03, -3.8853e-03, -4.0054e-03,  ..., -4.4594e-03,
+         -1.0157e-03,  1.3256e-04],
+        [ 1.0757e-03,  7.6866e-04,  1.2197e-03,  ...,  1.0786e-03,
+          2.5362e-05,  1.1754e-04],
+        [ 9.6416e-04,  4.7255e-04, -2.2907e-03,  ..., -8.4829e-04,
+         -1.7233e-03, -1.0214e-03]], device='cuda:0')
+Epoch 480, bias, value: tensor([ 0.0132, -0.0017, -0.0137,  0.0106, -0.0147, -0.0210,  0.0103, -0.0015,
+         0.0116, -0.0120], device='cuda:0'), grad: tensor([-0.0238,  0.0259, -0.0387,  0.0192,  0.0307,  0.0133, -0.0154, -0.0309,
+         0.0180,  0.0016], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 479, time 216.81, cls_loss 0.4221 cls_loss_mapping 0.0007 cls_loss_causal 0.3848 re_mapping 0.0037 re_causal 0.0113 /// teacc 98.99 lr 0.00001000
+Epoch 481, weight, value: tensor([[-0.0767, -0.1094, -0.1548,  ...,  0.1267, -0.0670,  0.0371],
+        [-0.0950,  0.1129, -0.0585,  ...,  0.0515, -0.0628, -0.0972],
+        [-0.0382,  0.0890, -0.1342,  ..., -0.0198,  0.0421,  0.1251],
+        ...,
+        [ 0.0026,  0.0747,  0.0012,  ..., -0.0251,  0.0333, -0.0853],
+        [ 0.1031, -0.1213,  0.0469,  ...,  0.0209,  0.0102, -0.0373],
+        [-0.0134, -0.0890,  0.0740,  ..., -0.0994,  0.0334, -0.0306]],
+       device='cuda:0'), grad: tensor([[ 9.9182e-04,  3.1137e-04,  1.2150e-03,  ...,  2.3956e-03,
+          1.0366e-03,  8.3017e-04],
+        [-5.8556e-03, -6.7253e-03, -1.4267e-03,  ..., -1.9503e-03,
+          1.8156e-04,  2.3234e-04],
+        [ 3.6106e-03,  2.5997e-03,  5.9271e-04,  ...,  1.8797e-03,
+          5.3465e-05, -1.4973e-03],
+        ...,
+        [ 7.4768e-04,  1.1806e-03,  4.7135e-04,  ...,  5.7268e-04,
+         -2.3613e-03,  4.3821e-04],
+        [ 9.6178e-04,  7.6914e-04,  1.3447e-03,  ...,  1.7138e-03,
+          9.3985e-04,  1.1721e-03],
+        [-2.6207e-03,  2.4939e-04, -5.3711e-03,  ...,  4.5091e-05,
+         -3.5858e-03, -1.2569e-03]], device='cuda:0')
+Epoch 481, bias, value: tensor([ 0.0132, -0.0018, -0.0137,  0.0107, -0.0148, -0.0211,  0.0104, -0.0013,
+         0.0117, -0.0121], device='cuda:0'), grad: tensor([ 0.0280, -0.0081,  0.0223, -0.0287, -0.0003, -0.0323,  0.0287,  0.0203,
+         0.0225, -0.0525], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 480, time 216.92, cls_loss 0.4190 cls_loss_mapping 0.0007 cls_loss_causal 0.3968 re_mapping 0.0037 re_causal 0.0112 /// teacc 99.00 lr 0.00001000
+Epoch 482, weight, value: tensor([[-0.0767, -0.1095, -0.1548,  ...,  0.1267, -0.0670,  0.0372],
+        [-0.0950,  0.1129, -0.0583,  ...,  0.0515, -0.0627, -0.0971],
+        [-0.0382,  0.0890, -0.1344,  ..., -0.0198,  0.0422,  0.1252],
+        ...,
+        [ 0.0026,  0.0747,  0.0011,  ..., -0.0252,  0.0334, -0.0853],
+        [ 0.1031, -0.1215,  0.0468,  ...,  0.0209,  0.0102, -0.0375],
+        [-0.0135, -0.0890,  0.0742,  ..., -0.0993,  0.0334, -0.0307]],
+       device='cuda:0'), grad: tensor([[-8.3113e-04,  1.1891e-04, -1.5297e-03,  ..., -1.0757e-03,
+         -2.5425e-03, -1.3494e-03],
+        [-2.1529e-04, -6.2370e-04, -1.7858e-04,  ..., -9.7942e-04,
+          5.9139e-07,  3.5344e-07],
+        [-4.4022e-03, -3.1166e-03,  3.5614e-05,  ..., -1.1368e-03,
+         -9.2447e-05, -9.4056e-05],
+        ...,
+        [ 1.9131e-03,  7.6056e-04, -1.2093e-03,  ...,  1.1330e-03,
+          1.0198e-04,  7.4089e-05],
+        [-1.3504e-03,  4.2939e-04,  2.2244e-04,  ...,  1.7190e-04,
+          2.3052e-05,  2.1741e-05],
+        [ 1.2627e-03,  1.2465e-03, -2.1482e-04,  ...,  2.5201e-04,
+         -4.4703e-04,  1.9632e-06]], device='cuda:0')
+Epoch 482, bias, value: tensor([ 0.0133, -0.0017, -0.0139,  0.0108, -0.0147, -0.0210,  0.0103, -0.0013,
+         0.0116, -0.0122], device='cuda:0'), grad: tensor([-0.0015,  0.0223, -0.0486,  0.0018,  0.0208,  0.0162, -0.0064, -0.0230,
+        -0.0155,  0.0338], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 481, time 217.17, cls_loss 0.4294 cls_loss_mapping 0.0007 cls_loss_causal 0.4053 re_mapping 0.0037 re_causal 0.0115 /// teacc 99.01 lr 0.00001000
+Epoch 483, weight, value: tensor([[-0.0766, -0.1095, -0.1547,  ...,  0.1266, -0.0669,  0.0373],
+        [-0.0950,  0.1128, -0.0583,  ...,  0.0514, -0.0626, -0.0971],
+        [-0.0381,  0.0889, -0.1343,  ..., -0.0197,  0.0423,  0.1252],
+        ...,
+        [ 0.0025,  0.0748,  0.0012,  ..., -0.0251,  0.0335, -0.0853],
+        [ 0.1031, -0.1214,  0.0469,  ...,  0.0210,  0.0101, -0.0377],
+        [-0.0136, -0.0890,  0.0740,  ..., -0.0995,  0.0333, -0.0306]],
+       device='cuda:0'), grad: tensor([[ 3.5018e-07,  1.4365e-04, -1.9610e-05,  ...,  1.3125e-04,
+          3.2115e-04, -2.2519e-04],
+        [-1.3761e-05,  3.8552e-04,  2.2209e-04,  ...,  2.2392e-03,
+          3.7766e-03,  7.0751e-05],
+        [ 3.2689e-06,  1.8251e-04, -1.1414e-04,  ..., -4.5433e-03,
+         -9.4147e-03,  1.1986e-04],
+        ...,
+        [ 1.7546e-06, -2.7180e-04, -6.5267e-06,  ...,  5.5742e-04,
+          9.8801e-04,  6.1393e-05],
+        [ 4.6678e-06, -1.2999e-03,  1.1700e-04,  ..., -1.1950e-03,
+          6.3896e-04, -3.3545e-04],
+        [ 3.3285e-06,  2.3293e-04,  3.3498e-05,  ...,  7.2002e-04,
+          7.5531e-04,  5.5641e-05]], device='cuda:0')
+Epoch 483, bias, value: tensor([ 0.0133, -0.0017, -0.0138,  0.0107, -0.0148, -0.0211,  0.0104, -0.0013,
+         0.0117, -0.0123], device='cuda:0'), grad: tensor([ 0.0078,  0.0199, -0.0152, -0.0190,  0.0173,  0.0074, -0.0182,  0.0101,
+        -0.0210,  0.0110], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 482, time 217.19, cls_loss 0.4416 cls_loss_mapping 0.0007 cls_loss_causal 0.4131 re_mapping 0.0037 re_causal 0.0117 /// teacc 99.01 lr 0.00001000
+Epoch 484, weight, value: tensor([[-0.0766, -0.1096, -0.1547,  ...,  0.1265, -0.0669,  0.0374],
+        [-0.0951,  0.1127, -0.0585,  ...,  0.0513, -0.0627, -0.0971],
+        [-0.0380,  0.0890, -0.1342,  ..., -0.0196,  0.0423,  0.1251],
+        ...,
+        [ 0.0025,  0.0748,  0.0012,  ..., -0.0251,  0.0334, -0.0854],
+        [ 0.1031, -0.1214,  0.0470,  ...,  0.0211,  0.0102, -0.0377],
+        [-0.0135, -0.0889,  0.0741,  ..., -0.0994,  0.0333, -0.0306]],
+       device='cuda:0'), grad: tensor([[ 6.0892e-04,  3.0063e-06,  8.2111e-04,  ...,  2.7561e-04,
+          1.1864e-03, -6.9737e-06],
+        [-2.7256e-03,  3.1137e-04, -8.2493e-05,  ...,  4.6778e-04,
+         -2.7142e-03, -6.5565e-04],
+        [ 2.6181e-05, -7.4673e-04, -3.8035e-06,  ..., -3.5973e-03,
+          6.2513e-04, -1.7843e-03],
+        ...,
+        [-8.9169e-04,  4.9057e-03,  3.4275e-03,  ...,  5.6314e-04,
+          2.3003e-03,  6.3992e-04],
+        [ 1.6394e-03,  2.7537e-05,  8.3065e-04,  ...,  5.4264e-04,
+         -2.5711e-03,  2.7847e-04],
+        [-2.1057e-03, -4.6120e-03,  4.9686e-04,  ..., -1.2624e-04,
+          9.2125e-04,  2.5177e-04]], device='cuda:0')
+Epoch 484, bias, value: tensor([ 0.0134, -0.0018, -0.0137,  0.0106, -0.0148, -0.0210,  0.0103, -0.0013,
+         0.0117, -0.0122], device='cuda:0'), grad: tensor([-0.0070, -0.0099, -0.0136,  0.0435, -0.0093, -0.0143, -0.0135,  0.0185,
+        -0.0023,  0.0079], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 483, time 217.06, cls_loss 0.4524 cls_loss_mapping 0.0007 cls_loss_causal 0.4251 re_mapping 0.0039 re_causal 0.0122 /// teacc 99.00 lr 0.00001000
+Epoch 485, weight, value: tensor([[-0.0767, -0.1094, -0.1546,  ...,  0.1265, -0.0669,  0.0372],
+        [-0.0950,  0.1128, -0.0584,  ...,  0.0513, -0.0626, -0.0970],
+        [-0.0380,  0.0889, -0.1342,  ..., -0.0198,  0.0422,  0.1251],
+        ...,
+        [ 0.0024,  0.0749,  0.0011,  ..., -0.0251,  0.0334, -0.0855],
+        [ 0.1032, -0.1215,  0.0469,  ...,  0.0211,  0.0102, -0.0378],
+        [-0.0136, -0.0890,  0.0741,  ..., -0.0994,  0.0333, -0.0305]],
+       device='cuda:0'), grad: tensor([[ 3.4022e-04,  8.4117e-06,  2.5317e-05,  ...,  5.5265e-04,
+          2.6330e-05,  2.7514e-04],
+        [ 2.4033e-04, -9.2149e-05, -2.1048e-07,  ...,  3.8981e-04,
+          6.7651e-06,  1.9228e-04],
+        [ 1.3018e-04, -8.9034e-06,  8.4415e-06,  ..., -1.5163e-03,
+          1.5214e-05, -1.7655e-04],
+        ...,
+        [ 1.3638e-04, -9.1195e-05,  6.2250e-06,  ...,  2.9278e-04,
+          6.8434e-06,  1.2302e-04],
+        [ 1.7178e-04,  3.3975e-05, -4.5037e-04,  ...,  2.4796e-04,
+         -2.0361e-04,  4.6879e-05],
+        [ 1.3220e-04,  4.9055e-05,  2.1374e-04,  ...,  3.9458e-04,
+          1.4913e-04,  1.8513e-04]], device='cuda:0')
+Epoch 485, bias, value: tensor([ 0.0134, -0.0017, -0.0137,  0.0106, -0.0148, -0.0210,  0.0103, -0.0013,
+         0.0116, -0.0122], device='cuda:0'), grad: tensor([ 0.0117,  0.0103, -0.0234, -0.0275,  0.0075,  0.0121,  0.0152,  0.0081,
+         0.0080, -0.0220], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 484, time 217.09, cls_loss 0.4348 cls_loss_mapping 0.0007 cls_loss_causal 0.4069 re_mapping 0.0036 re_causal 0.0116 /// teacc 98.99 lr 0.00001000
+Epoch 486, weight, value: tensor([[-0.0767, -0.1094, -0.1546,  ...,  0.1265, -0.0669,  0.0374],
+        [-0.0950,  0.1128, -0.0583,  ...,  0.0513, -0.0625, -0.0972],
+        [-0.0379,  0.0889, -0.1343,  ..., -0.0199,  0.0421,  0.1251],
+        ...,
+        [ 0.0024,  0.0749,  0.0010,  ..., -0.0251,  0.0335, -0.0856],
+        [ 0.1031, -0.1217,  0.0470,  ...,  0.0210,  0.0103, -0.0378],
+        [-0.0136, -0.0889,  0.0741,  ..., -0.0993,  0.0332, -0.0307]],
+       device='cuda:0'), grad: tensor([[-2.4433e-03,  2.9874e-04, -6.6683e-06,  ..., -3.0160e-04,
+          1.9991e-04,  3.2949e-04],
+        [ 4.8113e-04,  2.0182e-04, -8.4972e-04,  ...,  8.9884e-04,
+          1.7035e-04,  3.1447e-04],
+        [ 4.1270e-04,  1.4334e-03,  1.0777e-04,  ...,  2.4872e-03,
+          9.6416e-04,  2.0561e-03],
+        ...,
+        [ 4.1962e-04,  1.6365e-03, -5.1346e-03,  ...,  1.5430e-03,
+         -6.4087e-03,  2.9945e-03],
+        [ 2.7704e-04,  2.6965e-04,  5.2214e-05,  ...,  6.6805e-04,
+          2.0635e-04,  4.0674e-04],
+        [ 4.2748e-04,  2.3592e-04,  3.7346e-03,  ..., -1.3037e-03,
+          5.0240e-03,  2.9135e-04]], device='cuda:0')
+Epoch 486, bias, value: tensor([ 0.0136, -0.0018, -0.0137,  0.0106, -0.0148, -0.0210,  0.0102, -0.0014,
+         0.0115, -0.0121], device='cuda:0'), grad: tensor([-0.0237, -0.0153,  0.0197,  0.0249,  0.0318, -0.0530,  0.0062,  0.0046,
+         0.0080, -0.0032], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 485, time 216.70, cls_loss 0.4412 cls_loss_mapping 0.0007 cls_loss_causal 0.4085 re_mapping 0.0037 re_causal 0.0114 /// teacc 98.94 lr 0.00001000
+Epoch 487, weight, value: tensor([[-0.0767, -0.1095, -0.1546,  ...,  0.1265, -0.0669,  0.0373],
+        [-0.0950,  0.1129, -0.0583,  ...,  0.0513, -0.0626, -0.0970],
+        [-0.0379,  0.0889, -0.1342,  ..., -0.0198,  0.0423,  0.1252],
+        ...,
+        [ 0.0024,  0.0748,  0.0011,  ..., -0.0251,  0.0334, -0.0857],
+        [ 0.1031, -0.1217,  0.0472,  ...,  0.0210,  0.0103, -0.0379],
+        [-0.0136, -0.0889,  0.0740,  ..., -0.0992,  0.0331, -0.0308]],
+       device='cuda:0'), grad: tensor([[-8.4257e-04,  9.7677e-06, -5.0783e-04,  ...,  3.9911e-04,
+          5.5790e-05, -1.0433e-03],
+        [ 2.5797e-04,  3.3021e-05,  1.6212e-04,  ...,  5.9271e-04,
+          1.0741e-04,  1.0744e-05],
+        [-1.3866e-03, -4.0007e-04, -1.5230e-03,  ..., -2.0599e-03,
+         -1.0290e-03, -2.8126e-06],
+        ...,
+        [ 3.1686e-04, -2.3091e-04,  2.5225e-04,  ..., -6.9904e-04,
+          2.9683e-04,  1.6183e-05],
+        [ 6.0558e-04,  1.0538e-04,  4.0746e-04,  ...,  8.7214e-04,
+          2.7442e-04,  1.4615e-04],
+        [-1.1492e-03,  2.6536e-04, -1.6749e-04,  ...,  5.1165e-04,
+         -2.4581e-04,  8.9049e-05]], device='cuda:0')
+Epoch 487, bias, value: tensor([ 0.0136, -0.0019, -0.0136,  0.0107, -0.0149, -0.0209,  0.0102, -0.0014,
+         0.0115, -0.0122], device='cuda:0'), grad: tensor([-0.0069,  0.0127, -0.0128, -0.0077, -0.0157,  0.0185,  0.0229, -0.0154,
+         0.0201, -0.0155], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 486, time 217.20, cls_loss 0.4590 cls_loss_mapping 0.0009 cls_loss_causal 0.4301 re_mapping 0.0036 re_causal 0.0111 /// teacc 99.02 lr 0.00001000
+Epoch 488, weight, value: tensor([[-0.0767, -0.1095, -0.1547,  ...,  0.1264, -0.0669,  0.0374],
+        [-0.0950,  0.1129, -0.0583,  ...,  0.0513, -0.0625, -0.0971],
+        [-0.0381,  0.0890, -0.1343,  ..., -0.0199,  0.0422,  0.1251],
+        ...,
+        [ 0.0024,  0.0747,  0.0013,  ..., -0.0250,  0.0335, -0.0858],
+        [ 0.1031, -0.1218,  0.0471,  ...,  0.0209,  0.0103, -0.0379],
+        [-0.0136, -0.0888,  0.0739,  ..., -0.0993,  0.0331, -0.0307]],
+       device='cuda:0'), grad: tensor([[ 5.8889e-05,  1.9693e-04,  5.3549e-04,  ...,  1.1129e-03,
+          7.1144e-04,  4.2772e-04],
+        [ 2.2042e-04,  6.9952e-04,  6.0034e-04,  ...,  1.2703e-03,
+          2.2709e-04,  5.5075e-04],
+        [ 5.6028e-04,  1.7014e-03,  1.3580e-03,  ...,  3.3092e-03,
+          6.5088e-04,  1.5240e-03],
+        ...,
+        [-3.3784e-04,  9.3412e-04, -6.0539e-03,  ..., -2.3575e-03,
+         -2.5406e-03, -1.1234e-03],
+        [-1.3762e-03, -3.8738e-03,  3.2864e-03,  ..., -5.8022e-03,
+          7.8278e-03, -2.8839e-03],
+        [ 2.0993e-04,  2.9469e-04, -4.5891e-03,  ...,  6.5470e-04,
+         -1.0582e-02,  2.7251e-04]], device='cuda:0')
+Epoch 488, bias, value: tensor([ 0.0136, -0.0020, -0.0138,  0.0107, -0.0148, -0.0208,  0.0102, -0.0013,
+         0.0115, -0.0122], device='cuda:0'), grad: tensor([ 0.0102,  0.0086,  0.0205,  0.0096,  0.0147, -0.0139,  0.0118, -0.0541,
+        -0.0197,  0.0123], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 487, time 216.65, cls_loss 0.4613 cls_loss_mapping 0.0008 cls_loss_causal 0.4362 re_mapping 0.0036 re_causal 0.0119 /// teacc 99.01 lr 0.00001000
+Epoch 489, weight, value: tensor([[-0.0770, -0.1094, -0.1548,  ...,  0.1266, -0.0671,  0.0374],
+        [-0.0952,  0.1127, -0.0583,  ...,  0.0510, -0.0626, -0.0971],
+        [-0.0380,  0.0889, -0.1345,  ..., -0.0197,  0.0423,  0.1251],
+        ...,
+        [ 0.0024,  0.0749,  0.0014,  ..., -0.0250,  0.0336, -0.0857],
+        [ 0.1033, -0.1217,  0.0470,  ...,  0.0208,  0.0102, -0.0377],
+        [-0.0137, -0.0887,  0.0739,  ..., -0.0992,  0.0331, -0.0306]],
+       device='cuda:0'), grad: tensor([[-4.1389e-04,  5.7042e-05, -1.2522e-03,  ..., -3.6508e-05,
+          2.2456e-05,  8.8632e-05],
+        [ 2.3723e-04,  1.1611e-04,  1.7309e-04,  ...,  1.9467e-04,
+          7.6413e-05,  5.1081e-05],
+        [ 2.6989e-04,  1.4953e-05,  6.9261e-05,  ...,  3.8409e-04,
+         -1.1978e-03,  2.0480e-04],
+        ...,
+        [-5.5170e-04, -1.4153e-03, -6.9678e-05,  ..., -5.3406e-04,
+         -4.1437e-04,  7.5996e-05],
+        [-1.3008e-03,  6.6328e-04,  1.5676e-04,  ...,  4.1080e-04,
+          1.2779e-04,  3.0446e-04],
+        [ 3.5977e-04,  2.9969e-04,  2.2018e-04,  ...,  3.4142e-04,
+          9.7394e-05,  1.0502e-04]], device='cuda:0')
+Epoch 489, bias, value: tensor([ 0.0135, -0.0021, -0.0138,  0.0107, -0.0148, -0.0208,  0.0103, -0.0013,
+         0.0117, -0.0122], device='cuda:0'), grad: tensor([-0.0280,  0.0047,  0.0038, -0.0196,  0.0057,  0.0145,  0.0046, -0.0012,
+         0.0083,  0.0073], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 488, time 217.03, cls_loss 0.4089 cls_loss_mapping 0.0006 cls_loss_causal 0.3778 re_mapping 0.0037 re_causal 0.0111 /// teacc 98.99 lr 0.00001000
+Epoch 490, weight, value: tensor([[-0.0769, -0.1094, -0.1549,  ...,  0.1265, -0.0672,  0.0375],
+        [-0.0953,  0.1127, -0.0584,  ...,  0.0510, -0.0626, -0.0971],
+        [-0.0379,  0.0889, -0.1344,  ..., -0.0197,  0.0423,  0.1251],
+        ...,
+        [ 0.0024,  0.0748,  0.0015,  ..., -0.0250,  0.0337, -0.0858],
+        [ 0.1032, -0.1218,  0.0471,  ...,  0.0209,  0.0103, -0.0376],
+        [-0.0137, -0.0886,  0.0739,  ..., -0.0991,  0.0331, -0.0305]],
+       device='cuda:0'), grad: tensor([[ 1.0424e-03,  9.7215e-05,  6.2895e-04,  ...,  1.6537e-03,
+          2.1305e-03,  3.3951e-04],
+        [ 2.4128e-03, -2.1648e-03,  2.5845e-04,  ..., -9.4175e-04,
+          9.0694e-04,  1.7679e-04],
+        [ 1.8158e-03,  2.9826e-04,  7.4339e-04,  ..., -6.6605e-03,
+         -2.0714e-03, -1.9817e-03],
+        ...,
+        [-1.9562e-02,  2.3913e-04,  5.3558e-03,  ...,  1.3089e-04,
+          1.4679e-02,  2.3866e-04],
+        [ 5.2490e-03,  2.1100e-04,  1.7347e-03,  ...,  1.7252e-03,
+          4.4823e-03,  4.5204e-04],
+        [ 2.0161e-03,  7.0095e-05, -1.0422e-02,  ..., -3.7422e-03,
+         -3.2410e-02, -1.1406e-03]], device='cuda:0')
+Epoch 490, bias, value: tensor([ 0.0134, -0.0021, -0.0138,  0.0106, -0.0147, -0.0209,  0.0104, -0.0014,
+         0.0117, -0.0120], device='cuda:0'), grad: tensor([ 0.0116,  0.0030,  0.0036,  0.0130,  0.0202,  0.0131, -0.0431, -0.0365,
+         0.0270, -0.0119], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 489, time 216.90, cls_loss 0.4760 cls_loss_mapping 0.0007 cls_loss_causal 0.4479 re_mapping 0.0036 re_causal 0.0120 /// teacc 98.96 lr 0.00001000
+Epoch 491, weight, value: tensor([[-0.0769, -0.1096, -0.1549,  ...,  0.1265, -0.0673,  0.0375],
+        [-0.0955,  0.1127, -0.0583,  ...,  0.0512, -0.0626, -0.0971],
+        [-0.0379,  0.0889, -0.1345,  ..., -0.0198,  0.0424,  0.1251],
+        ...,
+        [ 0.0028,  0.0749,  0.0015,  ..., -0.0250,  0.0336, -0.0859],
+        [ 0.1029, -0.1219,  0.0471,  ...,  0.0208,  0.0103, -0.0377],
+        [-0.0136, -0.0886,  0.0739,  ..., -0.0993,  0.0331, -0.0305]],
+       device='cuda:0'), grad: tensor([[ 2.3469e-07,  1.4566e-06,  1.8311e-04,  ...,  6.0987e-04,
+          1.1176e-07,  7.9162e-09],
+        [-1.0826e-05, -6.8426e-05,  1.1301e-04,  ...,  3.3736e-04,
+          4.6566e-07,  4.1910e-09],
+        [ 1.5004e-06,  8.6352e-06,  6.9886e-06,  ...,  2.1204e-05,
+          8.0168e-06,  4.5961e-07],
+        ...,
+        [ 2.7809e-06,  1.9610e-05,  1.9923e-05,  ...,  5.2422e-05,
+         -2.8871e-07,  3.7253e-09],
+        [ 1.5162e-06,  1.3433e-05,  1.1019e-05,  ...,  3.4660e-05,
+          2.9802e-08,  4.0513e-08],
+        [ 5.4901e-07,  2.6114e-06,  9.4175e-05,  ...,  1.4186e-04,
+          1.0421e-06,  2.5146e-08]], device='cuda:0')
+Epoch 491, bias, value: tensor([ 0.0135, -0.0020, -0.0138,  0.0105, -0.0146, -0.0207,  0.0102, -0.0014,
+         0.0116, -0.0121], device='cuda:0'), grad: tensor([ 0.0073,  0.0088,  0.0057, -0.0247,  0.0315, -0.0268,  0.0075, -0.0223,
+         0.0066,  0.0064], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 490, time 216.92, cls_loss 0.4402 cls_loss_mapping 0.0007 cls_loss_causal 0.4108 re_mapping 0.0036 re_causal 0.0113 /// teacc 98.97 lr 0.00001000
+Epoch 492, weight, value: tensor([[-0.0769, -0.1096, -0.1550,  ...,  0.1265, -0.0674,  0.0374],
+        [-0.0956,  0.1127, -0.0584,  ...,  0.0511, -0.0626, -0.0971],
+        [-0.0377,  0.0890, -0.1347,  ..., -0.0199,  0.0423,  0.1251],
+        ...,
+        [ 0.0026,  0.0750,  0.0016,  ..., -0.0250,  0.0336, -0.0858],
+        [ 0.1030, -0.1220,  0.0471,  ...,  0.0209,  0.0104, -0.0376],
+        [-0.0135, -0.0887,  0.0738,  ..., -0.0993,  0.0330, -0.0306]],
+       device='cuda:0'), grad: tensor([[ 1.1511e-03,  2.6941e-05,  7.8142e-05,  ...,  1.2856e-03,
+         -1.8206e-03, -2.7132e-04],
+        [ 1.1997e-03,  5.2166e-04,  3.1829e-04,  ...,  4.0245e-04,
+          2.4706e-05,  1.1867e-04],
+        [ 1.0550e-04,  1.5482e-05,  7.2122e-05,  ...,  1.6422e-03,
+          5.6219e-04,  2.4204e-03],
+        ...,
+        [ 7.1108e-05, -3.9029e-04, -1.5783e-03,  ...,  3.3689e-04,
+         -1.2390e-02,  2.4724e-04],
+        [ 1.5316e-03,  1.7774e-04,  4.7922e-04,  ...,  1.0490e-03,
+          1.3313e-03,  5.9223e-04],
+        [-4.0442e-05,  2.3678e-05,  1.5097e-03,  ...,  2.7847e-04,
+          1.2367e-02,  1.5163e-04]], device='cuda:0')
+Epoch 492, bias, value: tensor([ 0.0135, -0.0021, -0.0140,  0.0106, -0.0146, -0.0205,  0.0101, -0.0015,
+         0.0117, -0.0120], device='cuda:0'), grad: tensor([ 0.0175,  0.0187,  0.0267, -0.0469, -0.0164,  0.0403, -0.0555, -0.0225,
+         0.0174,  0.0207], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 491, time 216.97, cls_loss 0.4593 cls_loss_mapping 0.0007 cls_loss_causal 0.4275 re_mapping 0.0036 re_causal 0.0114 /// teacc 98.99 lr 0.00001000
+Epoch 493, weight, value: tensor([[-0.0769, -0.1097, -0.1549,  ...,  0.1265, -0.0674,  0.0375],
+        [-0.0954,  0.1127, -0.0583,  ...,  0.0513, -0.0626, -0.0972],
+        [-0.0377,  0.0890, -0.1347,  ..., -0.0198,  0.0423,  0.1251],
+        ...,
+        [ 0.0025,  0.0749,  0.0015,  ..., -0.0251,  0.0336, -0.0859],
+        [ 0.1030, -0.1220,  0.0471,  ...,  0.0208,  0.0104, -0.0376],
+        [-0.0135, -0.0887,  0.0737,  ..., -0.0994,  0.0329, -0.0307]],
+       device='cuda:0'), grad: tensor([[ 6.7091e-04,  1.3125e-04, -1.7798e-04,  ...,  1.8716e-04,
+         -1.3316e-04,  6.2466e-04],
+        [ 2.3976e-05,  8.7452e-04,  1.4091e-04,  ...,  5.1880e-04,
+          6.7651e-05,  2.7013e-04],
+        [ 6.2943e-05,  7.0381e-04,  2.1815e-04,  ...,  4.7421e-04,
+          2.5725e-04,  2.0230e-04],
+        ...,
+        [ 3.9600e-06, -5.7373e-03, -1.7462e-03,  ..., -3.0746e-03,
+         -2.2869e-03, -1.4277e-03],
+        [ 1.3387e-04,  1.3220e-04,  1.3983e-04,  ...,  1.5008e-04,
+          1.1206e-04,  1.0753e-04],
+        [ 9.4473e-05,  6.6710e-04,  3.3355e-04,  ...,  4.3797e-04,
+          5.4836e-04,  2.4164e-04]], device='cuda:0')
+Epoch 493, bias, value: tensor([ 0.0136, -0.0020, -0.0139,  0.0108, -0.0147, -0.0206,  0.0101, -0.0016,
+         0.0117, -0.0121], device='cuda:0'), grad: tensor([ 0.0195,  0.0218, -0.0777,  0.0288,  0.0274,  0.0040, -0.0009, -0.0534,
+         0.0124,  0.0181], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 492, time 216.78, cls_loss 0.4248 cls_loss_mapping 0.0007 cls_loss_causal 0.3947 re_mapping 0.0037 re_causal 0.0113 /// teacc 98.98 lr 0.00001000
+Epoch 494, weight, value: tensor([[-0.0769, -0.1098, -0.1549,  ...,  0.1266, -0.0674,  0.0377],
+        [-0.0955,  0.1128, -0.0582,  ...,  0.0514, -0.0625, -0.0972],
+        [-0.0376,  0.0891, -0.1347,  ..., -0.0197,  0.0423,  0.1251],
+        ...,
+        [ 0.0026,  0.0749,  0.0016,  ..., -0.0251,  0.0336, -0.0860],
+        [ 0.1031, -0.1220,  0.0472,  ...,  0.0207,  0.0104, -0.0376],
+        [-0.0135, -0.0887,  0.0737,  ..., -0.0994,  0.0330, -0.0306]],
+       device='cuda:0'), grad: tensor([[ 2.2794e-07,  9.6679e-05,  1.1854e-05,  ...,  1.4055e-04,
+          6.9290e-07,  6.7294e-05],
+        [ 2.9709e-06,  3.6788e-04,  4.7863e-05,  ...,  7.5579e-04,
+          1.2824e-06,  3.5262e-04],
+        [ 2.6822e-06, -1.8301e-03, -1.9014e-04,  ..., -2.9812e-03,
+          4.3847e-06, -1.4534e-03],
+        ...,
+        [-9.5461e-07,  6.2771e-06,  2.9415e-05,  ..., -1.9744e-07,
+          5.5097e-06,  5.8383e-05],
+        [ 6.4587e-07,  2.4748e-04,  2.5734e-05,  ...,  3.6597e-04,
+          2.7288e-06,  1.7214e-04],
+        [-1.1474e-05,  1.2517e-04, -4.5866e-05,  ...,  1.7238e-04,
+         -3.5435e-05,  5.9068e-05]], device='cuda:0')
+Epoch 494, bias, value: tensor([ 0.0137, -0.0018, -0.0138,  0.0107, -0.0149, -0.0206,  0.0099, -0.0016,
+         0.0116, -0.0120], device='cuda:0'), grad: tensor([ 0.0012,  0.0068, -0.0281,  0.0015,  0.0027,  0.0020,  0.0082,  0.0009,
+         0.0035,  0.0013], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 493, time 216.75, cls_loss 0.4298 cls_loss_mapping 0.0007 cls_loss_causal 0.3951 re_mapping 0.0037 re_causal 0.0113 /// teacc 99.01 lr 0.00001000
+Epoch 495, weight, value: tensor([[-0.0770, -0.1098, -0.1549,  ...,  0.1266, -0.0674,  0.0377],
+        [-0.0956,  0.1127, -0.0583,  ...,  0.0513, -0.0626, -0.0973],
+        [-0.0375,  0.0892, -0.1346,  ..., -0.0198,  0.0424,  0.1251],
+        ...,
+        [ 0.0025,  0.0749,  0.0016,  ..., -0.0252,  0.0336, -0.0861],
+        [ 0.1032, -0.1219,  0.0472,  ...,  0.0208,  0.0104, -0.0377],
+        [-0.0136, -0.0887,  0.0737,  ..., -0.0995,  0.0331, -0.0305]],
+       device='cuda:0'), grad: tensor([[ 3.8624e-04, -2.8877e-03, -1.6365e-03,  ...,  2.5654e-04,
+          4.8018e-04, -4.7913e-03],
+        [ 1.0198e-04,  2.6989e-04,  3.8242e-04,  ...,  4.1395e-05,
+          9.5665e-05,  4.6277e-04],
+        [-5.7125e-04,  2.1648e-03,  1.8330e-03,  ..., -7.7057e-04,
+         -8.2254e-04,  3.5629e-03],
+        ...,
+        [ 1.6201e-04,  4.9695e-06,  1.1826e-03,  ...,  6.2346e-05,
+          1.1474e-04,  9.8348e-06],
+        [-3.4370e-03,  1.9741e-04, -7.2527e-04,  ..., -1.1616e-03,
+          3.9177e-03,  3.1781e-04],
+        [ 2.0647e-04,  1.7464e-05,  1.0548e-03,  ...,  7.8678e-05,
+          1.9729e-04,  4.1723e-05]], device='cuda:0')
+Epoch 495, bias, value: tensor([ 0.0138, -0.0020, -0.0138,  0.0108, -0.0147, -0.0207,  0.0100, -0.0017,
+         0.0116, -0.0121], device='cuda:0'), grad: tensor([-0.0130,  0.0122,  0.0033,  0.0258,  0.0131,  0.0280, -0.0132, -0.0141,
+        -0.0265, -0.0155], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 494, time 217.23, cls_loss 0.4063 cls_loss_mapping 0.0007 cls_loss_causal 0.3774 re_mapping 0.0037 re_causal 0.0110 /// teacc 98.99 lr 0.00001000
+Epoch 496, weight, value: tensor([[-0.0771, -0.1097, -0.1550,  ...,  0.1266, -0.0674,  0.0376],
+        [-0.0955,  0.1127, -0.0583,  ...,  0.0514, -0.0626, -0.0974],
+        [-0.0375,  0.0894, -0.1348,  ..., -0.0198,  0.0423,  0.1253],
+        ...,
+        [ 0.0024,  0.0748,  0.0015,  ..., -0.0253,  0.0336, -0.0861],
+        [ 0.1032, -0.1219,  0.0472,  ...,  0.0209,  0.0104, -0.0377],
+        [-0.0138, -0.0888,  0.0738,  ..., -0.0996,  0.0331, -0.0304]],
+       device='cuda:0'), grad: tensor([[-6.5422e-04,  2.8200e-06, -1.7653e-03,  ..., -3.0975e-03,
+         -2.5139e-03, -9.8991e-04],
+        [ 9.4473e-05, -8.1730e-04,  1.0720e-06,  ..., -8.6486e-05,
+          8.4043e-06,  7.8678e-06],
+        [ 1.3661e-04,  7.3004e-04, -2.7299e-04,  ...,  2.6441e-04,
+          3.1561e-05, -6.7949e-05],
+        ...,
+        [ 1.1139e-03,  1.6260e-04,  6.9284e-04,  ...,  4.8399e-04,
+          5.6601e-04,  4.0680e-05],
+        [ 4.7326e-04,  2.0385e-05,  2.0647e-04,  ...,  2.7704e-04,
+          2.0027e-04,  9.4235e-05],
+        [-2.9354e-03, -1.9491e-04, -8.3256e-04,  ...,  4.7040e-04,
+         -2.8062e-04,  2.6441e-04]], device='cuda:0')
+Epoch 496, bias, value: tensor([ 0.0138, -0.0020, -0.0138,  0.0109, -0.0148, -0.0208,  0.0099, -0.0017,
+         0.0116, -0.0121], device='cuda:0'), grad: tensor([-0.0278, -0.0083,  0.0164,  0.0231, -0.0007,  0.0226, -0.0445,  0.0354,
+         0.0203, -0.0366], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 495, time 216.80, cls_loss 0.4374 cls_loss_mapping 0.0006 cls_loss_causal 0.4127 re_mapping 0.0037 re_causal 0.0118 /// teacc 99.00 lr 0.00001000
+Epoch 497, weight, value: tensor([[-0.0770, -0.1097, -0.1548,  ...,  0.1265, -0.0675,  0.0374],
+        [-0.0955,  0.1128, -0.0582,  ...,  0.0514, -0.0626, -0.0974],
+        [-0.0375,  0.0894, -0.1346,  ..., -0.0198,  0.0423,  0.1253],
+        ...,
+        [ 0.0023,  0.0747,  0.0015,  ..., -0.0254,  0.0335, -0.0860],
+        [ 0.1032, -0.1218,  0.0472,  ...,  0.0209,  0.0105, -0.0377],
+        [-0.0138, -0.0887,  0.0737,  ..., -0.0997,  0.0331, -0.0305]],
+       device='cuda:0'), grad: tensor([[ 1.2517e-04,  1.2106e-04,  1.6613e-03,  ...,  2.0771e-03,
+          1.6575e-03,  2.7990e-04],
+        [-7.5340e-04, -8.8835e-04,  2.0218e-04,  ..., -8.7509e-03,
+          1.6510e-04, -1.8053e-03],
+        [ 4.2129e-04,  3.9434e-04,  1.2457e-04,  ...,  4.2076e-03,
+          1.0616e-04,  8.7595e-04],
+        ...,
+        [-1.7667e-04,  1.9222e-05,  1.2924e-02,  ..., -4.1656e-03,
+          5.8098e-03,  1.7631e-04],
+        [ 8.9705e-05,  1.0449e-04,  2.3899e-03,  ...,  1.4763e-03,
+          1.9932e-03,  1.8942e-04],
+        [ 1.1188e-04,  9.7394e-05,  3.8055e-02,  ...,  1.2541e-03,
+          1.7319e-02,  1.3161e-04]], device='cuda:0')
+Epoch 497, bias, value: tensor([ 0.0137, -0.0019, -0.0139,  0.0108, -0.0147, -0.0207,  0.0099, -0.0018,
+         0.0116, -0.0120], device='cuda:0'), grad: tensor([ 0.0289, -0.0620,  0.0299,  0.0275, -0.1019, -0.0002, -0.0088,  0.0133,
+         0.0262,  0.0472], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 496, time 216.86, cls_loss 0.4354 cls_loss_mapping 0.0007 cls_loss_causal 0.4045 re_mapping 0.0036 re_causal 0.0114 /// teacc 99.02 lr 0.00001000
+Epoch 498, weight, value: tensor([[-0.0770, -0.1098, -0.1550,  ...,  0.1266, -0.0675,  0.0374],
+        [-0.0954,  0.1129, -0.0583,  ...,  0.0514, -0.0626, -0.0975],
+        [-0.0375,  0.0893, -0.1347,  ..., -0.0199,  0.0423,  0.1253],
+        ...,
+        [ 0.0025,  0.0747,  0.0016,  ..., -0.0254,  0.0335, -0.0862],
+        [ 0.1032, -0.1219,  0.0472,  ...,  0.0210,  0.0104, -0.0375],
+        [-0.0138, -0.0888,  0.0736,  ..., -0.0996,  0.0331, -0.0304]],
+       device='cuda:0'), grad: tensor([[ 1.0309e-03,  1.3962e-05,  4.2582e-04,  ...,  3.9363e-04,
+          5.6416e-05,  1.3041e-04],
+        [ 3.9363e-04,  6.0081e-04,  7.5400e-05,  ...,  5.5361e-04,
+          6.6519e-05,  9.4652e-05],
+        [-7.6389e-04, -6.7425e-04, -1.9526e-04,  ...,  1.0538e-03,
+          1.7014e-03,  1.6510e-04],
+        ...,
+        [ 3.4308e-04, -1.5366e-04,  2.2087e-03,  ..., -1.0691e-03,
+         -2.2564e-03,  9.4891e-05],
+        [ 2.4915e-04,  1.2890e-05,  2.6369e-04,  ...,  2.9421e-04,
+          2.0659e-04,  8.0705e-05],
+        [ 2.7871e-04, -2.9132e-05,  1.6190e-02,  ..., -1.5774e-03,
+         -1.6651e-03, -9.7656e-04]], device='cuda:0')
+Epoch 498, bias, value: tensor([ 0.0137, -0.0019, -0.0138,  0.0108, -0.0149, -0.0206,  0.0100, -0.0017,
+         0.0116, -0.0121], device='cuda:0'), grad: tensor([ 0.0010,  0.0270, -0.0221, -0.0269, -0.0132,  0.0292, -0.0132,  0.0067,
+        -0.0036,  0.0151], device='cuda:0')
+100
+1e-05
+changing lr
+---------------------saving model at epoch 497----------------------------------------------------
+epoch 497, time 217.27, cls_loss 0.4177 cls_loss_mapping 0.0007 cls_loss_causal 0.3929 re_mapping 0.0036 re_causal 0.0113 /// teacc 99.05 lr 0.00001000
+Epoch 499, weight, value: tensor([[-0.0768, -0.1097, -0.1550,  ...,  0.1265, -0.0677,  0.0373],
+        [-0.0953,  0.1128, -0.0580,  ...,  0.0517, -0.0624, -0.0974],
+        [-0.0376,  0.0892, -0.1347,  ..., -0.0200,  0.0423,  0.1253],
+        ...,
+        [ 0.0024,  0.0748,  0.0015,  ..., -0.0254,  0.0334, -0.0862],
+        [ 0.1032, -0.1220,  0.0475,  ...,  0.0211,  0.0106, -0.0375],
+        [-0.0137, -0.0888,  0.0736,  ..., -0.0998,  0.0331, -0.0305]],
+       device='cuda:0'), grad: tensor([[ 1.7223e-03,  3.6955e-04,  4.5371e-04,  ...,  1.6356e-03,
+          4.6134e-04,  1.1641e-04],
+        [-1.5001e-03, -7.5006e-04,  2.1374e-04,  ..., -3.1757e-03,
+         -1.7941e-04,  2.0806e-06],
+        [ 9.1457e-04,  2.5940e-04,  9.2745e-05,  ...,  5.2500e-04,
+          2.5368e-04,  9.1344e-06],
+        ...,
+        [-6.9160e-03, -3.3550e-03, -2.4796e-03,  ..., -9.5701e-04,
+         -2.1887e-04,  9.1409e-07],
+        [ 1.1005e-03,  3.1662e-04,  2.7633e-04,  ..., -1.0395e-03,
+          2.9039e-04,  2.3231e-05],
+        [ 3.5357e-04,  2.1820e-03,  3.8767e-04,  ...,  9.0933e-04,
+         -2.4910e-03,  1.5028e-05]], device='cuda:0')
+Epoch 499, bias, value: tensor([ 0.0137, -0.0018, -0.0138,  0.0108, -0.0149, -0.0205,  0.0101, -0.0019,
+         0.0117, -0.0121], device='cuda:0'), grad: tensor([ 0.0267, -0.0505,  0.0127,  0.0184,  0.0197, -0.0179,  0.0148, -0.0458,
+         0.0115,  0.0104], device='cuda:0')
+100
+1e-05
+changing lr
+---------------------saving model at epoch 498----------------------------------------------------
+epoch 498, time 217.80, cls_loss 0.4471 cls_loss_mapping 0.0006 cls_loss_causal 0.4126 re_mapping 0.0039 re_causal 0.0120 /// teacc 99.08 lr 0.00001000
+Epoch 500, weight, value: tensor([[-0.0767, -0.1097, -0.1550,  ...,  0.1265, -0.0676,  0.0373],
+        [-0.0954,  0.1128, -0.0580,  ...,  0.0517, -0.0625, -0.0975],
+        [-0.0373,  0.0893, -0.1346,  ..., -0.0199,  0.0423,  0.1254],
+        ...,
+        [ 0.0024,  0.0749,  0.0015,  ..., -0.0254,  0.0335, -0.0863],
+        [ 0.1032, -0.1220,  0.0475,  ...,  0.0211,  0.0106, -0.0376],
+        [-0.0138, -0.0888,  0.0737,  ..., -0.0998,  0.0333, -0.0304]],
+       device='cuda:0'), grad: tensor([[ 1.7738e-04,  7.3075e-05,  3.4899e-05,  ...,  1.3578e-04,
+         -1.0125e-05, -2.5891e-07],
+        [ 4.1056e-04,  1.2255e-04,  8.7857e-05,  ...,  2.1720e-04,
+          1.2899e-07,  9.7789e-09],
+        [ 4.1509e-04,  9.0182e-05,  4.8310e-05,  ...,  1.7345e-04,
+          5.4296e-07,  7.9535e-07],
+        ...,
+        [-4.5717e-05,  1.2338e-04,  2.3975e-03,  ...,  2.3627e-04,
+          7.1645e-05,  6.0536e-09],
+        [ 7.1573e-04, -7.1907e-04,  2.4748e-04,  ..., -1.3876e-03,
+          1.7554e-05, -4.4815e-06],
+        [ 3.2749e-03,  5.7250e-05,  3.2425e-03,  ...,  1.1986e-04,
+          2.3675e-04,  1.2480e-07]], device='cuda:0')
+Epoch 500, bias, value: tensor([ 0.0137, -0.0019, -0.0137,  0.0108, -0.0150, -0.0206,  0.0100, -0.0018,
+         0.0117, -0.0120], device='cuda:0'), grad: tensor([ 0.0096,  0.0131,  0.0141, -0.0019,  0.0072, -0.0065, -0.0220, -0.0092,
+        -0.0186,  0.0142], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 499, time 218.12, cls_loss 0.4205 cls_loss_mapping 0.0006 cls_loss_causal 0.3901 re_mapping 0.0039 re_causal 0.0116 /// teacc 99.03 lr 0.00001000
+---------------------saving last model at epoch 499----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps5_RA', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps5_RA/14factor_best.csv', 'channels': 3, 'factor_num': 14, 'stride': 3, 'epoch': 'best', 'eval_mapping': True}
+loading weight of best
+randm: False
+stride: 3
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+Using downloaded and verified file: /home/yuqian_fu/.pytorch/SVHN/test_32x32.mat
+                         mnist   mnist_FA  ...    usps_FA        Avg
+ShearX               98.849998  98.860001  ...  89.287498  76.723734
+ShearY               98.879997  98.889999  ...  89.287498  73.559136
+AutoContrast         98.949997  99.019997  ...  89.287498  66.443730
+Invert               99.000000  99.000000  ...  89.287498  72.944757
+Equalize             98.419998  98.409996  ...  89.287498  66.992412
+Solarize             98.449997  98.570000  ...  89.287498  69.236865
+SolarizeAdd          98.680000  98.610001  ...  89.287498  72.770916
+Posterize            98.979996  99.019997  ...  89.287498  76.629822
+Contrast             99.180000  99.190002  ...  89.287498  78.385061
+Color                99.040001  99.080002  ...  89.287498  67.632051
+Brightness           99.119995  99.199997  ...  89.287498  77.591179
+Sharpness            99.040001  99.080002  ...  89.287498  78.275154
+NoiseSalt            99.029999  99.070000  ...  89.287498  70.400456
+NoiseGaussian        98.970001  99.080002  ...  89.287498  64.850480
+w/o do (original x)  99.080000   0.000000  ...   0.000000  79.583664
+
+[15 rows x 11 columns]
+    mnist       svhn    mnist_m   syndigit       usps        Avg
+do  99.05  70.605409  77.891345  79.629436  89.586447  79.428159
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps5_RA', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps5_RA/14factor_last.csv', 'channels': 3, 'factor_num': 14, 'stride': 3, 'epoch': 'last', 'eval_mapping': True}
+loading weight of last
+randm: False
+stride: 3
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+Using downloaded and verified file: /home/yuqian_fu/.pytorch/SVHN/test_32x32.mat
+                         mnist   mnist_FA  ...    usps_FA        Avg
+ShearX               98.909996  98.949997  ...  89.486794  76.881126
+ShearY               98.949997  98.889999  ...  89.486794  73.554698
+AutoContrast         98.930000  99.019997  ...  89.486794  66.492076
+Invert               98.979996  99.000000  ...  89.486794  72.618074
+Equalize             98.419998  98.459999  ...  89.486794  67.132525
+Solarize             98.470001  98.580002  ...  89.486794  68.999302
+SolarizeAdd          98.619995  98.659996  ...  89.486794  72.501183
+Posterize            98.949997  99.019997  ...  89.486794  76.556273
+Contrast             99.169998  99.199997  ...  89.486794  78.399466
+Color                99.059998  99.029999  ...  89.486794  67.984040
+Brightness           99.159996  99.190002  ...  89.486794  77.668425
+Sharpness            99.010002  99.049995  ...  89.486794  78.452616
+NoiseSalt            99.099998  99.049995  ...  89.486794  70.660622
+NoiseGaussian        99.010002  99.019997  ...  89.486794  65.199389
+w/o do (original x)  99.030000   0.000000  ...   0.000000  79.652907
+
+[15 rows x 11 columns]
+    mnist      svhn    mnist_m   syndigit      usps        Avg
+do  99.08  70.85126  77.602489  79.828326  89.78575  79.516956
diff --git a/Meta-causal/code-withStyleAttack/71585.error b/Meta-causal/code-withStyleAttack/71585.error
new file mode 100644
index 0000000000000000000000000000000000000000..6299d70f46fb33ff0c8abffa58005ba3dd92ae75
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/71585.error
@@ -0,0 +1,22 @@
+/scratch/yuqian_fu/micromamba/envs/auto-v5ewbna3m2oe/lib/python3.11/site-packages/torch/storage.py:414: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  return torch.load(io.BytesIO(b))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py:225: FutureWarning: `torch.cuda.amp.GradScaler(args...)` is deprecated. Please use `torch.amp.GradScaler('cuda', args...)` instead.
+  scaler = GradScaler()
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py:247: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with autocast():
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_digit_v13.py:45: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'best_cls_net.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_digit_v13.py:62: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'best_mapping_'+str(i)+'.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_digit_v13.py:72: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'best_E_to_W.pkl'))
+/scratch/yuqian_fu/micromamba/envs/auto-v5ewbna3m2oe/lib/python3.11/site-packages/torch/storage.py:414: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  return torch.load(io.BytesIO(b))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_digit_v13.py:48: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'last_cls_net.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_digit_v13.py:65: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'last_mapping_'+str(i)+'.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_digit_v13.py:75: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'last_E_to_W.pkl'))
+/scratch/yuqian_fu/micromamba/envs/auto-v5ewbna3m2oe/lib/python3.11/site-packages/torch/storage.py:414: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  return torch.load(io.BytesIO(b))
diff --git a/Meta-causal/code-withStyleAttack/71585.log b/Meta-causal/code-withStyleAttack/71585.log
new file mode 100644
index 0000000000000000000000000000000000000000..896a7cc7fab4377d308fec25468918d5059fe434
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/71585.log
@@ -0,0 +1,13385 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 500, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps5_RA', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 3
+--------------------------CA_multiple--------------------------
+---------------------------14 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+Epoch 1, weight, value: tensor([[-0.0216, -0.0169, -0.0161,  ...,  0.0227, -0.0073,  0.0201],
+        [ 0.0072, -0.0098, -0.0046,  ..., -0.0208, -0.0281,  0.0310],
+        [ 0.0020,  0.0019, -0.0231,  ..., -0.0306, -0.0189, -0.0239],
+        ...,
+        [-0.0107,  0.0013,  0.0097,  ..., -0.0293,  0.0198, -0.0112],
+        [-0.0206, -0.0148, -0.0202,  ..., -0.0044, -0.0050, -0.0301],
+        [-0.0254,  0.0144, -0.0179,  ...,  0.0231,  0.0164,  0.0167]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([ 0.0171, -0.0200,  0.0085, -0.0257,  0.0185,  0.0054, -0.0096, -0.0275,
+         0.0104, -0.0105], device='cuda:0'), grad: None
+100
+0.0001
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 218.29, cls_loss 2.2478 cls_loss_mapping 2.1626 cls_loss_causal 2.2689 re_mapping 0.0186 re_causal 0.0185 /// teacc 56.55 lr 0.00010000
+Epoch 2, weight, value: tensor([[-2.1272e-02, -1.5845e-02, -2.1736e-02,  ...,  2.1055e-02,
+         -5.7673e-03,  1.7309e-02],
+        [ 5.2374e-03, -1.1090e-02,  1.3981e-03,  ..., -2.0834e-02,
+         -3.0799e-02,  3.5579e-02],
+        [-9.6785e-04,  2.6062e-03, -2.4732e-02,  ..., -3.2260e-02,
+         -1.9268e-02, -2.2415e-02],
+        ...,
+        [-8.4400e-03, -5.6490e-05,  6.3655e-03,  ..., -3.1020e-02,
+          1.9608e-02, -1.2059e-02],
+        [-2.2661e-02, -1.5072e-02, -2.0060e-02,  ..., -6.1237e-03,
+         -6.0846e-03, -2.9732e-02],
+        [-2.5021e-02,  1.0841e-02, -1.9531e-02,  ...,  2.1407e-02,
+          1.4514e-02,  1.2631e-02]], device='cuda:0'), grad: tensor([[-0.0026, -0.0016,  0.0003,  ...,  0.0000, -0.0142, -0.0223],
+        [-0.0005, -0.0006, -0.0178,  ...,  0.0000,  0.0040, -0.0086],
+        [-0.0008, -0.0001,  0.0002,  ...,  0.0000, -0.0048, -0.0081],
+        ...,
+        [ 0.0052,  0.0019,  0.0110,  ...,  0.0000,  0.0147,  0.0194],
+        [ 0.0021,  0.0005,  0.0067,  ...,  0.0000,  0.0088,  0.0123],
+        [-0.0240,  0.0006, -0.0012,  ...,  0.0000, -0.0199, -0.0082]],
+       device='cuda:0')
+Epoch 2, bias, value: tensor([ 0.0165, -0.0174,  0.0074, -0.0254,  0.0176,  0.0044, -0.0094, -0.0267,
+         0.0097, -0.0114], device='cuda:0'), grad: tensor([-0.0413, -0.0797,  0.0073,  0.0466,  0.0408,  0.0884, -0.0475,  0.0526,
+        -0.0008, -0.0666], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 216.86, cls_loss 1.8955 cls_loss_mapping 1.0402 cls_loss_causal 1.8900 re_mapping 0.1264 re_causal 0.1424 /// teacc 88.63 lr 0.00010000
+Epoch 3, weight, value: tensor([[-0.0184, -0.0097, -0.0291,  ...,  0.0191, -0.0016,  0.0161],
+        [ 0.0009, -0.0184,  0.0041,  ..., -0.0228, -0.0347,  0.0384],
+        [-0.0038,  0.0043, -0.0242,  ..., -0.0311, -0.0198, -0.0178],
+        ...,
+        [-0.0089, -0.0017,  0.0022,  ..., -0.0330,  0.0176, -0.0112],
+        [-0.0257, -0.0158, -0.0198,  ..., -0.0081, -0.0081, -0.0328],
+        [-0.0221,  0.0067, -0.0260,  ...,  0.0196,  0.0163,  0.0106]],
+       device='cuda:0'), grad: tensor([[ 0.0135,  0.0115,  0.0106,  ...,  0.0000,  0.0192,  0.0116],
+        [ 0.0048,  0.0059, -0.0017,  ...,  0.0000, -0.0061, -0.0155],
+        [ 0.0107,  0.0018,  0.0019,  ...,  0.0000,  0.0175,  0.0075],
+        ...,
+        [-0.0157, -0.0072, -0.0093,  ...,  0.0000, -0.0295, -0.0225],
+        [ 0.0039,  0.0002, -0.0144,  ...,  0.0000,  0.0112,  0.0130],
+        [-0.0113,  0.0040,  0.0046,  ...,  0.0000, -0.0090, -0.0066]],
+       device='cuda:0')
+Epoch 3, bias, value: tensor([ 0.0169, -0.0167,  0.0075, -0.0250,  0.0165,  0.0052, -0.0094, -0.0271,
+         0.0093, -0.0118], device='cuda:0'), grad: tensor([ 0.0581, -0.0248,  0.0615, -0.0936,  0.0560,  0.0130,  0.0324, -0.0864,
+         0.0248, -0.0410], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 216.87, cls_loss 1.5661 cls_loss_mapping 0.4825 cls_loss_causal 1.5157 re_mapping 0.1189 re_causal 0.1853 /// teacc 91.49 lr 0.00010000
+Epoch 4, weight, value: tensor([[-0.0163, -0.0069, -0.0343,  ...,  0.0184,  0.0006,  0.0149],
+        [-0.0046, -0.0234,  0.0049,  ..., -0.0229, -0.0370,  0.0410],
+        [-0.0083,  0.0040, -0.0266,  ..., -0.0313, -0.0221, -0.0146],
+        ...,
+        [-0.0102, -0.0009, -0.0022,  ..., -0.0332,  0.0163, -0.0078],
+        [-0.0313, -0.0177, -0.0195,  ..., -0.0094, -0.0108, -0.0340],
+        [-0.0188,  0.0052, -0.0278,  ...,  0.0191,  0.0179,  0.0091]],
+       device='cuda:0'), grad: tensor([[ 3.2825e-03, -2.4548e-03,  1.9512e-03,  ...,  0.0000e+00,
+          2.0542e-03,  3.3493e-03],
+        [-1.0300e-02,  3.5477e-03, -1.2741e-03,  ...,  0.0000e+00,
+         -1.5152e-02, -3.1891e-02],
+        [ 7.4272e-03, -2.4155e-02, -1.2970e-02,  ...,  0.0000e+00,
+         -1.1566e-02, -8.7833e-04],
+        ...,
+        [ 1.7059e-02,  7.7591e-03,  2.1801e-03,  ...,  0.0000e+00,
+          1.7679e-04, -6.6032e-03],
+        [-1.0521e-02, -4.7379e-03, -4.3899e-05,  ...,  0.0000e+00,
+         -2.3162e-04,  6.1417e-03],
+        [-2.4902e-02, -8.6451e-04,  2.2869e-03,  ...,  0.0000e+00,
+         -1.6375e-03,  9.7046e-03]], device='cuda:0')
+Epoch 4, bias, value: tensor([ 0.0169, -0.0172,  0.0072, -0.0249,  0.0156,  0.0052, -0.0100, -0.0271,
+         0.0093, -0.0097], device='cuda:0'), grad: tensor([ 0.0070, -0.0759, -0.0084,  0.0700,  0.0441, -0.0322, -0.0231,  0.0092,
+         0.0183, -0.0090], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 218.74, cls_loss 1.3811 cls_loss_mapping 0.3622 cls_loss_causal 1.3383 re_mapping 0.0919 re_causal 0.1674 /// teacc 93.71 lr 0.00010000
+Epoch 5, weight, value: tensor([[-0.0147, -0.0042, -0.0367,  ...,  0.0163,  0.0021,  0.0152],
+        [-0.0084, -0.0265,  0.0061,  ..., -0.0243, -0.0383,  0.0425],
+        [-0.0113,  0.0026, -0.0297,  ..., -0.0353, -0.0236, -0.0108],
+        ...,
+        [-0.0115, -0.0007, -0.0054,  ..., -0.0377,  0.0151, -0.0034],
+        [-0.0339, -0.0185, -0.0204,  ..., -0.0106, -0.0137, -0.0371],
+        [-0.0171,  0.0051, -0.0290,  ...,  0.0192,  0.0188,  0.0064]],
+       device='cuda:0'), grad: tensor([[-5.9624e-03, -1.5850e-03,  3.9902e-03,  ...,  1.6892e-04,
+         -2.1439e-02,  4.1656e-03],
+        [-1.2321e-02, -8.1360e-05,  2.9945e-03,  ...,  1.1331e-04,
+         -2.7924e-03, -1.5762e-02],
+        [-1.5640e-02,  1.2436e-03,  5.2223e-03,  ...,  3.8218e-04,
+         -6.0158e-03, -1.9522e-03],
+        ...,
+        [ 2.9278e-03, -6.7024e-03, -6.5842e-03,  ...,  7.5996e-05,
+         -2.7115e-02, -8.9493e-03],
+        [-1.1568e-03,  1.7996e-03,  2.9774e-03,  ...,  2.2948e-04,
+          1.7118e-03,  1.7862e-03],
+        [ 1.6220e-02,  7.4615e-03,  5.4817e-03,  ...,  6.9380e-05,
+          3.5431e-02,  1.3947e-02]], device='cuda:0')
+Epoch 5, bias, value: tensor([ 0.0168, -0.0172,  0.0074, -0.0239,  0.0152,  0.0044, -0.0106, -0.0268,
+         0.0093, -0.0096], device='cuda:0'), grad: tensor([ 0.0197, -0.0647, -0.0373,  0.0230,  0.0162, -0.0134,  0.0316, -0.0243,
+        -0.0094,  0.0586], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 226.58, cls_loss 1.3236 cls_loss_mapping 0.2895 cls_loss_causal 1.2855 re_mapping 0.0684 re_causal 0.1410 /// teacc 94.78 lr 0.00010000
+Epoch 6, weight, value: tensor([[-1.3532e-02, -2.2119e-03, -3.9380e-02,  ...,  1.5567e-02,
+          3.7612e-03,  1.5809e-02],
+        [-1.1712e-02, -2.9554e-02,  6.6768e-03,  ..., -2.3649e-02,
+         -4.0111e-02,  4.3700e-02],
+        [-1.4374e-02,  1.2228e-03, -3.0154e-02,  ..., -3.6499e-02,
+         -2.5640e-02, -9.1345e-03],
+        ...,
+        [-1.2040e-02, -7.0142e-04, -7.8608e-03,  ..., -3.8825e-02,
+          1.4733e-02,  3.9212e-05],
+        [-3.6277e-02, -1.8502e-02, -2.1491e-02,  ..., -1.0483e-02,
+         -1.5148e-02, -3.8012e-02],
+        [-1.5682e-02,  5.3608e-03, -3.0244e-02,  ...,  1.9863e-02,
+          1.9645e-02,  4.0173e-03]], device='cuda:0'), grad: tensor([[ 1.9897e-02, -7.4685e-05,  1.6737e-03,  ...,  0.0000e+00,
+          1.0246e-02,  9.5444e-03],
+        [ 2.1133e-02,  2.6226e-03,  1.1787e-03,  ...,  0.0000e+00,
+          1.5076e-02,  1.2077e-02],
+        [-6.0225e-04,  1.3704e-03,  8.1787e-03,  ...,  0.0000e+00,
+          5.5962e-03, -6.2523e-03],
+        ...,
+        [-2.8549e-02,  3.5667e-03,  1.1978e-03,  ...,  0.0000e+00,
+         -1.0498e-02, -1.4984e-02],
+        [ 2.6016e-02,  6.2714e-03,  4.2343e-03,  ...,  0.0000e+00,
+          1.4153e-02,  1.1543e-02],
+        [-2.5757e-02, -7.9956e-03,  2.7394e-04,  ...,  0.0000e+00,
+         -2.2705e-02, -4.7150e-03]], device='cuda:0')
+Epoch 6, bias, value: tensor([ 0.0168, -0.0176,  0.0072, -0.0234,  0.0148,  0.0038, -0.0101, -0.0268,
+         0.0099, -0.0095], device='cuda:0'), grad: tensor([ 0.0565,  0.0844, -0.0160, -0.0020, -0.0271, -0.0300, -0.0302, -0.0707,
+         0.0781, -0.0431], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 5----------------------------------------------------
+epoch 5, time 217.90, cls_loss 1.2016 cls_loss_mapping 0.2316 cls_loss_causal 1.1527 re_mapping 0.0605 re_causal 0.1292 /// teacc 95.01 lr 0.00010000
+Epoch 7, weight, value: tensor([[-0.0126, -0.0006, -0.0421,  ...,  0.0113,  0.0051,  0.0170],
+        [-0.0139, -0.0321,  0.0075,  ..., -0.0226, -0.0417,  0.0449],
+        [-0.0156,  0.0005, -0.0323,  ..., -0.0386, -0.0256, -0.0063],
+        ...,
+        [-0.0122, -0.0014, -0.0101,  ..., -0.0444,  0.0142,  0.0020],
+        [-0.0389, -0.0195, -0.0231,  ..., -0.0126, -0.0169, -0.0390],
+        [-0.0145,  0.0048, -0.0314,  ...,  0.0165,  0.0204,  0.0027]],
+       device='cuda:0'), grad: tensor([[ 6.9199e-03, -1.4191e-03, -1.3437e-03,  ...,  8.4162e-05,
+          6.1264e-03, -6.9189e-04],
+        [-3.5172e-03,  9.5308e-05, -4.4098e-03,  ...,  1.5926e-04,
+         -7.1526e-03, -8.7738e-03],
+        [-4.6768e-03,  4.7188e-03,  8.6823e-03,  ...,  3.4571e-04,
+         -1.6571e-02,  7.0114e-03],
+        ...,
+        [-2.0828e-03, -3.8662e-03, -4.9210e-03,  ..., -7.9346e-04,
+          8.2541e-04,  8.1110e-04],
+        [ 1.4694e-02, -2.2907e-03, -2.4235e-04,  ..., -6.5386e-05,
+          7.2746e-03,  6.9580e-03],
+        [ 3.3073e-03,  3.8967e-03,  9.1171e-03,  ...,  2.1636e-04,
+          3.4599e-03, -3.6488e-03]], device='cuda:0')
+Epoch 7, bias, value: tensor([ 0.0167, -0.0179,  0.0075, -0.0231,  0.0150,  0.0037, -0.0104, -0.0268,
+         0.0096, -0.0093], device='cuda:0'), grad: tensor([ 0.0173, -0.0233,  0.0130, -0.0310, -0.0104, -0.0260,  0.0551, -0.0343,
+         0.0294,  0.0102], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 6----------------------------------------------------
+epoch 6, time 216.75, cls_loss 1.1780 cls_loss_mapping 0.2158 cls_loss_causal 1.1464 re_mapping 0.0506 re_causal 0.1158 /// teacc 96.01 lr 0.00010000
+Epoch 8, weight, value: tensor([[-0.0124,  0.0006, -0.0437,  ...,  0.0043,  0.0057,  0.0162],
+        [-0.0152, -0.0331,  0.0094,  ..., -0.0227, -0.0429,  0.0451],
+        [-0.0164, -0.0011, -0.0344,  ..., -0.0393, -0.0251, -0.0045],
+        ...,
+        [-0.0122, -0.0015, -0.0120,  ..., -0.0469,  0.0131,  0.0040],
+        [-0.0414, -0.0206, -0.0239,  ..., -0.0128, -0.0182, -0.0406],
+        [-0.0138,  0.0056, -0.0325,  ...,  0.0111,  0.0213,  0.0024]],
+       device='cuda:0'), grad: tensor([[ 0.0262,  0.0037,  0.0068,  ...,  0.0038,  0.0185,  0.0164],
+        [ 0.0138,  0.0023,  0.0075,  ...,  0.0021,  0.0073,  0.0181],
+        [-0.0111, -0.0021, -0.0075,  ..., -0.0028, -0.0080, -0.0139],
+        ...,
+        [-0.0006,  0.0026,  0.0080,  ...,  0.0012,  0.0004, -0.0195],
+        [-0.0080,  0.0001, -0.0035,  ..., -0.0017, -0.0051, -0.0005],
+        [ 0.0046,  0.0015, -0.0036,  ...,  0.0024,  0.0018, -0.0068]],
+       device='cuda:0')
+Epoch 8, bias, value: tensor([ 0.0165, -0.0180,  0.0076, -0.0227,  0.0148,  0.0038, -0.0104, -0.0270,
+         0.0099, -0.0095], device='cuda:0'), grad: tensor([ 0.0858,  0.0553, -0.0441,  0.0030,  0.0107, -0.0159, -0.0180, -0.0116,
+        -0.0378, -0.0274], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 7----------------------------------------------------
+epoch 7, time 216.41, cls_loss 1.1000 cls_loss_mapping 0.1992 cls_loss_causal 1.0685 re_mapping 0.0482 re_causal 0.1136 /// teacc 96.06 lr 0.00010000
+Epoch 9, weight, value: tensor([[-0.0120,  0.0020, -0.0469,  ..., -0.0034,  0.0065,  0.0160],
+        [-0.0169, -0.0335,  0.0103,  ..., -0.0215, -0.0442,  0.0453],
+        [-0.0180, -0.0032, -0.0350,  ..., -0.0388, -0.0259, -0.0033],
+        ...,
+        [-0.0127, -0.0009, -0.0135,  ..., -0.0490,  0.0126,  0.0055],
+        [-0.0427, -0.0218, -0.0260,  ..., -0.0153, -0.0192, -0.0405],
+        [-0.0118,  0.0052, -0.0328,  ...,  0.0060,  0.0229,  0.0022]],
+       device='cuda:0'), grad: tensor([[ 0.0135,  0.0019,  0.0058,  ...,  0.0014,  0.0105,  0.0065],
+        [ 0.0010,  0.0006,  0.0042,  ...,  0.0024, -0.0026,  0.0004],
+        [-0.0354,  0.0026, -0.0004,  ...,  0.0015, -0.0160, -0.0315],
+        ...,
+        [ 0.0127,  0.0004,  0.0035,  ...,  0.0002,  0.0081,  0.0065],
+        [ 0.0197,  0.0049,  0.0112,  ...,  0.0031,  0.0058,  0.0113],
+        [ 0.0107,  0.0007,  0.0029,  ...,  0.0008,  0.0111,  0.0078]],
+       device='cuda:0')
+Epoch 9, bias, value: tensor([ 0.0162, -0.0178,  0.0074, -0.0227,  0.0145,  0.0037, -0.0104, -0.0274,
+         0.0103, -0.0090], device='cuda:0'), grad: tensor([ 0.0156, -0.0084, -0.0817, -0.0279,  0.0190, -0.0438,  0.0323,  0.0334,
+         0.0410,  0.0204], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 8----------------------------------------------------
+epoch 8, time 216.78, cls_loss 1.0795 cls_loss_mapping 0.1518 cls_loss_causal 1.0444 re_mapping 0.0431 re_causal 0.1020 /// teacc 96.52 lr 0.00010000
+Epoch 10, weight, value: tensor([[-0.0110,  0.0038, -0.0470,  ..., -0.0045,  0.0078,  0.0153],
+        [-0.0170, -0.0348,  0.0113,  ..., -0.0212, -0.0444,  0.0455],
+        [-0.0195, -0.0041, -0.0355,  ..., -0.0400, -0.0269, -0.0024],
+        ...,
+        [-0.0131, -0.0018, -0.0151,  ..., -0.0508,  0.0126,  0.0068],
+        [-0.0444, -0.0224, -0.0262,  ..., -0.0169, -0.0212, -0.0414],
+        [-0.0108,  0.0048, -0.0344,  ...,  0.0032,  0.0237,  0.0016]],
+       device='cuda:0'), grad: tensor([[-0.0133, -0.0144, -0.0164,  ...,  0.0010, -0.0164, -0.0031],
+        [-0.0266, -0.0037, -0.0142,  ..., -0.0008, -0.0120, -0.0214],
+        [ 0.0099,  0.0029,  0.0033,  ...,  0.0027,  0.0083,  0.0016],
+        ...,
+        [ 0.0277,  0.0023,  0.0046,  ...,  0.0005,  0.0160,  0.0193],
+        [-0.0089,  0.0017,  0.0010,  ...,  0.0016, -0.0099, -0.0166],
+        [-0.0078,  0.0013,  0.0028,  ...,  0.0007, -0.0111, -0.0011]],
+       device='cuda:0')
+Epoch 10, bias, value: tensor([ 0.0165, -0.0175,  0.0069, -0.0226,  0.0145,  0.0041, -0.0108, -0.0275,
+         0.0103, -0.0090], device='cuda:0'), grad: tensor([-0.0313, -0.0902,  0.0240,  0.0376,  0.0197,  0.0261,  0.0094,  0.0840,
+        -0.0724, -0.0068], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 9----------------------------------------------------
+epoch 9, time 216.30, cls_loss 1.0639 cls_loss_mapping 0.1551 cls_loss_causal 1.0356 re_mapping 0.0408 re_causal 0.1043 /// teacc 96.78 lr 0.00010000
+Epoch 11, weight, value: tensor([[-0.0113,  0.0048, -0.0483,  ..., -0.0072,  0.0080,  0.0156],
+        [-0.0185, -0.0379,  0.0121,  ..., -0.0226, -0.0457,  0.0453],
+        [-0.0192, -0.0043, -0.0365,  ..., -0.0420, -0.0252, -0.0015],
+        ...,
+        [-0.0128, -0.0018, -0.0159,  ..., -0.0508,  0.0124,  0.0078],
+        [-0.0464, -0.0238, -0.0269,  ..., -0.0186, -0.0226, -0.0410],
+        [-0.0110,  0.0051, -0.0356,  ..., -0.0010,  0.0236,  0.0011]],
+       device='cuda:0'), grad: tensor([[ 5.4855e-03,  1.1921e-03,  3.3226e-03,  ...,  1.2770e-03,
+          4.3983e-03,  4.1733e-03],
+        [ 7.4158e-03,  6.8188e-04,  3.7313e-05,  ...,  3.8695e-04,
+         -6.3171e-03, -2.1019e-03],
+        [ 1.7195e-03, -9.0485e-03, -1.5097e-03,  ..., -7.4577e-03,
+          9.6436e-03, -1.2100e-02],
+        ...,
+        [ 1.2764e-02,  3.9902e-03,  3.8910e-03,  ...,  6.1369e-04,
+          2.0370e-02,  5.9471e-03],
+        [ 1.0939e-03,  6.2256e-03, -1.7883e-02,  ...,  5.4245e-03,
+          3.8223e-03, -4.4518e-03],
+        [-7.5317e-02, -6.8626e-03, -7.3357e-03,  ..., -1.3199e-03,
+         -7.8491e-02, -1.1536e-02]], device='cuda:0')
+Epoch 11, bias, value: tensor([ 0.0166, -0.0178,  0.0075, -0.0223,  0.0146,  0.0039, -0.0111, -0.0280,
+         0.0106, -0.0092], device='cuda:0'), grad: tensor([ 0.0214,  0.0058, -0.0446,  0.0125,  0.0708, -0.0020,  0.0164,  0.0314,
+        -0.0127, -0.0990], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 10----------------------------------------------------
+epoch 10, time 227.69, cls_loss 1.0407 cls_loss_mapping 0.1593 cls_loss_causal 1.0077 re_mapping 0.0381 re_causal 0.0955 /// teacc 97.13 lr 0.00010000
+Epoch 12, weight, value: tensor([[-0.0106,  0.0058, -0.0502,  ..., -0.0095,  0.0091,  0.0159],
+        [-0.0197, -0.0390,  0.0123,  ..., -0.0239, -0.0471,  0.0451],
+        [-0.0204, -0.0045, -0.0377,  ..., -0.0442, -0.0258, -0.0005],
+        ...,
+        [-0.0128, -0.0021, -0.0159,  ..., -0.0516,  0.0121,  0.0095],
+        [-0.0474, -0.0239, -0.0270,  ..., -0.0184, -0.0232, -0.0423],
+        [-0.0099,  0.0053, -0.0353,  ..., -0.0033,  0.0241, -0.0004]],
+       device='cuda:0'), grad: tensor([[ 3.4332e-02, -3.7098e-03,  1.3742e-03,  ...,  5.7564e-03,
+          1.2863e-02,  1.3603e-02],
+        [-3.1300e-03,  3.7899e-03, -7.0810e-04,  ...,  5.5373e-05,
+         -1.2789e-03,  5.9509e-03],
+        [ 4.4975e-03, -1.5503e-02, -1.1292e-02,  ..., -1.7872e-03,
+         -1.7748e-03,  1.5282e-02],
+        ...,
+        [ 6.1569e-03,  4.3221e-03,  7.7820e-04,  ...,  1.8513e-04,
+          7.0457e-03,  9.9945e-04],
+        [-2.0782e-02,  3.0384e-03,  1.0414e-03,  ..., -5.2795e-03,
+         -7.1678e-03, -2.6825e-02],
+        [-1.6373e-02, -8.0261e-03,  4.5013e-04,  ..., -8.4019e-04,
+         -1.5457e-02, -1.0391e-02]], device='cuda:0')
+Epoch 12, bias, value: tensor([ 0.0166, -0.0179,  0.0071, -0.0221,  0.0146,  0.0040, -0.0115, -0.0276,
+         0.0106, -0.0092], device='cuda:0'), grad: tensor([ 0.0474, -0.0064,  0.0134,  0.0070,  0.0254,  0.0170, -0.0158,  0.0210,
+        -0.0765, -0.0326], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 11, time 226.12, cls_loss 0.9999 cls_loss_mapping 0.1389 cls_loss_causal 0.9711 re_mapping 0.0353 re_causal 0.0938 /// teacc 96.95 lr 0.00010000
+Epoch 13, weight, value: tensor([[-0.0101,  0.0067, -0.0517,  ..., -0.0128,  0.0094,  0.0151],
+        [-0.0206, -0.0400,  0.0128,  ..., -0.0245, -0.0474,  0.0452],
+        [-0.0212, -0.0046, -0.0381,  ..., -0.0455, -0.0262,  0.0002],
+        ...,
+        [-0.0132, -0.0034, -0.0172,  ..., -0.0529,  0.0123,  0.0112],
+        [-0.0487, -0.0259, -0.0279,  ..., -0.0208, -0.0243, -0.0425],
+        [-0.0095,  0.0055, -0.0351,  ..., -0.0067,  0.0248, -0.0011]],
+       device='cuda:0'), grad: tensor([[ 0.0060, -0.0022,  0.0011,  ...,  0.0017,  0.0114,  0.0014],
+        [ 0.0078,  0.0009,  0.0024,  ...,  0.0024,  0.0031, -0.0019],
+        [ 0.0038,  0.0017,  0.0009,  ...,  0.0024, -0.0010,  0.0012],
+        ...,
+        [ 0.0178,  0.0024,  0.0016,  ...,  0.0014,  0.0144,  0.0129],
+        [-0.0121,  0.0042,  0.0034,  ...,  0.0023, -0.0085, -0.0130],
+        [-0.0164, -0.0064,  0.0016,  ..., -0.0014, -0.0219, -0.0019]],
+       device='cuda:0')
+Epoch 13, bias, value: tensor([ 0.0165, -0.0181,  0.0074, -0.0219,  0.0150,  0.0045, -0.0122, -0.0277,
+         0.0106, -0.0095], device='cuda:0'), grad: tensor([ 0.0276,  0.0116, -0.0294,  0.0057, -0.0071,  0.0033, -0.0267,  0.0536,
+        -0.0042, -0.0344], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 12----------------------------------------------------
+epoch 12, time 225.85, cls_loss 0.9804 cls_loss_mapping 0.1408 cls_loss_causal 0.9432 re_mapping 0.0331 re_causal 0.0884 /// teacc 97.19 lr 0.00010000
+Epoch 14, weight, value: tensor([[-0.0092,  0.0082, -0.0525,  ..., -0.0139,  0.0111,  0.0153],
+        [-0.0216, -0.0406,  0.0135,  ..., -0.0242, -0.0479,  0.0454],
+        [-0.0225, -0.0047, -0.0384,  ..., -0.0466, -0.0264,  0.0011],
+        ...,
+        [-0.0133, -0.0046, -0.0176,  ..., -0.0528,  0.0121,  0.0116],
+        [-0.0497, -0.0262, -0.0282,  ..., -0.0201, -0.0250, -0.0437],
+        [-0.0082,  0.0061, -0.0355,  ..., -0.0071,  0.0257, -0.0012]],
+       device='cuda:0'), grad: tensor([[-0.0121, -0.0036,  0.0004,  ...,  0.0019, -0.0093,  0.0002],
+        [ 0.0077,  0.0015,  0.0020,  ...,  0.0014,  0.0108,  0.0054],
+        [-0.0014,  0.0008, -0.0030,  ..., -0.0048,  0.0001, -0.0158],
+        ...,
+        [-0.0009,  0.0008,  0.0015,  ...,  0.0002,  0.0016, -0.0009],
+        [ 0.0101,  0.0018,  0.0062,  ...,  0.0024,  0.0123,  0.0095],
+        [-0.0101, -0.0014,  0.0004,  ...,  0.0004, -0.0029, -0.0081]],
+       device='cuda:0')
+Epoch 14, bias, value: tensor([ 0.0163, -0.0180,  0.0077, -0.0220,  0.0148,  0.0051, -0.0124, -0.0282,
+         0.0108, -0.0093], device='cuda:0'), grad: tensor([-0.0164,  0.0374, -0.0414, -0.0790,  0.0343,  0.0408,  0.0089, -0.0123,
+         0.0558, -0.0281], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 13, time 226.43, cls_loss 0.9499 cls_loss_mapping 0.1187 cls_loss_causal 0.9250 re_mapping 0.0330 re_causal 0.0892 /// teacc 97.03 lr 0.00010000
+Epoch 15, weight, value: tensor([[-0.0091,  0.0101, -0.0532,  ..., -0.0166,  0.0115,  0.0156],
+        [-0.0231, -0.0424,  0.0136,  ..., -0.0233, -0.0496,  0.0453],
+        [-0.0233, -0.0058, -0.0391,  ..., -0.0478, -0.0275,  0.0015],
+        ...,
+        [-0.0132, -0.0045, -0.0186,  ..., -0.0531,  0.0125,  0.0132],
+        [-0.0491, -0.0258, -0.0284,  ..., -0.0197, -0.0242, -0.0439],
+        [-0.0083,  0.0054, -0.0364,  ..., -0.0118,  0.0254, -0.0023]],
+       device='cuda:0'), grad: tensor([[-0.0249, -0.0055,  0.0011,  ..., -0.0050, -0.0187, -0.0068],
+        [-0.0070,  0.0006, -0.0014,  ..., -0.0007, -0.0046, -0.0086],
+        [-0.0135, -0.0036, -0.0118,  ...,  0.0014, -0.0033,  0.0018],
+        ...,
+        [ 0.0106,  0.0006,  0.0010,  ...,  0.0011,  0.0099,  0.0058],
+        [ 0.0150,  0.0035,  0.0031,  ...,  0.0029,  0.0102,  0.0066],
+        [ 0.0095,  0.0030,  0.0043,  ...,  0.0015,  0.0083,  0.0037]],
+       device='cuda:0')
+Epoch 15, bias, value: tensor([ 0.0168, -0.0187,  0.0070, -0.0217,  0.0158,  0.0047, -0.0126, -0.0279,
+         0.0112, -0.0098], device='cuda:0'), grad: tensor([-0.0636, -0.0247, -0.0142,  0.0323,  0.0056, -0.0378,  0.0071,  0.0345,
+         0.0445,  0.0162], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 14----------------------------------------------------
+epoch 14, time 228.66, cls_loss 0.9656 cls_loss_mapping 0.1237 cls_loss_causal 0.9339 re_mapping 0.0310 re_causal 0.0862 /// teacc 97.21 lr 0.00010000
+Epoch 16, weight, value: tensor([[-0.0086,  0.0122, -0.0543,  ..., -0.0188,  0.0126,  0.0157],
+        [-0.0234, -0.0441,  0.0142,  ..., -0.0227, -0.0504,  0.0457],
+        [-0.0231, -0.0070, -0.0398,  ..., -0.0495, -0.0271,  0.0024],
+        ...,
+        [-0.0130, -0.0041, -0.0191,  ..., -0.0541,  0.0129,  0.0136],
+        [-0.0513, -0.0263, -0.0283,  ..., -0.0209, -0.0256, -0.0453],
+        [-0.0082,  0.0050, -0.0370,  ..., -0.0118,  0.0256, -0.0026]],
+       device='cuda:0'), grad: tensor([[-1.4687e-02, -6.0730e-03,  1.3447e-03,  ...,  4.6325e-04,
+         -7.9498e-03, -8.9417e-03],
+        [-2.0962e-03,  6.1798e-04, -6.4731e-05,  ...,  3.7599e-04,
+         -1.9445e-03, -1.3227e-03],
+        [ 3.5267e-03,  2.1801e-03,  1.8654e-03,  ...,  9.8038e-04,
+          6.8893e-03,  3.7823e-03],
+        ...,
+        [ 7.1030e-03, -6.9714e-04,  7.2384e-04,  ...,  1.6439e-04,
+          4.4746e-03,  8.5144e-03],
+        [ 5.1765e-03,  1.9255e-03,  6.7091e-04,  ..., -1.2541e-04,
+          5.4474e-03, -2.8648e-03],
+        [-3.9978e-03,  5.6458e-04, -3.6087e-03,  ..., -1.1816e-03,
+         -4.0436e-03, -8.7357e-03]], device='cuda:0')
+Epoch 16, bias, value: tensor([ 0.0165, -0.0183,  0.0073, -0.0215,  0.0159,  0.0053, -0.0133, -0.0280,
+         0.0108, -0.0100], device='cuda:0'), grad: tensor([-0.0335,  0.0053,  0.0127,  0.0046, -0.0044, -0.0013,  0.0278,  0.0244,
+        -0.0038, -0.0318], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 15----------------------------------------------------
+epoch 15, time 228.95, cls_loss 0.8734 cls_loss_mapping 0.1091 cls_loss_causal 0.8427 re_mapping 0.0316 re_causal 0.0847 /// teacc 97.65 lr 0.00010000
+Epoch 17, weight, value: tensor([[-0.0084,  0.0136, -0.0556,  ..., -0.0195,  0.0130,  0.0155],
+        [-0.0235, -0.0444,  0.0146,  ..., -0.0229, -0.0514,  0.0459],
+        [-0.0234, -0.0076, -0.0400,  ..., -0.0515, -0.0275,  0.0027],
+        ...,
+        [-0.0128, -0.0039, -0.0195,  ..., -0.0530,  0.0134,  0.0147],
+        [-0.0524, -0.0268, -0.0288,  ..., -0.0206, -0.0260, -0.0458],
+        [-0.0081,  0.0034, -0.0386,  ..., -0.0150,  0.0251, -0.0022]],
+       device='cuda:0'), grad: tensor([[-0.0062,  0.0024, -0.0019,  ...,  0.0006, -0.0007,  0.0011],
+        [ 0.0032, -0.0005,  0.0071,  ...,  0.0015, -0.0054, -0.0022],
+        [ 0.0085, -0.0005, -0.0041,  ...,  0.0016,  0.0041, -0.0084],
+        ...,
+        [ 0.0052,  0.0031,  0.0058,  ...,  0.0010,  0.0038,  0.0096],
+        [-0.0083,  0.0009, -0.0227,  ..., -0.0103, -0.0061, -0.0011],
+        [-0.0046,  0.0025,  0.0058,  ...,  0.0023, -0.0031, -0.0079]],
+       device='cuda:0')
+Epoch 17, bias, value: tensor([ 0.0165, -0.0180,  0.0075, -0.0215,  0.0159,  0.0056, -0.0134, -0.0280,
+         0.0105, -0.0104], device='cuda:0'), grad: tensor([ 0.0082, -0.0262,  0.0054, -0.0158, -0.0110,  0.0141,  0.0378,  0.0382,
+        -0.0649,  0.0143], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 16, time 225.75, cls_loss 0.9449 cls_loss_mapping 0.1156 cls_loss_causal 0.9195 re_mapping 0.0298 re_causal 0.0817 /// teacc 97.40 lr 0.00010000
+Epoch 18, weight, value: tensor([[-0.0086,  0.0140, -0.0566,  ..., -0.0218,  0.0135,  0.0148],
+        [-0.0245, -0.0446,  0.0150,  ..., -0.0223, -0.0520,  0.0455],
+        [-0.0237, -0.0067, -0.0398,  ..., -0.0523, -0.0281,  0.0037],
+        ...,
+        [-0.0120, -0.0044, -0.0202,  ..., -0.0532,  0.0135,  0.0156],
+        [-0.0524, -0.0273, -0.0296,  ..., -0.0211, -0.0259, -0.0467],
+        [-0.0075,  0.0038, -0.0388,  ..., -0.0153,  0.0261, -0.0027]],
+       device='cuda:0'), grad: tensor([[ 0.0121,  0.0026,  0.0003,  ...,  0.0011,  0.0085,  0.0116],
+        [-0.0002,  0.0007, -0.0026,  ...,  0.0008,  0.0021,  0.0042],
+        [-0.0014,  0.0005,  0.0009,  ..., -0.0013, -0.0029, -0.0098],
+        ...,
+        [ 0.0068, -0.0046,  0.0021,  ...,  0.0005,  0.0050, -0.0067],
+        [-0.0013,  0.0014,  0.0029,  ...,  0.0018,  0.0011,  0.0001],
+        [ 0.0127,  0.0029,  0.0046,  ...,  0.0021,  0.0035,  0.0091]],
+       device='cuda:0')
+Epoch 18, bias, value: tensor([ 0.0156, -0.0187,  0.0078, -0.0213,  0.0156,  0.0055, -0.0127, -0.0275,
+         0.0107, -0.0104], device='cuda:0'), grad: tensor([ 0.0415,  0.0187, -0.0221, -0.0016, -0.0402, -0.0228, -0.0041, -0.0112,
+         0.0062,  0.0356], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 17, time 225.27, cls_loss 0.9093 cls_loss_mapping 0.1049 cls_loss_causal 0.8926 re_mapping 0.0297 re_causal 0.0816 /// teacc 97.43 lr 0.00010000
+Epoch 19, weight, value: tensor([[-0.0080,  0.0146, -0.0576,  ..., -0.0238,  0.0142,  0.0151],
+        [-0.0246, -0.0446,  0.0147,  ..., -0.0240, -0.0523,  0.0459],
+        [-0.0243, -0.0063, -0.0405,  ..., -0.0540, -0.0285,  0.0038],
+        ...,
+        [-0.0129, -0.0041, -0.0214,  ..., -0.0532,  0.0127,  0.0154],
+        [-0.0529, -0.0283, -0.0299,  ..., -0.0208, -0.0264, -0.0466],
+        [-0.0068,  0.0029, -0.0398,  ..., -0.0179,  0.0270, -0.0034]],
+       device='cuda:0'), grad: tensor([[ 0.0073, -0.0035, -0.0037,  ...,  0.0044,  0.0016,  0.0024],
+        [-0.0115, -0.0003,  0.0011,  ..., -0.0008, -0.0125, -0.0478],
+        [-0.0046,  0.0059,  0.0037,  ...,  0.0022,  0.0023, -0.0075],
+        ...,
+        [-0.0131, -0.0049,  0.0051,  ...,  0.0023, -0.0063,  0.0369],
+        [-0.0042,  0.0066,  0.0081,  ...,  0.0084,  0.0034, -0.0014],
+        [ 0.0305,  0.0116,  0.0034,  ...,  0.0019,  0.0214,  0.0168]],
+       device='cuda:0')
+Epoch 19, bias, value: tensor([ 0.0159, -0.0180,  0.0079, -0.0212,  0.0157,  0.0056, -0.0133, -0.0282,
+         0.0109, -0.0107], device='cuda:0'), grad: tensor([ 0.0170, -0.0806, -0.0154,  0.0252,  0.0003, -0.0368, -0.0540,  0.0687,
+         0.0070,  0.0687], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 18, time 225.91, cls_loss 0.8699 cls_loss_mapping 0.1098 cls_loss_causal 0.8492 re_mapping 0.0300 re_causal 0.0798 /// teacc 97.12 lr 0.00010000
+Epoch 20, weight, value: tensor([[-0.0079,  0.0159, -0.0590,  ..., -0.0249,  0.0149,  0.0149],
+        [-0.0256, -0.0454,  0.0149,  ..., -0.0248, -0.0533,  0.0457],
+        [-0.0249, -0.0065, -0.0402,  ..., -0.0557, -0.0290,  0.0035],
+        ...,
+        [-0.0122, -0.0047, -0.0211,  ..., -0.0514,  0.0128,  0.0164],
+        [-0.0533, -0.0292, -0.0305,  ..., -0.0206, -0.0271, -0.0466],
+        [-0.0067,  0.0024, -0.0404,  ..., -0.0200,  0.0272, -0.0031]],
+       device='cuda:0'), grad: tensor([[ 0.0105,  0.0017,  0.0006,  ...,  0.0029,  0.0095,  0.0044],
+        [-0.0026, -0.0011, -0.0004,  ..., -0.0004,  0.0019, -0.0042],
+        [-0.0127,  0.0006,  0.0005,  ..., -0.0013, -0.0136, -0.0092],
+        ...,
+        [ 0.0011,  0.0010,  0.0005,  ..., -0.0015, -0.0117, -0.0016],
+        [-0.0005,  0.0039,  0.0037,  ...,  0.0017, -0.0008, -0.0008],
+        [-0.0033,  0.0005,  0.0014,  ...,  0.0015,  0.0099,  0.0002]],
+       device='cuda:0')
+Epoch 20, bias, value: tensor([ 0.0158, -0.0185,  0.0078, -0.0212,  0.0159,  0.0054, -0.0130, -0.0275,
+         0.0108, -0.0108], device='cuda:0'), grad: tensor([ 0.0370, -0.0248, -0.0338,  0.0138,  0.0138, -0.0146, -0.0113, -0.0061,
+         0.0220,  0.0041], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 19, time 225.88, cls_loss 0.8763 cls_loss_mapping 0.1055 cls_loss_causal 0.8490 re_mapping 0.0282 re_causal 0.0795 /// teacc 97.45 lr 0.00010000
+Epoch 21, weight, value: tensor([[-0.0078,  0.0167, -0.0599,  ..., -0.0258,  0.0151,  0.0147],
+        [-0.0260, -0.0460,  0.0158,  ..., -0.0234, -0.0536,  0.0452],
+        [-0.0248, -0.0066, -0.0404,  ..., -0.0563, -0.0286,  0.0038],
+        ...,
+        [-0.0130, -0.0050, -0.0211,  ..., -0.0526,  0.0121,  0.0175],
+        [-0.0533, -0.0306, -0.0315,  ..., -0.0215, -0.0273, -0.0467],
+        [-0.0066,  0.0024, -0.0413,  ..., -0.0195,  0.0270, -0.0037]],
+       device='cuda:0'), grad: tensor([[-0.0035, -0.0003,  0.0003,  ...,  0.0020,  0.0023, -0.0117],
+        [ 0.0013,  0.0003,  0.0002,  ...,  0.0004,  0.0021, -0.0008],
+        [ 0.0046,  0.0005,  0.0006,  ..., -0.0006, -0.0016,  0.0154],
+        ...,
+        [-0.0050,  0.0034,  0.0038,  ...,  0.0002, -0.0050,  0.0006],
+        [ 0.0020,  0.0019,  0.0028,  ..., -0.0047,  0.0020, -0.0074],
+        [-0.0041,  0.0017, -0.0008,  ...,  0.0005,  0.0006, -0.0108]],
+       device='cuda:0')
+Epoch 21, bias, value: tensor([ 0.0155, -0.0186,  0.0083, -0.0212,  0.0160,  0.0053, -0.0133, -0.0280,
+         0.0111, -0.0105], device='cuda:0'), grad: tensor([-0.0264, -0.0042,  0.0605, -0.0080, -0.0212,  0.0308,  0.0315, -0.0431,
+        -0.0253,  0.0053], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 20, time 225.63, cls_loss 0.8962 cls_loss_mapping 0.1004 cls_loss_causal 0.8683 re_mapping 0.0268 re_causal 0.0761 /// teacc 97.56 lr 0.00010000
+Epoch 22, weight, value: tensor([[-0.0075,  0.0179, -0.0602,  ..., -0.0265,  0.0153,  0.0151],
+        [-0.0257, -0.0468,  0.0165,  ..., -0.0239, -0.0536,  0.0458],
+        [-0.0246, -0.0071, -0.0420,  ..., -0.0572, -0.0287,  0.0045],
+        ...,
+        [-0.0133, -0.0053, -0.0210,  ..., -0.0529,  0.0119,  0.0176],
+        [-0.0541, -0.0310, -0.0327,  ..., -0.0214, -0.0272, -0.0476],
+        [-0.0068,  0.0019, -0.0427,  ..., -0.0206,  0.0271, -0.0035]],
+       device='cuda:0'), grad: tensor([[ 0.0124,  0.0019,  0.0014,  ...,  0.0015,  0.0094,  0.0049],
+        [ 0.0063,  0.0005, -0.0003,  ...,  0.0007,  0.0039, -0.0093],
+        [-0.0110, -0.0030,  0.0010,  ..., -0.0004, -0.0071, -0.0123],
+        ...,
+        [ 0.0099,  0.0016,  0.0007,  ...,  0.0005,  0.0076,  0.0152],
+        [-0.0119, -0.0015, -0.0037,  ..., -0.0023, -0.0027, -0.0061],
+        [ 0.0246,  0.0090,  0.0012,  ...,  0.0020,  0.0175,  0.0014]],
+       device='cuda:0')
+Epoch 22, bias, value: tensor([ 0.0161, -0.0182,  0.0082, -0.0211,  0.0160,  0.0054, -0.0134, -0.0280,
+         0.0110, -0.0113], device='cuda:0'), grad: tensor([ 0.0624, -0.0184, -0.0512,  0.0252, -0.0371,  0.0562, -0.0449,  0.0522,
+        -0.0662,  0.0216], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 21----------------------------------------------------
+epoch 21, time 229.23, cls_loss 0.8133 cls_loss_mapping 0.0794 cls_loss_causal 0.7811 re_mapping 0.0266 re_causal 0.0722 /// teacc 97.75 lr 0.00010000
+Epoch 23, weight, value: tensor([[-0.0070,  0.0201, -0.0609,  ..., -0.0267,  0.0159,  0.0148],
+        [-0.0262, -0.0476,  0.0170,  ..., -0.0246, -0.0545,  0.0458],
+        [-0.0249, -0.0080, -0.0414,  ..., -0.0572, -0.0289,  0.0059],
+        ...,
+        [-0.0131, -0.0061, -0.0228,  ..., -0.0546,  0.0119,  0.0183],
+        [-0.0544, -0.0310, -0.0327,  ..., -0.0217, -0.0272, -0.0481],
+        [-0.0068,  0.0008, -0.0434,  ..., -0.0217,  0.0273, -0.0039]],
+       device='cuda:0'), grad: tensor([[ 1.6449e-02,  4.8876e-04,  5.0753e-05,  ...,  9.2983e-04,
+          3.0422e-03,  2.7161e-03],
+        [ 1.0117e-02,  5.9319e-04, -1.0524e-06,  ...,  7.9489e-04,
+          1.1894e-02,  2.0004e-02],
+        [-5.1003e-03, -6.5079e-03,  4.7731e-04,  ..., -5.5618e-03,
+          6.8703e-03, -7.7095e-03],
+        ...,
+        [-4.7150e-02,  1.9407e-03, -8.2874e-04,  ...,  4.1676e-04,
+         -3.8025e-02, -4.0131e-02],
+        [ 1.6880e-03, -3.5477e-03, -9.0301e-05,  ...,  1.6603e-03,
+          3.5419e-03, -3.4084e-03],
+        [ 1.3504e-02,  5.0116e-04,  1.9493e-03,  ...,  2.3282e-04,
+          9.8953e-03,  2.1408e-02]], device='cuda:0')
+Epoch 23, bias, value: tensor([ 0.0161, -0.0184,  0.0083, -0.0209,  0.0160,  0.0048, -0.0134, -0.0279,
+         0.0111, -0.0112], device='cuda:0'), grad: tensor([ 0.0168,  0.0624, -0.0001, -0.0170,  0.0097,  0.0236, -0.0256, -0.1230,
+         0.0002,  0.0531], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 22----------------------------------------------------
+epoch 22, time 226.60, cls_loss 0.8335 cls_loss_mapping 0.0865 cls_loss_causal 0.8031 re_mapping 0.0257 re_causal 0.0729 /// teacc 97.91 lr 0.00010000
+Epoch 24, weight, value: tensor([[-0.0071,  0.0210, -0.0619,  ..., -0.0271,  0.0160,  0.0142],
+        [-0.0262, -0.0468,  0.0170,  ..., -0.0249, -0.0535,  0.0455],
+        [-0.0252, -0.0076, -0.0403,  ..., -0.0582, -0.0291,  0.0067],
+        ...,
+        [-0.0132, -0.0064, -0.0238,  ..., -0.0560,  0.0108,  0.0186],
+        [-0.0557, -0.0323, -0.0339,  ..., -0.0221, -0.0284, -0.0483],
+        [-0.0064,  0.0010, -0.0432,  ..., -0.0229,  0.0278, -0.0039]],
+       device='cuda:0'), grad: tensor([[ 0.0081,  0.0045,  0.0030,  ...,  0.0004,  0.0055,  0.0032],
+        [ 0.0127,  0.0004,  0.0006,  ...,  0.0007,  0.0073,  0.0178],
+        [ 0.0037,  0.0008,  0.0004,  ...,  0.0002,  0.0026,  0.0003],
+        ...,
+        [-0.0048, -0.0013, -0.0022,  ...,  0.0003, -0.0028, -0.0090],
+        [-0.0137, -0.0101, -0.0061,  ..., -0.0061, -0.0112, -0.0061],
+        [ 0.0119,  0.0076,  0.0046,  ...,  0.0053,  0.0106,  0.0031]],
+       device='cuda:0')
+Epoch 24, bias, value: tensor([ 0.0167, -0.0186,  0.0081, -0.0206,  0.0164,  0.0048, -0.0137, -0.0281,
+         0.0107, -0.0111], device='cuda:0'), grad: tensor([ 0.0226,  0.0577,  0.0050, -0.0125, -0.0341,  0.0157, -0.0097, -0.0264,
+        -0.0468,  0.0285], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 23----------------------------------------------------
+epoch 23, time 226.02, cls_loss 0.8285 cls_loss_mapping 0.0836 cls_loss_causal 0.7926 re_mapping 0.0253 re_causal 0.0703 /// teacc 97.92 lr 0.00010000
+Epoch 25, weight, value: tensor([[-0.0066,  0.0220, -0.0613,  ..., -0.0263,  0.0169,  0.0137],
+        [-0.0275, -0.0482,  0.0167,  ..., -0.0248, -0.0546,  0.0457],
+        [-0.0253, -0.0079, -0.0413,  ..., -0.0600, -0.0294,  0.0073],
+        ...,
+        [-0.0136, -0.0061, -0.0245,  ..., -0.0576,  0.0103,  0.0191],
+        [-0.0560, -0.0325, -0.0338,  ..., -0.0216, -0.0291, -0.0484],
+        [-0.0057,  0.0025, -0.0426,  ..., -0.0233,  0.0285, -0.0047]],
+       device='cuda:0'), grad: tensor([[ 8.1177e-03,  1.0657e-04,  1.1311e-03,  ...,  3.4790e-03,
+          9.9869e-03,  3.2749e-03],
+        [ 4.0474e-03,  6.1131e-04,  4.5252e-04,  ...,  1.4019e-03,
+          3.5934e-03,  2.0278e-04],
+        [-1.0624e-03,  8.3256e-04,  1.3199e-03,  ...,  4.1223e-04,
+          8.2254e-04, -3.3112e-03],
+        ...,
+        [-7.7486e-04,  8.9884e-04,  7.2813e-04,  ..., -8.2064e-04,
+         -7.0524e-04,  4.5872e-04],
+        [-2.4548e-03, -2.0370e-03, -5.0240e-03,  ..., -9.2077e-04,
+         -7.0801e-03, -1.5140e-05],
+        [-6.0539e-03, -1.2684e-03, -7.7724e-04,  ..., -4.2653e-04,
+         -5.7220e-03, -2.0447e-03]], device='cuda:0')
+Epoch 25, bias, value: tensor([ 0.0167, -0.0189,  0.0082, -0.0207,  0.0159,  0.0052, -0.0133, -0.0284,
+         0.0110, -0.0112], device='cuda:0'), grad: tensor([ 3.3936e-02,  6.0558e-04,  1.8845e-02,  2.2156e-02, -2.9541e-02,
+         4.0283e-02, -4.8096e-02,  1.5717e-03, -3.9734e-02, -9.3102e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 24, time 225.62, cls_loss 0.8252 cls_loss_mapping 0.0758 cls_loss_causal 0.7962 re_mapping 0.0254 re_causal 0.0687 /// teacc 97.50 lr 0.00010000
+Epoch 26, weight, value: tensor([[-0.0064,  0.0226, -0.0624,  ..., -0.0260,  0.0170,  0.0136],
+        [-0.0273, -0.0475,  0.0178,  ..., -0.0232, -0.0547,  0.0461],
+        [-0.0257, -0.0083, -0.0420,  ..., -0.0608, -0.0297,  0.0077],
+        ...,
+        [-0.0137, -0.0066, -0.0255,  ..., -0.0592,  0.0107,  0.0198],
+        [-0.0567, -0.0328, -0.0345,  ..., -0.0231, -0.0294, -0.0500],
+        [-0.0055,  0.0017, -0.0435,  ..., -0.0239,  0.0286, -0.0054]],
+       device='cuda:0'), grad: tensor([[ 1.6432e-03, -2.9707e-04, -6.6757e-04,  ..., -2.0161e-03,
+          3.2654e-03,  6.0425e-03],
+        [ 5.2567e-03,  1.1969e-03, -2.8682e-04,  ...,  1.9445e-03,
+          3.4885e-03,  4.9477e-03],
+        [-5.6305e-03,  5.8699e-04, -2.7442e-04,  ..., -1.6794e-03,
+         -2.0523e-03, -1.4137e-02],
+        ...,
+        [ 1.5129e-02,  3.8738e-03,  2.6951e-03,  ...,  4.0283e-03,
+          8.3389e-03,  2.2079e-02],
+        [-1.3420e-02,  1.0223e-03,  1.3094e-03,  ..., -5.7727e-05,
+         -2.9640e-03, -1.5541e-02],
+        [-2.8553e-03, -2.2411e-03, -3.2177e-03,  ..., -1.1168e-03,
+          1.1473e-03,  1.1673e-03]], device='cuda:0')
+Epoch 26, bias, value: tensor([ 0.0161, -0.0182,  0.0084, -0.0209,  0.0161,  0.0054, -0.0128, -0.0285,
+         0.0106, -0.0115], device='cuda:0'), grad: tensor([ 0.0096,  0.0167, -0.0147, -0.0398,  0.0183, -0.0039, -0.0103,  0.0487,
+        -0.0207, -0.0039], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 25, time 225.37, cls_loss 0.8155 cls_loss_mapping 0.0903 cls_loss_causal 0.7812 re_mapping 0.0239 re_causal 0.0633 /// teacc 97.87 lr 0.00010000
+Epoch 27, weight, value: tensor([[-0.0067,  0.0243, -0.0636,  ..., -0.0266,  0.0178,  0.0143],
+        [-0.0272, -0.0479,  0.0185,  ..., -0.0237, -0.0544,  0.0461],
+        [-0.0263, -0.0092, -0.0427,  ..., -0.0617, -0.0305,  0.0072],
+        ...,
+        [-0.0139, -0.0069, -0.0256,  ..., -0.0589,  0.0100,  0.0206],
+        [-0.0570, -0.0334, -0.0351,  ..., -0.0240, -0.0298, -0.0506],
+        [-0.0051,  0.0017, -0.0436,  ..., -0.0247,  0.0287, -0.0051]],
+       device='cuda:0'), grad: tensor([[-0.0207, -0.0075,  0.0004,  ..., -0.0007, -0.0127, -0.0198],
+        [-0.0033,  0.0007, -0.0169,  ..., -0.0058, -0.0011, -0.0104],
+        [ 0.0065,  0.0017,  0.0184,  ...,  0.0064,  0.0056,  0.0182],
+        ...,
+        [ 0.0201,  0.0083,  0.0015,  ...,  0.0004,  0.0172,  0.0178],
+        [-0.0004, -0.0118, -0.0267,  ..., -0.0361, -0.0098, -0.0065],
+        [-0.0078, -0.0065,  0.0010,  ...,  0.0003, -0.0089,  0.0003]],
+       device='cuda:0')
+Epoch 27, bias, value: tensor([ 0.0164, -0.0180,  0.0078, -0.0208,  0.0157,  0.0060, -0.0132, -0.0284,
+         0.0108, -0.0115], device='cuda:0'), grad: tensor([-0.0526, -0.0471,  0.0571,  0.0060,  0.0337,  0.0634, -0.0573,  0.0620,
+        -0.0698,  0.0044], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 26, time 225.59, cls_loss 0.7922 cls_loss_mapping 0.0682 cls_loss_causal 0.7592 re_mapping 0.0249 re_causal 0.0685 /// teacc 97.76 lr 0.00010000
+Epoch 28, weight, value: tensor([[-0.0061,  0.0244, -0.0652,  ..., -0.0273,  0.0186,  0.0145],
+        [-0.0276, -0.0492,  0.0184,  ..., -0.0247, -0.0548,  0.0458],
+        [-0.0264, -0.0083, -0.0435,  ..., -0.0627, -0.0296,  0.0072],
+        ...,
+        [-0.0144, -0.0062, -0.0253,  ..., -0.0586,  0.0097,  0.0210],
+        [-0.0573, -0.0328, -0.0355,  ..., -0.0232, -0.0298, -0.0504],
+        [-0.0047,  0.0005, -0.0437,  ..., -0.0253,  0.0282, -0.0046]],
+       device='cuda:0'), grad: tensor([[ 1.4658e-03,  2.2247e-05,  6.7186e-04,  ...,  9.4843e-04,
+         -5.6982e-04,  2.8057e-03],
+        [ 1.2894e-03,  9.1410e-04,  9.7096e-05,  ..., -6.5842e-03,
+          1.9245e-03,  6.7101e-03],
+        [-1.1368e-02,  6.3181e-04,  1.5974e-04,  ...,  2.6727e-04,
+         -2.8351e-02, -7.2060e-03],
+        ...,
+        [ 2.3994e-03,  6.4850e-03,  8.4066e-04,  ...,  7.0477e-04,
+          1.8311e-03,  4.5280e-03],
+        [ 3.9940e-03, -4.2839e-03, -5.3368e-03,  ..., -1.2268e-02,
+          1.2579e-03,  7.0534e-03],
+        [ 1.0239e-02, -7.7934e-03, -2.3580e-04,  ..., -3.9339e-04,
+          5.3406e-03, -1.6510e-02]], device='cuda:0')
+Epoch 28, bias, value: tensor([ 0.0163, -0.0180,  0.0076, -0.0210,  0.0155,  0.0058, -0.0131, -0.0281,
+         0.0107, -0.0109], device='cuda:0'), grad: tensor([ 0.0210,  0.0060, -0.0276,  0.0422, -0.0042, -0.0419,  0.0494,  0.0031,
+        -0.0339, -0.0141], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 27----------------------------------------------------
+epoch 27, time 225.95, cls_loss 0.8272 cls_loss_mapping 0.0813 cls_loss_causal 0.7961 re_mapping 0.0245 re_causal 0.0681 /// teacc 97.94 lr 0.00010000
+Epoch 29, weight, value: tensor([[-0.0061,  0.0249, -0.0661,  ..., -0.0283,  0.0188,  0.0143],
+        [-0.0277, -0.0494,  0.0196,  ..., -0.0244, -0.0554,  0.0463],
+        [-0.0269, -0.0083, -0.0442,  ..., -0.0632, -0.0298,  0.0075],
+        ...,
+        [-0.0143, -0.0077, -0.0276,  ..., -0.0593,  0.0094,  0.0220],
+        [-0.0578, -0.0340, -0.0358,  ..., -0.0232, -0.0295, -0.0510],
+        [-0.0046,  0.0004, -0.0439,  ..., -0.0264,  0.0280, -0.0047]],
+       device='cuda:0'), grad: tensor([[-0.0138, -0.0098, -0.0056,  ...,  0.0003, -0.0134,  0.0023],
+        [-0.0171, -0.0027,  0.0004,  ..., -0.0002, -0.0106, -0.0248],
+        [-0.0005,  0.0052,  0.0016,  ...,  0.0044, -0.0018, -0.0039],
+        ...,
+        [ 0.0051,  0.0010,  0.0007,  ...,  0.0005,  0.0036,  0.0059],
+        [-0.0058,  0.0027,  0.0040,  ...,  0.0033, -0.0020, -0.0029],
+        [ 0.0131,  0.0018,  0.0008,  ...,  0.0005,  0.0115,  0.0045]],
+       device='cuda:0')
+Epoch 29, bias, value: tensor([ 0.0160, -0.0176,  0.0073, -0.0204,  0.0151,  0.0054, -0.0129, -0.0279,
+         0.0104, -0.0107], device='cuda:0'), grad: tensor([-0.0389, -0.0920, -0.0158,  0.0122,  0.0142,  0.0376,  0.0251,  0.0260,
+        -0.0116,  0.0433], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 28, time 225.54, cls_loss 0.8088 cls_loss_mapping 0.0799 cls_loss_causal 0.7746 re_mapping 0.0244 re_causal 0.0643 /// teacc 97.68 lr 0.00010000
+Epoch 30, weight, value: tensor([[-0.0061,  0.0260, -0.0667,  ..., -0.0291,  0.0194,  0.0146],
+        [-0.0283, -0.0502,  0.0195,  ..., -0.0258, -0.0564,  0.0460],
+        [-0.0269, -0.0102, -0.0453,  ..., -0.0635, -0.0294,  0.0083],
+        ...,
+        [-0.0144, -0.0082, -0.0284,  ..., -0.0601,  0.0093,  0.0229],
+        [-0.0579, -0.0351, -0.0361,  ..., -0.0244, -0.0290, -0.0514],
+        [-0.0047,  0.0011, -0.0441,  ..., -0.0269,  0.0279, -0.0055]],
+       device='cuda:0'), grad: tensor([[-0.0027, -0.0052,  0.0004,  ..., -0.0015, -0.0004,  0.0007],
+        [-0.0288,  0.0007, -0.0033,  ..., -0.0027, -0.0113, -0.0249],
+        [ 0.0098,  0.0022,  0.0061,  ...,  0.0061,  0.0107,  0.0131],
+        ...,
+        [ 0.0117,  0.0053,  0.0040,  ...,  0.0052,  0.0090,  0.0210],
+        [ 0.0070, -0.0059, -0.0126,  ..., -0.0091,  0.0045, -0.0083],
+        [ 0.0016,  0.0035,  0.0033,  ...,  0.0026,  0.0011,  0.0098]],
+       device='cuda:0')
+Epoch 30, bias, value: tensor([ 0.0159, -0.0179,  0.0070, -0.0204,  0.0158,  0.0056, -0.0133, -0.0282,
+         0.0109, -0.0108], device='cuda:0'), grad: tensor([ 0.0020, -0.0900,  0.0465, -0.0049, -0.0489,  0.0517, -0.0304,  0.0629,
+        -0.0129,  0.0239], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 29, time 225.77, cls_loss 0.7933 cls_loss_mapping 0.0776 cls_loss_causal 0.7471 re_mapping 0.0245 re_causal 0.0664 /// teacc 97.91 lr 0.00010000
+Epoch 31, weight, value: tensor([[-0.0058,  0.0270, -0.0674,  ..., -0.0302,  0.0193,  0.0134],
+        [-0.0290, -0.0515,  0.0193,  ..., -0.0261, -0.0576,  0.0460],
+        [-0.0273, -0.0100, -0.0452,  ..., -0.0633, -0.0301,  0.0089],
+        ...,
+        [-0.0138, -0.0092, -0.0297,  ..., -0.0608,  0.0097,  0.0233],
+        [-0.0582, -0.0365, -0.0376,  ..., -0.0239, -0.0288, -0.0509],
+        [-0.0044,  0.0012, -0.0449,  ..., -0.0270,  0.0275, -0.0065]],
+       device='cuda:0'), grad: tensor([[-0.0116, -0.0043, -0.0020,  ..., -0.0001, -0.0160, -0.0028],
+        [ 0.0033,  0.0009,  0.0021,  ...,  0.0006,  0.0022,  0.0002],
+        [ 0.0060,  0.0021, -0.0035,  ..., -0.0024,  0.0053, -0.0019],
+        ...,
+        [ 0.0042,  0.0014,  0.0008,  ...,  0.0002,  0.0033,  0.0058],
+        [-0.0084, -0.0026, -0.0074,  ...,  0.0003, -0.0040, -0.0150],
+        [ 0.0024,  0.0008,  0.0005,  ...,  0.0006,  0.0020,  0.0030]],
+       device='cuda:0')
+Epoch 31, bias, value: tensor([ 0.0153, -0.0178,  0.0067, -0.0198,  0.0158,  0.0057, -0.0132, -0.0277,
+         0.0107, -0.0112], device='cuda:0'), grad: tensor([-0.0161, -0.0075,  0.0094,  0.0463, -0.0387,  0.0186,  0.0238,  0.0221,
+        -0.0705,  0.0126], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 30, time 225.80, cls_loss 0.7820 cls_loss_mapping 0.0686 cls_loss_causal 0.7498 re_mapping 0.0237 re_causal 0.0646 /// teacc 97.94 lr 0.00010000
+Epoch 32, weight, value: tensor([[-0.0046,  0.0265, -0.0692,  ..., -0.0308,  0.0215,  0.0136],
+        [-0.0293, -0.0521,  0.0200,  ..., -0.0266, -0.0583,  0.0464],
+        [-0.0277, -0.0095, -0.0456,  ..., -0.0636, -0.0308,  0.0102],
+        ...,
+        [-0.0139, -0.0094, -0.0306,  ..., -0.0597,  0.0097,  0.0234],
+        [-0.0590, -0.0372, -0.0376,  ..., -0.0243, -0.0302, -0.0513],
+        [-0.0041,  0.0014, -0.0440,  ..., -0.0275,  0.0276, -0.0068]],
+       device='cuda:0'), grad: tensor([[ 4.0779e-03,  1.1277e-04,  1.4746e-04,  ...,  1.0389e-04,
+          4.1351e-03,  3.6259e-03],
+        [ 3.7575e-03,  6.4492e-05,  4.2343e-04,  ...,  6.4993e-04,
+          4.9629e-03,  6.3972e-03],
+        [-1.2680e-02, -6.3171e-03, -3.3970e-03,  ...,  2.3866e-04,
+         -1.3603e-02, -1.3252e-02],
+        ...,
+        [ 3.3092e-03, -1.9550e-03,  6.4230e-04,  ...,  5.5313e-04,
+          1.1627e-02, -3.1776e-03],
+        [ 2.8744e-03,  1.1091e-03,  1.3256e-03,  ...,  1.3533e-03,
+          3.0174e-03,  4.2725e-03],
+        [-1.9140e-03,  1.7624e-03,  3.5787e-04,  ...,  1.5793e-03,
+         -1.1475e-02,  2.9774e-03]], device='cuda:0')
+Epoch 32, bias, value: tensor([ 0.0157, -0.0175,  0.0066, -0.0200,  0.0152,  0.0064, -0.0136, -0.0282,
+         0.0107, -0.0107], device='cuda:0'), grad: tensor([ 0.0128,  0.0213, -0.0682,  0.0133,  0.0346,  0.0056, -0.0500,  0.0100,
+         0.0182,  0.0023], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 31----------------------------------------------------
+epoch 31, time 226.23, cls_loss 0.7772 cls_loss_mapping 0.0667 cls_loss_causal 0.7337 re_mapping 0.0238 re_causal 0.0652 /// teacc 98.02 lr 0.00010000
+Epoch 33, weight, value: tensor([[-0.0044,  0.0271, -0.0698,  ..., -0.0327,  0.0216,  0.0151],
+        [-0.0300, -0.0527,  0.0204,  ..., -0.0267, -0.0591,  0.0459],
+        [-0.0289, -0.0101, -0.0459,  ..., -0.0647, -0.0316,  0.0099],
+        ...,
+        [-0.0129, -0.0098, -0.0307,  ..., -0.0600,  0.0102,  0.0245],
+        [-0.0596, -0.0373, -0.0380,  ..., -0.0253, -0.0307, -0.0514],
+        [-0.0041,  0.0013, -0.0443,  ..., -0.0286,  0.0278, -0.0076]],
+       device='cuda:0'), grad: tensor([[-0.0057, -0.0106, -0.0024,  ..., -0.0066, -0.0021,  0.0033],
+        [ 0.0087,  0.0006,  0.0020,  ...,  0.0033,  0.0118,  0.0091],
+        [-0.0116,  0.0004,  0.0006,  ...,  0.0013, -0.0053, -0.0182],
+        ...,
+        [-0.0162,  0.0001, -0.0042,  ..., -0.0034, -0.0140, -0.0125],
+        [-0.0031, -0.0027,  0.0005,  ..., -0.0100, -0.0090, -0.0017],
+        [ 0.0056,  0.0002,  0.0004,  ..., -0.0025,  0.0008,  0.0059]],
+       device='cuda:0')
+Epoch 33, bias, value: tensor([ 0.0163, -0.0175,  0.0058, -0.0198,  0.0150,  0.0063, -0.0137, -0.0275,
+         0.0106, -0.0110], device='cuda:0'), grad: tensor([-0.0060,  0.0501, -0.0617,  0.0133,  0.0076,  0.0260,  0.0471, -0.0594,
+        -0.0145, -0.0026], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 32----------------------------------------------------
+epoch 32, time 225.92, cls_loss 0.7243 cls_loss_mapping 0.0626 cls_loss_causal 0.6857 re_mapping 0.0222 re_causal 0.0574 /// teacc 98.25 lr 0.00010000
+Epoch 34, weight, value: tensor([[-0.0041,  0.0287, -0.0698,  ..., -0.0333,  0.0221,  0.0152],
+        [-0.0302, -0.0525,  0.0215,  ..., -0.0261, -0.0598,  0.0455],
+        [-0.0290, -0.0108, -0.0461,  ..., -0.0649, -0.0319,  0.0106],
+        ...,
+        [-0.0132, -0.0118, -0.0321,  ..., -0.0609,  0.0101,  0.0245],
+        [-0.0590, -0.0376, -0.0379,  ..., -0.0248, -0.0300, -0.0514],
+        [-0.0043,  0.0018, -0.0442,  ..., -0.0280,  0.0277, -0.0082]],
+       device='cuda:0'), grad: tensor([[ 0.0041,  0.0016,  0.0003,  ...,  0.0002,  0.0059,  0.0029],
+        [-0.0012, -0.0093, -0.0012,  ..., -0.0035, -0.0025, -0.0030],
+        [-0.0052,  0.0015,  0.0001,  ...,  0.0009, -0.0055, -0.0068],
+        ...,
+        [-0.0054,  0.0002,  0.0002,  ...,  0.0003, -0.0031, -0.0023],
+        [-0.0312,  0.0058,  0.0019,  ...,  0.0009, -0.0200, -0.0015],
+        [-0.0261, -0.0077, -0.0038,  ..., -0.0015, -0.0210, -0.0046]],
+       device='cuda:0')
+Epoch 34, bias, value: tensor([ 0.0160, -0.0176,  0.0058, -0.0196,  0.0156,  0.0063, -0.0139, -0.0280,
+         0.0113, -0.0113], device='cuda:0'), grad: tensor([ 0.0027, -0.0438, -0.0206,  0.0305,  0.0936,  0.0198,  0.0185, -0.0105,
+        -0.0299, -0.0604], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 33, time 224.88, cls_loss 0.7680 cls_loss_mapping 0.0642 cls_loss_causal 0.7380 re_mapping 0.0210 re_causal 0.0575 /// teacc 98.09 lr 0.00010000
+Epoch 35, weight, value: tensor([[-0.0036,  0.0296, -0.0701,  ..., -0.0336,  0.0231,  0.0152],
+        [-0.0311, -0.0519,  0.0224,  ..., -0.0263, -0.0600,  0.0454],
+        [-0.0289, -0.0117, -0.0469,  ..., -0.0653, -0.0316,  0.0111],
+        ...,
+        [-0.0125, -0.0112, -0.0322,  ..., -0.0621,  0.0105,  0.0248],
+        [-0.0600, -0.0383, -0.0390,  ..., -0.0253, -0.0306, -0.0515],
+        [-0.0041,  0.0012, -0.0438,  ..., -0.0286,  0.0276, -0.0087]],
+       device='cuda:0'), grad: tensor([[-0.0317, -0.0069, -0.0040,  ..., -0.0067, -0.0256, -0.0102],
+        [ 0.0034, -0.0048,  0.0012,  ...,  0.0024, -0.0030,  0.0013],
+        [ 0.0093,  0.0040,  0.0017,  ...,  0.0016,  0.0088,  0.0041],
+        ...,
+        [ 0.0079,  0.0012,  0.0006,  ...,  0.0004,  0.0053,  0.0035],
+        [ 0.0027, -0.0037, -0.0019,  ..., -0.0016, -0.0012,  0.0020],
+        [ 0.0205,  0.0039,  0.0022,  ...,  0.0011,  0.0118,  0.0052]],
+       device='cuda:0')
+Epoch 35, bias, value: tensor([ 0.0153, -0.0179,  0.0063, -0.0196,  0.0158,  0.0063, -0.0136, -0.0283,
+         0.0112, -0.0112], device='cuda:0'), grad: tensor([-0.0543, -0.0015,  0.0439, -0.0051, -0.0599, -0.0221,  0.0282,  0.0331,
+        -0.0211,  0.0590], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 34, time 225.00, cls_loss 0.7714 cls_loss_mapping 0.0624 cls_loss_causal 0.7344 re_mapping 0.0213 re_causal 0.0560 /// teacc 98.24 lr 0.00010000
+Epoch 36, weight, value: tensor([[-0.0033,  0.0308, -0.0704,  ..., -0.0342,  0.0239,  0.0147],
+        [-0.0318, -0.0534,  0.0229,  ..., -0.0263, -0.0610,  0.0456],
+        [-0.0292, -0.0128, -0.0475,  ..., -0.0651, -0.0318,  0.0111],
+        ...,
+        [-0.0118, -0.0115, -0.0334,  ..., -0.0640,  0.0103,  0.0251],
+        [-0.0604, -0.0387, -0.0396,  ..., -0.0259, -0.0308, -0.0524],
+        [-0.0043,  0.0017, -0.0434,  ..., -0.0288,  0.0282, -0.0087]],
+       device='cuda:0'), grad: tensor([[-1.0338e-02, -7.8125e-03, -3.2539e-03,  ..., -4.6463e-03,
+         -1.3573e-02, -1.2207e-04],
+        [ 3.0117e-03,  1.8799e-04, -7.7367e-05,  ...,  3.4571e-04,
+          2.2888e-03,  1.0948e-03],
+        [-5.4817e-03,  1.2188e-03,  1.2617e-03,  ...,  1.1387e-03,
+         -2.3689e-03, -5.6610e-03],
+        ...,
+        [-5.1956e-03,  2.9254e-04, -6.2037e-04,  ...,  4.2820e-04,
+         -6.2141e-03, -3.7060e-03],
+        [ 3.5362e-03,  8.4972e-04,  3.1471e-04,  ...,  4.4155e-04,
+          2.7084e-03,  1.1358e-03],
+        [-7.9536e-04,  7.0620e-04, -2.2602e-03,  ..., -3.1281e-03,
+          5.0507e-03, -7.6628e-04]], device='cuda:0')
+Epoch 36, bias, value: tensor([ 0.0153, -0.0177,  0.0065, -0.0193,  0.0153,  0.0064, -0.0130, -0.0281,
+         0.0109, -0.0117], device='cuda:0'), grad: tensor([-0.0172,  0.0145, -0.0085,  0.0205, -0.0084,  0.0116,  0.0177, -0.0285,
+         0.0152, -0.0169], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 35, time 225.17, cls_loss 0.7618 cls_loss_mapping 0.0704 cls_loss_causal 0.7228 re_mapping 0.0212 re_causal 0.0575 /// teacc 98.15 lr 0.00010000
+Epoch 37, weight, value: tensor([[-0.0028,  0.0314, -0.0712,  ..., -0.0339,  0.0246,  0.0143],
+        [-0.0320, -0.0531,  0.0237,  ..., -0.0267, -0.0610,  0.0452],
+        [-0.0296, -0.0118, -0.0482,  ..., -0.0671, -0.0319,  0.0110],
+        ...,
+        [-0.0118, -0.0121, -0.0339,  ..., -0.0643,  0.0101,  0.0259],
+        [-0.0609, -0.0392, -0.0400,  ..., -0.0260, -0.0310, -0.0532],
+        [-0.0042,  0.0015, -0.0438,  ..., -0.0290,  0.0281, -0.0087]],
+       device='cuda:0'), grad: tensor([[ 1.9470e-02,  3.9101e-03,  2.2926e-03,  ...,  3.5629e-03,
+          5.9738e-03,  5.8823e-03],
+        [ 4.5037e-04,  4.8566e-04,  1.8680e-04,  ...,  6.5029e-05,
+          1.3628e-03, -2.5864e-03],
+        [ 7.6180e-03,  5.8413e-04,  3.7098e-04,  ...,  3.1853e-04,
+          1.6165e-03,  4.6463e-03],
+        ...,
+        [ 1.9730e-02,  1.3294e-03,  4.5800e-04,  ...,  1.3506e-04,
+          6.6071e-03,  1.3252e-02],
+        [-5.8289e-03,  1.7443e-03,  1.0424e-03,  ...,  3.3307e-04,
+          7.9751e-05, -9.9869e-03],
+        [ 2.5063e-03, -6.6376e-03, -5.9128e-03,  ..., -2.3327e-03,
+          4.1842e-04,  4.4022e-03]], device='cuda:0')
+Epoch 37, bias, value: tensor([ 0.0154, -0.0182,  0.0066, -0.0194,  0.0153,  0.0064, -0.0131, -0.0274,
+         0.0108, -0.0117], device='cuda:0'), grad: tensor([ 0.0547, -0.0019,  0.0210,  0.0098, -0.0249, -0.0014, -0.0874,  0.0580,
+        -0.0333,  0.0053], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 36----------------------------------------------------
+epoch 36, time 226.70, cls_loss 0.7695 cls_loss_mapping 0.0572 cls_loss_causal 0.7248 re_mapping 0.0201 re_causal 0.0547 /// teacc 98.39 lr 0.00010000
+Epoch 38, weight, value: tensor([[-0.0028,  0.0322, -0.0720,  ..., -0.0343,  0.0244,  0.0132],
+        [-0.0316, -0.0540,  0.0249,  ..., -0.0255, -0.0602,  0.0463],
+        [-0.0300, -0.0122, -0.0496,  ..., -0.0700, -0.0321,  0.0118],
+        ...,
+        [-0.0122, -0.0123, -0.0344,  ..., -0.0655,  0.0101,  0.0257],
+        [-0.0611, -0.0397, -0.0402,  ..., -0.0260, -0.0314, -0.0538],
+        [-0.0043,  0.0015, -0.0439,  ..., -0.0295,  0.0279, -0.0089]],
+       device='cuda:0'), grad: tensor([[-1.3748e-02, -2.3425e-04, -3.9279e-05,  ...,  4.7255e-04,
+         -4.3411e-03, -1.5755e-03],
+        [-8.4698e-05,  1.2722e-03,  1.5106e-03,  ..., -5.0392e-03,
+          3.1548e-03,  6.3019e-03],
+        [ 4.0703e-03, -7.9107e-04, -5.3358e-04,  ..., -3.1757e-04,
+          7.1411e-03, -6.0201e-05],
+        ...,
+        [ 4.3221e-03,  7.8630e-04,  2.8000e-03,  ...,  1.3132e-03,
+         -4.3035e-04, -1.1629e-04],
+        [ 6.9885e-03,  8.3113e-04,  1.2293e-03,  ...,  1.4505e-03,
+          3.8929e-03,  6.6376e-03],
+        [ 3.5095e-03,  1.4567e-04,  1.2970e-03,  ...,  6.7520e-04,
+         -6.4240e-03,  5.3835e-04]], device='cuda:0')
+Epoch 38, bias, value: tensor([ 0.0148, -0.0174,  0.0060, -0.0189,  0.0158,  0.0060, -0.0131, -0.0277,
+         0.0107, -0.0117], device='cuda:0'), grad: tensor([-0.0197,  0.0012,  0.0370, -0.0153, -0.0024, -0.0675,  0.0312,  0.0058,
+         0.0327, -0.0029], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 37, time 225.79, cls_loss 0.7430 cls_loss_mapping 0.0592 cls_loss_causal 0.7026 re_mapping 0.0201 re_causal 0.0532 /// teacc 98.10 lr 0.00010000
+Epoch 39, weight, value: tensor([[-0.0022,  0.0326, -0.0722,  ..., -0.0347,  0.0252,  0.0135],
+        [-0.0313, -0.0543,  0.0279,  ..., -0.0249, -0.0601,  0.0465],
+        [-0.0293, -0.0132, -0.0511,  ..., -0.0705, -0.0320,  0.0124],
+        ...,
+        [-0.0131, -0.0129, -0.0350,  ..., -0.0667,  0.0091,  0.0255],
+        [-0.0618, -0.0399, -0.0411,  ..., -0.0269, -0.0312, -0.0532],
+        [-0.0033,  0.0016, -0.0449,  ..., -0.0295,  0.0282, -0.0080]],
+       device='cuda:0'), grad: tensor([[ 0.0054,  0.0038,  0.0016,  ...,  0.0006,  0.0031,  0.0022],
+        [ 0.0035,  0.0005,  0.0003,  ...,  0.0005,  0.0018,  0.0017],
+        [ 0.0059,  0.0029,  0.0029,  ...,  0.0030,  0.0070,  0.0043],
+        ...,
+        [ 0.0108,  0.0023,  0.0032,  ...,  0.0002,  0.0072,  0.0091],
+        [ 0.0052,  0.0019,  0.0020,  ...,  0.0010,  0.0028,  0.0025],
+        [ 0.0012,  0.0074,  0.0062,  ...,  0.0007,  0.0054, -0.0141]],
+       device='cuda:0')
+Epoch 39, bias, value: tensor([ 0.0147, -0.0168,  0.0062, -0.0189,  0.0154,  0.0057, -0.0135, -0.0279,
+         0.0103, -0.0107], device='cuda:0'), grad: tensor([ 0.0177,  0.0134,  0.0366, -0.0025, -0.0501, -0.0311, -0.0173,  0.0395,
+         0.0411, -0.0473], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 38, time 225.58, cls_loss 0.7677 cls_loss_mapping 0.0598 cls_loss_causal 0.7347 re_mapping 0.0212 re_causal 0.0578 /// teacc 98.15 lr 0.00010000
+Epoch 40, weight, value: tensor([[-0.0027,  0.0327, -0.0751,  ..., -0.0362,  0.0249,  0.0136],
+        [-0.0323, -0.0553,  0.0271,  ..., -0.0264, -0.0605,  0.0458],
+        [-0.0309, -0.0127, -0.0489,  ..., -0.0703, -0.0335,  0.0128],
+        ...,
+        [-0.0125, -0.0124, -0.0339,  ..., -0.0669,  0.0102,  0.0262],
+        [-0.0615, -0.0403, -0.0417,  ..., -0.0269, -0.0302, -0.0540],
+        [-0.0035,  0.0011, -0.0454,  ..., -0.0307,  0.0275, -0.0082]],
+       device='cuda:0'), grad: tensor([[ 0.0043,  0.0003,  0.0009,  ...,  0.0010,  0.0058,  0.0036],
+        [ 0.0005,  0.0002,  0.0052,  ...,  0.0067, -0.0086,  0.0030],
+        [ 0.0050,  0.0009,  0.0014,  ...,  0.0009,  0.0020,  0.0039],
+        ...,
+        [-0.0094, -0.0025, -0.0051,  ...,  0.0005, -0.0001, -0.0121],
+        [-0.0002, -0.0118, -0.0104,  ..., -0.0217,  0.0018, -0.0027],
+        [ 0.0028,  0.0023,  0.0043,  ...,  0.0010,  0.0010,  0.0047]],
+       device='cuda:0')
+Epoch 40, bias, value: tensor([ 0.0145, -0.0179,  0.0060, -0.0184,  0.0155,  0.0052, -0.0127, -0.0273,
+         0.0106, -0.0110], device='cuda:0'), grad: tensor([ 0.0321, -0.0007,  0.0279,  0.0447, -0.0114,  0.0288, -0.0474, -0.0421,
+        -0.0436,  0.0117], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 39, time 225.75, cls_loss 0.7612 cls_loss_mapping 0.0577 cls_loss_causal 0.7210 re_mapping 0.0201 re_causal 0.0522 /// teacc 98.33 lr 0.00010000
+Epoch 41, weight, value: tensor([[-0.0023,  0.0338, -0.0752,  ..., -0.0364,  0.0256,  0.0143],
+        [-0.0330, -0.0554,  0.0279,  ..., -0.0272, -0.0610,  0.0458],
+        [-0.0310, -0.0129, -0.0490,  ..., -0.0696, -0.0329,  0.0133],
+        ...,
+        [-0.0127, -0.0126, -0.0350,  ..., -0.0670,  0.0098,  0.0258],
+        [-0.0620, -0.0407, -0.0424,  ..., -0.0271, -0.0308, -0.0551],
+        [-0.0039,  0.0012, -0.0463,  ..., -0.0311,  0.0278, -0.0073]],
+       device='cuda:0'), grad: tensor([[-0.0010, -0.0008, -0.0006,  ...,  0.0028,  0.0005,  0.0022],
+        [ 0.0052, -0.0007, -0.0030,  ..., -0.0008,  0.0010,  0.0026],
+        [ 0.0059,  0.0029,  0.0030,  ...,  0.0025,  0.0044, -0.0030],
+        ...,
+        [ 0.0201,  0.0016,  0.0011,  ...,  0.0015,  0.0061,  0.0142],
+        [ 0.0063,  0.0020,  0.0025,  ...,  0.0018,  0.0025,  0.0051],
+        [-0.0251, -0.0075, -0.0065,  ...,  0.0016, -0.0070, -0.0101]],
+       device='cuda:0')
+Epoch 41, bias, value: tensor([ 0.0145, -0.0177,  0.0058, -0.0175,  0.0155,  0.0051, -0.0127, -0.0275,
+         0.0100, -0.0110], device='cuda:0'), grad: tensor([ 0.0093,  0.0278,  0.0132, -0.0050,  0.0186, -0.0554, -0.0304,  0.0610,
+         0.0333, -0.0724], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 40, time 225.67, cls_loss 0.7558 cls_loss_mapping 0.0498 cls_loss_causal 0.7188 re_mapping 0.0202 re_causal 0.0547 /// teacc 98.35 lr 0.00010000
+Epoch 42, weight, value: tensor([[-0.0012,  0.0347, -0.0752,  ..., -0.0372,  0.0265,  0.0150],
+        [-0.0326, -0.0551,  0.0280,  ..., -0.0267, -0.0614,  0.0459],
+        [-0.0323, -0.0133, -0.0496,  ..., -0.0705, -0.0345,  0.0131],
+        ...,
+        [-0.0121, -0.0135, -0.0358,  ..., -0.0683,  0.0095,  0.0270],
+        [-0.0620, -0.0407, -0.0421,  ..., -0.0266, -0.0304, -0.0564],
+        [-0.0035,  0.0017, -0.0463,  ..., -0.0311,  0.0283, -0.0081]],
+       device='cuda:0'), grad: tensor([[ 9.1171e-03,  4.4918e-04,  8.2541e-04,  ...,  7.1001e-04,
+          3.2253e-03,  5.4893e-03],
+        [ 5.1117e-03,  1.4305e-04,  6.4254e-05,  ...,  2.7704e-04,
+          2.3613e-03,  3.6182e-03],
+        [ 3.4962e-03,  2.4140e-04,  5.0735e-04,  ..., -2.0523e-03,
+          1.7452e-03, -5.7755e-03],
+        ...,
+        [-2.7733e-03, -9.9659e-05, -4.0245e-04,  ...,  2.8539e-04,
+         -1.9474e-03, -8.3494e-04],
+        [-1.0765e-02,  5.8508e-04,  9.8515e-04,  ...,  1.3285e-03,
+         -5.4932e-03, -1.0971e-02],
+        [-9.5081e-04,  3.7432e-04,  8.2588e-04,  ...,  3.1066e-04,
+         -1.7452e-03, -1.2293e-03]], device='cuda:0')
+Epoch 42, bias, value: tensor([ 0.0147, -0.0175,  0.0057, -0.0180,  0.0149,  0.0053, -0.0123, -0.0271,
+         0.0102, -0.0113], device='cuda:0'), grad: tensor([ 0.0567,  0.0269, -0.0069, -0.0057,  0.0025,  0.0253, -0.0074,  0.0035,
+        -0.0793, -0.0157], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 41, time 225.04, cls_loss 0.7385 cls_loss_mapping 0.0597 cls_loss_causal 0.7056 re_mapping 0.0185 re_causal 0.0504 /// teacc 98.39 lr 0.00010000
+Epoch 43, weight, value: tensor([[-0.0015,  0.0352, -0.0762,  ..., -0.0383,  0.0265,  0.0146],
+        [-0.0338, -0.0560,  0.0283,  ..., -0.0264, -0.0622,  0.0462],
+        [-0.0321, -0.0134, -0.0490,  ..., -0.0693, -0.0338,  0.0135],
+        ...,
+        [-0.0125, -0.0139, -0.0338,  ..., -0.0693,  0.0092,  0.0275],
+        [-0.0615, -0.0420, -0.0422,  ..., -0.0274, -0.0306, -0.0568],
+        [-0.0025,  0.0015, -0.0470,  ..., -0.0307,  0.0285, -0.0082]],
+       device='cuda:0'), grad: tensor([[-3.0422e-03, -3.2043e-03,  4.0770e-04,  ..., -2.2030e-03,
+         -5.1117e-03, -4.7455e-03],
+        [ 3.6755e-03,  3.1710e-04,  4.3774e-04,  ...,  9.8896e-04,
+          2.2697e-03,  3.4103e-03],
+        [ 4.3106e-03,  7.0620e-04,  2.0962e-03,  ...,  3.8967e-03,
+          5.1422e-03,  7.4844e-03],
+        ...,
+        [ 4.9858e-03,  2.5773e-04,  9.5427e-05,  ...,  3.8934e-04,
+          4.0970e-03, -1.4477e-03],
+        [ 1.2169e-03,  7.0381e-04,  5.7459e-04,  ...,  1.3189e-03,
+          1.4629e-03,  3.6774e-03],
+        [-1.9897e-02, -9.3384e-03,  6.0737e-05,  ...,  4.1676e-04,
+         -4.3335e-02,  2.8210e-03]], device='cuda:0')
+Epoch 43, bias, value: tensor([ 0.0141, -0.0175,  0.0059, -0.0175,  0.0150,  0.0052, -0.0129, -0.0272,
+         0.0104, -0.0110], device='cuda:0'), grad: tensor([-0.0696,  0.0226,  0.0562, -0.0015,  0.0107, -0.0063, -0.0212,  0.0141,
+         0.0224, -0.0273], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 42, time 225.55, cls_loss 0.7251 cls_loss_mapping 0.0543 cls_loss_causal 0.6886 re_mapping 0.0190 re_causal 0.0519 /// teacc 98.12 lr 0.00010000
+Epoch 44, weight, value: tensor([[-0.0016,  0.0351, -0.0772,  ..., -0.0380,  0.0266,  0.0145],
+        [-0.0339, -0.0554,  0.0296,  ..., -0.0273, -0.0627,  0.0463],
+        [-0.0318, -0.0138, -0.0504,  ..., -0.0701, -0.0339,  0.0147],
+        ...,
+        [-0.0129, -0.0140, -0.0341,  ..., -0.0697,  0.0096,  0.0272],
+        [-0.0626, -0.0427, -0.0440,  ..., -0.0271, -0.0313, -0.0577],
+        [-0.0024,  0.0018, -0.0461,  ..., -0.0304,  0.0288, -0.0063]],
+       device='cuda:0'), grad: tensor([[-2.6718e-02,  1.5283e-04, -2.0528e-04,  ...,  6.0654e-04,
+         -4.6021e-02, -3.6097e-04],
+        [ 5.9547e-03,  1.0341e-04,  2.5734e-05,  ...,  4.3654e-04,
+          7.6828e-03,  1.4410e-03],
+        [-4.4274e-04,  5.2977e-04,  8.1301e-04,  ...,  1.1730e-03,
+         -1.7185e-03, -3.8528e-03],
+        ...,
+        [ 6.1493e-03,  4.6873e-04,  8.3923e-04,  ...,  6.2895e-04,
+          4.7607e-03,  3.2330e-03],
+        [ 3.3512e-03,  1.1021e-04, -7.5417e-03,  ...,  7.8201e-04,
+          1.4839e-03,  2.0084e-03],
+        [-8.4381e-03, -1.6689e-03, -6.5136e-04,  ...,  6.6328e-04,
+         -1.4677e-03, -7.6370e-03]], device='cuda:0')
+Epoch 44, bias, value: tensor([ 0.0138, -0.0175,  0.0057, -0.0176,  0.0145,  0.0061, -0.0134, -0.0274,
+         0.0101, -0.0099], device='cuda:0'), grad: tensor([-0.0635,  0.0260, -0.0121,  0.0131,  0.0211, -0.0116,  0.0088,  0.0264,
+         0.0118, -0.0200], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 43, time 225.39, cls_loss 0.7073 cls_loss_mapping 0.0509 cls_loss_causal 0.6729 re_mapping 0.0190 re_causal 0.0497 /// teacc 98.29 lr 0.00010000
+Epoch 45, weight, value: tensor([[-0.0010,  0.0355, -0.0778,  ..., -0.0377,  0.0277,  0.0146],
+        [-0.0347, -0.0558,  0.0307,  ..., -0.0269, -0.0633,  0.0464],
+        [-0.0316, -0.0134, -0.0508,  ..., -0.0710, -0.0344,  0.0153],
+        ...,
+        [-0.0125, -0.0147, -0.0352,  ..., -0.0703,  0.0089,  0.0278],
+        [-0.0628, -0.0430, -0.0447,  ..., -0.0278, -0.0320, -0.0573],
+        [-0.0019,  0.0020, -0.0457,  ..., -0.0305,  0.0287, -0.0065]],
+       device='cuda:0'), grad: tensor([[ 3.6678e-03, -3.6359e-05,  8.9693e-04,  ..., -3.8123e-04,
+          4.9019e-04,  4.6959e-03],
+        [-2.9254e-04,  8.9228e-05,  2.3365e-03,  ...,  2.8572e-03,
+         -9.9957e-05, -1.0605e-03],
+        [ 5.7983e-03,  7.3290e-04,  2.1667e-03,  ...,  2.1019e-03,
+          3.9330e-03,  5.1575e-03],
+        ...,
+        [-1.5160e-02,  2.6727e-04, -2.6550e-03,  ..., -5.0688e-04,
+         -2.3403e-03, -1.7868e-02],
+        [-5.6152e-03,  4.7994e-04, -8.8806e-03,  ..., -1.1002e-02,
+         -2.0778e-04, -2.2030e-04],
+        [-1.3371e-03, -2.2197e-04,  8.6451e-04,  ...,  5.1546e-04,
+         -2.9297e-03, -7.9918e-04]], device='cuda:0')
+Epoch 45, bias, value: tensor([ 0.0142, -0.0176,  0.0058, -0.0185,  0.0141,  0.0058, -0.0127, -0.0265,
+         0.0097, -0.0097], device='cuda:0'), grad: tensor([ 0.0161, -0.0032,  0.0218,  0.0146, -0.0175,  0.0132,  0.0323, -0.0465,
+        -0.0398,  0.0091], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 44, time 225.47, cls_loss 0.7125 cls_loss_mapping 0.0564 cls_loss_causal 0.6741 re_mapping 0.0179 re_causal 0.0480 /// teacc 98.15 lr 0.00010000
+Epoch 46, weight, value: tensor([[-0.0016,  0.0365, -0.0783,  ..., -0.0375,  0.0271,  0.0133],
+        [-0.0355, -0.0568,  0.0314,  ..., -0.0273, -0.0648,  0.0463],
+        [-0.0318, -0.0137, -0.0509,  ..., -0.0721, -0.0338,  0.0165],
+        ...,
+        [-0.0118, -0.0153, -0.0357,  ..., -0.0706,  0.0087,  0.0274],
+        [-0.0628, -0.0425, -0.0445,  ..., -0.0279, -0.0321, -0.0576],
+        [-0.0021,  0.0016, -0.0469,  ..., -0.0315,  0.0294, -0.0072]],
+       device='cuda:0'), grad: tensor([[ 4.9734e-04, -2.0199e-03, -2.4748e-04,  ...,  5.0259e-04,
+         -5.3883e-04,  1.6117e-03],
+        [ 4.8828e-03,  3.5143e-04,  4.6730e-05,  ...,  6.2227e-04,
+          4.4594e-03,  4.8180e-03],
+        [ 3.4847e-03,  4.0817e-04,  1.0700e-03,  ...,  1.5402e-03,
+          3.1376e-03,  3.6144e-03],
+        ...,
+        [ 1.3809e-03,  2.7895e-04, -1.1539e-03,  ..., -2.7313e-03,
+          2.0485e-03,  3.4790e-03],
+        [-1.5354e-03,  9.0265e-04, -5.5265e-04,  ..., -4.1237e-03,
+         -5.2147e-03, -9.3842e-03],
+        [-9.7122e-03, -1.3685e-04, -2.6436e-03,  ...,  1.8559e-03,
+         -4.9744e-03, -8.3389e-03]], device='cuda:0')
+Epoch 46, bias, value: tensor([ 0.0139, -0.0175,  0.0057, -0.0182,  0.0144,  0.0057, -0.0125, -0.0267,
+         0.0098, -0.0101], device='cuda:0'), grad: tensor([ 0.0123,  0.0241,  0.0141,  0.0043,  0.0242,  0.0349, -0.0269,  0.0031,
+        -0.0406, -0.0497], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 45, time 225.57, cls_loss 0.7316 cls_loss_mapping 0.0531 cls_loss_causal 0.6984 re_mapping 0.0188 re_causal 0.0499 /// teacc 98.39 lr 0.00010000
+Epoch 47, weight, value: tensor([[-0.0010,  0.0375, -0.0799,  ..., -0.0376,  0.0280,  0.0133],
+        [-0.0361, -0.0565,  0.0322,  ..., -0.0285, -0.0639,  0.0475],
+        [-0.0320, -0.0140, -0.0498,  ..., -0.0726, -0.0342,  0.0168],
+        ...,
+        [-0.0108, -0.0165, -0.0368,  ..., -0.0704,  0.0094,  0.0272],
+        [-0.0636, -0.0437, -0.0454,  ..., -0.0289, -0.0326, -0.0576],
+        [-0.0026,  0.0010, -0.0471,  ..., -0.0336,  0.0291, -0.0078]],
+       device='cuda:0'), grad: tensor([[ 0.0053,  0.0003,  0.0007,  ...,  0.0013,  0.0046,  0.0038],
+        [ 0.0066,  0.0003,  0.0015,  ...,  0.0017,  0.0058,  0.0070],
+        [-0.0056,  0.0006, -0.0008,  ...,  0.0019, -0.0069, -0.0110],
+        ...,
+        [ 0.0048,  0.0008,  0.0010,  ...,  0.0010,  0.0045,  0.0040],
+        [-0.0142,  0.0005, -0.0026,  ..., -0.0006, -0.0070, -0.0056],
+        [-0.0004, -0.0009,  0.0007,  ...,  0.0008, -0.0085, -0.0031]],
+       device='cuda:0')
+Epoch 47, bias, value: tensor([ 0.0145, -0.0165,  0.0055, -0.0180,  0.0148,  0.0057, -0.0136, -0.0266,
+         0.0093, -0.0106], device='cuda:0'), grad: tensor([ 0.0285,  0.0391, -0.0538,  0.0226, -0.0114,  0.0191,  0.0040,  0.0239,
+        -0.0456, -0.0265], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 46----------------------------------------------------
+epoch 46, time 228.51, cls_loss 0.7483 cls_loss_mapping 0.0534 cls_loss_causal 0.7146 re_mapping 0.0186 re_causal 0.0488 /// teacc 98.44 lr 0.00010000
+Epoch 48, weight, value: tensor([[-0.0013,  0.0376, -0.0818,  ..., -0.0391,  0.0282,  0.0130],
+        [-0.0357, -0.0576,  0.0328,  ..., -0.0283, -0.0643,  0.0473],
+        [-0.0320, -0.0148, -0.0505,  ..., -0.0723, -0.0345,  0.0171],
+        ...,
+        [-0.0112, -0.0158, -0.0366,  ..., -0.0699,  0.0094,  0.0282],
+        [-0.0650, -0.0439, -0.0451,  ..., -0.0307, -0.0338, -0.0578],
+        [-0.0021,  0.0012, -0.0467,  ..., -0.0332,  0.0297, -0.0084]],
+       device='cuda:0'), grad: tensor([[-0.0014, -0.0022,  0.0015,  ...,  0.0009, -0.0060,  0.0021],
+        [ 0.0008, -0.0001,  0.0004,  ..., -0.0057, -0.0008, -0.0079],
+        [ 0.0035,  0.0005,  0.0075,  ...,  0.0042,  0.0018,  0.0049],
+        ...,
+        [-0.0164, -0.0024,  0.0020,  ...,  0.0004, -0.0031, -0.0125],
+        [ 0.0004,  0.0007, -0.0027,  ..., -0.0006,  0.0020,  0.0002],
+        [ 0.0092,  0.0003, -0.0035,  ...,  0.0006, -0.0017,  0.0125]],
+       device='cuda:0')
+Epoch 48, bias, value: tensor([ 0.0144, -0.0166,  0.0058, -0.0181,  0.0149,  0.0062, -0.0139, -0.0267,
+         0.0086, -0.0102], device='cuda:0'), grad: tensor([ 0.0036, -0.0272,  0.0426,  0.0113,  0.0028,  0.0206, -0.0374, -0.0305,
+        -0.0027,  0.0169], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 47, time 225.16, cls_loss 0.6906 cls_loss_mapping 0.0500 cls_loss_causal 0.6568 re_mapping 0.0184 re_causal 0.0466 /// teacc 98.42 lr 0.00010000
+Epoch 49, weight, value: tensor([[-0.0008,  0.0370, -0.0839,  ..., -0.0409,  0.0292,  0.0127],
+        [-0.0358, -0.0593,  0.0327,  ..., -0.0290, -0.0643,  0.0471],
+        [-0.0325, -0.0149, -0.0510,  ..., -0.0724, -0.0353,  0.0171],
+        ...,
+        [-0.0100, -0.0150, -0.0355,  ..., -0.0691,  0.0105,  0.0284],
+        [-0.0647, -0.0440, -0.0452,  ..., -0.0302, -0.0326, -0.0577],
+        [-0.0021,  0.0010, -0.0469,  ..., -0.0334,  0.0294, -0.0087]],
+       device='cuda:0'), grad: tensor([[-2.1915e-03, -2.3413e-04,  6.8247e-05,  ..., -3.4857e-04,
+          1.1787e-02, -5.2605e-03],
+        [ 3.9864e-03,  4.4018e-05,  7.4096e-06,  ...,  7.2718e-05,
+          2.6245e-03,  3.0022e-03],
+        [ 3.2578e-03,  3.6931e-04,  2.5797e-04,  ...,  3.0899e-04,
+          4.4479e-03,  4.3755e-03],
+        ...,
+        [ 2.7084e-03,  2.0301e-04,  2.5630e-04,  ...,  2.5439e-04,
+          2.3079e-03,  2.3460e-03],
+        [ 2.1992e-03,  4.8429e-05, -1.2502e-05,  ...,  2.5725e-04,
+         -7.2708e-03,  4.4632e-03],
+        [-1.3039e-02,  1.1951e-04,  1.3769e-04,  ...,  1.3685e-04,
+         -2.2568e-02,  1.8682e-03]], device='cuda:0')
+Epoch 49, bias, value: tensor([ 0.0146, -0.0170,  0.0055, -0.0179,  0.0147,  0.0058, -0.0132, -0.0267,
+         0.0091, -0.0103], device='cuda:0'), grad: tensor([-0.0215,  0.0143,  0.0160, -0.0078, -0.0056, -0.0190,  0.0257,  0.0116,
+         0.0039, -0.0177], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 48----------------------------------------------------
+epoch 48, time 228.34, cls_loss 0.7514 cls_loss_mapping 0.0458 cls_loss_causal 0.7087 re_mapping 0.0180 re_causal 0.0483 /// teacc 98.50 lr 0.00010000
+Epoch 50, weight, value: tensor([[-0.0007,  0.0377, -0.0842,  ..., -0.0412,  0.0295,  0.0120],
+        [-0.0360, -0.0600,  0.0329,  ..., -0.0283, -0.0645,  0.0464],
+        [-0.0321, -0.0154, -0.0512,  ..., -0.0729, -0.0356,  0.0181],
+        ...,
+        [-0.0109, -0.0151, -0.0365,  ..., -0.0698,  0.0090,  0.0288],
+        [-0.0649, -0.0441, -0.0461,  ..., -0.0308, -0.0321, -0.0573],
+        [-0.0017,  0.0008, -0.0463,  ..., -0.0330,  0.0293, -0.0083]],
+       device='cuda:0'), grad: tensor([[-1.8173e-02, -1.5430e-03,  4.4912e-05,  ..., -2.7466e-03,
+         -8.6060e-03, -8.9798e-03],
+        [-6.1655e-04,  2.3925e-04, -3.6776e-05,  ...,  1.4086e-03,
+          8.9979e-04, -2.4453e-05],
+        [ 1.9989e-03,  2.0385e-04,  6.4671e-05,  ...,  1.2455e-03,
+          8.4305e-04,  1.1345e-02],
+        ...,
+        [-2.4242e-03, -3.0766e-03,  1.1301e-04,  ...,  6.1512e-04,
+         -2.6493e-03, -1.6876e-02],
+        [ 1.6451e-03,  2.6345e-04,  1.6272e-04,  ...,  1.5726e-03,
+          1.0767e-03, -1.1511e-03],
+        [ 6.9466e-03,  1.8206e-03,  1.7166e-04,  ..., -1.0590e-02,
+          3.7727e-03,  6.4735e-03]], device='cuda:0')
+Epoch 50, bias, value: tensor([ 0.0141, -0.0172,  0.0055, -0.0181,  0.0156,  0.0057, -0.0135, -0.0274,
+         0.0098, -0.0099], device='cuda:0'), grad: tensor([-0.0534, -0.0052,  0.0441, -0.0424,  0.0391,  0.0054,  0.0349, -0.0204,
+        -0.0039,  0.0019], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 49, time 225.59, cls_loss 0.7141 cls_loss_mapping 0.0451 cls_loss_causal 0.6840 re_mapping 0.0179 re_causal 0.0466 /// teacc 98.46 lr 0.00010000
+Epoch 51, weight, value: tensor([[-0.0013,  0.0377, -0.0852,  ..., -0.0422,  0.0291,  0.0119],
+        [-0.0366, -0.0595,  0.0343,  ..., -0.0268, -0.0651,  0.0467],
+        [-0.0327, -0.0146, -0.0510,  ..., -0.0737, -0.0366,  0.0177],
+        ...,
+        [-0.0103, -0.0150, -0.0376,  ..., -0.0688,  0.0093,  0.0299],
+        [-0.0648, -0.0441, -0.0469,  ..., -0.0317, -0.0320, -0.0572],
+        [-0.0018,  0.0005, -0.0459,  ..., -0.0328,  0.0299, -0.0087]],
+       device='cuda:0'), grad: tensor([[-1.9135e-02, -1.1176e-04,  7.2289e-04,  ...,  3.1590e-04,
+         -6.9847e-03, -1.6113e-02],
+        [-1.3535e-02,  1.1027e-04, -1.0006e-05,  ...,  2.0742e-04,
+         -9.8114e-03, -5.5962e-03],
+        [ 2.3460e-03, -4.0793e-04,  2.5010e-04,  ...,  7.6103e-04,
+          4.9629e-03,  1.6174e-03],
+        ...,
+        [-6.8665e-04, -3.8218e-04,  3.4380e-04,  ...,  6.6185e-04,
+         -6.0225e-04, -4.7722e-03],
+        [-2.6131e-03, -2.1027e-02, -3.3386e-02,  ..., -1.7288e-02,
+         -6.4354e-03, -2.0676e-03],
+        [ 6.2752e-03,  1.2980e-03,  8.2588e-04,  ...,  4.0507e-04,
+          4.4174e-03,  1.1497e-02]], device='cuda:0')
+Epoch 51, bias, value: tensor([ 0.0139, -0.0167,  0.0053, -0.0184,  0.0149,  0.0058, -0.0131, -0.0272,
+         0.0098, -0.0098], device='cuda:0'), grad: tensor([-0.0972, -0.0208,  0.0168,  0.0339,  0.0013,  0.0818, -0.0074,  0.0030,
+        -0.0615,  0.0501], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 50, time 225.62, cls_loss 0.7170 cls_loss_mapping 0.0448 cls_loss_causal 0.6856 re_mapping 0.0178 re_causal 0.0476 /// teacc 98.48 lr 0.00010000
+Epoch 52, weight, value: tensor([[-0.0008,  0.0393, -0.0847,  ..., -0.0410,  0.0301,  0.0127],
+        [-0.0361, -0.0609,  0.0346,  ..., -0.0269, -0.0650,  0.0462],
+        [-0.0334, -0.0152, -0.0515,  ..., -0.0754, -0.0374,  0.0180],
+        ...,
+        [-0.0101, -0.0151, -0.0374,  ..., -0.0694,  0.0092,  0.0295],
+        [-0.0655, -0.0445, -0.0468,  ..., -0.0303, -0.0321, -0.0572],
+        [-0.0022, -0.0007, -0.0467,  ..., -0.0343,  0.0288, -0.0091]],
+       device='cuda:0'), grad: tensor([[-6.8665e-04, -1.0239e-02, -9.5520e-03,  ..., -6.3858e-03,
+         -2.6741e-03, -4.9438e-03],
+        [ 4.8561e-03,  1.5438e-04,  7.8321e-05,  ...,  1.3113e-04,
+          5.0850e-03,  7.5722e-03],
+        [ 3.7408e-04,  1.5564e-03,  2.7299e-04,  ...,  1.5812e-03,
+          7.2403e-03,  2.3193e-03],
+        ...,
+        [-4.1351e-03,  6.6757e-04,  5.3692e-04,  ...,  5.2977e-04,
+         -6.6414e-03, -1.1185e-02],
+        [-1.3721e-04,  5.5847e-03,  5.2223e-03,  ...,  4.0665e-03,
+          2.4605e-03,  5.0468e-03],
+        [ 2.5845e-03,  1.7385e-03,  1.5316e-03,  ...,  1.1683e-03,
+          3.2520e-03,  5.2071e-03]], device='cuda:0')
+Epoch 52, bias, value: tensor([ 0.0146, -0.0172,  0.0047, -0.0182,  0.0155,  0.0055, -0.0128, -0.0270,
+         0.0103, -0.0107], device='cuda:0'), grad: tensor([-0.0332,  0.0435, -0.0133, -0.0171,  0.0290,  0.0139, -0.0142, -0.0603,
+         0.0202,  0.0314], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 51, time 226.11, cls_loss 0.6927 cls_loss_mapping 0.0469 cls_loss_causal 0.6510 re_mapping 0.0174 re_causal 0.0456 /// teacc 98.21 lr 0.00010000
+Epoch 53, weight, value: tensor([[-0.0004,  0.0403, -0.0852,  ..., -0.0421,  0.0311,  0.0122],
+        [-0.0366, -0.0609,  0.0352,  ..., -0.0262, -0.0659,  0.0462],
+        [-0.0326, -0.0143, -0.0505,  ..., -0.0748, -0.0366,  0.0185],
+        ...,
+        [-0.0103, -0.0161, -0.0380,  ..., -0.0709,  0.0087,  0.0297],
+        [-0.0655, -0.0458, -0.0482,  ..., -0.0309, -0.0321, -0.0569],
+        [-0.0024, -0.0007, -0.0471,  ..., -0.0337,  0.0284, -0.0093]],
+       device='cuda:0'), grad: tensor([[ 3.8147e-03,  1.1473e-03,  4.6992e-04,  ...,  9.2459e-04,
+          3.5572e-03,  5.3062e-03],
+        [-8.0490e-04, -7.8058e-04, -1.8448e-05,  ...,  7.2575e-04,
+         -2.2278e-03, -1.2543e-02],
+        [-3.5973e-03,  9.4128e-04,  2.5535e-04,  ...,  7.2765e-04,
+         -4.9114e-04, -1.7681e-03],
+        ...,
+        [ 1.6270e-03,  9.2745e-04,  2.9802e-04,  ...,  3.9339e-04,
+         -1.3244e-04,  4.6158e-03],
+        [-2.6722e-03, -6.0463e-04,  1.8988e-03,  ..., -5.1928e-04,
+         -1.2960e-03, -3.9749e-03],
+        [ 2.3308e-03,  2.4776e-03,  1.4296e-03,  ...,  1.0729e-03,
+         -5.4741e-03,  1.6670e-03]], device='cuda:0')
+Epoch 53, bias, value: tensor([ 0.0145, -0.0172,  0.0052, -0.0183,  0.0147,  0.0060, -0.0133, -0.0269,
+         0.0103, -0.0104], device='cuda:0'), grad: tensor([ 0.0323, -0.0107, -0.0183, -0.0083,  0.0036,  0.0158,  0.0311, -0.0087,
+        -0.0174, -0.0193], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 52----------------------------------------------------
+epoch 52, time 226.31, cls_loss 0.6633 cls_loss_mapping 0.0380 cls_loss_causal 0.6271 re_mapping 0.0175 re_causal 0.0462 /// teacc 98.52 lr 0.00010000
+Epoch 54, weight, value: tensor([[-0.0002,  0.0411, -0.0862,  ..., -0.0429,  0.0310,  0.0118],
+        [-0.0368, -0.0613,  0.0369,  ..., -0.0263, -0.0663,  0.0466],
+        [-0.0331, -0.0148, -0.0512,  ..., -0.0743, -0.0363,  0.0190],
+        ...,
+        [-0.0112, -0.0167, -0.0381,  ..., -0.0713,  0.0074,  0.0306],
+        [-0.0656, -0.0456, -0.0485,  ..., -0.0306, -0.0321, -0.0571],
+        [-0.0021, -0.0013, -0.0477,  ..., -0.0339,  0.0287, -0.0096]],
+       device='cuda:0'), grad: tensor([[-0.0061, -0.0051, -0.0059,  ...,  0.0009, -0.0074,  0.0015],
+        [ 0.0017,  0.0010, -0.0033,  ..., -0.0050,  0.0013, -0.0097],
+        [ 0.0004,  0.0003,  0.0008,  ...,  0.0018,  0.0022,  0.0035],
+        ...,
+        [-0.0073,  0.0001, -0.0012,  ..., -0.0034, -0.0022, -0.0059],
+        [ 0.0047,  0.0004,  0.0059,  ...,  0.0204,  0.0047,  0.0093],
+        [ 0.0085,  0.0025,  0.0026,  ...,  0.0017,  0.0111,  0.0058]],
+       device='cuda:0')
+Epoch 54, bias, value: tensor([ 0.0135, -0.0166,  0.0056, -0.0180,  0.0141,  0.0058, -0.0135, -0.0266,
+         0.0104, -0.0101], device='cuda:0'), grad: tensor([-0.0196, -0.0507,  0.0309, -0.0266,  0.0293,  0.0237, -0.0773, -0.0454,
+         0.0850,  0.0505], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 53, time 225.59, cls_loss 0.6968 cls_loss_mapping 0.0452 cls_loss_causal 0.6624 re_mapping 0.0173 re_causal 0.0476 /// teacc 98.30 lr 0.00010000
+Epoch 55, weight, value: tensor([[ 0.0005,  0.0421, -0.0868,  ..., -0.0443,  0.0320,  0.0125],
+        [-0.0371, -0.0633,  0.0364,  ..., -0.0277, -0.0674,  0.0469],
+        [-0.0341, -0.0153, -0.0511,  ..., -0.0743, -0.0370,  0.0196],
+        ...,
+        [-0.0113, -0.0165, -0.0387,  ..., -0.0722,  0.0066,  0.0302],
+        [-0.0660, -0.0463, -0.0501,  ..., -0.0318, -0.0323, -0.0571],
+        [-0.0020, -0.0015, -0.0470,  ..., -0.0324,  0.0283, -0.0103]],
+       device='cuda:0'), grad: tensor([[ 0.0026,  0.0015,  0.0016,  ...,  0.0027,  0.0034,  0.0053],
+        [ 0.0118,  0.0024,  0.0041,  ...,  0.0035,  0.0120,  0.0105],
+        [ 0.0013,  0.0043,  0.0016,  ...,  0.0043,  0.0038,  0.0065],
+        ...,
+        [ 0.0020, -0.0033,  0.0005,  ..., -0.0015, -0.0073, -0.0163],
+        [ 0.0023, -0.0003,  0.0011,  ..., -0.0078, -0.0020,  0.0057],
+        [-0.0102,  0.0001, -0.0023,  ...,  0.0004, -0.0023, -0.0051]],
+       device='cuda:0')
+Epoch 55, bias, value: tensor([ 0.0134, -0.0163,  0.0053, -0.0181,  0.0144,  0.0056, -0.0129, -0.0266,
+         0.0099, -0.0102], device='cuda:0'), grad: tensor([ 0.0269,  0.0571,  0.0228,  0.0592, -0.1021, -0.0146,  0.0159, -0.0177,
+        -0.0208, -0.0267], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 54, time 225.29, cls_loss 0.6599 cls_loss_mapping 0.0382 cls_loss_causal 0.6225 re_mapping 0.0168 re_causal 0.0450 /// teacc 98.49 lr 0.00010000
+Epoch 56, weight, value: tensor([[ 5.7066e-04,  4.1984e-02, -8.6625e-02,  ..., -4.4390e-02,
+          3.2981e-02,  1.2333e-02],
+        [-3.7800e-02, -6.4175e-02,  3.6200e-02,  ..., -2.8336e-02,
+         -6.8009e-02,  4.7212e-02],
+        [-3.3859e-02, -1.5319e-02, -5.1762e-02,  ..., -7.6218e-02,
+         -3.6601e-02,  1.9409e-02],
+        ...,
+        [-1.2191e-02, -1.7102e-02, -3.9077e-02,  ..., -7.2232e-02,
+          5.5924e-03,  3.1239e-02],
+        [-6.6348e-02, -4.5007e-02, -5.0654e-02,  ..., -3.2035e-02,
+         -3.1807e-02, -5.7615e-02],
+        [-1.1237e-03, -1.6215e-05, -4.6481e-02,  ..., -3.2075e-02,
+          2.8670e-02, -9.6121e-03]], device='cuda:0'), grad: tensor([[-2.2621e-03,  3.1972e-04,  2.2054e-04,  ...,  6.8378e-04,
+         -7.9250e-04,  3.5501e-04],
+        [ 2.4319e-03,  3.6168e-04,  1.6654e-04,  ...,  4.3631e-04,
+          2.8114e-03,  3.1033e-03],
+        [-4.6577e-03,  5.7697e-04,  5.3215e-04,  ...,  2.5019e-05,
+         -1.0519e-03, -1.3399e-04],
+        ...,
+        [-3.8013e-03, -1.7548e-03, -3.0947e-04,  ..., -3.0518e-04,
+         -3.2387e-03, -1.3367e-02],
+        [ 2.4815e-03,  4.9448e-04,  3.9744e-04,  ..., -4.2763e-03,
+          2.8553e-03,  6.4278e-03],
+        [ 3.1261e-03,  7.6818e-04,  4.9639e-04,  ...,  9.0170e-04,
+          3.3875e-03,  5.5199e-03]], device='cuda:0')
+Epoch 56, bias, value: tensor([ 0.0148, -0.0166,  0.0053, -0.0181,  0.0141,  0.0047, -0.0136, -0.0265,
+         0.0103, -0.0100], device='cuda:0'), grad: tensor([-0.0090,  0.0236, -0.0062,  0.0050,  0.0168, -0.0026,  0.0090, -0.0476,
+         0.0100,  0.0009], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 55, time 225.22, cls_loss 0.6950 cls_loss_mapping 0.0344 cls_loss_causal 0.6596 re_mapping 0.0165 re_causal 0.0430 /// teacc 98.44 lr 0.00010000
+Epoch 57, weight, value: tensor([[ 0.0007,  0.0429, -0.0871,  ..., -0.0437,  0.0328,  0.0122],
+        [-0.0382, -0.0645,  0.0365,  ..., -0.0282, -0.0688,  0.0477],
+        [-0.0339, -0.0162, -0.0523,  ..., -0.0769, -0.0367,  0.0199],
+        ...,
+        [-0.0124, -0.0177, -0.0396,  ..., -0.0726,  0.0051,  0.0317],
+        [-0.0665, -0.0453, -0.0518,  ..., -0.0328, -0.0320, -0.0576],
+        [-0.0016, -0.0015, -0.0473,  ..., -0.0326,  0.0273, -0.0102]],
+       device='cuda:0'), grad: tensor([[ 1.4791e-03,  9.2745e-05,  1.4579e-04,  ...,  1.6623e-03,
+          1.5116e-03,  2.7905e-03],
+        [ 2.9068e-03,  8.2791e-05,  1.0037e-04,  ...,  7.4339e-04,
+          2.5959e-03,  5.3902e-03],
+        [-8.7976e-04,  1.1759e-03,  2.2900e-04,  ...,  1.7509e-03,
+          5.4693e-04, -2.2717e-03],
+        ...,
+        [ 9.5215e-03,  3.5977e-04,  2.1112e-04,  ...,  5.2309e-04,
+          7.9956e-03,  2.5024e-02],
+        [-1.9569e-03, -4.3106e-03, -3.0060e-03,  ...,  1.7595e-03,
+         -4.7226e-03,  4.3607e-04],
+        [-4.4861e-03, -4.1676e-04,  2.7657e-04,  ...,  7.3862e-04,
+         -4.5624e-03, -1.9821e-02]], device='cuda:0')
+Epoch 57, bias, value: tensor([ 0.0149, -0.0166,  0.0056, -0.0175,  0.0145,  0.0044, -0.0143, -0.0270,
+         0.0102, -0.0096], device='cuda:0'), grad: tensor([-0.0171,  0.0219, -0.0029,  0.0082, -0.0202, -0.0098, -0.0024,  0.0507,
+        -0.0183, -0.0100], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 56, time 224.66, cls_loss 0.6957 cls_loss_mapping 0.0429 cls_loss_causal 0.6616 re_mapping 0.0172 re_causal 0.0462 /// teacc 98.34 lr 0.00010000
+Epoch 58, weight, value: tensor([[ 0.0010,  0.0421, -0.0878,  ..., -0.0441,  0.0329,  0.0121],
+        [-0.0379, -0.0652,  0.0379,  ..., -0.0265, -0.0689,  0.0474],
+        [-0.0343, -0.0167, -0.0526,  ..., -0.0780, -0.0360,  0.0202],
+        ...,
+        [-0.0116, -0.0170, -0.0403,  ..., -0.0727,  0.0050,  0.0320],
+        [-0.0673, -0.0468, -0.0523,  ..., -0.0338, -0.0327, -0.0573],
+        [-0.0017, -0.0007, -0.0477,  ..., -0.0318,  0.0279, -0.0097]],
+       device='cuda:0'), grad: tensor([[ 3.9711e-03,  1.6308e-03,  9.6798e-04,  ...,  8.0299e-04,
+          1.6575e-03,  4.9248e-03],
+        [ 1.8759e-03,  6.0749e-04,  5.6446e-05,  ...,  8.2016e-05,
+         -1.6129e-04,  1.9855e-03],
+        [ 4.3259e-03,  1.4534e-03,  2.0444e-04,  ...,  5.8222e-04,
+         -6.3479e-05,  5.0392e-03],
+        ...,
+        [ 2.8877e-03,  9.0933e-04,  2.8706e-04,  ...,  2.6226e-04,
+          4.0531e-04,  6.1188e-03],
+        [-9.9487e-03, -1.0033e-02, -4.6043e-03,  ..., -3.5133e-03,
+         -7.0953e-03, -1.8875e-02],
+        [-4.7226e-03,  1.5011e-03,  8.0967e-04,  ...,  6.4135e-04,
+         -2.5043e-03,  2.7394e-04]], device='cuda:0')
+Epoch 58, bias, value: tensor([ 0.0155, -0.0161,  0.0059, -0.0184,  0.0143,  0.0049, -0.0150, -0.0266,
+         0.0098, -0.0098], device='cuda:0'), grad: tensor([ 0.0290,  0.0035,  0.0287, -0.0478,  0.0494,  0.0076, -0.0023,  0.0180,
+        -0.0723, -0.0137], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 57, time 225.03, cls_loss 0.7097 cls_loss_mapping 0.0378 cls_loss_causal 0.6698 re_mapping 0.0163 re_causal 0.0411 /// teacc 98.27 lr 0.00010000
+Epoch 59, weight, value: tensor([[ 0.0012,  0.0425, -0.0879,  ..., -0.0439,  0.0330,  0.0124],
+        [-0.0382, -0.0655,  0.0389,  ..., -0.0262, -0.0694,  0.0471],
+        [-0.0345, -0.0164, -0.0531,  ..., -0.0775, -0.0362,  0.0209],
+        ...,
+        [-0.0120, -0.0179, -0.0415,  ..., -0.0738,  0.0051,  0.0319],
+        [-0.0673, -0.0465, -0.0518,  ..., -0.0341, -0.0323, -0.0575],
+        [-0.0012, -0.0012, -0.0477,  ..., -0.0317,  0.0281, -0.0094]],
+       device='cuda:0'), grad: tensor([[-9.9030e-03,  2.0504e-04,  1.3545e-05,  ...,  2.2531e-05,
+         -4.3392e-04,  2.8286e-03],
+        [ 3.8700e-03,  7.5531e-04, -1.7229e-08,  ...,  3.3248e-07,
+          2.5978e-03,  3.9139e-03],
+        [-5.3635e-03, -1.0624e-03,  1.5043e-05,  ...,  3.3267e-06,
+         -2.5330e-03, -7.0457e-03],
+        ...,
+        [-7.8011e-04, -7.3719e-04,  3.0413e-05,  ...,  8.6650e-06,
+          2.1124e-04, -3.4218e-03],
+        [ 3.8338e-03,  4.9877e-04,  1.2197e-05,  ...,  1.1764e-05,
+          1.2426e-03,  3.6621e-03],
+        [ 1.0468e-02, -1.5962e-04,  3.4690e-05,  ..., -7.5817e-05,
+          1.3447e-03,  2.2564e-03]], device='cuda:0')
+Epoch 59, bias, value: tensor([ 0.0160, -0.0158,  0.0062, -0.0180,  0.0151,  0.0047, -0.0158, -0.0280,
+         0.0098, -0.0097], device='cuda:0'), grad: tensor([-0.0106,  0.0346, -0.0682, -0.0362, -0.0095,  0.0202, -0.0114, -0.0098,
+         0.0501,  0.0408], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 58, time 225.92, cls_loss 0.6736 cls_loss_mapping 0.0398 cls_loss_causal 0.6411 re_mapping 0.0166 re_causal 0.0412 /// teacc 98.26 lr 0.00010000
+Epoch 60, weight, value: tensor([[ 0.0015,  0.0438, -0.0880,  ..., -0.0448,  0.0336,  0.0123],
+        [-0.0382, -0.0667,  0.0388,  ..., -0.0263, -0.0695,  0.0469],
+        [-0.0353, -0.0169, -0.0547,  ..., -0.0786, -0.0365,  0.0209],
+        ...,
+        [-0.0122, -0.0189, -0.0431,  ..., -0.0738,  0.0050,  0.0323],
+        [-0.0684, -0.0462, -0.0521,  ..., -0.0342, -0.0335, -0.0569],
+        [-0.0009, -0.0023, -0.0483,  ..., -0.0318,  0.0271, -0.0089]],
+       device='cuda:0'), grad: tensor([[ 3.2139e-03,  9.4986e-03,  3.7823e-03,  ...,  3.4084e-03,
+          1.1070e-02,  2.6321e-03],
+        [ 5.2223e-03,  6.7902e-04, -4.0970e-03,  ..., -5.3358e-04,
+          5.9853e-03,  1.8415e-03],
+        [-5.5618e-03, -9.5978e-03,  1.5163e-03,  ...,  4.2826e-05,
+         -2.3155e-03, -2.3327e-03],
+        ...,
+        [-2.7866e-03, -3.3112e-03, -3.2592e-04,  ..., -9.2506e-05,
+         -1.0178e-02, -1.1345e-02],
+        [-1.5182e-03,  1.7869e-04, -3.4885e-03,  ..., -8.7690e-04,
+          2.5330e-03, -5.0011e-03],
+        [ 2.9945e-03,  1.9283e-03,  1.3742e-03,  ...,  5.9366e-04,
+         -1.1787e-03,  2.2793e-03]], device='cuda:0')
+Epoch 60, bias, value: tensor([ 0.0156, -0.0158,  0.0060, -0.0170,  0.0156,  0.0037, -0.0158, -0.0280,
+         0.0098, -0.0098], device='cuda:0'), grad: tensor([ 0.0193,  0.0220, -0.0404, -0.0093,  0.0053, -0.0070, -0.0113, -0.0065,
+         0.0206,  0.0073], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 59, time 224.15, cls_loss 0.6635 cls_loss_mapping 0.0436 cls_loss_causal 0.6285 re_mapping 0.0165 re_causal 0.0424 /// teacc 98.45 lr 0.00010000
+Epoch 61, weight, value: tensor([[ 0.0015,  0.0443, -0.0879,  ..., -0.0449,  0.0338,  0.0117],
+        [-0.0387, -0.0676,  0.0379,  ..., -0.0271, -0.0704,  0.0475],
+        [-0.0363, -0.0172, -0.0533,  ..., -0.0785, -0.0368,  0.0211],
+        ...,
+        [-0.0119, -0.0189, -0.0430,  ..., -0.0734,  0.0057,  0.0324],
+        [-0.0678, -0.0464, -0.0527,  ..., -0.0348, -0.0325, -0.0560],
+        [-0.0011, -0.0026, -0.0476,  ..., -0.0319,  0.0272, -0.0090]],
+       device='cuda:0'), grad: tensor([[ 0.0021, -0.0013, -0.0023,  ..., -0.0016,  0.0035, -0.0015],
+        [-0.0022,  0.0007,  0.0019,  ...,  0.0006,  0.0011, -0.0030],
+        [ 0.0015,  0.0010,  0.0013,  ...,  0.0006,  0.0018,  0.0003],
+        ...,
+        [-0.0041, -0.0008,  0.0009,  ..., -0.0012, -0.0064, -0.0092],
+        [ 0.0023,  0.0102,  0.0087,  ...,  0.0009,  0.0135,  0.0025],
+        [ 0.0032,  0.0009,  0.0014,  ...,  0.0004,  0.0073,  0.0045]],
+       device='cuda:0')
+Epoch 61, bias, value: tensor([ 0.0153, -0.0161,  0.0055, -0.0178,  0.0150,  0.0041, -0.0151, -0.0276,
+         0.0110, -0.0099], device='cuda:0'), grad: tensor([-0.0118, -0.0023,  0.0156, -0.0526,  0.0107,  0.0042,  0.0151, -0.0499,
+         0.0448,  0.0261], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 60, time 224.36, cls_loss 0.6757 cls_loss_mapping 0.0297 cls_loss_causal 0.6426 re_mapping 0.0164 re_causal 0.0429 /// teacc 98.43 lr 0.00010000
+Epoch 62, weight, value: tensor([[ 0.0020,  0.0445, -0.0883,  ..., -0.0450,  0.0345,  0.0120],
+        [-0.0392, -0.0675,  0.0385,  ..., -0.0272, -0.0711,  0.0476],
+        [-0.0363, -0.0171, -0.0539,  ..., -0.0785, -0.0373,  0.0216],
+        ...,
+        [-0.0121, -0.0206, -0.0441,  ..., -0.0755,  0.0056,  0.0327],
+        [-0.0677, -0.0467, -0.0549,  ..., -0.0356, -0.0320, -0.0556],
+        [-0.0009, -0.0026, -0.0473,  ..., -0.0314,  0.0279, -0.0089]],
+       device='cuda:0'), grad: tensor([[ 0.0032,  0.0019,  0.0008,  ...,  0.0017,  0.0046,  0.0051],
+        [ 0.0009, -0.0097, -0.0149,  ..., -0.0049, -0.0147, -0.0107],
+        [ 0.0008,  0.0084,  0.0088,  ...,  0.0025,  0.0117,  0.0079],
+        ...,
+        [-0.0065, -0.0091, -0.0008,  ..., -0.0002, -0.0039, -0.0187],
+        [ 0.0037,  0.0003,  0.0009,  ...,  0.0005,  0.0046,  0.0035],
+        [-0.0075,  0.0032,  0.0004,  ..., -0.0014, -0.0027,  0.0068]],
+       device='cuda:0')
+Epoch 62, bias, value: tensor([ 0.0163, -0.0160,  0.0046, -0.0178,  0.0146,  0.0033, -0.0146, -0.0275,
+         0.0117, -0.0103], device='cuda:0'), grad: tensor([ 0.0355, -0.0187,  0.0278,  0.0453, -0.0336, -0.0002,  0.0364, -0.0847,
+         0.0169, -0.0249], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 61, time 225.31, cls_loss 0.6754 cls_loss_mapping 0.0306 cls_loss_causal 0.6414 re_mapping 0.0161 re_causal 0.0422 /// teacc 98.44 lr 0.00010000
+Epoch 63, weight, value: tensor([[ 0.0017,  0.0445, -0.0900,  ..., -0.0465,  0.0341,  0.0107],
+        [-0.0394, -0.0686,  0.0389,  ..., -0.0256, -0.0715,  0.0472],
+        [-0.0354, -0.0165, -0.0535,  ..., -0.0790, -0.0356,  0.0222],
+        ...,
+        [-0.0120, -0.0198, -0.0450,  ..., -0.0743,  0.0053,  0.0341],
+        [-0.0687, -0.0472, -0.0551,  ..., -0.0360, -0.0323, -0.0560],
+        [-0.0001, -0.0029, -0.0461,  ..., -0.0312,  0.0282, -0.0091]],
+       device='cuda:0'), grad: tensor([[ 3.0518e-05,  4.0483e-04,  2.0072e-05,  ..., -5.1041e-03,
+          1.7738e-03,  1.1161e-05],
+        [ 8.0204e-04,  3.5524e-04, -6.6471e-04,  ...,  7.4625e-04,
+          1.5669e-03,  2.2244e-04],
+        [ 3.1796e-03,  1.4496e-04,  8.9073e-04,  ...,  3.8433e-03,
+          8.5373e-03,  2.2461e-02],
+        ...,
+        [ 1.0977e-03,  1.3514e-03, -9.9373e-04,  ...,  2.7313e-03,
+         -4.8370e-03, -1.7014e-02],
+        [ 2.6054e-03,  3.6478e-04,  1.0223e-03,  ...,  7.8106e-04,
+          2.4033e-03, -2.7866e-03],
+        [-3.3169e-03, -1.0214e-03,  8.5068e-04,  ..., -1.8206e-03,
+         -1.3990e-03,  8.8959e-03]], device='cuda:0')
+Epoch 63, bias, value: tensor([ 0.0155, -0.0165,  0.0055, -0.0173,  0.0148,  0.0036, -0.0153, -0.0267,
+         0.0111, -0.0103], device='cuda:0'), grad: tensor([-0.0008,  0.0100,  0.0685,  0.0077, -0.0390, -0.0166, -0.0096, -0.0189,
+        -0.0180,  0.0166], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 62, time 225.02, cls_loss 0.6388 cls_loss_mapping 0.0326 cls_loss_causal 0.6041 re_mapping 0.0156 re_causal 0.0409 /// teacc 98.50 lr 0.00010000
+Epoch 64, weight, value: tensor([[ 2.4275e-03,  4.4616e-02, -8.9562e-02,  ..., -4.7088e-02,
+          3.4766e-02,  1.1245e-02],
+        [-4.0169e-02, -6.9452e-02,  3.8923e-02,  ..., -2.6323e-02,
+         -7.1997e-02,  4.7112e-02],
+        [-3.5910e-02, -1.6920e-02, -5.4046e-02,  ..., -8.0639e-02,
+         -3.6268e-02,  2.2695e-02],
+        ...,
+        [-1.2366e-02, -1.9815e-02, -4.6078e-02,  ..., -7.4803e-02,
+          5.9358e-03,  3.4208e-02],
+        [-6.9503e-02, -4.8270e-02, -5.5267e-02,  ..., -3.6966e-02,
+         -3.3415e-02, -5.7272e-02],
+        [-6.5580e-05, -3.5525e-03, -4.6799e-02,  ..., -3.1321e-02,
+          2.7720e-02, -9.4830e-03]], device='cuda:0'), grad: tensor([[ 1.3151e-03,  2.7418e-05,  1.1599e-04,  ...,  3.2449e-04,
+          1.5020e-03,  1.8492e-03],
+        [-4.3526e-03,  2.4378e-05, -1.9255e-03,  ..., -1.6508e-03,
+         -1.8282e-03, -1.2901e-02],
+        [ 1.0014e-03,  3.7122e-04,  2.7227e-04,  ...,  1.8060e-04,
+          1.1617e-04,  1.1930e-03],
+        ...,
+        [ 9.5367e-04,  7.8499e-05,  8.4937e-05,  ...,  3.7766e-04,
+          4.7445e-04,  1.3533e-03],
+        [-1.6618e-04,  5.3263e-04,  9.6989e-04,  ...,  1.0719e-03,
+          2.9526e-03,  4.8828e-03],
+        [ 9.1887e-04,  2.0838e-04,  6.2168e-05,  ...,  3.2520e-04,
+         -6.2525e-05,  1.1559e-03]], device='cuda:0')
+Epoch 64, bias, value: tensor([ 0.0165, -0.0165,  0.0056, -0.0181,  0.0151,  0.0047, -0.0152, -0.0275,
+         0.0101, -0.0102], device='cuda:0'), grad: tensor([ 0.0116, -0.0523,  0.0093, -0.0109, -0.0193,  0.0202,  0.0051,  0.0083,
+         0.0195,  0.0086], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 63, time 224.87, cls_loss 0.6830 cls_loss_mapping 0.0390 cls_loss_causal 0.6536 re_mapping 0.0145 re_causal 0.0392 /// teacc 98.44 lr 0.00010000
+Epoch 65, weight, value: tensor([[ 0.0026,  0.0467, -0.0881,  ..., -0.0460,  0.0348,  0.0114],
+        [-0.0407, -0.0697,  0.0405,  ..., -0.0258, -0.0727,  0.0469],
+        [-0.0361, -0.0178, -0.0547,  ..., -0.0798, -0.0369,  0.0224],
+        ...,
+        [-0.0124, -0.0199, -0.0473,  ..., -0.0757,  0.0053,  0.0342],
+        [-0.0697, -0.0488, -0.0561,  ..., -0.0378, -0.0340, -0.0573],
+        [-0.0005, -0.0037, -0.0476,  ..., -0.0318,  0.0284, -0.0095]],
+       device='cuda:0'), grad: tensor([[-6.9427e-04, -8.7814e-03, -1.3062e-02,  ..., -6.6643e-03,
+         -5.1155e-03, -1.4715e-03],
+        [-1.2589e-02, -8.6308e-04,  7.8964e-04,  ..., -2.5692e-03,
+         -1.3580e-02, -9.6436e-03],
+        [ 4.3678e-03,  3.4351e-03,  1.1549e-03,  ...,  5.8708e-03,
+          9.6512e-03,  8.2397e-03],
+        ...,
+        [ 4.0092e-03,  1.1396e-03,  3.9983e-04,  ...,  1.1606e-03,
+          3.5286e-03, -8.6308e-04],
+        [-2.1210e-03,  1.1787e-03,  2.0695e-03,  ...,  1.6870e-03,
+          2.2812e-03, -1.1692e-03],
+        [ 2.4281e-03, -2.4438e-05, -1.4150e-04,  ...,  8.8501e-04,
+          2.6932e-03,  5.0125e-03]], device='cuda:0')
+Epoch 65, bias, value: tensor([ 0.0161, -0.0160,  0.0049, -0.0171,  0.0150,  0.0041, -0.0157, -0.0275,
+         0.0103, -0.0097], device='cuda:0'), grad: tensor([-0.0393, -0.0820,  0.0501,  0.0548,  0.0207,  0.0015, -0.0375,  0.0030,
+        -0.0034,  0.0321], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 64, time 225.45, cls_loss 0.6500 cls_loss_mapping 0.0267 cls_loss_causal 0.6066 re_mapping 0.0144 re_causal 0.0371 /// teacc 98.41 lr 0.00010000
+Epoch 66, weight, value: tensor([[ 0.0024,  0.0467, -0.0881,  ..., -0.0469,  0.0353,  0.0121],
+        [-0.0410, -0.0704,  0.0417,  ..., -0.0261, -0.0721,  0.0465],
+        [-0.0366, -0.0184, -0.0554,  ..., -0.0801, -0.0375,  0.0231],
+        ...,
+        [-0.0122, -0.0205, -0.0472,  ..., -0.0760,  0.0047,  0.0347],
+        [-0.0701, -0.0490, -0.0556,  ..., -0.0378, -0.0329, -0.0578],
+        [ 0.0003, -0.0032, -0.0475,  ..., -0.0321,  0.0291, -0.0100]],
+       device='cuda:0'), grad: tensor([[ 4.1771e-03,  1.1349e-03,  6.9952e-04,  ...,  1.6146e-03,
+         -6.0120e-03,  7.5493e-03],
+        [ 7.8535e-04,  6.6519e-04,  7.6175e-05,  ...,  7.2718e-04,
+          1.0357e-03, -2.5349e-03],
+        [-2.4490e-03, -7.5006e-04, -2.6150e-03,  ..., -4.9257e-04,
+          6.8617e-04, -1.5388e-02],
+        ...,
+        [-4.7874e-03,  7.3957e-04,  1.5306e-03,  ...,  1.0033e-03,
+         -2.1896e-03,  7.4806e-03],
+        [ 2.3422e-03,  5.8413e-04, -2.1877e-03,  ...,  5.6356e-05,
+          3.3607e-03,  6.0349e-03],
+        [-4.9019e-04,  3.2926e-04,  5.0592e-04,  ...,  5.7745e-04,
+          2.8858e-03, -6.5231e-04]], device='cuda:0')
+Epoch 66, bias, value: tensor([ 0.0165, -0.0156,  0.0047, -0.0175,  0.0142,  0.0039, -0.0150, -0.0271,
+         0.0101, -0.0097], device='cuda:0'), grad: tensor([ 0.0283, -0.0044, -0.0410,  0.0393, -0.0450, -0.0522,  0.0300,  0.0172,
+         0.0242,  0.0036], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 65, time 227.44, cls_loss 0.6575 cls_loss_mapping 0.0367 cls_loss_causal 0.6267 re_mapping 0.0155 re_causal 0.0400 /// teacc 98.47 lr 0.00010000
+Epoch 67, weight, value: tensor([[ 0.0028,  0.0472, -0.0880,  ..., -0.0478,  0.0355,  0.0117],
+        [-0.0410, -0.0708,  0.0427,  ..., -0.0258, -0.0719,  0.0471],
+        [-0.0368, -0.0176, -0.0547,  ..., -0.0797, -0.0384,  0.0232],
+        ...,
+        [-0.0128, -0.0214, -0.0488,  ..., -0.0771,  0.0047,  0.0346],
+        [-0.0707, -0.0495, -0.0566,  ..., -0.0369, -0.0320, -0.0573],
+        [-0.0002, -0.0025, -0.0466,  ..., -0.0326,  0.0288, -0.0105]],
+       device='cuda:0'), grad: tensor([[-1.6766e-03,  4.2057e-04,  1.0605e-03,  ...,  6.3562e-04,
+         -5.3940e-03,  3.9444e-03],
+        [ 1.9989e-03,  3.1376e-04, -3.3212e-04,  ...,  2.6965e-04,
+          2.0275e-03,  3.0422e-03],
+        [ 2.8968e-04,  2.8362e-03,  2.3804e-03,  ...,  1.5364e-03,
+          3.7842e-03,  7.3242e-03],
+        ...,
+        [ 2.0814e-04,  2.5082e-04,  3.1400e-04,  ...,  1.6987e-04,
+          1.4353e-03,  2.4557e-04],
+        [ 4.5700e-03,  9.0361e-04,  1.1930e-03,  ...,  8.6260e-04,
+          4.3106e-03, -8.9884e-05],
+        [ 2.4567e-03,  5.8174e-04,  2.5558e-04,  ...,  2.8348e-04,
+          2.4948e-03,  2.5673e-03]], device='cuda:0')
+Epoch 67, bias, value: tensor([ 0.0165, -0.0153,  0.0047, -0.0176,  0.0143,  0.0042, -0.0154, -0.0273,
+         0.0105, -0.0103], device='cuda:0'), grad: tensor([ 0.0058,  0.0206,  0.0280, -0.1130, -0.0385,  0.0221,  0.0361, -0.0024,
+         0.0221,  0.0192], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 66, time 229.32, cls_loss 0.6643 cls_loss_mapping 0.0392 cls_loss_causal 0.6345 re_mapping 0.0150 re_causal 0.0385 /// teacc 98.47 lr 0.00010000
+Epoch 68, weight, value: tensor([[ 2.3588e-03,  4.7824e-02, -8.9415e-02,  ..., -4.8016e-02,
+          3.5947e-02,  1.1280e-02],
+        [-4.1629e-02, -7.1511e-02,  4.3136e-02,  ..., -2.5728e-02,
+         -7.1830e-02,  4.6428e-02],
+        [-3.7065e-02, -1.8793e-02, -5.5638e-02,  ..., -8.0089e-02,
+         -3.8290e-02,  2.4786e-02],
+        ...,
+        [-1.3074e-02, -2.0846e-02, -4.9333e-02,  ..., -7.6993e-02,
+          4.2430e-03,  3.4946e-02],
+        [-7.1460e-02, -5.0773e-02, -5.8150e-02,  ..., -3.7796e-02,
+         -3.3249e-02, -5.7191e-02],
+        [-9.9651e-05, -2.8808e-03, -4.6023e-02,  ..., -3.3223e-02,
+          2.7450e-02, -1.1071e-02]], device='cuda:0'), grad: tensor([[-6.1913e-03,  1.3256e-03, -2.3308e-03,  ...,  1.4772e-03,
+         -8.4534e-03, -5.4502e-04],
+        [ 1.3294e-03,  8.9586e-05,  5.1451e-04,  ..., -9.0179e-03,
+          9.9564e-04,  2.7990e-04],
+        [ 2.3067e-04,  8.6117e-04, -3.7460e-03,  ..., -1.2846e-03,
+         -6.5851e-04,  2.9993e-04],
+        ...,
+        [ 2.4395e-03,  2.9778e-04,  7.1430e-04,  ...,  4.4465e-04,
+          1.4315e-03,  1.1787e-03],
+        [-1.3672e-02, -6.2675e-03, -4.9210e-03,  ..., -7.4196e-03,
+         -6.6261e-03, -2.6054e-03],
+        [ 7.6790e-03,  1.2760e-03,  4.4060e-03,  ...,  3.5477e-03,
+          5.4703e-03,  5.3644e-04]], device='cuda:0')
+Epoch 68, bias, value: tensor([ 0.0159, -0.0155,  0.0044, -0.0169,  0.0145,  0.0043, -0.0154, -0.0268,
+         0.0099, -0.0101], device='cuda:0'), grad: tensor([-0.0093, -0.0223, -0.0149,  0.0260,  0.0011,  0.0202,  0.0307,  0.0147,
+        -0.0890,  0.0428], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 67----------------------------------------------------
+epoch 67, time 227.35, cls_loss 0.6543 cls_loss_mapping 0.0296 cls_loss_causal 0.6228 re_mapping 0.0154 re_causal 0.0391 /// teacc 98.53 lr 0.00010000
+Epoch 69, weight, value: tensor([[ 2.9902e-03,  4.8225e-02, -8.9906e-02,  ..., -4.9170e-02,
+          3.6698e-02,  1.0973e-02],
+        [-4.2294e-02, -7.2576e-02,  4.4069e-02,  ..., -2.5119e-02,
+         -7.2937e-02,  4.6766e-02],
+        [-3.7350e-02, -1.8475e-02, -5.4803e-02,  ..., -8.0363e-02,
+         -3.8325e-02,  2.4504e-02],
+        ...,
+        [-1.3524e-02, -2.1903e-02, -5.0529e-02,  ..., -7.8673e-02,
+          3.9988e-03,  3.4956e-02],
+        [-7.1014e-02, -5.2119e-02, -5.8450e-02,  ..., -3.8427e-02,
+         -3.3056e-02, -5.7326e-02],
+        [ 7.2411e-05, -3.6497e-03, -4.7548e-02,  ..., -3.4007e-02,
+          2.7502e-02, -1.1708e-02]], device='cuda:0'), grad: tensor([[-0.0017, -0.0092, -0.0056,  ..., -0.0033,  0.0001,  0.0014],
+        [-0.0028,  0.0009,  0.0020,  ...,  0.0014, -0.0012, -0.0026],
+        [ 0.0049,  0.0054,  0.0073,  ...,  0.0045,  0.0055,  0.0084],
+        ...,
+        [ 0.0030,  0.0010,  0.0012,  ...,  0.0008,  0.0015, -0.0002],
+        [ 0.0107,  0.0086,  0.0114,  ...,  0.0077,  0.0047,  0.0095],
+        [-0.0070,  0.0013,  0.0014,  ..., -0.0016, -0.0041, -0.0063]],
+       device='cuda:0')
+Epoch 69, bias, value: tensor([ 0.0160, -0.0153,  0.0040, -0.0175,  0.0151,  0.0039, -0.0152, -0.0264,
+         0.0101, -0.0102], device='cuda:0'), grad: tensor([-0.0657,  0.0157,  0.0338, -0.0115, -0.0109,  0.0180, -0.0084,  0.0161,
+         0.0712, -0.0583], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 68, time 224.90, cls_loss 0.6615 cls_loss_mapping 0.0301 cls_loss_causal 0.6189 re_mapping 0.0150 re_causal 0.0390 /// teacc 98.46 lr 0.00010000
+Epoch 70, weight, value: tensor([[ 0.0032,  0.0491, -0.0897,  ..., -0.0487,  0.0373,  0.0110],
+        [-0.0421, -0.0743,  0.0440,  ..., -0.0257, -0.0736,  0.0460],
+        [-0.0381, -0.0188, -0.0554,  ..., -0.0800, -0.0382,  0.0244],
+        ...,
+        [-0.0136, -0.0222, -0.0509,  ..., -0.0794,  0.0045,  0.0358],
+        [-0.0712, -0.0527, -0.0578,  ..., -0.0386, -0.0338, -0.0579],
+        [ 0.0002, -0.0039, -0.0481,  ..., -0.0343,  0.0270, -0.0118]],
+       device='cuda:0'), grad: tensor([[ 6.5184e-04, -3.2444e-03, -4.1809e-03,  ..., -7.2670e-03,
+         -1.7290e-03,  5.7220e-04],
+        [-2.0027e-05,  2.6951e-03,  2.5425e-03,  ...,  6.1913e-03,
+          1.3256e-03, -9.2030e-04],
+        [ 3.4008e-03,  1.2751e-03,  8.7976e-04,  ...,  1.1578e-03,
+          2.0046e-03,  2.9449e-03],
+        ...,
+        [ 5.0926e-03,  8.0633e-04,  9.5129e-04,  ...,  1.0939e-03,
+          2.8076e-03,  1.7319e-03],
+        [ 3.4561e-03,  9.1457e-04,  3.0212e-03,  ...,  2.8057e-03,
+          1.7891e-03,  3.1662e-03],
+        [-2.1545e-02, -8.2932e-03, -6.0425e-03,  ..., -8.9264e-03,
+         -1.3290e-02, -1.5587e-02]], device='cuda:0')
+Epoch 70, bias, value: tensor([ 0.0165, -0.0152,  0.0036, -0.0176,  0.0151,  0.0039, -0.0158, -0.0264,
+         0.0104, -0.0101], device='cuda:0'), grad: tensor([ 0.0054, -0.0148,  0.0162,  0.0470,  0.0390, -0.0148, -0.0335,  0.0211,
+         0.0201, -0.0858], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 69, time 225.54, cls_loss 0.6001 cls_loss_mapping 0.0302 cls_loss_causal 0.5677 re_mapping 0.0144 re_causal 0.0374 /// teacc 98.21 lr 0.00010000
+Epoch 71, weight, value: tensor([[ 0.0022,  0.0490, -0.0901,  ..., -0.0495,  0.0367,  0.0094],
+        [-0.0422, -0.0752,  0.0444,  ..., -0.0254, -0.0728,  0.0461],
+        [-0.0368, -0.0189, -0.0562,  ..., -0.0810, -0.0368,  0.0250],
+        ...,
+        [-0.0142, -0.0216, -0.0504,  ..., -0.0782,  0.0038,  0.0370],
+        [-0.0709, -0.0530, -0.0578,  ..., -0.0380, -0.0338, -0.0584],
+        [ 0.0007, -0.0045, -0.0480,  ..., -0.0335,  0.0268, -0.0114]],
+       device='cuda:0'), grad: tensor([[ 3.8986e-03,  1.7462e-03,  1.1787e-03,  ...,  6.7558e-03,
+          5.5122e-03,  6.0196e-03],
+        [ 4.3411e-03,  1.3447e-03,  3.3283e-03,  ...,  1.0193e-02,
+          1.3838e-03,  7.6294e-03],
+        [ 2.0161e-03,  4.1270e-04,  1.2159e-03,  ..., -7.1907e-04,
+         -3.6030e-03,  4.0703e-03],
+        ...,
+        [ 1.3647e-03,  8.7643e-04,  1.4198e-04,  ...,  1.1597e-03,
+          1.4915e-03, -3.4447e-03],
+        [-5.2795e-03, -2.7828e-03, -1.6994e-03,  ..., -1.2589e-04,
+          1.7494e-05, -2.8400e-03],
+        [-9.6054e-03, -2.1667e-03, -2.3918e-03,  ..., -1.4486e-03,
+         -4.6959e-03, -1.2939e-02]], device='cuda:0')
+Epoch 71, bias, value: tensor([ 0.0151, -0.0143,  0.0041, -0.0177,  0.0152,  0.0032, -0.0158, -0.0262,
+         0.0101, -0.0094], device='cuda:0'), grad: tensor([ 0.0337,  0.0539,  0.0181,  0.0197,  0.0041, -0.0097, -0.0334,  0.0049,
+        -0.0350, -0.0564], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 70, time 227.52, cls_loss 0.6537 cls_loss_mapping 0.0274 cls_loss_causal 0.6132 re_mapping 0.0144 re_causal 0.0357 /// teacc 98.41 lr 0.00010000
+Epoch 72, weight, value: tensor([[ 0.0022,  0.0498, -0.0902,  ..., -0.0494,  0.0359,  0.0085],
+        [-0.0428, -0.0762,  0.0444,  ..., -0.0254, -0.0736,  0.0459],
+        [-0.0368, -0.0190, -0.0564,  ..., -0.0806, -0.0363,  0.0243],
+        ...,
+        [-0.0144, -0.0224, -0.0509,  ..., -0.0797,  0.0036,  0.0374],
+        [-0.0711, -0.0529, -0.0574,  ..., -0.0379, -0.0331, -0.0585],
+        [ 0.0006, -0.0044, -0.0480,  ..., -0.0348,  0.0268, -0.0120]],
+       device='cuda:0'), grad: tensor([[ 2.7523e-03,  2.0921e-05,  4.2009e-04,  ...,  9.7513e-04,
+          1.1063e-03,  3.1548e-03],
+        [ 8.1348e-04,  1.9240e-04,  7.5388e-04,  ...,  1.2236e-03,
+          1.0777e-03, -2.4199e-04],
+        [-1.5926e-03,  6.3515e-04,  6.8092e-04,  ...,  3.0022e-03,
+          2.4140e-05, -2.5330e-03],
+        ...,
+        [ 1.4553e-03,  1.1387e-03,  1.3809e-03,  ...,  2.7275e-03,
+          1.2608e-03,  3.7975e-03],
+        [-1.3596e-02,  1.3268e-04,  1.1616e-03,  ..., -7.4615e-03,
+         -8.9264e-03, -1.3474e-02],
+        [-1.4095e-03, -1.5850e-03, -7.2174e-03,  ..., -3.2806e-03,
+          1.8406e-03, -2.6131e-03]], device='cuda:0')
+Epoch 72, bias, value: tensor([ 0.0150, -0.0146,  0.0041, -0.0176,  0.0149,  0.0039, -0.0164, -0.0262,
+         0.0103, -0.0093], device='cuda:0'), grad: tensor([ 0.0186, -0.0056,  0.0048,  0.0130, -0.0178,  0.0446,  0.0371,  0.0096,
+        -0.0708, -0.0335], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 71, time 226.78, cls_loss 0.6589 cls_loss_mapping 0.0299 cls_loss_causal 0.6160 re_mapping 0.0145 re_causal 0.0379 /// teacc 98.52 lr 0.00010000
+Epoch 73, weight, value: tensor([[ 0.0034,  0.0515, -0.0912,  ..., -0.0505,  0.0381,  0.0085],
+        [-0.0439, -0.0764,  0.0448,  ..., -0.0250, -0.0743,  0.0461],
+        [-0.0366, -0.0190, -0.0574,  ..., -0.0823, -0.0371,  0.0249],
+        ...,
+        [-0.0142, -0.0229, -0.0514,  ..., -0.0786,  0.0025,  0.0379],
+        [-0.0707, -0.0531, -0.0584,  ..., -0.0379, -0.0330, -0.0590],
+        [ 0.0009, -0.0052, -0.0483,  ..., -0.0354,  0.0276, -0.0129]],
+       device='cuda:0'), grad: tensor([[ 0.0087,  0.0033,  0.0003,  ...,  0.0017,  0.0069,  0.0057],
+        [ 0.0021,  0.0002, -0.0024,  ..., -0.0006,  0.0010,  0.0020],
+        [ 0.0011, -0.0004,  0.0012,  ...,  0.0012, -0.0017, -0.0056],
+        ...,
+        [ 0.0039,  0.0027,  0.0004,  ...,  0.0005,  0.0004,  0.0005],
+        [-0.0162, -0.0128, -0.0002,  ..., -0.0006, -0.0060, -0.0135],
+        [ 0.0051, -0.0015, -0.0002,  ...,  0.0008, -0.0012,  0.0060]],
+       device='cuda:0')
+Epoch 73, bias, value: tensor([ 0.0151, -0.0147,  0.0035, -0.0180,  0.0158,  0.0038, -0.0167, -0.0265,
+         0.0109, -0.0092], device='cuda:0'), grad: tensor([ 0.0379,  0.0142,  0.0014,  0.0213, -0.0690,  0.0523, -0.0143,  0.0240,
+        -0.0955,  0.0278], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 72, time 225.85, cls_loss 0.6055 cls_loss_mapping 0.0385 cls_loss_causal 0.5686 re_mapping 0.0141 re_causal 0.0357 /// teacc 98.51 lr 0.00010000
+Epoch 74, weight, value: tensor([[ 0.0037,  0.0505, -0.0926,  ..., -0.0516,  0.0386,  0.0092],
+        [-0.0442, -0.0778,  0.0444,  ..., -0.0266, -0.0748,  0.0459],
+        [-0.0378, -0.0189, -0.0580,  ..., -0.0821, -0.0376,  0.0253],
+        ...,
+        [-0.0145, -0.0238, -0.0519,  ..., -0.0792,  0.0026,  0.0386],
+        [-0.0717, -0.0538, -0.0580,  ..., -0.0377, -0.0343, -0.0603],
+        [ 0.0009, -0.0054, -0.0496,  ..., -0.0362,  0.0282, -0.0125]],
+       device='cuda:0'), grad: tensor([[-1.0483e-02, -6.5756e-04,  2.5415e-04,  ..., -6.1616e-06,
+         -9.0561e-03,  3.2959e-03],
+        [-1.0538e-03,  5.4270e-05, -3.6359e-04,  ...,  7.5758e-05,
+         -1.3266e-03, -1.2312e-03],
+        [ 2.6474e-03, -4.9204e-05,  2.1207e-04,  ...,  2.9349e-04,
+          1.6279e-03,  6.7940e-03],
+        ...,
+        [-2.8655e-05,  8.0228e-05,  1.1891e-04,  ...,  7.4387e-05,
+          7.5817e-04, -2.1027e-02],
+        [ 4.8752e-03,  2.1305e-03,  3.1738e-03,  ...,  2.8629e-03,
+          2.9240e-03,  6.4659e-03],
+        [ 8.0338e-03,  6.8545e-05,  5.5408e-04,  ...,  9.6369e-04,
+          5.2452e-03,  5.7220e-03]], device='cuda:0')
+Epoch 74, bias, value: tensor([ 0.0156, -0.0146,  0.0038, -0.0176,  0.0151,  0.0031, -0.0162, -0.0265,
+         0.0106, -0.0090], device='cuda:0'), grad: tensor([-0.0034,  0.0142,  0.0268, -0.0548, -0.0248,  0.0308, -0.0236, -0.0467,
+         0.0399,  0.0414], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 73----------------------------------------------------
+epoch 73, time 226.00, cls_loss 0.6491 cls_loss_mapping 0.0288 cls_loss_causal 0.6117 re_mapping 0.0141 re_causal 0.0377 /// teacc 98.57 lr 0.00010000
+Epoch 75, weight, value: tensor([[ 0.0043,  0.0517, -0.0928,  ..., -0.0512,  0.0398,  0.0091],
+        [-0.0452, -0.0789,  0.0447,  ..., -0.0276, -0.0759,  0.0471],
+        [-0.0383, -0.0195, -0.0579,  ..., -0.0819, -0.0375,  0.0249],
+        ...,
+        [-0.0139, -0.0247, -0.0524,  ..., -0.0796,  0.0024,  0.0394],
+        [-0.0716, -0.0521, -0.0572,  ..., -0.0373, -0.0340, -0.0613],
+        [ 0.0003, -0.0053, -0.0490,  ..., -0.0366,  0.0274, -0.0125]],
+       device='cuda:0'), grad: tensor([[ 5.0116e-04, -3.9840e-04, -3.6471e-06,  ..., -6.6328e-04,
+         -7.5674e-04,  8.8930e-04],
+        [-1.4067e-03,  3.1382e-05, -2.0325e-04,  ...,  4.8685e-04,
+         -1.1091e-03, -1.2321e-03],
+        [ 1.0004e-03,  1.1957e-04,  1.0139e-04,  ...,  4.4823e-04,
+          2.3341e-04, -1.8448e-02],
+        ...,
+        [ 2.3003e-03,  6.1214e-05,  4.6968e-05,  ...,  4.4751e-04,
+          1.6098e-03,  1.2650e-02],
+        [ 1.9531e-03,  1.0151e-04,  9.6798e-05,  ...,  1.0071e-03,
+          9.7036e-04,  7.1907e-03],
+        [ 6.1646e-03,  5.9903e-05,  3.7581e-05,  ...,  4.5156e-04,
+          1.1740e-03,  2.1706e-03]], device='cuda:0')
+Epoch 75, bias, value: tensor([ 0.0150, -0.0148,  0.0033, -0.0174,  0.0153,  0.0032, -0.0160, -0.0258,
+         0.0106, -0.0093], device='cuda:0'), grad: tensor([ 0.0041, -0.0125, -0.0207, -0.0147, -0.0186, -0.0118,  0.0213,  0.0269,
+         0.0198,  0.0061], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 74, time 226.02, cls_loss 0.6470 cls_loss_mapping 0.0289 cls_loss_causal 0.6064 re_mapping 0.0146 re_causal 0.0362 /// teacc 98.52 lr 0.00010000
+Epoch 76, weight, value: tensor([[ 0.0040,  0.0516, -0.0929,  ..., -0.0509,  0.0394,  0.0093],
+        [-0.0454, -0.0787,  0.0457,  ..., -0.0261, -0.0766,  0.0476],
+        [-0.0386, -0.0193, -0.0583,  ..., -0.0821, -0.0379,  0.0258],
+        ...,
+        [-0.0139, -0.0263, -0.0542,  ..., -0.0806,  0.0024,  0.0390],
+        [-0.0722, -0.0527, -0.0574,  ..., -0.0376, -0.0339, -0.0623],
+        [ 0.0003, -0.0055, -0.0496,  ..., -0.0379,  0.0279, -0.0128]],
+       device='cuda:0'), grad: tensor([[-0.0054,  0.0007,  0.0004,  ..., -0.0006, -0.0027, -0.0086],
+        [ 0.0028,  0.0003,  0.0003,  ...,  0.0021,  0.0009,  0.0040],
+        [ 0.0028, -0.0005,  0.0007,  ...,  0.0021,  0.0014,  0.0034],
+        ...,
+        [ 0.0029,  0.0004,  0.0003,  ...,  0.0014,  0.0019,  0.0042],
+        [-0.0074, -0.0007,  0.0035,  ...,  0.0014, -0.0031, -0.0123],
+        [ 0.0036,  0.0012,  0.0004,  ...,  0.0015,  0.0035,  0.0028]],
+       device='cuda:0')
+Epoch 76, bias, value: tensor([ 0.0150, -0.0145,  0.0032, -0.0174,  0.0152,  0.0034, -0.0154, -0.0257,
+         0.0098, -0.0094], device='cuda:0'), grad: tensor([-0.0402,  0.0179,  0.0231,  0.0224,  0.0099, -0.0202, -0.0079,  0.0245,
+        -0.0578,  0.0283], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 75, time 225.89, cls_loss 0.6221 cls_loss_mapping 0.0255 cls_loss_causal 0.5842 re_mapping 0.0149 re_causal 0.0369 /// teacc 98.36 lr 0.00010000
+Epoch 77, weight, value: tensor([[ 0.0042,  0.0523, -0.0934,  ..., -0.0514,  0.0395,  0.0096],
+        [-0.0462, -0.0789,  0.0466,  ..., -0.0261, -0.0783,  0.0469],
+        [-0.0397, -0.0198, -0.0585,  ..., -0.0831, -0.0382,  0.0262],
+        ...,
+        [-0.0137, -0.0270, -0.0553,  ..., -0.0830,  0.0023,  0.0388],
+        [-0.0723, -0.0536, -0.0582,  ..., -0.0365, -0.0349, -0.0619],
+        [ 0.0007, -0.0059, -0.0501,  ..., -0.0378,  0.0279, -0.0120]],
+       device='cuda:0'), grad: tensor([[ 1.1797e-03,  2.2686e-04,  5.8079e-04,  ...,  2.1210e-03,
+         -9.8324e-04, -1.9169e-04],
+        [ 1.5986e-04,  1.4126e-04,  7.0594e-06,  ..., -1.5521e-04,
+          5.5265e-04, -7.1287e-04],
+        [-3.5648e-03, -1.8263e-04,  8.6308e-05,  ..., -1.3866e-03,
+         -3.1052e-03, -3.5400e-03],
+        ...,
+        [-1.0252e-03,  2.1136e-04,  2.6703e-05,  ..., -3.2306e-04,
+         -5.7459e-04, -3.7327e-03],
+        [ 3.7694e-04, -7.0632e-05,  1.1235e-04,  ...,  2.6836e-03,
+          9.2936e-04, -5.7316e-04],
+        [-9.9487e-03,  9.1124e-04,  9.3281e-05,  ...,  1.4153e-03,
+         -1.6602e-02,  4.2839e-03]], device='cuda:0')
+Epoch 77, bias, value: tensor([ 0.0150, -0.0149,  0.0035, -0.0182,  0.0144,  0.0031, -0.0149, -0.0259,
+         0.0102, -0.0081], device='cuda:0'), grad: tensor([-0.0041, -0.0065, -0.0101, -0.0045,  0.0214, -0.0222,  0.0293, -0.0163,
+         0.0091,  0.0037], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 76, time 225.83, cls_loss 0.6368 cls_loss_mapping 0.0339 cls_loss_causal 0.5969 re_mapping 0.0147 re_causal 0.0357 /// teacc 98.19 lr 0.00010000
+Epoch 78, weight, value: tensor([[ 0.0028,  0.0521, -0.0955,  ..., -0.0523,  0.0386,  0.0094],
+        [-0.0463, -0.0789,  0.0470,  ..., -0.0253, -0.0779,  0.0466],
+        [-0.0401, -0.0202, -0.0595,  ..., -0.0828, -0.0379,  0.0257],
+        ...,
+        [-0.0131, -0.0270, -0.0560,  ..., -0.0840,  0.0023,  0.0397],
+        [-0.0717, -0.0546, -0.0585,  ..., -0.0380, -0.0337, -0.0614],
+        [ 0.0009, -0.0065, -0.0498,  ..., -0.0368,  0.0273, -0.0114]],
+       device='cuda:0'), grad: tensor([[-2.1820e-03, -7.0915e-03,  5.9724e-05,  ...,  1.1969e-03,
+         -3.5362e-03,  2.5959e-03],
+        [ 3.2387e-03,  4.5681e-04, -8.6546e-05,  ...,  2.6207e-03,
+          2.9583e-03,  4.6005e-03],
+        [-3.1796e-03,  1.0185e-03, -1.8215e-04,  ..., -1.2560e-03,
+         -7.9679e-04, -9.8114e-03],
+        ...,
+        [ 5.3406e-03,  6.3038e-04,  2.2233e-04,  ...,  1.9398e-03,
+          2.9335e-03,  6.6795e-03],
+        [-3.1376e-03,  5.0426e-05,  4.3988e-04,  ..., -4.0398e-03,
+         -1.0162e-02, -6.8398e-03],
+        [-1.4887e-03,  8.5402e-04,  9.9778e-05,  ..., -1.3781e-03,
+          6.8998e-04,  2.7847e-03]], device='cuda:0')
+Epoch 78, bias, value: tensor([ 0.0145, -0.0150,  0.0032, -0.0179,  0.0149,  0.0030, -0.0154, -0.0259,
+         0.0107, -0.0081], device='cuda:0'), grad: tensor([ 0.0122,  0.0335, -0.0086, -0.0668,  0.0294,  0.0111,  0.0130,  0.0399,
+        -0.0778,  0.0141], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 77, time 225.58, cls_loss 0.6026 cls_loss_mapping 0.0301 cls_loss_causal 0.5699 re_mapping 0.0145 re_causal 0.0356 /// teacc 98.41 lr 0.00010000
+Epoch 79, weight, value: tensor([[ 0.0032,  0.0530, -0.0966,  ..., -0.0518,  0.0387,  0.0101],
+        [-0.0463, -0.0785,  0.0469,  ..., -0.0262, -0.0781,  0.0471],
+        [-0.0417, -0.0210, -0.0580,  ..., -0.0821, -0.0380,  0.0260],
+        ...,
+        [-0.0139, -0.0277, -0.0570,  ..., -0.0837,  0.0020,  0.0398],
+        [-0.0724, -0.0544, -0.0586,  ..., -0.0387, -0.0340, -0.0616],
+        [ 0.0012, -0.0056, -0.0492,  ..., -0.0358,  0.0273, -0.0124]],
+       device='cuda:0'), grad: tensor([[ 6.0463e-04, -2.0254e-04,  5.5972e-07,  ...,  2.8992e-04,
+          3.4761e-04,  1.3590e-03],
+        [-1.4496e-03, -2.1038e-03, -2.6356e-06,  ..., -3.4523e-04,
+         -7.2174e-03, -1.3626e-02],
+        [-6.3744e-03,  1.0433e-03,  1.5320e-07,  ...,  2.1923e-04,
+         -8.3494e-04,  4.2458e-03],
+        ...,
+        [ 1.1339e-03,  1.7333e-04,  2.4363e-06,  ...,  2.0969e-04,
+          1.6236e-04,  6.0272e-04],
+        [ 4.0770e-04,  3.7932e-04,  5.1916e-05,  ..., -3.2825e-03,
+          1.1520e-03,  3.1929e-03],
+        [ 6.7177e-03,  7.2479e-03,  4.6939e-05,  ..., -4.3750e-04,
+          6.4201e-03,  1.4277e-03]], device='cuda:0')
+Epoch 79, bias, value: tensor([ 0.0148, -0.0148,  0.0033, -0.0176,  0.0153,  0.0029, -0.0160, -0.0259,
+         0.0110, -0.0089], device='cuda:0'), grad: tensor([ 0.0154, -0.0442,  0.0071,  0.0376, -0.0287, -0.0518,  0.0189,  0.0144,
+         0.0129,  0.0184], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 78, time 225.29, cls_loss 0.6236 cls_loss_mapping 0.0263 cls_loss_causal 0.5914 re_mapping 0.0136 re_causal 0.0351 /// teacc 98.51 lr 0.00010000
+Epoch 80, weight, value: tensor([[ 0.0031,  0.0529, -0.0976,  ..., -0.0520,  0.0390,  0.0099],
+        [-0.0470, -0.0779,  0.0478,  ..., -0.0254, -0.0782,  0.0469],
+        [-0.0414, -0.0201, -0.0579,  ..., -0.0820, -0.0375,  0.0262],
+        ...,
+        [-0.0137, -0.0285, -0.0571,  ..., -0.0832,  0.0014,  0.0405],
+        [-0.0735, -0.0559, -0.0602,  ..., -0.0396, -0.0342, -0.0625],
+        [ 0.0016, -0.0056, -0.0497,  ..., -0.0371,  0.0279, -0.0119]],
+       device='cuda:0'), grad: tensor([[ 2.5902e-03,  2.4095e-05,  4.3362e-05,  ...,  9.4128e-04,
+          1.5097e-03,  4.0474e-03],
+        [-4.7326e-04,  4.5747e-05, -9.0313e-04,  ..., -9.7656e-04,
+          4.0650e-04, -9.9468e-04],
+        [ 3.1128e-03,  8.6288e-03,  3.2883e-03,  ..., -8.0228e-05,
+          2.2106e-03,  7.8812e-03],
+        ...,
+        [-2.7828e-03,  2.5916e-04,  6.5136e-04,  ...,  6.1333e-05,
+         -2.2488e-03, -1.7303e-02],
+        [ 1.7297e-04,  7.2479e-05,  9.4354e-05,  ..., -7.2908e-04,
+          3.7742e-04,  1.3571e-03],
+        [-3.1548e-03,  4.2230e-05,  3.3665e-04,  ...,  1.0576e-03,
+         -2.1572e-03,  3.2101e-03]], device='cuda:0')
+Epoch 80, bias, value: tensor([ 0.0152, -0.0149,  0.0036, -0.0177,  0.0155,  0.0019, -0.0155, -0.0253,
+         0.0100, -0.0087], device='cuda:0'), grad: tensor([ 0.0246, -0.0092,  0.0599, -0.0625, -0.0020,  0.0147,  0.0262, -0.0573,
+        -0.0019,  0.0076], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 79, time 225.49, cls_loss 0.6389 cls_loss_mapping 0.0263 cls_loss_causal 0.6054 re_mapping 0.0131 re_causal 0.0332 /// teacc 98.55 lr 0.00010000
+Epoch 81, weight, value: tensor([[ 0.0037,  0.0528, -0.0970,  ..., -0.0521,  0.0389,  0.0107],
+        [-0.0469, -0.0782,  0.0484,  ..., -0.0249, -0.0788,  0.0473],
+        [-0.0417, -0.0199, -0.0580,  ..., -0.0832, -0.0370,  0.0262],
+        ...,
+        [-0.0138, -0.0297, -0.0572,  ..., -0.0830,  0.0021,  0.0406],
+        [-0.0733, -0.0570, -0.0605,  ..., -0.0401, -0.0344, -0.0621],
+        [ 0.0018, -0.0043, -0.0510,  ..., -0.0374,  0.0280, -0.0118]],
+       device='cuda:0'), grad: tensor([[ 1.6479e-03, -2.4271e-04,  1.4651e-04,  ...,  4.2701e-04,
+          9.0408e-04,  2.4185e-03],
+        [-2.8205e-04,  2.4867e-04,  1.2720e-04,  ...,  2.5675e-05,
+          4.6253e-04,  1.0900e-05],
+        [-3.5610e-03,  1.7815e-03,  2.0123e-03,  ...,  8.7881e-04,
+         -2.2793e-03, -7.7591e-03],
+        ...,
+        [-3.7632e-03, -2.2614e-04,  9.4235e-05,  ...,  1.6153e-04,
+         -1.6813e-03, -3.3550e-03],
+        [ 2.6016e-03,  9.3746e-04,  7.7724e-04,  ...,  1.3266e-03,
+          1.5802e-03,  3.1528e-03],
+        [ 3.2253e-03,  2.1350e-04,  1.6451e-04,  ...,  9.0742e-04,
+          1.7881e-03,  2.0466e-03]], device='cuda:0')
+Epoch 81, bias, value: tensor([ 0.0154, -0.0146,  0.0036, -0.0177,  0.0149,  0.0017, -0.0160, -0.0252,
+         0.0103, -0.0084], device='cuda:0'), grad: tensor([ 0.0150, -0.0113, -0.0194,  0.0143, -0.0313,  0.0368, -0.0137, -0.0287,
+         0.0215,  0.0168], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 80, time 221.55, cls_loss 0.6437 cls_loss_mapping 0.0243 cls_loss_causal 0.6121 re_mapping 0.0141 re_causal 0.0356 /// teacc 98.16 lr 0.00010000
+Epoch 82, weight, value: tensor([[ 0.0048,  0.0531, -0.0969,  ..., -0.0522,  0.0401,  0.0102],
+        [-0.0456, -0.0781,  0.0487,  ..., -0.0244, -0.0788,  0.0468],
+        [-0.0420, -0.0204, -0.0582,  ..., -0.0841, -0.0375,  0.0274],
+        ...,
+        [-0.0144, -0.0307, -0.0584,  ..., -0.0839,  0.0013,  0.0400],
+        [-0.0746, -0.0568, -0.0604,  ..., -0.0403, -0.0351, -0.0619],
+        [ 0.0018, -0.0040, -0.0514,  ..., -0.0380,  0.0271, -0.0112]],
+       device='cuda:0'), grad: tensor([[-1.6546e-03, -1.8797e-03,  5.3912e-05,  ..., -4.1389e-04,
+         -3.4833e-04, -1.8053e-03],
+        [ 5.0087e-03,  6.5517e-04,  8.5592e-05,  ...,  8.6975e-04,
+          1.9646e-03,  5.6000e-03],
+        [-9.8877e-03, -8.8358e-04,  1.8167e-04,  ...,  9.5177e-04,
+         -4.8828e-04, -9.7351e-03],
+        ...,
+        [-2.4872e-03,  3.0732e-04, -2.5868e-04,  ...,  2.1088e-04,
+         -2.5997e-03,  3.1567e-04],
+        [ 2.6970e-03,  8.5373e-03,  1.3745e-04,  ...,  5.1880e-04,
+          1.4067e-03,  2.9430e-03],
+        [-1.5993e-03,  2.9397e-04,  1.4269e-04,  ...,  2.4021e-04,
+         -9.2697e-04, -6.7377e-04]], device='cuda:0')
+Epoch 82, bias, value: tensor([ 0.0157, -0.0142,  0.0038, -0.0180,  0.0153,  0.0025, -0.0164, -0.0260,
+         0.0097, -0.0083], device='cuda:0'), grad: tensor([-0.0186,  0.0387, -0.0581,  0.0115,  0.0228, -0.0101, -0.0297,  0.0151,
+         0.0640, -0.0356], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 81, time 221.84, cls_loss 0.6295 cls_loss_mapping 0.0250 cls_loss_causal 0.5952 re_mapping 0.0136 re_causal 0.0361 /// teacc 98.23 lr 0.00010000
+Epoch 83, weight, value: tensor([[ 0.0045,  0.0527, -0.0976,  ..., -0.0517,  0.0400,  0.0095],
+        [-0.0450, -0.0765,  0.0488,  ..., -0.0248, -0.0770,  0.0466],
+        [-0.0424, -0.0196, -0.0583,  ..., -0.0842, -0.0377,  0.0283],
+        ...,
+        [-0.0137, -0.0314, -0.0591,  ..., -0.0844,  0.0019,  0.0397],
+        [-0.0743, -0.0581, -0.0605,  ..., -0.0403, -0.0350, -0.0619],
+        [ 0.0018, -0.0042, -0.0513,  ..., -0.0381,  0.0273, -0.0107]],
+       device='cuda:0'), grad: tensor([[-2.1191e-03, -7.3891e-03, -1.1749e-03,  ...,  1.8191e-04,
+         -6.6376e-03, -2.2907e-03],
+        [-1.4353e-03, -1.5078e-03, -4.6635e-04,  ...,  1.4162e-04,
+          3.6550e-04, -4.4022e-03],
+        [ 2.4452e-03,  1.7567e-03,  7.5674e-04,  ...,  1.1415e-03,
+          1.0843e-03,  5.4016e-03],
+        ...,
+        [ 2.2488e-03,  9.5844e-04,  4.5872e-04,  ...,  6.2943e-04,
+          4.8661e-04,  3.7823e-03],
+        [ 2.6302e-03,  1.4210e-03, -6.3229e-04,  ..., -6.1417e-04,
+          1.1187e-03,  3.0689e-03],
+        [-6.6795e-03,  6.9904e-04,  5.6662e-06,  ...,  9.1171e-04,
+         -1.1015e-03, -8.3771e-03]], device='cuda:0')
+Epoch 83, bias, value: tensor([ 0.0143, -0.0140,  0.0042, -0.0180,  0.0143,  0.0024, -0.0155, -0.0256,
+         0.0096, -0.0079], device='cuda:0'), grad: tensor([-0.0640, -0.0206,  0.0396,  0.0474, -0.0311,  0.0184,  0.0287,  0.0317,
+         0.0261, -0.0760], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 82, time 220.34, cls_loss 0.6274 cls_loss_mapping 0.0272 cls_loss_causal 0.5940 re_mapping 0.0129 re_causal 0.0335 /// teacc 98.46 lr 0.00010000
+Epoch 84, weight, value: tensor([[ 0.0040,  0.0532, -0.0979,  ..., -0.0532,  0.0396,  0.0104],
+        [-0.0453, -0.0754,  0.0488,  ..., -0.0249, -0.0771,  0.0458],
+        [-0.0426, -0.0205, -0.0583,  ..., -0.0843, -0.0382,  0.0285],
+        ...,
+        [-0.0141, -0.0317, -0.0592,  ..., -0.0845,  0.0015,  0.0393],
+        [-0.0743, -0.0594, -0.0610,  ..., -0.0411, -0.0359, -0.0613],
+        [ 0.0025, -0.0046, -0.0516,  ..., -0.0386,  0.0282, -0.0112]],
+       device='cuda:0'), grad: tensor([[ 9.2010e-03,  3.6316e-03,  7.4565e-05,  ...,  4.3321e-04,
+          7.5302e-03,  9.9468e-04],
+        [ 8.5354e-05,  6.1274e-04,  1.0461e-04,  ...,  1.2560e-03,
+          1.9753e-04, -7.4911e-04],
+        [ 3.8261e-03,  1.8425e-03,  4.1389e-04,  ...,  2.6493e-03,
+          2.2507e-03,  5.3787e-03],
+        ...,
+        [-4.8294e-03,  4.3440e-04,  3.3331e-04,  ...,  1.4858e-03,
+         -4.9782e-03, -1.4853e-04],
+        [-2.9526e-03, -3.1204e-03, -1.1258e-05,  ...,  6.7902e-04,
+         -4.4727e-04, -1.0735e-02],
+        [ 1.2161e-02,  4.3297e-03,  7.6485e-04,  ...,  2.5654e-03,
+          8.7814e-03,  1.3702e-02]], device='cuda:0')
+Epoch 84, bias, value: tensor([ 0.0148, -0.0138,  0.0036, -0.0168,  0.0150,  0.0011, -0.0154, -0.0261,
+         0.0101, -0.0085], device='cuda:0'), grad: tensor([ 0.0404,  0.0041,  0.0282,  0.0127, -0.0054, -0.0136, -0.0673, -0.0090,
+        -0.0649,  0.0748], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 83, time 217.17, cls_loss 0.6361 cls_loss_mapping 0.0267 cls_loss_causal 0.6014 re_mapping 0.0127 re_causal 0.0330 /// teacc 98.47 lr 0.00010000
+Epoch 85, weight, value: tensor([[ 0.0037,  0.0539, -0.0980,  ..., -0.0527,  0.0402,  0.0101],
+        [-0.0453, -0.0764,  0.0492,  ..., -0.0261, -0.0777,  0.0463],
+        [-0.0429, -0.0209, -0.0595,  ..., -0.0855, -0.0379,  0.0285],
+        ...,
+        [-0.0152, -0.0327, -0.0593,  ..., -0.0853,  0.0009,  0.0396],
+        [-0.0746, -0.0604, -0.0612,  ..., -0.0402, -0.0362, -0.0615],
+        [ 0.0031, -0.0032, -0.0519,  ..., -0.0384,  0.0288, -0.0110]],
+       device='cuda:0'), grad: tensor([[-2.0683e-04,  1.9562e-04,  2.1362e-04,  ...,  4.3011e-04,
+          1.0061e-03, -4.2534e-03],
+        [ 1.9217e-03,  5.0545e-04,  4.8971e-04,  ...,  9.0063e-05,
+          1.5316e-03, -1.7838e-02],
+        [ 1.5678e-03,  3.0684e-04,  5.0306e-04,  ...,  6.5041e-04,
+          1.4114e-03,  2.0905e-02],
+        ...,
+        [-5.8594e-03, -1.3804e-04, -2.6245e-03,  ..., -3.9482e-03,
+         -5.0392e-03,  9.3794e-04],
+        [-2.2280e-04, -3.1853e-03, -6.7949e-05,  ..., -4.5824e-04,
+         -1.8101e-03, -1.1566e-02],
+        [ 1.8644e-03,  1.8044e-03,  4.2868e-04,  ...,  8.6975e-04,
+          2.4948e-03,  5.7564e-03]], device='cuda:0')
+Epoch 85, bias, value: tensor([ 0.0155, -0.0135,  0.0032, -0.0164,  0.0146,  0.0016, -0.0164, -0.0268,
+         0.0101, -0.0079], device='cuda:0'), grad: tensor([-0.0114, -0.0029,  0.0311,  0.0186,  0.0053,  0.0143, -0.0159, -0.0334,
+        -0.0318,  0.0262], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 84, time 220.89, cls_loss 0.6031 cls_loss_mapping 0.0220 cls_loss_causal 0.5674 re_mapping 0.0136 re_causal 0.0348 /// teacc 98.46 lr 0.00010000
+Epoch 86, weight, value: tensor([[ 0.0035,  0.0557, -0.0983,  ..., -0.0523,  0.0398,  0.0101],
+        [-0.0462, -0.0767,  0.0488,  ..., -0.0269, -0.0790,  0.0456],
+        [-0.0439, -0.0223, -0.0602,  ..., -0.0861, -0.0387,  0.0287],
+        ...,
+        [-0.0138, -0.0337, -0.0590,  ..., -0.0852,  0.0015,  0.0402],
+        [-0.0737, -0.0610, -0.0612,  ..., -0.0416, -0.0360, -0.0616],
+        [ 0.0029, -0.0031, -0.0517,  ..., -0.0386,  0.0288, -0.0107]],
+       device='cuda:0'), grad: tensor([[ 1.2493e-03, -1.2665e-03,  5.4622e-07,  ..., -4.1342e-04,
+          2.7943e-04,  1.5488e-03],
+        [ 1.4906e-03,  3.2276e-05,  1.8999e-07,  ...,  1.2732e-04,
+          8.6784e-04,  1.2541e-03],
+        [ 1.2627e-03,  3.9935e-05,  1.0151e-06,  ..., -3.7879e-05,
+          9.1696e-04,  8.8882e-04],
+        ...,
+        [ 2.4147e-03,  2.0897e-04,  7.6741e-07,  ...,  1.2839e-04,
+          1.7014e-03,  1.6232e-03],
+        [-1.8053e-03,  7.9453e-05,  6.1318e-06,  ...,  1.5068e-04,
+         -1.5287e-03, -1.6289e-03],
+        [ 2.1515e-02,  3.0304e-02,  2.0325e-05,  ..., -4.8614e-04,
+          3.0624e-02,  8.0156e-04]], device='cuda:0')
+Epoch 86, bias, value: tensor([ 0.0159, -0.0144,  0.0030, -0.0172,  0.0149,  0.0017, -0.0161, -0.0266,
+         0.0103, -0.0075], device='cuda:0'), grad: tensor([ 0.0146,  0.0135,  0.0135, -0.0789, -0.0280, -0.0140,  0.0231,  0.0215,
+        -0.0135,  0.0482], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 85----------------------------------------------------
+epoch 85, time 217.80, cls_loss 0.6152 cls_loss_mapping 0.0256 cls_loss_causal 0.5798 re_mapping 0.0131 re_causal 0.0326 /// teacc 98.60 lr 0.00010000
+Epoch 87, weight, value: tensor([[ 0.0032,  0.0554, -0.0987,  ..., -0.0532,  0.0393,  0.0099],
+        [-0.0460, -0.0767,  0.0481,  ..., -0.0281, -0.0783,  0.0456],
+        [-0.0444, -0.0225, -0.0607,  ..., -0.0862, -0.0383,  0.0290],
+        ...,
+        [-0.0140, -0.0346, -0.0591,  ..., -0.0841,  0.0012,  0.0413],
+        [-0.0738, -0.0629, -0.0617,  ..., -0.0412, -0.0367, -0.0623],
+        [ 0.0027, -0.0036, -0.0515,  ..., -0.0388,  0.0285, -0.0108]],
+       device='cuda:0'), grad: tensor([[ 3.6774e-03, -1.1665e-02, -1.3189e-03,  ..., -3.6106e-03,
+         -1.0483e-02,  4.5891e-03],
+        [-4.9019e-03,  1.2314e-04,  9.1851e-05,  ...,  3.5548e-04,
+         -9.5520e-03, -4.0550e-03],
+        [-3.0112e-04,  6.7520e-04,  2.1708e-04,  ...,  2.2531e-04,
+          8.4400e-04,  5.7640e-03],
+        ...,
+        [ 1.9550e-03,  1.7858e-04,  1.2624e-04,  ...,  4.2248e-04,
+          1.2159e-03, -2.4090e-03],
+        [ 1.1415e-03, -1.9255e-03, -2.3384e-03,  ..., -6.0797e-04,
+         -8.4829e-04,  3.3360e-03],
+        [ 1.6327e-03,  7.5874e-03,  2.8362e-03,  ...,  3.3360e-03,
+          1.0109e-02,  5.0125e-03]], device='cuda:0')
+Epoch 87, bias, value: tensor([ 0.0154, -0.0138,  0.0030, -0.0179,  0.0146,  0.0018, -0.0165, -0.0258,
+         0.0108, -0.0076], device='cuda:0'), grad: tensor([ 0.0153, -0.0347, -0.0061,  0.0277, -0.0399,  0.0094, -0.0449,  0.0223,
+         0.0106,  0.0403], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 86, time 217.21, cls_loss 0.6105 cls_loss_mapping 0.0266 cls_loss_causal 0.5785 re_mapping 0.0127 re_causal 0.0328 /// teacc 98.50 lr 0.00010000
+Epoch 88, weight, value: tensor([[ 0.0035,  0.0554, -0.0997,  ..., -0.0536,  0.0402,  0.0106],
+        [-0.0462, -0.0773,  0.0480,  ..., -0.0280, -0.0780,  0.0469],
+        [-0.0443, -0.0233, -0.0612,  ..., -0.0861, -0.0386,  0.0294],
+        ...,
+        [-0.0146, -0.0350, -0.0581,  ..., -0.0837,  0.0003,  0.0412],
+        [-0.0742, -0.0624, -0.0623,  ..., -0.0419, -0.0359, -0.0625],
+        [ 0.0037, -0.0039, -0.0531,  ..., -0.0388,  0.0289, -0.0102]],
+       device='cuda:0'), grad: tensor([[-8.0204e-04,  1.0692e-06,  4.2820e-04,  ..., -9.6035e-04,
+         -2.7537e-05, -1.5955e-03],
+        [ 1.0710e-03,  3.0899e-04, -2.0237e-03,  ...,  1.6797e-04,
+          1.8990e-04, -4.4136e-03],
+        [-6.6233e-04,  1.3196e-04, -1.8203e-04,  ...,  5.3835e-04,
+         -2.3603e-04, -5.5275e-03],
+        ...,
+        [-5.2452e-04,  2.5678e-04,  8.6975e-04,  ...,  7.5626e-04,
+          1.1587e-04, -3.5896e-03],
+        [ 1.0128e-03,  5.7077e-04,  1.2922e-03,  ...,  1.2283e-03,
+          2.6727e-04,  5.4893e-03],
+        [ 9.2649e-04,  2.5702e-04,  7.8249e-04,  ...,  7.0286e-04,
+          1.2255e-04,  2.6207e-03]], device='cuda:0')
+Epoch 88, bias, value: tensor([ 0.0161, -0.0131,  0.0035, -0.0184,  0.0145,  0.0014, -0.0176, -0.0263,
+         0.0107, -0.0069], device='cuda:0'), grad: tensor([-0.0190, -0.0072, -0.0499,  0.0154, -0.0151, -0.0102,  0.0140,  0.0248,
+         0.0288,  0.0184], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 87, time 217.17, cls_loss 0.6363 cls_loss_mapping 0.0210 cls_loss_causal 0.5993 re_mapping 0.0132 re_causal 0.0342 /// teacc 98.48 lr 0.00010000
+Epoch 89, weight, value: tensor([[ 0.0041,  0.0563, -0.0995,  ..., -0.0541,  0.0412,  0.0111],
+        [-0.0474, -0.0778,  0.0488,  ..., -0.0291, -0.0789,  0.0468],
+        [-0.0447, -0.0227, -0.0627,  ..., -0.0869, -0.0391,  0.0298],
+        ...,
+        [-0.0147, -0.0362, -0.0590,  ..., -0.0843,  0.0002,  0.0408],
+        [-0.0751, -0.0629, -0.0622,  ..., -0.0413, -0.0358, -0.0628],
+        [ 0.0044, -0.0040, -0.0538,  ..., -0.0397,  0.0285, -0.0104]],
+       device='cuda:0'), grad: tensor([[-9.4032e-04,  9.4473e-05,  1.5199e-04,  ..., -4.6921e-04,
+          1.0341e-04, -1.8864e-03],
+        [ 1.8024e-03,  1.9538e-04,  6.9237e-04,  ...,  7.0667e-04,
+          1.1778e-03,  1.2560e-03],
+        [ 1.9264e-03,  5.5361e-04,  3.4404e-04,  ...,  8.4877e-04,
+          1.4305e-03,  1.5459e-03],
+        ...,
+        [ 1.6241e-03, -1.7488e-04,  2.7180e-04,  ...,  7.7915e-04,
+          5.5075e-04,  4.5443e-04],
+        [ 1.3485e-03,  4.2129e-04, -2.7370e-04,  ...,  7.2813e-04,
+          8.5545e-04,  8.9884e-04],
+        [-8.0719e-03,  5.1117e-04,  1.4582e-03,  ..., -1.2074e-03,
+         -6.2675e-03, -2.1515e-03]], device='cuda:0')
+Epoch 89, bias, value: tensor([ 0.0162, -0.0141,  0.0039, -0.0175,  0.0152,  0.0012, -0.0167, -0.0269,
+         0.0103, -0.0076], device='cuda:0'), grad: tensor([-0.0155,  0.0225,  0.0146,  0.0088,  0.0484,  0.0139, -0.0597,  0.0128,
+         0.0004, -0.0462], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 88, time 217.36, cls_loss 0.6075 cls_loss_mapping 0.0221 cls_loss_causal 0.5735 re_mapping 0.0126 re_causal 0.0324 /// teacc 98.60 lr 0.00010000
+Epoch 90, weight, value: tensor([[ 0.0042,  0.0568, -0.1008,  ..., -0.0548,  0.0416,  0.0101],
+        [-0.0472, -0.0778,  0.0500,  ..., -0.0283, -0.0790,  0.0460],
+        [-0.0447, -0.0230, -0.0629,  ..., -0.0872, -0.0387,  0.0302],
+        ...,
+        [-0.0154, -0.0371, -0.0601,  ..., -0.0845,  0.0001,  0.0413],
+        [-0.0748, -0.0644, -0.0624,  ..., -0.0413, -0.0367, -0.0630],
+        [ 0.0043, -0.0034, -0.0527,  ..., -0.0387,  0.0292, -0.0106]],
+       device='cuda:0'), grad: tensor([[-6.4049e-03, -6.6338e-03, -3.9139e-03,  ..., -7.8735e-03,
+         -4.9782e-03,  1.1015e-03],
+        [ 1.1797e-03,  3.7193e-04, -3.3913e-03,  ...,  6.6233e-04,
+          7.4100e-04,  2.8610e-05],
+        [ 7.6103e-04,  2.8172e-03,  9.3639e-05,  ...,  2.4223e-03,
+          2.6035e-03,  2.5806e-03],
+        ...,
+        [ 2.2011e-03,  1.9848e-04,  1.7309e-04,  ...,  4.1223e-04,
+          5.3501e-04,  4.9210e-03],
+        [-3.9139e-03, -8.7051e-03, -1.6851e-03,  ..., -1.2016e-02,
+         -6.6261e-03, -5.8594e-03],
+        [-4.1962e-03,  1.4839e-03,  2.1152e-03,  ...,  2.4967e-03,
+         -1.0719e-03,  1.8625e-03]], device='cuda:0')
+Epoch 90, bias, value: tensor([ 0.0157, -0.0134,  0.0038, -0.0168,  0.0142,  0.0014, -0.0170, -0.0279,
+         0.0106, -0.0068], device='cuda:0'), grad: tensor([-0.0215,  0.0107,  0.0009,  0.0046,  0.0340,  0.0323, -0.0218,  0.0296,
+        -0.0602, -0.0086], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 89, time 217.55, cls_loss 0.6000 cls_loss_mapping 0.0214 cls_loss_causal 0.5592 re_mapping 0.0129 re_causal 0.0329 /// teacc 98.49 lr 0.00010000
+Epoch 91, weight, value: tensor([[ 0.0051,  0.0577, -0.0997,  ..., -0.0556,  0.0429,  0.0094],
+        [-0.0479, -0.0782,  0.0504,  ..., -0.0293, -0.0798,  0.0460],
+        [-0.0457, -0.0245, -0.0631,  ..., -0.0877, -0.0398,  0.0310],
+        ...,
+        [-0.0154, -0.0367, -0.0604,  ..., -0.0844,  0.0004,  0.0410],
+        [-0.0756, -0.0645, -0.0624,  ..., -0.0404, -0.0373, -0.0627],
+        [ 0.0055, -0.0034, -0.0533,  ..., -0.0385,  0.0294, -0.0117]],
+       device='cuda:0'), grad: tensor([[ 0.0009,  0.0021,  0.0011,  ...,  0.0021,  0.0017,  0.0020],
+        [-0.0005,  0.0002,  0.0002,  ..., -0.0030,  0.0007, -0.0009],
+        [ 0.0017, -0.0021,  0.0002,  ...,  0.0010,  0.0005, -0.0012],
+        ...,
+        [ 0.0014,  0.0006,  0.0003,  ...,  0.0008,  0.0009, -0.0020],
+        [ 0.0017,  0.0010,  0.0003,  ...,  0.0009,  0.0010,  0.0017],
+        [ 0.0029,  0.0002, -0.0025,  ...,  0.0012, -0.0011,  0.0032]],
+       device='cuda:0')
+Epoch 91, bias, value: tensor([ 0.0167, -0.0137,  0.0033, -0.0163,  0.0147,  0.0005, -0.0167, -0.0277,
+         0.0106, -0.0074], device='cuda:0'), grad: tensor([ 0.0202, -0.0138,  0.0250, -0.0046, -0.0283, -0.0281,  0.0092, -0.0051,
+         0.0195,  0.0059], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 90----------------------------------------------------
+epoch 90, time 217.85, cls_loss 0.6132 cls_loss_mapping 0.0237 cls_loss_causal 0.5793 re_mapping 0.0126 re_causal 0.0317 /// teacc 98.71 lr 0.00010000
+Epoch 92, weight, value: tensor([[ 0.0047,  0.0578, -0.1012,  ..., -0.0574,  0.0425,  0.0093],
+        [-0.0484, -0.0779,  0.0522,  ..., -0.0282, -0.0801,  0.0462],
+        [-0.0460, -0.0249, -0.0632,  ..., -0.0874, -0.0394,  0.0307],
+        ...,
+        [-0.0151, -0.0368, -0.0618,  ..., -0.0851,  0.0008,  0.0416],
+        [-0.0753, -0.0649, -0.0615,  ..., -0.0394, -0.0369, -0.0632],
+        [ 0.0060, -0.0038, -0.0527,  ..., -0.0396,  0.0292, -0.0121]],
+       device='cuda:0'), grad: tensor([[-8.0729e-04,  2.0275e-03, -5.3978e-04,  ..., -1.2970e-03,
+         -1.4515e-03,  1.5821e-03],
+        [-3.7336e-04,  2.7013e-04, -2.1982e-04,  ...,  2.1350e-04,
+          4.0352e-05,  1.9388e-03],
+        [ 3.4027e-03, -5.1069e-04,  3.0667e-05,  ..., -6.4468e-04,
+         -2.4796e-04,  4.2000e-03],
+        ...,
+        [-2.6283e-03, -1.0788e-02,  3.0115e-05,  ...,  2.3019e-04,
+          9.2149e-05, -7.3051e-03],
+        [ 6.1226e-04,  2.7351e-03,  1.4544e-04,  ...,  3.6359e-04,
+          7.6771e-05, -1.6060e-03],
+        [ 1.5421e-03,  4.1733e-03,  1.2093e-03,  ...,  3.8147e-04,
+          8.9586e-05,  1.9550e-03]], device='cuda:0')
+Epoch 92, bias, value: tensor([ 0.0160, -0.0130,  0.0028, -0.0167,  0.0149,  0.0005, -0.0164, -0.0273,
+         0.0105, -0.0073], device='cuda:0'), grad: tensor([ 0.0122,  0.0071, -0.0081, -0.0031, -0.0230,  0.0289,  0.0069, -0.0330,
+        -0.0060,  0.0181], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 91, time 217.04, cls_loss 0.6280 cls_loss_mapping 0.0236 cls_loss_causal 0.5899 re_mapping 0.0123 re_causal 0.0317 /// teacc 98.50 lr 0.00010000
+Epoch 93, weight, value: tensor([[ 0.0052,  0.0587, -0.1015,  ..., -0.0576,  0.0432,  0.0091],
+        [-0.0485, -0.0784,  0.0534,  ..., -0.0285, -0.0802,  0.0469],
+        [-0.0464, -0.0256, -0.0638,  ..., -0.0874, -0.0397,  0.0301],
+        ...,
+        [-0.0140, -0.0359, -0.0624,  ..., -0.0849,  0.0009,  0.0424],
+        [-0.0756, -0.0654, -0.0618,  ..., -0.0394, -0.0370, -0.0636],
+        [ 0.0054, -0.0052, -0.0529,  ..., -0.0402,  0.0293, -0.0126]],
+       device='cuda:0'), grad: tensor([[-0.0062, -0.0005,  0.0001,  ..., -0.0020, -0.0027, -0.0036],
+        [ 0.0015,  0.0003,  0.0001,  ...,  0.0010,  0.0004,  0.0084],
+        [ 0.0013,  0.0003,  0.0002,  ...,  0.0015,  0.0004,  0.0032],
+        ...,
+        [ 0.0031,  0.0010,  0.0003,  ...,  0.0008,  0.0007,  0.0028],
+        [-0.0018, -0.0011, -0.0012,  ..., -0.0013, -0.0001, -0.0160],
+        [-0.0040, -0.0018, -0.0002,  ...,  0.0004, -0.0003, -0.0014]],
+       device='cuda:0')
+Epoch 93, bias, value: tensor([ 0.0156, -0.0137,  0.0024, -0.0165,  0.0150,  0.0009, -0.0163, -0.0257,
+         0.0104, -0.0081], device='cuda:0'), grad: tensor([-0.0462,  0.0102,  0.0228, -0.0161,  0.0057,  0.0158,  0.0525,  0.0241,
+        -0.0603, -0.0084], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 92, time 217.28, cls_loss 0.5822 cls_loss_mapping 0.0210 cls_loss_causal 0.5488 re_mapping 0.0124 re_causal 0.0307 /// teacc 98.62 lr 0.00010000
+Epoch 94, weight, value: tensor([[ 0.0050,  0.0593, -0.1024,  ..., -0.0581,  0.0437,  0.0087],
+        [-0.0483, -0.0798,  0.0541,  ..., -0.0288, -0.0806,  0.0465],
+        [-0.0465, -0.0259, -0.0645,  ..., -0.0875, -0.0394,  0.0298],
+        ...,
+        [-0.0142, -0.0380, -0.0635,  ..., -0.0850,  0.0005,  0.0428],
+        [-0.0760, -0.0667, -0.0624,  ..., -0.0394, -0.0374, -0.0634],
+        [ 0.0056, -0.0039, -0.0513,  ..., -0.0403,  0.0295, -0.0117]],
+       device='cuda:0'), grad: tensor([[ 0.0013,  0.0008,  0.0003,  ...,  0.0008,  0.0002,  0.0018],
+        [-0.0055, -0.0022,  0.0005,  ...,  0.0007, -0.0003, -0.0121],
+        [ 0.0032,  0.0017, -0.0076,  ..., -0.0012, -0.0020,  0.0067],
+        ...,
+        [ 0.0031,  0.0026,  0.0003,  ...,  0.0002,  0.0012, -0.0007],
+        [ 0.0015,  0.0011,  0.0003,  ...,  0.0009,  0.0006, -0.0003],
+        [ 0.0027,  0.0021,  0.0002,  ...,  0.0006,  0.0016,  0.0092]],
+       device='cuda:0')
+Epoch 94, bias, value: tensor([ 0.0148, -0.0136,  0.0027, -0.0170,  0.0150,  0.0013, -0.0162, -0.0264,
+         0.0104, -0.0071], device='cuda:0'), grad: tensor([ 0.0108, -0.0434,  0.0313, -0.0247,  0.0018, -0.0067, -0.0097,  0.0100,
+        -0.0118,  0.0424], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 93, time 217.70, cls_loss 0.6134 cls_loss_mapping 0.0191 cls_loss_causal 0.5813 re_mapping 0.0134 re_causal 0.0341 /// teacc 98.60 lr 0.00010000
+Epoch 95, weight, value: tensor([[ 0.0049,  0.0591, -0.1024,  ..., -0.0577,  0.0440,  0.0077],
+        [-0.0484, -0.0802,  0.0540,  ..., -0.0289, -0.0802,  0.0464],
+        [-0.0467, -0.0253, -0.0646,  ..., -0.0877, -0.0403,  0.0301],
+        ...,
+        [-0.0152, -0.0398, -0.0649,  ..., -0.0853, -0.0007,  0.0429],
+        [-0.0762, -0.0667, -0.0620,  ..., -0.0399, -0.0377, -0.0636],
+        [ 0.0061, -0.0031, -0.0509,  ..., -0.0402,  0.0298, -0.0112]],
+       device='cuda:0'), grad: tensor([[ 1.9741e-03,  8.6355e-04,  5.1111e-05,  ...,  4.6587e-04,
+          1.4067e-03,  1.4315e-03],
+        [-1.8835e-03,  1.0854e-04, -3.9816e-04,  ..., -6.8932e-03,
+         -3.8280e-03,  7.3719e-04],
+        [-9.7580e-03, -4.2648e-03,  1.1981e-04,  ...,  4.7541e-04,
+         -7.7133e-03, -5.6458e-03],
+        ...,
+        [ 1.8940e-03,  2.9659e-04, -7.3314e-05,  ...,  2.7180e-04,
+          9.6226e-04,  1.0567e-03],
+        [ 9.5069e-05,  9.1028e-04,  1.3089e-04,  ...,  2.0790e-04,
+          1.3132e-03, -8.2922e-04],
+        [ 1.3161e-03,  4.9114e-04, -1.6427e-04,  ...,  5.7554e-04,
+          6.9332e-04,  1.8787e-03]], device='cuda:0')
+Epoch 95, bias, value: tensor([ 0.0144, -0.0131,  0.0024, -0.0173,  0.0146,  0.0014, -0.0161, -0.0262,
+         0.0096, -0.0059], device='cuda:0'), grad: tensor([ 0.0255, -0.0173, -0.1020, -0.0096, -0.0121,  0.0328,  0.0317,  0.0243,
+         0.0035,  0.0231], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 94, time 217.12, cls_loss 0.5818 cls_loss_mapping 0.0238 cls_loss_causal 0.5532 re_mapping 0.0124 re_causal 0.0313 /// teacc 98.53 lr 0.00010000
+Epoch 96, weight, value: tensor([[ 0.0053,  0.0595, -0.1027,  ..., -0.0576,  0.0442,  0.0079],
+        [-0.0491, -0.0801,  0.0536,  ..., -0.0293, -0.0807,  0.0469],
+        [-0.0465, -0.0260, -0.0647,  ..., -0.0875, -0.0405,  0.0303],
+        ...,
+        [-0.0164, -0.0412, -0.0654,  ..., -0.0862, -0.0018,  0.0435],
+        [-0.0764, -0.0655, -0.0615,  ..., -0.0397, -0.0368, -0.0635],
+        [ 0.0066, -0.0025, -0.0508,  ..., -0.0404,  0.0294, -0.0123]],
+       device='cuda:0'), grad: tensor([[ 1.9045e-03,  1.0014e-03,  1.0514e-04,  ...,  1.2465e-03,
+          1.0777e-03,  2.5730e-03],
+        [ 1.5717e-03,  3.3927e-04, -2.9507e-03,  ..., -1.7099e-03,
+          6.7568e-04, -6.3858e-03],
+        [ 2.0599e-03,  3.0041e-03,  2.7618e-03,  ...,  3.2654e-03,
+          6.9809e-04,  5.8556e-03],
+        ...,
+        [-1.2074e-03,  1.7095e-04,  1.9431e-04,  ..., -3.4451e-05,
+         -7.9775e-04, -1.1625e-03],
+        [ 1.9588e-03, -2.1057e-03, -1.3840e-04,  ...,  3.3826e-05,
+          1.0691e-03,  4.8904e-03],
+        [-5.5656e-03, -1.2102e-03,  2.4402e-04,  ...,  5.1785e-04,
+         -2.2202e-03,  1.5249e-03]], device='cuda:0')
+Epoch 96, bias, value: tensor([ 0.0153, -0.0131,  0.0022, -0.0177,  0.0147,  0.0011, -0.0154, -0.0261,
+         0.0096, -0.0067], device='cuda:0'), grad: tensor([ 0.0337, -0.0019,  0.0399,  0.0207, -0.0011, -0.0388, -0.0466, -0.0144,
+         0.0363, -0.0277], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 95, time 217.23, cls_loss 0.6149 cls_loss_mapping 0.0190 cls_loss_causal 0.5828 re_mapping 0.0112 re_causal 0.0296 /// teacc 98.66 lr 0.00010000
+Epoch 97, weight, value: tensor([[ 0.0066,  0.0597, -0.1032,  ..., -0.0577,  0.0437,  0.0077],
+        [-0.0510, -0.0804,  0.0537,  ..., -0.0294, -0.0811,  0.0466],
+        [-0.0464, -0.0261, -0.0645,  ..., -0.0878, -0.0400,  0.0303],
+        ...,
+        [-0.0167, -0.0412, -0.0650,  ..., -0.0851, -0.0023,  0.0438],
+        [-0.0760, -0.0664, -0.0622,  ..., -0.0405, -0.0367, -0.0642],
+        [ 0.0073, -0.0023, -0.0506,  ..., -0.0412,  0.0304, -0.0118]],
+       device='cuda:0'), grad: tensor([[-4.1342e-04, -1.7118e-04,  1.9574e-04,  ...,  1.6880e-04,
+          8.8406e-04, -1.1377e-03],
+        [ 1.6670e-03,  4.2510e-04,  6.4354e-07,  ...,  2.5902e-03,
+          1.1559e-03,  6.8474e-04],
+        [-2.7294e-03,  1.6870e-03,  1.5173e-03,  ..., -3.0994e-05,
+         -2.1744e-03, -3.5229e-03],
+        ...,
+        [ 1.8311e-03,  4.4584e-04,  2.2590e-04,  ...,  9.5034e-04,
+          1.2236e-03,  2.3499e-03],
+        [ 7.1573e-04, -2.9106e-03, -3.7384e-03,  ..., -8.8120e-03,
+         -2.7442e-04, -2.1040e-04],
+        [ 3.5114e-03,  8.5497e-04,  4.7421e-04,  ...,  1.0653e-03,
+          2.1973e-03,  1.8311e-03]], device='cuda:0')
+Epoch 97, bias, value: tensor([ 0.0151, -0.0134,  0.0017, -0.0172,  0.0145,  0.0013, -0.0157, -0.0260,
+         0.0094, -0.0059], device='cuda:0'), grad: tensor([-0.0082,  0.0346, -0.0355,  0.0502,  0.0103, -0.0348,  0.0069, -0.0029,
+        -0.0591,  0.0384], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 96----------------------------------------------------
+epoch 96, time 217.57, cls_loss 0.5738 cls_loss_mapping 0.0179 cls_loss_causal 0.5351 re_mapping 0.0121 re_causal 0.0302 /// teacc 98.73 lr 0.00010000
+Epoch 98, weight, value: tensor([[ 0.0064,  0.0604, -0.1040,  ..., -0.0583,  0.0437,  0.0079],
+        [-0.0514, -0.0785,  0.0560,  ..., -0.0290, -0.0810,  0.0464],
+        [-0.0454, -0.0255, -0.0661,  ..., -0.0887, -0.0381,  0.0298],
+        ...,
+        [-0.0173, -0.0423, -0.0648,  ..., -0.0841, -0.0034,  0.0445],
+        [-0.0764, -0.0672, -0.0624,  ..., -0.0407, -0.0371, -0.0641],
+        [ 0.0075, -0.0017, -0.0501,  ..., -0.0412,  0.0311, -0.0117]],
+       device='cuda:0'), grad: tensor([[ 1.3828e-03,  1.1134e-04,  6.9976e-05,  ...,  2.5105e-04,
+          2.3060e-03,  3.3112e-03],
+        [-4.4289e-03,  3.5286e-05, -1.4687e-04,  ...,  1.1724e-04,
+         -6.7863e-03,  3.9649e-04],
+        [ 1.4000e-03, -1.3018e-03,  8.1837e-05,  ...,  3.5238e-04,
+          2.3556e-03, -1.3580e-03],
+        ...,
+        [-2.0370e-03,  6.5231e-04,  1.2040e-04,  ..., -9.7418e-04,
+         -2.9736e-03, -2.2034e-02],
+        [-7.1220e-03, -1.3053e-04, -4.5319e-03,  ..., -5.8899e-03,
+         -8.3733e-04,  2.5063e-03],
+        [-1.5430e-03,  1.0505e-05,  8.9264e-04,  ...,  1.1148e-03,
+         -2.5940e-03,  5.5771e-03]], device='cuda:0')
+Epoch 98, bias, value: tensor([ 0.0146, -0.0139,  0.0024, -0.0182,  0.0153,  0.0012, -0.0159, -0.0256,
+         0.0093, -0.0054], device='cuda:0'), grad: tensor([ 0.0234, -0.0415, -0.0286,  0.0276,  0.0235,  0.0351,  0.0209, -0.0633,
+        -0.0190,  0.0218], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 97----------------------------------------------------
+epoch 97, time 217.87, cls_loss 0.5863 cls_loss_mapping 0.0192 cls_loss_causal 0.5576 re_mapping 0.0114 re_causal 0.0303 /// teacc 98.77 lr 0.00010000
+Epoch 99, weight, value: tensor([[ 0.0063,  0.0600, -0.1042,  ..., -0.0590,  0.0444,  0.0081],
+        [-0.0511, -0.0784,  0.0573,  ..., -0.0271, -0.0809,  0.0471],
+        [-0.0452, -0.0251, -0.0666,  ..., -0.0897, -0.0384,  0.0300],
+        ...,
+        [-0.0175, -0.0437, -0.0660,  ..., -0.0853, -0.0038,  0.0441],
+        [-0.0766, -0.0674, -0.0636,  ..., -0.0405, -0.0377, -0.0631],
+        [ 0.0066, -0.0028, -0.0506,  ..., -0.0419,  0.0304, -0.0124]],
+       device='cuda:0'), grad: tensor([[ 8.6308e-04,  5.9128e-05,  4.4179e-04,  ...,  8.1396e-04,
+          3.9935e-04,  1.0157e-03],
+        [ 1.8311e-03,  1.9979e-04,  1.0300e-03,  ...,  9.3794e-04,
+          9.1553e-04,  5.7678e-03],
+        [ 8.4543e-04,  4.5109e-04,  2.1017e-04,  ...,  3.2687e-04,
+          4.1962e-04,  2.4300e-03],
+        ...,
+        [ 1.4706e-03,  1.1486e-04,  6.3467e-04,  ...,  5.3930e-04,
+          7.2145e-04, -5.6267e-03],
+        [-1.5554e-03,  4.5323e-04,  6.8426e-04,  ...,  7.6056e-04,
+         -2.6679e-04,  1.6651e-03],
+        [ 2.6882e-05,  1.4015e-05,  3.1543e-04,  ...,  5.7125e-04,
+         -7.8249e-04, -2.2755e-03]], device='cuda:0')
+Epoch 99, bias, value: tensor([ 0.0145, -0.0126,  0.0022, -0.0188,  0.0151,  0.0018, -0.0162, -0.0264,
+         0.0099, -0.0057], device='cuda:0'), grad: tensor([ 0.0110,  0.0268,  0.0148, -0.0514, -0.0119,  0.0144,  0.0152,  0.0038,
+        -0.0063, -0.0165], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 98, time 216.89, cls_loss 0.5778 cls_loss_mapping 0.0214 cls_loss_causal 0.5445 re_mapping 0.0123 re_causal 0.0314 /// teacc 98.71 lr 0.00010000
+Epoch 100, weight, value: tensor([[ 0.0059,  0.0598, -0.1048,  ..., -0.0591,  0.0452,  0.0073],
+        [-0.0510, -0.0812,  0.0573,  ..., -0.0281, -0.0820,  0.0459],
+        [-0.0460, -0.0264, -0.0677,  ..., -0.0911, -0.0390,  0.0311],
+        ...,
+        [-0.0170, -0.0437, -0.0669,  ..., -0.0848, -0.0040,  0.0446],
+        [-0.0769, -0.0680, -0.0651,  ..., -0.0413, -0.0378, -0.0635],
+        [ 0.0071, -0.0029, -0.0512,  ..., -0.0419,  0.0302, -0.0120]],
+       device='cuda:0'), grad: tensor([[ 0.0046,  0.0022,  0.0006,  ...,  0.0003,  0.0024,  0.0024],
+        [-0.0018, -0.0002, -0.0031,  ..., -0.0005, -0.0028, -0.0068],
+        [ 0.0019,  0.0007,  0.0008,  ...,  0.0003,  0.0013,  0.0033],
+        ...,
+        [ 0.0032,  0.0005,  0.0009,  ...,  0.0002,  0.0020,  0.0023],
+        [-0.0042,  0.0084,  0.0104,  ...,  0.0064, -0.0016, -0.0035],
+        [-0.0032, -0.0005, -0.0003,  ..., -0.0006, -0.0011, -0.0033]],
+       device='cuda:0')
+Epoch 100, bias, value: tensor([ 0.0142, -0.0129,  0.0014, -0.0182,  0.0152,  0.0017, -0.0167, -0.0261,
+         0.0100, -0.0050], device='cuda:0'), grad: tensor([ 0.0295, -0.0320,  0.0230,  0.0118, -0.0180, -0.0275,  0.0071,  0.0231,
+         0.0072, -0.0243], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 99, time 217.72, cls_loss 0.6186 cls_loss_mapping 0.0204 cls_loss_causal 0.5807 re_mapping 0.0116 re_causal 0.0304 /// teacc 98.65 lr 0.00010000
+Epoch 101, weight, value: tensor([[ 0.0060,  0.0601, -0.1045,  ..., -0.0593,  0.0457,  0.0064],
+        [-0.0509, -0.0824,  0.0569,  ..., -0.0280, -0.0820,  0.0456],
+        [-0.0467, -0.0276, -0.0680,  ..., -0.0917, -0.0386,  0.0315],
+        ...,
+        [-0.0168, -0.0447, -0.0671,  ..., -0.0838, -0.0047,  0.0449],
+        [-0.0766, -0.0677, -0.0649,  ..., -0.0416, -0.0373, -0.0624],
+        [ 0.0064, -0.0035, -0.0525,  ..., -0.0437,  0.0293, -0.0128]],
+       device='cuda:0'), grad: tensor([[ 0.0010,  0.0010,  0.0000,  ..., -0.0002,  0.0029,  0.0012],
+        [-0.0024,  0.0004,  0.0000,  ..., -0.0010, -0.0025, -0.0068],
+        [ 0.0025,  0.0019,  0.0000,  ...,  0.0019,  0.0043,  0.0063],
+        ...,
+        [ 0.0036,  0.0004,  0.0000,  ...,  0.0009,  0.0031,  0.0069],
+        [-0.0008, -0.0040,  0.0000,  ...,  0.0006, -0.0029, -0.0024],
+        [ 0.0011,  0.0011,  0.0000,  ...,  0.0008,  0.0028, -0.0031]],
+       device='cuda:0')
+Epoch 101, bias, value: tensor([ 0.0145, -0.0129,  0.0015, -0.0188,  0.0146,  0.0011, -0.0155, -0.0259,
+         0.0110, -0.0059], device='cuda:0'), grad: tensor([ 0.0017, -0.0244,  0.0418,  0.0417, -0.0473, -0.0511,  0.0289,  0.0329,
+        -0.0329,  0.0087], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 100, time 217.85, cls_loss 0.5789 cls_loss_mapping 0.0155 cls_loss_causal 0.5488 re_mapping 0.0118 re_causal 0.0306 /// teacc 98.67 lr 0.00010000
+Epoch 102, weight, value: tensor([[ 0.0057,  0.0610, -0.1047,  ..., -0.0603,  0.0461,  0.0071],
+        [-0.0513, -0.0828,  0.0571,  ..., -0.0268, -0.0828,  0.0466],
+        [-0.0469, -0.0271, -0.0690,  ..., -0.0924, -0.0380,  0.0321],
+        ...,
+        [-0.0173, -0.0457, -0.0671,  ..., -0.0841, -0.0047,  0.0444],
+        [-0.0771, -0.0680, -0.0649,  ..., -0.0415, -0.0377, -0.0619],
+        [ 0.0072, -0.0045, -0.0530,  ..., -0.0447,  0.0282, -0.0122]],
+       device='cuda:0'), grad: tensor([[-7.0915e-03, -1.8616e-03, -1.6534e-04,  ..., -2.6584e-05,
+         -1.0195e-03, -8.6823e-03],
+        [-8.0967e-04,  1.7858e-04,  7.7667e-03,  ..., -5.4283e-03,
+         -4.0817e-04, -2.5082e-03],
+        [ 1.1024e-03,  2.1248e-03,  6.7377e-04,  ...,  4.9734e-04,
+          1.7567e-03,  1.6060e-03],
+        ...,
+        [ 1.0796e-03,  1.0008e-04,  1.4710e-04,  ...,  2.3770e-04,
+         -5.2243e-05,  4.4036e-04],
+        [ 1.5068e-03,  2.5558e-03,  6.2447e-03,  ...,  7.1259e-03,
+          1.2245e-03,  3.0289e-03],
+        [ 1.7443e-03,  4.8208e-04,  4.7994e-04,  ...,  6.0272e-04,
+          4.8161e-04,  2.4796e-03]], device='cuda:0')
+Epoch 102, bias, value: tensor([ 0.0149, -0.0126,  0.0015, -0.0180,  0.0147, -0.0001, -0.0159, -0.0267,
+         0.0105, -0.0047], device='cuda:0'), grad: tensor([-0.0527, -0.0396,  0.0244,  0.0086, -0.0039, -0.0209, -0.0056,  0.0127,
+         0.0564,  0.0205], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 101, time 218.19, cls_loss 0.6125 cls_loss_mapping 0.0180 cls_loss_causal 0.5786 re_mapping 0.0118 re_causal 0.0311 /// teacc 98.50 lr 0.00010000
+Epoch 103, weight, value: tensor([[ 0.0063,  0.0613, -0.1051,  ..., -0.0604,  0.0461,  0.0075],
+        [-0.0521, -0.0838,  0.0572,  ..., -0.0271, -0.0842,  0.0463],
+        [-0.0483, -0.0270, -0.0694,  ..., -0.0924, -0.0391,  0.0319],
+        ...,
+        [-0.0159, -0.0456, -0.0669,  ..., -0.0850, -0.0026,  0.0449],
+        [-0.0771, -0.0685, -0.0655,  ..., -0.0417, -0.0381, -0.0628],
+        [ 0.0049, -0.0053, -0.0543,  ..., -0.0448,  0.0272, -0.0130]],
+       device='cuda:0'), grad: tensor([[ 2.5120e-03,  2.2202e-03,  2.3878e-04,  ...,  1.4019e-04,
+          2.3613e-03,  3.0689e-03],
+        [ 1.3618e-03,  3.1734e-04,  7.7963e-04,  ...,  3.2783e-05,
+          3.7336e-04,  2.9068e-03],
+        [ 7.3576e-04,  4.5991e-04, -1.3075e-03,  ..., -1.7405e-03,
+          5.6601e-04, -3.2496e-04],
+        ...,
+        [ 1.5507e-03,  7.2145e-04,  2.7657e-04,  ...,  1.2302e-04,
+          6.4182e-04,  6.2103e-03],
+        [-2.3727e-03, -2.4376e-03, -2.5940e-04,  ...,  4.2486e-04,
+          1.0262e-03, -5.9471e-03],
+        [-2.3823e-03,  2.1286e-03, -4.1032e-04,  ...,  1.4150e-04,
+         -8.5163e-04, -1.3054e-02]], device='cuda:0')
+Epoch 103, bias, value: tensor([ 0.0157, -0.0125,  0.0010, -0.0186,  0.0152,  0.0007, -0.0159, -0.0262,
+         0.0097, -0.0053], device='cuda:0'), grad: tensor([ 0.0252,  0.0162,  0.0043, -0.0151, -0.0071,  0.0218,  0.0129,  0.0282,
+        -0.0285, -0.0579], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 102, time 217.01, cls_loss 0.6416 cls_loss_mapping 0.0203 cls_loss_causal 0.6140 re_mapping 0.0110 re_causal 0.0299 /// teacc 98.68 lr 0.00010000
+Epoch 104, weight, value: tensor([[ 0.0063,  0.0614, -0.1055,  ..., -0.0607,  0.0460,  0.0076],
+        [-0.0519, -0.0832,  0.0572,  ..., -0.0275, -0.0838,  0.0475],
+        [-0.0490, -0.0269, -0.0686,  ..., -0.0908, -0.0374,  0.0327],
+        ...,
+        [-0.0157, -0.0456, -0.0670,  ..., -0.0852, -0.0031,  0.0438],
+        [-0.0773, -0.0693, -0.0654,  ..., -0.0420, -0.0379, -0.0637],
+        [ 0.0048, -0.0052, -0.0544,  ..., -0.0441,  0.0271, -0.0115]],
+       device='cuda:0'), grad: tensor([[ 3.7518e-03,  2.2411e-03,  1.1950e-03,  ...,  3.3932e-03,
+         -5.4779e-03, -2.3975e-03],
+        [ 1.0216e-04,  5.9271e-04, -3.5896e-03,  ...,  3.1900e-04,
+          3.6597e-04, -6.7949e-04],
+        [-2.5730e-03,  7.6485e-04, -1.2569e-03,  ...,  2.9063e-04,
+         -2.1577e-05, -1.4582e-03],
+        ...,
+        [-1.9503e-04, -2.9182e-03,  9.6369e-04,  ...,  2.6298e-04,
+          1.4317e-04, -3.1109e-03],
+        [ 5.4512e-03,  4.2877e-03,  2.4719e-03,  ...,  2.1858e-03,
+          4.1389e-03,  4.1656e-03],
+        [ 3.3112e-03,  1.4524e-03,  1.6117e-03,  ...,  7.9012e-04,
+          2.3670e-03,  6.2256e-03]], device='cuda:0')
+Epoch 104, bias, value: tensor([ 1.4758e-02, -1.1438e-02,  2.6310e-03, -1.8840e-02,  1.4827e-02,
+        -1.1703e-05, -1.6996e-02, -2.6508e-02,  9.1363e-03, -4.0164e-03],
+       device='cuda:0'), grad: tensor([ 0.0020, -0.0112, -0.0049,  0.0086,  0.0215, -0.0601, -0.0250,  0.0117,
+         0.0235,  0.0340], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 103, time 217.97, cls_loss 0.5616 cls_loss_mapping 0.0162 cls_loss_causal 0.5276 re_mapping 0.0119 re_causal 0.0308 /// teacc 98.68 lr 0.00010000
+Epoch 105, weight, value: tensor([[ 0.0065,  0.0614, -0.1056,  ..., -0.0616,  0.0461,  0.0075],
+        [-0.0519, -0.0839,  0.0564,  ..., -0.0274, -0.0833,  0.0471],
+        [-0.0502, -0.0270, -0.0689,  ..., -0.0920, -0.0383,  0.0319],
+        ...,
+        [-0.0170, -0.0460, -0.0663,  ..., -0.0858, -0.0043,  0.0449],
+        [-0.0785, -0.0694, -0.0659,  ..., -0.0413, -0.0385, -0.0642],
+        [ 0.0052, -0.0057, -0.0538,  ..., -0.0436,  0.0263, -0.0126]],
+       device='cuda:0'), grad: tensor([[-7.1030e-03, -5.7459e-04,  1.9252e-05,  ..., -2.7237e-03,
+         -5.1880e-03, -1.8787e-03],
+        [ 3.0689e-03,  8.5592e-04,  4.5747e-05,  ...,  6.6996e-04,
+          2.2373e-03,  2.5139e-03],
+        [-1.4715e-03, -2.1648e-03,  6.8426e-05,  ..., -3.1203e-05,
+         -1.1005e-03,  2.0771e-03],
+        ...,
+        [-7.0457e-03,  1.4818e-04,  7.3254e-05,  ...,  4.1437e-04,
+         -6.3438e-03, -7.7286e-03],
+        [ 2.4700e-03,  1.1511e-03,  1.5998e-04,  ...,  6.0654e-04,
+          1.8492e-03,  2.2793e-03],
+        [ 3.1185e-03, -2.5673e-03,  5.9873e-05,  ...,  7.9250e-04,
+          2.2717e-03,  2.4300e-03]], device='cuda:0')
+Epoch 105, bias, value: tensor([ 1.4335e-02, -1.1521e-02,  1.8202e-03, -1.8584e-02,  1.4787e-02,
+        -5.6482e-06, -1.6407e-02, -2.6200e-02,  9.9489e-03, -4.6352e-03],
+       device='cuda:0'), grad: tensor([-0.0309,  0.0269,  0.0047, -0.0002,  0.0309,  0.0444, -0.0334, -0.0626,
+         0.0255, -0.0053], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 104, time 219.14, cls_loss 0.5946 cls_loss_mapping 0.0221 cls_loss_causal 0.5585 re_mapping 0.0115 re_causal 0.0294 /// teacc 98.50 lr 0.00010000
+Epoch 106, weight, value: tensor([[ 0.0074,  0.0614, -0.1058,  ..., -0.0621,  0.0467,  0.0084],
+        [-0.0529, -0.0839,  0.0575,  ..., -0.0277, -0.0837,  0.0455],
+        [-0.0509, -0.0287, -0.0696,  ..., -0.0925, -0.0388,  0.0317],
+        ...,
+        [-0.0161, -0.0470, -0.0663,  ..., -0.0866, -0.0032,  0.0454],
+        [-0.0794, -0.0694, -0.0668,  ..., -0.0421, -0.0387, -0.0646],
+        [ 0.0046, -0.0057, -0.0536,  ..., -0.0442,  0.0262, -0.0134]],
+       device='cuda:0'), grad: tensor([[ 2.7752e-04,  9.1791e-04,  2.0161e-05,  ...,  2.7180e-04,
+          2.1072e-02, -7.5798e-03],
+        [-4.3221e-03,  1.2684e-04,  2.9832e-05,  ...,  9.0003e-05,
+          7.5293e-04,  1.9741e-03],
+        [ 7.0906e-04,  3.9792e-04,  7.2300e-05,  ..., -2.9831e-03,
+         -5.7554e-04, -5.8823e-03],
+        ...,
+        [ 2.6855e-03,  1.4782e-04,  5.4836e-06,  ...,  7.6437e-04,
+          3.8795e-03,  8.4000e-03],
+        [ 2.3575e-03, -6.8843e-05,  1.0395e-03,  ...,  1.6356e-03,
+          1.0710e-03,  3.2654e-03],
+        [-4.4327e-03, -2.0065e-03,  4.8846e-05,  ...,  5.6803e-05,
+         -6.0577e-03, -8.0490e-03]], device='cuda:0')
+Epoch 106, bias, value: tensor([ 0.0147, -0.0124,  0.0016, -0.0186,  0.0158,  0.0002, -0.0165, -0.0258,
+         0.0094, -0.0050], device='cuda:0'), grad: tensor([-0.0153, -0.0085, -0.0116, -0.0137,  0.0222,  0.0199,  0.0004,  0.0347,
+         0.0205, -0.0487], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 105, time 218.39, cls_loss 0.6031 cls_loss_mapping 0.0216 cls_loss_causal 0.5611 re_mapping 0.0123 re_causal 0.0306 /// teacc 98.51 lr 0.00010000
+Epoch 107, weight, value: tensor([[ 0.0085,  0.0629, -0.1047,  ..., -0.0625,  0.0469,  0.0077],
+        [-0.0521, -0.0831,  0.0565,  ..., -0.0280, -0.0841,  0.0456],
+        [-0.0521, -0.0282, -0.0696,  ..., -0.0909, -0.0390,  0.0318],
+        ...,
+        [-0.0158, -0.0481, -0.0661,  ..., -0.0864, -0.0035,  0.0462],
+        [-0.0793, -0.0704, -0.0681,  ..., -0.0432, -0.0390, -0.0649],
+        [ 0.0037, -0.0053, -0.0533,  ..., -0.0439,  0.0257, -0.0144]],
+       device='cuda:0'), grad: tensor([[ 1.7967e-03,  2.7323e-04,  3.5596e-04,  ...,  4.9877e-04,
+          1.8063e-03,  1.7395e-03],
+        [ 8.8739e-04,  2.7370e-04,  6.3248e-03,  ...,  4.5466e-04,
+          6.3181e-04,  1.8930e-03],
+        [-3.1052e-03,  3.5429e-04,  4.0054e-04,  ...,  6.2418e-04,
+         -3.8948e-03,  4.5466e-04],
+        ...,
+        [-1.5989e-05,  1.4699e-04,  2.8586e-04,  ...,  1.8919e-04,
+          5.1975e-04, -2.4104e-04],
+        [ 1.3571e-03,  8.1444e-04, -7.3891e-03,  ...,  1.6232e-03,
+          1.3552e-03,  1.8387e-03],
+        [ 7.9823e-04,  1.5259e-04,  4.1962e-04,  ...,  1.7273e-04,
+          3.6478e-04,  9.6369e-04]], device='cuda:0')
+Epoch 107, bias, value: tensor([ 0.0153, -0.0121,  0.0011, -0.0187,  0.0152,  0.0010, -0.0159, -0.0255,
+         0.0093, -0.0060], device='cuda:0'), grad: tensor([ 0.0147,  0.0271, -0.0169,  0.0125,  0.0120, -0.0275, -0.0190,  0.0030,
+        -0.0117,  0.0059], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 106, time 218.77, cls_loss 0.5630 cls_loss_mapping 0.0262 cls_loss_causal 0.5401 re_mapping 0.0110 re_causal 0.0296 /// teacc 98.35 lr 0.00010000
+Epoch 108, weight, value: tensor([[ 0.0084,  0.0629, -0.1051,  ..., -0.0626,  0.0476,  0.0061],
+        [-0.0510, -0.0847,  0.0553,  ..., -0.0275, -0.0836,  0.0464],
+        [-0.0531, -0.0279, -0.0703,  ..., -0.0919, -0.0386,  0.0315],
+        ...,
+        [-0.0158, -0.0482, -0.0659,  ..., -0.0862, -0.0039,  0.0464],
+        [-0.0801, -0.0716, -0.0689,  ..., -0.0437, -0.0387, -0.0653],
+        [ 0.0056, -0.0049, -0.0542,  ..., -0.0434,  0.0269, -0.0141]],
+       device='cuda:0'), grad: tensor([[ 9.3365e-04,  1.7083e-04,  1.9968e-05,  ...,  3.8743e-05,
+          3.1805e-04,  1.7242e-03],
+        [-1.1673e-03,  2.0676e-03,  5.3177e-03,  ...,  5.7727e-05,
+         -8.9693e-04,  5.2643e-03],
+        [ 1.5450e-04, -1.1683e-03, -4.9820e-03,  ..., -3.4571e-04,
+          1.4186e-04, -5.6114e-03],
+        ...,
+        [ 2.9678e-03,  1.6356e-03,  2.2335e-03,  ...,  3.0088e-04,
+          5.6934e-04,  3.0518e-03],
+        [ 6.2485e-03,  3.9902e-03,  9.6178e-04,  ...,  5.4300e-05,
+          1.8225e-03,  9.3842e-03],
+        [ 2.8343e-03, -2.0504e-03, -1.8511e-03,  ...,  4.5586e-04,
+          3.2883e-03, -8.7967e-03]], device='cuda:0')
+Epoch 108, bias, value: tensor([ 0.0145, -0.0117,  0.0002, -0.0183,  0.0153,  0.0013, -0.0165, -0.0253,
+         0.0094, -0.0053], device='cuda:0'), grad: tensor([ 0.0084,  0.0134, -0.0314,  0.0058, -0.0012, -0.0474,  0.0096,  0.0111,
+         0.0323, -0.0007], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 107, time 218.69, cls_loss 0.6219 cls_loss_mapping 0.0270 cls_loss_causal 0.5874 re_mapping 0.0111 re_causal 0.0288 /// teacc 98.61 lr 0.00010000
+Epoch 109, weight, value: tensor([[ 0.0085,  0.0631, -0.1063,  ..., -0.0616,  0.0474,  0.0064],
+        [-0.0516, -0.0844,  0.0547,  ..., -0.0264, -0.0837,  0.0459],
+        [-0.0515, -0.0270, -0.0703,  ..., -0.0914, -0.0374,  0.0315],
+        ...,
+        [-0.0168, -0.0491, -0.0666,  ..., -0.0888, -0.0042,  0.0476],
+        [-0.0804, -0.0718, -0.0686,  ..., -0.0438, -0.0377, -0.0660],
+        [ 0.0057, -0.0060, -0.0542,  ..., -0.0428,  0.0264, -0.0142]],
+       device='cuda:0'), grad: tensor([[-0.0099, -0.0040, -0.0005,  ..., -0.0086, -0.0037, -0.0099],
+        [-0.0008,  0.0028,  0.0019,  ..., -0.0004,  0.0014, -0.0007],
+        [-0.0017,  0.0028,  0.0034,  ...,  0.0029,  0.0009, -0.0036],
+        ...,
+        [ 0.0025,  0.0013,  0.0004,  ...,  0.0023,  0.0016,  0.0019],
+        [ 0.0008, -0.0049, -0.0016,  ..., -0.0014, -0.0009,  0.0037],
+        [ 0.0026,  0.0010,  0.0002,  ...,  0.0016,  0.0018,  0.0027]],
+       device='cuda:0')
+Epoch 109, bias, value: tensor([ 0.0147, -0.0119,  0.0006, -0.0181,  0.0152,  0.0004, -0.0162, -0.0253,
+         0.0096, -0.0053], device='cuda:0'), grad: tensor([-0.0721, -0.0169, -0.0064,  0.0318,  0.0184,  0.0174,  0.0167,  0.0254,
+        -0.0350,  0.0205], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 108, time 218.73, cls_loss 0.5932 cls_loss_mapping 0.0176 cls_loss_causal 0.5614 re_mapping 0.0113 re_causal 0.0294 /// teacc 98.47 lr 0.00010000
+Epoch 110, weight, value: tensor([[ 0.0097,  0.0635, -0.1078,  ..., -0.0614,  0.0480,  0.0072],
+        [-0.0516, -0.0859,  0.0545,  ..., -0.0273, -0.0830,  0.0464],
+        [-0.0511, -0.0263, -0.0706,  ..., -0.0912, -0.0360,  0.0314],
+        ...,
+        [-0.0166, -0.0496, -0.0682,  ..., -0.0894, -0.0049,  0.0473],
+        [-0.0818, -0.0718, -0.0683,  ..., -0.0440, -0.0384, -0.0669],
+        [ 0.0063, -0.0059, -0.0534,  ..., -0.0419,  0.0264, -0.0128]],
+       device='cuda:0'), grad: tensor([[-7.8201e-03,  2.6875e-03, -5.0306e-04,  ..., -3.7651e-03,
+         -1.0214e-03, -6.6338e-03],
+        [-5.0468e-03, -4.4882e-05,  7.2420e-05,  ..., -5.2185e-03,
+         -1.4553e-03, -4.9896e-03],
+        [-5.7640e-03, -7.7248e-05,  4.9561e-05,  ...,  1.2007e-03,
+         -4.5815e-03, -8.8959e-03],
+        ...,
+        [-3.8395e-03,  3.9244e-04,  9.2089e-05,  ..., -6.9737e-05,
+          4.1890e-04, -5.4054e-03],
+        [ 2.9259e-03,  4.4847e-04, -4.3899e-05,  ...,  1.1320e-03,
+          1.3065e-03,  2.5692e-03],
+        [ 1.1986e-02,  4.5433e-03,  1.1241e-04,  ...,  1.3342e-03,
+          7.3471e-03,  8.7509e-03]], device='cuda:0')
+Epoch 110, bias, value: tensor([ 0.0151, -0.0119,  0.0001, -0.0184,  0.0149,  0.0006, -0.0161, -0.0253,
+         0.0085, -0.0039], device='cuda:0'), grad: tensor([-0.0526, -0.0327, -0.0216,  0.0053,  0.0544,  0.0072, -0.0111, -0.0177,
+        -0.0031,  0.0720], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 109, time 218.26, cls_loss 0.5856 cls_loss_mapping 0.0186 cls_loss_causal 0.5527 re_mapping 0.0117 re_causal 0.0296 /// teacc 98.55 lr 0.00010000
+Epoch 111, weight, value: tensor([[ 0.0096,  0.0644, -0.1080,  ..., -0.0620,  0.0485,  0.0068],
+        [-0.0530, -0.0861,  0.0550,  ..., -0.0272, -0.0840,  0.0470],
+        [-0.0513, -0.0267, -0.0709,  ..., -0.0914, -0.0353,  0.0304],
+        ...,
+        [-0.0161, -0.0487, -0.0682,  ..., -0.0900, -0.0046,  0.0482],
+        [-0.0823, -0.0715, -0.0682,  ..., -0.0429, -0.0391, -0.0674],
+        [ 0.0054, -0.0077, -0.0544,  ..., -0.0429,  0.0257, -0.0128]],
+       device='cuda:0'), grad: tensor([[ 1.0881e-03,  3.8087e-05,  1.5929e-05,  ...,  1.4150e-04,
+          5.7173e-04,  8.5592e-04],
+        [ 7.7152e-04,  1.6093e-05,  1.3649e-05,  ...,  8.9526e-05,
+          5.3358e-04,  9.8419e-04],
+        [ 2.0294e-03,  1.0926e-04,  8.4460e-05,  ...,  1.1271e-04,
+          4.9067e-04, -5.8651e-04],
+        ...,
+        [-2.2526e-03,  2.2382e-05,  1.9044e-05,  ..., -1.2350e-03,
+         -2.3193e-03, -3.0861e-03],
+        [ 1.1892e-03,  1.9801e-04,  8.1778e-05,  ...,  9.1374e-05,
+          5.3310e-04,  8.8406e-04],
+        [ 2.9068e-03,  7.3433e-05,  5.5492e-05,  ...,  4.0102e-04,
+          1.2941e-03,  2.3308e-03]], device='cuda:0')
+Epoch 111, bias, value: tensor([ 1.5071e-02, -1.1897e-02,  7.1030e-05, -1.7955e-02,  1.4337e-02,
+         1.3873e-03, -1.6225e-02, -2.5024e-02,  8.4318e-03, -4.5945e-03],
+       device='cuda:0'), grad: tensor([ 0.0058,  0.0058,  0.0025, -0.0033,  0.0055,  0.0051, -0.0234, -0.0139,
+         0.0103,  0.0056], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 110, time 218.99, cls_loss 0.5853 cls_loss_mapping 0.0201 cls_loss_causal 0.5541 re_mapping 0.0109 re_causal 0.0277 /// teacc 98.54 lr 0.00010000
+Epoch 112, weight, value: tensor([[ 0.0094,  0.0644, -0.1080,  ..., -0.0636,  0.0480,  0.0075],
+        [-0.0551, -0.0869,  0.0556,  ..., -0.0285, -0.0863,  0.0477],
+        [-0.0518, -0.0266, -0.0695,  ..., -0.0903, -0.0349,  0.0317],
+        ...,
+        [-0.0161, -0.0501, -0.0701,  ..., -0.0887, -0.0038,  0.0472],
+        [-0.0813, -0.0724, -0.0686,  ..., -0.0431, -0.0390, -0.0672],
+        [ 0.0051, -0.0075, -0.0545,  ..., -0.0430,  0.0248, -0.0136]],
+       device='cuda:0'), grad: tensor([[-5.9700e-04, -5.1231e-03, -4.9591e-04,  ..., -1.8728e-04,
+         -4.9553e-03,  9.2411e-04],
+        [ 1.1005e-03,  2.4121e-06, -1.2660e-04,  ..., -5.9396e-05,
+          4.9448e-04,  1.6344e-04],
+        [ 1.0567e-03,  3.0905e-05,  2.3976e-05,  ...,  5.8375e-06,
+          5.0306e-04,  2.5177e-04],
+        ...,
+        [-5.3749e-03,  4.7833e-06,  2.2948e-06,  ...,  3.0026e-06,
+         -2.7580e-03, -2.1687e-03],
+        [ 1.4496e-03, -2.4152e-04,  7.1228e-06,  ...,  3.7938e-05,
+          6.7949e-04,  1.5755e-03],
+        [ 3.1910e-03,  2.8572e-03,  2.8133e-04,  ...,  3.7607e-06,
+          4.0207e-03,  1.8740e-03]], device='cuda:0')
+Epoch 112, bias, value: tensor([ 0.0143, -0.0127,  0.0003, -0.0176,  0.0138,  0.0006, -0.0154, -0.0245,
+         0.0091, -0.0044], device='cuda:0'), grad: tensor([ 0.0061,  0.0068,  0.0087,  0.0222, -0.0189, -0.0505,  0.0140, -0.0196,
+         0.0088,  0.0225], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 111, time 218.29, cls_loss 0.5954 cls_loss_mapping 0.0209 cls_loss_causal 0.5633 re_mapping 0.0111 re_causal 0.0277 /// teacc 98.38 lr 0.00010000
+Epoch 113, weight, value: tensor([[ 0.0092,  0.0651, -0.1086,  ..., -0.0640,  0.0491,  0.0079],
+        [-0.0553, -0.0872,  0.0563,  ..., -0.0280, -0.0877,  0.0483],
+        [-0.0516, -0.0263, -0.0701,  ..., -0.0910, -0.0343,  0.0316],
+        ...,
+        [-0.0165, -0.0500, -0.0699,  ..., -0.0885, -0.0038,  0.0475],
+        [-0.0810, -0.0718, -0.0688,  ..., -0.0438, -0.0385, -0.0672],
+        [ 0.0054, -0.0081, -0.0549,  ..., -0.0429,  0.0242, -0.0140]],
+       device='cuda:0'), grad: tensor([[ 3.6240e-03, -9.2983e-04,  6.5231e-04,  ..., -1.5793e-03,
+          1.9779e-03,  4.0855e-03],
+        [ 3.5191e-03, -2.8629e-03, -1.8034e-03,  ...,  5.4073e-04,
+          7.0572e-04,  3.0823e-03],
+        [ 3.2349e-03,  1.4997e-04,  9.5010e-05,  ..., -7.5006e-04,
+          2.3499e-03,  5.9319e-04],
+        ...,
+        [-7.2060e-03,  1.7624e-03,  2.2125e-03,  ..., -1.8282e-03,
+         -6.4926e-03,  1.1215e-03],
+        [ 2.2850e-03,  1.4925e-03,  9.5892e-04,  ...,  9.0599e-04,
+          2.0027e-03,  3.0556e-03],
+        [-1.5251e-02, -2.1839e-03, -2.9125e-03,  ..., -1.5888e-03,
+         -8.4534e-03, -1.9470e-02]], device='cuda:0')
+Epoch 113, bias, value: tensor([ 0.0141, -0.0123,  0.0003, -0.0175,  0.0142,  0.0006, -0.0159, -0.0244,
+         0.0093, -0.0049], device='cuda:0'), grad: tensor([ 0.0284,  0.0196, -0.0068,  0.0263,  0.0356,  0.0131, -0.0089, -0.0411,
+         0.0277, -0.0938], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 112, time 217.54, cls_loss 0.5725 cls_loss_mapping 0.0136 cls_loss_causal 0.5377 re_mapping 0.0115 re_causal 0.0289 /// teacc 98.54 lr 0.00010000
+Epoch 114, weight, value: tensor([[ 0.0091,  0.0661, -0.1092,  ..., -0.0642,  0.0485,  0.0084],
+        [-0.0549, -0.0881,  0.0572,  ..., -0.0280, -0.0881,  0.0479],
+        [-0.0520, -0.0264, -0.0705,  ..., -0.0914, -0.0350,  0.0320],
+        ...,
+        [-0.0156, -0.0517, -0.0710,  ..., -0.0888, -0.0040,  0.0480],
+        [-0.0820, -0.0725, -0.0683,  ..., -0.0417, -0.0373, -0.0684],
+        [ 0.0046, -0.0078, -0.0550,  ..., -0.0433,  0.0249, -0.0142]],
+       device='cuda:0'), grad: tensor([[ 1.7338e-03,  6.4707e-04,  7.9691e-05,  ...,  6.4278e-04,
+          1.0624e-03,  1.9226e-03],
+        [-3.3665e-03,  4.5133e-04,  1.8148e-03,  ...,  2.1458e-03,
+         -1.7643e-03, -5.7793e-03],
+        [ 2.0180e-03,  5.9891e-04,  3.9005e-04,  ...,  9.1791e-04,
+          1.0843e-03,  5.5656e-03],
+        ...,
+        [-4.5052e-03, -1.0271e-03, -3.9637e-05,  ..., -2.1687e-03,
+         -2.2829e-04, -6.2218e-03],
+        [ 1.6890e-03,  1.9526e-04,  1.2245e-03,  ...,  1.6174e-03,
+          7.6151e-04,  1.0452e-03],
+        [ 1.2369e-03, -1.1575e-04,  1.7059e-04,  ...,  9.2411e-04,
+          1.8978e-04,  1.2503e-03]], device='cuda:0')
+Epoch 114, bias, value: tensor([ 0.0142, -0.0118,  0.0007, -0.0182,  0.0140,  0.0006, -0.0156, -0.0243,
+         0.0090, -0.0051], device='cuda:0'), grad: tensor([ 0.0199, -0.0362,  0.0277, -0.0091, -0.0042, -0.0046,  0.0271, -0.0474,
+         0.0063,  0.0205], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 113, time 217.63, cls_loss 0.6105 cls_loss_mapping 0.0204 cls_loss_causal 0.5754 re_mapping 0.0113 re_causal 0.0287 /// teacc 98.53 lr 0.00010000
+Epoch 115, weight, value: tensor([[ 0.0091,  0.0663, -0.1108,  ..., -0.0658,  0.0483,  0.0089],
+        [-0.0563, -0.0891,  0.0583,  ..., -0.0280, -0.0888,  0.0478],
+        [-0.0519, -0.0282, -0.0725,  ..., -0.0925, -0.0355,  0.0326],
+        ...,
+        [-0.0150, -0.0529, -0.0706,  ..., -0.0872, -0.0042,  0.0472],
+        [-0.0822, -0.0725, -0.0678,  ..., -0.0425, -0.0371, -0.0688],
+        [ 0.0043, -0.0084, -0.0560,  ..., -0.0435,  0.0238, -0.0127]],
+       device='cuda:0'), grad: tensor([[-2.4033e-04, -1.2236e-03, -1.2505e-04,  ...,  1.9622e-04,
+         -2.5406e-03,  4.2610e-03],
+        [-1.0872e-03,  1.4520e-04, -5.1498e-03,  ..., -4.8485e-03,
+         -3.0398e-04, -6.3934e-03],
+        [ 3.2997e-04, -3.4218e-03, -1.3380e-03,  ...,  1.8597e-04,
+          1.3244e-04,  2.1229e-03],
+        ...,
+        [ 3.2878e-04,  6.2466e-04,  1.2922e-03,  ...,  8.7309e-04,
+         -9.8571e-06,  8.4114e-04],
+        [ 2.7866e-03,  2.3479e-03, -5.7554e-04,  ...,  3.2730e-03,
+         -1.9932e-04, -2.1267e-03],
+        [ 2.6970e-03,  1.2846e-03,  3.6373e-03,  ...,  1.1921e-03,
+          2.1477e-03,  3.8681e-03]], device='cuda:0')
+Epoch 115, bias, value: tensor([ 0.0141, -0.0120,  0.0009, -0.0179,  0.0134,  0.0004, -0.0163, -0.0239,
+         0.0090, -0.0044], device='cuda:0'), grad: tensor([ 0.0192, -0.0325, -0.0081,  0.0255, -0.0049, -0.0201, -0.0254,  0.0107,
+        -0.0151,  0.0507], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 114, time 217.45, cls_loss 0.5798 cls_loss_mapping 0.0195 cls_loss_causal 0.5506 re_mapping 0.0111 re_causal 0.0292 /// teacc 98.32 lr 0.00010000
+Epoch 116, weight, value: tensor([[ 0.0097,  0.0667, -0.1122,  ..., -0.0663,  0.0492,  0.0081],
+        [-0.0569, -0.0893,  0.0588,  ..., -0.0278, -0.0894,  0.0485],
+        [-0.0525, -0.0278, -0.0722,  ..., -0.0918, -0.0341,  0.0324],
+        ...,
+        [-0.0153, -0.0518, -0.0700,  ..., -0.0874, -0.0046,  0.0468],
+        [-0.0824, -0.0726, -0.0678,  ..., -0.0433, -0.0365, -0.0686],
+        [ 0.0054, -0.0077, -0.0556,  ..., -0.0428,  0.0242, -0.0124]],
+       device='cuda:0'), grad: tensor([[ 0.0022,  0.0051,  0.0032,  ...,  0.0020,  0.0025,  0.0028],
+        [-0.0002,  0.0002,  0.0051,  ...,  0.0087,  0.0005, -0.0043],
+        [ 0.0014,  0.0013,  0.0007,  ...,  0.0005,  0.0006,  0.0025],
+        ...,
+        [ 0.0012,  0.0008, -0.0047,  ..., -0.0085,  0.0006,  0.0024],
+        [ 0.0055,  0.0079,  0.0038,  ...,  0.0010,  0.0009,  0.0018],
+        [-0.0062, -0.0069, -0.0030,  ...,  0.0027,  0.0008, -0.0056]],
+       device='cuda:0')
+Epoch 116, bias, value: tensor([ 0.0143, -0.0122,  0.0009, -0.0176,  0.0129, -0.0006, -0.0157, -0.0245,
+         0.0096, -0.0040], device='cuda:0'), grad: tensor([ 0.0139,  0.0270,  0.0217, -0.0129, -0.0124, -0.0067, -0.0315, -0.0103,
+         0.0348, -0.0235], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 115, time 216.51, cls_loss 0.5750 cls_loss_mapping 0.0187 cls_loss_causal 0.5455 re_mapping 0.0108 re_causal 0.0282 /// teacc 98.54 lr 0.00010000
+Epoch 117, weight, value: tensor([[ 0.0115,  0.0665, -0.1134,  ..., -0.0660,  0.0504,  0.0075],
+        [-0.0576, -0.0891,  0.0598,  ..., -0.0279, -0.0904,  0.0485],
+        [-0.0527, -0.0280, -0.0721,  ..., -0.0929, -0.0348,  0.0322],
+        ...,
+        [-0.0165, -0.0524, -0.0708,  ..., -0.0884, -0.0039,  0.0474],
+        [-0.0831, -0.0736, -0.0691,  ..., -0.0445, -0.0371, -0.0689],
+        [ 0.0061, -0.0066, -0.0555,  ..., -0.0428,  0.0242, -0.0129]],
+       device='cuda:0'), grad: tensor([[ 1.2445e-03, -5.6648e-04,  1.8716e-04,  ...,  1.3995e-04,
+          5.2738e-04,  1.5306e-03],
+        [ 2.4376e-03, -7.2908e-04, -3.1071e-03,  ..., -1.7872e-03,
+          9.0027e-04,  2.7828e-03],
+        [-3.7403e-03, -8.1348e-04, -1.8749e-03,  ..., -2.8496e-03,
+          6.2084e-04, -2.3785e-03],
+        ...,
+        [ 1.5020e-03,  3.1543e-04,  5.1832e-04,  ...,  3.8743e-04,
+         -2.6226e-05,  1.1520e-03],
+        [ 1.3580e-03, -7.7057e-04, -3.1662e-03,  ...,  1.1368e-03,
+          6.0701e-04, -3.1734e-04],
+        [ 2.3384e-03, -2.6226e-04,  5.0735e-04,  ...,  5.2452e-04,
+          6.1321e-04,  3.4676e-03]], device='cuda:0')
+Epoch 117, bias, value: tensor([ 0.0145, -0.0131, -0.0005, -0.0169,  0.0132, -0.0002, -0.0153, -0.0240,
+         0.0097, -0.0043], device='cuda:0'), grad: tensor([-0.0134,  0.0447, -0.0143,  0.0358, -0.0352, -0.0154, -0.0123,  0.0100,
+        -0.0313,  0.0314], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 116, time 216.33, cls_loss 0.6182 cls_loss_mapping 0.0167 cls_loss_causal 0.5858 re_mapping 0.0107 re_causal 0.0278 /// teacc 98.39 lr 0.00010000
+Epoch 118, weight, value: tensor([[ 0.0119,  0.0666, -0.1134,  ..., -0.0669,  0.0504,  0.0075],
+        [-0.0590, -0.0897,  0.0610,  ..., -0.0285, -0.0895,  0.0486],
+        [-0.0518, -0.0284, -0.0736,  ..., -0.0932, -0.0337,  0.0337],
+        ...,
+        [-0.0164, -0.0526, -0.0721,  ..., -0.0865, -0.0036,  0.0478],
+        [-0.0826, -0.0740, -0.0698,  ..., -0.0441, -0.0372, -0.0687],
+        [ 0.0065, -0.0054, -0.0550,  ..., -0.0423,  0.0249, -0.0133]],
+       device='cuda:0'), grad: tensor([[ 2.8954e-03,  8.5688e-04,  2.6375e-05,  ...,  2.3270e-04,
+          1.6603e-03,  2.0008e-03],
+        [ 6.3801e-04,  1.9282e-05,  1.3091e-05,  ...,  1.2696e-04,
+          5.3835e-04, -7.0724e-03],
+        [ 2.8496e-03,  7.3969e-05,  2.0057e-05,  ...,  1.2660e-04,
+          7.2002e-04,  2.7466e-03],
+        ...,
+        [ 6.1150e-03,  8.8736e-06,  2.0206e-05,  ...,  1.2648e-04,
+          8.6784e-04,  1.4236e-02],
+        [-9.1934e-03,  5.8317e-04,  1.2234e-05,  ..., -1.3781e-03,
+          1.9860e-04,  6.6042e-04],
+        [-9.0408e-04,  2.2039e-05,  1.6004e-05,  ...,  1.8370e-04,
+         -1.4944e-03,  7.2956e-05]], device='cuda:0')
+Epoch 118, bias, value: tensor([ 0.0145, -0.0137,  0.0011, -0.0178,  0.0135, -0.0005, -0.0160, -0.0240,
+         0.0099, -0.0039], device='cuda:0'), grad: tensor([ 0.0249,  0.0039,  0.0260,  0.0429, -0.0170, -0.0505, -0.0300,  0.0668,
+        -0.0380, -0.0291], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 117, time 216.17, cls_loss 0.5714 cls_loss_mapping 0.0197 cls_loss_causal 0.5328 re_mapping 0.0110 re_causal 0.0278 /// teacc 98.60 lr 0.00010000
+Epoch 119, weight, value: tensor([[ 0.0112,  0.0670, -0.1140,  ..., -0.0663,  0.0512,  0.0067],
+        [-0.0594, -0.0898,  0.0592,  ..., -0.0293, -0.0900,  0.0486],
+        [-0.0522, -0.0291, -0.0743,  ..., -0.0922, -0.0330,  0.0340],
+        ...,
+        [-0.0167, -0.0526, -0.0721,  ..., -0.0868, -0.0037,  0.0481],
+        [-0.0812, -0.0739, -0.0685,  ..., -0.0437, -0.0365, -0.0687],
+        [ 0.0056, -0.0056, -0.0547,  ..., -0.0430,  0.0244, -0.0136]],
+       device='cuda:0'), grad: tensor([[ 1.6463e-04, -2.2774e-03,  2.7746e-05,  ...,  6.5193e-08,
+          1.3053e-04,  6.0892e-04],
+        [ 2.5864e-03, -6.6090e-04, -3.7432e-04,  ..., -5.6550e-06,
+          7.8487e-04,  9.4795e-04],
+        [ 1.5602e-03,  1.7262e-04,  2.0564e-05,  ...,  2.3749e-07,
+          5.3740e-04, -2.0295e-05],
+        ...,
+        [ 1.7719e-03,  2.4164e-04,  1.8775e-05,  ...,  3.0268e-08,
+         -6.4015e-05,  5.7220e-04],
+        [ 1.4467e-03,  9.0408e-04,  2.5797e-04,  ...,  5.8487e-06,
+         -6.6519e-04,  2.5711e-03],
+        [-1.0780e-02,  4.0627e-04,  1.6555e-05,  ...,  1.3318e-07,
+         -4.4775e-04, -8.7128e-03]], device='cuda:0')
+Epoch 119, bias, value: tensor([ 0.0135, -0.0141,  0.0011, -0.0178,  0.0140, -0.0010, -0.0157, -0.0237,
+         0.0110, -0.0044], device='cuda:0'), grad: tensor([-0.0016,  0.0095,  0.0131, -0.0095,  0.0271, -0.0167,  0.0168,  0.0007,
+         0.0311, -0.0703], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 118, time 216.95, cls_loss 0.5949 cls_loss_mapping 0.0147 cls_loss_causal 0.5617 re_mapping 0.0113 re_causal 0.0293 /// teacc 98.72 lr 0.00010000
+Epoch 120, weight, value: tensor([[ 0.0104,  0.0673, -0.1155,  ..., -0.0668,  0.0502,  0.0067],
+        [-0.0606, -0.0902,  0.0588,  ..., -0.0292, -0.0904,  0.0486],
+        [-0.0524, -0.0281, -0.0743,  ..., -0.0928, -0.0317,  0.0333],
+        ...,
+        [-0.0162, -0.0532, -0.0725,  ..., -0.0866, -0.0037,  0.0477],
+        [-0.0822, -0.0738, -0.0679,  ..., -0.0439, -0.0371, -0.0674],
+        [ 0.0054, -0.0083, -0.0551,  ..., -0.0437,  0.0240, -0.0122]],
+       device='cuda:0'), grad: tensor([[ 8.7595e-04,  1.1879e-04,  1.0902e-04,  ...,  3.4285e-04,
+          4.5705e-04, -1.6201e-04],
+        [-1.5345e-03,  1.1645e-05, -1.2007e-03,  ..., -2.6836e-03,
+         -1.5469e-03, -1.4896e-03],
+        [-1.6518e-03,  2.6584e-04,  3.8290e-04,  ...,  6.2418e-04,
+         -3.8075e-04, -6.8569e-04],
+        ...,
+        [-7.9727e-03, -4.1795e-04,  1.3065e-04,  ...,  2.7442e-04,
+         -7.0457e-03, -1.0597e-02],
+        [ 1.0567e-03, -1.8835e-04, -1.6734e-05,  ...,  2.5368e-04,
+          5.2118e-04,  1.1501e-03],
+        [ 1.6785e-03,  2.5845e-04,  1.5867e-04,  ...,  4.3225e-04,
+          1.4448e-03,  2.4986e-03]], device='cuda:0')
+Epoch 120, bias, value: tensor([ 0.0132, -0.0147,  0.0006, -0.0181,  0.0141,  0.0001, -0.0152, -0.0239,
+         0.0104, -0.0034], device='cuda:0'), grad: tensor([-0.0161, -0.0072, -0.0017,  0.0183,  0.0422,  0.0241,  0.0275, -0.0987,
+        -0.0123,  0.0238], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 119, time 216.40, cls_loss 0.6020 cls_loss_mapping 0.0119 cls_loss_causal 0.5700 re_mapping 0.0100 re_causal 0.0276 /// teacc 98.73 lr 0.00010000
+Epoch 121, weight, value: tensor([[ 0.0110,  0.0670, -0.1157,  ..., -0.0666,  0.0508,  0.0065],
+        [-0.0603, -0.0901,  0.0591,  ..., -0.0303, -0.0899,  0.0490],
+        [-0.0533, -0.0273, -0.0754,  ..., -0.0936, -0.0316,  0.0333],
+        ...,
+        [-0.0169, -0.0529, -0.0733,  ..., -0.0878, -0.0045,  0.0475],
+        [-0.0825, -0.0741, -0.0678,  ..., -0.0434, -0.0378, -0.0683],
+        [ 0.0052, -0.0091, -0.0552,  ..., -0.0439,  0.0241, -0.0116]],
+       device='cuda:0'), grad: tensor([[ 2.5234e-03,  9.7334e-05,  3.6025e-04,  ...,  2.4366e-04,
+         -2.5272e-04, -2.8095e-03],
+        [ 1.8272e-03,  1.0020e-04,  4.0740e-05,  ...,  1.5080e-04,
+          7.9870e-04,  2.9278e-04],
+        [ 1.1530e-03, -5.9515e-05,  1.0467e-04,  ...,  9.3281e-05,
+          5.7697e-04,  1.7667e-04],
+        ...,
+        [-8.8577e-03,  1.9681e-04,  2.3425e-04,  ..., -1.0281e-03,
+         -1.1978e-03, -4.6806e-03],
+        [ 2.5673e-03,  2.3866e-04,  3.5262e-04,  ...,  3.3355e-04,
+          1.2550e-03,  1.1911e-03],
+        [-1.8740e-03, -1.1082e-03, -4.1771e-04,  ..., -2.9397e-04,
+         -9.5320e-04,  5.1117e-04]], device='cuda:0')
+Epoch 121, bias, value: tensor([ 1.3246e-02, -1.4051e-02,  3.8063e-05, -1.7904e-02,  1.4824e-02,
+         3.8939e-04, -1.5240e-02, -2.5350e-02,  1.0912e-02, -3.7545e-03],
+       device='cuda:0'), grad: tensor([-0.0111, -0.0113, -0.0209,  0.0226, -0.0005,  0.0236,  0.0134, -0.0174,
+         0.0355, -0.0339], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 120, time 216.35, cls_loss 0.5988 cls_loss_mapping 0.0174 cls_loss_causal 0.5677 re_mapping 0.0102 re_causal 0.0266 /// teacc 98.74 lr 0.00010000
+Epoch 122, weight, value: tensor([[ 0.0108,  0.0666, -0.1157,  ..., -0.0674,  0.0502,  0.0073],
+        [-0.0606, -0.0899,  0.0603,  ..., -0.0301, -0.0916,  0.0486],
+        [-0.0533, -0.0267, -0.0761,  ..., -0.0939, -0.0319,  0.0329],
+        ...,
+        [-0.0159, -0.0538, -0.0730,  ..., -0.0866, -0.0038,  0.0479],
+        [-0.0836, -0.0740, -0.0688,  ..., -0.0430, -0.0381, -0.0678],
+        [ 0.0046, -0.0101, -0.0552,  ..., -0.0446,  0.0233, -0.0113]],
+       device='cuda:0'), grad: tensor([[-6.9275e-03, -2.5406e-03, -1.9920e-04,  ..., -2.9850e-03,
+         -3.4256e-03,  1.4763e-03],
+        [ 1.7939e-03,  2.3752e-05,  3.1978e-05,  ...,  5.8860e-05,
+          1.2140e-03,  8.8739e-04],
+        [-1.6266e-02, -6.1226e-03, -1.0857e-02,  ..., -3.2120e-03,
+         -6.3553e-03, -1.7843e-03],
+        ...,
+        [ 3.9597e-03,  2.4199e-04,  4.0078e-04,  ...,  7.9572e-05,
+          2.0866e-03,  1.4009e-03],
+        [-2.6398e-03,  2.0468e-04,  9.4712e-05,  ...,  2.0254e-04,
+          1.4629e-03, -2.0580e-03],
+        [ 4.5280e-03,  2.4045e-04,  2.5439e-04,  ...,  4.2009e-04,
+          2.6207e-03,  1.9779e-03]], device='cuda:0')
+Epoch 122, bias, value: tensor([ 1.3088e-02, -1.4289e-02,  2.3874e-04, -1.8175e-02,  1.4739e-02,
+        -7.6129e-05, -1.5324e-02, -2.4469e-02,  1.0878e-02, -3.6010e-03],
+       device='cuda:0'), grad: tensor([-0.0282,  0.0099, -0.0569, -0.0767,  0.0294,  0.0375,  0.0568,  0.0194,
+        -0.0179,  0.0266], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 121, time 216.27, cls_loss 0.5938 cls_loss_mapping 0.0177 cls_loss_causal 0.5589 re_mapping 0.0101 re_causal 0.0268 /// teacc 98.59 lr 0.00010000
+Epoch 123, weight, value: tensor([[ 0.0109,  0.0674, -0.1150,  ..., -0.0690,  0.0503,  0.0072],
+        [-0.0598, -0.0900,  0.0612,  ..., -0.0293, -0.0918,  0.0486],
+        [-0.0521, -0.0271, -0.0766,  ..., -0.0932, -0.0312,  0.0328],
+        ...,
+        [-0.0160, -0.0546, -0.0737,  ..., -0.0867, -0.0038,  0.0488],
+        [-0.0840, -0.0742, -0.0698,  ..., -0.0439, -0.0374, -0.0687],
+        [ 0.0054, -0.0101, -0.0541,  ..., -0.0448,  0.0244, -0.0117]],
+       device='cuda:0'), grad: tensor([[ 5.8031e-04, -1.1569e-04,  5.4210e-05,  ...,  7.8869e-04,
+          1.0023e-03, -8.3733e-04],
+        [ 2.8210e-03,  4.3631e-05,  4.4680e-04,  ...,  2.9063e-04,
+          1.5545e-03,  1.6800e-02],
+        [ 1.7109e-03,  2.2069e-05,  1.0312e-04,  ...,  1.0586e-03,
+          8.2493e-04,  1.8539e-03],
+        ...,
+        [ 5.3139e-03, -7.2908e-04, -2.3613e-03,  ..., -2.7823e-04,
+         -1.9445e-03,  4.0970e-03],
+        [ 2.7828e-03,  1.0037e-04,  2.3103e-04,  ...,  5.3787e-04,
+          1.2712e-03, -1.4145e-02],
+        [-1.2062e-02,  7.3910e-05,  1.7107e-04,  ...,  2.0349e-04,
+         -1.1188e-04, -9.5062e-03]], device='cuda:0')
+Epoch 123, bias, value: tensor([ 0.0123, -0.0141,  0.0013, -0.0176,  0.0136, -0.0002, -0.0154, -0.0243,
+         0.0106, -0.0033], device='cuda:0'), grad: tensor([-0.0086,  0.0219,  0.0243,  0.0068, -0.0092,  0.0329, -0.0369,  0.0066,
+        -0.0044, -0.0334], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 122, time 216.40, cls_loss 0.5694 cls_loss_mapping 0.0152 cls_loss_causal 0.5369 re_mapping 0.0111 re_causal 0.0285 /// teacc 98.46 lr 0.00010000
+Epoch 124, weight, value: tensor([[ 0.0109,  0.0687, -0.1150,  ..., -0.0690,  0.0501,  0.0075],
+        [-0.0597, -0.0909,  0.0611,  ..., -0.0289, -0.0916,  0.0486],
+        [-0.0519, -0.0275, -0.0774,  ..., -0.0937, -0.0305,  0.0335],
+        ...,
+        [-0.0159, -0.0539, -0.0729,  ..., -0.0870, -0.0042,  0.0483],
+        [-0.0837, -0.0747, -0.0712,  ..., -0.0439, -0.0369, -0.0685],
+        [ 0.0054, -0.0104, -0.0533,  ..., -0.0436,  0.0240, -0.0123]],
+       device='cuda:0'), grad: tensor([[ 3.3545e-04, -6.1572e-05,  4.5538e-05,  ...,  7.7486e-05,
+          7.1812e-04,  2.0180e-03],
+        [ 4.8780e-04,  1.3041e-04,  1.2815e-04,  ...,  4.9293e-05,
+          5.9938e-04,  1.0948e-03],
+        [-7.1144e-04, -2.8944e-04, -9.2745e-05,  ..., -2.2757e-04,
+         -2.4548e-03, -3.7422e-03],
+        ...,
+        [-3.2735e-04,  7.5459e-05,  7.3791e-05,  ...,  1.8880e-05,
+         -1.4448e-03, -1.5755e-03],
+        [ 6.8092e-04,  5.2541e-05, -2.6170e-06,  ..., -5.2392e-05,
+          1.0080e-03, -1.4000e-03],
+        [-5.3520e-03,  1.9920e-04,  2.4021e-04,  ...,  2.7239e-05,
+         -4.5204e-03, -2.5129e-04]], device='cuda:0')
+Epoch 124, bias, value: tensor([ 0.0124, -0.0133,  0.0015, -0.0173,  0.0137, -0.0005, -0.0157, -0.0249,
+         0.0113, -0.0041], device='cuda:0'), grad: tensor([ 0.0178, -0.0014, -0.0163,  0.0152,  0.0089,  0.0131, -0.0114, -0.0180,
+         0.0112, -0.0192], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 123, time 216.31, cls_loss 0.6000 cls_loss_mapping 0.0198 cls_loss_causal 0.5685 re_mapping 0.0102 re_causal 0.0259 /// teacc 98.51 lr 0.00010000
+Epoch 125, weight, value: tensor([[ 0.0116,  0.0691, -0.1151,  ..., -0.0685,  0.0503,  0.0078],
+        [-0.0603, -0.0908,  0.0597,  ..., -0.0289, -0.0927,  0.0482],
+        [-0.0523, -0.0281, -0.0770,  ..., -0.0940, -0.0299,  0.0338],
+        ...,
+        [-0.0165, -0.0548, -0.0728,  ..., -0.0874, -0.0054,  0.0489],
+        [-0.0834, -0.0747, -0.0712,  ..., -0.0440, -0.0366, -0.0689],
+        [ 0.0063, -0.0104, -0.0534,  ..., -0.0455,  0.0256, -0.0125]],
+       device='cuda:0'), grad: tensor([[ 1.5793e-03, -2.6751e-04,  1.7786e-04,  ...,  1.2827e-03,
+          9.2840e-04,  1.4496e-03],
+        [ 2.5368e-03,  4.1544e-05, -1.6189e-04,  ...,  2.8496e-03,
+          1.5268e-03,  4.0817e-03],
+        [-3.1319e-03,  1.3387e-04,  5.2547e-04,  ..., -1.7796e-03,
+         -1.7395e-03, -1.5669e-03],
+        ...,
+        [ 1.7605e-03,  1.4913e-04,  2.3878e-04,  ..., -3.5439e-03,
+          1.4400e-03, -4.4861e-03],
+        [ 3.1872e-03, -1.5631e-03, -1.4915e-03,  ..., -1.0691e-03,
+          1.8549e-03,  5.2834e-03],
+        [ 9.2864e-05,  2.9135e-04,  5.0306e-04,  ..., -5.0735e-04,
+         -1.7958e-03, -2.2566e-04]], device='cuda:0')
+Epoch 125, bias, value: tensor([ 0.0127, -0.0134,  0.0019, -0.0180,  0.0129,  0.0006, -0.0165, -0.0247,
+         0.0110, -0.0035], device='cuda:0'), grad: tensor([ 0.0224,  0.0413, -0.0298,  0.0020,  0.0456, -0.0413, -0.0471, -0.0302,
+         0.0362,  0.0009], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 124, time 215.99, cls_loss 0.5421 cls_loss_mapping 0.0185 cls_loss_causal 0.5154 re_mapping 0.0108 re_causal 0.0269 /// teacc 98.72 lr 0.00010000
+Epoch 126, weight, value: tensor([[ 0.0123,  0.0699, -0.1159,  ..., -0.0676,  0.0501,  0.0080],
+        [-0.0607, -0.0913,  0.0592,  ..., -0.0305, -0.0922,  0.0483],
+        [-0.0529, -0.0285, -0.0771,  ..., -0.0937, -0.0294,  0.0339],
+        ...,
+        [-0.0172, -0.0550, -0.0734,  ..., -0.0858, -0.0063,  0.0497],
+        [-0.0838, -0.0750, -0.0719,  ..., -0.0442, -0.0361, -0.0681],
+        [ 0.0062, -0.0101, -0.0532,  ..., -0.0460,  0.0254, -0.0130]],
+       device='cuda:0'), grad: tensor([[ 3.6454e-04,  7.2250e-03,  4.3154e-05,  ..., -8.9550e-04,
+         -1.2875e-03,  1.5717e-03],
+        [ 8.9741e-04,  6.7174e-05,  4.1693e-05,  ...,  3.8767e-04,
+          5.1069e-04,  1.1110e-03],
+        [-2.6464e-04,  7.7248e-04,  1.1939e-04,  ...,  1.1797e-03,
+          2.5153e-04, -5.8746e-04],
+        ...,
+        [-2.2545e-03,  3.9673e-04,  8.0168e-05,  ...,  5.0592e-04,
+         -5.1975e-04, -4.7150e-03],
+        [ 5.7487e-03,  3.0594e-03,  1.5697e-03,  ...,  2.7394e-04,
+          3.6469e-03, -1.9188e-03],
+        [ 7.3738e-03, -7.4615e-03,  4.0102e-04,  ...,  1.0948e-03,
+          3.5191e-03,  2.9926e-03]], device='cuda:0')
+Epoch 126, bias, value: tensor([ 0.0123, -0.0134,  0.0025, -0.0179,  0.0137,  0.0004, -0.0168, -0.0246,
+         0.0110, -0.0041], device='cuda:0'), grad: tensor([ 0.0313,  0.0133, -0.0120, -0.0382,  0.0102, -0.0082, -0.0031, -0.0322,
+         0.0177,  0.0213], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 125, time 216.64, cls_loss 0.5718 cls_loss_mapping 0.0138 cls_loss_causal 0.5400 re_mapping 0.0100 re_causal 0.0260 /// teacc 98.69 lr 0.00010000
+Epoch 127, weight, value: tensor([[ 0.0126,  0.0690, -0.1161,  ..., -0.0671,  0.0499,  0.0081],
+        [-0.0596, -0.0912,  0.0594,  ..., -0.0301, -0.0904,  0.0490],
+        [-0.0531, -0.0273, -0.0785,  ..., -0.0945, -0.0292,  0.0337],
+        ...,
+        [-0.0168, -0.0555, -0.0738,  ..., -0.0872, -0.0063,  0.0502],
+        [-0.0841, -0.0744, -0.0722,  ..., -0.0440, -0.0363, -0.0679],
+        [ 0.0059, -0.0109, -0.0535,  ..., -0.0473,  0.0253, -0.0133]],
+       device='cuda:0'), grad: tensor([[ 1.8778e-03, -3.5686e-03, -2.1309e-05,  ...,  1.9836e-04,
+          1.8063e-03, -5.0087e-03],
+        [-2.3384e-03,  1.4048e-03,  4.7870e-06,  ...,  2.2674e-04,
+         -1.8578e-03, -1.1148e-03],
+        [-1.6832e-03,  3.0965e-05,  2.6170e-06,  ..., -1.3132e-03,
+         -3.1471e-03,  1.1292e-03],
+        ...,
+        [-9.5177e-04,  9.8407e-05,  1.8496e-06,  ...,  2.2697e-04,
+         -3.9959e-04, -9.3031e-04],
+        [ 1.4858e-03,  2.0733e-03,  1.6928e-05,  ..., -1.6272e-05,
+          1.5812e-03,  4.9896e-03],
+        [ 1.5602e-03, -2.1076e-04,  1.1587e-04,  ...,  4.3130e-04,
+          6.8426e-04,  8.4305e-04]], device='cuda:0')
+Epoch 127, bias, value: tensor([ 0.0123, -0.0122,  0.0016, -0.0179,  0.0131,  0.0007, -0.0166, -0.0248,
+         0.0114, -0.0045], device='cuda:0'), grad: tensor([-0.0053,  0.0100, -0.0454, -0.0097, -0.0287,  0.0149,  0.0329, -0.0128,
+         0.0264,  0.0179], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 126, time 215.96, cls_loss 0.6059 cls_loss_mapping 0.0139 cls_loss_causal 0.5697 re_mapping 0.0100 re_causal 0.0267 /// teacc 98.65 lr 0.00010000
+Epoch 128, weight, value: tensor([[ 0.0129,  0.0696, -0.1160,  ..., -0.0684,  0.0505,  0.0076],
+        [-0.0589, -0.0920,  0.0599,  ..., -0.0291, -0.0891,  0.0489],
+        [-0.0533, -0.0277, -0.0775,  ..., -0.0952, -0.0296,  0.0348],
+        ...,
+        [-0.0170, -0.0568, -0.0744,  ..., -0.0875, -0.0059,  0.0498],
+        [-0.0842, -0.0754, -0.0733,  ..., -0.0453, -0.0371, -0.0688],
+        [ 0.0062, -0.0102, -0.0533,  ..., -0.0472,  0.0256, -0.0125]],
+       device='cuda:0'), grad: tensor([[-2.4033e-03,  6.4898e-04,  2.0266e-05,  ..., -8.2541e-04,
+         -4.2152e-03, -2.0889e-02],
+        [-1.6479e-03,  5.9456e-05,  1.9064e-06,  ...,  5.7364e-04,
+         -7.3242e-04,  1.5745e-03],
+        [ 1.3227e-03,  5.6887e-04,  5.8365e-04,  ...,  1.0900e-03,
+          1.4744e-03,  3.3073e-03],
+        ...,
+        [ 2.1305e-03,  9.8407e-05,  3.2187e-05,  ...,  6.7902e-04,
+          3.6736e-03,  1.3535e-02],
+        [ 1.2970e-04,  4.3893e-04,  2.3460e-04,  ...,  8.5735e-04,
+         -1.3771e-03,  6.9666e-04],
+        [ 3.0804e-03,  9.2125e-04,  1.4293e-04,  ...,  2.1458e-03,
+          2.5368e-03,  2.5635e-03]], device='cuda:0')
+Epoch 128, bias, value: tensor([ 0.0119, -0.0114,  0.0011, -0.0182,  0.0132,  0.0019, -0.0172, -0.0249,
+         0.0108, -0.0042], device='cuda:0'), grad: tensor([-0.0803,  0.0040,  0.0177, -0.0011,  0.0123,  0.0359, -0.0478,  0.0399,
+         0.0013,  0.0182], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 127, time 216.90, cls_loss 0.5682 cls_loss_mapping 0.0148 cls_loss_causal 0.5435 re_mapping 0.0102 re_causal 0.0270 /// teacc 98.73 lr 0.00010000
+Epoch 129, weight, value: tensor([[ 0.0128,  0.0699, -0.1154,  ..., -0.0687,  0.0502,  0.0079],
+        [-0.0586, -0.0912,  0.0607,  ..., -0.0292, -0.0889,  0.0481],
+        [-0.0535, -0.0293, -0.0791,  ..., -0.0952, -0.0279,  0.0349],
+        ...,
+        [-0.0170, -0.0567, -0.0754,  ..., -0.0877, -0.0060,  0.0502],
+        [-0.0848, -0.0762, -0.0742,  ..., -0.0467, -0.0388, -0.0688],
+        [ 0.0063, -0.0124, -0.0536,  ..., -0.0479,  0.0252, -0.0127]],
+       device='cuda:0'), grad: tensor([[ 0.0017,  0.0004,  0.0005,  ...,  0.0014,  0.0017,  0.0011],
+        [ 0.0022,  0.0005,  0.0005,  ...,  0.0020,  0.0022,  0.0018],
+        [-0.0003,  0.0016,  0.0012,  ...,  0.0020, -0.0017,  0.0007],
+        ...,
+        [-0.0024, -0.0026, -0.0020,  ..., -0.0087, -0.0035, -0.0026],
+        [ 0.0029,  0.0028,  0.0020,  ...,  0.0029,  0.0029,  0.0017],
+        [-0.0025,  0.0004,  0.0004,  ..., -0.0009, -0.0023, -0.0026]],
+       device='cuda:0')
+Epoch 129, bias, value: tensor([ 0.0130, -0.0109,  0.0006, -0.0189,  0.0139,  0.0017, -0.0170, -0.0250,
+         0.0106, -0.0048], device='cuda:0'), grad: tensor([ 0.0128,  0.0186, -0.0023, -0.0147,  0.0043,  0.0143,  0.0267, -0.0196,
+         0.0208, -0.0609], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 128, time 216.76, cls_loss 0.5622 cls_loss_mapping 0.0125 cls_loss_causal 0.5316 re_mapping 0.0099 re_causal 0.0271 /// teacc 98.55 lr 0.00010000
+Epoch 130, weight, value: tensor([[ 0.0140,  0.0711, -0.1171,  ..., -0.0689,  0.0507,  0.0076],
+        [-0.0595, -0.0921,  0.0609,  ..., -0.0308, -0.0885,  0.0480],
+        [-0.0533, -0.0295, -0.0783,  ..., -0.0945, -0.0275,  0.0347],
+        ...,
+        [-0.0163, -0.0546, -0.0759,  ..., -0.0874, -0.0056,  0.0507],
+        [-0.0852, -0.0773, -0.0742,  ..., -0.0452, -0.0401, -0.0696],
+        [ 0.0059, -0.0134, -0.0541,  ..., -0.0494,  0.0250, -0.0133]],
+       device='cuda:0'), grad: tensor([[ 0.0005, -0.0003,  0.0003,  ...,  0.0008, -0.0004,  0.0005],
+        [ 0.0014,  0.0014,  0.0020,  ...,  0.0034,  0.0015,  0.0016],
+        [ 0.0002,  0.0009,  0.0009,  ...,  0.0005,  0.0010,  0.0033],
+        ...,
+        [-0.0011,  0.0014, -0.0004,  ..., -0.0009, -0.0012, -0.0004],
+        [ 0.0014,  0.0011,  0.0004,  ...,  0.0007,  0.0010,  0.0016],
+        [-0.0009, -0.0004, -0.0008,  ..., -0.0017, -0.0065, -0.0092]],
+       device='cuda:0')
+Epoch 130, bias, value: tensor([ 0.0126, -0.0106,  0.0004, -0.0186,  0.0144,  0.0019, -0.0172, -0.0249,
+         0.0102, -0.0050], device='cuda:0'), grad: tensor([ 0.0128,  0.0263,  0.0064,  0.0289,  0.0320,  0.0309, -0.0866, -0.0104,
+         0.0267, -0.0671], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 129, time 216.14, cls_loss 0.5512 cls_loss_mapping 0.0123 cls_loss_causal 0.5130 re_mapping 0.0096 re_causal 0.0247 /// teacc 98.74 lr 0.00010000
+Epoch 131, weight, value: tensor([[ 0.0147,  0.0722, -0.1166,  ..., -0.0675,  0.0515,  0.0074],
+        [-0.0604, -0.0944,  0.0602,  ..., -0.0318, -0.0887,  0.0481],
+        [-0.0531, -0.0303, -0.0794,  ..., -0.0956, -0.0279,  0.0362],
+        ...,
+        [-0.0174, -0.0553, -0.0763,  ..., -0.0879, -0.0062,  0.0504],
+        [-0.0865, -0.0765, -0.0727,  ..., -0.0449, -0.0403, -0.0698],
+        [ 0.0071, -0.0115, -0.0545,  ..., -0.0504,  0.0263, -0.0141]],
+       device='cuda:0'), grad: tensor([[ 3.7975e-03,  2.0332e-03,  7.2670e-04,  ...,  2.4967e-03,
+          3.4943e-03,  2.0218e-03],
+        [ 1.1787e-03, -4.8614e-04,  1.1520e-03,  ...,  1.0147e-03,
+         -6.9275e-03, -2.1454e-02],
+        [ 4.2992e-03,  3.2825e-03,  1.1768e-03,  ...,  1.0643e-03,
+          1.4496e-02,  2.2110e-02],
+        ...,
+        [ 3.3531e-03,  9.0408e-04, -2.2926e-03,  ...,  9.9540e-05,
+          2.8915e-03,  8.5449e-04],
+        [ 2.8000e-03,  1.4467e-03,  7.6914e-04,  ...,  8.7833e-04,
+          2.0580e-03,  1.8873e-03],
+        [ 1.9369e-03,  1.8721e-03,  9.1982e-04,  ...,  5.1349e-05,
+         -1.5485e-04, -2.1248e-03]], device='cuda:0')
+Epoch 131, bias, value: tensor([ 0.0142, -0.0114,  0.0008, -0.0181,  0.0149,  0.0004, -0.0174, -0.0244,
+         0.0099, -0.0055], device='cuda:0'), grad: tensor([ 0.0248, -0.0246,  0.0670, -0.0428, -0.0948,  0.0166,  0.0118,  0.0251,
+         0.0173, -0.0005], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 130, time 216.21, cls_loss 0.5641 cls_loss_mapping 0.0129 cls_loss_causal 0.5325 re_mapping 0.0101 re_causal 0.0252 /// teacc 98.64 lr 0.00010000
+Epoch 132, weight, value: tensor([[ 0.0140,  0.0716, -0.1170,  ..., -0.0679,  0.0506,  0.0073],
+        [-0.0609, -0.0939,  0.0600,  ..., -0.0310, -0.0891,  0.0496],
+        [-0.0537, -0.0303, -0.0797,  ..., -0.0956, -0.0284,  0.0356],
+        ...,
+        [-0.0188, -0.0586, -0.0766,  ..., -0.0891, -0.0079,  0.0494],
+        [-0.0875, -0.0773, -0.0730,  ..., -0.0456, -0.0403, -0.0695],
+        [ 0.0081, -0.0094, -0.0542,  ..., -0.0510,  0.0272, -0.0132]],
+       device='cuda:0'), grad: tensor([[ 2.0103e-03,  7.4148e-04,  3.0994e-04,  ...,  2.9159e-04,
+          7.0572e-04,  1.2426e-03],
+        [ 2.7809e-03,  1.2369e-03,  4.9019e-04,  ...,  9.3460e-04,
+          1.3523e-03,  1.4706e-03],
+        [-5.3883e-04, -1.7452e-03,  2.4068e-04,  ...,  3.0398e-04,
+         -1.2016e-03, -2.6302e-03],
+        ...,
+        [ 4.6616e-03,  6.6233e-04,  7.8559e-05,  ...,  2.9516e-04,
+          1.6022e-03,  2.2984e-03],
+        [-7.2174e-03,  7.3814e-04,  4.7064e-04,  ...,  5.6410e-04,
+          1.0204e-03,  1.2159e-03],
+        [-1.5869e-03,  4.4882e-05,  1.1139e-03,  ..., -2.2469e-03,
+         -1.7328e-03, -1.7233e-03]], device='cuda:0')
+Epoch 132, bias, value: tensor([ 1.3573e-02, -1.0839e-02,  9.5948e-05, -1.8297e-02,  1.4488e-02,
+         6.5863e-05, -1.6638e-02, -2.4721e-02,  9.5707e-03, -4.0979e-03],
+       device='cuda:0'), grad: tensor([ 0.0104,  0.0134, -0.0046,  0.0256,  0.0262, -0.0507, -0.0133,  0.0179,
+        -0.0176, -0.0074], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 131----------------------------------------------------
+epoch 131, time 216.72, cls_loss 0.5455 cls_loss_mapping 0.0137 cls_loss_causal 0.5122 re_mapping 0.0103 re_causal 0.0267 /// teacc 98.81 lr 0.00010000
+Epoch 133, weight, value: tensor([[ 0.0147,  0.0716, -0.1182,  ..., -0.0679,  0.0517,  0.0060],
+        [-0.0617, -0.0946,  0.0610,  ..., -0.0322, -0.0895,  0.0487],
+        [-0.0545, -0.0295, -0.0788,  ..., -0.0959, -0.0289,  0.0364],
+        ...,
+        [-0.0190, -0.0597, -0.0779,  ..., -0.0898, -0.0076,  0.0505],
+        [-0.0876, -0.0777, -0.0735,  ..., -0.0458, -0.0400, -0.0691],
+        [ 0.0078, -0.0104, -0.0552,  ..., -0.0504,  0.0263, -0.0127]],
+       device='cuda:0'), grad: tensor([[-1.1282e-03, -3.6025e-04,  1.2243e-04,  ...,  1.0002e-04,
+         -9.7370e-04, -2.4414e-04],
+        [ 2.5940e-04,  2.4390e-04,  2.1648e-03,  ...,  3.4428e-03,
+          8.5115e-04,  3.7651e-03],
+        [-7.3700e-03, -5.9700e-03, -2.9831e-03,  ..., -4.9362e-03,
+         -6.2675e-03, -1.3878e-02],
+        ...,
+        [ 1.6251e-03,  1.0729e-03,  1.6785e-04,  ...,  1.2118e-04,
+          1.5287e-03, -1.2379e-03],
+        [ 5.4398e-03,  1.4715e-03,  9.6941e-04,  ...,  8.1873e-04,
+          1.6565e-03,  6.6833e-03],
+        [-1.7624e-02, -7.7343e-04, -5.9271e-04,  ...,  2.2128e-05,
+         -5.8403e-03, -1.1353e-02]], device='cuda:0')
+Epoch 133, bias, value: tensor([ 1.2919e-02, -1.1298e-02,  8.8552e-05, -1.8257e-02,  1.4161e-02,
+        -2.5965e-04, -1.6212e-02, -2.4441e-02,  1.0537e-02, -4.1448e-03],
+       device='cuda:0'), grad: tensor([-0.0115,  0.0068, -0.0357,  0.0316,  0.0300,  0.0189,  0.0227, -0.0032,
+         0.0352, -0.0948], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 132, time 215.98, cls_loss 0.5852 cls_loss_mapping 0.0132 cls_loss_causal 0.5559 re_mapping 0.0101 re_causal 0.0265 /// teacc 98.72 lr 0.00010000
+Epoch 134, weight, value: tensor([[ 0.0154,  0.0726, -0.1176,  ..., -0.0679,  0.0524,  0.0074],
+        [-0.0627, -0.0946,  0.0614,  ..., -0.0314, -0.0895,  0.0490],
+        [-0.0555, -0.0291, -0.0789,  ..., -0.0960, -0.0296,  0.0350],
+        ...,
+        [-0.0191, -0.0601, -0.0787,  ..., -0.0900, -0.0074,  0.0511],
+        [-0.0872, -0.0770, -0.0737,  ..., -0.0457, -0.0404, -0.0688],
+        [ 0.0082, -0.0127, -0.0559,  ..., -0.0519,  0.0255, -0.0135]],
+       device='cuda:0'), grad: tensor([[ 5.4855e-03,  1.8740e-03,  5.5027e-04,  ...,  4.9925e-04,
+          3.0766e-03,  2.7962e-03],
+        [-2.1801e-03, -5.8670e-03, -2.0103e-03,  ..., -1.9379e-03,
+         -1.1330e-03,  5.8708e-03],
+        [ 2.9812e-03,  7.2479e-04,  4.6730e-04,  ...,  2.0611e-04,
+          1.9150e-03,  1.8435e-03],
+        ...,
+        [-2.7728e-04,  4.1771e-04,  1.6940e-04,  ...,  8.4996e-05,
+          1.1435e-03, -1.9093e-03],
+        [-2.8057e-03,  9.3985e-04,  2.3627e-04,  ...,  2.2992e-05,
+         -8.1015e-04, -2.2221e-03],
+        [-1.0071e-03,  6.7139e-04,  2.1303e-04,  ...,  1.6248e-04,
+         -1.2703e-03, -1.3762e-03]], device='cuda:0')
+Epoch 134, bias, value: tensor([ 0.0136, -0.0112, -0.0004, -0.0171,  0.0147, -0.0008, -0.0163, -0.0252,
+         0.0103, -0.0044], device='cuda:0'), grad: tensor([ 0.0391,  0.0225,  0.0250,  0.0242, -0.0525, -0.0328,  0.0098,  0.0032,
+        -0.0387,  0.0002], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 133----------------------------------------------------
+epoch 133, time 217.03, cls_loss 0.5615 cls_loss_mapping 0.0120 cls_loss_causal 0.5317 re_mapping 0.0099 re_causal 0.0258 /// teacc 98.87 lr 0.00010000
+Epoch 135, weight, value: tensor([[ 0.0149,  0.0718, -0.1180,  ..., -0.0675,  0.0522,  0.0070],
+        [-0.0631, -0.0923,  0.0616,  ..., -0.0310, -0.0898,  0.0484],
+        [-0.0555, -0.0289, -0.0796,  ..., -0.0968, -0.0289,  0.0351],
+        ...,
+        [-0.0186, -0.0600, -0.0791,  ..., -0.0897, -0.0070,  0.0518],
+        [-0.0872, -0.0782, -0.0741,  ..., -0.0459, -0.0413, -0.0687],
+        [ 0.0086, -0.0134, -0.0562,  ..., -0.0527,  0.0254, -0.0138]],
+       device='cuda:0'), grad: tensor([[ 9.9659e-04, -1.3857e-03,  1.0580e-04,  ...,  6.8331e-04,
+          1.0462e-03,  2.4986e-03],
+        [ 4.0245e-03, -1.1021e-04, -3.8457e-04,  ...,  9.3126e-04,
+          2.6913e-03, -3.1223e-03],
+        [-1.5511e-02,  1.3724e-05,  8.6129e-05,  ..., -3.8509e-03,
+         -1.0567e-02, -1.6891e-02],
+        ...,
+        [ 1.5993e-03, -1.2529e-04,  2.2984e-04,  ...,  7.6771e-04,
+          1.3971e-03,  5.0850e-03],
+        [-2.0332e-03,  1.2197e-03,  1.2016e-04,  ..., -1.1879e-04,
+          2.4021e-04, -1.7643e-03],
+        [ 4.0512e-03,  5.1785e-04,  3.4720e-05,  ...,  4.4227e-04,
+          2.5539e-03,  4.5090e-03]], device='cuda:0')
+Epoch 135, bias, value: tensor([ 0.0138, -0.0111, -0.0002, -0.0173,  0.0136, -0.0012, -0.0158, -0.0247,
+         0.0106, -0.0046], device='cuda:0'), grad: tensor([ 0.0143,  0.0013, -0.1035,  0.0276,  0.0288, -0.0522,  0.0309,  0.0309,
+        -0.0045,  0.0264], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 134, time 216.22, cls_loss 0.5361 cls_loss_mapping 0.0133 cls_loss_causal 0.5083 re_mapping 0.0098 re_causal 0.0254 /// teacc 98.62 lr 0.00010000
+Epoch 136, weight, value: tensor([[ 0.0156,  0.0717, -0.1195,  ..., -0.0681,  0.0529,  0.0074],
+        [-0.0624, -0.0924,  0.0620,  ..., -0.0309, -0.0901,  0.0502],
+        [-0.0555, -0.0290, -0.0804,  ..., -0.0971, -0.0291,  0.0346],
+        ...,
+        [-0.0183, -0.0601, -0.0788,  ..., -0.0899, -0.0067,  0.0524],
+        [-0.0878, -0.0784, -0.0739,  ..., -0.0458, -0.0416, -0.0699],
+        [ 0.0080, -0.0131, -0.0547,  ..., -0.0514,  0.0252, -0.0137]],
+       device='cuda:0'), grad: tensor([[ 8.2626e-03,  6.8207e-03,  1.0157e-03,  ...,  1.5678e-03,
+          6.1569e-03,  5.3749e-03],
+        [ 2.2945e-03,  1.6093e-04, -1.1116e-05,  ...,  1.5572e-05,
+          1.7557e-03, -1.7142e-04],
+        [ 3.1452e-03,  1.3485e-03,  1.8740e-04,  ...,  7.4029e-05,
+          2.3193e-03,  1.8244e-03],
+        ...,
+        [-2.1820e-03, -5.1641e-04,  3.4153e-05,  ...,  9.7156e-05,
+          2.7866e-03,  8.7678e-05],
+        [-5.5933e-04,  6.5231e-04,  2.1577e-04,  ...,  1.1283e-04,
+         -4.3182e-03, -1.0195e-03],
+        [-6.2904e-03, -9.6970e-03, -1.4896e-03,  ..., -2.1667e-03,
+         -5.4474e-03, -2.2068e-03]], device='cuda:0')
+Epoch 136, bias, value: tensor([ 0.0140, -0.0104, -0.0005, -0.0181,  0.0138, -0.0009, -0.0165, -0.0241,
+         0.0102, -0.0045], device='cuda:0'), grad: tensor([ 0.0589,  0.0098,  0.0159, -0.0073,  0.0255, -0.0356,  0.0120, -0.0099,
+        -0.0592, -0.0102], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 135, time 216.19, cls_loss 0.5576 cls_loss_mapping 0.0149 cls_loss_causal 0.5265 re_mapping 0.0090 re_causal 0.0235 /// teacc 98.71 lr 0.00010000
+Epoch 137, weight, value: tensor([[ 0.0147,  0.0715, -0.1204,  ..., -0.0675,  0.0526,  0.0068],
+        [-0.0623, -0.0929,  0.0618,  ..., -0.0320, -0.0907,  0.0506],
+        [-0.0542, -0.0284, -0.0802,  ..., -0.0984, -0.0281,  0.0356],
+        ...,
+        [-0.0191, -0.0620, -0.0805,  ..., -0.0920, -0.0077,  0.0521],
+        [-0.0885, -0.0791, -0.0749,  ..., -0.0463, -0.0427, -0.0715],
+        [ 0.0094, -0.0119, -0.0534,  ..., -0.0516,  0.0265, -0.0137]],
+       device='cuda:0'), grad: tensor([[-1.6565e-03, -2.7199e-03,  9.1195e-05,  ...,  2.7514e-04,
+         -1.0252e-03, -5.1832e-04],
+        [-3.2482e-03,  1.7202e-04, -4.0317e-04,  ..., -1.5125e-03,
+         -2.1896e-03, -1.7052e-03],
+        [ 2.5654e-03,  5.4312e-04,  3.3092e-04,  ...,  8.5068e-04,
+          2.0485e-03,  1.4238e-03],
+        ...,
+        [ 3.4275e-03,  2.7084e-04,  1.1510e-04,  ...,  2.1517e-04,
+          1.6451e-03,  1.4582e-03],
+        [ 3.7384e-04,  1.0881e-03,  4.3750e-04,  ...,  8.2302e-04,
+          4.2915e-05, -2.5826e-03],
+        [ 3.1033e-03,  8.4686e-04,  1.8513e-04,  ...,  3.3236e-04,
+          2.5444e-03,  2.1591e-03]], device='cuda:0')
+Epoch 137, bias, value: tensor([ 0.0128, -0.0095,  0.0004, -0.0182,  0.0131, -0.0013, -0.0160, -0.0245,
+         0.0100, -0.0037], device='cuda:0'), grad: tensor([-0.0264, -0.0108,  0.0254, -0.0412, -0.0057,  0.0186,  0.0206,  0.0224,
+        -0.0206,  0.0177], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 136, time 216.54, cls_loss 0.5567 cls_loss_mapping 0.0204 cls_loss_causal 0.5262 re_mapping 0.0097 re_causal 0.0241 /// teacc 98.46 lr 0.00010000
+Epoch 138, weight, value: tensor([[ 0.0148,  0.0716, -0.1213,  ..., -0.0676,  0.0522,  0.0082],
+        [-0.0616, -0.0931,  0.0622,  ..., -0.0322, -0.0901,  0.0497],
+        [-0.0553, -0.0285, -0.0811,  ..., -0.0988, -0.0283,  0.0363],
+        ...,
+        [-0.0196, -0.0629, -0.0809,  ..., -0.0906, -0.0078,  0.0518],
+        [-0.0888, -0.0792, -0.0740,  ..., -0.0461, -0.0437, -0.0721],
+        [ 0.0100, -0.0119, -0.0531,  ..., -0.0514,  0.0270, -0.0143]],
+       device='cuda:0'), grad: tensor([[-4.0970e-03, -4.1885e-03,  5.6550e-06,  ..., -8.1863e-03,
+         -1.1833e-02, -2.1477e-03],
+        [ 5.3215e-04, -8.3074e-06, -4.2987e-04,  ...,  4.4060e-04,
+          1.5602e-03,  9.2316e-04],
+        [ 6.8808e-04,  3.6669e-04,  7.3552e-05,  ...,  9.1076e-04,
+          2.5520e-03,  2.2602e-03],
+        ...,
+        [ 6.2037e-04,  1.5867e-04,  2.0400e-05,  ...,  2.6703e-04,
+          1.3456e-03,  1.1425e-03],
+        [ 8.2684e-04,  1.8120e-04,  1.9181e-04,  ...,  1.1616e-03,
+          2.0332e-03,  6.2513e-04],
+        [-5.4979e-04,  5.0545e-04, -9.7632e-05,  ...,  4.4703e-04,
+          7.4100e-04,  6.1226e-04]], device='cuda:0')
+Epoch 138, bias, value: tensor([ 0.0139, -0.0096, -0.0003, -0.0178,  0.0132, -0.0017, -0.0156, -0.0242,
+         0.0091, -0.0038], device='cuda:0'), grad: tensor([-0.0681,  0.0103,  0.0210, -0.0006,  0.0140, -0.0131,  0.0159,  0.0148,
+         0.0169, -0.0110], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 137, time 216.11, cls_loss 0.5654 cls_loss_mapping 0.0128 cls_loss_causal 0.5333 re_mapping 0.0105 re_causal 0.0276 /// teacc 98.75 lr 0.00010000
+Epoch 139, weight, value: tensor([[ 0.0148,  0.0725, -0.1216,  ..., -0.0671,  0.0531,  0.0091],
+        [-0.0618, -0.0932,  0.0615,  ..., -0.0321, -0.0894,  0.0498],
+        [-0.0563, -0.0281, -0.0801,  ..., -0.0992, -0.0298,  0.0355],
+        ...,
+        [-0.0198, -0.0645, -0.0807,  ..., -0.0918, -0.0095,  0.0519],
+        [-0.0888, -0.0793, -0.0751,  ..., -0.0457, -0.0440, -0.0726],
+        [ 0.0103, -0.0115, -0.0539,  ..., -0.0518,  0.0283, -0.0139]],
+       device='cuda:0'), grad: tensor([[ 2.3003e-03,  8.6927e-04,  1.6081e-04,  ...,  2.4986e-04,
+          1.2846e-03,  1.7118e-03],
+        [-1.0204e-03, -1.2150e-03, -6.2990e-04,  ..., -5.0879e-04,
+         -1.2293e-03, -1.0614e-03],
+        [ 1.5402e-03,  8.5545e-04,  3.6240e-04,  ...,  3.9053e-04,
+         -1.4362e-03, -7.8087e-03],
+        ...,
+        [-5.2595e-04,  9.6941e-04,  3.0065e-04,  ..., -1.4172e-03,
+          6.7997e-04,  9.3699e-04],
+        [ 2.7542e-03,  1.9207e-03,  9.5654e-04,  ...,  2.0657e-03,
+          2.2964e-03,  2.3479e-03],
+        [ 1.1002e-02,  1.1757e-02,  4.0855e-03,  ...,  2.0714e-03,
+          1.0201e-02, -4.9174e-05]], device='cuda:0')
+Epoch 139, bias, value: tensor([ 0.0145, -0.0092, -0.0013, -0.0182,  0.0141, -0.0015, -0.0163, -0.0249,
+         0.0089, -0.0030], device='cuda:0'), grad: tensor([ 0.0206, -0.0121,  0.0054,  0.0106, -0.1218,  0.0247,  0.0146, -0.0603,
+         0.0411,  0.0774], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 138, time 216.16, cls_loss 0.5405 cls_loss_mapping 0.0124 cls_loss_causal 0.5168 re_mapping 0.0098 re_causal 0.0267 /// teacc 98.59 lr 0.00010000
+Epoch 140, weight, value: tensor([[ 0.0142,  0.0732, -0.1231,  ..., -0.0676,  0.0526,  0.0087],
+        [-0.0618, -0.0936,  0.0623,  ..., -0.0320, -0.0891,  0.0502],
+        [-0.0567, -0.0298, -0.0815,  ..., -0.0997, -0.0302,  0.0367],
+        ...,
+        [-0.0189, -0.0644, -0.0807,  ..., -0.0913, -0.0084,  0.0523],
+        [-0.0879, -0.0788, -0.0754,  ..., -0.0457, -0.0436, -0.0731],
+        [ 0.0101, -0.0128, -0.0542,  ..., -0.0505,  0.0276, -0.0142]],
+       device='cuda:0'), grad: tensor([[-8.2922e-04, -3.5229e-03,  9.5189e-05,  ...,  8.1718e-05,
+          7.1168e-05, -4.4632e-03],
+        [ 9.9659e-04,  4.9263e-05, -6.1369e-04,  ..., -4.3678e-04,
+          5.1355e-04,  5.3024e-04],
+        [ 1.3103e-03,  4.5471e-03,  8.1873e-04,  ...,  6.7854e-04,
+          1.0300e-03,  3.4828e-03],
+        ...,
+        [-4.6921e-03,  7.8619e-05,  1.2100e-04,  ...,  1.1718e-04,
+         -2.6474e-03, -2.0046e-03],
+        [-1.0538e-03, -6.3019e-03, -5.8403e-03,  ..., -4.3154e-04,
+          1.8406e-04,  1.2693e-03],
+        [ 1.5793e-03,  1.2026e-03,  1.2426e-03,  ...,  9.6202e-05,
+          6.4278e-04,  1.2493e-03]], device='cuda:0')
+Epoch 140, bias, value: tensor([ 0.0147, -0.0086, -0.0007, -0.0183,  0.0133, -0.0015, -0.0169, -0.0246,
+         0.0089, -0.0032], device='cuda:0'), grad: tensor([-0.0318,  0.0057,  0.0361,  0.0127,  0.0131,  0.0289, -0.0243, -0.0438,
+        -0.0148,  0.0181], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 139, time 216.19, cls_loss 0.5521 cls_loss_mapping 0.0135 cls_loss_causal 0.5214 re_mapping 0.0097 re_causal 0.0262 /// teacc 98.63 lr 0.00010000
+Epoch 141, weight, value: tensor([[ 0.0150,  0.0727, -0.1247,  ..., -0.0670,  0.0531,  0.0095],
+        [-0.0614, -0.0945,  0.0629,  ..., -0.0333, -0.0890,  0.0506],
+        [-0.0564, -0.0312, -0.0823,  ..., -0.1022, -0.0300,  0.0368],
+        ...,
+        [-0.0193, -0.0643, -0.0798,  ..., -0.0911, -0.0088,  0.0526],
+        [-0.0885, -0.0769, -0.0760,  ..., -0.0459, -0.0452, -0.0736],
+        [ 0.0101, -0.0147, -0.0559,  ..., -0.0516,  0.0275, -0.0147]],
+       device='cuda:0'), grad: tensor([[ 3.3073e-03,  2.7752e-03,  3.2845e-03,  ..., -1.1545e-04,
+          2.0752e-03,  2.9602e-03],
+        [-1.5144e-03, -7.8440e-04, -1.5278e-03,  ..., -2.0542e-03,
+         -9.3603e-04, -1.6565e-03],
+        [-9.4461e-04,  3.3712e-04,  9.2924e-05,  ...,  9.6512e-04,
+         -5.0640e-04, -2.4104e-04],
+        ...,
+        [-1.3723e-03,  5.6362e-04,  1.0271e-03,  ...,  5.2786e-04,
+         -9.4986e-04, -6.2141e-03],
+        [ 2.9469e-03,  4.0970e-03,  4.1733e-03,  ...,  3.4122e-03,
+          1.4515e-03,  1.7824e-03],
+        [ 1.4887e-03,  1.0958e-03,  2.1496e-03,  ...,  1.1415e-03,
+          1.0004e-03,  1.8797e-03]], device='cuda:0')
+Epoch 141, bias, value: tensor([ 0.0155, -0.0083, -0.0006, -0.0190,  0.0125, -0.0023, -0.0161, -0.0245,
+         0.0090, -0.0030], device='cuda:0'), grad: tensor([ 0.0157, -0.0344, -0.0068, -0.0163, -0.0114, -0.0448,  0.0501, -0.0059,
+         0.0323,  0.0214], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 140, time 216.02, cls_loss 0.5831 cls_loss_mapping 0.0113 cls_loss_causal 0.5500 re_mapping 0.0094 re_causal 0.0255 /// teacc 98.68 lr 0.00010000
+Epoch 142, weight, value: tensor([[ 0.0168,  0.0723, -0.1265,  ..., -0.0683,  0.0536,  0.0093],
+        [-0.0621, -0.0948,  0.0638,  ..., -0.0324, -0.0897,  0.0495],
+        [-0.0574, -0.0322, -0.0839,  ..., -0.1028, -0.0292,  0.0375],
+        ...,
+        [-0.0197, -0.0648, -0.0777,  ..., -0.0904, -0.0103,  0.0523],
+        [-0.0891, -0.0769, -0.0770,  ..., -0.0464, -0.0459, -0.0730],
+        [ 0.0107, -0.0153, -0.0567,  ..., -0.0519,  0.0273, -0.0138]],
+       device='cuda:0'), grad: tensor([[ 1.0467e-04,  7.8869e-04, -1.6761e-04,  ..., -3.2878e-04,
+          4.9019e-04, -4.8161e-04],
+        [ 3.4165e-04,  1.9372e-04, -1.4949e-04,  ..., -3.2067e-04,
+          2.1019e-03,  1.7920e-03],
+        [ 2.2392e-03,  1.7490e-03,  9.8288e-05,  ...,  2.8586e-04,
+          2.4815e-03,  2.5940e-03],
+        ...,
+        [-1.8225e-03, -2.3060e-03,  1.9312e-04,  ...,  3.2520e-04,
+         -9.3613e-03, -1.6647e-02],
+        [-4.5991e-04,  1.0071e-03, -1.8620e-04,  ..., -2.1970e-04,
+         -2.0163e-07, -4.0102e-04],
+        [ 1.6632e-02,  3.5038e-03,  6.7520e-04,  ...,  3.0160e-04,
+          1.5129e-02,  1.2421e-02]], device='cuda:0')
+Epoch 142, bias, value: tensor([ 0.0158, -0.0093, -0.0004, -0.0174,  0.0125, -0.0026, -0.0171, -0.0242,
+         0.0088, -0.0031], device='cuda:0'), grad: tensor([-0.0019,  0.0060,  0.0284,  0.0223, -0.0834, -0.0112,  0.0200, -0.0578,
+        -0.0051,  0.0826], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 141, time 216.78, cls_loss 0.5478 cls_loss_mapping 0.0131 cls_loss_causal 0.5163 re_mapping 0.0091 re_causal 0.0235 /// teacc 98.46 lr 0.00010000
+Epoch 143, weight, value: tensor([[ 0.0163,  0.0727, -0.1262,  ..., -0.0694,  0.0536,  0.0105],
+        [-0.0630, -0.0952,  0.0638,  ..., -0.0303, -0.0905,  0.0491],
+        [-0.0566, -0.0321, -0.0847,  ..., -0.1021, -0.0281,  0.0369],
+        ...,
+        [-0.0175, -0.0654, -0.0781,  ..., -0.0921, -0.0102,  0.0539],
+        [-0.0898, -0.0773, -0.0769,  ..., -0.0467, -0.0459, -0.0738],
+        [ 0.0099, -0.0146, -0.0552,  ..., -0.0501,  0.0273, -0.0147]],
+       device='cuda:0'), grad: tensor([[-0.0100, -0.0012,  0.0002,  ...,  0.0004, -0.0087, -0.0043],
+        [-0.0025, -0.0006, -0.0012,  ..., -0.0018, -0.0029, -0.0044],
+        [ 0.0015,  0.0019,  0.0003,  ...,  0.0012,  0.0015,  0.0014],
+        ...,
+        [ 0.0022,  0.0008,  0.0009,  ...,  0.0006,  0.0022,  0.0018],
+        [ 0.0010,  0.0032,  0.0003,  ...,  0.0020,  0.0011,  0.0007],
+        [ 0.0010,  0.0002,  0.0001,  ...,  0.0002,  0.0009,  0.0008]],
+       device='cuda:0')
+Epoch 143, bias, value: tensor([ 0.0160, -0.0091, -0.0003, -0.0180,  0.0126, -0.0027, -0.0174, -0.0233,
+         0.0084, -0.0032], device='cuda:0'), grad: tensor([-0.0229, -0.0508,  0.0126,  0.0058,  0.0109,  0.0058,  0.0061,  0.0159,
+         0.0095,  0.0069], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 142, time 217.87, cls_loss 0.5517 cls_loss_mapping 0.0130 cls_loss_causal 0.5177 re_mapping 0.0098 re_causal 0.0253 /// teacc 98.70 lr 0.00010000
+Epoch 144, weight, value: tensor([[ 0.0160,  0.0723, -0.1258,  ..., -0.0702,  0.0527,  0.0111],
+        [-0.0627, -0.0937,  0.0639,  ..., -0.0296, -0.0897,  0.0495],
+        [-0.0567, -0.0325, -0.0857,  ..., -0.1018, -0.0277,  0.0369],
+        ...,
+        [-0.0184, -0.0655, -0.0786,  ..., -0.0934, -0.0110,  0.0527],
+        [-0.0887, -0.0782, -0.0765,  ..., -0.0467, -0.0449, -0.0737],
+        [ 0.0107, -0.0142, -0.0551,  ..., -0.0503,  0.0276, -0.0142]],
+       device='cuda:0'), grad: tensor([[ 1.2417e-03,  2.3711e-04,  1.5765e-05,  ...,  2.0254e-04,
+          1.1282e-03,  1.0891e-03],
+        [ 1.0157e-03,  2.0540e-04, -2.1338e-04,  ...,  5.5671e-05,
+          1.0796e-03,  7.5293e-04],
+        [ 7.9966e-04,  2.3139e-04,  4.1604e-05,  ...,  5.8264e-05,
+          7.6199e-04,  2.0294e-03],
+        ...,
+        [-5.1785e-04,  5.4216e-04,  1.1843e-04,  ...,  7.4506e-05,
+         -2.0599e-03, -2.0618e-03],
+        [ 1.4849e-03,  4.4155e-04,  1.1331e-04,  ...,  2.4295e-04,
+          1.0452e-03,  8.5258e-04],
+        [ 1.1702e-03,  1.0443e-03, -4.1902e-05,  ...,  1.4782e-04,
+          2.1267e-03,  1.8587e-03]], device='cuda:0')
+Epoch 144, bias, value: tensor([ 0.0162, -0.0082, -0.0006, -0.0180,  0.0128, -0.0024, -0.0183, -0.0242,
+         0.0087, -0.0030], device='cuda:0'), grad: tensor([ 0.0095,  0.0084,  0.0087,  0.0105, -0.0160, -0.0312,  0.0068, -0.0211,
+         0.0098,  0.0146], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 143, time 217.54, cls_loss 0.5662 cls_loss_mapping 0.0135 cls_loss_causal 0.5280 re_mapping 0.0090 re_causal 0.0233 /// teacc 98.61 lr 0.00010000
+Epoch 145, weight, value: tensor([[ 0.0153,  0.0738, -0.1258,  ..., -0.0706,  0.0529,  0.0096],
+        [-0.0629, -0.0932,  0.0648,  ..., -0.0276, -0.0906,  0.0495],
+        [-0.0569, -0.0326, -0.0859,  ..., -0.1026, -0.0272,  0.0375],
+        ...,
+        [-0.0184, -0.0673, -0.0798,  ..., -0.0953, -0.0125,  0.0531],
+        [-0.0895, -0.0786, -0.0783,  ..., -0.0470, -0.0445, -0.0732],
+        [ 0.0117, -0.0145, -0.0552,  ..., -0.0492,  0.0280, -0.0142]],
+       device='cuda:0'), grad: tensor([[-1.1463e-03, -9.5367e-03, -1.1902e-03,  ..., -7.0477e-04,
+         -3.9029e-04,  6.9189e-04],
+        [-8.1539e-05, -1.6594e-03, -6.3944e-04,  ..., -2.2907e-03,
+          2.3003e-03,  9.0218e-04],
+        [ 5.7526e-03,  9.1934e-04,  2.0862e-04,  ...,  8.7214e-04,
+          7.2708e-03,  3.4428e-03],
+        ...,
+        [ 3.6278e-03,  6.2847e-04,  2.2328e-04,  ...,  6.0797e-04,
+          3.5782e-03,  1.2655e-03],
+        [ 7.2956e-05,  1.0712e-02,  6.8703e-03,  ...,  2.0390e-03,
+          1.7121e-05, -2.2335e-03],
+        [-3.4389e-03,  1.3437e-03,  1.3041e-04,  ..., -5.7697e-04,
+         -3.9101e-03, -1.3387e-04]], device='cuda:0')
+Epoch 145, bias, value: tensor([ 0.0150, -0.0083, -0.0010, -0.0182,  0.0125, -0.0022, -0.0181, -0.0245,
+         0.0090, -0.0015], device='cuda:0'), grad: tensor([-0.0029, -0.0099,  0.0477, -0.0151, -0.0213, -0.0577,  0.0270,  0.0287,
+         0.0216, -0.0181], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 144, time 219.45, cls_loss 0.5503 cls_loss_mapping 0.0139 cls_loss_causal 0.5195 re_mapping 0.0093 re_causal 0.0243 /// teacc 98.62 lr 0.00010000
+Epoch 146, weight, value: tensor([[ 0.0156,  0.0735, -0.1269,  ..., -0.0715,  0.0530,  0.0086],
+        [-0.0635, -0.0930,  0.0656,  ..., -0.0284, -0.0904,  0.0488],
+        [-0.0576, -0.0324, -0.0870,  ..., -0.1040, -0.0271,  0.0379],
+        ...,
+        [-0.0178, -0.0659, -0.0799,  ..., -0.0948, -0.0120,  0.0528],
+        [-0.0900, -0.0791, -0.0779,  ..., -0.0477, -0.0445, -0.0723],
+        [ 0.0125, -0.0138, -0.0545,  ..., -0.0489,  0.0277, -0.0143]],
+       device='cuda:0'), grad: tensor([[ 2.4986e-04, -8.3590e-04,  7.5006e-04,  ...,  3.9995e-05,
+         -5.1994e-03,  3.9315e-04],
+        [ 1.1120e-03,  7.2746e-03,  6.8893e-03,  ...,  1.0780e-02,
+          2.0275e-03,  2.4166e-03],
+        [ 2.1577e-04,  1.1247e-04,  5.2834e-04,  ...,  4.2766e-05,
+          5.7268e-04,  1.5121e-02],
+        ...,
+        [ 1.1854e-03,  5.0163e-04,  1.0214e-03,  ...,  2.2531e-04,
+          3.1338e-03, -1.4046e-02],
+        [-1.8919e-04,  3.7270e-03,  6.2103e-03,  ...,  8.9979e-04,
+          3.8261e-03,  4.5180e-04],
+        [ 2.7466e-04,  7.3767e-04,  9.2220e-04,  ...,  2.2769e-04,
+          2.6035e-03,  4.5347e-04]], device='cuda:0')
+Epoch 146, bias, value: tensor([ 0.0148, -0.0090, -0.0011, -0.0176,  0.0113, -0.0021, -0.0157, -0.0247,
+         0.0082, -0.0012], device='cuda:0'), grad: tensor([-0.0055,  0.0339,  0.0169, -0.0131, -0.0151, -0.0280, -0.0246,  0.0020,
+         0.0230,  0.0105], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 145, time 217.41, cls_loss 0.5395 cls_loss_mapping 0.0093 cls_loss_causal 0.5110 re_mapping 0.0093 re_causal 0.0244 /// teacc 98.65 lr 0.00010000
+Epoch 147, weight, value: tensor([[ 0.0158,  0.0733, -0.1289,  ..., -0.0724,  0.0533,  0.0078],
+        [-0.0635, -0.0936,  0.0665,  ..., -0.0280, -0.0904,  0.0496],
+        [-0.0579, -0.0331, -0.0879,  ..., -0.1038, -0.0273,  0.0382],
+        ...,
+        [-0.0173, -0.0663, -0.0816,  ..., -0.0947, -0.0118,  0.0530],
+        [-0.0909, -0.0793, -0.0787,  ..., -0.0493, -0.0453, -0.0725],
+        [ 0.0120, -0.0143, -0.0539,  ..., -0.0487,  0.0270, -0.0138]],
+       device='cuda:0'), grad: tensor([[ 2.1152e-03,  5.8556e-04,  4.5300e-04,  ...,  6.9571e-04,
+          1.3027e-03,  1.8463e-03],
+        [-1.5068e-03,  2.2471e-04, -2.6131e-03,  ...,  3.7575e-04,
+         -6.0701e-04,  7.9422e-03],
+        [ 3.0823e-03, -9.4175e-04, -2.2106e-03,  ...,  1.0424e-03,
+          2.6531e-03,  2.6073e-03],
+        ...,
+        [ 1.0462e-03,  2.1350e-04,  8.4209e-04,  ...,  3.7265e-04,
+          7.5102e-04, -1.1574e-02],
+        [ 7.8154e-04,  2.0087e-04,  6.0177e-04,  ...,  3.0756e-04,
+         -5.0545e-03, -6.9916e-05],
+        [-5.3167e-04,  1.1730e-04, -2.0969e-04,  ..., -6.7139e-04,
+          1.3542e-03,  1.6565e-03]], device='cuda:0')
+Epoch 147, bias, value: tensor([ 0.0142, -0.0087, -0.0009, -0.0179,  0.0104, -0.0019, -0.0153, -0.0240,
+         0.0074, -0.0005], device='cuda:0'), grad: tensor([ 0.0173,  0.0092,  0.0176,  0.0249, -0.0462, -0.0152,  0.0244, -0.0188,
+        -0.0123, -0.0009], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 146, time 219.15, cls_loss 0.5510 cls_loss_mapping 0.0098 cls_loss_causal 0.5193 re_mapping 0.0092 re_causal 0.0236 /// teacc 98.63 lr 0.00010000
+Epoch 148, weight, value: tensor([[ 0.0163,  0.0738, -0.1286,  ..., -0.0717,  0.0534,  0.0069],
+        [-0.0642, -0.0924,  0.0681,  ..., -0.0264, -0.0912,  0.0494],
+        [-0.0574, -0.0332, -0.0890,  ..., -0.1040, -0.0267,  0.0392],
+        ...,
+        [-0.0181, -0.0668, -0.0823,  ..., -0.0936, -0.0122,  0.0532],
+        [-0.0904, -0.0797, -0.0786,  ..., -0.0498, -0.0448, -0.0720],
+        [ 0.0118, -0.0147, -0.0534,  ..., -0.0497,  0.0264, -0.0135]],
+       device='cuda:0'), grad: tensor([[ 1.8816e-03,  1.8370e-04, -1.3196e-04,  ...,  2.7866e-03,
+          6.7091e-04,  1.0757e-03],
+        [ 1.5335e-03,  1.2763e-05,  4.8351e-04,  ...,  6.2418e-04,
+          6.6328e-04,  1.8110e-03],
+        [ 1.5049e-03,  4.6802e-04,  4.9973e-04,  ...,  1.4629e-03,
+          7.7438e-04,  5.1460e-03],
+        ...,
+        [-1.8835e-03,  2.3991e-05, -1.8287e-04,  ..., -4.1318e-04,
+         -8.0395e-04, -3.2520e-04],
+        [ 5.4741e-04, -1.0061e-03, -4.6659e-04,  ...,  1.0071e-03,
+          2.0659e-04, -4.7302e-03],
+        [ 2.8172e-03,  9.4235e-05,  7.1239e-04,  ...,  9.0790e-04,
+          1.0872e-03,  1.4410e-03]], device='cuda:0')
+Epoch 148, bias, value: tensor([ 0.0145, -0.0088, -0.0003, -0.0185,  0.0100, -0.0018, -0.0154, -0.0250,
+         0.0081,  0.0001], device='cuda:0'), grad: tensor([ 0.0099,  0.0117,  0.0222, -0.0196, -0.0064,  0.0099, -0.0306, -0.0184,
+         0.0026,  0.0186], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 147, time 218.16, cls_loss 0.5595 cls_loss_mapping 0.0123 cls_loss_causal 0.5348 re_mapping 0.0091 re_causal 0.0237 /// teacc 98.64 lr 0.00010000
+Epoch 149, weight, value: tensor([[ 0.0167,  0.0743, -0.1293,  ..., -0.0708,  0.0534,  0.0066],
+        [-0.0656, -0.0931,  0.0680,  ..., -0.0264, -0.0911,  0.0491],
+        [-0.0568, -0.0335, -0.0881,  ..., -0.1041, -0.0268,  0.0390],
+        ...,
+        [-0.0182, -0.0674, -0.0829,  ..., -0.0938, -0.0120,  0.0536],
+        [-0.0903, -0.0786, -0.0777,  ..., -0.0493, -0.0457, -0.0716],
+        [ 0.0114, -0.0146, -0.0544,  ..., -0.0505,  0.0260, -0.0149]],
+       device='cuda:0'), grad: tensor([[ 0.0022,  0.0016,  0.0008,  ...,  0.0020, -0.0014,  0.0017],
+        [-0.0060, -0.0005, -0.0004,  ..., -0.0005, -0.0064, -0.0049],
+        [-0.0033, -0.0010, -0.0007,  ..., -0.0012, -0.0014, -0.0026],
+        ...,
+        [ 0.0020,  0.0008,  0.0005,  ...,  0.0007,  0.0016,  0.0009],
+        [ 0.0028,  0.0017,  0.0009,  ...,  0.0018,  0.0021,  0.0014],
+        [-0.0015, -0.0017,  0.0002,  ..., -0.0045,  0.0004, -0.0007]],
+       device='cuda:0')
+Epoch 149, bias, value: tensor([ 0.0148, -0.0093, -0.0004, -0.0182,  0.0112, -0.0022, -0.0158, -0.0250,
+         0.0084, -0.0007], device='cuda:0'), grad: tensor([ 0.0243, -0.0434, -0.0363, -0.0088,  0.0092,  0.0203,  0.0151,  0.0189,
+         0.0267, -0.0259], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 148, time 218.28, cls_loss 0.5444 cls_loss_mapping 0.0112 cls_loss_causal 0.5083 re_mapping 0.0091 re_causal 0.0233 /// teacc 98.61 lr 0.00010000
+Epoch 150, weight, value: tensor([[ 0.0167,  0.0741, -0.1290,  ..., -0.0718,  0.0541,  0.0061],
+        [-0.0652, -0.0915,  0.0692,  ..., -0.0259, -0.0917,  0.0497],
+        [-0.0566, -0.0347, -0.0902,  ..., -0.1038, -0.0267,  0.0392],
+        ...,
+        [-0.0178, -0.0674, -0.0820,  ..., -0.0926, -0.0108,  0.0531],
+        [-0.0909, -0.0776, -0.0776,  ..., -0.0490, -0.0466, -0.0709],
+        [ 0.0121, -0.0136, -0.0558,  ..., -0.0511,  0.0264, -0.0154]],
+       device='cuda:0'), grad: tensor([[-1.7357e-03, -1.6022e-03, -1.2932e-03,  ..., -6.4373e-05,
+         -1.5316e-03, -2.1667e-03],
+        [ 2.7065e-03,  4.4298e-04,  2.1005e-04,  ...,  5.0211e-04,
+          1.1778e-03, -2.0361e-04],
+        [ 3.4504e-03,  2.4109e-03,  1.3647e-03,  ...,  9.5892e-04,
+          3.2043e-03,  3.2673e-03],
+        ...,
+        [ 1.1272e-03, -1.7071e-03,  8.3447e-04,  ..., -1.8024e-03,
+          4.1723e-04, -8.2016e-04],
+        [-2.3994e-03,  1.6699e-03,  5.4264e-04,  ...,  1.6670e-03,
+         -3.7980e-04, -4.1351e-03],
+        [-1.3107e-02, -9.3937e-04, -4.5128e-03,  ..., -1.4172e-03,
+         -1.0193e-02, -2.7090e-05]], device='cuda:0')
+Epoch 150, bias, value: tensor([ 0.0145, -0.0078, -0.0007, -0.0188,  0.0102, -0.0023, -0.0157, -0.0242,
+         0.0088, -0.0011], device='cuda:0'), grad: tensor([-0.0050,  0.0171,  0.0369,  0.0328,  0.0240,  0.0123, -0.0055, -0.0214,
+        -0.0227, -0.0685], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 149, time 217.93, cls_loss 0.5573 cls_loss_mapping 0.0124 cls_loss_causal 0.5282 re_mapping 0.0090 re_causal 0.0233 /// teacc 98.71 lr 0.00010000
+Epoch 151, weight, value: tensor([[ 0.0161,  0.0750, -0.1306,  ..., -0.0720,  0.0539,  0.0052],
+        [-0.0663, -0.0917,  0.0705,  ..., -0.0253, -0.0925,  0.0494],
+        [-0.0565, -0.0357, -0.0915,  ..., -0.1040, -0.0270,  0.0390],
+        ...,
+        [-0.0161, -0.0681, -0.0811,  ..., -0.0930, -0.0103,  0.0540],
+        [-0.0913, -0.0795, -0.0791,  ..., -0.0508, -0.0469, -0.0708],
+        [ 0.0124, -0.0129, -0.0549,  ..., -0.0522,  0.0267, -0.0135]],
+       device='cuda:0'), grad: tensor([[-1.1765e-02, -1.2465e-03, -6.8474e-03,  ..., -2.0466e-03,
+         -5.5161e-03, -4.2763e-03],
+        [ 1.1272e-03, -1.5914e-05,  1.1969e-03,  ..., -5.5161e-03,
+          6.6948e-04, -2.8744e-03],
+        [-1.4172e-03, -3.4779e-05, -2.5973e-05,  ...,  7.6580e-04,
+          3.3188e-04, -2.5024e-03],
+        ...,
+        [-1.1168e-03,  5.8317e-04, -5.1804e-03,  ..., -8.4972e-04,
+          3.7813e-04, -2.1248e-03],
+        [ 3.3875e-03,  7.3767e-04,  2.5864e-03,  ...,  1.9436e-03,
+          1.2188e-03,  4.7874e-03],
+        [ 3.6602e-03,  5.5313e-04,  1.7252e-03,  ...,  1.4486e-03,
+          1.0862e-03,  3.3684e-03]], device='cuda:0')
+Epoch 151, bias, value: tensor([ 0.0141, -0.0077, -0.0001, -0.0191,  0.0099, -0.0026, -0.0151, -0.0241,
+         0.0081, -0.0007], device='cuda:0'), grad: tensor([-0.0757, -0.0203, -0.0037, -0.0120,  0.0022,  0.0259,  0.0418, -0.0055,
+         0.0334,  0.0139], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 150, time 217.53, cls_loss 0.5416 cls_loss_mapping 0.0096 cls_loss_causal 0.5114 re_mapping 0.0097 re_causal 0.0254 /// teacc 98.57 lr 0.00010000
+Epoch 152, weight, value: tensor([[ 0.0171,  0.0751, -0.1301,  ..., -0.0719,  0.0539,  0.0050],
+        [-0.0656, -0.0901,  0.0721,  ..., -0.0249, -0.0917,  0.0500],
+        [-0.0562, -0.0346, -0.0911,  ..., -0.1042, -0.0254,  0.0393],
+        ...,
+        [-0.0170, -0.0687, -0.0815,  ..., -0.0929, -0.0121,  0.0534],
+        [-0.0913, -0.0797, -0.0798,  ..., -0.0507, -0.0466, -0.0706],
+        [ 0.0121, -0.0136, -0.0556,  ..., -0.0533,  0.0269, -0.0138]],
+       device='cuda:0'), grad: tensor([[-5.2986e-03, -3.2120e-03,  2.0564e-04,  ...,  2.8133e-04,
+         -2.8019e-03, -5.4321e-03],
+        [-1.5211e-03,  9.2983e-05,  1.3227e-03,  ...,  3.5787e-04,
+         -2.7199e-03, -6.2132e-04],
+        [ 1.6232e-03,  7.2336e-04, -5.7564e-03,  ..., -6.4774e-03,
+          2.6588e-03,  2.1477e-03],
+        ...,
+        [-8.1587e-04,  9.1136e-05, -4.4167e-05,  ...,  1.5402e-04,
+         -1.3542e-04, -2.5520e-03],
+        [ 1.7290e-03,  4.1175e-04,  1.0796e-03,  ...,  1.2722e-03,
+          1.2579e-03,  2.2125e-03],
+        [ 1.7633e-03,  2.1887e-04,  2.4045e-04,  ...,  2.7633e-04,
+          1.0614e-03,  2.2144e-03]], device='cuda:0')
+Epoch 152, bias, value: tensor([ 0.0145, -0.0070,  0.0005, -0.0204,  0.0108, -0.0027, -0.0152, -0.0243,
+         0.0074, -0.0008], device='cuda:0'), grad: tensor([-0.0422, -0.0019,  0.0044, -0.0170, -0.0064,  0.0174,  0.0219, -0.0151,
+         0.0225,  0.0164], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 151, time 218.63, cls_loss 0.5691 cls_loss_mapping 0.0112 cls_loss_causal 0.5426 re_mapping 0.0090 re_causal 0.0232 /// teacc 98.41 lr 0.00010000
+Epoch 153, weight, value: tensor([[ 0.0171,  0.0743, -0.1308,  ..., -0.0726,  0.0539,  0.0056],
+        [-0.0663, -0.0903,  0.0714,  ..., -0.0244, -0.0899,  0.0499],
+        [-0.0572, -0.0348, -0.0911,  ..., -0.1053, -0.0267,  0.0396],
+        ...,
+        [-0.0179, -0.0693, -0.0820,  ..., -0.0932, -0.0125,  0.0535],
+        [-0.0910, -0.0794, -0.0785,  ..., -0.0500, -0.0472, -0.0708],
+        [ 0.0124, -0.0136, -0.0553,  ..., -0.0536,  0.0267, -0.0141]],
+       device='cuda:0'), grad: tensor([[-1.2693e-03, -8.4043e-06, -6.0415e-04,  ..., -9.5272e-04,
+         -4.2295e-04, -9.1314e-04],
+        [ 3.1338e-03,  2.9945e-03,  2.3289e-03,  ...,  1.7490e-03,
+          2.3956e-03,  3.7174e-03],
+        [-3.1924e-04,  1.2465e-03,  7.8249e-04,  ...,  6.7329e-04,
+          7.5436e-04,  1.7385e-03],
+        ...,
+        [ 2.2736e-03,  3.8743e-04,  1.6270e-03,  ...,  2.6417e-04,
+          3.6240e-04,  2.3499e-03],
+        [ 1.7414e-03,  1.3733e-03,  1.2388e-03,  ...,  7.5531e-04,
+          1.3580e-03,  1.5659e-03],
+        [ 2.3384e-03,  1.2779e-03,  8.3113e-04,  ...,  5.0545e-04,
+          2.2373e-03,  2.4509e-03]], device='cuda:0')
+Epoch 153, bias, value: tensor([ 0.0148, -0.0076, -0.0004, -0.0194,  0.0125, -0.0025, -0.0154, -0.0252,
+         0.0071, -0.0009], device='cuda:0'), grad: tensor([-0.0095,  0.0527, -0.0063, -0.0701,  0.0298, -0.0340, -0.0220,  0.0308,
+         0.0287, -0.0002], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 152, time 217.33, cls_loss 0.5607 cls_loss_mapping 0.0106 cls_loss_causal 0.5209 re_mapping 0.0090 re_causal 0.0228 /// teacc 98.40 lr 0.00010000
+Epoch 154, weight, value: tensor([[ 0.0167,  0.0745, -0.1309,  ..., -0.0722,  0.0541,  0.0054],
+        [-0.0664, -0.0907,  0.0716,  ..., -0.0250, -0.0897,  0.0500],
+        [-0.0573, -0.0351, -0.0913,  ..., -0.1053, -0.0271,  0.0392],
+        ...,
+        [-0.0166, -0.0684, -0.0829,  ..., -0.0933, -0.0118,  0.0534],
+        [-0.0909, -0.0792, -0.0782,  ..., -0.0495, -0.0479, -0.0722],
+        [ 0.0113, -0.0144, -0.0546,  ..., -0.0550,  0.0265, -0.0145]],
+       device='cuda:0'), grad: tensor([[ 5.5695e-03, -7.9155e-05,  4.1962e-04,  ...,  4.9210e-04,
+          2.0676e-03, -1.9894e-03],
+        [ 4.0474e-03, -2.0933e-04, -1.6928e-03,  ...,  4.2653e-04,
+          1.8654e-03,  4.1656e-03],
+        [-4.1656e-03, -4.4584e-04, -4.3750e-04,  ..., -3.2973e-04,
+         -2.7790e-03, -1.1816e-03],
+        ...,
+        [-1.0414e-02, -3.7174e-03, -3.0766e-03,  ..., -1.5144e-03,
+         -7.1793e-03, -7.7858e-03],
+        [-2.3766e-03,  6.7854e-04,  6.6090e-04,  ...,  2.4056e-04,
+          6.4659e-04, -9.4223e-03],
+        [-1.4629e-03, -2.3270e-04, -1.7262e-03,  ..., -1.7529e-03,
+         -8.7738e-04,  6.7616e-04]], device='cuda:0')
+Epoch 154, bias, value: tensor([ 1.5274e-02, -8.6273e-03, -7.5855e-05, -1.9340e-02,  1.2457e-02,
+        -1.7459e-03, -1.4180e-02, -2.5467e-02,  6.4565e-03, -1.6352e-03],
+       device='cuda:0'), grad: tensor([ 0.0112, -0.0090, -0.0222,  0.0331,  0.0549,  0.0388,  0.0120, -0.0452,
+        -0.0417, -0.0318], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 153, time 219.40, cls_loss 0.5585 cls_loss_mapping 0.0099 cls_loss_causal 0.5266 re_mapping 0.0093 re_causal 0.0244 /// teacc 98.46 lr 0.00010000
+Epoch 155, weight, value: tensor([[ 0.0176,  0.0744, -0.1322,  ..., -0.0728,  0.0547,  0.0055],
+        [-0.0666, -0.0910,  0.0715,  ..., -0.0254, -0.0901,  0.0502],
+        [-0.0584, -0.0348, -0.0911,  ..., -0.1057, -0.0284,  0.0390],
+        ...,
+        [-0.0161, -0.0681, -0.0835,  ..., -0.0940, -0.0119,  0.0532],
+        [-0.0905, -0.0800, -0.0783,  ..., -0.0511, -0.0470, -0.0707],
+        [ 0.0112, -0.0151, -0.0538,  ..., -0.0539,  0.0257, -0.0149]],
+       device='cuda:0'), grad: tensor([[ 0.0009, -0.0001,  0.0004,  ...,  0.0006,  0.0001,  0.0011],
+        [ 0.0015,  0.0004,  0.0010,  ...,  0.0005,  0.0010,  0.0021],
+        [-0.0015,  0.0007, -0.0028,  ..., -0.0035, -0.0009, -0.0054],
+        ...,
+        [ 0.0034,  0.0006,  0.0003,  ...,  0.0001,  0.0007,  0.0023],
+        [ 0.0002,  0.0004, -0.0020,  ...,  0.0027, -0.0020,  0.0011],
+        [ 0.0021,  0.0005,  0.0001,  ...,  0.0001,  0.0013,  0.0011]],
+       device='cuda:0')
+Epoch 155, bias, value: tensor([ 0.0147, -0.0081, -0.0007, -0.0182,  0.0124, -0.0034, -0.0139, -0.0248,
+         0.0077, -0.0028], device='cuda:0'), grad: tensor([ 0.0154,  0.0304, -0.0741,  0.0068, -0.0133,  0.0148, -0.0135,  0.0240,
+        -0.0056,  0.0152], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 154, time 215.98, cls_loss 0.5756 cls_loss_mapping 0.0099 cls_loss_causal 0.5454 re_mapping 0.0088 re_causal 0.0244 /// teacc 98.68 lr 0.00010000
+Epoch 156, weight, value: tensor([[ 0.0186,  0.0752, -0.1319,  ..., -0.0732,  0.0550,  0.0052],
+        [-0.0665, -0.0905,  0.0718,  ..., -0.0249, -0.0904,  0.0499],
+        [-0.0589, -0.0350, -0.0916,  ..., -0.1059, -0.0283,  0.0397],
+        ...,
+        [-0.0153, -0.0694, -0.0836,  ..., -0.0925, -0.0116,  0.0531],
+        [-0.0920, -0.0816, -0.0785,  ..., -0.0516, -0.0487, -0.0717],
+        [ 0.0111, -0.0146, -0.0544,  ..., -0.0537,  0.0266, -0.0140]],
+       device='cuda:0'), grad: tensor([[ 8.7261e-04, -4.1753e-05,  8.1491e-07,  ..., -1.3189e-03,
+         -6.5279e-04,  3.0117e-03],
+        [-1.6575e-03,  3.0905e-05,  1.5525e-06,  ...,  1.6344e-04,
+         -1.7214e-03, -4.3068e-03],
+        [ 1.5011e-03,  1.8368e-03,  6.3539e-05,  ...,  1.3504e-03,
+          6.6710e-04,  4.9934e-03],
+        ...,
+        [-1.6556e-03, -9.8801e-04,  3.8967e-06,  ...,  1.4806e-04,
+          3.1109e-03, -3.9101e-03],
+        [ 8.6880e-04,  4.3035e-04,  2.3797e-05,  ...,  2.5439e-04,
+          6.2370e-04,  1.6928e-03],
+        [ 8.0729e-04,  2.6178e-04,  2.1663e-06,  ...,  6.0797e-05,
+         -4.0817e-03,  1.5144e-03]], device='cuda:0')
+Epoch 156, bias, value: tensor([ 0.0145, -0.0077, -0.0004, -0.0182,  0.0116, -0.0032, -0.0134, -0.0250,
+         0.0074, -0.0027], device='cuda:0'), grad: tensor([ 0.0114, -0.0217,  0.0301,  0.0048,  0.0129, -0.0149, -0.0125, -0.0344,
+         0.0157,  0.0085], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 155, time 216.48, cls_loss 0.5468 cls_loss_mapping 0.0133 cls_loss_causal 0.5190 re_mapping 0.0087 re_causal 0.0234 /// teacc 98.77 lr 0.00010000
+Epoch 157, weight, value: tensor([[ 0.0187,  0.0750, -0.1330,  ..., -0.0734,  0.0542,  0.0061],
+        [-0.0659, -0.0904,  0.0722,  ..., -0.0259, -0.0897,  0.0499],
+        [-0.0587, -0.0352, -0.0923,  ..., -0.1044, -0.0287,  0.0404],
+        ...,
+        [-0.0153, -0.0703, -0.0834,  ..., -0.0926, -0.0119,  0.0533],
+        [-0.0911, -0.0811, -0.0792,  ..., -0.0518, -0.0481, -0.0725],
+        [ 0.0109, -0.0144, -0.0530,  ..., -0.0532,  0.0262, -0.0138]],
+       device='cuda:0'), grad: tensor([[-3.2616e-04,  2.8343e-03,  1.7121e-05,  ...,  8.5354e-04,
+          8.4972e-04, -8.4639e-04],
+        [ 1.4029e-03,  2.4164e-04,  3.4392e-05,  ...,  4.2558e-04,
+          9.5129e-04,  3.1834e-03],
+        [ 1.3752e-03,  3.0556e-03, -2.3258e-04,  ...,  3.1853e-04,
+          1.6050e-03,  3.9101e-03],
+        ...,
+        [-9.0408e-03,  1.0319e-03,  7.0810e-05,  ...,  2.4164e-04,
+         -2.6722e-03,  8.8644e-04],
+        [ 2.8629e-03,  1.2856e-03,  9.0361e-05,  ...,  1.3351e-03,
+          2.5940e-03,  1.0004e-03],
+        [-6.1607e-04,  1.5461e-04,  3.6925e-05,  ...,  6.7091e-04,
+         -5.4026e-04, -3.9053e-04]], device='cuda:0')
+Epoch 157, bias, value: tensor([ 0.0142, -0.0077, -0.0005, -0.0184,  0.0118, -0.0039, -0.0137, -0.0250,
+         0.0082, -0.0022], device='cuda:0'), grad: tensor([-0.0051,  0.0247,  0.0401, -0.0036, -0.0264,  0.0167, -0.0254, -0.0172,
+         0.0210, -0.0248], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 156, time 216.09, cls_loss 0.5179 cls_loss_mapping 0.0095 cls_loss_causal 0.4936 re_mapping 0.0088 re_causal 0.0234 /// teacc 98.68 lr 0.00010000
+Epoch 158, weight, value: tensor([[ 0.0187,  0.0753, -0.1328,  ..., -0.0741,  0.0544,  0.0069],
+        [-0.0668, -0.0896,  0.0720,  ..., -0.0265, -0.0891,  0.0495],
+        [-0.0576, -0.0356, -0.0911,  ..., -0.1037, -0.0281,  0.0414],
+        ...,
+        [-0.0155, -0.0706, -0.0840,  ..., -0.0931, -0.0120,  0.0532],
+        [-0.0915, -0.0819, -0.0796,  ..., -0.0514, -0.0495, -0.0732],
+        [ 0.0113, -0.0133, -0.0529,  ..., -0.0526,  0.0264, -0.0130]],
+       device='cuda:0'), grad: tensor([[-7.9870e-04, -1.1559e-03,  8.0615e-06,  ..., -4.5586e-03,
+          5.3215e-04, -3.0499e-03],
+        [ 1.4639e-03,  5.9605e-05,  1.3625e-06,  ...,  1.8990e-04,
+          8.8978e-04,  2.3365e-03],
+        [ 9.9564e-04,  8.2135e-05,  2.9773e-05,  ...,  2.5916e-04,
+          1.0319e-06,  1.2341e-03],
+        ...,
+        [-3.7785e-03,  2.1443e-05,  1.5542e-05,  ...,  1.8203e-04,
+         -8.9073e-04, -4.3945e-03],
+        [ 1.4334e-03,  4.4775e-04, -1.4567e-04,  ...,  1.3218e-03,
+          5.6410e-04,  2.5291e-03],
+        [ 1.4515e-03,  1.3983e-04,  3.0756e-05,  ...,  3.2210e-04,
+          3.8838e-04,  3.8738e-03]], device='cuda:0')
+Epoch 158, bias, value: tensor([ 0.0145, -0.0082,  0.0004, -0.0179,  0.0110, -0.0041, -0.0135, -0.0252,
+         0.0079, -0.0021], device='cuda:0'), grad: tensor([-3.2501e-02,  1.7654e-02,  1.7059e-02, -5.4240e-05, -6.6528e-02,
+         6.7253e-03,  2.7435e-02, -2.3972e-02,  2.2583e-02,  3.1586e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 157, time 217.33, cls_loss 0.5579 cls_loss_mapping 0.0126 cls_loss_causal 0.5294 re_mapping 0.0088 re_causal 0.0235 /// teacc 98.48 lr 0.00010000
+Epoch 159, weight, value: tensor([[ 0.0192,  0.0747, -0.1340,  ..., -0.0743,  0.0550,  0.0066],
+        [-0.0680, -0.0894,  0.0719,  ..., -0.0264, -0.0898,  0.0502],
+        [-0.0577, -0.0365, -0.0912,  ..., -0.1029, -0.0282,  0.0409],
+        ...,
+        [-0.0158, -0.0717, -0.0855,  ..., -0.0939, -0.0129,  0.0535],
+        [-0.0903, -0.0820, -0.0801,  ..., -0.0509, -0.0489, -0.0746],
+        [ 0.0113, -0.0124, -0.0522,  ..., -0.0534,  0.0267, -0.0130]],
+       device='cuda:0'), grad: tensor([[ 8.3148e-06,  5.2643e-04, -2.0385e-04,  ...,  3.0175e-06,
+          8.1897e-05, -1.2589e-03],
+        [ 2.3594e-03, -3.4828e-03, -1.4404e-02,  ..., -5.2299e-03,
+          7.5674e-04,  1.4372e-03],
+        [-2.1801e-03,  4.8971e-04,  4.8757e-04,  ...,  2.5249e-04,
+         -1.3046e-03, -3.5114e-03],
+        ...,
+        [ 7.7188e-05, -4.7708e-04, -1.8746e-05,  ...,  5.8115e-05,
+          3.8028e-04, -1.0548e-03],
+        [ 2.5845e-03, -3.7599e-04,  6.5384e-03,  ...,  2.3270e-03,
+          8.5497e-04,  2.0370e-03],
+        [-1.2035e-03, -9.1124e-04,  2.0850e-04,  ...,  1.6201e-04,
+         -8.4257e-04, -3.6049e-04]], device='cuda:0')
+Epoch 159, bias, value: tensor([ 1.4270e-02, -7.8300e-03,  2.7432e-06, -1.8102e-02,  1.1726e-02,
+        -4.4926e-03, -1.4041e-02, -2.5257e-02,  8.4514e-03, -2.0198e-03],
+       device='cuda:0'), grad: tensor([-0.0091,  0.0015, -0.0437, -0.0225,  0.0227,  0.0337,  0.0144, -0.0237,
+         0.0195,  0.0072], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 158, time 218.69, cls_loss 0.5591 cls_loss_mapping 0.0110 cls_loss_causal 0.5317 re_mapping 0.0091 re_causal 0.0241 /// teacc 98.44 lr 0.00010000
+Epoch 160, weight, value: tensor([[ 0.0193,  0.0763, -0.1349,  ..., -0.0729,  0.0556,  0.0053],
+        [-0.0681, -0.0882,  0.0726,  ..., -0.0259, -0.0886,  0.0495],
+        [-0.0586, -0.0375, -0.0911,  ..., -0.1030, -0.0290,  0.0411],
+        ...,
+        [-0.0166, -0.0730, -0.0858,  ..., -0.0941, -0.0134,  0.0537],
+        [-0.0901, -0.0825, -0.0809,  ..., -0.0506, -0.0489, -0.0748],
+        [ 0.0114, -0.0128, -0.0532,  ..., -0.0541,  0.0265, -0.0127]],
+       device='cuda:0'), grad: tensor([[ 1.2312e-03, -5.6863e-05,  4.7684e-05,  ...,  6.7806e-04,
+          9.4604e-04,  1.2274e-03],
+        [ 1.1263e-03, -5.4359e-05, -1.1225e-03,  ...,  1.7977e-04,
+          5.6458e-04,  1.5936e-03],
+        [ 1.0471e-03,  3.1114e-05,  6.4969e-05,  ...,  2.2042e-04,
+          5.4646e-04,  7.0333e-04],
+        ...,
+        [-7.9498e-03,  3.1799e-05,  7.8976e-05,  ...,  1.2130e-04,
+         -4.0512e-03, -2.2621e-03],
+        [ 2.7599e-03,  2.0790e-04,  9.2268e-04,  ...,  6.9952e-04,
+          7.6294e-04,  1.2360e-03],
+        [ 4.1168e-02,  2.6774e-04,  3.3951e-04,  ...,  4.2796e-04,
+          6.3744e-03,  5.8174e-03]], device='cuda:0')
+Epoch 160, bias, value: tensor([ 0.0141, -0.0075, -0.0004, -0.0191,  0.0126, -0.0051, -0.0131, -0.0249,
+         0.0082, -0.0022], device='cuda:0'), grad: tensor([ 0.0119,  0.0091,  0.0101, -0.0225, -0.0235, -0.0172, -0.0437, -0.0019,
+         0.0144,  0.0633], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 159, time 217.13, cls_loss 0.5141 cls_loss_mapping 0.0104 cls_loss_causal 0.4827 re_mapping 0.0095 re_causal 0.0236 /// teacc 98.54 lr 0.00010000
+Epoch 161, weight, value: tensor([[ 0.0197,  0.0774, -0.1345,  ..., -0.0719,  0.0560,  0.0045],
+        [-0.0685, -0.0881,  0.0746,  ..., -0.0261, -0.0888,  0.0486],
+        [-0.0594, -0.0382, -0.0921,  ..., -0.1033, -0.0296,  0.0410],
+        ...,
+        [-0.0162, -0.0737, -0.0872,  ..., -0.0947, -0.0125,  0.0549],
+        [-0.0904, -0.0832, -0.0817,  ..., -0.0505, -0.0488, -0.0748],
+        [ 0.0111, -0.0127, -0.0539,  ..., -0.0542,  0.0272, -0.0117]],
+       device='cuda:0'), grad: tensor([[ 1.0767e-03,  1.1683e-05,  5.1022e-05,  ...,  4.5389e-05,
+          1.1148e-03,  2.1610e-03],
+        [ 1.0386e-03, -2.2399e-04, -3.9721e-04,  ..., -1.0127e-04,
+          1.1644e-03,  1.9989e-03],
+        [-7.0333e-04, -3.7849e-05,  1.0338e-03,  ...,  1.0223e-03,
+          1.1234e-03,  3.3226e-03],
+        ...,
+        [ 1.1454e-03,  2.0355e-05,  6.6280e-05,  ...,  4.3422e-05,
+          1.1415e-03,  1.9855e-03],
+        [-5.9547e-03,  8.4698e-05, -5.8365e-03,  ..., -5.9052e-03,
+          9.7179e-04, -1.3056e-03],
+        [ 8.2731e-04,  5.3734e-05,  1.5807e-04,  ...,  9.3520e-05,
+          8.0776e-04,  1.7204e-03]], device='cuda:0')
+Epoch 161, bias, value: tensor([ 0.0136, -0.0068, -0.0003, -0.0185,  0.0126, -0.0047, -0.0136, -0.0250,
+         0.0078, -0.0022], device='cuda:0'), grad: tensor([ 0.0119,  0.0117,  0.0031, -0.0363, -0.0231,  0.0269,  0.0157,  0.0124,
+        -0.0320,  0.0097], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 160, time 216.13, cls_loss 0.5441 cls_loss_mapping 0.0086 cls_loss_causal 0.5086 re_mapping 0.0092 re_causal 0.0248 /// teacc 98.70 lr 0.00010000
+Epoch 162, weight, value: tensor([[ 0.0189,  0.0773, -0.1352,  ..., -0.0730,  0.0551,  0.0034],
+        [-0.0673, -0.0888,  0.0737,  ..., -0.0269, -0.0879,  0.0491],
+        [-0.0597, -0.0394, -0.0926,  ..., -0.1036, -0.0289,  0.0429],
+        ...,
+        [-0.0160, -0.0741, -0.0860,  ..., -0.0950, -0.0130,  0.0532],
+        [-0.0909, -0.0841, -0.0822,  ..., -0.0505, -0.0491, -0.0747],
+        [ 0.0113, -0.0125, -0.0531,  ..., -0.0537,  0.0274, -0.0108]],
+       device='cuda:0'), grad: tensor([[-2.0676e-03, -2.6169e-03,  2.9862e-05,  ..., -7.7248e-03,
+         -4.5466e-04, -1.8573e-04],
+        [-2.2106e-03,  2.1601e-04, -6.2943e-05,  ...,  3.0661e-04,
+         -2.3663e-04, -1.7118e-04],
+        [ 9.2888e-04,  3.7098e-04,  8.7917e-05,  ...,  2.9778e-04,
+         -2.4462e-04,  2.7161e-03],
+        ...,
+        [ 5.1880e-04,  3.5477e-04,  7.2956e-05,  ...,  1.4985e-04,
+         -3.6359e-04, -7.1335e-03],
+        [-5.1498e-03, -4.2191e-03, -4.5967e-04,  ..., -1.3661e-04,
+         -3.6087e-03, -1.9145e-04],
+        [ 2.5845e-03,  1.5631e-03,  1.8537e-04,  ...,  8.2445e-04,
+          1.8148e-03,  2.3689e-03]], device='cuda:0')
+Epoch 162, bias, value: tensor([ 0.0126, -0.0065,  0.0003, -0.0184,  0.0129, -0.0047, -0.0139, -0.0249,
+         0.0076, -0.0024], device='cuda:0'), grad: tensor([-0.0351, -0.0072,  0.0440, -0.0040, -0.0358,  0.0146,  0.0308, -0.0238,
+        -0.0116,  0.0281], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 161, time 216.02, cls_loss 0.5431 cls_loss_mapping 0.0093 cls_loss_causal 0.5133 re_mapping 0.0095 re_causal 0.0240 /// teacc 98.54 lr 0.00010000
+Epoch 163, weight, value: tensor([[ 0.0199,  0.0768, -0.1369,  ..., -0.0747,  0.0550,  0.0032],
+        [-0.0687, -0.0882,  0.0747,  ..., -0.0265, -0.0889,  0.0489],
+        [-0.0601, -0.0397, -0.0933,  ..., -0.1042, -0.0288,  0.0422],
+        ...,
+        [-0.0181, -0.0747, -0.0860,  ..., -0.0962, -0.0135,  0.0535],
+        [-0.0901, -0.0834, -0.0824,  ..., -0.0518, -0.0493, -0.0748],
+        [ 0.0122, -0.0127, -0.0542,  ..., -0.0538,  0.0286, -0.0115]],
+       device='cuda:0'), grad: tensor([[-1.7996e-03, -5.5313e-04,  1.5771e-04,  ..., -4.5371e-04,
+         -2.5578e-03, -5.9700e-04],
+        [ 8.5115e-04,  1.7643e-04, -1.0643e-03,  ...,  2.9945e-03,
+          5.9128e-04,  1.2350e-03],
+        [-2.5249e-04,  7.3862e-04,  3.1495e-04,  ...,  2.2030e-03,
+         -2.3401e-04, -2.6989e-04],
+        ...,
+        [ 1.0891e-03,  1.4853e-04,  4.2230e-05,  ...,  1.5998e-04,
+          8.0252e-04, -7.0667e-04],
+        [ 1.1892e-03, -1.6916e-04,  1.4296e-03,  ..., -8.1873e-04,
+          3.8385e-04, -4.7708e-04],
+        [-3.3188e-04, -1.2004e-04, -2.0962e-03,  ...,  4.2391e-04,
+          1.0633e-03,  3.4904e-03]], device='cuda:0')
+Epoch 163, bias, value: tensor([ 0.0128, -0.0077, -0.0004, -0.0177,  0.0133, -0.0046, -0.0133, -0.0252,
+         0.0075, -0.0020], device='cuda:0'), grad: tensor([-0.0226,  0.0237,  0.0051,  0.0002, -0.0529, -0.0089,  0.0280,  0.0196,
+        -0.0163,  0.0241], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 162, time 216.08, cls_loss 0.5288 cls_loss_mapping 0.0104 cls_loss_causal 0.5022 re_mapping 0.0094 re_causal 0.0245 /// teacc 98.66 lr 0.00010000
+Epoch 164, weight, value: tensor([[ 0.0195,  0.0772, -0.1375,  ..., -0.0747,  0.0555,  0.0019],
+        [-0.0692, -0.0880,  0.0752,  ..., -0.0275, -0.0896,  0.0491],
+        [-0.0597, -0.0401, -0.0932,  ..., -0.1053, -0.0281,  0.0416],
+        ...,
+        [-0.0181, -0.0737, -0.0868,  ..., -0.0965, -0.0123,  0.0535],
+        [-0.0900, -0.0830, -0.0819,  ..., -0.0516, -0.0493, -0.0748],
+        [ 0.0126, -0.0127, -0.0543,  ..., -0.0549,  0.0282, -0.0110]],
+       device='cuda:0'), grad: tensor([[-1.5011e-03, -7.0839e-03, -1.9252e-05,  ..., -5.0316e-03,
+          3.4261e-04,  6.6328e-04],
+        [ 1.3809e-03,  2.8849e-04,  1.5032e-04,  ...,  2.1935e-03,
+          2.9373e-04,  1.1206e-03],
+        [ 6.6698e-05,  2.6202e-04,  2.0790e-04,  ...,  9.8038e-04,
+         -5.9557e-04, -2.7943e-03],
+        ...,
+        [ 7.5293e-04,  1.8859e-04,  1.6439e-04,  ...,  3.7503e-04,
+          3.4523e-04,  1.0319e-03],
+        [ 1.2569e-03,  3.4833e-04,  3.3808e-04,  ...,  1.4067e-03,
+          2.9969e-04,  9.5272e-04],
+        [ 1.0929e-03,  4.7445e-04,  3.9816e-04,  ...,  8.7214e-04,
+          7.9489e-04,  8.2970e-04]], device='cuda:0')
+Epoch 164, bias, value: tensor([ 0.0125, -0.0074, -0.0008, -0.0182,  0.0126, -0.0048, -0.0125, -0.0251,
+         0.0081, -0.0018], device='cuda:0'), grad: tensor([-0.0052,  0.0135, -0.0160, -0.0189, -0.0037,  0.0093, -0.0170,  0.0126,
+         0.0132,  0.0121], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 163, time 216.10, cls_loss 0.5435 cls_loss_mapping 0.0094 cls_loss_causal 0.5169 re_mapping 0.0091 re_causal 0.0240 /// teacc 98.80 lr 0.00010000
+Epoch 165, weight, value: tensor([[ 0.0190,  0.0777, -0.1375,  ..., -0.0738,  0.0562,  0.0015],
+        [-0.0692, -0.0875,  0.0742,  ..., -0.0286, -0.0903,  0.0486],
+        [-0.0593, -0.0404, -0.0931,  ..., -0.1056, -0.0272,  0.0411],
+        ...,
+        [-0.0188, -0.0747, -0.0865,  ..., -0.0962, -0.0133,  0.0545],
+        [-0.0904, -0.0832, -0.0805,  ..., -0.0505, -0.0483, -0.0743],
+        [ 0.0132, -0.0118, -0.0530,  ..., -0.0552,  0.0278, -0.0117]],
+       device='cuda:0'), grad: tensor([[ 1.4544e-03, -3.2723e-05,  4.1395e-05,  ...,  3.9250e-05,
+          8.0824e-04,  4.3221e-03],
+        [ 2.1954e-03,  9.4250e-06,  1.0815e-03,  ...,  5.4312e-04,
+          1.7061e-03, -3.2544e-04],
+        [ 1.6279e-03, -7.2457e-06,  2.8920e-04,  ...,  4.6939e-06,
+          1.2922e-03,  2.4738e-03],
+        ...,
+        [-4.1890e-04, -7.9489e-04, -4.0340e-04,  ..., -1.1730e-03,
+         -6.1836e-03, -4.2496e-03],
+        [-1.0967e-03, -4.3144e-03, -9.0256e-03,  ..., -3.0651e-03,
+         -2.4853e-03, -3.5267e-03],
+        [-5.4131e-03,  2.9057e-05,  3.5167e-04,  ...,  1.7989e-04,
+         -1.2188e-03, -3.9864e-03]], device='cuda:0')
+Epoch 165, bias, value: tensor([ 0.0128, -0.0073, -0.0002, -0.0192,  0.0123, -0.0036, -0.0127, -0.0263,
+         0.0083, -0.0013], device='cuda:0'), grad: tensor([ 0.0282,  0.0144,  0.0225,  0.0555,  0.0297, -0.0136, -0.0394, -0.0102,
+        -0.0467, -0.0405], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 164, time 216.23, cls_loss 0.5310 cls_loss_mapping 0.0131 cls_loss_causal 0.5044 re_mapping 0.0092 re_causal 0.0235 /// teacc 98.59 lr 0.00010000
+Epoch 166, weight, value: tensor([[ 0.0187,  0.0779, -0.1365,  ..., -0.0732,  0.0549,  0.0026],
+        [-0.0692, -0.0865,  0.0747,  ..., -0.0293, -0.0899,  0.0477],
+        [-0.0593, -0.0411, -0.0930,  ..., -0.1069, -0.0284,  0.0408],
+        ...,
+        [-0.0200, -0.0756, -0.0878,  ..., -0.0977, -0.0136,  0.0544],
+        [-0.0914, -0.0837, -0.0814,  ..., -0.0504, -0.0481, -0.0751],
+        [ 0.0134, -0.0127, -0.0531,  ..., -0.0561,  0.0273, -0.0119]],
+       device='cuda:0'), grad: tensor([[-1.8797e-03,  1.1740e-03,  3.7980e-04,  ...,  2.0180e-03,
+         -3.1681e-03,  5.3644e-04],
+        [-1.0805e-03, -1.0195e-03,  1.3694e-05,  ..., -5.8794e-04,
+         -7.8726e-04, -2.4700e-04],
+        [-2.2526e-03, -8.4457e-03, -1.1816e-03,  ..., -5.6877e-03,
+          3.4285e-04,  1.1833e-02],
+        ...,
+        [ 7.2002e-04,  1.1998e-04, -2.1820e-03,  ..., -5.3072e-04,
+          3.4189e-04, -1.2764e-02],
+        [ 2.7490e-04,  1.9875e-03,  7.3051e-04,  ...,  1.7052e-03,
+         -1.7786e-04, -6.4087e-04],
+        [ 2.0111e-04,  1.2910e-04,  3.4273e-05,  ...,  6.0797e-05,
+          3.0518e-04,  2.6059e-04]], device='cuda:0')
+Epoch 166, bias, value: tensor([ 0.0139, -0.0068, -0.0009, -0.0183,  0.0123, -0.0034, -0.0137, -0.0272,
+         0.0087, -0.0019], device='cuda:0'), grad: tensor([-0.0079, -0.0076,  0.0069, -0.0363,  0.0195,  0.0256,  0.0115, -0.0107,
+        -0.0107,  0.0096], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 165, time 216.11, cls_loss 0.5548 cls_loss_mapping 0.0138 cls_loss_causal 0.5340 re_mapping 0.0094 re_causal 0.0232 /// teacc 98.74 lr 0.00010000
+Epoch 167, weight, value: tensor([[ 0.0189,  0.0776, -0.1379,  ..., -0.0743,  0.0550,  0.0023],
+        [-0.0701, -0.0860,  0.0756,  ..., -0.0281, -0.0900,  0.0479],
+        [-0.0586, -0.0403, -0.0932,  ..., -0.1060, -0.0277,  0.0414],
+        ...,
+        [-0.0193, -0.0771, -0.0876,  ..., -0.0988, -0.0140,  0.0542],
+        [-0.0908, -0.0846, -0.0816,  ..., -0.0505, -0.0494, -0.0748],
+        [ 0.0130, -0.0121, -0.0529,  ..., -0.0550,  0.0285, -0.0123]],
+       device='cuda:0'), grad: tensor([[ 7.1859e-04,  4.7255e-04, -4.2856e-05,  ...,  6.6519e-04,
+          6.0177e-04,  9.1219e-04],
+        [-1.8969e-03, -1.0900e-03,  5.4687e-05,  ...,  4.5443e-04,
+         -1.3781e-03, -2.3899e-03],
+        [ 1.4277e-03, -1.8132e-04,  8.7142e-05,  ..., -4.7231e-04,
+          1.2970e-03, -2.9388e-02],
+        ...,
+        [ 1.0681e-03,  7.2575e-04,  1.1444e-04,  ...,  3.8576e-04,
+          8.8024e-04,  3.0380e-02],
+        [ 1.5917e-03,  1.6155e-03,  8.5771e-05,  ...,  2.4962e-04,
+          1.3790e-03,  2.0142e-03],
+        [ 1.2636e-03,  1.2894e-03, -1.6602e-02,  ...,  6.5708e-04,
+          1.3905e-03,  1.6165e-03]], device='cuda:0')
+Epoch 167, bias, value: tensor([ 0.0136, -0.0067, -0.0003, -0.0183,  0.0125, -0.0033, -0.0156, -0.0274,
+         0.0096, -0.0015], device='cuda:0'), grad: tensor([ 0.0120, -0.0146, -0.0479, -0.0056,  0.0074,  0.0084, -0.0227,  0.0288,
+         0.0258,  0.0083], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 166, time 216.30, cls_loss 0.5733 cls_loss_mapping 0.0105 cls_loss_causal 0.5388 re_mapping 0.0084 re_causal 0.0211 /// teacc 98.61 lr 0.00010000
+Epoch 168, weight, value: tensor([[ 0.0192,  0.0775, -0.1389,  ..., -0.0742,  0.0556,  0.0032],
+        [-0.0697, -0.0846,  0.0763,  ..., -0.0277, -0.0893,  0.0477],
+        [-0.0588, -0.0405, -0.0933,  ..., -0.1058, -0.0269,  0.0414],
+        ...,
+        [-0.0184, -0.0772, -0.0885,  ..., -0.0995, -0.0143,  0.0549],
+        [-0.0915, -0.0859, -0.0821,  ..., -0.0522, -0.0498, -0.0752],
+        [ 0.0124, -0.0119, -0.0512,  ..., -0.0559,  0.0289, -0.0125]],
+       device='cuda:0'), grad: tensor([[ 4.2419e-03,  4.1618e-03,  7.2479e-05,  ...,  6.3717e-05,
+          4.7989e-03,  1.5192e-03],
+        [ 7.0620e-04,  5.5313e-05, -4.2915e-06,  ...,  9.6932e-06,
+          4.8614e-04,  8.4734e-04],
+        [ 1.3266e-03,  3.4833e-04,  1.0687e-04,  ...,  1.3717e-05,
+          8.3447e-04,  4.5662e-03],
+        ...,
+        [ 8.2970e-04,  2.7776e-04,  2.6330e-05,  ...,  4.3586e-07,
+          6.8760e-04,  1.3237e-03],
+        [-1.3914e-03,  3.1042e-04,  2.1887e-04,  ...,  1.9026e-04,
+         -7.0190e-04, -6.0997e-03],
+        [-2.4738e-03,  7.7534e-04,  9.1672e-05,  ...,  9.8795e-06,
+         -1.9836e-03,  9.0647e-04]], device='cuda:0')
+Epoch 168, bias, value: tensor([ 0.0144, -0.0065, -0.0002, -0.0191,  0.0119, -0.0039, -0.0158, -0.0255,
+         0.0094, -0.0020], device='cuda:0'), grad: tensor([ 0.0329,  0.0187,  0.0300,  0.0021, -0.0151, -0.0173, -0.0123,  0.0245,
+        -0.0734,  0.0099], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 167, time 216.72, cls_loss 0.5616 cls_loss_mapping 0.0083 cls_loss_causal 0.5313 re_mapping 0.0089 re_causal 0.0228 /// teacc 98.57 lr 0.00010000
+Epoch 169, weight, value: tensor([[ 0.0188,  0.0782, -0.1400,  ..., -0.0743,  0.0554,  0.0025],
+        [-0.0695, -0.0850,  0.0760,  ..., -0.0278, -0.0891,  0.0472],
+        [-0.0600, -0.0402, -0.0934,  ..., -0.1057, -0.0275,  0.0411],
+        ...,
+        [-0.0183, -0.0780, -0.0900,  ..., -0.1003, -0.0139,  0.0554],
+        [-0.0918, -0.0857, -0.0825,  ..., -0.0521, -0.0497, -0.0736],
+        [ 0.0126, -0.0133, -0.0505,  ..., -0.0555,  0.0277, -0.0127]],
+       device='cuda:0'), grad: tensor([[ 5.1451e-04, -5.9813e-05,  3.6001e-04,  ...,  8.2493e-05,
+         -8.3389e-03,  1.2484e-03],
+        [ 7.7200e-04,  1.0204e-04,  5.4061e-05,  ...,  7.2002e-04,
+          3.6597e-04,  6.5041e-04],
+        [ 1.0996e-03,  1.5554e-03,  2.2316e-03,  ...,  8.8215e-04,
+          1.2455e-03,  2.4796e-03],
+        ...,
+        [-6.8426e-04,  1.3041e-04,  1.1549e-03,  ...,  3.8922e-05,
+         -1.2314e-04,  4.5633e-04],
+        [ 5.7793e-04,  2.1315e-04,  7.1764e-04,  ...,  3.7980e-04,
+          1.3475e-03,  1.4706e-03],
+        [ 7.1239e-04,  1.8442e-04,  7.2098e-04,  ...,  4.5419e-05,
+          4.8137e-04,  1.9121e-03]], device='cuda:0')
+Epoch 169, bias, value: tensor([ 0.0127, -0.0059, -0.0006, -0.0192,  0.0122, -0.0041, -0.0148, -0.0258,
+         0.0098, -0.0015], device='cuda:0'), grad: tensor([ 0.0049,  0.0196,  0.0287, -0.0546,  0.0149, -0.0419, -0.0082, -0.0068,
+         0.0221,  0.0211], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 168, time 216.28, cls_loss 0.5542 cls_loss_mapping 0.0089 cls_loss_causal 0.5274 re_mapping 0.0085 re_causal 0.0215 /// teacc 98.44 lr 0.00010000
+Epoch 170, weight, value: tensor([[ 0.0195,  0.0792, -0.1401,  ..., -0.0745,  0.0552,  0.0024],
+        [-0.0694, -0.0844,  0.0748,  ..., -0.0292, -0.0894,  0.0475],
+        [-0.0608, -0.0403, -0.0916,  ..., -0.1055, -0.0279,  0.0398],
+        ...,
+        [-0.0182, -0.0790, -0.0898,  ..., -0.1001, -0.0128,  0.0562],
+        [-0.0929, -0.0863, -0.0843,  ..., -0.0524, -0.0499, -0.0727],
+        [ 0.0125, -0.0142, -0.0513,  ..., -0.0552,  0.0274, -0.0128]],
+       device='cuda:0'), grad: tensor([[-7.7677e-04,  2.1505e-04,  1.6630e-05,  ...,  2.6315e-05,
+         -1.6010e-04, -1.3244e-04],
+        [-3.0684e-04,  6.8784e-05,  5.9843e-04,  ...,  1.0643e-03,
+          6.0707e-05, -4.7714e-05],
+        [-6.8741e-03, -2.6679e-04, -3.6097e-04,  ..., -5.3406e-04,
+         -3.7918e-03,  7.3290e-04],
+        ...,
+        [ 2.9926e-03,  2.8110e-04,  1.3912e-04,  ...,  9.4891e-05,
+          1.2178e-03,  1.8024e-03],
+        [ 4.2629e-04,  1.0902e-04, -1.3475e-03,  ..., -2.6512e-03,
+          6.8998e-04,  1.2789e-03],
+        [ 5.1308e-03,  2.1100e-04,  2.4939e-04,  ...,  2.8825e-04,
+          2.7485e-03,  3.8548e-03]], device='cuda:0')
+Epoch 170, bias, value: tensor([ 0.0126, -0.0055, -0.0012, -0.0191,  0.0122, -0.0030, -0.0157, -0.0252,
+         0.0095, -0.0019], device='cuda:0'), grad: tensor([-0.0171, -0.0259, -0.0315,  0.0272, -0.0382,  0.0284, -0.0011,  0.0254,
+        -0.0021,  0.0349], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 169, time 216.17, cls_loss 0.5143 cls_loss_mapping 0.0077 cls_loss_causal 0.4776 re_mapping 0.0088 re_causal 0.0215 /// teacc 98.72 lr 0.00010000
+Epoch 171, weight, value: tensor([[ 0.0199,  0.0795, -0.1391,  ..., -0.0747,  0.0567,  0.0021],
+        [-0.0692, -0.0847,  0.0757,  ..., -0.0291, -0.0898,  0.0480],
+        [-0.0616, -0.0402, -0.0916,  ..., -0.1058, -0.0282,  0.0398],
+        ...,
+        [-0.0177, -0.0803, -0.0900,  ..., -0.1009, -0.0121,  0.0561],
+        [-0.0937, -0.0865, -0.0844,  ..., -0.0524, -0.0490, -0.0733],
+        [ 0.0121, -0.0132, -0.0515,  ..., -0.0547,  0.0265, -0.0124]],
+       device='cuda:0'), grad: tensor([[ 4.5705e-04,  8.1658e-05,  2.5010e-04,  ...,  4.0007e-04,
+          2.6321e-04, -2.6875e-03],
+        [ 4.0245e-04,  7.7844e-05, -5.8591e-05,  ...,  4.6086e-04,
+          4.6635e-04,  1.0994e-02],
+        [ 5.0449e-04,  2.8872e-04,  5.4264e-04,  ...,  6.0940e-04,
+          5.3644e-04,  1.3666e-03],
+        ...,
+        [-1.2274e-03,  1.8811e-04,  4.8232e-04,  ...,  1.6487e-04,
+          8.6164e-04, -1.9467e-04],
+        [ 3.7646e-04,  6.0844e-04, -7.3719e-04,  ..., -5.5580e-03,
+         -1.9245e-03, -6.0701e-04],
+        [ 1.0767e-03,  4.1938e-04,  7.8726e-04,  ...,  5.4979e-04,
+          2.0657e-03,  1.7061e-03]], device='cuda:0')
+Epoch 171, bias, value: tensor([ 0.0135, -0.0052, -0.0007, -0.0197,  0.0110, -0.0034, -0.0155, -0.0249,
+         0.0092, -0.0018], device='cuda:0'), grad: tensor([-0.0115,  0.0314,  0.0153, -0.0073,  0.0095, -0.0188,  0.0060, -0.0122,
+        -0.0373,  0.0249], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 170, time 216.58, cls_loss 0.5412 cls_loss_mapping 0.0081 cls_loss_causal 0.5108 re_mapping 0.0087 re_causal 0.0226 /// teacc 98.81 lr 0.00010000
+Epoch 172, weight, value: tensor([[ 0.0205,  0.0793, -0.1393,  ..., -0.0747,  0.0572,  0.0029],
+        [-0.0701, -0.0858,  0.0756,  ..., -0.0288, -0.0904,  0.0467],
+        [-0.0619, -0.0399, -0.0917,  ..., -0.1064, -0.0281,  0.0395],
+        ...,
+        [-0.0173, -0.0807, -0.0898,  ..., -0.1006, -0.0127,  0.0567],
+        [-0.0925, -0.0859, -0.0833,  ..., -0.0527, -0.0491, -0.0731],
+        [ 0.0124, -0.0125, -0.0505,  ..., -0.0551,  0.0268, -0.0117]],
+       device='cuda:0'), grad: tensor([[ 8.6517e-03,  3.0708e-03,  2.8086e-04,  ..., -4.5568e-05,
+          9.4452e-03,  7.1192e-04],
+        [-6.5279e-04,  3.3110e-05,  1.9625e-05,  ..., -3.3450e-04,
+          5.9986e-04,  8.2111e-04],
+        [-3.8338e-03,  2.2840e-04,  1.5306e-04,  ...,  3.2723e-05,
+         -1.7529e-03, -1.2302e-03],
+        ...,
+        [-3.9787e-03,  6.4194e-05, -3.4094e-04,  ...,  2.2426e-05,
+         -4.6223e-05, -1.9321e-03],
+        [ 2.0294e-03,  1.7138e-03,  1.0900e-03,  ...,  1.1486e-04,
+          1.3609e-03,  4.4203e-04],
+        [ 2.0313e-03,  4.2528e-05,  8.9467e-05,  ...,  2.6569e-05,
+         -6.5899e-04,  7.2050e-04]], device='cuda:0')
+Epoch 172, bias, value: tensor([ 0.0141, -0.0051, -0.0017, -0.0204,  0.0115, -0.0036, -0.0156, -0.0246,
+         0.0099, -0.0018], device='cuda:0'), grad: tensor([ 0.0345, -0.0391, -0.0207,  0.0200,  0.0102, -0.0041, -0.0116, -0.0056,
+         0.0179, -0.0015], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 171, time 216.31, cls_loss 0.5218 cls_loss_mapping 0.0082 cls_loss_causal 0.4966 re_mapping 0.0084 re_causal 0.0221 /// teacc 98.60 lr 0.00010000
+Epoch 173, weight, value: tensor([[ 0.0191,  0.0788, -0.1407,  ..., -0.0759,  0.0568,  0.0019],
+        [-0.0695, -0.0856,  0.0763,  ..., -0.0291, -0.0907,  0.0472],
+        [-0.0613, -0.0404, -0.0922,  ..., -0.1070, -0.0280,  0.0403],
+        ...,
+        [-0.0176, -0.0809, -0.0902,  ..., -0.0999, -0.0133,  0.0559],
+        [-0.0924, -0.0860, -0.0838,  ..., -0.0528, -0.0490, -0.0722],
+        [ 0.0122, -0.0126, -0.0510,  ..., -0.0555,  0.0273, -0.0120]],
+       device='cuda:0'), grad: tensor([[-2.4462e-04, -6.3562e-04,  4.3720e-05,  ...,  1.0794e-04,
+         -1.8501e-03,  6.3896e-04],
+        [ 2.5711e-03, -2.8076e-03, -8.0013e-04,  ...,  7.3947e-06,
+          1.6594e-03, -1.6522e-04],
+        [ 8.7404e-04,  6.7472e-04,  2.6059e-04,  ...,  2.7016e-05,
+          4.9973e-04,  1.4315e-03],
+        ...,
+        [-2.2869e-03,  3.2854e-04,  1.5259e-04,  ...,  1.9774e-05,
+         -8.4209e-04, -4.1161e-03],
+        [ 1.1053e-03, -4.8752e-03, -7.5455e-03,  ..., -1.5945e-03,
+         -8.1491e-04,  9.9277e-04],
+        [ 8.2254e-04,  1.4400e-03,  1.8072e-03,  ...,  4.1986e-04,
+          1.2016e-03,  8.3208e-04]], device='cuda:0')
+Epoch 173, bias, value: tensor([ 0.0128, -0.0044, -0.0018, -0.0191,  0.0114, -0.0046, -0.0149, -0.0246,
+         0.0104, -0.0027], device='cuda:0'), grad: tensor([-0.0032, -0.0004,  0.0148, -0.0008, -0.0177,  0.0054,  0.0188, -0.0186,
+        -0.0010,  0.0027], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 172, time 216.39, cls_loss 0.5384 cls_loss_mapping 0.0081 cls_loss_causal 0.5032 re_mapping 0.0092 re_causal 0.0242 /// teacc 98.71 lr 0.00010000
+Epoch 174, weight, value: tensor([[ 0.0196,  0.0800, -0.1402,  ..., -0.0764,  0.0577,  0.0024],
+        [-0.0713, -0.0868,  0.0749,  ..., -0.0302, -0.0924,  0.0469],
+        [-0.0617, -0.0398, -0.0920,  ..., -0.1055, -0.0271,  0.0403],
+        ...,
+        [-0.0182, -0.0824, -0.0910,  ..., -0.1005, -0.0146,  0.0562],
+        [-0.0931, -0.0858, -0.0834,  ..., -0.0542, -0.0501, -0.0729],
+        [ 0.0131, -0.0126, -0.0518,  ..., -0.0557,  0.0274, -0.0122]],
+       device='cuda:0'), grad: tensor([[-2.3937e-03, -1.4079e-04,  7.1168e-05,  ...,  2.1076e-04,
+         -6.2523e-03,  8.9979e-04],
+        [-3.3498e-04, -1.4353e-04, -3.6627e-05,  ..., -2.1820e-03,
+          9.1970e-05, -5.9929e-03],
+        [-2.6608e-03,  1.2058e-04,  5.3316e-05,  ...,  1.4555e-04,
+         -2.8744e-03, -4.1161e-03],
+        ...,
+        [ 2.3961e-04,  1.2827e-04,  5.7250e-05,  ...,  3.8457e-04,
+          1.0719e-03,  1.1091e-03],
+        [ 1.1282e-03,  1.5044e-04,  5.9545e-05,  ...,  5.9509e-04,
+          8.0061e-04,  2.0771e-03],
+        [ 1.3285e-03,  2.8205e-04,  1.0979e-04,  ...,  3.6693e-04,
+          9.1505e-04,  2.3079e-03]], device='cuda:0')
+Epoch 174, bias, value: tensor([ 0.0130, -0.0055, -0.0018, -0.0191,  0.0112, -0.0042, -0.0142, -0.0241,
+         0.0101, -0.0027], device='cuda:0'), grad: tensor([-0.0010, -0.0555, -0.0421, -0.0103,  0.0234,  0.0155,  0.0262,  0.0142,
+         0.0012,  0.0284], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 173, time 216.14, cls_loss 0.5288 cls_loss_mapping 0.0111 cls_loss_causal 0.4991 re_mapping 0.0087 re_causal 0.0214 /// teacc 98.70 lr 0.00010000
+Epoch 175, weight, value: tensor([[ 0.0189,  0.0801, -0.1397,  ..., -0.0776,  0.0573,  0.0021],
+        [-0.0712, -0.0873,  0.0738,  ..., -0.0295, -0.0919,  0.0472],
+        [-0.0615, -0.0402, -0.0924,  ..., -0.1056, -0.0271,  0.0408],
+        ...,
+        [-0.0182, -0.0826, -0.0917,  ..., -0.0994, -0.0152,  0.0559],
+        [-0.0937, -0.0847, -0.0829,  ..., -0.0550, -0.0505, -0.0728],
+        [ 0.0130, -0.0129, -0.0519,  ..., -0.0566,  0.0276, -0.0122]],
+       device='cuda:0'), grad: tensor([[-6.9904e-04,  2.6846e-04,  1.8191e-04,  ...,  5.6314e-04,
+         -1.0357e-03, -2.4915e-04],
+        [ 1.1730e-03,  8.4221e-05,  2.6441e-04,  ...,  2.4509e-04,
+          5.0545e-04,  6.4802e-04],
+        [ 1.1063e-03,  3.6025e-04,  1.8644e-04,  ..., -1.1158e-04,
+          6.4516e-04,  6.8235e-04],
+        ...,
+        [-5.7840e-04,  7.5436e-04,  4.9019e-04,  ...,  2.2626e-04,
+         -3.8171e-04, -2.2564e-03],
+        [ 1.1768e-03,  4.2915e-04,  4.1008e-04,  ...,  4.6682e-04,
+          5.0259e-04,  5.5552e-04],
+        [ 5.4893e-03,  3.0160e-04,  2.8343e-03,  ...,  6.2656e-04,
+          4.9877e-04,  9.0647e-04]], device='cuda:0')
+Epoch 175, bias, value: tensor([ 0.0123, -0.0050, -0.0012, -0.0176,  0.0112, -0.0059, -0.0139, -0.0239,
+         0.0096, -0.0033], device='cuda:0'), grad: tensor([-0.0183,  0.0130,  0.0204, -0.0095, -0.0432,  0.0024,  0.0065, -0.0078,
+         0.0148,  0.0218], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 174, time 216.18, cls_loss 0.5056 cls_loss_mapping 0.0097 cls_loss_causal 0.4772 re_mapping 0.0087 re_causal 0.0223 /// teacc 98.67 lr 0.00010000
+Epoch 176, weight, value: tensor([[ 0.0190,  0.0801, -0.1399,  ..., -0.0784,  0.0574,  0.0028],
+        [-0.0699, -0.0852,  0.0738,  ..., -0.0294, -0.0907,  0.0466],
+        [-0.0622, -0.0418, -0.0930,  ..., -0.1052, -0.0278,  0.0406],
+        ...,
+        [-0.0186, -0.0838, -0.0905,  ..., -0.0997, -0.0157,  0.0566],
+        [-0.0922, -0.0842, -0.0835,  ..., -0.0543, -0.0502, -0.0722],
+        [ 0.0130, -0.0127, -0.0525,  ..., -0.0563,  0.0279, -0.0122]],
+       device='cuda:0'), grad: tensor([[-3.3607e-03, -3.0499e-03,  5.4715e-07,  ..., -1.0195e-03,
+         -9.3746e-04,  8.8513e-05],
+        [-1.7920e-03, -7.2527e-04,  4.4471e-07,  ..., -1.8196e-03,
+         -1.1625e-03, -3.3474e-03],
+        [ 8.8310e-04,  1.4865e-04,  1.0803e-06,  ...,  8.4519e-05,
+          3.5882e-04, -1.7285e-04],
+        ...,
+        [ 7.9918e-04,  1.4567e-04,  5.7463e-07,  ...,  1.0073e-04,
+          4.1366e-04,  1.3275e-03],
+        [ 1.2379e-03,  2.5749e-04,  1.8135e-05,  ...,  2.2817e-04,
+          4.5848e-04,  3.1471e-04],
+        [ 2.2316e-03,  3.9244e-04,  2.0415e-06,  ...,  5.4693e-04,
+          1.0052e-03,  2.2831e-03]], device='cuda:0')
+Epoch 176, bias, value: tensor([ 0.0129, -0.0039, -0.0018, -0.0187,  0.0117, -0.0063, -0.0143, -0.0244,
+         0.0104, -0.0031], device='cuda:0'), grad: tensor([-0.0533, -0.0352,  0.0020,  0.0081, -0.0149,  0.0162,  0.0328,  0.0102,
+         0.0095,  0.0246], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 175, time 216.16, cls_loss 0.5238 cls_loss_mapping 0.0063 cls_loss_causal 0.4916 re_mapping 0.0086 re_causal 0.0219 /// teacc 98.60 lr 0.00010000
+Epoch 177, weight, value: tensor([[ 0.0195,  0.0799, -0.1408,  ..., -0.0795,  0.0581,  0.0031],
+        [-0.0709, -0.0864,  0.0745,  ..., -0.0300, -0.0919,  0.0466],
+        [-0.0613, -0.0417, -0.0932,  ..., -0.1057, -0.0272,  0.0411],
+        ...,
+        [-0.0186, -0.0844, -0.0910,  ..., -0.0994, -0.0159,  0.0573],
+        [-0.0935, -0.0844, -0.0842,  ..., -0.0540, -0.0510, -0.0733],
+        [ 0.0124, -0.0140, -0.0523,  ..., -0.0561,  0.0281, -0.0132]],
+       device='cuda:0'), grad: tensor([[ 1.2980e-03,  8.8358e-04, -1.6832e-04,  ...,  1.4770e-04,
+          4.6045e-05,  8.4734e-04],
+        [ 1.8520e-03,  5.9700e-04, -5.4985e-05,  ...,  3.0470e-04,
+          4.7755e-04,  6.1798e-04],
+        [-3.3417e-03, -1.0176e-03,  2.6718e-05,  ..., -9.4414e-04,
+         -5.9462e-04, -1.6613e-03],
+        ...,
+        [ 1.0614e-03,  1.5628e-04,  9.4622e-06,  ...,  9.0539e-05,
+          3.7050e-04,  1.3418e-03],
+        [ 1.7433e-03,  7.1621e-04,  2.6792e-05,  ...,  2.9206e-04,
+          6.7568e-04,  7.9823e-04],
+        [ 1.6518e-03,  3.5286e-04,  3.0369e-05,  ...,  2.4724e-04,
+          7.5960e-04,  7.5912e-04]], device='cuda:0')
+Epoch 177, bias, value: tensor([ 0.0132, -0.0036, -0.0023, -0.0179,  0.0123, -0.0057, -0.0149, -0.0243,
+         0.0096, -0.0039], device='cuda:0'), grad: tensor([ 0.0191,  0.0151,  0.0048, -0.0107, -0.0105,  0.0051, -0.0354, -0.0090,
+         0.0060,  0.0154], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 176, time 216.27, cls_loss 0.5479 cls_loss_mapping 0.0086 cls_loss_causal 0.5112 re_mapping 0.0087 re_causal 0.0227 /// teacc 98.48 lr 0.00010000
+Epoch 178, weight, value: tensor([[ 0.0202,  0.0801, -0.1403,  ..., -0.0792,  0.0580,  0.0030],
+        [-0.0712, -0.0881,  0.0740,  ..., -0.0298, -0.0898,  0.0469],
+        [-0.0607, -0.0417, -0.0950,  ..., -0.1058, -0.0259,  0.0408],
+        ...,
+        [-0.0185, -0.0836, -0.0905,  ..., -0.1003, -0.0159,  0.0574],
+        [-0.0921, -0.0834, -0.0850,  ..., -0.0544, -0.0496, -0.0736],
+        [ 0.0125, -0.0147, -0.0524,  ..., -0.0568,  0.0282, -0.0141]],
+       device='cuda:0'), grad: tensor([[ 1.0529e-03,  3.1948e-05,  3.3677e-06,  ...,  2.9862e-05,
+          6.3276e-04,  2.5916e-04],
+        [-1.3123e-03,  1.8865e-05,  4.2580e-06,  ...,  2.1267e-04,
+         -7.8869e-04,  2.1923e-04],
+        [-4.8027e-03,  5.1928e-04,  1.1313e-04,  ..., -1.6680e-03,
+         -2.6855e-03, -8.2626e-03],
+        ...,
+        [ 1.1654e-03,  2.3437e-04,  3.8832e-05,  ...,  1.2579e-03,
+          7.5436e-04,  6.6032e-03],
+        [-1.8272e-03, -6.8331e-04,  1.4342e-05,  ...,  9.1717e-06,
+         -3.3360e-03, -7.8344e-04],
+        [ 1.2894e-03,  2.8968e-04,  1.6540e-05,  ...,  4.0740e-05,
+          8.2350e-04,  7.4387e-04]], device='cuda:0')
+Epoch 178, bias, value: tensor([ 0.0137, -0.0033, -0.0019, -0.0175,  0.0128, -0.0069, -0.0158, -0.0237,
+         0.0106, -0.0056], device='cuda:0'), grad: tensor([ 0.0136, -0.0245, -0.0751,  0.0172,  0.0177,  0.0405,  0.0128,  0.0382,
+        -0.0618,  0.0213], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 177, time 216.11, cls_loss 0.5348 cls_loss_mapping 0.0098 cls_loss_causal 0.5102 re_mapping 0.0080 re_causal 0.0210 /// teacc 98.80 lr 0.00010000
+Epoch 179, weight, value: tensor([[ 0.0210,  0.0798, -0.1402,  ..., -0.0798,  0.0574,  0.0028],
+        [-0.0714, -0.0886,  0.0740,  ..., -0.0299, -0.0897,  0.0481],
+        [-0.0605, -0.0419, -0.0951,  ..., -0.1061, -0.0258,  0.0418],
+        ...,
+        [-0.0174, -0.0838, -0.0917,  ..., -0.1002, -0.0152,  0.0565],
+        [-0.0931, -0.0841, -0.0841,  ..., -0.0547, -0.0500, -0.0731],
+        [ 0.0131, -0.0139, -0.0543,  ..., -0.0569,  0.0292, -0.0145]],
+       device='cuda:0'), grad: tensor([[ 2.4624e-03,  8.6566e-07,  4.5836e-05,  ...,  6.9427e-04,
+          1.0910e-03,  5.5170e-04],
+        [-1.6117e-03,  2.6654e-06,  5.5408e-04,  ...,  3.0251e-03,
+          1.0639e-05,  5.3482e-03],
+        [ 1.7357e-03, -4.7374e-04,  7.5161e-05,  ...,  5.0211e-04,
+          7.7486e-04,  1.3876e-03],
+        ...,
+        [ 1.3723e-03,  1.5095e-05,  6.8903e-05,  ...,  4.0770e-04,
+          7.0000e-04, -7.5951e-03],
+        [ 2.2335e-03,  8.8930e-05,  7.3075e-05,  ...,  5.4073e-04,
+          7.7391e-04,  1.0691e-03],
+        [ 5.2338e-03,  1.1191e-05,  6.9380e-04,  ...,  9.5749e-04,
+          1.8682e-03,  1.3769e-04]], device='cuda:0')
+Epoch 179, bias, value: tensor([ 0.0142, -0.0028, -0.0009, -0.0184,  0.0119, -0.0073, -0.0156, -0.0239,
+         0.0106, -0.0054], device='cuda:0'), grad: tensor([ 0.0179,  0.0084,  0.0133,  0.0183, -0.0311,  0.0098, -0.0204, -0.0273,
+         0.0195, -0.0085], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 178, time 216.17, cls_loss 0.5726 cls_loss_mapping 0.0092 cls_loss_causal 0.5432 re_mapping 0.0086 re_causal 0.0229 /// teacc 98.67 lr 0.00010000
+Epoch 180, weight, value: tensor([[ 0.0207,  0.0803, -0.1408,  ..., -0.0806,  0.0579,  0.0032],
+        [-0.0721, -0.0884,  0.0745,  ..., -0.0293, -0.0902,  0.0482],
+        [-0.0600, -0.0422, -0.0944,  ..., -0.1058, -0.0254,  0.0423],
+        ...,
+        [-0.0186, -0.0845, -0.0930,  ..., -0.1007, -0.0166,  0.0557],
+        [-0.0931, -0.0850, -0.0852,  ..., -0.0545, -0.0492, -0.0741],
+        [ 0.0128, -0.0139, -0.0544,  ..., -0.0579,  0.0294, -0.0142]],
+       device='cuda:0'), grad: tensor([[-5.9217e-05,  3.9309e-05,  2.9337e-06,  ...,  6.2847e-04,
+          1.1120e-03, -1.2708e-04],
+        [ 2.0390e-03,  1.1042e-05, -9.9719e-05,  ..., -1.1182e-04,
+          1.1883e-03,  1.0532e-04],
+        [-2.6131e-03,  1.3244e-04, -1.2264e-05,  ..., -2.9049e-03,
+         -2.8343e-03, -1.4019e-03],
+        ...,
+        [-1.4286e-03,  1.9670e-05,  2.6256e-05,  ...,  1.3018e-04,
+         -3.9607e-05, -7.8154e-04],
+        [ 3.2902e-03,  1.2350e-03,  1.2815e-05,  ...,  5.5933e-04,
+          1.6365e-03,  5.0831e-04],
+        [-1.6623e-03,  8.7118e-04,  5.0366e-06,  ..., -4.0436e-04,
+         -3.8128e-03,  3.4833e-04]], device='cuda:0')
+Epoch 180, bias, value: tensor([ 0.0138, -0.0036, -0.0002, -0.0179,  0.0122, -0.0066, -0.0157, -0.0239,
+         0.0105, -0.0060], device='cuda:0'), grad: tensor([-0.0083,  0.0198, -0.0083,  0.0182, -0.0350, -0.0051,  0.0252, -0.0184,
+         0.0219, -0.0100], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 179, time 215.96, cls_loss 0.5354 cls_loss_mapping 0.0095 cls_loss_causal 0.5037 re_mapping 0.0083 re_causal 0.0206 /// teacc 98.66 lr 0.00010000
+Epoch 181, weight, value: tensor([[ 0.0210,  0.0796, -0.1420,  ..., -0.0811,  0.0585,  0.0035],
+        [-0.0717, -0.0878,  0.0758,  ..., -0.0289, -0.0899,  0.0480],
+        [-0.0596, -0.0420, -0.0945,  ..., -0.1057, -0.0258,  0.0426],
+        ...,
+        [-0.0169, -0.0837, -0.0942,  ..., -0.1008, -0.0157,  0.0560],
+        [-0.0940, -0.0869, -0.0867,  ..., -0.0561, -0.0506, -0.0745],
+        [ 0.0121, -0.0135, -0.0547,  ..., -0.0575,  0.0284, -0.0142]],
+       device='cuda:0'), grad: tensor([[ 1.7176e-03,  2.0142e-03,  1.4631e-06,  ...,  3.3230e-05,
+          9.2010e-03,  1.5802e-03],
+        [ 6.7806e-04,  2.2352e-06, -4.7743e-05,  ...,  2.6360e-05,
+          2.0349e-04,  1.3714e-03],
+        [ 1.2026e-03,  1.3494e-04,  3.2157e-05,  ...,  5.5671e-05,
+          6.1369e-04, -2.1896e-03],
+        ...,
+        [ 1.4601e-03,  3.2663e-05,  3.0398e-04,  ...,  3.6180e-05,
+          1.2398e-04,  2.0618e-03],
+        [ 4.0960e-04,  4.4078e-05, -3.8862e-05,  ...,  3.0845e-05,
+          1.2338e-04,  4.8089e-04],
+        [-3.3550e-03, -2.7905e-03, -6.0177e-04,  ...,  2.4095e-05,
+         -9.9182e-03, -1.4801e-03]], device='cuda:0')
+Epoch 181, bias, value: tensor([ 0.0135, -0.0035, -0.0001, -0.0178,  0.0112, -0.0059, -0.0159, -0.0225,
+         0.0100, -0.0064], device='cuda:0'), grad: tensor([ 0.0007,  0.0112,  0.0084, -0.0103,  0.0108, -0.0228,  0.0080,  0.0070,
+         0.0065, -0.0194], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 180, time 215.90, cls_loss 0.5509 cls_loss_mapping 0.0129 cls_loss_causal 0.5216 re_mapping 0.0085 re_causal 0.0218 /// teacc 98.63 lr 0.00010000
+Epoch 182, weight, value: tensor([[ 0.0206,  0.0799, -0.1422,  ..., -0.0808,  0.0587,  0.0016],
+        [-0.0722, -0.0876,  0.0753,  ..., -0.0295, -0.0895,  0.0488],
+        [-0.0604, -0.0425, -0.0945,  ..., -0.1058, -0.0264,  0.0431],
+        ...,
+        [-0.0160, -0.0836, -0.0939,  ..., -0.0990, -0.0157,  0.0559],
+        [-0.0950, -0.0856, -0.0863,  ..., -0.0567, -0.0507, -0.0747],
+        [ 0.0119, -0.0129, -0.0537,  ..., -0.0570,  0.0288, -0.0139]],
+       device='cuda:0'), grad: tensor([[-1.0414e-03, -9.0778e-05,  2.4036e-05,  ...,  2.2709e-04,
+         -2.8172e-03,  6.6471e-04],
+        [ 9.2793e-04,  7.1451e-06, -7.9572e-05,  ..., -8.8835e-04,
+          1.9050e-04, -1.1263e-03],
+        [ 3.2482e-03,  2.2042e-04,  3.5453e-04,  ...,  3.3879e-04,
+          6.9427e-04,  1.4849e-03],
+        ...,
+        [ 3.5019e-03,  6.8665e-05,  3.5214e-04,  ...,  1.6892e-04,
+          2.6512e-04,  1.1806e-03],
+        [ 2.9411e-03,  3.2574e-05,  1.3888e-04,  ...,  6.4135e-04,
+          7.7963e-04,  1.8044e-03],
+        [-4.0970e-03, -1.5676e-04, -1.3218e-03,  ..., -9.0981e-04,
+          9.0301e-06, -4.2839e-03]], device='cuda:0')
+Epoch 182, bias, value: tensor([ 1.2485e-02, -3.7579e-03, -6.0627e-05, -1.8954e-02,  1.0987e-02,
+        -5.5898e-03, -1.5346e-02, -2.1773e-02,  1.0248e-02, -5.8389e-03],
+       device='cuda:0'), grad: tensor([ 0.0062, -0.0139,  0.0273, -0.0123,  0.0353, -0.0085,  0.0176,  0.0232,
+        -0.0244, -0.0504], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 181, time 216.32, cls_loss 0.5489 cls_loss_mapping 0.0078 cls_loss_causal 0.5276 re_mapping 0.0085 re_causal 0.0224 /// teacc 98.82 lr 0.00010000
+Epoch 183, weight, value: tensor([[ 0.0197,  0.0795, -0.1431,  ..., -0.0817,  0.0593,  0.0009],
+        [-0.0717, -0.0873,  0.0757,  ..., -0.0307, -0.0887,  0.0498],
+        [-0.0603, -0.0432, -0.0948,  ..., -0.1058, -0.0263,  0.0431],
+        ...,
+        [-0.0163, -0.0835, -0.0954,  ..., -0.0997, -0.0160,  0.0550],
+        [-0.0954, -0.0863, -0.0865,  ..., -0.0559, -0.0514, -0.0761],
+        [ 0.0117, -0.0131, -0.0535,  ..., -0.0569,  0.0280, -0.0132]],
+       device='cuda:0'), grad: tensor([[ 8.5545e-04,  3.4738e-04,  5.0354e-04,  ...,  1.6487e-04,
+          1.2922e-04,  6.3515e-04],
+        [-2.8286e-03, -4.8828e-04, -7.0620e-04,  ..., -5.0688e-04,
+         -1.4915e-03, -1.2369e-03],
+        [-3.4466e-03,  9.9838e-05,  2.5570e-05,  ...,  1.9789e-04,
+         -9.8896e-04, -3.3436e-03],
+        ...,
+        [ 9.0551e-04,  6.6566e-04,  4.1068e-05,  ...,  6.1333e-05,
+          3.0923e-04,  8.9025e-04],
+        [-6.2084e-04,  2.6017e-05, -3.1281e-04,  ...,  3.6097e-04,
+          2.0373e-04,  3.6216e-04],
+        [ 6.7139e-04,  6.3658e-05,  1.1802e-04,  ...,  7.8440e-05,
+          2.6464e-04,  4.6182e-04]], device='cuda:0')
+Epoch 183, bias, value: tensor([ 1.1367e-02, -2.7596e-03,  3.4431e-05, -1.9674e-02,  1.1644e-02,
+        -3.8947e-03, -1.5151e-02, -2.2966e-02,  8.9731e-03, -5.1283e-03],
+       device='cuda:0'), grad: tensor([ 0.0141, -0.0292, -0.0441,  0.0226,  0.0110,  0.0100,  0.0168,  0.0143,
+        -0.0247,  0.0092], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 182, time 215.88, cls_loss 0.5020 cls_loss_mapping 0.0085 cls_loss_causal 0.4810 re_mapping 0.0085 re_causal 0.0215 /// teacc 98.52 lr 0.00010000
+Epoch 184, weight, value: tensor([[ 0.0205,  0.0804, -0.1441,  ..., -0.0813,  0.0596,  0.0008],
+        [-0.0732, -0.0873,  0.0760,  ..., -0.0303, -0.0889,  0.0491],
+        [-0.0616, -0.0443, -0.0940,  ..., -0.1059, -0.0268,  0.0431],
+        ...,
+        [-0.0158, -0.0841, -0.0969,  ..., -0.1005, -0.0157,  0.0557],
+        [-0.0970, -0.0869, -0.0873,  ..., -0.0555, -0.0530, -0.0761],
+        [ 0.0122, -0.0138, -0.0547,  ..., -0.0564,  0.0272, -0.0133]],
+       device='cuda:0'), grad: tensor([[ 6.3972e-03,  1.0548e-03,  1.8144e-04,  ...,  2.4757e-03,
+          5.3329e-03,  1.6766e-03],
+        [-1.1282e-03,  2.9945e-04,  3.6240e-04,  ...,  4.4098e-03,
+          1.9729e-04,  2.0516e-04],
+        [ 1.4472e-04,  1.4210e-03,  4.1819e-04,  ...,  1.5287e-03,
+          2.1400e-03, -2.7218e-03],
+        ...,
+        [-2.4090e-03,  8.4043e-05,  2.3723e-04,  ...,  5.2601e-05,
+         -1.0214e-03, -2.1935e-03],
+        [ 1.0900e-03,  4.1056e-04,  7.1430e-04,  ...,  5.6887e-04,
+          7.1096e-04,  7.3719e-04],
+        [ 1.1492e-03,  2.4343e-04,  2.2221e-04,  ...,  1.2767e-04,
+          7.4005e-04,  4.7445e-04]], device='cuda:0')
+Epoch 184, bias, value: tensor([ 0.0121, -0.0036, -0.0003, -0.0202,  0.0118, -0.0039, -0.0150, -0.0227,
+         0.0092, -0.0050], device='cuda:0'), grad: tensor([ 0.0403,  0.0001, -0.0059, -0.0219,  0.0083,  0.0172, -0.0369, -0.0174,
+         0.0172, -0.0010], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 183, time 216.47, cls_loss 0.5221 cls_loss_mapping 0.0085 cls_loss_causal 0.4886 re_mapping 0.0093 re_causal 0.0240 /// teacc 98.55 lr 0.00010000
+Epoch 185, weight, value: tensor([[ 0.0214,  0.0810, -0.1453,  ..., -0.0813,  0.0605,  0.0009],
+        [-0.0722, -0.0876,  0.0763,  ..., -0.0291, -0.0883,  0.0497],
+        [-0.0627, -0.0452, -0.0926,  ..., -0.1079, -0.0275,  0.0435],
+        ...,
+        [-0.0151, -0.0840, -0.0948,  ..., -0.1007, -0.0158,  0.0549],
+        [-0.0973, -0.0870, -0.0869,  ..., -0.0561, -0.0533, -0.0758],
+        [ 0.0126, -0.0138, -0.0562,  ..., -0.0569,  0.0276, -0.0136]],
+       device='cuda:0'), grad: tensor([[-1.5135e-03, -8.4496e-04,  2.8655e-05,  ...,  1.7965e-04,
+         -2.4166e-03,  3.3450e-04],
+        [ 9.0408e-04,  6.2644e-05,  6.5207e-05,  ...,  2.2006e-04,
+          4.7636e-04,  6.4850e-04],
+        [ 1.8129e-03,  5.4979e-04,  4.0936e-04,  ...,  6.7759e-04,
+          1.7023e-03, -1.6155e-03],
+        ...,
+        [ 1.1053e-03,  2.7299e-05, -3.6389e-05,  ...,  5.4646e-04,
+          9.5606e-04,  2.2087e-03],
+        [-2.5978e-03,  1.4651e-04,  4.9162e-04,  ...,  4.5228e-04,
+          2.4796e-04,  5.5265e-04],
+        [-1.2688e-05,  5.3465e-05,  3.6031e-05,  ...,  1.2189e-04,
+          8.4877e-05,  4.2129e-04]], device='cuda:0')
+Epoch 185, bias, value: tensor([ 0.0123, -0.0029, -0.0014, -0.0199,  0.0119, -0.0045, -0.0150, -0.0233,
+         0.0097, -0.0044], device='cuda:0'), grad: tensor([-0.0103,  0.0136,  0.0111,  0.0159, -0.0498,  0.0089,  0.0138,  0.0213,
+        -0.0327,  0.0081], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 184, time 216.04, cls_loss 0.5583 cls_loss_mapping 0.0084 cls_loss_causal 0.5348 re_mapping 0.0085 re_causal 0.0229 /// teacc 98.64 lr 0.00010000
+Epoch 186, weight, value: tensor([[ 0.0205,  0.0807, -0.1457,  ..., -0.0825,  0.0605,  0.0006],
+        [-0.0737, -0.0880,  0.0766,  ..., -0.0294, -0.0889,  0.0495],
+        [-0.0614, -0.0451, -0.0937,  ..., -0.1078, -0.0275,  0.0436],
+        ...,
+        [-0.0138, -0.0841, -0.0945,  ..., -0.1004, -0.0171,  0.0546],
+        [-0.0958, -0.0870, -0.0867,  ..., -0.0563, -0.0520, -0.0749],
+        [ 0.0115, -0.0128, -0.0563,  ..., -0.0571,  0.0283, -0.0133]],
+       device='cuda:0'), grad: tensor([[ 3.8552e-04,  2.3812e-05,  7.5400e-05,  ...,  3.3927e-04,
+          2.4402e-04,  5.1785e-04],
+        [-1.4486e-03,  8.5533e-06,  1.2350e-04,  ...,  1.8251e-04,
+         -6.3276e-04, -1.1749e-03],
+        [-2.3711e-04,  1.7321e-04,  2.4486e-04,  ...,  4.7350e-04,
+         -3.4285e-04, -9.7227e-04],
+        ...,
+        [ 1.0099e-03,  6.7540e-06,  6.3837e-05,  ...,  2.1958e-04,
+          4.9973e-04, -4.4703e-04],
+        [-1.4486e-03,  1.1069e-04, -1.1950e-03,  ...,  4.5204e-03,
+         -5.6028e-04, -1.2932e-03],
+        [-1.9836e-03,  1.6201e-04,  1.0920e-04,  ...,  1.0204e-03,
+         -2.9564e-05,  1.0338e-03]], device='cuda:0')
+Epoch 186, bias, value: tensor([ 0.0115, -0.0036, -0.0011, -0.0193,  0.0118, -0.0055, -0.0155, -0.0229,
+         0.0113, -0.0044], device='cuda:0'), grad: tensor([ 0.0110, -0.0137, -0.0146,  0.0055,  0.0231, -0.0122, -0.0216,  0.0136,
+         0.0015,  0.0073], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 185, time 216.65, cls_loss 0.5419 cls_loss_mapping 0.0090 cls_loss_causal 0.5166 re_mapping 0.0081 re_causal 0.0213 /// teacc 98.64 lr 0.00010000
+Epoch 187, weight, value: tensor([[ 0.0215,  0.0812, -0.1463,  ..., -0.0828,  0.0622,  0.0009],
+        [-0.0746, -0.0881,  0.0766,  ..., -0.0295, -0.0890,  0.0491],
+        [-0.0606, -0.0443, -0.0926,  ..., -0.1074, -0.0274,  0.0437],
+        ...,
+        [-0.0143, -0.0846, -0.0952,  ..., -0.1007, -0.0175,  0.0556],
+        [-0.0958, -0.0865, -0.0870,  ..., -0.0576, -0.0521, -0.0752],
+        [ 0.0117, -0.0138, -0.0574,  ..., -0.0575,  0.0280, -0.0138]],
+       device='cuda:0'), grad: tensor([[-9.9182e-04, -1.1730e-03,  1.0192e-04,  ..., -7.2527e-04,
+         -3.1357e-03,  4.0841e-04],
+        [ 9.8801e-04,  4.4227e-05,  6.9916e-05,  ..., -1.3046e-03,
+          1.2083e-03,  6.9141e-04],
+        [ 1.2989e-03,  3.7909e-04,  2.3174e-04,  ...,  2.3067e-04,
+         -9.4652e-04, -9.8705e-04],
+        ...,
+        [ 1.6584e-03,  1.9383e-04,  1.7099e-03,  ...,  2.0146e-04,
+          2.0275e-03,  3.7098e-03],
+        [ 3.2597e-03,  2.5654e-03,  2.2392e-03,  ...,  1.0147e-03,
+          1.7185e-03,  1.0242e-03],
+        [-3.7937e-03, -6.0827e-05, -2.1896e-03,  ...,  2.0695e-04,
+         -1.3113e-03, -6.0310e-03]], device='cuda:0')
+Epoch 187, bias, value: tensor([ 0.0115, -0.0041, -0.0007, -0.0195,  0.0124, -0.0055, -0.0150, -0.0226,
+         0.0112, -0.0054], device='cuda:0'), grad: tensor([-0.0212,  0.0098, -0.0104, -0.0177,  0.0314,  0.0014, -0.0038,  0.0287,
+         0.0387, -0.0568], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 186, time 216.12, cls_loss 0.5479 cls_loss_mapping 0.0054 cls_loss_causal 0.5161 re_mapping 0.0083 re_causal 0.0226 /// teacc 98.36 lr 0.00010000
+Epoch 188, weight, value: tensor([[ 0.0225,  0.0810, -0.1465,  ..., -0.0823,  0.0622,  0.0011],
+        [-0.0748, -0.0880,  0.0773,  ..., -0.0296, -0.0895,  0.0494],
+        [-0.0613, -0.0447, -0.0934,  ..., -0.1079, -0.0281,  0.0422],
+        ...,
+        [-0.0153, -0.0849, -0.0949,  ..., -0.1012, -0.0181,  0.0567],
+        [-0.0945, -0.0854, -0.0871,  ..., -0.0572, -0.0507, -0.0760],
+        [ 0.0121, -0.0146, -0.0582,  ..., -0.0567,  0.0287, -0.0140]],
+       device='cuda:0'), grad: tensor([[-2.1515e-03,  3.3796e-05,  4.3184e-05,  ...,  1.9658e-04,
+         -1.4286e-03, -7.6711e-05],
+        [ 2.9016e-04,  2.7061e-05, -2.0707e-04,  ...,  8.3876e-04,
+          9.0313e-04, -4.1699e-04],
+        [ 3.3283e-04,  1.1051e-04, -4.5562e-04,  ..., -1.8473e-03,
+         -8.4915e-03, -3.4428e-03],
+        ...,
+        [ 2.1229e-03,  1.5306e-03,  3.7527e-04,  ...,  1.1187e-03,
+          2.4815e-03,  5.2528e-03],
+        [ 4.8399e-04,  3.1590e-04,  4.6849e-05,  ...,  2.4116e-04,
+          6.2065e-03,  1.9627e-03],
+        [ 6.6376e-04,  2.3413e-04,  5.9307e-06,  ...,  2.5582e-04,
+          6.3372e-04,  8.6260e-04]], device='cuda:0')
+Epoch 188, bias, value: tensor([ 0.0122, -0.0041, -0.0012, -0.0186,  0.0119, -0.0062, -0.0157, -0.0227,
+         0.0118, -0.0050], device='cuda:0'), grad: tensor([-0.0237,  0.0082, -0.0502, -0.0155,  0.0035,  0.0054,  0.0060,  0.0294,
+         0.0565, -0.0196], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 187, time 216.43, cls_loss 0.5613 cls_loss_mapping 0.0086 cls_loss_causal 0.5278 re_mapping 0.0079 re_causal 0.0213 /// teacc 98.64 lr 0.00010000
+Epoch 189, weight, value: tensor([[ 0.0220,  0.0815, -0.1466,  ..., -0.0821,  0.0612,  0.0011],
+        [-0.0743, -0.0879,  0.0784,  ..., -0.0299, -0.0881,  0.0492],
+        [-0.0608, -0.0457, -0.0937,  ..., -0.1070, -0.0275,  0.0431],
+        ...,
+        [-0.0153, -0.0850, -0.0949,  ..., -0.1015, -0.0184,  0.0569],
+        [-0.0950, -0.0852, -0.0869,  ..., -0.0568, -0.0515, -0.0768],
+        [ 0.0116, -0.0153, -0.0579,  ..., -0.0575,  0.0288, -0.0147]],
+       device='cuda:0'), grad: tensor([[ 1.2808e-03, -7.3051e-04,  1.3009e-05,  ..., -2.2784e-05,
+          8.6975e-04,  2.2984e-04],
+        [ 2.0695e-03,  1.7166e-05, -5.0545e-04,  ...,  1.7837e-05,
+          1.7147e-03,  3.4666e-04],
+        [-6.2637e-03,  7.3135e-05,  3.7074e-05,  ...,  5.6252e-06,
+         -5.5656e-03, -7.5579e-04],
+        ...,
+        [ 3.8004e-04,  1.4901e-05,  6.9439e-05,  ...,  6.8769e-06,
+         -8.5592e-04,  6.3562e-04],
+        [ 2.2068e-03,  3.9196e-04,  9.1434e-05,  ...,  2.7612e-05,
+          2.4090e-03, -2.4819e-04],
+        [-7.2212e-03,  5.5850e-05,  4.5121e-05,  ...,  2.1443e-05,
+         -1.4248e-03,  8.7976e-05]], device='cuda:0')
+Epoch 189, bias, value: tensor([ 0.0122, -0.0036, -0.0013, -0.0184,  0.0123, -0.0064, -0.0158, -0.0230,
+         0.0116, -0.0052], device='cuda:0'), grad: tensor([ 0.0164,  0.0218, -0.0384,  0.0224,  0.0374, -0.0580,  0.0331, -0.0080,
+         0.0058, -0.0323], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 188, time 216.32, cls_loss 0.5432 cls_loss_mapping 0.0105 cls_loss_causal 0.5123 re_mapping 0.0081 re_causal 0.0204 /// teacc 98.84 lr 0.00010000
+Epoch 190, weight, value: tensor([[ 0.0215,  0.0820, -0.1475,  ..., -0.0827,  0.0602,  0.0019],
+        [-0.0741, -0.0872,  0.0780,  ..., -0.0303, -0.0875,  0.0496],
+        [-0.0607, -0.0463, -0.0932,  ..., -0.1082, -0.0279,  0.0435],
+        ...,
+        [-0.0161, -0.0864, -0.0965,  ..., -0.1018, -0.0194,  0.0566],
+        [-0.0955, -0.0856, -0.0872,  ..., -0.0568, -0.0527, -0.0776],
+        [ 0.0129, -0.0154, -0.0579,  ..., -0.0573,  0.0295, -0.0154]],
+       device='cuda:0'), grad: tensor([[ 8.8692e-04,  5.2261e-04,  9.8896e-04,  ...,  1.1044e-03,
+         -3.1494e-02,  5.5599e-04],
+        [-3.7789e-04,  1.5080e-04, -8.5728e-07,  ...,  5.0497e-04,
+          1.7917e-04,  2.7299e-04],
+        [ 2.8877e-03,  1.0262e-03,  1.5516e-03,  ...,  6.8760e-04,
+          1.6079e-03,  5.1651e-03],
+        ...,
+        [-8.6451e-04,  2.6655e-04,  3.9601e-04,  ...,  1.7190e-04,
+          1.1673e-03, -6.2828e-03],
+        [ 1.0643e-03, -3.7651e-03, -8.8272e-03,  ..., -1.7862e-03,
+          2.8038e-03,  2.6321e-04],
+        [ 2.6054e-03,  1.0500e-03,  1.0157e-03,  ...,  2.4152e-04,
+          2.0027e-03,  1.5774e-03]], device='cuda:0')
+Epoch 190, bias, value: tensor([ 0.0121, -0.0043, -0.0006, -0.0178,  0.0113, -0.0057, -0.0163, -0.0234,
+         0.0110, -0.0043], device='cuda:0'), grad: tensor([-0.0098, -0.0167,  0.0384, -0.0152, -0.0044,  0.0511,  0.0152, -0.0007,
+        -0.0215, -0.0363], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 189, time 216.29, cls_loss 0.5715 cls_loss_mapping 0.0066 cls_loss_causal 0.5442 re_mapping 0.0078 re_causal 0.0208 /// teacc 98.83 lr 0.00010000
+Epoch 191, weight, value: tensor([[ 0.0223,  0.0825, -0.1468,  ..., -0.0832,  0.0616,  0.0025],
+        [-0.0753, -0.0868,  0.0771,  ..., -0.0307, -0.0879,  0.0472],
+        [-0.0618, -0.0463, -0.0927,  ..., -0.1091, -0.0280,  0.0430],
+        ...,
+        [-0.0162, -0.0864, -0.0971,  ..., -0.1022, -0.0189,  0.0593],
+        [-0.0963, -0.0857, -0.0874,  ..., -0.0570, -0.0536, -0.0769],
+        [ 0.0126, -0.0156, -0.0581,  ..., -0.0582,  0.0289, -0.0167]],
+       device='cuda:0'), grad: tensor([[-8.3618e-03,  5.6893e-05,  3.8147e-05,  ..., -1.0691e-03,
+         -7.6714e-03, -3.9902e-03],
+        [ 2.9354e-03,  5.1230e-05,  2.0564e-05,  ...,  1.1712e-04,
+          2.1152e-03,  1.8768e-03],
+        [-1.0101e-02, -8.8453e-04, -3.0327e-04,  ..., -3.0499e-03,
+         -8.0872e-03, -2.1515e-03],
+        ...,
+        [ 1.2608e-03,  1.1802e-04,  1.4472e-04,  ...,  1.4162e-04,
+          4.1351e-03,  5.7487e-03],
+        [ 3.2578e-03,  8.2791e-05,  9.5606e-05,  ...,  4.2272e-04,
+          2.5959e-03,  1.9064e-03],
+        [-3.6163e-03, -4.2796e-04, -1.6956e-03,  ...,  2.4116e-04,
+         -4.5280e-03, -8.8043e-03]], device='cuda:0')
+Epoch 191, bias, value: tensor([ 0.0119, -0.0056, -0.0008, -0.0182,  0.0117, -0.0062, -0.0152, -0.0225,
+         0.0114, -0.0042], device='cuda:0'), grad: tensor([-0.0256,  0.0242, -0.1035,  0.0316,  0.0057,  0.0273,  0.0137,  0.0156,
+         0.0273, -0.0164], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 190, time 216.48, cls_loss 0.5425 cls_loss_mapping 0.0081 cls_loss_causal 0.5218 re_mapping 0.0084 re_causal 0.0218 /// teacc 98.76 lr 0.00010000
+Epoch 192, weight, value: tensor([[ 0.0233,  0.0835, -0.1458,  ..., -0.0828,  0.0622,  0.0029],
+        [-0.0758, -0.0860,  0.0777,  ..., -0.0306, -0.0889,  0.0478],
+        [-0.0611, -0.0476, -0.0934,  ..., -0.1099, -0.0272,  0.0431],
+        ...,
+        [-0.0160, -0.0873, -0.0989,  ..., -0.1022, -0.0201,  0.0588],
+        [-0.0963, -0.0848, -0.0871,  ..., -0.0575, -0.0533, -0.0766],
+        [ 0.0123, -0.0158, -0.0577,  ..., -0.0585,  0.0284, -0.0165]],
+       device='cuda:0'), grad: tensor([[ 3.1490e-03,  1.4343e-03,  5.5456e-04,  ...,  5.1355e-04,
+          2.7924e-03,  3.1614e-04],
+        [ 1.9646e-03,  1.7059e-04,  5.6028e-05,  ...,  3.5763e-05,
+          1.0386e-03, -1.5144e-03],
+        [ 2.0676e-03,  5.7316e-04,  2.9039e-04,  ...,  3.4690e-04,
+          1.9932e-03,  4.8184e-04],
+        ...,
+        [ 2.0504e-03,  1.7338e-03,  4.3702e-04,  ...,  1.9483e-06,
+          2.4662e-03,  6.0272e-04],
+        [-1.3342e-03,  3.6297e-03,  2.8973e-03,  ...,  5.0011e-03,
+          5.6534e-03, -7.2575e-04],
+        [-1.0025e-02, -6.2027e-03, -1.5593e-03,  ...,  4.5188e-06,
+         -9.7351e-03, -8.6975e-04]], device='cuda:0')
+Epoch 192, bias, value: tensor([ 0.0131, -0.0054, -0.0005, -0.0189,  0.0117, -0.0067, -0.0151, -0.0230,
+         0.0114, -0.0041], device='cuda:0'), grad: tensor([ 0.0248,  0.0020,  0.0007,  0.0018, -0.0112,  0.0326,  0.0169,  0.0178,
+         0.0022, -0.0877], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 191, time 216.53, cls_loss 0.5395 cls_loss_mapping 0.0110 cls_loss_causal 0.5086 re_mapping 0.0086 re_causal 0.0215 /// teacc 98.55 lr 0.00010000
+Epoch 193, weight, value: tensor([[ 0.0231,  0.0833, -0.1472,  ..., -0.0843,  0.0621,  0.0039],
+        [-0.0761, -0.0848,  0.0780,  ..., -0.0312, -0.0887,  0.0490],
+        [-0.0604, -0.0486, -0.0943,  ..., -0.1106, -0.0258,  0.0436],
+        ...,
+        [-0.0158, -0.0886, -0.0994,  ..., -0.1024, -0.0198,  0.0592],
+        [-0.0967, -0.0843, -0.0864,  ..., -0.0559, -0.0538, -0.0779],
+        [ 0.0123, -0.0177, -0.0591,  ..., -0.0597,  0.0278, -0.0176]],
+       device='cuda:0'), grad: tensor([[-7.2250e-03, -9.1457e-04,  5.9366e-05,  ..., -8.5602e-03,
+         -3.6812e-03, -4.2605e-04],
+        [-3.8433e-03,  1.5414e-04, -2.9640e-03,  ...,  2.8253e-04,
+         -3.8934e-04, -4.8256e-03],
+        [-4.1084e-03, -1.8167e-03,  5.1975e-04,  ..., -3.2063e-03,
+         -2.0771e-03,  1.2894e-03],
+        ...,
+        [-5.0402e-04,  5.6839e-04, -7.0333e-05,  ...,  4.2033e-04,
+         -3.3879e-04, -2.0008e-03],
+        [ 4.5738e-03,  2.8496e-03,  5.7220e-04,  ...,  8.1491e-04,
+          3.0022e-03,  1.9484e-03],
+        [ 3.9787e-03,  1.8728e-04,  4.4537e-04,  ...,  5.8317e-04,
+          1.8187e-03,  1.1482e-03]], device='cuda:0')
+Epoch 193, bias, value: tensor([ 0.0123, -0.0052, -0.0004, -0.0197,  0.0126, -0.0066, -0.0148, -0.0219,
+         0.0111, -0.0051], device='cuda:0'), grad: tensor([-0.0361, -0.0452,  0.0195,  0.0136,  0.0420,  0.0199, -0.0229, -0.0381,
+         0.0246,  0.0228], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 192----------------------------------------------------
+epoch 192, time 216.77, cls_loss 0.5076 cls_loss_mapping 0.0099 cls_loss_causal 0.4810 re_mapping 0.0089 re_causal 0.0221 /// teacc 98.89 lr 0.00010000
+Epoch 194, weight, value: tensor([[ 0.0244,  0.0839, -0.1466,  ..., -0.0837,  0.0627,  0.0044],
+        [-0.0771, -0.0851,  0.0784,  ..., -0.0315, -0.0895,  0.0493],
+        [-0.0596, -0.0485, -0.0942,  ..., -0.1106, -0.0244,  0.0438],
+        ...,
+        [-0.0167, -0.0890, -0.1002,  ..., -0.1030, -0.0210,  0.0587],
+        [-0.0988, -0.0849, -0.0857,  ..., -0.0554, -0.0543, -0.0784],
+        [ 0.0110, -0.0165, -0.0600,  ..., -0.0602,  0.0276, -0.0178]],
+       device='cuda:0'), grad: tensor([[ 2.2392e-03,  5.2378e-06,  3.1441e-06,  ...,  3.7581e-05,
+          1.0710e-03,  9.4771e-06],
+        [-1.9054e-03,  2.9802e-07, -4.7714e-05,  ..., -2.9063e-04,
+         -9.6273e-04, -7.6175e-05],
+        [ 9.6846e-04, -5.4777e-05,  1.1347e-05,  ...,  2.9147e-05,
+          6.8426e-04,  6.8992e-06],
+        ...,
+        [ 1.7691e-03,  1.2927e-05,  8.6799e-06,  ...,  3.4392e-05,
+          7.8011e-04,  7.7188e-06],
+        [-4.3373e-03,  2.1458e-05,  6.3360e-05,  ...,  3.1620e-05,
+         -1.5955e-03,  1.6410e-06],
+        [ 1.1320e-03,  1.5661e-05,  1.9237e-05,  ...,  2.9311e-05,
+          4.8923e-04,  1.0282e-05]], device='cuda:0')
+Epoch 194, bias, value: tensor([ 0.0124, -0.0052, -0.0007, -0.0200,  0.0135, -0.0058, -0.0146, -0.0226,
+         0.0106, -0.0051], device='cuda:0'), grad: tensor([ 0.0115, -0.0137,  0.0126, -0.0152,  0.0058, -0.0208,  0.0161,  0.0102,
+        -0.0167,  0.0102], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 193, time 216.17, cls_loss 0.4969 cls_loss_mapping 0.0077 cls_loss_causal 0.4689 re_mapping 0.0083 re_causal 0.0201 /// teacc 98.64 lr 0.00010000
+Epoch 195, weight, value: tensor([[ 0.0235,  0.0838, -0.1469,  ..., -0.0834,  0.0622,  0.0048],
+        [-0.0763, -0.0858,  0.0796,  ..., -0.0314, -0.0893,  0.0493],
+        [-0.0594, -0.0498, -0.0943,  ..., -0.1097, -0.0250,  0.0438],
+        ...,
+        [-0.0164, -0.0898, -0.0994,  ..., -0.1027, -0.0195,  0.0591],
+        [-0.0992, -0.0841, -0.0866,  ..., -0.0548, -0.0538, -0.0784],
+        [ 0.0120, -0.0174, -0.0612,  ..., -0.0608,  0.0278, -0.0188]],
+       device='cuda:0'), grad: tensor([[ 1.1835e-03, -1.0151e-06,  1.0931e-04,  ...,  1.7369e-04,
+          1.2445e-03,  4.4227e-04],
+        [ 1.5450e-03,  3.8669e-06,  2.7180e-04,  ..., -5.3024e-04,
+          9.0694e-04, -9.5272e-04],
+        [ 1.3323e-03,  1.0364e-05,  1.2171e-04,  ...,  2.3830e-04,
+          1.0347e-03,  8.7309e-04],
+        ...,
+        [ 9.2459e-04,  5.0552e-06,  1.2374e-04,  ...,  6.6042e-05,
+          5.1308e-04, -1.6665e-04],
+        [ 1.0614e-03,  1.0240e-04,  7.1764e-04,  ...,  8.5688e-04,
+          9.3269e-04,  4.3678e-04],
+        [ 2.3861e-03,  1.4372e-05,  9.2566e-05,  ...,  4.2558e-05,
+          1.6642e-03,  1.8549e-04]], device='cuda:0')
+Epoch 195, bias, value: tensor([ 0.0126, -0.0041, -0.0008, -0.0197,  0.0123, -0.0062, -0.0152, -0.0223,
+         0.0097, -0.0039], device='cuda:0'), grad: tensor([-0.0152,  0.0046,  0.0154, -0.0117, -0.0606,  0.0069,  0.0184,  0.0087,
+         0.0187,  0.0148], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 194, time 216.32, cls_loss 0.5397 cls_loss_mapping 0.0075 cls_loss_causal 0.5202 re_mapping 0.0082 re_causal 0.0207 /// teacc 98.71 lr 0.00010000
+Epoch 196, weight, value: tensor([[ 0.0239,  0.0844, -0.1470,  ..., -0.0841,  0.0616,  0.0044],
+        [-0.0766, -0.0863,  0.0804,  ..., -0.0312, -0.0894,  0.0502],
+        [-0.0596, -0.0492, -0.0944,  ..., -0.1104, -0.0244,  0.0433],
+        ...,
+        [-0.0163, -0.0894, -0.1001,  ..., -0.1033, -0.0200,  0.0579],
+        [-0.0999, -0.0852, -0.0865,  ..., -0.0550, -0.0539, -0.0784],
+        [ 0.0125, -0.0182, -0.0624,  ..., -0.0597,  0.0279, -0.0168]],
+       device='cuda:0'), grad: tensor([[-8.8425e-03, -5.2825e-06,  9.2685e-06,  ...,  6.2656e-04,
+         -5.5199e-03,  4.3440e-04],
+        [-5.3673e-03, -6.3218e-06, -1.0306e-04,  ..., -4.7050e-06,
+         -1.5574e-03, -1.7138e-03],
+        [-1.0419e-04,  1.9744e-06,  1.0230e-05,  ...,  2.9016e-04,
+          5.0926e-04, -9.5510e-04],
+        ...,
+        [ 2.7828e-03,  1.8049e-06,  1.5512e-05,  ...,  4.3058e-04,
+          1.0796e-03,  3.7622e-04],
+        [ 2.6321e-04,  1.4283e-05,  3.9071e-05,  ..., -2.9125e-03,
+          3.3331e-04,  4.6158e-04],
+        [ 2.6970e-03,  6.0387e-06,  2.2426e-05,  ...,  3.9124e-04,
+          1.1501e-03,  6.1846e-04]], device='cuda:0')
+Epoch 196, bias, value: tensor([ 0.0128, -0.0041, -0.0006, -0.0198,  0.0128, -0.0064, -0.0154, -0.0219,
+         0.0094, -0.0043], device='cuda:0'), grad: tensor([-0.0085, -0.0422, -0.0129,  0.0200, -0.0107,  0.0146,  0.0174,  0.0204,
+        -0.0168,  0.0186], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 195, time 216.54, cls_loss 0.5428 cls_loss_mapping 0.0063 cls_loss_causal 0.5180 re_mapping 0.0077 re_causal 0.0206 /// teacc 98.71 lr 0.00010000
+Epoch 197, weight, value: tensor([[ 0.0247,  0.0835, -0.1480,  ..., -0.0846,  0.0623,  0.0026],
+        [-0.0775, -0.0863,  0.0811,  ..., -0.0307, -0.0899,  0.0495],
+        [-0.0595, -0.0475, -0.0933,  ..., -0.1098, -0.0242,  0.0430],
+        ...,
+        [-0.0162, -0.0904, -0.1010,  ..., -0.1034, -0.0202,  0.0589],
+        [-0.0982, -0.0857, -0.0875,  ..., -0.0551, -0.0528, -0.0784],
+        [ 0.0119, -0.0203, -0.0631,  ..., -0.0602,  0.0265, -0.0165]],
+       device='cuda:0'), grad: tensor([[ 0.0029,  0.0003,  0.0004,  ...,  0.0003,  0.0039,  0.0007],
+        [ 0.0010,  0.0003,  0.0004,  ...,  0.0001,  0.0008,  0.0001],
+        [-0.0155, -0.0043, -0.0043,  ..., -0.0018, -0.0243, -0.0046],
+        ...,
+        [-0.0036, -0.0013, -0.0029,  ..., -0.0013, -0.0026, -0.0023],
+        [ 0.0018,  0.0005,  0.0006,  ...,  0.0005,  0.0014,  0.0010],
+        [-0.0015,  0.0001,  0.0003,  ...,  0.0002,  0.0034,  0.0005]],
+       device='cuda:0')
+Epoch 197, bias, value: tensor([ 0.0119, -0.0053,  0.0004, -0.0193,  0.0127, -0.0061, -0.0150, -0.0223,
+         0.0102, -0.0049], device='cuda:0'), grad: tensor([ 0.0144, -0.0260, -0.0858,  0.0381,  0.0292,  0.0165,  0.0130, -0.0202,
+         0.0187,  0.0022], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 196, time 216.44, cls_loss 0.5159 cls_loss_mapping 0.0072 cls_loss_causal 0.4893 re_mapping 0.0084 re_causal 0.0220 /// teacc 98.78 lr 0.00010000
+Epoch 198, weight, value: tensor([[ 0.0243,  0.0826, -0.1489,  ..., -0.0838,  0.0623,  0.0034],
+        [-0.0781, -0.0859,  0.0817,  ..., -0.0317, -0.0909,  0.0495],
+        [-0.0595, -0.0478, -0.0938,  ..., -0.1107, -0.0241,  0.0419],
+        ...,
+        [-0.0164, -0.0921, -0.1023,  ..., -0.1031, -0.0209,  0.0603],
+        [-0.0984, -0.0855, -0.0871,  ..., -0.0556, -0.0526, -0.0776],
+        [ 0.0128, -0.0189, -0.0622,  ..., -0.0599,  0.0264, -0.0169]],
+       device='cuda:0'), grad: tensor([[-0.0012, -0.0035,  0.0003,  ...,  0.0005,  0.0019,  0.0005],
+        [ 0.0010,  0.0002,  0.0004,  ...,  0.0006,  0.0022,  0.0016],
+        [ 0.0015,  0.0011,  0.0003,  ...,  0.0005,  0.0008,  0.0008],
+        ...,
+        [-0.0020,  0.0012,  0.0004,  ..., -0.0011, -0.0002, -0.0038],
+        [ 0.0026,  0.0016, -0.0020,  ...,  0.0010,  0.0010,  0.0006],
+        [ 0.0031,  0.0050,  0.0022,  ..., -0.0008, -0.0005, -0.0013]],
+       device='cuda:0')
+Epoch 198, bias, value: tensor([ 0.0114, -0.0054, -0.0003, -0.0195,  0.0131, -0.0066, -0.0140, -0.0223,
+         0.0101, -0.0044], device='cuda:0'), grad: tensor([ 0.0214,  0.0271,  0.0140, -0.0228, -0.0140, -0.0126,  0.0025, -0.0123,
+         0.0119, -0.0153], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 197, time 216.11, cls_loss 0.5633 cls_loss_mapping 0.0071 cls_loss_causal 0.5337 re_mapping 0.0079 re_causal 0.0214 /// teacc 98.83 lr 0.00010000
+Epoch 199, weight, value: tensor([[ 0.0241,  0.0835, -0.1491,  ..., -0.0837,  0.0623,  0.0030],
+        [-0.0773, -0.0849,  0.0813,  ..., -0.0304, -0.0898,  0.0499],
+        [-0.0594, -0.0482, -0.0937,  ..., -0.1117, -0.0241,  0.0422],
+        ...,
+        [-0.0178, -0.0929, -0.1021,  ..., -0.1034, -0.0224,  0.0602],
+        [-0.0986, -0.0865, -0.0880,  ..., -0.0555, -0.0537, -0.0774],
+        [ 0.0131, -0.0198, -0.0614,  ..., -0.0603,  0.0257, -0.0185]],
+       device='cuda:0'), grad: tensor([[ 1.0185e-03, -2.8368e-06,  7.3552e-05,  ...,  3.4642e-04,
+          4.1676e-04,  6.0558e-04],
+        [ 1.2951e-03, -4.4894e-04, -1.1911e-03,  ...,  8.9169e-04,
+          6.4135e-04, -1.1971e-02],
+        [-2.5139e-03,  2.5332e-05,  1.3757e-04,  ..., -5.4502e-04,
+          7.0858e-04, -9.0218e-04],
+        ...,
+        [ 3.3150e-03,  2.1064e-04,  5.2404e-04,  ...,  2.0134e-04,
+          2.1973e-03,  8.8425e-03],
+        [ 1.7538e-03, -1.0195e-03,  1.4699e-04,  ...,  4.5586e-04,
+          8.9693e-04,  1.8444e-03],
+        [-6.8426e-04,  4.6897e-04,  2.4393e-05,  ...,  2.8417e-05,
+         -5.3978e-04,  1.5411e-03]], device='cuda:0')
+Epoch 199, bias, value: tensor([ 0.0105, -0.0041, -0.0008, -0.0189,  0.0129, -0.0055, -0.0145, -0.0229,
+         0.0095, -0.0040], device='cuda:0'), grad: tensor([ 0.0114, -0.0518, -0.0096,  0.0013,  0.0460, -0.0416,  0.0044,  0.0202,
+         0.0259, -0.0062], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 198, time 216.13, cls_loss 0.5154 cls_loss_mapping 0.0085 cls_loss_causal 0.4984 re_mapping 0.0081 re_causal 0.0208 /// teacc 98.77 lr 0.00010000
+Epoch 200, weight, value: tensor([[ 0.0234,  0.0832, -0.1498,  ..., -0.0848,  0.0622,  0.0038],
+        [-0.0778, -0.0840,  0.0816,  ..., -0.0312, -0.0907,  0.0498],
+        [-0.0593, -0.0470, -0.0939,  ..., -0.1125, -0.0225,  0.0434],
+        ...,
+        [-0.0179, -0.0932, -0.1011,  ..., -0.1030, -0.0221,  0.0598],
+        [-0.0977, -0.0862, -0.0887,  ..., -0.0571, -0.0526, -0.0777],
+        [ 0.0133, -0.0201, -0.0630,  ..., -0.0602,  0.0240, -0.0183]],
+       device='cuda:0'), grad: tensor([[-2.6150e-03, -1.8282e-03,  5.7667e-05,  ...,  2.6107e-05,
+         -1.7595e-03,  3.4213e-04],
+        [-1.5163e-03, -6.4945e-04, -3.7694e-04,  ..., -2.2817e-04,
+         -1.1616e-03,  8.7738e-05],
+        [ 3.4714e-04,  3.5439e-03,  2.0866e-03,  ...,  3.1620e-05,
+          1.7481e-03,  6.0797e-04],
+        ...,
+        [-2.6360e-03,  3.7217e-04,  2.9787e-05,  ...,  1.5482e-05,
+         -4.4556e-03,  6.2084e-04],
+        [ 2.1362e-03,  1.7328e-03,  2.2256e-04,  ...,  2.5794e-05,
+          1.2331e-03,  7.3385e-04],
+        [ 7.6675e-03,  2.2926e-03,  2.9102e-05,  ...,  1.8314e-05,
+          5.8479e-03,  1.1654e-03]], device='cuda:0')
+Epoch 200, bias, value: tensor([ 0.0112, -0.0039, -0.0006, -0.0190,  0.0125, -0.0049, -0.0148, -0.0236,
+         0.0096, -0.0042], device='cuda:0'), grad: tensor([ 0.0084, -0.0345,  0.0044,  0.0322,  0.0044,  0.0066, -0.0393, -0.0019,
+         0.0078,  0.0119], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 199, time 216.25, cls_loss 0.5354 cls_loss_mapping 0.0090 cls_loss_causal 0.5104 re_mapping 0.0077 re_causal 0.0199 /// teacc 98.73 lr 0.00010000
+Epoch 201, weight, value: tensor([[ 0.0236,  0.0842, -0.1496,  ..., -0.0841,  0.0621,  0.0060],
+        [-0.0776, -0.0860,  0.0807,  ..., -0.0319, -0.0910,  0.0498],
+        [-0.0592, -0.0472, -0.0944,  ..., -0.1130, -0.0224,  0.0433],
+        ...,
+        [-0.0184, -0.0936, -0.1019,  ..., -0.1030, -0.0229,  0.0598],
+        [-0.0969, -0.0878, -0.0895,  ..., -0.0578, -0.0520, -0.0783],
+        [ 0.0120, -0.0201, -0.0639,  ..., -0.0610,  0.0233, -0.0186]],
+       device='cuda:0'), grad: tensor([[ 6.7902e-04, -5.3406e-04, -3.3545e-04,  ..., -3.0398e-04,
+          3.4475e-04,  1.5700e-04],
+        [ 1.3580e-03,  8.6689e-04,  2.3735e-04,  ...,  1.7476e-04,
+          2.0351e-03, -2.2137e-04],
+        [ 1.8358e-03,  1.0157e-03,  3.9959e-04,  ...,  3.2234e-04,
+          1.5659e-03,  2.4343e-04],
+        ...,
+        [-1.1444e-03, -1.1854e-03,  7.1573e-04,  ...,  2.3425e-04,
+         -4.7951e-03,  1.7560e-04],
+        [ 9.3460e-03,  3.5820e-03,  1.6155e-03,  ..., -5.2065e-05,
+          1.9760e-03,  1.2529e-04],
+        [-9.5749e-03,  3.7193e-03,  4.2458e-03,  ...,  5.5122e-04,
+         -2.0027e-03, -1.0548e-03]], device='cuda:0')
+Epoch 201, bias, value: tensor([ 0.0118, -0.0040, -0.0009, -0.0185,  0.0133, -0.0047, -0.0150, -0.0235,
+         0.0089, -0.0051], device='cuda:0'), grad: tensor([-0.0032,  0.0212,  0.0235, -0.0199, -0.0924,  0.0413,  0.0353, -0.0390,
+         0.0491, -0.0161], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 200, time 215.72, cls_loss 0.5316 cls_loss_mapping 0.0077 cls_loss_causal 0.5055 re_mapping 0.0080 re_causal 0.0199 /// teacc 98.78 lr 0.00010000
+Epoch 202, weight, value: tensor([[ 0.0239,  0.0842, -0.1509,  ..., -0.0845,  0.0620,  0.0052],
+        [-0.0782, -0.0859,  0.0810,  ..., -0.0325, -0.0916,  0.0482],
+        [-0.0598, -0.0480, -0.0946,  ..., -0.1124, -0.0229,  0.0434],
+        ...,
+        [-0.0192, -0.0939, -0.1023,  ..., -0.1027, -0.0228,  0.0604],
+        [-0.0972, -0.0881, -0.0906,  ..., -0.0585, -0.0529, -0.0772],
+        [ 0.0135, -0.0211, -0.0655,  ..., -0.0618,  0.0238, -0.0190]],
+       device='cuda:0'), grad: tensor([[ 2.9278e-03,  2.1088e-04,  1.1349e-04,  ...,  5.5075e-04,
+          2.3308e-03,  4.6325e-04],
+        [ 1.4830e-03,  6.2585e-05,  8.1122e-05,  ...,  2.8595e-05,
+          1.0033e-03,  5.3406e-04],
+        [-4.4785e-03, -4.1342e-04,  4.9412e-05,  ..., -8.4996e-05,
+         -3.8795e-03, -2.4929e-03],
+        ...,
+        [-4.3774e-04,  8.9943e-05,  3.8087e-05,  ...,  1.9908e-05,
+         -5.7745e-04,  1.4675e-04],
+        [ 2.1534e-03,  2.1076e-04,  9.7752e-05,  ...,  4.0412e-04,
+          1.3027e-03,  5.4502e-04],
+        [ 1.3008e-03,  3.0112e-04,  2.7156e-04,  ...,  8.0049e-05,
+          1.4067e-03,  5.1737e-04]], device='cuda:0')
+Epoch 202, bias, value: tensor([ 0.0110, -0.0051, -0.0016, -0.0185,  0.0136, -0.0043, -0.0147, -0.0233,
+         0.0092, -0.0039], device='cuda:0'), grad: tensor([ 0.0196,  0.0150, -0.0443, -0.0169,  0.0116,  0.0159, -0.0220, -0.0139,
+         0.0191,  0.0159], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 201, time 216.37, cls_loss 0.5119 cls_loss_mapping 0.0059 cls_loss_causal 0.4828 re_mapping 0.0086 re_causal 0.0223 /// teacc 98.56 lr 0.00010000
+Epoch 203, weight, value: tensor([[ 0.0230,  0.0839, -0.1508,  ..., -0.0859,  0.0619,  0.0041],
+        [-0.0770, -0.0855,  0.0816,  ..., -0.0327, -0.0907,  0.0488],
+        [-0.0595, -0.0486, -0.0953,  ..., -0.1126, -0.0229,  0.0436],
+        ...,
+        [-0.0198, -0.0949, -0.1036,  ..., -0.1032, -0.0241,  0.0610],
+        [-0.0979, -0.0885, -0.0892,  ..., -0.0576, -0.0530, -0.0779],
+        [ 0.0150, -0.0215, -0.0655,  ..., -0.0619,  0.0252, -0.0205]],
+       device='cuda:0'), grad: tensor([[-0.0030, -0.0082, -0.0020,  ..., -0.0032, -0.0127,  0.0004],
+        [-0.0037,  0.0003,  0.0007,  ...,  0.0003,  0.0028,  0.0015],
+        [ 0.0004,  0.0006,  0.0008,  ...,  0.0003,  0.0002,  0.0003],
+        ...,
+        [ 0.0045,  0.0008,  0.0023,  ...,  0.0001,  0.0018,  0.0023],
+        [ 0.0027,  0.0005,  0.0006,  ...,  0.0003,  0.0020,  0.0006],
+        [ 0.0080,  0.0014, -0.0014,  ...,  0.0006,  0.0019, -0.0020]],
+       device='cuda:0')
+Epoch 203, bias, value: tensor([ 0.0104, -0.0040, -0.0016, -0.0172,  0.0132, -0.0055, -0.0147, -0.0240,
+         0.0094, -0.0039], device='cuda:0'), grad: tensor([-0.0363,  0.0109, -0.0050, -0.0884,  0.0036,  0.0229,  0.0032,  0.0406,
+         0.0273,  0.0213], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 202, time 216.20, cls_loss 0.5326 cls_loss_mapping 0.0080 cls_loss_causal 0.5074 re_mapping 0.0080 re_causal 0.0215 /// teacc 98.67 lr 0.00010000
+Epoch 204, weight, value: tensor([[ 0.0238,  0.0853, -0.1510,  ..., -0.0858,  0.0625,  0.0037],
+        [-0.0765, -0.0871,  0.0816,  ..., -0.0324, -0.0906,  0.0491],
+        [-0.0597, -0.0474, -0.0935,  ..., -0.1124, -0.0214,  0.0447],
+        ...,
+        [-0.0186, -0.0951, -0.1059,  ..., -0.1037, -0.0240,  0.0606],
+        [-0.0992, -0.0893, -0.0888,  ..., -0.0582, -0.0534, -0.0789],
+        [ 0.0138, -0.0214, -0.0650,  ..., -0.0619,  0.0243, -0.0200]],
+       device='cuda:0'), grad: tensor([[-3.6407e-04, -5.5790e-04,  3.2615e-06,  ..., -2.6951e-03,
+          3.7432e-04, -1.5207e-05],
+        [-1.5507e-03,  1.0971e-06, -2.6792e-05,  ...,  2.2984e-04,
+         -5.0879e-04, -6.5994e-03],
+        [ 5.4312e-04,  9.2834e-06,  1.2398e-05,  ...,  2.7800e-04,
+          7.0333e-04,  3.3436e-03],
+        ...,
+        [-3.3665e-03,  1.7688e-05,  2.3842e-05,  ..., -1.6842e-03,
+         -1.5030e-03, -6.5994e-04],
+        [ 5.5456e-04,  1.0654e-05,  1.8209e-05,  ...,  1.6904e-04,
+          5.9319e-04, -2.2011e-03],
+        [ 1.8339e-03,  8.4937e-06,  1.1049e-05,  ...,  2.1875e-04,
+          1.0834e-03,  2.1534e-03]], device='cuda:0')
+Epoch 204, bias, value: tensor([ 0.0103, -0.0036, -0.0008, -0.0179,  0.0118, -0.0056, -0.0143, -0.0228,
+         0.0088, -0.0038], device='cuda:0'), grad: tensor([ 0.0081, -0.0510,  0.0271,  0.0271,  0.0013,  0.0203, -0.0059, -0.0301,
+        -0.0215,  0.0245], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 203, time 216.19, cls_loss 0.5100 cls_loss_mapping 0.0067 cls_loss_causal 0.4799 re_mapping 0.0080 re_causal 0.0212 /// teacc 98.68 lr 0.00010000
+Epoch 205, weight, value: tensor([[ 0.0241,  0.0858, -0.1514,  ..., -0.0861,  0.0627,  0.0041],
+        [-0.0761, -0.0866,  0.0824,  ..., -0.0328, -0.0910,  0.0496],
+        [-0.0593, -0.0461, -0.0935,  ..., -0.1124, -0.0220,  0.0440],
+        ...,
+        [-0.0185, -0.0969, -0.1069,  ..., -0.1051, -0.0243,  0.0611],
+        [-0.0996, -0.0905, -0.0888,  ..., -0.0584, -0.0545, -0.0793],
+        [ 0.0138, -0.0215, -0.0649,  ..., -0.0619,  0.0253, -0.0190]],
+       device='cuda:0'), grad: tensor([[-1.4591e-03, -3.2101e-03,  5.5122e-04,  ..., -9.1028e-04,
+         -2.4357e-03,  1.2035e-03],
+        [ 1.8463e-03,  1.0949e-04,  1.1492e-03,  ...,  5.4359e-04,
+          1.2093e-03,  2.4204e-03],
+        [-1.3962e-03,  5.7068e-03,  6.1951e-03,  ...,  1.4582e-03,
+         -7.5960e-04,  1.2417e-03],
+        ...,
+        [ 7.5626e-04,  9.4831e-05,  3.7360e-04,  ...,  2.2900e-04,
+          5.4979e-04,  1.0042e-03],
+        [ 1.3580e-03,  6.0129e-04,  1.1272e-03,  ...,  5.2309e-04,
+          9.7322e-04,  1.5059e-03],
+        [ 9.1648e-04,  4.6301e-04,  3.3045e-04,  ...,  3.8147e-04,
+          8.1778e-04,  8.1205e-04]], device='cuda:0')
+Epoch 205, bias, value: tensor([ 0.0114, -0.0033, -0.0005, -0.0188,  0.0126, -0.0067, -0.0145, -0.0236,
+         0.0089, -0.0034], device='cuda:0'), grad: tensor([ 0.0036,  0.0500, -0.0030, -0.0295, -0.0490, -0.0210,  0.0002,  0.0146,
+         0.0210,  0.0132], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 204, time 216.13, cls_loss 0.5076 cls_loss_mapping 0.0093 cls_loss_causal 0.4834 re_mapping 0.0077 re_causal 0.0199 /// teacc 98.56 lr 0.00010000
+Epoch 206, weight, value: tensor([[ 0.0237,  0.0861, -0.1520,  ..., -0.0850,  0.0626,  0.0036],
+        [-0.0764, -0.0857,  0.0829,  ..., -0.0332, -0.0901,  0.0498],
+        [-0.0596, -0.0473, -0.0943,  ..., -0.1135, -0.0221,  0.0434],
+        ...,
+        [-0.0185, -0.0973, -0.1082,  ..., -0.1050, -0.0250,  0.0615],
+        [-0.1001, -0.0912, -0.0890,  ..., -0.0584, -0.0555, -0.0785],
+        [ 0.0132, -0.0196, -0.0634,  ..., -0.0624,  0.0252, -0.0192]],
+       device='cuda:0'), grad: tensor([[-9.3079e-04, -3.1223e-03, -4.8566e-04,  ..., -1.3046e-03,
+         -1.7624e-03,  5.5742e-04],
+        [ 1.4906e-03,  1.6943e-05,  3.6678e-03,  ...,  1.3161e-04,
+          1.5011e-03,  4.8561e-03],
+        [ 6.0940e-04,  1.1253e-04,  1.2058e-04,  ...,  5.1945e-05,
+          2.8300e-04,  1.0052e-03],
+        ...,
+        [ 9.2745e-04,  1.2346e-05,  3.5614e-05,  ...,  6.3181e-06,
+          2.3437e-04,  1.3876e-03],
+        [-1.5488e-03,  3.1590e-04,  5.5885e-04,  ...,  1.4579e-04,
+          2.5725e-04, -3.3264e-03],
+        [ 6.5470e-04,  1.6320e-04,  2.7919e-04,  ...,  7.4923e-05,
+          1.6749e-04,  8.8739e-04]], device='cuda:0')
+Epoch 206, bias, value: tensor([ 0.0111, -0.0050,  0.0009, -0.0181,  0.0122, -0.0057, -0.0149, -0.0233,
+         0.0086, -0.0036], device='cuda:0'), grad: tensor([ 0.0015,  0.0101,  0.0136,  0.0147, -0.0139, -0.0238,  0.0083,  0.0191,
+        -0.0418,  0.0123], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 205, time 216.06, cls_loss 0.5170 cls_loss_mapping 0.0062 cls_loss_causal 0.4891 re_mapping 0.0078 re_causal 0.0203 /// teacc 98.82 lr 0.00010000
+Epoch 207, weight, value: tensor([[ 0.0234,  0.0870, -0.1517,  ..., -0.0850,  0.0621,  0.0032],
+        [-0.0770, -0.0862,  0.0822,  ..., -0.0339, -0.0906,  0.0491],
+        [-0.0594, -0.0475, -0.0944,  ..., -0.1129, -0.0223,  0.0435],
+        ...,
+        [-0.0188, -0.0963, -0.1091,  ..., -0.1064, -0.0261,  0.0604],
+        [-0.0990, -0.0908, -0.0897,  ..., -0.0583, -0.0555, -0.0774],
+        [ 0.0139, -0.0206, -0.0629,  ..., -0.0624,  0.0254, -0.0174]],
+       device='cuda:0'), grad: tensor([[-6.4325e-04,  1.1530e-03,  7.1859e-04,  ...,  1.3493e-05,
+         -4.5586e-03,  6.6042e-04],
+        [ 1.1730e-03,  2.1651e-05,  7.9274e-06,  ...,  3.1471e-05,
+          1.1053e-03,  7.1192e-04],
+        [ 4.2038e-03,  2.0809e-03,  1.1959e-03,  ...,  4.2915e-06,
+          4.5891e-03,  1.1797e-03],
+        ...,
+        [-1.2035e-03,  1.3363e-04,  8.0407e-05,  ...,  8.7544e-08,
+         -5.0831e-04, -1.7433e-03],
+        [-5.2338e-03,  1.1997e-03,  5.6314e-04,  ...,  1.3363e-04,
+         -5.4016e-03, -1.6050e-03],
+        [-1.0437e-02, -1.0185e-02, -6.3324e-03,  ...,  6.9663e-06,
+         -5.5275e-03, -2.1896e-03]], device='cuda:0')
+Epoch 207, bias, value: tensor([ 0.0114, -0.0054,  0.0006, -0.0185,  0.0122, -0.0051, -0.0145, -0.0254,
+         0.0096, -0.0026], device='cuda:0'), grad: tensor([-0.0140,  0.0122,  0.0311,  0.0428,  0.0194, -0.0269,  0.0431, -0.0205,
+        -0.0461, -0.0410], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 206, time 216.11, cls_loss 0.4985 cls_loss_mapping 0.0086 cls_loss_causal 0.4712 re_mapping 0.0077 re_causal 0.0191 /// teacc 98.73 lr 0.00010000
+Epoch 208, weight, value: tensor([[ 0.0234,  0.0862, -0.1515,  ..., -0.0852,  0.0622,  0.0030],
+        [-0.0766, -0.0861,  0.0821,  ..., -0.0336, -0.0901,  0.0486],
+        [-0.0595, -0.0488, -0.0959,  ..., -0.1134, -0.0223,  0.0448],
+        ...,
+        [-0.0191, -0.0961, -0.1092,  ..., -0.1076, -0.0260,  0.0607],
+        [-0.0994, -0.0916, -0.0898,  ..., -0.0594, -0.0559, -0.0776],
+        [ 0.0139, -0.0211, -0.0636,  ..., -0.0635,  0.0243, -0.0172]],
+       device='cuda:0'), grad: tensor([[-4.0627e-03, -5.5962e-03, -1.7319e-03,  ..., -4.0627e-03,
+         -4.8332e-03,  1.2150e-03],
+        [ 8.5878e-04,  5.7125e-04, -9.6226e-04,  ...,  4.0340e-04,
+          1.2980e-03,  7.3290e-04],
+        [-4.8943e-03,  9.4700e-04,  1.0757e-03,  ...,  1.2054e-03,
+         -5.3177e-03, -3.6907e-04],
+        ...,
+        [ 8.8787e-04,  2.9206e-04,  7.0667e-04,  ..., -8.0615e-06,
+          1.0681e-03, -2.6226e-03],
+        [-2.1763e-03, -6.2361e-06, -5.5742e-04,  ..., -8.5068e-04,
+         -4.6425e-03, -7.8821e-04],
+        [ 1.9073e-03,  7.2813e-04,  1.0977e-03,  ...,  4.8137e-04,
+          2.8400e-03,  1.5345e-03]], device='cuda:0')
+Epoch 208, bias, value: tensor([ 0.0119, -0.0048,  0.0001, -0.0187,  0.0123, -0.0051, -0.0155, -0.0254,
+         0.0098, -0.0024], device='cuda:0'), grad: tensor([-0.0267,  0.0070, -0.0107, -0.0355,  0.0232,  0.0287,  0.0237, -0.0181,
+        -0.0115,  0.0199], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 207, time 216.01, cls_loss 0.5293 cls_loss_mapping 0.0074 cls_loss_causal 0.5054 re_mapping 0.0079 re_causal 0.0213 /// teacc 98.81 lr 0.00010000
+Epoch 209, weight, value: tensor([[ 0.0230,  0.0855, -0.1519,  ..., -0.0850,  0.0625,  0.0014],
+        [-0.0767, -0.0866,  0.0824,  ..., -0.0322, -0.0907,  0.0489],
+        [-0.0591, -0.0491, -0.0963,  ..., -0.1136, -0.0218,  0.0444],
+        ...,
+        [-0.0196, -0.0959, -0.1098,  ..., -0.1061, -0.0276,  0.0607],
+        [-0.1000, -0.0912, -0.0902,  ..., -0.0577, -0.0560, -0.0780],
+        [ 0.0131, -0.0211, -0.0644,  ..., -0.0638,  0.0242, -0.0155]],
+       device='cuda:0'), grad: tensor([[-1.2989e-03, -9.9763e-06,  1.7953e-04,  ...,  1.0246e-04,
+         -8.5545e-04,  4.3583e-04],
+        [-1.8778e-03,  1.8496e-06,  1.4710e-04,  ...,  1.8805e-05,
+          7.6532e-05, -4.3640e-03],
+        [ 1.5192e-03,  1.2897e-05,  1.1551e-04,  ...,  2.2054e-05,
+          9.2649e-04,  6.2323e-04],
+        ...,
+        [-1.9331e-03, -5.3024e-04,  1.2219e-04,  ...,  2.4475e-06,
+         -2.6665e-03, -6.2866e-03],
+        [ 2.4223e-03,  2.3887e-05,  2.2912e-04,  ...,  1.4138e-04,
+          1.3838e-03,  7.4577e-04],
+        [ 2.4452e-03,  4.4346e-04,  1.6785e-04,  ...,  1.5810e-05,
+          2.2793e-03,  5.2071e-03]], device='cuda:0')
+Epoch 209, bias, value: tensor([ 0.0114, -0.0053,  0.0003, -0.0186,  0.0124, -0.0043, -0.0155, -0.0260,
+         0.0099, -0.0019], device='cuda:0'), grad: tensor([-0.0449, -0.0033,  0.0215,  0.0312, -0.0064,  0.0303, -0.0546, -0.0173,
+         0.0131,  0.0305], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 208, time 216.16, cls_loss 0.5119 cls_loss_mapping 0.0058 cls_loss_causal 0.4840 re_mapping 0.0077 re_causal 0.0198 /// teacc 98.67 lr 0.00010000
+Epoch 210, weight, value: tensor([[ 0.0230,  0.0859, -0.1524,  ..., -0.0853,  0.0622,  0.0028],
+        [-0.0765, -0.0850,  0.0834,  ..., -0.0324, -0.0901,  0.0490],
+        [-0.0582, -0.0489, -0.0960,  ..., -0.1148, -0.0209,  0.0439],
+        ...,
+        [-0.0195, -0.0969, -0.1092,  ..., -0.1060, -0.0270,  0.0607],
+        [-0.1004, -0.0916, -0.0912,  ..., -0.0573, -0.0571, -0.0777],
+        [ 0.0133, -0.0217, -0.0639,  ..., -0.0632,  0.0244, -0.0148]],
+       device='cuda:0'), grad: tensor([[0.0025, 0.0037, 0.0011,  ..., 0.0073, 0.0073, 0.0035],
+        [0.0021, 0.0001, 0.0006,  ..., 0.0003, 0.0017, 0.0022],
+        [0.0034, 0.0006, 0.0002,  ..., 0.0002, 0.0005, 0.0012],
+        ...,
+        [0.0027, 0.0002, 0.0012,  ..., 0.0005, 0.0019, 0.0011],
+        [0.0021, 0.0002, 0.0010,  ..., 0.0008, 0.0016, 0.0020],
+        [0.0029, 0.0003, 0.0016,  ..., 0.0006, 0.0021, 0.0020]],
+       device='cuda:0')
+Epoch 210, bias, value: tensor([ 0.0108, -0.0051,  0.0008, -0.0178,  0.0127, -0.0059, -0.0156, -0.0253,
+         0.0100, -0.0025], device='cuda:0'), grad: tensor([ 0.0406,  0.0224,  0.0255, -0.0403, -0.0738, -0.0118, -0.0209,  0.0182,
+         0.0175,  0.0225], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 209, time 216.30, cls_loss 0.5527 cls_loss_mapping 0.0078 cls_loss_causal 0.5233 re_mapping 0.0075 re_causal 0.0196 /// teacc 98.72 lr 0.00010000
+Epoch 211, weight, value: tensor([[ 0.0234,  0.0859, -0.1537,  ..., -0.0861,  0.0628,  0.0034],
+        [-0.0771, -0.0853,  0.0842,  ..., -0.0326, -0.0910,  0.0496],
+        [-0.0596, -0.0486, -0.0967,  ..., -0.1160, -0.0216,  0.0432],
+        ...,
+        [-0.0179, -0.0965, -0.1102,  ..., -0.1063, -0.0266,  0.0617],
+        [-0.1009, -0.0912, -0.0913,  ..., -0.0579, -0.0560, -0.0780],
+        [ 0.0121, -0.0216, -0.0629,  ..., -0.0622,  0.0229, -0.0159]],
+       device='cuda:0'), grad: tensor([[ 2.2278e-03,  1.4615e-04,  1.0538e-03,  ...,  3.2997e-04,
+          7.5111e-03,  1.8606e-03],
+        [ 3.3569e-04,  1.2428e-05,  1.4467e-03,  ...,  1.3530e-04,
+          1.2436e-03,  7.2975e-03],
+        [ 1.3895e-03,  5.4449e-05,  6.4659e-04,  ...,  1.8561e-04,
+         -1.5867e-04,  6.4392e-03],
+        ...,
+        [ 3.2387e-03,  3.5554e-05,  4.4918e-04,  ...,  3.2902e-04,
+          3.0918e-03,  2.7542e-03],
+        [ 2.0466e-03,  1.5306e-04, -1.9159e-03,  ...,  2.1720e-04,
+          4.5180e-04, -8.3237e-03],
+        [-4.7340e-03, -2.4021e-04, -1.4582e-03,  ..., -2.4605e-03,
+         -6.9237e-04, -6.5470e-04]], device='cuda:0')
+Epoch 211, bias, value: tensor([ 0.0109, -0.0046,  0.0008, -0.0184,  0.0126, -0.0065, -0.0144, -0.0247,
+         0.0099, -0.0034], device='cuda:0'), grad: tensor([ 0.0637,  0.0412,  0.0231, -0.0022, -0.0695,  0.0294, -0.0823,  0.0402,
+        -0.0168, -0.0270], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 210, time 216.22, cls_loss 0.5125 cls_loss_mapping 0.0072 cls_loss_causal 0.4806 re_mapping 0.0075 re_causal 0.0186 /// teacc 98.75 lr 0.00010000
+Epoch 212, weight, value: tensor([[ 0.0240,  0.0864, -0.1523,  ..., -0.0850,  0.0633,  0.0045],
+        [-0.0774, -0.0858,  0.0830,  ..., -0.0334, -0.0916,  0.0497],
+        [-0.0592, -0.0494, -0.0980,  ..., -0.1160, -0.0215,  0.0435],
+        ...,
+        [-0.0190, -0.0970, -0.1084,  ..., -0.1078, -0.0273,  0.0624],
+        [-0.0996, -0.0904, -0.0916,  ..., -0.0581, -0.0542, -0.0774],
+        [ 0.0129, -0.0208, -0.0604,  ..., -0.0622,  0.0227, -0.0176]],
+       device='cuda:0'), grad: tensor([[-6.9189e-04,  6.6876e-05, -1.0556e-04,  ...,  4.7827e-04,
+         -6.0320e-04, -6.3944e-04],
+        [ 8.7595e-04,  2.5436e-05, -1.3304e-04,  ...,  1.1879e-04,
+          4.5633e-04,  2.4414e-03],
+        [ 1.0767e-03,  7.7307e-05,  2.6493e-03,  ...,  3.7694e-04,
+          2.4261e-03, -2.7866e-03],
+        ...,
+        [-3.6411e-03, -6.5446e-05, -7.3385e-04,  ..., -3.3321e-03,
+         -3.2539e-03, -1.5771e-04],
+        [ 2.0847e-03,  5.8317e-04, -2.4872e-03,  ...,  5.6171e-04,
+         -1.2064e-03,  8.8930e-04],
+        [-2.7504e-03,  1.0401e-04, -1.0705e-04,  ...,  1.9526e-04,
+         -1.4210e-03, -7.3004e-04]], device='cuda:0')
+Epoch 212, bias, value: tensor([ 0.0110, -0.0053,  0.0014, -0.0184,  0.0128, -0.0062, -0.0148, -0.0245,
+         0.0103, -0.0040], device='cuda:0'), grad: tensor([-0.0168,  0.0082,  0.0208, -0.0133,  0.0179, -0.0035,  0.0140, -0.0126,
+         0.0082, -0.0227], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 211, time 216.56, cls_loss 0.4944 cls_loss_mapping 0.0076 cls_loss_causal 0.4680 re_mapping 0.0076 re_causal 0.0184 /// teacc 98.75 lr 0.00010000
+Epoch 213, weight, value: tensor([[ 0.0231,  0.0866, -0.1532,  ..., -0.0853,  0.0624,  0.0038],
+        [-0.0776, -0.0859,  0.0838,  ..., -0.0333, -0.0919,  0.0503],
+        [-0.0597, -0.0498, -0.0986,  ..., -0.1158, -0.0209,  0.0447],
+        ...,
+        [-0.0198, -0.0979, -0.1087,  ..., -0.1081, -0.0279,  0.0616],
+        [-0.0995, -0.0904, -0.0921,  ..., -0.0572, -0.0544, -0.0782],
+        [ 0.0136, -0.0201, -0.0606,  ..., -0.0625,  0.0242, -0.0186]],
+       device='cuda:0'), grad: tensor([[ 1.3971e-03,  3.3045e-04,  1.0300e-03,  ...,  1.6427e-04,
+          7.6199e-04,  8.1158e-04],
+        [-1.3387e-04,  6.4433e-05,  9.7215e-05,  ...,  3.9101e-05,
+          1.1653e-04, -7.5161e-05],
+        [ 3.4094e-04,  2.1708e-04, -6.0320e-04,  ...,  6.0946e-05,
+          3.4571e-04, -1.8942e-04],
+        ...,
+        [ 1.3952e-03,  1.0866e-04,  5.5552e-04,  ...,  7.1704e-05,
+          8.0156e-04, -5.2118e-04],
+        [ 3.8071e-03,  2.9907e-03,  3.0231e-03,  ...,  2.3270e-03,
+          2.5291e-03,  5.1022e-04],
+        [ 5.1842e-03,  6.6042e-04,  1.2007e-03,  ...,  3.8266e-04,
+          4.5967e-03,  7.5912e-04]], device='cuda:0')
+Epoch 213, bias, value: tensor([ 0.0097, -0.0052,  0.0014, -0.0184,  0.0142, -0.0056, -0.0150, -0.0252,
+         0.0099, -0.0037], device='cuda:0'), grad: tensor([ 0.0229, -0.0071, -0.0075, -0.0374, -0.0493, -0.0280,  0.0267,  0.0133,
+         0.0352,  0.0312], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 212, time 216.43, cls_loss 0.5266 cls_loss_mapping 0.0088 cls_loss_causal 0.4923 re_mapping 0.0079 re_causal 0.0214 /// teacc 98.70 lr 0.00010000
+Epoch 214, weight, value: tensor([[ 0.0233,  0.0865, -0.1531,  ..., -0.0851,  0.0625,  0.0035],
+        [-0.0775, -0.0863,  0.0835,  ..., -0.0338, -0.0927,  0.0496],
+        [-0.0605, -0.0502, -0.0987,  ..., -0.1171, -0.0203,  0.0456],
+        ...,
+        [-0.0200, -0.0978, -0.1091,  ..., -0.1091, -0.0290,  0.0619],
+        [-0.0986, -0.0899, -0.0910,  ..., -0.0569, -0.0526, -0.0786],
+        [ 0.0140, -0.0206, -0.0607,  ..., -0.0629,  0.0239, -0.0190]],
+       device='cuda:0'), grad: tensor([[ 3.8548e-03,  5.7459e-05,  4.1461e-04,  ...,  2.2984e-03,
+          5.2757e-03,  2.3675e-04],
+        [ 9.9945e-04,  6.6102e-05,  3.2115e-04,  ...,  2.9281e-06,
+          7.4387e-04,  4.7398e-04],
+        [-1.8587e-03,  1.8692e-04, -6.0892e-04,  ...,  2.8033e-06,
+         -2.4281e-03,  3.9196e-04],
+        ...,
+        [ 5.0783e-05,  1.2851e-04,  7.5102e-04,  ...,  6.3330e-08,
+          1.0662e-03, -1.8654e-03],
+        [ 2.2621e-03,  3.7313e-04,  6.5613e-04,  ...,  5.6058e-05,
+          1.0014e-03,  1.0414e-03],
+        [ 1.6470e-03,  7.1764e-05, -9.0227e-06,  ...,  6.0769e-07,
+          1.1568e-03, -7.9489e-04]], device='cuda:0')
+Epoch 214, bias, value: tensor([ 0.0098, -0.0058,  0.0017, -0.0184,  0.0138, -0.0057, -0.0152, -0.0252,
+         0.0107, -0.0035], device='cuda:0'), grad: tensor([ 0.0248, -0.0127, -0.0398, -0.0211, -0.0172,  0.0154, -0.0313,  0.0016,
+         0.0672,  0.0130], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 213, time 216.64, cls_loss 0.5171 cls_loss_mapping 0.0057 cls_loss_causal 0.4911 re_mapping 0.0077 re_causal 0.0217 /// teacc 98.67 lr 0.00010000
+Epoch 215, weight, value: tensor([[ 0.0223,  0.0877, -0.1524,  ..., -0.0862,  0.0624,  0.0032],
+        [-0.0776, -0.0863,  0.0843,  ..., -0.0338, -0.0925,  0.0486],
+        [-0.0611, -0.0505, -0.0989,  ..., -0.1172, -0.0207,  0.0466],
+        ...,
+        [-0.0192, -0.0987, -0.1106,  ..., -0.1086, -0.0282,  0.0614],
+        [-0.0986, -0.0899, -0.0915,  ..., -0.0576, -0.0528, -0.0793],
+        [ 0.0143, -0.0200, -0.0613,  ..., -0.0633,  0.0241, -0.0183]],
+       device='cuda:0'), grad: tensor([[-4.2496e-03, -2.4624e-03, -2.3403e-03,  ..., -7.1001e-04,
+         -3.0785e-03, -1.1797e-03],
+        [-1.4925e-03,  8.6427e-05, -7.1678e-03,  ..., -6.2675e-03,
+         -3.1662e-03, -2.6340e-03],
+        [-3.4294e-03,  5.7077e-04,  2.1172e-04,  ...,  1.1802e-05,
+         -4.6182e-04, -1.0445e-02],
+        ...,
+        [ 1.0557e-03,  2.9817e-05, -5.2643e-04,  ...,  9.6738e-05,
+          8.2195e-05,  4.7035e-03],
+        [ 2.1534e-03,  4.8375e-04,  7.6485e-04,  ...,  4.6849e-04,
+          1.2617e-03,  1.7118e-03],
+        [-1.2917e-02,  1.8883e-04,  5.5981e-04,  ...,  1.0800e-04,
+         -4.9171e-03,  1.7090e-03]], device='cuda:0')
+Epoch 215, bias, value: tensor([ 0.0094, -0.0059,  0.0013, -0.0184,  0.0136, -0.0063, -0.0142, -0.0246,
+         0.0107, -0.0034], device='cuda:0'), grad: tensor([-0.0104, -0.0162, -0.0596,  0.0100,  0.0208,  0.0100,  0.0272,  0.0213,
+         0.0226, -0.0258], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 214, time 216.51, cls_loss 0.5045 cls_loss_mapping 0.0069 cls_loss_causal 0.4832 re_mapping 0.0074 re_causal 0.0204 /// teacc 98.71 lr 0.00010000
+Epoch 216, weight, value: tensor([[ 0.0229,  0.0887, -0.1512,  ..., -0.0860,  0.0621,  0.0041],
+        [-0.0767, -0.0871,  0.0837,  ..., -0.0338, -0.0924,  0.0478],
+        [-0.0626, -0.0510, -0.0998,  ..., -0.1171, -0.0211,  0.0463],
+        ...,
+        [-0.0185, -0.0987, -0.1099,  ..., -0.1095, -0.0272,  0.0624],
+        [-0.1000, -0.0895, -0.0915,  ..., -0.0581, -0.0538, -0.0804],
+        [ 0.0150, -0.0203, -0.0612,  ..., -0.0628,  0.0241, -0.0177]],
+       device='cuda:0'), grad: tensor([[-9.7046e-03,  3.2902e-04,  3.7599e-04,  ...,  2.4486e-04,
+         -1.2497e-02,  1.3626e-04],
+        [ 2.1706e-03,  4.6253e-05,  8.3685e-04,  ...,  1.3649e-04,
+          8.4639e-04,  1.3657e-03],
+        [-3.8223e-03,  1.9836e-04, -8.8358e-04,  ...,  1.3924e-04,
+         -2.3651e-03, -1.1148e-03],
+        ...,
+        [ 1.4801e-03,  2.3499e-05,  7.6628e-04,  ...,  9.7096e-05,
+          9.2316e-04,  1.0290e-03],
+        [-5.4016e-03,  1.3685e-04, -2.7657e-03,  ..., -3.4499e-04,
+         -1.4734e-03, -5.1498e-03],
+        [ 3.7632e-03,  1.7190e-04,  9.1410e-04,  ...,  1.4484e-04,
+          3.0918e-03,  1.2531e-03]], device='cuda:0')
+Epoch 216, bias, value: tensor([ 0.0102, -0.0060, -0.0006, -0.0182,  0.0133, -0.0056, -0.0155, -0.0229,
+         0.0099, -0.0025], device='cuda:0'), grad: tensor([-0.0362,  0.0098, -0.0355,  0.0212,  0.0126, -0.0028,  0.0177,  0.0084,
+        -0.0194,  0.0242], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 215, time 216.43, cls_loss 0.4855 cls_loss_mapping 0.0079 cls_loss_causal 0.4611 re_mapping 0.0076 re_causal 0.0193 /// teacc 98.80 lr 0.00010000
+Epoch 217, weight, value: tensor([[ 0.0239,  0.0891, -0.1518,  ..., -0.0858,  0.0634,  0.0048],
+        [-0.0765, -0.0882,  0.0818,  ..., -0.0345, -0.0920,  0.0483],
+        [-0.0628, -0.0505, -0.0998,  ..., -0.1178, -0.0213,  0.0459],
+        ...,
+        [-0.0183, -0.0988, -0.1103,  ..., -0.1104, -0.0274,  0.0621],
+        [-0.0999, -0.0903, -0.0915,  ..., -0.0577, -0.0542, -0.0806],
+        [ 0.0147, -0.0216, -0.0627,  ..., -0.0628,  0.0230, -0.0168]],
+       device='cuda:0'), grad: tensor([[ 3.9024e-03,  1.7252e-03,  1.2312e-03,  ...,  8.0633e-04,
+          2.3308e-03,  1.2579e-03],
+        [ 1.5392e-03,  1.8358e-04,  1.4877e-03,  ...,  1.6463e-04,
+          2.0618e-03,  3.9041e-05],
+        [-4.2868e-04,  7.2098e-04,  1.0309e-03,  ...,  2.8372e-04,
+          2.4929e-03,  2.4853e-03],
+        ...,
+        [ 5.6267e-03,  1.0366e-03,  7.7152e-04,  ...,  5.9366e-05,
+          2.9068e-03,  8.7976e-04],
+        [-4.0197e-04, -1.6098e-03,  3.0470e-04,  ..., -8.7070e-04,
+         -2.1946e-04, -4.3225e-04],
+        [-7.5226e-03, -1.0258e-04, -2.1420e-03,  ...,  1.0616e-04,
+         -5.1079e-03, -1.9350e-03]], device='cuda:0')
+Epoch 217, bias, value: tensor([ 0.0108, -0.0058, -0.0011, -0.0179,  0.0129, -0.0064, -0.0157, -0.0232,
+         0.0102, -0.0019], device='cuda:0'), grad: tensor([ 0.0268,  0.0160,  0.0370, -0.0011,  0.0222, -0.0526, -0.0145,  0.0338,
+         0.0138, -0.0814], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 216, time 216.38, cls_loss 0.5328 cls_loss_mapping 0.0058 cls_loss_causal 0.4991 re_mapping 0.0076 re_causal 0.0197 /// teacc 98.82 lr 0.00010000
+Epoch 218, weight, value: tensor([[ 0.0251,  0.0896, -0.1507,  ..., -0.0869,  0.0637,  0.0062],
+        [-0.0754, -0.0884,  0.0818,  ..., -0.0337, -0.0904,  0.0483],
+        [-0.0634, -0.0512, -0.1003,  ..., -0.1185, -0.0222,  0.0460],
+        ...,
+        [-0.0173, -0.0989, -0.1105,  ..., -0.1106, -0.0273,  0.0635],
+        [-0.1001, -0.0909, -0.0925,  ..., -0.0577, -0.0543, -0.0807],
+        [ 0.0130, -0.0220, -0.0624,  ..., -0.0638,  0.0219, -0.0185]],
+       device='cuda:0'), grad: tensor([[ 1.2579e-03, -2.0158e-04,  8.8811e-05,  ...,  1.0180e-04,
+          3.9887e-04,  1.1168e-03],
+        [ 1.3866e-03,  1.7256e-05, -2.3627e-04,  ...,  1.3483e-04,
+          3.5691e-04, -3.3379e-03],
+        [-1.6654e-04,  2.3603e-05,  8.3923e-05,  ...,  3.6895e-05,
+          1.4913e-04,  8.6021e-04],
+        ...,
+        [-8.7128e-03, -7.4804e-05,  5.4741e-04,  ..., -8.6737e-04,
+         -3.1414e-03,  2.7351e-03],
+        [ 5.9166e-03,  2.8534e-03,  4.7035e-03,  ...,  2.0065e-03,
+          7.0572e-04,  1.8101e-03],
+        [ 4.1656e-03,  1.0902e-04,  1.9426e-03,  ...,  1.2863e-04,
+          1.2026e-03, -5.3549e-04]], device='cuda:0')
+Epoch 218, bias, value: tensor([ 0.0107, -0.0050, -0.0013, -0.0185,  0.0126, -0.0064, -0.0151, -0.0229,
+         0.0103, -0.0024], device='cuda:0'), grad: tensor([ 0.0189,  0.0146,  0.0047,  0.0195, -0.0200, -0.0088, -0.0147, -0.0546,
+         0.0244,  0.0161], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 217, time 216.23, cls_loss 0.4859 cls_loss_mapping 0.0068 cls_loss_causal 0.4560 re_mapping 0.0079 re_causal 0.0200 /// teacc 98.77 lr 0.00010000
+Epoch 219, weight, value: tensor([[ 0.0254,  0.0900, -0.1502,  ..., -0.0878,  0.0640,  0.0065],
+        [-0.0755, -0.0894,  0.0824,  ..., -0.0337, -0.0907,  0.0492],
+        [-0.0643, -0.0524, -0.1027,  ..., -0.1191, -0.0216,  0.0467],
+        ...,
+        [-0.0173, -0.0984, -0.1098,  ..., -0.1093, -0.0274,  0.0627],
+        [-0.1008, -0.0932, -0.0929,  ..., -0.0589, -0.0541, -0.0807],
+        [ 0.0138, -0.0219, -0.0631,  ..., -0.0665,  0.0217, -0.0198]],
+       device='cuda:0'), grad: tensor([[-1.4591e-03, -2.3162e-04, -5.1022e-04,  ..., -1.3614e-04,
+         -1.0052e-03, -9.4604e-04],
+        [ 1.8625e-03,  1.3053e-04,  1.2035e-03,  ...,  2.8777e-04,
+          6.4135e-04,  1.2913e-03],
+        [ 2.2583e-03,  1.7834e-04, -5.7518e-05,  ...,  1.3494e-04,
+          3.5858e-03, -3.2127e-05],
+        ...,
+        [-4.2648e-03, -5.5170e-04, -2.1954e-03,  ..., -1.1368e-03,
+         -1.2062e-05, -5.2719e-03],
+        [-2.1458e-03,  1.0824e-04, -2.1420e-03,  ...,  9.3579e-06,
+         -1.0500e-03, -8.2111e-04],
+        [ 9.9182e-05,  1.2410e-04, -5.8621e-05,  ...,  8.0884e-05,
+         -6.4802e-04,  1.1711e-03]], device='cuda:0')
+Epoch 219, bias, value: tensor([ 0.0101, -0.0042, -0.0015, -0.0178,  0.0127, -0.0060, -0.0157, -0.0234,
+         0.0102, -0.0024], device='cuda:0'), grad: tensor([-0.0193,  0.0227, -0.0068,  0.0206,  0.0119,  0.0232,  0.0179, -0.0229,
+        -0.0419, -0.0056], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 218, time 216.56, cls_loss 0.5188 cls_loss_mapping 0.0075 cls_loss_causal 0.4883 re_mapping 0.0080 re_causal 0.0213 /// teacc 98.71 lr 0.00010000
+Epoch 220, weight, value: tensor([[ 0.0264,  0.0915, -0.1489,  ..., -0.0867,  0.0649,  0.0069],
+        [-0.0765, -0.0897,  0.0824,  ..., -0.0336, -0.0910,  0.0507],
+        [-0.0635, -0.0520, -0.1029,  ..., -0.1189, -0.0212,  0.0465],
+        ...,
+        [-0.0161, -0.0969, -0.1100,  ..., -0.1092, -0.0273,  0.0629],
+        [-0.1008, -0.0947, -0.0933,  ..., -0.0598, -0.0545, -0.0821],
+        [ 0.0132, -0.0228, -0.0645,  ..., -0.0665,  0.0211, -0.0199]],
+       device='cuda:0'), grad: tensor([[ 1.0166e-03, -5.5008e-03, -7.5483e-04,  ...,  1.0408e-05,
+         -2.2411e-03,  1.0090e-03],
+        [ 1.3247e-03,  1.5557e-05, -1.9288e-04,  ..., -1.3316e-04,
+          8.5688e-04,  1.0300e-03],
+        [ 8.3637e-04,  2.3925e-04,  1.1355e-04,  ...,  6.1333e-05,
+          9.5320e-04, -1.0729e-03],
+        ...,
+        [-2.2583e-03,  5.7109e-06,  2.1502e-05,  ...,  2.7955e-05,
+         -7.7963e-04, -3.1281e-03],
+        [-7.8058e-04,  4.5681e-04,  9.2864e-05,  ...,  2.5392e-04,
+         -8.5449e-04,  8.1539e-04],
+        [-8.2541e-04,  9.4831e-05,  1.7345e-05,  ...,  8.6725e-06,
+         -1.0834e-03, -3.3426e-04]], device='cuda:0')
+Epoch 220, bias, value: tensor([ 0.0102, -0.0037, -0.0011, -0.0181,  0.0130, -0.0067, -0.0159, -0.0231,
+         0.0100, -0.0026], device='cuda:0'), grad: tensor([ 0.0077,  0.0214,  0.0053, -0.0298, -0.0088,  0.0189,  0.0153, -0.0311,
+         0.0130, -0.0120], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 219, time 216.35, cls_loss 0.4985 cls_loss_mapping 0.0087 cls_loss_causal 0.4778 re_mapping 0.0076 re_causal 0.0203 /// teacc 98.65 lr 0.00010000
+Epoch 221, weight, value: tensor([[ 0.0262,  0.0916, -0.1487,  ..., -0.0877,  0.0652,  0.0079],
+        [-0.0767, -0.0907,  0.0826,  ..., -0.0348, -0.0913,  0.0501],
+        [-0.0636, -0.0520, -0.1025,  ..., -0.1181, -0.0204,  0.0475],
+        ...,
+        [-0.0154, -0.0959, -0.1087,  ..., -0.1062, -0.0273,  0.0619],
+        [-0.1006, -0.0939, -0.0932,  ..., -0.0599, -0.0538, -0.0817],
+        [ 0.0131, -0.0225, -0.0648,  ..., -0.0674,  0.0207, -0.0203]],
+       device='cuda:0'), grad: tensor([[-5.9462e-04,  9.1270e-06,  1.0967e-05,  ...,  1.6856e-04,
+         -6.1035e-04,  3.6430e-04],
+        [-2.0313e-03,  4.9584e-06,  1.1355e-05,  ..., -1.8215e-03,
+         -1.2102e-03, -1.1902e-02],
+        [ 4.9137e-06,  2.1386e-04,  1.1569e-04,  ...,  1.3328e-04,
+          6.9475e-04,  6.7863e-03],
+        ...,
+        [-3.9148e-04,  4.1425e-05,  1.1146e-05,  ...,  5.9336e-05,
+         -2.0349e-04, -7.0810e-05],
+        [ 1.4944e-03,  9.3102e-05,  7.2718e-05,  ...,  2.5749e-04,
+          8.7500e-04,  1.4381e-03],
+        [-4.5371e-04,  1.5974e-05,  2.1935e-05,  ...,  1.5724e-04,
+         -5.6076e-04,  7.6151e-04]], device='cuda:0')
+Epoch 221, bias, value: tensor([ 0.0111, -0.0039, -0.0006, -0.0177,  0.0121, -0.0058, -0.0161, -0.0244,
+         0.0100, -0.0026], device='cuda:0'), grad: tensor([-0.0099, -0.0656,  0.0289,  0.0128, -0.0047, -0.0086,  0.0267, -0.0021,
+         0.0284, -0.0060], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 220, time 216.32, cls_loss 0.5077 cls_loss_mapping 0.0070 cls_loss_causal 0.4848 re_mapping 0.0072 re_causal 0.0198 /// teacc 98.71 lr 0.00010000
+Epoch 222, weight, value: tensor([[ 0.0266,  0.0931, -0.1479,  ..., -0.0880,  0.0654,  0.0073],
+        [-0.0767, -0.0922,  0.0823,  ..., -0.0341, -0.0906,  0.0511],
+        [-0.0638, -0.0522, -0.1031,  ..., -0.1186, -0.0197,  0.0473],
+        ...,
+        [-0.0159, -0.0966, -0.1100,  ..., -0.1056, -0.0283,  0.0617],
+        [-0.1008, -0.0927, -0.0936,  ..., -0.0602, -0.0538, -0.0815],
+        [ 0.0136, -0.0220, -0.0631,  ..., -0.0694,  0.0210, -0.0208]],
+       device='cuda:0'), grad: tensor([[ 2.9564e-03,  3.4809e-03,  2.7046e-03,  ...,  1.6098e-03,
+          1.9855e-03,  1.8816e-03],
+        [ 1.0023e-03,  6.0856e-05, -1.7433e-03,  ...,  2.0278e-04,
+          3.7122e-04,  3.3989e-03],
+        [-8.4734e-04, -5.5733e-03, -3.9368e-03,  ..., -2.6436e-03,
+          7.6485e-04, -2.0256e-03],
+        ...,
+        [ 1.7061e-03,  6.6161e-05,  4.0507e-04,  ...,  6.0648e-05,
+          1.1482e-03, -2.4929e-03],
+        [-7.5035e-03, -3.8838e-04, -1.1168e-03,  ...,  1.6060e-03,
+         -7.1487e-03, -4.3335e-03],
+        [ 4.2839e-03,  1.2999e-03,  4.8256e-03,  ...,  2.2745e-04,
+          4.1161e-03,  2.3384e-03]], device='cuda:0')
+Epoch 222, bias, value: tensor([ 0.0119, -0.0037, -0.0003, -0.0177,  0.0113, -0.0057, -0.0167, -0.0246,
+         0.0096, -0.0019], device='cuda:0'), grad: tensor([ 0.0344,  0.0248, -0.0497,  0.0043,  0.0106, -0.0165, -0.0214,  0.0110,
+        -0.0234,  0.0258], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 221, time 216.28, cls_loss 0.5177 cls_loss_mapping 0.0078 cls_loss_causal 0.4926 re_mapping 0.0076 re_causal 0.0195 /// teacc 98.78 lr 0.00010000
+Epoch 223, weight, value: tensor([[ 0.0264,  0.0940, -0.1489,  ..., -0.0884,  0.0658,  0.0067],
+        [-0.0777, -0.0931,  0.0831,  ..., -0.0352, -0.0913,  0.0503],
+        [-0.0644, -0.0523, -0.1028,  ..., -0.1180, -0.0201,  0.0481],
+        ...,
+        [-0.0157, -0.0982, -0.1101,  ..., -0.1040, -0.0278,  0.0623],
+        [-0.1012, -0.0929, -0.0927,  ..., -0.0602, -0.0536, -0.0807],
+        [ 0.0136, -0.0233, -0.0641,  ..., -0.0719,  0.0207, -0.0208]],
+       device='cuda:0'), grad: tensor([[ 0.0008, -0.0002,  0.0005,  ...,  0.0001,  0.0001,  0.0003],
+        [ 0.0011,  0.0004, -0.0010,  ..., -0.0004,  0.0008, -0.0010],
+        [ 0.0015,  0.0007,  0.0012,  ...,  0.0002,  0.0015,  0.0005],
+        ...,
+        [ 0.0003,  0.0004,  0.0008,  ...,  0.0002,  0.0008, -0.0006],
+        [ 0.0015,  0.0004,  0.0006,  ...,  0.0002,  0.0010,  0.0005],
+        [ 0.0033,  0.0013,  0.0019,  ...,  0.0002,  0.0020,  0.0015]],
+       device='cuda:0')
+Epoch 223, bias, value: tensor([ 0.0118, -0.0038, -0.0008, -0.0177,  0.0106, -0.0053, -0.0161, -0.0247,
+         0.0094, -0.0013], device='cuda:0'), grad: tensor([ 0.0123, -0.0003,  0.0157, -0.0107, -0.0344, -0.0394,  0.0112,  0.0203,
+         0.0161,  0.0091], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 222, time 216.06, cls_loss 0.4947 cls_loss_mapping 0.0052 cls_loss_causal 0.4686 re_mapping 0.0070 re_causal 0.0189 /// teacc 98.76 lr 0.00010000
+Epoch 224, weight, value: tensor([[ 0.0262,  0.0937, -0.1487,  ..., -0.0894,  0.0663,  0.0065],
+        [-0.0772, -0.0941,  0.0827,  ..., -0.0351, -0.0916,  0.0499],
+        [-0.0652, -0.0517, -0.1024,  ..., -0.1175, -0.0207,  0.0480],
+        ...,
+        [-0.0156, -0.0988, -0.1099,  ..., -0.1046, -0.0279,  0.0628],
+        [-0.1014, -0.0907, -0.0921,  ..., -0.0610, -0.0526, -0.0817],
+        [ 0.0131, -0.0233, -0.0645,  ..., -0.0714,  0.0204, -0.0210]],
+       device='cuda:0'), grad: tensor([[ 1.3170e-03,  3.1033e-03, -4.8995e-05,  ...,  3.8099e-04,
+          2.3880e-03,  2.2144e-03],
+        [ 2.1229e-03,  2.0087e-04, -3.7718e-04,  ...,  8.1658e-05,
+          1.5268e-03,  1.1139e-03],
+        [-3.9411e-04, -4.4060e-03,  1.0097e-04,  ...,  8.4281e-05,
+         -6.6948e-04,  6.7472e-04],
+        ...,
+        [-5.9280e-03,  1.8632e-04, -2.0817e-05,  ..., -4.9925e-04,
+         -2.7637e-03, -4.6310e-03],
+        [ 2.0390e-03,  4.0746e-04,  3.2663e-04,  ...,  2.3818e-04,
+          1.6785e-03,  1.7824e-03],
+        [ 6.3896e-04,  1.6296e-04,  3.0780e-04,  ..., -3.5465e-05,
+         -1.7900e-03, -4.7569e-03]], device='cuda:0')
+Epoch 224, bias, value: tensor([ 0.0109, -0.0039, -0.0009, -0.0182,  0.0112, -0.0048, -0.0154, -0.0252,
+         0.0096, -0.0012], device='cuda:0'), grad: tensor([ 0.0084,  0.0253,  0.0066,  0.0267,  0.0567,  0.0015, -0.0076, -0.0673,
+         0.0042, -0.0544], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 223, time 215.90, cls_loss 0.4991 cls_loss_mapping 0.0039 cls_loss_causal 0.4692 re_mapping 0.0076 re_causal 0.0200 /// teacc 98.84 lr 0.00010000
+Epoch 225, weight, value: tensor([[ 0.0254,  0.0937, -0.1487,  ..., -0.0890,  0.0662,  0.0058],
+        [-0.0784, -0.0949,  0.0827,  ..., -0.0355, -0.0926,  0.0506],
+        [-0.0655, -0.0515, -0.1027,  ..., -0.1178, -0.0212,  0.0477],
+        ...,
+        [-0.0148, -0.0992, -0.1086,  ..., -0.1049, -0.0274,  0.0627],
+        [-0.1014, -0.0886, -0.0921,  ..., -0.0604, -0.0528, -0.0821],
+        [ 0.0131, -0.0227, -0.0630,  ..., -0.0719,  0.0207, -0.0200]],
+       device='cuda:0'), grad: tensor([[-5.5981e-04, -3.1304e-04,  7.8455e-06,  ...,  0.0000e+00,
+         -4.9210e-04, -1.5860e-03],
+        [ 6.8808e-04,  9.3877e-06,  6.4163e-03,  ...,  0.0000e+00,
+          3.1042e-04,  2.7885e-03],
+        [ 4.9496e-04,  1.5378e-05,  3.8862e-05,  ...,  0.0000e+00,
+          1.9526e-04,  1.5802e-03],
+        ...,
+        [ 2.0161e-03,  7.7105e-04,  1.0614e-03,  ...,  0.0000e+00,
+          1.3981e-03,  3.2330e-03],
+        [ 3.7909e-04,  1.4150e-04,  1.4591e-04,  ...,  0.0000e+00,
+          2.6989e-04,  1.5593e-03],
+        [-1.7872e-03, -5.7173e-04, -7.9346e-03,  ...,  0.0000e+00,
+         -1.1539e-03, -8.0414e-03]], device='cuda:0')
+Epoch 225, bias, value: tensor([ 0.0100, -0.0039, -0.0009, -0.0179,  0.0106, -0.0047, -0.0144, -0.0244,
+         0.0090, -0.0014], device='cuda:0'), grad: tensor([-0.0195,  0.0015,  0.0168, -0.0167, -0.0066, -0.0196,  0.0171,  0.0240,
+         0.0177, -0.0147], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 224, time 215.97, cls_loss 0.5177 cls_loss_mapping 0.0046 cls_loss_causal 0.4918 re_mapping 0.0075 re_causal 0.0205 /// teacc 98.80 lr 0.00010000
+Epoch 226, weight, value: tensor([[ 0.0255,  0.0940, -0.1494,  ..., -0.0888,  0.0670,  0.0062],
+        [-0.0791, -0.0946,  0.0833,  ..., -0.0345, -0.0933,  0.0501],
+        [-0.0650, -0.0518, -0.1035,  ..., -0.1172, -0.0204,  0.0480],
+        ...,
+        [-0.0151, -0.1000, -0.1080,  ..., -0.1053, -0.0270,  0.0628],
+        [-0.1015, -0.0887, -0.0926,  ..., -0.0604, -0.0527, -0.0817],
+        [ 0.0127, -0.0230, -0.0627,  ..., -0.0717,  0.0203, -0.0193]],
+       device='cuda:0'), grad: tensor([[ 2.4109e-03, -2.6107e-04,  5.0850e-06,  ...,  1.0471e-03,
+          1.6999e-04,  1.5020e-03],
+        [-1.4896e-03,  5.0992e-05,  1.0437e-04,  ...,  2.7108e-04,
+         -8.3208e-04, -6.5374e-04],
+        [ 1.2817e-03,  9.0897e-05,  9.1374e-05,  ...,  1.1826e-04,
+          3.7193e-04,  1.4524e-03],
+        ...,
+        [ 3.0231e-04,  1.5602e-03,  7.4234e-03,  ...,  1.0806e-04,
+          4.9639e-04,  2.7752e-03],
+        [ 2.6321e-03,  7.4208e-05,  4.8012e-05,  ..., -8.8549e-04,
+         -1.3609e-03,  2.8305e-03],
+        [-7.9956e-03,  4.6015e-05,  9.7036e-05,  ...,  1.1057e-04,
+         -3.3593e-04, -1.7767e-03]], device='cuda:0')
+Epoch 226, bias, value: tensor([ 0.0113, -0.0046, -0.0006, -0.0183,  0.0101, -0.0052, -0.0145, -0.0231,
+         0.0082, -0.0012], device='cuda:0'), grad: tensor([ 0.0319, -0.0032,  0.0211,  0.0036,  0.0240, -0.0408,  0.0007, -0.0364,
+         0.0252, -0.0259], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 225, time 215.96, cls_loss 0.5074 cls_loss_mapping 0.0083 cls_loss_causal 0.4821 re_mapping 0.0076 re_causal 0.0201 /// teacc 98.66 lr 0.00010000
+Epoch 227, weight, value: tensor([[ 0.0267,  0.0940, -0.1490,  ..., -0.0891,  0.0672,  0.0046],
+        [-0.0794, -0.0942,  0.0840,  ..., -0.0346, -0.0936,  0.0509],
+        [-0.0655, -0.0519, -0.1047,  ..., -0.1179, -0.0212,  0.0484],
+        ...,
+        [-0.0157, -0.1012, -0.1089,  ..., -0.1057, -0.0276,  0.0615],
+        [-0.1024, -0.0883, -0.0920,  ..., -0.0602, -0.0523, -0.0823],
+        [ 0.0138, -0.0221, -0.0626,  ..., -0.0719,  0.0203, -0.0194]],
+       device='cuda:0'), grad: tensor([[-8.3017e-04,  2.8163e-05,  1.1444e-04,  ...,  1.5700e-04,
+         -6.0797e-04,  2.0683e-04],
+        [ 7.9870e-04,  2.8923e-05,  1.4222e-04,  ...,  1.8930e-04,
+          6.4135e-04, -1.5569e-04],
+        [ 7.6962e-04,  3.7611e-05,  4.0460e-04,  ...,  7.3099e-04,
+          6.8378e-04,  2.1648e-03],
+        ...,
+        [ 6.2084e-04,  1.0625e-05,  4.7088e-05,  ...,  6.2525e-05,
+          4.9877e-04, -4.8370e-03],
+        [-2.1172e-03,  9.9719e-05,  5.9366e-04,  ...,  4.4394e-04,
+         -1.5402e-03,  6.8331e-04],
+        [ 7.1573e-04,  4.8250e-05,  2.1315e-04,  ...,  3.0470e-04,
+          6.0225e-04,  5.9223e-04]], device='cuda:0')
+Epoch 227, bias, value: tensor([ 0.0118, -0.0039, -0.0014, -0.0179,  0.0111, -0.0065, -0.0145, -0.0239,
+         0.0072, -0.0002], device='cuda:0'), grad: tensor([ 0.0015, -0.0127,  0.0249,  0.0085,  0.0201,  0.0287, -0.0416, -0.0100,
+        -0.0402,  0.0208], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 226, time 215.96, cls_loss 0.5324 cls_loss_mapping 0.0056 cls_loss_causal 0.5036 re_mapping 0.0073 re_causal 0.0195 /// teacc 98.56 lr 0.00010000
+Epoch 228, weight, value: tensor([[ 0.0267,  0.0948, -0.1488,  ..., -0.0892,  0.0671,  0.0048],
+        [-0.0795, -0.0948,  0.0833,  ..., -0.0348, -0.0929,  0.0525],
+        [-0.0651, -0.0519, -0.1053,  ..., -0.1182, -0.0216,  0.0483],
+        ...,
+        [-0.0165, -0.1021, -0.1082,  ..., -0.1054, -0.0294,  0.0620],
+        [-0.1026, -0.0891, -0.0935,  ..., -0.0606, -0.0523, -0.0832],
+        [ 0.0152, -0.0206, -0.0606,  ..., -0.0731,  0.0221, -0.0210]],
+       device='cuda:0'), grad: tensor([[ 1.0433e-03, -1.6937e-03, -7.0000e-04,  ..., -5.0974e-04,
+          8.9073e-04,  2.2304e-04],
+        [ 1.5345e-03,  3.3230e-05, -1.8105e-05,  ...,  4.5598e-06,
+          1.0262e-03,  1.4770e-04],
+        [-2.9125e-03,  4.2987e-04,  1.1885e-04,  ...,  9.0778e-05,
+         -5.9120e-06, -6.7806e-04],
+        ...,
+        [ 1.7767e-03,  1.3256e-04,  2.4453e-05,  ...,  1.2659e-05,
+          1.1702e-03,  7.0381e-04],
+        [ 4.6768e-03,  8.4839e-03,  6.7596e-03,  ...,  1.8358e-04,
+          3.2692e-03,  1.4663e-05],
+        [-2.5768e-03, -7.3586e-03, -6.7940e-03,  ...,  5.9545e-05,
+         -3.3054e-03,  6.0558e-04]], device='cuda:0')
+Epoch 228, bias, value: tensor([ 0.0116, -0.0042, -0.0013, -0.0175,  0.0107, -0.0060, -0.0136, -0.0241,
+         0.0068, -0.0004], device='cuda:0'), grad: tensor([ 0.0186,  0.0210, -0.0421,  0.0278, -0.0381,  0.0145, -0.0278,  0.0242,
+        -0.0043,  0.0064], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 227, time 215.93, cls_loss 0.5036 cls_loss_mapping 0.0053 cls_loss_causal 0.4698 re_mapping 0.0075 re_causal 0.0203 /// teacc 98.86 lr 0.00010000
+Epoch 229, weight, value: tensor([[ 0.0268,  0.0952, -0.1488,  ..., -0.0888,  0.0670,  0.0042],
+        [-0.0804, -0.0959,  0.0834,  ..., -0.0342, -0.0943,  0.0525],
+        [-0.0649, -0.0510, -0.1052,  ..., -0.1181, -0.0207,  0.0476],
+        ...,
+        [-0.0160, -0.1033, -0.1097,  ..., -0.1063, -0.0292,  0.0627],
+        [-0.1027, -0.0901, -0.0936,  ..., -0.0611, -0.0524, -0.0832],
+        [ 0.0145, -0.0198, -0.0603,  ..., -0.0731,  0.0222, -0.0206]],
+       device='cuda:0'), grad: tensor([[ 1.0328e-03,  1.3494e-04,  7.2670e-04,  ...,  1.3351e-04,
+          1.2722e-03,  8.0442e-04],
+        [-4.8561e-03,  2.7514e-04,  9.1934e-03,  ...,  4.9442e-05,
+         -4.4212e-03,  3.1872e-03],
+        [-3.2310e-03, -4.4365e-03, -6.0043e-03,  ..., -1.5841e-03,
+         -1.1238e-02,  6.8092e-04],
+        ...,
+        [ 4.3449e-03,  4.5687e-05,  4.3035e-04,  ...,  6.1750e-05,
+          2.0752e-03,  2.1381e-03],
+        [-9.7275e-04,  4.0665e-03,  2.6760e-03,  ...,  2.6264e-03,
+          1.0538e-03, -2.6855e-03],
+        [-1.1854e-03,  5.4896e-05,  3.4451e-04,  ...,  4.2677e-05,
+          1.0328e-03, -8.5068e-04]], device='cuda:0')
+Epoch 229, bias, value: tensor([ 0.0113, -0.0045, -0.0019, -0.0170,  0.0099, -0.0076, -0.0114, -0.0233,
+         0.0068, -0.0004], device='cuda:0'), grad: tensor([ 0.0126, -0.0182, -0.0345,  0.0103,  0.0149,  0.0022, -0.0139,  0.0260,
+         0.0112, -0.0105], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 228, time 216.34, cls_loss 0.5076 cls_loss_mapping 0.0047 cls_loss_causal 0.4779 re_mapping 0.0076 re_causal 0.0191 /// teacc 98.77 lr 0.00010000
+Epoch 230, weight, value: tensor([[ 0.0279,  0.0956, -0.1487,  ..., -0.0884,  0.0670,  0.0035],
+        [-0.0801, -0.0957,  0.0833,  ..., -0.0341, -0.0933,  0.0524],
+        [-0.0658, -0.0514, -0.1055,  ..., -0.1185, -0.0222,  0.0478],
+        ...,
+        [-0.0148, -0.1035, -0.1102,  ..., -0.1061, -0.0307,  0.0629],
+        [-0.1023, -0.0910, -0.0943,  ..., -0.0607, -0.0524, -0.0826],
+        [ 0.0132, -0.0191, -0.0609,  ..., -0.0720,  0.0229, -0.0199]],
+       device='cuda:0'), grad: tensor([[ 6.7174e-05, -1.5819e-04,  5.4054e-06,  ...,  5.9139e-07,
+         -9.3222e-04,  5.6362e-04],
+        [-2.5711e-03,  4.8466e-06, -2.0218e-04,  ..., -3.2634e-05,
+          2.2221e-04, -2.6340e-03],
+        [ 4.8518e-04,  2.1309e-05,  3.4064e-05,  ...,  3.8929e-06,
+         -5.9509e-04, -1.9398e-03],
+        ...,
+        [ 6.1035e-04,  3.1982e-06,  4.7207e-05,  ...,  7.2122e-06,
+          4.0269e-04, -4.2224e-04],
+        [ 7.1287e-04,  1.3545e-05,  8.0228e-05,  ...,  1.1899e-05,
+          4.2248e-04,  1.2369e-03],
+        [-1.4153e-03,  4.3243e-05,  1.7926e-05,  ...,  2.0582e-06,
+         -1.4315e-03,  9.7847e-04]], device='cuda:0')
+Epoch 230, bias, value: tensor([ 0.0116, -0.0038, -0.0016, -0.0179,  0.0110, -0.0080, -0.0128, -0.0238,
+         0.0076, -0.0005], device='cuda:0'), grad: tensor([ 0.0038, -0.0181, -0.0098,  0.0085,  0.0079,  0.0051,  0.0080,  0.0054,
+        -0.0134,  0.0026], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 229, time 216.05, cls_loss 0.5130 cls_loss_mapping 0.0058 cls_loss_causal 0.4862 re_mapping 0.0075 re_causal 0.0192 /// teacc 98.81 lr 0.00010000
+Epoch 231, weight, value: tensor([[ 0.0278,  0.0952, -0.1504,  ..., -0.0889,  0.0660,  0.0033],
+        [-0.0800, -0.0954,  0.0845,  ..., -0.0330, -0.0939,  0.0534],
+        [-0.0658, -0.0525, -0.1065,  ..., -0.1195, -0.0213,  0.0482],
+        ...,
+        [-0.0150, -0.1039, -0.1095,  ..., -0.1065, -0.0312,  0.0623],
+        [-0.1028, -0.0917, -0.0961,  ..., -0.0608, -0.0512, -0.0823],
+        [ 0.0134, -0.0204, -0.0618,  ..., -0.0725,  0.0227, -0.0193]],
+       device='cuda:0'), grad: tensor([[-2.1191e-03,  1.3880e-05,  1.7390e-05,  ...,  3.1907e-06,
+         -1.2894e-03,  1.6123e-05],
+        [ 8.2684e-04,  5.9396e-05, -1.2703e-05,  ...,  1.1697e-06,
+          2.9635e-04,  4.1199e-04],
+        [-2.0428e-03,  1.9297e-05, -4.0025e-05,  ..., -1.2122e-05,
+         -1.2999e-03,  6.2037e-04],
+        ...,
+        [ 2.2850e-03,  9.0301e-05,  2.3142e-05,  ...,  1.5348e-06,
+          2.8849e-04, -3.7594e-03],
+        [ 5.2691e-04,  1.6344e-04,  4.4256e-05,  ...,  3.5651e-06,
+          2.8324e-04,  1.5974e-05],
+        [ 1.0178e-02,  6.1393e-05,  5.4061e-05,  ...,  8.0932e-07,
+          3.3522e-04,  2.4509e-03]], device='cuda:0')
+Epoch 231, bias, value: tensor([ 0.0105, -0.0042, -0.0003, -0.0185,  0.0120, -0.0072, -0.0131, -0.0251,
+         0.0079, -0.0001], device='cuda:0'), grad: tensor([-0.0205,  0.0163, -0.0051,  0.0259, -0.0218,  0.0026, -0.0159,  0.0079,
+         0.0004,  0.0102], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 230, time 216.12, cls_loss 0.5067 cls_loss_mapping 0.0071 cls_loss_causal 0.4789 re_mapping 0.0071 re_causal 0.0180 /// teacc 98.77 lr 0.00010000
+Epoch 232, weight, value: tensor([[ 0.0286,  0.0959, -0.1500,  ..., -0.0888,  0.0657,  0.0035],
+        [-0.0799, -0.0947,  0.0850,  ..., -0.0335, -0.0936,  0.0535],
+        [-0.0658, -0.0534, -0.1068,  ..., -0.1204, -0.0213,  0.0480],
+        ...,
+        [-0.0140, -0.1049, -0.1098,  ..., -0.1063, -0.0304,  0.0626],
+        [-0.1034, -0.0920, -0.0949,  ..., -0.0604, -0.0512, -0.0827],
+        [ 0.0122, -0.0213, -0.0630,  ..., -0.0735,  0.0228, -0.0197]],
+       device='cuda:0'), grad: tensor([[ 7.0190e-04,  3.0231e-04,  1.1331e-04,  ...,  3.7813e-04,
+          4.2081e-04,  9.5510e-04],
+        [ 1.1692e-03,  1.5008e-04, -7.2736e-07,  ...,  3.8773e-05,
+          1.4949e-04, -1.9951e-03],
+        [-1.8616e-03, -2.8362e-03, -8.4266e-06,  ...,  2.4152e-04,
+         -4.6802e-04, -1.6699e-03],
+        ...,
+        [ 3.5515e-03,  7.9536e-04,  1.2457e-05,  ...,  1.1516e-04,
+          1.0538e-03,  3.1319e-03],
+        [-2.4662e-03,  3.9291e-04,  5.9932e-05,  ...,  2.9445e-04,
+         -3.4161e-03,  8.7881e-04],
+        [-1.5087e-03, -4.4799e-04,  9.8869e-06,  ...,  4.8780e-04,
+         -1.3256e-03,  1.6184e-03]], device='cuda:0')
+Epoch 232, bias, value: tensor([ 0.0110, -0.0036,  0.0004, -0.0189,  0.0117, -0.0072, -0.0129, -0.0250,
+         0.0071, -0.0006], device='cuda:0'), grad: tensor([-0.0090,  0.0107, -0.0370,  0.0421, -0.0262, -0.0067,  0.0209,  0.0480,
+        -0.0250, -0.0178], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 231, time 216.14, cls_loss 0.5150 cls_loss_mapping 0.0103 cls_loss_causal 0.4829 re_mapping 0.0074 re_causal 0.0184 /// teacc 98.75 lr 0.00010000
+Epoch 233, weight, value: tensor([[ 0.0284,  0.0970, -0.1507,  ..., -0.0889,  0.0658,  0.0032],
+        [-0.0793, -0.0943,  0.0852,  ..., -0.0355, -0.0935,  0.0544],
+        [-0.0670, -0.0538, -0.1072,  ..., -0.1215, -0.0220,  0.0473],
+        ...,
+        [-0.0146, -0.1053, -0.1100,  ..., -0.1060, -0.0305,  0.0632],
+        [-0.1030, -0.0927, -0.0950,  ..., -0.0610, -0.0507, -0.0824],
+        [ 0.0125, -0.0216, -0.0634,  ..., -0.0730,  0.0227, -0.0199]],
+       device='cuda:0'), grad: tensor([[-2.5253e-03, -3.5739e-04,  1.4317e-04,  ...,  1.5342e-04,
+         -5.8889e-04, -5.9929e-03],
+        [ 1.8473e-03,  1.8227e-04,  1.3018e-04,  ...,  1.5259e-04,
+          1.2608e-03,  1.7138e-03],
+        [ 1.1902e-03,  2.1064e-04,  7.2956e-05,  ..., -1.7869e-04,
+          6.5708e-04,  3.6354e-03],
+        ...,
+        [ 1.9550e-03,  2.2924e-04,  6.5506e-05,  ...,  1.0073e-04,
+          1.2293e-03,  1.1168e-03],
+        [ 1.7796e-03,  2.1732e-04,  3.0637e-05,  ...,  8.1003e-05,
+          1.2569e-03,  1.0138e-03],
+        [ 2.4567e-03,  5.9128e-04,  1.4973e-04,  ...,  1.4055e-04,
+          1.9836e-03,  9.6846e-04]], device='cuda:0')
+Epoch 233, bias, value: tensor([ 0.0102, -0.0038,  0.0006, -0.0194,  0.0124, -0.0071, -0.0133, -0.0250,
+         0.0072,  0.0002], device='cuda:0'), grad: tensor([-0.0698,  0.0299,  0.0391, -0.0391, -0.0092, -0.0137, -0.0119,  0.0259,
+         0.0234,  0.0254], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 232, time 216.34, cls_loss 0.5130 cls_loss_mapping 0.0070 cls_loss_causal 0.4858 re_mapping 0.0072 re_causal 0.0181 /// teacc 98.79 lr 0.00010000
+Epoch 234, weight, value: tensor([[ 0.0289,  0.0972, -0.1511,  ..., -0.0905,  0.0655,  0.0029],
+        [-0.0803, -0.0951,  0.0842,  ..., -0.0340, -0.0935,  0.0568],
+        [-0.0660, -0.0517, -0.1071,  ..., -0.1199, -0.0213,  0.0479],
+        ...,
+        [-0.0153, -0.1067, -0.1099,  ..., -0.1063, -0.0304,  0.0620],
+        [-0.1036, -0.0927, -0.0939,  ..., -0.0616, -0.0501, -0.0832],
+        [ 0.0133, -0.0216, -0.0632,  ..., -0.0723,  0.0221, -0.0205]],
+       device='cuda:0'), grad: tensor([[ 1.5461e-04, -6.6981e-06,  3.9907e-07,  ...,  2.0146e-04,
+          1.5461e-04,  5.7173e-04],
+        [ 3.5048e-04,  6.0722e-07,  7.0874e-07,  ...,  4.0865e-04,
+          1.7083e-04,  1.6747e-03],
+        [-4.6110e-04,  5.3644e-06,  2.6748e-06,  ...,  3.7599e-04,
+          3.2139e-04, -2.6722e-03],
+        ...,
+        [ 1.0433e-03,  9.7096e-05,  1.9874e-06,  ...,  1.8096e-04,
+         -1.6575e-03,  7.2670e-04],
+        [ 3.3808e-04,  9.3728e-06,  5.5917e-06,  ...,  4.4894e-04,
+          7.8630e-04, -3.2520e-04],
+        [-5.1308e-04, -9.1553e-05,  2.8126e-06,  ...,  2.9659e-04,
+         -1.6141e-04,  5.8556e-04]], device='cuda:0')
+Epoch 234, bias, value: tensor([ 0.0103, -0.0038,  0.0021, -0.0190,  0.0114, -0.0066, -0.0141, -0.0257,
+         0.0070,  0.0003], device='cuda:0'), grad: tensor([ 0.0050,  0.0102,  0.0008,  0.0186, -0.0545,  0.0062,  0.0133, -0.0097,
+         0.0031,  0.0070], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 233, time 216.15, cls_loss 0.5240 cls_loss_mapping 0.0062 cls_loss_causal 0.4966 re_mapping 0.0075 re_causal 0.0194 /// teacc 98.83 lr 0.00010000
+Epoch 235, weight, value: tensor([[ 0.0286,  0.0971, -0.1512,  ..., -0.0904,  0.0654,  0.0022],
+        [-0.0808, -0.0962,  0.0849,  ..., -0.0338, -0.0945,  0.0580],
+        [-0.0662, -0.0506, -0.1076,  ..., -0.1198, -0.0224,  0.0475],
+        ...,
+        [-0.0144, -0.1077, -0.1101,  ..., -0.1067, -0.0299,  0.0621],
+        [-0.1040, -0.0932, -0.0934,  ..., -0.0615, -0.0504, -0.0833],
+        [ 0.0130, -0.0219, -0.0628,  ..., -0.0737,  0.0214, -0.0202]],
+       device='cuda:0'), grad: tensor([[-6.3837e-05, -1.1024e-03,  6.2823e-05,  ...,  1.0061e-03,
+         -2.0924e-03,  6.0463e-04],
+        [ 1.1797e-03,  3.6955e-05,  1.3103e-03,  ...,  2.4929e-03,
+          1.0735e-04,  7.5722e-03],
+        [ 2.7466e-04,  7.8678e-05,  1.4102e-04,  ...,  2.4676e-04,
+          9.3341e-05, -5.7602e-03],
+        ...,
+        [ 7.7200e-04,  2.0111e-04,  2.3401e-04,  ...,  3.7742e-04,
+          2.7204e-04,  1.7958e-03],
+        [ 2.0580e-03,  1.8444e-03,  6.8998e-04,  ...,  9.2363e-04,
+          1.5717e-03,  2.0561e-03],
+        [ 2.3880e-03,  1.3046e-03,  6.1035e-04,  ...,  8.1825e-04,
+          6.8617e-04,  1.8358e-03]], device='cuda:0')
+Epoch 235, bias, value: tensor([ 0.0106, -0.0034,  0.0020, -0.0189,  0.0110, -0.0062, -0.0150, -0.0258,
+         0.0073,  0.0003], device='cuda:0'), grad: tensor([ 0.0107,  0.0292, -0.0189,  0.0073, -0.0019, -0.0573, -0.0089,  0.0012,
+         0.0193,  0.0195], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 234, time 216.21, cls_loss 0.4892 cls_loss_mapping 0.0074 cls_loss_causal 0.4640 re_mapping 0.0078 re_causal 0.0195 /// teacc 98.71 lr 0.00010000
+Epoch 236, weight, value: tensor([[ 0.0290,  0.0970, -0.1520,  ..., -0.0910,  0.0655,  0.0016],
+        [-0.0811, -0.0961,  0.0850,  ..., -0.0341, -0.0953,  0.0571],
+        [-0.0673, -0.0512, -0.1076,  ..., -0.1204, -0.0229,  0.0481],
+        ...,
+        [-0.0144, -0.1089, -0.1093,  ..., -0.1064, -0.0295,  0.0621],
+        [-0.1041, -0.0934, -0.0937,  ..., -0.0594, -0.0501, -0.0823],
+        [ 0.0135, -0.0230, -0.0622,  ..., -0.0742,  0.0219, -0.0210]],
+       device='cuda:0'), grad: tensor([[ 5.6601e-04,  1.7571e-04,  1.2082e-04,  ...,  1.3888e-04,
+          2.5183e-05,  6.1655e-04],
+        [-1.1024e-03, -3.9220e-04, -2.2209e-04,  ...,  4.9546e-07,
+         -9.6917e-05, -9.2773e-03],
+        [ 3.5381e-04,  1.6779e-05,  1.3746e-05,  ..., -1.0014e-05,
+          1.2740e-05,  9.0313e-04],
+        ...,
+        [ 5.0116e-04,  6.4194e-05,  2.1070e-05,  ...,  4.0568e-06,
+          1.7810e-04,  1.3037e-03],
+        [ 3.5286e-04,  6.9320e-05,  5.2005e-05,  ...,  1.9580e-05,
+          1.4462e-05,  8.0681e-04],
+        [ 3.6263e-04,  4.9442e-05,  8.0541e-06,  ...,  2.4978e-06,
+          5.9396e-05,  2.3689e-03]], device='cuda:0')
+Epoch 236, bias, value: tensor([ 0.0104, -0.0034,  0.0020, -0.0187,  0.0106, -0.0062, -0.0144, -0.0267,
+         0.0075,  0.0009], device='cuda:0'), grad: tensor([ 0.0153, -0.0511,  0.0116,  0.0137, -0.0196,  0.0086,  0.0191, -0.0329,
+         0.0157,  0.0196], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 235, time 216.48, cls_loss 0.4994 cls_loss_mapping 0.0056 cls_loss_causal 0.4726 re_mapping 0.0066 re_causal 0.0170 /// teacc 98.77 lr 0.00010000
+Epoch 237, weight, value: tensor([[ 0.0287,  0.0973, -0.1523,  ..., -0.0912,  0.0650,  0.0022],
+        [-0.0820, -0.0960,  0.0851,  ..., -0.0337, -0.0966,  0.0567],
+        [-0.0678, -0.0519, -0.1083,  ..., -0.1211, -0.0230,  0.0476],
+        ...,
+        [-0.0155, -0.1100, -0.1096,  ..., -0.1069, -0.0297,  0.0628],
+        [-0.1027, -0.0927, -0.0929,  ..., -0.0587, -0.0500, -0.0811],
+        [ 0.0127, -0.0237, -0.0623,  ..., -0.0740,  0.0214, -0.0221]],
+       device='cuda:0'), grad: tensor([[-3.2711e-03, -1.5259e-03,  3.0613e-04,  ...,  1.7893e-04,
+          2.3758e-04,  1.5247e-04],
+        [ 1.2159e-03,  4.2415e-04,  1.7428e-04,  ...,  9.1314e-05,
+          4.2939e-04,  3.2640e-04],
+        [ 9.2745e-04,  4.1056e-04,  1.6332e-04,  ...,  7.8499e-05,
+          3.4046e-04, -1.5450e-02],
+        ...,
+        [ 1.2941e-03, -1.0052e-03,  1.4782e-04,  ...,  7.4029e-05,
+          3.8028e-04,  1.4442e-02],
+        [-3.0637e-04,  1.0462e-03,  2.8610e-04,  ...,  1.0109e-03,
+         -8.9121e-04, -2.7037e-04],
+        [-3.9077e-04,  6.6090e-04,  1.2577e-04,  ...,  1.8477e-04,
+         -8.3733e-04,  1.2934e-04]], device='cuda:0')
+Epoch 237, bias, value: tensor([ 0.0098, -0.0039,  0.0012, -0.0178,  0.0118, -0.0065, -0.0153, -0.0263,
+         0.0083,  0.0004], device='cuda:0'), grad: tensor([-0.0155,  0.0138, -0.0210,  0.0250,  0.0120,  0.0129, -0.0393,  0.0286,
+        -0.0080, -0.0086], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 236, time 216.24, cls_loss 0.5001 cls_loss_mapping 0.0052 cls_loss_causal 0.4810 re_mapping 0.0069 re_causal 0.0184 /// teacc 98.74 lr 0.00010000
+Epoch 238, weight, value: tensor([[ 0.0288,  0.0983, -0.1531,  ..., -0.0904,  0.0649,  0.0037],
+        [-0.0820, -0.0957,  0.0856,  ..., -0.0333, -0.0968,  0.0559],
+        [-0.0670, -0.0507, -0.1078,  ..., -0.1209, -0.0224,  0.0498],
+        ...,
+        [-0.0160, -0.1120, -0.1099,  ..., -0.1069, -0.0308,  0.0620],
+        [-0.1031, -0.0944, -0.0941,  ..., -0.0588, -0.0497, -0.0810],
+        [ 0.0122, -0.0244, -0.0632,  ..., -0.0738,  0.0209, -0.0232]],
+       device='cuda:0'), grad: tensor([[ 2.0962e-03,  3.5267e-03,  5.0306e-05,  ...,  5.9319e-04,
+          8.0156e-04,  2.3785e-03],
+        [-8.1420e-05, -2.9135e-04,  2.5287e-05,  ..., -2.4109e-03,
+         -5.6505e-04, -4.2648e-03],
+        [-1.2032e-02, -6.2895e-04, -1.9956e-04,  ...,  5.5265e-04,
+         -7.4768e-03, -5.5237e-03],
+        ...,
+        [-1.2312e-03,  3.3760e-04,  5.1975e-05,  ...,  4.4537e-04,
+         -1.1892e-03,  2.9259e-03],
+        [ 3.4447e-03, -4.8294e-03,  7.3493e-05,  ...,  1.3714e-03,
+          1.2093e-03,  2.4796e-03],
+        [-2.3305e-05, -3.2425e-03,  4.4644e-05,  ...,  4.7970e-04,
+          1.2560e-03, -3.0065e-04]], device='cuda:0')
+Epoch 238, bias, value: tensor([ 0.0096, -0.0043,  0.0024, -0.0177,  0.0119, -0.0066, -0.0154, -0.0263,
+         0.0078,  0.0003], device='cuda:0'), grad: tensor([ 0.0455, -0.0099, -0.0353, -0.0177,  0.0028,  0.0500, -0.0154,  0.0038,
+         0.0006, -0.0244], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 237, time 216.54, cls_loss 0.5416 cls_loss_mapping 0.0059 cls_loss_causal 0.5175 re_mapping 0.0070 re_causal 0.0189 /// teacc 98.75 lr 0.00010000
+Epoch 239, weight, value: tensor([[ 0.0281,  0.0990, -0.1530,  ..., -0.0906,  0.0654,  0.0051],
+        [-0.0812, -0.0944,  0.0860,  ..., -0.0329, -0.0963,  0.0559],
+        [-0.0670, -0.0510, -0.1082,  ..., -0.1213, -0.0225,  0.0492],
+        ...,
+        [-0.0158, -0.1124, -0.1103,  ..., -0.1076, -0.0316,  0.0613],
+        [-0.1043, -0.0948, -0.0945,  ..., -0.0594, -0.0514, -0.0828],
+        [ 0.0125, -0.0239, -0.0630,  ..., -0.0726,  0.0214, -0.0221]],
+       device='cuda:0'), grad: tensor([[-9.2208e-05,  8.7261e-04,  9.5926e-08,  ..., -1.2207e-03,
+          2.2721e-04, -2.9678e-03],
+        [ 3.8886e-04,  2.3162e-04, -4.2841e-07,  ...,  8.5640e-04,
+          1.6832e-04, -4.8351e-04],
+        [ 1.7452e-03,  2.9016e-04,  6.6590e-07,  ...,  9.6941e-04,
+          1.5771e-04,  3.8109e-03],
+        ...,
+        [-2.9888e-03,  1.3268e-04,  1.8999e-07,  ..., -8.5294e-05,
+          1.1015e-04, -5.7602e-03],
+        [ 1.6270e-03,  3.2401e-04,  2.2631e-07,  ...,  1.9341e-03,
+          1.9169e-04,  3.0403e-03],
+        [ 1.9436e-03,  1.9002e-04,  1.2014e-07,  ...,  2.5773e-04,
+          1.5223e-04,  2.2640e-03]], device='cuda:0')
+Epoch 239, bias, value: tensor([ 0.0100, -0.0040,  0.0024, -0.0179,  0.0113, -0.0064, -0.0150, -0.0274,
+         0.0080,  0.0007], device='cuda:0'), grad: tensor([-0.0340, -0.0035,  0.0279, -0.0063, -0.0367,  0.0026, -0.0081, -0.0532,
+         0.0482,  0.0630], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 238, time 216.31, cls_loss 0.4966 cls_loss_mapping 0.0052 cls_loss_causal 0.4575 re_mapping 0.0070 re_causal 0.0180 /// teacc 98.80 lr 0.00010000
+Epoch 240, weight, value: tensor([[ 0.0283,  0.0993, -0.1537,  ..., -0.0909,  0.0659,  0.0050],
+        [-0.0815, -0.0943,  0.0863,  ..., -0.0329, -0.0963,  0.0548],
+        [-0.0674, -0.0531, -0.1082,  ..., -0.1231, -0.0236,  0.0495],
+        ...,
+        [-0.0155, -0.1125, -0.1114,  ..., -0.1084, -0.0319,  0.0628],
+        [-0.1055, -0.0949, -0.0946,  ..., -0.0601, -0.0523, -0.0837],
+        [ 0.0130, -0.0228, -0.0623,  ..., -0.0733,  0.0220, -0.0220]],
+       device='cuda:0'), grad: tensor([[7.2527e-04, 8.9569e-03, 2.9621e-03,  ..., 7.9498e-03, 1.9522e-03,
+         1.0347e-03],
+        [1.1988e-03, 1.1033e-04, 6.5982e-05,  ..., 1.7214e-04, 6.0272e-04,
+         1.2665e-03],
+        [1.9093e-03, 9.1374e-05, 9.6187e-06,  ..., 7.2575e-04, 1.2379e-03,
+         1.0366e-03],
+        ...,
+        [5.2185e-03, 1.1396e-03, 6.3801e-04,  ..., 1.4186e-04, 2.5101e-03,
+         2.5711e-03],
+        [1.9512e-03, 5.7449e-03, 2.5043e-03,  ..., 4.5700e-03, 1.4153e-03,
+         1.0014e-03],
+        [2.0676e-03, 5.8651e-04, 2.2888e-04,  ..., 3.0398e-04, 1.2455e-03,
+         1.5612e-03]], device='cuda:0')
+Epoch 240, bias, value: tensor([ 0.0104, -0.0039,  0.0023, -0.0182,  0.0116, -0.0070, -0.0151, -0.0260,
+         0.0070,  0.0006], device='cuda:0'), grad: tensor([ 0.0033,  0.0177, -0.0052,  0.0281, -0.0341, -0.0249, -0.0629,  0.0339,
+         0.0281,  0.0160], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 239----------------------------------------------------
+epoch 239, time 217.11, cls_loss 0.4661 cls_loss_mapping 0.0053 cls_loss_causal 0.4462 re_mapping 0.0071 re_causal 0.0185 /// teacc 98.94 lr 0.00010000
+Epoch 241, weight, value: tensor([[ 0.0295,  0.0995, -0.1543,  ..., -0.0903,  0.0666,  0.0063],
+        [-0.0810, -0.0944,  0.0863,  ..., -0.0334, -0.0954,  0.0536],
+        [-0.0668, -0.0525, -0.1063,  ..., -0.1225, -0.0228,  0.0499],
+        ...,
+        [-0.0167, -0.1125, -0.1120,  ..., -0.1067, -0.0325,  0.0626],
+        [-0.1037, -0.0955, -0.0955,  ..., -0.0617, -0.0524, -0.0841],
+        [ 0.0146, -0.0230, -0.0620,  ..., -0.0723,  0.0218, -0.0218]],
+       device='cuda:0'), grad: tensor([[ 1.5297e-03,  3.6120e-04,  2.9659e-04,  ...,  9.5844e-04,
+          5.6744e-05,  1.7319e-03],
+        [ 9.6226e-04,  7.8559e-05,  2.5332e-05,  ...,  2.4843e-04,
+          6.7353e-05,  1.2341e-03],
+        [-2.1152e-03,  1.0653e-03,  4.0579e-04,  ...,  1.7881e-05,
+          2.0063e-04, -2.0752e-03],
+        ...,
+        [ 1.9245e-03,  4.0293e-04,  1.3733e-04,  ...,  6.4421e-04,
+          2.3413e-04,  1.2522e-03],
+        [ 1.5392e-03,  4.5013e-04,  1.6046e-04,  ...,  6.2895e-04,
+          2.3842e-04,  6.2513e-04],
+        [ 3.5305e-03,  1.2865e-03,  4.5562e-04,  ...,  1.4153e-03,
+          5.6648e-04, -8.3542e-04]], device='cuda:0')
+Epoch 241, bias, value: tensor([ 0.0114, -0.0041,  0.0020, -0.0191,  0.0112, -0.0062, -0.0152, -0.0255,
+         0.0068,  0.0005], device='cuda:0'), grad: tensor([ 0.0131,  0.0104, -0.0023,  0.0168, -0.0223,  0.0139, -0.0468,  0.0131,
+        -0.0059,  0.0101], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 240, time 216.20, cls_loss 0.5225 cls_loss_mapping 0.0056 cls_loss_causal 0.4957 re_mapping 0.0074 re_causal 0.0203 /// teacc 98.70 lr 0.00010000
+Epoch 242, weight, value: tensor([[ 0.0291,  0.1003, -0.1542,  ..., -0.0910,  0.0655,  0.0064],
+        [-0.0806, -0.0954,  0.0871,  ..., -0.0346, -0.0954,  0.0529],
+        [-0.0668, -0.0531, -0.1079,  ..., -0.1227, -0.0224,  0.0498],
+        ...,
+        [-0.0168, -0.1117, -0.1124,  ..., -0.1060, -0.0317,  0.0625],
+        [-0.1036, -0.0956, -0.0959,  ..., -0.0602, -0.0526, -0.0844],
+        [ 0.0138, -0.0230, -0.0629,  ..., -0.0734,  0.0229, -0.0229]],
+       device='cuda:0'), grad: tensor([[ 1.7538e-03,  3.3998e-04,  1.4102e-04,  ...,  6.7377e-04,
+          6.4802e-04,  2.5463e-03],
+        [ 1.6985e-03,  1.1837e-04,  2.1309e-05,  ...,  5.1451e-04,
+          5.5313e-04,  2.2717e-03],
+        [-1.3924e-04, -1.2789e-03,  1.0747e-04,  ...,  3.8171e-04,
+          5.3465e-05,  1.0841e-02],
+        ...,
+        [ 6.0921e-03,  1.0386e-03,  1.0645e-04,  ...,  1.2326e-04,
+          1.6336e-03,  8.0872e-03],
+        [ 1.2913e-03,  3.2949e-04,  2.1517e-04,  ...,  4.3869e-04,
+          5.8174e-04,  2.9526e-03],
+        [-9.3231e-03,  1.7824e-03,  1.4515e-03,  ...,  1.2646e-03,
+         -1.6403e-03, -1.1505e-02]], device='cuda:0')
+Epoch 242, bias, value: tensor([ 0.0114, -0.0034,  0.0013, -0.0189,  0.0120, -0.0060, -0.0142, -0.0262,
+         0.0065, -0.0005], device='cuda:0'), grad: tensor([ 0.0220,  0.0219,  0.0434, -0.0174, -0.0242, -0.0430,  0.0191,  0.0222,
+         0.0200, -0.0641], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 241, time 216.42, cls_loss 0.5266 cls_loss_mapping 0.0064 cls_loss_causal 0.4990 re_mapping 0.0070 re_causal 0.0191 /// teacc 98.70 lr 0.00010000
+Epoch 243, weight, value: tensor([[ 0.0285,  0.0992, -0.1557,  ..., -0.0918,  0.0653,  0.0064],
+        [-0.0809, -0.0964,  0.0869,  ..., -0.0340, -0.0958,  0.0532],
+        [-0.0664, -0.0532, -0.1088,  ..., -0.1222, -0.0219,  0.0498],
+        ...,
+        [-0.0163, -0.1127, -0.1120,  ..., -0.1053, -0.0323,  0.0624],
+        [-0.1043, -0.0952, -0.0953,  ..., -0.0617, -0.0524, -0.0851],
+        [ 0.0147, -0.0225, -0.0634,  ..., -0.0736,  0.0230, -0.0211]],
+       device='cuda:0'), grad: tensor([[ 0.0014,  0.0002,  0.0001,  ...,  0.0005,  0.0002,  0.0015],
+        [-0.0104, -0.0020, -0.0008,  ..., -0.0086, -0.0015, -0.0143],
+        [ 0.0028,  0.0007,  0.0005,  ...,  0.0019,  0.0004,  0.0032],
+        ...,
+        [ 0.0053,  0.0004,  0.0002,  ...,  0.0018,  0.0029,  0.0184],
+        [ 0.0027,  0.0008,  0.0004,  ...,  0.0014,  0.0005,  0.0025],
+        [-0.0068,  0.0003,  0.0002,  ...,  0.0015, -0.0033, -0.0151]],
+       device='cuda:0')
+Epoch 243, bias, value: tensor([ 0.0104, -0.0021,  0.0011, -0.0194,  0.0110, -0.0060, -0.0142, -0.0255,
+         0.0062,  0.0004], device='cuda:0'), grad: tensor([ 0.0165, -0.0969,  0.0259,  0.0168, -0.0047,  0.0207,  0.0181,  0.0495,
+         0.0203, -0.0662], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 242, time 216.43, cls_loss 0.5100 cls_loss_mapping 0.0066 cls_loss_causal 0.4834 re_mapping 0.0069 re_causal 0.0176 /// teacc 98.64 lr 0.00010000
+Epoch 244, weight, value: tensor([[ 0.0294,  0.0998, -0.1558,  ..., -0.0912,  0.0655,  0.0072],
+        [-0.0808, -0.0970,  0.0862,  ..., -0.0324, -0.0962,  0.0537],
+        [-0.0664, -0.0526, -0.1081,  ..., -0.1226, -0.0194,  0.0498],
+        ...,
+        [-0.0176, -0.1129, -0.1119,  ..., -0.1062, -0.0327,  0.0617],
+        [-0.1041, -0.0967, -0.0960,  ..., -0.0622, -0.0519, -0.0866],
+        [ 0.0151, -0.0221, -0.0630,  ..., -0.0745,  0.0235, -0.0205]],
+       device='cuda:0'), grad: tensor([[-2.0733e-03, -1.8430e-04,  3.2473e-04,  ...,  3.7718e-04,
+         -1.6251e-03,  2.8496e-03],
+        [ 6.4421e-04,  1.0020e-04,  1.7810e-04,  ..., -2.2202e-03,
+          2.9951e-05,  6.9284e-04],
+        [-3.9482e-03,  8.2433e-05,  2.3985e-04,  ..., -1.6079e-03,
+          2.1911e-04, -2.0767e-02],
+        ...,
+        [-4.0131e-03,  7.2539e-05,  3.5238e-04,  ...,  4.9210e-04,
+          6.8426e-05, -7.2441e-03],
+        [ 2.2850e-03,  1.1927e-04,  5.3835e-04,  ...,  2.4738e-03,
+          3.0422e-04,  2.7618e-03],
+        [ 2.1696e-04,  2.0170e-04, -2.2278e-03,  ...,  3.5119e-04,
+         -2.6646e-03,  2.2125e-03]], device='cuda:0')
+Epoch 244, bias, value: tensor([ 0.0105, -0.0018,  0.0011, -0.0200,  0.0116, -0.0060, -0.0144, -0.0262,
+         0.0066,  0.0006], device='cuda:0'), grad: tensor([ 0.0177,  0.0151, -0.0612, -0.0254,  0.0211,  0.0070, -0.0155, -0.0501,
+         0.0676,  0.0238], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 243, time 216.60, cls_loss 0.5265 cls_loss_mapping 0.0058 cls_loss_causal 0.5058 re_mapping 0.0068 re_causal 0.0184 /// teacc 98.76 lr 0.00010000
+Epoch 245, weight, value: tensor([[ 0.0307,  0.1007, -0.1563,  ..., -0.0912,  0.0654,  0.0077],
+        [-0.0801, -0.0967,  0.0865,  ..., -0.0321, -0.0961,  0.0533],
+        [-0.0681, -0.0529, -0.1081,  ..., -0.1232, -0.0203,  0.0492],
+        ...,
+        [-0.0175, -0.1127, -0.1128,  ..., -0.1058, -0.0328,  0.0623],
+        [-0.1046, -0.0979, -0.0963,  ..., -0.0622, -0.0518, -0.0871],
+        [ 0.0147, -0.0232, -0.0634,  ..., -0.0756,  0.0232, -0.0208]],
+       device='cuda:0'), grad: tensor([[ 2.2526e-03,  1.6344e-04,  5.8651e-05,  ...,  6.3944e-04,
+          2.7180e-04,  2.2278e-03],
+        [-2.0618e-03,  9.2030e-05, -1.1120e-03,  ...,  6.8307e-05,
+          1.4675e-04, -2.5463e-03],
+        [ 9.0218e-04,  8.2433e-05,  3.3319e-05,  ...,  1.2290e-04,
+         -9.5844e-05, -3.9291e-03],
+        ...,
+        [ 5.6744e-04,  1.0794e-04,  5.3453e-04,  ...,  5.2571e-05,
+          1.8668e-04,  4.1161e-03],
+        [ 4.0412e-04,  3.8934e-04,  1.1909e-04,  ...,  2.8825e-04,
+          1.1492e-04,  8.7547e-04],
+        [ 1.5707e-03,  1.0061e-03,  2.3532e-04,  ...,  4.4417e-04,
+          1.8048e-04, -1.6766e-03]], device='cuda:0')
+Epoch 245, bias, value: tensor([ 0.0108, -0.0014,  0.0005, -0.0207,  0.0113, -0.0063, -0.0145, -0.0245,
+         0.0060,  0.0007], device='cuda:0'), grad: tensor([ 0.0309, -0.0144, -0.0076, -0.0635,  0.0048,  0.0295, -0.0177,  0.0146,
+         0.0144,  0.0090], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 244, time 216.25, cls_loss 0.4879 cls_loss_mapping 0.0052 cls_loss_causal 0.4630 re_mapping 0.0068 re_causal 0.0170 /// teacc 98.64 lr 0.00010000
+Epoch 246, weight, value: tensor([[ 0.0311,  0.1008, -0.1568,  ..., -0.0915,  0.0655,  0.0070],
+        [-0.0811, -0.0969,  0.0877,  ..., -0.0312, -0.0969,  0.0534],
+        [-0.0680, -0.0540, -0.1091,  ..., -0.1235, -0.0196,  0.0491],
+        ...,
+        [-0.0163, -0.1119, -0.1134,  ..., -0.1056, -0.0317,  0.0624],
+        [-0.1047, -0.0983, -0.0967,  ..., -0.0625, -0.0525, -0.0875],
+        [ 0.0152, -0.0238, -0.0628,  ..., -0.0764,  0.0233, -0.0207]],
+       device='cuda:0'), grad: tensor([[ 3.6383e-04,  7.9036e-05,  2.7269e-05,  ...,  1.2897e-05,
+          1.0395e-04,  3.8695e-04],
+        [ 6.5327e-04,  1.7345e-04,  2.1502e-05,  ...,  1.0515e-06,
+          1.4091e-04, -5.4970e-03],
+        [ 3.7909e-04,  1.7560e-04,  6.2406e-05,  ...,  1.5363e-05,
+          9.5963e-05,  5.1651e-03],
+        ...,
+        [-5.1575e-03, -5.0049e-03, -5.3024e-03,  ..., -7.1335e-04,
+          2.4676e-04, -2.3308e-03],
+        [ 1.3275e-03,  7.1573e-04,  5.8937e-04,  ...,  7.1466e-05,
+          1.8048e-04,  1.0033e-03],
+        [-2.3518e-03,  5.7554e-04,  3.1799e-05,  ...,  7.3574e-06,
+          4.0603e-04, -3.1071e-03]], device='cuda:0')
+Epoch 246, bias, value: tensor([ 0.0097, -0.0015,  0.0013, -0.0199,  0.0102, -0.0063, -0.0152, -0.0237,
+         0.0055,  0.0015], device='cuda:0'), grad: tensor([ 0.0066, -0.0128,  0.0231, -0.0022, -0.0145,  0.0167,  0.0044, -0.0464,
+         0.0329, -0.0078], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 245, time 216.40, cls_loss 0.5211 cls_loss_mapping 0.0079 cls_loss_causal 0.4950 re_mapping 0.0071 re_causal 0.0185 /// teacc 98.77 lr 0.00010000
+Epoch 247, weight, value: tensor([[ 0.0311,  0.1006, -0.1582,  ..., -0.0918,  0.0656,  0.0069],
+        [-0.0811, -0.0972,  0.0886,  ..., -0.0302, -0.0975,  0.0539],
+        [-0.0684, -0.0546, -0.1079,  ..., -0.1238, -0.0198,  0.0491],
+        ...,
+        [-0.0166, -0.1120, -0.1140,  ..., -0.1064, -0.0323,  0.0619],
+        [-0.1048, -0.0984, -0.0970,  ..., -0.0625, -0.0521, -0.0879],
+        [ 0.0156, -0.0239, -0.0617,  ..., -0.0761,  0.0232, -0.0201]],
+       device='cuda:0'), grad: tensor([[ 1.8473e-03,  5.9319e-04,  1.8673e-06,  ...,  1.4794e-04,
+          8.9121e-04,  6.9237e-04],
+        [-5.5552e-04, -4.2844e-04,  1.3318e-07,  ..., -9.6977e-05,
+          8.9407e-05, -1.6642e-03],
+        [ 9.6369e-04,  8.7404e-04,  1.0930e-05,  ...,  8.8215e-05,
+          2.5702e-04,  5.4979e-04],
+        ...,
+        [-4.3373e-03, -1.5812e-03, -1.5879e-06,  ...,  9.1136e-05,
+         -3.7575e-03, -1.6928e-03],
+        [ 9.0885e-04,  4.0817e-04,  5.0575e-05,  ...,  1.6344e-04,
+          1.9884e-04,  4.0102e-04],
+        [-7.0477e-04, -6.2895e-04,  1.3806e-05,  ...,  1.7428e-04,
+          7.7248e-04, -6.8331e-04]], device='cuda:0')
+Epoch 247, bias, value: tensor([ 0.0103, -0.0014,  0.0006, -0.0193,  0.0106, -0.0052, -0.0148, -0.0250,
+         0.0048,  0.0014], device='cuda:0'), grad: tensor([ 0.0263, -0.0143,  0.0246,  0.0370,  0.0251, -0.0351, -0.0047, -0.0666,
+         0.0187, -0.0109], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 246, time 216.61, cls_loss 0.4804 cls_loss_mapping 0.0043 cls_loss_causal 0.4577 re_mapping 0.0074 re_causal 0.0198 /// teacc 98.85 lr 0.00010000
+Epoch 248, weight, value: tensor([[ 0.0312,  0.1007, -0.1566,  ..., -0.0901,  0.0657,  0.0066],
+        [-0.0812, -0.0980,  0.0878,  ..., -0.0299, -0.0971,  0.0538],
+        [-0.0692, -0.0556, -0.1080,  ..., -0.1235, -0.0208,  0.0486],
+        ...,
+        [-0.0152, -0.1119, -0.1133,  ..., -0.1062, -0.0320,  0.0628],
+        [-0.1052, -0.0971, -0.0960,  ..., -0.0622, -0.0519, -0.0883],
+        [ 0.0158, -0.0245, -0.0631,  ..., -0.0763,  0.0221, -0.0205]],
+       device='cuda:0'), grad: tensor([[-6.4373e-05, -6.4278e-04,  2.9400e-05,  ..., -7.7844e-05,
+         -5.0783e-04,  3.1066e-04],
+        [-8.8644e-04,  4.0025e-05,  1.1516e-04,  ...,  1.9193e-04,
+         -6.5386e-05, -4.3249e-04],
+        [-2.8133e-03, -7.6294e-03, -1.3649e-02,  ..., -8.8120e-03,
+         -3.0537e-03,  5.7030e-04],
+        ...,
+        [-8.8406e-04,  5.7906e-05,  1.2450e-05,  ...,  8.0615e-06,
+         -6.8367e-05, -4.0722e-04],
+        [ 3.3951e-04, -2.3687e-04, -3.2568e-04,  ..., -2.9087e-04,
+          6.7174e-05,  5.2500e-04],
+        [-1.3809e-03,  8.9407e-05,  1.1899e-05,  ...,  1.1213e-05,
+         -9.1434e-05, -2.6264e-03]], device='cuda:0')
+Epoch 248, bias, value: tensor([ 0.0094, -0.0018,  0.0006, -0.0187,  0.0096, -0.0055, -0.0137, -0.0243,
+         0.0049,  0.0014], device='cuda:0'), grad: tensor([ 0.0068, -0.0201, -0.0187,  0.0388,  0.0095,  0.0144,  0.0098, -0.0203,
+         0.0019, -0.0220], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 247, time 216.49, cls_loss 0.4957 cls_loss_mapping 0.0062 cls_loss_causal 0.4740 re_mapping 0.0067 re_causal 0.0170 /// teacc 98.71 lr 0.00010000
+Epoch 249, weight, value: tensor([[ 0.0307,  0.1008, -0.1575,  ..., -0.0913,  0.0654,  0.0066],
+        [-0.0820, -0.0965,  0.0893,  ..., -0.0303, -0.0980,  0.0531],
+        [-0.0693, -0.0549, -0.1070,  ..., -0.1233, -0.0200,  0.0489],
+        ...,
+        [-0.0158, -0.1117, -0.1128,  ..., -0.1075, -0.0321,  0.0631],
+        [-0.1051, -0.0971, -0.0960,  ..., -0.0613, -0.0521, -0.0871],
+        [ 0.0159, -0.0261, -0.0630,  ..., -0.0764,  0.0215, -0.0217]],
+       device='cuda:0'), grad: tensor([[ 1.2660e-04, -1.1921e-05,  1.0524e-06,  ...,  3.5465e-05,
+          1.2107e-05,  1.1663e-03],
+        [-2.4819e-04,  5.4203e-06, -9.5069e-06,  ...,  5.6744e-05,
+          8.7082e-05,  2.7142e-03],
+        [ 2.4223e-04,  6.3896e-05,  3.7197e-06,  ...,  1.3614e-04,
+          1.1140e-04,  2.0447e-03],
+        ...,
+        [-1.7033e-03, -4.9496e-04,  2.8744e-05,  ...,  5.5224e-05,
+          2.6250e-04, -4.8103e-03],
+        [ 5.2273e-05,  1.3344e-05,  6.6534e-06,  ...,  5.8293e-05,
+          3.6895e-05,  9.0933e-04],
+        [ 2.8402e-05, -8.6613e-08, -2.5600e-05,  ...,  3.5226e-05,
+         -2.4997e-06,  2.0256e-03]], device='cuda:0')
+Epoch 249, bias, value: tensor([ 0.0082, -0.0022,  0.0006, -0.0187,  0.0092, -0.0058, -0.0132, -0.0238,
+         0.0054,  0.0019], device='cuda:0'), grad: tensor([ 0.0125, -0.0061,  0.0231, -0.0167, -0.0024, -0.0489, -0.0087,  0.0109,
+         0.0184,  0.0178], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 248, time 216.03, cls_loss 0.5060 cls_loss_mapping 0.0065 cls_loss_causal 0.4831 re_mapping 0.0069 re_causal 0.0183 /// teacc 98.75 lr 0.00010000
+Epoch 250, weight, value: tensor([[ 0.0311,  0.1000, -0.1571,  ..., -0.0920,  0.0654,  0.0066],
+        [-0.0820, -0.0966,  0.0894,  ..., -0.0303, -0.0978,  0.0520],
+        [-0.0699, -0.0547, -0.1081,  ..., -0.1222, -0.0199,  0.0489],
+        ...,
+        [-0.0150, -0.1103, -0.1115,  ..., -0.1078, -0.0315,  0.0644],
+        [-0.1051, -0.0967, -0.0963,  ..., -0.0614, -0.0526, -0.0871],
+        [ 0.0153, -0.0262, -0.0636,  ..., -0.0781,  0.0218, -0.0212]],
+       device='cuda:0'), grad: tensor([[ 1.4563e-03,  1.2720e-04,  1.5593e-04,  ...,  7.3957e-04,
+          4.5562e-04,  2.2545e-03],
+        [-1.5850e-03, -4.9973e-04, -4.6778e-04,  ..., -7.4482e-04,
+         -2.7370e-04,  2.1439e-03],
+        [-2.9850e-04, -4.5395e-04, -6.9380e-04,  ..., -3.0136e-03,
+         -3.8683e-05, -4.7417e-03],
+        ...,
+        [ 1.4620e-03,  1.2034e-04,  1.4579e-04,  ...,  8.9502e-04,
+          6.1274e-04,  2.0874e-02],
+        [-7.4434e-04,  1.2076e-04,  1.3459e-04,  ...,  7.0286e-04,
+         -1.8730e-03,  3.2157e-05],
+        [ 1.5497e-03,  8.5294e-05,  9.6321e-05,  ...,  4.9973e-04,
+          6.2370e-04,  3.4466e-03]], device='cuda:0')
+Epoch 250, bias, value: tensor([ 0.0085, -0.0024, -0.0001, -0.0188,  0.0084, -0.0051, -0.0127, -0.0236,
+         0.0056,  0.0018], device='cuda:0'), grad: tensor([ 0.0239, -0.0201, -0.0245,  0.0241, -0.0974, -0.0135,  0.0385,  0.0226,
+         0.0217,  0.0247], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 249, time 216.34, cls_loss 0.5300 cls_loss_mapping 0.0089 cls_loss_causal 0.5002 re_mapping 0.0070 re_causal 0.0174 /// teacc 98.78 lr 0.00010000
+Epoch 251, weight, value: tensor([[ 0.0308,  0.1005, -0.1578,  ..., -0.0930,  0.0656,  0.0067],
+        [-0.0819, -0.0964,  0.0891,  ..., -0.0306, -0.0978,  0.0526],
+        [-0.0703, -0.0560, -0.1089,  ..., -0.1223, -0.0207,  0.0490],
+        ...,
+        [-0.0152, -0.1133, -0.1127,  ..., -0.1093, -0.0317,  0.0637],
+        [-0.1051, -0.0968, -0.0962,  ..., -0.0609, -0.0519, -0.0888],
+        [ 0.0151, -0.0268, -0.0628,  ..., -0.0785,  0.0225, -0.0205]],
+       device='cuda:0'), grad: tensor([[-2.0943e-03, -3.5262e-04,  1.9833e-05,  ..., -1.3371e-03,
+         -2.8305e-03, -3.8576e-04],
+        [-3.2830e-04,  1.0014e-04,  1.1486e-04,  ..., -1.2703e-03,
+         -1.1883e-03, -2.0561e-03],
+        [ 7.8964e-04,  2.3675e-04, -1.8921e-03,  ...,  6.3372e-04,
+          1.0910e-03, -6.0234e-03],
+        ...,
+        [ 1.1339e-03,  1.9252e-04,  2.7966e-04,  ...,  4.5919e-04,
+          5.4932e-04,  1.0967e-03],
+        [ 1.3285e-03,  3.3498e-05,  7.7295e-04,  ...,  8.4305e-04,
+          1.0843e-03, -1.5039e-03],
+        [ 5.3444e-03,  1.6165e-04,  5.8383e-05,  ...,  3.8981e-04,
+          1.5955e-03,  8.3399e-04]], device='cuda:0')
+Epoch 251, bias, value: tensor([ 0.0084, -0.0028, -0.0006, -0.0179,  0.0084, -0.0049, -0.0123, -0.0232,
+         0.0052,  0.0013], device='cuda:0'), grad: tensor([-0.0249, -0.0309, -0.0203,  0.0319, -0.0031,  0.0065, -0.0006,  0.0195,
+        -0.0007,  0.0226], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 250, time 216.24, cls_loss 0.5143 cls_loss_mapping 0.0053 cls_loss_causal 0.4894 re_mapping 0.0074 re_causal 0.0193 /// teacc 98.85 lr 0.00010000
+Epoch 252, weight, value: tensor([[ 0.0301,  0.1005, -0.1603,  ..., -0.0937,  0.0650,  0.0065],
+        [-0.0818, -0.0972,  0.0905,  ..., -0.0309, -0.0980,  0.0526],
+        [-0.0711, -0.0550, -0.1081,  ..., -0.1241, -0.0206,  0.0493],
+        ...,
+        [-0.0145, -0.1129, -0.1146,  ..., -0.1084, -0.0325,  0.0645],
+        [-0.1048, -0.0965, -0.0963,  ..., -0.0608, -0.0517, -0.0888],
+        [ 0.0144, -0.0275, -0.0627,  ..., -0.0798,  0.0222, -0.0210]],
+       device='cuda:0'), grad: tensor([[-0.0042, -0.0042,  0.0004,  ..., -0.0023, -0.0017,  0.0009],
+        [-0.0031,  0.0003, -0.0020,  ..., -0.0026, -0.0019, -0.0046],
+        [ 0.0002,  0.0004,  0.0003,  ..., -0.0004,  0.0002,  0.0035],
+        ...,
+        [ 0.0034,  0.0051,  0.0004,  ...,  0.0017,  0.0012,  0.0093],
+        [ 0.0011,  0.0004,  0.0005,  ...,  0.0006,  0.0005, -0.0089],
+        [ 0.0009,  0.0065,  0.0007,  ...,  0.0004,  0.0003,  0.0029]],
+       device='cuda:0')
+Epoch 252, bias, value: tensor([ 0.0087, -0.0029, -0.0011, -0.0180,  0.0089, -0.0045, -0.0130, -0.0231,
+         0.0056,  0.0011], device='cuda:0'), grad: tensor([ 0.0231, -0.0593, -0.0188, -0.0084,  0.0162, -0.0720,  0.0283,  0.0665,
+        -0.0058,  0.0302], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 251, time 215.96, cls_loss 0.5084 cls_loss_mapping 0.0063 cls_loss_causal 0.4858 re_mapping 0.0065 re_causal 0.0164 /// teacc 98.84 lr 0.00010000
+Epoch 253, weight, value: tensor([[ 0.0320,  0.1012, -0.1597,  ..., -0.0933,  0.0656,  0.0067],
+        [-0.0809, -0.0955,  0.0915,  ..., -0.0296, -0.0975,  0.0529],
+        [-0.0717, -0.0553, -0.1083,  ..., -0.1237, -0.0204,  0.0516],
+        ...,
+        [-0.0149, -0.1132, -0.1149,  ..., -0.1105, -0.0329,  0.0633],
+        [-0.1056, -0.0970, -0.0959,  ..., -0.0591, -0.0531, -0.0890],
+        [ 0.0146, -0.0272, -0.0626,  ..., -0.0796,  0.0209, -0.0211]],
+       device='cuda:0'), grad: tensor([[-4.9305e-04, -9.4366e-04,  2.7323e-04,  ..., -1.0290e-03,
+         -1.0777e-03,  4.4751e-04],
+        [-3.0231e-04,  3.0026e-06, -3.4046e-04,  ...,  5.1260e-05,
+          2.0508e-06, -1.0967e-03],
+        [ 2.3711e-04,  8.2776e-06,  2.0981e-04,  ...,  5.1916e-05,
+          8.6352e-06,  7.5960e-04],
+        ...,
+        [ 3.0303e-04,  6.5446e-05,  2.0385e-04,  ...,  5.9873e-05,
+          5.8770e-05,  1.2197e-03],
+        [ 3.5429e-04, -3.5577e-07,  1.9503e-04,  ...,  1.2767e-04,
+          1.9237e-05,  1.3170e-03],
+        [ 5.9046e-06, -2.3866e-04,  1.9431e-04,  ...,  1.2122e-05,
+         -1.8692e-04,  7.1144e-04]], device='cuda:0')
+Epoch 253, bias, value: tensor([ 0.0089, -0.0020, -0.0009, -0.0185,  0.0087, -0.0051, -0.0136, -0.0233,
+         0.0054,  0.0018], device='cuda:0'), grad: tensor([ 0.0070, -0.0261,  0.0075, -0.0217,  0.0125,  0.0069, -0.0184,  0.0113,
+         0.0131,  0.0079], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 252, time 216.01, cls_loss 0.5008 cls_loss_mapping 0.0064 cls_loss_causal 0.4804 re_mapping 0.0072 re_causal 0.0185 /// teacc 98.76 lr 0.00010000
+Epoch 254, weight, value: tensor([[ 0.0300,  0.1007, -0.1602,  ..., -0.0924,  0.0643,  0.0063],
+        [-0.0808, -0.0952,  0.0919,  ..., -0.0295, -0.0963,  0.0524],
+        [-0.0722, -0.0568, -0.1091,  ..., -0.1246, -0.0212,  0.0511],
+        ...,
+        [-0.0150, -0.1133, -0.1156,  ..., -0.1113, -0.0332,  0.0642],
+        [-0.1061, -0.0962, -0.0963,  ..., -0.0595, -0.0520, -0.0883],
+        [ 0.0152, -0.0273, -0.0631,  ..., -0.0794,  0.0218, -0.0214]],
+       device='cuda:0'), grad: tensor([[-1.0881e-03, -2.5253e-03, -6.0892e-04,  ..., -1.8253e-03,
+         -7.2098e-04, -2.4586e-03],
+        [ 4.4537e-04,  9.8050e-05,  1.4019e-04,  ...,  2.9922e-04,
+          1.6403e-04,  1.0891e-03],
+        [-3.2663e-04, -8.8120e-04, -4.9305e-04,  ...,  2.0993e-04,
+          6.2323e-04, -1.6769e-02],
+        ...,
+        [-5.0843e-05, -6.2943e-04,  5.7411e-04,  ...,  6.1941e-04,
+          5.4455e-04,  1.6830e-02],
+        [ 7.6294e-04,  3.8028e-04,  3.4690e-04,  ...,  4.1127e-04,
+          3.0708e-04,  8.4686e-04],
+        [ 6.0415e-04,  5.1689e-04,  4.7803e-04,  ...,  5.3453e-04,
+          4.2391e-04,  1.7891e-03]], device='cuda:0')
+Epoch 254, bias, value: tensor([ 0.0088, -0.0024, -0.0014, -0.0189,  0.0086, -0.0049, -0.0129, -0.0226,
+         0.0057,  0.0016], device='cuda:0'), grad: tensor([-0.0381,  0.0089, -0.0053,  0.0394,  0.0147, -0.0355, -0.0197,  0.0157,
+         0.0073,  0.0124], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 253, time 216.09, cls_loss 0.5033 cls_loss_mapping 0.0041 cls_loss_causal 0.4765 re_mapping 0.0074 re_causal 0.0192 /// teacc 98.72 lr 0.00010000
+Epoch 255, weight, value: tensor([[ 0.0292,  0.0992, -0.1616,  ..., -0.0927,  0.0642,  0.0069],
+        [-0.0814, -0.0955,  0.0917,  ..., -0.0304, -0.0965,  0.0514],
+        [-0.0701, -0.0550, -0.1069,  ..., -0.1234, -0.0211,  0.0522],
+        ...,
+        [-0.0141, -0.1132, -0.1162,  ..., -0.1098, -0.0332,  0.0638],
+        [-0.1075, -0.0964, -0.0958,  ..., -0.0590, -0.0522, -0.0881],
+        [ 0.0155, -0.0269, -0.0627,  ..., -0.0783,  0.0216, -0.0210]],
+       device='cuda:0'), grad: tensor([[ 1.0765e-02,  8.8196e-03,  4.2170e-05,  ...,  3.3302e-03,
+          5.3711e-03,  5.7831e-03],
+        [-9.4795e-04, -3.3069e-04, -1.1845e-03,  ..., -1.3618e-03,
+          1.7965e-04, -2.5749e-03],
+        [ 2.4204e-03,  4.6372e-04,  3.8147e-04,  ...,  4.6825e-04,
+          1.0481e-03,  3.6755e-03],
+        ...,
+        [ 2.1458e-03,  6.3753e-04,  6.3121e-05,  ...,  3.4189e-04,
+          7.3910e-04, -8.3971e-04],
+        [ 8.6164e-04,  4.8971e-04,  7.0906e-04,  ...,  4.6492e-04,
+          6.1131e-04,  3.4161e-03],
+        [-1.1040e-02, -1.1467e-02,  3.9458e-05,  ..., -3.4561e-03,
+         -4.9706e-03, -5.5466e-03]], device='cuda:0')
+Epoch 255, bias, value: tensor([ 0.0089, -0.0018, -0.0009, -0.0180,  0.0079, -0.0055, -0.0127, -0.0224,
+         0.0044,  0.0015], device='cuda:0'), grad: tensor([ 0.0466, -0.0165,  0.0283,  0.0013,  0.0184, -0.0017, -0.0125,  0.0116,
+        -0.0084, -0.0671], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 254, time 216.21, cls_loss 0.5176 cls_loss_mapping 0.0037 cls_loss_causal 0.4914 re_mapping 0.0068 re_causal 0.0188 /// teacc 98.72 lr 0.00010000
+Epoch 256, weight, value: tensor([[ 0.0299,  0.1000, -0.1613,  ..., -0.0940,  0.0650,  0.0071],
+        [-0.0812, -0.0958,  0.0912,  ..., -0.0309, -0.0966,  0.0517],
+        [-0.0692, -0.0549, -0.1069,  ..., -0.1247, -0.0208,  0.0518],
+        ...,
+        [-0.0148, -0.1145, -0.1153,  ..., -0.1101, -0.0335,  0.0635],
+        [-0.1076, -0.0968, -0.0965,  ..., -0.0588, -0.0530, -0.0865],
+        [ 0.0151, -0.0259, -0.0626,  ..., -0.0786,  0.0211, -0.0218]],
+       device='cuda:0'), grad: tensor([[-1.8167e-03, -2.7065e-03,  1.4496e-04,  ...,  5.1767e-05,
+          1.5891e-04,  1.6737e-03],
+        [-9.4700e-04,  5.8711e-05, -4.0855e-03,  ..., -8.0943e-05,
+          1.9670e-04, -1.4439e-03],
+        [-2.6107e-04,  2.1589e-04,  4.2725e-04,  ...,  2.0266e-05,
+          3.0470e-04, -4.7455e-03],
+        ...,
+        [-6.3553e-03,  3.1781e-04,  2.9206e-04,  ...,  1.2517e-04,
+         -2.3365e-03, -1.1726e-02],
+        [ 9.0170e-04,  2.3854e-04,  3.4332e-04,  ..., -6.0797e-05,
+          1.2887e-04,  6.8169e-03],
+        [-4.5252e-04,  3.0875e-04,  2.8753e-04,  ..., -6.9976e-05,
+          6.4194e-05, -7.3147e-04]], device='cuda:0')
+Epoch 256, bias, value: tensor([ 0.0087, -0.0016, -0.0007, -0.0179,  0.0084, -0.0055, -0.0130, -0.0225,
+         0.0042,  0.0014], device='cuda:0'), grad: tensor([-0.0039, -0.0615, -0.0225,  0.0251,  0.0541,  0.0352, -0.0517, -0.0034,
+         0.0367, -0.0081], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 255, time 216.65, cls_loss 0.4882 cls_loss_mapping 0.0038 cls_loss_causal 0.4638 re_mapping 0.0072 re_causal 0.0193 /// teacc 98.85 lr 0.00010000
+Epoch 257, weight, value: tensor([[ 0.0299,  0.1010, -0.1599,  ..., -0.0954,  0.0655,  0.0063],
+        [-0.0817, -0.0961,  0.0910,  ..., -0.0322, -0.0975,  0.0525],
+        [-0.0702, -0.0561, -0.1061,  ..., -0.1233, -0.0218,  0.0518],
+        ...,
+        [-0.0140, -0.1148, -0.1160,  ..., -0.1107, -0.0337,  0.0638],
+        [-0.1068, -0.0951, -0.0957,  ..., -0.0578, -0.0518, -0.0856],
+        [ 0.0149, -0.0262, -0.0630,  ..., -0.0797,  0.0219, -0.0227]],
+       device='cuda:0'), grad: tensor([[ 2.7161e-03,  2.7714e-03,  2.3556e-04,  ...,  2.6360e-03,
+         -6.7024e-03,  1.2035e-03],
+        [-7.8440e-04,  1.8442e-04,  1.1280e-05,  ...,  1.0099e-03,
+          3.5949e-06, -2.6054e-03],
+        [ 3.2091e-04,  1.9622e-04,  4.0263e-05,  ...,  9.4295e-05,
+          4.1306e-05,  2.2030e-03],
+        ...,
+        [-1.3626e-04,  1.9050e-04,  3.1805e-04,  ...,  1.8036e-04,
+          1.6069e-04, -8.5449e-03],
+        [ 3.0746e-03, -4.9448e-04, -3.7122e-04,  ..., -3.2864e-03,
+          1.3704e-03,  3.6354e-03],
+        [ 8.3065e-04,  5.7125e-04,  4.7404e-07,  ...,  6.8855e-04,
+          1.0086e-02,  1.4210e-03]], device='cuda:0')
+Epoch 257, bias, value: tensor([ 0.0087, -0.0011, -0.0014, -0.0181,  0.0081, -0.0049, -0.0137, -0.0220,
+         0.0053,  0.0006], device='cuda:0'), grad: tensor([ 0.0066, -0.0358,  0.0191,  0.0193, -0.0431, -0.0057, -0.0030, -0.0306,
+         0.0140,  0.0593], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 256, time 216.68, cls_loss 0.5186 cls_loss_mapping 0.0056 cls_loss_causal 0.4975 re_mapping 0.0072 re_causal 0.0187 /// teacc 98.77 lr 0.00010000
+Epoch 258, weight, value: tensor([[ 0.0310,  0.1023, -0.1595,  ..., -0.0949,  0.0661,  0.0061],
+        [-0.0816, -0.0963,  0.0914,  ..., -0.0316, -0.0970,  0.0515],
+        [-0.0707, -0.0562, -0.1068,  ..., -0.1242, -0.0231,  0.0519],
+        ...,
+        [-0.0145, -0.1144, -0.1161,  ..., -0.1108, -0.0337,  0.0642],
+        [-0.1061, -0.0956, -0.0962,  ..., -0.0579, -0.0500, -0.0858],
+        [ 0.0152, -0.0259, -0.0616,  ..., -0.0792,  0.0206, -0.0236]],
+       device='cuda:0'), grad: tensor([[ 2.2087e-03,  8.6546e-04,  3.3140e-04,  ...,  3.7265e-04,
+          1.1206e-03, -1.1606e-03],
+        [-1.8005e-03, -1.0979e-02, -8.3847e-03,  ..., -3.5572e-04,
+         -3.8648e-04, -3.5648e-03],
+        [ 1.8966e-04,  8.7118e-04,  6.7186e-04,  ...,  5.9903e-05,
+          6.8486e-05, -8.4400e-04],
+        ...,
+        [ 5.0783e-04,  4.7684e-04,  6.8998e-04,  ...,  8.9645e-05,
+          4.1544e-05,  6.0987e-04],
+        [ 2.8205e-04,  1.8203e-04,  2.5177e-04,  ...,  5.8979e-05,
+          5.3912e-05,  1.3590e-03],
+        [-1.5998e-04,  8.1015e-04,  6.4182e-04,  ...,  1.3828e-04,
+          1.3983e-04,  6.5422e-04]], device='cuda:0')
+Epoch 258, bias, value: tensor([ 0.0090, -0.0005, -0.0010, -0.0178,  0.0077, -0.0050, -0.0147, -0.0223,
+         0.0055,  0.0005], device='cuda:0'), grad: tensor([ 0.0055, -0.0774,  0.0031,  0.0234,  0.0032,  0.0085,  0.0069,  0.0100,
+         0.0103,  0.0065], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 257, time 216.42, cls_loss 0.5060 cls_loss_mapping 0.0056 cls_loss_causal 0.4775 re_mapping 0.0067 re_causal 0.0167 /// teacc 98.76 lr 0.00010000
+Epoch 259, weight, value: tensor([[ 0.0310,  0.1015, -0.1607,  ..., -0.0940,  0.0647,  0.0058],
+        [-0.0822, -0.0952,  0.0915,  ..., -0.0308, -0.0967,  0.0508],
+        [-0.0702, -0.0571, -0.1073,  ..., -0.1239, -0.0236,  0.0521],
+        ...,
+        [-0.0148, -0.1139, -0.1152,  ..., -0.1107, -0.0341,  0.0650],
+        [-0.1068, -0.0968, -0.0977,  ..., -0.0588, -0.0503, -0.0859],
+        [ 0.0156, -0.0260, -0.0616,  ..., -0.0799,  0.0209, -0.0241]],
+       device='cuda:0'), grad: tensor([[ 4.6849e-04,  6.6876e-05,  4.5300e-05,  ...,  1.4670e-05,
+          1.0633e-04,  6.5517e-04],
+        [ 1.1539e-03,  4.2176e-04,  2.6703e-04,  ...,  2.5034e-04,
+          5.8603e-04,  2.6321e-03],
+        [ 4.0936e-04, -1.4362e-03,  5.9247e-05,  ..., -4.9171e-03,
+          1.5247e-04, -6.6910e-03],
+        ...,
+        [ 8.8215e-04,  2.5773e-04,  2.0981e-04,  ...,  2.9206e-05,
+          2.2244e-04,  1.5736e-03],
+        [ 2.9397e-04,  5.4884e-04,  8.8871e-05,  ...,  5.4032e-05,
+          1.1933e-04,  1.5259e-03],
+        [-4.9400e-03,  1.4037e-05, -1.2531e-03,  ..., -9.0063e-05,
+         -1.8606e-03, -7.0839e-03]], device='cuda:0')
+Epoch 259, bias, value: tensor([ 0.0081, -0.0008, -0.0013, -0.0186,  0.0073, -0.0055, -0.0130, -0.0214,
+         0.0061,  0.0004], device='cuda:0'), grad: tensor([ 0.0153,  0.0317, -0.0302,  0.0175,  0.0056, -0.0443,  0.0161,  0.0254,
+         0.0470, -0.0842], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 258, time 216.69, cls_loss 0.4969 cls_loss_mapping 0.0054 cls_loss_causal 0.4700 re_mapping 0.0070 re_causal 0.0180 /// teacc 98.93 lr 0.00010000
+Epoch 260, weight, value: tensor([[ 0.0316,  0.1010, -0.1614,  ..., -0.0942,  0.0653,  0.0054],
+        [-0.0818, -0.0948,  0.0914,  ..., -0.0294, -0.0954,  0.0508],
+        [-0.0720, -0.0570, -0.1069,  ..., -0.1228, -0.0251,  0.0520],
+        ...,
+        [-0.0161, -0.1153, -0.1155,  ..., -0.1126, -0.0357,  0.0656],
+        [-0.1075, -0.0974, -0.0979,  ..., -0.0583, -0.0518, -0.0871],
+        [ 0.0149, -0.0274, -0.0625,  ..., -0.0801,  0.0204, -0.0240]],
+       device='cuda:0'), grad: tensor([[ 4.6119e-06, -1.4200e-03, -2.5120e-03,  ..., -3.7174e-03,
+          1.0872e-03,  3.2926e-04],
+        [ 4.6945e-04, -9.3689e-03, -2.5482e-03,  ..., -2.1038e-03,
+          6.1750e-04,  8.5926e-04],
+        [-1.5774e-03, -9.5844e-04, -9.7752e-04,  ...,  3.8409e-04,
+         -9.5546e-05, -1.8015e-03],
+        ...,
+        [ 1.4496e-04,  1.8024e-04,  1.5867e-04,  ...,  1.8144e-04,
+          9.0981e-04, -2.4247e-04],
+        [ 4.2152e-04,  1.7233e-03,  3.6144e-04,  ...,  1.5202e-03,
+          7.2479e-04,  4.3988e-04],
+        [ 2.0146e-04,  7.7820e-04,  2.7752e-04,  ...,  8.8644e-04,
+          1.0803e-05,  8.1539e-04]], device='cuda:0')
+Epoch 260, bias, value: tensor([ 0.0075, -0.0004, -0.0022, -0.0179,  0.0076, -0.0056, -0.0128, -0.0211,
+         0.0059,  0.0002], device='cuda:0'), grad: tensor([ 0.0013, -0.0093, -0.0595,  0.0271,  0.0164,  0.0201, -0.0182, -0.0156,
+         0.0235,  0.0142], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 259, time 216.57, cls_loss 0.5192 cls_loss_mapping 0.0056 cls_loss_causal 0.4958 re_mapping 0.0068 re_causal 0.0180 /// teacc 98.78 lr 0.00010000
+Epoch 261, weight, value: tensor([[ 0.0316,  0.1004, -0.1622,  ..., -0.0945,  0.0646,  0.0054],
+        [-0.0819, -0.0950,  0.0899,  ..., -0.0303, -0.0956,  0.0508],
+        [-0.0712, -0.0564, -0.1059,  ..., -0.1219, -0.0242,  0.0532],
+        ...,
+        [-0.0152, -0.1146, -0.1162,  ..., -0.1117, -0.0354,  0.0663],
+        [-0.1081, -0.0983, -0.0988,  ..., -0.0594, -0.0519, -0.0865],
+        [ 0.0148, -0.0274, -0.0619,  ..., -0.0807,  0.0196, -0.0242]],
+       device='cuda:0'), grad: tensor([[-1.4143e-03,  7.9250e-04,  5.2184e-05,  ..., -1.6699e-03,
+          9.3281e-05, -5.6381e-03],
+        [-1.0214e-03, -3.2753e-05, -1.7347e-03,  ...,  7.7903e-05,
+          6.9942e-07, -1.9054e-03],
+        [-3.2158e-03, -7.3967e-03,  1.5879e-04,  ...,  1.7226e-04,
+         -1.0328e-03, -6.3667e-03],
+        ...,
+        [-1.1692e-03,  7.8344e-04,  3.2830e-04,  ...,  1.9681e-04,
+          5.8785e-06,  8.2970e-04],
+        [ 1.8253e-03,  1.5392e-03,  5.4884e-04,  ...,  4.5466e-04,
+          1.5497e-04,  4.2496e-03],
+        [ 1.4286e-03,  3.3951e-04,  1.2553e-04,  ...,  1.1295e-04,
+          2.6539e-05,  1.2178e-03]], device='cuda:0')
+Epoch 261, bias, value: tensor([ 0.0066, -0.0005, -0.0003, -0.0185,  0.0070, -0.0055, -0.0138, -0.0203,
+         0.0066, -0.0004], device='cuda:0'), grad: tensor([-0.0240, -0.0245, -0.0562,  0.0559, -0.0065, -0.0148,  0.0350,  0.0246,
+         0.0123, -0.0019], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 260, time 216.72, cls_loss 0.4784 cls_loss_mapping 0.0055 cls_loss_causal 0.4523 re_mapping 0.0068 re_causal 0.0181 /// teacc 98.81 lr 0.00010000
+Epoch 262, weight, value: tensor([[ 0.0310,  0.1010, -0.1627,  ..., -0.0944,  0.0650,  0.0043],
+        [-0.0812, -0.0948,  0.0911,  ..., -0.0303, -0.0946,  0.0497],
+        [-0.0716, -0.0542, -0.1051,  ..., -0.1205, -0.0236,  0.0526],
+        ...,
+        [-0.0154, -0.1157, -0.1175,  ..., -0.1112, -0.0349,  0.0664],
+        [-0.1073, -0.0981, -0.0989,  ..., -0.0591, -0.0513, -0.0870],
+        [ 0.0130, -0.0299, -0.0627,  ..., -0.0818,  0.0177, -0.0236]],
+       device='cuda:0'), grad: tensor([[ 1.7369e-04, -2.9588e-04, -9.5308e-05,  ..., -3.8266e-05,
+         -8.1435e-06,  6.0272e-04],
+        [-1.7557e-03,  5.6326e-05, -6.3442e-06,  ...,  1.1418e-06,
+         -1.3943e-03, -1.8663e-03],
+        [ 4.5252e-04,  1.6475e-04,  6.5155e-06,  ...,  5.6736e-06,
+          3.0684e-04,  7.4196e-04],
+        ...,
+        [-8.1253e-04,  5.1647e-05,  1.0291e-06,  ...,  1.6205e-06,
+         -4.4584e-04, -3.7403e-03],
+        [ 7.1859e-04,  4.3941e-04,  1.7524e-05,  ...,  4.1395e-05,
+          3.6216e-04,  1.9350e-03],
+        [ 4.6253e-05,  3.2878e-04,  5.4926e-05,  ...,  4.8339e-05,
+         -2.9802e-05, -2.9659e-04]], device='cuda:0')
+Epoch 262, bias, value: tensor([ 6.3323e-03, -2.4431e-04, -9.3571e-05, -1.8305e-02,  7.5203e-03,
+        -5.4886e-03, -1.4011e-02, -2.0989e-02,  6.8823e-03, -5.3389e-04],
+       device='cuda:0'), grad: tensor([ 0.0115, -0.0443,  0.0146,  0.0217, -0.0140, -0.0074,  0.0124, -0.0230,
+         0.0221,  0.0063], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 261, time 216.37, cls_loss 0.4738 cls_loss_mapping 0.0052 cls_loss_causal 0.4530 re_mapping 0.0069 re_causal 0.0175 /// teacc 98.77 lr 0.00010000
+Epoch 263, weight, value: tensor([[ 0.0305,  0.1020, -0.1631,  ..., -0.0952,  0.0646,  0.0054],
+        [-0.0810, -0.0943,  0.0922,  ..., -0.0311, -0.0946,  0.0495],
+        [-0.0723, -0.0540, -0.1057,  ..., -0.1203, -0.0243,  0.0521],
+        ...,
+        [-0.0144, -0.1161, -0.1186,  ..., -0.1107, -0.0342,  0.0667],
+        [-0.1072, -0.0993, -0.0999,  ..., -0.0596, -0.0515, -0.0864],
+        [ 0.0122, -0.0289, -0.0621,  ..., -0.0823,  0.0174, -0.0240]],
+       device='cuda:0'), grad: tensor([[ 4.6706e-04, -7.0524e-04,  3.8314e-04,  ...,  6.4960e-07,
+          5.7125e-04,  7.7152e-04],
+        [ 2.1687e-03,  1.2808e-03,  1.5459e-03,  ...,  2.8871e-07,
+          2.3136e-03,  2.7142e-03],
+        [ 2.8253e-04,  1.4143e-03,  2.8419e-04,  ...,  8.4611e-07,
+          3.1910e-03,  7.0333e-04],
+        ...,
+        [ 3.2353e-04,  3.7932e-04,  3.0971e-04,  ...,  1.0803e-06,
+         -8.1406e-03, -6.2370e-04],
+        [ 4.2868e-04,  9.0075e-04,  6.6090e-04,  ...,  5.4808e-07,
+          5.1403e-04,  1.1892e-03],
+        [ 2.5387e-03,  2.0170e-04,  8.2922e-04,  ...,  2.0992e-06,
+          3.5248e-03,  7.6962e-04]], device='cuda:0')
+Epoch 263, bias, value: tensor([ 0.0063,  0.0005, -0.0002, -0.0191,  0.0086, -0.0056, -0.0142, -0.0213,
+         0.0065, -0.0002], device='cuda:0'), grad: tensor([ 0.0165,  0.0335, -0.0061, -0.0401, -0.0182,  0.0165, -0.0108, -0.0051,
+         0.0205, -0.0068], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 262, time 216.43, cls_loss 0.5023 cls_loss_mapping 0.0054 cls_loss_causal 0.4763 re_mapping 0.0069 re_causal 0.0183 /// teacc 98.78 lr 0.00010000
+Epoch 264, weight, value: tensor([[ 0.0297,  0.1020, -0.1623,  ..., -0.0958,  0.0656,  0.0046],
+        [-0.0823, -0.0925,  0.0930,  ..., -0.0308, -0.0959,  0.0489],
+        [-0.0723, -0.0548, -0.1061,  ..., -0.1206, -0.0250,  0.0520],
+        ...,
+        [-0.0142, -0.1167, -0.1181,  ..., -0.1110, -0.0346,  0.0662],
+        [-0.1081, -0.1002, -0.0997,  ..., -0.0585, -0.0533, -0.0864],
+        [ 0.0132, -0.0287, -0.0625,  ..., -0.0821,  0.0189, -0.0221]],
+       device='cuda:0'), grad: tensor([[ 6.2895e-04,  2.8944e-04,  2.6894e-04,  ...,  2.8539e-04,
+          2.7871e-04,  1.0452e-03],
+        [ 1.3447e-03,  2.1064e-04,  7.4565e-05,  ...,  5.5265e-04,
+          1.1015e-03,  1.8549e-03],
+        [-2.5082e-03, -6.0921e-03, -3.1643e-03,  ...,  9.0241e-05,
+          2.1720e-04, -4.9553e-03],
+        ...,
+        [ 1.3704e-03,  3.6740e-04,  2.2161e-04,  ...,  2.2590e-05,
+          2.7394e-04,  2.7561e-03],
+        [ 1.3515e-05,  9.5224e-04,  6.1226e-04,  ...,  2.0933e-04,
+          3.4499e-04, -1.1784e-04],
+        [-1.7822e-04,  2.3341e-04,  7.0691e-05,  ...,  5.6922e-05,
+          4.5133e-04, -1.4076e-03]], device='cuda:0')
+Epoch 264, bias, value: tensor([ 6.0938e-03,  3.5793e-04, -6.4326e-05, -1.8146e-02,  7.9776e-03,
+        -5.7667e-03, -1.3606e-02, -2.1665e-02,  5.4614e-03,  4.8054e-04],
+       device='cuda:0'), grad: tensor([ 0.0129,  0.0263, -0.0381, -0.0125, -0.0228,  0.0230,  0.0059,  0.0248,
+        -0.0105, -0.0089], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 263, time 216.48, cls_loss 0.5033 cls_loss_mapping 0.0056 cls_loss_causal 0.4741 re_mapping 0.0065 re_causal 0.0170 /// teacc 98.78 lr 0.00010000
+Epoch 265, weight, value: tensor([[ 0.0300,  0.1024, -0.1614,  ..., -0.0967,  0.0653,  0.0051],
+        [-0.0833, -0.0925,  0.0925,  ..., -0.0320, -0.0972,  0.0487],
+        [-0.0724, -0.0551, -0.1060,  ..., -0.1205, -0.0247,  0.0527],
+        ...,
+        [-0.0154, -0.1166, -0.1177,  ..., -0.1091, -0.0341,  0.0661],
+        [-0.1089, -0.1005, -0.0994,  ..., -0.0588, -0.0529, -0.0874],
+        [ 0.0144, -0.0296, -0.0650,  ..., -0.0822,  0.0190, -0.0213]],
+       device='cuda:0'), grad: tensor([[ 2.2736e-03,  3.2310e-03,  4.5216e-07,  ...,  1.8597e-05,
+          7.0152e-03,  3.1543e-04],
+        [-1.0538e-03,  1.3545e-05,  2.7660e-07,  ..., -2.3210e-04,
+         -8.9455e-04, -7.6218e-03],
+        [-1.6308e-04,  2.0540e-04,  8.8103e-07,  ..., -9.9838e-05,
+          2.5344e-04, -3.7718e-04],
+        ...,
+        [ 5.9319e-04,  3.2753e-05,  3.9395e-07,  ...,  1.8522e-05,
+          3.0446e-04,  4.2081e-04],
+        [-1.7414e-03, -3.7918e-03,  9.8050e-06,  ...,  1.5497e-05,
+         -5.9204e-03, -9.8324e-04],
+        [ 2.8205e-04,  9.5510e-04,  1.4342e-06,  ...,  1.1325e-05,
+         -5.9128e-03,  5.8699e-04]], device='cuda:0')
+Epoch 265, bias, value: tensor([ 0.0065, -0.0013, -0.0004, -0.0186,  0.0087, -0.0052, -0.0137, -0.0216,
+         0.0060,  0.0009], device='cuda:0'), grad: tensor([ 0.0359, -0.0233,  0.0010,  0.0052,  0.0267,  0.0033,  0.0059,  0.0058,
+        -0.0581, -0.0024], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 264, time 216.57, cls_loss 0.5170 cls_loss_mapping 0.0049 cls_loss_causal 0.4955 re_mapping 0.0065 re_causal 0.0177 /// teacc 98.78 lr 0.00010000
+Epoch 266, weight, value: tensor([[ 0.0315,  0.1019, -0.1617,  ..., -0.0970,  0.0664,  0.0045],
+        [-0.0838, -0.0923,  0.0924,  ..., -0.0324, -0.0981,  0.0489],
+        [-0.0711, -0.0547, -0.1060,  ..., -0.1213, -0.0242,  0.0528],
+        ...,
+        [-0.0154, -0.1157, -0.1169,  ..., -0.1094, -0.0350,  0.0660],
+        [-0.1087, -0.1012, -0.1007,  ..., -0.0582, -0.0518, -0.0876],
+        [ 0.0155, -0.0296, -0.0649,  ..., -0.0824,  0.0195, -0.0213]],
+       device='cuda:0'), grad: tensor([[ 7.0047e-04,  8.7023e-05,  2.4259e-04,  ...,  1.1283e-04,
+          3.7575e-04,  4.5133e-04],
+        [ 5.0497e-04, -7.0524e-04, -8.4877e-04,  ...,  6.8784e-05,
+         -8.7321e-06, -3.7880e-03],
+        [ 2.0516e-04,  1.7560e-04,  9.8288e-05,  ...,  1.6189e-04,
+         -3.5310e-04,  1.1520e-03],
+        ...,
+        [ 5.6839e-04,  9.6679e-05,  7.5221e-05,  ...,  4.4167e-05,
+          3.4571e-04,  1.2197e-03],
+        [-1.6050e-03,  2.1231e-04,  2.5058e-04,  ...,  2.3139e-04,
+         -3.9196e-04, -8.3303e-04],
+        [-2.5043e-03, -8.1825e-04, -1.1265e-05,  ..., -5.5742e-04,
+         -2.5845e-03, -6.8045e-04]], device='cuda:0')
+Epoch 266, bias, value: tensor([ 0.0053, -0.0006,  0.0007, -0.0189,  0.0076, -0.0047, -0.0128, -0.0225,
+         0.0058,  0.0014], device='cuda:0'), grad: tensor([ 0.0247, -0.0016, -0.0011, -0.0078, -0.0338,  0.0143,  0.0274,  0.0235,
+        -0.0291, -0.0162], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 265, time 216.83, cls_loss 0.5138 cls_loss_mapping 0.0042 cls_loss_causal 0.4849 re_mapping 0.0069 re_causal 0.0196 /// teacc 98.87 lr 0.00010000
+Epoch 267, weight, value: tensor([[ 0.0319,  0.1026, -0.1620,  ..., -0.0971,  0.0667,  0.0049],
+        [-0.0841, -0.0926,  0.0935,  ..., -0.0319, -0.0979,  0.0490],
+        [-0.0722, -0.0560, -0.1084,  ..., -0.1214, -0.0249,  0.0532],
+        ...,
+        [-0.0153, -0.1152, -0.1172,  ..., -0.1091, -0.0350,  0.0663],
+        [-0.1090, -0.1000, -0.1007,  ..., -0.0586, -0.0508, -0.0877],
+        [ 0.0155, -0.0304, -0.0652,  ..., -0.0814,  0.0201, -0.0209]],
+       device='cuda:0'), grad: tensor([[ 3.3855e-04, -2.7542e-03,  2.7943e-04,  ..., -1.5450e-03,
+          8.1837e-05,  4.6587e-04],
+        [-1.4610e-03,  8.9109e-05,  6.1893e-04,  ...,  1.3962e-03,
+          2.3055e-04, -1.7700e-03],
+        [ 9.1553e-04,  1.7166e-03, -4.6182e-04,  ..., -1.5366e-04,
+          4.6873e-04,  1.1148e-03],
+        ...,
+        [-3.7842e-03,  5.3549e-04, -3.7169e-04,  ...,  4.1223e-04,
+         -5.5218e-04, -1.1978e-03],
+        [ 1.6003e-03,  1.0681e-03, -9.1743e-04,  ..., -6.9523e-04,
+          4.1699e-04, -1.6222e-03],
+        [-1.9350e-03, -5.4216e-04,  1.0347e-03,  ...,  5.8746e-04,
+          4.4537e-04, -2.0561e-03]], device='cuda:0')
+Epoch 267, bias, value: tensor([ 0.0061, -0.0006,  0.0012, -0.0192,  0.0075, -0.0052, -0.0140, -0.0218,
+         0.0052,  0.0021], device='cuda:0'), grad: tensor([-0.0039,  0.0021,  0.0275,  0.0216,  0.0246,  0.0210,  0.0203,  0.0089,
+        -0.0694, -0.0526], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 266, time 216.64, cls_loss 0.5085 cls_loss_mapping 0.0055 cls_loss_causal 0.4861 re_mapping 0.0071 re_causal 0.0181 /// teacc 98.62 lr 0.00010000
+Epoch 268, weight, value: tensor([[ 0.0327,  0.1036, -0.1615,  ..., -0.0977,  0.0676,  0.0050],
+        [-0.0830, -0.0932,  0.0939,  ..., -0.0328, -0.0980,  0.0494],
+        [-0.0726, -0.0559, -0.1076,  ..., -0.1217, -0.0253,  0.0538],
+        ...,
+        [-0.0165, -0.1162, -0.1187,  ..., -0.1098, -0.0361,  0.0657],
+        [-0.1076, -0.0986, -0.1004,  ..., -0.0584, -0.0504, -0.0864],
+        [ 0.0160, -0.0304, -0.0640,  ..., -0.0809,  0.0214, -0.0203]],
+       device='cuda:0'), grad: tensor([[ 1.2946e-04,  4.8894e-08,  6.9384e-08,  ...,  6.7689e-06,
+          1.0036e-05,  2.7704e-04],
+        [ 1.6224e-04,  7.1712e-08, -1.6624e-06,  ...,  3.4273e-07,
+          1.3813e-05,  4.7994e-04],
+        [-1.5755e-03,  1.6717e-07, -7.0222e-07,  ...,  3.6834e-07,
+          2.8208e-05,  5.2404e-04],
+        ...,
+        [ 1.0455e-04,  4.3884e-06,  5.6857e-07,  ...,  1.2759e-07,
+         -2.2780e-06, -2.0332e-03],
+        [ 2.0278e-04,  3.1032e-06,  9.9000e-07,  ...,  2.4319e-05,
+         -4.0710e-05, -8.3494e-04],
+        [ 1.2708e-04, -1.9148e-05,  1.4249e-07,  ...,  1.1520e-06,
+         -8.5458e-06,  3.4189e-04]], device='cuda:0')
+Epoch 268, bias, value: tensor([ 0.0061, -0.0008,  0.0016, -0.0195,  0.0075, -0.0062, -0.0139, -0.0225,
+         0.0067,  0.0019], device='cuda:0'), grad: tensor([ 0.0168,  0.0223, -0.0075,  0.0233, -0.0429,  0.0232,  0.0190, -0.0140,
+        -0.0341, -0.0060], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 267, time 216.31, cls_loss 0.4931 cls_loss_mapping 0.0052 cls_loss_causal 0.4658 re_mapping 0.0066 re_causal 0.0171 /// teacc 98.68 lr 0.00010000
+Epoch 269, weight, value: tensor([[ 0.0339,  0.1041, -0.1625,  ..., -0.0981,  0.0690,  0.0048],
+        [-0.0830, -0.0936,  0.0941,  ..., -0.0331, -0.0989,  0.0498],
+        [-0.0714, -0.0555, -0.1067,  ..., -0.1204, -0.0247,  0.0535],
+        ...,
+        [-0.0166, -0.1167, -0.1188,  ..., -0.1100, -0.0359,  0.0662],
+        [-0.1082, -0.1006, -0.1016,  ..., -0.0592, -0.0499, -0.0866],
+        [ 0.0156, -0.0299, -0.0637,  ..., -0.0814,  0.0210, -0.0200]],
+       device='cuda:0'), grad: tensor([[ 3.0547e-05,  2.0161e-03, -3.4332e-05,  ...,  2.1625e-06,
+          1.2469e-04,  2.6435e-05],
+        [ 4.5151e-05,  1.5527e-05, -2.7329e-05,  ..., -1.7703e-05,
+          1.8394e-04,  1.1779e-05],
+        [ 3.2157e-05,  5.4026e-04,  1.6198e-05,  ...,  3.3788e-06,
+          1.3065e-04, -5.1212e-04],
+        ...,
+        [ 4.7743e-05,  6.1452e-05,  1.8016e-05,  ...,  4.6268e-06,
+          1.9431e-04,  3.7122e-04],
+        [ 3.1382e-05,  1.4675e-04,  4.5925e-05,  ...,  1.1843e-04,
+          1.2755e-04,  4.3482e-05],
+        [-1.4043e-04,  4.5925e-05,  2.4229e-05,  ...,  1.0580e-06,
+         -5.7983e-04, -6.9082e-05]], device='cuda:0')
+Epoch 269, bias, value: tensor([ 0.0061, -0.0008,  0.0015, -0.0198,  0.0086, -0.0064, -0.0137, -0.0218,
+         0.0056,  0.0018], device='cuda:0'), grad: tensor([ 0.0240,  0.0118,  0.0141, -0.0189, -0.0177, -0.0159, -0.0202,  0.0228,
+         0.0148, -0.0148], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 268, time 216.25, cls_loss 0.4846 cls_loss_mapping 0.0039 cls_loss_causal 0.4570 re_mapping 0.0067 re_causal 0.0182 /// teacc 98.85 lr 0.00010000
+Epoch 270, weight, value: tensor([[ 0.0342,  0.1047, -0.1634,  ..., -0.0978,  0.0690,  0.0062],
+        [-0.0839, -0.0949,  0.0936,  ..., -0.0336, -0.1010,  0.0503],
+        [-0.0707, -0.0568, -0.1072,  ..., -0.1216, -0.0246,  0.0533],
+        ...,
+        [-0.0172, -0.1152, -0.1181,  ..., -0.1102, -0.0353,  0.0652],
+        [-0.1078, -0.1008, -0.1024,  ..., -0.0594, -0.0479, -0.0863],
+        [ 0.0160, -0.0306, -0.0639,  ..., -0.0822,  0.0204, -0.0200]],
+       device='cuda:0'), grad: tensor([[ 1.3857e-03,  7.4244e-04,  3.9339e-04,  ...,  8.0538e-04,
+          1.7185e-03,  1.1816e-03],
+        [-3.5286e-03, -1.2495e-05,  1.0329e-04,  ...,  1.1902e-03,
+         -8.4257e-04, -3.3295e-02],
+        [ 1.2398e-03,  8.5068e-04,  5.1832e-04,  ...,  5.0259e-04,
+          1.3628e-03, -3.7718e-04],
+        ...,
+        [ 3.4866e-03,  5.0402e-04,  2.2030e-04,  ...,  3.1781e-04,
+          1.2608e-03,  2.5681e-02],
+        [ 9.2125e-04,  7.3576e-04,  4.1246e-04,  ...,  1.0328e-03,
+          1.1196e-03,  1.0624e-03],
+        [-5.3024e-03, -4.0665e-03, -3.8929e-03,  ..., -1.8377e-03,
+         -5.8517e-03,  3.8242e-03]], device='cuda:0')
+Epoch 270, bias, value: tensor([ 6.8533e-03, -8.2987e-04,  1.5447e-03, -1.8811e-02,  9.1519e-03,
+        -6.6691e-03, -1.4126e-02, -2.1675e-02,  5.7795e-03, -5.0555e-05],
+       device='cuda:0'), grad: tensor([ 0.0312, -0.0573, -0.0021, -0.0170, -0.0026, -0.0184,  0.0160,  0.0515,
+         0.0274, -0.0288], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 269, time 216.53, cls_loss 0.4885 cls_loss_mapping 0.0048 cls_loss_causal 0.4603 re_mapping 0.0068 re_causal 0.0181 /// teacc 98.67 lr 0.00010000
+Epoch 271, weight, value: tensor([[ 0.0344,  0.1047, -0.1644,  ..., -0.0979,  0.0680,  0.0060],
+        [-0.0823, -0.0956,  0.0931,  ..., -0.0345, -0.0989,  0.0513],
+        [-0.0703, -0.0560, -0.1069,  ..., -0.1215, -0.0253,  0.0531],
+        ...,
+        [-0.0175, -0.1146, -0.1175,  ..., -0.1094, -0.0334,  0.0659],
+        [-0.1086, -0.1005, -0.1017,  ..., -0.0599, -0.0485, -0.0854],
+        [ 0.0152, -0.0282, -0.0656,  ..., -0.0834,  0.0204, -0.0217]],
+       device='cuda:0'), grad: tensor([[ 9.7961e-03,  7.7782e-03,  8.4937e-05,  ...,  3.6068e-03,
+          7.3547e-03,  3.7594e-03],
+        [ 2.0370e-03,  3.4839e-05,  8.0061e-04,  ...,  3.0780e-04,
+          1.4315e-03,  4.3335e-03],
+        [ 6.2084e-04,  3.7766e-04,  1.0836e-04,  ...,  9.1732e-05,
+          5.1212e-04, -7.5531e-04],
+        ...,
+        [-4.3335e-03,  1.9693e-04, -1.5612e-03,  ..., -5.3883e-04,
+         -3.0060e-03, -4.1885e-03],
+        [-7.7629e-04, -1.4067e-04,  5.6736e-06,  ...,  7.7963e-05,
+         -3.2520e-04, -3.3226e-03],
+        [ 1.1511e-03,  1.2341e-03,  1.6797e-04,  ...,  2.2149e-04,
+          8.6117e-04, -3.2673e-03]], device='cuda:0')
+Epoch 271, bias, value: tensor([ 0.0069, -0.0001,  0.0010, -0.0187,  0.0087, -0.0073, -0.0134, -0.0208,
+         0.0061, -0.0014], device='cuda:0'), grad: tensor([-0.0206,  0.0266, -0.0014,  0.0227, -0.0104,  0.0093,  0.0116, -0.0273,
+        -0.0012, -0.0093], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 270, time 216.31, cls_loss 0.5048 cls_loss_mapping 0.0040 cls_loss_causal 0.4807 re_mapping 0.0068 re_causal 0.0181 /// teacc 98.79 lr 0.00010000
+Epoch 272, weight, value: tensor([[ 0.0349,  0.1053, -0.1633,  ..., -0.0985,  0.0688,  0.0049],
+        [-0.0824, -0.0953,  0.0939,  ..., -0.0335, -0.0986,  0.0519],
+        [-0.0705, -0.0565, -0.1075,  ..., -0.1220, -0.0262,  0.0535],
+        ...,
+        [-0.0179, -0.1166, -0.1183,  ..., -0.1093, -0.0341,  0.0653],
+        [-0.1090, -0.1010, -0.1022,  ..., -0.0613, -0.0488, -0.0848],
+        [ 0.0155, -0.0281, -0.0660,  ..., -0.0830,  0.0208, -0.0207]],
+       device='cuda:0'), grad: tensor([[-4.4036e-04,  8.4698e-05,  4.3958e-05,  ...,  4.2844e-04,
+         -6.4564e-04,  1.0885e-05],
+        [ 8.5449e-04,  1.7488e-04,  1.7214e-04,  ...,  5.1308e-04,
+          1.4687e-03,  4.6802e-04],
+        [ 5.2929e-04,  1.9515e-04,  1.8775e-04,  ...,  4.2081e-04,
+          8.6594e-04,  3.2496e-04],
+        ...,
+        [-1.6289e-03, -7.3671e-04,  2.3079e-04,  ...,  1.6010e-04,
+         -2.4261e-03, -1.0633e-03],
+        [ 8.1968e-04,  7.4863e-04,  8.1015e-04,  ..., -1.0031e-04,
+          1.4944e-03,  6.1321e-04],
+        [ 8.2254e-04,  9.7179e-04,  2.1529e-04,  ...,  9.3365e-04,
+          1.2865e-03,  9.7322e-04]], device='cuda:0')
+Epoch 272, bias, value: tensor([ 0.0082, -0.0006,  0.0007, -0.0191,  0.0079, -0.0076, -0.0128, -0.0223,
+         0.0070, -0.0002], device='cuda:0'), grad: tensor([-0.0121,  0.0179,  0.0153, -0.0192,  0.0202, -0.0108,  0.0097, -0.0490,
+         0.0006,  0.0273], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 271, time 216.35, cls_loss 0.5079 cls_loss_mapping 0.0083 cls_loss_causal 0.4844 re_mapping 0.0065 re_causal 0.0168 /// teacc 98.64 lr 0.00010000
+Epoch 273, weight, value: tensor([[ 0.0337,  0.1045, -0.1636,  ..., -0.0982,  0.0677,  0.0055],
+        [-0.0819, -0.0952,  0.0942,  ..., -0.0339, -0.0976,  0.0515],
+        [-0.0707, -0.0567, -0.1076,  ..., -0.1241, -0.0275,  0.0526],
+        ...,
+        [-0.0185, -0.1176, -0.1181,  ..., -0.1101, -0.0334,  0.0660],
+        [-0.1092, -0.1026, -0.1026,  ..., -0.0613, -0.0504, -0.0843],
+        [ 0.0156, -0.0266, -0.0653,  ..., -0.0843,  0.0223, -0.0202]],
+       device='cuda:0'), grad: tensor([[-5.8365e-03, -5.9853e-03, -3.0398e-04,  ...,  2.9564e-04,
+         -3.2177e-03, -4.6086e-04],
+        [ 5.2780e-05,  8.6546e-04,  7.1812e-04,  ...,  9.0122e-04,
+          6.2609e-04,  1.5755e-03],
+        [ 1.2741e-03,  1.4191e-03,  2.6202e-04,  ...,  2.3377e-04,
+          1.7853e-03,  1.0319e-03],
+        ...,
+        [ 1.3435e-04, -2.7199e-03, -1.6365e-03,  ..., -1.9369e-03,
+         -1.3180e-03, -1.9722e-03],
+        [ 2.5845e-04, -7.7171e-03,  2.5749e-04,  ...,  4.8447e-04,
+          1.4400e-03,  6.3896e-04],
+        [ 1.7157e-03,  2.2678e-03,  4.5872e-04,  ...,  8.0967e-04,
+          2.9984e-03, -2.2736e-03]], device='cuda:0')
+Epoch 273, bias, value: tensor([ 7.5501e-03, -4.4537e-04,  6.2948e-05, -1.8081e-02,  7.0223e-03,
+        -7.9334e-03, -1.2432e-02, -2.1873e-02,  5.4944e-03,  1.7605e-03],
+       device='cuda:0'), grad: tensor([-0.0114,  0.0251,  0.0173,  0.0021, -0.0184,  0.0433,  0.0160, -0.0529,
+        -0.0204, -0.0008], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 272, time 216.85, cls_loss 0.5097 cls_loss_mapping 0.0035 cls_loss_causal 0.4861 re_mapping 0.0063 re_causal 0.0171 /// teacc 98.84 lr 0.00010000
+Epoch 274, weight, value: tensor([[ 0.0342,  0.1038, -0.1642,  ..., -0.0996,  0.0673,  0.0041],
+        [-0.0824, -0.0956,  0.0955,  ..., -0.0329, -0.0989,  0.0524],
+        [-0.0710, -0.0563, -0.1084,  ..., -0.1234, -0.0275,  0.0526],
+        ...,
+        [-0.0185, -0.1185, -0.1193,  ..., -0.1111, -0.0324,  0.0664],
+        [-0.1098, -0.1024, -0.1024,  ..., -0.0613, -0.0504, -0.0851],
+        [ 0.0161, -0.0266, -0.0654,  ..., -0.0840,  0.0221, -0.0210]],
+       device='cuda:0'), grad: tensor([[ 2.5892e-04,  1.0562e-04,  1.7488e-04,  ...,  2.5177e-04,
+          6.6710e-04,  7.4291e-04],
+        [ 4.6492e-04,  2.5725e-04,  3.6120e-04,  ...,  5.4741e-04,
+          1.0490e-03,  1.7996e-03],
+        [ 3.1304e-04,  1.7774e-04,  2.7800e-04,  ...,  3.4451e-04,
+          1.5669e-03,  5.0659e-03],
+        ...,
+        [ 9.6798e-04,  2.9778e-04,  4.4465e-04,  ...,  5.0211e-04,
+         -5.4407e-04, -8.7509e-03],
+        [ 2.7704e-04,  2.1827e-04,  3.8743e-04,  ...,  4.8518e-04,
+          6.6566e-04,  7.7105e-04],
+        [-3.3379e-04,  2.0111e-04,  3.0303e-04,  ...,  3.8934e-04,
+         -9.2387e-05, -2.5139e-03]], device='cuda:0')
+Epoch 274, bias, value: tensor([ 0.0068, -0.0013,  0.0004, -0.0174,  0.0074, -0.0082, -0.0120, -0.0212,
+         0.0054,  0.0012], device='cuda:0'), grad: tensor([ 0.0130,  0.0221, -0.0028, -0.0462, -0.0096, -0.0032,  0.0102, -0.0017,
+         0.0126,  0.0055], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 273, time 216.67, cls_loss 0.5089 cls_loss_mapping 0.0048 cls_loss_causal 0.4822 re_mapping 0.0061 re_causal 0.0165 /// teacc 98.84 lr 0.00010000
+Epoch 275, weight, value: tensor([[ 0.0341,  0.1036, -0.1648,  ..., -0.0996,  0.0663,  0.0048],
+        [-0.0831, -0.0963,  0.0957,  ..., -0.0324, -0.0977,  0.0532],
+        [-0.0710, -0.0575, -0.1082,  ..., -0.1222, -0.0271,  0.0525],
+        ...,
+        [-0.0175, -0.1192, -0.1202,  ..., -0.1112, -0.0331,  0.0662],
+        [-0.1101, -0.1033, -0.1029,  ..., -0.0622, -0.0489, -0.0860],
+        [ 0.0164, -0.0268, -0.0649,  ..., -0.0826,  0.0215, -0.0205]],
+       device='cuda:0'), grad: tensor([[ 2.8000e-03, -1.9111e-06,  6.6042e-05,  ...,  1.2803e-04,
+          2.6894e-03,  6.0987e-04],
+        [ 4.2200e-04,  2.3735e-04,  9.5367e-04,  ...,  7.5102e-04,
+          8.5306e-04,  1.8358e-05],
+        [ 9.5415e-04,  1.2994e-04,  3.2616e-04,  ...,  3.8052e-04,
+          1.4324e-03, -1.1454e-03],
+        ...,
+        [-1.9350e-03,  3.6097e-04,  1.1557e-04,  ...,  1.8382e-04,
+          1.5917e-03, -3.3760e-03],
+        [ 4.8518e-04,  1.4248e-03,  7.3719e-04,  ...,  8.0729e-04,
+         -2.0421e-04,  1.0014e-03],
+        [-2.9640e-03, -1.7586e-03,  5.9664e-05,  ...,  1.6785e-04,
+         -8.8501e-03,  4.9858e-03]], device='cuda:0')
+Epoch 275, bias, value: tensor([ 0.0066, -0.0006,  0.0006, -0.0174,  0.0075, -0.0088, -0.0118, -0.0221,
+         0.0058,  0.0013], device='cuda:0'), grad: tensor([-0.0296, -0.0077, -0.0318,  0.0285, -0.0026,  0.0261, -0.0092,  0.0173,
+         0.0452, -0.0362], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 274, time 216.70, cls_loss 0.4847 cls_loss_mapping 0.0057 cls_loss_causal 0.4477 re_mapping 0.0060 re_causal 0.0156 /// teacc 98.84 lr 0.00010000
+Epoch 276, weight, value: tensor([[ 0.0344,  0.1033, -0.1650,  ..., -0.1001,  0.0675,  0.0046],
+        [-0.0835, -0.0966,  0.0964,  ..., -0.0330, -0.0974,  0.0530],
+        [-0.0713, -0.0570, -0.1087,  ..., -0.1216, -0.0274,  0.0530],
+        ...,
+        [-0.0160, -0.1191, -0.1210,  ..., -0.1112, -0.0329,  0.0670],
+        [-0.1102, -0.1047, -0.1026,  ..., -0.0624, -0.0485, -0.0867],
+        [ 0.0163, -0.0255, -0.0651,  ..., -0.0833,  0.0238, -0.0210]],
+       device='cuda:0'), grad: tensor([[ 3.2282e-04, -3.0460e-03,  2.3171e-06,  ..., -8.1444e-04,
+          2.8658e-04,  3.2501e-03],
+        [ 2.3770e-04,  4.7237e-05,  1.9515e-04,  ...,  2.4056e-04,
+          2.5511e-04, -3.0308e-03],
+        [ 3.0780e-04,  2.5959e-03, -3.4928e-05,  ...,  7.4506e-05,
+         -6.1035e-04, -1.7252e-03],
+        ...,
+        [ 7.3099e-04,  4.9919e-05,  7.6890e-06,  ...,  1.3244e-04,
+          5.4789e-04,  5.5923e-03],
+        [-3.1223e-03, -2.2430e-03, -2.0516e-04,  ..., -6.2704e-04,
+         -2.0943e-03, -1.1520e-02],
+        [ 5.7125e-04,  2.2960e-04,  1.0477e-06,  ...,  1.6999e-04,
+          5.2500e-04, -2.5010e-04]], device='cuda:0')
+Epoch 276, bias, value: tensor([ 0.0066,  0.0001,  0.0015, -0.0188,  0.0068, -0.0092, -0.0112, -0.0225,
+         0.0054,  0.0022], device='cuda:0'), grad: tensor([ 0.0305,  0.0033, -0.0341,  0.0188,  0.0249,  0.0218,  0.0022,  0.0367,
+        -0.0891, -0.0151], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 275, time 216.51, cls_loss 0.4727 cls_loss_mapping 0.0049 cls_loss_causal 0.4464 re_mapping 0.0065 re_causal 0.0170 /// teacc 98.89 lr 0.00010000
+Epoch 277, weight, value: tensor([[ 0.0358,  0.1039, -0.1652,  ..., -0.0991,  0.0683,  0.0040],
+        [-0.0846, -0.0967,  0.0970,  ..., -0.0346, -0.0976,  0.0534],
+        [-0.0718, -0.0577, -0.1092,  ..., -0.1218, -0.0275,  0.0526],
+        ...,
+        [-0.0165, -0.1195, -0.1221,  ..., -0.1124, -0.0337,  0.0672],
+        [-0.1104, -0.1027, -0.1020,  ..., -0.0625, -0.0484, -0.0880],
+        [ 0.0158, -0.0256, -0.0647,  ..., -0.0836,  0.0238, -0.0211]],
+       device='cuda:0'), grad: tensor([[-7.2632e-03, -3.5114e-03, -2.4643e-03,  ..., -2.7466e-03,
+         -6.4964e-03, -5.1079e-03],
+        [ 5.5981e-04,  2.4140e-04,  3.2783e-04,  ...,  2.9230e-04,
+          4.6206e-04,  6.6280e-04],
+        [ 2.3861e-03,  1.8339e-03,  1.4172e-03,  ...,  1.3371e-03,
+          1.3819e-03,  7.8125e-03],
+        ...,
+        [ 1.3065e-03,  7.8559e-05,  6.0707e-05,  ...,  1.6093e-04,
+          7.6866e-04, -4.3488e-03],
+        [ 1.9064e-03,  3.5439e-03,  4.9210e-03,  ...,  3.7804e-03,
+          2.8725e-03,  3.5596e-04],
+        [ 1.5221e-03,  3.7384e-04,  3.4571e-04,  ...,  3.5787e-04,
+          1.0824e-03,  2.8591e-03]], device='cuda:0')
+Epoch 277, bias, value: tensor([ 0.0063, -0.0002,  0.0011, -0.0195,  0.0075, -0.0077, -0.0118, -0.0213,
+         0.0052,  0.0015], device='cuda:0'), grad: tensor([-0.0523,  0.0088,  0.0028, -0.0320,  0.0157, -0.0042,  0.0136, -0.0045,
+         0.0212,  0.0309], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 276, time 216.45, cls_loss 0.4761 cls_loss_mapping 0.0057 cls_loss_causal 0.4518 re_mapping 0.0069 re_causal 0.0187 /// teacc 98.78 lr 0.00010000
+Epoch 278, weight, value: tensor([[ 0.0358,  0.1037, -0.1658,  ..., -0.0990,  0.0680,  0.0039],
+        [-0.0857, -0.0966,  0.0969,  ..., -0.0326, -0.0981,  0.0538],
+        [-0.0721, -0.0575, -0.1095,  ..., -0.1231, -0.0274,  0.0529],
+        ...,
+        [-0.0165, -0.1199, -0.1222,  ..., -0.1118, -0.0326,  0.0673],
+        [-0.1099, -0.1021, -0.1019,  ..., -0.0613, -0.0471, -0.0881],
+        [ 0.0160, -0.0260, -0.0653,  ..., -0.0846,  0.0247, -0.0223]],
+       device='cuda:0'), grad: tensor([[ 0.0015,  0.0037,  0.0021,  ...,  0.0016,  0.0018,  0.0017],
+        [ 0.0007,  0.0003, -0.0022,  ...,  0.0002,  0.0002, -0.0025],
+        [-0.0023, -0.0010, -0.0001,  ..., -0.0005, -0.0017, -0.0035],
+        ...,
+        [-0.0008, -0.0008, -0.0004,  ..., -0.0010, -0.0003,  0.0003],
+        [ 0.0007,  0.0009,  0.0026,  ...,  0.0006,  0.0006,  0.0031],
+        [ 0.0009,  0.0006,  0.0003,  ...,  0.0003,  0.0008,  0.0009]],
+       device='cuda:0')
+Epoch 278, bias, value: tensor([ 0.0063,  0.0005,  0.0007, -0.0189,  0.0075, -0.0079, -0.0123, -0.0220,
+         0.0058,  0.0014], device='cuda:0'), grad: tensor([ 0.0214, -0.0026, -0.0202,  0.0045, -0.0034, -0.0113,  0.0072, -0.0214,
+         0.0162,  0.0097], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 277, time 216.82, cls_loss 0.4755 cls_loss_mapping 0.0048 cls_loss_causal 0.4467 re_mapping 0.0064 re_causal 0.0167 /// teacc 98.86 lr 0.00010000
+Epoch 279, weight, value: tensor([[ 0.0352,  0.1022, -0.1665,  ..., -0.1006,  0.0673,  0.0036],
+        [-0.0868, -0.0961,  0.0963,  ..., -0.0328, -0.0985,  0.0539],
+        [-0.0730, -0.0579, -0.1098,  ..., -0.1241, -0.0275,  0.0528],
+        ...,
+        [-0.0156, -0.1209, -0.1239,  ..., -0.1112, -0.0329,  0.0672],
+        [-0.1099, -0.1014, -0.1025,  ..., -0.0601, -0.0470, -0.0884],
+        [ 0.0161, -0.0254, -0.0647,  ..., -0.0847,  0.0251, -0.0223]],
+       device='cuda:0'), grad: tensor([[-2.9774e-03, -3.0632e-03, -3.7241e-04,  ...,  2.3469e-05,
+         -1.4734e-03, -4.4594e-03],
+        [ 1.0431e-04,  4.3440e-04,  1.3268e-04,  ...,  4.8923e-04,
+          2.6852e-05,  3.6550e-04],
+        [ 5.3549e-04,  4.4322e-04,  1.6785e-04,  ...,  1.7786e-04,
+          2.0742e-04,  6.2513e-04],
+        ...,
+        [ 1.8311e-03,  1.3943e-03,  2.8014e-04,  ...,  2.3043e-04,
+          6.1798e-04,  2.0103e-03],
+        [ 1.2169e-03,  2.7790e-03,  2.0466e-03,  ...,  2.2144e-03,
+          1.3196e-04,  1.0557e-03],
+        [-4.2664e-02,  8.7786e-04,  3.4189e-04,  ...,  3.7718e-04,
+          2.0862e-04,  7.7724e-04]], device='cuda:0')
+Epoch 279, bias, value: tensor([ 0.0067, -0.0002,  0.0005, -0.0175,  0.0082, -0.0078, -0.0124, -0.0222,
+         0.0054,  0.0002], device='cuda:0'), grad: tensor([-0.0155,  0.0042,  0.0237, -0.0636,  0.0277,  0.0078,  0.0053,  0.0106,
+         0.0126, -0.0127], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 278, time 216.50, cls_loss 0.4637 cls_loss_mapping 0.0038 cls_loss_causal 0.4357 re_mapping 0.0066 re_causal 0.0171 /// teacc 98.78 lr 0.00010000
+Epoch 280, weight, value: tensor([[ 0.0353,  0.1027, -0.1661,  ..., -0.1010,  0.0671,  0.0050],
+        [-0.0870, -0.0958,  0.0968,  ..., -0.0318, -0.0988,  0.0544],
+        [-0.0739, -0.0576, -0.1095,  ..., -0.1237, -0.0279,  0.0527],
+        ...,
+        [-0.0160, -0.1190, -0.1243,  ..., -0.1105, -0.0320,  0.0673],
+        [-0.1095, -0.1019, -0.1027,  ..., -0.0599, -0.0470, -0.0891],
+        [ 0.0179, -0.0251, -0.0637,  ..., -0.0848,  0.0254, -0.0215]],
+       device='cuda:0'), grad: tensor([[ 2.7537e-04, -2.8777e-04, -3.2753e-05,  ...,  8.7500e-04,
+         -1.6537e-03, -9.4748e-04],
+        [ 5.2023e-04,  1.1051e-04,  2.4913e-08,  ..., -1.0977e-03,
+          4.4537e-04, -1.6384e-03],
+        [ 4.0555e-04,  6.4254e-05,  1.8496e-06,  ...,  4.0507e-04,
+          4.7565e-04,  1.8711e-03],
+        ...,
+        [ 7.6103e-04,  1.9342e-05,  2.0862e-07,  ...,  2.4772e-04,
+          1.9443e-04, -1.8311e-03],
+        [ 7.3004e-04,  2.8920e-04,  2.2054e-05,  ...,  4.1366e-04,
+          5.0402e-04,  7.7963e-04],
+        [ 3.9902e-03,  1.4293e-04,  5.6066e-06,  ...,  4.6921e-04,
+          1.4381e-03,  2.1591e-03]], device='cuda:0')
+Epoch 280, bias, value: tensor([ 0.0077, -0.0003,  0.0020, -0.0177,  0.0073, -0.0076, -0.0134, -0.0226,
+         0.0046,  0.0011], device='cuda:0'), grad: tensor([-0.0398, -0.0038,  0.0254,  0.0212, -0.0054, -0.0108,  0.0111, -0.0672,
+         0.0249,  0.0443], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 279, time 216.66, cls_loss 0.4831 cls_loss_mapping 0.0045 cls_loss_causal 0.4620 re_mapping 0.0062 re_causal 0.0160 /// teacc 98.86 lr 0.00010000
+Epoch 281, weight, value: tensor([[ 0.0358,  0.1040, -0.1636,  ..., -0.1010,  0.0680,  0.0059],
+        [-0.0872, -0.0971,  0.0975,  ..., -0.0308, -0.0991,  0.0543],
+        [-0.0751, -0.0588, -0.1101,  ..., -0.1241, -0.0290,  0.0532],
+        ...,
+        [-0.0159, -0.1190, -0.1241,  ..., -0.1104, -0.0324,  0.0665],
+        [-0.1091, -0.1007, -0.1031,  ..., -0.0608, -0.0463, -0.0885],
+        [ 0.0182, -0.0258, -0.0639,  ..., -0.0854,  0.0253, -0.0219]],
+       device='cuda:0'), grad: tensor([[-1.7548e-04,  1.5748e-04,  3.3617e-05,  ...,  2.1100e-04,
+         -4.2963e-04, -5.1022e-04],
+        [ 1.3423e-04, -5.1689e-04,  1.9953e-05,  ..., -2.3603e-04,
+          1.5891e-04, -5.7793e-04],
+        [-5.5838e-04, -3.7885e-04, -4.2081e-05,  ..., -8.4877e-04,
+         -5.9891e-04, -1.3933e-03],
+        ...,
+        [ 1.8227e-04,  1.1522e-04,  3.9726e-05,  ...,  9.1851e-05,
+          2.1958e-04, -1.1959e-03],
+        [ 2.2554e-04,  3.3593e-04,  6.4194e-05,  ...,  2.2459e-04,
+          2.4104e-04,  1.2865e-03],
+        [ 3.1137e-04,  7.5638e-05,  1.7241e-05,  ...,  9.6202e-05,
+          3.5405e-04,  4.0436e-04]], device='cuda:0')
+Epoch 281, bias, value: tensor([ 0.0090, -0.0005,  0.0006, -0.0178,  0.0084, -0.0081, -0.0144, -0.0224,
+         0.0050,  0.0012], device='cuda:0'), grad: tensor([-0.0132,  0.0054, -0.0472,  0.0201, -0.0166, -0.0078,  0.0105,  0.0089,
+         0.0213,  0.0187], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 280, time 216.41, cls_loss 0.5208 cls_loss_mapping 0.0052 cls_loss_causal 0.5056 re_mapping 0.0067 re_causal 0.0183 /// teacc 98.81 lr 0.00010000
+Epoch 282, weight, value: tensor([[ 0.0345,  0.1040, -0.1640,  ..., -0.1012,  0.0679,  0.0057],
+        [-0.0866, -0.0978,  0.0977,  ..., -0.0332, -0.1001,  0.0539],
+        [-0.0759, -0.0580, -0.1107,  ..., -0.1252, -0.0297,  0.0530],
+        ...,
+        [-0.0168, -0.1193, -0.1233,  ..., -0.1105, -0.0331,  0.0678],
+        [-0.1074, -0.1015, -0.1027,  ..., -0.0596, -0.0452, -0.0896],
+        [ 0.0173, -0.0264, -0.0667,  ..., -0.0875,  0.0248, -0.0216]],
+       device='cuda:0'), grad: tensor([[ 2.8086e-04,  3.0661e-04,  3.0041e-04,  ...,  6.6566e-04,
+          1.6129e-04,  3.2997e-04],
+        [ 1.9681e-04,  1.9240e-04,  1.5843e-04,  ...,  4.2129e-04,
+          1.3232e-04,  2.3210e-04],
+        [ 2.8443e-04,  5.3787e-04,  4.1676e-04,  ...,  6.6757e-04,
+          2.5558e-04,  4.1533e-04],
+        ...,
+        [ 3.7622e-04,  4.7731e-04,  2.9302e-04,  ...,  2.9612e-04,
+          2.8658e-04,  5.6314e-04],
+        [-3.8576e-04, -1.0309e-03, -9.1171e-04,  ..., -1.0042e-03,
+         -9.0659e-05, -2.8491e-04],
+        [-1.3437e-03, -6.8331e-04, -4.2367e-04,  ..., -2.4757e-03,
+         -1.0481e-03, -2.4738e-03]], device='cuda:0')
+Epoch 282, bias, value: tensor([ 0.0092, -0.0009,  0.0003, -0.0180,  0.0093, -0.0080, -0.0148, -0.0224,
+         0.0060,  0.0006], device='cuda:0'), grad: tensor([ 0.0051,  0.0034,  0.0061,  0.0005,  0.0044,  0.0074,  0.0046,  0.0056,
+        -0.0056, -0.0315], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 281, time 216.29, cls_loss 0.5183 cls_loss_mapping 0.0053 cls_loss_causal 0.4890 re_mapping 0.0066 re_causal 0.0180 /// teacc 98.61 lr 0.00010000
+Epoch 283, weight, value: tensor([[ 0.0344,  0.1032, -0.1636,  ..., -0.1007,  0.0683,  0.0076],
+        [-0.0872, -0.0988,  0.0970,  ..., -0.0329, -0.0998,  0.0532],
+        [-0.0752, -0.0567, -0.1108,  ..., -0.1252, -0.0292,  0.0527],
+        ...,
+        [-0.0173, -0.1194, -0.1235,  ..., -0.1102, -0.0335,  0.0687],
+        [-0.1072, -0.1014, -0.1022,  ..., -0.0608, -0.0458, -0.0910],
+        [ 0.0176, -0.0251, -0.0644,  ..., -0.0886,  0.0250, -0.0204]],
+       device='cuda:0'), grad: tensor([[ 7.5340e-04,  4.5753e-04,  9.7990e-05,  ...,  3.6621e-04,
+          9.8896e-04,  2.7704e-04],
+        [ 1.0681e-03, -2.8670e-05, -7.2575e-04,  ..., -2.5692e-03,
+         -1.8728e-04, -7.8201e-04],
+        [ 5.9748e-04,  7.2622e-04,  1.3328e-04,  ...,  2.4140e-04,
+          6.6662e-04, -1.0843e-03],
+        ...,
+        [ 9.2745e-04,  8.4448e-04,  6.6280e-05,  ...,  2.3174e-04,
+          1.0071e-03,  2.6155e-04],
+        [-3.5577e-06,  5.2547e-04,  3.9554e-04,  ...,  1.1663e-03,
+         -9.5415e-04, -2.8634e-04],
+        [-1.1454e-03,  2.2659e-03,  2.8825e-04,  ...,  8.1778e-04,
+          2.3317e-04,  1.9193e-04]], device='cuda:0')
+Epoch 283, bias, value: tensor([ 0.0092, -0.0006,  0.0002, -0.0186,  0.0089, -0.0083, -0.0136, -0.0226,
+         0.0050,  0.0015], device='cuda:0'), grad: tensor([ 0.0306, -0.0872,  0.0169,  0.0178, -0.0034,  0.0310, -0.0052,  0.0281,
+         0.0089, -0.0375], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 282, time 216.61, cls_loss 0.4729 cls_loss_mapping 0.0041 cls_loss_causal 0.4445 re_mapping 0.0068 re_causal 0.0176 /// teacc 98.72 lr 0.00010000
+Epoch 284, weight, value: tensor([[ 0.0342,  0.1036, -0.1634,  ..., -0.1006,  0.0687,  0.0073],
+        [-0.0876, -0.0981,  0.0966,  ..., -0.0331, -0.0996,  0.0537],
+        [-0.0759, -0.0566, -0.1107,  ..., -0.1248, -0.0287,  0.0531],
+        ...,
+        [-0.0167, -0.1203, -0.1238,  ..., -0.1117, -0.0336,  0.0689],
+        [-0.1076, -0.1011, -0.1013,  ..., -0.0605, -0.0458, -0.0922],
+        [ 0.0175, -0.0248, -0.0646,  ..., -0.0896,  0.0255, -0.0200]],
+       device='cuda:0'), grad: tensor([[ 1.1490e-02,  1.6794e-03,  4.1634e-05,  ...,  3.2120e-03,
+          6.2752e-03,  2.3518e-03],
+        [ 4.1151e-04, -1.0347e-03,  9.3126e-04,  ..., -5.5456e-04,
+         -1.8387e-03, -2.0313e-03],
+        [-2.0790e-03, -4.3178e-04, -1.3695e-03,  ..., -1.8158e-03,
+         -1.6136e-03, -1.6661e-03],
+        ...,
+        [ 3.2425e-04,  8.1587e-04,  8.6367e-05,  ..., -3.5405e-05,
+         -3.8314e-04,  3.9649e-04],
+        [ 4.5586e-04,  9.2649e-04,  9.6083e-05,  ...,  1.3332e-03,
+          1.0657e-04,  1.0366e-03],
+        [-8.8263e-04, -1.5650e-03,  1.2136e-04,  ..., -3.6287e-04,
+         -1.3103e-03, -4.7350e-04]], device='cuda:0')
+Epoch 284, bias, value: tensor([ 0.0093, -0.0004,  0.0002, -0.0183,  0.0092, -0.0090, -0.0140, -0.0224,
+         0.0058,  0.0008], device='cuda:0'), grad: tensor([ 0.0504,  0.0098, -0.0343,  0.0225,  0.0219, -0.0099, -0.0139,  0.0010,
+        -0.0056, -0.0420], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 283----------------------------------------------------
+epoch 283, time 216.71, cls_loss 0.4548 cls_loss_mapping 0.0029 cls_loss_causal 0.4374 re_mapping 0.0067 re_causal 0.0172 /// teacc 98.95 lr 0.00010000
+Epoch 285, weight, value: tensor([[ 0.0337,  0.1040, -0.1636,  ..., -0.1004,  0.0688,  0.0071],
+        [-0.0873, -0.0978,  0.0970,  ..., -0.0324, -0.0981,  0.0544],
+        [-0.0764, -0.0567, -0.1106,  ..., -0.1245, -0.0295,  0.0524],
+        ...,
+        [-0.0174, -0.1201, -0.1238,  ..., -0.1126, -0.0345,  0.0688],
+        [-0.1088, -0.1005, -0.1009,  ..., -0.0606, -0.0465, -0.0927],
+        [ 0.0183, -0.0249, -0.0650,  ..., -0.0897,  0.0260, -0.0204]],
+       device='cuda:0'), grad: tensor([[ 1.9467e-04, -1.2226e-03,  6.4215e-07,  ..., -2.2483e-04,
+          1.4524e-03,  1.7858e-04],
+        [ 1.4353e-04,  2.6774e-04,  4.2841e-08,  ...,  1.6232e-03,
+         -6.3801e-04, -3.6144e-03],
+        [ 5.9271e-04,  4.0131e-03,  1.1511e-06,  ...,  8.7619e-05,
+          1.6689e-03,  1.2617e-03],
+        ...,
+        [ 6.5851e-04,  3.2473e-04,  1.7844e-06,  ...,  8.0884e-05,
+          1.4811e-03,  2.0695e-03],
+        [ 2.0349e-04, -5.2834e-03, -1.5058e-05,  ...,  8.2314e-05,
+          6.7043e-04,  3.4332e-04],
+        [ 7.4959e-03,  4.1509e-04,  9.7528e-06,  ...,  6.8426e-05,
+          5.4283e-03,  4.2439e-04]], device='cuda:0')
+Epoch 285, bias, value: tensor([ 0.0090,  0.0007, -0.0007, -0.0189,  0.0098, -0.0089, -0.0133, -0.0223,
+         0.0051,  0.0007], device='cuda:0'), grad: tensor([ 0.0052,  0.0103,  0.0218, -0.0051, -0.0653,  0.0206, -0.0285,  0.0243,
+        -0.0093,  0.0259], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 284, time 216.56, cls_loss 0.4817 cls_loss_mapping 0.0030 cls_loss_causal 0.4632 re_mapping 0.0061 re_causal 0.0162 /// teacc 98.70 lr 0.00010000
+Epoch 286, weight, value: tensor([[ 0.0341,  0.1032, -0.1642,  ..., -0.0995,  0.0690,  0.0076],
+        [-0.0874, -0.0978,  0.0979,  ..., -0.0348, -0.0979,  0.0533],
+        [-0.0764, -0.0570, -0.1103,  ..., -0.1254, -0.0285,  0.0519],
+        ...,
+        [-0.0184, -0.1202, -0.1245,  ..., -0.1125, -0.0354,  0.0679],
+        [-0.1090, -0.1016, -0.1020,  ..., -0.0598, -0.0474, -0.0930],
+        [ 0.0180, -0.0248, -0.0657,  ..., -0.0888,  0.0257, -0.0189]],
+       device='cuda:0'), grad: tensor([[ 0.0014,  0.0003,  0.0002,  ...,  0.0014,  0.0017,  0.0005],
+        [-0.0013, -0.0008, -0.0010,  ..., -0.0036, -0.0020,  0.0008],
+        [ 0.0020,  0.0007,  0.0003,  ...,  0.0013,  0.0019,  0.0023],
+        ...,
+        [ 0.0016,  0.0020,  0.0006,  ...,  0.0024,  0.0011,  0.0037],
+        [ 0.0010, -0.0049, -0.0035,  ..., -0.0060, -0.0026, -0.0055],
+        [-0.0051,  0.0009,  0.0003,  ...,  0.0017,  0.0018,  0.0010]],
+       device='cuda:0')
+Epoch 286, bias, value: tensor([ 0.0088, -0.0002, -0.0001, -0.0184,  0.0088, -0.0075, -0.0132, -0.0223,
+         0.0039,  0.0014], device='cuda:0'), grad: tensor([ 0.0224, -0.0035,  0.0255,  0.0398, -0.0343, -0.0109,  0.0382, -0.0224,
+        -0.0319, -0.0230], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 285, time 216.67, cls_loss 0.5072 cls_loss_mapping 0.0057 cls_loss_causal 0.4854 re_mapping 0.0061 re_causal 0.0154 /// teacc 98.80 lr 0.00010000
+Epoch 287, weight, value: tensor([[ 0.0336,  0.1045, -0.1641,  ..., -0.1002,  0.0690,  0.0066],
+        [-0.0874, -0.0970,  0.0977,  ..., -0.0340, -0.0969,  0.0544],
+        [-0.0774, -0.0573, -0.1087,  ..., -0.1270, -0.0287,  0.0520],
+        ...,
+        [-0.0192, -0.1206, -0.1260,  ..., -0.1127, -0.0348,  0.0681],
+        [-0.1081, -0.1021, -0.1018,  ..., -0.0611, -0.0473, -0.0929],
+        [ 0.0176, -0.0260, -0.0659,  ..., -0.0898,  0.0247, -0.0198]],
+       device='cuda:0'), grad: tensor([[ 1.0115e-04,  1.9300e-04,  1.1975e-04,  ...,  1.1358e-03,
+          3.8528e-04,  3.7313e-04],
+        [ 6.8605e-05,  2.2721e-04,  3.2473e-04,  ...,  5.1546e-04,
+          5.2786e-04,  6.0892e-04],
+        [ 7.5042e-05,  1.3041e-04,  1.1939e-04,  ...,  8.1825e-04,
+          2.9039e-04,  3.7479e-04],
+        ...,
+        [ 1.7881e-05,  4.7088e-05,  1.0949e-04,  ...,  2.4581e-04,
+          2.0146e-04, -1.9913e-03],
+        [ 1.1402e-04,  2.1648e-04,  1.3220e-04,  ...,  9.2697e-04,
+          3.9673e-04,  3.7694e-04],
+        [ 2.8044e-05,  7.8678e-05,  6.7472e-05,  ...,  4.6325e-04,
+         -6.4802e-04,  3.6645e-04]], device='cuda:0')
+Epoch 287, bias, value: tensor([ 9.0360e-03, -1.4786e-05,  1.9306e-04, -1.8110e-02,  7.9707e-03,
+        -8.3505e-03, -1.2123e-02, -2.2014e-02,  4.5183e-03,  1.0887e-04],
+       device='cuda:0'), grad: tensor([ 0.0167,  0.0211,  0.0172, -0.0397,  0.0144,  0.0127, -0.0111, -0.0021,
+         0.0184, -0.0476], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 286, time 216.48, cls_loss 0.4953 cls_loss_mapping 0.0047 cls_loss_causal 0.4645 re_mapping 0.0069 re_causal 0.0172 /// teacc 98.87 lr 0.00010000
+Epoch 288, weight, value: tensor([[ 0.0335,  0.1045, -0.1636,  ..., -0.0989,  0.0691,  0.0061],
+        [-0.0870, -0.0950,  0.0979,  ..., -0.0353, -0.0946,  0.0544],
+        [-0.0766, -0.0556, -0.1096,  ..., -0.1265, -0.0288,  0.0520],
+        ...,
+        [-0.0193, -0.1221, -0.1250,  ..., -0.1129, -0.0347,  0.0678],
+        [-0.1090, -0.1023, -0.1012,  ..., -0.0606, -0.0477, -0.0922],
+        [ 0.0180, -0.0264, -0.0653,  ..., -0.0903,  0.0247, -0.0190]],
+       device='cuda:0'), grad: tensor([[ 6.3705e-03,  1.1724e-04,  2.0921e-05,  ...,  6.8009e-05,
+          7.4921e-03, -7.9203e-04],
+        [-7.2289e-04, -1.1110e-03, -3.4034e-05,  ...,  2.6047e-05,
+         -2.6264e-03,  2.4092e-04],
+        [ 1.1313e-04,  9.6679e-05,  3.6508e-05,  ..., -2.1264e-05,
+          1.4858e-03, -6.5422e-04],
+        ...,
+        [ 1.5402e-04,  1.3399e-04,  6.6161e-05,  ...,  6.9551e-06,
+         -3.5167e-04, -6.4898e-04],
+        [ 2.6274e-04,  1.0496e-04,  2.8992e-04,  ...,  1.3077e-04,
+         -2.2469e-03,  1.0401e-04],
+        [ 7.6437e-04,  1.2922e-04, -1.3828e-03,  ...,  1.9193e-05,
+          2.6665e-03,  7.6580e-04]], device='cuda:0')
+Epoch 288, bias, value: tensor([ 0.0085,  0.0006, -0.0004, -0.0182,  0.0090, -0.0086, -0.0129, -0.0224,
+         0.0042,  0.0013], device='cuda:0'), grad: tensor([-0.0270, -0.0400, -0.0264,  0.0306,  0.0049,  0.0140,  0.0427, -0.0148,
+        -0.0049,  0.0208], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 287, time 216.46, cls_loss 0.5000 cls_loss_mapping 0.0057 cls_loss_causal 0.4739 re_mapping 0.0060 re_causal 0.0152 /// teacc 98.83 lr 0.00010000
+Epoch 289, weight, value: tensor([[ 0.0331,  0.1051, -0.1639,  ..., -0.1000,  0.0684,  0.0050],
+        [-0.0860, -0.0936,  0.0995,  ..., -0.0355, -0.0925,  0.0539],
+        [-0.0763, -0.0566, -0.1096,  ..., -0.1253, -0.0292,  0.0527],
+        ...,
+        [-0.0190, -0.1213, -0.1246,  ..., -0.1120, -0.0341,  0.0682],
+        [-0.1095, -0.1026, -0.1019,  ..., -0.0604, -0.0491, -0.0923],
+        [ 0.0178, -0.0260, -0.0651,  ..., -0.0910,  0.0233, -0.0191]],
+       device='cuda:0'), grad: tensor([[ 8.2254e-05,  5.0545e-04,  3.3998e-04,  ...,  7.7486e-06,
+          1.4317e-04,  6.5136e-04],
+        [ 1.5545e-04,  6.8855e-04,  5.0974e-04,  ...,  7.7039e-06,
+          3.2043e-04,  6.7568e-04],
+        [ 2.3043e-04,  1.4219e-03,  1.0080e-03,  ...,  2.4036e-05,
+          4.5395e-04,  1.0462e-03],
+        ...,
+        [ 1.9038e-04,  5.5981e-04, -7.6962e-04,  ..., -1.1601e-05,
+          5.0783e-04,  2.0733e-03],
+        [-8.7833e-04, -5.1403e-04,  4.3082e-04,  ..., -3.0234e-05,
+          4.1747e-04, -3.8300e-03],
+        [ 7.2432e-04,  1.3804e-04,  1.2836e-03,  ...,  2.2098e-05,
+         -5.6648e-04,  7.1287e-04]], device='cuda:0')
+Epoch 289, bias, value: tensor([ 0.0072,  0.0010,  0.0007, -0.0181,  0.0090, -0.0092, -0.0131, -0.0223,
+         0.0048,  0.0013], device='cuda:0'), grad: tensor([-0.0160,  0.0205, -0.0043,  0.0244,  0.0218, -0.0310, -0.0113,  0.0327,
+        -0.0503,  0.0134], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 288, time 216.30, cls_loss 0.4711 cls_loss_mapping 0.0026 cls_loss_causal 0.4507 re_mapping 0.0064 re_causal 0.0170 /// teacc 98.84 lr 0.00010000
+Epoch 290, weight, value: tensor([[ 0.0339,  0.1066, -0.1630,  ..., -0.0997,  0.0695,  0.0049],
+        [-0.0855, -0.0942,  0.0986,  ..., -0.0368, -0.0923,  0.0531],
+        [-0.0769, -0.0567, -0.1086,  ..., -0.1249, -0.0296,  0.0530],
+        ...,
+        [-0.0177, -0.1205, -0.1249,  ..., -0.1106, -0.0346,  0.0685],
+        [-0.1110, -0.1036, -0.1017,  ..., -0.0597, -0.0499, -0.0923],
+        [ 0.0172, -0.0255, -0.0647,  ..., -0.0919,  0.0234, -0.0210]],
+       device='cuda:0'), grad: tensor([[-1.7357e-03, -8.3237e-03, -4.1924e-03,  ...,  1.2815e-04,
+         -2.9964e-03, -1.0796e-03],
+        [ 1.3936e-04,  7.9632e-04,  3.2640e-04,  ..., -6.2108e-05,
+          6.0701e-04,  7.8559e-05],
+        [ 9.7942e-04,  4.3678e-03,  2.0752e-03,  ...,  1.9550e-04,
+          1.4572e-03,  8.3017e-04],
+        ...,
+        [ 5.5254e-05,  3.7479e-04,  7.9513e-05,  ...,  5.6177e-05,
+         -1.2094e-04,  1.7738e-04],
+        [-2.8276e-04,  1.0645e-04, -1.1277e-04,  ..., -3.8600e-04,
+          5.8842e-04, -1.7710e-03],
+        [ 5.0575e-05, -7.5111e-03,  2.2233e-04,  ...,  6.3956e-05,
+          4.9782e-04,  1.9836e-04]], device='cuda:0')
+Epoch 290, bias, value: tensor([ 0.0080,  0.0006,  0.0004, -0.0179,  0.0093, -0.0083, -0.0135, -0.0223,
+         0.0043,  0.0004], device='cuda:0'), grad: tensor([-0.0177,  0.0216, -0.0275,  0.0347, -0.0085,  0.0443, -0.0126, -0.0123,
+        -0.0105, -0.0117], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 289, time 216.65, cls_loss 0.4797 cls_loss_mapping 0.0035 cls_loss_causal 0.4543 re_mapping 0.0063 re_causal 0.0173 /// teacc 98.79 lr 0.00010000
+Epoch 291, weight, value: tensor([[ 0.0348,  0.1075, -0.1618,  ..., -0.0989,  0.0705,  0.0055],
+        [-0.0853, -0.0944,  0.0995,  ..., -0.0364, -0.0931,  0.0539],
+        [-0.0786, -0.0559, -0.1085,  ..., -0.1254, -0.0301,  0.0512],
+        ...,
+        [-0.0178, -0.1211, -0.1259,  ..., -0.1113, -0.0354,  0.0698],
+        [-0.1121, -0.1031, -0.1013,  ..., -0.0608, -0.0506, -0.0934],
+        [ 0.0170, -0.0256, -0.0651,  ..., -0.0921,  0.0223, -0.0212]],
+       device='cuda:0'), grad: tensor([[ 7.4434e-04,  7.7343e-04,  3.3170e-05,  ...,  5.5414e-07,
+          2.1152e-03,  1.6193e-03],
+        [ 4.5681e-04,  4.5800e-04, -1.0462e-03,  ..., -4.5151e-05,
+          1.8358e-03, -1.9112e-03],
+        [ 1.7118e-03, -1.1314e-02, -1.7519e-03,  ...,  4.6380e-07,
+          3.9673e-03,  2.1000e-03],
+        ...,
+        [ 1.2386e-04,  6.1417e-04,  2.9230e-04,  ...,  7.4180e-07,
+         -2.5177e-03, -3.4637e-03],
+        [-1.7118e-04, -2.0351e-03,  7.4100e-04,  ...,  1.4208e-05,
+         -1.2665e-03,  1.0777e-03],
+        [ 1.0700e-03,  9.2697e-04,  3.5912e-05,  ...,  6.1840e-07,
+          1.1911e-03,  1.4286e-03]], device='cuda:0')
+Epoch 291, bias, value: tensor([ 0.0083,  0.0004, -0.0001, -0.0175,  0.0103, -0.0089, -0.0133, -0.0221,
+         0.0035,  0.0005], device='cuda:0'), grad: tensor([ 3.0457e-02,  1.0857e-02,  1.2566e-02, -4.2938e-02,  3.6499e-02,
+         2.0493e-02,  2.4796e-02, -5.6091e-02, -3.6713e-02,  6.0439e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 290, time 216.53, cls_loss 0.4472 cls_loss_mapping 0.0034 cls_loss_causal 0.4183 re_mapping 0.0063 re_causal 0.0170 /// teacc 98.62 lr 0.00010000
+Epoch 292, weight, value: tensor([[ 0.0357,  0.1075, -0.1611,  ..., -0.0987,  0.0711,  0.0051],
+        [-0.0861, -0.0955,  0.1003,  ..., -0.0372, -0.0937,  0.0538],
+        [-0.0777, -0.0547, -0.1079,  ..., -0.1251, -0.0303,  0.0521],
+        ...,
+        [-0.0177, -0.1225, -0.1264,  ..., -0.1122, -0.0365,  0.0692],
+        [-0.1130, -0.1027, -0.1027,  ..., -0.0608, -0.0514, -0.0934],
+        [ 0.0163, -0.0250, -0.0651,  ..., -0.0914,  0.0223, -0.0208]],
+       device='cuda:0'), grad: tensor([[-1.2910e-04, -6.2752e-04,  3.8457e-04,  ...,  1.7986e-05,
+         -6.9523e-04,  2.2089e-04],
+        [ 4.3392e-04, -7.4387e-04, -2.8801e-03,  ..., -5.7220e-04,
+         -7.9751e-05, -1.8349e-03],
+        [ 4.7255e-04,  1.8206e-03,  1.5707e-03,  ...,  7.1430e-04,
+          1.5669e-03,  2.1057e-03],
+        ...,
+        [-1.0460e-02,  6.2037e-04,  3.2961e-05,  ...,  1.1313e-04,
+         -1.2581e-02,  2.0564e-04],
+        [-1.8816e-03, -3.4380e-04,  4.1175e-04,  ..., -3.0828e-04,
+         -2.3422e-03, -1.5268e-03],
+        [ 2.3193e-03, -2.5177e-03,  3.3617e-04,  ...,  1.5724e-04,
+          1.1292e-03,  4.3058e-04]], device='cuda:0')
+Epoch 292, bias, value: tensor([ 0.0079,  0.0006, -0.0007, -0.0180,  0.0107, -0.0082, -0.0130, -0.0222,
+         0.0031,  0.0009], device='cuda:0'), grad: tensor([ 0.0128,  0.0054,  0.0204,  0.0107,  0.0378,  0.0439, -0.0473, -0.0197,
+        -0.0499, -0.0139], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 291, time 216.46, cls_loss 0.5091 cls_loss_mapping 0.0041 cls_loss_causal 0.4799 re_mapping 0.0062 re_causal 0.0170 /// teacc 98.85 lr 0.00010000
+Epoch 293, weight, value: tensor([[ 0.0350,  0.1082, -0.1602,  ..., -0.0995,  0.0706,  0.0040],
+        [-0.0872, -0.0955,  0.1008,  ..., -0.0367, -0.0948,  0.0535],
+        [-0.0776, -0.0565, -0.1093,  ..., -0.1256, -0.0306,  0.0519],
+        ...,
+        [-0.0167, -0.1222, -0.1257,  ..., -0.1116, -0.0350,  0.0692],
+        [-0.1144, -0.1028, -0.1029,  ..., -0.0605, -0.0513, -0.0933],
+        [ 0.0154, -0.0256, -0.0645,  ..., -0.0927,  0.0216, -0.0213]],
+       device='cuda:0'), grad: tensor([[-6.1569e-03, -4.8065e-03, -4.1695e-03,  ..., -5.8174e-03,
+         -3.9253e-03,  5.1141e-05],
+        [-1.5659e-03, -7.5936e-05,  2.8300e-04,  ...,  2.8062e-04,
+         -5.0449e-04, -1.3275e-03],
+        [-1.9188e-03,  2.9755e-04, -1.9932e-03,  ..., -3.5210e-03,
+         -4.7073e-03,  7.2777e-05],
+        ...,
+        [-1.4448e-03, -2.2945e-03,  9.6262e-05,  ..., -5.1641e-04,
+          3.1281e-04,  6.7139e-04],
+        [ 1.3151e-03,  7.8583e-04,  9.6607e-04,  ...,  1.4782e-03,
+          1.4238e-03,  6.8247e-05],
+        [ 8.0872e-04,  5.0974e-04,  2.5153e-04,  ...,  5.0068e-04,
+          1.2600e-04,  4.7773e-05]], device='cuda:0')
+Epoch 293, bias, value: tensor([ 0.0066,  0.0006, -0.0006, -0.0182,  0.0101, -0.0076, -0.0121, -0.0213,
+         0.0035,  0.0002], device='cuda:0'), grad: tensor([-0.0404, -0.0135, -0.0454,  0.0340, -0.0097,  0.0676, -0.0013, -0.0059,
+         0.0264, -0.0118], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 292, time 216.46, cls_loss 0.4704 cls_loss_mapping 0.0043 cls_loss_causal 0.4476 re_mapping 0.0060 re_causal 0.0157 /// teacc 98.71 lr 0.00010000
+Epoch 294, weight, value: tensor([[ 0.0358,  0.1079, -0.1601,  ..., -0.0995,  0.0711,  0.0037],
+        [-0.0868, -0.0964,  0.1013,  ..., -0.0355, -0.0945,  0.0519],
+        [-0.0792, -0.0571, -0.1093,  ..., -0.1267, -0.0312,  0.0517],
+        ...,
+        [-0.0178, -0.1223, -0.1260,  ..., -0.1118, -0.0360,  0.0706],
+        [-0.1144, -0.1034, -0.1026,  ..., -0.0618, -0.0503, -0.0937],
+        [ 0.0149, -0.0259, -0.0648,  ..., -0.0933,  0.0213, -0.0217]],
+       device='cuda:0'), grad: tensor([[-4.0627e-03, -3.3951e-03, -4.5323e-04,  ..., -3.4237e-03,
+         -1.9798e-03,  9.8884e-05],
+        [-9.9277e-04,  5.9605e-04,  1.9913e-03,  ..., -3.7122e-04,
+          1.7548e-04,  1.3971e-04],
+        [ 4.2605e-04, -1.1177e-03, -5.3024e-03,  ...,  4.2105e-04,
+          2.0742e-04,  1.0574e-04],
+        ...,
+        [ 4.9543e-04,  1.4365e-04,  2.5153e-04,  ...,  3.2306e-04,
+          2.1017e-04,  1.2302e-04],
+        [ 8.8978e-04,  5.4073e-04,  4.0817e-04,  ...,  8.2302e-04,
+          4.5061e-04,  1.4019e-04],
+        [-1.5587e-02, -2.3232e-03, -8.5831e-04,  ...,  4.5156e-04,
+         -8.6060e-03, -1.1387e-03]], device='cuda:0')
+Epoch 294, bias, value: tensor([ 0.0072,  0.0014, -0.0012, -0.0183,  0.0103, -0.0065, -0.0140, -0.0217,
+         0.0037,  0.0002], device='cuda:0'), grad: tensor([-0.0143, -0.0331, -0.0037,  0.0258,  0.0599, -0.0012,  0.0279,  0.0145,
+         0.0014, -0.0773], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 293, time 216.47, cls_loss 0.4734 cls_loss_mapping 0.0039 cls_loss_causal 0.4487 re_mapping 0.0060 re_causal 0.0161 /// teacc 98.86 lr 0.00010000
+Epoch 295, weight, value: tensor([[ 0.0356,  0.1079, -0.1620,  ..., -0.0991,  0.0711,  0.0040],
+        [-0.0860, -0.0961,  0.1010,  ..., -0.0358, -0.0942,  0.0517],
+        [-0.0812, -0.0574, -0.1096,  ..., -0.1274, -0.0318,  0.0524],
+        ...,
+        [-0.0183, -0.1232, -0.1261,  ..., -0.1096, -0.0357,  0.0702],
+        [-0.1160, -0.1038, -0.1018,  ..., -0.0598, -0.0507, -0.0946],
+        [ 0.0155, -0.0246, -0.0646,  ..., -0.0915,  0.0221, -0.0215]],
+       device='cuda:0'), grad: tensor([[ 9.5129e-04,  3.3188e-04,  2.1935e-04,  ...,  8.8930e-04,
+          1.2934e-04,  5.5408e-04],
+        [-6.5804e-04, -4.3321e-04, -1.3304e-03,  ..., -1.4811e-03,
+         -7.7343e-04, -1.6441e-03],
+        [-8.1778e-04,  8.8096e-05,  1.1092e-04,  ...,  2.0552e-04,
+          1.2600e-04,  7.1049e-04],
+        ...,
+        [-2.5215e-03,  9.9421e-05,  1.9014e-04,  ...,  2.6345e-04,
+          2.3556e-04, -1.1425e-03],
+        [ 6.5994e-04,  2.8610e-04,  3.1829e-04,  ...,  6.9284e-04,
+          2.5940e-04,  8.4829e-04],
+        [ 1.5535e-03,  1.4806e-04,  3.4142e-04,  ...,  4.8447e-04,
+          6.1035e-04,  9.5463e-04]], device='cuda:0')
+Epoch 295, bias, value: tensor([ 0.0074,  0.0022, -0.0011, -0.0194,  0.0099, -0.0078, -0.0133, -0.0209,
+         0.0029,  0.0012], device='cuda:0'), grad: tensor([ 0.0170, -0.0388, -0.0052,  0.0254, -0.0207,  0.0111, -0.0051, -0.0167,
+         0.0149,  0.0181], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 294, time 216.59, cls_loss 0.5082 cls_loss_mapping 0.0055 cls_loss_causal 0.4839 re_mapping 0.0062 re_causal 0.0165 /// teacc 98.70 lr 0.00010000
+Epoch 296, weight, value: tensor([[ 0.0349,  0.1074, -0.1626,  ..., -0.0988,  0.0708,  0.0042],
+        [-0.0873, -0.0969,  0.1014,  ..., -0.0357, -0.0955,  0.0511],
+        [-0.0810, -0.0576, -0.1104,  ..., -0.1288, -0.0315,  0.0524],
+        ...,
+        [-0.0193, -0.1238, -0.1269,  ..., -0.1106, -0.0357,  0.0705],
+        [-0.1151, -0.1040, -0.1013,  ..., -0.0601, -0.0505, -0.0946],
+        [ 0.0150, -0.0251, -0.0649,  ..., -0.0920,  0.0223, -0.0210]],
+       device='cuda:0'), grad: tensor([[-0.0032,  0.0001,  0.0001,  ...,  0.0003, -0.0030, -0.0012],
+        [-0.0018, -0.0024, -0.0030,  ..., -0.0040, -0.0012, -0.0015],
+        [-0.0003,  0.0002,  0.0002,  ..., -0.0004,  0.0009, -0.0025],
+        ...,
+        [ 0.0009,  0.0003,  0.0003,  ...,  0.0005,  0.0005,  0.0015],
+        [ 0.0005,  0.0003,  0.0003,  ...,  0.0006,  0.0004,  0.0004],
+        [ 0.0001,  0.0052,  0.0008,  ...,  0.0013,  0.0006,  0.0006]],
+       device='cuda:0')
+Epoch 296, bias, value: tensor([ 0.0058,  0.0017, -0.0016, -0.0196,  0.0113, -0.0084, -0.0131, -0.0208,
+         0.0037,  0.0018], device='cuda:0'), grad: tensor([-0.0503, -0.0457,  0.0047, -0.0237, -0.0096,  0.0239,  0.0201,  0.0227,
+         0.0192,  0.0389], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 295, time 216.39, cls_loss 0.4883 cls_loss_mapping 0.0039 cls_loss_causal 0.4688 re_mapping 0.0061 re_causal 0.0164 /// teacc 98.76 lr 0.00010000
+Epoch 297, weight, value: tensor([[ 0.0364,  0.1076, -0.1636,  ..., -0.0996,  0.0716,  0.0042],
+        [-0.0872, -0.0967,  0.1009,  ..., -0.0363, -0.0953,  0.0507],
+        [-0.0808, -0.0577, -0.1106,  ..., -0.1291, -0.0312,  0.0523],
+        ...,
+        [-0.0201, -0.1239, -0.1276,  ..., -0.1115, -0.0376,  0.0703],
+        [-0.1154, -0.1037, -0.1013,  ..., -0.0603, -0.0495, -0.0948],
+        [ 0.0155, -0.0251, -0.0645,  ..., -0.0919,  0.0230, -0.0199]],
+       device='cuda:0'), grad: tensor([[-5.9795e-04,  1.6794e-03,  3.7044e-05,  ..., -1.1711e-03,
+         -1.9302e-03, -1.0633e-03],
+        [ 1.8704e-04,  1.8373e-05, -9.6500e-05,  ...,  5.5933e-04,
+          7.1096e-04,  1.1295e-04],
+        [ 1.1700e-04,  1.0806e-04,  2.3663e-05,  ...,  3.2592e-04,
+         -7.4339e-04,  1.0896e-04],
+        ...,
+        [ 9.2745e-05,  1.1438e-04,  3.6836e-05,  ...,  1.2350e-04,
+          2.2054e-04,  1.5402e-04],
+        [ 1.3256e-04,  1.1396e-03,  6.8724e-05,  ...,  4.2629e-04,
+          4.3941e-04,  1.8179e-04],
+        [ 1.4639e-04, -5.0049e-03, -3.2401e-04,  ...,  1.8752e-04,
+          4.4537e-04, -1.2302e-04]], device='cuda:0')
+Epoch 297, bias, value: tensor([ 0.0075,  0.0022, -0.0016, -0.0203,  0.0114, -0.0095, -0.0138, -0.0203,
+         0.0032,  0.0019], device='cuda:0'), grad: tensor([ 0.0026,  0.0274, -0.0144,  0.0182,  0.0211, -0.0032, -0.0578, -0.0094,
+         0.0235, -0.0080], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 296, time 216.35, cls_loss 0.4710 cls_loss_mapping 0.0042 cls_loss_causal 0.4460 re_mapping 0.0055 re_causal 0.0143 /// teacc 98.68 lr 0.00010000
+Epoch 298, weight, value: tensor([[ 0.0362,  0.1073, -0.1647,  ..., -0.1003,  0.0719,  0.0043],
+        [-0.0876, -0.0970,  0.1017,  ..., -0.0357, -0.0958,  0.0515],
+        [-0.0811, -0.0585, -0.1112,  ..., -0.1288, -0.0316,  0.0544],
+        ...,
+        [-0.0193, -0.1240, -0.1271,  ..., -0.1108, -0.0380,  0.0683],
+        [-0.1150, -0.1040, -0.1016,  ..., -0.0595, -0.0494, -0.0955],
+        [ 0.0151, -0.0245, -0.0629,  ..., -0.0926,  0.0225, -0.0194]],
+       device='cuda:0'), grad: tensor([[-1.4031e-04, -5.6028e-04, -2.4825e-05,  ..., -1.0163e-04,
+         -2.5249e-04, -3.0785e-03],
+        [ 1.6379e-04, -1.8120e-03,  7.6666e-06,  ...,  4.4179e-04,
+          8.4996e-05, -6.8617e-04],
+        [ 5.3406e-04,  4.8709e-04,  5.9962e-05,  ...,  8.7643e-04,
+          1.6260e-04,  1.2341e-03],
+        ...,
+        [-9.1248e-03, -3.0899e-04,  1.1221e-05,  ..., -1.9131e-03,
+         -1.4687e-03, -5.6763e-03],
+        [ 1.0090e-03,  7.8630e-04,  3.0488e-05,  ..., -5.1117e-04,
+          7.3016e-05, -9.4557e-04],
+        [ 3.8967e-03,  3.8314e-04,  1.0259e-05,  ...,  3.0065e-04,
+          6.6757e-04,  2.2621e-03]], device='cuda:0')
+Epoch 298, bias, value: tensor([ 0.0076,  0.0023, -0.0022, -0.0198,  0.0105, -0.0094, -0.0129, -0.0204,
+         0.0031,  0.0020], device='cuda:0'), grad: tensor([-0.0074, -0.0215,  0.0185, -0.0055, -0.0108,  0.0258,  0.0497, -0.0350,
+        -0.0362,  0.0223], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 297, time 216.56, cls_loss 0.5155 cls_loss_mapping 0.0043 cls_loss_causal 0.4946 re_mapping 0.0063 re_causal 0.0174 /// teacc 98.81 lr 0.00010000
+Epoch 299, weight, value: tensor([[ 0.0356,  0.1075, -0.1640,  ..., -0.0987,  0.0716,  0.0056],
+        [-0.0872, -0.0975,  0.1014,  ..., -0.0363, -0.0964,  0.0508],
+        [-0.0795, -0.0580, -0.1105,  ..., -0.1286, -0.0312,  0.0556],
+        ...,
+        [-0.0183, -0.1240, -0.1300,  ..., -0.1112, -0.0384,  0.0683],
+        [-0.1158, -0.1044, -0.1029,  ..., -0.0588, -0.0497, -0.0958],
+        [ 0.0156, -0.0242, -0.0598,  ..., -0.0937,  0.0228, -0.0182]],
+       device='cuda:0'), grad: tensor([[-1.7077e-05, -1.6403e-03,  2.7585e-04,  ..., -1.3380e-03,
+         -1.4572e-03, -3.9597e-03],
+        [ 2.1327e-04,  3.4094e-04,  2.2814e-05,  ...,  2.2435e-04,
+          3.8671e-04,  1.2779e-03],
+        [ 4.7779e-04,  6.6900e-04,  2.0170e-04,  ...,  1.4913e-04,
+          4.1485e-04,  1.2465e-03],
+        ...,
+        [ 2.3687e-04,  5.3120e-04,  4.1902e-05,  ...,  1.0866e-04,
+          1.7858e-04, -6.4898e-04],
+        [ 6.3753e-04,  2.1191e-03,  4.9114e-04,  ...,  1.9658e-04,
+          4.4560e-04,  2.5578e-03],
+        [ 8.9312e-04,  1.3075e-03,  4.3654e-04,  ...,  1.3804e-04,
+          6.0940e-04,  2.3880e-03]], device='cuda:0')
+Epoch 299, bias, value: tensor([ 0.0084,  0.0021, -0.0014, -0.0204,  0.0114, -0.0105, -0.0145, -0.0202,
+         0.0031,  0.0027], device='cuda:0'), grad: tensor([-0.0291, -0.0023,  0.0243, -0.0095,  0.0032, -0.0114, -0.0066, -0.0446,
+         0.0377,  0.0383], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 298, time 216.85, cls_loss 0.4694 cls_loss_mapping 0.0026 cls_loss_causal 0.4387 re_mapping 0.0065 re_causal 0.0176 /// teacc 98.59 lr 0.00010000
+Epoch 300, weight, value: tensor([[ 0.0359,  0.1073, -0.1650,  ..., -0.0982,  0.0724,  0.0054],
+        [-0.0887, -0.0987,  0.1005,  ..., -0.0380, -0.0974,  0.0502],
+        [-0.0785, -0.0577, -0.1102,  ..., -0.1292, -0.0314,  0.0550],
+        ...,
+        [-0.0184, -0.1234, -0.1281,  ..., -0.1098, -0.0378,  0.0700],
+        [-0.1168, -0.1042, -0.1026,  ..., -0.0585, -0.0501, -0.0947],
+        [ 0.0157, -0.0249, -0.0596,  ..., -0.0943,  0.0236, -0.0197]],
+       device='cuda:0'), grad: tensor([[ 4.8727e-05,  3.2163e-04,  5.2929e-04,  ...,  2.0885e-04,
+          1.1790e-04,  2.5773e-04],
+        [ 9.6202e-05,  6.5756e-04,  7.7105e-04,  ...,  3.4666e-04,
+          2.7466e-04,  3.1710e-04],
+        [ 8.4639e-05,  1.7667e-04,  2.6608e-04,  ...,  1.1200e-04,
+          7.0632e-05,  5.1409e-05],
+        ...,
+        [ 1.5104e-04,  8.7261e-05,  1.3351e-04,  ...,  4.7952e-05,
+          4.9442e-05,  4.7994e-04],
+        [ 1.2255e-04,  5.2214e-04,  1.0090e-03,  ...,  4.1223e-04,
+          1.6785e-04,  3.9315e-04],
+        [-6.5899e-04,  1.2863e-04,  1.8382e-04,  ...,  7.7367e-05,
+          5.6356e-05, -4.0561e-05]], device='cuda:0')
+Epoch 300, bias, value: tensor([ 0.0084,  0.0023, -0.0006, -0.0202,  0.0104, -0.0103, -0.0145, -0.0192,
+         0.0027,  0.0019], device='cuda:0'), grad: tensor([ 0.0114,  0.0188,  0.0096,  0.0131, -0.0187, -0.0157,  0.0087,  0.0183,
+         0.0211, -0.0667], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 299, time 216.24, cls_loss 0.4952 cls_loss_mapping 0.0037 cls_loss_causal 0.4695 re_mapping 0.0060 re_causal 0.0157 /// teacc 98.84 lr 0.00010000
+Epoch 301, weight, value: tensor([[ 0.0359,  0.1073, -0.1652,  ..., -0.0989,  0.0722,  0.0049],
+        [-0.0887, -0.0998,  0.1015,  ..., -0.0381, -0.0977,  0.0492],
+        [-0.0801, -0.0588, -0.1103,  ..., -0.1293, -0.0324,  0.0543],
+        ...,
+        [-0.0180, -0.1237, -0.1268,  ..., -0.1101, -0.0389,  0.0713],
+        [-0.1160, -0.1029, -0.1037,  ..., -0.0583, -0.0497, -0.0943],
+        [ 0.0164, -0.0252, -0.0601,  ..., -0.0956,  0.0251, -0.0196]],
+       device='cuda:0'), grad: tensor([[ 2.6774e-04, -1.2846e-03,  8.5974e-04,  ...,  2.1636e-05,
+         -2.5806e-03,  7.7868e-04],
+        [ 4.4346e-04,  8.8334e-05, -9.4604e-04,  ..., -1.0133e-04,
+          5.3501e-04, -2.6798e-04],
+        [ 5.0735e-04, -4.4518e-03, -4.5052e-03,  ...,  1.0207e-05,
+         -1.9093e-03, -2.7637e-03],
+        ...,
+        [-2.5711e-03,  3.1543e-04,  3.0756e-04,  ...,  7.5102e-06,
+         -4.7231e-04, -4.3945e-03],
+        [-2.6360e-03,  1.3638e-03,  1.2875e-03,  ...,  1.5646e-05,
+         -1.1549e-03,  1.9588e-03],
+        [ 1.9855e-03,  5.5647e-04,  3.3188e-04,  ...,  7.2755e-06,
+          1.9350e-03,  4.9543e-04]], device='cuda:0')
+Epoch 301, bias, value: tensor([ 0.0068,  0.0022, -0.0015, -0.0192,  0.0107, -0.0098, -0.0143, -0.0191,
+         0.0026,  0.0021], device='cuda:0'), grad: tensor([-0.0196,  0.0056, -0.0079,  0.0144,  0.0122,  0.0206,  0.0188, -0.0694,
+         0.0009,  0.0245], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 300, time 216.80, cls_loss 0.4744 cls_loss_mapping 0.0036 cls_loss_causal 0.4468 re_mapping 0.0059 re_causal 0.0159 /// teacc 98.86 lr 0.00010000
+Epoch 302, weight, value: tensor([[ 0.0354,  0.1080, -0.1643,  ..., -0.0984,  0.0719,  0.0044],
+        [-0.0889, -0.1007,  0.1016,  ..., -0.0384, -0.0968,  0.0488],
+        [-0.0810, -0.0591, -0.1100,  ..., -0.1293, -0.0327,  0.0551],
+        ...,
+        [-0.0167, -0.1236, -0.1271,  ..., -0.1097, -0.0387,  0.0725],
+        [-0.1162, -0.1039, -0.1049,  ..., -0.0596, -0.0488, -0.0940],
+        [ 0.0157, -0.0261, -0.0606,  ..., -0.0964,  0.0231, -0.0198]],
+       device='cuda:0'), grad: tensor([[-3.0880e-03, -1.0700e-03,  4.1097e-05,  ..., -1.3323e-03,
+         -4.6120e-03, -1.0475e-02],
+        [ 8.3637e-04,  3.2640e-04,  1.5929e-05,  ...,  3.7432e-04,
+          7.7629e-04,  1.6956e-03],
+        [ 3.7074e-04,  1.4853e-04,  3.4988e-05,  ...,  1.7750e-04,
+          2.7490e-04,  6.1893e-04],
+        ...,
+        [ 6.3133e-04,  1.0037e-04,  5.8077e-06,  ...,  1.3506e-04,
+          1.7900e-03,  5.8174e-03],
+        [ 1.2436e-03,  7.3528e-04,  1.4949e-04,  ...,  3.2020e-04,
+          2.8086e-04,  1.7281e-03],
+        [ 3.7313e-04,  1.3983e-04,  1.6928e-05,  ...,  1.6713e-04,
+          3.1018e-04,  7.9775e-04]], device='cuda:0')
+Epoch 302, bias, value: tensor([ 0.0064,  0.0029, -0.0010, -0.0195,  0.0110, -0.0096, -0.0147, -0.0192,
+         0.0035,  0.0007], device='cuda:0'), grad: tensor([-0.0638,  0.0197,  0.0097, -0.0104,  0.0140, -0.0511,  0.0146,  0.0232,
+         0.0346,  0.0095], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 301, time 216.21, cls_loss 0.4909 cls_loss_mapping 0.0031 cls_loss_causal 0.4636 re_mapping 0.0060 re_causal 0.0162 /// teacc 98.68 lr 0.00010000
+Epoch 303, weight, value: tensor([[ 0.0355,  0.1076, -0.1641,  ..., -0.0971,  0.0730,  0.0052],
+        [-0.0891, -0.1006,  0.1013,  ..., -0.0385, -0.0962,  0.0499],
+        [-0.0808, -0.0597, -0.1093,  ..., -0.1295, -0.0326,  0.0567],
+        ...,
+        [-0.0170, -0.1235, -0.1275,  ..., -0.1092, -0.0389,  0.0707],
+        [-0.1179, -0.1041, -0.1054,  ..., -0.0613, -0.0503, -0.0961],
+        [ 0.0165, -0.0252, -0.0604,  ..., -0.0959,  0.0236, -0.0206]],
+       device='cuda:0'), grad: tensor([[ 0.0008,  0.0007,  0.0005,  ...,  0.0008,  0.0011,  0.0012],
+        [ 0.0003,  0.0003,  0.0002,  ...,  0.0003,  0.0005,  0.0008],
+        [-0.0003,  0.0003,  0.0004,  ...,  0.0004,  0.0004, -0.0018],
+        ...,
+        [-0.0002,  0.0002,  0.0004,  ...,  0.0001, -0.0008, -0.0003],
+        [ 0.0004, -0.0109,  0.0007,  ...,  0.0007,  0.0006,  0.0008],
+        [ 0.0003,  0.0002, -0.0016,  ...,  0.0003,  0.0005, -0.0012]],
+       device='cuda:0')
+Epoch 303, bias, value: tensor([ 0.0063,  0.0030, -0.0005, -0.0190,  0.0105, -0.0089, -0.0140, -0.0189,
+         0.0020,  0.0002], device='cuda:0'), grad: tensor([ 0.0241,  0.0178, -0.0087,  0.0670,  0.0154, -0.0101, -0.0382, -0.0112,
+        -0.0132, -0.0427], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 302, time 216.47, cls_loss 0.5195 cls_loss_mapping 0.0046 cls_loss_causal 0.4992 re_mapping 0.0057 re_causal 0.0148 /// teacc 98.59 lr 0.00010000
+Epoch 304, weight, value: tensor([[ 0.0355,  0.1074, -0.1635,  ..., -0.0971,  0.0728,  0.0046],
+        [-0.0904, -0.0993,  0.1033,  ..., -0.0381, -0.0964,  0.0495],
+        [-0.0801, -0.0610, -0.1110,  ..., -0.1291, -0.0321,  0.0575],
+        ...,
+        [-0.0171, -0.1241, -0.1284,  ..., -0.1100, -0.0392,  0.0698],
+        [-0.1157, -0.1034, -0.1064,  ..., -0.0611, -0.0504, -0.0940],
+        [ 0.0177, -0.0254, -0.0602,  ..., -0.0959,  0.0247, -0.0211]],
+       device='cuda:0'), grad: tensor([[ 5.0879e-04,  3.4839e-05,  7.0274e-05,  ...,  2.5388e-06,
+          5.9462e-04,  7.3576e-04],
+        [-6.1846e-04, -2.9349e-04, -7.5960e-04,  ...,  6.7055e-08,
+          1.3721e-04, -2.3842e-03],
+        [-2.5654e-03, -3.8171e-04,  1.1817e-05,  ...,  1.8720e-07,
+         -1.1606e-03, -5.3024e-04],
+        ...,
+        [ 1.2712e-03,  1.9014e-04,  2.6059e-04,  ...,  1.3039e-08,
+          9.2554e-04,  3.5782e-03],
+        [ 5.0068e-04, -1.8203e-04, -3.0422e-04,  ...,  9.0897e-06,
+          2.0778e-04,  9.0361e-04],
+        [ 5.3585e-05,  1.0145e-04,  2.2352e-04,  ...,  9.9652e-08,
+         -6.8784e-05, -2.1553e-03]], device='cuda:0')
+Epoch 304, bias, value: tensor([ 0.0059,  0.0018, -0.0006, -0.0190,  0.0107, -0.0096, -0.0136, -0.0190,
+         0.0023,  0.0017], device='cuda:0'), grad: tensor([ 0.0219, -0.0318, -0.0058,  0.0268, -0.0045, -0.0113, -0.0419,  0.0394,
+         0.0195, -0.0123], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 303, time 216.16, cls_loss 0.4753 cls_loss_mapping 0.0045 cls_loss_causal 0.4486 re_mapping 0.0060 re_causal 0.0155 /// teacc 98.68 lr 0.00010000
+Epoch 305, weight, value: tensor([[ 0.0352,  0.1081, -0.1638,  ..., -0.0976,  0.0730,  0.0042],
+        [-0.0904, -0.0989,  0.1051,  ..., -0.0385, -0.0963,  0.0500],
+        [-0.0807, -0.0611, -0.1111,  ..., -0.1293, -0.0322,  0.0567],
+        ...,
+        [-0.0178, -0.1259, -0.1296,  ..., -0.1092, -0.0400,  0.0688],
+        [-0.1171, -0.1043, -0.1074,  ..., -0.0617, -0.0519, -0.0949],
+        [ 0.0179, -0.0262, -0.0614,  ..., -0.0960,  0.0236, -0.0197]],
+       device='cuda:0'), grad: tensor([[ 4.8327e-04,  2.0623e-04,  1.8224e-05,  ...,  9.7334e-05,
+          1.1568e-03,  4.7708e-04],
+        [ 3.5375e-05,  8.0705e-05, -2.9540e-04,  ...,  2.1803e-04,
+          1.5326e-03, -1.4462e-05],
+        [-3.5534e-03,  1.1587e-03,  1.9804e-05,  ...,  1.7452e-04,
+         -3.1223e-03,  5.8985e-04],
+        ...,
+        [ 8.1825e-04,  3.3188e-04,  1.0151e-04,  ...,  1.5545e-04,
+          1.2722e-03,  1.3514e-03],
+        [ 4.2081e-04,  1.8263e-04,  3.3915e-05,  ...,  8.0705e-05,
+          9.6035e-04,  3.1590e-04],
+        [-7.1526e-04, -7.9060e-04, -3.9905e-05,  ..., -1.3027e-03,
+         -9.2745e-04, -3.5133e-03]], device='cuda:0')
+Epoch 305, bias, value: tensor([ 0.0062,  0.0013, -0.0011, -0.0190,  0.0106, -0.0097, -0.0127, -0.0190,
+         0.0018,  0.0022], device='cuda:0'), grad: tensor([ 0.0212, -0.0294, -0.0008, -0.0145,  0.0024, -0.0126,  0.0264,  0.0323,
+         0.0186, -0.0439], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 304, time 216.56, cls_loss 0.4867 cls_loss_mapping 0.0029 cls_loss_causal 0.4611 re_mapping 0.0057 re_causal 0.0157 /// teacc 98.83 lr 0.00010000
+Epoch 306, weight, value: tensor([[ 0.0348,  0.1075, -0.1640,  ..., -0.0986,  0.0727,  0.0031],
+        [-0.0900, -0.0984,  0.1059,  ..., -0.0389, -0.0966,  0.0503],
+        [-0.0807, -0.0618, -0.1109,  ..., -0.1284, -0.0321,  0.0577],
+        ...,
+        [-0.0167, -0.1265, -0.1300,  ..., -0.1088, -0.0400,  0.0688],
+        [-0.1177, -0.1044, -0.1072,  ..., -0.0617, -0.0530, -0.0948],
+        [ 0.0181, -0.0264, -0.0606,  ..., -0.0967,  0.0242, -0.0198]],
+       device='cuda:0'), grad: tensor([[ 4.0472e-05,  1.5152e-04,  5.5820e-05,  ...,  1.9813e-04,
+          2.0826e-04,  3.6883e-04],
+        [ 6.8128e-05, -3.9116e-08, -1.2188e-03,  ...,  2.1350e-04,
+          2.6917e-04, -4.5371e-04],
+        [ 1.2350e-04,  2.3079e-04,  3.2163e-04,  ...,  3.1471e-04,
+          4.5395e-04,  1.4105e-03],
+        ...,
+        [ 5.7459e-05,  6.8855e-04,  6.0272e-04,  ...,  8.3745e-05,
+          1.8275e-04,  1.0824e-03],
+        [ 7.2539e-05,  1.0824e-03,  5.5522e-05,  ...,  1.1140e-04,
+          2.5797e-04,  8.7693e-06],
+        [ 5.6356e-05, -2.9316e-03,  3.2663e-04,  ...,  1.3268e-04,
+          7.7009e-05,  6.1798e-04]], device='cuda:0')
+Epoch 306, bias, value: tensor([ 0.0058,  0.0017, -0.0013, -0.0182,  0.0099, -0.0098, -0.0124, -0.0188,
+         0.0017,  0.0019], device='cuda:0'), grad: tensor([ 0.0074,  0.0037,  0.0167,  0.0114,  0.0138,  0.0075, -0.0374,  0.0117,
+         0.0030, -0.0378], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 305, time 216.47, cls_loss 0.4821 cls_loss_mapping 0.0030 cls_loss_causal 0.4561 re_mapping 0.0059 re_causal 0.0160 /// teacc 98.71 lr 0.00010000
+Epoch 307, weight, value: tensor([[ 0.0337,  0.1078, -0.1654,  ..., -0.0993,  0.0726,  0.0025],
+        [-0.0903, -0.0982,  0.1065,  ..., -0.0380, -0.0968,  0.0515],
+        [-0.0795, -0.0626, -0.1112,  ..., -0.1283, -0.0316,  0.0573],
+        ...,
+        [-0.0171, -0.1269, -0.1295,  ..., -0.1090, -0.0411,  0.0691],
+        [-0.1181, -0.1047, -0.1070,  ..., -0.0613, -0.0533, -0.0955],
+        [ 0.0182, -0.0271, -0.0611,  ..., -0.0965,  0.0238, -0.0190]],
+       device='cuda:0'), grad: tensor([[ 1.7121e-05,  7.3051e-03,  1.8539e-03,  ...,  6.4313e-05,
+          7.9453e-05,  2.5558e-04],
+        [ 1.8895e-05,  9.6321e-04,  7.0190e-03,  ...,  2.2659e-03,
+          8.5950e-05, -4.8971e-04],
+        [ 1.3210e-05, -1.5430e-03, -9.1476e-03,  ..., -2.6817e-03,
+          6.8367e-05,  4.6968e-04],
+        ...,
+        [-1.6582e-04, -5.6553e-04, -3.4189e-04,  ...,  6.1002e-07,
+         -6.7616e-04,  3.3379e-03],
+        [ 1.7136e-05,  1.7710e-03,  8.2552e-05,  ...,  3.0589e-04,
+          9.3430e-06,  5.4121e-04],
+        [ 2.5839e-05,  4.7898e-04,  4.2343e-04,  ...,  5.4389e-06,
+          1.0443e-04,  3.4022e-04]], device='cuda:0')
+Epoch 307, bias, value: tensor([ 0.0059,  0.0020, -0.0019, -0.0180,  0.0092, -0.0100, -0.0123, -0.0184,
+         0.0023,  0.0017], device='cuda:0'), grad: tensor([ 0.0370, -0.0010,  0.0002, -0.0691,  0.0143,  0.0334,  0.0022, -0.0225,
+        -0.0146,  0.0202], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 306, time 216.92, cls_loss 0.4783 cls_loss_mapping 0.0048 cls_loss_causal 0.4528 re_mapping 0.0065 re_causal 0.0171 /// teacc 98.74 lr 0.00010000
+Epoch 308, weight, value: tensor([[ 0.0351,  0.1083, -0.1647,  ..., -0.0984,  0.0738,  0.0046],
+        [-0.0910, -0.0997,  0.1049,  ..., -0.0388, -0.0980,  0.0507],
+        [-0.0798, -0.0623, -0.1109,  ..., -0.1271, -0.0315,  0.0565],
+        ...,
+        [-0.0171, -0.1263, -0.1289,  ..., -0.1105, -0.0399,  0.0698],
+        [-0.1190, -0.1053, -0.1073,  ..., -0.0620, -0.0533, -0.0961],
+        [ 0.0180, -0.0276, -0.0620,  ..., -0.0965,  0.0242, -0.0185]],
+       device='cuda:0'), grad: tensor([[ 1.7059e-04,  5.3272e-07,  2.3782e-04,  ...,  2.5388e-06,
+          2.2784e-05,  4.2987e-04],
+        [ 1.8799e-04,  3.8236e-05, -3.6073e-04,  ..., -1.6633e-06,
+          2.5049e-05, -6.6833e-03],
+        [ 2.2316e-04,  4.9949e-05,  3.3617e-05,  ...,  1.6568e-06,
+          3.2544e-05,  1.8463e-03],
+        ...,
+        [ 5.6791e-04,  1.9753e-04,  5.2989e-05,  ...,  1.2293e-07,
+          6.7353e-05,  1.4944e-03],
+        [-5.4836e-04, -8.2350e-04,  2.2185e-04,  ...,  3.5018e-05,
+          4.0919e-05,  1.2207e-03],
+        [ 1.7672e-03,  3.4690e-04,  5.8842e-04,  ...,  6.2957e-07,
+          6.7294e-05,  7.5769e-04]], device='cuda:0')
+Epoch 308, bias, value: tensor([ 0.0067,  0.0013, -0.0018, -0.0181,  0.0094, -0.0105, -0.0128, -0.0179,
+         0.0025,  0.0017], device='cuda:0'), grad: tensor([ 0.0045, -0.0333,  0.0139,  0.0063,  0.0142,  0.0034, -0.0270, -0.0151,
+         0.0151,  0.0180], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 307, time 216.52, cls_loss 0.4809 cls_loss_mapping 0.0043 cls_loss_causal 0.4498 re_mapping 0.0059 re_causal 0.0153 /// teacc 98.69 lr 0.00010000
+Epoch 309, weight, value: tensor([[ 0.0349,  0.1092, -0.1651,  ..., -0.0976,  0.0741,  0.0042],
+        [-0.0917, -0.0999,  0.1041,  ..., -0.0379, -0.0975,  0.0514],
+        [-0.0804, -0.0619, -0.1100,  ..., -0.1276, -0.0313,  0.0566],
+        ...,
+        [-0.0163, -0.1262, -0.1285,  ..., -0.1113, -0.0391,  0.0693],
+        [-0.1185, -0.1067, -0.1079,  ..., -0.0626, -0.0526, -0.0954],
+        [ 0.0181, -0.0300, -0.0618,  ..., -0.0974,  0.0218, -0.0178]],
+       device='cuda:0'), grad: tensor([[-1.3041e-04, -2.2812e-03,  7.3373e-05,  ..., -1.0452e-03,
+         -4.7636e-04,  4.6945e-04],
+        [ 1.6975e-04,  1.9932e-04,  4.1962e-05,  ...,  1.1271e-04,
+         -6.6566e-04, -1.2980e-03],
+        [ 6.9761e-04,  1.1930e-03,  2.2006e-04,  ...,  4.4703e-04,
+         -3.0303e-04,  7.7724e-04],
+        ...,
+        [-1.6680e-03, -1.1940e-03,  1.5914e-04,  ...,  2.4307e-04,
+         -1.6060e-03, -1.2789e-03],
+        [ 3.1304e-04,  6.4039e-04,  5.4646e-04,  ...,  2.1324e-03,
+          4.6897e-04,  4.5395e-04],
+        [-1.2102e-03, -2.0161e-03, -4.6492e-04,  ..., -2.1801e-03,
+         -4.1795e-04, -1.2197e-03]], device='cuda:0')
+Epoch 309, bias, value: tensor([ 0.0073,  0.0008, -0.0020, -0.0183,  0.0095, -0.0108, -0.0129, -0.0181,
+         0.0040,  0.0010], device='cuda:0'), grad: tensor([ 6.5613e-03, -4.7974e-02, -1.1223e-02,  2.1042e-02,  1.5495e-02,
+         9.2924e-05,  1.5450e-02, -1.5457e-02,  1.7059e-02, -1.0653e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 308, time 216.73, cls_loss 0.4808 cls_loss_mapping 0.0028 cls_loss_causal 0.4504 re_mapping 0.0062 re_causal 0.0161 /// teacc 98.69 lr 0.00010000
+Epoch 310, weight, value: tensor([[ 0.0351,  0.1093, -0.1663,  ..., -0.0985,  0.0747,  0.0040],
+        [-0.0917, -0.0989,  0.1060,  ..., -0.0374, -0.0978,  0.0526],
+        [-0.0816, -0.0617, -0.1105,  ..., -0.1279, -0.0300,  0.0570],
+        ...,
+        [-0.0161, -0.1265, -0.1292,  ..., -0.1121, -0.0401,  0.0699],
+        [-0.1182, -0.1059, -0.1082,  ..., -0.0619, -0.0540, -0.0965],
+        [ 0.0190, -0.0298, -0.0625,  ..., -0.0955,  0.0218, -0.0181]],
+       device='cuda:0'), grad: tensor([[ 1.4076e-03,  7.5626e-04,  4.0650e-05,  ...,  9.2602e-04,
+          1.3523e-03,  9.5224e-04],
+        [-1.2045e-03, -1.5259e-03,  1.4043e-04,  ..., -4.8828e-04,
+         -3.6740e-04, -8.6365e-03],
+        [-6.4898e-04,  8.5020e-04,  1.1694e-04,  ..., -2.4281e-03,
+          4.1223e-04,  3.0041e-03],
+        ...,
+        [-2.8191e-03, -2.0866e-03, -4.9621e-05,  ...,  7.8058e-04,
+         -3.0823e-03, -2.7618e-03],
+        [-2.4986e-03, -2.2030e-03, -2.6512e-04,  ..., -5.7507e-04,
+         -1.2770e-03,  5.8603e-04],
+        [ 2.3098e-03,  6.2895e-04,  1.1122e-04,  ...,  8.1348e-04,
+          1.8549e-03,  3.4676e-03]], device='cuda:0')
+Epoch 310, bias, value: tensor([ 0.0069,  0.0017, -0.0018, -0.0183,  0.0095, -0.0105, -0.0133, -0.0184,
+         0.0034,  0.0013], device='cuda:0'), grad: tensor([ 0.0395, -0.0666, -0.0352,  0.0205,  0.0048, -0.0063,  0.0259, -0.0067,
+        -0.0057,  0.0297], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 309, time 216.39, cls_loss 0.4766 cls_loss_mapping 0.0037 cls_loss_causal 0.4496 re_mapping 0.0063 re_causal 0.0162 /// teacc 98.68 lr 0.00010000
+Epoch 311, weight, value: tensor([[ 0.0346,  0.1098, -0.1675,  ..., -0.0994,  0.0728,  0.0035],
+        [-0.0917, -0.0984,  0.1070,  ..., -0.0369, -0.0969,  0.0527],
+        [-0.0818, -0.0620, -0.1105,  ..., -0.1288, -0.0303,  0.0575],
+        ...,
+        [-0.0157, -0.1287, -0.1296,  ..., -0.1130, -0.0399,  0.0695],
+        [-0.1181, -0.1050, -0.1072,  ..., -0.0616, -0.0534, -0.0949],
+        [ 0.0193, -0.0297, -0.0624,  ..., -0.0961,  0.0210, -0.0192]],
+       device='cuda:0'), grad: tensor([[-2.9888e-03, -5.0697e-03, -9.6941e-04,  ..., -1.6909e-03,
+         -2.0695e-03, -6.0940e-04],
+        [-2.0385e-05,  1.6958e-05, -4.5085e-04,  ...,  6.1989e-04,
+         -8.1301e-04, -1.7834e-03],
+        [ 3.6192e-04, -1.1721e-03,  3.9291e-04,  ...,  1.8132e-04,
+          7.8201e-04, -1.5974e-03],
+        ...,
+        [-3.1281e-04,  1.1182e-04,  3.3236e-04,  ...,  7.0453e-05,
+         -3.2008e-05, -2.9068e-03],
+        [ 3.3140e-04,  4.4274e-04,  5.8603e-04,  ...,  2.7537e-04,
+          3.6693e-04,  5.7459e-04],
+        [ 7.5150e-04,  5.7459e-05,  1.7428e-04,  ...,  2.1529e-04,
+          4.6945e-04,  3.6373e-03]], device='cuda:0')
+Epoch 311, bias, value: tensor([ 0.0065,  0.0021, -0.0022, -0.0188,  0.0100, -0.0118, -0.0119, -0.0180,
+         0.0035,  0.0008], device='cuda:0'), grad: tensor([-7.8506e-03, -1.0040e-02,  2.6822e-04,  2.4216e-02, -6.5923e-05,
+        -4.3335e-02,  1.6571e-02, -9.5825e-03,  8.3160e-03,  2.1530e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 310, time 216.34, cls_loss 0.4816 cls_loss_mapping 0.0058 cls_loss_causal 0.4585 re_mapping 0.0061 re_causal 0.0161 /// teacc 98.76 lr 0.00010000
+Epoch 312, weight, value: tensor([[ 0.0340,  0.1112, -0.1680,  ..., -0.0999,  0.0715,  0.0047],
+        [-0.0919, -0.1006,  0.1072,  ..., -0.0377, -0.0979,  0.0537],
+        [-0.0824, -0.0617, -0.1108,  ..., -0.1295, -0.0304,  0.0569],
+        ...,
+        [-0.0151, -0.1290, -0.1290,  ..., -0.1128, -0.0388,  0.0703],
+        [-0.1182, -0.1051, -0.1075,  ..., -0.0624, -0.0522, -0.0954],
+        [ 0.0188, -0.0291, -0.0636,  ..., -0.0968,  0.0203, -0.0210]],
+       device='cuda:0'), grad: tensor([[ 2.0237e-03,  1.3107e-02,  2.4652e-04,  ...,  4.4465e-04,
+          1.7700e-02,  1.7953e-04],
+        [ 1.8269e-05, -6.5851e-04, -2.7103e-03,  ..., -9.5367e-04,
+         -1.5221e-03, -1.0767e-03],
+        [-1.8406e-03, -1.3298e-02,  2.0826e-04,  ...,  1.9670e-04,
+         -1.7548e-02, -1.0815e-03],
+        ...,
+        [ 1.3106e-05,  6.6757e-05,  4.3941e-04,  ...,  9.7275e-05,
+          2.4509e-04, -1.7619e-04],
+        [ 6.9380e-05,  4.2653e-04,  3.9840e-04,  ...,  1.2565e-04,
+          5.6267e-04,  2.6870e-04],
+        [ 7.2598e-05,  7.8142e-05,  2.0087e-04,  ...,  8.0228e-05,
+          2.7871e-04,  3.2187e-04]], device='cuda:0')
+Epoch 312, bias, value: tensor([ 0.0073,  0.0016, -0.0023, -0.0183,  0.0091, -0.0112, -0.0117, -0.0176,
+         0.0033,  0.0003], device='cuda:0'), grad: tensor([ 0.0408, -0.0458, -0.0126, -0.0091,  0.0172,  0.0088, -0.0205, -0.0030,
+         0.0119,  0.0122], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 311, time 216.22, cls_loss 0.4874 cls_loss_mapping 0.0042 cls_loss_causal 0.4643 re_mapping 0.0061 re_causal 0.0163 /// teacc 98.86 lr 0.00010000
+Epoch 313, weight, value: tensor([[ 0.0352,  0.1115, -0.1690,  ..., -0.0992,  0.0712,  0.0048],
+        [-0.0932, -0.1019,  0.1058,  ..., -0.0387, -0.0973,  0.0543],
+        [-0.0820, -0.0620, -0.1111,  ..., -0.1288, -0.0286,  0.0570],
+        ...,
+        [-0.0156, -0.1276, -0.1275,  ..., -0.1120, -0.0396,  0.0702],
+        [-0.1185, -0.1043, -0.1088,  ..., -0.0630, -0.0521, -0.0966],
+        [ 0.0181, -0.0293, -0.0631,  ..., -0.0970,  0.0194, -0.0210]],
+       device='cuda:0'), grad: tensor([[ 6.8188e-04,  3.3832e-04,  1.8036e-04,  ...,  4.0196e-06,
+          5.1832e-04,  4.6134e-05],
+        [ 1.3673e-04,  7.9775e-04,  4.2820e-04,  ...,  1.9688e-06,
+          1.7476e-04,  5.4181e-05],
+        [-5.0774e-03, -2.0504e-03, -1.5545e-03,  ...,  5.3549e-04,
+         -3.1815e-03,  6.2466e-04],
+        ...,
+        [ 3.3617e-04,  2.8801e-04,  1.4579e-04,  ...,  6.8918e-06,
+          2.8396e-04,  2.4065e-05],
+        [ 9.2793e-04,  3.4302e-05,  5.4789e-04,  ..., -6.3133e-04,
+          9.1600e-04, -1.4973e-03],
+        [ 3.4857e-04,  1.9205e-04,  1.2052e-04,  ...,  3.8855e-06,
+          2.7680e-04,  5.7369e-05]], device='cuda:0')
+Epoch 313, bias, value: tensor([ 0.0068,  0.0023, -0.0022, -0.0184,  0.0095, -0.0117, -0.0110, -0.0184,
+         0.0033,  0.0003], device='cuda:0'), grad: tensor([-0.0251,  0.0439, -0.0529, -0.0174,  0.0113,  0.0108,  0.0138, -0.0183,
+         0.0265,  0.0074], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 312, time 216.72, cls_loss 0.4838 cls_loss_mapping 0.0040 cls_loss_causal 0.4609 re_mapping 0.0067 re_causal 0.0170 /// teacc 98.79 lr 0.00010000
+Epoch 314, weight, value: tensor([[ 0.0358,  0.1116, -0.1692,  ..., -0.0977,  0.0711,  0.0049],
+        [-0.0941, -0.1012,  0.1066,  ..., -0.0391, -0.0981,  0.0541],
+        [-0.0824, -0.0634, -0.1116,  ..., -0.1292, -0.0290,  0.0565],
+        ...,
+        [-0.0158, -0.1281, -0.1280,  ..., -0.1119, -0.0388,  0.0701],
+        [-0.1192, -0.1039, -0.1108,  ..., -0.0643, -0.0522, -0.0965],
+        [ 0.0183, -0.0287, -0.0622,  ..., -0.0972,  0.0205, -0.0218]],
+       device='cuda:0'), grad: tensor([[ 2.7108e-04,  1.1653e-05,  1.6260e-04,  ..., -2.8872e-04,
+          4.8423e-04,  7.3910e-04],
+        [-4.2152e-04,  3.1292e-05, -7.7486e-06,  ...,  1.0744e-05,
+         -3.9667e-05,  2.5501e-03],
+        [ 2.3425e-04,  1.3280e-04,  5.8353e-05,  ...,  1.9521e-05,
+          3.2949e-04,  1.0033e-03],
+        ...,
+        [ 3.8338e-04, -3.6788e-04, -4.0412e-04,  ..., -1.4946e-05,
+          8.0633e-04,  2.2526e-03],
+        [ 2.0134e-04,  1.7822e-04,  2.2724e-05,  ...,  1.5058e-05,
+          3.8981e-04,  9.2125e-04],
+        [-1.3332e-03,  4.0674e-04,  3.3522e-04,  ...,  3.1948e-05,
+         -2.0924e-03, -1.0195e-03]], device='cuda:0')
+Epoch 314, bias, value: tensor([ 0.0081,  0.0029, -0.0038, -0.0191,  0.0090, -0.0113, -0.0118, -0.0173,
+         0.0034,  0.0002], device='cuda:0'), grad: tensor([ 0.0214, -0.0239,  0.0190, -0.0407,  0.0243, -0.0028, -0.0106,  0.0442,
+         0.0268, -0.0578], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 313, time 216.34, cls_loss 0.4937 cls_loss_mapping 0.0036 cls_loss_causal 0.4774 re_mapping 0.0062 re_causal 0.0163 /// teacc 98.84 lr 0.00010000
+Epoch 315, weight, value: tensor([[ 0.0360,  0.1114, -0.1696,  ..., -0.0981,  0.0711,  0.0048],
+        [-0.0939, -0.1017,  0.1073,  ..., -0.0395, -0.0987,  0.0535],
+        [-0.0825, -0.0639, -0.1109,  ..., -0.1290, -0.0286,  0.0571],
+        ...,
+        [-0.0172, -0.1279, -0.1292,  ..., -0.1106, -0.0391,  0.0711],
+        [-0.1192, -0.1035, -0.1109,  ..., -0.0634, -0.0518, -0.0966],
+        [ 0.0203, -0.0287, -0.0611,  ..., -0.0967,  0.0209, -0.0222]],
+       device='cuda:0'), grad: tensor([[-1.5535e-03, -1.5860e-03, -1.6088e-03,  ..., -1.4820e-03,
+         -1.1377e-03,  6.4182e-04],
+        [ 1.0433e-03,  3.2640e-04,  6.2323e-04,  ...,  4.2605e-04,
+          8.5211e-04,  7.5006e-04],
+        [ 1.6594e-03,  3.4356e-04,  6.4993e-04,  ...,  4.4680e-04,
+          9.0742e-04,  1.2627e-03],
+        ...,
+        [-4.8184e-04,  6.2525e-05, -2.0170e-04,  ..., -3.7622e-04,
+          1.9860e-04, -1.4582e-03],
+        [-5.0087e-03,  8.3819e-06, -1.7509e-03,  ..., -3.9577e-04,
+         -9.0218e-04, -3.6259e-03],
+        [ 1.6069e-03,  5.1737e-04,  8.1778e-04,  ...,  6.3276e-04,
+          1.2274e-03,  9.4557e-04]], device='cuda:0')
+Epoch 315, bias, value: tensor([ 0.0079,  0.0029, -0.0031, -0.0192,  0.0082, -0.0117, -0.0113, -0.0168,
+         0.0025,  0.0009], device='cuda:0'), grad: tensor([-0.0171,  0.0283,  0.0056,  0.0290, -0.0127,  0.0212, -0.0147, -0.0102,
+        -0.0554,  0.0259], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 314, time 216.41, cls_loss 0.4990 cls_loss_mapping 0.0028 cls_loss_causal 0.4803 re_mapping 0.0067 re_causal 0.0191 /// teacc 98.85 lr 0.00010000
+Epoch 316, weight, value: tensor([[ 0.0359,  0.1114, -0.1678,  ..., -0.0982,  0.0709,  0.0049],
+        [-0.0938, -0.1004,  0.1065,  ..., -0.0401, -0.0980,  0.0536],
+        [-0.0843, -0.0642, -0.1117,  ..., -0.1285, -0.0291,  0.0565],
+        ...,
+        [-0.0172, -0.1282, -0.1300,  ..., -0.1107, -0.0387,  0.0708],
+        [-0.1181, -0.1036, -0.1112,  ..., -0.0634, -0.0517, -0.0960],
+        [ 0.0197, -0.0288, -0.0608,  ..., -0.0978,  0.0198, -0.0229]],
+       device='cuda:0'), grad: tensor([[ 1.1206e-04,  2.3210e-04,  1.6287e-05,  ...,  4.8542e-04,
+          1.2946e-04,  2.6631e-04],
+        [-9.4223e-04,  2.8059e-05, -7.9572e-05,  ...,  9.1553e-04,
+         -1.1139e-03,  6.0701e-04],
+        [ 9.4533e-05,  2.2459e-04,  4.3482e-05,  ...,  3.5882e-04,
+          1.0586e-04,  2.0576e-04],
+        ...,
+        [-3.9506e-04,  4.3929e-05,  4.0010e-06,  ...,  6.8307e-05,
+          1.9443e-04, -3.5334e-04],
+        [ 2.1780e-04,  9.8765e-05, -6.6662e-04,  ...,  4.2111e-05,
+          1.4305e-04,  2.1851e-04],
+        [-3.4237e-04,  1.0729e-03,  3.9995e-05,  ...,  1.2076e-04,
+         -1.7929e-04, -4.3988e-04]], device='cuda:0')
+Epoch 316, bias, value: tensor([ 0.0079,  0.0039, -0.0031, -0.0185,  0.0077, -0.0116, -0.0127, -0.0173,
+         0.0033,  0.0008], device='cuda:0'), grad: tensor([ 0.0065, -0.0270,  0.0047, -0.0052,  0.0074,  0.0060, -0.0043,  0.0023,
+         0.0051,  0.0045], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 315, time 216.16, cls_loss 0.4725 cls_loss_mapping 0.0046 cls_loss_causal 0.4535 re_mapping 0.0062 re_causal 0.0164 /// teacc 98.88 lr 0.00010000
+Epoch 317, weight, value: tensor([[ 0.0354,  0.1111, -0.1664,  ..., -0.0981,  0.0708,  0.0050],
+        [-0.0945, -0.1012,  0.1060,  ..., -0.0417, -0.0987,  0.0523],
+        [-0.0843, -0.0634, -0.1117,  ..., -0.1285, -0.0291,  0.0565],
+        ...,
+        [-0.0168, -0.1285, -0.1288,  ..., -0.1090, -0.0386,  0.0713],
+        [-0.1198, -0.1046, -0.1118,  ..., -0.0637, -0.0524, -0.0965],
+        [ 0.0202, -0.0303, -0.0612,  ..., -0.0959,  0.0206, -0.0226]],
+       device='cuda:0'), grad: tensor([[-1.1597e-03,  4.4554e-05,  5.7602e-07,  ...,  1.7297e-04,
+          2.7776e-04,  3.3006e-06],
+        [-2.2030e-03,  4.3735e-06,  5.7789e-07,  ...,  5.5224e-05,
+         -2.1744e-03, -1.4290e-02],
+        [ 3.8586e-03,  2.4140e-05, -1.8524e-06,  ...,  2.0142e-03,
+          4.9114e-04, -7.3910e-04],
+        ...,
+        [-4.4823e-03,  1.5132e-05,  1.3243e-06,  ...,  3.4831e-06,
+         -1.0319e-03,  1.4580e-02],
+        [ 1.2207e-03,  1.7214e-03,  1.5535e-03,  ...,  5.7793e-03,
+          3.1209e-04,  3.5262e-04],
+        [-3.7975e-03,  8.0109e-05,  1.6298e-06,  ...,  3.0518e-05,
+          4.5347e-04,  1.5192e-05]], device='cuda:0')
+Epoch 317, bias, value: tensor([ 0.0094,  0.0024, -0.0021, -0.0189,  0.0082, -0.0119, -0.0125, -0.0174,
+         0.0026,  0.0007], device='cuda:0'), grad: tensor([-0.0128, -0.1083,  0.0092,  0.0187,  0.0248,  0.0087,  0.0045,  0.0392,
+         0.0255, -0.0096], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 316, time 216.76, cls_loss 0.4841 cls_loss_mapping 0.0048 cls_loss_causal 0.4584 re_mapping 0.0057 re_causal 0.0143 /// teacc 98.78 lr 0.00010000
+Epoch 318, weight, value: tensor([[ 0.0347,  0.1113, -0.1672,  ..., -0.0981,  0.0691,  0.0038],
+        [-0.0943, -0.1020,  0.1061,  ..., -0.0419, -0.0972,  0.0529],
+        [-0.0845, -0.0628, -0.1114,  ..., -0.1275, -0.0291,  0.0574],
+        ...,
+        [-0.0151, -0.1287, -0.1295,  ..., -0.1095, -0.0404,  0.0704],
+        [-0.1216, -0.1047, -0.1117,  ..., -0.0655, -0.0517, -0.0967],
+        [ 0.0212, -0.0300, -0.0600,  ..., -0.0958,  0.0210, -0.0224]],
+       device='cuda:0'), grad: tensor([[ 1.0805e-03,  9.1696e-04,  1.9026e-04,  ...,  7.2575e-04,
+          8.7643e-04,  3.2568e-04],
+        [-8.9836e-04,  2.9707e-04,  1.9252e-04,  ...,  4.6635e-04,
+          8.5735e-04,  1.5020e-03],
+        [ 1.2856e-03,  6.7472e-04,  3.1066e-04,  ...,  3.2473e-04,
+          9.1887e-04, -3.3550e-03],
+        ...,
+        [-3.6430e-03, -3.7384e-03, -3.1986e-03,  ..., -2.9159e-04,
+         -4.4746e-03, -1.6189e-04],
+        [-9.7942e-04, -5.9038e-05,  8.2970e-05,  ...,  2.4402e-04,
+         -1.8063e-03, -9.6130e-04],
+        [ 1.4954e-03,  1.0509e-03,  5.1689e-04,  ...,  4.5705e-04,
+          1.3084e-03,  7.2193e-04]], device='cuda:0')
+Epoch 318, bias, value: tensor([ 0.0092,  0.0031, -0.0014, -0.0201,  0.0080, -0.0118, -0.0126, -0.0186,
+         0.0031,  0.0015], device='cuda:0'), grad: tensor([ 0.0342,  0.0076, -0.0511,  0.0102,  0.0254, -0.0119, -0.0063,  0.0030,
+        -0.0464,  0.0354], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 317, time 216.30, cls_loss 0.4657 cls_loss_mapping 0.0045 cls_loss_causal 0.4407 re_mapping 0.0063 re_causal 0.0165 /// teacc 98.87 lr 0.00010000
+Epoch 319, weight, value: tensor([[ 0.0372,  0.1108, -0.1672,  ..., -0.0979,  0.0694,  0.0040],
+        [-0.0954, -0.1025,  0.1061,  ..., -0.0427, -0.0977,  0.0533],
+        [-0.0859, -0.0624, -0.1128,  ..., -0.1272, -0.0298,  0.0576],
+        ...,
+        [-0.0165, -0.1293, -0.1288,  ..., -0.1093, -0.0407,  0.0694],
+        [-0.1213, -0.1047, -0.1110,  ..., -0.0654, -0.0520, -0.0964],
+        [ 0.0208, -0.0297, -0.0594,  ..., -0.0964,  0.0211, -0.0213]],
+       device='cuda:0'), grad: tensor([[ 4.2200e-04,  5.4806e-05,  1.6898e-05,  ...,  1.5926e-06,
+          5.2834e-04,  9.9838e-05],
+        [-1.7204e-03,  4.6492e-05,  1.1720e-05,  ...,  1.5600e-07,
+         -1.6232e-03, -6.8903e-04],
+        [ 5.3263e-04,  2.2161e-04,  8.7917e-05,  ...,  9.8348e-07,
+          9.2888e-04,  1.2153e-04],
+        ...,
+        [ 6.6614e-04, -3.6931e-04,  1.4596e-05,  ...,  1.8720e-07,
+          1.1091e-03, -4.7684e-04],
+        [ 5.5456e-04,  1.3041e-04,  4.1872e-05,  ...,  4.9397e-06,
+          6.4421e-04,  1.8501e-04],
+        [-5.5933e-04,  3.9244e-04,  4.8727e-05,  ...,  1.7639e-06,
+         -8.0585e-04,  8.4102e-05]], device='cuda:0')
+Epoch 319, bias, value: tensor([ 0.0092,  0.0025, -0.0016, -0.0196,  0.0070, -0.0108, -0.0133, -0.0183,
+         0.0036,  0.0019], device='cuda:0'), grad: tensor([ 0.0102, -0.0199,  0.0125, -0.0023,  0.0127,  0.0102, -0.0210,  0.0033,
+         0.0120, -0.0178], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 318, time 216.46, cls_loss 0.4810 cls_loss_mapping 0.0040 cls_loss_causal 0.4595 re_mapping 0.0059 re_causal 0.0156 /// teacc 98.72 lr 0.00010000
+Epoch 320, weight, value: tensor([[ 0.0380,  0.1115, -0.1663,  ..., -0.0980,  0.0699,  0.0041],
+        [-0.0950, -0.1028,  0.1060,  ..., -0.0425, -0.0969,  0.0535],
+        [-0.0876, -0.0623, -0.1131,  ..., -0.1269, -0.0306,  0.0573],
+        ...,
+        [-0.0152, -0.1291, -0.1300,  ..., -0.1085, -0.0401,  0.0697],
+        [-0.1209, -0.1065, -0.1101,  ..., -0.0654, -0.0516, -0.0959],
+        [ 0.0199, -0.0297, -0.0596,  ..., -0.0969,  0.0202, -0.0209]],
+       device='cuda:0'), grad: tensor([[ 2.7370e-04,  2.1681e-05,  3.0428e-05,  ...,  8.9169e-05,
+         -1.2331e-03,  2.8205e-04],
+        [ 2.4581e-04,  9.9540e-05,  8.0347e-05,  ...,  7.6103e-04,
+          2.9039e-04, -1.2612e-04],
+        [ 3.5596e-04,  2.9182e-04, -3.5286e-04,  ...,  9.4533e-05,
+          2.8276e-04,  1.8072e-04],
+        ...,
+        [ 4.2033e-04,  9.5963e-05,  6.4969e-05,  ...,  3.6657e-05,
+          3.2091e-04,  2.7823e-04],
+        [-7.3493e-05, -3.7422e-03,  5.7411e-04,  ..., -4.6158e-03,
+          2.3329e-04,  2.5177e-04],
+        [-4.5776e-04, -4.9973e-04, -2.3842e-04,  ...,  9.3341e-05,
+         -1.3196e-04, -2.7037e-04]], device='cuda:0')
+Epoch 320, bias, value: tensor([ 0.0086,  0.0036, -0.0021, -0.0203,  0.0067, -0.0103, -0.0137, -0.0181,
+         0.0035,  0.0025], device='cuda:0'), grad: tensor([-0.0180,  0.0171,  0.0054,  0.0186, -0.0312,  0.0138, -0.0002,  0.0143,
+        -0.0285,  0.0085], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 319, time 216.86, cls_loss 0.4961 cls_loss_mapping 0.0031 cls_loss_causal 0.4672 re_mapping 0.0061 re_causal 0.0167 /// teacc 98.84 lr 0.00010000
+Epoch 321, weight, value: tensor([[ 0.0381,  0.1123, -0.1667,  ..., -0.0978,  0.0704,  0.0036],
+        [-0.0949, -0.1028,  0.1058,  ..., -0.0440, -0.0972,  0.0520],
+        [-0.0898, -0.0629, -0.1130,  ..., -0.1286, -0.0307,  0.0581],
+        ...,
+        [-0.0150, -0.1272, -0.1294,  ..., -0.1086, -0.0400,  0.0692],
+        [-0.1197, -0.1044, -0.1107,  ..., -0.0640, -0.0509, -0.0952],
+        [ 0.0196, -0.0297, -0.0602,  ..., -0.0969,  0.0196, -0.0202]],
+       device='cuda:0'), grad: tensor([[ 1.6508e-03,  5.6811e-06,  2.2314e-06,  ...,  6.8307e-05,
+          1.0347e-03,  1.6146e-03],
+        [-7.8773e-04,  2.6133e-06,  1.7062e-06,  ..., -1.9383e-04,
+         -1.9968e-04, -2.9678e-03],
+        [-4.6844e-03,  1.9878e-05,  1.2808e-05,  ...,  2.6271e-05,
+         -2.7466e-03, -1.4668e-03],
+        ...,
+        [ 4.5943e-04,  5.2974e-06,  3.4142e-06,  ...,  1.6558e-04,
+          1.3518e-04, -1.9426e-03],
+        [ 5.2881e-04,  1.9014e-05,  1.2293e-05,  ...,  2.8126e-06,
+          2.5916e-04,  9.6703e-04],
+        [ 4.1747e-04,  1.8939e-05,  1.2323e-05,  ...,  1.3607e-06,
+          1.5819e-04,  7.3051e-04]], device='cuda:0')
+Epoch 321, bias, value: tensor([ 0.0086,  0.0032, -0.0027, -0.0198,  0.0078, -0.0110, -0.0143, -0.0174,
+         0.0044,  0.0015], device='cuda:0'), grad: tensor([ 0.0270, -0.0465, -0.0306,  0.0186,  0.0232,  0.0144, -0.0150, -0.0056,
+         0.0199, -0.0055], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 320, time 216.44, cls_loss 0.4849 cls_loss_mapping 0.0027 cls_loss_causal 0.4565 re_mapping 0.0063 re_causal 0.0165 /// teacc 98.82 lr 0.00010000
+Epoch 322, weight, value: tensor([[ 0.0375,  0.1114, -0.1680,  ..., -0.0982,  0.0705,  0.0042],
+        [-0.0938, -0.1023,  0.1058,  ..., -0.0427, -0.0963,  0.0517],
+        [-0.0906, -0.0626, -0.1137,  ..., -0.1290, -0.0303,  0.0580],
+        ...,
+        [-0.0151, -0.1274, -0.1297,  ..., -0.1096, -0.0396,  0.0701],
+        [-0.1212, -0.1049, -0.1096,  ..., -0.0635, -0.0512, -0.0959],
+        [ 0.0199, -0.0303, -0.0601,  ..., -0.0977,  0.0191, -0.0205]],
+       device='cuda:0'), grad: tensor([[-2.0313e-03,  1.7792e-05,  1.3210e-05,  ...,  2.2674e-04,
+          2.0046e-03, -8.0109e-04],
+        [ 1.7080e-03,  5.5414e-08, -2.5630e-05,  ...,  1.2375e-05,
+          1.2693e-03,  2.5368e-04],
+        [ 7.7200e-04,  8.2701e-06,  6.6906e-06,  ..., -2.0730e-04,
+          6.9761e-04, -1.1415e-03],
+        ...,
+        [ 8.7309e-04,  6.1374e-07,  1.3366e-05,  ...,  2.7791e-05,
+          4.6778e-04,  2.2054e-04],
+        [ 9.3508e-04,  2.2367e-05,  1.7777e-05,  ...,  7.2122e-05,
+          6.2943e-04,  4.0054e-04],
+        [-6.1035e-04,  8.0913e-06,  5.8934e-06,  ...,  1.8954e-05,
+         -8.3923e-03,  2.7347e-04]], device='cuda:0')
+Epoch 322, bias, value: tensor([ 0.0081,  0.0030, -0.0027, -0.0198,  0.0091, -0.0106, -0.0149, -0.0179,
+         0.0049,  0.0009], device='cuda:0'), grad: tensor([-0.0055,  0.0302,  0.0026, -0.0093, -0.0142,  0.0184,  0.0199, -0.0348,
+        -0.0071, -0.0003], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 321, time 216.78, cls_loss 0.4706 cls_loss_mapping 0.0035 cls_loss_causal 0.4374 re_mapping 0.0062 re_causal 0.0164 /// teacc 98.93 lr 0.00010000
+Epoch 323, weight, value: tensor([[ 0.0370,  0.1115, -0.1698,  ..., -0.0986,  0.0703,  0.0030],
+        [-0.0937, -0.1023,  0.1061,  ..., -0.0427, -0.0969,  0.0518],
+        [-0.0905, -0.0627, -0.1147,  ..., -0.1298, -0.0293,  0.0588],
+        ...,
+        [-0.0142, -0.1259, -0.1270,  ..., -0.1081, -0.0396,  0.0703],
+        [-0.1211, -0.1051, -0.1094,  ..., -0.0640, -0.0509, -0.0955],
+        [ 0.0204, -0.0292, -0.0606,  ..., -0.0981,  0.0203, -0.0205]],
+       device='cuda:0'), grad: tensor([[ 9.8228e-04,  2.1502e-05,  3.7581e-05,  ...,  4.3213e-06,
+          1.9825e-04,  2.5558e-03],
+        [ 2.2659e-03,  9.9987e-06,  2.0429e-05,  ...,  1.8924e-06,
+          2.7561e-04,  6.8932e-03],
+        [-3.5286e-03, -1.6479e-03, -3.5496e-03,  ..., -2.9445e-04,
+         -7.4655e-06, -1.2466e-02],
+        ...,
+        [-1.4277e-03,  6.2883e-05,  1.1468e-04,  ...,  2.0728e-05,
+         -7.6771e-04, -1.6918e-03],
+        [ 3.2997e-04,  4.4012e-04,  1.0958e-03,  ...,  9.1970e-05,
+          1.8299e-04,  1.1225e-03],
+        [ 9.3317e-04,  5.9414e-04,  1.1816e-03,  ...,  8.6606e-05,
+          2.5296e-04,  1.1015e-03]], device='cuda:0')
+Epoch 323, bias, value: tensor([ 0.0083,  0.0034, -0.0019, -0.0193,  0.0082, -0.0109, -0.0149, -0.0186,
+         0.0044,  0.0016], device='cuda:0'), grad: tensor([ 0.0212, -0.0174, -0.0783, -0.0090,  0.0198,  0.0138,  0.0152, -0.0113,
+         0.0133,  0.0327], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 322, time 216.48, cls_loss 0.4771 cls_loss_mapping 0.0041 cls_loss_causal 0.4497 re_mapping 0.0056 re_causal 0.0151 /// teacc 98.73 lr 0.00010000
+Epoch 324, weight, value: tensor([[ 0.0381,  0.1123, -0.1703,  ..., -0.0988,  0.0702,  0.0035],
+        [-0.0949, -0.1027,  0.1056,  ..., -0.0431, -0.0974,  0.0519],
+        [-0.0904, -0.0637, -0.1146,  ..., -0.1299, -0.0286,  0.0599],
+        ...,
+        [-0.0143, -0.1262, -0.1269,  ..., -0.1083, -0.0403,  0.0702],
+        [-0.1206, -0.1068, -0.1099,  ..., -0.0640, -0.0520, -0.0953],
+        [ 0.0210, -0.0299, -0.0607,  ..., -0.0975,  0.0205, -0.0207]],
+       device='cuda:0'), grad: tensor([[ 3.9148e-04,  2.3785e-03,  1.0628e-04,  ...,  1.3381e-05,
+          3.2401e-04,  1.4412e-04],
+        [ 2.3675e-04,  2.7165e-05, -2.5816e-06,  ...,  4.0345e-06,
+          1.6177e-04, -4.0770e-04],
+        [-2.8944e-04,  2.5845e-04,  1.2362e-04,  ...,  1.8075e-05,
+          1.6165e-04,  7.8344e-04],
+        ...,
+        [ 4.3535e-04,  1.2934e-04,  5.9931e-07,  ...,  8.8692e-05,
+          4.7159e-04,  2.0199e-03],
+        [ 2.0802e-04,  8.3208e-05,  1.0604e-04,  ...,  2.0432e-04,
+          1.6403e-04, -1.3237e-03],
+        [ 3.4857e-04, -2.7791e-05,  2.2501e-06,  ...,  3.2258e-04,
+          1.6677e-04, -1.6441e-03]], device='cuda:0')
+Epoch 324, bias, value: tensor([ 0.0082,  0.0031, -0.0015, -0.0193,  0.0092, -0.0108, -0.0156, -0.0192,
+         0.0041,  0.0020], device='cuda:0'), grad: tensor([ 0.0227,  0.0036, -0.0176,  0.0070, -0.0143,  0.0017,  0.0111,  0.0303,
+        -0.0180, -0.0265], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 323, time 216.53, cls_loss 0.4802 cls_loss_mapping 0.0039 cls_loss_causal 0.4575 re_mapping 0.0060 re_causal 0.0163 /// teacc 98.76 lr 0.00010000
+Epoch 325, weight, value: tensor([[ 0.0387,  0.1131, -0.1697,  ..., -0.0972,  0.0713,  0.0037],
+        [-0.0955, -0.1043,  0.1048,  ..., -0.0441, -0.0979,  0.0519],
+        [-0.0908, -0.0628, -0.1146,  ..., -0.1297, -0.0282,  0.0600],
+        ...,
+        [-0.0142, -0.1252, -0.1262,  ..., -0.1077, -0.0402,  0.0698],
+        [-0.1214, -0.1080, -0.1106,  ..., -0.0648, -0.0518, -0.0948],
+        [ 0.0215, -0.0287, -0.0600,  ..., -0.0978,  0.0209, -0.0205]],
+       device='cuda:0'), grad: tensor([[-1.0204e-03, -6.1655e-04,  5.6475e-05,  ...,  3.4046e-04,
+         -5.5027e-04,  2.1875e-04],
+        [ 3.0780e-04, -7.5483e-04, -2.5387e-03,  ..., -4.2763e-03,
+          1.3053e-04,  1.9836e-04],
+        [ 5.1498e-04,  1.7762e-04,  4.4435e-05,  ...,  2.7037e-04,
+          1.3328e-04,  8.2550e-03],
+        ...,
+        [ 2.7609e-04,  9.9361e-05,  3.6210e-05,  ...,  2.4462e-04,
+          1.1313e-04, -7.7171e-03],
+        [ 5.3644e-04,  5.3167e-04,  2.5768e-03,  ...,  6.5279e-04,
+          1.9395e-04,  7.2241e-04],
+        [-1.6940e-04,  2.8419e-04,  1.0186e-04,  ...,  4.7326e-04,
+          2.6560e-04, -3.0303e-04]], device='cuda:0')
+Epoch 325, bias, value: tensor([ 0.0085,  0.0026, -0.0017, -0.0180,  0.0080, -0.0110, -0.0142, -0.0189,
+         0.0036,  0.0014], device='cuda:0'), grad: tensor([-0.0184, -0.0106,  0.0327,  0.0072, -0.0465,  0.0076, -0.0109,  0.0035,
+         0.0237,  0.0117], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 324, time 216.25, cls_loss 0.4560 cls_loss_mapping 0.0031 cls_loss_causal 0.4389 re_mapping 0.0060 re_causal 0.0166 /// teacc 98.68 lr 0.00010000
+Epoch 326, weight, value: tensor([[ 0.0391,  0.1135, -0.1687,  ..., -0.0966,  0.0713,  0.0029],
+        [-0.0957, -0.1033,  0.1058,  ..., -0.0422, -0.0994,  0.0522],
+        [-0.0915, -0.0636, -0.1149,  ..., -0.1309, -0.0281,  0.0606],
+        ...,
+        [-0.0158, -0.1259, -0.1268,  ..., -0.1084, -0.0410,  0.0694],
+        [-0.1218, -0.1069, -0.1112,  ..., -0.0644, -0.0514, -0.0948],
+        [ 0.0208, -0.0294, -0.0599,  ..., -0.0989,  0.0202, -0.0208]],
+       device='cuda:0'), grad: tensor([[-3.9506e-04,  1.5235e-04,  2.5892e-04,  ...,  5.0163e-04,
+          1.9595e-05, -3.0136e-03],
+        [ 7.1955e-04,  1.0617e-05,  8.0347e-05,  ...,  5.0592e-04,
+          8.3804e-05,  3.3512e-03],
+        [ 4.7207e-04,  3.3200e-05,  6.2108e-05,  ...,  3.1304e-04,
+          6.3777e-05,  1.4763e-03],
+        ...,
+        [ 3.3951e-04,  5.0478e-06, -8.3089e-05,  ..., -1.3328e-04,
+          7.8201e-05, -1.3702e-02],
+        [ 8.7976e-04,  5.0688e-04,  4.8256e-04,  ...,  1.5106e-03,
+          6.6161e-05,  1.4191e-03],
+        [ 3.2997e-04,  4.4763e-05,  2.2262e-05,  ...,  1.2779e-04,
+          8.5831e-05,  7.6218e-03]], device='cuda:0')
+Epoch 326, bias, value: tensor([ 0.0082,  0.0029, -0.0021, -0.0172,  0.0084, -0.0098, -0.0147, -0.0191,
+         0.0032,  0.0004], device='cuda:0'), grad: tensor([-0.0154,  0.0378, -0.0005, -0.0100, -0.0189,  0.0289, -0.0424, -0.0311,
+         0.0263,  0.0253], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 325, time 216.54, cls_loss 0.4745 cls_loss_mapping 0.0032 cls_loss_causal 0.4500 re_mapping 0.0056 re_causal 0.0148 /// teacc 98.85 lr 0.00010000
+Epoch 327, weight, value: tensor([[ 0.0385,  0.1131, -0.1685,  ..., -0.0969,  0.0703,  0.0031],
+        [-0.0954, -0.1036,  0.1056,  ..., -0.0432, -0.0987,  0.0511],
+        [-0.0889, -0.0626, -0.1149,  ..., -0.1306, -0.0277,  0.0615],
+        ...,
+        [-0.0167, -0.1271, -0.1277,  ..., -0.1083, -0.0406,  0.0691],
+        [-0.1232, -0.1070, -0.1123,  ..., -0.0642, -0.0521, -0.0960],
+        [ 0.0224, -0.0274, -0.0585,  ..., -0.0988,  0.0212, -0.0215]],
+       device='cuda:0'), grad: tensor([[-4.5624e-03,  4.4060e-04, -3.9577e-04,  ...,  1.3983e-04,
+         -9.5069e-05,  3.1471e-03],
+        [ 3.1400e-04, -1.0386e-05,  8.7142e-05,  ...,  1.0446e-05,
+          8.6240e-07,  3.2845e-03],
+        [-2.0042e-05,  5.6744e-05,  3.4571e-05,  ...,  4.3440e-04,
+          5.0694e-05, -2.0924e-03],
+        ...,
+        [-7.6115e-05,  8.5688e-04,  4.0233e-05,  ...,  7.4208e-06,
+          7.1339e-07,  9.9335e-03],
+        [ 3.0632e-03,  1.5521e-04,  4.8548e-05,  ...,  4.0084e-05,
+          6.1505e-06, -4.4060e-03],
+        [ 1.6088e-03, -1.4534e-03,  3.2902e-05,  ...,  2.3097e-05,
+          3.2987e-06, -1.2138e-02]], device='cuda:0')
+Epoch 327, bias, value: tensor([ 0.0082,  0.0026, -0.0017, -0.0176,  0.0078, -0.0090, -0.0146, -0.0193,
+         0.0031,  0.0009], device='cuda:0'), grad: tensor([-0.0620,  0.0385, -0.0103, -0.0082, -0.0137,  0.0158,  0.0165,  0.0072,
+         0.0221, -0.0061], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 326----------------------------------------------------
+epoch 326, time 217.26, cls_loss 0.4954 cls_loss_mapping 0.0032 cls_loss_causal 0.4688 re_mapping 0.0060 re_causal 0.0166 /// teacc 99.00 lr 0.00010000
+Epoch 328, weight, value: tensor([[ 0.0387,  0.1128, -0.1689,  ..., -0.0967,  0.0705,  0.0025],
+        [-0.0956, -0.1037,  0.1060,  ..., -0.0436, -0.0984,  0.0510],
+        [-0.0912, -0.0631, -0.1157,  ..., -0.1307, -0.0288,  0.0614],
+        ...,
+        [-0.0153, -0.1277, -0.1276,  ..., -0.1086, -0.0409,  0.0683],
+        [-0.1245, -0.1067, -0.1119,  ..., -0.0645, -0.0517, -0.0956],
+        [ 0.0206, -0.0274, -0.0596,  ..., -0.0993,  0.0216, -0.0202]],
+       device='cuda:0'), grad: tensor([[ 9.1457e-04,  3.5316e-05,  5.6922e-05,  ...,  1.0006e-05,
+          1.2612e-04,  5.6982e-05],
+        [ 1.8244e-03,  4.5784e-06,  5.6438e-06,  ...,  7.4366e-07,
+          2.9182e-04,  1.0139e-04],
+        [ 9.4080e-04, -2.2640e-03, -1.3018e-03,  ..., -1.1069e-04,
+          1.2970e-04, -3.6955e-05],
+        ...,
+        [ 1.8358e-03,  6.8173e-06,  4.5784e-06,  ...,  3.8370e-07,
+          3.4928e-04, -2.5392e-04],
+        [ 9.7322e-04,  8.0884e-05,  2.2924e-04,  ...,  3.8475e-05,
+          2.8825e-04,  5.0873e-05],
+        [-1.0330e-02,  5.8971e-06,  5.3868e-06,  ...,  2.3004e-07,
+         -2.8095e-03,  4.4727e-04]], device='cuda:0')
+Epoch 328, bias, value: tensor([ 0.0074,  0.0023, -0.0030, -0.0169,  0.0084, -0.0096, -0.0140, -0.0177,
+         0.0018,  0.0014], device='cuda:0'), grad: tensor([ 0.0144,  0.0188,  0.0070,  0.0194, -0.0480, -0.0174,  0.0151,  0.0190,
+         0.0131, -0.0414], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 327, time 216.67, cls_loss 0.4826 cls_loss_mapping 0.0028 cls_loss_causal 0.4539 re_mapping 0.0060 re_causal 0.0170 /// teacc 98.91 lr 0.00010000
+Epoch 329, weight, value: tensor([[ 0.0386,  0.1121, -0.1693,  ..., -0.0970,  0.0709,  0.0039],
+        [-0.0957, -0.1041,  0.1062,  ..., -0.0432, -0.0990,  0.0509],
+        [-0.0911, -0.0638, -0.1167,  ..., -0.1315, -0.0294,  0.0609],
+        ...,
+        [-0.0158, -0.1280, -0.1276,  ..., -0.1092, -0.0417,  0.0689],
+        [-0.1242, -0.1069, -0.1114,  ..., -0.0647, -0.0523, -0.0952],
+        [ 0.0207, -0.0269, -0.0597,  ..., -0.0998,  0.0222, -0.0214]],
+       device='cuda:0'), grad: tensor([[-1.1368e-03, -3.4118e-04,  1.1645e-05,  ...,  3.3760e-04,
+         -1.3240e-05,  1.1647e-04],
+        [ 6.7997e-04,  2.8443e-04, -3.9756e-05,  ...,  6.0767e-05,
+          1.2141e-04, -3.7742e-04],
+        [ 6.7949e-04,  4.2796e-04,  1.4700e-05,  ...,  3.4642e-04,
+          1.5771e-04,  8.4460e-05],
+        ...,
+        [ 5.5790e-04,  1.6344e-04,  1.4596e-05,  ...,  7.2122e-05,
+          8.0347e-05, -1.1069e-04],
+        [ 7.0953e-04,  7.6246e-04,  5.2881e-04,  ...,  8.2064e-04,
+          1.4436e-04,  1.5926e-04],
+        [ 1.3494e-03,  4.0364e-04, -7.6771e-05,  ...,  2.9397e-04,
+          1.6785e-04, -4.7415e-05]], device='cuda:0')
+Epoch 329, bias, value: tensor([ 0.0078,  0.0022, -0.0029, -0.0168,  0.0089, -0.0098, -0.0150, -0.0175,
+         0.0024,  0.0009], device='cuda:0'), grad: tensor([-0.0177,  0.0101,  0.0117,  0.0150, -0.0504,  0.0154,  0.0087,  0.0133,
+        -0.0190,  0.0129], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 328, time 216.48, cls_loss 0.4700 cls_loss_mapping 0.0027 cls_loss_causal 0.4528 re_mapping 0.0060 re_causal 0.0157 /// teacc 98.85 lr 0.00010000
+Epoch 330, weight, value: tensor([[ 0.0375,  0.1119, -0.1693,  ..., -0.0966,  0.0711,  0.0021],
+        [-0.0955, -0.1047,  0.1067,  ..., -0.0445, -0.0986,  0.0514],
+        [-0.0903, -0.0643, -0.1166,  ..., -0.1301, -0.0299,  0.0608],
+        ...,
+        [-0.0166, -0.1265, -0.1274,  ..., -0.1096, -0.0413,  0.0690],
+        [-0.1250, -0.1064, -0.1109,  ..., -0.0656, -0.0530, -0.0955],
+        [ 0.0224, -0.0279, -0.0610,  ..., -0.1000,  0.0217, -0.0204]],
+       device='cuda:0'), grad: tensor([[ 1.0567e-03,  2.3782e-04,  2.0242e-04,  ...,  4.8935e-05,
+          4.9973e-04,  7.2956e-04],
+        [-1.0824e-03, -4.4403e-03, -3.2215e-03,  ..., -7.9966e-04,
+         -2.8944e-04, -6.0234e-03],
+        [-1.3485e-03,  1.6260e-03,  1.1797e-03,  ...,  2.9516e-04,
+         -5.6410e-04,  9.5797e-04],
+        ...,
+        [-1.0366e-03,  6.0129e-04,  4.2391e-04,  ...,  1.0473e-04,
+          1.3304e-04,  1.2159e-03],
+        [ 9.6846e-04,  5.2404e-04,  6.0225e-04,  ...,  8.1122e-05,
+          4.9448e-04, -4.9353e-04],
+        [ 1.1463e-03,  3.7408e-04,  3.0041e-04,  ...,  7.1168e-05,
+          4.6045e-05,  4.5156e-04]], device='cuda:0')
+Epoch 330, bias, value: tensor([ 0.0078,  0.0026, -0.0029, -0.0164,  0.0085, -0.0109, -0.0143, -0.0174,
+         0.0018,  0.0013], device='cuda:0'), grad: tensor([ 0.0166, -0.0311, -0.0046,  0.0314, -0.0139,  0.0088, -0.0154,  0.0066,
+        -0.0131,  0.0146], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 329, time 216.30, cls_loss 0.4690 cls_loss_mapping 0.0037 cls_loss_causal 0.4476 re_mapping 0.0063 re_causal 0.0166 /// teacc 98.78 lr 0.00010000
+Epoch 331, weight, value: tensor([[ 0.0364,  0.1125, -0.1700,  ..., -0.0970,  0.0710,  0.0016],
+        [-0.0945, -0.1046,  0.1065,  ..., -0.0451, -0.0989,  0.0516],
+        [-0.0886, -0.0653, -0.1164,  ..., -0.1303, -0.0303,  0.0616],
+        ...,
+        [-0.0166, -0.1271, -0.1281,  ..., -0.1102, -0.0404,  0.0686],
+        [-0.1256, -0.1075, -0.1112,  ..., -0.0652, -0.0530, -0.0961],
+        [ 0.0224, -0.0280, -0.0611,  ..., -0.0989,  0.0226, -0.0201]],
+       device='cuda:0'), grad: tensor([[-1.5182e-03,  5.1498e-03,  9.4995e-08,  ..., -1.0751e-05,
+         -5.3120e-04, -8.5878e-04],
+        [ 1.5039e-03,  1.1575e-04,  1.6764e-08,  ...,  3.1712e-07,
+          4.8661e-04, -3.9244e-04],
+        [ 8.1062e-04,  1.1820e-04,  2.5313e-06,  ...,  4.0047e-06,
+          2.7323e-04,  1.3599e-03],
+        ...,
+        [-1.0443e-03,  2.0373e-04,  3.6880e-07,  ...,  2.0675e-07,
+         -3.3426e-04, -1.2360e-03],
+        [ 6.7377e-04,  7.4244e-04,  4.8205e-06,  ...,  5.6028e-06,
+          2.4772e-04,  5.6934e-04],
+        [-4.9095e-03, -5.5408e-04,  5.4250e-07,  ...,  2.1979e-06,
+         -3.5515e-03,  8.1873e-04]], device='cuda:0')
+Epoch 331, bias, value: tensor([ 0.0078,  0.0039, -0.0034, -0.0156,  0.0086, -0.0122, -0.0142, -0.0177,
+         0.0013,  0.0016], device='cuda:0'), grad: tensor([-0.0092, -0.0031,  0.0147,  0.0147,  0.0335, -0.0054, -0.0479, -0.0116,
+         0.0124,  0.0018], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 330, time 216.35, cls_loss 0.4734 cls_loss_mapping 0.0037 cls_loss_causal 0.4413 re_mapping 0.0059 re_causal 0.0164 /// teacc 98.88 lr 0.00010000
+Epoch 332, weight, value: tensor([[ 0.0367,  0.1113, -0.1698,  ..., -0.0974,  0.0712, -0.0004],
+        [-0.0959, -0.1044,  0.1069,  ..., -0.0452, -0.0994,  0.0522],
+        [-0.0882, -0.0662, -0.1177,  ..., -0.1307, -0.0302,  0.0603],
+        ...,
+        [-0.0166, -0.1275, -0.1282,  ..., -0.1103, -0.0397,  0.0687],
+        [-0.1255, -0.1065, -0.1106,  ..., -0.0645, -0.0528, -0.0953],
+        [ 0.0236, -0.0276, -0.0615,  ..., -0.0990,  0.0230, -0.0192]],
+       device='cuda:0'), grad: tensor([[-7.9041e-03, -5.9738e-03, -2.5921e-03,  ..., -1.2913e-03,
+         -2.9163e-03,  9.7156e-05],
+        [-4.3607e-04, -1.0729e-03, -8.0442e-04,  ...,  6.5088e-05,
+         -8.7833e-04, -1.8234e-03],
+        [ 5.0783e-04,  7.4577e-04,  5.3883e-04,  ...,  4.9543e-04,
+          1.2052e-04, -6.3956e-05],
+        ...,
+        [-8.5449e-04, -2.5463e-04,  1.8334e-04,  ..., -3.1376e-03,
+          7.1108e-05, -6.3705e-04],
+        [ 2.3804e-03,  1.2712e-03,  6.3610e-04,  ...,  7.1955e-04,
+          9.1219e-04,  2.3651e-04],
+        [ 1.5907e-03,  2.0790e-03,  1.2722e-03,  ...,  7.9679e-04,
+          6.8378e-04,  1.4000e-03]], device='cuda:0')
+Epoch 332, bias, value: tensor([ 0.0072,  0.0042, -0.0032, -0.0158,  0.0076, -0.0128, -0.0131, -0.0180,
+         0.0023,  0.0014], device='cuda:0'), grad: tensor([-0.0397,  0.0112,  0.0165,  0.0187, -0.0160,  0.0177,  0.0037, -0.0227,
+         0.0213, -0.0107], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 331, time 216.67, cls_loss 0.4901 cls_loss_mapping 0.0034 cls_loss_causal 0.4647 re_mapping 0.0057 re_causal 0.0158 /// teacc 98.85 lr 0.00010000
+Epoch 333, weight, value: tensor([[ 0.0382,  0.1118, -0.1702,  ..., -0.0969,  0.0725,  0.0015],
+        [-0.0969, -0.1037,  0.1060,  ..., -0.0460, -0.0997,  0.0530],
+        [-0.0873, -0.0667, -0.1179,  ..., -0.1286, -0.0291,  0.0604],
+        ...,
+        [-0.0160, -0.1282, -0.1284,  ..., -0.1107, -0.0404,  0.0674],
+        [-0.1261, -0.1069, -0.1096,  ..., -0.0650, -0.0529, -0.0951],
+        [ 0.0221, -0.0285, -0.0621,  ..., -0.0998,  0.0216, -0.0187]],
+       device='cuda:0'), grad: tensor([[-3.6907e-04,  9.7789e-09,  2.3260e-07,  ..., -1.5497e-03,
+          4.0627e-04,  1.1083e-06],
+        [ 1.5867e-04,  1.7928e-08, -1.4203e-06,  ...,  4.2409e-05,
+          1.0198e-04,  2.0638e-06],
+        [ 2.2435e-04,  4.3539e-07,  9.2201e-07,  ...,  5.3078e-05,
+          6.9499e-05, -2.1115e-05],
+        ...,
+        [-1.1444e-03,  4.2096e-07,  4.0838e-07,  ...,  8.0645e-05,
+         -1.3418e-03,  6.5006e-06],
+        [-1.3514e-03,  3.9078e-06,  8.2627e-06,  ...,  2.7585e-04,
+         -2.2674e-04,  2.4885e-06],
+        [ 1.7672e-03,  5.3830e-07,  2.3004e-06,  ...,  1.6618e-04,
+          6.0654e-04, -1.5395e-06]], device='cuda:0')
+Epoch 333, bias, value: tensor([ 0.0085,  0.0039, -0.0018, -0.0165,  0.0067, -0.0122, -0.0136, -0.0176,
+         0.0011,  0.0015], device='cuda:0'), grad: tensor([-0.0038, -0.0136, -0.0142,  0.0236, -0.0135,  0.0181,  0.0222, -0.0364,
+        -0.0162,  0.0338], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 332, time 216.47, cls_loss 0.4830 cls_loss_mapping 0.0041 cls_loss_causal 0.4625 re_mapping 0.0053 re_causal 0.0147 /// teacc 98.89 lr 0.00010000
+Epoch 334, weight, value: tensor([[ 0.0381,  0.1127, -0.1718,  ..., -0.0977,  0.0722,  0.0015],
+        [-0.0977, -0.1030,  0.1065,  ..., -0.0461, -0.0998,  0.0541],
+        [-0.0876, -0.0652, -0.1167,  ..., -0.1290, -0.0286,  0.0598],
+        ...,
+        [-0.0162, -0.1271, -0.1294,  ..., -0.1115, -0.0410,  0.0677],
+        [-0.1246, -0.1087, -0.1103,  ..., -0.0649, -0.0534, -0.0950],
+        [ 0.0224, -0.0276, -0.0604,  ..., -0.0999,  0.0217, -0.0192]],
+       device='cuda:0'), grad: tensor([[-7.0724e-03,  1.1606e-03,  3.4833e-04,  ...,  5.5170e-04,
+          3.1638e-04,  7.3814e-04],
+        [ 4.7445e-04,  3.5316e-05,  2.0906e-05,  ...,  2.1055e-05,
+          1.1466e-05,  5.0402e-04],
+        [ 3.4380e-04,  1.6618e-04,  1.2672e-04,  ...,  1.0920e-04,
+          5.6833e-05,  3.1304e-04],
+        ...,
+        [ 4.8804e-04,  1.4067e-04,  5.1141e-05,  ...,  7.3791e-05,
+          4.5747e-05,  3.5262e-04],
+        [-3.1424e-04,  4.6611e-04,  1.5831e-04,  ...,  2.5344e-04,
+          1.7011e-04, -1.1072e-03],
+        [ 1.6766e-03,  1.4324e-03,  4.1318e-04,  ...,  7.2193e-04,
+          4.6825e-04,  8.2779e-04]], device='cuda:0')
+Epoch 334, bias, value: tensor([ 0.0076,  0.0049, -0.0024, -0.0172,  0.0073, -0.0129, -0.0124, -0.0175,
+         0.0006,  0.0022], device='cuda:0'), grad: tensor([ 0.0100,  0.0212,  0.0159, -0.0450, -0.0798,  0.0258,  0.0397,  0.0238,
+        -0.0414,  0.0298], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 333, time 216.74, cls_loss 0.4742 cls_loss_mapping 0.0033 cls_loss_causal 0.4586 re_mapping 0.0056 re_causal 0.0149 /// teacc 98.91 lr 0.00010000
+Epoch 335, weight, value: tensor([[ 0.0388,  0.1131, -0.1722,  ..., -0.0976,  0.0726,  0.0018],
+        [-0.1000, -0.1040,  0.1070,  ..., -0.0458, -0.1008,  0.0535],
+        [-0.0885, -0.0660, -0.1179,  ..., -0.1290, -0.0281,  0.0608],
+        ...,
+        [-0.0151, -0.1279, -0.1292,  ..., -0.1128, -0.0419,  0.0679],
+        [-0.1233, -0.1088, -0.1095,  ..., -0.0655, -0.0537, -0.0955],
+        [ 0.0217, -0.0278, -0.0603,  ..., -0.1008,  0.0214, -0.0204]],
+       device='cuda:0'), grad: tensor([[ 1.1940e-03,  7.8604e-06,  7.1712e-08,  ...,  4.4674e-05,
+          3.5667e-04, -7.7486e-04],
+        [-9.7609e-04, -1.0576e-03,  4.3772e-08,  ...,  4.0680e-06,
+         -2.3956e-03, -4.9896e-03],
+        [-2.1072e-02,  2.0862e-05,  3.4831e-07,  ..., -8.4543e-04,
+         -1.0424e-03, -2.8687e-03],
+        ...,
+        [ 1.9188e-03,  8.1825e-04,  4.2934e-07,  ...,  7.5400e-06,
+          1.7071e-03,  3.5572e-03],
+        [ 2.0695e-03,  3.1561e-05,  1.8448e-05,  ...,  2.6196e-05,
+          3.4761e-04,  1.5078e-03],
+        [ 1.2569e-03,  6.2168e-05, -4.7125e-06,  ...,  3.3796e-05,
+          2.3830e-04,  9.8038e-04]], device='cuda:0')
+Epoch 335, bias, value: tensor([ 0.0087,  0.0044, -0.0020, -0.0173,  0.0074, -0.0125, -0.0135, -0.0184,
+         0.0013,  0.0020], device='cuda:0'), grad: tensor([-0.0123, -0.0770, -0.0456,  0.0165,  0.0144,  0.0093,  0.0251,  0.0381,
+         0.0178,  0.0137], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 334, time 216.33, cls_loss 0.4964 cls_loss_mapping 0.0050 cls_loss_causal 0.4772 re_mapping 0.0060 re_causal 0.0162 /// teacc 98.75 lr 0.00010000
+Epoch 336, weight, value: tensor([[ 0.0377,  0.1123, -0.1745,  ..., -0.0986,  0.0711,  0.0014],
+        [-0.0998, -0.1036,  0.1071,  ..., -0.0459, -0.1015,  0.0525],
+        [-0.0883, -0.0655, -0.1176,  ..., -0.1289, -0.0272,  0.0612],
+        ...,
+        [-0.0149, -0.1289, -0.1288,  ..., -0.1140, -0.0423,  0.0671],
+        [-0.1233, -0.1085, -0.1087,  ..., -0.0645, -0.0536, -0.0940],
+        [ 0.0223, -0.0261, -0.0599,  ..., -0.1003,  0.0224, -0.0209]],
+       device='cuda:0'), grad: tensor([[ 7.4530e-04,  1.0449e-04,  2.2173e-05,  ...,  2.2292e-04,
+          6.5982e-05,  7.4720e-04],
+        [ 9.2936e-04,  1.9813e-04, -1.2197e-05,  ...,  4.8339e-05,
+          1.1981e-04,  3.4256e-03],
+        [-3.0899e-03, -1.0180e-04, -1.8811e-04,  ...,  5.2065e-05,
+         -6.2418e-04,  3.9053e-04],
+        ...,
+        [-1.5795e-04, -1.4949e-04,  2.6417e-04,  ..., -1.0991e-04,
+         -7.0453e-05, -6.7101e-03],
+        [-3.3188e-03,  2.6554e-05,  3.4243e-05,  ..., -7.9334e-05,
+         -3.4404e-04, -1.9464e-03],
+        [-1.1027e-04, -1.2369e-03, -5.7602e-04,  ...,  4.1425e-05,
+          1.2410e-04,  1.0509e-03]], device='cuda:0')
+Epoch 336, bias, value: tensor([ 0.0076,  0.0051, -0.0032, -0.0170,  0.0074, -0.0117, -0.0131, -0.0174,
+         0.0008,  0.0016], device='cuda:0'), grad: tensor([ 0.0114,  0.0268, -0.0120,  0.0311,  0.0097,  0.0130,  0.0100, -0.0421,
+        -0.0494,  0.0015], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 335, time 216.32, cls_loss 0.4917 cls_loss_mapping 0.0047 cls_loss_causal 0.4706 re_mapping 0.0062 re_causal 0.0165 /// teacc 98.92 lr 0.00010000
+Epoch 337, weight, value: tensor([[ 0.0384,  0.1131, -0.1750,  ..., -0.0989,  0.0715, -0.0004],
+        [-0.0995, -0.1034,  0.1079,  ..., -0.0448, -0.1013,  0.0541],
+        [-0.0890, -0.0671, -0.1179,  ..., -0.1277, -0.0272,  0.0611],
+        ...,
+        [-0.0127, -0.1272, -0.1291,  ..., -0.1140, -0.0425,  0.0673],
+        [-0.1244, -0.1081, -0.1085,  ..., -0.0649, -0.0541, -0.0948],
+        [ 0.0214, -0.0275, -0.0607,  ..., -0.0997,  0.0217, -0.0211]],
+       device='cuda:0'), grad: tensor([[ 5.8031e-04,  1.1530e-03,  1.6950e-06,  ...,  2.1413e-05,
+          9.4399e-06,  3.1900e-04],
+        [ 1.0842e-04,  3.9846e-05, -1.9893e-05,  ...,  5.3644e-07,
+          6.6496e-07,  5.1308e-04],
+        [ 4.4250e-04,  8.6427e-05,  4.4331e-06,  ...,  3.6538e-05,
+          3.5971e-05,  1.1740e-03],
+        ...,
+        [ 2.7657e-04,  4.3303e-05,  2.0396e-06,  ...,  2.2957e-07,
+          2.0415e-05, -4.1466e-03],
+        [-1.5707e-03, -3.4714e-03,  1.8716e-05,  ...,  3.8594e-06,
+          3.9972e-06,  3.7289e-04],
+        [ 1.5287e-03,  6.4421e-04,  1.1185e-06,  ...,  3.5036e-06,
+         -1.2614e-05,  3.5691e-04]], device='cuda:0')
+Epoch 337, bias, value: tensor([ 0.0069,  0.0053, -0.0034, -0.0159,  0.0062, -0.0122, -0.0122, -0.0170,
+         0.0012,  0.0010], device='cuda:0'), grad: tensor([ 0.0203,  0.0215,  0.0175, -0.0179,  0.0107, -0.0019, -0.0158, -0.0390,
+        -0.0178,  0.0224], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 336, time 216.46, cls_loss 0.4875 cls_loss_mapping 0.0039 cls_loss_causal 0.4708 re_mapping 0.0059 re_causal 0.0148 /// teacc 98.85 lr 0.00010000
+Epoch 338, weight, value: tensor([[ 0.0380,  0.1134, -0.1756,  ..., -0.0983,  0.0713,  0.0003],
+        [-0.1000, -0.1022,  0.1076,  ..., -0.0453, -0.1015,  0.0534],
+        [-0.0888, -0.0671, -0.1183,  ..., -0.1295, -0.0274,  0.0615],
+        ...,
+        [-0.0129, -0.1287, -0.1294,  ..., -0.1152, -0.0419,  0.0668],
+        [-0.1231, -0.1080, -0.1084,  ..., -0.0639, -0.0539, -0.0960],
+        [ 0.0206, -0.0277, -0.0617,  ..., -0.0997,  0.0220, -0.0200]],
+       device='cuda:0'), grad: tensor([[ 7.2861e-04,  5.1498e-05,  1.3888e-05,  ...,  4.0364e-04,
+          4.9844e-06,  5.7602e-04],
+        [ 1.2398e-03,  3.0518e-05,  2.4140e-05,  ...,  6.9761e-04,
+          1.0557e-05,  1.2341e-03],
+        [ 6.8712e-04,  3.6031e-05,  1.5318e-05,  ...,  1.4763e-03,
+          4.8466e-06,  2.8629e-03],
+        ...,
+        [ 1.4818e-04,  6.7875e-06,  1.1988e-05,  ...,  2.2926e-03,
+          3.4988e-05,  4.1618e-03],
+        [ 3.9172e-04, -2.3422e-03, -1.0929e-03,  ...,  6.0558e-04,
+          1.5482e-05,  2.7347e-04],
+        [-1.9016e-03,  3.3289e-05, -6.6757e-05,  ..., -3.4370e-03,
+         -1.1796e-04, -8.6670e-03]], device='cuda:0')
+Epoch 338, bias, value: tensor([ 0.0073,  0.0050, -0.0041, -0.0155,  0.0059, -0.0116, -0.0124, -0.0167,
+         0.0009,  0.0012], device='cuda:0'), grad: tensor([ 1.8555e-02, -2.3518e-03,  2.7847e-02,  2.9716e-03,  1.5556e-02,
+        -2.2049e-02,  7.1883e-05,  1.2611e-02, -1.8478e-02, -3.4698e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 337, time 216.63, cls_loss 0.4849 cls_loss_mapping 0.0041 cls_loss_causal 0.4539 re_mapping 0.0063 re_causal 0.0161 /// teacc 98.81 lr 0.00010000
+Epoch 339, weight, value: tensor([[ 0.0384,  0.1159, -0.1741,  ..., -0.0978,  0.0713,  0.0022],
+        [-0.1005, -0.1022,  0.1072,  ..., -0.0447, -0.1023,  0.0526],
+        [-0.0890, -0.0664, -0.1185,  ..., -0.1294, -0.0277,  0.0617],
+        ...,
+        [-0.0129, -0.1284, -0.1297,  ..., -0.1147, -0.0417,  0.0663],
+        [-0.1243, -0.1095, -0.1096,  ..., -0.0649, -0.0549, -0.0960],
+        [ 0.0219, -0.0278, -0.0629,  ..., -0.0993,  0.0220, -0.0197]],
+       device='cuda:0'), grad: tensor([[ 2.4242e-03, -5.9366e-05,  7.8058e-04,  ...,  4.9591e-04,
+         -2.5719e-05, -4.6229e-04],
+        [-9.0647e-04,  4.1455e-05,  8.0109e-04,  ...,  4.3154e-04,
+         -1.7166e-05,  3.4404e-04],
+        [-1.8597e-04,  2.2024e-05,  1.1438e-04,  ...,  1.4353e-04,
+         -1.7166e-05, -1.0271e-03],
+        ...,
+        [-2.2869e-03,  1.2092e-05,  2.2620e-05,  ...,  1.2301e-05,
+         -1.4174e-04, -1.0862e-03],
+        [ 2.5463e-03,  3.1173e-05,  7.3624e-04,  ...,  1.0943e-04,
+          5.3227e-05,  7.8058e-04],
+        [-3.9520e-03,  3.6061e-05,  1.2541e-04,  ...,  7.1704e-05,
+          4.5568e-05,  8.1921e-04]], device='cuda:0')
+Epoch 339, bias, value: tensor([ 8.0922e-03,  5.2635e-03, -3.6541e-03, -1.6177e-02,  5.7349e-03,
+        -1.1812e-02, -1.2846e-02, -1.8082e-02,  8.0180e-05,  3.3521e-03],
+       device='cuda:0'), grad: tensor([-0.0147, -0.0471, -0.0083, -0.0311,  0.0443, -0.0061,  0.0349, -0.0298,
+         0.0325,  0.0253], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 338, time 216.46, cls_loss 0.4720 cls_loss_mapping 0.0030 cls_loss_causal 0.4482 re_mapping 0.0061 re_causal 0.0158 /// teacc 98.80 lr 0.00010000
+Epoch 340, weight, value: tensor([[ 0.0382,  0.1170, -0.1742,  ..., -0.0989,  0.0716,  0.0025],
+        [-0.1000, -0.1020,  0.1074,  ..., -0.0457, -0.1026,  0.0515],
+        [-0.0889, -0.0676, -0.1188,  ..., -0.1291, -0.0275,  0.0621],
+        ...,
+        [-0.0130, -0.1300, -0.1307,  ..., -0.1147, -0.0419,  0.0668],
+        [-0.1240, -0.1105, -0.1090,  ..., -0.0633, -0.0547, -0.0956],
+        [ 0.0199, -0.0287, -0.0621,  ..., -0.1000,  0.0206, -0.0204]],
+       device='cuda:0'), grad: tensor([[ 9.2983e-04, -2.1207e-04,  1.7229e-08,  ..., -8.0094e-06,
+          1.3542e-04,  3.2163e-04],
+        [ 1.7157e-03,  1.0848e-04,  0.0000e+00,  ...,  4.6074e-05,
+          5.2166e-04,  1.5640e-03],
+        [ 1.6022e-03,  9.2089e-05,  4.1910e-09,  ...,  8.6352e-06,
+          2.4676e-04,  6.8617e-04],
+        ...,
+        [ 1.1024e-03,  7.4029e-05,  0.0000e+00,  ...,  1.5028e-05,
+          3.0828e-04, -7.4720e-04],
+        [-2.4586e-03, -4.4584e-04,  2.6403e-07,  ...,  3.9577e-05,
+         -1.3123e-03,  1.0204e-04],
+        [ 8.6451e-04,  8.3148e-05,  9.3132e-10,  ...,  1.9893e-05,
+          6.8855e-04,  7.0381e-04]], device='cuda:0')
+Epoch 340, bias, value: tensor([ 0.0077,  0.0056, -0.0033, -0.0174,  0.0064, -0.0121, -0.0123, -0.0186,
+         0.0004,  0.0035], device='cuda:0'), grad: tensor([ 0.0207,  0.0239,  0.0283, -0.0464, -0.0615,  0.0114,  0.0226,  0.0205,
+        -0.0095, -0.0100], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 339, time 216.40, cls_loss 0.4965 cls_loss_mapping 0.0045 cls_loss_causal 0.4721 re_mapping 0.0063 re_causal 0.0157 /// teacc 98.82 lr 0.00010000
+Epoch 341, weight, value: tensor([[ 0.0373,  0.1170, -0.1758,  ..., -0.0991,  0.0697,  0.0030],
+        [-0.1005, -0.1003,  0.1082,  ..., -0.0458, -0.1017,  0.0511],
+        [-0.0890, -0.0677, -0.1194,  ..., -0.1290, -0.0269,  0.0624],
+        ...,
+        [-0.0127, -0.1285, -0.1312,  ..., -0.1151, -0.0414,  0.0671],
+        [-0.1238, -0.1104, -0.1097,  ..., -0.0647, -0.0542, -0.0964],
+        [ 0.0202, -0.0284, -0.0629,  ..., -0.0981,  0.0227, -0.0205]],
+       device='cuda:0'), grad: tensor([[ 5.6648e-04,  2.2089e-04,  5.7578e-05,  ...,  8.4890e-07,
+          2.1422e-04,  2.5439e-04],
+        [ 1.0424e-03,  2.1744e-03,  2.1095e-03,  ...,  7.4530e-04,
+         -3.0375e-04,  1.1425e-03],
+        [ 1.2083e-03,  1.0805e-03,  7.8058e-04,  ...,  5.1439e-05,
+          2.4557e-04,  6.3181e-04],
+        ...,
+        [-1.5364e-03,  1.1045e-04,  1.4625e-05,  ...,  6.3097e-07,
+         -9.4296e-07, -1.5650e-03],
+        [ 5.1165e-04,  4.1866e-04,  2.6011e-04,  ...,  3.5839e-03,
+          1.8978e-04,  1.8656e-04],
+        [ 1.6842e-03,  3.7336e-04,  1.6391e-04,  ...,  2.2631e-07,
+          5.7411e-04, -8.2874e-04]], device='cuda:0')
+Epoch 341, bias, value: tensor([ 0.0079,  0.0056, -0.0025, -0.0160,  0.0060, -0.0128, -0.0127, -0.0191,
+         0.0003,  0.0031], device='cuda:0'), grad: tensor([-0.0191, -0.0029,  0.0208, -0.0002,  0.0190,  0.0033, -0.0333, -0.0175,
+         0.0294,  0.0004], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 340, time 216.41, cls_loss 0.4892 cls_loss_mapping 0.0030 cls_loss_causal 0.4639 re_mapping 0.0058 re_causal 0.0159 /// teacc 98.96 lr 0.00010000
+Epoch 342, weight, value: tensor([[ 0.0379,  0.1166, -0.1766,  ..., -0.0974,  0.0698,  0.0038],
+        [-0.0998, -0.1006,  0.1088,  ..., -0.0456, -0.1009,  0.0511],
+        [-0.0905, -0.0682, -0.1200,  ..., -0.1298, -0.0273,  0.0625],
+        ...,
+        [-0.0129, -0.1287, -0.1309,  ..., -0.1149, -0.0418,  0.0668],
+        [-0.1242, -0.1115, -0.1092,  ..., -0.0652, -0.0564, -0.0967],
+        [ 0.0215, -0.0274, -0.0639,  ..., -0.0960,  0.0242, -0.0200]],
+       device='cuda:0'), grad: tensor([[ 2.3854e-04,  1.3737e-06,  1.6391e-07,  ...,  3.2596e-08,
+          5.6893e-05,  9.9652e-07],
+        [ 2.5690e-05,  3.3051e-05, -3.2205e-06,  ...,  1.0245e-08,
+          6.4182e-04,  2.4390e-04],
+        [ 3.8338e-04,  1.4770e-04,  6.8219e-07,  ...,  6.4261e-08,
+          1.6403e-04,  4.0588e-03],
+        ...,
+        [ 1.0371e-04,  2.8133e-05, -1.0473e-04,  ...,  2.0862e-07,
+          4.0621e-05, -4.4746e-03],
+        [ 6.0225e-04,  5.7332e-06,  3.0287e-06,  ...,  4.1770e-07,
+          1.3196e-04,  1.3709e-04],
+        [-3.0060e-03, -6.4634e-06,  5.2541e-05,  ...,  6.0536e-09,
+         -6.0415e-04,  8.2076e-05]], device='cuda:0')
+Epoch 342, bias, value: tensor([ 0.0073,  0.0063, -0.0028, -0.0158,  0.0065, -0.0118, -0.0134, -0.0192,
+        -0.0005,  0.0032], device='cuda:0'), grad: tensor([ 0.0126,  0.0358,  0.0096,  0.0191, -0.0637,  0.0143,  0.0147, -0.0236,
+        -0.0148, -0.0040], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 341, time 216.75, cls_loss 0.4662 cls_loss_mapping 0.0054 cls_loss_causal 0.4397 re_mapping 0.0060 re_causal 0.0158 /// teacc 98.88 lr 0.00010000
+Epoch 343, weight, value: tensor([[ 0.0376,  0.1167, -0.1762,  ..., -0.0963,  0.0700,  0.0036],
+        [-0.1000, -0.1014,  0.1097,  ..., -0.0447, -0.1013,  0.0501],
+        [-0.0907, -0.0682, -0.1196,  ..., -0.1296, -0.0274,  0.0619],
+        ...,
+        [-0.0123, -0.1280, -0.1322,  ..., -0.1148, -0.0417,  0.0685],
+        [-0.1245, -0.1113, -0.1095,  ..., -0.0653, -0.0572, -0.0974],
+        [ 0.0215, -0.0273, -0.0646,  ..., -0.0968,  0.0239, -0.0204]],
+       device='cuda:0'), grad: tensor([[ 3.0327e-04, -1.1183e-05,  1.5080e-05,  ...,  3.4332e-05,
+         -3.8218e-04,  1.1754e-04],
+        [ 3.5334e-04,  1.1856e-06,  9.7379e-06,  ...,  2.4855e-05,
+          2.9895e-06,  1.3614e-04],
+        [ 3.2187e-04,  8.1882e-06,  1.5274e-05,  ...,  2.1115e-05,
+          1.1645e-05,  1.2741e-03],
+        ...,
+        [ 5.2547e-04,  1.0006e-05,  9.4697e-06,  ...,  1.1526e-05,
+          8.2329e-06, -9.9373e-04],
+        [ 5.1689e-04,  1.3031e-05,  4.2528e-05,  ...,  4.5091e-05,
+          7.3053e-06,  2.0945e-04],
+        [ 9.1124e-04, -1.2890e-05, -1.7121e-05,  ...,  2.3872e-05,
+          8.0615e-06,  3.5214e-04]], device='cuda:0')
+Epoch 343, bias, value: tensor([ 0.0075,  0.0062, -0.0024, -0.0154,  0.0063, -0.0131, -0.0127, -0.0181,
+        -0.0008,  0.0024], device='cuda:0'), grad: tensor([-0.0268,  0.0053,  0.0055,  0.0046,  0.0068, -0.0265,  0.0087,  0.0047,
+         0.0080,  0.0096], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 342, time 216.72, cls_loss 0.5028 cls_loss_mapping 0.0038 cls_loss_causal 0.4771 re_mapping 0.0059 re_causal 0.0154 /// teacc 98.88 lr 0.00010000
+Epoch 344, weight, value: tensor([[ 0.0366,  0.1175, -0.1750,  ..., -0.0969,  0.0706,  0.0027],
+        [-0.0995, -0.1019,  0.1109,  ..., -0.0438, -0.1010,  0.0500],
+        [-0.0910, -0.0671, -0.1207,  ..., -0.1287, -0.0268,  0.0616],
+        ...,
+        [-0.0128, -0.1279, -0.1334,  ..., -0.1151, -0.0419,  0.0686],
+        [-0.1249, -0.1125, -0.1100,  ..., -0.0654, -0.0573, -0.0963],
+        [ 0.0219, -0.0274, -0.0635,  ..., -0.0984,  0.0229, -0.0208]],
+       device='cuda:0'), grad: tensor([[ 9.8050e-05, -1.0383e-04,  1.0574e-04,  ..., -1.2153e-04,
+         -1.1548e-06,  3.2425e-05],
+        [ 3.9434e-04,  1.1164e-04,  1.7679e-04,  ...,  5.5432e-05,
+          1.8626e-08,  1.6177e-04],
+        [ 4.2295e-04,  7.1883e-05, -3.1042e-04,  ...,  2.9016e-04,
+          9.6206e-07,  1.2398e-04],
+        ...,
+        [-2.5444e-03, -8.9312e-04,  8.7619e-05,  ...,  2.3767e-05,
+         -1.0710e-06, -1.3914e-03],
+        [ 3.0422e-04,  7.3254e-05,  2.3234e-04,  ...,  1.9538e-04,
+          2.9728e-06,  7.7188e-05],
+        [ 1.9627e-03,  1.5867e-04,  8.8155e-05,  ...,  4.1425e-05,
+          2.5660e-05,  2.4986e-04]], device='cuda:0')
+Epoch 344, bias, value: tensor([ 0.0079,  0.0059, -0.0032, -0.0156,  0.0062, -0.0117, -0.0132, -0.0188,
+        -0.0005,  0.0031], device='cuda:0'), grad: tensor([ 0.0098,  0.0003, -0.0144,  0.0363,  0.0120, -0.0149, -0.0552, -0.0097,
+         0.0180,  0.0178], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 343, time 216.49, cls_loss 0.4699 cls_loss_mapping 0.0029 cls_loss_causal 0.4491 re_mapping 0.0059 re_causal 0.0144 /// teacc 98.90 lr 0.00010000
+Epoch 345, weight, value: tensor([[ 0.0372,  0.1185, -0.1752,  ..., -0.0967,  0.0714,  0.0020],
+        [-0.0993, -0.1035,  0.1118,  ..., -0.0435, -0.1014,  0.0511],
+        [-0.0919, -0.0668, -0.1209,  ..., -0.1290, -0.0271,  0.0616],
+        ...,
+        [-0.0125, -0.1284, -0.1344,  ..., -0.1145, -0.0420,  0.0690],
+        [-0.1258, -0.1134, -0.1100,  ..., -0.0662, -0.0577, -0.0981],
+        [ 0.0223, -0.0265, -0.0636,  ..., -0.0987,  0.0231, -0.0210]],
+       device='cuda:0'), grad: tensor([[ 1.4601e-03, -1.3232e-04,  8.9586e-05,  ...,  5.7220e-06,
+          1.3411e-04,  6.2323e-04],
+        [ 1.4744e-03,  5.4315e-06,  3.0413e-05,  ...,  6.7987e-08,
+          2.2578e-04,  9.0361e-04],
+        [ 1.5202e-03,  3.1400e-04,  5.7793e-04,  ...,  5.5656e-06,
+          3.1400e-04,  1.0481e-03],
+        ...,
+        [-4.7989e-03,  1.0662e-05, -1.9848e-04,  ...,  2.8545e-07,
+         -1.5297e-03, -6.4812e-03],
+        [ 9.9277e-04, -9.7609e-04, -1.7424e-03,  ..., -3.6567e-05,
+          1.2708e-04,  5.0831e-04],
+        [ 9.5320e-04,  1.7822e-04,  1.8549e-04,  ...,  4.1164e-07,
+          1.1730e-04,  5.6887e-04]], device='cuda:0')
+Epoch 345, bias, value: tensor([ 0.0076,  0.0058, -0.0028, -0.0166,  0.0069, -0.0124, -0.0122, -0.0189,
+        -0.0013,  0.0039], device='cuda:0'), grad: tensor([-0.0176,  0.0196,  0.0222, -0.0381,  0.0150, -0.0480,  0.0212, -0.0224,
+         0.0315,  0.0166], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 344, time 216.64, cls_loss 0.4596 cls_loss_mapping 0.0030 cls_loss_causal 0.4373 re_mapping 0.0060 re_causal 0.0158 /// teacc 98.73 lr 0.00010000
+Epoch 346, weight, value: tensor([[ 0.0369,  0.1190, -0.1760,  ..., -0.0971,  0.0709,  0.0018],
+        [-0.0989, -0.1021,  0.1139,  ..., -0.0444, -0.1011,  0.0502],
+        [-0.0933, -0.0662, -0.1211,  ..., -0.1292, -0.0280,  0.0619],
+        ...,
+        [-0.0117, -0.1282, -0.1339,  ..., -0.1148, -0.0419,  0.0689],
+        [-0.1266, -0.1130, -0.1108,  ..., -0.0662, -0.0585, -0.0974],
+        [ 0.0226, -0.0271, -0.0635,  ..., -0.0991,  0.0223, -0.0206]],
+       device='cuda:0'), grad: tensor([[ 3.4428e-03,  1.0192e-04,  3.3522e-04,  ...,  5.4576e-06,
+          5.2929e-04,  1.2410e-04],
+        [ 9.1219e-04,  4.0770e-04,  1.1110e-03,  ...,  2.3276e-05,
+          2.8348e-04,  4.3750e-04],
+        [-1.9093e-03, -1.2484e-03, -1.5707e-03,  ...,  1.2241e-05,
+         -4.9019e-04, -1.6956e-03],
+        ...,
+        [ 6.1417e-03,  3.4881e-04,  9.3842e-04,  ...,  9.6112e-06,
+          2.3794e-04,  7.2956e-04],
+        [-1.4758e-04,  2.5511e-04,  8.8596e-04,  ...,  8.6725e-06,
+          2.0301e-04,  3.9601e-04],
+        [-5.9052e-03,  4.0889e-04, -1.5402e-03,  ...,  1.3679e-05,
+          2.8372e-04, -3.6669e-04]], device='cuda:0')
+Epoch 346, bias, value: tensor([ 0.0074,  0.0063, -0.0020, -0.0168,  0.0063, -0.0121, -0.0133, -0.0193,
+        -0.0013,  0.0047], device='cuda:0'), grad: tensor([ 0.0207,  0.0163, -0.0148, -0.0059, -0.0084, -0.0159,  0.0270,  0.0300,
+        -0.0190, -0.0301], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 345, time 216.78, cls_loss 0.5084 cls_loss_mapping 0.0036 cls_loss_causal 0.4790 re_mapping 0.0059 re_causal 0.0157 /// teacc 98.89 lr 0.00010000
+Epoch 347, weight, value: tensor([[ 0.0386,  0.1174, -0.1765,  ..., -0.0978,  0.0712,  0.0021],
+        [-0.0979, -0.1022,  0.1135,  ..., -0.0457, -0.1017,  0.0502],
+        [-0.0937, -0.0662, -0.1227,  ..., -0.1311, -0.0287,  0.0612],
+        ...,
+        [-0.0123, -0.1275, -0.1313,  ..., -0.1115, -0.0411,  0.0692],
+        [-0.1269, -0.1123, -0.1111,  ..., -0.0647, -0.0594, -0.0966],
+        [ 0.0221, -0.0278, -0.0646,  ..., -0.1008,  0.0226, -0.0217]],
+       device='cuda:0'), grad: tensor([[-4.4556e-03,  3.5251e-07, -6.4898e-04,  ..., -1.0860e-04,
+         -9.3365e-04, -2.4776e-03],
+        [ 9.3412e-04,  2.3469e-07,  2.9397e-04,  ...,  3.6299e-05,
+          9.0718e-05,  6.7186e-04],
+        [ 6.7329e-04,  7.8836e-07, -2.0397e-04,  ..., -1.2048e-05,
+          7.3195e-05,  3.2806e-04],
+        ...,
+        [-1.0357e-03,  8.0187e-07,  1.7118e-04,  ...,  2.1830e-05,
+          8.2552e-05, -1.6470e-03],
+        [ 1.5802e-03,  7.4040e-07,  1.2529e-04,  ...,  1.7107e-05,
+          7.5340e-05,  4.5180e-04],
+        [ 2.0180e-03, -3.9674e-06, -2.2733e-04,  ...,  7.2829e-06,
+          8.4937e-05,  8.5402e-04]], device='cuda:0')
+Epoch 347, bias, value: tensor([ 0.0083,  0.0065, -0.0030, -0.0164,  0.0079, -0.0124, -0.0135, -0.0191,
+        -0.0014,  0.0032], device='cuda:0'), grad: tensor([-0.0419,  0.0231, -0.0180,  0.0210,  0.0041,  0.0084, -0.0107, -0.0060,
+         0.0237, -0.0037], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 346, time 216.74, cls_loss 0.4779 cls_loss_mapping 0.0032 cls_loss_causal 0.4525 re_mapping 0.0056 re_causal 0.0148 /// teacc 98.70 lr 0.00010000
+Epoch 348, weight, value: tensor([[ 0.0380,  0.1169, -0.1788,  ..., -0.0980,  0.0720,  0.0014],
+        [-0.0981, -0.0998,  0.1142,  ..., -0.0456, -0.1011,  0.0491],
+        [-0.0930, -0.0672, -0.1232,  ..., -0.1319, -0.0283,  0.0622],
+        ...,
+        [-0.0125, -0.1273, -0.1318,  ..., -0.1090, -0.0415,  0.0692],
+        [-0.1272, -0.1127, -0.1126,  ..., -0.0656, -0.0615, -0.0971],
+        [ 0.0210, -0.0286, -0.0628,  ..., -0.1006,  0.0218, -0.0209]],
+       device='cuda:0'), grad: tensor([[ 1.1343e-04, -1.8489e-04,  9.8720e-07,  ...,  8.8150e-07,
+         -2.3580e-04,  2.8801e-04],
+        [ 3.0208e-04,  2.2333e-06, -9.2089e-06,  ...,  3.1665e-08,
+          7.4990e-06,  8.0013e-04],
+        [ 4.6945e-04,  5.3942e-06,  8.5160e-06,  ...,  8.6334e-07,
+          2.2352e-05,  5.2309e-04],
+        ...,
+        [ 1.2922e-03,  3.7607e-06,  4.5449e-06,  ...,  1.8626e-08,
+          1.9893e-05,  9.5606e-04],
+        [ 4.7183e-04,  4.5970e-06,  6.1318e-06,  ..., -2.5369e-06,
+          3.5167e-05,  7.2050e-04],
+        [-1.0166e-03,  7.3463e-06,  2.0582e-06,  ...,  1.1735e-07,
+          1.4476e-05, -4.1122e-03]], device='cuda:0')
+Epoch 348, bias, value: tensor([ 0.0079,  0.0065, -0.0028, -0.0160,  0.0078, -0.0125, -0.0133, -0.0194,
+        -0.0019,  0.0035], device='cuda:0'), grad: tensor([ 0.0048,  0.0133,  0.0088,  0.0074, -0.0007,  0.0075,  0.0087, -0.0111,
+         0.0114, -0.0501], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 347, time 216.80, cls_loss 0.4579 cls_loss_mapping 0.0026 cls_loss_causal 0.4312 re_mapping 0.0057 re_causal 0.0155 /// teacc 98.77 lr 0.00010000
+Epoch 349, weight, value: tensor([[ 0.0372,  0.1157, -0.1794,  ..., -0.0979,  0.0711,  0.0024],
+        [-0.0980, -0.0986,  0.1152,  ..., -0.0458, -0.1014,  0.0489],
+        [-0.0929, -0.0675, -0.1225,  ..., -0.1318, -0.0272,  0.0626],
+        ...,
+        [-0.0127, -0.1274, -0.1329,  ..., -0.1091, -0.0424,  0.0693],
+        [-0.1273, -0.1129, -0.1128,  ..., -0.0669, -0.0612, -0.0978],
+        [ 0.0224, -0.0267, -0.0613,  ..., -0.1003,  0.0238, -0.0201]],
+       device='cuda:0'), grad: tensor([[ 2.7823e-04,  3.9861e-07,  2.2399e-04,  ...,  3.4750e-05,
+          4.3899e-05,  1.7703e-04],
+        [ 4.4870e-04, -7.5847e-06, -1.8616e-03,  ..., -3.0112e-04,
+          1.1414e-04, -4.7922e-04],
+        [-7.4482e-04,  5.1484e-06,  2.5892e-04,  ...,  4.6521e-05,
+          8.3268e-05, -2.3758e-04],
+        ...,
+        [-3.3607e-03,  3.8929e-06,  5.0926e-04,  ...,  4.1962e-05,
+          9.0301e-05, -9.7809e-03],
+        [ 8.3923e-04, -1.1519e-05,  6.2275e-04,  ...,  2.9850e-04,
+          8.8811e-05,  8.4829e-04],
+        [ 4.2458e-03,  7.4245e-06,  4.2009e-04,  ...,  4.5985e-05,
+          9.9599e-05,  9.8801e-03]], device='cuda:0')
+Epoch 349, bias, value: tensor([ 0.0091,  0.0064, -0.0033, -0.0160,  0.0080, -0.0118, -0.0145, -0.0199,
+        -0.0019,  0.0040], device='cuda:0'), grad: tensor([ 0.0135, -0.0348, -0.0062,  0.0172,  0.0157, -0.0175, -0.0168, -0.0385,
+         0.0211,  0.0464], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 348, time 216.82, cls_loss 0.4902 cls_loss_mapping 0.0045 cls_loss_causal 0.4576 re_mapping 0.0055 re_causal 0.0149 /// teacc 98.75 lr 0.00010000
+Epoch 350, weight, value: tensor([[ 0.0371,  0.1162, -0.1796,  ..., -0.0983,  0.0714,  0.0023],
+        [-0.0987, -0.0992,  0.1143,  ..., -0.0471, -0.1029,  0.0493],
+        [-0.0925, -0.0683, -0.1228,  ..., -0.1331, -0.0272,  0.0626],
+        ...,
+        [-0.0133, -0.1270, -0.1333,  ..., -0.1088, -0.0433,  0.0701],
+        [-0.1266, -0.1136, -0.1131,  ..., -0.0667, -0.0606, -0.0978],
+        [ 0.0227, -0.0267, -0.0606,  ..., -0.1009,  0.0239, -0.0218]],
+       device='cuda:0'), grad: tensor([[-7.3528e-04, -1.7891e-03,  2.7463e-05,  ...,  1.0088e-05,
+         -4.5753e-04,  4.2200e-04],
+        [ 1.0681e-04,  3.2663e-04,  7.3242e-04,  ...,  4.6939e-05,
+          1.2387e-07,  5.5218e-04],
+        [ 5.0497e-04,  7.8619e-05,  8.2314e-05,  ...,  7.1563e-06,
+          5.6885e-06,  1.4150e-04],
+        ...,
+        [ 5.2595e-04,  3.4142e-04,  2.2399e-04,  ...,  5.0478e-06,
+          2.9549e-05,  3.9053e-04],
+        [ 2.0611e-04, -3.1433e-03, -2.3956e-03,  ...,  6.4969e-05,
+          6.2108e-05,  3.7384e-04],
+        [-4.8232e-04,  1.9562e-04,  8.4758e-05,  ...,  2.8223e-05,
+         -1.4022e-05,  1.5461e-04]], device='cuda:0')
+Epoch 350, bias, value: tensor([ 0.0093,  0.0050, -0.0040, -0.0148,  0.0089, -0.0114, -0.0147, -0.0189,
+        -0.0023,  0.0030], device='cuda:0'), grad: tensor([ 0.0072,  0.0120,  0.0113,  0.0383,  0.0040, -0.0088, -0.0218, -0.0164,
+        -0.0029, -0.0231], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 349, time 216.82, cls_loss 0.4664 cls_loss_mapping 0.0028 cls_loss_causal 0.4387 re_mapping 0.0059 re_causal 0.0161 /// teacc 98.78 lr 0.00010000
+Epoch 351, weight, value: tensor([[ 0.0379,  0.1164, -0.1802,  ..., -0.0985,  0.0724,  0.0022],
+        [-0.0992, -0.0982,  0.1152,  ..., -0.0465, -0.1025,  0.0495],
+        [-0.0932, -0.0681, -0.1226,  ..., -0.1336, -0.0276,  0.0645],
+        ...,
+        [-0.0136, -0.1277, -0.1334,  ..., -0.1077, -0.0450,  0.0697],
+        [-0.1253, -0.1139, -0.1132,  ..., -0.0674, -0.0609, -0.0981],
+        [ 0.0222, -0.0262, -0.0611,  ..., -0.1011,  0.0238, -0.0226]],
+       device='cuda:0'), grad: tensor([[ 4.1199e-04,  3.4928e-04,  2.4581e-04,  ...,  2.4939e-04,
+          2.5296e-04,  3.0398e-04],
+        [ 2.5964e-04,  3.0184e-04,  4.5347e-04,  ...,  2.1899e-04,
+          6.5863e-05,  3.3355e-04],
+        [ 6.8521e-04,  7.6532e-04,  4.1676e-04,  ...,  2.7347e-04,
+          2.2304e-04,  4.9973e-04],
+        ...,
+        [-2.9030e-03, -1.1587e-04,  1.3494e-03,  ...,  9.3162e-05,
+         -1.0319e-03, -1.4591e-03],
+        [-1.2369e-03, -6.9523e-04, -9.0981e-04,  ...,  1.9181e-04,
+         -6.3610e-04, -3.7646e-04],
+        [ 5.4598e-04,  6.9201e-05, -1.9312e-03,  ...,  5.7220e-05,
+          1.9670e-04,  3.0351e-04]], device='cuda:0')
+Epoch 351, bias, value: tensor([ 0.0090,  0.0049, -0.0030, -0.0156,  0.0099, -0.0118, -0.0143, -0.0200,
+        -0.0015,  0.0026], device='cuda:0'), grad: tensor([ 0.0154,  0.0208,  0.0186,  0.0161, -0.0119, -0.0059, -0.0275, -0.0256,
+         0.0107, -0.0106], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 350, time 216.94, cls_loss 0.4713 cls_loss_mapping 0.0039 cls_loss_causal 0.4451 re_mapping 0.0055 re_causal 0.0147 /// teacc 98.75 lr 0.00010000
+Epoch 352, weight, value: tensor([[ 0.0397,  0.1171, -0.1800,  ..., -0.0987,  0.0734,  0.0029],
+        [-0.0991, -0.0987,  0.1153,  ..., -0.0459, -0.1029,  0.0494],
+        [-0.0931, -0.0672, -0.1218,  ..., -0.1339, -0.0269,  0.0642],
+        ...,
+        [-0.0137, -0.1276, -0.1343,  ..., -0.1086, -0.0456,  0.0707],
+        [-0.1270, -0.1152, -0.1141,  ..., -0.0681, -0.0620, -0.0981],
+        [ 0.0220, -0.0267, -0.0620,  ..., -0.1012,  0.0239, -0.0226]],
+       device='cuda:0'), grad: tensor([[ 9.5963e-05,  1.5843e-04,  2.8759e-05,  ...,  6.9082e-05,
+          9.4116e-05,  7.1049e-05],
+        [ 8.5056e-05,  1.5819e-04,  8.6010e-05,  ...,  1.0061e-04,
+          5.0068e-05, -1.2779e-03],
+        [ 6.6578e-05, -1.3018e-03,  4.4703e-05,  ...,  2.1294e-05,
+          3.5644e-05,  6.6996e-05],
+        ...,
+        [-3.6597e-04,  2.6608e-04,  8.7917e-05,  ...,  2.3190e-06,
+         -2.2423e-04,  5.2691e-04],
+        [ 6.7174e-05, -2.6741e-03, -3.2501e-03,  ..., -4.3030e-03,
+          4.1604e-05, -8.1491e-04],
+        [-3.2514e-05,  1.2302e-04, -2.6917e-04,  ...,  4.0159e-06,
+         -3.9823e-06,  4.8447e-04]], device='cuda:0')
+Epoch 352, bias, value: tensor([ 0.0097,  0.0043, -0.0027, -0.0151,  0.0089, -0.0118, -0.0149, -0.0190,
+        -0.0018,  0.0028], device='cuda:0'), grad: tensor([ 0.0060,  0.0020, -0.0141,  0.0174,  0.0044,  0.0118,  0.0022, -0.0240,
+        -0.0110,  0.0054], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 351, time 216.68, cls_loss 0.4680 cls_loss_mapping 0.0030 cls_loss_causal 0.4445 re_mapping 0.0056 re_causal 0.0145 /// teacc 98.78 lr 0.00010000
+Epoch 353, weight, value: tensor([[ 0.0400,  0.1174, -0.1789,  ..., -0.0984,  0.0733,  0.0036],
+        [-0.1001, -0.0996,  0.1142,  ..., -0.0461, -0.1035,  0.0496],
+        [-0.0917, -0.0673, -0.1211,  ..., -0.1353, -0.0262,  0.0637],
+        ...,
+        [-0.0145, -0.1272, -0.1349,  ..., -0.1100, -0.0466,  0.0718],
+        [-0.1270, -0.1150, -0.1135,  ..., -0.0680, -0.0622, -0.0996],
+        [ 0.0230, -0.0262, -0.0610,  ..., -0.0989,  0.0254, -0.0230]],
+       device='cuda:0'), grad: tensor([[ 8.5068e-04,  3.8695e-04,  3.3045e-04,  ...,  3.2961e-05,
+          2.7633e-04,  1.5867e-04],
+        [-1.5888e-03,  7.1824e-05, -2.7008e-03,  ...,  1.4567e-04,
+          5.2482e-05,  6.7902e-04],
+        [ 1.5128e-04,  1.7047e-04,  2.2268e-04,  ..., -4.7398e-04,
+          1.1867e-04, -2.3746e-03],
+        ...,
+        [-3.4161e-03,  1.0109e-04, -5.0163e-04,  ...,  3.4332e-05,
+          1.0031e-04,  3.0613e-04],
+        [ 9.0599e-04,  1.3554e-04,  4.2152e-04,  ...,  4.3631e-05,
+          9.4533e-05,  2.2030e-04],
+        [ 1.5778e-02,  1.1790e-04,  5.3835e-04,  ...,  3.1769e-05,
+          1.4400e-04,  1.7083e-04]], device='cuda:0')
+Epoch 353, bias, value: tensor([ 0.0105,  0.0044, -0.0019, -0.0159,  0.0080, -0.0124, -0.0146, -0.0202,
+        -0.0008,  0.0032], device='cuda:0'), grad: tensor([-0.0083, -0.0380, -0.0138, -0.0105,  0.0257, -0.0081, -0.0097, -0.0074,
+         0.0201,  0.0500], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 352, time 216.59, cls_loss 0.5068 cls_loss_mapping 0.0036 cls_loss_causal 0.4771 re_mapping 0.0054 re_causal 0.0144 /// teacc 98.71 lr 0.00010000
+Epoch 354, weight, value: tensor([[ 0.0394,  0.1180, -0.1802,  ..., -0.0987,  0.0736,  0.0024],
+        [-0.0996, -0.1001,  0.1135,  ..., -0.0470, -0.1032,  0.0502],
+        [-0.0914, -0.0682, -0.1212,  ..., -0.1355, -0.0250,  0.0640],
+        ...,
+        [-0.0136, -0.1273, -0.1346,  ..., -0.1083, -0.0465,  0.0724],
+        [-0.1270, -0.1155, -0.1133,  ..., -0.0670, -0.0627, -0.0992],
+        [ 0.0227, -0.0266, -0.0597,  ..., -0.0991,  0.0245, -0.0234]],
+       device='cuda:0'), grad: tensor([[-3.6259e-03,  3.3379e-04,  2.0210e-07,  ..., -2.6152e-05,
+         -2.9125e-03,  2.5730e-03],
+        [-1.1272e-03,  3.4928e-05,  2.4121e-07,  ..., -3.4351e-03,
+          1.6531e-06, -6.7329e-03],
+        [ 1.0020e-04,  5.1975e-04,  3.7439e-07,  ...,  2.1667e-03,
+          1.0962e-06,  3.5133e-03],
+        ...,
+        [-1.8682e-03,  2.8014e-04,  5.6885e-06,  ...,  1.4806e-04,
+          1.9893e-06,  2.2869e-03],
+        [-2.6536e-04, -1.5841e-03,  6.6198e-06,  ..., -1.0157e-03,
+          2.4661e-06, -2.2602e-03],
+        [ 2.0638e-03,  3.3045e-04,  2.8890e-06,  ...,  3.5691e-04,
+          4.4778e-06, -3.8099e-04]], device='cuda:0')
+Epoch 354, bias, value: tensor([ 0.0109,  0.0041, -0.0010, -0.0166,  0.0088, -0.0129, -0.0153, -0.0208,
+        -0.0002,  0.0032], device='cuda:0'), grad: tensor([ 0.0241, -0.0683,  0.0163, -0.0064, -0.0128,  0.0019,  0.0289,  0.0214,
+        -0.0034, -0.0018], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 353, time 216.30, cls_loss 0.5023 cls_loss_mapping 0.0028 cls_loss_causal 0.4766 re_mapping 0.0053 re_causal 0.0143 /// teacc 98.78 lr 0.00010000
+Epoch 355, weight, value: tensor([[ 0.0398,  0.1189, -0.1804,  ..., -0.0980,  0.0733,  0.0022],
+        [-0.0971, -0.0999,  0.1145,  ..., -0.0470, -0.1035,  0.0513],
+        [-0.0932, -0.0688, -0.1213,  ..., -0.1354, -0.0259,  0.0640],
+        ...,
+        [-0.0121, -0.1273, -0.1367,  ..., -0.1095, -0.0444,  0.0726],
+        [-0.1288, -0.1168, -0.1143,  ..., -0.0684, -0.0639, -0.1005],
+        [ 0.0220, -0.0286, -0.0603,  ..., -0.0996,  0.0239, -0.0219]],
+       device='cuda:0'), grad: tensor([[ 1.6972e-05, -3.2291e-03,  8.1956e-05,  ...,  7.0095e-05,
+          3.7104e-05,  3.2276e-05],
+        [ 2.0730e-04,  2.1368e-05,  7.2718e-04,  ...,  2.7132e-04,
+          4.5657e-05,  8.3065e-04],
+        [ 1.4901e-04,  6.6340e-05, -1.7757e-03,  ..., -8.7070e-04,
+          3.8058e-05, -2.1667e-03],
+        ...,
+        [ 6.0892e-04,  3.0785e-03,  6.7139e-04,  ...,  3.3236e-04,
+          3.7670e-05, -4.8637e-04],
+        [ 2.2328e-04, -3.5119e-04, -6.5155e-03,  ..., -3.0537e-03,
+         -7.6473e-05,  7.3242e-04],
+        [-3.6049e-03,  6.4731e-05,  3.5572e-04,  ...,  2.3842e-04,
+          4.3660e-05, -2.6073e-03]], device='cuda:0')
+Epoch 355, bias, value: tensor([ 0.0119,  0.0045, -0.0023, -0.0158,  0.0084, -0.0132, -0.0151, -0.0206,
+        -0.0017,  0.0041], device='cuda:0'), grad: tensor([ 0.0272,  0.0100, -0.0059,  0.0179, -0.0123,  0.0132,  0.0076,  0.0098,
+        -0.0034, -0.0642], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 354, time 216.63, cls_loss 0.4816 cls_loss_mapping 0.0048 cls_loss_causal 0.4639 re_mapping 0.0053 re_causal 0.0141 /// teacc 98.54 lr 0.00010000
+Epoch 356, weight, value: tensor([[ 0.0397,  0.1198, -0.1794,  ..., -0.0976,  0.0728,  0.0009],
+        [-0.0970, -0.0996,  0.1162,  ..., -0.0471, -0.1039,  0.0517],
+        [-0.0931, -0.0697, -0.1220,  ..., -0.1353, -0.0266,  0.0633],
+        ...,
+        [-0.0122, -0.1275, -0.1354,  ..., -0.1077, -0.0451,  0.0728],
+        [-0.1277, -0.1170, -0.1139,  ..., -0.0661, -0.0627, -0.0985],
+        [ 0.0214, -0.0288, -0.0606,  ..., -0.0984,  0.0239, -0.0228]],
+       device='cuda:0'), grad: tensor([[ 6.2370e-03,  1.2159e-03,  8.4829e-04,  ...,  1.1387e-03,
+          3.9411e-04,  2.1496e-03],
+        [ 1.6499e-03,  1.7631e-04,  4.6325e-04,  ...,  3.6001e-04,
+          7.5936e-05, -1.0881e-03],
+        [-1.1749e-03,  1.1533e-04, -1.3723e-03,  ...,  3.4904e-04,
+          6.4254e-05, -1.7309e-04],
+        ...,
+        [ 1.3189e-03,  1.4925e-04,  4.4465e-04,  ...,  1.2827e-04,
+          2.3469e-05,  4.6659e-04],
+        [ 2.1992e-03,  3.7670e-04,  4.8971e-04,  ...,  1.6804e-03,
+          8.2195e-05,  7.7105e-04],
+        [ 1.3113e-03,  1.6963e-04,  4.5347e-04,  ...,  1.6391e-04,
+          3.0369e-05,  4.6587e-04]], device='cuda:0')
+Epoch 356, bias, value: tensor([ 0.0105,  0.0045, -0.0033, -0.0154,  0.0090, -0.0139, -0.0146, -0.0202,
+        -0.0002,  0.0039], device='cuda:0'), grad: tensor([ 0.0540,  0.0023, -0.0354, -0.0010, -0.0003, -0.0672, -0.0397,  0.0275,
+         0.0351,  0.0247], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 355, time 216.23, cls_loss 0.5086 cls_loss_mapping 0.0039 cls_loss_causal 0.4801 re_mapping 0.0056 re_causal 0.0141 /// teacc 98.62 lr 0.00010000
+Epoch 357, weight, value: tensor([[ 0.0401,  0.1205, -0.1796,  ..., -0.0980,  0.0731,  0.0017],
+        [-0.0982, -0.1006,  0.1172,  ..., -0.0482, -0.1051,  0.0517],
+        [-0.0933, -0.0698, -0.1217,  ..., -0.1352, -0.0264,  0.0637],
+        ...,
+        [-0.0126, -0.1285, -0.1357,  ..., -0.1071, -0.0448,  0.0726],
+        [-0.1273, -0.1160, -0.1143,  ..., -0.0663, -0.0628, -0.0981],
+        [ 0.0229, -0.0284, -0.0606,  ..., -0.0972,  0.0241, -0.0235]],
+       device='cuda:0'), grad: tensor([[ 3.1433e-03,  4.3511e-06,  2.4006e-05,  ...,  2.9540e-04,
+          5.3835e-04,  7.8058e-04],
+        [-2.0313e-03,  5.0163e-04,  3.7956e-03,  ...,  1.0757e-03,
+         -5.0783e-04, -7.7095e-03],
+        [ 1.0653e-03,  2.4050e-05,  2.5964e-04,  ...,  1.0490e-04,
+          3.2187e-04,  1.3714e-03],
+        ...,
+        [-1.1654e-03,  8.5384e-06, -1.3947e-04,  ...,  4.2826e-05,
+          3.4499e-04,  5.4207e-03],
+        [ 2.5826e-03, -5.7554e-04, -4.3602e-03,  ..., -1.5945e-03,
+          3.7813e-04, -2.7657e-03],
+        [ 1.2474e-03,  1.1683e-05,  2.0099e-04,  ...,  1.1069e-04,
+          6.1607e-04,  1.1473e-03]], device='cuda:0')
+Epoch 357, bias, value: tensor([ 0.0092,  0.0055, -0.0028, -0.0159,  0.0095, -0.0138, -0.0139, -0.0205,
+        -0.0008,  0.0033], device='cuda:0'), grad: tensor([-0.0060, -0.0054, -0.0046,  0.0296, -0.0092,  0.0220, -0.0618,  0.0183,
+        -0.0019,  0.0189], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 356, time 216.60, cls_loss 0.4696 cls_loss_mapping 0.0035 cls_loss_causal 0.4475 re_mapping 0.0062 re_causal 0.0160 /// teacc 98.78 lr 0.00010000
+Epoch 358, weight, value: tensor([[ 0.0395,  0.1213, -0.1798,  ..., -0.0984,  0.0734,  0.0022],
+        [-0.0972, -0.1003,  0.1168,  ..., -0.0488, -0.1059,  0.0515],
+        [-0.0929, -0.0691, -0.1207,  ..., -0.1343, -0.0258,  0.0634],
+        ...,
+        [-0.0123, -0.1274, -0.1341,  ..., -0.1050, -0.0444,  0.0732],
+        [-0.1272, -0.1165, -0.1156,  ..., -0.0674, -0.0618, -0.0981],
+        [ 0.0237, -0.0291, -0.0612,  ..., -0.0982,  0.0244, -0.0234]],
+       device='cuda:0'), grad: tensor([[ 1.3220e-04,  2.2745e-04,  2.7156e-04,  ...,  3.0935e-05,
+          2.2143e-05, -4.9055e-05],
+        [ 1.8680e-04,  2.2137e-04,  2.1565e-04,  ...,  3.3200e-05,
+          8.8394e-05,  3.1972e-04],
+        [ 4.0913e-04,  5.5122e-04,  1.4615e-04,  ...,  1.1057e-05,
+          8.3983e-05,  3.8695e-04],
+        ...,
+        [ 1.2169e-03,  1.6842e-03,  1.5450e-04,  ...,  4.6998e-05,
+          9.1910e-05,  9.7809e-03],
+        [ 3.3355e-04,  4.3631e-04,  1.9896e-04,  ...,  2.6792e-05,
+          6.6400e-05,  4.7421e-04],
+        [-7.8058e-04, -1.0052e-03, -2.0275e-03,  ..., -2.7037e-04,
+         -6.4325e-04, -1.0118e-03]], device='cuda:0')
+Epoch 358, bias, value: tensor([ 0.0087,  0.0056, -0.0022, -0.0163,  0.0093, -0.0125, -0.0141, -0.0210,
+        -0.0016,  0.0042], device='cuda:0'), grad: tensor([-0.0106,  0.0233, -0.0083, -0.0409,  0.0226,  0.0006,  0.0248,  0.0407,
+        -0.0088, -0.0433], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 357, time 216.05, cls_loss 0.4695 cls_loss_mapping 0.0062 cls_loss_causal 0.4480 re_mapping 0.0060 re_causal 0.0150 /// teacc 98.58 lr 0.00010000
+Epoch 359, weight, value: tensor([[ 0.0388,  0.1219, -0.1802,  ..., -0.0976,  0.0737,  0.0021],
+        [-0.0971, -0.0989,  0.1165,  ..., -0.0466, -0.1060,  0.0506],
+        [-0.0937, -0.0685, -0.1196,  ..., -0.1345, -0.0249,  0.0636],
+        ...,
+        [-0.0123, -0.1279, -0.1337,  ..., -0.1047, -0.0438,  0.0729],
+        [-0.1267, -0.1172, -0.1170,  ..., -0.0688, -0.0621, -0.0979],
+        [ 0.0232, -0.0284, -0.0603,  ..., -0.0991,  0.0247, -0.0230]],
+       device='cuda:0'), grad: tensor([[ 2.1577e-04,  5.8270e-04, -1.0693e-04,  ...,  2.7299e-04,
+         -4.1164e-06,  1.1663e-03],
+        [ 6.8712e-04, -5.1546e-04,  2.4676e-04,  ...,  5.6744e-04,
+          1.1874e-06, -1.0281e-03],
+        [-4.5280e-03,  2.0294e-03,  2.6665e-03,  ..., -3.3264e-03,
+          1.8343e-05, -2.4891e-03],
+        ...,
+        [-2.2144e-03,  7.2670e-04,  2.8038e-04,  ...,  5.2309e-04,
+         -2.5228e-05,  8.6689e-04],
+        [ 4.8757e-04,  4.1199e-04,  2.0766e-04,  ...,  3.4785e-04,
+          6.5081e-06,  7.2432e-04],
+        [ 1.1740e-03, -7.4291e-04, -1.0163e-04,  ..., -1.3578e-04,
+          7.6473e-05, -3.1033e-03]], device='cuda:0')
+Epoch 359, bias, value: tensor([ 0.0085,  0.0050, -0.0032, -0.0154,  0.0088, -0.0119, -0.0128, -0.0206,
+        -0.0024,  0.0042], device='cuda:0'), grad: tensor([-0.0397, -0.0002, -0.0082,  0.0048,  0.0001,  0.0267,  0.0228,  0.0083,
+         0.0186, -0.0333], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 358, time 216.29, cls_loss 0.4948 cls_loss_mapping 0.0037 cls_loss_causal 0.4691 re_mapping 0.0057 re_causal 0.0145 /// teacc 98.79 lr 0.00010000
+Epoch 360, weight, value: tensor([[ 0.0395,  0.1225, -0.1807,  ..., -0.0993,  0.0739, -0.0011],
+        [-0.0959, -0.0974,  0.1170,  ..., -0.0458, -0.1045,  0.0519],
+        [-0.0925, -0.0701, -0.1189,  ..., -0.1337, -0.0254,  0.0628],
+        ...,
+        [-0.0135, -0.1292, -0.1332,  ..., -0.1059, -0.0455,  0.0740],
+        [-0.1264, -0.1163, -0.1162,  ..., -0.0674, -0.0626, -0.0976],
+        [ 0.0233, -0.0286, -0.0606,  ..., -0.0993,  0.0249, -0.0233]],
+       device='cuda:0'), grad: tensor([[-1.2760e-03, -1.7204e-03,  2.9397e-04,  ...,  1.0312e-05,
+         -1.1053e-03,  5.0735e-04],
+        [ 3.0112e-04,  1.2898e-04, -2.7695e-03,  ..., -8.3160e-04,
+          8.3029e-05, -7.9775e-04],
+        [ 2.8181e-04,  1.6367e-04,  3.4738e-04,  ...,  3.1013e-06,
+          1.0806e-04,  5.9509e-03],
+        ...,
+        [ 4.3106e-04,  1.6665e-04,  4.1270e-04,  ...,  6.7204e-06,
+          1.1849e-04, -8.0032e-03],
+        [-1.5345e-03,  1.7607e-04, -8.6308e-04,  ...,  7.7820e-04,
+          1.3041e-04,  1.2655e-03],
+        [ 9.4128e-04,  2.5582e-04,  6.6948e-04,  ..., -1.4555e-04,
+         -3.4833e-04,  1.3456e-03]], device='cuda:0')
+Epoch 360, bias, value: tensor([ 0.0077,  0.0054, -0.0032, -0.0153,  0.0089, -0.0117, -0.0134, -0.0215,
+        -0.0016,  0.0046], device='cuda:0'), grad: tensor([-1.0178e-02, -6.9946e-02,  3.2562e-02, -4.8180e-03,  2.8015e-02,
+         2.5864e-02,  1.9958e-02, -2.1820e-02,  6.0737e-05,  2.4462e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 359, time 216.12, cls_loss 0.4828 cls_loss_mapping 0.0023 cls_loss_causal 0.4605 re_mapping 0.0057 re_causal 0.0152 /// teacc 98.79 lr 0.00010000
+Epoch 361, weight, value: tensor([[ 0.0395,  0.1231, -0.1809,  ..., -0.0980,  0.0734,  0.0004],
+        [-0.0940, -0.0975,  0.1166,  ..., -0.0455, -0.1046,  0.0512],
+        [-0.0930, -0.0705, -0.1188,  ..., -0.1339, -0.0258,  0.0631],
+        ...,
+        [-0.0127, -0.1285, -0.1332,  ..., -0.1047, -0.0444,  0.0739],
+        [-0.1264, -0.1176, -0.1171,  ..., -0.0679, -0.0627, -0.0979],
+        [ 0.0229, -0.0275, -0.0612,  ..., -0.0997,  0.0241, -0.0235]],
+       device='cuda:0'), grad: tensor([[-3.3617e-04,  4.2648e-03, -2.4261e-03,  ...,  2.0826e-04,
+         -5.3215e-04,  1.1835e-03],
+        [ 4.4799e-04,  5.8651e-04,  9.9373e-04,  ...,  3.4046e-04,
+          6.0707e-05,  3.6764e-04],
+        [ 2.9087e-04,  3.3355e-04, -1.8191e-04,  ...,  5.6863e-05,
+          6.1929e-05,  4.4870e-04],
+        ...,
+        [-1.5678e-03,  4.1872e-05,  6.6137e-04,  ...,  5.4747e-05,
+          5.4210e-05, -3.0594e-03],
+        [ 2.6436e-03,  3.7956e-03,  2.2049e-03,  ...,  2.9812e-03,
+          7.0691e-05,  1.8568e-03],
+        [-6.2294e-03, -5.3520e-03, -7.6294e-03,  ..., -8.4076e-03,
+          6.3956e-05, -3.2444e-03]], device='cuda:0')
+Epoch 361, bias, value: tensor([ 0.0086,  0.0053, -0.0043, -0.0159,  0.0083, -0.0122, -0.0125, -0.0206,
+        -0.0017,  0.0049], device='cuda:0'), grad: tensor([ 0.0054,  0.0318,  0.0006, -0.0484,  0.0237,  0.0416, -0.0241,  0.0141,
+         0.0186, -0.0634], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 360, time 216.64, cls_loss 0.4538 cls_loss_mapping 0.0022 cls_loss_causal 0.4345 re_mapping 0.0054 re_causal 0.0139 /// teacc 98.91 lr 0.00010000
+Epoch 362, weight, value: tensor([[ 0.0388,  0.1227, -0.1815,  ..., -0.0981,  0.0728,  0.0007],
+        [-0.0941, -0.0980,  0.1176,  ..., -0.0455, -0.1062,  0.0504],
+        [-0.0937, -0.0698, -0.1196,  ..., -0.1338, -0.0265,  0.0633],
+        ...,
+        [-0.0130, -0.1292, -0.1337,  ..., -0.1049, -0.0470,  0.0738],
+        [-0.1259, -0.1193, -0.1175,  ..., -0.0681, -0.0605, -0.0981],
+        [ 0.0226, -0.0270, -0.0605,  ..., -0.0997,  0.0235, -0.0228]],
+       device='cuda:0'), grad: tensor([[ 6.2346e-05, -1.1809e-05,  1.2350e-04,  ...,  8.3819e-09,
+          7.1430e-04, -4.6768e-03],
+        [ 1.4007e-04,  1.6853e-05,  1.6570e-04,  ..., -3.8650e-08,
+          9.5558e-04,  2.0787e-05],
+        [ 8.3923e-05,  1.0097e-04,  1.0711e-04,  ...,  7.9162e-09,
+          7.8964e-04,  2.5673e-03],
+        ...,
+        [-2.7485e-03, -4.4537e-04, -1.4248e-03,  ...,  1.4901e-08,
+         -1.8501e-03, -8.5783e-04],
+        [ 1.0347e-04,  2.0862e-04,  1.5509e-04,  ...,  3.2596e-07,
+          6.3086e-04,  9.5487e-05],
+        [ 1.0109e-03,  6.4230e-04,  7.3242e-04,  ...,  1.3504e-08,
+          2.1801e-03,  1.6804e-03]], device='cuda:0')
+Epoch 362, bias, value: tensor([ 0.0092,  0.0055, -0.0048, -0.0162,  0.0088, -0.0124, -0.0128, -0.0207,
+        -0.0017,  0.0051], device='cuda:0'), grad: tensor([-0.0048,  0.0064,  0.0103,  0.0126, -0.0184,  0.0067,  0.0053, -0.0388,
+         0.0051,  0.0156], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 361, time 216.28, cls_loss 0.4502 cls_loss_mapping 0.0019 cls_loss_causal 0.4279 re_mapping 0.0054 re_causal 0.0146 /// teacc 98.88 lr 0.00010000
+Epoch 363, weight, value: tensor([[ 0.0397,  0.1228, -0.1826,  ..., -0.0991,  0.0728,  0.0015],
+        [-0.0951, -0.0979,  0.1184,  ..., -0.0465, -0.1081,  0.0500],
+        [-0.0943, -0.0701, -0.1202,  ..., -0.1326, -0.0253,  0.0645],
+        ...,
+        [-0.0128, -0.1273, -0.1333,  ..., -0.1041, -0.0468,  0.0733],
+        [-0.1254, -0.1200, -0.1179,  ..., -0.0693, -0.0595, -0.0987],
+        [ 0.0230, -0.0262, -0.0600,  ..., -0.0997,  0.0239, -0.0237]],
+       device='cuda:0'), grad: tensor([[ 5.3853e-05,  4.1664e-05, -2.2411e-03,  ...,  4.5985e-05,
+          8.7142e-05, -4.6234e-03],
+        [ 1.3530e-04, -8.1718e-05, -1.1623e-04,  ...,  1.4760e-05,
+          3.6567e-05,  1.7471e-03],
+        [ 2.7657e-04,  7.4267e-05,  6.5613e-04,  ...,  3.6836e-05,
+          8.0407e-05,  1.4391e-03],
+        ...,
+        [-2.6340e-03,  3.9816e-05,  3.1829e-04,  ...,  4.2766e-05,
+          6.8486e-05, -3.1033e-03],
+        [ 5.6982e-04,  4.5687e-05,  3.5787e-04,  ...,  9.0003e-05,
+          1.0282e-04,  6.0606e-04],
+        [ 2.9602e-03,  1.2386e-04,  2.0802e-04,  ...,  1.1963e-04,
+          3.0923e-04,  2.7885e-03]], device='cuda:0')
+Epoch 363, bias, value: tensor([ 0.0089,  0.0055, -0.0037, -0.0167,  0.0090, -0.0132, -0.0128, -0.0203,
+        -0.0015,  0.0046], device='cuda:0'), grad: tensor([-5.0323e-02,  1.7700e-02,  1.2047e-02,  8.1406e-03, -3.9032e-02,
+         9.5749e-03,  1.4397e-02, -6.3419e-05,  1.0712e-02,  1.6846e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 362, time 216.12, cls_loss 0.4965 cls_loss_mapping 0.0031 cls_loss_causal 0.4708 re_mapping 0.0054 re_causal 0.0154 /// teacc 98.78 lr 0.00010000
+Epoch 364, weight, value: tensor([[ 0.0386,  0.1221, -0.1819,  ..., -0.0992,  0.0720,  0.0013],
+        [-0.0960, -0.0983,  0.1169,  ..., -0.0475, -0.1100,  0.0499],
+        [-0.0935, -0.0705, -0.1196,  ..., -0.1332, -0.0248,  0.0635],
+        ...,
+        [-0.0122, -0.1264, -0.1328,  ..., -0.1044, -0.0473,  0.0748],
+        [-0.1244, -0.1196, -0.1186,  ..., -0.0694, -0.0602, -0.0997],
+        [ 0.0220, -0.0262, -0.0581,  ..., -0.0996,  0.0241, -0.0236]],
+       device='cuda:0'), grad: tensor([[ 7.3862e-04,  5.3501e-04,  4.4060e-04,  ...,  1.0341e-04,
+          2.1815e-04,  9.2268e-04],
+        [ 6.3610e-04,  1.6391e-05, -1.7986e-03,  ...,  1.2994e-04,
+          1.3971e-04,  8.2350e-04],
+        [ 4.7159e-04, -3.4809e-03,  3.6907e-04,  ...,  7.4387e-05,
+          9.2924e-05, -5.8136e-03],
+        ...,
+        [-9.0957e-05, -2.8992e-04,  4.7755e-04,  ...,  8.1956e-05,
+          1.1367e-04, -1.2010e-04],
+        [-2.5368e-03,  6.0177e-04,  2.6226e-04,  ...,  7.5877e-05,
+         -1.0891e-03,  2.0294e-03],
+        [-6.8521e-04,  7.4744e-05, -9.6989e-04,  ..., -3.7789e-04,
+          1.5736e-04, -2.9016e-04]], device='cuda:0')
+Epoch 364, bias, value: tensor([ 0.0083,  0.0051, -0.0036, -0.0174,  0.0095, -0.0129, -0.0133, -0.0196,
+        -0.0020,  0.0056], device='cuda:0'), grad: tensor([ 0.0248,  0.0053, -0.0873, -0.0011, -0.0083,  0.0265,  0.0267,  0.0202,
+        -0.0001, -0.0067], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 363, time 216.61, cls_loss 0.5035 cls_loss_mapping 0.0027 cls_loss_causal 0.4776 re_mapping 0.0056 re_causal 0.0154 /// teacc 98.98 lr 0.00010000
+Epoch 365, weight, value: tensor([[ 0.0394,  0.1230, -0.1831,  ..., -0.0993,  0.0723,  0.0014],
+        [-0.0966, -0.0974,  0.1175,  ..., -0.0478, -0.1105,  0.0498],
+        [-0.0939, -0.0704, -0.1203,  ..., -0.1344, -0.0241,  0.0629],
+        ...,
+        [-0.0126, -0.1274, -0.1336,  ..., -0.1035, -0.0475,  0.0754],
+        [-0.1237, -0.1173, -0.1176,  ..., -0.0695, -0.0604, -0.0991],
+        [ 0.0214, -0.0274, -0.0598,  ..., -0.0994,  0.0235, -0.0240]],
+       device='cuda:0'), grad: tensor([[-1.3905e-03, -6.4000e-06,  2.8044e-05,  ..., -1.8533e-06,
+         -1.3399e-03, -7.3481e-04],
+        [ 7.6175e-05,  3.6340e-06,  9.9093e-06,  ...,  2.9802e-07,
+          2.9579e-05,  5.3376e-05],
+        [-3.0975e-03, -2.7823e-04, -1.5192e-03,  ...,  2.3078e-06,
+          7.1168e-05, -4.0588e-03],
+        ...,
+        [ 6.0177e-04,  5.1320e-05,  2.5845e-04,  ...,  1.5972e-07,
+          3.2693e-05,  5.5981e-04],
+        [-7.4806e-03, -2.2621e-03, -3.1700e-03,  ...,  2.0061e-06,
+         -4.0855e-03, -8.6927e-04],
+        [ 7.9041e-03,  2.3155e-03,  3.4866e-03,  ...,  1.2079e-06,
+          4.1466e-03,  1.8492e-03]], device='cuda:0')
+Epoch 365, bias, value: tensor([ 0.0084,  0.0054, -0.0037, -0.0184,  0.0096, -0.0114, -0.0143, -0.0198,
+        -0.0020,  0.0058], device='cuda:0'), grad: tensor([-0.0052,  0.0043, -0.0196,  0.0062,  0.0046,  0.0154,  0.0101,  0.0058,
+        -0.0527,  0.0312], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 364, time 216.41, cls_loss 0.4919 cls_loss_mapping 0.0025 cls_loss_causal 0.4682 re_mapping 0.0054 re_causal 0.0142 /// teacc 98.87 lr 0.00010000
+Epoch 366, weight, value: tensor([[ 0.0397,  0.1240, -0.1827,  ..., -0.1002,  0.0725,  0.0016],
+        [-0.0957, -0.0979,  0.1175,  ..., -0.0478, -0.1112,  0.0509],
+        [-0.0942, -0.0707, -0.1204,  ..., -0.1342, -0.0242,  0.0631],
+        ...,
+        [-0.0110, -0.1281, -0.1350,  ..., -0.1049, -0.0475,  0.0754],
+        [-0.1237, -0.1169, -0.1167,  ..., -0.0702, -0.0599, -0.0993],
+        [ 0.0209, -0.0278, -0.0607,  ..., -0.1001,  0.0230, -0.0243]],
+       device='cuda:0'), grad: tensor([[ 6.8998e-04,  1.2267e-04,  1.4234e-04,  ...,  4.0364e-04,
+          7.2598e-05,  7.2098e-04],
+        [ 2.5606e-04,  2.4542e-05, -3.2449e-04,  ...,  1.4603e-04,
+          5.4836e-05, -3.7422e-03],
+        [ 2.0278e-04,  3.7909e-05,  1.0228e-04,  ...,  3.6657e-05,
+          4.6223e-05,  4.6778e-04],
+        ...,
+        [ 3.7146e-04,  6.7234e-05,  1.5497e-04,  ...,  1.2732e-04,
+          9.4414e-05,  1.5182e-03],
+        [ 1.3027e-03,  1.7488e-04,  3.2473e-04,  ...,  6.3848e-04,
+          2.6894e-04,  1.8778e-03],
+        [-3.0565e-04, -7.9107e-04, -7.1287e-04,  ...,  2.4390e-04,
+         -4.1795e-04,  1.1110e-03]], device='cuda:0')
+Epoch 366, bias, value: tensor([ 0.0087,  0.0059, -0.0031, -0.0182,  0.0088, -0.0114, -0.0147, -0.0200,
+        -0.0021,  0.0058], device='cuda:0'), grad: tensor([ 0.0207, -0.0754,  0.0202,  0.0216, -0.0119, -0.0354,  0.0070,  0.0191,
+         0.0184,  0.0157], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 365, time 216.30, cls_loss 0.4500 cls_loss_mapping 0.0037 cls_loss_causal 0.4248 re_mapping 0.0057 re_causal 0.0151 /// teacc 98.75 lr 0.00010000
+Epoch 367, weight, value: tensor([[ 0.0395,  0.1235, -0.1832,  ..., -0.1006,  0.0725,  0.0019],
+        [-0.0969, -0.0977,  0.1173,  ..., -0.0468, -0.1115,  0.0536],
+        [-0.0946, -0.0718, -0.1208,  ..., -0.1340, -0.0247,  0.0627],
+        ...,
+        [-0.0101, -0.1288, -0.1347,  ..., -0.1056, -0.0480,  0.0741],
+        [-0.1239, -0.1172, -0.1155,  ..., -0.0695, -0.0588, -0.0991],
+        [ 0.0207, -0.0287, -0.0604,  ..., -0.1013,  0.0229, -0.0244]],
+       device='cuda:0'), grad: tensor([[ 1.3435e-04, -7.1144e-04,  1.2204e-05,  ...,  3.5530e-07,
+         -9.7137e-07,  2.5558e-04],
+        [ 4.1604e-04, -2.3227e-06, -2.5839e-05,  ...,  2.3134e-06,
+          8.2422e-08,  6.3419e-04],
+        [ 1.7023e-04,  2.1684e-04,  4.2081e-04,  ...,  4.0187e-07,
+          4.5169e-08,  1.1673e-03],
+        ...,
+        [ 6.0892e-04,  2.0385e-05,  3.9898e-06,  ...,  3.4599e-07,
+          7.7067e-07,  5.9694e-05],
+        [ 3.4475e-04,  5.6565e-05,  1.5087e-05,  ..., -8.5821e-07,
+          8.7079e-08,  4.8804e-04],
+        [ 3.7527e-04,  5.9605e-04,  1.2897e-05,  ...,  1.1642e-06,
+          4.2394e-06,  1.1101e-03]], device='cuda:0')
+Epoch 367, bias, value: tensor([ 0.0074,  0.0057, -0.0038, -0.0179,  0.0093, -0.0107, -0.0143, -0.0197,
+        -0.0028,  0.0064], device='cuda:0'), grad: tensor([ 0.0047,  0.0124, -0.0200,  0.0123, -0.0138, -0.0216,  0.0075,  0.0170,
+         0.0149, -0.0134], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 366, time 216.23, cls_loss 0.4724 cls_loss_mapping 0.0031 cls_loss_causal 0.4577 re_mapping 0.0054 re_causal 0.0145 /// teacc 98.70 lr 0.00010000
+Epoch 368, weight, value: tensor([[ 0.0397,  0.1237, -0.1832,  ..., -0.0996,  0.0723,  0.0052],
+        [-0.0971, -0.0970,  0.1165,  ..., -0.0464, -0.1122,  0.0522],
+        [-0.0949, -0.0712, -0.1205,  ..., -0.1334, -0.0254,  0.0636],
+        ...,
+        [-0.0108, -0.1293, -0.1356,  ..., -0.1066, -0.0483,  0.0741],
+        [-0.1250, -0.1167, -0.1152,  ..., -0.0689, -0.0576, -0.0985],
+        [ 0.0218, -0.0282, -0.0589,  ..., -0.0999,  0.0228, -0.0246]],
+       device='cuda:0'), grad: tensor([[-6.3467e-04, -5.6791e-04,  8.2922e-04,  ...,  9.7561e-04,
+          9.6679e-05, -4.8518e-04],
+        [ 5.9700e-04,  3.6097e-04, -2.8763e-03,  ..., -1.7366e-03,
+          4.1425e-06,  3.8128e-03],
+        [-3.0193e-03, -4.0092e-03, -4.1504e-03,  ...,  1.9515e-04,
+          1.9193e-04, -1.0033e-02],
+        ...,
+        [ 4.3755e-03,  7.5340e-04,  4.5800e-04,  ...,  1.5843e-04,
+          4.4479e-03,  1.1658e-02],
+        [-1.4772e-03,  9.1493e-05, -4.1437e-04,  ...,  9.4652e-05,
+          1.1557e-04, -1.2932e-03],
+        [-2.9278e-03,  4.8518e-04,  6.9523e-04,  ...,  3.1948e-04,
+         -5.0659e-03, -4.8180e-03]], device='cuda:0')
+Epoch 368, bias, value: tensor([ 0.0076,  0.0054, -0.0031, -0.0184,  0.0095, -0.0116, -0.0140, -0.0197,
+        -0.0022,  0.0061], device='cuda:0'), grad: tensor([ 0.0221,  0.0067, -0.0758,  0.0250,  0.0142, -0.0037,  0.0015,  0.0484,
+        -0.0329, -0.0054], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 367, time 216.30, cls_loss 0.4851 cls_loss_mapping 0.0029 cls_loss_causal 0.4617 re_mapping 0.0056 re_causal 0.0153 /// teacc 98.86 lr 0.00010000
+Epoch 369, weight, value: tensor([[ 0.0392,  0.1231, -0.1845,  ..., -0.1003,  0.0729,  0.0045],
+        [-0.0972, -0.0979,  0.1173,  ..., -0.0456, -0.1131,  0.0518],
+        [-0.0949, -0.0704, -0.1211,  ..., -0.1341, -0.0246,  0.0639],
+        ...,
+        [-0.0113, -0.1300, -0.1367,  ..., -0.1073, -0.0500,  0.0743],
+        [-0.1248, -0.1166, -0.1146,  ..., -0.0677, -0.0564, -0.0998],
+        [ 0.0218, -0.0297, -0.0581,  ..., -0.1005,  0.0230, -0.0251]],
+       device='cuda:0'), grad: tensor([[-2.3232e-03, -4.5568e-05,  7.1621e-04,  ..., -1.0777e-03,
+          2.5511e-04, -2.6550e-03],
+        [ 5.2977e-04,  1.0467e-04, -8.9547e-07,  ...,  1.1897e-04,
+         -4.5180e-04,  4.3774e-04],
+        [ 2.8801e-04,  1.0300e-04,  6.0225e-04,  ..., -1.8740e-04,
+          2.3389e-04, -2.0921e-04],
+        ...,
+        [ 1.5440e-03,  1.1796e-04,  1.0996e-03,  ...,  3.4499e-04,
+          4.0793e-04,  1.1635e-03],
+        [ 6.6900e-04,  1.2219e-04,  1.1034e-03,  ...,  3.3927e-04,
+          2.7275e-04,  7.1430e-04],
+        [-6.4964e-03,  2.3341e-04, -9.1858e-03,  ...,  3.4809e-04,
+         -7.5221e-05, -1.1749e-03]], device='cuda:0')
+Epoch 369, bias, value: tensor([ 0.0076,  0.0058, -0.0038, -0.0185,  0.0102, -0.0115, -0.0140, -0.0208,
+        -0.0026,  0.0072], device='cuda:0'), grad: tensor([ 0.0013, -0.0367,  0.0137, -0.0210,  0.0528,  0.0303, -0.0380,  0.0367,
+        -0.0369, -0.0022], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 368, time 216.52, cls_loss 0.4508 cls_loss_mapping 0.0031 cls_loss_causal 0.4309 re_mapping 0.0056 re_causal 0.0155 /// teacc 98.80 lr 0.00010000
+Epoch 370, weight, value: tensor([[ 0.0398,  0.1246, -0.1824,  ..., -0.0987,  0.0733,  0.0052],
+        [-0.0969, -0.0989,  0.1161,  ..., -0.0459, -0.1130,  0.0524],
+        [-0.0945, -0.0701, -0.1203,  ..., -0.1352, -0.0243,  0.0627],
+        ...,
+        [-0.0126, -0.1299, -0.1371,  ..., -0.1092, -0.0499,  0.0749],
+        [-0.1253, -0.1167, -0.1149,  ..., -0.0673, -0.0567, -0.0995],
+        [ 0.0217, -0.0308, -0.0583,  ..., -0.1017,  0.0224, -0.0266]],
+       device='cuda:0'), grad: tensor([[-7.9918e-04, -5.7030e-03,  4.4823e-05,  ...,  2.0489e-06,
+         -2.6283e-03, -1.1244e-03],
+        [ 3.7074e-05,  2.9296e-05,  6.1035e-05,  ...,  2.7474e-07,
+          5.2989e-05,  1.9894e-03],
+        [ 2.0599e-04,  2.1935e-03,  2.1458e-04,  ...,  2.6785e-06,
+          1.0996e-03,  1.3247e-03],
+        ...,
+        [-4.4298e-04,  6.3419e-05, -1.1158e-03,  ...,  2.4214e-08,
+          5.3346e-05, -5.0163e-03],
+        [ 1.1140e-04,  9.9182e-05,  3.6359e-05,  ...,  7.2969e-07,
+          5.5492e-05,  1.5430e-03],
+        [ 3.9387e-04,  4.8804e-04,  1.1724e-04,  ...,  5.0291e-08,
+          1.5807e-04,  1.3733e-03]], device='cuda:0')
+Epoch 370, bias, value: tensor([ 0.0080,  0.0061, -0.0033, -0.0189,  0.0107, -0.0107, -0.0148, -0.0209,
+        -0.0029,  0.0063], device='cuda:0'), grad: tensor([-0.0096, -0.0016,  0.0028, -0.0060, -0.0144,  0.0199, -0.0157, -0.0136,
+         0.0177,  0.0206], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 369, time 216.60, cls_loss 0.4643 cls_loss_mapping 0.0042 cls_loss_causal 0.4395 re_mapping 0.0053 re_causal 0.0135 /// teacc 99.00 lr 0.00010000
+Epoch 371, weight, value: tensor([[ 0.0396,  0.1243, -0.1819,  ..., -0.0983,  0.0722,  0.0051],
+        [-0.0973, -0.0986,  0.1159,  ..., -0.0462, -0.1147,  0.0515],
+        [-0.0952, -0.0702, -0.1192,  ..., -0.1342, -0.0243,  0.0617],
+        ...,
+        [-0.0132, -0.1305, -0.1366,  ..., -0.1093, -0.0501,  0.0762],
+        [-0.1254, -0.1172, -0.1154,  ..., -0.0682, -0.0572, -0.0996],
+        [ 0.0224, -0.0295, -0.0600,  ..., -0.1019,  0.0216, -0.0271]],
+       device='cuda:0'), grad: tensor([[-1.2672e-04, -3.1423e-06,  2.0072e-05,  ...,  2.0564e-06,
+         -2.4586e-03, -4.9782e-04],
+        [ 2.7943e-04,  7.5221e-05,  9.9182e-04,  ...,  1.9944e-04,
+          2.3818e-04,  1.9131e-03],
+        [ 3.7813e-04,  6.2227e-05, -1.2140e-03,  ..., -2.8849e-04,
+          6.5660e-04, -2.5921e-03],
+        ...,
+        [ 1.9526e-04,  1.4886e-05,  1.4806e-04,  ...,  2.8566e-05,
+          2.2674e-04,  3.5024e-04],
+        [ 4.1246e-04,  1.5998e-04,  2.6560e-04,  ...,  1.1936e-05,
+          2.4605e-04,  3.5286e-04],
+        [ 4.4322e-04,  1.2201e-04,  1.9062e-04,  ...,  6.4336e-06,
+          2.6059e-04,  1.6105e-04]], device='cuda:0')
+Epoch 371, bias, value: tensor([ 0.0082,  0.0048, -0.0042, -0.0189,  0.0112, -0.0098, -0.0142, -0.0210,
+        -0.0025,  0.0062], device='cuda:0'), grad: tensor([-0.0165, -0.0063,  0.0086,  0.0129, -0.0600, -0.0400,  0.0172,  0.0152,
+         0.0362,  0.0328], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 370, time 216.22, cls_loss 0.4856 cls_loss_mapping 0.0028 cls_loss_causal 0.4631 re_mapping 0.0061 re_causal 0.0156 /// teacc 98.85 lr 0.00010000
+Epoch 372, weight, value: tensor([[ 0.0396,  0.1261, -0.1823,  ..., -0.0984,  0.0736,  0.0032],
+        [-0.0982, -0.0988,  0.1158,  ..., -0.0468, -0.1155,  0.0528],
+        [-0.0963, -0.0708, -0.1198,  ..., -0.1343, -0.0233,  0.0631],
+        ...,
+        [-0.0136, -0.1311, -0.1371,  ..., -0.1099, -0.0499,  0.0752],
+        [-0.1253, -0.1170, -0.1152,  ..., -0.0677, -0.0565, -0.1003],
+        [ 0.0233, -0.0296, -0.0598,  ..., -0.1017,  0.0207, -0.0261]],
+       device='cuda:0'), grad: tensor([[ 2.3632e-03,  7.2813e-04,  1.5044e-04,  ...,  9.8228e-04,
+          6.1846e-04,  1.7242e-03],
+        [ 6.0272e-04,  5.4300e-05,  9.8526e-05,  ...,  4.4107e-04,
+          2.1911e-04, -1.7910e-03],
+        [-1.9312e-03,  2.6035e-04,  2.1183e-04,  ..., -2.8210e-03,
+         -5.0926e-04, -2.6855e-03],
+        ...,
+        [ 8.0395e-04,  1.1623e-04,  1.6236e-04,  ...,  2.2912e-04,
+          2.2554e-04,  1.1950e-03],
+        [-4.0779e-03, -2.5787e-03, -2.8992e-04,  ...,  8.5020e-04,
+         -8.5402e-04, -1.5691e-05],
+        [ 9.3689e-03,  6.2799e-04,  6.8188e-04,  ...,  3.0565e-04,
+          1.3075e-03,  3.9215e-03]], device='cuda:0')
+Epoch 372, bias, value: tensor([ 0.0065,  0.0058, -0.0044, -0.0180,  0.0110, -0.0103, -0.0131, -0.0207,
+        -0.0026,  0.0054], device='cuda:0'), grad: tensor([ 0.0344, -0.0254, -0.0117, -0.0059, -0.0031, -0.0040, -0.0352,  0.0320,
+        -0.0026,  0.0215], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 371, time 216.39, cls_loss 0.4758 cls_loss_mapping 0.0027 cls_loss_causal 0.4500 re_mapping 0.0058 re_causal 0.0157 /// teacc 98.80 lr 0.00010000
+Epoch 373, weight, value: tensor([[ 0.0400,  0.1273, -0.1818,  ..., -0.0992,  0.0740,  0.0037],
+        [-0.0998, -0.0974,  0.1168,  ..., -0.0460, -0.1145,  0.0530],
+        [-0.0949, -0.0699, -0.1192,  ..., -0.1347, -0.0229,  0.0642],
+        ...,
+        [-0.0131, -0.1318, -0.1375,  ..., -0.1106, -0.0488,  0.0751],
+        [-0.1254, -0.1172, -0.1169,  ..., -0.0682, -0.0573, -0.0995],
+        [ 0.0233, -0.0309, -0.0606,  ..., -0.1016,  0.0200, -0.0274]],
+       device='cuda:0'), grad: tensor([[ 1.6851e-03,  1.5306e-03,  2.6631e-04,  ...,  7.8249e-04,
+          1.0376e-03,  2.4433e-03],
+        [ 2.2590e-04,  2.1076e-04,  2.7728e-04,  ...,  1.1247e-04,
+          4.9114e-05, -1.6718e-03],
+        [ 2.9373e-04,  2.8396e-04, -3.6061e-05,  ...,  5.3024e-04,
+          1.0532e-04,  4.2796e-04],
+        ...,
+        [-4.4975e-03, -1.8940e-03, -2.0657e-03,  ..., -2.4462e-04,
+         -1.4143e-03, -5.0774e-03],
+        [ 3.1519e-04,  2.6155e-04,  3.0518e-04,  ...,  2.0714e-03,
+          1.3006e-04,  2.4376e-03],
+        [ 1.5173e-03, -1.5049e-03,  2.6655e-04,  ..., -6.4182e-04,
+          4.5598e-05,  2.1782e-03]], device='cuda:0')
+Epoch 373, bias, value: tensor([ 0.0074,  0.0056, -0.0053, -0.0183,  0.0109, -0.0105, -0.0131, -0.0192,
+        -0.0024,  0.0045], device='cuda:0'), grad: tensor([ 0.0159,  0.0120, -0.0147, -0.0164, -0.0408,  0.0211,  0.0135, -0.0435,
+         0.0234,  0.0295], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 372, time 216.30, cls_loss 0.4650 cls_loss_mapping 0.0030 cls_loss_causal 0.4409 re_mapping 0.0055 re_causal 0.0145 /// teacc 98.86 lr 0.00010000
+Epoch 374, weight, value: tensor([[ 0.0413,  0.1273, -0.1817,  ..., -0.0994,  0.0761,  0.0045],
+        [-0.1006, -0.0974,  0.1174,  ..., -0.0457, -0.1146,  0.0537],
+        [-0.0958, -0.0709, -0.1188,  ..., -0.1357, -0.0217,  0.0630],
+        ...,
+        [-0.0131, -0.1330, -0.1377,  ..., -0.1120, -0.0481,  0.0744],
+        [-0.1241, -0.1165, -0.1177,  ..., -0.0675, -0.0565, -0.0995],
+        [ 0.0213, -0.0315, -0.0607,  ..., -0.1020,  0.0193, -0.0268]],
+       device='cuda:0'), grad: tensor([[-8.4937e-05, -4.8804e-04,  9.0361e-05,  ...,  8.2374e-05,
+          1.2316e-05,  2.8324e-04],
+        [ 7.5758e-05,  3.2902e-05,  7.9155e-05,  ...,  3.8505e-05,
+          1.3828e-05,  2.5535e-04],
+        [-3.6508e-05,  1.8489e-04,  1.0157e-04,  ...,  1.2922e-04,
+          6.8188e-05, -9.4318e-04],
+        ...,
+        [-1.4293e-04,  6.5625e-05, -6.3479e-05,  ...,  5.4270e-05,
+          3.4660e-05, -3.4976e-04],
+        [ 3.5906e-04,  6.8855e-04,  5.9843e-04,  ...,  5.2691e-04,
+          2.8753e-04,  4.9973e-04],
+        [ 3.1033e-03,  9.7036e-05,  1.8761e-05,  ...,  5.5134e-05,
+          2.5883e-05,  1.7583e-04]], device='cuda:0')
+Epoch 374, bias, value: tensor([ 0.0079,  0.0057, -0.0052, -0.0186,  0.0112, -0.0101, -0.0139, -0.0193,
+        -0.0015,  0.0036], device='cuda:0'), grad: tensor([ 0.0148,  0.0239, -0.0220, -0.0242,  0.0121,  0.0169,  0.0185, -0.0470,
+         0.0193, -0.0125], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 373, time 216.67, cls_loss 0.5010 cls_loss_mapping 0.0026 cls_loss_causal 0.4808 re_mapping 0.0054 re_causal 0.0149 /// teacc 98.70 lr 0.00010000
+Epoch 375, weight, value: tensor([[ 0.0417,  0.1277, -0.1815,  ..., -0.0996,  0.0752,  0.0043],
+        [-0.1004, -0.0979,  0.1179,  ..., -0.0459, -0.1156,  0.0533],
+        [-0.0961, -0.0722, -0.1190,  ..., -0.1362, -0.0228,  0.0630],
+        ...,
+        [-0.0130, -0.1324, -0.1378,  ..., -0.1116, -0.0477,  0.0744],
+        [-0.1238, -0.1151, -0.1178,  ..., -0.0680, -0.0557, -0.0994],
+        [ 0.0213, -0.0319, -0.0608,  ..., -0.1026,  0.0198, -0.0274]],
+       device='cuda:0'), grad: tensor([[ 1.4887e-03,  5.2834e-04,  3.0780e-04,  ...,  1.4553e-03,
+          1.3625e-06,  1.1578e-03],
+        [ 2.5606e-04,  3.3545e-04,  3.6073e-04,  ...,  8.8692e-05,
+          5.6904e-07,  1.0004e-03],
+        [ 6.2037e-04,  1.3614e-04,  2.6679e-04,  ...,  8.7619e-05,
+          1.3979e-06,  8.1110e-04],
+        ...,
+        [ 4.5371e-04,  3.1161e-04,  2.5678e-04,  ...,  1.0365e-04,
+          1.1218e-04,  1.1549e-03],
+        [ 3.1781e-04, -1.5726e-03, -1.3876e-03,  ...,  5.9223e-04,
+          5.6714e-05,  8.0299e-04],
+        [-8.0585e-04,  2.9206e-04,  2.1958e-04,  ...,  4.6062e-04,
+         -7.0763e-04,  6.7663e-04]], device='cuda:0')
+Epoch 375, bias, value: tensor([ 0.0076,  0.0057, -0.0059, -0.0185,  0.0109, -0.0096, -0.0135, -0.0186,
+        -0.0028,  0.0045], device='cuda:0'), grad: tensor([ 0.0335,  0.0248,  0.0202, -0.0307, -0.0401, -0.0034,  0.0009,  0.0364,
+        -0.0328, -0.0088], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 374, time 216.55, cls_loss 0.4839 cls_loss_mapping 0.0025 cls_loss_causal 0.4612 re_mapping 0.0057 re_causal 0.0148 /// teacc 98.72 lr 0.00010000
+Epoch 376, weight, value: tensor([[ 0.0408,  0.1285, -0.1808,  ..., -0.0993,  0.0755,  0.0044],
+        [-0.1006, -0.0982,  0.1190,  ..., -0.0453, -0.1161,  0.0528],
+        [-0.0951, -0.0736, -0.1197,  ..., -0.1363, -0.0228,  0.0634],
+        ...,
+        [-0.0132, -0.1302, -0.1375,  ..., -0.1107, -0.0487,  0.0735],
+        [-0.1237, -0.1159, -0.1185,  ..., -0.0678, -0.0545, -0.0993],
+        [ 0.0229, -0.0332, -0.0601,  ..., -0.1026,  0.0197, -0.0264]],
+       device='cuda:0'), grad: tensor([[ 1.0405e-03,  2.2852e-04,  7.3528e-04,  ...,  1.0529e-03,
+          1.1790e-04,  5.0354e-04],
+        [-7.8392e-04,  7.5459e-05, -3.5152e-03,  ...,  4.1695e-03,
+          9.0241e-05,  2.9697e-03],
+        [-7.8125e-03,  9.9182e-04,  8.3208e-04,  ...,  6.2180e-04,
+          1.4806e-04, -4.5586e-03],
+        ...,
+        [ 3.5553e-03,  4.9496e-04,  2.7084e-03,  ...,  6.9380e-05,
+          2.0730e-04,  1.2264e-03],
+        [ 2.0638e-03,  9.8801e-04,  1.4124e-03,  ...,  5.3978e-04,
+          8.3447e-05,  3.4499e-04],
+        [-1.5244e-02,  2.7485e-03,  1.9007e-03,  ...,  1.6534e-04,
+          2.0778e-04,  9.4318e-04]], device='cuda:0')
+Epoch 376, bias, value: tensor([ 0.0074,  0.0060, -0.0056, -0.0181,  0.0106, -0.0110, -0.0141, -0.0188,
+        -0.0018,  0.0051], device='cuda:0'), grad: tensor([ 0.0302, -0.0064, -0.0334, -0.0108,  0.0331, -0.0023, -0.0740,  0.0388,
+         0.0090,  0.0158], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 375, time 216.73, cls_loss 0.4539 cls_loss_mapping 0.0024 cls_loss_causal 0.4304 re_mapping 0.0055 re_causal 0.0141 /// teacc 98.86 lr 0.00010000
+Epoch 377, weight, value: tensor([[ 0.0414,  0.1297, -0.1810,  ..., -0.0996,  0.0758,  0.0037],
+        [-0.1013, -0.0989,  0.1189,  ..., -0.0451, -0.1162,  0.0519],
+        [-0.0954, -0.0738, -0.1200,  ..., -0.1366, -0.0231,  0.0633],
+        ...,
+        [-0.0132, -0.1303, -0.1375,  ..., -0.1105, -0.0485,  0.0740],
+        [-0.1237, -0.1157, -0.1172,  ..., -0.0677, -0.0533, -0.1002],
+        [ 0.0235, -0.0328, -0.0602,  ..., -0.1017,  0.0192, -0.0253]],
+       device='cuda:0'), grad: tensor([[ 1.5944e-05, -7.3109e-08,  2.8777e-04,  ...,  4.6194e-07,
+         -3.1106e-07,  1.6069e-04],
+        [ 3.7730e-05,  2.8405e-08,  4.2987e-04,  ..., -8.9854e-06,
+          5.5879e-09,  9.1851e-05],
+        [ 8.5056e-05,  1.0245e-06,  2.9659e-04,  ...,  9.0385e-07,
+          2.1560e-07,  3.5286e-04],
+        ...,
+        [-9.7418e-04,  1.8450e-06, -3.2310e-03,  ...,  1.8338e-06,
+          5.5879e-09, -2.9049e-03],
+        [-8.0032e-03, -1.9501e-02, -1.2672e-02,  ...,  3.7625e-06,
+          1.3430e-06,  3.3617e-04],
+        [ 9.4604e-03,  1.7834e-04,  4.8733e-04,  ...,  7.4366e-07,
+          7.6368e-08,  8.4734e-04]], device='cuda:0')
+Epoch 377, bias, value: tensor([ 0.0076,  0.0068, -0.0046, -0.0179,  0.0108, -0.0119, -0.0143, -0.0195,
+        -0.0022,  0.0048], device='cuda:0'), grad: tensor([ 0.0105, -0.0207,  0.0120, -0.0103,  0.0108,  0.0292,  0.0108, -0.0431,
+        -0.0353,  0.0360], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 376, time 216.57, cls_loss 0.4337 cls_loss_mapping 0.0031 cls_loss_causal 0.4177 re_mapping 0.0054 re_causal 0.0141 /// teacc 98.74 lr 0.00010000
+Epoch 378, weight, value: tensor([[ 0.0407,  0.1294, -0.1816,  ..., -0.1001,  0.0750,  0.0037],
+        [-0.1018, -0.0993,  0.1177,  ..., -0.0444, -0.1165,  0.0524],
+        [-0.0952, -0.0721, -0.1197,  ..., -0.1365, -0.0218,  0.0632],
+        ...,
+        [-0.0134, -0.1309, -0.1370,  ..., -0.1108, -0.0491,  0.0743],
+        [-0.1252, -0.1161, -0.1160,  ..., -0.0690, -0.0541, -0.1014],
+        [ 0.0246, -0.0314, -0.0599,  ..., -0.1014,  0.0182, -0.0247]],
+       device='cuda:0'), grad: tensor([[ 1.6794e-03,  7.7963e-04,  2.7132e-04,  ...,  9.9480e-05,
+          3.8600e-04,  9.4557e-04],
+        [ 6.9809e-04,  2.0814e-04,  2.8777e-04,  ...,  2.0218e-04,
+          2.7180e-04,  1.6460e-03],
+        [ 7.7486e-04,  1.8358e-04,  1.8597e-04,  ..., -6.8188e-04,
+          3.3879e-04, -9.1324e-03],
+        ...,
+        [ 8.1253e-04,  2.8849e-04, -5.1832e-04,  ...,  9.5904e-05,
+          2.1756e-04,  2.1591e-03],
+        [-1.0460e-02, -1.0056e-02, -8.6899e-03,  ..., -3.4142e-03,
+         -8.7662e-03, -2.0504e-04],
+        [ 2.5311e-03,  1.3876e-03,  2.2149e-04,  ...,  8.9467e-05,
+          3.0684e-04,  8.5115e-04]], device='cuda:0')
+Epoch 378, bias, value: tensor([ 0.0074,  0.0063, -0.0050, -0.0178,  0.0112, -0.0119, -0.0144, -0.0185,
+        -0.0030,  0.0050], device='cuda:0'), grad: tensor([ 0.0198,  0.0296, -0.0244,  0.0467, -0.0129, -0.0137,  0.0131, -0.0079,
+        -0.0782,  0.0279], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 377, time 216.76, cls_loss 0.4893 cls_loss_mapping 0.0022 cls_loss_causal 0.4637 re_mapping 0.0053 re_causal 0.0142 /// teacc 98.98 lr 0.00010000
+Epoch 379, weight, value: tensor([[ 0.0398,  0.1288, -0.1819,  ..., -0.1013,  0.0750,  0.0034],
+        [-0.1035, -0.0995,  0.1175,  ..., -0.0442, -0.1176,  0.0533],
+        [-0.0955, -0.0727, -0.1210,  ..., -0.1367, -0.0218,  0.0644],
+        ...,
+        [-0.0131, -0.1308, -0.1381,  ..., -0.1114, -0.0502,  0.0729],
+        [-0.1257, -0.1153, -0.1150,  ..., -0.0681, -0.0534, -0.1018],
+        [ 0.0255, -0.0311, -0.0588,  ..., -0.1008,  0.0178, -0.0230]],
+       device='cuda:0'), grad: tensor([[ 3.1638e-04,  5.4777e-05,  1.2171e-04,  ...,  1.4508e-04,
+          2.0528e-04,  1.3518e-04],
+        [ 2.2516e-05,  4.9293e-05,  1.9455e-04,  ...,  3.4183e-05,
+          1.5542e-05,  2.8181e-04],
+        [ 2.6986e-05,  1.5035e-05,  1.1945e-04,  ...,  2.6941e-05,
+          2.2575e-05,  5.6696e-04],
+        ...,
+        [ 1.4611e-05,  1.7315e-05,  1.2779e-04,  ...,  7.7337e-06,
+          5.1633e-06, -3.2544e-04],
+        [ 6.6161e-05,  2.1553e-04,  1.7703e-04,  ...,  1.8179e-04,
+          1.0766e-05,  1.5771e-04],
+        [ 9.7811e-05,  6.1929e-05, -1.0290e-03,  ...,  3.0607e-05,
+          9.2447e-05, -1.5030e-03]], device='cuda:0')
+Epoch 379, bias, value: tensor([ 0.0072,  0.0056, -0.0031, -0.0189,  0.0106, -0.0118, -0.0143, -0.0196,
+        -0.0022,  0.0059], device='cuda:0'), grad: tensor([ 0.0072,  0.0008,  0.0108, -0.0209,  0.0137,  0.0009,  0.0117,  0.0042,
+        -0.0032, -0.0251], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 378, time 216.19, cls_loss 0.4998 cls_loss_mapping 0.0031 cls_loss_causal 0.4747 re_mapping 0.0050 re_causal 0.0135 /// teacc 98.97 lr 0.00010000
+Epoch 380, weight, value: tensor([[ 0.0407,  0.1292, -0.1816,  ..., -0.1021,  0.0749,  0.0039],
+        [-0.1054, -0.1001,  0.1181,  ..., -0.0447, -0.1199,  0.0543],
+        [-0.0955, -0.0738, -0.1195,  ..., -0.1369, -0.0211,  0.0641],
+        ...,
+        [-0.0119, -0.1308, -0.1390,  ..., -0.1115, -0.0509,  0.0730],
+        [-0.1261, -0.1158, -0.1154,  ..., -0.0679, -0.0525, -0.1012],
+        [ 0.0251, -0.0309, -0.0589,  ..., -0.1004,  0.0183, -0.0232]],
+       device='cuda:0'), grad: tensor([[-3.3550e-03,  4.3571e-05,  1.1575e-04,  ...,  2.2620e-05,
+          1.3828e-04,  7.0393e-05],
+        [-3.4630e-05,  2.1551e-06,  3.5577e-06,  ...,  5.9046e-07,
+          1.0263e-06,  1.2386e-04],
+        [ 4.8256e-04, -4.1509e-04, -1.0234e-04,  ..., -2.2590e-04,
+          1.0073e-05, -1.0605e-03],
+        ...,
+        [ 4.3344e-04,  4.6849e-05,  1.5929e-05,  ...,  2.4855e-05,
+          6.1728e-06,  1.8132e-04],
+        [ 5.5647e-04, -1.7233e-03, -4.6616e-03,  ...,  1.6198e-05,
+          1.3657e-05,  1.4532e-04],
+        [-2.9540e-04,  2.6878e-06,  5.2825e-06,  ...,  2.7455e-06,
+          2.2963e-05, -7.3528e-04]], device='cuda:0')
+Epoch 380, bias, value: tensor([ 0.0079,  0.0054, -0.0030, -0.0187,  0.0096, -0.0122, -0.0154, -0.0190,
+        -0.0014,  0.0062], device='cuda:0'), grad: tensor([ 0.0018, -0.0211,  0.0065,  0.0116,  0.0130,  0.0254,  0.0167, -0.0181,
+         0.0055, -0.0413], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 379, time 216.15, cls_loss 0.4545 cls_loss_mapping 0.0031 cls_loss_causal 0.4284 re_mapping 0.0055 re_causal 0.0149 /// teacc 98.87 lr 0.00010000
+Epoch 381, weight, value: tensor([[ 0.0405,  0.1298, -0.1803,  ..., -0.1019,  0.0744,  0.0042],
+        [-0.1038, -0.0979,  0.1193,  ..., -0.0451, -0.1188,  0.0536],
+        [-0.0952, -0.0732, -0.1205,  ..., -0.1364, -0.0208,  0.0644],
+        ...,
+        [-0.0116, -0.1307, -0.1374,  ..., -0.1103, -0.0501,  0.0733],
+        [-0.1272, -0.1157, -0.1161,  ..., -0.0683, -0.0529, -0.1023],
+        [ 0.0241, -0.0317, -0.0592,  ..., -0.1016,  0.0166, -0.0227]],
+       device='cuda:0'), grad: tensor([[-1.4486e-03,  6.2704e-05,  3.9673e-04,  ..., -1.5955e-03,
+         -2.8896e-04, -6.5756e-04],
+        [ 8.0645e-05,  1.9491e-04, -2.5425e-03,  ...,  3.1781e-04,
+          3.0017e-04, -9.8896e-04],
+        [ 5.1451e-04,  8.8835e-04,  8.4209e-04,  ...,  4.2629e-04,
+          1.0262e-03,  5.9662e-03],
+        ...,
+        [ 1.6320e-04,  2.9349e-04,  5.4312e-04,  ...,  2.1100e-04,
+          3.7456e-04, -2.9411e-03],
+        [ 8.9467e-05,  1.8466e-04,  4.2367e-04,  ...,  2.2244e-04,
+          2.5749e-04,  1.1883e-03],
+        [ 8.0943e-05,  2.1303e-04, -1.0939e-03,  ...,  1.1301e-04,
+          2.6655e-04, -2.0065e-03]], device='cuda:0')
+Epoch 381, bias, value: tensor([ 0.0076,  0.0055, -0.0029, -0.0182,  0.0108, -0.0133, -0.0152, -0.0194,
+        -0.0015,  0.0062], device='cuda:0'), grad: tensor([-0.0254,  0.0073,  0.0459, -0.0081,  0.0172,  0.0219, -0.0057,  0.0088,
+        -0.0119, -0.0499], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 380, time 216.21, cls_loss 0.4811 cls_loss_mapping 0.0031 cls_loss_causal 0.4626 re_mapping 0.0052 re_causal 0.0138 /// teacc 98.77 lr 0.00010000
+Epoch 382, weight, value: tensor([[ 0.0414,  0.1296, -0.1817,  ..., -0.1023,  0.0742,  0.0039],
+        [-0.1050, -0.0989,  0.1195,  ..., -0.0447, -0.1195,  0.0539],
+        [-0.0963, -0.0734, -0.1206,  ..., -0.1375, -0.0202,  0.0629],
+        ...,
+        [-0.0115, -0.1309, -0.1370,  ..., -0.1104, -0.0498,  0.0742],
+        [-0.1262, -0.1153, -0.1167,  ..., -0.0679, -0.0487, -0.1018],
+        [ 0.0236, -0.0319, -0.0597,  ..., -0.1020,  0.0149, -0.0232]],
+       device='cuda:0'), grad: tensor([[ 2.3603e-05,  7.4482e-04,  5.7745e-04,  ...,  1.8108e-04,
+          2.1362e-04,  1.1492e-03],
+        [ 6.6614e-04,  8.4102e-05, -2.8539e-04,  ..., -3.2878e-04,
+          3.8385e-04,  9.5224e-04],
+        [-5.7077e-04,  1.6222e-03, -5.4741e-04,  ...,  3.5834e-04,
+         -1.4992e-03, -8.5754e-03],
+        ...,
+        [ 2.0084e-03,  7.0858e-04,  9.3937e-04,  ...,  2.2554e-04,
+          5.0497e-04,  2.8801e-03],
+        [ 2.2259e-03,  2.1534e-03,  1.0452e-03,  ...,  5.2691e-04,
+          2.0909e-04,  1.2589e-03],
+        [-3.2959e-03, -1.4000e-03, -4.0841e-04,  ...,  1.0520e-04,
+         -2.5511e-04, -7.0801e-03]], device='cuda:0')
+Epoch 382, bias, value: tensor([ 0.0080,  0.0056, -0.0044, -0.0182,  0.0110, -0.0135, -0.0143, -0.0197,
+        -0.0014,  0.0062], device='cuda:0'), grad: tensor([ 0.0082,  0.0095, -0.0396, -0.0049,  0.0045,  0.0237,  0.0087,  0.0096,
+         0.0213, -0.0411], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 381, time 216.43, cls_loss 0.4700 cls_loss_mapping 0.0023 cls_loss_causal 0.4422 re_mapping 0.0055 re_causal 0.0150 /// teacc 98.79 lr 0.00010000
+Epoch 383, weight, value: tensor([[ 0.0433,  0.1310, -0.1814,  ..., -0.1039,  0.0754,  0.0033],
+        [-0.1054, -0.0995,  0.1187,  ..., -0.0455, -0.1212,  0.0530],
+        [-0.0952, -0.0727, -0.1199,  ..., -0.1380, -0.0187,  0.0627],
+        ...,
+        [-0.0108, -0.1310, -0.1366,  ..., -0.1106, -0.0497,  0.0739],
+        [-0.1258, -0.1165, -0.1157,  ..., -0.0679, -0.0487, -0.1011],
+        [ 0.0244, -0.0329, -0.0603,  ..., -0.1010,  0.0171, -0.0231]],
+       device='cuda:0'), grad: tensor([[-5.3444e-03,  1.1015e-04,  4.0859e-05,  ...,  1.0759e-04,
+         -2.0809e-03, -4.2953e-03],
+        [ 3.5954e-03, -1.3103e-03,  1.3202e-05,  ..., -1.3838e-03,
+          1.9753e-04, -1.7452e-03],
+        [ 1.8253e-03,  2.5320e-04,  1.8513e-04,  ...,  1.1855e-04,
+          1.5192e-03,  2.1458e-03],
+        ...,
+        [ 3.6335e-03, -1.3208e-04, -1.0496e-04,  ...,  3.4153e-05,
+          3.0589e-04,  6.0310e-03],
+        [ 4.6196e-03,  4.7469e-04,  5.1975e-05,  ...,  5.1641e-04,
+          1.4381e-03,  3.3722e-03],
+        [-8.4925e-04, -1.2505e-04,  3.7879e-05,  ...,  2.3261e-05,
+         -2.8496e-03, -6.5765e-03]], device='cuda:0')
+Epoch 383, bias, value: tensor([ 0.0078,  0.0045, -0.0032, -0.0185,  0.0105, -0.0141, -0.0132, -0.0192,
+        -0.0007,  0.0056], device='cuda:0'), grad: tensor([-0.0150,  0.0048, -0.0142, -0.0138,  0.0412, -0.0353, -0.0309,  0.0457,
+         0.0427, -0.0253], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 382, time 216.39, cls_loss 0.5184 cls_loss_mapping 0.0045 cls_loss_causal 0.4966 re_mapping 0.0053 re_causal 0.0146 /// teacc 98.89 lr 0.00010000
+Epoch 384, weight, value: tensor([[ 0.0428,  0.1306, -0.1799,  ..., -0.1026,  0.0766,  0.0045],
+        [-0.1047, -0.0986,  0.1181,  ..., -0.0463, -0.1185,  0.0521],
+        [-0.0950, -0.0720, -0.1191,  ..., -0.1376, -0.0187,  0.0624],
+        ...,
+        [-0.0104, -0.1316, -0.1363,  ..., -0.1113, -0.0493,  0.0733],
+        [-0.1262, -0.1162, -0.1152,  ..., -0.0670, -0.0489, -0.1011],
+        [ 0.0241, -0.0347, -0.0612,  ..., -0.1013,  0.0152, -0.0220]],
+       device='cuda:0'), grad: tensor([[ 2.0905e-03, -2.2089e-04,  1.1277e-04,  ...,  1.2153e-04,
+         -1.2398e-03,  1.1988e-03],
+        [-9.3689e-03, -1.1721e-03, -2.1801e-03,  ..., -3.1891e-03,
+         -6.9046e-04, -6.0997e-03],
+        [ 1.7433e-03,  8.0585e-05,  1.6522e-04,  ...,  1.1301e-04,
+          4.0627e-04,  2.8343e-03],
+        ...,
+        [ 2.2221e-03,  2.0957e-04,  4.4823e-03,  ...,  5.2166e-04,
+          1.0777e-03,  1.2383e-02],
+        [ 9.7179e-04,  8.3303e-04,  1.0300e-03,  ...,  2.0218e-03,
+          3.5954e-04,  4.0894e-03],
+        [-4.5013e-03,  1.4126e-04, -4.0779e-03,  ...,  8.6188e-05,
+         -1.4153e-03, -2.3315e-02]], device='cuda:0')
+Epoch 384, bias, value: tensor([ 0.0084,  0.0036, -0.0034, -0.0182,  0.0119, -0.0139, -0.0137, -0.0197,
+        -0.0014,  0.0059], device='cuda:0'), grad: tensor([-0.0449, -0.0163,  0.0387,  0.0019,  0.0273,  0.0170,  0.0212, -0.0154,
+         0.0273, -0.0569], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 383, time 216.18, cls_loss 0.4722 cls_loss_mapping 0.0018 cls_loss_causal 0.4473 re_mapping 0.0056 re_causal 0.0155 /// teacc 98.88 lr 0.00010000
+Epoch 385, weight, value: tensor([[ 0.0422,  0.1307, -0.1800,  ..., -0.1026,  0.0765,  0.0048],
+        [-0.1026, -0.0993,  0.1172,  ..., -0.0466, -0.1155,  0.0531],
+        [-0.0943, -0.0720, -0.1181,  ..., -0.1375, -0.0173,  0.0622],
+        ...,
+        [-0.0105, -0.1322, -0.1365,  ..., -0.1127, -0.0499,  0.0727],
+        [-0.1267, -0.1160, -0.1152,  ..., -0.0681, -0.0501, -0.1012],
+        [ 0.0249, -0.0361, -0.0622,  ..., -0.1003,  0.0149, -0.0213]],
+       device='cuda:0'), grad: tensor([[ 5.4407e-04,  3.0494e-04,  8.7166e-04,  ...,  5.2806e-07,
+          2.5249e-04, -4.4346e-04],
+        [-3.5343e-03,  6.5923e-05, -1.7262e-03,  ...,  1.0571e-07,
+          1.0335e-04, -5.1069e-04],
+        [ 6.6662e-04,  1.4019e-04,  1.0052e-03,  ...,  4.9826e-08,
+          1.5318e-04, -6.3229e-04],
+        ...,
+        [ 1.0414e-03,  1.1215e-02, -4.1199e-03,  ...,  3.7719e-08,
+          1.0210e-04,  6.3858e-03],
+        [ 7.9298e-04,  1.6630e-04,  1.0691e-03,  ...,  1.7360e-06,
+          3.1781e-04,  1.4114e-03],
+        [ 7.0155e-05,  3.8099e-04,  8.8835e-04,  ...,  7.4506e-09,
+          4.8351e-04,  1.1545e-04]], device='cuda:0')
+Epoch 385, bias, value: tensor([ 0.0087,  0.0052, -0.0033, -0.0180,  0.0113, -0.0150, -0.0139, -0.0197,
+        -0.0018,  0.0059], device='cuda:0'), grad: tensor([-0.0008, -0.0683,  0.0050,  0.0028, -0.0156,  0.0173, -0.0219,  0.0339,
+         0.0367,  0.0107], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 384, time 216.39, cls_loss 0.4829 cls_loss_mapping 0.0024 cls_loss_causal 0.4546 re_mapping 0.0056 re_causal 0.0148 /// teacc 98.95 lr 0.00010000
+Epoch 386, weight, value: tensor([[ 0.0433,  0.1313, -0.1814,  ..., -0.1034,  0.0763,  0.0045],
+        [-0.1034, -0.0995,  0.1177,  ..., -0.0474, -0.1157,  0.0526],
+        [-0.0947, -0.0716, -0.1185,  ..., -0.1379, -0.0167,  0.0613],
+        ...,
+        [-0.0099, -0.1333, -0.1358,  ..., -0.1131, -0.0489,  0.0745],
+        [-0.1271, -0.1161, -0.1143,  ..., -0.0675, -0.0503, -0.1009],
+        [ 0.0248, -0.0354, -0.0624,  ..., -0.1009,  0.0163, -0.0226]],
+       device='cuda:0'), grad: tensor([[-3.3550e-03,  2.5120e-03,  4.2391e-04,  ...,  9.0933e-04,
+         -2.7065e-03, -7.2670e-04],
+        [ 1.7536e-04,  2.0075e-04,  4.5538e-05,  ...,  6.6698e-05,
+          1.4031e-04,  1.7710e-03],
+        [ 5.2023e-04,  1.0729e-03,  2.2018e-04,  ...,  1.9109e-04,
+          3.3259e-04, -1.6613e-03],
+        ...,
+        [ 1.1024e-03,  2.8086e-04,  5.4389e-05,  ...,  1.3518e-04,
+          1.5342e-04, -1.1902e-03],
+        [ 7.1716e-04,  4.0913e-04, -6.8724e-05,  ...,  7.6413e-05,
+          2.2185e-04,  1.1625e-03],
+        [-1.0471e-03,  6.6042e-04,  1.3554e-04,  ...,  2.1887e-04,
+          2.0349e-04, -1.3418e-03]], device='cuda:0')
+Epoch 386, bias, value: tensor([ 0.0088,  0.0049, -0.0042, -0.0192,  0.0114, -0.0137, -0.0128, -0.0191,
+        -0.0028,  0.0061], device='cuda:0'), grad: tensor([-0.0138, -0.0001, -0.0114, -0.0021, -0.0084,  0.0246,  0.0193, -0.0253,
+         0.0200, -0.0028], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 385, time 216.58, cls_loss 0.4776 cls_loss_mapping 0.0036 cls_loss_causal 0.4498 re_mapping 0.0054 re_causal 0.0145 /// teacc 98.85 lr 0.00010000
+Epoch 387, weight, value: tensor([[ 0.0417,  0.1313, -0.1820,  ..., -0.1035,  0.0747,  0.0038],
+        [-0.1036, -0.0999,  0.1176,  ..., -0.0474, -0.1141,  0.0536],
+        [-0.0953, -0.0718, -0.1191,  ..., -0.1380, -0.0174,  0.0611],
+        ...,
+        [-0.0088, -0.1340, -0.1363,  ..., -0.1129, -0.0500,  0.0748],
+        [-0.1265, -0.1162, -0.1148,  ..., -0.0671, -0.0499, -0.0992],
+        [ 0.0238, -0.0356, -0.0605,  ..., -0.1003,  0.0165, -0.0224]],
+       device='cuda:0'), grad: tensor([[-5.7697e-04, -3.1424e-04,  6.7139e-04,  ...,  1.9908e-05,
+         -5.2261e-04,  4.6659e-04],
+        [ 3.9482e-04,  8.5711e-05, -1.0042e-03,  ...,  4.1157e-05,
+         -5.9080e-04, -2.7599e-03],
+        [-2.1782e-03, -8.2064e-04, -1.4677e-03,  ..., -4.2796e-04,
+         -1.5259e-04,  4.9305e-04],
+        ...,
+        [ 2.6684e-03,  7.0393e-05,  3.4733e-03,  ...,  1.4625e-05,
+          1.9646e-03, -2.2564e-03],
+        [ 4.4012e-04,  7.9989e-05,  1.7834e-03,  ...,  3.9071e-05,
+          2.6441e-04,  1.6022e-03],
+        [ 2.9373e-03,  3.8075e-04,  3.2825e-03,  ...,  8.0109e-05,
+          2.0161e-03,  4.7898e-04]], device='cuda:0')
+Epoch 387, bias, value: tensor([ 0.0086,  0.0050, -0.0038, -0.0200,  0.0104, -0.0127, -0.0132, -0.0189,
+        -0.0024,  0.0064], device='cuda:0'), grad: tensor([-0.0110, -0.0177, -0.0037,  0.0267, -0.0323,  0.0226, -0.0319,  0.0131,
+         0.0271,  0.0070], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 386, time 216.76, cls_loss 0.4830 cls_loss_mapping 0.0030 cls_loss_causal 0.4644 re_mapping 0.0054 re_causal 0.0143 /// teacc 98.87 lr 0.00010000
+Epoch 388, weight, value: tensor([[ 0.0415,  0.1307, -0.1815,  ..., -0.1041,  0.0752,  0.0023],
+        [-0.1039, -0.1006,  0.1166,  ..., -0.0474, -0.1144,  0.0539],
+        [-0.0962, -0.0686, -0.1170,  ..., -0.1385, -0.0160,  0.0607],
+        ...,
+        [-0.0088, -0.1332, -0.1365,  ..., -0.1117, -0.0505,  0.0745],
+        [-0.1268, -0.1163, -0.1129,  ..., -0.0672, -0.0504, -0.0986],
+        [ 0.0236, -0.0364, -0.0609,  ..., -0.0999,  0.0157, -0.0212]],
+       device='cuda:0'), grad: tensor([[ 3.1173e-05,  2.2337e-05,  2.1434e-04,  ...,  2.7940e-09,
+         -1.4856e-05,  4.7255e-04],
+        [ 2.8038e-04,  8.5056e-05, -4.5657e-04,  ...,  0.0000e+00,
+          4.3958e-07, -1.0147e-03],
+        [ 2.2864e-04,  2.6941e-04,  5.7411e-04,  ...,  0.0000e+00,
+          1.3292e-04,  3.5248e-03],
+        ...,
+        [ 3.5733e-05,  3.0339e-05,  2.0194e-04,  ...,  0.0000e+00,
+          1.6168e-06,  7.8917e-04],
+        [ 2.4438e-04,  6.1369e-04,  1.1396e-03,  ...,  7.9162e-09,
+          7.5176e-06, -3.5310e-04],
+        [ 2.9469e-04,  1.2410e-04,  3.2377e-04,  ...,  0.0000e+00,
+          8.0615e-06,  5.4836e-04]], device='cuda:0')
+Epoch 388, bias, value: tensor([ 0.0076,  0.0056, -0.0033, -0.0195,  0.0086, -0.0116, -0.0142, -0.0192,
+        -0.0021,  0.0075], device='cuda:0'), grad: tensor([ 0.0142, -0.0553,  0.0237, -0.0459,  0.0092, -0.0106,  0.0075,  0.0181,
+         0.0140,  0.0251], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 387, time 216.08, cls_loss 0.4399 cls_loss_mapping 0.0030 cls_loss_causal 0.4173 re_mapping 0.0056 re_causal 0.0153 /// teacc 98.73 lr 0.00010000
+Epoch 389, weight, value: tensor([[ 0.0413,  0.1315, -0.1805,  ..., -0.1041,  0.0753,  0.0038],
+        [-0.1035, -0.1006,  0.1160,  ..., -0.0471, -0.1143,  0.0540],
+        [-0.0955, -0.0693, -0.1183,  ..., -0.1380, -0.0158,  0.0597],
+        ...,
+        [-0.0090, -0.1336, -0.1354,  ..., -0.1125, -0.0503,  0.0759],
+        [-0.1260, -0.1170, -0.1141,  ..., -0.0682, -0.0500, -0.0975],
+        [ 0.0239, -0.0347, -0.0608,  ..., -0.1004,  0.0152, -0.0225]],
+       device='cuda:0'), grad: tensor([[ 4.5824e-04,  3.4094e-05,  7.5531e-04,  ...,  1.4162e-04,
+          1.5128e-04,  1.1892e-03],
+        [ 2.6298e-04,  1.4938e-05,  2.6941e-04,  ...,  4.8876e-05,
+          1.3900e-04,  1.6241e-03],
+        [ 4.5061e-04,  1.2912e-05,  1.8752e-04,  ...,  3.1292e-05,
+          1.7095e-04,  1.1292e-03],
+        ...,
+        [ 7.2432e-04,  1.2182e-05,  2.3782e-04,  ...,  4.1038e-05,
+          1.6630e-04, -3.9520e-03],
+        [ 1.0586e-03,  2.7835e-05,  4.6706e-04,  ...,  8.5771e-05,
+          1.0020e-04,  1.3380e-03],
+        [-7.1831e-03,  2.6315e-05,  4.0793e-04,  ...,  7.3910e-05,
+         -1.2836e-03, -4.0588e-03]], device='cuda:0')
+Epoch 389, bias, value: tensor([ 0.0085,  0.0050, -0.0035, -0.0185,  0.0088, -0.0118, -0.0144, -0.0184,
+        -0.0023,  0.0062], device='cuda:0'), grad: tensor([ 0.0191,  0.0183,  0.0176,  0.0225, -0.0081,  0.0269, -0.0367, -0.0012,
+         0.0194, -0.0778], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 388, time 216.35, cls_loss 0.4548 cls_loss_mapping 0.0028 cls_loss_causal 0.4342 re_mapping 0.0056 re_causal 0.0150 /// teacc 98.77 lr 0.00010000
+Epoch 390, weight, value: tensor([[ 0.0413,  0.1314, -0.1808,  ..., -0.1054,  0.0764,  0.0030],
+        [-0.1035, -0.1013,  0.1161,  ..., -0.0465, -0.1141,  0.0550],
+        [-0.0961, -0.0697, -0.1186,  ..., -0.1372, -0.0172,  0.0598],
+        ...,
+        [-0.0093, -0.1337, -0.1361,  ..., -0.1131, -0.0513,  0.0752],
+        [-0.1262, -0.1187, -0.1146,  ..., -0.0677, -0.0499, -0.0976],
+        [ 0.0230, -0.0357, -0.0617,  ..., -0.1017,  0.0145, -0.0237]],
+       device='cuda:0'), grad: tensor([[-1.4849e-03, -1.6298e-03,  1.7351e-06,  ...,  4.0308e-06,
+         -1.5316e-03,  1.2136e-04],
+        [ 5.9128e-04,  2.6077e-05, -4.3213e-05,  ..., -3.9395e-07,
+          1.4555e-04,  1.4191e-03],
+        [ 3.6240e-04,  8.4817e-05,  1.4743e-06,  ...,  2.5034e-06,
+          3.9749e-03,  7.2365e-03],
+        ...,
+        [ 5.0926e-04,  7.3075e-05,  2.9728e-06,  ...,  3.6228e-07,
+         -3.7403e-03, -5.6725e-03],
+        [ 5.1355e-04,  1.2362e-04,  3.2187e-05,  ...,  7.1563e-06,
+          2.0432e-04,  8.5735e-04],
+        [ 8.8596e-04,  6.6185e-04,  1.9781e-06,  ...,  3.1479e-07,
+          7.2193e-04,  1.0290e-03]], device='cuda:0')
+Epoch 390, bias, value: tensor([ 0.0084,  0.0055, -0.0037, -0.0177,  0.0096, -0.0121, -0.0147, -0.0189,
+        -0.0025,  0.0054], device='cuda:0'), grad: tensor([ 0.0004,  0.0096,  0.0215, -0.0490,  0.0205,  0.0083,  0.0136, -0.0221,
+         0.0088, -0.0117], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 389, time 216.57, cls_loss 0.4836 cls_loss_mapping 0.0038 cls_loss_causal 0.4508 re_mapping 0.0053 re_causal 0.0141 /// teacc 98.86 lr 0.00010000
+Epoch 391, weight, value: tensor([[ 0.0401,  0.1305, -0.1815,  ..., -0.1056,  0.0767,  0.0028],
+        [-0.1042, -0.1014,  0.1169,  ..., -0.0473, -0.1150,  0.0533],
+        [-0.0963, -0.0693, -0.1179,  ..., -0.1375, -0.0178,  0.0594],
+        ...,
+        [-0.0090, -0.1337, -0.1369,  ..., -0.1132, -0.0502,  0.0757],
+        [-0.1262, -0.1182, -0.1148,  ..., -0.0675, -0.0495, -0.0961],
+        [ 0.0229, -0.0348, -0.0613,  ..., -0.1013,  0.0139, -0.0234]],
+       device='cuda:0'), grad: tensor([[-3.7074e-04, -6.3992e-04,  2.9802e-04,  ...,  1.3001e-06,
+         -9.3639e-05, -7.8773e-04],
+        [ 1.1849e-04, -2.7847e-07, -1.2922e-03,  ..., -4.4256e-05,
+         -7.8440e-05, -1.1885e-04],
+        [ 1.5860e-03,  1.1605e-04,  4.6206e-04,  ...,  1.8880e-05,
+          7.8678e-04,  9.1696e-04],
+        ...,
+        [ 4.1771e-04, -6.3133e-04, -1.1492e-03,  ...,  2.0526e-06,
+         -2.0874e-04, -2.7637e-03],
+        [-4.3983e-03,  5.1498e-05,  3.8671e-04,  ...,  1.3024e-05,
+         -2.2011e-03,  1.0080e-03],
+        [-8.0109e-04,  7.1168e-05, -1.2989e-03,  ...,  1.0328e-06,
+          6.3419e-05, -3.3875e-03]], device='cuda:0')
+Epoch 391, bias, value: tensor([ 0.0087,  0.0050, -0.0036, -0.0178,  0.0087, -0.0125, -0.0141, -0.0194,
+        -0.0025,  0.0069], device='cuda:0'), grad: tensor([-0.0250, -0.0173,  0.0254,  0.0420,  0.0138,  0.0143,  0.0118, -0.0077,
+        -0.0134, -0.0439], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 390, time 219.03, cls_loss 0.4995 cls_loss_mapping 0.0037 cls_loss_causal 0.4718 re_mapping 0.0047 re_causal 0.0122 /// teacc 98.87 lr 0.00010000
+Epoch 392, weight, value: tensor([[ 0.0395,  0.1303, -0.1818,  ..., -0.1060,  0.0751,  0.0041],
+        [-0.1047, -0.1025,  0.1161,  ..., -0.0470, -0.1145,  0.0528],
+        [-0.0966, -0.0693, -0.1176,  ..., -0.1379, -0.0183,  0.0591],
+        ...,
+        [-0.0082, -0.1337, -0.1385,  ..., -0.1130, -0.0505,  0.0765],
+        [-0.1263, -0.1176, -0.1144,  ..., -0.0676, -0.0490, -0.0981],
+        [ 0.0223, -0.0351, -0.0605,  ..., -0.1004,  0.0144, -0.0234]],
+       device='cuda:0'), grad: tensor([[-6.8903e-04,  1.1152e-04, -1.0548e-03,  ...,  2.3410e-05,
+         -4.2772e-04, -1.4458e-03],
+        [-4.6396e-04, -2.0349e-04, -7.9966e-04,  ..., -2.6703e-04,
+          3.8259e-06, -8.9722e-03],
+        [ 2.9993e-04,  2.2268e-04,  1.0548e-03,  ...,  3.7402e-05,
+          3.5435e-05, -1.2064e-04],
+        ...,
+        [-6.3553e-03,  3.5977e-04, -2.9488e-03,  ...,  4.3184e-05,
+          3.7462e-05, -2.5501e-03],
+        [ 1.0099e-03,  5.5170e-04,  1.3599e-03,  ...,  4.8816e-05,
+          1.6379e-04,  1.9608e-03],
+        [ 6.6452e-03,  7.6723e-04,  1.2388e-03,  ...,  2.3544e-05,
+          1.9681e-04,  4.5052e-03]], device='cuda:0')
+Epoch 392, bias, value: tensor([ 0.0101,  0.0050, -0.0038, -0.0166,  0.0089, -0.0129, -0.0150, -0.0199,
+        -0.0043,  0.0080], device='cuda:0'), grad: tensor([-0.0128, -0.0226,  0.0286, -0.0517,  0.0206,  0.0131,  0.0093, -0.0540,
+         0.0276,  0.0419], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 391, time 216.52, cls_loss 0.4736 cls_loss_mapping 0.0020 cls_loss_causal 0.4513 re_mapping 0.0050 re_causal 0.0139 /// teacc 98.90 lr 0.00010000
+Epoch 393, weight, value: tensor([[ 0.0398,  0.1299, -0.1827,  ..., -0.1054,  0.0749,  0.0041],
+        [-0.1051, -0.1027,  0.1160,  ..., -0.0471, -0.1138,  0.0531],
+        [-0.0953, -0.0695, -0.1176,  ..., -0.1375, -0.0183,  0.0589],
+        ...,
+        [-0.0093, -0.1328, -0.1383,  ..., -0.1121, -0.0497,  0.0769],
+        [-0.1278, -0.1175, -0.1151,  ..., -0.0679, -0.0497, -0.0980],
+        [ 0.0235, -0.0331, -0.0588,  ..., -0.0986,  0.0139, -0.0228]],
+       device='cuda:0'), grad: tensor([[ 7.5996e-05,  4.9114e-04,  4.9025e-05,  ..., -3.0160e-04,
+          1.4193e-06,  7.9107e-04],
+        [ 6.7055e-05,  1.1122e-04,  1.5080e-04,  ...,  7.4646e-07,
+          3.6985e-05,  4.3201e-04],
+        [ 1.2951e-03,  8.5306e-04,  1.2612e-04,  ...,  4.0606e-07,
+          1.3165e-05,  4.4746e-03],
+        ...,
+        [-1.0347e-04,  8.0013e-04,  6.4790e-05,  ...,  2.2259e-07,
+          5.3681e-06, -6.1073e-03],
+        [ 5.4932e-04,  1.2827e-03, -2.1706e-03,  ..., -5.2834e-03,
+          8.5011e-06,  6.5279e-04],
+        [-2.5606e-04,  2.0294e-03,  1.0967e-04,  ...,  4.6343e-06,
+          1.0289e-05,  2.1896e-03]], device='cuda:0')
+Epoch 393, bias, value: tensor([ 0.0095,  0.0049, -0.0031, -0.0172,  0.0085, -0.0150, -0.0139, -0.0181,
+        -0.0047,  0.0084], device='cuda:0'), grad: tensor([ 0.0074,  0.0068,  0.0255, -0.0542, -0.0230,  0.0368,  0.0424, -0.0292,
+        -0.0284,  0.0159], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 392, time 216.43, cls_loss 0.4626 cls_loss_mapping 0.0019 cls_loss_causal 0.4292 re_mapping 0.0055 re_causal 0.0157 /// teacc 98.91 lr 0.00010000
+Epoch 394, weight, value: tensor([[ 0.0411,  0.1300, -0.1834,  ..., -0.1060,  0.0749,  0.0024],
+        [-0.1041, -0.1031,  0.1159,  ..., -0.0480, -0.1134,  0.0552],
+        [-0.0961, -0.0703, -0.1174,  ..., -0.1361, -0.0158,  0.0585],
+        ...,
+        [-0.0107, -0.1327, -0.1383,  ..., -0.1116, -0.0501,  0.0775],
+        [-0.1298, -0.1181, -0.1159,  ..., -0.0678, -0.0504, -0.0995],
+        [ 0.0235, -0.0337, -0.0583,  ..., -0.0984,  0.0129, -0.0210]],
+       device='cuda:0'), grad: tensor([[-4.0627e-03, -3.4523e-04,  2.0719e-04,  ...,  3.0845e-05,
+         -4.9782e-03, -4.8828e-03],
+        [ 5.4502e-04,  5.8025e-05, -3.8004e-04,  ...,  4.7922e-05,
+          7.4244e-04,  2.4307e-04],
+        [ 1.1444e-03,  1.8346e-04, -3.1090e-04,  ...,  1.6022e-04,
+          1.0624e-03,  6.6280e-04],
+        ...,
+        [ 4.8590e-04,  8.9288e-05,  3.7599e-04,  ...,  6.1572e-05,
+          2.3091e-04,  6.3562e-04],
+        [ 6.8235e-04,  1.1843e-04,  3.3569e-04,  ...,  9.9123e-05,
+          3.2616e-04,  7.9393e-04],
+        [ 1.5008e-04,  2.9159e-04,  4.0674e-04,  ...,  2.3603e-05,
+          3.0065e-04,  7.5674e-04]], device='cuda:0')
+Epoch 394, bias, value: tensor([ 0.0090,  0.0066, -0.0029, -0.0181,  0.0081, -0.0148, -0.0142, -0.0181,
+        -0.0050,  0.0088], device='cuda:0'), grad: tensor([-0.0088, -0.0159, -0.0114, -0.0405,  0.0126,  0.0168,  0.0061,  0.0145,
+         0.0143,  0.0123], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 393, time 216.11, cls_loss 0.4690 cls_loss_mapping 0.0030 cls_loss_causal 0.4529 re_mapping 0.0058 re_causal 0.0155 /// teacc 98.67 lr 0.00010000
+Epoch 395, weight, value: tensor([[ 0.0399,  0.1300, -0.1836,  ..., -0.1063,  0.0753,  0.0026],
+        [-0.1064, -0.1036,  0.1150,  ..., -0.0483, -0.1139,  0.0550],
+        [-0.0965, -0.0701, -0.1166,  ..., -0.1358, -0.0159,  0.0594],
+        ...,
+        [-0.0091, -0.1328, -0.1401,  ..., -0.1124, -0.0513,  0.0776],
+        [-0.1299, -0.1187, -0.1166,  ..., -0.0674, -0.0494, -0.1000],
+        [ 0.0220, -0.0347, -0.0579,  ..., -0.0979,  0.0120, -0.0220]],
+       device='cuda:0'), grad: tensor([[ 4.0550e-03,  3.0443e-05,  1.4424e-04,  ...,  1.5140e-04,
+          3.1114e-04, -7.5579e-04],
+        [-7.5645e-03,  1.1273e-05,  9.3365e-04,  ..., -4.6349e-03,
+          4.4644e-05, -8.1100e-03],
+        [ 1.5144e-03,  2.4185e-05,  2.5010e-04,  ...,  3.3945e-05,
+          1.0037e-04,  1.5945e-03],
+        ...,
+        [ 1.1253e-03,  8.5688e-04,  2.8648e-03,  ...,  1.8105e-05,
+          3.3826e-05,  1.9035e-03],
+        [ 1.5125e-03,  1.2553e-04,  1.8539e-03,  ...,  1.2457e-04,
+          1.4651e-04,  1.9131e-03],
+        [ 1.5419e-02, -9.3842e-04, -1.0735e-02,  ...,  2.3365e-05,
+          2.9445e-05, -3.1509e-03]], device='cuda:0')
+Epoch 395, bias, value: tensor([ 0.0087,  0.0062, -0.0023, -0.0173,  0.0085, -0.0150, -0.0150, -0.0178,
+        -0.0046,  0.0080], device='cuda:0'), grad: tensor([-0.0019, -0.0087,  0.0153, -0.0089, -0.0023,  0.0173, -0.0049,  0.0243,
+         0.0203, -0.0504], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 394, time 216.78, cls_loss 0.4854 cls_loss_mapping 0.0029 cls_loss_causal 0.4674 re_mapping 0.0054 re_causal 0.0146 /// teacc 98.86 lr 0.00010000
+Epoch 396, weight, value: tensor([[ 0.0390,  0.1300, -0.1825,  ..., -0.1065,  0.0753,  0.0021],
+        [-0.1077, -0.1040,  0.1171,  ..., -0.0479, -0.1148,  0.0562],
+        [-0.0976, -0.0711, -0.1170,  ..., -0.1357, -0.0163,  0.0597],
+        ...,
+        [-0.0078, -0.1336, -0.1416,  ..., -0.1130, -0.0514,  0.0772],
+        [-0.1314, -0.1190, -0.1178,  ..., -0.0678, -0.0496, -0.1011],
+        [ 0.0216, -0.0345, -0.0576,  ..., -0.0983,  0.0115, -0.0214]],
+       device='cuda:0'), grad: tensor([[ 8.1301e-05, -2.6554e-05,  2.8014e-04,  ...,  7.0512e-05,
+         -2.6310e-07,  2.5630e-04],
+        [ 1.2720e-04,  6.7754e-07,  4.3201e-04,  ...,  1.0186e-04,
+          1.0310e-06,  3.9077e-04],
+        [ 8.4102e-05,  2.7437e-06,  2.8706e-04,  ...,  1.9217e-03,
+          1.4203e-06,  7.6628e-04],
+        ...,
+        [ 4.3344e-04,  5.4687e-06,  3.4714e-04,  ...,  1.3456e-05,
+          3.0026e-05,  2.9049e-03],
+        [ 8.8871e-05,  2.5466e-05,  3.0565e-04,  ...,  2.2614e-04,
+          2.8517e-06,  5.4598e-04],
+        [-7.5645e-03, -8.8882e-04, -1.1358e-03,  ...,  2.7359e-05,
+         -5.1956e-03,  3.5501e-04]], device='cuda:0')
+Epoch 396, bias, value: tensor([ 0.0085,  0.0065, -0.0031, -0.0182,  0.0080, -0.0147, -0.0143, -0.0178,
+        -0.0041,  0.0084], device='cuda:0'), grad: tensor([ 0.0077,  0.0099,  0.0149,  0.0096, -0.0375,  0.0073, -0.0066, -0.0136,
+         0.0134, -0.0051], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 395, time 216.17, cls_loss 0.4741 cls_loss_mapping 0.0024 cls_loss_causal 0.4581 re_mapping 0.0051 re_causal 0.0145 /// teacc 98.70 lr 0.00010000
+Epoch 397, weight, value: tensor([[ 0.0383,  0.1306, -0.1819,  ..., -0.1062,  0.0758,  0.0033],
+        [-0.1077, -0.1043,  0.1165,  ..., -0.0480, -0.1150,  0.0563],
+        [-0.0970, -0.0715, -0.1174,  ..., -0.1356, -0.0161,  0.0590],
+        ...,
+        [-0.0081, -0.1337, -0.1411,  ..., -0.1140, -0.0495,  0.0768],
+        [-0.1325, -0.1175, -0.1181,  ..., -0.0681, -0.0501, -0.1020],
+        [ 0.0221, -0.0337, -0.0580,  ..., -0.0998,  0.0123, -0.0226]],
+       device='cuda:0'), grad: tensor([[ 6.6996e-04, -4.4763e-05,  4.1652e-04,  ...,  7.5102e-05,
+          4.3929e-05,  2.2185e-04],
+        [ 8.2302e-04,  1.0699e-04,  4.8161e-04,  ...,  5.5343e-05,
+          4.8518e-05,  2.4052e-03],
+        [-1.5392e-03,  9.0659e-05,  3.7241e-04,  ...,  1.2785e-05,
+         -4.4346e-04, -2.2068e-03],
+        ...,
+        [-2.7504e-03,  1.3605e-05,  6.7425e-04,  ...,  5.0999e-06,
+          5.2452e-05,  9.7132e-04],
+        [ 8.5258e-04,  1.9188e-03,  1.8291e-03,  ...,  7.0095e-04,
+          4.2230e-05,  1.0091e-04],
+        [ 9.6512e-03,  1.5450e-04,  6.5041e-04,  ...,  3.6776e-05,
+          6.1989e-05,  6.1226e-04]], device='cuda:0')
+Epoch 397, bias, value: tensor([ 0.0085,  0.0064, -0.0028, -0.0191,  0.0083, -0.0141, -0.0152, -0.0171,
+        -0.0041,  0.0082], device='cuda:0'), grad: tensor([ 0.0119,  0.0219, -0.0228, -0.1191,  0.0017,  0.0197,  0.0093,  0.0060,
+         0.0246,  0.0468], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 396, time 216.25, cls_loss 0.4627 cls_loss_mapping 0.0032 cls_loss_causal 0.4436 re_mapping 0.0052 re_causal 0.0143 /// teacc 98.87 lr 0.00010000
+Epoch 398, weight, value: tensor([[ 0.0387,  0.1304, -0.1814,  ..., -0.1066,  0.0753,  0.0041],
+        [-0.1089, -0.1035,  0.1178,  ..., -0.0479, -0.1136,  0.0569],
+        [-0.0949, -0.0713, -0.1182,  ..., -0.1371, -0.0165,  0.0583],
+        ...,
+        [-0.0094, -0.1341, -0.1410,  ..., -0.1128, -0.0506,  0.0774],
+        [-0.1313, -0.1158, -0.1186,  ..., -0.0672, -0.0483, -0.1031],
+        [ 0.0215, -0.0335, -0.0575,  ..., -0.1007,  0.0122, -0.0236]],
+       device='cuda:0'), grad: tensor([[ 1.6937e-03,  6.2037e-04,  1.2035e-03,  ...,  7.6914e-04,
+          7.3385e-04,  9.7275e-04],
+        [-9.0122e-04,  1.4126e-04, -2.1248e-03,  ...,  9.4116e-05,
+         -4.0948e-05, -2.5330e-03],
+        [ 2.0580e-03,  4.1533e-04,  1.1721e-03,  ...,  2.3198e-04,
+          2.2354e-03,  1.0323e-02],
+        ...,
+        [ 1.6632e-03,  1.6356e-04,  7.5626e-04,  ...,  8.5771e-05,
+         -7.7152e-04, -7.1983e-03],
+        [-8.7357e-04,  1.1390e-04, -3.0923e-04,  ..., -1.2599e-05,
+         -9.5940e-04,  1.3819e-03],
+        [ 7.7724e-04, -3.0518e-04, -1.1206e-05,  ...,  7.4387e-05,
+          5.9795e-04,  4.4870e-04]], device='cuda:0')
+Epoch 398, bias, value: tensor([ 0.0090,  0.0064, -0.0029, -0.0185,  0.0095, -0.0155, -0.0152, -0.0169,
+        -0.0043,  0.0075], device='cuda:0'), grad: tensor([ 0.0229, -0.0272,  0.0400,  0.0034,  0.0030, -0.0426, -0.0082,  0.0108,
+         0.0093, -0.0114], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 397, time 216.34, cls_loss 0.4601 cls_loss_mapping 0.0026 cls_loss_causal 0.4396 re_mapping 0.0051 re_causal 0.0141 /// teacc 98.98 lr 0.00010000
+Epoch 399, weight, value: tensor([[ 0.0384,  0.1309, -0.1821,  ..., -0.1068,  0.0753,  0.0040],
+        [-0.1079, -0.1050,  0.1171,  ..., -0.0476, -0.1147,  0.0579],
+        [-0.0938, -0.0724, -0.1184,  ..., -0.1371, -0.0165,  0.0569],
+        ...,
+        [-0.0099, -0.1344, -0.1405,  ..., -0.1130, -0.0510,  0.0772],
+        [-0.1312, -0.1168, -0.1198,  ..., -0.0674, -0.0481, -0.1015],
+        [ 0.0221, -0.0329, -0.0567,  ..., -0.1020,  0.0122, -0.0242]],
+       device='cuda:0'), grad: tensor([[ 1.9989e-03,  8.4972e-04,  9.0408e-04,  ...,  1.4830e-03,
+         -8.0913e-06,  4.1428e-03],
+        [-2.8648e-03, -1.1034e-03, -1.6041e-03,  ..., -1.7118e-03,
+          3.0454e-07, -6.8474e-03],
+        [ 1.7643e-04,  9.9838e-06,  3.7742e-04,  ...,  1.4372e-05,
+          1.0189e-06,  7.6962e-04],
+        ...,
+        [-3.7313e-04,  3.4999e-06, -5.8126e-04,  ...,  4.7013e-06,
+          6.8359e-07,  1.3342e-03],
+        [ 5.1308e-04,  1.4174e-04,  8.3971e-04,  ...,  2.2018e-04,
+          7.3528e-07,  1.5373e-03],
+        [ 1.9944e-04,  1.0401e-05, -7.9298e-04,  ...,  3.3975e-05,
+          3.1199e-06, -3.8605e-03]], device='cuda:0')
+Epoch 399, bias, value: tensor([ 0.0089,  0.0074, -0.0038, -0.0194,  0.0086, -0.0137, -0.0146, -0.0171,
+        -0.0051,  0.0080], device='cuda:0'), grad: tensor([-0.0060, -0.0012,  0.0126,  0.0148,  0.0172,  0.0140, -0.0182, -0.0124,
+         0.0176, -0.0385], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 398, time 216.67, cls_loss 0.4950 cls_loss_mapping 0.0035 cls_loss_causal 0.4777 re_mapping 0.0050 re_causal 0.0132 /// teacc 98.86 lr 0.00010000
+Epoch 400, weight, value: tensor([[ 0.0386,  0.1307, -0.1822,  ..., -0.1067,  0.0756,  0.0038],
+        [-0.1080, -0.1062,  0.1175,  ..., -0.0479, -0.1156,  0.0575],
+        [-0.0958, -0.0721, -0.1188,  ..., -0.1370, -0.0169,  0.0567],
+        ...,
+        [-0.0098, -0.1347, -0.1415,  ..., -0.1138, -0.0505,  0.0774],
+        [-0.1324, -0.1170, -0.1198,  ..., -0.0674, -0.0480, -0.1021],
+        [ 0.0230, -0.0326, -0.0564,  ..., -0.1027,  0.0120, -0.0245]],
+       device='cuda:0'), grad: tensor([[ 2.1286e-03,  4.4560e-04, -6.5727e-03,  ...,  2.4343e-04,
+          2.6250e-04,  2.1591e-03],
+        [ 7.7391e-04,  1.4019e-04,  1.0967e-03,  ...,  1.1486e-04,
+          1.1140e-04,  2.6321e-03],
+        [ 9.0551e-04,  1.9026e-04,  7.7534e-04,  ...,  1.3196e-04,
+          1.1700e-04, -4.7798e-03],
+        ...,
+        [ 8.8453e-04,  1.5175e-04,  9.2697e-04,  ...,  4.1515e-05,
+          1.0818e-04,  1.5583e-03],
+        [ 3.2878e-04,  2.3150e-04, -1.8466e-04,  ..., -9.6655e-04,
+          1.3292e-04, -1.2980e-03],
+        [-1.0824e-03, -7.8678e-04,  9.7036e-04,  ...,  3.9846e-05,
+          9.4354e-05, -1.1034e-03]], device='cuda:0')
+Epoch 400, bias, value: tensor([ 0.0088,  0.0073, -0.0040, -0.0186,  0.0078, -0.0123, -0.0140, -0.0183,
+        -0.0052,  0.0080], device='cuda:0'), grad: tensor([ 0.0083,  0.0368, -0.0193, -0.0897, -0.0030,  0.0383,  0.0162,  0.0363,
+         0.0091, -0.0331], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 399, time 216.56, cls_loss 0.4681 cls_loss_mapping 0.0023 cls_loss_causal 0.4455 re_mapping 0.0051 re_causal 0.0136 /// teacc 98.85 lr 0.00001000
+Epoch 401, weight, value: tensor([[ 0.0381,  0.1307, -0.1819,  ..., -0.1074,  0.0762,  0.0037],
+        [-0.1084, -0.1055,  0.1167,  ..., -0.0470, -0.1144,  0.0568],
+        [-0.0971, -0.0722, -0.1185,  ..., -0.1366, -0.0172,  0.0560],
+        ...,
+        [-0.0095, -0.1343, -0.1411,  ..., -0.1143, -0.0509,  0.0772],
+        [-0.1329, -0.1158, -0.1184,  ..., -0.0665, -0.0475, -0.1010],
+        [ 0.0221, -0.0323, -0.0568,  ..., -0.1033,  0.0116, -0.0234]],
+       device='cuda:0'), grad: tensor([[-1.1848e-02, -8.2321e-03, -4.2992e-03,  ..., -7.9930e-05,
+         -5.5580e-03,  4.5821e-06],
+        [-1.3103e-03,  1.9789e-05,  1.3494e-04,  ...,  1.8487e-06,
+          2.7943e-04, -2.6054e-03],
+        [ 6.3562e-04,  3.3903e-04,  3.4642e-04,  ...,  5.2638e-06,
+          5.6839e-04, -1.3375e-04],
+        ...,
+        [ 2.6188e-03,  7.0035e-05,  2.0301e-04,  ...,  8.6473e-07,
+          6.1893e-04,  2.5826e-03],
+        [ 1.0433e-03,  2.0516e-04,  2.7180e-04,  ...,  8.9779e-06,
+          5.7793e-04,  3.4809e-05],
+        [-2.5883e-03,  2.4021e-04, -2.6779e-03,  ...,  3.1702e-06,
+          7.1383e-04, -2.5916e-04]], device='cuda:0')
+Epoch 401, bias, value: tensor([ 0.0085,  0.0063, -0.0046, -0.0173,  0.0077, -0.0133, -0.0137, -0.0178,
+        -0.0054,  0.0089], device='cuda:0'), grad: tensor([-0.0344,  0.0029, -0.0034,  0.0239,  0.0217,  0.0171, -0.0218,  0.0129,
+         0.0139, -0.0328], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 400, time 216.45, cls_loss 0.4730 cls_loss_mapping 0.0015 cls_loss_causal 0.4433 re_mapping 0.0051 re_causal 0.0144 /// teacc 98.87 lr 0.00001000
+Epoch 402, weight, value: tensor([[ 0.0383,  0.1309, -0.1819,  ..., -0.1074,  0.0764,  0.0038],
+        [-0.1085, -0.1055,  0.1168,  ..., -0.0470, -0.1145,  0.0568],
+        [-0.0969, -0.0722, -0.1185,  ..., -0.1366, -0.0172,  0.0561],
+        ...,
+        [-0.0095, -0.1342, -0.1411,  ..., -0.1142, -0.0510,  0.0772],
+        [-0.1329, -0.1160, -0.1185,  ..., -0.0666, -0.0476, -0.1011],
+        [ 0.0220, -0.0323, -0.0569,  ..., -0.1033,  0.0114, -0.0235]],
+       device='cuda:0'), grad: tensor([[-1.1225e-03, -2.7390e-03, -2.3975e-03,  ..., -1.8530e-03,
+         -1.3018e-03, -5.9938e-04],
+        [ 1.0653e-03,  1.5831e-04,  2.4676e-04,  ...,  1.3709e-04,
+          7.6473e-05,  7.1478e-04],
+        [-1.3208e-03,  6.6519e-05, -4.1924e-03,  ..., -2.7800e-04,
+          3.7849e-05, -1.4982e-03],
+        ...,
+        [-5.9700e-03,  3.9220e-05,  2.1279e-04,  ...,  3.3259e-05,
+          1.9178e-05, -7.5483e-04],
+        [ 7.7391e-04,  2.5630e-04,  4.1604e-04,  ...,  2.1195e-04,
+          1.2219e-04, -2.3174e-03],
+        [ 1.4186e-04,  1.9968e-04,  4.3726e-04,  ...,  1.7023e-04,
+          1.0115e-04, -1.6165e-04]], device='cuda:0')
+Epoch 402, bias, value: tensor([ 0.0085,  0.0063, -0.0045, -0.0171,  0.0076, -0.0134, -0.0137, -0.0178,
+        -0.0054,  0.0088], device='cuda:0'), grad: tensor([ 0.0051,  0.0061, -0.0455,  0.0299,  0.0161,  0.0241,  0.0202, -0.0430,
+        -0.0189,  0.0058], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 401, time 216.40, cls_loss 0.4249 cls_loss_mapping 0.0014 cls_loss_causal 0.4040 re_mapping 0.0049 re_causal 0.0136 /// teacc 98.89 lr 0.00001000
+Epoch 403, weight, value: tensor([[ 0.0384,  0.1309, -0.1817,  ..., -0.1074,  0.0765,  0.0038],
+        [-0.1086, -0.1055,  0.1169,  ..., -0.0470, -0.1147,  0.0568],
+        [-0.0969, -0.0721, -0.1186,  ..., -0.1365, -0.0170,  0.0562],
+        ...,
+        [-0.0094, -0.1342, -0.1411,  ..., -0.1142, -0.0508,  0.0771],
+        [-0.1329, -0.1161, -0.1186,  ..., -0.0666, -0.0475, -0.1010],
+        [ 0.0219, -0.0322, -0.0569,  ..., -0.1034,  0.0113, -0.0237]],
+       device='cuda:0'), grad: tensor([[ 3.4165e-04, -1.1545e-04,  5.3495e-05,  ...,  2.2948e-05,
+         -1.1399e-06, -1.1361e-04],
+        [ 8.5115e-04,  1.0192e-05,  3.4153e-05,  ...,  8.6352e-06,
+          7.8380e-05,  1.0929e-03],
+        [ 8.2684e-04, -3.8296e-05, -2.5630e-04,  ..., -6.4731e-05,
+          3.7003e-04,  5.0068e-04],
+        ...,
+        [-1.7052e-03,  3.9823e-06,  1.2532e-05,  ...,  3.0156e-06,
+          6.1035e-05, -4.1199e-03],
+        [ 3.6073e-04,  3.5107e-05,  9.2685e-05,  ...,  2.9951e-05,
+          1.1468e-04,  5.1689e-04],
+        [ 2.5196e-03,  8.8155e-05,  6.3516e-06,  ...,  1.8505e-06,
+          1.9050e-04,  4.7531e-03]], device='cuda:0')
+Epoch 403, bias, value: tensor([ 0.0086,  0.0063, -0.0044, -0.0171,  0.0075, -0.0135, -0.0137, -0.0178,
+        -0.0055,  0.0087], device='cuda:0'), grad: tensor([-0.0198,  0.0050,  0.0110,  0.0092, -0.0186, -0.0433,  0.0397, -0.0079,
+         0.0161,  0.0086], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 402, time 216.43, cls_loss 0.4861 cls_loss_mapping 0.0012 cls_loss_causal 0.4616 re_mapping 0.0048 re_causal 0.0137 /// teacc 98.93 lr 0.00001000
+Epoch 404, weight, value: tensor([[ 0.0385,  0.1309, -0.1817,  ..., -0.1076,  0.0767,  0.0039],
+        [-0.1085, -0.1056,  0.1167,  ..., -0.0470, -0.1148,  0.0568],
+        [-0.0969, -0.0721, -0.1186,  ..., -0.1364, -0.0172,  0.0560],
+        ...,
+        [-0.0093, -0.1343, -0.1412,  ..., -0.1142, -0.0509,  0.0773],
+        [-0.1329, -0.1161, -0.1184,  ..., -0.0667, -0.0474, -0.1011],
+        [ 0.0217, -0.0320, -0.0567,  ..., -0.1034,  0.0112, -0.0239]],
+       device='cuda:0'), grad: tensor([[ 5.7125e-04,  3.8207e-05,  3.1853e-04,  ...,  5.9128e-05,
+          4.0859e-05,  1.1930e-03],
+        [ 5.3978e-04,  1.3083e-05, -1.2732e-04,  ..., -2.3448e-04,
+          1.0794e-04,  7.8201e-04],
+        [ 5.0783e-04,  3.2306e-05, -5.7983e-04,  ...,  4.2915e-05,
+          4.7922e-05,  5.4073e-04],
+        ...,
+        [-2.4681e-03,  7.8797e-05,  5.8317e-04,  ...,  4.0501e-05,
+          2.0385e-04, -4.4670e-03],
+        [ 8.3256e-04,  1.0595e-03,  5.8317e-04,  ...,  1.2624e-04,
+          1.4710e-04,  9.1505e-04],
+        [-4.5729e-04, -6.5088e-05,  6.9737e-05,  ...,  6.3121e-05,
+         -3.1543e-04,  8.6641e-04]], device='cuda:0')
+Epoch 404, bias, value: tensor([ 0.0087,  0.0063, -0.0046, -0.0172,  0.0075, -0.0135, -0.0135, -0.0178,
+        -0.0055,  0.0087], device='cuda:0'), grad: tensor([ 0.0129,  0.0144, -0.0078,  0.0012, -0.0154, -0.0048, -0.0139, -0.0165,
+         0.0167,  0.0132], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 403, time 216.29, cls_loss 0.4843 cls_loss_mapping 0.0014 cls_loss_causal 0.4596 re_mapping 0.0046 re_causal 0.0135 /// teacc 98.91 lr 0.00001000
+Epoch 405, weight, value: tensor([[ 0.0386,  0.1308, -0.1815,  ..., -0.1076,  0.0768,  0.0040],
+        [-0.1086, -0.1057,  0.1167,  ..., -0.0469, -0.1149,  0.0568],
+        [-0.0969, -0.0721, -0.1186,  ..., -0.1364, -0.0173,  0.0560],
+        ...,
+        [-0.0092, -0.1344, -0.1412,  ..., -0.1141, -0.0510,  0.0773],
+        [-0.1329, -0.1162, -0.1184,  ..., -0.0667, -0.0474, -0.1012],
+        [ 0.0216, -0.0320, -0.0568,  ..., -0.1034,  0.0112, -0.0238]],
+       device='cuda:0'), grad: tensor([[-4.7296e-05,  1.1642e-06,  3.7766e-04,  ...,  2.1741e-05,
+          3.0875e-05,  7.3719e-04],
+        [-2.7657e-03,  1.9707e-06,  5.4789e-04,  ..., -1.3793e-04,
+          3.6567e-05, -5.7755e-03],
+        [ 4.4465e-04,  3.4541e-05,  5.7077e-04,  ...,  4.8503e-06,
+          4.6432e-05,  8.9884e-04],
+        ...,
+        [ 5.3024e-04,  1.2564e-06, -1.0960e-05,  ...,  1.3269e-05,
+          4.2230e-05,  5.4932e-04],
+        [ 6.3562e-04,  6.2510e-06,  4.7851e-04,  ...,  2.5615e-05,
+          3.0845e-05,  1.1959e-03],
+        [-1.0750e-02,  1.2442e-06,  8.8167e-04,  ...,  1.2130e-05,
+         -7.4692e-03,  2.5043e-03]], device='cuda:0')
+Epoch 405, bias, value: tensor([ 0.0089,  0.0063, -0.0047, -0.0171,  0.0076, -0.0136, -0.0135, -0.0178,
+        -0.0056,  0.0087], device='cuda:0'), grad: tensor([-0.0390, -0.0228,  0.0145,  0.0156,  0.0018,  0.0302, -0.0087, -0.0117,
+         0.0150,  0.0053], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 404, time 216.04, cls_loss 0.4775 cls_loss_mapping 0.0013 cls_loss_causal 0.4538 re_mapping 0.0044 re_causal 0.0128 /// teacc 98.96 lr 0.00001000
+Epoch 406, weight, value: tensor([[ 0.0387,  0.1308, -0.1813,  ..., -0.1075,  0.0770,  0.0040],
+        [-0.1088, -0.1059,  0.1168,  ..., -0.0470, -0.1149,  0.0566],
+        [-0.0969, -0.0721, -0.1185,  ..., -0.1363, -0.0174,  0.0561],
+        ...,
+        [-0.0093, -0.1345, -0.1413,  ..., -0.1142, -0.0510,  0.0774],
+        [-0.1329, -0.1161, -0.1183,  ..., -0.0668, -0.0475, -0.1012],
+        [ 0.0217, -0.0319, -0.0568,  ..., -0.1036,  0.0113, -0.0238]],
+       device='cuda:0'), grad: tensor([[ 8.6927e-04, -9.5320e-04,  3.6740e-04,  ...,  3.7819e-05,
+          6.1607e-04,  8.4448e-04],
+        [-2.3139e-04,  2.8610e-04,  2.6345e-04,  ...,  2.9686e-07,
+          1.1164e-04, -1.6317e-03],
+        [ 7.3528e-04,  2.1207e-04,  2.9731e-04,  ...,  5.3644e-07,
+          4.1175e-04,  5.9509e-04],
+        ...,
+        [ 7.6447e-03,  3.7074e-04, -1.8873e-03,  ...,  9.4529e-08,
+          1.1263e-03,  3.4218e-03],
+        [-6.8855e-04, -8.8406e-04, -4.6897e-04,  ...,  4.1686e-06,
+         -2.0790e-03, -9.2983e-04],
+        [ 3.1624e-03,  3.4404e-04,  2.9635e-04,  ...,  7.5903e-07,
+         -8.0919e-04,  2.4331e-04]], device='cuda:0')
+Epoch 406, bias, value: tensor([ 0.0090,  0.0062, -0.0046, -0.0171,  0.0075, -0.0137, -0.0135, -0.0178,
+        -0.0055,  0.0087], device='cuda:0'), grad: tensor([ 0.0131, -0.0184,  0.0100, -0.0128, -0.0155,  0.0141,  0.0030,  0.0123,
+        -0.0199,  0.0140], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 405, time 216.63, cls_loss 0.4276 cls_loss_mapping 0.0010 cls_loss_causal 0.4047 re_mapping 0.0044 re_causal 0.0122 /// teacc 99.00 lr 0.00001000
+Epoch 407, weight, value: tensor([[ 0.0388,  0.1309, -0.1813,  ..., -0.1075,  0.0771,  0.0042],
+        [-0.1085, -0.1059,  0.1169,  ..., -0.0469, -0.1151,  0.0566],
+        [-0.0970, -0.0721, -0.1185,  ..., -0.1363, -0.0174,  0.0560],
+        ...,
+        [-0.0090, -0.1345, -0.1413,  ..., -0.1143, -0.0512,  0.0773],
+        [-0.1329, -0.1161, -0.1181,  ..., -0.0667, -0.0475, -0.1011],
+        [ 0.0217, -0.0319, -0.0568,  ..., -0.1037,  0.0113, -0.0237]],
+       device='cuda:0'), grad: tensor([[ 1.6470e-03,  9.2506e-04, -8.0490e-04,  ...,  0.0000e+00,
+          4.7851e-04,  5.7507e-04],
+        [-1.0490e-03,  4.0889e-05,  4.7188e-03,  ...,  0.0000e+00,
+          2.2843e-05,  3.9215e-03],
+        [-4.2610e-03,  1.1462e-04, -4.6234e-03,  ...,  0.0000e+00,
+         -3.7594e-03, -7.5569e-03],
+        ...,
+        [-7.4806e-03, -6.9504e-03,  5.6887e-04,  ...,  0.0000e+00,
+         -5.4932e-04,  1.1301e-03],
+        [ 1.8072e-03,  7.8249e-04,  6.7616e-04,  ...,  0.0000e+00,
+          8.2791e-05,  6.6137e-04],
+        [ 1.5182e-03,  3.9983e-04,  6.3896e-04,  ...,  0.0000e+00,
+          7.8630e-04, -3.6068e-03]], device='cuda:0')
+Epoch 407, bias, value: tensor([ 0.0092,  0.0064, -0.0047, -0.0171,  0.0073, -0.0137, -0.0137, -0.0179,
+        -0.0053,  0.0088], device='cuda:0'), grad: tensor([-0.0084,  0.0049, -0.0601,  0.0052,  0.0041,  0.0389, -0.0045,  0.0033,
+         0.0025,  0.0141], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 406, time 216.28, cls_loss 0.4390 cls_loss_mapping 0.0010 cls_loss_causal 0.4145 re_mapping 0.0043 re_causal 0.0124 /// teacc 99.00 lr 0.00001000
+Epoch 408, weight, value: tensor([[ 0.0387,  0.1310, -0.1814,  ..., -0.1075,  0.0770,  0.0042],
+        [-0.1085, -0.1058,  0.1170,  ..., -0.0470, -0.1150,  0.0567],
+        [-0.0970, -0.0721, -0.1185,  ..., -0.1363, -0.0174,  0.0560],
+        ...,
+        [-0.0091, -0.1344, -0.1413,  ..., -0.1145, -0.0513,  0.0773],
+        [-0.1329, -0.1163, -0.1182,  ..., -0.0669, -0.0476, -0.1011],
+        [ 0.0217, -0.0320, -0.0569,  ..., -0.1039,  0.0113, -0.0236]],
+       device='cuda:0'), grad: tensor([[-1.1759e-03, -5.1446e-06, -2.2659e-03,  ...,  1.1820e-04,
+          2.7108e-04, -1.1368e-03],
+        [-7.6246e-04, -1.8207e-06, -4.9896e-03,  ..., -2.6779e-03,
+          1.5426e-04, -1.0727e-02],
+        [-8.4543e-04,  3.1404e-06,  1.5697e-03,  ...,  9.6464e-04,
+         -2.1935e-03, -1.8053e-03],
+        ...,
+        [ 6.4659e-04, -6.7391e-06,  1.1454e-03,  ...,  1.4460e-04,
+          4.8661e-04,  1.0958e-03],
+        [ 5.9557e-04,  2.8759e-05,  8.8644e-04,  ..., -6.6519e-05,
+          4.3750e-04,  1.5373e-03],
+        [ 8.3208e-04,  2.8923e-05,  1.0490e-03,  ...,  9.8586e-05,
+          6.0225e-04,  2.6588e-03]], device='cuda:0')
+Epoch 408, bias, value: tensor([ 0.0092,  0.0064, -0.0046, -0.0172,  0.0074, -0.0138, -0.0138, -0.0180,
+        -0.0052,  0.0089], device='cuda:0'), grad: tensor([-0.0041, -0.1091,  0.0025,  0.0266, -0.0282, -0.0079,  0.0332,  0.0277,
+         0.0253,  0.0341], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 407, time 216.38, cls_loss 0.4641 cls_loss_mapping 0.0011 cls_loss_causal 0.4369 re_mapping 0.0044 re_causal 0.0129 /// teacc 98.97 lr 0.00001000
+Epoch 409, weight, value: tensor([[ 0.0388,  0.1309, -0.1813,  ..., -0.1077,  0.0770,  0.0042],
+        [-0.1084, -0.1057,  0.1169,  ..., -0.0471, -0.1151,  0.0567],
+        [-0.0969, -0.0720, -0.1184,  ..., -0.1362, -0.0172,  0.0560],
+        ...,
+        [-0.0091, -0.1343, -0.1414,  ..., -0.1144, -0.0514,  0.0774],
+        [-0.1330, -0.1164, -0.1182,  ..., -0.0670, -0.0475, -0.1010],
+        [ 0.0217, -0.0319, -0.0570,  ..., -0.1041,  0.0113, -0.0238]],
+       device='cuda:0'), grad: tensor([[ 1.2026e-03, -7.7933e-06,  5.2929e-05,  ..., -5.8785e-06,
+         -3.3863e-06,  4.9651e-05],
+        [-1.7662e-03,  1.5869e-03,  1.2192e-02,  ...,  7.2643e-08,
+          1.2200e-07,  9.6436e-03],
+        [-9.6464e-04, -1.6613e-03, -1.2802e-02,  ...,  2.3935e-07,
+          9.2667e-07, -1.0071e-02],
+        ...,
+        [ 8.0681e-04,  3.6031e-05,  1.1194e-04,  ...,  1.8300e-07,
+          7.2867e-06, -9.5904e-05],
+        [ 7.1478e-04, -4.7386e-05, -7.5638e-05,  ...,  1.2834e-06,
+          4.9993e-06, -2.5177e-04],
+        [ 1.5335e-03, -7.8499e-05,  4.1652e-04,  ..., -8.2701e-06,
+         -4.0817e-04,  4.8637e-04]], device='cuda:0')
+Epoch 409, bias, value: tensor([ 0.0093,  0.0064, -0.0047, -0.0172,  0.0073, -0.0138, -0.0137, -0.0180,
+        -0.0052,  0.0088], device='cuda:0'), grad: tensor([ 0.0061,  0.0121, -0.0205, -0.0266,  0.0091,  0.0058,  0.0066,  0.0050,
+        -0.0154,  0.0178], device='cuda:0')
+100
+1e-05
+changing lr
+---------------------saving model at epoch 408----------------------------------------------------
+epoch 408, time 216.88, cls_loss 0.4550 cls_loss_mapping 0.0010 cls_loss_causal 0.4238 re_mapping 0.0044 re_causal 0.0130 /// teacc 99.04 lr 0.00001000
+Epoch 410, weight, value: tensor([[ 0.0387,  0.1310, -0.1814,  ..., -0.1077,  0.0770,  0.0042],
+        [-0.1084, -0.1057,  0.1169,  ..., -0.0472, -0.1152,  0.0566],
+        [-0.0966, -0.0718, -0.1183,  ..., -0.1361, -0.0170,  0.0561],
+        ...,
+        [-0.0091, -0.1343, -0.1414,  ..., -0.1144, -0.0513,  0.0775],
+        [-0.1330, -0.1165, -0.1182,  ..., -0.0669, -0.0475, -0.1009],
+        [ 0.0216, -0.0320, -0.0570,  ..., -0.1041,  0.0110, -0.0240]],
+       device='cuda:0'), grad: tensor([[ 1.2708e-04, -7.6592e-05,  4.1056e-04,  ...,  1.8021e-07,
+         -8.2195e-05,  9.9945e-04],
+        [ 3.9172e-04,  1.0878e-06,  6.5088e-04,  ...,  1.8626e-09,
+          4.9025e-06,  1.9503e-03],
+        [ 4.2772e-04,  1.3269e-05,  5.8270e-04,  ..., -4.7088e-06,
+          1.5192e-05,  1.6842e-03],
+        ...,
+        [ 1.0872e-03,  1.6410e-06,  5.7316e-04,  ...,  3.2596e-08,
+          8.2329e-06,  4.6616e-03],
+        [-2.0332e-03,  2.7508e-05, -1.1511e-03,  ...,  4.2617e-06,
+          7.6033e-06, -3.1757e-03],
+        [ 2.0230e-04,  2.0757e-05,  9.6846e-04,  ...,  6.5193e-09,
+          1.9327e-05,  1.3363e-04]], device='cuda:0')
+Epoch 410, bias, value: tensor([ 0.0093,  0.0064, -0.0046, -0.0173,  0.0074, -0.0137, -0.0138, -0.0180,
+        -0.0051,  0.0087], device='cuda:0'), grad: tensor([ 0.0120,  0.0196,  0.0156,  0.0167, -0.0783, -0.0196,  0.0120,  0.0103,
+        -0.0145,  0.0262], device='cuda:0')
+100
+1e-05
+changing lr
+---------------------saving model at epoch 409----------------------------------------------------
+epoch 409, time 216.89, cls_loss 0.4536 cls_loss_mapping 0.0008 cls_loss_causal 0.4221 re_mapping 0.0042 re_causal 0.0131 /// teacc 99.05 lr 0.00001000
+Epoch 411, weight, value: tensor([[ 0.0387,  0.1311, -0.1813,  ..., -0.1079,  0.0771,  0.0042],
+        [-0.1083, -0.1058,  0.1168,  ..., -0.0473, -0.1152,  0.0566],
+        [-0.0966, -0.0718, -0.1183,  ..., -0.1362, -0.0170,  0.0560],
+        ...,
+        [-0.0090, -0.1344, -0.1415,  ..., -0.1145, -0.0513,  0.0776],
+        [-0.1330, -0.1165, -0.1182,  ..., -0.0669, -0.0476, -0.1011],
+        [ 0.0215, -0.0319, -0.0570,  ..., -0.1042,  0.0108, -0.0239]],
+       device='cuda:0'), grad: tensor([[-4.3640e-03, -1.9018e-06, -1.0862e-03,  ..., -1.4277e-03,
+         -1.4114e-04, -1.2283e-03],
+        [ 3.6573e-04,  8.7824e-07, -1.6022e-03,  ...,  2.4343e-04,
+          2.6286e-05,  6.2084e-04],
+        [ 2.9635e-04,  4.1537e-06,  8.6784e-04,  ...,  4.0960e-04,
+          1.8880e-05,  1.5802e-03],
+        ...,
+        [ 2.9707e-04,  1.1446e-06,  4.9162e-04,  ...,  5.0932e-05,
+          2.4736e-05,  3.0684e-04],
+        [ 1.7500e-03,  9.4855e-07,  1.9360e-03,  ...,  3.4714e-04,
+          1.7166e-05,  2.2449e-03],
+        [-1.5965e-03,  4.8019e-06, -2.0504e-03,  ...,  1.4293e-04,
+          3.2157e-05, -8.2970e-04]], device='cuda:0')
+Epoch 411, bias, value: tensor([ 0.0092,  0.0065, -0.0047, -0.0173,  0.0074, -0.0137, -0.0138, -0.0179,
+        -0.0052,  0.0087], device='cuda:0'), grad: tensor([-0.0441, -0.0050,  0.0201,  0.0124,  0.0263,  0.0087, -0.0279,  0.0118,
+         0.0026, -0.0049], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 410, time 216.76, cls_loss 0.4344 cls_loss_mapping 0.0010 cls_loss_causal 0.4081 re_mapping 0.0043 re_causal 0.0124 /// teacc 99.04 lr 0.00001000
+Epoch 412, weight, value: tensor([[ 0.0387,  0.1310, -0.1811,  ..., -0.1077,  0.0771,  0.0044],
+        [-0.1085, -0.1058,  0.1167,  ..., -0.0473, -0.1153,  0.0565],
+        [-0.0966, -0.0718, -0.1184,  ..., -0.1363, -0.0172,  0.0559],
+        ...,
+        [-0.0089, -0.1344, -0.1415,  ..., -0.1144, -0.0513,  0.0776],
+        [-0.1330, -0.1166, -0.1182,  ..., -0.0668, -0.0476, -0.1010],
+        [ 0.0215, -0.0318, -0.0569,  ..., -0.1043,  0.0108, -0.0240]],
+       device='cuda:0'), grad: tensor([[-4.8866e-03,  2.0757e-05,  3.2139e-04,  ...,  5.7817e-05,
+         -1.3084e-03, -6.1893e-04],
+        [ 1.5640e-04,  1.1533e-04, -1.1845e-03,  ...,  2.0278e-04,
+          1.3757e-04,  9.9063e-05],
+        [ 4.7569e-03,  7.5626e-04,  1.1349e-03,  ...,  1.0508e-04,
+          4.7541e-04, -7.1526e-03],
+        ...,
+        [ 4.9639e-04,  1.1571e-05,  4.7874e-04,  ...,  3.0607e-05,
+          1.0121e-04,  6.6986e-03],
+        [ 1.1024e-03,  2.1899e-04,  5.4359e-04,  ...,  4.0978e-05,
+          2.4438e-04,  1.0376e-03],
+        [ 4.4560e-04,  3.7700e-05,  3.6955e-04,  ...,  1.4412e-04,
+          1.1182e-04,  1.0843e-03]], device='cuda:0')
+Epoch 412, bias, value: tensor([ 0.0094,  0.0064, -0.0048, -0.0173,  0.0074, -0.0137, -0.0137, -0.0179,
+        -0.0052,  0.0088], device='cuda:0'), grad: tensor([-0.0138, -0.0165,  0.0026,  0.0197,  0.0147, -0.0750,  0.0077,  0.0327,
+         0.0144,  0.0135], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 411, time 216.08, cls_loss 0.4225 cls_loss_mapping 0.0008 cls_loss_causal 0.3948 re_mapping 0.0042 re_causal 0.0124 /// teacc 99.02 lr 0.00001000
+Epoch 413, weight, value: tensor([[ 0.0387,  0.1311, -0.1811,  ..., -0.1077,  0.0773,  0.0046],
+        [-0.1086, -0.1058,  0.1168,  ..., -0.0471, -0.1154,  0.0565],
+        [-0.0967, -0.0718, -0.1183,  ..., -0.1363, -0.0173,  0.0560],
+        ...,
+        [-0.0089, -0.1344, -0.1414,  ..., -0.1144, -0.0514,  0.0776],
+        [-0.1330, -0.1166, -0.1182,  ..., -0.0667, -0.0477, -0.1010],
+        [ 0.0215, -0.0317, -0.0569,  ..., -0.1044,  0.0107, -0.0240]],
+       device='cuda:0'), grad: tensor([[ 1.2522e-03,  6.7890e-05,  4.1723e-05,  ...,  5.7602e-04,
+          7.7009e-05,  1.4801e-03],
+        [ 1.3876e-03,  6.6906e-06,  7.1466e-05,  ...,  1.3471e-04,
+          1.7285e-04,  1.4982e-03],
+        [-1.0386e-03,  7.5698e-06,  7.0453e-05,  ...,  1.3769e-04,
+         -8.1968e-04, -7.9193e-03],
+        ...,
+        [ 5.0735e-03,  4.1202e-06,  1.1188e-04,  ...,  2.0814e-04,
+          1.1377e-03,  1.0353e-02],
+        [ 1.5907e-03,  4.4167e-05,  1.2708e-04,  ...,  1.4580e-02,
+          2.1386e-04,  1.7300e-03],
+        [-4.3678e-03,  1.3128e-05, -5.6744e-04,  ..., -1.1091e-03,
+         -1.4896e-03, -5.7678e-03]], device='cuda:0')
+Epoch 413, bias, value: tensor([ 0.0094,  0.0063, -0.0049, -0.0174,  0.0074, -0.0136, -0.0138, -0.0177,
+        -0.0051,  0.0087], device='cuda:0'), grad: tensor([ 0.0140,  0.0159, -0.0149,  0.0142, -0.0144, -0.0439, -0.0338,  0.0425,
+         0.0349, -0.0144], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 412, time 216.74, cls_loss 0.4668 cls_loss_mapping 0.0011 cls_loss_causal 0.4392 re_mapping 0.0043 re_causal 0.0127 /// teacc 99.02 lr 0.00001000
+Epoch 414, weight, value: tensor([[ 0.0387,  0.1311, -0.1811,  ..., -0.1077,  0.0773,  0.0047],
+        [-0.1085, -0.1057,  0.1168,  ..., -0.0472, -0.1154,  0.0565],
+        [-0.0966, -0.0718, -0.1182,  ..., -0.1363, -0.0172,  0.0561],
+        ...,
+        [-0.0090, -0.1344, -0.1413,  ..., -0.1144, -0.0515,  0.0775],
+        [-0.1331, -0.1167, -0.1183,  ..., -0.0667, -0.0478, -0.1011],
+        [ 0.0214, -0.0317, -0.0571,  ..., -0.1044,  0.0109, -0.0240]],
+       device='cuda:0'), grad: tensor([[ 4.1008e-04, -1.6779e-05,  1.9789e-04,  ...,  1.6212e-05,
+          5.6118e-05,  7.0286e-04],
+        [ 5.2786e-04,  3.0641e-06,  2.4533e-04,  ...,  1.5408e-05,
+          5.9456e-05,  9.3079e-04],
+        [ 5.3787e-04,  2.3305e-05,  2.4962e-04,  ...,  3.5057e-03,
+          6.0529e-05,  9.9659e-04],
+        ...,
+        [ 4.3726e-04,  3.8110e-06,  2.8944e-04,  ...,  1.2610e-06,
+          6.8963e-05,  5.6124e-04],
+        [ 1.2989e-03,  6.5613e-04,  1.9264e-04,  ...,  2.3484e-04,
+          5.7667e-05,  5.3072e-04],
+        [-2.2182e-03, -7.6771e-04,  2.1577e-04,  ...,  1.4286e-06,
+         -3.2783e-04, -1.2302e-03]], device='cuda:0')
+Epoch 414, bias, value: tensor([ 0.0094,  0.0063, -0.0046, -0.0174,  0.0075, -0.0135, -0.0140, -0.0178,
+        -0.0052,  0.0086], device='cuda:0'), grad: tensor([ 0.0090,  0.0107,  0.0282, -0.0236, -0.0152,  0.0136, -0.0098,  0.0095,
+         0.0141, -0.0365], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 413, time 216.91, cls_loss 0.4279 cls_loss_mapping 0.0009 cls_loss_causal 0.4006 re_mapping 0.0043 re_causal 0.0126 /// teacc 99.03 lr 0.00001000
+Epoch 415, weight, value: tensor([[ 0.0386,  0.1312, -0.1811,  ..., -0.1076,  0.0773,  0.0047],
+        [-0.1085, -0.1058,  0.1167,  ..., -0.0472, -0.1153,  0.0565],
+        [-0.0966, -0.0717, -0.1182,  ..., -0.1364, -0.0174,  0.0561],
+        ...,
+        [-0.0090, -0.1346, -0.1413,  ..., -0.1144, -0.0515,  0.0775],
+        [-0.1330, -0.1167, -0.1182,  ..., -0.0667, -0.0477, -0.1009],
+        [ 0.0212, -0.0317, -0.0571,  ..., -0.1043,  0.0109, -0.0240]],
+       device='cuda:0'), grad: tensor([[-4.8876e-04, -4.1199e-04, -3.4657e-03,  ...,  0.0000e+00,
+         -2.1210e-03,  6.6996e-05],
+        [-1.9789e-04,  1.3545e-05, -1.2360e-03,  ...,  0.0000e+00,
+          2.0969e-04, -9.5510e-04],
+        [ 1.2088e-04, -7.2531e-06,  7.4863e-04,  ...,  0.0000e+00,
+          3.9959e-04,  1.3769e-04],
+        ...,
+        [ 3.7402e-05,  1.3903e-05,  3.7456e-04,  ...,  0.0000e+00,
+          8.8274e-05,  4.5687e-05],
+        [ 7.1883e-05,  5.0753e-05,  3.8004e-04,  ...,  0.0000e+00,
+          1.4794e-04,  1.0955e-04],
+        [-1.0088e-05,  4.9353e-05,  3.9124e-04,  ...,  0.0000e+00,
+          1.4019e-04,  5.5522e-05]], device='cuda:0')
+Epoch 415, bias, value: tensor([ 0.0094,  0.0064, -0.0046, -0.0175,  0.0076, -0.0137, -0.0142, -0.0178,
+        -0.0049,  0.0084], device='cuda:0'), grad: tensor([-0.0287, -0.0248, -0.0194,  0.0162,  0.0092,  0.0161,  0.0119,  0.0060,
+         0.0098,  0.0038], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 414, time 217.20, cls_loss 0.4381 cls_loss_mapping 0.0009 cls_loss_causal 0.4169 re_mapping 0.0042 re_causal 0.0124 /// teacc 99.03 lr 0.00001000
+Epoch 416, weight, value: tensor([[ 0.0386,  0.1313, -0.1810,  ..., -0.1077,  0.0772,  0.0047],
+        [-0.1085, -0.1059,  0.1166,  ..., -0.0472, -0.1153,  0.0563],
+        [-0.0966, -0.0718, -0.1182,  ..., -0.1365, -0.0174,  0.0561],
+        ...,
+        [-0.0090, -0.1348, -0.1415,  ..., -0.1145, -0.0515,  0.0775],
+        [-0.1331, -0.1167, -0.1181,  ..., -0.0666, -0.0477, -0.1008],
+        [ 0.0213, -0.0318, -0.0572,  ..., -0.1044,  0.0109, -0.0238]],
+       device='cuda:0'), grad: tensor([[ 1.0133e-04, -2.9163e-03,  2.7008e-08,  ...,  1.4439e-05,
+         -9.2850e-03, -5.2986e-03],
+        [ 1.3697e-04,  1.4476e-05, -1.8254e-07,  ...,  3.1237e-06,
+          3.1328e-04, -4.5013e-03],
+        [ 1.4675e-04,  1.7204e-03,  1.8943e-06,  ...,  2.7195e-06,
+          6.3934e-03,  6.1073e-03],
+        ...,
+        [ 1.7357e-04,  5.7407e-06,  1.8952e-06,  ...,  1.7742e-07,
+          3.0661e-04,  4.3344e-04],
+        [-1.3361e-03,  3.8981e-05,  1.7742e-07,  ...,  5.7101e-05,
+         -2.5139e-03,  6.8378e-04],
+        [ 2.7585e-04,  1.7583e-05, -2.5164e-06,  ...,  5.2154e-07,
+          4.7255e-04,  4.9543e-04]], device='cuda:0')
+Epoch 416, bias, value: tensor([ 0.0094,  0.0063, -0.0047, -0.0174,  0.0076, -0.0138, -0.0141, -0.0179,
+        -0.0048,  0.0086], device='cuda:0'), grad: tensor([-0.0425, -0.0230,  0.0489,  0.0135,  0.0069, -0.0257,  0.0332,  0.0058,
+        -0.0245,  0.0075], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 415, time 216.41, cls_loss 0.4615 cls_loss_mapping 0.0010 cls_loss_causal 0.4381 re_mapping 0.0040 re_causal 0.0125 /// teacc 99.00 lr 0.00001000
+Epoch 417, weight, value: tensor([[ 0.0385,  0.1314, -0.1810,  ..., -0.1077,  0.0772,  0.0046],
+        [-0.1085, -0.1060,  0.1168,  ..., -0.0473, -0.1153,  0.0564],
+        [-0.0966, -0.0717, -0.1183,  ..., -0.1364, -0.0175,  0.0560],
+        ...,
+        [-0.0088, -0.1349, -0.1416,  ..., -0.1144, -0.0515,  0.0775],
+        [-0.1331, -0.1168, -0.1181,  ..., -0.0668, -0.0475, -0.1009],
+        [ 0.0214, -0.0318, -0.0572,  ..., -0.1043,  0.0110, -0.0239]],
+       device='cuda:0'), grad: tensor([[ 1.7548e-04, -6.5684e-05,  6.6376e-04,  ...,  1.4293e-04,
+          1.3101e-04,  8.4066e-04],
+        [-1.8799e-04, -1.0061e-04, -1.0033e-03,  ..., -1.6665e-04,
+          4.7743e-05, -5.0068e-04],
+        [ 2.3019e-04, -4.2033e-04,  5.8699e-04,  ...,  5.9992e-05,
+         -1.8349e-03,  7.6580e-04],
+        ...,
+        [ 3.2485e-05,  3.9268e-04, -2.3918e-03,  ..., -5.3692e-04,
+          1.7004e-03,  1.5199e-04],
+        [ 2.0730e-04,  9.3579e-05,  7.3195e-04,  ...,  1.3804e-04,
+          2.3234e-04, -3.5343e-03],
+        [ 9.3043e-05,  5.4598e-05,  6.6805e-04,  ...,  5.8889e-05,
+          2.9302e-04,  8.0824e-04]], device='cuda:0')
+Epoch 417, bias, value: tensor([ 0.0095,  0.0064, -0.0047, -0.0172,  0.0075, -0.0138, -0.0141, -0.0180,
+        -0.0049,  0.0086], device='cuda:0'), grad: tensor([ 0.0137, -0.0128, -0.0021,  0.0156, -0.0142,  0.0121, -0.0083, -0.0023,
+        -0.0165,  0.0146], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 416, time 216.01, cls_loss 0.4444 cls_loss_mapping 0.0010 cls_loss_causal 0.4153 re_mapping 0.0040 re_causal 0.0118 /// teacc 99.00 lr 0.00001000
+Epoch 418, weight, value: tensor([[ 0.0386,  0.1314, -0.1810,  ..., -0.1077,  0.0772,  0.0046],
+        [-0.1085, -0.1059,  0.1167,  ..., -0.0475, -0.1154,  0.0564],
+        [-0.0966, -0.0718, -0.1184,  ..., -0.1363, -0.0174,  0.0560],
+        ...,
+        [-0.0088, -0.1350, -0.1416,  ..., -0.1143, -0.0516,  0.0774],
+        [-0.1331, -0.1168, -0.1181,  ..., -0.0667, -0.0476, -0.1010],
+        [ 0.0213, -0.0318, -0.0573,  ..., -0.1043,  0.0109, -0.0239]],
+       device='cuda:0'), grad: tensor([[-1.7385e-03, -2.0063e-04,  2.7680e-04,  ...,  1.8942e-04,
+         -3.3170e-05, -4.4136e-03],
+        [-7.6473e-05, -5.5361e-04,  1.4496e-04,  ..., -7.2527e-04,
+          9.5963e-06, -2.4700e-03],
+        [ 7.2145e-04,  8.4400e-05,  2.3174e-04,  ...,  2.2486e-05,
+         -1.0042e-03, -4.5204e-03],
+        ...,
+        [ 1.8034e-03,  3.7283e-05,  2.9612e-04,  ...,  3.7551e-05,
+          6.5470e-04,  3.9711e-03],
+        [ 4.8494e-04,  7.4565e-05,  2.7585e-04,  ...,  4.3958e-05,
+          2.8819e-05,  1.4248e-03],
+        [ 6.2599e-03,  8.2493e-05,  3.3522e-04,  ...,  4.0889e-05,
+          3.8815e-04,  5.2338e-03]], device='cuda:0')
+Epoch 418, bias, value: tensor([ 0.0095,  0.0064, -0.0048, -0.0172,  0.0076, -0.0137, -0.0142, -0.0179,
+        -0.0049,  0.0085], device='cuda:0'), grad: tensor([-0.0181, -0.0203, -0.0390,  0.0006, -0.0073,  0.0294, -0.0154,  0.0225,
+         0.0133,  0.0342], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 417, time 216.44, cls_loss 0.4529 cls_loss_mapping 0.0011 cls_loss_causal 0.4286 re_mapping 0.0040 re_causal 0.0119 /// teacc 99.04 lr 0.00001000
+Epoch 419, weight, value: tensor([[ 0.0387,  0.1316, -0.1811,  ..., -0.1077,  0.0773,  0.0048],
+        [-0.1084, -0.1059,  0.1167,  ..., -0.0475, -0.1152,  0.0562],
+        [-0.0966, -0.0716, -0.1183,  ..., -0.1364, -0.0175,  0.0561],
+        ...,
+        [-0.0089, -0.1350, -0.1417,  ..., -0.1144, -0.0516,  0.0775],
+        [-0.1333, -0.1167, -0.1181,  ..., -0.0667, -0.0476, -0.1011],
+        [ 0.0213, -0.0318, -0.0574,  ..., -0.1044,  0.0110, -0.0239]],
+       device='cuda:0'), grad: tensor([[ 4.0531e-04,  1.2326e-04,  3.7956e-04,  ...,  2.0802e-04,
+          3.7402e-05,  2.9612e-04],
+        [ 4.1842e-04,  7.9274e-05,  4.7374e-04,  ...,  6.0380e-05,
+          1.7807e-05,  1.8129e-03],
+        [-1.9073e-05,  4.3213e-05,  3.0828e-04,  ...,  5.0992e-05,
+          1.2048e-05, -3.3283e-03],
+        ...,
+        [ 1.1311e-03,  1.0586e-04,  4.1509e-04,  ...,  9.4712e-05,
+          3.9130e-05,  5.9967e-03],
+        [ 8.3208e-04,  3.2306e-04, -1.3180e-03,  ...,  3.3808e-04,
+          3.4189e-04,  1.7881e-03],
+        [-4.8218e-03, -2.0008e-03, -2.5654e-03,  ..., -1.7776e-03,
+         -7.4625e-04, -1.0368e-02]], device='cuda:0')
+Epoch 419, bias, value: tensor([ 0.0096,  0.0063, -0.0046, -0.0173,  0.0076, -0.0138, -0.0141, -0.0180,
+        -0.0050,  0.0085], device='cuda:0'), grad: tensor([-0.0149,  0.0253,  0.0071,  0.0190,  0.0167,  0.0166, -0.0126,  0.0262,
+        -0.0048, -0.0786], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 418, time 216.24, cls_loss 0.4422 cls_loss_mapping 0.0009 cls_loss_causal 0.4173 re_mapping 0.0038 re_causal 0.0119 /// teacc 99.02 lr 0.00001000
+Epoch 420, weight, value: tensor([[ 0.0389,  0.1314, -0.1811,  ..., -0.1077,  0.0774,  0.0047],
+        [-0.1085, -0.1058,  0.1168,  ..., -0.0474, -0.1150,  0.0563],
+        [-0.0965, -0.0716, -0.1183,  ..., -0.1363, -0.0176,  0.0562],
+        ...,
+        [-0.0089, -0.1351, -0.1417,  ..., -0.1143, -0.0516,  0.0775],
+        [-0.1334, -0.1167, -0.1180,  ..., -0.0668, -0.0476, -0.1012],
+        [ 0.0214, -0.0319, -0.0573,  ..., -0.1044,  0.0110, -0.0238]],
+       device='cuda:0'), grad: tensor([[-2.9316e-03, -2.5196e-03, -1.8530e-03,  ..., -3.1071e-03,
+         -5.2124e-05, -8.4000e-03],
+        [ 7.1669e-04,  2.8181e-04,  2.6250e-04,  ...,  8.2731e-05,
+          2.6628e-05,  2.0313e-03],
+        [ 1.0633e-03,  3.9840e-04,  3.2282e-04,  ...,  1.7536e-04,
+          8.6665e-05,  2.5043e-03],
+        ...,
+        [ 1.7710e-03,  7.7820e-04,  7.8249e-04,  ...,  7.3433e-04,
+          6.2287e-05,  3.6793e-03],
+        [ 1.6193e-03,  5.2834e-04,  4.1533e-04,  ...,  9.6738e-05,
+          1.9097e-04,  1.8902e-03],
+        [-1.0788e-02, -3.8695e-04, -2.6226e-04,  ...,  1.3435e-04,
+         -3.4356e-04,  1.3647e-03]], device='cuda:0')
+Epoch 420, bias, value: tensor([ 0.0096,  0.0064, -0.0046, -0.0173,  0.0076, -0.0138, -0.0142, -0.0180,
+        -0.0051,  0.0086], device='cuda:0'), grad: tensor([-0.0453,  0.0231,  0.0233, -0.0358,  0.0246, -0.0134, -0.0393,  0.0287,
+         0.0282,  0.0061], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 419, time 216.71, cls_loss 0.4287 cls_loss_mapping 0.0009 cls_loss_causal 0.4016 re_mapping 0.0040 re_causal 0.0118 /// teacc 99.03 lr 0.00001000
+Epoch 421, weight, value: tensor([[ 0.0389,  0.1314, -0.1812,  ..., -0.1076,  0.0774,  0.0048],
+        [-0.1086, -0.1058,  0.1169,  ..., -0.0474, -0.1150,  0.0564],
+        [-0.0965, -0.0716, -0.1184,  ..., -0.1363, -0.0176,  0.0562],
+        ...,
+        [-0.0089, -0.1352, -0.1416,  ..., -0.1144, -0.0516,  0.0774],
+        [-0.1335, -0.1165, -0.1181,  ..., -0.0668, -0.0477, -0.1012],
+        [ 0.0213, -0.0319, -0.0574,  ..., -0.1043,  0.0109, -0.0238]],
+       device='cuda:0'), grad: tensor([[ 4.9858e-03,  6.2108e-05, -1.4410e-03,  ...,  4.0717e-06,
+          1.1671e-04, -3.4833e-04],
+        [ 2.1935e-04,  5.7742e-06,  7.9422e-03,  ...,  3.5428e-06,
+          2.2218e-05,  1.2980e-03],
+        [ 3.7789e-04,  2.5615e-05,  1.3075e-03,  ...,  3.8594e-06,
+          4.4316e-05,  5.2738e-04],
+        ...,
+        [ 4.9973e-04,  2.6405e-05, -7.0572e-03,  ...,  1.9014e-04,
+          1.3673e-04, -7.8154e-04],
+        [ 9.9754e-04,  7.0155e-05,  6.7234e-04,  ...,  3.2812e-05,
+          1.1104e-04,  3.4189e-04],
+        [ 2.2459e-04, -1.9455e-04,  7.7915e-04,  ...,  5.1117e-04,
+         -1.0389e-04,  1.0395e-03]], device='cuda:0')
+Epoch 421, bias, value: tensor([ 0.0097,  0.0064, -0.0046, -0.0174,  0.0077, -0.0136, -0.0143, -0.0181,
+        -0.0051,  0.0085], device='cuda:0'), grad: tensor([-0.0128,  0.0220,  0.0107,  0.0107, -0.0553,  0.0092, -0.0029, -0.0015,
+         0.0102,  0.0097], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 420, time 216.44, cls_loss 0.4675 cls_loss_mapping 0.0010 cls_loss_causal 0.4397 re_mapping 0.0039 re_causal 0.0120 /// teacc 99.05 lr 0.00001000
+Epoch 422, weight, value: tensor([[ 0.0388,  0.1314, -0.1812,  ..., -0.1076,  0.0775,  0.0047],
+        [-0.1087, -0.1058,  0.1168,  ..., -0.0475, -0.1150,  0.0564],
+        [-0.0966, -0.0716, -0.1185,  ..., -0.1363, -0.0176,  0.0562],
+        ...,
+        [-0.0089, -0.1352, -0.1416,  ..., -0.1142, -0.0515,  0.0773],
+        [-0.1334, -0.1165, -0.1179,  ..., -0.0667, -0.0477, -0.1010],
+        [ 0.0213, -0.0320, -0.0574,  ..., -0.1043,  0.0108, -0.0238]],
+       device='cuda:0'), grad: tensor([[-1.3256e-03, -1.3232e-04,  2.9421e-04,  ...,  1.7810e-04,
+         -2.5773e-04, -6.8932e-03],
+        [ 3.6860e-04, -1.2732e-04, -3.4027e-03,  ...,  1.2100e-05,
+          1.3888e-05, -2.4357e-03],
+        [ 2.3022e-03, -1.1892e-03,  3.3975e-04,  ...,  2.6420e-05,
+          3.4690e-05,  4.1313e-03],
+        ...,
+        [ 3.7479e-04,  2.7323e-04,  2.6894e-03,  ...,  5.9493e-06,
+          3.3647e-05,  4.3526e-03],
+        [ 2.3866e-04,  1.5330e-04,  3.2783e-04,  ...,  4.2272e-04,
+          1.2350e-04,  7.8869e-04],
+        [ 1.7121e-05,  1.4997e-04,  8.6594e-04,  ...,  2.6971e-05,
+          1.3132e-07,  1.3742e-03]], device='cuda:0')
+Epoch 422, bias, value: tensor([ 0.0096,  0.0064, -0.0046, -0.0173,  0.0077, -0.0136, -0.0143, -0.0182,
+        -0.0050,  0.0085], device='cuda:0'), grad: tensor([-0.0532, -0.0020,  0.0105, -0.0420,  0.0143,  0.0115,  0.0053,  0.0302,
+         0.0123,  0.0131], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 421, time 216.29, cls_loss 0.4585 cls_loss_mapping 0.0010 cls_loss_causal 0.4351 re_mapping 0.0039 re_causal 0.0120 /// teacc 99.00 lr 0.00001000
+Epoch 423, weight, value: tensor([[ 0.0390,  0.1314, -0.1814,  ..., -0.1075,  0.0776,  0.0048],
+        [-0.1089, -0.1058,  0.1166,  ..., -0.0476, -0.1149,  0.0562],
+        [-0.0965, -0.0715, -0.1183,  ..., -0.1363, -0.0175,  0.0563],
+        ...,
+        [-0.0088, -0.1352, -0.1415,  ..., -0.1140, -0.0515,  0.0773],
+        [-0.1333, -0.1165, -0.1178,  ..., -0.0668, -0.0477, -0.1008],
+        [ 0.0214, -0.0319, -0.0574,  ..., -0.1044,  0.0108, -0.0238]],
+       device='cuda:0'), grad: tensor([[ 3.7789e-04, -1.8984e-05,  8.1825e-04,  ...,  6.6720e-06,
+          3.2663e-04,  9.3746e-04],
+        [ 6.6376e-04,  1.0887e-06,  1.1272e-03,  ...,  1.2191e-06,
+          5.9366e-04,  1.5202e-03],
+        [ 4.4537e-04,  9.2387e-07,  8.8644e-04,  ...,  1.5898e-06,
+          4.9257e-04,  7.0524e-04],
+        ...,
+        [-3.8052e-03,  2.9542e-06,  9.2173e-04,  ...,  1.6764e-07,
+         -3.3798e-03, -7.7400e-03],
+        [ 2.6155e-04,  1.1998e-04, -1.4200e-03,  ...,  2.8573e-06,
+          2.4235e-04,  3.8481e-04],
+        [ 4.9448e-04,  9.6560e-06,  8.9836e-04,  ...,  9.6485e-07,
+          4.8590e-04,  9.8038e-04]], device='cuda:0')
+Epoch 423, bias, value: tensor([ 0.0095,  0.0063, -0.0045, -0.0172,  0.0077, -0.0136, -0.0143, -0.0181,
+        -0.0049,  0.0085], device='cuda:0'), grad: tensor([ 0.0185,  0.0234, -0.0158, -0.0133,  0.0183, -0.0152, -0.0100, -0.0133,
+        -0.0110,  0.0184], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 422, time 216.23, cls_loss 0.4687 cls_loss_mapping 0.0010 cls_loss_causal 0.4447 re_mapping 0.0039 re_causal 0.0120 /// teacc 99.01 lr 0.00001000
+Epoch 424, weight, value: tensor([[ 0.0390,  0.1315, -0.1814,  ..., -0.1074,  0.0777,  0.0049],
+        [-0.1089, -0.1058,  0.1165,  ..., -0.0476, -0.1150,  0.0562],
+        [-0.0967, -0.0717, -0.1183,  ..., -0.1362, -0.0176,  0.0562],
+        ...,
+        [-0.0087, -0.1350, -0.1414,  ..., -0.1140, -0.0515,  0.0775],
+        [-0.1334, -0.1166, -0.1178,  ..., -0.0669, -0.0477, -0.1007],
+        [ 0.0215, -0.0320, -0.0575,  ..., -0.1045,  0.0109, -0.0238]],
+       device='cuda:0'), grad: tensor([[-3.0918e-03, -1.2052e-04,  5.9175e-04,  ..., -7.4506e-05,
+         -2.2507e-04, -3.6755e-03],
+        [ 5.0449e-04,  4.5914e-07, -1.4200e-03,  ...,  3.1618e-07,
+          3.9749e-06, -3.1128e-03],
+        [ 1.0138e-03,  4.6007e-06,  6.5660e-04,  ...,  6.6264e-07,
+          3.5673e-05,  5.3310e-04],
+        ...,
+        [-2.8458e-03,  1.4734e-06,  6.8521e-04,  ...,  2.5611e-08,
+         -3.1757e-04,  5.8794e-04],
+        [-1.1871e-02,  6.8769e-06,  7.0429e-04,  ...,  5.4166e-06,
+          9.4175e-05,  1.0061e-03],
+        [ 4.7035e-03,  3.4094e-05,  6.6853e-04,  ...,  6.7847e-07,
+          1.8358e-04,  5.9509e-04]], device='cuda:0')
+Epoch 424, bias, value: tensor([ 0.0095,  0.0062, -0.0045, -0.0171,  0.0077, -0.0136, -0.0143, -0.0181,
+        -0.0050,  0.0085], device='cuda:0'), grad: tensor([-0.0107, -0.0302,  0.0130,  0.0374, -0.0378, -0.0110,  0.0267, -0.0030,
+        -0.0096,  0.0252], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 423, time 216.18, cls_loss 0.4485 cls_loss_mapping 0.0008 cls_loss_causal 0.4248 re_mapping 0.0040 re_causal 0.0119 /// teacc 99.00 lr 0.00001000
+Epoch 425, weight, value: tensor([[ 0.0389,  0.1315, -0.1815,  ..., -0.1075,  0.0777,  0.0049],
+        [-0.1090, -0.1059,  0.1164,  ..., -0.0478, -0.1152,  0.0562],
+        [-0.0968, -0.0716, -0.1182,  ..., -0.1363, -0.0176,  0.0562],
+        ...,
+        [-0.0088, -0.1352, -0.1414,  ..., -0.1141, -0.0518,  0.0773],
+        [-0.1335, -0.1166, -0.1177,  ..., -0.0668, -0.0476, -0.1008],
+        [ 0.0215, -0.0320, -0.0576,  ..., -0.1045,  0.0109, -0.0238]],
+       device='cuda:0'), grad: tensor([[ 2.7919e-04, -5.9217e-05,  3.8457e-04,  ...,  4.2289e-05,
+         -8.5950e-05,  6.1512e-04],
+        [ 4.3583e-04,  8.2105e-06,  5.4979e-04,  ...,  3.3289e-05,
+          2.6032e-05,  3.2921e-03],
+        [ 1.7366e-03,  6.4313e-05,  4.2105e-04,  ...,  2.9802e-04,
+          1.1122e-04, -1.0662e-03],
+        ...,
+        [ 9.2506e-04,  3.0085e-05,  5.0259e-04,  ...,  7.1883e-05,
+          4.0054e-05,  9.7847e-04],
+        [-2.4338e-03,  1.7095e-04,  6.0081e-04,  ..., -6.0892e-04,
+         -1.9383e-04, -4.2419e-03],
+        [ 3.8981e-04,  3.1799e-05,  4.5943e-04,  ...,  5.4032e-05,
+          4.5776e-05,  7.1907e-04]], device='cuda:0')
+Epoch 425, bias, value: tensor([ 0.0094,  0.0062, -0.0045, -0.0172,  0.0078, -0.0138, -0.0143, -0.0180,
+        -0.0050,  0.0086], device='cuda:0'), grad: tensor([-0.0010,  0.0232, -0.0153, -0.0321, -0.0083, -0.0199,  0.0320,  0.0144,
+        -0.0111,  0.0182], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 424, time 216.60, cls_loss 0.4461 cls_loss_mapping 0.0009 cls_loss_causal 0.4192 re_mapping 0.0038 re_causal 0.0115 /// teacc 99.03 lr 0.00001000
+Epoch 426, weight, value: tensor([[ 0.0390,  0.1317, -0.1815,  ..., -0.1075,  0.0778,  0.0050],
+        [-0.1088, -0.1059,  0.1163,  ..., -0.0477, -0.1151,  0.0562],
+        [-0.0967, -0.0716, -0.1182,  ..., -0.1362, -0.0177,  0.0564],
+        ...,
+        [-0.0087, -0.1352, -0.1415,  ..., -0.1142, -0.0516,  0.0773],
+        [-0.1335, -0.1167, -0.1177,  ..., -0.0666, -0.0477, -0.1007],
+        [ 0.0214, -0.0318, -0.0572,  ..., -0.1044,  0.0109, -0.0238]],
+       device='cuda:0'), grad: tensor([[-2.1801e-03, -3.9506e-04,  3.9935e-04,  ...,  2.8634e-04,
+         -1.8797e-03, -1.8873e-03],
+        [-5.3444e-03,  7.7486e-05,  2.9278e-04,  ...,  1.2445e-04,
+          2.0885e-04, -4.1351e-03],
+        [ 1.1024e-03,  1.0633e-04,  3.1734e-04,  ...,  1.6379e-04,
+          2.6011e-04,  1.2627e-03],
+        ...,
+        [ 9.8724e-03,  2.2471e-04,  2.4235e-04,  ...,  4.6432e-05,
+          9.2268e-04,  2.0737e-02],
+        [ 1.5659e-03,  3.6716e-04,  7.9203e-04,  ...,  7.8773e-04,
+          4.1986e-04,  1.8730e-03],
+        [-6.8283e-03,  1.3864e-04,  3.2401e-04,  ...,  1.5700e-04,
+          3.5572e-04, -1.7151e-02]], device='cuda:0')
+Epoch 426, bias, value: tensor([ 0.0095,  0.0063, -0.0044, -0.0173,  0.0077, -0.0138, -0.0144, -0.0181,
+        -0.0050,  0.0086], device='cuda:0'), grad: tensor([-0.0024, -0.0448,  0.0188,  0.0197,  0.0149,  0.0249, -0.0715,  0.0524,
+        -0.0054, -0.0066], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 425, time 216.15, cls_loss 0.4585 cls_loss_mapping 0.0010 cls_loss_causal 0.4340 re_mapping 0.0039 re_causal 0.0117 /// teacc 99.03 lr 0.00001000
+Epoch 427, weight, value: tensor([[ 0.0390,  0.1318, -0.1816,  ..., -0.1075,  0.0778,  0.0050],
+        [-0.1088, -0.1059,  0.1162,  ..., -0.0478, -0.1151,  0.0563],
+        [-0.0968, -0.0714, -0.1180,  ..., -0.1362, -0.0177,  0.0563],
+        ...,
+        [-0.0087, -0.1352, -0.1416,  ..., -0.1143, -0.0516,  0.0772],
+        [-0.1334, -0.1168, -0.1178,  ..., -0.0668, -0.0477, -0.1008],
+        [ 0.0214, -0.0320, -0.0574,  ..., -0.1045,  0.0107, -0.0239]],
+       device='cuda:0'), grad: tensor([[ 1.1187e-03,  5.2929e-05,  2.6846e-04,  ...,  2.4307e-04,
+          7.3624e-04,  8.9693e-04],
+        [ 5.1117e-04,  1.1438e-04,  3.4666e-04,  ...,  2.8992e-04,
+          6.0225e-04,  1.5297e-03],
+        [-3.2997e-04,  9.9182e-05, -1.6136e-03,  ..., -2.8954e-03,
+         -6.0310e-03, -1.9932e-03],
+        ...,
+        [ 2.9683e-04,  1.2219e-04,  3.4618e-04,  ...,  1.9276e-04,
+          6.0892e-04,  9.2125e-04],
+        [-1.3399e-03,  9.6977e-05,  3.7742e-04,  ...,  1.0948e-03,
+          2.8954e-03,  1.2407e-03],
+        [ 4.4107e-04,  8.8036e-05,  2.9731e-04,  ...,  1.4520e-04,
+          4.2677e-04,  1.3657e-03]], device='cuda:0')
+Epoch 427, bias, value: tensor([ 0.0095,  0.0063, -0.0043, -0.0172,  0.0078, -0.0138, -0.0144, -0.0181,
+        -0.0051,  0.0085], device='cuda:0'), grad: tensor([ 0.0118,  0.0126, -0.0485, -0.0411,  0.0166, -0.0110,  0.0184,  0.0120,
+         0.0163,  0.0129], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 426, time 216.55, cls_loss 0.4375 cls_loss_mapping 0.0009 cls_loss_causal 0.4130 re_mapping 0.0038 re_causal 0.0119 /// teacc 99.00 lr 0.00001000
+Epoch 428, weight, value: tensor([[ 0.0389,  0.1319, -0.1815,  ..., -0.1076,  0.0779,  0.0048],
+        [-0.1088, -0.1060,  0.1164,  ..., -0.0477, -0.1150,  0.0564],
+        [-0.0969, -0.0716, -0.1181,  ..., -0.1362, -0.0176,  0.0563],
+        ...,
+        [-0.0088, -0.1353, -0.1416,  ..., -0.1142, -0.0516,  0.0772],
+        [-0.1334, -0.1169, -0.1180,  ..., -0.0668, -0.0477, -0.1008],
+        [ 0.0215, -0.0320, -0.0573,  ..., -0.1046,  0.0107, -0.0237]],
+       device='cuda:0'), grad: tensor([[-1.7214e-04, -4.2677e-04,  6.6185e-04,  ...,  1.1516e-04,
+         -2.0194e-04,  2.4170e-05],
+        [ 7.4720e-04,  7.3552e-05,  1.0138e-03,  ...,  8.2791e-05,
+          2.8229e-04,  5.4026e-04],
+        [ 4.5848e-04,  4.3869e-05,  6.3753e-04,  ...,  6.2227e-05,
+          1.8215e-04,  1.0918e-02],
+        ...,
+        [ 3.0098e-03,  1.8573e-04,  4.5919e-04,  ...,  2.4319e-05,
+          6.9284e-04, -9.1782e-03],
+        [ 7.6056e-04,  1.0872e-03,  7.2670e-04,  ...,  7.2658e-05,
+          2.8658e-04,  2.0370e-03],
+        [-1.8466e-04,  1.6856e-04, -1.4992e-03,  ...,  3.9011e-05,
+          1.3936e-04,  2.6189e-06]], device='cuda:0')
+Epoch 428, bias, value: tensor([ 0.0095,  0.0064, -0.0045, -0.0170,  0.0077, -0.0139, -0.0142, -0.0182,
+        -0.0051,  0.0085], device='cuda:0'), grad: tensor([ 0.0115,  0.0150, -0.0158, -0.0438,  0.0158,  0.0091, -0.0197,  0.0055,
+         0.0325, -0.0102], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 427, time 216.34, cls_loss 0.4381 cls_loss_mapping 0.0007 cls_loss_causal 0.4150 re_mapping 0.0039 re_causal 0.0119 /// teacc 98.95 lr 0.00001000
+Epoch 429, weight, value: tensor([[ 0.0389,  0.1318, -0.1815,  ..., -0.1076,  0.0779,  0.0048],
+        [-0.1089, -0.1059,  0.1165,  ..., -0.0477, -0.1150,  0.0563],
+        [-0.0969, -0.0715, -0.1182,  ..., -0.1362, -0.0177,  0.0562],
+        ...,
+        [-0.0087, -0.1354, -0.1416,  ..., -0.1144, -0.0514,  0.0771],
+        [-0.1333, -0.1169, -0.1180,  ..., -0.0667, -0.0479, -0.1008],
+        [ 0.0214, -0.0321, -0.0576,  ..., -0.1048,  0.0107, -0.0238]],
+       device='cuda:0'), grad: tensor([[ 1.0605e-03,  1.3075e-03,  2.7180e-04,  ...,  5.6171e-04,
+          4.4608e-04,  7.5960e-04],
+        [ 5.8079e-04,  4.5991e-04,  3.0255e-04,  ...,  6.1417e-04,
+          4.3535e-04,  9.5129e-04],
+        [ 6.1703e-04,  1.4486e-03,  6.2227e-05,  ..., -4.5371e-04,
+          3.0828e-04, -1.7605e-03],
+        ...,
+        [ 5.2547e-04,  7.2765e-04,  2.9922e-04,  ...,  4.6229e-04,
+          3.3927e-04,  7.8011e-04],
+        [ 1.0672e-03,  1.1234e-03,  2.1172e-04,  ...,  5.0735e-04,
+          2.8658e-04,  4.5037e-04],
+        [-2.4509e-03,  8.9169e-04,  3.0875e-04,  ..., -2.7485e-03,
+         -2.7275e-03, -5.6648e-03]], device='cuda:0')
+Epoch 429, bias, value: tensor([ 0.0095,  0.0065, -0.0045, -0.0170,  0.0076, -0.0139, -0.0142, -0.0181,
+        -0.0049,  0.0084], device='cuda:0'), grad: tensor([ 0.0171,  0.0119,  0.0086,  0.0102,  0.0013, -0.0309, -0.0117, -0.0140,
+         0.0158, -0.0082], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 428, time 216.57, cls_loss 0.4412 cls_loss_mapping 0.0009 cls_loss_causal 0.4205 re_mapping 0.0039 re_causal 0.0121 /// teacc 98.99 lr 0.00001000
+Epoch 430, weight, value: tensor([[ 0.0390,  0.1319, -0.1816,  ..., -0.1077,  0.0779,  0.0048],
+        [-0.1090, -0.1060,  0.1165,  ..., -0.0478, -0.1150,  0.0563],
+        [-0.0969, -0.0715, -0.1183,  ..., -0.1362, -0.0177,  0.0563],
+        ...,
+        [-0.0087, -0.1355, -0.1415,  ..., -0.1143, -0.0515,  0.0772],
+        [-0.1333, -0.1170, -0.1180,  ..., -0.0666, -0.0480, -0.1007],
+        [ 0.0214, -0.0319, -0.0575,  ..., -0.1048,  0.0106, -0.0239]],
+       device='cuda:0'), grad: tensor([[-1.4200e-03, -3.0575e-03, -4.3631e-04,  ..., -1.4439e-03,
+         -1.6436e-05, -1.2159e-03],
+        [ 3.1686e-04,  2.4343e-04,  4.8161e-04,  ...,  1.4949e-04,
+          3.2503e-07,  1.3456e-03],
+        [ 1.6272e-04,  1.0920e-04,  2.9612e-04,  ...,  7.6294e-05,
+          1.3914e-06,  9.1887e-04],
+        ...,
+        [-2.5883e-05,  1.3244e-04,  3.5000e-04,  ...,  7.8321e-05,
+          5.6298e-07,  1.3053e-04],
+        [ 3.1304e-04,  3.6669e-04,  4.6659e-04,  ...,  1.9479e-04,
+          1.1716e-06,  1.0033e-03],
+        [-6.0654e-04,  3.6573e-04, -2.3937e-03,  ...,  1.6439e-04,
+          9.5963e-06, -1.7462e-03]], device='cuda:0')
+Epoch 430, bias, value: tensor([ 0.0094,  0.0064, -0.0045, -0.0171,  0.0075, -0.0138, -0.0141, -0.0181,
+        -0.0048,  0.0083], device='cuda:0'), grad: tensor([-0.0154,  0.0127,  0.0081, -0.0242,  0.0058,  0.0107,  0.0101, -0.0024,
+         0.0094, -0.0147], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 429, time 216.45, cls_loss 0.4559 cls_loss_mapping 0.0009 cls_loss_causal 0.4278 re_mapping 0.0038 re_causal 0.0121 /// teacc 98.99 lr 0.00001000
+Epoch 431, weight, value: tensor([[ 0.0390,  0.1319, -0.1818,  ..., -0.1077,  0.0778,  0.0048],
+        [-0.1091, -0.1060,  0.1165,  ..., -0.0478, -0.1151,  0.0562],
+        [-0.0970, -0.0716, -0.1184,  ..., -0.1363, -0.0178,  0.0562],
+        ...,
+        [-0.0086, -0.1356, -0.1416,  ..., -0.1142, -0.0516,  0.0772],
+        [-0.1332, -0.1171, -0.1180,  ..., -0.0667, -0.0478, -0.1008],
+        [ 0.0215, -0.0320, -0.0575,  ..., -0.1048,  0.0106, -0.0239]],
+       device='cuda:0'), grad: tensor([[ 2.9144e-03,  1.4286e-03,  4.6897e-04,  ...,  1.5199e-04,
+          1.0757e-03,  1.1396e-04],
+        [-1.8368e-03, -1.0633e-03,  1.4758e-04,  ..., -2.5177e-04,
+          2.9135e-04,  9.1612e-05],
+        [-3.6850e-03,  3.1400e-04,  1.6224e-04,  ...,  1.5736e-05,
+         -4.2114e-03,  1.4710e-04],
+        ...,
+        [ 2.4662e-03,  1.1259e-04,  5.8711e-05,  ...,  7.4841e-06,
+          1.1520e-03,  1.6594e-04],
+        [ 1.0338e-02,  4.1485e-04,  3.8576e-04,  ..., -1.9088e-05,
+          9.3508e-04,  1.2088e-04],
+        [-1.5205e-02,  2.3556e-04,  2.9635e-04,  ...,  1.5900e-05,
+         -2.4471e-03,  1.7798e-04]], device='cuda:0')
+Epoch 431, bias, value: tensor([ 0.0094,  0.0063, -0.0045, -0.0170,  0.0076, -0.0139, -0.0141, -0.0181,
+        -0.0049,  0.0085], device='cuda:0'), grad: tensor([ 0.0259, -0.0243, -0.0218, -0.0089,  0.0186, -0.0060,  0.0163,  0.0124,
+         0.0236, -0.0357], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 430, time 216.73, cls_loss 0.4403 cls_loss_mapping 0.0009 cls_loss_causal 0.4102 re_mapping 0.0037 re_causal 0.0113 /// teacc 98.95 lr 0.00001000
+Epoch 432, weight, value: tensor([[ 0.0389,  0.1319, -0.1819,  ..., -0.1078,  0.0778,  0.0048],
+        [-0.1090, -0.1059,  0.1166,  ..., -0.0476, -0.1151,  0.0564],
+        [-0.0967, -0.0716, -0.1184,  ..., -0.1364, -0.0178,  0.0561],
+        ...,
+        [-0.0087, -0.1357, -0.1415,  ..., -0.1144, -0.0516,  0.0773],
+        [-0.1334, -0.1173, -0.1182,  ..., -0.0667, -0.0477, -0.1009],
+        [ 0.0216, -0.0320, -0.0576,  ..., -0.1048,  0.0106, -0.0238]],
+       device='cuda:0'), grad: tensor([[ 7.4022e-06,  3.6340e-06,  3.3259e-04,  ...,  4.5728e-07,
+         -5.0711e-07,  6.0987e-04],
+        [ 2.5034e-05, -3.4720e-05, -9.2983e-04,  ...,  6.0536e-08,
+          2.2557e-06, -1.1177e-03],
+        [ 1.0407e-04, -8.3912e-07,  3.6287e-04,  ...,  1.0384e-07,
+          7.1758e-07, -3.3741e-03],
+        ...,
+        [ 8.9931e-04,  3.3602e-06,  4.0126e-04,  ...,  8.5216e-08,
+          2.1923e-04, -2.5964e-04],
+        [ 4.5747e-05,  1.8880e-05,  4.7874e-04,  ...,  3.1702e-06,
+          1.7256e-05,  7.3814e-04],
+        [-1.9627e-03,  4.5486e-06,  3.4380e-04,  ...,  3.5018e-07,
+         -6.6423e-04,  7.0763e-04]], device='cuda:0')
+Epoch 432, bias, value: tensor([ 0.0094,  0.0064, -0.0045, -0.0170,  0.0076, -0.0139, -0.0142, -0.0180,
+        -0.0051,  0.0085], device='cuda:0'), grad: tensor([ 0.0069, -0.0096, -0.0224, -0.0218,  0.0105,  0.0062,  0.0101,  0.0078,
+         0.0076,  0.0047], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 431, time 216.16, cls_loss 0.4551 cls_loss_mapping 0.0009 cls_loss_causal 0.4245 re_mapping 0.0038 re_causal 0.0114 /// teacc 98.97 lr 0.00001000
+Epoch 433, weight, value: tensor([[ 0.0389,  0.1320, -0.1819,  ..., -0.1076,  0.0779,  0.0047],
+        [-0.1089, -0.1058,  0.1164,  ..., -0.0476, -0.1152,  0.0564],
+        [-0.0966, -0.0714, -0.1184,  ..., -0.1363, -0.0176,  0.0563],
+        ...,
+        [-0.0088, -0.1358, -0.1415,  ..., -0.1146, -0.0516,  0.0772],
+        [-0.1334, -0.1174, -0.1182,  ..., -0.0666, -0.0478, -0.1010],
+        [ 0.0217, -0.0321, -0.0577,  ..., -0.1049,  0.0107, -0.0238]],
+       device='cuda:0'), grad: tensor([[ 7.2861e-04,  1.6999e-04,  2.3186e-04,  ...,  4.9658e-06,
+          2.5868e-05,  1.1663e-03],
+        [ 5.0068e-04,  3.3170e-05,  8.9645e-05,  ...,  1.2806e-06,
+          7.8380e-05,  2.0599e-03],
+        [-9.9869e-03, -1.4706e-03,  1.8084e-04,  ...,  2.6245e-06,
+          6.7532e-05, -6.4774e-03],
+        ...,
+        [ 1.0157e-03,  1.3864e-04,  3.3498e-04,  ...,  7.3668e-07,
+         -4.1556e-04,  1.4610e-03],
+        [ 2.2182e-03,  3.1996e-04,  8.0395e-04,  ...,  1.9774e-05,
+          4.0919e-05,  2.7847e-03],
+        [ 4.2892e-04,  1.5867e-04,  4.7636e-04,  ...,  1.3476e-06,
+          8.7976e-05, -3.7360e-04]], device='cuda:0')
+Epoch 433, bias, value: tensor([ 0.0094,  0.0064, -0.0044, -0.0172,  0.0075, -0.0137, -0.0142, -0.0180,
+        -0.0050,  0.0086], device='cuda:0'), grad: tensor([ 0.0100,  0.0135, -0.0515, -0.0267,  0.0137,  0.0326, -0.0199, -0.0022,
+         0.0223,  0.0082], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 432, time 216.60, cls_loss 0.4457 cls_loss_mapping 0.0010 cls_loss_causal 0.4217 re_mapping 0.0037 re_causal 0.0111 /// teacc 98.98 lr 0.00001000
+Epoch 434, weight, value: tensor([[ 0.0391,  0.1320, -0.1819,  ..., -0.1076,  0.0779,  0.0046],
+        [-0.1089, -0.1057,  0.1165,  ..., -0.0476, -0.1151,  0.0565],
+        [-0.0965, -0.0714, -0.1184,  ..., -0.1363, -0.0174,  0.0564],
+        ...,
+        [-0.0088, -0.1359, -0.1414,  ..., -0.1147, -0.0517,  0.0771],
+        [-0.1335, -0.1174, -0.1182,  ..., -0.0666, -0.0478, -0.1011],
+        [ 0.0218, -0.0322, -0.0577,  ..., -0.1047,  0.0107, -0.0237]],
+       device='cuda:0'), grad: tensor([[ 1.9894e-03, -8.7118e-04,  1.3001e-05,  ...,  1.2636e-04,
+          2.2888e-03, -6.9656e-03],
+        [ 2.6989e-04,  6.8128e-05,  1.8299e-05,  ...,  1.3804e-04,
+          3.4165e-04,  2.3232e-03],
+        [ 2.8920e-04,  3.5405e-04,  3.0294e-05,  ...,  7.1287e-04,
+          2.6512e-04,  4.6844e-03],
+        ...,
+        [ 3.2997e-04,  9.3043e-05,  5.0843e-05,  ...,  9.2745e-05,
+          3.1209e-04,  2.0466e-03],
+        [ 3.0255e-04,  9.5785e-05, -8.5211e-04,  ...,  2.6321e-04,
+          5.2834e-04,  1.3227e-03],
+        [-2.5520e-03,  2.9355e-05,  4.4584e-04,  ...,  1.3614e-04,
+         -3.0251e-03,  1.4839e-03]], device='cuda:0')
+Epoch 434, bias, value: tensor([ 0.0094,  0.0065, -0.0043, -0.0174,  0.0076, -0.0137, -0.0144, -0.0181,
+        -0.0050,  0.0086], device='cuda:0'), grad: tensor([ 0.0044,  0.0172,  0.0261,  0.0143, -0.0099, -0.0231, -0.0091,  0.0147,
+         0.0072, -0.0418], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 433, time 216.34, cls_loss 0.4694 cls_loss_mapping 0.0009 cls_loss_causal 0.4392 re_mapping 0.0035 re_causal 0.0112 /// teacc 98.96 lr 0.00001000
+Epoch 435, weight, value: tensor([[ 0.0388,  0.1320, -0.1819,  ..., -0.1077,  0.0776,  0.0046],
+        [-0.1088, -0.1056,  0.1164,  ..., -0.0477, -0.1150,  0.0564],
+        [-0.0964, -0.0713, -0.1182,  ..., -0.1363, -0.0172,  0.0564],
+        ...,
+        [-0.0088, -0.1357, -0.1412,  ..., -0.1145, -0.0517,  0.0772],
+        [-0.1335, -0.1175, -0.1182,  ..., -0.0667, -0.0478, -0.1011],
+        [ 0.0217, -0.0322, -0.0578,  ..., -0.1048,  0.0107, -0.0236]],
+       device='cuda:0'), grad: tensor([[ 3.3545e-04, -3.0128e-07,  3.1263e-05,  ...,  1.2442e-06,
+          7.1898e-06,  6.8378e-04],
+        [ 4.1461e-04,  4.1910e-09, -3.8218e-04,  ..., -6.2525e-05,
+          1.5078e-06,  6.3848e-04],
+        [-2.9392e-03,  1.2387e-07,  4.0442e-05,  ...,  6.0126e-06,
+         -9.4026e-06, -4.6692e-03],
+        ...,
+        [ 8.2159e-04,  3.7253e-09,  4.8113e-04,  ...,  1.7732e-05,
+          1.7989e-04,  3.2978e-03],
+        [ 2.5654e-04,  2.2464e-06,  1.3721e-04,  ...,  1.7136e-05,
+          2.4691e-05, -8.4534e-03],
+        [-4.6015e-04,  6.6590e-08, -6.9284e-04,  ...,  5.3868e-06,
+         -3.3689e-04,  5.0354e-03]], device='cuda:0')
+Epoch 435, bias, value: tensor([ 0.0094,  0.0064, -0.0042, -0.0175,  0.0074, -0.0137, -0.0142, -0.0180,
+        -0.0050,  0.0086], device='cuda:0'), grad: tensor([ 0.0062, -0.0211, -0.0263,  0.0094,  0.0073,  0.0057,  0.0056,  0.0181,
+        -0.0216,  0.0166], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 434, time 216.29, cls_loss 0.4581 cls_loss_mapping 0.0009 cls_loss_causal 0.4301 re_mapping 0.0037 re_causal 0.0116 /// teacc 98.97 lr 0.00001000
+Epoch 436, weight, value: tensor([[ 0.0388,  0.1321, -0.1817,  ..., -0.1077,  0.0777,  0.0046],
+        [-0.1088, -0.1056,  0.1164,  ..., -0.0477, -0.1151,  0.0565],
+        [-0.0964, -0.0713, -0.1183,  ..., -0.1364, -0.0171,  0.0564],
+        ...,
+        [-0.0089, -0.1356, -0.1413,  ..., -0.1145, -0.0518,  0.0772],
+        [-0.1335, -0.1176, -0.1183,  ..., -0.0669, -0.0479, -0.1011],
+        [ 0.0215, -0.0321, -0.0579,  ..., -0.1047,  0.0108, -0.0237]],
+       device='cuda:0'), grad: tensor([[ 3.5787e-04,  2.4900e-05,  6.3324e-04,  ...,  5.7332e-06,
+          5.1439e-05,  1.4296e-03],
+        [ 4.2748e-04,  7.9513e-05,  1.3332e-03,  ...,  2.0519e-05,
+          2.7966e-04,  2.9850e-03],
+        [ 4.2033e-04,  1.0252e-04,  1.5211e-03,  ...,  4.1872e-05,
+          4.0174e-04,  3.1643e-03],
+        ...,
+        [-2.3055e-04, -2.8920e-04,  5.6171e-04,  ..., -3.2043e-04,
+          5.9992e-05, -5.8212e-03],
+        [-3.8242e-03, -4.0412e-04,  5.5408e-04,  ...,  2.4647e-05,
+          1.2004e-04, -2.1896e-03],
+        [ 1.9150e-03,  3.8218e-04, -1.2379e-03,  ...,  1.5008e-04,
+          2.0266e-04,  1.7653e-03]], device='cuda:0')
+Epoch 436, bias, value: tensor([ 0.0094,  0.0064, -0.0042, -0.0175,  0.0075, -0.0137, -0.0143, -0.0181,
+        -0.0050,  0.0087], device='cuda:0'), grad: tensor([ 0.0135,  0.0217,  0.0203, -0.0090, -0.0178,  0.0190,  0.0134, -0.0135,
+        -0.0402, -0.0074], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 435, time 216.56, cls_loss 0.4667 cls_loss_mapping 0.0008 cls_loss_causal 0.4430 re_mapping 0.0037 re_causal 0.0118 /// teacc 98.97 lr 0.00001000
+Epoch 437, weight, value: tensor([[ 0.0388,  0.1321, -0.1818,  ..., -0.1077,  0.0778,  0.0045],
+        [-0.1088, -0.1056,  0.1165,  ..., -0.0477, -0.1152,  0.0565],
+        [-0.0964, -0.0714, -0.1184,  ..., -0.1365, -0.0171,  0.0563],
+        ...,
+        [-0.0089, -0.1357, -0.1415,  ..., -0.1144, -0.0520,  0.0772],
+        [-0.1333, -0.1176, -0.1182,  ..., -0.0668, -0.0478, -0.1008],
+        [ 0.0216, -0.0321, -0.0579,  ..., -0.1045,  0.0108, -0.0237]],
+       device='cuda:0'), grad: tensor([[ 1.5175e-04,  1.3018e-04,  4.7660e-04,  ...,  3.2640e-04,
+          1.5342e-04, -5.5885e-03],
+        [ 2.8443e-04,  1.6379e-04,  5.8603e-04,  ..., -3.1590e-04,
+          1.5914e-04, -3.2482e-03],
+        [ 2.5439e-04,  1.2338e-04,  4.5919e-04,  ...,  1.2732e-04,
+          1.5020e-04,  1.5717e-03],
+        ...,
+        [ 2.9755e-04,  2.5034e-04,  6.6710e-04,  ...,  1.3828e-04,
+          1.6344e-04,  1.3151e-03],
+        [ 3.1471e-04,  3.5191e-04,  7.7534e-04,  ...,  1.3220e-04,
+          1.7083e-04,  1.7929e-03],
+        [-2.4402e-04, -2.3460e-03, -3.3054e-03,  ...,  8.5056e-05,
+          1.9193e-04,  1.6527e-03]], device='cuda:0')
+Epoch 437, bias, value: tensor([ 0.0094,  0.0064, -0.0043, -0.0174,  0.0075, -0.0137, -0.0143, -0.0182,
+        -0.0048,  0.0085], device='cuda:0'), grad: tensor([-0.0168,  0.0039,  0.0129,  0.0168,  0.0190, -0.0142, -0.0117,  0.0150,
+        -0.0146, -0.0102], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 436, time 217.01, cls_loss 0.4267 cls_loss_mapping 0.0008 cls_loss_causal 0.3958 re_mapping 0.0037 re_causal 0.0113 /// teacc 98.98 lr 0.00001000
+Epoch 438, weight, value: tensor([[ 0.0388,  0.1322, -0.1818,  ..., -0.1076,  0.0779,  0.0047],
+        [-0.1090, -0.1057,  0.1163,  ..., -0.0476, -0.1152,  0.0565],
+        [-0.0965, -0.0714, -0.1184,  ..., -0.1365, -0.0171,  0.0564],
+        ...,
+        [-0.0088, -0.1357, -0.1415,  ..., -0.1144, -0.0521,  0.0773],
+        [-0.1332, -0.1177, -0.1183,  ..., -0.0669, -0.0480, -0.1009],
+        [ 0.0215, -0.0319, -0.0579,  ..., -0.1046,  0.0110, -0.0238]],
+       device='cuda:0'), grad: tensor([[ 3.1185e-04, -1.3418e-03, -4.0483e-04,  ...,  2.4962e-04,
+         -2.6369e-04, -1.2169e-03],
+        [ 6.9189e-04,  6.0511e-04, -3.1948e-03,  ..., -1.5240e-03,
+          2.1970e-04, -1.5402e-03],
+        [ 2.0485e-03, -1.3027e-03,  1.6344e-04,  ...,  2.0659e-04,
+          8.6164e-04, -1.0748e-03],
+        ...,
+        [ 1.3046e-03,  5.7697e-04, -1.2550e-03,  ...,  8.1122e-05,
+          3.6335e-04,  7.9632e-04],
+        [ 1.8368e-03,  2.6951e-03,  4.5547e-03,  ...,  1.6346e-03,
+          6.5041e-04,  5.8174e-03],
+        [ 1.2674e-03,  1.6747e-03,  9.4938e-04,  ...,  1.7679e-04,
+          9.4795e-04,  1.6022e-03]], device='cuda:0')
+Epoch 438, bias, value: tensor([ 0.0095,  0.0062, -0.0043, -0.0175,  0.0077, -0.0138, -0.0142, -0.0181,
+        -0.0048,  0.0084], device='cuda:0'), grad: tensor([-0.0135,  0.0105, -0.0288,  0.0410, -0.0164, -0.0361, -0.0150, -0.0124,
+         0.0515,  0.0191], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 437, time 215.94, cls_loss 0.4639 cls_loss_mapping 0.0008 cls_loss_causal 0.4317 re_mapping 0.0037 re_causal 0.0118 /// teacc 99.03 lr 0.00001000
+Epoch 439, weight, value: tensor([[ 0.0389,  0.1320, -0.1818,  ..., -0.1078,  0.0778,  0.0046],
+        [-0.1091, -0.1058,  0.1164,  ..., -0.0476, -0.1152,  0.0566],
+        [-0.0965, -0.0712, -0.1186,  ..., -0.1365, -0.0171,  0.0564],
+        ...,
+        [-0.0087, -0.1356, -0.1413,  ..., -0.1143, -0.0518,  0.0774],
+        [-0.1333, -0.1178, -0.1184,  ..., -0.0670, -0.0481, -0.1011],
+        [ 0.0215, -0.0318, -0.0579,  ..., -0.1046,  0.0109, -0.0239]],
+       device='cuda:0'), grad: tensor([[-2.3827e-05,  1.0710e-06, -1.4744e-03,  ...,  1.6857e-06,
+          8.1733e-06, -7.4327e-05],
+        [-1.4505e-03,  1.2349e-06,  1.8752e-04,  ..., -5.7369e-07,
+          1.6466e-05,  2.5959e-03],
+        [ 3.6567e-05,  4.7493e-04,  1.8418e-04,  ...,  8.9221e-07,
+         -1.2660e-04, -8.2626e-03],
+        ...,
+        [ 1.9610e-04,  9.6858e-06, -7.4482e-04,  ...,  2.6077e-08,
+          1.8433e-05,  1.0815e-03],
+        [ 1.4699e-04,  5.1297e-06,  7.8964e-04,  ...,  4.3288e-06,
+          6.4410e-06,  7.1383e-04],
+        [ 3.2926e-04,  4.9882e-06,  2.0695e-04,  ...,  1.7695e-07,
+          3.2689e-06,  4.6396e-04]], device='cuda:0')
+Epoch 439, bias, value: tensor([ 0.0094,  0.0063, -0.0042, -0.0175,  0.0077, -0.0139, -0.0141, -0.0180,
+        -0.0049,  0.0084], device='cuda:0'), grad: tensor([-0.0227, -0.0123, -0.0198,  0.0174, -0.0162,  0.0081,  0.0108, -0.0122,
+         0.0311,  0.0158], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 438, time 216.07, cls_loss 0.4544 cls_loss_mapping 0.0009 cls_loss_causal 0.4243 re_mapping 0.0036 re_causal 0.0115 /// teacc 98.99 lr 0.00001000
+Epoch 440, weight, value: tensor([[ 0.0390,  0.1319, -0.1818,  ..., -0.1078,  0.0778,  0.0045],
+        [-0.1092, -0.1058,  0.1164,  ..., -0.0475, -0.1153,  0.0566],
+        [-0.0966, -0.0712, -0.1187,  ..., -0.1364, -0.0171,  0.0563],
+        ...,
+        [-0.0087, -0.1357, -0.1414,  ..., -0.1142, -0.0519,  0.0775],
+        [-0.1335, -0.1178, -0.1185,  ..., -0.0671, -0.0483, -0.1013],
+        [ 0.0216, -0.0317, -0.0579,  ..., -0.1047,  0.0110, -0.0238]],
+       device='cuda:0'), grad: tensor([[-2.7065e-03, -4.4746e-03, -1.0204e-03,  ...,  5.2899e-07,
+         -3.7155e-03,  4.8804e-04],
+        [ 5.1308e-04, -2.4567e-03, -3.9043e-03,  ...,  4.0978e-08,
+         -1.5008e-04, -1.0843e-03],
+        [ 3.0145e-05,  2.2678e-03,  6.9714e-04,  ..., -9.1456e-07,
+          3.9148e-04,  3.7169e-04],
+        ...,
+        [ 1.3332e-03,  1.0681e-03,  1.6279e-03,  ...,  3.8929e-07,
+          5.1737e-04,  2.0199e-03],
+        [ 1.3905e-03,  2.0046e-03,  9.2649e-04,  ...,  1.0245e-07,
+          1.2560e-03,  1.2665e-03],
+        [-1.2312e-03,  3.8600e-04, -8.0490e-04,  ...,  3.7253e-09,
+          1.7911e-05, -9.2649e-04]], device='cuda:0')
+Epoch 440, bias, value: tensor([ 0.0094,  0.0062, -0.0043, -0.0174,  0.0077, -0.0139, -0.0141, -0.0179,
+        -0.0051,  0.0085], device='cuda:0'), grad: tensor([-0.0137, -0.0046, -0.0373, -0.0094,  0.0090,  0.0097,  0.0075,  0.0202,
+         0.0203, -0.0018], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 439, time 216.12, cls_loss 0.4665 cls_loss_mapping 0.0009 cls_loss_causal 0.4289 re_mapping 0.0038 re_causal 0.0121 /// teacc 98.94 lr 0.00001000
+Epoch 441, weight, value: tensor([[ 0.0389,  0.1319, -0.1818,  ..., -0.1080,  0.0778,  0.0045],
+        [-0.1094, -0.1059,  0.1165,  ..., -0.0476, -0.1154,  0.0566],
+        [-0.0966, -0.0712, -0.1187,  ..., -0.1362, -0.0171,  0.0565],
+        ...,
+        [-0.0087, -0.1356, -0.1414,  ..., -0.1142, -0.0521,  0.0773],
+        [-0.1334, -0.1178, -0.1186,  ..., -0.0670, -0.0483, -0.1013],
+        [ 0.0217, -0.0315, -0.0578,  ..., -0.1045,  0.0112, -0.0238]],
+       device='cuda:0'), grad: tensor([[ 4.4703e-04, -7.9274e-06,  3.8594e-05,  ...,  4.7609e-06,
+          1.9002e-04,  7.9966e-04],
+        [ 2.4259e-04,  5.9038e-05,  3.1888e-05,  ...,  7.7337e-06,
+          1.0633e-04, -6.7711e-04],
+        [-1.7456e-02, -2.6703e-04,  1.5147e-05,  ...,  1.2387e-06,
+          2.6822e-04, -1.3596e-02],
+        ...,
+        [ 1.8036e-02,  6.4850e-05,  6.0290e-05,  ...,  4.6082e-06,
+          1.8847e-04,  1.3336e-02],
+        [ 2.0523e-03,  1.8859e-04,  8.0109e-03,  ...,  6.3438e-03,
+          1.1339e-03,  2.0962e-03],
+        [-1.0071e-02, -1.0405e-03, -4.1428e-03,  ..., -3.1114e-04,
+         -5.9891e-03, -5.7869e-03]], device='cuda:0')
+Epoch 441, bias, value: tensor([ 0.0093,  0.0062, -0.0042, -0.0173,  0.0077, -0.0139, -0.0141, -0.0180,
+        -0.0050,  0.0085], device='cuda:0'), grad: tensor([ 0.0122,  0.0024, -0.0225, -0.0132,  0.0350, -0.0129,  0.0220,  0.0430,
+         0.0092, -0.0752], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 440, time 216.28, cls_loss 0.4406 cls_loss_mapping 0.0008 cls_loss_causal 0.4109 re_mapping 0.0040 re_causal 0.0123 /// teacc 98.95 lr 0.00001000
+Epoch 442, weight, value: tensor([[ 0.0390,  0.1320, -0.1816,  ..., -0.1078,  0.0777,  0.0046],
+        [-0.1095, -0.1060,  0.1165,  ..., -0.0476, -0.1153,  0.0565],
+        [-0.0965, -0.0711, -0.1187,  ..., -0.1360, -0.0171,  0.0566],
+        ...,
+        [-0.0087, -0.1357, -0.1416,  ..., -0.1142, -0.0520,  0.0772],
+        [-0.1334, -0.1177, -0.1184,  ..., -0.0669, -0.0484, -0.1013],
+        [ 0.0216, -0.0315, -0.0578,  ..., -0.1044,  0.0112, -0.0237]],
+       device='cuda:0'), grad: tensor([[ 0.0017,  0.0003,  0.0006,  ...,  0.0006,  0.0006,  0.0027],
+        [ 0.0010,  0.0003,  0.0008,  ...,  0.0005,  0.0001,  0.0021],
+        [ 0.0017,  0.0002,  0.0005,  ...,  0.0008,  0.0005, -0.0036],
+        ...,
+        [-0.0059, -0.0014, -0.0031,  ..., -0.0003, -0.0022, -0.0067],
+        [ 0.0019,  0.0004,  0.0007,  ...,  0.0002,  0.0002,  0.0053],
+        [ 0.0013,  0.0002,  0.0006,  ...,  0.0003,  0.0004,  0.0025]],
+       device='cuda:0')
+Epoch 442, bias, value: tensor([ 0.0095,  0.0062, -0.0041, -0.0173,  0.0076, -0.0138, -0.0143, -0.0181,
+        -0.0051,  0.0086], device='cuda:0'), grad: tensor([ 0.0169,  0.0228, -0.0061,  0.0056, -0.0419,  0.0002, -0.0063, -0.0539,
+         0.0419,  0.0207], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 441, time 216.24, cls_loss 0.4404 cls_loss_mapping 0.0008 cls_loss_causal 0.4126 re_mapping 0.0037 re_causal 0.0115 /// teacc 98.97 lr 0.00001000
+Epoch 443, weight, value: tensor([[ 0.0389,  0.1319, -0.1815,  ..., -0.1078,  0.0777,  0.0046],
+        [-0.1095, -0.1062,  0.1163,  ..., -0.0478, -0.1154,  0.0564],
+        [-0.0966, -0.0712, -0.1186,  ..., -0.1361, -0.0171,  0.0567],
+        ...,
+        [-0.0085, -0.1359, -0.1416,  ..., -0.1144, -0.0521,  0.0772],
+        [-0.1335, -0.1177, -0.1183,  ..., -0.0669, -0.0485, -0.1012],
+        [ 0.0216, -0.0315, -0.0578,  ..., -0.1044,  0.0113, -0.0236]],
+       device='cuda:0'), grad: tensor([[ 9.5248e-05, -5.8079e-04,  3.5390e-07,  ..., -7.7903e-05,
+         -2.2936e-04, -3.7384e-04],
+        [ 4.5121e-05,  4.8839e-06, -8.8476e-07,  ...,  9.7416e-07,
+          2.2858e-05,  2.8539e-04],
+        [ 3.8266e-04,  1.0824e-04,  2.6971e-06,  ...,  1.6809e-05,
+          2.2197e-04,  3.0613e-04],
+        ...,
+        [ 1.3618e-03,  3.0130e-05,  2.0802e-05,  ...,  4.9584e-06,
+          6.0797e-05,  7.4089e-05],
+        [ 1.5473e-04,  2.0552e-04,  2.5392e-04,  ...,  8.0287e-05,
+          1.0628e-04,  3.0231e-04],
+        [ 1.8060e-04,  1.4114e-04, -5.9754e-05,  ...,  2.0862e-05,
+          4.4346e-04,  4.1580e-04]], device='cuda:0')
+Epoch 443, bias, value: tensor([ 0.0093,  0.0063, -0.0042, -0.0171,  0.0077, -0.0139, -0.0143, -0.0182,
+        -0.0051,  0.0086], device='cuda:0'), grad: tensor([ 0.0025,  0.0042,  0.0039, -0.0282,  0.0086,  0.0038, -0.0070,  0.0048,
+         0.0040,  0.0035], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 442, time 216.09, cls_loss 0.4564 cls_loss_mapping 0.0009 cls_loss_causal 0.4272 re_mapping 0.0037 re_causal 0.0115 /// teacc 98.97 lr 0.00001000
+Epoch 444, weight, value: tensor([[ 0.0390,  0.1319, -0.1815,  ..., -0.1078,  0.0777,  0.0046],
+        [-0.1096, -0.1062,  0.1164,  ..., -0.0478, -0.1155,  0.0564],
+        [-0.0966, -0.0712, -0.1187,  ..., -0.1360, -0.0171,  0.0566],
+        ...,
+        [-0.0085, -0.1359, -0.1415,  ..., -0.1144, -0.0520,  0.0772],
+        [-0.1334, -0.1177, -0.1183,  ..., -0.0668, -0.0486, -0.1011],
+        [ 0.0215, -0.0316, -0.0579,  ..., -0.1044,  0.0113, -0.0236]],
+       device='cuda:0'), grad: tensor([[ 4.3392e-04,  4.0978e-08, -3.4847e-03,  ...,  1.3113e-06,
+          2.1625e-04,  9.6750e-04],
+        [ 2.9016e-04,  5.0105e-07,  1.5860e-03,  ...,  6.2175e-06,
+          2.9922e-04,  1.1930e-03],
+        [-9.6893e-04,  8.3894e-06,  1.0557e-03,  ...,  8.0988e-06,
+          2.0528e-04, -3.8300e-03],
+        ...,
+        [ 5.0449e-04,  4.4890e-07, -1.0281e-03,  ...,  5.5879e-09,
+         -1.9474e-03, -5.0507e-03],
+        [ 2.3770e-04,  9.0376e-06, -1.1826e-03,  ...,  1.6719e-05,
+          1.8179e-04,  6.7425e-04],
+        [ 3.1471e-04, -2.0415e-06, -1.1044e-03,  ...,  8.9407e-08,
+          2.6226e-04,  2.7523e-03]], device='cuda:0')
+Epoch 444, bias, value: tensor([ 0.0093,  0.0064, -0.0043, -0.0171,  0.0077, -0.0140, -0.0143, -0.0181,
+        -0.0050,  0.0084], device='cuda:0'), grad: tensor([-0.0375,  0.0327,  0.0030,  0.0249,  0.0243,  0.0175, -0.0085, -0.0462,
+        -0.0099, -0.0002], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 443, time 216.33, cls_loss 0.4451 cls_loss_mapping 0.0009 cls_loss_causal 0.4204 re_mapping 0.0038 re_causal 0.0116 /// teacc 98.99 lr 0.00001000
+Epoch 445, weight, value: tensor([[ 0.0390,  0.1319, -0.1814,  ..., -0.1078,  0.0778,  0.0047],
+        [-0.1097, -0.1062,  0.1163,  ..., -0.0478, -0.1155,  0.0564],
+        [-0.0965, -0.0710, -0.1186,  ..., -0.1360, -0.0171,  0.0567],
+        ...,
+        [-0.0085, -0.1360, -0.1416,  ..., -0.1145, -0.0522,  0.0771],
+        [-0.1334, -0.1177, -0.1183,  ..., -0.0668, -0.0487, -0.1012],
+        [ 0.0216, -0.0316, -0.0578,  ..., -0.1043,  0.0113, -0.0236]],
+       device='cuda:0'), grad: tensor([[-7.8154e-04, -3.3970e-03,  6.2132e-04,  ...,  3.3528e-07,
+         -3.7632e-03, -1.2188e-03],
+        [ 4.0054e-04,  3.5763e-04, -1.2255e-03,  ...,  9.3132e-09,
+          6.0368e-04, -1.5950e-04],
+        [ 3.7551e-04,  4.6277e-04, -3.0022e-03,  ...,  5.4762e-07,
+          6.8426e-04, -9.9182e-03],
+        ...,
+        [ 3.4118e-04,  2.6584e-04,  3.5610e-03,  ...,  1.4901e-08,
+          5.9652e-04,  8.4839e-03],
+        [ 4.7016e-04,  4.0555e-04,  6.7759e-04,  ...,  2.1718e-06,
+          6.9857e-04,  6.3753e-04],
+        [ 5.8413e-04,  4.1938e-04,  1.8585e-04,  ...,  5.4017e-08,
+          7.2479e-04,  1.0386e-03]], device='cuda:0')
+Epoch 445, bias, value: tensor([ 0.0094,  0.0064, -0.0041, -0.0172,  0.0077, -0.0139, -0.0142, -0.0181,
+        -0.0052,  0.0084], device='cuda:0'), grad: tensor([-0.0347, -0.0107, -0.0100, -0.0409,  0.0201,  0.0170, -0.0159,  0.0380,
+         0.0164,  0.0206], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 444, time 216.96, cls_loss 0.4404 cls_loss_mapping 0.0008 cls_loss_causal 0.4156 re_mapping 0.0039 re_causal 0.0120 /// teacc 99.04 lr 0.00001000
+Epoch 446, weight, value: tensor([[ 0.0390,  0.1321, -0.1815,  ..., -0.1080,  0.0779,  0.0047],
+        [-0.1096, -0.1064,  0.1164,  ..., -0.0477, -0.1156,  0.0566],
+        [-0.0965, -0.0711, -0.1188,  ..., -0.1361, -0.0171,  0.0565],
+        ...,
+        [-0.0086, -0.1362, -0.1417,  ..., -0.1146, -0.0522,  0.0771],
+        [-0.1336, -0.1178, -0.1182,  ..., -0.0668, -0.0488, -0.1011],
+        [ 0.0215, -0.0316, -0.0578,  ..., -0.1042,  0.0113, -0.0238]],
+       device='cuda:0'), grad: tensor([[ 6.5470e-04,  4.8310e-05,  6.9237e-04,  ...,  1.0610e-04,
+          3.2425e-04, -2.5302e-05],
+        [-4.4212e-03,  9.4473e-05,  9.8877e-03,  ...,  1.1253e-02,
+          4.4727e-04,  1.4938e-02],
+        [ 9.1743e-04, -3.4547e-04, -3.9139e-03,  ..., -4.2105e-04,
+         -6.9559e-05, -1.4210e-03],
+        ...,
+        [ 5.2309e-04,  4.3690e-05,  9.1219e-04,  ...,  4.0531e-04,
+         -7.1144e-04, -7.1335e-03],
+        [ 1.3256e-03,  5.0485e-05, -1.1663e-03,  ..., -3.1166e-03,
+          3.1996e-04, -3.4676e-03],
+        [ 2.2755e-03,  2.9042e-05,  6.3467e-04,  ...,  2.2471e-04,
+          2.4056e-04,  6.8436e-03]], device='cuda:0')
+Epoch 446, bias, value: tensor([ 0.0093,  0.0064, -0.0043, -0.0172,  0.0077, -0.0136, -0.0142, -0.0181,
+        -0.0051,  0.0082], device='cuda:0'), grad: tensor([ 0.0005,  0.0253, -0.0118, -0.0337,  0.0318, -0.0103, -0.0031, -0.0162,
+        -0.0165,  0.0341], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 445, time 216.37, cls_loss 0.4455 cls_loss_mapping 0.0007 cls_loss_causal 0.4165 re_mapping 0.0038 re_causal 0.0118 /// teacc 99.03 lr 0.00001000
+Epoch 447, weight, value: tensor([[ 0.0388,  0.1320, -0.1814,  ..., -0.1080,  0.0779,  0.0047],
+        [-0.1097, -0.1065,  0.1162,  ..., -0.0479, -0.1158,  0.0565],
+        [-0.0965, -0.0709, -0.1188,  ..., -0.1363, -0.0170,  0.0566],
+        ...,
+        [-0.0084, -0.1362, -0.1416,  ..., -0.1146, -0.0521,  0.0771],
+        [-0.1336, -0.1176, -0.1181,  ..., -0.0667, -0.0489, -0.1011],
+        [ 0.0214, -0.0316, -0.0577,  ..., -0.1042,  0.0112, -0.0239]],
+       device='cuda:0'), grad: tensor([[ 4.5252e-04, -1.5628e-04,  2.0909e-04,  ...,  4.6007e-06,
+          1.8263e-04,  4.9257e-04],
+        [-1.7614e-03,  1.0721e-05,  3.1257e-04,  ...,  1.6205e-07,
+         -1.2884e-03, -2.3689e-03],
+        [-1.3863e-02,  6.5088e-05,  3.0065e-04,  ...,  3.1799e-05,
+          1.1265e-04, -1.6088e-03],
+        ...,
+        [ 9.0933e-04,  8.8990e-05,  2.8658e-04,  ...,  3.4645e-07,
+          1.5450e-04,  3.9768e-04],
+        [ 3.5715e-04,  8.2850e-05,  4.2987e-04,  ...,  1.2016e-04,
+          1.2696e-04,  3.8242e-04],
+        [ 9.7942e-04,  5.9366e-05, -2.1019e-03,  ...,  4.2468e-07,
+          1.7917e-04,  3.1781e-04]], device='cuda:0')
+Epoch 447, bias, value: tensor([ 0.0092,  0.0061, -0.0043, -0.0172,  0.0078, -0.0135, -0.0142, -0.0180,
+        -0.0050,  0.0082], device='cuda:0'), grad: tensor([ 0.0131, -0.0191, -0.0505, -0.0194,  0.0342,  0.0139, -0.0050,  0.0387,
+         0.0229, -0.0289], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 446, time 216.48, cls_loss 0.4649 cls_loss_mapping 0.0008 cls_loss_causal 0.4375 re_mapping 0.0037 re_causal 0.0119 /// teacc 99.01 lr 0.00001000
+Epoch 448, weight, value: tensor([[ 0.0388,  0.1320, -0.1815,  ..., -0.1079,  0.0779,  0.0047],
+        [-0.1095, -0.1065,  0.1161,  ..., -0.0478, -0.1156,  0.0566],
+        [-0.0963, -0.0708, -0.1188,  ..., -0.1362, -0.0170,  0.0567],
+        ...,
+        [-0.0084, -0.1363, -0.1417,  ..., -0.1148, -0.0523,  0.0770],
+        [-0.1335, -0.1177, -0.1181,  ..., -0.0667, -0.0488, -0.1011],
+        [ 0.0213, -0.0315, -0.0576,  ..., -0.1042,  0.0112, -0.0241]],
+       device='cuda:0'), grad: tensor([[ 5.3674e-05,  8.8692e-05,  4.2629e-04,  ...,  1.8626e-07,
+         -1.0341e-05,  1.6224e-04],
+        [ 3.6508e-05,  1.7807e-05,  5.4359e-04,  ...,  2.2724e-07,
+          4.1537e-07,  1.8287e-04],
+        [-1.0055e-04,  1.0401e-04, -3.7270e-03,  ..., -5.0329e-06,
+          2.0508e-06, -1.0986e-03],
+        ...,
+        [-1.5497e-03,  4.8250e-05,  4.3511e-04,  ...,  3.0249e-06,
+         -5.5879e-05, -1.6947e-03],
+        [-5.3883e-04, -1.5821e-03, -2.8491e-04,  ...,  1.0151e-06,
+          1.3877e-06, -4.4465e-04],
+        [ 1.4019e-03,  1.2851e-04,  4.9305e-04,  ...,  1.4901e-08,
+          5.8144e-05,  1.6956e-03]], device='cuda:0')
+Epoch 448, bias, value: tensor([ 0.0092,  0.0061, -0.0042, -0.0171,  0.0080, -0.0137, -0.0141, -0.0182,
+        -0.0051,  0.0082], device='cuda:0'), grad: tensor([ 0.0078,  0.0109, -0.0543,  0.0100,  0.0094,  0.0139,  0.0064,  0.0029,
+        -0.0325,  0.0254], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 447, time 216.24, cls_loss 0.4522 cls_loss_mapping 0.0008 cls_loss_causal 0.4238 re_mapping 0.0038 re_causal 0.0121 /// teacc 99.03 lr 0.00001000
+Epoch 449, weight, value: tensor([[ 0.0388,  0.1319, -0.1816,  ..., -0.1079,  0.0781,  0.0048],
+        [-0.1095, -0.1066,  0.1161,  ..., -0.0477, -0.1157,  0.0565],
+        [-0.0965, -0.0707, -0.1187,  ..., -0.1363, -0.0171,  0.0567],
+        ...,
+        [-0.0084, -0.1362, -0.1417,  ..., -0.1147, -0.0523,  0.0769],
+        [-0.1336, -0.1177, -0.1181,  ..., -0.0668, -0.0488, -0.1011],
+        [ 0.0214, -0.0315, -0.0576,  ..., -0.1043,  0.0114, -0.0241]],
+       device='cuda:0'), grad: tensor([[-4.2458e-03, -2.7733e-03,  6.9523e-04,  ...,  2.3320e-05,
+         -3.5992e-03, -1.9970e-03],
+        [-2.9159e-04,  2.9698e-05, -1.9741e-03,  ...,  4.2260e-05,
+          2.4605e-04, -1.0424e-03],
+        [ 8.5068e-04,  6.4516e-04,  7.6485e-04,  ..., -3.0804e-04,
+          8.4209e-04,  5.5456e-04],
+        ...,
+        [ 5.8079e-04,  2.3186e-04, -8.5831e-04,  ...,  6.3442e-06,
+          3.4022e-04,  6.1178e-04],
+        [ 1.2121e-03,  2.4681e-03,  6.7854e-04,  ..., -3.8177e-05,
+          2.5821e-04, -4.0936e-04],
+        [ 2.3575e-03,  1.0595e-03,  8.5878e-04,  ...,  5.0440e-06,
+          1.5421e-03,  8.8692e-04]], device='cuda:0')
+Epoch 449, bias, value: tensor([ 0.0092,  0.0061, -0.0041, -0.0172,  0.0079, -0.0137, -0.0141, -0.0182,
+        -0.0050,  0.0082], device='cuda:0'), grad: tensor([-0.0032, -0.0142,  0.0108, -0.0425,  0.0221, -0.0205,  0.0107, -0.0151,
+         0.0303,  0.0216], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 448, time 216.23, cls_loss 0.4189 cls_loss_mapping 0.0007 cls_loss_causal 0.3922 re_mapping 0.0038 re_causal 0.0117 /// teacc 99.03 lr 0.00001000
+Epoch 450, weight, value: tensor([[ 0.0389,  0.1320, -0.1816,  ..., -0.1079,  0.0783,  0.0047],
+        [-0.1096, -0.1066,  0.1161,  ..., -0.0478, -0.1157,  0.0565],
+        [-0.0963, -0.0707, -0.1187,  ..., -0.1362, -0.0170,  0.0568],
+        ...,
+        [-0.0085, -0.1362, -0.1416,  ..., -0.1147, -0.0524,  0.0769],
+        [-0.1337, -0.1179, -0.1181,  ..., -0.0668, -0.0488, -0.1011],
+        [ 0.0213, -0.0316, -0.0575,  ..., -0.1044,  0.0112, -0.0241]],
+       device='cuda:0'), grad: tensor([[-2.9683e-04, -6.0081e-04, -1.8234e-03,  ..., -7.1001e-04,
+          3.5524e-05,  8.8632e-05],
+        [ 8.1015e-04,  7.7486e-05,  5.0879e-04,  ...,  2.1324e-05,
+          4.0126e-04,  1.9798e-03],
+        [ 1.0300e-03,  2.1160e-04,  6.9809e-04,  ...,  6.4254e-05,
+          2.5535e-04,  1.6804e-03],
+        ...,
+        [-2.4092e-04,  8.0526e-05,  5.5170e-04,  ...,  5.6699e-06,
+          4.2248e-04,  3.7718e-04],
+        [-2.4929e-03, -5.1727e-03,  4.8637e-04,  ...,  1.3578e-04,
+          1.7571e-04,  5.8889e-04],
+        [ 5.1451e-04,  1.8334e-04,  5.7364e-04,  ...,  7.2777e-05,
+          2.8324e-04,  1.2417e-03]], device='cuda:0')
+Epoch 450, bias, value: tensor([ 0.0091,  0.0061, -0.0041, -0.0173,  0.0079, -0.0136, -0.0141, -0.0181,
+        -0.0050,  0.0083], device='cuda:0'), grad: tensor([-0.0270,  0.0144,  0.0112, -0.0527,  0.0103,  0.0305,  0.0098,  0.0113,
+        -0.0177,  0.0099], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 449, time 216.48, cls_loss 0.4713 cls_loss_mapping 0.0007 cls_loss_causal 0.4432 re_mapping 0.0039 re_causal 0.0124 /// teacc 99.05 lr 0.00001000
+Epoch 451, weight, value: tensor([[ 0.0388,  0.1320, -0.1816,  ..., -0.1079,  0.0782,  0.0048],
+        [-0.1092, -0.1065,  0.1163,  ..., -0.0479, -0.1156,  0.0566],
+        [-0.0963, -0.0708, -0.1188,  ..., -0.1361, -0.0171,  0.0568],
+        ...,
+        [-0.0085, -0.1363, -0.1418,  ..., -0.1148, -0.0524,  0.0770],
+        [-0.1337, -0.1179, -0.1182,  ..., -0.0668, -0.0489, -0.1013],
+        [ 0.0214, -0.0316, -0.0576,  ..., -0.1043,  0.0113, -0.0241]],
+       device='cuda:0'), grad: tensor([[ 8.9931e-04,  1.7881e-07,  5.4026e-04,  ...,  1.5460e-07,
+          6.4516e-04,  2.2972e-04],
+        [-1.9825e-04, -4.0978e-08, -2.4300e-03,  ...,  9.3132e-09,
+         -1.5402e-04,  4.2367e-04],
+        [ 8.8406e-04, -8.8848e-07,  6.2752e-04,  ...,  2.9802e-08,
+          6.3705e-04,  2.2781e-04],
+        ...,
+        [ 6.2370e-04,  2.1234e-07,  4.0770e-04,  ...,  0.0000e+00,
+          9.2387e-05,  2.0587e-04],
+        [ 5.9319e-04,  1.7136e-07,  1.0996e-03,  ...,  7.2643e-08,
+          2.4009e-04, -2.1172e-03],
+        [ 1.0939e-03,  5.4017e-08,  4.2057e-04,  ...,  5.5879e-09,
+          1.1820e-04,  2.0206e-04]], device='cuda:0')
+Epoch 451, bias, value: tensor([ 0.0091,  0.0062, -0.0040, -0.0172,  0.0079, -0.0136, -0.0141, -0.0182,
+        -0.0052,  0.0082], device='cuda:0'), grad: tensor([ 0.0135, -0.0050,  0.0139, -0.0486, -0.0179,  0.0108,  0.0144,  0.0078,
+        -0.0005,  0.0116], device='cuda:0')
+100
+1e-05
+changing lr
+---------------------saving model at epoch 450----------------------------------------------------
+epoch 450, time 216.86, cls_loss 0.4308 cls_loss_mapping 0.0007 cls_loss_causal 0.4035 re_mapping 0.0039 re_causal 0.0119 /// teacc 99.06 lr 0.00001000
+Epoch 452, weight, value: tensor([[ 0.0389,  0.1319, -0.1818,  ..., -0.1080,  0.0783,  0.0047],
+        [-0.1091, -0.1064,  0.1162,  ..., -0.0479, -0.1157,  0.0568],
+        [-0.0964, -0.0708, -0.1190,  ..., -0.1363, -0.0170,  0.0567],
+        ...,
+        [-0.0085, -0.1361, -0.1417,  ..., -0.1147, -0.0523,  0.0770],
+        [-0.1336, -0.1179, -0.1182,  ..., -0.0669, -0.0490, -0.1013],
+        [ 0.0213, -0.0317, -0.0576,  ..., -0.1042,  0.0114, -0.0242]],
+       device='cuda:0'), grad: tensor([[ 4.1389e-03,  8.2731e-04,  2.4915e-04,  ...,  1.3103e-03,
+          1.6441e-03,  7.2622e-04],
+        [ 1.7083e-04,  2.3037e-05,  2.7418e-04,  ...,  1.6659e-05,
+          2.1160e-05,  1.5116e-03],
+        [-5.1451e-04, -6.8903e-05,  1.5867e-04,  ...,  2.3901e-05,
+         -5.0604e-05, -1.9112e-03],
+        ...,
+        [ 1.9133e-04,  8.5607e-06,  2.8753e-04,  ...,  2.8517e-06,
+          5.7034e-06,  2.4185e-03],
+        [ 2.5105e-04,  7.4089e-05, -1.9503e-03,  ...,  1.3864e-04,
+          1.7512e-04, -1.2732e-03],
+        [ 2.2638e-04,  2.2322e-05,  2.5463e-04,  ...,  1.1347e-05,
+          1.9073e-05,  1.0052e-03]], device='cuda:0')
+Epoch 452, bias, value: tensor([ 0.0090,  0.0063, -0.0041, -0.0173,  0.0078, -0.0135, -0.0140, -0.0181,
+        -0.0050,  0.0081], device='cuda:0'), grad: tensor([ 0.0259,  0.0127, -0.0294,  0.0158, -0.0502,  0.0126,  0.0101,  0.0330,
+        -0.0184, -0.0122], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 451, time 216.38, cls_loss 0.4292 cls_loss_mapping 0.0007 cls_loss_causal 0.4056 re_mapping 0.0038 re_causal 0.0122 /// teacc 99.04 lr 0.00001000
+Epoch 453, weight, value: tensor([[ 0.0388,  0.1319, -0.1817,  ..., -0.1079,  0.0783,  0.0046],
+        [-0.1091, -0.1064,  0.1163,  ..., -0.0479, -0.1158,  0.0568],
+        [-0.0965, -0.0708, -0.1190,  ..., -0.1363, -0.0170,  0.0567],
+        ...,
+        [-0.0086, -0.1361, -0.1419,  ..., -0.1148, -0.0523,  0.0769],
+        [-0.1338, -0.1178, -0.1183,  ..., -0.0669, -0.0491, -0.1015],
+        [ 0.0214, -0.0317, -0.0577,  ..., -0.1041,  0.0114, -0.0241]],
+       device='cuda:0'), grad: tensor([[ 7.0477e-04, -2.7919e-04,  2.0611e-04,  ...,  1.6093e-04,
+          1.3077e-04,  1.8740e-04],
+        [ 5.3883e-04,  6.7465e-06, -7.8297e-04,  ...,  1.0841e-05,
+         -7.2002e-05, -3.0804e-04],
+        [ 4.3893e-04,  1.4234e-04,  7.8726e-04,  ...,  2.5898e-05,
+          1.0669e-05,  3.5882e-04],
+        ...,
+        [ 1.6327e-02,  9.1940e-06,  3.9124e-04,  ...,  3.6322e-06,
+          4.5374e-06,  2.9421e-04],
+        [ 9.5272e-04, -5.6887e-04, -1.8339e-03,  ...,  6.7174e-05,
+          7.0214e-05,  2.7728e-04],
+        [ 1.3695e-02,  8.0585e-05,  3.8552e-04,  ...,  4.6730e-05,
+          5.5492e-05,  5.5361e-04]], device='cuda:0')
+Epoch 453, bias, value: tensor([ 0.0090,  0.0062, -0.0041, -0.0172,  0.0078, -0.0135, -0.0139, -0.0182,
+        -0.0053,  0.0082], device='cuda:0'), grad: tensor([ 0.0048,  0.0019,  0.0148, -0.0387, -0.0178,  0.0166, -0.0031,  0.0177,
+        -0.0121,  0.0160], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 452, time 216.48, cls_loss 0.4239 cls_loss_mapping 0.0007 cls_loss_causal 0.4031 re_mapping 0.0038 re_causal 0.0119 /// teacc 99.06 lr 0.00001000
+Epoch 454, weight, value: tensor([[ 0.0388,  0.1321, -0.1816,  ..., -0.1079,  0.0783,  0.0046],
+        [-0.1092, -0.1066,  0.1163,  ..., -0.0480, -0.1159,  0.0566],
+        [-0.0965, -0.0708, -0.1190,  ..., -0.1364, -0.0169,  0.0568],
+        ...,
+        [-0.0087, -0.1361, -0.1418,  ..., -0.1148, -0.0522,  0.0769],
+        [-0.1337, -0.1178, -0.1182,  ..., -0.0667, -0.0492, -0.1014],
+        [ 0.0213, -0.0318, -0.0576,  ..., -0.1041,  0.0113, -0.0241]],
+       device='cuda:0'), grad: tensor([[ 3.6120e-04, -9.1046e-06,  1.8227e-04,  ...,  3.8326e-05,
+          1.1008e-06,  3.7646e-04],
+        [ 4.9305e-04, -7.2382e-06,  2.1791e-04,  ...,  8.6737e-04,
+          8.3819e-07,  1.4377e-04],
+        [ 4.6110e-04,  2.3767e-06,  1.9825e-04,  ...,  3.8594e-05,
+          1.1027e-06, -9.5892e-04],
+        ...,
+        [ 1.8225e-03,  2.9057e-07,  2.2960e-04,  ...,  2.0802e-05,
+          3.1888e-06,  1.1673e-03],
+        [ 1.2226e-03,  6.1810e-05,  5.2643e-04,  ...,  8.4257e-04,
+          1.0058e-06,  5.4550e-04],
+        [-7.0724e-03,  6.4634e-06,  2.0540e-04,  ...,  3.5018e-05,
+          6.7912e-06,  4.4894e-04]], device='cuda:0')
+Epoch 454, bias, value: tensor([ 0.0091,  0.0061, -0.0040, -0.0173,  0.0078, -0.0135, -0.0139, -0.0180,
+        -0.0053,  0.0082], device='cuda:0'), grad: tensor([ 0.0075,  0.0136,  0.0046,  0.0110, -0.0229, -0.0112, -0.0153,  0.0151,
+         0.0163, -0.0186], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 453, time 216.44, cls_loss 0.4152 cls_loss_mapping 0.0008 cls_loss_causal 0.3887 re_mapping 0.0038 re_causal 0.0114 /// teacc 99.02 lr 0.00001000
+Epoch 455, weight, value: tensor([[ 0.0388,  0.1322, -0.1815,  ..., -0.1078,  0.0783,  0.0046],
+        [-0.1093, -0.1067,  0.1163,  ..., -0.0481, -0.1161,  0.0565],
+        [-0.0965, -0.0709, -0.1191,  ..., -0.1365, -0.0169,  0.0568],
+        ...,
+        [-0.0085, -0.1361, -0.1418,  ..., -0.1149, -0.0522,  0.0770],
+        [-0.1337, -0.1177, -0.1183,  ..., -0.0668, -0.0491, -0.1014],
+        [ 0.0213, -0.0318, -0.0576,  ..., -0.1042,  0.0113, -0.0242]],
+       device='cuda:0'), grad: tensor([[ 3.6454e-04,  2.9244e-07,  4.4775e-04,  ...,  1.5032e-06,
+          1.2743e-04,  6.9857e-04],
+        [ 8.5211e-04,  3.6620e-06,  5.4264e-04,  ...,  6.1616e-06,
+          2.3293e-04,  1.1749e-03],
+        [ 5.7077e-04,  1.2434e-04,  5.3930e-04,  ...,  4.9882e-06,
+          1.7595e-04,  9.3651e-04],
+        ...,
+        [ 1.5459e-03,  7.5549e-06,  6.3896e-04,  ...,  6.2957e-07,
+          1.5497e-04,  1.9417e-03],
+        [ 6.1083e-04,  5.1446e-06,  3.4847e-03,  ...,  7.7295e-04,
+          1.1688e-04,  8.8120e-04],
+        [-1.7204e-03, -9.3162e-05, -3.0041e-03,  ...,  2.4494e-06,
+         -3.1471e-03, -6.7711e-04]], device='cuda:0')
+Epoch 455, bias, value: tensor([ 0.0090,  0.0060, -0.0040, -0.0171,  0.0079, -0.0136, -0.0140, -0.0180,
+        -0.0052,  0.0082], device='cuda:0'), grad: tensor([ 0.0104,  0.0194,  0.0128, -0.1027,  0.0247,  0.0288,  0.0117, -0.0063,
+         0.0271, -0.0260], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 454, time 216.64, cls_loss 0.4217 cls_loss_mapping 0.0009 cls_loss_causal 0.3947 re_mapping 0.0037 re_causal 0.0110 /// teacc 99.04 lr 0.00001000
+Epoch 456, weight, value: tensor([[ 0.0387,  0.1321, -0.1815,  ..., -0.1079,  0.0781,  0.0046],
+        [-0.1093, -0.1066,  0.1162,  ..., -0.0480, -0.1161,  0.0566],
+        [-0.0964, -0.0709, -0.1190,  ..., -0.1366, -0.0169,  0.0570],
+        ...,
+        [-0.0087, -0.1361, -0.1416,  ..., -0.1150, -0.0523,  0.0769],
+        [-0.1339, -0.1176, -0.1185,  ..., -0.0670, -0.0490, -0.1017],
+        [ 0.0214, -0.0317, -0.0575,  ..., -0.1040,  0.0115, -0.0241]],
+       device='cuda:0'), grad: tensor([[-1.6394e-03, -3.9983e-04,  3.6502e-04,  ..., -7.2598e-05,
+         -1.1539e-03,  2.5582e-04],
+        [ 6.5708e-04,  1.8086e-06,  4.4656e-04,  ...,  3.7160e-06,
+          2.4867e-04, -5.5790e-05],
+        [ 4.4799e-04,  6.4075e-06,  3.8743e-04,  ...,  8.0653e-07,
+          1.7047e-04,  6.1226e-04],
+        ...,
+        [-6.2084e-04,  3.9674e-06, -1.0233e-03,  ...,  1.0617e-07,
+         -2.1064e-04, -1.7681e-03],
+        [ 9.4938e-04,  7.7307e-05,  3.3259e-04,  ...,  3.5554e-05,
+          4.5252e-04,  6.5088e-04],
+        [ 2.9793e-03,  6.1318e-06, -1.8673e-03,  ...,  2.5369e-06,
+          4.3344e-04,  2.3499e-05]], device='cuda:0')
+Epoch 456, bias, value: tensor([ 0.0090,  0.0061, -0.0040, -0.0171,  0.0079, -0.0135, -0.0140, -0.0181,
+        -0.0054,  0.0084], device='cuda:0'), grad: tensor([-0.0220,  0.0107,  0.0030, -0.0062, -0.0191,  0.0132,  0.0181, -0.0140,
+         0.0142,  0.0021], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 455, time 216.56, cls_loss 0.4425 cls_loss_mapping 0.0009 cls_loss_causal 0.4137 re_mapping 0.0036 re_causal 0.0110 /// teacc 99.05 lr 0.00001000
+Epoch 457, weight, value: tensor([[ 0.0387,  0.1320, -0.1816,  ..., -0.1079,  0.0780,  0.0045],
+        [-0.1093, -0.1066,  0.1163,  ..., -0.0480, -0.1162,  0.0566],
+        [-0.0965, -0.0708, -0.1190,  ..., -0.1368, -0.0169,  0.0569],
+        ...,
+        [-0.0086, -0.1363, -0.1416,  ..., -0.1151, -0.0523,  0.0770],
+        [-0.1338, -0.1175, -0.1184,  ..., -0.0669, -0.0487, -0.1014],
+        [ 0.0216, -0.0317, -0.0574,  ..., -0.1039,  0.0116, -0.0241]],
+       device='cuda:0'), grad: tensor([[ 3.7146e-04, -2.7437e-06,  4.5681e-04,  ...,  1.7917e-04,
+          3.3528e-07,  1.2207e-03],
+        [ 4.8923e-04,  1.4633e-05,  1.1549e-03,  ...,  3.1281e-03,
+          2.9564e-05,  8.4610e-03],
+        [-4.3297e-03,  4.8801e-06,  5.2309e-04,  ...,  2.2852e-04,
+          8.6576e-06, -3.9902e-03],
+        ...,
+        [-4.6120e-03, -1.4105e-03, -6.5804e-03,  ..., -6.0768e-03,
+         -2.8801e-03, -1.8402e-02],
+        [ 8.6737e-04,  1.1909e-04,  1.0080e-03,  ...,  3.4714e-04,
+          2.4152e-04,  2.0275e-03],
+        [ 3.6907e-03,  9.9659e-04,  2.2888e-03,  ...,  8.3637e-04,
+          1.7271e-03,  1.9932e-03]], device='cuda:0')
+Epoch 457, bias, value: tensor([ 0.0090,  0.0060, -0.0041, -0.0172,  0.0078, -0.0134, -0.0141, -0.0181,
+        -0.0053,  0.0085], device='cuda:0'), grad: tensor([ 0.0129,  0.0363, -0.0144,  0.0169,  0.0248,  0.0157, -0.0095, -0.1047,
+         0.0177,  0.0042], device='cuda:0')
+100
+1e-05
+changing lr
+---------------------saving model at epoch 456----------------------------------------------------
+epoch 456, time 217.08, cls_loss 0.4383 cls_loss_mapping 0.0008 cls_loss_causal 0.4097 re_mapping 0.0036 re_causal 0.0111 /// teacc 99.07 lr 0.00001000
+Epoch 458, weight, value: tensor([[ 0.0388,  0.1320, -0.1816,  ..., -0.1079,  0.0780,  0.0045],
+        [-0.1093, -0.1065,  0.1162,  ..., -0.0481, -0.1162,  0.0565],
+        [-0.0966, -0.0709, -0.1191,  ..., -0.1368, -0.0169,  0.0570],
+        ...,
+        [-0.0085, -0.1363, -0.1416,  ..., -0.1149, -0.0523,  0.0770],
+        [-0.1338, -0.1176, -0.1184,  ..., -0.0669, -0.0487, -0.1014],
+        [ 0.0217, -0.0316, -0.0573,  ..., -0.1039,  0.0116, -0.0239]],
+       device='cuda:0'), grad: tensor([[ 1.1391e-02, -3.8147e-05,  7.2384e-04,  ...,  5.7131e-05,
+         -1.9312e-04,  1.6499e-03],
+        [ 8.6021e-04,  7.1168e-05,  9.4843e-04,  ...,  3.6389e-05,
+          3.0875e-05,  3.1700e-03],
+        [ 2.8774e-05,  2.5928e-05, -2.1381e-03,  ...,  8.8811e-05,
+          6.0983e-06, -1.1940e-02],
+        ...,
+        [ 2.4052e-03,  4.2200e-05,  1.3266e-03,  ...,  2.4065e-05,
+          1.8284e-05,  2.5101e-03],
+        [-2.8443e-04, -8.0013e-04, -8.5950e-05,  ..., -7.2622e-04,
+         -1.6165e-04,  7.8917e-04],
+        [ 3.1738e-03,  6.8665e-05,  2.5387e-03,  ...,  4.7117e-05,
+          4.2319e-05, -1.3142e-03]], device='cuda:0')
+Epoch 458, bias, value: tensor([ 0.0089,  0.0061, -0.0041, -0.0173,  0.0078, -0.0134, -0.0142, -0.0181,
+        -0.0052,  0.0086], device='cuda:0'), grad: tensor([ 0.0230,  0.0276, -0.0463, -0.0443,  0.0063,  0.0257,  0.0006,  0.0229,
+        -0.0075, -0.0079], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 457, time 217.38, cls_loss 0.4646 cls_loss_mapping 0.0007 cls_loss_causal 0.4348 re_mapping 0.0037 re_causal 0.0118 /// teacc 99.07 lr 0.00001000
+Epoch 459, weight, value: tensor([[ 0.0387,  0.1321, -0.1817,  ..., -0.1080,  0.0780,  0.0043],
+        [-0.1092, -0.1066,  0.1162,  ..., -0.0481, -0.1162,  0.0566],
+        [-0.0965, -0.0709, -0.1190,  ..., -0.1369, -0.0170,  0.0571],
+        ...,
+        [-0.0085, -0.1362, -0.1414,  ..., -0.1149, -0.0522,  0.0771],
+        [-0.1337, -0.1176, -0.1184,  ..., -0.0666, -0.0487, -0.1014],
+        [ 0.0216, -0.0318, -0.0574,  ..., -0.1040,  0.0115, -0.0239]],
+       device='cuda:0'), grad: tensor([[ 1.2712e-03,  5.4359e-04,  7.3957e-04,  ...,  1.6365e-03,
+          1.5068e-04,  4.6425e-03],
+        [-4.2534e-03, -2.7370e-04,  5.8365e-04,  ..., -5.4979e-04,
+         -6.8188e-04, -4.1351e-03],
+        [ 8.3733e-04,  2.5320e-04,  8.5592e-04,  ...,  4.5919e-04,
+          2.0695e-04, -5.1842e-03],
+        ...,
+        [-5.5075e-04,  8.1182e-05,  9.1219e-04,  ...,  9.5427e-05,
+          2.2292e-04,  2.9421e-04],
+        [ 5.1641e-04, -2.2754e-05,  3.8052e-04,  ..., -1.9193e-04,
+          1.9515e-04,  2.3842e-03],
+        [ 5.9557e-04,  2.0337e-04, -1.6632e-03,  ...,  2.1923e-04,
+          4.1819e-04, -4.5776e-03]], device='cuda:0')
+Epoch 459, bias, value: tensor([ 0.0088,  0.0063, -0.0040, -0.0172,  0.0077, -0.0134, -0.0143, -0.0180,
+        -0.0052,  0.0085], device='cuda:0'), grad: tensor([ 0.0280, -0.0182, -0.0079,  0.0061, -0.0085,  0.0349, -0.0182, -0.0013,
+         0.0180, -0.0329], device='cuda:0')
+100
+1e-05
+changing lr
+---------------------saving model at epoch 458----------------------------------------------------
+epoch 458, time 217.27, cls_loss 0.3964 cls_loss_mapping 0.0008 cls_loss_causal 0.3695 re_mapping 0.0036 re_causal 0.0109 /// teacc 99.08 lr 0.00001000
+Epoch 460, weight, value: tensor([[ 0.0387,  0.1321, -0.1817,  ..., -0.1080,  0.0779,  0.0042],
+        [-0.1090, -0.1066,  0.1161,  ..., -0.0481, -0.1162,  0.0566],
+        [-0.0965, -0.0709, -0.1192,  ..., -0.1369, -0.0169,  0.0570],
+        ...,
+        [-0.0087, -0.1361, -0.1415,  ..., -0.1150, -0.0522,  0.0770],
+        [-0.1338, -0.1176, -0.1185,  ..., -0.0667, -0.0488, -0.1015],
+        [ 0.0217, -0.0319, -0.0573,  ..., -0.1038,  0.0115, -0.0236]],
+       device='cuda:0'), grad: tensor([[ 1.1082e-03,  8.2180e-06,  4.7517e-04,  ...,  1.7679e-04,
+          8.0526e-05,  8.8549e-04],
+        [-4.4465e-05,  8.2031e-06, -1.6470e-03,  ...,  2.1741e-05,
+          9.3102e-05, -7.8278e-03],
+        [ 2.5153e-04, -8.1599e-05,  2.5654e-04,  ...,  8.7637e-07,
+         -3.8952e-05,  7.7963e-04],
+        ...,
+        [ 5.9271e-04,  6.1154e-05,  6.9332e-04,  ...,  1.3877e-07,
+          2.4724e-04,  2.4166e-03],
+        [ 1.2445e-03,  1.5140e-05,  5.2547e-04,  ...,  1.9825e-04,
+          8.9347e-05,  6.7520e-03],
+        [-1.1778e-04, -8.0347e-05,  2.4629e-04,  ...,  3.8482e-06,
+         -4.3809e-05, -2.8305e-03]], device='cuda:0')
+Epoch 460, bias, value: tensor([ 0.0087,  0.0063, -0.0042, -0.0173,  0.0078, -0.0135, -0.0141, -0.0181,
+        -0.0053,  0.0088], device='cuda:0'), grad: tensor([ 0.0156, -0.0356,  0.0073,  0.0174, -0.0178, -0.0184, -0.0037,  0.0187,
+         0.0311, -0.0146], device='cuda:0')
+100
+1e-05
+changing lr
+---------------------saving model at epoch 459----------------------------------------------------
+epoch 459, time 216.83, cls_loss 0.4218 cls_loss_mapping 0.0008 cls_loss_causal 0.3924 re_mapping 0.0038 re_causal 0.0117 /// teacc 99.14 lr 0.00001000
+Epoch 461, weight, value: tensor([[ 0.0388,  0.1319, -0.1818,  ..., -0.1083,  0.0779,  0.0042],
+        [-0.1090, -0.1069,  0.1160,  ..., -0.0482, -0.1162,  0.0565],
+        [-0.0967, -0.0709, -0.1193,  ..., -0.1369, -0.0169,  0.0571],
+        ...,
+        [-0.0087, -0.1362, -0.1415,  ..., -0.1150, -0.0522,  0.0770],
+        [-0.1337, -0.1176, -0.1184,  ..., -0.0667, -0.0488, -0.1015],
+        [ 0.0217, -0.0319, -0.0574,  ..., -0.1039,  0.0115, -0.0236]],
+       device='cuda:0'), grad: tensor([[ 3.5453e-04, -2.5049e-05,  7.6532e-04,  ...,  1.3816e-04,
+         -4.2105e-04,  9.2793e-04],
+        [ 5.2023e-04,  3.1982e-06,  7.9012e-04,  ...,  1.6379e-04,
+          5.4741e-04,  1.1663e-03],
+        [-1.9062e-04, -5.3108e-05, -3.5267e-03,  ...,  1.5569e-04,
+         -3.1900e-04, -9.6655e-04],
+        ...,
+        [ 5.0163e-04,  5.8860e-06,  7.7200e-04,  ...,  2.1291e-04,
+          2.6774e-04,  1.2531e-03],
+        [-2.0719e-04, -6.8283e-04, -2.9926e-03,  ..., -8.9216e-04,
+          3.3307e-04, -1.2083e-03],
+        [-5.7316e-04,  3.8415e-05,  9.0981e-04,  ...,  1.2141e-04,
+         -1.9932e-03, -7.5006e-04]], device='cuda:0')
+Epoch 461, bias, value: tensor([ 0.0087,  0.0063, -0.0043, -0.0172,  0.0078, -0.0135, -0.0139, -0.0182,
+        -0.0053,  0.0087], device='cuda:0'), grad: tensor([ 0.0143,  0.0199, -0.0271,  0.0217,  0.0187,  0.0155, -0.0151,  0.0163,
+        -0.0491, -0.0151], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 460, time 217.00, cls_loss 0.4161 cls_loss_mapping 0.0007 cls_loss_causal 0.3969 re_mapping 0.0038 re_causal 0.0118 /// teacc 99.09 lr 0.00001000
+Epoch 462, weight, value: tensor([[ 0.0388,  0.1319, -0.1819,  ..., -0.1083,  0.0780,  0.0041],
+        [-0.1091, -0.1070,  0.1161,  ..., -0.0482, -0.1163,  0.0565],
+        [-0.0966, -0.0709, -0.1194,  ..., -0.1369, -0.0170,  0.0571],
+        ...,
+        [-0.0086, -0.1362, -0.1415,  ..., -0.1149, -0.0521,  0.0769],
+        [-0.1338, -0.1176, -0.1185,  ..., -0.0666, -0.0488, -0.1014],
+        [ 0.0216, -0.0321, -0.0575,  ..., -0.1041,  0.0114, -0.0237]],
+       device='cuda:0'), grad: tensor([[-1.1024e-03, -2.0400e-05, -2.1801e-03,  ...,  6.1467e-07,
+         -9.9391e-06, -1.4868e-03],
+        [ 9.7942e-04,  2.2072e-06,  1.2474e-03,  ...,  3.5390e-08,
+          7.3295e-07,  1.6737e-03],
+        [ 2.5768e-03,  1.1128e-04,  7.8583e-04,  ...,  7.9945e-06,
+          3.6061e-05,  2.8667e-03],
+        ...,
+        [ 6.8283e-04,  4.8548e-05,  8.8263e-04,  ...,  2.0489e-08,
+          6.7651e-06,  1.0633e-03],
+        [ 7.8106e-04,  5.2118e-04,  7.3624e-04,  ...,  1.3327e-06,
+          2.5611e-06,  1.1339e-03],
+        [-1.8816e-03, -1.1282e-03, -2.0599e-03,  ...,  2.2165e-07,
+          1.3702e-05, -5.5656e-03]], device='cuda:0')
+Epoch 462, bias, value: tensor([ 0.0087,  0.0063, -0.0043, -0.0171,  0.0078, -0.0135, -0.0140, -0.0182,
+        -0.0053,  0.0087], device='cuda:0'), grad: tensor([-0.0467,  0.0226,  0.0276,  0.0191, -0.0093,  0.0230, -0.0089,  0.0159,
+         0.0264, -0.0698], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 461, time 216.50, cls_loss 0.4249 cls_loss_mapping 0.0007 cls_loss_causal 0.4000 re_mapping 0.0038 re_causal 0.0118 /// teacc 99.08 lr 0.00001000
+Epoch 463, weight, value: tensor([[ 0.0390,  0.1320, -0.1817,  ..., -0.1082,  0.0780,  0.0043],
+        [-0.1091, -0.1070,  0.1159,  ..., -0.0482, -0.1163,  0.0565],
+        [-0.0966, -0.0710, -0.1193,  ..., -0.1369, -0.0171,  0.0573],
+        ...,
+        [-0.0086, -0.1362, -0.1416,  ..., -0.1150, -0.0522,  0.0769],
+        [-0.1340, -0.1177, -0.1185,  ..., -0.0667, -0.0487, -0.1015],
+        [ 0.0217, -0.0321, -0.0576,  ..., -0.1041,  0.0113, -0.0236]],
+       device='cuda:0'), grad: tensor([[ 8.6308e-05, -9.7230e-06,  2.4033e-04,  ..., -1.8626e-09,
+         -1.6764e-05, -3.2101e-03],
+        [-8.8692e-04,  7.6462e-07, -2.4014e-03,  ...,  2.7940e-08,
+         -2.8253e-05,  2.1076e-04],
+        [-2.2352e-04, -6.4754e-04,  2.4283e-04,  ...,  7.2643e-07,
+          3.0547e-06,  7.2021e-03],
+        ...,
+        [ 2.9945e-04,  2.4550e-06,  3.4237e-04,  ...,  3.5390e-08,
+          3.9674e-06, -9.7656e-03],
+        [ 1.1787e-05,  4.3325e-06,  2.5153e-04,  ...,  5.1782e-07,
+          5.0105e-06,  1.1625e-03],
+        [ 1.0033e-03,  4.8429e-06,  1.4150e-04,  ...,  6.1095e-07,
+          7.4729e-06,  9.6273e-04]], device='cuda:0')
+Epoch 463, bias, value: tensor([ 0.0088,  0.0062, -0.0042, -0.0171,  0.0077, -0.0136, -0.0139, -0.0182,
+        -0.0053,  0.0087], device='cuda:0'), grad: tensor([-0.0209, -0.0191,  0.0291,  0.0134,  0.0052, -0.0170,  0.0123, -0.0256,
+         0.0146,  0.0081], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 462, time 216.78, cls_loss 0.4353 cls_loss_mapping 0.0006 cls_loss_causal 0.4067 re_mapping 0.0037 re_causal 0.0119 /// teacc 99.09 lr 0.00001000
+Epoch 464, weight, value: tensor([[ 0.0388,  0.1319, -0.1818,  ..., -0.1081,  0.0779,  0.0044],
+        [-0.1091, -0.1069,  0.1159,  ..., -0.0481, -0.1163,  0.0565],
+        [-0.0967, -0.0711, -0.1194,  ..., -0.1370, -0.0173,  0.0572],
+        ...,
+        [-0.0086, -0.1361, -0.1415,  ..., -0.1150, -0.0522,  0.0770],
+        [-0.1339, -0.1177, -0.1185,  ..., -0.0666, -0.0487, -0.1015],
+        [ 0.0218, -0.0322, -0.0576,  ..., -0.1041,  0.0113, -0.0237]],
+       device='cuda:0'), grad: tensor([[ 0.0013,  0.0001,  0.0019,  ...,  0.0001,  0.0003,  0.0012],
+        [-0.0014, -0.0008, -0.0066,  ...,  0.0011,  0.0009, -0.0008],
+        [-0.0054,  0.0004, -0.0008,  ...,  0.0003,  0.0007,  0.0006],
+        ...,
+        [-0.0012,  0.0005, -0.0019,  ...,  0.0005, -0.0022, -0.0027],
+        [ 0.0014,  0.0011,  0.0027,  ...,  0.0009,  0.0006,  0.0020],
+        [ 0.0029, -0.0029, -0.0021,  ..., -0.0040, -0.0007, -0.0057]],
+       device='cuda:0')
+Epoch 464, bias, value: tensor([ 0.0088,  0.0060, -0.0042, -0.0172,  0.0077, -0.0136, -0.0138, -0.0181,
+        -0.0052,  0.0086], device='cuda:0'), grad: tensor([ 2.0233e-02, -5.9784e-02, -1.7517e-02,  3.5919e-02, -6.9809e-03,
+         2.0020e-02,  2.2003e-02, -3.8971e-02,  2.5101e-02, -7.4506e-05],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 463, time 216.80, cls_loss 0.4405 cls_loss_mapping 0.0008 cls_loss_causal 0.4130 re_mapping 0.0037 re_causal 0.0116 /// teacc 99.06 lr 0.00001000
+Epoch 465, weight, value: tensor([[ 0.0388,  0.1320, -0.1818,  ..., -0.1081,  0.0779,  0.0043],
+        [-0.1090, -0.1069,  0.1160,  ..., -0.0481, -0.1164,  0.0565],
+        [-0.0966, -0.0711, -0.1194,  ..., -0.1370, -0.0174,  0.0573],
+        ...,
+        [-0.0085, -0.1359, -0.1415,  ..., -0.1148, -0.0520,  0.0769],
+        [-0.1338, -0.1177, -0.1185,  ..., -0.0665, -0.0486, -0.1014],
+        [ 0.0219, -0.0322, -0.0576,  ..., -0.1041,  0.0113, -0.0238]],
+       device='cuda:0'), grad: tensor([[ 2.4319e-04,  1.3411e-04,  5.5122e-04,  ...,  9.8169e-05,
+          1.0110e-05,  9.0265e-04],
+        [-4.3068e-03,  8.3983e-05, -1.6842e-03,  ...,  9.0122e-05,
+          1.3426e-05, -1.2302e-03],
+        [ 4.2319e-04,  2.0480e-04,  4.2647e-05,  ...,  2.0444e-04,
+          3.0994e-05, -3.7408e-04],
+        ...,
+        [ 6.2895e-04,  2.2566e-04,  7.4959e-04,  ...,  2.2602e-04,
+          3.4064e-05,  1.7757e-03],
+        [ 4.4632e-04, -4.3869e-03,  5.5456e-04,  ...,  1.9360e-04,
+          2.9325e-05,  1.2770e-03],
+        [ 1.9331e-03,  1.7815e-03,  6.3944e-04,  ..., -1.4124e-03,
+         -2.0981e-04, -2.5558e-03]], device='cuda:0')
+Epoch 465, bias, value: tensor([ 0.0087,  0.0062, -0.0042, -0.0174,  0.0075, -0.0137, -0.0137, -0.0180,
+        -0.0051,  0.0086], device='cuda:0'), grad: tensor([ 0.0131, -0.0519,  0.0171,  0.0210, -0.0155, -0.0182, -0.0135,  0.0222,
+         0.0089,  0.0169], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 464, time 217.11, cls_loss 0.4338 cls_loss_mapping 0.0007 cls_loss_causal 0.4042 re_mapping 0.0037 re_causal 0.0118 /// teacc 99.05 lr 0.00001000
+Epoch 466, weight, value: tensor([[ 0.0389,  0.1320, -0.1819,  ..., -0.1082,  0.0780,  0.0043],
+        [-0.1090, -0.1068,  0.1160,  ..., -0.0483, -0.1166,  0.0564],
+        [-0.0966, -0.0713, -0.1196,  ..., -0.1371, -0.0175,  0.0573],
+        ...,
+        [-0.0085, -0.1360, -0.1415,  ..., -0.1149, -0.0520,  0.0769],
+        [-0.1339, -0.1178, -0.1185,  ..., -0.0665, -0.0487, -0.1015],
+        [ 0.0218, -0.0322, -0.0576,  ..., -0.1040,  0.0113, -0.0237]],
+       device='cuda:0'), grad: tensor([[ 2.6536e-04,  3.4049e-06,  9.8133e-04,  ...,  1.0878e-04,
+          2.3210e-04,  9.9182e-04],
+        [ 9.9277e-04,  2.6822e-07,  2.8362e-03,  ...,  3.6430e-04,
+          1.0395e-03,  4.0512e-03],
+        [ 3.1662e-04, -1.2177e-04,  1.4830e-03,  ...,  2.4700e-04,
+          3.0184e-04,  1.5364e-03],
+        ...,
+        [-1.7157e-03,  1.5767e-06,  1.2865e-03,  ...,  9.6738e-05,
+         -2.2526e-03, -4.1580e-03],
+        [-2.8872e-04,  1.8609e-04, -2.8839e-03,  ...,  1.1176e-04,
+          2.4128e-04, -7.0524e-04],
+        [-8.4591e-04,  8.8066e-06, -3.0003e-03,  ..., -1.8015e-03,
+         -8.8787e-04, -3.4275e-03]], device='cuda:0')
+Epoch 466, bias, value: tensor([ 0.0088,  0.0062, -0.0043, -0.0173,  0.0075, -0.0136, -0.0137, -0.0180,
+        -0.0052,  0.0087], device='cuda:0'), grad: tensor([ 0.0128,  0.0388,  0.0162, -0.0043,  0.0188, -0.0135, -0.0191, -0.0097,
+        -0.0092, -0.0307], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 465, time 217.29, cls_loss 0.4346 cls_loss_mapping 0.0007 cls_loss_causal 0.4133 re_mapping 0.0038 re_causal 0.0116 /// teacc 99.06 lr 0.00001000
+Epoch 467, weight, value: tensor([[ 0.0389,  0.1320, -0.1817,  ..., -0.1082,  0.0779,  0.0043],
+        [-0.1090, -0.1068,  0.1161,  ..., -0.0483, -0.1167,  0.0564],
+        [-0.0966, -0.0712, -0.1196,  ..., -0.1372, -0.0175,  0.0572],
+        ...,
+        [-0.0085, -0.1360, -0.1415,  ..., -0.1150, -0.0521,  0.0769],
+        [-0.1341, -0.1179, -0.1187,  ..., -0.0666, -0.0488, -0.1015],
+        [ 0.0219, -0.0322, -0.0576,  ..., -0.1040,  0.0114, -0.0235]],
+       device='cuda:0'), grad: tensor([[-5.9414e-04, -1.1520e-03,  9.3985e-04,  ...,  6.0163e-07,
+         -5.3358e-04,  2.7204e-04],
+        [ 3.9101e-04,  5.6922e-06,  1.2856e-03,  ..., -6.0610e-06,
+          1.7226e-05,  6.0606e-04],
+        [ 6.6423e-04,  5.4985e-05,  1.0471e-03,  ...,  4.2189e-07,
+          1.4782e-04,  1.7891e-03],
+        ...,
+        [-4.2653e-04,  1.3554e-04, -4.5853e-03,  ...,  1.8673e-06,
+          1.4329e-04, -3.2272e-03],
+        [-1.1110e-03,  1.0788e-04, -1.8358e-03,  ...,  1.7518e-06,
+          1.3077e-04, -2.1820e-03],
+        [-1.6994e-03,  2.4676e-04,  1.2131e-03,  ...,  3.9116e-07,
+         -5.0735e-04,  8.2827e-04]], device='cuda:0')
+Epoch 467, bias, value: tensor([ 0.0089,  0.0062, -0.0043, -0.0173,  0.0074, -0.0135, -0.0137, -0.0182,
+        -0.0052,  0.0089], device='cuda:0'), grad: tensor([ 0.0112,  0.0193,  0.0170,  0.0170,  0.0194,  0.0149, -0.0146, -0.0448,
+        -0.0499,  0.0105], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 466, time 216.48, cls_loss 0.4554 cls_loss_mapping 0.0008 cls_loss_causal 0.4184 re_mapping 0.0036 re_causal 0.0113 /// teacc 99.05 lr 0.00001000
+Epoch 468, weight, value: tensor([[ 0.0389,  0.1320, -0.1819,  ..., -0.1081,  0.0779,  0.0044],
+        [-0.1090, -0.1069,  0.1161,  ..., -0.0482, -0.1167,  0.0563],
+        [-0.0966, -0.0712, -0.1196,  ..., -0.1374, -0.0176,  0.0572],
+        ...,
+        [-0.0083, -0.1358, -0.1413,  ..., -0.1150, -0.0519,  0.0769],
+        [-0.1341, -0.1179, -0.1187,  ..., -0.0666, -0.0488, -0.1015],
+        [ 0.0219, -0.0320, -0.0576,  ..., -0.1042,  0.0112, -0.0235]],
+       device='cuda:0'), grad: tensor([[ 1.8063e-03,  2.1708e-04,  4.0746e-04,  ..., -3.7402e-06,
+         -2.9787e-05,  5.0157e-05],
+        [ 4.1056e-04,  6.3293e-06, -4.3064e-05,  ...,  4.0084e-06,
+          1.8151e-06, -3.7670e-04],
+        [ 1.2326e-04,  1.2495e-05,  8.9824e-05,  ...,  3.4213e-05,
+          4.4778e-06,  3.7956e-04],
+        ...,
+        [-7.7114e-06,  8.9183e-06,  4.7594e-05,  ...,  2.7254e-05,
+         -2.3901e-05, -8.1778e-05],
+        [ 6.4659e-03, -6.6996e-04, -1.1215e-03,  ...,  4.5657e-05,
+          1.0453e-05,  1.0651e-04],
+        [ 2.3735e-04,  9.0897e-05,  1.5175e-04,  ...,  1.2340e-06,
+          2.8983e-05,  1.2803e-04]], device='cuda:0')
+Epoch 468, bias, value: tensor([ 0.0088,  0.0061, -0.0044, -0.0173,  0.0074, -0.0134, -0.0136, -0.0181,
+        -0.0053,  0.0088], device='cuda:0'), grad: tensor([ 0.0061,  0.0112,  0.0025,  0.0023,  0.0013, -0.0261, -0.0475,  0.0008,
+         0.0471,  0.0023], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 467, time 216.72, cls_loss 0.4069 cls_loss_mapping 0.0008 cls_loss_causal 0.3781 re_mapping 0.0035 re_causal 0.0105 /// teacc 99.04 lr 0.00001000
+Epoch 469, weight, value: tensor([[ 0.0388,  0.1320, -0.1818,  ..., -0.1082,  0.0779,  0.0042],
+        [-0.1089, -0.1068,  0.1162,  ..., -0.0480, -0.1166,  0.0565],
+        [-0.0965, -0.0711, -0.1194,  ..., -0.1372, -0.0175,  0.0572],
+        ...,
+        [-0.0083, -0.1359, -0.1414,  ..., -0.1150, -0.0520,  0.0769],
+        [-0.1342, -0.1179, -0.1189,  ..., -0.0667, -0.0488, -0.1015],
+        [ 0.0218, -0.0320, -0.0577,  ..., -0.1042,  0.0111, -0.0235]],
+       device='cuda:0'), grad: tensor([[ 1.6999e-04,  4.9081e-07,  4.8041e-05,  ...,  1.0259e-05,
+          6.9499e-05,  3.7527e-04],
+        [ 1.1998e-04,  1.3411e-07, -2.1803e-04,  ..., -3.0342e-06,
+          4.7535e-05, -9.2459e-04],
+        [ 3.5810e-04,  2.3216e-05,  2.7347e-04,  ...,  2.3283e-07,
+          1.3876e-04,  1.2999e-03],
+        ...,
+        [-2.0790e-03,  1.8347e-07, -4.9162e-04,  ...,  8.6613e-08,
+         -8.1730e-04, -4.2725e-03],
+        [ 3.1924e-04, -6.4015e-05,  4.0531e-05,  ..., -4.6492e-06,
+          1.1241e-04,  4.2343e-04],
+        [ 2.3437e-04,  2.3935e-07,  8.3029e-05,  ...,  1.3225e-07,
+          5.3793e-06,  6.2323e-04]], device='cuda:0')
+Epoch 469, bias, value: tensor([ 0.0088,  0.0062, -0.0042, -0.0173,  0.0075, -0.0134, -0.0137, -0.0182,
+        -0.0052,  0.0087], device='cuda:0'), grad: tensor([ 0.0081,  0.0067, -0.0105,  0.0090,  0.0118,  0.0075,  0.0085, -0.0273,
+        -0.0229,  0.0092], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 468, time 217.50, cls_loss 0.4381 cls_loss_mapping 0.0007 cls_loss_causal 0.4176 re_mapping 0.0037 re_causal 0.0118 /// teacc 99.05 lr 0.00001000
+Epoch 470, weight, value: tensor([[ 0.0388,  0.1320, -0.1819,  ..., -0.1082,  0.0778,  0.0040],
+        [-0.1088, -0.1067,  0.1163,  ..., -0.0481, -0.1163,  0.0565],
+        [-0.0965, -0.0709, -0.1193,  ..., -0.1373, -0.0173,  0.0573],
+        ...,
+        [-0.0083, -0.1358, -0.1415,  ..., -0.1150, -0.0520,  0.0771],
+        [-0.1343, -0.1180, -0.1190,  ..., -0.0668, -0.0488, -0.1015],
+        [ 0.0217, -0.0321, -0.0576,  ..., -0.1044,  0.0110, -0.0236]],
+       device='cuda:0'), grad: tensor([[ 2.7895e-04,  7.1898e-06,  8.9407e-04,  ...,  4.1842e-05,
+          1.5721e-06,  7.9870e-04],
+        [-2.7466e-03, -1.4710e-04, -1.7204e-03,  ..., -8.6880e-04,
+          2.9039e-06, -2.8915e-03],
+        [-7.0381e-04,  7.9989e-05, -3.6087e-03,  ...,  1.7181e-05,
+          3.5483e-06, -3.4084e-03],
+        ...,
+        [ 3.0098e-03,  3.9563e-06,  1.0443e-03,  ...,  1.0960e-05,
+          3.0537e-03,  8.5163e-04],
+        [ 5.6124e-04,  1.9103e-05,  9.2173e-04,  ...,  6.6578e-05,
+          3.3956e-06,  9.9277e-04],
+        [ 5.3930e-04,  2.7686e-05,  1.0920e-03,  ...,  3.7462e-05,
+          2.6774e-04,  1.0252e-03]], device='cuda:0')
+Epoch 470, bias, value: tensor([ 0.0087,  0.0062, -0.0043, -0.0171,  0.0076, -0.0134, -0.0138, -0.0182,
+        -0.0053,  0.0086], device='cuda:0'), grad: tensor([ 0.0166, -0.0312, -0.0797, -0.0308,  0.0046,  0.0095,  0.0230,  0.0434,
+         0.0214,  0.0232], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 469, time 216.63, cls_loss 0.4533 cls_loss_mapping 0.0007 cls_loss_causal 0.4187 re_mapping 0.0037 re_causal 0.0118 /// teacc 99.11 lr 0.00001000
+Epoch 471, weight, value: tensor([[ 0.0388,  0.1320, -0.1818,  ..., -0.1081,  0.0779,  0.0040],
+        [-0.1090, -0.1067,  0.1162,  ..., -0.0482, -0.1164,  0.0565],
+        [-0.0965, -0.0709, -0.1193,  ..., -0.1373, -0.0174,  0.0572],
+        ...,
+        [-0.0081, -0.1359, -0.1415,  ..., -0.1149, -0.0521,  0.0771],
+        [-0.1343, -0.1180, -0.1188,  ..., -0.0668, -0.0488, -0.1014],
+        [ 0.0216, -0.0320, -0.0577,  ..., -0.1043,  0.0110, -0.0235]],
+       device='cuda:0'), grad: tensor([[ 1.4603e-04,  1.5521e-04,  3.9577e-04,  ...,  4.0269e-04,
+         -2.4736e-05,  9.5940e-04],
+        [-1.5774e-03,  1.1601e-05, -1.2207e-03,  ..., -1.7767e-03,
+          1.5693e-06,  1.0231e-02],
+        [ 3.6550e-04,  4.3511e-05,  2.0564e-04,  ...,  4.1413e-04,
+          5.0515e-06,  2.5482e-03],
+        ...,
+        [ 1.4582e-03,  6.4564e-04,  1.0853e-03,  ...,  1.3006e-04,
+          5.5313e-04, -2.1606e-02],
+        [ 6.9714e-04,  3.0160e-04,  6.5041e-04,  ...,  9.7132e-04,
+          1.0900e-05,  2.8038e-03],
+        [-7.4806e-03, -6.0272e-04, -7.6866e-04,  ...,  2.1398e-04,
+         -5.7316e-04, -3.2330e-03]], device='cuda:0')
+Epoch 471, bias, value: tensor([ 0.0087,  0.0062, -0.0042, -0.0171,  0.0077, -0.0134, -0.0141, -0.0182,
+        -0.0053,  0.0086], device='cuda:0'), grad: tensor([ 0.0087, -0.0512,  0.0122,  0.0079,  0.0346,  0.0185, -0.0081, -0.0128,
+         0.0180, -0.0276], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 470, time 216.91, cls_loss 0.4147 cls_loss_mapping 0.0008 cls_loss_causal 0.3896 re_mapping 0.0037 re_causal 0.0113 /// teacc 99.08 lr 0.00001000
+Epoch 472, weight, value: tensor([[ 0.0389,  0.1321, -0.1818,  ..., -0.1081,  0.0779,  0.0041],
+        [-0.1090, -0.1068,  0.1160,  ..., -0.0483, -0.1164,  0.0564],
+        [-0.0966, -0.0709, -0.1195,  ..., -0.1373, -0.0173,  0.0572],
+        ...,
+        [-0.0082, -0.1359, -0.1414,  ..., -0.1150, -0.0522,  0.0770],
+        [-0.1342, -0.1180, -0.1188,  ..., -0.0668, -0.0488, -0.1013],
+        [ 0.0218, -0.0321, -0.0577,  ..., -0.1043,  0.0109, -0.0234]],
+       device='cuda:0'), grad: tensor([[ 1.0490e-03,  2.1801e-03,  5.7125e-04,  ...,  1.7146e-06,
+          2.8825e-04,  2.9030e-03],
+        [ 4.3559e-04, -4.6417e-06,  9.6202e-05,  ..., -1.8790e-05,
+          2.1204e-05,  1.5011e-03],
+        [-3.9411e-04, -2.1744e-03, -6.8903e-05,  ...,  2.1420e-06,
+         -2.4748e-04, -3.6068e-03],
+        ...,
+        [-2.4390e-04,  9.2864e-05,  5.0974e-04,  ...,  9.7882e-07,
+          7.1943e-05,  8.1205e-04],
+        [ 3.2496e-04,  7.3791e-05,  3.8886e-04,  ...,  2.9821e-06,
+          5.5850e-05,  1.0529e-03],
+        [ 1.4095e-03,  4.5121e-05,  3.5715e-04,  ...,  7.3947e-07,
+          4.2975e-05,  1.6880e-03]], device='cuda:0')
+Epoch 472, bias, value: tensor([ 0.0089,  0.0061, -0.0044, -0.0171,  0.0077, -0.0134, -0.0141, -0.0182,
+        -0.0052,  0.0087], device='cuda:0'), grad: tensor([ 0.0149, -0.0181, -0.0089,  0.0140, -0.0230, -0.0218,  0.0086,  0.0119,
+         0.0101,  0.0123], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 471, time 216.54, cls_loss 0.4295 cls_loss_mapping 0.0008 cls_loss_causal 0.4065 re_mapping 0.0037 re_causal 0.0114 /// teacc 99.07 lr 0.00001000
+Epoch 473, weight, value: tensor([[ 0.0390,  0.1321, -0.1818,  ..., -0.1079,  0.0780,  0.0041],
+        [-0.1090, -0.1068,  0.1160,  ..., -0.0483, -0.1165,  0.0563],
+        [-0.0968, -0.0708, -0.1196,  ..., -0.1373, -0.0174,  0.0573],
+        ...,
+        [-0.0083, -0.1360, -0.1413,  ..., -0.1151, -0.0523,  0.0770],
+        [-0.1342, -0.1180, -0.1189,  ..., -0.0668, -0.0488, -0.1011],
+        [ 0.0217, -0.0323, -0.0578,  ..., -0.1044,  0.0109, -0.0235]],
+       device='cuda:0'), grad: tensor([[-1.6804e-03, -1.4238e-03,  8.2910e-05,  ..., -1.2970e-03,
+          2.9850e-04,  1.0767e-03],
+        [ 1.1539e-03,  1.9920e-04,  7.2670e-04,  ...,  7.4446e-05,
+          4.4799e-04,  1.4915e-03],
+        [ 3.5076e-03,  2.9411e-03,  2.6703e-03,  ...,  9.9468e-04,
+          7.3099e-04,  7.8354e-03],
+        ...,
+        [ 4.1294e-04,  4.6730e-04, -2.9526e-03,  ...,  5.4985e-05,
+          3.4094e-04, -3.3975e-04],
+        [ 8.5783e-04,  2.0063e-04,  5.7507e-04,  ...,  1.0931e-04,
+          3.0231e-04,  1.1673e-03],
+        [-3.3970e-03,  1.0155e-02,  6.0081e-03,  ...,  4.8685e-04,
+          2.5311e-03,  2.2030e-03]], device='cuda:0')
+Epoch 473, bias, value: tensor([ 0.0089,  0.0060, -0.0045, -0.0170,  0.0078, -0.0133, -0.0141, -0.0182,
+        -0.0052,  0.0087], device='cuda:0'), grad: tensor([-0.0017,  0.0191,  0.0165, -0.0641,  0.0029,  0.0215,  0.0252, -0.0098,
+         0.0159, -0.0254], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 472, time 216.51, cls_loss 0.4513 cls_loss_mapping 0.0008 cls_loss_causal 0.4208 re_mapping 0.0037 re_causal 0.0115 /// teacc 99.09 lr 0.00001000
+Epoch 474, weight, value: tensor([[ 0.0390,  0.1322, -0.1818,  ..., -0.1079,  0.0780,  0.0042],
+        [-0.1090, -0.1069,  0.1158,  ..., -0.0485, -0.1166,  0.0563],
+        [-0.0970, -0.0711, -0.1196,  ..., -0.1374, -0.0174,  0.0572],
+        ...,
+        [-0.0084, -0.1361, -0.1412,  ..., -0.1151, -0.0523,  0.0769],
+        [-0.1343, -0.1181, -0.1191,  ..., -0.0670, -0.0490, -0.1012],
+        [ 0.0216, -0.0323, -0.0579,  ..., -0.1043,  0.0106, -0.0235]],
+       device='cuda:0'), grad: tensor([[ 2.5058e-04,  2.5883e-05,  9.5940e-04,  ...,  1.6999e-04,
+         -4.0054e-04, -1.8826e-03],
+        [-1.3857e-03,  3.0130e-05, -5.5313e-03,  ...,  1.5116e-04,
+         -1.1883e-03, -5.9509e-03],
+        [ 1.1349e-03,  1.6487e-04,  1.8559e-03,  ...,  1.7524e-04,
+         -3.8528e-04,  2.4796e-03],
+        ...,
+        [ 1.3466e-02,  6.3062e-05,  2.0580e-03,  ...,  7.1228e-05,
+          1.1311e-03,  3.0060e-03],
+        [-3.6278e-03,  1.1665e-04, -6.7234e-04,  ...,  2.3019e-04,
+          3.1114e-04, -1.8921e-03],
+        [ 7.8201e-05,  3.6597e-05, -4.3821e-04,  ...,  8.9467e-05,
+          8.4209e-04, -5.9932e-05]], device='cuda:0')
+Epoch 474, bias, value: tensor([ 0.0091,  0.0061, -0.0046, -0.0171,  0.0080, -0.0132, -0.0142, -0.0183,
+        -0.0053,  0.0085], device='cuda:0'), grad: tensor([-0.0207, -0.0368,  0.0269, -0.0150,  0.0161,  0.0084, -0.0019,  0.0698,
+        -0.0208, -0.0258], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 473, time 216.36, cls_loss 0.4349 cls_loss_mapping 0.0007 cls_loss_causal 0.4055 re_mapping 0.0035 re_causal 0.0113 /// teacc 99.08 lr 0.00001000
+Epoch 475, weight, value: tensor([[ 0.0390,  0.1324, -0.1818,  ..., -0.1080,  0.0781,  0.0041],
+        [-0.1090, -0.1069,  0.1158,  ..., -0.0482, -0.1166,  0.0565],
+        [-0.0971, -0.0708, -0.1194,  ..., -0.1375, -0.0175,  0.0572],
+        ...,
+        [-0.0084, -0.1360, -0.1413,  ..., -0.1151, -0.0522,  0.0770],
+        [-0.1344, -0.1182, -0.1191,  ..., -0.0671, -0.0489, -0.1013],
+        [ 0.0216, -0.0323, -0.0578,  ..., -0.1044,  0.0106, -0.0236]],
+       device='cuda:0'), grad: tensor([[ 1.0519e-03,  1.9741e-04,  1.3542e-03,  ...,  1.6785e-04,
+          4.3774e-04,  1.2426e-03],
+        [ 8.8263e-04,  5.0776e-06,  1.4496e-03,  ..., -2.7902e-06,
+          2.0599e-04, -9.1314e-04],
+        [ 1.6582e-04, -8.9874e-03, -5.1193e-03,  ...,  4.8995e-05,
+         -1.4486e-03, -4.3488e-03],
+        ...,
+        [-1.0424e-03,  1.7732e-05, -1.8826e-03,  ...,  9.4995e-06,
+          1.8001e-04, -6.9475e-04],
+        [-1.0033e-02, -1.1414e-02, -4.7493e-03,  ..., -8.8654e-03,
+         -7.8659e-03, -6.8893e-03],
+        [ 1.9665e-03,  2.8178e-05,  1.1902e-03,  ...,  3.0026e-05,
+          3.3426e-04,  2.3003e-03]], device='cuda:0')
+Epoch 475, bias, value: tensor([ 0.0090,  0.0062, -0.0045, -0.0171,  0.0079, -0.0132, -0.0142, -0.0182,
+        -0.0054,  0.0086], device='cuda:0'), grad: tensor([ 0.0206,  0.0185, -0.0117,  0.0762,  0.0193, -0.0457, -0.0147, -0.0105,
+        -0.0723,  0.0203], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 474, time 216.60, cls_loss 0.4324 cls_loss_mapping 0.0007 cls_loss_causal 0.4064 re_mapping 0.0036 re_causal 0.0113 /// teacc 99.10 lr 0.00001000
+Epoch 476, weight, value: tensor([[ 0.0389,  0.1323, -0.1820,  ..., -0.1080,  0.0781,  0.0040],
+        [-0.1089, -0.1069,  0.1159,  ..., -0.0482, -0.1166,  0.0565],
+        [-0.0971, -0.0708, -0.1195,  ..., -0.1376, -0.0175,  0.0572],
+        ...,
+        [-0.0084, -0.1359, -0.1412,  ..., -0.1152, -0.0523,  0.0769],
+        [-0.1344, -0.1181, -0.1191,  ..., -0.0670, -0.0488, -0.1012],
+        [ 0.0215, -0.0324, -0.0580,  ..., -0.1044,  0.0105, -0.0236]],
+       device='cuda:0'), grad: tensor([[ 1.4114e-04,  6.7335e-07,  4.5395e-04,  ...,  1.1548e-07,
+          1.4164e-05,  1.8692e-04],
+        [ 2.4438e-04,  7.2271e-06,  3.4523e-04,  ...,  1.8626e-09,
+          9.8422e-06,  4.7517e-04],
+        [ 1.6701e-04, -1.6975e-03,  4.3631e-04,  ...,  1.2107e-08,
+          9.0450e-06,  3.0231e-04],
+        ...,
+        [-1.1522e-04,  1.2711e-05,  4.9543e-04,  ...,  9.3132e-10,
+          1.7226e-04, -1.5202e-03],
+        [ 7.2765e-04,  1.5482e-05,  6.2799e-04,  ..., -3.5390e-08,
+          1.6600e-05,  3.3379e-04],
+        [-4.3583e-04,  8.8736e-06, -1.9293e-03,  ...,  2.7940e-09,
+          1.7986e-03,  2.7031e-05]], device='cuda:0')
+Epoch 476, bias, value: tensor([ 0.0090,  0.0062, -0.0046, -0.0171,  0.0078, -0.0131, -0.0140, -0.0182,
+        -0.0053,  0.0085], device='cuda:0'), grad: tensor([ 0.0059,  0.0078, -0.0165,  0.0283, -0.0272,  0.0072,  0.0069,  0.0029,
+         0.0080, -0.0233], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 475, time 216.48, cls_loss 0.4356 cls_loss_mapping 0.0007 cls_loss_causal 0.4092 re_mapping 0.0037 re_causal 0.0118 /// teacc 99.07 lr 0.00001000
+Epoch 477, weight, value: tensor([[ 0.0389,  0.1324, -0.1821,  ..., -0.1081,  0.0781,  0.0040],
+        [-0.1090, -0.1068,  0.1160,  ..., -0.0481, -0.1166,  0.0564],
+        [-0.0969, -0.0706, -0.1194,  ..., -0.1377, -0.0174,  0.0572],
+        ...,
+        [-0.0083, -0.1359, -0.1411,  ..., -0.1151, -0.0521,  0.0770],
+        [-0.1343, -0.1179, -0.1189,  ..., -0.0669, -0.0488, -0.1012],
+        [ 0.0216, -0.0324, -0.0579,  ..., -0.1043,  0.0104, -0.0236]],
+       device='cuda:0'), grad: tensor([[ 3.5739e-04, -3.0294e-05,  3.2282e-04,  ...,  1.1735e-07,
+          3.7868e-06,  1.1921e-03],
+        [-2.0142e-03,  1.0505e-06,  3.7527e-04,  ...,  4.0047e-08,
+         -3.5834e-04, -2.4719e-03],
+        [-1.2684e-04,  1.3700e-06,  3.1137e-04,  ...,  4.3772e-08,
+          3.6180e-05,  8.9467e-05],
+        ...,
+        [ 4.1008e-04,  1.7108e-06,  3.5191e-04,  ...,  9.3132e-10,
+          5.4240e-05,  1.0271e-03],
+        [ 5.1355e-04,  5.3607e-06,  2.9874e-04,  ...,  2.6450e-07,
+          6.9380e-05,  1.6356e-03],
+        [-6.1846e-04, -7.9125e-06, -2.8706e-03,  ...,  6.5193e-09,
+          1.0349e-05, -4.4365e-03]], device='cuda:0')
+Epoch 477, bias, value: tensor([ 0.0088,  0.0062, -0.0046, -0.0171,  0.0079, -0.0133, -0.0140, -0.0180,
+        -0.0053,  0.0086], device='cuda:0'), grad: tensor([ 0.0141, -0.0149,  0.0102,  0.0102,  0.0166, -0.0142,  0.0072,  0.0147,
+         0.0175, -0.0614], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 476, time 216.73, cls_loss 0.4296 cls_loss_mapping 0.0007 cls_loss_causal 0.4095 re_mapping 0.0037 re_causal 0.0117 /// teacc 99.11 lr 0.00001000
+Epoch 478, weight, value: tensor([[ 0.0388,  0.1323, -0.1820,  ..., -0.1082,  0.0780,  0.0039],
+        [-0.1089, -0.1068,  0.1161,  ..., -0.0482, -0.1166,  0.0565],
+        [-0.0969, -0.0705, -0.1195,  ..., -0.1377, -0.0173,  0.0572],
+        ...,
+        [-0.0082, -0.1358, -0.1411,  ..., -0.1149, -0.0521,  0.0770],
+        [-0.1343, -0.1179, -0.1189,  ..., -0.0669, -0.0488, -0.1011],
+        [ 0.0215, -0.0325, -0.0579,  ..., -0.1045,  0.0104, -0.0237]],
+       device='cuda:0'), grad: tensor([[ 4.5514e-04,  6.5207e-05,  6.6519e-04,  ...,  2.3997e-04,
+         -1.1444e-04,  5.0306e-04],
+        [-4.1199e-03, -4.9734e-04,  1.5628e-04,  ..., -1.2121e-03,
+          6.5148e-05, -2.7637e-03],
+        [ 3.9363e-04,  2.4509e-04,  3.0947e-04,  ...,  1.2410e-04,
+          1.3459e-04, -8.5068e-03],
+        ...,
+        [ 2.2469e-03,  7.2289e-04,  5.1785e-04,  ...,  2.4033e-04,
+          1.0319e-03,  4.1885e-03],
+        [ 8.6069e-04,  4.9973e-04,  5.5408e-04,  ...,  2.9469e-04,
+          2.7251e-04,  5.7030e-03],
+        [-2.5158e-03, -6.6757e-04, -2.2340e-04,  ...,  2.9612e-04,
+         -2.1057e-03, -9.0361e-04]], device='cuda:0')
+Epoch 478, bias, value: tensor([ 0.0088,  0.0062, -0.0046, -0.0172,  0.0078, -0.0133, -0.0140, -0.0179,
+        -0.0052,  0.0085], device='cuda:0'), grad: tensor([ 0.0057, -0.0264, -0.0147,  0.0087,  0.0093, -0.0170,  0.0089,  0.0201,
+         0.0174, -0.0119], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 477, time 216.54, cls_loss 0.4323 cls_loss_mapping 0.0007 cls_loss_causal 0.4079 re_mapping 0.0037 re_causal 0.0117 /// teacc 99.11 lr 0.00001000
+Epoch 479, weight, value: tensor([[ 0.0390,  0.1324, -0.1820,  ..., -0.1083,  0.0780,  0.0039],
+        [-0.1086, -0.1068,  0.1161,  ..., -0.0482, -0.1165,  0.0565],
+        [-0.0970, -0.0705, -0.1194,  ..., -0.1376, -0.0174,  0.0571],
+        ...,
+        [-0.0083, -0.1360, -0.1412,  ..., -0.1151, -0.0522,  0.0771],
+        [-0.1344, -0.1179, -0.1188,  ..., -0.0667, -0.0487, -0.1013],
+        [ 0.0215, -0.0325, -0.0579,  ..., -0.1045,  0.0104, -0.0236]],
+       device='cuda:0'), grad: tensor([[-3.5419e-03, -7.1907e-04,  3.3665e-04,  ...,  6.8378e-04,
+         -6.6423e-04, -1.4534e-03],
+        [ 3.7599e-04,  1.0973e-04,  3.8195e-04,  ...,  3.3712e-04,
+          1.7405e-05, -1.3542e-03],
+        [ 1.2197e-03,  3.2187e-04,  3.3545e-04,  ...,  6.1131e-04,
+          1.5783e-04, -4.3225e-04],
+        ...,
+        [ 4.4942e-04, -2.1839e-04,  3.3784e-04,  ...,  2.6107e-04,
+          3.1233e-05,  3.1033e-03],
+        [-2.4033e-03, -7.6675e-04, -1.1549e-03,  ..., -4.1656e-03,
+          4.5985e-05, -1.0395e-03],
+        [ 1.5411e-03,  3.8481e-04, -1.5488e-03,  ...,  4.3559e-04,
+          1.3065e-04,  1.3981e-03]], device='cuda:0')
+Epoch 479, bias, value: tensor([ 0.0088,  0.0062, -0.0045, -0.0172,  0.0078, -0.0134, -0.0141, -0.0180,
+        -0.0052,  0.0087], device='cuda:0'), grad: tensor([-0.0026, -0.0071,  0.0140,  0.0349,  0.0080, -0.0131, -0.0352,  0.0192,
+        -0.0065, -0.0117], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 478, time 216.56, cls_loss 0.4406 cls_loss_mapping 0.0008 cls_loss_causal 0.4144 re_mapping 0.0035 re_causal 0.0112 /// teacc 99.10 lr 0.00001000
+Epoch 480, weight, value: tensor([[ 0.0390,  0.1324, -0.1819,  ..., -0.1082,  0.0782,  0.0039],
+        [-0.1085, -0.1069,  0.1162,  ..., -0.0482, -0.1165,  0.0565],
+        [-0.0971, -0.0705, -0.1194,  ..., -0.1376, -0.0175,  0.0572],
+        ...,
+        [-0.0082, -0.1360, -0.1413,  ..., -0.1151, -0.0522,  0.0771],
+        [-0.1344, -0.1178, -0.1189,  ..., -0.0666, -0.0489, -0.1014],
+        [ 0.0216, -0.0324, -0.0576,  ..., -0.1045,  0.0105, -0.0235]],
+       device='cuda:0'), grad: tensor([[ 4.0054e-03,  1.3266e-03,  1.1292e-03,  ...,  1.8673e-03,
+          1.5459e-03,  2.8877e-03],
+        [ 9.8133e-04,  1.6779e-05,  8.9884e-04,  ...,  1.0067e-04,
+          2.7224e-05,  1.6851e-03],
+        [ 7.6485e-04,  4.7827e-04, -2.1782e-03,  ...,  1.4424e-04,
+          8.9121e-04, -1.3971e-03],
+        ...,
+        [ 1.8930e-03,  1.0681e-04,  6.6948e-04,  ...,  1.5110e-05,
+          2.4235e-04,  4.7112e-03],
+        [ 2.2240e-03,  1.0109e-03,  9.8228e-04,  ...,  1.3742e-03,
+          1.1902e-03,  2.4967e-03],
+        [ 2.0428e-03,  1.9634e-04,  7.7248e-04,  ...,  6.1750e-05,
+          5.5981e-04,  1.7290e-03]], device='cuda:0')
+Epoch 480, bias, value: tensor([ 0.0088,  0.0063, -0.0045, -0.0174,  0.0076, -0.0132, -0.0142, -0.0180,
+        -0.0052,  0.0089], device='cuda:0'), grad: tensor([-0.0047,  0.0159, -0.0176,  0.0091, -0.0186,  0.0222, -0.0435,  0.0194,
+        -0.0215,  0.0391], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 479, time 216.52, cls_loss 0.4379 cls_loss_mapping 0.0007 cls_loss_causal 0.4153 re_mapping 0.0036 re_causal 0.0113 /// teacc 99.06 lr 0.00001000
+Epoch 481, weight, value: tensor([[ 0.0391,  0.1326, -0.1819,  ..., -0.1081,  0.0781,  0.0040],
+        [-0.1086, -0.1068,  0.1161,  ..., -0.0480, -0.1166,  0.0563],
+        [-0.0972, -0.0707, -0.1195,  ..., -0.1378, -0.0176,  0.0569],
+        ...,
+        [-0.0082, -0.1361, -0.1412,  ..., -0.1151, -0.0522,  0.0773],
+        [-0.1346, -0.1179, -0.1190,  ..., -0.0667, -0.0489, -0.1015],
+        [ 0.0216, -0.0326, -0.0578,  ..., -0.1044,  0.0106, -0.0234]],
+       device='cuda:0'), grad: tensor([[ 1.3723e-03,  4.4489e-04,  4.3106e-04,  ...,  2.8682e-04,
+          6.7092e-06,  9.6893e-04],
+        [ 1.5569e-04,  1.2830e-05,  6.1226e-04,  ...,  4.0078e-04,
+          2.4550e-06, -4.4403e-03],
+        [-5.7840e-04,  2.0587e-04, -3.2310e-03,  ..., -4.1161e-03,
+          1.1392e-05, -5.1041e-03],
+        ...,
+        [ 2.3198e-04,  3.7372e-05, -1.7433e-03,  ...,  1.6737e-04,
+          8.4698e-05,  1.5535e-03],
+        [ 2.2876e-04,  1.1183e-05,  2.8014e-04,  ...,  2.2745e-04,
+          6.5118e-06,  8.2111e-04],
+        [ 2.3613e-03,  4.7982e-05,  6.0892e-04,  ...,  1.8919e-04,
+          1.2589e-03,  1.3199e-03]], device='cuda:0')
+Epoch 481, bias, value: tensor([ 0.0088,  0.0062, -0.0046, -0.0172,  0.0076, -0.0131, -0.0141, -0.0179,
+        -0.0053,  0.0088], device='cuda:0'), grad: tensor([ 0.0159, -0.0202, -0.0203,  0.0099,  0.0033, -0.0094,  0.0168, -0.0168,
+         0.0075,  0.0133], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 480, time 216.84, cls_loss 0.4202 cls_loss_mapping 0.0007 cls_loss_causal 0.3915 re_mapping 0.0036 re_causal 0.0110 /// teacc 99.07 lr 0.00001000
+Epoch 482, weight, value: tensor([[ 0.0390,  0.1328, -0.1818,  ..., -0.1081,  0.0782,  0.0040],
+        [-0.1087, -0.1068,  0.1163,  ..., -0.0482, -0.1166,  0.0565],
+        [-0.0972, -0.0706, -0.1195,  ..., -0.1377, -0.0175,  0.0570],
+        ...,
+        [-0.0080, -0.1363, -0.1413,  ..., -0.1150, -0.0522,  0.0772],
+        [-0.1347, -0.1179, -0.1190,  ..., -0.0666, -0.0490, -0.1015],
+        [ 0.0216, -0.0327, -0.0579,  ..., -0.1045,  0.0106, -0.0236]],
+       device='cuda:0'), grad: tensor([[-4.5113e-06, -9.7752e-06,  7.4971e-08,  ...,  4.1239e-06,
+         -9.1344e-06,  2.6894e-04],
+        [ 1.7449e-05,  8.9332e-06,  8.3819e-08,  ...,  1.5087e-07,
+          1.9697e-07, -2.4891e-03],
+        [ 9.0480e-05,  4.9829e-05,  2.3190e-06,  ...,  1.0533e-06,
+          1.7677e-06,  1.2951e-03],
+        ...,
+        [ 3.6042e-06,  3.2261e-06,  1.8515e-06,  ...,  1.7695e-08,
+          3.0035e-07,  7.3290e-04],
+        [ 1.7481e-06,  2.9206e-06,  5.9186e-07,  ...,  1.5516e-06,
+          1.9036e-06, -1.9531e-03],
+        [ 2.4617e-05,  1.4335e-05, -1.0077e-06,  ...,  1.5460e-07,
+          2.4643e-06,  3.4428e-04]], device='cuda:0')
+Epoch 482, bias, value: tensor([ 0.0088,  0.0063, -0.0046, -0.0172,  0.0075, -0.0131, -0.0141, -0.0180,
+        -0.0053,  0.0088], device='cuda:0'), grad: tensor([ 0.0017, -0.0134,  0.0111,  0.0061,  0.0013,  0.0037,  0.0029,  0.0045,
+        -0.0206,  0.0027], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 481, time 216.28, cls_loss 0.4127 cls_loss_mapping 0.0006 cls_loss_causal 0.3852 re_mapping 0.0036 re_causal 0.0114 /// teacc 99.07 lr 0.00001000
+Epoch 483, weight, value: tensor([[ 0.0389,  0.1328, -0.1820,  ..., -0.1081,  0.0783,  0.0041],
+        [-0.1088, -0.1068,  0.1164,  ..., -0.0481, -0.1167,  0.0564],
+        [-0.0970, -0.0705, -0.1195,  ..., -0.1377, -0.0175,  0.0572],
+        ...,
+        [-0.0081, -0.1362, -0.1413,  ..., -0.1149, -0.0522,  0.0771],
+        [-0.1347, -0.1179, -0.1188,  ..., -0.0666, -0.0490, -0.1015],
+        [ 0.0216, -0.0328, -0.0579,  ..., -0.1046,  0.0105, -0.0236]],
+       device='cuda:0'), grad: tensor([[-1.4896e-03, -6.1226e-04, -2.4109e-03,  ...,  8.0764e-06,
+          0.0000e+00, -7.1945e-03],
+        [ 7.7820e-04,  2.9778e-04,  1.2264e-03,  ..., -9.1270e-06,
+          0.0000e+00,  2.3460e-03],
+        [ 1.2174e-05,  6.8903e-05, -3.8719e-03,  ...,  6.1579e-06,
+          0.0000e+00, -9.7322e-04],
+        ...,
+        [ 1.1330e-03,  2.1589e-04,  8.6069e-04,  ...,  3.0156e-06,
+          1.0477e-07,  2.1248e-03],
+        [ 2.9635e-04,  2.5201e-04,  9.4032e-04,  ...,  1.6749e-04,
+          4.1910e-09,  9.5510e-04],
+        [-9.0313e-04,  2.0087e-04,  8.7357e-04,  ...,  4.0159e-06,
+         -8.1435e-06,  3.2711e-04]], device='cuda:0')
+Epoch 483, bias, value: tensor([ 0.0088,  0.0063, -0.0046, -0.0173,  0.0076, -0.0131, -0.0140, -0.0181,
+        -0.0052,  0.0087], device='cuda:0'), grad: tensor([-0.0206, -0.0085, -0.0438,  0.0150,  0.0112, -0.0117,  0.0224,  0.0154,
+         0.0113,  0.0093], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 482, time 216.71, cls_loss 0.4375 cls_loss_mapping 0.0008 cls_loss_causal 0.4116 re_mapping 0.0034 re_causal 0.0110 /// teacc 99.08 lr 0.00001000
+Epoch 484, weight, value: tensor([[ 0.0391,  0.1329, -0.1819,  ..., -0.1079,  0.0784,  0.0043],
+        [-0.1088, -0.1067,  0.1162,  ..., -0.0481, -0.1167,  0.0564],
+        [-0.0970, -0.0707, -0.1195,  ..., -0.1377, -0.0175,  0.0570],
+        ...,
+        [-0.0083, -0.1362, -0.1413,  ..., -0.1150, -0.0521,  0.0771],
+        [-0.1348, -0.1178, -0.1186,  ..., -0.0662, -0.0492, -0.1015],
+        [ 0.0215, -0.0329, -0.0579,  ..., -0.1046,  0.0106, -0.0235]],
+       device='cuda:0'), grad: tensor([[ 3.9339e-04, -8.7202e-05,  1.3485e-03,  ...,  2.7325e-06,
+          4.3869e-04,  8.3256e-04],
+        [-2.8820e-03,  3.4198e-06, -3.8967e-03,  ...,  5.8627e-07,
+         -3.7479e-03, -4.3526e-03],
+        [ 4.1962e-04,  1.4924e-05,  5.5933e-04,  ...,  1.0669e-05,
+          1.1759e-03,  2.8682e-04],
+        ...,
+        [ 8.3160e-03,  3.5204e-06, -1.9169e-03,  ...,  9.8813e-07,
+         -1.9550e-05,  1.8950e-03],
+        [ 8.6486e-05,  1.7792e-05,  7.1621e-04,  ...,  1.2226e-05,
+          9.8419e-04,  3.5191e-04],
+        [ 3.0384e-03,  2.7239e-05,  2.1782e-03,  ...,  3.1069e-06,
+          5.2118e-04,  1.1282e-03]], device='cuda:0')
+Epoch 484, bias, value: tensor([ 0.0088,  0.0063, -0.0047, -0.0173,  0.0076, -0.0130, -0.0141, -0.0179,
+        -0.0053,  0.0087], device='cuda:0'), grad: tensor([ 0.0218, -0.0640, -0.0016, -0.0320,  0.0297,  0.0249,  0.0220,  0.0052,
+        -0.0035, -0.0024], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 483, time 216.61, cls_loss 0.4229 cls_loss_mapping 0.0009 cls_loss_causal 0.4016 re_mapping 0.0033 re_causal 0.0104 /// teacc 99.05 lr 0.00001000
+Epoch 485, weight, value: tensor([[ 0.0392,  0.1329, -0.1819,  ..., -0.1080,  0.0784,  0.0043],
+        [-0.1088, -0.1067,  0.1162,  ..., -0.0482, -0.1165,  0.0563],
+        [-0.0971, -0.0707, -0.1196,  ..., -0.1377, -0.0175,  0.0571],
+        ...,
+        [-0.0084, -0.1363, -0.1413,  ..., -0.1150, -0.0522,  0.0770],
+        [-0.1348, -0.1178, -0.1186,  ..., -0.0659, -0.0493, -0.1014],
+        [ 0.0215, -0.0330, -0.0579,  ..., -0.1047,  0.0107, -0.0235]],
+       device='cuda:0'), grad: tensor([[-2.7008e-03, -3.5706e-03, -6.5851e-04,  ...,  1.1049e-05,
+         -6.4230e-04, -1.8368e-03],
+        [ 3.7718e-04,  6.8069e-05,  5.6076e-04,  ...,  1.3877e-06,
+          6.1870e-05, -4.9782e-04],
+        [ 9.0551e-04,  1.5831e-04,  4.5252e-04,  ...,  7.0706e-06,
+          8.8215e-05,  1.8854e-03],
+        ...,
+        [-1.2436e-02,  8.6212e-04, -1.3437e-03,  ...,  3.4366e-07,
+         -4.9515e-03, -1.0025e-02],
+        [ 2.8229e-03,  3.0327e-04,  5.3453e-04,  ...,  2.2084e-05,
+          5.3078e-05, -4.0398e-03],
+        [ 8.6517e-03,  7.9966e-04,  7.1287e-04,  ...,  3.0808e-06,
+          3.3798e-03,  6.2637e-03]], device='cuda:0')
+Epoch 485, bias, value: tensor([ 0.0088,  0.0063, -0.0048, -0.0173,  0.0075, -0.0131, -0.0140, -0.0178,
+        -0.0052,  0.0087], device='cuda:0'), grad: tensor([-0.0096, -0.0063,  0.0188,  0.0254,  0.0291, -0.0398,  0.0152, -0.0311,
+        -0.0079,  0.0063], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 484, time 216.37, cls_loss 0.4520 cls_loss_mapping 0.0010 cls_loss_causal 0.4270 re_mapping 0.0033 re_causal 0.0103 /// teacc 99.09 lr 0.00001000
+Epoch 486, weight, value: tensor([[ 0.0392,  0.1330, -0.1820,  ..., -0.1079,  0.0784,  0.0043],
+        [-0.1089, -0.1068,  0.1162,  ..., -0.0484, -0.1164,  0.0562],
+        [-0.0969, -0.0706, -0.1195,  ..., -0.1376, -0.0174,  0.0573],
+        ...,
+        [-0.0085, -0.1363, -0.1414,  ..., -0.1151, -0.0522,  0.0770],
+        [-0.1347, -0.1178, -0.1186,  ..., -0.0659, -0.0492, -0.1014],
+        [ 0.0215, -0.0331, -0.0580,  ..., -0.1049,  0.0106, -0.0236]],
+       device='cuda:0'), grad: tensor([[ 9.6083e-04, -2.6941e-05,  4.8089e-04,  ..., -8.2329e-06,
+          4.3273e-04,  1.6012e-03],
+        [-4.2686e-03, -4.5449e-07,  7.5531e-04,  ...,  3.2131e-07,
+          4.0007e-04,  8.8024e-04],
+        [-3.3875e-03,  9.3058e-06,  5.5599e-04,  ...,  4.6939e-07,
+         -3.0518e-03,  3.1376e-03],
+        ...,
+        [-1.7824e-03,  9.1270e-07,  5.6887e-04,  ...,  5.5879e-09,
+          6.3658e-04, -1.0490e-02],
+        [ 3.4771e-03, -2.2814e-05,  4.0030e-04,  ...,  4.7311e-07,
+          2.9612e-04,  1.5764e-03],
+        [ 3.9825e-03,  1.1496e-05,  5.9414e-04,  ...,  3.2410e-07,
+          4.5967e-04,  2.0943e-03]], device='cuda:0')
+Epoch 486, bias, value: tensor([ 0.0088,  0.0063, -0.0047, -0.0172,  0.0075, -0.0132, -0.0140, -0.0179,
+        -0.0051,  0.0086], device='cuda:0'), grad: tensor([ 0.0162, -0.0082, -0.0198, -0.0364,  0.0282,  0.0191, -0.0190, -0.0333,
+         0.0221,  0.0311], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 485, time 216.13, cls_loss 0.4548 cls_loss_mapping 0.0010 cls_loss_causal 0.4319 re_mapping 0.0033 re_causal 0.0105 /// teacc 99.06 lr 0.00001000
+Epoch 487, weight, value: tensor([[ 0.0392,  0.1331, -0.1820,  ..., -0.1079,  0.0784,  0.0042],
+        [-0.1087, -0.1069,  0.1163,  ..., -0.0483, -0.1165,  0.0563],
+        [-0.0969, -0.0707, -0.1196,  ..., -0.1376, -0.0173,  0.0573],
+        ...,
+        [-0.0084, -0.1363, -0.1413,  ..., -0.1151, -0.0522,  0.0770],
+        [-0.1347, -0.1178, -0.1183,  ..., -0.0657, -0.0490, -0.1013],
+        [ 0.0215, -0.0331, -0.0580,  ..., -0.1049,  0.0105, -0.0235]],
+       device='cuda:0'), grad: tensor([[ 2.8896e-04,  9.5904e-05,  9.1887e-04,  ...,  1.7555e-06,
+          8.3804e-05,  7.7057e-04],
+        [ 3.9005e-04,  7.3433e-05,  1.5392e-03,  ...,  5.1223e-09,
+          6.4373e-05,  7.7915e-04],
+        [ 3.4428e-04,  1.7309e-04,  1.0490e-03,  ...,  3.7756e-06,
+          4.9442e-05,  9.2888e-04],
+        ...,
+        [-1.5106e-03, -1.2836e-03, -5.8556e-04,  ...,  3.2596e-09,
+          1.1349e-04, -2.0256e-03],
+        [-2.7447e-03, -1.2140e-03, -3.6669e-04,  ...,  5.3823e-05,
+         -1.8492e-03, -3.1033e-03],
+        [ 5.7840e-04,  2.3675e-04, -2.5940e-03,  ...,  5.8906e-07,
+          1.7881e-04, -4.3893e-04]], device='cuda:0')
+Epoch 487, bias, value: tensor([ 0.0088,  0.0064, -0.0048, -0.0173,  0.0074, -0.0131, -0.0141, -0.0179,
+        -0.0050,  0.0087], device='cuda:0'), grad: tensor([ 0.0105,  0.0141,  0.0113,  0.0395, -0.0194, -0.0282,  0.0165, -0.0175,
+        -0.0137, -0.0130], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 486, time 216.25, cls_loss 0.4455 cls_loss_mapping 0.0009 cls_loss_causal 0.4187 re_mapping 0.0034 re_causal 0.0108 /// teacc 99.06 lr 0.00001000
+Epoch 488, weight, value: tensor([[ 0.0393,  0.1331, -0.1820,  ..., -0.1080,  0.0785,  0.0043],
+        [-0.1087, -0.1069,  0.1162,  ..., -0.0484, -0.1164,  0.0562],
+        [-0.0970, -0.0707, -0.1196,  ..., -0.1377, -0.0174,  0.0573],
+        ...,
+        [-0.0084, -0.1363, -0.1413,  ..., -0.1151, -0.0522,  0.0770],
+        [-0.1347, -0.1180, -0.1184,  ..., -0.0657, -0.0489, -0.1013],
+        [ 0.0216, -0.0330, -0.0579,  ..., -0.1049,  0.0105, -0.0235]],
+       device='cuda:0'), grad: tensor([[ 8.4162e-05,  8.0168e-05,  4.3344e-04,  ...,  1.9325e-07,
+          1.4491e-05, -3.3722e-03],
+        [ 9.8407e-05, -8.3772e-07,  5.3358e-04,  ..., -8.2096e-07,
+          1.8906e-07,  8.5592e-04],
+        [-4.4966e-04, -9.5291e-03, -1.1833e-02,  ...,  2.8405e-08,
+         -1.7271e-03, -2.8687e-03],
+        ...,
+        [ 2.9445e-04,  3.0044e-06,  5.5122e-04,  ...,  1.0431e-07,
+          4.9779e-07,  5.7268e-04],
+        [ 2.2709e-04,  1.9893e-05,  4.2319e-04,  ...,  6.3237e-07,
+          3.4831e-06,  6.6471e-04],
+        [ 1.3638e-04,  2.5019e-05,  4.8423e-04,  ...,  3.7253e-08,
+          4.4405e-06,  4.9448e-04]], device='cuda:0')
+Epoch 488, bias, value: tensor([ 0.0087,  0.0063, -0.0048, -0.0175,  0.0073, -0.0130, -0.0141, -0.0179,
+        -0.0049,  0.0089], device='cuda:0'), grad: tensor([-0.0222,  0.0133, -0.0718,  0.0251,  0.0087,  0.0153,  0.0038,  0.0114,
+         0.0049,  0.0116], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 487, time 216.03, cls_loss 0.4407 cls_loss_mapping 0.0008 cls_loss_causal 0.4134 re_mapping 0.0035 re_causal 0.0110 /// teacc 99.08 lr 0.00001000
+Epoch 489, weight, value: tensor([[ 0.0392,  0.1332, -0.1820,  ..., -0.1080,  0.0784,  0.0043],
+        [-0.1089, -0.1071,  0.1161,  ..., -0.0484, -0.1164,  0.0561],
+        [-0.0970, -0.0706, -0.1196,  ..., -0.1378, -0.0174,  0.0573],
+        ...,
+        [-0.0083, -0.1363, -0.1413,  ..., -0.1152, -0.0523,  0.0770],
+        [-0.1348, -0.1182, -0.1184,  ..., -0.0657, -0.0489, -0.1013],
+        [ 0.0217, -0.0330, -0.0580,  ..., -0.1051,  0.0104, -0.0234]],
+       device='cuda:0'), grad: tensor([[ 7.5054e-04, -1.7881e-05, -1.8301e-03,  ...,  4.9800e-05,
+          4.7684e-04,  9.4223e-04],
+        [ 2.9182e-04,  1.7554e-05,  3.8338e-03,  ...,  5.6148e-05,
+          1.6522e-04,  1.4095e-03],
+        [ 1.4219e-03,  3.2306e-05,  8.7118e-04,  ...,  2.7442e-04,
+          8.6021e-04,  3.4599e-03],
+        ...,
+        [ 3.4380e-04,  1.8045e-05,  4.7922e-04,  ...,  3.1203e-05,
+          1.9455e-04,  3.4180e-03],
+        [-5.7716e-03, -4.0741e-03, -2.1713e-02,  ..., -5.2185e-03,
+          2.0742e-04, -1.2573e-02],
+        [ 4.4174e-03,  2.9392e-03,  1.2917e-02,  ...,  3.8776e-03,
+          1.2517e-04,  8.3923e-03]], device='cuda:0')
+Epoch 489, bias, value: tensor([ 0.0087,  0.0062, -0.0049, -0.0175,  0.0072, -0.0128, -0.0140, -0.0179,
+        -0.0047,  0.0088], device='cuda:0'), grad: tensor([-0.0204,  0.0243,  0.0241,  0.0033, -0.0224,  0.0027, -0.0025,  0.0214,
+        -0.0311,  0.0006], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 488, time 216.28, cls_loss 0.4252 cls_loss_mapping 0.0009 cls_loss_causal 0.3984 re_mapping 0.0035 re_causal 0.0109 /// teacc 99.08 lr 0.00001000
+Epoch 490, weight, value: tensor([[ 0.0392,  0.1333, -0.1819,  ..., -0.1079,  0.0783,  0.0044],
+        [-0.1089, -0.1071,  0.1159,  ..., -0.0485, -0.1164,  0.0560],
+        [-0.0971, -0.0705, -0.1195,  ..., -0.1377, -0.0175,  0.0572],
+        ...,
+        [-0.0084, -0.1364, -0.1412,  ..., -0.1152, -0.0523,  0.0771],
+        [-0.1348, -0.1183, -0.1184,  ..., -0.0657, -0.0491, -0.1013],
+        [ 0.0218, -0.0330, -0.0580,  ..., -0.1053,  0.0105, -0.0235]],
+       device='cuda:0'), grad: tensor([[ 3.8004e-04, -2.7523e-03,  5.5695e-04,  ...,  1.7309e-04,
+          7.4327e-05,  1.1044e-03],
+        [ 4.1676e-04,  1.2159e-04,  7.4387e-04,  ...,  1.3828e-04,
+          7.4565e-05,  1.0853e-03],
+        [-2.0742e-04,  3.4928e-04,  5.3883e-04,  ..., -1.0624e-03,
+         -2.4438e-04, -4.2000e-03],
+        ...,
+        [ 4.1938e-04,  1.2767e-04,  6.9904e-04,  ...,  7.7426e-05,
+          6.7413e-05,  8.1348e-04],
+        [-2.7704e-04,  2.7227e-04, -1.4524e-03,  ...,  1.2660e-04,
+          9.8169e-05, -9.9838e-05],
+        [ 2.9469e-04, -2.4959e-05,  4.9496e-04,  ...,  7.3731e-05,
+         -7.2241e-05,  8.9121e-04]], device='cuda:0')
+Epoch 490, bias, value: tensor([ 0.0088,  0.0060, -0.0050, -0.0175,  0.0073, -0.0127, -0.0140, -0.0179,
+        -0.0049,  0.0088], device='cuda:0'), grad: tensor([-0.0177,  0.0148, -0.0132,  0.0297, -0.0500,  0.0116,  0.0160,  0.0131,
+        -0.0181,  0.0137], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 489, time 216.34, cls_loss 0.4299 cls_loss_mapping 0.0010 cls_loss_causal 0.3973 re_mapping 0.0034 re_causal 0.0101 /// teacc 99.11 lr 0.00001000
+Epoch 491, weight, value: tensor([[ 0.0392,  0.1330, -0.1819,  ..., -0.1080,  0.0784,  0.0044],
+        [-0.1090, -0.1070,  0.1158,  ..., -0.0484, -0.1164,  0.0560],
+        [-0.0972, -0.0704, -0.1195,  ..., -0.1377, -0.0175,  0.0572],
+        ...,
+        [-0.0085, -0.1364, -0.1412,  ..., -0.1152, -0.0524,  0.0771],
+        [-0.1347, -0.1183, -0.1184,  ..., -0.0657, -0.0490, -0.1012],
+        [ 0.0218, -0.0331, -0.0581,  ..., -0.1053,  0.0104, -0.0235]],
+       device='cuda:0'), grad: tensor([[-1.5152e-02, -1.8005e-03,  4.7755e-04,  ...,  4.0382e-06,
+          6.6817e-05, -1.2465e-03],
+        [ 7.9346e-04,  1.5140e-04, -1.7958e-03,  ...,  7.5065e-07,
+          3.2878e-04,  4.1342e-04],
+        [ 2.2805e-04,  3.7456e-04, -4.4107e-04,  ...,  7.9572e-06,
+          3.2902e-04, -1.9178e-03],
+        ...,
+        [ 4.1122e-03,  1.7929e-04,  7.7105e-04,  ...,  1.0245e-07,
+          7.7009e-04,  9.2316e-04],
+        [ 3.8910e-03, -1.0347e-03,  8.2827e-04,  ...,  3.1352e-05,
+          3.2949e-04,  3.9597e-03],
+        [ 1.4734e-03,  1.1539e-03, -1.8330e-03,  ...,  4.3493e-07,
+          2.8539e-04,  1.8728e-04]], device='cuda:0')
+Epoch 491, bias, value: tensor([ 0.0088,  0.0059, -0.0051, -0.0174,  0.0074, -0.0128, -0.0139, -0.0179,
+        -0.0048,  0.0088], device='cuda:0'), grad: tensor([-0.0406, -0.0135, -0.0070, -0.0033,  0.0163,  0.0121,  0.0058,  0.0049,
+         0.0402, -0.0148], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 490, time 216.04, cls_loss 0.4412 cls_loss_mapping 0.0009 cls_loss_causal 0.4107 re_mapping 0.0033 re_causal 0.0104 /// teacc 99.09 lr 0.00001000
+Epoch 492, weight, value: tensor([[ 0.0392,  0.1331, -0.1819,  ..., -0.1081,  0.0782,  0.0045],
+        [-0.1090, -0.1070,  0.1159,  ..., -0.0483, -0.1165,  0.0561],
+        [-0.0972, -0.0704, -0.1194,  ..., -0.1377, -0.0175,  0.0572],
+        ...,
+        [-0.0085, -0.1364, -0.1411,  ..., -0.1152, -0.0524,  0.0770],
+        [-0.1347, -0.1184, -0.1185,  ..., -0.0657, -0.0490, -0.1012],
+        [ 0.0218, -0.0331, -0.0581,  ..., -0.1055,  0.0103, -0.0236]],
+       device='cuda:0'), grad: tensor([[-3.3188e-04, -1.5163e-03,  1.2526e-06,  ...,  1.6922e-06,
+         -2.2662e-04,  1.2064e-03],
+        [ 2.5439e-04,  1.0830e-04, -1.8597e-05,  ...,  9.1270e-08,
+          1.3840e-04, -3.3798e-03],
+        [ 2.9993e-04,  3.3355e-04,  5.5507e-07,  ...,  5.4948e-08,
+          1.7059e-04,  2.8954e-03],
+        ...,
+        [ 2.8038e-04,  8.6844e-05,  7.4785e-07,  ...,  1.1176e-08,
+          1.5318e-04,  1.3733e-03],
+        [ 2.2399e-04,  4.0221e-04,  1.1545e-04,  ...,  1.5587e-05,
+          1.7536e-04, -1.2617e-03],
+        [ 1.8156e-04,  1.4687e-04,  1.2079e-06,  ...,  1.0710e-07,
+          8.1435e-06,  1.1082e-03]], device='cuda:0')
+Epoch 492, bias, value: tensor([ 0.0089,  0.0060, -0.0051, -0.0173,  0.0073, -0.0128, -0.0140, -0.0178,
+        -0.0049,  0.0089], device='cuda:0'), grad: tensor([ 0.0035, -0.0196,  0.0180,  0.0109,  0.0106,  0.0052,  0.0062,  0.0113,
+        -0.0528,  0.0067], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 491, time 216.35, cls_loss 0.4243 cls_loss_mapping 0.0007 cls_loss_causal 0.3935 re_mapping 0.0035 re_causal 0.0108 /// teacc 99.09 lr 0.00001000
+Epoch 493, weight, value: tensor([[ 0.0393,  0.1331, -0.1821,  ..., -0.1081,  0.0784,  0.0044],
+        [-0.1089, -0.1070,  0.1158,  ..., -0.0482, -0.1165,  0.0562],
+        [-0.0973, -0.0703, -0.1193,  ..., -0.1378, -0.0175,  0.0572],
+        ...,
+        [-0.0086, -0.1363, -0.1411,  ..., -0.1152, -0.0526,  0.0771],
+        [-0.1347, -0.1184, -0.1185,  ..., -0.0656, -0.0490, -0.1012],
+        [ 0.0218, -0.0332, -0.0581,  ..., -0.1055,  0.0102, -0.0235]],
+       device='cuda:0'), grad: tensor([[ 2.6569e-03,  1.2789e-03,  1.4448e-03,  ...,  5.3316e-05,
+          9.5034e-04,  1.6174e-03],
+        [ 1.0900e-03,  3.8338e-04,  1.3018e-03,  ...,  8.4758e-05,
+          3.8791e-04, -3.0441e-03],
+        [-4.1366e-04,  3.0684e-04, -2.1973e-03,  ..., -1.4343e-03,
+          5.2500e-04, -1.1444e-03],
+        ...,
+        [-6.3801e-04,  2.8324e-04,  7.3099e-04,  ...,  1.6224e-04,
+         -1.4293e-04, -9.3307e-03],
+        [-8.3017e-04,  1.0478e-04, -3.0136e-03,  ...,  3.4785e-04,
+         -6.2048e-05,  3.2940e-03],
+        [ 3.5725e-03,  1.1816e-03,  7.9250e-04,  ...,  1.2851e-04,
+          1.2693e-03,  5.4893e-03]], device='cuda:0')
+Epoch 493, bias, value: tensor([ 0.0089,  0.0061, -0.0051, -0.0173,  0.0073, -0.0130, -0.0140, -0.0178,
+        -0.0049,  0.0089], device='cuda:0'), grad: tensor([ 0.0100,  0.0040, -0.0231, -0.0258, -0.0507,  0.0224,  0.0273, -0.0191,
+         0.0124,  0.0425], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 492, time 216.41, cls_loss 0.4282 cls_loss_mapping 0.0008 cls_loss_causal 0.4038 re_mapping 0.0036 re_causal 0.0109 /// teacc 99.05 lr 0.00001000
+Epoch 494, weight, value: tensor([[ 0.0394,  0.1332, -0.1820,  ..., -0.1078,  0.0785,  0.0044],
+        [-0.1090, -0.1070,  0.1158,  ..., -0.0481, -0.1165,  0.0562],
+        [-0.0974, -0.0703, -0.1193,  ..., -0.1379, -0.0174,  0.0572],
+        ...,
+        [-0.0085, -0.1363, -0.1411,  ..., -0.1153, -0.0526,  0.0770],
+        [-0.1347, -0.1184, -0.1185,  ..., -0.0655, -0.0491, -0.1013],
+        [ 0.0219, -0.0332, -0.0580,  ..., -0.1054,  0.0103, -0.0236]],
+       device='cuda:0'), grad: tensor([[-1.1005e-03, -1.7891e-03, -5.4502e-04,  ..., -1.4658e-03,
+         -6.1178e-04, -5.5733e-03],
+        [-8.2064e-04, -2.3663e-04, -5.8031e-04,  ...,  6.2525e-05,
+         -6.6900e-04, -7.6389e-04],
+        [ 4.5753e-04,  2.5320e-04,  1.1520e-03,  ...,  1.5116e-04,
+          1.9336e-04, -4.2381e-03],
+        ...,
+        [ 1.2684e-03,  7.4208e-05, -1.2255e-03,  ...,  2.3708e-05,
+          9.0480e-05,  1.0939e-03],
+        [ 3.1870e-06,  3.0851e-04, -1.2779e-03,  ...,  1.9693e-04,
+          1.5402e-04,  8.9502e-04],
+        [ 2.1042e-02,  2.2674e-04,  1.1797e-03,  ...,  1.1981e-04,
+          2.4021e-04,  7.8964e-03]], device='cuda:0')
+Epoch 494, bias, value: tensor([ 0.0090,  0.0060, -0.0051, -0.0173,  0.0072, -0.0128, -0.0141, -0.0177,
+        -0.0051,  0.0089], device='cuda:0'), grad: tensor([-0.0087, -0.0086, -0.0117, -0.0081, -0.0096,  0.0193,  0.0042, -0.0079,
+        -0.0134,  0.0445], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 493, time 216.22, cls_loss 0.4589 cls_loss_mapping 0.0007 cls_loss_causal 0.4332 re_mapping 0.0036 re_causal 0.0117 /// teacc 99.04 lr 0.00001000
+Epoch 495, weight, value: tensor([[ 0.0394,  0.1333, -0.1820,  ..., -0.1078,  0.0786,  0.0044],
+        [-0.1089, -0.1070,  0.1157,  ..., -0.0482, -0.1166,  0.0562],
+        [-0.0974, -0.0703, -0.1192,  ..., -0.1379, -0.0175,  0.0572],
+        ...,
+        [-0.0085, -0.1363, -0.1411,  ..., -0.1154, -0.0527,  0.0771],
+        [-0.1348, -0.1182, -0.1184,  ..., -0.0654, -0.0492, -0.1014],
+        [ 0.0218, -0.0330, -0.0579,  ..., -0.1054,  0.0105, -0.0238]],
+       device='cuda:0'), grad: tensor([[ 9.1851e-05, -1.7953e-04,  3.6287e-04,  ...,  4.2617e-06,
+         -1.9598e-04, -1.9913e-03],
+        [ 4.4775e-04,  3.0661e-04,  1.3485e-03,  ..., -3.1218e-06,
+          4.5276e-04,  1.8616e-03],
+        [ 1.7881e-04,  1.7345e-04,  4.1580e-04,  ...,  6.5863e-06,
+          7.2777e-05,  1.2941e-03],
+        ...,
+        [-1.0628e-04,  1.7846e-04,  4.6539e-04,  ...,  4.7088e-06,
+         -1.6356e-04,  1.5650e-03],
+        [-2.6178e-04, -2.3043e-04, -4.1580e-03,  ..., -1.7905e-04,
+          7.6592e-06,  1.0767e-03],
+        [ 1.3247e-03,  5.0402e-04,  6.2037e-04,  ...,  3.1143e-05,
+          3.4881e-04, -5.8632e-03]], device='cuda:0')
+Epoch 495, bias, value: tensor([ 0.0089,  0.0060, -0.0050, -0.0173,  0.0074, -0.0129, -0.0140, -0.0178,
+        -0.0051,  0.0088], device='cuda:0'), grad: tensor([-0.0449,  0.0300,  0.0173, -0.0100,  0.0146,  0.0204,  0.0192,  0.0188,
+        -0.0425, -0.0229], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 494, time 216.02, cls_loss 0.4428 cls_loss_mapping 0.0007 cls_loss_causal 0.4234 re_mapping 0.0036 re_causal 0.0117 /// teacc 99.07 lr 0.00001000
+Epoch 496, weight, value: tensor([[ 0.0394,  0.1332, -0.1820,  ..., -0.1079,  0.0786,  0.0045],
+        [-0.1090, -0.1071,  0.1157,  ..., -0.0482, -0.1167,  0.0561],
+        [-0.0974, -0.0703, -0.1192,  ..., -0.1379, -0.0176,  0.0573],
+        ...,
+        [-0.0084, -0.1363, -0.1410,  ..., -0.1152, -0.0527,  0.0772],
+        [-0.1349, -0.1182, -0.1184,  ..., -0.0654, -0.0493, -0.1015],
+        [ 0.0218, -0.0331, -0.0581,  ..., -0.1055,  0.0105, -0.0239]],
+       device='cuda:0'), grad: tensor([[ 1.3220e-04, -1.6624e-06, -1.7853e-03,  ...,  3.4332e-05,
+          1.3383e-06, -2.1350e-04],
+        [ 2.5344e-04, -7.2084e-07,  5.4550e-04,  ...,  2.5053e-07,
+          3.2503e-07,  6.5041e-04],
+        [ 1.8120e-04,  1.5153e-06,  4.3011e-04,  ...,  1.3262e-06,
+          2.2352e-06,  4.8876e-04],
+        ...,
+        [ 1.5068e-03, -1.3029e-06,  4.7612e-04,  ...,  2.5146e-08,
+          7.1859e-04,  1.3018e-03],
+        [ 2.1374e-04,  6.2771e-06,  3.9458e-04,  ...,  1.4976e-06,
+          4.3124e-05,  4.2748e-04],
+        [-3.5214e-04,  9.9987e-06,  4.2820e-04,  ...,  9.2201e-08,
+         -1.5616e-04,  3.5691e-04]], device='cuda:0')
+Epoch 496, bias, value: tensor([ 0.0089,  0.0059, -0.0049, -0.0171,  0.0074, -0.0130, -0.0139, -0.0177,
+        -0.0052,  0.0086], device='cuda:0'), grad: tensor([-0.0242,  0.0113,  0.0085, -0.0221, -0.0234,  0.0080,  0.0082,  0.0184,
+         0.0078,  0.0074], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 495, time 216.20, cls_loss 0.4360 cls_loss_mapping 0.0007 cls_loss_causal 0.4120 re_mapping 0.0033 re_causal 0.0109 /// teacc 99.07 lr 0.00001000
+Epoch 497, weight, value: tensor([[ 0.0392,  0.1332, -0.1821,  ..., -0.1078,  0.0786,  0.0044],
+        [-0.1091, -0.1072,  0.1157,  ..., -0.0483, -0.1167,  0.0563],
+        [-0.0974, -0.0704, -0.1192,  ..., -0.1379, -0.0176,  0.0572],
+        ...,
+        [-0.0083, -0.1364, -0.1410,  ..., -0.1153, -0.0526,  0.0773],
+        [-0.1348, -0.1182, -0.1186,  ..., -0.0654, -0.0493, -0.1017],
+        [ 0.0216, -0.0331, -0.0581,  ..., -0.1056,  0.0104, -0.0239]],
+       device='cuda:0'), grad: tensor([[-4.2694e-02,  7.8430e-03,  3.0613e-03,  ...,  2.0332e-03,
+          8.3148e-05, -2.0847e-03],
+        [ 2.2697e-03,  3.8277e-07,  3.2687e-04,  ..., -4.5542e-07,
+          1.0514e-04,  4.4861e-03],
+        [ 1.6518e-03,  1.3255e-05,  1.6761e-04,  ...,  5.2527e-07,
+          1.6773e-04,  3.4237e-03],
+        ...,
+        [ 2.3210e-04, -3.7774e-06,  1.5998e-04,  ...,  1.2480e-07,
+         -2.8563e-04,  1.3094e-03],
+        [ 1.1377e-03,  1.0997e-04,  2.0373e-04,  ...,  3.1471e-05,
+          9.5785e-05,  2.7504e-03],
+        [ 2.3537e-03,  2.2724e-06,  1.2255e-04,  ...,  4.2841e-07,
+          4.3893e-04, -3.5515e-03]], device='cuda:0')
+Epoch 497, bias, value: tensor([ 0.0088,  0.0059, -0.0049, -0.0171,  0.0074, -0.0129, -0.0137, -0.0176,
+        -0.0053,  0.0085], device='cuda:0'), grad: tensor([-0.0262,  0.0276,  0.0195, -0.0172, -0.0245,  0.0334, -0.0452,  0.0123,
+         0.0243, -0.0039], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 496, time 216.22, cls_loss 0.4474 cls_loss_mapping 0.0008 cls_loss_causal 0.4140 re_mapping 0.0033 re_causal 0.0108 /// teacc 99.06 lr 0.00001000
+Epoch 498, weight, value: tensor([[ 0.0394,  0.1332, -0.1822,  ..., -0.1077,  0.0786,  0.0044],
+        [-0.1090, -0.1071,  0.1158,  ..., -0.0482, -0.1166,  0.0564],
+        [-0.0975, -0.0704, -0.1192,  ..., -0.1379, -0.0176,  0.0572],
+        ...,
+        [-0.0086, -0.1364, -0.1411,  ..., -0.1154, -0.0527,  0.0771],
+        [-0.1348, -0.1182, -0.1187,  ..., -0.0654, -0.0492, -0.1017],
+        [ 0.0218, -0.0333, -0.0582,  ..., -0.1057,  0.0104, -0.0237]],
+       device='cuda:0'), grad: tensor([[ 4.0054e-04,  4.1842e-04,  1.2007e-03,  ...,  7.2479e-05,
+          4.5228e-04,  1.9569e-03],
+        [-2.8095e-03, -4.9496e-04,  2.3866e-04,  ...,  9.6679e-05,
+         -3.1924e-04,  6.2275e-04],
+        [ 5.2595e-04,  3.1166e-03,  3.3379e-03,  ...,  9.4593e-05,
+          2.1191e-03,  4.9324e-03],
+        ...,
+        [ 8.2016e-04,  9.9301e-05,  1.2808e-03,  ...,  7.4863e-05,
+          3.2115e-04,  2.8076e-03],
+        [-4.6349e-04, -8.7786e-04, -7.2289e-04,  ...,  7.4208e-05,
+         -4.4680e-04, -1.7662e-03],
+        [-1.2016e-03,  2.9993e-04, -1.1864e-03,  ..., -6.9952e-04,
+         -6.4039e-04, -5.3635e-03]], device='cuda:0')
+Epoch 498, bias, value: tensor([ 0.0088,  0.0061, -0.0051, -0.0170,  0.0073, -0.0131, -0.0136, -0.0178,
+        -0.0052,  0.0085], device='cuda:0'), grad: tensor([ 0.0237,  0.0240,  0.0531, -0.0697,  0.0040,  0.0313, -0.0005,  0.0324,
+        -0.0658, -0.0327], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 497, time 216.39, cls_loss 0.4261 cls_loss_mapping 0.0008 cls_loss_causal 0.4029 re_mapping 0.0033 re_causal 0.0104 /// teacc 99.06 lr 0.00001000
+Epoch 499, weight, value: tensor([[ 0.0394,  0.1332, -0.1823,  ..., -0.1077,  0.0786,  0.0045],
+        [-0.1091, -0.1071,  0.1157,  ..., -0.0483, -0.1166,  0.0563],
+        [-0.0975, -0.0705, -0.1192,  ..., -0.1378, -0.0177,  0.0572],
+        ...,
+        [-0.0086, -0.1364, -0.1411,  ..., -0.1155, -0.0526,  0.0771],
+        [-0.1346, -0.1183, -0.1187,  ..., -0.0653, -0.0493, -0.1016],
+        [ 0.0218, -0.0333, -0.0581,  ..., -0.1057,  0.0105, -0.0235]],
+       device='cuda:0'), grad: tensor([[ 2.2256e-04, -4.2953e-03,  4.2394e-06,  ...,  5.6684e-05,
+          1.5507e-03,  1.6415e-04],
+        [-1.4615e-04,  1.3435e-04, -7.6443e-06,  ...,  1.1332e-05,
+          3.0780e-04, -1.7900e-03],
+        [ 2.6751e-04,  7.1108e-05,  3.1203e-05,  ...,  2.1845e-05,
+          5.0926e-04,  2.9063e-04],
+        ...,
+        [-2.4271e-04,  1.7956e-05,  1.2629e-05,  ...,  2.3860e-06,
+          3.4118e-04,  8.0407e-05],
+        [-6.1464e-04,  3.1948e-03, -2.9039e-04,  ...,  2.6703e-05,
+         -5.4054e-03,  2.4116e-04],
+        [ 1.4567e-04,  5.2452e-05,  8.2329e-06,  ...,  6.8173e-06,
+          4.8780e-04,  2.2328e-04]], device='cuda:0')
+Epoch 499, bias, value: tensor([ 0.0087,  0.0060, -0.0050, -0.0171,  0.0074, -0.0131, -0.0137, -0.0178,
+        -0.0051,  0.0088], device='cuda:0'), grad: tensor([-0.0123, -0.0236,  0.0072,  0.0084,  0.0061,  0.0059,  0.0087,  0.0050,
+        -0.0113,  0.0060], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 498, time 216.34, cls_loss 0.4480 cls_loss_mapping 0.0008 cls_loss_causal 0.4246 re_mapping 0.0033 re_causal 0.0107 /// teacc 99.04 lr 0.00001000
+Epoch 500, weight, value: tensor([[ 0.0395,  0.1333, -0.1823,  ..., -0.1075,  0.0787,  0.0044],
+        [-0.1090, -0.1072,  0.1157,  ..., -0.0482, -0.1166,  0.0564],
+        [-0.0975, -0.0706, -0.1192,  ..., -0.1379, -0.0178,  0.0572],
+        ...,
+        [-0.0085, -0.1365, -0.1412,  ..., -0.1156, -0.0528,  0.0770],
+        [-0.1346, -0.1185, -0.1187,  ..., -0.0654, -0.0493, -0.1015],
+        [ 0.0218, -0.0333, -0.0582,  ..., -0.1056,  0.0105, -0.0235]],
+       device='cuda:0'), grad: tensor([[-4.7340e-03, -4.5109e-04, -8.2493e-04,  ...,  3.1739e-05,
+         -2.3346e-03, -2.5711e-03],
+        [ 1.8442e-04,  3.6418e-05, -2.1493e-04,  ...,  1.1481e-05,
+          8.8692e-05, -1.1873e-03],
+        [ 6.1703e-04,  1.0586e-04,  1.5030e-03,  ...,  2.1130e-05,
+          1.9169e-04,  2.8419e-03],
+        ...,
+        [ 1.2989e-03,  3.2210e-04, -4.8027e-03,  ...,  1.0692e-05,
+          8.6641e-04,  1.2827e-03],
+        [ 1.4763e-03,  8.8501e-04, -9.9373e-04,  ..., -2.0638e-05,
+          3.1447e-04,  2.5616e-03],
+        [-1.0509e-03, -1.2531e-03, -9.2745e-04,  ...,  5.6103e-06,
+          3.0375e-04, -6.6223e-03]], device='cuda:0')
+Epoch 500, bias, value: tensor([ 0.0087,  0.0060, -0.0050, -0.0171,  0.0074, -0.0129, -0.0137, -0.0179,
+        -0.0051,  0.0088], device='cuda:0'), grad: tensor([-3.2013e-02, -4.3303e-05,  3.5614e-02,  3.5767e-02,  8.9417e-03,
+         2.5131e-02,  3.3264e-02, -4.9561e-02,  1.0506e-02, -6.7688e-02],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 499, time 216.48, cls_loss 0.4289 cls_loss_mapping 0.0008 cls_loss_causal 0.3987 re_mapping 0.0033 re_causal 0.0106 /// teacc 99.05 lr 0.00001000
+---------------------saving last model at epoch 499----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps5_RA', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps5_RA/14factor_best.csv', 'channels': 3, 'factor_num': 14, 'stride': 3, 'epoch': 'best', 'eval_mapping': True}
+loading weight of best
+randm: False
+stride: 3
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+Using downloaded and verified file: /home/yuqian_fu/.pytorch/SVHN/test_32x32.mat
+                         mnist   mnist_FA  ...    usps_FA        Avg
+ShearX               98.779999  98.790001  ...  89.138016  76.584227
+ShearY               98.909996  98.919998  ...  89.138016  73.370252
+AutoContrast         98.900002  98.979996  ...  89.138016  66.252623
+Invert               98.970001  99.019997  ...  89.138016  72.543168
+Equalize             98.409996  98.439995  ...  89.138016  66.964914
+Solarize             98.430000  98.599998  ...  89.138016  68.342981
+SolarizeAdd          98.599998  98.619995  ...  89.138016  72.159985
+Posterize            98.959999  99.000000  ...  89.138016  76.318024
+Contrast             99.139999  99.169998  ...  89.138016  78.336514
+Color                99.019997  99.049995  ...  89.138016  67.886716
+Brightness           99.119995  99.199997  ...  89.138016  77.374899
+Sharpness            99.000000  99.029999  ...  89.138016  78.293999
+NoiseSalt            99.029999  99.049995  ...  89.138016  70.436442
+NoiseGaussian        98.979996  99.070000  ...  89.138016  65.005304
+w/o do (original x)  99.050000   0.000000  ...   0.000000  79.455813
+
+[15 rows x 11 columns]
+    mnist       svhn    mnist_m   syndigit       usps        Avg
+do  99.01  70.432545  77.824686  79.692243  89.287494  79.309242
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps5_RA', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps5_RA/14factor_last.csv', 'channels': 3, 'factor_num': 14, 'stride': 3, 'epoch': 'last', 'eval_mapping': True}
+loading weight of last
+randm: False
+stride: 3
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+Using downloaded and verified file: /home/yuqian_fu/.pytorch/SVHN/test_32x32.mat
+                         mnist   mnist_FA  ...    usps_FA        Avg
+ShearX               98.879997  98.919998  ...  89.486794  76.881126
+ShearY               98.879997  98.849998  ...  89.486794  73.554698
+AutoContrast         98.930000  99.019997  ...  89.486794  66.492076
+Invert               98.979996  99.000000  ...  89.486794  72.618074
+Equalize             98.419998  98.459999  ...  89.486794  67.132525
+Solarize             98.470001  98.580002  ...  89.486794  68.999302
+SolarizeAdd          98.619995  98.659996  ...  89.486794  72.501183
+Posterize            98.949997  99.019997  ...  89.486794  76.556273
+Contrast             99.169998  99.199997  ...  89.486794  78.399466
+Color                99.059998  99.029999  ...  89.486794  67.984040
+Brightness           99.159996  99.190002  ...  89.486794  77.668425
+Sharpness            99.010002  99.049995  ...  89.486794  78.452616
+NoiseSalt            99.049995  99.059998  ...  89.486794  70.660622
+NoiseGaussian        98.979996  99.040001  ...  89.486794  65.199389
+w/o do (original x)  99.030000   0.000000  ...   0.000000  79.652907
+
+[15 rows x 11 columns]
+    mnist      svhn    mnist_m  syndigit      usps        Avg
+do  99.08  70.79748  77.613598  79.80739  89.78575  79.501055
diff --git a/Meta-causal/code-withStyleAttack/71591.error b/Meta-causal/code-withStyleAttack/71591.error
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/Meta-causal/code-withStyleAttack/71591.log b/Meta-causal/code-withStyleAttack/71591.log
new file mode 100644
index 0000000000000000000000000000000000000000..73d707496918f5bee214826849703f2b973f115a
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/71591.log
@@ -0,0 +1,14129 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 500, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps5_RA', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 3
+--------------------------CA_multiple--------------------------
+---------------------------14 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+Epoch 1, weight, value: tensor([[ 0.0224, -0.0232,  0.0043,  ..., -0.0119, -0.0122,  0.0253],
+        [-0.0080,  0.0261, -0.0234,  ...,  0.0273,  0.0169,  0.0103],
+        [-0.0056, -0.0279, -0.0151,  ...,  0.0159, -0.0221, -0.0221],
+        ...,
+        [-0.0188,  0.0174,  0.0250,  ..., -0.0149, -0.0295, -0.0102],
+        [-0.0309, -0.0118,  0.0149,  ...,  0.0134, -0.0106,  0.0078],
+        [-0.0157, -0.0052, -0.0018,  ..., -0.0136, -0.0029,  0.0029]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([-0.0230,  0.0176,  0.0105,  0.0247,  0.0259, -0.0210,  0.0279,  0.0249,
+        -0.0094,  0.0097], device='cuda:0'), grad: None
+100
+0.0001
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 257.47, cls_loss 1.2559 cls_loss_mapping 1.8083 cls_loss_causal 2.2263 re_mapping 0.1568 re_causal 0.1696 /// teacc 87.85 lr 0.00010000
+Epoch 2, weight, value: tensor([[ 0.0241, -0.0285,  0.0023,  ..., -0.0155, -0.0122,  0.0194],
+        [-0.0152,  0.0298, -0.0252,  ...,  0.0230,  0.0169,  0.0144],
+        [-0.0088, -0.0348, -0.0152,  ...,  0.0214, -0.0221, -0.0263],
+        ...,
+        [-0.0186,  0.0241,  0.0235,  ..., -0.0218, -0.0295, -0.0052],
+        [-0.0291, -0.0171,  0.0128,  ...,  0.0112, -0.0106,  0.0029],
+        [-0.0181,  0.0007, -0.0035,  ..., -0.0194, -0.0029,  0.0085]],
+       device='cuda:0'), grad: tensor([[-0.0174, -0.0008,  0.0000,  ..., -0.0024,  0.0000,  0.0036],
+        [ 0.0025, -0.0122,  0.0000,  ..., -0.0083,  0.0000, -0.0067],
+        [ 0.0043,  0.0056,  0.0000,  ..., -0.0072,  0.0000,  0.0059],
+        ...,
+        [ 0.0145,  0.0328,  0.0000,  ...,  0.0021,  0.0000,  0.0338],
+        [ 0.0212,  0.0201,  0.0000,  ...,  0.0119,  0.0000,  0.0200],
+        [-0.0119, -0.0600,  0.0000,  ...,  0.0052,  0.0000, -0.0406]],
+       device='cuda:0')
+Epoch 2, bias, value: tensor([-0.0235,  0.0177,  0.0102,  0.0258,  0.0249, -0.0200,  0.0273,  0.0242,
+        -0.0097,  0.0101], device='cuda:0'), grad: tensor([-0.0154, -0.0094,  0.0124, -0.0131, -0.0129, -0.0883,  0.0379,  0.0379,
+         0.0498,  0.0011], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 257.97, cls_loss 0.3567 cls_loss_mapping 0.7536 cls_loss_causal 1.9254 re_mapping 0.2080 re_causal 0.2755 /// teacc 93.43 lr 0.00010000
+Epoch 3, weight, value: tensor([[ 0.0251, -0.0308,  0.0023,  ..., -0.0185, -0.0056,  0.0171],
+        [-0.0185,  0.0324, -0.0253,  ...,  0.0239,  0.0081,  0.0161],
+        [-0.0098, -0.0366, -0.0152,  ...,  0.0242, -0.0270, -0.0277],
+        ...,
+        [-0.0193,  0.0275,  0.0235,  ..., -0.0223, -0.0193, -0.0030],
+        [-0.0275, -0.0200,  0.0127,  ...,  0.0103, -0.0203, -0.0002],
+        [-0.0162,  0.0022, -0.0035,  ..., -0.0248, -0.0107,  0.0108]],
+       device='cuda:0'), grad: tensor([[ 7.3385e-04,  1.4381e-03,  0.0000e+00,  ...,  2.1706e-03,
+         -1.8013e-04,  1.9550e-03],
+        [ 3.3340e-03, -1.5396e-02,  0.0000e+00,  ..., -6.9237e-03,
+         -8.6129e-05, -1.2657e-02],
+        [ 1.0513e-02,  6.8817e-03,  0.0000e+00,  ...,  2.0020e-02,
+          8.8215e-05,  9.2850e-03],
+        ...,
+        [ 4.4800e-02,  8.1482e-02,  0.0000e+00,  ...,  5.5389e-03,
+          5.2071e-03,  5.6061e-02],
+        [-6.2866e-02, -7.4280e-02,  0.0000e+00,  ..., -1.7746e-02,
+         -5.4321e-03, -4.8676e-02],
+        [ 4.3526e-03, -2.8648e-03,  0.0000e+00,  ...,  5.0735e-03,
+          1.4663e-04, -3.8643e-03]], device='cuda:0')
+Epoch 3, bias, value: tensor([-0.0237,  0.0180,  0.0099,  0.0255,  0.0246, -0.0192,  0.0269,  0.0236,
+        -0.0095,  0.0107], device='cuda:0'), grad: tensor([ 0.0019, -0.0063,  0.0215,  0.0150, -0.0021, -0.0075, -0.0162,  0.0435,
+        -0.0566,  0.0069], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 257.13, cls_loss 0.2092 cls_loss_mapping 0.4211 cls_loss_causal 1.6320 re_mapping 0.1518 re_causal 0.2407 /// teacc 95.52 lr 0.00010000
+Epoch 4, weight, value: tensor([[ 0.0252, -0.0332,  0.0023,  ..., -0.0194,  0.0012,  0.0146],
+        [-0.0201,  0.0342, -0.0253,  ...,  0.0244,  0.0167,  0.0174],
+        [-0.0097, -0.0383, -0.0152,  ...,  0.0260, -0.0281, -0.0274],
+        ...,
+        [-0.0186,  0.0297,  0.0235,  ..., -0.0209, -0.0110, -0.0013],
+        [-0.0272, -0.0226,  0.0127,  ...,  0.0101, -0.0299, -0.0029],
+        [-0.0158,  0.0032, -0.0035,  ..., -0.0289, -0.0181,  0.0122]],
+       device='cuda:0'), grad: tensor([[ 1.1311e-03,  3.0899e-03,  0.0000e+00,  ...,  1.6088e-03,
+          7.3254e-05,  4.0855e-03],
+        [-2.0752e-03, -9.1248e-03,  0.0000e+00,  ..., -6.0997e-03,
+         -4.6730e-03, -7.2746e-03],
+        [ 4.9210e-03,  3.9291e-03,  0.0000e+00,  ...,  1.7109e-03,
+          1.0643e-03,  3.6640e-03],
+        ...,
+        [-1.6556e-02, -4.4098e-02,  0.0000e+00,  ..., -3.6964e-03,
+         -1.1543e-02, -3.7567e-02],
+        [ 3.7422e-03,  9.9335e-03,  0.0000e+00,  ...,  6.0081e-03,
+          5.1651e-03,  3.0136e-03],
+        [ 1.2169e-02,  2.4658e-02,  0.0000e+00,  ...,  3.8376e-03,
+          5.7220e-03,  2.5681e-02]], device='cuda:0')
+Epoch 4, bias, value: tensor([-0.0234,  0.0180,  0.0100,  0.0254,  0.0243, -0.0195,  0.0266,  0.0239,
+        -0.0093,  0.0109], device='cuda:0'), grad: tensor([ 0.0035, -0.0077,  0.0067, -0.0054,  0.0124, -0.0022, -0.0071, -0.0330,
+         0.0099,  0.0229], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 257.21, cls_loss 0.1541 cls_loss_mapping 0.2857 cls_loss_causal 1.4368 re_mapping 0.1179 re_causal 0.2076 /// teacc 96.04 lr 0.00010000
+Epoch 5, weight, value: tensor([[ 0.0250, -0.0348,  0.0022,  ..., -0.0206,  0.0023,  0.0129],
+        [-0.0212,  0.0352, -0.0254,  ...,  0.0248,  0.0245,  0.0181],
+        [-0.0096, -0.0405, -0.0154,  ...,  0.0282, -0.0281, -0.0266],
+        ...,
+        [-0.0189,  0.0312,  0.0232,  ..., -0.0210, -0.0071, -0.0004],
+        [-0.0267, -0.0239,  0.0127,  ...,  0.0086, -0.0345, -0.0048],
+        [-0.0158,  0.0037, -0.0037,  ..., -0.0324, -0.0208,  0.0130]],
+       device='cuda:0'), grad: tensor([[-1.0805e-03,  5.5122e-04,  0.0000e+00,  ..., -5.0879e-04,
+          3.4189e-04, -6.5899e-04],
+        [ 6.9389e-03,  3.6144e-03,  0.0000e+00,  ...,  5.4588e-03,
+         -7.5102e-05,  7.0076e-03],
+        [ 1.1711e-03,  1.2236e-03,  0.0000e+00,  ..., -3.9196e-04,
+          3.0823e-03,  6.9427e-04],
+        ...,
+        [-1.1063e-03, -3.9177e-03,  0.0000e+00,  ...,  2.8133e-03,
+         -2.2812e-03, -1.9217e-04],
+        [-8.8272e-03, -3.1734e-04,  0.0000e+00,  ..., -2.7435e-02,
+         -1.0025e-02, -1.3275e-02],
+        [ 9.3639e-05,  4.0507e-04,  0.0000e+00,  ...,  2.5482e-03,
+          1.6775e-03, -9.0456e-04]], device='cuda:0')
+Epoch 5, bias, value: tensor([-0.0235,  0.0180,  0.0101,  0.0257,  0.0240, -0.0194,  0.0264,  0.0236,
+        -0.0092,  0.0110], device='cuda:0'), grad: tensor([-0.0024,  0.0159,  0.0062,  0.0068,  0.0086, -0.0017,  0.0017,  0.0011,
+        -0.0389,  0.0028], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 256.43, cls_loss 0.1133 cls_loss_mapping 0.2108 cls_loss_causal 1.3546 re_mapping 0.0935 re_causal 0.1818 /// teacc 97.05 lr 0.00010000
+Epoch 6, weight, value: tensor([[ 0.0254, -0.0372,  0.0022,  ..., -0.0218,  0.0021,  0.0104],
+        [-0.0217,  0.0357, -0.0254,  ...,  0.0251,  0.0302,  0.0186],
+        [-0.0097, -0.0419, -0.0154,  ...,  0.0299, -0.0279, -0.0255],
+        ...,
+        [-0.0187,  0.0330,  0.0232,  ..., -0.0219, -0.0032,  0.0007],
+        [-0.0266, -0.0252,  0.0127,  ...,  0.0087, -0.0391, -0.0061],
+        [-0.0156,  0.0038, -0.0037,  ..., -0.0347, -0.0239,  0.0136]],
+       device='cuda:0'), grad: tensor([[-0.0034, -0.0009,  0.0000,  ..., -0.0012,  0.0002, -0.0010],
+        [ 0.0022, -0.0045,  0.0000,  ...,  0.0053, -0.0022, -0.0004],
+        [-0.0040,  0.0008,  0.0000,  ..., -0.0127, -0.0033, -0.0066],
+        ...,
+        [ 0.0037, -0.0011,  0.0000,  ...,  0.0026,  0.0004,  0.0012],
+        [ 0.0034,  0.0028,  0.0000,  ...,  0.0003,  0.0016,  0.0026],
+        [ 0.0076,  0.0035,  0.0000,  ...,  0.0009,  0.0014,  0.0002]],
+       device='cuda:0')
+Epoch 6, bias, value: tensor([-0.0234,  0.0178,  0.0100,  0.0258,  0.0239, -0.0196,  0.0263,  0.0235,
+        -0.0089,  0.0111], device='cuda:0'), grad: tensor([-0.0069,  0.0013, -0.0064, -0.0048, -0.0015, -0.0074,  0.0073,  0.0049,
+         0.0051,  0.0085], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 5----------------------------------------------------
+epoch 5, time 256.52, cls_loss 0.1039 cls_loss_mapping 0.1858 cls_loss_causal 1.2690 re_mapping 0.0754 re_causal 0.1534 /// teacc 97.53 lr 0.00010000
+Epoch 7, weight, value: tensor([[ 0.0261, -0.0387,  0.0022,  ..., -0.0231,  0.0025,  0.0088],
+        [-0.0219,  0.0365, -0.0254,  ...,  0.0250,  0.0356,  0.0191],
+        [-0.0095, -0.0440, -0.0154,  ...,  0.0315, -0.0284, -0.0253],
+        ...,
+        [-0.0194,  0.0343,  0.0232,  ..., -0.0225, -0.0011,  0.0018],
+        [-0.0265, -0.0263,  0.0127,  ...,  0.0086, -0.0432, -0.0074],
+        [-0.0154,  0.0040, -0.0037,  ..., -0.0374, -0.0260,  0.0140]],
+       device='cuda:0'), grad: tensor([[ 0.0026,  0.0049,  0.0000,  ...,  0.0011,  0.0019,  0.0042],
+        [ 0.0060,  0.0029,  0.0000,  ...,  0.0068,  0.0007,  0.0029],
+        [ 0.0066,  0.0054,  0.0000,  ...,  0.0055,  0.0020,  0.0031],
+        ...,
+        [-0.0035, -0.0091,  0.0000,  ..., -0.0084, -0.0077, -0.0009],
+        [ 0.0023,  0.0031,  0.0000,  ...,  0.0002,  0.0010, -0.0013],
+        [-0.0034, -0.0161,  0.0000,  ..., -0.0015,  0.0006, -0.0151]],
+       device='cuda:0')
+Epoch 7, bias, value: tensor([-0.0231,  0.0179,  0.0101,  0.0260,  0.0237, -0.0197,  0.0260,  0.0233,
+        -0.0088,  0.0111], device='cuda:0'), grad: tensor([ 0.0059,  0.0116,  0.0125, -0.0158,  0.0069,  0.0016, -0.0012, -0.0090,
+         0.0012, -0.0138], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 6----------------------------------------------------
+epoch 6, time 256.53, cls_loss 0.0832 cls_loss_mapping 0.1463 cls_loss_causal 1.1815 re_mapping 0.0645 re_causal 0.1366 /// teacc 97.75 lr 0.00010000
+Epoch 8, weight, value: tensor([[ 0.0262, -0.0406,  0.0022,  ..., -0.0244,  0.0016,  0.0064],
+        [-0.0219,  0.0372, -0.0254,  ...,  0.0248,  0.0395,  0.0198],
+        [-0.0095, -0.0453, -0.0154,  ...,  0.0330, -0.0280, -0.0244],
+        ...,
+        [-0.0196,  0.0356,  0.0232,  ..., -0.0235,  0.0013,  0.0025],
+        [-0.0260, -0.0273,  0.0127,  ...,  0.0084, -0.0471, -0.0087],
+        [-0.0152,  0.0042, -0.0037,  ..., -0.0393, -0.0283,  0.0147]],
+       device='cuda:0'), grad: tensor([[ 0.0009,  0.0007,  0.0000,  ...,  0.0003,  0.0004,  0.0007],
+        [ 0.0009,  0.0004,  0.0000,  ...,  0.0010,  0.0005,  0.0008],
+        [-0.0027, -0.0005,  0.0000,  ..., -0.0050, -0.0021, -0.0023],
+        ...,
+        [ 0.0056,  0.0032,  0.0000,  ...,  0.0036, -0.0001,  0.0058],
+        [-0.0021,  0.0007,  0.0000,  ..., -0.0005,  0.0002,  0.0011],
+        [-0.0049, -0.0074,  0.0000,  ...,  0.0002, -0.0002, -0.0066]],
+       device='cuda:0')
+Epoch 8, bias, value: tensor([-0.0232,  0.0178,  0.0104,  0.0260,  0.0237, -0.0198,  0.0256,  0.0232,
+        -0.0084,  0.0111], device='cuda:0'), grad: tensor([ 0.0014,  0.0015, -0.0024, -0.0007, -0.0011,  0.0021,  0.0005,  0.0070,
+        -0.0029, -0.0052], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 7, time 255.84, cls_loss 0.0838 cls_loss_mapping 0.1494 cls_loss_causal 1.1530 re_mapping 0.0562 re_causal 0.1223 /// teacc 97.37 lr 0.00010000
+Epoch 9, weight, value: tensor([[ 0.0268, -0.0415,  0.0022,  ..., -0.0243,  0.0009,  0.0048],
+        [-0.0223,  0.0374, -0.0254,  ...,  0.0241,  0.0422,  0.0197],
+        [-0.0093, -0.0469, -0.0154,  ...,  0.0342, -0.0286, -0.0233],
+        ...,
+        [-0.0197,  0.0368,  0.0232,  ..., -0.0242,  0.0044,  0.0033],
+        [-0.0257, -0.0279,  0.0127,  ...,  0.0083, -0.0497, -0.0097],
+        [-0.0152,  0.0043, -0.0037,  ..., -0.0416, -0.0303,  0.0150]],
+       device='cuda:0'), grad: tensor([[ 3.8552e-04,  8.8978e-04,  0.0000e+00,  ...,  6.4039e-04,
+          3.0589e-04,  9.1887e-04],
+        [-8.5545e-04, -4.1753e-05,  0.0000e+00,  ...,  1.1597e-03,
+         -1.4629e-03,  1.7667e-04],
+        [-1.0090e-03,  4.0016e-03,  0.0000e+00,  ..., -1.2655e-03,
+         -2.0170e-04,  2.6474e-03],
+        ...,
+        [-5.9929e-03, -1.3519e-02,  0.0000e+00,  ...,  5.9938e-04,
+         -4.8065e-03, -1.1536e-02],
+        [ 2.1687e-03,  3.3226e-03,  0.0000e+00,  ...,  2.2755e-03,
+          1.2569e-03,  3.6831e-03],
+        [ 5.6915e-03,  1.1658e-02,  0.0000e+00,  ...,  2.2388e-04,
+          4.2076e-03,  8.9645e-03]], device='cuda:0')
+Epoch 9, bias, value: tensor([-0.0230,  0.0173,  0.0105,  0.0263,  0.0236, -0.0201,  0.0254,  0.0234,
+        -0.0081,  0.0110], device='cuda:0'), grad: tensor([ 0.0017,  0.0012,  0.0036, -0.0080, -0.0111,  0.0070, -0.0001, -0.0131,
+         0.0067,  0.0121], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 8----------------------------------------------------
+epoch 8, time 256.65, cls_loss 0.0806 cls_loss_mapping 0.1362 cls_loss_causal 1.0933 re_mapping 0.0513 re_causal 0.1157 /// teacc 97.81 lr 0.00010000
+Epoch 10, weight, value: tensor([[ 0.0272, -0.0432,  0.0022,  ..., -0.0245,  0.0011,  0.0033],
+        [-0.0221,  0.0383, -0.0254,  ...,  0.0239,  0.0453,  0.0201],
+        [-0.0093, -0.0484, -0.0154,  ...,  0.0356, -0.0298, -0.0232],
+        ...,
+        [-0.0200,  0.0376,  0.0232,  ..., -0.0249,  0.0057,  0.0038],
+        [-0.0253, -0.0282,  0.0127,  ...,  0.0072, -0.0524, -0.0103],
+        [-0.0151,  0.0047, -0.0037,  ..., -0.0430, -0.0311,  0.0155]],
+       device='cuda:0'), grad: tensor([[ 6.1131e-04,  7.0667e-04,  0.0000e+00,  ...,  2.3117e-03,
+          2.4295e-04,  3.7408e-04],
+        [ 2.1347e-02,  1.1879e-02,  0.0000e+00,  ...,  7.2956e-05,
+          1.4297e-02,  6.4049e-03],
+        [ 8.1348e-04,  5.2166e-04,  0.0000e+00,  ...,  7.7665e-05,
+          2.5916e-04,  3.1638e-04],
+        ...,
+        [-4.8780e-04, -1.4143e-03,  0.0000e+00,  ...,  8.2970e-05,
+         -9.2506e-04, -1.0128e-03],
+        [-1.5316e-03,  1.6785e-04,  0.0000e+00,  ...,  4.8423e-04,
+          4.9353e-04,  2.5749e-04],
+        [-2.3239e-02, -1.4091e-02,  0.0000e+00,  ...,  2.2769e-04,
+         -1.5732e-02, -7.3013e-03]], device='cuda:0')
+Epoch 10, bias, value: tensor([-0.0227,  0.0173,  0.0106,  0.0264,  0.0232, -0.0200,  0.0248,  0.0232,
+        -0.0079,  0.0113], device='cuda:0'), grad: tensor([ 3.6716e-03,  2.8427e-02,  1.3494e-03,  2.8152e-03,  3.7938e-05,
+         1.5383e-03, -4.9667e-03, -2.0123e-04, -1.0252e-03, -3.1647e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 9----------------------------------------------------
+epoch 9, time 256.37, cls_loss 0.0589 cls_loss_mapping 0.1077 cls_loss_causal 1.0827 re_mapping 0.0458 re_causal 0.1084 /// teacc 97.82 lr 0.00010000
+Epoch 11, weight, value: tensor([[ 0.0273, -0.0443,  0.0022,  ..., -0.0250,  0.0006,  0.0023],
+        [-0.0221,  0.0381, -0.0254,  ...,  0.0238,  0.0477,  0.0205],
+        [-0.0092, -0.0495, -0.0154,  ...,  0.0367, -0.0307, -0.0226],
+        ...,
+        [-0.0201,  0.0387,  0.0232,  ..., -0.0257,  0.0076,  0.0042],
+        [-0.0252, -0.0282,  0.0127,  ...,  0.0067, -0.0546, -0.0107],
+        [-0.0152,  0.0050, -0.0037,  ..., -0.0441, -0.0311,  0.0159]],
+       device='cuda:0'), grad: tensor([[-4.4250e-03, -2.8801e-03,  0.0000e+00,  ..., -1.6747e-03,
+          1.7762e-04, -9.9361e-05],
+        [ 3.5000e-03,  1.6632e-03,  0.0000e+00,  ...,  1.9360e-03,
+          1.2016e-03,  3.2959e-03],
+        [-1.0040e-02, -6.9733e-03,  0.0000e+00,  ..., -9.7656e-03,
+         -7.0801e-03, -1.4786e-02],
+        ...,
+        [ 5.2986e-03,  3.9597e-03,  0.0000e+00,  ...,  6.0844e-03,
+          3.9558e-03,  8.3008e-03],
+        [ 2.4586e-03,  1.4696e-03,  0.0000e+00,  ...,  9.0456e-04,
+          6.9857e-04,  1.7128e-03],
+        [-1.4267e-03, -2.2144e-03,  0.0000e+00,  ...,  2.1112e-04,
+          2.1362e-04, -1.9836e-03]], device='cuda:0')
+Epoch 11, bias, value: tensor([-0.0229,  0.0174,  0.0106,  0.0266,  0.0231, -0.0203,  0.0250,  0.0233,
+        -0.0077,  0.0111], device='cuda:0'), grad: tensor([-0.0159,  0.0048, -0.0163,  0.0236,  0.0017, -0.0213,  0.0110,  0.0104,
+         0.0040, -0.0020], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 10----------------------------------------------------
+epoch 10, time 256.71, cls_loss 0.0515 cls_loss_mapping 0.0953 cls_loss_causal 1.0188 re_mapping 0.0421 re_causal 0.1035 /// teacc 98.27 lr 0.00010000
+Epoch 12, weight, value: tensor([[ 2.7578e-02, -4.5355e-02,  2.2385e-03,  ..., -2.5915e-02,
+          8.7393e-05,  9.3150e-04],
+        [-2.2334e-02,  3.8262e-02, -2.5420e-02,  ...,  2.3188e-02,
+          4.8786e-02,  2.0211e-02],
+        [-8.9505e-03, -5.0475e-02, -1.5361e-02,  ...,  3.7974e-02,
+         -3.0312e-02, -2.1672e-02],
+        ...,
+        [-2.0410e-02,  3.9681e-02,  2.3202e-02,  ..., -2.6385e-02,
+          9.7325e-03,  4.7005e-03],
+        [-2.4811e-02, -2.8785e-02,  1.2677e-02,  ...,  6.4490e-03,
+         -5.7005e-02, -1.1297e-02],
+        [-1.5696e-02,  4.7733e-03, -3.7345e-03,  ..., -4.5391e-02,
+         -3.2535e-02,  1.5676e-02]], device='cuda:0'), grad: tensor([[ 0.0004,  0.0004,  0.0000,  ...,  0.0008,  0.0003,  0.0009],
+        [-0.0003,  0.0005,  0.0000,  ..., -0.0003, -0.0007, -0.0002],
+        [ 0.0018,  0.0015,  0.0000,  ...,  0.0009,  0.0013,  0.0020],
+        ...,
+        [-0.0026, -0.0067,  0.0000,  ..., -0.0041, -0.0047, -0.0078],
+        [ 0.0025,  0.0020,  0.0000,  ...,  0.0023,  0.0019,  0.0036],
+        [ 0.0007,  0.0007,  0.0000,  ...,  0.0010,  0.0005,  0.0016]],
+       device='cuda:0')
+Epoch 12, bias, value: tensor([-0.0229,  0.0170,  0.0108,  0.0268,  0.0233, -0.0200,  0.0245,  0.0233,
+        -0.0075,  0.0107], device='cuda:0'), grad: tensor([ 0.0020,  0.0002,  0.0051, -0.0071, -0.0014,  0.0031,  0.0002, -0.0137,
+         0.0077,  0.0038], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 11, time 255.62, cls_loss 0.0565 cls_loss_mapping 0.1010 cls_loss_causal 1.0194 re_mapping 0.0380 re_causal 0.0976 /// teacc 98.25 lr 0.00010000
+Epoch 13, weight, value: tensor([[ 0.0278, -0.0463,  0.0022,  ..., -0.0267, -0.0008, -0.0004],
+        [-0.0220,  0.0389, -0.0254,  ...,  0.0234,  0.0518,  0.0208],
+        [-0.0091, -0.0513, -0.0154,  ...,  0.0386, -0.0312, -0.0209],
+        ...,
+        [-0.0205,  0.0406,  0.0232,  ..., -0.0274,  0.0111,  0.0050],
+        [-0.0248, -0.0293,  0.0127,  ...,  0.0065, -0.0597, -0.0120],
+        [-0.0153,  0.0049, -0.0037,  ..., -0.0466, -0.0336,  0.0160]],
+       device='cuda:0'), grad: tensor([[ 1.0830e-04,  8.8930e-05,  0.0000e+00,  ...,  4.6659e-04,
+          8.0526e-05,  1.7452e-04],
+        [ 1.3128e-05, -5.1832e-04,  0.0000e+00,  ...,  2.1255e-04,
+         -1.0338e-03, -4.3917e-04],
+        [ 1.1134e-04,  2.0778e-04,  0.0000e+00,  ..., -5.4598e-04,
+          1.4520e-04, -2.8968e-04],
+        ...,
+        [ 1.4639e-04, -7.2718e-04,  0.0000e+00,  ...,  1.1063e-04,
+         -2.5892e-04, -2.3866e-04],
+        [-8.9836e-04,  1.4162e-04,  0.0000e+00,  ...,  1.6165e-04,
+          2.3162e-04,  2.4486e-04],
+        [ 1.7977e-03,  3.9935e-04,  0.0000e+00,  ...,  1.4138e-04,
+          3.3236e-04,  6.7759e-04]], device='cuda:0')
+Epoch 13, bias, value: tensor([-0.0230,  0.0171,  0.0108,  0.0267,  0.0232, -0.0201,  0.0246,  0.0232,
+        -0.0076,  0.0111], device='cuda:0'), grad: tensor([ 6.0940e-04, -5.4359e-05,  4.0984e-04,  1.0672e-03, -2.0593e-05,
+        -6.3362e-03,  7.7343e-04,  3.0422e-04, -1.7118e-03,  4.9629e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 12----------------------------------------------------
+epoch 12, time 256.43, cls_loss 0.0439 cls_loss_mapping 0.0805 cls_loss_causal 0.9475 re_mapping 0.0352 re_causal 0.0912 /// teacc 98.38 lr 0.00010000
+Epoch 14, weight, value: tensor([[ 0.0280, -0.0473,  0.0022,  ..., -0.0272, -0.0016, -0.0016],
+        [-0.0220,  0.0395, -0.0254,  ...,  0.0231,  0.0536,  0.0210],
+        [-0.0088, -0.0523, -0.0154,  ...,  0.0395, -0.0319, -0.0200],
+        ...,
+        [-0.0207,  0.0412,  0.0232,  ..., -0.0280,  0.0123,  0.0052],
+        [-0.0246, -0.0302,  0.0127,  ...,  0.0063, -0.0614, -0.0131],
+        [-0.0155,  0.0051, -0.0037,  ..., -0.0478, -0.0344,  0.0164]],
+       device='cuda:0'), grad: tensor([[-2.1038e-03,  3.2306e-04,  0.0000e+00,  ..., -1.3247e-03,
+          2.3067e-05, -4.9174e-05],
+        [ 1.8454e-04,  4.7088e-04,  0.0000e+00,  ..., -1.8811e-04,
+         -3.8195e-04, -9.7632e-05],
+        [ 8.5306e-04,  2.9683e-04,  0.0000e+00,  ...,  4.3845e-04,
+          4.5490e-04,  3.1257e-04],
+        ...,
+        [-3.2539e-03, -6.8665e-03,  0.0000e+00,  ...,  8.1778e-05,
+         -4.6120e-03, -2.6035e-03],
+        [ 7.3338e-04,  5.5313e-04,  0.0000e+00,  ...,  1.5202e-03,
+          4.0722e-04,  4.6825e-04],
+        [ 2.4834e-03,  3.7098e-03,  0.0000e+00,  ...,  2.1648e-04,
+          3.0041e-03,  1.0653e-03]], device='cuda:0')
+Epoch 14, bias, value: tensor([-0.0229,  0.0168,  0.0109,  0.0269,  0.0233, -0.0202,  0.0243,  0.0232,
+        -0.0072,  0.0110], device='cuda:0'), grad: tensor([-0.0038,  0.0005,  0.0017,  0.0060,  0.0010, -0.0062,  0.0014, -0.0057,
+         0.0011,  0.0041], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 13, time 256.59, cls_loss 0.0544 cls_loss_mapping 0.0930 cls_loss_causal 0.9703 re_mapping 0.0329 re_causal 0.0886 /// teacc 98.19 lr 0.00010000
+Epoch 15, weight, value: tensor([[ 0.0282, -0.0485,  0.0022,  ..., -0.0279, -0.0021, -0.0029],
+        [-0.0216,  0.0400, -0.0254,  ...,  0.0226,  0.0554,  0.0217],
+        [-0.0088, -0.0532, -0.0154,  ...,  0.0402, -0.0327, -0.0200],
+        ...,
+        [-0.0210,  0.0419,  0.0232,  ..., -0.0280,  0.0140,  0.0056],
+        [-0.0242, -0.0305,  0.0127,  ...,  0.0060, -0.0631, -0.0139],
+        [-0.0153,  0.0051, -0.0037,  ..., -0.0484, -0.0357,  0.0166]],
+       device='cuda:0'), grad: tensor([[-6.6566e-04,  3.5977e-04,  0.0000e+00,  ...,  1.2815e-04,
+          3.0279e-04,  9.3162e-05],
+        [ 1.7653e-03,  1.6069e-03,  0.0000e+00,  ...,  1.0567e-03,
+          8.0919e-04,  2.1973e-03],
+        [-4.3221e-03, -3.0651e-03,  0.0000e+00,  ..., -4.7493e-03,
+         -1.6642e-03, -6.3057e-03],
+        ...,
+        [-1.9050e-04, -8.3694e-03,  0.0000e+00,  ...,  2.0294e-03,
+         -5.4665e-03, -4.8447e-03],
+        [ 1.5459e-03,  7.9679e-04,  0.0000e+00,  ...,  3.9577e-04,
+          5.4598e-04,  7.8487e-04],
+        [ 3.2406e-03,  7.9575e-03,  0.0000e+00,  ...,  1.3590e-04,
+          4.1008e-03,  9.2087e-03]], device='cuda:0')
+Epoch 15, bias, value: tensor([-0.0232,  0.0167,  0.0108,  0.0269,  0.0229, -0.0201,  0.0245,  0.0232,
+        -0.0070,  0.0112], device='cuda:0'), grad: tensor([-0.0008,  0.0043, -0.0097,  0.0003, -0.0026, -0.0071,  0.0037, -0.0040,
+         0.0045,  0.0114], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 14----------------------------------------------------
+epoch 14, time 258.53, cls_loss 0.0448 cls_loss_mapping 0.0834 cls_loss_causal 0.9786 re_mapping 0.0307 re_causal 0.0889 /// teacc 98.54 lr 0.00010000
+Epoch 16, weight, value: tensor([[ 0.0291, -0.0495,  0.0022,  ..., -0.0285, -0.0030, -0.0042],
+        [-0.0212,  0.0400, -0.0254,  ...,  0.0222,  0.0578,  0.0219],
+        [-0.0088, -0.0547, -0.0154,  ...,  0.0413, -0.0339, -0.0196],
+        ...,
+        [-0.0211,  0.0431,  0.0232,  ..., -0.0284,  0.0160,  0.0066],
+        [-0.0243, -0.0305,  0.0127,  ...,  0.0054, -0.0640, -0.0143],
+        [-0.0154,  0.0051, -0.0037,  ..., -0.0495, -0.0369,  0.0165]],
+       device='cuda:0'), grad: tensor([[ 3.4189e-04,  4.1795e-04,  0.0000e+00,  ...,  5.8365e-04,
+          2.8801e-04,  3.8671e-04],
+        [ 5.9414e-04,  5.8699e-04,  0.0000e+00,  ...,  1.3599e-03,
+          3.5715e-04,  8.5783e-04],
+        [ 1.9205e-04,  2.8133e-04,  0.0000e+00,  ...,  9.7942e-04,
+          7.5340e-05,  3.0327e-04],
+        ...,
+        [ 9.2316e-03,  9.9258e-03,  0.0000e+00,  ...,  3.4833e-04,
+          7.0381e-03,  4.8447e-03],
+        [-1.0620e-02, -1.3107e-02,  0.0000e+00,  ...,  1.5163e-03,
+         -9.6817e-03, -6.5193e-03],
+        [ 1.5554e-03,  1.9484e-03,  0.0000e+00,  ...,  9.1672e-05,
+          1.1206e-03,  1.0328e-03]], device='cuda:0')
+Epoch 16, bias, value: tensor([-0.0228,  0.0170,  0.0109,  0.0266,  0.0228, -0.0200,  0.0243,  0.0236,
+        -0.0073,  0.0109], device='cuda:0'), grad: tensor([ 0.0011,  0.0021,  0.0015, -0.0030, -0.0050,  0.0023, -0.0005,  0.0152,
+        -0.0163,  0.0026], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 15, time 257.80, cls_loss 0.0442 cls_loss_mapping 0.0810 cls_loss_causal 0.9234 re_mapping 0.0291 re_causal 0.0819 /// teacc 98.49 lr 0.00010000
+Epoch 17, weight, value: tensor([[ 0.0292, -0.0508,  0.0022,  ..., -0.0288, -0.0038, -0.0053],
+        [-0.0215,  0.0405, -0.0254,  ...,  0.0214,  0.0596,  0.0218],
+        [-0.0085, -0.0557, -0.0154,  ...,  0.0423, -0.0343, -0.0187],
+        ...,
+        [-0.0212,  0.0436,  0.0232,  ..., -0.0287,  0.0168,  0.0071],
+        [-0.0241, -0.0312,  0.0127,  ...,  0.0049, -0.0656, -0.0153],
+        [-0.0152,  0.0053, -0.0037,  ..., -0.0509, -0.0376,  0.0168]],
+       device='cuda:0'), grad: tensor([[-4.6730e-04,  2.9340e-05,  0.0000e+00,  ..., -5.6362e-04,
+          6.9380e-05,  7.7963e-05],
+        [ 1.7029e-02,  3.8738e-03,  0.0000e+00,  ...,  2.5320e-04,
+          1.3748e-02,  2.5678e-04],
+        [-9.4366e-04, -1.9181e-04,  0.0000e+00,  ..., -7.1478e-04,
+         -5.2977e-04, -1.2417e-03],
+        ...,
+        [ 7.4720e-04,  4.3392e-05,  0.0000e+00,  ...,  5.3644e-04,
+          2.5582e-04,  7.1287e-04],
+        [-1.7761e-02, -3.9177e-03,  0.0000e+00,  ...,  2.5511e-04,
+         -1.4633e-02,  4.7278e-04],
+        [ 2.1172e-04,  3.6740e-04,  0.0000e+00,  ...,  1.2040e-04,
+          1.3912e-04,  9.2888e-04]], device='cuda:0')
+Epoch 17, bias, value: tensor([-0.0230,  0.0167,  0.0112,  0.0268,  0.0226, -0.0197,  0.0243,  0.0235,
+        -0.0073,  0.0108], device='cuda:0'), grad: tensor([-0.0017,  0.0276, -0.0015,  0.0003, -0.0017,  0.0008,  0.0009,  0.0015,
+        -0.0277,  0.0015], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 16----------------------------------------------------
+epoch 16, time 257.26, cls_loss 0.0372 cls_loss_mapping 0.0736 cls_loss_causal 0.8876 re_mapping 0.0287 re_causal 0.0815 /// teacc 98.67 lr 0.00010000
+Epoch 18, weight, value: tensor([[ 0.0293, -0.0515,  0.0022,  ..., -0.0296, -0.0044, -0.0064],
+        [-0.0210,  0.0414, -0.0254,  ...,  0.0208,  0.0618,  0.0223],
+        [-0.0085, -0.0565, -0.0154,  ...,  0.0430, -0.0349, -0.0180],
+        ...,
+        [-0.0214,  0.0440,  0.0232,  ..., -0.0291,  0.0177,  0.0073],
+        [-0.0238, -0.0317,  0.0127,  ...,  0.0048, -0.0669, -0.0160],
+        [-0.0156,  0.0051, -0.0037,  ..., -0.0517, -0.0391,  0.0168]],
+       device='cuda:0'), grad: tensor([[ 2.4152e-04,  6.7651e-05,  0.0000e+00,  ...,  2.4343e-04,
+          2.1458e-04,  3.0231e-04],
+        [ 7.0333e-04,  4.3344e-04,  0.0000e+00,  ...,  1.4830e-04,
+          3.9649e-04,  6.8426e-04],
+        [-3.1209e-04,  1.2231e-04,  0.0000e+00,  ..., -8.8024e-04,
+         -6.2656e-04, -6.4182e-04],
+        ...,
+        [ 1.6756e-03,  6.7234e-04,  0.0000e+00,  ...,  5.8556e-04,
+         -1.8954e-04,  1.5011e-03],
+        [-2.2659e-03,  9.8467e-05,  0.0000e+00,  ...,  1.3793e-04,
+         -2.5320e-04, -1.1835e-03],
+        [-1.9705e-04, -1.8082e-03,  0.0000e+00,  ...,  2.5451e-05,
+          1.7548e-04, -1.5564e-03]], device='cuda:0')
+Epoch 18, bias, value: tensor([-0.0232,  0.0167,  0.0113,  0.0270,  0.0228, -0.0197,  0.0243,  0.0235,
+        -0.0069,  0.0102], device='cuda:0'), grad: tensor([ 0.0003,  0.0015, -0.0008, -0.0002,  0.0007,  0.0006, -0.0001,  0.0037,
+        -0.0036, -0.0021], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 17----------------------------------------------------
+epoch 17, time 256.63, cls_loss 0.0340 cls_loss_mapping 0.0710 cls_loss_causal 0.8941 re_mapping 0.0274 re_causal 0.0757 /// teacc 98.69 lr 0.00010000
+Epoch 19, weight, value: tensor([[ 0.0294, -0.0528,  0.0022,  ..., -0.0301, -0.0056, -0.0075],
+        [-0.0211,  0.0412, -0.0254,  ...,  0.0203,  0.0628,  0.0218],
+        [-0.0084, -0.0576, -0.0154,  ...,  0.0442, -0.0363, -0.0179],
+        ...,
+        [-0.0217,  0.0447,  0.0232,  ..., -0.0293,  0.0196,  0.0081],
+        [-0.0233, -0.0315,  0.0127,  ...,  0.0041, -0.0676, -0.0164],
+        [-0.0155,  0.0051, -0.0037,  ..., -0.0524, -0.0399,  0.0170]],
+       device='cuda:0'), grad: tensor([[ 1.0042e-03,  8.3864e-05,  0.0000e+00,  ...,  3.1042e-04,
+          1.7583e-04,  2.3258e-04],
+        [ 1.3428e-03,  3.6359e-04,  0.0000e+00,  ...,  3.5501e-04,
+          5.5218e-04,  6.7949e-04],
+        [-5.4073e-04,  2.6250e-04,  0.0000e+00,  ..., -3.3321e-03,
+         -6.0320e-04, -1.8396e-03],
+        ...,
+        [-3.4183e-05, -2.5063e-03,  0.0000e+00,  ...,  2.2316e-03,
+         -1.1864e-03, -4.0388e-04],
+        [ 1.7290e-03,  2.3890e-04,  0.0000e+00,  ...,  4.2462e-04,
+         -5.7411e-04, -2.8300e-04],
+        [ 1.4906e-03,  1.0099e-03,  0.0000e+00,  ...,  5.3614e-05,
+          7.7724e-04,  8.5735e-04]], device='cuda:0')
+Epoch 19, bias, value: tensor([-0.0234,  0.0163,  0.0112,  0.0275,  0.0227, -0.0200,  0.0240,  0.0236,
+        -0.0066,  0.0103], device='cuda:0'), grad: tensor([ 0.0019,  0.0030, -0.0023, -0.0119,  0.0009,  0.0023, -0.0011,  0.0005,
+         0.0037,  0.0029], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 18, time 255.71, cls_loss 0.0272 cls_loss_mapping 0.0576 cls_loss_causal 0.8790 re_mapping 0.0258 re_causal 0.0755 /// teacc 98.60 lr 0.00010000
+Epoch 20, weight, value: tensor([[ 0.0296, -0.0531,  0.0022,  ..., -0.0306, -0.0058, -0.0082],
+        [-0.0210,  0.0413, -0.0254,  ...,  0.0196,  0.0641,  0.0216],
+        [-0.0086, -0.0585, -0.0154,  ...,  0.0450, -0.0365, -0.0172],
+        ...,
+        [-0.0217,  0.0456,  0.0232,  ..., -0.0302,  0.0214,  0.0087],
+        [-0.0230, -0.0320,  0.0127,  ...,  0.0036, -0.0694, -0.0172],
+        [-0.0152,  0.0052, -0.0037,  ..., -0.0536, -0.0405,  0.0171]],
+       device='cuda:0'), grad: tensor([[ 9.6464e-04,  4.0102e-04,  0.0000e+00,  ...,  5.9366e-05,
+          2.2233e-04,  5.7411e-04],
+        [-3.4833e-04,  1.2627e-03,  0.0000e+00,  ..., -9.7847e-04,
+         -4.1151e-04,  2.1446e-04],
+        [ 3.7785e-03,  1.2751e-03,  0.0000e+00,  ...,  1.7393e-04,
+          9.5844e-04,  1.9894e-03],
+        ...,
+        [-9.7580e-03, -8.2550e-03,  0.0000e+00,  ...,  1.0550e-04,
+         -5.3444e-03, -7.5150e-03],
+        [ 1.3733e-03,  6.0749e-04,  0.0000e+00,  ...,  1.8370e-04,
+          5.0020e-04,  6.6423e-04],
+        [ 6.9427e-03,  4.9095e-03,  0.0000e+00,  ...,  1.0073e-04,
+          2.5902e-03,  4.2076e-03]], device='cuda:0')
+Epoch 20, bias, value: tensor([-0.0234,  0.0162,  0.0112,  0.0272,  0.0226, -0.0197,  0.0241,  0.0239,
+        -0.0068,  0.0104], device='cuda:0'), grad: tensor([ 0.0015, -0.0010,  0.0058, -0.0040, -0.0025,  0.0017,  0.0001, -0.0143,
+         0.0023,  0.0105], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 19, time 256.13, cls_loss 0.0230 cls_loss_mapping 0.0512 cls_loss_causal 0.8657 re_mapping 0.0258 re_causal 0.0770 /// teacc 98.63 lr 0.00010000
+Epoch 21, weight, value: tensor([[ 0.0295, -0.0543,  0.0022,  ..., -0.0314, -0.0069, -0.0096],
+        [-0.0205,  0.0416, -0.0254,  ...,  0.0195,  0.0655,  0.0219],
+        [-0.0086, -0.0592, -0.0154,  ...,  0.0458, -0.0367, -0.0166],
+        ...,
+        [-0.0220,  0.0462,  0.0232,  ..., -0.0308,  0.0225,  0.0088],
+        [-0.0226, -0.0318,  0.0127,  ...,  0.0030, -0.0700, -0.0175],
+        [-0.0151,  0.0053, -0.0037,  ..., -0.0541, -0.0412,  0.0173]],
+       device='cuda:0'), grad: tensor([[ 2.6822e-05,  8.7738e-05,  0.0000e+00,  ...,  2.9206e-05,
+          7.8022e-05,  6.5923e-05],
+        [-4.8294e-03, -7.7844e-05,  0.0000e+00,  ..., -3.3226e-03,
+         -5.4779e-03, -4.3945e-03],
+        [ 3.8700e-03,  3.6150e-05,  0.0000e+00,  ...,  2.4376e-03,
+          4.6310e-03,  3.5229e-03],
+        ...,
+        [ 1.3268e-04, -4.5538e-04,  0.0000e+00,  ...,  1.8454e-04,
+         -2.7275e-04, -2.5213e-05],
+        [ 2.5272e-04,  8.9884e-05,  0.0000e+00,  ...,  4.8804e-04,
+          1.7679e-04,  3.9482e-04],
+        [-1.1253e-03, -3.7694e-04,  0.0000e+00,  ...,  3.2574e-05,
+          2.5129e-04, -1.3804e-04]], device='cuda:0')
+Epoch 21, bias, value: tensor([-0.0239,  0.0164,  0.0114,  0.0271,  0.0225, -0.0197,  0.0241,  0.0239,
+        -0.0067,  0.0105], device='cuda:0'), grad: tensor([ 7.7128e-05, -8.2779e-03,  6.5651e-03,  1.2741e-03,  1.1754e-04,
+         7.5674e-04,  2.4533e-04,  1.2910e-04,  6.6519e-04, -1.5545e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 20, time 255.97, cls_loss 0.0242 cls_loss_mapping 0.0533 cls_loss_causal 0.8174 re_mapping 0.0234 re_causal 0.0696 /// teacc 98.51 lr 0.00010000
+Epoch 22, weight, value: tensor([[ 0.0298, -0.0549,  0.0022,  ..., -0.0316, -0.0075, -0.0102],
+        [-0.0203,  0.0418, -0.0254,  ...,  0.0191,  0.0668,  0.0221],
+        [-0.0087, -0.0595, -0.0154,  ...,  0.0465, -0.0381, -0.0159],
+        ...,
+        [-0.0219,  0.0468,  0.0232,  ..., -0.0311,  0.0246,  0.0092],
+        [-0.0224, -0.0324,  0.0127,  ...,  0.0026, -0.0714, -0.0183],
+        [-0.0152,  0.0052, -0.0037,  ..., -0.0549, -0.0419,  0.0174]],
+       device='cuda:0'), grad: tensor([[-2.3580e-04,  2.4676e-05,  0.0000e+00,  ...,  9.8228e-05,
+          2.0936e-05,  9.3952e-06],
+        [ 9.0241e-05, -3.7134e-05,  0.0000e+00,  ...,  3.2663e-04,
+          4.8697e-05,  1.8060e-04],
+        [-2.7701e-05,  2.1011e-05,  0.0000e+00,  ..., -5.9748e-04,
+         -2.2626e-04, -4.4155e-04],
+        ...,
+        [ 1.2898e-04, -4.0859e-05,  0.0000e+00,  ...,  1.7858e-04,
+         -3.4850e-06,  1.5020e-04],
+        [-4.2886e-05,  1.1373e-04,  0.0000e+00,  ...,  2.5511e-04,
+          4.6372e-05,  1.4913e-04],
+        [-1.9813e-04, -2.8133e-04,  0.0000e+00,  ...,  3.6061e-05,
+          3.7402e-05, -3.1376e-04]], device='cuda:0')
+Epoch 22, bias, value: tensor([-0.0235,  0.0164,  0.0112,  0.0270,  0.0225, -0.0199,  0.0241,  0.0242,
+        -0.0068,  0.0105], device='cuda:0'), grad: tensor([-0.0003,  0.0003, -0.0002,  0.0003,  0.0004,  0.0010, -0.0015,  0.0002,
+         0.0003, -0.0005], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 21, time 256.05, cls_loss 0.0272 cls_loss_mapping 0.0550 cls_loss_causal 0.8081 re_mapping 0.0229 re_causal 0.0669 /// teacc 98.59 lr 0.00010000
+Epoch 23, weight, value: tensor([[ 0.0298, -0.0561,  0.0022,  ..., -0.0319, -0.0085, -0.0114],
+        [-0.0205,  0.0416, -0.0254,  ...,  0.0189,  0.0676,  0.0219],
+        [-0.0089, -0.0600, -0.0154,  ...,  0.0472, -0.0388, -0.0152],
+        ...,
+        [-0.0221,  0.0475,  0.0232,  ..., -0.0316,  0.0262,  0.0095],
+        [-0.0221, -0.0328,  0.0127,  ...,  0.0022, -0.0724, -0.0193],
+        [-0.0154,  0.0053, -0.0037,  ..., -0.0553, -0.0426,  0.0180]],
+       device='cuda:0'), grad: tensor([[-6.3360e-05,  1.4091e-04,  0.0000e+00,  ...,  1.0490e-04,
+          1.4079e-04,  6.7890e-05],
+        [ 3.3975e-04,  7.2908e-04,  0.0000e+00,  ...,  1.3804e-04,
+          6.1655e-04,  8.2016e-04],
+        [ 2.2876e-04,  1.9217e-04,  0.0000e+00,  ..., -3.0732e-04,
+         -3.2354e-06, -1.1235e-04],
+        ...,
+        [ 6.4583e-03,  1.0223e-02,  0.0000e+00,  ...,  1.4138e-04,
+          1.0345e-02,  7.7095e-03],
+        [-5.0316e-03, -1.0239e-02,  0.0000e+00,  ...,  1.7023e-03,
+         -9.9792e-03, -5.3902e-03],
+        [-1.9417e-03, -2.7962e-03,  0.0000e+00,  ...,  3.4541e-05,
+         -2.4414e-03, -4.2572e-03]], device='cuda:0')
+Epoch 23, bias, value: tensor([-0.0239,  0.0161,  0.0112,  0.0276,  0.0224, -0.0198,  0.0239,  0.0241,
+        -0.0067,  0.0107], device='cuda:0'), grad: tensor([ 3.9792e-04,  1.0967e-03,  3.8719e-04,  3.0479e-03,  1.5268e-03,
+         4.5896e-05, -9.2697e-03,  1.7502e-02, -9.3994e-03, -5.3329e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 22, time 256.41, cls_loss 0.0243 cls_loss_mapping 0.0521 cls_loss_causal 0.8529 re_mapping 0.0224 re_causal 0.0674 /// teacc 98.61 lr 0.00010000
+Epoch 24, weight, value: tensor([[ 0.0299, -0.0566,  0.0022,  ..., -0.0325, -0.0092, -0.0122],
+        [-0.0200,  0.0418, -0.0254,  ...,  0.0182,  0.0687,  0.0216],
+        [-0.0091, -0.0608, -0.0154,  ...,  0.0481, -0.0396, -0.0148],
+        ...,
+        [-0.0217,  0.0484,  0.0232,  ..., -0.0320,  0.0281,  0.0103],
+        [-0.0218, -0.0330,  0.0127,  ...,  0.0021, -0.0733, -0.0199],
+        [-0.0158,  0.0053, -0.0037,  ..., -0.0561, -0.0434,  0.0182]],
+       device='cuda:0'), grad: tensor([[-8.8739e-04,  9.6500e-05,  0.0000e+00,  ..., -2.4843e-04,
+          7.9870e-05,  8.9169e-05],
+        [-1.2589e-03, -1.4925e-03,  0.0000e+00,  ...,  1.1273e-05,
+         -2.8992e-03, -1.7023e-03],
+        [-1.5411e-03,  4.2272e-04,  0.0000e+00,  ..., -1.2503e-03,
+          5.2595e-04, -2.2125e-03],
+        ...,
+        [ 1.3180e-03, -6.6261e-03,  0.0000e+00,  ...,  1.0443e-03,
+         -1.5354e-03, -3.1528e-03],
+        [ 6.8207e-03,  3.3116e-04,  0.0000e+00,  ...,  8.9788e-04,
+          3.4070e-04,  7.9870e-04],
+        [ 4.4107e-04,  7.9775e-04,  0.0000e+00,  ...,  6.9141e-04,
+          2.3782e-04,  1.7633e-03]], device='cuda:0')
+Epoch 24, bias, value: tensor([-0.0242,  0.0160,  0.0113,  0.0274,  0.0223, -0.0198,  0.0241,  0.0244,
+        -0.0067,  0.0107], device='cuda:0'), grad: tensor([-0.0009, -0.0018, -0.0044,  0.0090,  0.0053, -0.0161, -0.0010, -0.0028,
+         0.0098,  0.0029], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 23----------------------------------------------------
+epoch 23, time 256.70, cls_loss 0.0217 cls_loss_mapping 0.0457 cls_loss_causal 0.8185 re_mapping 0.0220 re_causal 0.0657 /// teacc 98.86 lr 0.00010000
+Epoch 25, weight, value: tensor([[ 0.0305, -0.0561,  0.0022,  ..., -0.0323, -0.0087, -0.0112],
+        [-0.0200,  0.0419, -0.0254,  ...,  0.0178,  0.0703,  0.0217],
+        [-0.0092, -0.0615, -0.0154,  ...,  0.0487, -0.0405, -0.0145],
+        ...,
+        [-0.0219,  0.0491,  0.0232,  ..., -0.0330,  0.0294,  0.0104],
+        [-0.0219, -0.0333,  0.0127,  ...,  0.0017, -0.0747, -0.0204],
+        [-0.0157,  0.0052, -0.0037,  ..., -0.0568, -0.0443,  0.0181]],
+       device='cuda:0'), grad: tensor([[-1.4365e-04,  3.2812e-05,  0.0000e+00,  ...,  1.3083e-05,
+          3.3319e-05,  4.2230e-05],
+        [-2.5019e-05, -1.1313e-04,  0.0000e+00,  ...,  5.1737e-05,
+         -2.1267e-04, -5.1558e-05],
+        [ 1.8910e-05,  5.9366e-05,  0.0000e+00,  ..., -5.3596e-04,
+         -1.3602e-04, -4.2057e-04],
+        ...,
+        [ 2.5010e-04, -1.6596e-06,  0.0000e+00,  ...,  3.7646e-04,
+          3.2037e-05,  2.0015e-04],
+        [ 1.2815e-04,  7.2181e-05,  0.0000e+00,  ...,  4.2886e-05,
+          5.3912e-05,  6.6161e-05],
+        [ 1.2827e-03,  1.2503e-03,  0.0000e+00,  ...,  1.4767e-05,
+          7.8201e-05,  2.6488e-04]], device='cuda:0')
+Epoch 25, bias, value: tensor([-0.0239,  0.0160,  0.0114,  0.0271,  0.0222, -0.0195,  0.0240,  0.0243,
+        -0.0070,  0.0108], device='cuda:0'), grad: tensor([-2.5654e-04, -5.5790e-05, -5.0735e-04, -2.3899e-03,  1.2577e-04,
+        -3.1233e-04,  9.2387e-05,  7.1383e-04,  2.7084e-04,  2.3174e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 24, time 255.24, cls_loss 0.0192 cls_loss_mapping 0.0400 cls_loss_causal 0.8269 re_mapping 0.0208 re_causal 0.0639 /// teacc 98.83 lr 0.00010000
+Epoch 26, weight, value: tensor([[ 0.0305, -0.0567,  0.0022,  ..., -0.0332, -0.0094, -0.0120],
+        [-0.0198,  0.0422, -0.0254,  ...,  0.0172,  0.0712,  0.0218],
+        [-0.0088, -0.0618, -0.0154,  ...,  0.0496, -0.0404, -0.0140],
+        ...,
+        [-0.0222,  0.0493,  0.0232,  ..., -0.0335,  0.0302,  0.0104],
+        [-0.0217, -0.0333,  0.0127,  ...,  0.0016, -0.0753, -0.0206],
+        [-0.0156,  0.0054, -0.0037,  ..., -0.0575, -0.0451,  0.0184]],
+       device='cuda:0'), grad: tensor([[-1.5240e-03,  5.3763e-05,  0.0000e+00,  ..., -6.9857e-04,
+          4.8429e-05,  1.2577e-04],
+        [ 1.3149e-04,  4.4048e-05,  0.0000e+00,  ...,  8.4019e-04,
+         -2.0945e-04,  5.1260e-04],
+        [ 1.5414e-04, -3.1531e-05,  0.0000e+00,  ..., -4.2295e-04,
+         -2.6965e-04, -9.0742e-04],
+        ...,
+        [ 5.2261e-04,  2.6536e-04,  0.0000e+00,  ...,  1.0157e-03,
+          3.7861e-04,  1.1711e-03],
+        [ 9.9277e-04,  9.2387e-05,  0.0000e+00,  ...,  5.7077e-04,
+          1.3113e-04,  2.2233e-04],
+        [ 1.2245e-03,  7.2813e-04,  0.0000e+00,  ...,  8.8334e-05,
+          3.8242e-04,  4.6253e-04]], device='cuda:0')
+Epoch 26, bias, value: tensor([-0.0244,  0.0157,  0.0119,  0.0271,  0.0221, -0.0194,  0.0240,  0.0242,
+        -0.0070,  0.0110], device='cuda:0'), grad: tensor([-0.0021,  0.0011, -0.0003, -0.0048, -0.0020,  0.0014,  0.0008,  0.0019,
+         0.0017,  0.0023], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 25, time 253.50, cls_loss 0.0167 cls_loss_mapping 0.0411 cls_loss_causal 0.8116 re_mapping 0.0202 re_causal 0.0641 /// teacc 98.69 lr 0.00010000
+Epoch 27, weight, value: tensor([[ 0.0309, -0.0572,  0.0022,  ..., -0.0335, -0.0101, -0.0126],
+        [-0.0194,  0.0425, -0.0259,  ...,  0.0169,  0.0726,  0.0222],
+        [-0.0091, -0.0627, -0.0154,  ...,  0.0502, -0.0414, -0.0138],
+        ...,
+        [-0.0224,  0.0496,  0.0228,  ..., -0.0340,  0.0306,  0.0106],
+        [-0.0213, -0.0336,  0.0127,  ...,  0.0011, -0.0758, -0.0212],
+        [-0.0158,  0.0057, -0.0038,  ..., -0.0587, -0.0451,  0.0186]],
+       device='cuda:0'), grad: tensor([[ 7.8976e-06,  6.5148e-05,  0.0000e+00,  ...,  1.2875e-04,
+          1.0145e-04,  6.4552e-05],
+        [-3.4213e-04,  7.0810e-05,  0.0000e+00,  ...,  5.5820e-05,
+         -4.8923e-04,  9.1553e-05],
+        [ 5.2691e-04,  3.7575e-04,  0.0000e+00,  ...,  1.2493e-04,
+          4.4036e-04,  1.7440e-04],
+        ...,
+        [ 1.6851e-03,  6.8951e-04,  0.0000e+00,  ...,  9.0361e-05,
+         -8.8453e-04, -4.9293e-05],
+        [ 2.2721e-04,  1.0306e-04,  0.0000e+00,  ...,  2.3937e-04,
+          2.6059e-04,  1.0759e-04],
+        [ 3.6597e-04,  2.0897e-04,  0.0000e+00,  ...,  1.4949e-04,
+          1.2684e-04,  1.8263e-04]], device='cuda:0')
+Epoch 27, bias, value: tensor([-0.0243,  0.0159,  0.0114,  0.0272,  0.0223, -0.0195,  0.0243,  0.0240,
+        -0.0068,  0.0110], device='cuda:0'), grad: tensor([ 2.8563e-04, -2.6059e-04,  1.5039e-03, -5.3482e-03, -8.0109e-05,
+         1.8740e-03, -2.3937e-03,  2.3079e-03,  1.0347e-03,  1.0815e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 26, time 249.77, cls_loss 0.0159 cls_loss_mapping 0.0370 cls_loss_causal 0.8277 re_mapping 0.0198 re_causal 0.0610 /// teacc 98.65 lr 0.00010000
+Epoch 28, weight, value: tensor([[ 0.0311, -0.0580,  0.0022,  ..., -0.0338, -0.0109, -0.0136],
+        [-0.0193,  0.0425, -0.0260,  ...,  0.0162,  0.0735,  0.0221],
+        [-0.0091, -0.0633, -0.0154,  ...,  0.0509, -0.0418, -0.0134],
+        ...,
+        [-0.0224,  0.0505,  0.0226,  ..., -0.0344,  0.0319,  0.0110],
+        [-0.0210, -0.0339,  0.0127,  ...,  0.0008, -0.0765, -0.0216],
+        [-0.0158,  0.0056, -0.0038,  ..., -0.0597, -0.0461,  0.0189]],
+       device='cuda:0'), grad: tensor([[ 5.5544e-06,  2.3291e-05,  0.0000e+00,  ...,  4.7982e-05,
+          2.5600e-05,  3.2008e-05],
+        [-6.9082e-05, -5.5492e-05,  0.0000e+00,  ...,  1.6093e-05,
+         -1.9169e-04, -6.9380e-05],
+        [ 2.7657e-05,  8.4639e-05,  0.0000e+00,  ..., -1.1367e-04,
+          7.1704e-05, -5.1945e-05],
+        ...,
+        [-1.0443e-04, -6.8378e-04,  0.0000e+00,  ...,  1.4395e-05,
+         -3.9792e-04, -4.7040e-04],
+        [-1.2553e-04,  7.4983e-05,  0.0000e+00,  ...,  2.9430e-05,
+          7.7128e-05,  1.4949e-04],
+        [ 1.6975e-04,  3.8600e-04,  0.0000e+00,  ...,  9.6679e-05,
+          2.6608e-04,  4.2772e-04]], device='cuda:0')
+Epoch 28, bias, value: tensor([-0.0243,  0.0157,  0.0115,  0.0270,  0.0224, -0.0195,  0.0244,  0.0242,
+        -0.0069,  0.0110], device='cuda:0'), grad: tensor([-3.1376e-04, -9.6858e-05,  4.8786e-05, -1.9073e-05, -1.1176e-04,
+         1.4400e-04,  2.5797e-04, -4.2462e-04, -1.2612e-04,  6.4087e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 27, time 247.41, cls_loss 0.0154 cls_loss_mapping 0.0360 cls_loss_causal 0.7687 re_mapping 0.0196 re_causal 0.0587 /// teacc 98.82 lr 0.00010000
+Epoch 29, weight, value: tensor([[ 0.0312, -0.0583,  0.0014,  ..., -0.0345, -0.0115, -0.0144],
+        [-0.0191,  0.0426, -0.0259,  ...,  0.0160,  0.0744,  0.0220],
+        [-0.0091, -0.0641, -0.0168,  ...,  0.0518, -0.0423, -0.0128],
+        ...,
+        [-0.0225,  0.0512,  0.0259,  ..., -0.0352,  0.0331,  0.0113],
+        [-0.0211, -0.0343,  0.0121,  ...,  0.0004, -0.0776, -0.0224],
+        [-0.0159,  0.0055, -0.0073,  ..., -0.0604, -0.0471,  0.0189]],
+       device='cuda:0'), grad: tensor([[ 2.7466e-04,  1.3351e-04,  0.0000e+00,  ...,  3.9101e-04,
+          9.4712e-05,  1.1629e-04],
+        [ 1.6320e-04,  1.1557e-04,  0.0000e+00,  ...,  1.5891e-04,
+          1.4618e-05,  1.8525e-04],
+        [-3.2234e-03,  6.8486e-05,  0.0000e+00,  ..., -3.7346e-03,
+          3.4839e-05, -3.4881e-04],
+        ...,
+        [ 6.1941e-04,  3.9697e-04,  0.0000e+00,  ...,  4.8137e-04,
+         -3.2806e-04,  1.2760e-03],
+        [ 3.6812e-04,  1.7393e-04,  0.0000e+00,  ...,  3.4571e-04,
+          3.3855e-05,  3.0231e-04],
+        [ 9.5606e-04,  3.2768e-03,  0.0000e+00,  ...,  6.9022e-05,
+          2.5845e-04,  5.4398e-03]], device='cuda:0')
+Epoch 29, bias, value: tensor([-0.0246,  0.0155,  0.0116,  0.0273,  0.0224, -0.0194,  0.0242,  0.0244,
+        -0.0070,  0.0108], device='cuda:0'), grad: tensor([ 6.7353e-05,  5.7173e-04, -6.8092e-03,  3.0766e-03, -1.0597e-02,
+         1.0729e-03,  1.0090e-03,  2.4624e-03,  1.0729e-03,  8.0719e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 28, time 247.28, cls_loss 0.0168 cls_loss_mapping 0.0413 cls_loss_causal 0.7871 re_mapping 0.0185 re_causal 0.0558 /// teacc 98.78 lr 0.00010000
+Epoch 30, weight, value: tensor([[ 0.0315, -0.0589, -0.0098,  ..., -0.0346, -0.0124, -0.0150],
+        [-0.0192,  0.0426, -0.0245,  ...,  0.0157,  0.0746,  0.0217],
+        [-0.0092, -0.0646, -0.0175,  ...,  0.0523, -0.0426, -0.0122],
+        ...,
+        [-0.0225,  0.0519,  0.0255,  ..., -0.0357,  0.0347,  0.0116],
+        [-0.0209, -0.0346,  0.0044,  ...,  0.0001, -0.0781, -0.0229],
+        [-0.0157,  0.0055, -0.0077,  ..., -0.0606, -0.0477,  0.0191]],
+       device='cuda:0'), grad: tensor([[ 1.7462e-03,  3.8177e-05,  0.0000e+00,  ...,  6.0196e-03,
+          4.8310e-05,  5.2691e-05],
+        [-2.6441e-04, -2.2924e-04,  0.0000e+00,  ..., -1.0085e-04,
+         -7.1478e-04, -4.5347e-04],
+        [ 3.2768e-03,  5.4216e-04,  0.0000e+00,  ...,  5.7936e-04,
+          3.3808e-04,  5.1928e-04],
+        ...,
+        [ 1.3723e-03,  1.5819e-04,  0.0000e+00,  ...,  8.0407e-05,
+         -1.9252e-04,  3.8433e-04],
+        [ 5.7411e-04,  1.5211e-04,  0.0000e+00,  ...,  1.2064e-04,
+          6.5923e-05,  2.4986e-04],
+        [-5.5933e-04, -1.7011e-04,  0.0000e+00,  ...,  9.8467e-05,
+          9.8765e-05, -4.3941e-04]], device='cuda:0')
+Epoch 30, bias, value: tensor([-0.0245,  0.0151,  0.0117,  0.0271,  0.0223, -0.0192,  0.0239,  0.0246,
+        -0.0069,  0.0110], device='cuda:0'), grad: tensor([ 0.0138, -0.0006,  0.0065, -0.0109,  0.0006,  0.0014, -0.0140,  0.0028,
+         0.0014, -0.0010], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 29, time 247.58, cls_loss 0.0139 cls_loss_mapping 0.0382 cls_loss_causal 0.7461 re_mapping 0.0186 re_causal 0.0561 /// teacc 98.79 lr 0.00010000
+Epoch 31, weight, value: tensor([[ 3.1546e-02, -5.9198e-02, -9.8350e-03,  ..., -3.5676e-02,
+         -1.2900e-02, -1.5569e-02],
+        [-1.8851e-02,  4.2870e-02, -2.4519e-02,  ...,  1.5045e-02,
+          7.5752e-02,  2.1819e-02],
+        [-9.1102e-03, -6.5186e-02, -1.7468e-02,  ...,  5.3203e-02,
+         -4.3015e-02, -1.2029e-02],
+        ...,
+        [-2.3044e-02,  5.2554e-02,  2.5503e-02,  ..., -3.6110e-02,
+          3.5453e-02,  1.1836e-02],
+        [-2.0862e-02, -3.4773e-02,  4.4109e-03,  ..., -9.0113e-05,
+         -7.9172e-02, -2.3423e-02],
+        [-1.5367e-02,  5.5597e-03, -7.7215e-03,  ..., -6.1657e-02,
+         -4.7825e-02,  1.9520e-02]], device='cuda:0'), grad: tensor([[ 3.0905e-05,  1.6510e-05,  0.0000e+00,  ...,  2.8655e-05,
+          2.9221e-05,  1.8746e-05],
+        [-7.7438e-04, -3.1042e-04,  0.0000e+00,  ..., -1.6606e-04,
+         -1.2741e-03, -4.8828e-04],
+        [ 2.8157e-04,  2.4527e-05,  0.0000e+00,  ...,  3.3170e-05,
+          4.3964e-04,  1.7250e-04],
+        ...,
+        [ 2.7680e-04, -2.0355e-05,  0.0000e+00,  ...,  5.1588e-05,
+          5.7407e-06,  4.7833e-05],
+        [ 5.2500e-04,  9.3877e-05,  0.0000e+00,  ...,  5.0485e-05,
+          3.4380e-04,  1.2970e-04],
+        [ 1.7166e-04,  2.2631e-06,  0.0000e+00,  ...,  8.7023e-06,
+          1.1718e-04, -2.3201e-05]], device='cuda:0')
+Epoch 31, bias, value: tensor([-0.0247,  0.0151,  0.0118,  0.0273,  0.0223, -0.0194,  0.0237,  0.0245,
+        -0.0069,  0.0113], device='cuda:0'), grad: tensor([ 9.3043e-05, -1.4610e-03,  4.7636e-04, -7.2336e-04,  1.8036e-04,
+        -1.5192e-05, -5.0552e-06,  4.1366e-04,  8.4639e-04,  1.9526e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 30, time 247.78, cls_loss 0.0126 cls_loss_mapping 0.0319 cls_loss_causal 0.7504 re_mapping 0.0181 re_causal 0.0551 /// teacc 98.70 lr 0.00010000
+Epoch 32, weight, value: tensor([[ 3.1718e-02, -5.9576e-02, -9.8389e-03,  ..., -3.6147e-02,
+         -1.3590e-02, -1.6067e-02],
+        [-1.8095e-02,  4.3704e-02, -2.4525e-02,  ...,  1.4557e-02,
+          7.7584e-02,  2.2167e-02],
+        [-9.1107e-03, -6.5505e-02, -1.7454e-02,  ...,  5.3730e-02,
+         -4.3251e-02, -1.1491e-02],
+        ...,
+        [-2.3092e-02,  5.2848e-02,  2.5503e-02,  ..., -3.6585e-02,
+          3.5784e-02,  1.2140e-02],
+        [-2.0738e-02, -3.4930e-02,  4.4102e-03,  ..., -8.4070e-05,
+         -8.0119e-02, -2.3934e-02],
+        [-1.5473e-02,  5.5312e-03, -7.7216e-03,  ..., -6.2370e-02,
+         -4.8808e-02,  1.9445e-02]], device='cuda:0'), grad: tensor([[ 7.0512e-05,  1.4856e-05,  0.0000e+00,  ...,  7.3493e-05,
+          6.4597e-06,  7.1585e-05],
+        [ 3.0446e-04, -1.0192e-05,  0.0000e+00,  ...,  8.5533e-05,
+         -6.5982e-05,  1.6046e-04],
+        [ 1.8388e-05, -1.6165e-04,  0.0000e+00,  ..., -1.5712e-04,
+          2.8625e-05, -3.7408e-04],
+        ...,
+        [ 2.0361e-04, -1.6764e-05,  0.0000e+00,  ...,  9.4056e-05,
+         -6.9976e-05,  1.6570e-04],
+        [-5.3940e-03,  4.0174e-05,  0.0000e+00,  ..., -1.1663e-03,
+          2.0891e-05, -2.5253e-03],
+        [ 3.8223e-03,  2.2277e-05,  0.0000e+00,  ...,  8.5306e-04,
+          7.7784e-05,  1.8196e-03]], device='cuda:0')
+Epoch 32, bias, value: tensor([-0.0247,  0.0154,  0.0118,  0.0273,  0.0222, -0.0195,  0.0237,  0.0245,
+        -0.0068,  0.0112], device='cuda:0'), grad: tensor([ 0.0002,  0.0006, -0.0005,  0.0001,  0.0007,  0.0005,  0.0002,  0.0006,
+        -0.0087,  0.0063], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 31, time 248.79, cls_loss 0.0152 cls_loss_mapping 0.0342 cls_loss_causal 0.7317 re_mapping 0.0168 re_causal 0.0511 /// teacc 98.70 lr 0.00010000
+Epoch 33, weight, value: tensor([[ 0.0318, -0.0598, -0.0098,  ..., -0.0366, -0.0139, -0.0168],
+        [-0.0180,  0.0437, -0.0245,  ...,  0.0143,  0.0783,  0.0221],
+        [-0.0092, -0.0662, -0.0174,  ...,  0.0543, -0.0439, -0.0112],
+        ...,
+        [-0.0233,  0.0534,  0.0255,  ..., -0.0369,  0.0367,  0.0125],
+        [-0.0206, -0.0348,  0.0044,  ..., -0.0006, -0.0801, -0.0244],
+        [-0.0157,  0.0052, -0.0077,  ..., -0.0627, -0.0499,  0.0194]],
+       device='cuda:0'), grad: tensor([[-5.0962e-05,  2.3022e-05,  0.0000e+00,  ...,  2.8506e-05,
+          3.2365e-05,  2.8893e-05],
+        [-1.7524e-04, -2.0099e-04,  0.0000e+00,  ...,  8.3327e-05,
+         -4.9448e-04, -6.8069e-05],
+        [-2.5177e-04,  1.2541e-04,  0.0000e+00,  ..., -6.1893e-04,
+          1.2672e-04, -2.6560e-04],
+        ...,
+        [-6.8569e-04, -1.2312e-03,  0.0000e+00,  ...,  4.6790e-05,
+         -1.4315e-03, -4.4346e-04],
+        [ 2.2173e-04,  9.3341e-05,  0.0000e+00,  ...,  1.6421e-05,
+          1.3304e-04,  1.2791e-04],
+        [-1.6913e-05, -1.1945e-04,  0.0000e+00,  ...,  2.5094e-05,
+          5.1290e-05, -2.4819e-04]], device='cuda:0')
+Epoch 33, bias, value: tensor([-0.0249,  0.0153,  0.0118,  0.0278,  0.0223, -0.0197,  0.0241,  0.0244,
+        -0.0070,  0.0112], device='cuda:0'), grad: tensor([-0.0001, -0.0002, -0.0004, -0.0154,  0.0004,  0.0178,  0.0002, -0.0022,
+         0.0003, -0.0004], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 32, time 249.15, cls_loss 0.0112 cls_loss_mapping 0.0309 cls_loss_causal 0.7493 re_mapping 0.0163 re_causal 0.0515 /// teacc 98.74 lr 0.00010000
+Epoch 34, weight, value: tensor([[ 0.0321, -0.0602, -0.0098,  ..., -0.0371, -0.0140, -0.0174],
+        [-0.0181,  0.0437, -0.0245,  ...,  0.0138,  0.0789,  0.0219],
+        [-0.0092, -0.0668, -0.0174,  ...,  0.0549, -0.0444, -0.0109],
+        ...,
+        [-0.0232,  0.0541,  0.0255,  ..., -0.0372,  0.0380,  0.0129],
+        [-0.0202, -0.0351,  0.0044,  ..., -0.0008, -0.0810, -0.0249],
+        [-0.0159,  0.0053, -0.0077,  ..., -0.0634, -0.0506,  0.0196]],
+       device='cuda:0'), grad: tensor([[ 1.6916e-04,  4.4298e-04,  0.0000e+00,  ...,  2.5943e-05,
+          3.5954e-04,  3.0136e-04],
+        [-7.8440e-05, -3.1471e-05,  0.0000e+00,  ...,  2.6897e-06,
+         -2.4271e-04, -6.3181e-05],
+        [ 2.3353e-04,  9.4533e-05,  0.0000e+00,  ...,  9.2864e-05,
+          1.1200e-04,  1.1164e-04],
+        ...,
+        [-2.9802e-04, -9.1219e-04,  0.0000e+00,  ...,  9.4101e-06,
+         -8.3303e-04, -4.6611e-04],
+        [-3.3450e-04,  8.3447e-05,  0.0000e+00,  ..., -1.1092e-04,
+          1.0872e-04, -4.0233e-07],
+        [-1.3840e-04, -1.5378e-04,  0.0000e+00,  ...,  3.4064e-05,
+          1.5581e-04, -2.8014e-04]], device='cuda:0')
+Epoch 34, bias, value: tensor([-0.0251,  0.0149,  0.0118,  0.0278,  0.0222, -0.0198,  0.0240,  0.0247,
+        -0.0068,  0.0111], device='cuda:0'), grad: tensor([ 0.0008, -0.0001,  0.0005,  0.0002,  0.0002,  0.0008, -0.0001, -0.0015,
+        -0.0004, -0.0003], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 33, time 248.87, cls_loss 0.0155 cls_loss_mapping 0.0394 cls_loss_causal 0.7420 re_mapping 0.0162 re_causal 0.0492 /// teacc 98.58 lr 0.00010000
+Epoch 35, weight, value: tensor([[ 0.0320, -0.0608, -0.0103,  ..., -0.0375, -0.0152, -0.0187],
+        [-0.0172,  0.0442, -0.0256,  ...,  0.0135,  0.0803,  0.0219],
+        [-0.0087, -0.0674, -0.0158,  ...,  0.0555, -0.0446, -0.0102],
+        ...,
+        [-0.0238,  0.0546,  0.0255,  ..., -0.0377,  0.0388,  0.0133],
+        [-0.0201, -0.0355,  0.0041,  ..., -0.0010, -0.0824, -0.0255],
+        [-0.0159,  0.0054, -0.0077,  ..., -0.0646, -0.0508,  0.0198]],
+       device='cuda:0'), grad: tensor([[-4.5002e-06,  7.5884e-06,  0.0000e+00,  ...,  7.9095e-05,
+          7.6219e-06,  1.9222e-05],
+        [ 1.4313e-05,  3.6091e-05,  0.0000e+00,  ...,  2.7701e-05,
+         -1.2867e-05,  6.2823e-05],
+        [ 1.5545e-04,  1.3793e-04,  0.0000e+00,  ...,  1.6034e-05,
+          1.2481e-04,  1.6356e-04],
+        ...,
+        [-3.0899e-04, -6.0749e-04,  0.0000e+00,  ...,  3.5137e-05,
+         -5.7268e-04, -5.5647e-04],
+        [-1.8203e-04,  4.7892e-05,  0.0000e+00,  ...,  1.9372e-05,
+          4.4167e-05,  9.4354e-05],
+        [ 1.3912e-04,  4.1962e-05,  0.0000e+00,  ...,  2.4235e-04,
+          6.1989e-05,  4.9305e-04]], device='cuda:0')
+Epoch 35, bias, value: tensor([-0.0253,  0.0152,  0.0120,  0.0275,  0.0222, -0.0195,  0.0241,  0.0246,
+        -0.0069,  0.0111], device='cuda:0'), grad: tensor([ 1.0812e-04,  1.1319e-04,  3.5644e-04,  5.4479e-05, -8.7214e-04,
+         9.4557e-04, -4.4370e-04, -8.2779e-04, -1.9372e-04,  7.5769e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 34----------------------------------------------------
+epoch 34, time 249.60, cls_loss 0.0097 cls_loss_mapping 0.0258 cls_loss_causal 0.7511 re_mapping 0.0161 re_causal 0.0504 /// teacc 99.02 lr 0.00010000
+Epoch 36, weight, value: tensor([[ 0.0322, -0.0612, -0.0166,  ..., -0.0380, -0.0160, -0.0191],
+        [-0.0168,  0.0443, -0.0250,  ...,  0.0132,  0.0814,  0.0219],
+        [-0.0088, -0.0682, -0.0147,  ...,  0.0560, -0.0459, -0.0103],
+        ...,
+        [-0.0239,  0.0552,  0.0257,  ..., -0.0379,  0.0402,  0.0138],
+        [-0.0202, -0.0357,  0.0015,  ..., -0.0016, -0.0834, -0.0262],
+        [-0.0157,  0.0054, -0.0082,  ..., -0.0652, -0.0513,  0.0199]],
+       device='cuda:0'), grad: tensor([[-1.0186e-04, -8.6054e-06,  0.0000e+00,  ...,  1.5587e-05,
+          4.7386e-06,  4.3124e-05],
+        [ 2.8476e-05,  2.2184e-06,  0.0000e+00,  ...,  4.2588e-05,
+         -2.2799e-05,  2.2426e-05],
+        [ 7.5960e-04,  3.5524e-05,  0.0000e+00,  ..., -6.7763e-06,
+          2.0087e-05, -2.9874e-04],
+        ...,
+        [ 1.0204e-04, -1.3697e-04,  0.0000e+00,  ...,  1.0097e-04,
+         -9.2626e-05, -8.8394e-05],
+        [ 3.5095e-04,  1.5631e-05,  0.0000e+00,  ...,  1.7250e-04,
+          1.2755e-05,  3.1680e-05],
+        [-4.1389e-04,  2.5526e-05,  0.0000e+00,  ...,  9.7394e-05,
+          4.4197e-05,  1.9088e-05]], device='cuda:0')
+Epoch 36, bias, value: tensor([-0.0254,  0.0153,  0.0119,  0.0277,  0.0223, -0.0200,  0.0243,  0.0251,
+        -0.0073,  0.0110], device='cuda:0'), grad: tensor([-0.0002,  0.0001,  0.0007, -0.0024,  0.0004,  0.0004,  0.0007,  0.0001,
+         0.0009, -0.0008], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 35, time 248.80, cls_loss 0.0090 cls_loss_mapping 0.0245 cls_loss_causal 0.7085 re_mapping 0.0157 re_causal 0.0473 /// teacc 98.98 lr 0.00010000
+Epoch 37, weight, value: tensor([[ 0.0328, -0.0616, -0.0196,  ..., -0.0384, -0.0166, -0.0195],
+        [-0.0165,  0.0444, -0.0247,  ...,  0.0131,  0.0824,  0.0220],
+        [-0.0091, -0.0686, -0.0146,  ...,  0.0564, -0.0468, -0.0102],
+        ...,
+        [-0.0238,  0.0557,  0.0256,  ..., -0.0384,  0.0412,  0.0140],
+        [-0.0201, -0.0359,  0.0023,  ..., -0.0016, -0.0843, -0.0265],
+        [-0.0157,  0.0053, -0.0077,  ..., -0.0658, -0.0516,  0.0200]],
+       device='cuda:0'), grad: tensor([[-4.3124e-05,  6.4634e-06,  7.6776e-08,  ...,  4.7088e-05,
+          7.8157e-06,  4.3929e-05],
+        [ 4.2409e-05,  2.2370e-06, -3.5707e-06,  ...,  1.0484e-04,
+         -2.9281e-05,  6.7949e-05],
+        [-2.3293e-04,  3.0667e-05,  4.7777e-07,  ..., -7.9930e-05,
+          6.8103e-08, -1.3828e-04],
+        ...,
+        [ 4.2349e-05, -1.1945e-04,  8.8569e-07,  ...,  9.3937e-05,
+         -8.3208e-05, -3.5584e-05],
+        [ 5.0992e-05,  1.8433e-05,  8.0001e-07,  ...,  1.4746e-04,
+          2.1875e-05,  1.1462e-04],
+        [ 1.1897e-04,  7.0512e-05,  3.4156e-07,  ...,  1.3971e-04,
+          3.1799e-05,  2.6870e-04]], device='cuda:0')
+Epoch 37, bias, value: tensor([-0.0248,  0.0154,  0.0115,  0.0279,  0.0225, -0.0201,  0.0241,  0.0250,
+        -0.0072,  0.0109], device='cuda:0'), grad: tensor([-8.9347e-05,  1.6475e-04, -3.8815e-04,  7.8559e-05, -4.1842e-04,
+        -1.8167e-04, -5.5790e-05,  5.0932e-05,  2.5868e-04,  5.8079e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 36, time 249.11, cls_loss 0.0085 cls_loss_mapping 0.0272 cls_loss_causal 0.7146 re_mapping 0.0147 re_causal 0.0463 /// teacc 98.91 lr 0.00010000
+Epoch 38, weight, value: tensor([[ 0.0329, -0.0620, -0.0215,  ..., -0.0388, -0.0173, -0.0201],
+        [-0.0160,  0.0445, -0.0238,  ...,  0.0129,  0.0835,  0.0222],
+        [-0.0094, -0.0690, -0.0140,  ...,  0.0569, -0.0477, -0.0101],
+        ...,
+        [-0.0238,  0.0563,  0.0253,  ..., -0.0387,  0.0424,  0.0144],
+        [-0.0199, -0.0362,  0.0020,  ..., -0.0017, -0.0852, -0.0270],
+        [-0.0158,  0.0053, -0.0093,  ..., -0.0665, -0.0523,  0.0201]],
+       device='cuda:0'), grad: tensor([[ 6.5379e-06,  1.7941e-05,  4.3237e-07,  ...,  2.3767e-05,
+          9.2015e-06,  3.5107e-05],
+        [-8.4341e-06, -3.2187e-06, -1.1260e-06,  ...,  4.5270e-05,
+         -2.8536e-05,  5.1022e-05],
+        [ 8.6129e-06,  3.6597e-05, -4.2394e-06,  ...,  2.0885e-04,
+          1.4402e-05,  3.0899e-04],
+        ...,
+        [-5.1744e-06, -8.3685e-05,  1.3383e-06,  ...,  6.6578e-05,
+         -7.1526e-05,  4.9233e-05],
+        [ 3.0428e-05,  2.5302e-05,  1.3048e-06,  ...,  2.8983e-05,
+          1.4842e-05,  5.2899e-05],
+        [-8.7500e-05, -3.9071e-05,  3.4133e-07,  ...,  1.2672e-04,
+          1.5661e-05,  3.3826e-05]], device='cuda:0')
+Epoch 38, bias, value: tensor([-0.0249,  0.0156,  0.0113,  0.0278,  0.0223, -0.0201,  0.0240,  0.0253,
+        -0.0071,  0.0109], device='cuda:0'), grad: tensor([ 6.2346e-05,  6.6400e-05,  4.9496e-04,  1.4293e-04, -1.1377e-03,
+         2.8625e-05,  1.1355e-04,  9.8765e-05,  1.5557e-04, -2.5541e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 37, time 248.86, cls_loss 0.0106 cls_loss_mapping 0.0302 cls_loss_causal 0.7267 re_mapping 0.0149 re_causal 0.0465 /// teacc 98.89 lr 0.00010000
+Epoch 39, weight, value: tensor([[ 0.0330, -0.0625, -0.0239,  ..., -0.0394, -0.0177, -0.0207],
+        [-0.0166,  0.0443, -0.0239,  ...,  0.0122,  0.0835,  0.0218],
+        [-0.0087, -0.0693, -0.0129,  ...,  0.0578, -0.0477, -0.0095],
+        ...,
+        [-0.0239,  0.0567,  0.0245,  ..., -0.0389,  0.0437,  0.0146],
+        [-0.0198, -0.0364,  0.0021,  ..., -0.0021, -0.0859, -0.0274],
+        [-0.0157,  0.0057, -0.0094,  ..., -0.0670, -0.0528,  0.0205]],
+       device='cuda:0'), grad: tensor([[ 3.6657e-05,  3.8929e-06,  0.0000e+00,  ...,  4.0889e-05,
+          2.0623e-05,  1.8343e-05],
+        [-2.4092e-04, -1.2994e-04,  0.0000e+00,  ...,  1.5393e-05,
+         -6.1893e-04, -1.5354e-04],
+        [-1.3602e-04,  5.4091e-06,  0.0000e+00,  ..., -1.4424e-04,
+          5.9485e-05, -6.8486e-05],
+        ...,
+        [ 6.2346e-05,  1.4924e-05,  0.0000e+00,  ...,  1.2800e-05,
+          6.2406e-05,  3.2216e-05],
+        [ 1.6153e-04,  2.6777e-05,  0.0000e+00,  ...,  9.2745e-05,
+          1.5235e-04,  7.4923e-05],
+        [ 1.0145e-04,  1.1995e-05,  0.0000e+00,  ...,  1.3418e-05,
+          5.0157e-05,  2.5779e-06]], device='cuda:0')
+Epoch 39, bias, value: tensor([-0.0253,  0.0149,  0.0122,  0.0279,  0.0222, -0.0200,  0.0239,  0.0254,
+        -0.0071,  0.0109], device='cuda:0'), grad: tensor([ 0.0001, -0.0007, -0.0002, -0.0002,  0.0002,  0.0001, -0.0001,  0.0001,
+         0.0004,  0.0002], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 38, time 248.74, cls_loss 0.0131 cls_loss_mapping 0.0343 cls_loss_causal 0.7485 re_mapping 0.0148 re_causal 0.0471 /// teacc 98.83 lr 0.00010000
+Epoch 40, weight, value: tensor([[ 0.0329, -0.0628, -0.0274,  ..., -0.0399, -0.0180, -0.0222],
+        [-0.0163,  0.0446, -0.0242,  ...,  0.0120,  0.0848,  0.0222],
+        [-0.0088, -0.0697, -0.0128,  ...,  0.0584, -0.0482, -0.0092],
+        ...,
+        [-0.0243,  0.0572,  0.0269,  ..., -0.0397,  0.0442,  0.0148],
+        [-0.0198, -0.0367,  0.0034,  ..., -0.0022, -0.0864, -0.0281],
+        [-0.0153,  0.0056, -0.0114,  ..., -0.0676, -0.0538,  0.0206]],
+       device='cuda:0'), grad: tensor([[-2.6561e-06,  1.4856e-05,  0.0000e+00,  ...,  8.1778e-05,
+         -1.9178e-05,  4.0203e-05],
+        [ 2.1026e-05,  2.1085e-05,  0.0000e+00,  ...,  2.2709e-05,
+         -3.4869e-05,  3.1739e-05],
+        [ 2.7990e-04,  2.5535e-04,  0.0000e+00,  ..., -6.4611e-05,
+          8.0585e-05,  1.9240e-04],
+        ...,
+        [-6.9523e-04, -8.5878e-04,  0.0000e+00,  ...,  2.3976e-05,
+         -1.9169e-04, -8.1587e-04],
+        [ 1.8597e-05,  2.4050e-05,  0.0000e+00,  ...,  4.2826e-05,
+          1.3649e-05,  5.5760e-05],
+        [ 1.5461e-04,  9.6500e-05,  0.0000e+00,  ...,  4.5240e-05,
+          4.3571e-05,  2.6083e-04]], device='cuda:0')
+Epoch 40, bias, value: tensor([-0.0254,  0.0150,  0.0122,  0.0280,  0.0224, -0.0198,  0.0236,  0.0252,
+        -0.0074,  0.0109], device='cuda:0'), grad: tensor([ 5.7250e-05,  8.2672e-05,  4.6897e-04,  1.3745e-04,  2.2268e-04,
+         3.8266e-05, -5.6696e-04, -1.2217e-03,  1.2767e-04,  6.5279e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 39, time 248.90, cls_loss 0.0096 cls_loss_mapping 0.0274 cls_loss_causal 0.6816 re_mapping 0.0152 re_causal 0.0453 /// teacc 98.81 lr 0.00010000
+Epoch 41, weight, value: tensor([[ 0.0329, -0.0632, -0.0278,  ..., -0.0403, -0.0186, -0.0231],
+        [-0.0159,  0.0449, -0.0243,  ...,  0.0118,  0.0863,  0.0224],
+        [-0.0090, -0.0703, -0.0128,  ...,  0.0587, -0.0490, -0.0095],
+        ...,
+        [-0.0241,  0.0578,  0.0269,  ..., -0.0400,  0.0449,  0.0150],
+        [-0.0194, -0.0370,  0.0037,  ..., -0.0023, -0.0872, -0.0280],
+        [-0.0155,  0.0057, -0.0109,  ..., -0.0689, -0.0548,  0.0207]],
+       device='cuda:0'), grad: tensor([[-7.5817e-05,  5.1916e-05,  0.0000e+00,  ..., -2.5302e-05,
+          3.0577e-05,  7.3671e-05],
+        [ 4.8709e-04,  1.6346e-03,  0.0000e+00,  ...,  3.1735e-07,
+          2.2564e-03,  2.2373e-03],
+        [ 6.5744e-05,  5.5742e-04,  0.0000e+00,  ...,  9.5814e-06,
+          3.8099e-04,  6.9618e-04],
+        ...,
+        [-5.0402e-04, -1.1223e-02,  0.0000e+00,  ...,  3.1777e-06,
+         -8.7662e-03, -1.4008e-02],
+        [ 4.7565e-05,  8.0764e-05,  0.0000e+00,  ...,  4.5039e-06,
+          5.1558e-05,  1.2803e-04],
+        [-5.2357e-04, -8.3256e-04,  0.0000e+00,  ...,  4.8317e-06,
+          1.3256e-04, -2.2945e-03]], device='cuda:0')
+Epoch 41, bias, value: tensor([-0.0255,  0.0152,  0.0118,  0.0279,  0.0228, -0.0201,  0.0239,  0.0253,
+        -0.0070,  0.0107], device='cuda:0'), grad: tensor([-0.0001,  0.0023,  0.0008, -0.0002,  0.0132,  0.0002,  0.0001, -0.0132,
+         0.0002, -0.0033], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 40, time 248.93, cls_loss 0.0080 cls_loss_mapping 0.0224 cls_loss_causal 0.6944 re_mapping 0.0145 re_causal 0.0449 /// teacc 98.99 lr 0.00010000
+Epoch 42, weight, value: tensor([[ 0.0331, -0.0637, -0.0280,  ..., -0.0407, -0.0191, -0.0238],
+        [-0.0161,  0.0443, -0.0243,  ...,  0.0115,  0.0866,  0.0217],
+        [-0.0090, -0.0710, -0.0128,  ...,  0.0593, -0.0497, -0.0090],
+        ...,
+        [-0.0241,  0.0589,  0.0270,  ..., -0.0405,  0.0466,  0.0160],
+        [-0.0193, -0.0373,  0.0037,  ..., -0.0025, -0.0882, -0.0286],
+        [-0.0154,  0.0056, -0.0109,  ..., -0.0696, -0.0555,  0.0208]],
+       device='cuda:0'), grad: tensor([[-2.2963e-05,  5.8562e-06,  2.4665e-09,  ...,  2.8461e-05,
+          7.6815e-06,  1.4208e-05],
+        [ 5.1111e-06, -2.1741e-05,  2.2337e-08,  ...,  1.6809e-05,
+         -3.5226e-05,  3.6322e-06],
+        [-3.1918e-05,  2.0280e-05, -1.0943e-07,  ..., -1.0192e-04,
+         -1.0841e-05, -6.5565e-05],
+        ...,
+        [ 6.1691e-06, -7.2718e-05,  3.2742e-08,  ...,  4.3243e-05,
+         -5.5134e-05, -4.1246e-05],
+        [ 5.1111e-05,  1.6078e-05,  1.6458e-08,  ...,  5.9664e-05,
+          2.1666e-05,  3.0279e-05],
+        [ 2.6155e-04, -5.6416e-05,  2.1464e-10,  ...,  7.9498e-06,
+          2.3872e-05, -1.1361e-04]], device='cuda:0')
+Epoch 42, bias, value: tensor([-0.0254,  0.0146,  0.0116,  0.0280,  0.0227, -0.0201,  0.0241,  0.0261,
+        -0.0073,  0.0107], device='cuda:0'), grad: tensor([-4.4741e-06,  1.4700e-05, -8.5533e-05, -4.6164e-05,  1.0657e-04,
+        -7.2384e-04, -2.1815e-05, -6.2250e-06,  1.8454e-04,  5.8222e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 41, time 248.84, cls_loss 0.0085 cls_loss_mapping 0.0235 cls_loss_causal 0.6933 re_mapping 0.0136 re_causal 0.0421 /// teacc 98.84 lr 0.00010000
+Epoch 43, weight, value: tensor([[ 0.0333, -0.0640, -0.0285,  ..., -0.0414, -0.0196, -0.0244],
+        [-0.0150,  0.0450, -0.0244,  ...,  0.0112,  0.0882,  0.0224],
+        [-0.0086, -0.0716, -0.0127,  ...,  0.0602, -0.0503, -0.0089],
+        ...,
+        [-0.0245,  0.0590,  0.0272,  ..., -0.0409,  0.0468,  0.0160],
+        [-0.0195, -0.0374,  0.0040,  ..., -0.0030, -0.0888, -0.0289],
+        [-0.0155,  0.0057, -0.0109,  ..., -0.0700, -0.0563,  0.0213]],
+       device='cuda:0'), grad: tensor([[ 1.6659e-05,  1.0528e-05,  0.0000e+00,  ...,  2.0415e-05,
+          5.6624e-06,  2.5570e-05],
+        [ 1.9640e-05, -1.8716e-05,  0.0000e+00,  ...,  5.0604e-05,
+         -3.2574e-05,  3.7402e-05],
+        [-8.9183e-06,  8.4192e-06,  0.0000e+00,  ..., -2.3925e-04,
+         -1.7118e-04, -2.4104e-04],
+        ...,
+        [ 1.5938e-04,  6.6340e-05,  0.0000e+00,  ...,  1.7440e-04,
+          1.4663e-04,  4.0174e-04],
+        [ 7.1406e-05,  5.8264e-05,  0.0000e+00,  ...,  4.2766e-05,
+          7.8976e-06,  1.1730e-04],
+        [-2.8944e-04, -2.5249e-04,  0.0000e+00,  ...,  4.0799e-05,
+          2.2277e-06, -5.8317e-04]], device='cuda:0')
+Epoch 43, bias, value: tensor([-0.0256,  0.0151,  0.0123,  0.0278,  0.0222, -0.0202,  0.0241,  0.0258,
+        -0.0076,  0.0108], device='cuda:0'), grad: tensor([ 7.3612e-05,  9.9659e-05, -2.2221e-04, -6.2904e-03,  2.3079e-04,
+         6.1722e-03, -9.5367e-05,  6.7806e-04,  3.8648e-04, -1.0338e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 42, time 248.72, cls_loss 0.0066 cls_loss_mapping 0.0202 cls_loss_causal 0.6736 re_mapping 0.0132 re_causal 0.0412 /// teacc 98.89 lr 0.00010000
+Epoch 44, weight, value: tensor([[ 0.0333, -0.0643, -0.0290,  ..., -0.0416, -0.0202, -0.0247],
+        [-0.0147,  0.0450, -0.0245,  ...,  0.0108,  0.0890,  0.0225],
+        [-0.0085, -0.0719, -0.0127,  ...,  0.0609, -0.0508, -0.0085],
+        ...,
+        [-0.0246,  0.0595,  0.0273,  ..., -0.0417,  0.0475,  0.0161],
+        [-0.0192, -0.0376,  0.0044,  ..., -0.0032, -0.0891, -0.0294],
+        [-0.0154,  0.0056, -0.0109,  ..., -0.0705, -0.0570,  0.0212]],
+       device='cuda:0'), grad: tensor([[ 2.1189e-05,  1.4514e-05,  6.9791e-08,  ...,  6.1989e-06,
+          6.7316e-06,  3.0965e-05],
+        [-2.0897e-04, -9.9391e-06,  7.9599e-09,  ..., -2.8038e-04,
+         -1.7452e-03, -1.1683e-03],
+        [ 1.9658e-04,  8.9481e-06,  1.2224e-08,  ...,  2.5320e-04,
+          1.5135e-03,  1.0443e-03],
+        ...,
+        [ 6.8128e-05,  8.0988e-06,  2.9150e-07,  ...,  2.5272e-05,
+          8.4460e-05,  1.2070e-04],
+        [-6.2846e-06,  1.1362e-05,  1.2247e-07,  ..., -2.3935e-06,
+          1.9118e-05,  1.6257e-05],
+        [-1.8394e-04, -1.3185e-04, -1.1837e-06,  ...,  7.1704e-05,
+          1.6689e-05, -9.2149e-05]], device='cuda:0')
+Epoch 44, bias, value: tensor([-0.0257,  0.0149,  0.0124,  0.0278,  0.0226, -0.0204,  0.0242,  0.0257,
+        -0.0074,  0.0106], device='cuda:0'), grad: tensor([ 5.2273e-05, -1.5163e-03,  1.3809e-03,  1.7130e-04, -1.0169e-04,
+        -8.8871e-05,  1.2863e-04,  1.9264e-04,  8.7097e-06, -2.2709e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 43, time 249.97, cls_loss 0.0093 cls_loss_mapping 0.0249 cls_loss_causal 0.6863 re_mapping 0.0128 re_causal 0.0403 /// teacc 98.76 lr 0.00010000
+Epoch 45, weight, value: tensor([[ 0.0336, -0.0647, -0.0354,  ..., -0.0422, -0.0205, -0.0253],
+        [-0.0145,  0.0447, -0.0245,  ...,  0.0105,  0.0897,  0.0224],
+        [-0.0084, -0.0722, -0.0133,  ...,  0.0613, -0.0513, -0.0082],
+        ...,
+        [-0.0246,  0.0604,  0.0306,  ..., -0.0417,  0.0481,  0.0165],
+        [-0.0192, -0.0379,  0.0043,  ..., -0.0031, -0.0900, -0.0300],
+        [-0.0152,  0.0054, -0.0115,  ..., -0.0714, -0.0572,  0.0214]],
+       device='cuda:0'), grad: tensor([[-5.6553e-04,  9.9316e-06,  2.4796e-07,  ..., -1.8139e-03,
+          1.6168e-05,  2.1413e-05],
+        [-1.0949e-04, -3.7134e-05,  4.0955e-07,  ...,  1.1109e-05,
+         -2.3782e-04, -6.5267e-05],
+        [ 3.0375e-04,  3.7163e-05,  2.1793e-07,  ...,  3.7932e-04,
+          9.5308e-05,  8.5771e-05],
+        ...,
+        [ 1.3280e-04,  5.1409e-05,  2.2035e-06,  ...,  8.2910e-05,
+         -1.7643e-05,  1.0967e-04],
+        [-8.1730e-04, -7.7724e-05,  3.5018e-06,  ..., -4.4554e-05,
+          4.4942e-05, -2.2709e-04],
+        [ 3.6597e-04, -1.1134e-04, -1.3061e-05,  ...,  6.5947e-04,
+          2.2054e-05, -6.5625e-05]], device='cuda:0')
+Epoch 45, bias, value: tensor([-0.0257,  0.0147,  0.0126,  0.0276,  0.0225, -0.0199,  0.0238,  0.0261,
+        -0.0074,  0.0106], device='cuda:0'), grad: tensor([-0.0046, -0.0001,  0.0012,  0.0005,  0.0001,  0.0008,  0.0013,  0.0004,
+        -0.0014,  0.0017], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 44, time 249.81, cls_loss 0.0085 cls_loss_mapping 0.0218 cls_loss_causal 0.7006 re_mapping 0.0134 re_causal 0.0423 /// teacc 98.91 lr 0.00010000
+Epoch 46, weight, value: tensor([[ 0.0338, -0.0651, -0.0388,  ..., -0.0426, -0.0213, -0.0260],
+        [-0.0140,  0.0446, -0.0244,  ...,  0.0103,  0.0905,  0.0225],
+        [-0.0078, -0.0729, -0.0183,  ...,  0.0623, -0.0522, -0.0075],
+        ...,
+        [-0.0248,  0.0610,  0.0308,  ..., -0.0421,  0.0489,  0.0167],
+        [-0.0195, -0.0379,  0.0103,  ..., -0.0036, -0.0908, -0.0308],
+        [-0.0155,  0.0055, -0.0104,  ..., -0.0723, -0.0577,  0.0215]],
+       device='cuda:0'), grad: tensor([[ 2.5678e-04,  9.9614e-06,  0.0000e+00,  ...,  2.8968e-04,
+          1.2629e-05,  7.6741e-06],
+        [ 1.2003e-05,  1.8859e-04,  0.0000e+00,  ...,  3.5949e-06,
+          1.1635e-04,  6.9797e-05],
+        [ 3.0637e-05,  4.0740e-05,  0.0000e+00,  ...,  5.2564e-06,
+          4.8637e-05,  2.3484e-05],
+        ...,
+        [-1.3220e-04, -6.2609e-04,  0.0000e+00,  ...,  6.0443e-07,
+         -5.8699e-04, -2.9230e-04],
+        [-7.4685e-05,  1.8165e-05,  0.0000e+00,  ...,  6.4433e-05,
+          2.3216e-05,  1.6034e-05],
+        [ 2.4900e-05,  2.2590e-05,  0.0000e+00,  ...,  6.5193e-06,
+          3.7163e-05, -2.9970e-06]], device='cuda:0')
+Epoch 46, bias, value: tensor([-0.0257,  0.0149,  0.0133,  0.0276,  0.0221, -0.0196,  0.0236,  0.0258,
+        -0.0078,  0.0105], device='cuda:0'), grad: tensor([ 1.0948e-03,  1.3721e-04,  8.9526e-05,  3.4618e-04,  7.3314e-05,
+         8.0872e-04, -2.0466e-03, -5.9986e-04,  6.4015e-05,  3.3468e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 45, time 249.62, cls_loss 0.0083 cls_loss_mapping 0.0227 cls_loss_causal 0.6700 re_mapping 0.0127 re_causal 0.0396 /// teacc 98.88 lr 0.00010000
+Epoch 47, weight, value: tensor([[ 0.0339, -0.0654, -0.0401,  ..., -0.0430, -0.0217, -0.0265],
+        [-0.0142,  0.0445, -0.0246,  ...,  0.0097,  0.0905,  0.0220],
+        [-0.0080, -0.0731, -0.0182,  ...,  0.0628, -0.0530, -0.0074],
+        ...,
+        [-0.0248,  0.0615,  0.0311,  ..., -0.0425,  0.0503,  0.0175],
+        [-0.0193, -0.0381,  0.0103,  ..., -0.0036, -0.0913, -0.0312],
+        [-0.0151,  0.0056, -0.0105,  ..., -0.0725, -0.0579,  0.0217]],
+       device='cuda:0'), grad: tensor([[ 4.2105e-04,  1.3135e-05,  5.4017e-08,  ...,  3.2973e-04,
+         -3.2753e-05,  2.5797e-04],
+        [ 3.9250e-05, -1.1474e-06,  8.3965e-09,  ...,  3.2067e-05,
+         -2.4766e-05,  5.3763e-05],
+        [-1.0929e-03,  1.0751e-05, -3.0937e-08,  ..., -8.1205e-04,
+          1.7822e-05, -9.1505e-04],
+        ...,
+        [ 1.3864e-04,  1.1927e-04,  3.6648e-07,  ...,  7.6652e-05,
+          2.9013e-05,  2.6798e-04],
+        [ 1.3185e-04, -3.5733e-05,  1.3225e-07,  ...,  2.1601e-04,
+         -4.3839e-05,  1.1671e-04],
+        [ 1.4234e-04, -2.3162e-04, -1.3318e-06,  ...,  8.7440e-05,
+          2.5392e-05, -3.0026e-05]], device='cuda:0')
+Epoch 47, bias, value: tensor([-0.0260,  0.0142,  0.0130,  0.0276,  0.0219, -0.0197,  0.0240,  0.0264,
+        -0.0078,  0.0109], device='cuda:0'), grad: tensor([ 1.6537e-03,  1.4317e-04, -3.6983e-03,  3.6502e-04,  1.5222e-05,
+         5.7936e-04, -4.7803e-04,  6.2227e-04,  8.6975e-04, -7.7188e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 46, time 249.88, cls_loss 0.0074 cls_loss_mapping 0.0211 cls_loss_causal 0.6772 re_mapping 0.0121 re_causal 0.0385 /// teacc 98.90 lr 0.00010000
+Epoch 48, weight, value: tensor([[ 0.0340, -0.0657, -0.0467,  ..., -0.0437, -0.0219, -0.0270],
+        [-0.0136,  0.0451, -0.0247,  ...,  0.0094,  0.0917,  0.0224],
+        [-0.0082, -0.0737, -0.0196,  ...,  0.0632, -0.0537, -0.0074],
+        ...,
+        [-0.0252,  0.0617,  0.0336,  ..., -0.0429,  0.0506,  0.0174],
+        [-0.0189, -0.0383,  0.0096,  ..., -0.0040, -0.0920, -0.0317],
+        [-0.0153,  0.0058, -0.0105,  ..., -0.0728, -0.0583,  0.0225]],
+       device='cuda:0'), grad: tensor([[-3.8594e-06,  7.8231e-06,  1.5106e-06,  ...,  1.0347e-04,
+         -8.1137e-06,  2.0966e-05],
+        [-1.4827e-05, -9.3937e-05, -7.6145e-06,  ...,  2.0540e-04,
+         -2.2447e-04,  1.6391e-05],
+        [-4.1306e-05,  2.7820e-05, -1.0051e-05,  ..., -2.0742e-04,
+          3.6746e-05, -1.4353e-04],
+        ...,
+        [ 4.8101e-05, -7.5877e-05,  5.8673e-06,  ...,  2.7582e-05,
+         -2.9132e-05, -7.5221e-05],
+        [ 7.0691e-05,  1.4044e-05,  2.7642e-06,  ...,  9.9123e-05,
+          3.5077e-05,  3.0786e-05],
+        [ 1.0109e-04,  5.2482e-05,  1.5050e-06,  ...,  1.8030e-05,
+          6.4433e-05,  5.8860e-05]], device='cuda:0')
+Epoch 48, bias, value: tensor([-0.0263,  0.0144,  0.0127,  0.0277,  0.0217, -0.0198,  0.0244,  0.0262,
+        -0.0076,  0.0110], device='cuda:0'), grad: tensor([ 1.8644e-04,  2.8086e-04, -1.3959e-04, -1.3000e-02,  2.4700e-04,
+         1.2833e-02, -1.0290e-03,  6.0769e-07,  3.4070e-04,  2.7370e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 47, time 249.88, cls_loss 0.0073 cls_loss_mapping 0.0203 cls_loss_causal 0.7000 re_mapping 0.0121 re_causal 0.0375 /// teacc 98.93 lr 0.00010000
+Epoch 49, weight, value: tensor([[ 0.0342, -0.0661, -0.0525,  ..., -0.0441, -0.0225, -0.0275],
+        [-0.0135,  0.0451, -0.0272,  ...,  0.0085,  0.0922,  0.0220],
+        [-0.0083, -0.0742, -0.0176,  ...,  0.0640, -0.0540, -0.0068],
+        ...,
+        [-0.0254,  0.0623,  0.0338,  ..., -0.0434,  0.0515,  0.0177],
+        [-0.0185, -0.0384,  0.0095,  ..., -0.0044, -0.0926, -0.0320],
+        [-0.0156,  0.0056, -0.0106,  ..., -0.0736, -0.0591,  0.0225]],
+       device='cuda:0'), grad: tensor([[-1.1480e-04,  6.3442e-06,  9.7509e-07,  ...,  9.0778e-05,
+          5.9605e-06,  1.5080e-05],
+        [ 8.8632e-05, -2.6509e-05, -3.3360e-06,  ...,  1.3582e-05,
+         -4.8280e-05, -1.4096e-05],
+        [ 1.1605e-04,  5.1111e-06,  8.2562e-07,  ...,  2.1338e-05,
+          1.3649e-05, -1.7077e-05],
+        ...,
+        [ 6.8545e-05,  2.2203e-06,  7.5251e-06,  ...,  3.3617e-05,
+         -6.8657e-06,  5.4955e-05],
+        [-2.7657e-04,  2.6807e-05,  4.0419e-06,  ...,  2.4259e-05,
+         -4.9382e-05,  2.9877e-05],
+        [ 8.6962e-08, -7.0572e-05, -2.0623e-05,  ...,  1.4059e-05,
+          1.2487e-05, -1.1039e-04]], device='cuda:0')
+Epoch 49, bias, value: tensor([-0.0263,  0.0141,  0.0127,  0.0280,  0.0217, -0.0195,  0.0242,  0.0264,
+        -0.0074,  0.0106], device='cuda:0'), grad: tensor([-7.5758e-05,  2.7442e-04,  2.9206e-04, -6.9141e-04,  6.9857e-05,
+         5.3215e-04,  2.6196e-05,  2.2709e-04, -5.6505e-04, -8.9467e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 48, time 250.12, cls_loss 0.0063 cls_loss_mapping 0.0172 cls_loss_causal 0.6548 re_mapping 0.0121 re_causal 0.0386 /// teacc 98.92 lr 0.00010000
+Epoch 50, weight, value: tensor([[ 0.0344, -0.0664, -0.0557,  ..., -0.0443, -0.0230, -0.0281],
+        [-0.0132,  0.0451, -0.0271,  ...,  0.0082,  0.0927,  0.0219],
+        [-0.0086, -0.0754, -0.0179,  ...,  0.0644, -0.0546, -0.0068],
+        ...,
+        [-0.0253,  0.0631,  0.0336,  ..., -0.0434,  0.0520,  0.0183],
+        [-0.0183, -0.0384,  0.0101,  ..., -0.0048, -0.0930, -0.0326],
+        [-0.0157,  0.0056, -0.0097,  ..., -0.0741, -0.0592,  0.0225]],
+       device='cuda:0'), grad: tensor([[-1.7726e-04,  1.8170e-06,  0.0000e+00,  ...,  8.5115e-05,
+          3.3695e-06,  3.8028e-05],
+        [-3.1620e-05, -4.2707e-05,  0.0000e+00,  ...,  1.2495e-05,
+         -1.0383e-04, -3.2902e-05],
+        [-2.5854e-05,  5.0887e-06,  0.0000e+00,  ..., -1.5688e-03,
+          9.4101e-06, -6.5899e-04],
+        ...,
+        [ 2.8074e-05,  7.5921e-06,  0.0000e+00,  ...,  3.8475e-05,
+          2.9907e-05,  2.4393e-05],
+        [ 3.0667e-05,  5.1670e-06,  0.0000e+00,  ...,  4.8578e-05,
+          1.1057e-05,  2.6897e-05],
+        [ 2.0415e-05,  5.8748e-06,  0.0000e+00,  ...,  2.2814e-05,
+          1.4268e-05,  7.1563e-06]], device='cuda:0')
+Epoch 50, bias, value: tensor([-0.0263,  0.0138,  0.0124,  0.0282,  0.0221, -0.0197,  0.0242,  0.0268,
+        -0.0074,  0.0104], device='cuda:0'), grad: tensor([-4.0317e-04, -6.8426e-05, -1.7834e-03,  1.4389e-04,  1.1044e-03,
+         1.0557e-05,  7.0953e-04,  1.0186e-04,  1.1367e-04,  7.1287e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 49, time 250.53, cls_loss 0.0066 cls_loss_mapping 0.0189 cls_loss_causal 0.6700 re_mapping 0.0123 re_causal 0.0375 /// teacc 98.89 lr 0.00010000
+Epoch 51, weight, value: tensor([[ 0.0344, -0.0666, -0.0588,  ..., -0.0439, -0.0238, -0.0285],
+        [-0.0130,  0.0453, -0.0273,  ...,  0.0079,  0.0933,  0.0219],
+        [-0.0087, -0.0760, -0.0186,  ...,  0.0649, -0.0552, -0.0066],
+        ...,
+        [-0.0254,  0.0635,  0.0337,  ..., -0.0435,  0.0528,  0.0187],
+        [-0.0179, -0.0386,  0.0104,  ..., -0.0048, -0.0936, -0.0329],
+        [-0.0157,  0.0055, -0.0100,  ..., -0.0751, -0.0599,  0.0224]],
+       device='cuda:0'), grad: tensor([[-9.2149e-05,  2.2009e-05,  1.2577e-05,  ...,  2.1413e-05,
+          2.1756e-05,  3.7134e-05],
+        [-3.3951e-04, -1.9884e-04, -3.0417e-06,  ..., -6.0797e-05,
+         -5.5122e-04, -1.7107e-04],
+        [-2.1255e-04, -1.9169e-04, -2.5892e-04,  ..., -4.9305e-04,
+          1.2064e-04, -4.4799e-04],
+        ...,
+        [ 2.9325e-04,  1.4281e-04,  1.2624e-04,  ...,  2.6703e-04,
+          1.0401e-04,  2.8610e-04],
+        [ 2.7156e-04,  1.5140e-04,  9.3102e-05,  ...,  1.9765e-04,
+          1.3888e-04,  2.6155e-04],
+        [-5.2720e-05, -3.8147e-05, -1.2964e-05,  ...,  9.3058e-06,
+          1.6510e-05, -9.1910e-05]], device='cuda:0')
+Epoch 51, bias, value: tensor([-0.0260,  0.0137,  0.0121,  0.0279,  0.0221, -0.0196,  0.0239,  0.0271,
+        -0.0070,  0.0101], device='cuda:0'), grad: tensor([-2.3711e-04, -8.8596e-04, -7.6008e-04,  6.0380e-05,  8.3923e-05,
+         5.4121e-05,  1.4687e-04,  8.4543e-04,  8.1444e-04, -1.2314e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 50, time 250.35, cls_loss 0.0067 cls_loss_mapping 0.0209 cls_loss_causal 0.6814 re_mapping 0.0115 re_causal 0.0359 /// teacc 98.94 lr 0.00010000
+Epoch 52, weight, value: tensor([[ 0.0347, -0.0669, -0.0623,  ..., -0.0433, -0.0239, -0.0294],
+        [-0.0122,  0.0460, -0.0247,  ...,  0.0076,  0.0944,  0.0221],
+        [-0.0087, -0.0764, -0.0188,  ...,  0.0655, -0.0558, -0.0060],
+        ...,
+        [-0.0264,  0.0635,  0.0293,  ..., -0.0446,  0.0530,  0.0185],
+        [-0.0178, -0.0391,  0.0116,  ..., -0.0050, -0.0946, -0.0338],
+        [-0.0153,  0.0058, -0.0090,  ..., -0.0759, -0.0605,  0.0229]],
+       device='cuda:0'), grad: tensor([[-2.7373e-05, -2.7761e-05,  4.5402e-07,  ...,  4.6045e-05,
+         -2.1517e-05,  3.9071e-05],
+        [ 2.9549e-05, -2.4721e-05, -3.2270e-07,  ...,  3.9458e-04,
+         -7.7903e-05,  2.4652e-04],
+        [-1.2052e-04,  6.4410e-06, -3.0175e-07,  ..., -1.3256e-03,
+         -4.5188e-06, -9.5510e-04],
+        ...,
+        [ 4.9800e-05,  1.2435e-05,  3.1805e-07,  ...,  3.9428e-05,
+          3.9995e-05,  4.8578e-05],
+        [ 6.8843e-05,  7.6592e-06,  7.2503e-07,  ...,  7.8857e-05,
+          2.1413e-05,  7.1645e-05],
+        [ 4.1485e-05,  7.7561e-06,  2.7847e-07,  ...,  4.0680e-05,
+          1.4536e-05,  1.0133e-04]], device='cuda:0')
+Epoch 52, bias, value: tensor([-0.0259,  0.0141,  0.0121,  0.0278,  0.0219, -0.0193,  0.0245,  0.0263,
+        -0.0074,  0.0106], device='cuda:0'), grad: tensor([-2.7150e-05,  5.6696e-04, -1.8187e-03, -8.1539e-04, -6.9916e-05,
+         5.3215e-04,  9.4986e-04,  1.6403e-04,  2.3937e-04,  2.7966e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 51, time 250.12, cls_loss 0.0059 cls_loss_mapping 0.0170 cls_loss_causal 0.6565 re_mapping 0.0115 re_causal 0.0357 /// teacc 98.82 lr 0.00010000
+Epoch 53, weight, value: tensor([[ 0.0349, -0.0673, -0.0647,  ..., -0.0434, -0.0240, -0.0303],
+        [-0.0120,  0.0466, -0.0248,  ...,  0.0069,  0.0955,  0.0225],
+        [-0.0089, -0.0768, -0.0187,  ...,  0.0663, -0.0563, -0.0054],
+        ...,
+        [-0.0266,  0.0639,  0.0292,  ..., -0.0451,  0.0529,  0.0187],
+        [-0.0174, -0.0392,  0.0119,  ..., -0.0053, -0.0946, -0.0342],
+        [-0.0154,  0.0056, -0.0092,  ..., -0.0768, -0.0612,  0.0226]],
+       device='cuda:0'), grad: tensor([[-1.4082e-05,  1.3620e-05,  0.0000e+00,  ...,  7.3537e-06,
+          1.1064e-05,  1.5616e-05],
+        [-3.5197e-05,  3.8594e-05,  0.0000e+00,  ..., -1.7747e-05,
+         -8.9049e-05, -1.7313e-06],
+        [ 7.9989e-05,  2.8595e-05,  0.0000e+00,  ..., -2.2411e-04,
+          2.9728e-05, -1.8191e-04],
+        ...,
+        [-1.2264e-05, -3.7336e-04,  0.0000e+00,  ...,  2.4915e-04,
+         -2.4223e-04, -1.3304e-04],
+        [ 6.3360e-05,  5.8472e-05,  0.0000e+00,  ...,  1.9997e-05,
+          3.7462e-05,  7.1466e-05],
+        [-2.2209e-04, -8.5354e-05,  0.0000e+00,  ..., -2.2084e-05,
+          1.8597e-04, -1.4913e-04]], device='cuda:0')
+Epoch 53, bias, value: tensor([-0.0258,  0.0141,  0.0121,  0.0281,  0.0219, -0.0195,  0.0248,  0.0262,
+        -0.0072,  0.0101], device='cuda:0'), grad: tensor([-8.2329e-06, -5.6863e-05, -8.4460e-05, -2.6584e-04,  1.0195e-03,
+         1.1593e-04,  6.3002e-05, -7.3254e-05,  2.5725e-04, -9.6607e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 52, time 249.97, cls_loss 0.0058 cls_loss_mapping 0.0189 cls_loss_causal 0.6409 re_mapping 0.0116 re_causal 0.0356 /// teacc 98.74 lr 0.00010000
+Epoch 54, weight, value: tensor([[ 0.0351, -0.0677, -0.0662,  ..., -0.0440, -0.0247, -0.0308],
+        [-0.0118,  0.0461, -0.0242,  ...,  0.0069,  0.0956,  0.0222],
+        [-0.0088, -0.0773, -0.0189,  ...,  0.0669, -0.0566, -0.0049],
+        ...,
+        [-0.0268,  0.0645,  0.0291,  ..., -0.0454,  0.0540,  0.0191],
+        [-0.0174, -0.0392,  0.0117,  ..., -0.0057, -0.0949, -0.0348],
+        [-0.0152,  0.0056, -0.0079,  ..., -0.0774, -0.0619,  0.0227]],
+       device='cuda:0'), grad: tensor([[-3.0249e-06,  1.9986e-06,  0.0000e+00,  ...,  1.7822e-05,
+          3.4701e-06,  4.5821e-06],
+        [-1.7062e-05, -6.9588e-06,  0.0000e+00,  ...,  9.4026e-06,
+         -3.7521e-05, -1.1418e-06],
+        [ 3.7663e-06,  1.3910e-05,  0.0000e+00,  ..., -5.1670e-06,
+          1.8552e-05,  2.9095e-06],
+        ...,
+        [-1.5974e-05, -9.5546e-05,  0.0000e+00,  ..., -1.4775e-05,
+         -9.5785e-05, -7.5817e-05],
+        [ 1.5482e-05,  2.8536e-05,  0.0000e+00,  ...,  4.0531e-05,
+          3.5942e-05,  2.9147e-05],
+        [ 8.4564e-06,  9.5814e-06,  0.0000e+00,  ...,  4.4793e-05,
+          1.6928e-05,  5.1558e-05]], device='cuda:0')
+Epoch 54, bias, value: tensor([-0.0257,  0.0140,  0.0122,  0.0284,  0.0219, -0.0195,  0.0243,  0.0265,
+        -0.0074,  0.0100], device='cuda:0'), grad: tensor([-1.0207e-05, -1.8105e-06,  3.8654e-05, -8.0943e-05, -3.6925e-05,
+         5.5224e-05, -5.2840e-05, -1.4329e-04,  1.2118e-04,  1.1134e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 53, time 250.13, cls_loss 0.0056 cls_loss_mapping 0.0170 cls_loss_causal 0.6705 re_mapping 0.0112 re_causal 0.0342 /// teacc 98.94 lr 0.00010000
+Epoch 55, weight, value: tensor([[ 0.0351, -0.0679, -0.0668,  ..., -0.0444, -0.0250, -0.0314],
+        [-0.0116,  0.0461, -0.0242,  ...,  0.0068,  0.0964,  0.0223],
+        [-0.0088, -0.0777, -0.0188,  ...,  0.0675, -0.0574, -0.0046],
+        ...,
+        [-0.0271,  0.0648,  0.0290,  ..., -0.0459,  0.0543,  0.0193],
+        [-0.0172, -0.0393,  0.0116,  ..., -0.0061, -0.0953, -0.0351],
+        [-0.0152,  0.0058, -0.0079,  ..., -0.0784, -0.0623,  0.0229]],
+       device='cuda:0'), grad: tensor([[ 1.3374e-05,  1.7891e-06,  7.2701e-08,  ...,  1.0890e-04,
+          5.7481e-06,  1.0744e-05],
+        [ 4.6909e-05, -8.2850e-06,  9.9360e-08,  ...,  6.3002e-05,
+         -2.8789e-05,  2.7105e-05],
+        [ 8.1360e-05,  5.6066e-06,  2.0070e-07,  ..., -2.7275e-04,
+          4.8935e-05, -1.5974e-04],
+        ...,
+        [ 6.2168e-05, -9.6485e-06,  2.0038e-08,  ...,  7.8231e-06,
+          1.7092e-05, -3.6526e-06],
+        [ 6.8307e-05,  2.0675e-06, -1.5302e-06,  ...,  1.9360e-04,
+          1.2100e-05,  1.1986e-04],
+        [ 9.2804e-05, -4.1276e-06,  2.1700e-07,  ...,  3.2187e-05,
+          4.9174e-06,  5.6485e-07]], device='cuda:0')
+Epoch 55, bias, value: tensor([-0.0259,  0.0142,  0.0123,  0.0281,  0.0217, -0.0192,  0.0246,  0.0262,
+        -0.0076,  0.0103], device='cuda:0'), grad: tensor([ 3.6740e-04,  2.1613e-04, -1.1897e-04, -9.0332e-03,  1.9521e-06,
+         7.4120e-03,  2.4176e-04,  1.3661e-04,  4.2582e-04,  3.5262e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 54, time 250.31, cls_loss 0.0060 cls_loss_mapping 0.0182 cls_loss_causal 0.6359 re_mapping 0.0112 re_causal 0.0346 /// teacc 98.92 lr 0.00010000
+Epoch 56, weight, value: tensor([[ 0.0350, -0.0685, -0.0678,  ..., -0.0450, -0.0258, -0.0319],
+        [-0.0109,  0.0463, -0.0242,  ...,  0.0056,  0.0975,  0.0226],
+        [-0.0088, -0.0781, -0.0185,  ...,  0.0687, -0.0583, -0.0042],
+        ...,
+        [-0.0276,  0.0650,  0.0294,  ..., -0.0463,  0.0545,  0.0191],
+        [-0.0168, -0.0392,  0.0118,  ..., -0.0065, -0.0953, -0.0358],
+        [-0.0153,  0.0059, -0.0081,  ..., -0.0792, -0.0628,  0.0230]],
+       device='cuda:0'), grad: tensor([[ 2.9311e-05,  4.3027e-06,  3.0035e-07,  ...,  3.3975e-05,
+          7.3314e-06,  2.4870e-05],
+        [-4.2796e-05, -4.6223e-05,  1.4361e-06,  ...,  3.7581e-05,
+         -1.0759e-04, -6.4336e-06],
+        [-1.0926e-04,  9.8050e-06, -3.2894e-06,  ..., -2.9731e-04,
+         -4.0948e-05, -2.8324e-04],
+        ...,
+        [ 4.3154e-05, -9.0152e-06,  4.7660e-07,  ...,  1.3745e-04,
+          5.8711e-05,  1.6105e-04],
+        [ 8.4996e-05,  1.6540e-05,  1.3579e-06,  ...,  4.8727e-05,
+          2.6807e-05,  5.2631e-05],
+        [ 1.6749e-05, -1.5721e-05, -2.6561e-06,  ...,  5.4762e-06,
+          1.3955e-05, -5.2184e-05]], device='cuda:0')
+Epoch 56, bias, value: tensor([-0.0262,  0.0141,  0.0127,  0.0279,  0.0222, -0.0189,  0.0243,  0.0259,
+        -0.0074,  0.0102], device='cuda:0'), grad: tensor([ 7.9751e-05, -5.6356e-05, -5.0163e-04,  5.4091e-05,  9.0897e-05,
+        -1.5974e-04,  8.4877e-05,  2.7204e-04,  2.0075e-04, -6.4909e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 55, time 250.39, cls_loss 0.0044 cls_loss_mapping 0.0142 cls_loss_causal 0.6370 re_mapping 0.0112 re_causal 0.0343 /// teacc 98.81 lr 0.00010000
+Epoch 57, weight, value: tensor([[ 0.0351, -0.0689, -0.0702,  ..., -0.0454, -0.0264, -0.0324],
+        [-0.0104,  0.0463, -0.0238,  ...,  0.0055,  0.0983,  0.0225],
+        [-0.0089, -0.0788, -0.0186,  ...,  0.0693, -0.0594, -0.0040],
+        ...,
+        [-0.0275,  0.0657,  0.0300,  ..., -0.0467,  0.0553,  0.0197],
+        [-0.0166, -0.0395,  0.0114,  ..., -0.0068, -0.0964, -0.0363],
+        [-0.0153,  0.0058, -0.0091,  ..., -0.0798, -0.0636,  0.0228]],
+       device='cuda:0'), grad: tensor([[ 2.6040e-06,  6.1169e-06,  0.0000e+00,  ...,  4.1127e-06,
+          9.2909e-06,  1.3962e-05],
+        [ 1.4037e-05, -1.3247e-05,  0.0000e+00,  ...,  1.2182e-05,
+         -9.2626e-05,  2.3901e-05],
+        [ 6.0171e-05,  1.6972e-05,  0.0000e+00,  ...,  3.8370e-07,
+          3.6389e-05,  3.3379e-05],
+        ...,
+        [ 2.5421e-05, -5.9962e-05,  0.0000e+00,  ...,  2.5406e-06,
+         -5.2303e-05, -5.3346e-05],
+        [-1.6916e-04,  8.8587e-06,  0.0000e+00,  ..., -1.8209e-05,
+          1.6734e-05, -5.6297e-05],
+        [-1.3602e-04,  7.2352e-08,  0.0000e+00,  ...,  2.8964e-06,
+          1.9729e-05, -6.7997e-04]], device='cuda:0')
+Epoch 57, bias, value: tensor([-0.0263,  0.0143,  0.0126,  0.0276,  0.0226, -0.0190,  0.0240,  0.0263,
+        -0.0072,  0.0098], device='cuda:0'), grad: tensor([ 1.7643e-05,  1.1116e-04,  2.0015e-04,  2.0039e-04,  1.2836e-03,
+        -1.6701e-04,  1.3745e-04, -1.0006e-05, -5.1594e-04, -1.2589e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 56, time 250.09, cls_loss 0.0054 cls_loss_mapping 0.0170 cls_loss_causal 0.6696 re_mapping 0.0113 re_causal 0.0347 /// teacc 98.94 lr 0.00010000
+Epoch 58, weight, value: tensor([[ 0.0349, -0.0692, -0.0716,  ..., -0.0458, -0.0269, -0.0332],
+        [-0.0104,  0.0461, -0.0241,  ...,  0.0052,  0.0986,  0.0222],
+        [-0.0088, -0.0792, -0.0184,  ...,  0.0700, -0.0599, -0.0033],
+        ...,
+        [-0.0276,  0.0664,  0.0306,  ..., -0.0473,  0.0562,  0.0201],
+        [-0.0166, -0.0399,  0.0114,  ..., -0.0072, -0.0972, -0.0370],
+        [-0.0151,  0.0059, -0.0094,  ..., -0.0811, -0.0642,  0.0227]],
+       device='cuda:0'), grad: tensor([[ 3.7342e-05,  1.4372e-05,  2.6819e-08,  ...,  4.0054e-05,
+          1.5348e-05,  5.3160e-06],
+        [ 3.2097e-05,  4.3660e-06, -8.7358e-07,  ...,  1.0170e-05,
+         -1.7464e-05, -4.5188e-06],
+        [ 3.8683e-05,  1.8954e-05,  1.1380e-07,  ..., -1.3728e-06,
+          2.3514e-05, -1.0114e-06],
+        ...,
+        [ 1.3435e-04,  1.0498e-05,  3.3318e-07,  ...,  7.2978e-06,
+          1.8850e-05, -5.1409e-06],
+        [ 1.4830e-04,  5.5909e-05,  1.6182e-07,  ...,  1.3161e-04,
+          5.3853e-05,  5.2750e-05],
+        [ 3.5018e-05,  2.4796e-05,  6.1875e-08,  ...,  5.1875e-07,
+          5.3406e-05, -1.5819e-04]], device='cuda:0')
+Epoch 58, bias, value: tensor([-0.0266,  0.0141,  0.0130,  0.0270,  0.0229, -0.0184,  0.0239,  0.0265,
+        -0.0076,  0.0099], device='cuda:0'), grad: tensor([ 1.7238e-04,  9.3997e-05,  1.0616e-04, -1.5888e-03,  2.0194e-04,
+         4.8375e-04, -3.0279e-04,  3.0565e-04,  5.8413e-04, -5.6207e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 57, time 249.57, cls_loss 0.0062 cls_loss_mapping 0.0161 cls_loss_causal 0.6155 re_mapping 0.0109 re_causal 0.0328 /// teacc 98.87 lr 0.00010000
+Epoch 59, weight, value: tensor([[ 0.0351, -0.0697, -0.0756,  ..., -0.0462, -0.0276, -0.0342],
+        [-0.0103,  0.0460, -0.0245,  ...,  0.0049,  0.0991,  0.0221],
+        [-0.0090, -0.0798, -0.0183,  ...,  0.0707, -0.0607, -0.0030],
+        ...,
+        [-0.0279,  0.0670,  0.0306,  ..., -0.0478,  0.0566,  0.0200],
+        [-0.0164, -0.0402,  0.0127,  ..., -0.0074, -0.0985, -0.0377],
+        [-0.0148,  0.0060, -0.0088,  ..., -0.0819, -0.0635,  0.0231]],
+       device='cuda:0'), grad: tensor([[-2.7680e-04,  5.4128e-06,  0.0000e+00,  ...,  1.4579e-04,
+          6.3851e-06, -9.3132e-06],
+        [ 2.4080e-05,  2.0444e-04,  0.0000e+00,  ...,  1.8358e-05,
+          1.2201e-04,  1.9562e-04],
+        [-3.2168e-06,  5.6297e-05,  0.0000e+00,  ..., -1.4198e-04,
+          4.8488e-05, -6.8247e-05],
+        ...,
+        [-7.7710e-06, -4.5276e-04,  0.0000e+00,  ...,  3.4451e-05,
+         -3.7694e-04, -4.1485e-04],
+        [ 4.6268e-06,  2.7448e-05,  0.0000e+00,  ...,  5.3138e-05,
+          2.4453e-05,  5.8889e-05],
+        [ 9.1672e-05,  5.0440e-06,  0.0000e+00,  ...,  9.2536e-06,
+          2.1890e-05,  1.6779e-05]], device='cuda:0')
+Epoch 59, bias, value: tensor([-0.0266,  0.0137,  0.0129,  0.0277,  0.0230, -0.0185,  0.0241,  0.0259,
+        -0.0077,  0.0101], device='cuda:0'), grad: tensor([-9.4461e-04,  3.6407e-04,  5.4449e-05,  2.1422e-04,  2.4533e-04,
+         2.0659e-04, -8.9943e-05, -5.9891e-04,  1.4675e-04,  4.0197e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 58, time 249.17, cls_loss 0.0047 cls_loss_mapping 0.0157 cls_loss_causal 0.6201 re_mapping 0.0102 re_causal 0.0322 /// teacc 98.96 lr 0.00010000
+Epoch 60, weight, value: tensor([[ 0.0353, -0.0700, -0.0768,  ..., -0.0470, -0.0282, -0.0347],
+        [-0.0102,  0.0462, -0.0245,  ...,  0.0044,  0.0996,  0.0221],
+        [-0.0089, -0.0801, -0.0184,  ...,  0.0715, -0.0608, -0.0024],
+        ...,
+        [-0.0281,  0.0675,  0.0308,  ..., -0.0483,  0.0571,  0.0203],
+        [-0.0161, -0.0401,  0.0128,  ..., -0.0077, -0.0986, -0.0383],
+        [-0.0148,  0.0057, -0.0090,  ..., -0.0824, -0.0643,  0.0234]],
+       device='cuda:0'), grad: tensor([[-3.5703e-05,  5.2527e-06,  0.0000e+00,  ...,  8.0606e-07,
+          4.2692e-06,  6.6981e-06],
+        [-2.7139e-06,  6.3218e-06,  0.0000e+00,  ...,  6.3404e-06,
+         -1.8552e-05,  5.3681e-06],
+        [-6.6385e-06,  1.8299e-05,  0.0000e+00,  ..., -8.7976e-05,
+          5.7556e-06, -6.1035e-05],
+        ...,
+        [ 1.7658e-05, -1.0377e-04,  0.0000e+00,  ...,  8.6665e-05,
+         -5.7906e-05, -2.3037e-05],
+        [-3.8058e-05,  7.9796e-06,  0.0000e+00,  ...,  1.1630e-05,
+          9.3207e-06,  8.0690e-06],
+        [ 1.5423e-05,  2.3827e-05,  0.0000e+00,  ...,  2.9244e-06,
+          1.9073e-05,  1.9163e-05]], device='cuda:0')
+Epoch 60, bias, value: tensor([-0.0266,  0.0136,  0.0132,  0.0276,  0.0224, -0.0185,  0.0245,  0.0260,
+        -0.0077,  0.0102], device='cuda:0'), grad: tensor([-2.4867e-04,  3.4124e-05, -6.0946e-06,  2.7001e-05,  8.1360e-05,
+         7.8499e-05,  1.0943e-04, -6.9261e-05, -8.1837e-05,  7.5281e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 59, time 249.10, cls_loss 0.0056 cls_loss_mapping 0.0164 cls_loss_causal 0.6528 re_mapping 0.0105 re_causal 0.0323 /// teacc 98.99 lr 0.00010000
+Epoch 61, weight, value: tensor([[ 0.0353, -0.0703, -0.0774,  ..., -0.0477, -0.0289, -0.0354],
+        [-0.0098,  0.0461, -0.0247,  ...,  0.0046,  0.0999,  0.0221],
+        [-0.0093, -0.0808, -0.0183,  ...,  0.0719, -0.0616, -0.0022],
+        ...,
+        [-0.0279,  0.0683,  0.0311,  ..., -0.0485,  0.0579,  0.0208],
+        [-0.0156, -0.0403,  0.0129,  ..., -0.0084, -0.0982, -0.0391],
+        [-0.0146,  0.0055, -0.0082,  ..., -0.0826, -0.0649,  0.0237]],
+       device='cuda:0'), grad: tensor([[-1.0751e-05,  1.2323e-05,  8.0763e-10,  ...,  6.2704e-05,
+          5.2489e-06,  1.2827e-04],
+        [-3.6985e-05, -6.3717e-05,  4.8967e-09,  ...,  3.5316e-05,
+         -1.1188e-04,  3.4660e-05],
+        [-6.8307e-05,  8.8736e-06,  7.0213e-09,  ..., -3.1662e-04,
+          7.5735e-06, -5.4169e-04],
+        ...,
+        [ 7.2837e-05,  2.7013e-04, -3.1810e-08,  ...,  9.7811e-05,
+          5.2333e-05,  7.4053e-04],
+        [ 1.0796e-05,  2.4229e-05,  7.7125e-10,  ...,  2.0787e-05,
+          2.6375e-05,  5.0783e-05],
+        [-3.8862e-05, -4.2415e-04,  1.9209e-09,  ...,  3.7253e-05,
+         -2.0564e-05, -8.8453e-04]], device='cuda:0')
+Epoch 61, bias, value: tensor([-0.0270,  0.0136,  0.0127,  0.0278,  0.0222, -0.0190,  0.0243,  0.0262,
+        -0.0070,  0.0104], device='cuda:0'), grad: tensor([ 1.1456e-04,  5.3309e-06, -8.8882e-04,  1.3995e-04,  5.5218e-04,
+         7.2837e-05,  5.1647e-05,  1.2665e-03,  1.0663e-04, -1.4210e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 60, time 249.04, cls_loss 0.0048 cls_loss_mapping 0.0152 cls_loss_causal 0.6577 re_mapping 0.0103 re_causal 0.0321 /// teacc 98.94 lr 0.00010000
+Epoch 62, weight, value: tensor([[ 0.0354, -0.0705, -0.0793,  ..., -0.0481, -0.0293, -0.0360],
+        [-0.0096,  0.0460, -0.0247,  ...,  0.0044,  0.1003,  0.0220],
+        [-0.0093, -0.0814, -0.0183,  ...,  0.0724, -0.0622, -0.0019],
+        ...,
+        [-0.0282,  0.0688,  0.0311,  ..., -0.0488,  0.0587,  0.0211],
+        [-0.0153, -0.0399,  0.0130,  ..., -0.0089, -0.0985, -0.0393],
+        [-0.0148,  0.0053, -0.0071,  ..., -0.0833, -0.0653,  0.0240]],
+       device='cuda:0'), grad: tensor([[ 1.2808e-05,  7.0259e-06,  2.9299e-06,  ...,  1.1824e-05,
+          2.3052e-05,  1.0192e-05],
+        [-3.7956e-04, -1.2326e-04, -9.0301e-05,  ..., -1.1635e-04,
+         -6.6185e-04, -1.5521e-04],
+        [ 2.2995e-04,  7.1347e-05,  3.9488e-05,  ...,  8.1062e-05,
+          3.1114e-04,  8.8513e-05],
+        ...,
+        [ 5.7161e-05, -8.1897e-05,  1.3456e-05,  ...,  1.9372e-05,
+          1.0602e-05, -4.8906e-05],
+        [-5.0932e-05,  3.0786e-05,  9.4771e-06,  ...,  1.5855e-05,
+          1.2469e-04,  3.8892e-05],
+        [ 3.2455e-05,  4.8727e-05,  7.8902e-06,  ...,  8.2515e-07,
+          6.7770e-05, -1.7717e-05]], device='cuda:0')
+Epoch 62, bias, value: tensor([-0.0271,  0.0134,  0.0128,  0.0280,  0.0218, -0.0191,  0.0245,  0.0263,
+        -0.0068,  0.0104], device='cuda:0'), grad: tensor([ 3.9011e-05, -8.9121e-04,  6.0558e-04,  1.3053e-04,  2.0206e-04,
+        -1.5900e-05, -1.1139e-05,  3.8952e-05, -1.0478e-04,  6.0685e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 61, time 249.35, cls_loss 0.0048 cls_loss_mapping 0.0131 cls_loss_causal 0.6545 re_mapping 0.0104 re_causal 0.0328 /// teacc 98.93 lr 0.00010000
+Epoch 63, weight, value: tensor([[ 0.0354, -0.0707, -0.0803,  ..., -0.0486, -0.0296, -0.0365],
+        [-0.0092,  0.0461, -0.0246,  ...,  0.0043,  0.1008,  0.0222],
+        [-0.0092, -0.0818, -0.0179,  ...,  0.0730, -0.0628, -0.0016],
+        ...,
+        [-0.0285,  0.0694,  0.0316,  ..., -0.0494,  0.0594,  0.0214],
+        [-0.0152, -0.0402,  0.0128,  ..., -0.0095, -0.0990, -0.0399],
+        [-0.0145,  0.0051, -0.0071,  ..., -0.0831, -0.0658,  0.0233]],
+       device='cuda:0'), grad: tensor([[ 3.3267e-06,  7.3016e-06,  6.6240e-08,  ...,  9.4473e-06,
+          1.4842e-05,  1.7270e-05],
+        [-3.0160e-04,  3.8370e-06, -8.4564e-07,  ..., -2.2972e-04,
+         -3.3808e-04, -9.5785e-05],
+        [ 2.2197e-04,  6.4552e-05,  6.3470e-07,  ...,  2.0695e-04,
+          3.4451e-04,  1.7583e-04],
+        ...,
+        [ 2.2084e-05, -1.1259e-04,  9.4587e-08,  ..., -7.6115e-05,
+         -1.8728e-04, -1.3423e-04],
+        [ 2.2590e-05,  1.2696e-05, -1.2005e-06,  ...,  2.5779e-05,
+          4.3899e-05,  3.2753e-05],
+        [-3.9756e-05, -4.3452e-05,  7.1304e-08,  ...,  1.7613e-05,
+         -2.5585e-05, -1.2505e-04]], device='cuda:0')
+Epoch 63, bias, value: tensor([-0.0274,  0.0136,  0.0128,  0.0278,  0.0230, -0.0193,  0.0244,  0.0264,
+        -0.0069,  0.0099], device='cuda:0'), grad: tensor([ 3.5822e-05, -7.8154e-04,  7.7009e-04,  6.6519e-05,  1.6713e-04,
+         3.3617e-05,  1.0866e-04, -2.1148e-04,  1.0222e-04, -2.9063e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 62, time 248.87, cls_loss 0.0056 cls_loss_mapping 0.0147 cls_loss_causal 0.6053 re_mapping 0.0096 re_causal 0.0306 /// teacc 98.94 lr 0.00010000
+Epoch 64, weight, value: tensor([[ 0.0354, -0.0709, -0.0807,  ..., -0.0490, -0.0301, -0.0369],
+        [-0.0089,  0.0460, -0.0245,  ...,  0.0040,  0.1014,  0.0222],
+        [-0.0094, -0.0826, -0.0178,  ...,  0.0736, -0.0636, -0.0015],
+        ...,
+        [-0.0286,  0.0702,  0.0318,  ..., -0.0495,  0.0602,  0.0218],
+        [-0.0152, -0.0404,  0.0127,  ..., -0.0098, -0.0997, -0.0403],
+        [-0.0146,  0.0050, -0.0073,  ..., -0.0835, -0.0666,  0.0234]],
+       device='cuda:0'), grad: tensor([[ 1.3605e-05,  5.5023e-06,  6.0769e-08,  ...,  8.3968e-06,
+          7.2308e-06,  8.4937e-06],
+        [-8.3074e-06, -1.3195e-05, -1.1744e-06,  ...,  4.1798e-06,
+         -5.0902e-05, -7.0035e-06],
+        [ 2.3529e-05, -2.0754e-04,  4.0932e-07,  ..., -2.2101e-04,
+         -2.5415e-04, -3.4547e-04],
+        ...,
+        [ 2.3946e-05,  1.6367e-04,  4.0140e-07,  ...,  2.1219e-04,
+          2.2507e-04,  2.8610e-04],
+        [ 8.6725e-05,  6.1505e-06,  1.7101e-07,  ...,  3.7607e-06,
+          9.7156e-06,  1.1250e-05],
+        [ 3.7961e-06,  1.8150e-05, -3.4226e-07,  ...,  3.8855e-06,
+          2.5988e-05,  5.9791e-06]], device='cuda:0')
+Epoch 64, bias, value: tensor([-0.0274,  0.0136,  0.0126,  0.0282,  0.0228, -0.0195,  0.0245,  0.0268,
+        -0.0071,  0.0096], device='cuda:0'), grad: tensor([ 6.1154e-05,  2.1771e-05, -5.3453e-04, -2.5198e-05,  5.3495e-05,
+        -5.1785e-04,  3.1054e-05,  5.8889e-04,  3.0255e-04,  1.8507e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 63, time 248.83, cls_loss 0.0048 cls_loss_mapping 0.0159 cls_loss_causal 0.6186 re_mapping 0.0099 re_causal 0.0311 /// teacc 99.00 lr 0.00010000
+Epoch 65, weight, value: tensor([[ 0.0352, -0.0710, -0.0814,  ..., -0.0497, -0.0304, -0.0392],
+        [-0.0089,  0.0460, -0.0245,  ...,  0.0037,  0.1017,  0.0219],
+        [-0.0095, -0.0830, -0.0177,  ...,  0.0741, -0.0643, -0.0014],
+        ...,
+        [-0.0288,  0.0707,  0.0320,  ..., -0.0499,  0.0608,  0.0222],
+        [-0.0152, -0.0406,  0.0127,  ..., -0.0101, -0.1000, -0.0407],
+        [-0.0141,  0.0049, -0.0074,  ..., -0.0842, -0.0666,  0.0241]],
+       device='cuda:0'), grad: tensor([[-5.1165e-04,  1.5981e-06,  2.6630e-09,  ..., -1.5378e-04,
+          1.3011e-06, -1.5005e-05],
+        [ 7.0520e-06,  2.6528e-08, -9.9826e-08,  ...,  3.3438e-05,
+         -2.3052e-05,  2.5272e-05],
+        [ 6.3300e-05,  8.7172e-06,  3.3499e-08,  ..., -9.9540e-05,
+          1.0341e-05, -9.3162e-05],
+        ...,
+        [ 3.8177e-05, -2.4855e-05,  2.3749e-08,  ...,  5.5462e-05,
+         -2.9281e-05,  4.9740e-05],
+        [-1.0937e-05,  4.1462e-06,  1.4508e-08,  ...,  1.4484e-05,
+          4.5151e-06,  1.8179e-05],
+        [ 2.8038e-04,  2.3991e-05,  5.5516e-09,  ...,  9.1136e-05,
+          1.9565e-05,  6.0886e-05]], device='cuda:0')
+Epoch 65, bias, value: tensor([-0.0283,  0.0133,  0.0124,  0.0280,  0.0227, -0.0192,  0.0249,  0.0268,
+        -0.0074,  0.0106], device='cuda:0'), grad: tensor([-1.9913e-03,  1.1063e-04,  4.3839e-05,  8.8573e-05, -2.2483e-04,
+         1.6475e-04,  4.1533e-04,  2.4772e-04,  2.4512e-05,  1.1215e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 64, time 248.98, cls_loss 0.0035 cls_loss_mapping 0.0124 cls_loss_causal 0.5869 re_mapping 0.0101 re_causal 0.0305 /// teacc 99.02 lr 0.00010000
+Epoch 66, weight, value: tensor([[ 0.0356, -0.0718, -0.0821,  ..., -0.0498, -0.0323, -0.0395],
+        [-0.0085,  0.0460, -0.0245,  ...,  0.0034,  0.1022,  0.0218],
+        [-0.0096, -0.0835, -0.0177,  ...,  0.0746, -0.0646, -0.0009],
+        ...,
+        [-0.0289,  0.0713,  0.0318,  ..., -0.0505,  0.0614,  0.0223],
+        [-0.0150, -0.0407,  0.0133,  ..., -0.0103, -0.1005, -0.0413],
+        [-0.0142,  0.0049, -0.0073,  ..., -0.0850, -0.0668,  0.0245]],
+       device='cuda:0'), grad: tensor([[-5.8442e-05,  2.1793e-06,  7.0198e-08,  ..., -1.5765e-05,
+          1.8561e-06,  6.1467e-06],
+        [-1.1019e-05, -1.6898e-05,  1.0961e-07,  ...,  3.9376e-06,
+         -3.5942e-05, -1.0148e-05],
+        [ 3.0339e-05,  1.5840e-05,  6.5949e-08,  ..., -2.3488e-06,
+          1.5393e-05,  9.7156e-06],
+        ...,
+        [ 1.8373e-05, -2.4095e-05,  5.5559e-08,  ...,  5.0403e-06,
+         -1.6838e-05, -5.9940e-06],
+        [ 7.8082e-06,  6.8881e-06,  6.9290e-07,  ...,  8.3372e-06,
+          8.8066e-06,  1.2822e-05],
+        [-2.6509e-05, -4.4629e-06,  2.0012e-07,  ...,  6.1058e-06,
+          7.5214e-06, -5.5611e-05]], device='cuda:0')
+Epoch 66, bias, value: tensor([-0.0281,  0.0134,  0.0122,  0.0279,  0.0225, -0.0191,  0.0250,  0.0268,
+        -0.0073,  0.0107], device='cuda:0'), grad: tensor([-4.4274e-04, -9.3207e-06,  1.4162e-04,  6.5267e-05,  6.4611e-05,
+         2.4274e-05,  9.7275e-05,  2.5615e-05,  1.0586e-04, -7.2241e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 65, time 249.16, cls_loss 0.0046 cls_loss_mapping 0.0158 cls_loss_causal 0.6459 re_mapping 0.0092 re_causal 0.0291 /// teacc 98.96 lr 0.00010000
+Epoch 67, weight, value: tensor([[ 0.0359, -0.0723, -0.0837,  ..., -0.0501, -0.0329, -0.0399],
+        [-0.0079,  0.0463, -0.0245,  ...,  0.0033,  0.1031,  0.0221],
+        [-0.0097, -0.0842, -0.0169,  ...,  0.0756, -0.0653, -0.0005],
+        ...,
+        [-0.0292,  0.0719,  0.0318,  ..., -0.0516,  0.0619,  0.0224],
+        [-0.0150, -0.0407,  0.0119,  ..., -0.0110, -0.1012, -0.0417],
+        [-0.0142,  0.0045, -0.0062,  ..., -0.0863, -0.0677,  0.0243]],
+       device='cuda:0'), grad: tensor([[-9.6500e-05,  1.9167e-06,  0.0000e+00,  ..., -3.1561e-05,
+          2.5053e-06,  3.8259e-06],
+        [-4.8161e-05, -2.8789e-05,  0.0000e+00,  ..., -1.3940e-05,
+         -1.3196e-04, -4.5061e-05],
+        [ 3.8803e-05,  6.1393e-06,  0.0000e+00,  ...,  6.5491e-06,
+          1.6540e-05,  2.0973e-06],
+        ...,
+        [ 8.4788e-06, -2.3797e-05,  0.0000e+00,  ...,  5.7481e-06,
+         -1.6421e-05, -4.8764e-06],
+        [ 5.9009e-05,  6.3404e-06,  0.0000e+00,  ...,  2.8625e-05,
+          5.0038e-05,  2.3067e-05],
+        [-5.6475e-06,  1.2644e-05,  0.0000e+00,  ...,  5.2042e-06,
+          2.2665e-05, -8.6948e-06]], device='cuda:0')
+Epoch 67, bias, value: tensor([-0.0279,  0.0138,  0.0125,  0.0280,  0.0228, -0.0190,  0.0245,  0.0264,
+        -0.0074,  0.0103], device='cuda:0'), grad: tensor([-4.4465e-04, -1.3530e-04,  1.7023e-04,  5.0873e-05,  4.9472e-05,
+         2.4959e-05,  3.0294e-05,  1.5438e-05,  2.4939e-04, -1.0990e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 66, time 249.08, cls_loss 0.0039 cls_loss_mapping 0.0129 cls_loss_causal 0.6127 re_mapping 0.0097 re_causal 0.0300 /// teacc 98.92 lr 0.00010000
+Epoch 68, weight, value: tensor([[ 0.0363, -0.0726, -0.0840,  ..., -0.0500, -0.0333, -0.0403],
+        [-0.0075,  0.0472, -0.0239,  ...,  0.0029,  0.1041,  0.0222],
+        [-0.0099, -0.0848, -0.0170,  ...,  0.0763, -0.0658,  0.0001],
+        ...,
+        [-0.0293,  0.0722,  0.0309,  ..., -0.0522,  0.0622,  0.0229],
+        [-0.0150, -0.0409,  0.0119,  ..., -0.0114, -0.1016, -0.0423],
+        [-0.0145,  0.0040, -0.0061,  ..., -0.0874, -0.0688,  0.0238]],
+       device='cuda:0'), grad: tensor([[-7.1339e-07,  3.6545e-06,  7.2690e-07,  ...,  2.6654e-06,
+          3.4329e-06,  5.9828e-06],
+        [ 3.3993e-06,  5.6215e-06,  1.3588e-06,  ...,  2.9802e-06,
+          3.2187e-06,  7.2643e-06],
+        [ 1.9327e-05,  1.4961e-05,  6.4895e-06,  ..., -2.7604e-06,
+          1.6928e-05,  1.1347e-05],
+        ...,
+        [-1.2256e-06, -4.8399e-05,  1.4831e-07,  ...,  1.1683e-05,
+         -6.7055e-05, -8.1509e-06],
+        [-3.7951e-07,  1.4536e-05, -1.0461e-05,  ...,  8.6203e-06,
+          1.0319e-05,  2.8476e-05],
+        [-6.7651e-05, -6.0916e-05,  1.7451e-07,  ..., -4.2580e-06,
+          1.7464e-05, -1.3912e-04]], device='cuda:0')
+Epoch 68, bias, value: tensor([-0.0274,  0.0140,  0.0125,  0.0283,  0.0228, -0.0190,  0.0244,  0.0266,
+        -0.0077,  0.0096], device='cuda:0'), grad: tensor([ 8.9258e-06,  2.6211e-05,  6.5386e-05,  4.1455e-05,  1.4496e-04,
+        -3.2276e-05,  3.0071e-05, -4.0144e-05,  4.8876e-05, -2.9302e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 67, time 249.40, cls_loss 0.0043 cls_loss_mapping 0.0130 cls_loss_causal 0.6333 re_mapping 0.0095 re_causal 0.0293 /// teacc 98.97 lr 0.00010000
+Epoch 69, weight, value: tensor([[ 0.0363, -0.0728, -0.0878,  ..., -0.0507, -0.0340, -0.0406],
+        [-0.0078,  0.0471, -0.0256,  ...,  0.0025,  0.1044,  0.0220],
+        [-0.0102, -0.0851, -0.0196,  ...,  0.0770, -0.0661,  0.0010],
+        ...,
+        [-0.0296,  0.0727,  0.0315,  ..., -0.0534,  0.0626,  0.0230],
+        [-0.0147, -0.0411,  0.0120,  ..., -0.0121, -0.1025, -0.0429],
+        [-0.0136,  0.0040, -0.0031,  ..., -0.0884, -0.0684,  0.0239]],
+       device='cuda:0'), grad: tensor([[ 5.4203e-06,  5.2862e-06,  2.5518e-07,  ...,  1.7598e-05,
+          4.1425e-06,  1.2852e-05],
+        [ 1.9595e-06,  3.0976e-06,  8.4867e-08,  ...,  9.5516e-06,
+         -1.3180e-05,  5.8785e-06],
+        [ 8.6010e-05,  2.7016e-05,  4.7963e-08,  ...,  7.7128e-05,
+          2.6152e-05,  3.8505e-05],
+        ...,
+        [ 1.7077e-05, -5.5581e-05,  7.0455e-07,  ...,  2.1309e-06,
+         -4.3362e-05, -5.1171e-05],
+        [-1.5330e-04,  2.4978e-06,  5.7975e-07,  ..., -1.2743e-04,
+          3.0827e-06, -1.4603e-05],
+        [ 1.5991e-06,  2.2292e-05, -3.8184e-06,  ...,  3.3855e-05,
+          9.6187e-06,  2.1592e-05]], device='cuda:0')
+Epoch 69, bias, value: tensor([-0.0274,  0.0135,  0.0124,  0.0281,  0.0231, -0.0189,  0.0249,  0.0263,
+        -0.0078,  0.0101], device='cuda:0'), grad: tensor([ 5.2005e-05,  2.8297e-05,  3.1734e-04,  2.7284e-05, -6.4492e-05,
+        -3.8207e-05,  1.7539e-05, -1.7181e-05, -4.4322e-04,  1.2022e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 68, time 248.97, cls_loss 0.0055 cls_loss_mapping 0.0158 cls_loss_causal 0.5879 re_mapping 0.0094 re_causal 0.0278 /// teacc 98.93 lr 0.00010000
+Epoch 70, weight, value: tensor([[ 0.0366, -0.0733, -0.0896,  ..., -0.0509, -0.0350, -0.0410],
+        [-0.0074,  0.0472, -0.0256,  ...,  0.0018,  0.1051,  0.0220],
+        [-0.0101, -0.0859, -0.0181,  ...,  0.0777, -0.0667,  0.0010],
+        ...,
+        [-0.0295,  0.0734,  0.0313,  ..., -0.0534,  0.0634,  0.0235],
+        [-0.0154, -0.0414,  0.0092,  ..., -0.0122, -0.1037, -0.0439],
+        [-0.0134,  0.0038, -0.0028,  ..., -0.0890, -0.0690,  0.0239]],
+       device='cuda:0'), grad: tensor([[ 1.1325e-06,  4.8615e-07,  1.1714e-08,  ...,  1.5058e-05,
+          1.5320e-06,  8.3372e-06],
+        [ 9.7156e-05, -1.8571e-06,  2.0082e-09,  ...,  1.6260e-04,
+         -1.6131e-06,  8.7619e-05],
+        [-1.3673e-04,  4.1127e-06,  1.6444e-09,  ..., -2.3437e-04,
+         -9.0227e-06, -1.2743e-04],
+        ...,
+        [ 2.4572e-05, -3.0085e-05,  6.2922e-08,  ...,  2.6613e-05,
+         -2.4423e-05, -8.3372e-06],
+        [ 1.6177e-04,  1.5348e-06,  1.7986e-07,  ...,  1.5333e-05,
+          3.6210e-06,  1.2112e-04],
+        [-1.7595e-04,  4.1239e-06, -3.5390e-07,  ...,  3.8110e-06,
+          5.3644e-06, -1.1945e-04]], device='cuda:0')
+Epoch 70, bias, value: tensor([-0.0273,  0.0135,  0.0123,  0.0289,  0.0228, -0.0191,  0.0246,  0.0268,
+        -0.0088,  0.0103], device='cuda:0'), grad: tensor([ 1.9252e-05,  3.4904e-04, -4.8327e-04, -2.6852e-05,  7.7665e-05,
+         6.6817e-05, -3.9786e-05,  3.6746e-05,  3.9673e-04, -3.9697e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 69----------------------------------------------------
+epoch 69, time 249.99, cls_loss 0.0037 cls_loss_mapping 0.0120 cls_loss_causal 0.6155 re_mapping 0.0094 re_causal 0.0283 /// teacc 99.05 lr 0.00010000
+Epoch 71, weight, value: tensor([[ 0.0368, -0.0735, -0.0900,  ..., -0.0517, -0.0353, -0.0415],
+        [-0.0075,  0.0470, -0.0257,  ...,  0.0012,  0.1053,  0.0216],
+        [-0.0101, -0.0862, -0.0181,  ...,  0.0785, -0.0670,  0.0016],
+        ...,
+        [-0.0297,  0.0741,  0.0312,  ..., -0.0540,  0.0641,  0.0241],
+        [-0.0151, -0.0415,  0.0090,  ..., -0.0123, -0.1040, -0.0444],
+        [-0.0135,  0.0037, -0.0028,  ..., -0.0903, -0.0694,  0.0237]],
+       device='cuda:0'), grad: tensor([[-1.2390e-05,  7.5884e-06,  0.0000e+00,  ...,  1.3225e-05,
+          1.1146e-05,  1.6391e-05],
+        [ 2.0519e-05,  3.4183e-05,  0.0000e+00,  ...,  3.2902e-05,
+          4.2826e-05,  6.2585e-05],
+        [-3.0115e-05,  1.6797e-04,  0.0000e+00,  ...,  2.8893e-05,
+          2.3377e-04,  2.1267e-04],
+        ...,
+        [ 9.0227e-06, -3.0541e-04,  0.0000e+00,  ..., -1.6689e-04,
+         -4.1032e-04, -4.4084e-04],
+        [ 3.6031e-05,  1.3515e-05,  0.0000e+00,  ...,  3.9190e-05,
+          2.1234e-05,  3.8028e-05],
+        [ 5.3160e-06,  1.9461e-05,  0.0000e+00,  ...,  3.5912e-05,
+          3.4541e-05,  7.1526e-05]], device='cuda:0')
+Epoch 71, bias, value: tensor([-0.0276,  0.0130,  0.0126,  0.0290,  0.0230, -0.0190,  0.0249,  0.0271,
+        -0.0087,  0.0099], device='cuda:0'), grad: tensor([-7.7784e-05,  2.4009e-04,  5.8460e-04, -4.5270e-05, -5.1647e-05,
+         1.3220e-04,  4.0412e-05, -1.1387e-03,  1.6522e-04,  1.5128e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 70, time 249.24, cls_loss 0.0036 cls_loss_mapping 0.0112 cls_loss_causal 0.6578 re_mapping 0.0086 re_causal 0.0283 /// teacc 98.95 lr 0.00010000
+Epoch 72, weight, value: tensor([[ 0.0371, -0.0741, -0.0902,  ..., -0.0518, -0.0362, -0.0421],
+        [-0.0070,  0.0474, -0.0257,  ...,  0.0011,  0.1063,  0.0218],
+        [-0.0101, -0.0864, -0.0182,  ...,  0.0792, -0.0674,  0.0023],
+        ...,
+        [-0.0299,  0.0745,  0.0313,  ..., -0.0546,  0.0645,  0.0243],
+        [-0.0149, -0.0417,  0.0090,  ..., -0.0126, -0.1044, -0.0449],
+        [-0.0138,  0.0034, -0.0028,  ..., -0.0911, -0.0703,  0.0235]],
+       device='cuda:0'), grad: tensor([[ 6.2212e-06,  5.7593e-06,  0.0000e+00,  ...,  2.4259e-05,
+          4.4778e-06,  2.9370e-05],
+        [ 1.2420e-05,  8.7917e-06,  0.0000e+00,  ...,  3.2485e-05,
+          8.4098e-07,  3.9309e-05],
+        [-4.3809e-05,  1.8477e-05,  0.0000e+00,  ..., -2.0039e-04,
+          1.7270e-05, -1.8895e-04],
+        ...,
+        [ 1.0207e-05, -2.3615e-04,  0.0000e+00,  ...,  4.9114e-05,
+         -1.8966e-04, -1.3518e-04],
+        [ 7.9513e-05,  8.6486e-05,  0.0000e+00,  ...,  5.1171e-05,
+          5.2750e-05,  1.0860e-04],
+        [-1.7691e-04,  6.5744e-05,  0.0000e+00,  ..., -4.6819e-05,
+          7.6652e-05, -1.0270e-04]], device='cuda:0')
+Epoch 72, bias, value: tensor([-0.0272,  0.0134,  0.0130,  0.0290,  0.0234, -0.0189,  0.0236,  0.0270,
+        -0.0085,  0.0093], device='cuda:0'), grad: tensor([ 7.0095e-05,  1.1063e-04, -5.2738e-04,  1.7989e-04,  3.1281e-04,
+         8.0913e-06, -2.5675e-05, -1.7786e-04,  3.7837e-04, -3.3021e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 71, time 249.01, cls_loss 0.0042 cls_loss_mapping 0.0112 cls_loss_causal 0.6267 re_mapping 0.0088 re_causal 0.0273 /// teacc 99.03 lr 0.00010000
+Epoch 73, weight, value: tensor([[ 0.0373, -0.0745, -0.0907,  ..., -0.0523, -0.0369, -0.0425],
+        [-0.0068,  0.0474, -0.0258,  ...,  0.0008,  0.1066,  0.0214],
+        [-0.0104, -0.0871, -0.0183,  ...,  0.0797, -0.0680,  0.0026],
+        ...,
+        [-0.0300,  0.0751,  0.0314,  ..., -0.0551,  0.0652,  0.0244],
+        [-0.0146, -0.0416,  0.0090,  ..., -0.0129, -0.1048, -0.0454],
+        [-0.0138,  0.0033, -0.0027,  ..., -0.0903, -0.0706,  0.0241]],
+       device='cuda:0'), grad: tensor([[ 1.5479e-06,  1.2098e-06,  0.0000e+00,  ...,  1.0118e-05,
+          7.5670e-07,  1.1653e-05],
+        [ 2.0931e-07, -6.0201e-06,  0.0000e+00,  ...,  1.4752e-05,
+         -1.6183e-05,  6.1579e-06],
+        [-1.6952e-04, -1.4171e-05,  0.0000e+00,  ..., -3.8791e-04,
+          5.3532e-06, -2.6393e-04],
+        ...,
+        [ 1.6403e-04,  1.4029e-05,  0.0000e+00,  ...,  3.2640e-04,
+          1.5628e-06,  2.3603e-04],
+        [ 8.5011e-06,  2.1104e-06,  0.0000e+00,  ...,  1.7583e-05,
+          1.8915e-06,  1.5914e-05],
+        [-5.5015e-05, -4.9472e-06,  0.0000e+00,  ...,  9.8795e-06,
+          1.3635e-06, -5.2989e-05]], device='cuda:0')
+Epoch 73, bias, value: tensor([-0.0274,  0.0132,  0.0128,  0.0290,  0.0230, -0.0189,  0.0232,  0.0271,
+        -0.0084,  0.0101], device='cuda:0'), grad: tensor([ 1.4603e-05,  1.9073e-05, -7.0858e-04,  1.3141e-06,  1.9908e-05,
+         8.0466e-05,  1.1079e-05,  6.5517e-04,  4.1932e-05, -1.3447e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 72, time 249.13, cls_loss 0.0039 cls_loss_mapping 0.0108 cls_loss_causal 0.6336 re_mapping 0.0086 re_causal 0.0277 /// teacc 98.90 lr 0.00010000
+Epoch 74, weight, value: tensor([[ 0.0379, -0.0748, -0.0914,  ..., -0.0524, -0.0373, -0.0429],
+        [-0.0070,  0.0469, -0.0258,  ...,  0.0005,  0.1067,  0.0211],
+        [-0.0106, -0.0876, -0.0185,  ...,  0.0802, -0.0687,  0.0029],
+        ...,
+        [-0.0301,  0.0760,  0.0320,  ..., -0.0557,  0.0663,  0.0249],
+        [-0.0139, -0.0418,  0.0090,  ..., -0.0131, -0.1053, -0.0457],
+        [-0.0139,  0.0032, -0.0028,  ..., -0.0909, -0.0712,  0.0242]],
+       device='cuda:0'), grad: tensor([[ 3.7879e-05,  4.7944e-06,  9.6043e-09,  ...,  1.6376e-05,
+          7.6368e-06,  1.5393e-05],
+        [-7.2837e-05, -1.1921e-04,  9.0222e-10,  ...,  5.1856e-06,
+         -3.3331e-04, -1.1837e-04],
+        [-3.1620e-05,  3.9458e-05,  1.4843e-09,  ..., -8.3327e-05,
+          1.2338e-04, -2.8282e-05],
+        ...,
+        [ 5.8800e-05,  4.5896e-05,  2.9802e-08,  ...,  1.3374e-05,
+          1.3828e-04,  7.6771e-05],
+        [ 3.6031e-05,  9.1493e-06,  1.9136e-08,  ...,  1.2763e-05,
+          1.5482e-05,  1.9133e-05],
+        [ 2.7850e-05,  3.8184e-06, -1.2200e-07,  ...,  1.8001e-05,
+          1.1317e-05,  9.8646e-06]], device='cuda:0')
+Epoch 74, bias, value: tensor([-0.0269,  0.0125,  0.0126,  0.0296,  0.0228, -0.0196,  0.0229,  0.0275,
+        -0.0079,  0.0099], device='cuda:0'), grad: tensor([ 9.5069e-05, -3.1614e-04, -3.8832e-05,  2.8539e-04, -7.6294e-05,
+        -3.7551e-04, -1.3120e-05,  2.3568e-04,  1.0538e-04,  9.7573e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 73, time 249.16, cls_loss 0.0035 cls_loss_mapping 0.0120 cls_loss_causal 0.6178 re_mapping 0.0093 re_causal 0.0280 /// teacc 99.03 lr 0.00010000
+Epoch 75, weight, value: tensor([[ 0.0383, -0.0752, -0.0917,  ..., -0.0526, -0.0380, -0.0432],
+        [-0.0064,  0.0472, -0.0258,  ...,  0.0002,  0.1081,  0.0213],
+        [-0.0104, -0.0877, -0.0186,  ...,  0.0812, -0.0692,  0.0042],
+        ...,
+        [-0.0308,  0.0761,  0.0319,  ..., -0.0566,  0.0660,  0.0247],
+        [-0.0138, -0.0417,  0.0090,  ..., -0.0135, -0.1058, -0.0461],
+        [-0.0141,  0.0031, -0.0027,  ..., -0.0914, -0.0716,  0.0243]],
+       device='cuda:0'), grad: tensor([[-1.3104e-06,  1.7639e-06,  1.8615e-07,  ...,  3.0667e-05,
+          2.9858e-06,  8.8140e-06],
+        [-1.7390e-05, -8.7842e-06,  9.2899e-07,  ...,  4.3422e-05,
+         -5.0008e-05,  1.6272e-05],
+        [ 6.2883e-06,  9.0376e-06, -2.7046e-06,  ..., -9.6619e-05,
+          1.6600e-05, -4.6909e-05],
+        ...,
+        [ 7.0632e-06, -2.6301e-05,  2.5844e-07,  ...,  1.0438e-05,
+         -2.0459e-05, -2.2590e-05],
+        [ 1.3508e-05,  7.2084e-06,  5.6485e-07,  ...,  7.4208e-05,
+          1.6302e-05,  2.5392e-05],
+        [-5.7846e-05, -4.4480e-06,  1.1042e-07,  ...,  5.9009e-06,
+          1.7568e-05, -8.9347e-05]], device='cuda:0')
+Epoch 75, bias, value: tensor([-0.0264,  0.0131,  0.0134,  0.0295,  0.0226, -0.0196,  0.0227,  0.0269,
+        -0.0077,  0.0095], device='cuda:0'), grad: tensor([ 5.7369e-05,  4.1008e-05, -1.5450e-04,  2.5555e-05,  1.9896e-04,
+         7.3791e-05, -2.6512e-04, -7.0445e-06,  1.8883e-04, -1.5938e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 74----------------------------------------------------
+epoch 74, time 249.56, cls_loss 0.0035 cls_loss_mapping 0.0113 cls_loss_causal 0.6124 re_mapping 0.0086 re_causal 0.0270 /// teacc 99.07 lr 0.00010000
+Epoch 76, weight, value: tensor([[ 3.8142e-02, -7.5874e-02, -9.2389e-02,  ..., -5.2984e-02,
+         -3.8668e-02, -4.3888e-02],
+        [-5.9852e-03,  4.7375e-02, -2.5881e-02,  ...,  5.5953e-06,
+          1.0889e-01,  2.1456e-02],
+        [-1.0404e-02, -8.8269e-02, -1.7966e-02,  ...,  8.2020e-02,
+         -6.9877e-02,  4.6408e-03],
+        ...,
+        [-3.1037e-02,  7.6573e-02,  3.1821e-02,  ..., -5.6948e-02,
+          6.6422e-02,  2.4920e-02],
+        [-1.3428e-02, -4.1898e-02,  8.6652e-03,  ..., -1.4050e-02,
+         -1.0674e-01, -4.6816e-02],
+        [-1.4081e-02,  3.0303e-03, -2.4950e-03,  ..., -9.1853e-02,
+         -7.2324e-02,  2.4360e-02]], device='cuda:0'), grad: tensor([[ 2.3060e-06,  2.5406e-06,  4.1234e-07,  ...,  2.9989e-06,
+          2.9225e-06,  3.4031e-06],
+        [-5.9456e-06,  6.0834e-06, -2.5705e-06,  ..., -2.2541e-08,
+         -1.6600e-05, -2.5965e-06],
+        [ 2.6390e-05,  7.4022e-06,  2.1681e-06,  ..., -3.5278e-06,
+          1.7956e-05,  1.1235e-05],
+        ...,
+        [ 1.6838e-05, -9.2804e-05,  3.1218e-06,  ...,  3.1553e-06,
+         -5.0694e-05, -5.9992e-05],
+        [-1.7494e-05,  6.3889e-06,  1.7453e-06,  ...,  2.7958e-06,
+          9.4324e-06, -3.0752e-06],
+        [ 1.1697e-05,  5.8800e-05, -1.7462e-10,  ...,  2.5649e-06,
+          5.0843e-05,  3.5882e-05]], device='cuda:0')
+Epoch 76, bias, value: tensor([-0.0269,  0.0134,  0.0136,  0.0292,  0.0225, -0.0195,  0.0229,  0.0268,
+        -0.0075,  0.0094], device='cuda:0'), grad: tensor([ 1.7896e-05,  2.2277e-05,  8.8871e-05, -1.3673e-04, -2.9534e-05,
+        -2.3365e-05,  6.0461e-06, -5.4419e-05, -3.0294e-05,  1.3947e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 75, time 248.64, cls_loss 0.0030 cls_loss_mapping 0.0104 cls_loss_causal 0.6116 re_mapping 0.0091 re_causal 0.0272 /// teacc 99.07 lr 0.00010000
+Epoch 77, weight, value: tensor([[ 0.0390, -0.0762, -0.0934,  ..., -0.0536, -0.0392, -0.0444],
+        [-0.0057,  0.0475, -0.0259,  ..., -0.0005,  0.1094,  0.0215],
+        [-0.0105, -0.0891, -0.0176,  ...,  0.0827, -0.0705,  0.0049],
+        ...,
+        [-0.0313,  0.0772,  0.0320,  ..., -0.0575,  0.0670,  0.0252],
+        [-0.0137, -0.0422,  0.0084,  ..., -0.0148, -0.1073, -0.0474],
+        [-0.0147,  0.0028, -0.0026,  ..., -0.0923, -0.0733,  0.0242]],
+       device='cuda:0'), grad: tensor([[ 2.5705e-05,  1.3500e-05,  4.0600e-09,  ...,  1.7202e-04,
+          1.0833e-05,  1.3418e-05],
+        [ 2.3190e-06,  2.9892e-05,  1.2078e-09,  ...,  4.8541e-06,
+          2.2933e-05,  2.0310e-05],
+        [-8.1062e-06,  2.8312e-06,  4.2201e-10,  ..., -2.6613e-05,
+          3.9600e-06, -1.7926e-05],
+        ...,
+        [ 4.2468e-06, -6.2406e-05,  1.6007e-09,  ...,  7.7114e-06,
+         -6.0201e-05, -2.5183e-05],
+        [-8.2329e-06,  4.0494e-06,  1.0230e-08,  ...,  2.0444e-05,
+          3.9712e-06,  9.5665e-06],
+        [ 9.5516e-06,  2.1001e-07,  4.0018e-09,  ...,  7.9200e-06,
+          7.4878e-06, -1.6451e-05]], device='cuda:0')
+Epoch 77, bias, value: tensor([-0.0265,  0.0133,  0.0134,  0.0293,  0.0230, -0.0189,  0.0235,  0.0268,
+        -0.0081,  0.0087], device='cuda:0'), grad: tensor([ 3.6287e-04,  3.9995e-05, -4.5598e-05, -1.0654e-05,  1.8820e-05,
+         3.2216e-05, -4.0507e-04, -3.9786e-05,  2.3305e-05,  2.4259e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 76, time 248.78, cls_loss 0.0039 cls_loss_mapping 0.0100 cls_loss_causal 0.6054 re_mapping 0.0087 re_causal 0.0261 /// teacc 98.98 lr 0.00010000
+Epoch 78, weight, value: tensor([[ 0.0391, -0.0768, -0.0957,  ..., -0.0544, -0.0399, -0.0448],
+        [-0.0057,  0.0474, -0.0266,  ..., -0.0008,  0.1098,  0.0213],
+        [-0.0103, -0.0894, -0.0176,  ...,  0.0834, -0.0710,  0.0057],
+        ...,
+        [-0.0320,  0.0777,  0.0316,  ..., -0.0579,  0.0674,  0.0251],
+        [-0.0136, -0.0424,  0.0081,  ..., -0.0150, -0.1079, -0.0481],
+        [-0.0138,  0.0032, -0.0018,  ..., -0.0927, -0.0733,  0.0247]],
+       device='cuda:0'), grad: tensor([[-1.4149e-05,  1.3355e-06,  3.2538e-08,  ...,  9.7603e-06,
+          1.2787e-06,  4.9174e-06],
+        [-7.5810e-06, -6.0303e-07,  4.3394e-08,  ...,  3.5134e-07,
+         -1.1459e-05, -2.4047e-06],
+        [ 4.1872e-06,  1.2338e-05, -3.1013e-07,  ...,  1.0146e-07,
+          1.1280e-05,  8.3447e-06],
+        ...,
+        [ 2.9709e-06, -5.6654e-05,  4.3685e-08,  ...,  1.9073e-06,
+         -3.8177e-05, -3.5524e-05],
+        [ 4.2990e-06,  1.6764e-05,  6.0303e-08,  ...,  4.9584e-06,
+          1.3612e-05,  1.3977e-05],
+        [ 5.5833e-07,  1.2860e-05, -8.5129e-09,  ...,  7.5549e-06,
+          1.1228e-05,  8.2254e-06]], device='cuda:0')
+Epoch 78, bias, value: tensor([-0.0268,  0.0130,  0.0139,  0.0289,  0.0227, -0.0189,  0.0235,  0.0263,
+        -0.0078,  0.0093], device='cuda:0'), grad: tensor([-1.2696e-05, -4.9025e-06,  2.7835e-05,  1.4201e-05, -1.6296e-04,
+         2.7448e-05,  1.0037e-04, -7.9155e-05,  4.8339e-05,  4.1544e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 77, time 249.15, cls_loss 0.0035 cls_loss_mapping 0.0095 cls_loss_causal 0.6262 re_mapping 0.0081 re_causal 0.0259 /// teacc 99.04 lr 0.00010000
+Epoch 79, weight, value: tensor([[ 0.0391, -0.0776, -0.0967,  ..., -0.0548, -0.0405, -0.0454],
+        [-0.0054,  0.0476, -0.0268,  ..., -0.0010,  0.1105,  0.0214],
+        [-0.0099, -0.0900, -0.0174,  ...,  0.0838, -0.0716,  0.0059],
+        ...,
+        [-0.0325,  0.0782,  0.0321,  ..., -0.0582,  0.0678,  0.0253],
+        [-0.0134, -0.0426,  0.0082,  ..., -0.0154, -0.1084, -0.0485],
+        [-0.0137,  0.0030, -0.0018,  ..., -0.0931, -0.0738,  0.0238]],
+       device='cuda:0'), grad: tensor([[-2.4941e-06,  4.4778e-06,  1.1598e-08,  ...,  3.0771e-06,
+          4.1686e-06,  7.7039e-06],
+        [-3.3323e-06, -1.7555e-06,  2.0184e-08,  ...,  3.7160e-06,
+         -2.0564e-05, -6.4541e-07],
+        [ 1.1712e-05,  4.6864e-06,  2.4433e-08,  ..., -1.8582e-05,
+          7.9125e-06, -1.4208e-05],
+        ...,
+        [-8.1003e-05, -1.5163e-04,  3.7340e-08,  ...,  5.4948e-06,
+         -1.0788e-04, -1.7023e-04],
+        [-7.0296e-06,  2.4140e-06,  4.4965e-08,  ...,  3.3639e-06,
+          3.9861e-06,  6.2138e-06],
+        [ 1.3396e-05,  1.2875e-05, -1.2561e-07,  ...,  1.3635e-06,
+          1.1317e-05,  1.9446e-05]], device='cuda:0')
+Epoch 79, bias, value: tensor([-0.0270,  0.0130,  0.0146,  0.0289,  0.0239, -0.0193,  0.0238,  0.0263,
+        -0.0082,  0.0086], device='cuda:0'), grad: tensor([ 5.2713e-06,  1.3582e-05,  3.3170e-05, -1.1832e-04,  8.7097e-06,
+         3.4857e-04,  7.3425e-06, -3.6216e-04, -1.4074e-05,  7.7367e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 78, time 248.95, cls_loss 0.0038 cls_loss_mapping 0.0118 cls_loss_causal 0.5950 re_mapping 0.0086 re_causal 0.0253 /// teacc 98.83 lr 0.00010000
+Epoch 80, weight, value: tensor([[ 0.0396, -0.0780, -0.0972,  ..., -0.0550, -0.0410, -0.0457],
+        [-0.0047,  0.0473, -0.0269,  ..., -0.0015,  0.1111,  0.0215],
+        [-0.0103, -0.0907, -0.0176,  ...,  0.0844, -0.0724,  0.0060],
+        ...,
+        [-0.0329,  0.0787,  0.0320,  ..., -0.0590,  0.0680,  0.0250],
+        [-0.0131, -0.0428,  0.0080,  ..., -0.0143, -0.1090, -0.0491],
+        [-0.0138,  0.0030, -0.0017,  ..., -0.0936, -0.0741,  0.0241]],
+       device='cuda:0'), grad: tensor([[ 7.6648e-07,  1.8356e-06,  0.0000e+00,  ...,  8.8289e-06,
+          1.6931e-06,  6.3069e-06],
+        [-4.3004e-07,  9.8571e-06,  0.0000e+00,  ...,  3.2950e-06,
+          8.7824e-07,  6.9402e-06],
+        [ 3.5428e-06,  4.9770e-06,  0.0000e+00,  ..., -1.2052e-04,
+          7.5772e-06, -4.8369e-05],
+        ...,
+        [ 1.0617e-05, -5.3525e-05,  0.0000e+00,  ...,  4.0382e-05,
+         -5.7846e-05, -1.2033e-05],
+        [-1.4096e-05, -5.9092e-07,  0.0000e+00,  ...,  1.0349e-05,
+          2.1812e-06,  2.5824e-05],
+        [-7.0482e-06, -5.2117e-06,  0.0000e+00,  ...,  2.3656e-06,
+          9.2313e-06, -5.9992e-05]], device='cuda:0')
+Epoch 80, bias, value: tensor([-0.0262,  0.0132,  0.0143,  0.0285,  0.0241, -0.0189,  0.0224,  0.0259,
+        -0.0073,  0.0086], device='cuda:0'), grad: tensor([ 2.6703e-05,  3.9399e-05, -1.9741e-04, -2.2605e-05,  6.4433e-05,
+         1.5092e-04, -2.0996e-05,  4.3541e-05, -2.8196e-07, -8.4102e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 79, time 249.18, cls_loss 0.0028 cls_loss_mapping 0.0083 cls_loss_causal 0.5624 re_mapping 0.0084 re_causal 0.0251 /// teacc 99.06 lr 0.00010000
+Epoch 81, weight, value: tensor([[ 0.0398, -0.0784, -0.0974,  ..., -0.0559, -0.0415, -0.0462],
+        [-0.0045,  0.0482, -0.0269,  ..., -0.0020,  0.1122,  0.0219],
+        [-0.0104, -0.0911, -0.0176,  ...,  0.0853, -0.0728,  0.0069],
+        ...,
+        [-0.0335,  0.0784,  0.0319,  ..., -0.0596,  0.0676,  0.0247],
+        [-0.0132, -0.0430,  0.0080,  ..., -0.0150, -0.1093, -0.0497],
+        [-0.0134,  0.0032, -0.0015,  ..., -0.0943, -0.0744,  0.0244]],
+       device='cuda:0'), grad: tensor([[ 7.8827e-06,  3.1758e-06,  8.5216e-08,  ...,  8.2031e-06,
+          8.4490e-06,  8.1882e-06],
+        [-1.0264e-04, -3.4392e-05,  2.3330e-07,  ..., -6.1020e-06,
+         -1.3876e-04, -6.7830e-05],
+        [ 1.4193e-05,  4.4070e-06,  1.2328e-07,  ..., -3.1609e-06,
+          2.1756e-05,  9.0003e-06],
+        ...,
+        [ 1.4745e-05,  6.6832e-06,  4.9733e-07,  ...,  2.0582e-06,
+          1.0900e-05,  1.3649e-05],
+        [ 6.3181e-05,  1.9461e-05,  3.3504e-07,  ...,  5.6028e-06,
+          6.1750e-05,  3.9965e-05],
+        [-2.2620e-05, -2.3264e-06, -8.4797e-07,  ...,  1.7285e-06,
+          1.2875e-05, -6.1333e-05]], device='cuda:0')
+Epoch 81, bias, value: tensor([-0.0264,  0.0134,  0.0145,  0.0288,  0.0237, -0.0195,  0.0235,  0.0253,
+        -0.0076,  0.0090], device='cuda:0'), grad: tensor([ 2.8774e-05, -2.3544e-04,  3.8564e-05, -6.1356e-06,  4.1842e-05,
+         1.7777e-05,  2.8580e-05,  5.4598e-05,  1.6439e-04, -1.3316e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 80, time 249.02, cls_loss 0.0031 cls_loss_mapping 0.0095 cls_loss_causal 0.5711 re_mapping 0.0081 re_causal 0.0250 /// teacc 98.98 lr 0.00010000
+Epoch 82, weight, value: tensor([[ 0.0400, -0.0786, -0.0978,  ..., -0.0561, -0.0420, -0.0466],
+        [-0.0044,  0.0482, -0.0269,  ..., -0.0022,  0.1127,  0.0220],
+        [-0.0108, -0.0916, -0.0177,  ...,  0.0856, -0.0736,  0.0071],
+        ...,
+        [-0.0336,  0.0789,  0.0321,  ..., -0.0602,  0.0681,  0.0248],
+        [-0.0129, -0.0430,  0.0080,  ..., -0.0151, -0.1097, -0.0502],
+        [-0.0134,  0.0032, -0.0015,  ..., -0.0949, -0.0747,  0.0250]],
+       device='cuda:0'), grad: tensor([[ 1.0645e-04,  2.0955e-06,  0.0000e+00,  ...,  7.1563e-06,
+          1.3717e-05,  4.4517e-06],
+        [ 1.1044e-03,  3.2056e-06,  0.0000e+00,  ...,  1.5404e-06,
+          1.0103e-04,  5.3197e-05],
+        [ 7.9453e-05,  3.5353e-06,  0.0000e+00,  ..., -6.8173e-06,
+          3.5614e-05,  6.0275e-06],
+        ...,
+        [ 6.5863e-06, -2.4348e-05,  0.0000e+00,  ...,  1.2610e-06,
+         -9.3803e-06, -4.4107e-06],
+        [-1.5059e-03,  9.9745e-07,  0.0000e+00,  ...,  1.8729e-06,
+         -1.4186e-04,  6.3814e-06],
+        [ 3.5048e-05,  5.4166e-06,  0.0000e+00,  ...,  3.4533e-06,
+          2.2471e-05,  2.1681e-05]], device='cuda:0')
+Epoch 82, bias, value: tensor([-0.0264,  0.0132,  0.0139,  0.0289,  0.0236, -0.0194,  0.0237,  0.0253,
+        -0.0075,  0.0092], device='cuda:0'), grad: tensor([ 2.7251e-04,  2.7847e-03,  2.0945e-04, -6.2823e-05, -1.8847e-04,
+         1.6427e-04,  2.8896e-04,  1.2271e-05, -3.6163e-03,  1.3661e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 81, time 249.12, cls_loss 0.0031 cls_loss_mapping 0.0089 cls_loss_causal 0.5856 re_mapping 0.0081 re_causal 0.0251 /// teacc 99.07 lr 0.00010000
+Epoch 83, weight, value: tensor([[ 0.0404, -0.0786, -0.0983,  ..., -0.0568, -0.0425, -0.0470],
+        [-0.0042,  0.0483, -0.0270,  ..., -0.0025,  0.1134,  0.0222],
+        [-0.0113, -0.0922, -0.0177,  ...,  0.0860, -0.0744,  0.0069],
+        ...,
+        [-0.0336,  0.0800,  0.0320,  ..., -0.0604,  0.0687,  0.0259],
+        [-0.0128, -0.0434,  0.0079,  ..., -0.0154, -0.1105, -0.0522],
+        [-0.0131,  0.0025, -0.0015,  ..., -0.0953, -0.0760,  0.0252]],
+       device='cuda:0'), grad: tensor([[ 6.7316e-06,  3.1199e-06,  2.7311e-07,  ...,  5.3570e-06,
+          1.5438e-05,  5.6252e-06],
+        [-1.3256e-04,  6.3553e-06,  1.3842e-07,  ..., -3.6299e-05,
+         -2.1982e-04, -2.0251e-05],
+        [ 9.1374e-05,  8.1882e-06,  2.5816e-06,  ...,  1.8761e-05,
+          8.1003e-05,  3.1799e-05],
+        ...,
+        [ 9.8050e-06, -4.1693e-05,  2.5204e-08,  ...,  2.6580e-06,
+         -2.7716e-05, -2.2680e-05],
+        [-1.9491e-05, -2.7865e-06, -4.9993e-06,  ...,  1.4581e-05,
+          9.2387e-05, -1.7524e-05],
+        [ 4.2319e-05,  6.5081e-06,  1.2489e-06,  ...,  9.6336e-06,
+          9.6709e-06,  1.3247e-05]], device='cuda:0')
+Epoch 83, bias, value: tensor([-0.0264,  0.0131,  0.0129,  0.0292,  0.0231, -0.0192,  0.0235,  0.0260,
+        -0.0075,  0.0094], device='cuda:0'), grad: tensor([ 1.6555e-05, -4.1604e-04,  3.1257e-04,  3.2449e-04, -3.4988e-05,
+        -3.2401e-04,  6.9976e-05, -1.9476e-05, -6.1989e-05,  1.3340e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 82, time 248.91, cls_loss 0.0027 cls_loss_mapping 0.0089 cls_loss_causal 0.5771 re_mapping 0.0080 re_causal 0.0242 /// teacc 98.97 lr 0.00010000
+Epoch 84, weight, value: tensor([[ 0.0401, -0.0793, -0.1003,  ..., -0.0578, -0.0433, -0.0475],
+        [-0.0040,  0.0484, -0.0274,  ..., -0.0030,  0.1140,  0.0221],
+        [-0.0114, -0.0928, -0.0185,  ...,  0.0871, -0.0748,  0.0073],
+        ...,
+        [-0.0337,  0.0805,  0.0323,  ..., -0.0610,  0.0691,  0.0261],
+        [-0.0126, -0.0436,  0.0087,  ..., -0.0160, -0.1114, -0.0528],
+        [-0.0129,  0.0024, -0.0011,  ..., -0.0960, -0.0764,  0.0252]],
+       device='cuda:0'), grad: tensor([[ 8.0676e-08,  5.2303e-06,  1.1676e-07,  ...,  3.2373e-06,
+          2.0154e-06,  1.0222e-05],
+        [ 1.7332e-06,  1.0920e-04,  6.6683e-07,  ...,  7.2904e-06,
+          1.1253e-04,  9.9480e-05],
+        [-5.8971e-06,  2.1607e-05, -2.3711e-06,  ..., -1.6972e-05,
+          2.1487e-05,  3.7216e-06],
+        ...,
+        [ 1.1772e-05, -1.1408e-04,  3.0524e-07,  ...,  2.5377e-05,
+         -1.5390e-04, -3.7044e-05],
+        [ 7.9302e-07,  1.2122e-05,  9.5461e-07,  ...,  4.3027e-06,
+          3.7290e-06,  3.1590e-05],
+        [-6.5148e-05, -1.5020e-04,  2.3734e-08,  ..., -4.1753e-05,
+          4.2170e-06, -3.5644e-04]], device='cuda:0')
+Epoch 84, bias, value: tensor([-0.0272,  0.0130,  0.0129,  0.0293,  0.0233, -0.0194,  0.0239,  0.0261,
+        -0.0075,  0.0093], device='cuda:0'), grad: tensor([ 2.4185e-05,  1.7929e-04,  1.3791e-05,  5.3383e-06,  6.9714e-04,
+         6.9141e-05,  4.7803e-05,  3.1628e-06,  3.2961e-05, -1.0729e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 83, time 249.16, cls_loss 0.0032 cls_loss_mapping 0.0113 cls_loss_causal 0.6205 re_mapping 0.0078 re_causal 0.0245 /// teacc 98.88 lr 0.00010000
+Epoch 85, weight, value: tensor([[ 0.0403, -0.0799, -0.1031,  ..., -0.0583, -0.0440, -0.0479],
+        [-0.0040,  0.0483, -0.0275,  ..., -0.0029,  0.1151,  0.0226],
+        [-0.0116, -0.0937, -0.0188,  ...,  0.0877, -0.0768,  0.0068],
+        ...,
+        [-0.0341,  0.0809,  0.0321,  ..., -0.0615,  0.0694,  0.0263],
+        [-0.0123, -0.0435,  0.0093,  ..., -0.0165, -0.1117, -0.0532],
+        [-0.0130,  0.0024, -0.0012,  ..., -0.0965, -0.0767,  0.0251]],
+       device='cuda:0'), grad: tensor([[ 2.5965e-06,  4.3982e-07,  1.6380e-07,  ...,  6.6459e-06,
+          1.8664e-06,  3.8054e-06],
+        [ 4.4494e-07, -1.4640e-06,  6.6182e-08,  ...,  5.4091e-06,
+         -1.5330e-04, -8.8036e-05],
+        [ 7.7486e-06,  7.2969e-07,  1.1170e-07,  ..., -8.6203e-06,
+          6.0380e-05,  2.9564e-05],
+        ...,
+        [ 4.3251e-06, -2.6803e-06,  3.2317e-07,  ...,  1.7695e-06,
+          2.6062e-05,  1.9774e-05],
+        [-2.6017e-05,  1.7975e-06,  9.0664e-07,  ..., -2.8405e-06,
+          6.6012e-06,  1.4186e-05],
+        [-1.3590e-05, -2.7101e-06, -2.7362e-06,  ...,  1.2713e-06,
+          3.3993e-06, -2.2069e-05]], device='cuda:0')
+Epoch 85, bias, value: tensor([-0.0271,  0.0131,  0.0124,  0.0289,  0.0237, -0.0191,  0.0243,  0.0261,
+        -0.0073,  0.0089], device='cuda:0'), grad: tensor([ 2.2158e-05, -1.6177e-04,  9.5785e-05,  3.7462e-05,  4.7892e-05,
+         4.8459e-05,  2.6580e-06,  4.9621e-05, -7.6413e-05, -6.6161e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 84, time 249.06, cls_loss 0.0031 cls_loss_mapping 0.0100 cls_loss_causal 0.5811 re_mapping 0.0077 re_causal 0.0238 /// teacc 98.98 lr 0.00010000
+Epoch 86, weight, value: tensor([[ 0.0407, -0.0795, -0.1035,  ..., -0.0584, -0.0448, -0.0483],
+        [-0.0037,  0.0483, -0.0275,  ..., -0.0033,  0.1156,  0.0224],
+        [-0.0115, -0.0944, -0.0188,  ...,  0.0887, -0.0774,  0.0078],
+        ...,
+        [-0.0344,  0.0817,  0.0322,  ..., -0.0620,  0.0700,  0.0267],
+        [-0.0120, -0.0437,  0.0093,  ..., -0.0168, -0.1121, -0.0536],
+        [-0.0129,  0.0025, -0.0011,  ..., -0.0968, -0.0773,  0.0252]],
+       device='cuda:0'), grad: tensor([[-6.7726e-06,  7.8380e-06,  2.3504e-07,  ...,  6.1870e-05,
+          5.2713e-06,  2.7120e-05],
+        [-7.9930e-05, -4.3035e-05,  5.1558e-06,  ...,  7.8306e-06,
+         -1.5724e-04, -1.9982e-05],
+        [-2.9102e-05,  2.4647e-05,  9.8627e-07,  ..., -1.6558e-04,
+          2.3082e-05, -2.7120e-05],
+        ...,
+        [ 5.9605e-05,  5.4866e-05, -1.7732e-05,  ...,  1.2167e-05,
+          2.7120e-05,  1.1849e-04],
+        [-1.0088e-05,  1.3426e-05,  2.5681e-07,  ...,  2.8700e-05,
+          1.7300e-05,  3.0324e-05],
+        [ 1.4612e-06,  3.2604e-05,  4.0047e-06,  ...,  9.7379e-06,
+          6.4552e-05,  4.2990e-06]], device='cuda:0')
+Epoch 86, bias, value: tensor([-0.0262,  0.0128,  0.0130,  0.0284,  0.0235, -0.0191,  0.0242,  0.0264,
+        -0.0073,  0.0088], device='cuda:0'), grad: tensor([ 1.3363e-04, -3.7163e-05, -2.7728e-04, -1.5039e-03,  9.0778e-05,
+         7.3385e-04,  8.6188e-05,  5.6839e-04,  8.3089e-05,  1.2290e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 85, time 249.01, cls_loss 0.0035 cls_loss_mapping 0.0112 cls_loss_causal 0.5999 re_mapping 0.0077 re_causal 0.0236 /// teacc 98.81 lr 0.00010000
+Epoch 87, weight, value: tensor([[ 0.0413, -0.0803, -0.1043,  ..., -0.0591, -0.0455, -0.0491],
+        [-0.0034,  0.0483, -0.0276,  ..., -0.0043,  0.1149,  0.0210],
+        [-0.0114, -0.0948, -0.0180,  ...,  0.0889, -0.0801,  0.0062],
+        ...,
+        [-0.0345,  0.0821,  0.0320,  ..., -0.0603,  0.0725,  0.0285],
+        [-0.0127, -0.0439,  0.0090,  ..., -0.0180, -0.1128, -0.0540],
+        [-0.0125,  0.0030, -0.0010,  ..., -0.0974, -0.0778,  0.0260]],
+       device='cuda:0'), grad: tensor([[ 2.0653e-05,  1.6089e-07,  1.8002e-06,  ...,  3.3289e-05,
+          2.4331e-07,  1.6123e-05],
+        [ 2.1353e-05,  6.7661e-07,  1.9360e-07,  ...,  4.4435e-05,
+          2.8461e-06,  1.3165e-05],
+        [-4.4942e-05,  1.1356e-07, -4.5784e-06,  ..., -1.2338e-04,
+         -1.7077e-05, -1.1760e-04],
+        ...,
+        [ 8.2254e-06, -3.2000e-06,  2.8987e-07,  ...,  4.7266e-05,
+          1.0915e-05,  4.8906e-05],
+        [ 4.3437e-06,  7.9744e-08,  1.2256e-06,  ...,  3.0115e-05,
+          1.6147e-07,  1.7956e-05],
+        [ 1.6466e-05,  1.2238e-06,  1.8463e-07,  ...,  1.0915e-05,
+          1.4575e-06,  1.8790e-05]], device='cuda:0')
+Epoch 87, bias, value: tensor([-0.0262,  0.0118,  0.0121,  0.0285,  0.0229, -0.0196,  0.0250,  0.0278,
+        -0.0081,  0.0098], device='cuda:0'), grad: tensor([ 9.8109e-05,  1.8489e-04, -2.3270e-04,  2.9743e-05, -5.6684e-05,
+         1.0711e-04, -3.8528e-04,  8.3089e-05,  7.4923e-05,  9.7156e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 86, time 249.03, cls_loss 0.0025 cls_loss_mapping 0.0066 cls_loss_causal 0.5727 re_mapping 0.0075 re_causal 0.0231 /// teacc 98.96 lr 0.00010000
+Epoch 88, weight, value: tensor([[ 0.0416, -0.0809, -0.1053,  ..., -0.0599, -0.0461, -0.0497],
+        [-0.0033,  0.0484, -0.0276,  ..., -0.0046,  0.1153,  0.0210],
+        [-0.0110, -0.0959, -0.0178,  ...,  0.0898, -0.0803,  0.0067],
+        ...,
+        [-0.0348,  0.0827,  0.0317,  ..., -0.0606,  0.0727,  0.0288],
+        [-0.0127, -0.0440,  0.0090,  ..., -0.0185, -0.1131, -0.0546],
+        [-0.0127,  0.0030, -0.0010,  ..., -0.0987, -0.0782,  0.0259]],
+       device='cuda:0'), grad: tensor([[-4.0352e-05,  3.7206e-07,  3.0355e-08,  ..., -8.2776e-06,
+          5.8068e-07,  2.9802e-06],
+        [-2.4354e-07, -3.0287e-06,  5.3726e-08,  ...,  1.5497e-06,
+         -8.2776e-06, -3.8208e-07],
+        [ 1.3560e-05,  4.3144e-07,  3.0175e-07,  ...,  1.1269e-06,
+          9.1922e-07, -3.6620e-06],
+        ...,
+        [ 6.7204e-06,  1.1651e-06,  2.8289e-08,  ...,  4.6082e-06,
+          2.4810e-06,  6.9849e-06],
+        [-1.9278e-06,  3.0026e-06, -8.0094e-07,  ..., -1.7241e-05,
+          1.6410e-06,  1.1988e-05],
+        [ 1.6525e-05, -3.9861e-06,  1.0029e-07,  ...,  7.6368e-06,
+          5.1502e-07, -2.9773e-05]], device='cuda:0')
+Epoch 88, bias, value: tensor([-0.0262,  0.0117,  0.0122,  0.0282,  0.0234, -0.0192,  0.0250,  0.0280,
+        -0.0083,  0.0092], device='cuda:0'), grad: tensor([-1.0383e-04,  4.7833e-06,  4.3511e-05, -7.6652e-05,  3.1233e-05,
+         1.3225e-05,  3.2187e-05,  3.6001e-05,  6.0529e-05, -4.1038e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 87, time 249.23, cls_loss 0.0028 cls_loss_mapping 0.0081 cls_loss_causal 0.5744 re_mapping 0.0069 re_causal 0.0221 /// teacc 98.92 lr 0.00010000
+Epoch 89, weight, value: tensor([[ 0.0416, -0.0819, -0.1057,  ..., -0.0605, -0.0469, -0.0503],
+        [-0.0029,  0.0486, -0.0277,  ..., -0.0048,  0.1160,  0.0211],
+        [-0.0109, -0.0962, -0.0177,  ...,  0.0909, -0.0806,  0.0073],
+        ...,
+        [-0.0352,  0.0831,  0.0318,  ..., -0.0613,  0.0728,  0.0287],
+        [-0.0125, -0.0442,  0.0091,  ..., -0.0189, -0.1136, -0.0553],
+        [-0.0128,  0.0031, -0.0012,  ..., -0.0997, -0.0786,  0.0259]],
+       device='cuda:0'), grad: tensor([[ 5.9530e-06,  2.7958e-06,  0.0000e+00,  ...,  2.6807e-05,
+          3.7439e-06,  7.8753e-06],
+        [-1.9521e-05, -2.1588e-06,  0.0000e+00,  ...,  2.8685e-06,
+         -1.8024e-04, -9.1016e-05],
+        [-2.7508e-05,  2.4334e-05,  0.0000e+00,  ..., -1.2957e-05,
+          6.6221e-05,  2.1458e-05],
+        ...,
+        [ 1.9580e-05, -4.3124e-05,  0.0000e+00,  ...,  1.1951e-05,
+          5.5075e-05,  7.1116e-06],
+        [ 1.3493e-05,  4.8578e-06,  0.0000e+00,  ...,  3.4243e-05,
+          6.2883e-06,  1.6004e-05],
+        [-6.2585e-06, -3.6582e-06,  0.0000e+00,  ...,  1.0535e-05,
+          4.9286e-06, -3.5651e-06]], device='cuda:0')
+Epoch 89, bias, value: tensor([-0.0267,  0.0119,  0.0128,  0.0283,  0.0237, -0.0194,  0.0252,  0.0276,
+        -0.0084,  0.0091], device='cuda:0'), grad: tensor([ 5.3525e-05, -1.8120e-04,  4.6223e-05, -2.5332e-05,  1.0866e-04,
+         5.1856e-05, -2.1470e-04,  7.3493e-05,  8.3029e-05,  4.4517e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 88, time 248.72, cls_loss 0.0028 cls_loss_mapping 0.0098 cls_loss_causal 0.5497 re_mapping 0.0078 re_causal 0.0227 /// teacc 98.83 lr 0.00010000
+Epoch 90, weight, value: tensor([[ 0.0417, -0.0826, -0.1061,  ..., -0.0611, -0.0481, -0.0509],
+        [-0.0024,  0.0486, -0.0278,  ..., -0.0051,  0.1169,  0.0214],
+        [-0.0111, -0.0971, -0.0177,  ...,  0.0914, -0.0812,  0.0074],
+        ...,
+        [-0.0356,  0.0838,  0.0317,  ..., -0.0617,  0.0731,  0.0289],
+        [-0.0121, -0.0444,  0.0092,  ..., -0.0196, -0.1141, -0.0558],
+        [-0.0126,  0.0030, -0.0012,  ..., -0.1004, -0.0792,  0.0260]],
+       device='cuda:0'), grad: tensor([[ 2.2650e-06,  1.4585e-06,  6.2818e-07,  ...,  2.8592e-06,
+          1.8487e-06,  4.1313e-06],
+        [ 4.3847e-06,  1.4871e-05,  7.7263e-06,  ...,  3.3770e-06,
+          1.9446e-05,  2.0415e-05],
+        [ 2.7880e-05,  1.9252e-05,  1.1280e-05,  ..., -1.8477e-05,
+          2.7850e-05, -5.8562e-06],
+        ...,
+        [ 5.3309e-06, -6.1929e-05, -2.3633e-05,  ...,  1.1981e-05,
+         -9.1255e-05, -5.3912e-05],
+        [ 1.5929e-05,  3.1050e-06,  2.3115e-06,  ...,  4.9137e-06,
+          4.5225e-06,  9.1940e-06],
+        [ 1.3381e-05,  1.4147e-06,  1.1455e-06,  ...,  6.5705e-07,
+          5.8040e-06, -1.0371e-05]], device='cuda:0')
+Epoch 90, bias, value: tensor([-0.0270,  0.0121,  0.0125,  0.0280,  0.0239, -0.0191,  0.0251,  0.0278,
+        -0.0085,  0.0091], device='cuda:0'), grad: tensor([ 2.1145e-05,  6.7234e-05,  6.5923e-05, -4.1604e-04,  5.7101e-05,
+         2.5153e-04, -3.7849e-05, -9.6619e-05,  7.6592e-05,  1.1273e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 89, time 249.14, cls_loss 0.0041 cls_loss_mapping 0.0133 cls_loss_causal 0.5777 re_mapping 0.0074 re_causal 0.0222 /// teacc 99.01 lr 0.00010000
+Epoch 91, weight, value: tensor([[ 0.0419, -0.0832, -0.1067,  ..., -0.0616, -0.0490, -0.0519],
+        [-0.0022,  0.0494, -0.0280,  ..., -0.0061,  0.1183,  0.0220],
+        [-0.0106, -0.0977, -0.0176,  ...,  0.0933, -0.0816,  0.0085],
+        ...,
+        [-0.0359,  0.0834,  0.0319,  ..., -0.0620,  0.0726,  0.0286],
+        [-0.0121, -0.0444,  0.0093,  ..., -0.0201, -0.1149, -0.0564],
+        [-0.0125,  0.0028, -0.0011,  ..., -0.1016, -0.0800,  0.0253]],
+       device='cuda:0'), grad: tensor([[ 3.3062e-06,  1.6820e-06,  1.7171e-08,  ...,  3.9637e-06,
+          2.1067e-06,  4.3996e-06],
+        [-3.5018e-05, -7.3493e-05,  7.5903e-08,  ...,  4.1351e-06,
+         -1.1212e-04, -4.0084e-05],
+        [-8.7395e-06,  6.1467e-06,  1.6589e-08,  ..., -2.8223e-05,
+          1.1325e-05, -7.1377e-06],
+        ...,
+        [ 2.6301e-05,  2.7314e-05,  7.5204e-08,  ...,  5.4911e-06,
+          4.7922e-05,  2.0564e-05],
+        [ 2.7996e-06,  2.8908e-06,  6.8860e-08,  ...,  2.0564e-05,
+          4.5672e-06,  1.3046e-05],
+        [ 9.4175e-06,  4.8168e-06,  1.2596e-07,  ...,  1.4186e-05,
+          7.5325e-06, -4.5486e-06]], device='cuda:0')
+Epoch 91, bias, value: tensor([-0.0273,  0.0125,  0.0140,  0.0282,  0.0243, -0.0192,  0.0251,  0.0272,
+        -0.0087,  0.0083], device='cuda:0'), grad: tensor([ 5.6662e-06, -1.0991e-04, -1.7345e-05, -4.5747e-05, -3.2157e-05,
+        -7.8559e-05,  6.1393e-05,  1.0675e-04,  2.6986e-05,  8.2970e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 90, time 248.82, cls_loss 0.0031 cls_loss_mapping 0.0092 cls_loss_causal 0.6076 re_mapping 0.0073 re_causal 0.0222 /// teacc 98.95 lr 0.00010000
+Epoch 92, weight, value: tensor([[ 0.0426, -0.0838, -0.1058,  ..., -0.0619, -0.0500, -0.0528],
+        [-0.0009,  0.0498, -0.0285,  ..., -0.0064,  0.1190,  0.0226],
+        [-0.0112, -0.0981, -0.0175,  ...,  0.0937, -0.0821,  0.0085],
+        ...,
+        [-0.0369,  0.0835,  0.0331,  ..., -0.0625,  0.0725,  0.0285],
+        [-0.0119, -0.0443,  0.0093,  ..., -0.0206, -0.1155, -0.0569],
+        [-0.0123,  0.0023, -0.0013,  ..., -0.1017, -0.0811,  0.0257]],
+       device='cuda:0'), grad: tensor([[ 3.1918e-05,  4.7907e-06,  9.7454e-06,  ...,  2.8033e-06,
+          2.6878e-06,  7.1228e-05],
+        [-1.9208e-05, -1.0647e-05,  4.0396e-07,  ...,  2.3507e-06,
+         -5.1737e-05, -7.9572e-06],
+        [ 2.5228e-05,  7.8902e-06,  5.5395e-06,  ..., -8.3223e-06,
+          8.7917e-06,  2.9311e-05],
+        ...,
+        [ 1.2182e-05, -9.8161e-07,  1.2880e-06,  ...,  5.0627e-06,
+          1.4305e-06,  6.1058e-06],
+        [-1.0461e-04, -1.3459e-04,  2.4512e-06,  ...,  2.9169e-06,
+          2.3857e-05,  2.3514e-05],
+        [ 3.7737e-06,  8.6665e-05, -2.6897e-05,  ...,  4.4145e-06,
+          5.5321e-06, -1.9109e-04]], device='cuda:0')
+Epoch 92, bias, value: tensor([-0.0269,  0.0130,  0.0133,  0.0285,  0.0240, -0.0195,  0.0249,  0.0270,
+        -0.0087,  0.0087], device='cuda:0'), grad: tensor([ 1.5187e-04, -1.7032e-05,  9.1553e-05,  4.1747e-04, -2.5749e-04,
+        -2.6941e-04,  3.2830e-04,  4.1127e-05, -4.4084e-04, -4.4972e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 91, time 248.99, cls_loss 0.0026 cls_loss_mapping 0.0092 cls_loss_causal 0.5583 re_mapping 0.0075 re_causal 0.0226 /// teacc 98.98 lr 0.00010000
+Epoch 93, weight, value: tensor([[ 0.0429, -0.0840, -0.1100,  ..., -0.0628, -0.0504, -0.0532],
+        [-0.0007,  0.0497, -0.0286,  ..., -0.0069,  0.1191,  0.0225],
+        [-0.0110, -0.0984, -0.0171,  ...,  0.0942, -0.0823,  0.0088],
+        ...,
+        [-0.0372,  0.0838,  0.0330,  ..., -0.0628,  0.0727,  0.0287],
+        [-0.0117, -0.0442,  0.0089,  ..., -0.0208, -0.1159, -0.0572],
+        [-0.0124,  0.0021, -0.0011,  ..., -0.1024, -0.0815,  0.0252]],
+       device='cuda:0'), grad: tensor([[ 1.5665e-06,  1.1958e-06,  4.3510e-09,  ...,  8.7963e-07,
+          8.6613e-07,  8.2888e-07],
+        [ 8.0420e-07,  2.0303e-06,  4.0600e-09,  ...,  1.8300e-06,
+         -1.2098e-06,  1.6894e-06],
+        [ 3.1814e-06,  3.8184e-06,  1.5323e-08,  ..., -2.3115e-06,
+          3.0790e-06, -3.4142e-06],
+        ...,
+        [ 1.5333e-05,  7.3984e-06,  6.6939e-09,  ...,  1.0282e-06,
+          3.0212e-06, -1.1204e-06],
+        [ 3.6154e-06,  1.6578e-06,  2.3007e-08,  ...,  1.6289e-06,
+          1.5805e-06,  2.2519e-06],
+        [ 5.7854e-06,  1.6000e-06,  1.7637e-08,  ...,  7.5763e-07,
+          2.2501e-06, -1.4473e-06]], device='cuda:0')
+Epoch 93, bias, value: tensor([-0.0272,  0.0128,  0.0133,  0.0283,  0.0247, -0.0191,  0.0253,  0.0270,
+        -0.0087,  0.0079], device='cuda:0'), grad: tensor([ 1.4506e-05,  1.9416e-05,  2.3142e-05, -1.7786e-04,  9.5740e-06,
+        -6.8188e-05,  8.1360e-06,  1.1933e-04,  2.3305e-05,  2.8536e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 92, time 248.77, cls_loss 0.0024 cls_loss_mapping 0.0077 cls_loss_causal 0.5595 re_mapping 0.0074 re_causal 0.0232 /// teacc 99.06 lr 0.00010000
+Epoch 94, weight, value: tensor([[ 0.0432, -0.0843, -0.1111,  ..., -0.0638, -0.0511, -0.0536],
+        [-0.0003,  0.0497, -0.0287,  ..., -0.0069,  0.1194,  0.0227],
+        [-0.0112, -0.0995, -0.0164,  ...,  0.0950, -0.0834,  0.0084],
+        ...,
+        [-0.0374,  0.0842,  0.0328,  ..., -0.0633,  0.0731,  0.0290],
+        [-0.0115, -0.0440,  0.0074,  ..., -0.0212, -0.1164, -0.0577],
+        [-0.0123,  0.0021, -0.0013,  ..., -0.1030, -0.0818,  0.0255]],
+       device='cuda:0'), grad: tensor([[ 1.8964e-07,  1.6326e-06,  1.9339e-08,  ...,  1.7472e-06,
+          1.7490e-06,  3.1926e-06],
+        [-1.1520e-06,  1.1124e-05,  5.8062e-09,  ...,  3.9265e-06,
+          1.0356e-05,  1.3523e-05],
+        [-1.7891e-06,  2.9244e-06,  3.6089e-09,  ..., -1.3843e-05,
+          2.6580e-06, -8.1360e-06],
+        ...,
+        [ 5.5274e-07, -3.4839e-05,  2.4447e-08,  ...,  2.8871e-06,
+         -5.8502e-05, -1.9297e-05],
+        [-2.4657e-07,  5.2787e-06,  3.4197e-08,  ...,  1.3057e-06,
+          3.4664e-06,  8.0019e-06],
+        [ 2.5914e-07, -5.0291e-06, -2.0454e-07,  ...,  7.7672e-07,
+          2.2247e-05, -2.0415e-05]], device='cuda:0')
+Epoch 94, bias, value: tensor([-0.0275,  0.0130,  0.0128,  0.0286,  0.0241, -0.0188,  0.0252,  0.0272,
+        -0.0085,  0.0078], device='cuda:0'), grad: tensor([ 6.0983e-06,  2.5496e-05, -1.5706e-05,  1.0848e-05,  2.8953e-05,
+         2.0340e-06,  7.0855e-06, -3.8147e-05,  1.1228e-05, -3.7998e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 93, time 249.10, cls_loss 0.0030 cls_loss_mapping 0.0093 cls_loss_causal 0.6135 re_mapping 0.0067 re_causal 0.0219 /// teacc 98.98 lr 0.00010000
+Epoch 95, weight, value: tensor([[ 0.0426, -0.0851, -0.1120,  ..., -0.0636, -0.0520, -0.0560],
+        [-0.0002,  0.0493, -0.0288,  ..., -0.0071,  0.1193,  0.0224],
+        [-0.0112, -0.1001, -0.0160,  ...,  0.0959, -0.0839,  0.0088],
+        ...,
+        [-0.0374,  0.0851,  0.0330,  ..., -0.0635,  0.0738,  0.0296],
+        [-0.0113, -0.0444,  0.0076,  ..., -0.0216, -0.1173, -0.0585],
+        [-0.0115,  0.0016, -0.0015,  ..., -0.1044, -0.0830,  0.0258]],
+       device='cuda:0'), grad: tensor([[ 1.2910e-04,  3.2131e-06,  4.4401e-07,  ...,  2.6464e-05,
+          3.0566e-06,  2.9415e-05],
+        [ 1.0237e-05,  4.9770e-06,  5.4808e-07,  ...,  3.6396e-06,
+          4.1276e-06,  1.3031e-05],
+        [ 5.7369e-05,  2.7455e-06,  1.7993e-06,  ..., -1.1861e-05,
+          2.2370e-06, -7.7039e-06],
+        ...,
+        [ 2.8327e-05,  8.6129e-05,  1.3001e-06,  ...,  1.4566e-05,
+          1.0550e-04,  1.5223e-04],
+        [-5.4312e-04,  2.2948e-06,  1.5777e-06,  ..., -1.1837e-04,
+          1.7975e-06, -1.0729e-04],
+        [ 3.2806e-04, -1.2660e-04,  5.2527e-07,  ...,  7.5519e-05,
+         -1.5283e-04, -3.9846e-05]], device='cuda:0')
+Epoch 95, bias, value: tensor([-0.0284,  0.0127,  0.0130,  0.0282,  0.0242, -0.0189,  0.0251,  0.0278,
+        -0.0086,  0.0082], device='cuda:0'), grad: tensor([ 4.9782e-04,  6.2406e-05,  1.9562e-04,  3.0971e-04, -3.8087e-05,
+        -3.7432e-04,  5.6535e-05,  4.2200e-04, -2.0847e-03,  9.5415e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 94, time 248.93, cls_loss 0.0026 cls_loss_mapping 0.0089 cls_loss_causal 0.5930 re_mapping 0.0073 re_causal 0.0223 /// teacc 98.97 lr 0.00010000
+Epoch 96, weight, value: tensor([[ 0.0423, -0.0855, -0.1130,  ..., -0.0638, -0.0524, -0.0566],
+        [ 0.0001,  0.0495, -0.0289,  ..., -0.0073,  0.1196,  0.0225],
+        [-0.0114, -0.1005, -0.0159,  ...,  0.0963, -0.0841,  0.0090],
+        ...,
+        [-0.0378,  0.0853,  0.0329,  ..., -0.0639,  0.0739,  0.0296],
+        [-0.0110, -0.0447,  0.0074,  ..., -0.0218, -0.1179, -0.0590],
+        [-0.0107,  0.0014, -0.0015,  ..., -0.1044, -0.0835,  0.0258]],
+       device='cuda:0'), grad: tensor([[ 1.9725e-06,  4.1910e-06,  0.0000e+00,  ...,  3.4869e-06,
+          4.3400e-06,  6.5416e-06],
+        [-1.0684e-05, -1.7425e-06,  0.0000e+00,  ...,  1.2005e-06,
+         -2.2128e-05,  2.6315e-05],
+        [-6.1393e-06,  1.7047e-05,  0.0000e+00,  ..., -1.3985e-05,
+          1.5453e-05,  2.2709e-05],
+        ...,
+        [ 4.0196e-06, -1.0127e-04,  0.0000e+00,  ...,  3.5241e-06,
+         -7.6294e-05, -8.2655e-07],
+        [ 4.0643e-06,  8.1509e-06,  0.0000e+00,  ...,  5.3905e-06,
+          1.1012e-05,  3.3826e-05],
+        [ 1.2014e-06,  2.8715e-05,  0.0000e+00,  ...,  2.0228e-06,
+          2.0683e-05,  1.5688e-04]], device='cuda:0')
+Epoch 96, bias, value: tensor([-0.0288,  0.0128,  0.0127,  0.0281,  0.0243, -0.0194,  0.0254,  0.0277,
+        -0.0083,  0.0086], device='cuda:0'), grad: tensor([ 2.3156e-05,  2.2471e-05,  4.5508e-05,  8.5831e-05, -4.3440e-04,
+         3.8087e-05,  2.2650e-06, -1.2279e-04,  7.3433e-05,  2.6631e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 95, time 248.55, cls_loss 0.0026 cls_loss_mapping 0.0088 cls_loss_causal 0.5626 re_mapping 0.0069 re_causal 0.0212 /// teacc 98.95 lr 0.00010000
+Epoch 97, weight, value: tensor([[ 0.0422, -0.0859, -0.1130,  ..., -0.0644, -0.0530, -0.0569],
+        [ 0.0005,  0.0497, -0.0289,  ..., -0.0073,  0.1201,  0.0228],
+        [-0.0114, -0.1010, -0.0159,  ...,  0.0969, -0.0845,  0.0093],
+        ...,
+        [-0.0383,  0.0856,  0.0330,  ..., -0.0645,  0.0740,  0.0296],
+        [-0.0108, -0.0446,  0.0074,  ..., -0.0222, -0.1185, -0.0596],
+        [-0.0111,  0.0013, -0.0016,  ..., -0.1052, -0.0840,  0.0257]],
+       device='cuda:0'), grad: tensor([[-1.4910e-06,  1.9949e-06,  4.6974e-08,  ...,  1.7121e-05,
+          1.0151e-06,  1.8794e-06],
+        [ 4.5598e-06,  8.5056e-05,  1.2282e-07,  ...,  5.7109e-06,
+          1.1539e-04,  7.5519e-05],
+        [-2.5421e-05,  4.3474e-06, -1.1120e-06,  ..., -4.7028e-05,
+          3.4347e-06, -5.8085e-05],
+        ...,
+        [-5.0776e-06, -1.5485e-04,  2.2730e-08,  ...,  1.2061e-06,
+         -1.9884e-04, -1.2970e-04],
+        [ 2.8908e-06,  7.7188e-06,  5.3365e-07,  ...,  8.3521e-06,
+          8.8438e-06,  9.1791e-06],
+        [ 1.4983e-05,  5.2042e-06,  8.4983e-09,  ...,  5.2333e-05,
+          1.0803e-05,  5.2065e-05]], device='cuda:0')
+Epoch 97, bias, value: tensor([-0.0294,  0.0131,  0.0127,  0.0279,  0.0246, -0.0184,  0.0255,  0.0275,
+        -0.0083,  0.0080], device='cuda:0'), grad: tensor([ 1.8671e-05,  1.6391e-04, -8.9645e-05,  4.1962e-05,  2.3496e-04,
+         2.7165e-05, -2.4891e-04, -2.7013e-04,  2.9758e-05,  9.2506e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 96, time 248.99, cls_loss 0.0027 cls_loss_mapping 0.0076 cls_loss_causal 0.5660 re_mapping 0.0067 re_causal 0.0207 /// teacc 99.01 lr 0.00010000
+Epoch 98, weight, value: tensor([[ 0.0427, -0.0864, -0.1131,  ..., -0.0651, -0.0537, -0.0573],
+        [ 0.0003,  0.0494, -0.0289,  ..., -0.0075,  0.1200,  0.0226],
+        [-0.0115, -0.1014, -0.0159,  ...,  0.0975, -0.0848,  0.0097],
+        ...,
+        [-0.0385,  0.0863,  0.0333,  ..., -0.0649,  0.0746,  0.0301],
+        [-0.0106, -0.0452,  0.0074,  ..., -0.0225, -0.1195, -0.0605],
+        [-0.0108,  0.0011, -0.0016,  ..., -0.1069, -0.0842,  0.0254]],
+       device='cuda:0'), grad: tensor([[ 1.5777e-06,  1.1623e-06,  6.6939e-10,  ...,  5.5842e-06,
+          1.2033e-06,  4.1276e-06],
+        [-2.7125e-07, -8.0676e-08,  1.4697e-09,  ...,  2.8051e-06,
+         -9.3877e-06,  4.2166e-07],
+        [ 1.8463e-05,  1.1194e-06,  9.6188e-09,  ..., -4.0792e-06,
+          3.6508e-06, -6.4746e-06],
+        ...,
+        [ 4.0829e-06,  9.6142e-05,  1.7608e-09,  ...,  2.6077e-06,
+          4.9949e-05,  1.4770e-04],
+        [-4.3452e-05,  2.1681e-06,  2.9831e-09,  ..., -1.4193e-06,
+          5.4948e-06,  6.0685e-06],
+        [-2.7083e-06, -1.2201e-04,  1.3388e-09,  ...,  4.1574e-06,
+         -6.0350e-05, -1.9848e-04]], device='cuda:0')
+Epoch 98, bias, value: tensor([-0.0292,  0.0125,  0.0127,  0.0277,  0.0248, -0.0182,  0.0258,  0.0279,
+        -0.0085,  0.0078], device='cuda:0'), grad: tensor([ 4.5985e-05,  1.5497e-04,  8.1897e-05, -6.9678e-05,  1.4734e-04,
+         1.0103e-04,  1.3530e-04,  3.7646e-04, -5.7030e-04, -4.0197e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 97, time 248.72, cls_loss 0.0024 cls_loss_mapping 0.0081 cls_loss_causal 0.5687 re_mapping 0.0070 re_causal 0.0212 /// teacc 98.99 lr 0.00010000
+Epoch 99, weight, value: tensor([[ 0.0428, -0.0870, -0.1132,  ..., -0.0658, -0.0547, -0.0576],
+        [ 0.0006,  0.0493, -0.0290,  ..., -0.0077,  0.1202,  0.0224],
+        [-0.0115, -0.1016, -0.0160,  ...,  0.0980, -0.0850,  0.0101],
+        ...,
+        [-0.0389,  0.0868,  0.0335,  ..., -0.0654,  0.0750,  0.0305],
+        [-0.0101, -0.0453,  0.0074,  ..., -0.0228, -0.1205, -0.0611],
+        [-0.0107,  0.0006, -0.0017,  ..., -0.1080, -0.0849,  0.0254]],
+       device='cuda:0'), grad: tensor([[ 1.1131e-05,  3.0939e-06,  0.0000e+00,  ...,  1.5795e-05,
+          4.3474e-06,  5.3644e-06],
+        [-4.4927e-06, -3.2154e-07,  0.0000e+00,  ...,  4.9956e-06,
+         -9.8422e-06,  3.7327e-06],
+        [-7.3135e-05, -1.8895e-05,  0.0000e+00,  ..., -1.6665e-04,
+          1.6009e-06, -3.4064e-05],
+        ...,
+        [ 8.6203e-06, -9.4920e-06,  0.0000e+00,  ...,  1.2763e-05,
+         -9.5665e-06, -1.3765e-06],
+        [ 1.9923e-05,  5.5321e-06,  0.0000e+00,  ...,  1.8224e-05,
+          8.5011e-06,  7.3947e-06],
+        [-6.5938e-06, -2.4959e-06,  0.0000e+00,  ...,  4.3698e-06,
+         -4.7348e-06, -1.3031e-05]], device='cuda:0')
+Epoch 99, bias, value: tensor([-0.0294,  0.0123,  0.0128,  0.0279,  0.0248, -0.0190,  0.0257,  0.0282,
+        -0.0077,  0.0076], device='cuda:0'), grad: tensor([ 5.4568e-05,  1.7896e-05, -3.1042e-04,  5.6922e-05,  1.1981e-05,
+        -4.0904e-06,  3.7432e-05,  3.6359e-05,  1.0055e-04, -1.8794e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 98, time 248.79, cls_loss 0.0024 cls_loss_mapping 0.0071 cls_loss_causal 0.5535 re_mapping 0.0071 re_causal 0.0213 /// teacc 98.90 lr 0.00010000
+Epoch 100, weight, value: tensor([[ 0.0434, -0.0876, -0.1133,  ..., -0.0659, -0.0554, -0.0579],
+        [ 0.0007,  0.0492, -0.0290,  ..., -0.0080,  0.1203,  0.0222],
+        [-0.0117, -0.1023, -0.0161,  ...,  0.0983, -0.0853,  0.0101],
+        ...,
+        [-0.0391,  0.0875,  0.0335,  ..., -0.0656,  0.0755,  0.0312],
+        [-0.0102, -0.0455,  0.0076,  ..., -0.0235, -0.1214, -0.0621],
+        [-0.0110,  0.0002, -0.0017,  ..., -0.1097, -0.0859,  0.0255]],
+       device='cuda:0'), grad: tensor([[-7.2159e-06,  4.5984e-07,  0.0000e+00,  ...,  7.2084e-06,
+          7.1665e-07,  3.8743e-06],
+        [-8.8057e-07,  1.9968e-06,  0.0000e+00,  ...,  3.6769e-06,
+         -1.9819e-06,  3.9227e-06],
+        [ 7.0222e-06,  3.7346e-06,  0.0000e+00,  ...,  4.5486e-06,
+          5.1409e-06,  1.0394e-05],
+        ...,
+        [ 2.4196e-06, -1.0870e-05,  0.0000e+00,  ...,  2.4512e-06,
+         -8.7991e-06, -3.9041e-06],
+        [ 1.6972e-05,  6.1747e-07,  0.0000e+00,  ..., -4.8690e-06,
+          8.2562e-07,  6.3241e-05],
+        [-1.4222e-04,  9.7323e-07,  0.0000e+00,  ...,  1.1511e-05,
+          9.9372e-07, -3.5167e-04]], device='cuda:0')
+Epoch 100, bias, value: tensor([-0.0291,  0.0121,  0.0123,  0.0286,  0.0253, -0.0190,  0.0257,  0.0288,
+        -0.0084,  0.0071], device='cuda:0'), grad: tensor([-1.5587e-05,  1.6525e-05,  4.6462e-05,  1.2824e-06,  7.7486e-04,
+         5.6058e-05, -1.9640e-05,  4.5635e-06,  1.3447e-04, -9.9945e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 99----------------------------------------------------
+epoch 99, time 249.36, cls_loss 0.0032 cls_loss_mapping 0.0095 cls_loss_causal 0.5624 re_mapping 0.0068 re_causal 0.0202 /// teacc 99.08 lr 0.00010000
+Epoch 101, weight, value: tensor([[ 0.0455, -0.0882, -0.1134,  ..., -0.0651, -0.0561, -0.0590],
+        [ 0.0004,  0.0492, -0.0290,  ..., -0.0083,  0.1205,  0.0219],
+        [-0.0115, -0.1026, -0.0162,  ...,  0.0998, -0.0860,  0.0110],
+        ...,
+        [-0.0396,  0.0878,  0.0335,  ..., -0.0664,  0.0757,  0.0313],
+        [-0.0098, -0.0457,  0.0076,  ..., -0.0244, -0.1223, -0.0636],
+        [-0.0112,  0.0002, -0.0017,  ..., -0.1116, -0.0854,  0.0258]],
+       device='cuda:0'), grad: tensor([[-3.6731e-06,  2.8918e-07,  0.0000e+00,  ...,  2.5574e-06,
+          1.6252e-07,  1.1688e-06],
+        [-3.2280e-06, -4.1947e-06,  0.0000e+00,  ...,  2.7530e-06,
+         -9.4548e-06, -2.6394e-06],
+        [-2.0005e-06, -5.3411e-07,  0.0000e+00,  ..., -5.2750e-06,
+          1.0887e-06, -2.6859e-06],
+        ...,
+        [ 2.9746e-06,  1.6922e-06,  0.0000e+00,  ...,  1.8068e-06,
+          2.7474e-06,  5.1744e-06],
+        [ 3.6079e-06,  1.4221e-06,  0.0000e+00,  ...,  4.6082e-06,
+          1.7826e-06,  3.3993e-06],
+        [ 1.3933e-06, -1.1465e-06,  0.0000e+00,  ...,  1.2331e-06,
+          1.2666e-06, -1.2904e-05]], device='cuda:0')
+Epoch 101, bias, value: tensor([-0.0273,  0.0115,  0.0130,  0.0281,  0.0255, -0.0195,  0.0250,  0.0286,
+        -0.0084,  0.0072], device='cuda:0'), grad: tensor([-9.2462e-06, -4.7572e-06, -4.6454e-06, -2.4691e-05,  1.1615e-05,
+         1.7494e-05,  6.4843e-08,  1.7568e-05,  1.7956e-05, -2.1428e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 100, time 248.77, cls_loss 0.0025 cls_loss_mapping 0.0081 cls_loss_causal 0.5323 re_mapping 0.0071 re_causal 0.0207 /// teacc 98.98 lr 0.00010000
+Epoch 102, weight, value: tensor([[ 0.0458, -0.0885, -0.1134,  ..., -0.0658, -0.0566, -0.0593],
+        [ 0.0006,  0.0491, -0.0290,  ..., -0.0085,  0.1207,  0.0218],
+        [-0.0114, -0.1030, -0.0162,  ...,  0.1005, -0.0866,  0.0114],
+        ...,
+        [-0.0400,  0.0882,  0.0335,  ..., -0.0669,  0.0760,  0.0316],
+        [-0.0096, -0.0463,  0.0076,  ..., -0.0245, -0.1231, -0.0653],
+        [-0.0107,  0.0003, -0.0017,  ..., -0.1127, -0.0856,  0.0260]],
+       device='cuda:0'), grad: tensor([[ 6.7770e-05,  5.7183e-06,  0.0000e+00,  ...,  2.3615e-04,
+          1.9744e-06,  3.4422e-05],
+        [-2.1875e-05, -2.0966e-05,  0.0000e+00,  ...,  1.1176e-05,
+         -4.9323e-05, -1.2174e-05],
+        [ 6.4261e-06,  1.2942e-05,  0.0000e+00,  ..., -2.5094e-05,
+          7.5176e-06, -3.7793e-06],
+        ...,
+        [ 6.1952e-06, -4.9382e-05,  0.0000e+00,  ...,  3.1143e-05,
+          1.1697e-05, -4.5806e-05],
+        [ 6.2659e-06,  1.7546e-06,  0.0000e+00,  ...,  2.6524e-05,
+          3.2037e-06,  9.3058e-06],
+        [ 2.4080e-05,  4.3362e-05,  0.0000e+00,  ...,  1.5050e-05,
+          1.6585e-05,  9.4354e-05]], device='cuda:0')
+Epoch 102, bias, value: tensor([-0.0275,  0.0115,  0.0131,  0.0287,  0.0253, -0.0202,  0.0252,  0.0287,
+        -0.0089,  0.0078], device='cuda:0'), grad: tensor([ 6.2704e-04, -3.7640e-05, -2.7567e-06,  3.7968e-05, -4.2605e-04,
+        -3.9116e-06, -4.9257e-04, -3.6061e-05,  7.6473e-05,  2.5749e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 101, time 249.06, cls_loss 0.0022 cls_loss_mapping 0.0075 cls_loss_causal 0.5917 re_mapping 0.0067 re_causal 0.0217 /// teacc 98.96 lr 0.00010000
+Epoch 103, weight, value: tensor([[ 0.0461, -0.0891, -0.1134,  ..., -0.0668, -0.0578, -0.0598],
+        [ 0.0012,  0.0493, -0.0290,  ..., -0.0086,  0.1213,  0.0220],
+        [-0.0118, -0.1033, -0.0162,  ...,  0.1013, -0.0871,  0.0120],
+        ...,
+        [-0.0404,  0.0886,  0.0335,  ..., -0.0675,  0.0763,  0.0316],
+        [-0.0091, -0.0474,  0.0076,  ..., -0.0250, -0.1252, -0.0664],
+        [-0.0107,  0.0003, -0.0017,  ..., -0.1133, -0.0864,  0.0260]],
+       device='cuda:0'), grad: tensor([[ 2.7032e-07,  2.5611e-07,  0.0000e+00,  ...,  7.5391e-07,
+          2.9919e-07,  4.5821e-07],
+        [-1.2498e-06,  9.2248e-07,  0.0000e+00,  ...,  9.2201e-07,
+         -1.2955e-06,  6.3656e-07],
+        [-3.0268e-06,  1.3262e-06,  0.0000e+00,  ..., -6.0089e-06,
+          1.8291e-06,  1.6829e-06],
+        ...,
+        [ 6.9942e-07, -4.5560e-06,  0.0000e+00,  ...,  7.1572e-07,
+         -3.8259e-06, -3.5837e-06],
+        [ 3.8326e-05,  2.4354e-07,  0.0000e+00,  ...,  5.7742e-06,
+          5.0059e-07,  2.7701e-05],
+        [-6.1691e-05,  1.4040e-07,  0.0000e+00,  ...,  2.6617e-06,
+          8.1770e-07, -4.7028e-05]], device='cuda:0')
+Epoch 103, bias, value: tensor([-0.0275,  0.0119,  0.0130,  0.0285,  0.0257, -0.0202,  0.0251,  0.0288,
+        -0.0092,  0.0074], device='cuda:0'), grad: tensor([ 1.6121e-06,  2.2389e-06, -3.6526e-06, -1.0654e-05,  5.0843e-05,
+         7.7114e-06,  4.0121e-06, -4.6566e-06,  9.8884e-05, -1.4627e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 102, time 249.19, cls_loss 0.0021 cls_loss_mapping 0.0084 cls_loss_causal 0.5470 re_mapping 0.0068 re_causal 0.0207 /// teacc 99.05 lr 0.00010000
+Epoch 104, weight, value: tensor([[ 0.0461, -0.0896, -0.1134,  ..., -0.0673, -0.0583, -0.0601],
+        [ 0.0016,  0.0493, -0.0290,  ..., -0.0092,  0.1216,  0.0220],
+        [-0.0121, -0.1037, -0.0162,  ...,  0.1015, -0.0875,  0.0123],
+        ...,
+        [-0.0409,  0.0887,  0.0335,  ..., -0.0678,  0.0764,  0.0314],
+        [-0.0090, -0.0476,  0.0076,  ..., -0.0253, -0.1255, -0.0668],
+        [-0.0105,  0.0007, -0.0017,  ..., -0.1138, -0.0863,  0.0263]],
+       device='cuda:0'), grad: tensor([[-2.1793e-06,  1.7602e-06,  0.0000e+00,  ...,  1.4096e-05,
+          4.6901e-06,  2.0768e-06],
+        [-7.3373e-05,  2.6241e-05,  0.0000e+00,  ...,  2.0042e-06,
+         -5.6148e-05, -1.9222e-05],
+        [ 1.0751e-05,  6.6221e-05,  0.0000e+00,  ...,  2.8729e-05,
+          4.2558e-05,  9.0778e-05],
+        ...,
+        [-1.3141e-06, -3.8195e-04,  0.0000e+00,  ..., -3.1978e-05,
+         -3.9721e-04, -2.5868e-04],
+        [ 4.1336e-05,  1.3232e-05,  0.0000e+00,  ...,  2.6431e-06,
+          5.6744e-05,  2.3082e-05],
+        [ 2.9191e-05,  1.0598e-04,  0.0000e+00,  ...,  1.4435e-06,
+          1.4925e-04,  6.3956e-05]], device='cuda:0')
+Epoch 104, bias, value: tensor([-0.0277,  0.0119,  0.0123,  0.0297,  0.0253, -0.0195,  0.0254,  0.0282,
+        -0.0093,  0.0077], device='cuda:0'), grad: tensor([ 3.3259e-05, -6.6400e-05,  1.7393e-04,  2.2018e-04,  7.2122e-05,
+         2.7955e-05, -9.2149e-05, -7.6962e-04,  1.1814e-04,  2.8253e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 103, time 248.74, cls_loss 0.0020 cls_loss_mapping 0.0057 cls_loss_causal 0.5575 re_mapping 0.0064 re_causal 0.0198 /// teacc 99.00 lr 0.00010000
+Epoch 105, weight, value: tensor([[ 0.0460, -0.0894, -0.1134,  ..., -0.0683, -0.0589, -0.0605],
+        [ 0.0019,  0.0492, -0.0290,  ..., -0.0096,  0.1218,  0.0219],
+        [-0.0121, -0.1043, -0.0162,  ...,  0.1019, -0.0877,  0.0127],
+        ...,
+        [-0.0411,  0.0892,  0.0335,  ..., -0.0682,  0.0767,  0.0317],
+        [-0.0089, -0.0477,  0.0076,  ..., -0.0256, -0.1261, -0.0673],
+        [-0.0108,  0.0006, -0.0017,  ..., -0.1144, -0.0866,  0.0265]],
+       device='cuda:0'), grad: tensor([[-7.7859e-07,  5.3435e-08,  0.0000e+00,  ...,  5.7230e-07,
+          2.9779e-07,  2.9197e-07],
+        [-9.1121e-06, -5.7835e-07,  0.0000e+00,  ..., -9.3430e-06,
+         -2.2873e-05, -1.1235e-05],
+        [ 9.9987e-06,  7.2271e-07,  0.0000e+00,  ...,  7.6666e-06,
+          1.6481e-05,  8.6650e-06],
+        ...,
+        [ 1.5631e-05,  7.8380e-06,  0.0000e+00,  ...,  5.1316e-07,
+          2.0098e-06,  2.2035e-06],
+        [ 4.7907e-06,  8.6147e-07,  0.0000e+00,  ...,  3.1199e-07,
+          9.4669e-07,  8.0606e-07],
+        [ 1.6587e-06, -4.3516e-07,  0.0000e+00,  ...,  2.7893e-07,
+          5.9139e-07, -5.0198e-07]], device='cuda:0')
+Epoch 105, bias, value: tensor([-0.0281,  0.0118,  0.0121,  0.0300,  0.0252, -0.0194,  0.0256,  0.0284,
+        -0.0093,  0.0075], device='cuda:0'), grad: tensor([-8.4750e-07, -2.5973e-05,  3.3289e-05, -1.8048e-04, -1.8068e-06,
+         8.8394e-05,  4.7162e-06,  5.8204e-05,  1.8299e-05,  6.0163e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 104, time 248.95, cls_loss 0.0026 cls_loss_mapping 0.0075 cls_loss_causal 0.5535 re_mapping 0.0064 re_causal 0.0193 /// teacc 99.00 lr 0.00010000
+Epoch 106, weight, value: tensor([[ 4.6018e-02, -9.0405e-02, -1.1338e-01,  ..., -6.9156e-02,
+         -5.9732e-02, -6.0899e-02],
+        [ 2.6019e-03,  4.9380e-02, -2.8996e-02,  ..., -9.1717e-03,
+          1.2258e-01,  2.2521e-02],
+        [-1.1257e-02, -1.0465e-01, -1.6176e-02,  ...,  1.0310e-01,
+         -8.9068e-02,  1.3090e-02],
+        ...,
+        [-4.1379e-02,  8.9569e-02,  3.3547e-02,  ..., -6.8819e-02,
+          7.6881e-02,  3.1890e-02],
+        [-9.0471e-03, -4.7770e-02,  7.6484e-03,  ..., -2.6619e-02,
+         -1.2658e-01, -6.8568e-02],
+        [-1.1113e-02,  1.0463e-04, -1.7162e-03,  ..., -1.1530e-01,
+         -8.7433e-02,  2.6085e-02]], device='cuda:0'), grad: tensor([[ 2.0321e-06,  2.4047e-06,  0.0000e+00,  ...,  1.3761e-05,
+          6.0024e-07,  4.7088e-06],
+        [-8.8960e-06,  1.2349e-06,  0.0000e+00,  ...,  3.1665e-06,
+         -1.3299e-05,  1.9427e-06],
+        [ 2.0191e-06,  7.7859e-06,  0.0000e+00,  ...,  2.3879e-06,
+          2.1476e-06,  9.5218e-06],
+        ...,
+        [ 2.0657e-06,  1.3649e-05,  0.0000e+00,  ...,  1.5348e-05,
+         -4.9584e-06,  3.0205e-05],
+        [ 2.8405e-06,  8.4639e-06,  0.0000e+00,  ...,  1.4253e-05,
+          2.9225e-06,  1.5780e-05],
+        [ 1.3895e-05,  1.4389e-04,  0.0000e+00,  ...,  1.1510e-04,
+          1.6894e-06,  2.6441e-04]], device='cuda:0')
+Epoch 106, bias, value: tensor([-0.0284,  0.0125,  0.0129,  0.0300,  0.0261, -0.0200,  0.0254,  0.0285,
+        -0.0095,  0.0065], device='cuda:0'), grad: tensor([ 5.2631e-05, -2.9951e-06,  4.8548e-05,  9.5442e-06, -9.8228e-04,
+        -9.8050e-05, -1.2763e-05,  9.7394e-05,  7.4565e-05,  8.1301e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 105, time 248.68, cls_loss 0.0026 cls_loss_mapping 0.0085 cls_loss_causal 0.5336 re_mapping 0.0064 re_causal 0.0200 /// teacc 98.93 lr 0.00010000
+Epoch 107, weight, value: tensor([[ 0.0461, -0.0909, -0.1134,  ..., -0.0697, -0.0606, -0.0616],
+        [ 0.0045,  0.0497, -0.0290,  ..., -0.0110,  0.1239,  0.0233],
+        [-0.0113, -0.1057, -0.0162,  ...,  0.1044, -0.0895,  0.0140],
+        ...,
+        [-0.0434,  0.0895,  0.0335,  ..., -0.0698,  0.0761,  0.0311],
+        [-0.0089, -0.0480,  0.0077,  ..., -0.0271, -0.1271, -0.0691],
+        [-0.0109, -0.0002, -0.0017,  ..., -0.1159, -0.0883,  0.0265]],
+       device='cuda:0'), grad: tensor([[ 8.2515e-07,  6.5891e-08,  0.0000e+00,  ...,  6.2631e-07,
+          8.6240e-07,  6.6217e-07],
+        [-2.5287e-05, -1.3672e-06,  0.0000e+00,  ..., -1.2979e-05,
+         -2.7791e-05, -1.3202e-05],
+        [ 1.7164e-06,  1.2375e-07,  0.0000e+00,  ...,  4.5798e-07,
+          1.1809e-06,  6.5845e-07],
+        ...,
+        [ 4.5868e-07, -1.2584e-07,  0.0000e+00,  ...,  1.9604e-07,
+         -3.1898e-08,  3.0454e-07],
+        [-2.0955e-06,  6.4028e-08,  0.0000e+00,  ...,  2.2650e-06,
+          6.6729e-07,  3.5055e-06],
+        [ 8.4698e-05, -1.4470e-07,  0.0000e+00,  ...,  1.7858e-04,
+          2.5216e-07,  4.0579e-04]], device='cuda:0')
+Epoch 107, bias, value: tensor([-0.0286,  0.0120,  0.0133,  0.0309,  0.0260, -0.0211,  0.0271,  0.0276,
+        -0.0098,  0.0066], device='cuda:0'), grad: tensor([ 2.5760e-06, -5.7042e-05,  5.4389e-06,  2.4989e-05, -1.4439e-03,
+        -1.8731e-05,  5.3972e-05,  1.8636e-06,  3.2485e-06,  1.4277e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 106, time 249.04, cls_loss 0.0025 cls_loss_mapping 0.0079 cls_loss_causal 0.5470 re_mapping 0.0065 re_causal 0.0200 /// teacc 98.75 lr 0.00010000
+Epoch 108, weight, value: tensor([[ 0.0462, -0.0915, -0.1134,  ..., -0.0701, -0.0619, -0.0619],
+        [ 0.0045,  0.0488, -0.0290,  ..., -0.0114,  0.1235,  0.0223],
+        [-0.0112, -0.1062, -0.0162,  ...,  0.1052, -0.0903,  0.0144],
+        ...,
+        [-0.0426,  0.0915,  0.0335,  ..., -0.0700,  0.0778,  0.0328],
+        [-0.0087, -0.0488,  0.0077,  ..., -0.0276, -0.1277, -0.0698],
+        [-0.0113, -0.0014, -0.0017,  ..., -0.1166, -0.0906,  0.0259]],
+       device='cuda:0'), grad: tensor([[-1.0841e-06,  1.3020e-06,  0.0000e+00,  ...,  1.9129e-06,
+          3.0007e-06,  1.5153e-06],
+        [-3.0175e-05, -5.0254e-06,  0.0000e+00,  ..., -1.0310e-06,
+         -4.6045e-05, -1.3076e-05],
+        [ 1.4000e-05,  5.2042e-06,  0.0000e+00,  ...,  2.6468e-06,
+          2.2352e-05,  7.6592e-06],
+        ...,
+        [ 4.7348e-06, -2.4274e-05,  0.0000e+00,  ...,  5.8627e-07,
+         -1.0677e-05, -2.8074e-05],
+        [ 1.9353e-06,  2.3898e-06,  0.0000e+00,  ...,  3.7216e-06,
+          3.7886e-06,  1.7853e-06],
+        [ 2.8796e-06,  3.2671e-06,  0.0000e+00,  ...,  3.9325e-07,
+          5.5358e-06,  3.7178e-06]], device='cuda:0')
+Epoch 108, bias, value: tensor([-0.0286,  0.0113,  0.0135,  0.0312,  0.0261, -0.0217,  0.0270,  0.0294,
+        -0.0099,  0.0056], device='cuda:0'), grad: tensor([-6.0303e-07, -6.3598e-05,  4.2558e-05,  1.1154e-05,  3.6180e-05,
+         9.3505e-06, -2.8327e-05, -3.1471e-05,  1.2740e-05,  1.2003e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 107, time 249.07, cls_loss 0.0024 cls_loss_mapping 0.0063 cls_loss_causal 0.5377 re_mapping 0.0064 re_causal 0.0197 /// teacc 99.02 lr 0.00010000
+Epoch 109, weight, value: tensor([[ 0.0463, -0.0921, -0.1134,  ..., -0.0702, -0.0627, -0.0624],
+        [ 0.0050,  0.0488, -0.0290,  ..., -0.0117,  0.1238,  0.0223],
+        [-0.0119, -0.1068, -0.0162,  ...,  0.1056, -0.0906,  0.0150],
+        ...,
+        [-0.0429,  0.0917,  0.0335,  ..., -0.0709,  0.0779,  0.0328],
+        [-0.0076, -0.0486,  0.0077,  ..., -0.0274, -0.1286, -0.0703],
+        [-0.0117, -0.0014, -0.0017,  ..., -0.1174, -0.0906,  0.0258]],
+       device='cuda:0'), grad: tensor([[ 3.8631e-06,  1.1418e-06,  0.0000e+00,  ...,  6.6422e-06,
+          1.0971e-06,  2.2482e-06],
+        [ 1.8507e-05,  6.4634e-06,  0.0000e+00,  ...,  2.2560e-05,
+          4.6976e-06,  3.8706e-06],
+        [-2.2240e-06,  3.4831e-06,  0.0000e+00,  ..., -1.1601e-05,
+          3.3043e-06, -1.7628e-05],
+        ...,
+        [ 6.0722e-06, -6.2957e-06,  0.0000e+00,  ...,  1.0937e-05,
+         -7.0222e-06, -4.2208e-06],
+        [-8.3923e-05, -2.3946e-05,  0.0000e+00,  ..., -4.9651e-05,
+         -1.1921e-05,  4.7646e-06],
+        [ 4.9770e-06,  3.0641e-06,  0.0000e+00,  ...,  5.0329e-06,
+          3.6974e-06,  8.6986e-07]], device='cuda:0')
+Epoch 109, bias, value: tensor([-0.0285,  0.0114,  0.0127,  0.0297,  0.0261, -0.0203,  0.0272,  0.0291,
+        -0.0085,  0.0051], device='cuda:0'), grad: tensor([ 1.9118e-05,  1.1575e-04,  2.0280e-05, -1.8954e-04,  4.2051e-05,
+         1.2004e-04,  6.2466e-05,  4.5776e-05, -2.6703e-04,  3.0756e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 108, time 249.06, cls_loss 0.0022 cls_loss_mapping 0.0065 cls_loss_causal 0.5326 re_mapping 0.0064 re_causal 0.0195 /// teacc 98.94 lr 0.00010000
+Epoch 110, weight, value: tensor([[ 0.0458, -0.0929, -0.1134,  ..., -0.0708, -0.0640, -0.0628],
+        [ 0.0052,  0.0487, -0.0290,  ..., -0.0121,  0.1239,  0.0221],
+        [-0.0122, -0.1072, -0.0162,  ...,  0.1058, -0.0911,  0.0148],
+        ...,
+        [-0.0430,  0.0925,  0.0335,  ..., -0.0709,  0.0786,  0.0337],
+        [-0.0072, -0.0487,  0.0077,  ..., -0.0272, -0.1288, -0.0711],
+        [-0.0117, -0.0016, -0.0017,  ..., -0.1179, -0.0911,  0.0255]],
+       device='cuda:0'), grad: tensor([[ 2.7451e-07,  4.6706e-07,  0.0000e+00,  ...,  2.6301e-06,
+          2.9989e-07,  3.0566e-06],
+        [-2.5816e-06, -5.7835e-07,  0.0000e+00,  ...,  1.2042e-06,
+         -6.6385e-06,  2.4564e-07],
+        [ 5.8394e-07,  3.5856e-07,  0.0000e+00,  ..., -7.7859e-06,
+          1.2768e-06, -5.2154e-06],
+        ...,
+        [ 1.4137e-06,  3.3528e-06,  0.0000e+00,  ...,  4.7423e-06,
+          1.9260e-06,  1.1668e-05],
+        [ 4.8568e-07,  5.7882e-07,  0.0000e+00,  ...,  1.3700e-06,
+          1.3141e-06,  2.4233e-06],
+        [-1.6168e-06, -2.6505e-06,  0.0000e+00,  ...,  7.5139e-06,
+         -1.0487e-06,  5.0291e-06]], device='cuda:0')
+Epoch 110, bias, value: tensor([-0.0292,  0.0111,  0.0123,  0.0301,  0.0265, -0.0201,  0.0268,  0.0297,
+        -0.0083,  0.0047], device='cuda:0'), grad: tensor([ 9.2685e-06, -3.0380e-06, -9.4622e-06,  8.0839e-06, -6.8605e-05,
+        -2.8536e-05,  2.9728e-05,  3.2991e-05,  1.0535e-05,  1.8850e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 109, time 249.04, cls_loss 0.0020 cls_loss_mapping 0.0061 cls_loss_causal 0.5647 re_mapping 0.0065 re_causal 0.0197 /// teacc 98.90 lr 0.00010000
+Epoch 111, weight, value: tensor([[ 0.0452, -0.0937, -0.1134,  ..., -0.0713, -0.0647, -0.0635],
+        [ 0.0054,  0.0487, -0.0290,  ..., -0.0125,  0.1242,  0.0220],
+        [-0.0122, -0.1079, -0.0159,  ...,  0.1066, -0.0914,  0.0154],
+        ...,
+        [-0.0433,  0.0929,  0.0335,  ..., -0.0715,  0.0788,  0.0339],
+        [-0.0066, -0.0490,  0.0075,  ..., -0.0274, -0.1295, -0.0717],
+        [-0.0118, -0.0016, -0.0017,  ..., -0.1181, -0.0914,  0.0257]],
+       device='cuda:0'), grad: tensor([[-1.5541e-07,  4.0815e-07,  0.0000e+00,  ...,  2.6114e-06,
+          4.0396e-07,  2.8443e-06],
+        [-7.6508e-07,  9.0525e-07,  0.0000e+00,  ...,  1.3765e-06,
+         -3.5972e-07,  1.7844e-06],
+        [ 4.1500e-06, -4.1234e-07,  0.0000e+00,  ..., -1.8850e-05,
+          1.2126e-06, -2.5451e-05],
+        ...,
+        [ 1.1694e-07, -4.2543e-06,  0.0000e+00,  ...,  1.5467e-05,
+         -4.8131e-06,  1.4640e-05],
+        [-1.0459e-06,  7.4646e-07,  0.0000e+00,  ...,  2.6226e-06,
+          8.4424e-07,  3.6545e-06],
+        [ 2.8778e-07,  6.0489e-07,  0.0000e+00,  ...,  7.8827e-06,
+          5.8953e-07,  9.0599e-06]], device='cuda:0')
+Epoch 111, bias, value: tensor([-0.0302,  0.0110,  0.0124,  0.0303,  0.0262, -0.0204,  0.0269,  0.0298,
+        -0.0074,  0.0046], device='cuda:0'), grad: tensor([ 5.2154e-06,  3.8147e-06, -3.1978e-05, -1.3538e-05, -3.0145e-05,
+         4.0755e-06,  3.3751e-06,  2.9266e-05,  4.1053e-06,  2.5719e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 110, time 249.04, cls_loss 0.0024 cls_loss_mapping 0.0075 cls_loss_causal 0.5648 re_mapping 0.0067 re_causal 0.0195 /// teacc 98.83 lr 0.00010000
+Epoch 112, weight, value: tensor([[ 0.0460, -0.0939, -0.1134,  ..., -0.0717, -0.0653, -0.0639],
+        [ 0.0060,  0.0484, -0.0290,  ..., -0.0119,  0.1242,  0.0221],
+        [-0.0127, -0.1088, -0.0159,  ...,  0.1074, -0.0922,  0.0156],
+        ...,
+        [-0.0435,  0.0938,  0.0335,  ..., -0.0722,  0.0794,  0.0345],
+        [-0.0065, -0.0490,  0.0075,  ..., -0.0280, -0.1299, -0.0724],
+        [-0.0121, -0.0021, -0.0017,  ..., -0.1188, -0.0922,  0.0254]],
+       device='cuda:0'), grad: tensor([[ 1.3843e-05,  9.1037e-07,  1.6298e-08,  ..., -1.2685e-06,
+          1.5106e-06, -6.7707e-07],
+        [-2.8200e-06, -1.1832e-05, -7.0082e-08,  ..., -9.9242e-06,
+         -2.9609e-05, -1.1228e-05],
+        [ 1.5154e-05,  1.6540e-06,  9.2987e-09,  ...,  5.9465e-07,
+          3.2149e-06,  6.4112e-06],
+        ...,
+        [ 2.3663e-05,  1.2167e-05,  1.5949e-07,  ...,  3.7141e-06,
+          8.3819e-06,  5.2780e-05],
+        [ 1.4335e-05, -6.9989e-07,  1.7506e-08,  ...,  1.0850e-06,
+          3.9116e-06,  4.7125e-06],
+        [ 4.5210e-05,  2.1651e-05, -3.8277e-07,  ...,  6.5900e-06,
+          1.0274e-05,  1.3447e-04]], device='cuda:0')
+Epoch 112, bias, value: tensor([-0.0295,  0.0113,  0.0124,  0.0298,  0.0263, -0.0200,  0.0266,  0.0301,
+        -0.0075,  0.0040], device='cuda:0'), grad: tensor([ 8.3506e-05,  6.1452e-05,  7.8142e-05,  2.5673e-03, -2.7561e-04,
+        -3.4275e-03,  1.3375e-04,  1.9872e-04,  9.4473e-05,  4.8637e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 111, time 249.07, cls_loss 0.0028 cls_loss_mapping 0.0077 cls_loss_causal 0.5504 re_mapping 0.0064 re_causal 0.0190 /// teacc 99.07 lr 0.00010000
+Epoch 113, weight, value: tensor([[ 0.0465, -0.0945, -0.1134,  ..., -0.0717, -0.0662, -0.0644],
+        [ 0.0069,  0.0493, -0.0289,  ..., -0.0126,  0.1253,  0.0225],
+        [-0.0130, -0.1072, -0.0159,  ...,  0.1094, -0.0920,  0.0180],
+        ...,
+        [-0.0448,  0.0925,  0.0333,  ..., -0.0745,  0.0786,  0.0327],
+        [-0.0064, -0.0491,  0.0075,  ..., -0.0283, -0.1305, -0.0734],
+        [-0.0118, -0.0016, -0.0017,  ..., -0.1194, -0.0924,  0.0264]],
+       device='cuda:0'), grad: tensor([[-1.2189e-05, -7.5586e-06,  6.6211e-09,  ...,  4.1979e-07,
+          6.8033e-07,  4.1607e-07],
+        [-1.8328e-05, -2.7940e-05,  1.2660e-09,  ...,  5.5460e-07,
+         -5.2214e-05, -1.8492e-05],
+        [-2.6803e-06,  1.1288e-06,  3.1287e-09,  ..., -1.0125e-05,
+          1.8934e-06, -1.2301e-05],
+        ...,
+        [ 1.5259e-05,  2.0519e-05,  9.8516e-09,  ...,  9.8348e-07,
+          3.1263e-05,  1.3225e-05],
+        [ 3.5507e-08,  6.3516e-06,  2.1697e-08,  ..., -5.2969e-08,
+          7.9498e-06,  3.2373e-06],
+        [ 3.4198e-06,  2.5742e-06, -1.1566e-07,  ...,  1.4957e-06,
+          3.3937e-06,  2.1905e-06]], device='cuda:0')
+Epoch 113, bias, value: tensor([-0.0290,  0.0116,  0.0135,  0.0291,  0.0264, -0.0186,  0.0265,  0.0279,
+        -0.0078,  0.0049], device='cuda:0'), grad: tensor([-4.5329e-05, -5.9783e-05, -1.9804e-05,  2.9966e-05,  7.8529e-06,
+         6.6534e-06,  1.9312e-05,  5.1528e-05, -2.4009e-06,  1.1861e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 112, time 248.55, cls_loss 0.0022 cls_loss_mapping 0.0057 cls_loss_causal 0.5496 re_mapping 0.0064 re_causal 0.0194 /// teacc 98.98 lr 0.00010000
+Epoch 114, weight, value: tensor([[ 0.0464, -0.0948, -0.1143,  ..., -0.0721, -0.0667, -0.0651],
+        [ 0.0068,  0.0489, -0.0290,  ..., -0.0136,  0.1248,  0.0214],
+        [-0.0127, -0.1064, -0.0167,  ...,  0.1116, -0.0900,  0.0203],
+        ...,
+        [-0.0451,  0.0928,  0.0331,  ..., -0.0765,  0.0786,  0.0324],
+        [-0.0064, -0.0495,  0.0076,  ..., -0.0288, -0.1311, -0.0741],
+        [-0.0112, -0.0014, -0.0018,  ..., -0.1199, -0.0924,  0.0271]],
+       device='cuda:0'), grad: tensor([[ 1.5339e-06,  7.1675e-06,  0.0000e+00,  ...,  8.7777e-07,
+          5.5991e-06,  5.1521e-06],
+        [-2.8864e-05,  3.9160e-05,  0.0000e+00,  ...,  2.4983e-07,
+         -3.7551e-06,  2.1249e-05],
+        [ 4.4145e-06,  3.9816e-05,  0.0000e+00,  ..., -9.4622e-07,
+          1.3642e-05,  2.6181e-05],
+        ...,
+        [-4.5836e-05, -3.0255e-04,  0.0000e+00,  ...,  3.5390e-07,
+         -2.1660e-04, -2.1923e-04],
+        [ 1.1005e-05,  1.1712e-05,  0.0000e+00,  ...,  1.3765e-06,
+          1.8120e-05,  1.1563e-05],
+        [ 4.2915e-05,  1.6022e-04,  0.0000e+00,  ...,  4.2072e-07,
+          1.4806e-04,  1.1790e-04]], device='cuda:0')
+Epoch 114, bias, value: tensor([-0.0294,  0.0108,  0.0152,  0.0287,  0.0264, -0.0185,  0.0267,  0.0273,
+        -0.0080,  0.0056], device='cuda:0'), grad: tensor([ 1.4462e-05,  1.3389e-05,  8.2076e-05,  2.1443e-05,  4.3482e-05,
+         1.8850e-05, -1.6671e-06, -5.8603e-04,  4.4316e-05,  3.4976e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 113, time 248.73, cls_loss 0.0024 cls_loss_mapping 0.0064 cls_loss_causal 0.5179 re_mapping 0.0063 re_causal 0.0188 /// teacc 98.95 lr 0.00010000
+Epoch 115, weight, value: tensor([[ 0.0469, -0.0955, -0.1145,  ..., -0.0723, -0.0677, -0.0655],
+        [ 0.0065,  0.0478, -0.0290,  ..., -0.0137,  0.1244,  0.0204],
+        [-0.0131, -0.1087, -0.0167,  ...,  0.1112, -0.0915,  0.0192],
+        ...,
+        [-0.0443,  0.0952,  0.0331,  ..., -0.0753,  0.0800,  0.0346],
+        [-0.0062, -0.0493,  0.0077,  ..., -0.0295, -0.1313, -0.0747],
+        [-0.0112, -0.0028, -0.0019,  ..., -0.1204, -0.0936,  0.0265]],
+       device='cuda:0'), grad: tensor([[-8.5607e-06, -9.4473e-06,  3.0734e-08,  ...,  2.6636e-06,
+         -2.4941e-06,  6.6869e-07],
+        [ 2.2464e-06, -8.0559e-07,  7.9069e-07,  ...,  2.3805e-06,
+         -2.8536e-06,  5.4277e-06],
+        [ 3.6880e-07,  2.7521e-07,  3.5216e-09,  ..., -1.0926e-04,
+         -4.8965e-05, -1.7977e-04],
+        ...,
+        [ 7.5102e-06,  8.7544e-06,  6.8569e-08,  ...,  1.0669e-04,
+          5.2482e-05,  1.7619e-04],
+        [ 6.2631e-07,  3.8533e-07,  1.2413e-08,  ...,  2.7865e-06,
+          4.9034e-07,  6.7195e-07],
+        [-7.4692e-06, -1.9576e-06, -1.9167e-06,  ...,  1.5870e-06,
+         -2.3767e-06, -9.1866e-06]], device='cuda:0')
+Epoch 115, bias, value: tensor([-0.0290,  0.0101,  0.0138,  0.0285,  0.0265, -0.0186,  0.0267,  0.0295,
+        -0.0080,  0.0048], device='cuda:0'), grad: tensor([-3.4213e-05,  1.4417e-05, -2.4605e-04,  3.6713e-06,  8.1360e-06,
+         7.4923e-05, -8.7380e-05,  2.7776e-04,  9.4250e-06, -2.0891e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 114, time 248.92, cls_loss 0.0021 cls_loss_mapping 0.0075 cls_loss_causal 0.5622 re_mapping 0.0063 re_causal 0.0197 /// teacc 98.90 lr 0.00010000
+Epoch 116, weight, value: tensor([[ 0.0472, -0.0962, -0.1146,  ..., -0.0727, -0.0687, -0.0660],
+        [ 0.0072,  0.0476, -0.0290,  ..., -0.0138,  0.1247,  0.0199],
+        [-0.0135, -0.1098, -0.0168,  ...,  0.1114, -0.0926,  0.0190],
+        ...,
+        [-0.0446,  0.0960,  0.0331,  ..., -0.0751,  0.0805,  0.0352],
+        [-0.0056, -0.0476,  0.0077,  ..., -0.0298, -0.1301, -0.0731],
+        [-0.0112, -0.0038, -0.0019,  ..., -0.1204, -0.0954,  0.0261]],
+       device='cuda:0'), grad: tensor([[ 1.0338e-06,  1.9092e-08,  0.0000e+00,  ...,  1.2275e-06,
+          7.8580e-08,  1.7614e-07],
+        [-1.5309e-07, -4.8522e-07,  0.0000e+00,  ...,  7.7591e-08,
+         -1.6512e-06, -4.2329e-07],
+        [ 1.6885e-06,  5.2794e-08,  0.0000e+00,  ...,  5.5210e-08,
+          2.0768e-07,  1.0530e-07],
+        ...,
+        [ 4.0829e-06,  8.3062e-08,  0.0000e+00,  ...,  5.3551e-08,
+          6.7521e-07,  4.3702e-07],
+        [ 1.5171e-06,  8.0501e-08,  0.0000e+00,  ...,  2.2363e-07,
+          2.7614e-07,  2.5635e-07],
+        [ 1.0288e-08,  6.0303e-08,  0.0000e+00,  ...,  5.9110e-08,
+          2.3027e-07, -1.9092e-06]], device='cuda:0')
+Epoch 116, bias, value: tensor([-0.0287,  0.0098,  0.0131,  0.0282,  0.0268, -0.0189,  0.0268,  0.0301,
+        -0.0065,  0.0035], device='cuda:0'), grad: tensor([ 7.1526e-06,  4.9882e-06,  8.3074e-06, -5.0694e-05,  2.6803e-06,
+         4.3027e-06, -3.3267e-06,  1.8716e-05,  7.1749e-06,  7.0781e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 115, time 249.02, cls_loss 0.0018 cls_loss_mapping 0.0055 cls_loss_causal 0.5411 re_mapping 0.0061 re_causal 0.0188 /// teacc 98.98 lr 0.00010000
+Epoch 117, weight, value: tensor([[ 0.0471, -0.0968, -0.1146,  ..., -0.0736, -0.0701, -0.0669],
+        [ 0.0076,  0.0475, -0.0291,  ..., -0.0141,  0.1249,  0.0199],
+        [-0.0135, -0.1099, -0.0167,  ...,  0.1119, -0.0927,  0.0193],
+        ...,
+        [-0.0448,  0.0962,  0.0331,  ..., -0.0752,  0.0807,  0.0352],
+        [-0.0056, -0.0476,  0.0077,  ..., -0.0302, -0.1304, -0.0736],
+        [-0.0110, -0.0038, -0.0019,  ..., -0.1208, -0.0956,  0.0263]],
+       device='cuda:0'), grad: tensor([[ 2.1094e-07,  5.3970e-07,  0.0000e+00,  ...,  3.2950e-06,
+          2.4419e-06,  9.3598e-07],
+        [-1.3515e-05, -4.4405e-06,  0.0000e+00,  ...,  1.3513e-06,
+         -3.9876e-05, -1.4350e-05],
+        [ 2.6617e-06,  1.0999e-06,  0.0000e+00,  ..., -1.6838e-06,
+          1.3143e-05,  4.1164e-06],
+        ...,
+        [ 4.3251e-06, -5.5972e-07,  0.0000e+00,  ...,  5.0850e-07,
+          1.0811e-05,  3.5316e-06],
+        [ 4.6082e-06,  1.2228e-06,  0.0000e+00,  ...,  1.9968e-06,
+          5.4613e-06,  2.2221e-06],
+        [ 2.3823e-06,  6.2026e-07,  0.0000e+00,  ...,  7.1619e-07,
+          2.4196e-06,  1.2899e-06]], device='cuda:0')
+Epoch 117, bias, value: tensor([-0.0296,  0.0098,  0.0132,  0.0282,  0.0269, -0.0192,  0.0275,  0.0301,
+        -0.0067,  0.0036], device='cuda:0'), grad: tensor([ 8.3670e-06, -4.1634e-05,  1.1869e-05,  1.3478e-05,  2.8387e-05,
+        -2.1666e-05, -4.1634e-05,  1.3262e-05,  1.8910e-05,  1.0647e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 116, time 249.37, cls_loss 0.0024 cls_loss_mapping 0.0051 cls_loss_causal 0.5543 re_mapping 0.0059 re_causal 0.0175 /// teacc 98.99 lr 0.00010000
+Epoch 118, weight, value: tensor([[ 0.0476, -0.0974, -0.1148,  ..., -0.0740, -0.0714, -0.0674],
+        [ 0.0080,  0.0476, -0.0291,  ..., -0.0142,  0.1253,  0.0199],
+        [-0.0133, -0.1101, -0.0167,  ...,  0.1127, -0.0929,  0.0198],
+        ...,
+        [-0.0455,  0.0967,  0.0331,  ..., -0.0756,  0.0809,  0.0354],
+        [-0.0056, -0.0478,  0.0077,  ..., -0.0310, -0.1308, -0.0742],
+        [-0.0107, -0.0039, -0.0019,  ..., -0.1212, -0.0962,  0.0270]],
+       device='cuda:0'), grad: tensor([[-1.1548e-05,  5.0245e-07,  0.0000e+00,  ...,  4.3400e-06,
+          8.3540e-07,  9.1922e-07],
+        [ 2.7884e-06,  2.3488e-06,  0.0000e+00,  ...,  3.3416e-06,
+          2.6897e-06,  4.6529e-06],
+        [ 5.2787e-06,  4.2953e-06,  0.0000e+00,  ..., -2.5615e-05,
+         -4.3446e-07, -1.6630e-05],
+        ...,
+        [ 7.4096e-06, -1.5616e-05,  0.0000e+00,  ...,  6.6422e-06,
+         -1.7926e-05, -8.5160e-06],
+        [ 1.3746e-05,  8.2003e-07,  0.0000e+00,  ...,  1.6630e-05,
+          3.7160e-06,  1.3731e-05],
+        [ 2.8554e-06,  1.6410e-06,  0.0000e+00,  ...,  1.9856e-06,
+          2.0973e-06, -4.5039e-06]], device='cuda:0')
+Epoch 118, bias, value: tensor([-0.0293,  0.0099,  0.0134,  0.0278,  0.0260, -0.0188,  0.0275,  0.0302,
+        -0.0070,  0.0041], device='cuda:0'), grad: tensor([-4.0270e-06,  2.7552e-05, -2.8834e-05, -1.4198e-04,  4.4346e-05,
+         6.3837e-05, -5.7131e-05,  1.6257e-05,  8.7380e-05, -7.6815e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 117, time 248.93, cls_loss 0.0018 cls_loss_mapping 0.0063 cls_loss_causal 0.5506 re_mapping 0.0059 re_causal 0.0181 /// teacc 98.93 lr 0.00010000
+Epoch 119, weight, value: tensor([[ 0.0479, -0.0981, -0.1149,  ..., -0.0746, -0.0729, -0.0679],
+        [ 0.0089,  0.0478, -0.0291,  ..., -0.0146,  0.1257,  0.0198],
+        [-0.0132, -0.1104, -0.0167,  ...,  0.1132, -0.0934,  0.0198],
+        ...,
+        [-0.0459,  0.0970,  0.0331,  ..., -0.0757,  0.0814,  0.0358],
+        [-0.0059, -0.0481,  0.0077,  ..., -0.0315, -0.1316, -0.0748],
+        [-0.0109, -0.0043, -0.0019,  ..., -0.1217, -0.0972,  0.0265]],
+       device='cuda:0'), grad: tensor([[ 5.2387e-08,  2.3737e-07,  0.0000e+00,  ...,  1.4445e-06,
+          1.3865e-07,  2.2501e-06],
+        [-2.5872e-06, -2.7046e-06,  0.0000e+00,  ...,  7.5856e-07,
+         -6.9030e-06, -1.7807e-06],
+        [ 1.1045e-06,  5.2154e-07,  0.0000e+00,  ...,  4.5970e-06,
+          1.2442e-06,  6.6720e-06],
+        ...,
+        [ 3.7085e-06,  4.1947e-06,  0.0000e+00,  ...,  8.0047e-07,
+          3.0845e-06,  6.9290e-06],
+        [ 3.5390e-07,  8.3167e-07,  0.0000e+00,  ...,  9.4017e-07,
+          1.1418e-06,  2.1644e-06],
+        [-3.6471e-06, -4.8690e-06,  0.0000e+00,  ...,  5.6475e-06,
+          1.5413e-07,  1.2852e-07]], device='cuda:0')
+Epoch 119, bias, value: tensor([-0.0294,  0.0101,  0.0132,  0.0275,  0.0268, -0.0183,  0.0274,  0.0304,
+        -0.0075,  0.0035], device='cuda:0'), grad: tensor([ 4.8764e-06, -3.1646e-06,  1.7986e-05, -6.3963e-06, -1.0973e-04,
+         1.5706e-05,  5.5432e-05,  2.0966e-05,  6.1542e-06, -1.8757e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 118, time 249.07, cls_loss 0.0018 cls_loss_mapping 0.0046 cls_loss_causal 0.5238 re_mapping 0.0058 re_causal 0.0176 /// teacc 98.89 lr 0.00010000
+Epoch 120, weight, value: tensor([[ 0.0489, -0.0981, -0.1149,  ..., -0.0751, -0.0738, -0.0682],
+        [ 0.0092,  0.0478, -0.0290,  ..., -0.0149,  0.1260,  0.0198],
+        [-0.0135, -0.1107, -0.0167,  ...,  0.1137, -0.0938,  0.0198],
+        ...,
+        [-0.0462,  0.0973,  0.0331,  ..., -0.0759,  0.0815,  0.0359],
+        [-0.0055, -0.0480,  0.0077,  ..., -0.0317, -0.1319, -0.0752],
+        [-0.0113, -0.0045, -0.0019,  ..., -0.1224, -0.0976,  0.0267]],
+       device='cuda:0'), grad: tensor([[-1.3322e-05,  3.7136e-08,  0.0000e+00,  ...,  9.8604e-08,
+          6.7637e-08,  2.0443e-07],
+        [ 5.3039e-07,  2.7716e-06,  0.0000e+00,  ...,  3.2689e-07,
+          1.9353e-06,  2.0433e-06],
+        [ 2.7101e-07,  2.8103e-07,  0.0000e+00,  ..., -5.0850e-06,
+          5.2154e-07, -1.5004e-06],
+        ...,
+        [ 2.5909e-06, -6.9514e-06,  0.0000e+00,  ...,  1.4016e-06,
+         -6.4783e-06, -4.3549e-06],
+        [ 4.6566e-06,  3.1595e-07,  0.0000e+00,  ...,  4.9686e-07,
+          8.6427e-07,  5.8906e-07],
+        [ 1.1371e-06,  1.6112e-06,  0.0000e+00,  ...,  1.6054e-07,
+          1.8245e-06,  4.0047e-07]], device='cuda:0')
+Epoch 120, bias, value: tensor([-0.0289,  0.0100,  0.0131,  0.0278,  0.0265, -0.0186,  0.0276,  0.0303,
+        -0.0072,  0.0035], device='cuda:0'), grad: tensor([-4.4376e-05,  7.7561e-06, -3.7998e-06,  4.6566e-06,  1.3774e-06,
+         3.8743e-06,  6.3591e-06,  1.1642e-06,  1.7226e-05,  5.8189e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 119, time 249.05, cls_loss 0.0024 cls_loss_mapping 0.0069 cls_loss_causal 0.5222 re_mapping 0.0059 re_causal 0.0180 /// teacc 98.91 lr 0.00010000
+Epoch 121, weight, value: tensor([[ 0.0490, -0.0989, -0.1149,  ..., -0.0760, -0.0750, -0.0689],
+        [ 0.0097,  0.0480, -0.0290,  ..., -0.0152,  0.1265,  0.0199],
+        [-0.0138, -0.1109, -0.0167,  ...,  0.1144, -0.0940,  0.0202],
+        ...,
+        [-0.0469,  0.0973,  0.0331,  ..., -0.0762,  0.0815,  0.0354],
+        [-0.0060, -0.0490,  0.0077,  ..., -0.0328, -0.1324, -0.0762],
+        [-0.0104, -0.0034, -0.0019,  ..., -0.1230, -0.0976,  0.0275]],
+       device='cuda:0'), grad: tensor([[ 3.2037e-06,  9.6741e-08,  0.0000e+00,  ...,  1.3467e-06,
+          1.6775e-07,  1.8917e-07],
+        [ 1.2051e-06, -1.0766e-06,  0.0000e+00,  ...,  3.0990e-07,
+         -4.0680e-06,  9.1689e-07],
+        [ 7.4226e-07,  6.4634e-07,  0.0000e+00,  ..., -3.6675e-06,
+          1.1977e-06,  6.9197e-07],
+        ...,
+        [ 1.6484e-06, -1.5106e-06,  0.0000e+00,  ...,  4.5262e-07,
+          5.7276e-08, -1.0477e-06],
+        [-2.0325e-05,  2.7195e-07,  0.0000e+00,  ..., -1.0813e-06,
+          7.0361e-07,  4.5984e-07],
+        [-3.0827e-06,  6.4215e-07,  0.0000e+00,  ...,  4.1886e-07,
+          5.9744e-07, -4.5374e-06]], device='cuda:0')
+Epoch 121, bias, value: tensor([-0.0296,  0.0101,  0.0131,  0.0282,  0.0277, -0.0177,  0.0267,  0.0296,
+        -0.0085,  0.0044], device='cuda:0'), grad: tensor([ 1.5065e-05,  7.5698e-06,  3.7048e-06,  3.7044e-05,  4.7125e-06,
+         1.4700e-05,  9.2685e-06,  1.6484e-06, -8.6248e-05, -7.5065e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 120, time 249.01, cls_loss 0.0021 cls_loss_mapping 0.0051 cls_loss_causal 0.5488 re_mapping 0.0058 re_causal 0.0180 /// teacc 99.04 lr 0.00010000
+Epoch 122, weight, value: tensor([[ 0.0492, -0.0993, -0.1150,  ..., -0.0771, -0.0755, -0.0693],
+        [ 0.0091,  0.0479, -0.0290,  ..., -0.0155,  0.1265,  0.0193],
+        [-0.0141, -0.1119, -0.0168,  ...,  0.1152, -0.0947,  0.0198],
+        ...,
+        [-0.0473,  0.0980,  0.0331,  ..., -0.0765,  0.0819,  0.0361],
+        [-0.0056, -0.0491,  0.0079,  ..., -0.0330, -0.1326, -0.0766],
+        [-0.0089, -0.0030, -0.0019,  ..., -0.1236, -0.0972,  0.0286]],
+       device='cuda:0'), grad: tensor([[ 1.4715e-06,  6.8545e-07,  0.0000e+00,  ...,  1.6298e-06,
+          1.0971e-06,  3.7439e-06],
+        [-6.0350e-06, -3.5875e-06,  0.0000e+00,  ...,  5.4436e-07,
+         -1.5333e-05, -2.1085e-06],
+        [ 1.5274e-06,  1.1595e-06,  0.0000e+00,  ..., -1.8207e-06,
+          2.2147e-06,  1.3290e-06],
+        ...,
+        [ 2.2631e-06, -1.9372e-06,  0.0000e+00,  ...,  7.4087e-07,
+          2.6310e-07,  1.3714e-07],
+        [ 4.2245e-06,  1.6848e-06,  0.0000e+00,  ...,  2.3711e-06,
+          4.0792e-06,  8.8736e-06],
+        [-8.5235e-06, -3.0845e-06,  0.0000e+00,  ...,  3.9139e-07,
+          1.9222e-06, -2.1994e-05]], device='cuda:0')
+Epoch 122, bias, value: tensor([-0.0300,  0.0094,  0.0125,  0.0299,  0.0269, -0.0192,  0.0269,  0.0301,
+        -0.0083,  0.0055], device='cuda:0'), grad: tensor([ 1.5303e-05, -1.5616e-05,  8.7544e-06,  9.9093e-06,  2.4095e-05,
+         2.7400e-06, -6.4038e-06,  6.3516e-06,  3.5048e-05, -8.0168e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 121, time 248.83, cls_loss 0.0020 cls_loss_mapping 0.0059 cls_loss_causal 0.5524 re_mapping 0.0061 re_causal 0.0185 /// teacc 98.96 lr 0.00010000
+Epoch 123, weight, value: tensor([[ 0.0493, -0.0996, -0.1150,  ..., -0.0786, -0.0768, -0.0702],
+        [ 0.0104,  0.0481, -0.0290,  ..., -0.0158,  0.1274,  0.0196],
+        [-0.0134, -0.1120, -0.0168,  ...,  0.1166, -0.0950,  0.0207],
+        ...,
+        [-0.0481,  0.0980,  0.0331,  ..., -0.0770,  0.0818,  0.0361],
+        [-0.0061, -0.0492,  0.0078,  ..., -0.0339, -0.1341, -0.0772],
+        [-0.0089, -0.0033, -0.0019,  ..., -0.1240, -0.0977,  0.0287]],
+       device='cuda:0'), grad: tensor([[-1.1154e-05,  0.0000e+00,  0.0000e+00,  ..., -1.7071e-06,
+          3.8301e-08,  3.7748e-08],
+        [-2.5006e-07,  0.0000e+00,  0.0000e+00,  ..., -2.5844e-07,
+         -1.5395e-06, -9.2201e-07],
+        [ 1.1355e-05,  0.0000e+00,  0.0000e+00,  ...,  2.4997e-06,
+          8.3866e-07,  3.6508e-07],
+        ...,
+        [ 7.1619e-07,  0.0000e+00,  0.0000e+00,  ...,  1.5600e-07,
+          5.1950e-08,  7.1945e-08],
+        [-4.4927e-06,  0.0000e+00,  0.0000e+00,  ..., -7.7952e-07,
+          8.4925e-08, -4.7090e-08],
+        [ 4.6939e-06,  0.0000e+00,  0.0000e+00,  ...,  7.2550e-07,
+          4.7672e-08,  9.4878e-08]], device='cuda:0')
+Epoch 123, bias, value: tensor([-0.0306,  0.0103,  0.0135,  0.0297,  0.0263, -0.0191,  0.0269,  0.0296,
+        -0.0089,  0.0054], device='cuda:0'), grad: tensor([-3.8803e-05,  1.7164e-06,  4.5538e-05, -2.0921e-05,  2.8051e-06,
+        -2.3574e-05,  1.2882e-05,  4.5076e-06, -8.7172e-06,  2.4408e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 122, time 248.97, cls_loss 0.0025 cls_loss_mapping 0.0074 cls_loss_causal 0.5437 re_mapping 0.0060 re_causal 0.0179 /// teacc 98.97 lr 0.00010000
+Epoch 124, weight, value: tensor([[ 0.0494, -0.1000, -0.1150,  ..., -0.0790, -0.0777, -0.0708],
+        [ 0.0094,  0.0453, -0.0290,  ..., -0.0159,  0.1252,  0.0168],
+        [-0.0143, -0.1123, -0.0168,  ...,  0.1168, -0.0956,  0.0207],
+        ...,
+        [-0.0470,  0.1010,  0.0331,  ..., -0.0774,  0.0847,  0.0387],
+        [-0.0049, -0.0495,  0.0078,  ..., -0.0334, -0.1344, -0.0775],
+        [-0.0090, -0.0032, -0.0019,  ..., -0.1247, -0.0982,  0.0289]],
+       device='cuda:0'), grad: tensor([[-2.8420e-08,  4.7777e-07,  0.0000e+00,  ...,  2.8647e-06,
+          3.7765e-07,  1.6587e-06],
+        [-6.7018e-06, -1.2726e-05,  0.0000e+00,  ...,  9.4157e-07,
+         -3.2037e-05, -1.4141e-05],
+        [ 2.7823e-07, -1.8450e-06,  0.0000e+00,  ..., -1.8626e-05,
+          8.8988e-07, -1.8194e-05],
+        ...,
+        [ 4.7572e-06,  8.9332e-06,  0.0000e+00,  ...,  5.3532e-06,
+          2.2948e-05,  1.6779e-05],
+        [ 1.0226e-06,  1.8682e-06,  0.0000e+00,  ...,  6.2734e-06,
+          3.2205e-06,  4.3064e-06],
+        [-3.0093e-08,  6.2073e-07,  0.0000e+00,  ...,  3.2913e-06,
+          9.8068e-07,  1.7965e-06]], device='cuda:0')
+Epoch 124, bias, value: tensor([-0.0305,  0.0078,  0.0129,  0.0295,  0.0263, -0.0188,  0.0263,  0.0318,
+        -0.0080,  0.0054], device='cuda:0'), grad: tensor([ 8.7842e-06, -3.6329e-05, -5.8115e-05,  1.3024e-05,  1.8924e-06,
+         9.3877e-06, -1.6302e-05,  4.7505e-05,  2.2292e-05,  7.8380e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 123----------------------------------------------------
+epoch 123, time 249.64, cls_loss 0.0023 cls_loss_mapping 0.0079 cls_loss_causal 0.5751 re_mapping 0.0059 re_causal 0.0184 /// teacc 99.15 lr 0.00010000
+Epoch 125, weight, value: tensor([[ 0.0492, -0.1011, -0.1150,  ..., -0.0802, -0.0793, -0.0717],
+        [ 0.0114,  0.0458, -0.0290,  ..., -0.0162,  0.1261,  0.0175],
+        [-0.0144, -0.1132, -0.0167,  ...,  0.1182, -0.0966,  0.0200],
+        ...,
+        [-0.0487,  0.1013,  0.0331,  ..., -0.0773,  0.0845,  0.0389],
+        [-0.0048, -0.0497,  0.0078,  ..., -0.0339, -0.1347, -0.0785],
+        [-0.0089, -0.0036, -0.0019,  ..., -0.1254, -0.0992,  0.0287]],
+       device='cuda:0'), grad: tensor([[ 7.2003e-08,  1.2119e-07,  0.0000e+00,  ...,  1.0775e-06,
+          2.4898e-08,  6.5425e-07],
+        [ 3.0976e-06,  5.7220e-06,  0.0000e+00,  ...,  4.4443e-06,
+          3.5688e-06,  1.9982e-05],
+        [-2.5984e-07,  1.8743e-07,  0.0000e+00,  ..., -1.0151e-06,
+          1.1764e-07, -1.1213e-06],
+        ...,
+        [ 3.2205e-06,  5.3823e-05,  0.0000e+00,  ...,  1.1418e-06,
+         -7.3051e-08,  2.1428e-05],
+        [ 1.1504e-05, -6.3360e-05,  0.0000e+00,  ...,  1.0831e-06,
+          2.1118e-07, -1.5691e-05],
+        [-2.5122e-07,  4.7833e-06,  0.0000e+00,  ...,  3.7681e-06,
+          1.8254e-06,  2.0061e-06]], device='cuda:0')
+Epoch 125, bias, value: tensor([-0.0313,  0.0088,  0.0135,  0.0288,  0.0259, -0.0182,  0.0254,  0.0315,
+        -0.0084,  0.0054], device='cuda:0'), grad: tensor([ 1.3269e-05,  6.0797e-05,  1.4892e-06,  3.9130e-05, -2.1577e-04,
+        -4.9591e-05,  8.0585e-05,  2.0587e-04, -1.6022e-04,  2.4870e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 124, time 248.89, cls_loss 0.0022 cls_loss_mapping 0.0066 cls_loss_causal 0.5331 re_mapping 0.0056 re_causal 0.0167 /// teacc 99.00 lr 0.00010000
+Epoch 126, weight, value: tensor([[ 0.0500, -0.1013, -0.1150,  ..., -0.0805, -0.0798, -0.0723],
+        [ 0.0125,  0.0465, -0.0290,  ..., -0.0165,  0.1271,  0.0180],
+        [-0.0135, -0.1133, -0.0167,  ...,  0.1190, -0.0968,  0.0207],
+        ...,
+        [-0.0500,  0.1009,  0.0331,  ..., -0.0776,  0.0840,  0.0385],
+        [-0.0054, -0.0498,  0.0078,  ..., -0.0354, -0.1350, -0.0794],
+        [-0.0087, -0.0036, -0.0019,  ..., -0.1260, -0.1000,  0.0292]],
+       device='cuda:0'), grad: tensor([[-6.0070e-07,  7.2469e-08,  0.0000e+00,  ...,  6.7335e-07,
+          1.0064e-07,  2.4796e-07],
+        [ 2.3469e-06,  1.4226e-07,  0.0000e+00,  ...,  4.1574e-06,
+         -6.8336e-08,  4.5225e-06],
+        [ 1.7341e-06,  5.6485e-07,  0.0000e+00,  ..., -1.9409e-06,
+         -7.0664e-08, -3.4645e-06],
+        ...,
+        [ 9.6858e-07, -2.3935e-06,  0.0000e+00,  ...,  3.2573e-07,
+         -2.1122e-06, -2.3879e-06],
+        [-1.7405e-05,  1.6508e-07,  0.0000e+00,  ...,  1.5199e-06,
+          3.5227e-07, -4.1090e-06],
+        [ 3.5278e-06,  7.7765e-07,  0.0000e+00,  ...,  2.6845e-07,
+          8.8010e-07,  1.3383e-06]], device='cuda:0')
+Epoch 126, bias, value: tensor([-0.0304,  0.0096,  0.0139,  0.0285,  0.0248, -0.0164,  0.0238,  0.0306,
+        -0.0092,  0.0061], device='cuda:0'), grad: tensor([-2.7791e-06,  1.2547e-05,  1.0051e-05,  1.4596e-05,  5.3421e-06,
+         1.9789e-05, -1.2755e-05, -3.6880e-07, -6.3002e-05,  1.6555e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 125, time 248.92, cls_loss 0.0016 cls_loss_mapping 0.0052 cls_loss_causal 0.5238 re_mapping 0.0058 re_causal 0.0174 /// teacc 98.98 lr 0.00010000
+Epoch 127, weight, value: tensor([[ 0.0503, -0.1016, -0.1150,  ..., -0.0807, -0.0805, -0.0726],
+        [ 0.0127,  0.0465, -0.0287,  ..., -0.0169,  0.1273,  0.0180],
+        [-0.0139, -0.1134, -0.0167,  ...,  0.1193, -0.0972,  0.0208],
+        ...,
+        [-0.0503,  0.1011,  0.0328,  ..., -0.0780,  0.0840,  0.0385],
+        [-0.0052, -0.0498,  0.0078,  ..., -0.0360, -0.1354, -0.0796],
+        [-0.0089, -0.0040, -0.0020,  ..., -0.1272, -0.1007,  0.0289]],
+       device='cuda:0'), grad: tensor([[ 6.9849e-08,  2.3714e-07,  7.0606e-08,  ...,  4.2561e-07,
+          7.6089e-07,  4.0373e-07],
+        [-8.3297e-06, -1.0401e-05, -3.8259e-06,  ...,  2.8615e-07,
+         -3.7968e-05, -1.3158e-05],
+        [ 3.7532e-07,  1.4063e-06,  3.0524e-07,  ..., -1.0803e-06,
+          3.7793e-06,  5.6066e-07],
+        ...,
+        [ 2.4159e-06,  1.3895e-06,  1.0002e-06,  ...,  2.4843e-07,
+          8.1286e-06,  2.3395e-06],
+        [ 5.7928e-07,  1.0245e-06,  3.7323e-07,  ...,  6.2259e-07,
+          3.7663e-06,  1.5302e-06],
+        [ 6.8452e-07,  1.1576e-06,  2.5611e-07,  ...,  6.3097e-07,
+          3.0193e-06,  1.6978e-06]], device='cuda:0')
+Epoch 127, bias, value: tensor([-0.0300,  0.0095,  0.0136,  0.0283,  0.0257, -0.0162,  0.0238,  0.0306,
+        -0.0090,  0.0055], device='cuda:0'), grad: tensor([ 1.4529e-06, -5.5045e-05,  5.8003e-06,  1.4268e-06,  1.5169e-05,
+         7.6070e-06, -1.4552e-07,  1.2286e-05,  4.0606e-06,  7.3761e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 126, time 249.34, cls_loss 0.0019 cls_loss_mapping 0.0059 cls_loss_causal 0.5671 re_mapping 0.0055 re_causal 0.0180 /// teacc 98.94 lr 0.00010000
+Epoch 128, weight, value: tensor([[ 0.0497, -0.1017, -0.1151,  ..., -0.0805, -0.0813, -0.0736],
+        [ 0.0129,  0.0465, -0.0280,  ..., -0.0175,  0.1274,  0.0179],
+        [-0.0138, -0.1141, -0.0168,  ...,  0.1193, -0.0985,  0.0198],
+        ...,
+        [-0.0507,  0.1016,  0.0325,  ..., -0.0778,  0.0846,  0.0393],
+        [-0.0048, -0.0500,  0.0077,  ..., -0.0366, -0.1356, -0.0803],
+        [-0.0084, -0.0045, -0.0020,  ..., -0.1280, -0.1018,  0.0284]],
+       device='cuda:0'), grad: tensor([[-8.7311e-11,  1.4188e-08,  0.0000e+00,  ...,  2.0710e-07,
+          4.4820e-08,  1.5879e-07],
+        [-7.2597e-07,  1.1129e-07,  0.0000e+00,  ...,  1.7590e-07,
+         -1.1241e-06, -4.6473e-07],
+        [ 1.9476e-07,  1.8044e-08,  0.0000e+00,  ..., -1.2852e-07,
+          2.5728e-07, -9.0746e-08],
+        ...,
+        [ 2.9290e-07, -4.4517e-07,  0.0000e+00,  ...,  1.9569e-07,
+         -2.6077e-07,  3.1153e-07],
+        [-4.9779e-07,  2.6499e-08,  0.0000e+00,  ...,  5.4389e-07,
+          3.5274e-07,  6.4122e-07],
+        [-3.3132e-07,  1.3248e-07,  0.0000e+00,  ...,  2.0731e-06,
+          1.8091e-07,  2.7791e-06]], device='cuda:0')
+Epoch 128, bias, value: tensor([-0.0305,  0.0092,  0.0125,  0.0283,  0.0264, -0.0164,  0.0240,  0.0312,
+        -0.0087,  0.0053], device='cuda:0'), grad: tensor([ 6.2585e-07, -1.0636e-06,  8.5402e-07,  2.0918e-06,  1.3858e-05,
+         2.5202e-06, -2.4989e-05,  1.2536e-06, -2.1290e-06,  6.9961e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 127, time 249.19, cls_loss 0.0019 cls_loss_mapping 0.0056 cls_loss_causal 0.5435 re_mapping 0.0058 re_causal 0.0170 /// teacc 98.97 lr 0.00010000
+Epoch 129, weight, value: tensor([[ 0.0501, -0.1019, -0.1151,  ..., -0.0809, -0.0819, -0.0739],
+        [ 0.0136,  0.0466, -0.0278,  ..., -0.0177,  0.1279,  0.0181],
+        [-0.0126, -0.1146, -0.0168,  ...,  0.1203, -0.0997,  0.0198],
+        ...,
+        [-0.0522,  0.1017,  0.0323,  ..., -0.0787,  0.0845,  0.0392],
+        [-0.0051, -0.0502,  0.0077,  ..., -0.0377, -0.1362, -0.0812],
+        [-0.0075, -0.0042, -0.0021,  ..., -0.1280, -0.1011,  0.0289]],
+       device='cuda:0'), grad: tensor([[-2.6426e-07,  4.2521e-08,  4.2201e-10,  ...,  7.7188e-06,
+          4.7759e-08,  2.4843e-07],
+        [-6.9034e-08, -2.4738e-10,  1.6007e-10,  ...,  9.1223e-07,
+         -5.1782e-07,  8.0618e-08],
+        [ 4.6962e-07,  1.5250e-07,  2.0373e-10,  ...,  1.7267e-06,
+          1.7742e-07,  2.1351e-07],
+        ...,
+        [ 4.5868e-07, -1.0943e-06,  2.1828e-10,  ...,  4.6974e-08,
+         -7.3714e-07, -8.3353e-07],
+        [ 9.3924e-07,  9.8546e-08,  8.0036e-10,  ...,  1.3992e-05,
+          1.9441e-07,  1.4678e-06],
+        [-2.6915e-06,  5.0385e-07,  1.1059e-09,  ...,  3.2899e-07,
+          4.3120e-07, -2.9728e-06]], device='cuda:0')
+Epoch 129, bias, value: tensor([-0.0302,  0.0095,  0.0126,  0.0273,  0.0266, -0.0160,  0.0241,  0.0309,
+        -0.0092,  0.0057], device='cuda:0'), grad: tensor([ 1.2852e-05,  2.9337e-06,  6.4038e-06, -4.8541e-06,  4.6194e-06,
+         1.1042e-05, -5.7489e-05,  1.0701e-06,  3.6895e-05, -1.3493e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 128, time 248.74, cls_loss 0.0020 cls_loss_mapping 0.0053 cls_loss_causal 0.5204 re_mapping 0.0054 re_causal 0.0164 /// teacc 98.97 lr 0.00010000
+Epoch 130, weight, value: tensor([[ 0.0503, -0.1023, -0.1152,  ..., -0.0818, -0.0824, -0.0743],
+        [ 0.0135,  0.0465, -0.0282,  ..., -0.0207,  0.1277,  0.0176],
+        [-0.0113, -0.1147, -0.0164,  ...,  0.1220, -0.0987,  0.0213],
+        ...,
+        [-0.0525,  0.1020,  0.0323,  ..., -0.0791,  0.0847,  0.0393],
+        [-0.0051, -0.0503,  0.0077,  ..., -0.0384, -0.1366, -0.0818],
+        [-0.0073, -0.0048, -0.0021,  ..., -0.1287, -0.1019,  0.0291]],
+       device='cuda:0'), grad: tensor([[ 4.7078e-07,  4.2119e-07,  0.0000e+00,  ...,  3.6112e-07,
+          8.3959e-07,  6.9477e-07],
+        [-1.1429e-05, -1.0692e-05,  0.0000e+00,  ...,  2.1944e-07,
+         -2.1040e-05, -8.3670e-06],
+        [ 2.1607e-07,  2.3786e-06,  0.0000e+00,  ..., -3.7570e-06,
+          4.4741e-06, -2.4829e-06],
+        ...,
+        [ 7.5586e-06,  5.2601e-06,  0.0000e+00,  ...,  2.9914e-06,
+          1.0252e-05,  7.7337e-06],
+        [ 7.7719e-07,  5.5414e-07,  0.0000e+00,  ...,  3.6531e-07,
+          1.3197e-06,  8.1584e-07],
+        [ 7.0361e-07,  7.4506e-07,  0.0000e+00,  ...,  2.5448e-07,
+          1.3886e-06,  5.3737e-07]], device='cuda:0')
+Epoch 130, bias, value: tensor([-0.0302,  0.0089,  0.0134,  0.0269,  0.0269, -0.0158,  0.0238,  0.0310,
+        -0.0095,  0.0062], device='cuda:0'), grad: tensor([ 1.8869e-06, -3.6180e-05, -2.9453e-07,  1.3681e-06,  1.4435e-06,
+         1.7295e-06, -5.2853e-07,  2.5302e-05,  2.9132e-06,  2.3283e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 129, time 248.70, cls_loss 0.0016 cls_loss_mapping 0.0048 cls_loss_causal 0.5330 re_mapping 0.0054 re_causal 0.0169 /// teacc 98.99 lr 0.00010000
+Epoch 131, weight, value: tensor([[ 0.0509, -0.1025, -0.1152,  ..., -0.0836, -0.0833, -0.0745],
+        [ 0.0137,  0.0465, -0.0284,  ..., -0.0212,  0.1278,  0.0175],
+        [-0.0113, -0.1149, -0.0162,  ...,  0.1229, -0.0989,  0.0219],
+        ...,
+        [-0.0526,  0.1024,  0.0323,  ..., -0.0798,  0.0849,  0.0395],
+        [-0.0053, -0.0505,  0.0077,  ..., -0.0393, -0.1371, -0.0823],
+        [-0.0072, -0.0055, -0.0021,  ..., -0.1293, -0.1026,  0.0290]],
+       device='cuda:0'), grad: tensor([[-7.1116e-06,  5.4250e-07,  0.0000e+00,  ..., -3.4496e-06,
+          8.1956e-07,  1.1846e-06],
+        [-2.4284e-07,  2.7716e-06,  0.0000e+00,  ...,  1.3178e-06,
+          1.1995e-06,  4.2021e-06],
+        [ 6.5286e-07,  4.4219e-06,  0.0000e+00,  ...,  2.6748e-06,
+          5.9232e-06,  7.4506e-06],
+        ...,
+        [ 1.2899e-06, -1.9789e-05,  0.0000e+00,  ...,  1.7881e-06,
+         -2.6062e-05, -1.9327e-05],
+        [ 1.2210e-06,  3.2224e-06,  0.0000e+00,  ...,  1.7369e-06,
+          3.5353e-06,  4.8839e-06],
+        [-4.1188e-07,  4.1574e-06,  0.0000e+00,  ...,  8.6725e-06,
+          6.5379e-06,  1.1280e-05]], device='cuda:0')
+Epoch 131, bias, value: tensor([-0.0304,  0.0088,  0.0136,  0.0267,  0.0265, -0.0159,  0.0243,  0.0312,
+        -0.0099,  0.0060], device='cuda:0'), grad: tensor([-3.2037e-05,  1.3158e-05,  2.4840e-05,  8.4713e-06, -1.5117e-05,
+         1.0334e-05, -7.7412e-06, -4.6194e-05,  8.1435e-06,  3.6150e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 130, time 248.92, cls_loss 0.0019 cls_loss_mapping 0.0063 cls_loss_causal 0.5710 re_mapping 0.0054 re_causal 0.0172 /// teacc 98.88 lr 0.00010000
+Epoch 132, weight, value: tensor([[ 0.0511, -0.1030, -0.1153,  ..., -0.0834, -0.0838, -0.0751],
+        [ 0.0143,  0.0468, -0.0278,  ..., -0.0215,  0.1284,  0.0177],
+        [-0.0109, -0.1154, -0.0162,  ...,  0.1234, -0.0995,  0.0223],
+        ...,
+        [-0.0531,  0.1027,  0.0319,  ..., -0.0798,  0.0851,  0.0397],
+        [-0.0051, -0.0507,  0.0077,  ..., -0.0406, -0.1377, -0.0828],
+        [-0.0074, -0.0065, -0.0021,  ..., -0.1311, -0.1044,  0.0285]],
+       device='cuda:0'), grad: tensor([[-5.6103e-06,  9.6043e-08,  0.0000e+00,  ..., -1.3467e-06,
+          1.7078e-07,  5.3085e-07],
+        [-5.6103e-06, -4.0270e-06,  0.0000e+00,  ..., -8.6054e-07,
+         -7.8976e-06, -1.1632e-06],
+        [ 4.5747e-06,  3.5227e-07,  0.0000e+00,  ...,  1.0179e-06,
+          6.6636e-07, -1.1697e-06],
+        ...,
+        [ 1.8878e-06,  4.3563e-07,  0.0000e+00,  ...,  9.3644e-07,
+          1.1837e-06,  4.5821e-06],
+        [ 4.2319e-06,  2.3302e-06,  0.0000e+00,  ...,  1.1791e-06,
+          4.4182e-06,  2.4904e-06],
+        [ 1.0328e-06,  1.3143e-07,  0.0000e+00,  ...,  7.1293e-07,
+          2.0023e-07, -7.1637e-06]], device='cuda:0')
+Epoch 132, bias, value: tensor([-0.0302,  0.0091,  0.0135,  0.0268,  0.0261, -0.0162,  0.0248,  0.0315,
+        -0.0101,  0.0053], device='cuda:0'), grad: tensor([-2.0623e-05, -9.7528e-06,  1.5222e-05, -5.2303e-06,  3.3118e-06,
+        -2.0359e-06,  3.2503e-06,  1.3217e-05,  1.2577e-05, -9.9391e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 131, time 248.79, cls_loss 0.0017 cls_loss_mapping 0.0046 cls_loss_causal 0.4882 re_mapping 0.0051 re_causal 0.0159 /// teacc 98.97 lr 0.00010000
+Epoch 133, weight, value: tensor([[ 0.0511, -0.1035, -0.1154,  ..., -0.0840, -0.0846, -0.0756],
+        [ 0.0150,  0.0476, -0.0277,  ..., -0.0226,  0.1293,  0.0181],
+        [-0.0109, -0.1156, -0.0162,  ...,  0.1241, -0.0997,  0.0225],
+        ...,
+        [-0.0541,  0.1022,  0.0318,  ..., -0.0800,  0.0844,  0.0392],
+        [-0.0050, -0.0509,  0.0077,  ..., -0.0410, -0.1379, -0.0833],
+        [-0.0073, -0.0064, -0.0021,  ..., -0.1313, -0.1046,  0.0291]],
+       device='cuda:0'), grad: tensor([[-2.4587e-06,  2.8216e-08,  0.0000e+00,  ..., -1.8382e-07,
+          5.3813e-08,  1.0064e-07],
+        [-5.1456e-07, -2.2212e-07,  0.0000e+00,  ...,  2.6240e-07,
+         -1.0580e-06, -6.9849e-08],
+        [ 3.2317e-07,  2.2061e-07,  0.0000e+00,  ..., -1.7835e-06,
+          2.2666e-07, -1.5954e-06],
+        ...,
+        [ 6.7335e-07, -4.5914e-07,  0.0000e+00,  ...,  1.6550e-06,
+         -1.3225e-07,  1.1576e-06],
+        [ 5.1502e-07,  9.9011e-08,  0.0000e+00,  ...,  8.5216e-07,
+          2.9569e-07,  5.1968e-07],
+        [-5.9488e-08,  1.0408e-07,  0.0000e+00,  ...,  3.8301e-07,
+          1.3434e-07, -8.8988e-07]], device='cuda:0')
+Epoch 133, bias, value: tensor([-0.0304,  0.0094,  0.0135,  0.0272,  0.0253, -0.0161,  0.0249,  0.0309,
+        -0.0104,  0.0061], device='cuda:0'), grad: tensor([-9.5218e-06, -3.8091e-07, -2.0443e-07,  3.4235e-06,  2.3246e-06,
+         3.0529e-06, -4.5970e-06,  3.8669e-06,  3.6713e-06, -1.6764e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 132, time 248.90, cls_loss 0.0018 cls_loss_mapping 0.0050 cls_loss_causal 0.5402 re_mapping 0.0053 re_causal 0.0164 /// teacc 98.99 lr 0.00010000
+Epoch 134, weight, value: tensor([[ 0.0514, -0.1039, -0.1154,  ..., -0.0840, -0.0859, -0.0759],
+        [ 0.0163,  0.0478, -0.0277,  ..., -0.0218,  0.1302,  0.0186],
+        [-0.0118, -0.1158, -0.0162,  ...,  0.1243, -0.1012,  0.0224],
+        ...,
+        [-0.0549,  0.1022,  0.0318,  ..., -0.0807,  0.0842,  0.0391],
+        [-0.0048, -0.0512,  0.0077,  ..., -0.0414, -0.1386, -0.0838],
+        [-0.0078, -0.0066, -0.0021,  ..., -0.1319, -0.1052,  0.0291]],
+       device='cuda:0'), grad: tensor([[ 5.9896e-08,  6.4867e-07,  1.4552e-11,  ...,  1.8142e-06,
+          1.3923e-07,  3.6005e-06],
+        [-1.0873e-07,  3.9185e-07, -8.8767e-10,  ...,  3.1441e-06,
+         -1.1707e-06,  6.3032e-06],
+        [ 1.5860e-06,  8.8383e-07,  1.1642e-10,  ..., -7.2457e-07,
+          2.7078e-07,  2.3786e-06],
+        ...,
+        [ 1.3821e-06,  1.8135e-05,  5.6752e-10,  ...,  1.8567e-05,
+          5.0329e-06,  7.9036e-05],
+        [ 2.0284e-06,  1.3569e-06,  5.8208e-11,  ...,  5.4725e-06,
+          3.0687e-07,  1.0908e-05],
+        [ 7.5391e-07, -1.4424e-05,  4.3656e-11,  ...,  1.4246e-05,
+         -5.2415e-06, -2.2411e-05]], device='cuda:0')
+Epoch 134, bias, value: tensor([-0.0302,  0.0101,  0.0131,  0.0270,  0.0253, -0.0162,  0.0252,  0.0305,
+        -0.0105,  0.0059], device='cuda:0'), grad: tensor([ 1.2942e-05,  2.4348e-05,  1.9461e-05, -3.7611e-05, -3.0327e-04,
+         2.1636e-05,  2.4691e-05,  2.5606e-04,  4.3780e-05, -6.2227e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 133, time 248.49, cls_loss 0.0015 cls_loss_mapping 0.0046 cls_loss_causal 0.5176 re_mapping 0.0052 re_causal 0.0166 /// teacc 99.07 lr 0.00010000
+Epoch 135, weight, value: tensor([[ 0.0519, -0.1038, -0.1154,  ..., -0.0835, -0.0862, -0.0761],
+        [ 0.0168,  0.0478, -0.0277,  ..., -0.0220,  0.1305,  0.0186],
+        [-0.0122, -0.1160, -0.0162,  ...,  0.1245, -0.1015,  0.0224],
+        ...,
+        [-0.0552,  0.1023,  0.0318,  ..., -0.0809,  0.0842,  0.0390],
+        [-0.0046, -0.0513,  0.0077,  ..., -0.0418, -0.1391, -0.0843],
+        [-0.0079, -0.0068, -0.0021,  ..., -0.1326, -0.1058,  0.0292]],
+       device='cuda:0'), grad: tensor([[-3.7224e-08,  3.0338e-07,  0.0000e+00,  ...,  4.8778e-08,
+          2.8242e-07,  2.5355e-07],
+        [-7.2736e-07,  2.0284e-06,  0.0000e+00,  ...,  5.8615e-08,
+          4.8010e-07,  1.1278e-06],
+        [ 7.6834e-08,  1.3197e-06,  0.0000e+00,  ..., -1.1898e-07,
+          1.2303e-06,  8.2748e-07],
+        ...,
+        [ 9.4180e-08, -9.6560e-06,  0.0000e+00,  ...,  1.1502e-07,
+         -8.0466e-06, -6.4783e-06],
+        [ 4.6380e-07,  8.7451e-07,  0.0000e+00,  ...,  9.6683e-08,
+          1.0896e-06,  8.1491e-07],
+        [ 3.8446e-08,  2.7623e-06,  0.0000e+00,  ...,  2.6706e-07,
+          2.4494e-06,  2.0340e-06]], device='cuda:0')
+Epoch 135, bias, value: tensor([-0.0292,  0.0103,  0.0126,  0.0274,  0.0256, -0.0164,  0.0252,  0.0303,
+        -0.0104,  0.0057], device='cuda:0'), grad: tensor([ 8.2934e-07,  2.6617e-06,  2.9504e-06,  2.1588e-06,  8.9686e-07,
+        -4.5709e-06,  4.3884e-06, -1.9789e-05,  4.1164e-06,  6.3293e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 134, time 249.12, cls_loss 0.0019 cls_loss_mapping 0.0054 cls_loss_causal 0.5368 re_mapping 0.0052 re_causal 0.0159 /// teacc 99.05 lr 0.00010000
+Epoch 136, weight, value: tensor([[ 0.0510, -0.1042, -0.1154,  ..., -0.0842, -0.0873, -0.0766],
+        [ 0.0173,  0.0476, -0.0277,  ..., -0.0222,  0.1306,  0.0184],
+        [-0.0121, -0.1162, -0.0162,  ...,  0.1252, -0.1019,  0.0227],
+        ...,
+        [-0.0554,  0.1028,  0.0318,  ..., -0.0812,  0.0846,  0.0395],
+        [-0.0048, -0.0517,  0.0077,  ..., -0.0429, -0.1398, -0.0850],
+        [-0.0079, -0.0072, -0.0021,  ..., -0.1333, -0.1065,  0.0290]],
+       device='cuda:0'), grad: tensor([[ 2.4840e-05,  2.3618e-08,  0.0000e+00,  ...,  1.9884e-07,
+          7.0839e-08,  1.5821e-07],
+        [ 1.7218e-07, -4.7404e-07,  0.0000e+00,  ...,  1.9709e-07,
+         -1.4268e-06, -2.1327e-07],
+        [ 2.9821e-06,  1.4249e-07,  0.0000e+00,  ..., -5.9837e-07,
+          4.3516e-07, -3.6019e-07],
+        ...,
+        [ 5.6205e-07,  1.5146e-07,  0.0000e+00,  ...,  2.9313e-07,
+          3.5460e-07,  4.6380e-07],
+        [-3.7014e-05,  3.9057e-08,  0.0000e+00,  ..., -5.2666e-07,
+          1.1362e-07,  1.9453e-07],
+        [ 5.0217e-06,  1.8961e-08,  0.0000e+00,  ...,  2.5937e-07,
+          4.1095e-08, -4.7521e-07]], device='cuda:0')
+Epoch 136, bias, value: tensor([-0.0303,  0.0101,  0.0128,  0.0272,  0.0252, -0.0161,  0.0256,  0.0309,
+        -0.0112,  0.0053], device='cuda:0'), grad: tensor([ 6.0886e-05,  4.3167e-07,  1.0386e-05,  8.0466e-07,  4.2492e-07,
+         1.2917e-06,  4.9807e-06,  3.0529e-06, -9.3520e-05,  1.1325e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 135, time 249.08, cls_loss 0.0018 cls_loss_mapping 0.0043 cls_loss_causal 0.5394 re_mapping 0.0053 re_causal 0.0163 /// teacc 99.10 lr 0.00010000
+Epoch 137, weight, value: tensor([[ 0.0509, -0.1043, -0.1154,  ..., -0.0847, -0.0876, -0.0771],
+        [ 0.0176,  0.0476, -0.0277,  ..., -0.0225,  0.1308,  0.0185],
+        [-0.0126, -0.1166, -0.0162,  ...,  0.1257, -0.1025,  0.0224],
+        ...,
+        [-0.0556,  0.1032,  0.0318,  ..., -0.0813,  0.0849,  0.0398],
+        [-0.0038, -0.0517,  0.0077,  ..., -0.0431, -0.1400, -0.0853],
+        [-0.0080, -0.0073, -0.0021,  ..., -0.1341, -0.1067,  0.0283]],
+       device='cuda:0'), grad: tensor([[-5.2713e-07,  1.1656e-08,  0.0000e+00,  ...,  2.7358e-09,
+          1.4377e-08,  1.1918e-08],
+        [ 5.3970e-07,  2.4284e-07,  0.0000e+00,  ...,  3.3615e-09,
+          5.8702e-08,  3.4983e-08],
+        [ 6.9384e-08,  2.2643e-08,  0.0000e+00,  ...,  1.3970e-09,
+          3.8097e-08,  1.5760e-08],
+        ...,
+        [ 3.7975e-07,  5.1892e-08,  0.0000e+00,  ...,  4.0454e-09,
+          3.1170e-08, -1.1933e-08],
+        [ 5.2014e-07,  2.1805e-07,  0.0000e+00,  ..., -2.1362e-08,
+          2.1292e-07,  6.7463e-08],
+        [ 4.9919e-07,  1.3341e-07,  0.0000e+00,  ...,  3.8999e-09,
+          1.3411e-07, -1.9174e-07]], device='cuda:0')
+Epoch 137, bias, value: tensor([-0.0306,  0.0101,  0.0126,  0.0261,  0.0275, -0.0158,  0.0255,  0.0311,
+        -0.0105,  0.0037], device='cuda:0'), grad: tensor([-3.3602e-06,  4.7646e-06,  3.4738e-07, -8.1360e-06,  8.0978e-07,
+        -6.0014e-06,  2.9169e-06,  2.5798e-06,  3.5036e-06,  2.5388e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 136, time 248.84, cls_loss 0.0021 cls_loss_mapping 0.0060 cls_loss_causal 0.5336 re_mapping 0.0049 re_causal 0.0157 /// teacc 99.02 lr 0.00010000
+Epoch 138, weight, value: tensor([[ 0.0526, -0.1015, -0.1155,  ..., -0.0844, -0.0881, -0.0775],
+        [ 0.0177,  0.0476, -0.0277,  ..., -0.0229,  0.1310,  0.0184],
+        [-0.0110, -0.1172, -0.0160,  ...,  0.1275, -0.1028,  0.0235],
+        ...,
+        [-0.0559,  0.1035,  0.0318,  ..., -0.0818,  0.0850,  0.0397],
+        [-0.0048, -0.0519,  0.0077,  ..., -0.0451, -0.1404, -0.0873],
+        [-0.0081, -0.0075, -0.0021,  ..., -0.1350, -0.1070,  0.0282]],
+       device='cuda:0'), grad: tensor([[-5.4808e-07,  1.1368e-07,  0.0000e+00,  ..., -4.4680e-07,
+          3.9086e-08,  4.1607e-07],
+        [-1.1493e-06,  5.7295e-06,  0.0000e+00,  ..., -1.1671e-07,
+          1.7853e-06,  8.2478e-06],
+        [ 1.1446e-06,  9.2387e-07,  0.0000e+00,  ...,  5.4995e-07,
+          1.6885e-06,  1.1269e-06],
+        ...,
+        [ 3.2503e-07, -4.4964e-06,  0.0000e+00,  ...,  1.8328e-06,
+         -5.1670e-06, -1.4296e-06],
+        [-1.2340e-06,  6.3051e-07,  0.0000e+00,  ...,  4.1211e-07,
+          1.0151e-06,  1.1083e-06],
+        [ 5.6252e-07,  3.1339e-07,  0.0000e+00,  ...,  4.5728e-07,
+          1.2550e-07,  1.5227e-06]], device='cuda:0')
+Epoch 138, bias, value: tensor([-0.0289,  0.0099,  0.0141,  0.0259,  0.0282, -0.0161,  0.0255,  0.0309,
+        -0.0117,  0.0035], device='cuda:0'), grad: tensor([-2.5071e-06,  1.7270e-05,  1.7598e-05, -2.9519e-05, -3.5673e-05,
+         1.5765e-05,  5.0217e-06,  5.3719e-06, -2.2619e-07,  6.8732e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 137, time 248.84, cls_loss 0.0021 cls_loss_mapping 0.0064 cls_loss_causal 0.5411 re_mapping 0.0052 re_causal 0.0158 /// teacc 98.93 lr 0.00010000
+Epoch 139, weight, value: tensor([[ 0.0525, -0.1012, -0.1155,  ..., -0.0829, -0.0896, -0.0781],
+        [ 0.0181,  0.0476, -0.0277,  ..., -0.0229,  0.1314,  0.0186],
+        [-0.0133, -0.1182, -0.0160,  ...,  0.1252, -0.1038,  0.0235],
+        ...,
+        [-0.0562,  0.1037,  0.0318,  ..., -0.0825,  0.0852,  0.0398],
+        [-0.0025, -0.0510,  0.0077,  ..., -0.0419, -0.1408, -0.0875],
+        [-0.0079, -0.0073, -0.0021,  ..., -0.1357, -0.1073,  0.0286]],
+       device='cuda:0'), grad: tensor([[ 6.2445e-07,  5.5367e-07,  0.0000e+00,  ...,  8.0327e-07,
+          1.2852e-06,  9.7975e-07],
+        [-1.7017e-05, -1.6421e-05,  0.0000e+00,  ..., -4.2305e-07,
+         -3.6895e-05, -1.0200e-05],
+        [ 2.0750e-06,  9.1782e-07,  0.0000e+00,  ..., -1.1683e-05,
+          2.4922e-06, -8.6874e-06],
+        ...,
+        [ 5.3011e-06,  1.8865e-05,  0.0000e+00,  ...,  6.6720e-06,
+          5.1975e-05,  2.0623e-05],
+        [ 2.1011e-05,  1.4707e-05,  0.0000e+00,  ...,  2.6524e-06,
+          1.4074e-05,  1.6659e-05],
+        [-1.5184e-05, -8.1435e-06,  0.0000e+00,  ...,  1.8324e-07,
+          4.9062e-06, -1.1988e-05]], device='cuda:0')
+Epoch 139, bias, value: tensor([-0.0291,  0.0101,  0.0118,  0.0260,  0.0280, -0.0164,  0.0249,  0.0306,
+        -0.0088,  0.0043], device='cuda:0'), grad: tensor([ 5.4166e-06, -4.6104e-05, -1.7568e-05, -2.4724e-04,  1.3009e-05,
+         3.2801e-06,  9.8571e-06,  2.2161e-04,  7.5102e-05, -1.7673e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 138, time 248.94, cls_loss 0.0016 cls_loss_mapping 0.0044 cls_loss_causal 0.5235 re_mapping 0.0055 re_causal 0.0161 /// teacc 99.02 lr 0.00010000
+Epoch 140, weight, value: tensor([[ 0.0525, -0.1016, -0.1156,  ..., -0.0833, -0.0907, -0.0786],
+        [ 0.0185,  0.0476, -0.0277,  ..., -0.0230,  0.1317,  0.0186],
+        [-0.0132, -0.1185, -0.0160,  ...,  0.1256, -0.1038,  0.0242],
+        ...,
+        [-0.0565,  0.1038,  0.0318,  ..., -0.0832,  0.0852,  0.0396],
+        [-0.0026, -0.0514,  0.0077,  ..., -0.0420, -0.1420, -0.0881],
+        [-0.0077, -0.0067, -0.0022,  ..., -0.1364, -0.1073,  0.0290]],
+       device='cuda:0'), grad: tensor([[ 1.4175e-06,  4.9651e-08,  0.0000e+00,  ...,  3.7742e-07,
+          8.3295e-08,  1.1725e-06],
+        [ 1.0673e-06, -4.5868e-07,  0.0000e+00,  ...,  2.6561e-06,
+         -2.0862e-06,  2.3227e-06],
+        [-1.7909e-06,  2.2806e-07,  0.0000e+00,  ..., -8.8513e-06,
+          4.4261e-07, -6.5640e-06],
+        ...,
+        [ 2.7455e-06, -5.8347e-07,  0.0000e+00,  ...,  5.1735e-07,
+          3.1409e-07,  8.7405e-07],
+        [ 3.4110e-07,  1.0827e-07,  0.0000e+00,  ...,  3.4571e-06,
+          2.0326e-07,  6.1095e-06],
+        [-2.7299e-05,  1.6124e-07,  0.0000e+00,  ...,  2.3120e-07,
+          2.1420e-07, -2.0534e-05]], device='cuda:0')
+Epoch 140, bias, value: tensor([-0.0291,  0.0102,  0.0120,  0.0263,  0.0280, -0.0163,  0.0249,  0.0301,
+        -0.0091,  0.0046], device='cuda:0'), grad: tensor([ 9.8050e-06,  1.0394e-05, -1.3188e-05, -1.5221e-08,  1.2094e-04,
+         1.5214e-05,  7.0408e-06,  1.5706e-05,  8.0047e-07, -1.6689e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 139, time 248.85, cls_loss 0.0018 cls_loss_mapping 0.0053 cls_loss_causal 0.5306 re_mapping 0.0049 re_causal 0.0154 /// teacc 99.05 lr 0.00010000
+Epoch 141, weight, value: tensor([[ 0.0537, -0.0984, -0.1156,  ..., -0.0835, -0.0881, -0.0762],
+        [ 0.0189,  0.0476, -0.0277,  ..., -0.0232,  0.1319,  0.0186],
+        [-0.0133, -0.1188, -0.0160,  ...,  0.1259, -0.1047,  0.0243],
+        ...,
+        [-0.0568,  0.1039,  0.0318,  ..., -0.0838,  0.0855,  0.0395],
+        [-0.0029, -0.0525,  0.0077,  ..., -0.0422, -0.1437, -0.0891],
+        [-0.0083, -0.0070, -0.0022,  ..., -0.1372, -0.1077,  0.0289]],
+       device='cuda:0'), grad: tensor([[ 4.8336e-07,  2.7649e-08,  0.0000e+00,  ...,  1.0962e-06,
+          8.8301e-08,  5.2387e-07],
+        [-7.4506e-07, -4.7451e-07,  0.0000e+00,  ...,  5.4063e-07,
+         -1.9800e-06, -2.8114e-08],
+        [-3.0617e-07,  1.0198e-07,  0.0000e+00,  ..., -1.0105e-06,
+          3.8301e-07, -3.7416e-07],
+        ...,
+        [ 5.7556e-07,  1.3271e-07,  0.0000e+00,  ...,  8.4331e-07,
+          5.3784e-07,  1.6922e-06],
+        [-9.1083e-07,  9.2201e-08,  0.0000e+00,  ...,  2.1094e-07,
+          3.4343e-07,  6.1048e-07],
+        [ 1.7957e-08,  5.2445e-08,  0.0000e+00,  ...,  3.0193e-06,
+          2.1048e-07,  4.9062e-06]], device='cuda:0')
+Epoch 141, bias, value: tensor([-0.0267,  0.0102,  0.0118,  0.0265,  0.0282, -0.0164,  0.0251,  0.0300,
+        -0.0097,  0.0041], device='cuda:0'), grad: tensor([ 3.7998e-06, -6.1095e-07,  3.3900e-07,  2.0303e-06, -2.8849e-05,
+         5.3924e-07,  7.3314e-06,  4.6454e-06, -2.9523e-06,  1.3746e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 140, time 248.50, cls_loss 0.0018 cls_loss_mapping 0.0047 cls_loss_causal 0.5473 re_mapping 0.0050 re_causal 0.0160 /// teacc 98.94 lr 0.00010000
+Epoch 142, weight, value: tensor([[ 0.0532, -0.0990, -0.1158,  ..., -0.0847, -0.0885, -0.0778],
+        [ 0.0192,  0.0476, -0.0276,  ..., -0.0234,  0.1322,  0.0185],
+        [-0.0135, -0.1191, -0.0160,  ...,  0.1261, -0.1053,  0.0244],
+        ...,
+        [-0.0572,  0.1041,  0.0317,  ..., -0.0842,  0.0856,  0.0396],
+        [-0.0025, -0.0526,  0.0077,  ..., -0.0423, -0.1440, -0.0894],
+        [-0.0076, -0.0068, -0.0022,  ..., -0.1385, -0.1080,  0.0295]],
+       device='cuda:0'), grad: tensor([[-2.3952e-08,  1.2945e-07,  0.0000e+00,  ...,  6.4028e-08,
+          1.5274e-07,  1.8289e-07],
+        [-3.7719e-07,  4.4005e-07,  0.0000e+00,  ...,  1.8510e-08,
+         -6.2305e-07,  7.3388e-07],
+        [ 6.2049e-08,  6.3330e-07,  0.0000e+00,  ..., -1.0344e-07,
+          6.8638e-07,  6.3237e-07],
+        ...,
+        [ 4.7428e-07, -2.1362e-07,  0.0000e+00,  ...,  1.9558e-08,
+          7.7346e-07,  2.5257e-06],
+        [-4.7404e-07,  1.6124e-07,  0.0000e+00,  ...,  2.0053e-08,
+          2.8126e-07,  2.4098e-07],
+        [-1.4377e-07, -1.9819e-06,  0.0000e+00,  ...,  9.3423e-09,
+         -2.4661e-06, -5.4613e-06]], device='cuda:0')
+Epoch 142, bias, value: tensor([-0.0278,  0.0102,  0.0116,  0.0262,  0.0288, -0.0163,  0.0250,  0.0297,
+        -0.0093,  0.0045], device='cuda:0'), grad: tensor([ 3.4040e-07,  1.9073e-06,  2.7381e-06, -1.0490e-05,  1.1576e-06,
+         4.4107e-06,  1.0170e-06,  1.0662e-05, -1.6810e-07, -1.1563e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 141, time 248.74, cls_loss 0.0015 cls_loss_mapping 0.0045 cls_loss_causal 0.5424 re_mapping 0.0051 re_causal 0.0165 /// teacc 99.00 lr 0.00010000
+Epoch 143, weight, value: tensor([[ 0.0529, -0.0994, -0.1159,  ..., -0.0857, -0.0891, -0.0781],
+        [ 0.0199,  0.0476, -0.0276,  ..., -0.0232,  0.1325,  0.0184],
+        [-0.0133, -0.1191, -0.0160,  ...,  0.1264, -0.1057,  0.0247],
+        ...,
+        [-0.0576,  0.1043,  0.0317,  ..., -0.0846,  0.0857,  0.0396],
+        [-0.0029, -0.0528,  0.0077,  ..., -0.0424, -0.1444, -0.0897],
+        [-0.0070, -0.0065, -0.0022,  ..., -0.1389, -0.1083,  0.0302]],
+       device='cuda:0'), grad: tensor([[ 1.1205e-07,  3.1316e-08,  0.0000e+00,  ...,  3.6974e-07,
+          3.4546e-08,  5.7567e-08],
+        [ 1.7544e-07,  1.6007e-07,  0.0000e+00,  ...,  3.8045e-07,
+          1.2328e-07,  1.5297e-07],
+        [-2.7437e-06,  6.9034e-08,  0.0000e+00,  ..., -4.5672e-06,
+          8.4750e-08, -3.7043e-07],
+        ...,
+        [ 9.3540e-08, -6.6822e-07,  0.0000e+00,  ...,  1.1222e-07,
+         -6.9477e-07, -4.6985e-07],
+        [ 3.8464e-07,  5.9779e-08,  0.0000e+00,  ...,  6.8080e-07,
+          7.5321e-08,  9.9128e-08],
+        [ 8.4401e-09,  2.1164e-07,  0.0000e+00,  ...,  5.3609e-08,
+          2.2387e-07,  1.3039e-07]], device='cuda:0')
+Epoch 143, bias, value: tensor([-0.0285,  0.0103,  0.0118,  0.0276,  0.0284, -0.0170,  0.0249,  0.0296,
+        -0.0097,  0.0052], device='cuda:0'), grad: tensor([ 4.9314e-07,  9.8720e-07, -7.8380e-06,  4.8243e-06,  4.5495e-07,
+         7.2177e-07, -6.4168e-07, -8.4378e-07,  1.4091e-06,  4.6636e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 142, time 249.19, cls_loss 0.0013 cls_loss_mapping 0.0039 cls_loss_causal 0.5077 re_mapping 0.0052 re_causal 0.0162 /// teacc 99.05 lr 0.00010000
+Epoch 144, weight, value: tensor([[ 0.0530, -0.0995, -0.1165,  ..., -0.0870, -0.0893, -0.0785],
+        [ 0.0199,  0.0476, -0.0279,  ..., -0.0244,  0.1325,  0.0181],
+        [-0.0133, -0.1193, -0.0158,  ...,  0.1268, -0.1066,  0.0244],
+        ...,
+        [-0.0578,  0.1047,  0.0317,  ..., -0.0845,  0.0863,  0.0404],
+        [-0.0025, -0.0529,  0.0078,  ..., -0.0424, -0.1447, -0.0901],
+        [-0.0066, -0.0068, -0.0022,  ..., -0.1393, -0.1089,  0.0301]],
+       device='cuda:0'), grad: tensor([[ 4.9447e-08,  6.1607e-07,  0.0000e+00,  ...,  5.3048e-06,
+          6.2305e-07,  5.8766e-07],
+        [-1.8962e-06, -5.4576e-07,  0.0000e+00,  ...,  1.2890e-06,
+         -3.6974e-06, -5.2992e-07],
+        [ 7.4180e-07,  1.0831e-06,  0.0000e+00,  ..., -5.8580e-07,
+          1.6233e-06, -1.3737e-07],
+        ...,
+        [ 1.0068e-06, -9.4771e-06,  0.0000e+00,  ...,  2.5029e-07,
+         -6.7577e-06, -7.2829e-06],
+        [-2.7120e-06,  3.7835e-07,  0.0000e+00,  ...,  8.5868e-07,
+          6.3702e-07,  5.5833e-07],
+        [ 1.4594e-06,  2.3302e-06,  0.0000e+00,  ...,  3.9372e-07,
+          2.6394e-06,  1.7127e-06]], device='cuda:0')
+Epoch 144, bias, value: tensor([-0.0290,  0.0099,  0.0117,  0.0279,  0.0281, -0.0175,  0.0253,  0.0301,
+        -0.0095,  0.0052], device='cuda:0'), grad: tensor([ 9.9912e-06, -4.7265e-07,  4.8019e-06,  2.5779e-06,  1.4603e-05,
+         1.0021e-05, -2.6703e-05, -1.4432e-05, -1.1794e-05,  1.1370e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 143----------------------------------------------------
+epoch 143, time 249.40, cls_loss 0.0016 cls_loss_mapping 0.0038 cls_loss_causal 0.5052 re_mapping 0.0051 re_causal 0.0155 /// teacc 99.16 lr 0.00010000
+Epoch 145, weight, value: tensor([[ 0.0530, -0.0996, -0.1166,  ..., -0.0881, -0.0897, -0.0790],
+        [ 0.0207,  0.0456, -0.0281,  ..., -0.0245,  0.1313,  0.0166],
+        [-0.0134, -0.1195, -0.0156,  ...,  0.1271, -0.1074,  0.0243],
+        ...,
+        [-0.0584,  0.1069,  0.0317,  ..., -0.0847,  0.0882,  0.0421],
+        [-0.0024, -0.0533,  0.0078,  ..., -0.0426, -0.1456, -0.0906],
+        [-0.0067, -0.0074, -0.0022,  ..., -0.1401, -0.1101,  0.0298]],
+       device='cuda:0'), grad: tensor([[ 3.0687e-07,  1.3399e-07,  0.0000e+00,  ...,  2.8382e-07,
+          4.7265e-07,  3.3411e-07],
+        [ 9.7265e-08,  2.6048e-08,  0.0000e+00,  ..., -5.6140e-06,
+         -1.9148e-05, -1.3635e-05],
+        [ 1.2573e-06, -1.4424e-05,  0.0000e+00,  ..., -2.0444e-05,
+         -1.7136e-05, -1.8641e-05],
+        ...,
+        [ 1.4091e-06,  1.2815e-05,  0.0000e+00,  ...,  2.5511e-05,
+          3.7074e-05,  2.8923e-05],
+        [ 5.6177e-06,  2.9686e-07,  0.0000e+00,  ...,  9.3924e-07,
+          1.5786e-06,  5.8534e-07],
+        [ 6.2771e-07,  2.7963e-07,  0.0000e+00,  ...,  2.3283e-07,
+          9.1642e-07,  2.0640e-07]], device='cuda:0')
+Epoch 145, bias, value: tensor([-0.0294,  0.0084,  0.0116,  0.0276,  0.0282, -0.0176,  0.0255,  0.0321,
+        -0.0096,  0.0049], device='cuda:0'), grad: tensor([ 3.5632e-06, -1.9982e-05, -6.1333e-05, -4.3035e-05,  3.3118e-06,
+        -3.6150e-05,  8.5533e-06,  1.0890e-04,  3.0726e-05,  5.3681e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 144, time 248.89, cls_loss 0.0015 cls_loss_mapping 0.0034 cls_loss_causal 0.5023 re_mapping 0.0049 re_causal 0.0151 /// teacc 99.02 lr 0.00010000
+Epoch 146, weight, value: tensor([[ 0.0533, -0.0997, -0.1169,  ..., -0.0886, -0.0902, -0.0793],
+        [ 0.0212,  0.0456, -0.0279,  ..., -0.0245,  0.1316,  0.0167],
+        [-0.0133, -0.1195, -0.0156,  ...,  0.1272, -0.1076,  0.0246],
+        ...,
+        [-0.0588,  0.1072,  0.0314,  ..., -0.0854,  0.0883,  0.0423],
+        [-0.0025, -0.0537,  0.0077,  ..., -0.0429, -0.1464, -0.0914],
+        [-0.0069, -0.0082, -0.0023,  ..., -0.1413, -0.1112,  0.0292]],
+       device='cuda:0'), grad: tensor([[ 1.1933e-07,  4.6042e-08,  0.0000e+00,  ...,  2.8402e-05,
+          5.0670e-08,  1.7113e-07],
+        [-7.6892e-08, -3.7230e-07,  0.0000e+00,  ...,  2.7660e-06,
+         -7.6881e-07, -8.2073e-09],
+        [ 2.1013e-07,  7.5437e-08,  0.0000e+00,  ...,  1.0729e-06,
+          1.3190e-07, -1.0394e-06],
+        ...,
+        [ 2.8242e-07,  1.8487e-07,  0.0000e+00,  ...,  5.5134e-07,
+          2.5076e-07,  1.0505e-06],
+        [ 5.0105e-07,  6.2981e-08,  0.0000e+00,  ...,  4.0568e-06,
+          9.7963e-08,  3.0664e-07],
+        [-6.4867e-07, -3.7160e-07,  0.0000e+00,  ...,  2.3931e-05,
+         -2.6193e-08, -2.9784e-06]], device='cuda:0')
+Epoch 146, bias, value: tensor([-0.0293,  0.0085,  0.0114,  0.0280,  0.0282, -0.0175,  0.0256,  0.0321,
+        -0.0098,  0.0044], device='cuda:0'), grad: tensor([ 8.9109e-05,  8.4192e-06,  6.0685e-06, -8.4639e-06,  6.1452e-05,
+         1.5087e-05, -2.5535e-04,  4.7237e-06,  1.6525e-05,  6.2168e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 145, time 248.74, cls_loss 0.0016 cls_loss_mapping 0.0045 cls_loss_causal 0.4954 re_mapping 0.0047 re_causal 0.0143 /// teacc 99.08 lr 0.00010000
+Epoch 147, weight, value: tensor([[ 0.0537, -0.0998, -0.1181,  ..., -0.0894, -0.0907, -0.0798],
+        [ 0.0213,  0.0456, -0.0279,  ..., -0.0250,  0.1319,  0.0167],
+        [-0.0132, -0.1198, -0.0156,  ...,  0.1276, -0.1080,  0.0247],
+        ...,
+        [-0.0592,  0.1075,  0.0314,  ..., -0.0857,  0.0884,  0.0423],
+        [-0.0037, -0.0542,  0.0073,  ..., -0.0432, -0.1468, -0.0920],
+        [-0.0054, -0.0083, -0.0023,  ..., -0.1427, -0.1118,  0.0294]],
+       device='cuda:0'), grad: tensor([[-1.7323e-07,  6.6531e-08,  0.0000e+00,  ...,  4.6287e-07,
+          1.7090e-07,  1.3597e-07],
+        [-2.3805e-06, -1.4612e-06,  0.0000e+00,  ...,  2.7078e-07,
+         -5.0515e-06, -1.8040e-06],
+        [ 5.9232e-07,  1.3271e-07,  0.0000e+00,  ...,  2.4855e-08,
+          2.7707e-07,  3.6962e-08],
+        ...,
+        [ 1.1856e-06,  5.1269e-07,  0.0000e+00,  ...,  3.8370e-07,
+          1.9632e-06,  1.1344e-06],
+        [-3.9078e-06,  1.7695e-07,  0.0000e+00,  ..., -3.9907e-07,
+          5.6671e-07,  3.1665e-07],
+        [ 7.8510e-07,  1.7579e-07,  0.0000e+00,  ...,  2.2678e-07,
+          6.9756e-07,  2.8429e-07]], device='cuda:0')
+Epoch 147, bias, value: tensor([-0.0294,  0.0084,  0.0116,  0.0281,  0.0284, -0.0176,  0.0262,  0.0320,
+        -0.0108,  0.0047], device='cuda:0'), grad: tensor([ 1.2135e-06, -5.6811e-06,  2.4550e-06,  1.3933e-06, -6.7949e-06,
+         1.1355e-05,  2.8443e-06,  5.8413e-06, -1.6153e-05,  3.4943e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 146, time 248.74, cls_loss 0.0018 cls_loss_mapping 0.0052 cls_loss_causal 0.5374 re_mapping 0.0048 re_causal 0.0151 /// teacc 98.91 lr 0.00010000
+Epoch 148, weight, value: tensor([[ 0.0537, -0.1000, -0.1184,  ..., -0.0906, -0.0909, -0.0804],
+        [ 0.0217,  0.0457, -0.0280,  ..., -0.0256,  0.1322,  0.0168],
+        [-0.0131, -0.1198, -0.0157,  ...,  0.1283, -0.1078,  0.0254],
+        ...,
+        [-0.0599,  0.1075,  0.0314,  ..., -0.0870,  0.0882,  0.0421],
+        [-0.0028, -0.0538,  0.0076,  ..., -0.0433, -0.1471, -0.0914],
+        [-0.0061, -0.0084, -0.0025,  ..., -0.1439, -0.1125,  0.0293]],
+       device='cuda:0'), grad: tensor([[ 7.1898e-07,  7.8231e-07,  2.6193e-10,  ...,  4.1835e-06,
+          9.1083e-07,  9.5367e-07],
+        [-1.7390e-05, -1.9714e-05, -6.1409e-09,  ...,  4.9453e-07,
+         -2.5064e-05, -7.2494e-06],
+        [ 2.3330e-07,  1.1381e-06,  4.0745e-10,  ..., -3.5390e-07,
+          1.4585e-06,  7.4331e-08],
+        ...,
+        [ 1.5780e-05, -7.2876e-07,  3.3178e-09,  ...,  2.3621e-07,
+          6.9663e-07,  2.4214e-06],
+        [ 1.7574e-06,  1.7593e-06,  4.3656e-10,  ...,  5.3132e-07,
+          1.9614e-06,  2.0284e-06],
+        [-4.9435e-06, -9.2573e-07,  4.9477e-10,  ...,  1.8207e-07,
+          4.3027e-07, -9.5591e-06]], device='cuda:0')
+Epoch 148, bias, value: tensor([-0.0301,  0.0084,  0.0119,  0.0286,  0.0282, -0.0178,  0.0268,  0.0313,
+        -0.0098,  0.0041], device='cuda:0'), grad: tensor([ 1.5497e-05, -3.9250e-05,  3.2932e-06,  5.9962e-05,  7.1041e-06,
+        -1.1973e-05, -1.5199e-05,  8.8066e-06,  1.2010e-05, -4.0323e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 147, time 248.66, cls_loss 0.0018 cls_loss_mapping 0.0057 cls_loss_causal 0.5120 re_mapping 0.0053 re_causal 0.0158 /// teacc 99.12 lr 0.00010000
+Epoch 149, weight, value: tensor([[ 0.0536, -0.1002, -0.1190,  ..., -0.0919, -0.0912, -0.0830],
+        [ 0.0222,  0.0459, -0.0282,  ..., -0.0261,  0.1327,  0.0170],
+        [-0.0129, -0.1201, -0.0142,  ...,  0.1288, -0.1081,  0.0257],
+        ...,
+        [-0.0606,  0.1094,  0.0313,  ..., -0.0873,  0.0892,  0.0438],
+        [-0.0026, -0.0540,  0.0075,  ..., -0.0434, -0.1474, -0.0919],
+        [-0.0056, -0.0112, -0.0025,  ..., -0.1441, -0.1155,  0.0271]],
+       device='cuda:0'), grad: tensor([[ 5.1316e-07,  4.9971e-08,  9.6043e-10,  ...,  2.4252e-06,
+          7.7439e-07,  3.3039e-07],
+        [-8.9854e-06, -6.7651e-06, -3.1339e-07,  ..., -1.9313e-07,
+         -2.2560e-05, -8.5011e-06],
+        [ 2.0545e-06,  6.8394e-08,  1.3679e-09,  ..., -2.4633e-07,
+          3.2727e-06,  1.2829e-07],
+        ...,
+        [ 3.7868e-06,  5.3570e-06,  2.4540e-07,  ...,  1.9080e-07,
+          1.0930e-05,  5.1856e-06],
+        [-4.4443e-06,  6.0012e-08,  9.3132e-10,  ...,  9.5321e-07,
+          2.4494e-06,  1.0449e-06],
+        [ 8.6753e-07, -4.1502e-08,  1.2398e-08,  ...,  4.1388e-06,
+          5.3085e-07, -6.0210e-07]], device='cuda:0')
+Epoch 149, bias, value: tensor([-0.0306,  0.0086,  0.0122,  0.0279,  0.0298, -0.0175,  0.0266,  0.0328,
+        -0.0098,  0.0019], device='cuda:0'), grad: tensor([ 8.8662e-06, -3.1769e-05,  7.2941e-06,  6.2250e-06,  9.4101e-06,
+         8.3596e-06, -2.2262e-05,  1.6436e-05, -1.7211e-05,  1.4536e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 148, time 248.98, cls_loss 0.0016 cls_loss_mapping 0.0042 cls_loss_causal 0.5237 re_mapping 0.0050 re_causal 0.0156 /// teacc 98.89 lr 0.00010000
+Epoch 150, weight, value: tensor([[ 0.0539, -0.1003, -0.1191,  ..., -0.0924, -0.0915, -0.0832],
+        [ 0.0226,  0.0460, -0.0282,  ..., -0.0263,  0.1332,  0.0171],
+        [-0.0098, -0.1208, -0.0126,  ...,  0.1292, -0.1088,  0.0269],
+        ...,
+        [-0.0614,  0.1095,  0.0313,  ..., -0.0877,  0.0890,  0.0436],
+        [-0.0028, -0.0541,  0.0063,  ..., -0.0438, -0.1478, -0.0923],
+        [-0.0055, -0.0112, -0.0025,  ..., -0.1446, -0.1155,  0.0273]],
+       device='cuda:0'), grad: tensor([[-9.5984e-08,  2.4331e-08,  0.0000e+00,  ...,  1.7171e-08,
+          4.7905e-08,  5.0961e-08],
+        [-3.6671e-07, -2.5611e-07,  0.0000e+00,  ...,  1.0827e-08,
+         -7.9675e-07, -2.0675e-07],
+        [ 2.4796e-07,  8.5495e-07,  0.0000e+00,  ..., -3.3760e-08,
+          1.2349e-06,  1.5888e-06],
+        ...,
+        [ 2.5844e-07, -9.7323e-07,  0.0000e+00,  ...,  2.8842e-08,
+         -1.0906e-06, -2.0005e-06],
+        [-9.6578e-07,  5.1688e-08,  0.0000e+00,  ..., -8.3703e-08,
+          1.2119e-07,  8.9698e-08],
+        [ 9.4483e-07,  1.3376e-07,  0.0000e+00,  ...,  6.2573e-08,
+          1.9546e-07,  1.5181e-07]], device='cuda:0')
+Epoch 150, bias, value: tensor([-0.0305,  0.0087,  0.0152,  0.0252,  0.0301, -0.0177,  0.0269,  0.0325,
+        -0.0101,  0.0020], device='cuda:0'), grad: tensor([-1.8347e-07, -7.7114e-07,  4.0419e-06, -8.5589e-07,  5.3132e-07,
+        -2.2668e-06,  1.4342e-06, -2.7586e-06, -2.7604e-06,  3.5744e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 149, time 250.60, cls_loss 0.0022 cls_loss_mapping 0.0069 cls_loss_causal 0.5349 re_mapping 0.0051 re_causal 0.0160 /// teacc 98.98 lr 0.00010000
+Epoch 151, weight, value: tensor([[ 0.0541, -0.1005, -0.1198,  ..., -0.0936, -0.0923, -0.0834],
+        [ 0.0260,  0.0476, -0.0282,  ..., -0.0283,  0.1364,  0.0175],
+        [-0.0096, -0.1214, -0.0126,  ...,  0.1300, -0.1080,  0.0276],
+        ...,
+        [-0.0637,  0.1090,  0.0312,  ..., -0.0879,  0.0883,  0.0435],
+        [-0.0021, -0.0570,  0.0062,  ..., -0.0443, -0.1500, -0.0927],
+        [-0.0066, -0.0114, -0.0026,  ..., -0.1452, -0.1159,  0.0272]],
+       device='cuda:0'), grad: tensor([[ 4.2212e-07,  5.5967e-08,  0.0000e+00,  ...,  3.9185e-07,
+          7.9919e-08,  6.7288e-08],
+        [-4.0745e-08, -6.7195e-07,  0.0000e+00,  ...,  1.2228e-06,
+         -1.5832e-06, -1.2096e-07],
+        [ 2.4959e-06,  1.2154e-07,  0.0000e+00,  ...,  1.1566e-07,
+          2.1257e-07, -1.0914e-08],
+        ...,
+        [ 8.4862e-06,  5.9651e-07,  0.0000e+00,  ...,  1.1135e-07,
+          5.3272e-07,  1.3644e-06],
+        [ 2.8545e-07,  1.8836e-07,  0.0000e+00,  ...,  5.3225e-07,
+          2.9081e-07,  1.7253e-07],
+        [ 1.1558e-06,  2.0349e-07,  0.0000e+00,  ...,  1.0856e-07,
+          1.1915e-07,  2.7753e-07]], device='cuda:0')
+Epoch 151, bias, value: tensor([-0.0305,  0.0118,  0.0153,  0.0239,  0.0298, -0.0184,  0.0274,  0.0318,
+        -0.0094,  0.0015], device='cuda:0'), grad: tensor([ 2.6356e-06,  2.6803e-06,  1.0043e-05, -9.7036e-05, -3.8892e-06,
+         4.3243e-05, -4.9435e-06,  3.3468e-05,  5.7444e-06,  7.9572e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 150, time 256.70, cls_loss 0.0017 cls_loss_mapping 0.0045 cls_loss_causal 0.5356 re_mapping 0.0048 re_causal 0.0151 /// teacc 99.00 lr 0.00010000
+Epoch 152, weight, value: tensor([[ 0.0541, -0.1005, -0.1230,  ..., -0.0965, -0.0927, -0.0836],
+        [ 0.0265,  0.0476, -0.0283,  ..., -0.0281,  0.1369,  0.0176],
+        [-0.0097, -0.1217, -0.0129,  ...,  0.1300, -0.1091,  0.0272],
+        ...,
+        [-0.0641,  0.1092,  0.0312,  ..., -0.0880,  0.0885,  0.0436],
+        [-0.0022, -0.0575,  0.0061,  ..., -0.0446, -0.1505, -0.0931],
+        [-0.0074, -0.0114, -0.0026,  ..., -0.1457, -0.1160,  0.0273]],
+       device='cuda:0'), grad: tensor([[-9.7963e-08,  1.1805e-07,  0.0000e+00,  ...,  5.6869e-08,
+          4.0559e-07,  4.7288e-07],
+        [-1.3165e-05, -8.2850e-06,  0.0000e+00,  ..., -5.3868e-06,
+         -3.3110e-05, -1.2681e-05],
+        [ 5.6345e-07,  4.2142e-07,  0.0000e+00,  ...,  1.8231e-07,
+          1.4082e-06,  1.2117e-06],
+        ...,
+        [ 4.2911e-07,  1.1758e-07,  0.0000e+00,  ...,  1.0803e-06,
+          6.3749e-07,  6.3777e-06],
+        [ 6.0815e-07,  1.2817e-07,  0.0000e+00,  ...,  3.3039e-07,
+          3.8254e-07,  5.8394e-07],
+        [ 7.4564e-08,  5.3225e-07,  0.0000e+00,  ...,  2.5034e-06,
+          2.3760e-07,  1.4059e-05]], device='cuda:0')
+Epoch 152, bias, value: tensor([-0.0317,  0.0122,  0.0152,  0.0244,  0.0294, -0.0184,  0.0275,  0.0317,
+        -0.0095,  0.0010], device='cuda:0'), grad: tensor([ 5.8813e-07, -5.3674e-05,  4.0531e-06,  1.1530e-06, -5.1022e-05,
+        -5.6718e-07,  5.3197e-05,  1.2808e-05,  3.6322e-06,  2.9802e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 151, time 256.51, cls_loss 0.0016 cls_loss_mapping 0.0038 cls_loss_causal 0.5111 re_mapping 0.0049 re_causal 0.0147 /// teacc 99.03 lr 0.00010000
+Epoch 153, weight, value: tensor([[ 0.0547, -0.1004, -0.1230,  ..., -0.0966, -0.0934, -0.0839],
+        [ 0.0265,  0.0475, -0.0283,  ..., -0.0286,  0.1370,  0.0174],
+        [-0.0095, -0.1224, -0.0127,  ...,  0.1309, -0.1096,  0.0277],
+        ...,
+        [-0.0647,  0.1096,  0.0312,  ..., -0.0891,  0.0887,  0.0438],
+        [-0.0022, -0.0577,  0.0060,  ..., -0.0447, -0.1505, -0.0936],
+        [-0.0072, -0.0114, -0.0026,  ..., -0.1461, -0.1161,  0.0273]],
+       device='cuda:0'), grad: tensor([[ 7.6077e-08,  2.2905e-08,  0.0000e+00,  ...,  4.6974e-08,
+          3.9843e-08,  1.3888e-07],
+        [-2.4564e-07,  8.0094e-08,  0.0000e+00,  ...,  4.1968e-08,
+         -4.5216e-07,  1.2422e-07],
+        [ 1.6810e-07,  1.7683e-07,  0.0000e+00,  ..., -3.0710e-07,
+          2.6985e-07, -4.0367e-08],
+        ...,
+        [ 3.6252e-07, -1.2172e-06,  0.0000e+00,  ...,  2.3597e-07,
+         -7.1805e-07, -1.9488e-07],
+        [-3.7369e-07,  6.2515e-08,  0.0000e+00,  ..., -1.3341e-07,
+          1.4110e-07,  2.4564e-07],
+        [-8.2003e-07,  3.7765e-07,  0.0000e+00,  ...,  7.4040e-08,
+          3.1828e-07, -3.6098e-06]], device='cuda:0')
+Epoch 153, bias, value: tensor([-0.0315,  0.0120,  0.0152,  0.0243,  0.0295, -0.0181,  0.0274,  0.0317,
+        -0.0093,  0.0009], device='cuda:0'), grad: tensor([ 5.6904e-07,  1.9022e-07,  4.5914e-07, -2.3225e-08,  4.3772e-06,
+         3.7160e-06,  1.4687e-06,  7.8464e-07, -9.2760e-07, -1.0625e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 152, time 251.33, cls_loss 0.0016 cls_loss_mapping 0.0040 cls_loss_causal 0.5334 re_mapping 0.0046 re_causal 0.0148 /// teacc 99.00 lr 0.00010000
+Epoch 154, weight, value: tensor([[ 0.0548, -0.1005, -0.1230,  ..., -0.0968, -0.0939, -0.0842],
+        [ 0.0270,  0.0484, -0.0285,  ..., -0.0289,  0.1380,  0.0187],
+        [-0.0095, -0.1231, -0.0124,  ...,  0.1315, -0.1100,  0.0277],
+        ...,
+        [-0.0653,  0.1098,  0.0312,  ..., -0.0894,  0.0889,  0.0438],
+        [-0.0022, -0.0579,  0.0060,  ..., -0.0450, -0.1506, -0.0943],
+        [-0.0087, -0.0124, -0.0026,  ..., -0.1469, -0.1177,  0.0268]],
+       device='cuda:0'), grad: tensor([[-2.0652e-07,  3.6962e-08,  0.0000e+00,  ..., -8.4809e-08,
+          8.0967e-08,  1.4016e-07],
+        [-1.2387e-07, -5.2201e-07,  0.0000e+00,  ...,  2.4005e-07,
+         -1.3253e-06,  9.5286e-08],
+        [-3.1479e-07, -5.0198e-07,  0.0000e+00,  ..., -1.6838e-05,
+         -1.1690e-05, -1.6078e-05],
+        ...,
+        [ 2.5332e-07,  3.9954e-07,  0.0000e+00,  ...,  1.4260e-05,
+          1.0915e-05,  1.5274e-05],
+        [ 4.0489e-07,  2.3865e-07,  0.0000e+00,  ...,  1.1837e-06,
+          7.1991e-07,  1.4110e-06],
+        [-3.9837e-07, -2.2294e-07,  0.0000e+00,  ...,  7.8324e-07,
+          3.8592e-08,  1.5339e-06]], device='cuda:0')
+Epoch 154, bias, value: tensor([-3.1364e-02,  1.2959e-02,  1.5216e-02,  2.4715e-02,  2.8798e-02,
+        -1.8623e-02,  2.7313e-02,  3.1599e-02, -9.5108e-03,  7.8537e-05],
+       device='cuda:0'), grad: tensor([-4.1537e-07,  2.6543e-08, -5.4032e-05,  2.1115e-05, -1.1705e-05,
+        -2.4945e-05,  1.2480e-05,  4.7505e-05,  6.0201e-06,  3.8520e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 153, time 248.99, cls_loss 0.0015 cls_loss_mapping 0.0035 cls_loss_causal 0.5235 re_mapping 0.0046 re_causal 0.0146 /// teacc 99.05 lr 0.00010000
+Epoch 155, weight, value: tensor([[ 0.0549, -0.1007, -0.1229,  ..., -0.0971, -0.0943, -0.0845],
+        [ 0.0270,  0.0481, -0.0286,  ..., -0.0291,  0.1379,  0.0183],
+        [-0.0097, -0.1235, -0.0123,  ...,  0.1317, -0.1108,  0.0275],
+        ...,
+        [-0.0658,  0.1098,  0.0311,  ..., -0.0899,  0.0890,  0.0437],
+        [-0.0022, -0.0580,  0.0060,  ..., -0.0453, -0.1506, -0.0949],
+        [-0.0076, -0.0116, -0.0026,  ..., -0.1471, -0.1173,  0.0276]],
+       device='cuda:0'), grad: tensor([[ 3.3225e-07,  2.3370e-08,  0.0000e+00,  ...,  2.1083e-07,
+          1.7486e-07,  1.9011e-07],
+        [-1.7613e-05,  2.1933e-07,  0.0000e+00,  ..., -4.8280e-06,
+         -1.2055e-05, -7.8902e-06],
+        [ 3.2820e-06,  4.3353e-07,  0.0000e+00,  ..., -3.8967e-06,
+          4.5039e-06,  1.5134e-06],
+        ...,
+        [ 4.4703e-07, -1.0226e-06,  0.0000e+00,  ...,  1.5283e-06,
+         -5.4762e-07, -6.4867e-07],
+        [ 9.2238e-06,  6.9849e-08,  0.0000e+00,  ...,  6.0312e-06,
+          4.2245e-06,  4.2729e-06],
+        [ 2.1979e-06,  1.1537e-07,  0.0000e+00,  ...,  7.8324e-07,
+          1.5404e-06,  1.3812e-06]], device='cuda:0')
+Epoch 155, bias, value: tensor([-0.0313,  0.0127,  0.0151,  0.0248,  0.0283, -0.0186,  0.0273,  0.0312,
+        -0.0095,  0.0012], device='cuda:0'), grad: tensor([ 1.6866e-06, -3.8326e-05,  3.6415e-06,  6.3442e-06, -1.4331e-07,
+        -1.5318e-05,  7.9572e-06,  7.7300e-07,  2.6360e-05,  7.0371e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 154, time 249.14, cls_loss 0.0012 cls_loss_mapping 0.0034 cls_loss_causal 0.5027 re_mapping 0.0051 re_causal 0.0151 /// teacc 99.04 lr 0.00010000
+Epoch 156, weight, value: tensor([[ 0.0553, -0.1009, -0.1227,  ..., -0.0972, -0.0949, -0.0848],
+        [ 0.0270,  0.0479, -0.0286,  ..., -0.0291,  0.1379,  0.0180],
+        [-0.0097, -0.1239, -0.0125,  ...,  0.1320, -0.1113,  0.0276],
+        ...,
+        [-0.0660,  0.1101,  0.0311,  ..., -0.0903,  0.0894,  0.0438],
+        [-0.0025, -0.0587,  0.0058,  ..., -0.0458, -0.1507, -0.0958],
+        [-0.0075, -0.0114, -0.0027,  ..., -0.1477, -0.1174,  0.0278]],
+       device='cuda:0'), grad: tensor([[ 1.7183e-06,  1.4697e-08,  0.0000e+00,  ...,  2.3178e-07,
+          7.2177e-08,  1.0217e-06],
+        [-6.5975e-06, -1.3551e-07,  0.0000e+00,  ...,  3.2433e-07,
+         -2.1920e-05, -4.8093e-06],
+        [-7.6368e-07,  2.8027e-08,  0.0000e+00,  ..., -6.2399e-07,
+          2.0140e-07, -6.0443e-07],
+        ...,
+        [ 6.5453e-06,  3.9185e-07,  0.0000e+00,  ...,  1.4761e-07,
+          1.8716e-05,  5.9046e-06],
+        [ 3.4622e-07,  3.1461e-08,  0.0000e+00,  ...,  1.4273e-07,
+          2.1036e-07,  3.8743e-07],
+        [ 2.1458e-05,  1.3621e-07,  0.0000e+00,  ...,  9.8571e-06,
+          1.6647e-07,  4.6730e-05]], device='cuda:0')
+Epoch 156, bias, value: tensor([-0.0311,  0.0126,  0.0151,  0.0250,  0.0282, -0.0183,  0.0275,  0.0313,
+        -0.0100,  0.0013], device='cuda:0'), grad: tensor([ 6.0350e-06, -3.0100e-05, -1.3513e-06,  8.1807e-06, -2.1911e-04,
+        -9.5740e-06,  1.3663e-06,  3.2037e-05,  1.8347e-06,  2.1100e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 155, time 249.43, cls_loss 0.0016 cls_loss_mapping 0.0044 cls_loss_causal 0.5173 re_mapping 0.0046 re_causal 0.0146 /// teacc 98.95 lr 0.00010000
+Epoch 157, weight, value: tensor([[ 0.0558, -0.1012, -0.1227,  ..., -0.0978, -0.0958, -0.0852],
+        [ 0.0269,  0.0477, -0.0285,  ..., -0.0299,  0.1379,  0.0178],
+        [-0.0095, -0.1242, -0.0123,  ...,  0.1327, -0.1113,  0.0285],
+        ...,
+        [-0.0666,  0.1107,  0.0309,  ..., -0.0910,  0.0900,  0.0442],
+        [-0.0026, -0.0590,  0.0058,  ..., -0.0463, -0.1508, -0.0967],
+        [-0.0075, -0.0119, -0.0027,  ..., -0.1485, -0.1178,  0.0276]],
+       device='cuda:0'), grad: tensor([[ 1.7637e-07,  3.0705e-08,  0.0000e+00,  ...,  2.5164e-06,
+          1.3215e-06,  4.0457e-06],
+        [ 1.1744e-06,  4.6589e-07,  0.0000e+00,  ...,  4.2245e-06,
+          2.4959e-06,  7.5549e-06],
+        [ 9.6916e-08,  1.1828e-07,  0.0000e+00,  ..., -8.2254e-05,
+         -4.4137e-05, -1.3125e-04],
+        ...,
+        [ 3.7509e-07, -4.4797e-07,  0.0000e+00,  ...,  6.6876e-05,
+          3.5942e-05,  1.0717e-04],
+        [-1.1269e-06,  4.4791e-08,  0.0000e+00,  ...,  3.1777e-06,
+          1.7760e-06,  5.0664e-06],
+        [-1.5544e-06, -3.8766e-07,  0.0000e+00,  ...,  4.7265e-07,
+          9.6625e-09, -3.6694e-07]], device='cuda:0')
+Epoch 157, bias, value: tensor([-0.0312,  0.0124,  0.0152,  0.0252,  0.0281, -0.0181,  0.0282,  0.0314,
+        -0.0102,  0.0008], device='cuda:0'), grad: tensor([ 1.0908e-05,  2.1085e-05, -3.4332e-04,  6.7391e-06,  4.7497e-06,
+         2.6217e-07,  1.0870e-05,  2.8157e-04,  9.8944e-06, -2.2370e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 156, time 249.17, cls_loss 0.0013 cls_loss_mapping 0.0039 cls_loss_causal 0.4925 re_mapping 0.0048 re_causal 0.0145 /// teacc 98.99 lr 0.00010000
+Epoch 158, weight, value: tensor([[ 0.0562, -0.1013, -0.1227,  ..., -0.0983, -0.0961, -0.0854],
+        [ 0.0268,  0.0475, -0.0289,  ..., -0.0305,  0.1379,  0.0176],
+        [-0.0095, -0.1246, -0.0119,  ...,  0.1332, -0.1115,  0.0288],
+        ...,
+        [-0.0669,  0.1110,  0.0309,  ..., -0.0916,  0.0903,  0.0443],
+        [-0.0026, -0.0589,  0.0055,  ..., -0.0465, -0.1508, -0.0975],
+        [-0.0071, -0.0118, -0.0028,  ..., -0.1492, -0.1178,  0.0277]],
+       device='cuda:0'), grad: tensor([[ 5.9605e-07,  1.0962e-06,  0.0000e+00,  ...,  3.6322e-07,
+          4.7917e-07,  2.5146e-06],
+        [ 7.3400e-08,  4.1933e-07,  0.0000e+00,  ...,  6.1467e-07,
+         -6.2445e-07,  1.5050e-06],
+        [ 1.6252e-07, -3.5256e-05,  0.0000e+00,  ..., -5.4836e-05,
+         -1.0294e-04, -6.4433e-05],
+        ...,
+        [ 4.4890e-06,  4.2588e-05,  0.0000e+00,  ...,  5.2750e-05,
+          1.0294e-04,  7.9751e-05],
+        [-7.2271e-07,  3.5949e-07,  0.0000e+00,  ..., -1.9209e-09,
+          3.1642e-07,  7.8045e-07],
+        [-1.2480e-05, -2.3112e-05,  0.0000e+00,  ...,  1.0099e-07,
+         -1.4203e-06, -5.1409e-05]], device='cuda:0')
+Epoch 158, bias, value: tensor([-0.0313,  0.0121,  0.0152,  0.0253,  0.0279, -0.0181,  0.0284,  0.0315,
+        -0.0101,  0.0009], device='cuda:0'), grad: tensor([ 9.0152e-06,  7.3947e-06, -2.9063e-04,  4.5300e-06,  1.0866e-04,
+        -2.3142e-05,  2.6569e-05,  3.5000e-04, -1.4706e-06, -1.9085e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 157, time 249.32, cls_loss 0.0013 cls_loss_mapping 0.0041 cls_loss_causal 0.5203 re_mapping 0.0045 re_causal 0.0144 /// teacc 99.05 lr 0.00010000
+Epoch 159, weight, value: tensor([[ 0.0562, -0.1015, -0.1227,  ..., -0.0985, -0.0964, -0.0857],
+        [ 0.0268,  0.0475, -0.0288,  ..., -0.0310,  0.1379,  0.0174],
+        [-0.0094, -0.1249, -0.0120,  ...,  0.1341, -0.1114,  0.0294],
+        ...,
+        [-0.0676,  0.1111,  0.0309,  ..., -0.0926,  0.0903,  0.0441],
+        [-0.0025, -0.0591,  0.0055,  ..., -0.0468, -0.1508, -0.0981],
+        [-0.0067, -0.0117, -0.0028,  ..., -0.1499, -0.1178,  0.0278]],
+       device='cuda:0'), grad: tensor([[-3.7067e-06,  2.1618e-07,  0.0000e+00,  ..., -3.2336e-06,
+          8.9640e-08,  2.2934e-07],
+        [ 4.2812e-08,  1.0267e-05,  0.0000e+00,  ...,  3.1316e-07,
+          3.2298e-06,  2.6971e-06],
+        [-9.4995e-07,  3.2634e-06,  0.0000e+00,  ..., -4.0680e-06,
+          1.3821e-06, -5.6718e-07],
+        ...,
+        [ 1.0594e-07, -3.8832e-05,  0.0000e+00,  ...,  4.5355e-07,
+         -1.2867e-05, -9.1121e-06],
+        [ 9.6299e-07,  1.8552e-05,  0.0000e+00,  ...,  3.4440e-06,
+          5.7332e-06,  5.5805e-06],
+        [ 6.7055e-08,  1.6456e-06,  0.0000e+00,  ...,  1.4035e-06,
+          5.9139e-07,  3.0864e-06]], device='cuda:0')
+Epoch 159, bias, value: tensor([-0.0313,  0.0119,  0.0155,  0.0252,  0.0282, -0.0177,  0.0281,  0.0311,
+        -0.0101,  0.0010], device='cuda:0'), grad: tensor([-3.4034e-05,  1.8656e-05, -5.5656e-06,  6.2138e-06, -6.2957e-06,
+         3.5465e-06,  3.0220e-05, -6.4433e-05,  4.3064e-05,  8.5607e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 158, time 249.29, cls_loss 0.0016 cls_loss_mapping 0.0046 cls_loss_causal 0.5209 re_mapping 0.0047 re_causal 0.0142 /// teacc 99.04 lr 0.00010000
+Epoch 160, weight, value: tensor([[ 0.0535, -0.1018, -0.1227,  ..., -0.0993, -0.0970, -0.0891],
+        [ 0.0268,  0.0472, -0.0288,  ..., -0.0316,  0.1380,  0.0172],
+        [-0.0094, -0.1265, -0.0120,  ...,  0.1342, -0.1126,  0.0288],
+        ...,
+        [-0.0707,  0.1106,  0.0308,  ..., -0.0922,  0.0900,  0.0439],
+        [-0.0019, -0.0570,  0.0055,  ..., -0.0471, -0.1507, -0.0987],
+        [-0.0033, -0.0108, -0.0028,  ..., -0.1502, -0.1172,  0.0290]],
+       device='cuda:0'), grad: tensor([[ 5.3318e-07,  1.7229e-08,  0.0000e+00,  ...,  1.4128e-06,
+          1.7259e-08,  1.3458e-06],
+        [ 1.6149e-06,  3.2625e-08,  0.0000e+00,  ...,  3.1404e-06,
+         -1.2107e-07,  2.7735e-06],
+        [-2.1849e-06,  1.1106e-07,  0.0000e+00,  ..., -6.1803e-06,
+          1.0227e-07, -5.8450e-06],
+        ...,
+        [ 1.4482e-06, -1.5339e-06,  0.0000e+00,  ...,  3.4273e-06,
+         -1.1791e-06,  1.7257e-06],
+        [ 9.7789e-07,  4.1589e-08,  0.0000e+00,  ...,  1.6596e-06,
+          6.7637e-08,  1.5795e-06],
+        [ 6.7241e-06,  1.1409e-06,  0.0000e+00,  ...,  1.1832e-05,
+          9.3598e-07,  1.1377e-05]], device='cuda:0')
+Epoch 160, bias, value: tensor([-0.0337,  0.0117,  0.0153,  0.0252,  0.0285, -0.0181,  0.0281,  0.0300,
+        -0.0095,  0.0030], device='cuda:0'), grad: tensor([ 3.5837e-06,  8.9779e-06, -1.5751e-05, -5.7044e-07, -4.7177e-05,
+         1.5432e-06,  1.2331e-06,  6.4783e-06,  5.6215e-06,  3.6061e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 159, time 249.60, cls_loss 0.0014 cls_loss_mapping 0.0030 cls_loss_causal 0.5231 re_mapping 0.0047 re_causal 0.0147 /// teacc 99.00 lr 0.00010000
+Epoch 161, weight, value: tensor([[ 0.0537, -0.1018, -0.1227,  ..., -0.0996, -0.0972, -0.0901],
+        [ 0.0268,  0.0471, -0.0288,  ..., -0.0319,  0.1380,  0.0171],
+        [-0.0092, -0.1271, -0.0116,  ...,  0.1352, -0.1129,  0.0291],
+        ...,
+        [-0.0713,  0.1108,  0.0308,  ..., -0.0931,  0.0903,  0.0439],
+        [-0.0019, -0.0568,  0.0054,  ..., -0.0479, -0.1507, -0.0995],
+        [-0.0025, -0.0107, -0.0028,  ..., -0.1511, -0.1173,  0.0293]],
+       device='cuda:0'), grad: tensor([[ 1.3167e-07,  5.7858e-08,  0.0000e+00,  ...,  2.4273e-08,
+          8.9989e-08,  2.8010e-07],
+        [-1.6317e-06, -9.1502e-07,  0.0000e+00,  ...,  3.8155e-08,
+         -3.9227e-06, -9.2108e-07],
+        [ 1.2191e-06,  8.9547e-07,  0.0000e+00,  ..., -2.7765e-08,
+          2.5108e-06,  1.5097e-06],
+        ...,
+        [ 1.5143e-06,  8.0839e-07,  0.0000e+00,  ...,  2.9802e-07,
+         -1.1764e-07,  2.7511e-06],
+        [ 7.7346e-07,  2.4377e-07,  0.0000e+00,  ...,  1.3632e-07,
+          5.1828e-07,  1.2936e-06],
+        [-3.6061e-06, -1.8366e-06,  0.0000e+00,  ..., -8.6427e-07,
+          7.6368e-08, -9.0823e-06]], device='cuda:0')
+Epoch 161, bias, value: tensor([-0.0329,  0.0116,  0.0155,  0.0249,  0.0285, -0.0179,  0.0278,  0.0299,
+        -0.0098,  0.0033], device='cuda:0'), grad: tensor([ 8.3819e-07, -6.8247e-06,  6.4075e-06,  3.6117e-06,  6.9775e-06,
+        -3.4943e-06,  1.5106e-06,  7.7039e-06,  4.0457e-06, -2.0817e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 160, time 249.07, cls_loss 0.0012 cls_loss_mapping 0.0028 cls_loss_causal 0.5420 re_mapping 0.0048 re_causal 0.0146 /// teacc 99.08 lr 0.00010000
+Epoch 162, weight, value: tensor([[ 0.0538, -0.1019, -0.1227,  ..., -0.0996, -0.0978, -0.0901],
+        [ 0.0269,  0.0469, -0.0295,  ..., -0.0318,  0.1381,  0.0170],
+        [-0.0092, -0.1279, -0.0112,  ...,  0.1355, -0.1136,  0.0290],
+        ...,
+        [-0.0716,  0.1112,  0.0308,  ..., -0.0934,  0.0906,  0.0441],
+        [-0.0019, -0.0570,  0.0053,  ..., -0.0483, -0.1508, -0.1000],
+        [-0.0023, -0.0105, -0.0028,  ..., -0.1519, -0.1174,  0.0294]],
+       device='cuda:0'), grad: tensor([[ 7.6042e-07,  2.9244e-07,  0.0000e+00,  ...,  1.9558e-08,
+          3.6741e-07,  2.6776e-07],
+        [-1.8990e-06,  1.7628e-05,  0.0000e+00,  ..., -6.5484e-08,
+          1.2442e-05,  1.4186e-05],
+        [ 9.9000e-07,  2.1383e-06,  0.0000e+00,  ..., -4.8021e-09,
+          2.5444e-06,  1.7593e-06],
+        ...,
+        [-9.1456e-07, -3.6210e-05,  0.0000e+00,  ...,  7.7416e-08,
+         -3.3110e-05, -2.9817e-05],
+        [ 8.2562e-07,  4.1053e-06,  0.0000e+00,  ...,  5.0844e-08,
+          3.9637e-06,  3.2242e-06],
+        [ 8.7824e-07,  7.0184e-06,  0.0000e+00,  ...,  9.8080e-09,
+          6.7949e-06,  5.5991e-06]], device='cuda:0')
+Epoch 162, bias, value: tensor([-0.0327,  0.0116,  0.0154,  0.0250,  0.0286, -0.0182,  0.0278,  0.0300,
+        -0.0099,  0.0034], device='cuda:0'), grad: tensor([ 4.7535e-06,  2.9206e-05,  8.7246e-06,  4.1127e-06,  9.1568e-06,
+        -2.2441e-05,  4.4145e-06, -6.6936e-05,  1.2591e-05,  1.6451e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 161, time 248.96, cls_loss 0.0012 cls_loss_mapping 0.0034 cls_loss_causal 0.5036 re_mapping 0.0045 re_causal 0.0139 /// teacc 99.04 lr 0.00010000
+Epoch 163, weight, value: tensor([[ 0.0539, -0.1021, -0.1227,  ..., -0.0996, -0.0979, -0.0902],
+        [ 0.0270,  0.0468, -0.0290,  ..., -0.0322,  0.1382,  0.0170],
+        [-0.0093, -0.1281, -0.0115,  ...,  0.1359, -0.1144,  0.0290],
+        ...,
+        [-0.0720,  0.1114,  0.0307,  ..., -0.0940,  0.0909,  0.0442],
+        [-0.0020, -0.0570,  0.0053,  ..., -0.0485, -0.1508, -0.1006],
+        [-0.0020, -0.0105, -0.0028,  ..., -0.1521, -0.1174,  0.0295]],
+       device='cuda:0'), grad: tensor([[-7.7263e-06,  1.3104e-06,  0.0000e+00,  ...,  5.8353e-08,
+          1.2089e-06,  9.5554e-07],
+        [-7.0967e-07,  3.5185e-06,  0.0000e+00,  ...,  9.6217e-08,
+          1.9968e-06,  2.2519e-06],
+        [ 4.6636e-07,  3.0082e-06,  0.0000e+00,  ..., -6.8033e-07,
+          2.7902e-06,  1.7062e-06],
+        ...,
+        [ 9.4669e-07, -3.3855e-05,  0.0000e+00,  ...,  2.9034e-07,
+         -3.0324e-05, -2.3246e-05],
+        [ 7.1898e-07,  2.0638e-06,  0.0000e+00,  ...,  1.4622e-07,
+          2.0508e-06,  1.5488e-06],
+        [ 1.6876e-06,  4.8913e-06,  0.0000e+00,  ...,  1.6228e-07,
+          4.3847e-06,  3.2354e-06]], device='cuda:0')
+Epoch 163, bias, value: tensor([-0.0326,  0.0115,  0.0153,  0.0250,  0.0284, -0.0179,  0.0276,  0.0300,
+        -0.0099,  0.0035], device='cuda:0'), grad: tensor([-4.7356e-05,  7.7412e-06,  8.7321e-06,  8.3819e-06,  3.2961e-05,
+         1.8179e-05,  9.8273e-06, -6.9916e-05,  8.9258e-06,  2.2545e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 162, time 249.35, cls_loss 0.0013 cls_loss_mapping 0.0047 cls_loss_causal 0.5243 re_mapping 0.0049 re_causal 0.0148 /// teacc 99.10 lr 0.00010000
+Epoch 164, weight, value: tensor([[ 0.0545, -0.1022, -0.1227,  ..., -0.0995, -0.0979, -0.0903],
+        [ 0.0269,  0.0467, -0.0292,  ..., -0.0336,  0.1382,  0.0169],
+        [-0.0092, -0.1289, -0.0115,  ...,  0.1367, -0.1149,  0.0289],
+        ...,
+        [-0.0721,  0.1118,  0.0306,  ..., -0.0945,  0.0912,  0.0444],
+        [-0.0018, -0.0567,  0.0055,  ..., -0.0487, -0.1508, -0.1009],
+        [-0.0015, -0.0106, -0.0029,  ..., -0.1497, -0.1175,  0.0298]],
+       device='cuda:0'), grad: tensor([[-1.2014e-07,  1.1205e-08,  3.4925e-10,  ...,  2.3562e-07,
+          1.0536e-08,  6.4843e-08],
+        [ 3.2503e-07,  3.6741e-07,  1.8917e-09,  ...,  3.9930e-07,
+          2.5239e-07,  3.2084e-07],
+        [ 4.0159e-06,  2.6473e-07,  3.8708e-09,  ...,  6.3181e-06,
+          2.3551e-07,  3.5012e-08],
+        ...,
+        [ 2.3260e-07, -1.2135e-06,  3.8999e-09,  ...,  1.4657e-07,
+         -1.0226e-06, -5.8906e-07],
+        [-5.6475e-06,  3.4022e-08,  4.9477e-10,  ..., -1.5404e-06,
+          2.1857e-08,  9.9943e-08],
+        [ 3.9861e-07,  6.1817e-08,  2.0082e-09,  ...,  6.8918e-07,
+          7.9453e-08,  1.3290e-06]], device='cuda:0')
+Epoch 164, bias, value: tensor([-0.0320,  0.0112,  0.0154,  0.0249,  0.0269, -0.0183,  0.0282,  0.0302,
+        -0.0097,  0.0040], device='cuda:0'), grad: tensor([-2.8755e-07,  4.2729e-06,  3.3528e-05, -1.5810e-05, -6.5826e-06,
+         6.4932e-06, -9.8720e-06,  1.5981e-06, -2.2203e-05,  8.8289e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 163, time 248.84, cls_loss 0.0015 cls_loss_mapping 0.0036 cls_loss_causal 0.5112 re_mapping 0.0046 re_causal 0.0138 /// teacc 99.04 lr 0.00010000
+Epoch 165, weight, value: tensor([[ 0.0546, -0.1025, -0.1227,  ..., -0.0998, -0.0990, -0.0905],
+        [ 0.0270,  0.0464, -0.0292,  ..., -0.0351,  0.1385,  0.0165],
+        [-0.0093, -0.1291, -0.0115,  ...,  0.1372, -0.1148,  0.0295],
+        ...,
+        [-0.0726,  0.1120,  0.0306,  ..., -0.0957,  0.0911,  0.0443],
+        [-0.0018, -0.0571,  0.0055,  ..., -0.0487, -0.1509, -0.1018],
+        [-0.0015, -0.0106, -0.0029,  ..., -0.1505, -0.1177,  0.0297]],
+       device='cuda:0'), grad: tensor([[-2.2148e-08,  1.6449e-07,  0.0000e+00,  ...,  3.1316e-07,
+          3.5483e-07,  2.0489e-07],
+        [-3.2820e-06, -5.3179e-07,  0.0000e+00,  ...,  5.9896e-08,
+         -7.3761e-06, -1.9297e-06],
+        [ 6.4261e-07,  2.2147e-06,  0.0000e+00,  ...,  1.8277e-08,
+          3.2429e-06,  2.6245e-06],
+        ...,
+        [ 4.4913e-07, -4.8317e-06,  0.0000e+00,  ...,  2.9890e-08,
+         -4.6194e-06, -5.7742e-06],
+        [ 3.9744e-07,  1.0040e-06,  0.0000e+00,  ...,  1.6845e-07,
+          2.2221e-06,  1.4715e-06],
+        [-7.6892e-08,  2.7986e-07,  0.0000e+00,  ...,  1.6263e-07,
+          4.7451e-07,  2.8964e-07]], device='cuda:0')
+Epoch 165, bias, value: tensor([-0.0320,  0.0110,  0.0153,  0.0250,  0.0287, -0.0184,  0.0275,  0.0298,
+        -0.0098,  0.0039], device='cuda:0'), grad: tensor([ 9.0431e-07, -1.0975e-05,  6.9067e-06,  5.7518e-06,  6.1728e-06,
+         5.2005e-06, -4.8876e-06, -1.2599e-05,  4.9472e-06, -1.4454e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 164, time 249.04, cls_loss 0.0014 cls_loss_mapping 0.0042 cls_loss_causal 0.5089 re_mapping 0.0049 re_causal 0.0148 /// teacc 98.83 lr 0.00010000
+Epoch 166, weight, value: tensor([[ 0.0547, -0.1026, -0.1227,  ..., -0.1001, -0.0995, -0.0906],
+        [ 0.0271,  0.0478, -0.0292,  ..., -0.0325,  0.1403,  0.0182],
+        [-0.0093, -0.1298, -0.0115,  ...,  0.1386, -0.1154,  0.0297],
+        ...,
+        [-0.0727,  0.1124,  0.0306,  ..., -0.0962,  0.0914,  0.0446],
+        [-0.0018, -0.0573,  0.0055,  ..., -0.0489, -0.1510, -0.1028],
+        [-0.0016, -0.0107, -0.0029,  ..., -0.1523, -0.1179,  0.0288]],
+       device='cuda:0'), grad: tensor([[ 1.3632e-07,  2.8464e-08,  0.0000e+00,  ...,  1.6380e-07,
+          4.1415e-08,  2.1572e-07],
+        [ 3.5996e-07,  1.2363e-07,  0.0000e+00,  ...,  6.2108e-08,
+          2.5355e-07,  2.3982e-07],
+        [ 4.0010e-06,  6.9104e-07,  0.0000e+00,  ...,  1.5786e-06,
+          1.1111e-06,  3.9451e-06],
+        ...,
+        [ 2.0384e-07, -1.1707e-06,  0.0000e+00,  ...,  3.1228e-08,
+         -1.3132e-06, -1.7025e-06],
+        [-3.2131e-06,  2.8842e-08,  0.0000e+00,  ...,  8.4192e-07,
+          1.1036e-07,  5.4762e-07],
+        [-4.6566e-06,  1.7602e-07,  0.0000e+00,  ..., -1.2461e-06,
+          2.2561e-07, -4.1276e-06]], device='cuda:0')
+Epoch 166, bias, value: tensor([-0.0317,  0.0127,  0.0154,  0.0249,  0.0274, -0.0180,  0.0271,  0.0300,
+        -0.0098,  0.0027], device='cuda:0'), grad: tensor([ 1.8468e-06,  3.4161e-06,  3.5584e-05,  4.1872e-06,  3.2205e-06,
+         5.3570e-06, -2.6710e-06, -1.6307e-06, -1.5706e-05, -3.3617e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 165, time 248.85, cls_loss 0.0015 cls_loss_mapping 0.0045 cls_loss_causal 0.5337 re_mapping 0.0045 re_causal 0.0145 /// teacc 98.99 lr 0.00010000
+Epoch 167, weight, value: tensor([[ 0.0547, -0.1028, -0.1227,  ..., -0.1003, -0.1001, -0.0907],
+        [ 0.0270,  0.0473, -0.0292,  ..., -0.0329,  0.1402,  0.0179],
+        [-0.0095, -0.1306, -0.0115,  ...,  0.1390, -0.1160,  0.0297],
+        ...,
+        [-0.0730,  0.1131,  0.0306,  ..., -0.0966,  0.0920,  0.0449],
+        [-0.0017, -0.0574,  0.0055,  ..., -0.0492, -0.1510, -0.1034],
+        [-0.0017, -0.0108, -0.0029,  ..., -0.1542, -0.1180,  0.0276]],
+       device='cuda:0'), grad: tensor([[ 1.8738e-06,  2.0047e-07,  0.0000e+00,  ...,  8.1770e-07,
+          1.6502e-08,  3.8155e-08],
+        [ 5.0552e-06,  4.2561e-07,  0.0000e+00,  ...,  2.1756e-06,
+         -2.5029e-07,  2.9744e-08],
+        [ 7.5884e-06,  4.8196e-07,  0.0000e+00,  ...,  1.2731e-06,
+          4.5809e-08, -3.1129e-07],
+        ...,
+        [ 1.2312e-06,  1.6775e-07,  0.0000e+00,  ...,  6.3609e-07,
+          9.5053e-08,  1.7462e-07],
+        [-3.8028e-05, -3.3975e-06,  0.0000e+00,  ..., -1.2957e-05,
+          1.5105e-08,  2.2899e-07],
+        [ 3.5372e-06,  3.1525e-07,  0.0000e+00,  ...,  2.6133e-06,
+          9.9244e-09,  9.6858e-07]], device='cuda:0')
+Epoch 167, bias, value: tensor([-0.0319,  0.0121,  0.0153,  0.0257,  0.0287, -0.0190,  0.0286,  0.0303,
+        -0.0099,  0.0013], device='cuda:0'), grad: tensor([ 1.1012e-05,  2.9951e-05,  4.3303e-05,  5.5224e-05, -6.7130e-06,
+         2.5764e-05,  2.5690e-05,  7.8380e-06, -2.1863e-04,  2.6554e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 166, time 248.60, cls_loss 0.0022 cls_loss_mapping 0.0044 cls_loss_causal 0.4896 re_mapping 0.0048 re_causal 0.0139 /// teacc 99.06 lr 0.00010000
+Epoch 168, weight, value: tensor([[ 0.0548, -0.1033, -0.1228,  ..., -0.1005, -0.1008, -0.0910],
+        [ 0.0263,  0.0494, -0.0292,  ..., -0.0335,  0.1425,  0.0200],
+        [-0.0098, -0.1345, -0.0125,  ...,  0.1393, -0.1193,  0.0277],
+        ...,
+        [-0.0726,  0.1113,  0.0305,  ..., -0.0956,  0.0900,  0.0432],
+        [-0.0014, -0.0573,  0.0054,  ..., -0.0495, -0.1511, -0.1051],
+        [-0.0021, -0.0111, -0.0030,  ..., -0.1547, -0.1184,  0.0274]],
+       device='cuda:0'), grad: tensor([[ 3.7486e-08,  2.2410e-08,  0.0000e+00,  ...,  1.4959e-08,
+          4.5169e-08,  2.1828e-08],
+        [-3.1642e-07, -1.4051e-07,  0.0000e+00,  ...,  2.3341e-08,
+         -6.7754e-07, -1.1059e-09],
+        [ 3.0675e-08,  4.4703e-08,  0.0000e+00,  ..., -8.0967e-08,
+          6.7870e-08, -2.7881e-08],
+        ...,
+        [ 9.0280e-08, -3.7393e-07,  0.0000e+00,  ...,  2.3283e-08,
+         -1.6834e-07, -3.6345e-07],
+        [ 1.6112e-07,  1.2829e-07,  0.0000e+00,  ...,  5.5588e-08,
+          2.9337e-07,  1.5856e-07],
+        [ 3.0850e-07,  1.0314e-07,  0.0000e+00,  ...,  3.0093e-08,
+          1.2631e-07,  5.8324e-08]], device='cuda:0')
+Epoch 168, bias, value: tensor([-0.0318,  0.0136,  0.0141,  0.0256,  0.0290, -0.0192,  0.0304,  0.0288,
+        -0.0096,  0.0009], device='cuda:0'), grad: tensor([ 4.2468e-07,  8.8185e-08,  6.6776e-07, -5.2191e-06,  9.3307e-08,
+        -1.3877e-06,  8.6334e-07, -1.5949e-07,  7.1432e-07,  3.9004e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 167, time 249.41, cls_loss 0.0011 cls_loss_mapping 0.0031 cls_loss_causal 0.5031 re_mapping 0.0045 re_causal 0.0142 /// teacc 99.00 lr 0.00010000
+Epoch 169, weight, value: tensor([[ 0.0549, -0.1034, -0.1229,  ..., -0.1005, -0.1010, -0.0911],
+        [ 0.0263,  0.0493, -0.0295,  ..., -0.0337,  0.1425,  0.0199],
+        [-0.0099, -0.1348, -0.0137,  ...,  0.1398, -0.1194,  0.0280],
+        ...,
+        [-0.0728,  0.1114,  0.0305,  ..., -0.0958,  0.0901,  0.0432],
+        [-0.0012, -0.0571,  0.0054,  ..., -0.0498, -0.1511, -0.1061],
+        [-0.0022, -0.0112, -0.0030,  ..., -0.1548, -0.1185,  0.0274]],
+       device='cuda:0'), grad: tensor([[-1.8661e-07,  1.9616e-08,  0.0000e+00,  ...,  1.4796e-07,
+          6.7754e-08,  1.3737e-08],
+        [ 4.8466e-06,  5.8766e-07,  0.0000e+00,  ...,  3.9116e-06,
+          2.6952e-06, -9.8895e-08],
+        [ 1.4380e-05,  2.1569e-06,  0.0000e+00,  ...,  1.1057e-05,
+          8.9854e-06,  4.9244e-08],
+        ...,
+        [ 1.0412e-06,  2.7497e-07,  0.0000e+00,  ...,  7.2783e-07,
+          7.1106e-07,  8.8522e-07],
+        [ 1.6242e-06,  2.9732e-07,  0.0000e+00,  ...,  1.4044e-06,
+          1.1763e-06,  3.6648e-07],
+        [ 4.7870e-07,  9.3831e-08,  0.0000e+00,  ...,  3.5809e-07,
+          2.9500e-07,  1.7171e-08]], device='cuda:0')
+Epoch 169, bias, value: tensor([-0.0317,  0.0134,  0.0141,  0.0257,  0.0290, -0.0191,  0.0301,  0.0289,
+        -0.0093,  0.0008], device='cuda:0'), grad: tensor([-6.5565e-07,  2.3738e-05,  6.8903e-05, -1.2815e-04, -2.2352e-06,
+         2.0906e-05, -5.4669e-07,  6.8843e-06,  8.1882e-06,  2.7549e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 168, time 249.34, cls_loss 0.0012 cls_loss_mapping 0.0030 cls_loss_causal 0.5159 re_mapping 0.0045 re_causal 0.0141 /// teacc 99.03 lr 0.00010000
+Epoch 170, weight, value: tensor([[ 0.0549, -0.1035, -0.1229,  ..., -0.1007, -0.1014, -0.0913],
+        [ 0.0263,  0.0493, -0.0294,  ..., -0.0339,  0.1424,  0.0198],
+        [-0.0099, -0.1353, -0.0137,  ...,  0.1399, -0.1214,  0.0267],
+        ...,
+        [-0.0730,  0.1116,  0.0301,  ..., -0.0949,  0.0904,  0.0437],
+        [-0.0012, -0.0572,  0.0055,  ..., -0.0498, -0.1512, -0.1069],
+        [-0.0022, -0.0114, -0.0031,  ..., -0.1550, -0.1188,  0.0273]],
+       device='cuda:0'), grad: tensor([[ 9.0105e-08,  1.0006e-07,  0.0000e+00,  ...,  1.0122e-07,
+          1.9302e-07,  1.3527e-07],
+        [-4.2245e-06, -1.8636e-06,  0.0000e+00,  ...,  9.8604e-08,
+         -5.4985e-06, -9.2387e-07],
+        [-7.0082e-08,  2.0657e-06,  0.0000e+00,  ..., -2.4177e-06,
+          3.2540e-06,  3.1926e-06],
+        ...,
+        [ 1.7202e-06, -3.0231e-06,  0.0000e+00,  ...,  6.5018e-08,
+         -3.2634e-06, -5.5991e-06],
+        [ 5.1130e-07,  5.0571e-07,  0.0000e+00,  ...,  1.2359e-06,
+          1.0850e-06,  6.0257e-07],
+        [ 1.2834e-06,  1.3821e-06,  0.0000e+00,  ...,  1.5018e-08,
+          2.7027e-06,  1.4445e-06]], device='cuda:0')
+Epoch 170, bias, value: tensor([-0.0317,  0.0133,  0.0134,  0.0257,  0.0291, -0.0187,  0.0297,  0.0292,
+        -0.0093,  0.0006], device='cuda:0'), grad: tensor([ 6.4867e-07, -9.1195e-06,  2.8256e-06,  3.4608e-06,  6.1886e-07,
+         9.6392e-07,  4.5681e-07, -8.7097e-06,  3.5912e-06,  5.2266e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 169, time 248.52, cls_loss 0.0014 cls_loss_mapping 0.0034 cls_loss_causal 0.5381 re_mapping 0.0042 re_causal 0.0138 /// teacc 98.92 lr 0.00010000
+Epoch 171, weight, value: tensor([[ 0.0549, -0.1037, -0.1229,  ..., -0.1012, -0.1018, -0.0914],
+        [ 0.0263,  0.0493, -0.0291,  ..., -0.0342,  0.1424,  0.0198],
+        [-0.0098, -0.1354, -0.0137,  ...,  0.1410, -0.1219,  0.0268],
+        ...,
+        [-0.0734,  0.1116,  0.0296,  ..., -0.0954,  0.0904,  0.0438],
+        [-0.0009, -0.0570,  0.0053,  ..., -0.0500, -0.1512, -0.1080],
+        [-0.0016, -0.0113, -0.0031,  ..., -0.1548, -0.1188,  0.0275]],
+       device='cuda:0'), grad: tensor([[ 1.0477e-08,  1.2631e-08,  5.8208e-10,  ...,  1.2631e-07,
+          2.6717e-08,  3.6089e-08],
+        [-3.7393e-07, -1.6612e-07,  1.4552e-09,  ...,  7.6892e-08,
+         -9.4669e-07, -5.3027e-08],
+        [-1.2736e-07,  5.5414e-08,  5.2387e-10,  ..., -1.0412e-06,
+         -8.3237e-09, -1.1697e-06],
+        ...,
+        [ 7.3481e-07,  1.3066e-06,  5.2387e-10,  ...,  7.4832e-07,
+          8.4424e-07,  2.7828e-06],
+        [-4.5809e-08,  1.5134e-07, -3.4866e-08,  ...,  2.5867e-07,
+          2.2911e-07,  3.9232e-07],
+        [-6.4913e-07, -2.1122e-06,  6.4028e-10,  ...,  1.7986e-08,
+         -6.0350e-07, -3.1125e-06]], device='cuda:0')
+Epoch 171, bias, value: tensor([-0.0319,  0.0132,  0.0136,  0.0257,  0.0288, -0.0187,  0.0291,  0.0292,
+        -0.0087,  0.0009], device='cuda:0'), grad: tensor([ 3.9488e-07, -7.0175e-07, -2.3749e-06,  3.6974e-07,  2.2333e-06,
+         7.2364e-07, -5.3877e-07,  7.6517e-06,  6.5006e-07, -8.4043e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 170, time 248.86, cls_loss 0.0015 cls_loss_mapping 0.0041 cls_loss_causal 0.5224 re_mapping 0.0040 re_causal 0.0134 /// teacc 99.04 lr 0.00010000
+Epoch 172, weight, value: tensor([[ 0.0554, -0.1027, -0.1230,  ..., -0.1019, -0.1019, -0.0915],
+        [ 0.0263,  0.0492, -0.0290,  ..., -0.0345,  0.1424,  0.0197],
+        [-0.0098, -0.1356, -0.0137,  ...,  0.1422, -0.1219,  0.0272],
+        ...,
+        [-0.0741,  0.1118,  0.0295,  ..., -0.0962,  0.0905,  0.0439],
+        [-0.0006, -0.0567,  0.0053,  ..., -0.0503, -0.1514, -0.1087],
+        [-0.0011, -0.0118, -0.0031,  ..., -0.1547, -0.1192,  0.0276]],
+       device='cuda:0'), grad: tensor([[-7.5670e-09,  9.1386e-09,  0.0000e+00,  ...,  4.4529e-08,
+          1.3155e-08,  5.2503e-08],
+        [-6.5891e-08, -2.9861e-08,  0.0000e+00,  ...,  5.4657e-08,
+         -1.7905e-07,  8.0501e-08],
+        [ 2.9686e-09,  7.2760e-09,  0.0000e+00,  ..., -7.0455e-07,
+          3.4226e-08, -7.6555e-07],
+        ...,
+        [ 1.0675e-07,  4.5344e-08,  0.0000e+00,  ...,  3.5623e-07,
+          3.8592e-08,  4.9965e-07],
+        [ 6.3272e-08,  2.0489e-08,  0.0000e+00,  ...,  2.0419e-07,
+          2.8871e-08,  2.6799e-07],
+        [-1.9115e-07,  6.4669e-08,  0.0000e+00,  ...,  3.2014e-08,
+          1.5891e-08, -6.1758e-08]], device='cuda:0')
+Epoch 172, bias, value: tensor([-0.0317,  0.0131,  0.0138,  0.0249,  0.0285, -0.0174,  0.0290,  0.0292,
+        -0.0082,  0.0010], device='cuda:0'), grad: tensor([ 6.8161e-08,  1.4994e-07, -1.4957e-06, -6.3144e-07, -6.1048e-07,
+         6.3609e-07,  6.9616e-08,  1.4892e-06,  7.8976e-07, -4.3958e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 171, time 248.68, cls_loss 0.0014 cls_loss_mapping 0.0031 cls_loss_causal 0.5235 re_mapping 0.0041 re_causal 0.0137 /// teacc 98.94 lr 0.00010000
+Epoch 173, weight, value: tensor([[ 0.0553, -0.1029, -0.1230,  ..., -0.1024, -0.1026, -0.0916],
+        [ 0.0263,  0.0492, -0.0291,  ..., -0.0348,  0.1425,  0.0196],
+        [-0.0097, -0.1358, -0.0136,  ...,  0.1435, -0.1218,  0.0279],
+        ...,
+        [-0.0745,  0.1118,  0.0294,  ..., -0.0977,  0.0906,  0.0439],
+        [-0.0007, -0.0572,  0.0052,  ..., -0.0510, -0.1515, -0.1101],
+        [-0.0008, -0.0118, -0.0031,  ..., -0.1548, -0.1195,  0.0277]],
+       device='cuda:0'), grad: tensor([[-3.9814e-07,  6.2282e-09,  0.0000e+00,  ...,  2.7218e-07,
+          7.6834e-09,  9.3889e-08],
+        [-7.2119e-08, -1.0029e-07,  0.0000e+00,  ...,  2.4308e-07,
+         -2.2550e-07,  2.1711e-08],
+        [ 4.5635e-08,  1.9441e-08,  0.0000e+00,  ..., -1.6745e-06,
+          2.9395e-08, -8.8615e-07],
+        ...,
+        [ 9.0920e-08, -8.9128e-07,  0.0000e+00,  ...,  2.6962e-07,
+         -5.5647e-07, -5.2806e-07],
+        [ 1.0070e-07,  2.4564e-08,  0.0000e+00,  ...,  4.0862e-07,
+          3.4168e-08,  1.8091e-07],
+        [-1.4040e-07,  9.1328e-08,  0.0000e+00,  ...,  8.7079e-08,
+          8.9000e-08, -8.2073e-08]], device='cuda:0')
+Epoch 173, bias, value: tensor([-0.0318,  0.0130,  0.0126,  0.0267,  0.0285, -0.0174,  0.0289,  0.0292,
+        -0.0087,  0.0011], device='cuda:0'), grad: tensor([-9.3784e-07,  3.6252e-07, -3.3695e-06,  3.4682e-06,  1.0300e-06,
+         1.2731e-06, -1.5516e-06, -7.3528e-07,  1.5171e-06, -1.0636e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 172, time 249.47, cls_loss 0.0014 cls_loss_mapping 0.0045 cls_loss_causal 0.5132 re_mapping 0.0045 re_causal 0.0138 /// teacc 98.87 lr 0.00010000
+Epoch 174, weight, value: tensor([[ 0.0562, -0.1030, -0.1233,  ..., -0.1004, -0.1030, -0.0919],
+        [ 0.0263,  0.0491, -0.0296,  ..., -0.0353,  0.1424,  0.0195],
+        [-0.0095, -0.1358, -0.0111,  ...,  0.1466, -0.1218,  0.0294],
+        ...,
+        [-0.0746,  0.1120,  0.0284,  ..., -0.0993,  0.0907,  0.0440],
+        [-0.0008, -0.0574,  0.0047,  ..., -0.0517, -0.1516, -0.1120],
+        [-0.0007, -0.0121, -0.0033,  ..., -0.1549, -0.1197,  0.0277]],
+       device='cuda:0'), grad: tensor([[-8.9698e-08,  3.1258e-08,  0.0000e+00,  ...,  6.0536e-08,
+          6.5425e-08,  1.2596e-07],
+        [-5.0757e-07,  5.5227e-07,  0.0000e+00,  ...,  2.1397e-07,
+         -4.3958e-07,  1.2415e-06],
+        [ 1.1292e-07,  9.5286e-08,  0.0000e+00,  ...,  8.5274e-08,
+          1.8440e-07,  2.4238e-07],
+        ...,
+        [ 2.8755e-07, -1.3122e-06,  0.0000e+00,  ...,  4.7637e-07,
+         -8.4657e-07,  1.2922e-08],
+        [-9.7440e-08,  9.8720e-08,  0.0000e+00,  ...,  8.1782e-08,
+          2.3132e-07,  4.0932e-07],
+        [ 7.2119e-08,  1.7043e-07,  0.0000e+00,  ...,  5.3924e-07,
+          2.4959e-07,  1.8235e-06]], device='cuda:0')
+Epoch 174, bias, value: tensor([-0.0301,  0.0129,  0.0139,  0.0262,  0.0283, -0.0174,  0.0280,  0.0292,
+        -0.0093,  0.0011], device='cuda:0'), grad: tensor([ 1.0885e-08,  2.4699e-06,  1.5413e-06,  7.9954e-07, -1.9625e-05,
+         1.1139e-06,  1.2768e-06,  3.9935e-06,  2.9383e-07,  8.0764e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 173, time 248.89, cls_loss 0.0015 cls_loss_mapping 0.0045 cls_loss_causal 0.5254 re_mapping 0.0044 re_causal 0.0138 /// teacc 98.96 lr 0.00010000
+Epoch 175, weight, value: tensor([[ 0.0562, -0.1034, -0.1233,  ..., -0.1009, -0.1038, -0.0922],
+        [ 0.0263,  0.0491, -0.0311,  ..., -0.0359,  0.1424,  0.0194],
+        [-0.0094, -0.1355, -0.0107,  ...,  0.1487, -0.1219,  0.0308],
+        ...,
+        [-0.0748,  0.1120,  0.0284,  ..., -0.0999,  0.0907,  0.0439],
+        [-0.0006, -0.0582,  0.0051,  ..., -0.0528, -0.1517, -0.1151],
+        [-0.0006, -0.0122, -0.0033,  ..., -0.1553, -0.1199,  0.0273]],
+       device='cuda:0'), grad: tensor([[-7.6834e-09,  2.8033e-07,  0.0000e+00,  ...,  1.6589e-08,
+          2.1467e-07,  1.1141e-07],
+        [-1.9022e-07,  7.9535e-07,  0.0000e+00,  ...,  3.8941e-08,
+          2.0594e-07,  6.1933e-07],
+        [ 5.6636e-08,  1.1735e-06,  0.0000e+00,  ...,  4.4587e-08,
+          8.8289e-07,  5.1130e-07],
+        ...,
+        [ 9.5170e-08, -1.2137e-05,  0.0000e+00,  ...,  2.5495e-08,
+         -8.9779e-06, -6.5863e-06],
+        [ 1.9080e-07,  4.0280e-07,  0.0000e+00,  ...,  2.5670e-08,
+          4.4703e-07,  2.5728e-07],
+        [ 1.2398e-08,  6.3591e-06,  0.0000e+00,  ...,  3.1060e-07,
+          4.8615e-06,  3.9041e-06]], device='cuda:0')
+Epoch 175, bias, value: tensor([-0.0303,  0.0126,  0.0151,  0.0260,  0.0294, -0.0175,  0.0274,  0.0291,
+        -0.0098,  0.0006], device='cuda:0'), grad: tensor([ 1.4370e-06,  2.1663e-06,  4.0196e-06, -2.4855e-08, -5.6170e-08,
+         1.1306e-06,  8.1724e-07, -2.9460e-05,  2.3991e-06,  1.7494e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 174, time 248.90, cls_loss 0.0013 cls_loss_mapping 0.0033 cls_loss_causal 0.5121 re_mapping 0.0044 re_causal 0.0133 /// teacc 99.07 lr 0.00010000
+Epoch 176, weight, value: tensor([[ 0.0561, -0.1036, -0.1233,  ..., -0.1013, -0.1045, -0.0924],
+        [ 0.0264,  0.0490, -0.0313,  ..., -0.0361,  0.1424,  0.0191],
+        [-0.0095, -0.1361, -0.0107,  ...,  0.1497, -0.1222,  0.0308],
+        ...,
+        [-0.0751,  0.1122,  0.0284,  ..., -0.1003,  0.0908,  0.0439],
+        [-0.0004, -0.0585,  0.0051,  ..., -0.0527, -0.1519, -0.1156],
+        [-0.0006, -0.0121, -0.0033,  ..., -0.1554, -0.1192,  0.0285]],
+       device='cuda:0'), grad: tensor([[-3.0547e-07,  2.5204e-08,  0.0000e+00,  ..., -3.2852e-07,
+          2.3399e-08,  2.8289e-08],
+        [-3.1549e-07, -4.4610e-07,  0.0000e+00,  ...,  1.1176e-08,
+         -1.1679e-06,  5.0000e-08],
+        [ 1.6217e-07,  1.3062e-07,  0.0000e+00,  ...,  1.5134e-07,
+          1.3527e-07,  8.9116e-08],
+        ...,
+        [ 1.4086e-07, -7.1479e-07,  0.0000e+00,  ...,  7.8580e-09,
+         -2.7218e-07, -7.5763e-07],
+        [ 3.2759e-07,  3.4180e-07,  0.0000e+00,  ..., -4.0163e-09,
+          4.0000e-07,  2.0617e-07],
+        [-2.5565e-07,  2.8452e-07,  0.0000e+00,  ...,  4.5635e-08,
+          5.1269e-07,  1.1380e-07]], device='cuda:0')
+Epoch 176, bias, value: tensor([-0.0302,  0.0123,  0.0151,  0.0257,  0.0292, -0.0171,  0.0271,  0.0290,
+        -0.0096,  0.0017], device='cuda:0'), grad: tensor([-2.1029e-06, -1.7639e-06,  1.2787e-06,  8.8243e-07,  4.6403e-07,
+         1.4494e-08,  2.9779e-07, -9.1363e-07,  1.4836e-06,  3.5344e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 175, time 249.02, cls_loss 0.0012 cls_loss_mapping 0.0034 cls_loss_causal 0.5039 re_mapping 0.0045 re_causal 0.0133 /// teacc 99.03 lr 0.00010000
+Epoch 177, weight, value: tensor([[ 0.0562, -0.1039, -0.1236,  ..., -0.1015, -0.1051, -0.0925],
+        [ 0.0265,  0.0489, -0.0313,  ..., -0.0361,  0.1424,  0.0190],
+        [-0.0097, -0.1370, -0.0107,  ...,  0.1497, -0.1228,  0.0306],
+        ...,
+        [-0.0753,  0.1125,  0.0283,  ..., -0.1006,  0.0909,  0.0442],
+        [-0.0004, -0.0587,  0.0050,  ..., -0.0529, -0.1520, -0.1160],
+        [-0.0005, -0.0125, -0.0033,  ..., -0.1556, -0.1196,  0.0284]],
+       device='cuda:0'), grad: tensor([[-8.7358e-07,  8.7486e-08,  0.0000e+00,  ...,  4.5728e-07,
+          7.4273e-08,  8.7719e-08],
+        [-1.6147e-07,  6.5379e-07,  0.0000e+00,  ...,  5.8266e-08,
+          5.3842e-08,  6.6543e-07],
+        [ 1.0617e-07,  6.1467e-07,  0.0000e+00,  ..., -1.6880e-08,
+          4.8988e-07,  5.7416e-07],
+        ...,
+        [ 1.4412e-07, -8.4713e-06,  0.0000e+00,  ...,  1.3970e-08,
+         -5.4725e-06, -6.9216e-06],
+        [ 8.0746e-07,  1.6333e-07,  0.0000e+00,  ...,  3.8743e-07,
+          2.1106e-07,  1.1586e-06],
+        [-6.5658e-07,  5.8636e-06,  0.0000e+00,  ...,  4.9651e-08,
+          4.5151e-06,  2.5872e-06]], device='cuda:0')
+Epoch 177, bias, value: tensor([-0.0302,  0.0123,  0.0147,  0.0260,  0.0293, -0.0173,  0.0267,  0.0293,
+        -0.0098,  0.0018], device='cuda:0'), grad: tensor([-5.6326e-06,  1.3113e-06,  1.9968e-06, -7.7188e-06,  3.0715e-06,
+         9.2760e-07, -1.5814e-06, -6.1989e-06,  7.9498e-06,  5.8301e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 176, time 249.03, cls_loss 0.0014 cls_loss_mapping 0.0044 cls_loss_causal 0.5068 re_mapping 0.0044 re_causal 0.0131 /// teacc 98.96 lr 0.00010000
+Epoch 178, weight, value: tensor([[ 0.0562, -0.1041, -0.1243,  ..., -0.1018, -0.1055, -0.0927],
+        [ 0.0266,  0.0489, -0.0317,  ..., -0.0364,  0.1424,  0.0190],
+        [-0.0097, -0.1376, -0.0108,  ...,  0.1503, -0.1230,  0.0308],
+        ...,
+        [-0.0757,  0.1125,  0.0281,  ..., -0.1018,  0.0910,  0.0441],
+        [-0.0003, -0.0589,  0.0063,  ..., -0.0537, -0.1521, -0.1164],
+        [-0.0004, -0.0127, -0.0034,  ..., -0.1558, -0.1198,  0.0285]],
+       device='cuda:0'), grad: tensor([[ 5.3421e-06,  5.7509e-08,  0.0000e+00,  ...,  3.4750e-08,
+          3.7777e-08,  9.5519e-08],
+        [ 1.8533e-07,  7.8091e-07,  0.0000e+00,  ...,  1.4773e-07,
+          4.9686e-07,  8.4657e-07],
+        [ 3.5064e-07,  2.5961e-07,  0.0000e+00,  ..., -9.0920e-08,
+          1.6717e-07,  1.8533e-07],
+        ...,
+        [ 2.8964e-07, -3.8967e-06,  0.0000e+00,  ...,  1.1665e-07,
+         -2.4512e-06, -3.1292e-06],
+        [-1.3359e-05,  9.5111e-08,  0.0000e+00,  ...,  4.5635e-08,
+          6.2515e-08,  1.6578e-07],
+        [ 5.1036e-06,  2.1029e-06,  0.0000e+00,  ...,  3.6079e-06,
+          1.2545e-06,  5.2340e-06]], device='cuda:0')
+Epoch 178, bias, value: tensor([-0.0304,  0.0122,  0.0147,  0.0261,  0.0297, -0.0169,  0.0267,  0.0291,
+        -0.0098,  0.0018], device='cuda:0'), grad: tensor([ 3.0324e-05,  3.1348e-06,  2.6878e-06,  8.6799e-06, -1.5013e-05,
+         1.4426e-06,  3.6210e-06, -5.0552e-06, -7.6890e-05,  4.7147e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 177, time 248.88, cls_loss 0.0010 cls_loss_mapping 0.0027 cls_loss_causal 0.4883 re_mapping 0.0044 re_causal 0.0138 /// teacc 98.97 lr 0.00010000
+Epoch 179, weight, value: tensor([[ 0.0562, -0.1043, -0.1243,  ..., -0.1023, -0.1060, -0.0929],
+        [ 0.0260,  0.0489, -0.0318,  ..., -0.0366,  0.1424,  0.0189],
+        [-0.0097, -0.1383, -0.0108,  ...,  0.1508, -0.1232,  0.0307],
+        ...,
+        [-0.0760,  0.1127,  0.0281,  ..., -0.1023,  0.0910,  0.0443],
+        [ 0.0002, -0.0582,  0.0063,  ..., -0.0542, -0.1515, -0.1167],
+        [-0.0005, -0.0137, -0.0034,  ..., -0.1563, -0.1203,  0.0280]],
+       device='cuda:0'), grad: tensor([[ 1.0547e-07,  2.6310e-07,  1.6752e-07,  ...,  1.3513e-06,
+          2.4331e-07,  2.3236e-07],
+        [ 1.6321e-07,  9.7882e-07,  7.4506e-09,  ...,  1.8708e-07,
+          8.4983e-07,  7.7393e-07],
+        [ 4.1444e-08,  2.7381e-07,  2.6193e-09,  ..., -4.7218e-07,
+          2.0990e-07, -1.1077e-07],
+        ...,
+        [ 9.7207e-09,  2.4527e-05,  1.1642e-10,  ...,  1.0629e-07,
+         -2.1625e-06,  2.9862e-05],
+        [-4.5053e-07,  5.4901e-07,  1.5134e-08,  ..., -4.4238e-09,
+          1.3621e-07,  6.4680e-07],
+        [-2.3574e-08, -2.7612e-05,  7.0431e-09,  ...,  9.2259e-08,
+          1.7486e-07, -3.2485e-05]], device='cuda:0')
+Epoch 179, bias, value: tensor([-0.0307,  0.0118,  0.0146,  0.0260,  0.0301, -0.0169,  0.0271,  0.0293,
+        -0.0093,  0.0013], device='cuda:0'), grad: tensor([ 4.1723e-06,  4.3362e-06,  2.9011e-07,  2.4475e-06,  1.0058e-06,
+         6.7689e-06, -8.9779e-06,  7.2837e-05, -1.8068e-06, -8.1182e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 178, time 249.36, cls_loss 0.0014 cls_loss_mapping 0.0045 cls_loss_causal 0.5113 re_mapping 0.0041 re_causal 0.0131 /// teacc 98.82 lr 0.00010000
+Epoch 180, weight, value: tensor([[ 5.6317e-02, -1.0427e-01, -1.2434e-01,  ..., -1.0288e-01,
+         -1.0662e-01, -9.3212e-02],
+        [ 2.6121e-02,  4.8859e-02, -3.1823e-02,  ..., -3.6968e-02,
+          1.4240e-01,  1.8902e-02],
+        [-9.7369e-03, -1.3891e-01, -1.0743e-02,  ...,  1.5115e-01,
+         -1.2349e-01,  3.0629e-02],
+        ...,
+        [-7.6451e-02,  1.1277e-01,  2.8054e-02,  ..., -1.0268e-01,
+          9.1130e-02,  4.4415e-02],
+        [ 1.3948e-04, -5.8052e-02,  6.3755e-03,  ..., -5.3928e-02,
+         -1.5143e-01, -1.1696e-01],
+        [ 2.8459e-04, -1.3948e-02, -3.4362e-03,  ..., -1.5683e-01,
+         -1.2066e-01,  2.7726e-02]], device='cuda:0'), grad: tensor([[-2.0198e-08, -5.5297e-09, -7.5670e-10,  ...,  1.4424e-07,
+          1.6182e-08,  1.3062e-07],
+        [ 5.8953e-07,  4.6275e-08,  5.8208e-11,  ...,  1.6131e-06,
+          4.5402e-09,  1.3476e-06],
+        [-1.4147e-06, -1.3283e-07,  0.0000e+00,  ..., -3.6452e-06,
+         -2.4796e-07, -2.8592e-06],
+        ...,
+        [ 3.0245e-07,  5.0990e-08,  5.8208e-11,  ...,  5.5414e-07,
+         -2.1304e-08,  6.9151e-07],
+        [ 1.3423e-07,  5.3959e-08,  1.7462e-10,  ...,  6.3283e-07,
+          8.8534e-08,  4.2329e-07],
+        [-4.9185e-08, -1.2864e-07,  1.1642e-10,  ...,  1.5879e-07,
+          3.9756e-08, -5.7882e-07]], device='cuda:0')
+Epoch 180, bias, value: tensor([-0.0320,  0.0117,  0.0145,  0.0261,  0.0308, -0.0170,  0.0279,  0.0294,
+        -0.0092,  0.0007], device='cuda:0'), grad: tensor([ 2.0140e-07,  4.1053e-06, -8.7172e-06,  1.9427e-06,  6.9290e-07,
+         5.4389e-07, -7.0035e-07,  2.3860e-06,  7.9302e-07, -1.2480e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 179, time 249.31, cls_loss 0.0019 cls_loss_mapping 0.0050 cls_loss_causal 0.5283 re_mapping 0.0043 re_causal 0.0133 /// teacc 98.98 lr 0.00010000
+Epoch 181, weight, value: tensor([[ 0.0564, -0.1046, -0.1256,  ..., -0.1038, -0.1075, -0.0937],
+        [ 0.0290,  0.0494, -0.0323,  ..., -0.0372,  0.1430,  0.0188],
+        [-0.0098, -0.1419, -0.0102,  ...,  0.1505, -0.1248,  0.0296],
+        ...,
+        [-0.0767,  0.1132,  0.0271,  ..., -0.1004,  0.0914,  0.0449],
+        [-0.0027, -0.0620,  0.0034,  ..., -0.0587, -0.1544, -0.1178],
+        [ 0.0019, -0.0146, -0.0035,  ..., -0.1562, -0.1214,  0.0290]],
+       device='cuda:0'), grad: tensor([[-1.6415e-08,  9.4878e-09,  5.2387e-10,  ...,  1.0594e-08,
+          3.7893e-08,  1.3271e-08],
+        [ 3.6345e-07, -7.4320e-07,  2.9104e-10,  ...,  2.1141e-07,
+         -4.5472e-07, -1.2410e-07],
+        [ 1.2782e-07,  4.0745e-08, -2.1246e-08,  ..., -2.0489e-07,
+          1.9174e-07, -2.2165e-07],
+        ...,
+        [ 1.7497e-07,  1.0245e-08,  3.4925e-09,  ...,  5.9314e-08,
+          2.4517e-07,  2.9686e-08],
+        [-2.0936e-06,  1.2491e-07,  2.2701e-09,  ...,  2.9220e-08,
+         -2.5164e-06,  7.7649e-08],
+        [ 6.3702e-07,  4.0606e-07,  1.1642e-10,  ...,  7.8231e-08,
+          8.3633e-07,  2.3353e-07]], device='cuda:0')
+Epoch 181, bias, value: tensor([-0.0327,  0.0132,  0.0137,  0.0268,  0.0287, -0.0175,  0.0316,  0.0301,
+        -0.0139,  0.0027], device='cuda:0'), grad: tensor([ 7.9512e-08,  1.2994e-05,  8.2888e-07,  9.4026e-06,  5.7779e-06,
+        -3.4031e-06,  1.7378e-06,  1.8347e-06, -3.3587e-05,  4.3325e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 180, time 249.04, cls_loss 0.0013 cls_loss_mapping 0.0027 cls_loss_causal 0.5111 re_mapping 0.0043 re_causal 0.0137 /// teacc 99.05 lr 0.00010000
+Epoch 182, weight, value: tensor([[ 0.0565, -0.1045, -0.1260,  ..., -0.1041, -0.1078, -0.0938],
+        [ 0.0291,  0.0492, -0.0323,  ..., -0.0372,  0.1430,  0.0186],
+        [-0.0100, -0.1420, -0.0098,  ...,  0.1509, -0.1251,  0.0297],
+        ...,
+        [-0.0771,  0.1134,  0.0267,  ..., -0.1011,  0.0915,  0.0451],
+        [-0.0023, -0.0628,  0.0033,  ..., -0.0584, -0.1544, -0.1179],
+        [ 0.0012, -0.0136, -0.0036,  ..., -0.1564, -0.1217,  0.0291]],
+       device='cuda:0'), grad: tensor([[ 8.5100e-08,  4.0804e-08,  0.0000e+00,  ...,  1.3225e-07,
+          5.8091e-08,  1.1816e-07],
+        [ 1.0378e-07,  3.6089e-07,  0.0000e+00,  ...,  6.9966e-08,
+          2.1188e-08,  9.6299e-07],
+        [ 8.3703e-08,  2.5090e-06,  0.0000e+00,  ..., -3.0664e-07,
+          2.7716e-06,  2.9244e-06],
+        ...,
+        [ 2.6845e-07, -3.8594e-06,  0.0000e+00,  ...,  1.6170e-07,
+         -4.0941e-06, -4.3958e-06],
+        [ 3.7230e-07,  2.2852e-07,  0.0000e+00,  ...,  3.6438e-08,
+          2.9244e-07,  4.3004e-07],
+        [-2.6897e-06, -6.0885e-08,  0.0000e+00,  ...,  4.2026e-08,
+          6.1525e-08, -3.3826e-06]], device='cuda:0')
+Epoch 182, bias, value: tensor([-0.0327,  0.0130,  0.0136,  0.0258,  0.0287, -0.0160,  0.0313,  0.0302,
+        -0.0131,  0.0024], device='cuda:0'), grad: tensor([ 1.2638e-06,  2.5816e-06,  7.2569e-06,  7.6368e-06,  1.0349e-05,
+        -1.3717e-05,  1.8198e-06, -8.5905e-06,  4.2170e-06, -1.2815e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 181, time 249.25, cls_loss 0.0010 cls_loss_mapping 0.0025 cls_loss_causal 0.4971 re_mapping 0.0041 re_causal 0.0137 /// teacc 99.01 lr 0.00010000
+Epoch 183, weight, value: tensor([[ 0.0568, -0.1045, -0.1262,  ..., -0.1044, -0.1080, -0.0940],
+        [ 0.0292,  0.0492, -0.0323,  ..., -0.0372,  0.1430,  0.0186],
+        [-0.0101, -0.1423, -0.0094,  ...,  0.1517, -0.1257,  0.0297],
+        ...,
+        [-0.0773,  0.1135,  0.0257,  ..., -0.1018,  0.0915,  0.0451],
+        [-0.0022, -0.0628,  0.0034,  ..., -0.0582, -0.1544, -0.1181],
+        [ 0.0011, -0.0136, -0.0036,  ..., -0.1567, -0.1218,  0.0291]],
+       device='cuda:0'), grad: tensor([[-4.8196e-07,  4.0221e-08,  0.0000e+00,  ...,  2.7125e-07,
+          6.4261e-08,  4.0571e-08],
+        [-4.1490e-07,  4.4256e-06,  0.0000e+00,  ...,  7.6310e-08,
+          3.5409e-06,  4.8019e-06],
+        [ 1.3364e-07,  2.2189e-07,  0.0000e+00,  ...,  3.3760e-09,
+          2.5146e-07,  1.9278e-07],
+        ...,
+        [ 2.3108e-07, -7.9423e-06,  0.0000e+00,  ...,  3.6380e-08,
+         -7.7263e-06, -8.3447e-06],
+        [ 4.6007e-07,  1.7358e-07,  0.0000e+00,  ...,  7.7998e-08,
+          4.9453e-07,  1.8615e-07],
+        [-1.7593e-06,  8.7172e-07,  0.0000e+00,  ...,  1.1676e-07,
+          1.0114e-06,  9.3179e-07]], device='cuda:0')
+Epoch 183, bias, value: tensor([-0.0325,  0.0130,  0.0137,  0.0259,  0.0288, -0.0166,  0.0307,  0.0302,
+        -0.0128,  0.0023], device='cuda:0'), grad: tensor([-6.0815e-07,  8.1733e-06,  1.7537e-06,  1.2189e-07,  7.2271e-06,
+         5.2452e-06, -6.8592e-07, -1.3202e-05,  3.8296e-06, -1.1876e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 182, time 248.96, cls_loss 0.0010 cls_loss_mapping 0.0028 cls_loss_causal 0.4991 re_mapping 0.0042 re_causal 0.0135 /// teacc 99.07 lr 0.00010000
+Epoch 184, weight, value: tensor([[ 0.0566, -0.1058, -0.1262,  ..., -0.1053, -0.1093, -0.0943],
+        [ 0.0292,  0.0492, -0.0323,  ..., -0.0374,  0.1431,  0.0186],
+        [-0.0101, -0.1428, -0.0094,  ...,  0.1523, -0.1259,  0.0298],
+        ...,
+        [-0.0776,  0.1137,  0.0257,  ..., -0.1022,  0.0917,  0.0454],
+        [-0.0021, -0.0628,  0.0034,  ..., -0.0583, -0.1545, -0.1183],
+        [ 0.0010, -0.0144, -0.0037,  ..., -0.1570, -0.1228,  0.0288]],
+       device='cuda:0'), grad: tensor([[ 4.6915e-07,  8.9058e-09,  0.0000e+00,  ...,  2.1176e-07,
+          2.6484e-08,  2.1793e-07],
+        [-1.7730e-07, -1.3050e-07,  0.0000e+00,  ...,  3.5681e-08,
+         -6.4680e-07, -6.8161e-08],
+        [ 1.5146e-07,  6.7637e-08,  0.0000e+00,  ...,  1.7565e-06,
+          1.5576e-07,  1.7893e-07],
+        ...,
+        [ 1.9139e-07, -9.3773e-08,  0.0000e+00,  ...,  2.1595e-08,
+          2.7940e-08, -4.7614e-08],
+        [ 6.1430e-06,  2.3923e-08,  0.0000e+00,  ...,  5.6811e-08,
+          8.8883e-08,  1.1257e-07],
+        [-5.2191e-06,  3.1025e-08,  0.0000e+00,  ...,  2.2817e-08,
+          8.7195e-08, -1.6661e-06]], device='cuda:0')
+Epoch 184, bias, value: tensor([-0.0333,  0.0130,  0.0137,  0.0259,  0.0288, -0.0166,  0.0311,  0.0303,
+        -0.0127,  0.0021], device='cuda:0'), grad: tensor([ 3.3155e-06, -3.6554e-07,  1.7688e-05, -1.4812e-05,  5.5917e-06,
+        -9.8422e-06,  2.3842e-07,  8.1910e-07,  1.7658e-05, -2.0310e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 183, time 248.97, cls_loss 0.0012 cls_loss_mapping 0.0034 cls_loss_causal 0.5027 re_mapping 0.0040 re_causal 0.0129 /// teacc 99.15 lr 0.00010000
+Epoch 185, weight, value: tensor([[ 0.0569, -0.1058, -0.1262,  ..., -0.1056, -0.1096, -0.0945],
+        [ 0.0294,  0.0492, -0.0324,  ..., -0.0376,  0.1431,  0.0185],
+        [-0.0103, -0.1442, -0.0094,  ...,  0.1533, -0.1263,  0.0294],
+        ...,
+        [-0.0780,  0.1140,  0.0256,  ..., -0.1024,  0.0917,  0.0456],
+        [-0.0020, -0.0630,  0.0035,  ..., -0.0584, -0.1546, -0.1186],
+        [ 0.0009, -0.0145, -0.0037,  ..., -0.1572, -0.1230,  0.0289]],
+       device='cuda:0'), grad: tensor([[ 1.2377e-06,  2.5844e-08,  0.0000e+00,  ...,  1.3015e-07,
+          2.4505e-08,  8.6380e-08],
+        [ 4.5775e-07,  5.0699e-08,  0.0000e+00,  ...,  1.3784e-07,
+         -2.1362e-07,  1.2224e-07],
+        [ 3.0268e-07,  5.3726e-08,  5.8208e-11,  ..., -5.3458e-07,
+          5.8091e-08, -2.4517e-07],
+        ...,
+        [ 4.5565e-07, -9.0979e-08,  0.0000e+00,  ...,  1.2829e-07,
+         -1.7846e-07, -5.8208e-11],
+        [-5.6252e-06, -2.1548e-07,  5.8208e-11,  ...,  1.1019e-07,
+          7.3924e-08,  1.4785e-07],
+        [ 9.1875e-07, -2.1141e-07,  0.0000e+00,  ...,  1.6810e-07,
+          4.2550e-08, -5.1735e-07]], device='cuda:0')
+Epoch 185, bias, value: tensor([-0.0332,  0.0130,  0.0134,  0.0256,  0.0287, -0.0167,  0.0309,  0.0306,
+        -0.0126,  0.0021], device='cuda:0'), grad: tensor([ 7.9125e-06,  3.7849e-06,  7.3295e-07,  3.8184e-06, -2.1048e-07,
+         3.5446e-06,  4.6603e-06,  3.3733e-06, -3.2037e-05,  4.3325e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 184, time 249.38, cls_loss 0.0011 cls_loss_mapping 0.0031 cls_loss_causal 0.5123 re_mapping 0.0042 re_causal 0.0132 /// teacc 99.13 lr 0.00010000
+Epoch 186, weight, value: tensor([[ 0.0571, -0.1061, -0.1262,  ..., -0.1060, -0.1103, -0.0948],
+        [ 0.0294,  0.0492, -0.0322,  ..., -0.0378,  0.1432,  0.0185],
+        [-0.0102, -0.1446, -0.0094,  ...,  0.1540, -0.1267,  0.0293],
+        ...,
+        [-0.0782,  0.1141,  0.0254,  ..., -0.1030,  0.0918,  0.0457],
+        [-0.0019, -0.0627,  0.0035,  ..., -0.0587, -0.1546, -0.1185],
+        [ 0.0009, -0.0152, -0.0037,  ..., -0.1574, -0.1238,  0.0287]],
+       device='cuda:0'), grad: tensor([[-1.0757e-06,  7.3342e-09,  3.4925e-09,  ...,  6.8976e-08,
+          2.3865e-09,  1.0186e-08],
+        [-2.5262e-08,  1.1059e-09,  1.7288e-08,  ...,  1.0279e-07,
+         -1.8906e-07,  3.0210e-08],
+        [ 7.1421e-08,  2.3050e-08,  1.0652e-08,  ...,  2.9278e-08,
+          4.6100e-08,  1.9325e-08],
+        ...,
+        [ 8.1200e-08, -6.5484e-08,  2.9395e-08,  ...,  1.0419e-08,
+          3.1199e-08, -2.6310e-08],
+        [ 9.4704e-08,  4.5809e-08,  3.2014e-08,  ...,  1.8114e-07,
+          6.7521e-08,  1.6124e-08],
+        [ 8.9314e-07,  6.8452e-08,  2.5146e-08,  ...,  2.8522e-07,
+          7.5379e-08,  8.0210e-08]], device='cuda:0')
+Epoch 186, bias, value: tensor([-0.0335,  0.0129,  0.0134,  0.0256,  0.0289, -0.0165,  0.0312,  0.0307,
+        -0.0125,  0.0019], device='cuda:0'), grad: tensor([-6.8806e-06,  1.3402e-06,  1.9632e-06, -8.7470e-06, -2.9933e-06,
+         1.9092e-06,  1.1548e-06,  1.6373e-06,  2.7921e-06,  7.8678e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 185, time 249.26, cls_loss 0.0009 cls_loss_mapping 0.0027 cls_loss_causal 0.4940 re_mapping 0.0041 re_causal 0.0131 /// teacc 99.04 lr 0.00010000
+Epoch 187, weight, value: tensor([[ 0.0574, -0.1059, -0.1262,  ..., -0.1062, -0.1107, -0.0949],
+        [ 0.0294,  0.0491, -0.0323,  ..., -0.0382,  0.1432,  0.0185],
+        [-0.0103, -0.1449, -0.0094,  ...,  0.1542, -0.1269,  0.0293],
+        ...,
+        [-0.0785,  0.1142,  0.0254,  ..., -0.1034,  0.0919,  0.0458],
+        [-0.0019, -0.0628,  0.0035,  ..., -0.0588, -0.1546, -0.1186],
+        [ 0.0009, -0.0152, -0.0038,  ..., -0.1576, -0.1240,  0.0287]],
+       device='cuda:0'), grad: tensor([[-6.6299e-08,  4.5286e-08,  0.0000e+00,  ...,  8.3062e-08,
+          4.3132e-08,  8.0967e-08],
+        [-1.8976e-08,  3.8208e-07,  0.0000e+00,  ...,  3.2713e-08,
+          3.4925e-07,  4.8988e-07],
+        [ 8.9058e-09,  2.7148e-07,  0.0000e+00,  ..., -6.0943e-08,
+          2.6263e-07,  2.1560e-07],
+        ...,
+        [ 2.0664e-08, -2.0619e-06,  0.0000e+00,  ...,  4.8720e-08,
+         -2.0824e-06, -2.5537e-06],
+        [ 1.8044e-08,  7.5845e-08,  0.0000e+00,  ...,  2.6659e-08,
+          6.9907e-08,  1.0687e-07],
+        [-1.2631e-07,  7.6275e-07,  0.0000e+00,  ...,  1.3039e-08,
+          8.5589e-07,  9.3644e-07]], device='cuda:0')
+Epoch 187, bias, value: tensor([-0.0334,  0.0128,  0.0133,  0.0256,  0.0289, -0.0165,  0.0317,  0.0307,
+        -0.0125,  0.0019], device='cuda:0'), grad: tensor([-7.5379e-08,  1.4491e-06,  3.6024e-06, -1.8151e-06,  6.7661e-07,
+         4.7823e-07,  7.1013e-09, -6.7353e-06,  4.9360e-07,  1.9055e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 186, time 249.38, cls_loss 0.0013 cls_loss_mapping 0.0032 cls_loss_causal 0.5128 re_mapping 0.0039 re_causal 0.0127 /// teacc 98.95 lr 0.00010000
+Epoch 188, weight, value: tensor([[ 0.0575, -0.1061, -0.1262,  ..., -0.1066, -0.1113, -0.0952],
+        [ 0.0296,  0.0491, -0.0323,  ..., -0.0384,  0.1433,  0.0184],
+        [-0.0104, -0.1455, -0.0094,  ...,  0.1553, -0.1273,  0.0295],
+        ...,
+        [-0.0789,  0.1144,  0.0254,  ..., -0.1039,  0.0920,  0.0459],
+        [-0.0018, -0.0629,  0.0035,  ..., -0.0590, -0.1547, -0.1189],
+        [ 0.0006, -0.0156, -0.0038,  ..., -0.1582, -0.1246,  0.0285]],
+       device='cuda:0'), grad: tensor([[-1.0617e-07,  6.5425e-08,  0.0000e+00,  ...,  1.3562e-08,
+          9.7381e-08,  2.8056e-07],
+        [-3.3602e-06,  1.4284e-07,  0.0000e+00,  ...,  3.9232e-08,
+         -5.2452e-06, -1.7928e-06],
+        [ 2.6706e-07,  2.6007e-07,  0.0000e+00,  ..., -5.4919e-08,
+          4.3330e-07,  3.3528e-07],
+        ...,
+        [ 1.0571e-06,  2.4438e-06,  0.0000e+00,  ..., -3.6875e-08,
+          1.3243e-06,  1.1630e-05],
+        [ 2.5891e-07,  3.6001e-08,  0.0000e+00,  ...,  5.1310e-08,
+          7.0361e-07,  3.9581e-07],
+        [ 2.1840e-07, -3.3714e-06,  0.0000e+00,  ...,  2.8027e-08,
+          8.9698e-08, -1.3188e-05]], device='cuda:0')
+Epoch 188, bias, value: tensor([-0.0336,  0.0128,  0.0134,  0.0258,  0.0290, -0.0166,  0.0314,  0.0307,
+        -0.0124,  0.0016], device='cuda:0'), grad: tensor([-2.8522e-07, -1.0900e-05,  1.7062e-06,  5.8301e-07,  4.4368e-06,
+         3.9227e-06,  1.0645e-06,  3.6448e-05,  6.0489e-07, -3.7581e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 187, time 249.14, cls_loss 0.0013 cls_loss_mapping 0.0028 cls_loss_causal 0.4948 re_mapping 0.0042 re_causal 0.0133 /// teacc 99.07 lr 0.00010000
+Epoch 189, weight, value: tensor([[ 0.0574, -0.1064, -0.1262,  ..., -0.1068, -0.1121, -0.0957],
+        [ 0.0296,  0.0491, -0.0323,  ..., -0.0387,  0.1433,  0.0184],
+        [-0.0105, -0.1458, -0.0094,  ...,  0.1559, -0.1277,  0.0295],
+        ...,
+        [-0.0796,  0.1145,  0.0254,  ..., -0.1042,  0.0921,  0.0460],
+        [-0.0020, -0.0630,  0.0035,  ..., -0.0596, -0.1548, -0.1189],
+        [ 0.0014, -0.0157, -0.0038,  ..., -0.1584, -0.1248,  0.0289]],
+       device='cuda:0'), grad: tensor([[-1.9395e-07,  2.3283e-09,  0.0000e+00,  ...,  1.2427e-08,
+          1.3330e-08,  1.8452e-08],
+        [-1.0955e-07, -1.1135e-07,  0.0000e+00,  ...,  1.4756e-08,
+         -3.9930e-07, -9.0920e-08],
+        [ 1.0786e-07,  1.4610e-08,  0.0000e+00,  ..., -1.5867e-07,
+          5.1892e-08, -8.3004e-08],
+        ...,
+        [ 2.8568e-07,  3.3615e-08,  0.0000e+00,  ...,  1.1729e-07,
+          1.1048e-07,  1.2119e-07],
+        [ 1.3085e-07,  1.6327e-08,  0.0000e+00,  ...,  1.3388e-08,
+          5.3667e-08,  3.7544e-08],
+        [ 1.0256e-07,  2.4447e-09,  0.0000e+00,  ...,  7.6834e-09,
+          2.3370e-08, -9.1502e-08]], device='cuda:0')
+Epoch 189, bias, value: tensor([-0.0337,  0.0127,  0.0133,  0.0252,  0.0289, -0.0165,  0.0325,  0.0307,
+        -0.0128,  0.0019], device='cuda:0'), grad: tensor([-1.0291e-06,  9.5461e-08,  6.9942e-07, -9.1270e-06,  2.2189e-07,
+         2.2259e-06,  1.0198e-06,  2.9001e-06,  1.7453e-06,  1.2172e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 188, time 249.05, cls_loss 0.0012 cls_loss_mapping 0.0030 cls_loss_causal 0.5275 re_mapping 0.0038 re_causal 0.0127 /// teacc 99.07 lr 0.00010000
+Epoch 190, weight, value: tensor([[ 0.0574, -0.1066, -0.1262,  ..., -0.1070, -0.1127, -0.0963],
+        [ 0.0296,  0.0491, -0.0324,  ..., -0.0398,  0.1433,  0.0182],
+        [-0.0108, -0.1462, -0.0091,  ...,  0.1588, -0.1282,  0.0301],
+        ...,
+        [-0.0803,  0.1146,  0.0243,  ..., -0.1047,  0.0922,  0.0461],
+        [-0.0018, -0.0630,  0.0035,  ..., -0.0595, -0.1548, -0.1192],
+        [ 0.0014, -0.0157, -0.0038,  ..., -0.1586, -0.1249,  0.0290]],
+       device='cuda:0'), grad: tensor([[ 3.4343e-09,  1.6880e-09,  0.0000e+00,  ...,  6.8103e-09,
+          4.2783e-09,  1.7084e-08],
+        [-1.0373e-07, -4.2957e-08,  0.0000e+00,  ...,  2.3370e-08,
+         -3.7462e-07,  5.6985e-08],
+        [ 5.0495e-08,  2.0635e-08,  0.0000e+00,  ..., -4.6741e-08,
+          4.8167e-08, -3.3062e-08],
+        ...,
+        [ 1.9860e-07, -5.4861e-08,  0.0000e+00,  ...,  3.2829e-08,
+          4.7236e-08,  6.0070e-08],
+        [ 2.0897e-07,  3.7078e-08,  0.0000e+00,  ...,  9.0222e-09,
+          1.9651e-07,  8.0443e-08],
+        [-2.4065e-06,  1.5309e-08,  0.0000e+00,  ...,  2.5990e-08,
+          1.7695e-08, -5.1111e-06]], device='cuda:0')
+Epoch 190, bias, value: tensor([-0.0339,  0.0124,  0.0137,  0.0263,  0.0290, -0.0173,  0.0320,  0.0308,
+        -0.0126,  0.0018], device='cuda:0'), grad: tensor([ 6.4843e-08,  3.1362e-07,  1.2724e-07,  1.8878e-06,  1.7703e-05,
+        -4.1723e-06,  7.5903e-07,  9.5740e-07,  3.2177e-07, -1.7941e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 189, time 249.19, cls_loss 0.0011 cls_loss_mapping 0.0029 cls_loss_causal 0.4992 re_mapping 0.0041 re_causal 0.0128 /// teacc 99.00 lr 0.00010000
+Epoch 191, weight, value: tensor([[ 0.0572, -0.1062, -0.1262,  ..., -0.1064, -0.1132, -0.0964],
+        [ 0.0299,  0.0492, -0.0324,  ..., -0.0399,  0.1435,  0.0183],
+        [-0.0109, -0.1467, -0.0090,  ...,  0.1591, -0.1286,  0.0303],
+        ...,
+        [-0.0810,  0.1147,  0.0240,  ..., -0.1055,  0.0922,  0.0462],
+        [-0.0020, -0.0633,  0.0035,  ..., -0.0598, -0.1551, -0.1197],
+        [ 0.0015, -0.0159, -0.0039,  ..., -0.1590, -0.1252,  0.0289]],
+       device='cuda:0'), grad: tensor([[ 9.6217e-08,  2.8842e-08,  0.0000e+00,  ...,  1.0774e-07,
+          1.2899e-07,  3.3993e-08],
+        [-2.5854e-05, -4.4182e-06,  0.0000e+00,  ..., -2.1338e-05,
+         -3.0160e-05, -9.0292e-07],
+        [ 9.4809e-07,  3.2363e-07,  0.0000e+00,  ...,  8.5589e-07,
+          1.2163e-06,  3.1944e-07],
+        ...,
+        [ 8.8010e-07, -4.8568e-07,  0.0000e+00,  ...,  7.0641e-07,
+          2.6915e-07, -9.8906e-07],
+        [ 6.5975e-06,  1.4110e-06,  0.0000e+00,  ...,  5.5507e-06,
+          8.8662e-06,  4.4517e-07],
+        [ 4.4121e-08,  2.8918e-07,  0.0000e+00,  ...,  2.5658e-07,
+          4.5239e-07, -4.4587e-08]], device='cuda:0')
+Epoch 191, bias, value: tensor([-0.0343,  0.0126,  0.0137,  0.0263,  0.0292, -0.0168,  0.0319,  0.0307,
+        -0.0129,  0.0017], device='cuda:0'), grad: tensor([ 6.6264e-07, -1.1969e-04,  5.4464e-06, -2.1774e-06,  2.6956e-05,
+         7.3016e-06,  5.0426e-05,  3.5055e-06,  2.7582e-05, -8.7894e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 190, time 249.20, cls_loss 0.0012 cls_loss_mapping 0.0030 cls_loss_causal 0.4861 re_mapping 0.0041 re_causal 0.0124 /// teacc 98.98 lr 0.00010000
+Epoch 192, weight, value: tensor([[ 0.0574, -0.1063, -0.1263,  ..., -0.1067, -0.1137, -0.0966],
+        [ 0.0300,  0.0492, -0.0332,  ..., -0.0402,  0.1436,  0.0182],
+        [-0.0109, -0.1470, -0.0080,  ...,  0.1594, -0.1287,  0.0308],
+        ...,
+        [-0.0815,  0.1149,  0.0229,  ..., -0.1066,  0.0923,  0.0463],
+        [-0.0019, -0.0631,  0.0032,  ..., -0.0598, -0.1553, -0.1200],
+        [ 0.0019, -0.0163, -0.0040,  ..., -0.1593, -0.1257,  0.0287]],
+       device='cuda:0'), grad: tensor([[-9.0222e-10,  9.1095e-09,  1.1642e-09,  ...,  5.5553e-07,
+          1.2311e-08,  2.9686e-08],
+        [-1.0961e-07,  3.7922e-08,  8.1491e-10,  ...,  1.1269e-07,
+         -1.5122e-07,  5.1502e-07],
+        [ 3.2567e-08,  3.7020e-08,  1.5716e-09,  ...,  2.1304e-08,
+          4.7236e-08,  1.3970e-09],
+        ...,
+        [ 8.8883e-08, -3.0780e-07,  1.7462e-10,  ...,  2.1595e-08,
+         -2.0571e-07, -5.9837e-08],
+        [-9.7498e-08,  4.8341e-08, -1.0245e-08,  ...,  3.6764e-07,
+          9.2201e-08,  9.5111e-08],
+        [-2.5553e-08,  1.0506e-08,  5.3551e-09,  ...,  4.6857e-08,
+          2.7765e-08,  6.4401e-07]], device='cuda:0')
+Epoch 192, bias, value: tensor([-0.0342,  0.0125,  0.0129,  0.0271,  0.0294, -0.0170,  0.0316,  0.0306,
+        -0.0129,  0.0017], device='cuda:0'), grad: tensor([ 1.2834e-06,  2.5369e-06,  2.8545e-07, -7.2271e-07, -7.1526e-06,
+         2.3935e-06, -4.3064e-06,  4.1840e-07,  1.1707e-06,  4.0941e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 191, time 248.97, cls_loss 0.0015 cls_loss_mapping 0.0040 cls_loss_causal 0.5267 re_mapping 0.0041 re_causal 0.0127 /// teacc 98.97 lr 0.00010000
+Epoch 193, weight, value: tensor([[ 0.0575, -0.1076, -0.1263,  ..., -0.1070, -0.1152, -0.0971],
+        [ 0.0296,  0.0492, -0.0332,  ..., -0.0410,  0.1438,  0.0179],
+        [-0.0106, -0.1478, -0.0079,  ...,  0.1607, -0.1293,  0.0315],
+        ...,
+        [-0.0822,  0.1151,  0.0229,  ..., -0.1074,  0.0923,  0.0464],
+        [-0.0016, -0.0629,  0.0032,  ..., -0.0599, -0.1554, -0.1204],
+        [ 0.0021, -0.0166, -0.0041,  ..., -0.1601, -0.1258,  0.0285]],
+       device='cuda:0'), grad: tensor([[-2.9802e-07, -2.7241e-08,  0.0000e+00,  ...,  2.5588e-07,
+          1.1787e-08,  3.5157e-08],
+        [-6.1875e-08,  1.4866e-07,  0.0000e+00,  ...,  5.1176e-07,
+          1.5693e-07,  6.7987e-07],
+        [ 3.7544e-09,  1.7724e-08,  0.0000e+00,  ..., -6.7987e-07,
+         -1.3586e-07, -8.3493e-07],
+        ...,
+        [ 7.3400e-08, -3.1218e-06,  0.0000e+00,  ...,  2.4308e-07,
+         -3.6191e-06, -1.6112e-06],
+        [ 2.6455e-08,  6.6240e-08,  0.0000e+00,  ...,  1.2876e-07,
+          1.0623e-07,  1.5204e-07],
+        [ 7.2818e-08,  1.3399e-07,  0.0000e+00,  ...,  2.5681e-07,
+          1.6449e-07,  3.2480e-07]], device='cuda:0')
+Epoch 193, bias, value: tensor([-0.0342,  0.0120,  0.0134,  0.0275,  0.0300, -0.0171,  0.0310,  0.0305,
+        -0.0124,  0.0013], device='cuda:0'), grad: tensor([-5.7416e-07,  2.2519e-06, -1.6782e-06,  6.6906e-06, -3.1348e-06,
+         6.0629e-07,  6.2457e-08, -6.5640e-06,  6.6962e-07,  1.6605e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 192, time 249.00, cls_loss 0.0012 cls_loss_mapping 0.0027 cls_loss_causal 0.5036 re_mapping 0.0046 re_causal 0.0139 /// teacc 99.08 lr 0.00010000
+Epoch 194, weight, value: tensor([[ 0.0577, -0.1084, -0.1264,  ..., -0.1073, -0.1162, -0.0977],
+        [ 0.0312,  0.0510, -0.0350,  ..., -0.0404,  0.1452,  0.0196],
+        [-0.0124, -0.1511, -0.0069,  ...,  0.1607, -0.1316,  0.0307],
+        ...,
+        [-0.0829,  0.1151,  0.0223,  ..., -0.1094,  0.0923,  0.0462],
+        [-0.0016, -0.0630,  0.0032,  ..., -0.0602, -0.1555, -0.1210],
+        [ 0.0019, -0.0169, -0.0041,  ..., -0.1608, -0.1263,  0.0281]],
+       device='cuda:0'), grad: tensor([[ 4.1258e-07, -6.7812e-09,  0.0000e+00,  ...,  1.0198e-06,
+          3.8836e-07,  6.5193e-07],
+        [-4.9733e-06,  1.0002e-06,  0.0000e+00,  ...,  2.3842e-07,
+         -5.6177e-06,  1.8543e-06],
+        [-7.5810e-07,  2.1624e-08,  0.0000e+00,  ..., -6.6273e-06,
+          5.9418e-07, -3.9078e-06],
+        ...,
+        [ 1.4352e-06,  3.1386e-07,  0.0000e+00,  ...,  9.0804e-07,
+          1.3001e-06,  9.8255e-07],
+        [ 2.7716e-06,  2.1042e-08,  0.0000e+00,  ...,  1.3290e-06,
+          1.9111e-06,  7.9069e-07],
+        [ 3.0492e-06, -1.6056e-06,  0.0000e+00,  ...,  6.9523e-07,
+         -8.2655e-07, -2.7865e-06]], device='cuda:0')
+Epoch 194, bias, value: tensor([-0.0341,  0.0143,  0.0116,  0.0274,  0.0310, -0.0172,  0.0296,  0.0301,
+        -0.0126,  0.0010], device='cuda:0'), grad: tensor([ 2.3916e-06, -7.7561e-06, -1.4946e-05,  2.4270e-06,  5.3793e-06,
+        -1.7390e-05,  5.8264e-06,  5.7146e-06,  1.0043e-05,  8.2999e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 193, time 248.64, cls_loss 0.0014 cls_loss_mapping 0.0030 cls_loss_causal 0.5408 re_mapping 0.0039 re_causal 0.0130 /// teacc 99.05 lr 0.00010000
+Epoch 195, weight, value: tensor([[ 0.0577, -0.1082, -0.1267,  ..., -0.1077, -0.1162, -0.0984],
+        [ 0.0312,  0.0510, -0.0346,  ..., -0.0406,  0.1452,  0.0195],
+        [-0.0124, -0.1512, -0.0065,  ...,  0.1615, -0.1317,  0.0309],
+        ...,
+        [-0.0836,  0.1154,  0.0205,  ..., -0.1113,  0.0925,  0.0465],
+        [-0.0016, -0.0628,  0.0031,  ..., -0.0607, -0.1556, -0.1214],
+        [ 0.0025, -0.0170, -0.0038,  ..., -0.1610, -0.1265,  0.0283]],
+       device='cuda:0'), grad: tensor([[-5.6374e-08,  4.5955e-08,  1.9632e-06,  ...,  6.3628e-06,
+          3.6700e-08,  7.7009e-08],
+        [-2.7567e-07,  5.2154e-07,  8.2015e-08,  ...,  3.3458e-07,
+          7.0024e-08,  8.7591e-07],
+        [ 6.0012e-08,  3.5646e-07,  1.4883e-06,  ...,  4.4219e-06,
+          4.0117e-07,  2.1397e-07],
+        ...,
+        [ 2.3213e-07, -1.7919e-06,  1.6007e-08,  ...,  7.2760e-08,
+         -2.1085e-06, -2.0694e-06],
+        [ 6.5612e-07,  3.4599e-07,  5.2201e-07,  ...,  1.7332e-06,
+          6.0955e-07,  5.5227e-07],
+        [-3.6438e-07,  5.8877e-08,  4.8574e-08,  ...,  2.0722e-07,
+          4.9314e-07, -4.4447e-07]], device='cuda:0')
+Epoch 195, bias, value: tensor([-0.0342,  0.0142,  0.0117,  0.0272,  0.0306, -0.0172,  0.0297,  0.0302,
+        -0.0125,  0.0013], device='cuda:0'), grad: tensor([ 2.1592e-05,  1.8412e-06,  1.6972e-05, -4.2868e-04,  9.2946e-07,
+         2.2147e-06,  3.7980e-04, -3.4068e-06,  9.3579e-06, -1.1781e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 194, time 249.27, cls_loss 0.0011 cls_loss_mapping 0.0024 cls_loss_causal 0.5213 re_mapping 0.0040 re_causal 0.0128 /// teacc 99.03 lr 0.00010000
+Epoch 196, weight, value: tensor([[ 0.0575, -0.1080, -0.1277,  ..., -0.1080, -0.1162, -0.0990],
+        [ 0.0313,  0.0509, -0.0351,  ..., -0.0408,  0.1453,  0.0195],
+        [-0.0124, -0.1513, -0.0045,  ...,  0.1621, -0.1318,  0.0310],
+        ...,
+        [-0.0840,  0.1155,  0.0200,  ..., -0.1123,  0.0926,  0.0465],
+        [-0.0015, -0.0628,  0.0025,  ..., -0.0612, -0.1557, -0.1218],
+        [ 0.0027, -0.0169, -0.0042,  ..., -0.1614, -0.1268,  0.0283]],
+       device='cuda:0'), grad: tensor([[ 9.0396e-08,  8.3237e-09,  0.0000e+00,  ...,  5.9605e-08,
+          6.6590e-08,  6.6881e-08],
+        [-3.4645e-07, -1.1781e-07,  2.9104e-11,  ...,  2.1642e-07,
+         -1.0040e-06,  9.4820e-08],
+        [-1.1252e-07,  3.6845e-08,  5.8208e-11,  ..., -1.0887e-06,
+          4.2981e-07, -9.5833e-07],
+        ...,
+        [ 3.4529e-07, -1.7637e-08,  2.9104e-11,  ...,  7.2131e-07,
+          1.4715e-07,  8.8196e-07],
+        [ 2.7963e-07,  1.9354e-08,  8.7311e-11,  ...,  1.9954e-07,
+          7.3982e-08,  1.8172e-07],
+        [ 7.8697e-08,  2.2090e-08,  0.0000e+00,  ...,  2.4326e-06,
+          4.9011e-08,  1.5525e-06]], device='cuda:0')
+Epoch 196, bias, value: tensor([-0.0346,  0.0142,  0.0118,  0.0277,  0.0307, -0.0173,  0.0294,  0.0301,
+        -0.0126,  0.0013], device='cuda:0'), grad: tensor([ 6.2631e-07, -4.5518e-07, -1.5907e-06,  2.1365e-06, -8.8960e-06,
+        -3.8333e-06, -4.4215e-07,  2.7269e-06,  1.7677e-06,  7.9498e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 195, time 249.13, cls_loss 0.0012 cls_loss_mapping 0.0032 cls_loss_causal 0.4948 re_mapping 0.0039 re_causal 0.0123 /// teacc 99.09 lr 0.00010000
+Epoch 197, weight, value: tensor([[ 0.0576, -0.1083, -0.1279,  ..., -0.1083, -0.1168, -0.0999],
+        [ 0.0313,  0.0509, -0.0369,  ..., -0.0410,  0.1453,  0.0195],
+        [-0.0125, -0.1513, -0.0038,  ...,  0.1628, -0.1319,  0.0311],
+        ...,
+        [-0.0845,  0.1153,  0.0198,  ..., -0.1136,  0.0926,  0.0463],
+        [-0.0013, -0.0616,  0.0025,  ..., -0.0601, -0.1556, -0.1212],
+        [ 0.0029, -0.0164, -0.0043,  ..., -0.1619, -0.1268,  0.0287]],
+       device='cuda:0'), grad: tensor([[-2.2090e-08,  3.0338e-07,  0.0000e+00,  ...,  2.5466e-08,
+          4.6869e-07,  1.9954e-07],
+        [-8.5384e-06, -1.6853e-05,  0.0000e+00,  ...,  4.3452e-08,
+         -2.2516e-05, -8.3521e-06],
+        [ 6.5076e-08,  3.9348e-07,  0.0000e+00,  ..., -6.8801e-08,
+          4.3330e-07,  5.4715e-07],
+        ...,
+        [ 4.0568e-06,  6.8769e-06,  0.0000e+00,  ...,  2.3603e-08,
+          9.5740e-06,  2.3972e-06],
+        [ 1.0856e-07,  1.0300e-06,  0.0000e+00,  ...,  5.8062e-08,
+          1.3756e-06,  6.3889e-07],
+        [ 2.9281e-06,  5.7369e-06,  0.0000e+00,  ...,  1.3708e-08,
+          7.2904e-06,  3.1702e-06]], device='cuda:0')
+Epoch 197, bias, value: tensor([-0.0346,  0.0142,  0.0118,  0.0277,  0.0307, -0.0189,  0.0300,  0.0296,
+        -0.0117,  0.0014], device='cuda:0'), grad: tensor([ 4.4500e-08, -4.2230e-05,  1.4389e-06,  9.3644e-07,  5.5954e-06,
+         5.3365e-07,  1.3126e-08,  1.6749e-05,  7.7533e-07,  1.6183e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 196, time 248.72, cls_loss 0.0014 cls_loss_mapping 0.0036 cls_loss_causal 0.5097 re_mapping 0.0038 re_causal 0.0122 /// teacc 98.95 lr 0.00010000
+Epoch 198, weight, value: tensor([[ 0.0574, -0.1090, -0.1280,  ..., -0.1089, -0.1185, -0.1008],
+        [ 0.0311,  0.0505, -0.0372,  ..., -0.0413,  0.1451,  0.0191],
+        [-0.0125, -0.1513, -0.0037,  ...,  0.1632, -0.1320,  0.0311],
+        ...,
+        [-0.0830,  0.1164,  0.0197,  ..., -0.1161,  0.0934,  0.0469],
+        [-0.0012, -0.0616,  0.0023,  ..., -0.0603, -0.1558, -0.1217],
+        [ 0.0034, -0.0186, -0.0046,  ..., -0.1640, -0.1289,  0.0270]],
+       device='cuda:0'), grad: tensor([[-3.8999e-09,  3.0734e-08,  0.0000e+00,  ...,  1.2195e-08,
+          3.9872e-08,  7.4389e-08],
+        [ 2.3458e-08,  1.4505e-07,  0.0000e+00,  ...,  3.9086e-08,
+          1.5588e-07,  2.7893e-07],
+        [ 1.0041e-08,  3.2084e-07,  0.0000e+00,  ..., -2.6566e-07,
+          4.2329e-07,  5.3691e-07],
+        ...,
+        [ 3.7689e-08, -7.3155e-07,  0.0000e+00,  ...,  5.2707e-08,
+         -9.0804e-07, -1.3458e-06],
+        [-9.2259e-08,  6.4843e-08,  0.0000e+00,  ...,  4.9971e-08,
+          7.7242e-08,  1.5774e-07],
+        [-2.2672e-08,  7.0548e-08,  0.0000e+00,  ...,  7.1537e-08,
+          9.0513e-08,  1.8300e-07]], device='cuda:0')
+Epoch 198, bias, value: tensor([-0.0350,  0.0139,  0.0118,  0.0272,  0.0319, -0.0191,  0.0303,  0.0303,
+        -0.0116,  0.0007], device='cuda:0'), grad: tensor([ 1.0128e-07,  6.9430e-07,  7.0687e-07,  8.6613e-07, -8.9465e-08,
+        -1.0561e-06,  7.7160e-07, -2.3898e-06,  1.3586e-07,  2.8033e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 197, time 249.06, cls_loss 0.0011 cls_loss_mapping 0.0032 cls_loss_causal 0.5217 re_mapping 0.0039 re_causal 0.0127 /// teacc 99.02 lr 0.00010000
+Epoch 199, weight, value: tensor([[ 0.0566, -0.1104, -0.1282,  ..., -0.1066, -0.1193, -0.1036],
+        [ 0.0312,  0.0505, -0.0374,  ..., -0.0414,  0.1452,  0.0190],
+        [-0.0129, -0.1514, -0.0038,  ...,  0.1632, -0.1321,  0.0311],
+        ...,
+        [-0.0834,  0.1166,  0.0197,  ..., -0.1164,  0.0935,  0.0470],
+        [-0.0008, -0.0617,  0.0031,  ..., -0.0610, -0.1560, -0.1218],
+        [ 0.0039, -0.0187, -0.0063,  ..., -0.1646, -0.1292,  0.0271]],
+       device='cuda:0'), grad: tensor([[-4.6529e-06,  2.2119e-09,  6.0536e-09,  ...,  4.1036e-09,
+          2.9395e-09,  4.1618e-09],
+        [ 1.0739e-07, -5.2387e-08,  2.3574e-07,  ...,  7.5903e-08,
+         -1.6484e-07, -2.3778e-08],
+        [ 1.2445e-07,  4.8603e-09,  5.1176e-07,  ...,  1.3318e-07,
+          1.0565e-08, -3.7835e-10],
+        ...,
+        [ 1.8731e-07, -1.0041e-08,  2.2002e-08,  ...,  1.1962e-08,
+          2.8231e-09,  4.8894e-08],
+        [ 7.4273e-07,  4.3889e-08, -2.5388e-06,  ..., -6.8359e-07,
+          9.7905e-08,  4.0745e-08],
+        [ 7.4180e-07, -2.4971e-08,  1.2084e-07,  ...,  4.2404e-08,
+          1.4406e-08, -8.0036e-08]], device='cuda:0')
+Epoch 199, bias, value: tensor([-0.0347,  0.0139,  0.0118,  0.0268,  0.0321, -0.0192,  0.0294,  0.0305,
+        -0.0112,  0.0010], device='cuda:0'), grad: tensor([-1.4678e-05,  1.2033e-06,  1.8803e-06,  1.4432e-05,  7.2643e-08,
+        -5.4874e-06,  3.4776e-06,  7.3668e-07, -4.3027e-06,  2.6710e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 198, time 248.92, cls_loss 0.0011 cls_loss_mapping 0.0025 cls_loss_causal 0.4582 re_mapping 0.0038 re_causal 0.0115 /// teacc 99.05 lr 0.00010000
+Epoch 200, weight, value: tensor([[ 0.0568, -0.1105, -0.1283,  ..., -0.1065, -0.1196, -0.1039],
+        [ 0.0312,  0.0504, -0.0379,  ..., -0.0416,  0.1452,  0.0190],
+        [-0.0129, -0.1514, -0.0040,  ...,  0.1634, -0.1321,  0.0312],
+        ...,
+        [-0.0839,  0.1169,  0.0194,  ..., -0.1164,  0.0935,  0.0471],
+        [-0.0006, -0.0623,  0.0040,  ..., -0.0613, -0.1562, -0.1229],
+        [ 0.0047, -0.0186, -0.0072,  ..., -0.1645, -0.1291,  0.0290]],
+       device='cuda:0'), grad: tensor([[-6.5775e-08,  1.0617e-07,  6.9849e-10,  ..., -3.4668e-07,
+          2.6100e-07,  6.1176e-08],
+        [-3.5763e-06, -4.2468e-06,  3.2014e-10,  ...,  2.2433e-07,
+         -1.1273e-05, -1.9893e-06],
+        [ 1.1642e-07,  1.0681e-07,  7.8580e-10,  ...,  8.4634e-08,
+          2.7288e-07,  4.2317e-08],
+        ...,
+        [ 1.8319e-06,  2.0415e-06,  1.2806e-09,  ...,  5.1514e-08,
+          5.6252e-06,  1.0394e-06],
+        [ 1.1869e-07,  1.1636e-07,  1.1350e-09,  ...,  9.8487e-08,
+          3.1409e-07,  9.8313e-08],
+        [ 8.7079e-07,  1.0990e-06, -5.1223e-09,  ...,  3.5320e-07,
+          2.8238e-06,  7.3109e-07]], device='cuda:0')
+Epoch 200, bias, value: tensor([-0.0345,  0.0139,  0.0117,  0.0266,  0.0307, -0.0193,  0.0295,  0.0305,
+        -0.0112,  0.0024], device='cuda:0'), grad: tensor([-1.2508e-06, -2.4691e-05,  1.0058e-06,  2.4401e-06, -4.2189e-07,
+         7.7952e-07,  1.0990e-06,  1.2852e-05,  1.0207e-06,  7.1600e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 199, time 248.57, cls_loss 0.0011 cls_loss_mapping 0.0034 cls_loss_causal 0.5111 re_mapping 0.0038 re_causal 0.0121 /// teacc 99.08 lr 0.00010000
+Epoch 201, weight, value: tensor([[ 0.0576, -0.1115, -0.1284,  ..., -0.1066, -0.1202, -0.1043],
+        [ 0.0313,  0.0505, -0.0384,  ..., -0.0421,  0.1453,  0.0189],
+        [-0.0131, -0.1514, -0.0033,  ...,  0.1642, -0.1321,  0.0314],
+        ...,
+        [-0.0848,  0.1169,  0.0172,  ..., -0.1172,  0.0935,  0.0469],
+        [-0.0006, -0.0625,  0.0038,  ..., -0.0615, -0.1565, -0.1234],
+        [ 0.0049, -0.0188, -0.0076,  ..., -0.1651, -0.1295,  0.0292]],
+       device='cuda:0'), grad: tensor([[ 8.0327e-07,  4.8894e-09,  7.2469e-09,  ...,  9.4529e-07,
+          8.4401e-09,  2.2969e-07],
+        [ 1.0962e-06,  1.6851e-08,  8.6438e-09,  ...,  3.2736e-07,
+         -3.6624e-07,  2.9802e-07],
+        [ 1.4063e-07,  1.7870e-08,  1.2573e-08,  ..., -1.6391e-06,
+          2.8493e-08, -1.3392e-06],
+        ...,
+        [ 3.2526e-07, -2.0617e-07,  7.6834e-09,  ...,  2.6263e-07,
+         -2.0838e-07,  6.4541e-07],
+        [-7.1079e-06,  4.4849e-08,  3.3033e-08,  ...,  8.1584e-07,
+          1.7032e-07,  7.3062e-07],
+        [-2.2200e-07,  4.4616e-08,  6.5309e-08,  ...,  3.0897e-07,
+          6.5018e-08, -2.0000e-07]], device='cuda:0')
+Epoch 201, bias, value: tensor([-0.0344,  0.0139,  0.0118,  0.0267,  0.0309, -0.0193,  0.0295,  0.0302,
+        -0.0114,  0.0024], device='cuda:0'), grad: tensor([ 8.9779e-06,  1.0654e-05, -9.9279e-07,  1.6361e-05, -4.1835e-06,
+         7.1041e-06, -9.1782e-07,  5.1744e-06, -4.8041e-05,  5.9158e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 200, time 248.95, cls_loss 0.0011 cls_loss_mapping 0.0025 cls_loss_causal 0.5125 re_mapping 0.0038 re_causal 0.0124 /// teacc 99.11 lr 0.00010000
+Epoch 202, weight, value: tensor([[ 0.0583, -0.1118, -0.1317,  ..., -0.1080, -0.1214, -0.1046],
+        [ 0.0306,  0.0504, -0.0393,  ..., -0.0440,  0.1451,  0.0186],
+        [-0.0120, -0.1515, -0.0033,  ...,  0.1665, -0.1319,  0.0318],
+        ...,
+        [-0.0838,  0.1173,  0.0181,  ..., -0.1171,  0.0940,  0.0471],
+        [-0.0007, -0.0627,  0.0036,  ..., -0.0621, -0.1568, -0.1239],
+        [ 0.0050, -0.0190, -0.0074,  ..., -0.1657, -0.1299,  0.0293]],
+       device='cuda:0'), grad: tensor([[ 7.8522e-08,  3.9581e-08,  0.0000e+00,  ...,  3.7486e-07,
+          6.1409e-08,  1.0937e-07],
+        [-5.2532e-08,  2.3432e-06,  2.9104e-11,  ...,  1.2747e-07,
+          2.9411e-06,  3.0193e-06],
+        [-5.0990e-07,  9.8720e-07,  5.8208e-11,  ..., -3.4813e-06,
+          1.3625e-06,  2.2759e-07],
+        ...,
+        [ 5.0379e-08, -4.6529e-06,  2.9104e-11,  ...,  6.8045e-08,
+         -6.2212e-06, -5.8636e-06],
+        [ 6.5938e-07,  1.3935e-07,  1.4552e-10,  ...,  3.2112e-06,
+          2.2480e-07,  1.2061e-06],
+        [-5.3085e-07,  1.0319e-06,  2.9104e-11,  ..., -1.6676e-08,
+          1.3867e-06,  7.2876e-07]], device='cuda:0')
+Epoch 202, bias, value: tensor([-0.0364,  0.0134,  0.0123,  0.0263,  0.0308, -0.0195,  0.0311,  0.0308,
+        -0.0116,  0.0023], device='cuda:0'), grad: tensor([ 1.2573e-06,  6.5491e-06, -4.3958e-06,  1.1381e-06,  2.1756e-06,
+        -3.5968e-06,  1.6568e-06, -1.2405e-05,  8.1360e-06, -4.6613e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 201, time 249.08, cls_loss 0.0011 cls_loss_mapping 0.0027 cls_loss_causal 0.5059 re_mapping 0.0038 re_causal 0.0121 /// teacc 99.08 lr 0.00010000
+Epoch 203, weight, value: tensor([[ 0.0584, -0.1121, -0.1317,  ..., -0.1092, -0.1236, -0.1049],
+        [ 0.0309,  0.0504, -0.0396,  ..., -0.0441,  0.1453,  0.0185],
+        [-0.0120, -0.1517, -0.0029,  ...,  0.1665, -0.1321,  0.0317],
+        ...,
+        [-0.0842,  0.1176,  0.0182,  ..., -0.1154,  0.0942,  0.0475],
+        [-0.0008, -0.0630,  0.0034,  ..., -0.0624, -0.1573, -0.1245],
+        [ 0.0050, -0.0193, -0.0088,  ..., -0.1662, -0.1304,  0.0294]],
+       device='cuda:0'), grad: tensor([[-7.2760e-10,  2.3574e-09,  2.3865e-09,  ...,  1.7113e-07,
+          1.6415e-08,  1.0565e-08],
+        [-6.3679e-08, -9.4005e-09,  2.0082e-09,  ..., -6.8452e-07,
+         -1.2636e-05, -5.1521e-06],
+        [ 1.1118e-08,  1.5978e-08,  6.9849e-10,  ...,  6.9663e-07,
+          2.7660e-06,  1.1567e-06],
+        ...,
+        [ 2.1653e-08, -4.7701e-08,  3.2014e-10,  ...,  6.5798e-07,
+          8.9407e-06,  3.7253e-06],
+        [ 1.0681e-08,  1.0710e-08,  5.9081e-09,  ...,  3.9372e-07,
+          4.4762e-08,  1.1094e-07],
+        [ 3.2887e-09,  9.7207e-09,  1.5134e-09,  ...,  2.0326e-07,
+          4.1706e-08,  2.6985e-07]], device='cuda:0')
+Epoch 203, bias, value: tensor([-0.0366,  0.0134,  0.0122,  0.0267,  0.0308, -0.0193,  0.0310,  0.0312,
+        -0.0118,  0.0023], device='cuda:0'), grad: tensor([ 8.2189e-07, -1.3977e-05,  4.3176e-06,  6.9477e-07,  1.9581e-07,
+         2.0057e-05, -2.5421e-05,  1.0453e-05,  1.8971e-06,  9.7975e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 202, time 249.14, cls_loss 0.0010 cls_loss_mapping 0.0025 cls_loss_causal 0.4957 re_mapping 0.0039 re_causal 0.0124 /// teacc 99.07 lr 0.00010000
+Epoch 204, weight, value: tensor([[ 0.0586, -0.1125, -0.1317,  ..., -0.1094, -0.1248, -0.1053],
+        [ 0.0312,  0.0505, -0.0398,  ..., -0.0442,  0.1456,  0.0185],
+        [-0.0121, -0.1518, -0.0025,  ...,  0.1670, -0.1323,  0.0316],
+        ...,
+        [-0.0855,  0.1178,  0.0179,  ..., -0.1161,  0.0942,  0.0476],
+        [-0.0011, -0.0632,  0.0034,  ..., -0.0634, -0.1575, -0.1253],
+        [ 0.0050, -0.0196, -0.0087,  ..., -0.1666, -0.1307,  0.0292]],
+       device='cuda:0'), grad: tensor([[ 8.4168e-08,  3.8155e-08,  8.4110e-09,  ...,  8.6101e-07,
+          1.3201e-07,  4.7102e-07],
+        [-4.8093e-06, -1.8068e-06,  3.7835e-09,  ...,  1.2033e-06,
+         -8.4490e-06, -2.7176e-06],
+        [ 2.9523e-07,  1.7474e-07,  1.4261e-09,  ...,  2.7120e-06,
+          5.7183e-07,  1.4016e-06],
+        ...,
+        [ 1.4873e-06,  2.6729e-07,  5.0059e-09,  ...,  1.1595e-06,
+          2.1141e-06,  2.0321e-06],
+        [ 5.8394e-07,  2.9430e-07,  1.0128e-08,  ...,  1.2349e-06,
+          1.0533e-06,  1.2722e-06],
+        [ 1.2135e-06,  1.0226e-06, -1.6799e-07,  ...,  1.2696e-05,
+          2.7660e-06,  7.3537e-06]], device='cuda:0')
+Epoch 204, bias, value: tensor([-0.0361,  0.0135,  0.0122,  0.0269,  0.0308, -0.0190,  0.0308,  0.0311,
+        -0.0123,  0.0021], device='cuda:0'), grad: tensor([ 2.8517e-06, -1.3418e-05,  8.7768e-06,  1.9008e-06, -6.7949e-05,
+         2.9728e-06,  9.8199e-06,  9.2909e-06,  6.1281e-06,  3.9607e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 203, time 248.94, cls_loss 0.0010 cls_loss_mapping 0.0025 cls_loss_causal 0.5059 re_mapping 0.0037 re_causal 0.0119 /// teacc 99.00 lr 0.00010000
+Epoch 205, weight, value: tensor([[ 0.0582, -0.1127, -0.1318,  ..., -0.1095, -0.1258, -0.1076],
+        [ 0.0316,  0.0506, -0.0368,  ..., -0.0442,  0.1459,  0.0186],
+        [-0.0121, -0.1519, -0.0027,  ...,  0.1673, -0.1325,  0.0316],
+        ...,
+        [-0.0865,  0.1179,  0.0148,  ..., -0.1166,  0.0942,  0.0478],
+        [-0.0011, -0.0634,  0.0036,  ..., -0.0638, -0.1579, -0.1259],
+        [ 0.0053, -0.0199, -0.0092,  ..., -0.1670, -0.1312,  0.0294]],
+       device='cuda:0'), grad: tensor([[ 1.2701e-07,  1.0739e-08,  0.0000e+00,  ...,  4.8475e-07,
+          5.7626e-09,  1.9220e-07],
+        [ 6.9267e-09,  3.6904e-08,  0.0000e+00,  ...,  4.7171e-07,
+          1.4610e-08,  4.2468e-07],
+        [ 8.2946e-09,  5.0059e-08,  0.0000e+00,  ...,  9.6625e-08,
+          7.2760e-09,  1.0477e-07],
+        ...,
+        [ 1.2480e-07,  1.0169e-07,  0.0000e+00,  ...,  5.1782e-07,
+          2.3586e-07,  8.3493e-07],
+        [ 1.0506e-07,  1.4639e-08,  0.0000e+00,  ...,  2.1840e-07,
+          1.2282e-08,  2.2585e-07],
+        [-4.1886e-07,  6.9267e-09,  0.0000e+00,  ...,  4.9826e-07,
+         -2.2887e-07, -3.7835e-07]], device='cuda:0')
+Epoch 205, bias, value: tensor([-0.0368,  0.0136,  0.0121,  0.0271,  0.0308, -0.0192,  0.0306,  0.0311,
+        -0.0123,  0.0023], device='cuda:0'), grad: tensor([ 2.1253e-06,  1.5432e-06,  6.1514e-07, -1.8172e-07, -9.3728e-06,
+        -1.9465e-07,  3.1684e-06,  2.8014e-06,  1.0151e-06, -1.5134e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 204, time 249.01, cls_loss 0.0011 cls_loss_mapping 0.0031 cls_loss_causal 0.4782 re_mapping 0.0039 re_causal 0.0120 /// teacc 99.01 lr 0.00010000
+Epoch 206, weight, value: tensor([[ 0.0583, -0.1129, -0.1318,  ..., -0.1096, -0.1265, -0.1080],
+        [ 0.0317,  0.0506, -0.0369,  ..., -0.0445,  0.1461,  0.0185],
+        [-0.0122, -0.1520, -0.0026,  ...,  0.1681, -0.1326,  0.0318],
+        ...,
+        [-0.0874,  0.1181,  0.0148,  ..., -0.1177,  0.0942,  0.0478],
+        [-0.0010, -0.0636,  0.0036,  ..., -0.0638, -0.1583, -0.1266],
+        [ 0.0063, -0.0202, -0.0094,  ..., -0.1673, -0.1317,  0.0296]],
+       device='cuda:0'), grad: tensor([[ 8.3819e-09,  2.5902e-09,  0.0000e+00,  ...,  9.1677e-08,
+          3.9581e-09,  9.5461e-09],
+        [-6.3854e-08, -2.7649e-09,  2.9104e-11,  ...,  7.8988e-08,
+         -1.0541e-07,  5.2387e-10],
+        [ 3.9581e-09,  6.5775e-09,  5.8208e-11,  ...,  6.5251e-08,
+          1.0303e-08, -3.1869e-08],
+        ...,
+        [ 1.4988e-08, -2.3656e-07,  2.9104e-11,  ...,  2.9104e-09,
+         -1.8091e-07, -1.9022e-07],
+        [ 4.0687e-08,  2.3487e-08,  5.8208e-11,  ...,  2.8545e-07,
+          6.6706e-08,  1.9820e-08],
+        [ 9.1386e-09,  1.6019e-07,  2.9104e-11,  ...,  2.1071e-08,
+          1.4214e-07,  1.4668e-07]], device='cuda:0')
+Epoch 206, bias, value: tensor([-0.0368,  0.0136,  0.0122,  0.0268,  0.0309, -0.0190,  0.0302,  0.0309,
+        -0.0121,  0.0025], device='cuda:0'), grad: tensor([ 2.2794e-07,  3.8039e-08,  1.9372e-07,  2.6333e-07,  2.5006e-07,
+        -6.5076e-08, -1.6652e-06, -3.6205e-07,  7.6788e-07,  3.7183e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 205, time 248.86, cls_loss 0.0013 cls_loss_mapping 0.0032 cls_loss_causal 0.4926 re_mapping 0.0038 re_causal 0.0118 /// teacc 99.07 lr 0.00010000
+Epoch 207, weight, value: tensor([[ 0.0587, -0.1119, -0.1319,  ..., -0.1087, -0.1242, -0.1084],
+        [ 0.0316,  0.0506, -0.0372,  ..., -0.0449,  0.1462,  0.0185],
+        [-0.0124, -0.1520, -0.0027,  ...,  0.1681, -0.1327,  0.0318],
+        ...,
+        [-0.0883,  0.1182,  0.0144,  ..., -0.1182,  0.0943,  0.0479],
+        [-0.0008, -0.0636,  0.0024,  ..., -0.0639, -0.1584, -0.1269],
+        [ 0.0076, -0.0206, -0.0087,  ..., -0.1679, -0.1323,  0.0294]],
+       device='cuda:0'), grad: tensor([[ 6.2981e-08,  1.9383e-08,  0.0000e+00,  ...,  1.0547e-07,
+          9.0804e-09,  4.0658e-08],
+        [ 2.2806e-07,  5.0815e-08,  0.0000e+00,  ...,  3.5064e-07,
+         -2.3865e-07,  1.5402e-07],
+        [ 6.1356e-06,  1.3486e-06,  0.0000e+00,  ...,  6.4038e-06,
+          6.0245e-08,  2.7101e-06],
+        ...,
+        [ 1.4517e-07, -8.7079e-08,  0.0000e+00,  ...,  1.1199e-07,
+         -6.8743e-08, -2.2323e-08],
+        [-7.0743e-06, -1.5432e-06,  0.0000e+00,  ..., -7.4059e-06,
+          8.0792e-08, -3.0696e-06],
+        [-1.7965e-06,  6.5891e-08,  0.0000e+00,  ...,  6.2806e-08,
+          4.9273e-08, -1.9744e-06]], device='cuda:0')
+Epoch 207, bias, value: tensor([-0.0368,  0.0135,  0.0121,  0.0271,  0.0309, -0.0190,  0.0303,  0.0307,
+        -0.0119,  0.0028], device='cuda:0'), grad: tensor([ 3.8277e-07,  1.3541e-06,  3.0845e-05,  3.9162e-07,  8.1435e-06,
+         4.9314e-07,  2.4820e-07,  4.7963e-07, -3.5107e-05, -7.2494e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 206, time 249.00, cls_loss 0.0012 cls_loss_mapping 0.0028 cls_loss_causal 0.4882 re_mapping 0.0036 re_causal 0.0114 /// teacc 98.95 lr 0.00010000
+Epoch 208, weight, value: tensor([[ 5.9003e-02, -1.1210e-01, -1.3188e-01,  ..., -1.0887e-01,
+         -1.2448e-01, -1.0856e-01],
+        [ 3.1620e-02,  5.0533e-02, -3.7071e-02,  ..., -4.4759e-02,
+          1.4633e-01,  1.8506e-02],
+        [-1.2100e-02, -1.5210e-01, -2.8116e-03,  ...,  1.6900e-01,
+         -1.3290e-01,  3.1803e-02],
+        ...,
+        [-8.9069e-02,  1.1848e-01,  1.5012e-02,  ..., -1.1863e-01,
+          9.4497e-02,  4.8116e-02],
+        [-5.0419e-06, -6.2768e-02,  2.3477e-03,  ..., -6.4211e-02,
+         -1.5863e-01, -1.2740e-01],
+        [ 7.9636e-03, -2.1183e-02, -9.0684e-03,  ..., -1.6799e-01,
+         -1.3308e-01,  2.9193e-02]], device='cuda:0'), grad: tensor([[ 1.0536e-07,  1.5818e-08,  0.0000e+00,  ...,  1.0812e-08,
+          1.5352e-08,  2.2454e-08],
+        [ 1.4470e-07,  7.5321e-08,  0.0000e+00,  ...,  3.0646e-08,
+          1.2678e-07,  4.8289e-07],
+        [ 1.8184e-07,  9.9477e-08,  0.0000e+00,  ...,  3.7107e-09,
+          8.5565e-08,  4.1560e-08],
+        ...,
+        [ 1.4976e-06,  7.1479e-07,  0.0000e+00,  ...,  1.4115e-09,
+          7.6788e-07,  7.1153e-07],
+        [ 2.9453e-07,  1.8554e-08,  0.0000e+00,  ..., -5.3842e-08,
+          1.0704e-07,  1.0827e-07],
+        [ 1.1380e-07,  1.5844e-07,  0.0000e+00,  ...,  3.3481e-07,
+          2.0992e-06,  8.7321e-06]], device='cuda:0')
+Epoch 208, bias, value: tensor([-0.0367,  0.0135,  0.0122,  0.0267,  0.0309, -0.0200,  0.0305,  0.0309,
+        -0.0113,  0.0028], device='cuda:0'), grad: tensor([ 7.7626e-07,  2.2482e-06,  1.3802e-06, -9.6634e-06, -2.5183e-05,
+        -1.1370e-05,  3.4012e-06,  1.2450e-05,  2.6394e-06,  2.3276e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 207, time 249.38, cls_loss 0.0008 cls_loss_mapping 0.0022 cls_loss_causal 0.4866 re_mapping 0.0037 re_causal 0.0123 /// teacc 99.03 lr 0.00010000
+Epoch 209, weight, value: tensor([[ 5.9846e-02, -1.1298e-01, -1.3191e-01,  ..., -1.0919e-01,
+         -1.2504e-01, -1.0877e-01],
+        [ 3.1558e-02,  5.0302e-02, -3.7320e-02,  ..., -4.4868e-02,
+          1.4621e-01,  1.8317e-02],
+        [-1.2139e-02, -1.5213e-01, -2.6231e-03,  ...,  1.6935e-01,
+         -1.3297e-01,  3.1841e-02],
+        ...,
+        [-8.8844e-02,  1.1892e-01,  1.5363e-02,  ..., -1.1905e-01,
+          9.4782e-02,  4.8461e-02],
+        [ 1.6534e-04, -6.2750e-02,  2.5992e-03,  ..., -6.4606e-02,
+         -1.5874e-01, -1.2759e-01],
+        [ 7.6511e-03, -2.1637e-02, -9.3959e-03,  ..., -1.6858e-01,
+         -1.3372e-01,  2.8332e-02]], device='cuda:0'), grad: tensor([[-1.3190e-07, -1.6531e-08,  0.0000e+00,  ...,  1.8626e-09,
+         -1.1787e-08,  3.2160e-09],
+        [ 2.2163e-08,  5.4453e-08,  0.0000e+00,  ...,  5.7917e-09,
+          5.2270e-08,  5.7014e-08],
+        [ 2.9002e-08,  1.3446e-08,  0.0000e+00,  ..., -6.1118e-09,
+          1.1845e-08, -4.9477e-10],
+        ...,
+        [ 2.6674e-08, -3.0152e-07,  2.9104e-11,  ...,  4.2637e-09,
+         -3.2154e-07, -3.1362e-07],
+        [ 7.9977e-08,  4.8749e-09,  0.0000e+00,  ..., -9.7789e-09,
+          4.6566e-09,  8.6875e-09],
+        [ 7.4855e-08,  1.9488e-07, -1.3097e-10,  ...,  8.2364e-09,
+          2.1979e-07,  1.9290e-07]], device='cuda:0')
+Epoch 209, bias, value: tensor([-0.0363,  0.0134,  0.0123,  0.0262,  0.0317, -0.0199,  0.0305,  0.0312,
+        -0.0112,  0.0021], device='cuda:0'), grad: tensor([-6.1281e-07,  2.4145e-07,  1.5728e-07,  6.8871e-07,  4.7672e-08,
+        -1.4706e-06,  3.8487e-07, -4.6194e-07,  2.8964e-07,  7.5391e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 208, time 248.98, cls_loss 0.0013 cls_loss_mapping 0.0034 cls_loss_causal 0.5296 re_mapping 0.0036 re_causal 0.0123 /// teacc 99.12 lr 0.00010000
+Epoch 210, weight, value: tensor([[ 0.0596, -0.1142, -0.1319,  ..., -0.1106, -0.1262, -0.1095],
+        [ 0.0319,  0.0502, -0.0375,  ..., -0.0450,  0.1463,  0.0182],
+        [-0.0122, -0.1520, -0.0021,  ...,  0.1711, -0.1329,  0.0324],
+        ...,
+        [-0.0897,  0.1185,  0.0154,  ..., -0.1227,  0.0947,  0.0477],
+        [-0.0010, -0.0615,  0.0028,  ..., -0.0659, -0.1588, -0.1270],
+        [ 0.0080, -0.0220, -0.0095,  ..., -0.1694, -0.1341,  0.0282]],
+       device='cuda:0'), grad: tensor([[ 1.0384e-07,  2.6281e-08,  2.9104e-11,  ...,  1.6275e-07,
+          2.0358e-08,  5.5414e-08],
+        [ 1.1390e-04,  8.4519e-05,  1.3097e-10,  ...,  5.0664e-07,
+          6.5327e-05,  1.2934e-04],
+        [ 3.5875e-06,  3.8696e-07,  4.3656e-11,  ...,  3.6694e-06,
+          2.6287e-07,  1.0524e-07],
+        ...,
+        [ 1.8524e-06,  9.0990e-07,  2.6193e-10,  ...,  8.9931e-08,
+          7.5437e-07,  1.6382e-06],
+        [-8.7172e-06,  4.9872e-07,  1.6007e-10,  ..., -9.7379e-06,
+          3.8627e-07,  8.3819e-07],
+        [-1.2422e-04, -9.3400e-05, -7.7125e-10,  ...,  1.0999e-06,
+         -7.2181e-05, -1.4281e-04]], device='cuda:0')
+Epoch 210, bias, value: tensor([-0.0369,  0.0133,  0.0125,  0.0277,  0.0315, -0.0180,  0.0302,  0.0292,
+        -0.0125,  0.0020], device='cuda:0'), grad: tensor([ 8.5216e-07,  4.9353e-04,  3.0145e-05,  2.9892e-05,  4.1574e-05,
+         1.9968e-06,  2.3730e-06,  8.0317e-06, -7.5459e-05, -5.3215e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 209, time 248.89, cls_loss 0.0015 cls_loss_mapping 0.0042 cls_loss_causal 0.5197 re_mapping 0.0036 re_causal 0.0120 /// teacc 99.14 lr 0.00010000
+Epoch 211, weight, value: tensor([[ 0.0605, -0.1169, -0.1319,  ..., -0.1105, -0.1291, -0.1105],
+        [ 0.0321,  0.0501, -0.0375,  ..., -0.0451,  0.1465,  0.0179],
+        [-0.0124, -0.1521, -0.0020,  ...,  0.1735, -0.1323,  0.0332],
+        ...,
+        [-0.0902,  0.1184,  0.0158,  ..., -0.1276,  0.0945,  0.0474],
+        [-0.0011, -0.0622,  0.0028,  ..., -0.0661, -0.1599, -0.1278],
+        [ 0.0087, -0.0219, -0.0101,  ..., -0.1700, -0.1342,  0.0267]],
+       device='cuda:0'), grad: tensor([[-6.8161e-08,  9.5315e-09,  0.0000e+00,  ...,  1.0754e-08,
+          3.9727e-09,  2.1522e-08],
+        [-5.8149e-08, -9.2550e-08,  0.0000e+00,  ...,  6.5716e-08,
+         -4.0117e-07,  4.7497e-08],
+        [ 3.7689e-08,  2.1071e-08,  0.0000e+00,  ..., -5.0850e-07,
+         -1.3242e-09, -3.4692e-07],
+        ...,
+        [ 7.6951e-08,  5.8120e-08,  0.0000e+00,  ...,  1.4273e-07,
+          1.1100e-07,  2.0675e-07],
+        [ 2.2422e-07,  4.1444e-08,  0.0000e+00,  ...,  1.2806e-07,
+          9.9884e-08,  3.0058e-07],
+        [-7.7346e-07, -1.5611e-07,  0.0000e+00,  ..., -3.1112e-08,
+          8.8476e-09, -1.0403e-06]], device='cuda:0')
+Epoch 211, bias, value: tensor([-0.0368,  0.0132,  0.0133,  0.0294,  0.0344, -0.0181,  0.0299,  0.0268,
+        -0.0127, -0.0004], device='cuda:0'), grad: tensor([-2.7521e-07, -1.8324e-07, -8.5356e-07,  4.4866e-07,  2.9132e-06,
+        -6.0827e-08,  1.9756e-07,  6.8452e-07,  1.5143e-06, -4.3735e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 210, time 248.93, cls_loss 0.0011 cls_loss_mapping 0.0032 cls_loss_causal 0.5029 re_mapping 0.0040 re_causal 0.0120 /// teacc 98.94 lr 0.00010000
+Epoch 212, weight, value: tensor([[ 0.0602, -0.1171, -0.1319,  ..., -0.1107, -0.1292, -0.1120],
+        [ 0.0322,  0.0500, -0.0377,  ..., -0.0452,  0.1466,  0.0178],
+        [-0.0125, -0.1524, -0.0019,  ...,  0.1737, -0.1325,  0.0331],
+        ...,
+        [-0.0907,  0.1190,  0.0164,  ..., -0.1278,  0.0949,  0.0480],
+        [-0.0011, -0.0625,  0.0028,  ..., -0.0668, -0.1603, -0.1292],
+        [ 0.0101, -0.0229, -0.0110,  ..., -0.1707, -0.1349,  0.0264]],
+       device='cuda:0'), grad: tensor([[ 4.3027e-07,  1.4261e-08,  0.0000e+00,  ...,  6.1846e-09,
+          3.3557e-08,  1.5832e-08],
+        [-5.7556e-07, -6.4075e-07,  0.0000e+00,  ..., -1.0151e-07,
+         -2.2613e-06, -6.7754e-07],
+        [ 1.3912e-07,  1.2340e-07,  0.0000e+00,  ..., -2.5914e-07,
+          3.3434e-07, -8.4168e-08],
+        ...,
+        [ 2.0047e-07, -7.3574e-08,  0.0000e+00,  ...,  1.8929e-07,
+          1.7427e-07,  7.9628e-08],
+        [ 1.1520e-06,  6.4448e-07,  0.0000e+00,  ...,  3.1752e-08,
+          4.9686e-07,  2.9150e-07],
+        [ 1.7928e-07,  5.8644e-08,  0.0000e+00,  ...,  6.1846e-09,
+          6.3039e-08,  2.7663e-08]], device='cuda:0')
+Epoch 212, bias, value: tensor([-0.0370,  0.0131,  0.0132,  0.0297,  0.0349, -0.0181,  0.0297,  0.0272,
+        -0.0131, -0.0004], device='cuda:0'), grad: tensor([ 1.7118e-06, -3.0790e-06,  1.8661e-07,  4.6305e-06,  1.0952e-06,
+        -1.3202e-05,  2.5779e-06,  8.2329e-07,  4.4964e-06,  7.4226e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 211, time 248.62, cls_loss 0.0012 cls_loss_mapping 0.0032 cls_loss_causal 0.5164 re_mapping 0.0036 re_causal 0.0116 /// teacc 99.13 lr 0.00010000
+Epoch 213, weight, value: tensor([[ 0.0604, -0.1175, -0.1320,  ..., -0.1111, -0.1295, -0.1122],
+        [ 0.0326,  0.0501, -0.0377,  ..., -0.0451,  0.1470,  0.0179],
+        [-0.0126, -0.1526, -0.0018,  ...,  0.1738, -0.1331,  0.0330],
+        ...,
+        [-0.0921,  0.1191,  0.0164,  ..., -0.1279,  0.0949,  0.0481],
+        [-0.0008, -0.0612,  0.0028,  ..., -0.0668, -0.1594, -0.1290],
+        [ 0.0106, -0.0236, -0.0110,  ..., -0.1710, -0.1362,  0.0284]],
+       device='cuda:0'), grad: tensor([[-2.1094e-07,  1.7681e-08,  0.0000e+00,  ...,  4.3074e-09,
+          1.5090e-08,  2.3225e-08],
+        [-4.9738e-08,  7.0548e-07,  0.0000e+00,  ...,  4.9185e-09,
+          6.8394e-08,  6.2864e-07],
+        [ 9.7934e-09,  4.4378e-07,  0.0000e+00,  ..., -7.9570e-08,
+          3.2037e-07,  3.8953e-07],
+        ...,
+        [ 3.0646e-08, -3.2168e-06,  0.0000e+00,  ...,  2.4738e-09,
+         -2.0936e-06, -3.3919e-06],
+        [ 6.3214e-08,  1.1502e-07,  0.0000e+00,  ...,  5.3609e-08,
+          1.0838e-07,  1.9849e-07],
+        [ 2.2395e-08,  1.4082e-06,  0.0000e+00,  ...,  1.4406e-09,
+          1.0347e-06,  1.5413e-06]], device='cuda:0')
+Epoch 213, bias, value: tensor([-0.0370,  0.0133,  0.0131,  0.0294,  0.0332, -0.0183,  0.0297,  0.0269,
+        -0.0121,  0.0009], device='cuda:0'), grad: tensor([-7.6368e-07,  9.6299e-07,  1.1651e-06, -4.6985e-07,  4.1653e-07,
+         8.5495e-07,  1.7288e-07, -6.6385e-06,  1.0245e-06,  3.2783e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 212, time 249.07, cls_loss 0.0010 cls_loss_mapping 0.0031 cls_loss_causal 0.5040 re_mapping 0.0039 re_causal 0.0121 /// teacc 99.08 lr 0.00010000
+Epoch 214, weight, value: tensor([[ 0.0607, -0.1177, -0.1320,  ..., -0.1114, -0.1297, -0.1124],
+        [ 0.0326,  0.0499, -0.0380,  ..., -0.0454,  0.1470,  0.0178],
+        [-0.0125, -0.1530, -0.0015,  ...,  0.1729, -0.1338,  0.0322],
+        ...,
+        [-0.0926,  0.1199,  0.0166,  ..., -0.1260,  0.0956,  0.0495],
+        [-0.0006, -0.0612,  0.0028,  ..., -0.0672, -0.1597, -0.1300],
+        [ 0.0105, -0.0243, -0.0111,  ..., -0.1714, -0.1371,  0.0286]],
+       device='cuda:0'), grad: tensor([[ 6.4174e-09,  4.0745e-10,  0.0000e+00,  ...,  4.2957e-08,
+         -5.1368e-09,  7.9453e-09],
+        [ 3.1723e-09, -4.8312e-09,  1.4552e-11,  ...,  2.4098e-08,
+         -1.7011e-08,  8.4110e-09],
+        [ 2.4040e-08,  3.1578e-09,  0.0000e+00,  ..., -5.9954e-08,
+         -3.4110e-08, -5.5705e-08],
+        ...,
+        [ 2.3108e-08,  8.7311e-10,  1.4552e-11,  ...,  5.2503e-08,
+          2.1755e-08,  6.4319e-08],
+        [ 4.1066e-08,  4.7003e-09,  2.9104e-11,  ...,  2.0349e-07,
+          1.3722e-08,  7.5321e-08],
+        [-2.9337e-07, -1.2093e-08,  0.0000e+00,  ...,  5.0495e-09,
+          7.2760e-09, -1.4773e-07]], device='cuda:0')
+Epoch 214, bias, value: tensor([-0.0370,  0.0132,  0.0126,  0.0291,  0.0329, -0.0178,  0.0297,  0.0285,
+        -0.0123,  0.0008], device='cuda:0'), grad: tensor([ 8.8185e-08,  9.7440e-08, -3.0821e-08,  7.1479e-07,  3.8464e-07,
+         1.1956e-07, -7.0781e-07,  2.2852e-07,  8.9128e-07, -1.7779e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 213, time 249.05, cls_loss 0.0008 cls_loss_mapping 0.0028 cls_loss_causal 0.4780 re_mapping 0.0039 re_causal 0.0121 /// teacc 99.12 lr 0.00010000
+Epoch 215, weight, value: tensor([[ 0.0610, -0.1177, -0.1320,  ..., -0.1114, -0.1297, -0.1125],
+        [ 0.0325,  0.0498, -0.0363,  ..., -0.0456,  0.1470,  0.0175],
+        [-0.0127, -0.1532, -0.0016,  ...,  0.1728, -0.1340,  0.0321],
+        ...,
+        [-0.0931,  0.1208,  0.0149,  ..., -0.1258,  0.0963,  0.0510],
+        [-0.0006, -0.0613,  0.0030,  ..., -0.0674, -0.1601, -0.1306],
+        [ 0.0110, -0.0247, -0.0112,  ..., -0.1719, -0.1374,  0.0285]],
+       device='cuda:0'), grad: tensor([[ 1.0396e-07,  7.1945e-08,  2.9104e-11,  ...,  6.3388e-08,
+          1.4435e-07,  2.9337e-08],
+        [-3.4533e-06, -2.3153e-06,  7.2760e-11,  ...,  2.1304e-08,
+         -4.7758e-06, -9.0012e-07],
+        [ 6.6496e-07,  4.8103e-07,  4.3656e-11,  ...,  1.3446e-08,
+          9.3738e-07,  1.8207e-07],
+        ...,
+        [ 1.3621e-07, -4.9919e-07,  1.7753e-09,  ...,  1.5425e-09,
+         -2.9616e-07, -2.9453e-07],
+        [ 1.4994e-06,  1.0012e-06,  1.1642e-10,  ...,  1.1775e-07,
+          2.0824e-06,  4.3144e-07],
+        [ 8.6322e-08,  5.5786e-07, -3.5652e-09,  ...,  6.1118e-09,
+          5.5833e-07,  1.3621e-07]], device='cuda:0')
+Epoch 215, bias, value: tensor([-0.0368,  0.0130,  0.0124,  0.0290,  0.0324, -0.0178,  0.0299,  0.0296,
+        -0.0123,  0.0007], device='cuda:0'), grad: tensor([ 5.2992e-07, -1.1131e-05,  2.2668e-06,  6.3377e-07,  7.5391e-07,
+         8.1444e-07,  5.5926e-07, -3.4762e-07,  5.1633e-06,  7.4040e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 214, time 248.82, cls_loss 0.0008 cls_loss_mapping 0.0017 cls_loss_causal 0.5011 re_mapping 0.0036 re_causal 0.0119 /// teacc 99.05 lr 0.00010000
+Epoch 216, weight, value: tensor([[ 0.0615, -0.1178, -0.1320,  ..., -0.1112, -0.1298, -0.1127],
+        [ 0.0326,  0.0493, -0.0362,  ..., -0.0456,  0.1469,  0.0173],
+        [-0.0127, -0.1533, -0.0016,  ...,  0.1730, -0.1344,  0.0321],
+        ...,
+        [-0.0930,  0.1216,  0.0151,  ..., -0.1260,  0.0969,  0.0517],
+        [-0.0006, -0.0614,  0.0031,  ..., -0.0676, -0.1604, -0.1310],
+        [ 0.0111, -0.0254, -0.0113,  ..., -0.1729, -0.1382,  0.0282]],
+       device='cuda:0'), grad: tensor([[ 1.4655e-05,  1.2413e-08,  2.9104e-11,  ...,  7.4651e-09,
+          4.2171e-08,  2.8908e-05],
+        [-4.8801e-07, -5.4104e-08,  9.7498e-10,  ...,  1.4756e-08,
+         -8.4424e-07,  6.1409e-08],
+        [ 1.2117e-06,  1.8219e-07,  1.1350e-09,  ...,  4.6892e-07,
+          2.8918e-07,  7.2597e-07],
+        ...,
+        [ 2.5262e-07, -6.0210e-07, -4.6130e-09,  ...,  1.3591e-08,
+         -4.3563e-07, -3.0501e-07],
+        [-3.8301e-07,  7.3691e-08,  1.0186e-10,  ..., -4.1979e-07,
+          3.3248e-07,  1.8708e-07],
+        [-1.7509e-05,  4.4267e-08,  1.8917e-10,  ...,  2.9337e-08,
+          9.9593e-08, -3.1769e-05]], device='cuda:0')
+Epoch 216, bias, value: tensor([-0.0366,  0.0130,  0.0123,  0.0288,  0.0324, -0.0178,  0.0299,  0.0302,
+        -0.0124,  0.0005], device='cuda:0'), grad: tensor([ 1.2028e-04, -9.5740e-07,  1.2651e-05, -1.1298e-07,  6.6087e-06,
+         4.0382e-06,  1.1185e-06, -3.1607e-08, -7.8604e-06, -1.3554e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 215----------------------------------------------------
+epoch 215, time 249.49, cls_loss 0.0009 cls_loss_mapping 0.0022 cls_loss_causal 0.5144 re_mapping 0.0035 re_causal 0.0120 /// teacc 99.18 lr 0.00010000
+Epoch 217, weight, value: tensor([[ 0.0614, -0.1191, -0.1320,  ..., -0.1114, -0.1300, -0.1144],
+        [ 0.0330,  0.0492, -0.0377,  ..., -0.0458,  0.1470,  0.0173],
+        [-0.0128, -0.1534, -0.0016,  ...,  0.1736, -0.1344,  0.0323],
+        ...,
+        [-0.0933,  0.1219,  0.0171,  ..., -0.1263,  0.0971,  0.0517],
+        [-0.0008, -0.0617,  0.0033,  ..., -0.0678, -0.1609, -0.1319],
+        [ 0.0116, -0.0252, -0.0115,  ..., -0.1736, -0.1387,  0.0285]],
+       device='cuda:0'), grad: tensor([[-4.8312e-09,  4.3656e-10,  0.0000e+00,  ...,  3.3615e-08,
+          6.6939e-10,  3.5419e-08],
+        [ 2.9278e-08,  1.0477e-08,  0.0000e+00,  ...,  5.0204e-08,
+          6.8976e-09,  7.4448e-08],
+        [-2.5658e-07,  5.8790e-09,  0.0000e+00,  ..., -6.3609e-07,
+          6.4611e-09, -6.6264e-07],
+        ...,
+        [ 1.4581e-08, -3.8097e-08,  0.0000e+00,  ...,  2.6659e-08,
+         -3.9494e-08,  1.1933e-09],
+        [ 3.8475e-08,  2.5320e-09,  0.0000e+00,  ...,  1.0332e-07,
+          3.7544e-09,  1.1618e-07],
+        [ 1.4249e-07,  9.2259e-09,  0.0000e+00,  ...,  2.7847e-07,
+          9.6334e-09,  3.3388e-07]], device='cuda:0')
+Epoch 217, bias, value: tensor([-0.0370,  0.0130,  0.0124,  0.0282,  0.0323, -0.0176,  0.0298,  0.0303,
+        -0.0126,  0.0008], device='cuda:0'), grad: tensor([ 1.2078e-08,  3.1013e-07, -2.2464e-06,  1.5821e-07, -2.8359e-07,
+         8.0559e-08,  1.5483e-07,  5.0437e-08,  3.9721e-07,  1.3821e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 216, time 248.70, cls_loss 0.0010 cls_loss_mapping 0.0023 cls_loss_causal 0.4533 re_mapping 0.0037 re_causal 0.0116 /// teacc 98.90 lr 0.00010000
+Epoch 218, weight, value: tensor([[ 0.0620, -0.1193, -0.1320,  ..., -0.1114, -0.1302, -0.1147],
+        [ 0.0332,  0.0493, -0.0377,  ..., -0.0460,  0.1472,  0.0172],
+        [-0.0129, -0.1537, -0.0011,  ...,  0.1734, -0.1348,  0.0320],
+        ...,
+        [-0.0939,  0.1227,  0.0170,  ..., -0.1256,  0.0975,  0.0535],
+        [-0.0006, -0.0617,  0.0034,  ..., -0.0680, -0.1610, -0.1323],
+        [ 0.0110, -0.0253, -0.0115,  ..., -0.1762, -0.1390,  0.0278]],
+       device='cuda:0'), grad: tensor([[-7.9744e-08,  3.6438e-08,  2.9104e-11,  ...,  1.4133e-07,
+          1.4156e-07,  8.0618e-08],
+        [-1.5236e-06, -3.8068e-07, -6.4028e-10,  ...,  6.6881e-08,
+         -2.3283e-06, -1.3718e-06],
+        [ 6.8732e-07,  1.1706e-07,  8.7311e-11,  ...,  6.4122e-07,
+          1.0226e-06,  6.4354e-07],
+        ...,
+        [ 1.3539e-07,  7.2818e-08,  8.7311e-11,  ...,  1.4203e-08,
+          1.7893e-07,  1.1601e-07],
+        [ 2.1514e-07,  8.3819e-08,  2.9104e-10,  ...,  1.2177e-07,
+          2.0734e-07,  1.0518e-07],
+        [ 2.7183e-08, -2.5320e-09,  2.9104e-11,  ...,  1.0361e-08,
+          4.7876e-08, -1.9092e-08]], device='cuda:0')
+Epoch 218, bias, value: tensor([-0.0367,  0.0130,  0.0123,  0.0286,  0.0326, -0.0181,  0.0297,  0.0315,
+        -0.0125, -0.0002], device='cuda:0'), grad: tensor([-2.1420e-08, -5.1931e-06,  4.2059e-06,  1.5914e-07,  2.7823e-07,
+         2.9057e-07, -1.4231e-06,  5.5181e-07,  1.1241e-06,  4.5868e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 217, time 248.85, cls_loss 0.0010 cls_loss_mapping 0.0021 cls_loss_causal 0.4952 re_mapping 0.0035 re_causal 0.0114 /// teacc 99.13 lr 0.00010000
+Epoch 219, weight, value: tensor([[ 0.0626, -0.1193, -0.1320,  ..., -0.1132, -0.1302, -0.1148],
+        [ 0.0334,  0.0493, -0.0377,  ..., -0.0460,  0.1474,  0.0173],
+        [-0.0133, -0.1540, -0.0013,  ...,  0.1723, -0.1355,  0.0316],
+        ...,
+        [-0.0943,  0.1231,  0.0170,  ..., -0.1253,  0.0978,  0.0540],
+        [-0.0006, -0.0619,  0.0040,  ..., -0.0683, -0.1612, -0.1328],
+        [ 0.0109, -0.0256, -0.0115,  ..., -0.1768, -0.1393,  0.0275]],
+       device='cuda:0'), grad: tensor([[ 6.7055e-08,  1.1933e-09,  5.1630e-08,  ...,  1.8190e-08,
+          4.2230e-08,  2.5466e-08],
+        [-3.1927e-08, -7.2992e-08,  1.8132e-08,  ...,  2.0576e-08,
+         -4.8161e-05, -2.5928e-05],
+        [ 7.9453e-08,  1.0565e-08,  3.8388e-08,  ..., -4.8982e-08,
+          1.6451e-05,  8.8215e-06],
+        ...,
+        [ 5.7073e-08,  4.2986e-08,  9.2550e-09,  ...,  5.5006e-09,
+          2.8819e-05,  1.5527e-05],
+        [-7.9023e-07,  7.8289e-09, -4.4703e-07,  ...,  6.8627e-08,
+          2.0745e-07,  1.1810e-07],
+        [ 1.1624e-07,  2.2992e-09,  6.3737e-08,  ...,  8.5565e-09,
+          1.2689e-07,  5.6491e-08]], device='cuda:0')
+Epoch 219, bias, value: tensor([-0.0368,  0.0131,  0.0117,  0.0290,  0.0327, -0.0176,  0.0298,  0.0320,
+        -0.0127, -0.0004], device='cuda:0'), grad: tensor([ 4.7009e-07, -7.0691e-05,  2.4468e-05,  1.2796e-06,  2.4606e-06,
+         2.4028e-06, -1.1869e-07,  4.2528e-05, -3.5297e-06,  7.6508e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 218, time 248.83, cls_loss 0.0010 cls_loss_mapping 0.0020 cls_loss_causal 0.5029 re_mapping 0.0036 re_causal 0.0118 /// teacc 99.01 lr 0.00010000
+Epoch 220, weight, value: tensor([[ 0.0630, -0.1191, -0.1320,  ..., -0.1134, -0.1301, -0.1149],
+        [ 0.0352,  0.0493, -0.0384,  ..., -0.0444,  0.1486,  0.0183],
+        [-0.0157, -0.1540, -0.0021,  ...,  0.1708, -0.1373,  0.0306],
+        ...,
+        [-0.0951,  0.1238,  0.0184,  ..., -0.1254,  0.0981,  0.0545],
+        [-0.0004, -0.0620,  0.0047,  ..., -0.0675, -0.1613, -0.1333],
+        [ 0.0110, -0.0274, -0.0118,  ..., -0.1771, -0.1415,  0.0270]],
+       device='cuda:0'), grad: tensor([[-5.0990e-08,  7.2177e-09,  1.7462e-10,  ...,  3.6758e-08,
+          9.0513e-09,  9.6741e-08],
+        [-4.7963e-08,  6.0129e-08,  1.1642e-10,  ...,  1.2841e-07,
+         -9.2201e-08,  2.5332e-07],
+        [ 1.5803e-08,  6.3982e-07,  2.9104e-11,  ..., -1.9802e-07,
+          4.9639e-07,  4.6496e-07],
+        ...,
+        [ 8.4168e-08, -1.2843e-06,  3.4925e-10,  ...,  2.8661e-07,
+         -9.2853e-07, -1.0021e-06],
+        [ 7.4622e-08,  1.4273e-07,  2.3283e-10,  ...,  3.8446e-08,
+          1.2899e-07,  3.8277e-07],
+        [-1.8964e-07,  1.2573e-07, -2.6484e-09,  ...,  4.5460e-08,
+          1.1490e-07, -4.2934e-07]], device='cuda:0')
+Epoch 220, bias, value: tensor([-0.0367,  0.0139,  0.0107,  0.0287,  0.0327, -0.0175,  0.0297,  0.0324,
+        -0.0120, -0.0009], device='cuda:0'), grad: tensor([ 8.1549e-08,  6.3004e-07,  1.5423e-06,  1.1092e-06, -9.3412e-07,
+         2.4517e-07,  2.4028e-07, -2.1104e-06,  1.3905e-06, -2.1942e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 219, time 249.27, cls_loss 0.0010 cls_loss_mapping 0.0031 cls_loss_causal 0.4997 re_mapping 0.0037 re_causal 0.0119 /// teacc 99.14 lr 0.00010000
+Epoch 221, weight, value: tensor([[ 6.2953e-02, -1.1918e-01, -1.3206e-01,  ..., -1.1359e-01,
+         -1.3028e-01, -1.1525e-01],
+        [ 3.5340e-02,  4.9309e-02, -3.8609e-02,  ..., -4.4497e-02,
+          1.4881e-01,  1.8249e-02],
+        [-1.6201e-02, -1.5408e-01, -4.4585e-03,  ...,  1.7100e-01,
+         -1.3736e-01,  3.0833e-02],
+        ...,
+        [-9.6122e-02,  1.2366e-01,  1.7994e-02,  ..., -1.2621e-01,
+          9.8080e-02,  5.3989e-02],
+        [-9.9592e-05, -6.1682e-02,  3.4173e-03,  ..., -6.8996e-02,
+         -1.6144e-01, -1.3383e-01],
+        [ 1.1115e-02, -2.7578e-02, -8.9636e-03,  ..., -1.7728e-01,
+         -1.4202e-01,  2.6975e-02]], device='cuda:0'), grad: tensor([[ 4.6566e-08,  1.5541e-08,  2.7067e-09,  ...,  4.5286e-07,
+          1.7695e-08,  4.3749e-07],
+        [ 2.7474e-08,  1.3690e-07,  3.8417e-09,  ...,  7.9535e-07,
+         -8.7195e-08,  8.7405e-07],
+        [-7.6881e-07,  4.8633e-08, -8.7311e-08,  ..., -6.3740e-06,
+          5.8237e-08, -5.0329e-06],
+        ...,
+        [ 2.0163e-07, -4.6045e-06,  8.4401e-10,  ...,  8.7870e-07,
+         -3.8631e-06, -2.6077e-06],
+        [ 4.9127e-07,  3.7253e-07,  9.2841e-09,  ...,  1.4752e-06,
+          3.6042e-07,  1.8990e-06],
+        [ 6.0769e-08,  3.6992e-06,  5.8208e-11,  ...,  1.7800e-07,
+          3.1777e-06,  2.9467e-06]], device='cuda:0')
+Epoch 221, bias, value: tensor([-0.0368,  0.0139,  0.0106,  0.0284,  0.0332, -0.0171,  0.0297,  0.0318,
+        -0.0116, -0.0010], device='cuda:0'), grad: tensor([ 1.5814e-06,  3.5930e-06, -2.2829e-05,  4.2282e-06,  3.9451e-06,
+        -2.6710e-06,  2.9672e-06, -8.6278e-06,  6.9328e-06,  1.0811e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 220, time 249.04, cls_loss 0.0008 cls_loss_mapping 0.0018 cls_loss_causal 0.4918 re_mapping 0.0035 re_causal 0.0119 /// teacc 99.14 lr 0.00010000
+Epoch 222, weight, value: tensor([[ 6.3227e-02, -1.1923e-01, -1.3210e-01,  ..., -1.1330e-01,
+         -1.3037e-01, -1.1545e-01],
+        [ 3.5389e-02,  4.9147e-02, -3.7580e-02,  ..., -4.4735e-02,
+          1.4866e-01,  1.7873e-02],
+        [-1.6009e-02, -1.5407e-01, -4.6168e-03,  ...,  1.7177e-01,
+         -1.3741e-01,  3.1302e-02],
+        ...,
+        [-9.6933e-02,  1.2398e-01,  1.7107e-02,  ..., -1.2677e-01,
+          9.8433e-02,  5.4197e-02],
+        [ 1.9101e-05, -6.1851e-02,  3.6579e-03,  ..., -6.9823e-02,
+         -1.6167e-01, -1.3496e-01],
+        [ 9.8616e-03, -2.7742e-02, -8.8402e-03,  ..., -1.7955e-01,
+         -1.4226e-01,  2.5853e-02]], device='cuda:0'), grad: tensor([[ 7.4878e-07,  5.4133e-09,  3.9814e-08,  ...,  3.8912e-08,
+          1.6065e-08,  1.8219e-07],
+        [-7.2352e-08, -1.0291e-07,  5.6170e-09,  ...,  1.9632e-06,
+         -6.1095e-07,  2.4550e-06],
+        [ 4.3563e-07,  4.5198e-08,  1.9529e-08,  ..., -2.4140e-06,
+          1.2852e-07, -3.0138e-06],
+        ...,
+        [ 1.2561e-07, -1.1892e-07,  1.1933e-09,  ...,  2.2736e-07,
+         -1.3330e-08,  2.0897e-07],
+        [-2.8163e-06,  5.5967e-08, -1.3481e-07,  ...,  4.7468e-08,
+          1.8114e-07,  2.2922e-07],
+        [ 8.3167e-07,  1.6851e-08,  5.2940e-08,  ...,  5.1135e-08,
+          3.0297e-08, -6.3889e-07]], device='cuda:0')
+Epoch 222, bias, value: tensor([-0.0366,  0.0137,  0.0109,  0.0286,  0.0342, -0.0173,  0.0296,  0.0319,
+        -0.0117, -0.0022], device='cuda:0'), grad: tensor([ 3.1013e-06,  6.0610e-06, -5.5879e-06,  7.5810e-07,  1.2070e-06,
+         1.6587e-06,  6.5984e-07,  1.0086e-06, -9.4175e-06,  5.2387e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 221, time 249.22, cls_loss 0.0008 cls_loss_mapping 0.0025 cls_loss_causal 0.4769 re_mapping 0.0036 re_causal 0.0117 /// teacc 99.08 lr 0.00010000
+Epoch 223, weight, value: tensor([[ 6.3371e-02, -1.1949e-01, -1.3214e-01,  ..., -1.1336e-01,
+         -1.3062e-01, -1.1577e-01],
+        [ 3.5468e-02,  4.9103e-02, -3.7611e-02,  ..., -4.5032e-02,
+          1.4874e-01,  1.7622e-02],
+        [-1.5983e-02, -1.5420e-01, -4.7820e-03,  ...,  1.7232e-01,
+         -1.3739e-01,  3.1829e-02],
+        ...,
+        [-9.7409e-02,  1.2427e-01,  1.7148e-02,  ..., -1.2714e-01,
+          9.8534e-02,  5.4147e-02],
+        [ 2.0850e-05, -6.1987e-02,  4.2047e-03,  ..., -7.0147e-02,
+         -1.6188e-01, -1.3568e-01],
+        [ 9.9044e-03, -2.7946e-02, -9.0789e-03,  ..., -1.8146e-01,
+         -1.4254e-01,  2.4613e-02]], device='cuda:0'), grad: tensor([[-1.1903e-07,  5.7335e-09,  0.0000e+00,  ...,  3.3760e-09,
+          1.2078e-08,  1.4988e-08],
+        [-9.8313e-08, -7.5786e-08,  0.0000e+00,  ...,  6.5775e-09,
+         -3.2829e-07, -4.2113e-08],
+        [ 3.4139e-08,  5.7771e-08,  0.0000e+00,  ..., -4.3632e-07,
+          8.5856e-08, -3.0966e-07],
+        ...,
+        [ 4.8283e-08, -7.3854e-07,  0.0000e+00,  ...,  3.5320e-07,
+         -4.4890e-07, -2.3702e-07],
+        [-6.8394e-09,  3.6875e-08,  0.0000e+00,  ...,  8.9349e-09,
+          8.4809e-08,  5.5879e-08],
+        [ 1.6094e-08,  6.0862e-07,  0.0000e+00,  ...,  1.8044e-09,
+          4.6589e-07,  1.6170e-07]], device='cuda:0')
+Epoch 223, bias, value: tensor([-0.0366,  0.0136,  0.0111,  0.0289,  0.0351, -0.0174,  0.0295,  0.0319,
+        -0.0119, -0.0031], device='cuda:0'), grad: tensor([-5.6485e-07, -3.4925e-07, -5.7137e-07,  3.5064e-07,  5.1782e-07,
+         3.7998e-07,  1.0995e-07, -1.0070e-07,  7.6252e-09,  2.4028e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 222, time 248.96, cls_loss 0.0010 cls_loss_mapping 0.0027 cls_loss_causal 0.4934 re_mapping 0.0035 re_causal 0.0111 /// teacc 99.10 lr 0.00010000
+Epoch 224, weight, value: tensor([[ 6.4454e-02, -1.1956e-01, -1.3215e-01,  ..., -1.1289e-01,
+         -1.3077e-01, -1.1607e-01],
+        [ 3.5487e-02,  4.8988e-02, -3.7637e-02,  ..., -4.5178e-02,
+          1.4875e-01,  1.7444e-02],
+        [-1.6110e-02, -1.5433e-01, -4.8074e-03,  ...,  1.7270e-01,
+         -1.3749e-01,  3.1925e-02],
+        ...,
+        [-9.7917e-02,  1.2466e-01,  1.7186e-02,  ..., -1.2732e-01,
+          9.8771e-02,  5.4432e-02],
+        [-1.1290e-05, -6.2154e-02,  4.3296e-03,  ..., -7.0806e-02,
+         -1.6211e-01, -1.3667e-01],
+        [ 1.0062e-02, -2.8252e-02, -9.0739e-03,  ..., -1.8192e-01,
+         -1.4285e-01,  2.4295e-02]], device='cuda:0'), grad: tensor([[ 3.6962e-08,  9.4878e-09,  0.0000e+00,  ...,  1.3446e-08,
+          3.8766e-08,  3.9581e-08],
+        [-1.1493e-06, -6.8313e-07,  0.0000e+00,  ...,  6.8219e-08,
+         -3.8594e-06, -1.3588e-06],
+        [ 1.7893e-07,  5.1834e-08,  0.0000e+00,  ..., -1.7358e-07,
+          2.2107e-07, -2.8685e-07],
+        ...,
+        [ 4.1164e-07,  1.1077e-07,  0.0000e+00,  ...,  2.6368e-08,
+          1.0468e-06,  4.2398e-07],
+        [-8.5402e-07,  8.4925e-08,  0.0000e+00,  ...,  1.6589e-09,
+          3.8557e-07,  2.3574e-07],
+        [ 1.2026e-07,  3.0093e-08,  0.0000e+00,  ...,  1.9412e-08,
+          2.0652e-07,  6.4902e-09]], device='cuda:0')
+Epoch 224, bias, value: tensor([-0.0361,  0.0135,  0.0111,  0.0288,  0.0356, -0.0174,  0.0294,  0.0321,
+        -0.0122, -0.0033], device='cuda:0'), grad: tensor([ 2.1618e-07, -6.8210e-06,  2.1874e-07,  2.0880e-06,  2.3600e-06,
+         2.3134e-06,  1.0198e-06,  2.5705e-06, -4.4890e-06,  5.0478e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 223, time 248.84, cls_loss 0.0009 cls_loss_mapping 0.0022 cls_loss_causal 0.4970 re_mapping 0.0034 re_causal 0.0115 /// teacc 99.11 lr 0.00010000
+Epoch 225, weight, value: tensor([[ 6.4823e-02, -1.1968e-01, -1.3215e-01,  ..., -1.1303e-01,
+         -1.3080e-01, -1.1654e-01],
+        [ 3.5599e-02,  4.8880e-02, -3.7527e-02,  ..., -4.5334e-02,
+          1.4911e-01,  1.7589e-02],
+        [-1.6120e-02, -1.5435e-01, -4.9097e-03,  ...,  1.7323e-01,
+         -1.3803e-01,  3.1958e-02],
+        ...,
+        [-9.8410e-02,  1.2496e-01,  1.7140e-02,  ..., -1.2784e-01,
+          9.8953e-02,  5.4382e-02],
+        [-2.0537e-05, -6.2340e-02,  4.2659e-03,  ..., -7.1306e-02,
+         -1.6239e-01, -1.3786e-01],
+        [ 1.0461e-02, -2.8407e-02, -6.5802e-03,  ..., -1.8210e-01,
+         -1.4332e-01,  2.4651e-02]], device='cuda:0'), grad: tensor([[-1.8335e-09,  4.1386e-08,  0.0000e+00,  ...,  1.5134e-08,
+          5.2067e-08,  4.0716e-08],
+        [ 4.1036e-08,  4.3050e-07,  0.0000e+00,  ...,  7.1304e-09,
+          5.0385e-07,  3.1432e-07],
+        [ 1.6880e-08,  6.1351e-08,  0.0000e+00,  ..., -8.1782e-09,
+          7.3982e-08,  3.5070e-08],
+        ...,
+        [ 1.2718e-08, -1.1707e-06,  0.0000e+00,  ...,  2.3283e-09,
+         -1.3690e-06, -8.1630e-07],
+        [-4.3213e-07,  3.5914e-08,  0.0000e+00,  ...,  9.7207e-09,
+          4.4907e-08,  3.2131e-08],
+        [ 1.0827e-07,  2.0408e-07,  0.0000e+00,  ...,  8.7311e-10,
+          2.4051e-07,  1.3039e-07]], device='cuda:0')
+Epoch 225, bias, value: tensor([-0.0360,  0.0136,  0.0111,  0.0286,  0.0353, -0.0175,  0.0295,  0.0319,
+        -0.0124, -0.0030], device='cuda:0'), grad: tensor([ 1.5041e-07,  1.2591e-06,  2.1944e-07,  8.5589e-07,  2.6170e-07,
+         7.3016e-07,  2.0303e-07, -2.7027e-06, -1.8375e-06,  8.7079e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 224, time 249.17, cls_loss 0.0012 cls_loss_mapping 0.0021 cls_loss_causal 0.5015 re_mapping 0.0033 re_causal 0.0111 /// teacc 99.01 lr 0.00010000
+Epoch 226, weight, value: tensor([[ 0.0646, -0.1200, -0.1322,  ..., -0.1137, -0.1311, -0.1172],
+        [ 0.0359,  0.0488, -0.0376,  ..., -0.0454,  0.1495,  0.0176],
+        [-0.0163, -0.1543, -0.0050,  ...,  0.1740, -0.1380,  0.0328],
+        ...,
+        [-0.0993,  0.1253,  0.0173,  ..., -0.1285,  0.0991,  0.0540],
+        [ 0.0002, -0.0619,  0.0045,  ..., -0.0712, -0.1633, -0.1384],
+        [ 0.0107, -0.0293, -0.0061,  ..., -0.1822, -0.1444,  0.0246]],
+       device='cuda:0'), grad: tensor([[ 1.9576e-06,  2.8522e-09,  0.0000e+00,  ...,  7.3016e-07,
+          3.6962e-09,  1.7841e-08],
+        [ 6.7502e-06,  7.6834e-08,  0.0000e+00,  ...,  1.7062e-06,
+          8.8650e-08,  1.9965e-07],
+        [ 1.1057e-04,  2.0693e-08,  0.0000e+00,  ...,  3.8952e-05,
+          2.6339e-08,  3.9639e-08],
+        ...,
+        [ 1.6550e-06, -2.5099e-07,  0.0000e+00,  ...,  5.7090e-07,
+         -3.1665e-07, -6.2864e-09],
+        [-1.4687e-04,  1.1176e-08,  0.0000e+00,  ..., -4.9680e-05,
+          1.4727e-08,  3.5187e-08],
+        [ 2.2352e-06,  2.7387e-08,  0.0000e+00,  ...,  8.5821e-07,
+          3.1956e-08,  1.0310e-06]], device='cuda:0')
+Epoch 226, bias, value: tensor([-0.0364,  0.0137,  0.0114,  0.0284,  0.0350, -0.0181,  0.0297,  0.0315,
+        -0.0119, -0.0030], device='cuda:0'), grad: tensor([ 1.5102e-05,  7.0035e-05,  7.8106e-04,  5.9962e-05,  3.6359e-06,
+         6.1929e-05,  6.9499e-05,  1.2852e-05, -1.0958e-03,  2.2799e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 225, time 248.97, cls_loss 0.0015 cls_loss_mapping 0.0032 cls_loss_causal 0.5036 re_mapping 0.0036 re_causal 0.0120 /// teacc 99.17 lr 0.00010000
+Epoch 227, weight, value: tensor([[ 0.0646, -0.1200, -0.1322,  ..., -0.1156, -0.1311, -0.1175],
+        [ 0.0324,  0.0488, -0.0376,  ..., -0.0456,  0.1469,  0.0175],
+        [-0.0175, -0.1543, -0.0050,  ...,  0.1751, -0.1383,  0.0341],
+        ...,
+        [-0.1012,  0.1257,  0.0173,  ..., -0.1294,  0.0993,  0.0535],
+        [ 0.0051, -0.0612,  0.0046,  ..., -0.0730, -0.1594, -0.1387],
+        [ 0.0110, -0.0303, -0.0060,  ..., -0.1826, -0.1453,  0.0248]],
+       device='cuda:0'), grad: tensor([[-1.6799e-07,  4.6712e-08,  0.0000e+00,  ...,  1.3388e-09,
+         -1.1467e-08,  2.2131e-07],
+        [-9.1968e-08,  3.4645e-07,  0.0000e+00,  ...,  3.9290e-09,
+         -2.5448e-07,  5.8627e-07],
+        [ 4.8807e-08,  7.9069e-07,  0.0000e+00,  ..., -1.1933e-08,
+          2.2049e-07,  1.0245e-06],
+        ...,
+        [ 6.4319e-08, -3.2812e-05,  0.0000e+00,  ...,  4.8021e-09,
+         -3.7607e-06, -4.5896e-05],
+        [ 1.0210e-07,  3.0897e-07,  0.0000e+00,  ...,  7.0140e-09,
+          1.4191e-07,  3.3248e-07],
+        [-1.1624e-07,  2.8595e-05,  0.0000e+00,  ...,  2.2701e-09,
+          3.2522e-06,  3.9846e-05]], device='cuda:0')
+Epoch 227, bias, value: tensor([-0.0373,  0.0102,  0.0113,  0.0281,  0.0341, -0.0183,  0.0311,  0.0308,
+        -0.0064, -0.0029], device='cuda:0'), grad: tensor([-4.4471e-07,  1.5674e-06,  3.0808e-06,  8.6948e-06,  2.1737e-06,
+         5.2061e-07,  9.3947e-08, -1.2851e-04,  1.4380e-06,  1.1128e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 226, time 248.83, cls_loss 0.0008 cls_loss_mapping 0.0018 cls_loss_causal 0.5226 re_mapping 0.0037 re_causal 0.0121 /// teacc 99.07 lr 0.00010000
+Epoch 228, weight, value: tensor([[ 0.0678, -0.1184, -0.1322,  ..., -0.1140, -0.1295, -0.1180],
+        [ 0.0324,  0.0489, -0.0373,  ..., -0.0457,  0.1470,  0.0176],
+        [-0.0177, -0.1544, -0.0050,  ...,  0.1753, -0.1384,  0.0341],
+        ...,
+        [-0.1019,  0.1261,  0.0172,  ..., -0.1295,  0.0993,  0.0539],
+        [ 0.0050, -0.0614,  0.0045,  ..., -0.0735, -0.1594, -0.1395],
+        [ 0.0110, -0.0316, -0.0059,  ..., -0.1828, -0.1459,  0.0243]],
+       device='cuda:0'), grad: tensor([[ 4.7148e-09,  5.2009e-08,  0.0000e+00,  ...,  5.4046e-08,
+          2.9133e-08,  7.1770e-08],
+        [-9.5170e-08,  1.1306e-06,  0.0000e+00,  ...,  3.4180e-07,
+          8.3912e-07,  1.3597e-06],
+        [ 1.4668e-08,  1.1217e-07,  0.0000e+00,  ..., -5.8254e-07,
+          1.0087e-07, -4.5216e-07],
+        ...,
+        [ 3.2218e-08, -2.2072e-06,  0.0000e+00,  ...,  9.9244e-08,
+         -1.7798e-06, -1.8273e-06],
+        [ 5.0262e-08,  4.0443e-07,  0.0000e+00,  ...,  1.1915e-07,
+          4.0559e-07,  4.9593e-07],
+        [-2.1246e-08,  2.6845e-07,  0.0000e+00,  ...,  1.8103e-07,
+          2.1094e-07,  3.5786e-07]], device='cuda:0')
+Epoch 228, bias, value: tensor([-0.0355,  0.0103,  0.0112,  0.0280,  0.0339, -0.0182,  0.0310,  0.0312,
+        -0.0064, -0.0033], device='cuda:0'), grad: tensor([ 2.8568e-07,  3.2280e-06, -1.2461e-06,  1.6717e-07, -8.7498e-07,
+        -5.3551e-09,  2.1188e-07, -4.1053e-06,  1.4035e-06,  9.4064e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 227, time 248.89, cls_loss 0.0009 cls_loss_mapping 0.0017 cls_loss_causal 0.4859 re_mapping 0.0034 re_causal 0.0111 /// teacc 99.12 lr 0.00010000
+Epoch 229, weight, value: tensor([[ 0.0678, -0.1186, -0.1322,  ..., -0.1146, -0.1297, -0.1185],
+        [ 0.0324,  0.0492, -0.0373,  ..., -0.0459,  0.1474,  0.0180],
+        [-0.0172, -0.1544, -0.0048,  ...,  0.1763, -0.1389,  0.0342],
+        ...,
+        [-0.1035,  0.1260,  0.0171,  ..., -0.1297,  0.0990,  0.0537],
+        [ 0.0050, -0.0616,  0.0041,  ..., -0.0749, -0.1595, -0.1408],
+        [ 0.0111, -0.0317, -0.0055,  ..., -0.1829, -0.1464,  0.0243]],
+       device='cuda:0'), grad: tensor([[ 2.8056e-07,  3.7882e-07,  1.5134e-09,  ...,  1.3516e-07,
+          8.8476e-09,  3.6461e-07],
+        [-2.0990e-07, -1.0856e-07, -4.5693e-09,  ...,  1.6892e-07,
+         -5.2573e-07,  6.8278e-08],
+        [ 2.7707e-07,  9.6334e-09,  4.1036e-09,  ..., -1.5246e-06,
+         -5.1979e-08, -1.7062e-06],
+        ...,
+        [ 1.3073e-07,  7.0257e-08,  3.6089e-09,  ...,  4.1886e-07,
+          1.8207e-07,  7.8650e-07],
+        [ 2.9784e-06,  5.7713e-08,  1.5163e-08,  ...,  5.9092e-07,
+          2.6333e-07,  1.5981e-06],
+        [-4.1053e-06, -5.2247e-07,  3.1840e-08,  ...,  4.8109e-08,
+          3.2538e-08, -1.7891e-06]], device='cuda:0')
+Epoch 229, bias, value: tensor([-0.0358,  0.0103,  0.0115,  0.0281,  0.0340, -0.0185,  0.0311,  0.0308,
+        -0.0065, -0.0032], device='cuda:0'), grad: tensor([ 2.3358e-06,  6.7987e-08, -4.6752e-06,  1.6298e-06,  2.0172e-06,
+         3.7439e-07, -9.0012e-07,  2.4177e-06,  1.5765e-05, -1.9073e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 228, time 248.76, cls_loss 0.0009 cls_loss_mapping 0.0017 cls_loss_causal 0.4824 re_mapping 0.0034 re_causal 0.0108 /// teacc 99.11 lr 0.00010000
+Epoch 230, weight, value: tensor([[ 0.0678, -0.1188, -0.1322,  ..., -0.1150, -0.1300, -0.1189],
+        [ 0.0325,  0.0492, -0.0374,  ..., -0.0459,  0.1476,  0.0181],
+        [-0.0169, -0.1546, -0.0044,  ...,  0.1768, -0.1393,  0.0342],
+        ...,
+        [-0.1040,  0.1265,  0.0171,  ..., -0.1299,  0.0994,  0.0541],
+        [ 0.0050, -0.0618,  0.0037,  ..., -0.0757, -0.1596, -0.1420],
+        [ 0.0116, -0.0321, -0.0057,  ..., -0.1834, -0.1472,  0.0241]],
+       device='cuda:0'), grad: tensor([[-7.4797e-09,  1.1059e-09,  0.0000e+00,  ...,  2.2555e-08,
+          2.2119e-09,  6.5775e-09],
+        [-4.9185e-09, -1.0332e-08,  0.0000e+00,  ...,  5.6520e-08,
+         -8.3237e-08,  3.7835e-08],
+        [ 3.2538e-08,  1.4756e-08,  2.9104e-11,  ..., -6.5309e-08,
+          2.3167e-08,  4.9477e-10],
+        ...,
+        [ 1.7491e-08, -4.4587e-08,  0.0000e+00,  ...,  1.0623e-08,
+         -3.2713e-08, -3.2276e-08],
+        [-1.2957e-07,  1.4144e-08,  5.8208e-11,  ...,  4.9477e-09,
+          4.3277e-08,  2.6339e-08],
+        [-1.8987e-07,  6.5484e-09,  2.9104e-11,  ...,  1.2427e-08,
+          1.2486e-08,  1.6211e-08]], device='cuda:0')
+Epoch 230, bias, value: tensor([-0.0359,  0.0103,  0.0116,  0.0280,  0.0339, -0.0186,  0.0312,  0.0312,
+        -0.0065, -0.0034], device='cuda:0'), grad: tensor([-4.7788e-08,  2.1933e-07,  9.6974e-08,  1.6543e-07, -1.9488e-07,
+         1.2359e-06, -1.2957e-07, -2.5728e-08, -5.3039e-07, -7.8604e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 229, time 249.16, cls_loss 0.0009 cls_loss_mapping 0.0017 cls_loss_causal 0.4836 re_mapping 0.0033 re_causal 0.0108 /// teacc 99.15 lr 0.00010000
+Epoch 231, weight, value: tensor([[ 0.0691, -0.1189, -0.1322,  ..., -0.1154, -0.1303, -0.1191],
+        [ 0.0325,  0.0492, -0.0374,  ..., -0.0461,  0.1478,  0.0182],
+        [-0.0171, -0.1547, -0.0044,  ...,  0.1773, -0.1395,  0.0342],
+        ...,
+        [-0.1047,  0.1267,  0.0175,  ..., -0.1302,  0.0995,  0.0542],
+        [ 0.0050, -0.0620,  0.0036,  ..., -0.0757, -0.1596, -0.1429],
+        [ 0.0118, -0.0324, -0.0066,  ..., -0.1836, -0.1477,  0.0241]],
+       device='cuda:0'), grad: tensor([[-2.2887e-07,  1.3475e-08,  5.8208e-11,  ...,  1.4930e-08,
+          2.1217e-08,  1.9267e-08],
+        [-3.3295e-07,  6.4354e-07,  3.4925e-10,  ...,  2.0664e-09,
+          1.5565e-07,  9.4716e-07],
+        [ 4.1910e-08,  1.1065e-07,  6.6939e-10,  ...,  3.0559e-09,
+          1.5332e-07,  1.5623e-07],
+        ...,
+        [ 1.1467e-07, -2.3488e-06, -8.4401e-10,  ...,  1.5134e-09,
+         -2.2110e-06, -3.4142e-06],
+        [ 2.7358e-07,  2.9500e-07,  1.9791e-09,  ..., -2.6193e-10,
+          4.8243e-07,  4.2864e-07],
+        [ 3.1840e-08,  9.0059e-07,  3.7835e-10,  ...,  3.9290e-09,
+          9.2061e-07,  1.3197e-06]], device='cuda:0')
+Epoch 231, bias, value: tensor([-0.0355,  0.0104,  0.0115,  0.0280,  0.0339, -0.0189,  0.0310,  0.0312,
+        -0.0065, -0.0032], device='cuda:0'), grad: tensor([-8.9360e-07,  1.1809e-06,  4.6217e-07,  3.3434e-07,  7.4087e-07,
+         1.6065e-07,  2.6339e-08, -6.6496e-06,  1.8207e-06,  2.8014e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 230, time 248.76, cls_loss 0.0012 cls_loss_mapping 0.0021 cls_loss_causal 0.4860 re_mapping 0.0031 re_causal 0.0103 /// teacc 99.07 lr 0.00010000
+Epoch 232, weight, value: tensor([[ 0.0692, -0.1191, -0.1323,  ..., -0.1158, -0.1306, -0.1215],
+        [ 0.0325,  0.0490, -0.0399,  ..., -0.0462,  0.1478,  0.0181],
+        [-0.0172, -0.1547, -0.0044,  ...,  0.1779, -0.1397,  0.0344],
+        ...,
+        [-0.1055,  0.1279,  0.0199,  ..., -0.1306,  0.1005,  0.0552],
+        [ 0.0050, -0.0623,  0.0037,  ..., -0.0761, -0.1597, -0.1442],
+        [ 0.0121, -0.0349, -0.0072,  ..., -0.1838, -0.1510,  0.0229]],
+       device='cuda:0'), grad: tensor([[ 5.4715e-09,  4.8778e-08,  5.8208e-11,  ...,  4.7788e-08,
+          7.3924e-08,  1.3493e-07],
+        [-3.5600e-07, -1.1030e-07,  5.8208e-11,  ...,  4.0024e-07,
+         -4.4378e-07,  7.4459e-07],
+        [-1.0047e-07,  1.8103e-07,  0.0000e+00,  ..., -6.2957e-07,
+          2.7101e-07, -5.0617e-07],
+        ...,
+        [ 4.6659e-07, -1.6596e-06,  1.1642e-10,  ...,  1.6880e-07,
+         -2.2575e-06, -3.3751e-06],
+        [ 4.0000e-07,  2.5542e-07,  1.1642e-10,  ...,  6.8126e-07,
+          4.1374e-07,  1.1781e-06],
+        [-1.1211e-07,  5.3726e-08, -7.5670e-10,  ...,  1.6745e-06,
+          9.2085e-08,  8.9873e-07]], device='cuda:0')
+Epoch 232, bias, value: tensor([-0.0361,  0.0103,  0.0116,  0.0279,  0.0343, -0.0182,  0.0308,  0.0318,
+        -0.0066, -0.0040], device='cuda:0'), grad: tensor([ 4.1490e-07,  2.0098e-06, -1.5944e-06,  6.2361e-06, -7.1526e-06,
+        -2.6776e-07,  4.6170e-07, -6.9775e-06,  5.1670e-06,  1.6689e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 231, time 249.35, cls_loss 0.0009 cls_loss_mapping 0.0026 cls_loss_causal 0.4932 re_mapping 0.0034 re_causal 0.0111 /// teacc 98.97 lr 0.00010000
+Epoch 233, weight, value: tensor([[ 0.0703, -0.1189, -0.1324,  ..., -0.1161, -0.1305, -0.1221],
+        [ 0.0325,  0.0493, -0.0399,  ..., -0.0463,  0.1483,  0.0185],
+        [-0.0173, -0.1547, -0.0045,  ...,  0.1784, -0.1399,  0.0345],
+        ...,
+        [-0.1071,  0.1279,  0.0199,  ..., -0.1308,  0.1001,  0.0544],
+        [ 0.0050, -0.0625,  0.0041,  ..., -0.0764, -0.1598, -0.1452],
+        [ 0.0116, -0.0358, -0.0073,  ..., -0.1841, -0.1526,  0.0236]],
+       device='cuda:0'), grad: tensor([[-1.2550e-07,  2.7940e-09,  1.1642e-10,  ...,  4.7206e-08,
+          1.1874e-08,  4.8312e-09],
+        [-1.4587e-07, -6.7696e-08,  1.1642e-10,  ...,  1.7870e-08,
+         -3.6694e-07, -6.3446e-08],
+        [ 1.2992e-07,  1.4028e-08,  1.1642e-10,  ...,  1.7462e-09,
+          5.7858e-08,  1.9267e-08],
+        ...,
+        [ 7.8930e-08,  7.9744e-09,  3.4925e-10,  ...,  1.1350e-08,
+          1.2061e-07,  3.6787e-08],
+        [-6.0303e-08,  2.2235e-08,  1.3970e-09,  ...,  1.5018e-08,
+          9.4064e-08,  4.3947e-08],
+        [-8.7894e-09,  3.7835e-09, -1.5716e-09,  ...,  3.5740e-08,
+          1.2107e-08,  1.4494e-08]], device='cuda:0')
+Epoch 233, bias, value: tensor([-0.0357,  0.0105,  0.0116,  0.0285,  0.0341, -0.0183,  0.0310,  0.0306,
+        -0.0066, -0.0037], device='cuda:0'), grad: tensor([-7.0734e-07, -3.6880e-07,  6.5845e-07,  3.1036e-07, -2.5122e-07,
+        -1.9674e-07,  2.4401e-07,  3.6811e-07, -1.2724e-07,  7.6659e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 232, time 249.16, cls_loss 0.0010 cls_loss_mapping 0.0021 cls_loss_causal 0.5061 re_mapping 0.0035 re_causal 0.0111 /// teacc 99.11 lr 0.00010000
+Epoch 234, weight, value: tensor([[ 0.0704, -0.1192, -0.1324,  ..., -0.1165, -0.1308, -0.1226],
+        [ 0.0326,  0.0495, -0.0371,  ..., -0.0464,  0.1486,  0.0185],
+        [-0.0175, -0.1548, -0.0073,  ...,  0.1786, -0.1402,  0.0344],
+        ...,
+        [-0.1099,  0.1281,  0.0185,  ..., -0.1311,  0.1000,  0.0544],
+        [ 0.0050, -0.0627,  0.0062,  ..., -0.0766, -0.1599, -0.1463],
+        [ 0.0146, -0.0361, -0.0063,  ..., -0.1849, -0.1531,  0.0241]],
+       device='cuda:0'), grad: tensor([[ 5.1083e-07,  1.9209e-09,  0.0000e+00,  ...,  1.6456e-06,
+          4.1327e-09,  1.9334e-06],
+        [ 1.7113e-07,  6.6240e-08,  0.0000e+00,  ...,  4.9500e-07,
+          1.0332e-07,  6.8871e-07],
+        [-5.9865e-06,  4.9942e-08,  0.0000e+00,  ..., -1.8969e-05,
+          1.0582e-07, -2.2352e-05],
+        ...,
+        [ 1.0617e-06, -2.9826e-07,  0.0000e+00,  ...,  3.2336e-06,
+         -5.7742e-07,  3.3788e-06],
+        [ 4.0270e-06,  2.0722e-08,  0.0000e+00,  ...,  1.2912e-05,
+          4.1677e-08,  1.5274e-05],
+        [ 3.1898e-08,  7.7882e-08,  0.0000e+00,  ...,  1.3632e-07,
+          1.5961e-07,  2.3609e-07]], device='cuda:0')
+Epoch 234, bias, value: tensor([-0.0358,  0.0104,  0.0115,  0.0283,  0.0342, -0.0184,  0.0309,  0.0303,
+        -0.0066, -0.0026], device='cuda:0'), grad: tensor([ 7.9051e-06,  2.7474e-06, -9.1076e-05,  2.0247e-06,  6.1933e-07,
+         9.0804e-07, -6.6729e-07,  1.4521e-05,  6.2168e-05,  7.5763e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 233, time 249.24, cls_loss 0.0009 cls_loss_mapping 0.0022 cls_loss_causal 0.4877 re_mapping 0.0034 re_causal 0.0108 /// teacc 99.08 lr 0.00010000
+Epoch 235, weight, value: tensor([[ 0.0716, -0.1210, -0.1325,  ..., -0.1168, -0.1308, -0.1236],
+        [ 0.0326,  0.0494, -0.0369,  ..., -0.0469,  0.1487,  0.0184],
+        [-0.0173, -0.1549, -0.0074,  ...,  0.1797, -0.1403,  0.0348],
+        ...,
+        [-0.1108,  0.1283,  0.0182,  ..., -0.1320,  0.1001,  0.0543],
+        [ 0.0049, -0.0628,  0.0059,  ..., -0.0779, -0.1599, -0.1482],
+        [ 0.0161, -0.0360, -0.0065,  ..., -0.1853, -0.1533,  0.0240]],
+       device='cuda:0'), grad: tensor([[-3.0617e-08,  4.8894e-09,  1.1642e-10,  ...,  9.7672e-08,
+          1.9209e-09,  3.2247e-08],
+        [ 8.5100e-08,  1.2282e-08,  1.7462e-10,  ...,  3.6391e-07,
+          2.9046e-08,  3.8464e-07],
+        [ 6.2922e-08,  7.4506e-09,  0.0000e+00,  ..., -6.0908e-07,
+         -9.3249e-08, -4.8382e-07],
+        ...,
+        [ 3.2526e-07,  7.6019e-08,  2.7940e-09,  ...,  7.3283e-08,
+          1.8103e-08,  2.0326e-07],
+        [ 5.9779e-08, -1.9325e-07,  4.0745e-10,  ...,  7.2643e-08,
+          2.0431e-08,  5.2573e-07],
+        [-5.4017e-07,  4.4063e-08, -6.9849e-09,  ...,  1.2980e-08,
+          3.3760e-09, -7.5484e-07]], device='cuda:0')
+Epoch 235, bias, value: tensor([-0.0358,  0.0104,  0.0118,  0.0284,  0.0344, -0.0183,  0.0306,  0.0301,
+        -0.0067, -0.0023], device='cuda:0'), grad: tensor([ 3.3109e-07,  2.1011e-06, -8.4192e-07, -1.6578e-06,  8.1770e-07,
+         5.0217e-06, -4.3400e-06,  3.1684e-06, -1.1316e-06, -3.4738e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 234, time 248.89, cls_loss 0.0011 cls_loss_mapping 0.0018 cls_loss_causal 0.5029 re_mapping 0.0032 re_causal 0.0104 /// teacc 99.02 lr 0.00010000
+Epoch 236, weight, value: tensor([[ 0.0720, -0.1212, -0.1325,  ..., -0.1184, -0.1310, -0.1239],
+        [ 0.0326,  0.0494, -0.0370,  ..., -0.0483,  0.1488,  0.0181],
+        [-0.0172, -0.1549, -0.0074,  ...,  0.1806, -0.1405,  0.0350],
+        ...,
+        [-0.1114,  0.1294,  0.0183,  ..., -0.1320,  0.1007,  0.0559],
+        [ 0.0049, -0.0621,  0.0028,  ..., -0.0788, -0.1600, -0.1489],
+        [ 0.0162, -0.0366, -0.0073,  ..., -0.1855, -0.1540,  0.0238]],
+       device='cuda:0'), grad: tensor([[ 8.7894e-09,  1.1816e-08,  4.6566e-10,  ...,  2.6484e-08,
+          1.2922e-08,  3.9116e-08],
+        [ 1.5590e-06,  2.0303e-06,  1.9209e-09,  ...,  8.8592e-08,
+          1.8654e-06,  1.0673e-06],
+        [ 3.0617e-08,  1.1415e-07,  9.3132e-10,  ..., -1.9222e-06,
+          1.2445e-07, -1.3877e-06],
+        ...,
+        [ 8.0792e-08, -2.6599e-06,  2.2002e-08,  ...,  5.5740e-07,
+         -2.1048e-06, -1.1725e-06],
+        [-1.4585e-06, -2.1141e-07,  1.4552e-09,  ...,  1.0128e-07,
+         -5.1595e-07,  3.6554e-07],
+        [-8.0210e-08,  1.9441e-07,  1.1525e-08,  ...,  5.7684e-08,
+          1.6426e-07, -2.4890e-07]], device='cuda:0')
+Epoch 236, bias, value: tensor([-0.0364,  0.0103,  0.0120,  0.0283,  0.0328, -0.0183,  0.0317,  0.0314,
+        -0.0067, -0.0025], device='cuda:0'), grad: tensor([ 2.3097e-07,  8.3894e-06, -7.0520e-06,  5.3421e-06,  7.1386e-07,
+        -2.7362e-06,  1.3663e-06, -1.6196e-06, -2.7269e-06, -1.9185e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 235, time 248.81, cls_loss 0.0009 cls_loss_mapping 0.0024 cls_loss_causal 0.4909 re_mapping 0.0034 re_causal 0.0115 /// teacc 99.04 lr 0.00010000
+Epoch 237, weight, value: tensor([[ 0.0724, -0.1214, -0.1326,  ..., -0.1186, -0.1313, -0.1242],
+        [ 0.0326,  0.0494, -0.0365,  ..., -0.0473,  0.1494,  0.0186],
+        [-0.0174, -0.1557, -0.0077,  ...,  0.1801, -0.1425,  0.0344],
+        ...,
+        [-0.1125,  0.1313,  0.0183,  ..., -0.1318,  0.1016,  0.0565],
+        [ 0.0049, -0.0623,  0.0026,  ..., -0.0795, -0.1601, -0.1503],
+        [ 0.0161, -0.0371, -0.0075,  ..., -0.1870, -0.1545,  0.0231]],
+       device='cuda:0'), grad: tensor([[ 1.9791e-09,  1.5076e-08,  0.0000e+00,  ...,  1.6124e-08,
+          2.1711e-08,  5.9896e-08],
+        [-4.6159e-08,  8.3703e-08,  0.0000e+00,  ...,  6.2049e-08,
+         -4.3139e-06, -1.3588e-06],
+        [ 5.9372e-09,  5.2096e-08,  0.0000e+00,  ..., -3.8277e-07,
+          6.5984e-07, -2.1176e-07],
+        ...,
+        [ 1.5774e-08,  8.0392e-06,  0.0000e+00,  ...,  1.3423e-07,
+          1.0736e-05,  2.7493e-05],
+        [ 2.7998e-08,  3.3353e-08,  0.0000e+00,  ...,  4.9360e-08,
+          9.7789e-08,  1.2643e-07],
+        [-4.1211e-08, -9.1419e-06,  0.0000e+00,  ...,  3.4634e-08,
+         -8.7693e-06, -2.9430e-05]], device='cuda:0')
+Epoch 237, bias, value: tensor([-0.0364,  0.0104,  0.0116,  0.0266,  0.0340, -0.0187,  0.0321,  0.0326,
+        -0.0067, -0.0035], device='cuda:0'), grad: tensor([ 1.7695e-07, -5.1521e-06, -6.6543e-07,  1.3914e-06,  6.9849e-06,
+         1.1863e-07,  1.0559e-07,  6.4790e-05,  5.3179e-07, -6.8247e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 236, time 248.79, cls_loss 0.0009 cls_loss_mapping 0.0030 cls_loss_causal 0.4784 re_mapping 0.0033 re_causal 0.0109 /// teacc 98.87 lr 0.00010000
+Epoch 238, weight, value: tensor([[ 0.0717, -0.1213, -0.1326,  ..., -0.1185, -0.1313, -0.1268],
+        [ 0.0327,  0.0493, -0.0364,  ..., -0.0474,  0.1496,  0.0186],
+        [-0.0174, -0.1560, -0.0078,  ...,  0.1809, -0.1429,  0.0347],
+        ...,
+        [-0.1136,  0.1314,  0.0184,  ..., -0.1322,  0.1017,  0.0565],
+        [ 0.0048, -0.0620,  0.0027,  ..., -0.0806, -0.1601, -0.1514],
+        [ 0.0165, -0.0370, -0.0076,  ..., -0.1871, -0.1544,  0.0237]],
+       device='cuda:0'), grad: tensor([[-4.2515e-07, -4.2608e-07,  0.0000e+00,  ...,  1.4086e-07,
+         -3.6461e-07,  1.8114e-07],
+        [-6.0722e-07, -3.9628e-07, -3.5507e-09,  ..., -9.8255e-07,
+         -4.5970e-06, -2.9635e-06],
+        [ 7.3400e-08, -2.3469e-07,  4.6566e-10,  ..., -1.8375e-06,
+          3.3528e-06, -1.9372e-06],
+        ...,
+        [ 4.2538e-07,  1.3420e-06,  1.4552e-09,  ...,  1.7351e-06,
+          8.8150e-07,  3.8818e-06],
+        [ 2.0745e-07,  2.4238e-07,  6.9849e-10,  ...,  3.2783e-07,
+          4.0024e-07,  7.0874e-07],
+        [ 4.8196e-08, -8.6799e-07,  1.1642e-10,  ...,  3.8068e-08,
+         -7.5495e-08, -9.4576e-07]], device='cuda:0')
+Epoch 238, bias, value: tensor([-0.0370,  0.0104,  0.0118,  0.0262,  0.0339, -0.0148,  0.0292,  0.0322,
+        -0.0068, -0.0030], device='cuda:0'), grad: tensor([-5.6960e-06, -9.4548e-06, -3.2280e-06,  1.4473e-06,  5.0059e-07,
+         1.4789e-06,  8.8941e-07,  1.4976e-05,  2.1905e-06, -3.1460e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 237, time 249.10, cls_loss 0.0012 cls_loss_mapping 0.0023 cls_loss_causal 0.5152 re_mapping 0.0033 re_causal 0.0108 /// teacc 99.08 lr 0.00010000
+Epoch 239, weight, value: tensor([[ 0.0722, -0.1218, -0.1326,  ..., -0.1192, -0.1316, -0.1273],
+        [ 0.0327,  0.0489, -0.0364,  ..., -0.0477,  0.1497,  0.0182],
+        [-0.0172, -0.1561, -0.0080,  ...,  0.1822, -0.1431,  0.0351],
+        ...,
+        [-0.1150,  0.1297,  0.0192,  ..., -0.1327,  0.0999,  0.0547],
+        [ 0.0048, -0.0628,  0.0028,  ..., -0.0816, -0.1603, -0.1532],
+        [ 0.0169, -0.0337, -0.0078,  ..., -0.1876, -0.1514,  0.0263]],
+       device='cuda:0'), grad: tensor([[-1.8219e-08,  2.8522e-09,  0.0000e+00,  ...,  8.7311e-10,
+          4.0163e-09,  3.5507e-09],
+        [-3.9639e-08,  2.3516e-08,  0.0000e+00,  ..., -3.0268e-09,
+         -6.7113e-08,  1.3213e-08],
+        [ 5.8499e-08,  2.7649e-08,  0.0000e+00,  ...,  1.2515e-08,
+          6.3563e-08,  4.7323e-08],
+        ...,
+        [ 1.4959e-08, -4.1956e-07,  0.0000e+00,  ...,  9.9535e-09,
+         -4.3726e-07, -3.8254e-07],
+        [ 9.6334e-08,  2.0431e-08,  0.0000e+00,  ...,  1.0303e-08,
+          5.8964e-08,  3.6438e-08],
+        [ 7.3342e-09,  2.7101e-07,  0.0000e+00,  ...,  1.1059e-08,
+          2.8615e-07,  2.4890e-07]], device='cuda:0')
+Epoch 239, bias, value: tensor([-0.0369,  0.0104,  0.0121,  0.0257,  0.0338, -0.0148,  0.0284,  0.0297,
+        -0.0069, -0.0002], device='cuda:0'), grad: tensor([-6.9616e-08, -7.1013e-09,  4.5309e-07, -1.1167e-06,  8.9058e-09,
+         2.3539e-07,  3.5041e-08, -9.7975e-07,  6.6310e-07,  7.9256e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 238, time 248.84, cls_loss 0.0018 cls_loss_mapping 0.0042 cls_loss_causal 0.4759 re_mapping 0.0036 re_causal 0.0111 /// teacc 99.13 lr 0.00010000
+Epoch 240, weight, value: tensor([[ 0.0723, -0.1221, -0.1327,  ..., -0.1215, -0.1322, -0.1276],
+        [ 0.0328,  0.0496, -0.0366,  ..., -0.0478,  0.1504,  0.0186],
+        [-0.0171, -0.1563, -0.0080,  ...,  0.1835, -0.1434,  0.0354],
+        ...,
+        [-0.1183,  0.1300,  0.0202,  ..., -0.1342,  0.0998,  0.0546],
+        [ 0.0048, -0.0632,  0.0027,  ..., -0.0829, -0.1605, -0.1546],
+        [ 0.0173, -0.0342, -0.0091,  ..., -0.1897, -0.1519,  0.0291]],
+       device='cuda:0'), grad: tensor([[-1.1642e-09,  4.6566e-10,  0.0000e+00,  ...,  1.2107e-08,
+          7.5670e-10,  1.1991e-08],
+        [-2.8522e-09,  5.8208e-09,  0.0000e+00,  ...,  7.6077e-08,
+         -1.5309e-08,  8.9698e-08],
+        [ 3.9057e-08,  2.8522e-09,  0.0000e+00,  ...,  1.2224e-09,
+          6.4611e-09,  1.1292e-08],
+        ...,
+        [ 9.0804e-09, -3.2189e-08,  0.0000e+00,  ...,  4.0105e-08,
+         -1.7812e-08,  2.3982e-08],
+        [-1.8044e-09,  5.3551e-09,  0.0000e+00,  ...,  1.3039e-08,
+          1.0070e-08,  3.1549e-08],
+        [ 2.0082e-08,  1.7055e-08,  0.0000e+00,  ...,  7.1637e-06,
+          1.5309e-08,  8.9854e-06]], device='cuda:0')
+Epoch 240, bias, value: tensor([-0.0377,  0.0106,  0.0123,  0.0260,  0.0310, -0.0149,  0.0287,  0.0295,
+        -0.0070,  0.0024], device='cuda:0'), grad: tensor([ 3.2771e-08,  3.6624e-07,  3.5414e-07, -1.3420e-06, -3.6061e-05,
+         9.1083e-07,  2.3539e-07,  1.5320e-07,  2.2852e-07,  3.5167e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 239, time 250.56, cls_loss 0.0008 cls_loss_mapping 0.0023 cls_loss_causal 0.4765 re_mapping 0.0034 re_causal 0.0110 /// teacc 99.07 lr 0.00010000
+Epoch 241, weight, value: tensor([[ 0.0731, -0.1226, -0.1321,  ..., -0.1216, -0.1331, -0.1279],
+        [ 0.0329,  0.0495, -0.0373,  ..., -0.0479,  0.1506,  0.0186],
+        [-0.0176, -0.1565, -0.0076,  ...,  0.1839, -0.1438,  0.0353],
+        ...,
+        [-0.1195,  0.1309,  0.0218,  ..., -0.1344,  0.1006,  0.0554],
+        [ 0.0048, -0.0634,  0.0025,  ..., -0.0830, -0.1606, -0.1554],
+        [ 0.0172, -0.0350, -0.0126,  ..., -0.1903, -0.1527,  0.0290]],
+       device='cuda:0'), grad: tensor([[ 2.6659e-08,  6.1700e-09,  4.7148e-09,  ...,  2.7823e-08,
+          5.6461e-09,  3.3004e-08],
+        [-1.1816e-08,  2.3749e-08,  2.3283e-09,  ...,  4.4180e-08,
+         -3.5507e-09,  8.1549e-08],
+        [ 5.0641e-09,  4.6333e-08,  2.3283e-09,  ..., -3.4552e-07,
+          5.0757e-08, -2.5029e-07],
+        ...,
+        [ 1.2747e-08,  1.0722e-07,  7.0373e-08,  ...,  2.0466e-07,
+         -4.7556e-08,  5.6904e-07],
+        [ 3.6496e-08,  5.6112e-08,  7.7998e-09,  ...,  6.5600e-08,
+          5.4715e-08,  1.2061e-07],
+        [ 2.7753e-06, -2.8522e-07, -8.7719e-08,  ...,  1.8895e-05,
+         -9.0164e-08,  2.8417e-05]], device='cuda:0')
+Epoch 241, bias, value: tensor([-0.0373,  0.0106,  0.0121,  0.0263,  0.0310, -0.0153,  0.0286,  0.0301,
+        -0.0070,  0.0024], device='cuda:0'), grad: tensor([ 2.9616e-07,  1.8778e-07, -7.0455e-07,  3.7812e-07, -7.7307e-05,
+        -8.2888e-07,  1.1746e-07,  1.5078e-06,  5.2573e-07,  7.5817e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 240, time 250.41, cls_loss 0.0009 cls_loss_mapping 0.0023 cls_loss_causal 0.4998 re_mapping 0.0032 re_causal 0.0107 /// teacc 99.10 lr 0.00010000
+Epoch 242, weight, value: tensor([[ 0.0732, -0.1230, -0.1322,  ..., -0.1219, -0.1341, -0.1284],
+        [ 0.0329,  0.0494, -0.0373,  ..., -0.0478,  0.1507,  0.0188],
+        [-0.0178, -0.1566, -0.0078,  ...,  0.1841, -0.1443,  0.0352],
+        ...,
+        [-0.1218,  0.1311,  0.0211,  ..., -0.1345,  0.1009,  0.0551],
+        [ 0.0048, -0.0635,  0.0024,  ..., -0.0833, -0.1606, -0.1567],
+        [ 0.0183, -0.0350, -0.0106,  ..., -0.1908, -0.1528,  0.0290]],
+       device='cuda:0'), grad: tensor([[-1.8319e-06,  3.4925e-10,  0.0000e+00,  ..., -1.4082e-06,
+          1.1059e-09,  5.9372e-09],
+        [ 3.4343e-09, -1.8626e-09,  0.0000e+00,  ...,  6.4087e-08,
+         -5.2562e-08,  4.5227e-08],
+        [ 9.4250e-07,  7.7416e-09,  0.0000e+00,  ...,  4.3027e-07,
+          1.9209e-09, -2.8266e-07],
+        ...,
+        [ 1.7812e-08, -2.3574e-08,  0.0000e+00,  ...,  1.5297e-07,
+         -1.5716e-09,  1.4959e-07],
+        [ 3.4878e-07,  9.1386e-09,  0.0000e+00,  ...,  8.4750e-08,
+          3.9698e-08,  2.2002e-08],
+        [ 1.4424e-07,  4.6566e-09,  0.0000e+00,  ...,  2.0862e-07,
+          6.5193e-09,  4.0163e-09]], device='cuda:0')
+Epoch 242, bias, value: tensor([-0.0375,  0.0106,  0.0119,  0.0263,  0.0310, -0.0154,  0.0286,  0.0296,
+        -0.0070,  0.0024], device='cuda:0'), grad: tensor([-4.4703e-06,  2.8452e-07,  1.8645e-06, -1.1995e-06,  1.2154e-07,
+        -4.1281e-07,  9.4203e-07,  4.7078e-07,  2.6096e-06, -1.9209e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 241, time 250.43, cls_loss 0.0009 cls_loss_mapping 0.0022 cls_loss_causal 0.4946 re_mapping 0.0032 re_causal 0.0109 /// teacc 99.09 lr 0.00010000
+Epoch 243, weight, value: tensor([[ 0.0739, -0.1233, -0.1322,  ..., -0.1229, -0.1347, -0.1288],
+        [ 0.0329,  0.0493, -0.0391,  ..., -0.0498,  0.1507,  0.0182],
+        [-0.0174, -0.1569, -0.0061,  ...,  0.1862, -0.1444,  0.0358],
+        ...,
+        [-0.1224,  0.1314,  0.0222,  ..., -0.1347,  0.1012,  0.0553],
+        [ 0.0047, -0.0637,  0.0023,  ..., -0.0844, -0.1607, -0.1583],
+        [ 0.0185, -0.0351, -0.0111,  ..., -0.1911, -0.1528,  0.0290]],
+       device='cuda:0'), grad: tensor([[-4.1968e-08,  2.2643e-08,  5.8208e-11,  ...,  4.1327e-09,
+          2.6543e-08,  2.8929e-08],
+        [-1.3039e-07,  9.8837e-08,  5.8208e-11,  ...,  1.3853e-08,
+         -9.8487e-08,  6.7113e-08],
+        [ 2.3749e-08,  1.2270e-07,  5.8208e-11,  ..., -3.6031e-08,
+          1.6147e-07,  1.1572e-07],
+        ...,
+        [ 4.7788e-08, -7.7952e-07,  0.0000e+00,  ...,  7.3924e-09,
+         -7.7998e-07, -8.8010e-07],
+        [ 2.6193e-09,  2.2817e-08, -5.2387e-10,  ...,  4.6974e-08,
+          4.8138e-08,  5.8673e-08],
+        [ 3.6554e-08,  3.7951e-07,  1.1642e-10,  ...,  2.4773e-07,
+          4.1653e-07,  8.6194e-07]], device='cuda:0')
+Epoch 243, bias, value: tensor([-0.0375,  0.0105,  0.0125,  0.0263,  0.0310, -0.0152,  0.0289,  0.0298,
+        -0.0070,  0.0024], device='cuda:0'), grad: tensor([-8.6962e-08,  3.8138e-07,  7.3155e-07,  2.8755e-07, -1.7108e-06,
+         3.5437e-07, -2.1164e-07, -1.9670e-06, -9.7882e-07,  3.2112e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 242, time 250.61, cls_loss 0.0009 cls_loss_mapping 0.0021 cls_loss_causal 0.4708 re_mapping 0.0037 re_causal 0.0115 /// teacc 99.12 lr 0.00010000
+Epoch 244, weight, value: tensor([[ 0.0745, -0.1235, -0.1323,  ..., -0.1232, -0.1351, -0.1289],
+        [ 0.0329,  0.0507, -0.0391,  ..., -0.0501,  0.1521,  0.0194],
+        [-0.0175, -0.1571, -0.0059,  ...,  0.1864, -0.1447,  0.0358],
+        ...,
+        [-0.1238,  0.1304,  0.0229,  ..., -0.1345,  0.1000,  0.0543],
+        [ 0.0048, -0.0635,  0.0022,  ..., -0.0846, -0.1607, -0.1588],
+        [ 0.0183, -0.0352, -0.0127,  ..., -0.1916, -0.1531,  0.0289]],
+       device='cuda:0'), grad: tensor([[ 1.9674e-08,  1.9034e-08,  0.0000e+00,  ...,  3.1781e-08,
+          5.1165e-08,  1.8859e-08],
+        [-4.3493e-07, -4.0466e-07,  0.0000e+00,  ...,  1.1455e-07,
+         -1.4398e-06, -9.5519e-08],
+        [ 7.5204e-08,  6.6939e-08, -2.3283e-10,  ..., -5.2480e-07,
+          2.0687e-07, -6.0117e-07],
+        ...,
+        [ 6.5891e-08, -2.1467e-07,  0.0000e+00,  ...,  2.0396e-07,
+         -1.2724e-07,  5.5647e-08],
+        [-8.6671e-08,  2.2736e-07,  1.1642e-10,  ...,  1.8743e-07,
+          6.7847e-07,  3.5297e-07],
+        [ 4.5344e-08,  9.4296e-08,  0.0000e+00,  ...,  6.9267e-09,
+          1.1246e-07,  8.5100e-08]], device='cuda:0')
+Epoch 244, bias, value: tensor([-0.0361,  0.0109,  0.0124,  0.0265,  0.0312, -0.0154,  0.0271,  0.0288,
+        -0.0070,  0.0023], device='cuda:0'), grad: tensor([ 2.1630e-07, -1.7667e-06, -1.2843e-06,  9.6299e-07,  1.8231e-07,
+         2.7241e-07,  4.7591e-07,  3.1502e-07,  1.0477e-07,  5.1921e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 243, time 250.45, cls_loss 0.0009 cls_loss_mapping 0.0022 cls_loss_causal 0.5160 re_mapping 0.0034 re_causal 0.0109 /// teacc 99.10 lr 0.00010000
+Epoch 245, weight, value: tensor([[ 0.0745, -0.1240, -0.1322,  ..., -0.1238, -0.1364, -0.1293],
+        [ 0.0329,  0.0523, -0.0395,  ..., -0.0503,  0.1536,  0.0208],
+        [-0.0177, -0.1574, -0.0059,  ...,  0.1870, -0.1450,  0.0360],
+        ...,
+        [-0.1250,  0.1294,  0.0249,  ..., -0.1347,  0.0989,  0.0537],
+        [ 0.0048, -0.0638,  0.0021,  ..., -0.0852, -0.1609, -0.1603],
+        [ 0.0183, -0.0363, -0.0153,  ..., -0.1918, -0.1540,  0.0288]],
+       device='cuda:0'), grad: tensor([[-4.1560e-08,  4.4238e-09,  0.0000e+00,  ...,  3.1199e-08,
+         -4.1910e-08,  1.7462e-08],
+        [ 4.9709e-08, -1.3912e-08,  1.9209e-09,  ...,  2.5611e-08,
+         -1.4459e-07,  1.8277e-08],
+        [ 6.3388e-08,  4.5029e-07,  2.0198e-08,  ..., -1.2619e-07,
+          5.0804e-07,  5.2247e-07],
+        ...,
+        [ 8.6671e-08, -4.7963e-07, -2.2643e-08,  ..., -6.7172e-08,
+         -4.7334e-07, -6.3702e-07],
+        [ 4.1607e-07,  9.6625e-09,  5.8208e-11,  ...,  1.0955e-07,
+          3.2014e-08,  1.0757e-07],
+        [ 2.6124e-07,  7.7416e-09,  5.8208e-11,  ...,  4.5402e-08,
+          5.4482e-08, -5.5530e-08]], device='cuda:0')
+Epoch 245, bias, value: tensor([-0.0363,  0.0114,  0.0125,  0.0266,  0.0312, -0.0161,  0.0280,  0.0280,
+        -0.0071,  0.0022], device='cuda:0'), grad: tensor([-5.0338e-07,  1.0524e-06,  1.1995e-06, -1.6555e-05,  8.8476e-09,
+         6.9328e-06,  2.0303e-07, -2.3562e-07,  5.4352e-06,  2.4512e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 244, time 250.30, cls_loss 0.0008 cls_loss_mapping 0.0019 cls_loss_causal 0.4757 re_mapping 0.0033 re_causal 0.0106 /// teacc 99.11 lr 0.00010000
+Epoch 246, weight, value: tensor([[ 0.0748, -0.1243, -0.1330,  ..., -0.1245, -0.1369, -0.1297],
+        [ 0.0330,  0.0524, -0.0384,  ..., -0.0508,  0.1536,  0.0204],
+        [-0.0177, -0.1575, -0.0059,  ...,  0.1874, -0.1454,  0.0359],
+        ...,
+        [-0.1268,  0.1294,  0.0239,  ..., -0.1351,  0.0991,  0.0542],
+        [ 0.0047, -0.0640,  0.0018,  ..., -0.0862, -0.1609, -0.1611],
+        [ 0.0180, -0.0364, -0.0153,  ..., -0.1922, -0.1542,  0.0288]],
+       device='cuda:0'), grad: tensor([[ 9.4878e-09,  5.2387e-10,  5.8208e-11,  ...,  6.1118e-09,
+          8.1491e-10,  6.4028e-10],
+        [ 3.2596e-09,  2.9104e-09,  0.0000e+00,  ...,  6.1118e-09,
+         -6.4611e-09,  7.0431e-09],
+        [ 8.2073e-09,  5.5297e-09,  0.0000e+00,  ..., -1.4203e-08,
+          6.2282e-09, -5.1805e-09],
+        ...,
+        [ 1.3621e-08, -2.3807e-08,  0.0000e+00,  ...,  4.3656e-09,
+         -1.6764e-08, -1.5949e-08],
+        [ 1.7602e-07,  4.9477e-09,  1.1642e-10,  ...,  5.0059e-09,
+          8.7894e-09,  6.0536e-09],
+        [ 2.8801e-07,  7.1013e-09,  0.0000e+00,  ...,  7.6834e-09,
+          5.8790e-09,  1.4959e-08]], device='cuda:0')
+Epoch 246, bias, value: tensor([-0.0365,  0.0113,  0.0124,  0.0260,  0.0312, -0.0151,  0.0284,  0.0282,
+        -0.0072,  0.0022], device='cuda:0'), grad: tensor([ 7.5903e-08,  9.2317e-08,  1.0361e-07,  4.4564e-07,  1.5600e-08,
+        -3.9786e-06,  2.3074e-07,  1.1991e-07,  1.0300e-06,  1.8803e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 245, time 250.43, cls_loss 0.0010 cls_loss_mapping 0.0027 cls_loss_causal 0.5023 re_mapping 0.0032 re_causal 0.0105 /// teacc 99.12 lr 0.00010000
+Epoch 247, weight, value: tensor([[ 0.0753, -0.1244, -0.1337,  ..., -0.1232, -0.1371, -0.1300],
+        [ 0.0330,  0.0525, -0.0386,  ..., -0.0510,  0.1536,  0.0202],
+        [-0.0181, -0.1576, -0.0081,  ...,  0.1871, -0.1458,  0.0358],
+        ...,
+        [-0.1276,  0.1294,  0.0233,  ..., -0.1354,  0.0992,  0.0545],
+        [ 0.0049, -0.0643,  0.0060,  ..., -0.0834, -0.1611, -0.1614],
+        [ 0.0178, -0.0366, -0.0154,  ..., -0.1929, -0.1544,  0.0288]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-10,  1.5134e-09,  8.7311e-10,  ...,  1.4144e-08,
+          1.9791e-09,  6.1118e-09],
+        [-2.9569e-08, -9.6625e-09,  9.3132e-10,  ...,  2.5844e-08,
+         -7.4971e-08,  5.1223e-09],
+        [ 1.1118e-08,  8.2073e-09,  5.2387e-10,  ..., -1.3586e-07,
+          1.2747e-08, -9.8837e-08],
+        ...,
+        [ 2.4913e-08, -2.3749e-08, -9.8953e-10,  ...,  4.1095e-08,
+         -8.3237e-09,  1.7870e-08],
+        [-2.5961e-08,  1.1176e-08,  8.1491e-10,  ...,  6.1991e-08,
+          3.0559e-08,  5.6811e-08],
+        [ 2.6193e-09,  1.1583e-08, -5.2969e-09,  ...,  2.1304e-08,
+          1.0536e-08,  8.3819e-09]], device='cuda:0')
+Epoch 247, bias, value: tensor([-0.0358,  0.0112,  0.0120,  0.0256,  0.0312, -0.0158,  0.0279,  0.0283,
+        -0.0069,  0.0021], device='cuda:0'), grad: tensor([ 6.5076e-08,  5.4948e-08, -2.2468e-07,  1.7718e-07, -1.5146e-07,
+        -2.5239e-07,  3.9814e-08,  1.7567e-07,  6.1002e-08,  6.2049e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 246, time 250.34, cls_loss 0.0012 cls_loss_mapping 0.0026 cls_loss_causal 0.4973 re_mapping 0.0033 re_causal 0.0105 /// teacc 99.13 lr 0.00010000
+Epoch 248, weight, value: tensor([[ 0.0759, -0.1249, -0.1340,  ..., -0.1227, -0.1377, -0.1303],
+        [ 0.0330,  0.0519, -0.0387,  ..., -0.0517,  0.1533,  0.0196],
+        [-0.0182, -0.1574, -0.0096,  ...,  0.1890, -0.1453,  0.0370],
+        ...,
+        [-0.1271,  0.1301,  0.0232,  ..., -0.1376,  0.0997,  0.0546],
+        [ 0.0048, -0.0649,  0.0046,  ..., -0.0843, -0.1613, -0.1632],
+        [ 0.0176, -0.0366, -0.0154,  ..., -0.1936, -0.1545,  0.0288]],
+       device='cuda:0'), grad: tensor([[-4.0745e-09,  7.8580e-09,  0.0000e+00,  ...,  3.7136e-08,
+          2.0314e-08,  4.6333e-08],
+        [-3.6997e-07, -3.3295e-07,  1.7462e-10,  ...,  5.3085e-08,
+         -1.0096e-06, -1.8324e-07],
+        [ 3.5740e-08,  1.7288e-08,  5.8208e-11,  ..., -5.4063e-07,
+          5.3726e-08, -7.4785e-07],
+        ...,
+        [ 7.1654e-08,  2.7358e-08, -4.0745e-10,  ...,  1.4692e-07,
+          1.4587e-07,  2.3004e-07],
+        [ 2.3888e-07,  1.9674e-07,  0.0000e+00,  ...,  5.9837e-08,
+          5.5879e-07,  2.1874e-07],
+        [ 7.7533e-08,  3.7311e-08,  1.1642e-10,  ...,  1.2456e-08,
+          8.8417e-08,  4.3656e-08]], device='cuda:0')
+Epoch 248, bias, value: tensor([-0.0357,  0.0111,  0.0128,  0.0287,  0.0311, -0.0164,  0.0287,  0.0282,
+        -0.0070,  0.0021], device='cuda:0'), grad: tensor([ 1.5891e-07, -1.3169e-06, -3.4291e-06,  2.3488e-06,  3.7020e-07,
+        -2.8834e-06,  1.4994e-06,  1.2815e-06,  1.4855e-06,  4.9593e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 247, time 250.32, cls_loss 0.0009 cls_loss_mapping 0.0020 cls_loss_causal 0.4935 re_mapping 0.0032 re_causal 0.0107 /// teacc 99.10 lr 0.00010000
+Epoch 249, weight, value: tensor([[ 0.0743, -0.1252, -0.1341,  ..., -0.1241, -0.1382, -0.1327],
+        [ 0.0331,  0.0514, -0.0388,  ..., -0.0521,  0.1532,  0.0193],
+        [-0.0183, -0.1576, -0.0097,  ...,  0.1901, -0.1455,  0.0376],
+        ...,
+        [-0.1270,  0.1307,  0.0230,  ..., -0.1378,  0.1001,  0.0548],
+        [ 0.0048, -0.0658,  0.0047,  ..., -0.0846, -0.1615, -0.1647],
+        [ 0.0178, -0.0366, -0.0147,  ..., -0.1938, -0.1546,  0.0288]],
+       device='cuda:0'), grad: tensor([[ 1.7893e-07,  5.2387e-10,  6.4785e-08,  ...,  9.8778e-08,
+          8.9640e-09,  2.0373e-08],
+        [ 1.7369e-07, -6.8103e-09,  6.2108e-08,  ...,  2.7730e-07,
+         -2.3516e-08,  1.3516e-07],
+        [ 1.6356e-07,  7.5670e-09,  5.3144e-08,  ..., -1.0314e-07,
+          1.8161e-08, -1.8231e-07],
+        ...,
+        [ 1.3504e-08, -2.4389e-08,  1.5134e-09,  ...,  7.8406e-08,
+          2.1781e-07,  5.4343e-07],
+        [-2.0675e-06,  1.1001e-08, -7.0687e-07,  ..., -7.6042e-07,
+          4.3306e-08,  5.2329e-08],
+        [ 6.9290e-07,  3.7253e-09,  2.4610e-07,  ...,  3.1944e-07,
+         -8.2515e-07, -1.7211e-06]], device='cuda:0')
+Epoch 249, bias, value: tensor([-0.0374,  0.0110,  0.0131,  0.0284,  0.0311, -0.0158,  0.0290,  0.0282,
+        -0.0070,  0.0021], device='cuda:0'), grad: tensor([ 8.4611e-07,  1.8263e-06,  3.5460e-07,  1.5344e-07,  4.0270e-06,
+         2.2605e-05, -2.0653e-05,  1.8608e-06, -7.9423e-06, -3.1088e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 248, time 250.29, cls_loss 0.0009 cls_loss_mapping 0.0022 cls_loss_causal 0.4764 re_mapping 0.0034 re_causal 0.0111 /// teacc 99.14 lr 0.00010000
+Epoch 250, weight, value: tensor([[ 0.0748, -0.1255, -0.1344,  ..., -0.1241, -0.1385, -0.1331],
+        [ 0.0330,  0.0512, -0.0384,  ..., -0.0522,  0.1531,  0.0189],
+        [-0.0186, -0.1577, -0.0100,  ...,  0.1906, -0.1457,  0.0377],
+        ...,
+        [-0.1271,  0.1309,  0.0230,  ..., -0.1381,  0.1003,  0.0550],
+        [ 0.0048, -0.0660,  0.0045,  ..., -0.0852, -0.1616, -0.1659],
+        [ 0.0205, -0.0366, -0.0128,  ..., -0.1942, -0.1547,  0.0289]],
+       device='cuda:0'), grad: tensor([[-7.9628e-07,  3.4925e-10,  5.8208e-11,  ..., -5.7975e-08,
+          1.9791e-09,  4.0804e-08],
+        [-3.9290e-08, -5.1805e-08,  1.1642e-10,  ...,  6.8569e-08,
+         -3.8021e-07, -1.5507e-07],
+        [ 1.0349e-07,  1.7346e-08,  0.0000e+00,  ..., -2.0640e-07,
+          5.3318e-08, -1.2841e-07],
+        ...,
+        [ 6.5949e-08, -5.0059e-09,  2.9104e-10,  ...,  3.1258e-08,
+          6.7230e-08,  5.7509e-08],
+        [ 9.3482e-08,  2.9569e-08,  5.8208e-11,  ...,  4.5984e-08,
+          9.0105e-08,  7.2410e-08],
+        [-7.1363e-08,  9.3132e-10, -3.6671e-09,  ...,  1.2049e-08,
+          3.6089e-09, -9.8895e-08]], device='cuda:0')
+Epoch 250, bias, value: tensor([-0.0372,  0.0108,  0.0131,  0.0283,  0.0311, -0.0158,  0.0290,  0.0283,
+        -0.0071,  0.0022], device='cuda:0'), grad: tensor([-2.4643e-06, -3.4401e-08,  6.5775e-08, -1.7649e-06,  6.8033e-07,
+         1.9893e-06,  9.1782e-07,  3.7672e-07,  5.9837e-07, -3.6252e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 249, time 250.23, cls_loss 0.0008 cls_loss_mapping 0.0013 cls_loss_causal 0.4758 re_mapping 0.0030 re_causal 0.0105 /// teacc 99.11 lr 0.00010000
+Epoch 251, weight, value: tensor([[ 0.0766, -0.1258, -0.1345,  ..., -0.1223, -0.1394, -0.1335],
+        [ 0.0330,  0.0512, -0.0388,  ..., -0.0525,  0.1532,  0.0188],
+        [-0.0196, -0.1580, -0.0100,  ...,  0.1895, -0.1460,  0.0375],
+        ...,
+        [-0.1275,  0.1309,  0.0235,  ..., -0.1386,  0.1004,  0.0551],
+        [ 0.0048, -0.0662,  0.0044,  ..., -0.0855, -0.1617, -0.1671],
+        [ 0.0206, -0.0366, -0.0125,  ..., -0.1944, -0.1547,  0.0289]],
+       device='cuda:0'), grad: tensor([[-7.9744e-09,  1.7462e-10,  5.8208e-11,  ...,  2.2037e-07,
+          4.6566e-10,  1.2165e-07],
+        [-1.1467e-08, -6.4028e-09,  1.0477e-09,  ...,  6.5949e-08,
+         -4.6042e-08,  2.5553e-08],
+        [ 4.2492e-09,  2.7940e-09,  1.1642e-10,  ..., -9.5274e-07,
+          9.1968e-09, -6.1747e-07],
+        ...,
+        [ 5.8208e-09, -1.0827e-08, -1.6298e-09,  ...,  2.7474e-08,
+         -6.9849e-09,  7.5670e-09],
+        [ 5.7742e-08,  6.5775e-09,  1.1059e-09,  ...,  2.9313e-07,
+          2.8347e-08,  1.9372e-07],
+        [ 8.1491e-10,  2.5611e-09, -6.2282e-09,  ...,  4.2492e-08,
+          3.3178e-09,  1.6298e-09]], device='cuda:0')
+Epoch 251, bias, value: tensor([-0.0358,  0.0107,  0.0123,  0.0284,  0.0311, -0.0160,  0.0287,  0.0283,
+        -0.0070,  0.0022], device='cuda:0'), grad: tensor([ 6.3237e-07,  1.6461e-07, -2.9951e-06,  5.0850e-07,  7.9069e-07,
+        -3.8603e-07, -2.0396e-07,  9.9011e-08,  1.3253e-06,  6.1933e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 250----------------------------------------------------
+epoch 250, time 251.05, cls_loss 0.0008 cls_loss_mapping 0.0018 cls_loss_causal 0.4867 re_mapping 0.0030 re_causal 0.0104 /// teacc 99.19 lr 0.00010000
+Epoch 252, weight, value: tensor([[ 0.0768, -0.1259, -0.1366,  ..., -0.1217, -0.1397, -0.1336],
+        [ 0.0330,  0.0513, -0.0369,  ..., -0.0529,  0.1534,  0.0189],
+        [-0.0195, -0.1584, -0.0082,  ...,  0.1895, -0.1465,  0.0374],
+        ...,
+        [-0.1284,  0.1310,  0.0228,  ..., -0.1387,  0.1004,  0.0551],
+        [ 0.0048, -0.0664,  0.0040,  ..., -0.0862, -0.1619, -0.1683],
+        [ 0.0206, -0.0367, -0.0130,  ..., -0.1947, -0.1548,  0.0289]],
+       device='cuda:0'), grad: tensor([[-4.1686e-06,  1.2515e-09,  4.9477e-10,  ..., -4.2468e-06,
+          1.7462e-09,  4.0454e-09],
+        [ 1.6706e-08,  2.0314e-07,  1.8626e-09,  ...,  1.1793e-07,
+          1.6566e-07,  3.7742e-07],
+        [ 7.5391e-07,  4.7963e-07,  3.4925e-10,  ...,  7.8045e-07,
+          5.5507e-07,  7.2876e-07],
+        ...,
+        [ 2.1042e-08, -7.6601e-07,  7.3051e-09,  ...,  2.6805e-08,
+         -8.7917e-07, -1.1167e-06],
+        [ 9.7323e-08,  3.1228e-08,  2.2643e-08,  ...,  7.8231e-08,
+          5.3202e-08,  1.1042e-07],
+        [ 1.3020e-06,  3.3586e-08, -5.2474e-08,  ...,  1.3877e-06,
+          3.6118e-08, -1.0699e-07]], device='cuda:0')
+Epoch 252, bias, value: tensor([-0.0355,  0.0108,  0.0122,  0.0287,  0.0311, -0.0160,  0.0287,  0.0283,
+        -0.0071,  0.0022], device='cuda:0'), grad: tensor([-1.2122e-05,  9.7509e-07,  3.7234e-06,  6.5612e-07, -1.4377e-07,
+         5.3272e-07,  4.6007e-06, -2.2501e-06,  6.2957e-07,  3.3509e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 251, time 250.13, cls_loss 0.0010 cls_loss_mapping 0.0019 cls_loss_causal 0.4809 re_mapping 0.0032 re_causal 0.0102 /// teacc 99.11 lr 0.00010000
+Epoch 253, weight, value: tensor([[ 0.0766, -0.1264, -0.1367,  ..., -0.1217, -0.1425, -0.1355],
+        [ 0.0330,  0.0509, -0.0371,  ..., -0.0564,  0.1531,  0.0173],
+        [-0.0198, -0.1587, -0.0083,  ...,  0.1898, -0.1472,  0.0372],
+        ...,
+        [-0.1299,  0.1312,  0.0240,  ..., -0.1393,  0.1006,  0.0553],
+        [ 0.0049, -0.0666,  0.0041,  ..., -0.0864, -0.1619, -0.1694],
+        [ 0.0206, -0.0369, -0.0137,  ..., -0.1953, -0.1551,  0.0289]],
+       device='cuda:0'), grad: tensor([[-9.5170e-09,  1.1642e-10,  3.2014e-10,  ...,  1.4843e-09,
+          3.4925e-10,  2.0664e-09],
+        [-1.2806e-08,  5.0641e-09,  6.4028e-10,  ...,  5.3842e-09,
+         -2.5349e-08,  6.7812e-09],
+        [ 6.4902e-09,  2.8056e-08,  3.4925e-10,  ..., -1.6851e-08,
+          2.1450e-08,  6.8976e-09],
+        ...,
+        [ 1.1205e-08, -4.6362e-08,  3.5798e-09,  ...,  5.7626e-09,
+         -2.3516e-08, -9.2550e-09],
+        [ 7.2585e-08,  3.6962e-09,  3.4197e-08,  ...,  3.7253e-09,
+          1.8044e-08,  8.6613e-08],
+        [-7.9570e-08,  4.8021e-09, -4.9011e-08,  ...,  1.2515e-08,
+          4.1036e-09, -1.0390e-07]], device='cuda:0')
+Epoch 253, bias, value: tensor([-0.0362,  0.0102,  0.0121,  0.0289,  0.0313, -0.0164,  0.0289,  0.0284,
+        -0.0070,  0.0022], device='cuda:0'), grad: tensor([-3.8417e-08,  2.4127e-08,  5.4861e-08,  1.9465e-07,  8.0909e-08,
+        -5.7090e-07,  1.8766e-07,  1.5803e-08,  6.4587e-07, -5.7835e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 252, time 250.22, cls_loss 0.0008 cls_loss_mapping 0.0022 cls_loss_causal 0.4702 re_mapping 0.0035 re_causal 0.0110 /// teacc 99.13 lr 0.00010000
+Epoch 254, weight, value: tensor([[ 0.0769, -0.1266, -0.1367,  ..., -0.1217, -0.1427, -0.1358],
+        [ 0.0331,  0.0510, -0.0378,  ..., -0.0566,  0.1533,  0.0174],
+        [-0.0199, -0.1590, -0.0078,  ...,  0.1906, -0.1474,  0.0375],
+        ...,
+        [-0.1301,  0.1315,  0.0254,  ..., -0.1395,  0.1007,  0.0556],
+        [ 0.0048, -0.0672,  0.0033,  ..., -0.0875, -0.1622, -0.1719],
+        [ 0.0201, -0.0374, -0.0146,  ..., -0.1956, -0.1555,  0.0283]],
+       device='cuda:0'), grad: tensor([[-2.3952e-08,  6.5775e-09,  0.0000e+00,  ...,  2.6193e-10,
+          1.3941e-08,  5.7917e-09],
+        [-4.4191e-07, -1.3772e-07,  2.9104e-10,  ...,  5.8208e-10,
+         -8.8150e-07,  2.1129e-08],
+        [ 3.8737e-08,  1.2352e-07,  5.5297e-10,  ...,  1.7462e-10,
+          1.6880e-07,  1.0699e-07],
+        ...,
+        [ 3.4081e-08, -9.2480e-07, -5.5297e-10,  ...,  1.2515e-09,
+         -7.4040e-07, -6.8499e-07],
+        [ 3.1432e-07,  3.5786e-07, -1.0768e-09,  ...,  5.5297e-10,
+          8.2329e-07,  1.8650e-07],
+        [ 3.2742e-08,  1.7823e-07,  3.7835e-10,  ...,  2.6193e-09,
+          1.6764e-07,  1.3493e-07]], device='cuda:0')
+Epoch 254, bias, value: tensor([-0.0360,  0.0103,  0.0124,  0.0289,  0.0319, -0.0163,  0.0288,  0.0286,
+        -0.0072,  0.0016], device='cuda:0'), grad: tensor([-1.4203e-07, -1.6997e-06,  5.1595e-07,  4.8941e-07,  2.0210e-07,
+        -5.4203e-07,  4.0070e-07, -2.2277e-06,  2.1625e-06,  8.4424e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 253, time 250.41, cls_loss 0.0009 cls_loss_mapping 0.0024 cls_loss_causal 0.4820 re_mapping 0.0034 re_causal 0.0105 /// teacc 99.07 lr 0.00010000
+Epoch 255, weight, value: tensor([[ 0.0771, -0.1267, -0.1368,  ..., -0.1217, -0.1429, -0.1361],
+        [ 0.0332,  0.0510, -0.0383,  ..., -0.0573,  0.1533,  0.0171],
+        [-0.0198, -0.1590, -0.0065,  ...,  0.1926, -0.1476,  0.0384],
+        ...,
+        [-0.1310,  0.1330,  0.0250,  ..., -0.1412,  0.1012,  0.0577],
+        [ 0.0046, -0.0672,  0.0027,  ..., -0.0889, -0.1623, -0.1745],
+        [ 0.0220, -0.0380, -0.0147,  ..., -0.1968, -0.1557,  0.0276]],
+       device='cuda:0'), grad: tensor([[ 4.0745e-09,  1.2631e-08,  2.3283e-10,  ...,  2.1246e-09,
+          1.7491e-08,  1.0827e-08],
+        [-8.3994e-08,  5.0466e-08,  1.4843e-09,  ...,  1.0186e-09,
+         -2.1816e-07, -3.9494e-08],
+        [ 2.6572e-08,  1.1275e-07,  1.6589e-09,  ..., -4.1473e-08,
+          1.8370e-07,  3.1723e-08],
+        ...,
+        [ 3.1199e-08, -7.8697e-07, -1.6153e-08,  ...,  4.4238e-09,
+         -7.5623e-07, -5.6112e-07],
+        [ 2.9802e-08,  3.0326e-08,  6.6939e-10,  ...,  6.2864e-09,
+          9.4355e-08,  4.7585e-08],
+        [ 2.9482e-08,  2.6589e-07,  7.2760e-09,  ...,  1.8626e-09,
+          2.5705e-07,  2.3458e-07]], device='cuda:0')
+Epoch 255, bias, value: tensor([-0.0359,  0.0102,  0.0137,  0.0287,  0.0324, -0.0163,  0.0285,  0.0303,
+        -0.0076,  0.0009], device='cuda:0'), grad: tensor([ 6.4960e-08, -2.0606e-07, -1.5774e-08,  1.0887e-06,  1.5239e-07,
+        -4.8615e-07,  8.6089e-08, -1.6810e-06,  2.0664e-07,  8.0187e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 254, time 250.20, cls_loss 0.0010 cls_loss_mapping 0.0023 cls_loss_causal 0.4630 re_mapping 0.0031 re_causal 0.0098 /// teacc 99.08 lr 0.00010000
+Epoch 256, weight, value: tensor([[ 0.0761, -0.1271, -0.1368,  ..., -0.1221, -0.1434, -0.1380],
+        [ 0.0332,  0.0509, -0.0383,  ..., -0.0576,  0.1535,  0.0169],
+        [-0.0199, -0.1593, -0.0065,  ...,  0.1936, -0.1479,  0.0390],
+        ...,
+        [-0.1315,  0.1330,  0.0244,  ..., -0.1423,  0.1012,  0.0570],
+        [ 0.0045, -0.0674,  0.0024,  ..., -0.0894, -0.1626, -0.1764],
+        [ 0.0230, -0.0371, -0.0131,  ..., -0.1990, -0.1545,  0.0276]],
+       device='cuda:0'), grad: tensor([[ 2.3923e-08,  2.2992e-08,  0.0000e+00,  ...,  2.2934e-08,
+          7.2410e-08,  3.4226e-08],
+        [-1.8254e-06, -1.4231e-06,  0.0000e+00,  ...,  1.3399e-07,
+         -6.5044e-06, -9.5228e-07],
+        [ 1.2096e-07,  2.9476e-07,  0.0000e+00,  ..., -4.2084e-08,
+          7.4226e-07,  3.9418e-07],
+        ...,
+        [ 3.2363e-07, -6.5006e-07,  0.0000e+00,  ...,  4.5518e-08,
+         -1.8231e-07, -1.0459e-06],
+        [ 1.1744e-06,  1.0412e-06,  0.0000e+00,  ...,  1.8242e-07,
+          4.0717e-06,  1.0710e-06],
+        [ 1.3376e-07,  2.0640e-07,  0.0000e+00,  ...,  9.5926e-08,
+          6.2818e-07,  4.1653e-07]], device='cuda:0')
+Epoch 256, bias, value: tensor([-0.0371,  0.0102,  0.0140,  0.0279,  0.0325, -0.0164,  0.0287,  0.0298,
+        -0.0078,  0.0010], device='cuda:0'), grad: tensor([ 2.5099e-07, -1.1988e-05,  1.5832e-06,  2.0359e-06, -1.1027e-06,
+        -6.0350e-06,  4.9435e-06, -7.5158e-07,  9.2089e-06,  1.7909e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 255, time 250.19, cls_loss 0.0008 cls_loss_mapping 0.0021 cls_loss_causal 0.4809 re_mapping 0.0033 re_causal 0.0104 /// teacc 99.10 lr 0.00010000
+Epoch 257, weight, value: tensor([[ 0.0748, -0.1273, -0.1385,  ..., -0.1221, -0.1463, -0.1381],
+        [ 0.0333,  0.0507, -0.0388,  ..., -0.0578,  0.1536,  0.0167],
+        [-0.0204, -0.1594, -0.0067,  ...,  0.1943, -0.1477,  0.0393],
+        ...,
+        [-0.1321,  0.1333,  0.0253,  ..., -0.1434,  0.1014,  0.0572],
+        [ 0.0046, -0.0678,  0.0035,  ..., -0.0896, -0.1628, -0.1775],
+        [ 0.0227, -0.0373, -0.0136,  ..., -0.1993, -0.1549,  0.0276]],
+       device='cuda:0'), grad: tensor([[ 5.2387e-10,  1.1642e-10,  1.1642e-10,  ...,  9.3074e-08,
+          1.3388e-09,  7.6834e-09],
+        [-3.3295e-08, -5.2387e-09,  2.3283e-10,  ...,  6.6881e-08,
+         -1.0064e-07, -1.1933e-08],
+        [ 1.1467e-08,  3.5507e-09,  5.8208e-11,  ...,  8.9873e-08,
+          2.7416e-08,  1.5483e-08],
+        ...,
+        [ 5.7626e-09, -5.7044e-09,  2.0955e-09,  ...,  4.4820e-09,
+          1.0477e-08,  1.7986e-08],
+        [-1.5716e-09,  1.5716e-09,  5.8208e-11,  ...,  2.0990e-07,
+          1.7404e-08,  8.4983e-09],
+        [-1.2049e-08,  2.5029e-09, -5.3551e-09,  ...,  2.5670e-08,
+          3.4343e-09, -4.6799e-08]], device='cuda:0')
+Epoch 257, bias, value: tensor([-0.0382,  0.0102,  0.0141,  0.0285,  0.0325, -0.0171,  0.0288,  0.0300,
+        -0.0076,  0.0010], device='cuda:0'), grad: tensor([ 3.1898e-07,  9.8953e-09,  3.6345e-07,  9.2143e-08,  4.9185e-08,
+         6.9141e-06, -8.2403e-06,  7.2294e-08,  6.4727e-07, -2.3888e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 256, time 250.32, cls_loss 0.0010 cls_loss_mapping 0.0022 cls_loss_causal 0.5113 re_mapping 0.0033 re_causal 0.0106 /// teacc 99.09 lr 0.00010000
+Epoch 258, weight, value: tensor([[ 0.0750, -0.1274, -0.1386,  ..., -0.1224, -0.1464, -0.1383],
+        [ 0.0333,  0.0508, -0.0388,  ..., -0.0578,  0.1537,  0.0167],
+        [-0.0206, -0.1596, -0.0072,  ...,  0.1948, -0.1480,  0.0395],
+        ...,
+        [-0.1327,  0.1334,  0.0253,  ..., -0.1436,  0.1015,  0.0573],
+        [ 0.0054, -0.0680,  0.0023,  ..., -0.0906, -0.1629, -0.1785],
+        [ 0.0225, -0.0374, -0.0138,  ..., -0.1996, -0.1549,  0.0276]],
+       device='cuda:0'), grad: tensor([[-9.8313e-08,  8.7311e-10,  0.0000e+00,  ...,  2.3632e-08,
+          5.6461e-09,  1.3621e-08],
+        [-2.3458e-08, -2.8813e-08,  0.0000e+00,  ...,  8.9873e-08,
+         -2.0966e-07,  8.2480e-08],
+        [ 2.6484e-08,  6.8685e-09,  0.0000e+00,  ..., -2.4738e-08,
+          4.6042e-08,  9.0222e-09],
+        ...,
+        [ 1.9441e-08,  3.2596e-09,  0.0000e+00,  ...,  5.8790e-08,
+          2.1188e-08,  2.2911e-07],
+        [ 5.9884e-07,  9.7789e-09,  0.0000e+00,  ...,  8.6613e-08,
+          6.9267e-08,  1.4296e-06],
+        [-2.5961e-07,  3.4925e-10,  0.0000e+00,  ...,  3.7206e-07,
+          2.1537e-09, -1.2387e-06]], device='cuda:0')
+Epoch 258, bias, value: tensor([-0.0386,  0.0102,  0.0142,  0.0285,  0.0325, -0.0191,  0.0290,  0.0300,
+        -0.0063,  0.0010], device='cuda:0'), grad: tensor([-5.0897e-07,  4.7428e-07,  2.6124e-07,  2.1588e-06, -1.2908e-06,
+        -5.5879e-06,  9.0571e-07,  1.0785e-06,  1.1548e-05, -9.0301e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 257, time 249.81, cls_loss 0.0010 cls_loss_mapping 0.0019 cls_loss_causal 0.4754 re_mapping 0.0031 re_causal 0.0103 /// teacc 99.18 lr 0.00010000
+Epoch 259, weight, value: tensor([[ 0.0750, -0.1282, -0.1386,  ..., -0.1225, -0.1472, -0.1389],
+        [ 0.0335,  0.0509, -0.0389,  ..., -0.0577,  0.1541,  0.0169],
+        [-0.0210, -0.1602, -0.0072,  ...,  0.1954, -0.1491,  0.0392],
+        ...,
+        [-0.1333,  0.1336,  0.0254,  ..., -0.1434,  0.1017,  0.0571],
+        [ 0.0053, -0.0696,  0.0023,  ..., -0.0918, -0.1635, -0.1834],
+        [ 0.0234, -0.0373, -0.0143,  ..., -0.2001, -0.1551,  0.0278]],
+       device='cuda:0'), grad: tensor([[ 3.0210e-08,  1.3970e-09,  0.0000e+00,  ..., -5.7044e-09,
+          2.0955e-09,  4.6566e-09],
+        [ 1.8962e-06, -3.2596e-08,  1.7462e-10,  ...,  3.4925e-09,
+         -1.9930e-07, -2.0780e-08],
+        [ 1.1030e-07,  3.6962e-08, -3.4925e-10,  ..., -7.3342e-09,
+          5.6461e-08,  8.1025e-08],
+        ...,
+        [ 2.9744e-08, -8.4052e-08, -1.1642e-10,  ...,  1.2340e-08,
+         -5.6112e-08, -6.8452e-08],
+        [ 2.4531e-06,  1.3097e-08,  5.8208e-11,  ...,  3.6671e-09,
+          6.2399e-08,  1.4873e-06],
+        [-2.4177e-06,  1.6880e-08,  5.8208e-11,  ...,  3.6089e-09,
+          2.2468e-08, -2.2091e-06]], device='cuda:0')
+Epoch 259, bias, value: tensor([-0.0390,  0.0103,  0.0140,  0.0283,  0.0324, -0.0191,  0.0288,  0.0296,
+        -0.0065,  0.0013], device='cuda:0'), grad: tensor([ 1.6880e-09,  4.3660e-06,  5.2946e-07,  2.3656e-06,  1.8720e-06,
+        -6.7092e-06,  5.1083e-07, -6.3155e-08,  1.1049e-05, -1.3970e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 258, time 250.09, cls_loss 0.0009 cls_loss_mapping 0.0021 cls_loss_causal 0.4834 re_mapping 0.0032 re_causal 0.0105 /// teacc 99.06 lr 0.00010000
+Epoch 260, weight, value: tensor([[ 0.0750, -0.1284, -0.1386,  ..., -0.1226, -0.1473, -0.1391],
+        [ 0.0334,  0.0508, -0.0390,  ..., -0.0580,  0.1545,  0.0164],
+        [-0.0213, -0.1616, -0.0072,  ...,  0.1959, -0.1504,  0.0387],
+        ...,
+        [-0.1335,  0.1352,  0.0254,  ..., -0.1436,  0.1029,  0.0586],
+        [ 0.0053, -0.0703,  0.0023,  ..., -0.0923, -0.1636, -0.1854],
+        [ 0.0241, -0.0393, -0.0143,  ..., -0.1999, -0.1571,  0.0277]],
+       device='cuda:0'), grad: tensor([[-1.4491e-06,  3.5507e-09,  2.0955e-09,  ..., -4.2585e-07,
+          8.6729e-09,  5.7626e-09],
+        [ 2.7148e-07,  5.0000e-08,  1.1118e-08,  ...,  1.2759e-07,
+         -3.4133e-07, -4.9942e-08],
+        [ 6.7987e-07,  3.6147e-08,  5.8208e-09,  ...,  2.5751e-07,
+          9.2725e-08,  5.2212e-08],
+        ...,
+        [ 5.2096e-08, -5.2014e-07,  9.1596e-07,  ...,  2.2701e-09,
+         -8.6846e-07, -6.1421e-07],
+        [ 1.0506e-07,  3.3004e-08,  5.6461e-09,  ...,  1.7986e-08,
+          1.2445e-07,  6.9849e-08],
+        [ 5.9954e-08,  2.5285e-07,  3.0792e-08,  ...,  5.5297e-09,
+          4.8988e-07,  3.0221e-07]], device='cuda:0')
+Epoch 260, bias, value: tensor([-0.0392,  0.0100,  0.0136,  0.0283,  0.0323, -0.0191,  0.0287,  0.0314,
+        -0.0064,  0.0011], device='cuda:0'), grad: tensor([-4.7386e-06,  1.0356e-06,  2.5593e-06, -9.5218e-06,  8.3447e-07,
+        -5.4110e-07,  6.3656e-07,  7.3165e-06,  7.3155e-07,  1.7108e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 259, time 250.59, cls_loss 0.0017 cls_loss_mapping 0.0042 cls_loss_causal 0.5093 re_mapping 0.0031 re_causal 0.0101 /// teacc 99.04 lr 0.00010000
+Epoch 261, weight, value: tensor([[ 0.0749, -0.1286, -0.1388,  ..., -0.1227, -0.1479, -0.1394],
+        [ 0.0335,  0.0507, -0.0391,  ..., -0.0584,  0.1546,  0.0161],
+        [-0.0219, -0.1598, -0.0073,  ...,  0.1985, -0.1513,  0.0409],
+        ...,
+        [-0.1348,  0.1342,  0.0254,  ..., -0.1471,  0.1038,  0.0571],
+        [ 0.0053, -0.0707,  0.0024,  ..., -0.0931, -0.1638, -0.1874],
+        [ 0.0242, -0.0406, -0.0144,  ..., -0.1985, -0.1585,  0.0290]],
+       device='cuda:0'), grad: tensor([[ 2.5029e-08,  7.1595e-09,  0.0000e+00,  ...,  1.5716e-09,
+          1.2806e-08,  1.1874e-08],
+        [-2.7299e-08,  1.0215e-07,  0.0000e+00,  ...,  2.4273e-08,
+          7.6834e-08,  1.6706e-07],
+        [ 4.4121e-08,  1.0161e-06,  0.0000e+00,  ...,  1.4564e-07,
+          1.5330e-06,  1.4678e-06],
+        ...,
+        [ 2.4564e-08, -1.4706e-06,  0.0000e+00,  ..., -2.0245e-07,
+         -2.1812e-06, -2.1495e-06],
+        [-2.0850e-07,  7.2061e-08,  0.0000e+00,  ...,  1.2224e-08,
+          1.3493e-07,  1.1449e-07],
+        [ 5.3318e-08,  5.1688e-08,  0.0000e+00,  ...,  1.2864e-07,
+          7.9570e-08,  1.6589e-07]], device='cuda:0')
+Epoch 261, bias, value: tensor([-0.0395,  0.0099,  0.0155,  0.0282,  0.0302, -0.0190,  0.0291,  0.0299,
+        -0.0065,  0.0031], device='cuda:0'), grad: tensor([ 1.6682e-07,  5.2107e-07,  4.7684e-06,  3.1898e-07, -1.1758e-08,
+         3.4692e-07,  1.2177e-07, -6.4075e-06, -6.7428e-07,  8.4518e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 260, time 250.52, cls_loss 0.0011 cls_loss_mapping 0.0025 cls_loss_causal 0.4805 re_mapping 0.0033 re_causal 0.0104 /// teacc 99.13 lr 0.00010000
+Epoch 262, weight, value: tensor([[ 0.0752, -0.1293, -0.1389,  ..., -0.1228, -0.1482, -0.1399],
+        [ 0.0335,  0.0507, -0.0392,  ..., -0.0586,  0.1550,  0.0161],
+        [-0.0207, -0.1597, -0.0063,  ...,  0.1999, -0.1563,  0.0415],
+        ...,
+        [-0.1354,  0.1343,  0.0255,  ..., -0.1481,  0.1049,  0.0567],
+        [ 0.0052, -0.0721,  0.0016,  ..., -0.0955, -0.1643, -0.1912],
+        [ 0.0241, -0.0407, -0.0144,  ..., -0.1986, -0.1586,  0.0289]],
+       device='cuda:0'), grad: tensor([[-2.2724e-07,  1.7462e-10,  1.5541e-08,  ..., -6.2690e-08,
+          6.9849e-10,  5.8208e-10],
+        [ 3.1490e-08, -2.2701e-09,  8.0909e-09,  ...,  2.9453e-08,
+         -5.3784e-08,  1.8335e-08],
+        [ 6.1525e-08,  1.7462e-09,  7.4506e-09,  ..., -8.1491e-09,
+          9.9535e-09, -2.5902e-08],
+        ...,
+        [ 1.0186e-08, -9.0804e-09,  8.1491e-10,  ...,  6.2282e-09,
+         -5.8208e-10,  6.4028e-10],
+        [-5.3039e-07,  2.8522e-09, -2.0443e-07,  ..., -9.8429e-08,
+          2.6834e-08,  4.7148e-09],
+        [ 1.9697e-07,  2.5611e-09,  5.7684e-08,  ...,  3.7951e-08,
+          2.9104e-09,  6.6357e-09]], device='cuda:0')
+Epoch 262, bias, value: tensor([-0.0394,  0.0100,  0.0158,  0.0266,  0.0302, -0.0189,  0.0291,  0.0297,
+        -0.0068,  0.0031], device='cuda:0'), grad: tensor([-1.1679e-06,  2.9895e-07,  3.4273e-07,  8.8650e-08,  1.0832e-07,
+         4.5449e-07,  1.8692e-06,  7.1654e-08, -2.9597e-06,  8.9686e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 261----------------------------------------------------
+epoch 261, time 251.18, cls_loss 0.0009 cls_loss_mapping 0.0017 cls_loss_causal 0.4841 re_mapping 0.0031 re_causal 0.0099 /// teacc 99.20 lr 0.00010000
+Epoch 263, weight, value: tensor([[ 0.0758, -0.1299, -0.1389,  ..., -0.1229, -0.1489, -0.1408],
+        [ 0.0337,  0.0506, -0.0391,  ..., -0.0583,  0.1554,  0.0161],
+        [-0.0209, -0.1598, -0.0066,  ...,  0.1999, -0.1569,  0.0414],
+        ...,
+        [-0.1367,  0.1344,  0.0263,  ..., -0.1481,  0.1052,  0.0568],
+        [ 0.0052, -0.0727,  0.0018,  ..., -0.0961, -0.1649, -0.1933],
+        [ 0.0240, -0.0408, -0.0146,  ..., -0.1986, -0.1587,  0.0290]],
+       device='cuda:0'), grad: tensor([[-1.6415e-08,  4.6566e-10,  0.0000e+00,  ...,  4.7730e-09,
+          2.5611e-09,  3.4925e-09],
+        [-1.8999e-07, -8.3237e-08,  6.1700e-09,  ...,  9.8604e-08,
+         -5.1456e-07, -2.6776e-08],
+        [-3.8766e-08,  1.0594e-08,  1.0477e-09,  ..., -8.5565e-08,
+          3.2131e-08, -5.6229e-08],
+        ...,
+        [ 4.3306e-08, -2.6426e-08, -1.3271e-08,  ...,  6.5076e-08,
+          6.8219e-08,  3.4575e-08],
+        [ 1.7323e-07,  7.1363e-08,  3.4925e-10,  ...,  1.2363e-07,
+          3.4599e-07,  1.0780e-07],
+        [ 3.7253e-09,  5.9372e-09,  1.2806e-09,  ...,  5.5763e-08,
+          1.0943e-08,  3.5623e-08]], device='cuda:0')
+Epoch 263, bias, value: tensor([-0.0391,  0.0102,  0.0158,  0.0263,  0.0301, -0.0190,  0.0284,  0.0298,
+        -0.0068,  0.0031], device='cuda:0'), grad: tensor([-5.9139e-08, -5.8115e-07, -1.4156e-07,  2.9104e-08, -1.0524e-06,
+         1.4924e-07,  2.4983e-07,  2.8079e-07,  9.5740e-07,  1.8708e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 262, time 250.23, cls_loss 0.0009 cls_loss_mapping 0.0017 cls_loss_causal 0.4860 re_mapping 0.0033 re_causal 0.0107 /// teacc 99.04 lr 0.00010000
+Epoch 264, weight, value: tensor([[ 0.0759, -0.1303, -0.1389,  ..., -0.1230, -0.1492, -0.1412],
+        [ 0.0338,  0.0494, -0.0392,  ..., -0.0584,  0.1547,  0.0154],
+        [-0.0218, -0.1598, -0.0067,  ...,  0.2000, -0.1572,  0.0414],
+        ...,
+        [-0.1376,  0.1350,  0.0267,  ..., -0.1481,  0.1062,  0.0569],
+        [ 0.0052, -0.0737,  0.0018,  ..., -0.0956, -0.1653, -0.1949],
+        [ 0.0239, -0.0409, -0.0147,  ..., -0.1990, -0.1589,  0.0289]],
+       device='cuda:0'), grad: tensor([[-1.1642e-10,  4.6566e-10,  0.0000e+00,  ...,  1.3970e-09,
+          2.3283e-09,  1.0477e-09],
+        [-1.3039e-07, -1.2107e-08,  1.1642e-10,  ..., -9.0804e-09,
+         -2.2387e-07, -6.5309e-08],
+        [ 4.4354e-08,  1.6065e-08,  5.8208e-10,  ...,  6.8685e-09,
+          6.2631e-08,  2.6659e-08],
+        ...,
+        [ 1.9907e-08, -2.7241e-08, -1.5134e-09,  ...,  1.7462e-09,
+          4.8894e-09, -1.5134e-08],
+        [ 2.1653e-08,  8.6147e-09,  1.1642e-10,  ...,  1.0477e-09,
+          1.1304e-07,  3.5740e-08],
+        [ 3.0734e-08,  8.8476e-09,  4.6566e-10,  ...,  2.0373e-08,
+          1.0710e-08,  1.3853e-08]], device='cuda:0')
+Epoch 264, bias, value: tensor([-0.0391,  0.0098,  0.0158,  0.0266,  0.0301, -0.0190,  0.0272,  0.0299,
+        -0.0067,  0.0031], device='cuda:0'), grad: tensor([-6.8685e-09, -3.9791e-07,  2.4913e-07, -5.7276e-07,  3.6089e-09,
+         5.4948e-07,  2.9686e-08,  7.4506e-09, -7.9628e-08,  2.2212e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 263, time 250.18, cls_loss 0.0009 cls_loss_mapping 0.0018 cls_loss_causal 0.4944 re_mapping 0.0031 re_causal 0.0101 /// teacc 99.15 lr 0.00010000
+Epoch 265, weight, value: tensor([[ 0.0777, -0.1308, -0.1391,  ..., -0.1228, -0.1497, -0.1413],
+        [ 0.0339,  0.0486, -0.0396,  ..., -0.0583,  0.1543,  0.0150],
+        [-0.0224, -0.1598, -0.0072,  ...,  0.1999, -0.1576,  0.0414],
+        ...,
+        [-0.1392,  0.1355,  0.0271,  ..., -0.1481,  0.1068,  0.0570],
+        [ 0.0052, -0.0746,  0.0016,  ..., -0.0956, -0.1656, -0.1964],
+        [ 0.0239, -0.0410, -0.0161,  ..., -0.1997, -0.1590,  0.0287]],
+       device='cuda:0'), grad: tensor([[ 2.9569e-08,  1.3271e-08,  1.1642e-10,  ...,  1.2806e-09,
+          2.0140e-08,  2.2119e-08],
+        [-1.1111e-06,  3.1432e-08, -1.9209e-08,  ...,  1.7928e-08,
+         -1.3448e-06, -7.7346e-07],
+        [ 9.6275e-08,  1.6927e-07,  2.0955e-09,  ..., -1.2037e-07,
+          2.9546e-07,  1.7043e-07],
+        ...,
+        [ 3.9604e-07, -3.2526e-07,  3.8417e-09,  ...,  9.5228e-08,
+          1.1816e-07, -2.9686e-08],
+        [ 3.1875e-07,  1.7462e-08,  4.4238e-09,  ...,  1.6065e-08,
+          3.5018e-07,  2.2619e-07],
+        [ 2.0093e-07,  4.7148e-08,  6.2864e-09,  ...,  3.6322e-08,
+          3.7579e-07,  2.3493e-07]], device='cuda:0')
+Epoch 265, bias, value: tensor([-0.0379,  0.0096,  0.0158,  0.0273,  0.0302, -0.0190,  0.0270,  0.0300,
+        -0.0067,  0.0029], device='cuda:0'), grad: tensor([ 3.1432e-07, -3.8669e-06,  9.0292e-07,  2.3260e-07,  4.0047e-07,
+        -2.1979e-06,  1.4976e-06,  7.0594e-07,  1.3271e-06,  7.1106e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 264, time 250.62, cls_loss 0.0008 cls_loss_mapping 0.0017 cls_loss_causal 0.4887 re_mapping 0.0032 re_causal 0.0099 /// teacc 99.12 lr 0.00010000
+Epoch 266, weight, value: tensor([[ 0.0798, -0.1299, -0.1389,  ..., -0.1219, -0.1500, -0.1388],
+        [ 0.0341,  0.0486, -0.0402,  ..., -0.0583,  0.1547,  0.0151],
+        [-0.0231, -0.1599, -0.0091,  ...,  0.1999, -0.1583,  0.0414],
+        ...,
+        [-0.1426,  0.1356,  0.0259,  ..., -0.1481,  0.1068,  0.0570],
+        [ 0.0052, -0.0752,  0.0021,  ..., -0.0951, -0.1661, -0.1977],
+        [ 0.0232, -0.0411, -0.0178,  ..., -0.1999, -0.1591,  0.0287]],
+       device='cuda:0'), grad: tensor([[ 3.4925e-10,  2.3283e-10,  4.6566e-10,  ...,  2.7940e-09,
+          2.3283e-10,  1.9791e-09],
+        [ 2.3283e-10,  2.7940e-09,  2.3283e-10,  ...,  2.7358e-08,
+          2.5611e-09,  1.0594e-08],
+        [ 2.3283e-10,  6.2864e-09,  2.3283e-10,  ..., -2.3283e-10,
+          5.5879e-09,  3.2596e-09],
+        ...,
+        [ 8.3819e-09, -1.8044e-08,  6.7521e-09,  ...,  1.1525e-08,
+         -1.6531e-08,  5.2387e-09],
+        [ 3.0268e-09,  9.3132e-10,  8.1491e-10,  ...,  9.5926e-08,
+          9.3132e-10,  2.7940e-09],
+        [ 1.2806e-09,  4.3074e-09, -4.8894e-09,  ...,  3.6205e-08,
+          3.8417e-09,  2.8405e-08]], device='cuda:0')
+Epoch 266, bias, value: tensor([-0.0356,  0.0098,  0.0157,  0.0276,  0.0302, -0.0190,  0.0268,  0.0300,
+        -0.0067,  0.0029], device='cuda:0'), grad: tensor([ 2.2235e-08,  9.4762e-08,  4.4005e-08, -4.6939e-07, -2.0524e-07,
+         5.3830e-07, -7.9256e-07,  3.8370e-07,  2.7381e-07,  1.2224e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 265, time 250.20, cls_loss 0.0006 cls_loss_mapping 0.0015 cls_loss_causal 0.4589 re_mapping 0.0034 re_causal 0.0108 /// teacc 99.10 lr 0.00010000
+Epoch 267, weight, value: tensor([[ 0.0791, -0.1299, -0.1388,  ..., -0.1216, -0.1501, -0.1408],
+        [ 0.0342,  0.0487, -0.0395,  ..., -0.0583,  0.1551,  0.0153],
+        [-0.0228, -0.1599, -0.0092,  ...,  0.2001, -0.1584,  0.0415],
+        ...,
+        [-0.1443,  0.1356,  0.0259,  ..., -0.1481,  0.1068,  0.0571],
+        [ 0.0051, -0.0754,  0.0020,  ..., -0.0974, -0.1664, -0.1999],
+        [ 0.0231, -0.0413, -0.0183,  ..., -0.2005, -0.1592,  0.0285]],
+       device='cuda:0'), grad: tensor([[-1.3842e-07,  1.4552e-08,  0.0000e+00,  ...,  4.8894e-09,
+          2.0140e-08,  1.6647e-08],
+        [-2.2701e-08,  3.3295e-08,  0.0000e+00,  ...,  3.7369e-08,
+         -2.3399e-08,  5.1688e-08],
+        [ 9.6625e-09,  9.7789e-09,  0.0000e+00,  ..., -6.8569e-08,
+          1.5832e-08, -4.4471e-08],
+        ...,
+        [ 2.0373e-08, -4.4773e-07,  0.0000e+00,  ...,  1.2107e-08,
+         -5.5460e-07, -4.4261e-07],
+        [ 1.3039e-08,  1.6880e-08,  0.0000e+00,  ...,  2.6310e-08,
+          3.1316e-08,  3.2713e-08],
+        [ 7.1595e-08,  3.0966e-07,  0.0000e+00,  ...,  3.1781e-08,
+          4.1537e-07,  3.6322e-07]], device='cuda:0')
+Epoch 267, bias, value: tensor([-0.0363,  0.0099,  0.0158,  0.0281,  0.0303, -0.0192,  0.0269,  0.0300,
+        -0.0068,  0.0028], device='cuda:0'), grad: tensor([-4.8988e-07,  1.0710e-07, -3.2946e-08,  2.3865e-08,  1.2480e-07,
+         5.1456e-07, -6.2957e-07, -1.1250e-06,  1.7229e-07,  1.3495e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 266, time 250.29, cls_loss 0.0007 cls_loss_mapping 0.0018 cls_loss_causal 0.4748 re_mapping 0.0031 re_causal 0.0102 /// teacc 99.03 lr 0.00010000
+Epoch 268, weight, value: tensor([[ 0.0793, -0.1300, -0.1388,  ..., -0.1220, -0.1502, -0.1409],
+        [ 0.0343,  0.0486, -0.0396,  ..., -0.0585,  0.1551,  0.0152],
+        [-0.0232, -0.1600, -0.0094,  ...,  0.2000, -0.1587,  0.0415],
+        ...,
+        [-0.1447,  0.1357,  0.0258,  ..., -0.1481,  0.1069,  0.0571],
+        [ 0.0052, -0.0755,  0.0023,  ..., -0.0975, -0.1665, -0.2008],
+        [ 0.0230, -0.0414, -0.0186,  ..., -0.2006, -0.1593,  0.0285]],
+       device='cuda:0'), grad: tensor([[-2.5495e-08,  1.8626e-09,  0.0000e+00,  ...,  2.8382e-07,
+          5.7044e-09,  3.2573e-07],
+        [-1.7951e-07,  9.0804e-09,  0.0000e+00,  ...,  8.0676e-08,
+         -1.4005e-07,  9.1386e-08],
+        [ 2.9802e-08,  9.3132e-09,  0.0000e+00,  ...,  1.1048e-07,
+          3.2480e-08,  1.2980e-07],
+        ...,
+        [ 8.6147e-09, -9.8371e-08,  0.0000e+00,  ...,  3.5414e-07,
+         -1.4575e-07,  2.7055e-07],
+        [ 5.2736e-08,  1.0012e-08,  1.1642e-10,  ...,  4.1095e-08,
+          4.6683e-08,  5.2154e-08],
+        [ 2.3749e-08,  2.6892e-08,  0.0000e+00,  ...,  1.4715e-06,
+          4.7730e-08,  1.6335e-06]], device='cuda:0')
+Epoch 268, bias, value: tensor([-0.0364,  0.0099,  0.0157,  0.0288,  0.0304, -0.0193,  0.0272,  0.0300,
+        -0.0068,  0.0027], device='cuda:0'), grad: tensor([ 1.5609e-06,  7.0687e-07,  2.6878e-06, -4.8243e-06, -1.4193e-05,
+        -1.6093e-06,  4.5002e-06,  2.0955e-06,  8.2795e-07,  8.2552e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 267, time 249.37, cls_loss 0.0008 cls_loss_mapping 0.0020 cls_loss_causal 0.4824 re_mapping 0.0030 re_causal 0.0102 /// teacc 99.07 lr 0.00010000
+Epoch 269, weight, value: tensor([[ 0.0775, -0.1304, -0.1388,  ..., -0.1231, -0.1506, -0.1410],
+        [ 0.0345,  0.0487, -0.0396,  ..., -0.0586,  0.1555,  0.0152],
+        [-0.0236, -0.1600, -0.0095,  ...,  0.2000, -0.1589,  0.0415],
+        ...,
+        [-0.1463,  0.1359,  0.0259,  ..., -0.1481,  0.1071,  0.0571],
+        [ 0.0051, -0.0760,  0.0025,  ..., -0.0975, -0.1670, -0.2015],
+        [ 0.0227, -0.0418, -0.0187,  ..., -0.2007, -0.1596,  0.0284]],
+       device='cuda:0'), grad: tensor([[-4.3423e-08,  8.1491e-10,  0.0000e+00,  ..., -9.3132e-10,
+         -1.0128e-08,  1.0477e-09],
+        [ 1.2806e-08, -9.1968e-09,  1.6298e-09,  ...,  7.7998e-09,
+         -3.5623e-08,  3.6089e-09],
+        [ 1.1758e-08,  1.3039e-08,  4.7730e-09,  ...,  1.8626e-09,
+          2.0838e-08,  1.6647e-08],
+        ...,
+        [ 1.1525e-08, -2.2119e-08, -9.1968e-09,  ...,  7.1013e-09,
+         -8.6147e-09, -2.1537e-08],
+        [-7.6834e-09,  5.5879e-09,  6.9849e-10,  ...,  3.7253e-09,
+          1.4319e-08,  5.5879e-09],
+        [ 4.8894e-09,  4.8894e-09,  4.6566e-10,  ...,  6.8685e-08,
+          5.0059e-09,  7.9395e-08]], device='cuda:0')
+Epoch 269, bias, value: tensor([-0.0384,  0.0100,  0.0157,  0.0297,  0.0304, -0.0192,  0.0273,  0.0301,
+        -0.0068,  0.0027], device='cuda:0'), grad: tensor([-2.1316e-07,  1.3085e-07,  1.1025e-07,  1.7462e-09, -3.4878e-07,
+         6.5193e-09,  7.0781e-08,  1.9558e-08, -5.2387e-08,  2.9011e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 268, time 248.57, cls_loss 0.0008 cls_loss_mapping 0.0019 cls_loss_causal 0.4621 re_mapping 0.0031 re_causal 0.0097 /// teacc 99.08 lr 0.00010000
+Epoch 270, weight, value: tensor([[ 0.0773, -0.1302, -0.1390,  ..., -0.1240, -0.1506, -0.1411],
+        [ 0.0345,  0.0488, -0.0381,  ..., -0.0582,  0.1560,  0.0156],
+        [-0.0242, -0.1600, -0.0100,  ...,  0.2000, -0.1595,  0.0414],
+        ...,
+        [-0.1476,  0.1359,  0.0258,  ..., -0.1482,  0.1070,  0.0571],
+        [ 0.0051, -0.0764,  0.0024,  ..., -0.0985, -0.1671, -0.2024],
+        [ 0.0224, -0.0418, -0.0188,  ..., -0.2007, -0.1598,  0.0284]],
+       device='cuda:0'), grad: tensor([[ 1.0710e-08,  5.7044e-09,  0.0000e+00,  ...,  1.6391e-07,
+          2.1770e-08,  1.8626e-08],
+        [-6.3004e-07, -3.0571e-07, -1.1642e-09,  ...,  7.8580e-08,
+         -1.2247e-06,  1.0594e-08],
+        [ 5.2038e-08,  1.2224e-08,  2.3283e-10,  ...,  8.0909e-08,
+          6.4727e-08,  6.7055e-08],
+        ...,
+        [ 1.2899e-07,  1.8743e-08,  1.1642e-10,  ...,  6.7055e-08,
+          1.0850e-07,  3.5809e-07],
+        [ 3.5809e-07,  2.0978e-07,  4.6566e-10,  ...,  1.7532e-07,
+          8.0327e-07,  5.0059e-08],
+        [-6.8103e-08,  2.6776e-08,  0.0000e+00,  ...,  7.4273e-08,
+          9.8487e-08, -4.2142e-07]], device='cuda:0')
+Epoch 270, bias, value: tensor([-0.0388,  0.0102,  0.0156,  0.0294,  0.0304, -0.0189,  0.0280,  0.0300,
+        -0.0069,  0.0027], device='cuda:0'), grad: tensor([ 5.3784e-07, -2.9933e-06,  6.1467e-07,  3.6228e-07,  4.6194e-06,
+         2.1197e-06, -7.7486e-06,  1.5423e-06,  2.2277e-06, -1.2759e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 269, time 250.11, cls_loss 0.0011 cls_loss_mapping 0.0028 cls_loss_causal 0.5107 re_mapping 0.0032 re_causal 0.0099 /// teacc 99.04 lr 0.00010000
+Epoch 271, weight, value: tensor([[ 0.0772, -0.1312, -0.1391,  ..., -0.1244, -0.1512, -0.1413],
+        [ 0.0377,  0.0518, -0.0381,  ..., -0.0587,  0.1592,  0.0170],
+        [-0.0246, -0.1600, -0.0097,  ...,  0.2000, -0.1599,  0.0414],
+        ...,
+        [-0.1482,  0.1363,  0.0259,  ..., -0.1482,  0.1074,  0.0573],
+        [ 0.0021, -0.0797,  0.0026,  ..., -0.0989, -0.1704, -0.2063],
+        [ 0.0208, -0.0422, -0.0190,  ..., -0.2008, -0.1600,  0.0284]],
+       device='cuda:0'), grad: tensor([[ 5.1805e-08, -1.2922e-08,  0.0000e+00,  ...,  6.2049e-08,
+          2.3982e-08,  8.0327e-09],
+        [-2.3982e-08, -4.1444e-08,  0.0000e+00,  ...,  1.4610e-07,
+         -1.9080e-07, -6.0769e-08],
+        [ 1.1455e-06,  1.7229e-08,  0.0000e+00,  ...,  1.5674e-06,
+          7.0198e-08,  2.0838e-08],
+        ...,
+        [ 5.7276e-08,  1.5134e-08,  9.3132e-10,  ...,  4.3190e-08,
+          3.8533e-08,  1.7695e-08],
+        [-1.4724e-06,  4.1910e-09, -1.0477e-09,  ..., -2.1923e-06,
+          2.8056e-08,  1.3271e-08],
+        [ 1.5344e-07,  1.0943e-08,  0.0000e+00,  ...,  1.9744e-07,
+          4.8894e-09,  3.1432e-09]], device='cuda:0')
+Epoch 271, bias, value: tensor([-0.0391,  0.0133,  0.0156,  0.0289,  0.0304, -0.0190,  0.0281,  0.0302,
+        -0.0098,  0.0025], device='cuda:0'), grad: tensor([ 1.2096e-07,  5.6904e-07,  1.0751e-05,  2.4941e-06,  4.6217e-08,
+        -2.4959e-06,  8.8848e-07,  4.6613e-07, -1.4424e-05,  1.5795e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 270, time 250.50, cls_loss 0.0010 cls_loss_mapping 0.0022 cls_loss_causal 0.4751 re_mapping 0.0029 re_causal 0.0096 /// teacc 99.12 lr 0.00010000
+Epoch 272, weight, value: tensor([[ 0.0777, -0.1316, -0.1392,  ..., -0.1246, -0.1511, -0.1415],
+        [ 0.0378,  0.0508, -0.0382,  ..., -0.0579,  0.1585,  0.0150],
+        [-0.0251, -0.1601, -0.0099,  ...,  0.2001, -0.1610,  0.0414],
+        ...,
+        [-0.1467,  0.1380,  0.0261,  ..., -0.1483,  0.1096,  0.0577],
+        [ 0.0020, -0.0798,  0.0025,  ..., -0.1008, -0.1705, -0.2070],
+        [ 0.0210, -0.0422, -0.0191,  ..., -0.2009, -0.1601,  0.0284]],
+       device='cuda:0'), grad: tensor([[ 9.1968e-09,  5.8208e-10,  0.0000e+00,  ...,  1.3853e-08,
+          4.8894e-09,  1.3388e-08],
+        [ 1.0058e-07,  3.0501e-08,  0.0000e+00,  ...,  4.9546e-07,
+         -5.8208e-10,  4.9872e-07],
+        [-2.5472e-07,  7.9162e-09,  0.0000e+00,  ..., -8.6520e-07,
+         -1.1933e-07, -7.8417e-07],
+        ...,
+        [ 6.7521e-08, -1.1188e-07, -0.0000e+00,  ...,  1.4389e-07,
+         -5.7044e-08, -9.5461e-09],
+        [ 2.6589e-07,  9.4296e-09,  0.0000e+00,  ...,  1.9907e-08,
+          4.6683e-08,  2.8173e-08],
+        [ 4.8894e-09,  8.4983e-09,  0.0000e+00,  ...,  1.8626e-09,
+          1.1758e-08,  1.1176e-08]], device='cuda:0')
+Epoch 272, bias, value: tensor([-0.0390,  0.0131,  0.0156,  0.0289,  0.0304, -0.0192,  0.0289,  0.0306,
+        -0.0099,  0.0025], device='cuda:0'), grad: tensor([ 4.9593e-08,  1.0831e-06, -2.0452e-06,  1.2096e-07,  5.3318e-07,
+        -1.1614e-06,  3.8929e-07,  1.8242e-07,  8.2096e-07,  4.0629e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 271----------------------------------------------------
+epoch 271, time 251.04, cls_loss 0.0008 cls_loss_mapping 0.0022 cls_loss_causal 0.4532 re_mapping 0.0031 re_causal 0.0101 /// teacc 99.21 lr 0.00010000
+Epoch 273, weight, value: tensor([[ 0.0777, -0.1320, -0.1392,  ..., -0.1248, -0.1516, -0.1416],
+        [ 0.0377,  0.0508, -0.0385,  ..., -0.0577,  0.1586,  0.0152],
+        [-0.0255, -0.1602, -0.0103,  ...,  0.2001, -0.1621,  0.0414],
+        ...,
+        [-0.1472,  0.1383,  0.0264,  ..., -0.1483,  0.1099,  0.0578],
+        [ 0.0020, -0.0798,  0.0024,  ..., -0.1021, -0.1705, -0.2072],
+        [ 0.0207, -0.0430, -0.0201,  ..., -0.2009, -0.1605,  0.0283]],
+       device='cuda:0'), grad: tensor([[ 3.8650e-08,  0.0000e+00,  0.0000e+00,  ...,  2.5611e-09,
+          1.5134e-09,  3.9581e-09],
+        [-2.4447e-08,  2.3283e-10,  0.0000e+00,  ...,  9.3132e-09,
+         -2.4214e-08,  5.7044e-09],
+        [ 2.3167e-08,  2.3283e-10,  0.0000e+00,  ..., -1.4552e-08,
+          4.7730e-09, -1.3970e-08],
+        ...,
+        [ 1.5483e-08,  0.0000e+00,  3.4925e-10,  ...,  3.9581e-09,
+          6.9849e-10,  7.7998e-09],
+        [ 1.8370e-07,  0.0000e+00,  0.0000e+00,  ...,  7.3342e-09,
+          4.7730e-09,  1.8394e-08],
+        [-2.8778e-07,  2.3283e-10, -8.1491e-10,  ...,  3.4925e-10,
+          1.2806e-09, -6.2631e-08]], device='cuda:0')
+Epoch 273, bias, value: tensor([-0.0391,  0.0131,  0.0155,  0.0298,  0.0304, -0.0188,  0.0287,  0.0307,
+        -0.0099,  0.0024], device='cuda:0'), grad: tensor([ 2.5844e-07, -2.7474e-08,  9.2201e-08,  8.6054e-07,  4.2142e-07,
+        -1.8831e-06,  1.5448e-07,  8.0443e-08,  1.0617e-06, -1.0096e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 272, time 250.39, cls_loss 0.0006 cls_loss_mapping 0.0015 cls_loss_causal 0.4588 re_mapping 0.0031 re_causal 0.0102 /// teacc 99.13 lr 0.00010000
+Epoch 274, weight, value: tensor([[ 0.0775, -0.1322, -0.1392,  ..., -0.1249, -0.1518, -0.1419],
+        [ 0.0378,  0.0509, -0.0376,  ..., -0.0561,  0.1592,  0.0166],
+        [-0.0259, -0.1602, -0.0104,  ...,  0.2001, -0.1623,  0.0413],
+        ...,
+        [-0.1479,  0.1383,  0.0264,  ..., -0.1483,  0.1098,  0.0578],
+        [ 0.0020, -0.0798,  0.0023,  ..., -0.1022, -0.1705, -0.2073],
+        [ 0.0211, -0.0430, -0.0203,  ..., -0.2010, -0.1605,  0.0283]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  9.3132e-10,  0.0000e+00,  ...,  2.3283e-09,
+          1.6298e-09,  1.6298e-09],
+        [-5.2387e-09, -3.4925e-10,  1.2806e-09,  ...,  1.3004e-07,
+         -4.8778e-08,  5.7160e-08],
+        [ 4.5402e-09,  3.8999e-08, -1.6298e-09,  ..., -1.0186e-07,
+          5.6229e-08, -1.8626e-08],
+        ...,
+        [ 1.6764e-08, -7.6601e-08,  1.1642e-10,  ...,  1.9791e-08,
+         -7.7998e-08, -4.6217e-08],
+        [ 1.8510e-08,  1.2922e-08,  1.1642e-10,  ...,  4.5169e-08,
+          3.1665e-08,  2.8987e-08],
+        [ 1.7567e-07,  5.4715e-09,  0.0000e+00,  ...,  6.9523e-07,
+          8.2655e-09,  2.9732e-07]], device='cuda:0')
+Epoch 274, bias, value: tensor([-0.0395,  0.0134,  0.0155,  0.0299,  0.0302, -0.0188,  0.0282,  0.0306,
+        -0.0099,  0.0024], device='cuda:0'), grad: tensor([ 1.3271e-08,  3.6787e-07, -6.4028e-08, -1.3621e-08, -3.4813e-06,
+        -6.2515e-08,  3.0734e-07, -8.9640e-08,  2.1956e-07,  2.8051e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 273, time 250.51, cls_loss 0.0008 cls_loss_mapping 0.0022 cls_loss_causal 0.4648 re_mapping 0.0031 re_causal 0.0101 /// teacc 99.11 lr 0.00010000
+Epoch 275, weight, value: tensor([[ 0.0768, -0.1324, -0.1392,  ..., -0.1250, -0.1519, -0.1440],
+        [ 0.0378,  0.0511, -0.0387,  ..., -0.0547,  0.1597,  0.0178],
+        [-0.0261, -0.1603, -0.0106,  ...,  0.2002, -0.1625,  0.0414],
+        ...,
+        [-0.1483,  0.1383,  0.0270,  ..., -0.1484,  0.1098,  0.0577],
+        [ 0.0020, -0.0798,  0.0020,  ..., -0.1030, -0.1705, -0.2075],
+        [ 0.0217, -0.0430, -0.0213,  ..., -0.2012, -0.1606,  0.0283]],
+       device='cuda:0'), grad: tensor([[ 8.1491e-10,  1.1991e-08,  0.0000e+00,  ...,  2.6426e-08,
+          1.2456e-08,  1.2689e-08],
+        [-2.7707e-08,  6.5519e-07,  0.0000e+00,  ...,  2.6077e-08,
+          6.6496e-07,  6.2073e-07],
+        [ 7.4506e-09,  1.2142e-07,  0.0000e+00,  ...,  2.4447e-08,
+          1.4447e-07,  1.4342e-07],
+        ...,
+        [ 5.4715e-09, -1.3653e-06,  0.0000e+00,  ..., -8.4634e-08,
+         -1.4110e-06, -1.4007e-06],
+        [ 8.9640e-09,  3.0501e-08,  0.0000e+00,  ...,  5.5064e-08,
+          4.3423e-08,  3.4226e-08],
+        [ 8.1491e-10,  3.8417e-07,  0.0000e+00,  ...,  8.6147e-09,
+          3.5902e-07,  3.9255e-07]], device='cuda:0')
+Epoch 275, bias, value: tensor([-0.0405,  0.0136,  0.0155,  0.0298,  0.0300, -0.0183,  0.0274,  0.0306,
+        -0.0100,  0.0024], device='cuda:0'), grad: tensor([ 9.3365e-08,  1.5516e-06,  3.7020e-07,  1.6904e-07,  3.4319e-07,
+         3.3993e-07, -6.3423e-07, -3.4813e-06,  2.4028e-07,  1.0030e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 274, time 250.66, cls_loss 0.0007 cls_loss_mapping 0.0016 cls_loss_causal 0.4860 re_mapping 0.0030 re_causal 0.0100 /// teacc 99.09 lr 0.00010000
+Epoch 276, weight, value: tensor([[ 0.0768, -0.1333, -0.1392,  ..., -0.1251, -0.1527, -0.1444],
+        [ 0.0378,  0.0511, -0.0388,  ..., -0.0547,  0.1597,  0.0177],
+        [-0.0265, -0.1603, -0.0108,  ...,  0.2002, -0.1630,  0.0414],
+        ...,
+        [-0.1487,  0.1385,  0.0271,  ..., -0.1484,  0.1100,  0.0578],
+        [ 0.0020, -0.0798,  0.0021,  ..., -0.1036, -0.1705, -0.2077],
+        [ 0.0218, -0.0430, -0.0213,  ..., -0.2014, -0.1607,  0.0283]],
+       device='cuda:0'), grad: tensor([[-1.5891e-07,  5.1223e-09,  0.0000e+00,  ...,  4.6566e-10,
+          8.4983e-09,  3.4925e-09],
+        [-9.3947e-08, -5.3551e-08,  1.1642e-10,  ...,  4.4238e-09,
+         -2.2631e-07, -3.9116e-08],
+        [ 3.5740e-08,  2.4098e-08,  0.0000e+00,  ...,  1.2806e-09,
+          4.6100e-08,  1.3271e-08],
+        ...,
+        [ 4.4005e-08,  1.0477e-08,  8.1491e-10,  ...,  5.3551e-09,
+          3.8301e-08,  1.4901e-08],
+        [-1.4435e-08, -7.4389e-08,  1.1642e-10,  ...,  2.3283e-09,
+          6.5891e-08,  2.2002e-08],
+        [ 7.1013e-08,  2.7358e-08, -1.7462e-09,  ...,  2.0140e-07,
+          2.0722e-08,  3.2037e-07]], device='cuda:0')
+Epoch 276, bias, value: tensor([-0.0406,  0.0136,  0.0155,  0.0298,  0.0300, -0.0184,  0.0278,  0.0306,
+        -0.0100,  0.0024], device='cuda:0'), grad: tensor([-6.4727e-07, -6.4960e-08,  2.5635e-07,  5.0385e-07, -9.4716e-07,
+         1.8033e-07,  1.7427e-07,  3.1153e-07, -1.0412e-06,  1.2796e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 275, time 250.84, cls_loss 0.0009 cls_loss_mapping 0.0020 cls_loss_causal 0.4545 re_mapping 0.0029 re_causal 0.0091 /// teacc 99.12 lr 0.00010000
+Epoch 277, weight, value: tensor([[ 0.0769, -0.1339, -0.1392,  ..., -0.1257, -0.1531, -0.1447],
+        [ 0.0378,  0.0510, -0.0390,  ..., -0.0547,  0.1597,  0.0177],
+        [-0.0270, -0.1604, -0.0110,  ...,  0.2002, -0.1635,  0.0413],
+        ...,
+        [-0.1492,  0.1387,  0.0273,  ..., -0.1485,  0.1103,  0.0578],
+        [ 0.0020, -0.0798,  0.0020,  ..., -0.1040, -0.1706, -0.2082],
+        [ 0.0218, -0.0432, -0.0216,  ..., -0.2015, -0.1609,  0.0282]],
+       device='cuda:0'), grad: tensor([[-4.5169e-08,  1.9791e-09,  8.1491e-10,  ...,  2.0955e-09,
+          3.0268e-09,  7.3342e-09],
+        [-3.3528e-08,  3.7020e-07,  2.1828e-07,  ...,  5.4715e-09,
+          2.8266e-07,  3.2107e-07],
+        [ 1.9791e-08,  3.6787e-08,  1.5716e-08,  ...,  3.0268e-09,
+          5.7276e-08,  4.3772e-08],
+        ...,
+        [ 4.0047e-08, -1.5525e-06, -8.7079e-07,  ...,  6.2864e-09,
+         -1.5581e-06, -1.3290e-06],
+        [ 3.2596e-09,  1.1851e-07,  6.3563e-08,  ...,  1.1991e-08,
+          1.4680e-07,  1.4692e-07],
+        [-5.6345e-08,  6.6264e-07,  3.7090e-07,  ...,  1.5041e-07,
+          6.8359e-07,  6.6822e-07]], device='cuda:0')
+Epoch 277, bias, value: tensor([-0.0410,  0.0136,  0.0154,  0.0295,  0.0301, -0.0184,  0.0284,  0.0307,
+        -0.0100,  0.0023], device='cuda:0'), grad: tensor([-2.8266e-07,  1.2955e-06,  2.7195e-07,  6.7009e-07, -7.8650e-07,
+         3.6275e-07,  1.9849e-07, -5.0664e-06,  6.1980e-07,  2.7325e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 276, time 250.62, cls_loss 0.0007 cls_loss_mapping 0.0015 cls_loss_causal 0.4684 re_mapping 0.0030 re_causal 0.0096 /// teacc 99.11 lr 0.00010000
+Epoch 278, weight, value: tensor([[ 0.0776, -0.1341, -0.1392,  ..., -0.1251, -0.1534, -0.1449],
+        [ 0.0378,  0.0511, -0.0392,  ..., -0.0547,  0.1598,  0.0177],
+        [-0.0275, -0.1604, -0.0110,  ...,  0.2002, -0.1638,  0.0413],
+        ...,
+        [-0.1498,  0.1387,  0.0274,  ..., -0.1485,  0.1103,  0.0578],
+        [ 0.0020, -0.0798,  0.0020,  ..., -0.1037, -0.1706, -0.2084],
+        [ 0.0219, -0.0432, -0.0220,  ..., -0.2018, -0.1609,  0.0281]],
+       device='cuda:0'), grad: tensor([[-1.7462e-09,  4.6566e-10,  1.1642e-10,  ...,  3.4925e-10,
+          9.3132e-10,  5.8208e-10],
+        [-1.3155e-08,  4.1910e-08,  6.7521e-09,  ...,  3.3760e-09,
+          1.6298e-08,  3.4925e-08],
+        [ 1.7462e-09,  1.0896e-07,  1.6065e-08,  ..., -4.7730e-09,
+          1.0617e-07,  8.7311e-08],
+        ...,
+        [ 3.6089e-09, -1.8219e-07, -2.7241e-08,  ...,  9.3132e-09,
+         -1.6799e-07, -1.3877e-07],
+        [ 5.4715e-09,  4.8894e-09,  4.6566e-10,  ...,  1.8626e-09,
+          1.4901e-08,  6.7521e-09],
+        [ 1.1642e-09,  7.5670e-09,  1.1642e-09,  ...,  5.3551e-09,
+          8.6147e-09,  1.3388e-08]], device='cuda:0')
+Epoch 278, bias, value: tensor([-0.0399,  0.0136,  0.0154,  0.0293,  0.0302, -0.0183,  0.0274,  0.0307,
+        -0.0100,  0.0022], device='cuda:0'), grad: tensor([-1.8859e-08,  6.2748e-08,  5.0478e-07, -3.7975e-07, -3.0268e-08,
+         1.1059e-08,  7.3342e-09, -2.0640e-07,  2.1653e-08,  3.6904e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 277, time 250.53, cls_loss 0.0007 cls_loss_mapping 0.0018 cls_loss_causal 0.4848 re_mapping 0.0029 re_causal 0.0099 /// teacc 99.01 lr 0.00010000
+Epoch 279, weight, value: tensor([[ 0.0772, -0.1342, -0.1392,  ..., -0.1248, -0.1532, -0.1466],
+        [ 0.0378,  0.0511, -0.0364,  ..., -0.0548,  0.1599,  0.0178],
+        [-0.0277, -0.1604, -0.0109,  ...,  0.2003, -0.1640,  0.0414],
+        ...,
+        [-0.1516,  0.1387,  0.0260,  ..., -0.1485,  0.1102,  0.0578],
+        [ 0.0020, -0.0798,  0.0016,  ..., -0.1052, -0.1706, -0.2087],
+        [ 0.0227, -0.0432, -0.0221,  ..., -0.2018, -0.1610,  0.0281]],
+       device='cuda:0'), grad: tensor([[-2.1188e-08,  0.0000e+00,  0.0000e+00,  ...,  1.3970e-09,
+          1.1642e-10,  6.9849e-10],
+        [ 1.3467e-06,  8.1491e-10,  0.0000e+00,  ...,  2.4796e-08,
+          4.1910e-09,  3.7719e-08],
+        [ 2.2701e-08,  2.9104e-09,  0.0000e+00,  ...,  7.9162e-09,
+          4.1910e-09,  2.5611e-09],
+        ...,
+        [ 2.5961e-08, -9.7789e-09,  0.0000e+00,  ...,  5.9372e-09,
+         -1.0361e-08,  1.7812e-08],
+        [-1.4817e-06,  6.9849e-10,  0.0000e+00,  ...,  5.1223e-09,
+         -2.3283e-09,  9.7789e-09],
+        [ 6.8219e-08,  1.1642e-09,  0.0000e+00,  ...,  2.4447e-08,
+          1.5134e-09, -5.3085e-08]], device='cuda:0')
+Epoch 279, bias, value: tensor([-0.0403,  0.0136,  0.0154,  0.0290,  0.0303, -0.0181,  0.0270,  0.0306,
+        -0.0100,  0.0023], device='cuda:0'), grad: tensor([-6.5658e-08,  7.7635e-06,  4.6100e-07, -3.7486e-07, -8.9407e-08,
+        -2.7008e-07,  2.0361e-07,  3.1898e-07, -8.2180e-06,  2.6077e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 278, time 250.73, cls_loss 0.0008 cls_loss_mapping 0.0021 cls_loss_causal 0.4621 re_mapping 0.0031 re_causal 0.0100 /// teacc 99.06 lr 0.00010000
+Epoch 280, weight, value: tensor([[ 0.0770, -0.1343, -0.1392,  ..., -0.1250, -0.1530, -0.1476],
+        [ 0.0379,  0.0511, -0.0346,  ..., -0.0549,  0.1600,  0.0182],
+        [-0.0280, -0.1604, -0.0112,  ...,  0.2010, -0.1642,  0.0416],
+        ...,
+        [-0.1527,  0.1387,  0.0251,  ..., -0.1486,  0.1098,  0.0577],
+        [ 0.0021, -0.0798,  0.0014,  ..., -0.1057, -0.1706, -0.2088],
+        [ 0.0210, -0.0432, -0.0232,  ..., -0.2029, -0.1612,  0.0279]],
+       device='cuda:0'), grad: tensor([[-2.1560e-07,  1.1642e-10,  0.0000e+00,  ...,  8.1491e-10,
+          1.1642e-09,  1.7462e-09],
+        [-2.0955e-08,  0.0000e+00,  0.0000e+00,  ...,  2.9802e-08,
+         -5.6694e-08,  3.3760e-09],
+        [ 2.6193e-08,  4.1910e-09,  0.0000e+00,  ..., -1.0966e-07,
+         -2.7707e-08, -6.3679e-08],
+        ...,
+        [ 2.3865e-08, -4.0745e-09,  0.0000e+00,  ...,  3.0966e-08,
+          1.9791e-08,  6.1234e-08],
+        [ 4.4354e-08,  1.1642e-09,  0.0000e+00,  ...,  4.5402e-08,
+          4.8545e-08,  5.8440e-08],
+        [ 2.3283e-08, -1.3970e-09,  0.0000e+00,  ...,  3.4925e-10,
+          3.6089e-09, -8.4052e-08]], device='cuda:0')
+Epoch 280, bias, value: tensor([-0.0408,  0.0137,  0.0157,  0.0289,  0.0303, -0.0178,  0.0260,  0.0305,
+        -0.0098,  0.0020], device='cuda:0'), grad: tensor([-1.3364e-06,  4.4354e-08, -4.4121e-08,  3.6182e-07,  1.0745e-07,
+         2.4214e-07,  1.0605e-07,  3.3085e-07,  4.0163e-07, -1.9523e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 279, time 250.41, cls_loss 0.0008 cls_loss_mapping 0.0016 cls_loss_causal 0.4770 re_mapping 0.0030 re_causal 0.0099 /// teacc 99.07 lr 0.00010000
+Epoch 281, weight, value: tensor([[ 0.0772, -0.1347, -0.1392,  ..., -0.1250, -0.1531, -0.1478],
+        [ 0.0379,  0.0511, -0.0346,  ..., -0.0550,  0.1601,  0.0182],
+        [-0.0284, -0.1604, -0.0112,  ...,  0.2013, -0.1645,  0.0417],
+        ...,
+        [-0.1532,  0.1387,  0.0252,  ..., -0.1489,  0.1099,  0.0576],
+        [ 0.0021, -0.0799,  0.0014,  ..., -0.1061, -0.1706, -0.2092],
+        [ 0.0211, -0.0433, -0.0236,  ..., -0.2040, -0.1613,  0.0275]],
+       device='cuda:0'), grad: tensor([[-2.8755e-08,  8.1491e-10,  0.0000e+00,  ...,  1.6298e-08,
+          3.2596e-09,  1.9441e-08],
+        [-5.0059e-08, -3.2363e-08,  1.6298e-09,  ...,  1.1176e-07,
+         -1.4203e-07,  8.9174e-08],
+        [ 1.4901e-08,  3.2131e-08,  6.4028e-09,  ..., -7.3155e-07,
+          6.3330e-08, -4.4075e-07],
+        ...,
+        [ 1.9791e-08, -2.7590e-08, -9.1968e-09,  ...,  8.6264e-08,
+         -5.4715e-09,  9.8161e-07],
+        [ 1.0477e-08,  9.8953e-09,  1.1642e-10,  ...,  4.3586e-07,
+          3.4692e-08,  2.9779e-07],
+        [ 1.2689e-08,  6.4028e-09,  2.3283e-10,  ...,  5.1223e-08,
+          1.3853e-08, -1.1949e-06]], device='cuda:0')
+Epoch 281, bias, value: tensor([-0.0406,  0.0137,  0.0158,  0.0281,  0.0306, -0.0173,  0.0249,  0.0304,
+        -0.0099,  0.0017], device='cuda:0'), grad: tensor([-1.0419e-07,  1.5693e-07, -1.5385e-06,  1.2375e-07,  4.5728e-07,
+        -3.9302e-07,  5.4110e-07,  2.5891e-06,  1.0729e-06, -2.8964e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 280, time 250.45, cls_loss 0.0009 cls_loss_mapping 0.0023 cls_loss_causal 0.4893 re_mapping 0.0029 re_causal 0.0094 /// teacc 99.10 lr 0.00010000
+Epoch 282, weight, value: tensor([[ 0.0777, -0.1349, -0.1392,  ..., -0.1249, -0.1532, -0.1479],
+        [ 0.0379,  0.0511, -0.0343,  ..., -0.0553,  0.1602,  0.0179],
+        [-0.0291, -0.1604, -0.0115,  ...,  0.2013, -0.1651,  0.0417],
+        ...,
+        [-0.1546,  0.1387,  0.0251,  ..., -0.1489,  0.1099,  0.0576],
+        [ 0.0021, -0.0799,  0.0017,  ..., -0.1065, -0.1707, -0.2095],
+        [ 0.0209, -0.0435, -0.0237,  ..., -0.2044, -0.1614,  0.0273]],
+       device='cuda:0'), grad: tensor([[-1.6298e-09,  1.5018e-08,  3.2596e-09,  ...,  1.3970e-09,
+          2.5029e-08,  1.7113e-08],
+        [-8.3586e-08,  2.0186e-07,  7.0198e-08,  ...,  2.6776e-09,
+          2.5658e-07,  1.5378e-07],
+        [ 1.5716e-08,  5.0943e-07,  1.4447e-07,  ..., -1.5134e-09,
+          9.0851e-07,  4.9360e-07],
+        ...,
+        [ 2.6193e-08, -1.6596e-06, -5.6392e-07,  ...,  1.0477e-09,
+         -3.3081e-06, -1.7686e-06],
+        [-1.1176e-08,  3.0850e-07,  9.7090e-08,  ...,  5.4715e-09,
+          5.9092e-07,  3.0803e-07],
+        [-1.2806e-09,  5.8254e-07,  1.3073e-07,  ...,  2.0606e-08,
+          8.8289e-07,  4.5076e-07]], device='cuda:0')
+Epoch 282, bias, value: tensor([-0.0403,  0.0136,  0.0157,  0.0285,  0.0311, -0.0175,  0.0217,  0.0304,
+        -0.0098,  0.0016], device='cuda:0'), grad: tensor([ 5.4948e-08,  5.9512e-07,  1.9763e-06, -2.4568e-06,  6.4261e-07,
+         8.0187e-07, -3.3178e-08, -5.0217e-06,  1.1437e-06,  2.2966e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 281, time 250.80, cls_loss 0.0009 cls_loss_mapping 0.0015 cls_loss_causal 0.4933 re_mapping 0.0028 re_causal 0.0093 /// teacc 99.07 lr 0.00010000
+Epoch 283, weight, value: tensor([[ 0.0785, -0.1359, -0.1392,  ..., -0.1247, -0.1528, -0.1480],
+        [ 0.0379,  0.0511, -0.0344,  ..., -0.0554,  0.1602,  0.0178],
+        [-0.0289, -0.1605, -0.0090,  ...,  0.2014, -0.1658,  0.0417],
+        ...,
+        [-0.1556,  0.1404,  0.0252,  ..., -0.1489,  0.1113,  0.0586],
+        [ 0.0021, -0.0799, -0.0009,  ..., -0.1093, -0.1707, -0.2099],
+        [ 0.0215, -0.0434, -0.0239,  ..., -0.2045, -0.1615,  0.0274]],
+       device='cuda:0'), grad: tensor([[ 1.4994e-07,  1.1642e-10,  0.0000e+00,  ...,  9.5647e-07,
+          5.2387e-10,  2.2119e-09],
+        [-7.2177e-09, -6.9267e-09,  0.0000e+00,  ...,  4.1502e-08,
+         -3.1374e-08,  1.8626e-09],
+        [ 7.9744e-09,  3.8999e-09,  0.0000e+00,  ..., -4.3481e-08,
+          7.5088e-09, -3.0675e-08],
+        ...,
+        [ 9.1386e-09, -6.8685e-09,  0.0000e+00,  ...,  2.9511e-08,
+          3.4925e-10,  2.3574e-08],
+        [-1.3004e-07,  3.3760e-09,  0.0000e+00,  ...,  6.2049e-08,
+          1.4668e-08,  1.4668e-08],
+        [ 1.1059e-09,  8.7311e-10,  0.0000e+00,  ...,  1.4668e-07,
+          1.9209e-09,  1.3073e-07]], device='cuda:0')
+Epoch 283, bias, value: tensor([-0.0400,  0.0136,  0.0157,  0.0286,  0.0305, -0.0176,  0.0220,  0.0311,
+        -0.0099,  0.0016], device='cuda:0'), grad: tensor([ 2.9113e-06,  1.2899e-07, -3.7078e-08,  1.3225e-07, -7.4087e-07,
+         2.0750e-06, -4.8615e-06,  1.3574e-07, -4.5239e-07,  7.1619e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 282, time 250.81, cls_loss 0.0008 cls_loss_mapping 0.0015 cls_loss_causal 0.4713 re_mapping 0.0028 re_causal 0.0095 /// teacc 99.12 lr 0.00010000
+Epoch 284, weight, value: tensor([[ 0.0788, -0.1361, -0.1392,  ..., -0.1243, -0.1529, -0.1481],
+        [ 0.0379,  0.0511, -0.0344,  ..., -0.0556,  0.1602,  0.0177],
+        [-0.0288, -0.1608, -0.0090,  ...,  0.2016, -0.1664,  0.0415],
+        ...,
+        [-0.1565,  0.1406,  0.0252,  ..., -0.1490,  0.1123,  0.0589],
+        [ 0.0021, -0.0799, -0.0009,  ..., -0.1103, -0.1707, -0.2106],
+        [ 0.0216, -0.0434, -0.0239,  ..., -0.2046, -0.1615,  0.0274]],
+       device='cuda:0'), grad: tensor([[-6.1351e-08,  4.7148e-09,  0.0000e+00,  ..., -4.4878e-08,
+          4.5984e-09,  7.4506e-09],
+        [-2.6845e-07,  6.5134e-08,  0.0000e+00,  ...,  5.3202e-08,
+         -2.3341e-07,  6.2573e-08],
+        [ 5.2620e-08,  1.0978e-07,  0.0000e+00,  ..., -6.9849e-09,
+          1.4994e-07,  1.1327e-07],
+        ...,
+        [ 9.5577e-08, -5.6764e-07,  0.0000e+00,  ...,  1.5425e-08,
+         -5.2527e-07, -6.6264e-07],
+        [ 1.1118e-07,  5.5355e-08,  0.0000e+00,  ...,  2.8289e-08,
+          1.6647e-07,  9.0338e-08],
+        [ 2.0547e-08,  1.7881e-07,  0.0000e+00,  ...,  3.0664e-07,
+          2.0675e-07,  3.0827e-07]], device='cuda:0')
+Epoch 284, bias, value: tensor([-0.0396,  0.0136,  0.0154,  0.0282,  0.0305, -0.0176,  0.0221,  0.0315,
+        -0.0099,  0.0016], device='cuda:0'), grad: tensor([-2.9942e-07, -2.8871e-08,  5.8115e-07,  4.3353e-07, -1.4165e-06,
+        -2.6287e-07,  4.3493e-07, -1.6904e-06,  5.9279e-07,  1.6624e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 283, time 250.42, cls_loss 0.0010 cls_loss_mapping 0.0021 cls_loss_causal 0.4724 re_mapping 0.0028 re_causal 0.0093 /// teacc 99.04 lr 0.00010000
+Epoch 285, weight, value: tensor([[ 0.0793, -0.1362, -0.1392,  ..., -0.1243, -0.1530, -0.1481],
+        [ 0.0379,  0.0510, -0.0345,  ..., -0.0560,  0.1602,  0.0175],
+        [-0.0289, -0.1609, -0.0091,  ...,  0.2017, -0.1666,  0.0414],
+        ...,
+        [-0.1578,  0.1395,  0.0253,  ..., -0.1505,  0.1114,  0.0579],
+        [ 0.0021, -0.0799, -0.0009,  ..., -0.1117, -0.1708, -0.2110],
+        [ 0.0217, -0.0436, -0.0239,  ..., -0.2050, -0.1616,  0.0273]],
+       device='cuda:0'), grad: tensor([[-2.2119e-09,  1.1642e-10,  0.0000e+00,  ...,  1.6065e-08,
+          1.3970e-09,  8.1491e-10],
+        [ 1.0245e-07, -1.6065e-08,  0.0000e+00,  ...,  1.6240e-07,
+         -6.4611e-08, -2.7241e-08],
+        [ 1.2210e-06,  2.0955e-09,  0.0000e+00,  ...,  1.4789e-06,
+          7.3342e-09,  2.2119e-09],
+        ...,
+        [ 2.3632e-08,  4.4238e-09,  0.0000e+00,  ...,  1.8044e-08,
+          1.7113e-08,  8.2655e-09],
+        [-1.5795e-06,  3.9581e-09,  0.0000e+00,  ..., -1.9353e-06,
+          1.4668e-08,  6.8685e-09],
+        [ 1.1933e-07,  6.9849e-10,  0.0000e+00,  ...,  1.3586e-07,
+          4.4238e-09,  5.8208e-10]], device='cuda:0')
+Epoch 285, bias, value: tensor([-0.0393,  0.0135,  0.0154,  0.0305,  0.0313, -0.0194,  0.0227,  0.0307,
+        -0.0099,  0.0015], device='cuda:0'), grad: tensor([ 2.5262e-08,  9.3179e-07,  9.5814e-06,  1.7544e-07,  9.1735e-08,
+         4.9244e-08,  5.7090e-07,  1.5390e-07, -1.2450e-05,  9.1037e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 284, time 250.46, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.4509 re_mapping 0.0031 re_causal 0.0098 /// teacc 99.13 lr 0.00010000
+Epoch 286, weight, value: tensor([[ 0.0795, -0.1373, -0.1392,  ..., -0.1244, -0.1537, -0.1483],
+        [ 0.0379,  0.0510, -0.0345,  ..., -0.0561,  0.1602,  0.0174],
+        [-0.0293, -0.1610, -0.0091,  ...,  0.2017, -0.1668,  0.0414],
+        ...,
+        [-0.1583,  0.1407,  0.0253,  ..., -0.1507,  0.1121,  0.0593],
+        [ 0.0021, -0.0799, -0.0009,  ..., -0.1119, -0.1708, -0.2112],
+        [ 0.0217, -0.0438, -0.0239,  ..., -0.2050, -0.1618,  0.0273]],
+       device='cuda:0'), grad: tensor([[ 2.4447e-09,  2.3283e-10,  0.0000e+00,  ...,  7.1013e-09,
+          5.8208e-10,  4.7730e-09],
+        [-6.7521e-09, -1.8626e-09,  0.0000e+00,  ...,  5.1339e-08,
+         -2.7474e-08,  2.5728e-08],
+        [ 5.4715e-09,  4.8894e-09,  0.0000e+00,  ..., -1.3667e-07,
+          8.8476e-09, -7.6718e-08],
+        ...,
+        [ 1.9674e-08, -7.5670e-09,  0.0000e+00,  ...,  2.4447e-09,
+          4.4238e-09,  3.1432e-09],
+        [-3.2247e-08,  2.6776e-09,  0.0000e+00,  ...,  2.7707e-08,
+          6.8685e-09,  2.2585e-08],
+        [ 5.8208e-09, -1.6298e-09,  0.0000e+00,  ...,  4.7730e-09,
+          1.1642e-09, -1.4552e-08]], device='cuda:0')
+Epoch 286, bias, value: tensor([-0.0392,  0.0135,  0.0153,  0.0303,  0.0305, -0.0193,  0.0227,  0.0317,
+        -0.0099,  0.0015], device='cuda:0'), grad: tensor([ 2.4796e-08,  1.2107e-07, -2.8708e-07,  2.2538e-07,  5.6811e-08,
+        -1.4226e-07,  8.3819e-08,  8.5915e-08, -1.6124e-07,  6.9849e-10],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 285, time 250.46, cls_loss 0.0009 cls_loss_mapping 0.0022 cls_loss_causal 0.4766 re_mapping 0.0029 re_causal 0.0092 /// teacc 99.09 lr 0.00010000
+Epoch 287, weight, value: tensor([[ 0.0797, -0.1380, -0.1392,  ..., -0.1242, -0.1542, -0.1484],
+        [ 0.0379,  0.0510, -0.0346,  ..., -0.0559,  0.1604,  0.0175],
+        [-0.0297, -0.1611, -0.0091,  ...,  0.2017, -0.1671,  0.0414],
+        ...,
+        [-0.1595,  0.1408,  0.0254,  ..., -0.1506,  0.1124,  0.0594],
+        [ 0.0021, -0.0799, -0.0010,  ..., -0.1142, -0.1708, -0.2117],
+        [ 0.0218, -0.0440, -0.0240,  ..., -0.2053, -0.1620,  0.0272]],
+       device='cuda:0'), grad: tensor([[-1.3970e-09,  1.6880e-08,  0.0000e+00,  ...,  4.9244e-08,
+          2.3632e-08,  1.6764e-08],
+        [ 2.7940e-09,  4.7381e-08,  0.0000e+00,  ...,  4.6450e-08,
+          3.8883e-08,  8.7777e-08],
+        [ 9.5461e-09,  1.7579e-08,  0.0000e+00,  ...,  2.0955e-08,
+          2.7707e-08,  2.0722e-08],
+        ...,
+        [ 5.4715e-09, -2.1490e-07,  0.0000e+00,  ...,  1.0245e-08,
+         -2.9011e-07, -1.7777e-07],
+        [ 5.5879e-09,  7.6834e-09,  0.0000e+00,  ...,  3.5507e-08,
+          1.2689e-08,  1.0477e-08],
+        [ 5.5879e-09,  6.3097e-08,  0.0000e+00,  ...,  1.4319e-08,
+          8.6613e-08,  7.9628e-08]], device='cuda:0')
+Epoch 287, bias, value: tensor([-0.0390,  0.0136,  0.0152,  0.0302,  0.0305, -0.0193,  0.0221,  0.0318,
+        -0.0100,  0.0015], device='cuda:0'), grad: tensor([ 2.1630e-07,  3.8464e-07,  2.5937e-07, -4.4610e-07, -1.4482e-07,
+         1.6326e-06, -2.0396e-06, -5.1036e-07,  3.2596e-07,  3.3039e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 286, time 250.09, cls_loss 0.0006 cls_loss_mapping 0.0017 cls_loss_causal 0.4756 re_mapping 0.0031 re_causal 0.0099 /// teacc 99.09 lr 0.00010000
+Epoch 288, weight, value: tensor([[ 0.0798, -0.1378, -0.1392,  ..., -0.1243, -0.1541, -0.1486],
+        [ 0.0379,  0.0510, -0.0346,  ..., -0.0561,  0.1605,  0.0176],
+        [-0.0299, -0.1611, -0.0091,  ...,  0.2018, -0.1671,  0.0414],
+        ...,
+        [-0.1605,  0.1408,  0.0254,  ..., -0.1506,  0.1124,  0.0594],
+        [ 0.0021, -0.0799, -0.0010,  ..., -0.1149, -0.1708, -0.2120],
+        [ 0.0220, -0.0441, -0.0240,  ..., -0.2054, -0.1620,  0.0272]],
+       device='cuda:0'), grad: tensor([[-1.4482e-07,  6.9849e-10,  0.0000e+00,  ...,  2.6077e-08,
+         -5.5414e-08,  3.6322e-08],
+        [-2.0154e-06, -3.4925e-10,  0.0000e+00,  ..., -1.0999e-06,
+         -1.5311e-06, -1.5460e-06],
+        [ 1.0775e-06,  2.0838e-08,  0.0000e+00,  ...,  6.8336e-08,
+          8.1956e-07,  5.8860e-07],
+        ...,
+        [ 3.0850e-08, -7.5204e-08,  0.0000e+00,  ...,  2.6426e-08,
+         -4.9942e-08, -3.9581e-08],
+        [ 1.9139e-07,  8.1491e-09,  0.0000e+00,  ...,  7.1595e-08,
+          1.2433e-07,  1.1059e-07],
+        [ 4.7032e-08,  2.5611e-08,  0.0000e+00,  ...,  1.7369e-07,
+          4.4820e-08,  5.4063e-07]], device='cuda:0')
+Epoch 288, bias, value: tensor([-0.0389,  0.0136,  0.0152,  0.0302,  0.0305, -0.0192,  0.0221,  0.0318,
+        -0.0100,  0.0015], device='cuda:0'), grad: tensor([-6.5658e-07, -6.2138e-06,  1.8347e-06,  7.4096e-06, -1.2619e-06,
+        -5.3011e-06,  1.1912e-06,  2.5472e-07,  8.5915e-07,  1.8999e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 287, time 250.38, cls_loss 0.0009 cls_loss_mapping 0.0023 cls_loss_causal 0.4723 re_mapping 0.0029 re_causal 0.0092 /// teacc 99.14 lr 0.00010000
+Epoch 289, weight, value: tensor([[ 0.0807, -0.1368, -0.1393,  ..., -0.1242, -0.1544, -0.1489],
+        [ 0.0379,  0.0510, -0.0346,  ..., -0.0562,  0.1606,  0.0177],
+        [-0.0318, -0.1613, -0.0094,  ...,  0.2018, -0.1676,  0.0414],
+        ...,
+        [-0.1619,  0.1410,  0.0254,  ..., -0.1506,  0.1125,  0.0594],
+        [ 0.0021, -0.0800, -0.0012,  ..., -0.1142, -0.1708, -0.2123],
+        [ 0.0223, -0.0446, -0.0240,  ..., -0.2058, -0.1625,  0.0270]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  3.4925e-09,  0.0000e+00,  ...,  1.1642e-10,
+          6.7521e-09,  3.8417e-09],
+        [-1.0403e-06, -1.2983e-06,  0.0000e+00,  ...,  8.1491e-10,
+         -2.4810e-06, -1.0785e-06],
+        [ 4.2026e-08,  3.8184e-08,  0.0000e+00,  ...,  1.1642e-10,
+          9.8371e-08,  4.2142e-08],
+        ...,
+        [ 8.8615e-07,  1.0896e-06,  1.1642e-10,  ...,  9.3132e-10,
+          2.0638e-06,  8.9640e-07],
+        [ 1.3213e-07,  8.4750e-08,  0.0000e+00,  ...,  4.6566e-10,
+          1.6578e-07,  7.5670e-08],
+        [ 2.0955e-09,  2.9104e-08, -3.4925e-10,  ...,  1.7462e-09,
+          5.0990e-08,  6.2864e-09]], device='cuda:0')
+Epoch 289, bias, value: tensor([-0.0375,  0.0136,  0.0152,  0.0300,  0.0306, -0.0192,  0.0216,  0.0318,
+        -0.0099,  0.0013], device='cuda:0'), grad: tensor([ 1.9441e-08, -4.5411e-06,  1.9511e-07,  2.3365e-07,  2.0547e-07,
+        -5.2899e-07,  8.2422e-08,  3.8408e-06,  6.0722e-07, -1.2119e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 288, time 250.35, cls_loss 0.0007 cls_loss_mapping 0.0017 cls_loss_causal 0.4702 re_mapping 0.0032 re_causal 0.0100 /// teacc 99.04 lr 0.00010000
+Epoch 290, weight, value: tensor([[ 0.0808, -0.1385, -0.1393,  ..., -0.1244, -0.1555, -0.1491],
+        [ 0.0380,  0.0510, -0.0342,  ..., -0.0562,  0.1608,  0.0178],
+        [-0.0328, -0.1614, -0.0094,  ...,  0.2017, -0.1680,  0.0414],
+        ...,
+        [-0.1647,  0.1414,  0.0251,  ..., -0.1506,  0.1135,  0.0596],
+        [ 0.0021, -0.0800, -0.0013,  ..., -0.1147, -0.1709, -0.2127],
+        [ 0.0227, -0.0449, -0.0239,  ..., -0.2059, -0.1629,  0.0270]],
+       device='cuda:0'), grad: tensor([[-5.5647e-08,  1.5134e-09,  0.0000e+00,  ...,  8.1491e-10,
+          3.0268e-09,  1.7462e-09],
+        [-7.2410e-08, -6.4145e-08,  0.0000e+00,  ...,  2.7940e-09,
+         -2.1444e-07, -7.3807e-08],
+        [ 1.2456e-08,  1.6065e-08,  0.0000e+00,  ..., -1.0827e-08,
+          3.1083e-08,  5.8208e-09],
+        ...,
+        [ 3.2946e-08, -6.9849e-09,  0.0000e+00,  ...,  2.0955e-09,
+          6.0070e-08,  1.2806e-08],
+        [ 1.5600e-08,  1.4319e-08,  0.0000e+00,  ...,  1.6298e-09,
+          3.2014e-08,  1.3039e-08],
+        [ 1.6880e-08,  5.9372e-09,  0.0000e+00,  ...,  3.3760e-09,
+          1.1292e-08,  7.3342e-09]], device='cuda:0')
+Epoch 290, bias, value: tensor([-0.0375,  0.0136,  0.0151,  0.0284,  0.0306, -0.0190,  0.0216,  0.0321,
+        -0.0099,  0.0013], device='cuda:0'), grad: tensor([-3.4738e-07, -3.1758e-07,  4.9826e-08,  1.1199e-07,  9.3016e-08,
+         6.1933e-08,  5.0524e-08,  1.0419e-07,  8.7079e-08,  1.1583e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 289, time 250.71, cls_loss 0.0007 cls_loss_mapping 0.0012 cls_loss_causal 0.4604 re_mapping 0.0029 re_causal 0.0095 /// teacc 98.98 lr 0.00010000
+Epoch 291, weight, value: tensor([[ 0.0807, -0.1401, -0.1393,  ..., -0.1246, -0.1564, -0.1492],
+        [ 0.0380,  0.0510, -0.0342,  ..., -0.0564,  0.1609,  0.0179],
+        [-0.0334, -0.1615, -0.0094,  ...,  0.2019, -0.1681,  0.0414],
+        ...,
+        [-0.1668,  0.1415,  0.0251,  ..., -0.1506,  0.1136,  0.0595],
+        [ 0.0021, -0.0801, -0.0013,  ..., -0.1177, -0.1709, -0.2135],
+        [ 0.0228, -0.0444, -0.0239,  ..., -0.2060, -0.1626,  0.0271]],
+       device='cuda:0'), grad: tensor([[ 3.9581e-09,  3.8417e-09,  0.0000e+00,  ...,  1.5832e-08,
+          8.7311e-09,  3.9581e-09],
+        [-2.4680e-08, -2.3516e-08,  0.0000e+00,  ...,  1.5250e-08,
+         -7.2177e-08, -9.5461e-09],
+        [ 8.1491e-09,  9.4296e-09,  0.0000e+00,  ..., -1.1991e-08,
+          1.8743e-08, -8.0327e-09],
+        ...,
+        [ 1.5716e-08, -4.4238e-09,  0.0000e+00,  ...,  2.2002e-08,
+          1.8394e-08,  2.3050e-08],
+        [ 4.5402e-09,  5.5879e-09,  0.0000e+00,  ...,  2.1071e-08,
+          1.0245e-08,  6.8685e-09],
+        [ 2.4447e-09,  5.5879e-09,  0.0000e+00,  ...,  1.0943e-08,
+          5.3551e-09,  1.2806e-08]], device='cuda:0')
+Epoch 291, bias, value: tensor([-0.0377,  0.0137,  0.0151,  0.0283,  0.0307, -0.0190,  0.0227,  0.0320,
+        -0.0101,  0.0014], device='cuda:0'), grad: tensor([ 7.6368e-08, -2.9569e-08,  3.0734e-08, -7.2061e-08, -1.0489e-07,
+         7.2345e-06, -7.5139e-06,  1.3865e-07,  1.4016e-07,  7.8115e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 290, time 250.60, cls_loss 0.0010 cls_loss_mapping 0.0015 cls_loss_causal 0.5107 re_mapping 0.0028 re_causal 0.0094 /// teacc 99.03 lr 0.00010000
+Epoch 292, weight, value: tensor([[ 0.0807, -0.1416, -0.1393,  ..., -0.1252, -0.1571, -0.1495],
+        [ 0.0380,  0.0510, -0.0342,  ..., -0.0571,  0.1609,  0.0176],
+        [-0.0335, -0.1615, -0.0094,  ...,  0.2024, -0.1677,  0.0415],
+        ...,
+        [-0.1691,  0.1416,  0.0251,  ..., -0.1509,  0.1137,  0.0594],
+        [ 0.0021, -0.0801, -0.0013,  ..., -0.1182, -0.1710, -0.2141],
+        [ 0.0228, -0.0438, -0.0237,  ..., -0.2065, -0.1630,  0.0272]],
+       device='cuda:0'), grad: tensor([[-3.3062e-08, -6.9849e-09,  0.0000e+00,  ...,  2.8173e-08,
+          5.3551e-09,  2.1304e-08],
+        [-5.2154e-08, -5.9372e-08,  0.0000e+00,  ...,  8.8126e-08,
+         -1.3877e-07,  4.6333e-08],
+        [ 1.9674e-08,  5.1223e-09,  0.0000e+00,  ..., -1.6019e-07,
+         -1.3493e-07, -1.5949e-07],
+        ...,
+        [ 3.0966e-08,  2.9453e-08,  0.0000e+00,  ...,  8.8243e-08,
+          1.2363e-07,  1.5658e-07],
+        [ 3.5390e-08,  2.2235e-08,  0.0000e+00,  ...,  3.6787e-08,
+          7.4506e-08,  4.1211e-08],
+        [ 4.7730e-09,  1.9791e-09,  0.0000e+00,  ...,  2.7660e-07,
+          7.1013e-09,  9.5041e-07]], device='cuda:0')
+Epoch 292, bias, value: tensor([-0.0380,  0.0136,  0.0152,  0.0280,  0.0307, -0.0193,  0.0238,  0.0318,
+        -0.0101,  0.0015], device='cuda:0'), grad: tensor([-2.8173e-08,  2.1840e-07, -7.0361e-07,  3.4226e-07, -4.0643e-06,
+        -1.8615e-07,  2.2585e-08,  6.8545e-07,  3.2224e-07,  3.3807e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 291, time 250.49, cls_loss 0.0007 cls_loss_mapping 0.0013 cls_loss_causal 0.4610 re_mapping 0.0028 re_causal 0.0095 /// teacc 99.05 lr 0.00010000
+Epoch 293, weight, value: tensor([[ 0.0812, -0.1424, -0.1393,  ..., -0.1254, -0.1572, -0.1497],
+        [ 0.0381,  0.0510, -0.0342,  ..., -0.0575,  0.1610,  0.0177],
+        [-0.0338, -0.1637, -0.0094,  ...,  0.2012, -0.1702,  0.0405],
+        ...,
+        [-0.1721,  0.1427,  0.0251,  ..., -0.1499,  0.1150,  0.0600],
+        [ 0.0022, -0.0802, -0.0013,  ..., -0.1182, -0.1710, -0.2144],
+        [ 0.0227, -0.0439, -0.0237,  ..., -0.2068, -0.1632,  0.0271]],
+       device='cuda:0'), grad: tensor([[ 4.2026e-08,  3.4925e-10,  0.0000e+00,  ...,  3.4925e-10,
+          5.8208e-10,  1.0477e-09],
+        [-2.0023e-08, -3.8417e-08,  0.0000e+00,  ...,  2.3283e-09,
+         -9.5228e-08, -4.3889e-08],
+        [ 2.3516e-08,  2.7940e-09,  0.0000e+00,  ..., -6.5193e-09,
+          5.8208e-09, -4.6566e-10],
+        ...,
+        [ 1.1828e-07,  2.6659e-08,  0.0000e+00,  ...,  1.9791e-09,
+          6.4261e-08,  3.3993e-08],
+        [ 4.7032e-08,  6.5193e-09,  0.0000e+00,  ...,  9.3132e-10,
+          1.3970e-08,  7.7998e-09],
+        [ 1.3970e-08,  2.3283e-10,  0.0000e+00,  ...,  6.9849e-10,
+          1.6298e-09, -3.1432e-09]], device='cuda:0')
+Epoch 293, bias, value: tensor([-0.0376,  0.0136,  0.0143,  0.0280,  0.0308, -0.0194,  0.0237,  0.0325,
+        -0.0100,  0.0015], device='cuda:0'), grad: tensor([ 2.4680e-07, -1.0803e-07,  1.2689e-07,  1.1232e-06,  6.7404e-08,
+        -2.5742e-06,  7.3458e-08,  6.9663e-07,  2.8685e-07,  7.9977e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 292, time 250.34, cls_loss 0.0006 cls_loss_mapping 0.0013 cls_loss_causal 0.4660 re_mapping 0.0028 re_causal 0.0095 /// teacc 99.06 lr 0.00010000
+Epoch 294, weight, value: tensor([[ 0.0814, -0.1427, -0.1393,  ..., -0.1255, -0.1574, -0.1499],
+        [ 0.0381,  0.0510, -0.0342,  ..., -0.0576,  0.1611,  0.0177],
+        [-0.0345, -0.1637, -0.0095,  ...,  0.2015, -0.1704,  0.0405],
+        ...,
+        [-0.1735,  0.1426,  0.0251,  ..., -0.1499,  0.1149,  0.0600],
+        [ 0.0022, -0.0799, -0.0011,  ..., -0.1183, -0.1709, -0.2147],
+        [ 0.0230, -0.0441, -0.0240,  ..., -0.2070, -0.1634,  0.0271]],
+       device='cuda:0'), grad: tensor([[ 6.5193e-09,  2.3283e-10,  0.0000e+00,  ...,  8.1491e-10,
+          3.4925e-10,  6.9849e-10],
+        [-7.6834e-09,  2.4447e-09,  0.0000e+00,  ...,  1.0477e-09,
+         -1.1642e-08,  2.3283e-09],
+        [ 5.3551e-09,  3.0268e-09,  0.0000e+00,  ...,  3.4925e-10,
+          4.6566e-09,  3.4925e-09],
+        ...,
+        [ 1.4203e-08, -1.3737e-08,  0.0000e+00,  ...,  1.3970e-09,
+         -9.3132e-09, -5.4715e-09],
+        [ 3.6671e-08,  3.7253e-09,  0.0000e+00,  ...,  1.5134e-09,
+          9.1968e-09,  1.0827e-08],
+        [-1.4668e-08,  2.3283e-09, -4.6566e-10,  ...,  3.8417e-09,
+          2.4447e-09, -2.0606e-08]], device='cuda:0')
+Epoch 294, bias, value: tensor([-0.0376,  0.0136,  0.0144,  0.0278,  0.0308, -0.0194,  0.0236,  0.0323,
+        -0.0099,  0.0014], device='cuda:0'), grad: tensor([ 2.7590e-08,  7.6834e-09,  2.7008e-08,  1.8114e-07,  6.5891e-08,
+        -8.2236e-07,  4.4168e-07,  2.9453e-08,  1.5460e-07, -9.3831e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 293, time 250.12, cls_loss 0.0006 cls_loss_mapping 0.0016 cls_loss_causal 0.4765 re_mapping 0.0029 re_causal 0.0095 /// teacc 99.05 lr 0.00010000
+Epoch 295, weight, value: tensor([[ 0.0816, -0.1429, -0.1393,  ..., -0.1256, -0.1576, -0.1500],
+        [ 0.0381,  0.0510, -0.0344,  ..., -0.0579,  0.1612,  0.0178],
+        [-0.0347, -0.1638, -0.0095,  ...,  0.2016, -0.1704,  0.0406],
+        ...,
+        [-0.1767,  0.1430,  0.0253,  ..., -0.1500,  0.1151,  0.0601],
+        [ 0.0022, -0.0804, -0.0011,  ..., -0.1185, -0.1712, -0.2171],
+        [ 0.0234, -0.0440, -0.0240,  ..., -0.2072, -0.1635,  0.0270]],
+       device='cuda:0'), grad: tensor([[-2.3632e-08, -1.2573e-08,  0.0000e+00,  ...,  8.1491e-10,
+         -3.2014e-08, -6.8685e-09],
+        [-5.4482e-08,  4.5868e-08,  0.0000e+00,  ...,  2.0955e-09,
+         -4.3190e-08,  7.4506e-09],
+        [ 1.5018e-08,  4.3423e-08,  0.0000e+00,  ...,  1.6298e-09,
+          7.6601e-08,  4.2375e-08],
+        ...,
+        [ 3.0501e-08, -2.2887e-07,  0.0000e+00,  ...,  1.5134e-09,
+         -2.6496e-07, -1.8312e-07],
+        [ 2.9337e-08,  5.4599e-08,  0.0000e+00,  ...,  1.3970e-09,
+          1.1432e-07,  5.7276e-08],
+        [ 4.7730e-09,  3.7253e-08,  0.0000e+00,  ...,  4.1910e-09,
+          5.2154e-08,  3.7020e-08]], device='cuda:0')
+Epoch 295, bias, value: tensor([-0.0374,  0.0136,  0.0144,  0.0277,  0.0309, -0.0194,  0.0237,  0.0324,
+        -0.0101,  0.0013], device='cuda:0'), grad: tensor([-1.7649e-07,  4.7614e-08,  2.2049e-07, -1.6065e-07,  7.9395e-08,
+         1.0745e-07,  9.3132e-10, -5.0664e-07,  2.6217e-07,  1.4796e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 294, time 250.35, cls_loss 0.0006 cls_loss_mapping 0.0013 cls_loss_causal 0.4529 re_mapping 0.0028 re_causal 0.0096 /// teacc 99.11 lr 0.00010000
+Epoch 296, weight, value: tensor([[ 0.0816, -0.1430, -0.1393,  ..., -0.1265, -0.1588, -0.1502],
+        [ 0.0382,  0.0511, -0.0344,  ..., -0.0579,  0.1615,  0.0182],
+        [-0.0350, -0.1638, -0.0095,  ...,  0.2017, -0.1704,  0.0406],
+        ...,
+        [-0.1792,  0.1429,  0.0253,  ..., -0.1500,  0.1150,  0.0600],
+        [ 0.0022, -0.0804, -0.0011,  ..., -0.1186, -0.1713, -0.2174],
+        [ 0.0245, -0.0443, -0.0239,  ..., -0.2072, -0.1638,  0.0270]],
+       device='cuda:0'), grad: tensor([[-1.1642e-09,  6.9849e-10,  0.0000e+00,  ...,  1.9791e-09,
+          3.8417e-09,  2.6776e-09],
+        [-1.2771e-07, -8.3819e-09,  0.0000e+00,  ...,  4.6566e-09,
+         -3.4715e-07, -1.0082e-07],
+        [ 9.5461e-09,  7.7998e-09,  0.0000e+00,  ..., -2.6193e-08,
+          2.1537e-08, -4.4238e-09],
+        ...,
+        [ 2.5029e-08, -1.0827e-08,  0.0000e+00,  ...,  1.1292e-08,
+          3.4459e-08,  1.9791e-08],
+        [ 3.6787e-08,  5.5879e-09,  0.0000e+00,  ...,  3.4925e-09,
+          5.9721e-08,  2.4913e-08],
+        [-9.7905e-08,  6.9849e-10,  0.0000e+00,  ...,  1.2806e-09,
+          2.7125e-08, -6.2515e-08]], device='cuda:0')
+Epoch 296, bias, value: tensor([-0.0378,  0.0137,  0.0144,  0.0279,  0.0309, -0.0195,  0.0238,  0.0323,
+        -0.0100,  0.0013], device='cuda:0'), grad: tensor([ 3.1432e-09, -7.5111e-07,  2.5262e-08,  1.6345e-07,  7.7859e-07,
+         1.3725e-07,  6.4145e-08,  1.4610e-07,  2.2398e-07, -7.6834e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 295, time 250.14, cls_loss 0.0008 cls_loss_mapping 0.0017 cls_loss_causal 0.4724 re_mapping 0.0027 re_causal 0.0094 /// teacc 99.01 lr 0.00010000
+Epoch 297, weight, value: tensor([[ 0.0819, -0.1433, -0.1394,  ..., -0.1266, -0.1590, -0.1503],
+        [ 0.0382,  0.0511, -0.0343,  ..., -0.0595,  0.1613,  0.0179],
+        [-0.0339, -0.1638, -0.0096,  ...,  0.2021, -0.1699,  0.0407],
+        ...,
+        [-0.1809,  0.1435,  0.0253,  ..., -0.1501,  0.1156,  0.0603],
+        [ 0.0022, -0.0805, -0.0011,  ..., -0.1195, -0.1713, -0.2177],
+        [ 0.0246, -0.0444, -0.0240,  ..., -0.2074, -0.1639,  0.0270]],
+       device='cuda:0'), grad: tensor([[ 2.2119e-08,  1.4203e-08,  0.0000e+00,  ...,  4.4121e-08,
+          3.6089e-08,  2.4913e-08],
+        [-5.4576e-07, -4.9314e-07,  0.0000e+00,  ...,  7.7416e-08,
+         -1.2312e-06, -3.1060e-07],
+        [-2.8987e-08,  1.7160e-07,  0.0000e+00,  ..., -6.4587e-07,
+          4.2422e-07, -6.0350e-07],
+        ...,
+        [ 1.7311e-07,  7.9046e-08,  0.0000e+00,  ...,  1.6647e-07,
+          2.1944e-07,  2.4913e-07],
+        [ 1.3807e-07,  1.5378e-07,  0.0000e+00,  ...,  1.2072e-07,
+          3.2876e-07,  1.5728e-07],
+        [ 4.7148e-08,  1.2806e-08,  0.0000e+00,  ...,  2.5146e-08,
+          5.8440e-08,  4.4238e-09]], device='cuda:0')
+Epoch 297, bias, value: tensor([-0.0377,  0.0135,  0.0145,  0.0255,  0.0309, -0.0189,  0.0244,  0.0327,
+        -0.0101,  0.0013], device='cuda:0'), grad: tensor([ 2.3597e-07, -2.0992e-06, -2.2836e-06,  1.8384e-06,  1.0207e-06,
+         2.1083e-07, -1.3122e-06,  1.3970e-06,  5.5693e-07,  4.1304e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 296, time 250.42, cls_loss 0.0008 cls_loss_mapping 0.0015 cls_loss_causal 0.4833 re_mapping 0.0027 re_causal 0.0091 /// teacc 99.05 lr 0.00010000
+Epoch 298, weight, value: tensor([[ 0.0825, -0.1437, -0.1394,  ..., -0.1271, -0.1592, -0.1504],
+        [ 0.0381,  0.0511, -0.0343,  ..., -0.0599,  0.1614,  0.0176],
+        [-0.0314, -0.1638, -0.0096,  ...,  0.2024, -0.1700,  0.0408],
+        ...,
+        [-0.1836,  0.1436,  0.0253,  ..., -0.1502,  0.1156,  0.0602],
+        [ 0.0022, -0.0805, -0.0011,  ..., -0.1203, -0.1713, -0.2183],
+        [ 0.0251, -0.0442, -0.0239,  ..., -0.2079, -0.1640,  0.0270]],
+       device='cuda:0'), grad: tensor([[-2.4796e-08,  1.0128e-08,  0.0000e+00,  ..., -1.2689e-08,
+          2.0606e-08,  1.0361e-08],
+        [-2.9267e-07, -6.2049e-08,  0.0000e+00,  ..., -1.8650e-07,
+         -4.3819e-07, -1.1665e-07],
+        [ 1.9127e-07,  1.8184e-07,  0.0000e+00,  ...,  1.2584e-07,
+          2.5495e-07,  3.4086e-07],
+        ...,
+        [ 3.6117e-06,  1.6198e-05,  0.0000e+00,  ...,  1.1525e-08,
+          6.4522e-06,  2.6837e-05],
+        [ 1.3085e-07,  2.8568e-07,  0.0000e+00,  ...,  3.2247e-08,
+          2.0594e-07,  4.6450e-07],
+        [-3.7756e-06, -1.7077e-05,  0.0000e+00,  ...,  2.6193e-08,
+         -6.7614e-06, -2.8297e-05]], device='cuda:0')
+Epoch 298, bias, value: tensor([-0.0375,  0.0134,  0.0146,  0.0263,  0.0310, -0.0198,  0.0246,  0.0326,
+        -0.0101,  0.0014], device='cuda:0'), grad: tensor([-7.6718e-08, -6.6869e-07,  1.4091e-06,  1.2794e-07,  2.0415e-06,
+         3.5530e-07,  9.4413e-08,  9.6142e-05,  1.7788e-06, -1.0133e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 297, time 250.30, cls_loss 0.0008 cls_loss_mapping 0.0025 cls_loss_causal 0.4646 re_mapping 0.0030 re_causal 0.0099 /// teacc 99.05 lr 0.00010000
+Epoch 299, weight, value: tensor([[ 0.0859, -0.1440, -0.1394,  ..., -0.1266, -0.1580, -0.1506],
+        [ 0.0381,  0.0510, -0.0341,  ..., -0.0601,  0.1614,  0.0165],
+        [-0.0330, -0.1639, -0.0096,  ...,  0.2026, -0.1701,  0.0408],
+        ...,
+        [-0.1865,  0.1424,  0.0251,  ..., -0.1503,  0.1154,  0.0587],
+        [ 0.0022, -0.0805, -0.0012,  ..., -0.1214, -0.1713, -0.2189],
+        [ 0.0264, -0.0404, -0.0239,  ..., -0.2083, -0.1624,  0.0295]],
+       device='cuda:0'), grad: tensor([[-5.5414e-08,  4.6566e-10,  0.0000e+00,  ...,  0.0000e+00,
+         -0.0000e+00,  1.9791e-09],
+        [-1.4319e-07, -3.9930e-08,  0.0000e+00,  ...,  1.2806e-09,
+         -1.8731e-07, -9.7323e-08],
+        [ 4.8662e-08,  2.6659e-08,  0.0000e+00,  ...,  7.7998e-09,
+          7.1595e-08,  4.6915e-08],
+        ...,
+        [ 2.5379e-08, -1.2806e-08,  0.0000e+00,  ...,  2.3283e-10,
+          7.9162e-09, -3.7253e-09],
+        [ 4.9127e-08,  1.3504e-08,  0.0000e+00,  ...,  3.4925e-10,
+          5.9023e-08,  3.2829e-08],
+        [-1.0361e-08,  6.2864e-09,  0.0000e+00,  ...,  1.9791e-09,
+          2.1304e-08, -4.0047e-08]], device='cuda:0')
+Epoch 299, bias, value: tensor([-0.0352,  0.0132,  0.0146,  0.0264,  0.0310, -0.0201,  0.0246,  0.0305,
+        -0.0101,  0.0035], device='cuda:0'), grad: tensor([-3.1060e-07, -4.2492e-07,  3.8370e-07, -3.0361e-07,  2.5705e-07,
+         2.9104e-08,  2.9337e-08,  1.9558e-07,  1.8999e-07, -3.2247e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 298, time 250.62, cls_loss 0.0008 cls_loss_mapping 0.0017 cls_loss_causal 0.4927 re_mapping 0.0029 re_causal 0.0097 /// teacc 99.16 lr 0.00010000
+Epoch 300, weight, value: tensor([[ 0.0878, -0.1448, -0.1394,  ..., -0.1267, -0.1589, -0.1507],
+        [ 0.0381,  0.0505, -0.0341,  ..., -0.0603,  0.1611,  0.0155],
+        [-0.0343, -0.1640, -0.0099,  ...,  0.2026, -0.1703,  0.0407],
+        ...,
+        [-0.1885,  0.1428,  0.0251,  ..., -0.1503,  0.1162,  0.0589],
+        [ 0.0022, -0.0805, -0.0021,  ..., -0.1216, -0.1714, -0.2193],
+        [ 0.0255, -0.0405, -0.0240,  ..., -0.2093, -0.1627,  0.0293]],
+       device='cuda:0'), grad: tensor([[-1.2922e-08,  2.3283e-10,  0.0000e+00,  ...,  9.8138e-08,
+          9.3132e-10,  5.8208e-10],
+        [-3.5740e-08, -1.5018e-08,  0.0000e+00,  ...,  7.9628e-08,
+         -7.7998e-08, -2.8755e-08],
+        [ 8.3819e-09,  4.0745e-09,  0.0000e+00,  ...,  2.8708e-07,
+          9.8953e-09,  5.8208e-09],
+        ...,
+        [ 2.2002e-08,  4.0745e-09,  0.0000e+00,  ...,  6.7521e-09,
+          3.3178e-08,  1.1991e-08],
+        [-7.1013e-09,  3.3760e-09,  0.0000e+00,  ...,  2.0536e-07,
+          1.6764e-08,  7.1013e-09],
+        [ 1.5600e-08,  1.0477e-09,  0.0000e+00,  ...,  2.8755e-08,
+          5.2387e-09,  6.2864e-09]], device='cuda:0')
+Epoch 300, bias, value: tensor([-0.0340,  0.0130,  0.0144,  0.0260,  0.0311, -0.0199,  0.0249,  0.0307,
+        -0.0101,  0.0033], device='cuda:0'), grad: tensor([ 1.6904e-07,  8.1025e-08,  6.1002e-07,  4.4587e-08,  1.6228e-07,
+         3.9898e-06, -5.6587e-06,  9.7556e-08,  3.6880e-07,  1.5507e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 299, time 250.64, cls_loss 0.0007 cls_loss_mapping 0.0015 cls_loss_causal 0.4894 re_mapping 0.0028 re_causal 0.0096 /// teacc 99.08 lr 0.00010000
+Epoch 301, weight, value: tensor([[ 0.0878, -0.1452, -0.1394,  ..., -0.1269, -0.1595, -0.1509],
+        [ 0.0382,  0.0504, -0.0342,  ..., -0.0604,  0.1614,  0.0158],
+        [-0.0341, -0.1641, -0.0099,  ...,  0.2031, -0.1708,  0.0407],
+        ...,
+        [-0.1906,  0.1430,  0.0252,  ..., -0.1504,  0.1162,  0.0589],
+        [ 0.0022, -0.0805, -0.0022,  ..., -0.1229, -0.1714, -0.2196],
+        [ 0.0247, -0.0407, -0.0241,  ..., -0.2100, -0.1633,  0.0291]],
+       device='cuda:0'), grad: tensor([[ 8.0327e-09,  1.1642e-09,  0.0000e+00,  ...,  1.1874e-08,
+          2.9104e-09,  1.8161e-08],
+        [-1.7253e-07, -1.2852e-07,  0.0000e+00,  ...,  1.0640e-07,
+         -5.4296e-07, -1.2002e-07],
+        [ 2.1304e-08,  9.8953e-09,  0.0000e+00,  ..., -1.9162e-07,
+          3.5274e-08, -2.2817e-08],
+        ...,
+        [ 1.8568e-07,  8.8825e-08,  0.0000e+00,  ...,  9.5577e-08,
+          3.6415e-07,  3.8138e-07],
+        [ 7.2992e-08,  9.5461e-09,  0.0000e+00,  ...,  8.0327e-08,
+          2.6193e-08,  1.3853e-07],
+        [-4.8103e-07, -5.5297e-08,  0.0000e+00,  ...,  1.9837e-06,
+          1.7928e-08,  2.5909e-06]], device='cuda:0')
+Epoch 301, bias, value: tensor([-0.0341,  0.0131,  0.0144,  0.0260,  0.0313, -0.0199,  0.0247,  0.0307,
+        -0.0101,  0.0031], device='cuda:0'), grad: tensor([ 6.7987e-08, -5.3970e-07, -1.9360e-07,  1.3574e-07, -8.3074e-06,
+        -3.3434e-07,  7.3994e-07,  1.3150e-06,  5.4389e-07,  6.5789e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 300, time 250.59, cls_loss 0.0009 cls_loss_mapping 0.0017 cls_loss_causal 0.4537 re_mapping 0.0029 re_causal 0.0094 /// teacc 99.09 lr 0.00010000
+Epoch 302, weight, value: tensor([[ 0.0879, -0.1466, -0.1394,  ..., -0.1301, -0.1612, -0.1511],
+        [ 0.0383,  0.0505, -0.0345,  ..., -0.0605,  0.1616,  0.0161],
+        [-0.0347, -0.1642, -0.0100,  ...,  0.2033, -0.1710,  0.0407],
+        ...,
+        [-0.1925,  0.1430,  0.0256,  ..., -0.1504,  0.1163,  0.0589],
+        [ 0.0022, -0.0806, -0.0022,  ..., -0.1233, -0.1714, -0.2200],
+        [ 0.0244, -0.0408, -0.0245,  ..., -0.2103, -0.1636,  0.0290]],
+       device='cuda:0'), grad: tensor([[ 3.8301e-08,  6.9849e-10,  0.0000e+00,  ...,  7.5204e-08,
+          2.4447e-09,  1.0477e-09],
+        [-1.3388e-08, -2.3283e-09,  0.0000e+00,  ...,  6.5193e-09,
+         -3.7835e-08, -1.0361e-08],
+        [ 6.8918e-08,  7.5670e-09,  0.0000e+00,  ...,  3.4925e-10,
+          1.6880e-08,  1.0361e-08],
+        ...,
+        [ 4.2375e-08,  3.7486e-08,  0.0000e+00,  ...,  1.0477e-09,
+         -3.6089e-09,  3.2480e-08],
+        [-1.7951e-07,  3.0268e-09,  0.0000e+00,  ...,  7.3342e-09,
+          1.1409e-08,  5.4715e-09],
+        [ 2.4796e-08, -6.1351e-08,  0.0000e+00,  ...,  1.1642e-09,
+          2.7940e-09, -5.5879e-08]], device='cuda:0')
+Epoch 302, bias, value: tensor([-0.0370,  0.0132,  0.0144,  0.0237,  0.0313, -0.0176,  0.0272,  0.0307,
+        -0.0100,  0.0030], device='cuda:0'), grad: tensor([ 3.7812e-07, -1.5134e-09,  2.5472e-07,  3.1898e-08,  2.6496e-07,
+        -2.4214e-08, -4.7078e-07,  2.6613e-07, -5.7416e-07, -1.0792e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 301, time 250.52, cls_loss 0.0007 cls_loss_mapping 0.0013 cls_loss_causal 0.4707 re_mapping 0.0029 re_causal 0.0096 /// teacc 99.00 lr 0.00010000
+Epoch 303, weight, value: tensor([[ 0.0880, -0.1472, -0.1394,  ..., -0.1302, -0.1618, -0.1513],
+        [ 0.0384,  0.0506, -0.0345,  ..., -0.0603,  0.1620,  0.0167],
+        [-0.0351, -0.1642, -0.0099,  ...,  0.2035, -0.1714,  0.0407],
+        ...,
+        [-0.1939,  0.1430,  0.0256,  ..., -0.1505,  0.1162,  0.0589],
+        [ 0.0022, -0.0806, -0.0022,  ..., -0.1225, -0.1715, -0.2205],
+        [ 0.0236, -0.0409, -0.0245,  ..., -0.2107, -0.1643,  0.0289]],
+       device='cuda:0'), grad: tensor([[-4.1910e-09,  1.1642e-10,  0.0000e+00,  ...,  3.3760e-09,
+          2.3283e-10,  4.6566e-09],
+        [-8.0327e-09, -2.3283e-10,  0.0000e+00,  ...,  3.7067e-07,
+         -1.3039e-08,  5.4110e-07],
+        [ 1.3970e-09,  6.1700e-09,  0.0000e+00,  ...,  5.4715e-08,
+          6.9849e-09,  9.4064e-08],
+        ...,
+        [ 3.2596e-09, -1.0477e-08,  0.0000e+00,  ...,  2.9407e-07,
+         -9.3132e-09,  4.2189e-07],
+        [ 1.5716e-08,  2.0955e-09,  0.0000e+00,  ...,  4.0163e-08,
+          1.0245e-08,  5.8673e-08],
+        [-9.6625e-09,  1.2806e-09,  0.0000e+00,  ...,  1.6578e-06,
+          1.3970e-09,  2.4345e-06]], device='cuda:0')
+Epoch 303, bias, value: tensor([-0.0369,  0.0133,  0.0144,  0.0238,  0.0314, -0.0178,  0.0268,  0.0306,
+        -0.0099,  0.0029], device='cuda:0'), grad: tensor([-2.3283e-10,  1.5497e-06,  2.7521e-07,  9.5228e-08, -1.0297e-05,
+        -1.8685e-07,  9.7440e-08,  1.2266e-06,  2.6543e-07,  6.9775e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 302, time 250.61, cls_loss 0.0007 cls_loss_mapping 0.0013 cls_loss_causal 0.4813 re_mapping 0.0028 re_causal 0.0091 /// teacc 99.11 lr 0.00010000
+Epoch 304, weight, value: tensor([[ 0.0881, -0.1481, -0.1394,  ..., -0.1303, -0.1627, -0.1520],
+        [ 0.0384,  0.0507, -0.0346,  ..., -0.0606,  0.1623,  0.0168],
+        [-0.0352, -0.1643, -0.0100,  ...,  0.2036, -0.1715,  0.0407],
+        ...,
+        [-0.1951,  0.1431,  0.0258,  ..., -0.1505,  0.1163,  0.0589],
+        [ 0.0022, -0.0807, -0.0022,  ..., -0.1227, -0.1716, -0.2223],
+        [ 0.0251, -0.0408, -0.0248,  ..., -0.2112, -0.1644,  0.0289]],
+       device='cuda:0'), grad: tensor([[-1.1758e-07,  5.8208e-10,  0.0000e+00,  ..., -8.8476e-09,
+          1.1642e-09,  2.5611e-09],
+        [-3.7486e-08,  2.1770e-08,  0.0000e+00,  ...,  3.7253e-09,
+          8.4983e-09,  9.3482e-08],
+        [ 4.1910e-09,  7.3924e-08,  0.0000e+00,  ...,  5.8208e-10,
+          1.2282e-07,  1.2747e-07],
+        ...,
+        [ 3.0850e-08, -3.0152e-07,  0.0000e+00,  ...,  8.1491e-09,
+         -4.8568e-07, -4.9127e-07],
+        [ 6.9500e-08,  1.2224e-08,  0.0000e+00,  ...,  4.5402e-09,
+          2.5379e-08,  1.7264e-07],
+        [-2.2235e-08,  1.5856e-07,  0.0000e+00,  ...,  1.1711e-07,
+          2.6566e-07,  3.7579e-07]], device='cuda:0')
+Epoch 304, bias, value: tensor([-0.0370,  0.0134,  0.0144,  0.0238,  0.0315, -0.0178,  0.0268,  0.0306,
+        -0.0101,  0.0029], device='cuda:0'), grad: tensor([-7.7020e-07,  2.8592e-07,  3.6974e-07,  1.1094e-07,  2.2408e-06,
+        -1.1455e-07,  6.8452e-08, -1.1865e-06,  2.1253e-06, -3.1069e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 303, time 250.46, cls_loss 0.0007 cls_loss_mapping 0.0013 cls_loss_causal 0.4279 re_mapping 0.0029 re_causal 0.0091 /// teacc 98.99 lr 0.00010000
+Epoch 305, weight, value: tensor([[ 0.0880, -0.1495, -0.1394,  ..., -0.1304, -0.1638, -0.1525],
+        [ 0.0385,  0.0507, -0.0346,  ..., -0.0620,  0.1625,  0.0167],
+        [-0.0353, -0.1643, -0.0100,  ...,  0.2050, -0.1717,  0.0409],
+        ...,
+        [-0.1968,  0.1434,  0.0258,  ..., -0.1506,  0.1166,  0.0590],
+        [ 0.0022, -0.0808, -0.0022,  ..., -0.1232, -0.1718, -0.2235],
+        [ 0.0254, -0.0411, -0.0248,  ..., -0.2118, -0.1651,  0.0287]],
+       device='cuda:0'), grad: tensor([[ 1.0373e-07,  5.3551e-09,  0.0000e+00,  ...,  1.6764e-08,
+          1.3167e-07,  1.1572e-07],
+        [ 1.7369e-07,  1.8366e-06,  0.0000e+00,  ...,  7.9162e-09,
+         -3.4757e-06, -3.0063e-06],
+        [ 2.9523e-07,  5.9954e-09,  0.0000e+00,  ..., -6.9849e-10,
+          3.9116e-07,  3.4273e-07],
+        ...,
+        [ 3.4389e-07,  7.6252e-09,  0.0000e+00,  ...,  1.3213e-08,
+          4.3958e-07,  4.0745e-07],
+        [-2.9840e-06, -2.1588e-06,  0.0000e+00,  ...,  3.2596e-09,
+          3.5274e-07,  2.9197e-07],
+        [ 3.9255e-07,  3.0443e-08,  0.0000e+00,  ...,  2.7008e-08,
+          4.7404e-07,  4.6613e-07]], device='cuda:0')
+Epoch 305, bias, value: tensor([-0.0371,  0.0134,  0.0146,  0.0238,  0.0315, -0.0178,  0.0266,  0.0307,
+        -0.0102,  0.0028], device='cuda:0'), grad: tensor([ 6.6776e-07, -6.9551e-06,  1.8077e-06,  6.3740e-06,  1.5693e-07,
+         1.5078e-06,  7.0687e-07,  2.1234e-06, -8.8289e-06,  2.4382e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 304, time 250.18, cls_loss 0.0007 cls_loss_mapping 0.0014 cls_loss_causal 0.4577 re_mapping 0.0028 re_causal 0.0092 /// teacc 99.13 lr 0.00010000
+Epoch 306, weight, value: tensor([[ 0.0879, -0.1511, -0.1394,  ..., -0.1304, -0.1646, -0.1528],
+        [ 0.0386,  0.0513, -0.0346,  ..., -0.0638,  0.1632,  0.0171],
+        [-0.0360, -0.1644, -0.0100,  ...,  0.2062, -0.1718,  0.0411],
+        ...,
+        [-0.2016,  0.1432,  0.0258,  ..., -0.1508,  0.1160,  0.0587],
+        [ 0.0022, -0.0809, -0.0022,  ..., -0.1235, -0.1719, -0.2250],
+        [ 0.0256, -0.0412, -0.0248,  ..., -0.2125, -0.1656,  0.0286]],
+       device='cuda:0'), grad: tensor([[ 3.6089e-09,  1.2806e-09,  1.1642e-10,  ...,  1.7637e-08,
+          3.7835e-09,  2.1886e-08],
+        [-3.4051e-08,  6.8394e-08,  1.1642e-10,  ..., -3.1781e-07,
+         -2.3097e-06, -1.8729e-06],
+        [-4.3772e-08,  1.0303e-08,  1.6298e-09,  ..., -2.1874e-07,
+          9.3132e-07,  3.7393e-07],
+        ...,
+        [ 4.1677e-08, -1.8976e-07,  5.8208e-10,  ...,  3.6391e-07,
+          1.0328e-06,  1.0561e-06],
+        [ 1.7288e-08,  3.8126e-08,  4.0745e-10,  ...,  1.0850e-07,
+          9.8429e-08,  1.9546e-07],
+        [-5.7044e-09,  2.0373e-08,  1.7462e-10,  ...,  2.6892e-08,
+          3.3120e-08,  4.8196e-08]], device='cuda:0')
+Epoch 306, bias, value: tensor([-0.0371,  0.0136,  0.0147,  0.0237,  0.0317, -0.0177,  0.0265,  0.0304,
+        -0.0102,  0.0028], device='cuda:0'), grad: tensor([ 6.2166e-08, -4.5262e-06,  1.0561e-06, -6.4843e-08,  3.2224e-07,
+         1.1869e-07, -2.4156e-08,  2.4773e-06,  4.5286e-07,  1.3015e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 305, time 250.76, cls_loss 0.0008 cls_loss_mapping 0.0012 cls_loss_causal 0.4869 re_mapping 0.0028 re_causal 0.0093 /// teacc 99.03 lr 0.00010000
+Epoch 307, weight, value: tensor([[ 0.0878, -0.1521, -0.1394,  ..., -0.1305, -0.1655, -0.1532],
+        [ 0.0383,  0.0517, -0.0344,  ..., -0.0640,  0.1636,  0.0168],
+        [-0.0376, -0.1645, -0.0101,  ...,  0.2065, -0.1720,  0.0412],
+        ...,
+        [-0.2049,  0.1431,  0.0258,  ..., -0.1508,  0.1158,  0.0586],
+        [ 0.0023, -0.0810, -0.0023,  ..., -0.1226, -0.1721, -0.2262],
+        [ 0.0292, -0.0412, -0.0248,  ..., -0.2129, -0.1652,  0.0289]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-09,  2.6193e-09,  0.0000e+00,  ...,  2.3865e-09,
+          2.9686e-09,  4.1327e-09],
+        [ 1.0303e-08,  1.1578e-07,  0.0000e+00,  ...,  2.1479e-08,
+          9.8546e-08,  8.6729e-08],
+        [ 1.4948e-07,  9.8662e-08,  0.0000e+00,  ...,  9.1910e-08,
+          1.0541e-07,  6.8860e-08],
+        ...,
+        [ 1.0070e-08, -3.4645e-07,  0.0000e+00,  ...,  1.4377e-08,
+         -3.4110e-07, -2.1921e-07],
+        [-2.4098e-07,  2.3399e-08,  0.0000e+00,  ..., -1.5099e-07,
+          2.9628e-08,  2.5437e-08],
+        [ 3.3993e-08,  3.1665e-08,  0.0000e+00,  ...,  8.3004e-08,
+          5.2562e-08,  1.4342e-07]], device='cuda:0')
+Epoch 307, bias, value: tensor([-0.0372,  0.0131,  0.0146,  0.0237,  0.0317, -0.0177,  0.0260,  0.0302,
+        -0.0100,  0.0034], device='cuda:0'), grad: tensor([ 2.8871e-08,  4.5635e-07,  9.4809e-07,  1.4203e-08, -3.4925e-07,
+         6.8860e-08,  8.4168e-08, -8.0327e-07, -1.0896e-06,  6.6124e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 306, time 250.67, cls_loss 0.0006 cls_loss_mapping 0.0011 cls_loss_causal 0.4359 re_mapping 0.0027 re_causal 0.0090 /// teacc 99.00 lr 0.00010000
+Epoch 308, weight, value: tensor([[ 0.0877, -0.1526, -0.1394,  ..., -0.1305, -0.1658, -0.1534],
+        [ 0.0383,  0.0516, -0.0344,  ..., -0.0642,  0.1636,  0.0166],
+        [-0.0377, -0.1645, -0.0101,  ...,  0.2067, -0.1721,  0.0412],
+        ...,
+        [-0.2055,  0.1432,  0.0258,  ..., -0.1509,  0.1159,  0.0586],
+        [ 0.0023, -0.0810, -0.0023,  ..., -0.1226, -0.1721, -0.2267],
+        [ 0.0292, -0.0413, -0.0248,  ..., -0.2135, -0.1655,  0.0288]],
+       device='cuda:0'), grad: tensor([[ 2.8755e-08,  1.9209e-09,  0.0000e+00,  ...,  7.5670e-09,
+          5.8208e-10,  7.5670e-10],
+        [ 1.0675e-07,  4.8545e-08,  0.0000e+00,  ...,  1.0303e-08,
+          2.9453e-08,  3.3178e-08],
+        [ 2.5088e-08,  1.0186e-08,  0.0000e+00,  ...,  1.1642e-09,
+          1.1292e-08,  7.3342e-09],
+        ...,
+        [ 1.7521e-08, -1.3143e-07,  0.0000e+00,  ...,  7.1595e-09,
+         -1.4959e-07, -8.0559e-08],
+        [ 6.4773e-07,  2.4040e-08,  0.0000e+00,  ..., -5.0641e-09,
+          9.3714e-09, -1.9209e-09],
+        [ 1.7055e-07,  7.9221e-08,  0.0000e+00,  ...,  1.6531e-08,
+          7.8056e-08,  6.9092e-08]], device='cuda:0')
+Epoch 308, bias, value: tensor([-0.0373,  0.0131,  0.0146,  0.0237,  0.0318, -0.0177,  0.0261,  0.0302,
+        -0.0100,  0.0032], device='cuda:0'), grad: tensor([ 1.2608e-07,  5.1688e-07,  1.2992e-07,  3.5074e-06, -5.1921e-08,
+        -8.6054e-06,  1.2945e-06, -3.4517e-08,  2.2277e-06,  9.0431e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 307, time 250.66, cls_loss 0.0006 cls_loss_mapping 0.0013 cls_loss_causal 0.4611 re_mapping 0.0030 re_causal 0.0097 /// teacc 98.98 lr 0.00010000
+Epoch 309, weight, value: tensor([[ 0.0877, -0.1534, -0.1394,  ..., -0.1306, -0.1660, -0.1536],
+        [ 0.0384,  0.0518, -0.0345,  ..., -0.0644,  0.1642,  0.0173],
+        [-0.0378, -0.1646, -0.0101,  ...,  0.2070, -0.1723,  0.0412],
+        ...,
+        [-0.2079,  0.1431,  0.0258,  ..., -0.1510,  0.1154,  0.0585],
+        [ 0.0023, -0.0810, -0.0023,  ..., -0.1229, -0.1722, -0.2273],
+        [ 0.0303, -0.0413, -0.0249,  ..., -0.2139, -0.1656,  0.0288]],
+       device='cuda:0'), grad: tensor([[ 5.8208e-10,  4.6566e-10,  0.0000e+00,  ...,  2.6776e-09,
+          1.1059e-09,  1.1059e-09],
+        [-9.6916e-08, -9.4238e-08,  0.0000e+00,  ..., -3.4925e-09,
+         -2.1560e-07, -6.0536e-08],
+        [ 1.4668e-08,  1.7055e-08,  0.0000e+00,  ..., -2.0897e-08,
+          3.2247e-08,  9.3714e-09],
+        ...,
+        [ 3.0617e-08,  1.7055e-08,  0.0000e+00,  ...,  1.2980e-08,
+          3.5332e-08,  5.5123e-08],
+        [ 6.1875e-08,  5.5996e-08,  0.0000e+00,  ...,  1.5600e-08,
+          1.2270e-07,  4.2724e-08],
+        [-2.2119e-08, -5.8208e-09,  0.0000e+00,  ...,  2.5786e-08,
+          1.9209e-09, -1.7986e-08]], device='cuda:0')
+Epoch 309, bias, value: tensor([-0.0373,  0.0132,  0.0146,  0.0237,  0.0319, -0.0178,  0.0256,  0.0300,
+        -0.0099,  0.0034], device='cuda:0'), grad: tensor([ 9.0804e-09, -3.7835e-07,  1.4494e-08, -2.9686e-09, -9.3947e-08,
+         2.1188e-08,  1.0885e-08,  2.3888e-07,  2.6263e-07, -7.2410e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 308, time 250.47, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4960 re_mapping 0.0029 re_causal 0.0098 /// teacc 99.06 lr 0.00010000
+Epoch 310, weight, value: tensor([[ 0.0867, -0.1542, -0.1394,  ..., -0.1309, -0.1664, -0.1538],
+        [ 0.0384,  0.0518, -0.0346,  ..., -0.0647,  0.1645,  0.0173],
+        [-0.0384, -0.1646, -0.0101,  ...,  0.2071, -0.1724,  0.0412],
+        ...,
+        [-0.2087,  0.1432,  0.0259,  ..., -0.1510,  0.1153,  0.0584],
+        [ 0.0025, -0.0810, -0.0023,  ..., -0.1216, -0.1722, -0.2278],
+        [ 0.0301, -0.0414, -0.0249,  ..., -0.2145, -0.1657,  0.0287]],
+       device='cuda:0'), grad: tensor([[ 1.9791e-09,  9.8953e-10,  0.0000e+00,  ...,  6.4028e-10,
+          2.7940e-09,  3.8417e-09],
+        [-1.9046e-07, -9.7265e-08,  0.0000e+00,  ..., -4.5402e-09,
+         -3.0268e-07, -1.1612e-07],
+        [ 4.3306e-08,  2.9395e-08,  0.0000e+00,  ..., -1.6997e-08,
+          8.0385e-08,  2.1129e-08],
+        ...,
+        [ 3.3237e-08, -5.2387e-10,  0.0000e+00,  ...,  3.4925e-09,
+          2.8289e-08,  1.1816e-08],
+        [ 8.6206e-08,  4.4412e-08,  0.0000e+00,  ...,  4.0745e-08,
+          1.3039e-07,  5.8732e-08],
+        [-2.2701e-09,  9.3714e-09,  0.0000e+00,  ...,  4.6566e-09,
+          2.5495e-08,  2.9104e-10]], device='cuda:0')
+Epoch 310, bias, value: tensor([-0.0378,  0.0133,  0.0146,  0.0237,  0.0320, -0.0178,  0.0252,  0.0300,
+        -0.0097,  0.0033], device='cuda:0'), grad: tensor([ 6.2864e-09, -6.5798e-07,  1.3411e-07, -1.3271e-08,  8.6147e-08,
+         1.3504e-07, -1.6787e-07,  8.6147e-08,  4.3446e-07, -9.5461e-09],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 309, time 250.52, cls_loss 0.0007 cls_loss_mapping 0.0014 cls_loss_causal 0.4607 re_mapping 0.0026 re_causal 0.0088 /// teacc 99.12 lr 0.00010000
+Epoch 311, weight, value: tensor([[ 0.0864, -0.1568, -0.1394,  ..., -0.1309, -0.1677, -0.1541],
+        [ 0.0385,  0.0516, -0.0351,  ..., -0.0651,  0.1644,  0.0169],
+        [-0.0387, -0.1647, -0.0102,  ...,  0.2073, -0.1726,  0.0413],
+        ...,
+        [-0.2092,  0.1435,  0.0264,  ..., -0.1511,  0.1158,  0.0586],
+        [ 0.0025, -0.0811, -0.0023,  ..., -0.1219, -0.1723, -0.2286],
+        [ 0.0303, -0.0415, -0.0252,  ..., -0.2151, -0.1660,  0.0287]],
+       device='cuda:0'), grad: tensor([[ 2.9104e-10,  4.0163e-09,  0.0000e+00,  ...,  2.2817e-08,
+          3.2014e-09,  1.1583e-08],
+        [ 1.1292e-08,  3.3469e-08,  0.0000e+00,  ...,  4.9942e-08,
+          2.9046e-08,  4.6974e-08],
+        [ 4.3074e-09,  1.9406e-07,  0.0000e+00,  ..., -4.9639e-07,
+          1.7206e-07, -3.0617e-08],
+        ...,
+        [ 6.9849e-10, -3.2852e-07,  0.0000e+00,  ...,  4.0047e-08,
+         -2.9104e-07, -2.4587e-07],
+        [-1.7462e-08,  1.6007e-08,  0.0000e+00,  ...,  2.8813e-08,
+          1.2049e-08,  2.9802e-08],
+        [ 3.8999e-09,  3.3178e-08,  0.0000e+00,  ...,  2.9453e-08,
+          2.7008e-08,  5.4017e-08]], device='cuda:0')
+Epoch 311, bias, value: tensor([-0.0380,  0.0131,  0.0146,  0.0237,  0.0320, -0.0178,  0.0254,  0.0301,
+        -0.0097,  0.0033], device='cuda:0'), grad: tensor([ 6.5891e-08,  2.6985e-07, -5.0291e-07,  7.7765e-07,  9.8371e-09,
+         4.2201e-08,  1.6764e-08, -8.8057e-07,  9.1386e-09,  2.1688e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 310, time 250.75, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4687 re_mapping 0.0028 re_causal 0.0096 /// teacc 99.09 lr 0.00010000
+Epoch 312, weight, value: tensor([[ 0.0864, -0.1575, -0.1394,  ..., -0.1310, -0.1682, -0.1543],
+        [ 0.0385,  0.0515, -0.0352,  ..., -0.0652,  0.1643,  0.0166],
+        [-0.0376, -0.1649, -0.0102,  ...,  0.2081, -0.1728,  0.0416],
+        ...,
+        [-0.2094,  0.1438,  0.0265,  ..., -0.1511,  0.1163,  0.0587],
+        [ 0.0025, -0.0812, -0.0023,  ..., -0.1219, -0.1724, -0.2290],
+        [ 0.0301, -0.0416, -0.0253,  ..., -0.2171, -0.1662,  0.0284]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  4.5984e-09,  0.0000e+00,  ...,  7.5670e-10,
+          3.4051e-08,  1.3912e-08],
+        [-4.0466e-07, -2.1537e-09,  0.0000e+00,  ..., -1.8859e-08,
+         -6.0769e-07, -1.1956e-07],
+        [ 8.8359e-08,  8.0443e-08,  0.0000e+00,  ...,  6.5775e-09,
+          1.8917e-07,  1.2596e-07],
+        ...,
+        [ 3.3120e-08, -5.8673e-07,  0.0000e+00,  ...,  9.1968e-09,
+         -3.6764e-07, -6.2771e-07],
+        [ 1.9965e-07,  7.0140e-08,  0.0000e+00,  ...,  2.1013e-08,
+          2.1292e-07,  1.0524e-07],
+        [-2.0233e-07,  1.1700e-07,  0.0000e+00,  ...,  1.1548e-07,
+          9.3016e-08,  3.2200e-07]], device='cuda:0')
+Epoch 312, bias, value: tensor([-0.0381,  0.0130,  0.0150,  0.0238,  0.0321, -0.0179,  0.0253,  0.0302,
+        -0.0097,  0.0029], device='cuda:0'), grad: tensor([-6.1525e-08, -1.2191e-06,  5.6392e-07,  5.3260e-08,  4.0652e-07,
+         3.4389e-07,  3.2433e-07, -1.5749e-06,  7.9721e-07,  3.5088e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 311, time 250.78, cls_loss 0.0007 cls_loss_mapping 0.0014 cls_loss_causal 0.4935 re_mapping 0.0027 re_causal 0.0091 /// teacc 99.12 lr 0.00010000
+Epoch 313, weight, value: tensor([[ 0.0892, -0.1587, -0.1394,  ..., -0.1306, -0.1690, -0.1546],
+        [ 0.0386,  0.0517, -0.0352,  ..., -0.0652,  0.1649,  0.0171],
+        [-0.0385, -0.1652, -0.0102,  ...,  0.2081, -0.1734,  0.0414],
+        ...,
+        [-0.2103,  0.1440,  0.0265,  ..., -0.1511,  0.1165,  0.0587],
+        [ 0.0025, -0.0813, -0.0023,  ..., -0.1231, -0.1726, -0.2305],
+        [ 0.0315, -0.0417, -0.0253,  ..., -0.2167, -0.1665,  0.0287]],
+       device='cuda:0'), grad: tensor([[-5.1223e-08, -3.8999e-09,  0.0000e+00,  ...,  2.2585e-08,
+         -6.1700e-09,  6.9849e-10],
+        [ 7.4564e-08, -6.4028e-09,  0.0000e+00,  ...,  1.0250e-07,
+         -5.0873e-08, -1.5367e-08],
+        [ 1.7986e-08,  1.0943e-08,  0.0000e+00,  ...,  2.7940e-08,
+          1.1816e-08,  1.1816e-08],
+        ...,
+        [ 1.4959e-08, -1.5192e-08,  0.0000e+00,  ...,  6.7521e-09,
+         -1.3970e-09, -1.0536e-08],
+        [-5.3272e-07,  3.5507e-09,  0.0000e+00,  ..., -1.5076e-07,
+          1.3388e-08,  5.0641e-09],
+        [ 2.1653e-08,  3.7253e-09,  0.0000e+00,  ...,  1.7171e-08,
+          5.5297e-09, -6.9849e-10]], device='cuda:0')
+Epoch 313, bias, value: tensor([-0.0364,  0.0132,  0.0147,  0.0238,  0.0316, -0.0180,  0.0253,  0.0303,
+        -0.0099,  0.0034], device='cuda:0'), grad: tensor([-2.1863e-07,  5.1688e-07,  1.9383e-07, -1.8545e-07,  2.2491e-07,
+         4.1202e-06, -2.8294e-06,  5.9430e-08, -2.0098e-06,  1.2061e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 312, time 250.48, cls_loss 0.0009 cls_loss_mapping 0.0021 cls_loss_causal 0.4632 re_mapping 0.0028 re_causal 0.0091 /// teacc 99.06 lr 0.00010000
+Epoch 314, weight, value: tensor([[ 0.0892, -0.1600, -0.1394,  ..., -0.1307, -0.1703, -0.1550],
+        [ 0.0417,  0.0549, -0.0352,  ..., -0.0666,  0.1683,  0.0205],
+        [-0.0370, -0.1653, -0.0102,  ...,  0.2089, -0.1733,  0.0416],
+        ...,
+        [-0.2134,  0.1438,  0.0265,  ..., -0.1512,  0.1156,  0.0583],
+        [ 0.0024, -0.0814, -0.0023,  ..., -0.1256, -0.1729, -0.2324],
+        [ 0.0308, -0.0423, -0.0253,  ..., -0.2174, -0.1687,  0.0280]],
+       device='cuda:0'), grad: tensor([[ 2.5611e-09,  0.0000e+00,  0.0000e+00,  ...,  4.4005e-08,
+          5.8208e-10,  1.6880e-09],
+        [ 2.7590e-08, -1.7462e-09,  0.0000e+00,  ...,  1.2165e-08,
+         -6.6357e-09,  2.8056e-08],
+        [-6.9849e-10,  1.2806e-09,  0.0000e+00,  ..., -7.2236e-08,
+          6.9849e-10, -4.3656e-08],
+        ...,
+        [ 6.3446e-09,  3.4925e-10,  0.0000e+00,  ...,  5.8557e-08,
+          1.2224e-09,  5.9779e-08],
+        [ 1.8626e-09,  1.9791e-09,  0.0000e+00,  ...,  1.0419e-08,
+          6.0536e-09,  1.6938e-08],
+        [-4.8778e-08,  3.4925e-10,  0.0000e+00,  ...,  8.4110e-08,
+          4.0745e-10,  1.8557e-07]], device='cuda:0')
+Epoch 314, bias, value: tensor([-0.0364,  0.0165,  0.0149,  0.0238,  0.0285, -0.0181,  0.0253,  0.0299,
+        -0.0102,  0.0029], device='cuda:0'), grad: tensor([ 5.9430e-08,  1.6601e-07, -6.8103e-08, -1.0309e-07, -7.6368e-07,
+         5.3959e-08, -1.4529e-07,  2.1153e-07,  3.8825e-08,  5.3830e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 313, time 250.56, cls_loss 0.0009 cls_loss_mapping 0.0017 cls_loss_causal 0.4680 re_mapping 0.0027 re_causal 0.0089 /// teacc 98.96 lr 0.00010000
+Epoch 315, weight, value: tensor([[ 0.0889, -0.1615, -0.1394,  ..., -0.1313, -0.1714, -0.1557],
+        [ 0.0417,  0.0549, -0.0351,  ..., -0.0678,  0.1683,  0.0204],
+        [-0.0386, -0.1654, -0.0102,  ...,  0.2088, -0.1743,  0.0415],
+        ...,
+        [-0.2137,  0.1439,  0.0265,  ..., -0.1513,  0.1157,  0.0583],
+        [ 0.0026, -0.0814, -0.0023,  ..., -0.1247, -0.1728, -0.2333],
+        [ 0.0310, -0.0425, -0.0253,  ..., -0.2184, -0.1690,  0.0276]],
+       device='cuda:0'), grad: tensor([[ 4.8475e-07,  4.6566e-10,  0.0000e+00,  ...,  1.2806e-09,
+          6.9849e-10,  1.0477e-09],
+        [-1.5600e-08, -2.4564e-08,  0.0000e+00,  ...,  1.6065e-08,
+         -1.2538e-07,  7.4739e-08],
+        [ 8.9407e-08,  5.1223e-09,  0.0000e+00,  ..., -6.0652e-08,
+          6.8685e-09, -3.8650e-08],
+        ...,
+        [ 2.2934e-08,  6.8569e-08,  0.0000e+00,  ...,  2.3283e-08,
+          3.3295e-08,  2.1106e-07],
+        [-7.9907e-07,  4.7497e-08,  0.0000e+00,  ...,  5.9954e-08,
+          9.5810e-08,  8.7777e-08],
+        [ 1.8510e-07,  5.4366e-08,  0.0000e+00,  ...,  2.1886e-08,
+          2.5379e-08,  1.5472e-07]], device='cuda:0')
+Epoch 315, bias, value: tensor([-0.0371,  0.0164,  0.0144,  0.0239,  0.0286, -0.0182,  0.0257,  0.0298,
+        -0.0098,  0.0027], device='cuda:0'), grad: tensor([ 1.4137e-06,  1.1362e-07,  1.5018e-07,  1.8976e-08, -9.1782e-07,
+         3.1199e-08,  2.7590e-08,  4.6240e-07, -2.1253e-06,  8.4611e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 314, time 250.58, cls_loss 0.0011 cls_loss_mapping 0.0019 cls_loss_causal 0.4766 re_mapping 0.0027 re_causal 0.0088 /// teacc 99.08 lr 0.00010000
+Epoch 316, weight, value: tensor([[ 0.0883, -0.1627, -0.1395,  ..., -0.1314, -0.1696, -0.1581],
+        [ 0.0417,  0.0547, -0.0351,  ..., -0.0711,  0.1682,  0.0200],
+        [-0.0392, -0.1658, -0.0102,  ...,  0.2091, -0.1749,  0.0414],
+        ...,
+        [-0.2141,  0.1444,  0.0265,  ..., -0.1514,  0.1163,  0.0584],
+        [ 0.0027, -0.0815, -0.0021,  ..., -0.1253, -0.1728, -0.2340],
+        [ 0.0320, -0.0428, -0.0252,  ..., -0.2195, -0.1695,  0.0282]],
+       device='cuda:0'), grad: tensor([[-5.1223e-09,  3.4925e-10,  0.0000e+00,  ...,  4.0745e-09,
+          3.4925e-10,  2.3982e-08],
+        [-1.9791e-09,  1.4901e-08,  0.0000e+00,  ...,  1.3155e-08,
+          6.5193e-09,  2.6426e-08],
+        [ 4.8894e-09,  8.1491e-09,  0.0000e+00,  ..., -1.6473e-07,
+          6.0536e-09, -8.9291e-08],
+        ...,
+        [ 9.0804e-09, -4.4936e-08,  0.0000e+00,  ...,  1.3155e-08,
+         -4.3772e-08, -4.0745e-09],
+        [ 6.7521e-09,  4.4238e-09,  0.0000e+00,  ...,  1.1118e-07,
+          7.5670e-09,  8.2538e-08],
+        [-9.6625e-09,  4.7730e-09,  0.0000e+00,  ...,  4.1910e-09,
+          4.6566e-09,  3.4110e-08]], device='cuda:0')
+Epoch 316, bias, value: tensor([-0.0382,  0.0159,  0.0143,  0.0238,  0.0291, -0.0182,  0.0256,  0.0299,
+        -0.0097,  0.0033], device='cuda:0'), grad: tensor([ 5.3318e-08,  1.2980e-07, -3.2969e-07, -1.0943e-07, -2.3935e-07,
+         9.3132e-09,  1.2689e-08,  5.0059e-08,  3.1060e-07,  1.2526e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 315, time 250.29, cls_loss 0.0007 cls_loss_mapping 0.0018 cls_loss_causal 0.4912 re_mapping 0.0029 re_causal 0.0095 /// teacc 99.06 lr 0.00010000
+Epoch 317, weight, value: tensor([[ 0.0885, -0.1632, -0.1395,  ..., -0.1314, -0.1694, -0.1587],
+        [ 0.0417,  0.0547, -0.0352,  ..., -0.0712,  0.1683,  0.0200],
+        [-0.0400, -0.1659, -0.0102,  ...,  0.2093, -0.1754,  0.0414],
+        ...,
+        [-0.2145,  0.1445,  0.0266,  ..., -0.1515,  0.1165,  0.0584],
+        [ 0.0026, -0.0815, -0.0021,  ..., -0.1267, -0.1729, -0.2347],
+        [ 0.0321, -0.0429, -0.0251,  ..., -0.2220, -0.1702,  0.0268]],
+       device='cuda:0'), grad: tensor([[ 7.3342e-09,  8.1491e-10,  0.0000e+00,  ...,  8.9640e-09,
+          5.2387e-09,  2.1653e-08],
+        [-3.3528e-08, -7.5321e-08,  0.0000e+00,  ...,  1.6298e-07,
+         -1.7264e-07,  4.8848e-07],
+        [ 2.1770e-08,  3.8417e-09,  0.0000e+00,  ..., -6.7288e-08,
+          1.6415e-08, -3.9581e-09],
+        ...,
+        [ 4.4936e-08,  3.2247e-08,  0.0000e+00,  ...,  6.9500e-08,
+          1.0501e-07,  2.9081e-07],
+        [-1.4564e-07,  3.0035e-08,  0.0000e+00,  ..., -8.4518e-08,
+          1.0571e-07,  6.2399e-08],
+        [ 2.9076e-06,  4.6566e-09,  0.0000e+00,  ...,  1.1623e-05,
+          4.6007e-06,  4.5955e-05]], device='cuda:0')
+Epoch 317, bias, value: tensor([-0.0382,  0.0158,  0.0142,  0.0238,  0.0294, -0.0182,  0.0243,  0.0299,
+        -0.0098,  0.0018], device='cuda:0'), grad: tensor([ 1.1420e-07,  2.0675e-06,  1.8743e-08,  3.1339e-07, -1.9264e-04,
+         2.0920e-07,  2.4610e-07,  1.2051e-06, -4.1118e-07,  1.8883e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 316, time 250.49, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4607 re_mapping 0.0028 re_causal 0.0096 /// teacc 98.98 lr 0.00010000
+Epoch 318, weight, value: tensor([[ 0.0889, -0.1611, -0.1395,  ..., -0.1315, -0.1696, -0.1587],
+        [ 0.0417,  0.0547, -0.0353,  ..., -0.0712,  0.1683,  0.0200],
+        [-0.0400, -0.1659, -0.0102,  ...,  0.2096, -0.1754,  0.0415],
+        ...,
+        [-0.2148,  0.1447,  0.0267,  ..., -0.1516,  0.1166,  0.0584],
+        [ 0.0026, -0.0816, -0.0021,  ..., -0.1274, -0.1731, -0.2357],
+        [ 0.0319, -0.0430, -0.0251,  ..., -0.2229, -0.1707,  0.0263]],
+       device='cuda:0'), grad: tensor([[ 2.5611e-09,  2.3283e-10,  0.0000e+00,  ...,  2.7823e-08,
+          6.9849e-10,  5.8208e-10],
+        [-2.2119e-08, -1.5483e-08,  0.0000e+00,  ...,  5.9372e-09,
+         -5.8906e-08, -3.2480e-08],
+        [ 6.1700e-09,  6.1700e-09,  0.0000e+00,  ..., -5.4715e-09,
+          1.7928e-08,  6.2864e-09],
+        ...,
+        [ 3.8417e-09,  2.7940e-09,  0.0000e+00,  ...,  1.3970e-09,
+          9.7789e-09,  6.8685e-09],
+        [ 5.7044e-09,  4.1910e-09,  0.0000e+00,  ...,  2.0955e-09,
+          1.4319e-08,  8.6147e-09],
+        [ 9.3132e-10,  1.9791e-09,  0.0000e+00,  ...,  1.0477e-09,
+          3.9581e-09,  2.5611e-09]], device='cuda:0')
+Epoch 318, bias, value: tensor([-0.0379,  0.0158,  0.0142,  0.0244,  0.0295, -0.0188,  0.0244,  0.0299,
+        -0.0098,  0.0013], device='cuda:0'), grad: tensor([ 4.9244e-08, -1.0210e-07,  2.5029e-08,  6.0536e-09,  7.4855e-08,
+         3.2480e-08, -1.3842e-07,  2.6659e-08,  3.4925e-08,  1.2224e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 317, time 250.34, cls_loss 0.0007 cls_loss_mapping 0.0014 cls_loss_causal 0.4601 re_mapping 0.0027 re_causal 0.0090 /// teacc 98.98 lr 0.00010000
+Epoch 319, weight, value: tensor([[ 0.0885, -0.1609, -0.1395,  ..., -0.1318, -0.1700, -0.1604],
+        [ 0.0417,  0.0547, -0.0353,  ..., -0.0713,  0.1683,  0.0200],
+        [-0.0405, -0.1660, -0.0103,  ...,  0.2098, -0.1757,  0.0415],
+        ...,
+        [-0.2152,  0.1449,  0.0267,  ..., -0.1517,  0.1170,  0.0585],
+        [ 0.0027, -0.0818, -0.0021,  ..., -0.1271, -0.1734, -0.2372],
+        [ 0.0323, -0.0431, -0.0251,  ..., -0.2238, -0.1709,  0.0262]],
+       device='cuda:0'), grad: tensor([[-3.0547e-07,  1.0012e-08,  0.0000e+00,  ...,  4.8894e-09,
+          1.8161e-08,  1.3621e-08],
+        [-1.3865e-07,  4.1956e-07,  0.0000e+00,  ...,  3.2596e-09,
+          3.1665e-07,  6.3051e-07],
+        [ 2.7125e-08,  2.3039e-07,  0.0000e+00,  ...,  6.0536e-09,
+          3.0478e-07,  3.1269e-07],
+        ...,
+        [ 1.8161e-08, -9.4697e-06,  0.0000e+00,  ...,  2.2119e-09,
+         -1.2614e-05, -1.3284e-05],
+        [ 1.1129e-07,  8.6129e-06,  0.0000e+00,  ...,  6.7521e-09,
+          1.1705e-05,  1.2062e-05],
+        [ 2.5635e-07,  7.9744e-08,  0.0000e+00,  ...,  1.2806e-09,
+          9.2317e-08,  9.3132e-08]], device='cuda:0')
+Epoch 319, bias, value: tensor([-0.0395,  0.0158,  0.0141,  0.0244,  0.0295, -0.0188,  0.0241,  0.0299,
+        -0.0094,  0.0013], device='cuda:0'), grad: tensor([-1.1092e-06,  1.6615e-06,  1.1176e-06,  1.2352e-07,  5.0478e-07,
+         6.6939e-08, -3.3411e-08, -4.4763e-05,  4.1217e-05,  1.2824e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 318, time 250.50, cls_loss 0.0007 cls_loss_mapping 0.0016 cls_loss_causal 0.4555 re_mapping 0.0027 re_causal 0.0090 /// teacc 99.08 lr 0.00010000
+Epoch 320, weight, value: tensor([[ 0.0886, -0.1612, -0.1395,  ..., -0.1318, -0.1705, -0.1606],
+        [ 0.0417,  0.0544, -0.0353,  ..., -0.0714,  0.1681,  0.0198],
+        [-0.0400, -0.1661, -0.0103,  ...,  0.2105, -0.1754,  0.0417],
+        ...,
+        [-0.2146,  0.1470,  0.0267,  ..., -0.1518,  0.1201,  0.0598],
+        [ 0.0026, -0.0820, -0.0021,  ..., -0.1290, -0.1739, -0.2415],
+        [ 0.0315, -0.0434, -0.0251,  ..., -0.2258, -0.1716,  0.0248]],
+       device='cuda:0'), grad: tensor([[ 7.6834e-09,  1.3853e-08,  0.0000e+00,  ...,  7.3225e-08,
+          1.4051e-07,  5.1921e-08],
+        [-1.2713e-07,  1.8149e-07,  0.0000e+00,  ...,  1.1008e-06,
+          2.6599e-06,  9.1037e-07],
+        [ 8.2655e-09,  5.9954e-08,  0.0000e+00,  ...,  3.3760e-08,
+          1.0896e-07,  9.4762e-08],
+        ...,
+        [ 4.3190e-08, -2.3209e-06,  0.0000e+00,  ...,  5.3202e-08,
+         -1.6950e-06, -3.2075e-06],
+        [-6.3214e-08,  1.1583e-07,  0.0000e+00,  ...,  3.6485e-07,
+          8.5030e-07,  2.7614e-07],
+        [ 1.8394e-08,  2.3050e-08,  0.0000e+00,  ...,  8.8057e-07,
+          1.0070e-07,  5.7463e-07]], device='cuda:0')
+Epoch 320, bias, value: tensor([-3.9511e-02,  1.5646e-02,  1.4300e-02,  2.4448e-02,  2.9719e-02,
+        -1.8779e-02,  2.4179e-02,  3.1213e-02, -9.8676e-03,  4.8556e-05],
+       device='cuda:0'), grad: tensor([ 1.2405e-06,  2.3559e-05,  7.1898e-07,  8.0327e-07,  4.2245e-06,
+         5.6289e-06, -3.9518e-05, -5.4836e-06,  5.4538e-06,  3.3639e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 319, time 250.67, cls_loss 0.0007 cls_loss_mapping 0.0016 cls_loss_causal 0.4731 re_mapping 0.0025 re_causal 0.0088 /// teacc 99.03 lr 0.00010000
+Epoch 321, weight, value: tensor([[ 0.0884, -0.1617, -0.1395,  ..., -0.1320, -0.1710, -0.1614],
+        [ 0.0417,  0.0544, -0.0357,  ..., -0.0715,  0.1681,  0.0198],
+        [-0.0404, -0.1664, -0.0104,  ...,  0.2107, -0.1757,  0.0416],
+        ...,
+        [-0.2152,  0.1471,  0.0270,  ..., -0.1519,  0.1202,  0.0598],
+        [ 0.0026, -0.0821, -0.0022,  ..., -0.1292, -0.1740, -0.2428],
+        [ 0.0309, -0.0435, -0.0254,  ..., -0.2275, -0.1720,  0.0236]],
+       device='cuda:0'), grad: tensor([[-9.5111e-08,  5.8208e-10,  0.0000e+00,  ...,  1.2666e-07,
+          1.2806e-09,  2.1106e-07],
+        [ 1.9441e-08,  3.9465e-07,  0.0000e+00,  ...,  3.1991e-07,
+          3.1781e-07,  9.4110e-07],
+        [ 2.1420e-08,  4.2142e-08,  0.0000e+00,  ..., -7.4226e-07,
+          3.8301e-08, -1.2806e-06],
+        ...,
+        [ 1.6298e-08, -2.9393e-06,  0.0000e+00,  ...,  6.0536e-08,
+         -2.5332e-06, -2.7474e-06],
+        [-7.9046e-08,  1.8382e-07,  0.0000e+00,  ...,  8.5216e-08,
+          1.7113e-07,  3.1129e-07],
+        [ 7.9395e-08,  2.3004e-06,  0.0000e+00,  ...,  4.9709e-08,
+          1.9893e-06,  2.3060e-06]], device='cuda:0')
+Epoch 321, bias, value: tensor([-0.0400,  0.0156,  0.0142,  0.0245,  0.0300, -0.0188,  0.0243,  0.0311,
+        -0.0099, -0.0010], device='cuda:0'), grad: tensor([ 4.5658e-07,  3.0994e-06, -4.5896e-06,  1.0803e-07,  5.2806e-07,
+         2.6310e-07,  7.4622e-08, -6.1244e-06,  4.4703e-07,  5.7444e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 320, time 250.21, cls_loss 0.0009 cls_loss_mapping 0.0022 cls_loss_causal 0.4985 re_mapping 0.0028 re_causal 0.0094 /// teacc 99.13 lr 0.00010000
+Epoch 322, weight, value: tensor([[ 0.0886, -0.1626, -0.1395,  ..., -0.1322, -0.1718, -0.1618],
+        [ 0.0407,  0.0518, -0.0362,  ..., -0.0715,  0.1658,  0.0184],
+        [-0.0408, -0.1666, -0.0103,  ...,  0.2111, -0.1760,  0.0416],
+        ...,
+        [-0.2124,  0.1506,  0.0274,  ..., -0.1521,  0.1235,  0.0630],
+        [ 0.0027, -0.0824, -0.0022,  ..., -0.1295, -0.1744, -0.2448],
+        [ 0.0293, -0.0436, -0.0251,  ..., -0.2290, -0.1732,  0.0236]],
+       device='cuda:0'), grad: tensor([[ 1.6415e-08,  9.8953e-09,  0.0000e+00,  ...,  3.1083e-08,
+          2.3167e-08,  1.8743e-08],
+        [-2.4540e-07, -1.6915e-07,  0.0000e+00,  ...,  8.7311e-08,
+         -4.6799e-07,  1.1432e-07],
+        [-2.4796e-08,  9.8953e-09,  0.0000e+00,  ..., -3.0058e-07,
+          2.3749e-08, -1.8021e-07],
+        ...,
+        [ 8.3353e-08,  4.8429e-08,  0.0000e+00,  ...,  1.1921e-07,
+          1.4156e-07,  1.1467e-07],
+        [ 1.4273e-07,  8.2655e-08,  0.0000e+00,  ...,  4.9593e-08,
+          2.5495e-07,  5.4133e-08],
+        [ 2.2119e-09,  3.6089e-09,  0.0000e+00,  ...,  1.2107e-08,
+          6.9849e-09,  2.2468e-08]], device='cuda:0')
+Epoch 322, bias, value: tensor([-0.0401,  0.0138,  0.0142,  0.0245,  0.0301, -0.0187,  0.0240,  0.0342,
+        -0.0099, -0.0013], device='cuda:0'), grad: tensor([ 1.1385e-07, -1.9267e-07, -7.5158e-07,  1.9325e-07, -3.9767e-07,
+         1.9209e-08, -3.3644e-08,  5.3411e-07,  4.5821e-07,  6.9849e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 321, time 250.79, cls_loss 0.0005 cls_loss_mapping 0.0017 cls_loss_causal 0.4681 re_mapping 0.0031 re_causal 0.0098 /// teacc 98.87 lr 0.00010000
+Epoch 323, weight, value: tensor([[ 0.0886, -0.1629, -0.1395,  ..., -0.1322, -0.1729, -0.1621],
+        [ 0.0407,  0.0518, -0.0361,  ..., -0.0716,  0.1658,  0.0184],
+        [-0.0406, -0.1662, -0.0103,  ...,  0.2123, -0.1761,  0.0420],
+        ...,
+        [-0.2124,  0.1506,  0.0273,  ..., -0.1526,  0.1235,  0.0629],
+        [ 0.0030, -0.0825, -0.0022,  ..., -0.1296, -0.1745, -0.2457],
+        [ 0.0295, -0.0436, -0.0245,  ..., -0.2291, -0.1733,  0.0236]],
+       device='cuda:0'), grad: tensor([[-8.4983e-09, -2.3283e-09,  0.0000e+00,  ...,  1.0594e-08,
+         -3.6089e-09,  5.7044e-09],
+        [-2.3283e-10, -2.6776e-09,  0.0000e+00,  ...,  1.0943e-08,
+         -1.3039e-08,  6.9849e-10],
+        [-4.1560e-08,  4.6566e-10,  0.0000e+00,  ..., -3.7439e-07,
+         -2.6077e-08, -3.5320e-07],
+        ...,
+        [ 3.1665e-08,  1.7462e-09,  0.0000e+00,  ...,  2.5635e-07,
+          2.4214e-08,  2.4447e-07],
+        [ 7.7998e-09,  1.8626e-09,  0.0000e+00,  ...,  2.0023e-08,
+          8.2655e-09,  2.0140e-08],
+        [ 1.2806e-09,  3.4925e-10,  0.0000e+00,  ...,  2.5611e-09,
+          9.3132e-10,  2.0955e-09]], device='cuda:0')
+Epoch 323, bias, value: tensor([-0.0401,  0.0138,  0.0146,  0.0244,  0.0301, -0.0188,  0.0239,  0.0341,
+        -0.0097, -0.0013], device='cuda:0'), grad: tensor([-3.6089e-09,  2.6776e-08, -1.2759e-06,  2.8126e-07,  2.0210e-07,
+        -4.6566e-08, -1.9430e-07,  8.8755e-07,  1.1455e-07,  1.6065e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 322, time 250.49, cls_loss 0.0007 cls_loss_mapping 0.0016 cls_loss_causal 0.4510 re_mapping 0.0029 re_causal 0.0090 /// teacc 99.05 lr 0.00010000
+Epoch 324, weight, value: tensor([[ 0.0893, -0.1632, -0.1395,  ..., -0.1324, -0.1707, -0.1623],
+        [ 0.0406,  0.0518, -0.0361,  ..., -0.0716,  0.1659,  0.0184],
+        [-0.0407, -0.1663, -0.0103,  ...,  0.2126, -0.1763,  0.0421],
+        ...,
+        [-0.2124,  0.1506,  0.0273,  ..., -0.1528,  0.1235,  0.0629],
+        [ 0.0031, -0.0825, -0.0022,  ..., -0.1300, -0.1746, -0.2466],
+        [ 0.0308, -0.0437, -0.0244,  ..., -0.2294, -0.1736,  0.0235]],
+       device='cuda:0'), grad: tensor([[-5.3691e-07,  2.0955e-09,  0.0000e+00,  ...,  1.5018e-08,
+          3.4925e-10,  8.1491e-10],
+        [-1.3039e-08, -5.1223e-09,  0.0000e+00,  ...,  2.8173e-08,
+         -5.0408e-08, -2.3167e-08],
+        [ 1.5949e-08,  7.7998e-09,  0.0000e+00,  ...,  5.9721e-08,
+          3.4925e-09,  6.5193e-09],
+        ...,
+        [ 1.4203e-08, -6.0536e-09,  0.0000e+00,  ...,  7.9162e-09,
+          3.1432e-09,  1.3853e-08],
+        [ 4.2957e-08,  4.9127e-08,  0.0000e+00,  ...,  5.4389e-07,
+          3.5740e-08,  2.3516e-08],
+        [ 4.3772e-08,  1.5134e-09,  0.0000e+00,  ...,  2.9220e-08,
+          1.6298e-09,  5.3784e-08]], device='cuda:0')
+Epoch 324, bias, value: tensor([-0.0399,  0.0137,  0.0146,  0.0244,  0.0301, -0.0190,  0.0254,  0.0341,
+        -0.0096, -0.0010], device='cuda:0'), grad: tensor([-2.4997e-06,  8.3703e-08,  3.2084e-07,  3.7556e-07, -3.0687e-07,
+         1.8347e-06, -2.5071e-06,  1.4005e-07,  2.0973e-06,  4.5705e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 323, time 250.68, cls_loss 0.0007 cls_loss_mapping 0.0018 cls_loss_causal 0.4778 re_mapping 0.0026 re_causal 0.0087 /// teacc 98.87 lr 0.00010000
+Epoch 325, weight, value: tensor([[ 0.0894, -0.1633, -0.1395,  ..., -0.1323, -0.1709, -0.1647],
+        [ 0.0406,  0.0533, -0.0362,  ..., -0.0717,  0.1672,  0.0193],
+        [-0.0412, -0.1664, -0.0108,  ...,  0.2130, -0.1764,  0.0422],
+        ...,
+        [-0.2125,  0.1489,  0.0274,  ..., -0.1529,  0.1219,  0.0612],
+        [ 0.0031, -0.0826, -0.0021,  ..., -0.1302, -0.1749, -0.2478],
+        [ 0.0311, -0.0438, -0.0245,  ..., -0.2295, -0.1740,  0.0236]],
+       device='cuda:0'), grad: tensor([[-1.1642e-09,  2.3283e-10,  0.0000e+00,  ...,  5.3551e-08,
+          1.0477e-09,  1.9791e-09],
+        [-3.0035e-08, -2.1188e-08,  0.0000e+00,  ...,  1.9674e-08,
+         -7.5088e-08, -3.3644e-08],
+        [ 1.6298e-09,  3.8417e-09,  0.0000e+00,  ..., -1.0477e-08,
+          2.3283e-09, -1.3504e-08],
+        ...,
+        [ 1.5134e-08,  8.1491e-10,  1.1642e-10,  ...,  1.0827e-08,
+          2.2468e-08,  1.8510e-08],
+        [ 7.9162e-09,  9.7789e-09,  0.0000e+00,  ...,  3.6205e-08,
+          3.1199e-08,  1.9907e-08],
+        [-1.0361e-08,  3.3760e-09, -6.9849e-10,  ...,  8.7311e-09,
+          9.0804e-09, -1.5134e-09]], device='cuda:0')
+Epoch 325, bias, value: tensor([-0.0406,  0.0146,  0.0147,  0.0244,  0.0301, -0.0190,  0.0253,  0.0327,
+        -0.0096, -0.0008], device='cuda:0'), grad: tensor([ 9.0688e-08, -1.0617e-07,  1.9791e-09,  9.4413e-08,  1.2736e-07,
+         8.3470e-08, -4.4145e-07,  8.9291e-08,  1.1479e-07, -3.8301e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 324, time 250.66, cls_loss 0.0007 cls_loss_mapping 0.0012 cls_loss_causal 0.4380 re_mapping 0.0027 re_causal 0.0086 /// teacc 98.99 lr 0.00010000
+Epoch 326, weight, value: tensor([[ 0.0896, -0.1636, -0.1396,  ..., -0.1324, -0.1705, -0.1649],
+        [ 0.0406,  0.0533, -0.0344,  ..., -0.0718,  0.1672,  0.0193],
+        [-0.0418, -0.1665, -0.0110,  ...,  0.2131, -0.1767,  0.0422],
+        ...,
+        [-0.2125,  0.1489,  0.0264,  ..., -0.1530,  0.1219,  0.0611],
+        [ 0.0031, -0.0828, -0.0024,  ..., -0.1302, -0.1751, -0.2489],
+        [ 0.0314, -0.0436, -0.0247,  ..., -0.2298, -0.1742,  0.0235]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  3.4925e-10,  0.0000e+00,  ...,  5.5879e-09,
+          1.9791e-09,  8.0327e-09],
+        [-2.1653e-08, -1.2689e-08,  0.0000e+00,  ...,  3.5274e-08,
+         -5.0641e-08,  3.4692e-08],
+        [-1.6298e-09,  1.1642e-09,  0.0000e+00,  ..., -8.4168e-08,
+         -1.9791e-09, -7.6019e-08],
+        ...,
+        [ 7.1013e-09,  3.7253e-09,  0.0000e+00,  ...,  8.7777e-08,
+          1.7229e-08,  1.0629e-07],
+        [ 1.1758e-08,  5.0059e-09,  0.0000e+00,  ...,  8.0909e-08,
+          2.5961e-08,  9.5693e-08],
+        [-4.9360e-08,  8.1491e-10,  0.0000e+00,  ...,  1.7090e-06,
+         -1.4040e-07,  3.0566e-06]], device='cuda:0')
+Epoch 326, bias, value: tensor([-0.0406,  0.0146,  0.0146,  0.0243,  0.0301, -0.0188,  0.0253,  0.0326,
+        -0.0097, -0.0008], device='cuda:0'), grad: tensor([ 5.3900e-08,  1.2887e-07,  5.1456e-08, -9.6299e-07, -1.2994e-05,
+         3.3760e-07,  9.9838e-07,  5.2433e-07,  3.7858e-07,  1.1466e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 325, time 250.22, cls_loss 0.0005 cls_loss_mapping 0.0014 cls_loss_causal 0.4466 re_mapping 0.0028 re_causal 0.0096 /// teacc 98.99 lr 0.00010000
+Epoch 327, weight, value: tensor([[ 0.0896, -0.1638, -0.1396,  ..., -0.1327, -0.1703, -0.1650],
+        [ 0.0406,  0.0533, -0.0342,  ..., -0.0718,  0.1672,  0.0193],
+        [-0.0421, -0.1667, -0.0119,  ...,  0.2132, -0.1769,  0.0421],
+        ...,
+        [-0.2126,  0.1489,  0.0266,  ..., -0.1530,  0.1219,  0.0611],
+        [ 0.0031, -0.0828, -0.0025,  ..., -0.1304, -0.1752, -0.2495],
+        [ 0.0316, -0.0436, -0.0248,  ..., -0.2300, -0.1744,  0.0235]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  2.2119e-09,  0.0000e+00,  ...,  1.1642e-10,
+          3.2596e-09,  2.6776e-09],
+        [-1.7579e-08,  6.0885e-08,  0.0000e+00,  ...,  5.1223e-09,
+          5.4948e-08,  7.0082e-08],
+        [ 1.9791e-09,  4.5984e-08,  0.0000e+00,  ...,  2.4447e-09,
+          5.9721e-08,  5.4366e-08],
+        ...,
+        [ 6.7521e-09, -2.8010e-07,  0.0000e+00,  ...,  1.2689e-08,
+         -3.4808e-07, -3.0524e-07],
+        [ 1.7346e-08,  3.3178e-08,  0.0000e+00,  ...,  4.6566e-10,
+          5.0757e-08,  3.9116e-08],
+        [ 4.3074e-09,  1.0524e-07,  0.0000e+00,  ...,  1.9092e-08,
+          1.3446e-07,  1.3481e-07]], device='cuda:0')
+Epoch 327, bias, value: tensor([-0.0408,  0.0146,  0.0145,  0.0244,  0.0301, -0.0189,  0.0251,  0.0326,
+        -0.0096, -0.0007], device='cuda:0'), grad: tensor([ 1.0012e-08,  1.7055e-07,  1.4948e-07,  7.4506e-08, -3.9814e-08,
+        -1.3458e-07,  3.8999e-08, -8.0187e-07,  1.6671e-07,  3.8021e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 326, time 250.48, cls_loss 0.0008 cls_loss_mapping 0.0015 cls_loss_causal 0.4857 re_mapping 0.0026 re_causal 0.0086 /// teacc 99.05 lr 0.00010000
+Epoch 328, weight, value: tensor([[ 0.0898, -0.1642, -0.1396,  ..., -0.1328, -0.1705, -0.1653],
+        [ 0.0407,  0.0533, -0.0336,  ..., -0.0719,  0.1673,  0.0193],
+        [-0.0438, -0.1670, -0.0120,  ...,  0.2139, -0.1777,  0.0422],
+        ...,
+        [-0.2127,  0.1489,  0.0264,  ..., -0.1532,  0.1219,  0.0611],
+        [ 0.0031, -0.0831, -0.0026,  ..., -0.1312, -0.1757, -0.2513],
+        [ 0.0323, -0.0435, -0.0259,  ..., -0.2303, -0.1744,  0.0235]],
+       device='cuda:0'), grad: tensor([[ 2.3749e-08,  2.3283e-08,  0.0000e+00,  ...,  8.8476e-09,
+          4.8545e-08,  3.5041e-08],
+        [-4.2655e-07, -6.7754e-08,  0.0000e+00,  ...,  8.2189e-08,
+         -5.2201e-07, -1.5332e-07],
+        [ 4.1327e-08,  6.0303e-08,  0.0000e+00,  ..., -2.3376e-07,
+          1.1199e-07, -1.7649e-07],
+        ...,
+        [ 7.5088e-08, -5.0943e-07,  0.0000e+00,  ...,  5.6694e-08,
+         -5.4715e-07, -2.5402e-07],
+        [ 1.4342e-07,  4.9826e-08,  0.0000e+00,  ...,  1.8626e-08,
+          2.0082e-07,  1.1572e-07],
+        [ 5.9372e-08,  3.2829e-07,  0.0000e+00,  ...,  7.7533e-08,
+          4.4541e-07,  6.0676e-07]], device='cuda:0')
+Epoch 328, bias, value: tensor([-0.0407,  0.0147,  0.0144,  0.0246,  0.0301, -0.0190,  0.0252,  0.0326,
+        -0.0097, -0.0007], device='cuda:0'), grad: tensor([ 2.0175e-07, -1.1269e-06, -4.1584e-07,  9.1270e-07, -4.8755e-07,
+        -9.4390e-07,  2.8638e-07, -1.3057e-06,  7.7859e-07,  2.1067e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 327, time 250.36, cls_loss 0.0007 cls_loss_mapping 0.0012 cls_loss_causal 0.4762 re_mapping 0.0027 re_causal 0.0089 /// teacc 99.14 lr 0.00010000
+Epoch 329, weight, value: tensor([[ 0.0902, -0.1646, -0.1396,  ..., -0.1330, -0.1713, -0.1660],
+        [ 0.0408,  0.0534, -0.0333,  ..., -0.0721,  0.1673,  0.0194],
+        [-0.0467, -0.1674, -0.0122,  ...,  0.2153, -0.1783,  0.0425],
+        ...,
+        [-0.2127,  0.1489,  0.0266,  ..., -0.1535,  0.1219,  0.0611],
+        [ 0.0030, -0.0835, -0.0027,  ..., -0.1316, -0.1762, -0.2531],
+        [ 0.0326, -0.0437, -0.0261,  ..., -0.2308, -0.1750,  0.0232]],
+       device='cuda:0'), grad: tensor([[-1.5134e-09,  3.3760e-09,  0.0000e+00,  ...,  5.5507e-07,
+          6.0536e-09,  7.2177e-09],
+        [-6.1118e-08,  3.5623e-08,  0.0000e+00,  ...,  5.2154e-08,
+         -3.3877e-08,  4.4936e-08],
+        [ 1.0012e-08,  2.4796e-08,  0.0000e+00,  ...,  1.2340e-08,
+          4.8196e-08,  3.6438e-08],
+        ...,
+        [ 1.9441e-08, -2.5565e-07,  0.0000e+00,  ...,  4.9709e-08,
+         -3.9046e-07, -1.4761e-07],
+        [ 5.0757e-08,  1.8859e-08,  0.0000e+00,  ...,  4.1677e-08,
+          8.3586e-08,  5.8906e-08],
+        [ 2.4564e-08,  1.5099e-07,  0.0000e+00,  ...,  1.1979e-07,
+          2.4377e-07,  2.8359e-07]], device='cuda:0')
+Epoch 329, bias, value: tensor([-0.0407,  0.0147,  0.0146,  0.0245,  0.0302, -0.0189,  0.0251,  0.0326,
+        -0.0099, -0.0008], device='cuda:0'), grad: tensor([ 2.0582e-06,  2.2096e-07,  1.7963e-07, -1.6298e-09, -8.4704e-07,
+        -8.8336e-07, -2.2985e-06, -3.1153e-07,  4.8429e-07,  1.4044e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 328, time 250.88, cls_loss 0.0012 cls_loss_mapping 0.0026 cls_loss_causal 0.4595 re_mapping 0.0027 re_causal 0.0087 /// teacc 99.20 lr 0.00010000
+Epoch 330, weight, value: tensor([[ 0.0905, -0.1650, -0.1401,  ..., -0.1354, -0.1711, -0.1665],
+        [ 0.0408,  0.0533, -0.0336,  ..., -0.0722,  0.1673,  0.0193],
+        [-0.0474, -0.1677, -0.0135,  ...,  0.2151, -0.1789,  0.0424],
+        ...,
+        [-0.2128,  0.1490,  0.0275,  ..., -0.1537,  0.1219,  0.0611],
+        [ 0.0030, -0.0836, -0.0050,  ..., -0.1324, -0.1764, -0.2543],
+        [ 0.0323, -0.0438, -0.0271,  ..., -0.2318, -0.1754,  0.0212]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-10,  0.0000e+00,  0.0000e+00,  ...,  5.8208e-10,
+          0.0000e+00,  6.9849e-10],
+        [ 1.4785e-08,  1.2340e-08,  0.0000e+00,  ...,  6.2981e-08,
+          1.6298e-09,  4.2724e-08],
+        [ 6.9849e-10,  1.2806e-09,  0.0000e+00,  ..., -1.7043e-07,
+          1.5134e-09, -1.4179e-07],
+        ...,
+        [ 4.5402e-09,  3.2596e-09,  0.0000e+00,  ...,  8.1374e-08,
+          8.4983e-09,  7.3109e-08],
+        [-2.0373e-08, -2.0373e-08,  0.0000e+00,  ...,  2.0606e-08,
+         -1.6415e-08,  1.9907e-08],
+        [-2.7940e-09,  9.3132e-10,  0.0000e+00,  ...,  5.8208e-10,
+          1.0477e-09, -4.0745e-09]], device='cuda:0')
+Epoch 330, bias, value: tensor([-0.0409,  0.0146,  0.0141,  0.0245,  0.0300, -0.0189,  0.0282,  0.0326,
+        -0.0101, -0.0013], device='cuda:0'), grad: tensor([ 2.2119e-09,  2.0757e-07, -4.2305e-07,  1.0245e-08,  2.1420e-08,
+         5.5879e-09,  4.3074e-09,  2.2410e-07, -2.2468e-08, -1.8044e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 329, time 250.52, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4569 re_mapping 0.0027 re_causal 0.0092 /// teacc 99.18 lr 0.00010000
+Epoch 331, weight, value: tensor([[ 0.0905, -0.1655, -0.1402,  ..., -0.1355, -0.1690, -0.1665],
+        [ 0.0408,  0.0533, -0.0337,  ..., -0.0722,  0.1673,  0.0193],
+        [-0.0477, -0.1679, -0.0137,  ...,  0.2152, -0.1795,  0.0423],
+        ...,
+        [-0.2128,  0.1490,  0.0277,  ..., -0.1537,  0.1220,  0.0612],
+        [ 0.0031, -0.0837, -0.0046,  ..., -0.1322, -0.1765, -0.2549],
+        [ 0.0323, -0.0440, -0.0272,  ..., -0.2320, -0.1760,  0.0212]],
+       device='cuda:0'), grad: tensor([[ 1.8394e-08,  1.1642e-10,  0.0000e+00,  ...,  1.8626e-08,
+          2.3283e-10,  1.0477e-09],
+        [ 1.8044e-08,  1.5134e-08,  0.0000e+00,  ...,  2.4913e-08,
+          1.0594e-08,  2.2934e-08],
+        [ 2.5495e-08,  4.9942e-08,  0.0000e+00,  ...,  5.8208e-08,
+          5.5763e-08,  7.9744e-08],
+        ...,
+        [ 4.5402e-09, -2.4913e-07,  0.0000e+00,  ..., -1.8405e-07,
+         -2.7288e-07, -3.6485e-07],
+        [-7.4622e-08,  3.0268e-09,  0.0000e+00,  ..., -9.5344e-08,
+          7.4506e-09,  9.0804e-09],
+        [-9.6275e-08,  1.7346e-08,  0.0000e+00,  ...,  1.4552e-08,
+          1.9674e-08,  2.5029e-08]], device='cuda:0')
+Epoch 331, bias, value: tensor([-0.0409,  0.0146,  0.0138,  0.0245,  0.0300, -0.0189,  0.0280,  0.0326,
+        -0.0100, -0.0013], device='cuda:0'), grad: tensor([ 9.9302e-08,  1.9581e-07,  3.7393e-07, -8.6753e-07,  7.0315e-07,
+         4.1490e-07,  2.4610e-07, -5.3179e-07, -3.9465e-07, -2.2817e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 330, time 250.30, cls_loss 0.0005 cls_loss_mapping 0.0011 cls_loss_causal 0.4719 re_mapping 0.0027 re_causal 0.0093 /// teacc 99.11 lr 0.00010000
+Epoch 332, weight, value: tensor([[ 0.0905, -0.1654, -0.1402,  ..., -0.1356, -0.1686, -0.1665],
+        [ 0.0408,  0.0533, -0.0337,  ..., -0.0717,  0.1674,  0.0194],
+        [-0.0477, -0.1681, -0.0137,  ...,  0.2138, -0.1824,  0.0413],
+        ...,
+        [-0.2129,  0.1490,  0.0277,  ..., -0.1540,  0.1220,  0.0612],
+        [ 0.0032, -0.0837, -0.0046,  ..., -0.1326, -0.1766, -0.2554],
+        [ 0.0323, -0.0443, -0.0273,  ..., -0.2324, -0.1765,  0.0212]],
+       device='cuda:0'), grad: tensor([[-6.1700e-09,  2.3283e-10,  0.0000e+00,  ...,  4.6566e-10,
+          2.3283e-10,  5.8208e-10],
+        [-8.6147e-09, -3.7253e-09,  0.0000e+00,  ...,  5.5879e-09,
+         -1.8277e-08, -5.3551e-09],
+        [ 4.6566e-10,  2.2119e-09,  0.0000e+00,  ..., -1.9791e-08,
+          2.7940e-09, -1.3388e-08],
+        ...,
+        [ 5.7044e-09, -1.3504e-08,  0.0000e+00,  ...,  6.5193e-09,
+         -8.9640e-09, -5.8208e-10],
+        [ 3.3760e-09,  5.7044e-09,  0.0000e+00,  ...,  6.5193e-09,
+          1.2107e-08,  1.1874e-08],
+        [-3.4925e-09,  4.0745e-09,  0.0000e+00,  ...,  1.3970e-09,
+          4.8894e-09, -1.9092e-08]], device='cuda:0')
+Epoch 332, bias, value: tensor([-0.0409,  0.0147,  0.0128,  0.0245,  0.0300, -0.0189,  0.0281,  0.0326,
+        -0.0099, -0.0013], device='cuda:0'), grad: tensor([-2.3399e-08, -7.7998e-09, -3.7602e-08, -4.9127e-08,  1.0955e-07,
+         3.6554e-08, -5.3435e-08,  3.2131e-08,  4.0396e-08, -4.5286e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 331, time 250.55, cls_loss 0.0007 cls_loss_mapping 0.0014 cls_loss_causal 0.4931 re_mapping 0.0027 re_causal 0.0090 /// teacc 99.08 lr 0.00010000
+Epoch 333, weight, value: tensor([[ 0.0905, -0.1660, -0.1403,  ..., -0.1357, -0.1688, -0.1665],
+        [ 0.0408,  0.0533, -0.0337,  ..., -0.0718,  0.1675,  0.0194],
+        [-0.0481, -0.1693, -0.0151,  ...,  0.2136, -0.1835,  0.0407],
+        ...,
+        [-0.2129,  0.1491,  0.0282,  ..., -0.1539,  0.1220,  0.0613],
+        [ 0.0032, -0.0839, -0.0045,  ..., -0.1330, -0.1768, -0.2564],
+        [ 0.0323, -0.0444, -0.0277,  ..., -0.2340, -0.1769,  0.0209]],
+       device='cuda:0'), grad: tensor([[-1.2841e-07,  1.6298e-09,  0.0000e+00,  ..., -2.6659e-08,
+          3.6089e-09,  3.3760e-09],
+        [-8.5682e-08,  1.4552e-08,  0.0000e+00,  ...,  2.0955e-09,
+         -2.3609e-07, -1.3073e-07],
+        [ 1.8510e-08,  1.7462e-08,  0.0000e+00,  ...,  2.2119e-09,
+          3.7253e-08,  3.5390e-08],
+        ...,
+        [ 4.1793e-08, -2.3236e-07,  0.0000e+00,  ...,  1.8626e-09,
+         -1.9034e-07, -2.8289e-07],
+        [-9.8953e-09,  2.0955e-09,  0.0000e+00,  ..., -1.1292e-08,
+          5.9139e-08,  3.5274e-08],
+        [ 5.3202e-08,  1.3865e-07,  0.0000e+00,  ...,  3.0268e-09,
+          1.8335e-07,  2.1153e-07]], device='cuda:0')
+Epoch 333, bias, value: tensor([-0.0409,  0.0147,  0.0119,  0.0248,  0.0304, -0.0191,  0.0281,  0.0327,
+        -0.0099, -0.0014], device='cuda:0'), grad: tensor([-8.0373e-07, -3.7812e-07,  1.6962e-07, -9.6043e-08,  3.1758e-07,
+         1.0175e-07,  1.6182e-07, -3.5134e-07, -2.6193e-08,  9.2480e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 332, time 249.93, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4858 re_mapping 0.0027 re_causal 0.0091 /// teacc 99.07 lr 0.00010000
+Epoch 334, weight, value: tensor([[ 0.0905, -0.1668, -0.1403,  ..., -0.1357, -0.1691, -0.1665],
+        [ 0.0408,  0.0531, -0.0337,  ..., -0.0724,  0.1673,  0.0192],
+        [-0.0481, -0.1708, -0.0151,  ...,  0.2136, -0.1848,  0.0400],
+        ...,
+        [-0.2129,  0.1495,  0.0282,  ..., -0.1518,  0.1224,  0.0618],
+        [ 0.0031, -0.0842, -0.0048,  ..., -0.1337, -0.1772, -0.2581],
+        [ 0.0323, -0.0448, -0.0278,  ..., -0.2342, -0.1777,  0.0209]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  5.8208e-10,
+          0.0000e+00,  3.4925e-10],
+        [ 8.6147e-09, -1.6298e-09,  0.0000e+00,  ...,  1.5134e-09,
+         -6.7521e-09, -2.4447e-09],
+        [ 1.6298e-09,  1.1642e-10, -1.1642e-10,  ..., -1.9907e-08,
+          2.3283e-10, -2.0023e-08],
+        ...,
+        [ 7.1013e-09,  6.9849e-10,  1.1642e-10,  ...,  1.6531e-08,
+          2.7940e-09,  1.9558e-08],
+        [-4.1560e-07,  1.1642e-09,  0.0000e+00,  ..., -3.4925e-10,
+          5.0059e-09,  1.9791e-09],
+        [ 3.7253e-08,  1.1642e-10,  0.0000e+00,  ...,  1.0477e-09,
+          2.3283e-10, -3.4925e-09]], device='cuda:0')
+Epoch 334, bias, value: tensor([-0.0409,  0.0145,  0.0111,  0.0247,  0.0304, -0.0190,  0.0280,  0.0331,
+        -0.0102, -0.0015], device='cuda:0'), grad: tensor([ 2.5611e-09,  4.3074e-08, -4.2142e-08,  5.4715e-09,  1.6880e-08,
+         1.3616e-06,  6.1817e-08,  7.9046e-08, -1.7304e-06,  2.2200e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 333, time 250.40, cls_loss 0.0007 cls_loss_mapping 0.0014 cls_loss_causal 0.4885 re_mapping 0.0026 re_causal 0.0091 /// teacc 99.00 lr 0.00010000
+Epoch 335, weight, value: tensor([[ 0.0905, -0.1676, -0.1403,  ..., -0.1359, -0.1694, -0.1665],
+        [ 0.0409,  0.0531, -0.0336,  ..., -0.0728,  0.1673,  0.0192],
+        [-0.0485, -0.1709, -0.0152,  ...,  0.2139, -0.1850,  0.0400],
+        ...,
+        [-0.2130,  0.1496,  0.0282,  ..., -0.1524,  0.1224,  0.0618],
+        [ 0.0030, -0.0846, -0.0049,  ..., -0.1342, -0.1777, -0.2603],
+        [ 0.0323, -0.0456, -0.0278,  ..., -0.2345, -0.1801,  0.0209]],
+       device='cuda:0'), grad: tensor([[ 5.2387e-09,  1.3388e-09,  0.0000e+00,  ...,  7.2003e-08,
+          2.4447e-09,  5.0699e-08],
+        [-4.1036e-08, -2.5437e-08,  0.0000e+00,  ...,  1.3260e-07,
+         -1.4389e-07,  3.7369e-07],
+        [ 7.9744e-09,  1.7753e-08,  0.0000e+00,  ..., -8.2888e-08,
+          2.2934e-08, -2.3283e-10],
+        ...,
+        [ 8.1374e-08, -3.5332e-08,  0.0000e+00,  ...,  5.3493e-08,
+         -2.7067e-08,  6.5891e-07],
+        [ 9.7323e-08,  3.5681e-08,  0.0000e+00,  ...,  6.5193e-09,
+          9.1328e-08,  2.1281e-07],
+        [-5.9977e-07, -2.8813e-08,  0.0000e+00,  ...,  6.5612e-07,
+          1.0186e-08,  7.4552e-07]], device='cuda:0')
+Epoch 335, bias, value: tensor([-0.0409,  0.0145,  0.0111,  0.0246,  0.0305, -0.0190,  0.0286,  0.0331,
+        -0.0105, -0.0015], device='cuda:0'), grad: tensor([ 2.5844e-07,  1.2498e-06, -1.1123e-07,  1.2503e-07, -4.6380e-06,
+         1.6857e-07,  2.0978e-07,  2.7791e-06,  1.0114e-06, -1.0580e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 334, time 250.36, cls_loss 0.0006 cls_loss_mapping 0.0013 cls_loss_causal 0.4456 re_mapping 0.0027 re_causal 0.0086 /// teacc 99.14 lr 0.00010000
+Epoch 336, weight, value: tensor([[ 0.0905, -0.1686, -0.1403,  ..., -0.1359, -0.1701, -0.1665],
+        [ 0.0411,  0.0531, -0.0336,  ..., -0.0730,  0.1674,  0.0192],
+        [-0.0491, -0.1711, -0.0152,  ...,  0.2150, -0.1850,  0.0403],
+        ...,
+        [-0.2130,  0.1496,  0.0281,  ..., -0.1526,  0.1225,  0.0618],
+        [ 0.0025, -0.0865, -0.0049,  ..., -0.1350, -0.1800, -0.2639],
+        [ 0.0323, -0.0458, -0.0278,  ..., -0.2349, -0.1805,  0.0209]],
+       device='cuda:0'), grad: tensor([[ 2.0373e-09,  1.1642e-10,  0.0000e+00,  ...,  1.8044e-09,
+          4.0745e-10,  1.9791e-09],
+        [-2.7241e-08, -2.3283e-08,  0.0000e+00,  ...,  6.1700e-08,
+         -6.6124e-08,  2.8522e-08],
+        [ 1.9209e-09,  1.2806e-09,  0.0000e+00,  ...,  1.1642e-10,
+          1.5134e-09,  5.8790e-09],
+        ...,
+        [ 1.8452e-08,  1.1176e-08,  0.0000e+00,  ...,  3.5914e-08,
+          3.2887e-08,  6.3097e-08],
+        [ 2.1770e-08,  4.0163e-09,  0.0000e+00,  ...,  3.0443e-08,
+          1.2107e-08,  3.5972e-08],
+        [-2.9104e-10,  1.8626e-09,  0.0000e+00,  ...,  8.5216e-08,
+          4.4820e-09,  8.7370e-08]], device='cuda:0')
+Epoch 336, bias, value: tensor([-0.0409,  0.0146,  0.0113,  0.0246,  0.0305, -0.0190,  0.0286,  0.0331,
+        -0.0120, -0.0015], device='cuda:0'), grad: tensor([ 3.5856e-08,  1.9628e-07,  1.0896e-07,  1.4193e-06, -1.7360e-06,
+        -1.9576e-06,  9.2248e-07,  2.8475e-07,  3.5204e-07,  3.7323e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 335, time 250.32, cls_loss 0.0008 cls_loss_mapping 0.0015 cls_loss_causal 0.4772 re_mapping 0.0026 re_causal 0.0089 /// teacc 99.12 lr 0.00010000
+Epoch 337, weight, value: tensor([[ 0.0905, -0.1687, -0.1404,  ..., -0.1361, -0.1703, -0.1665],
+        [ 0.0413,  0.0532, -0.0337,  ..., -0.0746,  0.1675,  0.0193],
+        [-0.0468, -0.1715, -0.0150,  ...,  0.2156, -0.1828,  0.0394],
+        ...,
+        [-0.2131,  0.1496,  0.0263,  ..., -0.1530,  0.1224,  0.0617],
+        [ 0.0025, -0.0864, -0.0050,  ..., -0.1365, -0.1801, -0.2643],
+        [ 0.0321, -0.0473, -0.0248,  ..., -0.2358, -0.1833,  0.0207]],
+       device='cuda:0'), grad: tensor([[ 3.4925e-10,  1.1642e-10,  0.0000e+00,  ...,  1.6298e-09,
+          6.9849e-10,  2.6193e-09],
+        [-2.3574e-08, -1.3853e-08,  0.0000e+00,  ...,  1.3562e-08,
+         -4.7614e-08, -8.0909e-09],
+        [ 2.0373e-09,  1.1059e-09,  0.0000e+00,  ..., -2.2375e-07,
+         -4.3074e-09, -3.4529e-07],
+        ...,
+        [ 1.0186e-08,  5.7044e-09,  1.1642e-10,  ...,  1.4890e-07,
+          2.6310e-08,  2.4145e-07],
+        [ 5.8208e-09,  3.5507e-09,  0.0000e+00,  ...,  3.4343e-09,
+          1.1991e-08,  1.1234e-08],
+        [ 2.3283e-10,  8.7311e-10, -2.3283e-10,  ...,  3.2480e-08,
+          2.3283e-09,  4.5926e-08]], device='cuda:0')
+Epoch 337, bias, value: tensor([-0.0408,  0.0146,  0.0106,  0.0271,  0.0306, -0.0191,  0.0289,  0.0330,
+        -0.0121, -0.0016], device='cuda:0'), grad: tensor([ 5.5879e-09, -5.8033e-08, -5.4482e-07,  4.6974e-08,  2.7881e-08,
+         2.1188e-08,  1.0128e-08,  4.1071e-07,  3.1781e-08,  7.2003e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 336, time 250.40, cls_loss 0.0007 cls_loss_mapping 0.0017 cls_loss_causal 0.4715 re_mapping 0.0026 re_causal 0.0091 /// teacc 99.16 lr 0.00010000
+Epoch 338, weight, value: tensor([[ 0.0903, -0.1690, -0.1404,  ..., -0.1363, -0.1704, -0.1667],
+        [ 0.0410,  0.0531, -0.0338,  ..., -0.0746,  0.1674,  0.0193],
+        [-0.0469, -0.1719, -0.0150,  ...,  0.2151, -0.1830,  0.0389],
+        ...,
+        [-0.2132,  0.1496,  0.0265,  ..., -0.1533,  0.1224,  0.0616],
+        [ 0.0039, -0.0843, -0.0050,  ..., -0.1369, -0.1786, -0.2646],
+        [ 0.0326, -0.0469, -0.0249,  ..., -0.2389, -0.1835,  0.0209]],
+       device='cuda:0'), grad: tensor([[-4.7614e-08,  5.8208e-10,  0.0000e+00,  ..., -6.8685e-09,
+          1.2806e-09,  8.7311e-10],
+        [-6.3737e-08, -5.2678e-08,  0.0000e+00,  ..., -1.4668e-08,
+         -1.2899e-07, -8.0850e-08],
+        [ 1.1234e-08,  1.0477e-08,  0.0000e+00,  ..., -1.1059e-09,
+          1.9092e-08,  1.0768e-08],
+        ...,
+        [ 1.0186e-08,  2.5029e-09,  0.0000e+00,  ...,  7.5670e-10,
+          1.2224e-08,  6.0536e-09],
+        [ 5.3726e-08,  2.0140e-08,  0.0000e+00,  ...,  4.9477e-09,
+          4.9185e-08,  3.0559e-08],
+        [ 2.8289e-08,  1.5716e-09,  0.0000e+00,  ...,  3.0850e-09,
+          3.0850e-09,  2.2701e-09]], device='cuda:0')
+Epoch 338, bias, value: tensor([-0.0411,  0.0144,  0.0101,  0.0276,  0.0304, -0.0192,  0.0288,  0.0328,
+        -0.0101, -0.0012], device='cuda:0'), grad: tensor([-3.4948e-07, -3.0454e-07,  5.7975e-08,  5.8790e-08,  5.4832e-08,
+        -1.8068e-07,  2.0559e-07,  4.4936e-08,  2.5751e-07,  1.8044e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 337, time 250.42, cls_loss 0.0006 cls_loss_mapping 0.0011 cls_loss_causal 0.4554 re_mapping 0.0025 re_causal 0.0085 /// teacc 99.05 lr 0.00010000
+Epoch 339, weight, value: tensor([[ 0.0903, -0.1701, -0.1404,  ..., -0.1362, -0.1706, -0.1667],
+        [ 0.0411,  0.0531, -0.0340,  ..., -0.0749,  0.1675,  0.0193],
+        [-0.0470, -0.1722, -0.0150,  ...,  0.2152, -0.1831,  0.0389],
+        ...,
+        [-0.2133,  0.1496,  0.0266,  ..., -0.1534,  0.1224,  0.0616],
+        [ 0.0038, -0.0844, -0.0050,  ..., -0.1372, -0.1789, -0.2649],
+        [ 0.0326, -0.0469, -0.0248,  ..., -0.2392, -0.1835,  0.0209]],
+       device='cuda:0'), grad: tensor([[ 6.1700e-09,  7.0431e-09,  0.0000e+00,  ...,  9.3132e-10,
+          1.8044e-08,  1.1409e-08],
+        [-1.5739e-07, -9.5693e-08,  0.0000e+00,  ...,  1.7462e-09,
+         -2.9267e-07, -1.5763e-07],
+        [ 3.0326e-08,  3.4866e-08,  0.0000e+00,  ..., -3.1432e-09,
+          7.4913e-08,  4.6624e-08],
+        ...,
+        [ 5.6229e-08, -2.2515e-07,  0.0000e+00,  ..., -5.1223e-09,
+         -1.9360e-07, -2.0687e-07],
+        [ 3.3702e-08,  3.5157e-08,  0.0000e+00,  ...,  1.4552e-09,
+          7.8289e-08,  4.9244e-08],
+        [ 3.3178e-09,  1.6729e-07,  0.0000e+00,  ...,  3.8999e-09,
+          2.0664e-07,  1.7160e-07]], device='cuda:0')
+Epoch 339, bias, value: tensor([-0.0411,  0.0145,  0.0101,  0.0275,  0.0304, -0.0191,  0.0288,  0.0328,
+        -0.0102, -0.0012], device='cuda:0'), grad: tensor([ 3.4866e-08, -6.3563e-07,  1.7975e-07,  1.0728e-07,  1.6647e-07,
+         1.6065e-08,  2.3108e-08, -6.9803e-07,  1.8789e-07,  6.2957e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 338, time 250.66, cls_loss 0.0007 cls_loss_mapping 0.0015 cls_loss_causal 0.4674 re_mapping 0.0025 re_causal 0.0089 /// teacc 99.11 lr 0.00010000
+Epoch 340, weight, value: tensor([[ 0.0903, -0.1706, -0.1404,  ..., -0.1370, -0.1705, -0.1667],
+        [ 0.0411,  0.0531, -0.0340,  ..., -0.0731,  0.1678,  0.0196],
+        [-0.0472, -0.1723, -0.0150,  ...,  0.2173, -0.1856,  0.0412],
+        ...,
+        [-0.2133,  0.1496,  0.0266,  ..., -0.1543,  0.1224,  0.0616],
+        [ 0.0040, -0.0843, -0.0050,  ..., -0.1389, -0.1790, -0.2653],
+        [ 0.0326, -0.0472, -0.0247,  ..., -0.2395, -0.1837,  0.0209]],
+       device='cuda:0'), grad: tensor([[-5.5297e-09,  4.0745e-10,  0.0000e+00,  ...,  1.7462e-10,
+          5.8208e-10,  6.4028e-10],
+        [-4.0221e-08, -3.2131e-08,  0.0000e+00,  ...,  9.4296e-09,
+         -1.7951e-07, -1.1775e-07],
+        [ 0.0000e+00,  1.7229e-08,  0.0000e+00,  ..., -1.0536e-08,
+          6.4319e-08,  4.4238e-08],
+        ...,
+        [ 2.1770e-08, -1.7928e-08,  0.0000e+00,  ...,  5.6461e-09,
+          3.6962e-08,  2.7241e-08],
+        [ 3.3760e-09,  1.2456e-08,  0.0000e+00,  ...,  1.0885e-08,
+          2.6601e-08,  2.4505e-08],
+        [ 5.2387e-09,  4.2492e-09,  0.0000e+00,  ...,  4.5577e-08,
+          8.4401e-09,  5.1747e-08]], device='cuda:0')
+Epoch 340, bias, value: tensor([-0.0411,  0.0148,  0.0123,  0.0251,  0.0304, -0.0196,  0.0290,  0.0328,
+        -0.0099, -0.0012], device='cuda:0'), grad: tensor([-3.6613e-08, -3.1688e-07,  1.1391e-07,  4.0513e-08, -1.4296e-07,
+        -1.2282e-08,  6.5251e-08,  8.3761e-08,  2.3982e-08,  1.8324e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 339, time 250.47, cls_loss 0.0006 cls_loss_mapping 0.0013 cls_loss_causal 0.4382 re_mapping 0.0025 re_causal 0.0084 /// teacc 99.18 lr 0.00010000
+Epoch 341, weight, value: tensor([[ 0.0904, -0.1714, -0.1405,  ..., -0.1371, -0.1705, -0.1667],
+        [ 0.0411,  0.0531, -0.0340,  ..., -0.0728,  0.1678,  0.0197],
+        [-0.0472, -0.1732, -0.0148,  ...,  0.2173, -0.1861,  0.0411],
+        ...,
+        [-0.2134,  0.1497,  0.0266,  ..., -0.1546,  0.1225,  0.0616],
+        [ 0.0040, -0.0844, -0.0051,  ..., -0.1395, -0.1792, -0.2658],
+        [ 0.0326, -0.0473, -0.0243,  ..., -0.2397, -0.1838,  0.0209]],
+       device='cuda:0'), grad: tensor([[-2.7940e-09,  6.2282e-09,  0.0000e+00,  ...,  8.1491e-10,
+          9.4878e-09,  6.4611e-09],
+        [-3.7788e-07, -1.7253e-07,  0.0000e+00,  ...,  3.4925e-10,
+         -4.3795e-07, -1.1566e-07],
+        [ 3.9581e-08,  6.0257e-07,  5.8208e-11,  ...,  2.3283e-10,
+          5.8301e-07,  6.0862e-07],
+        ...,
+        [ 2.5204e-08, -9.4669e-07,  0.0000e+00,  ...,  5.8208e-11,
+         -7.6927e-07, -8.8895e-07],
+        [ 2.7986e-07,  2.5099e-07,  0.0000e+00,  ...,  1.4552e-09,
+          3.4575e-07,  1.5355e-07],
+        [ 6.3446e-09,  1.0629e-07,  0.0000e+00,  ...,  2.1537e-09,
+          9.5228e-08,  9.3307e-08]], device='cuda:0')
+Epoch 341, bias, value: tensor([-0.0411,  0.0148,  0.0122,  0.0252,  0.0304, -0.0197,  0.0287,  0.0328,
+        -0.0100, -0.0012], device='cuda:0'), grad: tensor([-1.5774e-08, -1.0245e-06,  1.8841e-06,  2.2934e-07,  2.2561e-07,
+         2.8755e-08,  3.9407e-08, -2.5835e-06,  9.0525e-07,  3.2596e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 340, time 250.65, cls_loss 0.0007 cls_loss_mapping 0.0013 cls_loss_causal 0.4639 re_mapping 0.0024 re_causal 0.0086 /// teacc 99.06 lr 0.00010000
+Epoch 342, weight, value: tensor([[ 0.0904, -0.1726, -0.1405,  ..., -0.1371, -0.1712, -0.1667],
+        [ 0.0412,  0.0535, -0.0340,  ..., -0.0729,  0.1681,  0.0198],
+        [-0.0482, -0.1738, -0.0147,  ...,  0.2173, -0.1864,  0.0411],
+        ...,
+        [-0.2136,  0.1494,  0.0267,  ..., -0.1548,  0.1222,  0.0614],
+        [ 0.0037, -0.0846, -0.0052,  ..., -0.1407, -0.1798, -0.2669],
+        [ 0.0326, -0.0474, -0.0242,  ..., -0.2399, -0.1839,  0.0209]],
+       device='cuda:0'), grad: tensor([[ 6.9849e-10,  3.4925e-10,  0.0000e+00,  ...,  6.1700e-08,
+          1.1642e-10,  5.3435e-08],
+        [-1.0594e-08, -6.6357e-09,  0.0000e+00,  ...,  1.1818e-06,
+         -2.1653e-08,  1.0449e-06],
+        [ 2.4447e-09,  8.1491e-10,  0.0000e+00,  ...,  1.0692e-06,
+          4.7730e-09,  9.4669e-07],
+        ...,
+        [ 1.0943e-08,  7.4506e-09,  0.0000e+00,  ...,  6.4820e-07,
+          2.3283e-09,  6.1560e-07],
+        [ 1.5949e-08,  3.4925e-09,  0.0000e+00,  ...,  4.4238e-08,
+          7.6834e-09,  4.6799e-08],
+        [-1.8626e-08, -1.4435e-08,  0.0000e+00,  ...,  3.2857e-06,
+          1.0477e-09,  2.8275e-06]], device='cuda:0')
+Epoch 342, bias, value: tensor([-0.0411,  0.0151,  0.0121,  0.0252,  0.0304, -0.0198,  0.0289,  0.0324,
+        -0.0106, -0.0012], device='cuda:0'), grad: tensor([ 3.0664e-07,  3.3248e-06,  3.1620e-05, -3.0667e-05, -1.7986e-05,
+         1.2887e-07,  5.0012e-07,  3.4571e-06,  3.1386e-07,  9.0152e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 341, time 250.36, cls_loss 0.0006 cls_loss_mapping 0.0019 cls_loss_causal 0.4158 re_mapping 0.0025 re_causal 0.0084 /// teacc 99.04 lr 0.00010000
+Epoch 343, weight, value: tensor([[ 0.0904, -0.1728, -0.1405,  ..., -0.1372, -0.1713, -0.1667],
+        [ 0.0413,  0.0535, -0.0338,  ..., -0.0729,  0.1682,  0.0198],
+        [-0.0484, -0.1741, -0.0145,  ...,  0.2173, -0.1867,  0.0411],
+        ...,
+        [-0.2136,  0.1494,  0.0264,  ..., -0.1552,  0.1221,  0.0614],
+        [ 0.0035, -0.0842, -0.0052,  ..., -0.1414, -0.1797, -0.2672],
+        [ 0.0327, -0.0476, -0.0241,  ..., -0.2403, -0.1840,  0.0210]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-10,  3.4925e-10,  0.0000e+00,  ...,  2.6776e-09,
+          1.0477e-09,  3.1432e-09],
+        [-5.2270e-08, -3.1176e-07,  0.0000e+00,  ...,  1.0699e-07,
+         -4.4517e-07, -1.1153e-07],
+        [ 9.3132e-10,  1.5134e-09,  0.0000e+00,  ..., -1.2864e-07,
+         -2.1653e-08, -1.1479e-07],
+        ...,
+        [ 3.4575e-08,  2.2096e-07,  0.0000e+00,  ...,  3.5041e-08,
+          3.3155e-07,  1.9697e-07],
+        [ 4.1910e-09,  1.0361e-08,  0.0000e+00,  ...,  8.0327e-09,
+          1.8510e-08,  1.5367e-08],
+        [ 8.8476e-09,  6.6939e-08,  0.0000e+00,  ...,  1.2736e-07,
+          9.6625e-08,  8.2701e-07]], device='cuda:0')
+Epoch 343, bias, value: tensor([-0.0411,  0.0151,  0.0121,  0.0252,  0.0303, -0.0196,  0.0289,  0.0323,
+        -0.0106, -0.0012], device='cuda:0'), grad: tensor([ 1.0710e-08, -7.2410e-07, -3.0966e-07,  4.0745e-09, -2.9411e-06,
+         8.7311e-09,  4.1910e-08,  8.7824e-07,  6.3563e-08,  2.9579e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 342, time 250.52, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4611 re_mapping 0.0025 re_causal 0.0086 /// teacc 99.06 lr 0.00010000
+Epoch 344, weight, value: tensor([[ 0.0904, -0.1731, -0.1405,  ..., -0.1374, -0.1709, -0.1667],
+        [ 0.0413,  0.0535, -0.0337,  ..., -0.0729,  0.1682,  0.0198],
+        [-0.0486, -0.1744, -0.0144,  ...,  0.2173, -0.1867,  0.0411],
+        ...,
+        [-0.2137,  0.1494,  0.0263,  ..., -0.1554,  0.1221,  0.0614],
+        [ 0.0033, -0.0841, -0.0052,  ..., -0.1418, -0.1797, -0.2674],
+        [ 0.0327, -0.0482, -0.0241,  ..., -0.2417, -0.1842,  0.0208]],
+       device='cuda:0'), grad: tensor([[ 1.8626e-09,  0.0000e+00,  0.0000e+00,  ...,  8.9640e-09,
+          8.1491e-10,  7.3342e-09],
+        [ 3.8417e-09,  2.5611e-09,  0.0000e+00,  ...,  1.4913e-07,
+          4.7381e-08,  2.1502e-07],
+        [ 1.0477e-09,  1.0477e-09,  0.0000e+00,  ..., -1.2352e-07,
+         -8.9640e-09, -8.3703e-08],
+        ...,
+        [ 5.8208e-09,  1.3039e-08,  0.0000e+00,  ...,  5.1223e-08,
+          9.9302e-08,  7.0897e-08],
+        [ 7.5554e-08,  9.3132e-10,  0.0000e+00,  ...,  2.2701e-08,
+          5.0059e-09,  2.0373e-08],
+        [-1.6298e-09,  1.2806e-09,  0.0000e+00,  ...,  2.7474e-08,
+          1.0361e-08,  1.4319e-08]], device='cuda:0')
+Epoch 344, bias, value: tensor([-0.0411,  0.0151,  0.0121,  0.0253,  0.0305, -0.0197,  0.0291,  0.0323,
+        -0.0108, -0.0012], device='cuda:0'), grad: tensor([ 4.0280e-08,  6.4820e-07, -2.1956e-07, -3.8669e-06, -6.6124e-07,
+        -7.5763e-07,  2.8173e-07,  3.8482e-06,  5.8953e-07,  1.2247e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 343, time 249.94, cls_loss 0.0007 cls_loss_mapping 0.0016 cls_loss_causal 0.5014 re_mapping 0.0025 re_causal 0.0088 /// teacc 99.13 lr 0.00010000
+Epoch 345, weight, value: tensor([[ 0.0904, -0.1733, -0.1406,  ..., -0.1393, -0.1684, -0.1667],
+        [ 0.0412,  0.0535, -0.0338,  ..., -0.0731,  0.1682,  0.0198],
+        [-0.0496, -0.1746, -0.0145,  ...,  0.2173, -0.1868,  0.0411],
+        ...,
+        [-0.2138,  0.1494,  0.0262,  ..., -0.1556,  0.1222,  0.0615],
+        [ 0.0038, -0.0841, -0.0052,  ..., -0.1404, -0.1797, -0.2674],
+        [ 0.0327, -0.0486, -0.0240,  ..., -0.2419, -0.1845,  0.0208]],
+       device='cuda:0'), grad: tensor([[ 2.5611e-09,  1.0477e-09,  0.0000e+00,  ...,  5.7044e-09,
+          2.0955e-09,  6.5193e-09],
+        [-2.2352e-08, -7.3574e-08,  0.0000e+00,  ...,  1.1991e-08,
+         -2.9616e-07, -1.6694e-07],
+        [ 8.7311e-09,  4.7730e-09,  0.0000e+00,  ..., -5.5414e-08,
+          1.9209e-08, -3.0966e-08],
+        ...,
+        [ 5.9372e-08,  1.3271e-08,  0.0000e+00,  ...,  2.1886e-08,
+          1.1607e-07,  8.0559e-08],
+        [-1.0652e-07,  2.0955e-08,  0.0000e+00,  ...,  1.2107e-08,
+          4.6333e-08,  4.8778e-08],
+        [ 1.2340e-08,  1.2573e-08,  0.0000e+00,  ...,  9.7789e-09,
+          3.7136e-08,  2.6426e-08]], device='cuda:0')
+Epoch 345, bias, value: tensor([-0.0411,  0.0151,  0.0120,  0.0253,  0.0305, -0.0200,  0.0307,  0.0323,
+        -0.0095, -0.0013], device='cuda:0'), grad: tensor([ 3.2713e-08, -1.3749e-07, -1.2224e-07,  5.1223e-08,  8.4983e-08,
+         6.6124e-08,  1.9209e-08,  3.6042e-07, -4.4145e-07,  1.1269e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 344, time 250.54, cls_loss 0.0007 cls_loss_mapping 0.0015 cls_loss_causal 0.4911 re_mapping 0.0026 re_causal 0.0089 /// teacc 99.08 lr 0.00010000
+Epoch 346, weight, value: tensor([[ 0.0903, -0.1741, -0.1406,  ..., -0.1393, -0.1686, -0.1667],
+        [ 0.0412,  0.0535, -0.0337,  ..., -0.0731,  0.1682,  0.0198],
+        [-0.0493, -0.1753, -0.0146,  ...,  0.2174, -0.1870,  0.0411],
+        ...,
+        [-0.2140,  0.1494,  0.0262,  ..., -0.1562,  0.1222,  0.0615],
+        [ 0.0047, -0.0838, -0.0052,  ..., -0.1415, -0.1796, -0.2676],
+        [ 0.0327, -0.0489, -0.0235,  ..., -0.2433, -0.1848,  0.0207]],
+       device='cuda:0'), grad: tensor([[ 1.9441e-08,  1.1642e-10,  0.0000e+00,  ...,  1.2689e-08,
+          4.6566e-10,  5.0059e-09],
+        [ 7.4506e-09, -2.5728e-08,  0.0000e+00,  ...,  2.7474e-08,
+         -7.1945e-08, -2.2585e-08],
+        [ 1.8277e-08,  1.6298e-09,  0.0000e+00,  ..., -1.7346e-08,
+         -3.0268e-09, -3.3760e-09],
+        ...,
+        [ 2.1653e-08,  1.3853e-08,  1.1642e-10,  ...,  8.7311e-09,
+          3.9930e-08,  2.8056e-08],
+        [-2.0023e-08,  4.8894e-09,  0.0000e+00,  ..., -4.7730e-09,
+          1.4435e-08,  1.2224e-08],
+        [-2.8801e-07,  1.0477e-09, -5.8208e-10,  ...,  3.9348e-08,
+          2.7940e-09, -8.9640e-09]], device='cuda:0')
+Epoch 346, bias, value: tensor([-0.0411,  0.0150,  0.0120,  0.0253,  0.0306, -0.0198,  0.0304,  0.0322,
+        -0.0077, -0.0013], device='cuda:0'), grad: tensor([ 1.4761e-07,  7.8231e-08,  7.4739e-08,  1.0664e-06,  2.1746e-07,
+         9.8138e-08, -5.1456e-08,  1.5285e-07, -2.0838e-08, -1.7509e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 345, time 250.86, cls_loss 0.0007 cls_loss_mapping 0.0010 cls_loss_causal 0.4966 re_mapping 0.0026 re_causal 0.0089 /// teacc 99.17 lr 0.00010000
+Epoch 347, weight, value: tensor([[ 0.0903, -0.1768, -0.1406,  ..., -0.1394, -0.1694, -0.1667],
+        [ 0.0412,  0.0535, -0.0337,  ..., -0.0732,  0.1682,  0.0198],
+        [-0.0496, -0.1787, -0.0146,  ...,  0.2174, -0.1896,  0.0406],
+        ...,
+        [-0.2140,  0.1499,  0.0262,  ..., -0.1552,  0.1228,  0.0622],
+        [ 0.0050, -0.0839, -0.0052,  ..., -0.1418, -0.1799, -0.2681],
+        [ 0.0327, -0.0504, -0.0235,  ..., -0.2429, -0.1854,  0.0208]],
+       device='cuda:0'), grad: tensor([[-8.7311e-09,  1.5134e-09,  0.0000e+00,  ...,  5.8208e-10,
+          1.3970e-09,  2.2119e-09],
+        [-1.0943e-08,  8.1607e-08,  0.0000e+00,  ...,  1.5134e-09,
+          5.1572e-08,  6.7055e-08],
+        [ 9.3132e-10,  4.1211e-08,  0.0000e+00,  ..., -5.8208e-09,
+          3.8533e-08,  3.1432e-08],
+        ...,
+        [ 5.2387e-09, -2.0431e-07,  0.0000e+00,  ...,  1.2806e-09,
+         -1.8103e-07, -1.7672e-07],
+        [ 1.8626e-09,  6.9849e-09,  0.0000e+00,  ...,  2.3283e-10,
+          1.3039e-08,  9.1968e-09],
+        [ 1.1642e-10,  2.7940e-08,  0.0000e+00,  ...,  8.6147e-09,
+          2.4913e-08,  1.5716e-08]], device='cuda:0')
+Epoch 347, bias, value: tensor([-0.0411,  0.0150,  0.0115,  0.0252,  0.0304, -0.0198,  0.0304,  0.0331,
+        -0.0072, -0.0013], device='cuda:0'), grad: tensor([-3.7486e-08,  1.5658e-07,  8.1258e-08,  2.0140e-08,  1.2841e-07,
+         2.2119e-09,  3.4692e-08, -4.2794e-07,  2.1886e-08,  3.9465e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 346, time 251.34, cls_loss 0.0007 cls_loss_mapping 0.0020 cls_loss_causal 0.4419 re_mapping 0.0025 re_causal 0.0083 /// teacc 99.09 lr 0.00010000
+Epoch 348, weight, value: tensor([[ 0.0903, -0.1774, -0.1407,  ..., -0.1396, -0.1695, -0.1667],
+        [ 0.0412,  0.0534, -0.0337,  ..., -0.0732,  0.1682,  0.0197],
+        [-0.0497, -0.1805, -0.0146,  ...,  0.2173, -0.1904,  0.0404],
+        ...,
+        [-0.2141,  0.1503,  0.0262,  ..., -0.1539,  0.1230,  0.0627],
+        [ 0.0049, -0.0840, -0.0052,  ..., -0.1434, -0.1800, -0.2690],
+        [ 0.0327, -0.0513, -0.0235,  ..., -0.2431, -0.1859,  0.0208]],
+       device='cuda:0'), grad: tensor([[ 1.2806e-09,  1.1292e-08,  0.0000e+00,  ...,  2.3283e-10,
+          1.0943e-08,  1.3039e-08],
+        [-2.3283e-09,  7.0781e-08,  0.0000e+00,  ...,  7.7998e-09,
+          6.4494e-08,  8.8592e-08],
+        [ 2.3283e-10,  6.2864e-08,  0.0000e+00,  ...,  2.9104e-09,
+          6.0652e-08,  6.6473e-08],
+        ...,
+        [ 3.3760e-09, -2.3295e-07,  0.0000e+00,  ...,  5.4715e-09,
+         -2.2200e-07, -2.4866e-07],
+        [ 1.2224e-08,  6.7521e-09,  0.0000e+00,  ...,  2.3283e-09,
+          8.3819e-09,  9.5461e-09],
+        [ 9.3132e-10,  7.1013e-09,  0.0000e+00,  ...,  6.2864e-08,
+          7.1013e-09,  9.9419e-08]], device='cuda:0')
+Epoch 348, bias, value: tensor([-0.0411,  0.0149,  0.0113,  0.0253,  0.0303, -0.0199,  0.0306,  0.0335,
+        -0.0074, -0.0013], device='cuda:0'), grad: tensor([ 4.3306e-08,  2.5565e-07,  2.0256e-07,  1.4668e-08, -1.7066e-07,
+        -1.1420e-07,  4.8662e-08, -6.9942e-07,  7.5554e-08,  3.5483e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 347, time 250.64, cls_loss 0.0005 cls_loss_mapping 0.0016 cls_loss_causal 0.4665 re_mapping 0.0025 re_causal 0.0085 /// teacc 99.21 lr 0.00010000
+Epoch 349, weight, value: tensor([[ 0.0903, -0.1781, -0.1407,  ..., -0.1396, -0.1696, -0.1667],
+        [ 0.0413,  0.0535, -0.0337,  ..., -0.0733,  0.1683,  0.0198],
+        [-0.0499, -0.1816, -0.0146,  ...,  0.2172, -0.1909,  0.0402],
+        ...,
+        [-0.2143,  0.1504,  0.0262,  ..., -0.1532,  0.1230,  0.0628],
+        [ 0.0051, -0.0841, -0.0052,  ..., -0.1440, -0.1802, -0.2697],
+        [ 0.0327, -0.0515, -0.0235,  ..., -0.2428, -0.1860,  0.0209]],
+       device='cuda:0'), grad: tensor([[ 3.4925e-10,  3.4925e-10,  0.0000e+00,  ...,  4.6566e-10,
+          6.9849e-10,  3.4925e-10],
+        [-4.4005e-08, -2.8173e-08,  0.0000e+00,  ...,  3.3760e-09,
+         -8.7428e-08, -2.5379e-08],
+        [ 6.9849e-10,  5.3551e-09,  0.0000e+00,  ...,  1.3737e-08,
+          4.3074e-09,  2.6776e-09],
+        ...,
+        [ 1.1292e-08, -1.8626e-09,  0.0000e+00,  ...,  2.6776e-09,
+          1.5600e-08,  1.7462e-09],
+        [ 2.6543e-08,  1.7229e-08,  0.0000e+00,  ...,  1.1642e-09,
+          4.8662e-08,  1.6182e-08],
+        [ 3.0268e-09,  2.9104e-09,  0.0000e+00,  ...,  2.3283e-09,
+          5.9372e-09,  3.2596e-09]], device='cuda:0')
+Epoch 349, bias, value: tensor([-0.0411,  0.0150,  0.0111,  0.0253,  0.0303, -0.0197,  0.0304,  0.0335,
+        -0.0072, -0.0012], device='cuda:0'), grad: tensor([ 1.2224e-08, -1.4564e-07,  2.7660e-07, -5.4715e-07,  1.5949e-08,
+         7.2760e-08,  1.4203e-08,  1.4051e-07,  1.3097e-07,  4.7730e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 348, time 250.53, cls_loss 0.0006 cls_loss_mapping 0.0010 cls_loss_causal 0.4548 re_mapping 0.0026 re_causal 0.0086 /// teacc 99.14 lr 0.00010000
+Epoch 350, weight, value: tensor([[ 0.0903, -0.1790, -0.1422,  ..., -0.1402, -0.1700, -0.1667],
+        [ 0.0414,  0.0535, -0.0332,  ..., -0.0734,  0.1684,  0.0198],
+        [-0.0496, -0.1817, -0.0133,  ...,  0.2173, -0.1910,  0.0403],
+        ...,
+        [-0.2144,  0.1505,  0.0261,  ..., -0.1536,  0.1230,  0.0627],
+        [ 0.0050, -0.0843, -0.0054,  ..., -0.1455, -0.1806, -0.2705],
+        [ 0.0327, -0.0531, -0.0235,  ..., -0.2430, -0.1874,  0.0208]],
+       device='cuda:0'), grad: tensor([[ 2.6776e-09,  2.4447e-09,  0.0000e+00,  ...,  5.8208e-10,
+          2.6776e-09,  3.4925e-09],
+        [ 6.7521e-09,  6.8103e-08,  0.0000e+00,  ...,  1.5134e-09,
+          7.0431e-08,  8.3819e-08],
+        [ 8.1491e-10,  1.7090e-07,  0.0000e+00,  ...,  5.7044e-09,
+          1.6531e-07,  1.8976e-07],
+        ...,
+        [ 4.5402e-09, -2.9360e-07,  0.0000e+00,  ..., -5.3551e-09,
+         -2.9965e-07, -3.2340e-07],
+        [-5.2154e-08,  1.0245e-08,  0.0000e+00,  ...,  1.3970e-09,
+          1.2806e-08,  1.2922e-08],
+        [-1.4901e-08,  1.5367e-08,  0.0000e+00,  ...,  2.2119e-09,
+          1.7113e-08, -1.6415e-08]], device='cuda:0')
+Epoch 350, bias, value: tensor([-0.0411,  0.0151,  0.0112,  0.0254,  0.0304, -0.0202,  0.0304,  0.0334,
+        -0.0074, -0.0013], device='cuda:0'), grad: tensor([ 2.7241e-08,  3.1060e-07,  5.5647e-07,  1.5053e-07,  1.3201e-07,
+         1.7788e-07,  2.4447e-09, -9.4203e-07, -3.1362e-07, -8.3004e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 349----------------------------------------------------
+epoch 349, time 251.26, cls_loss 0.0008 cls_loss_mapping 0.0024 cls_loss_causal 0.4559 re_mapping 0.0025 re_causal 0.0082 /// teacc 99.24 lr 0.00010000
+Epoch 351, weight, value: tensor([[ 0.0903, -0.1803, -0.1429,  ..., -0.1416, -0.1704, -0.1667],
+        [ 0.0415,  0.0535, -0.0333,  ..., -0.0734,  0.1684,  0.0198],
+        [-0.0496, -0.1818, -0.0127,  ...,  0.2173, -0.1911,  0.0403],
+        ...,
+        [-0.2145,  0.1519,  0.0262,  ..., -0.1538,  0.1243,  0.0646],
+        [ 0.0049, -0.0846, -0.0055,  ..., -0.1459, -0.1812, -0.2716],
+        [ 0.0327, -0.0536, -0.0235,  ..., -0.2431, -0.1877,  0.0208]],
+       device='cuda:0'), grad: tensor([[-2.9922e-05, -2.3283e-10,  0.0000e+00,  ..., -4.3392e-05,
+          0.0000e+00,  2.3283e-10],
+        [ 1.2340e-08, -1.4435e-08,  0.0000e+00,  ...,  3.4808e-08,
+         -2.8522e-08, -1.5134e-08],
+        [ 8.2655e-09,  9.3132e-10,  0.0000e+00,  ...,  3.7253e-09,
+          1.2806e-09, -2.7940e-09],
+        ...,
+        [ 1.8510e-08,  1.1059e-08,  0.0000e+00,  ...,  5.7044e-09,
+          2.1188e-08,  1.5832e-08],
+        [ 2.6776e-08,  1.1642e-09,  0.0000e+00,  ...,  2.9220e-08,
+          2.2119e-09,  1.7462e-09],
+        [ 1.5832e-08,  9.3132e-10,  0.0000e+00,  ...,  6.9849e-09,
+          1.3970e-09, -3.2596e-09]], device='cuda:0')
+Epoch 351, bias, value: tensor([-0.0411,  0.0150,  0.0112,  0.0255,  0.0289, -0.0209,  0.0315,  0.0352,
+        -0.0078, -0.0013], device='cuda:0'), grad: tensor([-1.9050e-04,  1.0454e-07,  3.9930e-08,  5.8208e-08,  2.9569e-08,
+         1.8487e-07,  1.8954e-04,  9.8604e-08,  1.6042e-07,  7.9977e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 350, time 251.11, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4508 re_mapping 0.0026 re_causal 0.0086 /// teacc 99.04 lr 0.00010000
+Epoch 352, weight, value: tensor([[ 0.0904, -0.1799, -0.1431,  ..., -0.1394, -0.1705, -0.1668],
+        [ 0.0415,  0.0535, -0.0332,  ..., -0.0735,  0.1685,  0.0198],
+        [-0.0498, -0.1819, -0.0127,  ...,  0.2174, -0.1911,  0.0403],
+        ...,
+        [-0.2146,  0.1519,  0.0262,  ..., -0.1540,  0.1243,  0.0645],
+        [ 0.0051, -0.0847, -0.0055,  ..., -0.1469, -0.1814, -0.2723],
+        [ 0.0327, -0.0537, -0.0234,  ..., -0.2432, -0.1878,  0.0207]],
+       device='cuda:0'), grad: tensor([[ 8.1491e-10,  2.3283e-09,  0.0000e+00,  ...,  7.4506e-09,
+          2.7940e-09,  3.6089e-09],
+        [-2.6985e-07, -7.1805e-07,  0.0000e+00,  ...,  5.0175e-08,
+         -9.7789e-07, -3.6275e-07],
+        [ 2.4447e-09,  5.6112e-08,  0.0000e+00,  ..., -5.2736e-08,
+          6.1817e-08,  3.2713e-08],
+        ...,
+        [ 2.5495e-07,  5.1595e-07,  0.0000e+00,  ...,  2.8522e-08,
+          7.4226e-07,  2.9127e-07],
+        [-4.1211e-08,  3.0501e-08,  0.0000e+00,  ...,  3.3062e-08,
+          4.1444e-08,  2.9104e-08],
+        [ 3.9232e-08,  7.0781e-08,  0.0000e+00,  ...,  6.2399e-07,
+          8.0676e-08,  1.5963e-06]], device='cuda:0')
+Epoch 352, bias, value: tensor([-0.0411,  0.0150,  0.0112,  0.0255,  0.0290, -0.0209,  0.0299,  0.0352,
+        -0.0077, -0.0013], device='cuda:0'), grad: tensor([ 3.1083e-08, -2.0154e-06,  4.0978e-08,  2.6659e-08, -4.3623e-06,
+        -3.9581e-09, -8.1258e-08,  1.8785e-06,  1.9791e-09,  4.4778e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 351, time 250.83, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4379 re_mapping 0.0025 re_causal 0.0083 /// teacc 99.09 lr 0.00010000
+Epoch 353, weight, value: tensor([[ 0.0904, -0.1806, -0.1434,  ..., -0.1395, -0.1709, -0.1668],
+        [ 0.0415,  0.0535, -0.0339,  ..., -0.0736,  0.1685,  0.0197],
+        [-0.0496, -0.1820, -0.0128,  ...,  0.2175, -0.1911,  0.0403],
+        ...,
+        [-0.2147,  0.1521,  0.0283,  ..., -0.1543,  0.1244,  0.0646],
+        [ 0.0052, -0.0847, -0.0056,  ..., -0.1474, -0.1815, -0.2729],
+        [ 0.0327, -0.0557, -0.0256,  ..., -0.2439, -0.1890,  0.0206]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-10,  1.1758e-08,  0.0000e+00,  ...,  3.8417e-09,
+          1.1409e-08,  9.4296e-09],
+        [-2.0955e-09,  1.5562e-06,  0.0000e+00,  ...,  4.3074e-09,
+          1.4855e-06,  1.2238e-06],
+        [ 1.1642e-10,  6.5775e-08,  0.0000e+00,  ..., -2.0955e-09,
+          6.3097e-08,  4.8080e-08],
+        ...,
+        [ 5.8208e-10, -8.5831e-06,  0.0000e+00,  ...,  4.6566e-10,
+         -8.2180e-06, -6.7391e-06],
+        [ 2.2119e-09,  1.8789e-07,  0.0000e+00,  ...,  2.4447e-09,
+          1.8138e-07,  1.4750e-07],
+        [ 2.3283e-10,  6.4522e-06,  0.0000e+00,  ...,  7.2177e-09,
+          6.1803e-06,  5.0850e-06]], device='cuda:0')
+Epoch 353, bias, value: tensor([-0.0411,  0.0149,  0.0112,  0.0254,  0.0291, -0.0205,  0.0293,  0.0352,
+        -0.0067, -0.0014], device='cuda:0'), grad: tensor([ 4.6799e-08,  4.3511e-06,  1.7358e-07,  3.9581e-07,  8.4843e-07,
+         4.8196e-08, -5.5879e-07, -2.3976e-05,  5.4156e-07,  1.8105e-05],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 352, time 250.67, cls_loss 0.0005 cls_loss_mapping 0.0007 cls_loss_causal 0.4449 re_mapping 0.0027 re_causal 0.0089 /// teacc 99.15 lr 0.00010000
+Epoch 354, weight, value: tensor([[ 0.0904, -0.1806, -0.1434,  ..., -0.1396, -0.1710, -0.1668],
+        [ 0.0416,  0.0535, -0.0340,  ..., -0.0736,  0.1685,  0.0197],
+        [-0.0500, -0.1823, -0.0128,  ...,  0.2175, -0.1911,  0.0403],
+        ...,
+        [-0.2148,  0.1521,  0.0283,  ..., -0.1545,  0.1245,  0.0647],
+        [ 0.0054, -0.0849, -0.0056,  ..., -0.1479, -0.1815, -0.2734],
+        [ 0.0327, -0.0570, -0.0255,  ..., -0.2440, -0.1899,  0.0205]],
+       device='cuda:0'), grad: tensor([[ 8.1491e-10,  2.5611e-09,  0.0000e+00,  ...,  1.2806e-09,
+          2.7940e-09,  2.3283e-09],
+        [-7.0897e-08, -2.2119e-08,  0.0000e+00,  ...,  2.5611e-09,
+         -1.0349e-07, -3.7136e-08],
+        [ 3.3760e-09,  1.1525e-08,  0.0000e+00,  ..., -5.5879e-09,
+          1.3155e-08,  3.9581e-09],
+        ...,
+        [ 2.2934e-08, -8.0792e-08,  0.0000e+00,  ...,  3.1432e-09,
+         -2.5379e-08, -3.3993e-08],
+        [ 3.1316e-08,  1.8161e-08,  0.0000e+00,  ...,  4.6566e-10,
+          3.6554e-08,  2.5262e-08],
+        [-1.9441e-08,  3.2131e-08,  0.0000e+00,  ...,  2.7940e-09,
+          2.7241e-08, -6.8685e-09]], device='cuda:0')
+Epoch 354, bias, value: tensor([-0.0411,  0.0149,  0.0112,  0.0255,  0.0291, -0.0203,  0.0290,  0.0352,
+        -0.0065, -0.0014], device='cuda:0'), grad: tensor([ 2.3632e-08,  2.5053e-07,  6.3446e-08,  2.0675e-07,  2.3819e-07,
+         5.4599e-08,  3.8184e-08, -1.0768e-07, -7.7067e-07,  2.3167e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 353, time 250.45, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4576 re_mapping 0.0025 re_causal 0.0084 /// teacc 98.99 lr 0.00010000
+Epoch 355, weight, value: tensor([[ 0.0904, -0.1812, -0.1434,  ..., -0.1397, -0.1713, -0.1668],
+        [ 0.0416,  0.0535, -0.0344,  ..., -0.0737,  0.1685,  0.0197],
+        [-0.0501, -0.1825, -0.0125,  ...,  0.2175, -0.1913,  0.0403],
+        ...,
+        [-0.2149,  0.1522,  0.0284,  ..., -0.1547,  0.1245,  0.0647],
+        [ 0.0053, -0.0850, -0.0055,  ..., -0.1486, -0.1817, -0.2742],
+        [ 0.0327, -0.0573, -0.0256,  ..., -0.2443, -0.1900,  0.0205]],
+       device='cuda:0'), grad: tensor([[ 1.2922e-08,  0.0000e+00,  0.0000e+00,  ...,  1.1642e-10,
+         -2.3283e-10,  1.3970e-09],
+        [-1.5716e-08,  5.6694e-08, -4.7730e-09,  ..., -4.4471e-08,
+         -1.1176e-08,  2.1071e-08],
+        [ 8.3819e-09,  2.0955e-09,  1.1642e-09,  ...,  1.0827e-08,
+          1.7928e-08,  7.3342e-09],
+        ...,
+        [ 8.0327e-09, -6.1817e-08,  2.3283e-10,  ...,  8.1491e-10,
+         -6.0070e-08, -3.6904e-08],
+        [ 2.3982e-08,  8.1491e-10,  2.4447e-09,  ...,  2.2701e-08,
+          3.4808e-08,  1.5018e-08],
+        [-1.8976e-08,  1.1642e-09, -1.5134e-09,  ...,  2.5611e-09,
+          2.4447e-09, -3.8883e-08]], device='cuda:0')
+Epoch 355, bias, value: tensor([-0.0411,  0.0149,  0.0112,  0.0255,  0.0292, -0.0203,  0.0292,  0.0352,
+        -0.0068, -0.0014], device='cuda:0'), grad: tensor([ 8.3703e-08,  1.1642e-08,  8.6962e-08,  4.3539e-07,  4.2049e-07,
+        -1.0738e-06,  4.4494e-07,  9.3132e-10,  3.0780e-07, -7.0827e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 354, time 250.76, cls_loss 0.0008 cls_loss_mapping 0.0015 cls_loss_causal 0.4671 re_mapping 0.0026 re_causal 0.0085 /// teacc 99.08 lr 0.00010000
+Epoch 356, weight, value: tensor([[ 0.0904, -0.1820, -0.1435,  ..., -0.1398, -0.1715, -0.1668],
+        [ 0.0416,  0.0528, -0.0346,  ..., -0.0739,  0.1681,  0.0193],
+        [-0.0502, -0.1828, -0.0124,  ...,  0.2176, -0.1915,  0.0403],
+        ...,
+        [-0.2150,  0.1530,  0.0285,  ..., -0.1555,  0.1251,  0.0652],
+        [ 0.0053, -0.0851, -0.0048,  ..., -0.1496, -0.1820, -0.2764],
+        [ 0.0327, -0.0574, -0.0256,  ..., -0.2450, -0.1905,  0.0205]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-10,  0.0000e+00,  0.0000e+00,  ...,  3.4925e-10,
+          0.0000e+00,  1.1642e-10],
+        [-2.8871e-08, -3.0734e-08,  0.0000e+00,  ...,  8.1491e-10,
+         -4.2259e-08, -4.5053e-08],
+        [ 6.9849e-10,  3.4925e-10,  0.0000e+00,  ...,  1.1642e-10,
+          5.8208e-10,  5.8208e-10],
+        ...,
+        [ 2.6193e-08,  2.5844e-08,  0.0000e+00,  ...,  5.8208e-10,
+          3.6205e-08,  3.9465e-08],
+        [ 1.7462e-09,  2.9104e-09,  0.0000e+00,  ...,  2.3283e-10,
+          4.3074e-09,  4.4238e-09],
+        [-1.7462e-09,  1.1642e-09,  0.0000e+00,  ...,  6.9849e-10,
+          1.6298e-09, -7.3342e-09]], device='cuda:0')
+Epoch 356, bias, value: tensor([-0.0411,  0.0144,  0.0112,  0.0254,  0.0295, -0.0199,  0.0288,  0.0358,
+        -0.0071, -0.0014], device='cuda:0'), grad: tensor([ 1.8626e-09, -1.1874e-07,  6.9849e-09, -2.0256e-08,  2.8173e-08,
+         1.6997e-08,  2.3283e-09,  1.1746e-07,  8.2655e-09, -1.5600e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 355, time 251.62, cls_loss 0.0007 cls_loss_mapping 0.0020 cls_loss_causal 0.4964 re_mapping 0.0026 re_causal 0.0087 /// teacc 99.06 lr 0.00010000
+Epoch 357, weight, value: tensor([[ 0.0904, -0.1824, -0.1436,  ..., -0.1397, -0.1709, -0.1668],
+        [ 0.0417,  0.0528, -0.0348,  ..., -0.0740,  0.1681,  0.0192],
+        [-0.0503, -0.1829, -0.0127,  ...,  0.2176, -0.1917,  0.0403],
+        ...,
+        [-0.2151,  0.1531,  0.0284,  ..., -0.1558,  0.1252,  0.0654],
+        [ 0.0045, -0.0852, -0.0034,  ..., -0.1510, -0.1822, -0.2776],
+        [ 0.0327, -0.0589, -0.0255,  ..., -0.2460, -0.1914,  0.0203]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-09,  1.1642e-10,  1.1642e-10,  ...,  1.2806e-09,
+          9.3132e-10,  1.7462e-09],
+        [-3.8976e-07, -1.8626e-09,  4.6566e-10,  ..., -3.7346e-07,
+         -1.1660e-06, -2.7847e-07],
+        [ 3.2596e-08,  1.3271e-08,  1.1642e-10,  ...,  2.0722e-08,
+          8.6962e-08,  2.6892e-08],
+        ...,
+        [ 2.2235e-08, -2.0256e-08,  8.1491e-10,  ...,  5.2154e-08,
+          2.9453e-08,  5.5996e-08],
+        [ 3.1502e-07,  2.0955e-09,  6.9849e-10,  ...,  3.1199e-07,
+          9.1782e-07,  2.4331e-07],
+        [-1.0710e-08,  3.3760e-09, -6.4028e-09,  ...,  1.1525e-08,
+          5.8208e-09, -2.5379e-08]], device='cuda:0')
+Epoch 357, bias, value: tensor([-0.0411,  0.0143,  0.0112,  0.0256,  0.0297, -0.0197,  0.0289,  0.0358,
+        -0.0088, -0.0015], device='cuda:0'), grad: tensor([ 2.7125e-08, -2.1141e-06,  2.7497e-07,  4.7544e-07, -1.1502e-07,
+        -1.0533e-06,  1.4156e-07,  3.8091e-07,  2.0191e-06, -3.1781e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 356, time 251.57, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4433 re_mapping 0.0027 re_causal 0.0087 /// teacc 99.17 lr 0.00010000
+Epoch 358, weight, value: tensor([[ 0.0905, -0.1796, -0.1437,  ..., -0.1397, -0.1709, -0.1668],
+        [ 0.0417,  0.0528, -0.0348,  ..., -0.0741,  0.1681,  0.0191],
+        [-0.0508, -0.1833, -0.0127,  ...,  0.2176, -0.1919,  0.0403],
+        ...,
+        [-0.2152,  0.1531,  0.0282,  ..., -0.1560,  0.1252,  0.0653],
+        [ 0.0044, -0.0855, -0.0041,  ..., -0.1526, -0.1827, -0.2791],
+        [ 0.0327, -0.0598, -0.0252,  ..., -0.2478, -0.1917,  0.0199]],
+       device='cuda:0'), grad: tensor([[-3.7369e-08,  3.4925e-10,  0.0000e+00,  ...,  1.2340e-08,
+         -1.3970e-09,  2.3283e-10],
+        [-1.3388e-08, -2.0140e-08,  0.0000e+00,  ...,  5.0059e-09,
+         -3.7136e-08, -4.0745e-09],
+        [ 9.3132e-10,  4.6566e-10,  0.0000e+00,  ...,  4.3074e-09,
+          9.3132e-10, -5.8208e-10],
+        ...,
+        [ 6.4028e-09,  8.3819e-09,  0.0000e+00,  ...,  1.3970e-09,
+          1.5134e-08,  7.4506e-09],
+        [ 5.9372e-09,  6.7521e-09,  0.0000e+00,  ...,  2.7940e-09,
+          1.3504e-08,  5.3551e-09],
+        [ 2.8289e-08,  6.9849e-10,  0.0000e+00,  ...,  4.6566e-09,
+          2.7940e-09,  1.1758e-08]], device='cuda:0')
+Epoch 358, bias, value: tensor([-0.0410,  0.0142,  0.0111,  0.0257,  0.0305, -0.0197,  0.0288,  0.0357,
+        -0.0092, -0.0017], device='cuda:0'), grad: tensor([-2.4401e-07, -4.3656e-08,  1.7928e-08,  1.1525e-08,  7.9279e-08,
+         1.2154e-07, -2.7521e-07,  4.6217e-08,  4.4587e-08,  2.5611e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 357, time 250.89, cls_loss 0.0006 cls_loss_mapping 0.0015 cls_loss_causal 0.4419 re_mapping 0.0024 re_causal 0.0081 /// teacc 99.21 lr 0.00010000
+Epoch 359, weight, value: tensor([[ 0.0905, -0.1796, -0.1437,  ..., -0.1398, -0.1708, -0.1668],
+        [ 0.0418,  0.0527, -0.0348,  ..., -0.0743,  0.1681,  0.0191],
+        [-0.0510, -0.1833, -0.0127,  ...,  0.2177, -0.1919,  0.0403],
+        ...,
+        [-0.2153,  0.1533,  0.0281,  ..., -0.1561,  0.1253,  0.0654],
+        [ 0.0044, -0.0857, -0.0038,  ..., -0.1537, -0.1830, -0.2799],
+        [ 0.0327, -0.0601, -0.0252,  ..., -0.2480, -0.1920,  0.0199]],
+       device='cuda:0'), grad: tensor([[-3.5274e-08,  1.7462e-09,  0.0000e+00,  ..., -4.7730e-09,
+          3.0268e-09,  2.0955e-09],
+        [-2.4075e-07, -4.3423e-07,  0.0000e+00,  ...,  1.0477e-09,
+         -7.6648e-07, -2.9034e-07],
+        [ 7.7998e-09,  1.0710e-08, -9.3132e-10,  ..., -4.6566e-09,
+          2.3399e-08,  4.0745e-09],
+        ...,
+        [ 1.6345e-07,  2.8778e-07,  1.1642e-10,  ...,  1.6298e-09,
+          5.0804e-07,  2.0035e-07],
+        [ 4.2492e-08,  7.9162e-08,  8.1491e-10,  ...,  1.3504e-08,
+          1.3772e-07,  5.8673e-08],
+        [-5.3551e-09,  1.7695e-08,  0.0000e+00,  ...,  5.8208e-10,
+          3.0268e-08, -3.7253e-08]], device='cuda:0')
+Epoch 359, bias, value: tensor([-0.0410,  0.0142,  0.0111,  0.0257,  0.0306, -0.0199,  0.0289,  0.0357,
+        -0.0093, -0.0018], device='cuda:0'), grad: tensor([-1.8207e-07, -1.7611e-06,  4.6683e-08,  1.4203e-08,  2.9523e-07,
+         6.2864e-09,  1.5169e-07,  1.2312e-06,  3.5577e-07, -1.4168e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 358, time 251.45, cls_loss 0.0006 cls_loss_mapping 0.0011 cls_loss_causal 0.4871 re_mapping 0.0024 re_causal 0.0087 /// teacc 99.14 lr 0.00010000
+Epoch 360, weight, value: tensor([[ 0.0905, -0.1799, -0.1437,  ..., -0.1397, -0.1713, -0.1668],
+        [ 0.0420,  0.0529, -0.0348,  ..., -0.0742,  0.1685,  0.0192],
+        [-0.0515, -0.1834, -0.0127,  ...,  0.2177, -0.1920,  0.0403],
+        ...,
+        [-0.2156,  0.1532,  0.0278,  ..., -0.1569,  0.1251,  0.0652],
+        [ 0.0041, -0.0865, -0.0036,  ..., -0.1549, -0.1845, -0.2822],
+        [ 0.0327, -0.0601, -0.0249,  ..., -0.2483, -0.1922,  0.0199]],
+       device='cuda:0'), grad: tensor([[ 4.0745e-09,  8.1491e-10,  0.0000e+00,  ...,  1.1642e-09,
+          3.4925e-10,  4.3074e-09],
+        [ 1.3039e-08,  2.0559e-07,  0.0000e+00,  ...,  1.1059e-08,
+          6.9966e-08,  1.2608e-07],
+        [ 2.6776e-09,  2.6426e-08,  0.0000e+00,  ..., -3.2596e-09,
+          1.0245e-08,  1.3271e-08],
+        ...,
+        [ 1.4319e-08, -4.2212e-07,  0.0000e+00,  ...,  1.6415e-08,
+         -1.4459e-07, -1.7870e-07],
+        [ 9.6625e-09,  5.7975e-08,  0.0000e+00,  ...,  1.5134e-09,
+          2.0140e-08,  4.0629e-08],
+        [-2.4494e-07,  2.1188e-08,  0.0000e+00,  ...,  9.2201e-08,
+          7.7998e-09, -2.5844e-08]], device='cuda:0')
+Epoch 360, bias, value: tensor([-0.0410,  0.0145,  0.0111,  0.0257,  0.0306, -0.0197,  0.0288,  0.0354,
+        -0.0103, -0.0017], device='cuda:0'), grad: tensor([ 2.6659e-08,  5.1269e-07,  5.7626e-08,  1.2643e-07, -2.0652e-07,
+         2.9197e-07,  4.6100e-08, -5.7882e-07,  1.3644e-07, -3.9861e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 359, time 251.30, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4583 re_mapping 0.0025 re_causal 0.0085 /// teacc 99.16 lr 0.00010000
+Epoch 361, weight, value: tensor([[ 0.0905, -0.1800, -0.1437,  ..., -0.1398, -0.1711, -0.1668],
+        [ 0.0420,  0.0528, -0.0348,  ..., -0.0744,  0.1685,  0.0191],
+        [-0.0519, -0.1835, -0.0127,  ...,  0.2178, -0.1921,  0.0403],
+        ...,
+        [-0.2158,  0.1532,  0.0280,  ..., -0.1574,  0.1251,  0.0651],
+        [ 0.0043, -0.0863, -0.0035,  ..., -0.1555, -0.1845, -0.2828],
+        [ 0.0327, -0.0598, -0.0249,  ..., -0.2485, -0.1922,  0.0200]],
+       device='cuda:0'), grad: tensor([[-2.0955e-09,  1.1642e-10,  0.0000e+00,  ...,  4.6566e-10,
+          4.6566e-10,  3.4925e-10],
+        [-1.5949e-08, -1.7812e-08,  0.0000e+00,  ...,  5.4715e-09,
+         -3.9465e-08,  1.8626e-09],
+        [ 9.3132e-10,  6.9849e-10,  0.0000e+00,  ...,  2.3283e-10,
+          9.3132e-10,  1.0477e-09],
+        ...,
+        [ 4.1910e-09,  2.7940e-09,  0.0000e+00,  ...,  5.9372e-09,
+          1.0012e-08,  1.7928e-08],
+        [ 1.1991e-08,  1.4086e-08,  0.0000e+00,  ...,  1.3970e-09,
+          2.9919e-08,  1.0012e-08],
+        [ 2.3283e-10,  1.5134e-09,  0.0000e+00,  ...,  1.1642e-09,
+          2.4447e-09, -3.8417e-09]], device='cuda:0')
+Epoch 361, bias, value: tensor([-0.0410,  0.0144,  0.0111,  0.0256,  0.0307, -0.0194,  0.0290,  0.0353,
+        -0.0101, -0.0017], device='cuda:0'), grad: tensor([-1.1525e-08, -2.4680e-08,  1.0477e-08,  1.1642e-09, -8.5100e-08,
+         4.5402e-09, -6.7521e-09,  7.5321e-08,  7.1130e-08, -1.0361e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 360, time 251.55, cls_loss 0.0005 cls_loss_mapping 0.0016 cls_loss_causal 0.4631 re_mapping 0.0025 re_causal 0.0088 /// teacc 99.14 lr 0.00010000
+Epoch 362, weight, value: tensor([[ 0.0905, -0.1799, -0.1437,  ..., -0.1398, -0.1704, -0.1668],
+        [ 0.0422,  0.0530, -0.0349,  ..., -0.0742,  0.1687,  0.0193],
+        [-0.0521, -0.1836, -0.0127,  ...,  0.2177, -0.1929,  0.0402],
+        ...,
+        [-0.2159,  0.1532,  0.0279,  ..., -0.1576,  0.1251,  0.0650],
+        [ 0.0037, -0.0876, -0.0034,  ..., -0.1559, -0.1857, -0.2842],
+        [ 0.0328, -0.0592, -0.0248,  ..., -0.2495, -0.1920,  0.0200]],
+       device='cuda:0'), grad: tensor([[-1.0477e-09,  5.8208e-11,  0.0000e+00,  ...,  1.1642e-10,
+         -6.4028e-10,  3.4925e-10],
+        [-7.4506e-09, -1.2340e-08,  0.0000e+00,  ...,  6.8103e-09,
+         -2.2526e-08,  9.8953e-10],
+        [ 1.3388e-09,  1.2224e-09,  0.0000e+00,  ..., -1.2224e-09,
+          2.0373e-09,  6.9849e-10],
+        ...,
+        [ 1.0245e-08,  6.6357e-09,  0.0000e+00,  ...,  1.5716e-09,
+          1.2107e-08,  1.8626e-08],
+        [ 4.0163e-09,  3.7835e-09,  0.0000e+00,  ...,  1.6880e-09,
+          7.2760e-09,  7.1595e-09],
+        [-2.0780e-08,  7.5670e-10,  0.0000e+00,  ...,  6.9849e-10,
+          1.3388e-09, -4.1211e-08]], device='cuda:0')
+Epoch 362, bias, value: tensor([-0.0410,  0.0145,  0.0110,  0.0256,  0.0308, -0.0192,  0.0289,  0.0351,
+        -0.0108, -0.0017], device='cuda:0'), grad: tensor([-5.2387e-09, -4.4820e-09,  6.4611e-09,  5.4715e-09,  1.1135e-07,
+         7.1013e-09, -1.2806e-09,  9.1502e-08,  3.3702e-08, -2.2154e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 361, time 252.01, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4448 re_mapping 0.0023 re_causal 0.0081 /// teacc 99.09 lr 0.00010000
+Epoch 363, weight, value: tensor([[ 0.0905, -0.1801, -0.1438,  ..., -0.1399, -0.1706, -0.1668],
+        [ 0.0422,  0.0530, -0.0350,  ..., -0.0744,  0.1688,  0.0192],
+        [-0.0516, -0.1838, -0.0127,  ...,  0.2178, -0.1930,  0.0402],
+        ...,
+        [-0.2160,  0.1532,  0.0278,  ..., -0.1578,  0.1251,  0.0650],
+        [ 0.0038, -0.0876, -0.0034,  ..., -0.1558, -0.1858, -0.2844],
+        [ 0.0328, -0.0591, -0.0244,  ..., -0.2497, -0.1921,  0.0200]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-10,  1.1642e-10,  0.0000e+00,  ...,  4.4820e-09,
+          1.1642e-10,  3.3760e-09],
+        [-2.2701e-09, -2.0955e-09,  0.0000e+00,  ...,  7.8580e-09,
+         -4.8312e-09,  6.9267e-09],
+        [ 2.3283e-10,  4.6566e-10,  0.0000e+00,  ..., -4.3190e-08,
+          4.6566e-10, -3.9174e-08],
+        ...,
+        [ 1.4552e-09,  5.2387e-09,  0.0000e+00,  ...,  1.5774e-08,
+          5.9954e-09,  3.3004e-08],
+        [ 2.9104e-10,  9.3132e-10,  0.0000e+00,  ...,  1.0477e-08,
+          1.8626e-09,  4.7730e-09],
+        [-5.2387e-10, -6.4611e-09,  0.0000e+00,  ...,  2.6193e-09,
+         -5.4133e-09, -2.0838e-08]], device='cuda:0')
+Epoch 363, bias, value: tensor([-0.0410,  0.0145,  0.0110,  0.0256,  0.0308, -0.0193,  0.0288,  0.0351,
+        -0.0106, -0.0017], device='cuda:0'), grad: tensor([ 2.0547e-08,  2.9453e-08, -1.8999e-07,  6.4319e-08,  1.8510e-08,
+         1.1589e-07, -1.5181e-07,  1.7206e-07,  4.7905e-08, -1.1519e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 362, time 251.84, cls_loss 0.0006 cls_loss_mapping 0.0019 cls_loss_causal 0.4832 re_mapping 0.0023 re_causal 0.0080 /// teacc 99.10 lr 0.00010000
+Epoch 364, weight, value: tensor([[ 0.0905, -0.1804, -0.1439,  ..., -0.1399, -0.1709, -0.1668],
+        [ 0.0423,  0.0530, -0.0350,  ..., -0.0746,  0.1688,  0.0192],
+        [-0.0519, -0.1839, -0.0126,  ...,  0.2178, -0.1931,  0.0402],
+        ...,
+        [-0.2162,  0.1533,  0.0277,  ..., -0.1580,  0.1251,  0.0651],
+        [ 0.0040, -0.0876, -0.0037,  ..., -0.1566, -0.1860, -0.2848],
+        [ 0.0328, -0.0594, -0.0235,  ..., -0.2502, -0.1920,  0.0201]],
+       device='cuda:0'), grad: tensor([[-2.7649e-08,  1.6880e-09,  0.0000e+00,  ...,  3.4925e-10,
+          1.8044e-09,  5.3551e-09],
+        [ 7.1013e-09,  9.4937e-08,  0.0000e+00,  ...,  9.8953e-10,
+          9.0047e-08,  1.4494e-07],
+        [ 4.3074e-09,  3.6368e-07,  0.0000e+00,  ...,  5.8208e-11,
+          3.8696e-07,  5.9698e-07],
+        ...,
+        [ 2.9220e-08, -5.1875e-07,  0.0000e+00,  ...,  1.2806e-09,
+         -5.4203e-07, -7.6089e-07],
+        [ 2.4505e-08,  1.4086e-08,  0.0000e+00,  ...,  1.7462e-10,
+          1.6531e-08,  2.8347e-08],
+        [-8.3062e-08,  8.9640e-09,  0.0000e+00,  ...,  1.0186e-08,
+          8.7894e-09, -7.2236e-08]], device='cuda:0')
+Epoch 364, bias, value: tensor([-0.0410,  0.0145,  0.0110,  0.0256,  0.0308, -0.0192,  0.0292,  0.0351,
+        -0.0104, -0.0017], device='cuda:0'), grad: tensor([-1.0792e-07,  3.9465e-07,  1.5199e-06,  6.7579e-08, -8.9698e-08,
+        -1.5483e-08,  2.9453e-08, -1.8524e-06,  1.8207e-07, -1.2480e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 363, time 251.53, cls_loss 0.0006 cls_loss_mapping 0.0015 cls_loss_causal 0.4656 re_mapping 0.0024 re_causal 0.0085 /// teacc 99.02 lr 0.00010000
+Epoch 365, weight, value: tensor([[ 0.0905, -0.1806, -0.1441,  ..., -0.1400, -0.1711, -0.1668],
+        [ 0.0423,  0.0530, -0.0352,  ..., -0.0749,  0.1689,  0.0192],
+        [-0.0524, -0.1842, -0.0127,  ...,  0.2178, -0.1933,  0.0401],
+        ...,
+        [-0.2164,  0.1533,  0.0269,  ..., -0.1583,  0.1251,  0.0650],
+        [ 0.0043, -0.0878, -0.0040,  ..., -0.1567, -0.1861, -0.2850],
+        [ 0.0328, -0.0595, -0.0221,  ..., -0.2514, -0.1922,  0.0200]],
+       device='cuda:0'), grad: tensor([[ 1.6298e-09,  3.8068e-08,  0.0000e+00,  ...,  5.8208e-10,
+          4.0862e-08,  4.5286e-08],
+        [-2.8405e-08,  1.8077e-06,  0.0000e+00,  ...,  1.9092e-08,
+          1.8692e-06,  2.1867e-06],
+        [-2.0140e-08,  6.1095e-06,  0.0000e+00,  ...,  2.4098e-08,
+          6.4522e-06,  7.2978e-06],
+        ...,
+        [ 7.1013e-09, -9.6411e-06,  0.0000e+00,  ..., -8.8126e-08,
+         -1.0096e-05, -1.1571e-05],
+        [ 3.2014e-08,  1.4144e-07,  0.0000e+00,  ...,  3.7951e-08,
+          1.5425e-07,  1.9849e-07],
+        [ 3.6089e-09,  4.0396e-07,  0.0000e+00,  ...,  1.8626e-09,
+          4.1211e-07,  4.8289e-07]], device='cuda:0')
+Epoch 365, bias, value: tensor([-0.0410,  0.0144,  0.0109,  0.0256,  0.0311, -0.0192,  0.0292,  0.0349,
+        -0.0102, -0.0017], device='cuda:0'), grad: tensor([ 1.3993e-07,  6.5155e-06,  2.2009e-05,  7.6648e-07,  3.2131e-06,
+         6.6007e-08,  3.0617e-08, -3.4809e-05,  6.3702e-07,  1.4594e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 364, time 251.45, cls_loss 0.0007 cls_loss_mapping 0.0017 cls_loss_causal 0.4325 re_mapping 0.0024 re_causal 0.0078 /// teacc 99.05 lr 0.00010000
+Epoch 366, weight, value: tensor([[ 0.0906, -0.1809, -0.1441,  ..., -0.1400, -0.1714, -0.1668],
+        [ 0.0425,  0.0531, -0.0353,  ..., -0.0750,  0.1690,  0.0192],
+        [-0.0512, -0.1870, -0.0123,  ...,  0.2178, -0.1947,  0.0391],
+        ...,
+        [-0.2167,  0.1542,  0.0269,  ..., -0.1563,  0.1255,  0.0664],
+        [ 0.0040, -0.0879, -0.0041,  ..., -0.1600, -0.1865, -0.2870],
+        [ 0.0328, -0.0632, -0.0220,  ..., -0.2543, -0.1944,  0.0193]],
+       device='cuda:0'), grad: tensor([[-2.0489e-08,  4.6566e-10,  0.0000e+00,  ...,  1.3970e-09,
+          3.4925e-10,  2.4447e-09],
+        [ 1.7462e-09, -2.0955e-09,  0.0000e+00,  ...,  1.4319e-08,
+         -1.3970e-08,  4.6217e-08],
+        [ 3.2596e-09,  8.3819e-09,  0.0000e+00,  ..., -1.3970e-09,
+          8.1491e-09,  1.4086e-08],
+        ...,
+        [ 1.6764e-08, -2.9104e-09,  0.0000e+00,  ...,  7.9162e-09,
+         -1.1642e-09,  2.6310e-08],
+        [ 1.0128e-08,  3.8417e-09,  0.0000e+00,  ...,  2.5611e-09,
+          4.7730e-09,  8.1491e-09],
+        [-1.6065e-08, -7.6834e-09, -2.3283e-10,  ...,  1.2538e-07,
+          2.5611e-09,  2.3481e-07]], device='cuda:0')
+Epoch 366, bias, value: tensor([-0.0410,  0.0145,  0.0101,  0.0256,  0.0317, -0.0194,  0.0289,  0.0363,
+        -0.0111, -0.0020], device='cuda:0'), grad: tensor([-1.4191e-07,  1.3970e-07,  6.4727e-08,  7.5670e-08, -1.0263e-06,
+        -8.9523e-08,  1.6706e-07,  1.0827e-07,  7.4971e-08,  6.4541e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 365, time 251.08, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4772 re_mapping 0.0024 re_causal 0.0081 /// teacc 99.08 lr 0.00010000
+Epoch 367, weight, value: tensor([[ 0.0906, -0.1811, -0.1441,  ..., -0.1401, -0.1718, -0.1668],
+        [ 0.0427,  0.0532, -0.0354,  ..., -0.0752,  0.1692,  0.0192],
+        [-0.0512, -0.1871, -0.0115,  ...,  0.2180, -0.1947,  0.0392],
+        ...,
+        [-0.2170,  0.1543,  0.0269,  ..., -0.1570,  0.1255,  0.0664],
+        [ 0.0037, -0.0885, -0.0042,  ..., -0.1606, -0.1875, -0.2888],
+        [ 0.0328, -0.0639, -0.0220,  ..., -0.2558, -0.1950,  0.0189]],
+       device='cuda:0'), grad: tensor([[-6.7847e-07, -2.9663e-07,  0.0000e+00,  ..., -8.6729e-08,
+         -5.5600e-07,  2.3283e-10],
+        [ 5.9698e-07,  2.1968e-07,  0.0000e+00,  ...,  8.5798e-08,
+          4.3097e-07, -3.5274e-08],
+        [ 5.3551e-09,  3.4925e-09,  0.0000e+00,  ...,  9.3132e-10,
+          5.9372e-09,  1.3970e-09],
+        ...,
+        [ 2.2934e-08,  3.8184e-08,  0.0000e+00,  ...,  3.4925e-10,
+          5.6229e-08,  2.5379e-08],
+        [ 1.9907e-08,  1.9325e-08,  0.0000e+00,  ...,  3.7253e-09,
+          3.4110e-08,  1.4552e-08],
+        [ 2.6776e-09,  1.9791e-09,  0.0000e+00,  ...,  7.9162e-09,
+          3.3760e-09,  3.9232e-08]], device='cuda:0')
+Epoch 367, bias, value: tensor([-0.0410,  0.0145,  0.0102,  0.0256,  0.0320, -0.0194,  0.0285,  0.0363,
+        -0.0117, -0.0022], device='cuda:0'), grad: tensor([-3.0268e-06,  2.6952e-06,  3.5390e-08, -1.6415e-08, -1.5309e-07,
+         1.1874e-07, -4.5286e-08,  1.1828e-07,  1.1735e-07,  1.5681e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 366, time 251.53, cls_loss 0.0007 cls_loss_mapping 0.0013 cls_loss_causal 0.4274 re_mapping 0.0026 re_causal 0.0085 /// teacc 99.14 lr 0.00010000
+Epoch 368, weight, value: tensor([[ 0.0906, -0.1836, -0.1442,  ..., -0.1428, -0.1741, -0.1669],
+        [ 0.0427,  0.0532, -0.0355,  ..., -0.0784,  0.1684,  0.0181],
+        [-0.0513, -0.1872, -0.0114,  ...,  0.2199, -0.1921,  0.0406],
+        ...,
+        [-0.2172,  0.1543,  0.0269,  ..., -0.1574,  0.1255,  0.0664],
+        [ 0.0032, -0.0887, -0.0041,  ..., -0.1611, -0.1878, -0.2909],
+        [ 0.0329, -0.0627, -0.0220,  ..., -0.2565, -0.1952,  0.0190]],
+       device='cuda:0'), grad: tensor([[-2.4447e-09,  5.8208e-10,  0.0000e+00,  ...,  4.6566e-10,
+         -3.4925e-10,  5.8208e-10],
+        [-1.0114e-06, -4.2021e-06,  0.0000e+00,  ...,  2.3283e-09,
+         -5.0180e-06, -2.1756e-06],
+        [ 1.6298e-09,  2.3399e-08,  0.0000e+00,  ..., -8.1491e-09,
+          1.9907e-08,  1.2806e-09],
+        ...,
+        [ 9.6206e-07,  3.9935e-06,  0.0000e+00,  ...,  1.7462e-09,
+          4.7684e-06,  2.0694e-06],
+        [ 2.3865e-08,  9.4762e-08,  0.0000e+00,  ...,  1.5134e-09,
+          1.1316e-07,  5.1572e-08],
+        [ 4.0745e-09,  7.9162e-09,  0.0000e+00,  ...,  1.1642e-10,
+          9.4296e-09,  2.9104e-09]], device='cuda:0')
+Epoch 368, bias, value: tensor([-0.0412,  0.0128,  0.0119,  0.0255,  0.0323, -0.0194,  0.0312,  0.0362,
+        -0.0124, -0.0021], device='cuda:0'), grad: tensor([-7.9162e-09, -1.0513e-05,  2.3190e-07, -8.4168e-08,  2.6310e-08,
+         1.2573e-08,  1.5134e-09,  1.0036e-05,  2.4750e-07,  2.5146e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 367, time 251.70, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4696 re_mapping 0.0026 re_causal 0.0086 /// teacc 99.06 lr 0.00010000
+Epoch 369, weight, value: tensor([[ 0.0907, -0.1833, -0.1442,  ..., -0.1423, -0.1735, -0.1669],
+        [ 0.0429,  0.0533, -0.0356,  ..., -0.0784,  0.1687,  0.0182],
+        [-0.0526, -0.1875, -0.0115,  ...,  0.2199, -0.1923,  0.0406],
+        ...,
+        [-0.2174,  0.1544,  0.0269,  ..., -0.1579,  0.1255,  0.0664],
+        [ 0.0032, -0.0897, -0.0034,  ..., -0.1620, -0.1898, -0.2931],
+        [ 0.0329, -0.0627, -0.0220,  ..., -0.2569, -0.1952,  0.0190]],
+       device='cuda:0'), grad: tensor([[-3.2596e-09, -1.7462e-09,  0.0000e+00,  ...,  1.8743e-08,
+          3.6089e-09,  5.8557e-08],
+        [-4.3190e-08, -6.1234e-08,  0.0000e+00,  ...,  1.9697e-07,
+         -4.1910e-08,  5.5786e-07],
+        [ 1.6298e-09,  2.4447e-09,  0.0000e+00,  ..., -2.7660e-06,
+         -2.4550e-06, -3.1181e-06],
+        ...,
+        [ 1.9209e-08,  2.3865e-08,  0.0000e+00,  ...,  1.7453e-06,
+          1.1194e-06,  3.6601e-06],
+        [ 4.3074e-09,  3.3760e-09,  0.0000e+00,  ...,  3.7369e-08,
+          2.3632e-08,  1.3132e-07],
+        [-2.9104e-09,  2.3283e-09,  0.0000e+00,  ...,  7.5065e-06,
+          2.0489e-08,  3.1918e-05]], device='cuda:0')
+Epoch 369, bias, value: tensor([-0.0411,  0.0129,  0.0118,  0.0255,  0.0323, -0.0195,  0.0308,  0.0362,
+        -0.0128, -0.0021], device='cuda:0'), grad: tensor([ 1.7742e-07,  1.8366e-06, -1.3217e-05,  6.7018e-06, -1.1432e-04,
+         6.0420e-08,  1.6869e-07,  1.3448e-05,  4.4610e-07,  1.0467e-04],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 368, time 251.77, cls_loss 0.0008 cls_loss_mapping 0.0017 cls_loss_causal 0.4679 re_mapping 0.0023 re_causal 0.0080 /// teacc 99.16 lr 0.00010000
+Epoch 370, weight, value: tensor([[ 0.0879, -0.1871, -0.1443,  ..., -0.1422, -0.1751, -0.1695],
+        [ 0.0427,  0.0533, -0.0358,  ..., -0.0784,  0.1687,  0.0182],
+        [-0.0533, -0.1875, -0.0115,  ...,  0.2201, -0.1923,  0.0407],
+        ...,
+        [-0.2176,  0.1542,  0.0239,  ..., -0.1587,  0.1254,  0.0652],
+        [ 0.0043, -0.0892, -0.0034,  ..., -0.1623, -0.1901, -0.2937],
+        [ 0.0357, -0.0582, -0.0184,  ..., -0.2576, -0.1920,  0.0220]],
+       device='cuda:0'), grad: tensor([[-3.9581e-09, -3.0268e-09,  0.0000e+00,  ...,  0.0000e+00,
+         -2.3283e-09,  0.0000e+00],
+        [-9.7789e-09,  5.0059e-09,  0.0000e+00,  ..., -6.9849e-09,
+         -2.6077e-08, -1.0477e-08],
+        [ 3.1432e-09,  1.7462e-09,  0.0000e+00,  ...,  4.6566e-10,
+          2.7940e-09,  2.5611e-09],
+        ...,
+        [ 2.9104e-09, -1.7928e-08,  0.0000e+00,  ...,  1.6298e-09,
+         -7.1013e-09, -1.0245e-08],
+        [-4.1910e-09,  1.1642e-10,  0.0000e+00,  ...,  3.4925e-10,
+          2.3283e-09, -1.5134e-09],
+        [ 9.5461e-09,  6.6357e-09,  0.0000e+00,  ...,  8.1491e-10,
+          4.6566e-09,  6.4028e-09]], device='cuda:0')
+Epoch 370, bias, value: tensor([-0.0438,  0.0128,  0.0119,  0.0254,  0.0322, -0.0191,  0.0297,  0.0351,
+        -0.0118,  0.0007], device='cuda:0'), grad: tensor([-3.3295e-08, -7.1013e-09,  3.4808e-08,  4.7032e-08,  4.4471e-08,
+        -1.2910e-07,  5.0641e-08, -2.3399e-08, -1.1211e-07,  1.3434e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 369, time 251.58, cls_loss 0.0007 cls_loss_mapping 0.0016 cls_loss_causal 0.4755 re_mapping 0.0023 re_causal 0.0080 /// teacc 98.99 lr 0.00010000
+Epoch 371, weight, value: tensor([[ 0.0879, -0.1872, -0.1443,  ..., -0.1423, -0.1752, -0.1696],
+        [ 0.0426,  0.0533, -0.0359,  ..., -0.0784,  0.1688,  0.0181],
+        [-0.0537, -0.1877, -0.0115,  ...,  0.2201, -0.1925,  0.0407],
+        ...,
+        [-0.2178,  0.1544,  0.0237,  ..., -0.1591,  0.1256,  0.0652],
+        [ 0.0047, -0.0891, -0.0033,  ..., -0.1624, -0.1903, -0.2940],
+        [ 0.0358, -0.0581, -0.0183,  ..., -0.2579, -0.1920,  0.0221]],
+       device='cuda:0'), grad: tensor([[-9.8953e-09,  1.1642e-09,  0.0000e+00,  ...,  2.0256e-08,
+         -1.2806e-09,  1.0943e-08],
+        [-9.4646e-08, -1.4727e-07,  0.0000e+00,  ...,  5.9372e-09,
+         -3.0431e-07, -8.6613e-08],
+        [ 3.4925e-09,  2.4447e-09,  0.0000e+00,  ..., -4.4936e-08,
+          4.3074e-09, -2.1188e-08],
+        ...,
+        [ 7.7416e-08,  8.9058e-08,  0.0000e+00,  ...,  2.0955e-09,
+          1.8359e-07,  6.0070e-08],
+        [-5.7160e-08,  1.0710e-08,  0.0000e+00,  ...,  9.0804e-09,
+          3.7486e-08,  2.3516e-08],
+        [ 3.6554e-08,  1.4086e-08,  0.0000e+00,  ...,  2.4331e-08,
+          2.0838e-08,  6.6473e-08]], device='cuda:0')
+Epoch 371, bias, value: tensor([-0.0439,  0.0127,  0.0119,  0.0253,  0.0321, -0.0192,  0.0301,  0.0352,
+        -0.0114,  0.0008], device='cuda:0'), grad: tensor([ 2.9686e-08, -4.2352e-07, -1.8964e-07,  7.8464e-08, -2.2235e-07,
+         3.3993e-08,  3.2131e-08,  4.2608e-07, -2.3248e-07,  4.7218e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 370, time 251.17, cls_loss 0.0005 cls_loss_mapping 0.0011 cls_loss_causal 0.4777 re_mapping 0.0025 re_causal 0.0089 /// teacc 99.17 lr 0.00010000
+Epoch 372, weight, value: tensor([[ 0.0879, -0.1872, -0.1446,  ..., -0.1423, -0.1751, -0.1696],
+        [ 0.0431,  0.0539, -0.0330,  ..., -0.0784,  0.1695,  0.0184],
+        [-0.0541, -0.1878, -0.0115,  ...,  0.2202, -0.1926,  0.0407],
+        ...,
+        [-0.2197,  0.1538,  0.0233,  ..., -0.1597,  0.1249,  0.0647],
+        [ 0.0048, -0.0894, -0.0036,  ..., -0.1625, -0.1909, -0.2948],
+        [ 0.0358, -0.0581, -0.0183,  ..., -0.2585, -0.1920,  0.0223]],
+       device='cuda:0'), grad: tensor([[-1.2689e-08, -0.0000e+00,  0.0000e+00,  ...,  1.1642e-10,
+         -1.2806e-09,  5.8208e-10],
+        [-9.3132e-10,  9.6625e-08,  2.3283e-09,  ...,  2.5611e-09,
+          8.2422e-08,  8.0443e-08],
+        [ 1.3970e-09,  8.3819e-09,  0.0000e+00,  ...,  3.4925e-10,
+          9.0804e-09,  2.0489e-08],
+        ...,
+        [ 1.3970e-09, -1.2945e-07, -2.6776e-09,  ...,  8.6147e-09,
+         -1.1548e-07, -2.9686e-08],
+        [ 5.5879e-09,  4.7730e-09,  1.1642e-10,  ...,  6.9849e-10,
+          6.8685e-09,  7.7998e-09],
+        [ 5.0059e-09,  5.4715e-09,  0.0000e+00,  ...,  6.8685e-09,
+          5.3551e-09,  5.2154e-08]], device='cuda:0')
+Epoch 372, bias, value: tensor([-0.0439,  0.0131,  0.0119,  0.0253,  0.0318, -0.0192,  0.0306,  0.0344,
+        -0.0113,  0.0009], device='cuda:0'), grad: tensor([-8.3237e-08,  2.5984e-07,  6.6683e-07, -6.9477e-07, -4.3586e-07,
+         8.2306e-08,  2.2817e-08, -5.9255e-08,  5.6578e-08,  2.0664e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 371, time 251.52, cls_loss 0.0004 cls_loss_mapping 0.0005 cls_loss_causal 0.4266 re_mapping 0.0025 re_causal 0.0084 /// teacc 99.15 lr 0.00010000
+Epoch 373, weight, value: tensor([[ 0.0879, -0.1872, -0.1446,  ..., -0.1423, -0.1751, -0.1696],
+        [ 0.0432,  0.0539, -0.0330,  ..., -0.0785,  0.1696,  0.0184],
+        [-0.0543, -0.1879, -0.0115,  ...,  0.2202, -0.1927,  0.0407],
+        ...,
+        [-0.2198,  0.1538,  0.0233,  ..., -0.1599,  0.1249,  0.0647],
+        [ 0.0047, -0.0896, -0.0035,  ..., -0.1626, -0.1914, -0.2955],
+        [ 0.0358, -0.0581, -0.0183,  ..., -0.2587, -0.1920,  0.0223]],
+       device='cuda:0'), grad: tensor([[ 3.4925e-10,  1.1642e-10,  0.0000e+00,  ...,  3.0268e-09,
+          1.1642e-10,  1.5134e-09],
+        [-1.3737e-08, -1.8626e-08,  0.0000e+00,  ...,  1.7707e-07,
+         -3.7369e-08,  1.0559e-07],
+        [ 6.9849e-10,  1.9791e-09,  0.0000e+00,  ...,  3.7253e-09,
+          2.0955e-09,  3.4925e-10],
+        ...,
+        [ 9.4296e-09,  9.7789e-09,  0.0000e+00,  ...,  4.2259e-08,
+          2.2235e-08,  3.2480e-08],
+        [ 7.7998e-09,  3.6089e-09,  0.0000e+00,  ...,  1.9209e-08,
+          7.3342e-09,  9.3132e-09],
+        [-1.2806e-08,  6.9849e-10, -3.4925e-10,  ...,  4.9407e-07,
+          1.5134e-09,  2.8196e-07]], device='cuda:0')
+Epoch 373, bias, value: tensor([-0.0439,  0.0131,  0.0119,  0.0253,  0.0318, -0.0194,  0.0308,  0.0343,
+        -0.0115,  0.0009], device='cuda:0'), grad: tensor([ 1.2573e-08,  6.2259e-07,  2.4098e-08,  2.5611e-08, -3.1702e-06,
+         3.4226e-08,  3.3621e-07,  2.0175e-07,  1.0245e-07,  1.8179e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 372, time 251.61, cls_loss 0.0005 cls_loss_mapping 0.0010 cls_loss_causal 0.4684 re_mapping 0.0023 re_causal 0.0080 /// teacc 99.16 lr 0.00010000
+Epoch 374, weight, value: tensor([[ 0.0879, -0.1872, -0.1446,  ..., -0.1423, -0.1751, -0.1696],
+        [ 0.0433,  0.0539, -0.0330,  ..., -0.0786,  0.1696,  0.0184],
+        [-0.0544, -0.1879, -0.0115,  ...,  0.2204, -0.1927,  0.0408],
+        ...,
+        [-0.2200,  0.1537,  0.0233,  ..., -0.1606,  0.1249,  0.0644],
+        [ 0.0046, -0.0898, -0.0035,  ..., -0.1626, -0.1916, -0.2960],
+        [ 0.0358, -0.0580, -0.0183,  ..., -0.2597, -0.1921,  0.0223]],
+       device='cuda:0'), grad: tensor([[ 5.8208e-10,  1.1642e-09,  0.0000e+00,  ...,  3.8417e-09,
+          3.6089e-09,  1.6298e-09],
+        [-6.5193e-08,  5.6159e-07,  0.0000e+00,  ...,  1.9209e-08,
+          4.3632e-07,  5.0291e-07],
+        [ 3.0268e-09,  3.7486e-08,  0.0000e+00,  ..., -3.9581e-09,
+          5.6345e-08,  2.8522e-08],
+        ...,
+        [ 2.2468e-08, -6.7567e-07,  0.0000e+00,  ..., -1.0245e-08,
+         -6.1514e-07, -5.9186e-07],
+        [ 2.1537e-08,  2.2235e-08,  0.0000e+00,  ...,  1.7579e-08,
+          4.7847e-08,  2.1188e-08],
+        [-1.2689e-08,  1.9674e-08,  0.0000e+00,  ...,  1.1642e-09,
+          2.6193e-08, -3.9465e-08]], device='cuda:0')
+Epoch 374, bias, value: tensor([-0.0439,  0.0130,  0.0119,  0.0253,  0.0323, -0.0194,  0.0303,  0.0341,
+        -0.0117,  0.0009], device='cuda:0'), grad: tensor([ 1.8510e-08,  1.0841e-06,  1.0151e-07,  1.8044e-08,  2.7195e-07,
+         3.3178e-08, -1.7451e-07, -1.3923e-06,  2.0198e-07, -1.5635e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 373, time 251.58, cls_loss 0.0006 cls_loss_mapping 0.0015 cls_loss_causal 0.4854 re_mapping 0.0022 re_causal 0.0083 /// teacc 99.16 lr 0.00010000
+Epoch 375, weight, value: tensor([[ 0.0879, -0.1872, -0.1446,  ..., -0.1424, -0.1751, -0.1696],
+        [ 0.0434,  0.0536, -0.0330,  ..., -0.0786,  0.1695,  0.0182],
+        [-0.0546, -0.1881, -0.0116,  ...,  0.2204, -0.1928,  0.0408],
+        ...,
+        [-0.2201,  0.1550,  0.0233,  ..., -0.1607,  0.1254,  0.0660],
+        [ 0.0048, -0.0900, -0.0032,  ..., -0.1626, -0.1919, -0.2964],
+        [ 0.0358, -0.0584, -0.0183,  ..., -0.2600, -0.1924,  0.0217]],
+       device='cuda:0'), grad: tensor([[-1.5250e-08, -2.4447e-09,  0.0000e+00,  ...,  2.7940e-09,
+         -4.3074e-09,  3.4925e-10],
+        [ 1.3504e-08, -1.8626e-09,  0.0000e+00,  ...,  1.6298e-09,
+         -1.0012e-08,  1.2806e-09],
+        [ 2.8289e-08,  2.5611e-09,  0.0000e+00,  ..., -5.4715e-09,
+          1.6298e-09, -2.5611e-09],
+        ...,
+        [ 2.9919e-08, -7.4506e-09,  0.0000e+00,  ...,  2.6776e-09,
+         -6.9849e-10, -3.6089e-09],
+        [-2.4214e-06,  2.5611e-09,  0.0000e+00,  ...,  9.3132e-10,
+          5.0059e-09,  1.8626e-09],
+        [ 8.0676e-08,  2.9104e-09,  0.0000e+00,  ...,  9.3132e-10,
+          3.7253e-09,  1.3970e-09]], device='cuda:0')
+Epoch 375, bias, value: tensor([-0.0439,  0.0128,  0.0119,  0.0251,  0.0321, -0.0176,  0.0301,  0.0353,
+        -0.0115,  0.0007], device='cuda:0'), grad: tensor([-1.6426e-07,  2.1618e-07,  2.9337e-07,  8.8010e-08,  8.9640e-08,
+         2.3872e-05,  6.7987e-08,  2.8824e-07, -2.5585e-05,  8.6660e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 374, time 251.65, cls_loss 0.0005 cls_loss_mapping 0.0012 cls_loss_causal 0.4652 re_mapping 0.0024 re_causal 0.0081 /// teacc 99.19 lr 0.00010000
+Epoch 376, weight, value: tensor([[ 0.0879, -0.1872, -0.1447,  ..., -0.1424, -0.1751, -0.1696],
+        [ 0.0436,  0.0537, -0.0330,  ..., -0.0786,  0.1696,  0.0183],
+        [-0.0545, -0.1881, -0.0112,  ...,  0.2205, -0.1928,  0.0409],
+        ...,
+        [-0.2202,  0.1551,  0.0233,  ..., -0.1611,  0.1254,  0.0662],
+        [ 0.0052, -0.0902, -0.0032,  ..., -0.1634, -0.1922, -0.2971],
+        [ 0.0358, -0.0585, -0.0183,  ..., -0.2602, -0.1925,  0.0216]],
+       device='cuda:0'), grad: tensor([[-2.8638e-08,  0.0000e+00,  1.1642e-10,  ...,  6.9849e-10,
+         -6.9849e-10,  9.3132e-10],
+        [-1.6298e-09, -1.0477e-09,  3.4925e-10,  ...,  1.5134e-09,
+         -6.0536e-09,  9.3132e-10],
+        [ 1.8626e-09,  6.9849e-10,  0.0000e+00,  ..., -9.3132e-09,
+          1.0477e-09, -1.0361e-08],
+        ...,
+        [ 3.3760e-09,  1.3970e-09,  5.8208e-10,  ...,  5.2387e-09,
+          3.4925e-09,  9.7789e-09],
+        [-1.9791e-09,  1.1642e-09,  1.1642e-10,  ...,  1.9791e-09,
+          3.4925e-09,  3.1432e-09],
+        [ 6.9849e-10,  3.4925e-10, -1.1292e-08,  ...,  0.0000e+00,
+          1.5134e-09, -3.7835e-08]], device='cuda:0')
+Epoch 376, bias, value: tensor([-0.0438,  0.0129,  0.0120,  0.0251,  0.0320, -0.0182,  0.0302,  0.0353,
+        -0.0109,  0.0007], device='cuda:0'), grad: tensor([-1.6636e-07,  1.7579e-08,  8.1491e-10, -4.6520e-07,  1.1770e-07,
+         4.0513e-07,  1.1583e-07,  5.1456e-08,  6.9849e-09, -6.3796e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 375, time 251.32, cls_loss 0.0005 cls_loss_mapping 0.0014 cls_loss_causal 0.4380 re_mapping 0.0024 re_causal 0.0084 /// teacc 99.14 lr 0.00010000
+Epoch 377, weight, value: tensor([[ 0.0880, -0.1872, -0.1449,  ..., -0.1425, -0.1751, -0.1696],
+        [ 0.0436,  0.0537, -0.0330,  ..., -0.0787,  0.1697,  0.0182],
+        [-0.0547, -0.1882, -0.0109,  ...,  0.2206, -0.1929,  0.0409],
+        ...,
+        [-0.2203,  0.1552,  0.0233,  ..., -0.1613,  0.1254,  0.0662],
+        [ 0.0052, -0.0903, -0.0033,  ..., -0.1636, -0.1923, -0.2976],
+        [ 0.0358, -0.0585, -0.0182,  ..., -0.2605, -0.1925,  0.0217]],
+       device='cuda:0'), grad: tensor([[ 9.1968e-09,  3.4925e-10,  5.1223e-09,  ...,  1.2806e-09,
+          4.6566e-10,  8.1491e-10],
+        [-6.0536e-09, -1.8277e-08,  1.1642e-09,  ...,  4.5402e-09,
+         -2.8173e-08, -5.4715e-09],
+        [ 3.2596e-09,  1.3970e-09,  6.9849e-10,  ...,  6.9849e-10,
+          1.6298e-09,  1.0477e-09],
+        ...,
+        [ 7.7998e-09,  5.9372e-09,  1.1642e-10,  ...,  3.1432e-09,
+          8.2655e-09,  1.3621e-08],
+        [-2.9453e-08,  9.5461e-09, -9.8953e-09,  ..., -8.9640e-09,
+          1.4785e-08,  6.5193e-09],
+        [-1.8161e-08, -4.5402e-09,  1.6298e-09,  ...,  5.5879e-09,
+          8.1491e-10, -4.5169e-08]], device='cuda:0')
+Epoch 377, bias, value: tensor([-0.0438,  0.0129,  0.0120,  0.0258,  0.0320, -0.0206,  0.0298,  0.0353,
+        -0.0110,  0.0007], device='cuda:0'), grad: tensor([ 5.2736e-08,  7.6834e-09,  2.0838e-08,  7.6834e-09,  1.8138e-07,
+         3.0152e-08,  2.4447e-08,  7.1479e-08, -1.7951e-07, -2.0443e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 376, time 251.63, cls_loss 0.0004 cls_loss_mapping 0.0010 cls_loss_causal 0.4327 re_mapping 0.0023 re_causal 0.0082 /// teacc 99.24 lr 0.00010000
+Epoch 378, weight, value: tensor([[ 0.0880, -0.1872, -0.1454,  ..., -0.1425, -0.1751, -0.1696],
+        [ 0.0441,  0.0546, -0.0331,  ..., -0.0788,  0.1705,  0.0186],
+        [-0.0547, -0.1882, -0.0113,  ...,  0.2207, -0.1929,  0.0409],
+        ...,
+        [-0.2215,  0.1544,  0.0233,  ..., -0.1615,  0.1244,  0.0656],
+        [ 0.0053, -0.0903, -0.0048,  ..., -0.1638, -0.1924, -0.2979],
+        [ 0.0358, -0.0585, -0.0182,  ..., -0.2606, -0.1925,  0.0217]],
+       device='cuda:0'), grad: tensor([[-3.6089e-09, -6.9849e-10,  0.0000e+00,  ...,  5.5879e-09,
+         -0.0000e+00,  2.4447e-09],
+        [-5.5297e-08, -3.8068e-08,  0.0000e+00,  ...,  5.2387e-09,
+         -9.7323e-08, -1.8277e-08],
+        [ 4.6566e-10,  2.9686e-08,  0.0000e+00,  ..., -1.9907e-08,
+          2.1071e-08,  2.6193e-08],
+        ...,
+        [ 5.5879e-09, -4.8545e-08,  0.0000e+00,  ..., -8.6147e-09,
+         -2.6659e-08,  3.2829e-08],
+        [ 4.0745e-09,  3.1432e-09,  0.0000e+00,  ...,  3.2596e-09,
+          6.4028e-09,  5.0059e-09],
+        [ 6.5193e-09,  4.5402e-09,  0.0000e+00,  ...,  1.3970e-09,
+          7.3342e-09,  5.7044e-09]], device='cuda:0')
+Epoch 378, bias, value: tensor([-0.0438,  0.0133,  0.0120,  0.0258,  0.0320, -0.0207,  0.0290,  0.0346,
+        -0.0111,  0.0007], device='cuda:0'), grad: tensor([ 4.7730e-09, -1.0629e-07,  3.2736e-07, -7.3016e-06,  2.4959e-07,
+         3.1851e-06,  2.6426e-08,  3.0082e-06,  2.1269e-07,  4.0256e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 377, time 251.77, cls_loss 0.0006 cls_loss_mapping 0.0017 cls_loss_causal 0.4632 re_mapping 0.0023 re_causal 0.0080 /// teacc 99.10 lr 0.00010000
+Epoch 379, weight, value: tensor([[ 0.0880, -0.1872, -0.1455,  ..., -0.1425, -0.1751, -0.1696],
+        [ 0.0452,  0.0550, -0.0331,  ..., -0.0788,  0.1710,  0.0187],
+        [-0.0551, -0.1879, -0.0113,  ...,  0.2209, -0.1926,  0.0412],
+        ...,
+        [-0.2218,  0.1544,  0.0233,  ..., -0.1637,  0.1244,  0.0655],
+        [ 0.0052, -0.0904, -0.0048,  ..., -0.1642, -0.1927, -0.2985],
+        [ 0.0357, -0.0589, -0.0182,  ..., -0.2607, -0.1939,  0.0218]],
+       device='cuda:0'), grad: tensor([[-1.3970e-09,  1.1642e-10,  0.0000e+00,  ...,  1.2340e-08,
+          2.6776e-09,  9.0804e-09],
+        [-1.8394e-08, -2.2585e-08,  0.0000e+00,  ...,  1.7683e-07,
+         -8.1491e-09,  1.2096e-07],
+        [-9.3132e-10,  1.5134e-09,  0.0000e+00,  ..., -3.7393e-07,
+         -6.9384e-08, -2.7660e-07],
+        ...,
+        [ 1.2340e-08,  9.4296e-09,  0.0000e+00,  ...,  3.4459e-08,
+          2.6659e-08,  2.8987e-08],
+        [ 8.8476e-09,  4.5402e-09,  0.0000e+00,  ...,  2.2468e-08,
+          1.2340e-08,  1.5250e-08],
+        [-8.3819e-09,  1.1642e-09,  0.0000e+00,  ...,  4.5402e-09,
+          2.0955e-09, -8.1491e-09]], device='cuda:0')
+Epoch 379, bias, value: tensor([-0.0438,  0.0137,  0.0122,  0.0259,  0.0316, -0.0213,  0.0293,  0.0345,
+        -0.0113,  0.0007], device='cuda:0'), grad: tensor([ 4.8894e-08,  7.3295e-07, -1.6801e-06, -9.1386e-08,  4.6310e-07,
+         2.0117e-07,  3.9348e-08,  2.0349e-07,  1.2107e-07, -2.3516e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 378, time 252.08, cls_loss 0.0007 cls_loss_mapping 0.0017 cls_loss_causal 0.4658 re_mapping 0.0022 re_causal 0.0076 /// teacc 99.20 lr 0.00010000
+Epoch 380, weight, value: tensor([[ 0.0880, -0.1872, -0.1458,  ..., -0.1436, -0.1751, -0.1696],
+        [ 0.0454,  0.0551, -0.0331,  ..., -0.0788,  0.1720,  0.0192],
+        [-0.0560, -0.1881, -0.0096,  ...,  0.2211, -0.1938,  0.0410],
+        ...,
+        [-0.2223,  0.1546,  0.0233,  ..., -0.1642,  0.1238,  0.0651],
+        [ 0.0047, -0.0912, -0.0050,  ..., -0.1653, -0.1937, -0.3004],
+        [ 0.0358, -0.0589, -0.0182,  ..., -0.2627, -0.1939,  0.0218]],
+       device='cuda:0'), grad: tensor([[ 1.2806e-09,  1.1642e-10,  0.0000e+00,  ...,  6.9849e-10,
+         -1.6298e-09,  4.6566e-10],
+        [ 3.0268e-09,  8.2655e-09,  0.0000e+00,  ...,  9.7789e-09,
+          7.5670e-09,  2.1537e-08],
+        [ 9.3132e-10,  7.1013e-09,  0.0000e+00,  ...,  3.4925e-10,
+          7.1013e-09,  8.2655e-09],
+        ...,
+        [ 3.3760e-09, -1.6845e-07,  0.0000e+00,  ...,  1.0594e-08,
+         -2.0291e-07, -2.3341e-07],
+        [ 4.5402e-08,  2.3283e-09,  0.0000e+00,  ...,  2.3283e-10,
+          3.6089e-09,  2.2119e-09],
+        [ 8.8476e-09,  2.0955e-09,  0.0000e+00,  ...,  5.8557e-08,
+          3.3760e-09,  7.0431e-08]], device='cuda:0')
+Epoch 380, bias, value: tensor([-0.0438,  0.0143,  0.0120,  0.0260,  0.0314, -0.0212,  0.0299,  0.0340,
+        -0.0123,  0.0007], device='cuda:0'), grad: tensor([ 1.9791e-09,  9.1619e-08,  3.7951e-08,  7.5437e-07,  3.5274e-08,
+        -1.0971e-06,  6.1584e-08, -4.1071e-07,  2.0850e-07,  3.3621e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 379, time 251.66, cls_loss 0.0006 cls_loss_mapping 0.0007 cls_loss_causal 0.4685 re_mapping 0.0023 re_causal 0.0079 /// teacc 99.08 lr 0.00010000
+Epoch 381, weight, value: tensor([[ 0.0880, -0.1872, -0.1458,  ..., -0.1436, -0.1751, -0.1696],
+        [ 0.0454,  0.0550, -0.0331,  ..., -0.0790,  0.1720,  0.0191],
+        [-0.0552, -0.1882, -0.0096,  ...,  0.2212, -0.1938,  0.0411],
+        ...,
+        [-0.2225,  0.1547,  0.0233,  ..., -0.1649,  0.1239,  0.0651],
+        [ 0.0044, -0.0913, -0.0050,  ..., -0.1657, -0.1938, -0.3010],
+        [ 0.0358, -0.0589, -0.0182,  ..., -0.2632, -0.1940,  0.0218]],
+       device='cuda:0'), grad: tensor([[ 2.6776e-09,  2.0955e-09,  3.4925e-10,  ...,  2.3283e-10,
+          4.6566e-10,  1.7462e-09],
+        [-8.3819e-09, -6.4028e-09,  1.1642e-10,  ...,  2.5611e-09,
+         -1.9558e-08,  1.9791e-09],
+        [ 3.0268e-09,  2.7940e-09,  0.0000e+00,  ..., -7.6834e-08,
+         -1.7579e-08, -8.6031e-08],
+        ...,
+        [ 1.4203e-08,  1.9558e-08,  1.0477e-09,  ...,  7.7533e-08,
+          3.1549e-08,  1.2142e-07],
+        [ 6.9849e-10,  1.2806e-09,  1.1642e-10,  ...,  9.3132e-10,
+          1.9791e-09,  1.5134e-09],
+        [-1.1758e-08, -2.5611e-08, -2.2119e-09,  ...,  1.3388e-08,
+         -3.4925e-10, -1.3621e-08]], device='cuda:0')
+Epoch 381, bias, value: tensor([-0.0438,  0.0142,  0.0120,  0.0263,  0.0315, -0.0214,  0.0299,  0.0339,
+        -0.0133,  0.0007], device='cuda:0'), grad: tensor([ 3.0501e-08,  9.0804e-09, -1.9255e-07, -1.6741e-07, -9.9302e-08,
+         9.4529e-08,  6.5193e-09,  4.6729e-07,  1.4319e-08, -1.3784e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 380, time 251.59, cls_loss 0.0005 cls_loss_mapping 0.0010 cls_loss_causal 0.4301 re_mapping 0.0023 re_causal 0.0078 /// teacc 99.21 lr 0.00010000
+Epoch 382, weight, value: tensor([[ 0.0879, -0.1872, -0.1458,  ..., -0.1440, -0.1752, -0.1697],
+        [ 0.0454,  0.0550, -0.0331,  ..., -0.0791,  0.1720,  0.0190],
+        [-0.0557, -0.1883, -0.0096,  ...,  0.2213, -0.1939,  0.0412],
+        ...,
+        [-0.2227,  0.1549,  0.0233,  ..., -0.1657,  0.1240,  0.0651],
+        [ 0.0045, -0.0912, -0.0050,  ..., -0.1664, -0.1939, -0.3015],
+        [ 0.0359, -0.0589, -0.0182,  ..., -0.2634, -0.1940,  0.0219]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  1.1642e-10,
+          0.0000e+00,  1.1642e-10],
+        [-3.2596e-09, -8.1491e-10,  0.0000e+00,  ..., -2.4447e-09,
+         -1.1292e-08, -8.1491e-10],
+        [ 1.1642e-09,  8.1491e-10,  0.0000e+00,  ..., -1.6182e-08,
+          1.1642e-10, -1.0710e-08],
+        ...,
+        [ 9.3132e-10, -4.1910e-09,  0.0000e+00,  ...,  1.9209e-08,
+          2.4447e-09,  1.1758e-08],
+        [ 4.3074e-09,  4.6566e-10,  0.0000e+00,  ...,  2.4447e-09,
+          3.2596e-09,  2.3283e-09],
+        [-5.8208e-10,  1.9791e-09, -1.1642e-10,  ...,  1.0477e-09,
+          1.5134e-09, -3.9581e-09]], device='cuda:0')
+Epoch 382, bias, value: tensor([-0.0439,  0.0140,  0.0121,  0.0263,  0.0313, -0.0212,  0.0299,  0.0339,
+        -0.0131,  0.0008], device='cuda:0'), grad: tensor([ 1.9791e-09, -1.0245e-08, -2.4680e-08,  2.5495e-08,  9.1968e-09,
+        -2.2980e-07,  1.7439e-07,  4.0862e-08,  3.5390e-08, -1.9092e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 381, time 251.66, cls_loss 0.0008 cls_loss_mapping 0.0021 cls_loss_causal 0.4812 re_mapping 0.0024 re_causal 0.0079 /// teacc 99.11 lr 0.00010000
+Epoch 383, weight, value: tensor([[ 0.0881, -0.1872, -0.1458,  ..., -0.1440, -0.1752, -0.1697],
+        [ 0.0456,  0.0550, -0.0331,  ..., -0.0792,  0.1721,  0.0190],
+        [-0.0582, -0.1885, -0.0096,  ...,  0.2228, -0.1927,  0.0421],
+        ...,
+        [-0.2234,  0.1551,  0.0233,  ..., -0.1673,  0.1241,  0.0651],
+        [ 0.0049, -0.0915, -0.0050,  ..., -0.1695, -0.1968, -0.3048],
+        [ 0.0358, -0.0589, -0.0182,  ..., -0.2637, -0.1941,  0.0221]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-09,  5.8208e-10,  0.0000e+00,  ...,  3.0268e-09,
+          2.2119e-09,  4.3074e-09],
+        [-9.0804e-09,  2.4214e-08,  0.0000e+00,  ...,  8.4983e-09,
+         -2.4447e-09,  2.6077e-08],
+        [-7.1013e-09,  4.0745e-08,  0.0000e+00,  ..., -1.8498e-07,
+         -9.9535e-08, -2.1327e-07],
+        ...,
+        [ 1.5600e-08, -1.1735e-07,  0.0000e+00,  ...,  1.3749e-07,
+          3.0850e-08,  9.1386e-08],
+        [ 2.0722e-08,  4.8894e-09,  0.0000e+00,  ...,  4.4238e-08,
+          3.5740e-08,  5.9954e-08],
+        [-1.0012e-08,  2.7125e-08,  0.0000e+00,  ...,  1.2806e-09,
+          1.7113e-08, -1.3271e-08]], device='cuda:0')
+Epoch 383, bias, value: tensor([-0.0436,  0.0139,  0.0131,  0.0261,  0.0299, -0.0213,  0.0329,  0.0336,
+        -0.0157,  0.0007], device='cuda:0'), grad: tensor([ 2.4913e-08,  7.0664e-08, -6.6916e-07, -2.9686e-08,  1.2177e-07,
+        -1.3970e-07,  2.8522e-08,  3.3900e-07,  2.8289e-07, -2.7474e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 382, time 251.59, cls_loss 0.0007 cls_loss_mapping 0.0012 cls_loss_causal 0.4600 re_mapping 0.0024 re_causal 0.0077 /// teacc 99.10 lr 0.00010000
+Epoch 384, weight, value: tensor([[ 0.0881, -0.1872, -0.1458,  ..., -0.1451, -0.1752, -0.1697],
+        [ 0.0456,  0.0548, -0.0331,  ..., -0.0800,  0.1720,  0.0186],
+        [-0.0574, -0.1889, -0.0096,  ...,  0.2232, -0.1928,  0.0424],
+        ...,
+        [-0.2238,  0.1556,  0.0233,  ..., -0.1678,  0.1245,  0.0654],
+        [ 0.0048, -0.0917, -0.0050,  ..., -0.1695, -0.1970, -0.3050],
+        [ 0.0359, -0.0590, -0.0182,  ..., -0.2644, -0.1943,  0.0221]],
+       device='cuda:0'), grad: tensor([[-7.1013e-09,  1.1642e-10,  0.0000e+00,  ...,  1.1642e-09,
+         -9.3132e-10,  8.1491e-10],
+        [ 4.3656e-08,  1.5716e-08,  0.0000e+00,  ...,  1.3295e-07,
+          8.5216e-08,  1.8987e-07],
+        [ 1.9674e-08,  5.8208e-09,  0.0000e+00,  ...,  1.0361e-08,
+          4.7730e-09,  1.3388e-08],
+        ...,
+        [ 1.2573e-08,  3.6089e-09,  0.0000e+00,  ...,  6.7172e-08,
+          4.8080e-08,  9.9419e-08],
+        [-1.2538e-07, -3.3411e-08,  0.0000e+00,  ..., -3.2363e-08,
+          1.5134e-09, -4.2608e-08],
+        [-4.5402e-09,  4.6566e-10,  0.0000e+00,  ...,  3.6089e-09,
+          1.6298e-09, -5.9372e-09]], device='cuda:0')
+Epoch 384, bias, value: tensor([-0.0437,  0.0134,  0.0134,  0.0259,  0.0300, -0.0212,  0.0334,  0.0339,
+        -0.0159,  0.0007], device='cuda:0'), grad: tensor([-3.7020e-08,  6.5286e-07,  1.0384e-07, -2.6776e-09, -6.9523e-07,
+         2.2457e-07, -1.5716e-08,  3.0594e-07, -5.0338e-07, -1.3504e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 383, time 251.58, cls_loss 0.0006 cls_loss_mapping 0.0014 cls_loss_causal 0.4546 re_mapping 0.0023 re_causal 0.0077 /// teacc 99.09 lr 0.00010000
+Epoch 385, weight, value: tensor([[ 0.0881, -0.1872, -0.1458,  ..., -0.1452, -0.1752, -0.1697],
+        [ 0.0458,  0.0548, -0.0331,  ..., -0.0802,  0.1721,  0.0185],
+        [-0.0588, -0.1895, -0.0096,  ...,  0.2233, -0.1931,  0.0424],
+        ...,
+        [-0.2242,  0.1557,  0.0233,  ..., -0.1683,  0.1245,  0.0654],
+        [ 0.0045, -0.0918, -0.0050,  ..., -0.1696, -0.1971, -0.3051],
+        [ 0.0359, -0.0590, -0.0182,  ..., -0.2655, -0.1944,  0.0221]],
+       device='cuda:0'), grad: tensor([[-7.5088e-09,  2.9104e-10,  0.0000e+00,  ...,  2.3283e-10,
+          1.1059e-09,  1.0477e-09],
+        [-1.0227e-07, -1.1321e-07,  0.0000e+00,  ...,  1.7462e-09,
+         -2.5891e-07, -1.6415e-07],
+        [ 4.8196e-08,  3.6147e-08,  0.0000e+00,  ..., -1.8044e-09,
+          9.1386e-08,  6.5193e-08],
+        ...,
+        [ 8.5915e-08,  4.2550e-08,  0.0000e+00,  ...,  1.8044e-09,
+          1.2596e-07,  1.0605e-07],
+        [-5.5507e-07,  5.0059e-09,  0.0000e+00,  ...,  4.5984e-09,
+         -4.2049e-07, -5.8021e-07],
+        [ 5.5740e-07,  1.7171e-08,  0.0000e+00,  ...,  1.2806e-09,
+          4.1141e-07,  5.3272e-07]], device='cuda:0')
+Epoch 385, bias, value: tensor([-0.0437,  0.0133,  0.0133,  0.0260,  0.0302, -0.0209,  0.0340,  0.0338,
+        -0.0162,  0.0006], device='cuda:0'), grad: tensor([-3.3062e-08, -5.5833e-07,  2.8894e-07,  3.8650e-08,  1.7881e-07,
+        -1.7397e-06,  1.1604e-06,  5.3411e-07, -3.4068e-06,  3.5651e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 384, time 251.43, cls_loss 0.0006 cls_loss_mapping 0.0013 cls_loss_causal 0.4484 re_mapping 0.0024 re_causal 0.0080 /// teacc 99.08 lr 0.00010000
+Epoch 386, weight, value: tensor([[ 0.0891, -0.1872, -0.1458,  ..., -0.1421, -0.1752, -0.1697],
+        [ 0.0460,  0.0548, -0.0331,  ..., -0.0802,  0.1721,  0.0184],
+        [-0.0596, -0.1902, -0.0096,  ...,  0.2234, -0.1938,  0.0422],
+        ...,
+        [-0.2244,  0.1560,  0.0233,  ..., -0.1687,  0.1249,  0.0658],
+        [ 0.0045, -0.0921, -0.0050,  ..., -0.1697, -0.1972, -0.3052],
+        [ 0.0359, -0.0590, -0.0182,  ..., -0.2661, -0.1945,  0.0219]],
+       device='cuda:0'), grad: tensor([[-8.0327e-09,  1.7462e-10,  0.0000e+00,  ...,  1.0477e-09,
+          0.0000e+00,  1.0477e-09],
+        [-1.1642e-10,  8.1491e-10,  0.0000e+00,  ...,  1.3970e-08,
+         -1.5716e-09,  1.2689e-08],
+        [-9.8953e-10, -1.2456e-07,  0.0000e+00,  ..., -6.5891e-07,
+          3.4925e-10, -5.3924e-07],
+        ...,
+        [ 5.8208e-09,  1.2433e-07,  0.0000e+00,  ...,  6.5193e-07,
+          4.3656e-09,  5.5088e-07],
+        [ 1.2806e-09,  8.1491e-10,  0.0000e+00,  ...,  2.8522e-09,
+          7.5670e-10,  3.3178e-09],
+        [-1.3388e-09,  6.4028e-10,  5.8208e-11,  ...,  5.7044e-09,
+         -2.9104e-10,  8.7311e-10]], device='cuda:0')
+Epoch 386, bias, value: tensor([-0.0428,  0.0133,  0.0131,  0.0260,  0.0305, -0.0210,  0.0309,  0.0343,
+        -0.0163,  0.0006], device='cuda:0'), grad: tensor([-3.7486e-08,  4.4121e-08, -1.6624e-06,  2.7998e-08, -9.0455e-08,
+         5.0641e-09,  5.0059e-09,  1.7006e-06,  1.4319e-08,  1.1583e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 385, time 251.70, cls_loss 0.0007 cls_loss_mapping 0.0013 cls_loss_causal 0.4485 re_mapping 0.0024 re_causal 0.0081 /// teacc 99.12 lr 0.00010000
+Epoch 387, weight, value: tensor([[ 0.0891, -0.1872, -0.1458,  ..., -0.1421, -0.1752, -0.1697],
+        [ 0.0460,  0.0548, -0.0331,  ..., -0.0803,  0.1722,  0.0183],
+        [-0.0604, -0.1902, -0.0096,  ...,  0.2236, -0.1941,  0.0422],
+        ...,
+        [-0.2250,  0.1556,  0.0233,  ..., -0.1697,  0.1249,  0.0649],
+        [ 0.0059, -0.0918, -0.0050,  ..., -0.1696, -0.1973, -0.3053],
+        [ 0.0359, -0.0585, -0.0182,  ..., -0.2665, -0.1940,  0.0225]],
+       device='cuda:0'), grad: tensor([[ 5.8208e-10,  1.1642e-10,  0.0000e+00,  ...,  1.0477e-09,
+          1.7462e-10,  1.7462e-10],
+        [-1.3446e-08, -2.3574e-08,  0.0000e+00,  ...,  2.9104e-10,
+         -5.0117e-08, -1.8277e-08],
+        [ 7.7416e-09,  5.0641e-09,  0.0000e+00,  ...,  2.2119e-09,
+          1.1700e-08,  6.5193e-09],
+        ...,
+        [ 1.2515e-08,  1.2282e-08,  0.0000e+00,  ...,  1.2224e-09,
+          2.6368e-08,  1.0245e-08],
+        [-1.3225e-07,  1.3970e-09,  0.0000e+00,  ..., -8.7311e-10,
+          2.7940e-09,  1.1642e-09],
+        [ 1.6880e-09,  3.4925e-10,  0.0000e+00,  ...,  2.0373e-09,
+          6.4028e-10, -3.4925e-09]], device='cuda:0')
+Epoch 387, bias, value: tensor([-0.0428,  0.0131,  0.0130,  0.0263,  0.0319, -0.0206,  0.0294,  0.0332,
+        -0.0155,  0.0008], device='cuda:0'), grad: tensor([ 6.8103e-09, -5.9139e-08,  4.1095e-08,  2.3236e-07,  1.8568e-08,
+         5.9977e-07, -2.6869e-07,  6.5775e-08, -6.5053e-07,  1.3853e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 386, time 251.38, cls_loss 0.0006 cls_loss_mapping 0.0015 cls_loss_causal 0.4626 re_mapping 0.0026 re_causal 0.0085 /// teacc 99.10 lr 0.00010000
+Epoch 388, weight, value: tensor([[ 0.0891, -0.1872, -0.1458,  ..., -0.1421, -0.1752, -0.1697],
+        [ 0.0471,  0.0542, -0.0331,  ..., -0.0804,  0.1721,  0.0181],
+        [-0.0638, -0.1905, -0.0096,  ...,  0.2236, -0.1945,  0.0420],
+        ...,
+        [-0.2271,  0.1565,  0.0233,  ..., -0.1699,  0.1252,  0.0653],
+        [ 0.0066, -0.0923, -0.0050,  ..., -0.1696, -0.1976, -0.3054],
+        [ 0.0359, -0.0589, -0.0182,  ..., -0.2711, -0.1941,  0.0218]],
+       device='cuda:0'), grad: tensor([[ 2.9686e-09,  3.4925e-10,  0.0000e+00,  ...,  1.5134e-09,
+          1.5716e-09,  8.4401e-09],
+        [-1.2806e-08, -3.0268e-08,  0.0000e+00,  ...,  3.8999e-08,
+         -3.6322e-08,  5.0408e-08],
+        [ 1.0303e-08,  2.9104e-09,  0.0000e+00,  ..., -3.0035e-08,
+          6.1118e-09, -1.5658e-08],
+        ...,
+        [ 5.4832e-08,  1.8685e-08,  0.0000e+00,  ...,  9.3132e-09,
+          9.7090e-08,  1.3376e-07],
+        [ 3.5041e-08,  2.0955e-09,  0.0000e+00,  ...,  1.9209e-09,
+          5.1805e-09,  5.1572e-08],
+        [-1.6589e-07,  1.0477e-09,  0.0000e+00,  ...,  3.5507e-08,
+         -1.3527e-07, -3.6275e-07]], device='cuda:0')
+Epoch 388, bias, value: tensor([-0.0428,  0.0131,  0.0128,  0.0263,  0.0330, -0.0213,  0.0293,  0.0332,
+        -0.0152,  0.0006], device='cuda:0'), grad: tensor([ 3.0675e-08,  1.8731e-07, -2.9337e-08,  1.1735e-07,  2.1933e-07,
+         6.2049e-08, -3.5332e-08,  5.2992e-07,  2.1351e-07, -1.2917e-06],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 387, time 250.85, cls_loss 0.0007 cls_loss_mapping 0.0015 cls_loss_causal 0.4774 re_mapping 0.0024 re_causal 0.0079 /// teacc 98.99 lr 0.00010000
+Epoch 389, weight, value: tensor([[ 0.0891, -0.1872, -0.1458,  ..., -0.1422, -0.1752, -0.1697],
+        [ 0.0503,  0.0572, -0.0331,  ..., -0.0804,  0.1748,  0.0189],
+        [-0.0641, -0.1908, -0.0096,  ...,  0.2238, -0.1947,  0.0422],
+        ...,
+        [-0.2308,  0.1532,  0.0233,  ..., -0.1708,  0.1226,  0.0639],
+        [ 0.0041, -0.0932, -0.0050,  ..., -0.1697, -0.1997, -0.3060],
+        [ 0.0360, -0.0588, -0.0182,  ..., -0.2719, -0.1940,  0.0221]],
+       device='cuda:0'), grad: tensor([[-7.9744e-09,  1.1642e-10,  0.0000e+00,  ...,  6.4028e-10,
+         -2.9104e-09,  5.2387e-10],
+        [-5.7626e-09, -1.4319e-08,  0.0000e+00,  ...,  1.6298e-09,
+         -3.0675e-08, -6.9849e-09],
+        [ 1.4552e-09,  9.8953e-10,  0.0000e+00,  ..., -1.6880e-09,
+          2.1537e-09,  4.0745e-10],
+        ...,
+        [ 9.4878e-09,  7.4506e-09,  0.0000e+00,  ...,  9.8953e-10,
+          1.5250e-08,  9.6625e-09],
+        [-1.0128e-08,  2.3283e-10,  0.0000e+00,  ...,  3.4925e-10,
+          5.0059e-09,  2.0373e-09],
+        [-2.0373e-09,  7.5670e-10,  0.0000e+00,  ...,  1.7462e-10,
+          1.8626e-09, -5.2212e-08]], device='cuda:0')
+Epoch 389, bias, value: tensor([-0.0428,  0.0159,  0.0129,  0.0261,  0.0330, -0.0211,  0.0292,  0.0295,
+        -0.0157,  0.0007], device='cuda:0'), grad: tensor([-2.2643e-08, -1.2515e-08,  1.2980e-08,  5.4250e-08,  1.6415e-07,
+        -8.0676e-08,  4.4820e-09,  6.4611e-08, -5.7858e-08, -1.2154e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 388, time 252.61, cls_loss 0.0005 cls_loss_mapping 0.0007 cls_loss_causal 0.4691 re_mapping 0.0023 re_causal 0.0082 /// teacc 99.23 lr 0.00010000
+Epoch 390, weight, value: tensor([[ 0.0891, -0.1872, -0.1458,  ..., -0.1423, -0.1752, -0.1697],
+        [ 0.0505,  0.0572, -0.0331,  ..., -0.0807,  0.1749,  0.0188],
+        [-0.0640, -0.1909, -0.0096,  ...,  0.2240, -0.1948,  0.0423],
+        ...,
+        [-0.2309,  0.1532,  0.0233,  ..., -0.1713,  0.1226,  0.0637],
+        [ 0.0045, -0.0931, -0.0050,  ..., -0.1698, -0.1998, -0.3060],
+        [ 0.0359, -0.0588, -0.0182,  ..., -0.2722, -0.1939,  0.0222]],
+       device='cuda:0'), grad: tensor([[-9.7789e-09,  1.7462e-10,  0.0000e+00,  ...,  1.7462e-09,
+          2.3283e-10,  3.4925e-10],
+        [-5.8790e-09,  1.9209e-09,  0.0000e+00,  ...,  1.9209e-09,
+         -6.8685e-09,  1.1642e-10],
+        [ 3.8999e-09,  5.3551e-09,  0.0000e+00,  ..., -7.5670e-09,
+          7.9744e-09, -2.3283e-10],
+        ...,
+        [ 2.1537e-09, -1.4028e-08,  0.0000e+00,  ...,  1.4552e-09,
+         -1.0710e-08, -9.6043e-09],
+        [ 2.5029e-09,  9.8953e-10,  0.0000e+00,  ...,  1.1642e-09,
+          2.6776e-09,  1.7462e-09],
+        [ 2.4447e-09,  2.3865e-09,  0.0000e+00,  ...,  4.6566e-10,
+          2.7358e-09, -1.5716e-09]], device='cuda:0')
+Epoch 390, bias, value: tensor([-0.0428,  0.0158,  0.0130,  0.0263,  0.0330, -0.0212,  0.0293,  0.0293,
+        -0.0154,  0.0007], device='cuda:0'), grad: tensor([-3.5565e-08,  1.0012e-08,  8.3877e-08, -1.7299e-07,  4.4762e-08,
+         5.2794e-08, -1.0070e-08, -4.7148e-09,  2.3458e-08,  1.0477e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 389, time 252.15, cls_loss 0.0006 cls_loss_mapping 0.0011 cls_loss_causal 0.4574 re_mapping 0.0023 re_causal 0.0079 /// teacc 99.16 lr 0.00010000
+Epoch 391, weight, value: tensor([[ 0.0892, -0.1872, -0.1458,  ..., -0.1424, -0.1752, -0.1697],
+        [ 0.0505,  0.0572, -0.0332,  ..., -0.0808,  0.1749,  0.0188],
+        [-0.0644, -0.1911, -0.0092,  ...,  0.2242, -0.1949,  0.0424],
+        ...,
+        [-0.2309,  0.1532,  0.0233,  ..., -0.1716,  0.1226,  0.0637],
+        [ 0.0057, -0.0931, -0.0050,  ..., -0.1699, -0.1999, -0.3061],
+        [ 0.0359, -0.0588, -0.0182,  ..., -0.2724, -0.1939,  0.0223]],
+       device='cuda:0'), grad: tensor([[-1.1059e-08, -8.8476e-09,  0.0000e+00,  ...,  1.7462e-10,
+         -6.4611e-09,  2.3865e-09],
+        [ 3.7253e-09,  6.5193e-09,  0.0000e+00,  ...,  1.8044e-09,
+          5.1805e-09,  1.3912e-08],
+        [ 1.9791e-09,  2.0373e-09,  0.0000e+00,  ...,  2.9104e-10,
+          1.6880e-09,  4.9477e-09],
+        ...,
+        [ 3.4343e-09, -3.6089e-09,  0.0000e+00,  ...,  1.5716e-09,
+         -6.1118e-09,  1.4435e-08],
+        [ 4.2492e-09,  9.3132e-10,  0.0000e+00,  ...,  5.8208e-11,
+          6.9849e-10,  2.2119e-09],
+        [-2.3225e-08, -2.3574e-08,  0.0000e+00,  ...,  6.7521e-09,
+          3.4343e-09, -1.7590e-07]], device='cuda:0')
+Epoch 391, bias, value: tensor([-0.0428,  0.0158,  0.0131,  0.0263,  0.0329, -0.0217,  0.0292,  0.0293,
+        -0.0147,  0.0008], device='cuda:0'), grad: tensor([-6.0827e-08,  6.5891e-08,  3.6554e-08, -1.2747e-08,  5.5460e-07,
+        -6.0536e-09,  1.8394e-08,  6.9966e-08,  2.6484e-08, -6.8173e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 390, time 251.15, cls_loss 0.0005 cls_loss_mapping 0.0009 cls_loss_causal 0.4737 re_mapping 0.0023 re_causal 0.0079 /// teacc 99.23 lr 0.00010000
+Epoch 392, weight, value: tensor([[ 0.0892, -0.1872, -0.1458,  ..., -0.1424, -0.1752, -0.1697],
+        [ 0.0505,  0.0571, -0.0332,  ..., -0.0810,  0.1749,  0.0187],
+        [-0.0641, -0.1913, -0.0092,  ...,  0.2244, -0.1950,  0.0425],
+        ...,
+        [-0.2310,  0.1533,  0.0233,  ..., -0.1720,  0.1227,  0.0638],
+        [ 0.0026, -0.0932, -0.0050,  ..., -0.1701, -0.1999, -0.3064],
+        [ 0.0359, -0.0588, -0.0182,  ..., -0.2726, -0.1940,  0.0224]],
+       device='cuda:0'), grad: tensor([[ 9.3132e-10,  4.6566e-10,  0.0000e+00,  ...,  2.3865e-09,
+          3.4925e-10,  1.4552e-09],
+        [ 1.9092e-08, -4.0745e-10,  0.0000e+00,  ...,  6.5775e-09,
+          5.8208e-11,  1.2515e-08],
+        [ 1.4086e-08,  2.3865e-09,  0.0000e+00,  ..., -3.2422e-08,
+          9.9535e-09, -1.1059e-09],
+        ...,
+        [ 1.8976e-08, -1.3504e-08,  0.0000e+00,  ...,  8.9058e-09,
+         -8.1491e-10,  8.6729e-09],
+        [-7.7591e-08,  5.0059e-09,  0.0000e+00,  ...,  2.3865e-08,
+         -2.6717e-08, -2.5379e-08],
+        [ 6.1118e-09, -4.3656e-09,  0.0000e+00,  ...,  2.4214e-08,
+          4.3074e-09,  1.4435e-08]], device='cuda:0')
+Epoch 392, bias, value: tensor([-0.0428,  0.0157,  0.0132,  0.0287,  0.0327, -0.0217,  0.0292,  0.0293,
+        -0.0175,  0.0008], device='cuda:0'), grad: tensor([ 1.3155e-08,  1.6461e-07,  5.5647e-08,  9.8778e-08, -1.2410e-07,
+         3.5565e-08, -2.2701e-09,  1.1246e-07, -4.6915e-07,  1.1717e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 391, time 252.37, cls_loss 0.0005 cls_loss_mapping 0.0015 cls_loss_causal 0.4322 re_mapping 0.0023 re_causal 0.0076 /// teacc 99.12 lr 0.00010000
+Epoch 393, weight, value: tensor([[ 0.0892, -0.1872, -0.1458,  ..., -0.1425, -0.1752, -0.1697],
+        [ 0.0506,  0.0571, -0.0332,  ..., -0.0813,  0.1749,  0.0185],
+        [-0.0642, -0.1920, -0.0092,  ...,  0.2245, -0.1952,  0.0425],
+        ...,
+        [-0.2311,  0.1535,  0.0233,  ..., -0.1720,  0.1228,  0.0639],
+        [ 0.0026, -0.0932, -0.0050,  ..., -0.1701, -0.2000, -0.3064],
+        [ 0.0359, -0.0588, -0.0182,  ..., -0.2740, -0.1941,  0.0224]],
+       device='cuda:0'), grad: tensor([[ 6.4028e-10,  3.4925e-10,  0.0000e+00,  ...,  9.3132e-10,
+          1.0477e-09,  4.0745e-10],
+        [-4.9477e-08, -3.2654e-08,  0.0000e+00,  ...,  1.1642e-09,
+         -1.0006e-07, -2.8289e-08],
+        [ 9.3714e-09,  4.5984e-09,  0.0000e+00,  ..., -1.8044e-09,
+          1.6589e-08,  4.8312e-09],
+        ...,
+        [ 1.5309e-08,  1.1816e-08,  0.0000e+00,  ...,  2.9104e-10,
+          3.2946e-08,  9.9535e-09],
+        [-1.0594e-08,  4.1910e-09,  0.0000e+00,  ...,  5.2387e-10,
+          1.1409e-08,  3.3178e-09],
+        [ 2.2002e-08,  1.9209e-09,  0.0000e+00,  ...,  5.8208e-10,
+          5.8790e-09,  1.4552e-09]], device='cuda:0')
+Epoch 393, bias, value: tensor([-0.0428,  0.0156,  0.0132,  0.0286,  0.0327, -0.0211,  0.0292,  0.0294,
+        -0.0175,  0.0008], device='cuda:0'), grad: tensor([ 5.6461e-09, -1.8300e-07,  3.1141e-08,  1.2456e-08,  1.7975e-07,
+        -2.3982e-08, -1.2317e-07,  6.7870e-08, -6.0012e-08,  1.1286e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 392, time 252.25, cls_loss 0.0005 cls_loss_mapping 0.0014 cls_loss_causal 0.4876 re_mapping 0.0023 re_causal 0.0083 /// teacc 99.01 lr 0.00010000
+Epoch 394, weight, value: tensor([[ 0.0892, -0.1872, -0.1458,  ..., -0.1425, -0.1752, -0.1697],
+        [ 0.0506,  0.0571, -0.0333,  ..., -0.0805,  0.1752,  0.0189],
+        [-0.0642, -0.1923, -0.0092,  ...,  0.2242, -0.1962,  0.0420],
+        ...,
+        [-0.2311,  0.1536,  0.0233,  ..., -0.1726,  0.1230,  0.0641],
+        [ 0.0025, -0.0932, -0.0048,  ..., -0.1702, -0.2001, -0.3066],
+        [ 0.0359, -0.0589, -0.0182,  ..., -0.2747, -0.1942,  0.0223]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-10,  5.8208e-11,  0.0000e+00,  ...,  5.2387e-10,
+          5.8208e-11,  3.4925e-10],
+        [ 1.1642e-10,  1.1642e-09,  0.0000e+00,  ...,  3.6089e-09,
+          9.8953e-10,  5.3551e-09],
+        [-2.9104e-10,  6.4028e-10,  0.0000e+00,  ..., -2.8522e-09,
+          6.9849e-10, -1.6298e-09],
+        ...,
+        [ 6.4028e-10, -1.3970e-09,  0.0000e+00,  ...,  2.3283e-09,
+         -6.9849e-10,  1.6298e-09],
+        [ 9.8953e-10,  2.9104e-10,  0.0000e+00,  ...,  8.1491e-10,
+          5.8208e-10,  8.7311e-10],
+        [ 2.9104e-10,  1.2224e-09,  0.0000e+00,  ...,  5.0641e-09,
+          1.1059e-09,  8.2073e-09]], device='cuda:0')
+Epoch 394, bias, value: tensor([-0.0428,  0.0159,  0.0126,  0.0286,  0.0327, -0.0205,  0.0292,  0.0294,
+        -0.0176,  0.0008], device='cuda:0'), grad: tensor([ 3.0850e-09,  1.5658e-08,  5.2387e-10, -2.9802e-08, -3.2713e-08,
+         1.4843e-08,  2.3865e-09,  7.7998e-09,  1.0710e-08,  2.2002e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 393, time 252.24, cls_loss 0.0005 cls_loss_mapping 0.0014 cls_loss_causal 0.4396 re_mapping 0.0023 re_causal 0.0078 /// teacc 99.12 lr 0.00010000
+Epoch 395, weight, value: tensor([[ 0.0889, -0.1873, -0.1458,  ..., -0.1425, -0.1752, -0.1697],
+        [ 0.0507,  0.0571, -0.0333,  ..., -0.0806,  0.1753,  0.0188],
+        [-0.0641, -0.1924, -0.0091,  ...,  0.2243, -0.1963,  0.0421],
+        ...,
+        [-0.2313,  0.1537,  0.0232,  ..., -0.1734,  0.1231,  0.0642],
+        [ 0.0025, -0.0932, -0.0048,  ..., -0.1702, -0.2001, -0.3067],
+        [ 0.0359, -0.0590, -0.0182,  ..., -0.2768, -0.1945,  0.0219]],
+       device='cuda:0'), grad: tensor([[-9.8953e-10,  1.1642e-10,  0.0000e+00,  ...,  2.9104e-10,
+          1.7462e-10,  1.1642e-10],
+        [-7.1013e-09, -5.4715e-09,  0.0000e+00,  ...,  1.3970e-09,
+         -1.2282e-08, -1.4552e-09],
+        [ 1.8626e-09,  1.1059e-09,  0.0000e+00,  ...,  1.1642e-10,
+          2.3283e-09,  6.4028e-10],
+        ...,
+        [ 3.4343e-09,  2.4447e-09,  0.0000e+00,  ...,  6.4028e-10,
+          5.4133e-09,  2.0373e-09],
+        [ 1.7462e-10,  9.3132e-10,  0.0000e+00,  ...,  6.9849e-10,
+          1.9209e-09,  8.1491e-10],
+        [ 1.3970e-09,  1.7462e-10,  0.0000e+00,  ...,  1.6298e-09,
+          4.0745e-10,  1.8626e-09]], device='cuda:0')
+Epoch 395, bias, value: tensor([-0.0429,  0.0158,  0.0127,  0.0285,  0.0329, -0.0186,  0.0292,  0.0294,
+        -0.0177,  0.0008], device='cuda:0'), grad: tensor([-1.5716e-09, -1.5018e-08,  8.5565e-09,  8.2655e-09, -1.0710e-08,
+         3.4925e-10, -1.0477e-09,  1.5367e-08, -3.7253e-09,  1.6065e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 394, time 252.67, cls_loss 0.0005 cls_loss_mapping 0.0011 cls_loss_causal 0.4509 re_mapping 0.0022 re_causal 0.0076 /// teacc 99.17 lr 0.00010000
+Epoch 396, weight, value: tensor([[ 0.0889, -0.1873, -0.1458,  ..., -0.1426, -0.1753, -0.1697],
+        [ 0.0508,  0.0571, -0.0333,  ..., -0.0807,  0.1752,  0.0187],
+        [-0.0660, -0.1927, -0.0091,  ...,  0.2244, -0.1970,  0.0418],
+        ...,
+        [-0.2314,  0.1539,  0.0232,  ..., -0.1736,  0.1234,  0.0648],
+        [ 0.0026, -0.0932, -0.0048,  ..., -0.1702, -0.2002, -0.3068],
+        [ 0.0359, -0.0591, -0.0182,  ..., -0.2771, -0.1948,  0.0218]],
+       device='cuda:0'), grad: tensor([[ 1.4610e-08,  9.3132e-10,  0.0000e+00,  ...,  2.9104e-09,
+          8.1491e-10,  3.7253e-09],
+        [-5.2969e-08, -4.9011e-08,  0.0000e+00,  ..., -9.3132e-09,
+         -1.2107e-07, -3.4634e-08],
+        [ 3.7893e-08,  1.6298e-08,  0.0000e+00,  ..., -2.4855e-08,
+          7.1188e-08, -1.6764e-08],
+        ...,
+        [ 1.2224e-08,  1.4435e-08,  0.0000e+00,  ...,  2.2701e-08,
+          1.9965e-08,  3.4226e-08],
+        [-2.0606e-08,  8.0327e-09,  0.0000e+00,  ...,  6.9849e-09,
+          1.2689e-08,  1.1001e-08],
+        [-1.0128e-08,  3.0268e-09,  0.0000e+00,  ...,  5.4133e-09,
+          4.9477e-09, -1.4727e-08]], device='cuda:0')
+Epoch 396, bias, value: tensor([-0.0429,  0.0157,  0.0126,  0.0285,  0.0328, -0.0187,  0.0292,  0.0296,
+        -0.0175,  0.0007], device='cuda:0'), grad: tensor([ 8.5915e-08, -1.6880e-07,  7.3924e-09, -4.8720e-08,  4.7672e-08,
+         4.9884e-08,  1.2980e-08,  1.6880e-07, -1.0739e-07, -1.7870e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 395, time 252.83, cls_loss 0.0004 cls_loss_mapping 0.0008 cls_loss_causal 0.4610 re_mapping 0.0022 re_causal 0.0078 /// teacc 99.21 lr 0.00010000
+Epoch 397, weight, value: tensor([[ 0.0889, -0.1873, -0.1458,  ..., -0.1427, -0.1753, -0.1698],
+        [ 0.0504,  0.0571, -0.0333,  ..., -0.0808,  0.1752,  0.0183],
+        [-0.0662, -0.1928, -0.0091,  ...,  0.2245, -0.1972,  0.0418],
+        ...,
+        [-0.2314,  0.1540,  0.0232,  ..., -0.1739,  0.1236,  0.0650],
+        [ 0.0027, -0.0932, -0.0048,  ..., -0.1703, -0.2002, -0.3069],
+        [ 0.0361, -0.0592, -0.0182,  ..., -0.2774, -0.1949,  0.0219]],
+       device='cuda:0'), grad: tensor([[-1.7462e-10,  4.6566e-10,  0.0000e+00,  ...,  2.3283e-10,
+         -1.1642e-10,  1.3970e-09],
+        [-7.1013e-09, -2.7358e-09,  0.0000e+00,  ...,  1.0477e-09,
+         -1.5891e-08, -4.0163e-09],
+        [ 3.3178e-09,  3.7835e-09,  0.0000e+00,  ..., -7.5670e-09,
+          6.6357e-09, -1.9791e-09],
+        ...,
+        [ 4.3074e-09,  1.1001e-08,  0.0000e+00,  ...,  4.1327e-09,
+          3.1432e-09,  2.7241e-08],
+        [-5.3551e-09, -1.9791e-09,  0.0000e+00,  ...,  2.9104e-10,
+          2.6776e-09,  1.9209e-09],
+        [ 3.3178e-09, -2.3458e-08,  0.0000e+00,  ...,  2.9104e-10,
+          3.2014e-09, -4.9302e-08]], device='cuda:0')
+Epoch 397, bias, value: tensor([-0.0429,  0.0155,  0.0126,  0.0285,  0.0329, -0.0188,  0.0292,  0.0297,
+        -0.0175,  0.0008], device='cuda:0'), grad: tensor([ 8.1491e-09,  3.8999e-09,  1.1409e-08,  1.4552e-09,  1.1490e-07,
+         9.4878e-09,  1.4959e-08,  1.2782e-07, -6.8219e-08, -2.0268e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 396, time 253.06, cls_loss 0.0005 cls_loss_mapping 0.0007 cls_loss_causal 0.4301 re_mapping 0.0022 re_causal 0.0075 /// teacc 99.15 lr 0.00010000
+Epoch 398, weight, value: tensor([[ 0.0889, -0.1873, -0.1459,  ..., -0.1427, -0.1753, -0.1698],
+        [ 0.0505,  0.0571, -0.0333,  ..., -0.0810,  0.1750,  0.0177],
+        [-0.0663, -0.1930, -0.0091,  ...,  0.2247, -0.1972,  0.0420],
+        ...,
+        [-0.2316,  0.1540,  0.0232,  ..., -0.1742,  0.1238,  0.0656],
+        [ 0.0026, -0.0930, -0.0049,  ..., -0.1703, -0.2003, -0.3069],
+        [ 0.0361, -0.0592, -0.0182,  ..., -0.2777, -0.1951,  0.0219]],
+       device='cuda:0'), grad: tensor([[ 6.4028e-10,  6.4028e-10,  0.0000e+00,  ...,  1.1642e-10,
+          6.9849e-10,  4.0745e-10],
+        [-1.9500e-08, -1.7346e-08,  0.0000e+00,  ...,  2.9104e-10,
+         -3.2422e-08, -5.8790e-09],
+        [ 7.8580e-09,  9.0804e-09,  0.0000e+00,  ...,  6.9849e-10,
+          8.2655e-09,  5.9954e-09],
+        ...,
+        [ 9.0222e-09, -2.1013e-08,  0.0000e+00,  ...,  1.1642e-10,
+         -7.7998e-09, -1.7462e-08],
+        [ 1.0128e-08,  1.0361e-08,  0.0000e+00,  ...,  5.8208e-11,
+          1.3795e-08,  5.0641e-09],
+        [ 1.8626e-09,  8.6729e-09,  0.0000e+00,  ...,  2.9104e-10,
+          7.9162e-09,  5.9954e-09]], device='cuda:0')
+Epoch 398, bias, value: tensor([-0.0429,  0.0152,  0.0127,  0.0286,  0.0332, -0.0183,  0.0292,  0.0299,
+        -0.0176,  0.0007], device='cuda:0'), grad: tensor([ 7.6834e-09, -6.1118e-08,  1.0809e-07, -1.9209e-07,  2.1304e-08,
+         5.8324e-08,  2.7358e-09, -3.1432e-08,  6.4203e-08,  3.0210e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 397, time 252.54, cls_loss 0.0006 cls_loss_mapping 0.0011 cls_loss_causal 0.4135 re_mapping 0.0023 re_causal 0.0073 /// teacc 99.16 lr 0.00010000
+Epoch 399, weight, value: tensor([[ 0.0889, -0.1872, -0.1459,  ..., -0.1428, -0.1752, -0.1698],
+        [ 0.0510,  0.0575, -0.0333,  ..., -0.0811,  0.1745,  0.0169],
+        [-0.0663, -0.1932, -0.0091,  ...,  0.2257, -0.1974,  0.0427],
+        ...,
+        [-0.2321,  0.1537,  0.0232,  ..., -0.1754,  0.1230,  0.0649],
+        [ 0.0027, -0.0932, -0.0049,  ..., -0.1709, -0.2012, -0.3079],
+        [ 0.0361, -0.0593, -0.0182,  ..., -0.2789, -0.1959,  0.0216]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  1.1642e-10,  0.0000e+00,  ...,  5.8208e-10,
+          2.9104e-10,  2.3283e-10],
+        [-2.1362e-08, -1.4261e-08,  0.0000e+00,  ...,  2.5029e-09,
+         -4.2375e-08, -1.0245e-08],
+        [ 6.7521e-09,  5.1805e-09,  0.0000e+00,  ...,  8.1491e-10,
+          1.3853e-08,  4.7730e-09],
+        ...,
+        [ 9.1968e-09,  6.2864e-09,  0.0000e+00,  ...,  1.5716e-09,
+          1.7579e-08,  6.8685e-09],
+        [ 2.7358e-09,  1.4552e-09,  0.0000e+00,  ...,  4.6566e-10,
+          5.1223e-09,  2.7358e-09],
+        [-9.3132e-10,  8.7311e-10,  0.0000e+00,  ...,  2.5553e-08,
+          2.2701e-09,  1.3446e-08]], device='cuda:0')
+Epoch 399, bias, value: tensor([-0.0429,  0.0142,  0.0135,  0.0287,  0.0356, -0.0193,  0.0292,  0.0289,
+        -0.0178,  0.0006], device='cuda:0'), grad: tensor([ 5.1223e-09, -6.8278e-08,  6.3039e-08, -7.7940e-08, -7.5321e-08,
+         2.3225e-08, -6.5775e-09,  7.8056e-08,  1.7753e-08,  5.5414e-08],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 398, time 252.23, cls_loss 0.0005 cls_loss_mapping 0.0013 cls_loss_causal 0.4625 re_mapping 0.0022 re_causal 0.0078 /// teacc 99.10 lr 0.00010000
+Epoch 400, weight, value: tensor([[ 0.0890, -0.1872, -0.1459,  ..., -0.1427, -0.1750, -0.1698],
+        [ 0.0511,  0.0575, -0.0333,  ..., -0.0813,  0.1747,  0.0168],
+        [-0.0666, -0.1939, -0.0092,  ...,  0.2259, -0.1977,  0.0427],
+        ...,
+        [-0.2323,  0.1539,  0.0232,  ..., -0.1768,  0.1231,  0.0650],
+        [ 0.0030, -0.0933, -0.0050,  ..., -0.1708, -0.2017, -0.3082],
+        [ 0.0361, -0.0594, -0.0182,  ..., -0.2795, -0.1960,  0.0216]],
+       device='cuda:0'), grad: tensor([[-5.6461e-09,  8.7311e-10,  0.0000e+00,  ...,  5.2387e-10,
+          6.4028e-10,  8.1491e-10],
+        [ 3.6671e-09,  8.1607e-08,  0.0000e+00,  ...,  6.2864e-09,
+          8.1549e-08,  7.5146e-08],
+        [ 3.6671e-09,  2.2585e-08,  0.0000e+00,  ..., -0.0000e+00,
+          2.4622e-08,  1.8976e-08],
+        ...,
+        [ 1.2806e-09, -1.6775e-07,  0.0000e+00,  ...,  2.3283e-09,
+         -1.5856e-07, -1.4005e-07],
+        [-3.0443e-08,  2.1537e-09,  0.0000e+00,  ..., -1.0477e-08,
+          1.8044e-09,  2.0373e-09],
+        [ 4.8312e-09,  3.2713e-08,  0.0000e+00,  ...,  1.0710e-08,
+          2.7590e-08,  3.4575e-08]], device='cuda:0')
+Epoch 400, bias, value: tensor([-0.0429,  0.0142,  0.0135,  0.0289,  0.0356, -0.0195,  0.0287,  0.0289,
+        -0.0172,  0.0006], device='cuda:0'), grad: tensor([-5.7509e-08,  3.0454e-07,  9.3598e-08,  8.9698e-08, -1.4028e-08,
+         1.0600e-07,  5.6520e-08, -5.1269e-07, -2.3120e-07,  1.8114e-07],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 399, time 252.23, cls_loss 0.0006 cls_loss_mapping 0.0012 cls_loss_causal 0.4619 re_mapping 0.0022 re_causal 0.0075 /// teacc 99.15 lr 0.00001000
+Epoch 401, weight, value: tensor([[ 0.0889, -0.1872, -0.1459,  ..., -0.1428, -0.1750, -0.1698],
+        [ 0.0517,  0.0575, -0.0336,  ..., -0.0815,  0.1750,  0.0168],
+        [-0.0693, -0.1949, -0.0082,  ...,  0.2261, -0.1986,  0.0426],
+        ...,
+        [-0.2327,  0.1541,  0.0232,  ..., -0.1771,  0.1232,  0.0653],
+        [ 0.0031, -0.0934, -0.0050,  ..., -0.1707, -0.2020, -0.3083],
+        [ 0.0361, -0.0594, -0.0182,  ..., -0.2803, -0.1962,  0.0216]],
+       device='cuda:0'), grad: tensor([[ 8.1491e-10,  1.1642e-09,  0.0000e+00,  ...,  1.3970e-09,
+          2.6776e-09,  1.2806e-09],
+        [-3.9348e-08, -3.2189e-08,  0.0000e+00,  ...,  8.6729e-09,
+         -7.6601e-08, -7.1013e-09],
+        [ 5.0059e-09,  4.0745e-09,  0.0000e+00,  ..., -2.4005e-07,
+          8.2073e-09, -2.6776e-07],
+        ...,
+        [ 1.6938e-08,  8.3819e-09,  0.0000e+00,  ...,  2.4587e-07,
+          2.6659e-08,  2.7521e-07],
+        [ 2.6776e-09,  9.0222e-09,  0.0000e+00,  ...,  1.2806e-09,
+          2.1129e-08,  4.8312e-09],
+        [ 2.4447e-09,  1.9791e-09,  0.0000e+00,  ...,  7.7009e-08,
+          3.5507e-09,  5.8790e-08]], device='cuda:0')
+Epoch 401, bias, value: tensor([-0.0429,  0.0143,  0.0132,  0.0287,  0.0356, -0.0185,  0.0283,  0.0290,
+        -0.0169,  0.0006], device='cuda:0'), grad: tensor([ 7.7416e-09, -1.0600e-07, -6.5612e-07,  8.3062e-08, -4.2235e-07,
+        -2.5961e-08,  4.7905e-08,  7.5670e-07,  5.4715e-09,  3.1292e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 400, time 252.65, cls_loss 0.0007 cls_loss_mapping 0.0012 cls_loss_causal 0.4899 re_mapping 0.0021 re_causal 0.0074 /// teacc 99.18 lr 0.00001000
+Epoch 402, weight, value: tensor([[ 0.0889, -0.1872, -0.1459,  ..., -0.1428, -0.1750, -0.1698],
+        [ 0.0517,  0.0575, -0.0336,  ..., -0.0815,  0.1750,  0.0168],
+        [-0.0694, -0.1950, -0.0082,  ...,  0.2262, -0.1987,  0.0426],
+        ...,
+        [-0.2327,  0.1541,  0.0232,  ..., -0.1773,  0.1232,  0.0653],
+        [ 0.0031, -0.0934, -0.0050,  ..., -0.1707, -0.2021, -0.3084],
+        [ 0.0361, -0.0594, -0.0182,  ..., -0.2804, -0.1962,  0.0215]],
+       device='cuda:0'), grad: tensor([[ 1.7521e-08,  1.1642e-10,  0.0000e+00,  ...,  5.9954e-09,
+          1.7462e-10,  3.7835e-09],
+        [-3.0850e-09, -5.2387e-10,  0.0000e+00,  ...,  8.7311e-10,
+         -6.9849e-09,  3.8999e-09],
+        [ 8.7311e-10,  7.1595e-09,  0.0000e+00,  ...,  1.0477e-09,
+          7.7998e-09,  1.1525e-08],
+        ...,
+        [ 1.9209e-09, -1.7462e-08,  0.0000e+00,  ...,  2.3283e-10,
+         -1.7986e-08, -1.2806e-08],
+        [-1.8044e-08,  4.6566e-10,  0.0000e+00,  ..., -2.0955e-09,
+          6.9849e-10,  2.1537e-09],
+        [-7.6834e-09,  1.9791e-09,  0.0000e+00,  ...,  3.4925e-10,
+          2.2119e-09, -5.9488e-08]], device='cuda:0')
+Epoch 402, bias, value: tensor([-0.0429,  0.0143,  0.0133,  0.0286,  0.0356, -0.0185,  0.0283,  0.0290,
+        -0.0169,  0.0006], device='cuda:0'), grad: tensor([ 1.1711e-07,  7.1479e-08,  2.7753e-07, -3.1642e-07,  3.5623e-07,
+        -4.5495e-07,  2.1118e-07,  1.8161e-08,  1.3737e-08, -2.5821e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 401, time 252.30, cls_loss 0.0006 cls_loss_mapping 0.0009 cls_loss_causal 0.4538 re_mapping 0.0020 re_causal 0.0072 /// teacc 99.17 lr 0.00001000
+Epoch 403, weight, value: tensor([[ 0.0889, -0.1872, -0.1459,  ..., -0.1428, -0.1751, -0.1698],
+        [ 0.0518,  0.0575, -0.0336,  ..., -0.0815,  0.1750,  0.0168],
+        [-0.0694, -0.1950, -0.0082,  ...,  0.2262, -0.1987,  0.0426],
+        ...,
+        [-0.2328,  0.1541,  0.0232,  ..., -0.1774,  0.1232,  0.0653],
+        [ 0.0031, -0.0934, -0.0050,  ..., -0.1708, -0.2021, -0.3084],
+        [ 0.0361, -0.0594, -0.0182,  ..., -0.2805, -0.1963,  0.0215]],
+       device='cuda:0'), grad: tensor([[ 1.1306e-06,  4.2864e-07,  0.0000e+00,  ...,  6.9849e-10,
+         -1.6880e-09,  2.4564e-07],
+        [-1.2980e-08, -3.9581e-09,  0.0000e+00,  ...,  3.6089e-09,
+         -2.1304e-08,  2.2119e-09],
+        [ 4.4820e-09,  5.2969e-09,  0.0000e+00,  ..., -1.4086e-08,
+          8.3819e-09, -3.4925e-09],
+        ...,
+        [ 9.1386e-09, -8.2073e-09,  0.0000e+00,  ...,  2.5611e-09,
+         -1.5134e-09, -1.0245e-08],
+        [ 5.0059e-09,  3.0850e-09,  0.0000e+00,  ...,  1.9791e-09,
+          7.1595e-09,  3.4925e-09],
+        [-1.2079e-06, -4.5542e-07,  0.0000e+00,  ...,  2.7358e-09,
+          4.0163e-09, -2.5728e-07]], device='cuda:0')
+Epoch 403, bias, value: tensor([-0.0429,  0.0143,  0.0133,  0.0286,  0.0356, -0.0185,  0.0283,  0.0290,
+        -0.0170,  0.0006], device='cuda:0'), grad: tensor([ 5.8673e-06, -8.7311e-10, -3.0443e-08,  3.8941e-08,  3.4808e-07,
+         1.7637e-08,  1.8568e-08,  5.1805e-09,  2.6077e-08, -6.2510e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 402, time 251.65, cls_loss 0.0005 cls_loss_mapping 0.0007 cls_loss_causal 0.4585 re_mapping 0.0020 re_causal 0.0073 /// teacc 99.19 lr 0.00001000
+Epoch 404, weight, value: tensor([[ 0.0889, -0.1872, -0.1459,  ..., -0.1429, -0.1751, -0.1698],
+        [ 0.0518,  0.0575, -0.0336,  ..., -0.0815,  0.1750,  0.0168],
+        [-0.0695, -0.1950, -0.0082,  ...,  0.2262, -0.1987,  0.0426],
+        ...,
+        [-0.2328,  0.1541,  0.0232,  ..., -0.1775,  0.1232,  0.0652],
+        [ 0.0031, -0.0934, -0.0050,  ..., -0.1708, -0.2021, -0.3084],
+        [ 0.0361, -0.0594, -0.0182,  ..., -0.2805, -0.1963,  0.0215]],
+       device='cuda:0'), grad: tensor([[ 8.6729e-09,  3.2014e-09,  0.0000e+00,  ...,  6.4028e-10,
+          2.1537e-09,  1.9732e-08],
+        [ 8.7486e-08, -5.0059e-09,  0.0000e+00,  ...,  1.0710e-08,
+         -4.8196e-08,  1.0813e-06],
+        [ 1.1525e-08,  7.1595e-09,  0.0000e+00,  ..., -2.4098e-08,
+          1.2165e-08,  3.1258e-08],
+        ...,
+        [ 5.2503e-08, -7.5670e-09,  0.0000e+00,  ...,  1.0710e-08,
+          9.1968e-09,  3.0966e-07],
+        [ 1.5367e-08,  2.3283e-09,  0.0000e+00,  ...,  2.0373e-09,
+          7.6834e-09,  3.6031e-08],
+        [-2.2980e-07, -8.7311e-09,  0.0000e+00,  ...,  8.0909e-09,
+         -2.5029e-09, -1.7742e-06]], device='cuda:0')
+Epoch 404, bias, value: tensor([-0.0429,  0.0143,  0.0133,  0.0286,  0.0356, -0.0184,  0.0283,  0.0290,
+        -0.0169,  0.0006], device='cuda:0'), grad: tensor([ 1.5576e-07,  4.8503e-06,  9.5367e-07, -1.8291e-06,  1.2117e-06,
+         4.2981e-07,  3.8301e-08,  1.6158e-06,  3.7695e-07, -7.8082e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 403, time 251.60, cls_loss 0.0006 cls_loss_mapping 0.0009 cls_loss_causal 0.4512 re_mapping 0.0020 re_causal 0.0073 /// teacc 99.16 lr 0.00001000
+Epoch 405, weight, value: tensor([[ 0.0889, -0.1872, -0.1459,  ..., -0.1429, -0.1751, -0.1698],
+        [ 0.0518,  0.0575, -0.0336,  ..., -0.0815,  0.1751,  0.0167],
+        [-0.0695, -0.1950, -0.0082,  ...,  0.2262, -0.1987,  0.0426],
+        ...,
+        [-0.2328,  0.1541,  0.0232,  ..., -0.1775,  0.1232,  0.0652],
+        [ 0.0031, -0.0934, -0.0050,  ..., -0.1708, -0.2022, -0.3084],
+        [ 0.0361, -0.0594, -0.0182,  ..., -0.2806, -0.1963,  0.0216]],
+       device='cuda:0'), grad: tensor([[-3.2887e-08,  1.1642e-10,  0.0000e+00,  ...,  1.1933e-09,
+          2.0373e-10,  1.3679e-09],
+        [-1.0186e-09, -5.9954e-09,  0.0000e+00,  ...,  4.9477e-10,
+         -1.9965e-08,  5.2387e-09],
+        [ 8.9931e-09,  2.0955e-09,  0.0000e+00,  ..., -6.3446e-09,
+          2.7940e-09, -2.8813e-09],
+        ...,
+        [ 1.0186e-08,  1.0768e-08,  0.0000e+00,  ...,  1.2806e-09,
+          5.7626e-09,  1.0070e-08],
+        [ 8.3237e-09,  1.3679e-09,  0.0000e+00,  ...,  6.4028e-10,
+          2.9686e-09,  6.1991e-09],
+        [-4.8603e-08,  1.7171e-09,  0.0000e+00,  ...,  2.0373e-10,
+          1.2515e-09, -1.0018e-07]], device='cuda:0')
+Epoch 405, bias, value: tensor([-0.0429,  0.0143,  0.0133,  0.0286,  0.0355, -0.0184,  0.0283,  0.0290,
+        -0.0170,  0.0006], device='cuda:0'), grad: tensor([-2.7614e-07,  7.2177e-08,  7.1304e-08, -1.5495e-07,  3.5111e-07,
+         6.9849e-08,  1.6327e-08,  2.4750e-07,  6.5716e-08, -4.5565e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 404, time 251.81, cls_loss 0.0004 cls_loss_mapping 0.0005 cls_loss_causal 0.4368 re_mapping 0.0020 re_causal 0.0073 /// teacc 99.20 lr 0.00001000
+Epoch 406, weight, value: tensor([[ 0.0889, -0.1872, -0.1459,  ..., -0.1429, -0.1751, -0.1698],
+        [ 0.0518,  0.0575, -0.0336,  ..., -0.0816,  0.1751,  0.0167],
+        [-0.0696, -0.1950, -0.0082,  ...,  0.2262, -0.1987,  0.0426],
+        ...,
+        [-0.2328,  0.1542,  0.0232,  ..., -0.1776,  0.1233,  0.0652],
+        [ 0.0031, -0.0934, -0.0050,  ..., -0.1708, -0.2022, -0.3084],
+        [ 0.0362, -0.0594, -0.0182,  ..., -0.2806, -0.1963,  0.0216]],
+       device='cuda:0'), grad: tensor([[-3.5157e-08, -1.6298e-09,  0.0000e+00,  ...,  8.1491e-10,
+         -1.1671e-08,  3.1432e-09],
+        [-1.0990e-07, -1.0146e-07,  0.0000e+00,  ...,  4.6857e-09,
+         -2.0280e-07, -5.0088e-08],
+        [ 2.2206e-08,  1.8481e-08,  0.0000e+00,  ..., -4.2171e-08,
+          3.4837e-08, -1.7928e-08],
+        ...,
+        [ 2.7154e-08,  1.3184e-08,  0.0000e+00,  ...,  2.8056e-08,
+          3.5128e-08,  2.8143e-08],
+        [ 2.4971e-08,  1.8539e-08,  0.0000e+00,  ...,  3.1723e-09,
+          3.7864e-08,  1.3068e-08],
+        [ 3.1432e-09,  1.2602e-08,  0.0000e+00,  ...,  9.0513e-09,
+          1.3446e-08, -3.5798e-09]], device='cuda:0')
+Epoch 406, bias, value: tensor([-0.0429,  0.0142,  0.0133,  0.0286,  0.0355, -0.0184,  0.0283,  0.0290,
+        -0.0170,  0.0006], device='cuda:0'), grad: tensor([-1.5530e-07, -4.4075e-07, -2.0780e-08,  5.1979e-08,  1.6985e-07,
+         2.5146e-08,  7.3225e-08,  1.8964e-07,  1.2200e-07,  2.9977e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 405, time 251.61, cls_loss 0.0004 cls_loss_mapping 0.0005 cls_loss_causal 0.4034 re_mapping 0.0019 re_causal 0.0072 /// teacc 99.22 lr 0.00001000
+Epoch 407, weight, value: tensor([[ 0.0889, -0.1872, -0.1459,  ..., -0.1429, -0.1751, -0.1698],
+        [ 0.0518,  0.0575, -0.0336,  ..., -0.0816,  0.1751,  0.0167],
+        [-0.0696, -0.1950, -0.0082,  ...,  0.2263, -0.1987,  0.0426],
+        ...,
+        [-0.2328,  0.1542,  0.0232,  ..., -0.1777,  0.1233,  0.0652],
+        [ 0.0031, -0.0934, -0.0050,  ..., -0.1708, -0.2022, -0.3085],
+        [ 0.0362, -0.0595, -0.0182,  ..., -0.2806, -0.1963,  0.0216]],
+       device='cuda:0'), grad: tensor([[ 3.4925e-10,  1.7462e-10,  0.0000e+00,  ...,  4.3656e-10,
+          2.6193e-10,  4.3656e-10],
+        [-6.0245e-09, -2.6484e-09,  0.0000e+00,  ...,  1.9791e-09,
+         -8.7603e-09,  1.0186e-09],
+        [ 1.0477e-09,  3.8708e-09,  0.0000e+00,  ..., -9.1677e-09,
+          3.7835e-09, -6.1991e-09],
+        ...,
+        [ 2.1828e-09, -4.0454e-09,  0.0000e+00,  ...,  5.3260e-09,
+         -1.1933e-09,  9.3132e-10],
+        [ 2.9977e-09,  2.0373e-09,  0.0000e+00,  ...,  1.2224e-09,
+          3.9290e-09,  2.0955e-09],
+        [ 4.3656e-10,  1.1933e-09,  0.0000e+00,  ...,  5.2387e-10,
+          1.2224e-09,  1.2224e-09]], device='cuda:0')
+Epoch 407, bias, value: tensor([-0.0429,  0.0142,  0.0133,  0.0286,  0.0355, -0.0184,  0.0283,  0.0290,
+        -0.0170,  0.0006], device='cuda:0'), grad: tensor([ 3.4634e-09, -6.2573e-09, -2.8056e-08, -6.9849e-10,  6.2864e-09,
+         7.4215e-09,  2.2119e-09,  1.5396e-08,  1.3388e-08,  5.5588e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 406, time 252.28, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4286 re_mapping 0.0020 re_causal 0.0075 /// teacc 99.19 lr 0.00001000
+Epoch 408, weight, value: tensor([[ 0.0889, -0.1872, -0.1459,  ..., -0.1429, -0.1751, -0.1698],
+        [ 0.0518,  0.0575, -0.0336,  ..., -0.0816,  0.1751,  0.0167],
+        [-0.0696, -0.1951, -0.0082,  ...,  0.2263, -0.1987,  0.0427],
+        ...,
+        [-0.2328,  0.1542,  0.0232,  ..., -0.1777,  0.1233,  0.0652],
+        [ 0.0031, -0.0935, -0.0050,  ..., -0.1708, -0.2022, -0.3085],
+        [ 0.0362, -0.0595, -0.0182,  ..., -0.2806, -0.1963,  0.0216]],
+       device='cuda:0'), grad: tensor([[ 1.4843e-09,  1.0477e-09,  0.0000e+00,  ...,  7.2760e-10,
+          2.3283e-09,  1.0186e-09],
+        [-6.4319e-08, -4.6624e-08,  0.0000e+00,  ..., -6.1991e-09,
+         -1.0425e-07, -3.4750e-08],
+        [ 1.2544e-08,  1.0768e-08,  0.0000e+00,  ...,  2.7649e-09,
+          2.0897e-08,  8.9349e-09],
+        ...,
+        [ 5.9954e-09, -3.3469e-09,  0.0000e+00,  ...,  1.0477e-09,
+          4.0454e-09, -1.8335e-09],
+        [ 4.9477e-09,  4.0163e-09,  0.0000e+00,  ...,  5.8208e-10,
+          8.9349e-09,  3.0559e-09],
+        [ 1.6880e-09,  1.7753e-09,  0.0000e+00,  ...,  3.5798e-09,
+          2.3574e-09,  2.5611e-09]], device='cuda:0')
+Epoch 408, bias, value: tensor([-0.0429,  0.0142,  0.0133,  0.0286,  0.0354, -0.0184,  0.0283,  0.0290,
+        -0.0170,  0.0006], device='cuda:0'), grad: tensor([ 8.4401e-09, -2.7381e-07,  6.8743e-08, -6.3796e-08,  1.6624e-07,
+         5.3900e-08, -1.8917e-09,  1.0943e-08,  2.2410e-08,  2.1741e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 407, time 251.86, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4307 re_mapping 0.0020 re_causal 0.0075 /// teacc 99.18 lr 0.00001000
+Epoch 409, weight, value: tensor([[ 0.0889, -0.1872, -0.1459,  ..., -0.1429, -0.1751, -0.1698],
+        [ 0.0518,  0.0575, -0.0336,  ..., -0.0816,  0.1751,  0.0167],
+        [-0.0696, -0.1951, -0.0082,  ...,  0.2263, -0.1987,  0.0427],
+        ...,
+        [-0.2328,  0.1542,  0.0232,  ..., -0.1778,  0.1233,  0.0652],
+        [ 0.0031, -0.0935, -0.0050,  ..., -0.1708, -0.2022, -0.3085],
+        [ 0.0362, -0.0595, -0.0182,  ..., -0.2807, -0.1963,  0.0216]],
+       device='cuda:0'), grad: tensor([[ 1.5862e-08,  1.1642e-10,  0.0000e+00,  ...,  6.1118e-10,
+          2.0373e-10,  2.1537e-09],
+        [ 1.9791e-09,  7.7998e-09,  0.0000e+00,  ...,  5.8208e-10,
+          3.8126e-09,  1.2718e-08],
+        [ 2.5320e-09,  2.1537e-09,  0.0000e+00,  ..., -1.1059e-09,
+          2.5611e-09,  1.0477e-09],
+        ...,
+        [ 6.4611e-09, -2.0780e-08,  0.0000e+00,  ...,  9.3132e-10,
+         -2.4680e-08, -2.1246e-08],
+        [ 7.8289e-09,  3.5507e-09,  0.0000e+00,  ...,  3.4925e-10,
+          6.7521e-09,  3.2596e-09],
+        [-5.2445e-08,  2.6193e-09,  0.0000e+00,  ...,  4.9477e-10,
+          3.3760e-09, -6.0827e-09]], device='cuda:0')
+Epoch 409, bias, value: tensor([-0.0429,  0.0142,  0.0134,  0.0285,  0.0355, -0.0184,  0.0283,  0.0290,
+        -0.0170,  0.0006], device='cuda:0'), grad: tensor([ 1.0675e-07,  9.7149e-08,  2.3720e-08,  6.0420e-08,  1.0780e-07,
+        -2.2847e-08, -4.5693e-09, -5.2183e-08,  4.8167e-08, -3.5041e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 408, time 251.88, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4589 re_mapping 0.0020 re_causal 0.0075 /// teacc 99.12 lr 0.00001000
+Epoch 410, weight, value: tensor([[ 0.0890, -0.1872, -0.1459,  ..., -0.1429, -0.1751, -0.1698],
+        [ 0.0518,  0.0575, -0.0335,  ..., -0.0816,  0.1751,  0.0167],
+        [-0.0696, -0.1951, -0.0082,  ...,  0.2264, -0.1987,  0.0427],
+        ...,
+        [-0.2328,  0.1542,  0.0232,  ..., -0.1778,  0.1233,  0.0652],
+        [ 0.0031, -0.0935, -0.0050,  ..., -0.1708, -0.2023, -0.3085],
+        [ 0.0362, -0.0595, -0.0182,  ..., -0.2807, -0.1963,  0.0216]],
+       device='cuda:0'), grad: tensor([[ 6.1118e-10,  2.6193e-10,  0.0000e+00,  ...,  1.6589e-09,
+          6.9849e-10,  2.5902e-09],
+        [-2.2672e-08, -1.1380e-08,  0.0000e+00,  ...,  4.4791e-08,
+         -3.5157e-08,  5.3638e-08],
+        [ 2.9104e-09,  1.9791e-09,  0.0000e+00,  ...,  8.4401e-10,
+          4.4820e-09,  4.7730e-09],
+        ...,
+        [ 7.3633e-09,  5.0350e-09,  0.0000e+00,  ...,  3.2131e-08,
+          1.3359e-08,  5.8470e-08],
+        [ 5.2096e-09,  3.4343e-09,  0.0000e+00,  ...,  2.6776e-09,
+          9.0804e-09,  7.1886e-09],
+        [-1.2224e-09,  6.8976e-09,  0.0000e+00,  ...,  4.3481e-08,
+          6.3446e-09,  4.4383e-08]], device='cuda:0')
+Epoch 410, bias, value: tensor([-0.0429,  0.0142,  0.0134,  0.0285,  0.0355, -0.0184,  0.0283,  0.0290,
+        -0.0170,  0.0006], device='cuda:0'), grad: tensor([ 1.3213e-08,  1.9441e-07,  2.3254e-08,  1.1001e-08, -7.1805e-07,
+        -1.4872e-08,  3.5419e-08,  2.5425e-07,  3.7544e-08,  1.8789e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 409, time 251.81, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4501 re_mapping 0.0019 re_causal 0.0072 /// teacc 99.14 lr 0.00001000
+Epoch 411, weight, value: tensor([[ 0.0890, -0.1872, -0.1459,  ..., -0.1429, -0.1751, -0.1698],
+        [ 0.0518,  0.0575, -0.0336,  ..., -0.0816,  0.1751,  0.0167],
+        [-0.0697, -0.1951, -0.0081,  ...,  0.2264, -0.1987,  0.0427],
+        ...,
+        [-0.2328,  0.1542,  0.0232,  ..., -0.1779,  0.1233,  0.0652],
+        [ 0.0031, -0.0935, -0.0050,  ..., -0.1709, -0.2023, -0.3085],
+        [ 0.0362, -0.0595, -0.0182,  ..., -0.2808, -0.1963,  0.0216]],
+       device='cuda:0'), grad: tensor([[ 4.1910e-09,  2.0664e-09,  0.0000e+00,  ...,  6.3155e-09,
+          2.9686e-09,  6.2864e-09],
+        [-6.8103e-09,  6.6939e-09,  0.0000e+00,  ...,  2.1566e-08,
+         -3.3964e-08,  2.4156e-08],
+        [-3.5856e-08, -2.3108e-08,  0.0000e+00,  ..., -7.7533e-08,
+          3.7835e-09, -7.1130e-08],
+        ...,
+        [ 1.0303e-08, -7.8871e-09,  0.0000e+00,  ...,  9.7207e-09,
+          4.8021e-09, -1.4552e-10],
+        [ 1.3562e-08,  9.4587e-09,  0.0000e+00,  ...,  2.6135e-08,
+          6.1991e-09,  2.6077e-08],
+        [ 9.3132e-10,  2.5902e-09,  0.0000e+00,  ...,  4.1036e-09,
+          2.0373e-09,  1.7753e-09]], device='cuda:0')
+Epoch 411, bias, value: tensor([-0.0429,  0.0142,  0.0134,  0.0285,  0.0355, -0.0184,  0.0283,  0.0290,
+        -0.0170,  0.0006], device='cuda:0'), grad: tensor([ 3.9669e-08,  6.7172e-08, -3.6787e-07, -2.3603e-08,  5.8528e-08,
+         2.4505e-08,  1.2602e-08,  4.8400e-08,  1.4016e-07,  1.0594e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 410, time 252.04, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4340 re_mapping 0.0018 re_causal 0.0071 /// teacc 99.11 lr 0.00001000
+Epoch 412, weight, value: tensor([[ 0.0890, -0.1872, -0.1459,  ..., -0.1429, -0.1751, -0.1698],
+        [ 0.0518,  0.0575, -0.0336,  ..., -0.0817,  0.1751,  0.0167],
+        [-0.0697, -0.1951, -0.0081,  ...,  0.2264, -0.1988,  0.0427],
+        ...,
+        [-0.2329,  0.1542,  0.0232,  ..., -0.1780,  0.1233,  0.0652],
+        [ 0.0031, -0.0935, -0.0050,  ..., -0.1709, -0.2023, -0.3085],
+        [ 0.0362, -0.0595, -0.0182,  ..., -0.2808, -0.1963,  0.0216]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-10,  1.1642e-10,  0.0000e+00,  ...,  4.9477e-10,
+          2.9104e-10,  2.0373e-10],
+        [-5.4424e-09,  3.1712e-07,  0.0000e+00,  ...,  3.3178e-09,
+          2.9337e-07,  2.1036e-07],
+        [ 9.3132e-10,  1.2020e-08,  0.0000e+00,  ..., -2.7358e-09,
+          1.1991e-08,  8.2073e-09],
+        ...,
+        [ 3.9581e-09, -3.5530e-07,  0.0000e+00,  ...,  4.6566e-09,
+         -3.2946e-07, -2.3248e-07],
+        [-9.0222e-10,  4.0745e-09,  0.0000e+00,  ...,  5.5297e-10,
+          5.9372e-09,  2.7358e-09],
+        [ 8.1491e-10,  1.2980e-08,  0.0000e+00,  ...,  2.1828e-09,
+          1.2573e-08,  1.1845e-08]], device='cuda:0')
+Epoch 412, bias, value: tensor([-0.0429,  0.0142,  0.0134,  0.0285,  0.0355, -0.0184,  0.0283,  0.0290,
+        -0.0170,  0.0006], device='cuda:0'), grad: tensor([ 2.3283e-09,  7.0501e-07,  2.8260e-08,  1.9354e-08, -3.9872e-09,
+         9.9535e-09, -1.7550e-08, -7.6694e-07, -8.7311e-10,  4.2754e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 411, time 252.26, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4192 re_mapping 0.0018 re_causal 0.0070 /// teacc 99.14 lr 0.00001000
+Epoch 413, weight, value: tensor([[ 0.0890, -0.1872, -0.1459,  ..., -0.1429, -0.1751, -0.1698],
+        [ 0.0518,  0.0575, -0.0336,  ..., -0.0817,  0.1751,  0.0167],
+        [-0.0697, -0.1951, -0.0081,  ...,  0.2264, -0.1988,  0.0427],
+        ...,
+        [-0.2329,  0.1542,  0.0232,  ..., -0.1780,  0.1233,  0.0653],
+        [ 0.0031, -0.0935, -0.0050,  ..., -0.1709, -0.2023, -0.3086],
+        [ 0.0362, -0.0595, -0.0182,  ..., -0.2809, -0.1963,  0.0216]],
+       device='cuda:0'), grad: tensor([[ 3.4925e-10,  3.4925e-10,  0.0000e+00,  ...,  2.6776e-09,
+          5.2387e-10,  9.3132e-10],
+        [-8.8476e-09,  1.6880e-09,  0.0000e+00,  ...,  4.8312e-09,
+         -6.5775e-09,  4.7148e-09],
+        [-3.0850e-09,  6.5775e-09,  0.0000e+00,  ..., -3.7835e-08,
+          7.5670e-09, -1.7055e-08],
+        ...,
+        [ 2.6776e-09, -3.1665e-08,  0.0000e+00,  ...,  1.8626e-09,
+         -3.6554e-08, -1.4203e-08],
+        [ 7.9744e-09,  4.7148e-09,  0.0000e+00,  ...,  3.1898e-08,
+          9.5461e-09,  2.0780e-08],
+        [-1.5716e-09,  6.9849e-09,  0.0000e+00,  ...,  1.7346e-08,
+          8.0909e-09,  2.1071e-08]], device='cuda:0')
+Epoch 413, bias, value: tensor([-0.0429,  0.0142,  0.0134,  0.0285,  0.0355, -0.0184,  0.0283,  0.0290,
+        -0.0170,  0.0006], device='cuda:0'), grad: tensor([ 1.0303e-08,  2.2061e-08, -9.9011e-08,  2.9861e-08, -9.7323e-08,
+         1.2456e-08, -1.6764e-08, -8.6497e-08,  1.2410e-07,  1.1432e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 412, time 252.16, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4252 re_mapping 0.0018 re_causal 0.0070 /// teacc 99.15 lr 0.00001000
+Epoch 414, weight, value: tensor([[ 0.0890, -0.1872, -0.1459,  ..., -0.1429, -0.1751, -0.1698],
+        [ 0.0518,  0.0575, -0.0335,  ..., -0.0817,  0.1751,  0.0166],
+        [-0.0697, -0.1952, -0.0081,  ...,  0.2264, -0.1988,  0.0427],
+        ...,
+        [-0.2329,  0.1542,  0.0232,  ..., -0.1781,  0.1233,  0.0652],
+        [ 0.0031, -0.0935, -0.0050,  ..., -0.1709, -0.2023, -0.3086],
+        [ 0.0362, -0.0595, -0.0182,  ..., -0.2809, -0.1963,  0.0216]],
+       device='cuda:0'), grad: tensor([[ 1.7462e-10,  2.3283e-10,  0.0000e+00,  ...,  1.3970e-09,
+          2.3283e-10,  4.6566e-10],
+        [-1.2864e-08,  6.4611e-09,  0.0000e+00,  ...,  4.2492e-09,
+         -1.5076e-08,  8.6147e-09],
+        [ 1.6880e-09,  1.3679e-08,  0.0000e+00,  ..., -9.4296e-09,
+          8.6147e-09,  7.5670e-10],
+        ...,
+        [ 1.2689e-08, -3.1316e-08,  0.0000e+00,  ...,  3.6089e-09,
+         -4.1327e-09, -1.8685e-08],
+        [-1.0128e-08,  2.1537e-09,  0.0000e+00,  ..., -0.0000e+00,
+          3.6089e-09,  3.4925e-10],
+        [ 8.0327e-09,  3.4343e-09,  0.0000e+00,  ...,  5.8208e-10,
+          2.9104e-09,  3.8417e-09]], device='cuda:0')
+Epoch 414, bias, value: tensor([-0.0429,  0.0142,  0.0134,  0.0285,  0.0355, -0.0184,  0.0283,  0.0290,
+        -0.0170,  0.0006], device='cuda:0'), grad: tensor([ 5.1223e-09,  1.2456e-08,  6.9849e-09,  1.4494e-08,  2.2468e-08,
+        -1.4959e-08, -1.2806e-08, -3.4634e-08, -3.6904e-08,  3.6729e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 413, time 252.49, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4366 re_mapping 0.0018 re_causal 0.0072 /// teacc 99.12 lr 0.00001000
+Epoch 415, weight, value: tensor([[ 0.0890, -0.1872, -0.1459,  ..., -0.1429, -0.1751, -0.1698],
+        [ 0.0518,  0.0575, -0.0335,  ..., -0.0817,  0.1751,  0.0166],
+        [-0.0698, -0.1952, -0.0081,  ...,  0.2265, -0.1988,  0.0427],
+        ...,
+        [-0.2329,  0.1542,  0.0232,  ..., -0.1782,  0.1233,  0.0653],
+        [ 0.0031, -0.0935, -0.0050,  ..., -0.1709, -0.2023, -0.3086],
+        [ 0.0362, -0.0595, -0.0182,  ..., -0.2810, -0.1963,  0.0216]],
+       device='cuda:0'), grad: tensor([[-1.0477e-09,  5.8208e-11,  0.0000e+00,  ...,  2.3283e-10,
+         -1.1642e-10,  2.3283e-10],
+        [-1.6298e-09, -1.3970e-09,  0.0000e+00,  ...,  8.6147e-09,
+         -3.7253e-09,  1.0885e-08],
+        [ 6.9849e-10,  4.0745e-10,  0.0000e+00,  ..., -3.3760e-09,
+          9.8953e-10, -2.5029e-09],
+        ...,
+        [ 1.5134e-09,  1.0477e-09,  0.0000e+00,  ...,  1.6415e-08,
+          2.5611e-09,  2.1304e-08],
+        [-5.8208e-11,  2.3283e-10,  0.0000e+00,  ...,  2.3283e-10,
+          5.8208e-10,  4.0745e-10],
+        [ 8.1491e-10,  1.1642e-10,  0.0000e+00,  ...,  6.7521e-09,
+          3.4925e-10,  7.8580e-09]], device='cuda:0')
+Epoch 415, bias, value: tensor([-0.0429,  0.0142,  0.0134,  0.0285,  0.0355, -0.0184,  0.0283,  0.0290,
+        -0.0170,  0.0006], device='cuda:0'), grad: tensor([-2.5029e-09,  3.1025e-08, -5.5297e-09,  1.7462e-09, -1.0291e-07,
+         2.0955e-09,  4.3656e-09,  6.5775e-08, -1.1642e-09,  2.7008e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 414, time 251.87, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4730 re_mapping 0.0017 re_causal 0.0072 /// teacc 99.12 lr 0.00001000
+Epoch 416, weight, value: tensor([[ 0.0890, -0.1872, -0.1459,  ..., -0.1429, -0.1751, -0.1698],
+        [ 0.0518,  0.0575, -0.0335,  ..., -0.0817,  0.1751,  0.0166],
+        [-0.0698, -0.1952, -0.0081,  ...,  0.2265, -0.1988,  0.0428],
+        ...,
+        [-0.2329,  0.1543,  0.0232,  ..., -0.1782,  0.1233,  0.0653],
+        [ 0.0031, -0.0935, -0.0050,  ..., -0.1709, -0.2024, -0.3086],
+        [ 0.0362, -0.0595, -0.0182,  ..., -0.2810, -0.1964,  0.0216]],
+       device='cuda:0'), grad: tensor([[-9.8953e-10, -9.8953e-10,  0.0000e+00,  ...,  4.6566e-10,
+         -1.3970e-09,  6.4028e-10],
+        [-3.1432e-09, -2.3283e-09,  0.0000e+00,  ...,  1.3912e-08,
+         -6.4028e-09,  1.5309e-08],
+        [ 6.4028e-10,  3.4343e-09,  0.0000e+00,  ..., -5.4133e-09,
+          3.1432e-09, -0.0000e+00],
+        ...,
+        [ 2.9686e-09, -1.0477e-09,  0.0000e+00,  ...,  6.6939e-09,
+          3.5507e-09,  7.2760e-09],
+        [ 1.0477e-09,  8.7311e-10,  0.0000e+00,  ...,  9.3132e-10,
+          1.5716e-09,  1.5716e-09],
+        [-8.1491e-10,  1.3388e-09,  0.0000e+00,  ...,  2.9628e-08,
+          2.2701e-09,  2.1129e-08]], device='cuda:0')
+Epoch 416, bias, value: tensor([-0.0429,  0.0142,  0.0134,  0.0285,  0.0355, -0.0184,  0.0283,  0.0290,
+        -0.0170,  0.0007], device='cuda:0'), grad: tensor([-4.7148e-09,  5.6578e-08, -4.3074e-09,  8.5565e-09, -1.8429e-07,
+         2.1537e-09,  1.6007e-08,  3.4459e-08,  7.9744e-09,  9.2434e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 415, time 251.78, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4300 re_mapping 0.0017 re_causal 0.0069 /// teacc 99.16 lr 0.00001000
+Epoch 417, weight, value: tensor([[ 0.0890, -0.1872, -0.1459,  ..., -0.1429, -0.1751, -0.1698],
+        [ 0.0518,  0.0575, -0.0335,  ..., -0.0818,  0.1751,  0.0166],
+        [-0.0699, -0.1953, -0.0081,  ...,  0.2265, -0.1988,  0.0428],
+        ...,
+        [-0.2329,  0.1543,  0.0232,  ..., -0.1783,  0.1233,  0.0653],
+        [ 0.0031, -0.0935, -0.0050,  ..., -0.1709, -0.2024, -0.3086],
+        [ 0.0362, -0.0595, -0.0182,  ..., -0.2811, -0.1964,  0.0216]],
+       device='cuda:0'), grad: tensor([[-6.7521e-09,  3.4925e-10,  0.0000e+00,  ...,  1.0477e-08,
+         -1.9791e-09,  1.1991e-08],
+        [-3.0675e-08, -6.6939e-09,  0.0000e+00,  ...,  1.4435e-08,
+         -3.2072e-08,  1.5716e-09],
+        [ 8.6147e-09,  2.0955e-09,  0.0000e+00,  ..., -5.8208e-11,
+          8.1491e-09,  7.9162e-09],
+        ...,
+        [ 3.3760e-09,  1.2806e-09,  0.0000e+00,  ...,  2.1595e-08,
+          3.0268e-09,  2.5495e-08],
+        [ 1.7928e-08,  3.7835e-09,  0.0000e+00,  ...,  8.1491e-10,
+          1.7346e-08,  8.7311e-09],
+        [ 2.0373e-09,  1.1642e-09,  0.0000e+00,  ...,  1.3236e-07,
+          2.4447e-09,  1.4820e-07]], device='cuda:0')
+Epoch 417, bias, value: tensor([-0.0429,  0.0141,  0.0134,  0.0285,  0.0355, -0.0184,  0.0283,  0.0290,
+        -0.0170,  0.0007], device='cuda:0'), grad: tensor([ 1.8685e-08, -2.7649e-08,  5.0000e-08, -5.0059e-09, -9.5041e-07,
+         3.8417e-09,  1.9395e-07,  1.1543e-07,  6.1700e-08,  5.5367e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 416, time 252.23, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4168 re_mapping 0.0017 re_causal 0.0068 /// teacc 99.15 lr 0.00001000
+Epoch 418, weight, value: tensor([[ 0.0890, -0.1872, -0.1459,  ..., -0.1429, -0.1751, -0.1698],
+        [ 0.0518,  0.0575, -0.0335,  ..., -0.0818,  0.1751,  0.0166],
+        [-0.0699, -0.1953, -0.0081,  ...,  0.2265, -0.1988,  0.0428],
+        ...,
+        [-0.2329,  0.1543,  0.0232,  ..., -0.1784,  0.1234,  0.0653],
+        [ 0.0031, -0.0935, -0.0050,  ..., -0.1709, -0.2024, -0.3087],
+        [ 0.0362, -0.0595, -0.0182,  ..., -0.2812, -0.1964,  0.0216]],
+       device='cuda:0'), grad: tensor([[ 0.0000e+00,  5.8208e-11,  0.0000e+00,  ...,  1.3388e-09,
+          1.1642e-10,  4.0745e-10],
+        [ 5.8208e-11,  4.6566e-09,  0.0000e+00,  ...,  2.1828e-08,
+          4.1327e-09,  2.2876e-08],
+        [ 5.8208e-10,  2.6776e-09,  0.0000e+00,  ..., -5.4715e-09,
+          2.6193e-09, -8.0909e-09],
+        ...,
+        [ 7.5670e-10, -4.8312e-09,  0.0000e+00,  ...,  2.2526e-08,
+         -3.2014e-09,  1.9441e-08],
+        [ 2.9104e-10,  3.4925e-10,  0.0000e+00,  ...,  1.5716e-09,
+          5.8208e-10,  9.3132e-10],
+        [ 5.8208e-11,  1.7462e-09,  0.0000e+00,  ...,  1.0885e-08,
+          8.1491e-10,  1.2515e-08]], device='cuda:0')
+Epoch 418, bias, value: tensor([-0.0429,  0.0141,  0.0134,  0.0285,  0.0356, -0.0184,  0.0283,  0.0290,
+        -0.0170,  0.0007], device='cuda:0'), grad: tensor([ 5.0059e-09,  7.9977e-08,  2.0955e-09, -8.5565e-09, -1.3132e-07,
+         1.3795e-08, -5.0291e-08,  6.6531e-08,  7.9744e-09,  3.9872e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 417, time 252.10, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4586 re_mapping 0.0017 re_causal 0.0072 /// teacc 99.15 lr 0.00001000
+Epoch 419, weight, value: tensor([[ 0.0890, -0.1872, -0.1459,  ..., -0.1429, -0.1751, -0.1698],
+        [ 0.0519,  0.0575, -0.0335,  ..., -0.0818,  0.1751,  0.0165],
+        [-0.0700, -0.1954, -0.0081,  ...,  0.2265, -0.1989,  0.0428],
+        ...,
+        [-0.2329,  0.1543,  0.0232,  ..., -0.1784,  0.1234,  0.0653],
+        [ 0.0031, -0.0935, -0.0050,  ..., -0.1709, -0.2024, -0.3087],
+        [ 0.0362, -0.0595, -0.0182,  ..., -0.2812, -0.1964,  0.0216]],
+       device='cuda:0'), grad: tensor([[ 3.4925e-10,  1.1642e-10,  0.0000e+00,  ...,  8.1491e-10,
+          1.1642e-10,  6.4028e-10],
+        [ 1.6298e-09,  1.2165e-08,  0.0000e+00,  ...,  4.2492e-09,
+          9.6043e-09,  1.3271e-08],
+        [-0.0000e+00,  5.5879e-09,  0.0000e+00,  ..., -1.9907e-08,
+          4.3074e-09, -7.9744e-09],
+        ...,
+        [ 7.5670e-10, -2.2526e-08,  0.0000e+00,  ...,  3.1432e-09,
+         -1.5658e-08, -1.1583e-08],
+        [ 8.7311e-10,  5.8208e-10,  0.0000e+00,  ...,  4.2492e-09,
+          5.2387e-10,  3.0850e-09],
+        [ 1.9209e-09,  3.9581e-09,  0.0000e+00,  ...,  2.3865e-09,
+          3.2596e-09,  5.7044e-09]], device='cuda:0')
+Epoch 419, bias, value: tensor([-0.0429,  0.0141,  0.0134,  0.0285,  0.0356, -0.0184,  0.0283,  0.0290,
+        -0.0170,  0.0007], device='cuda:0'), grad: tensor([ 7.4506e-09,  5.6927e-08,  1.5018e-08, -4.9768e-08, -1.4552e-08,
+        -3.8184e-08,  8.2073e-09, -3.0093e-08,  2.5728e-08,  3.5448e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 418, time 252.34, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4377 re_mapping 0.0017 re_causal 0.0072 /// teacc 99.16 lr 0.00001000
+Epoch 420, weight, value: tensor([[ 0.0890, -0.1872, -0.1459,  ..., -0.1429, -0.1751, -0.1698],
+        [ 0.0519,  0.0575, -0.0335,  ..., -0.0818,  0.1751,  0.0165],
+        [-0.0700, -0.1954, -0.0081,  ...,  0.2265, -0.1989,  0.0428],
+        ...,
+        [-0.2330,  0.1543,  0.0232,  ..., -0.1785,  0.1234,  0.0653],
+        [ 0.0031, -0.0935, -0.0050,  ..., -0.1710, -0.2024, -0.3087],
+        [ 0.0362, -0.0595, -0.0182,  ..., -0.2813, -0.1964,  0.0216]],
+       device='cuda:0'), grad: tensor([[ 1.3388e-09,  0.0000e+00,  0.0000e+00,  ...,  5.8790e-09,
+          5.8208e-11,  1.8626e-09],
+        [ 1.9791e-09,  5.8208e-11,  0.0000e+00,  ...,  2.5728e-08,
+         -8.6729e-09,  9.1386e-09],
+        [-1.7637e-08,  8.7311e-10,  0.0000e+00,  ..., -8.1898e-08,
+          9.3132e-10, -2.4680e-08],
+        ...,
+        [ 4.9477e-09, -7.3342e-09,  0.0000e+00,  ...,  3.4925e-09,
+          4.5402e-09, -2.6193e-09],
+        [ 8.1491e-09,  1.7462e-09,  0.0000e+00,  ...,  2.8347e-08,
+          2.1537e-09,  1.0012e-08],
+        [-1.7462e-10,  6.9849e-10,  0.0000e+00,  ...,  7.5670e-09,
+          4.6566e-10,  4.0745e-09]], device='cuda:0')
+Epoch 420, bias, value: tensor([-0.0429,  0.0141,  0.0134,  0.0285,  0.0356, -0.0184,  0.0283,  0.0290,
+        -0.0170,  0.0007], device='cuda:0'), grad: tensor([ 2.0431e-08,  8.6380e-08, -2.6636e-07,  4.5984e-09, -3.0850e-09,
+         1.5192e-08,  1.2398e-08,  1.0768e-08,  1.0751e-07,  1.6822e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 419, time 252.40, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4081 re_mapping 0.0017 re_causal 0.0071 /// teacc 99.18 lr 0.00001000
+Epoch 421, weight, value: tensor([[ 0.0890, -0.1872, -0.1459,  ..., -0.1429, -0.1751, -0.1698],
+        [ 0.0519,  0.0575, -0.0335,  ..., -0.0819,  0.1751,  0.0165],
+        [-0.0701, -0.1954, -0.0081,  ...,  0.2266, -0.1989,  0.0428],
+        ...,
+        [-0.2330,  0.1543,  0.0232,  ..., -0.1786,  0.1234,  0.0653],
+        [ 0.0031, -0.0935, -0.0050,  ..., -0.1710, -0.2024, -0.3087],
+        [ 0.0362, -0.0595, -0.0182,  ..., -0.2814, -0.1964,  0.0216]],
+       device='cuda:0'), grad: tensor([[-1.9616e-08,  3.3178e-09,  0.0000e+00,  ..., -1.2282e-08,
+          1.1642e-10,  6.9849e-09],
+        [-2.5029e-09, -1.9209e-09,  0.0000e+00,  ...,  1.3388e-09,
+         -4.9477e-09,  1.0477e-09],
+        [ 7.1013e-09,  1.1642e-09,  0.0000e+00,  ...,  2.2701e-09,
+          1.0477e-09, -4.0745e-10],
+        ...,
+        [ 4.3656e-09,  2.0780e-08,  0.0000e+00,  ...,  8.7311e-10,
+          2.5611e-09,  4.2026e-08],
+        [ 1.7462e-09,  9.8953e-10,  0.0000e+00,  ...,  1.0477e-09,
+          1.6880e-09,  1.1642e-09],
+        [ 7.7416e-09, -2.5495e-08,  0.0000e+00,  ...,  8.9640e-09,
+          4.0745e-10, -5.1572e-08]], device='cuda:0')
+Epoch 421, bias, value: tensor([-0.0429,  0.0141,  0.0134,  0.0285,  0.0356, -0.0184,  0.0283,  0.0289,
+        -0.0170,  0.0007], device='cuda:0'), grad: tensor([-6.0594e-08,  4.6566e-10,  2.6368e-08,  1.0186e-08,  8.5565e-09,
+        -5.7044e-09,  1.3388e-09,  1.3772e-07,  1.0070e-08, -1.1642e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 420, time 252.40, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4127 re_mapping 0.0017 re_causal 0.0071 /// teacc 99.17 lr 0.00001000
+Epoch 422, weight, value: tensor([[ 0.0890, -0.1872, -0.1459,  ..., -0.1429, -0.1751, -0.1698],
+        [ 0.0519,  0.0575, -0.0335,  ..., -0.0819,  0.1751,  0.0165],
+        [-0.0701, -0.1955, -0.0081,  ...,  0.2266, -0.1989,  0.0428],
+        ...,
+        [-0.2330,  0.1544,  0.0232,  ..., -0.1787,  0.1234,  0.0653],
+        [ 0.0031, -0.0935, -0.0050,  ..., -0.1710, -0.2024, -0.3087],
+        [ 0.0362, -0.0595, -0.0182,  ..., -0.2814, -0.1964,  0.0216]],
+       device='cuda:0'), grad: tensor([[-1.2049e-08,  1.1642e-10,  0.0000e+00,  ...,  1.4552e-09,
+         -3.4925e-10,  1.7462e-10],
+        [-1.3970e-09,  6.1118e-09,  0.0000e+00,  ...,  1.5134e-09,
+          1.9791e-09,  7.6252e-09],
+        [ 1.2806e-09,  3.5274e-08,  0.0000e+00,  ...,  1.2806e-09,
+          2.4913e-08,  3.4750e-08],
+        ...,
+        [ 9.3132e-10, -5.1979e-08,  0.0000e+00,  ...,  1.6880e-09,
+         -3.5507e-08, -4.9011e-08],
+        [-4.0745e-10,  8.7311e-10,  0.0000e+00,  ...,  1.0477e-09,
+          1.6298e-09,  6.4028e-10],
+        [ 1.1001e-08,  5.0641e-09,  0.0000e+00,  ...,  1.2224e-09,
+          4.3656e-09,  5.2387e-09]], device='cuda:0')
+Epoch 422, bias, value: tensor([-0.0429,  0.0141,  0.0134,  0.0285,  0.0356, -0.0184,  0.0283,  0.0289,
+        -0.0170,  0.0007], device='cuda:0'), grad: tensor([-4.8429e-08,  2.8173e-08,  1.1921e-07,  2.3108e-08,  1.3155e-08,
+        -6.5775e-09, -2.2701e-08, -1.4692e-07,  9.8953e-10,  6.5076e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 421, time 252.39, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4400 re_mapping 0.0017 re_causal 0.0071 /// teacc 99.20 lr 0.00001000
+Epoch 423, weight, value: tensor([[ 0.0890, -0.1872, -0.1459,  ..., -0.1429, -0.1751, -0.1698],
+        [ 0.0519,  0.0574, -0.0335,  ..., -0.0819,  0.1751,  0.0165],
+        [-0.0702, -0.1955, -0.0081,  ...,  0.2266, -0.1989,  0.0428],
+        ...,
+        [-0.2330,  0.1544,  0.0232,  ..., -0.1787,  0.1234,  0.0653],
+        [ 0.0031, -0.0935, -0.0050,  ..., -0.1710, -0.2025, -0.3087],
+        [ 0.0362, -0.0595, -0.0182,  ..., -0.2815, -0.1964,  0.0216]],
+       device='cuda:0'), grad: tensor([[-1.0186e-08,  7.6252e-09,  0.0000e+00,  ...,  4.0745e-10,
+          4.6566e-09,  3.5507e-09],
+        [ 2.0722e-08,  7.9977e-08,  0.0000e+00,  ...,  5.4715e-09,
+          4.5809e-08,  4.5809e-08],
+        [ 8.6729e-09,  9.1211e-08,  0.0000e+00,  ...,  3.4925e-10,
+          5.9546e-08,  6.6822e-08],
+        ...,
+        [ 3.0210e-08, -2.9407e-07,  0.0000e+00,  ...,  2.8522e-09,
+         -1.8068e-07, -1.6007e-07],
+        [-9.8895e-08,  4.9477e-09,  0.0000e+00,  ...,  4.6566e-10,
+          5.6461e-09,  3.4343e-09],
+        [ 4.2259e-08,  7.3749e-08,  0.0000e+00,  ...,  1.3912e-08,
+          4.5227e-08,  5.2678e-08]], device='cuda:0')
+Epoch 423, bias, value: tensor([-0.0429,  0.0140,  0.0134,  0.0285,  0.0356, -0.0185,  0.0283,  0.0289,
+        -0.0170,  0.0007], device='cuda:0'), grad: tensor([-2.9104e-08,  4.1956e-07,  3.3551e-07,  5.9197e-08, -3.3295e-08,
+         2.7299e-08,  1.0885e-08, -7.3435e-07, -5.8580e-07,  5.4389e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 422, time 252.26, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4444 re_mapping 0.0017 re_causal 0.0069 /// teacc 99.20 lr 0.00001000
+Epoch 424, weight, value: tensor([[ 0.0890, -0.1872, -0.1459,  ..., -0.1429, -0.1751, -0.1698],
+        [ 0.0519,  0.0574, -0.0335,  ..., -0.0820,  0.1751,  0.0164],
+        [-0.0703, -0.1956, -0.0081,  ...,  0.2266, -0.1990,  0.0428],
+        ...,
+        [-0.2330,  0.1544,  0.0232,  ..., -0.1788,  0.1234,  0.0653],
+        [ 0.0031, -0.0935, -0.0050,  ..., -0.1710, -0.2025, -0.3088],
+        [ 0.0362, -0.0595, -0.0182,  ..., -0.2816, -0.1964,  0.0216]],
+       device='cuda:0'), grad: tensor([[-7.6019e-08,  5.8208e-11,  0.0000e+00,  ...,  3.8999e-09,
+          1.7462e-10,  3.4343e-09],
+        [-1.3388e-09, -1.2224e-09,  0.0000e+00,  ...,  2.0955e-08,
+         -4.4820e-09,  2.8696e-08],
+        [ 8.7311e-10,  1.9209e-09,  0.0000e+00,  ..., -1.3679e-08,
+          2.3283e-09, -5.9954e-09],
+        ...,
+        [ 3.3178e-09, -2.6193e-09,  0.0000e+00,  ...,  2.1246e-08,
+          2.0955e-09,  2.4273e-08],
+        [ 1.6706e-08,  9.3132e-10,  0.0000e+00,  ...,  3.1432e-09,
+          1.7462e-09,  4.4238e-09],
+        [ 9.2550e-09,  3.4925e-10,  0.0000e+00,  ...,  2.7358e-08,
+          3.4925e-09,  2.0838e-08]], device='cuda:0')
+Epoch 424, bias, value: tensor([-0.0429,  0.0140,  0.0134,  0.0285,  0.0357, -0.0184,  0.0283,  0.0290,
+        -0.0170,  0.0006], device='cuda:0'), grad: tensor([-3.5181e-07,  1.2247e-07, -2.1420e-08,  1.1764e-07, -3.6485e-07,
+        -8.5565e-08,  2.0384e-07,  1.2561e-07,  9.2725e-08,  1.6950e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 423, time 252.35, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4151 re_mapping 0.0016 re_causal 0.0068 /// teacc 99.20 lr 0.00001000
+Epoch 425, weight, value: tensor([[ 0.0890, -0.1872, -0.1459,  ..., -0.1429, -0.1751, -0.1698],
+        [ 0.0519,  0.0574, -0.0335,  ..., -0.0820,  0.1751,  0.0164],
+        [-0.0703, -0.1957, -0.0081,  ...,  0.2267, -0.1990,  0.0428],
+        ...,
+        [-0.2330,  0.1544,  0.0232,  ..., -0.1788,  0.1235,  0.0654],
+        [ 0.0031, -0.0935, -0.0050,  ..., -0.1710, -0.2025, -0.3088],
+        [ 0.0362, -0.0595, -0.0182,  ..., -0.2817, -0.1965,  0.0216]],
+       device='cuda:0'), grad: tensor([[ 5.2387e-10,  5.8208e-11,  0.0000e+00,  ...,  3.1432e-09,
+          1.7462e-10,  1.8626e-09],
+        [-3.6438e-08, -3.1840e-08,  0.0000e+00,  ...,  7.5670e-10,
+         -9.6683e-08, -2.9686e-08],
+        [ 8.1491e-10,  1.6298e-09,  0.0000e+00,  ..., -2.6950e-08,
+          4.2492e-09, -2.1246e-08],
+        ...,
+        [ 3.2480e-08,  2.5437e-08,  0.0000e+00,  ...,  5.2387e-09,
+          7.9977e-08,  2.9569e-08],
+        [-1.3388e-09,  4.1327e-09,  0.0000e+00,  ...,  6.4028e-10,
+          7.6834e-09,  3.4925e-09],
+        [ 2.7940e-09,  1.3388e-09,  0.0000e+00,  ...,  1.2689e-08,
+          2.2119e-09,  1.3562e-08]], device='cuda:0')
+Epoch 425, bias, value: tensor([-0.0429,  0.0140,  0.0134,  0.0285,  0.0357, -0.0184,  0.0283,  0.0290,
+        -0.0170,  0.0006], device='cuda:0'), grad: tensor([ 9.5461e-09, -1.3388e-07, -8.4634e-08,  2.5437e-08,  2.2119e-09,
+         9.8953e-10, -2.2119e-09,  1.3621e-07,  3.6089e-09,  5.8906e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 424, time 252.29, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4320 re_mapping 0.0017 re_causal 0.0072 /// teacc 99.20 lr 0.00001000
+Epoch 426, weight, value: tensor([[ 0.0890, -0.1872, -0.1459,  ..., -0.1429, -0.1751, -0.1698],
+        [ 0.0519,  0.0574, -0.0335,  ..., -0.0820,  0.1751,  0.0164],
+        [-0.0704, -0.1958, -0.0081,  ...,  0.2267, -0.1990,  0.0428],
+        ...,
+        [-0.2330,  0.1545,  0.0232,  ..., -0.1789,  0.1235,  0.0654],
+        [ 0.0031, -0.0936, -0.0050,  ..., -0.1710, -0.2025, -0.3088],
+        [ 0.0362, -0.0595, -0.0182,  ..., -0.2817, -0.1965,  0.0216]],
+       device='cuda:0'), grad: tensor([[ 4.0745e-10,  2.3283e-10,  0.0000e+00,  ...,  1.7462e-10,
+          4.6566e-10,  4.6566e-10],
+        [-2.2992e-08, -2.1886e-08,  0.0000e+00,  ...,  1.4319e-08,
+         -4.2550e-08,  1.8743e-08],
+        [ 3.4925e-09,  4.5984e-09,  0.0000e+00,  ...,  1.2340e-08,
+          8.1491e-09,  3.2596e-08],
+        ...,
+        [ 8.2073e-09,  7.6834e-09,  0.0000e+00,  ...,  7.6834e-09,
+          1.5076e-08,  2.1246e-08],
+        [ 1.0885e-08,  1.0012e-08,  0.0000e+00,  ...,  9.3132e-10,
+          1.9034e-08,  5.9372e-09],
+        [ 7.5670e-10,  8.7311e-10,  0.0000e+00,  ...,  1.2154e-07,
+          1.4552e-09,  2.6613e-07]], device='cuda:0')
+Epoch 426, bias, value: tensor([-0.0429,  0.0140,  0.0135,  0.0285,  0.0357, -0.0184,  0.0283,  0.0290,
+        -0.0170,  0.0006], device='cuda:0'), grad: tensor([ 3.4343e-09, -2.9046e-08,  8.1607e-08, -5.0815e-08, -6.9477e-07,
+         3.6671e-08, -1.9209e-09,  7.3807e-08,  4.9593e-08,  5.4436e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 425, time 252.48, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4212 re_mapping 0.0017 re_causal 0.0070 /// teacc 99.18 lr 0.00001000
+Epoch 427, weight, value: tensor([[ 0.0890, -0.1872, -0.1459,  ..., -0.1429, -0.1751, -0.1698],
+        [ 0.0519,  0.0574, -0.0335,  ..., -0.0821,  0.1751,  0.0164],
+        [-0.0704, -0.1959, -0.0081,  ...,  0.2267, -0.1990,  0.0428],
+        ...,
+        [-0.2330,  0.1545,  0.0232,  ..., -0.1790,  0.1235,  0.0654],
+        [ 0.0031, -0.0936, -0.0050,  ..., -0.1710, -0.2026, -0.3088],
+        [ 0.0362, -0.0595, -0.0182,  ..., -0.2818, -0.1965,  0.0216]],
+       device='cuda:0'), grad: tensor([[ 2.6776e-08,  5.8208e-11,  0.0000e+00,  ...,  2.9104e-10,
+          5.8208e-11,  1.7462e-09],
+        [ 1.4086e-08,  2.1537e-09,  0.0000e+00,  ...,  1.4086e-08,
+         -3.4925e-09,  1.6880e-08],
+        [ 8.3237e-09,  2.3516e-08,  0.0000e+00,  ..., -3.7078e-08,
+          1.4785e-08, -6.6357e-09],
+        ...,
+        [ 8.7894e-09, -2.8871e-08,  0.0000e+00,  ...,  1.8394e-08,
+         -1.5134e-08, -1.4727e-08],
+        [ 6.9849e-10,  5.8208e-10,  0.0000e+00,  ...,  3.2596e-09,
+          1.2224e-09,  3.0268e-09],
+        [-2.0373e-07,  1.4552e-09,  0.0000e+00,  ...,  2.9104e-10,
+          1.1642e-09, -1.0594e-08]], device='cuda:0')
+Epoch 427, bias, value: tensor([-0.0429,  0.0140,  0.0134,  0.0285,  0.0357, -0.0184,  0.0283,  0.0290,
+        -0.0170,  0.0006], device='cuda:0'), grad: tensor([ 1.6461e-07,  1.4435e-07,  2.9802e-08,  4.5076e-07,  1.2666e-07,
+         2.7195e-07, -4.0163e-09,  1.4552e-08,  3.3120e-08, -1.2247e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 426, time 252.03, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4251 re_mapping 0.0017 re_causal 0.0071 /// teacc 99.19 lr 0.00001000
+Epoch 428, weight, value: tensor([[ 0.0890, -0.1872, -0.1459,  ..., -0.1430, -0.1751, -0.1698],
+        [ 0.0519,  0.0574, -0.0335,  ..., -0.0821,  0.1751,  0.0163],
+        [-0.0705, -0.1959, -0.0081,  ...,  0.2268, -0.1991,  0.0428],
+        ...,
+        [-0.2331,  0.1546,  0.0232,  ..., -0.1791,  0.1236,  0.0655],
+        [ 0.0031, -0.0936, -0.0050,  ..., -0.1711, -0.2026, -0.3089],
+        [ 0.0362, -0.0595, -0.0182,  ..., -0.2819, -0.1965,  0.0215]],
+       device='cuda:0'), grad: tensor([[-1.8859e-08,  1.1642e-09,  0.0000e+00,  ...,  1.8044e-09,
+          6.9849e-10,  5.6461e-09],
+        [ 6.9849e-09,  7.0431e-09,  0.0000e+00,  ...,  2.5146e-08,
+          4.8312e-09,  4.4005e-08],
+        [ 3.3760e-09,  2.5379e-08,  0.0000e+00,  ..., -2.4505e-08,
+          1.5367e-08, -6.9849e-10],
+        ...,
+        [ 1.3388e-08, -9.0804e-08,  0.0000e+00,  ...,  1.4261e-08,
+         -5.0582e-08, -1.2224e-08],
+        [ 4.2492e-09,  4.4238e-09,  0.0000e+00,  ...,  1.2224e-08,
+          2.1537e-09,  1.8044e-08],
+        [-2.1013e-08,  1.3912e-08,  0.0000e+00,  ...,  7.0839e-08,
+          8.7894e-09,  5.5472e-08]], device='cuda:0')
+Epoch 428, bias, value: tensor([-0.0429,  0.0139,  0.0134,  0.0285,  0.0357, -0.0184,  0.0283,  0.0291,
+        -0.0170,  0.0006], device='cuda:0'), grad: tensor([-1.0693e-07,  2.9313e-07,  6.2515e-08,  1.9046e-07, -8.1630e-07,
+         2.8522e-09,  8.7486e-08, -1.2829e-07,  7.7998e-08,  3.7346e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 427, time 252.13, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4317 re_mapping 0.0017 re_causal 0.0072 /// teacc 99.20 lr 0.00001000
+Epoch 429, weight, value: tensor([[ 0.0890, -0.1872, -0.1459,  ..., -0.1430, -0.1751, -0.1698],
+        [ 0.0519,  0.0574, -0.0335,  ..., -0.0821,  0.1751,  0.0163],
+        [-0.0706, -0.1960, -0.0081,  ...,  0.2268, -0.1991,  0.0428],
+        ...,
+        [-0.2331,  0.1546,  0.0232,  ..., -0.1792,  0.1236,  0.0655],
+        [ 0.0031, -0.0936, -0.0050,  ..., -0.1711, -0.2026, -0.3089],
+        [ 0.0363, -0.0595, -0.0182,  ..., -0.2820, -0.1966,  0.0215]],
+       device='cuda:0'), grad: tensor([[-6.4028e-10,  3.4925e-10,  0.0000e+00,  ...,  2.9104e-10,
+          2.3283e-10,  2.9104e-10],
+        [ 2.5611e-09,  2.2841e-07,  0.0000e+00,  ...,  3.8999e-09,
+          1.9872e-07,  2.2340e-07],
+        [ 1.3388e-09,  2.5728e-08,  0.0000e+00,  ...,  2.6193e-09,
+          2.0780e-08,  2.2992e-08],
+        ...,
+        [ 1.8044e-09, -2.7381e-07,  0.0000e+00,  ..., -3.6671e-09,
+         -2.3469e-07, -2.6124e-07],
+        [-1.0012e-08,  1.2224e-09,  0.0000e+00,  ..., -2.1537e-09,
+          2.3283e-09,  2.0373e-09],
+        [ 7.5670e-10,  6.0536e-09,  0.0000e+00,  ...,  8.1491e-10,
+          4.7730e-09,  5.0641e-09]], device='cuda:0')
+Epoch 429, bias, value: tensor([-0.0429,  0.0139,  0.0134,  0.0284,  0.0357, -0.0184,  0.0283,  0.0291,
+        -0.0170,  0.0006], device='cuda:0'), grad: tensor([-1.5716e-09,  6.1421e-07,  6.6997e-08,  6.1700e-09,  3.4750e-08,
+         1.7870e-08,  2.1537e-09, -7.0501e-07, -2.9220e-08,  1.9558e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 428, time 251.70, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.3760 re_mapping 0.0016 re_causal 0.0066 /// teacc 99.18 lr 0.00001000
+Epoch 430, weight, value: tensor([[ 0.0890, -0.1872, -0.1459,  ..., -0.1430, -0.1751, -0.1698],
+        [ 0.0519,  0.0573, -0.0335,  ..., -0.0821,  0.1751,  0.0163],
+        [-0.0707, -0.1961, -0.0081,  ...,  0.2268, -0.1991,  0.0428],
+        ...,
+        [-0.2331,  0.1546,  0.0232,  ..., -0.1792,  0.1236,  0.0655],
+        [ 0.0031, -0.0936, -0.0050,  ..., -0.1711, -0.2027, -0.3089],
+        [ 0.0363, -0.0596, -0.0182,  ..., -0.2820, -0.1966,  0.0215]],
+       device='cuda:0'), grad: tensor([[ 2.9104e-10,  5.8208e-11,  0.0000e+00,  ...,  1.1642e-10,
+          5.8208e-11,  1.1642e-10],
+        [-9.8953e-10, -1.7462e-09,  0.0000e+00,  ...,  1.1642e-10,
+         -3.3178e-09, -6.4028e-10],
+        [ 1.5716e-09,  3.4925e-10,  0.0000e+00,  ...,  5.8208e-11,
+          4.0745e-10,  2.9104e-10],
+        ...,
+        [ 1.3388e-09,  8.7311e-10,  0.0000e+00,  ...,  0.0000e+00,
+          1.5716e-09,  6.9849e-10],
+        [-6.9849e-10,  6.4028e-10,  0.0000e+00,  ...,  1.1642e-10,
+          1.0477e-09,  4.6566e-10],
+        [-3.3178e-09,  2.9104e-10,  0.0000e+00,  ...,  1.1642e-10,
+          4.6566e-10, -1.6880e-09]], device='cuda:0')
+Epoch 430, bias, value: tensor([-0.0429,  0.0139,  0.0134,  0.0285,  0.0357, -0.0184,  0.0283,  0.0291,
+        -0.0170,  0.0006], device='cuda:0'), grad: tensor([ 2.6776e-09,  4.7730e-09,  1.4727e-08,  1.8277e-08,  1.8161e-08,
+         5.7044e-09, -7.3342e-09,  7.4506e-09, -1.5483e-08, -3.3644e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 429, time 251.97, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4268 re_mapping 0.0017 re_causal 0.0070 /// teacc 99.16 lr 0.00001000
+Epoch 431, weight, value: tensor([[ 0.0890, -0.1872, -0.1459,  ..., -0.1430, -0.1751, -0.1698],
+        [ 0.0520,  0.0573, -0.0335,  ..., -0.0822,  0.1751,  0.0162],
+        [-0.0707, -0.1962, -0.0081,  ...,  0.2268, -0.1992,  0.0428],
+        ...,
+        [-0.2331,  0.1547,  0.0232,  ..., -0.1793,  0.1237,  0.0656],
+        [ 0.0031, -0.0936, -0.0050,  ..., -0.1711, -0.2027, -0.3090],
+        [ 0.0363, -0.0596, -0.0182,  ..., -0.2821, -0.1966,  0.0215]],
+       device='cuda:0'), grad: tensor([[ 1.1642e-10,  2.9104e-10,  0.0000e+00,  ...,  4.0745e-10,
+          2.3283e-10,  5.8208e-10],
+        [ 2.3283e-10,  8.5565e-09,  0.0000e+00,  ...,  9.8953e-09,
+          6.8685e-09,  2.1595e-08],
+        [ 2.9104e-10,  5.7044e-09,  0.0000e+00,  ..., -4.3714e-08,
+          4.8312e-09, -6.2399e-08],
+        ...,
+        [ 5.8208e-10, -2.6310e-08,  0.0000e+00,  ...,  8.7311e-10,
+         -2.0431e-08, -1.8626e-08],
+        [ 4.0745e-10,  5.8208e-10,  0.0000e+00,  ...,  4.6566e-10,
+          6.9849e-10,  1.1059e-09],
+        [-2.3283e-10,  6.5193e-09,  0.0000e+00,  ...,  3.2247e-08,
+          5.2387e-09,  5.2503e-08]], device='cuda:0')
+Epoch 431, bias, value: tensor([-0.0429,  0.0139,  0.0134,  0.0285,  0.0357, -0.0184,  0.0283,  0.0291,
+        -0.0171,  0.0006], device='cuda:0'), grad: tensor([ 3.2014e-09,  7.2992e-08, -1.8603e-07,  1.4552e-08,  1.6822e-08,
+        -3.6671e-09, -4.0745e-10, -7.1246e-08,  6.1700e-09,  1.6415e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 430, time 252.18, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4400 re_mapping 0.0017 re_causal 0.0072 /// teacc 99.16 lr 0.00001000
+Epoch 432, weight, value: tensor([[ 0.0890, -0.1872, -0.1459,  ..., -0.1430, -0.1751, -0.1698],
+        [ 0.0520,  0.0573, -0.0335,  ..., -0.0822,  0.1751,  0.0162],
+        [-0.0709, -0.1963, -0.0081,  ...,  0.2269, -0.1992,  0.0428],
+        ...,
+        [-0.2331,  0.1547,  0.0232,  ..., -0.1794,  0.1237,  0.0656],
+        [ 0.0031, -0.0937, -0.0050,  ..., -0.1711, -0.2028, -0.3090],
+        [ 0.0363, -0.0596, -0.0182,  ..., -0.2822, -0.1966,  0.0215]],
+       device='cuda:0'), grad: tensor([[ 2.3283e-10,  2.3283e-10,  0.0000e+00,  ...,  1.1642e-10,
+          2.3283e-10,  1.7462e-10],
+        [-2.5611e-09,  1.8044e-09,  0.0000e+00,  ...,  4.6566e-10,
+         -3.2596e-09,  2.5029e-09],
+        [ 8.1491e-10,  5.8208e-09,  0.0000e+00,  ...,  5.8208e-11,
+          5.0059e-09,  4.0745e-09],
+        ...,
+        [ 1.8044e-09, -1.6240e-08,  0.0000e+00,  ...,  2.9104e-10,
+         -1.1234e-08, -1.1118e-08],
+        [-5.0641e-09,  1.5134e-09,  0.0000e+00,  ..., -0.0000e+00,
+          2.2701e-09,  9.3132e-10],
+        [ 1.2224e-09,  3.2014e-09,  0.0000e+00,  ...,  3.4925e-10,
+          2.7358e-09,  2.5029e-09]], device='cuda:0')
+Epoch 432, bias, value: tensor([-0.0429,  0.0139,  0.0134,  0.0285,  0.0358, -0.0185,  0.0283,  0.0291,
+        -0.0171,  0.0006], device='cuda:0'), grad: tensor([ 1.8044e-09,  6.6357e-09,  1.8859e-08,  2.5611e-09,  1.1933e-08,
+         1.3621e-08,  3.1432e-09, -3.1374e-08, -1.6007e-08,  1.4901e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 431, time 251.95, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4114 re_mapping 0.0017 re_causal 0.0071 /// teacc 99.17 lr 0.00001000
+Epoch 433, weight, value: tensor([[ 0.0890, -0.1872, -0.1459,  ..., -0.1430, -0.1751, -0.1698],
+        [ 0.0521,  0.0573, -0.0335,  ..., -0.0822,  0.1751,  0.0162],
+        [-0.0710, -0.1964, -0.0081,  ...,  0.2269, -0.1993,  0.0428],
+        ...,
+        [-0.2332,  0.1548,  0.0232,  ..., -0.1794,  0.1237,  0.0657],
+        [ 0.0031, -0.0937, -0.0050,  ..., -0.1711, -0.2029, -0.3091],
+        [ 0.0363, -0.0596, -0.0182,  ..., -0.2822, -0.1967,  0.0215]],
+       device='cuda:0'), grad: tensor([[-1.4575e-07,  7.5670e-10,  0.0000e+00,  ...,  1.1059e-09,
+          1.2224e-09,  1.4552e-09],
+        [-1.8481e-08, -9.3132e-09,  0.0000e+00,  ..., -1.5658e-08,
+         -6.5833e-08, -1.0914e-08],
+        [ 4.0396e-08,  5.0641e-09,  0.0000e+00,  ..., -2.5320e-09,
+          1.6124e-08,  2.9104e-11],
+        ...,
+        [ 1.7113e-08, -8.0036e-09,  0.0000e+00,  ...,  1.3708e-08,
+          3.1752e-08,  4.1327e-09],
+        [ 1.4494e-08,  4.2492e-09,  0.0000e+00,  ...,  4.3656e-10,
+          8.7311e-09,  3.4051e-09],
+        [ 5.4133e-08,  4.2201e-09,  0.0000e+00,  ...,  5.5297e-10,
+          3.7253e-09, -6.8394e-09]], device='cuda:0')
+Epoch 433, bias, value: tensor([-0.0429,  0.0139,  0.0134,  0.0285,  0.0358, -0.0185,  0.0284,  0.0292,
+        -0.0171,  0.0006], device='cuda:0'), grad: tensor([-5.9232e-07, -4.6130e-08,  1.5437e-07,  3.7748e-08,  5.5326e-08,
+         2.3661e-08,  8.2771e-08,  5.1368e-08,  4.9826e-08,  1.9919e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 432, time 252.29, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4171 re_mapping 0.0017 re_causal 0.0070 /// teacc 99.16 lr 0.00001000
+Epoch 434, weight, value: tensor([[ 0.0890, -0.1872, -0.1459,  ..., -0.1430, -0.1751, -0.1698],
+        [ 0.0522,  0.0573, -0.0335,  ..., -0.0822,  0.1751,  0.0162],
+        [-0.0711, -0.1966, -0.0081,  ...,  0.2269, -0.1993,  0.0428],
+        ...,
+        [-0.2332,  0.1548,  0.0232,  ..., -0.1795,  0.1237,  0.0657],
+        [ 0.0030, -0.0938, -0.0050,  ..., -0.1711, -0.2031, -0.3091],
+        [ 0.0363, -0.0596, -0.0182,  ..., -0.2823, -0.1967,  0.0215]],
+       device='cuda:0'), grad: tensor([[-2.0140e-08,  2.3283e-09,  0.0000e+00,  ..., -2.2992e-09,
+          1.0477e-09,  3.5507e-09],
+        [-2.1973e-08, -1.6589e-08,  0.0000e+00,  ..., -4.4529e-09,
+         -3.1840e-08, -3.3760e-09],
+        [ 1.3446e-08,  3.7835e-09,  0.0000e+00,  ...,  2.1828e-09,
+          5.1223e-09,  2.5320e-09],
+        ...,
+        [ 1.0623e-08,  3.2538e-08,  0.0000e+00,  ...,  2.9686e-09,
+          1.4727e-08,  4.7585e-08],
+        [ 6.9558e-09,  4.3947e-09,  0.0000e+00,  ...,  1.6880e-09,
+          7.3924e-09,  2.3283e-09],
+        [ 1.0332e-08, -3.9494e-08,  0.0000e+00,  ...,  3.2305e-09,
+          2.0664e-09, -7.3924e-08]], device='cuda:0')
+Epoch 434, bias, value: tensor([-0.0429,  0.0139,  0.0134,  0.0285,  0.0358, -0.0185,  0.0284,  0.0292,
+        -0.0172,  0.0006], device='cuda:0'), grad: tensor([-5.4832e-08, -6.6822e-08,  5.2736e-08,  1.2689e-08,  8.0618e-08,
+        -8.4983e-09,  7.0431e-09,  2.0454e-07,  2.9366e-08, -2.3609e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 433, time 252.17, cls_loss 0.0003 cls_loss_mapping 0.0002 cls_loss_causal 0.4030 re_mapping 0.0017 re_causal 0.0070 /// teacc 99.17 lr 0.00001000
+Epoch 435, weight, value: tensor([[ 0.0890, -0.1872, -0.1459,  ..., -0.1430, -0.1751, -0.1698],
+        [ 0.0522,  0.0573, -0.0335,  ..., -0.0823,  0.1751,  0.0162],
+        [-0.0712, -0.1966, -0.0081,  ...,  0.2269, -0.1994,  0.0428],
+        ...,
+        [-0.2332,  0.1549,  0.0232,  ..., -0.1796,  0.1238,  0.0658],
+        [ 0.0030, -0.0938, -0.0050,  ..., -0.1712, -0.2031, -0.3092],
+        [ 0.0363, -0.0596, -0.0182,  ..., -0.2823, -0.1967,  0.0215]],
+       device='cuda:0'), grad: tensor([[ 8.7311e-11,  5.8208e-11,  0.0000e+00,  ...,  6.6939e-10,
+          1.1642e-10,  5.2387e-10],
+        [-3.1141e-09, -1.7462e-10,  0.0000e+00,  ...,  2.3807e-08,
+         -2.7358e-09,  1.5745e-08],
+        [ 6.9849e-10,  2.9104e-09,  0.0000e+00,  ..., -4.4121e-08,
+          3.8999e-09, -2.3778e-08],
+        ...,
+        [ 1.8335e-09, -5.6752e-09,  0.0000e+00,  ...,  2.0373e-09,
+         -4.6275e-09, -4.0454e-09],
+        [ 9.6043e-10,  8.1491e-10,  0.0000e+00,  ...,  1.5978e-08,
+          1.7171e-09,  1.0215e-08],
+        [ 3.4925e-10,  1.1933e-09,  0.0000e+00,  ...,  2.9977e-09,
+          1.4843e-09,  7.2760e-09]], device='cuda:0')
+Epoch 435, bias, value: tensor([-0.0429,  0.0139,  0.0134,  0.0285,  0.0358, -0.0185,  0.0284,  0.0292,
+        -0.0172,  0.0006], device='cuda:0'), grad: tensor([ 2.5611e-09,  6.3679e-08, -1.1298e-07, -1.7462e-10, -8.9349e-09,
+         1.9500e-09,  3.5798e-09, -4.4238e-09,  4.8894e-08,  2.0198e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 434, time 252.26, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4279 re_mapping 0.0016 re_causal 0.0070 /// teacc 99.17 lr 0.00001000
+Epoch 436, weight, value: tensor([[ 0.0890, -0.1872, -0.1459,  ..., -0.1430, -0.1751, -0.1698],
+        [ 0.0522,  0.0573, -0.0335,  ..., -0.0823,  0.1752,  0.0161],
+        [-0.0713, -0.1967, -0.0081,  ...,  0.2270, -0.1994,  0.0428],
+        ...,
+        [-0.2332,  0.1549,  0.0232,  ..., -0.1797,  0.1238,  0.0658],
+        [ 0.0030, -0.0938, -0.0050,  ..., -0.1712, -0.2032, -0.3092],
+        [ 0.0363, -0.0596, -0.0182,  ..., -0.2824, -0.1967,  0.0215]],
+       device='cuda:0'), grad: tensor([[ 2.7067e-09,  2.6484e-09,  0.0000e+00,  ...,  2.1246e-09,
+          5.0932e-09,  1.4843e-09],
+        [-8.9989e-08, -8.3353e-08,  0.0000e+00,  ...,  2.5611e-09,
+         -1.8196e-07, -2.2410e-08],
+        [ 6.6648e-09,  2.3516e-08,  0.0000e+00,  ..., -1.7550e-08,
+          2.9424e-08,  3.7544e-09],
+        ...,
+        [ 1.7724e-08, -3.2654e-08,  0.0000e+00,  ...,  3.9581e-09,
+         -2.2963e-08, -2.7823e-08],
+        [ 2.8551e-08,  5.3114e-08,  0.0000e+00,  ...,  6.0827e-09,
+          1.0966e-07,  2.1129e-08],
+        [ 1.0565e-08,  7.0431e-09,  0.0000e+00,  ...,  4.6566e-10,
+          8.5565e-09,  5.1223e-09]], device='cuda:0')
+Epoch 436, bias, value: tensor([-0.0429,  0.0139,  0.0134,  0.0285,  0.0358, -0.0185,  0.0284,  0.0292,
+        -0.0172,  0.0006], device='cuda:0'), grad: tensor([ 2.0344e-08, -3.8440e-07,  4.0745e-08,  1.7812e-08,  4.9506e-08,
+         2.1624e-08,  6.3912e-08, -2.8434e-08,  1.2526e-07,  8.0443e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 435, time 252.19, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.3931 re_mapping 0.0016 re_causal 0.0068 /// teacc 99.15 lr 0.00001000
+Epoch 437, weight, value: tensor([[ 0.0890, -0.1872, -0.1459,  ..., -0.1430, -0.1751, -0.1698],
+        [ 0.0523,  0.0573, -0.0335,  ..., -0.0823,  0.1752,  0.0161],
+        [-0.0714, -0.1968, -0.0081,  ...,  0.2270, -0.1995,  0.0428],
+        ...,
+        [-0.2333,  0.1549,  0.0232,  ..., -0.1798,  0.1238,  0.0658],
+        [ 0.0030, -0.0938, -0.0050,  ..., -0.1712, -0.2032, -0.3092],
+        [ 0.0363, -0.0596, -0.0182,  ..., -0.2824, -0.1968,  0.0215]],
+       device='cuda:0'), grad: tensor([[-6.4028e-10,  5.8208e-10,  0.0000e+00,  ...,  5.6170e-09,
+          1.7171e-09,  2.7940e-09],
+        [-3.2596e-09,  9.4296e-09,  0.0000e+00,  ...,  1.2957e-07,
+          4.4791e-08,  6.0361e-08],
+        [ 6.1118e-10,  2.9919e-08,  0.0000e+00,  ..., -2.4075e-07,
+         -4.4238e-08, -8.6147e-08],
+        ...,
+        [ 1.9209e-09, -6.3214e-08,  0.0000e+00,  ...,  2.0606e-08,
+         -5.0728e-08, -2.7940e-08],
+        [-1.3679e-09,  2.0082e-09,  0.0000e+00,  ...,  1.6269e-08,
+          7.1595e-09,  8.3237e-09],
+        [ 4.0745e-10,  2.9104e-09,  0.0000e+00,  ...,  3.1432e-09,
+          2.6484e-09,  1.8626e-09]], device='cuda:0')
+Epoch 437, bias, value: tensor([-0.0429,  0.0139,  0.0134,  0.0285,  0.0358, -0.0186,  0.0284,  0.0292,
+        -0.0172,  0.0006], device='cuda:0'), grad: tensor([ 1.2573e-08,  2.9663e-07, -4.5914e-07,  9.3831e-08,  9.8196e-08,
+         8.9058e-09,  1.5541e-08, -8.8941e-08,  2.9511e-08,  1.2777e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 436, time 252.01, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4138 re_mapping 0.0016 re_causal 0.0069 /// teacc 99.14 lr 0.00001000
+Epoch 438, weight, value: tensor([[ 0.0890, -0.1872, -0.1459,  ..., -0.1431, -0.1751, -0.1699],
+        [ 0.0523,  0.0573, -0.0335,  ..., -0.0823,  0.1752,  0.0161],
+        [-0.0714, -0.1969, -0.0081,  ...,  0.2270, -0.1995,  0.0429],
+        ...,
+        [-0.2333,  0.1549,  0.0232,  ..., -0.1799,  0.1238,  0.0658],
+        [ 0.0030, -0.0939, -0.0050,  ..., -0.1712, -0.2032, -0.3093],
+        [ 0.0363, -0.0596, -0.0182,  ..., -0.2825, -0.1968,  0.0215]],
+       device='cuda:0'), grad: tensor([[-4.9477e-10,  8.7311e-10,  0.0000e+00,  ...,  4.6566e-10,
+          1.3097e-09,  8.7311e-10],
+        [-3.8621e-08, -3.8854e-08,  0.0000e+00,  ...,  5.5006e-09,
+         -6.6299e-08, -2.1420e-08],
+        [ 3.1141e-09,  5.5297e-09,  0.0000e+00,  ..., -8.1200e-09,
+          7.0140e-09, -3.3178e-09],
+        ...,
+        [ 9.9535e-09,  9.8953e-10,  0.0000e+00,  ...,  1.8044e-09,
+          1.0157e-08,  2.4738e-09],
+        [ 2.0955e-09,  2.7649e-09,  0.0000e+00,  ...,  7.5670e-10,
+          4.8312e-09,  2.5611e-09],
+        [ 4.8312e-09,  6.7521e-09,  0.0000e+00,  ...,  7.8580e-10,
+          8.3819e-09,  5.1514e-09]], device='cuda:0')
+Epoch 438, bias, value: tensor([-0.0429,  0.0138,  0.0134,  0.0285,  0.0358, -0.0187,  0.0284,  0.0292,
+        -0.0172,  0.0006], device='cuda:0'), grad: tensor([-2.2992e-09, -1.4948e-07, -2.6484e-09,  7.9162e-09,  7.9512e-08,
+         3.6671e-09,  8.8185e-09,  2.7270e-08,  1.1903e-08,  3.3324e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 437, time 252.00, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4499 re_mapping 0.0016 re_causal 0.0071 /// teacc 99.18 lr 0.00001000
+Epoch 439, weight, value: tensor([[ 0.0891, -0.1872, -0.1459,  ..., -0.1431, -0.1751, -0.1699],
+        [ 0.0523,  0.0573, -0.0335,  ..., -0.0824,  0.1752,  0.0161],
+        [-0.0715, -0.1970, -0.0081,  ...,  0.2271, -0.1995,  0.0429],
+        ...,
+        [-0.2334,  0.1550,  0.0232,  ..., -0.1800,  0.1238,  0.0659],
+        [ 0.0030, -0.0939, -0.0050,  ..., -0.1713, -0.2033, -0.3093],
+        [ 0.0363, -0.0596, -0.0182,  ..., -0.2826, -0.1968,  0.0215]],
+       device='cuda:0'), grad: tensor([[ 4.6275e-09,  2.3865e-09,  0.0000e+00,  ...,  8.7311e-11,
+          3.6089e-09,  1.2806e-09],
+        [-4.6013e-08, -2.0809e-08,  0.0000e+00,  ..., -4.3656e-10,
+         -7.1537e-08, -1.0099e-08],
+        [ 9.0804e-09,  4.5809e-08,  0.0000e+00,  ...,  4.0745e-10,
+          4.4820e-08,  3.8126e-08],
+        ...,
+        [ 9.4296e-09, -5.8295e-08,  0.0000e+00,  ...,  1.8917e-09,
+         -2.6979e-08, -4.3685e-08],
+        [ 7.1886e-09,  1.7928e-08,  0.0000e+00,  ...,  1.4552e-10,
+          2.9628e-08,  8.9931e-09],
+        [ 8.0618e-09,  4.9185e-09,  0.0000e+00,  ...,  3.6089e-09,
+          6.1409e-09,  1.1030e-08]], device='cuda:0')
+Epoch 439, bias, value: tensor([-0.0429,  0.0138,  0.0134,  0.0285,  0.0358, -0.0187,  0.0284,  0.0292,
+        -0.0172,  0.0006], device='cuda:0'), grad: tensor([ 2.1100e-08, -1.0803e-07,  1.4401e-07,  1.9529e-08, -7.3633e-09,
+         4.4529e-09,  9.1968e-09, -1.1630e-07, -1.0070e-08,  6.4494e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 438, time 251.90, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.3947 re_mapping 0.0016 re_causal 0.0066 /// teacc 99.20 lr 0.00001000
+Epoch 440, weight, value: tensor([[ 0.0891, -0.1872, -0.1459,  ..., -0.1431, -0.1751, -0.1699],
+        [ 0.0523,  0.0573, -0.0335,  ..., -0.0824,  0.1752,  0.0161],
+        [-0.0715, -0.1971, -0.0081,  ...,  0.2272, -0.1996,  0.0429],
+        ...,
+        [-0.2334,  0.1550,  0.0232,  ..., -0.1801,  0.1239,  0.0659],
+        [ 0.0030, -0.0939, -0.0050,  ..., -0.1713, -0.2033, -0.3094],
+        [ 0.0363, -0.0596, -0.0182,  ..., -0.2827, -0.1969,  0.0215]],
+       device='cuda:0'), grad: tensor([[-4.0163e-09,  2.1537e-09,  0.0000e+00,  ...,  6.4028e-10,
+          1.4552e-10,  4.4529e-09],
+        [ 2.9104e-10,  4.1939e-08,  0.0000e+00,  ...,  1.9878e-08,
+          3.0152e-08,  6.6531e-08],
+        [ 6.6939e-10,  2.6223e-08,  0.0000e+00,  ...,  4.3656e-09,
+          1.9558e-08,  2.9017e-08],
+        ...,
+        [ 4.0745e-10, -5.4424e-08,  0.0000e+00,  ...,  1.2759e-07,
+         -6.2690e-08,  1.7986e-07],
+        [ 3.9290e-09,  1.3388e-09,  0.0000e+00,  ...,  1.3097e-09,
+          9.6043e-10,  2.4447e-09],
+        [ 2.7940e-09, -5.1514e-09,  0.0000e+00,  ...,  1.8114e-07,
+          9.7789e-09,  2.5774e-07]], device='cuda:0')
+Epoch 440, bias, value: tensor([-0.0429,  0.0138,  0.0134,  0.0285,  0.0358, -0.0187,  0.0284,  0.0292,
+        -0.0172,  0.0006], device='cuda:0'), grad: tensor([-1.9791e-09,  2.1467e-07,  1.0349e-07,  1.5163e-08, -1.3886e-06,
+        -2.3720e-08,  1.8306e-08,  4.1956e-07,  2.3778e-08,  6.3051e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 439, time 252.35, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4184 re_mapping 0.0016 re_causal 0.0068 /// teacc 99.22 lr 0.00001000
+Epoch 441, weight, value: tensor([[ 0.0891, -0.1872, -0.1459,  ..., -0.1431, -0.1751, -0.1699],
+        [ 0.0523,  0.0573, -0.0335,  ..., -0.0825,  0.1752,  0.0160],
+        [-0.0716, -0.1973, -0.0080,  ...,  0.2272, -0.1996,  0.0429],
+        ...,
+        [-0.2334,  0.1551,  0.0232,  ..., -0.1803,  0.1239,  0.0660],
+        [ 0.0030, -0.0939, -0.0050,  ..., -0.1713, -0.2033, -0.3094],
+        [ 0.0363, -0.0597, -0.0182,  ..., -0.2828, -0.1969,  0.0215]],
+       device='cuda:0'), grad: tensor([[-2.9133e-08,  1.4552e-10,  0.0000e+00,  ...,  1.3679e-09,
+         -6.6648e-09,  1.3097e-09],
+        [-1.4843e-09,  4.0454e-09,  0.0000e+00,  ...,  2.7328e-08,
+         -2.3283e-10,  2.5728e-08],
+        [ 1.4261e-09,  6.0245e-09,  0.0000e+00,  ..., -1.2049e-08,
+          5.0059e-09, -4.6566e-09],
+        ...,
+        [ 2.0955e-09, -1.8888e-08,  0.0000e+00,  ...,  7.2760e-09,
+         -1.3009e-08, -6.6939e-09],
+        [ 1.8044e-09,  5.5297e-10,  0.0000e+00,  ...,  8.4401e-10,
+          1.1933e-09,  1.1642e-09],
+        [ 9.1095e-09,  1.1350e-09,  0.0000e+00,  ...,  5.5588e-09,
+          4.4238e-09,  1.5716e-09]], device='cuda:0')
+Epoch 441, bias, value: tensor([-0.0429,  0.0137,  0.0135,  0.0285,  0.0358, -0.0187,  0.0285,  0.0293,
+        -0.0173,  0.0006], device='cuda:0'), grad: tensor([-2.2841e-07,  1.0803e-07,  1.5320e-07, -1.8871e-07, -7.4913e-08,
+         7.3458e-08,  5.9139e-08, -2.8522e-09,  2.0955e-08,  9.2434e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 440, time 251.84, cls_loss 0.0004 cls_loss_mapping 0.0004 cls_loss_causal 0.4031 re_mapping 0.0016 re_causal 0.0066 /// teacc 99.22 lr 0.00001000
+Epoch 442, weight, value: tensor([[ 0.0891, -0.1872, -0.1459,  ..., -0.1431, -0.1751, -0.1699],
+        [ 0.0524,  0.0572, -0.0335,  ..., -0.0826,  0.1752,  0.0159],
+        [-0.0717, -0.1974, -0.0080,  ...,  0.2273, -0.1997,  0.0429],
+        ...,
+        [-0.2335,  0.1552,  0.0232,  ..., -0.1804,  0.1240,  0.0660],
+        [ 0.0030, -0.0939, -0.0050,  ..., -0.1714, -0.2033, -0.3095],
+        [ 0.0363, -0.0597, -0.0182,  ..., -0.2829, -0.1969,  0.0215]],
+       device='cuda:0'), grad: tensor([[-3.9086e-08,  1.1642e-10,  0.0000e+00,  ...,  9.5170e-09,
+          1.4552e-10,  2.4447e-09],
+        [-5.3551e-09,  1.8044e-09,  0.0000e+00,  ...,  1.3300e-08,
+         -8.0909e-09,  5.5297e-09],
+        [-1.7200e-08,  1.8947e-08,  0.0000e+00,  ..., -6.2981e-08,
+          1.2689e-08, -2.1420e-08],
+        ...,
+        [ 3.7544e-09, -2.9628e-08,  0.0000e+00,  ...,  2.1828e-09,
+         -1.5309e-08, -3.1636e-08],
+        [ 1.6735e-08,  1.1642e-09,  0.0000e+00,  ...,  5.9023e-08,
+          2.1537e-09,  3.7631e-08],
+        [ 3.5594e-08,  4.2492e-09,  0.0000e+00,  ...,  6.6939e-10,
+          3.3178e-09,  2.7067e-09]], device='cuda:0')
+Epoch 442, bias, value: tensor([-0.0429,  0.0137,  0.0135,  0.0285,  0.0358, -0.0188,  0.0285,  0.0293,
+        -0.0173,  0.0006], device='cuda:0'), grad: tensor([-1.4785e-07,  3.9581e-08, -1.1467e-07,  1.4319e-08,  4.2870e-08,
+         8.5565e-09, -6.9616e-08, -7.7300e-08,  1.6170e-07,  1.5856e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 441, time 251.70, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4098 re_mapping 0.0016 re_causal 0.0066 /// teacc 99.21 lr 0.00001000
+Epoch 443, weight, value: tensor([[ 0.0891, -0.1872, -0.1459,  ..., -0.1432, -0.1751, -0.1699],
+        [ 0.0524,  0.0572, -0.0335,  ..., -0.0826,  0.1752,  0.0158],
+        [-0.0718, -0.1975, -0.0080,  ...,  0.2273, -0.1997,  0.0429],
+        ...,
+        [-0.2335,  0.1553,  0.0232,  ..., -0.1805,  0.1241,  0.0661],
+        [ 0.0030, -0.0939, -0.0050,  ..., -0.1714, -0.2034, -0.3095],
+        [ 0.0363, -0.0597, -0.0182,  ..., -0.2829, -0.1969,  0.0215]],
+       device='cuda:0'), grad: tensor([[ 2.8813e-09,  5.8208e-10,  0.0000e+00,  ...,  5.5297e-10,
+          4.0745e-10,  1.4552e-10],
+        [-4.3452e-08, -5.9285e-08,  0.0000e+00,  ...,  2.0373e-10,
+         -7.0781e-08, -2.7678e-08],
+        [ 3.8999e-09,  4.3365e-09,  0.0000e+00,  ...,  8.7311e-11,
+          5.3551e-09,  2.2119e-09],
+        ...,
+        [ 2.4040e-08,  1.7957e-08,  0.0000e+00,  ...,  1.1642e-10,
+          2.1275e-08,  7.6834e-09],
+        [ 6.6939e-10,  3.2800e-08,  0.0000e+00,  ...,  1.1642e-10,
+          4.1939e-08,  1.6764e-08],
+        [ 9.0513e-09,  2.1537e-09,  0.0000e+00,  ...,  3.2014e-10,
+          1.7462e-09,  9.6043e-10]], device='cuda:0')
+Epoch 443, bias, value: tensor([-0.0429,  0.0137,  0.0135,  0.0285,  0.0358, -0.0189,  0.0285,  0.0294,
+        -0.0173,  0.0006], device='cuda:0'), grad: tensor([ 2.8987e-08, -1.0722e-07,  2.4942e-08, -2.0955e-09,  6.4611e-09,
+         2.9773e-08,  5.2096e-09,  1.1828e-07, -1.5728e-07,  7.7940e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 442, time 252.34, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4127 re_mapping 0.0016 re_causal 0.0069 /// teacc 99.18 lr 0.00001000
+Epoch 444, weight, value: tensor([[ 0.0891, -0.1872, -0.1459,  ..., -0.1432, -0.1751, -0.1699],
+        [ 0.0524,  0.0572, -0.0335,  ..., -0.0826,  0.1752,  0.0158],
+        [-0.0718, -0.1977, -0.0080,  ...,  0.2274, -0.1998,  0.0430],
+        ...,
+        [-0.2335,  0.1553,  0.0232,  ..., -0.1808,  0.1241,  0.0662],
+        [ 0.0030, -0.0940, -0.0050,  ..., -0.1714, -0.2034, -0.3096],
+        [ 0.0364, -0.0597, -0.0182,  ..., -0.2830, -0.1970,  0.0215]],
+       device='cuda:0'), grad: tensor([[-5.8790e-09,  1.1642e-10,  0.0000e+00,  ...,  6.4028e-10,
+          1.1642e-10,  4.9477e-10],
+        [ 4.9477e-10,  5.1514e-08,  0.0000e+00,  ...,  2.0664e-09,
+          5.1805e-08,  5.0321e-08],
+        [ 6.1118e-10,  1.2689e-08,  0.0000e+00,  ..., -1.0768e-08,
+          9.2259e-09, -8.7311e-11],
+        ...,
+        [ 1.0768e-09, -7.2294e-08,  0.0000e+00,  ...,  3.2887e-09,
+         -6.6939e-08, -6.3446e-08],
+        [-4.3656e-10,  8.7311e-10,  0.0000e+00,  ...,  1.2224e-09,
+          1.1642e-09,  1.7753e-09],
+        [ 2.5611e-09,  2.3574e-09,  0.0000e+00,  ...,  3.7835e-10,
+          1.9791e-09,  2.4447e-09]], device='cuda:0')
+Epoch 444, bias, value: tensor([-0.0429,  0.0136,  0.0135,  0.0285,  0.0357, -0.0189,  0.0285,  0.0294,
+        -0.0173,  0.0007], device='cuda:0'), grad: tensor([-2.5786e-08,  1.5064e-07,  1.7142e-08, -2.9511e-08,  1.7200e-08,
+         2.6892e-08,  4.2201e-09, -1.7881e-07,  7.3342e-09,  2.1420e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 443, time 252.35, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4045 re_mapping 0.0016 re_causal 0.0068 /// teacc 99.15 lr 0.00001000
+Epoch 445, weight, value: tensor([[ 0.0891, -0.1872, -0.1459,  ..., -0.1432, -0.1751, -0.1699],
+        [ 0.0524,  0.0572, -0.0335,  ..., -0.0827,  0.1752,  0.0158],
+        [-0.0719, -0.1978, -0.0080,  ...,  0.2275, -0.1999,  0.0430],
+        ...,
+        [-0.2336,  0.1554,  0.0232,  ..., -0.1809,  0.1241,  0.0662],
+        [ 0.0030, -0.0940, -0.0050,  ..., -0.1715, -0.2035, -0.3097],
+        [ 0.0363, -0.0597, -0.0182,  ..., -0.2831, -0.1970,  0.0215]],
+       device='cuda:0'), grad: tensor([[-3.6764e-07, -2.1129e-08,  0.0000e+00,  ..., -2.1013e-07,
+         -2.6484e-08,  5.2387e-10],
+        [ 1.6869e-07,  7.8580e-10,  0.0000e+00,  ...,  1.0582e-07,
+         -1.0536e-08, -4.1327e-09],
+        [ 2.6484e-08,  8.4692e-09,  0.0000e+00,  ..., -8.4692e-09,
+          1.2864e-08, -9.5461e-09],
+        ...,
+        [ 4.3365e-09, -3.5594e-08,  0.0000e+00,  ...,  2.9104e-09,
+         -2.4942e-08, -3.0617e-08],
+        [-5.0350e-09,  2.0082e-09,  0.0000e+00,  ...,  3.3469e-09,
+          4.3074e-09,  1.7171e-09],
+        [ 9.4296e-09,  3.8417e-09,  0.0000e+00,  ...,  2.9104e-09,
+          3.3469e-09,  2.5611e-09]], device='cuda:0')
+Epoch 445, bias, value: tensor([-0.0429,  0.0136,  0.0135,  0.0285,  0.0357, -0.0190,  0.0285,  0.0294,
+        -0.0173,  0.0006], device='cuda:0'), grad: tensor([-1.4082e-06,  6.6031e-07,  4.5839e-08,  8.9814e-08,  9.2899e-08,
+        -2.2672e-08,  5.7789e-07, -6.0420e-08, -6.1991e-09,  4.2695e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 444, time 252.22, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.3901 re_mapping 0.0015 re_causal 0.0064 /// teacc 99.20 lr 0.00001000
+Epoch 446, weight, value: tensor([[ 0.0891, -0.1873, -0.1459,  ..., -0.1432, -0.1751, -0.1699],
+        [ 0.0525,  0.0571, -0.0335,  ..., -0.0828,  0.1752,  0.0157],
+        [-0.0720, -0.1980, -0.0080,  ...,  0.2276, -0.1999,  0.0430],
+        ...,
+        [-0.2336,  0.1555,  0.0232,  ..., -0.1810,  0.1242,  0.0663],
+        [ 0.0030, -0.0940, -0.0050,  ..., -0.1715, -0.2035, -0.3097],
+        [ 0.0364, -0.0597, -0.0182,  ..., -0.2832, -0.1970,  0.0215]],
+       device='cuda:0'), grad: tensor([[ 5.2387e-10,  5.8208e-10,  0.0000e+00,  ...,  6.6939e-10,
+          1.6007e-09,  9.8953e-10],
+        [-7.4331e-08, -8.1200e-09,  0.0000e+00,  ...,  4.6566e-10,
+         -8.4983e-08, -3.7719e-08],
+        [ 1.2777e-08,  4.7672e-08,  0.0000e+00,  ..., -2.6776e-09,
+          4.6712e-08,  3.9086e-08],
+        ...,
+        [ 2.8260e-08, -6.5134e-08,  0.0000e+00,  ...,  1.7753e-09,
+         -1.6036e-08, -3.6147e-08],
+        [ 6.0827e-09,  2.7649e-09,  0.0000e+00,  ...,  7.5670e-10,
+          9.2550e-09,  4.1327e-09],
+        [ 7.6543e-09,  1.0419e-08,  0.0000e+00,  ...,  1.1642e-10,
+          1.4115e-08,  1.0768e-08]], device='cuda:0')
+Epoch 446, bias, value: tensor([-0.0429,  0.0136,  0.0135,  0.0285,  0.0357, -0.0191,  0.0285,  0.0294,
+        -0.0173,  0.0006], device='cuda:0'), grad: tensor([ 7.5670e-09, -2.5565e-07,  1.9302e-07, -7.7765e-08,  4.1531e-08,
+         8.7311e-08,  4.4820e-09, -8.9989e-08,  3.7369e-08,  6.1933e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 445, time 252.40, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4066 re_mapping 0.0016 re_causal 0.0067 /// teacc 99.18 lr 0.00001000
+Epoch 447, weight, value: tensor([[ 0.0892, -0.1873, -0.1459,  ..., -0.1432, -0.1751, -0.1699],
+        [ 0.0526,  0.0571, -0.0333,  ..., -0.0828,  0.1752,  0.0157],
+        [-0.0721, -0.1982, -0.0080,  ...,  0.2276, -0.2000,  0.0430],
+        ...,
+        [-0.2337,  0.1556,  0.0231,  ..., -0.1811,  0.1242,  0.0664],
+        [ 0.0030, -0.0940, -0.0050,  ..., -0.1715, -0.2036, -0.3098],
+        [ 0.0364, -0.0597, -0.0182,  ..., -0.2834, -0.1971,  0.0215]],
+       device='cuda:0'), grad: tensor([[ 1.4552e-10,  2.0373e-10,  0.0000e+00,  ...,  6.9849e-10,
+          5.2387e-10,  7.5670e-10],
+        [-3.4343e-09, -1.7608e-08,  0.0000e+00,  ..., -4.1327e-09,
+         -1.0419e-07, -3.4430e-08],
+        [ 3.0850e-09,  1.2835e-08,  0.0000e+00,  ..., -1.3330e-08,
+          3.7864e-08,  4.9185e-09],
+        ...,
+        [ 2.3865e-09, -7.2760e-09,  0.0000e+00,  ...,  5.5297e-09,
+          3.0675e-08,  5.6170e-09],
+        [-4.7730e-09,  1.5134e-09,  0.0000e+00,  ...,  3.2014e-10,
+          4.1327e-09,  3.2014e-09],
+        [ 9.0222e-10,  3.0559e-09,  0.0000e+00,  ...,  5.8208e-10,
+          4.1327e-09,  3.0559e-09]], device='cuda:0')
+Epoch 447, bias, value: tensor([-0.0428,  0.0136,  0.0135,  0.0285,  0.0357, -0.0192,  0.0285,  0.0294,
+        -0.0174,  0.0006], device='cuda:0'), grad: tensor([ 4.4529e-09, -1.9942e-07,  5.1659e-08,  6.1991e-09,  6.4261e-08,
+         2.0693e-08,  5.7626e-09,  6.8161e-08, -1.9063e-08,  1.7695e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 446, time 252.77, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4311 re_mapping 0.0015 re_causal 0.0067 /// teacc 99.17 lr 0.00001000
+Epoch 448, weight, value: tensor([[ 0.0892, -0.1873, -0.1459,  ..., -0.1432, -0.1751, -0.1699],
+        [ 0.0526,  0.0571, -0.0333,  ..., -0.0829,  0.1753,  0.0156],
+        [-0.0723, -0.1984, -0.0080,  ...,  0.2277, -0.2001,  0.0430],
+        ...,
+        [-0.2338,  0.1556,  0.0231,  ..., -0.1812,  0.1243,  0.0664],
+        [ 0.0030, -0.0941, -0.0050,  ..., -0.1715, -0.2037, -0.3098],
+        [ 0.0364, -0.0597, -0.0182,  ..., -0.2835, -0.1972,  0.0215]],
+       device='cuda:0'), grad: tensor([[ 6.4028e-10,  6.1118e-10,  0.0000e+00,  ...,  3.4925e-10,
+          8.7311e-10,  8.4401e-10],
+        [-8.1374e-08, -1.1449e-07,  0.0000e+00,  ..., -2.3545e-08,
+         -2.0803e-07, -1.6158e-07],
+        [ 2.3196e-08,  3.1112e-08,  0.0000e+00,  ...,  3.5507e-09,
+          5.0612e-08,  3.8097e-08],
+        ...,
+        [ 3.8155e-08,  4.0105e-08,  0.0000e+00,  ...,  1.1467e-08,
+          7.6252e-08,  6.0711e-08],
+        [-2.7998e-08, -4.1618e-09,  0.0000e+00,  ...,  4.9477e-10,
+          2.0955e-09,  1.6298e-09],
+        [ 1.7171e-09,  6.6648e-09,  0.0000e+00,  ...,  3.4925e-09,
+          1.0477e-08,  6.4028e-09]], device='cuda:0')
+Epoch 448, bias, value: tensor([-0.0428,  0.0135,  0.0135,  0.0286,  0.0358, -0.0192,  0.0285,  0.0294,
+        -0.0174,  0.0006], device='cuda:0'), grad: tensor([ 4.5402e-09, -4.1793e-07,  1.2922e-07,  8.1200e-09,  1.6263e-07,
+         4.8691e-08,  6.1991e-09,  1.8964e-07, -1.3725e-07,  2.1304e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 447, time 252.21, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.3865 re_mapping 0.0015 re_causal 0.0066 /// teacc 99.20 lr 0.00001000
+Epoch 449, weight, value: tensor([[ 0.0892, -0.1873, -0.1459,  ..., -0.1432, -0.1751, -0.1699],
+        [ 0.0527,  0.0571, -0.0333,  ..., -0.0830,  0.1753,  0.0156],
+        [-0.0724, -0.1985, -0.0080,  ...,  0.2277, -0.2002,  0.0430],
+        ...,
+        [-0.2338,  0.1557,  0.0231,  ..., -0.1814,  0.1243,  0.0664],
+        [ 0.0030, -0.0941, -0.0050,  ..., -0.1716, -0.2037, -0.3099],
+        [ 0.0364, -0.0598, -0.0182,  ..., -0.2837, -0.1972,  0.0215]],
+       device='cuda:0'), grad: tensor([[ 5.8208e-11,  8.7311e-11,  0.0000e+00,  ...,  5.8208e-11,
+          1.1642e-10,  8.7311e-11],
+        [-2.1246e-09,  7.8580e-10,  0.0000e+00,  ...,  1.0186e-09,
+         -3.2596e-09,  1.2806e-09],
+        [ 6.4028e-10,  2.5320e-09,  0.0000e+00,  ..., -1.2806e-09,
+          2.4738e-09,  1.2806e-09],
+        ...,
+        [ 1.7462e-09, -6.5484e-09,  0.0000e+00,  ...,  6.9849e-10,
+         -2.4447e-09, -4.7439e-09],
+        [ 1.1642e-10,  6.9849e-10,  0.0000e+00,  ...,  1.4552e-10,
+          1.2806e-09,  6.6939e-10],
+        [ 4.0745e-10,  7.5670e-10,  0.0000e+00,  ...,  1.7753e-09,
+          8.1491e-10,  2.1537e-09]], device='cuda:0')
+Epoch 449, bias, value: tensor([-0.0428,  0.0135,  0.0135,  0.0286,  0.0358, -0.0193,  0.0285,  0.0294,
+        -0.0174,  0.0006], device='cuda:0'), grad: tensor([ 6.4028e-10,  3.5798e-09,  5.8208e-09, -6.9849e-10, -1.9209e-09,
+         4.7439e-09,  2.0373e-09, -9.0513e-09,  2.6193e-10,  1.0012e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 448, time 252.22, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4047 re_mapping 0.0016 re_causal 0.0068 /// teacc 99.21 lr 0.00001000
+Epoch 450, weight, value: tensor([[ 0.0892, -0.1873, -0.1459,  ..., -0.1432, -0.1751, -0.1699],
+        [ 0.0527,  0.0571, -0.0333,  ..., -0.0830,  0.1753,  0.0156],
+        [-0.0725, -0.1987, -0.0080,  ...,  0.2277, -0.2002,  0.0430],
+        ...,
+        [-0.2339,  0.1557,  0.0231,  ..., -0.1814,  0.1244,  0.0665],
+        [ 0.0030, -0.0941, -0.0050,  ..., -0.1716, -0.2038, -0.3100],
+        [ 0.0364, -0.0598, -0.0182,  ..., -0.2837, -0.1972,  0.0215]],
+       device='cuda:0'), grad: tensor([[ 3.2014e-10,  5.8208e-11,  0.0000e+00,  ...,  8.7311e-11,
+          5.8208e-11,  1.7462e-10],
+        [-1.4552e-10, -1.7462e-10,  0.0000e+00,  ...,  1.2515e-09,
+         -2.5902e-09,  2.2410e-09],
+        [ 1.0186e-09,  1.7171e-09,  0.0000e+00,  ...,  8.7311e-11,
+          1.3679e-09,  1.6589e-09],
+        ...,
+        [ 1.8626e-09, -1.9791e-09,  0.0000e+00,  ...,  1.0186e-09,
+         -3.2014e-10, -3.7835e-10],
+        [-1.4901e-08,  5.8208e-10,  0.0000e+00,  ...,  2.9104e-11,
+          1.0186e-09,  9.6043e-10],
+        [ 6.0245e-09,  4.6566e-10,  0.0000e+00,  ...,  2.8522e-09,
+          4.3656e-10, -5.8208e-10]], device='cuda:0')
+Epoch 450, bias, value: tensor([-0.0428,  0.0135,  0.0134,  0.0286,  0.0358, -0.0194,  0.0286,  0.0295,
+        -0.0174,  0.0006], device='cuda:0'), grad: tensor([ 2.1828e-09,  1.4319e-08,  9.9826e-09,  1.1583e-08, -1.6356e-08,
+         1.8161e-08,  4.6857e-09,  8.7894e-09, -7.9395e-08,  4.8283e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 449, time 252.64, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4217 re_mapping 0.0015 re_causal 0.0067 /// teacc 99.18 lr 0.00001000
+Epoch 451, weight, value: tensor([[ 0.0892, -0.1873, -0.1459,  ..., -0.1432, -0.1751, -0.1699],
+        [ 0.0527,  0.0571, -0.0333,  ..., -0.0830,  0.1753,  0.0156],
+        [-0.0727, -0.1989, -0.0080,  ...,  0.2278, -0.2003,  0.0430],
+        ...,
+        [-0.2339,  0.1558,  0.0231,  ..., -0.1815,  0.1244,  0.0665],
+        [ 0.0030, -0.0942, -0.0050,  ..., -0.1716, -0.2038, -0.3100],
+        [ 0.0364, -0.0598, -0.0182,  ..., -0.2838, -0.1973,  0.0216]],
+       device='cuda:0'), grad: tensor([[ 5.8208e-11,  2.9104e-10,  0.0000e+00,  ...,  4.9477e-10,
+          5.2387e-10,  1.1205e-08],
+        [-3.1723e-09, -5.8208e-09,  0.0000e+00,  ...,  1.3388e-09,
+         -1.1700e-08,  2.4884e-08],
+        [ 3.8999e-09,  7.5670e-10,  0.0000e+00,  ...,  4.3656e-10,
+          1.4552e-09,  8.6729e-09],
+        ...,
+        [ 2.7940e-09,  2.6484e-09,  0.0000e+00,  ...,  7.2760e-10,
+          5.1805e-09,  6.5600e-08],
+        [-5.0641e-09,  1.9209e-09,  0.0000e+00,  ...,  6.6939e-10,
+          3.6962e-09,  7.3051e-09],
+        [ 1.8626e-09, -1.0768e-09,  0.0000e+00,  ...,  1.2835e-08,
+         -1.9791e-09, -2.9034e-07]], device='cuda:0')
+Epoch 451, bias, value: tensor([-0.0428,  0.0135,  0.0134,  0.0287,  0.0357, -0.0194,  0.0285,  0.0295,
+        -0.0174,  0.0007], device='cuda:0'), grad: tensor([ 4.5198e-08,  1.1001e-07,  5.7888e-08,  1.3533e-08,  5.8394e-07,
+        -6.8976e-09,  6.5251e-08,  2.7800e-07, -5.8208e-10, -1.1297e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 450, time 252.27, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4249 re_mapping 0.0016 re_causal 0.0068 /// teacc 99.15 lr 0.00001000
+Epoch 452, weight, value: tensor([[ 0.0893, -0.1873, -0.1459,  ..., -0.1432, -0.1751, -0.1699],
+        [ 0.0528,  0.0571, -0.0333,  ..., -0.0831,  0.1753,  0.0155],
+        [-0.0728, -0.1992, -0.0080,  ...,  0.2278, -0.2004,  0.0430],
+        ...,
+        [-0.2340,  0.1559,  0.0231,  ..., -0.1816,  0.1245,  0.0666],
+        [ 0.0030, -0.0942, -0.0050,  ..., -0.1717, -0.2040, -0.3101],
+        [ 0.0364, -0.0598, -0.0182,  ..., -0.2839, -0.1973,  0.0216]],
+       device='cuda:0'), grad: tensor([[ 3.2014e-10,  1.7462e-10,  0.0000e+00,  ...,  3.2014e-10,
+          2.3283e-10,  4.6566e-10],
+        [ 2.0082e-09,  1.4552e-10,  0.0000e+00,  ...,  5.3522e-08,
+          6.9267e-09,  2.7503e-08],
+        [ 8.1491e-10,  3.1432e-09,  0.0000e+00,  ..., -5.8790e-08,
+         -8.3528e-09, -2.4273e-08],
+        ...,
+        [ 2.1537e-09, -4.8603e-09,  0.0000e+00,  ...,  3.6962e-09,
+         -1.3970e-09,  1.7462e-10],
+        [-6.4902e-09,  2.3283e-10,  0.0000e+00,  ...,  8.4401e-10,
+          1.7753e-09,  1.1642e-09],
+        [-1.5454e-08,  1.7462e-09,  0.0000e+00,  ...,  5.8208e-10,
+          1.2224e-09, -2.2759e-08]], device='cuda:0')
+Epoch 452, bias, value: tensor([-0.0428,  0.0134,  0.0134,  0.0287,  0.0357, -0.0195,  0.0285,  0.0295,
+        -0.0175,  0.0007], device='cuda:0'), grad: tensor([ 2.2410e-09,  9.7090e-08, -8.2888e-08,  1.2951e-08,  6.7055e-08,
+         5.8790e-09,  2.7940e-09,  3.3178e-09, -2.1624e-08, -6.5193e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 451, time 251.79, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4209 re_mapping 0.0015 re_causal 0.0066 /// teacc 99.16 lr 0.00001000
+Epoch 453, weight, value: tensor([[ 0.0893, -0.1873, -0.1459,  ..., -0.1432, -0.1750, -0.1699],
+        [ 0.0529,  0.0571, -0.0334,  ..., -0.0832,  0.1753,  0.0154],
+        [-0.0730, -0.1994, -0.0080,  ...,  0.2279, -0.2005,  0.0431],
+        ...,
+        [-0.2340,  0.1560,  0.0231,  ..., -0.1818,  0.1245,  0.0667],
+        [ 0.0030, -0.0943, -0.0050,  ..., -0.1717, -0.2040, -0.3102],
+        [ 0.0364, -0.0598, -0.0182,  ..., -0.2840, -0.1974,  0.0216]],
+       device='cuda:0'), grad: tensor([[-9.2987e-09, -1.6298e-09,  0.0000e+00,  ...,  5.0932e-10,
+         -2.5320e-09,  2.1828e-10],
+        [-5.5006e-09,  6.9267e-09,  0.0000e+00,  ...,  5.2241e-09,
+         -3.9581e-09,  8.7748e-09],
+        [ 1.2515e-09,  8.4838e-09,  0.0000e+00,  ...,  2.4738e-10,
+          6.5193e-09,  5.5006e-09],
+        ...,
+        [ 2.7649e-09, -2.1508e-08,  0.0000e+00,  ...,  1.8335e-09,
+         -1.2238e-08, -1.1671e-08],
+        [ 2.8376e-09,  1.4843e-09,  0.0000e+00,  ...,  1.7462e-10,
+          2.4593e-09,  1.1933e-09],
+        [ 4.9768e-09,  1.0128e-08,  0.0000e+00,  ...,  8.1782e-09,
+          5.8935e-09,  1.3039e-08]], device='cuda:0')
+Epoch 453, bias, value: tensor([-0.0428,  0.0134,  0.0134,  0.0287,  0.0357, -0.0195,  0.0285,  0.0296,
+        -0.0175,  0.0007], device='cuda:0'), grad: tensor([-6.9325e-08,  2.6892e-08,  2.9017e-08,  2.1726e-08, -5.5821e-08,
+        -3.2189e-08,  2.1479e-08, -3.6904e-08,  1.8073e-08,  8.4750e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 452, time 252.05, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4303 re_mapping 0.0015 re_causal 0.0066 /// teacc 99.14 lr 0.00001000
+Epoch 454, weight, value: tensor([[ 0.0893, -0.1873, -0.1459,  ..., -0.1433, -0.1750, -0.1699],
+        [ 0.0529,  0.0570, -0.0333,  ..., -0.0833,  0.1754,  0.0154],
+        [-0.0731, -0.1995, -0.0080,  ...,  0.2280, -0.2005,  0.0431],
+        ...,
+        [-0.2341,  0.1561,  0.0231,  ..., -0.1821,  0.1246,  0.0667],
+        [ 0.0030, -0.0943, -0.0050,  ..., -0.1717, -0.2041, -0.3103],
+        [ 0.0364, -0.0598, -0.0182,  ..., -0.2842, -0.1974,  0.0216]],
+       device='cuda:0'), grad: tensor([[-1.4261e-09,  1.0186e-10,  0.0000e+00,  ...,  6.3446e-09,
+          1.1642e-10,  2.0373e-10],
+        [ 7.4215e-10,  4.6421e-09,  0.0000e+00,  ...,  6.6939e-10,
+          4.8603e-09,  4.6712e-09],
+        [ 1.3533e-09,  4.7003e-09,  0.0000e+00,  ...,  1.6007e-10,
+          4.8312e-09,  3.7107e-09],
+        ...,
+        [ 3.4925e-10, -1.5280e-08,  0.0000e+00,  ...,  5.0932e-10,
+         -1.6313e-08, -1.0943e-08],
+        [ 3.3469e-10,  2.6193e-10,  0.0000e+00,  ...,  8.0036e-10,
+          2.4738e-10,  3.3469e-10],
+        [-2.9104e-10,  1.6880e-09,  0.0000e+00,  ...,  9.4587e-10,
+          1.8917e-09, -1.3388e-09]], device='cuda:0')
+Epoch 454, bias, value: tensor([-0.0428,  0.0133,  0.0134,  0.0287,  0.0357, -0.0195,  0.0285,  0.0296,
+        -0.0175,  0.0007], device='cuda:0'), grad: tensor([ 3.1665e-08,  2.6426e-08,  5.2969e-08, -1.0617e-07,  9.5897e-09,
+         4.6857e-08, -4.7177e-08, -3.4808e-08,  2.3225e-08,  4.3656e-11],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 453, time 251.81, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4198 re_mapping 0.0015 re_causal 0.0066 /// teacc 99.20 lr 0.00001000
+Epoch 455, weight, value: tensor([[ 0.0893, -0.1873, -0.1459,  ..., -0.1433, -0.1750, -0.1699],
+        [ 0.0529,  0.0570, -0.0333,  ..., -0.0835,  0.1753,  0.0152],
+        [-0.0732, -0.1997, -0.0080,  ...,  0.2282, -0.2006,  0.0432],
+        ...,
+        [-0.2342,  0.1562,  0.0231,  ..., -0.1821,  0.1247,  0.0669],
+        [ 0.0030, -0.0943, -0.0050,  ..., -0.1718, -0.2041, -0.3104],
+        [ 0.0364, -0.0598, -0.0182,  ..., -0.2843, -0.1975,  0.0216]],
+       device='cuda:0'), grad: tensor([[-1.8626e-09, -2.9104e-11,  0.0000e+00,  ...,  9.0222e-10,
+         -1.4552e-11,  1.1205e-09],
+        [ 1.0332e-09,  5.0641e-09,  0.0000e+00,  ...,  1.6007e-10,
+          1.1933e-09,  5.8935e-09],
+        [ 1.6444e-09,  1.8917e-09,  0.0000e+00,  ...,  3.1578e-09,
+          3.7253e-09,  1.7142e-08],
+        ...,
+        [ 1.6589e-09, -9.5024e-09,  0.0000e+00,  ...,  3.3033e-09,
+         -5.4424e-09,  4.5111e-10],
+        [ 3.7980e-09,  1.1350e-09,  0.0000e+00,  ...,  1.3242e-09,
+          1.3679e-09,  4.5693e-09],
+        [-1.6007e-08,  1.8335e-09,  0.0000e+00,  ...,  3.0414e-09,
+          1.3824e-09, -8.5856e-09]], device='cuda:0')
+Epoch 455, bias, value: tensor([-0.0427,  0.0132,  0.0135,  0.0287,  0.0358, -0.0196,  0.0285,  0.0296,
+        -0.0176,  0.0006], device='cuda:0'), grad: tensor([ 1.6589e-09,  3.6671e-08,  2.8592e-07, -4.1095e-07,  6.9209e-08,
+         3.2858e-08, -1.0215e-08,  4.0105e-08,  3.1490e-08, -5.4599e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 454, time 251.68, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4208 re_mapping 0.0015 re_causal 0.0066 /// teacc 99.18 lr 0.00001000
+Epoch 456, weight, value: tensor([[ 0.0894, -0.1873, -0.1459,  ..., -0.1433, -0.1750, -0.1699],
+        [ 0.0530,  0.0569, -0.0333,  ..., -0.0835,  0.1753,  0.0151],
+        [-0.0733, -0.1999, -0.0080,  ...,  0.2282, -0.2007,  0.0432],
+        ...,
+        [-0.2342,  0.1564,  0.0230,  ..., -0.1822,  0.1248,  0.0670],
+        [ 0.0030, -0.0943, -0.0050,  ..., -0.1718, -0.2042, -0.3105],
+        [ 0.0364, -0.0599, -0.0182,  ..., -0.2844, -0.1976,  0.0216]],
+       device='cuda:0'), grad: tensor([[-4.6857e-09,  1.7462e-10,  0.0000e+00,  ...,  5.8208e-10,
+         -3.3469e-10,  1.8044e-09],
+        [-7.5815e-09, -6.4902e-09,  0.0000e+00,  ...,  1.8044e-09,
+         -1.3388e-08, -5.9663e-10],
+        [ 1.3242e-09,  2.1537e-09,  0.0000e+00,  ...,  6.5484e-10,
+          2.9977e-09,  2.5320e-09],
+        ...,
+        [ 3.8126e-09, -5.4715e-09,  0.0000e+00,  ...,  1.2515e-09,
+         -4.0745e-09,  1.4115e-09],
+        [ 2.3574e-09,  1.1496e-09,  0.0000e+00,  ...,  8.0036e-10,
+          2.2410e-09,  2.4302e-09],
+        [-3.2160e-09,  1.5862e-09,  0.0000e+00,  ...,  1.0055e-08,
+          2.2555e-09, -7.8435e-09]], device='cuda:0')
+Epoch 456, bias, value: tensor([-0.0427,  0.0132,  0.0135,  0.0287,  0.0357, -0.0197,  0.0286,  0.0297,
+        -0.0176,  0.0006], device='cuda:0'), grad: tensor([-2.4535e-08, -3.3469e-09,  1.5832e-08,  1.9500e-08, -4.1036e-09,
+        -1.3155e-08,  1.2151e-08,  2.1057e-08,  2.1188e-08, -3.8301e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 455, time 251.93, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4174 re_mapping 0.0015 re_causal 0.0065 /// teacc 99.16 lr 0.00001000
+Epoch 457, weight, value: tensor([[ 0.0894, -0.1873, -0.1459,  ..., -0.1433, -0.1750, -0.1699],
+        [ 0.0530,  0.0569, -0.0333,  ..., -0.0836,  0.1753,  0.0151],
+        [-0.0735, -0.2001, -0.0080,  ...,  0.2283, -0.2008,  0.0432],
+        ...,
+        [-0.2343,  0.1565,  0.0230,  ..., -0.1823,  0.1249,  0.0671],
+        [ 0.0031, -0.0944, -0.0050,  ..., -0.1719, -0.2042, -0.3106],
+        [ 0.0364, -0.0599, -0.0182,  ..., -0.2846, -0.1977,  0.0216]],
+       device='cuda:0'), grad: tensor([[-7.5670e-10,  2.9104e-10,  0.0000e+00,  ...,  5.9663e-10,
+         -1.3097e-10,  7.2760e-10],
+        [-1.1816e-08, -7.3342e-09,  0.0000e+00,  ...,  5.1368e-09,
+         -2.6019e-08,  4.5547e-09],
+        [ 1.6735e-09,  9.1241e-09,  0.0000e+00,  ...,  1.0041e-09,
+          7.2760e-09,  7.1450e-09],
+        ...,
+        [ 6.6502e-09, -1.9005e-08,  0.0000e+00,  ...,  2.0955e-09,
+         -2.9686e-09, -6.9558e-09],
+        [-2.4156e-09,  2.2701e-09,  0.0000e+00,  ...,  2.3283e-10,
+          4.0163e-09,  1.9791e-09],
+        [ 1.9063e-09,  5.6316e-09,  0.0000e+00,  ...,  7.0286e-09,
+          5.7044e-09,  4.0542e-08]], device='cuda:0')
+Epoch 457, bias, value: tensor([-0.0427,  0.0131,  0.0135,  0.0287,  0.0358, -0.0197,  0.0286,  0.0298,
+        -0.0176,  0.0006], device='cuda:0'), grad: tensor([ 8.0036e-10,  2.2701e-09,  3.1432e-08,  8.4256e-09, -1.5844e-07,
+         6.2864e-09,  1.1860e-08, -7.9017e-09, -1.1220e-08,  1.2922e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 456, time 251.80, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4281 re_mapping 0.0014 re_causal 0.0065 /// teacc 99.19 lr 0.00001000
+Epoch 458, weight, value: tensor([[ 0.0895, -0.1873, -0.1459,  ..., -0.1433, -0.1750, -0.1700],
+        [ 0.0531,  0.0568, -0.0333,  ..., -0.0837,  0.1753,  0.0150],
+        [-0.0737, -0.2003, -0.0080,  ...,  0.2284, -0.2009,  0.0432],
+        ...,
+        [-0.2344,  0.1566,  0.0230,  ..., -0.1824,  0.1250,  0.0672],
+        [ 0.0031, -0.0944, -0.0050,  ..., -0.1719, -0.2043, -0.3106],
+        [ 0.0364, -0.0599, -0.0182,  ..., -0.2847, -0.1978,  0.0216]],
+       device='cuda:0'), grad: tensor([[-2.6193e-10,  1.3097e-10,  0.0000e+00,  ...,  6.1118e-10,
+          8.7311e-11,  8.8767e-10],
+        [ 2.3574e-09,  1.5352e-08,  0.0000e+00,  ...,  2.8987e-08,
+          1.2064e-08,  3.6205e-08],
+        [ 2.1391e-09,  3.2014e-09,  0.0000e+00,  ..., -4.1327e-09,
+          2.7212e-09,  1.3533e-09],
+        ...,
+        [ 3.7398e-09, -2.7023e-08,  0.0000e+00,  ...,  5.1368e-09,
+         -1.9805e-08, -6.7521e-09],
+        [ 1.4843e-08,  6.8394e-10,  0.0000e+00,  ...,  1.1933e-09,
+          1.1350e-09,  8.8912e-09],
+        [-2.3239e-08,  1.1365e-08,  0.0000e+00,  ...,  5.8353e-09,
+          9.2696e-09, -1.8263e-08]], device='cuda:0')
+Epoch 458, bias, value: tensor([-0.0427,  0.0131,  0.0134,  0.0286,  0.0358, -0.0197,  0.0286,  0.0298,
+        -0.0176,  0.0006], device='cuda:0'), grad: tensor([ 3.8854e-09,  1.5437e-07,  2.5757e-08, -7.5554e-08, -3.7195e-08,
+        -3.5361e-09,  8.1054e-09, -2.2148e-08,  1.0111e-07, -1.5111e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 457, time 251.51, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4067 re_mapping 0.0015 re_causal 0.0064 /// teacc 99.23 lr 0.00001000
+Epoch 459, weight, value: tensor([[ 0.0895, -0.1873, -0.1459,  ..., -0.1433, -0.1750, -0.1700],
+        [ 0.0531,  0.0568, -0.0333,  ..., -0.0838,  0.1753,  0.0149],
+        [-0.0738, -0.2006, -0.0080,  ...,  0.2285, -0.2010,  0.0432],
+        ...,
+        [-0.2344,  0.1567,  0.0230,  ..., -0.1826,  0.1250,  0.0673],
+        [ 0.0031, -0.0944, -0.0050,  ..., -0.1719, -0.2043, -0.3107],
+        [ 0.0364, -0.0599, -0.0182,  ..., -0.2850, -0.1978,  0.0215]],
+       device='cuda:0'), grad: tensor([[-8.5856e-10,  1.4552e-11,  0.0000e+00,  ...,  6.5484e-10,
+          4.3656e-11,  6.9849e-10],
+        [-6.1118e-10,  2.9104e-11,  0.0000e+00,  ...,  2.1551e-08,
+         -1.4697e-09,  2.2177e-08],
+        [ 7.7125e-10,  5.6752e-10,  0.0000e+00,  ..., -5.8208e-11,
+          6.5484e-10,  2.3283e-10],
+        ...,
+        [ 7.7125e-10, -1.6007e-09,  0.0000e+00,  ...,  6.8831e-09,
+         -3.9290e-10,  6.8540e-09],
+        [ 8.1491e-10,  1.4552e-10,  0.0000e+00,  ...,  6.8394e-10,
+          3.4925e-10,  8.2946e-10],
+        [ 6.4028e-10,  3.6380e-10,  0.0000e+00,  ...,  5.5705e-08,
+          3.2014e-10,  5.5879e-08]], device='cuda:0')
+Epoch 459, bias, value: tensor([-0.0427,  0.0130,  0.0135,  0.0286,  0.0358, -0.0197,  0.0285,  0.0299,
+        -0.0176,  0.0006], device='cuda:0'), grad: tensor([ 2.3283e-10,  5.9663e-08,  3.5507e-09, -5.4424e-08, -2.3097e-07,
+         5.6112e-08,  2.5684e-08,  2.2468e-08,  1.1059e-08,  1.3947e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 458, time 252.30, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4364 re_mapping 0.0015 re_causal 0.0067 /// teacc 99.19 lr 0.00001000
+Epoch 460, weight, value: tensor([[ 0.0895, -0.1873, -0.1459,  ..., -0.1433, -0.1750, -0.1700],
+        [ 0.0532,  0.0568, -0.0333,  ..., -0.0839,  0.1754,  0.0149],
+        [-0.0740, -0.2008, -0.0080,  ...,  0.2285, -0.2011,  0.0432],
+        ...,
+        [-0.2345,  0.1568,  0.0230,  ..., -0.1827,  0.1251,  0.0674],
+        [ 0.0030, -0.0945, -0.0050,  ..., -0.1720, -0.2046, -0.3109],
+        [ 0.0364, -0.0600, -0.0182,  ..., -0.2851, -0.1979,  0.0215]],
+       device='cuda:0'), grad: tensor([[-3.2160e-09,  2.4593e-09,  0.0000e+00,  ...,  8.8767e-10,
+          2.0082e-09,  2.7212e-09],
+        [-3.2596e-09,  5.1397e-08,  0.0000e+00,  ...,  2.7503e-09,
+          2.7489e-08,  3.5681e-08],
+        [ 9.0222e-10,  9.2201e-08,  0.0000e+00,  ..., -1.4639e-08,
+          6.3912e-08,  5.0117e-08],
+        ...,
+        [ 2.3138e-09, -3.3900e-07,  0.0000e+00,  ...,  3.7980e-09,
+         -2.2526e-07, -2.2398e-07],
+        [-3.4343e-09,  3.1258e-08,  0.0000e+00,  ...,  6.5338e-09,
+          2.2628e-08,  2.7198e-08],
+        [ 1.8917e-09,  4.2433e-08,  0.0000e+00,  ...,  1.6298e-09,
+          2.8871e-08,  3.0122e-08]], device='cuda:0')
+Epoch 460, bias, value: tensor([-0.0427,  0.0130,  0.0134,  0.0285,  0.0358, -0.0196,  0.0285,  0.0299,
+        -0.0177,  0.0006], device='cuda:0'), grad: tensor([-1.6735e-09,  1.8370e-07,  2.9267e-07,  1.3178e-07,  2.6729e-07,
+         4.4733e-08,  5.5152e-09, -1.1902e-06,  1.1607e-07,  1.6321e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 459, time 252.50, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4287 re_mapping 0.0015 re_causal 0.0068 /// teacc 99.12 lr 0.00001000
+Epoch 461, weight, value: tensor([[ 0.0895, -0.1873, -0.1459,  ..., -0.1434, -0.1750, -0.1700],
+        [ 0.0533,  0.0568, -0.0333,  ..., -0.0839,  0.1754,  0.0148],
+        [-0.0741, -0.2009, -0.0080,  ...,  0.2286, -0.2012,  0.0432],
+        ...,
+        [-0.2346,  0.1569,  0.0230,  ..., -0.1828,  0.1252,  0.0675],
+        [ 0.0030, -0.0946, -0.0050,  ..., -0.1720, -0.2047, -0.3110],
+        [ 0.0364, -0.0600, -0.0182,  ..., -0.2853, -0.1980,  0.0215]],
+       device='cuda:0'), grad: tensor([[-1.3562e-07,  1.7462e-10,  0.0000e+00,  ...,  1.1642e-10,
+          2.9104e-10,  7.5670e-10],
+        [-1.3679e-08, -7.3342e-09,  0.0000e+00,  ...,  3.7398e-09,
+         -2.1799e-08,  5.2387e-10],
+        [ 1.3286e-08,  1.9645e-09,  0.0000e+00,  ..., -1.3533e-09,
+          2.6339e-09,  9.3132e-10],
+        ...,
+        [ 9.9972e-09, -2.8813e-09,  0.0000e+00,  ...,  2.0664e-09,
+          5.4133e-09,  5.6170e-09],
+        [ 1.2369e-09,  2.4593e-09,  0.0000e+00,  ...,  1.3097e-10,
+          4.7148e-09,  2.8522e-09],
+        [ 2.4418e-08, -8.7311e-11,  0.0000e+00,  ...,  1.4261e-09,
+          1.7753e-09, -4.0396e-08]], device='cuda:0')
+Epoch 461, bias, value: tensor([-0.0426,  0.0130,  0.0134,  0.0285,  0.0358, -0.0195,  0.0285,  0.0300,
+        -0.0177,  0.0006], device='cuda:0'), grad: tensor([-6.1421e-07, -2.9249e-09,  6.1118e-08,  2.6263e-07,  1.2864e-07,
+         1.4115e-08,  9.6741e-08,  3.6089e-08, -2.7067e-08,  4.6217e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 460, time 252.01, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4097 re_mapping 0.0015 re_causal 0.0065 /// teacc 99.15 lr 0.00001000
+Epoch 462, weight, value: tensor([[ 0.0896, -0.1873, -0.1459,  ..., -0.1434, -0.1750, -0.1700],
+        [ 0.0535,  0.0568, -0.0333,  ..., -0.0840,  0.1755,  0.0148],
+        [-0.0744, -0.2011, -0.0080,  ...,  0.2286, -0.2013,  0.0432],
+        ...,
+        [-0.2346,  0.1571,  0.0230,  ..., -0.1829,  0.1253,  0.0677],
+        [ 0.0029, -0.0948, -0.0050,  ..., -0.1721, -0.2049, -0.3112],
+        [ 0.0364, -0.0600, -0.0182,  ..., -0.2855, -0.1981,  0.0215]],
+       device='cuda:0'), grad: tensor([[-4.4383e-09,  3.0559e-10,  0.0000e+00,  ...,  4.3656e-11,
+          5.5297e-10,  2.1828e-10],
+        [-1.3635e-08, -1.0972e-08,  0.0000e+00,  ...,  2.9104e-10,
+         -2.3501e-08, -7.5524e-09],
+        [ 2.2701e-09,  1.1933e-09,  0.0000e+00,  ...,  9.7498e-10,
+          2.0955e-09,  1.6735e-09],
+        ...,
+        [ 5.1659e-09,  3.5507e-09,  0.0000e+00,  ...,  2.3283e-10,
+          7.1450e-09,  2.9540e-09],
+        [-1.3679e-09,  2.2847e-09,  0.0000e+00,  ...,  2.9104e-11,
+          6.5484e-09,  2.1682e-09],
+        [ 3.8999e-09,  8.7311e-10,  0.0000e+00,  ...,  7.2760e-10,
+          1.4552e-09,  1.6153e-09]], device='cuda:0')
+Epoch 462, bias, value: tensor([-0.0426,  0.0130,  0.0134,  0.0285,  0.0359, -0.0195,  0.0285,  0.0301,
+        -0.0179,  0.0006], device='cuda:0'), grad: tensor([-2.4462e-08, -3.6118e-08,  1.5221e-08,  9.5461e-09, -2.1100e-09,
+         1.0914e-08,  1.6618e-08,  2.1813e-08, -2.3298e-08,  2.5088e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 461, time 252.07, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.3975 re_mapping 0.0015 re_causal 0.0063 /// teacc 99.18 lr 0.00001000
+Epoch 463, weight, value: tensor([[ 0.0896, -0.1873, -0.1459,  ..., -0.1434, -0.1750, -0.1700],
+        [ 0.0536,  0.0568, -0.0332,  ..., -0.0841,  0.1756,  0.0147],
+        [-0.0745, -0.2013, -0.0080,  ...,  0.2287, -0.2015,  0.0432],
+        ...,
+        [-0.2348,  0.1572,  0.0230,  ..., -0.1830,  0.1254,  0.0677],
+        [ 0.0029, -0.0948, -0.0050,  ..., -0.1721, -0.2050, -0.3113],
+        [ 0.0364, -0.0601, -0.0182,  ..., -0.2858, -0.1982,  0.0214]],
+       device='cuda:0'), grad: tensor([[ 2.1537e-09,  1.3097e-10,  0.0000e+00,  ...,  3.2043e-08,
+          2.4738e-10,  3.9290e-10],
+        [-9.9390e-09, -9.1823e-09,  0.0000e+00,  ...,  3.0414e-09,
+         -2.1100e-08, -5.7480e-09],
+        [ 1.1350e-09,  1.7171e-09,  0.0000e+00,  ..., -2.0664e-09,
+          2.3720e-09, -1.5716e-09],
+        ...,
+        [ 5.8790e-09,  2.8667e-09,  0.0000e+00,  ...,  6.8394e-10,
+          8.6438e-09,  3.0559e-09],
+        [ 4.1036e-09,  1.7462e-09,  0.0000e+00,  ...,  4.4820e-09,
+          3.6962e-09,  2.1537e-09],
+        [-5.9226e-09,  1.0186e-09,  0.0000e+00,  ...,  2.3720e-09,
+          1.4988e-09, -2.5320e-09]], device='cuda:0')
+Epoch 463, bias, value: tensor([-0.0426,  0.0130,  0.0134,  0.0284,  0.0359, -0.0195,  0.0285,  0.0301,
+        -0.0179,  0.0005], device='cuda:0'), grad: tensor([ 1.4820e-07, -2.3108e-08,  2.0227e-09,  1.4115e-08,  1.0419e-07,
+         3.0617e-08, -2.9523e-07,  2.2017e-08,  3.5681e-08, -1.4537e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 462, time 251.94, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4135 re_mapping 0.0014 re_causal 0.0065 /// teacc 99.21 lr 0.00001000
+Epoch 464, weight, value: tensor([[ 0.0897, -0.1873, -0.1459,  ..., -0.1434, -0.1751, -0.1700],
+        [ 0.0537,  0.0568, -0.0332,  ..., -0.0842,  0.1757,  0.0147],
+        [-0.0746, -0.2015, -0.0080,  ...,  0.2288, -0.2016,  0.0432],
+        ...,
+        [-0.2349,  0.1573,  0.0230,  ..., -0.1832,  0.1254,  0.0678],
+        [ 0.0029, -0.0949, -0.0050,  ..., -0.1722, -0.2051, -0.3114],
+        [ 0.0364, -0.0601, -0.0182,  ..., -0.2861, -0.1983,  0.0214]],
+       device='cuda:0'), grad: tensor([[-1.0186e-10,  1.1933e-09,  0.0000e+00,  ...,  1.0041e-09,
+          7.4215e-10,  1.6589e-09],
+        [ 4.8894e-09,  2.5640e-08,  0.0000e+00,  ...,  2.5160e-08,
+          1.1743e-08,  3.9814e-08],
+        [-3.2742e-09,  1.5163e-08,  0.0000e+00,  ..., -4.8429e-08,
+          9.7498e-09, -2.7765e-08],
+        ...,
+        [ 2.1100e-09, -8.1025e-08,  0.0000e+00,  ...,  2.2264e-09,
+         -4.7294e-08, -6.2340e-08],
+        [-2.0664e-09, -1.7317e-09,  0.0000e+00,  ...,  8.9349e-09,
+          1.7026e-09,  8.0327e-09],
+        [ 2.2992e-09,  1.5454e-08,  0.0000e+00,  ...,  2.5757e-09,
+          9.4296e-09,  1.3111e-08]], device='cuda:0')
+Epoch 464, bias, value: tensor([-0.0426,  0.0130,  0.0134,  0.0285,  0.0360, -0.0195,  0.0285,  0.0301,
+        -0.0180,  0.0005], device='cuda:0'), grad: tensor([ 9.7207e-09,  1.6263e-07, -8.8941e-08,  7.6019e-08,  5.9314e-08,
+        -1.0268e-07,  2.1391e-08, -2.2224e-07,  2.2075e-08,  7.0664e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 463, time 252.28, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4186 re_mapping 0.0015 re_causal 0.0066 /// teacc 99.20 lr 0.00001000
+Epoch 465, weight, value: tensor([[ 0.0897, -0.1873, -0.1459,  ..., -0.1435, -0.1751, -0.1700],
+        [ 0.0539,  0.0568, -0.0332,  ..., -0.0842,  0.1758,  0.0146],
+        [-0.0749, -0.2017, -0.0080,  ...,  0.2288, -0.2017,  0.0432],
+        ...,
+        [-0.2350,  0.1574,  0.0230,  ..., -0.1832,  0.1255,  0.0679],
+        [ 0.0029, -0.0950, -0.0050,  ..., -0.1722, -0.2053, -0.3115],
+        [ 0.0364, -0.0602, -0.0182,  ..., -0.2863, -0.1984,  0.0213]],
+       device='cuda:0'), grad: tensor([[-5.5297e-10,  4.3656e-11,  0.0000e+00,  ...,  7.7125e-10,
+          7.2760e-11,  4.6566e-10],
+        [-2.9395e-09,  1.0768e-09,  0.0000e+00,  ...,  4.7003e-09,
+         -3.1432e-09,  4.5693e-09],
+        [ 5.3842e-10,  1.4843e-09,  0.0000e+00,  ..., -4.8021e-10,
+          1.7317e-09,  3.2014e-10],
+        ...,
+        [ 1.7608e-09, -5.2096e-09,  0.0000e+00,  ...,  2.0227e-09,
+         -2.4738e-09, -3.6234e-09],
+        [ 2.4593e-09,  7.5670e-10,  0.0000e+00,  ...,  1.4261e-09,
+          9.4587e-10,  1.9645e-09],
+        [ 2.0518e-09,  5.8208e-10,  0.0000e+00,  ...,  7.2905e-09,
+          5.6752e-10,  3.5943e-09]], device='cuda:0')
+Epoch 465, bias, value: tensor([-0.0426,  0.0130,  0.0133,  0.0286,  0.0360, -0.0195,  0.0285,  0.0301,
+        -0.0180,  0.0004], device='cuda:0'), grad: tensor([ 2.1537e-09,  1.8714e-08,  6.3737e-08, -5.5152e-08, -5.7276e-08,
+        -7.0373e-08,  3.2363e-08,  1.0579e-08,  2.6281e-08,  4.0105e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 464, time 252.27, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4082 re_mapping 0.0015 re_causal 0.0066 /// teacc 99.19 lr 0.00001000
+Epoch 466, weight, value: tensor([[ 0.0897, -0.1874, -0.1459,  ..., -0.1435, -0.1751, -0.1700],
+        [ 0.0541,  0.0569, -0.0332,  ..., -0.0843,  0.1759,  0.0147],
+        [-0.0752, -0.2020, -0.0080,  ...,  0.2289, -0.2019,  0.0432],
+        ...,
+        [-0.2351,  0.1575,  0.0230,  ..., -0.1833,  0.1255,  0.0679],
+        [ 0.0028, -0.0951, -0.0050,  ..., -0.1722, -0.2055, -0.3117],
+        [ 0.0364, -0.0602, -0.0182,  ..., -0.2866, -0.1985,  0.0213]],
+       device='cuda:0'), grad: tensor([[-1.0768e-09,  2.6193e-10,  0.0000e+00,  ...,  1.4988e-09,
+          3.7835e-10,  1.1059e-09],
+        [-7.5961e-09,  8.1491e-09,  0.0000e+00,  ...,  3.2363e-08,
+         -8.8767e-09,  2.5742e-08],
+        [ 1.2078e-09,  4.9768e-09,  0.0000e+00,  ..., -3.4750e-08,
+          4.4674e-09, -1.9558e-08],
+        ...,
+        [ 4.2492e-09, -1.5832e-08,  0.0000e+00,  ...,  1.6633e-08,
+         -1.8335e-09,  8.0909e-09],
+        [ 1.4115e-09,  1.3679e-09,  0.0000e+00,  ...,  5.5297e-10,
+          2.5757e-09,  1.6444e-09],
+        [ 1.0186e-09,  3.5361e-09,  0.0000e+00,  ...,  6.6939e-09,
+          2.1973e-09,  8.7748e-09]], device='cuda:0')
+Epoch 466, bias, value: tensor([-0.0425,  0.0131,  0.0132,  0.0286,  0.0360, -0.0195,  0.0285,  0.0301,
+        -0.0182,  0.0004], device='cuda:0'), grad: tensor([-2.2847e-09,  8.7661e-08, -8.3644e-08,  2.3108e-08, -7.5263e-08,
+         2.7794e-09,  7.3342e-09,  3.1781e-08,  5.1077e-09,  3.2771e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 465, time 252.29, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4235 re_mapping 0.0014 re_causal 0.0065 /// teacc 99.18 lr 0.00001000
+Epoch 467, weight, value: tensor([[ 0.0898, -0.1874, -0.1459,  ..., -0.1435, -0.1751, -0.1700],
+        [ 0.0543,  0.0569, -0.0332,  ..., -0.0844,  0.1761,  0.0147],
+        [-0.0755, -0.2022, -0.0080,  ...,  0.2290, -0.2021,  0.0431],
+        ...,
+        [-0.2352,  0.1575,  0.0230,  ..., -0.1834,  0.1255,  0.0680],
+        [ 0.0027, -0.0953, -0.0050,  ..., -0.1723, -0.2057, -0.3119],
+        [ 0.0364, -0.0602, -0.0182,  ..., -0.2867, -0.1986,  0.0213]],
+       device='cuda:0'), grad: tensor([[ 4.0891e-09,  4.0309e-09,  0.0000e+00,  ...,  6.2573e-10,
+          8.0181e-09,  4.1910e-09],
+        [-1.2515e-07,  2.6193e-10,  0.0000e+00,  ..., -2.7663e-08,
+         -1.6787e-07,  1.3999e-08],
+        [ 2.5568e-08,  3.3324e-08,  0.0000e+00,  ...,  8.7020e-09,
+          6.7404e-08,  2.6892e-08],
+        ...,
+        [ 2.4753e-08, -1.2876e-07,  0.0000e+00,  ...,  8.1200e-09,
+         -7.7824e-08, -1.1479e-07],
+        [ 1.8568e-08,  1.6502e-08,  0.0000e+00,  ...,  2.0664e-09,
+          3.5827e-08,  1.3402e-08],
+        [ 6.8540e-09,  7.1159e-09,  0.0000e+00,  ...,  2.6339e-09,
+          2.6863e-08, -2.6979e-08]], device='cuda:0')
+Epoch 467, bias, value: tensor([-0.0425,  0.0132,  0.0131,  0.0285,  0.0361, -0.0194,  0.0285,  0.0301,
+        -0.0183,  0.0004], device='cuda:0'), grad: tensor([ 2.8434e-08, -4.7288e-07,  2.1176e-07,  7.2294e-08,  2.9220e-07,
+        -2.3283e-10,  7.1828e-08, -2.1479e-07,  1.0472e-07, -8.3179e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 466, time 251.83, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4173 re_mapping 0.0015 re_causal 0.0065 /// teacc 99.23 lr 0.00001000
+Epoch 468, weight, value: tensor([[ 0.0898, -0.1874, -0.1459,  ..., -0.1435, -0.1751, -0.1700],
+        [ 0.0545,  0.0569, -0.0332,  ..., -0.0844,  0.1762,  0.0146],
+        [-0.0758, -0.2024, -0.0080,  ...,  0.2290, -0.2024,  0.0431],
+        ...,
+        [-0.2353,  0.1577,  0.0230,  ..., -0.1836,  0.1257,  0.0681],
+        [ 0.0026, -0.0954, -0.0050,  ..., -0.1723, -0.2058, -0.3120],
+        [ 0.0364, -0.0603, -0.0182,  ..., -0.2870, -0.1987,  0.0213]],
+       device='cuda:0'), grad: tensor([[ 1.6007e-10,  1.0186e-10,  0.0000e+00,  ...,  3.9290e-10,
+          1.8917e-10,  1.8917e-10],
+        [-5.7626e-09, -5.1950e-09,  0.0000e+00,  ...,  2.0955e-09,
+         -1.2034e-08, -2.1246e-09],
+        [ 1.1205e-09,  2.2847e-09,  0.0000e+00,  ...,  9.5315e-09,
+          2.4447e-09,  7.0577e-09],
+        ...,
+        [ 4.1473e-09,  4.0745e-10,  0.0000e+00,  ...,  1.7462e-09,
+          5.5879e-09,  1.0623e-09],
+        [-1.4261e-09,  7.8580e-10,  0.0000e+00,  ...,  2.9104e-10,
+          1.4988e-09,  6.1118e-10],
+        [ 9.4587e-10,  1.0186e-09,  0.0000e+00,  ...,  6.3446e-09,
+          1.2806e-09,  4.2637e-09]], device='cuda:0')
+Epoch 468, bias, value: tensor([-0.0425,  0.0132,  0.0129,  0.0285,  0.0362, -0.0193,  0.0284,  0.0302,
+        -0.0184,  0.0004], device='cuda:0'), grad: tensor([ 1.9936e-09, -1.5396e-08,  3.4488e-08,  1.1350e-08, -5.1514e-08,
+        -1.9791e-09,  1.1743e-08,  1.6284e-08, -8.4838e-09,  2.4069e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+---------------------saving model at epoch 467----------------------------------------------------
+epoch 467, time 252.55, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4151 re_mapping 0.0015 re_causal 0.0065 /// teacc 99.26 lr 0.00001000
+Epoch 469, weight, value: tensor([[ 0.0899, -0.1874, -0.1459,  ..., -0.1435, -0.1751, -0.1700],
+        [ 0.0546,  0.0569, -0.0332,  ..., -0.0845,  0.1762,  0.0145],
+        [-0.0760, -0.2026, -0.0080,  ...,  0.2291, -0.2025,  0.0431],
+        ...,
+        [-0.2354,  0.1578,  0.0230,  ..., -0.1838,  0.1258,  0.0682],
+        [ 0.0026, -0.0954, -0.0050,  ..., -0.1724, -0.2059, -0.3121],
+        [ 0.0364, -0.0603, -0.0182,  ..., -0.2872, -0.1988,  0.0213]],
+       device='cuda:0'), grad: tensor([[ 1.3097e-10,  1.3097e-09,  0.0000e+00,  ...,  4.8545e-08,
+          7.2760e-11,  2.8376e-09],
+        [-5.3842e-10,  1.1496e-09,  0.0000e+00,  ...,  3.9290e-09,
+         -1.9209e-09,  2.6339e-09],
+        [ 4.8021e-10,  3.1432e-09,  0.0000e+00,  ...,  1.8626e-09,
+          1.9645e-09,  3.2451e-09],
+        ...,
+        [ 2.2410e-09,  3.5943e-09,  0.0000e+00,  ...,  4.2201e-10,
+         -3.1287e-09,  1.7390e-08],
+        [-1.0332e-09,  5.3842e-10,  0.0000e+00,  ...,  4.7730e-09,
+          4.2201e-10,  1.2369e-09],
+        [-4.8458e-09, -1.5862e-08,  0.0000e+00,  ...,  3.6816e-09,
+          1.3970e-09, -4.5227e-08]], device='cuda:0')
+Epoch 469, bias, value: tensor([-0.0425,  0.0131,  0.0129,  0.0285,  0.0362, -0.0193,  0.0284,  0.0302,
+        -0.0185,  0.0004], device='cuda:0'), grad: tensor([ 2.3702e-07,  3.4634e-08,  2.5218e-08, -1.5469e-08,  2.3958e-07,
+         4.3918e-08, -4.7032e-07,  9.2608e-08,  4.7876e-09, -1.7928e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 468, time 252.03, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4050 re_mapping 0.0015 re_causal 0.0064 /// teacc 99.20 lr 0.00001000
+Epoch 470, weight, value: tensor([[ 0.0899, -0.1874, -0.1459,  ..., -0.1435, -0.1751, -0.1700],
+        [ 0.0547,  0.0568, -0.0332,  ..., -0.0846,  0.1763,  0.0145],
+        [-0.0761, -0.2028, -0.0080,  ...,  0.2292, -0.2026,  0.0431],
+        ...,
+        [-0.2355,  0.1580,  0.0230,  ..., -0.1840,  0.1259,  0.0683],
+        [ 0.0026, -0.0955, -0.0050,  ..., -0.1724, -0.2059, -0.3122],
+        [ 0.0364, -0.0603, -0.0182,  ..., -0.2874, -0.1989,  0.0213]],
+       device='cuda:0'), grad: tensor([[ 2.6193e-10,  5.8208e-11,  0.0000e+00,  ...,  3.1199e-08,
+          1.4552e-10,  1.0186e-09],
+        [ 3.4343e-09, -1.7608e-09,  0.0000e+00,  ...,  2.2847e-09,
+         -4.8894e-09,  1.1190e-08],
+        [ 9.1677e-10,  5.5297e-10,  0.0000e+00,  ...,  1.7171e-09,
+          1.1205e-09,  6.7957e-09],
+        ...,
+        [ 1.8481e-09,  8.8767e-10,  0.0000e+00,  ...,  2.4884e-09,
+          2.0955e-09,  6.4028e-09],
+        [ 1.0914e-09,  6.2573e-10,  0.0000e+00,  ...,  4.5111e-10,
+          1.5134e-09,  1.8335e-09],
+        [-1.9500e-08,  3.7835e-10,  0.0000e+00,  ...,  2.8667e-09,
+          7.1304e-10, -1.7972e-08]], device='cuda:0')
+Epoch 470, bias, value: tensor([-0.0425,  0.0131,  0.0129,  0.0285,  0.0362, -0.0193,  0.0284,  0.0303,
+        -0.0185,  0.0004], device='cuda:0'), grad: tensor([ 1.4855e-07,  4.7003e-08,  4.5227e-08, -5.8557e-08,  3.2247e-08,
+        -2.7067e-09, -1.4983e-07,  2.8682e-08,  8.1636e-09, -7.8289e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 469, time 251.68, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.3964 re_mapping 0.0015 re_causal 0.0065 /// teacc 99.25 lr 0.00001000
+Epoch 471, weight, value: tensor([[ 0.0899, -0.1874, -0.1459,  ..., -0.1436, -0.1751, -0.1701],
+        [ 0.0547,  0.0568, -0.0332,  ..., -0.0847,  0.1763,  0.0144],
+        [-0.0763, -0.2031, -0.0080,  ...,  0.2293, -0.2028,  0.0431],
+        ...,
+        [-0.2356,  0.1582,  0.0230,  ..., -0.1841,  0.1260,  0.0685],
+        [ 0.0026, -0.0955, -0.0050,  ..., -0.1725, -0.2060, -0.3123],
+        [ 0.0364, -0.0604, -0.0182,  ..., -0.2875, -0.1990,  0.0213]],
+       device='cuda:0'), grad: tensor([[-6.4902e-09,  1.3097e-10,  0.0000e+00,  ...,  2.1828e-10,
+          2.0373e-10,  1.4552e-10],
+        [-6.6066e-09, -6.2137e-09,  0.0000e+00,  ...,  1.3824e-09,
+         -1.1903e-08, -1.9063e-09],
+        [ 1.2369e-09,  4.0745e-09,  0.0000e+00,  ...,  4.0745e-10,
+          3.9581e-09,  3.5070e-09],
+        ...,
+        [ 2.8376e-09, -2.3865e-09,  0.0000e+00,  ...,  7.4215e-10,
+          8.7311e-10, -1.7171e-09],
+        [ 2.4302e-09,  1.5280e-09,  0.0000e+00,  ...,  2.3283e-10,
+          2.5902e-09,  1.0186e-09],
+        [ 3.9145e-09,  1.2806e-09,  0.0000e+00,  ...,  6.9849e-10,
+          1.5280e-09, -1.2515e-09]], device='cuda:0')
+Epoch 471, bias, value: tensor([-0.0424,  0.0131,  0.0128,  0.0285,  0.0362, -0.0194,  0.0284,  0.0303,
+        -0.0185,  0.0004], device='cuda:0'), grad: tensor([-4.4005e-08, -5.0641e-09,  3.2975e-08, -1.2678e-07,  7.3342e-09,
+         2.6426e-08,  4.1182e-09,  1.5396e-08,  4.8487e-08,  5.5239e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 470, time 251.98, cls_loss 0.0003 cls_loss_mapping 0.0002 cls_loss_causal 0.4146 re_mapping 0.0015 re_causal 0.0066 /// teacc 99.22 lr 0.00001000
+Epoch 472, weight, value: tensor([[ 0.0900, -0.1874, -0.1459,  ..., -0.1436, -0.1751, -0.1701],
+        [ 0.0548,  0.0568, -0.0332,  ..., -0.0848,  0.1764,  0.0144],
+        [-0.0764, -0.2032, -0.0080,  ...,  0.2294, -0.2029,  0.0431],
+        ...,
+        [-0.2357,  0.1582,  0.0229,  ..., -0.1842,  0.1260,  0.0685],
+        [ 0.0026, -0.0955, -0.0050,  ..., -0.1725, -0.2060, -0.3124],
+        [ 0.0364, -0.0604, -0.0182,  ..., -0.2877, -0.1991,  0.0213]],
+       device='cuda:0'), grad: tensor([[-9.8953e-10, -5.8208e-11,  0.0000e+00,  ...,  3.3469e-10,
+          2.0373e-10,  2.4738e-10],
+        [-3.0850e-09,  3.0996e-09,  0.0000e+00,  ...,  7.5670e-10,
+         -8.8767e-10,  4.0163e-09],
+        [ 4.6566e-10,  1.0870e-08,  0.0000e+00,  ...,  1.7462e-10,
+          9.1677e-09,  9.8225e-09],
+        ...,
+        [ 2.0227e-09, -1.6284e-08,  0.0000e+00,  ...,  3.2014e-10,
+         -1.1321e-08, -1.4974e-08],
+        [ 1.0623e-09,  9.6043e-10,  0.0000e+00,  ...,  6.6939e-10,
+          1.5571e-09,  8.8767e-10],
+        [ 2.6193e-10,  1.0332e-09,  0.0000e+00,  ...,  5.8208e-11,
+          9.1677e-10, -8.0036e-10]], device='cuda:0')
+Epoch 472, bias, value: tensor([-0.0424,  0.0130,  0.0128,  0.0285,  0.0362, -0.0194,  0.0285,  0.0303,
+        -0.0185,  0.0003], device='cuda:0'), grad: tensor([-5.3260e-09,  7.8144e-09,  3.3615e-08, -2.1246e-09,  1.3926e-08,
+         5.0204e-09, -1.7608e-09, -3.9407e-08,  7.1886e-09,  3.0122e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 471, time 252.29, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4186 re_mapping 0.0015 re_causal 0.0065 /// teacc 99.20 lr 0.00001000
+Epoch 473, weight, value: tensor([[ 0.0900, -0.1874, -0.1459,  ..., -0.1436, -0.1751, -0.1701],
+        [ 0.0549,  0.0567, -0.0332,  ..., -0.0849,  0.1764,  0.0143],
+        [-0.0765, -0.2034, -0.0080,  ...,  0.2294, -0.2030,  0.0431],
+        ...,
+        [-0.2358,  0.1583,  0.0229,  ..., -0.1842,  0.1261,  0.0686],
+        [ 0.0026, -0.0956, -0.0050,  ..., -0.1726, -0.2060, -0.3124],
+        [ 0.0365, -0.0604, -0.0182,  ..., -0.2879, -0.1992,  0.0213]],
+       device='cuda:0'), grad: tensor([[ 5.0932e-10,  1.0186e-10,  0.0000e+00,  ...,  1.6298e-09,
+          2.2555e-10,  1.5134e-09],
+        [-1.0747e-08, -1.2660e-08,  0.0000e+00,  ...,  8.4110e-09,
+         -2.0576e-08,  7.4215e-10],
+        [ 8.3674e-10,  6.7666e-10,  0.0000e+00,  ..., -3.0268e-08,
+          4.3656e-11, -1.7288e-08],
+        ...,
+        [ 1.1496e-08,  8.4692e-09,  0.0000e+00,  ...,  2.8740e-09,
+          1.4101e-08,  1.2304e-08],
+        [ 7.4942e-09,  3.2232e-09,  0.0000e+00,  ...,  8.7093e-09,
+          5.6098e-09,  1.0834e-08],
+        [-1.4050e-08,  5.0932e-10,  0.0000e+00,  ...,  1.2587e-09,
+          7.8580e-10, -2.0576e-08]], device='cuda:0')
+Epoch 473, bias, value: tensor([-0.0424,  0.0130,  0.0127,  0.0286,  0.0362, -0.0196,  0.0285,  0.0303,
+        -0.0186,  0.0003], device='cuda:0'), grad: tensor([ 9.5388e-09, -6.6429e-09, -1.0879e-07,  2.1450e-08,  6.4145e-08,
+        -4.6930e-09,  4.9840e-09,  6.5251e-08,  7.3342e-08, -9.5461e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 472, time 251.76, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4137 re_mapping 0.0015 re_causal 0.0065 /// teacc 99.22 lr 0.00001000
+Epoch 474, weight, value: tensor([[ 0.0901, -0.1874, -0.1459,  ..., -0.1437, -0.1751, -0.1701],
+        [ 0.0550,  0.0567, -0.0332,  ..., -0.0850,  0.1764,  0.0142],
+        [-0.0767, -0.2036, -0.0080,  ...,  0.2295, -0.2032,  0.0431],
+        ...,
+        [-0.2359,  0.1585,  0.0229,  ..., -0.1844,  0.1262,  0.0687],
+        [ 0.0026, -0.0956, -0.0050,  ..., -0.1727, -0.2061, -0.3125],
+        [ 0.0365, -0.0605, -0.0182,  ..., -0.2880, -0.1993,  0.0214]],
+       device='cuda:0'), grad: tensor([[ 1.2478e-08,  1.3111e-08,  0.0000e+00,  ...,  4.1473e-10,
+          2.8158e-08,  1.6080e-09],
+        [-1.2410e-07, -1.2410e-07,  0.0000e+00,  ...,  1.8117e-09,
+         -2.6636e-07, -1.3933e-08],
+        [ 5.5443e-09,  5.4933e-09,  0.0000e+00,  ..., -9.4587e-10,
+          1.1525e-08,  2.3283e-10],
+        ...,
+        [ 6.3083e-09,  5.9299e-09,  0.0000e+00,  ...,  1.8554e-09,
+          1.2806e-08,  3.1578e-09],
+        [ 7.5088e-08,  7.3982e-08,  0.0000e+00,  ...,  3.2742e-10,
+          1.5832e-07,  8.9203e-09],
+        [ 3.7908e-09,  2.9468e-09,  0.0000e+00,  ...,  2.1828e-09,
+          6.2355e-09,  1.7099e-09]], device='cuda:0')
+Epoch 474, bias, value: tensor([-0.0424,  0.0130,  0.0127,  0.0286,  0.0362, -0.0196,  0.0286,  0.0304,
+        -0.0186,  0.0004], device='cuda:0'), grad: tensor([ 5.6607e-08, -5.4808e-07,  2.3196e-08,  4.5140e-08,  1.6676e-08,
+        -3.0093e-08,  6.4145e-08,  3.3906e-08,  3.3551e-07,  2.1653e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 473, time 251.96, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4054 re_mapping 0.0014 re_causal 0.0065 /// teacc 99.19 lr 0.00001000
+Epoch 475, weight, value: tensor([[ 0.0901, -0.1874, -0.1459,  ..., -0.1438, -0.1751, -0.1701],
+        [ 0.0551,  0.0568, -0.0332,  ..., -0.0851,  0.1765,  0.0142],
+        [-0.0768, -0.2038, -0.0080,  ...,  0.2296, -0.2033,  0.0432],
+        ...,
+        [-0.2361,  0.1585,  0.0229,  ..., -0.1845,  0.1262,  0.0688],
+        [ 0.0026, -0.0957, -0.0050,  ..., -0.1727, -0.2062, -0.3126],
+        [ 0.0366, -0.0605, -0.0182,  ..., -0.2882, -0.1994,  0.0214]],
+       device='cuda:0'), grad: tensor([[ 8.0036e-11,  8.7311e-11,  0.0000e+00,  ...,  3.8563e-10,
+          1.2369e-10,  2.0373e-10],
+        [-2.5175e-09,  1.0325e-08,  0.0000e+00,  ...,  9.0222e-10,
+          3.3688e-09,  1.0288e-08],
+        [ 5.5297e-10,  3.9872e-09,  0.0000e+00,  ...,  3.0559e-10,
+          3.4051e-09,  3.5216e-09],
+        ...,
+        [ 1.5280e-09, -2.4127e-08,  0.0000e+00,  ...,  1.0186e-09,
+         -1.5789e-08, -1.8073e-08],
+        [-6.5484e-10,  6.8394e-10,  0.0000e+00,  ...,  1.9645e-10,
+          1.3242e-09,  6.4028e-10],
+        [ 8.6584e-10,  9.6770e-10,  0.0000e+00,  ...,  1.7753e-09,
+          8.3674e-10,  1.1205e-09]], device='cuda:0')
+Epoch 475, bias, value: tensor([-0.0424,  0.0129,  0.0127,  0.0286,  0.0362, -0.0197,  0.0286,  0.0303,
+        -0.0186,  0.0004], device='cuda:0'), grad: tensor([ 2.4520e-09,  2.4782e-08,  1.2580e-08,  2.4229e-09,  8.0268e-08,
+         4.5329e-09, -6.9151e-08, -4.0513e-08, -3.4779e-09,  7.6616e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 474, time 251.99, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.3975 re_mapping 0.0014 re_causal 0.0063 /// teacc 99.22 lr 0.00001000
+Epoch 476, weight, value: tensor([[ 0.0901, -0.1874, -0.1459,  ..., -0.1438, -0.1751, -0.1701],
+        [ 0.0552,  0.0568, -0.0331,  ..., -0.0852,  0.1767,  0.0142],
+        [-0.0769, -0.2040, -0.0080,  ...,  0.2297, -0.2034,  0.0432],
+        ...,
+        [-0.2363,  0.1586,  0.0229,  ..., -0.1846,  0.1262,  0.0688],
+        [ 0.0027, -0.0958, -0.0050,  ..., -0.1727, -0.2063, -0.3127],
+        [ 0.0366, -0.0605, -0.0182,  ..., -0.2884, -0.1995,  0.0214]],
+       device='cuda:0'), grad: tensor([[-2.8376e-10,  2.6193e-10,  0.0000e+00,  ...,  7.1304e-10,
+          4.7294e-10,  8.1491e-10],
+        [-8.9349e-09, -7.2760e-10,  0.0000e+00,  ...,  1.1161e-08,
+         -7.3633e-09,  2.1115e-08],
+        [ 1.7972e-09,  3.7107e-09,  0.0000e+00,  ..., -8.2000e-09,
+          6.3737e-09,  9.0440e-09],
+        ...,
+        [ 3.3615e-09, -3.3440e-08,  0.0000e+00,  ...,  1.4443e-08,
+         -4.5635e-08, -1.8961e-08],
+        [ 3.7107e-09,  1.8626e-09,  0.0000e+00,  ...,  1.3242e-09,
+          3.9654e-09,  2.0300e-09],
+        [ 1.0186e-09,  1.7826e-08,  0.0000e+00,  ...,  3.4663e-08,
+          2.5728e-08,  9.1561e-08]], device='cuda:0')
+Epoch 476, bias, value: tensor([-0.0424,  0.0129,  0.0127,  0.0285,  0.0361, -0.0198,  0.0287,  0.0303,
+        -0.0186,  0.0004], device='cuda:0'), grad: tensor([ 1.5280e-10,  2.9395e-08,  1.3031e-08,  1.5163e-08, -2.1176e-07,
+        -7.6616e-09,  6.5993e-09, -5.7218e-08,  2.1551e-08,  2.0582e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 475, time 252.20, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4001 re_mapping 0.0015 re_causal 0.0066 /// teacc 99.24 lr 0.00001000
+Epoch 477, weight, value: tensor([[ 0.0902, -0.1874, -0.1459,  ..., -0.1439, -0.1751, -0.1701],
+        [ 0.0553,  0.0568, -0.0331,  ..., -0.0853,  0.1767,  0.0141],
+        [-0.0770, -0.2042, -0.0080,  ...,  0.2298, -0.2036,  0.0432],
+        ...,
+        [-0.2363,  0.1587,  0.0229,  ..., -0.1847,  0.1263,  0.0689],
+        [ 0.0027, -0.0958, -0.0050,  ..., -0.1728, -0.2063, -0.3128],
+        [ 0.0366, -0.0606, -0.0182,  ..., -0.2885, -0.1996,  0.0215]],
+       device='cuda:0'), grad: tensor([[ 3.0559e-10,  1.0914e-10,  0.0000e+00,  ...,  2.2555e-10,
+          1.7462e-10,  3.9290e-10],
+        [-5.5079e-09, -3.6307e-09,  0.0000e+00,  ...,  7.2032e-10,
+         -1.0994e-08, -1.2660e-09],
+        [ 1.4552e-10,  1.8699e-09,  0.0000e+00,  ..., -4.5839e-09,
+          2.0154e-09, -9.0222e-10],
+        ...,
+        [ 3.1141e-09, -1.7535e-09,  0.0000e+00,  ...,  8.4401e-10,
+          1.8481e-09, -1.0914e-10],
+        [ 9.5315e-10,  1.1860e-09,  0.0000e+00,  ...,  2.9468e-09,
+          2.3501e-09,  2.2774e-09],
+        [-7.6761e-09,  1.3315e-09,  0.0000e+00,  ...,  2.3283e-10,
+          1.3752e-09, -1.3752e-08]], device='cuda:0')
+Epoch 477, bias, value: tensor([-0.0423,  0.0129,  0.0126,  0.0285,  0.0360, -0.0198,  0.0287,  0.0303,
+        -0.0186,  0.0004], device='cuda:0'), grad: tensor([ 3.9581e-09, -7.3924e-09,  3.3106e-09, -4.8894e-08,  5.9372e-08,
+         1.9354e-08,  2.9977e-09,  7.0213e-09,  1.2937e-08, -3.3324e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+---------------------saving model at epoch 476----------------------------------------------------
+epoch 476, time 252.88, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4301 re_mapping 0.0015 re_causal 0.0067 /// teacc 99.27 lr 0.00001000
+Epoch 478, weight, value: tensor([[ 0.0902, -0.1874, -0.1459,  ..., -0.1439, -0.1751, -0.1701],
+        [ 0.0555,  0.0569, -0.0331,  ..., -0.0854,  0.1769,  0.0142],
+        [-0.0772, -0.2043, -0.0080,  ...,  0.2299, -0.2037,  0.0432],
+        ...,
+        [-0.2365,  0.1588,  0.0229,  ..., -0.1849,  0.1263,  0.0688],
+        [ 0.0026, -0.0959, -0.0050,  ..., -0.1728, -0.2064, -0.3129],
+        [ 0.0366, -0.0606, -0.0182,  ..., -0.2886, -0.1997,  0.0216]],
+       device='cuda:0'), grad: tensor([[-1.1714e-09,  4.2201e-10,  0.0000e+00,  ...,  1.3824e-10,
+          4.7294e-10,  5.6752e-10],
+        [-1.4974e-08, -1.3482e-08,  0.0000e+00,  ...,  1.5716e-09,
+         -3.9290e-08, -7.5306e-09],
+        [ 1.2005e-09,  3.5070e-09,  0.0000e+00,  ..., -1.2224e-09,
+          3.7762e-09,  1.8481e-09],
+        ...,
+        [ 1.0870e-08, -2.4243e-08,  0.0000e+00,  ...,  1.0768e-09,
+         -5.3187e-09, -1.3060e-08],
+        [-1.1933e-08,  3.7544e-09,  0.0000e+00,  ...,  2.3574e-09,
+          7.5161e-09,  3.3760e-09],
+        [ 1.2296e-09,  1.7040e-08,  0.0000e+00,  ...,  5.2605e-09,
+          1.5032e-08,  8.1709e-09]], device='cuda:0')
+Epoch 478, bias, value: tensor([-0.0423,  0.0130,  0.0126,  0.0284,  0.0360, -0.0198,  0.0287,  0.0302,
+        -0.0186,  0.0004], device='cuda:0'), grad: tensor([-4.5693e-09, -4.6828e-08,  1.0368e-08,  2.5815e-08,  8.4474e-09,
+         1.7724e-08, -8.0981e-09, -3.5361e-08, -2.3341e-08,  5.0757e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 477, time 252.79, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4196 re_mapping 0.0015 re_causal 0.0067 /// teacc 99.25 lr 0.00001000
+Epoch 479, weight, value: tensor([[ 0.0903, -0.1874, -0.1459,  ..., -0.1439, -0.1751, -0.1701],
+        [ 0.0556,  0.0569, -0.0331,  ..., -0.0854,  0.1770,  0.0142],
+        [-0.0774, -0.2044, -0.0080,  ...,  0.2300, -0.2038,  0.0432],
+        ...,
+        [-0.2367,  0.1589,  0.0229,  ..., -0.1851,  0.1263,  0.0688],
+        [ 0.0027, -0.0959, -0.0050,  ..., -0.1729, -0.2065, -0.3130],
+        [ 0.0367, -0.0607, -0.0182,  ..., -0.2889, -0.1999,  0.0216]],
+       device='cuda:0'), grad: tensor([[-4.8167e-08,  5.0932e-11,  0.0000e+00,  ..., -4.7294e-08,
+          1.0914e-10,  4.1473e-10],
+        [-1.1350e-09,  2.8740e-09,  0.0000e+00,  ...,  1.5236e-08,
+          5.8208e-10,  1.7419e-08],
+        [ 4.2171e-08,  8.1491e-10,  0.0000e+00,  ...,  4.2608e-08,
+          1.0259e-09,  1.4043e-09],
+        ...,
+        [ 1.8335e-09, -2.0955e-09,  0.0000e+00,  ...,  7.2905e-09,
+          7.2032e-10,  6.4247e-09],
+        [ 1.7171e-09,  5.9663e-10,  0.0000e+00,  ...,  1.0259e-09,
+          1.2296e-09,  6.8394e-10],
+        [ 7.2032e-10,  8.7311e-10,  0.0000e+00,  ...,  7.7562e-09,
+          1.2733e-09,  7.8289e-09]], device='cuda:0')
+Epoch 479, bias, value: tensor([-0.0422,  0.0130,  0.0125,  0.0284,  0.0360, -0.0198,  0.0286,  0.0302,
+        -0.0186,  0.0004], device='cuda:0'), grad: tensor([-1.8417e-07,  6.1176e-08,  1.6787e-07, -1.9762e-08, -1.1403e-07,
+         7.0431e-09,  2.2410e-08,  3.0268e-08,  2.0707e-08,  3.1810e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 478, time 252.31, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.3954 re_mapping 0.0015 re_causal 0.0065 /// teacc 99.20 lr 0.00001000
+Epoch 480, weight, value: tensor([[ 0.0904, -0.1874, -0.1459,  ..., -0.1439, -0.1751, -0.1702],
+        [ 0.0557,  0.0569, -0.0331,  ..., -0.0856,  0.1771,  0.0141],
+        [-0.0776, -0.2046, -0.0080,  ...,  0.2302, -0.2039,  0.0433],
+        ...,
+        [-0.2369,  0.1590,  0.0228,  ..., -0.1853,  0.1263,  0.0688],
+        [ 0.0027, -0.0960, -0.0050,  ..., -0.1729, -0.2065, -0.3131],
+        [ 0.0366, -0.0607, -0.0182,  ..., -0.2890, -0.2000,  0.0217]],
+       device='cuda:0'), grad: tensor([[ 1.3097e-10,  2.6193e-10,  0.0000e+00,  ...,  6.1118e-10,
+          1.5280e-10,  1.6225e-09],
+        [-1.4392e-08,  2.1246e-09,  0.0000e+00,  ...,  1.8044e-09,
+         -2.3851e-08,  1.0157e-08],
+        [ 3.2014e-10,  2.8740e-09,  0.0000e+00,  ..., -1.2486e-08,
+          3.7107e-09, -2.5975e-09],
+        ...,
+        [ 6.8030e-09,  1.9267e-08,  0.0000e+00,  ...,  6.0536e-09,
+         -1.0848e-08,  2.2980e-07],
+        [ 1.0914e-09,  1.9863e-09,  0.0000e+00,  ...,  1.7899e-09,
+          2.1028e-09,  8.5274e-09],
+        [ 3.2014e-10, -5.4395e-08,  0.0000e+00,  ...,  5.1659e-10,
+          1.0077e-08, -3.7998e-07]], device='cuda:0')
+Epoch 480, bias, value: tensor([-0.0422,  0.0129,  0.0125,  0.0284,  0.0359, -0.0197,  0.0286,  0.0301,
+        -0.0186,  0.0004], device='cuda:0'), grad: tensor([ 6.6066e-09, -1.3235e-08, -1.6502e-08,  4.0862e-08,  4.2631e-07,
+        -1.0739e-08,  3.4852e-09,  7.9582e-07,  3.3702e-08, -1.2498e-06],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 479, time 252.47, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.3945 re_mapping 0.0015 re_causal 0.0064 /// teacc 99.18 lr 0.00001000
+Epoch 481, weight, value: tensor([[ 0.0905, -0.1874, -0.1459,  ..., -0.1439, -0.1751, -0.1702],
+        [ 0.0558,  0.0569, -0.0331,  ..., -0.0857,  0.1772,  0.0140],
+        [-0.0777, -0.2047, -0.0080,  ...,  0.2304, -0.2040,  0.0434],
+        ...,
+        [-0.2371,  0.1591,  0.0228,  ..., -0.1855,  0.1264,  0.0689],
+        [ 0.0028, -0.0960, -0.0050,  ..., -0.1730, -0.2066, -0.3132],
+        [ 0.0366, -0.0608, -0.0182,  ..., -0.2893, -0.2002,  0.0216]],
+       device='cuda:0'), grad: tensor([[-8.1083e-08,  1.7608e-09,  0.0000e+00,  ...,  3.6380e-11,
+          6.1118e-10,  1.2296e-09],
+        [-3.2713e-08, -3.1607e-08,  0.0000e+00,  ...,  7.2760e-12,
+         -5.0990e-08, -2.1129e-08],
+        [ 7.5379e-09,  1.6080e-09,  0.0000e+00,  ...,  7.2760e-12,
+          2.9759e-09,  1.0914e-09],
+        ...,
+        [ 6.9049e-09,  4.2419e-09,  0.0000e+00,  ...,  7.2760e-12,
+          7.2687e-09,  3.0341e-09],
+        [ 1.6851e-08,  7.6761e-09,  0.0000e+00,  ...,  1.4552e-11,
+          1.2886e-08,  5.1223e-09],
+        [ 6.0536e-08,  4.3001e-09,  0.0000e+00,  ...,  0.0000e+00,
+          7.1741e-09,  2.9104e-09]], device='cuda:0')
+Epoch 481, bias, value: tensor([-0.0421,  0.0129,  0.0126,  0.0283,  0.0360, -0.0197,  0.0286,  0.0301,
+        -0.0185,  0.0004], device='cuda:0'), grad: tensor([-5.2806e-07, -1.1572e-07,  4.6712e-08,  3.8068e-08,  5.3871e-08,
+         1.0041e-09,  3.4604e-08,  3.2451e-08,  8.6206e-08,  3.7486e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 480, time 252.42, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4204 re_mapping 0.0015 re_causal 0.0067 /// teacc 99.18 lr 0.00001000
+Epoch 482, weight, value: tensor([[ 0.0906, -0.1874, -0.1459,  ..., -0.1440, -0.1751, -0.1702],
+        [ 0.0559,  0.0569, -0.0331,  ..., -0.0859,  0.1773,  0.0140],
+        [-0.0778, -0.2049, -0.0079,  ...,  0.2308, -0.2042,  0.0436],
+        ...,
+        [-0.2372,  0.1592,  0.0228,  ..., -0.1857,  0.1264,  0.0689],
+        [ 0.0029, -0.0960, -0.0050,  ..., -0.1731, -0.2066, -0.3133],
+        [ 0.0366, -0.0609, -0.0182,  ..., -0.2895, -0.2004,  0.0216]],
+       device='cuda:0'), grad: tensor([[-3.9698e-08,  1.6735e-10,  0.0000e+00,  ...,  7.5670e-10,
+          2.7649e-10,  2.6193e-10],
+        [-4.6493e-09, -4.1837e-09,  0.0000e+00,  ...,  2.0736e-09,
+         -9.2623e-09, -1.2005e-09],
+        [ 3.9436e-09,  1.9718e-09,  0.0000e+00,  ..., -2.1915e-08,
+          2.6484e-09, -1.2878e-08],
+        ...,
+        [ 3.4997e-09, -2.6048e-09,  0.0000e+00,  ...,  1.5047e-08,
+          0.0000e+00,  8.1709e-09],
+        [ 4.9331e-09,  1.4552e-09,  0.0000e+00,  ...,  6.9849e-10,
+          2.6193e-09,  1.3315e-09],
+        [ 2.1741e-08,  1.7026e-09,  0.0000e+00,  ...,  3.5652e-10,
+          2.2119e-09,  1.4843e-09]], device='cuda:0')
+Epoch 482, bias, value: tensor([-0.0421,  0.0128,  0.0128,  0.0281,  0.0360, -0.0198,  0.0285,  0.0300,
+        -0.0184,  0.0003], device='cuda:0'), grad: tensor([-2.0128e-07, -7.8362e-09, -2.9220e-08,  1.1601e-07,  1.9354e-08,
+        -1.9080e-07,  1.1030e-07,  3.9843e-08,  3.2276e-08,  1.2992e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 481, time 252.43, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4201 re_mapping 0.0015 re_causal 0.0066 /// teacc 99.22 lr 0.00001000
+Epoch 483, weight, value: tensor([[ 0.0906, -0.1874, -0.1459,  ..., -0.1440, -0.1751, -0.1702],
+        [ 0.0561,  0.0570, -0.0331,  ..., -0.0860,  0.1775,  0.0140],
+        [-0.0780, -0.2051, -0.0079,  ...,  0.2309, -0.2044,  0.0436],
+        ...,
+        [-0.2374,  0.1593,  0.0228,  ..., -0.1859,  0.1264,  0.0689],
+        [ 0.0029, -0.0962, -0.0050,  ..., -0.1732, -0.2068, -0.3135],
+        [ 0.0366, -0.0610, -0.0182,  ..., -0.2897, -0.2005,  0.0216]],
+       device='cuda:0'), grad: tensor([[ 1.0186e-10,  1.4552e-11,  0.0000e+00,  ...,  4.2201e-10,
+          2.9104e-11,  3.7835e-10],
+        [-1.2806e-09, -2.9104e-09,  0.0000e+00,  ...,  1.6284e-08,
+         -6.1700e-09,  1.1802e-08],
+        [ 1.3097e-10,  7.8580e-10,  0.0000e+00,  ...,  2.2555e-09,
+          5.2387e-10,  2.4156e-09],
+        ...,
+        [ 1.3679e-09,  2.5029e-09,  0.0000e+00,  ...,  7.3924e-09,
+          4.6712e-09,  8.0472e-09],
+        [ 1.9063e-09,  2.9104e-10,  0.0000e+00,  ...,  8.1491e-10,
+          5.0932e-10,  8.5856e-10],
+        [ 5.2387e-10,  5.0932e-10,  0.0000e+00,  ...,  1.2558e-08,
+          4.0745e-10,  1.0186e-08]], device='cuda:0')
+Epoch 483, bias, value: tensor([-0.0420,  0.0129,  0.0128,  0.0281,  0.0359, -0.0198,  0.0285,  0.0300,
+        -0.0184,  0.0003], device='cuda:0'), grad: tensor([ 2.2410e-09,  5.3173e-08,  1.0754e-08,  1.5891e-08, -1.4959e-07,
+        -2.7008e-08,  8.1345e-09,  3.7195e-08,  1.5076e-08,  5.0291e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 482, time 252.53, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.3964 re_mapping 0.0014 re_causal 0.0064 /// teacc 99.20 lr 0.00001000
+Epoch 484, weight, value: tensor([[ 0.0907, -0.1874, -0.1459,  ..., -0.1441, -0.1751, -0.1702],
+        [ 0.0563,  0.0571, -0.0331,  ..., -0.0861,  0.1776,  0.0141],
+        [-0.0781, -0.2052, -0.0079,  ...,  0.2313, -0.2045,  0.0438],
+        ...,
+        [-0.2376,  0.1594,  0.0228,  ..., -0.1862,  0.1264,  0.0689],
+        [ 0.0029, -0.0962, -0.0050,  ..., -0.1733, -0.2069, -0.3136],
+        [ 0.0366, -0.0611, -0.0182,  ..., -0.2899, -0.2007,  0.0215]],
+       device='cuda:0'), grad: tensor([[ 8.8767e-10,  5.5297e-10,  0.0000e+00,  ...,  2.7649e-10,
+          7.2760e-10,  7.5670e-10],
+        [-5.7771e-09, -5.9081e-09,  0.0000e+00,  ...,  1.6880e-09,
+         -1.8350e-08, -3.3906e-09],
+        [ 5.1659e-09,  2.9540e-09,  0.0000e+00,  ..., -1.3388e-09,
+          1.5716e-09, -9.8953e-10],
+        ...,
+        [ 5.0495e-09,  3.5507e-09,  0.0000e+00,  ...,  5.6752e-10,
+          6.3592e-09,  3.6380e-09],
+        [-9.6479e-09, -3.8126e-09,  0.0000e+00,  ..., -1.7608e-09,
+          9.0949e-09,  3.3760e-09],
+        [ 5.0932e-10,  1.6589e-09,  0.0000e+00,  ...,  1.2806e-09,
+          2.1828e-10, -1.5745e-08]], device='cuda:0')
+Epoch 484, bias, value: tensor([-0.0420,  0.0130,  0.0130,  0.0279,  0.0359, -0.0198,  0.0285,  0.0299,
+        -0.0185,  0.0002], device='cuda:0'), grad: tensor([ 6.9995e-09,  1.1278e-08,  2.9089e-08, -1.1220e-08,  5.1077e-08,
+         1.2689e-08,  1.0390e-08,  2.9351e-08, -7.8406e-08, -5.3318e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 483, time 252.73, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.3967 re_mapping 0.0014 re_causal 0.0064 /// teacc 99.18 lr 0.00001000
+Epoch 485, weight, value: tensor([[ 0.0908, -0.1874, -0.1459,  ..., -0.1441, -0.1751, -0.1702],
+        [ 0.0563,  0.0571, -0.0331,  ..., -0.0862,  0.1777,  0.0140],
+        [-0.0782, -0.2054, -0.0079,  ...,  0.2315, -0.2046,  0.0439],
+        ...,
+        [-0.2377,  0.1595,  0.0228,  ..., -0.1863,  0.1265,  0.0690],
+        [ 0.0029, -0.0963, -0.0050,  ..., -0.1734, -0.2069, -0.3137],
+        [ 0.0366, -0.0611, -0.0182,  ..., -0.2901, -0.2009,  0.0215]],
+       device='cuda:0'), grad: tensor([[-5.7189e-09, -1.0332e-09,  0.0000e+00,  ...,  4.2201e-10,
+         -1.4697e-09,  5.9663e-10],
+        [-8.1491e-10,  8.6293e-09,  0.0000e+00,  ...,  1.0768e-09,
+          2.9831e-09,  1.1729e-08],
+        [ 1.6444e-09,  1.1496e-09,  0.0000e+00,  ..., -1.0681e-08,
+          1.3242e-09, -5.4133e-09],
+        ...,
+        [ 3.8854e-09, -1.5687e-08,  0.0000e+00,  ...,  3.3760e-09,
+         -9.1532e-09, -1.3490e-08],
+        [-3.8126e-09,  7.2760e-10,  0.0000e+00,  ...,  4.9477e-10,
+          1.1642e-09,  1.3242e-09],
+        [-2.7503e-09,  3.2742e-09,  0.0000e+00,  ...,  2.3283e-10,
+          2.8085e-09, -1.5469e-08]], device='cuda:0')
+Epoch 485, bias, value: tensor([-0.0419,  0.0129,  0.0131,  0.0278,  0.0359, -0.0198,  0.0285,  0.0300,
+        -0.0185,  0.0002], device='cuda:0'), grad: tensor([-3.1694e-08,  3.2072e-08, -1.3897e-08,  2.6994e-08,  6.6182e-08,
+         2.8522e-09,  5.8644e-09, -9.8516e-09, -2.5146e-08, -5.1368e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 484, time 252.69, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4001 re_mapping 0.0014 re_causal 0.0064 /// teacc 99.24 lr 0.00001000
+Epoch 486, weight, value: tensor([[ 0.0908, -0.1874, -0.1459,  ..., -0.1442, -0.1751, -0.1703],
+        [ 0.0564,  0.0571, -0.0331,  ..., -0.0863,  0.1778,  0.0139],
+        [-0.0783, -0.2055, -0.0079,  ...,  0.2317, -0.2047,  0.0440],
+        ...,
+        [-0.2378,  0.1596,  0.0228,  ..., -0.1865,  0.1265,  0.0690],
+        [ 0.0030, -0.0963, -0.0050,  ..., -0.1734, -0.2070, -0.3138],
+        [ 0.0367, -0.0612, -0.0182,  ..., -0.2903, -0.2010,  0.0215]],
+       device='cuda:0'), grad: tensor([[ 6.1555e-09,  1.4552e-11,  0.0000e+00,  ...,  7.2032e-09,
+          1.4552e-11,  4.3656e-10],
+        [ 1.1059e-09,  2.4156e-09,  0.0000e+00,  ...,  8.2509e-09,
+          1.9791e-09,  4.2637e-09],
+        [ 7.1304e-10,  1.4406e-09,  0.0000e+00,  ..., -7.4069e-09,
+          1.2951e-09, -5.4424e-09],
+        ...,
+        [ 4.0745e-10, -1.9063e-09,  0.0000e+00,  ...,  4.5547e-09,
+         -1.2806e-09,  1.7899e-09],
+        [-1.1030e-08,  1.1642e-10,  0.0000e+00,  ...,  4.9477e-10,
+          1.8917e-10,  4.6566e-10],
+        [ 2.2555e-09,  7.4215e-10,  0.0000e+00,  ...,  7.7562e-09,
+          6.8394e-10,  8.6584e-09]], device='cuda:0')
+Epoch 486, bias, value: tensor([-0.0419,  0.0129,  0.0132,  0.0277,  0.0359, -0.0197,  0.0285,  0.0299,
+        -0.0184,  0.0002], device='cuda:0'), grad: tensor([ 4.3481e-08,  3.5798e-08, -1.1845e-08,  1.1729e-08, -6.1409e-09,
+         4.8382e-07, -5.4855e-07,  1.3097e-08, -4.7818e-08,  4.1677e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 485, time 252.96, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4063 re_mapping 0.0014 re_causal 0.0064 /// teacc 99.19 lr 0.00001000
+Epoch 487, weight, value: tensor([[ 0.0909, -0.1874, -0.1459,  ..., -0.1443, -0.1751, -0.1703],
+        [ 0.0567,  0.0572, -0.0330,  ..., -0.0864,  0.1780,  0.0140],
+        [-0.0785, -0.2058, -0.0079,  ...,  0.2318, -0.2049,  0.0441],
+        ...,
+        [-0.2381,  0.1596,  0.0228,  ..., -0.1867,  0.1264,  0.0690],
+        [ 0.0030, -0.0964, -0.0050,  ..., -0.1735, -0.2071, -0.3140],
+        [ 0.0367, -0.0612, -0.0182,  ..., -0.2905, -0.2012,  0.0215]],
+       device='cuda:0'), grad: tensor([[-1.7317e-09,  3.2014e-10,  0.0000e+00,  ...,  3.0559e-10,
+          2.7649e-10,  5.5297e-10],
+        [-1.8626e-09,  1.7404e-08,  0.0000e+00,  ...,  2.5757e-09,
+          1.1452e-08,  1.7651e-08],
+        [ 4.3656e-10,  6.2282e-09,  0.0000e+00,  ..., -4.6566e-09,
+          5.3697e-09,  2.1973e-09],
+        ...,
+        [ 1.1205e-09, -4.3015e-08,  0.0000e+00,  ...,  1.5425e-09,
+         -3.3353e-08, -3.6438e-08],
+        [ 1.7899e-09,  2.1828e-09,  0.0000e+00,  ...,  2.4156e-09,
+          3.1287e-09,  3.2160e-09],
+        [-5.2387e-10,  9.4442e-09,  0.0000e+00,  ...,  7.5670e-10,
+          7.5961e-09,  5.0641e-09]], device='cuda:0')
+Epoch 487, bias, value: tensor([-0.0419,  0.0130,  0.0131,  0.0278,  0.0358, -0.0198,  0.0285,  0.0298,
+        -0.0185,  0.0002], device='cuda:0'), grad: tensor([-8.4256e-09,  5.0757e-08,  9.4005e-09,  1.1816e-08,  2.0576e-08,
+         3.6380e-09, -1.4115e-09, -1.0553e-07,  1.6516e-08,  1.9834e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 486, time 252.77, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4207 re_mapping 0.0014 re_causal 0.0064 /// teacc 99.20 lr 0.00001000
+Epoch 488, weight, value: tensor([[ 0.0910, -0.1875, -0.1459,  ..., -0.1443, -0.1751, -0.1703],
+        [ 0.0570,  0.0573, -0.0330,  ..., -0.0865,  0.1783,  0.0140],
+        [-0.0788, -0.2060, -0.0079,  ...,  0.2320, -0.2052,  0.0441],
+        ...,
+        [-0.2383,  0.1598,  0.0228,  ..., -0.1869,  0.1265,  0.0691],
+        [ 0.0029, -0.0966, -0.0050,  ..., -0.1736, -0.2073, -0.3142],
+        [ 0.0367, -0.0613, -0.0182,  ..., -0.2906, -0.2015,  0.0216]],
+       device='cuda:0'), grad: tensor([[-9.8953e-10,  1.1642e-10,  0.0000e+00,  ...,  1.3097e-10,
+          2.9104e-10,  7.5670e-10],
+        [ 2.8813e-09, -5.2096e-09,  0.0000e+00,  ...,  7.5670e-10,
+         -1.3693e-08, -2.2847e-09],
+        [ 1.8757e-08,  7.7125e-10,  0.0000e+00,  ...,  2.7649e-10,
+          2.4302e-09,  1.8626e-09],
+        ...,
+        [ 6.3737e-09,  1.8335e-09,  0.0000e+00,  ...,  8.8767e-10,
+          4.0891e-09,  5.2532e-09],
+        [-2.8638e-08,  1.1350e-09,  0.0000e+00,  ...,  3.4925e-10,
+          3.1141e-09,  5.1223e-09],
+        [-9.5170e-09,  4.6566e-10,  0.0000e+00,  ...,  2.4738e-09,
+          1.6153e-09, -1.7957e-08]], device='cuda:0')
+Epoch 488, bias, value: tensor([-0.0418,  0.0130,  0.0131,  0.0277,  0.0358, -0.0199,  0.0285,  0.0298,
+        -0.0186,  0.0002], device='cuda:0'), grad: tensor([-5.2823e-09,  3.1170e-08,  8.1898e-08,  6.9034e-08,  6.6706e-08,
+        -1.2526e-07,  3.8359e-08,  3.4575e-08, -1.1217e-07, -6.0885e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 487, time 252.70, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4283 re_mapping 0.0014 re_causal 0.0065 /// teacc 99.15 lr 0.00001000
+Epoch 489, weight, value: tensor([[ 0.0911, -0.1875, -0.1459,  ..., -0.1443, -0.1751, -0.1703],
+        [ 0.0572,  0.0574, -0.0330,  ..., -0.0866,  0.1785,  0.0140],
+        [-0.0790, -0.2064, -0.0079,  ...,  0.2322, -0.2055,  0.0441],
+        ...,
+        [-0.2385,  0.1600,  0.0228,  ..., -0.1871,  0.1267,  0.0693],
+        [ 0.0028, -0.0968, -0.0050,  ..., -0.1737, -0.2075, -0.3145],
+        [ 0.0367, -0.0615, -0.0182,  ..., -0.2908, -0.2018,  0.0217]],
+       device='cuda:0'), grad: tensor([[-7.2760e-11,  1.6007e-10,  0.0000e+00,  ...,  2.3283e-10,
+          1.7462e-10,  1.2660e-09],
+        [-3.7980e-09,  5.5588e-09,  0.0000e+00,  ...,  5.3842e-09,
+          1.0623e-09,  1.0565e-08],
+        [ 7.1304e-10,  1.1161e-08,  0.0000e+00,  ..., -5.5734e-09,
+          1.1307e-08,  8.0181e-09],
+        ...,
+        [ 3.2596e-09, -6.5600e-08,  0.0000e+00,  ...,  1.6153e-09,
+         -6.1525e-08, -6.4203e-08],
+        [ 1.7753e-09,  3.5943e-09,  0.0000e+00,  ...,  4.2201e-10,
+          4.6566e-09,  3.6089e-09],
+        [-4.1327e-09,  2.1013e-08,  0.0000e+00,  ...,  4.9622e-09,
+          2.1319e-08,  1.5498e-08]], device='cuda:0')
+Epoch 489, bias, value: tensor([-0.0417,  0.0131,  0.0130,  0.0276,  0.0357, -0.0200,  0.0284,  0.0299,
+        -0.0187,  0.0002], device='cuda:0'), grad: tensor([ 2.1828e-09,  3.0268e-08,  2.5437e-08,  1.8685e-08,  4.1648e-08,
+         4.5111e-09,  6.1118e-09, -1.7392e-07,  1.5309e-08,  4.6624e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 488, time 252.50, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4075 re_mapping 0.0014 re_causal 0.0065 /// teacc 99.26 lr 0.00001000
+Epoch 490, weight, value: tensor([[ 0.0912, -0.1875, -0.1459,  ..., -0.1443, -0.1750, -0.1703],
+        [ 0.0572,  0.0573, -0.0330,  ..., -0.0868,  0.1785,  0.0139],
+        [-0.0792, -0.2067, -0.0079,  ...,  0.2323, -0.2058,  0.0442],
+        ...,
+        [-0.2386,  0.1603,  0.0228,  ..., -0.1872,  0.1269,  0.0695],
+        [ 0.0028, -0.0969, -0.0050,  ..., -0.1738, -0.2076, -0.3146],
+        [ 0.0367, -0.0617, -0.0182,  ..., -0.2910, -0.2020,  0.0217]],
+       device='cuda:0'), grad: tensor([[ 8.7311e-11,  7.5670e-10,  0.0000e+00,  ...,  1.6007e-10,
+          1.1496e-09,  8.0036e-10],
+        [-1.3941e-08, -6.7666e-09,  0.0000e+00,  ...,  6.1118e-10,
+         -1.7419e-08, -3.6234e-09],
+        [ 2.5757e-09,  3.5070e-09,  0.0000e+00,  ...,  2.7358e-09,
+          4.5839e-09,  6.1991e-09],
+        ...,
+        [ 4.0309e-09, -9.1532e-09,  0.0000e+00,  ...,  5.4715e-09,
+         -4.9185e-09,  1.0768e-09],
+        [ 2.1828e-09,  2.8231e-09,  0.0000e+00,  ...,  5.6752e-10,
+          4.5839e-09,  3.0268e-09],
+        [-6.5629e-09,  1.0768e-09,  0.0000e+00,  ...,  1.6735e-09,
+          4.0891e-09, -1.5862e-08]], device='cuda:0')
+Epoch 490, bias, value: tensor([-0.0417,  0.0130,  0.0130,  0.0277,  0.0356, -0.0201,  0.0284,  0.0300,
+        -0.0188,  0.0002], device='cuda:0'), grad: tensor([ 2.5611e-09, -3.6467e-08,  9.4529e-08, -1.2910e-07,  5.7189e-08,
+         2.0897e-08,  4.6130e-09,  1.6968e-08,  2.6019e-08, -4.7032e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 489, time 252.37, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4272 re_mapping 0.0015 re_causal 0.0067 /// teacc 99.25 lr 0.00001000
+Epoch 491, weight, value: tensor([[ 0.0912, -0.1875, -0.1459,  ..., -0.1444, -0.1751, -0.1704],
+        [ 0.0574,  0.0574, -0.0330,  ..., -0.0869,  0.1787,  0.0139],
+        [-0.0793, -0.2069, -0.0079,  ...,  0.2324, -0.2059,  0.0442],
+        ...,
+        [-0.2388,  0.1603,  0.0228,  ..., -0.1873,  0.1268,  0.0695],
+        [ 0.0029, -0.0969, -0.0050,  ..., -0.1739, -0.2076, -0.3147],
+        [ 0.0367, -0.0617, -0.0182,  ..., -0.2912, -0.2021,  0.0216]],
+       device='cuda:0'), grad: tensor([[ 6.5484e-10,  1.0186e-09,  0.0000e+00,  ...,  4.6566e-09,
+          1.2078e-09,  7.1304e-10],
+        [-4.0093e-07, -6.5798e-07,  0.0000e+00,  ...,  8.5856e-09,
+         -7.4226e-07, -2.7893e-07],
+        [ 6.1555e-09,  1.1656e-08,  0.0000e+00,  ...,  7.2760e-11,
+          1.3417e-08,  6.2719e-09],
+        ...,
+        [ 3.5949e-07,  5.8487e-07,  0.0000e+00,  ...,  2.2410e-09,
+          6.5891e-07,  2.5239e-07],
+        [ 2.1435e-08,  3.4895e-08,  0.0000e+00,  ...,  4.8603e-09,
+          3.9727e-08,  1.5672e-08],
+        [ 9.1241e-09,  2.0140e-08,  0.0000e+00,  ...,  2.6048e-08,
+          1.9572e-08,  3.1607e-08]], device='cuda:0')
+Epoch 491, bias, value: tensor([-4.1684e-02,  1.3043e-02,  1.2947e-02,  2.7699e-02,  3.5755e-02,
+        -2.0227e-02,  2.8542e-02,  2.9953e-02, -1.8824e-02,  9.2140e-05],
+       device='cuda:0'), grad: tensor([ 3.0297e-08, -1.3458e-06,  3.5856e-08,  1.1671e-08, -9.7498e-08,
+         7.9861e-08, -1.7823e-07,  1.2293e-06,  1.0541e-07,  1.4238e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 490, time 252.45, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4141 re_mapping 0.0014 re_causal 0.0065 /// teacc 99.24 lr 0.00001000
+Epoch 492, weight, value: tensor([[ 0.0914, -0.1875, -0.1459,  ..., -0.1444, -0.1751, -0.1704],
+        [ 0.0577,  0.0576, -0.0330,  ..., -0.0871,  0.1790,  0.0141],
+        [-0.0794, -0.2070, -0.0079,  ...,  0.2326, -0.2061,  0.0443],
+        ...,
+        [-0.2392,  0.1603,  0.0228,  ..., -0.1875,  0.1266,  0.0694],
+        [ 0.0028, -0.0970, -0.0050,  ..., -0.1740, -0.2077, -0.3149],
+        [ 0.0367, -0.0618, -0.0182,  ..., -0.2914, -0.2022,  0.0215]],
+       device='cuda:0'), grad: tensor([[-1.5309e-08, -2.9104e-11,  0.0000e+00,  ...,  4.2201e-10,
+         -1.4552e-11,  2.6193e-10],
+        [ 1.4115e-09,  5.3842e-10,  0.0000e+00,  ...,  6.8394e-10,
+          3.2014e-10,  1.5862e-09],
+        [-1.8481e-09,  1.0186e-10,  0.0000e+00,  ..., -9.0658e-09,
+          4.8021e-10, -6.3446e-09],
+        ...,
+        [ 1.4115e-09,  5.0932e-10,  0.0000e+00,  ...,  1.2806e-09,
+          5.9663e-10,  1.3388e-09],
+        [ 7.1304e-09,  3.4925e-10,  0.0000e+00,  ...,  4.7876e-09,
+          5.6752e-10,  3.4925e-09],
+        [ 2.4156e-09,  2.3283e-10,  0.0000e+00,  ...,  3.7835e-10,
+          2.3283e-10, -4.6712e-09]], device='cuda:0')
+Epoch 492, bias, value: tensor([-4.1613e-02,  1.3152e-02,  1.2967e-02,  2.7681e-02,  3.5836e-02,
+        -2.0348e-02,  2.8601e-02,  2.9800e-02, -1.8924e-02,  1.0279e-05],
+       device='cuda:0'), grad: tensor([-8.3819e-08,  9.9244e-09, -1.9660e-08,  1.3722e-08,  2.4142e-08,
+         3.2014e-09,  1.9063e-09,  9.1532e-09,  4.3132e-08,  1.0390e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 491, time 252.89, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4054 re_mapping 0.0014 re_causal 0.0066 /// teacc 99.22 lr 0.00001000
+Epoch 493, weight, value: tensor([[ 0.0915, -0.1875, -0.1459,  ..., -0.1444, -0.1750, -0.1704],
+        [ 0.0578,  0.0577, -0.0330,  ..., -0.0872,  0.1790,  0.0140],
+        [-0.0796, -0.2072, -0.0079,  ...,  0.2328, -0.2062,  0.0443],
+        ...,
+        [-0.2393,  0.1603,  0.0228,  ..., -0.1876,  0.1267,  0.0694],
+        [ 0.0028, -0.0971, -0.0050,  ..., -0.1741, -0.2078, -0.3150],
+        [ 0.0368, -0.0618, -0.0182,  ..., -0.2915, -0.2023,  0.0216]],
+       device='cuda:0'), grad: tensor([[ 7.2760e-11,  5.8208e-11,  0.0000e+00,  ...,  7.7125e-10,
+          8.7311e-11,  4.3656e-10],
+        [-1.6589e-09,  3.9290e-10,  0.0000e+00,  ...,  3.3615e-09,
+         -2.1537e-09,  2.5611e-09],
+        [ 4.2201e-10,  4.2346e-09,  0.0000e+00,  ..., -9.8516e-09,
+          3.0559e-09, -1.0623e-09],
+        ...,
+        [ 1.3679e-09, -4.9622e-09,  0.0000e+00,  ...,  3.1869e-09,
+         -2.0518e-09, -3.0996e-09],
+        [ 1.7899e-09,  5.9663e-10,  0.0000e+00,  ...,  1.0768e-09,
+          1.3388e-09,  1.0914e-09],
+        [ 3.6380e-10,  1.1059e-09,  0.0000e+00,  ...,  9.0222e-10,
+          9.7498e-10,  2.0082e-09]], device='cuda:0')
+Epoch 493, bias, value: tensor([-4.1548e-02,  1.3092e-02,  1.3009e-02,  2.7685e-02,  3.5794e-02,
+        -2.0430e-02,  2.8643e-02,  2.9746e-02, -1.9004e-02,  3.3065e-05],
+       device='cuda:0'), grad: tensor([ 2.2410e-09,  8.0327e-09, -1.2078e-08,  5.5006e-09,  2.9831e-09,
+        -5.0932e-09,  2.0955e-09, -8.0036e-10,  9.5461e-09,  9.4005e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 492, time 252.78, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4005 re_mapping 0.0014 re_causal 0.0063 /// teacc 99.24 lr 0.00001000
+Epoch 494, weight, value: tensor([[ 0.0915, -0.1875, -0.1459,  ..., -0.1444, -0.1750, -0.1704],
+        [ 0.0579,  0.0577, -0.0330,  ..., -0.0874,  0.1791,  0.0139],
+        [-0.0797, -0.2075, -0.0079,  ...,  0.2330, -0.2064,  0.0444],
+        ...,
+        [-0.2394,  0.1605,  0.0228,  ..., -0.1878,  0.1268,  0.0696],
+        [ 0.0027, -0.0972, -0.0050,  ..., -0.1742, -0.2079, -0.3151],
+        [ 0.0368, -0.0618, -0.0182,  ..., -0.2917, -0.2024,  0.0217]],
+       device='cuda:0'), grad: tensor([[-6.1846e-09, -1.0987e-08,  0.0000e+00,  ...,  1.6007e-10,
+         -1.3955e-08,  2.1391e-09],
+        [-3.2014e-09,  1.8175e-08,  0.0000e+00,  ...,  1.8481e-09,
+          1.1554e-08,  1.7200e-08],
+        [ 3.5652e-09,  3.9872e-09,  0.0000e+00,  ..., -2.8085e-09,
+          5.3697e-09,  2.3865e-09],
+        ...,
+        [ 5.3842e-09, -2.2585e-08,  0.0000e+00,  ...,  2.3865e-09,
+         -1.7724e-08, -7.8435e-09],
+        [ 7.6689e-09,  2.8085e-09,  0.0000e+00,  ...,  3.7835e-10,
+          4.5984e-09,  1.7171e-09],
+        [-1.2020e-08,  2.8667e-09,  0.0000e+00,  ...,  1.8044e-09,
+          3.5507e-09, -5.1135e-08]], device='cuda:0')
+Epoch 494, bias, value: tensor([-4.1517e-02,  1.3071e-02,  1.3037e-02,  2.7620e-02,  3.5682e-02,
+        -2.0490e-02,  2.8700e-02,  2.9791e-02, -1.9121e-02,  7.5768e-05],
+       device='cuda:0'), grad: tensor([-9.5344e-08,  6.4028e-08,  3.1490e-08,  5.3173e-08,  7.8930e-08,
+        -4.7788e-08,  1.9601e-08, -1.1496e-09,  4.7061e-08, -1.3283e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 493, time 252.72, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4117 re_mapping 0.0014 re_causal 0.0064 /// teacc 99.21 lr 0.00001000
+Epoch 495, weight, value: tensor([[ 0.0916, -0.1875, -0.1459,  ..., -0.1445, -0.1750, -0.1705],
+        [ 0.0580,  0.0576, -0.0330,  ..., -0.0876,  0.1791,  0.0138],
+        [-0.0799, -0.2077, -0.0079,  ...,  0.2332, -0.2065,  0.0445],
+        ...,
+        [-0.2395,  0.1608,  0.0228,  ..., -0.1880,  0.1270,  0.0697],
+        [ 0.0027, -0.0973, -0.0050,  ..., -0.1743, -0.2080, -0.3152],
+        [ 0.0369, -0.0619, -0.0182,  ..., -0.2918, -0.2026,  0.0218]],
+       device='cuda:0'), grad: tensor([[ 1.4552e-10,  4.5111e-10,  0.0000e+00,  ...,  1.1642e-09,
+          7.2760e-11,  4.3656e-10],
+        [ 4.6566e-10,  3.9872e-09,  0.0000e+00,  ...,  2.5175e-09,
+          2.5029e-09,  3.0122e-09],
+        [ 3.3469e-10,  1.6007e-09,  0.0000e+00,  ...,  9.6043e-10,
+          1.3679e-09,  2.1391e-09],
+        ...,
+        [ 1.1205e-09, -2.6776e-09,  0.0000e+00,  ...,  7.2760e-11,
+         -1.6007e-09, -1.5571e-09],
+        [ 1.3533e-09,  2.7067e-09,  0.0000e+00,  ...,  5.6461e-09,
+          8.8767e-10,  1.1059e-09],
+        [-2.8813e-09,  1.5280e-09,  0.0000e+00,  ...,  2.0518e-09,
+          1.3097e-09,  5.0786e-09]], device='cuda:0')
+Epoch 495, bias, value: tensor([-0.0415,  0.0129,  0.0131,  0.0276,  0.0355, -0.0204,  0.0287,  0.0299,
+        -0.0192,  0.0001], device='cuda:0'), grad: tensor([ 6.0827e-09,  2.0154e-08,  1.1423e-08,  2.4593e-09, -1.4130e-08,
+         6.7230e-09, -4.6246e-08, -1.9936e-09,  2.9191e-08,  1.2500e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 494, time 253.51, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4096 re_mapping 0.0014 re_causal 0.0065 /// teacc 99.22 lr 0.00001000
+Epoch 496, weight, value: tensor([[ 0.0917, -0.1876, -0.1459,  ..., -0.1446, -0.1750, -0.1705],
+        [ 0.0581,  0.0575, -0.0330,  ..., -0.0877,  0.1791,  0.0136],
+        [-0.0801, -0.2079, -0.0079,  ...,  0.2334, -0.2068,  0.0445],
+        ...,
+        [-0.2396,  0.1611,  0.0228,  ..., -0.1881,  0.1272,  0.0700],
+        [ 0.0028, -0.0973, -0.0050,  ..., -0.1744, -0.2080, -0.3154],
+        [ 0.0369, -0.0620, -0.0182,  ..., -0.2920, -0.2028,  0.0217]],
+       device='cuda:0'), grad: tensor([[ 5.5297e-10,  2.9104e-10,  0.0000e+00,  ...,  2.9104e-10,
+          2.3283e-10,  4.9477e-10],
+        [ 4.3656e-09,  7.3051e-09,  0.0000e+00,  ...,  6.5018e-08,
+          4.5402e-09,  4.5286e-08],
+        [ 3.9290e-10,  6.0973e-09,  0.0000e+00,  ..., -1.0768e-09,
+          4.4529e-09,  4.3947e-09],
+        ...,
+        [ 7.4215e-10, -2.0576e-08,  0.0000e+00,  ...,  4.7730e-09,
+         -1.4450e-08, -1.3810e-08],
+        [-1.2689e-08, -2.2410e-09,  0.0000e+00,  ...,  1.3533e-09,
+          7.4215e-10,  1.4552e-09],
+        [ 6.2137e-09,  4.3801e-09,  0.0000e+00,  ...,  6.0681e-09,
+          1.8772e-09,  5.4424e-09]], device='cuda:0')
+Epoch 496, bias, value: tensor([-4.1436e-02,  1.2797e-02,  1.3061e-02,  2.7518e-02,  3.5524e-02,
+        -2.0480e-02,  2.8675e-02,  3.0086e-02, -1.9137e-02,  7.6603e-05],
+       device='cuda:0'), grad: tensor([ 4.9185e-09,  2.2701e-07,  2.2119e-08, -1.8976e-08, -2.2771e-07,
+         1.8248e-08,  1.7651e-08, -3.7951e-08, -3.4110e-08,  4.4616e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 495, time 253.14, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4122 re_mapping 0.0014 re_causal 0.0064 /// teacc 99.19 lr 0.00001000
+Epoch 497, weight, value: tensor([[ 0.0918, -0.1876, -0.1459,  ..., -0.1446, -0.1750, -0.1705],
+        [ 0.0582,  0.0574, -0.0330,  ..., -0.0878,  0.1792,  0.0135],
+        [-0.0802, -0.2082, -0.0079,  ...,  0.2336, -0.2071,  0.0446],
+        ...,
+        [-0.2397,  0.1614,  0.0228,  ..., -0.1882,  0.1274,  0.0702],
+        [ 0.0028, -0.0974, -0.0050,  ..., -0.1745, -0.2081, -0.3155],
+        [ 0.0369, -0.0621, -0.0182,  ..., -0.2921, -0.2029,  0.0218]],
+       device='cuda:0'), grad: tensor([[-1.4770e-08, -1.5425e-09,  0.0000e+00,  ...,  2.4738e-10,
+         -2.0664e-09,  8.1491e-10],
+        [ 1.1787e-09,  1.3242e-09,  0.0000e+00,  ...,  4.3510e-09,
+          8.7311e-10,  5.1659e-09],
+        [ 9.6043e-10,  1.0041e-09,  0.0000e+00,  ..., -1.0768e-09,
+          8.2946e-10,  5.0932e-10],
+        ...,
+        [ 8.8767e-10, -8.4401e-10,  0.0000e+00,  ...,  3.7835e-09,
+         -1.0914e-09,  3.0559e-09],
+        [ 1.8917e-09,  3.4925e-10,  0.0000e+00,  ...,  4.3656e-10,
+          4.6566e-10,  4.2201e-10],
+        [ 3.8563e-09, -1.2224e-09,  0.0000e+00,  ...,  2.6776e-09,
+          1.3679e-09, -6.6648e-09]], device='cuda:0')
+Epoch 497, bias, value: tensor([-4.1369e-02,  1.2703e-02,  1.3064e-02,  2.7511e-02,  3.5482e-02,
+        -2.0791e-02,  2.8669e-02,  3.0251e-02, -1.9157e-02,  5.2418e-05],
+       device='cuda:0'), grad: tensor([-8.8010e-08,  2.4826e-08,  1.0579e-08,  3.1723e-09,  2.0664e-09,
+         5.7480e-09,  1.9878e-08,  1.8132e-08,  9.6479e-09,  7.2032e-09],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 496, time 252.49, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.3844 re_mapping 0.0014 re_causal 0.0062 /// teacc 99.19 lr 0.00001000
+Epoch 498, weight, value: tensor([[ 0.0919, -0.1876, -0.1459,  ..., -0.1447, -0.1750, -0.1705],
+        [ 0.0582,  0.0573, -0.0330,  ..., -0.0880,  0.1792,  0.0133],
+        [-0.0804, -0.2085, -0.0079,  ...,  0.2337, -0.2073,  0.0446],
+        ...,
+        [-0.2398,  0.1617,  0.0228,  ..., -0.1883,  0.1277,  0.0705],
+        [ 0.0029, -0.0975, -0.0050,  ..., -0.1746, -0.2082, -0.3157],
+        [ 0.0369, -0.0623, -0.0182,  ..., -0.2924, -0.2031,  0.0217]],
+       device='cuda:0'), grad: tensor([[-2.3138e-09,  5.8208e-11,  0.0000e+00,  ...,  1.3097e-10,
+          7.2760e-11,  3.2014e-10],
+        [ 9.0076e-09,  2.9249e-09,  0.0000e+00,  ...,  7.2760e-10,
+          2.8085e-09,  2.1973e-09],
+        [ 9.7498e-10,  8.1491e-10,  0.0000e+00,  ..., -9.3132e-10,
+          8.0036e-10, -7.2760e-11],
+        ...,
+        [ 1.8481e-09,  4.6566e-10,  0.0000e+00,  ...,  9.0222e-10,
+          9.0222e-10,  2.6630e-09],
+        [-9.8080e-09, -2.5902e-09,  0.0000e+00,  ...,  1.8917e-10,
+         -2.4156e-09,  2.4884e-09],
+        [-6.0245e-09,  6.9849e-10,  0.0000e+00,  ...,  1.6269e-08,
+          6.5484e-10,  4.3074e-09]], device='cuda:0')
+Epoch 498, bias, value: tensor([-4.1340e-02,  1.2524e-02,  1.3024e-02,  2.7515e-02,  3.5555e-02,
+        -2.1214e-02,  2.8892e-02,  3.0467e-02, -1.9095e-02, -4.3499e-05],
+       device='cuda:0'), grad: tensor([-4.8749e-09,  5.0873e-08,  5.7771e-09, -1.0114e-08, -2.8667e-08,
+         1.3941e-08,  6.8248e-09,  1.3868e-08, -4.8080e-08,  2.2570e-08],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 497, time 252.59, cls_loss 0.0003 cls_loss_mapping 0.0003 cls_loss_causal 0.4077 re_mapping 0.0014 re_causal 0.0064 /// teacc 99.21 lr 0.00001000
+Epoch 499, weight, value: tensor([[ 0.0920, -0.1876, -0.1459,  ..., -0.1448, -0.1750, -0.1706],
+        [ 0.0583,  0.0572, -0.0330,  ..., -0.0881,  0.1792,  0.0132],
+        [-0.0805, -0.2087, -0.0079,  ...,  0.2338, -0.2076,  0.0446],
+        ...,
+        [-0.2399,  0.1619,  0.0228,  ..., -0.1884,  0.1278,  0.0707],
+        [ 0.0031, -0.0975, -0.0050,  ..., -0.1747, -0.2082, -0.3158],
+        [ 0.0369, -0.0623, -0.0182,  ..., -0.2926, -0.2033,  0.0216]],
+       device='cuda:0'), grad: tensor([[-5.3842e-09, -1.1642e-10,  0.0000e+00,  ...,  4.9477e-10,
+          0.0000e+00,  6.9849e-10],
+        [ 1.4552e-09,  1.2806e-09,  0.0000e+00,  ...,  4.4529e-09,
+          2.9104e-10,  8.0909e-09],
+        [ 8.7311e-10,  3.7835e-10,  0.0000e+00,  ..., -2.5902e-09,
+          2.6193e-10, -3.5216e-09],
+        ...,
+        [ 2.1537e-09,  2.9104e-10,  0.0000e+00,  ...,  1.7171e-09,
+          0.0000e+00,  5.7335e-09],
+        [ 1.2515e-09,  2.9104e-11,  0.0000e+00,  ...,  9.0222e-10,
+          0.0000e+00,  1.2806e-09],
+        [-4.9185e-08,  1.4843e-09,  0.0000e+00,  ...,  6.3737e-09,
+          2.0373e-10, -7.6368e-08]], device='cuda:0')
+Epoch 499, bias, value: tensor([-0.0413,  0.0124,  0.0130,  0.0275,  0.0356, -0.0213,  0.0289,  0.0306,
+        -0.0190, -0.0001], device='cuda:0'), grad: tensor([-2.5728e-08,  3.1665e-08, -4.1910e-09,  7.1013e-09,  2.4680e-07,
+         4.5402e-09,  8.1782e-09,  2.3720e-08,  9.0222e-09, -2.7963e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 498, time 252.83, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4173 re_mapping 0.0014 re_causal 0.0065 /// teacc 99.20 lr 0.00001000
+Epoch 500, weight, value: tensor([[ 0.0921, -0.1876, -0.1459,  ..., -0.1448, -0.1750, -0.1706],
+        [ 0.0584,  0.0571, -0.0330,  ..., -0.0882,  0.1793,  0.0131],
+        [-0.0807, -0.2090, -0.0079,  ...,  0.2339, -0.2078,  0.0446],
+        ...,
+        [-0.2400,  0.1623,  0.0228,  ..., -0.1885,  0.1281,  0.0710],
+        [ 0.0031, -0.0977, -0.0050,  ..., -0.1747, -0.2084, -0.3160],
+        [ 0.0369, -0.0626, -0.0182,  ..., -0.2927, -0.2036,  0.0216]],
+       device='cuda:0'), grad: tensor([[-3.7544e-09,  2.9104e-11,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  9.3132e-10],
+        [ 2.2119e-09,  1.4552e-10,  0.0000e+00,  ...,  5.9372e-09,
+          8.7311e-11,  6.6066e-09],
+        [ 2.8522e-09,  2.6193e-10,  0.0000e+00,  ..., -2.1362e-08,
+          1.1642e-10, -1.7113e-08],
+        ...,
+        [ 4.9477e-10,  2.0082e-09,  0.0000e+00,  ...,  1.4465e-08,
+          6.4028e-10,  1.4930e-08],
+        [-7.5961e-09,  4.0745e-10,  0.0000e+00,  ...,  4.3074e-09,
+          2.3283e-10,  2.6484e-09],
+        [ 3.1723e-09,  1.1642e-10,  0.0000e+00,  ...,  3.5798e-08,
+          8.7311e-11,  5.0233e-08]], device='cuda:0')
+Epoch 500, bias, value: tensor([-0.0412,  0.0124,  0.0129,  0.0274,  0.0355, -0.0215,  0.0290,  0.0308,
+        -0.0190, -0.0002], device='cuda:0'), grad: tensor([-1.4785e-08,  3.1258e-08, -4.0280e-08, -3.5914e-08, -2.0606e-07,
+         1.4348e-08,  1.2573e-08,  8.1025e-08, -1.1030e-08,  1.7695e-07],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 499, time 252.41, cls_loss 0.0004 cls_loss_mapping 0.0003 cls_loss_causal 0.4244 re_mapping 0.0014 re_causal 0.0064 /// teacc 99.17 lr 0.00001000
+---------------------saving last model at epoch 499----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps5_RA', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps5_RA/14factor_best.csv', 'channels': 3, 'factor_num': 14, 'stride': 3, 'epoch': 'best', 'eval_mapping': True}
+loading weight of best
+randm: False
+stride: 3
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+Using downloaded and verified file: /home/yuqian_fu/.pytorch/SVHN/test_32x32.mat
+                         mnist   mnist_FA  ...    usps_FA        Avg
+ShearX               99.129997  99.059998  ...  88.938713  72.058903
+ShearY               98.979996  98.959999  ...  88.938713  69.911438
+AutoContrast         99.180000  99.180000  ...  88.938713  62.315996
+Invert               99.059998  97.419998  ...  88.938713  61.798100
+Equalize             98.509995  98.479996  ...  88.938713  72.956973
+Solarize             98.489998  98.540001  ...  88.938713  63.519738
+SolarizeAdd          98.799995  98.599998  ...  88.938713  70.380315
+Posterize            99.119995  99.150002  ...  88.938713  74.407317
+Contrast             99.099998  99.290001  ...  88.938713  69.076321
+Color                98.900002  99.269997  ...  88.938713  56.291151
+Brightness           98.979996  99.220001  ...  88.938713  70.326309
+Sharpness            99.029999  99.169998  ...  88.938713  72.508256
+NoiseSalt            99.010002  99.180000  ...  88.938713  60.808785
+NoiseGaussian        98.930000  99.269997  ...  88.938713  54.688457
+w/o do (original x)  99.270000   0.000000  ...   0.000000  76.284641
+
+[15 rows x 11 columns]
+    mnist       svhn    mnist_m   syndigit       usps       Avg
+do  99.27  67.739705  78.069103  76.520465  87.643249  77.49313
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps5_RA', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps5_RA/14factor_last.csv', 'channels': 3, 'factor_num': 14, 'stride': 3, 'epoch': 'last', 'eval_mapping': True}
+loading weight of last
+randm: False
+stride: 3
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+Using downloaded and verified file: /home/yuqian_fu/.pytorch/SVHN/test_32x32.mat
+                         mnist   mnist_FA  ...    usps_FA        Avg
+ShearX               99.129997  99.139999  ...  89.387146  72.153507
+ShearY               98.959999  99.010002  ...  89.387146  70.025443
+AutoContrast         99.110001  99.110001  ...  89.387146  62.317904
+Invert               99.059998  97.360001  ...  89.387146  63.034497
+Equalize             98.540001  98.479996  ...  89.387146  73.167739
+Solarize             98.500000  98.580002  ...  89.387146  64.381314
+SolarizeAdd          98.820000  98.680000  ...  89.387146  70.767879
+Posterize            99.110001  99.129997  ...  89.387146  74.491499
+Contrast             99.070000  99.229996  ...  89.387146  68.858720
+Color                98.940002  99.169998  ...  89.387146  55.757759
+Brightness           99.000000  99.169998  ...  89.387146  69.960325
+Sharpness            99.089996  99.169998  ...  89.387146  72.177784
+NoiseSalt            98.970001  99.150002  ...  89.387146  60.591439
+NoiseGaussian        99.019997  99.190002  ...  89.387146  54.453465
+w/o do (original x)  99.170000   0.000000  ...   0.000000  76.429195
+
+[15 rows x 11 columns]
+    mnist       svhn   mnist_m   syndigit       usps        Avg
+do  99.24  67.628304  78.34685  76.719355  87.892377  77.646721
diff --git a/Meta-causal/code-withStyleAttack/73080.error b/Meta-causal/code-withStyleAttack/73080.error
new file mode 100644
index 0000000000000000000000000000000000000000..d6efac5bd6b3adc5163adf70bcde543937a889b5
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73080.error
@@ -0,0 +1,3 @@
+Downloading: "https://download.pytorch.org/models/resnet18-5c106cde.pth" to /home/yuqian_fu/.cache/torch/hub/checkpoints/resnet18-5c106cde.pth
+  0%|          | 0.00/44.7M [00:00<?, ?B/s]  2%|▏         | 768k/44.7M [00:00<00:05, 7.72MB/s]  7%|▋         | 3.00M/44.7M [00:00<00:02, 16.7MB/s] 24%|██▎       | 10.5M/44.7M [00:00<00:00, 44.6MB/s] 81%|████████  | 36.1M/44.7M [00:00<00:00, 132MB/s] 100%|██████████| 44.7M/44.7M [00:00<00:00, 110MB/s]
+run_my_joint_v13_test.sh: line 30: tchsize}: command not found
diff --git a/Meta-causal/code-withStyleAttack/73080.log b/Meta-causal/code-withStyleAttack/73080.log
new file mode 100644
index 0000000000000000000000000000000000000000..a515ae0f38081282a60b595cf735423da777d036
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73080.log
@@ -0,0 +1,1768 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'art_painting', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 5, 'factor_num': 16, 'epochs': 70, 'nbatch': 100, 'batchsize': 6, 'lr': 0.01, 'lr_scheduler': 'cosine', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_SGD', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 5
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_train.hdf5 torch.Size([1840, 3, 227, 227]) torch.Size([1840])
+--------------------------CA_multiple--------------------------
+---------------------------16 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_val.hdf5 torch.Size([208, 3, 227, 227]) torch.Size([208])
+-------------------------------------loading pretrain weights----------------------------------
+Epoch 1, weight, value: tensor([[ 0.0005, -0.0052, -0.0102,  ...,  0.0177,  0.0086, -0.0214],
+        [ 0.0102, -0.0084,  0.0163,  ..., -0.0221, -0.0169,  0.0033],
+        [-0.0181,  0.0159, -0.0176,  ..., -0.0189, -0.0187, -0.0051],
+        ...,
+        [ 0.0026, -0.0063, -0.0105,  ..., -0.0084, -0.0135, -0.0090],
+        [-0.0176,  0.0079,  0.0192,  ...,  0.0147,  0.0039, -0.0194],
+        [ 0.0185, -0.0029, -0.0156,  ...,  0.0061,  0.0069, -0.0063]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([-0.0163, -0.0133,  0.0142, -0.0056,  0.0169,  0.0027,  0.0076],
+       device='cuda:0'), grad: None
+306
+0.01
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 383.05, cls_loss 8.0259 cls_loss_mapping 1.9219 cls_loss_causal 1.9266 re_mapping 0.2761 re_causal 0.2756 /// teacc 21.63 lr 0.00999497
+Epoch 2, weight, value: tensor([[-0.0043, -0.0256, -0.0152,  ...,  0.0249, -0.0069, -0.0169],
+        [-0.0099, -0.0158,  0.0119,  ...,  0.0287,  0.0151,  0.0303],
+        [-0.0378,  0.0088, -0.0245,  ..., -0.0375, -0.0195, -0.0164],
+        ...,
+        [ 0.0425,  0.0362,  0.0285,  ..., -0.0577, -0.0308, -0.0353],
+        [-0.0166, -0.0025,  0.0042,  ..., -0.0293, -0.0593, -0.0735],
+        [ 0.0639,  0.0531,  0.0064,  ...,  0.0489,  0.0569,  0.0487]],
+       device='cuda:0'), grad: tensor([[-0.0587, -0.0208, -0.0217,  ..., -0.0155, -0.0216, -0.0084],
+        [ 0.1203,  0.0392,  0.0329,  ...,  0.0339,  0.0458,  0.0079],
+        [ 0.0978,  0.0319,  0.0266,  ...,  0.0272,  0.0369,  0.0063],
+        ...,
+        [ 0.0963,  0.0314,  0.0260,  ...,  0.0265,  0.0360,  0.0060],
+        [-0.1907, -0.0611, -0.0463,  ..., -0.0445, -0.0639, -0.0065],
+        [-0.0686, -0.0217, -0.0186,  ..., -0.0288, -0.0347, -0.0056]],
+       device='cuda:0')
+Epoch 2, bias, value: tensor([ 0.0152,  0.0217, -0.0293, -0.0422, -0.0219,  0.0513,  0.0113],
+       device='cuda:0'), grad: tensor([-0.2659,  0.2849,  0.2234,  0.0126,  0.2183, -0.2754, -0.1976],
+       device='cuda:0')
+306
+0.009994965332706574
+changing lr
+epoch 1, time 381.01, cls_loss 2.5515 cls_loss_mapping 1.9102 cls_loss_causal 1.9172 re_mapping 0.0658 re_causal 0.0655 /// teacc 15.87 lr 0.00997987
+Epoch 3, weight, value: tensor([[-0.0014, -0.0210, -0.0074,  ...,  0.0191, -0.0116, -0.0231],
+        [-0.0213, -0.0237,  0.0061,  ...,  0.0236,  0.0114,  0.0255],
+        [-0.0211,  0.0167, -0.0137,  ..., -0.0361, -0.0175, -0.0088],
+        ...,
+        [ 0.0422,  0.0282,  0.0198,  ..., -0.0504, -0.0278, -0.0323],
+        [-0.0163,  0.0013,  0.0062,  ..., -0.0358, -0.0630, -0.0818],
+        [ 0.0562,  0.0520,  0.0040,  ...,  0.0518,  0.0602,  0.0516]],
+       device='cuda:0'), grad: tensor([[ 0.0228,  0.0069,  0.0063,  ...,  0.0053,  0.0070,  0.0037],
+        [ 0.0978,  0.0246,  0.0141,  ...,  0.0186,  0.0257,  0.0048],
+        [-0.2001, -0.0554, -0.0412,  ..., -0.0405, -0.0543, -0.0216],
+        ...,
+        [ 0.0298,  0.0087,  0.0071,  ...,  0.0068,  0.0089,  0.0042],
+        [ 0.0797,  0.0247,  0.0176,  ...,  0.0194,  0.0245,  0.0118],
+        [-0.0408, -0.0127, -0.0066,  ..., -0.0121, -0.0151, -0.0045]],
+       device='cuda:0')
+Epoch 3, bias, value: tensor([ 0.0269,  0.0247,  0.0167, -0.0570, -0.0824,  0.0441,  0.0326],
+       device='cuda:0'), grad: tensor([ 0.0754,  0.1183, -0.4148,  0.0357,  0.0848,  0.2358, -0.1354],
+       device='cuda:0')
+306
+0.009979871469976196
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 405.56, cls_loss 2.2355 cls_loss_mapping 1.9025 cls_loss_causal 1.9106 re_mapping 0.0516 re_causal 0.0513 /// teacc 22.12 lr 0.00995475
+Epoch 4, weight, value: tensor([[ 1.1004e-02, -1.7968e-02, -3.6987e-03,  ...,  7.8354e-03,
+         -2.4159e-02, -3.4713e-02],
+        [-2.6496e-02, -2.7008e-02,  2.8173e-03,  ...,  2.3212e-02,
+          1.2607e-02,  2.3745e-02],
+        [-2.3148e-02,  1.6885e-02, -1.4895e-02,  ..., -3.1411e-02,
+         -1.3085e-02, -3.9455e-05],
+        ...,
+        [ 3.5443e-02,  2.8504e-02,  1.9250e-02,  ..., -4.4721e-02,
+         -2.4074e-02, -3.2135e-02],
+        [-1.4601e-02, -1.0485e-03,  2.8374e-03,  ..., -4.0977e-02,
+         -6.6765e-02, -8.8562e-02],
+        [ 5.5449e-02,  4.6346e-02,  4.5548e-03,  ...,  4.8378e-02,
+          5.6338e-02,  5.2555e-02]], device='cuda:0'), grad: tensor([[ 0.0538,  0.0090,  0.0118,  ...,  0.0087,  0.0114,  0.0097],
+        [-0.0084, -0.0049, -0.0037,  ...,  0.0032,  0.0036,  0.0046],
+        [-0.0376, -0.0057, -0.0086,  ..., -0.0076, -0.0078, -0.0101],
+        ...,
+        [-0.0472, -0.0053, -0.0078,  ..., -0.0081, -0.0113, -0.0098],
+        [-0.1588, -0.0265, -0.0359,  ..., -0.0301, -0.0393, -0.0316],
+        [ 0.1902,  0.0321,  0.0423,  ...,  0.0321,  0.0413,  0.0354]],
+       device='cuda:0')
+Epoch 4, bias, value: tensor([ 0.0091,  0.0326, -0.0026, -0.0543, -0.1053,  0.0175,  0.1085],
+       device='cuda:0'), grad: tensor([ 0.1455,  0.0254, -0.1423,  0.0245, -0.1273, -0.4548,  0.5293],
+       device='cuda:0')
+306
+0.009954748808839675
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 412.41, cls_loss 2.1555 cls_loss_mapping 1.8148 cls_loss_causal 1.8551 re_mapping 0.0481 re_causal 0.0477 /// teacc 41.83 lr 0.00991965
+Epoch 5, weight, value: tensor([[ 0.0063, -0.0161,  0.0006,  ...,  0.0102, -0.0245, -0.0329],
+        [-0.0421, -0.0360, -0.0072,  ...,  0.0268,  0.0122,  0.0250],
+        [-0.0085,  0.0231, -0.0085,  ..., -0.0231, -0.0030,  0.0071],
+        ...,
+        [ 0.0337,  0.0262,  0.0182,  ..., -0.0615, -0.0411, -0.0497],
+        [-0.0122, -0.0010,  0.0003,  ..., -0.0451, -0.0682, -0.0913],
+        [ 0.0508,  0.0417,  0.0053,  ...,  0.0464,  0.0544,  0.0532]],
+       device='cuda:0'), grad: tensor([[ 0.0657,  0.0091,  0.0151,  ...,  0.0147,  0.0165,  0.0187],
+        [ 0.0629,  0.0090,  0.0148,  ...,  0.0163,  0.0186,  0.0206],
+        [-0.0130, -0.0028, -0.0037,  ..., -0.0143, -0.0175, -0.0172],
+        ...,
+        [ 0.0138,  0.0019,  0.0032,  ...,  0.0029,  0.0032,  0.0037],
+        [-0.0316, -0.0031, -0.0037,  ..., -0.0041, -0.0046, -0.0053],
+        [-0.0157, -0.0031, -0.0059,  ..., -0.0057, -0.0054, -0.0067]],
+       device='cuda:0')
+Epoch 5, bias, value: tensor([ 0.0130,  0.0126,  0.0440, -0.0676, -0.1038, -0.0046,  0.1121],
+       device='cuda:0'), grad: tensor([ 0.2050,  0.1956, -0.0292, -0.2373,  0.0421, -0.0775, -0.0986],
+       device='cuda:0')
+306
+0.009919647942993149
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 407.79, cls_loss 1.9997 cls_loss_mapping 1.6267 cls_loss_causal 1.7492 re_mapping 0.0515 re_causal 0.0509 /// teacc 48.08 lr 0.00987464
+Epoch 6, weight, value: tensor([[ 0.0094, -0.0112,  0.0079,  ...,  0.0109, -0.0252, -0.0336],
+        [-0.0612, -0.0501, -0.0260,  ...,  0.0237,  0.0136,  0.0219],
+        [-0.0084,  0.0216, -0.0125,  ..., -0.0016,  0.0143,  0.0224],
+        ...,
+        [ 0.0236,  0.0229,  0.0156,  ..., -0.0617, -0.0393, -0.0459],
+        [-0.0165, -0.0016, -0.0023,  ..., -0.0613, -0.0839, -0.1062],
+        [ 0.0731,  0.0579,  0.0278,  ...,  0.0511,  0.0555,  0.0607]],
+       device='cuda:0'), grad: tensor([[-0.0063, -0.0017, -0.0044,  ..., -0.0058, -0.0085, -0.0083],
+        [ 0.0032,  0.0057,  0.0059,  ...,  0.0081,  0.0073,  0.0067],
+        [ 0.0368,  0.0085,  0.0099,  ...,  0.0098,  0.0105,  0.0100],
+        ...,
+        [-0.0449, -0.0119, -0.0113,  ..., -0.0200, -0.0205, -0.0166],
+        [ 0.0234,  0.0041,  0.0045,  ...,  0.0035,  0.0037,  0.0041],
+        [-0.0861, -0.0203, -0.0243,  ..., -0.0116, -0.0104, -0.0139]],
+       device='cuda:0')
+Epoch 6, bias, value: tensor([ 0.0402, -0.0392,  0.0589, -0.0862, -0.0867, -0.0169,  0.1355],
+       device='cuda:0'), grad: tensor([-0.0655,  0.0184,  0.1025,  0.2256, -0.1123,  0.0669, -0.2358],
+       device='cuda:0')
+306
+0.009874639560909117
+changing lr
+---------------------saving model at epoch 5----------------------------------------------------
+epoch 5, time 417.86, cls_loss 1.8129 cls_loss_mapping 1.4975 cls_loss_causal 1.6591 re_mapping 0.0628 re_causal 0.0621 /// teacc 71.63 lr 0.00981981
+Epoch 7, weight, value: tensor([[ 0.0361,  0.0190,  0.0411,  ...,  0.0019, -0.0337, -0.0428],
+        [-0.0899, -0.0656, -0.0443,  ...,  0.0289,  0.0242,  0.0266],
+        [-0.0207,  0.0036, -0.0302,  ...,  0.0091,  0.0250,  0.0324],
+        ...,
+        [-0.0009, -0.0020, -0.0123,  ..., -0.0473, -0.0328, -0.0356],
+        [-0.0227, -0.0091, -0.0089,  ..., -0.0677, -0.0878, -0.1107],
+        [ 0.1149,  0.0881,  0.0597,  ...,  0.0376,  0.0466,  0.0549]],
+       device='cuda:0'), grad: tensor([[ 0.0400,  0.0120,  0.0138,  ...,  0.0096,  0.0117,  0.0106],
+        [-0.0264, -0.0036, -0.0053,  ..., -0.0015, -0.0009, -0.0020],
+        [ 0.0682,  0.0170,  0.0175,  ...,  0.0369,  0.0392,  0.0402],
+        ...,
+        [ 0.0400,  0.0129,  0.0148,  ...,  0.0083,  0.0104,  0.0094],
+        [ 0.0039,  0.0010,  0.0011,  ...,  0.0016,  0.0019,  0.0018],
+        [-0.0551, -0.0072, -0.0061,  ..., -0.0450, -0.0456, -0.0472]],
+       device='cuda:0')
+Epoch 7, bias, value: tensor([ 0.0582, -0.0684,  0.0378, -0.0859, -0.0931,  0.0145,  0.1428],
+       device='cuda:0'), grad: tensor([ 0.1227, -0.0595,  0.1918, -0.1331,  0.1024,  0.0182, -0.2426],
+       device='cuda:0')
+306
+0.009819814303479266
+changing lr
+---------------------saving model at epoch 6----------------------------------------------------
+epoch 6, time 411.30, cls_loss 1.6782 cls_loss_mapping 1.3005 cls_loss_causal 1.5554 re_mapping 0.0704 re_causal 0.0695 /// teacc 80.77 lr 0.00975528
+Epoch 8, weight, value: tensor([[ 0.0852,  0.0666,  0.0866,  ..., -0.0040, -0.0357, -0.0432],
+        [-0.0991, -0.0733, -0.0519,  ...,  0.0321,  0.0233,  0.0263],
+        [-0.0275,  0.0074, -0.0322,  ...,  0.0114,  0.0285,  0.0366],
+        ...,
+        [-0.0085, -0.0098, -0.0167,  ..., -0.0342, -0.0211, -0.0259],
+        [-0.0370, -0.0256, -0.0242,  ..., -0.0884, -0.1065, -0.1313],
+        [ 0.1169,  0.0855,  0.0626,  ...,  0.0402,  0.0487,  0.0587]],
+       device='cuda:0'), grad: tensor([[-0.1198, -0.0237, -0.0222,  ..., -0.0149, -0.0129, -0.0138],
+        [ 0.0373,  0.0100,  0.0110,  ...,  0.0080,  0.0078,  0.0086],
+        [ 0.0241,  0.0031,  0.0041,  ...,  0.0041,  0.0040,  0.0044],
+        ...,
+        [ 0.0590,  0.0202,  0.0221,  ...,  0.0151,  0.0148,  0.0164],
+        [ 0.0118,  0.0032,  0.0030,  ...,  0.0020,  0.0018,  0.0019],
+        [-0.0728, -0.0304, -0.0340,  ..., -0.0246, -0.0246, -0.0276]],
+       device='cuda:0')
+Epoch 8, bias, value: tensor([ 0.0253, -0.0229,  0.0262, -0.0627, -0.1174, -0.0022,  0.1594],
+       device='cuda:0'), grad: tensor([-0.3044,  0.1104,  0.0819,  0.1454,  0.1647,  0.0297, -0.2275],
+       device='cuda:0')
+306
+0.009755282581475767
+changing lr
+epoch 7, time 390.05, cls_loss 1.5121 cls_loss_mapping 0.9926 cls_loss_causal 1.3415 re_mapping 0.0765 re_causal 0.0752 /// teacc 79.81 lr 0.00968117
+Epoch 9, weight, value: tensor([[ 0.0896,  0.0670,  0.0889,  ..., -0.0215, -0.0551, -0.0628],
+        [-0.0933, -0.0717, -0.0502,  ...,  0.0324,  0.0227,  0.0292],
+        [-0.0259,  0.0031, -0.0321,  ...,  0.0151,  0.0356,  0.0427],
+        ...,
+        [-0.0251, -0.0228, -0.0299,  ..., -0.0208, -0.0055, -0.0098],
+        [-0.0481, -0.0325, -0.0338,  ..., -0.0893, -0.1051, -0.1306],
+        [ 0.1222,  0.0943,  0.0688,  ...,  0.0455,  0.0466,  0.0576]],
+       device='cuda:0'), grad: tensor([[-0.0832, -0.0446, -0.0373,  ..., -0.0219, -0.0242, -0.0249],
+        [-0.0381, -0.0028, -0.0036,  ..., -0.0200, -0.0176, -0.0196],
+        [ 0.0105,  0.0009,  0.0012,  ...,  0.0036,  0.0034,  0.0037],
+        ...,
+        [ 0.0450,  0.0397,  0.0315,  ...,  0.0193,  0.0202,  0.0208],
+        [ 0.0102,  0.0003,  0.0008,  ...,  0.0020,  0.0020,  0.0022],
+        [ 0.0492,  0.0062,  0.0068,  ...,  0.0153,  0.0147,  0.0161]],
+       device='cuda:0')
+Epoch 9, bias, value: tensor([ 0.0189, -0.0293,  0.0360, -0.0557, -0.1077, -0.0076,  0.1510],
+       device='cuda:0'), grad: tensor([-0.1376, -0.1183,  0.0330,  0.0216,  0.0175,  0.0347,  0.1492],
+       device='cuda:0')
+306
+0.009681174353198686
+changing lr
+epoch 8, time 384.47, cls_loss 1.4233 cls_loss_mapping 0.7617 cls_loss_causal 1.2231 re_mapping 0.0812 re_causal 0.0798 /// teacc 78.37 lr 0.00959764
+Epoch 10, weight, value: tensor([[ 0.0995,  0.0722,  0.0978,  ..., -0.0243, -0.0545, -0.0674],
+        [-0.0901, -0.0613, -0.0392,  ...,  0.0494,  0.0417,  0.0454],
+        [-0.0063,  0.0171, -0.0205,  ...,  0.0130,  0.0325,  0.0398],
+        ...,
+        [-0.0523, -0.0385, -0.0427,  ..., -0.0201, -0.0068, -0.0121],
+        [-0.0476, -0.0351, -0.0360,  ..., -0.0825, -0.0990, -0.1229],
+        [ 0.1254,  0.0982,  0.0689,  ...,  0.0242,  0.0230,  0.0410]],
+       device='cuda:0'), grad: tensor([[-1.9836e-03, -7.0305e-03, -7.3624e-03,  ...,  9.2316e-04,
+          1.8034e-03,  1.2102e-03],
+        [-1.7369e-04, -2.2626e-04, -3.4571e-05,  ..., -1.7738e-03,
+         -2.1515e-03, -1.9550e-03],
+        [ 1.2611e-02,  2.3308e-03,  2.8000e-03,  ...,  2.6054e-03,
+          3.2692e-03,  2.9316e-03],
+        ...,
+        [ 2.6093e-03,  7.2432e-04,  8.6308e-04,  ...,  6.4182e-04,
+          7.0429e-04,  6.6423e-04],
+        [ 3.5065e-02,  4.7035e-03,  6.7711e-03,  ...,  1.1192e-02,
+          1.2352e-02,  1.1406e-02],
+        [-8.5083e-02, -4.7569e-03, -8.8425e-03,  ..., -2.3270e-02,
+         -2.7710e-02, -2.4796e-02]], device='cuda:0')
+Epoch 10, bias, value: tensor([ 0.0159, -0.0468,  0.0403, -0.0352, -0.1528,  0.0115,  0.1725],
+       device='cuda:0'), grad: tensor([-0.0008, -0.0075,  0.0332,  0.0992,  0.0066,  0.0903, -0.2209],
+       device='cuda:0')
+306
+0.009597638862757255
+changing lr
+---------------------saving model at epoch 9----------------------------------------------------
+epoch 9, time 402.27, cls_loss 1.2961 cls_loss_mapping 0.6023 cls_loss_causal 1.0943 re_mapping 0.0817 re_causal 0.0803 /// teacc 81.25 lr 0.00950484
+Epoch 11, weight, value: tensor([[ 0.0924,  0.0711,  0.0993,  ..., -0.0241, -0.0587, -0.0700],
+        [-0.0833, -0.0588, -0.0379,  ...,  0.0494,  0.0412,  0.0460],
+        [-0.0006,  0.0218, -0.0158,  ...,  0.0158,  0.0346,  0.0418],
+        ...,
+        [-0.0578, -0.0556, -0.0591,  ..., -0.0188, -0.0041, -0.0109],
+        [-0.0496, -0.0370, -0.0392,  ..., -0.0923, -0.1104, -0.1308],
+        [ 0.1393,  0.1091,  0.0793,  ...,  0.0148,  0.0168,  0.0335]],
+       device='cuda:0'), grad: tensor([[ 0.0060,  0.0021,  0.0020,  ...,  0.0014,  0.0015,  0.0014],
+        [ 0.0112,  0.0039,  0.0037,  ...,  0.0027,  0.0028,  0.0026],
+        [-0.0211, -0.0066, -0.0055,  ..., -0.0060, -0.0069, -0.0064],
+        ...,
+        [ 0.0154,  0.0049,  0.0042,  ...,  0.0043,  0.0048,  0.0045],
+        [ 0.0026,  0.0007,  0.0007,  ...,  0.0007,  0.0007,  0.0007],
+        [-0.0129, -0.0048, -0.0049,  ..., -0.0028, -0.0025, -0.0023]],
+       device='cuda:0')
+Epoch 11, bias, value: tensor([ 0.0035, -0.0323,  0.0492, -0.0855, -0.1465,  0.0612,  0.1558],
+       device='cuda:0'), grad: tensor([ 0.0135,  0.0267, -0.0728, -0.0037,  0.0502,  0.0070, -0.0208],
+       device='cuda:0')
+306
+0.009504844339512096
+changing lr
+---------------------saving model at epoch 10----------------------------------------------------
+epoch 10, time 406.35, cls_loss 1.2154 cls_loss_mapping 0.5100 cls_loss_causal 1.0110 re_mapping 0.0792 re_causal 0.0780 /// teacc 81.73 lr 0.00940298
+Epoch 12, weight, value: tensor([[ 0.1017,  0.0702,  0.0947,  ..., -0.0184, -0.0575, -0.0691],
+        [-0.0997, -0.0739, -0.0540,  ...,  0.0558,  0.0468,  0.0550],
+        [-0.0011,  0.0195, -0.0173,  ...,  0.0174,  0.0376,  0.0465],
+        ...,
+        [-0.0572, -0.0517, -0.0544,  ..., -0.0284, -0.0146, -0.0236],
+        [-0.0613, -0.0451, -0.0458,  ..., -0.0989, -0.1176, -0.1387],
+        [ 0.1495,  0.1238,  0.0944,  ...,  0.0161,  0.0225,  0.0379]],
+       device='cuda:0'), grad: tensor([[ 0.0356,  0.0169,  0.0160,  ...,  0.0014, -0.0016,  0.0013],
+        [ 0.0687,  0.0102,  0.0141,  ...,  0.0204,  0.0256,  0.0238],
+        [-0.0131, -0.0049, -0.0056,  ..., -0.0077, -0.0088, -0.0092],
+        ...,
+        [-0.0492, -0.0142, -0.0161,  ..., -0.0065, -0.0085, -0.0091],
+        [ 0.0116,  0.0026,  0.0029,  ...,  0.0030,  0.0033,  0.0035],
+        [ 0.0104, -0.0011, -0.0005,  ...,  0.0020,  0.0031,  0.0033]],
+       device='cuda:0')
+Epoch 12, bias, value: tensor([ 0.0069, -0.0462,  0.0860, -0.0843, -0.1789,  0.0519,  0.1698],
+       device='cuda:0'), grad: tensor([ 0.0229,  0.2268, -0.0501, -0.1538, -0.1074,  0.0307,  0.0309],
+       device='cuda:0')
+306
+0.009402977659283692
+changing lr
+---------------------saving model at epoch 11----------------------------------------------------
+epoch 11, time 405.71, cls_loss 1.2016 cls_loss_mapping 0.4641 cls_loss_causal 0.9854 re_mapping 0.0747 re_causal 0.0738 /// teacc 88.46 lr 0.00929224
+Epoch 13, weight, value: tensor([[ 0.1139,  0.0877,  0.1135,  ..., -0.0163, -0.0561, -0.0664],
+        [-0.0948, -0.0691, -0.0498,  ...,  0.0602,  0.0516,  0.0601],
+        [-0.0066,  0.0146, -0.0228,  ...,  0.0101,  0.0295,  0.0395],
+        ...,
+        [-0.0598, -0.0492, -0.0517,  ..., -0.0242, -0.0085, -0.0170],
+        [-0.0657, -0.0480, -0.0471,  ..., -0.0978, -0.1188, -0.1392],
+        [ 0.1506,  0.1142,  0.0829,  ...,  0.0055,  0.0087,  0.0233]],
+       device='cuda:0'), grad: tensor([[-0.0660, -0.0228, -0.0193,  ..., -0.0155, -0.0219, -0.0195],
+        [ 0.0094,  0.0023,  0.0018,  ...,  0.0016,  0.0022,  0.0018],
+        [ 0.0264,  0.0080,  0.0068,  ...,  0.0057,  0.0076,  0.0066],
+        ...,
+        [-0.0321, -0.0054, -0.0046,  ..., -0.0062, -0.0068, -0.0055],
+        [ 0.0016,  0.0003,  0.0002,  ...,  0.0002,  0.0004,  0.0003],
+        [ 0.0518,  0.0162,  0.0143,  ...,  0.0129,  0.0164,  0.0145]],
+       device='cuda:0')
+Epoch 13, bias, value: tensor([ 0.0008, -0.0350,  0.0638, -0.0760, -0.2030,  0.0320,  0.2225],
+       device='cuda:0'), grad: tensor([-0.1628,  0.0253,  0.0627,  0.0271, -0.0719,  0.0050,  0.1146],
+       device='cuda:0')
+306
+0.009292243968009333
+changing lr
+epoch 12, time 401.73, cls_loss 1.1105 cls_loss_mapping 0.4004 cls_loss_causal 0.9297 re_mapping 0.0747 re_causal 0.0739 /// teacc 83.65 lr 0.00917287
+Epoch 14, weight, value: tensor([[ 0.1177,  0.1030,  0.1272,  ..., -0.0203, -0.0592, -0.0692],
+        [-0.1088, -0.0834, -0.0605,  ...,  0.0502,  0.0419,  0.0511],
+        [-0.0101,  0.0075, -0.0297,  ...,  0.0127,  0.0323,  0.0411],
+        ...,
+        [-0.0489, -0.0481, -0.0521,  ..., -0.0263, -0.0114, -0.0186],
+        [-0.0743, -0.0628, -0.0617,  ..., -0.0978, -0.1179, -0.1387],
+        [ 0.1450,  0.1186,  0.0860,  ...,  0.0158,  0.0137,  0.0284]],
+       device='cuda:0'), grad: tensor([[-0.0594, -0.0338, -0.0358,  ..., -0.0027, -0.0046, -0.0045],
+        [-0.0425, -0.0009, -0.0025,  ..., -0.0177, -0.0211, -0.0216],
+        [ 0.0892,  0.0358,  0.0370,  ...,  0.0126,  0.0167,  0.0178],
+        ...,
+        [ 0.0069, -0.0080, -0.0059,  ...,  0.0009,  0.0017,  0.0024],
+        [-0.0381, -0.0010, -0.0020,  ..., -0.0035, -0.0067, -0.0082],
+        [-0.0125, -0.0052, -0.0052,  ..., -0.0022, -0.0010, -0.0029]],
+       device='cuda:0')
+Epoch 14, bias, value: tensor([-0.0353, -0.0415,  0.0611, -0.0694, -0.1666,  0.0774,  0.1793],
+       device='cuda:0'), grad: tensor([-0.0776, -0.1414,  0.1779,  0.1682,  0.0717, -0.1390, -0.0595],
+       device='cuda:0')
+306
+0.009172866268606516
+changing lr
+epoch 13, time 401.99, cls_loss 1.1150 cls_loss_mapping 0.3340 cls_loss_causal 0.8852 re_mapping 0.0717 re_causal 0.0712 /// teacc 83.17 lr 0.00904508
+Epoch 15, weight, value: tensor([[ 0.1103,  0.0955,  0.1196,  ..., -0.0351, -0.0724, -0.0791],
+        [-0.1034, -0.0859, -0.0629,  ...,  0.0518,  0.0449,  0.0537],
+        [-0.0228, -0.0009, -0.0395,  ...,  0.0303,  0.0551,  0.0583],
+        ...,
+        [-0.0532, -0.0477, -0.0527,  ..., -0.0297, -0.0137, -0.0221],
+        [-0.0843, -0.0688, -0.0676,  ..., -0.0963, -0.1155, -0.1363],
+        [ 0.1697,  0.1354,  0.1057,  ...,  0.0098, -0.0004,  0.0182]],
+       device='cuda:0'), grad: tensor([[ 7.8888e-03,  2.2469e-03,  2.3861e-03,  ...,  1.1768e-03,
+          1.5965e-03,  1.4076e-03],
+        [-2.4719e-03, -2.2182e-03, -2.1324e-03,  ...,  1.0973e-04,
+         -5.9187e-05,  3.8087e-05],
+        [ 1.2827e-03,  2.6226e-04,  3.0303e-04,  ...,  4.1080e-04,
+          4.9829e-04,  4.6897e-04],
+        ...,
+        [ 2.7084e-03,  7.6389e-04,  8.2731e-04,  ...,  1.3518e-04,
+          1.7977e-04,  1.5306e-04],
+        [ 6.1188e-03,  1.1950e-03,  1.3447e-03,  ...,  7.8344e-04,
+          1.0386e-03,  9.1982e-04],
+        [ 5.3833e-02,  1.1269e-02,  1.2520e-02,  ...,  6.7978e-03,
+          9.0790e-03,  8.0185e-03]], device='cuda:0')
+Epoch 15, bias, value: tensor([-0.0180, -0.0332,  0.0369, -0.0983, -0.1675,  0.1004,  0.1848],
+       device='cuda:0'), grad: tensor([ 0.0169,  0.0007,  0.0033, -0.1678,  0.0051,  0.0148,  0.1272],
+       device='cuda:0')
+306
+0.00904508497187474
+changing lr
+epoch 14, time 388.86, cls_loss 1.0363 cls_loss_mapping 0.3162 cls_loss_causal 0.8644 re_mapping 0.0738 re_causal 0.0735 /// teacc 87.02 lr 0.00890916
+Epoch 16, weight, value: tensor([[ 0.1009,  0.0842,  0.1077,  ..., -0.0399, -0.0742, -0.0825],
+        [-0.0981, -0.0781, -0.0556,  ...,  0.0553,  0.0474,  0.0532],
+        [-0.0139,  0.0006, -0.0361,  ...,  0.0335,  0.0556,  0.0601],
+        ...,
+        [-0.0710, -0.0583, -0.0643,  ..., -0.0263, -0.0111, -0.0186],
+        [-0.0791, -0.0676, -0.0660,  ..., -0.0993, -0.1164, -0.1353],
+        [ 0.1774,  0.1480,  0.1183,  ...,  0.0077, -0.0012,  0.0166]],
+       device='cuda:0'), grad: tensor([[ 0.0188,  0.0060,  0.0060,  ...,  0.0034,  0.0042,  0.0037],
+        [ 0.0079,  0.0023,  0.0024,  ...,  0.0012,  0.0016,  0.0014],
+        [ 0.0099,  0.0016,  0.0018,  ...,  0.0015,  0.0021,  0.0020],
+        ...,
+        [ 0.0218,  0.0073,  0.0070,  ...,  0.0027,  0.0039,  0.0026],
+        [-0.0041,  0.0028,  0.0019,  ..., -0.0012, -0.0015, -0.0025],
+        [-0.0660, -0.0235, -0.0232,  ..., -0.0202, -0.0232, -0.0200]],
+       device='cuda:0')
+Epoch 16, bias, value: tensor([-0.0316, -0.0348,  0.0310, -0.0903, -0.1662,  0.1531,  0.1438],
+       device='cuda:0'), grad: tensor([ 0.0473,  0.0219,  0.0283,  0.0224,  0.0609, -0.0135, -0.1672],
+       device='cuda:0')
+306
+0.008909157412340152
+changing lr
+epoch 15, time 397.70, cls_loss 1.0026 cls_loss_mapping 0.2677 cls_loss_causal 0.7921 re_mapping 0.0723 re_causal 0.0722 /// teacc 80.29 lr 0.00876536
+Epoch 17, weight, value: tensor([[ 0.1252,  0.1077,  0.1290,  ..., -0.0495, -0.0837, -0.0923],
+        [-0.0989, -0.0779, -0.0548,  ...,  0.0695,  0.0618,  0.0673],
+        [-0.0179,  0.0035, -0.0314,  ...,  0.0234,  0.0496,  0.0536],
+        ...,
+        [-0.0919, -0.0779, -0.0847,  ..., -0.0267, -0.0141, -0.0207],
+        [-0.0784, -0.0651, -0.0635,  ..., -0.0994, -0.1159, -0.1352],
+        [ 0.1795,  0.1437,  0.1177,  ...,  0.0055, -0.0043,  0.0132]],
+       device='cuda:0'), grad: tensor([[-0.1094, -0.0305, -0.0261,  ..., -0.0250, -0.0238, -0.0260],
+        [ 0.0083,  0.0015,  0.0013,  ...,  0.0027,  0.0032,  0.0032],
+        [ 0.0180,  0.0021,  0.0020,  ...,  0.0079,  0.0087,  0.0089],
+        ...,
+        [ 0.0035,  0.0009,  0.0008,  ...,  0.0008,  0.0010,  0.0010],
+        [ 0.0117,  0.0022,  0.0021,  ...,  0.0043,  0.0049,  0.0050],
+        [ 0.0505,  0.0297,  0.0259,  ..., -0.0061, -0.0082, -0.0067]],
+       device='cuda:0')
+Epoch 17, bias, value: tensor([-0.0292, -0.0647,  0.0426, -0.0646, -0.1779,  0.1494,  0.1493],
+       device='cuda:0'), grad: tensor([-0.2751,  0.0251,  0.0591,  0.0561,  0.0098,  0.0379,  0.0873],
+       device='cuda:0')
+306
+0.00876535733001806
+changing lr
+epoch 16, time 412.13, cls_loss 0.9886 cls_loss_mapping 0.2548 cls_loss_causal 0.8105 re_mapping 0.0687 re_causal 0.0688 /// teacc 84.13 lr 0.00861397
+Epoch 18, weight, value: tensor([[ 1.1930e-01,  1.0340e-01,  1.2593e-01,  ..., -3.9654e-02,
+         -7.5520e-02, -8.2331e-02],
+        [-9.9965e-02, -7.7524e-02, -5.6735e-02,  ...,  6.4666e-02,
+          5.7746e-02,  6.0392e-02],
+        [-1.6616e-02,  1.0533e-02, -2.3771e-02,  ...,  1.7341e-02,
+          4.4908e-02,  4.6558e-02],
+        ...,
+        [-9.0189e-02, -8.0932e-02, -8.9203e-02,  ..., -1.8574e-02,
+         -3.8451e-03, -1.1235e-02],
+        [-8.5707e-02, -7.4531e-02, -7.0892e-02,  ..., -1.0382e-01,
+         -1.1981e-01, -1.3900e-01],
+        [ 1.8907e-01,  1.5004e-01,  1.2538e-01,  ...,  2.4261e-05,
+         -1.1459e-02,  9.4986e-03]], device='cuda:0'), grad: tensor([[ 0.0130,  0.0035,  0.0035,  ...,  0.0038,  0.0047,  0.0047],
+        [ 0.0172,  0.0029,  0.0030,  ...,  0.0026,  0.0029,  0.0031],
+        [-0.0437, -0.0061, -0.0060,  ..., -0.0044, -0.0055, -0.0072],
+        ...,
+        [-0.0776, -0.0438, -0.0431,  ..., -0.0380, -0.0424, -0.0400],
+        [ 0.0157,  0.0012,  0.0015,  ...,  0.0014,  0.0017,  0.0019],
+        [ 0.0466,  0.0397,  0.0380,  ...,  0.0315,  0.0351,  0.0336]],
+       device='cuda:0')
+Epoch 18, bias, value: tensor([-0.0501, -0.0630,  0.0187, -0.0815, -0.1374,  0.1729,  0.1455],
+       device='cuda:0'), grad: tensor([ 0.0387,  0.0542, -0.1775,  0.0974, -0.1249,  0.0550,  0.0573],
+       device='cuda:0')
+306
+0.008613974319136962
+changing lr
+epoch 17, time 380.11, cls_loss 0.9556 cls_loss_mapping 0.2311 cls_loss_causal 0.7712 re_mapping 0.0643 re_causal 0.0645 /// teacc 82.69 lr 0.00845531
+Epoch 19, weight, value: tensor([[ 0.1349,  0.1175,  0.1395,  ..., -0.0543, -0.0920, -0.0966],
+        [-0.1003, -0.0765, -0.0541,  ...,  0.0632,  0.0585,  0.0607],
+        [-0.0176,  0.0083, -0.0241,  ...,  0.0278,  0.0563,  0.0582],
+        ...,
+        [-0.0739, -0.0672, -0.0748,  ..., -0.0147, -0.0011, -0.0091],
+        [-0.0983, -0.0860, -0.0817,  ..., -0.1045, -0.1218, -0.1399],
+        [ 0.1762,  0.1404,  0.1148,  ..., -0.0060, -0.0161,  0.0045]],
+       device='cuda:0'), grad: tensor([[ 0.1002,  0.0292,  0.0278,  ...,  0.0107,  0.0143,  0.0100],
+        [ 0.0166,  0.0025,  0.0024,  ...,  0.0021,  0.0026,  0.0016],
+        [-0.0763, -0.0219, -0.0202,  ..., -0.0084, -0.0102, -0.0079],
+        ...,
+        [ 0.0225,  0.0058,  0.0054,  ...,  0.0026,  0.0031,  0.0023],
+        [-0.0426, -0.0012, -0.0015,  ..., -0.0058, -0.0070, -0.0038],
+        [-0.0425, -0.0153, -0.0150,  ..., -0.0042, -0.0065, -0.0042]],
+       device='cuda:0')
+Epoch 19, bias, value: tensor([-0.0200, -0.0390,  0.0107, -0.0931, -0.1581,  0.1567,  0.1480],
+       device='cuda:0'), grad: tensor([ 0.2671,  0.0505, -0.1541,  0.0698,  0.0496, -0.1364, -0.1464],
+       device='cuda:0')
+306
+0.008455313244934327
+changing lr
+epoch 18, time 397.53, cls_loss 0.8829 cls_loss_mapping 0.1904 cls_loss_causal 0.7140 re_mapping 0.0638 re_causal 0.0643 /// teacc 85.10 lr 0.00828969
+Epoch 20, weight, value: tensor([[ 0.1501,  0.1312,  0.1514,  ..., -0.0575, -0.0967, -0.1010],
+        [-0.0916, -0.0663, -0.0443,  ...,  0.0592,  0.0545,  0.0550],
+        [-0.0165, -0.0019, -0.0331,  ...,  0.0305,  0.0593,  0.0613],
+        ...,
+        [-0.0853, -0.0694, -0.0773,  ..., -0.0118,  0.0032, -0.0038],
+        [-0.0946, -0.0856, -0.0809,  ..., -0.1037, -0.1182, -0.1362],
+        [ 0.1637,  0.1284,  0.1052,  ..., -0.0049, -0.0172,  0.0038]],
+       device='cuda:0'), grad: tensor([[ 0.0004,  0.0054,  0.0044,  ...,  0.0076,  0.0075,  0.0069],
+        [ 0.0211,  0.0066,  0.0061,  ...,  0.0031,  0.0036,  0.0032],
+        [-0.0247, -0.0107, -0.0089,  ..., -0.0056, -0.0064, -0.0059],
+        ...,
+        [-0.0097, -0.0044, -0.0040,  ..., -0.0029, -0.0029, -0.0024],
+        [ 0.0132,  0.0047,  0.0046,  ...,  0.0041,  0.0043,  0.0039],
+        [-0.0029, -0.0028, -0.0032,  ..., -0.0069, -0.0068, -0.0062]],
+       device='cuda:0')
+Epoch 20, bias, value: tensor([-0.0149, -0.0422,  0.0299, -0.1355, -0.1701,  0.1807,  0.1573],
+       device='cuda:0'), grad: tensor([ 0.0023,  0.0430, -0.0523,  0.0051, -0.0259,  0.0224,  0.0056],
+       device='cuda:0')
+306
+0.008289693629698565
+changing lr
+epoch 19, time 400.23, cls_loss 0.8787 cls_loss_mapping 0.1773 cls_loss_causal 0.7266 re_mapping 0.0628 re_causal 0.0636 /// teacc 84.13 lr 0.00811745
+Epoch 21, weight, value: tensor([[ 0.1461,  0.1330,  0.1536,  ..., -0.0526, -0.0877, -0.0916],
+        [-0.0882, -0.0729, -0.0490,  ...,  0.0588,  0.0538,  0.0544],
+        [-0.0208, -0.0012, -0.0323,  ...,  0.0235,  0.0506,  0.0524],
+        ...,
+        [-0.0907, -0.0703, -0.0798,  ..., -0.0070,  0.0071, -0.0017],
+        [-0.0986, -0.0898, -0.0847,  ..., -0.1080, -0.1226, -0.1398],
+        [ 0.1711,  0.1325,  0.1081,  ..., -0.0069, -0.0230,  0.0004]],
+       device='cuda:0'), grad: tensor([[-0.0527, -0.0159, -0.0149,  ..., -0.0048, -0.0050, -0.0060],
+        [ 0.0625,  0.0155,  0.0149,  ...,  0.0150,  0.0187,  0.0192],
+        [-0.0760, -0.0190, -0.0178,  ..., -0.0252, -0.0266, -0.0265],
+        ...,
+        [ 0.0098,  0.0025,  0.0023,  ...,  0.0022,  0.0026,  0.0027],
+        [ 0.0064,  0.0013,  0.0012,  ...,  0.0010,  0.0017,  0.0019],
+        [ 0.0404,  0.0134,  0.0122,  ...,  0.0092,  0.0056,  0.0056]],
+       device='cuda:0')
+Epoch 21, bias, value: tensor([-0.0258, -0.0176, -0.0166, -0.0955, -0.1873,  0.1714,  0.1765],
+       device='cuda:0'), grad: tensor([-0.1179,  0.1696, -0.1530,  0.0256,  0.0242,  0.0238,  0.0275],
+       device='cuda:0')
+306
+0.00811744900929367
+changing lr
+epoch 20, time 390.87, cls_loss 0.9196 cls_loss_mapping 0.1790 cls_loss_causal 0.7432 re_mapping 0.0595 re_causal 0.0605 /// teacc 85.58 lr 0.00793893
+Epoch 22, weight, value: tensor([[ 0.1464,  0.1342,  0.1519,  ..., -0.0605, -0.0952, -0.0997],
+        [-0.0885, -0.0696, -0.0441,  ...,  0.0578,  0.0514,  0.0516],
+        [-0.0205, -0.0020, -0.0314,  ...,  0.0276,  0.0529,  0.0565],
+        ...,
+        [-0.0831, -0.0710, -0.0791,  ..., -0.0078,  0.0103,  0.0008],
+        [-0.1065, -0.0974, -0.0936,  ..., -0.1064, -0.1196, -0.1376],
+        [ 0.1741,  0.1399,  0.1139,  ..., -0.0032, -0.0223,  0.0024]],
+       device='cuda:0'), grad: tensor([[ 0.0074,  0.0002,  0.0002,  ...,  0.0002,  0.0010,  0.0009],
+        [ 0.0130,  0.0005,  0.0004,  ...,  0.0005,  0.0018,  0.0017],
+        [ 0.0069,  0.0003,  0.0003,  ...,  0.0003,  0.0009,  0.0009],
+        ...,
+        [-0.0544, -0.0020, -0.0017,  ..., -0.0018, -0.0074, -0.0069],
+        [ 0.0075,  0.0002,  0.0002,  ...,  0.0002,  0.0010,  0.0009],
+        [ 0.0141,  0.0005,  0.0004,  ...,  0.0004,  0.0019,  0.0017]],
+       device='cuda:0')
+Epoch 22, bias, value: tensor([-0.0207, -0.0651,  0.0088, -0.1046, -0.1649,  0.1682,  0.1833],
+       device='cuda:0'), grad: tensor([ 0.0229,  0.0404,  0.0213,  0.0176, -0.1693,  0.0232,  0.0438],
+       device='cuda:0')
+306
+0.007938926261462368
+changing lr
+epoch 21, time 401.32, cls_loss 0.8350 cls_loss_mapping 0.1590 cls_loss_causal 0.6854 re_mapping 0.0601 re_causal 0.0613 /// teacc 87.50 lr 0.00775448
+Epoch 23, weight, value: tensor([[ 0.1485,  0.1388,  0.1607,  ..., -0.0512, -0.0828, -0.0865],
+        [-0.0896, -0.0685, -0.0457,  ...,  0.0544,  0.0471,  0.0472],
+        [-0.0149, -0.0027, -0.0299,  ...,  0.0269,  0.0506,  0.0548],
+        ...,
+        [-0.0836, -0.0745, -0.0850,  ..., -0.0140,  0.0040, -0.0063],
+        [-0.1089, -0.0994, -0.0962,  ..., -0.1083, -0.1193, -0.1375],
+        [ 0.1780,  0.1418,  0.1150,  ..., -0.0042, -0.0280, -0.0032]],
+       device='cuda:0'), grad: tensor([[ 0.0296,  0.0075,  0.0060,  ...,  0.0049,  0.0067,  0.0070],
+        [-0.0071,  0.0009,  0.0003,  ...,  0.0022,  0.0009,  0.0013],
+        [-0.0164, -0.0040, -0.0041,  ..., -0.0059, -0.0053, -0.0049],
+        ...,
+        [ 0.0436,  0.0082,  0.0061,  ...,  0.0073,  0.0091,  0.0095],
+        [-0.1197, -0.0299, -0.0225,  ..., -0.0206, -0.0273, -0.0293],
+        [ 0.0642,  0.0162,  0.0132,  ...,  0.0113,  0.0148,  0.0153]],
+       device='cuda:0')
+Epoch 23, bias, value: tensor([-0.0428, -0.0708,  0.0077, -0.1048, -0.1613,  0.1844,  0.1924],
+       device='cuda:0'), grad: tensor([ 0.0847, -0.0476, -0.0084,  0.0165,  0.1107, -0.3320,  0.1763],
+       device='cuda:0')
+306
+0.007754484907260515
+changing lr
+epoch 22, time 382.67, cls_loss 0.8437 cls_loss_mapping 0.1547 cls_loss_causal 0.6954 re_mapping 0.0591 re_causal 0.0604 /// teacc 83.65 lr 0.00756450
+Epoch 24, weight, value: tensor([[ 1.4252e-01,  1.2851e-01,  1.5453e-01,  ..., -6.1440e-02,
+         -9.0854e-02, -9.5269e-02],
+        [-8.9727e-02, -6.6940e-02, -4.3054e-02,  ...,  5.0363e-02,
+          4.5319e-02,  4.4068e-02],
+        [-1.7544e-02,  4.7261e-03, -2.3751e-02,  ...,  3.8771e-02,
+          6.1697e-02,  6.4190e-02],
+        ...,
+        [-8.7639e-02, -7.6761e-02, -8.7858e-02,  ..., -1.5909e-02,
+          5.2079e-05, -8.6442e-03],
+        [-1.0435e-01, -9.9728e-02, -9.6409e-02,  ..., -1.0768e-01,
+         -1.1756e-01, -1.3692e-01],
+        [ 1.7444e-01,  1.4156e-01,  1.1183e-01,  ..., -4.0603e-04,
+         -2.5304e-02,  9.6119e-04]], device='cuda:0'), grad: tensor([[ 0.0359,  0.0319,  0.0320,  ...,  0.0250,  0.0257,  0.0234],
+        [ 0.0047,  0.0010,  0.0008,  ...,  0.0007,  0.0010,  0.0010],
+        [-0.1115, -0.0468, -0.0441,  ..., -0.0369, -0.0414, -0.0385],
+        ...,
+        [ 0.0105,  0.0031,  0.0028,  ...,  0.0025,  0.0029,  0.0028],
+        [ 0.0162,  0.0024,  0.0018,  ...,  0.0019,  0.0028,  0.0027],
+        [ 0.0379,  0.0068,  0.0053,  ...,  0.0055,  0.0075,  0.0070]],
+       device='cuda:0')
+Epoch 24, bias, value: tensor([-0.0404, -0.0788,  0.0073, -0.1069, -0.1710,  0.1903,  0.2046],
+       device='cuda:0'), grad: tensor([-0.0245,  0.0195, -0.2583,  0.0219,  0.0328,  0.0662,  0.1425],
+       device='cuda:0')
+306
+0.007564496387029534
+changing lr
+---------------------saving model at epoch 23----------------------------------------------------
+epoch 23, time 402.42, cls_loss 0.8107 cls_loss_mapping 0.1263 cls_loss_causal 0.6692 re_mapping 0.0573 re_causal 0.0587 /// teacc 89.42 lr 0.00736934
+Epoch 25, weight, value: tensor([[ 1.4109e-01,  1.2437e-01,  1.5110e-01,  ..., -7.0348e-02,
+         -9.7976e-02, -1.0086e-01],
+        [-9.9895e-02, -7.8313e-02, -5.6270e-02,  ...,  4.5471e-02,
+          4.1915e-02,  4.1626e-02],
+        [-1.6081e-02,  3.6512e-03, -2.4192e-02,  ...,  3.7601e-02,
+          6.1542e-02,  6.2293e-02],
+        ...,
+        [-8.7734e-02, -7.3424e-02, -8.4786e-02,  ..., -1.5395e-02,
+          1.5396e-04, -8.0850e-03],
+        [-1.0015e-01, -9.7370e-02, -9.4946e-02,  ..., -1.0206e-01,
+         -1.1151e-01, -1.3314e-01],
+        [ 1.8382e-01,  1.5512e-01,  1.2644e-01,  ...,  8.7051e-03,
+         -2.1865e-02,  4.8652e-03]], device='cuda:0'), grad: tensor([[ 0.0502,  0.0118,  0.0114,  ...,  0.0095,  0.0112,  0.0120],
+        [-0.0759, -0.0176, -0.0141,  ..., -0.0222, -0.0225, -0.0225],
+        [-0.0388, -0.0289, -0.0352,  ..., -0.0186, -0.0214, -0.0215],
+        ...,
+        [ 0.0054,  0.0011,  0.0010,  ...,  0.0013,  0.0015,  0.0015],
+        [ 0.0061,  0.0011,  0.0010,  ...,  0.0018,  0.0020,  0.0020],
+        [ 0.0316,  0.0058,  0.0053,  ...,  0.0085,  0.0095,  0.0096]],
+       device='cuda:0')
+Epoch 25, bias, value: tensor([ 0.0031, -0.0446, -0.0061, -0.0763, -0.1996,  0.1626,  0.1658],
+       device='cuda:0'), grad: tensor([ 0.1249, -0.2004, -0.0510,  0.0023,  0.0146,  0.0181,  0.0914],
+       device='cuda:0')
+306
+0.007369343312364995
+changing lr
+epoch 24, time 392.07, cls_loss 0.7910 cls_loss_mapping 0.1272 cls_loss_causal 0.6462 re_mapping 0.0559 re_causal 0.0574 /// teacc 86.06 lr 0.00716942
+Epoch 26, weight, value: tensor([[ 0.1433,  0.1240,  0.1524,  ..., -0.0719, -0.1026, -0.1058],
+        [-0.1070, -0.0763, -0.0543,  ...,  0.0491,  0.0452,  0.0451],
+        [-0.0151,  0.0032, -0.0254,  ...,  0.0390,  0.0653,  0.0640],
+        ...,
+        [-0.0920, -0.0753, -0.0867,  ..., -0.0243, -0.0064, -0.0152],
+        [-0.0997, -0.0945, -0.0940,  ..., -0.1016, -0.1106, -0.1314],
+        [ 0.1936,  0.1541,  0.1286,  ...,  0.0149, -0.0151,  0.0127]],
+       device='cuda:0'), grad: tensor([[ 5.9052e-03,  7.9250e-04,  6.2513e-04,  ...,  4.2605e-04,
+          5.6362e-04,  6.2132e-04],
+        [ 1.9798e-03,  1.8609e-04,  1.2660e-04,  ...,  7.9513e-05,
+          1.3340e-04,  1.5318e-04],
+        [ 2.7504e-03,  2.2089e-04,  1.3888e-04,  ...,  9.0539e-05,
+          1.6868e-04,  1.9550e-04],
+        ...,
+        [ 1.6718e-03,  1.3149e-04,  7.9811e-05,  ...,  5.2392e-05,
+          9.8705e-05,  1.1677e-04],
+        [ 3.7689e-03,  2.7990e-04,  1.6403e-04,  ...,  1.0431e-04,
+          2.1100e-04,  2.5105e-04],
+        [ 1.1215e-02,  3.3879e-04, -2.6897e-05,  ..., -3.9428e-05,
+          3.1805e-04,  4.4441e-04]], device='cuda:0')
+Epoch 26, bias, value: tensor([-0.0048, -0.0592,  0.0006, -0.0793, -0.2071,  0.1562,  0.1986],
+       device='cuda:0'), grad: tensor([ 0.0306,  0.0108,  0.0154, -0.1537,  0.0093,  0.0212,  0.0665],
+       device='cuda:0')
+306
+0.0071694186955877925
+changing lr
+epoch 25, time 395.29, cls_loss 0.7938 cls_loss_mapping 0.1133 cls_loss_causal 0.6716 re_mapping 0.0534 re_causal 0.0551 /// teacc 85.10 lr 0.00696513
+Epoch 27, weight, value: tensor([[ 0.1481,  0.1306,  0.1584,  ..., -0.0700, -0.1005, -0.1055],
+        [-0.0989, -0.0729, -0.0530,  ...,  0.0571,  0.0488,  0.0502],
+        [-0.0125,  0.0030, -0.0246,  ...,  0.0377,  0.0652,  0.0625],
+        ...,
+        [-0.0940, -0.0753, -0.0862,  ..., -0.0245, -0.0078, -0.0153],
+        [-0.0973, -0.0941, -0.0947,  ..., -0.1015, -0.1109, -0.1305],
+        [ 0.1858,  0.1514,  0.1271,  ...,  0.0052, -0.0213,  0.0054]],
+       device='cuda:0'), grad: tensor([[ 0.0181,  0.0067,  0.0067,  ...,  0.0051,  0.0062,  0.0064],
+        [-0.0219, -0.0058, -0.0061,  ..., -0.0083, -0.0101, -0.0108],
+        [-0.0024, -0.0017, -0.0017,  ...,  0.0007,  0.0002,  0.0003],
+        ...,
+        [ 0.0095,  0.0026,  0.0027,  ...,  0.0034,  0.0041,  0.0044],
+        [ 0.0050,  0.0008,  0.0008,  ...,  0.0014,  0.0012,  0.0014],
+        [-0.0050, -0.0030, -0.0028,  ..., -0.0014, -0.0013, -0.0012]],
+       device='cuda:0')
+Epoch 27, bias, value: tensor([-0.0087, -0.0668, -0.0027, -0.0463, -0.2325,  0.1800,  0.1818],
+       device='cuda:0'), grad: tensor([ 0.0635, -0.1155, -0.0026, -0.0061,  0.0474,  0.0154, -0.0020],
+       device='cuda:0')
+306
+0.0069651251582696205
+changing lr
+epoch 26, time 397.16, cls_loss 0.7745 cls_loss_mapping 0.1086 cls_loss_causal 0.6507 re_mapping 0.0527 re_causal 0.0547 /// teacc 88.46 lr 0.00675687
+Epoch 28, weight, value: tensor([[ 0.1597,  0.1444,  0.1693,  ..., -0.0796, -0.1126, -0.1175],
+        [-0.1010, -0.0753, -0.0538,  ...,  0.0568,  0.0496,  0.0516],
+        [-0.0157, -0.0003, -0.0279,  ...,  0.0422,  0.0687,  0.0662],
+        ...,
+        [-0.0924, -0.0797, -0.0897,  ..., -0.0230, -0.0061, -0.0124],
+        [-0.1012, -0.0953, -0.0962,  ..., -0.0985, -0.1079, -0.1265],
+        [ 0.1790,  0.1472,  0.1237,  ...,  0.0041, -0.0200,  0.0045]],
+       device='cuda:0'), grad: tensor([[-0.0244, -0.0044, -0.0072,  ..., -0.0032, -0.0031, -0.0023],
+        [-0.0150, -0.0057, -0.0062,  ..., -0.0019, -0.0030, -0.0029],
+        [ 0.0826,  0.0206,  0.0193,  ...,  0.0324,  0.0277,  0.0323],
+        ...,
+        [-0.0208, -0.0021, -0.0010,  ..., -0.0078, -0.0075, -0.0090],
+        [ 0.0121,  0.0024,  0.0028,  ...,  0.0030,  0.0030,  0.0032],
+        [-0.0420, -0.0125, -0.0092,  ..., -0.0258, -0.0197, -0.0245]],
+       device='cuda:0')
+Epoch 28, bias, value: tensor([-0.0213, -0.0772, -0.0006, -0.0493, -0.1828,  0.1664,  0.1695],
+       device='cuda:0'), grad: tensor([-0.0565, -0.0251,  0.2122,  0.0213, -0.1124,  0.0378, -0.0773],
+       device='cuda:0')
+306
+0.006756874120406716
+changing lr
+epoch 27, time 393.82, cls_loss 0.7411 cls_loss_mapping 0.1035 cls_loss_causal 0.6071 re_mapping 0.0527 re_causal 0.0548 /// teacc 89.42 lr 0.00654508
+Epoch 29, weight, value: tensor([[ 0.1554,  0.1448,  0.1691,  ..., -0.0711, -0.1041, -0.1100],
+        [-0.1055, -0.0781, -0.0578,  ...,  0.0576,  0.0524,  0.0538],
+        [-0.0157, -0.0050, -0.0305,  ...,  0.0350,  0.0622,  0.0604],
+        ...,
+        [-0.0920, -0.0784, -0.0865,  ..., -0.0234, -0.0074, -0.0128],
+        [-0.0990, -0.0945, -0.0961,  ..., -0.0976, -0.1073, -0.1264],
+        [ 0.1921,  0.1554,  0.1302,  ...,  0.0034, -0.0221,  0.0040]],
+       device='cuda:0'), grad: tensor([[ 0.0181,  0.0029,  0.0036,  ...,  0.0067,  0.0076,  0.0068],
+        [-0.0244, -0.0070, -0.0077,  ..., -0.0068, -0.0085, -0.0074],
+        [ 0.0167,  0.0025,  0.0029,  ...,  0.0047,  0.0053,  0.0048],
+        ...,
+        [-0.0356, -0.0024, -0.0052,  ..., -0.0225, -0.0251, -0.0224],
+        [ 0.0219,  0.0031,  0.0041,  ...,  0.0089,  0.0100,  0.0090],
+        [-0.0023, -0.0001,  0.0011,  ...,  0.0070,  0.0084,  0.0072]],
+       device='cuda:0')
+Epoch 29, bias, value: tensor([-0.0028, -0.0842,  0.0121, -0.0747, -0.2053,  0.1521,  0.2077],
+       device='cuda:0'), grad: tensor([ 0.0491, -0.0482,  0.0422,  0.0149, -0.1282,  0.0624,  0.0078],
+       device='cuda:0')
+306
+0.00654508497187474
+changing lr
+epoch 28, time 387.89, cls_loss 0.7258 cls_loss_mapping 0.0971 cls_loss_causal 0.5973 re_mapping 0.0521 re_causal 0.0543 /// teacc 88.46 lr 0.00633018
+Epoch 30, weight, value: tensor([[ 0.1576,  0.1389,  0.1643,  ..., -0.0765, -0.1118, -0.1188],
+        [-0.1021, -0.0741, -0.0540,  ...,  0.0625,  0.0593,  0.0595],
+        [-0.0198, -0.0030, -0.0287,  ...,  0.0370,  0.0635,  0.0619],
+        ...,
+        [-0.0908, -0.0788, -0.0871,  ..., -0.0282, -0.0103, -0.0140],
+        [-0.1024, -0.0970, -0.0993,  ..., -0.0973, -0.1078, -0.1267],
+        [ 0.1925,  0.1590,  0.1333,  ...,  0.0056, -0.0206,  0.0065]],
+       device='cuda:0'), grad: tensor([[ 0.0372,  0.0045,  0.0056,  ...,  0.0030,  0.0048,  0.0053],
+        [-0.0859, -0.0117, -0.0146,  ..., -0.0137, -0.0186, -0.0211],
+        [ 0.0238,  0.0033,  0.0042,  ...,  0.0041,  0.0055,  0.0063],
+        ...,
+        [ 0.0224,  0.0033,  0.0040,  ...,  0.0034,  0.0045,  0.0051],
+        [ 0.0211,  0.0024,  0.0030,  ...,  0.0012,  0.0022,  0.0024],
+        [-0.0275, -0.0029, -0.0034,  ...,  0.0015,  0.0006,  0.0010]],
+       device='cuda:0')
+Epoch 30, bias, value: tensor([ 0.0043, -0.0822, -0.0121, -0.0639, -0.1747,  0.1453,  0.1882],
+       device='cuda:0'), grad: tensor([ 0.1196, -0.2886,  0.0809,  0.0290,  0.0729,  0.0678, -0.0815],
+       device='cuda:0')
+306
+0.006330184227833378
+changing lr
+epoch 29, time 386.32, cls_loss 0.7022 cls_loss_mapping 0.0852 cls_loss_causal 0.5958 re_mapping 0.0498 re_causal 0.0520 /// teacc 87.50 lr 0.00611260
+Epoch 31, weight, value: tensor([[ 0.1622,  0.1469,  0.1738,  ..., -0.0705, -0.1069, -0.1147],
+        [-0.0959, -0.0703, -0.0512,  ...,  0.0565,  0.0547,  0.0561],
+        [-0.0255, -0.0100, -0.0374,  ...,  0.0318,  0.0595,  0.0575],
+        ...,
+        [-0.0972, -0.0822, -0.0905,  ..., -0.0293, -0.0115, -0.0150],
+        [-0.1031, -0.0992, -0.1000,  ..., -0.0978, -0.1075, -0.1259],
+        [ 0.1887,  0.1563,  0.1306,  ...,  0.0032, -0.0225,  0.0039]],
+       device='cuda:0'), grad: tensor([[ 1.4709e-02,  3.0365e-03,  2.5578e-03,  ...,  3.1815e-03,
+          2.9774e-03,  2.6913e-03],
+        [-4.7119e-02, -8.0566e-03, -5.5923e-03,  ..., -1.1276e-02,
+         -9.7656e-03, -9.0714e-03],
+        [ 1.6623e-03,  3.2115e-04,  2.6536e-04,  ...,  3.5477e-04,
+          3.3307e-04,  2.9755e-04],
+        ...,
+        [-3.6755e-03, -1.9741e-03, -2.5387e-03,  ...,  1.0297e-05,
+         -5.7268e-04, -3.3069e-04],
+        [ 5.3596e-04,  1.1212e-04,  9.3758e-05,  ...,  1.1551e-04,
+          1.0711e-04,  9.7215e-05],
+        [ 1.7242e-02,  3.4714e-03,  2.8591e-03,  ...,  3.7899e-03,
+          3.5038e-03,  3.1796e-03]], device='cuda:0')
+Epoch 31, bias, value: tensor([-0.0124, -0.0343, -0.0335, -0.0656, -0.1955,  0.1332,  0.2129],
+       device='cuda:0'), grad: tensor([ 0.0363, -0.1128,  0.0041,  0.0403, -0.0115,  0.0013,  0.0423],
+       device='cuda:0')
+306
+0.006112604669781575
+changing lr
+epoch 30, time 388.02, cls_loss 0.7514 cls_loss_mapping 0.0909 cls_loss_causal 0.6323 re_mapping 0.0499 re_causal 0.0527 /// teacc 89.42 lr 0.00589278
+Epoch 32, weight, value: tensor([[ 0.1633,  0.1486,  0.1772,  ..., -0.0705, -0.1073, -0.1152],
+        [-0.1043, -0.0766, -0.0583,  ...,  0.0567,  0.0560,  0.0573],
+        [-0.0246, -0.0108, -0.0367,  ...,  0.0321,  0.0592,  0.0569],
+        ...,
+        [-0.0913, -0.0795, -0.0895,  ..., -0.0320, -0.0145, -0.0187],
+        [-0.1081, -0.1015, -0.1018,  ..., -0.0985, -0.1101, -0.1272],
+        [ 0.1960,  0.1625,  0.1355,  ...,  0.0061, -0.0192,  0.0086]],
+       device='cuda:0'), grad: tensor([[ 5.7907e-03,  3.5524e-04,  4.7803e-04,  ...,  1.5247e-04,
+          2.2221e-04,  2.5749e-04],
+        [-6.4026e-02, -5.9319e-03, -7.2479e-03,  ..., -5.0278e-03,
+         -6.0120e-03, -5.9776e-03],
+        [ 1.2512e-02,  1.0967e-03,  1.3247e-03,  ...,  8.6641e-04,
+          1.0481e-03,  1.0872e-03],
+        ...,
+        [ 1.2428e-02,  1.2712e-03,  1.5087e-03,  ...,  1.2388e-03,
+          1.4391e-03,  1.3819e-03],
+        [ 4.1351e-03,  2.1946e-04,  3.5334e-04,  ..., -8.3387e-05,
+         -5.5462e-05,  5.4866e-05],
+        [ 2.4475e-02,  2.6340e-03,  3.1376e-03,  ...,  2.6932e-03,
+          3.1490e-03,  2.9507e-03]], device='cuda:0')
+Epoch 32, bias, value: tensor([-0.0200, -0.0285, -0.0286, -0.0833, -0.1894,  0.1544,  0.2003],
+       device='cuda:0'), grad: tensor([ 0.0163, -0.1809,  0.0350,  0.0131,  0.0352,  0.0118,  0.0695],
+       device='cuda:0')
+306
+0.005892784473993186
+changing lr
+epoch 31, time 392.61, cls_loss 0.6980 cls_loss_mapping 0.0776 cls_loss_causal 0.5981 re_mapping 0.0488 re_causal 0.0516 /// teacc 83.65 lr 0.00567117
+Epoch 33, weight, value: tensor([[ 0.1682,  0.1521,  0.1795,  ..., -0.0713, -0.1092, -0.1165],
+        [-0.1083, -0.0791, -0.0606,  ...,  0.0602,  0.0609,  0.0619],
+        [-0.0258, -0.0090, -0.0340,  ...,  0.0326,  0.0595,  0.0570],
+        ...,
+        [-0.0899, -0.0773, -0.0870,  ..., -0.0285, -0.0109, -0.0154],
+        [-0.1069, -0.1025, -0.1024,  ..., -0.0981, -0.1083, -0.1264],
+        [ 0.1900,  0.1563,  0.1291,  ...,  0.0019, -0.0242,  0.0042]],
+       device='cuda:0'), grad: tensor([[ 6.2637e-03,  1.6361e-05, -3.7998e-05,  ...,  4.5705e-04,
+          6.6757e-04,  8.1015e-04],
+        [-3.2730e-03, -5.9748e-04, -6.0320e-04,  ..., -6.3276e-04,
+         -8.2541e-04, -5.5361e-04],
+        [-3.8509e-03, -1.9455e-03, -2.2984e-03,  ..., -2.8839e-03,
+         -2.6245e-03, -2.7981e-03],
+        ...,
+        [-3.4210e-02, -1.6870e-03, -1.6823e-03,  ..., -1.7767e-03,
+         -2.3327e-03, -3.3264e-03],
+        [ 6.9580e-03,  6.0844e-04,  6.6233e-04,  ...,  6.5422e-04,
+          7.1144e-04,  9.1457e-04],
+        [ 2.0554e-02,  2.6360e-03,  2.8687e-03,  ...,  2.9411e-03,
+          3.1586e-03,  3.4676e-03]], device='cuda:0')
+Epoch 33, bias, value: tensor([-0.0089, -0.0400, -0.0228, -0.0740, -0.2169,  0.1539,  0.2136],
+       device='cuda:0'), grad: tensor([ 0.0283,  0.0056, -0.0065,  0.0292, -0.1486,  0.0280,  0.0638],
+       device='cuda:0')
+306
+0.00567116632908828
+changing lr
+epoch 32, time 387.77, cls_loss 0.6948 cls_loss_mapping 0.0806 cls_loss_causal 0.5863 re_mapping 0.0484 re_causal 0.0515 /// teacc 88.46 lr 0.00544820
+Epoch 34, weight, value: tensor([[ 0.1590,  0.1468,  0.1733,  ..., -0.0692, -0.1063, -0.1130],
+        [-0.0964, -0.0745, -0.0557,  ...,  0.0602,  0.0615,  0.0623],
+        [-0.0303, -0.0117, -0.0356,  ...,  0.0267,  0.0547,  0.0522],
+        ...,
+        [-0.0944, -0.0795, -0.0886,  ..., -0.0287, -0.0134, -0.0166],
+        [-0.1085, -0.1019, -0.1024,  ..., -0.0978, -0.1073, -0.1261],
+        [ 0.1993,  0.1617,  0.1343,  ...,  0.0036, -0.0230,  0.0045]],
+       device='cuda:0'), grad: tensor([[ 0.0286,  0.0062,  0.0064,  ...,  0.0033,  0.0035,  0.0042],
+        [ 0.0039,  0.0041,  0.0038,  ...,  0.0039,  0.0032,  0.0034],
+        [ 0.0043,  0.0008,  0.0008,  ...,  0.0014,  0.0013,  0.0013],
+        ...,
+        [-0.0195, -0.0048, -0.0048,  ..., -0.0009, -0.0012, -0.0017],
+        [-0.0790, -0.0278, -0.0276,  ..., -0.0313, -0.0279, -0.0312],
+        [ 0.0595,  0.0210,  0.0209,  ...,  0.0231,  0.0206,  0.0235]],
+       device='cuda:0')
+Epoch 34, bias, value: tensor([-0.0090, -0.0406, -0.0089, -0.0715, -0.2100,  0.1471,  0.1978],
+       device='cuda:0'), grad: tensor([ 0.0616, -0.0091,  0.0108,  0.0056, -0.0321, -0.1787,  0.1420],
+       device='cuda:0')
+306
+0.00544819654451717
+changing lr
+epoch 33, time 389.96, cls_loss 0.6764 cls_loss_mapping 0.0660 cls_loss_causal 0.5766 re_mapping 0.0464 re_causal 0.0495 /// teacc 83.65 lr 0.00522432
+Epoch 35, weight, value: tensor([[ 0.1616,  0.1442,  0.1718,  ..., -0.0747, -0.1115, -0.1173],
+        [-0.1003, -0.0772, -0.0575,  ...,  0.0597,  0.0603,  0.0605],
+        [-0.0221, -0.0064, -0.0310,  ...,  0.0332,  0.0596,  0.0586],
+        ...,
+        [-0.0909, -0.0769, -0.0859,  ..., -0.0303, -0.0149, -0.0184],
+        [-0.1059, -0.1009, -0.1008,  ..., -0.0996, -0.1071, -0.1260],
+        [ 0.1953,  0.1640,  0.1357,  ...,  0.0112, -0.0151,  0.0112]],
+       device='cuda:0'), grad: tensor([[-0.0087, -0.0005,  0.0002,  ...,  0.0004,  0.0006, -0.0005],
+        [ 0.0083,  0.0008,  0.0004,  ...,  0.0010,  0.0006,  0.0015],
+        [-0.0058, -0.0015, -0.0020,  ..., -0.0040, -0.0033, -0.0037],
+        ...,
+        [ 0.0045,  0.0004,  0.0002,  ...,  0.0005,  0.0003,  0.0008],
+        [ 0.0078,  0.0009,  0.0006,  ...,  0.0013,  0.0009,  0.0018],
+        [-0.0093, -0.0005,  0.0003,  ...,  0.0004,  0.0007, -0.0005]],
+       device='cuda:0')
+Epoch 35, bias, value: tensor([ 0.0116, -0.0332, -0.0018, -0.0879, -0.2160,  0.1338,  0.1981],
+       device='cuda:0'), grad: tensor([-0.0615,  0.0435,  0.0082,  0.0161,  0.0243,  0.0359, -0.0663],
+       device='cuda:0')
+306
+0.005224324151752577
+changing lr
+epoch 34, time 389.29, cls_loss 0.7333 cls_loss_mapping 0.0688 cls_loss_causal 0.6205 re_mapping 0.0439 re_causal 0.0471 /// teacc 88.94 lr 0.00500000
+Epoch 36, weight, value: tensor([[ 0.1580,  0.1458,  0.1724,  ..., -0.0798, -0.1166, -0.1226],
+        [-0.1021, -0.0769, -0.0569,  ...,  0.0552,  0.0560,  0.0559],
+        [-0.0238, -0.0061, -0.0304,  ...,  0.0294,  0.0554,  0.0543],
+        ...,
+        [-0.0853, -0.0790, -0.0861,  ..., -0.0274, -0.0103, -0.0139],
+        [-0.1073, -0.1008, -0.1017,  ..., -0.1020, -0.1106, -0.1288],
+        [ 0.1936,  0.1637,  0.1343,  ...,  0.0186, -0.0084,  0.0173]],
+       device='cuda:0'), grad: tensor([[ 0.0318,  0.0094,  0.0088,  ...,  0.0072,  0.0078,  0.0082],
+        [-0.0378,  0.0004,  0.0018,  ..., -0.0041, -0.0092, -0.0085],
+        [-0.0247, -0.0104, -0.0102,  ..., -0.0110, -0.0121, -0.0116],
+        ...,
+        [ 0.0238,  0.0067,  0.0062,  ...,  0.0045,  0.0049,  0.0053],
+        [ 0.0240,  0.0021,  0.0014,  ...,  0.0042,  0.0069,  0.0065],
+        [-0.0317, -0.0115, -0.0108,  ..., -0.0030, -0.0008, -0.0027]],
+       device='cuda:0')
+Epoch 36, bias, value: tensor([ 0.0079, -0.0569,  0.0192, -0.0854, -0.1903,  0.1286,  0.1818],
+       device='cuda:0'), grad: tensor([ 0.0757, -0.1331, -0.0418,  0.0399,  0.0572,  0.0750, -0.0731],
+       device='cuda:0')
+306
+0.005000000000000003
+changing lr
+epoch 35, time 390.78, cls_loss 0.6870 cls_loss_mapping 0.0565 cls_loss_causal 0.5973 re_mapping 0.0438 re_causal 0.0472 /// teacc 87.50 lr 0.00477568
+Epoch 37, weight, value: tensor([[ 0.1629,  0.1518,  0.1780,  ..., -0.0767, -0.1146, -0.1205],
+        [-0.1025, -0.0809, -0.0616,  ...,  0.0542,  0.0562,  0.0556],
+        [-0.0204, -0.0046, -0.0295,  ...,  0.0285,  0.0544,  0.0521],
+        ...,
+        [-0.0921, -0.0801, -0.0875,  ..., -0.0283, -0.0113, -0.0144],
+        [-0.1082, -0.1024, -0.1028,  ..., -0.0999, -0.1080, -0.1262],
+        [ 0.1939,  0.1620,  0.1346,  ...,  0.0163, -0.0117,  0.0165]],
+       device='cuda:0'), grad: tensor([[ 0.0294,  0.0126,  0.0158,  ...,  0.0184,  0.0184,  0.0179],
+        [-0.0203,  0.0017, -0.0012,  ..., -0.0016, -0.0046, -0.0021],
+        [ 0.0150,  0.0015,  0.0024,  ...,  0.0021,  0.0033,  0.0027],
+        ...,
+        [ 0.0301,  0.0042,  0.0045,  ...,  0.0033,  0.0038,  0.0039],
+        [ 0.0191,  0.0029,  0.0030,  ...,  0.0022,  0.0025,  0.0025],
+        [-0.0765, -0.0232, -0.0249,  ..., -0.0249, -0.0242, -0.0253]],
+       device='cuda:0')
+Epoch 37, bias, value: tensor([ 0.0109, -0.0656,  0.0417, -0.1033, -0.2184,  0.1243,  0.2152],
+       device='cuda:0'), grad: tensor([ 0.0756, -0.1072,  0.0596,  0.0142,  0.0916,  0.0580, -0.1918],
+       device='cuda:0')
+306
+0.004775675848247429
+changing lr
+epoch 36, time 394.24, cls_loss 0.6610 cls_loss_mapping 0.0580 cls_loss_causal 0.5681 re_mapping 0.0431 re_causal 0.0463 /// teacc 86.54 lr 0.00455180
+Epoch 38, weight, value: tensor([[ 0.1528,  0.1454,  0.1719,  ..., -0.0754, -0.1145, -0.1199],
+        [-0.1025, -0.0812, -0.0628,  ...,  0.0545,  0.0575,  0.0570],
+        [-0.0178, -0.0018, -0.0265,  ...,  0.0263,  0.0520,  0.0498],
+        ...,
+        [-0.0921, -0.0788, -0.0863,  ..., -0.0311, -0.0135, -0.0169],
+        [-0.1074, -0.1040, -0.1038,  ..., -0.0960, -0.1050, -0.1226],
+        [ 0.1999,  0.1624,  0.1348,  ...,  0.0157, -0.0112,  0.0161]],
+       device='cuda:0'), grad: tensor([[ 0.0033,  0.0005,  0.0006,  ...,  0.0005,  0.0004,  0.0006],
+        [ 0.0385,  0.0057,  0.0063,  ...,  0.0056,  0.0044,  0.0062],
+        [ 0.0015,  0.0003,  0.0003,  ...,  0.0002,  0.0002,  0.0003],
+        ...,
+        [ 0.0044,  0.0006,  0.0007,  ...,  0.0006,  0.0005,  0.0007],
+        [ 0.0010,  0.0002,  0.0002,  ...,  0.0001,  0.0001,  0.0002],
+        [-0.0504, -0.0076, -0.0084,  ..., -0.0074, -0.0060, -0.0083]],
+       device='cuda:0')
+Epoch 38, bias, value: tensor([-0.0050, -0.0692,  0.0436, -0.0867, -0.2329,  0.1276,  0.2274],
+       device='cuda:0'), grad: tensor([ 0.0101,  0.1221,  0.0045,  0.0052,  0.0138,  0.0029, -0.1587],
+       device='cuda:0')
+306
+0.004551803455482836
+changing lr
+epoch 37, time 388.26, cls_loss 0.5915 cls_loss_mapping 0.0491 cls_loss_causal 0.5168 re_mapping 0.0428 re_causal 0.0461 /// teacc 87.50 lr 0.00432883
+Epoch 39, weight, value: tensor([[ 0.1543,  0.1414,  0.1687,  ..., -0.0748, -0.1143, -0.1183],
+        [-0.0951, -0.0765, -0.0575,  ...,  0.0593,  0.0638,  0.0627],
+        [-0.0167,  0.0019, -0.0227,  ...,  0.0284,  0.0536,  0.0512],
+        ...,
+        [-0.0943, -0.0814, -0.0893,  ..., -0.0280, -0.0097, -0.0129],
+        [-0.1096, -0.1055, -0.1056,  ..., -0.1003, -0.1091, -0.1274],
+        [ 0.1910,  0.1616,  0.1327,  ...,  0.0096, -0.0198,  0.0084]],
+       device='cuda:0'), grad: tensor([[ 0.0240,  0.0042,  0.0040,  ...,  0.0063,  0.0065,  0.0078],
+        [ 0.0687,  0.0108,  0.0108,  ...,  0.0151,  0.0174,  0.0192],
+        [ 0.0062,  0.0008,  0.0008,  ...,  0.0012,  0.0009,  0.0016],
+        ...,
+        [ 0.0063,  0.0007,  0.0007,  ...,  0.0009,  0.0007,  0.0013],
+        [-0.0006, -0.0008, -0.0009,  ..., -0.0006, -0.0007, -0.0006],
+        [-0.0858, -0.0122, -0.0114,  ..., -0.0070, -0.0089, -0.0133]],
+       device='cuda:0')
+Epoch 39, bias, value: tensor([ 0.0123, -0.0729,  0.0439, -0.1011, -0.2162,  0.1292,  0.2094],
+       device='cuda:0'), grad: tensor([ 0.0814,  0.1835,  0.0275, -0.0444,  0.0285,  0.0107, -0.2874],
+       device='cuda:0')
+306
+0.004328833670911726
+changing lr
+epoch 38, time 395.02, cls_loss 0.6617 cls_loss_mapping 0.0496 cls_loss_causal 0.5827 re_mapping 0.0405 re_causal 0.0440 /// teacc 86.06 lr 0.00410722
+Epoch 40, weight, value: tensor([[ 0.1555,  0.1447,  0.1722,  ..., -0.0702, -0.1097, -0.1137],
+        [-0.0936, -0.0730, -0.0547,  ...,  0.0612,  0.0653,  0.0646],
+        [-0.0155,  0.0018, -0.0229,  ...,  0.0247,  0.0495,  0.0470],
+        ...,
+        [-0.0944, -0.0841, -0.0908,  ..., -0.0295, -0.0107, -0.0144],
+        [-0.1109, -0.1064, -0.1067,  ..., -0.1024, -0.1096, -0.1279],
+        [ 0.1886,  0.1590,  0.1296,  ...,  0.0091, -0.0207,  0.0074]],
+       device='cuda:0'), grad: tensor([[-2.9739e-02, -4.7851e-04, -1.9991e-04,  ..., -1.6937e-03,
+         -8.8406e-04, -2.9278e-03],
+        [ 5.4398e-03,  4.0245e-04,  4.1246e-04,  ...,  3.0160e-04,
+          1.8120e-04,  5.4836e-04],
+        [ 2.0428e-03, -2.0635e-04, -1.9312e-04,  ..., -3.1042e-04,
+         -3.5381e-04, -2.3735e-04],
+        ...,
+        [ 5.3139e-03,  2.4867e-04,  2.5463e-04,  ...,  3.4738e-04,
+          2.1625e-04,  5.7030e-04],
+        [ 8.2626e-03,  3.4738e-04,  3.2258e-04,  ...,  6.0987e-04,
+          4.1270e-04,  9.5892e-04],
+        [ 4.7646e-03, -5.4407e-04, -8.2302e-04,  ...,  2.4080e-04,
+          5.8040e-06,  4.2248e-04]], device='cuda:0')
+Epoch 40, bias, value: tensor([ 0.0148, -0.0613,  0.0338, -0.0994, -0.2100,  0.1247,  0.2020],
+       device='cuda:0'), grad: tensor([-0.1173,  0.0203,  0.0083,  0.0146,  0.0201,  0.0316,  0.0223],
+       device='cuda:0')
+306
+0.0041072155260068206
+changing lr
+epoch 39, time 390.44, cls_loss 0.6151 cls_loss_mapping 0.0499 cls_loss_causal 0.5369 re_mapping 0.0400 re_causal 0.0435 /// teacc 87.02 lr 0.00388740
+Epoch 41, weight, value: tensor([[ 0.1575,  0.1472,  0.1746,  ..., -0.0686, -0.1073, -0.1112],
+        [-0.0986, -0.0767, -0.0583,  ...,  0.0609,  0.0670,  0.0650],
+        [-0.0155,  0.0004, -0.0239,  ...,  0.0214,  0.0447,  0.0425],
+        ...,
+        [-0.1014, -0.0872, -0.0946,  ..., -0.0302, -0.0127, -0.0152],
+        [-0.1058, -0.1045, -0.1048,  ..., -0.0985, -0.1066, -0.1243],
+        [ 0.1918,  0.1594,  0.1304,  ...,  0.0098, -0.0198,  0.0083]],
+       device='cuda:0'), grad: tensor([[-4.9171e-03,  6.4087e-04,  4.5319e-03,  ..., -3.1738e-03,
+         -1.3542e-03, -3.2387e-03],
+        [ 8.5220e-03,  2.2259e-03,  2.2182e-03,  ...,  1.7281e-03,
+          2.0943e-03,  2.1515e-03],
+        [ 3.4790e-03,  9.4700e-04,  8.4114e-04,  ...,  6.9284e-04,
+          7.8154e-04,  8.1253e-04],
+        ...,
+        [-1.0691e-03, -9.4414e-05,  1.0386e-05,  ..., -4.5061e-04,
+         -5.3501e-04, -4.2796e-04],
+        [ 1.4565e-02,  3.8319e-03,  6.1569e-03,  ...,  2.0676e-03,
+          3.8795e-03,  3.4866e-03],
+        [-4.5044e-02, -1.4404e-02, -2.5757e-02,  ..., -3.7136e-03,
+         -1.1398e-02, -8.1863e-03]], device='cuda:0')
+Epoch 41, bias, value: tensor([ 0.0174, -0.0827,  0.0346, -0.1232, -0.2056,  0.1487,  0.2154],
+       device='cuda:0'), grad: tensor([-0.0344,  0.0278,  0.0112,  0.0703, -0.0019,  0.0444, -0.1173],
+       device='cuda:0')
+306
+0.0038873953302184317
+changing lr
+epoch 40, time 394.86, cls_loss 0.5928 cls_loss_mapping 0.0463 cls_loss_causal 0.5157 re_mapping 0.0393 re_causal 0.0427 /// teacc 87.98 lr 0.00366982
+Epoch 42, weight, value: tensor([[ 0.1582,  0.1505,  0.1775,  ..., -0.0733, -0.1103, -0.1152],
+        [-0.0976, -0.0757, -0.0575,  ...,  0.0633,  0.0684,  0.0664],
+        [-0.0204, -0.0013, -0.0257,  ...,  0.0255,  0.0485,  0.0471],
+        ...,
+        [-0.0993, -0.0892, -0.0967,  ..., -0.0287, -0.0109, -0.0128],
+        [-0.1083, -0.1053, -0.1058,  ..., -0.0986, -0.1076, -0.1255],
+        [ 0.1923,  0.1585,  0.1306,  ...,  0.0087, -0.0206,  0.0071]],
+       device='cuda:0'), grad: tensor([[ 3.5343e-03,  9.5129e-04,  1.3332e-03,  ...,  3.3379e-04,
+          5.2309e-04,  2.2793e-04],
+        [ 8.1444e-04,  3.1185e-04,  3.1400e-04,  ...,  1.1486e-04,
+          1.2243e-04,  1.1730e-04],
+        [-1.3451e-02, -4.7684e-03, -5.1422e-03,  ..., -1.7633e-03,
+         -2.0256e-03, -1.6956e-03],
+        ...,
+        [ 8.3494e-04,  3.2663e-04,  3.2139e-04,  ...,  1.2362e-04,
+          1.2827e-04,  1.2851e-04],
+        [ 1.6582e-04,  6.8307e-05,  6.4194e-05,  ...,  2.5600e-05,
+          2.5392e-05,  2.7582e-05],
+        [ 8.0032e-03,  3.0766e-03,  3.0708e-03,  ...,  1.1539e-03,
+          1.2140e-03,  1.1835e-03]], device='cuda:0')
+Epoch 42, bias, value: tensor([-1.8716e-04, -9.0835e-02,  3.0922e-02, -1.2650e-01, -1.8864e-01,
+         1.5533e-01,  2.2454e-01], device='cuda:0'), grad: tensor([ 0.0037,  0.0016, -0.0229,  0.0002,  0.0017,  0.0004,  0.0156],
+       device='cuda:0')
+306
+0.003669815772166629
+changing lr
+epoch 41, time 392.22, cls_loss 0.5889 cls_loss_mapping 0.0426 cls_loss_causal 0.5200 re_mapping 0.0387 re_causal 0.0421 /// teacc 86.54 lr 0.00345492
+Epoch 43, weight, value: tensor([[ 0.1586,  0.1495,  0.1771,  ..., -0.0749, -0.1123, -0.1172],
+        [-0.0988, -0.0759, -0.0581,  ...,  0.0619,  0.0666,  0.0644],
+        [-0.0129,  0.0019, -0.0226,  ...,  0.0286,  0.0508,  0.0498],
+        ...,
+        [-0.1021, -0.0902, -0.0976,  ..., -0.0272, -0.0091, -0.0107],
+        [-0.1101, -0.1064, -0.1064,  ..., -0.0961, -0.1044, -0.1218],
+        [ 0.1912,  0.1607,  0.1323,  ...,  0.0067, -0.0227,  0.0046]],
+       device='cuda:0'), grad: tensor([[ 0.0099,  0.0019,  0.0019,  ...,  0.0011,  0.0011,  0.0016],
+        [ 0.0102,  0.0019,  0.0017,  ...,  0.0011,  0.0011,  0.0016],
+        [ 0.0083,  0.0016,  0.0015,  ...,  0.0007,  0.0006,  0.0011],
+        ...,
+        [ 0.0060,  0.0010,  0.0010,  ...,  0.0002,  0.0002,  0.0005],
+        [-0.0812, -0.0168, -0.0148,  ..., -0.0067, -0.0070, -0.0093],
+        [ 0.0418,  0.0094,  0.0079,  ...,  0.0032,  0.0037,  0.0039]],
+       device='cuda:0')
+Epoch 43, bias, value: tensor([ 0.0003, -0.0878,  0.0335, -0.1186, -0.1962,  0.1547,  0.2187],
+       device='cuda:0'), grad: tensor([ 0.0437,  0.0405,  0.0385,  0.0207,  0.0292, -0.3054,  0.1329],
+       device='cuda:0')
+306
+0.0034549150281252667
+changing lr
+epoch 42, time 389.70, cls_loss 0.5832 cls_loss_mapping 0.0373 cls_loss_causal 0.5256 re_mapping 0.0374 re_causal 0.0410 /// teacc 88.46 lr 0.00324313
+Epoch 44, weight, value: tensor([[ 0.1579,  0.1498,  0.1781,  ..., -0.0750, -0.1118, -0.1169],
+        [-0.0955, -0.0723, -0.0555,  ...,  0.0635,  0.0688,  0.0664],
+        [-0.0177, -0.0016, -0.0263,  ...,  0.0279,  0.0494,  0.0484],
+        ...,
+        [-0.1050, -0.0939, -0.1009,  ..., -0.0286, -0.0108, -0.0120],
+        [-0.1092, -0.1054, -0.1051,  ..., -0.0972, -0.1055, -0.1222],
+        [ 0.1976,  0.1626,  0.1337,  ...,  0.0082, -0.0216,  0.0049]],
+       device='cuda:0'), grad: tensor([[ 0.0124,  0.0013,  0.0010,  ...,  0.0017,  0.0023,  0.0021],
+        [-0.0416, -0.0022, -0.0013,  ..., -0.0043, -0.0088, -0.0064],
+        [ 0.0054,  0.0003,  0.0002,  ...,  0.0006,  0.0011,  0.0008],
+        ...,
+        [-0.0071, -0.0012, -0.0011,  ..., -0.0012, -0.0011, -0.0013],
+        [ 0.0160,  0.0009,  0.0005,  ...,  0.0017,  0.0034,  0.0025],
+        [ 0.0132,  0.0008,  0.0005,  ...,  0.0014,  0.0028,  0.0021]],
+       device='cuda:0')
+Epoch 44, bias, value: tensor([-0.0009, -0.0800,  0.0377, -0.1241, -0.1843,  0.1547,  0.2015],
+       device='cuda:0'), grad: tensor([ 0.0414, -0.1478,  0.0192,  0.0056, -0.0217,  0.0566,  0.0467],
+       device='cuda:0')
+306
+0.0032431258795932905
+changing lr
+epoch 43, time 401.43, cls_loss 0.5826 cls_loss_mapping 0.0340 cls_loss_causal 0.5200 re_mapping 0.0364 re_causal 0.0399 /// teacc 89.42 lr 0.00303487
+Epoch 45, weight, value: tensor([[ 1.6174e-01,  1.4724e-01,  1.7641e-01,  ..., -7.4874e-02,
+         -1.1206e-01, -1.1718e-01],
+        [-9.7972e-02, -7.2188e-02, -5.5356e-02,  ...,  6.7318e-02,
+          7.2697e-02,  7.0385e-02],
+        [-1.4036e-02,  1.6007e-04, -2.5454e-02,  ...,  2.6483e-02,
+          4.8274e-02,  4.7082e-02],
+        ...,
+        [-1.0798e-01, -9.3998e-02, -1.0149e-01,  ..., -2.9488e-02,
+         -1.1729e-02, -1.3085e-02],
+        [-1.1104e-01, -1.0546e-01, -1.0532e-01,  ..., -9.6584e-02,
+         -1.0462e-01, -1.2152e-01],
+        [ 1.9517e-01,  1.6236e-01,  1.3428e-01,  ...,  6.9940e-03,
+         -2.2727e-02,  4.5086e-03]], device='cuda:0'), grad: tensor([[ 0.0295,  0.0048,  0.0050,  ...,  0.0107,  0.0119,  0.0127],
+        [ 0.0031,  0.0004,  0.0006,  ...,  0.0007,  0.0007,  0.0011],
+        [ 0.0113,  0.0019,  0.0018,  ...,  0.0042,  0.0046,  0.0050],
+        ...,
+        [-0.0908, -0.0188, -0.0156,  ..., -0.0385, -0.0420, -0.0409],
+        [ 0.0093,  0.0006,  0.0013,  ...,  0.0022,  0.0024,  0.0037],
+        [ 0.0217,  0.0080,  0.0042,  ...,  0.0143,  0.0153,  0.0114]],
+       device='cuda:0')
+Epoch 45, bias, value: tensor([-0.0004, -0.0737,  0.0393, -0.1182, -0.1976,  0.1359,  0.2192],
+       device='cuda:0'), grad: tensor([ 0.1104,  0.0166,  0.0377,  0.0402, -0.2119,  0.0562, -0.0491],
+       device='cuda:0')
+306
+0.0030348748417303863
+changing lr
+---------------------saving model at epoch 44----------------------------------------------------
+epoch 44, time 419.56, cls_loss 0.6138 cls_loss_mapping 0.0416 cls_loss_causal 0.5345 re_mapping 0.0351 re_causal 0.0387 /// teacc 90.38 lr 0.00283058
+Epoch 46, weight, value: tensor([[ 0.1664,  0.1533,  0.1827,  ..., -0.0755, -0.1132, -0.1183],
+        [-0.0974, -0.0728, -0.0563,  ...,  0.0667,  0.0716,  0.0694],
+        [-0.0160, -0.0018, -0.0278,  ...,  0.0229,  0.0458,  0.0439],
+        ...,
+        [-0.1089, -0.0956, -0.1039,  ..., -0.0283, -0.0100, -0.0116],
+        [-0.1135, -0.1070, -0.1061,  ..., -0.0955, -0.1041, -0.1210],
+        [ 0.1946,  0.1629,  0.1353,  ...,  0.0092, -0.0206,  0.0071]],
+       device='cuda:0'), grad: tensor([[-0.0141, -0.0076, -0.0034,  ...,  0.0073,  0.0106,  0.0066],
+        [ 0.0151,  0.0034,  0.0034,  ...,  0.0047,  0.0046,  0.0043],
+        [ 0.0195,  0.0040,  0.0047,  ...,  0.0076,  0.0082,  0.0071],
+        ...,
+        [-0.0302, -0.0041, -0.0082,  ..., -0.0199, -0.0228, -0.0186],
+        [ 0.0062,  0.0017,  0.0014,  ...,  0.0009,  0.0006,  0.0008],
+        [ 0.0232,  0.0058,  0.0045,  ...,  0.0040,  0.0032,  0.0035]],
+       device='cuda:0')
+Epoch 46, bias, value: tensor([ 0.0023, -0.0586,  0.0322, -0.1044, -0.2039,  0.1135,  0.2235],
+       device='cuda:0'), grad: tensor([-0.0365,  0.0496,  0.0652, -0.0382, -0.1221,  0.0182,  0.0637],
+       device='cuda:0')
+306
+0.0028305813044122124
+changing lr
+epoch 45, time 396.22, cls_loss 0.5608 cls_loss_mapping 0.0381 cls_loss_causal 0.5011 re_mapping 0.0350 re_causal 0.0389 /// teacc 89.90 lr 0.00263066
+Epoch 47, weight, value: tensor([[ 0.1613,  0.1485,  0.1778,  ..., -0.0782, -0.1169, -0.1210],
+        [-0.0938, -0.0717, -0.0554,  ...,  0.0674,  0.0721,  0.0705],
+        [-0.0182, -0.0004, -0.0267,  ...,  0.0230,  0.0450,  0.0431],
+        ...,
+        [-0.1084, -0.0954, -0.1038,  ..., -0.0264, -0.0077, -0.0093],
+        [-0.1084, -0.1052, -0.1049,  ..., -0.0942, -0.1027, -0.1189],
+        [ 0.1948,  0.1626,  0.1363,  ...,  0.0064, -0.0211,  0.0047]],
+       device='cuda:0'), grad: tensor([[ 4.9133e-03,  2.1534e-03,  2.0657e-03,  ...,  2.1496e-03,
+          1.9388e-03,  2.0657e-03],
+        [ 8.6136e-03,  3.7422e-03,  3.6221e-03,  ...,  4.1771e-03,
+          3.8548e-03,  4.2572e-03],
+        [-1.0157e-03, -1.8561e-04, -1.4675e-04,  ..., -4.2796e-05,
+         -1.1390e-04, -1.0979e-04],
+        ...,
+        [ 6.4049e-03,  2.8439e-03,  2.7275e-03,  ...,  2.7409e-03,
+          2.4719e-03,  2.6646e-03],
+        [ 5.9128e-04,  1.5926e-04,  1.3959e-04,  ...,  9.5129e-05,
+          1.1528e-04,  1.1802e-04],
+        [-2.1561e-02, -9.6207e-03, -9.2773e-03,  ..., -9.9716e-03,
+         -9.0332e-03, -9.8114e-03]], device='cuda:0')
+Epoch 47, bias, value: tensor([-0.0090, -0.0360,  0.0156, -0.1146, -0.1993,  0.1222,  0.2257],
+       device='cuda:0'), grad: tensor([ 0.0123,  0.0193, -0.0023,  0.0051,  0.0153,  0.0013, -0.0511],
+       device='cuda:0')
+306
+0.0026306566876350096
+changing lr
+epoch 46, time 391.73, cls_loss 0.5848 cls_loss_mapping 0.0345 cls_loss_causal 0.5173 re_mapping 0.0339 re_causal 0.0377 /// teacc 88.46 lr 0.00243550
+Epoch 48, weight, value: tensor([[ 0.1628,  0.1521,  0.1813,  ..., -0.0780, -0.1173, -0.1203],
+        [-0.0961, -0.0706, -0.0545,  ...,  0.0670,  0.0711,  0.0686],
+        [-0.0169, -0.0023, -0.0285,  ...,  0.0237,  0.0454,  0.0435],
+        ...,
+        [-0.1062, -0.0959, -0.1040,  ..., -0.0273, -0.0089, -0.0099],
+        [-0.1120, -0.1053, -0.1050,  ..., -0.0951, -0.1026, -0.1192],
+        [ 0.1931,  0.1607,  0.1345,  ...,  0.0059, -0.0208,  0.0048]],
+       device='cuda:0'), grad: tensor([[ 3.2215e-03, -7.6151e-04, -8.9455e-04,  ...,  3.5787e-04,
+          2.3317e-04,  4.9925e-04],
+        [ 7.7972e-03,  7.6056e-04,  4.6778e-04,  ...,  1.2960e-03,
+          1.1225e-03,  1.5211e-03],
+        [ 2.6215e-02,  3.0842e-03,  1.2474e-03,  ...,  5.1575e-03,
+          5.2299e-03,  5.5885e-03],
+        ...,
+        [-2.5375e-02,  4.0948e-05,  3.8683e-05,  ..., -3.5038e-03,
+         -2.1076e-03, -4.6959e-03],
+        [ 1.2398e-02,  1.1625e-03,  4.8304e-04,  ...,  2.2106e-03,
+          2.0790e-03,  2.4948e-03],
+        [ 1.7151e-02,  2.1210e-03,  1.1148e-03,  ...,  3.2654e-03,
+          3.1490e-03,  3.6049e-03]], device='cuda:0')
+Epoch 48, bias, value: tensor([-0.0057, -0.0587,  0.0206, -0.1142, -0.1847,  0.1216,  0.2255],
+       device='cuda:0'), grad: tensor([ 0.0199,  0.0312,  0.0781, -0.0860, -0.1436,  0.0443,  0.0561],
+       device='cuda:0')
+306
+0.0024355036129704724
+changing lr
+epoch 47, time 388.63, cls_loss 0.5768 cls_loss_mapping 0.0319 cls_loss_causal 0.5148 re_mapping 0.0325 re_causal 0.0360 /// teacc 89.90 lr 0.00224552
+Epoch 49, weight, value: tensor([[ 0.1669,  0.1539,  0.1828,  ..., -0.0763, -0.1160, -0.1192],
+        [-0.0991, -0.0724, -0.0560,  ...,  0.0658,  0.0700,  0.0674],
+        [-0.0225, -0.0049, -0.0312,  ...,  0.0249,  0.0465,  0.0444],
+        ...,
+        [-0.1082, -0.0964, -0.1052,  ..., -0.0294, -0.0108, -0.0118],
+        [-0.1090, -0.1057, -0.1053,  ..., -0.0962, -0.1035, -0.1199],
+        [ 0.1965,  0.1642,  0.1388,  ...,  0.0074, -0.0189,  0.0067]],
+       device='cuda:0'), grad: tensor([[ 5.0888e-03,  4.0984e-04,  6.3896e-05,  ...,  1.9741e-03,
+          1.1911e-03,  1.4067e-03],
+        [ 2.1839e-03, -1.7512e-04, -4.1890e-04,  ...,  1.2531e-03,
+          5.4312e-04,  7.0524e-04],
+        [ 3.2940e-03,  2.5487e-04,  2.9147e-05,  ...,  1.2770e-03,
+          7.6485e-04,  9.0551e-04],
+        ...,
+        [ 1.4343e-03,  1.1206e-04,  1.3314e-05,  ...,  5.6314e-04,
+          3.3736e-04,  3.9911e-04],
+        [ 3.6926e-03,  2.8014e-04,  2.5198e-05,  ...,  1.4400e-03,
+          8.5878e-04,  1.0176e-03],
+        [-1.9638e-02, -1.1854e-03,  2.5487e-04,  ..., -8.0490e-03,
+         -4.6158e-03, -5.5275e-03]], device='cuda:0')
+Epoch 49, bias, value: tensor([ 0.0112, -0.0622,  0.0093, -0.1114, -0.2034,  0.1250,  0.2359],
+       device='cuda:0'), grad: tensor([ 0.0322,  0.0222,  0.0210,  0.0251,  0.0092,  0.0237, -0.1335],
+       device='cuda:0')
+306
+0.00224551509273949
+changing lr
+epoch 48, time 381.82, cls_loss 0.5553 cls_loss_mapping 0.0296 cls_loss_causal 0.5150 re_mapping 0.0316 re_causal 0.0349 /// teacc 89.90 lr 0.00206107
+Epoch 50, weight, value: tensor([[ 0.1656,  0.1513,  0.1802,  ..., -0.0763, -0.1148, -0.1185],
+        [-0.0976, -0.0730, -0.0564,  ...,  0.0669,  0.0712,  0.0688],
+        [-0.0198, -0.0044, -0.0302,  ...,  0.0246,  0.0461,  0.0443],
+        ...,
+        [-0.1060, -0.0953, -0.1043,  ..., -0.0281, -0.0094, -0.0102],
+        [-0.1092, -0.1053, -0.1047,  ..., -0.0960, -0.1034, -0.1198],
+        [ 0.1969,  0.1661,  0.1404,  ...,  0.0069, -0.0203,  0.0052]],
+       device='cuda:0'), grad: tensor([[ 3.2196e-02,  9.0179e-03,  8.6517e-03,  ...,  2.1172e-03,
+          3.3035e-03,  3.9635e-03],
+        [-4.4952e-02, -1.2184e-02, -1.1414e-02,  ..., -1.9627e-03,
+         -4.0321e-03, -5.0735e-03],
+        [-6.0749e-04,  7.6771e-05,  3.3915e-05,  ..., -4.1890e-04,
+         -5.6124e-04, -4.4656e-04],
+        ...,
+        [ 1.3702e-02,  3.7441e-03,  3.5954e-03,  ...,  9.7609e-04,
+          1.4315e-03,  1.7004e-03],
+        [ 1.0052e-03,  2.0492e-04,  2.1207e-04,  ...,  2.0099e-04,
+          2.7919e-04,  2.5582e-04],
+        [-1.9665e-03, -1.0233e-03, -1.2579e-03,  ..., -1.0366e-03,
+         -5.8126e-04, -5.5122e-04]], device='cuda:0')
+Epoch 50, bias, value: tensor([ 0.0253, -0.0602,  0.0188, -0.1264, -0.1951,  0.1186,  0.2234],
+       device='cuda:0'), grad: tensor([ 0.0947, -0.1384, -0.0032,  0.0019,  0.0400,  0.0034,  0.0017],
+       device='cuda:0')
+306
+0.002061073738537637
+changing lr
+---------------------saving model at epoch 49----------------------------------------------------
+epoch 49, time 462.76, cls_loss 0.5203 cls_loss_mapping 0.0326 cls_loss_causal 0.4705 re_mapping 0.0305 re_causal 0.0336 /// teacc 90.87 lr 0.00188255
+Epoch 51, weight, value: tensor([[ 0.1624,  0.1501,  0.1798,  ..., -0.0789, -0.1176, -0.1210],
+        [-0.0965, -0.0745, -0.0581,  ...,  0.0659,  0.0704,  0.0677],
+        [-0.0173, -0.0035, -0.0293,  ...,  0.0233,  0.0445,  0.0428],
+        ...,
+        [-0.1098, -0.0956, -0.1042,  ..., -0.0275, -0.0089, -0.0096],
+        [-0.1096, -0.1050, -0.1040,  ..., -0.0959, -0.1036, -0.1196],
+        [ 0.1971,  0.1670,  0.1402,  ...,  0.0093, -0.0177,  0.0079]],
+       device='cuda:0'), grad: tensor([[ 7.9498e-03,  1.2054e-03,  9.4843e-04,  ...,  1.1320e-03,
+          9.5177e-04,  9.0694e-04],
+        [ 4.0817e-03,  7.9751e-05,  5.3197e-05,  ...,  3.8910e-04,
+          8.6308e-05,  1.6797e-04],
+        [ 7.2575e-04, -1.3161e-03, -1.0567e-03,  ..., -4.1389e-04,
+         -9.8515e-04, -7.0858e-04],
+        ...,
+        [ 2.3365e-03,  1.1295e-04,  8.6308e-05,  ...,  2.4986e-04,
+          1.0097e-04,  1.3685e-04],
+        [ 3.9368e-03,  5.0455e-05,  3.0845e-05,  ...,  3.6263e-04,
+          6.1005e-05,  1.4544e-04],
+        [-2.1698e-02, -1.7965e-04, -9.3460e-05,  ..., -1.9703e-03,
+         -2.6655e-04, -7.5483e-04]], device='cuda:0')
+Epoch 51, bias, value: tensor([ 0.0240, -0.0581,  0.0303, -0.1240, -0.2080,  0.1143,  0.2259],
+       device='cuda:0'), grad: tensor([ 0.0346,  0.0250,  0.0224,  0.0165,  0.0134,  0.0245, -0.1364],
+       device='cuda:0')
+306
+0.0018825509907063344
+changing lr
+epoch 50, time 393.29, cls_loss 0.5413 cls_loss_mapping 0.0238 cls_loss_causal 0.4880 re_mapping 0.0304 re_causal 0.0341 /// teacc 88.94 lr 0.00171031
+Epoch 52, weight, value: tensor([[ 0.1661,  0.1521,  0.1821,  ..., -0.0792, -0.1174, -0.1210],
+        [-0.1009, -0.0748, -0.0589,  ...,  0.0660,  0.0706,  0.0680],
+        [-0.0188, -0.0038, -0.0298,  ...,  0.0231,  0.0443,  0.0426],
+        ...,
+        [-0.1101, -0.0955, -0.1038,  ..., -0.0271, -0.0085, -0.0090],
+        [-0.1109, -0.1055, -0.1041,  ..., -0.0959, -0.1040, -0.1199],
+        [ 0.1984,  0.1650,  0.1381,  ...,  0.0095, -0.0176,  0.0080]],
+       device='cuda:0'), grad: tensor([[ 6.3705e-03, -5.6076e-04, -5.3167e-04,  ...,  3.3188e-04,
+          5.1069e-04,  5.1498e-04],
+        [ 6.4888e-03,  1.5068e-04,  1.6963e-04,  ...,  4.6325e-04,
+          6.5994e-04,  6.3562e-04],
+        [ 6.0959e-03,  1.1861e-04,  1.4186e-04,  ...,  3.6693e-04,
+          5.4932e-04,  5.2595e-04],
+        ...,
+        [ 2.8591e-03,  8.0049e-05,  9.7394e-05,  ...,  1.3661e-04,
+          2.1958e-04,  2.0707e-04],
+        [ 3.6774e-03,  5.6148e-05,  7.0512e-05,  ...,  2.1362e-04,
+          3.2282e-04,  3.0947e-04],
+        [-2.8778e-02,  2.6393e-04,  1.2541e-04,  ..., -1.4343e-03,
+         -2.2697e-03, -2.1858e-03]], device='cuda:0')
+Epoch 52, bias, value: tensor([ 0.0308, -0.0800,  0.0207, -0.1217, -0.1988,  0.1099,  0.2435],
+       device='cuda:0'), grad: tensor([ 0.0296,  0.0257,  0.0241,  0.0137,  0.0111,  0.0147, -0.1188],
+       device='cuda:0')
+306
+0.0017103063703014388
+changing lr
+epoch 51, time 394.13, cls_loss 0.5411 cls_loss_mapping 0.0263 cls_loss_causal 0.4918 re_mapping 0.0291 re_causal 0.0325 /// teacc 88.46 lr 0.00154469
+Epoch 53, weight, value: tensor([[ 0.1658,  0.1534,  0.1827,  ..., -0.0794, -0.1179, -0.1209],
+        [-0.0963, -0.0743, -0.0590,  ...,  0.0676,  0.0722,  0.0697],
+        [-0.0210, -0.0040, -0.0301,  ...,  0.0233,  0.0441,  0.0425],
+        ...,
+        [-0.1080, -0.0951, -0.1030,  ..., -0.0275, -0.0088, -0.0096],
+        [-0.1095, -0.1054, -0.1042,  ..., -0.0961, -0.1046, -0.1201],
+        [ 0.1974,  0.1636,  0.1376,  ...,  0.0098, -0.0166,  0.0087]],
+       device='cuda:0'), grad: tensor([[-7.0862e-02, -7.2289e-03, -4.9248e-03,  ..., -1.3840e-02,
+         -1.5701e-02, -1.7227e-02],
+        [ 6.6853e-04, -1.4973e-04,  5.4343e-07,  ...,  2.1858e-03,
+          2.5177e-03,  1.2817e-03],
+        [ 3.1769e-02,  5.8746e-03,  4.3983e-03,  ...,  7.6447e-03,
+          9.1400e-03,  9.4452e-03],
+        ...,
+        [ 2.4704e-02,  3.5458e-03,  2.5330e-03,  ...,  4.8561e-03,
+          5.6458e-03,  6.4049e-03],
+        [-6.7810e-02, -1.6861e-02, -1.3504e-02,  ..., -2.5787e-02,
+         -3.1555e-02, -2.6749e-02],
+        [ 7.1594e-02,  1.3283e-02,  1.0384e-02,  ...,  2.3071e-02,
+          2.7740e-02,  2.4292e-02]], device='cuda:0')
+Epoch 53, bias, value: tensor([ 0.0195, -0.0687,  0.0117, -0.1311, -0.1889,  0.1176,  0.2442],
+       device='cuda:0'), grad: tensor([-0.2096, -0.0283,  0.1005,  0.0357,  0.0840, -0.1157,  0.1335],
+       device='cuda:0')
+306
+0.0015446867550656784
+changing lr
+epoch 52, time 389.31, cls_loss 0.5270 cls_loss_mapping 0.0311 cls_loss_causal 0.4939 re_mapping 0.0283 re_causal 0.0317 /// teacc 90.87 lr 0.00138603
+Epoch 54, weight, value: tensor([[ 0.1647,  0.1518,  0.1810,  ..., -0.0790, -0.1173, -0.1206],
+        [-0.0968, -0.0743, -0.0589,  ...,  0.0673,  0.0718,  0.0692],
+        [-0.0210, -0.0038, -0.0297,  ...,  0.0227,  0.0436,  0.0417],
+        ...,
+        [-0.1099, -0.0962, -0.1039,  ..., -0.0274, -0.0087, -0.0093],
+        [-0.1083, -0.1052, -0.1041,  ..., -0.0951, -0.1041, -0.1192],
+        [ 0.1982,  0.1655,  0.1393,  ...,  0.0070, -0.0192,  0.0066]],
+       device='cuda:0'), grad: tensor([[-4.1382e-02, -8.0643e-03, -7.6180e-03,  ..., -8.2779e-03,
+         -1.0506e-02, -1.1520e-02],
+        [ 4.0710e-02,  8.1329e-03,  7.6218e-03,  ...,  8.3847e-03,
+          1.0452e-02,  1.1391e-02],
+        [ 7.7248e-04,  1.1671e-04,  9.9301e-05,  ...,  3.8648e-04,
+          4.0102e-04,  4.0483e-04],
+        ...,
+        [ 1.1845e-03,  1.6952e-04,  1.5402e-04,  ...,  1.5972e-06,
+          1.4997e-04,  1.3661e-04],
+        [-5.4016e-03, -2.8706e-04, -1.0747e-04,  ..., -3.8223e-03,
+         -3.9043e-03, -3.8872e-03],
+        [ 3.0556e-03, -2.0063e-04, -2.4402e-04,  ...,  2.6951e-03,
+          2.7618e-03,  2.8152e-03]], device='cuda:0')
+Epoch 54, bias, value: tensor([ 0.0133, -0.0728,  0.0056, -0.1223, -0.1893,  0.1243,  0.2456],
+       device='cuda:0'), grad: tensor([-0.1317,  0.1279,  0.0024,  0.0037,  0.0032, -0.0184,  0.0129],
+       device='cuda:0')
+306
+0.001386025680863044
+changing lr
+epoch 53, time 386.86, cls_loss 0.5244 cls_loss_mapping 0.0258 cls_loss_causal 0.4889 re_mapping 0.0278 re_causal 0.0307 /// teacc 88.94 lr 0.00123464
+Epoch 55, weight, value: tensor([[ 0.1647,  0.1529,  0.1818,  ..., -0.0774, -0.1156, -0.1188],
+        [-0.0980, -0.0751, -0.0591,  ...,  0.0659,  0.0702,  0.0677],
+        [-0.0222, -0.0049, -0.0308,  ...,  0.0222,  0.0434,  0.0415],
+        ...,
+        [-0.1101, -0.0967, -0.1044,  ..., -0.0283, -0.0101, -0.0103],
+        [-0.1072, -0.1054, -0.1047,  ..., -0.0950, -0.1040, -0.1192],
+        [ 0.2009,  0.1670,  0.1408,  ...,  0.0083, -0.0175,  0.0081]],
+       device='cuda:0'), grad: tensor([[-0.0439, -0.0183, -0.0184,  ..., -0.0034, -0.0051, -0.0045],
+        [ 0.0074,  0.0025,  0.0024,  ...,  0.0009,  0.0013,  0.0013],
+        [ 0.0120,  0.0038,  0.0036,  ...,  0.0016,  0.0024,  0.0023],
+        ...,
+        [ 0.0077,  0.0030,  0.0030,  ...,  0.0007,  0.0011,  0.0010],
+        [-0.0311, -0.0036, -0.0027,  ..., -0.0071, -0.0107, -0.0106],
+        [ 0.0238,  0.0084,  0.0083,  ...,  0.0027,  0.0040,  0.0037]],
+       device='cuda:0')
+Epoch 55, bias, value: tensor([ 0.0046, -0.0721,  0.0113, -0.1253, -0.1852,  0.1252,  0.2460],
+       device='cuda:0'), grad: tensor([-0.1186,  0.0194,  0.0319,  0.0621,  0.0206, -0.0793,  0.0638],
+       device='cuda:0')
+306
+0.0012346426699819469
+changing lr
+epoch 54, time 393.85, cls_loss 0.4991 cls_loss_mapping 0.0232 cls_loss_causal 0.4533 re_mapping 0.0276 re_causal 0.0306 /// teacc 88.46 lr 0.00109084
+Epoch 56, weight, value: tensor([[ 0.1715,  0.1555,  0.1844,  ..., -0.0763, -0.1146, -0.1177],
+        [-0.1017, -0.0755, -0.0596,  ...,  0.0649,  0.0690,  0.0663],
+        [-0.0226, -0.0054, -0.0313,  ...,  0.0220,  0.0429,  0.0410],
+        ...,
+        [-0.1100, -0.0971, -0.1051,  ..., -0.0282, -0.0096, -0.0099],
+        [-0.1096, -0.1060, -0.1052,  ..., -0.0956, -0.1044, -0.1198],
+        [ 0.1998,  0.1671,  0.1411,  ...,  0.0088, -0.0168,  0.0090]],
+       device='cuda:0'), grad: tensor([[ 4.4525e-02,  7.8735e-03,  6.3705e-03,  ...,  6.4735e-03,
+          6.1264e-03,  5.8098e-03],
+        [ 2.0332e-03,  2.4939e-04,  3.1376e-04,  ...,  6.6996e-05,
+          2.2575e-05,  1.4937e-04],
+        [ 7.1793e-03,  1.3533e-03,  1.3647e-03,  ...,  2.7752e-04,
+          1.7118e-04,  4.1652e-04],
+        ...,
+        [-4.2603e-02, -8.4839e-03, -6.4697e-03,  ..., -6.5041e-03,
+         -6.2904e-03, -5.4436e-03],
+        [ 3.1261e-03,  3.8385e-04,  4.8780e-04,  ...,  1.1748e-04,
+          5.0128e-05,  2.4581e-04],
+        [-1.6663e-02, -1.6718e-03, -2.4376e-03,  ..., -5.3596e-04,
+         -1.3232e-04, -1.3733e-03]], device='cuda:0')
+Epoch 56, bias, value: tensor([ 0.0194, -0.0878,  0.0158, -0.1197, -0.1878,  0.1147,  0.2499],
+       device='cuda:0'), grad: tensor([ 0.1388,  0.0138,  0.0320,  0.0160, -0.0939,  0.0213, -0.1279],
+       device='cuda:0')
+306
+0.0010908425876598518
+changing lr
+epoch 55, time 399.22, cls_loss 0.4915 cls_loss_mapping 0.0202 cls_loss_causal 0.4459 re_mapping 0.0273 re_causal 0.0302 /// teacc 89.42 lr 0.00095492
+Epoch 57, weight, value: tensor([[ 0.1687,  0.1557,  0.1849,  ..., -0.0769, -0.1156, -0.1183],
+        [-0.1000, -0.0750, -0.0594,  ...,  0.0653,  0.0695,  0.0666],
+        [-0.0224, -0.0051, -0.0309,  ...,  0.0224,  0.0431,  0.0414],
+        ...,
+        [-0.1099, -0.0974, -0.1057,  ..., -0.0284, -0.0099, -0.0103],
+        [-0.1076, -0.1057, -0.1049,  ..., -0.0950, -0.1033, -0.1190],
+        [ 0.2006,  0.1667,  0.1408,  ...,  0.0087, -0.0168,  0.0089]],
+       device='cuda:0'), grad: tensor([[-5.0140e-02, -2.5436e-02, -2.5787e-02,  ..., -7.0915e-03,
+         -7.8964e-03, -7.0572e-03],
+        [ 1.3475e-03,  1.7321e-04,  1.6499e-04,  ...,  2.0504e-04,
+          1.4019e-04,  2.6464e-04],
+        [-9.1858e-03,  5.1856e-05,  3.2634e-05,  ..., -1.6012e-03,
+         -1.1129e-03, -2.2392e-03],
+        ...,
+        [ 3.6407e-04, -5.6934e-04, -3.7909e-04,  ..., -9.3520e-05,
+         -2.6417e-04,  7.6354e-05],
+        [ 1.3361e-03,  8.6069e-05,  6.1810e-05,  ...,  2.6178e-04,
+          2.1899e-04,  3.3331e-04],
+        [ 5.5725e-02,  2.5665e-02,  2.5879e-02,  ...,  8.2092e-03,
+          8.8196e-03,  8.4839e-03]], device='cuda:0')
+Epoch 57, bias, value: tensor([ 0.0125, -0.0844,  0.0141, -0.1253, -0.1868,  0.1216,  0.2527],
+       device='cuda:0'), grad: tensor([-0.0762,  0.0050, -0.0435,  0.0022,  0.0066,  0.0056,  0.1003],
+       device='cuda:0')
+306
+0.000954915028125264
+changing lr
+epoch 56, time 388.25, cls_loss 0.5073 cls_loss_mapping 0.0212 cls_loss_causal 0.4755 re_mapping 0.0267 re_causal 0.0295 /// teacc 89.42 lr 0.00082713
+Epoch 58, weight, value: tensor([[ 0.1699,  0.1566,  0.1854,  ..., -0.0761, -0.1148, -0.1174],
+        [-0.1004, -0.0751, -0.0595,  ...,  0.0647,  0.0692,  0.0661],
+        [-0.0226, -0.0058, -0.0316,  ...,  0.0223,  0.0430,  0.0411],
+        ...,
+        [-0.1110, -0.0980, -0.1062,  ..., -0.0286, -0.0105, -0.0106],
+        [-0.1090, -0.1060, -0.1050,  ..., -0.0955, -0.1039, -0.1194],
+        [ 0.2021,  0.1678,  0.1421,  ...,  0.0096, -0.0160,  0.0095]],
+       device='cuda:0'), grad: tensor([[-0.0051, -0.0019, -0.0018,  ..., -0.0065, -0.0058, -0.0051],
+        [ 0.0397,  0.0058,  0.0045,  ...,  0.0062,  0.0074,  0.0066],
+        [-0.0216, -0.0035, -0.0006,  ..., -0.0003, -0.0016,  0.0009],
+        ...,
+        [ 0.0081,  0.0009,  0.0011,  ...,  0.0008,  0.0011,  0.0015],
+        [-0.0255, -0.0006, -0.0002,  ..., -0.0019, -0.0042, -0.0050],
+        [-0.0004, -0.0012, -0.0037,  ...,  0.0011,  0.0026,  0.0002]],
+       device='cuda:0')
+Epoch 58, bias, value: tensor([ 0.0188, -0.0870,  0.0130, -0.1223, -0.1922,  0.1204,  0.2537],
+       device='cuda:0'), grad: tensor([ 0.0124,  0.1406, -0.0598,  0.0236,  0.0376, -0.1141, -0.0402],
+       device='cuda:0')
+306
+0.0008271337313934874
+changing lr
+epoch 57, time 386.10, cls_loss 0.5269 cls_loss_mapping 0.0241 cls_loss_causal 0.4705 re_mapping 0.0255 re_causal 0.0282 /// teacc 89.42 lr 0.00070776
+Epoch 59, weight, value: tensor([[ 0.1662,  0.1551,  0.1839,  ..., -0.0775, -0.1163, -0.1189],
+        [-0.0988, -0.0741, -0.0587,  ...,  0.0645,  0.0688,  0.0660],
+        [-0.0222, -0.0053, -0.0311,  ...,  0.0227,  0.0435,  0.0413],
+        ...,
+        [-0.1120, -0.0982, -0.1066,  ..., -0.0281, -0.0102, -0.0101],
+        [-0.1083, -0.1060, -0.1049,  ..., -0.0956, -0.1041, -0.1194],
+        [ 0.1998,  0.1667,  0.1413,  ...,  0.0092, -0.0161,  0.0092]],
+       device='cuda:0'), grad: tensor([[ 0.0110,  0.0006,  0.0006,  ...,  0.0013,  0.0017,  0.0017],
+        [ 0.0111,  0.0008,  0.0008,  ...,  0.0014,  0.0017,  0.0018],
+        [ 0.0084,  0.0005,  0.0004,  ...,  0.0008,  0.0010,  0.0011],
+        ...,
+        [-0.0093, -0.0018, -0.0024,  ..., -0.0023, -0.0031, -0.0027],
+        [ 0.0190,  0.0009,  0.0006,  ...,  0.0023,  0.0026,  0.0027],
+        [-0.0102, -0.0004,  0.0003,  ..., -0.0026, -0.0021, -0.0014]],
+       device='cuda:0')
+Epoch 59, bias, value: tensor([ 0.0089, -0.0827,  0.0131, -0.1120, -0.1950,  0.1242,  0.2478],
+       device='cuda:0'), grad: tensor([ 0.0435,  0.0426,  0.0331, -0.1487, -0.0326,  0.0685, -0.0064],
+       device='cuda:0')
+306
+0.00070775603199067
+changing lr
+epoch 58, time 408.47, cls_loss 0.5311 cls_loss_mapping 0.0233 cls_loss_causal 0.4902 re_mapping 0.0250 re_causal 0.0276 /// teacc 88.46 lr 0.00059702
+Epoch 60, weight, value: tensor([[ 0.1683,  0.1557,  0.1848,  ..., -0.0765, -0.1152, -0.1179],
+        [-0.0981, -0.0734, -0.0580,  ...,  0.0644,  0.0687,  0.0660],
+        [-0.0235, -0.0059, -0.0318,  ...,  0.0233,  0.0441,  0.0420],
+        ...,
+        [-0.1107, -0.0977, -0.1059,  ..., -0.0278, -0.0099, -0.0098],
+        [-0.1084, -0.1065, -0.1054,  ..., -0.0950, -0.1035, -0.1189],
+        [ 0.2006,  0.1667,  0.1409,  ...,  0.0083, -0.0171,  0.0083]],
+       device='cuda:0'), grad: tensor([[ 0.0086,  0.0005,  0.0007,  ...,  0.0006,  0.0010,  0.0011],
+        [-0.0361, -0.0007, -0.0010,  ..., -0.0008, -0.0022, -0.0027],
+        [-0.0023, -0.0029, -0.0029,  ..., -0.0016, -0.0018, -0.0016],
+        ...,
+        [ 0.0055,  0.0008,  0.0007,  ...,  0.0003,  0.0005,  0.0005],
+        [ 0.0090,  0.0003,  0.0004,  ...,  0.0003,  0.0006,  0.0007],
+        [ 0.0125,  0.0019,  0.0020,  ...,  0.0011,  0.0016,  0.0017]],
+       device='cuda:0')
+Epoch 60, bias, value: tensor([ 0.0126, -0.0808,  0.0134, -0.1217, -0.1950,  0.1230,  0.2530],
+       device='cuda:0'), grad: tensor([ 0.0343, -0.1429, -0.0006,  0.0109,  0.0185,  0.0353,  0.0445],
+       device='cuda:0')
+306
+0.0005970223407163104
+changing lr
+epoch 59, time 410.58, cls_loss 0.5076 cls_loss_mapping 0.0229 cls_loss_causal 0.4646 re_mapping 0.0245 re_causal 0.0270 /// teacc 89.42 lr 0.00049516
+Epoch 61, weight, value: tensor([[ 0.1687,  0.1554,  0.1847,  ..., -0.0760, -0.1147, -0.1171],
+        [-0.0985, -0.0735, -0.0580,  ...,  0.0638,  0.0682,  0.0654],
+        [-0.0230, -0.0058, -0.0317,  ...,  0.0228,  0.0438,  0.0416],
+        ...,
+        [-0.1113, -0.0977, -0.1060,  ..., -0.0275, -0.0096, -0.0096],
+        [-0.1095, -0.1068, -0.1057,  ..., -0.0953, -0.1038, -0.1191],
+        [ 0.2009,  0.1672,  0.1413,  ...,  0.0085, -0.0169,  0.0084]],
+       device='cuda:0'), grad: tensor([[ 4.8523e-02,  6.1455e-03,  6.0997e-03,  ...,  1.2611e-02,
+          1.3039e-02,  1.4244e-02],
+        [ 2.1530e-02,  2.3232e-03,  2.4052e-03,  ...,  5.2376e-03,
+          5.4245e-03,  6.0539e-03],
+        [-2.0332e-03,  6.2084e-04,  1.5438e-04,  ...,  5.2757e-03,
+          5.7564e-03,  4.1161e-03],
+        ...,
+        [-3.4821e-02, -6.3515e-03, -4.9667e-03,  ..., -1.7090e-02,
+         -1.8188e-02, -1.9119e-02],
+        [-3.2471e-02, -2.1381e-03, -3.9635e-03,  ..., -7.6981e-03,
+         -8.4915e-03, -7.7400e-03],
+        [-1.0345e-02, -1.5554e-03, -6.7186e-04,  ..., -4.9829e-04,
+          2.7442e-04,  5.8934e-06]], device='cuda:0')
+Epoch 61, bias, value: tensor([ 0.0166, -0.0821,  0.0177, -0.1180, -0.1977,  0.1166,  0.2513],
+       device='cuda:0'), grad: tensor([ 0.1459,  0.0671, -0.0198,  0.0322, -0.0966, -0.0740, -0.0546],
+       device='cuda:0')
+306
+0.0004951556604879052
+changing lr
+epoch 60, time 398.51, cls_loss 0.5222 cls_loss_mapping 0.0234 cls_loss_causal 0.4879 re_mapping 0.0243 re_causal 0.0269 /// teacc 89.90 lr 0.00040236
+Epoch 62, weight, value: tensor([[ 0.1674,  0.1551,  0.1846,  ..., -0.0763, -0.1150, -0.1173],
+        [-0.0970, -0.0734, -0.0579,  ...,  0.0642,  0.0685,  0.0658],
+        [-0.0241, -0.0060, -0.0319,  ...,  0.0222,  0.0430,  0.0408],
+        ...,
+        [-0.1109, -0.0977, -0.1060,  ..., -0.0274, -0.0095, -0.0095],
+        [-0.1089, -0.1067, -0.1055,  ..., -0.0952, -0.1037, -0.1190],
+        [ 0.2010,  0.1675,  0.1413,  ...,  0.0087, -0.0168,  0.0085]],
+       device='cuda:0'), grad: tensor([[ 0.0227,  0.0034,  0.0032,  ...,  0.0058,  0.0056,  0.0058],
+        [ 0.0136,  0.0015,  0.0014,  ...,  0.0024,  0.0023,  0.0024],
+        [-0.0740, -0.0136, -0.0127,  ..., -0.0210, -0.0212, -0.0220],
+        ...,
+        [ 0.0245,  0.0051,  0.0047,  ...,  0.0092,  0.0091,  0.0092],
+        [-0.0197, -0.0009, -0.0007,  ..., -0.0038, -0.0028, -0.0029],
+        [ 0.0266,  0.0039,  0.0036,  ...,  0.0066,  0.0064,  0.0066]],
+       device='cuda:0')
+Epoch 62, bias, value: tensor([ 0.0132, -0.0741,  0.0143, -0.1187, -0.1966,  0.1162,  0.2501],
+       device='cuda:0'), grad: tensor([ 0.0862,  0.0589, -0.2233,  0.0299,  0.0754, -0.1299,  0.1026],
+       device='cuda:0')
+306
+0.00040236113724274745
+changing lr
+epoch 61, time 411.27, cls_loss 0.5144 cls_loss_mapping 0.0184 cls_loss_causal 0.4734 re_mapping 0.0241 re_causal 0.0266 /// teacc 88.94 lr 0.00031883
+Epoch 63, weight, value: tensor([[ 0.1671,  0.1552,  0.1847,  ..., -0.0763, -0.1150, -0.1172],
+        [-0.0967, -0.0733, -0.0577,  ...,  0.0642,  0.0686,  0.0658],
+        [-0.0246, -0.0064, -0.0324,  ...,  0.0221,  0.0428,  0.0406],
+        ...,
+        [-0.1114, -0.0978, -0.1061,  ..., -0.0278, -0.0099, -0.0099],
+        [-0.1090, -0.1066, -0.1054,  ..., -0.0953, -0.1036, -0.1189],
+        [ 0.2011,  0.1675,  0.1413,  ...,  0.0086, -0.0169,  0.0083]],
+       device='cuda:0'), grad: tensor([[-0.0223, -0.0005, -0.0010,  ..., -0.0033, -0.0047, -0.0043],
+        [ 0.0168,  0.0019,  0.0014,  ...,  0.0034,  0.0031,  0.0036],
+        [ 0.0124,  0.0009,  0.0007,  ...,  0.0026,  0.0023,  0.0028],
+        ...,
+        [ 0.0074,  0.0011,  0.0007,  ...,  0.0014,  0.0012,  0.0014],
+        [ 0.0111,  0.0012,  0.0008,  ...,  0.0022,  0.0018,  0.0023],
+        [ 0.0011, -0.0032, -0.0019,  ...,  0.0011,  0.0008,  0.0018]],
+       device='cuda:0')
+Epoch 63, bias, value: tensor([ 0.0133, -0.0725,  0.0146, -0.1156, -0.1984,  0.1150,  0.2480],
+       device='cuda:0'), grad: tensor([-0.1065,  0.0693,  0.0551, -0.1230,  0.0291,  0.0474,  0.0286],
+       device='cuda:0')
+306
+0.00031882564680131423
+changing lr
+epoch 62, time 401.03, cls_loss 0.5219 cls_loss_mapping 0.0183 cls_loss_causal 0.4954 re_mapping 0.0237 re_causal 0.0260 /// teacc 88.46 lr 0.00024472
+Epoch 64, weight, value: tensor([[ 0.1671,  0.1551,  0.1847,  ..., -0.0766, -0.1153, -0.1174],
+        [-0.0989, -0.0738, -0.0582,  ...,  0.0637,  0.0680,  0.0652],
+        [-0.0232, -0.0061, -0.0320,  ...,  0.0225,  0.0433,  0.0411],
+        ...,
+        [-0.1116, -0.0980, -0.1063,  ..., -0.0275, -0.0096, -0.0096],
+        [-0.1088, -0.1066, -0.1054,  ..., -0.0952, -0.1035, -0.1189],
+        [ 0.2017,  0.1680,  0.1416,  ...,  0.0088, -0.0167,  0.0085]],
+       device='cuda:0'), grad: tensor([[ 4.8485e-03,  1.2827e-03,  1.2579e-03,  ...,  1.0071e-03,
+          9.6178e-04,  1.0347e-03],
+        [ 1.2207e-03,  3.2783e-04,  2.7657e-04,  ...,  2.9349e-04,
+          2.8181e-04,  2.8443e-04],
+        [-9.7227e-04, -3.0661e-04, -2.3806e-04,  ..., -2.6441e-04,
+         -1.9586e-04, -2.0015e-04],
+        ...,
+        [-6.9504e-03, -1.5345e-03, -1.4372e-03,  ..., -1.4706e-03,
+         -1.3475e-03, -1.4591e-03],
+        [ 2.6727e-04,  7.2181e-05,  6.8009e-05,  ...,  6.6340e-05,
+          5.8293e-05,  6.4611e-05],
+        [ 3.6945e-03,  7.6246e-04,  6.4373e-04,  ...,  1.0452e-03,
+          9.7275e-04,  1.0338e-03]], device='cuda:0')
+Epoch 64, bias, value: tensor([ 0.0145, -0.0789,  0.0192, -0.1145, -0.1982,  0.1160,  0.2463],
+       device='cuda:0'), grad: tensor([ 0.0129,  0.0029, -0.0028, -0.0055, -0.0194,  0.0008,  0.0110],
+       device='cuda:0')
+306
+0.0002447174185242325
+changing lr
+epoch 63, time 397.49, cls_loss 0.4769 cls_loss_mapping 0.0180 cls_loss_causal 0.4371 re_mapping 0.0237 re_causal 0.0258 /// teacc 89.90 lr 0.00018019
+Epoch 65, weight, value: tensor([[ 0.1673,  0.1553,  0.1848,  ..., -0.0764, -0.1149, -0.1171],
+        [-0.0978, -0.0734, -0.0578,  ...,  0.0640,  0.0683,  0.0655],
+        [-0.0228, -0.0060, -0.0320,  ...,  0.0223,  0.0431,  0.0409],
+        ...,
+        [-0.1119, -0.0979, -0.1062,  ..., -0.0275, -0.0095, -0.0095],
+        [-0.1090, -0.1067, -0.1055,  ..., -0.0952, -0.1036, -0.1189],
+        [ 0.2011,  0.1675,  0.1412,  ...,  0.0084, -0.0172,  0.0081]],
+       device='cuda:0'), grad: tensor([[ 0.0224,  0.0049,  0.0053,  ...,  0.0016,  0.0029,  0.0026],
+        [ 0.0058,  0.0011,  0.0012,  ...,  0.0003,  0.0006,  0.0006],
+        [ 0.0114,  0.0019,  0.0021,  ...,  0.0005,  0.0012,  0.0011],
+        ...,
+        [ 0.0055,  0.0012,  0.0013,  ...,  0.0003,  0.0006,  0.0006],
+        [ 0.0216,  0.0026,  0.0031,  ...,  0.0007,  0.0023,  0.0020],
+        [-0.0734, -0.0128, -0.0142,  ..., -0.0037, -0.0083, -0.0074]],
+       device='cuda:0')
+Epoch 65, bias, value: tensor([ 0.0135, -0.0759,  0.0213, -0.1169, -0.1987,  0.1156,  0.2455],
+       device='cuda:0'), grad: tensor([ 0.0718,  0.0209,  0.0374,  0.0214,  0.0203,  0.0613, -0.2329],
+       device='cuda:0')
+306
+0.0001801856965207339
+changing lr
+epoch 64, time 407.86, cls_loss 0.5134 cls_loss_mapping 0.0213 cls_loss_causal 0.4682 re_mapping 0.0236 re_causal 0.0257 /// teacc 88.94 lr 0.00012536
+Epoch 66, weight, value: tensor([[ 0.1678,  0.1558,  0.1853,  ..., -0.0761, -0.1147, -0.1169],
+        [-0.0981, -0.0734, -0.0579,  ...,  0.0641,  0.0684,  0.0656],
+        [-0.0230, -0.0061, -0.0320,  ...,  0.0222,  0.0429,  0.0407],
+        ...,
+        [-0.1109, -0.0977, -0.1060,  ..., -0.0274, -0.0094, -0.0094],
+        [-0.1095, -0.1067, -0.1055,  ..., -0.0953, -0.1037, -0.1189],
+        [ 0.2009,  0.1672,  0.1409,  ...,  0.0084, -0.0172,  0.0081]],
+       device='cuda:0'), grad: tensor([[ 0.0068,  0.0022,  0.0021,  ...,  0.0008,  0.0011,  0.0009],
+        [ 0.0025,  0.0008,  0.0007,  ...,  0.0003,  0.0004,  0.0003],
+        [ 0.0094,  0.0033,  0.0032,  ...,  0.0013,  0.0017,  0.0014],
+        ...,
+        [-0.0288, -0.0093, -0.0088,  ..., -0.0031, -0.0044, -0.0035],
+        [-0.0291, -0.0075, -0.0064,  ..., -0.0032, -0.0031, -0.0022],
+        [ 0.0390,  0.0111,  0.0100,  ...,  0.0045,  0.0049,  0.0038]],
+       device='cuda:0')
+Epoch 66, bias, value: tensor([ 0.0131, -0.0766,  0.0206, -0.1177, -0.1947,  0.1143,  0.2454],
+       device='cuda:0'), grad: tensor([ 0.0257,  0.0098,  0.0375,  0.0046, -0.1260, -0.0534,  0.1018],
+       device='cuda:0')
+306
+0.000125360439090882
+changing lr
+epoch 65, time 398.30, cls_loss 0.4862 cls_loss_mapping 0.0196 cls_loss_causal 0.4406 re_mapping 0.0234 re_causal 0.0254 /// teacc 88.94 lr 0.00008035
+Epoch 67, weight, value: tensor([[ 0.1675,  0.1555,  0.1851,  ..., -0.0762, -0.1148, -0.1170],
+        [-0.0985, -0.0735, -0.0580,  ...,  0.0641,  0.0684,  0.0656],
+        [-0.0231, -0.0060, -0.0320,  ...,  0.0222,  0.0430,  0.0408],
+        ...,
+        [-0.1108, -0.0977, -0.1059,  ..., -0.0273, -0.0094, -0.0093],
+        [-0.1091, -0.1066, -0.1055,  ..., -0.0953, -0.1037, -0.1190],
+        [ 0.2008,  0.1671,  0.1409,  ...,  0.0084, -0.0173,  0.0080]],
+       device='cuda:0'), grad: tensor([[ 0.0113,  0.0021,  0.0021,  ...,  0.0040,  0.0044,  0.0044],
+        [ 0.0079,  0.0013,  0.0014,  ...,  0.0035,  0.0037,  0.0036],
+        [-0.0145, -0.0018, -0.0007,  ..., -0.0108, -0.0113, -0.0112],
+        ...,
+        [-0.0369, -0.0050, -0.0063,  ..., -0.0073, -0.0082, -0.0084],
+        [ 0.0057,  0.0009,  0.0010,  ...,  0.0016,  0.0018,  0.0018],
+        [ 0.0469,  0.0118,  0.0120,  ...,  0.0166,  0.0186,  0.0179]],
+       device='cuda:0')
+Epoch 67, bias, value: tensor([ 0.0137, -0.0777,  0.0189, -0.1167, -0.1949,  0.1160,  0.2450],
+       device='cuda:0'), grad: tensor([ 0.0376,  0.0238, -0.0434, -0.0232, -0.1459,  0.0206,  0.1304],
+       device='cuda:0')
+306
+8.03520570068517e-05
+changing lr
+epoch 66, time 401.01, cls_loss 0.4779 cls_loss_mapping 0.0161 cls_loss_causal 0.4459 re_mapping 0.0235 re_causal 0.0253 /// teacc 88.94 lr 0.00004525
+Epoch 68, weight, value: tensor([[ 0.1674,  0.1555,  0.1851,  ..., -0.0762, -0.1148, -0.1170],
+        [-0.0986, -0.0736, -0.0581,  ...,  0.0641,  0.0684,  0.0656],
+        [-0.0229, -0.0060, -0.0319,  ...,  0.0223,  0.0431,  0.0408],
+        ...,
+        [-0.1109, -0.0977, -0.1059,  ..., -0.0273, -0.0094, -0.0093],
+        [-0.1092, -0.1066, -0.1055,  ..., -0.0953, -0.1036, -0.1189],
+        [ 0.2011,  0.1672,  0.1409,  ...,  0.0084, -0.0173,  0.0080]],
+       device='cuda:0'), grad: tensor([[ 1.0529e-02,  2.1756e-04,  3.0375e-04,  ...,  6.0511e-04,
+          1.3103e-03,  1.4572e-03],
+        [-3.1250e-02, -2.1112e-04,  3.3855e-05,  ..., -3.3493e-03,
+         -7.3776e-03, -6.7062e-03],
+        [ 1.2390e-02,  2.6894e-04,  3.6526e-04,  ...,  6.9094e-04,
+          1.5793e-03,  1.7309e-03],
+        ...,
+        [ 7.5150e-03,  2.3150e-04,  2.8825e-04,  ...,  5.0879e-04,
+          9.9564e-04,  1.0958e-03],
+        [-2.8809e-02, -1.4534e-03, -2.0752e-03,  ..., -9.5367e-04,
+         -9.4271e-04, -2.2888e-03],
+        [ 2.2552e-02,  7.5245e-04,  8.3590e-04,  ...,  2.0351e-03,
+          3.5095e-03,  3.6926e-03]], device='cuda:0')
+Epoch 68, bias, value: tensor([ 0.0138, -0.0776,  0.0192, -0.1176, -0.1951,  0.1158,  0.2458],
+       device='cuda:0'), grad: tensor([ 0.0453, -0.1405,  0.0535,  0.0302,  0.0318, -0.1130,  0.0929],
+       device='cuda:0')
+306
+4.5251191160326525e-05
+changing lr
+epoch 67, time 416.82, cls_loss 0.4997 cls_loss_mapping 0.0192 cls_loss_causal 0.4719 re_mapping 0.0233 re_causal 0.0253 /// teacc 88.94 lr 0.00002013
+Epoch 69, weight, value: tensor([[ 0.1674,  0.1555,  0.1851,  ..., -0.0763, -0.1149, -0.1170],
+        [-0.0986, -0.0736, -0.0581,  ...,  0.0641,  0.0684,  0.0656],
+        [-0.0229, -0.0060, -0.0319,  ...,  0.0223,  0.0431,  0.0408],
+        ...,
+        [-0.1107, -0.0976, -0.1059,  ..., -0.0273, -0.0094, -0.0093],
+        [-0.1093, -0.1067, -0.1055,  ..., -0.0953, -0.1037, -0.1189],
+        [ 0.2010,  0.1671,  0.1409,  ...,  0.0084, -0.0173,  0.0080]],
+       device='cuda:0'), grad: tensor([[ 1.7748e-03,  6.0511e-04,  6.4611e-04,  ...,  1.8835e-04,
+          2.7013e-04,  2.6369e-04],
+        [ 2.1210e-02,  7.2250e-03,  7.7477e-03,  ...,  2.2011e-03,
+          3.1509e-03,  3.0918e-03],
+        [-3.0640e-02, -1.0437e-02, -1.1200e-02,  ..., -3.1776e-03,
+         -4.5471e-03, -4.4632e-03],
+        ...,
+        [ 1.4715e-03,  4.9877e-04,  5.4216e-04,  ...,  1.4353e-04,
+          2.0421e-04,  2.0397e-04],
+        [ 4.2105e-04,  1.4758e-04,  1.5867e-04,  ...,  4.2588e-05,
+          6.1810e-05,  6.0707e-05],
+        [ 5.6610e-03,  1.9283e-03,  2.0657e-03,  ...,  5.9080e-04,
+          8.4496e-04,  8.2874e-04]], device='cuda:0')
+Epoch 69, bias, value: tensor([ 0.0137, -0.0777,  0.0197, -0.1173, -0.1945,  0.1152,  0.2453],
+       device='cuda:0'), grad: tensor([ 0.0045,  0.0533, -0.0770,  0.0003,  0.0036,  0.0010,  0.0143],
+       device='cuda:0')
+306
+2.0128530023804673e-05
+changing lr
+epoch 68, time 406.63, cls_loss 0.5153 cls_loss_mapping 0.0170 cls_loss_causal 0.4816 re_mapping 0.0234 re_causal 0.0256 /// teacc 89.90 lr 0.00000503
+Epoch 70, weight, value: tensor([[ 0.1676,  0.1556,  0.1851,  ..., -0.0763, -0.1149, -0.1170],
+        [-0.0987, -0.0736, -0.0581,  ...,  0.0641,  0.0684,  0.0656],
+        [-0.0229, -0.0060, -0.0319,  ...,  0.0222,  0.0430,  0.0408],
+        ...,
+        [-0.1107, -0.0976, -0.1059,  ..., -0.0273, -0.0094, -0.0093],
+        [-0.1094, -0.1067, -0.1055,  ..., -0.0953, -0.1037, -0.1189],
+        [ 0.2010,  0.1671,  0.1409,  ...,  0.0084, -0.0173,  0.0080]],
+       device='cuda:0'), grad: tensor([[ 2.5940e-03, -2.3976e-05, -1.0514e-04,  ...,  5.6791e-04,
+          4.8375e-04,  4.8399e-04],
+        [ 3.8204e-03,  5.0163e-04,  4.0221e-04,  ...,  6.7520e-04,
+          6.1655e-04,  5.9891e-04],
+        [-1.5701e-02, -1.4400e-03, -1.0109e-03,  ..., -2.9774e-03,
+         -2.6493e-03, -2.5978e-03],
+        ...,
+        [ 2.6283e-03,  3.2163e-04,  2.5177e-04,  ...,  4.6897e-04,
+          4.2534e-04,  4.1294e-04],
+        [ 2.1076e-03,  1.9431e-04,  1.4079e-04,  ...,  4.0436e-04,
+          3.4928e-04,  3.4642e-04],
+        [ 3.1319e-03,  3.1543e-04,  2.2948e-04,  ...,  5.9175e-04,
+          5.3310e-04,  5.2023e-04]], device='cuda:0')
+Epoch 70, bias, value: tensor([ 0.0142, -0.0778,  0.0196, -0.1171, -0.1945,  0.1150,  0.2451],
+       device='cuda:0'), grad: tensor([ 0.0121,  0.0152, -0.0652,  0.0059,  0.0104,  0.0089,  0.0128],
+       device='cuda:0')
+306
+5.034667293427056e-06
+changing lr
+epoch 69, time 401.28, cls_loss 0.5127 cls_loss_mapping 0.0187 cls_loss_causal 0.4760 re_mapping 0.0234 re_causal 0.0253 /// teacc 90.87 lr 0.00000000
+---------------------saving last model at epoch 69----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_SGD', 'source_domain': 'art_painting', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_SGD/art_painting_16factor_best_test_check.csv', 'factor_num': 16, 'epoch': 'best', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of best
+randm: False
+stride: 5
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+columns: ['art_painting', 'cartoon', 'photo', 'sketch']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+                     art_painting    cartoon      photo    sketch        Avg
+w/o do (original x)     98.876953  60.366894  93.772455  70.93408  75.024476
+    art_painting    cartoon      photo     sketch        Avg
+do      99.21875  62.372014  94.491018  68.617969  75.160334
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_SGD', 'source_domain': 'art_painting', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_SGD/art_painting_16factor_last_test_check.csv', 'factor_num': 16, 'epoch': 'last', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of last
+randm: False
+stride: 5
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+columns: ['art_painting', 'cartoon', 'photo', 'sketch']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+                     art_painting    cartoon      photo     sketch        Avg
+w/o do (original x)     99.072266  61.646758  93.353293  65.741919  73.580657
+    art_painting    cartoon      photo     sketch        Avg
+do     99.316406  63.139932  94.011976  64.851107  74.001005
diff --git a/Meta-causal/code-withStyleAttack/73081.error b/Meta-causal/code-withStyleAttack/73081.error
new file mode 100644
index 0000000000000000000000000000000000000000..6882c9e2571af1ce38353a62fd21b89dc6195fe1
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73081.error
@@ -0,0 +1 @@
+run_my_joint_v13_test.sh: line 30: tchsize}: command not found
diff --git a/Meta-causal/code-withStyleAttack/73081.log b/Meta-causal/code-withStyleAttack/73081.log
new file mode 100644
index 0000000000000000000000000000000000000000..9da7e33bfdb0fb048a344d09684430bd4be72950
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73081.log
@@ -0,0 +1,1812 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'cartoon', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 5, 'factor_num': 16, 'epochs': 70, 'nbatch': 100, 'batchsize': 6, 'lr': 0.01, 'lr_scheduler': 'cosine', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//cartoon/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_SGD', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 5
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_train.hdf5 torch.Size([2107, 3, 227, 227]) torch.Size([2107])
+--------------------------CA_multiple--------------------------
+---------------------------16 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_val.hdf5 torch.Size([237, 3, 227, 227]) torch.Size([237])
+-------------------------------------loading pretrain weights----------------------------------
+Epoch 1, weight, value: tensor([[-0.0078,  0.0171,  0.0086,  ...,  0.0026,  0.0007,  0.0118],
+        [ 0.0040, -0.0136,  0.0034,  ...,  0.0159, -0.0037, -0.0078],
+        [-0.0127, -0.0174,  0.0171,  ...,  0.0190,  0.0173, -0.0206],
+        ...,
+        [-0.0068,  0.0183, -0.0200,  ..., -0.0021,  0.0210,  0.0141],
+        [ 0.0008,  0.0070,  0.0202,  ...,  0.0099,  0.0069, -0.0218],
+        [-0.0165, -0.0087,  0.0195,  ..., -0.0123, -0.0091, -0.0175]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([-0.0096, -0.0055,  0.0186, -0.0060, -0.0015,  0.0037,  0.0073],
+       device='cuda:0'), grad: None
+351
+0.01
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 452.41, cls_loss 7.3240 cls_loss_mapping 1.6415 cls_loss_causal 1.7492 re_mapping 0.3667 re_causal 0.3659 /// teacc 61.18 lr 0.00999497
+Epoch 2, weight, value: tensor([[ 0.0076,  0.0199,  0.0303,  ..., -0.1084, -0.0530, -0.0748],
+        [-0.0477, -0.0513, -0.0504,  ...,  0.0233, -0.0315, -0.0475],
+        [-0.0325, -0.0529,  0.0230,  ...,  0.0537,  0.0493,  0.0279],
+        ...,
+        [-0.0257, -0.0143, -0.0785,  ...,  0.1622,  0.1571,  0.1620],
+        [-0.0821, -0.0500, -0.0726,  ..., -0.0008, -0.0201, -0.0288],
+        [ 0.1372,  0.1431,  0.1811,  ..., -0.1136, -0.0837, -0.1032]],
+       device='cuda:0'), grad: tensor([[ 2.0984e-01,  9.6008e-02,  6.2866e-02,  ...,  7.4951e-02,
+          7.0923e-02,  4.2389e-02],
+        [ 2.0370e-02,  7.3738e-03,  9.4452e-03,  ...,  1.6830e-02,
+          1.7365e-02,  1.1955e-02],
+        [-3.8544e-02, -1.0483e-02, -4.6692e-03,  ..., -5.6763e-03,
+         -6.5079e-03,  1.6189e-04],
+        ...,
+        [ 3.5522e-02,  1.3275e-02,  8.3466e-03,  ...,  1.8036e-02,
+          1.5671e-02,  1.0559e-02],
+        [-1.1285e-01, -7.0740e-02, -5.5328e-02,  ..., -2.9266e-02,
+         -3.5553e-02, -1.8280e-02],
+        [-5.8441e-02, -2.0706e-02, -1.2260e-02,  ..., -5.6458e-02,
+         -4.2389e-02, -3.2471e-02]], device='cuda:0')
+Epoch 2, bias, value: tensor([-0.0099, -0.0542,  0.0116, -0.0376,  0.0800,  0.0349, -0.0179],
+       device='cuda:0'), grad: tensor([ 0.3955,  0.0961, -0.1106, -0.1284,  0.0818, -0.1853, -0.1490],
+       device='cuda:0')
+351
+0.009994965332706574
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 462.50, cls_loss 1.8418 cls_loss_mapping 1.0563 cls_loss_causal 1.3694 re_mapping 0.1192 re_causal 0.1180 /// teacc 72.57 lr 0.00997987
+Epoch 3, weight, value: tensor([[ 0.0397,  0.0544,  0.0631,  ..., -0.1127, -0.0611, -0.0766],
+        [-0.0664, -0.0608, -0.0617,  ...,  0.0235, -0.0252, -0.0500],
+        [-0.0362, -0.0614,  0.0121,  ...,  0.0428,  0.0374,  0.0243],
+        ...,
+        [-0.0365, -0.0210, -0.0805,  ...,  0.2002,  0.1873,  0.1855],
+        [-0.0974, -0.0654, -0.0896,  ..., -0.0110, -0.0194, -0.0319],
+        [ 0.1628,  0.1603,  0.1996,  ..., -0.1271, -0.1026, -0.1185]],
+       device='cuda:0'), grad: tensor([[-2.1777e-01, -1.2323e-01, -9.7717e-02,  ..., -5.2063e-02,
+         -5.7739e-02, -4.0161e-02],
+        [ 1.6382e-01,  9.1064e-02,  6.7627e-02,  ...,  7.5684e-02,
+          7.3669e-02,  6.1890e-02],
+        [ 1.1462e-01,  4.6295e-02,  2.5543e-02,  ...,  1.9608e-02,
+          2.7634e-02,  1.8768e-02],
+        ...,
+        [ 2.4597e-02,  1.1597e-02,  7.3891e-03,  ...,  6.7368e-03,
+          7.4730e-03,  5.5466e-03],
+        [ 1.7929e-04, -7.6473e-05, -1.3340e-04,  ...,  3.4511e-05,
+          7.6473e-05,  4.4793e-05],
+        [ 5.2673e-02,  2.4750e-02,  1.6190e-02,  ...,  1.0445e-02,
+          1.3229e-02,  8.9645e-03]], device='cuda:0')
+Epoch 3, bias, value: tensor([ 0.0003, -0.0338, -0.0064, -0.0674,  0.0779,  0.0088,  0.0275],
+       device='cuda:0'), grad: tensor([-3.1567e-01,  3.2300e-01,  1.9458e-01, -3.3228e-01,  4.5166e-02,
+         3.0327e-04,  8.5083e-02], device='cuda:0')
+351
+0.009979871469976196
+changing lr
+epoch 2, time 465.75, cls_loss 1.4213 cls_loss_mapping 0.7215 cls_loss_causal 1.1227 re_mapping 0.1033 re_causal 0.1019 /// teacc 63.71 lr 0.00995475
+Epoch 4, weight, value: tensor([[ 0.0407,  0.0581,  0.0659,  ..., -0.0943, -0.0359, -0.0510],
+        [-0.0650, -0.0576, -0.0592,  ...,  0.0160, -0.0332, -0.0579],
+        [-0.0311, -0.0508,  0.0194,  ...,  0.0555,  0.0477,  0.0346],
+        ...,
+        [-0.0480, -0.0367, -0.0911,  ...,  0.1979,  0.1829,  0.1765],
+        [-0.0901, -0.0619, -0.0892,  ..., -0.0114, -0.0156, -0.0293],
+        [ 0.1718,  0.1667,  0.2070,  ..., -0.1421, -0.1246, -0.1338]],
+       device='cuda:0'), grad: tensor([[ 0.0417,  0.0155,  0.0141,  ...,  0.0060,  0.0056,  0.0061],
+        [ 0.0231,  0.0075,  0.0071,  ...,  0.0030,  0.0027,  0.0031],
+        [-0.0396, -0.0091, -0.0035,  ..., -0.0278, -0.0247, -0.0256],
+        ...,
+        [ 0.1277,  0.0406,  0.0340,  ...,  0.0325,  0.0292,  0.0312],
+        [-0.0477, -0.0057, -0.0077,  ..., -0.0042, -0.0025, -0.0041],
+        [-0.1055, -0.0488, -0.0439,  ..., -0.0094, -0.0102, -0.0106]],
+       device='cuda:0')
+Epoch 4, bias, value: tensor([ 0.0450,  0.0006, -0.0461, -0.0768,  0.0776, -0.0059,  0.0123],
+       device='cuda:0'), grad: tensor([ 0.0781,  0.0495, -0.1091,  0.0010,  0.2810, -0.1587, -0.1418],
+       device='cuda:0')
+351
+0.009954748808839675
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 474.08, cls_loss 1.2857 cls_loss_mapping 0.5544 cls_loss_causal 0.9997 re_mapping 0.0928 re_causal 0.0915 /// teacc 84.81 lr 0.00991965
+Epoch 5, weight, value: tensor([[ 0.0493,  0.0698,  0.0672,  ..., -0.0961, -0.0448, -0.0565],
+        [-0.0434, -0.0407, -0.0406,  ...,  0.0009, -0.0493, -0.0718],
+        [-0.0340, -0.0549,  0.0144,  ...,  0.0513,  0.0461,  0.0323],
+        ...,
+        [-0.0720, -0.0492, -0.0949,  ...,  0.2153,  0.2000,  0.1903],
+        [-0.0990, -0.0770, -0.1057,  ..., -0.0220, -0.0231, -0.0393],
+        [ 0.1837,  0.1803,  0.2207,  ..., -0.1385, -0.1159, -0.1251]],
+       device='cuda:0'), grad: tensor([[-0.2595, -0.1141, -0.1047,  ..., -0.0660, -0.0741, -0.0676],
+        [ 0.2000,  0.0860,  0.0864,  ...,  0.0684,  0.0731,  0.0663],
+        [ 0.0155,  0.0045,  0.0046,  ...,  0.0118,  0.0128,  0.0127],
+        ...,
+        [ 0.0030,  0.0007,  0.0007,  ...,  0.0028,  0.0030,  0.0030],
+        [-0.0112, -0.0049, -0.0050,  ..., -0.0007, -0.0013, -0.0014],
+        [ 0.0729,  0.0322,  0.0227,  ...,  0.0082,  0.0131,  0.0133]],
+       device='cuda:0')
+Epoch 5, bias, value: tensor([ 0.0675, -0.0093, -0.0634, -0.0440,  0.0755, -0.0342,  0.0144],
+       device='cuda:0'), grad: tensor([-0.4412,  0.3877,  0.0593, -0.1095,  0.0126, -0.0219,  0.1130],
+       device='cuda:0')
+351
+0.009919647942993149
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 476.14, cls_loss 1.1868 cls_loss_mapping 0.4347 cls_loss_causal 0.9151 re_mapping 0.0869 re_causal 0.0856 /// teacc 88.61 lr 0.00987464
+Epoch 6, weight, value: tensor([[ 0.0315,  0.0570,  0.0553,  ..., -0.0947, -0.0461, -0.0598],
+        [-0.0259, -0.0227, -0.0253,  ...,  0.0099, -0.0345, -0.0571],
+        [-0.0587, -0.0831, -0.0124,  ...,  0.0413,  0.0363,  0.0228],
+        ...,
+        [-0.0729, -0.0573, -0.1056,  ...,  0.2290,  0.2084,  0.2036],
+        [-0.0910, -0.0683, -0.0961,  ..., -0.0379, -0.0341, -0.0517],
+        [ 0.2071,  0.2045,  0.2483,  ..., -0.1321, -0.1142, -0.1228]],
+       device='cuda:0'), grad: tensor([[ 3.2684e-02,  1.2611e-02,  1.3191e-02,  ...,  5.7869e-03,
+          5.5351e-03,  5.7220e-03],
+        [ 1.3504e-02,  8.8043e-03,  1.0612e-02,  ..., -2.4853e-03,
+         -1.5202e-03, -1.1950e-03],
+        [ 1.2039e-02,  2.1279e-04, -3.3975e-04,  ...,  4.3030e-03,
+          1.8158e-03,  2.1992e-03],
+        ...,
+        [ 2.2182e-03,  7.0047e-04,  7.1573e-04,  ...,  4.0531e-04,
+          3.6502e-04,  3.7622e-04],
+        [ 6.3658e-04,  1.6212e-04,  1.7023e-04,  ...,  9.1374e-05,
+          7.5042e-05,  8.0407e-05],
+        [-3.9185e-02, -1.6907e-02, -1.9501e-02,  ..., -2.1029e-04,
+         -1.0424e-03, -1.6260e-03]], device='cuda:0')
+Epoch 6, bias, value: tensor([ 0.0896,  0.0340, -0.0286, -0.0643,  0.0350, -0.0550, -0.0043],
+       device='cuda:0'), grad: tensor([ 0.0654,  0.0075,  0.0273, -0.0429,  0.0050,  0.0015, -0.0637],
+       device='cuda:0')
+351
+0.009874639560909117
+changing lr
+epoch 5, time 459.47, cls_loss 1.0654 cls_loss_mapping 0.3856 cls_loss_causal 0.8534 re_mapping 0.0813 re_causal 0.0802 /// teacc 87.76 lr 0.00981981
+Epoch 7, weight, value: tensor([[ 0.0549,  0.0879,  0.0863,  ..., -0.1017, -0.0539, -0.0651],
+        [-0.0344, -0.0332, -0.0379,  ...,  0.0127, -0.0344, -0.0555],
+        [-0.0755, -0.1043, -0.0288,  ...,  0.0488,  0.0471,  0.0302],
+        ...,
+        [-0.0566, -0.0429, -0.0946,  ...,  0.2226,  0.2029,  0.1975],
+        [-0.0994, -0.0767, -0.1050,  ..., -0.0362, -0.0309, -0.0472],
+        [ 0.2068,  0.2035,  0.2478,  ..., -0.1368, -0.1223, -0.1301]],
+       device='cuda:0'), grad: tensor([[ 7.8249e-04,  1.2268e-02,  8.4763e-03,  ...,  2.1000e-03,
+          1.8368e-03,  2.2143e-05],
+        [ 2.2755e-03, -2.3499e-03, -2.3174e-03,  ...,  1.8635e-03,
+          1.3990e-03,  1.8969e-03],
+        [-2.2354e-02, -6.2637e-03, -5.0964e-03,  ..., -1.5762e-02,
+         -1.4175e-02, -1.4099e-02],
+        ...,
+        [ 4.4708e-02,  7.1182e-03,  7.1068e-03,  ...,  1.5640e-02,
+          1.3153e-02,  1.3382e-02],
+        [ 6.7253e-03,  1.3447e-03,  1.3657e-03,  ...,  2.0428e-03,
+          1.7366e-03,  1.7395e-03],
+        [-3.1860e-02, -1.2138e-02, -9.5062e-03,  ..., -5.6725e-03,
+         -3.7727e-03, -2.7790e-03]], device='cuda:0')
+Epoch 7, bias, value: tensor([ 8.7285e-02,  4.8970e-02, -2.6485e-02, -7.2547e-02,  4.0764e-02,
+        -7.1674e-02,  6.8451e-05], device='cuda:0'), grad: tensor([-0.0138,  0.0181, -0.0568, -0.0016,  0.1238,  0.0171, -0.0868],
+       device='cuda:0')
+351
+0.009819814303479266
+changing lr
+---------------------saving model at epoch 6----------------------------------------------------
+epoch 6, time 477.96, cls_loss 1.0015 cls_loss_mapping 0.3225 cls_loss_causal 0.7950 re_mapping 0.0757 re_causal 0.0748 /// teacc 89.45 lr 0.00975528
+Epoch 8, weight, value: tensor([[ 0.0649,  0.0886,  0.0905,  ..., -0.0933, -0.0451, -0.0544],
+        [-0.0321, -0.0221, -0.0337,  ...,  0.0098, -0.0381, -0.0610],
+        [-0.0664, -0.0984, -0.0207,  ...,  0.0456,  0.0438,  0.0272],
+        ...,
+        [-0.0760, -0.0443, -0.1041,  ...,  0.2185,  0.1968,  0.1907],
+        [-0.1151, -0.0945, -0.1203,  ..., -0.0428, -0.0325, -0.0486],
+        [ 0.2118,  0.2046,  0.2565,  ..., -0.1349, -0.1202, -0.1258]],
+       device='cuda:0'), grad: tensor([[-0.0416, -0.0193, -0.0134,  ..., -0.0012, -0.0056, -0.0040],
+        [ 0.0905,  0.0287,  0.0226,  ...,  0.0139,  0.0196,  0.0164],
+        [-0.0774, -0.0162, -0.0107,  ..., -0.0436, -0.0461, -0.0416],
+        ...,
+        [ 0.0465,  0.0097,  0.0076,  ...,  0.0272,  0.0280,  0.0252],
+        [ 0.0043,  0.0008,  0.0009,  ...,  0.0004,  0.0005,  0.0004],
+        [ 0.0296,  0.0056,  0.0058,  ...,  0.0043,  0.0053,  0.0045]],
+       device='cuda:0')
+Epoch 8, bias, value: tensor([ 0.1122,  0.0308, -0.0229, -0.0453, -0.0320, -0.0996,  0.0631],
+       device='cuda:0'), grad: tensor([-0.0638,  0.1936, -0.2052, -0.1436,  0.1318,  0.0110,  0.0763],
+       device='cuda:0')
+351
+0.009755282581475767
+changing lr
+---------------------saving model at epoch 7----------------------------------------------------
+epoch 7, time 466.30, cls_loss 0.9383 cls_loss_mapping 0.2816 cls_loss_causal 0.7420 re_mapping 0.0726 re_causal 0.0719 /// teacc 90.72 lr 0.00968117
+Epoch 9, weight, value: tensor([[ 0.0448,  0.0865,  0.0853,  ..., -0.0989, -0.0473, -0.0619],
+        [-0.0153, -0.0119, -0.0250,  ...,  0.0140, -0.0383, -0.0629],
+        [-0.0815, -0.1158, -0.0369,  ...,  0.0361,  0.0333,  0.0184],
+        ...,
+        [-0.0673, -0.0446, -0.1075,  ...,  0.2281,  0.2029,  0.2002],
+        [-0.1163, -0.0990, -0.1219,  ..., -0.0460, -0.0334, -0.0490],
+        [ 0.2302,  0.2257,  0.2804,  ..., -0.1361, -0.1176, -0.1206]],
+       device='cuda:0'), grad: tensor([[-0.0154, -0.0080, -0.0080,  ..., -0.0005, -0.0012, -0.0014],
+        [-0.1285, -0.0749, -0.0732,  ..., -0.0282, -0.0241, -0.0224],
+        [ 0.0102,  0.0015,  0.0017,  ...,  0.0040,  0.0047,  0.0047],
+        ...,
+        [ 0.0035,  0.0011,  0.0010,  ...,  0.0020,  0.0018,  0.0019],
+        [-0.0031, -0.0006, -0.0004,  ..., -0.0022, -0.0019, -0.0022],
+        [ 0.1428,  0.0818,  0.0801,  ...,  0.0282,  0.0251,  0.0237]],
+       device='cuda:0')
+Epoch 9, bias, value: tensor([ 0.0825,  0.0540, -0.0253, -0.0503,  0.0064, -0.0999,  0.0389],
+       device='cuda:0'), grad: tensor([-0.0338, -0.1520,  0.0375, -0.0391,  0.0083, -0.0089,  0.1877],
+       device='cuda:0')
+351
+0.009681174353198686
+changing lr
+epoch 8, time 457.30, cls_loss 0.9168 cls_loss_mapping 0.2486 cls_loss_causal 0.6940 re_mapping 0.0705 re_causal 0.0699 /// teacc 89.45 lr 0.00959764
+Epoch 10, weight, value: tensor([[ 0.0616,  0.0902,  0.0893,  ..., -0.0925, -0.0466, -0.0544],
+        [-0.0089, -0.0107, -0.0258,  ...,  0.0205, -0.0274, -0.0536],
+        [-0.0959, -0.1238, -0.0456,  ...,  0.0238,  0.0201,  0.0076],
+        ...,
+        [-0.0750, -0.0555, -0.1135,  ...,  0.2347,  0.2103,  0.2042],
+        [-0.1254, -0.1001, -0.1218,  ..., -0.0522, -0.0370, -0.0530],
+        [ 0.2422,  0.2419,  0.2920,  ..., -0.1363, -0.1219, -0.1255]],
+       device='cuda:0'), grad: tensor([[ 0.0249,  0.0033,  0.0034,  ...,  0.0047,  0.0054,  0.0057],
+        [ 0.0396, -0.0003,  0.0007,  ...,  0.0050,  0.0045,  0.0062],
+        [ 0.0081,  0.0005,  0.0006,  ...,  0.0017,  0.0016,  0.0020],
+        ...,
+        [ 0.0103,  0.0006,  0.0007,  ...,  0.0019,  0.0019,  0.0023],
+        [-0.0485, -0.0009, -0.0027,  ..., -0.0031, -0.0037, -0.0040],
+        [-0.0359, -0.0033, -0.0029,  ..., -0.0103, -0.0098, -0.0125]],
+       device='cuda:0')
+Epoch 10, bias, value: tensor([ 0.1217,  0.0584, -0.0049, -0.0743,  0.0097, -0.1383,  0.0338],
+       device='cuda:0'), grad: tensor([ 0.0745,  0.1572,  0.0306,  0.0054,  0.0381, -0.1594, -0.1465],
+       device='cuda:0')
+351
+0.009597638862757255
+changing lr
+epoch 9, time 457.42, cls_loss 0.8592 cls_loss_mapping 0.1933 cls_loss_causal 0.6774 re_mapping 0.0673 re_causal 0.0670 /// teacc 88.61 lr 0.00950484
+Epoch 11, weight, value: tensor([[ 0.0643,  0.1038,  0.1043,  ..., -0.0973, -0.0506, -0.0589],
+        [-0.0010, -0.0037, -0.0205,  ...,  0.0105, -0.0346, -0.0592],
+        [-0.0882, -0.1223, -0.0478,  ...,  0.0199,  0.0147,  0.0047],
+        ...,
+        [-0.0902, -0.0643, -0.1170,  ...,  0.2374,  0.2083,  0.2027],
+        [-0.1183, -0.1034, -0.1258,  ..., -0.0536, -0.0353, -0.0542],
+        [ 0.2282,  0.2245,  0.2763,  ..., -0.1225, -0.1108, -0.1114]],
+       device='cuda:0'), grad: tensor([[ 0.0701,  0.0248,  0.0201,  ...,  0.0127,  0.0095,  0.0115],
+        [-0.0924, -0.0314, -0.0219,  ..., -0.0192, -0.0145, -0.0182],
+        [ 0.0124,  0.0033,  0.0027,  ...,  0.0031,  0.0026,  0.0032],
+        ...,
+        [-0.0157, -0.0036, -0.0056,  ..., -0.0036, -0.0031, -0.0036],
+        [ 0.0033,  0.0005,  0.0003,  ...,  0.0012,  0.0011,  0.0013],
+        [ 0.0139,  0.0050,  0.0036,  ...,  0.0027,  0.0020,  0.0024]],
+       device='cuda:0')
+Epoch 11, bias, value: tensor([ 0.0907,  0.0169,  0.0257, -0.0802, -0.0010, -0.0951,  0.0487],
+       device='cuda:0'), grad: tensor([ 0.1639, -0.2620,  0.0410,  0.0402, -0.0359,  0.0166,  0.0362],
+       device='cuda:0')
+351
+0.009504844339512096
+changing lr
+---------------------saving model at epoch 10----------------------------------------------------
+epoch 10, time 491.29, cls_loss 0.7936 cls_loss_mapping 0.1598 cls_loss_causal 0.6359 re_mapping 0.0659 re_causal 0.0657 /// teacc 93.25 lr 0.00940298
+Epoch 12, weight, value: tensor([[ 0.0680,  0.1098,  0.1112,  ..., -0.1094, -0.0676, -0.0732],
+        [ 0.0134,  0.0153, -0.0036,  ...,  0.0270, -0.0165, -0.0381],
+        [-0.0819, -0.1168, -0.0428,  ...,  0.0209,  0.0114,  0.0044],
+        ...,
+        [-0.1039, -0.0819, -0.1330,  ...,  0.2341,  0.2118,  0.1979],
+        [-0.1212, -0.1121, -0.1307,  ..., -0.0488, -0.0290, -0.0477],
+        [ 0.2329,  0.2272,  0.2760,  ..., -0.1301, -0.1193, -0.1201]],
+       device='cuda:0'), grad: tensor([[-0.0030, -0.0025, -0.0019,  ..., -0.0010, -0.0001, -0.0004],
+        [ 0.0583,  0.0169,  0.0160,  ...,  0.0170,  0.0217,  0.0186],
+        [-0.0654, -0.0178, -0.0164,  ..., -0.0205, -0.0263, -0.0218],
+        ...,
+        [ 0.0065,  0.0021,  0.0019,  ...,  0.0019,  0.0023,  0.0020],
+        [ 0.0493,  0.0177,  0.0193,  ...,  0.0081,  0.0109,  0.0118],
+        [-0.0464, -0.0167, -0.0191,  ..., -0.0057, -0.0087, -0.0104]],
+       device='cuda:0')
+Epoch 12, bias, value: tensor([ 0.0939, -0.0240,  0.0444, -0.0815,  0.0169, -0.1136,  0.0695],
+       device='cuda:0'), grad: tensor([-0.0022,  0.1344, -0.1473,  0.0016,  0.0144,  0.1356, -0.1366],
+       device='cuda:0')
+351
+0.009402977659283692
+changing lr
+epoch 11, time 490.75, cls_loss 0.8230 cls_loss_mapping 0.1578 cls_loss_causal 0.6378 re_mapping 0.0646 re_causal 0.0649 /// teacc 92.41 lr 0.00929224
+Epoch 13, weight, value: tensor([[ 0.0737,  0.1132,  0.1151,  ..., -0.1199, -0.0811, -0.0824],
+        [ 0.0271,  0.0248,  0.0005,  ...,  0.0208, -0.0235, -0.0444],
+        [-0.1050, -0.1329, -0.0579,  ...,  0.0300,  0.0240,  0.0139],
+        ...,
+        [-0.0909, -0.0577, -0.1064,  ...,  0.2334,  0.2090,  0.1935],
+        [-0.1310, -0.1241, -0.1420,  ..., -0.0590, -0.0379, -0.0564],
+        [ 0.2394,  0.2246,  0.2734,  ..., -0.1146, -0.1031, -0.1028]],
+       device='cuda:0'), grad: tensor([[-1.9699e-02, -1.4786e-02, -1.4832e-02,  ..., -1.6251e-03,
+         -8.1015e-04, -8.1015e-04],
+        [-5.0049e-02, -2.5574e-02, -2.5253e-02,  ..., -9.5978e-03,
+         -6.5918e-03, -9.6207e-03],
+        [-2.5406e-03, -3.2496e-04, -9.6440e-05,  ..., -3.2921e-03,
+         -3.3913e-03, -3.0384e-03],
+        ...,
+        [ 3.4580e-03,  1.0004e-03,  8.5354e-04,  ...,  2.6550e-03,
+          2.7409e-03,  2.5120e-03],
+        [ 3.2921e-03,  1.3380e-03,  1.3056e-03,  ...,  1.2970e-03,
+          1.3342e-03,  1.2941e-03],
+        [ 5.7190e-02,  3.5034e-02,  3.4790e-02,  ...,  7.1335e-03,
+          3.1414e-03,  6.2408e-03]], device='cuda:0')
+Epoch 13, bias, value: tensor([ 0.0741, -0.0129,  0.0747, -0.0644, -0.0005, -0.1224,  0.0573],
+       device='cuda:0'), grad: tensor([-0.0059, -0.1304, -0.0110,  0.0266,  0.0126,  0.0104,  0.0976],
+       device='cuda:0')
+351
+0.009292243968009333
+changing lr
+epoch 12, time 460.92, cls_loss 0.7735 cls_loss_mapping 0.1483 cls_loss_causal 0.6223 re_mapping 0.0615 re_causal 0.0620 /// teacc 93.25 lr 0.00917287
+Epoch 14, weight, value: tensor([[ 0.0712,  0.1053,  0.1101,  ..., -0.1162, -0.0842, -0.0809],
+        [ 0.0167,  0.0321,  0.0064,  ...,  0.0058, -0.0337, -0.0583],
+        [-0.1075, -0.1378, -0.0647,  ...,  0.0199,  0.0130,  0.0050],
+        ...,
+        [-0.0950, -0.0674, -0.1157,  ...,  0.2458,  0.2237,  0.2078],
+        [-0.1326, -0.1232, -0.1416,  ..., -0.0596, -0.0380, -0.0559],
+        [ 0.2534,  0.2394,  0.2884,  ..., -0.1064, -0.0956, -0.0966]],
+       device='cuda:0'), grad: tensor([[ 0.0307,  0.0057,  0.0047,  ...,  0.0100,  0.0096,  0.0107],
+        [ 0.0025,  0.0003,  0.0003,  ...,  0.0008,  0.0007,  0.0008],
+        [ 0.0015,  0.0007,  0.0005,  ...,  0.0005,  0.0005,  0.0005],
+        ...,
+        [-0.0540, -0.0321, -0.0222,  ..., -0.0204, -0.0202, -0.0206],
+        [ 0.0053,  0.0024,  0.0017,  ...,  0.0019,  0.0019,  0.0020],
+        [-0.0352,  0.0005, -0.0059,  ..., -0.0050, -0.0028, -0.0059]],
+       device='cuda:0')
+Epoch 14, bias, value: tensor([ 0.0202, -0.0516,  0.0680, -0.0728,  0.0877, -0.1246,  0.0788],
+       device='cuda:0'), grad: tensor([ 0.0703,  0.0054,  0.0042,  0.1669, -0.1627,  0.0146, -0.0989],
+       device='cuda:0')
+351
+0.009172866268606516
+changing lr
+epoch 13, time 462.09, cls_loss 0.7620 cls_loss_mapping 0.1233 cls_loss_causal 0.6197 re_mapping 0.0588 re_causal 0.0595 /// teacc 91.98 lr 0.00904508
+Epoch 15, weight, value: tensor([[ 0.0808,  0.1197,  0.1267,  ..., -0.1143, -0.0818, -0.0780],
+        [ 0.0111,  0.0269, -0.0025,  ...,  0.0102, -0.0305, -0.0546],
+        [-0.1028, -0.1398, -0.0689,  ...,  0.0264,  0.0177,  0.0097],
+        ...,
+        [-0.0871, -0.0677, -0.1127,  ...,  0.2317,  0.2121,  0.1945],
+        [-0.1379, -0.1324, -0.1500,  ..., -0.0588, -0.0378, -0.0550],
+        [ 0.2515,  0.2444,  0.2914,  ..., -0.1100, -0.0986, -0.0984]],
+       device='cuda:0'), grad: tensor([[-0.0426, -0.0110, -0.0105,  ..., -0.0102, -0.0109, -0.0112],
+        [ 0.0199,  0.0050,  0.0053,  ...,  0.0039,  0.0041,  0.0043],
+        [ 0.0084,  0.0126,  0.0110,  ...,  0.0029,  0.0045,  0.0040],
+        ...,
+        [ 0.0091,  0.0016,  0.0020,  ...,  0.0009,  0.0010,  0.0010],
+        [ 0.0024,  0.0003,  0.0005,  ...,  0.0002,  0.0002,  0.0002],
+        [ 0.0011, -0.0087, -0.0086,  ...,  0.0022,  0.0010,  0.0016]],
+       device='cuda:0')
+Epoch 15, bias, value: tensor([ 0.0374,  0.0071,  0.0451, -0.0933,  0.1140, -0.1548,  0.0502],
+       device='cuda:0'), grad: tensor([-0.0775,  0.0514,  0.0053,  0.0065,  0.0319,  0.0093, -0.0267],
+       device='cuda:0')
+351
+0.00904508497187474
+changing lr
+---------------------saving model at epoch 14----------------------------------------------------
+epoch 14, time 472.46, cls_loss 0.7408 cls_loss_mapping 0.1065 cls_loss_causal 0.5690 re_mapping 0.0579 re_causal 0.0588 /// teacc 94.94 lr 0.00890916
+Epoch 16, weight, value: tensor([[ 0.0860,  0.1260,  0.1347,  ..., -0.1236, -0.0935, -0.0922],
+        [ 0.0192,  0.0314,  0.0028,  ...,  0.0110, -0.0290, -0.0497],
+        [-0.1128, -0.1443, -0.0762,  ...,  0.0340,  0.0210,  0.0158],
+        ...,
+        [-0.0930, -0.0721, -0.1153,  ...,  0.2244,  0.2080,  0.1882],
+        [-0.1280, -0.1261, -0.1432,  ..., -0.0523, -0.0311, -0.0486],
+        [ 0.2398,  0.2316,  0.2763,  ..., -0.1097, -0.0965, -0.0958]],
+       device='cuda:0'), grad: tensor([[-0.0556,  0.0019,  0.0036,  ...,  0.0028,  0.0055,  0.0036],
+        [ 0.0114,  0.0009,  0.0012,  ...,  0.0011,  0.0013,  0.0013],
+        [-0.1007, -0.0555, -0.0517,  ..., -0.0455, -0.0462, -0.0456],
+        ...,
+        [ 0.1152,  0.0490,  0.0454,  ...,  0.0388,  0.0393,  0.0397],
+        [ 0.0142,  0.0018, -0.0003,  ...,  0.0012, -0.0015, -0.0007],
+        [ 0.0127,  0.0016,  0.0016,  ...,  0.0014,  0.0013,  0.0015]],
+       device='cuda:0')
+Epoch 16, bias, value: tensor([ 0.0193,  0.0534,  0.0063, -0.0628,  0.1263, -0.1374,  0.0003],
+       device='cuda:0'), grad: tensor([-0.0983,  0.0418, -0.1737,  0.0095,  0.2297, -0.0454,  0.0363],
+       device='cuda:0')
+351
+0.008909157412340152
+changing lr
+epoch 15, time 460.77, cls_loss 0.6646 cls_loss_mapping 0.0977 cls_loss_causal 0.5495 re_mapping 0.0568 re_causal 0.0579 /// teacc 94.51 lr 0.00876536
+Epoch 17, weight, value: tensor([[ 0.0930,  0.1220,  0.1311,  ..., -0.1227, -0.0913, -0.0906],
+        [ 0.0070,  0.0179, -0.0117,  ..., -0.0007, -0.0380, -0.0598],
+        [-0.1062, -0.1297, -0.0622,  ...,  0.0399,  0.0266,  0.0208],
+        ...,
+        [-0.1014, -0.0769, -0.1211,  ...,  0.2347,  0.2196,  0.1961],
+        [-0.1313, -0.1291, -0.1457,  ..., -0.0550, -0.0357, -0.0516],
+        [ 0.2479,  0.2445,  0.2907,  ..., -0.1116, -0.1021, -0.0951]],
+       device='cuda:0'), grad: tensor([[-0.0315, -0.0099, -0.0091,  ..., -0.0027, -0.0013, -0.0031],
+        [-0.0529, -0.0048, -0.0048,  ..., -0.0070, -0.0114, -0.0073],
+        [ 0.0393,  0.0055,  0.0052,  ...,  0.0070,  0.0092,  0.0078],
+        ...,
+        [ 0.0182,  0.0028,  0.0026,  ...,  0.0037,  0.0046,  0.0041],
+        [ 0.0131,  0.0018,  0.0017,  ...,  0.0027,  0.0034,  0.0030],
+        [ 0.0437,  0.0066,  0.0062,  ...,  0.0076,  0.0097,  0.0084]],
+       device='cuda:0')
+Epoch 17, bias, value: tensor([ 0.0449,  0.0357,  0.0187, -0.0637,  0.0998, -0.1406,  0.0107],
+       device='cuda:0'), grad: tensor([-0.0880, -0.1160,  0.1132, -0.1338,  0.0570,  0.0413,  0.1261],
+       device='cuda:0')
+351
+0.00876535733001806
+changing lr
+epoch 16, time 465.89, cls_loss 0.6925 cls_loss_mapping 0.0987 cls_loss_causal 0.5503 re_mapping 0.0568 re_causal 0.0585 /// teacc 91.98 lr 0.00861397
+Epoch 18, weight, value: tensor([[ 0.1024,  0.1331,  0.1439,  ..., -0.1313, -0.0966, -0.0962],
+        [ 0.0140,  0.0279, -0.0008,  ...,  0.0092, -0.0299, -0.0534],
+        [-0.1111, -0.1446, -0.0801,  ...,  0.0487,  0.0314,  0.0291],
+        ...,
+        [-0.0910, -0.0691, -0.1122,  ...,  0.2354,  0.2238,  0.1972],
+        [-0.1422, -0.1346, -0.1528,  ..., -0.0509, -0.0317, -0.0473],
+        [ 0.2423,  0.2381,  0.2834,  ..., -0.1208, -0.1132, -0.1040]],
+       device='cuda:0'), grad: tensor([[ 2.5616e-03, -2.0480e-04, -2.0373e-04,  ...,  2.4724e-04,
+          2.4962e-04,  3.6049e-04],
+        [ 2.8591e-03,  7.7248e-05,  5.2243e-05,  ...,  2.8443e-04,
+          2.5654e-04,  3.5858e-04],
+        [ 3.4668e-02,  2.0065e-03,  2.5444e-03,  ...,  1.3321e-02,
+          1.4473e-02,  1.4191e-02],
+        ...,
+        [-5.7068e-02, -2.7008e-03, -3.2787e-03,  ..., -1.7975e-02,
+         -1.9302e-02, -1.9455e-02],
+        [ 7.1335e-03,  3.4857e-04,  3.8457e-04,  ...,  1.8444e-03,
+          1.9474e-03,  2.0237e-03],
+        [ 7.7477e-03,  3.7432e-04,  4.0698e-04,  ...,  1.9255e-03,
+          2.0256e-03,  2.1191e-03]], device='cuda:0')
+Epoch 18, bias, value: tensor([ 0.0403,  0.0571,  0.0588, -0.0881,  0.1096, -0.1411, -0.0314],
+       device='cuda:0'), grad: tensor([ 0.0136,  0.0117,  0.1342,  0.0083, -0.2264,  0.0282,  0.0306],
+       device='cuda:0')
+351
+0.008613974319136962
+changing lr
+epoch 17, time 466.31, cls_loss 0.6532 cls_loss_mapping 0.0854 cls_loss_causal 0.5362 re_mapping 0.0548 re_causal 0.0569 /// teacc 92.83 lr 0.00845531
+Epoch 19, weight, value: tensor([[ 0.0793,  0.1129,  0.1227,  ..., -0.1167, -0.0835, -0.0819],
+        [ 0.0388,  0.0452,  0.0196,  ...,  0.0097, -0.0300, -0.0514],
+        [-0.1113, -0.1436, -0.0797,  ...,  0.0474,  0.0283,  0.0271],
+        ...,
+        [-0.0879, -0.0608, -0.1025,  ...,  0.2219,  0.2127,  0.1824],
+        [-0.1320, -0.1280, -0.1462,  ..., -0.0533, -0.0343, -0.0496],
+        [ 0.2354,  0.2309,  0.2740,  ..., -0.1180, -0.1083, -0.1000]],
+       device='cuda:0'), grad: tensor([[ 3.0518e-02,  1.5930e-02,  1.6586e-02,  ...,  7.8812e-03,
+          9.7656e-03,  8.6517e-03],
+        [-1.5710e-01, -8.1665e-02, -8.2581e-02,  ..., -2.2278e-02,
+         -3.1174e-02, -2.6413e-02],
+        [ 2.7323e-04,  1.5306e-04,  1.5390e-04,  ...,  1.7881e-05,
+          4.6700e-05,  4.0829e-05],
+        ...,
+        [ 3.8147e-04,  1.9896e-04,  2.0659e-04,  ...,  9.7275e-05,
+          1.1933e-04,  1.0532e-04],
+        [ 8.2922e-04,  3.8838e-04,  4.0102e-04,  ...,  1.2839e-04,
+          1.8287e-04,  1.5914e-04],
+        [ 1.2494e-01,  6.4941e-02,  6.5186e-02,  ...,  1.4130e-02,
+          2.1027e-02,  1.7426e-02]], device='cuda:0')
+Epoch 19, bias, value: tensor([ 0.1005,  0.0668,  0.0309, -0.0958,  0.0496, -0.1543,  0.0074],
+       device='cuda:0'), grad: tensor([ 6.3904e-02, -3.1030e-01,  4.8876e-04,  2.2018e-04,  8.0013e-04,
+         1.7385e-03,  2.4304e-01], device='cuda:0')
+351
+0.008455313244934327
+changing lr
+epoch 18, time 453.14, cls_loss 0.6384 cls_loss_mapping 0.0746 cls_loss_causal 0.5247 re_mapping 0.0514 re_causal 0.0538 /// teacc 92.41 lr 0.00828969
+Epoch 20, weight, value: tensor([[ 0.0773,  0.1146,  0.1213,  ..., -0.1135, -0.0782, -0.0782],
+        [ 0.0322,  0.0353,  0.0119,  ...,  0.0057, -0.0342, -0.0559],
+        [-0.1192, -0.1432, -0.0812,  ...,  0.0436,  0.0223,  0.0196],
+        ...,
+        [-0.0818, -0.0672, -0.1078,  ...,  0.2238,  0.2135,  0.1863],
+        [-0.1370, -0.1316, -0.1486,  ..., -0.0539, -0.0329, -0.0475],
+        [ 0.2412,  0.2414,  0.2843,  ..., -0.1208, -0.1119, -0.1022]],
+       device='cuda:0'), grad: tensor([[ 0.0275,  0.0066,  0.0075,  ...,  0.0096,  0.0096,  0.0084],
+        [-0.0105, -0.0037, -0.0049,  ..., -0.0021, -0.0025, -0.0028],
+        [ 0.0205,  0.0045,  0.0050,  ...,  0.0025,  0.0024,  0.0022],
+        ...,
+        [-0.0014, -0.0009, -0.0012,  ..., -0.0087, -0.0079, -0.0073],
+        [ 0.0070,  0.0015,  0.0016,  ...,  0.0014,  0.0012,  0.0011],
+        [-0.0478, -0.0090, -0.0091,  ..., -0.0035, -0.0033, -0.0022]],
+       device='cuda:0')
+Epoch 20, bias, value: tensor([ 0.1254,  0.0328,  0.0425, -0.1103,  0.0859, -0.1359, -0.0353],
+       device='cuda:0'), grad: tensor([ 0.0652, -0.0486,  0.0565,  0.0126,  0.0041,  0.0189, -0.1088],
+       device='cuda:0')
+351
+0.008289693629698565
+changing lr
+epoch 19, time 456.94, cls_loss 0.6319 cls_loss_mapping 0.0668 cls_loss_causal 0.5141 re_mapping 0.0482 re_causal 0.0505 /// teacc 93.67 lr 0.00811745
+Epoch 21, weight, value: tensor([[ 0.0875,  0.1229,  0.1279,  ..., -0.1286, -0.0939, -0.0939],
+        [ 0.0388,  0.0405,  0.0184,  ...,  0.0148, -0.0269, -0.0504],
+        [-0.1176, -0.1480, -0.0880,  ...,  0.0350,  0.0115,  0.0123],
+        ...,
+        [-0.0930, -0.0787, -0.1180,  ...,  0.2388,  0.2320,  0.2003],
+        [-0.1402, -0.1350, -0.1519,  ..., -0.0564, -0.0359, -0.0484],
+        [ 0.2400,  0.2482,  0.2920,  ..., -0.1189, -0.1097, -0.0990]],
+       device='cuda:0'), grad: tensor([[ 0.0432,  0.0074,  0.0075,  ...,  0.0051,  0.0045,  0.0048],
+        [ 0.0006,  0.0011,  0.0003,  ...,  0.0105,  0.0084,  0.0091],
+        [-0.0378, -0.0045, -0.0027,  ..., -0.0019, -0.0024, -0.0023],
+        ...,
+        [-0.0228, -0.0067, -0.0080,  ..., -0.0146, -0.0113, -0.0126],
+        [ 0.0097,  0.0014,  0.0013,  ...,  0.0003,  0.0004,  0.0004],
+        [ 0.0059,  0.0011,  0.0013,  ...,  0.0006,  0.0005,  0.0006]],
+       device='cuda:0')
+Epoch 21, bias, value: tensor([ 0.1568,  0.0548,  0.0518, -0.1120,  0.0586, -0.1590, -0.0461],
+       device='cuda:0'), grad: tensor([ 0.1083, -0.0196, -0.1046,  0.0032, -0.0282,  0.0263,  0.0146],
+       device='cuda:0')
+351
+0.00811744900929367
+changing lr
+epoch 20, time 462.77, cls_loss 0.6363 cls_loss_mapping 0.0627 cls_loss_causal 0.5134 re_mapping 0.0464 re_causal 0.0487 /// teacc 92.83 lr 0.00793893
+Epoch 22, weight, value: tensor([[ 0.0910,  0.1284,  0.1327,  ..., -0.1188, -0.0841, -0.0840],
+        [ 0.0375,  0.0474,  0.0246,  ...,  0.0072, -0.0355, -0.0585],
+        [-0.1276, -0.1541, -0.0942,  ...,  0.0455,  0.0222,  0.0223],
+        ...,
+        [-0.0989, -0.0816, -0.1210,  ...,  0.2294,  0.2248,  0.1913],
+        [-0.1347, -0.1373, -0.1531,  ..., -0.0634, -0.0430, -0.0538],
+        [ 0.2459,  0.2472,  0.2907,  ..., -0.1150, -0.1054, -0.0951]],
+       device='cuda:0'), grad: tensor([[ 0.0131,  0.0014,  0.0015,  ...,  0.0026,  0.0017,  0.0028],
+        [ 0.0034,  0.0003,  0.0004,  ...,  0.0007,  0.0005,  0.0008],
+        [ 0.0068,  0.0006,  0.0007,  ...,  0.0014,  0.0009,  0.0015],
+        ...,
+        [ 0.0066,  0.0006,  0.0007,  ...,  0.0014,  0.0010,  0.0015],
+        [-0.0016, -0.0025, -0.0024,  ..., -0.0007, -0.0003, -0.0003],
+        [-0.0304, -0.0007, -0.0012,  ..., -0.0060, -0.0041, -0.0067]],
+       device='cuda:0')
+Epoch 22, bias, value: tensor([ 0.1291,  0.0517,  0.0411, -0.1222,  0.0373, -0.1725,  0.0404],
+       device='cuda:0'), grad: tensor([ 0.0381,  0.0101,  0.0201,  0.0058,  0.0195, -0.0015, -0.0922],
+       device='cuda:0')
+351
+0.007938926261462368
+changing lr
+epoch 21, time 460.78, cls_loss 0.5871 cls_loss_mapping 0.0636 cls_loss_causal 0.4842 re_mapping 0.0439 re_causal 0.0461 /// teacc 92.41 lr 0.00775448
+Epoch 23, weight, value: tensor([[ 0.0835,  0.1174,  0.1245,  ..., -0.1209, -0.0836, -0.0871],
+        [ 0.0375,  0.0473,  0.0242,  ..., -0.0004, -0.0434, -0.0645],
+        [-0.1372, -0.1573, -0.0987,  ...,  0.0525,  0.0286,  0.0305],
+        ...,
+        [-0.0870, -0.0721, -0.1103,  ...,  0.2329,  0.2267,  0.1933],
+        [-0.1402, -0.1364, -0.1522,  ..., -0.0568, -0.0369, -0.0478],
+        [ 0.2502,  0.2541,  0.2947,  ..., -0.1232, -0.1126, -0.1034]],
+       device='cuda:0'), grad: tensor([[-7.4530e-04, -9.7370e-04, -1.0433e-03,  ..., -4.1556e-04,
+         -6.8092e-04, -5.4455e-04],
+        [-1.8906e-02, -5.6297e-05, -3.3855e-04,  ..., -4.0150e-04,
+          2.5177e-04, -4.4250e-04],
+        [ 5.4626e-03,  4.9257e-04,  5.7459e-04,  ...,  4.4131e-04,
+          3.4881e-04,  4.7064e-04],
+        ...,
+        [-8.3435e-02, -2.8427e-02, -2.8778e-02,  ..., -2.4368e-02,
+         -2.5787e-02, -2.4261e-02],
+        [ 4.0771e-02,  1.2375e-02,  1.2611e-02,  ...,  1.0612e-02,
+          1.1108e-02,  1.0605e-02],
+        [ 4.9072e-02,  1.5022e-02,  1.5312e-02,  ...,  1.2833e-02,
+          1.3466e-02,  1.2840e-02]], device='cuda:0')
+Epoch 23, bias, value: tensor([ 0.0863,  0.0867,  0.0736, -0.1118,  0.0257, -0.1758,  0.0200],
+       device='cuda:0'), grad: tensor([ 0.0110, -0.1345,  0.0310,  0.0308, -0.1381,  0.0917,  0.1082],
+       device='cuda:0')
+351
+0.007754484907260515
+changing lr
+epoch 22, time 454.57, cls_loss 0.5775 cls_loss_mapping 0.0581 cls_loss_causal 0.4841 re_mapping 0.0431 re_causal 0.0455 /// teacc 94.94 lr 0.00756450
+Epoch 24, weight, value: tensor([[ 0.0814,  0.1069,  0.1158,  ..., -0.1164, -0.0816, -0.0808],
+        [ 0.0605,  0.0631,  0.0395,  ...,  0.0031, -0.0378, -0.0613],
+        [-0.1374, -0.1599, -0.1019,  ...,  0.0485,  0.0225,  0.0257],
+        ...,
+        [-0.1088, -0.0856, -0.1227,  ...,  0.2343,  0.2332,  0.1962],
+        [-0.1454, -0.1379, -0.1532,  ..., -0.0582, -0.0403, -0.0507],
+        [ 0.2648,  0.2669,  0.3054,  ..., -0.1275, -0.1165, -0.1078]],
+       device='cuda:0'), grad: tensor([[-4.0855e-03, -1.8330e-03, -1.7166e-03,  ..., -1.4143e-03,
+         -1.4839e-03, -1.4172e-03],
+        [ 1.3496e-02,  6.5193e-03,  6.3667e-03,  ...,  2.0733e-03,
+          2.4357e-03,  2.0447e-03],
+        [ 3.7193e-03,  9.3508e-04,  8.9121e-04,  ...,  1.2684e-03,
+          1.2207e-03,  1.2884e-03],
+        ...,
+        [-2.6474e-03, -7.9274e-05, -4.5538e-05,  ..., -1.6451e-03,
+         -1.5097e-03, -1.6422e-03],
+        [ 1.2598e-03,  6.6328e-04,  6.5756e-04,  ...,  6.1393e-05,
+          1.0055e-04,  6.0290e-05],
+        [-1.2215e-02, -6.4468e-03, -6.3972e-03,  ..., -3.7169e-04,
+         -8.0824e-04, -3.6192e-04]], device='cuda:0')
+Epoch 24, bias, value: tensor([ 0.0637,  0.0984,  0.0842, -0.1294,  0.0532, -0.1779,  0.0124],
+       device='cuda:0'), grad: tensor([-0.0053,  0.0331,  0.0095,  0.0014, -0.0061,  0.0035, -0.0361],
+       device='cuda:0')
+351
+0.007564496387029534
+changing lr
+---------------------saving model at epoch 23----------------------------------------------------
+epoch 23, time 471.47, cls_loss 0.5593 cls_loss_mapping 0.0480 cls_loss_causal 0.4802 re_mapping 0.0424 re_causal 0.0454 /// teacc 95.36 lr 0.00736934
+Epoch 25, weight, value: tensor([[ 0.0666,  0.1027,  0.1115,  ..., -0.1122, -0.0832, -0.0795],
+        [ 0.0456,  0.0493,  0.0267,  ...,  0.0061, -0.0313, -0.0559],
+        [-0.1428, -0.1618, -0.1034,  ...,  0.0549,  0.0288,  0.0301],
+        ...,
+        [-0.0951, -0.0808, -0.1195,  ...,  0.2271,  0.2263,  0.1892],
+        [-0.1312, -0.1330, -0.1471,  ..., -0.0593, -0.0403, -0.0500],
+        [ 0.2674,  0.2763,  0.3117,  ..., -0.1346, -0.1240, -0.1143]],
+       device='cuda:0'), grad: tensor([[ 2.3365e-03,  5.4389e-05,  3.8713e-05,  ...,  2.2554e-04,
+          2.2817e-04,  2.4891e-04],
+        [ 2.3842e-03,  2.0713e-05,  2.7157e-06,  ...,  2.2912e-04,
+          2.3007e-04,  2.5415e-04],
+        [ 3.4809e-03,  3.1561e-05,  5.4203e-06,  ...,  3.3545e-04,
+          3.3689e-04,  3.7193e-04],
+        ...,
+        [ 2.3232e-03,  2.1130e-05,  3.6024e-06,  ...,  2.2185e-04,
+          2.2292e-04,  2.4629e-04],
+        [ 2.9011e-03,  1.1690e-05, -1.1705e-05,  ...,  2.7752e-04,
+          2.7561e-04,  3.0589e-04],
+        [-1.5144e-02, -1.5497e-04, -4.1366e-05,  ..., -1.4544e-03,
+         -1.4601e-03, -1.6108e-03]], device='cuda:0')
+Epoch 25, bias, value: tensor([ 0.1030,  0.0281,  0.0777, -0.1310,  0.0561, -0.1617,  0.0323],
+       device='cuda:0'), grad: tensor([ 0.0212,  0.0221,  0.0322,  0.0159,  0.0215,  0.0271, -0.1400],
+       device='cuda:0')
+351
+0.007369343312364995
+changing lr
+epoch 24, time 454.47, cls_loss 0.5492 cls_loss_mapping 0.0478 cls_loss_causal 0.4606 re_mapping 0.0398 re_causal 0.0427 /// teacc 93.25 lr 0.00716942
+Epoch 26, weight, value: tensor([[ 0.0846,  0.1120,  0.1198,  ..., -0.1081, -0.0810, -0.0767],
+        [ 0.0604,  0.0579,  0.0381,  ...,  0.0059, -0.0270, -0.0536],
+        [-0.1539, -0.1669, -0.1083,  ...,  0.0452,  0.0212,  0.0229],
+        ...,
+        [-0.1012, -0.0814, -0.1210,  ...,  0.2350,  0.2325,  0.1950],
+        [-0.1347, -0.1346, -0.1495,  ..., -0.0625, -0.0456, -0.0540],
+        [ 0.2596,  0.2675,  0.3029,  ..., -0.1327, -0.1229, -0.1124]],
+       device='cuda:0'), grad: tensor([[ 4.6051e-02,  8.4534e-03,  8.5526e-03,  ...,  1.4534e-02,
+          1.4198e-02,  1.3107e-02],
+        [ 9.7122e-03,  2.7504e-03,  2.8305e-03,  ...,  2.6855e-03,
+          2.6646e-03,  2.4738e-03],
+        [ 3.0303e-04,  3.5703e-05,  4.1157e-05,  ...,  2.0325e-04,
+          2.1505e-04,  1.9872e-04],
+        ...,
+        [-7.3059e-02, -1.6174e-02, -1.6495e-02,  ..., -2.1927e-02,
+         -2.1530e-02, -1.9913e-02],
+        [ 1.9350e-03,  4.6825e-04,  4.8089e-04,  ...,  5.9748e-04,
+          5.9032e-04,  5.4836e-04],
+        [ 1.4565e-02,  4.2839e-03,  4.4022e-03,  ...,  3.7689e-03,
+          3.7231e-03,  3.4561e-03]], device='cuda:0')
+Epoch 26, bias, value: tensor([ 0.1140,  0.0628,  0.0851, -0.1469,  0.0409, -0.2033,  0.0519],
+       device='cuda:0'), grad: tensor([ 0.0742,  0.0178,  0.0007,  0.0010, -0.1237,  0.0035,  0.0264],
+       device='cuda:0')
+351
+0.0071694186955877925
+changing lr
+epoch 25, time 451.05, cls_loss 0.5494 cls_loss_mapping 0.0475 cls_loss_causal 0.4627 re_mapping 0.0388 re_causal 0.0421 /// teacc 94.09 lr 0.00696513
+Epoch 27, weight, value: tensor([[ 0.0843,  0.1085,  0.1170,  ..., -0.1059, -0.0791, -0.0737],
+        [ 0.0593,  0.0604,  0.0416,  ...,  0.0026, -0.0266, -0.0574],
+        [-0.1466, -0.1634, -0.1042,  ...,  0.0470,  0.0230,  0.0245],
+        ...,
+        [-0.1004, -0.0784, -0.1180,  ...,  0.2380,  0.2365,  0.1980],
+        [-0.1491, -0.1434, -0.1604,  ..., -0.0668, -0.0514, -0.0584],
+        [ 0.2614,  0.2704,  0.3041,  ..., -0.1309, -0.1237, -0.1105]],
+       device='cuda:0'), grad: tensor([[-3.4210e-02, -1.7059e-02, -1.8082e-02,  ..., -4.6921e-03,
+         -6.7749e-03, -3.6659e-03],
+        [ 8.7967e-03,  4.4746e-03,  4.5586e-03,  ...,  1.7738e-03,
+          1.9331e-03,  1.3647e-03],
+        [ 7.3671e-04,  3.7098e-04,  3.9268e-04,  ...,  1.3614e-04,
+          1.7464e-04,  1.0687e-04],
+        ...,
+        [ 2.2316e-03,  1.1559e-03,  1.2159e-03,  ...,  1.1045e-04,
+          2.5821e-04,  6.0886e-05],
+        [ 6.4802e-04,  3.2425e-04,  3.4285e-04,  ...,  1.0413e-04,
+          1.4031e-04,  8.1718e-05],
+        [ 2.5375e-02,  1.2604e-02,  1.3321e-02,  ...,  3.4485e-03,
+          4.9629e-03,  2.7084e-03]], device='cuda:0')
+Epoch 27, bias, value: tensor([ 0.1785,  0.0334,  0.0907, -0.1505, -0.0235, -0.1877,  0.0639],
+       device='cuda:0'), grad: tensor([-0.0586,  0.0157,  0.0012, -0.0075,  0.0039,  0.0011,  0.0441],
+       device='cuda:0')
+351
+0.0069651251582696205
+changing lr
+epoch 26, time 449.02, cls_loss 0.5686 cls_loss_mapping 0.0428 cls_loss_causal 0.4624 re_mapping 0.0377 re_causal 0.0417 /// teacc 94.09 lr 0.00675687
+Epoch 28, weight, value: tensor([[ 0.0741,  0.1080,  0.1155,  ..., -0.1120, -0.0879, -0.0821],
+        [ 0.0449,  0.0501,  0.0321,  ..., -0.0025, -0.0308, -0.0609],
+        [-0.1450, -0.1631, -0.1054,  ...,  0.0535,  0.0292,  0.0308],
+        ...,
+        [-0.0960, -0.0769, -0.1168,  ...,  0.2428,  0.2405,  0.2028],
+        [-0.1337, -0.1379, -0.1537,  ..., -0.0697, -0.0510, -0.0594],
+        [ 0.2663,  0.2699,  0.3042,  ..., -0.1286, -0.1218, -0.1086]],
+       device='cuda:0'), grad: tensor([[ 1.1299e-02,  2.3041e-03,  2.7084e-03,  ...,  5.4092e-03,
+          6.2866e-03,  5.2032e-03],
+        [-2.2690e-02, -5.8556e-03, -6.5613e-03,  ..., -8.2397e-03,
+         -9.7961e-03, -8.5449e-03],
+        [ 4.6229e-04,  8.4639e-05,  1.0252e-04,  ...,  2.0611e-04,
+          2.1946e-04,  1.8859e-04],
+        ...,
+        [-1.6975e-03, -2.0432e-04, -2.8968e-04,  ..., -8.1205e-04,
+         -6.9427e-04, -5.9414e-04],
+        [ 5.2071e-04,  9.6142e-05,  1.1671e-04,  ...,  2.2447e-04,
+          2.3198e-04,  2.0099e-04],
+        [ 1.1543e-02,  3.4828e-03,  3.8128e-03,  ...,  2.9430e-03,
+          3.4542e-03,  3.2883e-03]], device='cuda:0')
+Epoch 28, bias, value: tensor([ 0.1726,  0.0014,  0.0555, -0.1464,  0.0067, -0.1684,  0.0833],
+       device='cuda:0'), grad: tensor([ 0.0506, -0.0765,  0.0016,  0.0024, -0.0027,  0.0016,  0.0231],
+       device='cuda:0')
+351
+0.006756874120406716
+changing lr
+---------------------saving model at epoch 27----------------------------------------------------
+epoch 27, time 471.16, cls_loss 0.5063 cls_loss_mapping 0.0351 cls_loss_causal 0.4347 re_mapping 0.0355 re_causal 0.0388 /// teacc 96.62 lr 0.00654508
+Epoch 29, weight, value: tensor([[ 0.0941,  0.1207,  0.1292,  ..., -0.1123, -0.0862, -0.0822],
+        [ 0.0489,  0.0484,  0.0320,  ..., -0.0028, -0.0314, -0.0629],
+        [-0.1458, -0.1653, -0.1066,  ...,  0.0534,  0.0338,  0.0341],
+        ...,
+        [-0.1029, -0.0813, -0.1205,  ...,  0.2381,  0.2322,  0.1959],
+        [-0.1397, -0.1369, -0.1517,  ..., -0.0645, -0.0468, -0.0538],
+        [ 0.2556,  0.2645,  0.2922,  ..., -0.1277, -0.1233, -0.1068]],
+       device='cuda:0'), grad: tensor([[ 0.0641,  0.0265,  0.0275,  ...,  0.0088,  0.0139,  0.0084],
+        [-0.0516, -0.0271, -0.0281,  ..., -0.0027, -0.0073, -0.0026],
+        [ 0.0024,  0.0005,  0.0005,  ...,  0.0015,  0.0016,  0.0014],
+        ...,
+        [ 0.0005,  0.0005,  0.0005,  ..., -0.0011, -0.0009, -0.0010],
+        [ 0.0008,  0.0003,  0.0003,  ...,  0.0001,  0.0002,  0.0001],
+        [ 0.0191,  0.0095,  0.0098,  ...,  0.0015,  0.0032,  0.0015]],
+       device='cuda:0')
+Epoch 29, bias, value: tensor([ 0.1584,  0.0251,  0.0383, -0.1640, -0.0085, -0.1845,  0.1399],
+       device='cuda:0'), grad: tensor([ 0.2041, -0.1042,  0.0109, -0.1637,  0.0021,  0.0029,  0.0480],
+       device='cuda:0')
+351
+0.00654508497187474
+changing lr
+epoch 28, time 456.48, cls_loss 0.5292 cls_loss_mapping 0.0342 cls_loss_causal 0.4480 re_mapping 0.0341 re_causal 0.0378 /// teacc 95.78 lr 0.00633018
+Epoch 30, weight, value: tensor([[ 0.0991,  0.1260,  0.1320,  ..., -0.1140, -0.0904, -0.0825],
+        [ 0.0514,  0.0487,  0.0330,  ...,  0.0012, -0.0279, -0.0582],
+        [-0.1552, -0.1738, -0.1157,  ...,  0.0566,  0.0369,  0.0366],
+        ...,
+        [-0.1019, -0.0839, -0.1228,  ...,  0.2343,  0.2289,  0.1917],
+        [-0.1324, -0.1333, -0.1472,  ..., -0.0649, -0.0470, -0.0537],
+        [ 0.2513,  0.2671,  0.2964,  ..., -0.1296, -0.1245, -0.1108]],
+       device='cuda:0'), grad: tensor([[-0.0467, -0.0207, -0.0212,  ..., -0.0047, -0.0064, -0.0057],
+        [ 0.0254,  0.0114,  0.0118,  ...,  0.0027,  0.0035,  0.0031],
+        [ 0.0019,  0.0008,  0.0008,  ...,  0.0003,  0.0004,  0.0003],
+        ...,
+        [ 0.0093,  0.0041,  0.0041,  ...,  0.0009,  0.0012,  0.0011],
+        [ 0.0014,  0.0006,  0.0006,  ...,  0.0001,  0.0002,  0.0002],
+        [ 0.0079,  0.0035,  0.0035,  ...,  0.0007,  0.0010,  0.0009]],
+       device='cuda:0')
+Epoch 30, bias, value: tensor([ 0.2059, -0.0189,  0.0394, -0.1719,  0.0181, -0.1901,  0.1221],
+       device='cuda:0'), grad: tensor([-0.1222,  0.0619,  0.0042,  0.0024,  0.0266,  0.0041,  0.0229],
+       device='cuda:0')
+351
+0.006330184227833378
+changing lr
+epoch 29, time 455.16, cls_loss 0.4927 cls_loss_mapping 0.0282 cls_loss_causal 0.4346 re_mapping 0.0320 re_causal 0.0352 /// teacc 95.78 lr 0.00611260
+Epoch 31, weight, value: tensor([[ 0.0915,  0.1232,  0.1300,  ..., -0.1043, -0.0809, -0.0730],
+        [ 0.0518,  0.0496,  0.0340,  ..., -0.0038, -0.0329, -0.0636],
+        [-0.1579, -0.1771, -0.1193,  ...,  0.0558,  0.0359,  0.0363],
+        ...,
+        [-0.1030, -0.0851, -0.1234,  ...,  0.2295,  0.2259,  0.1877],
+        [-0.1416, -0.1401, -0.1533,  ..., -0.0657, -0.0490, -0.0553],
+        [ 0.2688,  0.2800,  0.3071,  ..., -0.1318, -0.1272, -0.1126]],
+       device='cuda:0'), grad: tensor([[-0.0260, -0.0057, -0.0086,  ..., -0.0153, -0.0137, -0.0168],
+        [ 0.0106,  0.0039,  0.0033,  ...,  0.0026,  0.0033,  0.0030],
+        [ 0.0053,  0.0019,  0.0016,  ...,  0.0015,  0.0018,  0.0017],
+        ...,
+        [-0.0138, -0.0091, -0.0036,  ...,  0.0046,  0.0004,  0.0044],
+        [-0.0009, -0.0001, -0.0001,  ..., -0.0002, -0.0003, -0.0002],
+        [ 0.0230,  0.0085,  0.0068,  ...,  0.0063,  0.0079,  0.0073]],
+       device='cuda:0')
+Epoch 31, bias, value: tensor([ 0.1865, -0.0097,  0.0155, -0.1570,  0.0447, -0.2273,  0.1520],
+       device='cuda:0'), grad: tensor([-0.0972,  0.0245,  0.0130,  0.0045, -0.0013, -0.0019,  0.0584],
+       device='cuda:0')
+351
+0.006112604669781575
+changing lr
+epoch 30, time 448.35, cls_loss 0.4929 cls_loss_mapping 0.0408 cls_loss_causal 0.4270 re_mapping 0.0314 re_causal 0.0349 /// teacc 96.20 lr 0.00589278
+Epoch 32, weight, value: tensor([[ 0.0872,  0.1133,  0.1210,  ..., -0.1033, -0.0794, -0.0723],
+        [ 0.0522,  0.0509,  0.0359,  ..., -0.0005, -0.0298, -0.0605],
+        [-0.1690, -0.1863, -0.1292,  ...,  0.0512,  0.0325,  0.0346],
+        ...,
+        [-0.0983, -0.0816, -0.1211,  ...,  0.2293,  0.2226,  0.1841],
+        [-0.1414, -0.1378, -0.1511,  ..., -0.0631, -0.0472, -0.0529],
+        [ 0.2806,  0.2900,  0.3177,  ..., -0.1322, -0.1260, -0.1116]],
+       device='cuda:0'), grad: tensor([[ 4.4823e-03,  5.4169e-04,  5.2643e-04,  ...,  1.4973e-04,
+          2.7061e-04,  3.0994e-04],
+        [ 3.6488e-03, -9.9391e-06, -2.6435e-05,  ...,  1.4281e-04,
+          2.5272e-04,  3.2496e-04],
+        [ 3.0193e-03,  1.9833e-05,  4.1835e-06,  ...,  1.4055e-04,
+          2.2638e-04,  2.8157e-04],
+        ...,
+        [ 2.8095e-03,  4.1753e-05,  3.0875e-05,  ...,  1.9360e-04,
+          2.7251e-04,  3.2353e-04],
+        [ 1.7815e-03,  1.2375e-05,  3.1572e-06,  ...,  8.2910e-05,
+          1.3351e-04,  1.6606e-04],
+        [ 5.9013e-03, -4.6825e-04, -5.1308e-04,  ...,  2.9635e-04,
+          4.6539e-04,  6.1178e-04]], device='cuda:0')
+Epoch 32, bias, value: tensor([ 0.1876,  0.0281,  0.0272, -0.1427, -0.0049, -0.2354,  0.1449],
+       device='cuda:0'), grad: tensor([ 0.0273,  0.0269,  0.0218, -0.1565,  0.0201,  0.0129,  0.0474],
+       device='cuda:0')
+351
+0.005892784473993186
+changing lr
+epoch 31, time 454.60, cls_loss 0.4870 cls_loss_mapping 0.0291 cls_loss_causal 0.4402 re_mapping 0.0302 re_causal 0.0341 /// teacc 95.78 lr 0.00567117
+Epoch 33, weight, value: tensor([[ 0.0876,  0.1131,  0.1194,  ..., -0.1051, -0.0816, -0.0748],
+        [ 0.0561,  0.0528,  0.0386,  ...,  0.0035, -0.0259, -0.0570],
+        [-0.1694, -0.1872, -0.1305,  ...,  0.0520,  0.0317,  0.0352],
+        ...,
+        [-0.1072, -0.0872, -0.1275,  ...,  0.2259,  0.2201,  0.1810],
+        [-0.1302, -0.1344, -0.1475,  ..., -0.0627, -0.0469, -0.0514],
+        [ 0.2722,  0.2893,  0.3189,  ..., -0.1299, -0.1216, -0.1090]],
+       device='cuda:0'), grad: tensor([[-0.0189, -0.0053, -0.0034,  ..., -0.0093, -0.0103, -0.0108],
+        [ 0.0119,  0.0030,  0.0029,  ...,  0.0037,  0.0037,  0.0039],
+        [-0.0068, -0.0004, -0.0018,  ...,  0.0022,  0.0033,  0.0033],
+        ...,
+        [ 0.0030,  0.0007,  0.0006,  ...,  0.0009,  0.0009,  0.0009],
+        [ 0.0021,  0.0003,  0.0001,  ...,  0.0004,  0.0003,  0.0004],
+        [ 0.0060,  0.0012,  0.0011,  ...,  0.0014,  0.0014,  0.0015]],
+       device='cuda:0')
+Epoch 33, bias, value: tensor([ 0.1662,  0.0552,  0.0167, -0.1451,  0.0110, -0.1908,  0.0915],
+       device='cuda:0'), grad: tensor([-0.2527,  0.0748,  0.0687,  0.0218,  0.0235,  0.0229,  0.0409],
+       device='cuda:0')
+351
+0.00567116632908828
+changing lr
+epoch 32, time 457.90, cls_loss 0.4793 cls_loss_mapping 0.0285 cls_loss_causal 0.4045 re_mapping 0.0286 re_causal 0.0324 /// teacc 94.51 lr 0.00544820
+Epoch 34, weight, value: tensor([[ 7.6527e-02,  1.0370e-01,  1.1026e-01,  ..., -1.0160e-01,
+         -7.5674e-02, -6.9156e-02],
+        [ 4.8194e-02,  4.9845e-02,  3.5039e-02,  ..., -6.8559e-05,
+         -3.1360e-02, -6.1195e-02],
+        [-1.6098e-01, -1.8080e-01, -1.2366e-01,  ...,  5.4921e-02,
+          3.6609e-02,  3.9460e-02],
+        ...,
+        [-9.7441e-02, -8.7010e-02, -1.2704e-01,  ...,  2.2700e-01,
+          2.2014e-01,  1.8112e-01],
+        [-1.3599e-01, -1.3841e-01, -1.5105e-01,  ..., -6.2847e-02,
+         -4.8219e-02, -5.1560e-02],
+        [ 2.8603e-01,  3.0122e-01,  3.2962e-01,  ..., -1.3332e-01,
+         -1.2457e-01, -1.1269e-01]], device='cuda:0'), grad: tensor([[ 3.9291e-03,  1.3062e-02,  1.1200e-02,  ..., -8.9417e-03,
+         -1.0727e-02, -9.9411e-03],
+        [ 2.0248e-02,  5.7793e-03,  7.1106e-03,  ...,  5.0812e-03,
+          6.2294e-03,  5.5618e-03],
+        [ 8.8196e-03,  2.9640e-03,  3.3531e-03,  ...,  1.6632e-03,
+          2.0332e-03,  1.7891e-03],
+        ...,
+        [ 3.7308e-03,  1.1387e-03,  1.3723e-03,  ...,  7.6294e-04,
+          9.7370e-04,  8.5831e-04],
+        [ 3.6736e-03,  8.7929e-04,  1.1473e-03,  ...,  1.0290e-03,
+          1.2598e-03,  1.1244e-03],
+        [-4.1534e-02, -2.4078e-02, -2.4521e-02,  ...,  5.8234e-05,
+         -1.9526e-04,  2.2459e-04]], device='cuda:0')
+Epoch 34, bias, value: tensor([ 0.1865,  0.0464,  0.0323, -0.1738,  0.0183, -0.1863,  0.0810],
+       device='cuda:0'), grad: tensor([-0.0573,  0.0805,  0.0320,  0.0049,  0.0146,  0.0153, -0.0900],
+       device='cuda:0')
+351
+0.00544819654451717
+changing lr
+epoch 33, time 447.88, cls_loss 0.4666 cls_loss_mapping 0.0257 cls_loss_causal 0.4202 re_mapping 0.0283 re_causal 0.0326 /// teacc 93.67 lr 0.00522432
+Epoch 35, weight, value: tensor([[ 0.0721,  0.0982,  0.1056,  ..., -0.0969, -0.0713, -0.0634],
+        [ 0.0481,  0.0501,  0.0342,  ..., -0.0019, -0.0327, -0.0620],
+        [-0.1582, -0.1784, -0.1224,  ...,  0.0564,  0.0375,  0.0407],
+        ...,
+        [-0.1000, -0.0862, -0.1240,  ...,  0.2226,  0.2140,  0.1749],
+        [-0.1329, -0.1374, -0.1500,  ..., -0.0665, -0.0513, -0.0549],
+        [ 0.2858,  0.3020,  0.3296,  ..., -0.1303, -0.1193, -0.1086]],
+       device='cuda:0'), grad: tensor([[ 1.1673e-02,  8.5926e-04,  9.5654e-04,  ...,  1.8845e-03,
+          2.3060e-03,  1.9360e-03],
+        [-3.2196e-02, -6.8054e-03, -8.4991e-03,  ..., -1.2360e-02,
+         -1.3870e-02, -1.1581e-02],
+        [-2.9449e-02, -8.2111e-04, -5.1165e-04,  ..., -4.4365e-03,
+         -4.5357e-03, -5.1842e-03],
+        ...,
+        [-1.6510e-02,  5.2266e-06, -4.0364e-04,  ..., -3.9625e-04,
+         -2.7027e-03, -7.0238e-04],
+        [ 1.8295e-02,  1.0977e-03,  1.2608e-03,  ...,  3.1528e-03,
+          3.8319e-03,  3.3245e-03],
+        [ 4.8737e-02,  6.1913e-03,  7.7667e-03,  ...,  1.3039e-02,
+          1.5533e-02,  1.2764e-02]], device='cuda:0')
+Epoch 35, bias, value: tensor([ 0.2127,  0.0666,  0.0151, -0.1802, -0.0175, -0.1616,  0.0694],
+       device='cuda:0'), grad: tensor([ 0.0537, -0.0464, -0.1066,  0.0059, -0.1268,  0.0751,  0.1451],
+       device='cuda:0')
+351
+0.005224324151752577
+changing lr
+epoch 34, time 458.11, cls_loss 0.4523 cls_loss_mapping 0.0212 cls_loss_causal 0.3966 re_mapping 0.0269 re_causal 0.0308 /// teacc 94.51 lr 0.00500000
+Epoch 36, weight, value: tensor([[ 0.0753,  0.1022,  0.1081,  ..., -0.0971, -0.0720, -0.0643],
+        [ 0.0437,  0.0473,  0.0333,  ...,  0.0029, -0.0273, -0.0565],
+        [-0.1628, -0.1784, -0.1230,  ...,  0.0549,  0.0356,  0.0392],
+        ...,
+        [-0.1043, -0.0908, -0.1284,  ...,  0.2222,  0.2123,  0.1735],
+        [-0.1301, -0.1378, -0.1499,  ..., -0.0643, -0.0493, -0.0531],
+        [ 0.2898,  0.3064,  0.3333,  ..., -0.1321, -0.1201, -0.1098]],
+       device='cuda:0'), grad: tensor([[ 2.0131e-05,  5.6624e-06,  6.3442e-06,  ...,  1.7494e-05,
+          1.6809e-05,  1.6257e-05],
+        [ 5.9372e-07,  2.5705e-07,  2.6356e-07,  ...,  1.9860e-07,
+          2.1467e-07,  2.1420e-07],
+        [ 5.3551e-09, -4.8894e-08,  8.0094e-08,  ...,  2.9639e-07,
+          3.0920e-07,  3.2294e-07],
+        ...,
+        [-2.0668e-05, -5.7779e-06, -6.5006e-06,  ..., -1.8135e-05,
+         -1.7419e-05, -1.6838e-05],
+        [-2.0619e-06, -9.2015e-07, -9.5554e-07,  ..., -5.2107e-07,
+         -6.0862e-07, -6.7335e-07],
+        [ 2.2408e-06,  9.4017e-07,  8.8848e-07,  ...,  7.0781e-07,
+          7.4646e-07,  7.6834e-07]], device='cuda:0')
+Epoch 36, bias, value: tensor([ 0.1708,  0.0681,  0.0239, -0.1608,  0.0005, -0.1839,  0.0860],
+       device='cuda:0'), grad: tensor([ 4.3035e-05,  1.4352e-06,  1.8487e-07, -5.8115e-07, -4.4078e-05,
+        -5.8003e-06,  5.7369e-06], device='cuda:0')
+351
+0.005000000000000003
+changing lr
+epoch 35, time 445.47, cls_loss 0.4425 cls_loss_mapping 0.0235 cls_loss_causal 0.3863 re_mapping 0.0254 re_causal 0.0295 /// teacc 94.94 lr 0.00477568
+Epoch 37, weight, value: tensor([[ 0.0832,  0.1106,  0.1146,  ..., -0.0897, -0.0669, -0.0593],
+        [ 0.0513,  0.0500,  0.0373,  ...,  0.0026, -0.0259, -0.0547],
+        [-0.1653, -0.1771, -0.1232,  ...,  0.0544,  0.0342,  0.0383],
+        ...,
+        [-0.1018, -0.0879, -0.1248,  ...,  0.2229,  0.2131,  0.1742],
+        [-0.1395, -0.1415, -0.1535,  ..., -0.0635, -0.0482, -0.0526],
+        [ 0.2867,  0.2984,  0.3267,  ..., -0.1351, -0.1221, -0.1115]],
+       device='cuda:0'), grad: tensor([[ 0.0194,  0.0062,  0.0067,  ...,  0.0071,  0.0078,  0.0071],
+        [ 0.0021,  0.0005,  0.0005,  ...,  0.0008,  0.0009,  0.0009],
+        [ 0.0016,  0.0004,  0.0004,  ...,  0.0006,  0.0007,  0.0006],
+        ...,
+        [ 0.0353,  0.0087,  0.0096,  ...,  0.0141,  0.0159,  0.0145],
+        [ 0.0541,  0.0033,  0.0012,  ...,  0.0100,  0.0138,  0.0119],
+        [-0.0569, -0.0157, -0.0173,  ..., -0.0225, -0.0250, -0.0229]],
+       device='cuda:0')
+Epoch 37, bias, value: tensor([ 0.1363,  0.0563,  0.0333, -0.1792, -0.0114, -0.1767,  0.1459],
+       device='cuda:0'), grad: tensor([ 0.0454,  0.0053,  0.0042, -0.1620,  0.0897,  0.1576, -0.1401],
+       device='cuda:0')
+351
+0.004775675848247429
+changing lr
+epoch 36, time 464.65, cls_loss 0.4398 cls_loss_mapping 0.0234 cls_loss_causal 0.3968 re_mapping 0.0245 re_causal 0.0285 /// teacc 92.83 lr 0.00455180
+Epoch 38, weight, value: tensor([[ 0.0825,  0.1080,  0.1120,  ..., -0.0878, -0.0654, -0.0583],
+        [ 0.0474,  0.0486,  0.0357,  ...,  0.0048, -0.0246, -0.0535],
+        [-0.1577, -0.1766, -0.1238,  ...,  0.0529,  0.0337,  0.0377],
+        ...,
+        [-0.1050, -0.0894, -0.1250,  ...,  0.2224,  0.2113,  0.1737],
+        [-0.1363, -0.1373, -0.1489,  ..., -0.0643, -0.0466, -0.0515],
+        [ 0.2828,  0.2988,  0.3266,  ..., -0.1353, -0.1228, -0.1122]],
+       device='cuda:0'), grad: tensor([[-5.0903e-02, -2.6047e-02, -3.4210e-02,  ..., -2.1057e-03,
+         -3.0975e-03, -2.7466e-03],
+        [ 3.4119e-02,  1.6922e-02,  2.4414e-02,  ..., -6.7711e-04,
+          3.0661e-04, -5.9873e-05],
+        [-3.7872e-02, -3.7861e-03, -4.3488e-03,  ..., -2.3102e-02,
+         -2.4506e-02, -2.5864e-02],
+        ...,
+        [ 1.7796e-03,  7.2956e-04,  7.4244e-04,  ...,  5.1689e-04,
+          5.4216e-04,  5.3501e-04],
+        [ 6.1646e-03,  2.9221e-03,  3.5362e-03,  ...,  8.6737e-04,
+          9.4271e-04,  9.4891e-04],
+        [ 1.0132e-02,  5.1613e-03,  5.2299e-03,  ...,  2.2793e-03,
+          2.2411e-03,  2.3022e-03]], device='cuda:0')
+Epoch 38, bias, value: tensor([ 0.1498,  0.0381,  0.0811, -0.1854, -0.0177, -0.1719,  0.1105],
+       device='cuda:0'), grad: tensor([-0.1239,  0.0901, -0.1630,  0.1562,  0.0043,  0.0152,  0.0209],
+       device='cuda:0')
+351
+0.004551803455482836
+changing lr
+epoch 37, time 469.34, cls_loss 0.4606 cls_loss_mapping 0.0203 cls_loss_causal 0.4122 re_mapping 0.0237 re_causal 0.0280 /// teacc 96.20 lr 0.00432883
+Epoch 39, weight, value: tensor([[ 0.0822,  0.1042,  0.1080,  ..., -0.0926, -0.0717, -0.0626],
+        [ 0.0472,  0.0509,  0.0388,  ...,  0.0053, -0.0240, -0.0539],
+        [-0.1576, -0.1733, -0.1206,  ...,  0.0499,  0.0321,  0.0353],
+        ...,
+        [-0.1056, -0.0882, -0.1233,  ...,  0.2285,  0.2183,  0.1797],
+        [-0.1340, -0.1361, -0.1478,  ..., -0.0659, -0.0486, -0.0525],
+        [ 0.2850,  0.2961,  0.3234,  ..., -0.1349, -0.1227, -0.1119]],
+       device='cuda:0'), grad: tensor([[ 1.1887e-02, -1.2171e-04, -4.7624e-05,  ...,  8.5545e-04,
+          1.6279e-03,  1.5354e-03],
+        [-3.0640e-02, -3.8681e-03, -3.7899e-03,  ..., -2.2430e-03,
+         -1.9722e-03, -4.0169e-03],
+        [ 6.7329e-03,  2.2924e-04,  2.6870e-04,  ...,  6.1798e-04,
+          9.1505e-04,  9.5034e-04],
+        ...,
+        [ 6.0577e-03,  4.1437e-04,  4.4775e-04,  ...,  6.2513e-04,
+          8.1825e-04,  8.9073e-04],
+        [ 2.5162e-02,  1.3456e-03,  1.6146e-03,  ...,  2.8782e-03,
+          4.7264e-03,  3.6583e-03],
+        [ 2.1530e-02,  4.6425e-03,  4.7188e-03,  ...,  2.5425e-03,
+          2.9659e-03,  3.0251e-03]], device='cuda:0')
+Epoch 39, bias, value: tensor([ 0.1577,  0.0322,  0.0855, -0.1935, -0.0232, -0.1615,  0.1074],
+       device='cuda:0'), grad: tensor([ 0.0573, -0.1409,  0.0309, -0.1571,  0.0268,  0.1044,  0.0784],
+       device='cuda:0')
+351
+0.004328833670911726
+changing lr
+epoch 38, time 461.31, cls_loss 0.4281 cls_loss_mapping 0.0141 cls_loss_causal 0.3830 re_mapping 0.0227 re_causal 0.0270 /// teacc 95.36 lr 0.00410722
+Epoch 40, weight, value: tensor([[ 0.0766,  0.1014,  0.1063,  ..., -0.0903, -0.0707, -0.0621],
+        [ 0.0568,  0.0564,  0.0435,  ...,  0.0019, -0.0260, -0.0550],
+        [-0.1575, -0.1731, -0.1214,  ...,  0.0479,  0.0301,  0.0331],
+        ...,
+        [-0.1074, -0.0902, -0.1265,  ...,  0.2269,  0.2159,  0.1776],
+        [-0.1359, -0.1379, -0.1488,  ..., -0.0647, -0.0464, -0.0505],
+        [ 0.2839,  0.2952,  0.3234,  ..., -0.1321, -0.1198, -0.1091]],
+       device='cuda:0'), grad: tensor([[ 2.0370e-02,  5.8174e-03,  6.8970e-03,  ...,  1.1108e-02,
+          9.5139e-03,  9.9792e-03],
+        [ 6.0699e-02,  2.6962e-02,  2.8839e-02,  ...,  2.5406e-03,
+          1.7347e-03,  2.6512e-03],
+        [ 1.9407e-04,  8.8751e-05,  9.2447e-05,  ...,  4.7743e-05,
+          3.6687e-05,  3.7491e-05],
+        ...,
+        [-1.3657e-02, -2.8133e-03, -4.0054e-03,  ..., -9.5749e-03,
+         -8.4229e-03, -8.9569e-03],
+        [ 3.8981e-04,  1.7476e-04,  1.6868e-04,  ...,  8.8751e-05,
+          6.3300e-05,  5.9754e-05],
+        [-6.7993e-02, -3.0228e-02, -3.1982e-02,  ..., -4.2114e-03,
+         -2.9278e-03, -3.7766e-03]], device='cuda:0')
+Epoch 40, bias, value: tensor([ 0.1206,  0.0629,  0.0788, -0.2057, -0.0204, -0.1406,  0.1090],
+       device='cuda:0'), grad: tensor([ 6.5735e-02,  1.6602e-01,  4.1008e-04,  3.3230e-05, -5.5267e-02,
+         6.1846e-04, -1.7737e-01], device='cuda:0')
+351
+0.0041072155260068206
+changing lr
+epoch 39, time 449.94, cls_loss 0.4136 cls_loss_mapping 0.0177 cls_loss_causal 0.3718 re_mapping 0.0214 re_causal 0.0253 /// teacc 94.09 lr 0.00388740
+Epoch 41, weight, value: tensor([[ 0.0754,  0.1003,  0.1053,  ..., -0.0923, -0.0743, -0.0657],
+        [ 0.0567,  0.0548,  0.0428,  ...,  0.0047, -0.0215, -0.0508],
+        [-0.1648, -0.1783, -0.1265,  ...,  0.0499,  0.0328,  0.0359],
+        ...,
+        [-0.1064, -0.0893, -0.1260,  ...,  0.2227,  0.2118,  0.1744],
+        [-0.1344, -0.1403, -0.1519,  ..., -0.0654, -0.0468, -0.0506],
+        [ 0.2904,  0.3032,  0.3314,  ..., -0.1303, -0.1185, -0.1087]],
+       device='cuda:0'), grad: tensor([[ 0.0410,  0.0335,  0.0336,  ..., -0.0001, -0.0031, -0.0014],
+        [ 0.0399,  0.0166,  0.0168,  ...,  0.0072,  0.0090,  0.0083],
+        [ 0.0169,  0.0021,  0.0021,  ...,  0.0009,  0.0007,  0.0013],
+        ...,
+        [ 0.0045,  0.0012,  0.0012,  ...,  0.0005,  0.0005,  0.0006],
+        [ 0.0095,  0.0025,  0.0025,  ...,  0.0009,  0.0009,  0.0012],
+        [-0.1130, -0.0562, -0.0565,  ..., -0.0094, -0.0081, -0.0100]],
+       device='cuda:0')
+Epoch 41, bias, value: tensor([ 0.1204,  0.0702,  0.0614, -0.2047, -0.0213, -0.1194,  0.0980],
+       device='cuda:0'), grad: tensor([ 0.0023,  0.1190,  0.0449,  0.0032,  0.0123,  0.0221, -0.2037],
+       device='cuda:0')
+351
+0.0038873953302184317
+changing lr
+---------------------saving model at epoch 40----------------------------------------------------
+epoch 40, time 530.83, cls_loss 0.4022 cls_loss_mapping 0.0152 cls_loss_causal 0.3683 re_mapping 0.0198 re_causal 0.0236 /// teacc 97.05 lr 0.00366982
+Epoch 42, weight, value: tensor([[ 0.0704,  0.0930,  0.0985,  ..., -0.0970, -0.0771, -0.0689],
+        [ 0.0606,  0.0631,  0.0506,  ...,  0.0067, -0.0208, -0.0503],
+        [-0.1594, -0.1810, -0.1289,  ...,  0.0531,  0.0365,  0.0389],
+        ...,
+        [-0.1084, -0.0916, -0.1284,  ...,  0.2221,  0.2103,  0.1736],
+        [-0.1435, -0.1444, -0.1564,  ..., -0.0655, -0.0466, -0.0498],
+        [ 0.2916,  0.3086,  0.3367,  ..., -0.1287, -0.1166, -0.1069]],
+       device='cuda:0'), grad: tensor([[ 0.0139,  0.0028,  0.0028,  ...,  0.0012,  0.0013,  0.0014],
+        [-0.0464, -0.0228, -0.0229,  ..., -0.0091, -0.0073, -0.0079],
+        [ 0.0135,  0.0024,  0.0024,  ...,  0.0010,  0.0011,  0.0013],
+        ...,
+        [ 0.0194,  0.0071,  0.0071,  ...,  0.0029,  0.0025,  0.0027],
+        [ 0.0019,  0.0003,  0.0003,  ...,  0.0001,  0.0001,  0.0002],
+        [ 0.0352,  0.0135,  0.0135,  ...,  0.0054,  0.0047,  0.0051]],
+       device='cuda:0')
+Epoch 42, bias, value: tensor([ 0.1341,  0.0346,  0.0894, -0.1919, -0.0208, -0.1278,  0.0870],
+       device='cuda:0'), grad: tensor([ 0.0490, -0.0717,  0.0499, -0.1611,  0.0464,  0.0073,  0.0804],
+       device='cuda:0')
+351
+0.003669815772166629
+changing lr
+epoch 41, time 451.61, cls_loss 0.4245 cls_loss_mapping 0.0176 cls_loss_causal 0.3978 re_mapping 0.0189 re_causal 0.0231 /// teacc 95.36 lr 0.00345492
+Epoch 43, weight, value: tensor([[ 0.0728,  0.0991,  0.1047,  ..., -0.0958, -0.0773, -0.0682],
+        [ 0.0592,  0.0596,  0.0462,  ...,  0.0064, -0.0204, -0.0506],
+        [-0.1605, -0.1789, -0.1270,  ...,  0.0503,  0.0339,  0.0362],
+        ...,
+        [-0.1067, -0.0919, -0.1289,  ...,  0.2226,  0.2115,  0.1745],
+        [-0.1425, -0.1437, -0.1553,  ..., -0.0645, -0.0447, -0.0479],
+        [ 0.2915,  0.3066,  0.3354,  ..., -0.1277, -0.1163, -0.1062]],
+       device='cuda:0'), grad: tensor([[-0.0699, -0.0063, -0.0089,  ..., -0.0367, -0.0268, -0.0291],
+        [ 0.0129,  0.0005,  0.0009,  ...,  0.0062,  0.0048,  0.0050],
+        [ 0.0180,  0.0011,  0.0017,  ...,  0.0087,  0.0066,  0.0070],
+        ...,
+        [ 0.0513,  0.0047,  0.0061,  ...,  0.0241,  0.0187,  0.0199],
+        [ 0.0066,  0.0003,  0.0004,  ...,  0.0026,  0.0022,  0.0023],
+        [-0.0249, -0.0003, -0.0003,  ..., -0.0068, -0.0073, -0.0068]],
+       device='cuda:0')
+Epoch 43, bias, value: tensor([ 0.1297,  0.0527,  0.0543, -0.1814, -0.0015, -0.1247,  0.0756],
+       device='cuda:0'), grad: tensor([-0.1726,  0.0495,  0.0637,  0.0338,  0.1462,  0.0301, -0.1508],
+       device='cuda:0')
+351
+0.0034549150281252667
+changing lr
+epoch 42, time 452.03, cls_loss 0.3812 cls_loss_mapping 0.0139 cls_loss_causal 0.3556 re_mapping 0.0182 re_causal 0.0221 /// teacc 95.78 lr 0.00324313
+Epoch 44, weight, value: tensor([[ 0.0716,  0.0976,  0.1040,  ..., -0.0940, -0.0750, -0.0666],
+        [ 0.0626,  0.0614,  0.0482,  ...,  0.0070, -0.0196, -0.0501],
+        [-0.1578, -0.1774, -0.1254,  ...,  0.0521,  0.0355,  0.0378],
+        ...,
+        [-0.1154, -0.0960, -0.1336,  ...,  0.2173,  0.2063,  0.1693],
+        [-0.1358, -0.1412, -0.1524,  ..., -0.0646, -0.0450, -0.0476],
+        [ 0.2927,  0.3063,  0.3342,  ..., -0.1271, -0.1162, -0.1052]],
+       device='cuda:0'), grad: tensor([[-0.0414, -0.0093, -0.0101,  ..., -0.0102, -0.0113, -0.0130],
+        [ 0.0188,  0.0053,  0.0057,  ...,  0.0047,  0.0049,  0.0058],
+        [ 0.0026,  0.0002,  0.0003,  ...,  0.0007,  0.0008,  0.0009],
+        ...,
+        [ 0.0125,  0.0011,  0.0012,  ...,  0.0033,  0.0039,  0.0044],
+        [ 0.0009,  0.0001,  0.0001,  ...,  0.0002,  0.0003,  0.0003],
+        [ 0.0049,  0.0024,  0.0025,  ...,  0.0007,  0.0009,  0.0010]],
+       device='cuda:0')
+Epoch 44, bias, value: tensor([ 0.1081,  0.0650,  0.0460, -0.2011,  0.0078, -0.1105,  0.0892],
+       device='cuda:0'), grad: tensor([-0.1746,  0.0692,  0.0138,  0.0086,  0.0670,  0.0047,  0.0113],
+       device='cuda:0')
+351
+0.0032431258795932905
+changing lr
+epoch 43, time 459.39, cls_loss 0.4056 cls_loss_mapping 0.0142 cls_loss_causal 0.3665 re_mapping 0.0176 re_causal 0.0217 /// teacc 95.36 lr 0.00303487
+Epoch 45, weight, value: tensor([[ 0.0799,  0.1032,  0.1090,  ..., -0.0952, -0.0768, -0.0679],
+        [ 0.0611,  0.0598,  0.0467,  ...,  0.0066, -0.0191, -0.0499],
+        [-0.1595, -0.1777, -0.1256,  ...,  0.0511,  0.0349,  0.0366],
+        ...,
+        [-0.1142, -0.0945, -0.1318,  ...,  0.2183,  0.2072,  0.1703],
+        [-0.1371, -0.1413, -0.1525,  ..., -0.0634, -0.0437, -0.0460],
+        [ 0.2870,  0.3011,  0.3290,  ..., -0.1277, -0.1169, -0.1057]],
+       device='cuda:0'), grad: tensor([[-3.4973e-02, -1.6508e-03, -2.8839e-03,  ..., -1.3628e-03,
+         -4.0092e-03, -3.9330e-03],
+        [ 1.9318e-02,  1.4677e-03,  2.0390e-03,  ...,  8.2541e-04,
+          2.1915e-03,  2.1915e-03],
+        [ 1.9007e-03,  2.6703e-04,  2.9922e-04,  ...,  9.4235e-05,
+          2.0790e-04,  2.1672e-04],
+        ...,
+        [ 3.9978e-03,  6.1941e-04,  6.7568e-04,  ...,  1.7655e-04,
+          4.0936e-04,  4.3297e-04],
+        [ 8.8654e-03,  1.1711e-03,  1.3351e-03,  ...,  4.2772e-04,
+          9.7036e-04,  1.0071e-03],
+        [-6.0463e-04, -2.0943e-03, -1.7080e-03,  ..., -2.3556e-04,
+          6.7115e-05, -8.2910e-05]], device='cuda:0')
+Epoch 45, bias, value: tensor([ 0.1258,  0.0758,  0.0319, -0.2096,  0.0073, -0.1190,  0.0921],
+       device='cuda:0'), grad: tensor([-0.1189,  0.0648,  0.0062,  0.0048,  0.0129,  0.0289,  0.0013],
+       device='cuda:0')
+351
+0.0030348748417303863
+changing lr
+epoch 44, time 455.83, cls_loss 0.3945 cls_loss_mapping 0.0140 cls_loss_causal 0.3600 re_mapping 0.0166 re_causal 0.0205 /// teacc 95.78 lr 0.00283058
+Epoch 46, weight, value: tensor([[ 0.0762,  0.1022,  0.1075,  ..., -0.0979, -0.0787, -0.0699],
+        [ 0.0606,  0.0607,  0.0474,  ...,  0.0083, -0.0172, -0.0482],
+        [-0.1617, -0.1785, -0.1271,  ...,  0.0525,  0.0361,  0.0377],
+        ...,
+        [-0.1059, -0.0933, -0.1294,  ...,  0.2156,  0.2051,  0.1687],
+        [-0.1419, -0.1410, -0.1528,  ..., -0.0637, -0.0437, -0.0461],
+        [ 0.2885,  0.3013,  0.3298,  ..., -0.1256, -0.1154, -0.1045]],
+       device='cuda:0'), grad: tensor([[-3.7079e-02,  1.1826e-04, -2.2125e-03,  ..., -1.2421e-02,
+         -1.0109e-02, -1.2093e-02],
+        [-4.8584e-02, -1.8921e-02, -2.0218e-02,  ..., -3.1757e-03,
+         -5.0354e-03, -5.6610e-03],
+        [ 2.2736e-02,  1.6308e-03,  2.9030e-03,  ...,  6.4964e-03,
+          5.4893e-03,  6.5422e-03],
+        ...,
+        [ 1.7517e-02,  1.7204e-03,  2.6531e-03,  ...,  4.7455e-03,
+          4.0855e-03,  4.8523e-03],
+        [ 7.9989e-05, -5.8144e-05, -3.8683e-05,  ..., -3.4988e-05,
+         -6.6102e-05, -5.2184e-05],
+        [ 4.4495e-02,  1.5480e-02,  1.6830e-02,  ...,  4.1618e-03,
+          5.4436e-03,  6.1798e-03]], device='cuda:0')
+Epoch 46, bias, value: tensor([ 0.1141,  0.0736,  0.0416, -0.2079,  0.0266, -0.1246,  0.0811],
+       device='cuda:0'), grad: tensor([-0.1354, -0.0993,  0.0760,  0.0028,  0.0566,  0.0007,  0.0985],
+       device='cuda:0')
+351
+0.0028305813044122124
+changing lr
+epoch 45, time 451.32, cls_loss 0.3694 cls_loss_mapping 0.0134 cls_loss_causal 0.3492 re_mapping 0.0163 re_causal 0.0202 /// teacc 96.62 lr 0.00263066
+Epoch 47, weight, value: tensor([[ 0.0722,  0.0997,  0.1055,  ..., -0.0985, -0.0794, -0.0708],
+        [ 0.0616,  0.0587,  0.0459,  ...,  0.0061, -0.0200, -0.0509],
+        [-0.1595, -0.1796, -0.1287,  ...,  0.0526,  0.0362,  0.0383],
+        ...,
+        [-0.1089, -0.0925, -0.1277,  ...,  0.2150,  0.2043,  0.1676],
+        [-0.1386, -0.1386, -0.1503,  ..., -0.0617, -0.0419, -0.0446],
+        [ 0.2909,  0.3038,  0.3311,  ..., -0.1235, -0.1121, -0.1013]],
+       device='cuda:0'), grad: tensor([[-0.0043, -0.0035, -0.0038,  ..., -0.0015, -0.0017, -0.0013],
+        [ 0.0104,  0.0005,  0.0006,  ...,  0.0021,  0.0017,  0.0022],
+        [ 0.0114,  0.0007,  0.0008,  ...,  0.0043,  0.0038,  0.0042],
+        ...,
+        [ 0.0010,  0.0013,  0.0015,  ..., -0.0026, -0.0025, -0.0024],
+        [ 0.0044,  0.0001,  0.0002,  ...,  0.0009,  0.0006,  0.0009],
+        [-0.0257,  0.0005,  0.0003,  ..., -0.0038, -0.0024, -0.0043]],
+       device='cuda:0')
+Epoch 47, bias, value: tensor([ 0.1020,  0.0769,  0.0611, -0.2058,  0.0010, -0.1374,  0.1067],
+       device='cuda:0'), grad: tensor([ 0.0049,  0.0432,  0.0406,  0.0094,  0.0071,  0.0191, -0.1242],
+       device='cuda:0')
+351
+0.0026306566876350096
+changing lr
+epoch 46, time 447.91, cls_loss 0.3970 cls_loss_mapping 0.0124 cls_loss_causal 0.3717 re_mapping 0.0159 re_causal 0.0200 /// teacc 96.20 lr 0.00243550
+Epoch 48, weight, value: tensor([[ 0.0758,  0.0992,  0.1050,  ..., -0.0964, -0.0770, -0.0683],
+        [ 0.0650,  0.0603,  0.0477,  ...,  0.0040, -0.0218, -0.0525],
+        [-0.1623, -0.1796, -0.1284,  ...,  0.0528,  0.0364,  0.0375],
+        ...,
+        [-0.1057, -0.0919, -0.1270,  ...,  0.2153,  0.2046,  0.1683],
+        [-0.1383, -0.1381, -0.1497,  ..., -0.0604, -0.0406, -0.0432],
+        [ 0.2845,  0.3025,  0.3290,  ..., -0.1260, -0.1152, -0.1039]],
+       device='cuda:0'), grad: tensor([[-2.7962e-03, -1.5354e-03, -1.6022e-03,  ..., -4.8542e-04,
+         -5.2357e-04, -5.4216e-04],
+        [ 2.5296e-04,  1.0586e-04,  1.1873e-04,  ...,  8.9228e-05,
+          9.7573e-05,  9.9897e-05],
+        [ 2.8372e-04,  4.7952e-05,  5.4270e-05,  ...,  3.6812e-04,
+          3.3236e-04,  3.4094e-04],
+        ...,
+        [ 1.8568e-03,  1.1644e-03,  1.2035e-03,  ..., -5.8740e-05,
+          4.9621e-06,  9.8944e-06],
+        [ 1.9506e-05,  9.3132e-06,  9.8199e-06,  ...,  6.8881e-06,
+          6.7204e-06,  6.8322e-06],
+        [ 3.0684e-04,  1.6797e-04,  1.7452e-04,  ...,  6.1005e-05,
+          6.3062e-05,  6.5267e-05]], device='cuda:0')
+Epoch 48, bias, value: tensor([ 0.1293,  0.0809,  0.0455, -0.2106,  0.0100, -0.1397,  0.0891],
+       device='cuda:0'), grad: tensor([-6.6910e-03,  5.2023e-04,  1.1969e-03,  1.9681e-04,  3.9635e-03,
+         5.0932e-05,  7.6723e-04], device='cuda:0')
+351
+0.0024355036129704724
+changing lr
+epoch 47, time 453.91, cls_loss 0.3669 cls_loss_mapping 0.0125 cls_loss_causal 0.3474 re_mapping 0.0156 re_causal 0.0198 /// teacc 94.09 lr 0.00224552
+Epoch 49, weight, value: tensor([[ 0.0763,  0.0988,  0.1045,  ..., -0.0978, -0.0788, -0.0700],
+        [ 0.0670,  0.0625,  0.0497,  ...,  0.0028, -0.0229, -0.0531],
+        [-0.1596, -0.1784, -0.1277,  ...,  0.0517,  0.0356,  0.0366],
+        ...,
+        [-0.1089, -0.0932, -0.1283,  ...,  0.2154,  0.2042,  0.1680],
+        [-0.1403, -0.1402, -0.1518,  ..., -0.0600, -0.0404, -0.0429],
+        [ 0.2852,  0.3015,  0.3285,  ..., -0.1231, -0.1114, -0.1003]],
+       device='cuda:0'), grad: tensor([[ 1.2112e-03,  5.8174e-04,  5.9223e-04,  ...,  6.3181e-04,
+          6.5613e-04,  6.6280e-04],
+        [ 2.9411e-03,  1.2903e-03,  1.3714e-03,  ...,  2.7680e-04,
+          2.7204e-04,  2.4128e-04],
+        [ 6.7329e-04,  3.4142e-04,  3.3808e-04,  ...,  5.6934e-04,
+          5.9319e-04,  6.0511e-04],
+        ...,
+        [-7.0801e-03, -3.6125e-03, -3.5686e-03,  ..., -6.2065e-03,
+         -6.4659e-03, -6.6032e-03],
+        [ 1.3268e-04,  6.6817e-05,  6.6519e-05,  ...,  1.0377e-04,
+          1.0806e-04,  1.1009e-04],
+        [ 2.0046e-03,  1.2751e-03,  1.1415e-03,  ...,  4.5280e-03,
+          4.7379e-03,  4.8828e-03]], device='cuda:0')
+Epoch 49, bias, value: tensor([ 0.1227,  0.0846,  0.0495, -0.2187,  0.0052, -0.1522,  0.1133],
+       device='cuda:0'), grad: tensor([ 0.0028,  0.0040,  0.0020,  0.0003, -0.0214,  0.0004,  0.0119],
+       device='cuda:0')
+351
+0.00224551509273949
+changing lr
+epoch 48, time 462.15, cls_loss 0.3651 cls_loss_mapping 0.0117 cls_loss_causal 0.3344 re_mapping 0.0152 re_causal 0.0192 /// teacc 95.36 lr 0.00206107
+Epoch 50, weight, value: tensor([[ 0.0692,  0.0938,  0.0998,  ..., -0.0964, -0.0773, -0.0691],
+        [ 0.0654,  0.0643,  0.0511,  ...,  0.0015, -0.0244, -0.0545],
+        [-0.1550, -0.1762, -0.1255,  ...,  0.0509,  0.0350,  0.0361],
+        ...,
+        [-0.1056, -0.0912, -0.1262,  ...,  0.2153,  0.2041,  0.1680],
+        [-0.1414, -0.1408, -0.1519,  ..., -0.0598, -0.0403, -0.0427],
+        [ 0.2848,  0.3002,  0.3268,  ..., -0.1230, -0.1114, -0.0998]],
+       device='cuda:0'), grad: tensor([[ 1.6586e-02,  6.2408e-03,  6.2408e-03,  ...,  1.7033e-03,
+          1.4448e-03,  1.2856e-03],
+        [ 1.3142e-03,  4.9591e-04,  4.9591e-04,  ...,  1.4222e-04,
+          1.1951e-04,  1.0735e-04],
+        [ 2.5821e-04,  9.8169e-05,  9.8288e-05,  ...,  3.0726e-05,
+          2.6003e-05,  2.3738e-05],
+        ...,
+        [ 9.6500e-05,  3.7938e-05,  3.8028e-05,  ...,  9.0897e-06,
+          6.9514e-06,  6.2026e-06],
+        [ 8.9931e-04,  3.3903e-04,  3.3903e-04,  ...,  9.2924e-05,
+          7.8678e-05,  7.0155e-05],
+        [-1.9165e-02, -7.2174e-03, -7.2174e-03,  ..., -1.9798e-03,
+         -1.6775e-03, -1.4944e-03]], device='cuda:0')
+Epoch 50, bias, value: tensor([ 0.1128,  0.0698,  0.0508, -0.2101,  0.0068, -0.1533,  0.1275],
+       device='cuda:0'), grad: tensor([ 3.4027e-02,  2.6779e-03,  5.2261e-04,  6.0052e-05,  1.8775e-04,
+         1.8406e-03, -3.9276e-02], device='cuda:0')
+351
+0.002061073738537637
+changing lr
+epoch 49, time 467.32, cls_loss 0.3970 cls_loss_mapping 0.0106 cls_loss_causal 0.3692 re_mapping 0.0145 re_causal 0.0189 /// teacc 94.94 lr 0.00188255
+Epoch 51, weight, value: tensor([[ 0.0740,  0.0960,  0.1022,  ..., -0.0977, -0.0775, -0.0696],
+        [ 0.0622,  0.0613,  0.0487,  ...,  0.0006, -0.0255, -0.0551],
+        [-0.1554, -0.1772, -0.1271,  ...,  0.0504,  0.0353,  0.0360],
+        ...,
+        [-0.1051, -0.0908, -0.1261,  ...,  0.2167,  0.2044,  0.1684],
+        [-0.1418, -0.1412, -0.1523,  ..., -0.0604, -0.0406, -0.0430],
+        [ 0.2852,  0.3027,  0.3294,  ..., -0.1215, -0.1104, -0.0987]],
+       device='cuda:0'), grad: tensor([[-4.5624e-03, -1.7843e-03, -1.7910e-03,  ...,  4.1509e-04,
+          3.6907e-04,  3.3307e-04],
+        [ 2.6703e-04,  1.0669e-04,  1.0341e-04,  ...,  1.8790e-05,
+          1.8105e-05,  2.1204e-05],
+        [ 1.0738e-03,  4.6468e-04,  3.9649e-04,  ...,  5.3835e-04,
+          4.9162e-04,  4.9925e-04],
+        ...,
+        [-2.2964e-03, -9.9564e-04, -8.2493e-04,  ..., -1.5068e-03,
+         -1.3819e-03, -1.3914e-03],
+        [ 2.2566e-04,  8.8990e-05,  8.7023e-05,  ...,  7.4282e-06,
+          7.5512e-06,  8.9034e-06],
+        [ 5.2528e-03,  2.1038e-03,  2.0142e-03,  ...,  5.1689e-04,
+          4.8614e-04,  5.1975e-04]], device='cuda:0')
+Epoch 51, bias, value: tensor([ 0.1334,  0.0616,  0.0602, -0.2203,  0.0118, -0.1518,  0.1095],
+       device='cuda:0'), grad: tensor([-0.0125,  0.0008,  0.0041,  0.0001, -0.0094,  0.0007,  0.0161],
+       device='cuda:0')
+351
+0.0018825509907063344
+changing lr
+epoch 50, time 481.63, cls_loss 0.3616 cls_loss_mapping 0.0098 cls_loss_causal 0.3430 re_mapping 0.0141 re_causal 0.0183 /// teacc 95.78 lr 0.00171031
+Epoch 52, weight, value: tensor([[ 0.0734,  0.0955,  0.1025,  ..., -0.0979, -0.0773, -0.0697],
+        [ 0.0638,  0.0617,  0.0492,  ...,  0.0009, -0.0249, -0.0544],
+        [-0.1566, -0.1774, -0.1273,  ...,  0.0497,  0.0348,  0.0356],
+        ...,
+        [-0.1053, -0.0906, -0.1259,  ...,  0.2173,  0.2046,  0.1685],
+        [-0.1419, -0.1426, -0.1538,  ..., -0.0616, -0.0417, -0.0437],
+        [ 0.2837,  0.3039,  0.3302,  ..., -0.1214, -0.1111, -0.0994]],
+       device='cuda:0'), grad: tensor([[ 0.0229,  0.0051,  0.0054,  ...,  0.0029,  0.0033,  0.0036],
+        [-0.0370, -0.0059, -0.0072,  ..., -0.0026, -0.0031, -0.0036],
+        [ 0.0179,  0.0031,  0.0032,  ...,  0.0019,  0.0024,  0.0025],
+        ...,
+        [-0.0441, -0.0175, -0.0193,  ..., -0.0083, -0.0109, -0.0092],
+        [ 0.0069,  0.0006,  0.0007,  ...,  0.0002,  0.0004,  0.0004],
+        [ 0.0277,  0.0133,  0.0157,  ...,  0.0052,  0.0070,  0.0054]],
+       device='cuda:0')
+Epoch 52, bias, value: tensor([ 0.1303,  0.0783,  0.0465, -0.2107,  0.0123, -0.1384,  0.0861],
+       device='cuda:0'), grad: tensor([ 0.0869, -0.1208,  0.0757,  0.0225, -0.0784,  0.0347, -0.0206],
+       device='cuda:0')
+351
+0.0017103063703014388
+changing lr
+epoch 51, time 460.77, cls_loss 0.3625 cls_loss_mapping 0.0141 cls_loss_causal 0.3465 re_mapping 0.0138 re_causal 0.0177 /// teacc 94.94 lr 0.00154469
+Epoch 53, weight, value: tensor([[ 0.0698,  0.0929,  0.0991,  ..., -0.0993, -0.0783, -0.0706],
+        [ 0.0676,  0.0644,  0.0521,  ...,  0.0027, -0.0235, -0.0529],
+        [-0.1557, -0.1766, -0.1266,  ...,  0.0498,  0.0351,  0.0359],
+        ...,
+        [-0.1052, -0.0895, -0.1251,  ...,  0.2151,  0.2020,  0.1659],
+        [-0.1406, -0.1426, -0.1540,  ..., -0.0617, -0.0420, -0.0438],
+        [ 0.2826,  0.3023,  0.3293,  ..., -0.1195, -0.1087, -0.0970]],
+       device='cuda:0'), grad: tensor([[ 7.6561e-03,  1.6050e-03,  1.0614e-03,  ...,  1.2989e-03,
+          1.1377e-03,  1.0967e-03],
+        [ 8.4000e-03,  9.2697e-04,  1.7619e-04,  ...,  2.8419e-04,
+          4.2462e-04,  4.6539e-04],
+        [ 5.5962e-03,  5.6219e-04,  9.2924e-05,  ...,  1.6809e-04,
+          2.7561e-04,  3.0327e-04],
+        ...,
+        [-6.4945e-04, -1.6470e-03, -1.8377e-03,  ..., -2.1229e-03,
+         -1.5669e-03, -1.4057e-03],
+        [-3.0396e-02, -2.8973e-03, -3.0088e-04,  ..., -6.7568e-04,
+         -1.3180e-03, -1.4896e-03],
+        [ 7.2479e-03,  1.2388e-03,  7.8535e-04,  ...,  9.9850e-04,
+          9.5224e-04,  9.2459e-04]], device='cuda:0')
+Epoch 53, bias, value: tensor([ 0.1264,  0.0811,  0.0492, -0.2133,  0.0007, -0.1322,  0.0925],
+       device='cuda:0'), grad: tensor([ 0.0294,  0.0405,  0.0271,  0.0106,  0.0120, -0.1488,  0.0293],
+       device='cuda:0')
+351
+0.0015446867550656784
+changing lr
+epoch 52, time 472.84, cls_loss 0.3442 cls_loss_mapping 0.0083 cls_loss_causal 0.3230 re_mapping 0.0135 re_causal 0.0175 /// teacc 96.20 lr 0.00138603
+Epoch 54, weight, value: tensor([[ 0.0703,  0.0938,  0.1002,  ..., -0.0986, -0.0779, -0.0699],
+        [ 0.0679,  0.0644,  0.0519,  ...,  0.0029, -0.0230, -0.0520],
+        [-0.1596, -0.1772, -0.1273,  ...,  0.0499,  0.0353,  0.0355],
+        ...,
+        [-0.0998, -0.0887, -0.1240,  ...,  0.2146,  0.2013,  0.1653],
+        [-0.1426, -0.1432, -0.1549,  ..., -0.0622, -0.0424, -0.0444],
+        [ 0.2835,  0.3017,  0.3289,  ..., -0.1188, -0.1082, -0.0966]],
+       device='cuda:0'), grad: tensor([[ 9.5367e-03,  2.2197e-04,  1.8215e-04,  ...,  9.0075e-04,
+          1.5965e-03,  1.8234e-03],
+        [-2.5604e-02, -6.3324e-04, -4.1366e-04,  ..., -2.9831e-03,
+         -5.2452e-03, -4.8790e-03],
+        [ 1.0742e-02,  2.1124e-04,  1.5223e-04,  ...,  1.0719e-03,
+          1.9035e-03,  2.0561e-03],
+        ...,
+        [ 1.0017e-02,  2.2554e-04,  1.9324e-04,  ...,  1.0805e-03,
+          1.7977e-03,  2.0027e-03],
+        [ 7.5226e-03,  8.8215e-05,  3.0488e-05,  ...,  6.1512e-04,
+          1.2293e-03,  1.3523e-03],
+        [ 9.4833e-03, -3.6806e-05, -9.3997e-05,  ...,  9.3746e-04,
+          1.6766e-03,  1.8559e-03]], device='cuda:0')
+Epoch 54, bias, value: tensor([ 0.1218,  0.0960,  0.0359, -0.2151,  0.0055, -0.1388,  0.0993],
+       device='cuda:0'), grad: tensor([ 0.0546, -0.1178,  0.0588, -0.1489,  0.0564,  0.0421,  0.0548],
+       device='cuda:0')
+351
+0.001386025680863044
+changing lr
+epoch 53, time 482.30, cls_loss 0.3877 cls_loss_mapping 0.0093 cls_loss_causal 0.3732 re_mapping 0.0131 re_causal 0.0175 /// teacc 96.20 lr 0.00123464
+Epoch 55, weight, value: tensor([[ 0.0714,  0.0941,  0.0996,  ..., -0.0982, -0.0776, -0.0695],
+        [ 0.0648,  0.0627,  0.0501,  ...,  0.0023, -0.0237, -0.0524],
+        [-0.1554, -0.1757, -0.1254,  ...,  0.0510,  0.0361,  0.0363],
+        ...,
+        [-0.1028, -0.0890, -0.1241,  ...,  0.2124,  0.1994,  0.1630],
+        [-0.1426, -0.1422, -0.1539,  ..., -0.0616, -0.0415, -0.0436],
+        [ 0.2845,  0.3012,  0.3286,  ..., -0.1181, -0.1075, -0.0956]],
+       device='cuda:0'), grad: tensor([[ 7.1297e-03,  4.4823e-03,  4.6425e-03,  ...,  8.5020e-04,
+          9.4986e-04,  7.6580e-04],
+        [-7.1716e-03, -4.6043e-03, -4.7607e-03,  ..., -6.3276e-04,
+         -7.5960e-04, -5.6124e-04],
+        [ 5.3287e-05,  2.5228e-05,  2.6613e-05,  ...,  3.0667e-05,
+          2.7746e-05,  2.7969e-05],
+        ...,
+        [-2.7227e-04, -1.0651e-04, -1.1563e-04,  ..., -2.5201e-04,
+         -2.2411e-04, -2.2840e-04],
+        [-1.1152e-04, -2.0117e-05, -2.3410e-05,  ..., -5.5492e-05,
+         -5.8144e-05, -5.9009e-05],
+        [ 3.7003e-04,  2.2411e-04,  2.3282e-04,  ...,  5.6565e-05,
+          6.1393e-05,  5.2243e-05]], device='cuda:0')
+Epoch 55, bias, value: tensor([ 0.1286,  0.0908,  0.0386, -0.2162, -0.0063, -0.1411,  0.1099],
+       device='cuda:0'), grad: tensor([ 9.2316e-03, -8.9722e-03,  9.4116e-05,  2.0564e-05, -5.7411e-04,
+        -2.9659e-04,  5.0926e-04], device='cuda:0')
+351
+0.0012346426699819469
+changing lr
+epoch 54, time 467.40, cls_loss 0.3550 cls_loss_mapping 0.0121 cls_loss_causal 0.3325 re_mapping 0.0126 re_causal 0.0165 /// teacc 96.20 lr 0.00109084
+Epoch 56, weight, value: tensor([[ 0.0732,  0.0959,  0.1009,  ..., -0.1001, -0.0791, -0.0711],
+        [ 0.0649,  0.0622,  0.0495,  ...,  0.0031, -0.0230, -0.0516],
+        [-0.1599, -0.1777, -0.1278,  ...,  0.0511,  0.0357,  0.0363],
+        ...,
+        [-0.1011, -0.0892, -0.1237,  ...,  0.2130,  0.2004,  0.1639],
+        [-0.1410, -0.1414, -0.1530,  ..., -0.0613, -0.0412, -0.0434],
+        [ 0.2854,  0.3018,  0.3292,  ..., -0.1175, -0.1073, -0.0954]],
+       device='cuda:0'), grad: tensor([[ 3.1250e-02,  6.6261e-03,  7.1144e-03,  ...,  7.5684e-03,
+          6.9008e-03,  7.1869e-03],
+        [ 1.0445e-02,  1.7202e-04,  3.0541e-04,  ...,  3.2401e-04,
+          2.5225e-04,  4.8351e-04],
+        [-4.2206e-02,  3.6573e-04, -1.7726e-04,  ..., -4.7803e-05,
+          1.2767e-04, -8.5735e-04],
+        ...,
+        [-3.4454e-02, -1.2787e-02, -1.3382e-02,  ..., -1.4236e-02,
+         -1.3084e-02, -1.3046e-02],
+        [ 5.7755e-03,  1.3590e-04,  2.1267e-04,  ...,  2.0623e-04,
+          1.6904e-04,  2.9135e-04],
+        [ 2.7206e-02,  5.4512e-03,  5.8670e-03,  ...,  6.1264e-03,
+          5.5809e-03,  5.8479e-03]], device='cuda:0')
+Epoch 56, bias, value: tensor([ 0.1239,  0.1104,  0.0321, -0.2222,  0.0052, -0.1409,  0.0959],
+       device='cuda:0'), grad: tensor([ 0.0791,  0.0347, -0.1451,  0.0065, -0.0645,  0.0191,  0.0701],
+       device='cuda:0')
+351
+0.0010908425876598518
+changing lr
+epoch 55, time 493.90, cls_loss 0.3708 cls_loss_mapping 0.0109 cls_loss_causal 0.3564 re_mapping 0.0124 re_causal 0.0166 /// teacc 95.78 lr 0.00095492
+Epoch 57, weight, value: tensor([[ 0.0715,  0.0957,  0.1004,  ..., -0.1002, -0.0791, -0.0713],
+        [ 0.0656,  0.0625,  0.0497,  ...,  0.0047, -0.0219, -0.0503],
+        [-0.1613, -0.1778, -0.1279,  ...,  0.0508,  0.0354,  0.0358],
+        ...,
+        [-0.1024, -0.0893, -0.1241,  ...,  0.2115,  0.1989,  0.1627],
+        [-0.1408, -0.1421, -0.1538,  ..., -0.0612, -0.0411, -0.0431],
+        [ 0.2865,  0.3015,  0.3298,  ..., -0.1180, -0.1074, -0.0954]],
+       device='cuda:0'), grad: tensor([[-0.0028, -0.0004, -0.0003,  ..., -0.0010, -0.0003, -0.0003],
+        [ 0.0098,  0.0035,  0.0038,  ...,  0.0027,  0.0024,  0.0025],
+        [ 0.0080,  0.0042,  0.0040,  ...,  0.0023,  0.0021,  0.0019],
+        ...,
+        [ 0.0029,  0.0012,  0.0014,  ...,  0.0007,  0.0009,  0.0009],
+        [ 0.0035,  0.0016,  0.0017,  ...,  0.0009,  0.0010,  0.0010],
+        [-0.0283, -0.0135, -0.0141,  ..., -0.0076, -0.0079, -0.0077]],
+       device='cuda:0')
+Epoch 57, bias, value: tensor([ 0.1161,  0.1143,  0.0320, -0.2172,  0.0045, -0.1359,  0.0906],
+       device='cuda:0'), grad: tensor([-0.0050,  0.0239,  0.0228,  0.0193,  0.0079,  0.0097, -0.0786],
+       device='cuda:0')
+351
+0.000954915028125264
+changing lr
+epoch 56, time 491.37, cls_loss 0.3494 cls_loss_mapping 0.0078 cls_loss_causal 0.3321 re_mapping 0.0120 re_causal 0.0160 /// teacc 94.94 lr 0.00082713
+Epoch 58, weight, value: tensor([[ 0.0743,  0.0971,  0.1022,  ..., -0.1002, -0.0786, -0.0707],
+        [ 0.0601,  0.0601,  0.0471,  ...,  0.0041, -0.0225, -0.0511],
+        [-0.1597, -0.1774, -0.1277,  ...,  0.0513,  0.0359,  0.0363],
+        ...,
+        [-0.0999, -0.0880, -0.1225,  ...,  0.2117,  0.1988,  0.1626],
+        [-0.1413, -0.1422, -0.1539,  ..., -0.0614, -0.0411, -0.0433],
+        [ 0.2841,  0.3008,  0.3288,  ..., -0.1181, -0.1078, -0.0956]],
+       device='cuda:0'), grad: tensor([[ 1.7643e-03,  1.0805e-03,  1.1635e-03,  ...,  2.8062e-04,
+          2.8491e-04,  2.9445e-04],
+        [ 4.8971e-04,  3.1161e-04,  3.3665e-04,  ...,  6.6221e-05,
+          6.8128e-05,  6.9857e-05],
+        [-1.1482e-03, -1.5473e-04, -1.0389e-04,  ..., -7.5245e-04,
+         -7.1430e-04, -7.6771e-04],
+        ...,
+        [ 1.6193e-03,  4.9210e-04,  4.7374e-04,  ...,  7.7438e-04,
+          7.4244e-04,  7.9346e-04],
+        [ 1.1748e-04,  1.0550e-04,  1.1265e-04,  ..., -2.1439e-06,
+         -6.2026e-06, -4.8615e-06],
+        [-2.9507e-03, -1.9054e-03, -2.0580e-03,  ..., -3.7670e-04,
+         -3.8528e-04, -3.9601e-04]], device='cuda:0')
+Epoch 58, bias, value: tensor([ 0.1258,  0.0987,  0.0408, -0.2125, -0.0024, -0.1383,  0.0924],
+       device='cuda:0'), grad: tensor([ 0.0046,  0.0012, -0.0074,  0.0003,  0.0082,  0.0003, -0.0072],
+       device='cuda:0')
+351
+0.0008271337313934874
+changing lr
+epoch 57, time 504.91, cls_loss 0.3362 cls_loss_mapping 0.0081 cls_loss_causal 0.3211 re_mapping 0.0118 re_causal 0.0156 /// teacc 95.36 lr 0.00070776
+Epoch 59, weight, value: tensor([[ 0.0727,  0.0962,  0.1013,  ..., -0.1001, -0.0785, -0.0707],
+        [ 0.0633,  0.0612,  0.0482,  ...,  0.0044, -0.0223, -0.0507],
+        [-0.1585, -0.1774, -0.1277,  ...,  0.0522,  0.0371,  0.0374],
+        ...,
+        [-0.1011, -0.0882, -0.1228,  ...,  0.2106,  0.1974,  0.1614],
+        [-0.1419, -0.1429, -0.1545,  ..., -0.0614, -0.0411, -0.0432],
+        [ 0.2829,  0.3011,  0.3290,  ..., -0.1185, -0.1082, -0.0961]],
+       device='cuda:0'), grad: tensor([[-1.2949e-05, -5.3495e-06, -6.2212e-06,  ..., -2.0433e-06,
+         -2.5928e-06, -2.2799e-06],
+        [ 3.7868e-06,  2.1290e-06,  2.1029e-06,  ...,  7.6042e-07,
+          8.0746e-07,  8.1351e-07],
+        [ 2.6560e-04,  1.6141e-04,  1.5783e-04,  ...,  5.7191e-05,
+          5.7191e-05,  5.8264e-05],
+        ...,
+        [ 2.6345e-05,  1.2785e-05,  1.3590e-05,  ...,  4.7721e-06,
+          5.2191e-06,  4.9137e-06],
+        [ 1.9774e-05,  1.1280e-05,  1.1250e-05,  ...,  4.9062e-06,
+          4.9025e-06,  5.1036e-06],
+        [-2.9755e-04, -1.8001e-04, -1.7595e-04,  ..., -6.2704e-05,
+         -6.2585e-05, -6.3479e-05]], device='cuda:0')
+Epoch 59, bias, value: tensor([ 0.1207,  0.1113,  0.0467, -0.2145, -0.0071, -0.1360,  0.0832],
+       device='cuda:0'), grad: tensor([-1.5512e-05,  6.2399e-06,  4.0364e-04, -1.3717e-05,  3.7163e-05,
+         3.3110e-05, -4.5133e-04], device='cuda:0')
+351
+0.00070775603199067
+changing lr
+epoch 58, time 477.79, cls_loss 0.3402 cls_loss_mapping 0.0067 cls_loss_causal 0.3162 re_mapping 0.0117 re_causal 0.0153 /// teacc 96.62 lr 0.00059702
+Epoch 60, weight, value: tensor([[ 0.0729,  0.0969,  0.1019,  ..., -0.1003, -0.0789, -0.0710],
+        [ 0.0628,  0.0607,  0.0478,  ...,  0.0047, -0.0220, -0.0504],
+        [-0.1602, -0.1776, -0.1279,  ...,  0.0508,  0.0357,  0.0361],
+        ...,
+        [-0.1023, -0.0889, -0.1236,  ...,  0.2103,  0.1974,  0.1612],
+        [-0.1424, -0.1431, -0.1547,  ..., -0.0613, -0.0411, -0.0431],
+        [ 0.2848,  0.3014,  0.3293,  ..., -0.1179, -0.1075, -0.0954]],
+       device='cuda:0'), grad: tensor([[ 8.1787e-03,  3.6793e-03,  3.7212e-03,  ...,  1.0090e-03,
+          9.4128e-04,  1.0433e-03],
+        [-9.7885e-03, -4.3335e-03, -4.3945e-03,  ..., -1.2856e-03,
+         -1.1864e-03, -1.3170e-03],
+        [ 2.4366e-04,  7.8261e-05,  8.1837e-05,  ...,  1.3256e-04,
+          1.2529e-04,  1.2910e-04],
+        ...,
+        [ 3.3903e-04,  1.4436e-04,  1.4985e-04,  ..., -1.0811e-05,
+         -2.3112e-05, -1.4916e-05],
+        [ 8.7142e-05,  4.0740e-05,  4.0978e-05,  ...,  1.0423e-05,
+          9.5144e-06,  1.0446e-05],
+        [ 8.1873e-04,  3.3689e-04,  3.4547e-04,  ...,  1.2386e-04,
+          1.1462e-04,  1.2851e-04]], device='cuda:0')
+Epoch 60, bias, value: tensor([ 0.1199,  0.1126,  0.0409, -0.2097, -0.0096, -0.1333,  0.0836],
+       device='cuda:0'), grad: tensor([ 0.0193, -0.0234,  0.0006,  0.0003,  0.0008,  0.0002,  0.0022],
+       device='cuda:0')
+351
+0.0005970223407163104
+changing lr
+epoch 59, time 452.53, cls_loss 0.3357 cls_loss_mapping 0.0069 cls_loss_causal 0.3295 re_mapping 0.0115 re_causal 0.0154 /// teacc 95.36 lr 0.00049516
+Epoch 61, weight, value: tensor([[ 0.0763,  0.0976,  0.1027,  ..., -0.1005, -0.0790, -0.0711],
+        [ 0.0626,  0.0614,  0.0485,  ...,  0.0048, -0.0218, -0.0502],
+        [-0.1595, -0.1772, -0.1277,  ...,  0.0512,  0.0362,  0.0365],
+        ...,
+        [-0.1007, -0.0884, -0.1232,  ...,  0.2104,  0.1973,  0.1613],
+        [-0.1436, -0.1433, -0.1547,  ..., -0.0616, -0.0414, -0.0433],
+        [ 0.2818,  0.2993,  0.3273,  ..., -0.1177, -0.1076, -0.0954]],
+       device='cuda:0'), grad: tensor([[ 5.5359e-02,  1.7151e-02,  1.6342e-02,  ...,  1.5556e-02,
+          1.2184e-02,  1.2787e-02],
+        [ 2.0279e-02,  1.2375e-02,  1.2154e-02,  ...,  1.8387e-02,
+          1.5327e-02,  1.7151e-02],
+        [ 6.1569e-03,  1.2655e-03,  1.2302e-03,  ...,  5.2309e-04,
+          4.7112e-04,  4.1175e-04],
+        ...,
+        [-9.6191e-02, -3.3905e-02, -3.2684e-02,  ..., -3.5645e-02,
+         -2.8793e-02, -3.1052e-02],
+        [ 3.5992e-03,  6.6948e-04,  6.5947e-04,  ...,  8.3268e-05,
+          8.5711e-05,  5.1439e-05],
+        [ 8.4991e-03,  1.9684e-03,  1.8501e-03,  ...,  9.1410e-04,
+          6.0558e-04,  5.4598e-04]], device='cuda:0')
+Epoch 61, bias, value: tensor([ 0.1270,  0.1150,  0.0428, -0.2145, -0.0063, -0.1359,  0.0761],
+       device='cuda:0'), grad: tensor([ 0.1208, -0.0359,  0.0229,  0.0080, -0.1581,  0.0145,  0.0276],
+       device='cuda:0')
+351
+0.0004951556604879052
+changing lr
+epoch 60, time 422.09, cls_loss 0.3315 cls_loss_mapping 0.0077 cls_loss_causal 0.3179 re_mapping 0.0113 re_causal 0.0152 /// teacc 94.94 lr 0.00040236
+Epoch 62, weight, value: tensor([[ 0.0728,  0.0955,  0.1006,  ..., -0.1015, -0.0799, -0.0720],
+        [ 0.0635,  0.0621,  0.0492,  ...,  0.0049, -0.0217, -0.0502],
+        [-0.1599, -0.1772, -0.1277,  ...,  0.0520,  0.0369,  0.0372],
+        ...,
+        [-0.1000, -0.0877, -0.1225,  ...,  0.2102,  0.1971,  0.1611],
+        [-0.1428, -0.1435, -0.1549,  ..., -0.0614, -0.0412, -0.0431],
+        [ 0.2840,  0.3003,  0.3283,  ..., -0.1175, -0.1074, -0.0952]],
+       device='cuda:0'), grad: tensor([[-5.6305e-02, -6.7444e-03, -9.4528e-03,  ..., -1.1292e-02,
+         -1.4206e-02, -1.2161e-02],
+        [ 4.0466e-02,  4.6463e-03,  6.0806e-03,  ...,  6.1417e-03,
+          7.8049e-03,  6.9275e-03],
+        [ 1.1208e-02,  1.2560e-03,  1.5059e-03,  ...,  1.1511e-03,
+          1.4782e-03,  1.4162e-03],
+        ...,
+        [ 8.8196e-03,  1.0986e-03,  1.2817e-03,  ...,  7.2432e-04,
+          9.2793e-04,  9.3842e-04],
+        [-3.3905e-02, -3.6297e-03, -3.5114e-03,  ...,  8.0228e-05,
+         -1.0729e-04, -9.9850e-04],
+        [ 2.6535e-02,  3.0041e-03,  3.6831e-03,  ...,  3.0117e-03,
+          3.8586e-03,  3.6106e-03]], device='cuda:0')
+Epoch 62, bias, value: tensor([ 0.1220,  0.1138,  0.0423, -0.2171, -0.0061, -0.1329,  0.0824],
+       device='cuda:0'), grad: tensor([-0.1245,  0.1084,  0.0356,  0.0113,  0.0282, -0.1399,  0.0809],
+       device='cuda:0')
+351
+0.00040236113724274745
+changing lr
+epoch 61, time 420.83, cls_loss 0.3339 cls_loss_mapping 0.0068 cls_loss_causal 0.3198 re_mapping 0.0113 re_causal 0.0155 /// teacc 95.78 lr 0.00031883
+Epoch 63, weight, value: tensor([[ 0.0726,  0.0951,  0.1002,  ..., -0.1014, -0.0799, -0.0719],
+        [ 0.0648,  0.0627,  0.0498,  ...,  0.0045, -0.0220, -0.0505],
+        [-0.1583, -0.1768, -0.1273,  ...,  0.0521,  0.0370,  0.0373],
+        ...,
+        [-0.1012, -0.0879, -0.1227,  ...,  0.2104,  0.1972,  0.1611],
+        [-0.1431, -0.1436, -0.1549,  ..., -0.0615, -0.0412, -0.0432],
+        [ 0.2834,  0.3001,  0.3280,  ..., -0.1174, -0.1073, -0.0950]],
+       device='cuda:0'), grad: tensor([[-0.0218, -0.0006, -0.0008,  ..., -0.0095, -0.0067, -0.0088],
+        [ 0.0182,  0.0009,  0.0013,  ...,  0.0033,  0.0026,  0.0033],
+        [-0.0245, -0.0016, -0.0024,  ...,  0.0009,  0.0001,  0.0004],
+        ...,
+        [ 0.0092,  0.0005,  0.0007,  ...,  0.0017,  0.0013,  0.0017],
+        [ 0.0064,  0.0003,  0.0005,  ...,  0.0012,  0.0009,  0.0012],
+        [ 0.0086,  0.0002,  0.0004,  ...,  0.0016,  0.0012,  0.0016]],
+       device='cuda:0')
+Epoch 63, bias, value: tensor([ 0.1227,  0.1166,  0.0475, -0.2198, -0.0125, -0.1338,  0.0835],
+       device='cuda:0'), grad: tensor([-0.1027,  0.0878, -0.1218,  0.0191,  0.0440,  0.0306,  0.0429],
+       device='cuda:0')
+351
+0.00031882564680131423
+changing lr
+epoch 62, time 420.20, cls_loss 0.3473 cls_loss_mapping 0.0061 cls_loss_causal 0.3301 re_mapping 0.0113 re_causal 0.0155 /// teacc 95.78 lr 0.00024472
+Epoch 64, weight, value: tensor([[ 0.0724,  0.0951,  0.1000,  ..., -0.1016, -0.0801, -0.0722],
+        [ 0.0637,  0.0625,  0.0497,  ...,  0.0039, -0.0225, -0.0510],
+        [-0.1586, -0.1771, -0.1277,  ...,  0.0519,  0.0368,  0.0371],
+        ...,
+        [-0.0991, -0.0872, -0.1220,  ...,  0.2112,  0.1980,  0.1620],
+        [-0.1435, -0.1435, -0.1549,  ..., -0.0615, -0.0412, -0.0432],
+        [ 0.2829,  0.2999,  0.3277,  ..., -0.1175, -0.1073, -0.0949]],
+       device='cuda:0'), grad: tensor([[-0.0306, -0.0236, -0.0245,  ...,  0.0017,  0.0004,  0.0017],
+        [ 0.0125,  0.0052,  0.0055,  ...,  0.0027,  0.0029,  0.0028],
+        [-0.0364, -0.0005, -0.0016,  ..., -0.0227, -0.0235, -0.0238],
+        ...,
+        [ 0.0717,  0.0181,  0.0196,  ...,  0.0251,  0.0260,  0.0258],
+        [ 0.0018,  0.0003,  0.0003,  ...,  0.0008,  0.0009,  0.0009],
+        [ 0.0111,  0.0050,  0.0052,  ...,  0.0021,  0.0023,  0.0021]],
+       device='cuda:0')
+Epoch 64, bias, value: tensor([ 0.1222,  0.1148,  0.0476, -0.2203, -0.0071, -0.1364,  0.0836],
+       device='cuda:0'), grad: tensor([-0.0211,  0.0247, -0.1405, -0.0776,  0.1882,  0.0057,  0.0206],
+       device='cuda:0')
+351
+0.0002447174185242325
+changing lr
+epoch 63, time 428.17, cls_loss 0.3501 cls_loss_mapping 0.0069 cls_loss_causal 0.3310 re_mapping 0.0112 re_causal 0.0155 /// teacc 95.78 lr 0.00018019
+Epoch 65, weight, value: tensor([[ 0.0734,  0.0953,  0.1003,  ..., -0.1015, -0.0800, -0.0721],
+        [ 0.0640,  0.0622,  0.0494,  ...,  0.0040, -0.0223, -0.0508],
+        [-0.1592, -0.1771, -0.1277,  ...,  0.0519,  0.0368,  0.0370],
+        ...,
+        [-0.1002, -0.0875, -0.1222,  ...,  0.2110,  0.1978,  0.1617],
+        [-0.1428, -0.1434, -0.1547,  ..., -0.0614, -0.0412, -0.0431],
+        [ 0.2824,  0.3000,  0.3278,  ..., -0.1175, -0.1074, -0.0950]],
+       device='cuda:0'), grad: tensor([[-1.8051e-02, -5.9891e-03, -5.7220e-03,  ..., -7.6408e-03,
+         -6.9427e-03, -7.5111e-03],
+        [ 6.1095e-05,  3.0845e-05,  2.6256e-05,  ...,  8.4221e-05,
+          5.8651e-05,  8.0049e-05],
+        [ 1.5974e-04,  6.3539e-05,  6.2168e-05,  ...,  1.0991e-04,
+          8.3327e-05,  9.8407e-05],
+        ...,
+        [ 1.5732e-02,  5.0354e-03,  4.7913e-03,  ...,  5.8556e-03,
+          5.6267e-03,  5.9280e-03],
+        [ 3.6597e-04,  1.5104e-04,  1.4853e-04,  ...,  2.7776e-04,
+          2.0468e-04,  2.4533e-04],
+        [ 1.2360e-03,  5.0497e-04,  4.9591e-04,  ...,  9.3746e-04,
+          6.9189e-04,  8.2874e-04]], device='cuda:0')
+Epoch 65, bias, value: tensor([ 0.1237,  0.1170,  0.0458, -0.2197, -0.0099, -0.1342,  0.0817],
+       device='cuda:0'), grad: tensor([-0.0514,  0.0002,  0.0004,  0.0011,  0.0461,  0.0008,  0.0028],
+       device='cuda:0')
+351
+0.0001801856965207339
+changing lr
+epoch 64, time 433.36, cls_loss 0.3324 cls_loss_mapping 0.0066 cls_loss_causal 0.3206 re_mapping 0.0111 re_causal 0.0151 /// teacc 94.94 lr 0.00012536
+Epoch 66, weight, value: tensor([[ 0.0733,  0.0954,  0.1003,  ..., -0.1014, -0.0799, -0.0721],
+        [ 0.0635,  0.0616,  0.0489,  ...,  0.0039, -0.0224, -0.0509],
+        [-0.1595, -0.1771, -0.1277,  ...,  0.0519,  0.0368,  0.0371],
+        ...,
+        [-0.1006, -0.0877, -0.1224,  ...,  0.2107,  0.1975,  0.1615],
+        [-0.1427, -0.1433, -0.1546,  ..., -0.0614, -0.0411, -0.0430],
+        [ 0.2834,  0.3006,  0.3283,  ..., -0.1173, -0.1073, -0.0948]],
+       device='cuda:0'), grad: tensor([[ 4.7150e-03,  3.3951e-04,  4.5371e-04,  ...,  7.8821e-04,
+          5.5218e-04,  7.3767e-04],
+        [ 6.2752e-04,  9.0897e-05,  1.4031e-04,  ...,  1.8573e-04,
+          1.9872e-04,  1.8561e-04],
+        [ 1.2260e-02,  1.0939e-03,  1.5078e-03,  ...,  2.3575e-03,
+          1.8959e-03,  2.2316e-03],
+        ...,
+        [-1.9653e-02, -1.8330e-03, -2.5520e-03,  ..., -3.9101e-03,
+         -3.2463e-03, -3.7212e-03],
+        [ 1.3518e-04,  1.3620e-05,  1.9193e-05,  ...,  2.8282e-05,
+          2.4393e-05,  2.6941e-05],
+        [ 1.7385e-03,  2.6894e-04,  3.9458e-04,  ...,  5.0545e-04,
+          5.3167e-04,  4.9734e-04]], device='cuda:0')
+Epoch 66, bias, value: tensor([ 0.1227,  0.1181,  0.0437, -0.2182, -0.0109, -0.1344,  0.0834],
+       device='cuda:0'), grad: tensor([ 0.0161,  0.0017,  0.0403,  0.0005, -0.0638,  0.0004,  0.0048],
+       device='cuda:0')
+351
+0.000125360439090882
+changing lr
+epoch 65, time 429.54, cls_loss 0.3575 cls_loss_mapping 0.0068 cls_loss_causal 0.3362 re_mapping 0.0111 re_causal 0.0153 /// teacc 96.62 lr 0.00008035
+Epoch 67, weight, value: tensor([[ 0.0731,  0.0955,  0.1004,  ..., -0.1015, -0.0799, -0.0721],
+        [ 0.0640,  0.0618,  0.0490,  ...,  0.0039, -0.0224, -0.0508],
+        [-0.1595, -0.1770, -0.1276,  ...,  0.0520,  0.0368,  0.0371],
+        ...,
+        [-0.1009, -0.0879, -0.1226,  ...,  0.2105,  0.1973,  0.1613],
+        [-0.1430, -0.1433, -0.1546,  ..., -0.0614, -0.0411, -0.0430],
+        [ 0.2836,  0.3006,  0.3284,  ..., -0.1172, -0.1071, -0.0947]],
+       device='cuda:0'), grad: tensor([[ 0.0771,  0.0486,  0.0494,  ...,  0.0056,  0.0037,  0.0048],
+        [ 0.0081,  0.0015,  0.0016,  ...,  0.0046,  0.0046,  0.0041],
+        [-0.0355, -0.0056, -0.0063,  ..., -0.0237, -0.0268, -0.0233],
+        ...,
+        [ 0.0318,  0.0050,  0.0057,  ...,  0.0215,  0.0244,  0.0212],
+        [-0.0097, -0.0010, -0.0011,  ..., -0.0064, -0.0063, -0.0057],
+        [-0.0751, -0.0490, -0.0498,  ..., -0.0038, -0.0020, -0.0032]],
+       device='cuda:0')
+Epoch 67, bias, value: tensor([ 0.1220,  0.1197,  0.0433, -0.2174, -0.0112, -0.1358,  0.0837],
+       device='cuda:0'), grad: tensor([ 0.0793,  0.0166, -0.1047,  0.0085,  0.0927, -0.0211, -0.0714],
+       device='cuda:0')
+351
+8.03520570068517e-05
+changing lr
+epoch 66, time 424.24, cls_loss 0.3216 cls_loss_mapping 0.0065 cls_loss_causal 0.3110 re_mapping 0.0111 re_causal 0.0151 /// teacc 95.78 lr 0.00004525
+Epoch 68, weight, value: tensor([[ 0.0730,  0.0955,  0.1004,  ..., -0.1015, -0.0800, -0.0722],
+        [ 0.0642,  0.0619,  0.0492,  ...,  0.0040, -0.0223, -0.0508],
+        [-0.1596, -0.1770, -0.1277,  ...,  0.0520,  0.0368,  0.0371],
+        ...,
+        [-0.1005, -0.0878, -0.1225,  ...,  0.2106,  0.1975,  0.1614],
+        [-0.1428, -0.1434, -0.1547,  ..., -0.0613, -0.0411, -0.0430],
+        [ 0.2832,  0.3003,  0.3281,  ..., -0.1172, -0.1072, -0.0947]],
+       device='cuda:0'), grad: tensor([[ 0.0075,  0.0009,  0.0009,  ...,  0.0008,  0.0009,  0.0011],
+        [ 0.0500,  0.0071,  0.0069,  ...,  0.0073,  0.0085,  0.0107],
+        [ 0.0074,  0.0009,  0.0010,  ...,  0.0008,  0.0010,  0.0012],
+        ...,
+        [-0.0298, -0.0034, -0.0037,  ..., -0.0022, -0.0030, -0.0034],
+        [-0.0488, -0.0073, -0.0069,  ..., -0.0081, -0.0093, -0.0119],
+        [ 0.0110,  0.0014,  0.0015,  ...,  0.0012,  0.0015,  0.0018]],
+       device='cuda:0')
+Epoch 68, bias, value: tensor([ 0.1217,  0.1189,  0.0428, -0.2174, -0.0097, -0.1346,  0.0827],
+       device='cuda:0'), grad: tensor([ 0.0309,  0.1697,  0.0297,  0.0110, -0.1350, -0.1497,  0.0434],
+       device='cuda:0')
+351
+4.5251191160326525e-05
+changing lr
+epoch 67, time 419.29, cls_loss 0.3579 cls_loss_mapping 0.0059 cls_loss_causal 0.3393 re_mapping 0.0110 re_causal 0.0151 /// teacc 95.36 lr 0.00002013
+Epoch 69, weight, value: tensor([[ 0.0732,  0.0956,  0.1006,  ..., -0.1014, -0.0799, -0.0721],
+        [ 0.0641,  0.0619,  0.0491,  ...,  0.0039, -0.0223, -0.0508],
+        [-0.1596, -0.1770, -0.1277,  ...,  0.0519,  0.0368,  0.0371],
+        ...,
+        [-0.1006, -0.0879, -0.1225,  ...,  0.2106,  0.1974,  0.1614],
+        [-0.1429, -0.1434, -0.1547,  ..., -0.0613, -0.0411, -0.0430],
+        [ 0.2831,  0.3003,  0.3281,  ..., -0.1172, -0.1072, -0.0947]],
+       device='cuda:0'), grad: tensor([[ 0.0131,  0.0020,  0.0027,  ...,  0.0089,  0.0073,  0.0085],
+        [ 0.0466,  0.0228,  0.0233,  ...,  0.0182,  0.0170,  0.0167],
+        [ 0.0019,  0.0007,  0.0007,  ...,  0.0013,  0.0011,  0.0011],
+        ...,
+        [-0.0283, -0.0057, -0.0064,  ..., -0.0230, -0.0194, -0.0208],
+        [ 0.0094,  0.0055,  0.0056,  ...,  0.0018,  0.0019,  0.0018],
+        [-0.0429, -0.0253, -0.0259,  ..., -0.0074, -0.0082, -0.0074]],
+       device='cuda:0')
+Epoch 69, bias, value: tensor([ 0.1221,  0.1193,  0.0426, -0.2175, -0.0101, -0.1349,  0.0828],
+       device='cuda:0'), grad: tensor([ 0.0401,  0.0784,  0.0037,  0.0005, -0.0768,  0.0133, -0.0591],
+       device='cuda:0')
+351
+2.0128530023804673e-05
+changing lr
+epoch 68, time 420.69, cls_loss 0.3643 cls_loss_mapping 0.0058 cls_loss_causal 0.3467 re_mapping 0.0110 re_causal 0.0154 /// teacc 96.20 lr 0.00000503
+Epoch 70, weight, value: tensor([[ 0.0733,  0.0957,  0.1006,  ..., -0.1014, -0.0799, -0.0721],
+        [ 0.0640,  0.0618,  0.0490,  ...,  0.0039, -0.0223, -0.0508],
+        [-0.1595, -0.1770, -0.1277,  ...,  0.0519,  0.0368,  0.0371],
+        ...,
+        [-0.1006, -0.0879, -0.1225,  ...,  0.2106,  0.1974,  0.1614],
+        [-0.1429, -0.1434, -0.1547,  ..., -0.0613, -0.0411, -0.0430],
+        [ 0.2831,  0.3003,  0.3281,  ..., -0.1172, -0.1072, -0.0947]],
+       device='cuda:0'), grad: tensor([[ 0.0251,  0.0026,  0.0027,  ...,  0.0033,  0.0032,  0.0043],
+        [-0.0291, -0.0014,  0.0009,  ..., -0.0067, -0.0002, -0.0090],
+        [ 0.0146,  0.0012,  0.0012,  ...,  0.0014,  0.0011,  0.0021],
+        ...,
+        [ 0.0168,  0.0015,  0.0014,  ...,  0.0019,  0.0014,  0.0026],
+        [ 0.0195,  0.0019,  0.0019,  ...,  0.0021,  0.0013,  0.0029],
+        [-0.0518, -0.0063, -0.0083,  ..., -0.0025, -0.0071, -0.0037]],
+       device='cuda:0')
+Epoch 70, bias, value: tensor([ 0.1220,  0.1192,  0.0428, -0.2176, -0.0101, -0.1348,  0.0829],
+       device='cuda:0'), grad: tensor([ 0.0802, -0.1765,  0.0502,  0.0176,  0.0588,  0.0667, -0.0971],
+       device='cuda:0')
+351
+5.034667293427056e-06
+changing lr
+epoch 69, time 420.21, cls_loss 0.3460 cls_loss_mapping 0.0062 cls_loss_causal 0.3260 re_mapping 0.0110 re_causal 0.0152 /// teacc 96.62 lr 0.00000000
+---------------------saving last model at epoch 69----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//cartoon/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_SGD', 'source_domain': 'cartoon', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//cartoon/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_SGD/cartoon_16factor_best_test_check.csv', 'factor_num': 16, 'epoch': 'best', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of best
+randm: False
+stride: 5
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+columns: ['cartoon', 'art_painting', 'photo', 'sketch']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+                       cartoon  art_painting      photo    sketch        Avg
+w/o do (original x)  99.701365     69.335938  84.670659  77.11886  77.041819
+      cartoon  art_painting      photo     sketch        Avg
+do  99.658703     68.554688  85.329341  77.322474  77.068834
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//cartoon/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_SGD', 'source_domain': 'cartoon', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//cartoon/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_SGD/cartoon_16factor_last_test_check.csv', 'factor_num': 16, 'epoch': 'last', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of last
+randm: False
+stride: 5
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+columns: ['cartoon', 'art_painting', 'photo', 'sketch']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+                       cartoon  art_painting      photo     sketch       Avg
+w/o do (original x)  99.658703     67.382812  83.772455  73.708323  74.95453
+      cartoon  art_painting      photo     sketch       Avg
+do  99.744027     65.478516  84.371257  73.351998  74.40059
diff --git a/Meta-causal/code-withStyleAttack/73082.error b/Meta-causal/code-withStyleAttack/73082.error
new file mode 100644
index 0000000000000000000000000000000000000000..6189d9001182494a30288006284c62de780427f2
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73082.error
@@ -0,0 +1,3 @@
+slurmstepd: error: *** JOB 73082 ON gcpl4-eu-1 CANCELLED AT 2024-08-01T09:15:11 ***
+slurmstepd: error: *** STEP 73082.0 ON gcpl4-eu-1 CANCELLED AT 2024-08-01T09:15:11 ***
+srun: Job step aborted: Waiting up to 32 seconds for job step to finish.
diff --git a/Meta-causal/code-withStyleAttack/73082.log b/Meta-causal/code-withStyleAttack/73082.log
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/Meta-causal/code-withStyleAttack/73083.error b/Meta-causal/code-withStyleAttack/73083.error
new file mode 100644
index 0000000000000000000000000000000000000000..6882c9e2571af1ce38353a62fd21b89dc6195fe1
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73083.error
@@ -0,0 +1 @@
+run_my_joint_v13_test.sh: line 30: tchsize}: command not found
diff --git a/Meta-causal/code-withStyleAttack/73083.log b/Meta-causal/code-withStyleAttack/73083.log
new file mode 100644
index 0000000000000000000000000000000000000000..8acad1f2846f66675d4b8b2fd8165f4a254f6a8d
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73083.log
@@ -0,0 +1,1981 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'photo', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 5, 'factor_num': 16, 'epochs': 70, 'nbatch': 100, 'batchsize': 6, 'lr': 0.01, 'lr_scheduler': 'cosine', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//photo/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_SGD', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 5
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_train.hdf5 torch.Size([1499, 3, 227, 227]) torch.Size([1499])
+--------------------------CA_multiple--------------------------
+---------------------------16 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_val.hdf5 torch.Size([171, 3, 227, 227]) torch.Size([171])
+-------------------------------------loading pretrain weights----------------------------------
+Epoch 1, weight, value: tensor([[-0.0130, -0.0098, -0.0056,  ..., -0.0082, -0.0040, -0.0025],
+        [-0.0190,  0.0070, -0.0017,  ..., -0.0062,  0.0056, -0.0096],
+        [-0.0108, -0.0087, -0.0216,  ...,  0.0015, -0.0043,  0.0085],
+        ...,
+        [ 0.0159, -0.0052,  0.0021,  ...,  0.0060, -0.0200,  0.0216],
+        [ 0.0088,  0.0007,  0.0173,  ...,  0.0197, -0.0219,  0.0213],
+        [-0.0080, -0.0106, -0.0078,  ..., -0.0149,  0.0111, -0.0141]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([-0.0119,  0.0113,  0.0104,  0.0182,  0.0173,  0.0086,  0.0204],
+       device='cuda:0'), grad: None
+249
+0.01
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 356.17, cls_loss 9.1807 cls_loss_mapping 1.4106 cls_loss_causal 1.5977 re_mapping 0.6886 re_causal 0.6888 /// teacc 70.76 lr 0.00999497
+Epoch 2, weight, value: tensor([[-0.0093,  0.0173,  0.0080,  ..., -0.0266, -0.0182,  0.0158],
+        [-0.0408, -0.0379, -0.0463,  ..., -0.0008, -0.0309, -0.0502],
+        [ 0.0286,  0.0006,  0.0142,  ..., -0.0009, -0.0341, -0.0093],
+        ...,
+        [-0.0209, -0.0259, -0.0471,  ...,  0.0487, -0.0038,  0.0461],
+        [-0.0322, -0.0408, -0.0579,  ..., -0.0480, -0.0523, -0.0274],
+        [ 0.1565,  0.1683,  0.2198,  ..., -0.0917, -0.0164, -0.0708]],
+       device='cuda:0'), grad: tensor([[ 7.1678e-03,  5.6229e-03,  4.6959e-03,  ...,  5.1079e-03,
+          6.0959e-03,  3.4313e-03],
+        [-2.5293e-01, -1.1328e-01, -4.3701e-02,  ..., -1.5051e-01,
+         -1.3660e-01, -4.9133e-02],
+        [ 6.2866e-02,  1.2917e-02, -8.6060e-03,  ...,  1.2817e-02,
+         -2.0237e-03, -1.9653e-02],
+        ...,
+        [-5.8655e-02, -5.7434e-02, -6.7322e-02,  ...,  4.7398e-04,
+         -5.2631e-05, -7.4291e-04],
+        [ 1.0887e-02, -9.2793e-04, -3.1509e-03,  ...,  1.1627e-02,
+          1.2527e-02,  6.0005e-03],
+        [ 1.7712e-01,  1.1841e-01,  9.7107e-02,  ...,  7.7881e-02,
+          7.7393e-02,  3.4424e-02]], device='cuda:0')
+Epoch 2, bias, value: tensor([-0.0126, -0.0059,  0.0128,  0.0333,  0.0429,  0.0104, -0.0075],
+       device='cuda:0'), grad: tensor([ 0.0413, -0.2737, -0.1282,  0.1682, -0.1069, -0.0856,  0.3848],
+       device='cuda:0')
+249
+0.009994965332706574
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 377.29, cls_loss 1.7482 cls_loss_mapping 0.8337 cls_loss_causal 1.1228 re_mapping 0.2179 re_causal 0.2172 /// teacc 87.72 lr 0.00997987
+Epoch 3, weight, value: tensor([[ 0.0051,  0.0307,  0.0239,  ..., -0.0258, -0.0202,  0.0146],
+        [-0.0263, -0.0282, -0.0419,  ..., -0.0015, -0.0331, -0.0503],
+        [ 0.0077, -0.0186, -0.0067,  ..., -0.0046, -0.0321, -0.0117],
+        ...,
+        [-0.0261, -0.0389, -0.0552,  ...,  0.0393, -0.0030,  0.0390],
+        [-0.0511, -0.0550, -0.0651,  ..., -0.0565, -0.0615, -0.0313],
+        [ 0.1748,  0.1896,  0.2321,  ..., -0.0818, -0.0128, -0.0679]],
+       device='cuda:0'), grad: tensor([[ 4.6204e-02,  2.6123e-02,  1.4961e-02,  ...,  2.2568e-02,
+          1.8372e-02,  8.1406e-03],
+        [ 1.5430e-03,  1.0384e-02,  1.1604e-02,  ..., -7.4501e-03,
+         -7.8354e-03, -8.1406e-03],
+        [ 6.9542e-03,  4.2839e-03,  2.6703e-03,  ...,  3.0918e-03,
+          2.4586e-03,  9.1124e-04],
+        ...,
+        [ 1.6891e-02,  7.1831e-03,  2.7351e-03,  ...,  1.0277e-02,
+          8.8577e-03,  5.0545e-03],
+        [ 6.2585e-05,  4.1604e-05,  2.7701e-05,  ...,  2.3305e-05,
+          1.7300e-05,  3.3733e-06],
+        [-7.6660e-02, -5.0507e-02, -3.3234e-02,  ..., -3.1235e-02,
+         -2.4170e-02, -7.1487e-03]], device='cuda:0')
+Epoch 3, bias, value: tensor([ 0.0138, -0.0189,  0.0329,  0.0320,  0.0512, -0.0091, -0.0294],
+       device='cuda:0'), grad: tensor([ 1.1981e-01, -5.6824e-02,  1.5747e-02,  1.5045e-02,  5.8777e-02,
+         1.2165e-04, -1.5271e-01], device='cuda:0')
+249
+0.009979871469976196
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 378.17, cls_loss 1.2537 cls_loss_mapping 0.5841 cls_loss_causal 0.9107 re_mapping 0.1715 re_causal 0.1692 /// teacc 91.23 lr 0.00995475
+Epoch 4, weight, value: tensor([[ 0.0153,  0.0472,  0.0420,  ..., -0.0341, -0.0246,  0.0093],
+        [-0.0318, -0.0321, -0.0457,  ..., -0.0086, -0.0426, -0.0531],
+        [ 0.0104, -0.0239, -0.0124,  ..., -0.0005, -0.0278, -0.0131],
+        ...,
+        [-0.0324, -0.0444, -0.0560,  ...,  0.0406,  0.0029,  0.0446],
+        [-0.0347, -0.0508, -0.0661,  ..., -0.0632, -0.0645, -0.0387],
+        [ 0.1686,  0.1911,  0.2291,  ..., -0.0704, -0.0096, -0.0612]],
+       device='cuda:0'), grad: tensor([[-5.9547e-03, -1.8158e-03,  8.0872e-04,  ..., -3.7251e-03,
+         -3.3703e-03,  4.9919e-05],
+        [ 8.7585e-03,  2.8858e-03,  9.0647e-04,  ...,  3.3989e-03,
+          3.5152e-03,  1.5044e-04],
+        [ 1.3451e-02,  4.0016e-03,  5.1594e-04,  ...,  5.6763e-03,
+          5.5771e-03,  2.4581e-04],
+        ...,
+        [-9.0103e-03, -2.1706e-03, -1.4126e-04,  ..., -3.4103e-03,
+         -3.2692e-03, -2.9802e-04],
+        [ 6.2790e-03,  2.4490e-03,  1.6565e-03,  ...,  1.7776e-03,
+          2.1763e-03,  1.2267e-04],
+        [-1.3840e-02, -5.4550e-03, -3.7785e-03,  ..., -3.8471e-03,
+         -4.7569e-03, -2.8157e-04]], device='cuda:0')
+Epoch 4, bias, value: tensor([ 0.0585, -0.0530,  0.0717,  0.0329,  0.0408, -0.0572, -0.0223],
+       device='cuda:0'), grad: tensor([-0.0173,  0.0204,  0.0383,  0.0008, -0.0330,  0.0083, -0.0175],
+       device='cuda:0')
+249
+0.009954748808839675
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 373.47, cls_loss 1.0614 cls_loss_mapping 0.4277 cls_loss_causal 0.8207 re_mapping 0.1386 re_causal 0.1359 /// teacc 94.15 lr 0.00991965
+Epoch 5, weight, value: tensor([[ 0.0149,  0.0465,  0.0378,  ..., -0.0288, -0.0226,  0.0130],
+        [-0.0502, -0.0487, -0.0567,  ..., -0.0143, -0.0468, -0.0561],
+        [ 0.0150, -0.0180, -0.0040,  ..., -0.0025, -0.0329, -0.0117],
+        ...,
+        [-0.0310, -0.0415, -0.0525,  ...,  0.0349, -0.0031,  0.0405],
+        [-0.0461, -0.0596, -0.0772,  ..., -0.0593, -0.0609, -0.0368],
+        [ 0.1774,  0.1992,  0.2344,  ..., -0.0663, -0.0005, -0.0599]],
+       device='cuda:0'), grad: tensor([[ 1.9363e-02,  6.0844e-03,  1.7624e-03,  ...,  5.1155e-03,
+          5.9280e-03,  8.7321e-05],
+        [ 5.2757e-03,  1.6298e-03,  4.8614e-04,  ...,  1.4086e-03,
+          1.6317e-03,  2.6494e-05],
+        [-4.9774e-02, -1.6388e-02, -3.8910e-03,  ..., -1.2367e-02,
+         -1.4481e-02,  8.4698e-05],
+        ...,
+        [ 3.7567e-02,  1.1673e-02,  3.4294e-03,  ...,  9.9792e-03,
+          1.1566e-02,  1.7285e-04],
+        [-2.9510e-02, -8.1406e-03, -3.3588e-03,  ..., -8.7509e-03,
+         -9.9945e-03, -4.5395e-04],
+        [ 1.0803e-02,  3.2520e-03,  9.6178e-04,  ...,  2.8973e-03,
+          3.3665e-03,  3.6955e-05]], device='cuda:0')
+Epoch 5, bias, value: tensor([ 0.0048, -0.0661,  0.0650,  0.0172,  0.0948, -0.0150, -0.0299],
+       device='cuda:0'), grad: tensor([ 0.0543,  0.0159, -0.0979,  0.0214,  0.1100, -0.1383,  0.0346],
+       device='cuda:0')
+249
+0.009919647942993149
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 376.89, cls_loss 0.9794 cls_loss_mapping 0.3109 cls_loss_causal 0.7529 re_mapping 0.1258 re_causal 0.1227 /// teacc 95.32 lr 0.00987464
+Epoch 6, weight, value: tensor([[ 0.0102,  0.0393,  0.0302,  ..., -0.0363, -0.0282,  0.0048],
+        [-0.0551, -0.0495, -0.0563,  ...,  0.0003, -0.0329, -0.0417],
+        [ 0.0142, -0.0236, -0.0106,  ..., -0.0023, -0.0328, -0.0142],
+        ...,
+        [-0.0356, -0.0396, -0.0550,  ...,  0.0382, -0.0059,  0.0398],
+        [-0.0486, -0.0616, -0.0789,  ..., -0.0656, -0.0625, -0.0398],
+        [ 0.1962,  0.2116,  0.2492,  ..., -0.0701, -0.0041, -0.0656]],
+       device='cuda:0'), grad: tensor([[-0.0958, -0.0329, -0.0173,  ..., -0.0471, -0.0464, -0.0225],
+        [ 0.0752,  0.0297,  0.0183,  ...,  0.0367,  0.0370,  0.0207],
+        [-0.0220, -0.0135, -0.0100,  ..., -0.0087, -0.0084, -0.0054],
+        ...,
+        [ 0.0206,  0.0069,  0.0030,  ...,  0.0101,  0.0091,  0.0032],
+        [ 0.0027,  0.0012,  0.0007,  ...,  0.0011,  0.0011,  0.0005],
+        [ 0.0057,  0.0031,  0.0022,  ...,  0.0023,  0.0022,  0.0013]],
+       device='cuda:0')
+Epoch 6, bias, value: tensor([ 0.0097, -0.0486,  0.0544,  0.0038,  0.0039,  0.0277,  0.0190],
+       device='cuda:0'), grad: tensor([-0.2627,  0.1774, -0.0594,  0.0396,  0.0837,  0.0071,  0.0143],
+       device='cuda:0')
+249
+0.009874639560909117
+changing lr
+---------------------saving model at epoch 5----------------------------------------------------
+epoch 5, time 377.08, cls_loss 0.8780 cls_loss_mapping 0.2341 cls_loss_causal 0.6657 re_mapping 0.1102 re_causal 0.1064 /// teacc 96.49 lr 0.00981981
+Epoch 7, weight, value: tensor([[ 0.0086,  0.0348,  0.0268,  ..., -0.0377, -0.0317,  0.0024],
+        [-0.0480, -0.0475, -0.0567,  ...,  0.0035, -0.0287, -0.0410],
+        [ 0.0078, -0.0260, -0.0114,  ..., -0.0015, -0.0316, -0.0123],
+        ...,
+        [-0.0430, -0.0473, -0.0599,  ...,  0.0413,  0.0011,  0.0462],
+        [-0.0417, -0.0575, -0.0749,  ..., -0.0669, -0.0640, -0.0431],
+        [ 0.1921,  0.2152,  0.2517,  ..., -0.0700, -0.0050, -0.0638]],
+       device='cuda:0'), grad: tensor([[-0.0116, -0.0039, -0.0012,  ..., -0.0035, -0.0032,  0.0006],
+        [ 0.0328,  0.0093,  0.0032,  ...,  0.0097,  0.0107,  0.0030],
+        [ 0.0430,  0.0123,  0.0051,  ...,  0.0110,  0.0128,  0.0042],
+        ...,
+        [-0.0153, -0.0073, -0.0049,  ..., -0.0054, -0.0062, -0.0033],
+        [ 0.0035,  0.0011,  0.0005,  ...,  0.0010,  0.0012,  0.0004],
+        [-0.0540, -0.0119, -0.0029,  ..., -0.0133, -0.0157, -0.0050]],
+       device='cuda:0')
+Epoch 7, bias, value: tensor([ 0.0150, -0.0337,  0.0899, -0.0120,  0.0463, -0.0247, -0.0118],
+       device='cuda:0'), grad: tensor([-0.0170,  0.0865,  0.1210,  0.0043, -0.0445,  0.0101, -0.1604],
+       device='cuda:0')
+249
+0.009819814303479266
+changing lr
+epoch 6, time 375.03, cls_loss 0.8127 cls_loss_mapping 0.2019 cls_loss_causal 0.6504 re_mapping 0.0968 re_causal 0.0924 /// teacc 95.91 lr 0.00975528
+Epoch 8, weight, value: tensor([[ 0.0093,  0.0373,  0.0292,  ..., -0.0387, -0.0333,  0.0025],
+        [-0.0538, -0.0520, -0.0610,  ...,  0.0098, -0.0221, -0.0367],
+        [ 0.0106, -0.0250, -0.0106,  ..., -0.0037, -0.0348, -0.0138],
+        ...,
+        [-0.0573, -0.0590, -0.0704,  ...,  0.0335, -0.0043,  0.0419],
+        [-0.0409, -0.0550, -0.0735,  ..., -0.0676, -0.0653, -0.0455],
+        [ 0.1966,  0.2218,  0.2591,  ..., -0.0705, -0.0062, -0.0632]],
+       device='cuda:0'), grad: tensor([[ 0.0138,  0.0039,  0.0021,  ...,  0.0036,  0.0041,  0.0008],
+        [-0.0324, -0.0079, -0.0029,  ..., -0.0090, -0.0095, -0.0015],
+        [ 0.0101,  0.0019,  0.0005,  ...,  0.0024,  0.0031,  0.0005],
+        ...,
+        [ 0.0173,  0.0038,  0.0013,  ...,  0.0044,  0.0052,  0.0008],
+        [-0.0342, -0.0054, -0.0009,  ..., -0.0077, -0.0108, -0.0017],
+        [-0.0056, -0.0040, -0.0038,  ..., -0.0010, -0.0011, -0.0005]],
+       device='cuda:0')
+Epoch 8, bias, value: tensor([ 0.0010, -0.0700,  0.0989,  0.0331,  0.0422, -0.0144, -0.0228],
+       device='cuda:0'), grad: tensor([ 0.0327, -0.0768,  0.0335,  0.0900,  0.0488, -0.1221, -0.0061],
+       device='cuda:0')
+249
+0.009755282581475767
+changing lr
+epoch 7, time 377.20, cls_loss 0.8192 cls_loss_mapping 0.1633 cls_loss_causal 0.6243 re_mapping 0.0874 re_causal 0.0830 /// teacc 94.74 lr 0.00968117
+Epoch 9, weight, value: tensor([[-2.0632e-04,  3.1240e-02,  2.2268e-02,  ..., -4.1899e-02,
+         -4.0688e-02, -3.3249e-03],
+        [-5.4239e-02, -5.5262e-02, -6.5367e-02,  ...,  1.9426e-02,
+         -1.1009e-02, -2.4240e-02],
+        [ 1.6659e-02, -2.1932e-02, -8.2900e-03,  ..., -2.1464e-03,
+         -3.2936e-02, -1.3620e-02],
+        ...,
+        [-6.2272e-02, -5.7521e-02, -6.5612e-02,  ...,  2.9297e-02,
+         -3.8766e-03,  3.9286e-02],
+        [-5.2564e-02, -6.1264e-02, -7.8520e-02,  ..., -7.7857e-02,
+         -7.5675e-02, -5.2426e-02],
+        [ 2.1707e-01,  2.2963e-01,  2.6466e-01,  ..., -6.6972e-02,
+         -3.9035e-03, -6.5227e-02]], device='cuda:0'), grad: tensor([[-1.5783e-04, -1.3578e-04,  9.0227e-06,  ..., -2.5287e-05,
+         -5.8979e-05,  1.1489e-05],
+        [ 4.3304e-02,  9.6207e-03,  2.6226e-03,  ...,  9.2316e-03,
+          1.1589e-02,  5.1641e-04],
+        [ 2.1637e-02,  4.6730e-03,  1.2932e-03,  ...,  4.4861e-03,
+          5.6152e-03,  2.2233e-04],
+        ...,
+        [-4.9408e-02, -9.7046e-03, -9.8515e-04,  ..., -1.1185e-02,
+         -1.4160e-02, -2.4819e-04],
+        [-5.8289e-02, -1.3664e-02, -6.4125e-03,  ..., -1.0338e-02,
+         -1.2627e-02, -8.7643e-04],
+        [ 3.6865e-02,  8.1635e-03,  3.2501e-03,  ...,  7.6065e-03,
+          9.0027e-03,  1.1244e-03]], device='cuda:0')
+Epoch 9, bias, value: tensor([-0.0115, -0.0427,  0.0700,  0.0098,  0.0355, -0.0160,  0.0222],
+       device='cuda:0'), grad: tensor([ 0.0005,  0.1077,  0.0562,  0.0209, -0.1145, -0.1785,  0.1077],
+       device='cuda:0')
+249
+0.009681174353198686
+changing lr
+epoch 8, time 375.63, cls_loss 0.7151 cls_loss_mapping 0.1488 cls_loss_causal 0.5934 re_mapping 0.0815 re_causal 0.0760 /// teacc 92.98 lr 0.00959764
+Epoch 10, weight, value: tensor([[-0.0009,  0.0373,  0.0267,  ..., -0.0388, -0.0421, -0.0024],
+        [-0.0625, -0.0687, -0.0775,  ...,  0.0306,  0.0006, -0.0153],
+        [ 0.0093, -0.0270, -0.0132,  ..., -0.0007, -0.0322, -0.0126],
+        ...,
+        [-0.0559, -0.0525, -0.0603,  ...,  0.0200, -0.0104,  0.0350],
+        [-0.0440, -0.0580, -0.0774,  ..., -0.0784, -0.0758, -0.0551],
+        [ 0.2147,  0.2291,  0.2661,  ..., -0.0730, -0.0088, -0.0707]],
+       device='cuda:0'), grad: tensor([[ 6.3667e-03,  1.1892e-03,  4.9293e-05,  ...,  1.3676e-03,
+          1.5659e-03,  4.9067e-04],
+        [ 1.9684e-02,  3.6316e-03,  1.1951e-04,  ...,  4.3221e-03,
+          4.9286e-03,  1.6232e-03],
+        [-1.7609e-02, -3.9597e-03, -3.9339e-04,  ..., -2.7027e-03,
+         -3.5744e-03, -2.1768e-04],
+        ...,
+        [ 1.9714e-02,  3.7212e-03,  2.1970e-04,  ...,  4.6501e-03,
+          5.3711e-03,  1.9083e-03],
+        [-2.9907e-02, -5.3177e-03,  3.4094e-05,  ..., -7.6942e-03,
+         -8.6746e-03, -4.2229e-03],
+        [-1.5656e-02, -2.3441e-03, -1.0811e-05,  ..., -3.3360e-03,
+         -3.3855e-03, -6.0606e-04]], device='cuda:0')
+Epoch 10, bias, value: tensor([-0.0383, -0.0583,  0.0735,  0.0114,  0.0293,  0.0058,  0.0432],
+       device='cuda:0'), grad: tensor([ 0.0297,  0.0921, -0.0733,  0.0845,  0.0907, -0.1260, -0.0979],
+       device='cuda:0')
+249
+0.009597638862757255
+changing lr
+epoch 9, time 372.98, cls_loss 0.7123 cls_loss_mapping 0.1316 cls_loss_causal 0.5551 re_mapping 0.0770 re_causal 0.0717 /// teacc 95.32 lr 0.00950484
+Epoch 11, weight, value: tensor([[ 0.0065,  0.0402,  0.0297,  ..., -0.0403, -0.0433, -0.0066],
+        [-0.0614, -0.0662, -0.0762,  ...,  0.0353,  0.0039, -0.0110],
+        [ 0.0075, -0.0277, -0.0128,  ...,  0.0022, -0.0268, -0.0076],
+        ...,
+        [-0.0521, -0.0501, -0.0590,  ...,  0.0186, -0.0112,  0.0355],
+        [-0.0512, -0.0617, -0.0779,  ..., -0.0780, -0.0755, -0.0549],
+        [ 0.2134,  0.2279,  0.2629,  ..., -0.0740, -0.0112, -0.0739]],
+       device='cuda:0'), grad: tensor([[-0.0765, -0.0232, -0.0119,  ..., -0.0201, -0.0214, -0.0083],
+        [ 0.0164,  0.0046,  0.0028,  ...,  0.0043,  0.0048,  0.0019],
+        [ 0.0126,  0.0036,  0.0027,  ...,  0.0041,  0.0047,  0.0026],
+        ...,
+        [ 0.0436,  0.0146,  0.0063,  ...,  0.0120,  0.0120,  0.0050],
+        [-0.0056, -0.0020, -0.0017,  ..., -0.0028, -0.0030, -0.0024],
+        [ 0.0075,  0.0019,  0.0014,  ...,  0.0019,  0.0023,  0.0010]],
+       device='cuda:0')
+Epoch 11, bias, value: tensor([-0.0782, -0.0257,  0.0311,  0.0278,  0.0229,  0.0203,  0.0676],
+       device='cuda:0'), grad: tensor([-0.2893,  0.0589,  0.0387,  0.0067,  0.1727, -0.0122,  0.0246],
+       device='cuda:0')
+249
+0.009504844339512096
+changing lr
+epoch 10, time 380.67, cls_loss 0.6570 cls_loss_mapping 0.1133 cls_loss_causal 0.5028 re_mapping 0.0719 re_causal 0.0644 /// teacc 94.74 lr 0.00940298
+Epoch 12, weight, value: tensor([[ 0.0067,  0.0365,  0.0243,  ..., -0.0350, -0.0406, -0.0027],
+        [-0.0614, -0.0662, -0.0785,  ...,  0.0304, -0.0004, -0.0159],
+        [ 0.0141, -0.0249, -0.0102,  ...,  0.0040, -0.0235, -0.0061],
+        ...,
+        [-0.0629, -0.0558, -0.0619,  ...,  0.0193, -0.0095,  0.0365],
+        [-0.0467, -0.0619, -0.0792,  ..., -0.0815, -0.0779, -0.0591],
+        [ 0.2078,  0.2263,  0.2627,  ..., -0.0741, -0.0125, -0.0731]],
+       device='cuda:0'), grad: tensor([[-2.4994e-02, -5.8365e-03, -1.5154e-03,  ..., -3.9291e-03,
+         -5.4817e-03, -1.4696e-03],
+        [ 1.6298e-03,  3.6812e-04,  1.0860e-04,  ...,  2.3842e-04,
+          3.5524e-04,  9.6202e-05],
+        [ 1.3268e-02,  3.0956e-03,  8.0919e-04,  ...,  2.0828e-03,
+          2.9106e-03,  7.8154e-04],
+        ...,
+        [ 7.4768e-03,  1.7595e-03,  4.3774e-04,  ...,  1.1978e-03,
+          1.6403e-03,  4.3726e-04],
+        [ 5.0354e-04,  1.1718e-04,  3.0071e-05,  ...,  7.7248e-05,
+          1.0931e-04,  2.8878e-05],
+        [ 6.3229e-04,  1.4758e-04,  3.9041e-05,  ...,  9.9242e-05,
+          1.3900e-04,  3.7521e-05]], device='cuda:0')
+Epoch 12, bias, value: tensor([ 0.0103, -0.0567,  0.0035,  0.0019, -0.0335,  0.0897,  0.0497],
+       device='cuda:0'), grad: tensor([-0.0610,  0.0039,  0.0323,  0.0037,  0.0183,  0.0012,  0.0015],
+       device='cuda:0')
+249
+0.009402977659283692
+changing lr
+---------------------saving model at epoch 11----------------------------------------------------
+epoch 11, time 383.17, cls_loss 0.5923 cls_loss_mapping 0.0936 cls_loss_causal 0.4854 re_mapping 0.0677 re_causal 0.0605 /// teacc 97.66 lr 0.00929224
+Epoch 13, weight, value: tensor([[ 0.0025,  0.0393,  0.0265,  ..., -0.0298, -0.0364,  0.0013],
+        [-0.0602, -0.0694, -0.0810,  ...,  0.0334,  0.0053, -0.0113],
+        [ 0.0123, -0.0286, -0.0127,  ..., -0.0023, -0.0292, -0.0111],
+        ...,
+        [-0.0657, -0.0557, -0.0612,  ...,  0.0193, -0.0118,  0.0348],
+        [-0.0396, -0.0527, -0.0704,  ..., -0.0783, -0.0737, -0.0558],
+        [ 0.2116,  0.2282,  0.2636,  ..., -0.0757, -0.0149, -0.0756]],
+       device='cuda:0'), grad: tensor([[-1.0880e-02, -1.5640e-03,  5.2571e-05,  ..., -8.8654e-03,
+         -9.3536e-03, -8.5983e-03],
+        [ 4.0131e-02,  7.8278e-03,  2.4509e-03,  ...,  1.4961e-02,
+          1.8173e-02,  1.0132e-02],
+        [ 1.3054e-02,  3.0308e-03,  1.7271e-03,  ...,  3.0804e-03,
+          4.4518e-03,  1.8902e-03],
+        ...,
+        [-1.3477e-01, -2.9556e-02, -1.4206e-02,  ..., -3.3691e-02,
+         -4.6875e-02, -1.7914e-02],
+        [ 4.2755e-02,  1.0361e-02,  6.3591e-03,  ...,  7.9193e-03,
+          1.2672e-02,  4.0092e-03],
+        [ 3.5896e-03,  8.1587e-04,  4.5323e-04,  ...,  9.3412e-04,
+          1.3046e-03,  6.1321e-04]], device='cuda:0')
+Epoch 13, bias, value: tensor([ 0.0131, -0.0841,  0.0209, -0.0050, -0.0340,  0.0584,  0.0949],
+       device='cuda:0'), grad: tensor([-0.0694,  0.1128,  0.0270,  0.1164, -0.2693,  0.0745,  0.0080],
+       device='cuda:0')
+249
+0.009292243968009333
+changing lr
+epoch 12, time 373.75, cls_loss 0.5880 cls_loss_mapping 0.0897 cls_loss_causal 0.5041 re_mapping 0.0606 re_causal 0.0553 /// teacc 94.15 lr 0.00917287
+Epoch 14, weight, value: tensor([[ 0.0010,  0.0371,  0.0241,  ..., -0.0402, -0.0478, -0.0121],
+        [-0.0600, -0.0689, -0.0814,  ...,  0.0378,  0.0080, -0.0081],
+        [ 0.0083, -0.0287, -0.0126,  ..., -0.0021, -0.0291, -0.0104],
+        ...,
+        [-0.0602, -0.0573, -0.0642,  ...,  0.0217, -0.0062,  0.0401],
+        [-0.0402, -0.0547, -0.0722,  ..., -0.0790, -0.0726, -0.0567],
+        [ 0.2152,  0.2308,  0.2660,  ..., -0.0764, -0.0168, -0.0764]],
+       device='cuda:0'), grad: tensor([[ 4.1634e-05,  1.1899e-05,  7.6964e-06,  ...,  1.4722e-05,
+          1.7375e-05,  1.3106e-05],
+        [-2.4121e-06,  5.4389e-07,  1.0757e-06,  ...,  2.5816e-06,
+          1.8748e-06,  3.1050e-06],
+        [ 3.7730e-05,  1.0252e-05,  6.4597e-06,  ...,  1.2770e-05,
+          1.5453e-05,  1.1414e-05],
+        ...,
+        [-5.4650e-06, -6.7614e-07, -5.1316e-07,  ...,  6.4112e-06,
+          3.6415e-06,  5.4985e-06],
+        [ 3.5256e-05,  5.9418e-06,  1.7686e-06,  ...,  1.7524e-05,
+          1.9044e-05,  1.5363e-05],
+        [-2.5213e-05, -1.6987e-05, -1.5914e-05,  ..., -5.4110e-07,
+         -3.2131e-06, -1.4352e-06]], device='cuda:0')
+Epoch 14, bias, value: tensor([-0.0040, -0.1130, -0.0536, -0.0155,  0.0231,  0.0802,  0.1461],
+       device='cuda:0'), grad: tensor([ 1.5450e-04,  9.6858e-06,  1.4102e-04, -4.0913e-04, -5.1297e-06,
+         1.5688e-04, -4.7892e-05], device='cuda:0')
+249
+0.009172866268606516
+changing lr
+---------------------saving model at epoch 13----------------------------------------------------
+epoch 13, time 377.84, cls_loss 0.6214 cls_loss_mapping 0.0801 cls_loss_causal 0.5115 re_mapping 0.0560 re_causal 0.0517 /// teacc 98.25 lr 0.00904508
+Epoch 15, weight, value: tensor([[-0.0012,  0.0319,  0.0201,  ..., -0.0389, -0.0470, -0.0101],
+        [-0.0658, -0.0667, -0.0800,  ...,  0.0436,  0.0150, -0.0010],
+        [ 0.0120, -0.0298, -0.0136,  ..., -0.0072, -0.0341, -0.0154],
+        ...,
+        [-0.0574, -0.0576, -0.0651,  ...,  0.0144, -0.0129,  0.0321],
+        [-0.0466, -0.0563, -0.0735,  ..., -0.0850, -0.0779, -0.0614],
+        [ 0.2258,  0.2372,  0.2714,  ..., -0.0708, -0.0125, -0.0722]],
+       device='cuda:0'), grad: tensor([[ 1.8406e-03,  2.8038e-04,  7.3373e-05,  ...,  3.9077e-04,
+          5.7840e-04,  3.2759e-04],
+        [-1.9932e-03, -2.3329e-04, -2.6852e-05,  ..., -3.3689e-04,
+         -5.6744e-04, -3.3736e-04],
+        [ 3.5930e-04,  6.0827e-05,  1.8269e-05,  ...,  8.5890e-05,
+          1.2279e-04,  6.8426e-05],
+        ...,
+        [-1.8406e-03, -3.7336e-04, -1.4138e-04,  ..., -5.1260e-04,
+         -6.7568e-04, -3.6263e-04],
+        [ 1.9062e-04,  2.6464e-05,  6.4038e-06,  ...,  3.6836e-05,
+          5.7906e-05,  3.3438e-05],
+        [ 1.0738e-03,  1.7619e-04,  5.1349e-05,  ...,  2.4629e-04,
+          3.5453e-04,  1.9825e-04]], device='cuda:0')
+Epoch 15, bias, value: tensor([-0.0149, -0.1289, -0.0092, -0.0506,  0.0003,  0.0902,  0.1758],
+       device='cuda:0'), grad: tensor([ 0.0063, -0.0074,  0.0012,  0.0013, -0.0057,  0.0007,  0.0036],
+       device='cuda:0')
+249
+0.00904508497187474
+changing lr
+epoch 14, time 375.72, cls_loss 0.6174 cls_loss_mapping 0.0825 cls_loss_causal 0.4969 re_mapping 0.0546 re_causal 0.0533 /// teacc 94.74 lr 0.00890916
+Epoch 16, weight, value: tensor([[ 0.0004,  0.0352,  0.0240,  ..., -0.0346, -0.0415, -0.0065],
+        [-0.0642, -0.0665, -0.0770,  ...,  0.0436,  0.0162,  0.0010],
+        [ 0.0101, -0.0297, -0.0139,  ..., -0.0017, -0.0281, -0.0075],
+        ...,
+        [-0.0528, -0.0568, -0.0650,  ...,  0.0157, -0.0114,  0.0319],
+        [-0.0445, -0.0544, -0.0715,  ..., -0.0812, -0.0748, -0.0586],
+        [ 0.2125,  0.2305,  0.2659,  ..., -0.0711, -0.0138, -0.0718]],
+       device='cuda:0'), grad: tensor([[ 1.1539e-03,  2.0230e-04,  8.5711e-05,  ...,  2.8110e-04,
+          3.5596e-04,  1.8382e-04],
+        [ 2.3651e-03,  3.8719e-04,  1.4305e-04,  ...,  5.5981e-04,
+          7.1716e-04,  3.6645e-04],
+        [-5.5145e-02, -7.4654e-03, -1.7490e-03,  ..., -1.3176e-02,
+         -1.7136e-02, -8.9264e-03],
+        ...,
+        [ 4.4250e-03,  8.5545e-04,  4.5133e-04,  ...,  1.2112e-03,
+          1.5488e-03,  9.0790e-04],
+        [ 4.6936e-02,  7.1869e-03,  2.4319e-03,  ...,  1.1482e-02,
+          1.4824e-02,  7.8735e-03],
+        [-2.4109e-03, -1.6088e-03, -1.5345e-03,  ..., -1.0195e-03,
+         -1.1539e-03, -8.5402e-04]], device='cuda:0')
+Epoch 16, bias, value: tensor([-0.0835, -0.1015,  0.0232, -0.0332, -0.0233,  0.0664,  0.2139],
+       device='cuda:0'), grad: tensor([ 0.0032,  0.0067, -0.1591,  0.0077,  0.0120,  0.1333, -0.0037],
+       device='cuda:0')
+249
+0.008909157412340152
+changing lr
+epoch 15, time 376.01, cls_loss 0.5369 cls_loss_mapping 0.0643 cls_loss_causal 0.4453 re_mapping 0.0505 re_causal 0.0493 /// teacc 96.49 lr 0.00876536
+Epoch 17, weight, value: tensor([[-0.0111,  0.0287,  0.0167,  ..., -0.0356, -0.0422, -0.0092],
+        [-0.0552, -0.0583, -0.0666,  ...,  0.0463,  0.0207,  0.0044],
+        [ 0.0096, -0.0319, -0.0162,  ...,  0.0010, -0.0245, -0.0062],
+        ...,
+        [-0.0520, -0.0559, -0.0673,  ...,  0.0076, -0.0224,  0.0272],
+        [-0.0412, -0.0537, -0.0702,  ..., -0.0860, -0.0800, -0.0651],
+        [ 0.2093,  0.2269,  0.2628,  ..., -0.0672, -0.0099, -0.0686]],
+       device='cuda:0'), grad: tensor([[ 2.1172e-03,  1.1820e-04,  1.5395e-06,  ...,  8.4925e-04,
+          9.3651e-04,  7.8773e-04],
+        [ 5.2567e-03,  2.8086e-04,  2.7623e-06,  ...,  2.4223e-03,
+          2.7027e-03,  2.3232e-03],
+        [-7.0686e-03, -2.6774e-04, -8.1211e-06,  ..., -6.3210e-03,
+         -7.3242e-03, -6.7024e-03],
+        ...,
+        [ 3.4828e-03,  2.0230e-04,  1.0533e-06,  ...,  1.1511e-03,
+          1.2445e-03,  1.0080e-03],
+        [ 3.8300e-03,  2.2948e-04,  2.0415e-06,  ...,  1.0996e-03,
+          1.1683e-03,  9.1505e-04],
+        [-1.2932e-02, -8.3685e-04, -2.4643e-06,  ..., -1.9283e-03,
+         -1.7967e-03, -1.0052e-03]], device='cuda:0')
+Epoch 17, bias, value: tensor([-0.1117, -0.1021,  0.0339, -0.0906, -0.0134,  0.0822,  0.2633],
+       device='cuda:0'), grad: tensor([ 0.0192,  0.0464, -0.0489,  0.0457,  0.0328,  0.0367, -0.1320],
+       device='cuda:0')
+249
+0.00876535733001806
+changing lr
+epoch 16, time 381.54, cls_loss 0.4927 cls_loss_mapping 0.0565 cls_loss_causal 0.4465 re_mapping 0.0454 re_causal 0.0462 /// teacc 97.08 lr 0.00861397
+Epoch 18, weight, value: tensor([[-0.0124,  0.0276,  0.0180,  ..., -0.0334, -0.0392, -0.0092],
+        [-0.0547, -0.0602, -0.0684,  ...,  0.0492,  0.0242,  0.0071],
+        [ 0.0054, -0.0346, -0.0187,  ...,  0.0031, -0.0214, -0.0028],
+        ...,
+        [-0.0439, -0.0486, -0.0621,  ...,  0.0019, -0.0285,  0.0211],
+        [-0.0445, -0.0557, -0.0723,  ..., -0.0909, -0.0871, -0.0691],
+        [ 0.2098,  0.2286,  0.2653,  ..., -0.0686, -0.0116, -0.0708]],
+       device='cuda:0'), grad: tensor([[ 3.6335e-04,  1.3232e-04,  3.5226e-05,  ...,  2.0194e-04,
+          1.4293e-04,  1.0377e-04],
+        [ 5.6732e-02,  1.0925e-02,  8.8196e-03,  ...,  7.5150e-03,
+          1.0368e-02,  5.2948e-03],
+        [-2.3895e-02, -3.4103e-03, -3.7742e-04,  ..., -4.1237e-03,
+         -5.5122e-03, -3.8834e-03],
+        ...,
+        [-3.6591e-02, -7.9193e-03, -8.4534e-03,  ..., -3.7746e-03,
+         -5.5771e-03, -1.9035e-03],
+        [ 4.8828e-03,  1.1482e-03,  1.6987e-04,  ...,  1.7300e-03,
+          1.4973e-03,  1.0843e-03],
+        [ 4.9734e-04,  1.6105e-04,  7.3314e-05,  ...,  2.0123e-04,
+          1.7607e-04,  1.2767e-04]], device='cuda:0')
+Epoch 18, bias, value: tensor([-0.0884, -0.0962, -0.0062, -0.0937, -0.0282,  0.0738,  0.2999],
+       device='cuda:0'), grad: tensor([ 0.0010,  0.1954, -0.0701, -0.0051, -0.1365,  0.0141,  0.0013],
+       device='cuda:0')
+249
+0.008613974319136962
+changing lr
+epoch 17, time 374.80, cls_loss 0.5625 cls_loss_mapping 0.0636 cls_loss_causal 0.4742 re_mapping 0.0411 re_causal 0.0438 /// teacc 98.25 lr 0.00845531
+Epoch 19, weight, value: tensor([[-0.0059,  0.0299,  0.0218,  ..., -0.0322, -0.0351, -0.0070],
+        [-0.0613, -0.0634, -0.0706,  ...,  0.0486,  0.0207,  0.0052],
+        [ 0.0097, -0.0347, -0.0213,  ...,  0.0073, -0.0185, -0.0011],
+        ...,
+        [-0.0450, -0.0484, -0.0622,  ..., -0.0011, -0.0320,  0.0190],
+        [-0.0469, -0.0554, -0.0726,  ..., -0.0890, -0.0833, -0.0665],
+        [ 0.2089,  0.2325,  0.2703,  ..., -0.0702, -0.0141, -0.0727]],
+       device='cuda:0'), grad: tensor([[ 4.1199e-02,  3.4809e-03,  1.1396e-03,  ...,  1.8921e-02,
+          2.4124e-02,  1.5884e-02],
+        [-4.4312e-02, -4.2343e-03, -9.9087e-04,  ..., -1.9775e-02,
+         -2.4857e-02, -1.6220e-02],
+        [ 3.1471e-03,  3.1734e-04,  8.9312e-04,  ...,  1.2007e-03,
+          1.8272e-03,  1.2293e-03],
+        ...,
+        [ 6.6452e-03,  7.6056e-04,  1.2951e-03,  ...,  2.4681e-03,
+          3.4580e-03,  2.2945e-03],
+        [-1.2520e-02, -5.0116e-04, -3.9635e-03,  ..., -5.3787e-03,
+         -8.5526e-03, -5.9471e-03],
+        [ 2.9335e-03,  6.5230e-06,  8.7881e-04,  ...,  1.3161e-03,
+          2.1019e-03,  1.4601e-03]], device='cuda:0')
+Epoch 19, bias, value: tensor([-0.0605, -0.0939,  0.0341, -0.1170, -0.0333,  0.0610,  0.2700],
+       device='cuda:0'), grad: tensor([ 0.1359, -0.1317,  0.0213,  0.0212,  0.0341, -0.1071,  0.0263],
+       device='cuda:0')
+249
+0.008455313244934327
+changing lr
+epoch 18, time 370.86, cls_loss 0.5214 cls_loss_mapping 0.0589 cls_loss_causal 0.4509 re_mapping 0.0413 re_causal 0.0439 /// teacc 97.66 lr 0.00828969
+Epoch 20, weight, value: tensor([[-0.0071,  0.0268,  0.0216,  ..., -0.0372, -0.0379, -0.0106],
+        [-0.0608, -0.0606, -0.0668,  ...,  0.0562,  0.0279,  0.0138],
+        [ 0.0028, -0.0390, -0.0248,  ..., -0.0007, -0.0254, -0.0084],
+        ...,
+        [-0.0509, -0.0528, -0.0683,  ...,  0.0082, -0.0221,  0.0280],
+        [-0.0415, -0.0540, -0.0728,  ..., -0.0934, -0.0886, -0.0709],
+        [ 0.2094,  0.2331,  0.2701,  ..., -0.0691, -0.0152, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 4.0779e-03,  3.4690e-04,  1.4198e-04,  ...,  1.0080e-03,
+          1.2503e-03,  1.1683e-03],
+        [ 5.6549e-02,  1.1002e-02,  8.3466e-03,  ...,  1.1429e-02,
+          1.1879e-02,  9.9945e-03],
+        [ 1.6947e-03,  8.7678e-05, -8.4750e-08,  ...,  4.3178e-04,
+          5.4741e-04,  5.3072e-04],
+        ...,
+        [-5.2551e-02, -1.0956e-02, -8.5068e-03,  ..., -1.0353e-02,
+         -1.0399e-02, -8.5526e-03],
+        [ 3.5992e-03,  1.8907e-04,  4.3400e-06,  ...,  9.3746e-04,
+          1.1997e-03,  1.1444e-03],
+        [ 9.2030e-04,  5.4449e-05,  7.4394e-06,  ...,  2.3699e-04,
+          3.0184e-04,  2.8682e-04]], device='cuda:0')
+Epoch 20, bias, value: tensor([-0.0420, -0.0383, -0.0012, -0.1545, -0.0523,  0.0825,  0.2655],
+       device='cuda:0'), grad: tensor([ 0.0211,  0.2173,  0.0096, -0.0798, -0.1934,  0.0201,  0.0051],
+       device='cuda:0')
+249
+0.008289693629698565
+changing lr
+epoch 19, time 367.80, cls_loss 0.4853 cls_loss_mapping 0.0455 cls_loss_causal 0.4203 re_mapping 0.0384 re_causal 0.0427 /// teacc 95.91 lr 0.00811745
+Epoch 21, weight, value: tensor([[-0.0070,  0.0244,  0.0187,  ..., -0.0396, -0.0390, -0.0117],
+        [-0.0513, -0.0586, -0.0659,  ...,  0.0580,  0.0302,  0.0161],
+        [ 0.0033, -0.0377, -0.0228,  ..., -0.0021, -0.0263, -0.0089],
+        ...,
+        [-0.0576, -0.0563, -0.0703,  ...,  0.0086, -0.0223,  0.0280],
+        [-0.0443, -0.0532, -0.0714,  ..., -0.0901, -0.0852, -0.0682],
+        [ 0.2122,  0.2327,  0.2697,  ..., -0.0690, -0.0154, -0.0742]],
+       device='cuda:0'), grad: tensor([[-3.6163e-02, -3.4084e-03, -6.0034e-04,  ..., -1.5076e-02,
+         -2.3865e-02, -1.7700e-02],
+        [ 4.0222e-02,  2.9507e-03,  4.2272e-04,  ...,  7.1297e-03,
+          6.2294e-03,  4.9515e-03],
+        [-1.4238e-03,  5.7077e-04,  1.4968e-05,  ...,  1.7033e-03,
+          5.0449e-04,  1.1549e-03],
+        ...,
+        [ 4.0955e-02,  2.9793e-03,  3.3641e-04,  ...,  8.2855e-03,
+          8.4991e-03,  6.5918e-03],
+        [ 2.8351e-02,  2.0790e-03,  2.7013e-04,  ...,  5.8022e-03,
+          6.0539e-03,  4.6196e-03],
+        [-9.7595e-02, -7.1716e-03, -7.3910e-04,  ..., -1.4313e-02,
+         -5.6381e-03, -5.8060e-03]], device='cuda:0')
+Epoch 21, bias, value: tensor([-0.0410, -0.0397, -0.0190, -0.1767, -0.0090,  0.0599,  0.2847],
+       device='cuda:0'), grad: tensor([-0.0944,  0.1373, -0.1020,  0.0865,  0.1373,  0.0998, -0.2646],
+       device='cuda:0')
+249
+0.00811744900929367
+changing lr
+epoch 20, time 369.29, cls_loss 0.5352 cls_loss_mapping 0.0482 cls_loss_causal 0.4512 re_mapping 0.0348 re_causal 0.0414 /// teacc 97.66 lr 0.00793893
+Epoch 22, weight, value: tensor([[-0.0056,  0.0275,  0.0198,  ..., -0.0391, -0.0403, -0.0124],
+        [-0.0506, -0.0572, -0.0654,  ...,  0.0558,  0.0292,  0.0130],
+        [-0.0010, -0.0426, -0.0276,  ...,  0.0027, -0.0210, -0.0023],
+        ...,
+        [-0.0604, -0.0584, -0.0715,  ...,  0.0054, -0.0258,  0.0271],
+        [-0.0400, -0.0507, -0.0685,  ..., -0.0910, -0.0852, -0.0682],
+        [ 0.2118,  0.2319,  0.2686,  ..., -0.0686, -0.0165, -0.0758]],
+       device='cuda:0'), grad: tensor([[ 3.2730e-03,  4.1175e-04,  2.3007e-05,  ...,  8.3828e-04,
+          8.2397e-04,  5.6601e-04],
+        [ 2.2278e-03,  2.9469e-04,  1.5527e-05,  ...,  5.4073e-04,
+          5.3978e-04,  3.3975e-04],
+        [-7.9269e-03, -1.0786e-03, -5.5104e-05,  ..., -1.8082e-03,
+         -1.8244e-03, -1.0729e-03],
+        ...,
+        [ 2.7065e-03,  3.7670e-04,  1.7971e-05,  ...,  7.4673e-04,
+          7.5054e-04,  4.5109e-04],
+        [-2.7161e-03, -1.2553e-04, -1.4037e-05,  ..., -2.3365e-03,
+         -2.1420e-03, -2.0638e-03],
+        [ 2.5705e-05,  1.6615e-06,  1.9465e-07,  ...,  1.4029e-05,
+          1.2793e-05,  1.2651e-05]], device='cuda:0')
+Epoch 22, bias, value: tensor([-0.0552, -0.0702, -0.0005, -0.1509, -0.0399,  0.0900,  0.2852],
+       device='cuda:0'), grad: tensor([ 0.0115,  0.0073, -0.0250,  0.0147,  0.0082, -0.0169,  0.0001],
+       device='cuda:0')
+249
+0.007938926261462368
+changing lr
+epoch 21, time 366.43, cls_loss 0.5572 cls_loss_mapping 0.0519 cls_loss_causal 0.4690 re_mapping 0.0353 re_causal 0.0442 /// teacc 97.08 lr 0.00775448
+Epoch 23, weight, value: tensor([[-0.0111,  0.0281,  0.0225,  ..., -0.0352, -0.0357, -0.0094],
+        [-0.0538, -0.0568, -0.0648,  ...,  0.0560,  0.0313,  0.0140],
+        [ 0.0003, -0.0414, -0.0267,  ...,  0.0034, -0.0198, -0.0012],
+        ...,
+        [-0.0494, -0.0561, -0.0696,  ...,  0.0077, -0.0238,  0.0291],
+        [-0.0442, -0.0525, -0.0711,  ..., -0.0920, -0.0877, -0.0698],
+        [ 0.2158,  0.2322,  0.2679,  ..., -0.0694, -0.0182, -0.0768]],
+       device='cuda:0'), grad: tensor([[ 2.5711e-03,  1.6308e-04,  7.2181e-05,  ...,  2.7585e-04,
+          3.5071e-04,  1.8513e-04],
+        [ 2.4967e-03,  2.5615e-05,  1.1340e-05,  ...,  1.6713e-04,
+          2.1029e-04,  1.7953e-04],
+        [-5.3558e-02, -6.3095e-03, -2.7924e-03,  ..., -7.9498e-03,
+         -1.0170e-02, -3.8605e-03],
+        ...,
+        [ 5.8777e-02,  6.0806e-03,  2.6913e-03,  ...,  8.0872e-03,
+          1.0330e-02,  4.2343e-03],
+        [ 2.5330e-03,  3.5390e-06,  1.4929e-06,  ...,  1.5199e-04,
+          1.9073e-04,  1.8144e-04],
+        [-1.7151e-02,  7.6294e-06,  3.3770e-06,  ..., -1.0090e-03,
+         -1.2636e-03, -1.2331e-03]], device='cuda:0')
+Epoch 23, bias, value: tensor([-0.1160, -0.0295,  0.0079, -0.1441, -0.0406,  0.0599,  0.3201],
+       device='cuda:0'), grad: tensor([ 0.0122,  0.0170, -0.1438,  0.0302,  0.1899,  0.0181, -0.1235],
+       device='cuda:0')
+249
+0.007754484907260515
+changing lr
+---------------------saving model at epoch 22----------------------------------------------------
+epoch 22, time 373.66, cls_loss 0.4914 cls_loss_mapping 0.0431 cls_loss_causal 0.4198 re_mapping 0.0358 re_causal 0.0436 /// teacc 99.42 lr 0.00756450
+Epoch 24, weight, value: tensor([[-0.0114,  0.0228,  0.0148,  ..., -0.0354, -0.0343, -0.0087],
+        [-0.0494, -0.0527, -0.0617,  ...,  0.0575,  0.0326,  0.0145],
+        [ 0.0034, -0.0406, -0.0256,  ...,  0.0023, -0.0203, -0.0025],
+        ...,
+        [-0.0571, -0.0554, -0.0686,  ...,  0.0083, -0.0251,  0.0287],
+        [-0.0387, -0.0504, -0.0693,  ..., -0.0933, -0.0900, -0.0719],
+        [ 0.2120,  0.2330,  0.2706,  ..., -0.0688, -0.0172, -0.0749]],
+       device='cuda:0'), grad: tensor([[ 9.5987e-04,  7.0870e-05,  2.2352e-05,  ...,  1.6809e-04,
+          2.1076e-04,  1.2362e-04],
+        [ 2.2209e-04,  2.2531e-05,  1.4618e-05,  ...,  3.6478e-05,
+          4.1485e-05,  3.5912e-05],
+        [ 3.6216e-04,  2.9966e-05,  1.3396e-05,  ...,  6.2168e-05,
+          7.5579e-05,  5.0575e-05],
+        ...,
+        [-1.0967e-03, -7.8678e-05, -2.0191e-05,  ..., -1.9681e-04,
+         -2.4581e-04, -1.3840e-04],
+        [-5.4693e-04, -5.4330e-05, -3.6418e-05,  ..., -8.5711e-05,
+         -1.0037e-04, -8.7559e-05],
+        [ 2.6718e-05,  2.4159e-06,  1.4948e-06,  ...,  4.1537e-06,
+          4.8578e-06,  4.2059e-06]], device='cuda:0')
+Epoch 24, bias, value: tensor([-0.1053, -0.0142,  0.0127, -0.1435, -0.0865,  0.0487,  0.3451],
+       device='cuda:0'), grad: tensor([ 0.0024,  0.0012,  0.0012,  0.0004, -0.0025, -0.0029,  0.0001],
+       device='cuda:0')
+249
+0.007564496387029534
+changing lr
+epoch 23, time 369.60, cls_loss 0.4817 cls_loss_mapping 0.0443 cls_loss_causal 0.4279 re_mapping 0.0318 re_causal 0.0405 /// teacc 98.25 lr 0.00736934
+Epoch 25, weight, value: tensor([[-1.3299e-02,  2.1440e-02,  1.3173e-02,  ..., -4.1901e-02,
+         -4.1636e-02, -1.5263e-02],
+        [-5.2451e-02, -5.1929e-02, -6.0250e-02,  ...,  5.1666e-02,
+          2.8647e-02,  1.0052e-02],
+        [ 2.6764e-04, -4.0079e-02, -2.5084e-02,  ...,  2.8377e-03,
+         -1.8710e-02, -2.3339e-03],
+        ...,
+        [-5.2055e-02, -5.7491e-02, -6.9768e-02,  ...,  1.4999e-02,
+         -1.7152e-02,  3.6315e-02],
+        [-3.9856e-02, -5.1527e-02, -7.0886e-02,  ..., -8.7289e-02,
+         -8.5460e-02, -6.6086e-02],
+        [ 2.1424e-01,  2.3604e-01,  2.7304e-01,  ..., -7.0856e-02,
+         -1.9916e-02, -7.8080e-02]], device='cuda:0'), grad: tensor([[ 2.9579e-06, -1.6531e-07,  2.0675e-07,  ...,  5.0366e-06,
+          5.4426e-06,  5.5805e-06],
+        [ 2.0996e-05,  4.7386e-06,  4.1686e-06,  ...,  6.7987e-06,
+          6.8843e-06,  6.3665e-06],
+        [-1.5903e-04,  2.8666e-06,  2.5071e-06,  ..., -1.0526e-04,
+         -1.1629e-04, -1.1182e-04],
+        ...,
+        [ 2.4962e-04,  2.7180e-05,  2.3901e-05,  ...,  1.2028e-04,
+          1.2898e-04,  1.2243e-04],
+        [-1.2255e-04, -3.6269e-05, -3.2216e-05,  ..., -2.7061e-05,
+         -2.5347e-05, -2.2694e-05],
+        [ 5.8450e-06,  1.6643e-06,  1.4808e-06,  ...,  1.5181e-06,
+          1.4575e-06,  1.3281e-06]], device='cuda:0')
+Epoch 25, bias, value: tensor([-0.1208,  0.0146, -0.0107, -0.1533, -0.0731,  0.0763,  0.3236],
+       device='cuda:0'), grad: tensor([ 4.3362e-05,  8.9824e-05, -1.1330e-03,  1.4529e-05,  1.4057e-03,
+        -4.4322e-04,  2.1905e-05], device='cuda:0')
+249
+0.007369343312364995
+changing lr
+epoch 24, time 369.43, cls_loss 0.5026 cls_loss_mapping 0.0381 cls_loss_causal 0.4314 re_mapping 0.0335 re_causal 0.0435 /// teacc 97.08 lr 0.00716942
+Epoch 26, weight, value: tensor([[-0.0112,  0.0231,  0.0160,  ..., -0.0429, -0.0408, -0.0134],
+        [-0.0525, -0.0541, -0.0637,  ...,  0.0527,  0.0279,  0.0111],
+        [ 0.0006, -0.0409, -0.0261,  ..., -0.0024, -0.0235, -0.0079],
+        ...,
+        [-0.0519, -0.0556, -0.0673,  ...,  0.0187, -0.0143,  0.0375],
+        [-0.0396, -0.0515, -0.0716,  ..., -0.0872, -0.0842, -0.0666],
+        [ 0.2117,  0.2356,  0.2723,  ..., -0.0716, -0.0213, -0.0791]],
+       device='cuda:0'), grad: tensor([[ 9.4528e-03,  2.6779e-03,  2.2736e-03,  ...,  1.0366e-03,
+          1.3027e-03,  9.6893e-04],
+        [ 7.3013e-03,  1.1425e-03,  9.5129e-04,  ...,  7.4482e-04,
+          9.5415e-04,  8.2922e-04],
+        [-4.3335e-02, -3.7422e-03, -1.8225e-03,  ..., -4.9171e-03,
+         -6.5918e-03, -5.1727e-03],
+        ...,
+        [ 1.9653e-02,  3.1986e-03,  1.4544e-03,  ...,  2.7218e-03,
+          3.7174e-03,  2.2144e-03],
+        [ 2.3918e-03,  6.9857e-05,  8.0049e-05,  ...,  2.0289e-04,
+          2.5964e-04,  2.9683e-04],
+        [ 5.9462e-04, -3.5954e-03, -3.1376e-03,  ..., -1.5986e-04,
+         -1.2493e-04,  3.8981e-04]], device='cuda:0')
+Epoch 26, bias, value: tensor([-0.1088, -0.0102, -0.0293, -0.1206, -0.0783,  0.0460,  0.3574],
+       device='cuda:0'), grad: tensor([ 0.0310,  0.0352, -0.1427,  0.0243, -0.0136,  0.0182,  0.0476],
+       device='cuda:0')
+249
+0.0071694186955877925
+changing lr
+epoch 25, time 369.41, cls_loss 0.4295 cls_loss_mapping 0.0367 cls_loss_causal 0.3667 re_mapping 0.0302 re_causal 0.0378 /// teacc 96.49 lr 0.00696513
+Epoch 27, weight, value: tensor([[-0.0120,  0.0189,  0.0127,  ..., -0.0482, -0.0458, -0.0193],
+        [-0.0509, -0.0510, -0.0624,  ...,  0.0540,  0.0295,  0.0137],
+        [ 0.0020, -0.0387, -0.0243,  ..., -0.0007, -0.0223, -0.0067],
+        ...,
+        [-0.0633, -0.0573, -0.0680,  ...,  0.0166, -0.0159,  0.0347],
+        [-0.0346, -0.0521, -0.0725,  ..., -0.0854, -0.0827, -0.0652],
+        [ 0.2161,  0.2390,  0.2755,  ..., -0.0652, -0.0158, -0.0731]],
+       device='cuda:0'), grad: tensor([[-9.9106e-03, -2.5725e-04, -4.5824e-04,  ..., -2.6379e-03,
+         -3.2959e-03, -2.1629e-03],
+        [ 2.5234e-03,  7.0274e-05,  1.1843e-04,  ...,  7.0238e-04,
+          8.6546e-04,  5.8413e-04],
+        [ 4.7874e-03,  1.5950e-04,  2.2733e-04,  ...,  1.4238e-03,
+          1.6737e-03,  1.1997e-03],
+        ...,
+        [ 3.8300e-03,  1.0502e-04,  1.7822e-04,  ...,  1.0443e-03,
+          1.2894e-03,  8.6212e-04],
+        [ 4.9496e-04,  1.5363e-05,  2.4080e-05,  ...,  1.4317e-04,
+          1.7369e-04,  1.2028e-04],
+        [ 8.9467e-05,  2.0415e-06,  3.7458e-06,  ...,  2.7731e-05,
+          3.3796e-05,  2.3842e-05]], device='cuda:0')
+Epoch 27, bias, value: tensor([-0.0866, -0.0357, -0.0492, -0.1081, -0.0936,  0.0399,  0.3889],
+       device='cuda:0'), grad: tensor([-0.0475,  0.0119,  0.0205, -0.0056,  0.0180,  0.0023,  0.0004],
+       device='cuda:0')
+249
+0.0069651251582696205
+changing lr
+epoch 26, time 367.56, cls_loss 0.4222 cls_loss_mapping 0.0348 cls_loss_causal 0.3688 re_mapping 0.0291 re_causal 0.0402 /// teacc 97.66 lr 0.00675687
+Epoch 28, weight, value: tensor([[-0.0118,  0.0232,  0.0168,  ..., -0.0416, -0.0403, -0.0118],
+        [-0.0490, -0.0512, -0.0629,  ...,  0.0479,  0.0235,  0.0094],
+        [ 0.0021, -0.0421, -0.0282,  ...,  0.0012, -0.0213, -0.0062],
+        ...,
+        [-0.0586, -0.0583, -0.0683,  ...,  0.0142, -0.0168,  0.0309],
+        [-0.0354, -0.0530, -0.0725,  ..., -0.0847, -0.0807, -0.0634],
+        [ 0.2147,  0.2395,  0.2760,  ..., -0.0643, -0.0152, -0.0727]],
+       device='cuda:0'), grad: tensor([[ 3.4409e-03,  6.2525e-05,  8.1301e-05,  ...,  1.0881e-03,
+          1.0633e-03,  1.1292e-03],
+        [-7.6065e-03, -2.8539e-04, -3.5739e-04,  ..., -2.0580e-03,
+         -1.9989e-03, -2.3174e-03],
+        [ 3.7060e-03,  3.5375e-05,  6.1035e-05,  ...,  1.2255e-03,
+          1.2350e-03,  1.2531e-03],
+        ...,
+        [ 4.0741e-03,  1.0914e-04,  1.0657e-04,  ...,  1.2608e-03,
+          1.1358e-03,  1.2951e-03],
+        [ 3.5553e-03,  7.9796e-06,  1.8686e-05,  ...,  1.2264e-03,
+          1.2016e-03,  1.2264e-03],
+        [-8.9493e-03,  5.7667e-05,  7.3493e-05,  ..., -3.3531e-03,
+         -3.2291e-03, -3.1929e-03]], device='cuda:0')
+Epoch 28, bias, value: tensor([-0.0661, -0.0447, -0.0072, -0.1696, -0.1141,  0.0442,  0.4127],
+       device='cuda:0'), grad: tensor([ 0.0304, -0.0501,  0.0349,  0.0182,  0.0361,  0.0365, -0.1061],
+       device='cuda:0')
+249
+0.006756874120406716
+changing lr
+epoch 27, time 367.02, cls_loss 0.4320 cls_loss_mapping 0.0326 cls_loss_causal 0.3836 re_mapping 0.0259 re_causal 0.0349 /// teacc 92.40 lr 0.00654508
+Epoch 29, weight, value: tensor([[-1.0199e-02,  2.5972e-02,  1.9365e-02,  ..., -4.3287e-02,
+         -4.1462e-02, -1.3872e-02],
+        [-4.3684e-02, -4.9366e-02, -5.9784e-02,  ...,  5.0605e-02,
+          2.6042e-02,  1.3030e-02],
+        [ 2.9076e-05, -4.1771e-02, -2.7634e-02,  ...,  3.1203e-03,
+         -1.8373e-02, -4.6598e-03],
+        ...,
+        [-5.9321e-02, -6.4647e-02, -7.5568e-02,  ...,  1.3143e-02,
+         -1.9391e-02,  2.9936e-02],
+        [-3.5369e-02, -4.9815e-02, -6.9252e-02,  ..., -8.3904e-02,
+         -7.9624e-02, -6.2055e-02],
+        [ 2.1248e-01,  2.4157e-01,  2.7684e-01,  ..., -6.4794e-02,
+         -1.5956e-02, -7.3770e-02]], device='cuda:0'), grad: tensor([[-2.1896e-02, -4.5002e-05, -2.4796e-04,  ..., -7.3471e-03,
+         -7.1144e-03, -7.9727e-03],
+        [-1.4055e-04, -1.7023e-04, -3.9959e-04,  ...,  5.7745e-04,
+         -1.6093e-04, -7.7128e-05],
+        [ 3.3989e-03,  6.1691e-05,  1.3602e-04,  ...,  1.0614e-03,
+          1.1883e-03,  1.2808e-03],
+        ...,
+        [ 1.2871e-02,  7.3373e-05,  2.5535e-04,  ...,  4.1809e-03,
+          4.2229e-03,  4.7379e-03],
+        [ 1.8177e-03,  1.5929e-05,  8.0466e-05,  ...,  4.6659e-04,
+          5.9843e-04,  6.5041e-04],
+        [ 2.1782e-03,  3.8534e-05,  1.0389e-04,  ...,  5.8270e-04,
+          7.0953e-04,  7.6914e-04]], device='cuda:0')
+Epoch 29, bias, value: tensor([-0.0870, -0.0368, -0.0278, -0.1396, -0.0748,  0.0361,  0.3848],
+       device='cuda:0'), grad: tensor([-0.1188, -0.0829,  0.0356,  0.0198,  0.0917,  0.0268,  0.0278],
+       device='cuda:0')
+249
+0.00654508497187474
+changing lr
+epoch 28, time 366.26, cls_loss 0.4277 cls_loss_mapping 0.0283 cls_loss_causal 0.3801 re_mapping 0.0263 re_causal 0.0364 /// teacc 96.49 lr 0.00633018
+Epoch 30, weight, value: tensor([[-9.1908e-03,  2.3914e-02,  1.7952e-02,  ..., -3.5534e-02,
+         -3.3588e-02, -5.8969e-03],
+        [-4.7893e-02, -4.7684e-02, -5.7107e-02,  ...,  4.8008e-02,
+          2.3169e-02,  9.8859e-03],
+        [ 2.0034e-04, -4.0177e-02, -2.5500e-02,  ...,  1.8605e-04,
+         -2.0714e-02, -7.7163e-03],
+        ...,
+        [-6.3998e-02, -7.0037e-02, -8.1625e-02,  ...,  1.2052e-02,
+         -2.0468e-02,  3.0412e-02],
+        [-3.5386e-02, -4.8674e-02, -6.8038e-02,  ..., -8.1243e-02,
+         -7.7001e-02, -5.9640e-02],
+        [ 2.1694e-01,  2.4313e-01,  2.7796e-01,  ..., -6.2614e-02,
+         -1.3585e-02, -7.1792e-02]], device='cuda:0'), grad: tensor([[-6.0158e-03, -4.9133e-03, -4.9629e-03,  ..., -3.4409e-03,
+         -3.4542e-03, -3.5343e-03],
+        [-7.5607e-03,  2.4652e-04,  2.4939e-04,  ...,  1.2058e-04,
+         -1.1044e-03, -6.1452e-05],
+        [ 2.4452e-03,  1.0948e-03,  1.1024e-03,  ...,  7.6771e-04,
+          9.5558e-04,  8.2588e-04],
+        ...,
+        [ 2.7485e-03,  1.1845e-03,  1.1978e-03,  ...,  8.4305e-04,
+          1.0386e-03,  8.8835e-04],
+        [ 1.4563e-03,  1.0562e-04,  1.0669e-04,  ...,  8.3029e-05,
+          2.8944e-04,  1.1605e-04],
+        [ 4.1466e-03,  9.4700e-04,  9.5606e-04,  ...,  6.8283e-04,
+          1.1501e-03,  7.7105e-04]], device='cuda:0')
+Epoch 30, bias, value: tensor([-0.0724, -0.1054, -0.0157, -0.1169, -0.1087,  0.0382,  0.4353],
+       device='cuda:0'), grad: tensor([-0.0013, -0.1481,  0.0232,  0.0217,  0.0232,  0.0249,  0.0563],
+       device='cuda:0')
+249
+0.006330184227833378
+changing lr
+epoch 29, time 365.64, cls_loss 0.4099 cls_loss_mapping 0.0354 cls_loss_causal 0.3847 re_mapping 0.0263 re_causal 0.0392 /// teacc 95.91 lr 0.00611260
+Epoch 31, weight, value: tensor([[-0.0077,  0.0228,  0.0167,  ..., -0.0285, -0.0283,  0.0006],
+        [-0.0448, -0.0469, -0.0569,  ...,  0.0485,  0.0247,  0.0103],
+        [-0.0007, -0.0402, -0.0253,  ..., -0.0026, -0.0234, -0.0094],
+        ...,
+        [-0.0676, -0.0677, -0.0790,  ...,  0.0079, -0.0234,  0.0268],
+        [-0.0344, -0.0487, -0.0673,  ..., -0.0826, -0.0785, -0.0614],
+        [ 0.2124,  0.2403,  0.2748,  ..., -0.0628, -0.0139, -0.0720]],
+       device='cuda:0'), grad: tensor([[ 3.7098e-03,  1.6952e-04,  1.4853e-04,  ...,  1.1835e-03,
+          1.2169e-03,  1.0414e-03],
+        [-9.3412e-04, -1.7738e-04, -5.0831e-04,  ..., -1.6661e-03,
+         -2.2659e-03, -2.1935e-03],
+        [ 3.9139e-03, -6.3038e-04, -6.3038e-04,  ...,  1.0214e-03,
+          9.7227e-04,  6.9618e-04],
+        ...,
+        [ 7.1793e-03,  7.7581e-04,  9.0551e-04,  ...,  3.2387e-03,
+          3.7308e-03,  3.3951e-03],
+        [ 7.0763e-03,  1.4317e-04,  1.4138e-04,  ...,  2.2755e-03,
+          2.3384e-03,  1.9913e-03],
+        [ 4.6563e-04, -3.8004e-04, -3.8862e-05,  ..., -8.8024e-04,
+         -1.7653e-03, -1.4133e-03]], device='cuda:0')
+Epoch 31, bias, value: tensor([-0.1079, -0.0764,  0.0032, -0.0932, -0.1199,  0.0082,  0.4399],
+       device='cuda:0'), grad: tensor([ 0.0342,  0.0182,  0.0464, -0.1180,  0.0509,  0.0629, -0.0947],
+       device='cuda:0')
+249
+0.006112604669781575
+changing lr
+epoch 30, time 365.52, cls_loss 0.4474 cls_loss_mapping 0.0333 cls_loss_causal 0.4149 re_mapping 0.0294 re_causal 0.0407 /// teacc 97.08 lr 0.00589278
+Epoch 32, weight, value: tensor([[-0.0109,  0.0227,  0.0175,  ..., -0.0236, -0.0240,  0.0062],
+        [-0.0433, -0.0470, -0.0579,  ...,  0.0498,  0.0255,  0.0112],
+        [ 0.0051, -0.0382, -0.0230,  ..., -0.0004, -0.0206, -0.0071],
+        ...,
+        [-0.0674, -0.0657, -0.0776,  ...,  0.0084, -0.0220,  0.0272],
+        [-0.0318, -0.0494, -0.0679,  ..., -0.0830, -0.0785, -0.0613],
+        [ 0.2088,  0.2367,  0.2708,  ..., -0.0664, -0.0190, -0.0763]],
+       device='cuda:0'), grad: tensor([[-6.6223e-02, -1.5083e-02, -1.2207e-02,  ..., -9.7961e-03,
+         -1.1856e-02, -2.9907e-03],
+        [ 1.3603e-02,  3.0880e-03,  2.5024e-03,  ...,  2.0618e-03,
+          2.4872e-03,  6.8140e-04],
+        [ 4.7333e-02,  1.0796e-02,  8.7357e-03,  ...,  6.9351e-03,
+          8.4000e-03,  2.0485e-03],
+        ...,
+        [ 7.3385e-04,  1.6570e-04,  1.3447e-04,  ...,  1.2279e-04,
+          1.4520e-04,  4.9382e-05],
+        [ 2.9469e-03,  6.7425e-04,  5.4312e-04,  ...,  4.2748e-04,
+          5.1832e-04,  1.2207e-04],
+        [ 2.4796e-04,  5.6297e-05,  4.5687e-05,  ...,  3.8117e-05,
+          4.5836e-05,  1.2860e-05]], device='cuda:0')
+Epoch 32, bias, value: tensor([-0.1099, -0.1027,  0.0196, -0.1092, -0.0571,  0.0215,  0.3913],
+       device='cuda:0'), grad: tensor([-0.1060,  0.0222,  0.0752,  0.0022,  0.0013,  0.0047,  0.0004],
+       device='cuda:0')
+249
+0.005892784473993186
+changing lr
+epoch 31, time 365.56, cls_loss 0.4180 cls_loss_mapping 0.0261 cls_loss_causal 0.3738 re_mapping 0.0258 re_causal 0.0366 /// teacc 95.91 lr 0.00567117
+Epoch 33, weight, value: tensor([[-0.0100,  0.0182,  0.0130,  ..., -0.0269, -0.0275,  0.0027],
+        [-0.0438, -0.0474, -0.0579,  ...,  0.0535,  0.0300,  0.0151],
+        [ 0.0028, -0.0403, -0.0250,  ..., -0.0005, -0.0210, -0.0067],
+        ...,
+        [-0.0654, -0.0640, -0.0769,  ...,  0.0111, -0.0191,  0.0286],
+        [-0.0345, -0.0484, -0.0675,  ..., -0.0846, -0.0805, -0.0628],
+        [ 0.2122,  0.2412,  0.2757,  ..., -0.0628, -0.0147, -0.0728]],
+       device='cuda:0'), grad: tensor([[-1.9531e-02, -1.8287e-04, -4.5061e-04,  ..., -1.0208e-02,
+         -9.3384e-03, -9.0942e-03],
+        [ 1.2293e-03, -6.5863e-05, -7.0810e-05,  ...,  1.1349e-03,
+          9.6703e-04,  1.0691e-03],
+        [ 7.3814e-03,  7.3314e-05,  1.7416e-04,  ...,  3.8261e-03,
+          3.5038e-03,  3.4008e-03],
+        ...,
+        [ 7.6332e-03,  1.1516e-04,  2.2364e-04,  ...,  3.5896e-03,
+          3.3264e-03,  3.1509e-03],
+        [ 8.2207e-04,  1.5587e-05,  3.0443e-05,  ...,  3.9339e-04,
+          3.6693e-04,  3.4809e-04],
+        [ 1.2093e-03,  3.1352e-05,  6.1750e-05,  ...,  6.1846e-04,
+          5.8126e-04,  5.4979e-04]], device='cuda:0')
+Epoch 33, bias, value: tensor([-0.1191, -0.1497,  0.0301, -0.0743, -0.0987,  0.0303,  0.4345],
+       device='cuda:0'), grad: tensor([-0.0831,  0.0078,  0.0311,  0.0053,  0.0305,  0.0034,  0.0050],
+       device='cuda:0')
+249
+0.00567116632908828
+changing lr
+epoch 32, time 367.54, cls_loss 0.4013 cls_loss_mapping 0.0306 cls_loss_causal 0.3710 re_mapping 0.0242 re_causal 0.0368 /// teacc 97.08 lr 0.00544820
+Epoch 34, weight, value: tensor([[-0.0066,  0.0198,  0.0136,  ..., -0.0263, -0.0288,  0.0039],
+        [-0.0366, -0.0453, -0.0551,  ...,  0.0506,  0.0285,  0.0130],
+        [-0.0017, -0.0418, -0.0267,  ..., -0.0036, -0.0238, -0.0097],
+        ...,
+        [-0.0698, -0.0654, -0.0779,  ...,  0.0159, -0.0132,  0.0338],
+        [-0.0356, -0.0498, -0.0685,  ..., -0.0849, -0.0804, -0.0635],
+        [ 0.2103,  0.2380,  0.2724,  ..., -0.0629, -0.0151, -0.0737]],
+       device='cuda:0'), grad: tensor([[ 2.6760e-03,  9.5889e-06,  1.0416e-05,  ...,  2.4605e-04,
+          2.2054e-04,  2.9254e-04],
+        [-2.2307e-05, -4.2737e-05, -4.7415e-05,  ...,  2.9206e-05,
+          8.0615e-06,  5.9515e-05],
+        [ 7.9823e-04,  2.8163e-06,  3.0193e-06,  ...,  7.3969e-05,
+          6.6400e-05,  8.8036e-05],
+        ...,
+        [-4.0054e-03,  3.2216e-05,  3.5375e-05,  ..., -3.9220e-04,
+         -3.3021e-04, -4.9257e-04],
+        [ 1.0294e-04, -6.8881e-06, -6.5789e-06,  ..., -1.1921e-06,
+         -6.8955e-06,  1.2750e-06],
+        [ 1.9062e-04,  3.1311e-06,  3.3155e-06,  ...,  1.7956e-05,
+          1.7703e-05,  2.0146e-05]], device='cuda:0')
+Epoch 34, bias, value: tensor([-0.1210, -0.1298,  0.0211, -0.1124, -0.1201,  0.0249,  0.4899],
+       device='cuda:0'), grad: tensor([ 0.0405,  0.0068,  0.0121,  0.0039, -0.0679,  0.0020,  0.0026],
+       device='cuda:0')
+249
+0.00544819654451717
+changing lr
+epoch 33, time 371.28, cls_loss 0.3838 cls_loss_mapping 0.0239 cls_loss_causal 0.3497 re_mapping 0.0240 re_causal 0.0352 /// teacc 97.66 lr 0.00522432
+Epoch 35, weight, value: tensor([[-6.6603e-03,  1.9959e-02,  1.4953e-02,  ..., -3.0493e-02,
+         -3.1940e-02,  4.3752e-05],
+        [-3.8231e-02, -4.7045e-02, -5.7190e-02,  ...,  5.2180e-02,
+          3.0431e-02,  1.5666e-02],
+        [ 9.3925e-04, -4.0165e-02, -2.5271e-02,  ..., -3.8400e-03,
+         -2.3829e-02, -9.5464e-03],
+        ...,
+        [-6.5831e-02, -6.3586e-02, -7.6150e-02,  ...,  2.0564e-02,
+         -8.5480e-03,  3.7435e-02],
+        [-3.7379e-02, -5.1339e-02, -7.0073e-02,  ..., -8.6256e-02,
+         -8.1725e-02, -6.4641e-02],
+        [ 2.0809e-01,  2.3714e-01,  2.7057e-01,  ..., -6.3255e-02,
+         -1.6718e-02, -7.5121e-02]], device='cuda:0'), grad: tensor([[ 8.5354e-05,  4.7833e-05,  4.5627e-05,  ...,  4.2796e-05,
+          4.3899e-05,  3.6448e-05],
+        [ 9.3222e-05,  5.1290e-05,  4.9114e-05,  ...,  4.8131e-05,
+          4.9472e-05,  4.0948e-05],
+        [ 2.0421e-04,  1.0657e-04,  1.0240e-04,  ...,  1.2279e-04,
+          1.2648e-04,  1.0496e-04],
+        ...,
+        [ 6.4468e-04,  3.3855e-04,  3.2544e-04,  ...,  3.8624e-04,
+          3.9768e-04,  3.2997e-04],
+        [ 5.9664e-05,  3.1382e-05,  3.0130e-05,  ...,  3.5375e-05,
+          3.6418e-05,  3.0249e-05],
+        [-1.1034e-03, -5.8556e-04, -5.6219e-04,  ..., -6.4182e-04,
+         -6.6042e-04, -5.4789e-04]], device='cuda:0')
+Epoch 35, bias, value: tensor([-0.1101, -0.0931,  0.0066, -0.1207, -0.1433,  0.0615,  0.4515],
+       device='cuda:0'), grad: tensor([ 1.5283e-04,  1.6713e-04,  3.7527e-04,  2.5392e-05,  1.1559e-03,
+         1.0890e-04, -1.9855e-03], device='cuda:0')
+249
+0.005224324151752577
+changing lr
+epoch 34, time 368.82, cls_loss 0.3894 cls_loss_mapping 0.0267 cls_loss_causal 0.3550 re_mapping 0.0239 re_causal 0.0349 /// teacc 97.66 lr 0.00500000
+Epoch 36, weight, value: tensor([[-0.0026,  0.0202,  0.0149,  ..., -0.0281, -0.0292,  0.0019],
+        [-0.0399, -0.0466, -0.0560,  ...,  0.0519,  0.0300,  0.0158],
+        [-0.0014, -0.0418, -0.0270,  ..., -0.0055, -0.0254, -0.0111],
+        ...,
+        [-0.0681, -0.0679, -0.0809,  ...,  0.0189, -0.0102,  0.0359],
+        [-0.0358, -0.0505, -0.0690,  ..., -0.0848, -0.0802, -0.0627],
+        [ 0.2063,  0.2377,  0.2714,  ..., -0.0644, -0.0180, -0.0768]],
+       device='cuda:0'), grad: tensor([[ 1.5526e-02,  8.0442e-04,  9.2411e-04,  ...,  5.3406e-03,
+          5.8403e-03,  5.3673e-03],
+        [ 2.2831e-03,  2.4825e-05, -1.3816e-04,  ...,  3.8671e-04,
+          3.2043e-04,  4.8590e-04],
+        [ 2.8152e-03,  7.0274e-05,  6.0171e-05,  ...,  8.1110e-04,
+          8.5497e-04,  7.9155e-04],
+        ...,
+        [-3.1616e-02, -1.5030e-03, -1.4696e-03,  ..., -1.0368e-02,
+         -1.1185e-02, -1.0605e-02],
+        [ 5.2567e-03,  2.0599e-04,  2.0134e-04,  ...,  1.7767e-03,
+          1.9054e-03,  1.8091e-03],
+        [ 2.9488e-03,  2.3699e-04,  2.4748e-04,  ...,  1.1044e-03,
+          1.2236e-03,  1.1787e-03]], device='cuda:0')
+Epoch 36, bias, value: tensor([-0.0963, -0.1317, -0.0167, -0.1485, -0.1177,  0.1117,  0.4514],
+       device='cuda:0'), grad: tensor([ 0.0912,  0.0194,  0.0172,  0.0170, -0.1936,  0.0297,  0.0190],
+       device='cuda:0')
+249
+0.005000000000000003
+changing lr
+epoch 35, time 374.32, cls_loss 0.3598 cls_loss_mapping 0.0182 cls_loss_causal 0.3278 re_mapping 0.0233 re_causal 0.0343 /// teacc 98.25 lr 0.00477568
+Epoch 37, weight, value: tensor([[-0.0056,  0.0189,  0.0142,  ..., -0.0327, -0.0321, -0.0013],
+        [-0.0393, -0.0483, -0.0577,  ...,  0.0495,  0.0273,  0.0138],
+        [ 0.0017, -0.0405, -0.0260,  ..., -0.0027, -0.0228, -0.0084],
+        ...,
+        [-0.0632, -0.0674, -0.0795,  ...,  0.0227, -0.0058,  0.0394],
+        [-0.0452, -0.0504, -0.0692,  ..., -0.0860, -0.0815, -0.0638],
+        [ 0.2078,  0.2383,  0.2711,  ..., -0.0643, -0.0197, -0.0782]],
+       device='cuda:0'), grad: tensor([[-0.0446, -0.0031, -0.0048,  ..., -0.0062, -0.0104, -0.0088],
+        [ 0.0804,  0.0189,  0.0212,  ...,  0.0268,  0.0286,  0.0179],
+        [ 0.0084,  0.0005,  0.0008,  ...,  0.0015,  0.0022,  0.0018],
+        ...,
+        [-0.0681, -0.0185, -0.0202,  ..., -0.0261, -0.0265, -0.0158],
+        [ 0.0045,  0.0003,  0.0005,  ...,  0.0006,  0.0011,  0.0009],
+        [ 0.0111,  0.0008,  0.0012,  ...,  0.0016,  0.0027,  0.0022]],
+       device='cuda:0')
+Epoch 37, bias, value: tensor([-0.0858, -0.0957,  0.0132, -0.1433, -0.1161,  0.0509,  0.4285],
+       device='cuda:0'), grad: tensor([-0.3022,  0.1566,  0.0481,  0.0441, -0.0558,  0.0323,  0.0768],
+       device='cuda:0')
+249
+0.004775675848247429
+changing lr
+epoch 36, time 363.92, cls_loss 0.3549 cls_loss_mapping 0.0173 cls_loss_causal 0.3303 re_mapping 0.0213 re_causal 0.0330 /// teacc 98.25 lr 0.00455180
+Epoch 38, weight, value: tensor([[-0.0050,  0.0215,  0.0170,  ..., -0.0329, -0.0318, -0.0017],
+        [-0.0407, -0.0483, -0.0583,  ...,  0.0488,  0.0267,  0.0129],
+        [ 0.0028, -0.0396, -0.0251,  ..., -0.0008, -0.0210, -0.0069],
+        ...,
+        [-0.0674, -0.0717, -0.0832,  ...,  0.0190, -0.0096,  0.0367],
+        [-0.0398, -0.0498, -0.0685,  ..., -0.0832, -0.0787, -0.0616],
+        [ 0.2054,  0.2382,  0.2707,  ..., -0.0640, -0.0197, -0.0781]],
+       device='cuda:0'), grad: tensor([[-6.5982e-05,  8.9183e-06,  3.3021e-05,  ...,  7.3051e-04,
+          9.5367e-04,  7.9823e-04],
+        [ 1.0240e-04, -1.3900e-04, -1.3423e-04,  ...,  4.6432e-05,
+          1.6332e-04,  1.0842e-04],
+        [-1.5068e-03, -4.1544e-05, -1.6555e-05,  ..., -6.3372e-04,
+         -6.2895e-04, -6.8378e-04],
+        ...,
+        [ 4.8447e-03,  1.5640e-04,  3.2020e-04,  ...,  7.1602e-03,
+          8.7433e-03,  7.7438e-03],
+        [ 2.8634e-04,  1.4827e-05,  2.2456e-05,  ...,  3.8552e-04,
+          4.6301e-04,  4.1461e-04],
+        [ 7.6830e-05, -8.9109e-06, -7.6964e-06,  ...,  1.3351e-04,
+          1.6022e-04,  1.4877e-04]], device='cuda:0')
+Epoch 38, bias, value: tensor([-0.0855, -0.1240, -0.0050, -0.1317, -0.1040,  0.0932,  0.4084],
+       device='cuda:0'), grad: tensor([ 0.0070,  0.0036, -0.0151, -0.0880,  0.0861,  0.0047,  0.0017],
+       device='cuda:0')
+249
+0.004551803455482836
+changing lr
+epoch 37, time 366.08, cls_loss 0.3621 cls_loss_mapping 0.0230 cls_loss_causal 0.3295 re_mapping 0.0220 re_causal 0.0322 /// teacc 99.42 lr 0.00432883
+Epoch 39, weight, value: tensor([[-7.5929e-04,  2.3462e-02,  1.8187e-02,  ..., -3.1468e-02,
+         -3.0983e-02, -2.5573e-04],
+        [-4.0556e-02, -4.7594e-02, -5.6986e-02,  ...,  5.0079e-02,
+          2.8659e-02,  1.3796e-02],
+        [ 5.1910e-04, -4.0263e-02, -2.5973e-02,  ..., -8.7962e-04,
+         -2.0899e-02, -6.6513e-03],
+        ...,
+        [-6.7963e-02, -6.9314e-02, -8.0382e-02,  ...,  1.6180e-02,
+         -1.1934e-02,  3.4089e-02],
+        [-3.9392e-02, -5.0253e-02, -6.8966e-02,  ..., -8.3981e-02,
+         -8.0166e-02, -6.1975e-02],
+        [ 2.0747e-01,  2.3711e-01,  2.7006e-01,  ..., -6.4171e-02,
+         -1.9698e-02, -7.8589e-02]], device='cuda:0'), grad: tensor([[ 6.2485e-03,  2.7919e-04,  1.2934e-04,  ...,  1.2779e-03,
+          1.5974e-03,  1.2312e-03],
+        [-3.7659e-02, -3.9139e-03, -2.7676e-03,  ..., -7.0343e-03,
+         -8.5678e-03, -7.3204e-03],
+        [ 3.0251e-03,  3.2067e-04,  2.3401e-04,  ...,  6.6900e-04,
+          7.6056e-04,  6.6948e-04],
+        ...,
+        [ 2.2934e-02,  2.8667e-03,  2.1114e-03,  ...,  4.0207e-03,
+          4.9057e-03,  4.3373e-03],
+        [ 1.0948e-03,  6.4909e-05,  3.9548e-05,  ...,  2.5940e-04,
+          3.0255e-04,  2.4819e-04],
+        [ 2.4815e-03,  3.0041e-04,  2.2054e-04,  ...,  4.4656e-04,
+          5.4121e-04,  4.7970e-04]], device='cuda:0')
+Epoch 39, bias, value: tensor([-0.0838, -0.1059,  0.0110, -0.1768, -0.1294,  0.1016,  0.4344],
+       device='cuda:0'), grad: tensor([ 0.0474, -0.2708,  0.0222,  0.0143,  0.1608,  0.0084,  0.0175],
+       device='cuda:0')
+249
+0.004328833670911726
+changing lr
+epoch 38, time 366.68, cls_loss 0.3351 cls_loss_mapping 0.0168 cls_loss_causal 0.3031 re_mapping 0.0211 re_causal 0.0316 /// teacc 96.49 lr 0.00410722
+Epoch 40, weight, value: tensor([[ 0.0011,  0.0252,  0.0204,  ..., -0.0326, -0.0314, -0.0006],
+        [-0.0422, -0.0484, -0.0573,  ...,  0.0484,  0.0268,  0.0121],
+        [ 0.0033, -0.0387, -0.0247,  ...,  0.0012, -0.0188, -0.0047],
+        ...,
+        [-0.0679, -0.0708, -0.0825,  ...,  0.0160, -0.0124,  0.0335],
+        [-0.0410, -0.0500, -0.0692,  ..., -0.0840, -0.0801, -0.0622],
+        [ 0.2089,  0.2400,  0.2723,  ..., -0.0624, -0.0181, -0.0770]],
+       device='cuda:0'), grad: tensor([[-2.2064e-02, -2.1458e-03, -1.8053e-03,  ..., -3.9024e-03,
+         -3.8567e-03, -3.2940e-03],
+        [ 3.8395e-03,  3.7837e-04,  3.1352e-04,  ...,  6.5088e-04,
+          6.3038e-04,  5.4359e-04],
+        [ 7.6485e-04,  7.3075e-05,  6.2764e-05,  ...,  1.4222e-04,
+          1.4377e-04,  1.2153e-04],
+        ...,
+        [ 1.6205e-02,  1.5717e-03,  1.3266e-03,  ...,  2.8858e-03,
+          2.8610e-03,  2.4395e-03],
+        [ 3.9029e-04,  3.7879e-05,  3.1888e-05,  ...,  6.8963e-05,
+          6.8188e-05,  5.8174e-05],
+        [ 1.3709e-04,  1.3202e-05,  1.1109e-05,  ...,  2.4319e-05,
+          2.4050e-05,  2.0534e-05]], device='cuda:0')
+Epoch 40, bias, value: tensor([-0.0982, -0.1105,  0.0010, -0.1652, -0.1341,  0.1135,  0.4444],
+       device='cuda:0'), grad: tensor([-0.1085,  0.0191,  0.0037,  0.0036,  0.0795,  0.0019,  0.0007],
+       device='cuda:0')
+249
+0.0041072155260068206
+changing lr
+epoch 39, time 366.91, cls_loss 0.3754 cls_loss_mapping 0.0215 cls_loss_causal 0.3497 re_mapping 0.0204 re_causal 0.0328 /// teacc 96.49 lr 0.00388740
+Epoch 41, weight, value: tensor([[ 0.0017,  0.0264,  0.0211,  ..., -0.0326, -0.0317, -0.0011],
+        [-0.0410, -0.0489, -0.0576,  ...,  0.0492,  0.0276,  0.0124],
+        [ 0.0035, -0.0369, -0.0232,  ...,  0.0010, -0.0186, -0.0049],
+        ...,
+        [-0.0734, -0.0728, -0.0840,  ...,  0.0160, -0.0123,  0.0351],
+        [-0.0382, -0.0498, -0.0686,  ..., -0.0838, -0.0797, -0.0622],
+        [ 0.2098,  0.2400,  0.2723,  ..., -0.0629, -0.0186, -0.0778]],
+       device='cuda:0'), grad: tensor([[ 0.0040,  0.0006,  0.0005,  ...,  0.0003,  0.0004,  0.0006],
+        [-0.0315, -0.0007, -0.0009,  ..., -0.0073, -0.0084, -0.0084],
+        [-0.0412, -0.0111, -0.0107,  ..., -0.0032, -0.0035, -0.0024],
+        ...,
+        [ 0.0303,  0.0024,  0.0025,  ...,  0.0060,  0.0068,  0.0066],
+        [ 0.0051,  0.0012,  0.0012,  ...,  0.0005,  0.0006,  0.0004],
+        [ 0.0279,  0.0068,  0.0066,  ...,  0.0027,  0.0029,  0.0022]],
+       device='cuda:0')
+Epoch 41, bias, value: tensor([-0.0904, -0.1063, -0.0430, -0.1800, -0.1055,  0.1249,  0.4509],
+       device='cuda:0'), grad: tensor([ 0.0136, -0.0969, -0.1454,  0.0174,  0.0964,  0.0176,  0.0972],
+       device='cuda:0')
+249
+0.0038873953302184317
+changing lr
+epoch 40, time 365.66, cls_loss 0.3612 cls_loss_mapping 0.0155 cls_loss_causal 0.3391 re_mapping 0.0201 re_causal 0.0324 /// teacc 99.42 lr 0.00366982
+Epoch 42, weight, value: tensor([[ 9.8176e-04,  2.6015e-02,  2.0919e-02,  ..., -3.3197e-02,
+         -3.2677e-02, -1.8888e-03],
+        [-3.9805e-02, -4.8738e-02, -5.7485e-02,  ...,  5.0569e-02,
+          2.8842e-02,  1.3911e-02],
+        [ 4.5851e-05, -3.6997e-02, -2.3702e-02,  ...,  8.6268e-04,
+         -1.8717e-02, -5.5397e-03],
+        ...,
+        [-7.1793e-02, -7.2992e-02, -8.3527e-02,  ...,  1.4069e-02,
+         -1.3582e-02,  3.3605e-02],
+        [-3.3991e-02, -4.7869e-02, -6.6774e-02,  ..., -8.2728e-02,
+         -7.8525e-02, -6.1814e-02],
+        [ 2.0812e-01,  2.3907e-01,  2.7108e-01,  ..., -6.3282e-02,
+         -1.9279e-02, -7.7817e-02]], device='cuda:0'), grad: tensor([[ 1.2817e-03,  1.6022e-04,  1.6224e-04,  ...,  1.0824e-04,
+          1.8024e-04,  1.0526e-04],
+        [ 1.9913e-03,  2.9659e-04,  3.1543e-04,  ...,  4.4727e-04,
+          5.4312e-04,  4.4179e-04],
+        [ 9.0837e-05, -1.1289e-04, -1.5497e-04,  ..., -7.2050e-04,
+         -6.7377e-04, -7.1764e-04],
+        ...,
+        [ 1.2875e-03,  1.7500e-04,  1.8120e-04,  ...,  1.9026e-04,
+          2.5749e-04,  1.8716e-04],
+        [-9.3307e-03, -1.0471e-03, -1.0195e-03,  ..., -8.6308e-05,
+         -6.4945e-04, -6.8903e-05],
+        [ 3.7041e-03,  4.1795e-04,  4.0770e-04,  ...,  4.7594e-05,
+          2.7061e-04,  4.0621e-05]], device='cuda:0')
+Epoch 42, bias, value: tensor([-0.1047, -0.1097, -0.0470, -0.1799, -0.1136,  0.1154,  0.4899],
+       device='cuda:0'), grad: tensor([ 0.0164,  0.0222,  0.0096,  0.0133,  0.0155, -0.1274,  0.0504],
+       device='cuda:0')
+249
+0.003669815772166629
+changing lr
+---------------------saving model at epoch 41----------------------------------------------------
+epoch 41, time 370.76, cls_loss 0.3287 cls_loss_mapping 0.0144 cls_loss_causal 0.3002 re_mapping 0.0193 re_causal 0.0289 /// teacc 100.00 lr 0.00345492
+Epoch 43, weight, value: tensor([[ 0.0018,  0.0264,  0.0208,  ..., -0.0358, -0.0359, -0.0048],
+        [-0.0433, -0.0490, -0.0574,  ...,  0.0514,  0.0305,  0.0155],
+        [ 0.0026, -0.0355, -0.0222,  ...,  0.0012, -0.0182, -0.0050],
+        ...,
+        [-0.0677, -0.0730, -0.0828,  ...,  0.0137, -0.0137,  0.0326],
+        [-0.0384, -0.0478, -0.0669,  ..., -0.0839, -0.0799, -0.0627],
+        [ 0.2067,  0.2375,  0.2696,  ..., -0.0627, -0.0188, -0.0774]],
+       device='cuda:0'), grad: tensor([[ 2.4033e-02,  6.6385e-06,  9.6262e-06,  ...,  1.6050e-03,
+          2.1629e-03,  1.6088e-03],
+        [ 1.4563e-03, -1.2666e-07,  3.7551e-06,  ...,  5.3644e-05,
+          1.0031e-04,  4.2468e-05],
+        [-2.8748e-02, -1.3120e-05, -7.6108e-06,  ..., -2.0294e-03,
+         -2.6665e-03, -2.0561e-03],
+        ...,
+        [-3.2597e-03,  1.1243e-05, -2.1130e-05,  ...,  1.6701e-04,
+         -2.2352e-05,  2.6846e-04],
+        [ 2.8667e-03,  5.8254e-07,  6.9104e-06,  ...,  1.2147e-04,
+          2.0874e-04,  1.0347e-04],
+        [ 2.0199e-03, -3.8624e-04, -3.9101e-04,  ..., -1.6415e-04,
+         -9.0361e-05, -1.8954e-04]], device='cuda:0')
+Epoch 43, bias, value: tensor([-0.0964, -0.1185, -0.0447, -0.1883, -0.1097,  0.1360,  0.4719],
+       device='cuda:0'), grad: tensor([ 0.1272,  0.0203, -0.1232,  0.0191, -0.1288,  0.0355,  0.0499],
+       device='cuda:0')
+249
+0.0034549150281252667
+changing lr
+epoch 42, time 367.18, cls_loss 0.3521 cls_loss_mapping 0.0208 cls_loss_causal 0.3236 re_mapping 0.0197 re_causal 0.0308 /// teacc 97.66 lr 0.00324313
+Epoch 44, weight, value: tensor([[ 0.0023,  0.0250,  0.0194,  ..., -0.0379, -0.0383, -0.0075],
+        [-0.0429, -0.0500, -0.0585,  ...,  0.0504,  0.0299,  0.0148],
+        [ 0.0021, -0.0345, -0.0214,  ...,  0.0019, -0.0174, -0.0043],
+        ...,
+        [-0.0672, -0.0726, -0.0820,  ...,  0.0182, -0.0090,  0.0378],
+        [-0.0395, -0.0466, -0.0654,  ..., -0.0831, -0.0790, -0.0624],
+        [ 0.2068,  0.2365,  0.2680,  ..., -0.0632, -0.0196, -0.0779]],
+       device='cuda:0'), grad: tensor([[ 5.1079e-03,  9.5129e-04,  9.4128e-04,  ...,  1.7862e-03,
+          1.6747e-03,  1.6270e-03],
+        [ 2.3327e-03,  6.9427e-04,  7.3195e-04,  ...,  9.0027e-04,
+          9.2697e-04,  8.3637e-04],
+        [-4.5776e-03, -1.4849e-03, -1.3304e-03,  ..., -3.3798e-03,
+         -3.0880e-03, -3.4256e-03],
+        ...,
+        [-6.3133e-03, -2.3627e-04, -3.6001e-04,  ..., -2.5845e-04,
+         -2.2495e-04,  5.7906e-05],
+        [-3.8357e-03, -1.4277e-03, -1.4553e-03,  ..., -1.7052e-03,
+         -1.8101e-03, -1.4553e-03],
+        [ 4.7684e-04,  1.2362e-04,  1.2553e-04,  ...,  1.8132e-04,
+          1.7953e-04,  1.6165e-04]], device='cuda:0')
+Epoch 44, bias, value: tensor([-0.0884, -0.0910, -0.0587, -0.1743, -0.1108,  0.0991,  0.4739],
+       device='cuda:0'), grad: tensor([ 0.0311,  0.0106, -0.0613,  0.0382, -0.0126, -0.0082,  0.0023],
+       device='cuda:0')
+249
+0.0032431258795932905
+changing lr
+epoch 43, time 370.12, cls_loss 0.3839 cls_loss_mapping 0.0173 cls_loss_causal 0.3521 re_mapping 0.0187 re_causal 0.0299 /// teacc 98.25 lr 0.00303487
+Epoch 45, weight, value: tensor([[ 4.5202e-04,  2.4836e-02,  1.9225e-02,  ..., -3.5605e-02,
+         -3.6304e-02, -5.3607e-03],
+        [-4.3276e-02, -4.9216e-02, -5.7563e-02,  ...,  4.9709e-02,
+          2.9573e-02,  1.4145e-02],
+        [ 1.5799e-04, -3.6314e-02, -2.3307e-02,  ..., -3.3475e-05,
+         -1.9211e-02, -5.5312e-03],
+        ...,
+        [-6.8211e-02, -7.3783e-02, -8.3089e-02,  ...,  1.6170e-02,
+         -1.1351e-02,  3.5575e-02],
+        [-3.2736e-02, -4.4943e-02, -6.3840e-02,  ..., -8.1508e-02,
+         -7.6875e-02, -6.1459e-02],
+        [ 2.0799e-01,  2.3822e-01,  2.6944e-01,  ..., -6.1294e-02,
+         -1.7892e-02, -7.6156e-02]], device='cuda:0'), grad: tensor([[ 1.9217e-03,  9.1553e-04,  9.0218e-04,  ...,  6.6137e-04,
+          7.2479e-04,  6.2227e-04],
+        [-5.9068e-05,  2.1589e-04,  2.1565e-04,  ...,  1.5116e-04,
+          1.2636e-04,  1.5664e-04],
+        [ 1.7631e-04,  6.4194e-05,  6.1572e-05,  ...,  4.7058e-05,
+          5.2571e-05,  3.9756e-05],
+        ...,
+        [ 1.1345e-02,  7.1411e-03,  7.1602e-03,  ...,  3.5477e-03,
+          4.1504e-03,  3.8757e-03],
+        [ 6.0654e-04,  2.4080e-04,  2.4033e-04,  ...,  1.1766e-04,
+          1.5628e-04,  1.2350e-04],
+        [-1.5350e-02, -9.3994e-03, -9.3994e-03,  ..., -4.9553e-03,
+         -5.7106e-03, -5.2795e-03]], device='cuda:0')
+Epoch 45, bias, value: tensor([-0.0824, -0.1060, -0.0445, -0.1625, -0.1383,  0.1256,  0.4580],
+       device='cuda:0'), grad: tensor([ 0.0056, -0.0021,  0.0006,  0.0041,  0.0350,  0.0027, -0.0460],
+       device='cuda:0')
+249
+0.0030348748417303863
+changing lr
+epoch 44, time 369.08, cls_loss 0.3149 cls_loss_mapping 0.0145 cls_loss_causal 0.2984 re_mapping 0.0191 re_causal 0.0301 /// teacc 97.08 lr 0.00283058
+Epoch 46, weight, value: tensor([[ 0.0028,  0.0258,  0.0198,  ..., -0.0340, -0.0354, -0.0033],
+        [-0.0449, -0.0506, -0.0584,  ...,  0.0513,  0.0315,  0.0156],
+        [ 0.0011, -0.0368, -0.0241,  ..., -0.0013, -0.0201, -0.0070],
+        ...,
+        [-0.0689, -0.0745, -0.0835,  ...,  0.0152, -0.0120,  0.0349],
+        [-0.0362, -0.0453, -0.0639,  ..., -0.0831, -0.0785, -0.0629],
+        [ 0.2098,  0.2397,  0.2706,  ..., -0.0600, -0.0169, -0.0754]],
+       device='cuda:0'), grad: tensor([[ 0.0113,  0.0011,  0.0011,  ...,  0.0043,  0.0046,  0.0040],
+        [-0.0134, -0.0016, -0.0017,  ..., -0.0031, -0.0036, -0.0022],
+        [ 0.0011,  0.0002,  0.0002,  ...,  0.0003,  0.0004,  0.0003],
+        ...,
+        [-0.0006,  0.0002,  0.0002,  ..., -0.0019, -0.0017, -0.0023],
+        [-0.0008, -0.0002, -0.0002,  ..., -0.0003, -0.0003, -0.0003],
+        [ 0.0020,  0.0003,  0.0003,  ...,  0.0005,  0.0006,  0.0004]],
+       device='cuda:0')
+Epoch 46, bias, value: tensor([-0.0396, -0.0902, -0.0540, -0.1581, -0.1489,  0.0969,  0.4435],
+       device='cuda:0'), grad: tensor([ 0.0306, -0.0266,  0.0031,  0.0011, -0.0096, -0.0026,  0.0040],
+       device='cuda:0')
+249
+0.0028305813044122124
+changing lr
+epoch 45, time 371.26, cls_loss 0.3658 cls_loss_mapping 0.0162 cls_loss_causal 0.3490 re_mapping 0.0177 re_causal 0.0297 /// teacc 99.42 lr 0.00263066
+Epoch 47, weight, value: tensor([[ 0.0016,  0.0260,  0.0199,  ..., -0.0351, -0.0362, -0.0040],
+        [-0.0443, -0.0502, -0.0577,  ...,  0.0523,  0.0329,  0.0167],
+        [ 0.0020, -0.0358, -0.0237,  ..., -0.0021, -0.0211, -0.0083],
+        ...,
+        [-0.0668, -0.0732, -0.0818,  ...,  0.0154, -0.0119,  0.0349],
+        [-0.0373, -0.0460, -0.0643,  ..., -0.0838, -0.0791, -0.0635],
+        [ 0.2072,  0.2369,  0.2677,  ..., -0.0599, -0.0169, -0.0753]],
+       device='cuda:0'), grad: tensor([[ 2.5272e-03,  1.3006e-04,  6.6102e-05,  ...,  2.4259e-04,
+          3.4022e-04,  2.3246e-04],
+        [ 2.7522e-05,  2.0408e-07,  1.3364e-06,  ...,  3.0994e-06,
+          8.0615e-06,  5.2564e-06],
+        [ 4.8071e-05,  2.6207e-06,  1.7006e-06,  ...,  6.8657e-06,
+          9.8199e-06,  6.8583e-06],
+        ...,
+        [-2.5616e-03, -1.2082e-04, -5.5075e-05,  ..., -2.3401e-04,
+         -3.3164e-04, -2.2578e-04],
+        [-3.5584e-05, -1.2003e-05, -1.2450e-05,  ..., -6.0759e-06,
+         -7.6592e-06, -4.9397e-06],
+        [ 8.1137e-06,  1.3048e-06,  1.3076e-06,  ...,  3.2764e-06,
+          4.2617e-06,  3.0808e-06]], device='cuda:0')
+Epoch 47, bias, value: tensor([-0.0557, -0.0931, -0.0670, -0.1562, -0.1455,  0.1149,  0.4521],
+       device='cuda:0'), grad: tensor([ 9.1705e-03,  1.2708e-04,  1.7846e-04, -8.1360e-05, -9.3689e-03,
+        -5.2422e-05,  2.6584e-05], device='cuda:0')
+249
+0.0026306566876350096
+changing lr
+epoch 46, time 369.17, cls_loss 0.3369 cls_loss_mapping 0.0110 cls_loss_causal 0.3162 re_mapping 0.0179 re_causal 0.0291 /// teacc 99.42 lr 0.00243550
+Epoch 48, weight, value: tensor([[ 0.0030,  0.0270,  0.0212,  ..., -0.0364, -0.0375, -0.0055],
+        [-0.0436, -0.0505, -0.0577,  ...,  0.0538,  0.0348,  0.0186],
+        [ 0.0015, -0.0363, -0.0243,  ..., -0.0023, -0.0212, -0.0085],
+        ...,
+        [-0.0674, -0.0729, -0.0820,  ...,  0.0163, -0.0113,  0.0355],
+        [-0.0345, -0.0452, -0.0636,  ..., -0.0837, -0.0789, -0.0635],
+        [ 0.2074,  0.2366,  0.2672,  ..., -0.0597, -0.0171, -0.0752]],
+       device='cuda:0'), grad: tensor([[ 1.0290e-03,  3.7909e-04,  3.9864e-04,  ...,  4.5633e-04,
+          5.3406e-04,  4.1771e-04],
+        [ 1.6069e-03,  1.1134e-04,  1.1116e-04,  ...,  3.2091e-04,
+          3.7694e-04,  3.6049e-04],
+        [ 1.3704e-03,  1.1045e-04,  1.1039e-04,  ...,  3.2306e-04,
+          3.8290e-04,  3.6955e-04],
+        ...,
+        [ 1.4696e-03,  8.6606e-05,  8.6248e-05,  ...,  2.6608e-04,
+          3.1090e-04,  2.9826e-04],
+        [ 1.8730e-03,  1.6201e-04,  1.6189e-04,  ...,  4.4346e-04,
+          5.2452e-04,  5.0306e-04],
+        [-8.4457e-03, -9.3937e-04, -9.5797e-04,  ..., -2.0695e-03,
+         -2.4357e-03, -2.2449e-03]], device='cuda:0')
+Epoch 48, bias, value: tensor([-0.0663, -0.0537, -0.0859, -0.1638, -0.1393,  0.1202,  0.4381],
+       device='cuda:0'), grad: tensor([ 0.0172,  0.0238,  0.0237,  0.0189,  0.0203,  0.0320, -0.1360],
+       device='cuda:0')
+249
+0.0024355036129704724
+changing lr
+epoch 47, time 371.95, cls_loss 0.3799 cls_loss_mapping 0.0151 cls_loss_causal 0.3670 re_mapping 0.0173 re_causal 0.0291 /// teacc 98.83 lr 0.00224552
+Epoch 49, weight, value: tensor([[ 1.5662e-04,  2.5191e-02,  1.9505e-02,  ..., -3.9326e-02,
+         -4.0102e-02, -8.6600e-03],
+        [-4.7109e-02, -5.1582e-02, -5.8798e-02,  ...,  5.3371e-02,
+          3.4080e-02,  1.8432e-02],
+        [ 2.6410e-03, -3.5956e-02, -2.3983e-02,  ..., -1.1148e-03,
+         -2.0149e-02, -7.5858e-03],
+        ...,
+        [-6.6515e-02, -7.2121e-02, -8.1109e-02,  ...,  1.7487e-02,
+         -9.8990e-03,  3.6557e-02],
+        [-3.4267e-02, -4.3766e-02, -6.2280e-02,  ..., -8.3991e-02,
+         -7.9367e-02, -6.3707e-02],
+        [ 2.0577e-01,  2.3604e-01,  2.6652e-01,  ..., -5.8714e-02,
+         -1.6779e-02, -7.4247e-02]], device='cuda:0'), grad: tensor([[ 2.3139e-04,  4.7773e-05,  4.9233e-05,  ...,  3.1924e-04,
+          3.3092e-04,  3.2187e-04],
+        [ 3.5667e-04,  7.0512e-05,  7.2300e-05,  ...,  5.1260e-04,
+          5.3024e-04,  5.1737e-04],
+        [ 8.5592e-05,  1.2331e-05,  1.2897e-05,  ...,  1.4853e-04,
+          1.5116e-04,  1.4925e-04],
+        ...,
+        [ 4.2534e-04,  8.4817e-05,  8.7917e-05,  ...,  5.9843e-04,
+          6.1893e-04,  6.0272e-04],
+        [-3.0398e-05, -8.7768e-06, -1.1876e-05,  ..., -4.7348e-06,
+         -6.7055e-06, -1.8291e-06],
+        [-1.2608e-03, -2.4962e-04, -2.5630e-04,  ..., -1.8196e-03,
+         -1.8797e-03, -1.8349e-03]], device='cuda:0')
+Epoch 49, bias, value: tensor([-0.0603, -0.0755, -0.0625, -0.1485, -0.1405,  0.1159,  0.4204],
+       device='cuda:0'), grad: tensor([ 2.1324e-03,  3.3951e-03,  9.0075e-04,  1.6003e-03,  3.9368e-03,
+         5.4866e-05, -1.2024e-02], device='cuda:0')
+249
+0.00224551509273949
+changing lr
+epoch 48, time 370.74, cls_loss 0.2824 cls_loss_mapping 0.0120 cls_loss_causal 0.2522 re_mapping 0.0176 re_causal 0.0284 /// teacc 98.25 lr 0.00206107
+Epoch 50, weight, value: tensor([[ 0.0035,  0.0267,  0.0209,  ..., -0.0386, -0.0394, -0.0086],
+        [-0.0447, -0.0512, -0.0583,  ...,  0.0550,  0.0359,  0.0203],
+        [-0.0009, -0.0367, -0.0247,  ..., -0.0022, -0.0212, -0.0086],
+        ...,
+        [-0.0658, -0.0726, -0.0814,  ...,  0.0171, -0.0105,  0.0362],
+        [-0.0339, -0.0440, -0.0624,  ..., -0.0843, -0.0795, -0.0639],
+        [ 0.2052,  0.2359,  0.2662,  ..., -0.0586, -0.0167, -0.0739]],
+       device='cuda:0'), grad: tensor([[ 4.0643e-06, -3.8557e-07, -3.5181e-07,  ...,  3.8510e-07,
+          7.8743e-07,  6.3609e-07],
+        [-3.2005e-03,  5.5996e-08,  5.5647e-08,  ..., -5.0783e-04,
+         -6.7186e-04, -4.9305e-04],
+        [ 4.3120e-07,  1.1805e-07,  1.1956e-07,  ...,  1.2037e-07,
+          1.0640e-07,  6.5775e-08],
+        ...,
+        [ 3.1948e-03,  2.3399e-07,  2.2748e-07,  ...,  5.0688e-04,
+          6.7091e-04,  4.9210e-04],
+        [ 6.3563e-07,  2.7753e-07,  3.0175e-07,  ...,  1.7369e-07,
+          1.7416e-07,  1.1653e-07],
+        [-7.7672e-07, -5.2340e-07, -6.0210e-07,  ..., -1.7497e-07,
+         -2.2433e-07, -1.6182e-07]], device='cuda:0')
+Epoch 50, bias, value: tensor([-0.0669, -0.0689, -0.0688, -0.1586, -0.1381,  0.1224,  0.4279],
+       device='cuda:0'), grad: tensor([ 4.0025e-05, -2.7374e-02,  2.1011e-06,  7.8836e-07,  2.7313e-02,
+         1.8142e-06,  3.9348e-08], device='cuda:0')
+249
+0.002061073738537637
+changing lr
+epoch 49, time 363.90, cls_loss 0.3158 cls_loss_mapping 0.0136 cls_loss_causal 0.2936 re_mapping 0.0178 re_causal 0.0278 /// teacc 97.66 lr 0.00188255
+Epoch 51, weight, value: tensor([[-0.0006,  0.0252,  0.0189,  ..., -0.0387, -0.0399, -0.0086],
+        [-0.0445, -0.0504, -0.0575,  ...,  0.0538,  0.0348,  0.0189],
+        [ 0.0016, -0.0364, -0.0243,  ..., -0.0009, -0.0197, -0.0072],
+        ...,
+        [-0.0647, -0.0719, -0.0806,  ...,  0.0177, -0.0099,  0.0366],
+        [-0.0339, -0.0441, -0.0625,  ..., -0.0845, -0.0796, -0.0642],
+        [ 0.2048,  0.2352,  0.2655,  ..., -0.0590, -0.0170, -0.0742]],
+       device='cuda:0'), grad: tensor([[-4.7226e-03, -1.7719e-03, -2.2602e-03,  ..., -2.1458e-03,
+         -2.6531e-03, -2.2449e-03],
+        [-5.8889e-05,  1.5602e-05,  3.6925e-05,  ...,  4.7565e-05,
+          6.1989e-05,  5.8651e-05],
+        [ 7.3862e-04,  2.7037e-04,  3.4213e-04,  ...,  3.2353e-04,
+          3.9959e-04,  3.3689e-04],
+        ...,
+        [ 2.6627e-03,  9.8133e-04,  1.2436e-03,  ...,  1.1749e-03,
+          1.4505e-03,  1.2236e-03],
+        [ 2.0534e-05,  4.7795e-06,  4.7646e-06,  ...,  3.1125e-06,
+          3.7514e-06,  2.6803e-06],
+        [ 1.1760e-04,  3.9190e-05,  4.7773e-05,  ...,  4.3631e-05,
+          5.3585e-05,  4.4465e-05]], device='cuda:0')
+Epoch 51, bias, value: tensor([-0.0904, -0.0782, -0.0541, -0.1412, -0.1536,  0.1375,  0.4289],
+       device='cuda:0'), grad: tensor([-1.2299e-02, -2.5749e-04,  1.9379e-03,  3.2444e-03,  6.9885e-03,
+         6.1691e-05,  3.2020e-04], device='cuda:0')
+249
+0.0018825509907063344
+changing lr
+epoch 50, time 368.52, cls_loss 0.3456 cls_loss_mapping 0.0114 cls_loss_causal 0.3297 re_mapping 0.0168 re_causal 0.0291 /// teacc 98.25 lr 0.00171031
+Epoch 52, weight, value: tensor([[-0.0008,  0.0242,  0.0184,  ..., -0.0388, -0.0400, -0.0089],
+        [-0.0472, -0.0506, -0.0577,  ...,  0.0534,  0.0342,  0.0187],
+        [ 0.0015, -0.0360, -0.0241,  ..., -0.0010, -0.0200, -0.0073],
+        ...,
+        [-0.0668, -0.0723, -0.0808,  ...,  0.0167, -0.0105,  0.0360],
+        [-0.0357, -0.0441, -0.0625,  ..., -0.0849, -0.0798, -0.0645],
+        [ 0.2077,  0.2359,  0.2660,  ..., -0.0585, -0.0168, -0.0740]],
+       device='cuda:0'), grad: tensor([[ 9.2220e-04,  2.1279e-04,  3.0756e-04,  ..., -1.2302e-04,
+         -2.3961e-04, -2.5678e-04],
+        [ 1.9207e-03,  2.0349e-04,  1.8299e-04,  ...,  8.8692e-05,
+          1.1122e-04,  1.4102e-04],
+        [ 5.2757e-03,  6.7949e-04,  8.5545e-04,  ...,  4.6539e-04,
+          5.2929e-04,  2.8706e-04],
+        ...,
+        [ 4.6577e-03,  5.6028e-04,  7.0524e-04,  ...,  5.6887e-04,
+          7.1001e-04,  4.3344e-04],
+        [ 5.6267e-03,  7.1430e-04,  8.9645e-04,  ...,  4.6563e-04,
+          5.2643e-04,  2.8443e-04],
+        [-2.3605e-02, -3.0308e-03, -3.7823e-03,  ..., -1.9646e-03,
+         -2.2068e-03, -1.2150e-03]], device='cuda:0')
+Epoch 52, bias, value: tensor([-0.0937, -0.0755, -0.0522, -0.1294, -0.1537,  0.1319,  0.4212],
+       device='cuda:0'), grad: tensor([ 0.0044,  0.0143,  0.0282,  0.0279,  0.0237,  0.0307, -0.1292],
+       device='cuda:0')
+249
+0.0017103063703014388
+changing lr
+epoch 51, time 366.68, cls_loss 0.3662 cls_loss_mapping 0.0131 cls_loss_causal 0.3503 re_mapping 0.0168 re_causal 0.0285 /// teacc 97.08 lr 0.00154469
+Epoch 53, weight, value: tensor([[ 3.4109e-06,  2.4423e-02,  1.8498e-02,  ..., -3.7703e-02,
+         -3.9137e-02, -7.6641e-03],
+        [-4.4180e-02, -4.9690e-02, -5.6992e-02,  ...,  5.2943e-02,
+          3.3848e-02,  1.8017e-02],
+        [-4.2338e-04, -3.6423e-02, -2.4684e-02,  ..., -1.9911e-03,
+         -2.1072e-02, -8.4230e-03],
+        ...,
+        [-6.6505e-02, -7.2628e-02, -8.0455e-02,  ...,  1.7545e-02,
+         -9.2968e-03,  3.7076e-02],
+        [-3.5687e-02, -4.4432e-02, -6.2911e-02,  ..., -8.4465e-02,
+         -7.9274e-02, -6.4097e-02],
+        [ 2.0749e-01,  2.3656e-01,  2.6643e-01,  ..., -5.7665e-02,
+         -1.6002e-02, -7.3324e-02]], device='cuda:0'), grad: tensor([[-2.8870e-02, -3.2635e-03, -4.1618e-03,  ..., -7.1068e-03,
+         -7.7515e-03, -6.7368e-03],
+        [ 1.8112e-02,  1.6804e-03,  2.2507e-03,  ...,  5.0507e-03,
+          5.7907e-03,  4.9057e-03],
+        [ 1.3456e-03,  1.5616e-04,  1.5092e-04,  ...,  7.0190e-04,
+          9.0837e-04,  6.9714e-04],
+        ...,
+        [ 6.0234e-03,  5.4216e-04,  7.1001e-04,  ...,  1.7385e-03,
+          2.0447e-03,  1.6575e-03],
+        [ 2.0828e-03,  6.4969e-05,  9.4354e-05,  ...,  9.3174e-04,
+          1.2321e-03,  9.1982e-04],
+        [ 3.4771e-03,  7.8201e-04,  6.9523e-04,  ...,  1.8282e-03,
+          2.2945e-03,  1.7633e-03]], device='cuda:0')
+Epoch 53, bias, value: tensor([-0.0919, -0.0728, -0.0715, -0.1329, -0.1477,  0.1479,  0.4177],
+       device='cuda:0'), grad: tensor([-0.0991,  0.0895,  0.0205, -0.1302,  0.0391,  0.0324,  0.0479],
+       device='cuda:0')
+249
+0.0015446867550656784
+changing lr
+epoch 52, time 363.41, cls_loss 0.3324 cls_loss_mapping 0.0098 cls_loss_causal 0.3110 re_mapping 0.0165 re_causal 0.0281 /// teacc 99.42 lr 0.00138603
+Epoch 54, weight, value: tensor([[ 1.8414e-03,  2.4540e-02,  1.8861e-02,  ..., -3.8617e-02,
+         -3.9747e-02, -8.6855e-03],
+        [-4.4773e-02, -5.0064e-02, -5.7402e-02,  ...,  5.2957e-02,
+          3.3683e-02,  1.8141e-02],
+        [ 2.2358e-04, -3.6102e-02, -2.4343e-02,  ..., -1.8674e-03,
+         -2.0933e-02, -8.3653e-03],
+        ...,
+        [-6.8287e-02, -7.3490e-02, -8.1332e-02,  ...,  1.7204e-02,
+         -9.5835e-03,  3.6956e-02],
+        [-3.4269e-02, -4.3772e-02, -6.2219e-02,  ..., -8.4449e-02,
+         -7.9255e-02, -6.4272e-02],
+        [ 2.0795e-01,  2.3659e-01,  2.6632e-01,  ..., -5.7630e-02,
+         -1.6172e-02, -7.3354e-02]], device='cuda:0'), grad: tensor([[-2.9125e-03, -2.5183e-05, -1.8775e-04,  ..., -3.6144e-04,
+         -3.6168e-04, -4.2033e-04],
+        [ 9.9277e-04,  6.8033e-07,  9.1940e-06,  ...,  1.6558e-04,
+          4.0317e-04,  1.6117e-04],
+        [ 2.6512e-03,  1.0721e-05,  7.7903e-05,  ...,  4.1056e-04,
+          8.2254e-04,  4.1842e-04],
+        ...,
+        [ 2.5749e-03,  1.3359e-05,  9.5308e-05,  ...,  3.8362e-04,
+          6.9904e-04,  4.0007e-04],
+        [ 1.2579e-03,  7.6275e-07,  4.4405e-06,  ...,  2.2244e-04,
+          5.6124e-04,  2.1064e-04],
+        [-5.1842e-03, -3.8068e-07,  5.6252e-07,  ..., -9.3222e-04,
+         -2.4109e-03, -8.7452e-04]], device='cuda:0')
+Epoch 54, bias, value: tensor([-0.0884, -0.0687, -0.0659, -0.1395, -0.1455,  0.1416,  0.4150],
+       device='cuda:0'), grad: tensor([-0.0051,  0.0220,  0.0398,  0.0160,  0.0314,  0.0311, -0.1354],
+       device='cuda:0')
+249
+0.001386025680863044
+changing lr
+epoch 53, time 365.89, cls_loss 0.3058 cls_loss_mapping 0.0086 cls_loss_causal 0.2811 re_mapping 0.0168 re_causal 0.0272 /// teacc 99.42 lr 0.00123464
+Epoch 55, weight, value: tensor([[ 2.6123e-03,  2.4578e-02,  1.8848e-02,  ..., -3.8530e-02,
+         -3.9622e-02, -8.4130e-03],
+        [-4.5094e-02, -5.0280e-02, -5.7615e-02,  ...,  5.2355e-02,
+          3.3071e-02,  1.7719e-02],
+        [-2.1492e-04, -3.6207e-02, -2.4406e-02,  ..., -1.2737e-03,
+         -2.0487e-02, -7.8849e-03],
+        ...,
+        [-6.7819e-02, -7.3867e-02, -8.1497e-02,  ...,  1.7887e-02,
+         -8.5243e-03,  3.7721e-02],
+        [-3.4607e-02, -4.3864e-02, -6.2317e-02,  ..., -8.5117e-02,
+         -7.9829e-02, -6.4955e-02],
+        [ 2.0786e-01,  2.3688e-01,  2.6645e-01,  ..., -5.7308e-02,
+         -1.5983e-02, -7.3198e-02]], device='cuda:0'), grad: tensor([[-1.0674e-02, -7.0477e-04, -6.0081e-04,  ..., -1.3199e-03,
+         -2.5444e-03, -1.9207e-03],
+        [ 3.0766e-03,  1.4496e-04,  1.3232e-04,  ...,  3.5095e-04,
+          7.3195e-04,  5.5695e-04],
+        [ 1.5402e-03,  6.7770e-05,  6.3717e-05,  ...,  1.7929e-04,
+          3.7289e-04,  2.8515e-04],
+        ...,
+        [ 5.7716e-03,  4.2081e-04,  3.5787e-04,  ...,  7.5293e-04,
+          1.3962e-03,  1.0567e-03],
+        [-2.4125e-05, -1.4901e-05, -1.7866e-05,  ..., -1.9997e-05,
+         -1.5207e-05, -1.4395e-05],
+        [ 3.0756e-04,  9.1374e-05,  7.1824e-05,  ...,  1.0151e-04,
+          1.0341e-04,  8.0287e-05]], device='cuda:0')
+Epoch 55, bias, value: tensor([-0.0831, -0.0686, -0.0629, -0.1391, -0.1430,  0.1390,  0.4062],
+       device='cuda:0'), grad: tensor([-5.3558e-02,  1.6068e-02,  8.0872e-03,  7.1526e-05,  2.8534e-02,
+         4.9651e-05,  7.4005e-04], device='cuda:0')
+249
+0.0012346426699819469
+changing lr
+epoch 54, time 365.31, cls_loss 0.3398 cls_loss_mapping 0.0107 cls_loss_causal 0.3159 re_mapping 0.0164 re_causal 0.0272 /// teacc 98.83 lr 0.00109084
+Epoch 56, weight, value: tensor([[ 0.0032,  0.0251,  0.0195,  ..., -0.0387, -0.0399, -0.0088],
+        [-0.0431, -0.0499, -0.0571,  ...,  0.0532,  0.0339,  0.0186],
+        [ 0.0007, -0.0358, -0.0241,  ..., -0.0011, -0.0204, -0.0078],
+        ...,
+        [-0.0682, -0.0741, -0.0817,  ...,  0.0177, -0.0083,  0.0376],
+        [-0.0360, -0.0439, -0.0624,  ..., -0.0855, -0.0803, -0.0654],
+        [ 0.2039,  0.2352,  0.2646,  ..., -0.0579, -0.0167, -0.0737]],
+       device='cuda:0'), grad: tensor([[ 3.7365e-03,  8.0109e-05,  3.0920e-07,  ...,  2.9492e-04,
+          2.7329e-05,  2.3639e-04],
+        [ 1.0061e-03,  2.2560e-05,  1.1697e-06,  ...,  7.9811e-05,
+          8.2105e-06,  6.4135e-05],
+        [-3.2306e-04, -8.7976e-05, -8.1599e-05,  ..., -5.5432e-05,
+         -7.2896e-05, -5.9903e-05],
+        ...,
+        [-4.5128e-03, -1.5557e-05,  8.1599e-05,  ..., -3.2616e-04,
+          3.7462e-05, -2.4629e-04],
+        [ 2.4468e-05, -1.6456e-06, -2.7437e-06,  ...,  7.7672e-07,
+         -1.8012e-06,  5.9092e-07],
+        [ 3.5793e-05,  1.5413e-06,  9.4296e-07,  ...,  3.4869e-06,
+          1.1884e-06,  2.7958e-06]], device='cuda:0')
+Epoch 56, bias, value: tensor([-0.0786, -0.0653, -0.0636, -0.1338, -0.1425,  0.1353,  0.3970],
+       device='cuda:0'), grad: tensor([ 0.0172,  0.0046, -0.0008,  0.0001, -0.0214,  0.0001,  0.0002],
+       device='cuda:0')
+249
+0.0010908425876598518
+changing lr
+epoch 55, time 365.92, cls_loss 0.3235 cls_loss_mapping 0.0122 cls_loss_causal 0.3108 re_mapping 0.0161 re_causal 0.0259 /// teacc 98.83 lr 0.00095492
+Epoch 57, weight, value: tensor([[ 1.8837e-03,  2.4858e-02,  1.9065e-02,  ..., -3.8692e-02,
+         -3.9926e-02, -8.7901e-03],
+        [-4.2841e-02, -4.9800e-02, -5.7116e-02,  ...,  5.3624e-02,
+          3.4347e-02,  1.9040e-02],
+        [-1.4650e-04, -3.5875e-02, -2.4030e-02,  ..., -1.9727e-03,
+         -2.1210e-02, -8.4531e-03],
+        ...,
+        [-6.8162e-02, -7.4682e-02, -8.2190e-02,  ...,  1.7406e-02,
+         -8.6701e-03,  3.7186e-02],
+        [-3.4105e-02, -4.3387e-02, -6.1776e-02,  ..., -8.4517e-02,
+         -7.9093e-02, -6.4457e-02],
+        [ 2.0476e-01,  2.3559e-01,  2.6509e-01,  ..., -5.7467e-02,
+         -1.6224e-02, -7.3323e-02]], device='cuda:0'), grad: tensor([[ 0.0167,  0.0076,  0.0044,  ...,  0.0099,  0.0096,  0.0095],
+        [-0.0163, -0.0048, -0.0047,  ..., -0.0084, -0.0078, -0.0061],
+        [ 0.0387,  0.0065,  0.0053,  ...,  0.0112,  0.0119,  0.0086],
+        ...,
+        [-0.0545, -0.0154, -0.0089,  ..., -0.0213, -0.0219, -0.0198],
+        [ 0.0027,  0.0007,  0.0006,  ...,  0.0011,  0.0011,  0.0009],
+        [ 0.0009,  0.0003,  0.0002,  ...,  0.0004,  0.0004,  0.0003]],
+       device='cuda:0')
+Epoch 57, bias, value: tensor([-0.0771, -0.0659, -0.0673, -0.1373, -0.1419,  0.1359,  0.4017],
+       device='cuda:0'), grad: tensor([ 0.0585, -0.0220,  0.1091,  0.0390, -0.1936,  0.0063,  0.0027],
+       device='cuda:0')
+249
+0.000954915028125264
+changing lr
+epoch 56, time 366.25, cls_loss 0.3164 cls_loss_mapping 0.0093 cls_loss_causal 0.2998 re_mapping 0.0161 re_causal 0.0269 /// teacc 98.83 lr 0.00082713
+Epoch 58, weight, value: tensor([[ 0.0014,  0.0252,  0.0194,  ..., -0.0386, -0.0397, -0.0089],
+        [-0.0433, -0.0499, -0.0572,  ...,  0.0536,  0.0343,  0.0191],
+        [ 0.0003, -0.0359, -0.0242,  ..., -0.0020, -0.0212, -0.0084],
+        ...,
+        [-0.0697, -0.0752, -0.0828,  ...,  0.0171, -0.0091,  0.0369],
+        [-0.0328, -0.0430, -0.0613,  ..., -0.0849, -0.0794, -0.0649],
+        [ 0.2051,  0.2355,  0.2650,  ..., -0.0574, -0.0162, -0.0733]],
+       device='cuda:0'), grad: tensor([[ 6.8665e-03,  4.5037e-04,  4.5109e-04,  ...,  1.8805e-05,
+          6.8605e-05,  2.0146e-05],
+        [ 4.2915e-03,  3.0088e-04,  2.9802e-04,  ..., -5.8532e-05,
+         -3.4571e-05, -6.6102e-05],
+        [ 3.4332e-03,  2.3782e-04,  2.3770e-04,  ..., -5.6058e-05,
+         -3.6150e-05, -5.6028e-05],
+        ...,
+        [-2.2476e-02, -1.5049e-03, -1.5020e-03,  ...,  1.0395e-04,
+         -4.5359e-05,  1.0985e-04],
+        [ 5.1193e-03,  3.3689e-04,  3.3712e-04,  ...,  5.7705e-06,
+          4.2170e-05,  5.9567e-06],
+        [ 1.8024e-03,  1.1933e-04,  1.1939e-04,  ...,  3.2857e-06,
+          1.6108e-05,  3.3826e-06]], device='cuda:0')
+Epoch 58, bias, value: tensor([-0.0844, -0.0776, -0.0596, -0.1335, -0.1352,  0.1336,  0.4051],
+       device='cuda:0'), grad: tensor([ 0.0407,  0.0258,  0.0209,  0.0058, -0.1343,  0.0304,  0.0107],
+       device='cuda:0')
+249
+0.0008271337313934874
+changing lr
+epoch 57, time 361.09, cls_loss 0.3198 cls_loss_mapping 0.0112 cls_loss_causal 0.3045 re_mapping 0.0161 re_causal 0.0272 /// teacc 98.83 lr 0.00070776
+Epoch 59, weight, value: tensor([[ 0.0009,  0.0247,  0.0189,  ..., -0.0390, -0.0399, -0.0092],
+        [-0.0426, -0.0499, -0.0571,  ...,  0.0538,  0.0347,  0.0194],
+        [ 0.0010, -0.0360, -0.0241,  ..., -0.0017, -0.0209, -0.0081],
+        ...,
+        [-0.0706, -0.0747, -0.0824,  ...,  0.0167, -0.0097,  0.0365],
+        [-0.0320, -0.0429, -0.0610,  ..., -0.0844, -0.0788, -0.0646],
+        [ 0.2058,  0.2356,  0.2651,  ..., -0.0573, -0.0161, -0.0732]],
+       device='cuda:0'), grad: tensor([[-8.5235e-06, -5.5656e-06, -4.2357e-06,  ..., -1.1083e-06,
+         -9.1223e-07, -6.1048e-07],
+        [ 3.8333e-06,  2.7847e-06,  2.1979e-06,  ...,  5.2806e-07,
+          4.2282e-07,  2.7381e-07],
+        [ 3.4690e-05,  2.2158e-05,  2.3901e-05,  ...,  7.6666e-06,
+          9.0003e-06,  4.6715e-06],
+        ...,
+        [ 2.9560e-06,  1.6931e-06,  1.3420e-06,  ...,  4.2189e-07,
+          4.0419e-07,  2.6356e-07],
+        [ 2.1402e-06,  8.5216e-07,  9.1409e-07,  ...,  9.2946e-07,
+          1.0682e-06,  8.0094e-07],
+        [-3.4422e-05, -2.1979e-05, -2.4170e-05,  ..., -7.8008e-06,
+         -9.2536e-06, -4.7684e-06]], device='cuda:0')
+Epoch 59, bias, value: tensor([-0.0806, -0.0833, -0.0564, -0.1362, -0.1387,  0.1313,  0.4122],
+       device='cuda:0'), grad: tensor([-1.4834e-05,  5.2825e-06,  2.8014e-05, -2.1216e-06,  5.7817e-06,
+         3.4980e-06, -2.5705e-05], device='cuda:0')
+249
+0.00070775603199067
+changing lr
+epoch 58, time 363.21, cls_loss 0.3004 cls_loss_mapping 0.0098 cls_loss_causal 0.2823 re_mapping 0.0160 re_causal 0.0272 /// teacc 98.25 lr 0.00059702
+Epoch 60, weight, value: tensor([[ 7.7485e-04,  2.4947e-02,  1.9100e-02,  ..., -3.8667e-02,
+         -3.9575e-02, -8.8617e-03],
+        [-4.2785e-02, -4.9961e-02, -5.7130e-02,  ...,  5.3556e-02,
+          3.4391e-02,  1.9155e-02],
+        [ 5.4909e-05, -3.5962e-02, -2.4098e-02,  ..., -1.5451e-03,
+         -2.0730e-02, -7.9445e-03],
+        ...,
+        [-6.8754e-02, -7.4687e-02, -8.2420e-02,  ...,  1.6576e-02,
+         -9.7660e-03,  3.6218e-02],
+        [-3.2720e-02, -4.2832e-02, -6.0886e-02,  ..., -8.4672e-02,
+         -7.9112e-02, -6.4901e-02],
+        [ 2.0572e-01,  2.3526e-01,  2.6475e-01,  ..., -5.7345e-02,
+         -1.6174e-02, -7.3106e-02]], device='cuda:0'), grad: tensor([[ 0.0064,  0.0005,  0.0007,  ...,  0.0039,  0.0031,  0.0030],
+        [ 0.0035, -0.0016, -0.0020,  ...,  0.0033,  0.0039,  0.0049],
+        [ 0.0089,  0.0003,  0.0004,  ...,  0.0045,  0.0048,  0.0045],
+        ...,
+        [-0.0059,  0.0004,  0.0008,  ..., -0.0066, -0.0056, -0.0074],
+        [-0.0245,  0.0001, -0.0003,  ..., -0.0106, -0.0121, -0.0105],
+        [ 0.0044,  0.0002,  0.0002,  ...,  0.0022,  0.0023,  0.0022]],
+       device='cuda:0')
+Epoch 60, bias, value: tensor([-0.0826, -0.0841, -0.0614, -0.1370, -0.1275,  0.1234,  0.4173],
+       device='cuda:0'), grad: tensor([-0.0862,  0.0841,  0.0667,  0.0490, -0.0392, -0.1096,  0.0353],
+       device='cuda:0')
+249
+0.0005970223407163104
+changing lr
+epoch 59, time 365.23, cls_loss 0.3278 cls_loss_mapping 0.0107 cls_loss_causal 0.3076 re_mapping 0.0157 re_causal 0.0267 /// teacc 98.83 lr 0.00049516
+Epoch 61, weight, value: tensor([[ 0.0020,  0.0252,  0.0193,  ..., -0.0383, -0.0393, -0.0085],
+        [-0.0433, -0.0501, -0.0573,  ...,  0.0535,  0.0344,  0.0190],
+        [ 0.0010, -0.0360, -0.0241,  ..., -0.0011, -0.0202, -0.0076],
+        ...,
+        [-0.0699, -0.0747, -0.0823,  ...,  0.0161, -0.0101,  0.0359],
+        [-0.0335, -0.0428, -0.0609,  ..., -0.0846, -0.0791, -0.0648],
+        [ 0.2057,  0.2349,  0.2644,  ..., -0.0575, -0.0164, -0.0732]],
+       device='cuda:0'), grad: tensor([[ 1.1129e-03,  3.4183e-05,  8.1599e-05,  ...,  2.6536e-04,
+          3.5310e-04,  1.9860e-04],
+        [ 1.5106e-03,  1.1213e-06,  2.0266e-06,  ...,  4.0317e-04,
+          3.7384e-04,  3.2711e-04],
+        [ 1.0872e-04,  2.6543e-06,  7.4431e-06,  ...,  2.5839e-05,
+          3.4541e-05,  1.9133e-05],
+        ...,
+        [-2.8191e-03, -3.9995e-05, -9.6798e-05,  ..., -7.1526e-04,
+         -7.8917e-04, -5.6076e-04],
+        [ 5.7638e-05,  2.0936e-06,  4.6417e-06,  ...,  1.3702e-05,
+          1.8492e-05,  1.0215e-05],
+        [ 3.0342e-06, -1.3718e-06, -1.3104e-06,  ...,  6.4541e-07,
+          6.4122e-07,  5.4063e-07]], device='cuda:0')
+Epoch 61, bias, value: tensor([-0.0766, -0.0889, -0.0593, -0.1367, -0.1294,  0.1178,  0.4213],
+       device='cuda:0'), grad: tensor([ 4.0932e-03,  1.1536e-02,  3.9434e-04,  1.1539e-04, -1.6357e-02,
+         2.0099e-04,  3.0518e-05], device='cuda:0')
+249
+0.0004951556604879052
+changing lr
+epoch 60, time 362.14, cls_loss 0.2927 cls_loss_mapping 0.0113 cls_loss_causal 0.2742 re_mapping 0.0156 re_causal 0.0247 /// teacc 98.83 lr 0.00040236
+Epoch 62, weight, value: tensor([[ 0.0016,  0.0253,  0.0194,  ..., -0.0384, -0.0394, -0.0086],
+        [-0.0430, -0.0502, -0.0575,  ...,  0.0531,  0.0339,  0.0186],
+        [ 0.0009, -0.0360, -0.0241,  ..., -0.0012, -0.0203, -0.0077],
+        ...,
+        [-0.0681, -0.0747, -0.0821,  ...,  0.0169, -0.0094,  0.0366],
+        [-0.0343, -0.0429, -0.0609,  ..., -0.0844, -0.0789, -0.0647],
+        [ 0.2051,  0.2350,  0.2644,  ..., -0.0574, -0.0164, -0.0731]],
+       device='cuda:0'), grad: tensor([[-1.6272e-05, -5.8003e-06, -5.5656e-06,  ..., -4.6864e-06,
+         -5.3607e-06, -3.7011e-06],
+        [ 1.8269e-05,  2.3209e-06,  1.7285e-06,  ...,  5.8636e-06,
+          6.5379e-06,  5.3123e-06],
+        [ 1.5793e-02,  4.8876e-04,  1.2314e-04,  ...,  5.2071e-03,
+          5.4588e-03,  4.8790e-03],
+        ...,
+        [ 2.1726e-05,  4.0568e-06,  3.8855e-06,  ...,  6.8359e-06,
+          7.2606e-06,  6.1877e-06],
+        [ 1.7479e-05,  8.1863e-07,  4.2329e-07,  ...,  5.7220e-06,
+          6.0014e-06,  5.3495e-06],
+        [-4.5216e-07, -6.9989e-07, -7.0687e-07,  ..., -1.1548e-07,
+         -1.1688e-07, -1.8347e-07]], device='cuda:0')
+Epoch 62, bias, value: tensor([-0.0785, -0.0871, -0.0588, -0.1354, -0.1192,  0.1116,  0.4154],
+       device='cuda:0'), grad: tensor([-3.1710e-05,  5.2303e-05,  4.3884e-02, -4.4006e-02,  4.5031e-05,
+         4.7982e-05, -4.1630e-07], device='cuda:0')
+249
+0.00040236113724274745
+changing lr
+epoch 61, time 367.14, cls_loss 0.2821 cls_loss_mapping 0.0080 cls_loss_causal 0.2611 re_mapping 0.0159 re_causal 0.0254 /// teacc 98.83 lr 0.00031883
+Epoch 63, weight, value: tensor([[ 0.0017,  0.0255,  0.0195,  ..., -0.0382, -0.0392, -0.0084],
+        [-0.0436, -0.0503, -0.0575,  ...,  0.0529,  0.0338,  0.0185],
+        [ 0.0005, -0.0362, -0.0243,  ..., -0.0013, -0.0204, -0.0078],
+        ...,
+        [-0.0680, -0.0746, -0.0820,  ...,  0.0165, -0.0097,  0.0362],
+        [-0.0338, -0.0428, -0.0609,  ..., -0.0844, -0.0789, -0.0647],
+        [ 0.2050,  0.2348,  0.2642,  ..., -0.0573, -0.0163, -0.0730]],
+       device='cuda:0'), grad: tensor([[ 3.7708e-03,  7.6666e-06, -4.3482e-05,  ...,  1.7185e-03,
+          1.7366e-03,  1.8177e-03],
+        [ 2.9163e-03,  1.3912e-04,  1.1313e-04,  ...,  9.8038e-04,
+          1.0386e-03,  1.0767e-03],
+        [-1.2459e-02,  3.1799e-05, -1.1861e-04,  ..., -3.7727e-03,
+         -4.5929e-03, -4.3221e-03],
+        ...,
+        [ 1.5442e-02,  9.0408e-04,  4.4608e-04,  ...,  8.2016e-03,
+          7.6027e-03,  8.4000e-03],
+        [ 4.0207e-03,  1.2934e-04,  7.2956e-05,  ...,  1.6909e-03,
+          1.7052e-03,  1.7939e-03],
+        [ 3.6964e-03,  9.6679e-05,  9.1672e-05,  ...,  1.3885e-03,
+          1.5039e-03,  1.5135e-03]], device='cuda:0')
+Epoch 63, bias, value: tensor([-0.0800, -0.0904, -0.0614, -0.1347, -0.1164,  0.1133,  0.4177],
+       device='cuda:0'), grad: tensor([ 0.0338,  0.0269, -0.1246, -0.1260,  0.1206,  0.0351,  0.0340],
+       device='cuda:0')
+249
+0.00031882564680131423
+changing lr
+epoch 62, time 362.72, cls_loss 0.3031 cls_loss_mapping 0.0092 cls_loss_causal 0.2803 re_mapping 0.0155 re_causal 0.0247 /// teacc 98.83 lr 0.00024472
+Epoch 64, weight, value: tensor([[ 0.0021,  0.0258,  0.0198,  ..., -0.0381, -0.0392, -0.0083],
+        [-0.0436, -0.0504, -0.0577,  ...,  0.0528,  0.0337,  0.0185],
+        [ 0.0006, -0.0361, -0.0243,  ..., -0.0012, -0.0203, -0.0077],
+        ...,
+        [-0.0682, -0.0746, -0.0820,  ...,  0.0162, -0.0100,  0.0359],
+        [-0.0337, -0.0428, -0.0608,  ..., -0.0844, -0.0789, -0.0647],
+        [ 0.2038,  0.2344,  0.2638,  ..., -0.0575, -0.0165, -0.0732]],
+       device='cuda:0'), grad: tensor([[-2.6291e-02, -6.2408e-03, -5.2567e-03,  ..., -6.8207e-03,
+         -5.4359e-03, -4.2114e-03],
+        [ 3.3325e-02,  9.3603e-04,  6.4039e-04,  ...,  5.5695e-03,
+          6.7596e-03,  4.1237e-03],
+        [-5.6946e-02, -3.7060e-03, -5.0011e-03,  ..., -1.2016e-02,
+         -1.5175e-02, -1.0323e-02],
+        ...,
+        [ 4.2480e-02,  7.3280e-03,  7.2479e-03,  ...,  1.1215e-02,
+          1.1261e-02,  8.6517e-03],
+        [-4.6349e-04,  5.8919e-05,  2.0170e-04,  ..., -7.5150e-04,
+         -6.8474e-04, -9.2506e-04],
+        [ 4.8485e-03,  1.0614e-03,  1.4286e-03,  ...,  1.6928e-03,
+          1.9970e-03,  1.6050e-03]], device='cuda:0')
+Epoch 64, bias, value: tensor([-0.0781, -0.0871, -0.0625, -0.1337, -0.1179,  0.1146,  0.4128],
+       device='cuda:0'), grad: tensor([-0.0228, -0.0379, -0.1220,  0.0231,  0.1014,  0.0118,  0.0462],
+       device='cuda:0')
+249
+0.0002447174185242325
+changing lr
+epoch 63, time 364.35, cls_loss 0.3051 cls_loss_mapping 0.0068 cls_loss_causal 0.2871 re_mapping 0.0156 re_causal 0.0249 /// teacc 99.42 lr 0.00018019
+Epoch 65, weight, value: tensor([[ 0.0024,  0.0258,  0.0199,  ..., -0.0381, -0.0392, -0.0083],
+        [-0.0433, -0.0505, -0.0577,  ...,  0.0530,  0.0339,  0.0186],
+        [ 0.0010, -0.0361, -0.0242,  ..., -0.0012, -0.0202, -0.0077],
+        ...,
+        [-0.0686, -0.0745, -0.0820,  ...,  0.0164, -0.0099,  0.0360],
+        [-0.0337, -0.0427, -0.0608,  ..., -0.0844, -0.0789, -0.0647],
+        [ 0.2037,  0.2343,  0.2637,  ..., -0.0576, -0.0166, -0.0732]],
+       device='cuda:0'), grad: tensor([[-0.0333, -0.0010, -0.0003,  ..., -0.0018, -0.0026, -0.0023],
+        [ 0.0339,  0.0082,  0.0135,  ...,  0.0144,  0.0175,  0.0146],
+        [-0.0224,  0.0004, -0.0003,  ..., -0.0044, -0.0022, -0.0023],
+        ...,
+        [ 0.0105,  0.0005,  0.0008,  ...,  0.0017,  0.0016,  0.0014],
+        [ 0.0170,  0.0009,  0.0012,  ...,  0.0027,  0.0026,  0.0024],
+        [-0.0195, -0.0101, -0.0166,  ..., -0.0153, -0.0200, -0.0163]],
+       device='cuda:0')
+Epoch 65, bias, value: tensor([-0.0789, -0.0851, -0.0602, -0.1345, -0.1188,  0.1133,  0.4123],
+       device='cuda:0'), grad: tensor([-0.1119,  0.0814, -0.1241,  0.0482,  0.0406,  0.0669, -0.0011],
+       device='cuda:0')
+249
+0.0001801856965207339
+changing lr
+epoch 64, time 364.04, cls_loss 0.3022 cls_loss_mapping 0.0076 cls_loss_causal 0.2836 re_mapping 0.0154 re_causal 0.0257 /// teacc 98.83 lr 0.00012536
+Epoch 66, weight, value: tensor([[ 0.0020,  0.0258,  0.0198,  ..., -0.0383, -0.0394, -0.0086],
+        [-0.0430, -0.0503, -0.0576,  ...,  0.0529,  0.0339,  0.0186],
+        [ 0.0011, -0.0361, -0.0243,  ..., -0.0011, -0.0202, -0.0076],
+        ...,
+        [-0.0688, -0.0746, -0.0821,  ...,  0.0163, -0.0099,  0.0360],
+        [-0.0338, -0.0428, -0.0608,  ..., -0.0844, -0.0789, -0.0647],
+        [ 0.2040,  0.2343,  0.2637,  ..., -0.0575, -0.0165, -0.0731]],
+       device='cuda:0'), grad: tensor([[-1.2512e-02, -4.1428e-03, -3.5000e-03,  ..., -2.0447e-03,
+         -2.1763e-03, -1.2989e-03],
+        [ 3.7975e-03,  9.0551e-04,  7.8487e-04,  ...,  7.8154e-04,
+          7.4482e-04,  5.9128e-04],
+        [ 5.3549e-04,  1.8501e-04,  1.5616e-04,  ...,  1.0717e-04,
+          1.1939e-04,  7.4089e-05],
+        ...,
+        [ 2.4376e-03,  8.9693e-04,  7.5340e-04,  ...,  3.2973e-04,
+          3.7026e-04,  1.7571e-04],
+        [ 1.6136e-03,  6.1655e-04,  5.1594e-04,  ...,  1.9026e-04,
+          2.1744e-04,  8.6069e-05],
+        [ 8.3971e-04,  3.1304e-04,  2.6274e-04,  ...,  1.1647e-04,
+          1.3196e-04,  6.3002e-05]], device='cuda:0')
+Epoch 66, bias, value: tensor([-0.0804, -0.0852, -0.0583, -0.1341, -0.1188,  0.1129,  0.4119],
+       device='cuda:0'), grad: tensor([-0.0408,  0.0187,  0.0015,  0.0081,  0.0064,  0.0039,  0.0021],
+       device='cuda:0')
+249
+0.000125360439090882
+changing lr
+epoch 65, time 361.65, cls_loss 0.3226 cls_loss_mapping 0.0092 cls_loss_causal 0.3017 re_mapping 0.0152 re_causal 0.0255 /// teacc 98.83 lr 0.00008035
+Epoch 67, weight, value: tensor([[ 0.0019,  0.0258,  0.0199,  ..., -0.0383, -0.0394, -0.0086],
+        [-0.0430, -0.0503, -0.0575,  ...,  0.0529,  0.0338,  0.0186],
+        [ 0.0011, -0.0361, -0.0242,  ..., -0.0011, -0.0201, -0.0075],
+        ...,
+        [-0.0688, -0.0746, -0.0820,  ...,  0.0162, -0.0100,  0.0359],
+        [-0.0337, -0.0428, -0.0608,  ..., -0.0844, -0.0789, -0.0647],
+        [ 0.2039,  0.2342,  0.2636,  ..., -0.0574, -0.0165, -0.0731]],
+       device='cuda:0'), grad: tensor([[-7.3671e-04, -3.0518e-04, -2.9898e-04,  ..., -4.4227e-05,
+         -3.1561e-05, -3.6031e-05],
+        [ 4.2534e-04,  1.7428e-04,  1.7035e-04,  ...,  2.9847e-05,
+          2.2784e-05,  2.4483e-05],
+        [ 4.6007e-06,  3.3360e-06,  2.6729e-06,  ..., -6.2101e-06,
+         -6.0201e-06, -6.2138e-06],
+        ...,
+        [ 1.5581e-04,  6.5923e-05,  6.5684e-05,  ...,  9.9465e-06,
+          6.6347e-06,  9.0078e-06],
+        [ 9.4101e-06,  3.4980e-06,  3.3975e-06,  ..., -1.6605e-06,
+         -1.7295e-06, -1.6345e-06],
+        [ 6.1810e-05,  2.5466e-05,  2.4900e-05,  ...,  4.4294e-06,
+          3.3937e-06,  3.6601e-06]], device='cuda:0')
+Epoch 67, bias, value: tensor([-0.0812, -0.0857, -0.0584, -0.1341, -0.1183,  0.1132,  0.4125],
+       device='cuda:0'), grad: tensor([-2.4471e-03,  1.4133e-03,  7.1824e-06,  2.6298e-04,  5.2452e-04,
+         3.6299e-05,  2.0456e-04], device='cuda:0')
+249
+8.03520570068517e-05
+changing lr
+epoch 66, time 366.56, cls_loss 0.2949 cls_loss_mapping 0.0097 cls_loss_causal 0.2863 re_mapping 0.0154 re_causal 0.0256 /// teacc 98.83 lr 0.00004525
+Epoch 68, weight, value: tensor([[ 0.0018,  0.0258,  0.0198,  ..., -0.0383, -0.0395, -0.0086],
+        [-0.0430, -0.0503, -0.0575,  ...,  0.0529,  0.0338,  0.0185],
+        [ 0.0013, -0.0361, -0.0242,  ..., -0.0010, -0.0200, -0.0075],
+        ...,
+        [-0.0689, -0.0746, -0.0820,  ...,  0.0162, -0.0100,  0.0359],
+        [-0.0339, -0.0428, -0.0608,  ..., -0.0844, -0.0789, -0.0647],
+        [ 0.2041,  0.2342,  0.2636,  ..., -0.0574, -0.0164, -0.0731]],
+       device='cuda:0'), grad: tensor([[-3.4180e-02, -6.1684e-03, -6.1760e-03,  ..., -1.6602e-02,
+         -1.7288e-02, -1.5945e-02],
+        [ 2.8629e-03,  2.5153e-04,  2.5582e-04,  ...,  7.4816e-04,
+          7.8058e-04,  7.1144e-04],
+        [ 4.9210e-04,  5.7787e-05,  5.8532e-05,  ...,  1.7059e-04,
+          1.7798e-04,  1.6201e-04],
+        ...,
+        [ 2.9724e-02,  5.6915e-03,  5.6992e-03,  ...,  1.5266e-02,
+          1.5900e-02,  1.4671e-02],
+        [ 2.8443e-04,  2.5526e-05,  2.5898e-05,  ...,  7.5042e-05,
+          7.8261e-05,  7.1585e-05],
+        [ 5.5504e-04,  9.7811e-05,  9.8050e-05,  ...,  2.6536e-04,
+          2.7633e-04,  2.5463e-04]], device='cuda:0')
+Epoch 68, bias, value: tensor([-0.0805, -0.0861, -0.0578, -0.1341, -0.1188,  0.1124,  0.4130],
+       device='cuda:0'), grad: tensor([-0.1210,  0.0119,  0.0019,  0.0010,  0.1030,  0.0012,  0.0020],
+       device='cuda:0')
+249
+4.5251191160326525e-05
+changing lr
+epoch 67, time 366.14, cls_loss 0.2989 cls_loss_mapping 0.0084 cls_loss_causal 0.2827 re_mapping 0.0154 re_causal 0.0259 /// teacc 98.83 lr 0.00002013
+Epoch 69, weight, value: tensor([[ 0.0018,  0.0258,  0.0198,  ..., -0.0384, -0.0395, -0.0087],
+        [-0.0431, -0.0503, -0.0576,  ...,  0.0529,  0.0338,  0.0185],
+        [ 0.0012, -0.0361, -0.0242,  ..., -0.0010, -0.0200, -0.0075],
+        ...,
+        [-0.0688, -0.0746, -0.0820,  ...,  0.0162, -0.0100,  0.0359],
+        [-0.0339, -0.0428, -0.0608,  ..., -0.0844, -0.0789, -0.0647],
+        [ 0.2041,  0.2342,  0.2636,  ..., -0.0574, -0.0164, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 0.0043,  0.0012,  0.0011,  ...,  0.0003,  0.0004,  0.0003],
+        [ 0.0044,  0.0012,  0.0012,  ...,  0.0004,  0.0004,  0.0003],
+        [ 0.0061,  0.0014,  0.0013,  ...,  0.0014,  0.0016,  0.0015],
+        ...,
+        [ 0.0039,  0.0011,  0.0011,  ...,  0.0003,  0.0003,  0.0003],
+        [ 0.0045,  0.0012,  0.0012,  ...,  0.0003,  0.0004,  0.0003],
+        [-0.0245, -0.0068, -0.0066,  ..., -0.0019, -0.0021, -0.0018]],
+       device='cuda:0')
+Epoch 69, bias, value: tensor([-0.0809, -0.0862, -0.0578, -0.1338, -0.1186,  0.1121,  0.4133],
+       device='cuda:0'), grad: tensor([ 0.0231,  0.0235,  0.0338,  0.0058,  0.0210,  0.0241, -0.1313],
+       device='cuda:0')
+249
+2.0128530023804673e-05
+changing lr
+epoch 68, time 367.48, cls_loss 0.3093 cls_loss_mapping 0.0073 cls_loss_causal 0.2899 re_mapping 0.0154 re_causal 0.0241 /// teacc 99.42 lr 0.00000503
+Epoch 70, weight, value: tensor([[ 0.0017,  0.0258,  0.0198,  ..., -0.0384, -0.0395, -0.0087],
+        [-0.0431, -0.0503, -0.0575,  ...,  0.0529,  0.0338,  0.0185],
+        [ 0.0012, -0.0361, -0.0242,  ..., -0.0010, -0.0200, -0.0075],
+        ...,
+        [-0.0688, -0.0746, -0.0820,  ...,  0.0162, -0.0100,  0.0359],
+        [-0.0339, -0.0428, -0.0608,  ..., -0.0844, -0.0789, -0.0647],
+        [ 0.2041,  0.2342,  0.2636,  ..., -0.0574, -0.0164, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 5.1880e-03,  1.7242e-03,  1.7281e-03,  ...,  1.0443e-03,
+          1.2226e-03,  9.0122e-04],
+        [-1.9608e-02, -1.3977e-05, -4.1962e-05,  ..., -3.2349e-03,
+         -4.5815e-03, -2.5368e-03],
+        [ 4.2191e-03,  9.1717e-06,  1.4819e-05,  ...,  6.9857e-04,
+          9.8515e-04,  5.4884e-04],
+        ...,
+        [ 2.3079e-03, -1.5587e-05, -9.8944e-06,  ...,  3.6407e-04,
+          5.3930e-04,  2.8062e-04],
+        [ 3.5706e-03,  7.2829e-06,  1.1832e-05,  ...,  5.8937e-04,
+          8.3303e-04,  4.6229e-04],
+        [ 6.4754e-04, -1.7242e-03, -1.7214e-03,  ..., -6.9499e-05,
+          1.4293e-04, -1.3268e-04]], device='cuda:0')
+Epoch 70, bias, value: tensor([-0.0812, -0.0860, -0.0579, -0.1338, -0.1185,  0.1121,  0.4133],
+       device='cuda:0'), grad: tensor([ 0.0215, -0.1231,  0.0264,  0.0229,  0.0148,  0.0224,  0.0150],
+       device='cuda:0')
+249
+5.034667293427056e-06
+changing lr
+epoch 69, time 364.74, cls_loss 0.2744 cls_loss_mapping 0.0091 cls_loss_causal 0.2657 re_mapping 0.0153 re_causal 0.0254 /// teacc 99.42 lr 0.00000000
+---------------------saving last model at epoch 69----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//photo/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_SGD', 'source_domain': 'photo', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//photo/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_SGD/photo_16factor_best_test_check.csv', 'factor_num': 16, 'epoch': 'best', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of best
+randm: False
+stride: 5
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+columns: ['photo', 'art_painting', 'cartoon', 'sketch']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+                     photo  art_painting    cartoon     sketch       Avg
+w/o do (original x)  100.0     67.626953  45.733788  66.021889  59.79421
+       photo  art_painting    cartoon     sketch        Avg
+do  99.88024     67.675781  45.221843  63.934843  58.944156
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//photo/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_SGD', 'source_domain': 'photo', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//photo/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_SGD/photo_16factor_last_test_check.csv', 'factor_num': 16, 'epoch': 'last', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of last
+randm: False
+stride: 5
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+columns: ['photo', 'art_painting', 'cartoon', 'sketch']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+                        photo  art_painting    cartoon     sketch        Avg
+w/o do (original x)  99.94012     69.042969  52.943686  68.032578  63.339744
+       photo  art_painting    cartoon     sketch       Avg
+do  99.88024     68.359375  51.663823  64.342072  61.45509
diff --git a/Meta-causal/code-withStyleAttack/73084.error b/Meta-causal/code-withStyleAttack/73084.error
new file mode 100644
index 0000000000000000000000000000000000000000..6882c9e2571af1ce38353a62fd21b89dc6195fe1
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73084.error
@@ -0,0 +1 @@
+run_my_joint_v13_test.sh: line 30: tchsize}: command not found
diff --git a/Meta-causal/code-withStyleAttack/73084.log b/Meta-causal/code-withStyleAttack/73084.log
new file mode 100644
index 0000000000000000000000000000000000000000..9e713192785a57a5434f8714777b6c8fefd29011
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73084.log
@@ -0,0 +1,1946 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'sketch', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 5, 'factor_num': 16, 'epochs': 70, 'nbatch': 100, 'batchsize': 6, 'lr': 0.01, 'lr_scheduler': 'cosine', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_SGD', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 5
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_train.hdf5 torch.Size([3531, 3, 227, 227]) torch.Size([3531])
+--------------------------CA_multiple--------------------------
+---------------------------16 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_val.hdf5 torch.Size([398, 3, 227, 227]) torch.Size([398])
+-------------------------------------loading pretrain weights----------------------------------
+Epoch 1, weight, value: tensor([[-0.0087,  0.0101,  0.0056,  ..., -0.0123,  0.0177,  0.0212],
+        [-0.0090, -0.0137,  0.0044,  ...,  0.0004, -0.0177, -0.0023],
+        [-0.0073, -0.0203,  0.0132,  ..., -0.0132, -0.0102,  0.0109],
+        ...,
+        [ 0.0190,  0.0031, -0.0021,  ..., -0.0167,  0.0031,  0.0079],
+        [ 0.0187, -0.0061, -0.0028,  ...,  0.0037,  0.0134,  0.0040],
+        [-0.0184, -0.0112,  0.0031,  ..., -0.0211,  0.0101, -0.0218]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([ 0.0172, -0.0176,  0.0136,  0.0123, -0.0004,  0.0133, -0.0131],
+       device='cuda:0'), grad: None
+588
+0.01
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 869.46, cls_loss 5.4576 cls_loss_mapping 1.6008 cls_loss_causal 1.6787 re_mapping 0.1803 re_causal 0.1796 /// teacc 52.01 lr 0.00999497
+Epoch 2, weight, value: tensor([[-2.4024e-02,  3.0409e-03, -3.4237e-02,  ..., -3.7675e-02,
+          2.8224e-03,  8.5256e-03],
+        [ 1.0452e-01,  9.1481e-02,  7.8522e-02,  ...,  8.4016e-02,
+          4.0651e-02,  6.5300e-02],
+        [-1.0132e-01, -1.1980e-01, -3.2355e-02,  ..., -9.6788e-03,
+         -2.2094e-02,  1.8934e-02],
+        ...,
+        [-2.3410e-02, -3.6656e-02, -3.8136e-02,  ...,  2.2111e-02,
+          3.3165e-02,  3.0543e-02],
+        [ 6.9311e-02,  4.8688e-02,  5.7027e-02,  ..., -2.6136e-02,
+         -4.0090e-02, -4.6621e-02],
+        [ 6.2641e-05,  2.7951e-03,  8.2894e-03,  ..., -6.1407e-02,
+         -1.6122e-02, -4.9884e-02]], device='cuda:0'), grad: tensor([[ 0.0864,  0.0088,  0.0085,  ...,  0.0286,  0.0257,  0.0049],
+        [ 0.0605,  0.0164,  0.0211,  ...,  0.0199,  0.0165,  0.0090],
+        [-0.0468, -0.0012, -0.0011,  ..., -0.0159, -0.0154, -0.0025],
+        ...,
+        [-0.0449, -0.0041, -0.0094,  ..., -0.0164, -0.0128, -0.0075],
+        [ 0.0197,  0.0047,  0.0056,  ...,  0.0064,  0.0056,  0.0025],
+        [-0.0774, -0.0253, -0.0256,  ..., -0.0233, -0.0202, -0.0068]],
+       device='cuda:0')
+Epoch 2, bias, value: tensor([ 0.0871, -0.0628,  0.0937, -0.0307,  0.0747, -0.0302, -0.1069],
+       device='cuda:0'), grad: tensor([ 0.0612,  0.1840, -0.0222,  0.0080, -0.1246,  0.0486, -0.1548],
+       device='cuda:0')
+588
+0.009994965332706574
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 883.23, cls_loss 1.5561 cls_loss_mapping 1.0392 cls_loss_causal 1.3074 re_mapping 0.0636 re_causal 0.0624 /// teacc 72.61 lr 0.00997987
+Epoch 3, weight, value: tensor([[ 0.0286,  0.0628,  0.0212,  ..., -0.0506, -0.0023, -0.0028],
+        [ 0.0686,  0.0545,  0.0483,  ...,  0.1059,  0.0684,  0.0893],
+        [-0.1424, -0.1633, -0.0831,  ...,  0.0032, -0.0180,  0.0246],
+        ...,
+        [-0.0874, -0.0973, -0.0913,  ...,  0.0197,  0.0257,  0.0299],
+        [ 0.0807,  0.0615,  0.0715,  ..., -0.0368, -0.0485, -0.0541],
+        [ 0.0734,  0.0746,  0.0755,  ..., -0.0753, -0.0326, -0.0635]],
+       device='cuda:0'), grad: tensor([[ 0.0294,  0.0153,  0.0159,  ...,  0.0071,  0.0078,  0.0072],
+        [ 0.0044,  0.0018,  0.0017,  ...,  0.0005,  0.0006,  0.0006],
+        [-0.0246, -0.0097, -0.0090,  ..., -0.0018, -0.0025, -0.0021],
+        ...,
+        [-0.0139, -0.0093, -0.0105,  ..., -0.0061, -0.0063, -0.0060],
+        [ 0.0023,  0.0009,  0.0009,  ...,  0.0002,  0.0003,  0.0002],
+        [ 0.0023,  0.0009,  0.0009,  ...,  0.0002,  0.0003,  0.0002]],
+       device='cuda:0')
+Epoch 3, bias, value: tensor([ 0.1275, -0.0333,  0.1155, -0.0421,  0.0167, -0.0652, -0.0949],
+       device='cuda:0'), grad: tensor([ 0.1012,  0.0126, -0.0699,  0.0008, -0.0577,  0.0065,  0.0067],
+       device='cuda:0')
+588
+0.009979871469976196
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 880.55, cls_loss 1.1975 cls_loss_mapping 0.6283 cls_loss_causal 1.0063 re_mapping 0.0572 re_causal 0.0551 /// teacc 83.17 lr 0.00995475
+Epoch 4, weight, value: tensor([[ 0.0074,  0.0436, -0.0028,  ..., -0.0504, -0.0011, -0.0008],
+        [ 0.0634,  0.0397,  0.0296,  ...,  0.1205,  0.0857,  0.1037],
+        [-0.1542, -0.1573, -0.0811,  ...,  0.0153, -0.0049,  0.0309],
+        ...,
+        [-0.1144, -0.1169, -0.1053,  ...,  0.0161,  0.0172,  0.0242],
+        [ 0.1107,  0.0933,  0.1071,  ..., -0.0569, -0.0676, -0.0723],
+        [ 0.1185,  0.1055,  0.1069,  ..., -0.0718, -0.0293, -0.0590]],
+       device='cuda:0'), grad: tensor([[ 0.0141,  0.0035,  0.0028,  ...,  0.0029,  0.0034,  0.0033],
+        [-0.0408, -0.0100, -0.0080,  ..., -0.0083, -0.0114, -0.0101],
+        [ 0.0123,  0.0017,  0.0015,  ...,  0.0044,  0.0049,  0.0048],
+        ...,
+        [-0.0080, -0.0004, -0.0005,  ..., -0.0036, -0.0033, -0.0037],
+        [ 0.0072,  0.0019,  0.0015,  ...,  0.0014,  0.0019,  0.0017],
+        [ 0.0101,  0.0022,  0.0018,  ...,  0.0021,  0.0030,  0.0026]],
+       device='cuda:0')
+Epoch 4, bias, value: tensor([ 0.0435,  0.0082,  0.1091, -0.0209,  0.0731, -0.1018, -0.0875],
+       device='cuda:0'), grad: tensor([ 0.0468, -0.1534,  0.0462,  0.0208, -0.0264,  0.0262,  0.0396],
+       device='cuda:0')
+588
+0.009954748808839675
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 891.53, cls_loss 1.0629 cls_loss_mapping 0.3991 cls_loss_causal 0.8607 re_mapping 0.0509 re_causal 0.0487 /// teacc 86.43 lr 0.00991965
+Epoch 5, weight, value: tensor([[ 0.0263,  0.0599,  0.0083,  ..., -0.0369,  0.0075,  0.0089],
+        [ 0.0554,  0.0264,  0.0153,  ...,  0.1183,  0.0865,  0.1024],
+        [-0.1422, -0.1421, -0.0718,  ...,  0.0081, -0.0115,  0.0239],
+        ...,
+        [-0.1169, -0.1246, -0.1080,  ...,  0.0158,  0.0199,  0.0249],
+        [ 0.1096,  0.0999,  0.1167,  ..., -0.0689, -0.0795, -0.0846],
+        [ 0.1222,  0.1126,  0.1165,  ..., -0.0673, -0.0249, -0.0542]],
+       device='cuda:0'), grad: tensor([[ 0.0176, -0.0001,  0.0008,  ..., -0.0009, -0.0006, -0.0010],
+        [ 0.0337,  0.0053,  0.0079,  ...,  0.0052,  0.0055,  0.0055],
+        [-0.0689, -0.0050, -0.0096,  ..., -0.0051, -0.0059, -0.0047],
+        ...,
+        [-0.0019, -0.0015, -0.0014,  ..., -0.0009, -0.0010, -0.0013],
+        [ 0.0024,  0.0002,  0.0003,  ...,  0.0002,  0.0002,  0.0002],
+        [ 0.0053,  0.0004,  0.0007,  ...,  0.0005,  0.0006,  0.0004]],
+       device='cuda:0')
+Epoch 5, bias, value: tensor([ 4.3111e-02,  4.9358e-02,  8.5871e-02, -3.1236e-05,  5.6611e-02,
+        -1.3630e-01, -7.5535e-02], device='cuda:0'), grad: tensor([ 0.0552,  0.1538, -0.2998,  0.0377,  0.0239,  0.0094,  0.0199],
+       device='cuda:0')
+588
+0.009919647942993149
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 891.79, cls_loss 0.9207 cls_loss_mapping 0.2894 cls_loss_causal 0.7489 re_mapping 0.0461 re_causal 0.0439 /// teacc 89.45 lr 0.00987464
+Epoch 6, weight, value: tensor([[ 0.0450,  0.0763,  0.0278,  ..., -0.0337,  0.0143,  0.0144],
+        [ 0.0369,  0.0182,  0.0054,  ...,  0.1171,  0.0869,  0.1020],
+        [-0.1677, -0.1593, -0.0906,  ...,  0.0148, -0.0056,  0.0306],
+        ...,
+        [-0.1213, -0.1323, -0.1159,  ...,  0.0099,  0.0108,  0.0143],
+        [ 0.1151,  0.1059,  0.1231,  ..., -0.0743, -0.0847, -0.0893],
+        [ 0.1313,  0.1179,  0.1199,  ..., -0.0580, -0.0174, -0.0458]],
+       device='cuda:0'), grad: tensor([[-2.6207e-03,  4.0114e-05,  6.3801e-04,  ..., -5.4855e-03,
+         -4.2381e-03, -4.7340e-03],
+        [-1.9588e-03, -2.1095e-03, -2.2068e-03,  ...,  8.4162e-05,
+         -3.4189e-04, -1.2082e-04],
+        [ 4.4937e-03, -5.8204e-05, -4.7445e-05,  ...,  1.0624e-03,
+          9.8228e-04,  7.4673e-04],
+        ...,
+        [-4.2381e-03,  1.1826e-03,  7.8011e-04,  ...,  2.2144e-03,
+          1.7405e-03,  2.3155e-03],
+        [ 9.3889e-04,  1.9908e-04,  1.7512e-04,  ...,  4.6468e-04,
+          4.0650e-04,  3.9244e-04],
+        [ 1.6651e-03,  3.8934e-04,  3.5048e-04,  ...,  7.9250e-04,
+          6.9809e-04,  6.7043e-04]], device='cuda:0')
+Epoch 6, bias, value: tensor([ 0.0397,  0.0487,  0.0905,  0.0092,  0.0261, -0.1352, -0.0565],
+       device='cuda:0'), grad: tensor([-0.0689,  0.0152,  0.0142,  0.0092,  0.0173,  0.0049,  0.0081],
+       device='cuda:0')
+588
+0.009874639560909117
+changing lr
+epoch 5, time 878.78, cls_loss 0.7789 cls_loss_mapping 0.2093 cls_loss_causal 0.6064 re_mapping 0.0429 re_causal 0.0407 /// teacc 84.42 lr 0.00981981
+Epoch 7, weight, value: tensor([[ 0.0218,  0.0700,  0.0167,  ..., -0.0212,  0.0240,  0.0237],
+        [ 0.0517,  0.0256,  0.0154,  ...,  0.1136,  0.0846,  0.1003],
+        [-0.1734, -0.1765, -0.1077,  ...,  0.0044, -0.0158,  0.0189],
+        ...,
+        [-0.1195, -0.1255, -0.1071,  ...,  0.0007,  0.0006,  0.0062],
+        [ 0.1132,  0.1068,  0.1238,  ..., -0.0794, -0.0886, -0.0937],
+        [ 0.1416,  0.1305,  0.1312,  ..., -0.0490, -0.0085, -0.0361]],
+       device='cuda:0'), grad: tensor([[ 1.6220e-02,  1.5764e-03,  1.4114e-03,  ...,  3.9635e-03,
+          4.1885e-03,  4.2076e-03],
+        [ 1.4854e-02,  8.7309e-04,  3.5787e-04,  ...,  1.6956e-03,
+          1.6327e-03,  1.6346e-03],
+        [ 2.7267e-02,  1.8482e-03,  1.1320e-03,  ...,  4.9667e-03,
+          4.9667e-03,  5.0850e-03],
+        ...,
+        [ 3.5591e-03, -1.5843e-04, -4.0984e-04,  ...,  6.8378e-04,
+          5.0116e-04,  6.5327e-04],
+        [ 5.5981e-04,  3.9399e-05,  2.5958e-05,  ...,  1.1212e-04,
+          1.1295e-04,  1.1599e-04],
+        [-5.0659e-02, -2.6989e-03, -6.4611e-04,  ..., -1.8587e-03,
+         -1.3981e-03, -1.1415e-03]], device='cuda:0')
+Epoch 7, bias, value: tensor([ 0.0430,  0.0762,  0.1338, -0.0091,  0.0663, -0.1745, -0.1139],
+       device='cuda:0'), grad: tensor([ 0.0585,  0.0464,  0.0888, -0.0550,  0.0074,  0.0018, -0.1479],
+       device='cuda:0')
+588
+0.009819814303479266
+changing lr
+epoch 6, time 885.69, cls_loss 0.7475 cls_loss_mapping 0.1827 cls_loss_causal 0.6011 re_mapping 0.0395 re_causal 0.0377 /// teacc 88.94 lr 0.00975528
+Epoch 8, weight, value: tensor([[ 0.0136,  0.0562, -0.0003,  ..., -0.0213,  0.0221,  0.0240],
+        [ 0.0393,  0.0238,  0.0130,  ...,  0.0976,  0.0694,  0.0824],
+        [-0.1633, -0.1689, -0.1042,  ...,  0.0069, -0.0150,  0.0166],
+        ...,
+        [-0.1149, -0.1157, -0.0924,  ...,  0.0095,  0.0128,  0.0201],
+        [ 0.1281,  0.1087,  0.1258,  ..., -0.0780, -0.0866, -0.0910],
+        [ 0.1405,  0.1338,  0.1334,  ..., -0.0440, -0.0063, -0.0323]],
+       device='cuda:0'), grad: tensor([[ 0.0403,  0.0048,  0.0047,  ...,  0.0289,  0.0299,  0.0293],
+        [ 0.0099,  0.0007,  0.0007,  ...,  0.0020,  0.0020,  0.0019],
+        [-0.0317, -0.0023, -0.0022,  ..., -0.0063, -0.0062, -0.0059],
+        ...,
+        [-0.0289, -0.0040, -0.0039,  ..., -0.0267, -0.0277, -0.0272],
+        [ 0.0031,  0.0002,  0.0002,  ...,  0.0006,  0.0006,  0.0006],
+        [ 0.0024,  0.0002,  0.0002,  ...,  0.0005,  0.0005,  0.0004]],
+       device='cuda:0')
+Epoch 8, bias, value: tensor([ 0.0348,  0.1310,  0.1223, -0.0325,  0.0522, -0.1402, -0.1467],
+       device='cuda:0'), grad: tensor([ 0.1224,  0.0407, -0.1298,  0.0205, -0.0760,  0.0126,  0.0097],
+       device='cuda:0')
+588
+0.009755282581475767
+changing lr
+---------------------saving model at epoch 7----------------------------------------------------
+epoch 7, time 883.58, cls_loss 0.7190 cls_loss_mapping 0.1392 cls_loss_causal 0.5745 re_mapping 0.0369 re_causal 0.0355 /// teacc 90.70 lr 0.00968117
+Epoch 9, weight, value: tensor([[ 0.0262,  0.0597,  0.0106,  ..., -0.0114,  0.0349,  0.0337],
+        [ 0.0319,  0.0176,  0.0070,  ...,  0.1016,  0.0740,  0.0863],
+        [-0.1720, -0.1752, -0.1139,  ..., -0.0051, -0.0282,  0.0034],
+        ...,
+        [-0.1134, -0.1114, -0.0917,  ...,  0.0020,  0.0030,  0.0129],
+        [ 0.1365,  0.1129,  0.1296,  ..., -0.0820, -0.0900, -0.0948],
+        [ 0.1424,  0.1367,  0.1348,  ..., -0.0438, -0.0073, -0.0324]],
+       device='cuda:0'), grad: tensor([[-0.0206, -0.0142, -0.0142,  ..., -0.0055, -0.0046, -0.0059],
+        [-0.0272,  0.0024,  0.0025,  ..., -0.0014, -0.0017, -0.0024],
+        [-0.0098,  0.0005, -0.0005,  ..., -0.0006, -0.0008, -0.0006],
+        ...,
+        [ 0.0306,  0.0070,  0.0074,  ...,  0.0043,  0.0040,  0.0050],
+        [ 0.0151,  0.0030,  0.0032,  ...,  0.0019,  0.0018,  0.0023],
+        [ 0.0061,  0.0010,  0.0011,  ...,  0.0007,  0.0007,  0.0009]],
+       device='cuda:0')
+Epoch 9, bias, value: tensor([ 0.0927,  0.0575,  0.1715, -0.0426,  0.0782, -0.1876, -0.1497],
+       device='cuda:0'), grad: tensor([-0.0270, -0.1187, -0.0547,  0.0231,  0.1019,  0.0531,  0.0225],
+       device='cuda:0')
+588
+0.009681174353198686
+changing lr
+epoch 8, time 866.36, cls_loss 0.6725 cls_loss_mapping 0.1167 cls_loss_causal 0.5388 re_mapping 0.0340 re_causal 0.0328 /// teacc 90.20 lr 0.00959764
+Epoch 10, weight, value: tensor([[ 0.0431,  0.0754,  0.0325,  ..., -0.0346,  0.0108,  0.0092],
+        [ 0.0238,  0.0047, -0.0110,  ...,  0.1101,  0.0856,  0.0956],
+        [-0.1798, -0.1792, -0.1212,  ...,  0.0043, -0.0237,  0.0077],
+        ...,
+        [-0.1158, -0.1195, -0.0962,  ..., -0.0034, -0.0009,  0.0084],
+        [ 0.1237,  0.1143,  0.1305,  ..., -0.0828, -0.0901, -0.0942],
+        [ 0.1604,  0.1504,  0.1459,  ..., -0.0412, -0.0076, -0.0302]],
+       device='cuda:0'), grad: tensor([[ 6.3372e-04,  1.7834e-04,  1.8990e-04,  ...,  2.7823e-04,
+          2.8276e-04,  2.8062e-04],
+        [ 1.0166e-03,  2.6917e-04,  2.8944e-04,  ...,  3.6979e-04,
+          3.7861e-04,  3.7193e-04],
+        [ 1.0462e-03,  3.5167e-04,  3.6287e-04,  ...,  8.3399e-04,
+          8.3399e-04,  8.5020e-04],
+        ...,
+        [-8.0948e-03, -2.4605e-03, -2.5902e-03,  ..., -4.2953e-03,
+         -4.3373e-03, -4.3488e-03],
+        [-6.3330e-08, -7.9162e-08, -8.0094e-08,  ...,  1.3039e-08,
+          1.3970e-08,  1.2107e-08],
+        [ 5.2681e-03,  1.5993e-03,  1.6851e-03,  ...,  2.7657e-03,
+          2.7943e-03,  2.8000e-03]], device='cuda:0')
+Epoch 10, bias, value: tensor([ 0.0513,  0.1342,  0.1144, -0.0308,  0.1487, -0.2272, -0.1713],
+       device='cuda:0'), grad: tensor([ 1.3018e-03,  2.0351e-03,  2.5253e-03,  1.8120e-04, -1.7136e-02,
+        -8.3819e-09,  1.1093e-02], device='cuda:0')
+588
+0.009597638862757255
+changing lr
+---------------------saving model at epoch 9----------------------------------------------------
+epoch 9, time 873.13, cls_loss 0.6766 cls_loss_mapping 0.1142 cls_loss_causal 0.5159 re_mapping 0.0312 re_causal 0.0303 /// teacc 93.22 lr 0.00950484
+Epoch 11, weight, value: tensor([[ 0.0321,  0.0625,  0.0272,  ..., -0.0410,  0.0076,  0.0039],
+        [ 0.0350,  0.0217, -0.0017,  ...,  0.1179,  0.0909,  0.1021],
+        [-0.1617, -0.1627, -0.1084,  ...,  0.0074, -0.0255,  0.0098],
+        ...,
+        [-0.1280, -0.1281, -0.1053,  ..., -0.0016,  0.0029,  0.0106],
+        [ 0.1255,  0.1150,  0.1300,  ..., -0.0841, -0.0906, -0.0957],
+        [ 0.1625,  0.1472,  0.1441,  ..., -0.0457, -0.0125, -0.0350]],
+       device='cuda:0'), grad: tensor([[-1.1432e-01, -3.9978e-02, -4.1534e-02,  ..., -1.5312e-02,
+         -1.8356e-02, -1.8158e-02],
+        [ 1.0748e-01,  3.4943e-02,  3.6194e-02,  ...,  1.1215e-02,
+          1.3046e-02,  1.2718e-02],
+        [-2.0844e-02,  1.4909e-05, -1.5831e-04,  ..., -7.3719e-04,
+          3.8075e-04,  3.9434e-04],
+        ...,
+        [ 2.0050e-02,  3.8815e-03,  4.2610e-03,  ...,  3.5992e-03,
+          3.7155e-03,  3.8586e-03],
+        [ 7.2384e-04,  8.1301e-05,  9.0122e-05,  ...,  5.6446e-05,
+          4.2379e-05,  4.2230e-05],
+        [ 4.9171e-03,  6.5088e-04,  7.3051e-04,  ...,  8.3733e-04,
+          8.4734e-04,  8.4114e-04]], device='cuda:0')
+Epoch 11, bias, value: tensor([ 0.1531,  0.1939,  0.0713, -0.0403,  0.0861, -0.2292, -0.2162],
+       device='cuda:0'), grad: tensor([-0.2474,  0.2664, -0.1018,  0.0072,  0.0565,  0.0028,  0.0165],
+       device='cuda:0')
+588
+0.009504844339512096
+changing lr
+---------------------saving model at epoch 10----------------------------------------------------
+epoch 10, time 870.54, cls_loss 0.6439 cls_loss_mapping 0.0988 cls_loss_causal 0.5241 re_mapping 0.0290 re_causal 0.0286 /// teacc 93.97 lr 0.00940298
+Epoch 12, weight, value: tensor([[ 0.0615,  0.0837,  0.0455,  ..., -0.0504, -0.0056, -0.0085],
+        [-0.0039, -0.0042, -0.0282,  ...,  0.1062,  0.0819,  0.0932],
+        [-0.1482, -0.1420, -0.0880,  ...,  0.0119, -0.0211,  0.0121],
+        ...,
+        [-0.1262, -0.1302, -0.1054,  ...,  0.0106,  0.0169,  0.0226],
+        [ 0.1300,  0.1149,  0.1296,  ..., -0.0845, -0.0902, -0.0950],
+        [ 0.1558,  0.1407,  0.1372,  ..., -0.0488, -0.0166, -0.0378]],
+       device='cuda:0'), grad: tensor([[-1.7166e-02, -2.2755e-03, -2.5539e-03,  ...,  5.7907e-03,
+          5.7030e-03,  6.0692e-03],
+        [-2.6062e-02,  6.2037e-04,  9.7179e-04,  ..., -2.5645e-05,
+         -1.1730e-04, -3.5197e-05],
+        [ 4.0398e-03, -4.0359e-03, -3.9062e-03,  ..., -7.1068e-03,
+         -7.2708e-03, -7.4539e-03],
+        ...,
+        [ 1.2398e-02,  1.5821e-03,  1.5020e-03,  ...,  4.7731e-04,
+          5.8031e-04,  5.0545e-04],
+        [ 4.8065e-03,  7.9441e-04,  7.7629e-04,  ...,  1.5807e-04,
+          2.0313e-04,  1.6785e-04],
+        [ 1.4000e-02,  2.3327e-03,  2.2793e-03,  ...,  4.8041e-04,
+          6.1226e-04,  5.0974e-04]], device='cuda:0')
+Epoch 12, bias, value: tensor([ 0.2039,  0.0902,  0.0600,  0.0019,  0.0914, -0.2100, -0.2194],
+       device='cuda:0'), grad: tensor([ 0.0012, -0.1232,  0.0079,  0.0251,  0.0393,  0.0128,  0.0371],
+       device='cuda:0')
+588
+0.009402977659283692
+changing lr
+epoch 11, time 866.51, cls_loss 0.6127 cls_loss_mapping 0.0798 cls_loss_causal 0.4984 re_mapping 0.0271 re_causal 0.0271 /// teacc 93.72 lr 0.00929224
+Epoch 13, weight, value: tensor([[ 5.0878e-02,  7.5806e-02,  4.3228e-02,  ..., -3.4053e-02,
+          1.2387e-02,  6.3771e-03],
+        [ 1.3638e-02,  8.4117e-03, -1.5158e-02,  ...,  9.7552e-02,
+          7.3221e-02,  8.4235e-02],
+        [-1.6194e-01, -1.5555e-01, -1.0271e-01,  ...,  7.0612e-03,
+         -2.4160e-02,  9.0321e-03],
+        ...,
+        [-1.2503e-01, -1.2586e-01, -1.0569e-01,  ...,  7.5447e-05,
+          2.6365e-03,  1.2027e-02],
+        [ 1.2701e-01,  1.1260e-01,  1.2688e-01,  ..., -8.6365e-02,
+         -9.2157e-02, -9.7587e-02],
+        [ 1.5959e-01,  1.4376e-01,  1.4028e-01,  ..., -4.2947e-02,
+         -1.1845e-02, -3.3837e-02]], device='cuda:0'), grad: tensor([[ 2.4643e-02,  2.0351e-03,  4.6492e-04,  ...,  2.6951e-03,
+          3.9482e-03,  3.1948e-03],
+        [ 3.8605e-02,  2.7981e-03,  3.8671e-04,  ...,  2.5272e-03,
+          4.5662e-03,  3.1605e-03],
+        [ 2.0233e-02,  1.6727e-03,  3.2902e-04,  ...,  3.0460e-03,
+          4.0932e-03,  3.5419e-03],
+        ...,
+        [-1.0516e-01, -8.0872e-03, -1.3561e-03,  ..., -1.0391e-02,
+         -1.5884e-02, -1.2466e-02],
+        [ 1.0672e-03,  8.5890e-05,  1.4931e-05,  ...,  1.5533e-04,
+          2.1100e-04,  1.8132e-04],
+        [ 1.4015e-02,  1.0138e-03,  1.1867e-04,  ...,  1.1702e-03,
+          1.9121e-03,  1.4362e-03]], device='cuda:0')
+Epoch 13, bias, value: tensor([ 0.1121,  0.1191,  0.0789, -0.0022,  0.1729, -0.2507, -0.2126],
+       device='cuda:0'), grad: tensor([ 0.0746,  0.0977,  0.0721,  0.0220, -0.3098,  0.0038,  0.0396],
+       device='cuda:0')
+588
+0.009292243968009333
+changing lr
+epoch 12, time 860.04, cls_loss 0.5965 cls_loss_mapping 0.0683 cls_loss_causal 0.4914 re_mapping 0.0251 re_causal 0.0254 /// teacc 85.18 lr 0.00917287
+Epoch 14, weight, value: tensor([[ 4.3887e-02,  7.3432e-02,  4.3128e-02,  ..., -4.0296e-02,
+         -8.6837e-04, -2.3471e-03],
+        [-2.4289e-03,  1.0345e-04, -2.3421e-02,  ...,  1.0171e-01,
+          7.8354e-02,  9.0289e-02],
+        [-1.6489e-01, -1.6269e-01, -1.1474e-01,  ...,  6.7086e-03,
+         -2.6129e-02,  6.2945e-03],
+        ...,
+        [-1.0799e-01, -1.0771e-01, -8.6375e-02,  ...,  5.1664e-03,
+          1.3939e-02,  1.9509e-02],
+        [ 1.2949e-01,  1.0863e-01,  1.2306e-01,  ..., -8.5733e-02,
+         -9.0045e-02, -9.6143e-02],
+        [ 1.6413e-01,  1.4970e-01,  1.4536e-01,  ..., -4.0234e-02,
+         -9.8645e-03, -3.2078e-02]], device='cuda:0'), grad: tensor([[ 1.6088e-03,  1.0520e-04,  2.7940e-05,  ...,  2.4486e-04,
+          2.7514e-04,  3.4022e-04],
+        [ 2.7828e-03,  1.9932e-04,  6.2346e-05,  ...,  4.2033e-04,
+          4.6992e-04,  5.8126e-04],
+        [ 3.4409e-03,  4.7758e-06, -2.0421e-04,  ...,  3.2067e-04,
+          3.7861e-04,  5.8031e-04],
+        ...,
+        [ 9.5062e-03,  9.0122e-04,  4.6873e-04,  ...,  1.6050e-03,
+          1.7757e-03,  2.0962e-03],
+        [ 1.4687e-03,  1.0377e-04,  3.1441e-05,  ...,  2.2054e-04,
+          2.4676e-04,  3.0565e-04],
+        [ 2.7733e-03,  2.0373e-04,  6.7830e-05,  ...,  4.2391e-04,
+          4.7350e-04,  5.8365e-04]], device='cuda:0')
+Epoch 14, bias, value: tensor([ 0.1110,  0.0778,  0.1313,  0.0549,  0.1621, -0.2742, -0.2459],
+       device='cuda:0'), grad: tensor([ 0.0106,  0.0181,  0.0267, -0.1410,  0.0580,  0.0096,  0.0180],
+       device='cuda:0')
+588
+0.009172866268606516
+changing lr
+epoch 13, time 856.21, cls_loss 0.5850 cls_loss_mapping 0.0657 cls_loss_causal 0.4491 re_mapping 0.0241 re_causal 0.0245 /// teacc 92.96 lr 0.00904508
+Epoch 15, weight, value: tensor([[ 0.0513,  0.0830,  0.0520,  ..., -0.0196,  0.0197,  0.0160],
+        [ 0.0008, -0.0005, -0.0266,  ...,  0.0991,  0.0762,  0.0883],
+        [-0.1560, -0.1675, -0.1186,  ...,  0.0004, -0.0317,  0.0004],
+        ...,
+        [-0.1260, -0.1222, -0.1021,  ..., -0.0067,  0.0021,  0.0083],
+        [ 0.1254,  0.1115,  0.1264,  ..., -0.0856, -0.0897, -0.0965],
+        [ 0.1691,  0.1574,  0.1549,  ..., -0.0397, -0.0103, -0.0312]],
+       device='cuda:0'), grad: tensor([[ 8.8196e-03,  1.0271e-03,  1.2283e-03,  ...,  1.5392e-03,
+          1.6270e-03,  1.6136e-03],
+        [-6.2347e-02, -5.7793e-03, -5.8250e-03,  ..., -6.7558e-03,
+         -6.7101e-03, -7.2708e-03],
+        [ 8.3923e-02,  7.2708e-03,  8.3237e-03,  ...,  9.1782e-03,
+          9.0485e-03,  9.8038e-03],
+        ...,
+        [ 4.0016e-03,  3.7122e-04,  4.6921e-04,  ...,  3.3140e-04,
+          2.6989e-04,  3.8481e-04],
+        [ 6.7568e-04,  5.3495e-05,  7.2002e-05,  ...,  7.4506e-05,
+          7.2479e-05,  7.8857e-05],
+        [ 2.6379e-03,  2.1696e-04,  2.7347e-04,  ...,  2.9016e-04,
+          2.8372e-04,  3.0828e-04]], device='cuda:0')
+Epoch 15, bias, value: tensor([ 0.1672,  0.1007,  0.1797, -0.0121,  0.1682, -0.3364, -0.2509],
+       device='cuda:0'), grad: tensor([ 0.0282, -0.1451,  0.2510, -0.1622,  0.0165,  0.0026,  0.0092],
+       device='cuda:0')
+588
+0.00904508497187474
+changing lr
+epoch 14, time 863.01, cls_loss 0.5235 cls_loss_mapping 0.0525 cls_loss_causal 0.4430 re_mapping 0.0230 re_causal 0.0236 /// teacc 92.46 lr 0.00890916
+Epoch 16, weight, value: tensor([[ 0.0399,  0.0646,  0.0340,  ..., -0.0220,  0.0181,  0.0140],
+        [ 0.0073,  0.0101, -0.0181,  ...,  0.0932,  0.0692,  0.0809],
+        [-0.1450, -0.1484, -0.1018,  ...,  0.0051, -0.0250,  0.0048],
+        ...,
+        [-0.1397, -0.1326, -0.1119,  ..., -0.0003,  0.0058,  0.0150],
+        [ 0.1279,  0.1102,  0.1260,  ..., -0.0836, -0.0876, -0.0948],
+        [ 0.1649,  0.1493,  0.1466,  ..., -0.0413, -0.0122, -0.0318]],
+       device='cuda:0'), grad: tensor([[-2.6642e-02, -7.2517e-03, -8.2169e-03,  ..., -2.6436e-03,
+         -2.5215e-03, -2.6722e-03],
+        [ 8.6823e-03,  1.4286e-03,  1.4687e-03,  ...,  4.7088e-04,
+          4.6682e-04,  5.0879e-04],
+        [ 1.8356e-02,  2.5291e-03,  2.6073e-03,  ...,  1.3056e-03,
+          1.3084e-03,  1.3208e-03],
+        ...,
+        [ 1.0979e-02,  1.6050e-03,  1.5097e-03,  ...,  1.6081e-04,
+          1.3638e-04,  3.0065e-04],
+        [ 4.1122e-03,  9.2840e-04,  1.0147e-03,  ...,  3.1686e-04,
+          3.0971e-04,  3.2687e-04],
+        [-1.9989e-02,  7.8201e-05,  9.3222e-04,  ...,  1.6594e-04,
+          7.6711e-05, -3.0249e-05]], device='cuda:0')
+Epoch 16, bias, value: tensor([ 0.0684,  0.1219,  0.1337, -0.0194,  0.2810, -0.3503, -0.2195],
+       device='cuda:0'), grad: tensor([-0.1335,  0.0512,  0.1035,  0.0269,  0.0674,  0.0227, -0.1382],
+       device='cuda:0')
+588
+0.008909157412340152
+changing lr
+---------------------saving model at epoch 15----------------------------------------------------
+epoch 15, time 861.27, cls_loss 0.5542 cls_loss_mapping 0.0523 cls_loss_causal 0.4342 re_mapping 0.0214 re_causal 0.0224 /// teacc 94.22 lr 0.00876536
+Epoch 17, weight, value: tensor([[ 0.0420,  0.0686,  0.0364,  ..., -0.0238,  0.0140,  0.0132],
+        [ 0.0089,  0.0094, -0.0161,  ...,  0.1003,  0.0768,  0.0855],
+        [-0.1490, -0.1442, -0.0993,  ...,  0.0022, -0.0267,  0.0019],
+        ...,
+        [-0.1443, -0.1446, -0.1232,  ..., -0.0050,  0.0027,  0.0106],
+        [ 0.1303,  0.1127,  0.1279,  ..., -0.0834, -0.0872, -0.0938],
+        [ 0.1664,  0.1505,  0.1489,  ..., -0.0365, -0.0083, -0.0276]],
+       device='cuda:0'), grad: tensor([[-6.5430e-02, -6.2675e-03, -6.2752e-03,  ..., -1.8326e-02,
+         -1.7975e-02, -1.8524e-02],
+        [-3.4637e-02, -3.9978e-03, -3.7651e-03,  ..., -4.1580e-03,
+         -3.2158e-03, -4.3602e-03],
+        [ 5.9570e-02,  3.2978e-03,  3.1166e-03,  ...,  1.7288e-02,
+          1.6281e-02,  1.7624e-02],
+        ...,
+        [ 3.7506e-02,  6.5727e-03,  6.5460e-03,  ...,  4.8523e-03,
+          4.6387e-03,  4.8904e-03],
+        [ 5.5647e-04,  7.6234e-05,  7.2777e-05,  ...,  6.5327e-05,
+          5.1260e-05,  6.8367e-05],
+        [ 1.9875e-03,  2.6011e-04,  2.4772e-04,  ...,  2.3222e-04,
+          1.8275e-04,  2.4283e-04]], device='cuda:0')
+Epoch 17, bias, value: tensor([ 0.0390,  0.1693,  0.1025, -0.0338,  0.2931, -0.3504, -0.2045],
+       device='cuda:0'), grad: tensor([-0.2183, -0.1043,  0.2081,  0.0014,  0.1055,  0.0016,  0.0059],
+       device='cuda:0')
+588
+0.00876535733001806
+changing lr
+epoch 16, time 861.45, cls_loss 0.5607 cls_loss_mapping 0.0485 cls_loss_causal 0.4650 re_mapping 0.0200 re_causal 0.0213 /// teacc 91.96 lr 0.00861397
+Epoch 18, weight, value: tensor([[ 0.0430,  0.0640,  0.0311,  ..., -0.0333,  0.0033,  0.0024],
+        [ 0.0022,  0.0058, -0.0217,  ...,  0.1030,  0.0803,  0.0898],
+        [-0.1419, -0.1411, -0.0953,  ...,  0.0023, -0.0265,  0.0021],
+        ...,
+        [-0.1375, -0.1386, -0.1175,  ...,  0.0014,  0.0102,  0.0171],
+        [ 0.1210,  0.1084,  0.1235,  ..., -0.0832, -0.0865, -0.0934],
+        [ 0.1616,  0.1514,  0.1516,  ..., -0.0380, -0.0096, -0.0286]],
+       device='cuda:0'), grad: tensor([[-1.0948e-02, -1.3793e-04,  7.7546e-05,  ...,  9.5487e-05,
+          1.4150e-04,  1.4830e-04],
+        [-3.0701e-02, -1.1998e-04, -1.4710e-04,  ..., -1.3244e-04,
+         -5.8031e-04, -6.1226e-04],
+        [ 1.4946e-02, -1.6704e-05, -8.1897e-05,  ..., -1.8406e-04,
+         -3.2276e-05, -3.0547e-05],
+        ...,
+        [ 1.3046e-02,  1.5223e-04,  9.1016e-05,  ...,  1.3971e-04,
+          2.6011e-04,  2.7251e-04],
+        [ 1.0118e-03,  1.0476e-05,  5.0738e-06,  ...,  7.2606e-06,
+          1.6078e-05,  1.6868e-05],
+        [ 3.3474e-03,  3.0220e-05,  1.5214e-05,  ...,  2.0400e-05,
+          5.2363e-05,  5.5015e-05]], device='cuda:0')
+Epoch 18, bias, value: tensor([ 0.0915,  0.2100,  0.0992,  0.0221,  0.2074, -0.3872, -0.2282],
+       device='cuda:0'), grad: tensor([-0.0714, -0.1210,  0.0688,  0.0429,  0.0605,  0.0048,  0.0154],
+       device='cuda:0')
+588
+0.008613974319136962
+changing lr
+epoch 17, time 862.91, cls_loss 0.5285 cls_loss_mapping 0.0475 cls_loss_causal 0.4503 re_mapping 0.0189 re_causal 0.0204 /// teacc 89.45 lr 0.00845531
+Epoch 19, weight, value: tensor([[ 0.0287,  0.0609,  0.0286,  ..., -0.0376, -0.0028, -0.0029],
+        [ 0.0053,  0.0062, -0.0200,  ...,  0.0993,  0.0778,  0.0860],
+        [-0.1291, -0.1289, -0.0844,  ..., -0.0058, -0.0326, -0.0063],
+        ...,
+        [-0.1293, -0.1350, -0.1156,  ...,  0.0086,  0.0159,  0.0237],
+        [ 0.1211,  0.1082,  0.1239,  ..., -0.0816, -0.0851, -0.0917],
+        [ 0.1559,  0.1442,  0.1434,  ..., -0.0336, -0.0061, -0.0241]],
+       device='cuda:0'), grad: tensor([[ 2.4300e-03,  1.6117e-04,  1.2070e-04,  ...,  3.0160e-04,
+          6.7520e-04,  4.7231e-04],
+        [ 2.8305e-03,  2.9492e-04,  2.4819e-04,  ...,  3.6740e-04,
+          7.3862e-04,  5.4121e-04],
+        [-2.2084e-05, -1.4603e-04, -1.4699e-04,  ..., -8.4579e-05,
+          1.1057e-04, -1.3128e-05],
+        ...,
+        [-5.6763e-03, -2.3198e-04, -1.4603e-04,  ..., -6.7425e-04,
+         -1.7319e-03, -1.1415e-03],
+        [ 1.6654e-04,  1.4625e-05,  1.1958e-05,  ...,  2.1398e-05,
+          4.5955e-05,  3.2663e-05],
+        [-2.3127e-04, -1.5628e-04, -1.4281e-04,  ..., -4.9639e-07,
+          3.7462e-05,  1.3381e-05]], device='cuda:0')
+Epoch 19, bias, value: tensor([ 0.0473,  0.1737,  0.1802,  0.0174,  0.1393, -0.3704, -0.1733],
+       device='cuda:0'), grad: tensor([ 0.0264,  0.0272,  0.0078,  0.0044, -0.0695,  0.0017,  0.0020],
+       device='cuda:0')
+588
+0.008455313244934327
+changing lr
+---------------------saving model at epoch 18----------------------------------------------------
+epoch 18, time 859.29, cls_loss 0.4886 cls_loss_mapping 0.0421 cls_loss_causal 0.4216 re_mapping 0.0182 re_causal 0.0197 /// teacc 95.48 lr 0.00828969
+Epoch 20, weight, value: tensor([[ 0.0547,  0.0769,  0.0457,  ..., -0.0419, -0.0093, -0.0067],
+        [-0.0207, -0.0092, -0.0371,  ...,  0.1029,  0.0839,  0.0888],
+        [-0.1402, -0.1382, -0.0952,  ..., -0.0026, -0.0296, -0.0026],
+        ...,
+        [-0.1223, -0.1280, -0.1091,  ...,  0.0063,  0.0126,  0.0203],
+        [ 0.1295,  0.1124,  0.1281,  ..., -0.0811, -0.0847, -0.0911],
+        [ 0.1497,  0.1388,  0.1387,  ..., -0.0372, -0.0100, -0.0285]],
+       device='cuda:0'), grad: tensor([[-3.7933e-02, -5.8098e-03, -7.1068e-03,  ..., -9.8495e-03,
+         -1.1536e-02, -1.0300e-02],
+        [ 1.6891e-02,  4.0512e-03,  4.8485e-03,  ...,  6.0806e-03,
+          6.9046e-03,  6.2523e-03],
+        [ 1.0895e-02,  1.7433e-03,  2.1057e-03,  ...,  2.7485e-03,
+          3.3245e-03,  2.9964e-03],
+        ...,
+        [ 1.2493e-03, -4.0221e-04, -3.4022e-04,  ..., -1.6555e-05,
+          4.8101e-05, -2.1875e-04],
+        [ 7.0620e-04,  9.8348e-06,  1.0394e-05,  ...,  4.4852e-05,
+          6.3956e-05,  7.0691e-05],
+        [ 1.5011e-03,  5.0992e-05,  5.9515e-05,  ...,  1.3816e-04,
+          1.8251e-04,  1.8740e-04]], device='cuda:0')
+Epoch 20, bias, value: tensor([ 0.0961,  0.2072,  0.1795,  0.0052,  0.1489, -0.3895, -0.2335],
+       device='cuda:0'), grad: tensor([-0.1584,  0.0530,  0.0472,  0.0343,  0.0115,  0.0041,  0.0083],
+       device='cuda:0')
+588
+0.008289693629698565
+changing lr
+epoch 19, time 866.37, cls_loss 0.4952 cls_loss_mapping 0.0377 cls_loss_causal 0.4220 re_mapping 0.0172 re_causal 0.0191 /// teacc 92.71 lr 0.00811745
+Epoch 21, weight, value: tensor([[ 0.0579,  0.0905,  0.0580,  ..., -0.0395, -0.0069, -0.0035],
+        [-0.0068, -0.0053, -0.0319,  ...,  0.0895,  0.0717,  0.0747],
+        [-0.1304, -0.1282, -0.0889,  ...,  0.0071, -0.0230,  0.0051],
+        ...,
+        [-0.1351, -0.1438, -0.1225,  ..., -0.0006,  0.0073,  0.0139],
+        [ 0.1197,  0.1048,  0.1206,  ..., -0.0807, -0.0834, -0.0902],
+        [ 0.1481,  0.1374,  0.1382,  ..., -0.0327, -0.0056, -0.0239]],
+       device='cuda:0'), grad: tensor([[ 6.0425e-03,  3.2635e-03,  3.2349e-03,  ...,  9.0504e-04,
+          1.1892e-03,  1.2026e-03],
+        [-3.3264e-02, -1.7975e-02, -1.7822e-02,  ..., -4.9820e-03,
+         -6.5498e-03, -6.6223e-03],
+        [ 1.5358e-02,  8.2932e-03,  8.2245e-03,  ...,  2.3003e-03,
+          3.0231e-03,  3.0556e-03],
+        ...,
+        [ 8.2321e-03,  4.4479e-03,  4.4098e-03,  ...,  1.2331e-03,
+          1.6203e-03,  1.6384e-03],
+        [ 6.5374e-04,  3.5310e-04,  3.5024e-04,  ...,  9.7930e-05,
+          1.2863e-04,  1.3018e-04],
+        [ 1.3132e-03,  7.0953e-04,  7.0333e-04,  ...,  1.9693e-04,
+          2.5868e-04,  2.6155e-04]], device='cuda:0')
+Epoch 21, bias, value: tensor([ 0.1057,  0.1913,  0.2070,  0.0517,  0.1343, -0.4186, -0.2577],
+       device='cuda:0'), grad: tensor([ 0.0231, -0.1272,  0.0587,  0.0064,  0.0315,  0.0025,  0.0050],
+       device='cuda:0')
+588
+0.00811744900929367
+changing lr
+epoch 20, time 859.98, cls_loss 0.4998 cls_loss_mapping 0.0302 cls_loss_causal 0.4099 re_mapping 0.0166 re_causal 0.0186 /// teacc 93.22 lr 0.00793893
+Epoch 22, weight, value: tensor([[ 0.0718,  0.0971,  0.0663,  ..., -0.0283,  0.0027,  0.0062],
+        [-0.0166, -0.0063, -0.0311,  ...,  0.0947,  0.0782,  0.0805],
+        [-0.1353, -0.1276, -0.0910,  ...,  0.0018, -0.0292, -0.0008],
+        ...,
+        [-0.1319, -0.1395, -0.1177,  ..., -0.0087,  0.0017,  0.0066],
+        [ 0.1196,  0.1026,  0.1186,  ..., -0.0804, -0.0833, -0.0898],
+        [ 0.1453,  0.1338,  0.1342,  ..., -0.0372, -0.0111, -0.0281]],
+       device='cuda:0'), grad: tensor([[ 4.4464e-02,  1.5244e-02,  1.7365e-02,  ...,  2.6825e-02,
+          3.2196e-02,  2.9129e-02],
+        [-4.6265e-02, -1.4191e-02, -1.6708e-02,  ..., -3.4180e-02,
+         -4.0833e-02, -3.6957e-02],
+        [ 5.5466e-03,  2.7447e-03,  2.8362e-03,  ...,  2.5225e-04,
+          3.6621e-04,  3.3975e-04],
+        ...,
+        [ 9.8953e-03,  3.1834e-03,  3.7556e-03,  ...,  6.5536e-03,
+          7.9651e-03,  7.1678e-03],
+        [ 2.0301e-04,  9.4414e-05,  9.9301e-05,  ...,  3.0503e-05,
+          3.9160e-05,  3.5465e-05],
+        [-1.5419e-02, -7.7324e-03, -8.0109e-03,  ..., -2.0730e-04,
+         -5.2643e-04, -4.7374e-04]], device='cuda:0')
+Epoch 22, bias, value: tensor([ 0.2295,  0.1696,  0.1474,  0.0391,  0.1888, -0.4592, -0.3019],
+       device='cuda:0'), grad: tensor([ 0.1368, -0.1536,  0.0114,  0.0040,  0.0322,  0.0005, -0.0312],
+       device='cuda:0')
+588
+0.007938926261462368
+changing lr
+---------------------saving model at epoch 21----------------------------------------------------
+epoch 21, time 865.28, cls_loss 0.4840 cls_loss_mapping 0.0248 cls_loss_causal 0.4138 re_mapping 0.0158 re_causal 0.0178 /// teacc 95.73 lr 0.00775448
+Epoch 23, weight, value: tensor([[ 0.0695,  0.0969,  0.0643,  ..., -0.0355, -0.0058, -0.0025],
+        [-0.0167, -0.0097, -0.0328,  ...,  0.0965,  0.0818,  0.0835],
+        [-0.1267, -0.1233, -0.0873,  ..., -0.0002, -0.0313, -0.0047],
+        ...,
+        [-0.1347, -0.1384, -0.1162,  ..., -0.0082,  0.0023,  0.0076],
+        [ 0.1257,  0.1060,  0.1220,  ..., -0.0777, -0.0801, -0.0866],
+        [ 0.1479,  0.1335,  0.1332,  ..., -0.0324, -0.0077, -0.0238]],
+       device='cuda:0'), grad: tensor([[ 3.1681e-03,  1.0881e-03,  1.0891e-03,  ...,  1.8764e-04,
+          8.6606e-05,  1.0854e-04],
+        [-3.4752e-03, -1.2074e-03, -1.2074e-03,  ..., -2.0659e-04,
+         -9.6738e-05, -1.2058e-04],
+        [-1.4737e-05, -2.6748e-06, -2.6561e-06,  ..., -4.6194e-06,
+         -4.1127e-06, -4.0345e-06],
+        ...,
+        [ 9.8109e-05,  3.3557e-05,  3.3557e-05,  ...,  6.7092e-06,
+          3.6024e-06,  4.2319e-06],
+        [ 6.6042e-05,  2.2888e-05,  2.2888e-05,  ...,  3.9935e-06,
+          1.9064e-06,  2.3562e-06],
+        [ 1.5152e-04,  6.2644e-05,  6.2406e-05,  ...,  1.2368e-05,
+          8.4266e-06,  9.1270e-06]], device='cuda:0')
+Epoch 23, bias, value: tensor([ 0.1986,  0.1298,  0.1618,  0.0325,  0.1853, -0.4432, -0.2515],
+       device='cuda:0'), grad: tensor([ 6.1951e-03, -6.7749e-03, -3.0071e-05,  1.2472e-05,  1.9145e-04,
+         1.2863e-04,  2.7609e-04], device='cuda:0')
+588
+0.007754484907260515
+changing lr
+epoch 22, time 856.97, cls_loss 0.4482 cls_loss_mapping 0.0241 cls_loss_causal 0.3944 re_mapping 0.0150 re_causal 0.0173 /// teacc 95.23 lr 0.00756450
+Epoch 24, weight, value: tensor([[ 8.1959e-02,  1.0489e-01,  7.3289e-02,  ..., -3.1767e-02,
+          3.1884e-05,  1.2959e-03],
+        [-5.2945e-03, -4.5162e-03, -2.7391e-02,  ...,  9.4858e-02,
+          7.9704e-02,  8.2526e-02],
+        [-1.4207e-01, -1.2540e-01, -8.9945e-02,  ...,  5.4329e-03,
+         -2.4295e-02,  1.3843e-03],
+        ...,
+        [-1.3442e-01, -1.4420e-01, -1.2170e-01,  ..., -1.8065e-02,
+         -9.6145e-03, -3.4746e-03],
+        [ 1.2414e-01,  1.0515e-01,  1.2130e-01,  ..., -7.6603e-02,
+         -7.8736e-02, -8.5176e-02],
+        [ 1.4233e-01,  1.3104e-01,  1.3003e-01,  ..., -3.4321e-02,
+         -1.0330e-02, -2.6034e-02]], device='cuda:0'), grad: tensor([[-1.0315e-02, -1.8108e-04,  7.9215e-05,  ..., -4.1437e-04,
+         -2.0468e-04, -2.5654e-04],
+        [ 2.3594e-03, -5.2750e-05, -1.1885e-04,  ...,  4.9949e-05,
+         -1.6084e-06,  1.0021e-05],
+        [ 1.9159e-03,  4.8339e-05,  9.9558e-07,  ...,  8.4698e-05,
+          4.6462e-05,  5.5909e-05],
+        ...,
+        [ 3.0022e-03,  8.2195e-05,  8.5682e-06,  ...,  1.3566e-04,
+          7.5996e-05,  9.0897e-05],
+        [ 5.3644e-04,  1.3664e-05,  4.1723e-07,  ...,  2.3633e-05,
+          1.2882e-05,  1.5587e-05],
+        [ 8.8835e-04,  5.0783e-05,  3.0786e-05,  ...,  5.2571e-05,
+          3.5852e-05,  4.0382e-05]], device='cuda:0')
+Epoch 24, bias, value: tensor([ 0.2168,  0.1698,  0.1738,  0.0082,  0.2027, -0.4628, -0.2953],
+       device='cuda:0'), grad: tensor([-0.1377,  0.0344,  0.0251,  0.0211,  0.0392,  0.0070,  0.0108],
+       device='cuda:0')
+588
+0.007564496387029534
+changing lr
+epoch 23, time 855.12, cls_loss 0.4466 cls_loss_mapping 0.0279 cls_loss_causal 0.4000 re_mapping 0.0140 re_causal 0.0164 /// teacc 94.22 lr 0.00736934
+Epoch 25, weight, value: tensor([[ 0.0771,  0.0993,  0.0652,  ..., -0.0285,  0.0007,  0.0035],
+        [-0.0044,  0.0007, -0.0200,  ...,  0.0962,  0.0839,  0.0846],
+        [-0.1353, -0.1275, -0.0925,  ..., -0.0026, -0.0303, -0.0059],
+        ...,
+        [-0.1245, -0.1339, -0.1123,  ..., -0.0128, -0.0080, -0.0005],
+        [ 0.1186,  0.1043,  0.1204,  ..., -0.0770, -0.0789, -0.0851],
+        [ 0.1438,  0.1302,  0.1280,  ..., -0.0366, -0.0127, -0.0279]],
+       device='cuda:0'), grad: tensor([[ 2.3139e-04,  1.0550e-04,  9.9540e-05,  ...,  1.0377e-04,
+          1.0097e-04,  1.0228e-04],
+        [ 8.2105e-06,  1.4631e-06,  1.2908e-06,  ..., -6.6161e-06,
+         -7.0445e-06, -6.3628e-06],
+        [-2.7013e-04, -1.4722e-04, -1.3328e-04,  ..., -1.2255e-04,
+         -1.2243e-04, -1.2326e-04],
+        ...,
+        [ 1.4377e-04,  6.0111e-05,  5.5432e-05,  ...,  3.7402e-05,
+          3.8028e-05,  3.8028e-05],
+        [ 5.4017e-06,  1.2880e-06,  1.2787e-06,  ...,  7.7020e-07,
+          7.6275e-07,  7.5903e-07],
+        [ 1.7428e-04,  4.4376e-05,  4.1395e-05,  ...,  2.3484e-05,
+          2.5630e-05,  2.4259e-05]], device='cuda:0')
+Epoch 25, bias, value: tensor([ 0.2511,  0.1136,  0.1516,  0.0485,  0.2347, -0.4952, -0.2916],
+       device='cuda:0'), grad: tensor([ 7.4244e-04,  4.4495e-05, -7.6914e-04, -1.1568e-03,  4.8828e-04,
+         2.1011e-05,  6.3086e-04], device='cuda:0')
+588
+0.007369343312364995
+changing lr
+epoch 24, time 854.89, cls_loss 0.4446 cls_loss_mapping 0.0226 cls_loss_causal 0.3964 re_mapping 0.0134 re_causal 0.0158 /// teacc 93.22 lr 0.00716942
+Epoch 26, weight, value: tensor([[ 0.0567,  0.0836,  0.0501,  ..., -0.0337, -0.0059, -0.0027],
+        [ 0.0068,  0.0086, -0.0110,  ...,  0.0971,  0.0873,  0.0851],
+        [-0.1349, -0.1247, -0.0927,  ..., -0.0021, -0.0318, -0.0058],
+        ...,
+        [-0.1177, -0.1310, -0.1107,  ..., -0.0130, -0.0079, -0.0008],
+        [ 0.1238,  0.1026,  0.1187,  ..., -0.0764, -0.0783, -0.0840],
+        [ 0.1427,  0.1325,  0.1309,  ..., -0.0342, -0.0098, -0.0247]],
+       device='cuda:0'), grad: tensor([[-1.3879e-01, -2.8992e-02, -3.2257e-02,  ..., -3.2135e-02,
+         -3.3295e-02, -3.2684e-02],
+        [ 5.7106e-03,  9.2077e-04,  9.9945e-04,  ...,  2.8572e-03,
+          3.3932e-03,  3.3321e-03],
+        [-7.6256e-03,  2.3031e-04, -1.3616e-06,  ..., -2.9469e-03,
+         -4.0932e-03, -3.7880e-03],
+        ...,
+        [ 1.3660e-01,  2.7481e-02,  3.0777e-02,  ...,  3.0487e-02,
+          3.1769e-02,  3.1036e-02],
+        [ 8.2207e-04,  1.0538e-04,  1.2338e-04,  ...,  3.6764e-04,
+          4.5037e-04,  4.3583e-04],
+        [ 1.7538e-03,  1.4389e-04,  1.8752e-04,  ...,  7.2479e-04,
+          9.1982e-04,  8.7690e-04]], device='cuda:0')
+Epoch 26, bias, value: tensor([ 0.2253,  0.1556,  0.2105,  0.0349,  0.2301, -0.5266, -0.3173],
+       device='cuda:0'), grad: tensor([-0.3242,  0.0743, -0.1283,  0.0220,  0.3220,  0.0106,  0.0237],
+       device='cuda:0')
+588
+0.0071694186955877925
+changing lr
+epoch 25, time 852.43, cls_loss 0.4129 cls_loss_mapping 0.0186 cls_loss_causal 0.3760 re_mapping 0.0128 re_causal 0.0153 /// teacc 93.47 lr 0.00696513
+Epoch 27, weight, value: tensor([[ 0.0648,  0.0910,  0.0569,  ..., -0.0223,  0.0051,  0.0073],
+        [ 0.0005,  0.0072, -0.0086,  ...,  0.0888,  0.0818,  0.0779],
+        [-0.1343, -0.1261, -0.0956,  ..., -0.0009, -0.0322, -0.0040],
+        ...,
+        [-0.1192, -0.1320, -0.1118,  ..., -0.0193, -0.0118, -0.0075],
+        [ 0.1138,  0.0973,  0.1130,  ..., -0.0766, -0.0782, -0.0842],
+        [ 0.1462,  0.1330,  0.1300,  ..., -0.0354, -0.0133, -0.0264]],
+       device='cuda:0'), grad: tensor([[ 7.9203e-04, -6.3133e-04, -6.1989e-04,  ...,  6.7890e-05,
+          1.0073e-04,  1.1414e-04],
+        [ 2.3842e-03,  8.5160e-06,  5.2303e-05,  ...,  3.2544e-04,
+          3.2496e-04,  3.2473e-04],
+        [ 4.2267e-03,  7.7844e-05,  1.5569e-04,  ...,  5.8985e-04,
+          5.8556e-04,  5.8413e-04],
+        ...,
+        [ 8.0185e-03,  5.3596e-04,  6.8521e-04,  ...,  1.1473e-03,
+          1.1187e-03,  1.1072e-03],
+        [ 6.0654e-04,  3.2363e-07,  1.1422e-05,  ...,  8.3983e-05,
+          8.3983e-05,  8.3983e-05],
+        [ 1.9035e-03,  2.2203e-06,  3.7104e-05,  ...,  2.6345e-04,
+          2.6345e-04,  2.6321e-04]], device='cuda:0')
+Epoch 27, bias, value: tensor([ 0.1675,  0.2193,  0.1939,  0.0938,  0.2197, -0.5487, -0.3329],
+       device='cuda:0'), grad: tensor([ 0.0199,  0.0186,  0.0316, -0.1416,  0.0517,  0.0048,  0.0149],
+       device='cuda:0')
+588
+0.0069651251582696205
+changing lr
+epoch 26, time 852.72, cls_loss 0.4454 cls_loss_mapping 0.0157 cls_loss_causal 0.3912 re_mapping 0.0118 re_causal 0.0146 /// teacc 91.71 lr 0.00675687
+Epoch 28, weight, value: tensor([[ 0.0550,  0.0837,  0.0488,  ..., -0.0239,  0.0019,  0.0048],
+        [ 0.0091,  0.0129, -0.0026,  ...,  0.0886,  0.0833,  0.0789],
+        [-0.1380, -0.1312, -0.1013,  ..., -0.0052, -0.0338, -0.0068],
+        ...,
+        [-0.1134, -0.1263, -0.1044,  ..., -0.0138, -0.0077, -0.0032],
+        [ 0.1129,  0.0959,  0.1112,  ..., -0.0751, -0.0770, -0.0828],
+        [ 0.1380,  0.1278,  0.1249,  ..., -0.0363, -0.0147, -0.0271]],
+       device='cuda:0'), grad: tensor([[ 4.3732e-02,  2.0844e-02,  2.0752e-02,  ...,  1.1246e-02,
+          1.0811e-02,  1.0048e-02],
+        [ 5.2719e-03,  8.9025e-04,  8.0347e-04,  ...,  1.1616e-03,
+          1.0052e-03,  9.4938e-04],
+        [-1.9745e-02, -5.0507e-03, -5.2872e-03,  ..., -5.5237e-03,
+         -5.5046e-03, -4.5853e-03],
+        ...,
+        [ 4.6463e-03,  6.6042e-04,  5.4646e-04,  ...,  9.3937e-04,
+          7.8154e-04,  7.6294e-04],
+        [ 5.5027e-04,  4.0621e-05,  1.2517e-05,  ...,  8.4043e-05,
+          6.1989e-05,  6.7770e-05],
+        [-2.6398e-02, -1.7120e-02, -1.6891e-02,  ..., -6.6261e-03,
+         -6.5956e-03, -6.2752e-03]], device='cuda:0')
+Epoch 28, bias, value: tensor([ 0.2111,  0.1690,  0.2379,  0.0264,  0.2058, -0.4922, -0.3457],
+       device='cuda:0'), grad: tensor([ 0.1221,  0.0665, -0.1345, -0.1239,  0.0684,  0.0122, -0.0108],
+       device='cuda:0')
+588
+0.006756874120406716
+changing lr
+epoch 27, time 851.64, cls_loss 0.4182 cls_loss_mapping 0.0160 cls_loss_causal 0.3800 re_mapping 0.0115 re_causal 0.0142 /// teacc 93.22 lr 0.00654508
+Epoch 29, weight, value: tensor([[ 6.5285e-02,  9.2213e-02,  5.6005e-02,  ..., -2.5804e-02,
+         -9.7507e-05,  2.8693e-05],
+        [ 8.9246e-03,  6.4134e-03, -9.3966e-03,  ...,  8.3505e-02,
+          7.6907e-02,  7.4182e-02],
+        [-1.4000e-01, -1.2680e-01, -9.6610e-02,  ..., -1.0160e-02,
+         -3.7456e-02, -1.0617e-02],
+        ...,
+        [-1.1416e-01, -1.2357e-01, -1.0142e-01,  ..., -8.7921e-03,
+         -4.0466e-03,  9.1196e-04],
+        [ 1.1179e-01,  9.3550e-02,  1.0883e-01,  ..., -7.4670e-02,
+         -7.6274e-02, -8.1904e-02],
+        [ 1.3487e-01,  1.2478e-01,  1.2221e-01,  ..., -3.3120e-02,
+         -1.1305e-02, -2.3170e-02]], device='cuda:0'), grad: tensor([[ 1.7929e-02,  9.5367e-04,  7.6294e-04,  ...,  1.1387e-03,
+          1.0061e-03,  1.1082e-03],
+        [-9.9030e-03, -3.4499e-04,  6.6519e-05,  ..., -1.8764e-04,
+          5.0038e-05, -1.4454e-06],
+        [ 2.3621e-02,  9.2983e-04,  1.2760e-03,  ...,  4.6310e-03,
+          4.5204e-03,  4.9286e-03],
+        ...,
+        [-3.4973e-02, -1.6346e-03, -2.0733e-03,  ..., -5.6267e-03,
+         -5.5466e-03, -6.0234e-03],
+        [ 4.6134e-04,  1.7866e-05,  4.2235e-07,  ...,  1.3195e-05,
+          2.9877e-06,  5.3048e-06],
+        [ 1.0796e-03,  4.4048e-05,  6.0573e-06,  ...,  3.8952e-05,
+          1.6287e-05,  2.1905e-05]], device='cuda:0')
+Epoch 29, bias, value: tensor([ 0.2441,  0.2029,  0.1896,  0.0192,  0.1779, -0.4874, -0.3341],
+       device='cuda:0'), grad: tensor([ 0.0983, -0.1190,  0.1584,  0.0212, -0.1760,  0.0052,  0.0118],
+       device='cuda:0')
+588
+0.00654508497187474
+changing lr
+epoch 28, time 861.17, cls_loss 0.4108 cls_loss_mapping 0.0205 cls_loss_causal 0.3663 re_mapping 0.0112 re_causal 0.0140 /// teacc 94.97 lr 0.00633018
+Epoch 30, weight, value: tensor([[ 0.0658,  0.0987,  0.0649,  ..., -0.0255,  0.0021,  0.0016],
+        [ 0.0031,  0.0079, -0.0088,  ...,  0.0841,  0.0759,  0.0741],
+        [-0.1282, -0.1221, -0.0931,  ..., -0.0126, -0.0400, -0.0135],
+        ...,
+        [-0.1226, -0.1370, -0.1164,  ..., -0.0086, -0.0049, -0.0004],
+        [ 0.1077,  0.0902,  0.1051,  ..., -0.0742, -0.0759, -0.0813],
+        [ 0.1358,  0.1244,  0.1232,  ..., -0.0301, -0.0071, -0.0192]],
+       device='cuda:0'), grad: tensor([[-6.9458e-02, -2.2110e-02, -1.9165e-02,  ..., -1.1703e-02,
+         -8.5144e-03, -7.9041e-03],
+        [-3.5458e-03, -1.4658e-03, -1.5984e-03,  ..., -1.0175e-04,
+         -4.4632e-04, -2.5344e-04],
+        [ 6.3843e-02,  2.2003e-02,  1.9180e-02,  ...,  1.0170e-02,
+          7.9956e-03,  6.7520e-03],
+        ...,
+        [ 5.9357e-03,  1.2016e-03,  1.2350e-03,  ...,  9.4223e-04,
+          6.3992e-04,  8.4877e-04],
+        [ 3.1137e-04,  2.7120e-05,  2.9460e-05,  ...,  6.4313e-05,
+          3.0220e-05,  5.5969e-05],
+        [ 1.0185e-03,  1.5068e-04,  1.3864e-04,  ...,  2.0802e-04,
+          1.0622e-04,  1.6654e-04]], device='cuda:0')
+Epoch 30, bias, value: tensor([ 0.2936,  0.1668,  0.1657,  0.0093,  0.2472, -0.5028, -0.3678],
+       device='cuda:0'), grad: tensor([-0.0576, -0.0315, -0.0254,  0.0259,  0.0716,  0.0052,  0.0118],
+       device='cuda:0')
+588
+0.006330184227833378
+changing lr
+epoch 29, time 853.59, cls_loss 0.4072 cls_loss_mapping 0.0142 cls_loss_causal 0.3709 re_mapping 0.0107 re_causal 0.0136 /// teacc 92.96 lr 0.00611260
+Epoch 31, weight, value: tensor([[ 0.0704,  0.0943,  0.0588,  ..., -0.0159,  0.0112,  0.0112],
+        [ 0.0120,  0.0139, -0.0027,  ...,  0.0813,  0.0741,  0.0705],
+        [-0.1400, -0.1313, -0.1023,  ..., -0.0129, -0.0418, -0.0142],
+        ...,
+        [-0.1200, -0.1323, -0.1107,  ..., -0.0114, -0.0073, -0.0031],
+        [ 0.1031,  0.0905,  0.1047,  ..., -0.0738, -0.0755, -0.0810],
+        [ 0.1392,  0.1295,  0.1290,  ..., -0.0296, -0.0066, -0.0183]],
+       device='cuda:0'), grad: tensor([[ 1.2465e-03,  5.2547e-04,  5.2738e-04,  ...,  5.9414e-04,
+          6.1941e-04,  5.6124e-04],
+        [-9.3031e-04, -5.2595e-04, -5.2738e-04,  ..., -5.1785e-04,
+         -5.3549e-04, -4.8232e-04],
+        [ 6.3002e-05,  5.8953e-07,  7.0082e-07,  ...,  1.5631e-05,
+          1.7226e-05,  1.6138e-05],
+        ...,
+        [-3.8195e-04, -1.0189e-06, -1.5413e-06,  ..., -9.3222e-05,
+         -1.0264e-04, -9.6202e-05],
+        [ 8.3819e-08,  8.3819e-09,  8.8476e-09,  ...,  2.4680e-08,
+          2.6543e-08,  2.4680e-08],
+        [ 1.4156e-07, -9.2201e-08, -9.0804e-08,  ...,  7.7300e-08,
+          9.2201e-08,  8.5682e-08]], device='cuda:0')
+Epoch 31, bias, value: tensor([ 0.3936,  0.0791,  0.1752,  0.0029,  0.2701, -0.5281, -0.3810],
+       device='cuda:0'), grad: tensor([ 4.2877e-03, -2.2926e-03,  3.8886e-04,  3.1553e-06, -2.3956e-03,
+         4.7125e-07,  1.3132e-06], device='cuda:0')
+588
+0.006112604669781575
+changing lr
+epoch 30, time 840.36, cls_loss 0.3960 cls_loss_mapping 0.0130 cls_loss_causal 0.3603 re_mapping 0.0101 re_causal 0.0130 /// teacc 93.97 lr 0.00589278
+Epoch 32, weight, value: tensor([[ 0.0712,  0.1006,  0.0704,  ..., -0.0049,  0.0231,  0.0208],
+        [ 0.0123,  0.0092, -0.0085,  ...,  0.0821,  0.0743,  0.0721],
+        [-0.1282, -0.1194, -0.0918,  ..., -0.0126, -0.0414, -0.0145],
+        ...,
+        [-0.1261, -0.1379, -0.1180,  ..., -0.0240, -0.0195, -0.0148],
+        [ 0.1040,  0.0905,  0.1046,  ..., -0.0726, -0.0742, -0.0798],
+        [ 0.1346,  0.1260,  0.1249,  ..., -0.0288, -0.0072, -0.0180]],
+       device='cuda:0'), grad: tensor([[ 8.0338e-03,  1.7443e-03,  1.7452e-03,  ..., -1.5438e-04,
+          5.3912e-05, -5.5701e-05],
+        [ 1.0925e-02,  2.7924e-03,  2.7599e-03,  ...,  8.0729e-04,
+          8.0490e-04,  8.2302e-04],
+        [ 1.5354e-03,  3.7575e-04,  3.7313e-04,  ...,  5.9038e-05,
+          7.5340e-05,  6.8247e-05],
+        ...,
+        [-2.0905e-02, -4.3983e-03, -4.3640e-03,  ..., -4.1938e-04,
+         -6.3372e-04, -5.4550e-04],
+        [ 2.5344e-04,  5.5283e-05,  5.4836e-05,  ...,  6.4299e-06,
+          9.0003e-06,  7.9423e-06],
+        [-1.0500e-03, -8.4448e-04, -8.4543e-04,  ..., -3.3689e-04,
+         -3.5954e-04, -3.4308e-04]], device='cuda:0')
+Epoch 32, bias, value: tensor([ 0.2768,  0.1739,  0.2308,  0.1121,  0.1943, -0.5249, -0.4515],
+       device='cuda:0'), grad: tensor([ 0.0382,  0.0378,  0.0061,  0.0049, -0.0873,  0.0010, -0.0007],
+       device='cuda:0')
+588
+0.005892784473993186
+changing lr
+---------------------saving model at epoch 31----------------------------------------------------
+epoch 31, time 851.15, cls_loss 0.3831 cls_loss_mapping 0.0091 cls_loss_causal 0.3525 re_mapping 0.0098 re_causal 0.0126 /// teacc 96.23 lr 0.00567117
+Epoch 33, weight, value: tensor([[ 0.0670,  0.0870,  0.0584,  ..., -0.0060,  0.0190,  0.0184],
+        [ 0.0072,  0.0121, -0.0042,  ...,  0.0804,  0.0708,  0.0696],
+        [-0.1254, -0.1142, -0.0881,  ..., -0.0161, -0.0424, -0.0175],
+        ...,
+        [-0.1254, -0.1383, -0.1194,  ..., -0.0248, -0.0187, -0.0150],
+        [ 0.1052,  0.0896,  0.1036,  ..., -0.0717, -0.0729, -0.0784],
+        [ 0.1401,  0.1312,  0.1301,  ..., -0.0239, -0.0022, -0.0126]],
+       device='cuda:0'), grad: tensor([[ 1.9608e-03,  5.2261e-04,  5.1737e-04,  ...,  4.9067e-04,
+          4.4990e-04,  4.4131e-04],
+        [ 1.1587e-03,  4.8995e-05,  4.8429e-05,  ...,  4.0102e-04,
+          3.6550e-04,  3.4022e-04],
+        [-1.0193e-02, -3.2310e-03, -3.1967e-03,  ..., -2.3117e-03,
+         -2.1210e-03, -2.1152e-03],
+        ...,
+        [ 5.0697e-03,  2.1687e-03,  2.1477e-03,  ...,  8.8406e-04,
+          8.1587e-04,  8.5545e-04],
+        [ 8.6451e-04,  3.3927e-04,  3.3593e-04,  ...,  1.6534e-04,
+          1.5223e-04,  1.5676e-04],
+        [ 4.8280e-04,  8.4102e-05,  8.3268e-05,  ...,  1.4210e-04,
+          1.2994e-04,  1.2434e-04]], device='cuda:0')
+Epoch 33, bias, value: tensor([ 0.2556,  0.1923,  0.2314,  0.0648,  0.2008, -0.5075, -0.4260],
+       device='cuda:0'), grad: tensor([ 0.0367,  0.0369, -0.1608,  0.0190,  0.0468,  0.0097,  0.0117],
+       device='cuda:0')
+588
+0.00567116632908828
+changing lr
+epoch 32, time 834.68, cls_loss 0.3988 cls_loss_mapping 0.0117 cls_loss_causal 0.3714 re_mapping 0.0093 re_causal 0.0123 /// teacc 94.72 lr 0.00544820
+Epoch 34, weight, value: tensor([[ 0.0725,  0.0929,  0.0657,  ..., -0.0007,  0.0235,  0.0234],
+        [ 0.0035,  0.0069, -0.0082,  ...,  0.0787,  0.0702,  0.0678],
+        [-0.1210, -0.1097, -0.0834,  ..., -0.0165, -0.0422, -0.0185],
+        ...,
+        [-0.1266, -0.1398, -0.1233,  ..., -0.0252, -0.0194, -0.0151],
+        [ 0.1078,  0.0928,  0.1068,  ..., -0.0705, -0.0719, -0.0771],
+        [ 0.1366,  0.1283,  0.1263,  ..., -0.0267, -0.0053, -0.0155]],
+       device='cuda:0'), grad: tensor([[ 0.0020,  0.0002,  0.0004,  ...,  0.0013,  0.0006,  0.0012],
+        [ 0.0016,  0.0005,  0.0005,  ...,  0.0011,  0.0008,  0.0011],
+        [ 0.0018,  0.0006,  0.0006,  ...,  0.0013,  0.0009,  0.0013],
+        ...,
+        [-0.0031,  0.0003,  0.0009,  ..., -0.0021, -0.0004, -0.0015],
+        [ 0.0004,  0.0001,  0.0002,  ...,  0.0003,  0.0002,  0.0003],
+        [ 0.0004,  0.0001,  0.0001,  ...,  0.0003,  0.0002,  0.0003]],
+       device='cuda:0')
+Epoch 34, bias, value: tensor([ 0.2591,  0.1040,  0.2454,  0.0612,  0.2736, -0.5394, -0.3928],
+       device='cuda:0'), grad: tensor([ 0.0815,  0.0500,  0.0590, -0.1271, -0.0934,  0.0135,  0.0166],
+       device='cuda:0')
+588
+0.00544819654451717
+changing lr
+epoch 33, time 833.02, cls_loss 0.3714 cls_loss_mapping 0.0117 cls_loss_causal 0.3410 re_mapping 0.0089 re_causal 0.0117 /// teacc 94.47 lr 0.00522432
+Epoch 35, weight, value: tensor([[ 0.0722,  0.0893,  0.0656,  ..., -0.0018,  0.0195,  0.0211],
+        [ 0.0137,  0.0167,  0.0002,  ...,  0.0843,  0.0773,  0.0739],
+        [-0.1229, -0.1097, -0.0850,  ..., -0.0173, -0.0429, -0.0198],
+        ...,
+        [-0.1277, -0.1407, -0.1253,  ..., -0.0312, -0.0250, -0.0210],
+        [ 0.1035,  0.0904,  0.1044,  ..., -0.0703, -0.0716, -0.0768],
+        [ 0.1345,  0.1266,  0.1240,  ..., -0.0260, -0.0055, -0.0153]],
+       device='cuda:0'), grad: tensor([[ 3.2330e-04,  2.2399e-04,  2.2268e-04,  ...,  3.4511e-05,
+          3.5703e-05,  3.4511e-05],
+        [ 4.0054e-04,  2.1422e-04,  2.1839e-04,  ...,  7.5293e-04,
+          7.5388e-04,  7.5531e-04],
+        [-4.3607e-04, -3.0327e-04, -2.9826e-04,  ..., -2.2382e-05,
+         -1.8641e-05, -1.8656e-05],
+        ...,
+        [ 1.7214e-04,  5.4210e-05,  5.3853e-05,  ...,  1.4350e-05,
+          1.0759e-05,  1.0625e-05],
+        [ 5.5343e-05,  5.0128e-05,  4.9263e-05,  ...,  2.5574e-06,
+          2.5593e-06,  2.5574e-06],
+        [ 6.4015e-05,  5.7608e-05,  5.6654e-05,  ...,  3.2652e-06,
+          3.2745e-06,  3.2652e-06]], device='cuda:0')
+Epoch 35, bias, value: tensor([ 0.1928,  0.1551,  0.2140,  0.1115,  0.2793, -0.5823, -0.3593],
+       device='cuda:0'), grad: tensor([ 0.0011,  0.0004, -0.0016, -0.0008,  0.0004,  0.0002,  0.0003],
+       device='cuda:0')
+588
+0.005224324151752577
+changing lr
+---------------------saving model at epoch 34----------------------------------------------------
+epoch 34, time 841.58, cls_loss 0.3676 cls_loss_mapping 0.0114 cls_loss_causal 0.3480 re_mapping 0.0087 re_causal 0.0115 /// teacc 96.48 lr 0.00500000
+Epoch 36, weight, value: tensor([[ 0.0748,  0.0946,  0.0721,  ..., -0.0011,  0.0216,  0.0236],
+        [ 0.0010,  0.0047, -0.0121,  ...,  0.0839,  0.0756,  0.0729],
+        [-0.1169, -0.1054, -0.0824,  ..., -0.0230, -0.0475, -0.0249],
+        ...,
+        [-0.1352, -0.1441, -0.1295,  ..., -0.0255, -0.0204, -0.0170],
+        [ 0.1100,  0.0940,  0.1077,  ..., -0.0696, -0.0709, -0.0760],
+        [ 0.1305,  0.1245,  0.1220,  ..., -0.0266, -0.0066, -0.0163]],
+       device='cuda:0'), grad: tensor([[ 2.0409e-03,  1.6022e-04,  3.8117e-05,  ...,  8.7976e-05,
+          6.3419e-05,  1.3769e-05],
+        [ 1.2922e-03,  8.1956e-05,  1.1269e-07,  ...,  4.7386e-05,
+          3.1650e-05,  3.1665e-08],
+        [-7.9651e-03, -5.5265e-04, -6.1154e-05,  ..., -3.1686e-04,
+         -2.2054e-04, -2.5794e-05],
+        ...,
+        [ 1.9455e-03,  1.3661e-04,  1.8150e-05,  ...,  8.1539e-05,
+          5.8234e-05,  1.0423e-05],
+        [ 3.8815e-04,  2.4661e-05,  8.9407e-08,  ...,  1.4290e-05,
+          9.5665e-06,  6.4261e-08],
+        [ 5.4455e-04,  3.7730e-05,  3.8818e-06,  ...,  2.1055e-05,
+          1.4439e-05,  1.1623e-06]], device='cuda:0')
+Epoch 36, bias, value: tensor([ 0.2243,  0.1628,  0.2052,  0.0918,  0.3269, -0.5850, -0.4152],
+       device='cuda:0'), grad: tensor([ 0.0353,  0.0235, -0.1415,  0.0317,  0.0341,  0.0070,  0.0097],
+       device='cuda:0')
+588
+0.005000000000000003
+changing lr
+epoch 35, time 838.95, cls_loss 0.3730 cls_loss_mapping 0.0101 cls_loss_causal 0.3371 re_mapping 0.0084 re_causal 0.0114 /// teacc 95.48 lr 0.00477568
+Epoch 37, weight, value: tensor([[ 0.0747,  0.0950,  0.0720,  ..., -0.0025,  0.0191,  0.0217],
+        [ 0.0004,  0.0090, -0.0090,  ...,  0.0856,  0.0764,  0.0743],
+        [-0.1090, -0.1053, -0.0824,  ..., -0.0265, -0.0509, -0.0280],
+        ...,
+        [-0.1341, -0.1426, -0.1277,  ..., -0.0237, -0.0185, -0.0167],
+        [ 0.1036,  0.0887,  0.1022,  ..., -0.0702, -0.0715, -0.0764],
+        [ 0.1271,  0.1212,  0.1193,  ..., -0.0251, -0.0039, -0.0143]],
+       device='cuda:0'), grad: tensor([[ 5.9204e-03,  2.1708e-04,  2.4104e-04,  ...,  6.3610e-04,
+          7.3147e-04,  8.0252e-04],
+        [ 3.2043e-03,  1.2314e-04,  1.3673e-04,  ...,  3.5787e-04,
+          4.2915e-04,  4.6086e-04],
+        [-2.6817e-03, -8.0633e-04, -9.0551e-04,  ..., -1.2846e-03,
+         -2.6379e-03, -2.1458e-03],
+        ...,
+        [ 5.8174e-03,  2.6441e-04,  2.9397e-04,  ...,  7.0000e-04,
+          8.8739e-04,  9.1982e-04],
+        [ 5.2023e-04,  1.1586e-05,  1.4126e-05,  ...,  5.7936e-05,
+          6.8069e-05,  7.4029e-05],
+        [-1.6678e-02,  4.0263e-05,  5.3972e-05,  ..., -8.9741e-04,
+          2.2173e-05, -6.5660e-04]], device='cuda:0')
+Epoch 37, bias, value: tensor([ 0.2919,  0.1411,  0.2435,  0.0714,  0.2900, -0.5895, -0.4376],
+       device='cuda:0'), grad: tensor([ 0.0732,  0.0407, -0.0934,  0.0486,  0.0763,  0.0067, -0.1520],
+       device='cuda:0')
+588
+0.004775675848247429
+changing lr
+epoch 36, time 837.14, cls_loss 0.3748 cls_loss_mapping 0.0083 cls_loss_causal 0.3484 re_mapping 0.0083 re_causal 0.0114 /// teacc 92.71 lr 0.00455180
+Epoch 38, weight, value: tensor([[ 0.0689,  0.0888,  0.0647,  ..., -0.0049,  0.0145,  0.0180],
+        [-0.0013,  0.0057, -0.0112,  ...,  0.0845,  0.0767,  0.0740],
+        [-0.1045, -0.0984, -0.0752,  ..., -0.0231, -0.0463, -0.0248],
+        ...,
+        [-0.1310, -0.1427, -0.1279,  ..., -0.0265, -0.0215, -0.0192],
+        [ 0.1098,  0.0930,  0.1062,  ..., -0.0683, -0.0698, -0.0744],
+        [ 0.1282,  0.1228,  0.1204,  ..., -0.0225, -0.0022, -0.0121]],
+       device='cuda:0'), grad: tensor([[ 1.4200e-03,  3.4261e-04,  3.0208e-04,  ...,  4.9353e-04,
+          5.3406e-04,  4.9591e-04],
+        [ 8.2588e-04,  3.0470e-04,  2.5177e-04,  ...,  2.6941e-04,
+          3.3259e-04,  2.6941e-04],
+        [ 1.5087e-03,  4.3511e-04,  3.8099e-04,  ...,  4.9639e-04,
+          5.5552e-04,  4.9686e-04],
+        ...,
+        [-4.1962e-03, -1.2178e-03, -1.0071e-03,  ..., -1.4858e-03,
+         -1.7214e-03, -1.4935e-03],
+        [ 1.5116e-04,  5.5730e-05,  4.6104e-05,  ...,  4.9144e-05,
+          6.0618e-05,  4.9144e-05],
+        [-2.8682e-04, -1.3292e-04, -1.4925e-04,  ..., -1.1921e-05,
+          5.2340e-06, -6.4634e-06]], device='cuda:0')
+Epoch 38, bias, value: tensor([ 0.1763,  0.1725,  0.2522,  0.1295,  0.3133, -0.6004, -0.4328],
+       device='cuda:0'), grad: tensor([ 0.0173,  0.0218,  0.0234,  0.0152, -0.0853,  0.0040,  0.0036],
+       device='cuda:0')
+588
+0.004551803455482836
+changing lr
+epoch 37, time 839.54, cls_loss 0.3921 cls_loss_mapping 0.0081 cls_loss_causal 0.3724 re_mapping 0.0080 re_causal 0.0112 /// teacc 95.23 lr 0.00432883
+Epoch 39, weight, value: tensor([[ 0.0713,  0.0871,  0.0633,  ..., -0.0072,  0.0115,  0.0146],
+        [ 0.0064,  0.0120, -0.0047,  ...,  0.0833,  0.0764,  0.0733],
+        [-0.1202, -0.1065, -0.0839,  ..., -0.0196, -0.0435, -0.0212],
+        ...,
+        [-0.1264, -0.1360, -0.1215,  ..., -0.0264, -0.0208, -0.0189],
+        [ 0.1086,  0.0921,  0.1055,  ..., -0.0677, -0.0694, -0.0741],
+        [ 0.1313,  0.1246,  0.1223,  ..., -0.0203, -0.0002, -0.0098]],
+       device='cuda:0'), grad: tensor([[-4.8950e-02, -2.6993e-02, -2.7390e-02,  ..., -4.4670e-03,
+         -5.4207e-03, -3.8490e-03],
+        [ 2.6855e-02,  1.4870e-02,  1.5099e-02,  ...,  2.3212e-03,
+          2.7790e-03,  1.9426e-03],
+        [ 6.3562e-04,  3.4213e-04,  3.4642e-04,  ...,  7.4267e-05,
+          9.0480e-05,  6.8426e-05],
+        ...,
+        [ 5.4474e-03,  2.6493e-03,  2.6550e-03,  ...,  1.2360e-03,
+          1.7653e-03,  1.4238e-03],
+        [ 1.0384e-02,  5.9242e-03,  6.0310e-03,  ...,  5.3024e-04,
+          4.9257e-04,  2.5392e-04],
+        [ 2.3327e-03,  1.3285e-03,  1.3523e-03,  ...,  1.2600e-04,
+          1.2141e-04,  6.6221e-05]], device='cuda:0')
+Epoch 39, bias, value: tensor([ 0.2451,  0.1613,  0.2419,  0.1551,  0.2536, -0.6259, -0.4207],
+       device='cuda:0'), grad: tensor([-0.1936,  0.1016,  0.0027,  0.0080,  0.0518,  0.0239,  0.0056],
+       device='cuda:0')
+588
+0.004328833670911726
+changing lr
+epoch 38, time 834.80, cls_loss 0.3892 cls_loss_mapping 0.0087 cls_loss_causal 0.3642 re_mapping 0.0079 re_causal 0.0110 /// teacc 95.23 lr 0.00410722
+Epoch 40, weight, value: tensor([[ 0.0727,  0.0897,  0.0657,  ..., -0.0098,  0.0092,  0.0109],
+        [ 0.0075,  0.0104, -0.0060,  ...,  0.0817,  0.0749,  0.0725],
+        [-0.1097, -0.1012, -0.0792,  ..., -0.0194, -0.0429, -0.0205],
+        ...,
+        [-0.1282, -0.1366, -0.1220,  ..., -0.0260, -0.0208, -0.0183],
+        [ 0.1028,  0.0879,  0.1017,  ..., -0.0673, -0.0688, -0.0736],
+        [ 0.1276,  0.1231,  0.1211,  ..., -0.0210, -0.0010, -0.0109]],
+       device='cuda:0'), grad: tensor([[ 5.4512e-03,  2.8920e-04,  4.4942e-04,  ...,  8.7500e-04,
+          9.6321e-04,  7.3814e-04],
+        [ 2.0962e-03,  6.7130e-06,  6.8620e-06,  ...,  1.8775e-06,
+          1.9707e-06,  1.6745e-06],
+        [ 1.6851e-03, -1.5235e-04, -3.1686e-04,  ..., -8.7357e-04,
+         -9.6416e-04, -7.3433e-04],
+        ...,
+        [-1.2970e-02,  3.2764e-06,  3.7216e-06,  ...,  1.6969e-06,
+          2.2557e-06,  9.7044e-07],
+        [ 4.3607e-04,  1.1139e-06,  1.1381e-06,  ...,  2.9244e-07,
+          3.0920e-07,  2.6077e-07],
+        [ 6.4087e-04, -1.5438e-04, -1.5318e-04,  ..., -1.6689e-05,
+         -1.6406e-05, -1.6034e-05]], device='cuda:0')
+Epoch 40, bias, value: tensor([ 0.2342,  0.1748,  0.2758,  0.1418,  0.2419, -0.6457, -0.4124],
+       device='cuda:0'), grad: tensor([ 0.0358,  0.0230,  0.0411,  0.0290, -0.1432,  0.0048,  0.0094],
+       device='cuda:0')
+588
+0.0041072155260068206
+changing lr
+epoch 39, time 835.90, cls_loss 0.3633 cls_loss_mapping 0.0079 cls_loss_causal 0.3325 re_mapping 0.0078 re_causal 0.0107 /// teacc 92.96 lr 0.00388740
+Epoch 41, weight, value: tensor([[ 0.0707,  0.0876,  0.0636,  ..., -0.0146,  0.0036,  0.0060],
+        [ 0.0067,  0.0109, -0.0056,  ...,  0.0852,  0.0781,  0.0759],
+        [-0.1111, -0.0985, -0.0772,  ..., -0.0182, -0.0411, -0.0196],
+        ...,
+        [-0.1191, -0.1330, -0.1178,  ..., -0.0250, -0.0202, -0.0176],
+        [ 0.0980,  0.0845,  0.0980,  ..., -0.0673, -0.0689, -0.0737],
+        [ 0.1256,  0.1206,  0.1189,  ..., -0.0218, -0.0020, -0.0116]],
+       device='cuda:0'), grad: tensor([[-2.6035e-03, -1.6079e-03, -1.6165e-03,  ...,  1.2445e-04,
+          8.4877e-05,  1.3781e-04],
+        [-5.5838e-04, -1.0186e-04, -3.2395e-05,  ..., -1.6289e-03,
+         -1.4668e-03, -1.4524e-03],
+        [ 8.6594e-04,  4.7040e-04,  4.4179e-04,  ...,  2.3055e-04,
+          2.2554e-04,  1.9300e-04],
+        ...,
+        [ 7.9966e-04,  4.4537e-04,  4.1819e-04,  ...,  2.8896e-04,
+          2.6655e-04,  2.4772e-04],
+        [ 8.2254e-05,  3.4630e-05,  3.4094e-05,  ...,  3.3349e-05,
+          2.9489e-05,  2.9832e-05],
+        [ 9.7275e-04,  5.2834e-04,  5.2309e-04,  ...,  7.6866e-04,
+          6.9523e-04,  6.8235e-04]], device='cuda:0')
+Epoch 41, bias, value: tensor([ 0.2398,  0.2098,  0.2255,  0.1421,  0.2346, -0.6396, -0.4020],
+       device='cuda:0'), grad: tensor([-0.0033, -0.0032,  0.0014,  0.0009,  0.0013,  0.0002,  0.0026],
+       device='cuda:0')
+588
+0.0038873953302184317
+changing lr
+epoch 40, time 838.35, cls_loss 0.3547 cls_loss_mapping 0.0072 cls_loss_causal 0.3330 re_mapping 0.0077 re_causal 0.0106 /// teacc 94.72 lr 0.00366982
+Epoch 42, weight, value: tensor([[ 0.0631,  0.0803,  0.0567,  ..., -0.0126,  0.0073,  0.0088],
+        [ 0.0116,  0.0152, -0.0014,  ...,  0.0853,  0.0776,  0.0753],
+        [-0.1107, -0.0962, -0.0749,  ..., -0.0183, -0.0406, -0.0195],
+        ...,
+        [-0.1187, -0.1296, -0.1147,  ..., -0.0283, -0.0247, -0.0213],
+        [ 0.1010,  0.0859,  0.0995,  ..., -0.0662, -0.0680, -0.0727],
+        [ 0.1245,  0.1180,  0.1154,  ..., -0.0220, -0.0028, -0.0121]],
+       device='cuda:0'), grad: tensor([[ 5.4665e-03,  3.0670e-03,  2.6169e-03,  ...,  1.8005e-03,
+          1.7300e-03,  1.6174e-03],
+        [-1.3283e-02, -7.3090e-03, -6.0387e-03,  ..., -4.6043e-03,
+         -4.3755e-03, -3.9482e-03],
+        [ 2.3022e-03,  1.2417e-03,  1.0138e-03,  ...,  8.2445e-04,
+          7.8297e-04,  7.0286e-04],
+        ...,
+        [ 2.9068e-03,  1.6546e-03,  1.3514e-03,  ...,  9.8991e-04,
+          9.3746e-04,  8.4066e-04],
+        [ 2.1851e-04,  1.0777e-04,  8.2076e-05,  ...,  8.7798e-05,
+          8.0884e-05,  6.4850e-05],
+        [ 1.7672e-03,  1.0071e-03,  8.5878e-04,  ...,  5.7554e-04,
+          5.5599e-04,  5.2786e-04]], device='cuda:0')
+Epoch 42, bias, value: tensor([ 0.2661,  0.1794,  0.1593,  0.1079,  0.3138, -0.6346, -0.3819],
+       device='cuda:0'), grad: tensor([ 0.0660, -0.2070,  0.0376,  0.0291,  0.0489,  0.0057,  0.0197],
+       device='cuda:0')
+588
+0.003669815772166629
+changing lr
+epoch 41, time 835.72, cls_loss 0.3443 cls_loss_mapping 0.0058 cls_loss_causal 0.3271 re_mapping 0.0075 re_causal 0.0103 /// teacc 94.22 lr 0.00345492
+Epoch 43, weight, value: tensor([[ 0.0659,  0.0830,  0.0583,  ..., -0.0139,  0.0054,  0.0068],
+        [ 0.0040,  0.0096, -0.0071,  ...,  0.0825,  0.0744,  0.0725],
+        [-0.1133, -0.1008, -0.0803,  ..., -0.0189, -0.0415, -0.0202],
+        ...,
+        [-0.1113, -0.1249, -0.1089,  ..., -0.0245, -0.0196, -0.0170],
+        [ 0.1005,  0.0857,  0.0991,  ..., -0.0660, -0.0674, -0.0723],
+        [ 0.1236,  0.1178,  0.1158,  ..., -0.0230, -0.0040, -0.0132]],
+       device='cuda:0'), grad: tensor([[ 1.8784e-02,  1.3405e-02,  1.3344e-02,  ...,  2.4757e-03,
+          2.3861e-03,  2.3346e-03],
+        [-1.8860e-02, -1.3535e-02, -1.3474e-02,  ..., -2.4929e-03,
+         -2.4052e-03, -2.3537e-03],
+        [ 1.7891e-03,  2.1470e-04,  1.6308e-04,  ...,  1.2034e-04,
+          7.6652e-05,  7.6652e-05],
+        ...,
+        [-2.4700e-03, -2.3568e-04, -1.6165e-04,  ..., -1.5950e-04,
+         -9.7215e-05, -9.7394e-05],
+        [ 5.0116e-04,  6.1512e-05,  4.7088e-05,  ...,  3.3885e-05,
+          2.1681e-05,  2.1666e-05],
+        [ 9.2208e-05,  3.4958e-05,  3.3349e-05,  ...,  8.7991e-06,
+          7.3388e-06,  7.2271e-06]], device='cuda:0')
+Epoch 43, bias, value: tensor([ 0.2459,  0.2286,  0.2556,  0.0644,  0.2799, -0.6764, -0.3880],
+       device='cuda:0'), grad: tensor([ 0.0356, -0.0353,  0.0109,  0.0007, -0.0155,  0.0031,  0.0004],
+       device='cuda:0')
+588
+0.0034549150281252667
+changing lr
+epoch 42, time 821.69, cls_loss 0.3440 cls_loss_mapping 0.0058 cls_loss_causal 0.3231 re_mapping 0.0073 re_causal 0.0099 /// teacc 94.22 lr 0.00324313
+Epoch 44, weight, value: tensor([[ 0.0662,  0.0815,  0.0572,  ..., -0.0142,  0.0035,  0.0056],
+        [ 0.0087,  0.0131, -0.0031,  ...,  0.0856,  0.0777,  0.0750],
+        [-0.1154, -0.1018, -0.0814,  ..., -0.0214, -0.0436, -0.0223],
+        ...,
+        [-0.1151, -0.1262, -0.1101,  ..., -0.0272, -0.0209, -0.0188],
+        [ 0.1014,  0.0848,  0.0978,  ..., -0.0652, -0.0667, -0.0715],
+        [ 0.1259,  0.1185,  0.1164,  ..., -0.0214, -0.0031, -0.0120]],
+       device='cuda:0'), grad: tensor([[-8.6101e-07, -7.8557e-07, -7.9954e-07,  ...,  1.1036e-06,
+          1.0431e-06,  1.0701e-06],
+        [ 2.0713e-06,  1.2266e-06,  1.2312e-06,  ...,  1.3104e-06,
+          1.2591e-06,  1.2508e-06],
+        [-2.4796e-05, -1.3016e-05, -1.3016e-05,  ..., -2.4140e-05,
+         -2.3112e-05, -2.3112e-05],
+        ...,
+        [ 2.2560e-05,  1.1958e-05,  1.1966e-05,  ...,  2.1130e-05,
+          2.0221e-05,  2.0221e-05],
+        [ 5.8580e-07,  3.8138e-07,  3.8603e-07,  ...,  1.6671e-07,
+          1.6624e-07,  1.6065e-07],
+        [ 2.0955e-07,  1.1688e-07,  1.1688e-07,  ...,  1.5926e-07,
+          1.5274e-07,  1.5227e-07]], device='cuda:0')
+Epoch 44, bias, value: tensor([ 0.2208,  0.2342,  0.2037,  0.0642,  0.3204, -0.6671, -0.3663],
+       device='cuda:0'), grad: tensor([ 3.8259e-06,  5.8636e-06, -1.0252e-04,  1.3346e-06,  9.0420e-05,
+         5.6019e-07,  7.1293e-07], device='cuda:0')
+588
+0.0032431258795932905
+changing lr
+epoch 43, time 818.59, cls_loss 0.3533 cls_loss_mapping 0.0060 cls_loss_causal 0.3390 re_mapping 0.0072 re_causal 0.0101 /// teacc 91.96 lr 0.00303487
+Epoch 45, weight, value: tensor([[ 0.0637,  0.0780,  0.0542,  ..., -0.0154,  0.0019,  0.0037],
+        [ 0.0054,  0.0096, -0.0067,  ...,  0.0836,  0.0764,  0.0733],
+        [-0.1132, -0.0991, -0.0792,  ..., -0.0204, -0.0433, -0.0219],
+        ...,
+        [-0.1120, -0.1238, -0.1083,  ..., -0.0260, -0.0199, -0.0173],
+        [ 0.1016,  0.0846,  0.0975,  ..., -0.0649, -0.0663, -0.0710],
+        [ 0.1240,  0.1200,  0.1179,  ..., -0.0226, -0.0043, -0.0133]],
+       device='cuda:0'), grad: tensor([[-1.8263e-04, -6.9916e-05, -7.0989e-05,  ...,  1.0177e-05,
+          7.2643e-06,  9.2760e-06],
+        [ 4.8190e-05,  2.0429e-05,  2.0623e-05,  ...,  5.7742e-06,
+          6.2399e-06,  5.4352e-06],
+        [-1.4496e-04, -5.9694e-05, -6.0946e-05,  ..., -1.0556e-04,
+         -1.0294e-04, -9.8228e-05],
+        ...,
+        [ 2.6560e-04,  1.0395e-04,  1.0604e-04,  ...,  8.2076e-05,
+          8.2135e-05,  7.6473e-05],
+        [ 1.2638e-06,  4.1630e-07,  4.3213e-07,  ...,  3.4878e-07,
+          3.5297e-07,  3.2550e-07],
+        [ 3.9488e-06,  1.6429e-06,  1.6605e-06,  ...,  2.0899e-06,
+          2.0619e-06,  1.9651e-06]], device='cuda:0')
+Epoch 45, bias, value: tensor([ 0.2510,  0.2139,  0.2738,  0.0560,  0.2775, -0.6553, -0.4071],
+       device='cuda:0'), grad: tensor([-2.8729e-04,  7.7784e-05, -3.1829e-04,  1.7226e-05,  4.9925e-04,
+         2.6636e-06,  8.1211e-06], device='cuda:0')
+588
+0.0030348748417303863
+changing lr
+epoch 44, time 816.96, cls_loss 0.3239 cls_loss_mapping 0.0054 cls_loss_causal 0.3156 re_mapping 0.0070 re_causal 0.0097 /// teacc 93.72 lr 0.00283058
+Epoch 46, weight, value: tensor([[ 0.0613,  0.0785,  0.0537,  ..., -0.0135,  0.0031,  0.0054],
+        [ 0.0059,  0.0099, -0.0059,  ...,  0.0813,  0.0741,  0.0705],
+        [-0.1101, -0.0956, -0.0754,  ..., -0.0195, -0.0419, -0.0207],
+        ...,
+        [-0.1115, -0.1272, -0.1120,  ..., -0.0265, -0.0197, -0.0175],
+        [ 0.1014,  0.0850,  0.0982,  ..., -0.0654, -0.0666, -0.0712],
+        [ 0.1258,  0.1212,  0.1193,  ..., -0.0219, -0.0040, -0.0126]],
+       device='cuda:0'), grad: tensor([[ 4.7264e-03,  2.7981e-03,  2.9430e-03,  ...,  7.4744e-05,
+          7.5161e-05,  7.5161e-05],
+        [-4.2633e-02, -2.6184e-02, -2.5162e-02,  ..., -1.0967e-03,
+         -1.0967e-03, -1.0967e-03],
+        [ 6.4163e-03,  3.7746e-03,  4.0169e-03,  ...,  1.0067e-04,
+          1.0061e-04,  1.0061e-04],
+        ...,
+        [ 8.0414e-03,  4.5853e-03,  5.2299e-03,  ...,  7.2539e-05,
+          7.2181e-05,  7.2181e-05],
+        [-1.4648e-02, -8.0338e-03, -9.9716e-03,  ...,  8.4713e-06,
+          8.4713e-06,  8.4713e-06],
+        [ 3.3905e-02,  2.0569e-02,  2.0340e-02,  ...,  7.7438e-04,
+          7.7438e-04,  7.7438e-04]], device='cuda:0')
+Epoch 46, bias, value: tensor([ 0.2345,  0.2247,  0.2884,  0.0616,  0.2541, -0.6552, -0.3985],
+       device='cuda:0'), grad: tensor([ 0.0139, -0.1255,  0.0189,  0.0124,  0.0237, -0.0431,  0.0997],
+       device='cuda:0')
+588
+0.0028305813044122124
+changing lr
+epoch 45, time 821.77, cls_loss 0.3509 cls_loss_mapping 0.0055 cls_loss_causal 0.3367 re_mapping 0.0069 re_causal 0.0097 /// teacc 95.23 lr 0.00263066
+Epoch 47, weight, value: tensor([[ 0.0606,  0.0806,  0.0548,  ..., -0.0130,  0.0040,  0.0064],
+        [ 0.0019,  0.0046, -0.0097,  ...,  0.0800,  0.0730,  0.0691],
+        [-0.1005, -0.0895, -0.0691,  ..., -0.0178, -0.0398, -0.0193],
+        ...,
+        [-0.1130, -0.1278, -0.1133,  ..., -0.0262, -0.0208, -0.0180],
+        [ 0.0962,  0.0826,  0.0960,  ..., -0.0651, -0.0664, -0.0709],
+        [ 0.1267,  0.1224,  0.1207,  ..., -0.0214, -0.0032, -0.0118]],
+       device='cuda:0'), grad: tensor([[-0.0472, -0.0242, -0.0183,  ..., -0.0063, -0.0057, -0.0057],
+        [ 0.0180,  0.0089,  0.0065,  ...,  0.0014,  0.0011,  0.0011],
+        [ 0.0072,  0.0038,  0.0031,  ...,  0.0019,  0.0018,  0.0018],
+        ...,
+        [ 0.0115,  0.0062,  0.0046,  ...,  0.0014,  0.0014,  0.0014],
+        [ 0.0024,  0.0012,  0.0009,  ...,  0.0003,  0.0003,  0.0003],
+        [ 0.0066,  0.0034,  0.0026,  ...,  0.0009,  0.0008,  0.0008]],
+       device='cuda:0')
+Epoch 47, bias, value: tensor([ 0.3016,  0.1751,  0.2679,  0.0943,  0.2772, -0.6906, -0.4160],
+       device='cuda:0'), grad: tensor([-0.1091,  0.0440,  0.0147,  0.0030,  0.0263,  0.0056,  0.0153],
+       device='cuda:0')
+588
+0.0026306566876350096
+changing lr
+epoch 46, time 818.10, cls_loss 0.3356 cls_loss_mapping 0.0034 cls_loss_causal 0.3154 re_mapping 0.0068 re_causal 0.0095 /// teacc 95.48 lr 0.00243550
+Epoch 48, weight, value: tensor([[ 0.0657,  0.0849,  0.0593,  ..., -0.0137,  0.0030,  0.0059],
+        [ 0.0002,  0.0040, -0.0099,  ...,  0.0799,  0.0737,  0.0693],
+        [-0.1009, -0.0887, -0.0691,  ..., -0.0186, -0.0406, -0.0203],
+        ...,
+        [-0.1147, -0.1303, -0.1155,  ..., -0.0266, -0.0215, -0.0183],
+        [ 0.0973,  0.0832,  0.0965,  ..., -0.0647, -0.0661, -0.0706],
+        [ 0.1228,  0.1204,  0.1184,  ..., -0.0208, -0.0030, -0.0115]],
+       device='cuda:0'), grad: tensor([[-6.9771e-03, -1.1320e-03, -5.3644e-04,  ..., -1.1098e-04,
+         -1.0991e-04, -1.1355e-04],
+        [ 9.0885e-04,  4.3452e-05, -6.8069e-05,  ..., -7.3075e-05,
+         -7.2420e-05, -7.0214e-05],
+        [ 1.9464e-03,  3.6430e-04,  2.1350e-04,  ...,  6.4492e-05,
+          6.3419e-05,  6.4254e-05],
+        ...,
+        [ 2.3689e-03,  5.4598e-04,  3.8934e-04,  ...,  1.1837e-04,
+          1.1766e-04,  1.1832e-04],
+        [ 2.3091e-04,  2.3410e-05,  2.1420e-08,  ...,  1.3039e-08,
+          1.3039e-08,  1.3039e-08],
+        [ 3.7956e-04,  3.8594e-05,  1.7509e-07,  ...,  1.5087e-07,
+          1.4901e-07,  1.4529e-07]], device='cuda:0')
+Epoch 48, bias, value: tensor([ 0.2774,  0.2050,  0.3031,  0.0904,  0.2481, -0.6898, -0.4246],
+       device='cuda:0'), grad: tensor([-0.1416,  0.0255,  0.0364,  0.0268,  0.0384,  0.0055,  0.0089],
+       device='cuda:0')
+588
+0.0024355036129704724
+changing lr
+---------------------saving model at epoch 47----------------------------------------------------
+epoch 47, time 821.43, cls_loss 0.3298 cls_loss_mapping 0.0043 cls_loss_causal 0.3113 re_mapping 0.0067 re_causal 0.0093 /// teacc 96.73 lr 0.00224552
+Epoch 49, weight, value: tensor([[ 0.0648,  0.0841,  0.0591,  ..., -0.0106,  0.0060,  0.0085],
+        [ 0.0065,  0.0081, -0.0061,  ...,  0.0796,  0.0732,  0.0688],
+        [-0.1047, -0.0911, -0.0718,  ..., -0.0192, -0.0414, -0.0210],
+        ...,
+        [-0.1161, -0.1297, -0.1151,  ..., -0.0283, -0.0228, -0.0197],
+        [ 0.0972,  0.0824,  0.0955,  ..., -0.0641, -0.0654, -0.0699],
+        [ 0.1241,  0.1203,  0.1184,  ..., -0.0205, -0.0031, -0.0116]],
+       device='cuda:0'), grad: tensor([[ 1.8895e-04,  1.1182e-04,  1.1200e-04,  ...,  1.8522e-05,
+          1.6302e-05,  1.4924e-05],
+        [-6.4135e-04, -2.2805e-04, -2.3091e-04,  ..., -1.0812e-04,
+         -1.0234e-04, -9.0837e-05],
+        [ 2.3171e-05,  2.8655e-05,  2.9132e-05,  ..., -5.1297e-06,
+         -3.1739e-06, -3.2689e-06],
+        ...,
+        [ 6.1369e-04,  2.4188e-04,  2.4438e-04,  ...,  9.5427e-05,
+          9.0301e-05,  8.0228e-05],
+        [ 9.0897e-06,  7.0557e-06,  7.0706e-06,  ...,  2.2538e-07,
+          2.1793e-07,  1.9744e-07],
+        [-2.1625e-04, -1.7929e-04, -1.7965e-04,  ..., -1.2405e-06,
+         -1.4594e-06, -1.3458e-06]], device='cuda:0')
+Epoch 49, bias, value: tensor([ 0.2784,  0.2182,  0.3000,  0.0749,  0.2464, -0.6948, -0.4137],
+       device='cuda:0'), grad: tensor([ 3.5071e-04, -1.0328e-03,  2.4170e-05,  4.6790e-05,  1.0023e-03,
+         1.6928e-05, -4.0722e-04], device='cuda:0')
+588
+0.00224551509273949
+changing lr
+epoch 48, time 815.76, cls_loss 0.3467 cls_loss_mapping 0.0046 cls_loss_causal 0.3327 re_mapping 0.0064 re_causal 0.0093 /// teacc 96.23 lr 0.00206107
+Epoch 50, weight, value: tensor([[ 0.0642,  0.0845,  0.0598,  ..., -0.0102,  0.0068,  0.0087],
+        [ 0.0023,  0.0072, -0.0070,  ...,  0.0790,  0.0725,  0.0685],
+        [-0.1025, -0.0900, -0.0711,  ..., -0.0189, -0.0411, -0.0208],
+        ...,
+        [-0.1144, -0.1287, -0.1148,  ..., -0.0277, -0.0228, -0.0195],
+        [ 0.1007,  0.0842,  0.0972,  ..., -0.0637, -0.0649, -0.0694],
+        [ 0.1233,  0.1193,  0.1178,  ..., -0.0212, -0.0036, -0.0122]],
+       device='cuda:0'), grad: tensor([[-2.3376e-02, -1.6632e-02, -1.6891e-02,  ..., -2.8019e-03,
+         -2.9087e-03, -2.7637e-03],
+        [ 3.2845e-03, -1.4133e-03, -1.1301e-03,  ..., -2.3890e-04,
+         -7.3910e-05, -2.3973e-04],
+        [ 6.4545e-03,  2.1899e-04,  2.0802e-04,  ...,  1.1647e-04,
+          1.0979e-04,  1.1629e-04],
+        ...,
+        [ 5.6305e-03,  1.6907e-02,  1.6968e-02,  ...,  2.6684e-03,
+          2.6588e-03,  2.6321e-03],
+        [ 1.7738e-03,  4.1294e-04,  4.0340e-04,  ...,  8.8096e-05,
+          8.1539e-05,  8.7380e-05],
+        [ 2.3079e-03,  3.5381e-04,  3.0446e-04,  ...,  9.4295e-05,
+          6.5267e-05,  9.4235e-05]], device='cuda:0')
+Epoch 50, bias, value: tensor([ 0.2837,  0.2270,  0.3207,  0.0423,  0.2477, -0.6835, -0.4286],
+       device='cuda:0'), grad: tensor([-0.0009,  0.0174,  0.0306,  0.0187, -0.0826,  0.0063,  0.0104],
+       device='cuda:0')
+588
+0.002061073738537637
+changing lr
+epoch 49, time 810.66, cls_loss 0.3440 cls_loss_mapping 0.0034 cls_loss_causal 0.3295 re_mapping 0.0064 re_causal 0.0090 /// teacc 95.73 lr 0.00188255
+Epoch 51, weight, value: tensor([[ 0.0608,  0.0803,  0.0558,  ..., -0.0112,  0.0049,  0.0075],
+        [ 0.0033,  0.0091, -0.0053,  ...,  0.0809,  0.0748,  0.0703],
+        [-0.1009, -0.0888, -0.0696,  ..., -0.0186, -0.0401, -0.0204],
+        ...,
+        [-0.1143, -0.1265, -0.1126,  ..., -0.0286, -0.0237, -0.0205],
+        [ 0.0988,  0.0822,  0.0953,  ..., -0.0636, -0.0647, -0.0692],
+        [ 0.1238,  0.1190,  0.1173,  ..., -0.0215, -0.0042, -0.0125]],
+       device='cuda:0'), grad: tensor([[ 1.6479e-03,  5.4502e-04,  5.0688e-04,  ...,  3.7265e-04,
+          3.7146e-04,  3.7003e-04],
+        [-5.8937e-03, -2.1591e-03, -2.0161e-03,  ..., -1.1005e-03,
+         -1.1015e-03, -1.0996e-03],
+        [ 1.6565e-03,  5.6028e-04,  5.1975e-04,  ...,  3.6144e-04,
+          3.6001e-04,  3.6001e-04],
+        ...,
+        [ 2.4891e-04,  2.4176e-04,  2.3389e-04,  ..., -1.2082e-04,
+         -1.1599e-04, -1.1587e-04],
+        [ 5.2214e-04,  1.9038e-04,  1.7750e-04,  ...,  9.8646e-05,
+          9.8646e-05,  9.8646e-05],
+        [ 7.9870e-04,  2.4915e-04,  2.3007e-04,  ...,  1.9777e-04,
+          1.9646e-04,  1.9634e-04]], device='cuda:0')
+Epoch 51, bias, value: tensor([ 0.2883,  0.2350,  0.3200,  0.0250,  0.2669, -0.6911, -0.4349],
+       device='cuda:0'), grad: tensor([ 0.0304, -0.1368,  0.0335,  0.0238,  0.0232,  0.0122,  0.0137],
+       device='cuda:0')
+588
+0.0018825509907063344
+changing lr
+epoch 50, time 810.24, cls_loss 0.3318 cls_loss_mapping 0.0042 cls_loss_causal 0.3163 re_mapping 0.0063 re_causal 0.0090 /// teacc 93.97 lr 0.00171031
+Epoch 52, weight, value: tensor([[ 0.0590,  0.0796,  0.0546,  ..., -0.0104,  0.0052,  0.0081],
+        [ 0.0075,  0.0104, -0.0034,  ...,  0.0787,  0.0727,  0.0681],
+        [-0.1004, -0.0899, -0.0701,  ..., -0.0191, -0.0401, -0.0208],
+        ...,
+        [-0.1143, -0.1254, -0.1120,  ..., -0.0276, -0.0225, -0.0194],
+        [ 0.0964,  0.0809,  0.0937,  ..., -0.0633, -0.0647, -0.0691],
+        [ 0.1226,  0.1189,  0.1171,  ..., -0.0216, -0.0044, -0.0126]],
+       device='cuda:0'), grad: tensor([[-0.0098, -0.0052, -0.0049,  ..., -0.0034, -0.0032, -0.0032],
+        [ 0.0004,  0.0002,  0.0002,  ...,  0.0002,  0.0002,  0.0002],
+        [ 0.0008,  0.0003,  0.0002,  ...,  0.0006,  0.0006,  0.0006],
+        ...,
+        [ 0.0077,  0.0044,  0.0041,  ...,  0.0019,  0.0018,  0.0018],
+        [ 0.0003,  0.0001,  0.0001,  ...,  0.0003,  0.0003,  0.0003],
+        [ 0.0005,  0.0002,  0.0002,  ...,  0.0002,  0.0002,  0.0002]],
+       device='cuda:0')
+Epoch 52, bias, value: tensor([ 2.7926e-01,  2.6229e-01,  3.2742e-01, -3.6472e-04,  2.8243e-01,
+        -6.9572e-01, -4.4606e-01], device='cuda:0'), grad: tensor([-0.0274,  0.0018,  0.0053,  0.0004,  0.0152,  0.0027,  0.0019],
+       device='cuda:0')
+588
+0.0017103063703014388
+changing lr
+epoch 51, time 810.68, cls_loss 0.3523 cls_loss_mapping 0.0043 cls_loss_causal 0.3407 re_mapping 0.0060 re_causal 0.0089 /// teacc 95.48 lr 0.00154469
+Epoch 53, weight, value: tensor([[ 0.0632,  0.0846,  0.0599,  ..., -0.0102,  0.0057,  0.0082],
+        [ 0.0063,  0.0090, -0.0043,  ...,  0.0772,  0.0709,  0.0664],
+        [-0.1003, -0.0890, -0.0693,  ..., -0.0186, -0.0393, -0.0201],
+        ...,
+        [-0.1156, -0.1260, -0.1128,  ..., -0.0267, -0.0218, -0.0185],
+        [ 0.0946,  0.0782,  0.0907,  ..., -0.0634, -0.0647, -0.0690],
+        [ 0.1243,  0.1197,  0.1175,  ..., -0.0209, -0.0039, -0.0120]],
+       device='cuda:0'), grad: tensor([[ 2.9945e-03,  4.1246e-04,  2.9731e-04,  ...,  1.4102e-04,
+          1.5700e-04,  1.3912e-04],
+        [ 1.3561e-03,  4.3178e-04,  4.2462e-04,  ...,  4.3416e-04,
+          4.8327e-04,  4.5371e-04],
+        [-2.6657e-02, -1.7792e-02, -1.9485e-02,  ..., -2.3880e-02,
+         -2.6627e-02, -2.5192e-02],
+        ...,
+        [-5.7411e-03, -6.2561e-04, -3.6573e-04,  ...,  7.2896e-05,
+          8.3447e-05,  1.0026e-04],
+        [ 1.7905e-04,  3.6925e-05,  3.2157e-05,  ...,  2.5570e-05,
+          2.8431e-05,  2.6360e-05],
+        [ 1.3374e-02,  8.5754e-03,  9.3536e-03,  ...,  1.1398e-02,
+          1.2703e-02,  1.2016e-02]], device='cuda:0')
+Epoch 53, bias, value: tensor([ 0.2497,  0.2498,  0.3294,  0.0260,  0.2671, -0.6871, -0.4258],
+       device='cuda:0'), grad: tensor([ 0.0455,  0.0155, -0.1198,  0.0792, -0.0899,  0.0025,  0.0670],
+       device='cuda:0')
+588
+0.0015446867550656784
+changing lr
+epoch 52, time 816.61, cls_loss 0.3060 cls_loss_mapping 0.0038 cls_loss_causal 0.3027 re_mapping 0.0060 re_causal 0.0084 /// teacc 93.97 lr 0.00138603
+Epoch 54, weight, value: tensor([[ 0.0616,  0.0857,  0.0613,  ..., -0.0109,  0.0047,  0.0074],
+        [ 0.0087,  0.0101, -0.0031,  ...,  0.0785,  0.0725,  0.0676],
+        [-0.0975, -0.0872, -0.0678,  ..., -0.0182, -0.0391, -0.0199],
+        ...,
+        [-0.1140, -0.1274, -0.1141,  ..., -0.0276, -0.0225, -0.0192],
+        [ 0.0922,  0.0772,  0.0895,  ..., -0.0634, -0.0647, -0.0690],
+        [ 0.1223,  0.1183,  0.1162,  ..., -0.0205, -0.0036, -0.0116]],
+       device='cuda:0'), grad: tensor([[-5.0323e-02, -1.4519e-02, -1.4565e-02,  ..., -3.5071e-04,
+         -2.5082e-04, -1.9133e-04],
+        [ 1.4915e-02,  7.6866e-03,  7.7934e-03,  ...,  3.5787e-04,
+          3.3450e-04,  1.8346e-04],
+        [ 5.3930e-04,  1.2016e-04,  1.2529e-04,  ...,  2.2367e-05,
+          2.2635e-05,  1.4722e-05],
+        ...,
+        [ 3.0930e-02,  5.8899e-03,  5.8250e-03,  ..., -6.0916e-05,
+         -1.3125e-04, -2.8104e-05],
+        [ 2.2793e-04,  4.3243e-05,  4.3422e-05,  ...,  2.1253e-06,
+          1.7770e-06,  1.4892e-06],
+        [ 3.5915e-03,  7.4387e-04,  7.4577e-04,  ...,  2.7224e-05,
+          2.1145e-05,  1.8597e-05]], device='cuda:0')
+Epoch 54, bias, value: tensor([ 0.2429,  0.2648,  0.3272,  0.0450,  0.2641, -0.6920, -0.4429],
+       device='cuda:0'), grad: tensor([-0.1566,  0.0263,  0.0016,  0.0003,  0.1151,  0.0008,  0.0125],
+       device='cuda:0')
+588
+0.001386025680863044
+changing lr
+---------------------saving model at epoch 53----------------------------------------------------
+epoch 53, time 815.54, cls_loss 0.3223 cls_loss_mapping 0.0039 cls_loss_causal 0.3132 re_mapping 0.0059 re_causal 0.0084 /// teacc 97.24 lr 0.00123464
+Epoch 55, weight, value: tensor([[ 0.0646,  0.0861,  0.0619,  ..., -0.0107,  0.0048,  0.0075],
+        [ 0.0041,  0.0078, -0.0053,  ...,  0.0782,  0.0721,  0.0674],
+        [-0.0982, -0.0879, -0.0685,  ..., -0.0180, -0.0388, -0.0198],
+        ...,
+        [-0.1146, -0.1266, -0.1137,  ..., -0.0277, -0.0225, -0.0193],
+        [ 0.0918,  0.0777,  0.0901,  ..., -0.0634, -0.0647, -0.0689],
+        [ 0.1221,  0.1176,  0.1155,  ..., -0.0208, -0.0039, -0.0119]],
+       device='cuda:0'), grad: tensor([[ 4.0970e-03,  2.0790e-03,  2.0790e-03,  ...,  1.7679e-04,
+          3.1382e-05,  1.0587e-05],
+        [ 3.1261e-03,  1.6460e-03,  1.6451e-03,  ...,  1.0604e-04,
+         -2.5351e-06, -1.8224e-05],
+        [-8.1024e-03, -5.0240e-03, -5.0240e-03,  ..., -1.3399e-04,
+         -8.2910e-05, -2.8498e-07],
+        ...,
+        [-4.0359e-03, -1.2426e-03, -1.2426e-03,  ..., -3.4451e-04,
+          2.2411e-05,  2.8126e-06],
+        [ 8.4782e-04,  4.4727e-04,  4.4727e-04,  ...,  3.1441e-05,
+          4.8876e-06,  7.9162e-09],
+        [ 1.4076e-03,  7.1526e-04,  7.1526e-04,  ...,  5.8472e-05,
+          7.1302e-06,  3.0641e-07]], device='cuda:0')
+Epoch 55, bias, value: tensor([ 0.2751,  0.2520,  0.3088,  0.0755,  0.2684, -0.7093, -0.4615],
+       device='cuda:0'), grad: tensor([ 0.0659,  0.0515, -0.1057,  0.0419, -0.0901,  0.0134,  0.0230],
+       device='cuda:0')
+588
+0.0012346426699819469
+changing lr
+epoch 54, time 813.62, cls_loss 0.3210 cls_loss_mapping 0.0039 cls_loss_causal 0.3115 re_mapping 0.0059 re_causal 0.0083 /// teacc 95.73 lr 0.00109084
+Epoch 56, weight, value: tensor([[ 0.0665,  0.0865,  0.0623,  ..., -0.0105,  0.0045,  0.0073],
+        [ 0.0068,  0.0095, -0.0033,  ...,  0.0781,  0.0722,  0.0674],
+        [-0.1023, -0.0901, -0.0705,  ..., -0.0186, -0.0391, -0.0201],
+        ...,
+        [-0.1144, -0.1265, -0.1138,  ..., -0.0266, -0.0212, -0.0182],
+        [ 0.0928,  0.0783,  0.0906,  ..., -0.0629, -0.0641, -0.0684],
+        [ 0.1220,  0.1175,  0.1151,  ..., -0.0208, -0.0040, -0.0119]],
+       device='cuda:0'), grad: tensor([[ 1.2426e-03,  5.1688e-07,  5.9512e-07,  ...,  2.2614e-04,
+          1.8013e-04,  2.1791e-04],
+        [ 7.9721e-06,  6.3330e-08,  5.8208e-08,  ...,  1.4110e-06,
+          1.1185e-06,  1.3560e-06],
+        [ 4.9067e-04,  1.6823e-05,  1.7807e-05,  ...,  1.3125e-04,
+          1.1986e-04,  1.2755e-04],
+        ...,
+        [-1.7509e-03, -1.6481e-05, -1.7449e-05,  ..., -3.6073e-04,
+         -3.0255e-04, -3.4857e-04],
+        [ 2.2538e-06,  7.4506e-09,  7.9162e-09,  ...,  4.1211e-07,
+          3.2969e-07,  3.9721e-07],
+        [ 2.4140e-06, -8.3912e-07, -9.3458e-07,  ...,  5.4063e-07,
+          3.4925e-07,  5.0291e-07]], device='cuda:0')
+Epoch 56, bias, value: tensor([ 0.2743,  0.2484,  0.3090,  0.0704,  0.2675, -0.7087, -0.4517],
+       device='cuda:0'), grad: tensor([ 1.4648e-02,  9.2983e-05,  5.0697e-03,  4.6104e-05, -1.9958e-02,
+         2.6435e-05,  4.8071e-05], device='cuda:0')
+588
+0.0010908425876598518
+changing lr
+epoch 55, time 810.78, cls_loss 0.3162 cls_loss_mapping 0.0037 cls_loss_causal 0.3064 re_mapping 0.0058 re_causal 0.0083 /// teacc 95.73 lr 0.00095492
+Epoch 57, weight, value: tensor([[ 0.0675,  0.0879,  0.0637,  ..., -0.0089,  0.0061,  0.0089],
+        [ 0.0054,  0.0083, -0.0044,  ...,  0.0788,  0.0729,  0.0680],
+        [-0.1008, -0.0899, -0.0704,  ..., -0.0189, -0.0394, -0.0205],
+        ...,
+        [-0.1128, -0.1255, -0.1132,  ..., -0.0277, -0.0224, -0.0193],
+        [ 0.0921,  0.0778,  0.0902,  ..., -0.0628, -0.0640, -0.0682],
+        [ 0.1202,  0.1166,  0.1144,  ..., -0.0206, -0.0039, -0.0118]],
+       device='cuda:0'), grad: tensor([[-6.9714e-04, -5.1832e-04, -5.1880e-04,  ...,  6.8188e-05,
+          2.5225e-04, -1.1134e-04],
+        [ 2.0828e-03,  9.5177e-04,  9.5224e-04,  ...,  8.8835e-04,
+          1.0910e-03,  5.9938e-04],
+        [-3.4714e-03, -1.2074e-03, -1.2083e-03,  ..., -2.1782e-03,
+         -2.9945e-03, -1.1692e-03],
+        ...,
+        [ 8.4448e-04,  2.9492e-04,  2.9492e-04,  ...,  5.2881e-04,
+          7.2718e-04,  2.8396e-04],
+        [ 1.5032e-04,  5.2273e-05,  5.2273e-05,  ...,  9.4235e-05,
+          1.2958e-04,  5.0575e-05],
+        [ 2.8324e-04,  1.0353e-04,  1.0353e-04,  ...,  1.6844e-04,
+          2.2876e-04,  9.3102e-05]], device='cuda:0')
+Epoch 57, bias, value: tensor([ 0.2516,  0.2549,  0.3189,  0.0807,  0.2683, -0.7104, -0.4549],
+       device='cuda:0'), grad: tensor([ 0.0284,  0.0356, -0.1360,  0.0232,  0.0330,  0.0059,  0.0101],
+       device='cuda:0')
+588
+0.000954915028125264
+changing lr
+epoch 56, time 809.14, cls_loss 0.3249 cls_loss_mapping 0.0037 cls_loss_causal 0.3133 re_mapping 0.0057 re_causal 0.0082 /// teacc 95.48 lr 0.00082713
+Epoch 58, weight, value: tensor([[ 0.0678,  0.0868,  0.0630,  ..., -0.0095,  0.0054,  0.0082],
+        [ 0.0059,  0.0096, -0.0034,  ...,  0.0777,  0.0719,  0.0670],
+        [-0.1000, -0.0887, -0.0692,  ..., -0.0192, -0.0397, -0.0209],
+        ...,
+        [-0.1144, -0.1262, -0.1139,  ..., -0.0267, -0.0215, -0.0183],
+        [ 0.0943,  0.0789,  0.0912,  ..., -0.0624, -0.0637, -0.0679],
+        [ 0.1178,  0.1153,  0.1131,  ..., -0.0209, -0.0043, -0.0121]],
+       device='cuda:0'), grad: tensor([[ 5.8861e-03,  1.2150e-03,  1.0509e-03,  ...,  3.0184e-04,
+          2.4235e-04,  2.3139e-04],
+        [-2.1076e-03,  6.8569e-04,  1.0548e-03,  ..., -2.1350e-04,
+          2.4751e-05,  2.0838e-04],
+        [ 5.8403e-03,  1.2064e-03,  1.0405e-03,  ...,  2.6274e-04,
+          2.0909e-04,  2.0564e-04],
+        ...,
+        [ 4.7226e-03,  9.4557e-04,  7.9823e-04,  ...,  1.7750e-04,
+          1.3351e-04,  1.3340e-04],
+        [ 1.0595e-03,  2.2697e-04,  1.9896e-04,  ...,  4.6760e-05,
+          3.8594e-05,  3.9279e-05],
+        [ 1.6127e-03,  3.4714e-04,  3.0494e-04,  ...,  7.0989e-05,
+          5.8889e-05,  6.0201e-05]], device='cuda:0')
+Epoch 58, bias, value: tensor([ 0.2451,  0.2668,  0.3150,  0.0850,  0.2656, -0.6988, -0.4696],
+       device='cuda:0'), grad: tensor([ 0.0657, -0.1021,  0.0664, -0.1160,  0.0571,  0.0115,  0.0174],
+       device='cuda:0')
+588
+0.0008271337313934874
+changing lr
+epoch 57, time 812.98, cls_loss 0.3331 cls_loss_mapping 0.0031 cls_loss_causal 0.3224 re_mapping 0.0057 re_causal 0.0082 /// teacc 96.23 lr 0.00070776
+Epoch 59, weight, value: tensor([[ 0.0651,  0.0853,  0.0611,  ..., -0.0103,  0.0043,  0.0074],
+        [ 0.0052,  0.0090, -0.0037,  ...,  0.0778,  0.0721,  0.0671],
+        [-0.0961, -0.0860, -0.0664,  ..., -0.0192, -0.0397, -0.0210],
+        ...,
+        [-0.1134, -0.1255, -0.1131,  ..., -0.0264, -0.0211, -0.0180],
+        [ 0.0933,  0.0780,  0.0902,  ..., -0.0623, -0.0636, -0.0678],
+        [ 0.1186,  0.1153,  0.1130,  ..., -0.0204, -0.0038, -0.0117]],
+       device='cuda:0'), grad: tensor([[-7.7133e-03, -9.0480e-05,  1.4929e-06,  ..., -1.0767e-03,
+         -2.0027e-04, -2.8443e-04],
+        [ 1.3981e-03, -4.0740e-05, -7.3612e-05,  ...,  1.1957e-04,
+         -8.7261e-05, -4.2617e-05],
+        [ 1.9646e-03,  2.3961e-05,  7.6601e-07,  ...,  2.7514e-04,
+          5.2691e-05,  7.3731e-05],
+        ...,
+        [ 2.0771e-03,  7.9811e-05,  7.0751e-05,  ...,  3.6335e-04,
+          1.7416e-04,  1.6820e-04],
+        [ 2.3651e-04,  2.9039e-06,  1.0338e-07,  ...,  3.3051e-05,
+          6.2659e-06,  8.8215e-06],
+        [ 4.9734e-04,  5.9716e-06,  7.8697e-08,  ...,  6.9559e-05,
+          1.3210e-05,  1.8567e-05]], device='cuda:0')
+Epoch 59, bias, value: tensor([ 0.2492,  0.2643,  0.3107,  0.0770,  0.2726, -0.7009, -0.4639],
+       device='cuda:0'), grad: tensor([-0.1342,  0.0271,  0.0341,  0.0268,  0.0334,  0.0041,  0.0086],
+       device='cuda:0')
+588
+0.00070775603199067
+changing lr
+epoch 58, time 811.90, cls_loss 0.3236 cls_loss_mapping 0.0030 cls_loss_causal 0.3150 re_mapping 0.0057 re_causal 0.0081 /// teacc 95.98 lr 0.00059702
+Epoch 60, weight, value: tensor([[ 0.0665,  0.0855,  0.0617,  ..., -0.0095,  0.0053,  0.0082],
+        [ 0.0038,  0.0079, -0.0048,  ...,  0.0773,  0.0717,  0.0667],
+        [-0.0973, -0.0861, -0.0667,  ..., -0.0196, -0.0401, -0.0215],
+        ...,
+        [-0.1137, -0.1252, -0.1131,  ..., -0.0268, -0.0216, -0.0184],
+        [ 0.0941,  0.0785,  0.0908,  ..., -0.0623, -0.0636, -0.0678],
+        [ 0.1177,  0.1146,  0.1123,  ..., -0.0203, -0.0037, -0.0116]],
+       device='cuda:0'), grad: tensor([[-4.5547e-03, -3.2864e-03, -2.9526e-03,  ..., -7.5865e-04,
+         -6.5327e-04, -7.5340e-04],
+        [ 2.1338e-04,  7.3671e-05,  1.0937e-04,  ...,  8.2076e-05,
+          9.0599e-05,  7.2837e-05],
+        [ 1.6379e-04,  5.6177e-05,  8.6427e-05,  ...,  6.3062e-05,
+          7.0810e-05,  5.5850e-05],
+        ...,
+        [ 3.9139e-03,  3.0804e-03,  2.6283e-03,  ...,  5.0354e-04,
+          3.6860e-04,  5.2786e-04],
+        [ 3.5226e-05,  1.3418e-05,  1.8492e-05,  ...,  1.2793e-05,
+          1.3985e-05,  1.1414e-05],
+        [ 2.1183e-04,  5.7161e-05,  1.0312e-04,  ...,  9.0778e-05,
+          1.0204e-04,  7.9870e-05]], device='cuda:0')
+Epoch 60, bias, value: tensor([ 0.2591,  0.2608,  0.3120,  0.0824,  0.2676, -0.7028, -0.4701],
+       device='cuda:0'), grad: tensor([ 0.0144,  0.0025,  0.0020,  0.0002, -0.0226,  0.0004,  0.0031],
+       device='cuda:0')
+588
+0.0005970223407163104
+changing lr
+epoch 59, time 809.91, cls_loss 0.3305 cls_loss_mapping 0.0034 cls_loss_causal 0.3204 re_mapping 0.0056 re_causal 0.0081 /// teacc 96.23 lr 0.00049516
+Epoch 61, weight, value: tensor([[ 0.0652,  0.0850,  0.0614,  ..., -0.0104,  0.0044,  0.0073],
+        [ 0.0045,  0.0086, -0.0043,  ...,  0.0775,  0.0716,  0.0668],
+        [-0.0975, -0.0861, -0.0668,  ..., -0.0201, -0.0406, -0.0221],
+        ...,
+        [-0.1144, -0.1255, -0.1133,  ..., -0.0258, -0.0205, -0.0173],
+        [ 0.0937,  0.0782,  0.0905,  ..., -0.0623, -0.0635, -0.0677],
+        [ 0.1193,  0.1151,  0.1128,  ..., -0.0197, -0.0031, -0.0111]],
+       device='cuda:0'), grad: tensor([[ 5.2738e-04, -6.6280e-05, -9.3162e-05,  ...,  3.7402e-05,
+         -1.2659e-05, -4.1962e-05],
+        [-3.2444e-03, -9.9242e-05,  1.6093e-06,  ..., -3.5262e-04,
+         -1.3530e-04, -5.0738e-06],
+        [ 8.3303e-04,  6.5923e-05,  4.2230e-05,  ...,  9.6381e-05,
+          4.5091e-05,  1.4551e-05],
+        ...,
+        [ 9.2936e-04,  6.5684e-05,  4.4107e-05,  ...,  1.1259e-04,
+          5.9187e-05,  2.6628e-05],
+        [ 1.1104e-04,  3.4571e-06,  1.8626e-08,  ...,  1.1876e-05,
+          4.4368e-06,  8.3819e-09],
+        [ 2.2054e-04,  9.2760e-06,  2.9970e-06,  ...,  2.4587e-05,
+          1.0468e-05,  1.9968e-06]], device='cuda:0')
+Epoch 61, bias, value: tensor([ 0.2573,  0.2537,  0.3154,  0.0858,  0.2647, -0.7015, -0.4665],
+       device='cuda:0'), grad: tensor([ 0.0304, -0.1370,  0.0323,  0.0261,  0.0346,  0.0047,  0.0090],
+       device='cuda:0')
+588
+0.0004951556604879052
+changing lr
+epoch 60, time 811.42, cls_loss 0.3277 cls_loss_mapping 0.0026 cls_loss_causal 0.3228 re_mapping 0.0056 re_causal 0.0082 /// teacc 95.73 lr 0.00040236
+Epoch 62, weight, value: tensor([[ 0.0651,  0.0848,  0.0614,  ..., -0.0101,  0.0047,  0.0076],
+        [ 0.0053,  0.0094, -0.0036,  ...,  0.0774,  0.0716,  0.0668],
+        [-0.0985, -0.0864, -0.0670,  ..., -0.0201, -0.0405, -0.0221],
+        ...,
+        [-0.1138, -0.1250, -0.1131,  ..., -0.0262, -0.0210, -0.0177],
+        [ 0.0931,  0.0774,  0.0897,  ..., -0.0623, -0.0636, -0.0677],
+        [ 0.1197,  0.1153,  0.1131,  ..., -0.0196, -0.0031, -0.0111]],
+       device='cuda:0'), grad: tensor([[-2.2161e-04, -2.6345e-04, -2.3794e-04,  ..., -2.2542e-04,
+         -2.2328e-04, -2.4748e-04],
+        [-3.8552e-04,  7.4983e-05,  5.9545e-05,  ...,  9.9778e-05,
+          9.3341e-05,  1.4365e-04],
+        [ 7.5102e-06,  3.0342e-06,  2.8256e-06,  ...,  2.2966e-06,
+          2.3376e-06,  2.1439e-06],
+        ...,
+        [ 4.6611e-04,  1.2445e-04,  1.1897e-04,  ...,  7.6771e-05,
+          8.0347e-05,  5.6773e-05],
+        [ 1.0349e-05,  2.9467e-06,  2.8070e-06,  ...,  1.9539e-06,
+          2.0321e-06,  1.5469e-06],
+        [ 9.8884e-05,  4.9740e-05,  4.5985e-05,  ...,  3.8862e-05,
+          3.9190e-05,  3.8296e-05]], device='cuda:0')
+Epoch 62, bias, value: tensor([ 0.2650,  0.2477,  0.3168,  0.0806,  0.2638, -0.7008, -0.4640],
+       device='cuda:0'), grad: tensor([-5.6714e-05, -1.2922e-03,  1.4976e-05,  5.3525e-05,  1.0815e-03,
+         2.3574e-05,  1.7703e-04], device='cuda:0')
+588
+0.00040236113724274745
+changing lr
+epoch 61, time 811.92, cls_loss 0.3016 cls_loss_mapping 0.0025 cls_loss_causal 0.2954 re_mapping 0.0056 re_causal 0.0079 /// teacc 96.23 lr 0.00031883
+Epoch 63, weight, value: tensor([[ 0.0660,  0.0853,  0.0619,  ..., -0.0103,  0.0045,  0.0074],
+        [ 0.0063,  0.0100, -0.0030,  ...,  0.0777,  0.0719,  0.0671],
+        [-0.0983, -0.0865, -0.0672,  ..., -0.0199, -0.0404, -0.0220],
+        ...,
+        [-0.1138, -0.1249, -0.1130,  ..., -0.0262, -0.0209, -0.0178],
+        [ 0.0927,  0.0773,  0.0895,  ..., -0.0623, -0.0636, -0.0677],
+        [ 0.1182,  0.1144,  0.1122,  ..., -0.0198, -0.0033, -0.0112]],
+       device='cuda:0'), grad: tensor([[-4.0501e-05, -2.2337e-05, -2.2322e-05,  ..., -3.8557e-06,
+         -3.4533e-06, -3.1255e-06],
+        [ 7.2047e-06,  3.9674e-06,  3.9637e-06,  ...,  1.6754e-06,
+          1.5935e-06,  1.5190e-06],
+        [ 1.6941e-06,  1.4156e-06,  1.3961e-06,  ...,  3.8482e-06,
+          3.8147e-06,  3.7737e-06],
+        ...,
+        [ 2.8744e-05,  1.5587e-05,  1.5602e-05,  ...,  3.5167e-06,
+          3.3192e-06,  3.1516e-06],
+        [ 1.5227e-07,  7.1246e-08,  7.1712e-08,  ...,  7.9162e-09,
+          7.4506e-09,  6.5193e-09],
+        [ 6.3069e-06,  3.3826e-06,  3.3826e-06,  ...,  7.5763e-07,
+          6.7940e-07,  6.1654e-07]], device='cuda:0')
+Epoch 63, bias, value: tensor([ 0.2698,  0.2464,  0.3181,  0.0788,  0.2628, -0.7006, -0.4664],
+       device='cuda:0'), grad: tensor([-6.2764e-05,  1.2122e-05,  5.2806e-07, -5.8636e-06,  4.4584e-05,
+         3.1479e-07,  1.0997e-05], device='cuda:0')
+588
+0.00031882564680131423
+changing lr
+epoch 62, time 812.17, cls_loss 0.3270 cls_loss_mapping 0.0027 cls_loss_causal 0.3173 re_mapping 0.0056 re_causal 0.0080 /// teacc 96.48 lr 0.00024472
+Epoch 64, weight, value: tensor([[ 0.0663,  0.0851,  0.0618,  ..., -0.0104,  0.0044,  0.0073],
+        [ 0.0055,  0.0099, -0.0031,  ...,  0.0777,  0.0719,  0.0671],
+        [-0.0979, -0.0862, -0.0670,  ..., -0.0196, -0.0401, -0.0217],
+        ...,
+        [-0.1140, -0.1252, -0.1133,  ..., -0.0261, -0.0208, -0.0177],
+        [ 0.0929,  0.0775,  0.0897,  ..., -0.0623, -0.0635, -0.0677],
+        [ 0.1182,  0.1143,  0.1121,  ..., -0.0200, -0.0035, -0.0114]],
+       device='cuda:0'), grad: tensor([[ 9.1476e-03,  1.8797e-03,  1.8406e-03,  ...,  1.0586e-03,
+          1.4391e-03,  4.1246e-04],
+        [ 1.3053e-04,  6.8605e-05,  6.5565e-05,  ...,  1.1437e-05,
+          5.1707e-06,  7.7859e-06],
+        [ 2.1648e-03,  1.0929e-03,  1.0757e-03,  ...,  3.8409e-04,
+          3.5644e-04,  3.2783e-04],
+        ...,
+        [-1.2306e-02, -3.5172e-03, -3.4561e-03,  ..., -1.6203e-03,
+         -1.9550e-03, -8.9645e-04],
+        [ 1.3304e-04,  7.3731e-05,  7.3433e-05,  ...,  2.5064e-05,
+          2.3216e-05,  2.2411e-05],
+        [ 2.5415e-04,  1.3793e-04,  1.3709e-04,  ...,  4.6760e-05,
+          4.3452e-05,  4.1246e-05]], device='cuda:0')
+Epoch 64, bias, value: tensor([ 0.2775,  0.2428,  0.3198,  0.0799,  0.2592, -0.7022, -0.4681],
+       device='cuda:0'), grad: tensor([ 0.1433,  0.0004,  0.0081,  0.0012, -0.1543,  0.0004,  0.0008],
+       device='cuda:0')
+588
+0.0002447174185242325
+changing lr
+epoch 63, time 813.41, cls_loss 0.3044 cls_loss_mapping 0.0022 cls_loss_causal 0.2938 re_mapping 0.0056 re_causal 0.0079 /// teacc 95.98 lr 0.00018019
+Epoch 65, weight, value: tensor([[ 0.0671,  0.0855,  0.0622,  ..., -0.0101,  0.0046,  0.0074],
+        [ 0.0062,  0.0102, -0.0028,  ...,  0.0780,  0.0723,  0.0674],
+        [-0.0988, -0.0865, -0.0674,  ..., -0.0200, -0.0405, -0.0220],
+        ...,
+        [-0.1139, -0.1253, -0.1135,  ..., -0.0262, -0.0209, -0.0177],
+        [ 0.0928,  0.0774,  0.0896,  ..., -0.0622, -0.0634, -0.0676],
+        [ 0.1179,  0.1142,  0.1120,  ..., -0.0201, -0.0036, -0.0116]],
+       device='cuda:0'), grad: tensor([[ 0.0463,  0.0190,  0.0187,  ...,  0.0154,  0.0163,  0.0149],
+        [ 0.0134,  0.0065,  0.0062,  ...,  0.0083,  0.0084,  0.0083],
+        [ 0.0048,  0.0018,  0.0019,  ...,  0.0016,  0.0019,  0.0016],
+        ...,
+        [-0.0709, -0.0300, -0.0296,  ..., -0.0282, -0.0298, -0.0276],
+        [ 0.0004,  0.0001,  0.0002,  ...,  0.0001,  0.0002,  0.0001],
+        [ 0.0011,  0.0004,  0.0005,  ...,  0.0004,  0.0005,  0.0004]],
+       device='cuda:0')
+Epoch 65, bias, value: tensor([ 0.2773,  0.2454,  0.3171,  0.0797,  0.2603, -0.7020, -0.4689],
+       device='cuda:0'), grad: tensor([ 0.1946,  0.0831,  0.0513,  0.0456, -0.3970,  0.0065,  0.0159],
+       device='cuda:0')
+588
+0.0001801856965207339
+changing lr
+epoch 64, time 811.90, cls_loss 0.2994 cls_loss_mapping 0.0030 cls_loss_causal 0.2883 re_mapping 0.0055 re_causal 0.0079 /// teacc 95.73 lr 0.00012536
+Epoch 66, weight, value: tensor([[ 0.0668,  0.0855,  0.0622,  ..., -0.0102,  0.0045,  0.0074],
+        [ 0.0060,  0.0099, -0.0031,  ...,  0.0779,  0.0721,  0.0672],
+        [-0.0989, -0.0865, -0.0673,  ..., -0.0199, -0.0404, -0.0220],
+        ...,
+        [-0.1137, -0.1253, -0.1135,  ..., -0.0261, -0.0208, -0.0176],
+        [ 0.0927,  0.0774,  0.0896,  ..., -0.0622, -0.0634, -0.0676],
+        [ 0.1183,  0.1143,  0.1121,  ..., -0.0201, -0.0036, -0.0115]],
+       device='cuda:0'), grad: tensor([[ 4.7541e-04,  6.7949e-04,  6.4039e-04,  ...,  6.4433e-05,
+          4.0412e-04,  5.3501e-04],
+        [ 5.2023e-04,  4.9919e-06, -1.0923e-05,  ...,  8.9765e-05,
+          7.0296e-06, -2.7373e-05],
+        [ 8.3494e-04,  7.5996e-05,  5.0604e-05,  ...,  1.7369e-04,
+          8.2731e-05,  4.1604e-05],
+        ...,
+        [-2.6245e-03, -7.8583e-04, -6.8378e-04,  ..., -5.0306e-04,
+         -5.5313e-04, -5.5790e-04],
+        [ 1.0443e-04,  2.9542e-06,  5.0291e-08,  ...,  2.2247e-05,
+          6.8061e-06,  4.8429e-08],
+        [ 1.6153e-04,  4.5076e-06, -5.5879e-09,  ...,  3.4422e-05,
+          1.0572e-05,  1.4110e-07]], device='cuda:0')
+Epoch 66, bias, value: tensor([ 0.2760,  0.2441,  0.3163,  0.0790,  0.2636, -0.7034, -0.4666],
+       device='cuda:0'), grad: tensor([-0.1268,  0.0288,  0.0318,  0.0272,  0.0251,  0.0055,  0.0085],
+       device='cuda:0')
+588
+0.000125360439090882
+changing lr
+epoch 65, time 811.22, cls_loss 0.3234 cls_loss_mapping 0.0027 cls_loss_causal 0.3137 re_mapping 0.0056 re_causal 0.0079 /// teacc 96.48 lr 0.00008035
+Epoch 67, weight, value: tensor([[ 0.0668,  0.0854,  0.0621,  ..., -0.0102,  0.0044,  0.0073],
+        [ 0.0063,  0.0102, -0.0028,  ...,  0.0778,  0.0720,  0.0672],
+        [-0.0990, -0.0865, -0.0674,  ..., -0.0199, -0.0404, -0.0220],
+        ...,
+        [-0.1138, -0.1254, -0.1135,  ..., -0.0260, -0.0207, -0.0175],
+        [ 0.0927,  0.0774,  0.0896,  ..., -0.0622, -0.0634, -0.0675],
+        [ 0.1182,  0.1142,  0.1120,  ..., -0.0199, -0.0034, -0.0114]],
+       device='cuda:0'), grad: tensor([[ 5.1651e-03,  8.2159e-04,  8.1587e-04,  ...,  2.2733e-04,
+          5.0354e-04,  2.4843e-04],
+        [ 1.0195e-03,  2.3425e-04,  2.4009e-04,  ...,  3.2216e-05,
+          8.7678e-05,  4.3690e-05],
+        [ 1.2909e-02,  5.3444e-03,  5.3215e-03,  ...,  1.4906e-03,
+          1.6270e-03,  1.3847e-03],
+        ...,
+        [-8.2855e-03, -4.7863e-05, -5.4121e-05,  ...,  1.1362e-05,
+         -6.6710e-04, -1.0157e-04],
+        [ 5.3215e-04,  6.9261e-05,  6.8963e-05,  ...,  1.9222e-05,
+          5.0515e-05,  2.2292e-05],
+        [-1.5961e-02, -7.9956e-03, -7.9651e-03,  ..., -2.2316e-03,
+         -2.1648e-03, -2.0313e-03]], device='cuda:0')
+Epoch 67, bias, value: tensor([ 0.2765,  0.2430,  0.3170,  0.0790,  0.2651, -0.7040, -0.4677],
+       device='cuda:0'), grad: tensor([ 0.0486,  0.0081,  0.0485,  0.0251, -0.1063,  0.0053, -0.0293],
+       device='cuda:0')
+588
+8.03520570068517e-05
+changing lr
+epoch 66, time 813.37, cls_loss 0.3088 cls_loss_mapping 0.0022 cls_loss_causal 0.3037 re_mapping 0.0056 re_causal 0.0079 /// teacc 96.48 lr 0.00004525
+Epoch 68, weight, value: tensor([[ 0.0666,  0.0854,  0.0620,  ..., -0.0102,  0.0044,  0.0073],
+        [ 0.0063,  0.0101, -0.0029,  ...,  0.0778,  0.0720,  0.0672],
+        [-0.0985, -0.0863, -0.0672,  ..., -0.0198, -0.0403, -0.0219],
+        ...,
+        [-0.1138, -0.1253, -0.1135,  ..., -0.0261, -0.0208, -0.0176],
+        [ 0.0926,  0.0773,  0.0896,  ..., -0.0622, -0.0634, -0.0675],
+        [ 0.1182,  0.1142,  0.1120,  ..., -0.0199, -0.0034, -0.0114]],
+       device='cuda:0'), grad: tensor([[ 1.5087e-03,  2.3210e-04,  1.5587e-05,  ...,  1.0377e-04,
+          6.0350e-05,  1.2808e-05],
+        [ 1.1330e-03,  1.6224e-04, -6.4597e-06,  ...,  5.9634e-05,
+          2.6703e-05, -9.9242e-06],
+        [ 4.9543e-04, -2.0540e-04, -3.9887e-04,  ..., -1.4758e-04,
+         -1.8978e-04, -2.1601e-04],
+        ...,
+        [-4.9362e-03, -4.6110e-04,  3.7861e-04,  ..., -1.3328e-04,
+          3.7462e-05,  2.0480e-04],
+        [ 2.2531e-04,  3.3200e-05,  1.5926e-07,  ...,  1.3858e-05,
+          7.2643e-06,  8.7311e-08],
+        [ 4.3416e-04,  6.5327e-05,  2.2929e-06,  ...,  2.7537e-05,
+          1.4983e-05,  1.1967e-06]], device='cuda:0')
+Epoch 68, bias, value: tensor([ 0.2756,  0.2430,  0.3182,  0.0788,  0.2652, -0.7048, -0.4671],
+       device='cuda:0'), grad: tensor([ 0.0346,  0.0269,  0.0299,  0.0263, -0.1331,  0.0053,  0.0101],
+       device='cuda:0')
+588
+4.5251191160326525e-05
+changing lr
+epoch 67, time 812.69, cls_loss 0.3343 cls_loss_mapping 0.0029 cls_loss_causal 0.3240 re_mapping 0.0056 re_causal 0.0080 /// teacc 96.48 lr 0.00002013
+Epoch 69, weight, value: tensor([[ 0.0668,  0.0856,  0.0623,  ..., -0.0101,  0.0045,  0.0075],
+        [ 0.0058,  0.0098, -0.0032,  ...,  0.0777,  0.0719,  0.0671],
+        [-0.0985, -0.0862, -0.0671,  ..., -0.0198, -0.0402, -0.0218],
+        ...,
+        [-0.1139, -0.1254, -0.1136,  ..., -0.0262, -0.0209, -0.0177],
+        [ 0.0926,  0.0774,  0.0896,  ..., -0.0621, -0.0633, -0.0675],
+        [ 0.1181,  0.1141,  0.1119,  ..., -0.0199, -0.0034, -0.0114]],
+       device='cuda:0'), grad: tensor([[ 6.0768e-03,  1.9045e-03,  1.9608e-03,  ...,  2.0332e-03,
+          2.1954e-03,  1.7233e-03],
+        [ 1.1671e-04, -1.7750e-04, -2.9898e-04,  ...,  4.2409e-05,
+         -1.3578e-04, -2.0695e-04],
+        [ 8.9216e-04,  1.1921e-04,  2.7761e-05,  ...,  3.5238e-04,
+          2.5082e-04,  8.0287e-05],
+        ...,
+        [-8.2321e-03, -2.0065e-03, -1.7357e-03,  ..., -2.8667e-03,
+         -2.6245e-03, -1.6937e-03],
+        [ 1.2910e-04,  1.5348e-05,  1.2238e-06,  ...,  5.0843e-05,
+          3.5375e-05,  9.8348e-06],
+        [ 2.3711e-04,  3.1203e-05,  6.6347e-06,  ...,  9.2149e-05,
+          6.5267e-05,  1.9729e-05]], device='cuda:0')
+Epoch 69, bias, value: tensor([ 0.2744,  0.2430,  0.3184,  0.0794,  0.2654, -0.7045, -0.4672],
+       device='cuda:0'), grad: tensor([ 0.0456,  0.0287,  0.0327,  0.0271, -0.1478,  0.0049,  0.0087],
+       device='cuda:0')
+588
+2.0128530023804673e-05
+changing lr
+epoch 68, time 808.66, cls_loss 0.2759 cls_loss_mapping 0.0025 cls_loss_causal 0.2699 re_mapping 0.0055 re_causal 0.0077 /// teacc 96.73 lr 0.00000503
+Epoch 70, weight, value: tensor([[ 0.0669,  0.0856,  0.0623,  ..., -0.0101,  0.0046,  0.0075],
+        [ 0.0060,  0.0099, -0.0031,  ...,  0.0777,  0.0719,  0.0671],
+        [-0.0984, -0.0862, -0.0671,  ..., -0.0198, -0.0403, -0.0218],
+        ...,
+        [-0.1139, -0.1254, -0.1136,  ..., -0.0262, -0.0209, -0.0177],
+        [ 0.0926,  0.0774,  0.0896,  ..., -0.0621, -0.0633, -0.0675],
+        [ 0.1181,  0.1141,  0.1119,  ..., -0.0200, -0.0034, -0.0114]],
+       device='cuda:0'), grad: tensor([[-1.4009e-03, -1.1587e-03, -1.1435e-03,  ..., -4.1723e-04,
+         -3.9959e-04, -4.2439e-04],
+        [ 1.1854e-03,  8.9598e-04,  8.8167e-04,  ...,  3.2306e-04,
+          3.0875e-04,  3.3069e-04],
+        [ 1.4031e-04,  2.5123e-05,  2.6003e-05,  ...,  2.7180e-05,
+          2.7508e-05,  2.6613e-05],
+        ...,
+        [-2.4557e-04,  2.2009e-05,  2.3082e-05,  ..., -3.8624e-05,
+         -3.9726e-05, -3.9577e-05],
+        [ 5.9456e-06,  1.1669e-06,  1.1623e-06,  ...,  1.1846e-06,
+          1.1865e-06,  1.1865e-06],
+        [ 2.2900e-04,  1.5879e-04,  1.5628e-04,  ...,  6.4135e-05,
+          6.1870e-05,  6.5386e-05]], device='cuda:0')
+Epoch 70, bias, value: tensor([ 0.2745,  0.2437,  0.3183,  0.0793,  0.2653, -0.7047, -0.4675],
+       device='cuda:0'), grad: tensor([-1.7109e-03,  2.2640e-03,  7.0667e-04,  1.7953e-04, -1.9913e-03,
+         3.2127e-05,  5.2023e-04], device='cuda:0')
+588
+5.034667293427056e-06
+changing lr
+epoch 69, time 806.35, cls_loss 0.3302 cls_loss_mapping 0.0024 cls_loss_causal 0.3193 re_mapping 0.0055 re_causal 0.0079 /// teacc 95.48 lr 0.00000000
+---------------------saving last model at epoch 69----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_SGD', 'source_domain': 'sketch', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_SGD/sketch_16factor_best_test_check.csv', 'factor_num': 16, 'epoch': 'best', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of best
+randm: False
+stride: 5
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+columns: ['sketch', 'art_painting', 'cartoon', 'photo']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+                        sketch  art_painting    cartoon      photo        Avg
+w/o do (original x)  99.720031     49.755859  65.230375  49.820359  54.935531
+       sketch  art_painting    cartoon      photo       Avg
+do  99.669127     49.023438  65.784983  49.820359  54.87626
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_SGD', 'source_domain': 'sketch', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_SGD/sketch_16factor_last_test_check.csv', 'factor_num': 16, 'epoch': 'last', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of last
+randm: False
+stride: 5
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+columns: ['sketch', 'art_painting', 'cartoon', 'photo']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+                        sketch  art_painting    cartoon      photo        Avg
+w/o do (original x)  99.541868     52.880859  65.870307  55.149701  57.966956
+       sketch  art_painting    cartoon      photo        Avg
+do  99.541868     52.392578  67.278157  54.251497  57.974077
diff --git a/Meta-causal/code-withStyleAttack/73085.error b/Meta-causal/code-withStyleAttack/73085.error
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/Meta-causal/code-withStyleAttack/73085.log b/Meta-causal/code-withStyleAttack/73085.log
new file mode 100644
index 0000000000000000000000000000000000000000..e7c7bdf64d083c0ffdcc662bf58bafaf295ef693
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73085.log
@@ -0,0 +1,1803 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'art_painting', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 5, 'factor_num': 16, 'epochs': 70, 'nbatch': 100, 'batchsize': 6, 'lr': 0.01, 'lr_scheduler': 'cosine', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_Adam', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 5
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_train.hdf5 torch.Size([1840, 3, 227, 227]) torch.Size([1840])
+--------------------------CA_multiple--------------------------
+---------------------------16 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_val.hdf5 torch.Size([208, 3, 227, 227]) torch.Size([208])
+-------------------------------------loading pretrain weights----------------------------------
+Epoch 1, weight, value: tensor([[ 2.1186e-02,  1.6419e-02,  1.2457e-02,  ...,  5.5803e-03,
+          1.5159e-02,  1.2632e-02],
+        [-2.1398e-02,  4.2950e-03,  4.7779e-03,  ...,  1.3491e-02,
+         -2.1913e-02, -9.9050e-05],
+        [-7.3949e-03,  1.0394e-02, -9.0278e-03,  ..., -9.0701e-03,
+         -1.1555e-02, -1.3428e-02],
+        ...,
+        [-2.0178e-02,  1.2083e-03,  1.1825e-02,  ..., -1.9401e-02,
+         -1.6830e-02, -1.5601e-03],
+        [ 1.0197e-02, -1.9406e-02, -1.3313e-03,  ..., -5.7602e-03,
+         -1.1001e-02,  1.7088e-02],
+        [ 2.0737e-02, -5.6321e-03, -2.1984e-02,  ...,  5.3071e-03,
+         -5.6659e-03,  1.7262e-02]], device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([ 0.0220,  0.0110,  0.0080, -0.0094,  0.0150,  0.0091,  0.0080],
+       device='cuda:0'), grad: None
+306
+0.01
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 416.53, cls_loss 6.6772 cls_loss_mapping 483.3768 cls_loss_causal 475.5605 re_mapping 7858.5462 re_causal 7489.0255 /// teacc 25.00 lr 0.00999497
+Epoch 2, weight, value: tensor([[ 0.1204,  0.1102,  0.1193,  ...,  0.0136,  0.0236,  0.0137],
+        [-0.0820, -0.0424, -0.0549,  ..., -0.0090, -0.0574, -0.0499],
+        [ 0.0437,  0.0556,  0.0616,  ...,  0.0235,  0.0357,  0.0319],
+        ...,
+        [-0.1300, -0.1183, -0.0998,  ..., -0.0095,  0.0387,  0.0457],
+        [ 0.0002, -0.0387, -0.0402,  ...,  0.0002, -0.0444,  0.0141],
+        [ 0.0473,  0.0316,  0.0007,  ...,  0.0043, -0.0303,  0.0246]],
+       device='cuda:0'), grad: tensor([[ 0.1521,  0.1870,  0.1266,  ...,  0.3379,  0.2235,  0.2925],
+        [ 0.0894,  0.1128,  0.0999,  ...,  0.1172,  0.1093,  0.0920],
+        [-0.1072, -0.1113, -0.1229,  ..., -0.0530, -0.0441, -0.0390],
+        ...,
+        [-0.1343, -0.1625, -0.1068,  ..., -0.2939, -0.1832, -0.2603],
+        [ 0.0017,  0.0027,  0.0016,  ...,  0.0053,  0.0047,  0.0043],
+        [-0.0019, -0.0289,  0.0015,  ..., -0.1135, -0.1102, -0.0894]],
+       device='cuda:0')
+Epoch 2, bias, value: tensor([ 0.0452,  0.0258,  0.0198, -0.0060,  0.0245,  0.0208,  0.0275],
+       device='cuda:0'), grad: tensor([ 2.1204e-01,  1.5564e-01, -8.9478e-02,  1.6809e-05, -1.6663e-01,
+         5.6381e-03, -1.1731e-01], device='cuda:0')
+306
+0.009994965332706574
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 419.95, cls_loss 2.5217 cls_loss_mapping 1.9989 cls_loss_causal 1.9769 re_mapping 0.7791 re_causal 0.7781 /// teacc 40.87 lr 0.00997987
+Epoch 3, weight, value: tensor([[ 0.1283,  0.1386,  0.1210,  ...,  0.0128,  0.0410,  0.0214],
+        [-0.0751, -0.0204, -0.0319,  ..., -0.0075, -0.0368, -0.0469],
+        [ 0.0339,  0.0056,  0.0605,  ...,  0.0713,  0.0450,  0.0626],
+        ...,
+        [-0.1596, -0.1540, -0.0943,  ..., -0.0119,  0.0756,  0.0838],
+        [ 0.0308, -0.0163, -0.0006,  ...,  0.0012, -0.0840, -0.0007],
+        [ 0.0215,  0.0232, -0.0395,  ..., -0.0483, -0.0807, -0.0186]],
+       device='cuda:0'), grad: tensor([[ 0.3447,  0.4060,  0.3740,  ...,  0.3577,  0.3118,  0.3469],
+        [-0.0494, -0.1034, -0.1014,  ..., -0.1660, -0.1013, -0.1759],
+        [-0.0046, -0.0089,  0.0459,  ..., -0.0184, -0.0041,  0.0108],
+        ...,
+        [-0.1787, -0.2209, -0.2063,  ..., -0.2810, -0.2664, -0.2734],
+        [ 0.1349,  0.2054,  0.1569,  ...,  0.2279,  0.1683,  0.2343],
+        [-0.0656, -0.0915, -0.1040,  ..., -0.0673, -0.0673, -0.0960]],
+       device='cuda:0')
+Epoch 3, bias, value: tensor([ 0.0486,  0.0330,  0.0235, -0.0094,  0.0271,  0.0127,  0.0263],
+       device='cuda:0'), grad: tensor([ 0.3521, -0.1666, -0.0597, -0.1665, -0.1638,  0.3708, -0.1661],
+       device='cuda:0')
+306
+0.009979871469976196
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 424.81, cls_loss 2.2521 cls_loss_mapping 2.0186 cls_loss_causal 2.0041 re_mapping 0.6192 re_causal 0.6190 /// teacc 55.29 lr 0.00995475
+Epoch 4, weight, value: tensor([[ 0.0898,  0.0991,  0.0999,  ..., -0.0607, -0.0692, -0.0515],
+        [-0.0454, -0.0018, -0.0234,  ..., -0.0502, -0.0943, -0.1088],
+        [ 0.0435,  0.0137,  0.0478,  ...,  0.1375,  0.1051,  0.1175],
+        ...,
+        [-0.1840, -0.1512, -0.1031,  ..., -0.0140,  0.0400,  0.0466],
+        [ 0.0194, -0.0237,  0.0288,  ...,  0.0212, -0.0552,  0.0343],
+        [ 0.0786,  0.0633,  0.0164,  ..., -0.0637, -0.0540, -0.0018]],
+       device='cuda:0'), grad: tensor([[ 1.3771e-03,  1.9217e-03,  1.6241e-03,  ...,  1.1454e-03,
+          6.3658e-04,  7.1859e-04],
+        [ 1.1090e-01,  1.4502e-01,  1.3745e-01,  ...,  4.9438e-02,
+          6.8909e-02,  1.6174e-01],
+        [-1.0577e-01, -1.8799e-01, -1.2659e-01,  ..., -1.8591e-01,
+         -1.3184e-01, -1.9641e-01],
+        ...,
+        [-9.9365e-02, -1.6455e-01, -8.0261e-02,  ...,  1.1517e-01,
+          1.1639e-01,  4.4678e-02],
+        [ 7.0333e-06,  1.0133e-05,  6.7949e-06,  ...,  4.1366e-05,
+          3.0279e-05,  2.1935e-05],
+        [ 9.2896e-02,  2.0557e-01,  6.7749e-02,  ...,  2.0004e-02,
+         -5.4199e-02, -1.0849e-02]], device='cuda:0')
+Epoch 4, bias, value: tensor([0.0336, 0.0457, 0.0054, 0.0032, 0.0433, 0.0043, 0.0354],
+       device='cuda:0'), grad: tensor([ 3.5172e-03,  8.2764e-02, -3.3325e-01,  9.5367e-07, -3.7384e-03,
+         4.2915e-05,  2.5049e-01], device='cuda:0')
+306
+0.009954748808839675
+changing lr
+epoch 3, time 419.47, cls_loss 2.0987 cls_loss_mapping 2.0704 cls_loss_causal 2.0536 re_mapping 0.4791 re_causal 0.4795 /// teacc 55.29 lr 0.00991965
+Epoch 5, weight, value: tensor([[ 0.0752,  0.1039,  0.0810,  ..., -0.0724, -0.1225, -0.0842],
+        [-0.0351, -0.0217, -0.0676,  ..., -0.0691, -0.0811, -0.1278],
+        [-0.0261, -0.0417, -0.0111,  ...,  0.1176,  0.0544,  0.0951],
+        ...,
+        [-0.1618, -0.1419, -0.0538,  ...,  0.0166,  0.0757,  0.0871],
+        [ 0.0352,  0.0005,  0.0474,  ...,  0.0193, -0.0611,  0.0331],
+        [ 0.1049,  0.0827,  0.0423,  ..., -0.0221,  0.0180,  0.0584]],
+       device='cuda:0'), grad: tensor([[ 2.6709e-01,  2.9932e-01,  2.5586e-01,  ...,  2.7173e-01,
+          1.3159e-01,  1.6748e-01],
+        [ 5.4291e-02,  4.9652e-02,  6.0120e-02,  ...,  7.6355e-02,
+          3.1555e-02,  3.0197e-02],
+        [ 3.9177e-03, -9.2545e-03, -4.9591e-03,  ...,  4.2000e-03,
+          5.8960e-02,  4.0863e-02],
+        ...,
+        [ 2.7418e-06,  3.3379e-06,  3.2187e-06,  ...,  3.6955e-06,
+          3.0994e-06,  3.2187e-06],
+        [-6.8787e-02, -8.1604e-02, -7.5623e-02,  ..., -5.3009e-02,
+         -2.7100e-02, -4.6722e-02],
+        [-2.5708e-01, -2.5879e-01, -2.3596e-01,  ..., -2.9980e-01,
+         -1.9531e-01, -1.9226e-01]], device='cuda:0')
+Epoch 5, bias, value: tensor([0.0179, 0.0222, 0.0127, 0.0103, 0.0432, 0.0117, 0.0546],
+       device='cuda:0'), grad: tensor([ 4.2871e-01,  8.1360e-02, -1.4488e-02,  1.2875e-03,  5.8413e-06,
+        -1.6650e-01, -3.3057e-01], device='cuda:0')
+306
+0.009919647942993149
+changing lr
+epoch 4, time 421.59, cls_loss 1.8571 cls_loss_mapping 2.0606 cls_loss_causal 2.0496 re_mapping 0.3239 re_causal 0.3239 /// teacc 52.40 lr 0.00987464
+Epoch 6, weight, value: tensor([[ 0.0886,  0.0923,  0.1033,  ..., -0.1200, -0.1655, -0.1250],
+        [-0.1160, -0.0968, -0.1000,  ..., -0.0453, -0.0735, -0.1235],
+        [-0.0502, -0.0609, -0.0189,  ...,  0.1206,  0.0568,  0.0977],
+        ...,
+        [-0.1607, -0.1422, -0.0695,  ..., -0.0316,  0.0267,  0.0285],
+        [-0.0021, -0.0134,  0.0035,  ...,  0.0821, -0.0312,  0.0675],
+        [ 0.1646,  0.1662,  0.0793,  ...,  0.0004,  0.0604,  0.1105]],
+       device='cuda:0'), grad: tensor([[-0.0617, -0.0716, -0.0426,  ..., -0.0449, -0.0419, -0.0283],
+        [ 0.0059,  0.0042,  0.0041,  ...,  0.0031,  0.0025,  0.0019],
+        [ 0.0497,  0.0272,  0.0206,  ...,  0.0219,  0.0129,  0.0067],
+        ...,
+        [ 0.0186,  0.0132,  0.0130,  ...,  0.0098,  0.0078,  0.0059],
+        [-0.1959, -0.1393, -0.1367,  ..., -0.1034, -0.0816, -0.0616],
+        [ 0.1760,  0.1600,  0.1353,  ...,  0.1071,  0.0952,  0.0708]],
+       device='cuda:0')
+Epoch 6, bias, value: tensor([0.0089, 0.0344, 0.0175, 0.0197, 0.0430, 0.0064, 0.0506],
+       device='cuda:0'), grad: tensor([-0.1666,  0.0048,  0.0209,  0.0124,  0.0150, -0.1581,  0.2715],
+       device='cuda:0')
+306
+0.009874639560909117
+changing lr
+---------------------saving model at epoch 5----------------------------------------------------
+epoch 5, time 423.97, cls_loss 1.6801 cls_loss_mapping 2.0314 cls_loss_causal 2.0218 re_mapping 0.2135 re_causal 0.2133 /// teacc 70.67 lr 0.00981981
+Epoch 7, weight, value: tensor([[ 0.0809,  0.0855,  0.1045,  ..., -0.1254, -0.1394, -0.1153],
+        [-0.1024, -0.0691, -0.1119,  ..., -0.0569, -0.0719, -0.1189],
+        [-0.0690, -0.0874, -0.0447,  ...,  0.1016,  0.0402,  0.0736],
+        ...,
+        [-0.1182, -0.1175, -0.0343,  ..., -0.0044,  0.0254,  0.0353],
+        [ 0.0647,  0.0378,  0.0596,  ...,  0.0607, -0.0552,  0.0537],
+        [ 0.0987,  0.1189,  0.0280,  ...,  0.0325,  0.0733,  0.1326]],
+       device='cuda:0'), grad: tensor([[ 0.0051,  0.0054,  0.0044,  ...,  0.0040,  0.0042,  0.0044],
+        [-0.0556, -0.0258, -0.0318,  ..., -0.0817, -0.0488, -0.0299],
+        [ 0.0189,  0.0203,  0.0162,  ...,  0.0139,  0.0152,  0.0160],
+        ...,
+        [-0.1644, -0.1790, -0.1464,  ..., -0.0954, -0.1078, -0.1154],
+        [ 0.1459,  0.1102,  0.0941,  ...,  0.1158,  0.0966,  0.0717],
+        [ 0.0348,  0.0554,  0.0509,  ...,  0.0308,  0.0305,  0.0442]],
+       device='cuda:0')
+Epoch 7, bias, value: tensor([-0.0064,  0.0363,  0.0257,  0.0198,  0.0515,  0.0125,  0.0476],
+       device='cuda:0'), grad: tensor([ 0.0094, -0.1167,  0.0359,  0.0339, -0.3291,  0.2426,  0.1241],
+       device='cuda:0')
+306
+0.009819814303479266
+changing lr
+---------------------saving model at epoch 6----------------------------------------------------
+epoch 6, time 426.48, cls_loss 1.7013 cls_loss_mapping 2.0570 cls_loss_causal 2.0484 re_mapping 0.1629 re_causal 0.1628 /// teacc 77.40 lr 0.00975528
+Epoch 8, weight, value: tensor([[ 0.0557,  0.0605,  0.0850,  ..., -0.1115, -0.1287, -0.1043],
+        [-0.1003, -0.0807, -0.1405,  ..., -0.0736, -0.0770, -0.1282],
+        [-0.0571, -0.0762, -0.0164,  ...,  0.1079,  0.0378,  0.0763],
+        ...,
+        [-0.1672, -0.1392, -0.0597,  ...,  0.0025,  0.0537,  0.0591],
+        [ 0.0556,  0.0238,  0.0151,  ...,  0.0416, -0.0666,  0.0425],
+        [ 0.1620,  0.1728,  0.0950,  ...,  0.0295,  0.0498,  0.1181]],
+       device='cuda:0'), grad: tensor([[-1.5152e-02, -2.1606e-02, -1.1635e-02,  ..., -2.9602e-02,
+         -2.5162e-02, -2.4109e-02],
+        [ 1.7719e-03,  1.3742e-03,  1.3447e-03,  ...,  1.5326e-03,
+          1.3733e-03,  9.2936e-04],
+        [ 2.6321e-02,  1.1292e-02,  1.1002e-02,  ...,  3.5431e-02,
+          3.1143e-02,  1.7593e-02],
+        ...,
+        [ 5.7648e-02,  5.8197e-02,  5.7526e-02,  ...,  3.2440e-02,
+          2.9648e-02,  2.5345e-02],
+        [ 1.9789e-05,  1.9491e-05,  1.8835e-05,  ...,  4.3511e-06,
+          4.7088e-06,  4.2319e-06],
+        [-1.1346e-01, -6.5735e-02, -7.5867e-02,  ..., -9.3506e-02,
+         -8.4839e-02, -4.5319e-02]], device='cuda:0')
+Epoch 8, bias, value: tensor([ 0.0057,  0.0511,  0.0237,  0.0068,  0.0785, -0.0161,  0.0403],
+       device='cuda:0'), grad: tensor([-1.4441e-01,  6.3133e-03,  9.2468e-02,  1.1389e-01,  2.2632e-01,
+         2.5392e-05, -2.9468e-01], device='cuda:0')
+306
+0.009755282581475767
+changing lr
+epoch 7, time 421.32, cls_loss 1.5209 cls_loss_mapping 2.0467 cls_loss_causal 2.0371 re_mapping 0.1413 re_causal 0.1411 /// teacc 74.04 lr 0.00968117
+Epoch 9, weight, value: tensor([[ 0.0412,  0.0649,  0.0876,  ..., -0.1272, -0.1553, -0.1174],
+        [-0.1134, -0.0788, -0.1539,  ..., -0.0584, -0.0636, -0.1257],
+        [-0.0653, -0.0995, -0.0165,  ...,  0.1156,  0.0494,  0.0869],
+        ...,
+        [-0.1823, -0.1631, -0.0961,  ..., -0.0285,  0.0267,  0.0307],
+        [ 0.0658,  0.0260,  0.0386,  ...,  0.0416, -0.0760,  0.0269],
+        [ 0.2049,  0.2180,  0.1352,  ...,  0.0350,  0.0641,  0.1290]],
+       device='cuda:0'), grad: tensor([[-0.0166, -0.0180, -0.0349,  ..., -0.0239, -0.0180, -0.0227],
+        [ 0.0124,  0.0088,  0.0062,  ...,  0.0072,  0.0072,  0.0035],
+        [ 0.0145,  0.0095,  0.0106,  ...,  0.0046,  0.0043,  0.0022],
+        ...,
+        [ 0.1489,  0.1033,  0.0934,  ...,  0.0933,  0.0864,  0.0563],
+        [-0.3770, -0.2539, -0.2263,  ..., -0.1676, -0.1625, -0.0859],
+        [ 0.2178,  0.1503,  0.1510,  ...,  0.0864,  0.0825,  0.0465]],
+       device='cuda:0')
+Epoch 9, bias, value: tensor([ 0.0071,  0.0314,  0.0268, -0.0212,  0.0786,  0.0164,  0.0449],
+       device='cuda:0'), grad: tensor([-1.0986e-01,  2.5345e-02,  1.8921e-02,  2.6226e-04,  3.5718e-01,
+        -6.3916e-01,  3.4741e-01], device='cuda:0')
+306
+0.009681174353198686
+changing lr
+epoch 8, time 426.55, cls_loss 1.4370 cls_loss_mapping 2.0173 cls_loss_causal 2.0055 re_mapping 0.1250 re_causal 0.1248 /// teacc 75.48 lr 0.00959764
+Epoch 10, weight, value: tensor([[ 0.0448,  0.0823,  0.0838,  ..., -0.1007, -0.1443, -0.0942],
+        [-0.1344, -0.1038, -0.1809,  ..., -0.0573, -0.0653, -0.1183],
+        [-0.0384, -0.0817, -0.0119,  ...,  0.1150,  0.0452,  0.0781],
+        ...,
+        [-0.2179, -0.1949, -0.1312,  ..., -0.0138,  0.0596,  0.0521],
+        [ 0.0765,  0.0429,  0.0758,  ...,  0.0444, -0.0697,  0.0329],
+        [ 0.1947,  0.2083,  0.1374,  ..., -0.0007,  0.0377,  0.0934]],
+       device='cuda:0'), grad: tensor([[ 5.8044e-02,  3.2745e-02,  2.7344e-02,  ...,  3.0914e-02,
+          2.2446e-02,  1.5411e-02],
+        [ 9.8083e-02,  3.7384e-02,  3.3020e-02,  ...,  5.5664e-02,
+          3.6835e-02,  1.5526e-02],
+        [-2.0691e-01, -9.0637e-02, -6.9153e-02,  ..., -1.1816e-01,
+         -7.9529e-02, -4.6021e-02],
+        ...,
+        [ 4.8280e-06,  2.8014e-06,  2.0266e-06,  ...,  2.5630e-06,
+          1.8477e-06,  1.4901e-06],
+        [ 6.7253e-03,  2.9831e-03,  1.8511e-03,  ...,  4.0359e-03,
+          2.7771e-03,  1.9035e-03],
+        [ 5.0781e-02,  2.1957e-02,  1.2344e-02,  ...,  2.9709e-02,
+          2.0599e-02,  1.5930e-02]], device='cuda:0')
+Epoch 10, bias, value: tensor([0.0014, 0.0456, 0.0239, 0.0071, 0.0438, 0.0178, 0.0485],
+       device='cuda:0'), grad: tensor([ 9.6436e-02,  1.2219e-01, -3.5254e-01, -2.0157e-02,  1.1146e-05,
+         1.3641e-02,  1.4050e-01], device='cuda:0')
+306
+0.009597638862757255
+changing lr
+---------------------saving model at epoch 9----------------------------------------------------
+epoch 9, time 426.46, cls_loss 1.4421 cls_loss_mapping 2.0503 cls_loss_causal 2.0381 re_mapping 0.1108 re_causal 0.1105 /// teacc 79.81 lr 0.00950484
+Epoch 11, weight, value: tensor([[ 0.0285,  0.0658,  0.0816,  ..., -0.1049, -0.1381, -0.0963],
+        [-0.1577, -0.1074, -0.1821,  ..., -0.0664, -0.0765, -0.1208],
+        [-0.0192, -0.0683, -0.0073,  ...,  0.1250,  0.0612,  0.0930],
+        ...,
+        [-0.1890, -0.1798, -0.1086,  ..., -0.0019,  0.0710,  0.0626],
+        [ 0.0974,  0.0468,  0.0608,  ...,  0.0282, -0.0693,  0.0271],
+        [ 0.1881,  0.2057,  0.1322,  ...,  0.0032,  0.0294,  0.0881]],
+       device='cuda:0'), grad: tensor([[ 0.0880,  0.0406,  0.0294,  ...,  0.0414,  0.0239,  0.0127],
+        [ 0.0017,  0.0008,  0.0009,  ...,  0.0008,  0.0007,  0.0004],
+        [-0.0578, -0.0201, -0.0283,  ..., -0.0251, -0.0146, -0.0060],
+        ...,
+        [ 0.0168,  0.0064,  0.0078,  ...,  0.0074,  0.0043,  0.0019],
+        [ 0.0386,  0.0188,  0.0166,  ...,  0.0069,  0.0042,  0.0008],
+        [-0.1130, -0.0570, -0.0338,  ..., -0.0530, -0.0309, -0.0175]],
+       device='cuda:0')
+Epoch 11, bias, value: tensor([0.0129, 0.0522, 0.0021, 0.0099, 0.0754, 0.0293, 0.0205],
+       device='cuda:0'), grad: tensor([ 0.0987,  0.0037, -0.1172,  0.0485,  0.0305,  0.0312, -0.0955],
+       device='cuda:0')
+306
+0.009504844339512096
+changing lr
+epoch 10, time 423.82, cls_loss 1.3490 cls_loss_mapping 2.0159 cls_loss_causal 2.0011 re_mapping 0.1057 re_causal 0.1054 /// teacc 76.92 lr 0.00940298
+Epoch 12, weight, value: tensor([[ 0.0454,  0.0610,  0.0896,  ..., -0.1132, -0.1594, -0.1083],
+        [-0.1313, -0.0680, -0.1721,  ..., -0.0623, -0.0655, -0.1175],
+        [-0.0234, -0.0594, -0.0068,  ...,  0.1337,  0.0589,  0.0973],
+        ...,
+        [-0.2483, -0.2448, -0.1645,  ..., -0.0050,  0.0817,  0.0642],
+        [ 0.0769,  0.0333,  0.0541,  ...,  0.0100, -0.0937,  0.0059],
+        [ 0.1937,  0.2131,  0.1403,  ..., -0.0058,  0.0181,  0.0779]],
+       device='cuda:0'), grad: tensor([[-0.0090, -0.0013, -0.0044,  ...,  0.0010,  0.0002,  0.0041],
+        [ 0.0129,  0.0054,  0.0056,  ...,  0.0073,  0.0055,  0.0032],
+        [-0.1251, -0.0712, -0.0379,  ..., -0.1044, -0.0677, -0.0621],
+        ...,
+        [-0.0168, -0.0055, -0.0047,  ..., -0.0063, -0.0013,  0.0003],
+        [ 0.0040,  0.0035,  0.0057,  ...,  0.0081,  0.0102,  0.0114],
+        [ 0.0018, -0.0056, -0.0041,  ..., -0.0057, -0.0068, -0.0101]],
+       device='cuda:0')
+Epoch 12, bias, value: tensor([ 0.0253,  0.0379, -0.0091,  0.0042,  0.0927,  0.0314,  0.0202],
+       device='cuda:0'), grad: tensor([ 0.0251,  0.0173, -0.1475,  0.0786, -0.0303,  0.0905, -0.0338],
+       device='cuda:0')
+306
+0.009402977659283692
+changing lr
+epoch 11, time 421.12, cls_loss 1.3364 cls_loss_mapping 2.0123 cls_loss_causal 1.9956 re_mapping 0.0994 re_causal 0.0991 /// teacc 76.44 lr 0.00929224
+Epoch 13, weight, value: tensor([[ 0.0752,  0.0931,  0.1195,  ..., -0.1330, -0.1820, -0.1426],
+        [-0.1401, -0.0877, -0.1798,  ..., -0.0558, -0.0591, -0.1143],
+        [-0.0392, -0.0719, -0.0376,  ...,  0.1470,  0.0719,  0.1125],
+        ...,
+        [-0.2488, -0.2381, -0.1673,  ...,  0.0090,  0.1200,  0.0900],
+        [ 0.0833,  0.0502,  0.0610,  ...,  0.0015, -0.1248, -0.0091],
+        [ 0.1829,  0.2017,  0.1352,  ..., -0.0015,  0.0251,  0.0943]],
+       device='cuda:0'), grad: tensor([[ 0.0197,  0.0164,  0.0194,  ...,  0.0042,  0.0041,  0.0048],
+        [ 0.0020,  0.0010,  0.0008,  ...,  0.0009,  0.0006,  0.0005],
+        [ 0.0287,  0.0203,  0.0218,  ...,  0.0487,  0.0442,  0.0300],
+        ...,
+        [-0.0274, -0.0198, -0.0218,  ..., -0.0512, -0.0468, -0.0314],
+        [ 0.0442,  0.0289,  0.0287,  ...,  0.0140,  0.0089,  0.0109],
+        [-0.0967, -0.0619, -0.0592,  ..., -0.0308, -0.0179, -0.0238]],
+       device='cuda:0')
+Epoch 13, bias, value: tensor([ 0.0098,  0.0526, -0.0264,  0.0034,  0.0936,  0.0466,  0.0274],
+       device='cuda:0'), grad: tensor([ 0.0459,  0.0036,  0.1603,  0.0703, -0.1649,  0.0956, -0.2108],
+       device='cuda:0')
+306
+0.009292243968009333
+changing lr
+---------------------saving model at epoch 12----------------------------------------------------
+epoch 12, time 428.30, cls_loss 1.2273 cls_loss_mapping 1.9962 cls_loss_causal 1.9784 re_mapping 0.0952 re_causal 0.0950 /// teacc 80.77 lr 0.00917287
+Epoch 14, weight, value: tensor([[ 0.0936,  0.1144,  0.1401,  ..., -0.1404, -0.1865, -0.1621],
+        [-0.1323, -0.0873, -0.1533,  ..., -0.0706, -0.0660, -0.1294],
+        [-0.0543, -0.0799, -0.0462,  ...,  0.1576,  0.0866,  0.1248],
+        ...,
+        [-0.2669, -0.2559, -0.1897,  ..., -0.0091,  0.1026,  0.0653],
+        [ 0.0628,  0.0093,  0.0117,  ...,  0.0008, -0.1298, -0.0229],
+        [ 0.1979,  0.2248,  0.1426,  ...,  0.0084,  0.0236,  0.1122]],
+       device='cuda:0'), grad: tensor([[ 0.0215,  0.0191,  0.0190,  ...,  0.0150,  0.0045,  0.0110],
+        [ 0.2622,  0.1146,  0.0886,  ...,  0.1005,  0.0515,  0.0565],
+        [-0.1172, -0.0394, -0.0368,  ..., -0.0569, -0.0287, -0.0356],
+        ...,
+        [-0.0597, -0.0356, -0.0365,  ..., -0.0191, -0.0129, -0.0150],
+        [ 0.0031,  0.0013,  0.0016,  ...,  0.0014,  0.0008,  0.0010],
+        [-0.1110, -0.0603, -0.0362,  ..., -0.0412, -0.0154, -0.0183]],
+       device='cuda:0')
+Epoch 14, bias, value: tensor([ 0.0269,  0.0775,  0.0111, -0.0159,  0.0833,  0.0187,  0.0031],
+       device='cuda:0'), grad: tensor([ 0.0292,  0.4836, -0.3040,  0.0036, -0.0679,  0.0084, -0.1530],
+       device='cuda:0')
+306
+0.009172866268606516
+changing lr
+---------------------saving model at epoch 13----------------------------------------------------
+epoch 13, time 426.18, cls_loss 1.1844 cls_loss_mapping 2.0143 cls_loss_causal 1.9917 re_mapping 0.0935 re_causal 0.0933 /// teacc 82.21 lr 0.00904508
+Epoch 15, weight, value: tensor([[ 0.0752,  0.0948,  0.1089,  ..., -0.1479, -0.1826, -0.1570],
+        [-0.1139, -0.0695, -0.1118,  ..., -0.0831, -0.0898, -0.1468],
+        [-0.0547, -0.0782, -0.0503,  ...,  0.1522,  0.0716,  0.0990],
+        ...,
+        [-0.2680, -0.2687, -0.1968,  ...,  0.0344,  0.1599,  0.1330],
+        [ 0.0895,  0.0520,  0.0554,  ..., -0.0126, -0.1442, -0.0327],
+        [ 0.1919,  0.2155,  0.1301,  ...,  0.0187,  0.0298,  0.1225]],
+       device='cuda:0'), grad: tensor([[-2.2424e-01, -1.8335e-01, -1.7456e-01,  ..., -2.1103e-02,
+         -1.6251e-02, -1.9272e-02],
+        [-7.3669e-02, -1.4114e-02, -1.6342e-02,  ..., -4.1504e-02,
+         -2.1011e-02, -2.4567e-02],
+        [ 1.4076e-03,  3.1257e-04,  3.4070e-04,  ...,  6.9904e-04,
+          3.6740e-04,  4.2343e-04],
+        ...,
+        [ 2.9125e-03,  1.8382e-04,  3.8004e-04,  ...,  2.4567e-03,
+          1.1244e-03,  1.3504e-03],
+        [ 1.9714e-02,  5.5466e-03,  5.6725e-03,  ...,  7.0877e-03,
+          4.1313e-03,  4.7379e-03],
+        [ 2.7173e-01,  1.9080e-01,  1.8396e-01,  ...,  5.1544e-02,
+          3.1158e-02,  3.6804e-02]], device='cuda:0')
+Epoch 15, bias, value: tensor([ 0.0196,  0.0685, -0.0054, -0.0361,  0.0937,  0.0379,  0.0224],
+       device='cuda:0'), grad: tensor([-0.1443, -0.3257,  0.0058,  0.0081,  0.0164,  0.0717,  0.3682],
+       device='cuda:0')
+306
+0.00904508497187474
+changing lr
+---------------------saving model at epoch 14----------------------------------------------------
+epoch 14, time 424.95, cls_loss 1.1860 cls_loss_mapping 1.9898 cls_loss_causal 1.9665 re_mapping 0.0908 re_causal 0.0906 /// teacc 83.17 lr 0.00890916
+Epoch 16, weight, value: tensor([[ 0.0771,  0.0991,  0.1059,  ..., -0.1472, -0.1700, -0.1505],
+        [-0.0942, -0.0317, -0.0659,  ..., -0.0745, -0.0746, -0.1300],
+        [-0.0508, -0.0712, -0.0643,  ...,  0.1422,  0.0474,  0.0722],
+        ...,
+        [-0.2692, -0.2882, -0.2118,  ...,  0.0269,  0.1442,  0.1118],
+        [ 0.1104,  0.0661,  0.0773,  ..., -0.0423, -0.1784, -0.0704],
+        [ 0.1676,  0.1940,  0.1204,  ...,  0.0183,  0.0273,  0.1268]],
+       device='cuda:0'), grad: tensor([[ 0.0043, -0.0005, -0.0006,  ...,  0.0023,  0.0014,  0.0012],
+        [-0.0617, -0.0071, -0.0111,  ..., -0.0139, -0.0086, -0.0055],
+        [ 0.0971,  0.0208,  0.0244,  ...,  0.0258,  0.0180,  0.0120],
+        ...,
+        [ 0.0113,  0.0031,  0.0025,  ...,  0.0069,  0.0041,  0.0040],
+        [-0.0366, -0.0118, -0.0129,  ..., -0.0083, -0.0078, -0.0043],
+        [ 0.0002, -0.0047, -0.0005,  ..., -0.0151, -0.0081, -0.0103]],
+       device='cuda:0')
+Epoch 16, bias, value: tensor([ 0.0257,  0.0590, -0.0277, -0.0017,  0.1053,  0.0593, -0.0006],
+       device='cuda:0'), grad: tensor([ 0.0182, -0.1610,  0.2264, -0.0267,  0.0403, -0.0547, -0.0427],
+       device='cuda:0')
+306
+0.008909157412340152
+changing lr
+epoch 15, time 420.23, cls_loss 2.0114 cls_loss_mapping 6.6214 cls_loss_causal 5.0828 re_mapping 5.7387 re_causal 0.3592 /// teacc 20.19 lr 0.00876536
+Epoch 17, weight, value: tensor([[ 0.0764,  0.1052,  0.1222,  ..., -0.1752, -0.1822, -0.1675],
+        [-0.0885, -0.0480, -0.0951,  ..., -0.0786, -0.0695, -0.1434],
+        [-0.0530, -0.0862, -0.0823,  ...,  0.1477,  0.0507,  0.0819],
+        ...,
+        [-0.2669, -0.2752, -0.1888,  ...,  0.0315,  0.1429,  0.1156],
+        [ 0.0775,  0.0299,  0.0339,  ..., -0.0620, -0.2026, -0.1100],
+        [ 0.1733,  0.2068,  0.1515,  ...,  0.0388,  0.0543,  0.1469]],
+       device='cuda:0'), grad: tensor([[-0.0985, -0.0237, -0.0183,  ..., -0.0195, -0.0307, -0.0127],
+        [-0.0475, -0.0093, -0.0065,  ...,  0.0003, -0.0156,  0.0007],
+        [ 0.1979,  0.0418,  0.0300,  ...,  0.0290,  0.0679,  0.0212],
+        ...,
+        [-0.0542, -0.0105, -0.0084,  ..., -0.0042, -0.0204, -0.0047],
+        [ 0.0112,  0.0024,  0.0017,  ...,  0.0017,  0.0034,  0.0013],
+        [ 0.0337,  0.0071,  0.0052,  ...,  0.0042,  0.0108,  0.0033]],
+       device='cuda:0')
+Epoch 17, bias, value: tensor([ 0.0581,  0.0767, -0.0295,  0.0018,  0.0782,  0.0660, -0.0279],
+       device='cuda:0'), grad: tensor([-0.2947, -0.0615,  0.5244, -0.1548, -0.1417,  0.0341,  0.0941],
+       device='cuda:0')
+306
+0.00876535733001806
+changing lr
+epoch 16, time 422.91, cls_loss 2.1580 cls_loss_mapping 2.3718 cls_loss_causal 2.4272 re_mapping 0.0603 re_causal 0.0589 /// teacc 28.85 lr 0.00861397
+Epoch 18, weight, value: tensor([[ 0.0806,  0.1183,  0.1301,  ..., -0.1676, -0.1776, -0.1499],
+        [-0.0870, -0.0390, -0.0832,  ..., -0.0774, -0.0710, -0.1449],
+        [-0.0740, -0.1072, -0.1049,  ...,  0.1534,  0.0652,  0.0972],
+        ...,
+        [-0.2658, -0.2790, -0.2019,  ...,  0.0468,  0.1539,  0.1309],
+        [ 0.0802,  0.0201,  0.0454,  ..., -0.1084, -0.2516, -0.1794],
+        [ 0.1716,  0.2028,  0.1442,  ...,  0.0326,  0.0390,  0.1325]],
+       device='cuda:0'), grad: tensor([[-1.9751e-01, -4.4281e-02, -3.2379e-02,  ..., -2.7390e-02,
+         -5.1819e-02, -2.5085e-02],
+        [ 8.3847e-03,  1.9321e-03,  1.2388e-03,  ...,  1.5078e-03,
+          2.5673e-03,  1.5049e-03],
+        [-4.0466e-02, -9.4833e-03, -5.2872e-03,  ..., -9.3307e-03,
+         -1.5266e-02, -1.0803e-02],
+        ...,
+        [ 1.9440e-02,  4.4594e-03,  2.8954e-03,  ...,  3.5114e-03,
+          5.9853e-03,  3.4504e-03],
+        [-1.0347e-03, -8.5402e-04, -1.3173e-04,  ..., -5.6190e-03,
+         -5.1804e-03, -5.1537e-03],
+        [ 2.9278e-03,  4.2572e-03,  6.6910e-03,  ...,  4.3793e-03,
+          5.2338e-03,  4.3983e-03]], device='cuda:0')
+Epoch 18, bias, value: tensor([ 0.0343,  0.0590, -0.0151,  0.0221,  0.0795,  0.0738, -0.0211],
+       device='cuda:0'), grad: tensor([-0.4739,  0.0249, -0.1470,  0.5596,  0.0560, -0.0618,  0.0418],
+       device='cuda:0')
+306
+0.008613974319136962
+changing lr
+epoch 17, time 418.34, cls_loss 1.9864 cls_loss_mapping 2.1952 cls_loss_causal 2.1473 re_mapping 0.0551 re_causal 0.0546 /// teacc 41.35 lr 0.00845531
+Epoch 19, weight, value: tensor([[ 0.0942,  0.1356,  0.1549,  ..., -0.1679, -0.1632, -0.1430],
+        [-0.0784, -0.0343, -0.0905,  ..., -0.0710, -0.0703, -0.1435],
+        [-0.0664, -0.1059, -0.1037,  ...,  0.1540,  0.0714,  0.1021],
+        ...,
+        [-0.2842, -0.3082, -0.2222,  ...,  0.0384,  0.1502,  0.1206],
+        [ 0.0840,  0.0212,  0.0297,  ..., -0.1471, -0.3098, -0.2420],
+        [ 0.1609,  0.2022,  0.1405,  ...,  0.0325,  0.0348,  0.1313]],
+       device='cuda:0'), grad: tensor([[-0.0506, -0.0102, -0.0044,  ..., -0.0111, -0.0165, -0.0124],
+        [ 0.0981,  0.0190,  0.0121,  ...,  0.0135,  0.0235,  0.0131],
+        [ 0.1077,  0.0217,  0.0131,  ...,  0.0170,  0.0274,  0.0162],
+        ...,
+        [-0.0287, -0.0062, -0.0034,  ..., -0.0046, -0.0080, -0.0027],
+        [-0.0331, -0.0052, -0.0031,  ..., -0.0007, -0.0064, -0.0011],
+        [-0.1124, -0.0229, -0.0166,  ..., -0.0170, -0.0244, -0.0158]],
+       device='cuda:0')
+Epoch 19, bias, value: tensor([ 0.0359,  0.0726, -0.0029,  0.0254,  0.0720,  0.0640, -0.0308],
+       device='cuda:0'), grad: tensor([-0.2046,  0.2786,  0.2988,  0.0564, -0.0250, -0.0785, -0.3254],
+       device='cuda:0')
+306
+0.008455313244934327
+changing lr
+epoch 18, time 425.42, cls_loss 1.8463 cls_loss_mapping 2.1433 cls_loss_causal 2.0500 re_mapping 0.0524 re_causal 0.0517 /// teacc 58.65 lr 0.00828969
+Epoch 20, weight, value: tensor([[ 0.1000,  0.1482,  0.1714,  ..., -0.1569, -0.1496, -0.1277],
+        [-0.0888, -0.0448, -0.1162,  ..., -0.0638, -0.0703, -0.1411],
+        [-0.0718, -0.1013, -0.1022,  ...,  0.0997,  0.0068,  0.0349],
+        ...,
+        [-0.3012, -0.3412, -0.2573,  ...,  0.0403,  0.1632,  0.1362],
+        [ 0.0899,  0.0232,  0.0285,  ..., -0.1626, -0.3251, -0.2682],
+        [ 0.1746,  0.2056,  0.1473,  ...,  0.0494,  0.0506,  0.1441]],
+       device='cuda:0'), grad: tensor([[ 0.0558,  0.0121,  0.0093,  ...,  0.0102,  0.0108,  0.0094],
+        [ 0.0356,  0.0075,  0.0057,  ...,  0.0065,  0.0087,  0.0063],
+        [-0.1691, -0.0349, -0.0289,  ..., -0.0307, -0.0380, -0.0290],
+        ...,
+        [ 0.0429,  0.0078,  0.0056,  ...,  0.0070,  0.0101,  0.0072],
+        [ 0.0329,  0.0062,  0.0045,  ...,  0.0051,  0.0063,  0.0049],
+        [ 0.0545,  0.0132,  0.0121,  ...,  0.0087,  0.0087,  0.0075]],
+       device='cuda:0')
+Epoch 20, bias, value: tensor([ 0.0376,  0.0614,  0.0051,  0.0413,  0.0670,  0.0562, -0.0300],
+       device='cuda:0'), grad: tensor([ 0.1663,  0.1030, -0.4834, -0.1503,  0.1150,  0.0974,  0.1520],
+       device='cuda:0')
+306
+0.008289693629698565
+changing lr
+epoch 19, time 425.47, cls_loss 1.6393 cls_loss_mapping 2.1052 cls_loss_causal 1.9752 re_mapping 0.0545 re_causal 0.0539 /// teacc 73.08 lr 0.00811745
+Epoch 21, weight, value: tensor([[ 0.1009,  0.1555,  0.1748,  ..., -0.1856, -0.1787, -0.1657],
+        [-0.1003, -0.0749, -0.1490,  ..., -0.0456, -0.0649, -0.1253],
+        [-0.0679, -0.0981, -0.0938,  ...,  0.0973,  0.0178,  0.0403],
+        ...,
+        [-0.3055, -0.3594, -0.2892,  ...,  0.0499,  0.1744,  0.1433],
+        [ 0.0817,  0.0252,  0.0317,  ..., -0.1871, -0.3501, -0.2977],
+        [ 0.1815,  0.2169,  0.1625,  ...,  0.0566,  0.0523,  0.1547]],
+       device='cuda:0'), grad: tensor([[ 0.0008, -0.0011, -0.0010,  ...,  0.0010,  0.0013,  0.0011],
+        [ 0.0667,  0.0108,  0.0090,  ...,  0.0163,  0.0184,  0.0152],
+        [ 0.0404,  0.0059,  0.0050,  ...,  0.0092,  0.0104,  0.0085],
+        ...,
+        [-0.0382, -0.0026, -0.0021,  ..., -0.0060, -0.0077, -0.0055],
+        [-0.0578, -0.0085, -0.0082,  ..., -0.0126, -0.0126, -0.0113],
+        [-0.0267, -0.0063, -0.0044,  ..., -0.0108, -0.0130, -0.0106]],
+       device='cuda:0')
+Epoch 21, bias, value: tensor([ 0.0246,  0.0666,  0.0190,  0.0280,  0.0763,  0.0544, -0.0286],
+       device='cuda:0'), grad: tensor([ 0.0100,  0.1951,  0.1238,  0.0463, -0.1228, -0.1992, -0.0532],
+       device='cuda:0')
+306
+0.00811744900929367
+changing lr
+epoch 20, time 423.43, cls_loss 1.4401 cls_loss_mapping 2.1082 cls_loss_causal 1.9569 re_mapping 0.0581 re_causal 0.0572 /// teacc 80.77 lr 0.00793893
+Epoch 22, weight, value: tensor([[ 0.1193,  0.1655,  0.1870,  ..., -0.1953, -0.2041, -0.1829],
+        [-0.1022, -0.0695, -0.1630,  ..., -0.0489, -0.0559, -0.1202],
+        [-0.0802, -0.1095, -0.0859,  ...,  0.1092,  0.0443,  0.0631],
+        ...,
+        [-0.3206, -0.3800, -0.3060,  ...,  0.0422,  0.1586,  0.1379],
+        [ 0.0752,  0.0041,  0.0167,  ..., -0.1838, -0.3424, -0.3028],
+        [ 0.1841,  0.2234,  0.1580,  ...,  0.0582,  0.0479,  0.1513]],
+       device='cuda:0'), grad: tensor([[ 0.0148,  0.0033,  0.0037,  ...,  0.0063,  0.0075,  0.0061],
+        [ 0.0365,  0.0078,  0.0076,  ...,  0.0087,  0.0091,  0.0077],
+        [-0.0408, -0.0092, -0.0090,  ..., -0.0046, -0.0048, -0.0031],
+        ...,
+        [-0.0037, -0.0006, -0.0005,  ..., -0.0011, -0.0012, -0.0012],
+        [-0.0028, -0.0004, -0.0006,  ..., -0.0003, -0.0005, -0.0005],
+        [-0.0371, -0.0079, -0.0080,  ..., -0.0255, -0.0282, -0.0250]],
+       device='cuda:0')
+Epoch 22, bias, value: tensor([ 0.0297,  0.0811,  0.0141,  0.0332,  0.0565,  0.0472, -0.0247],
+       device='cuda:0'), grad: tensor([ 0.0267,  0.0987, -0.0962,  0.0861, -0.0110, -0.0083, -0.0961],
+       device='cuda:0')
+306
+0.007938926261462368
+changing lr
+epoch 21, time 426.20, cls_loss 1.3453 cls_loss_mapping 2.0724 cls_loss_causal 1.9066 re_mapping 0.0594 re_causal 0.0583 /// teacc 79.81 lr 0.00775448
+Epoch 23, weight, value: tensor([[ 0.1239,  0.1777,  0.1902,  ..., -0.2056, -0.2319, -0.1954],
+        [-0.1207, -0.0959, -0.2040,  ..., -0.0112, -0.0190, -0.0793],
+        [-0.0808, -0.1136, -0.0744,  ...,  0.0918,  0.0341,  0.0422],
+        ...,
+        [-0.3255, -0.3816, -0.3013,  ...,  0.0698,  0.2065,  0.1801],
+        [ 0.0766,  0.0035,  0.0091,  ..., -0.2242, -0.4061, -0.3646],
+        [ 0.1951,  0.2326,  0.1693,  ...,  0.0520,  0.0508,  0.1470]],
+       device='cuda:0'), grad: tensor([[ 0.0088, -0.0038, -0.0036,  ...,  0.0048,  0.0049,  0.0047],
+        [ 0.0011,  0.0003,  0.0002,  ...,  0.0002,  0.0002,  0.0002],
+        [ 0.0019,  0.0004,  0.0004,  ...,  0.0003,  0.0004,  0.0003],
+        ...,
+        [-0.0222, -0.0038, -0.0032,  ..., -0.0080, -0.0078, -0.0077],
+        [-0.0107, -0.0026, -0.0026,  ..., -0.0009, -0.0014, -0.0012],
+        [ 0.0118,  0.0074,  0.0072,  ...,  0.0020,  0.0020,  0.0020]],
+       device='cuda:0')
+Epoch 23, bias, value: tensor([ 0.0236,  0.0772,  0.0206,  0.0316,  0.0601,  0.0618, -0.0324],
+       device='cuda:0'), grad: tensor([ 0.0498,  0.0033,  0.0063,  0.0341, -0.0610, -0.0307, -0.0018],
+       device='cuda:0')
+306
+0.007754484907260515
+changing lr
+---------------------saving model at epoch 22----------------------------------------------------
+epoch 22, time 425.47, cls_loss 1.2845 cls_loss_mapping 2.0761 cls_loss_causal 1.8942 re_mapping 0.0594 re_causal 0.0584 /// teacc 83.65 lr 0.00756450
+Epoch 24, weight, value: tensor([[ 1.2183e-01,  1.8166e-01,  1.9106e-01,  ..., -2.1916e-01,
+         -2.3293e-01, -2.0434e-01],
+        [-1.2583e-01, -1.0318e-01, -2.2052e-01,  ..., -1.2080e-02,
+         -1.1338e-02, -7.7809e-02],
+        [-7.3881e-02, -1.0952e-01, -6.1405e-02,  ...,  1.0961e-01,
+          5.1012e-02,  6.4008e-02],
+        ...,
+        [-3.1443e-01, -3.5293e-01, -2.7235e-01,  ...,  5.9106e-02,
+          1.9056e-01,  1.7056e-01],
+        [ 7.6895e-02, -3.6337e-04, -5.3788e-03,  ..., -2.3740e-01,
+         -4.2694e-01, -3.8041e-01],
+        [ 1.9042e-01,  2.2623e-01,  1.7091e-01,  ...,  2.8594e-02,
+          2.4156e-02,  1.1490e-01]], device='cuda:0'), grad: tensor([[-0.0500, -0.0105, -0.0095,  ..., -0.0133, -0.0154, -0.0145],
+        [-0.0323, -0.0056, -0.0040,  ..., -0.0050, -0.0053, -0.0056],
+        [ 0.0373,  0.0100,  0.0089,  ...,  0.0043,  0.0051,  0.0033],
+        ...,
+        [ 0.0909,  0.0192,  0.0165,  ...,  0.0192,  0.0216,  0.0208],
+        [ 0.0002,  0.0036,  0.0025,  ..., -0.0007, -0.0019, -0.0007],
+        [-0.1300, -0.0392, -0.0369,  ..., -0.0510, -0.0524, -0.0493]],
+       device='cuda:0')
+Epoch 24, bias, value: tensor([ 0.0264,  0.0787,  0.0323,  0.0209,  0.0819,  0.0430, -0.0396],
+       device='cuda:0'), grad: tensor([-0.1038, -0.0850,  0.1251,  0.1705,  0.2103, -0.0375, -0.2795],
+       device='cuda:0')
+306
+0.007564496387029534
+changing lr
+epoch 23, time 423.08, cls_loss 1.2330 cls_loss_mapping 2.0771 cls_loss_causal 1.8287 re_mapping 0.0600 re_causal 0.0591 /// teacc 83.17 lr 0.00736934
+Epoch 25, weight, value: tensor([[ 0.1175,  0.1530,  0.1548,  ..., -0.2147, -0.2287, -0.2021],
+        [-0.1381, -0.1284, -0.2512,  ..., -0.0333, -0.0338, -0.0907],
+        [-0.0770, -0.1241, -0.0655,  ...,  0.1114,  0.0513,  0.0740],
+        ...,
+        [-0.2957, -0.3085, -0.2191,  ...,  0.0766,  0.2151,  0.1941],
+        [ 0.0787,  0.0202,  0.0105,  ..., -0.2643, -0.4509, -0.4136],
+        [ 0.1899,  0.2371,  0.1828,  ...,  0.0417,  0.0375,  0.1180]],
+       device='cuda:0'), grad: tensor([[-4.1016e-02, -8.7662e-03, -9.6054e-03,  ..., -1.2177e-02,
+         -1.2749e-02, -1.1955e-02],
+        [ 9.6588e-03,  1.2379e-03,  1.2970e-03,  ...,  2.3041e-03,
+          2.4128e-03,  2.1725e-03],
+        [-5.0415e-02, -9.6741e-03, -9.3002e-03,  ..., -1.6876e-02,
+         -1.5404e-02, -1.5244e-02],
+        ...,
+        [ 5.5328e-02,  9.5062e-03,  9.2773e-03,  ...,  1.6083e-02,
+          1.5991e-02,  1.4709e-02],
+        [ 6.7663e-04,  6.3896e-05,  7.9453e-05,  ...,  1.3709e-04,
+          1.4555e-04,  1.3697e-04],
+        [ 2.3544e-02,  7.2937e-03,  7.8888e-03,  ...,  9.9792e-03,
+          9.0179e-03,  9.6359e-03]], device='cuda:0')
+Epoch 25, bias, value: tensor([ 0.0413,  0.1065,  0.0201, -0.0134,  0.0794,  0.0359, -0.0363],
+       device='cuda:0'), grad: tensor([-0.1477,  0.0334, -0.1620,  0.0078,  0.1667,  0.0029,  0.0988],
+       device='cuda:0')
+306
+0.007369343312364995
+changing lr
+---------------------saving model at epoch 24----------------------------------------------------
+epoch 24, time 424.77, cls_loss 1.1770 cls_loss_mapping 2.0687 cls_loss_causal 1.8124 re_mapping 0.0612 re_causal 0.0600 /// teacc 85.58 lr 0.00716942
+Epoch 26, weight, value: tensor([[ 0.1276,  0.1748,  0.1757,  ..., -0.2190, -0.2370, -0.1945],
+        [-0.1214, -0.0733, -0.1959,  ..., -0.0323, -0.0469, -0.0967],
+        [-0.0820, -0.1219, -0.0770,  ...,  0.1013,  0.0417,  0.0667],
+        ...,
+        [-0.3083, -0.3301, -0.2355,  ...,  0.0413,  0.1791,  0.1588],
+        [ 0.0822,  0.0182,  0.0116,  ..., -0.2388, -0.4203, -0.3835],
+        [ 0.1743,  0.1893,  0.1374,  ...,  0.0531,  0.0496,  0.1174]],
+       device='cuda:0'), grad: tensor([[ 0.0448,  0.0052,  0.0058,  ...,  0.0041,  0.0038,  0.0053],
+        [ 0.0052,  0.0006,  0.0008,  ...,  0.0008,  0.0008,  0.0007],
+        [-0.0757, -0.0064, -0.0094,  ..., -0.0067, -0.0083, -0.0084],
+        ...,
+        [ 0.0078,  0.0008,  0.0012,  ...,  0.0013,  0.0012,  0.0010],
+        [ 0.0127,  0.0011,  0.0016,  ...,  0.0012,  0.0014,  0.0014],
+        [-0.0111, -0.0031, -0.0025,  ..., -0.0030, -0.0017, -0.0026]],
+       device='cuda:0')
+Epoch 26, bias, value: tensor([ 0.0474,  0.0904,  0.0141,  0.0111,  0.0774,  0.0402, -0.0414],
+       device='cuda:0'), grad: tensor([ 0.1300,  0.0179, -0.2295,  0.0427,  0.0270,  0.0398, -0.0278],
+       device='cuda:0')
+306
+0.0071694186955877925
+changing lr
+epoch 25, time 424.00, cls_loss 1.2176 cls_loss_mapping 2.0704 cls_loss_causal 1.8208 re_mapping 0.0610 re_causal 0.0598 /// teacc 83.65 lr 0.00696513
+Epoch 27, weight, value: tensor([[ 0.1355,  0.2236,  0.2274,  ..., -0.2236, -0.2343, -0.1964],
+        [-0.1184, -0.0874, -0.2192,  ...,  0.0183,  0.0165, -0.0421],
+        [-0.0739, -0.1184, -0.0566,  ...,  0.0663,  0.0074,  0.0322],
+        ...,
+        [-0.3159, -0.3781, -0.2997,  ...,  0.0622,  0.1958,  0.1667],
+        [ 0.0744,  0.0207,  0.0211,  ..., -0.2835, -0.4737, -0.4249],
+        [ 0.1719,  0.1826,  0.1219,  ...,  0.0572,  0.0453,  0.1205]],
+       device='cuda:0'), grad: tensor([[ 7.7271e-02,  1.5373e-02,  1.6861e-02,  ...,  1.3077e-02,
+          1.2703e-02,  1.2650e-02],
+        [ 2.1652e-02,  6.4087e-03,  5.7373e-03,  ...,  8.3313e-03,
+          7.7667e-03,  8.0338e-03],
+        [-1.7017e-01, -3.6713e-02, -3.8116e-02,  ..., -3.5706e-02,
+         -3.9062e-02, -3.5461e-02],
+        ...,
+        [ 1.4084e-02,  2.5024e-03,  3.3188e-03,  ..., -8.9169e-05,
+          2.9898e-04,  2.7251e-04],
+        [ 1.2970e-03,  8.5294e-05,  1.4520e-04,  ...,  1.9467e-04,
+          2.3890e-04,  2.0528e-04],
+        [ 9.4849e-02,  1.4114e-02,  1.5175e-02,  ...,  2.1545e-02,
+          2.6215e-02,  2.1027e-02]], device='cuda:0')
+Epoch 27, bias, value: tensor([ 0.0449,  0.0959,  0.0330,  0.0077,  0.0845,  0.0213, -0.0466],
+       device='cuda:0'), grad: tensor([ 0.1774,  0.0321, -0.4141, -0.1172,  0.0366,  0.0049,  0.2803],
+       device='cuda:0')
+306
+0.0069651251582696205
+changing lr
+epoch 26, time 424.22, cls_loss 1.1569 cls_loss_mapping 2.0724 cls_loss_causal 1.7986 re_mapping 0.0612 re_causal 0.0603 /// teacc 77.88 lr 0.00675687
+Epoch 28, weight, value: tensor([[ 0.1524,  0.2280,  0.2359,  ..., -0.2144, -0.2288, -0.2016],
+        [-0.1245, -0.0652, -0.1919,  ...,  0.0075,  0.0210, -0.0259],
+        [-0.0717, -0.1225, -0.0416,  ...,  0.0620, -0.0018,  0.0410],
+        ...,
+        [-0.3252, -0.3782, -0.3200,  ...,  0.0855,  0.2187,  0.1949],
+        [ 0.0736, -0.0203, -0.0182,  ..., -0.3075, -0.4967, -0.4598],
+        [ 0.1748,  0.1925,  0.1244,  ...,  0.0665,  0.0517,  0.1270]],
+       device='cuda:0'), grad: tensor([[ 5.1056e-02,  4.8637e-03,  5.0888e-03,  ...,  1.1742e-02,
+          1.3000e-02,  1.4084e-02],
+        [ 7.8106e-04,  6.7174e-05,  6.9678e-05,  ...,  1.7560e-04,
+          1.9443e-04,  2.1195e-04],
+        [ 7.6981e-03,  6.2180e-04,  6.5517e-04,  ...,  1.7309e-03,
+          1.9255e-03,  2.0962e-03],
+        ...,
+        [ 7.3671e-04,  7.6234e-05,  8.0228e-05,  ...,  1.8084e-04,
+          1.9825e-04,  2.1458e-04],
+        [ 4.8518e-05, -1.3784e-06,  1.0729e-06,  ...,  1.4849e-05,
+          1.7002e-05,  1.8567e-05],
+        [ 8.0338e-03,  7.4863e-04,  7.8297e-04,  ...,  1.8377e-03,
+          2.0370e-03,  2.2087e-03]], device='cuda:0')
+Epoch 28, bias, value: tensor([ 0.0593,  0.0793,  0.0381,  0.0003,  0.0748,  0.0145, -0.0364],
+       device='cuda:0'), grad: tensor([ 1.2732e-01,  1.9369e-03,  1.9257e-02, -1.7053e-01,  1.8463e-03,
+         1.1688e-04,  2.0035e-02], device='cuda:0')
+306
+0.006756874120406716
+changing lr
+---------------------saving model at epoch 27----------------------------------------------------
+epoch 27, time 426.95, cls_loss 1.0739 cls_loss_mapping 2.0399 cls_loss_causal 1.7540 re_mapping 0.0612 re_causal 0.0600 /// teacc 86.54 lr 0.00654508
+Epoch 29, weight, value: tensor([[ 0.1546,  0.2502,  0.2509,  ..., -0.2428, -0.2563, -0.2339],
+        [-0.1104, -0.0397, -0.1765,  ...,  0.0541,  0.0396,  0.0096],
+        [-0.0753, -0.1434, -0.0765,  ...,  0.0934,  0.0295,  0.0688],
+        ...,
+        [-0.3265, -0.3835, -0.2878,  ...,  0.0647,  0.2094,  0.1706],
+        [ 0.0769,  0.0169,  0.0103,  ..., -0.3036, -0.5001, -0.4502],
+        [ 0.1601,  0.1523,  0.0934,  ...,  0.0662,  0.0604,  0.1368]],
+       device='cuda:0'), grad: tensor([[ 4.0802e-02,  8.4763e-03,  8.5373e-03,  ...,  5.1041e-03,
+          4.2953e-03,  4.7112e-03],
+        [ 3.3455e-03,  1.3514e-03,  1.1921e-03,  ...,  7.8619e-05,
+         -3.9518e-05,  2.2128e-05],
+        [ 8.2153e-02,  1.8524e-02,  1.8051e-02,  ...,  1.0620e-02,
+          8.7051e-03,  9.5749e-03],
+        ...,
+        [ 9.9792e-03,  2.1496e-03,  2.1915e-03,  ...,  1.4153e-03,
+          1.2245e-03,  1.3056e-03],
+        [ 6.3057e-03,  1.4286e-03,  1.3981e-03,  ...,  1.0052e-03,
+          8.7929e-04,  9.0981e-04],
+        [-9.3750e-02, -2.2141e-02, -1.9806e-02,  ..., -1.1429e-02,
+         -9.1248e-03, -9.8877e-03]], device='cuda:0')
+Epoch 29, bias, value: tensor([ 0.0474,  0.1018,  0.0267,  0.0047,  0.0785,  0.0024, -0.0275],
+       device='cuda:0'), grad: tensor([ 0.1115,  0.0086,  0.2163, -0.1503,  0.0271,  0.0162, -0.2295],
+       device='cuda:0')
+306
+0.00654508497187474
+changing lr
+epoch 28, time 422.10, cls_loss 1.1059 cls_loss_mapping 2.0581 cls_loss_causal 1.7194 re_mapping 0.0604 re_causal 0.0585 /// teacc 84.62 lr 0.00633018
+Epoch 30, weight, value: tensor([[ 0.1583,  0.2447,  0.2434,  ..., -0.2641, -0.2816, -0.2448],
+        [-0.1154, -0.0833, -0.2045,  ...,  0.0726,  0.0592,  0.0252],
+        [-0.0668, -0.1284, -0.0415,  ...,  0.0926,  0.0390,  0.0706],
+        ...,
+        [-0.3404, -0.3892, -0.2938,  ...,  0.0640,  0.1847,  0.1564],
+        [ 0.0775,  0.0322,  0.0026,  ..., -0.3026, -0.4853, -0.4544],
+        [ 0.1599,  0.1508,  0.0934,  ...,  0.0685,  0.0720,  0.1407]],
+       device='cuda:0'), grad: tensor([[ 4.5135e-02,  8.5068e-03,  9.7961e-03,  ...,  8.9951e-03,
+          9.1019e-03,  9.5139e-03],
+        [-9.2926e-03,  2.5821e-04, -5.3835e-04,  ..., -2.5730e-03,
+         -2.4414e-03, -3.0212e-03],
+        [ 5.0964e-03,  3.8929e-03,  3.7937e-03,  ..., -1.5640e-03,
+         -1.3771e-03, -9.5940e-04],
+        ...,
+        [ 1.6010e-04,  4.3601e-05,  4.6581e-05,  ...,  2.6464e-05,
+          2.5839e-05,  2.6390e-05],
+        [ 1.1864e-03,  1.3661e-04,  1.7893e-04,  ...,  3.1185e-04,
+          3.2425e-04,  3.3045e-04],
+        [-3.6438e-02, -1.0170e-02, -1.0674e-02,  ..., -5.0507e-03,
+         -4.9706e-03, -5.0888e-03]], device='cuda:0')
+Epoch 30, bias, value: tensor([ 0.0555,  0.1123,  0.0132,  0.0087,  0.0577,  0.0050, -0.0217],
+       device='cuda:0'), grad: tensor([ 0.1342, -0.0205, -0.0040, -0.0073,  0.0004,  0.0038, -0.1065],
+       device='cuda:0')
+306
+0.006330184227833378
+changing lr
+epoch 29, time 426.68, cls_loss 1.0924 cls_loss_mapping 2.0479 cls_loss_causal 1.7285 re_mapping 0.0601 re_causal 0.0586 /// teacc 80.29 lr 0.00611260
+Epoch 31, weight, value: tensor([[ 0.1390,  0.2162,  0.2110,  ..., -0.2623, -0.2867, -0.2504],
+        [-0.1299, -0.1220, -0.2411,  ...,  0.0672,  0.0528,  0.0149],
+        [-0.0680, -0.1159, -0.0175,  ...,  0.0448,  0.0041,  0.0321],
+        ...,
+        [-0.3282, -0.3769, -0.2863,  ...,  0.0759,  0.1898,  0.1736],
+        [ 0.0944,  0.0437,  0.0096,  ..., -0.3016, -0.4798, -0.4544],
+        [ 0.1724,  0.1974,  0.1307,  ...,  0.0846,  0.0875,  0.1555]],
+       device='cuda:0'), grad: tensor([[ 4.8599e-03,  6.7902e-04,  9.6560e-04,  ...,  1.2188e-03,
+          1.2455e-03,  1.3704e-03],
+        [-8.7463e-02, -8.2626e-03, -1.3779e-02,  ..., -1.7380e-02,
+         -1.8295e-02, -2.1713e-02],
+        [ 1.2932e-03,  1.2040e-04,  1.6606e-04,  ...,  1.6809e-04,
+          1.6093e-04,  2.5272e-04],
+        ...,
+        [ 5.3711e-02,  5.2643e-03,  9.6054e-03,  ...,  1.3145e-02,
+          1.4259e-02,  1.5228e-02],
+        [ 2.1225e-02,  2.0123e-03,  2.7428e-03,  ...,  2.7561e-03,
+          2.6283e-03,  4.1428e-03],
+        [ 2.9316e-03, -1.5688e-04, -1.6999e-04,  ..., -3.7527e-04,
+         -4.4703e-04,  3.2902e-05]], device='cuda:0')
+Epoch 31, bias, value: tensor([0.0489, 0.0907, 0.0034, 0.0015, 0.0692, 0.0103, 0.0006],
+       device='cuda:0'), grad: tensor([ 0.0147, -0.3267,  0.0053,  0.0138,  0.1865,  0.0869,  0.0194],
+       device='cuda:0')
+306
+0.006112604669781575
+changing lr
+epoch 30, time 432.14, cls_loss 1.0458 cls_loss_mapping 2.0505 cls_loss_causal 1.6934 re_mapping 0.0585 re_causal 0.0571 /// teacc 73.08 lr 0.00589278
+Epoch 32, weight, value: tensor([[ 0.1345,  0.2133,  0.2105,  ..., -0.2530, -0.2588, -0.2244],
+        [-0.1229, -0.1267, -0.2529,  ...,  0.0697,  0.0423,  0.0094],
+        [-0.0731, -0.1219, -0.0163,  ...,  0.0239, -0.0272,  0.0078],
+        ...,
+        [-0.3259, -0.3933, -0.2957,  ...,  0.0834,  0.1843,  0.1659],
+        [ 0.0947,  0.0394,  0.0179,  ..., -0.2693, -0.4357, -0.4091],
+        [ 0.1749,  0.2201,  0.1389,  ...,  0.0547,  0.0541,  0.1241]],
+       device='cuda:0'), grad: tensor([[-0.0630, -0.0085, -0.0097,  ..., -0.0066, -0.0061, -0.0083],
+        [ 0.1438,  0.0172,  0.0219,  ...,  0.0174,  0.0212,  0.0250],
+        [-0.0175, -0.0055, -0.0066,  ..., -0.0052, -0.0061, -0.0058],
+        ...,
+        [-0.0567, -0.0068, -0.0075,  ..., -0.0066, -0.0105, -0.0093],
+        [-0.0290,  0.0001, -0.0031,  ..., -0.0031, -0.0030, -0.0076],
+        [ 0.0036,  0.0003,  0.0006,  ...,  0.0005,  0.0005,  0.0009]],
+       device='cuda:0')
+Epoch 32, bias, value: tensor([ 0.0558,  0.1084, -0.0053,  0.0060,  0.0682,  0.0083, -0.0123],
+       device='cuda:0'), grad: tensor([-0.1583,  0.3940, -0.0458,  0.0645, -0.1311, -0.1377,  0.0145],
+       device='cuda:0')
+306
+0.005892784473993186
+changing lr
+---------------------saving model at epoch 31----------------------------------------------------
+epoch 31, time 428.96, cls_loss 1.0917 cls_loss_mapping 2.0434 cls_loss_causal 1.6669 re_mapping 0.0578 re_causal 0.0565 /// teacc 87.02 lr 0.00567117
+Epoch 33, weight, value: tensor([[ 0.1418,  0.2171,  0.2158,  ..., -0.2220, -0.2227, -0.2017],
+        [-0.1225, -0.1055, -0.2204,  ...,  0.0531,  0.0300,  0.0025],
+        [-0.0629, -0.1234, -0.0160,  ..., -0.0074, -0.0381, -0.0104],
+        ...,
+        [-0.3191, -0.3510, -0.2599,  ...,  0.1077,  0.1977,  0.1785],
+        [ 0.0854,  0.0336, -0.0082,  ..., -0.3075, -0.4694, -0.4415],
+        [ 0.1679,  0.1994,  0.1061,  ...,  0.0711,  0.0510,  0.1354]],
+       device='cuda:0'), grad: tensor([[ 0.0491,  0.0067,  0.0109,  ...,  0.0191,  0.0184,  0.0202],
+        [ 0.0036,  0.0002,  0.0004,  ...,  0.0005,  0.0006,  0.0009],
+        [ 0.0537,  0.0028,  0.0065,  ...,  0.0073,  0.0089,  0.0100],
+        ...,
+        [-0.0298, -0.0004, -0.0021,  ..., -0.0017, -0.0023, -0.0060],
+        [ 0.0108,  0.0006,  0.0013,  ...,  0.0014,  0.0018,  0.0019],
+        [-0.0974, -0.0103, -0.0182,  ..., -0.0280, -0.0290, -0.0294]],
+       device='cuda:0')
+Epoch 33, bias, value: tensor([ 0.0559,  0.1074,  0.0047,  0.0052,  0.0679,  0.0006, -0.0127],
+       device='cuda:0'), grad: tensor([ 0.1411,  0.0132,  0.1580,  0.0356, -0.1240,  0.0298, -0.2537],
+       device='cuda:0')
+306
+0.00567116632908828
+changing lr
+epoch 32, time 425.06, cls_loss 0.9775 cls_loss_mapping 2.0397 cls_loss_causal 1.6773 re_mapping 0.0568 re_causal 0.0553 /// teacc 82.69 lr 0.00544820
+Epoch 34, weight, value: tensor([[ 0.1398,  0.1883,  0.1978,  ..., -0.2534, -0.2515, -0.2252],
+        [-0.1162, -0.0617, -0.1827,  ...,  0.0717,  0.0570,  0.0267],
+        [-0.0704, -0.1101, -0.0113,  ...,  0.0517,  0.0041,  0.0389],
+        ...,
+        [-0.3365, -0.3802, -0.2947,  ...,  0.0714,  0.1424,  0.1381],
+        [ 0.0889,  0.0258, -0.0069,  ..., -0.3243, -0.4627, -0.4338],
+        [ 0.1809,  0.2178,  0.1136,  ...,  0.0684,  0.0564,  0.1242]],
+       device='cuda:0'), grad: tensor([[ 0.1140,  0.0468,  0.0459,  ...,  0.0181,  0.0163,  0.0199],
+        [ 0.0040,  0.0011,  0.0013,  ...,  0.0006,  0.0007,  0.0008],
+        [-0.0801, -0.0379, -0.0355,  ..., -0.0124, -0.0102, -0.0133],
+        ...,
+        [-0.0224, -0.0035, -0.0034,  ..., -0.0058, -0.0050, -0.0053],
+        [ 0.0094,  0.0023,  0.0027,  ...,  0.0015,  0.0015,  0.0021],
+        [ 0.0218,  0.0023,  0.0021,  ...,  0.0056,  0.0040,  0.0063]],
+       device='cuda:0')
+Epoch 34, bias, value: tensor([ 0.0717,  0.1184, -0.0196,  0.0274,  0.0521, -0.0008, -0.0166],
+       device='cuda:0'), grad: tensor([ 0.2222,  0.0099, -0.1350, -0.1228, -0.0597,  0.0245,  0.0608],
+       device='cuda:0')
+306
+0.00544819654451717
+changing lr
+---------------------saving model at epoch 33----------------------------------------------------
+epoch 33, time 428.97, cls_loss 0.9368 cls_loss_mapping 2.0510 cls_loss_causal 1.6388 re_mapping 0.0577 re_causal 0.0560 /// teacc 88.46 lr 0.00522432
+Epoch 35, weight, value: tensor([[ 0.1365,  0.1780,  0.1861,  ..., -0.2312, -0.2271, -0.2097],
+        [-0.1154, -0.0331, -0.1792,  ...,  0.0749,  0.0585,  0.0336],
+        [-0.0584, -0.0751,  0.0247,  ...,  0.0362, -0.0026,  0.0399],
+        ...,
+        [-0.3363, -0.3861, -0.2986,  ...,  0.0786,  0.1397,  0.1137],
+        [ 0.0728, -0.0147, -0.0493,  ..., -0.2961, -0.4476, -0.4191],
+        [ 0.1701,  0.1887,  0.0964,  ...,  0.0520,  0.0478,  0.1260]],
+       device='cuda:0'), grad: tensor([[-0.0754, -0.0280, -0.0229,  ..., -0.0101, -0.0084, -0.0136],
+        [ 0.0677,  0.0096,  0.0098,  ...,  0.0088,  0.0100,  0.0143],
+        [ 0.0177,  0.0020,  0.0021,  ...,  0.0021,  0.0023,  0.0035],
+        ...,
+        [ 0.0217,  0.0040,  0.0039,  ...,  0.0029,  0.0035,  0.0047],
+        [-0.0753, -0.0097, -0.0098,  ..., -0.0139, -0.0172, -0.0212],
+        [ 0.0147,  0.0170,  0.0130,  ...,  0.0038,  0.0033,  0.0035]],
+       device='cuda:0')
+Epoch 35, bias, value: tensor([ 0.0778,  0.1179, -0.0109,  0.0263,  0.0318, -0.0173, -0.0028],
+       device='cuda:0'), grad: tensor([-0.2277,  0.1975,  0.0556,  0.1045,  0.0581, -0.2042,  0.0159],
+       device='cuda:0')
+306
+0.005224324151752577
+changing lr
+epoch 34, time 424.94, cls_loss 1.0028 cls_loss_mapping 2.0503 cls_loss_causal 1.6305 re_mapping 0.0555 re_causal 0.0535 /// teacc 87.50 lr 0.00500000
+Epoch 36, weight, value: tensor([[ 0.1447,  0.2238,  0.2342,  ..., -0.2484, -0.2589, -0.2258],
+        [-0.1085, -0.0429, -0.1582,  ...,  0.0606,  0.0468,  0.0203],
+        [-0.0472, -0.0527,  0.0436,  ...,  0.0379,  0.0216,  0.0447],
+        ...,
+        [-0.3460, -0.4526, -0.3749,  ...,  0.0746,  0.1235,  0.1035],
+        [ 0.0649, -0.0678, -0.0790,  ..., -0.3071, -0.4582, -0.4264],
+        [ 0.1636,  0.1774,  0.0713,  ...,  0.0781,  0.0750,  0.1569]],
+       device='cuda:0'), grad: tensor([[-0.0764, -0.0142, -0.0197,  ..., -0.0098, -0.0141, -0.0130],
+        [ 0.0211,  0.0037,  0.0044,  ...,  0.0029,  0.0030,  0.0029],
+        [-0.0374, -0.0037, -0.0057,  ..., -0.0056, -0.0070, -0.0056],
+        ...,
+        [ 0.0747,  0.0117,  0.0180,  ...,  0.0099,  0.0150,  0.0131],
+        [ 0.0017,  0.0002,  0.0003,  ...,  0.0002,  0.0003,  0.0002],
+        [ 0.0077,  0.0012,  0.0015,  ...,  0.0011,  0.0012,  0.0011]],
+       device='cuda:0')
+Epoch 36, bias, value: tensor([ 0.0863,  0.1351, -0.0313,  0.0127,  0.0425, -0.0180, -0.0060],
+       device='cuda:0'), grad: tensor([-0.2137,  0.0678, -0.1434,  0.0313,  0.2258,  0.0061,  0.0262],
+       device='cuda:0')
+306
+0.005000000000000003
+changing lr
+epoch 35, time 429.46, cls_loss 0.9999 cls_loss_mapping 2.0351 cls_loss_causal 1.6349 re_mapping 0.0536 re_causal 0.0520 /// teacc 85.10 lr 0.00477568
+Epoch 37, weight, value: tensor([[ 0.1506,  0.2298,  0.2221,  ..., -0.2609, -0.2760, -0.2361],
+        [-0.1169, -0.0290, -0.1441,  ...,  0.0696,  0.0528,  0.0155],
+        [-0.0447, -0.0586,  0.0361,  ...,  0.0259,  0.0068,  0.0274],
+        ...,
+        [-0.3478, -0.4652, -0.3856,  ...,  0.0807,  0.1303,  0.1145],
+        [ 0.0694, -0.0510, -0.0736,  ..., -0.2896, -0.4495, -0.4143],
+        [ 0.1727,  0.2019,  0.1152,  ...,  0.0740,  0.0758,  0.1594]],
+       device='cuda:0'), grad: tensor([[ 2.5772e-02,  2.2774e-03,  2.9449e-03,  ...,  4.0512e-03,
+          3.7079e-03,  4.2877e-03],
+        [ 4.5258e-02,  7.2327e-03,  8.1329e-03,  ...,  5.8861e-03,
+          4.9286e-03,  5.8174e-03],
+        [ 2.5787e-02,  2.0409e-03,  2.7313e-03,  ...,  3.6678e-03,
+          3.2787e-03,  3.9005e-03],
+        ...,
+        [-2.6245e-02, -7.0953e-03, -7.3776e-03,  ..., -6.2370e-04,
+          4.9543e-04, -2.1264e-05],
+        [ 1.8326e-02,  1.3561e-03,  1.8539e-03,  ...,  2.9831e-03,
+          2.7676e-03,  3.1891e-03],
+        [-8.9905e-02, -5.8708e-03, -8.3694e-03,  ..., -1.6174e-02,
+         -1.5381e-02, -1.7395e-02]], device='cuda:0')
+Epoch 37, bias, value: tensor([ 0.0930,  0.1161, -0.0289,  0.0054,  0.0433, -0.0030, -0.0058],
+       device='cuda:0'), grad: tensor([ 0.0807,  0.1425,  0.0767,  0.0034, -0.0689,  0.0574, -0.2917],
+       device='cuda:0')
+306
+0.004775675848247429
+changing lr
+epoch 36, time 433.85, cls_loss 0.9525 cls_loss_mapping 2.0498 cls_loss_causal 1.6273 re_mapping 0.0523 re_causal 0.0509 /// teacc 88.46 lr 0.00455180
+Epoch 38, weight, value: tensor([[ 0.1491,  0.2182,  0.2069,  ..., -0.2839, -0.2961, -0.2585],
+        [-0.1227, -0.0526, -0.1560,  ...,  0.0749,  0.0572,  0.0250],
+        [-0.0494, -0.0625,  0.0233,  ...,  0.0151,  0.0019,  0.0288],
+        ...,
+        [-0.3521, -0.4264, -0.3553,  ...,  0.0569,  0.0981,  0.0756],
+        [ 0.0760, -0.0197, -0.0340,  ..., -0.2662, -0.4325, -0.4027],
+        [ 0.1776,  0.2139,  0.1237,  ...,  0.0876,  0.0907,  0.1764]],
+       device='cuda:0'), grad: tensor([[-5.0110e-02, -2.9724e-02, -2.8687e-02,  ..., -8.4457e-03,
+         -9.6512e-03, -1.0071e-02],
+        [-1.0718e-01, -8.4457e-03, -1.1543e-02,  ..., -1.9104e-02,
+         -1.9501e-02, -3.0655e-02],
+        [ 3.0014e-02,  5.4779e-03,  5.1575e-03,  ...,  3.8490e-03,
+          3.4065e-03,  6.1264e-03],
+        ...,
+        [ 1.1101e-03,  9.3043e-05,  1.0622e-04,  ...,  1.7238e-04,
+          1.6427e-04,  2.8419e-04],
+        [ 8.4991e-03, -2.7943e-04, -4.5705e-04,  ...,  5.2071e-03,
+          7.6866e-03,  6.8550e-03],
+        [ 8.7646e-02,  3.0319e-02,  3.2410e-02,  ...,  1.3748e-02,
+          1.3466e-02,  2.0187e-02]], device='cuda:0')
+Epoch 38, bias, value: tensor([ 0.0784,  0.1214, -0.0242,  0.0250,  0.0437, -0.0180, -0.0010],
+       device='cuda:0'), grad: tensor([-0.0403, -0.3149,  0.0997,  0.0874,  0.0038, -0.0103,  0.1743],
+       device='cuda:0')
+306
+0.004551803455482836
+changing lr
+---------------------saving model at epoch 37----------------------------------------------------
+epoch 37, time 433.46, cls_loss 0.8886 cls_loss_mapping 2.0466 cls_loss_causal 1.5644 re_mapping 0.0517 re_causal 0.0502 /// teacc 89.90 lr 0.00432883
+Epoch 39, weight, value: tensor([[ 0.1513,  0.2343,  0.2372,  ..., -0.2778, -0.2714, -0.2408],
+        [-0.1030, -0.0184, -0.1260,  ...,  0.0841,  0.0607,  0.0297],
+        [-0.0598, -0.0915, -0.0198,  ...,  0.0160,  0.0079,  0.0293],
+        ...,
+        [-0.3561, -0.4324, -0.3756,  ..., -0.0066,  0.0324,  0.0241],
+        [ 0.0688, -0.0487, -0.0441,  ..., -0.2865, -0.4373, -0.4134],
+        [ 0.1761,  0.2209,  0.1269,  ...,  0.1204,  0.1124,  0.2025]],
+       device='cuda:0'), grad: tensor([[ 2.0294e-02,  3.5610e-03,  3.2024e-03,  ...,  3.0460e-03,
+          3.2806e-03,  3.9005e-03],
+        [ 6.8726e-02,  1.1040e-02,  8.5754e-03,  ...,  7.9346e-03,
+          9.0485e-03,  1.0475e-02],
+        [-1.0010e-02, -3.2501e-03, -3.0766e-03,  ..., -3.4332e-03,
+         -3.4389e-03, -3.4599e-03],
+        ...,
+        [-5.6519e-02, -6.9122e-03, -5.9357e-03,  ..., -5.0011e-03,
+         -5.8212e-03, -7.8812e-03],
+        [-4.4670e-03, -4.2820e-04, -9.7752e-04,  ..., -4.7594e-05,
+          6.8665e-05, -8.0204e-04],
+        [-3.1586e-02, -7.1030e-03, -4.8676e-03,  ..., -5.4893e-03,
+         -6.1722e-03, -5.7602e-03]], device='cuda:0')
+Epoch 39, bias, value: tensor([ 6.7954e-02,  1.2483e-01, -4.1241e-02,  5.1623e-02,  5.4495e-02,
+        -2.3858e-02, -7.0332e-05], device='cuda:0'), grad: tensor([ 0.0534,  0.1842, -0.0242,  0.0384, -0.1399, -0.0288, -0.0830],
+       device='cuda:0')
+306
+0.004328833670911726
+changing lr
+epoch 38, time 432.27, cls_loss 0.9306 cls_loss_mapping 2.0494 cls_loss_causal 1.5792 re_mapping 0.0493 re_causal 0.0473 /// teacc 87.98 lr 0.00410722
+Epoch 40, weight, value: tensor([[ 0.1571,  0.2296,  0.2372,  ..., -0.2829, -0.2828, -0.2378],
+        [-0.0937,  0.0170, -0.1025,  ...,  0.1073,  0.0763,  0.0354],
+        [-0.0622, -0.1008, -0.0287,  ...,  0.0206,  0.0156,  0.0307],
+        ...,
+        [-0.3470, -0.4169, -0.3472,  ..., -0.0011,  0.0425,  0.0327],
+        [ 0.0637, -0.0765, -0.0739,  ..., -0.3002, -0.4489, -0.4078],
+        [ 0.1632,  0.2005,  0.1034,  ...,  0.1211,  0.1140,  0.1980]],
+       device='cuda:0'), grad: tensor([[-0.0410, -0.0133, -0.0119,  ..., -0.0115, -0.0101, -0.0117],
+        [ 0.0228,  0.0100,  0.0091,  ...,  0.0069,  0.0055,  0.0079],
+        [-0.0316, -0.0016, -0.0024,  ..., -0.0006, -0.0005, -0.0038],
+        ...,
+        [ 0.0259,  0.0028,  0.0030,  ...,  0.0031,  0.0029,  0.0041],
+        [ 0.0075,  0.0004,  0.0005,  ...,  0.0004,  0.0004,  0.0009],
+        [ 0.0087,  0.0011,  0.0012,  ...,  0.0013,  0.0012,  0.0016]],
+       device='cuda:0')
+Epoch 40, bias, value: tensor([ 0.0737,  0.1165, -0.0442,  0.0402,  0.0573, -0.0074, -0.0035],
+       device='cuda:0'), grad: tensor([-0.0775,  0.0410, -0.1382,  0.0271,  0.0879,  0.0294,  0.0302],
+       device='cuda:0')
+306
+0.0041072155260068206
+changing lr
+epoch 39, time 428.71, cls_loss 0.8865 cls_loss_mapping 2.0481 cls_loss_causal 1.5616 re_mapping 0.0496 re_causal 0.0479 /// teacc 85.58 lr 0.00388740
+Epoch 41, weight, value: tensor([[ 0.1489,  0.2187,  0.2200,  ..., -0.2854, -0.2889, -0.2349],
+        [-0.1009, -0.0257, -0.1506,  ...,  0.0648,  0.0258,  0.0015],
+        [-0.0628, -0.0909, -0.0232,  ...,  0.0120,  0.0082,  0.0270],
+        ...,
+        [-0.3425, -0.4117, -0.3378,  ..., -0.0078,  0.0402,  0.0206],
+        [ 0.0714, -0.0688, -0.0660,  ..., -0.3213, -0.4690, -0.4298],
+        [ 0.1684,  0.2135,  0.1196,  ...,  0.1236,  0.1184,  0.1986]],
+       device='cuda:0'), grad: tensor([[0.0035, 0.0005, 0.0005,  ..., 0.0005, 0.0004, 0.0007],
+        [0.0165, 0.0023, 0.0024,  ..., 0.0020, 0.0019, 0.0031],
+        [0.0069, 0.0006, 0.0007,  ..., 0.0013, 0.0013, 0.0020],
+        ...,
+        [0.0125, 0.0019, 0.0019,  ..., 0.0014, 0.0013, 0.0021],
+        [0.0110, 0.0014, 0.0015,  ..., 0.0015, 0.0015, 0.0023],
+        [0.0284, 0.0045, 0.0044,  ..., 0.0028, 0.0026, 0.0045]],
+       device='cuda:0')
+Epoch 41, bias, value: tensor([ 0.0755,  0.1264, -0.0480,  0.0465,  0.0548, -0.0275,  0.0022],
+       device='cuda:0'), grad: tensor([ 0.0107,  0.0496,  0.0252, -0.2361,  0.0362,  0.0342,  0.0802],
+       device='cuda:0')
+306
+0.0038873953302184317
+changing lr
+epoch 40, time 427.16, cls_loss 0.8345 cls_loss_mapping 2.0436 cls_loss_causal 1.5553 re_mapping 0.0516 re_causal 0.0499 /// teacc 89.42 lr 0.00366982
+Epoch 42, weight, value: tensor([[ 0.1555,  0.2406,  0.2316,  ..., -0.2702, -0.2761, -0.2341],
+        [-0.0946,  0.0133, -0.1062,  ...,  0.1090,  0.0627,  0.0203],
+        [-0.0589, -0.1036, -0.0310,  ...,  0.0112,  0.0148,  0.0441],
+        ...,
+        [-0.3492, -0.4212, -0.3501,  ..., -0.0151,  0.0276,  0.0240],
+        [ 0.0590, -0.0909, -0.0809,  ..., -0.3224, -0.4598, -0.4240],
+        [ 0.1695,  0.2068,  0.1134,  ...,  0.1060,  0.0994,  0.1888]],
+       device='cuda:0'), grad: tensor([[ 0.0116,  0.0006,  0.0011,  ...,  0.0005,  0.0009,  0.0018],
+        [ 0.0080,  0.0003,  0.0007,  ...,  0.0003,  0.0007,  0.0012],
+        [ 0.0291,  0.0010,  0.0023,  ...,  0.0012,  0.0021,  0.0048],
+        ...,
+        [ 0.0131,  0.0005,  0.0010,  ...,  0.0006,  0.0010,  0.0022],
+        [ 0.0169,  0.0007,  0.0017,  ...,  0.0007,  0.0017,  0.0024],
+        [-0.0319, -0.0009, -0.0019,  ..., -0.0012, -0.0013, -0.0061]],
+       device='cuda:0')
+Epoch 42, bias, value: tensor([ 0.0690,  0.1193, -0.0424,  0.0311,  0.0650, -0.0210,  0.0072],
+       device='cuda:0'), grad: tensor([ 0.0427,  0.0297,  0.1118, -0.1617,  0.0501,  0.0595, -0.1321],
+       device='cuda:0')
+306
+0.003669815772166629
+changing lr
+epoch 41, time 427.43, cls_loss 0.8024 cls_loss_mapping 2.0431 cls_loss_causal 1.5420 re_mapping 0.0520 re_causal 0.0501 /// teacc 87.50 lr 0.00345492
+Epoch 43, weight, value: tensor([[ 0.1500,  0.2249,  0.2180,  ..., -0.2819, -0.2822, -0.2395],
+        [-0.0960,  0.0329, -0.0937,  ...,  0.0895,  0.0325,  0.0019],
+        [-0.0595, -0.1084, -0.0403,  ...,  0.0016,  0.0036,  0.0293],
+        ...,
+        [-0.3551, -0.4414, -0.3575,  ..., -0.0054,  0.0458,  0.0405],
+        [ 0.0665, -0.0577, -0.0548,  ..., -0.3209, -0.4627, -0.4261],
+        [ 0.1674,  0.1945,  0.0994,  ...,  0.1180,  0.1068,  0.1908]],
+       device='cuda:0'), grad: tensor([[ 0.0122,  0.0010,  0.0016,  ...,  0.0013,  0.0017,  0.0022],
+        [ 0.0052,  0.0002,  0.0005,  ...,  0.0002,  0.0004,  0.0006],
+        [ 0.0380,  0.0016,  0.0030,  ...,  0.0018,  0.0022,  0.0041],
+        ...,
+        [ 0.0746,  0.0054,  0.0097,  ...,  0.0070,  0.0103,  0.0128],
+        [-0.0226, -0.0014, -0.0026,  ..., -0.0009, -0.0009, -0.0024],
+        [-0.1183, -0.0073, -0.0130,  ..., -0.0100, -0.0145, -0.0185]],
+       device='cuda:0')
+Epoch 43, bias, value: tensor([ 0.0609,  0.1111, -0.0407,  0.0498,  0.0635, -0.0161,  0.0065],
+       device='cuda:0'), grad: tensor([ 0.0366,  0.0206,  0.1416,  0.0375,  0.2443, -0.1185, -0.3621],
+       device='cuda:0')
+306
+0.0034549150281252667
+changing lr
+epoch 42, time 428.41, cls_loss 0.7860 cls_loss_mapping 2.0408 cls_loss_causal 1.5327 re_mapping 0.0511 re_causal 0.0491 /// teacc 88.46 lr 0.00324313
+Epoch 44, weight, value: tensor([[ 0.1552,  0.2358,  0.2262,  ..., -0.2883, -0.2933, -0.2472],
+        [-0.1040,  0.0326, -0.0961,  ...,  0.1068,  0.0527,  0.0318],
+        [-0.0603, -0.1281, -0.0526,  ...,  0.0101,  0.0091,  0.0273],
+        ...,
+        [-0.3615, -0.5033, -0.3897,  ..., -0.0294,  0.0336,  0.0365],
+        [ 0.0681, -0.0484, -0.0558,  ..., -0.3022, -0.4450, -0.4138],
+        [ 0.1746,  0.2080,  0.1075,  ...,  0.1092,  0.0940,  0.1796]],
+       device='cuda:0'), grad: tensor([[ 1.0586e-03,  1.6046e-04,  2.1827e-04,  ...,  1.1051e-04,
+          1.7023e-04,  2.2018e-04],
+        [-1.1604e-06, -1.3188e-06, -1.2461e-06,  ..., -3.4645e-07,
+         -1.8068e-07, -2.3656e-07],
+        [ 1.1832e-05,  1.9278e-06,  2.3227e-06,  ...,  1.8142e-06,
+          1.9446e-06,  2.6505e-06],
+        ...,
+        [ 1.2666e-05,  2.5630e-06,  3.5465e-06,  ...,  2.7567e-07,
+          1.6205e-06,  1.7788e-06],
+        [ 4.9882e-06,  9.8720e-07,  1.1772e-06,  ...,  7.0408e-07,
+          7.7672e-07,  1.1493e-06],
+        [-1.0900e-03, -1.6522e-04, -2.2483e-04,  ..., -1.1331e-04,
+         -1.7500e-04, -2.2626e-04]], device='cuda:0')
+Epoch 44, bias, value: tensor([ 0.0697,  0.1268, -0.0521,  0.0338,  0.0733, -0.0207,  0.0018],
+       device='cuda:0'), grad: tensor([ 2.6932e-03, -6.3851e-06,  3.1531e-05,  5.8562e-06,  2.9713e-05,
+         1.4156e-05, -2.7695e-03], device='cuda:0')
+306
+0.0032431258795932905
+changing lr
+epoch 43, time 424.50, cls_loss 0.7640 cls_loss_mapping 2.0450 cls_loss_causal 1.5338 re_mapping 0.0503 re_causal 0.0481 /// teacc 88.46 lr 0.00303487
+Epoch 45, weight, value: tensor([[ 1.5425e-01,  2.3594e-01,  2.3075e-01,  ..., -2.6529e-01,
+         -2.6837e-01, -2.2504e-01],
+        [-9.6150e-02,  1.3176e-02, -9.8514e-02,  ...,  8.5321e-02,
+          2.5448e-02,  1.9626e-02],
+        [-6.9572e-02, -1.7469e-01, -9.3616e-02,  ..., -2.1655e-04,
+          5.6672e-04,  1.6750e-02],
+        ...,
+        [-3.6306e-01, -4.6665e-01, -3.7682e-01,  ..., -1.7895e-02,
+          4.3486e-02,  4.2094e-02],
+        [ 6.6348e-02, -8.9626e-02, -7.6111e-02,  ..., -3.1854e-01,
+         -4.5521e-01, -4.1572e-01],
+        [ 1.8005e-01,  2.5067e-01,  1.3806e-01,  ...,  1.0988e-01,
+          9.2508e-02,  1.7012e-01]], device='cuda:0'), grad: tensor([[ 1.2772e-02,  7.7629e-04,  9.6846e-04,  ...,  7.7057e-04,
+          5.9938e-04,  1.5011e-03],
+        [ 4.4899e-03,  2.7728e-04,  3.2473e-04,  ...,  2.5773e-04,
+          1.8060e-04,  5.0879e-04],
+        [ 7.2098e-03,  4.6039e-04,  5.6601e-04,  ...,  4.2701e-04,
+          2.8920e-04,  8.0299e-04],
+        ...,
+        [ 1.6365e-03,  8.0764e-05,  1.5569e-04,  ...,  9.1016e-05,
+          4.7892e-05,  1.5855e-04],
+        [ 5.2124e-02,  3.5534e-03,  4.0627e-03,  ...,  4.1847e-03,
+          5.0354e-03,  8.1558e-03],
+        [-6.0028e-02, -4.9400e-04, -3.1281e-03,  ..., -3.0041e-03,
+         -4.0703e-03, -8.3847e-03]], device='cuda:0')
+Epoch 45, bias, value: tensor([ 0.0702,  0.1341, -0.0537,  0.0298,  0.0633, -0.0173,  0.0043],
+       device='cuda:0'), grad: tensor([ 0.0393,  0.0140,  0.0218, -0.0424,  0.0044,  0.1665, -0.2037],
+       device='cuda:0')
+306
+0.0030348748417303863
+changing lr
+---------------------saving model at epoch 44----------------------------------------------------
+epoch 44, time 422.77, cls_loss 0.7448 cls_loss_mapping 2.0411 cls_loss_causal 1.5072 re_mapping 0.0491 re_causal 0.0470 /// teacc 91.35 lr 0.00283058
+Epoch 46, weight, value: tensor([[ 0.1494,  0.2258,  0.2208,  ..., -0.2796, -0.2789, -0.2282],
+        [-0.0926,  0.0634, -0.0585,  ...,  0.0839,  0.0332,  0.0202],
+        [-0.0698, -0.1649, -0.0820,  ...,  0.0074,  0.0044,  0.0288],
+        ...,
+        [-0.3640, -0.4898, -0.3768,  ..., -0.0015,  0.0568,  0.0498],
+        [ 0.0677, -0.0605, -0.0515,  ..., -0.3284, -0.4772, -0.4409],
+        [ 0.1768,  0.2306,  0.1198,  ...,  0.1149,  0.0999,  0.1726]],
+       device='cuda:0'), grad: tensor([[ 2.0538e-02,  1.7920e-03,  2.0714e-03,  ...,  2.9945e-03,
+          2.9221e-03,  4.8981e-03],
+        [ 1.4977e-02,  1.1806e-03,  1.5011e-03,  ...,  2.2202e-03,
+          1.9627e-03,  3.6583e-03],
+        [-6.8359e-02, -5.0201e-03, -6.2790e-03,  ..., -1.1230e-02,
+         -9.5978e-03, -1.6724e-02],
+        ...,
+        [ 9.0837e-04,  7.0989e-05,  8.8692e-05,  ...,  1.3399e-04,
+          1.2112e-04,  2.1994e-04],
+        [-3.8147e-02, -4.6730e-03, -4.4556e-03,  ..., -5.0583e-03,
+         -6.4659e-03, -8.6288e-03],
+        [ 4.5532e-02,  4.6959e-03,  4.9019e-03,  ...,  6.4278e-03,
+          7.0801e-03,  1.0612e-02]], device='cuda:0')
+Epoch 46, bias, value: tensor([ 0.0740,  0.1355, -0.0512,  0.0366,  0.0649, -0.0336,  0.0038],
+       device='cuda:0'), grad: tensor([ 0.0677,  0.0518, -0.2274,  0.0743,  0.0031, -0.1118,  0.1421],
+       device='cuda:0')
+306
+0.0028305813044122124
+changing lr
+epoch 45, time 418.70, cls_loss 0.7402 cls_loss_mapping 2.0392 cls_loss_causal 1.5053 re_mapping 0.0492 re_causal 0.0470 /// teacc 87.02 lr 0.00263066
+Epoch 47, weight, value: tensor([[ 1.5246e-01,  2.4811e-01,  2.3991e-01,  ..., -2.8367e-01,
+         -2.7826e-01, -2.2897e-01],
+        [-9.5716e-02,  3.4700e-02, -8.2261e-02,  ...,  9.3525e-02,
+          4.3270e-02,  2.9599e-02],
+        [-7.2195e-02, -1.5258e-01, -7.5621e-02,  ...,  2.2117e-04,
+         -9.1462e-04,  1.4102e-02],
+        ...,
+        [-3.5632e-01, -4.7888e-01, -3.6056e-01,  ...,  1.3511e-02,
+          7.3059e-02,  6.3927e-02],
+        [ 6.8564e-02, -5.4957e-02, -4.0807e-02,  ..., -3.3960e-01,
+         -4.8470e-01, -4.4421e-01],
+        [ 1.7561e-01,  2.1293e-01,  1.0095e-01,  ...,  1.1288e-01,
+          9.1411e-02,  1.6863e-01]], device='cuda:0'), grad: tensor([[-3.7018e-02, -3.9597e-03, -4.1084e-03,  ..., -3.8929e-03,
+         -4.6539e-03, -3.3112e-03],
+        [ 4.3678e-03,  1.7488e-04,  2.4891e-04,  ...,  3.1757e-04,
+          3.0446e-04,  5.3549e-04],
+        [ 4.6387e-03,  2.1386e-04,  2.8872e-04,  ...,  3.4213e-04,
+          3.3879e-04,  5.4359e-04],
+        ...,
+        [-2.5726e-02, -7.0763e-04, -1.5326e-03,  ..., -3.1859e-05,
+          2.0075e-04, -1.9913e-03],
+        [ 1.5839e-02,  6.2943e-04,  8.5974e-04,  ...,  1.3533e-03,
+          1.3151e-03,  2.0752e-03],
+        [-2.9236e-02,  2.4581e-04,  2.8086e-04,  ..., -5.6000e-03,
+         -5.1498e-03, -7.3738e-03]], device='cuda:0')
+Epoch 47, bias, value: tensor([ 0.0851,  0.1334, -0.0581,  0.0433,  0.0624, -0.0350, -0.0009],
+       device='cuda:0'), grad: tensor([-0.1164,  0.0170,  0.0178,  0.2264, -0.1229,  0.0591, -0.0809],
+       device='cuda:0')
+306
+0.0026306566876350096
+changing lr
+epoch 46, time 421.01, cls_loss 0.7541 cls_loss_mapping 2.0395 cls_loss_causal 1.5091 re_mapping 0.0479 re_causal 0.0454 /// teacc 87.50 lr 0.00243550
+Epoch 48, weight, value: tensor([[ 1.6136e-01,  2.6322e-01,  2.5547e-01,  ..., -2.6855e-01,
+         -2.6488e-01, -2.1505e-01],
+        [-9.4107e-02,  3.9797e-02, -8.0306e-02,  ...,  9.2994e-02,
+          4.7449e-02,  3.1395e-02],
+        [-6.9536e-02, -1.4388e-01, -7.1607e-02,  ...,  4.0315e-03,
+          4.8482e-04,  1.3642e-02],
+        ...,
+        [-3.6352e-01, -5.1519e-01, -3.8374e-01,  ...,  6.8639e-03,
+          6.1121e-02,  5.2633e-02],
+        [ 6.4772e-02, -5.6586e-02, -4.4044e-02,  ..., -3.4119e-01,
+         -4.8681e-01, -4.5233e-01],
+        [ 1.7342e-01,  2.0215e-01,  9.4466e-02,  ...,  8.8853e-02,
+          6.9215e-02,  1.5791e-01]], device='cuda:0'), grad: tensor([[ 0.0116,  0.0008,  0.0006,  ...,  0.0023,  0.0020,  0.0027],
+        [-0.0012, -0.0001, -0.0001,  ..., -0.0008, -0.0009, -0.0009],
+        [-0.0427, -0.0033, -0.0034,  ..., -0.0060, -0.0038, -0.0069],
+        ...,
+        [ 0.0401,  0.0039,  0.0023,  ...,  0.0071,  0.0062,  0.0092],
+        [-0.0355, -0.0034, -0.0014,  ..., -0.0067, -0.0061, -0.0088],
+        [ 0.0098,  0.0007,  0.0006,  ...,  0.0014,  0.0009,  0.0017]],
+       device='cuda:0')
+Epoch 48, bias, value: tensor([ 0.0853,  0.1410, -0.0599,  0.0427,  0.0563, -0.0439,  0.0052],
+       device='cuda:0'), grad: tensor([ 0.0391, -0.0038, -0.1476,  0.0605,  0.1170, -0.0995,  0.0342],
+       device='cuda:0')
+306
+0.0024355036129704724
+changing lr
+epoch 47, time 418.80, cls_loss 0.6943 cls_loss_mapping 2.0476 cls_loss_causal 1.4637 re_mapping 0.0476 re_causal 0.0447 /// teacc 84.13 lr 0.00224552
+Epoch 49, weight, value: tensor([[ 0.1577,  0.2617,  0.2489,  ..., -0.2670, -0.2640, -0.2175],
+        [-0.0848,  0.0693, -0.0474,  ...,  0.1096,  0.0664,  0.0440],
+        [-0.0711, -0.1548, -0.0783,  ...,  0.0118,  0.0096,  0.0238],
+        ...,
+        [-0.3594, -0.5111, -0.3801,  ...,  0.0028,  0.0637,  0.0500],
+        [ 0.0701, -0.0505, -0.0408,  ..., -0.3440, -0.4929, -0.4488],
+        [ 0.1691,  0.2058,  0.0998,  ...,  0.0723,  0.0519,  0.1443]],
+       device='cuda:0'), grad: tensor([[ 1.5373e-02,  2.8682e-04,  4.8494e-04,  ...,  4.7150e-03,
+          4.5471e-03,  6.0081e-03],
+        [ 3.4771e-03,  1.2379e-03,  1.2941e-03,  ...,  3.7599e-04,
+          3.7241e-04,  5.2738e-04],
+        [-1.4210e-04, -2.3097e-05, -1.4856e-05,  ..., -5.2601e-06,
+         -1.2979e-05, -1.8165e-05],
+        ...,
+        [ 5.2691e-04,  1.1426e-04,  1.1528e-04,  ...,  8.3208e-05,
+          8.6248e-05,  1.1718e-04],
+        [ 9.7454e-05,  1.8179e-05,  1.8805e-05,  ...,  1.8314e-05,
+          1.8403e-05,  2.4810e-05],
+        [-1.9775e-02, -1.7128e-03, -1.9836e-03,  ..., -5.2834e-03,
+         -5.1041e-03, -6.7863e-03]], device='cuda:0')
+Epoch 49, bias, value: tensor([ 0.0751,  0.1377, -0.0461,  0.0518,  0.0601, -0.0326, -0.0087],
+       device='cuda:0'), grad: tensor([ 0.0607,  0.0069, -0.0004,  0.0013,  0.0015,  0.0003, -0.0703],
+       device='cuda:0')
+306
+0.00224551509273949
+changing lr
+epoch 48, time 416.26, cls_loss 0.6883 cls_loss_mapping 2.0527 cls_loss_causal 1.4650 re_mapping 0.0480 re_causal 0.0455 /// teacc 87.50 lr 0.00206107
+Epoch 50, weight, value: tensor([[ 0.1636,  0.2708,  0.2606,  ..., -0.2720, -0.2735, -0.2209],
+        [-0.0858,  0.0655, -0.0501,  ...,  0.1086,  0.0713,  0.0421],
+        [-0.0709, -0.1667, -0.0835,  ..., -0.0063, -0.0068,  0.0127],
+        ...,
+        [-0.3611, -0.4944, -0.3857,  ...,  0.0476,  0.1126,  0.0881],
+        [ 0.0646, -0.0857, -0.0645,  ..., -0.3496, -0.4956, -0.4616],
+        [ 0.1697,  0.2005,  0.0933,  ...,  0.0724,  0.0457,  0.1481]],
+       device='cuda:0'), grad: tensor([[ 4.1290e-02,  5.9433e-03,  6.7596e-03,  ...,  5.4207e-03,
+          5.3864e-03,  8.0566e-03],
+        [-1.5327e-02, -4.4403e-03, -3.9864e-03,  ..., -2.4223e-03,
+         -2.0924e-03, -4.6921e-03],
+        [ 9.2773e-03,  9.2602e-04,  1.3237e-03,  ...,  1.2922e-03,
+          1.1444e-03,  1.5841e-03],
+        ...,
+        [-5.9204e-03, -1.0424e-03, -8.1110e-04,  ..., -2.7275e-04,
+         -9.2697e-04, -9.5463e-04],
+        [ 2.4509e-03,  2.1744e-03,  1.4700e-05,  ..., -1.1759e-03,
+         -1.5202e-03, -2.1172e-03],
+        [-3.3264e-02, -3.7880e-03, -3.5591e-03,  ..., -3.0556e-03,
+         -2.1820e-03, -2.1820e-03]], device='cuda:0')
+Epoch 50, bias, value: tensor([ 8.7638e-02,  1.2724e-01, -4.3417e-02,  4.2010e-02,  5.1489e-02,
+        -3.6179e-02, -9.8885e-05], device='cuda:0'), grad: tensor([ 0.1431, -0.0867,  0.0315,  0.0060, -0.0038, -0.0213, -0.0687],
+       device='cuda:0')
+306
+0.002061073738537637
+changing lr
+epoch 49, time 423.04, cls_loss 0.6901 cls_loss_mapping 2.0413 cls_loss_causal 1.4822 re_mapping 0.0459 re_causal 0.0440 /// teacc 90.38 lr 0.00188255
+Epoch 51, weight, value: tensor([[ 0.1612,  0.2769,  0.2634,  ..., -0.2637, -0.2666, -0.2162],
+        [-0.0838,  0.0664, -0.0453,  ...,  0.0906,  0.0548,  0.0245],
+        [-0.0661, -0.1464, -0.0612,  ...,  0.0109,  0.0039,  0.0182],
+        ...,
+        [-0.3621, -0.5266, -0.4057,  ...,  0.0361,  0.0971,  0.0802],
+        [ 0.0637, -0.0986, -0.0783,  ..., -0.3300, -0.4667, -0.4404],
+        [ 0.1662,  0.1941,  0.0805,  ...,  0.0642,  0.0376,  0.1466]],
+       device='cuda:0'), grad: tensor([[-0.0063, -0.0012, -0.0015,  ..., -0.0017, -0.0018, -0.0016],
+        [ 0.0199,  0.0022,  0.0026,  ...,  0.0024,  0.0020,  0.0050],
+        [ 0.0273,  0.0019,  0.0028,  ...,  0.0037,  0.0035,  0.0067],
+        ...,
+        [-0.0172,  0.0014,  0.0003,  ..., -0.0018, -0.0018, -0.0044],
+        [ 0.0094,  0.0004,  0.0009,  ...,  0.0013,  0.0013,  0.0023],
+        [-0.0349, -0.0049, -0.0053,  ..., -0.0042, -0.0035, -0.0086]],
+       device='cuda:0')
+Epoch 51, bias, value: tensor([ 0.0791,  0.1245, -0.0472,  0.0380,  0.0555, -0.0300,  0.0082],
+       device='cuda:0'), grad: tensor([-0.0116,  0.0875,  0.1204,  0.0087, -0.1032,  0.0416, -0.1433],
+       device='cuda:0')
+306
+0.0018825509907063344
+changing lr
+epoch 50, time 420.48, cls_loss 0.6496 cls_loss_mapping 2.0427 cls_loss_causal 1.4506 re_mapping 0.0462 re_causal 0.0442 /// teacc 88.46 lr 0.00171031
+Epoch 52, weight, value: tensor([[ 0.1644,  0.2787,  0.2665,  ..., -0.2589, -0.2581, -0.2103],
+        [-0.0818,  0.0801, -0.0289,  ...,  0.0832,  0.0519,  0.0224],
+        [-0.0733, -0.1656, -0.0763,  ..., -0.0008, -0.0104,  0.0130],
+        ...,
+        [-0.3678, -0.5258, -0.4100,  ...,  0.0294,  0.0856,  0.0737],
+        [ 0.0609, -0.0945, -0.0709,  ..., -0.3431, -0.4742, -0.4443],
+        [ 0.1709,  0.1967,  0.0817,  ...,  0.0773,  0.0478,  0.1497]],
+       device='cuda:0'), grad: tensor([[ 0.0221,  0.0041,  0.0043,  ...,  0.0028,  0.0023,  0.0039],
+        [ 0.0226,  0.0042,  0.0044,  ...,  0.0028,  0.0023,  0.0039],
+        [-0.0435, -0.0017, -0.0018,  ..., -0.0100, -0.0069, -0.0142],
+        ...,
+        [ 0.0061,  0.0011,  0.0011,  ...,  0.0008,  0.0006,  0.0011],
+        [ 0.0119,  0.0006,  0.0006,  ...,  0.0027,  0.0018,  0.0038],
+        [-0.0356, -0.0089, -0.0095,  ..., -0.0026, -0.0028, -0.0036]],
+       device='cuda:0')
+Epoch 52, bias, value: tensor([ 0.0814,  0.1228, -0.0478,  0.0417,  0.0473, -0.0289,  0.0106],
+       device='cuda:0'), grad: tensor([ 0.0687,  0.0696, -0.1479,  0.0554,  0.0189,  0.0403, -0.1048],
+       device='cuda:0')
+306
+0.0017103063703014388
+changing lr
+epoch 51, time 420.48, cls_loss 0.6595 cls_loss_mapping 2.0401 cls_loss_causal 1.4643 re_mapping 0.0449 re_causal 0.0425 /// teacc 89.42 lr 0.00154469
+Epoch 53, weight, value: tensor([[ 0.1674,  0.2906,  0.2762,  ..., -0.2680, -0.2660, -0.2151],
+        [-0.0836,  0.0804, -0.0327,  ...,  0.0714,  0.0374,  0.0056],
+        [-0.0741, -0.1654, -0.0751,  ...,  0.0094, -0.0058,  0.0187],
+        ...,
+        [-0.3658, -0.5348, -0.4245,  ...,  0.0199,  0.0732,  0.0695],
+        [ 0.0564, -0.1038, -0.0886,  ..., -0.3443, -0.4799, -0.4483],
+        [ 0.1676,  0.1917,  0.0824,  ...,  0.0866,  0.0639,  0.1604]],
+       device='cuda:0'), grad: tensor([[ 0.0076,  0.0003,  0.0007,  ...,  0.0011,  0.0011,  0.0021],
+        [-0.0318, -0.0023, -0.0035,  ..., -0.0024, -0.0024, -0.0066],
+        [ 0.0085,  0.0007,  0.0010,  ...,  0.0011,  0.0011,  0.0021],
+        ...,
+        [ 0.0069,  0.0006,  0.0008,  ...,  0.0009,  0.0009,  0.0017],
+        [ 0.0067,  0.0005,  0.0008,  ...,  0.0007,  0.0007,  0.0016],
+        [-0.0081, -0.0007, -0.0012,  ..., -0.0019, -0.0020, -0.0026]],
+       device='cuda:0')
+Epoch 53, bias, value: tensor([ 0.0825,  0.1186, -0.0525,  0.0501,  0.0567, -0.0294,  0.0049],
+       device='cuda:0'), grad: tensor([ 0.0355, -0.1305,  0.0349,  0.0417,  0.0282,  0.0275, -0.0374],
+       device='cuda:0')
+306
+0.0015446867550656784
+changing lr
+epoch 52, time 421.79, cls_loss 0.6403 cls_loss_mapping 2.0455 cls_loss_causal 1.4441 re_mapping 0.0434 re_causal 0.0413 /// teacc 87.98 lr 0.00138603
+Epoch 54, weight, value: tensor([[ 0.1700,  0.2991,  0.2856,  ..., -0.2555, -0.2530, -0.2064],
+        [-0.0794,  0.0806, -0.0296,  ...,  0.0572,  0.0276,  0.0022],
+        [-0.0745, -0.1847, -0.0934,  ...,  0.0198,  0.0021,  0.0289],
+        ...,
+        [-0.3688, -0.5276, -0.4233,  ...,  0.0200,  0.0706,  0.0642],
+        [ 0.0601, -0.1121, -0.1027,  ..., -0.3474, -0.4788, -0.4522],
+        [ 0.1672,  0.1950,  0.0889,  ...,  0.0822,  0.0556,  0.1569]],
+       device='cuda:0'), grad: tensor([[-0.0292, -0.0135, -0.0124,  ..., -0.0029, -0.0028, -0.0047],
+        [ 0.0029,  0.0004,  0.0004,  ...,  0.0005,  0.0004,  0.0006],
+        [ 0.0018,  0.0002,  0.0002,  ...,  0.0003,  0.0003,  0.0004],
+        ...,
+        [ 0.0016,  0.0002,  0.0002,  ...,  0.0003,  0.0002,  0.0003],
+        [ 0.0077,  0.0010,  0.0009,  ...,  0.0013,  0.0011,  0.0016],
+        [ 0.0132,  0.0113,  0.0105,  ...,  0.0002,  0.0004,  0.0013]],
+       device='cuda:0')
+Epoch 54, bias, value: tensor([ 0.0852,  0.1231, -0.0474,  0.0441,  0.0445, -0.0313,  0.0089],
+       device='cuda:0'), grad: tensor([-0.0321,  0.0087,  0.0050,  0.0062,  0.0050,  0.0232, -0.0160],
+       device='cuda:0')
+306
+0.001386025680863044
+changing lr
+epoch 53, time 420.54, cls_loss 0.5982 cls_loss_mapping 2.0452 cls_loss_causal 1.4220 re_mapping 0.0433 re_causal 0.0409 /// teacc 87.98 lr 0.00123464
+Epoch 55, weight, value: tensor([[ 0.1605,  0.2768,  0.2644,  ..., -0.2646, -0.2604, -0.2135],
+        [-0.0780,  0.0805, -0.0329,  ...,  0.0604,  0.0345,  0.0032],
+        [-0.0667, -0.1687, -0.0771,  ...,  0.0298,  0.0108,  0.0384],
+        ...,
+        [-0.3622, -0.5148, -0.4106,  ...,  0.0126,  0.0555,  0.0614],
+        [ 0.0572, -0.1024, -0.0913,  ..., -0.3596, -0.4892, -0.4574],
+        [ 0.1655,  0.1951,  0.0904,  ...,  0.0862,  0.0589,  0.1562]],
+       device='cuda:0'), grad: tensor([[-0.0429, -0.0096, -0.0135,  ..., -0.0065, -0.0084, -0.0064],
+        [ 0.0397,  0.0013,  0.0030,  ...,  0.0031,  0.0033,  0.0051],
+        [-0.0873, -0.0030, -0.0063,  ..., -0.0065, -0.0068, -0.0114],
+        ...,
+        [ 0.0170,  0.0006,  0.0013,  ...,  0.0013,  0.0014,  0.0022],
+        [ 0.0094,  0.0003,  0.0006,  ...,  0.0006,  0.0007,  0.0012],
+        [ 0.0608,  0.0102,  0.0146,  ...,  0.0077,  0.0097,  0.0088]],
+       device='cuda:0')
+Epoch 55, bias, value: tensor([ 0.0837,  0.1162, -0.0435,  0.0390,  0.0561, -0.0348,  0.0093],
+       device='cuda:0'), grad: tensor([-0.0792,  0.1398, -0.3162,  0.0130,  0.0605,  0.0350,  0.1471],
+       device='cuda:0')
+306
+0.0012346426699819469
+changing lr
+epoch 54, time 417.74, cls_loss 0.6471 cls_loss_mapping 2.0412 cls_loss_causal 1.4022 re_mapping 0.0420 re_causal 0.0397 /// teacc 88.94 lr 0.00109084
+Epoch 56, weight, value: tensor([[ 0.1643,  0.2815,  0.2681,  ..., -0.2593, -0.2592, -0.2131],
+        [-0.0798,  0.0719, -0.0427,  ...,  0.0656,  0.0399,  0.0046],
+        [-0.0726, -0.1759, -0.0828,  ...,  0.0280,  0.0116,  0.0369],
+        ...,
+        [-0.3606, -0.5114, -0.4104,  ...,  0.0291,  0.0686,  0.0694],
+        [ 0.0555, -0.1037, -0.0930,  ..., -0.3685, -0.4980, -0.4647],
+        [ 0.1699,  0.2006,  0.0954,  ...,  0.0803,  0.0539,  0.1551]],
+       device='cuda:0'), grad: tensor([[ 4.2076e-03,  5.1223e-06,  3.4356e-04,  ...,  4.3941e-04,
+          5.0259e-04,  1.0309e-03],
+        [ 1.6006e-02,  5.2299e-03,  4.2534e-03,  ...,  2.4834e-03,
+          2.5387e-03,  2.4490e-03],
+        [ 7.8917e-04, -1.7679e-04,  2.0266e-04,  ...,  2.4915e-04,
+          3.8743e-04,  5.2929e-04],
+        ...,
+        [ 2.0615e-02,  1.7614e-03,  3.0117e-03,  ...,  2.6913e-03,
+          2.9354e-03,  4.5471e-03],
+        [ 1.6804e-03,  1.1688e-04,  2.1267e-04,  ...,  2.0075e-04,
+          2.1243e-04,  3.5620e-04],
+        [-4.5837e-02, -7.0534e-03, -8.3313e-03,  ..., -6.3782e-03,
+         -6.9199e-03, -9.4986e-03]], device='cuda:0')
+Epoch 56, bias, value: tensor([ 0.0877,  0.1152, -0.0503,  0.0404,  0.0519, -0.0371,  0.0151],
+       device='cuda:0'), grad: tensor([ 0.0201, -0.0175,  0.0075,  0.0110,  0.0752,  0.0066, -0.1029],
+       device='cuda:0')
+306
+0.0010908425876598518
+changing lr
+epoch 55, time 420.56, cls_loss 0.6255 cls_loss_mapping 2.0456 cls_loss_causal 1.4017 re_mapping 0.0412 re_causal 0.0390 /// teacc 88.94 lr 0.00095492
+Epoch 57, weight, value: tensor([[ 0.1692,  0.2884,  0.2772,  ..., -0.2570, -0.2539, -0.2079],
+        [-0.0825,  0.0674, -0.0517,  ...,  0.0647,  0.0386,  0.0045],
+        [-0.0756, -0.1969, -0.0993,  ...,  0.0249,  0.0070,  0.0358],
+        ...,
+        [-0.3653, -0.5086, -0.4107,  ...,  0.0270,  0.0663,  0.0618],
+        [ 0.0595, -0.1025, -0.0968,  ..., -0.3672, -0.4936, -0.4614],
+        [ 0.1694,  0.2010,  0.0974,  ...,  0.0843,  0.0535,  0.1552]],
+       device='cuda:0'), grad: tensor([[ 0.0190,  0.0012,  0.0018,  ...,  0.0018,  0.0019,  0.0036],
+        [ 0.0145,  0.0009,  0.0014,  ...,  0.0014,  0.0015,  0.0028],
+        [-0.0478, -0.0008, -0.0004,  ..., -0.0023, -0.0050, -0.0054],
+        ...,
+        [ 0.0038,  0.0002,  0.0004,  ...,  0.0003,  0.0003,  0.0008],
+        [ 0.0635,  0.0018,  0.0020,  ...,  0.0037,  0.0063,  0.0087],
+        [-0.0552, -0.0036, -0.0054,  ..., -0.0049, -0.0051, -0.0110]],
+       device='cuda:0')
+Epoch 57, bias, value: tensor([ 0.0927,  0.1149, -0.0493,  0.0438,  0.0419, -0.0292,  0.0096],
+       device='cuda:0'), grad: tensor([ 0.0613,  0.0451, -0.1395,  0.0105,  0.0150,  0.2004, -0.1929],
+       device='cuda:0')
+306
+0.000954915028125264
+changing lr
+epoch 56, time 419.09, cls_loss 0.5625 cls_loss_mapping 2.0531 cls_loss_causal 1.3515 re_mapping 0.0411 re_causal 0.0385 /// teacc 88.94 lr 0.00082713
+Epoch 58, weight, value: tensor([[ 0.1664,  0.2805,  0.2698,  ..., -0.2798, -0.2724, -0.2223],
+        [-0.0820,  0.0573, -0.0649,  ...,  0.0658,  0.0384,  0.0076],
+        [-0.0737, -0.1920, -0.0888,  ...,  0.0226,  0.0050,  0.0402],
+        ...,
+        [-0.3645, -0.5015, -0.4058,  ...,  0.0324,  0.0707,  0.0632],
+        [ 0.0578, -0.1028, -0.0962,  ..., -0.3558, -0.4842, -0.4537],
+        [ 0.1686,  0.2076,  0.1026,  ...,  0.0982,  0.0657,  0.1580]],
+       device='cuda:0'), grad: tensor([[ 2.1744e-03,  2.7776e-04,  2.4962e-04,  ...,  3.2330e-04,
+          3.7146e-04,  5.7364e-04],
+        [ 1.5602e-03,  1.7095e-04,  1.4687e-04,  ...,  2.4152e-04,
+          2.7680e-04,  4.2391e-04],
+        [-7.6675e-03, -8.1491e-04, -6.8951e-04,  ..., -1.2026e-03,
+         -1.3714e-03, -2.1000e-03],
+        ...,
+        [ 1.6956e-03,  1.8084e-04,  1.5330e-04,  ...,  2.6560e-04,
+          3.0279e-04,  4.6396e-04],
+        [ 5.9962e-05,  6.8434e-06,  5.9791e-06,  ...,  9.3877e-06,
+          1.0632e-05,  1.6138e-05],
+        [ 1.6832e-03,  1.2410e-04,  8.7261e-05,  ...,  2.8634e-04,
+          3.2163e-04,  4.8828e-04]], device='cuda:0')
+Epoch 58, bias, value: tensor([ 0.0884,  0.1201, -0.0452,  0.0478,  0.0410, -0.0308,  0.0060],
+       device='cuda:0'), grad: tensor([ 0.0088,  0.0065, -0.0323,  0.0021,  0.0071,  0.0002,  0.0076],
+       device='cuda:0')
+306
+0.0008271337313934874
+changing lr
+epoch 57, time 420.79, cls_loss 0.5819 cls_loss_mapping 2.0409 cls_loss_causal 1.3912 re_mapping 0.0402 re_causal 0.0376 /// teacc 88.94 lr 0.00070776
+Epoch 59, weight, value: tensor([[ 0.1644,  0.2792,  0.2687,  ..., -0.2735, -0.2651, -0.2179],
+        [-0.0823,  0.0677, -0.0604,  ...,  0.0627,  0.0339,  0.0021],
+        [-0.0732, -0.1969, -0.0928,  ...,  0.0205,  0.0031,  0.0383],
+        ...,
+        [-0.3631, -0.4917, -0.3948,  ...,  0.0312,  0.0701,  0.0655],
+        [ 0.0622, -0.1078, -0.1042,  ..., -0.3509, -0.4804, -0.4512],
+        [ 0.1663,  0.2009,  0.1015,  ...,  0.0960,  0.0660,  0.1589]],
+       device='cuda:0'), grad: tensor([[ 1.6144e-02,  1.7414e-03,  2.1858e-03,  ...,  1.9455e-03,
+          2.1019e-03,  3.8147e-03],
+        [-1.5297e-02, -1.3256e-03, -2.1076e-03,  ..., -1.4162e-03,
+         -1.3514e-03, -4.2534e-03],
+        [ 2.9640e-03,  2.9659e-04,  4.3821e-04,  ...,  3.3402e-04,
+          3.4928e-04,  8.4686e-04],
+        ...,
+        [-4.4670e-03, -1.2350e-04, -8.0287e-05,  ..., -9.2363e-04,
+         -1.0490e-03, -1.0910e-03],
+        [ 9.1934e-03,  1.2035e-03,  1.5831e-03,  ...,  1.0815e-03,
+          1.1730e-03,  2.4529e-03],
+        [-1.2871e-02, -2.3365e-03, -2.7122e-03,  ..., -1.4715e-03,
+         -1.7052e-03, -2.7828e-03]], device='cuda:0')
+Epoch 59, bias, value: tensor([ 0.0872,  0.1175, -0.0481,  0.0446,  0.0454, -0.0272,  0.0075],
+       device='cuda:0'), grad: tensor([ 0.0599, -0.0846,  0.0146,  0.0167, -0.0118,  0.0374, -0.0320],
+       device='cuda:0')
+306
+0.00070775603199067
+changing lr
+epoch 58, time 421.51, cls_loss 0.5667 cls_loss_mapping 2.0523 cls_loss_causal 1.3185 re_mapping 0.0396 re_causal 0.0368 /// teacc 90.38 lr 0.00059702
+Epoch 60, weight, value: tensor([[ 0.1662,  0.2792,  0.2662,  ..., -0.2792, -0.2715, -0.2194],
+        [-0.0859,  0.0614, -0.0696,  ...,  0.0585,  0.0312, -0.0010],
+        [-0.0740, -0.1928, -0.0858,  ...,  0.0312,  0.0145,  0.0450],
+        ...,
+        [-0.3598, -0.4918, -0.3956,  ...,  0.0319,  0.0691,  0.0661],
+        [ 0.0550, -0.1035, -0.1020,  ..., -0.3606, -0.4917, -0.4607],
+        [ 0.1704,  0.2014,  0.1040,  ...,  0.1009,  0.0705,  0.1627]],
+       device='cuda:0'), grad: tensor([[ 2.1706e-03,  3.4928e-04,  3.3855e-04,  ...,  3.1447e-04,
+          3.1590e-04,  5.2166e-04],
+        [ 2.9254e-04,  8.3804e-05,  3.9667e-05,  ..., -6.4194e-05,
+         -1.1313e-04, -3.3468e-05],
+        [-1.3245e-02, -2.3193e-03, -1.9464e-03,  ..., -1.4248e-03,
+         -7.5340e-04, -2.7142e-03],
+        ...,
+        [ 3.2024e-03,  4.8566e-04,  4.4274e-04,  ...,  3.8338e-04,
+          3.5238e-04,  6.9523e-04],
+        [ 2.8324e-03,  4.9448e-04,  4.3583e-04,  ...,  3.5644e-04,
+          2.4247e-04,  6.2943e-04],
+        [ 4.3106e-03,  9.1600e-04,  7.8106e-04,  ...,  5.9938e-04,
+          2.2066e-04,  1.0061e-03]], device='cuda:0')
+Epoch 60, bias, value: tensor([ 0.0932,  0.1160, -0.0521,  0.0401,  0.0501, -0.0339,  0.0101],
+       device='cuda:0'), grad: tensor([ 0.0081,  0.0022, -0.0592,  0.0039,  0.0127,  0.0121,  0.0202],
+       device='cuda:0')
+306
+0.0005970223407163104
+changing lr
+epoch 59, time 421.46, cls_loss 0.5702 cls_loss_mapping 2.0541 cls_loss_causal 1.3325 re_mapping 0.0380 re_causal 0.0353 /// teacc 90.38 lr 0.00049516
+Epoch 61, weight, value: tensor([[ 0.1654,  0.2840,  0.2702,  ..., -0.2772, -0.2686, -0.2198],
+        [-0.0827,  0.0617, -0.0699,  ...,  0.0575,  0.0298,  0.0010],
+        [-0.0743, -0.1997, -0.0919,  ...,  0.0279,  0.0116,  0.0425],
+        ...,
+        [-0.3650, -0.4965, -0.4012,  ...,  0.0317,  0.0690,  0.0643],
+        [ 0.0560, -0.0982, -0.0928,  ..., -0.3629, -0.4926, -0.4602],
+        [ 0.1726,  0.2019,  0.1051,  ...,  0.1039,  0.0728,  0.1663]],
+       device='cuda:0'), grad: tensor([[ 0.0074,  0.0014,  0.0013,  ...,  0.0014,  0.0013,  0.0021],
+        [ 0.0036,  0.0007,  0.0005,  ...,  0.0008,  0.0008,  0.0011],
+        [ 0.0021,  0.0004,  0.0003,  ...,  0.0005,  0.0004,  0.0006],
+        ...,
+        [ 0.0012,  0.0003,  0.0002,  ...,  0.0003,  0.0003,  0.0004],
+        [ 0.0429,  0.0070,  0.0087,  ...,  0.0069,  0.0057,  0.0109],
+        [-0.0335, -0.0042, -0.0080,  ..., -0.0039, -0.0027, -0.0072]],
+       device='cuda:0')
+Epoch 61, bias, value: tensor([ 0.0898,  0.1203, -0.0497,  0.0354,  0.0435, -0.0313,  0.0140],
+       device='cuda:0'), grad: tensor([ 0.0249,  0.0122,  0.0072, -0.0845,  0.0042,  0.1394, -0.1035],
+       device='cuda:0')
+306
+0.0004951556604879052
+changing lr
+epoch 60, time 419.32, cls_loss 0.5831 cls_loss_mapping 2.0492 cls_loss_causal 1.3505 re_mapping 0.0378 re_causal 0.0350 /// teacc 89.42 lr 0.00040236
+Epoch 62, weight, value: tensor([[ 0.1645,  0.2814,  0.2675,  ..., -0.2761, -0.2687, -0.2214],
+        [-0.0864,  0.0583, -0.0738,  ...,  0.0571,  0.0277, -0.0019],
+        [-0.0722, -0.1938, -0.0843,  ...,  0.0287,  0.0140,  0.0436],
+        ...,
+        [-0.3644, -0.4986, -0.3991,  ...,  0.0307,  0.0682,  0.0676],
+        [ 0.0584, -0.0970, -0.0959,  ..., -0.3667, -0.4978, -0.4617],
+        [ 0.1711,  0.2043,  0.1064,  ...,  0.1050,  0.0757,  0.1666]],
+       device='cuda:0'), grad: tensor([[ 3.0716e-02,  7.7782e-03,  6.6910e-03,  ...,  4.2915e-03,
+          2.8934e-03,  5.9814e-03],
+        [-3.8544e-02, -1.0429e-02, -8.8577e-03,  ..., -5.4703e-03,
+         -3.7842e-03, -7.4997e-03],
+        [-3.1147e-03, -1.1057e-04, -2.7323e-04,  ..., -3.8743e-04,
+         -6.3479e-05, -5.5122e-04],
+        ...,
+        [ 1.2245e-03,  2.8682e-04,  2.0385e-04,  ...,  5.6654e-05,
+          5.2452e-05,  1.5855e-04],
+        [ 9.1600e-04,  1.7643e-04,  1.6618e-04,  ...,  1.0639e-04,
+          4.8012e-05,  1.5295e-04],
+        [ 2.4617e-05,  3.3307e-04,  4.5729e-04,  ...,  4.0340e-04,
+          1.1462e-04,  1.2183e-04]], device='cuda:0')
+Epoch 62, bias, value: tensor([ 0.0899,  0.1163, -0.0497,  0.0414,  0.0450, -0.0292,  0.0107],
+       device='cuda:0'), grad: tensor([ 0.0873, -0.1064, -0.0119,  0.0263,  0.0036,  0.0029, -0.0019],
+       device='cuda:0')
+306
+0.00040236113724274745
+changing lr
+epoch 61, time 419.25, cls_loss 0.5680 cls_loss_mapping 2.0480 cls_loss_causal 1.3217 re_mapping 0.0378 re_causal 0.0350 /// teacc 90.87 lr 0.00031883
+Epoch 63, weight, value: tensor([[ 1.6599e-01,  2.8166e-01,  2.6808e-01,  ..., -2.7523e-01,
+         -2.6849e-01, -2.2076e-01],
+        [-8.6915e-02,  5.9464e-02, -7.1252e-02,  ...,  5.9554e-02,
+          3.0590e-02, -4.7475e-05],
+        [-7.1597e-02, -1.9035e-01, -8.3432e-02,  ...,  3.3137e-02,
+          1.6465e-02,  4.6501e-02],
+        ...,
+        [-3.6302e-01, -4.9686e-01, -3.9735e-01,  ...,  2.8738e-02,
+          6.5147e-02,  6.6450e-02],
+        [ 5.5915e-02, -9.6955e-02, -9.7965e-02,  ..., -3.6984e-01,
+         -5.0135e-01, -4.6549e-01],
+        [ 1.6960e-01,  1.9944e-01,  1.0292e-01,  ...,  1.0119e-01,
+          7.3095e-02,  1.6425e-01]], device='cuda:0'), grad: tensor([[-0.0522, -0.0085, -0.0075,  ..., -0.0063, -0.0060, -0.0133],
+        [ 0.0183,  0.0012,  0.0015,  ...,  0.0028,  0.0032,  0.0048],
+        [ 0.0113,  0.0009,  0.0012,  ...,  0.0015,  0.0014,  0.0030],
+        ...,
+        [ 0.0105,  0.0009,  0.0010,  ...,  0.0017,  0.0016,  0.0032],
+        [ 0.0152,  0.0010,  0.0013,  ...,  0.0022,  0.0024,  0.0039],
+        [-0.0151,  0.0035,  0.0012,  ..., -0.0035, -0.0041, -0.0049]],
+       device='cuda:0')
+Epoch 63, bias, value: tensor([ 0.0907,  0.1162, -0.0486,  0.0401,  0.0474, -0.0313,  0.0095],
+       device='cuda:0'), grad: tensor([-0.2322,  0.0775,  0.0532,  0.0558,  0.0489,  0.0662, -0.0695],
+       device='cuda:0')
+306
+0.00031882564680131423
+changing lr
+epoch 62, time 423.80, cls_loss 0.5497 cls_loss_mapping 2.0468 cls_loss_causal 1.3149 re_mapping 0.0369 re_causal 0.0340 /// teacc 90.38 lr 0.00024472
+Epoch 64, weight, value: tensor([[ 1.6441e-01,  2.7808e-01,  2.6571e-01,  ..., -2.7440e-01,
+         -2.6810e-01, -2.2065e-01],
+        [-8.7096e-02,  5.9130e-02, -7.3507e-02,  ...,  5.8755e-02,
+          2.9932e-02, -6.6119e-06],
+        [-7.3013e-02, -1.9357e-01, -8.7417e-02,  ...,  3.1737e-02,
+          1.4677e-02,  4.6614e-02],
+        ...,
+        [-3.6234e-01, -4.9094e-01, -3.9123e-01,  ...,  2.7718e-02,
+          6.3884e-02,  6.5396e-02],
+        [ 5.7301e-02, -9.5324e-02, -9.7631e-02,  ..., -3.6711e-01,
+         -4.9796e-01, -4.6559e-01],
+        [ 1.7085e-01,  2.0330e-01,  1.0695e-01,  ...,  1.0091e-01,
+          7.2899e-02,  1.6451e-01]], device='cuda:0'), grad: tensor([[-0.0454, -0.0046, -0.0056,  ..., -0.0091, -0.0068, -0.0127],
+        [ 0.0162,  0.0017,  0.0021,  ...,  0.0027,  0.0020,  0.0041],
+        [-0.0024, -0.0005, -0.0003,  ...,  0.0003,  0.0004,  0.0002],
+        ...,
+        [ 0.0227,  0.0022,  0.0027,  ...,  0.0043,  0.0033,  0.0062],
+        [ 0.0040,  0.0004,  0.0006,  ...,  0.0005,  0.0005,  0.0010],
+        [-0.0007,  0.0003, -0.0003,  ...,  0.0005, -0.0003, -0.0002]],
+       device='cuda:0')
+Epoch 64, bias, value: tensor([ 0.0899,  0.1159, -0.0498,  0.0410,  0.0475, -0.0322,  0.0114],
+       device='cuda:0'), grad: tensor([-0.1387,  0.0490, -0.0110,  0.0142,  0.0679,  0.0104,  0.0081],
+       device='cuda:0')
+306
+0.0002447174185242325
+changing lr
+epoch 63, time 421.62, cls_loss 0.5142 cls_loss_mapping 2.0529 cls_loss_causal 1.2965 re_mapping 0.0367 re_causal 0.0339 /// teacc 90.87 lr 0.00018019
+Epoch 65, weight, value: tensor([[ 0.1658,  0.2793,  0.2669,  ..., -0.2751, -0.2701, -0.2206],
+        [-0.0865,  0.0580, -0.0752,  ...,  0.0625,  0.0331,  0.0039],
+        [-0.0747, -0.1971, -0.0904,  ...,  0.0283,  0.0122,  0.0434],
+        ...,
+        [-0.3636, -0.4924, -0.3935,  ...,  0.0274,  0.0625,  0.0643],
+        [ 0.0593, -0.0935, -0.0945,  ..., -0.3655, -0.4956, -0.4627],
+        [ 0.1711,  0.2064,  0.1098,  ...,  0.0997,  0.0721,  0.1633]],
+       device='cuda:0'), grad: tensor([[-0.0276, -0.0047, -0.0026,  ..., -0.0040, -0.0031, -0.0080],
+        [ 0.0087,  0.0015,  0.0007,  ...,  0.0011,  0.0008,  0.0025],
+        [ 0.0069,  0.0013,  0.0005,  ...,  0.0007,  0.0004,  0.0019],
+        ...,
+        [ 0.0104,  0.0017,  0.0011,  ...,  0.0017,  0.0015,  0.0031],
+        [ 0.0115,  0.0021,  0.0008,  ...,  0.0012,  0.0007,  0.0031],
+        [ 0.0128,  0.0023,  0.0010,  ...,  0.0015,  0.0010,  0.0036]],
+       device='cuda:0')
+Epoch 65, bias, value: tensor([ 0.0916,  0.1189, -0.0514,  0.0367,  0.0464, -0.0297,  0.0105],
+       device='cuda:0'), grad: tensor([-0.1389,  0.0470,  0.0418, -0.1393,  0.0469,  0.0698,  0.0727],
+       device='cuda:0')
+306
+0.0001801856965207339
+changing lr
+epoch 64, time 425.23, cls_loss 0.5302 cls_loss_mapping 2.0525 cls_loss_causal 1.2897 re_mapping 0.0365 re_causal 0.0337 /// teacc 90.38 lr 0.00012536
+Epoch 66, weight, value: tensor([[ 0.1669,  0.2763,  0.2644,  ..., -0.2773, -0.2728, -0.2219],
+        [-0.0865,  0.0600, -0.0735,  ...,  0.0618,  0.0321,  0.0024],
+        [-0.0745, -0.1963, -0.0900,  ...,  0.0312,  0.0154,  0.0455],
+        ...,
+        [-0.3641, -0.4934, -0.3939,  ...,  0.0287,  0.0643,  0.0659],
+        [ 0.0581, -0.0955, -0.0964,  ..., -0.3681, -0.4986, -0.4636],
+        [ 0.1712,  0.2091,  0.1119,  ...,  0.1016,  0.0736,  0.1645]],
+       device='cuda:0'), grad: tensor([[ 0.0050, -0.0011, -0.0010,  ...,  0.0005,  0.0009,  0.0012],
+        [ 0.0053,  0.0004,  0.0004,  ...,  0.0005,  0.0005,  0.0011],
+        [ 0.0068,  0.0003,  0.0003,  ...,  0.0008,  0.0009,  0.0017],
+        ...,
+        [ 0.0115,  0.0011,  0.0011,  ...,  0.0023,  0.0027,  0.0039],
+        [-0.0139, -0.0017, -0.0015,  ..., -0.0047, -0.0056, -0.0068],
+        [-0.0182,  0.0008,  0.0005,  ...,  0.0002,  0.0003, -0.0019]],
+       device='cuda:0')
+Epoch 66, bias, value: tensor([ 0.0932,  0.1169, -0.0513,  0.0359,  0.0466, -0.0290,  0.0104],
+       device='cuda:0'), grad: tensor([ 0.0263,  0.0238,  0.0290,  0.0158,  0.0405, -0.0296, -0.1058],
+       device='cuda:0')
+306
+0.000125360439090882
+changing lr
+epoch 65, time 422.97, cls_loss 0.5064 cls_loss_mapping 2.0453 cls_loss_causal 1.3144 re_mapping 0.0361 re_causal 0.0332 /// teacc 91.35 lr 0.00008035
+Epoch 67, weight, value: tensor([[ 0.1663,  0.2753,  0.2637,  ..., -0.2785, -0.2739, -0.2229],
+        [-0.0862,  0.0590, -0.0745,  ...,  0.0632,  0.0336,  0.0034],
+        [-0.0736, -0.1934, -0.0874,  ...,  0.0312,  0.0150,  0.0458],
+        ...,
+        [-0.3636, -0.4932, -0.3935,  ...,  0.0274,  0.0632,  0.0650],
+        [ 0.0577, -0.0946, -0.0955,  ..., -0.3662, -0.4970, -0.4630],
+        [ 0.1714,  0.2088,  0.1113,  ...,  0.1023,  0.0742,  0.1648]],
+       device='cuda:0'), grad: tensor([[-1.3611e-02, -3.2120e-03,  9.8038e-04,  ..., -1.8263e-03,
+          8.5783e-04, -4.3631e-04],
+        [ 2.1072e-02,  2.6073e-03,  3.3245e-03,  ...,  3.1147e-03,
+          3.1433e-03,  4.9019e-03],
+        [ 2.1683e-02,  1.5135e-03,  2.4071e-03,  ...,  2.5959e-03,
+          2.5940e-03,  4.6082e-03],
+        ...,
+        [ 1.8204e-02,  1.5421e-03,  2.4071e-03,  ...,  2.2659e-03,
+          2.4986e-03,  4.0054e-03],
+        [-5.5573e-02, -1.0124e-02, -1.1856e-02,  ..., -1.0994e-02,
+         -9.7351e-03, -1.5236e-02],
+        [-1.1644e-03,  6.6147e-03,  1.0653e-03,  ...,  3.5954e-03,
+         -1.0138e-03, -6.1691e-05]], device='cuda:0')
+Epoch 67, bias, value: tensor([ 0.0923,  0.1171, -0.0508,  0.0360,  0.0467, -0.0299,  0.0111],
+       device='cuda:0'), grad: tensor([-0.0202,  0.0654,  0.0815,  0.0326,  0.0665, -0.1185, -0.1074],
+       device='cuda:0')
+306
+8.03520570068517e-05
+changing lr
+epoch 66, time 424.32, cls_loss 0.5498 cls_loss_mapping 2.0452 cls_loss_causal 1.3130 re_mapping 0.0358 re_causal 0.0330 /// teacc 89.90 lr 0.00004525
+Epoch 68, weight, value: tensor([[ 0.1663,  0.2756,  0.2637,  ..., -0.2789, -0.2743, -0.2231],
+        [-0.0863,  0.0595, -0.0744,  ...,  0.0635,  0.0329,  0.0035],
+        [-0.0742, -0.1936, -0.0877,  ...,  0.0311,  0.0147,  0.0450],
+        ...,
+        [-0.3637, -0.4917, -0.3917,  ...,  0.0277,  0.0637,  0.0651],
+        [ 0.0574, -0.0958, -0.0963,  ..., -0.3674, -0.4979, -0.4639],
+        [ 0.1716,  0.2074,  0.1103,  ...,  0.1022,  0.0746,  0.1654]],
+       device='cuda:0'), grad: tensor([[ 0.0053,  0.0005,  0.0007,  ...,  0.0004,  0.0005,  0.0012],
+        [ 0.0115,  0.0016,  0.0019,  ...,  0.0009,  0.0011,  0.0025],
+        [ 0.0075,  0.0008,  0.0010,  ...,  0.0007,  0.0008,  0.0018],
+        ...,
+        [ 0.0057,  0.0007,  0.0009,  ...,  0.0006,  0.0007,  0.0014],
+        [ 0.0156,  0.0027,  0.0031,  ...,  0.0011,  0.0012,  0.0031],
+        [-0.0248, -0.0018, -0.0027,  ..., -0.0025, -0.0031, -0.0064]],
+       device='cuda:0')
+Epoch 68, bias, value: tensor([ 0.0922,  0.1177, -0.0519,  0.0365,  0.0465, -0.0302,  0.0118],
+       device='cuda:0'), grad: tensor([ 0.0199,  0.0426,  0.0272, -0.0812,  0.0200,  0.0595, -0.0879],
+       device='cuda:0')
+306
+4.5251191160326525e-05
+changing lr
+epoch 67, time 424.83, cls_loss 0.5198 cls_loss_mapping 2.0425 cls_loss_causal 1.2908 re_mapping 0.0355 re_causal 0.0327 /// teacc 89.90 lr 0.00002013
+Epoch 69, weight, value: tensor([[ 0.1669,  0.2761,  0.2642,  ..., -0.2791, -0.2745, -0.2228],
+        [-0.0863,  0.0594, -0.0744,  ...,  0.0634,  0.0328,  0.0035],
+        [-0.0742, -0.1941, -0.0881,  ...,  0.0313,  0.0149,  0.0450],
+        ...,
+        [-0.3642, -0.4913, -0.3916,  ...,  0.0273,  0.0633,  0.0648],
+        [ 0.0570, -0.0970, -0.0970,  ..., -0.3682, -0.4986, -0.4648],
+        [ 0.1715,  0.2075,  0.1104,  ...,  0.1022,  0.0746,  0.1653]],
+       device='cuda:0'), grad: tensor([[-2.5970e-02,  1.5163e-03,  2.1915e-03,  ..., -4.4861e-03,
+         -4.3411e-03, -6.4545e-03],
+        [ 7.3509e-03,  1.0023e-03,  1.5354e-03,  ...,  9.1362e-04,
+          8.3208e-04,  1.9741e-03],
+        [ 1.6434e-02,  1.8644e-03,  2.8133e-03,  ...,  2.1172e-03,
+          1.9474e-03,  4.4212e-03],
+        ...,
+        [-2.8763e-02, -1.3094e-03, -4.0321e-03,  ..., -3.8910e-03,
+         -5.6763e-03, -5.4321e-03],
+        [ 1.0345e-02,  1.5001e-03,  2.4033e-03,  ...,  1.1883e-03,
+          1.0653e-03,  2.8210e-03],
+        [ 1.0605e-02, -5.4970e-03, -6.4201e-03,  ...,  2.8477e-03,
+          4.9095e-03,  7.2241e-05]], device='cuda:0')
+Epoch 69, bias, value: tensor([ 0.0928,  0.1179, -0.0521,  0.0371,  0.0461, -0.0309,  0.0115],
+       device='cuda:0'), grad: tensor([-0.1022,  0.0275,  0.0638,  0.0370, -0.0541,  0.0404, -0.0125],
+       device='cuda:0')
+306
+2.0128530023804673e-05
+changing lr
+---------------------saving model at epoch 68----------------------------------------------------
+epoch 68, time 428.46, cls_loss 0.5376 cls_loss_mapping 2.0427 cls_loss_causal 1.3153 re_mapping 0.0354 re_causal 0.0327 /// teacc 92.31 lr 0.00000503
+Epoch 70, weight, value: tensor([[ 0.1670,  0.2762,  0.2643,  ..., -0.2792, -0.2746, -0.2228],
+        [-0.0864,  0.0592, -0.0747,  ...,  0.0636,  0.0329,  0.0036],
+        [-0.0745, -0.1942, -0.0883,  ...,  0.0311,  0.0146,  0.0447],
+        ...,
+        [-0.3644, -0.4915, -0.3917,  ...,  0.0273,  0.0633,  0.0647],
+        [ 0.0572, -0.0970, -0.0971,  ..., -0.3679, -0.4981, -0.4645],
+        [ 0.1718,  0.2079,  0.1108,  ...,  0.1024,  0.0747,  0.1656]],
+       device='cuda:0'), grad: tensor([[ 0.0471,  0.0083,  0.0073,  ...,  0.0062,  0.0036,  0.0099],
+        [-0.0347, -0.0034, -0.0021,  ..., -0.0019, -0.0008, -0.0117],
+        [ 0.0143,  0.0016,  0.0012,  ...,  0.0015,  0.0011,  0.0033],
+        ...,
+        [-0.0262, -0.0011, -0.0008,  ..., -0.0036, -0.0036, -0.0031],
+        [-0.0471, -0.0112, -0.0104,  ..., -0.0075, -0.0038, -0.0086],
+        [ 0.0382,  0.0049,  0.0041,  ...,  0.0044,  0.0030,  0.0084]],
+       device='cuda:0')
+Epoch 70, bias, value: tensor([ 0.0930,  0.1180, -0.0523,  0.0365,  0.0459, -0.0307,  0.0118],
+       device='cuda:0'), grad: tensor([ 0.1505, -0.2281,  0.0611,  0.0349, -0.0641, -0.0973,  0.1432],
+       device='cuda:0')
+306
+5.034667293427056e-06
+changing lr
+epoch 69, time 424.86, cls_loss 0.5488 cls_loss_mapping 2.0422 cls_loss_causal 1.2954 re_mapping 0.0354 re_causal 0.0326 /// teacc 91.83 lr 0.00000000
+---------------------saving last model at epoch 69----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_Adam', 'source_domain': 'art_painting', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_Adam/art_painting_16factor_best_test_check.csv', 'factor_num': 16, 'epoch': 'best', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of best
+randm: False
+stride: 5
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+columns: ['art_painting', 'cartoon', 'photo', 'sketch']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+                     art_painting    cartoon      photo     sketch        Avg
+w/o do (original x)     99.023438  65.145051  93.413174  72.537541  77.031922
+    art_painting    cartoon      photo    sketch        Avg
+do     21.923828  17.278157  25.868263  4.072283  15.739568
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_Adam', 'source_domain': 'art_painting', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_Adam/art_painting_16factor_last_test_check.csv', 'factor_num': 16, 'epoch': 'last', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of last
+randm: False
+stride: 5
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+columns: ['art_painting', 'cartoon', 'photo', 'sketch']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+                     art_painting   cartoon      photo     sketch        Avg
+w/o do (original x)     99.121094  69.15529  93.293413  75.031815  79.160173
+    art_painting    cartoon      photo    sketch        Avg
+do     21.923828  17.278157  25.868263  4.072283  15.739568
diff --git a/Meta-causal/code-withStyleAttack/73087.error b/Meta-causal/code-withStyleAttack/73087.error
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/Meta-causal/code-withStyleAttack/73087.log b/Meta-causal/code-withStyleAttack/73087.log
new file mode 100644
index 0000000000000000000000000000000000000000..cc2b6f367fbd2ae68dc0db267708cd2e168832bc
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73087.log
@@ -0,0 +1,1935 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'cartoon', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 5, 'factor_num': 16, 'epochs': 70, 'nbatch': 100, 'batchsize': 6, 'lr': 0.01, 'lr_scheduler': 'cosine', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//cartoon/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_Adam', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 5
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_train.hdf5 torch.Size([2107, 3, 227, 227]) torch.Size([2107])
+--------------------------CA_multiple--------------------------
+---------------------------16 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_val.hdf5 torch.Size([237, 3, 227, 227]) torch.Size([237])
+-------------------------------------loading pretrain weights----------------------------------
+Epoch 1, weight, value: tensor([[ 0.0206, -0.0125, -0.0006,  ..., -0.0122,  0.0028, -0.0069],
+        [ 0.0130, -0.0109,  0.0079,  ..., -0.0074,  0.0001,  0.0175],
+        [ 0.0101, -0.0063,  0.0135,  ...,  0.0111,  0.0084,  0.0089],
+        ...,
+        [-0.0173, -0.0082,  0.0070,  ..., -0.0040, -0.0204,  0.0073],
+        [ 0.0075,  0.0098, -0.0054,  ...,  0.0159, -0.0076, -0.0129],
+        [ 0.0185,  0.0168,  0.0134,  ..., -0.0006, -0.0144,  0.0054]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([-0.0099,  0.0046,  0.0041,  0.0085,  0.0021, -0.0035,  0.0072],
+       device='cuda:0'), grad: None
+351
+0.01
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 518.19, cls_loss 5.4373 cls_loss_mapping 406.7973 cls_loss_causal 406.8889 re_mapping 9810.7366 re_causal 9490.2876 /// teacc 44.73 lr 0.00999497
+Epoch 2, weight, value: tensor([[ 0.0623,  0.0052,  0.0525,  ...,  0.0170,  0.0389,  0.0173],
+        [ 0.0504,  0.0386, -0.0032,  ...,  0.0226,  0.0440,  0.0563],
+        [ 0.0182,  0.0095,  0.0226,  ..., -0.0242, -0.0538, -0.0475],
+        ...,
+        [-0.1064, -0.1197, -0.0446,  ...,  0.0502, -0.0238,  0.0349],
+        [ 0.0279,  0.0221, -0.0085,  ..., -0.0132, -0.0022, -0.0298],
+        [-0.0104, -0.0061,  0.0146,  ..., -0.1069, -0.0788, -0.0590]],
+       device='cuda:0'), grad: tensor([[ 0.1097,  0.1602,  0.1032,  ..., -0.0157, -0.0135, -0.0096],
+        [-0.1246, -0.1804, -0.1169,  ..., -0.0024, -0.0042, -0.0038],
+        [ 0.3550,  0.3459,  0.3862,  ...,  0.0648,  0.0768,  0.0900],
+        ...,
+        [ 0.0087,  0.0086,  0.0091,  ...,  0.0183,  0.0180,  0.0142],
+        [-0.0138, -0.0248, -0.0588,  ...,  0.3757,  0.2469,  0.2766],
+        [-0.3472, -0.3269, -0.3342,  ..., -0.4417, -0.3252, -0.3684]],
+       device='cuda:0')
+Epoch 2, bias, value: tensor([ 0.0011,  0.0128,  0.0249,  0.0073,  0.0168, -0.0057,  0.0009],
+       device='cuda:0'), grad: tensor([ 0.1298, -0.1470,  0.3223,  0.0142,  0.0095,  0.1583, -0.4871],
+       device='cuda:0')
+351
+0.009994965332706574
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 522.17, cls_loss 2.3198 cls_loss_mapping 2.5966 cls_loss_causal 2.3165 re_mapping 0.8930 re_causal 0.8167 /// teacc 62.87 lr 0.00997987
+Epoch 3, weight, value: tensor([[ 0.0569, -0.0049, -0.0204,  ...,  0.0898,  0.0759,  0.0744],
+        [ 0.1439,  0.1154,  0.0688,  ..., -0.0543, -0.0029, -0.0250],
+        [-0.0017, -0.0260,  0.0201,  ..., -0.0139,  0.0003,  0.0077],
+        ...,
+        [-0.1973, -0.1831, -0.1051,  ...,  0.0410, -0.0605,  0.0030],
+        [ 0.0333,  0.0510,  0.0118,  ..., -0.0266,  0.0018, -0.0087],
+        [ 0.0370,  0.0385,  0.1028,  ..., -0.0695, -0.0379, -0.0296]],
+       device='cuda:0'), grad: tensor([[-8.0627e-02, -6.7749e-02, -7.0679e-02,  ..., -2.1289e-01,
+         -2.3096e-01, -2.0898e-01],
+        [ 7.3059e-02,  5.3650e-02,  5.9448e-02,  ...,  1.7664e-01,
+          1.6736e-01,  1.5613e-01],
+        [-1.0040e-01, -8.0200e-02, -5.7922e-02,  ..., -5.7983e-02,
+         -9.7046e-02, -8.1543e-02],
+        ...,
+        [ 5.9605e-07,  7.1526e-07,  5.9605e-07,  ...,  1.9073e-06,
+          2.7418e-06,  2.3842e-06],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.0791e-01,  9.4238e-02,  6.9153e-02,  ...,  9.4177e-02,
+          1.6064e-01,  1.3428e-01]], device='cuda:0')
+Epoch 3, bias, value: tensor([ 0.0077, -0.0033,  0.0529,  0.0117,  0.0194, -0.0196, -0.0048],
+       device='cuda:0'), grad: tensor([-2.3303e-01,  1.3806e-01, -1.6663e-01, -4.7684e-07,  3.6955e-06,
+         0.0000e+00,  2.6147e-01], device='cuda:0')
+351
+0.009979871469976196
+changing lr
+epoch 2, time 518.07, cls_loss 2.0617 cls_loss_mapping 2.0324 cls_loss_causal 2.0233 re_mapping 0.6528 re_causal 0.6466 /// teacc 59.49 lr 0.00995475
+Epoch 4, weight, value: tensor([[ 0.1066,  0.0372, -0.0023,  ...,  0.0296,  0.0134, -0.0079],
+        [ 0.0982,  0.0746,  0.0238,  ...,  0.0458,  0.0942,  0.0869],
+        [-0.0995, -0.1157, -0.0477,  ..., -0.0461, -0.0631, -0.0446],
+        ...,
+        [-0.1205, -0.0997, -0.0425,  ...,  0.0895, -0.0287,  0.0410],
+        [ 0.0116,  0.0516, -0.0340,  ...,  0.0091,  0.0460,  0.0353],
+        [ 0.0383,  0.0310,  0.1226,  ..., -0.1330, -0.0595, -0.0649]],
+       device='cuda:0'), grad: tensor([[-0.0112, -0.0108, -0.0073,  ..., -0.0033, -0.0034, -0.0035],
+        [-0.1718, -0.1615, -0.1544,  ..., -0.0488, -0.0637, -0.0576],
+        [ 0.0361,  0.0218,  0.0097,  ...,  0.1201,  0.1835,  0.1125],
+        ...,
+        [-0.1973, -0.1915, -0.0606,  ..., -0.2258, -0.3081, -0.1932],
+        [ 0.1639,  0.1724,  0.0528,  ...,  0.1064,  0.1255,  0.0816],
+        [ 0.1801,  0.1697,  0.1598,  ...,  0.0513,  0.0663,  0.0602]],
+       device='cuda:0')
+Epoch 4, bias, value: tensor([ 0.0121,  0.0132,  0.0416,  0.0290,  0.0112, -0.0125, -0.0201],
+       device='cuda:0'), grad: tensor([-0.0087, -0.1665,  0.1669,  0.0000, -0.3330,  0.1683,  0.1730],
+       device='cuda:0')
+351
+0.009954748808839675
+changing lr
+epoch 3, time 518.92, cls_loss 1.7543 cls_loss_mapping 2.0426 cls_loss_causal 2.0277 re_mapping 0.5062 re_causal 0.5035 /// teacc 62.03 lr 0.00991965
+Epoch 5, weight, value: tensor([[ 1.0972e-01,  4.5846e-02, -2.1076e-03,  ...,  4.2864e-02,
+          1.4302e-04, -2.4277e-02],
+        [ 1.3476e-01,  9.4750e-02,  4.3202e-02,  ...,  4.5693e-02,
+          1.1865e-01,  1.2638e-01],
+        [-1.2484e-01, -1.1528e-01, -4.7097e-02,  ..., -1.1303e-01,
+         -1.1948e-01, -1.0327e-01],
+        ...,
+        [-2.0834e-01, -1.6651e-01, -6.2396e-02,  ...,  7.3227e-02,
+         -6.4609e-03,  5.2403e-02],
+        [ 3.6078e-02,  5.5139e-02, -2.6510e-02,  ..., -1.4357e-02,
+          2.8393e-03,  4.3877e-03],
+        [ 9.3488e-02,  7.3157e-02,  1.3228e-01,  ..., -8.0926e-02,
+         -4.7008e-02, -4.7853e-02]], device='cuda:0'), grad: tensor([[ 2.4072e-01,  2.1521e-01,  7.2754e-02,  ...,  2.4902e-01,
+          1.6736e-01,  1.6858e-01],
+        [ 2.4817e-01,  2.3669e-01,  1.5027e-01,  ...,  1.4734e-01,
+          9.9609e-02,  9.9854e-02],
+        [-2.5732e-01, -2.3022e-01, -1.3477e-01,  ..., -1.7908e-01,
+         -1.5112e-01, -1.6101e-01],
+        ...,
+        [ 5.8413e-05,  6.5923e-05,  9.5367e-06,  ...,  1.5426e-04,
+          1.7464e-04,  1.5485e-04],
+        [-4.1687e-02, -4.6997e-02, -6.8054e-03,  ..., -1.1005e-01,
+         -1.2463e-01, -1.1047e-01],
+        [-1.8982e-01, -1.7480e-01, -8.1543e-02,  ..., -1.0730e-01,
+          8.6823e-03,  2.9984e-03]], device='cuda:0')
+Epoch 5, bias, value: tensor([ 0.0187,  0.0262,  0.0438,  0.0030,  0.0252, -0.0401, -0.0216],
+       device='cuda:0'), grad: tensor([ 3.6523e-01,  3.2349e-01, -3.3325e-01,  0.0000e+00,  1.1158e-04,
+        -7.9407e-02, -2.7637e-01], device='cuda:0')
+351
+0.009919647942993149
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 522.81, cls_loss 1.7983 cls_loss_mapping 2.1033 cls_loss_causal 2.0869 re_mapping 0.3658 re_causal 0.3649 /// teacc 75.95 lr 0.00987464
+Epoch 6, weight, value: tensor([[ 0.0988,  0.0231,  0.0325,  ...,  0.0563,  0.0707,  0.0377],
+        [ 0.0811,  0.0617,  0.0013,  ...,  0.0290,  0.0530,  0.0680],
+        [-0.1649, -0.1389, -0.0870,  ..., -0.1273, -0.1495, -0.1226],
+        ...,
+        [-0.2188, -0.1764, -0.0801,  ...,  0.0568,  0.0230,  0.0689],
+        [ 0.0687,  0.0843, -0.0158,  ...,  0.0631,  0.0941,  0.0907],
+        [ 0.1626,  0.1273,  0.1855,  ..., -0.1002, -0.1133, -0.1072]],
+       device='cuda:0'), grad: tensor([[ 4.7684e-07,  3.5763e-07,  1.1921e-07,  ...,  4.7684e-07,
+          3.5763e-07,  3.5763e-07],
+        [ 5.9814e-02,  4.8126e-02,  1.7670e-02,  ...,  6.1340e-02,
+          4.8248e-02,  5.2704e-02],
+        [ 2.1458e-06,  1.6689e-06,  5.9605e-07,  ...,  2.2650e-06,
+          1.7881e-06,  1.9073e-06],
+        ...,
+        [-1.1127e-01, -8.3801e-02, -4.9835e-02,  ..., -1.3354e-01,
+         -1.0919e-01, -1.2201e-01],
+        [ 4.6234e-02,  3.1738e-02,  2.9968e-02,  ...,  6.6040e-02,
+          5.5969e-02,  6.3843e-02],
+        [ 5.1689e-03,  3.9330e-03,  2.1915e-03,  ...,  6.0577e-03,
+          4.9286e-03,  5.4932e-03]], device='cuda:0')
+Epoch 6, bias, value: tensor([-0.0026,  0.0343,  0.0580,  0.0138,  0.0343, -0.0315, -0.0380],
+       device='cuda:0'), grad: tensor([ 1.1921e-06,  1.5442e-01,  5.6028e-06,  9.8944e-06, -3.2593e-01,
+         1.5674e-01,  1.4862e-02], device='cuda:0')
+351
+0.009874639560909117
+changing lr
+epoch 5, time 530.71, cls_loss 1.5357 cls_loss_mapping 2.0442 cls_loss_causal 2.0322 re_mapping 0.2490 re_causal 0.2480 /// teacc 59.07 lr 0.00981981
+Epoch 7, weight, value: tensor([[ 0.1005,  0.0226,  0.0266,  ...,  0.0983,  0.0924,  0.0614],
+        [ 0.0736,  0.0566, -0.0040,  ...,  0.0133,  0.0608,  0.0756],
+        [-0.1302, -0.1201, -0.0352,  ..., -0.1424, -0.1554, -0.1357],
+        ...,
+        [-0.1845, -0.1410, -0.0547,  ...,  0.0211,  0.0014,  0.0217],
+        [ 0.0742,  0.0847, -0.0358,  ...,  0.0730,  0.0786,  0.0927],
+        [ 0.1247,  0.0977,  0.1546,  ..., -0.1035, -0.1400, -0.1133]],
+       device='cuda:0'), grad: tensor([[ 3.7837e-04,  3.1233e-04,  1.4019e-04,  ...,  3.1281e-04,
+          1.7273e-04,  1.5104e-04],
+        [-4.6143e-01, -3.6670e-01, -1.5112e-01,  ..., -2.8345e-01,
+         -1.1603e-01, -8.2764e-02],
+        [ 1.0826e-02,  8.6975e-03,  6.4964e-03,  ...,  2.4658e-02,
+          1.9196e-02,  2.4200e-02],
+        ...,
+        [ 2.0935e-01,  1.5405e-01,  5.4779e-02,  ...,  1.6260e-01,
+          9.6069e-02,  9.7656e-02],
+        [ 2.0969e-04,  1.4615e-04,  4.9055e-05,  ...,  1.2910e-04,
+          6.0678e-05,  4.3452e-05],
+        [ 2.3828e-01,  2.0166e-01,  8.8257e-02,  ...,  9.0210e-02,
+         -3.7003e-03, -4.4678e-02]], device='cuda:0')
+Epoch 7, bias, value: tensor([-0.0009,  0.0173,  0.0699,  0.0332,  0.0292, -0.0241, -0.0400],
+       device='cuda:0'), grad: tensor([ 3.3426e-04, -3.1714e-01,  1.0516e-01,  2.3117e-02,  3.5205e-01,
+         1.9312e-04, -1.6357e-01], device='cuda:0')
+351
+0.009819814303479266
+changing lr
+---------------------saving model at epoch 6----------------------------------------------------
+epoch 6, time 527.58, cls_loss 1.4267 cls_loss_mapping 2.0451 cls_loss_causal 2.0364 re_mapping 0.1782 re_causal 0.1776 /// teacc 83.97 lr 0.00975528
+Epoch 8, weight, value: tensor([[ 0.0631, -0.0159,  0.0080,  ...,  0.0537,  0.0443,  0.0152],
+        [ 0.1075,  0.0933,  0.0161,  ...,  0.0340,  0.0997,  0.1025],
+        [-0.1457, -0.1334, -0.0517,  ..., -0.1479, -0.1457, -0.1183],
+        ...,
+        [-0.1980, -0.1507, -0.0368,  ...,  0.0514,  0.0378,  0.0541],
+        [ 0.0700,  0.0708, -0.0527,  ...,  0.0765,  0.0847,  0.0927],
+        [ 0.1592,  0.1327,  0.1904,  ..., -0.1034, -0.1588, -0.1159]],
+       device='cuda:0'), grad: tensor([[-1.2732e-01, -7.5623e-02, -3.0197e-02,  ..., -6.8359e-02,
+         -5.0476e-02, -3.2532e-02],
+        [ 1.2244e-01,  7.0190e-02,  5.2261e-03,  ...,  1.1108e-01,
+          5.5573e-02,  2.9999e-02],
+        [ 2.3961e-05,  1.8716e-05,  1.0550e-05,  ...,  9.4771e-06,
+          7.8082e-06,  6.6161e-06],
+        ...,
+        [-2.5464e-01, -1.8445e-01, -7.5012e-02,  ..., -2.1106e-01,
+         -1.5515e-01, -1.1835e-01],
+        [ 6.0059e-02,  4.7211e-02,  2.6917e-02,  ...,  5.0262e-02,
+          4.8981e-02,  4.1321e-02],
+        [ 1.9934e-01,  1.4270e-01,  7.3120e-02,  ...,  1.1804e-01,
+          1.0114e-01,  7.9590e-02]], device='cuda:0')
+Epoch 8, bias, value: tensor([-0.0007,  0.0425,  0.0759, -0.0276,  0.0323, -0.0269, -0.0421],
+       device='cuda:0'), grad: tensor([-1.6626e-01,  6.7810e-02,  4.7922e-05,  3.5763e-07, -2.6831e-01,
+         7.0984e-02,  2.9565e-01], device='cuda:0')
+351
+0.009755282581475767
+changing lr
+epoch 7, time 519.84, cls_loss 1.3853 cls_loss_mapping 2.0347 cls_loss_causal 2.0262 re_mapping 0.1394 re_causal 0.1390 /// teacc 80.17 lr 0.00968117
+Epoch 9, weight, value: tensor([[ 0.0526, -0.0358,  0.0016,  ...,  0.0496,  0.0581,  0.0255],
+        [ 0.0955,  0.0948, -0.0069,  ...,  0.0501,  0.0979,  0.1040],
+        [-0.1347, -0.1282, -0.0534,  ..., -0.1568, -0.1521, -0.1369],
+        ...,
+        [-0.2245, -0.1856, -0.0670,  ...,  0.0544,  0.0360,  0.0440],
+        [ 0.0614,  0.0625, -0.0655,  ...,  0.0568,  0.0312,  0.0597],
+        [ 0.1909,  0.1762,  0.2364,  ..., -0.1043, -0.1538, -0.1036]],
+       device='cuda:0'), grad: tensor([[ 0.0026,  0.0014,  0.0005,  ...,  0.0015,  0.0008,  0.0004],
+        [ 0.0354,  0.0179,  0.0048,  ...,  0.0225,  0.0127,  0.0077],
+        [ 0.0239,  0.0121,  0.0040,  ...,  0.0101,  0.0044,  0.0009],
+        ...,
+        [-0.0964, -0.0489, -0.0136,  ..., -0.0565, -0.0276, -0.0119],
+        [-0.0194, -0.0100, -0.0027,  ..., -0.0157, -0.0117, -0.0099],
+        [ 0.0540,  0.0275,  0.0071,  ...,  0.0381,  0.0213,  0.0129]],
+       device='cuda:0')
+Epoch 9, bias, value: tensor([ 0.0079,  0.0467,  0.0958, -0.0159, -0.0030, -0.0367, -0.0407],
+       device='cuda:0'), grad: tensor([ 4.3030e-03,  6.3049e-02,  3.8971e-02,  4.2319e-06, -1.6577e-01,
+        -3.9215e-02,  9.8694e-02], device='cuda:0')
+351
+0.009681174353198686
+changing lr
+---------------------saving model at epoch 8----------------------------------------------------
+epoch 8, time 521.57, cls_loss 1.2981 cls_loss_mapping 2.0446 cls_loss_causal 2.0303 re_mapping 0.1330 re_causal 0.1325 /// teacc 86.50 lr 0.00959764
+Epoch 10, weight, value: tensor([[ 0.0765, -0.0193,  0.0293,  ...,  0.0321,  0.0504,  0.0132],
+        [ 0.1107,  0.1162,  0.0305,  ...,  0.0204,  0.0674,  0.0895],
+        [-0.1555, -0.1445, -0.0529,  ..., -0.1394, -0.1307, -0.1202],
+        ...,
+        [-0.2380, -0.1940, -0.0973,  ...,  0.0679,  0.0670,  0.0508],
+        [ 0.0908,  0.0901, -0.0534,  ...,  0.1024,  0.0546,  0.0877],
+        [ 0.1626,  0.1492,  0.2021,  ..., -0.0982, -0.1553, -0.0923]],
+       device='cuda:0'), grad: tensor([[-4.4403e-02, -2.0416e-02, -2.6337e-02,  ..., -1.0681e-02,
+         -2.3621e-02, -9.0790e-03],
+        [ 6.2469e-02,  3.5675e-02,  1.6815e-02,  ...,  3.5309e-02,
+          2.4109e-02,  1.6281e-02],
+        [ 3.0231e-03,  2.3556e-03,  2.2244e-04,  ...,  2.7122e-03,
+          8.7643e-04,  1.3218e-03],
+        ...,
+        [ 1.1475e-01,  6.8542e-02,  2.8488e-02,  ...,  6.4758e-02,
+          4.0192e-02,  2.9083e-02],
+        [ 3.1614e-04,  2.0742e-04,  4.8339e-05,  ...,  1.9491e-04,
+          8.3148e-05,  7.6056e-05],
+        [-1.3684e-01, -8.6792e-02, -1.9348e-02,  ..., -9.2712e-02,
+         -4.1809e-02, -3.7842e-02]], device='cuda:0')
+Epoch 10, bias, value: tensor([ 0.0126,  0.0423,  0.0897, -0.0002,  0.0126, -0.0276, -0.0617],
+       device='cuda:0'), grad: tensor([ 0.1001,  0.0551,  0.0126,  0.0014,  0.1562,  0.0007, -0.3262],
+       device='cuda:0')
+351
+0.009597638862757255
+changing lr
+epoch 9, time 520.76, cls_loss 1.2231 cls_loss_mapping 1.9995 cls_loss_causal 1.9870 re_mapping 0.1258 re_causal 0.1253 /// teacc 76.79 lr 0.00950484
+Epoch 11, weight, value: tensor([[ 1.0096e-01, -8.6896e-05,  7.1603e-02,  ...,  2.2857e-02,
+          5.2557e-02,  1.3697e-02],
+        [ 7.6345e-02,  8.9339e-02, -2.2594e-02,  ...,  4.4789e-02,
+          1.0295e-01,  1.1889e-01],
+        [-1.4490e-01, -1.4737e-01, -4.0169e-02,  ..., -1.4241e-01,
+         -1.3787e-01, -1.1867e-01],
+        ...,
+        [-2.2734e-01, -1.7301e-01, -7.1492e-02,  ...,  5.0264e-02,
+          3.8715e-02,  1.5127e-02],
+        [ 6.1707e-02,  5.9826e-02, -1.1243e-01,  ...,  9.5091e-02,
+          3.6964e-02,  7.2331e-02],
+        [ 1.7842e-01,  1.6214e-01,  2.1741e-01,  ..., -8.7735e-02,
+         -1.5386e-01, -8.7643e-02]], device='cuda:0'), grad: tensor([[ 3.5352e-01,  2.0837e-01,  9.5764e-02,  ...,  1.5979e-01,
+          8.4961e-02,  4.7852e-02],
+        [ 4.3333e-05,  2.3484e-05,  8.5235e-06,  ...,  2.2948e-05,
+          1.0133e-05,  4.8280e-06],
+        [ 4.6206e-04,  2.6560e-04,  8.8573e-05,  ...,  3.4618e-04,
+          1.7011e-04,  1.1164e-04],
+        ...,
+        [-1.1035e-01, -6.8848e-02, -3.1342e-02,  ..., -6.6101e-02,
+         -4.5563e-02, -3.4760e-02],
+        [-9.6802e-02, -4.8950e-02, -1.6418e-02,  ..., -4.0619e-02,
+         -1.3420e-02, -1.4973e-03],
+        [-1.4673e-01, -9.0820e-02, -4.8126e-02,  ..., -5.3375e-02,
+         -2.6123e-02, -1.1734e-02]], device='cuda:0')
+Epoch 11, bias, value: tensor([ 0.0276,  0.0353,  0.0828, -0.0288,  0.0004, -0.0040, -0.0538],
+       device='cuda:0'), grad: tensor([ 5.4736e-01,  7.6771e-05,  8.0299e-04,  5.3644e-07, -2.1692e-01,
+        -1.6650e-01, -1.6455e-01], device='cuda:0')
+351
+0.009504844339512096
+changing lr
+epoch 10, time 525.26, cls_loss 1.2268 cls_loss_mapping 2.0088 cls_loss_causal 1.9940 re_mapping 0.1229 re_causal 0.1224 /// teacc 80.59 lr 0.00940298
+Epoch 12, weight, value: tensor([[ 0.0676, -0.0286,  0.0422,  ...,  0.0348,  0.0613,  0.0285],
+        [ 0.0965,  0.1059, -0.0182,  ...,  0.0549,  0.1145,  0.1302],
+        [-0.1379, -0.1402, -0.0548,  ..., -0.1294, -0.1209, -0.0997],
+        ...,
+        [-0.2332, -0.1875, -0.0846,  ...,  0.0439,  0.0329,  0.0196],
+        [ 0.0697,  0.0793, -0.1023,  ...,  0.0603, -0.0037,  0.0319],
+        [ 0.1747,  0.1617,  0.2551,  ..., -0.1043, -0.1769, -0.1124]],
+       device='cuda:0'), grad: tensor([[ 2.8046e-02,  1.4114e-02,  7.2327e-03,  ...,  2.5024e-02,
+          2.1255e-02,  1.6830e-02],
+        [-3.2043e-02, -2.0126e-02, -1.5129e-02,  ..., -3.4241e-02,
+         -3.8147e-02, -2.6901e-02],
+        [-4.5471e-03, -2.9564e-03, -2.0008e-03,  ..., -9.2649e-04,
+         -5.2166e-04, -2.5105e-04],
+        ...,
+        [-1.0509e-03,  3.3131e-03,  5.9891e-03,  ...,  3.8338e-04,
+          7.2479e-03,  2.9564e-03],
+        [ 7.6408e-03,  4.5357e-03,  3.1662e-03,  ...,  7.8278e-03,
+          8.2245e-03,  5.9433e-03],
+        [ 2.9135e-04,  1.3673e-04,  4.6194e-05,  ...,  2.2113e-04,
+          1.5759e-04,  1.2589e-04]], device='cuda:0')
+Epoch 12, bias, value: tensor([ 0.0075,  0.0457,  0.0869, -0.0220, -0.0049, -0.0095, -0.0396],
+       device='cuda:0'), grad: tensor([ 0.0651, -0.0880, -0.0045,  0.0043,  0.0024,  0.0200,  0.0007],
+       device='cuda:0')
+351
+0.009402977659283692
+changing lr
+---------------------saving model at epoch 11----------------------------------------------------
+epoch 11, time 524.98, cls_loss 1.1326 cls_loss_mapping 1.9923 cls_loss_causal 1.9785 re_mapping 0.1124 re_causal 0.1120 /// teacc 86.92 lr 0.00929224
+Epoch 13, weight, value: tensor([[ 0.0498, -0.0377,  0.0235,  ...,  0.0426,  0.0876,  0.0566],
+        [ 0.0788,  0.0840, -0.0450,  ...,  0.0227,  0.0898,  0.1001],
+        [-0.1501, -0.1529, -0.0609,  ..., -0.1304, -0.1251, -0.1034],
+        ...,
+        [-0.2068, -0.1610, -0.0168,  ...,  0.0847,  0.0873,  0.0688],
+        [ 0.0697,  0.0774, -0.1342,  ...,  0.0622, -0.0091,  0.0285],
+        [ 0.2049,  0.1878,  0.2889,  ..., -0.1264, -0.2458, -0.1784]],
+       device='cuda:0'), grad: tensor([[-7.0068e-02, -3.2837e-02, -1.1917e-02,  ..., -2.8839e-02,
+         -1.2398e-02, -8.6212e-03],
+        [-1.3892e-01, -7.4158e-02, -3.4729e-02,  ..., -6.9275e-02,
+         -4.3213e-02, -3.2745e-02],
+        [ 3.3646e-03,  1.3409e-03,  4.6921e-04,  ...,  1.4029e-03,
+          5.7554e-04,  3.1018e-04],
+        ...,
+        [ 9.8419e-03,  5.6801e-03,  2.9316e-03,  ...,  4.9171e-03,
+          3.2845e-03,  2.7103e-03],
+        [ 3.9667e-05,  1.5318e-05,  5.0366e-06,  ...,  1.6361e-05,
+          6.3479e-06,  3.1590e-06],
+        [ 2.6758e-01,  1.2439e-01,  4.9683e-02,  ...,  1.1957e-01,
+          5.9967e-02,  4.0588e-02]], device='cuda:0')
+Epoch 13, bias, value: tensor([-0.0017,  0.0453,  0.1045, -0.0115, -0.0145, -0.0570, -0.0098],
+       device='cuda:0'), grad: tensor([-8.6853e-02, -2.6807e-01,  7.2937e-03, -1.6418e-01,  1.8280e-02,
+         8.6069e-05,  4.9316e-01], device='cuda:0')
+351
+0.009292243968009333
+changing lr
+---------------------saving model at epoch 12----------------------------------------------------
+epoch 12, time 521.56, cls_loss 1.0385 cls_loss_mapping 1.9898 cls_loss_causal 1.9773 re_mapping 0.1024 re_causal 0.1021 /// teacc 89.87 lr 0.00917287
+Epoch 14, weight, value: tensor([[ 0.0840, -0.0089,  0.0673,  ...,  0.0293,  0.0463,  0.0156],
+        [ 0.0474,  0.0490, -0.0888,  ...,  0.0148,  0.1098,  0.1153],
+        [-0.1577, -0.1571, -0.0617,  ..., -0.1509, -0.1370, -0.1211],
+        ...,
+        [-0.1982, -0.1380,  0.0152,  ...,  0.1101,  0.1041,  0.0968],
+        [ 0.0862,  0.0796, -0.1613,  ...,  0.0600, -0.0433, -0.0041],
+        [ 0.2101,  0.1998,  0.3062,  ..., -0.1130, -0.2207, -0.1579]],
+       device='cuda:0'), grad: tensor([[ 0.0089,  0.0037,  0.0012,  ...,  0.0070,  0.0033,  0.0027],
+        [ 0.0043,  0.0029,  0.0023,  ..., -0.0015, -0.0051, -0.0028],
+        [ 0.0007,  0.0004,  0.0002,  ...,  0.0011,  0.0012,  0.0010],
+        ...,
+        [-0.0093, -0.0023,  0.0013,  ..., -0.0038,  0.0022,  0.0038],
+        [ 0.0006,  0.0003,  0.0003,  ...,  0.0017,  0.0021,  0.0017],
+        [-0.0053, -0.0051, -0.0053,  ..., -0.0046, -0.0037, -0.0065]],
+       device='cuda:0')
+Epoch 14, bias, value: tensor([ 0.0039,  0.0675,  0.1089, -0.0426, -0.0059, -0.0410, -0.0430],
+       device='cuda:0'), grad: tensor([ 0.0313, -0.0274,  0.0125,  0.0011,  0.0565,  0.0202, -0.0941],
+       device='cuda:0')
+351
+0.009172866268606516
+changing lr
+epoch 13, time 517.47, cls_loss 1.0873 cls_loss_mapping 1.9963 cls_loss_causal 1.9781 re_mapping 0.0959 re_causal 0.0957 /// teacc 89.03 lr 0.00904508
+Epoch 15, weight, value: tensor([[ 0.0755, -0.0304,  0.0514,  ...,  0.0306,  0.0365, -0.0081],
+        [ 0.0699,  0.0937, -0.0275,  ...,  0.0106,  0.1159,  0.1317],
+        [-0.1387, -0.1562, -0.0388,  ..., -0.1484, -0.1142, -0.1154],
+        ...,
+        [-0.2176, -0.1563, -0.0367,  ...,  0.0796,  0.0757,  0.0738],
+        [ 0.0536,  0.0476, -0.1984,  ...,  0.0403, -0.0550, -0.0081],
+        [ 0.2123,  0.2100,  0.3088,  ..., -0.0745, -0.1928, -0.1226]],
+       device='cuda:0'), grad: tensor([[-0.0365, -0.0189, -0.0115,  ..., -0.0266, -0.0228, -0.0211],
+        [ 0.0012,  0.0006,  0.0003,  ...,  0.0005,  0.0003,  0.0002],
+        [ 0.0277,  0.0183,  0.0122,  ...,  0.0160,  0.0139,  0.0132],
+        ...,
+        [ 0.0037,  0.0028,  0.0020,  ...,  0.0017,  0.0016,  0.0016],
+        [ 0.0005,  0.0003,  0.0002,  ...,  0.0002,  0.0002,  0.0002],
+        [-0.0278, -0.0171, -0.0113,  ..., -0.0052, -0.0014, -0.0012]],
+       device='cuda:0')
+Epoch 15, bias, value: tensor([ 0.0436,  0.0657,  0.1078, -0.0370, -0.0301, -0.0345, -0.0660],
+       device='cuda:0'), grad: tensor([-0.1991,  0.0048,  0.1078,  0.1096,  0.0167,  0.0017, -0.0415],
+       device='cuda:0')
+351
+0.00904508497187474
+changing lr
+epoch 14, time 515.56, cls_loss 0.9836 cls_loss_mapping 1.9998 cls_loss_causal 1.9811 re_mapping 0.0901 re_causal 0.0899 /// teacc 76.37 lr 0.00890916
+Epoch 16, weight, value: tensor([[ 0.0820, -0.0073,  0.1027,  ...,  0.0197,  0.0189, -0.0259],
+        [ 0.0597,  0.0832, -0.0534,  ...,  0.0120,  0.1147,  0.1433],
+        [-0.1515, -0.1784, -0.0649,  ..., -0.1544, -0.1121, -0.1150],
+        ...,
+        [-0.2147, -0.1598, -0.0350,  ...,  0.0896,  0.1018,  0.0869],
+        [ 0.0645,  0.0531, -0.2089,  ...,  0.0651, -0.0403,  0.0151],
+        [ 0.2130,  0.2056,  0.2875,  ..., -0.0971, -0.2287, -0.1642]],
+       device='cuda:0'), grad: tensor([[-7.5912e-04, -3.4690e-04, -4.2796e-04,  ..., -2.9421e-04,
+         -3.2520e-04, -3.0017e-04],
+        [-2.1472e-01, -1.2708e-01, -8.2275e-02,  ..., -8.9233e-02,
+         -5.8350e-02, -4.7760e-02],
+        [-8.3447e-06, -1.7285e-06, -1.1921e-07,  ..., -2.7418e-06,
+         -1.1623e-06, -6.5565e-07],
+        ...,
+        [ 5.2899e-05,  3.2544e-05,  2.3782e-05,  ...,  1.8030e-05,
+          1.2338e-05,  1.0431e-05],
+        [ 6.6650e-02,  2.4307e-02,  1.2733e-02,  ...,  2.3422e-02,
+          1.2993e-02,  7.9117e-03],
+        [ 1.4856e-01,  1.0303e-01,  6.9885e-02,  ...,  6.6040e-02,
+          4.5624e-02,  4.0100e-02]], device='cuda:0')
+Epoch 16, bias, value: tensor([ 0.0318,  0.0410,  0.1354, -0.0485, -0.0381, -0.0280, -0.0420],
+       device='cuda:0'), grad: tensor([-2.1000e-03, -3.2251e-01, -1.2070e-05,  1.1820e-04,  6.3777e-05,
+         1.6650e-01,  1.5784e-01], device='cuda:0')
+351
+0.008909157412340152
+changing lr
+---------------------saving model at epoch 15----------------------------------------------------
+epoch 15, time 519.53, cls_loss 1.0339 cls_loss_mapping 2.0070 cls_loss_causal 1.9759 re_mapping 0.0844 re_causal 0.0841 /// teacc 91.56 lr 0.00876536
+Epoch 17, weight, value: tensor([[ 0.0636, -0.0313,  0.0729,  ...,  0.0028, -0.0181, -0.0626],
+        [ 0.0675,  0.0821, -0.0461,  ...,  0.0570,  0.1662,  0.2040],
+        [-0.1239, -0.1461, -0.0315,  ..., -0.1480, -0.1105, -0.0926],
+        ...,
+        [-0.2059, -0.1450, -0.0303,  ...,  0.1065,  0.1335,  0.1094],
+        [ 0.0646,  0.0628, -0.2126,  ...,  0.0559, -0.0449,  0.0040],
+        [ 0.1966,  0.1860,  0.2794,  ..., -0.1407, -0.2684, -0.2166]],
+       device='cuda:0'), grad: tensor([[-7.0740e-02, -2.6901e-02, -1.8234e-02,  ..., -3.3813e-02,
+         -1.8982e-02, -1.7761e-02],
+        [ 1.9238e-01,  5.7068e-02,  3.3905e-02,  ...,  6.0333e-02,
+          2.8793e-02,  2.5726e-02],
+        [ 3.2623e-02,  8.6899e-03,  4.3869e-03,  ...,  8.3923e-03,
+          3.4657e-03,  3.0251e-03],
+        ...,
+        [ 1.8415e-03,  4.6492e-04,  1.8632e-04,  ...,  3.9124e-04,
+          1.1605e-04,  1.1516e-04],
+        [ 2.1553e-04,  5.7340e-05,  3.0965e-05,  ...,  5.1022e-05,
+          1.8746e-05,  1.6093e-05],
+        [-8.6365e-02, -1.9714e-02, -9.1858e-03,  ..., -1.8280e-02,
+         -7.5340e-03, -5.6610e-03]], device='cuda:0')
+Epoch 17, bias, value: tensor([ 0.0462,  0.0820,  0.0961, -0.0056, -0.0578, -0.0472, -0.0542],
+       device='cuda:0'), grad: tensor([-0.1471,  0.4116,  0.0744, -0.1819,  0.0034,  0.0005, -0.1613],
+       device='cuda:0')
+351
+0.00876535733001806
+changing lr
+epoch 16, time 520.77, cls_loss 0.9848 cls_loss_mapping 2.0199 cls_loss_causal 1.9613 re_mapping 0.0826 re_causal 0.0821 /// teacc 88.61 lr 0.00861397
+Epoch 18, weight, value: tensor([[ 0.0499, -0.0416,  0.0504,  ..., -0.0333, -0.0589, -0.1082],
+        [ 0.0459,  0.0550, -0.0706,  ...,  0.0792,  0.2119,  0.2431],
+        [-0.1165, -0.1342, -0.0024,  ..., -0.1602, -0.1240, -0.1121],
+        ...,
+        [-0.2022, -0.1402, -0.0304,  ...,  0.1398,  0.1556,  0.1539],
+        [ 0.0997,  0.0849, -0.1895,  ...,  0.0808, -0.0395,  0.0079],
+        [ 0.2106,  0.2047,  0.3080,  ..., -0.1605, -0.2808, -0.2403]],
+       device='cuda:0'), grad: tensor([[-0.0541, -0.0135, -0.0103,  ..., -0.0168, -0.0138, -0.0150],
+        [-0.0122, -0.0026, -0.0014,  ..., -0.0062, -0.0065, -0.0051],
+        [ 0.0014,  0.0006,  0.0004,  ...,  0.0004,  0.0003,  0.0003],
+        ...,
+        [ 0.0028,  0.0008,  0.0005,  ...,  0.0010,  0.0009,  0.0009],
+        [ 0.1066,  0.0422,  0.0287,  ...,  0.0291,  0.0240,  0.0256],
+        [-0.0446, -0.0275, -0.0180,  ..., -0.0075, -0.0050, -0.0067]],
+       device='cuda:0')
+Epoch 18, bias, value: tensor([ 0.0359,  0.0630,  0.1146, -0.0517, -0.0491, -0.0107, -0.0480],
+       device='cuda:0'), grad: tensor([-1.6687e-01, -2.9129e-02,  3.7785e-03,  9.1791e-06,  7.6332e-03,
+         2.9102e-01, -1.0645e-01], device='cuda:0')
+351
+0.008613974319136962
+changing lr
+epoch 17, time 513.72, cls_loss 0.8829 cls_loss_mapping 2.0177 cls_loss_causal 1.9115 re_mapping 0.0769 re_causal 0.0762 /// teacc 85.65 lr 0.00845531
+Epoch 19, weight, value: tensor([[ 0.0683, -0.0254,  0.0927,  ..., -0.0172, -0.0482, -0.0927],
+        [ 0.0461,  0.0533, -0.0790,  ...,  0.0486,  0.1701,  0.2021],
+        [-0.1130, -0.1346,  0.0052,  ..., -0.1585, -0.1298, -0.1317],
+        ...,
+        [-0.2159, -0.1518, -0.0767,  ...,  0.1232,  0.1377,  0.1126],
+        [ 0.1094,  0.0981, -0.1578,  ...,  0.0781, -0.0541,  0.0141],
+        [ 0.1985,  0.1967,  0.2976,  ..., -0.1400, -0.2326, -0.1871]],
+       device='cuda:0'), grad: tensor([[-0.0922, -0.0190, -0.0245,  ..., -0.0252, -0.0148, -0.0110],
+        [-0.0912, -0.0362, -0.0317,  ..., -0.0166, -0.0131, -0.0113],
+        [ 0.0565,  0.0129,  0.0167,  ...,  0.0156,  0.0097,  0.0074],
+        ...,
+        [ 0.0905,  0.0235,  0.0231,  ...,  0.0299,  0.0229,  0.0181],
+        [ 0.0144,  0.0031,  0.0024,  ...,  0.0034,  0.0020,  0.0016],
+        [ 0.0216,  0.0157,  0.0139,  ..., -0.0073, -0.0069, -0.0049]],
+       device='cuda:0')
+Epoch 19, bias, value: tensor([ 0.0391,  0.0698,  0.1044, -0.0237, -0.0728, -0.0024, -0.0448],
+       device='cuda:0'), grad: tensor([-0.2932, -0.1586,  0.1672,  0.0015,  0.2429,  0.0460, -0.0059],
+       device='cuda:0')
+351
+0.008455313244934327
+changing lr
+epoch 18, time 516.37, cls_loss 0.8997 cls_loss_mapping 2.0542 cls_loss_causal 1.8761 re_mapping 0.0767 re_causal 0.0759 /// teacc 82.70 lr 0.00828969
+Epoch 20, weight, value: tensor([[ 0.0677, -0.0303,  0.0801,  ..., -0.0146, -0.0597, -0.0890],
+        [ 0.0552,  0.0684, -0.0288,  ...,  0.0662,  0.1944,  0.2189],
+        [-0.1295, -0.1757, -0.0278,  ..., -0.2168, -0.1812, -0.1883],
+        ...,
+        [-0.2042, -0.1199, -0.0295,  ...,  0.1476,  0.1922,  0.1615],
+        [ 0.1200,  0.1285, -0.1133,  ...,  0.0875, -0.0397,  0.0265],
+        [ 0.1879,  0.1777,  0.2428,  ..., -0.1415, -0.2511, -0.2060]],
+       device='cuda:0'), grad: tensor([[ 0.0061,  0.0022,  0.0021,  ...,  0.0013,  0.0013,  0.0009],
+        [ 0.0177,  0.0064,  0.0043,  ...,  0.0024,  0.0015,  0.0014],
+        [ 0.0011,  0.0004,  0.0003,  ...,  0.0002,  0.0001,  0.0001],
+        ...,
+        [-0.0030, -0.0002,  0.0096,  ...,  0.0057,  0.0110,  0.0064],
+        [ 0.0039,  0.0014,  0.0009,  ...,  0.0005,  0.0003,  0.0003],
+        [-0.0261, -0.0103, -0.0172,  ..., -0.0101, -0.0142, -0.0091]],
+       device='cuda:0')
+Epoch 20, bias, value: tensor([ 0.0199,  0.0886,  0.0799, -0.0680, -0.0417,  0.0052, -0.0363],
+       device='cuda:0'), grad: tensor([ 0.0139,  0.0395,  0.0025,  0.0007, -0.0011,  0.0086, -0.0641],
+       device='cuda:0')
+351
+0.008289693629698565
+changing lr
+epoch 19, time 506.54, cls_loss 0.9318 cls_loss_mapping 2.0639 cls_loss_causal 1.8590 re_mapping 0.0751 re_causal 0.0741 /// teacc 90.72 lr 0.00811745
+Epoch 21, weight, value: tensor([[ 0.0674, -0.0281,  0.0914,  ..., -0.0121, -0.0434, -0.0643],
+        [ 0.0479,  0.0513, -0.0671,  ...,  0.0639,  0.1827,  0.1918],
+        [-0.1281, -0.1767, -0.0438,  ..., -0.1580, -0.1266, -0.1393],
+        ...,
+        [-0.2079, -0.1220, -0.0272,  ...,  0.1436,  0.2002,  0.1739],
+        [ 0.1149,  0.1060, -0.1085,  ...,  0.0647, -0.0475,  0.0180],
+        [ 0.2001,  0.2082,  0.2710,  ..., -0.1587, -0.2951, -0.2514]],
+       device='cuda:0'), grad: tensor([[-8.7769e-02, -1.4755e-02, -1.4053e-02,  ..., -3.1342e-02,
+         -3.3691e-02, -2.9160e-02],
+        [ 6.3110e-02,  3.1948e-03,  4.0665e-03,  ...,  2.9495e-02,
+          3.3234e-02,  2.8351e-02],
+        [ 2.1362e-02,  9.8190e-03,  8.4305e-03,  ...,  2.2182e-03,
+          9.5034e-04,  1.2922e-03],
+        ...,
+        [-3.9444e-03, -1.1349e-03, -8.1110e-04,  ..., -2.3479e-03,
+         -1.9722e-03, -2.0123e-03],
+        [ 1.4436e-04,  3.0398e-05,  2.3365e-05,  ...,  7.7963e-05,
+          7.1943e-05,  6.9082e-05],
+        [ 5.3596e-03,  2.4014e-03,  2.0237e-03,  ...,  9.2697e-04,
+          5.5742e-04,  6.2180e-04]], device='cuda:0')
+Epoch 21, bias, value: tensor([ 0.0121,  0.1025,  0.0898, -0.0388, -0.0572, -0.0135, -0.0345],
+       device='cuda:0'), grad: tensor([-0.2134,  0.1687,  0.0385,  0.0039, -0.0080,  0.0003,  0.0100],
+       device='cuda:0')
+351
+0.00811744900929367
+changing lr
+epoch 20, time 509.88, cls_loss 0.9319 cls_loss_mapping 2.0538 cls_loss_causal 1.8235 re_mapping 0.0731 re_causal 0.0728 /// teacc 88.61 lr 0.00793893
+Epoch 22, weight, value: tensor([[ 0.0568, -0.0332,  0.0747,  ...,  0.0188,  0.0007, -0.0217],
+        [ 0.0475,  0.0382, -0.0850,  ...,  0.0676,  0.1596,  0.1775],
+        [-0.1486, -0.2176, -0.0930,  ..., -0.1557, -0.1083, -0.1228],
+        ...,
+        [-0.1732, -0.0962,  0.0221,  ...,  0.1352,  0.1965,  0.1655],
+        [ 0.1165,  0.1180, -0.0803,  ...,  0.0584, -0.0432,  0.0347],
+        [ 0.2062,  0.2381,  0.3079,  ..., -0.1728, -0.3111, -0.2722]],
+       device='cuda:0'), grad: tensor([[-2.1515e-02, -4.7531e-03, -4.3297e-03,  ..., -1.2787e-02,
+         -1.2375e-02, -1.2215e-02],
+        [ 1.0735e-02,  2.3842e-03,  2.1763e-03,  ...,  6.3400e-03,
+          6.1378e-03,  6.0616e-03],
+        [ 5.1975e-05,  1.1504e-05,  1.0476e-05,  ...,  3.0845e-05,
+          2.9862e-05,  2.9489e-05],
+        ...,
+        [ 1.1024e-02,  2.4433e-03,  2.2278e-03,  ...,  6.5346e-03,
+          6.3248e-03,  6.2447e-03],
+        [-3.0971e-04, -8.7559e-05, -8.8334e-05,  ..., -1.2648e-04,
+         -1.2255e-04, -1.2600e-04],
+        [ 4.5449e-06,  7.4506e-07,  8.6427e-07,  ...,  2.2650e-06,
+          2.3395e-06,  2.4140e-06]], device='cuda:0')
+Epoch 22, bias, value: tensor([ 0.0495,  0.0848,  0.0717, -0.0890, -0.0102,  0.0006, -0.0693],
+       device='cuda:0'), grad: tensor([-6.8054e-02,  3.3813e-02,  1.6427e-04,  1.1474e-06,  3.4821e-02,
+        -7.2050e-04,  1.3933e-05], device='cuda:0')
+351
+0.007938926261462368
+changing lr
+epoch 21, time 512.38, cls_loss 0.8955 cls_loss_mapping 2.0538 cls_loss_causal 1.7737 re_mapping 0.0733 re_causal 0.0734 /// teacc 89.45 lr 0.00775448
+Epoch 23, weight, value: tensor([[ 0.0753,  0.0111,  0.1272,  ...,  0.0027,  0.0172, -0.0034],
+        [ 0.0448,  0.0503, -0.0681,  ...,  0.0385,  0.1246,  0.1240],
+        [-0.1592, -0.2737, -0.1792,  ..., -0.1303, -0.0985, -0.1088],
+        ...,
+        [-0.1957, -0.1095,  0.0004,  ...,  0.1079,  0.1623,  0.1323],
+        [ 0.1139,  0.0594, -0.1396,  ...,  0.0693, -0.0385,  0.0398],
+        [ 0.2253,  0.2706,  0.3461,  ..., -0.1178, -0.2747, -0.2247]],
+       device='cuda:0'), grad: tensor([[-9.6252e-02, -1.6830e-02, -1.6663e-02,  ..., -4.9805e-02,
+         -4.8248e-02, -3.7292e-02],
+        [ 7.7820e-02, -3.6964e-03, -1.2970e-03,  ...,  1.5717e-02,
+          1.7029e-02,  1.1246e-02],
+        [ 3.8662e-03,  2.5928e-05,  1.4293e-04,  ...,  3.3736e-04,
+          3.9625e-04,  3.0231e-04],
+        ...,
+        [ 6.0944e-02,  1.0117e-02,  1.0124e-02,  ...,  2.9861e-02,
+          2.8946e-02,  2.2339e-02],
+        [ 7.8506e-03,  3.1805e-04,  5.1641e-04,  ...,  8.6641e-04,
+          8.9025e-04,  6.3133e-04],
+        [ 9.0408e-03,  1.1917e-02,  9.1934e-03,  ...,  9.3765e-03,
+          6.0539e-03,  4.6806e-03]], device='cuda:0')
+Epoch 23, bias, value: tensor([ 0.0230,  0.1102,  0.0957, -0.1005, -0.0199, -0.0174, -0.0629],
+       device='cuda:0'), grad: tensor([-0.1593,  0.2150,  0.0158, -0.1648,  0.1089,  0.0286, -0.0443],
+       device='cuda:0')
+351
+0.007754484907260515
+changing lr
+---------------------saving model at epoch 22----------------------------------------------------
+epoch 22, time 515.61, cls_loss 0.9803 cls_loss_mapping 2.0487 cls_loss_causal 1.7604 re_mapping 0.0682 re_causal 0.0686 /// teacc 94.51 lr 0.00756450
+Epoch 24, weight, value: tensor([[ 0.0885,  0.0230,  0.1366,  ..., -0.0109, -0.0028, -0.0093],
+        [ 0.0549,  0.0850, -0.0354,  ...,  0.0314,  0.1076,  0.0918],
+        [-0.1607, -0.2584, -0.1442,  ..., -0.1483, -0.1007, -0.1327],
+        ...,
+        [-0.2087, -0.1569, -0.0587,  ...,  0.0992,  0.1447,  0.1206],
+        [ 0.1073,  0.0230, -0.1876,  ...,  0.1064,  0.0071,  0.0880],
+        [ 0.2141,  0.2500,  0.3337,  ..., -0.0853, -0.2241, -0.1682]],
+       device='cuda:0'), grad: tensor([[ 0.1031,  0.0204,  0.0184,  ...,  0.0209,  0.0222,  0.0220],
+        [-0.0847, -0.0166, -0.0139,  ..., -0.0175, -0.0178, -0.0176],
+        [-0.0072,  0.0051,  0.0039,  ...,  0.0019,  0.0026,  0.0024],
+        ...,
+        [ 0.0217,  0.0038,  0.0034,  ...,  0.0042,  0.0044,  0.0044],
+        [-0.0001, -0.0034, -0.0022,  ..., -0.0009, -0.0010, -0.0001],
+        [-0.0329, -0.0093, -0.0096,  ..., -0.0086, -0.0104, -0.0110]],
+       device='cuda:0')
+Epoch 24, bias, value: tensor([ 0.0746,  0.0838,  0.0993, -0.1211, -0.0329, -0.0430, -0.0573],
+       device='cuda:0'), grad: tensor([ 3.0713e-01, -2.6978e-01, -7.7393e-02,  2.8062e-04,  7.1045e-02,
+         3.2349e-02, -6.3660e-02], device='cuda:0')
+351
+0.007564496387029534
+changing lr
+epoch 23, time 520.04, cls_loss 0.8389 cls_loss_mapping 2.0461 cls_loss_causal 1.7553 re_mapping 0.0648 re_causal 0.0636 /// teacc 89.45 lr 0.00736934
+Epoch 25, weight, value: tensor([[ 0.0771,  0.0061,  0.1172,  ...,  0.0153,  0.0183,  0.0241],
+        [ 0.0496,  0.0952, -0.0301,  ...,  0.0112,  0.0842,  0.0734],
+        [-0.1668, -0.3098, -0.1891,  ..., -0.1248, -0.0591, -0.0813],
+        ...,
+        [-0.2199, -0.1805, -0.0845,  ...,  0.1248,  0.1715,  0.1211],
+        [ 0.1184,  0.0739, -0.1485,  ...,  0.0370, -0.0831,  0.0042],
+        [ 0.2272,  0.2779,  0.3662,  ..., -0.0858, -0.2150, -0.1605]],
+       device='cuda:0'), grad: tensor([[ 4.5868e-02,  1.0513e-02,  1.0117e-02,  ...,  1.6434e-02,
+          1.8127e-02,  1.6602e-02],
+        [-9.4482e-02, -2.0477e-02, -2.1500e-02,  ..., -3.0670e-02,
+         -3.5217e-02, -3.3691e-02],
+        [ 6.5613e-03,  2.1782e-03,  2.3308e-03,  ...,  1.6813e-03,
+          1.6174e-03,  1.8349e-03],
+        ...,
+        [ 3.0365e-02,  4.7340e-03,  6.2714e-03,  ...,  9.9640e-03,
+          1.2642e-02,  1.2260e-02],
+        [ 5.7161e-05,  1.9297e-05,  2.0519e-05,  ...,  1.4439e-05,
+          1.3694e-05,  1.5661e-05],
+        [ 1.1307e-02,  2.9373e-03,  2.6741e-03,  ...,  2.5005e-03,
+          2.7370e-03,  2.8725e-03]], device='cuda:0')
+Epoch 25, bias, value: tensor([ 0.0512,  0.1085,  0.1342, -0.0657, -0.0553, -0.0761, -0.0685],
+       device='cuda:0'), grad: tensor([ 1.0522e-01, -2.3779e-01,  1.6602e-02,  8.8549e-04,  8.2825e-02,
+         1.4460e-04,  3.2013e-02], device='cuda:0')
+351
+0.007369343312364995
+changing lr
+epoch 24, time 522.86, cls_loss 0.8104 cls_loss_mapping 2.0465 cls_loss_causal 1.7496 re_mapping 0.0665 re_causal 0.0638 /// teacc 91.14 lr 0.00716942
+Epoch 26, weight, value: tensor([[ 0.0621, -0.0118,  0.0909,  ...,  0.0301,  0.0008,  0.0167],
+        [ 0.0487,  0.0844, -0.0455,  ...,  0.0316,  0.1208,  0.0973],
+        [-0.1745, -0.3232, -0.1891,  ..., -0.1204, -0.0491, -0.0719],
+        ...,
+        [-0.2061, -0.1671, -0.0852,  ...,  0.1294,  0.1918,  0.1459],
+        [ 0.1453,  0.1168, -0.0944,  ..., -0.0398, -0.1512, -0.0551],
+        [ 0.2340,  0.2955,  0.4017,  ..., -0.0955, -0.2286, -0.1842]],
+       device='cuda:0'), grad: tensor([[-0.0315, -0.0098, -0.0104,  ..., -0.0065, -0.0071, -0.0079],
+        [ 0.0495,  0.0126,  0.0143,  ...,  0.0097,  0.0108,  0.0116],
+        [ 0.0123,  0.0005,  0.0017,  ...,  0.0027,  0.0031,  0.0036],
+        ...,
+        [-0.0217, -0.0086, -0.0081,  ..., -0.0023, -0.0027, -0.0016],
+        [-0.0296, -0.0006, -0.0037,  ..., -0.0067, -0.0076, -0.0089],
+        [ 0.0195,  0.0058,  0.0060,  ...,  0.0027,  0.0031,  0.0026]],
+       device='cuda:0')
+Epoch 26, bias, value: tensor([ 0.0476,  0.1132,  0.1546, -0.1049, -0.0615, -0.0678, -0.0670],
+       device='cuda:0'), grad: tensor([-0.1493,  0.2102,  0.0632,  0.0079, -0.0143, -0.1558,  0.0380],
+       device='cuda:0')
+351
+0.0071694186955877925
+changing lr
+epoch 25, time 515.39, cls_loss 0.8575 cls_loss_mapping 2.0345 cls_loss_causal 1.7381 re_mapping 0.0632 re_causal 0.0608 /// teacc 92.41 lr 0.00696513
+Epoch 27, weight, value: tensor([[ 0.0936,  0.0412,  0.1630,  ...,  0.0114, -0.0119,  0.0121],
+        [ 0.0563,  0.1003, -0.0421,  ...,  0.0822,  0.1571,  0.1288],
+        [-0.1962, -0.3443, -0.1909,  ..., -0.0843, -0.0416, -0.0633],
+        ...,
+        [-0.2227, -0.1985, -0.1671,  ...,  0.1340,  0.1950,  0.1395],
+        [ 0.1368,  0.1021, -0.0986,  ..., -0.0152, -0.1353, -0.0273],
+        [ 0.2190,  0.2567,  0.3614,  ..., -0.1649, -0.2815, -0.2298]],
+       device='cuda:0'), grad: tensor([[ 4.3396e-02,  7.8812e-03,  8.4152e-03,  ...,  8.9951e-03,
+          1.4381e-02,  1.2695e-02],
+        [-3.1952e-02, -4.6349e-03, -4.9591e-03,  ..., -8.2245e-03,
+         -1.2375e-02, -1.1459e-02],
+        [-1.4465e-02, -3.9673e-03, -4.2305e-03,  ..., -1.1339e-03,
+         -2.7256e-03, -1.7939e-03],
+        ...,
+        [ 4.2868e-04,  6.3479e-05,  6.9678e-05,  ...,  9.6321e-05,
+          1.5342e-04,  1.4150e-04],
+        [ 1.0975e-05,  1.3709e-06,  1.5274e-06,  ...,  2.7269e-06,
+          4.2394e-06,  4.0084e-06],
+        [ 2.5673e-03,  6.4993e-04,  6.9475e-04,  ...,  2.6464e-04,
+          5.5695e-04,  4.0698e-04]], device='cuda:0')
+Epoch 27, bias, value: tensor([ 0.0874,  0.1342,  0.1067, -0.0585, -0.1062, -0.0354, -0.0927],
+       device='cuda:0'), grad: tensor([ 1.5991e-01, -1.3879e-01, -2.8992e-02,  5.3078e-05,  1.7767e-03,
+         4.9591e-05,  6.0616e-03], device='cuda:0')
+351
+0.0069651251582696205
+changing lr
+epoch 26, time 514.49, cls_loss 0.7711 cls_loss_mapping 2.0373 cls_loss_causal 1.7124 re_mapping 0.0580 re_causal 0.0567 /// teacc 90.72 lr 0.00675687
+Epoch 28, weight, value: tensor([[ 0.0756, -0.0171,  0.1058,  ...,  0.0209, -0.0033,  0.0157],
+        [ 0.0599,  0.1223,  0.0032,  ...,  0.0562,  0.1348,  0.1179],
+        [-0.1809, -0.3196, -0.1817,  ..., -0.1090, -0.0572, -0.0821],
+        ...,
+        [-0.2086, -0.1572, -0.1235,  ...,  0.1364,  0.1921,  0.1317],
+        [ 0.1348,  0.0993, -0.1175,  ..., -0.0148, -0.1305, -0.0255],
+        [ 0.2196,  0.2602,  0.3712,  ..., -0.1179, -0.2318, -0.1743]],
+       device='cuda:0'), grad: tensor([[ 0.0083,  0.0010,  0.0008,  ...,  0.0010,  0.0011,  0.0008],
+        [ 0.0014,  0.0002,  0.0002,  ...,  0.0001,  0.0002,  0.0002],
+        [ 0.0043,  0.0006,  0.0006,  ...,  0.0005,  0.0006,  0.0005],
+        ...,
+        [-0.0359, -0.0036, -0.0029,  ..., -0.0013, -0.0030, -0.0021],
+        [-0.0393, -0.0144, -0.0157,  ..., -0.0153, -0.0164, -0.0165],
+        [ 0.0041,  0.0002,  0.0002,  ..., -0.0009, -0.0004, -0.0003]],
+       device='cuda:0')
+Epoch 28, bias, value: tensor([ 0.0787,  0.1345,  0.1304, -0.0938, -0.0978, -0.0695, -0.0739],
+       device='cuda:0'), grad: tensor([ 0.0259,  0.0047,  0.0148,  0.2158, -0.1251, -0.1573,  0.0211],
+       device='cuda:0')
+351
+0.006756874120406716
+changing lr
+epoch 27, time 511.99, cls_loss 0.6894 cls_loss_mapping 2.0339 cls_loss_causal 1.6977 re_mapping 0.0586 re_causal 0.0580 /// teacc 86.08 lr 0.00654508
+Epoch 29, weight, value: tensor([[ 0.0698, -0.0131,  0.1083,  ..., -0.0158, -0.0431, -0.0267],
+        [ 0.0898,  0.1633,  0.0779,  ...,  0.0684,  0.1631,  0.1507],
+        [-0.1756, -0.3305, -0.1958,  ..., -0.0821, -0.0280, -0.0549],
+        ...,
+        [-0.2221, -0.1846, -0.1565,  ...,  0.1300,  0.1737,  0.1135],
+        [ 0.1266,  0.0795, -0.1417,  ...,  0.0659, -0.0658,  0.0673],
+        [ 0.2113,  0.2555,  0.3531,  ..., -0.1447, -0.2473, -0.2025]],
+       device='cuda:0'), grad: tensor([[ 1.3304e-03,  3.7861e-04,  3.2330e-04,  ...,  3.2997e-04,
+          3.7909e-04,  3.3236e-04],
+        [ 1.9073e-03,  6.4754e-04,  6.3229e-04,  ...,  3.6502e-04,
+          4.8828e-04,  5.3644e-04],
+        [ 5.2184e-05,  2.1532e-05,  1.8373e-05,  ...,  1.0364e-05,
+          1.2830e-05,  1.3731e-05],
+        ...,
+        [ 1.8466e-04,  5.7876e-05,  5.4210e-05,  ...,  3.8415e-05,
+          4.8578e-05,  4.8578e-05],
+        [ 6.9380e-05,  2.2054e-05,  2.0504e-05,  ...,  1.4871e-05,
+          1.8567e-05,  1.8612e-05],
+        [-3.5534e-03, -1.1311e-03, -1.0519e-03,  ..., -7.6056e-04,
+         -9.4986e-04, -9.5224e-04]], device='cuda:0')
+Epoch 29, bias, value: tensor([ 0.0609,  0.1618,  0.1214, -0.1253, -0.0870, -0.0424, -0.0844],
+       device='cuda:0'), grad: tensor([ 3.6774e-03,  6.6719e-03,  1.6928e-04,  3.4273e-05,  5.9319e-04,
+         2.2209e-04, -1.1360e-02], device='cuda:0')
+351
+0.00654508497187474
+changing lr
+epoch 28, time 508.90, cls_loss 0.8247 cls_loss_mapping 2.0290 cls_loss_causal 1.6783 re_mapping 0.0600 re_causal 0.0596 /// teacc 89.87 lr 0.00633018
+Epoch 30, weight, value: tensor([[ 0.0637, -0.0121,  0.1221,  ...,  0.0151, -0.0159,  0.0004],
+        [ 0.0827,  0.1852,  0.1020,  ...,  0.0742,  0.1928,  0.1740],
+        [-0.1867, -0.3626, -0.2226,  ..., -0.0915, -0.0395, -0.0736],
+        ...,
+        [-0.2338, -0.2070, -0.2135,  ...,  0.1129,  0.1339,  0.0768],
+        [ 0.1563,  0.0870, -0.0966,  ...,  0.0493, -0.0723,  0.0725],
+        [ 0.2172,  0.2475,  0.3257,  ..., -0.1699, -0.2741, -0.2272]],
+       device='cuda:0'), grad: tensor([[ 1.4778e-02,  4.3068e-03,  4.1122e-03,  ...,  9.1400e-03,
+          7.6370e-03,  7.2289e-03],
+        [ 4.5746e-02,  1.4008e-02,  9.7733e-03,  ...,  1.2642e-02,
+          9.5673e-03,  9.5673e-03],
+        [ 4.7302e-04,  1.1313e-04,  8.1360e-05,  ...,  1.5020e-04,
+          1.3673e-04,  1.3280e-04],
+        ...,
+        [ 1.1301e-03,  3.0732e-04,  2.2280e-04,  ...,  3.6025e-04,
+          3.0398e-04,  2.9707e-04],
+        [ 1.7190e-04,  2.8521e-05,  1.5132e-05,  ...,  3.1918e-05,
+          3.8445e-05,  3.7789e-05],
+        [-6.4087e-02, -1.9012e-02, -1.4366e-02,  ..., -2.2827e-02,
+         -1.8250e-02, -1.7807e-02]], device='cuda:0')
+Epoch 30, bias, value: tensor([ 0.0679,  0.1492,  0.0944, -0.0981, -0.0704, -0.0200, -0.0962],
+       device='cuda:0'), grad: tensor([ 0.0188,  0.1100,  0.0013,  0.0065,  0.0028,  0.0007, -0.1400],
+       device='cuda:0')
+351
+0.006330184227833378
+changing lr
+epoch 29, time 516.17, cls_loss 0.7394 cls_loss_mapping 2.0342 cls_loss_causal 1.6729 re_mapping 0.0587 re_causal 0.0584 /// teacc 91.98 lr 0.00611260
+Epoch 31, weight, value: tensor([[ 0.0668,  0.0020,  0.1309,  ..., -0.0238, -0.0734, -0.0420],
+        [ 0.0913,  0.1938,  0.0921,  ...,  0.1020,  0.1968,  0.1759],
+        [-0.2053, -0.3917, -0.2719,  ..., -0.0178,  0.0190,  0.0067],
+        ...,
+        [-0.2301, -0.2079, -0.2017,  ...,  0.0910,  0.1545,  0.0754],
+        [ 0.1421,  0.0820, -0.1002,  ...,  0.0569, -0.1016,  0.0338],
+        [ 0.2202,  0.2418,  0.3446,  ..., -0.1865, -0.2497, -0.2136]],
+       device='cuda:0'), grad: tensor([[ 5.6381e-03,  1.8206e-03,  1.9350e-03,  ...,  2.8324e-03,
+          3.2234e-03,  2.5845e-03],
+        [ 1.8677e-02,  4.3182e-03,  5.2338e-03,  ...,  1.0719e-02,
+          1.2436e-02,  9.9869e-03],
+        [ 2.3246e-05,  2.1793e-06,  3.0026e-06,  ...,  2.3507e-06,
+          3.9712e-06,  4.2655e-06],
+        ...,
+        [-1.1072e-01, -2.7847e-02, -2.3636e-02,  ..., -4.8157e-02,
+         -4.7394e-02, -3.8910e-02],
+        [-1.3840e-02, -1.3046e-03, -1.7710e-03,  ..., -1.3762e-03,
+         -2.3403e-03, -2.4967e-03],
+        [ 9.9609e-02,  2.2934e-02,  1.8143e-02,  ...,  3.5889e-02,
+          3.3936e-02,  2.8702e-02]], device='cuda:0')
+Epoch 31, bias, value: tensor([ 0.0541,  0.1380,  0.0769, -0.0721, -0.0531, -0.0971, -0.0361],
+       device='cuda:0'), grad: tensor([ 1.6998e-02,  6.3904e-02,  8.8096e-05,  2.1477e-03, -1.9678e-01,
+        -5.2063e-02,  1.6553e-01], device='cuda:0')
+351
+0.006112604669781575
+changing lr
+epoch 30, time 519.72, cls_loss 0.7459 cls_loss_mapping 2.0254 cls_loss_causal 1.6665 re_mapping 0.0557 re_causal 0.0540 /// teacc 90.30 lr 0.00589278
+Epoch 32, weight, value: tensor([[ 0.0689, -0.0128,  0.0920,  ...,  0.0131, -0.0721, -0.0477],
+        [ 0.0981,  0.2206,  0.1083,  ...,  0.1088,  0.2130,  0.1867],
+        [-0.1955, -0.3880, -0.2786,  ..., -0.0563, -0.0092, -0.0236],
+        ...,
+        [-0.2226, -0.1693, -0.1472,  ...,  0.0924,  0.1673,  0.0745],
+        [ 0.1631,  0.1523, -0.0399,  ...,  0.1039, -0.0591,  0.0850],
+        [ 0.2024,  0.1841,  0.3131,  ..., -0.2238, -0.2801, -0.2219]],
+       device='cuda:0'), grad: tensor([[ 0.0036,  0.0008,  0.0008,  ...,  0.0016,  0.0023,  0.0020],
+        [ 0.0009,  0.0004,  0.0004,  ...,  0.0006,  0.0010,  0.0008],
+        [ 0.0014,  0.0003,  0.0004,  ...,  0.0006,  0.0010,  0.0008],
+        ...,
+        [-0.0087, -0.0022, -0.0023,  ..., -0.0040, -0.0063, -0.0053],
+        [ 0.0024,  0.0006,  0.0006,  ...,  0.0011,  0.0016,  0.0014],
+        [ 0.0005,  0.0001,  0.0001,  ...,  0.0002,  0.0003,  0.0003]],
+       device='cuda:0')
+Epoch 32, bias, value: tensor([ 0.0928,  0.1270,  0.0732, -0.0479, -0.0892, -0.0559, -0.0682],
+       device='cuda:0'), grad: tensor([ 1.5045e-02,  4.3869e-03,  5.8174e-03,  5.3793e-06, -3.7140e-02,
+         9.9640e-03,  1.9779e-03], device='cuda:0')
+351
+0.005892784473993186
+changing lr
+---------------------saving model at epoch 31----------------------------------------------------
+epoch 31, time 521.40, cls_loss 0.7182 cls_loss_mapping 2.0228 cls_loss_causal 1.6606 re_mapping 0.0563 re_causal 0.0559 /// teacc 94.94 lr 0.00567117
+Epoch 33, weight, value: tensor([[ 0.0732,  0.0258,  0.1435,  ...,  0.0427, -0.0476, -0.0248],
+        [ 0.1124,  0.2742,  0.1517,  ...,  0.0664,  0.1756,  0.1431],
+        [-0.2114, -0.4411, -0.2894,  ..., -0.1017, -0.0338, -0.0489],
+        ...,
+        [-0.2287, -0.2197, -0.2142,  ...,  0.1169,  0.1857,  0.1004],
+        [ 0.1629,  0.1513, -0.0234,  ...,  0.0690, -0.0779,  0.0469],
+        [ 0.1870,  0.1406,  0.2500,  ..., -0.1986, -0.2725, -0.2031]],
+       device='cuda:0'), grad: tensor([[ 8.9600e-02,  2.2812e-02,  2.9221e-02,  ...,  1.1986e-02,
+          2.0752e-02,  1.7593e-02],
+        [ 1.0114e-01,  2.5497e-02,  1.6861e-02,  ...,  2.8336e-02,
+          2.0325e-02,  1.7471e-02],
+        [ 1.0138e-03,  1.0002e-04,  1.3673e-04,  ...,  2.4796e-04,
+          3.1495e-04,  3.1328e-04],
+        ...,
+        [ 1.1032e-02,  1.5154e-03,  1.5783e-03,  ...,  2.7981e-03,
+          3.1242e-03,  3.0327e-03],
+        [ 1.1375e-02,  1.2531e-03,  1.5640e-03,  ...,  2.8152e-03,
+          3.4447e-03,  3.4027e-03],
+        [-1.7737e-01, -4.7546e-02, -4.4403e-02,  ..., -3.7170e-02,
+         -3.6530e-02, -3.0426e-02]], device='cuda:0')
+Epoch 33, bias, value: tensor([ 0.0658,  0.1162,  0.0841, -0.0060, -0.0739, -0.0620, -0.0648],
+       device='cuda:0'), grad: tensor([ 0.1759,  0.1884,  0.0042, -0.1548,  0.0398,  0.0458, -0.2996],
+       device='cuda:0')
+351
+0.00567116632908828
+changing lr
+epoch 32, time 518.51, cls_loss 0.8094 cls_loss_mapping 2.0240 cls_loss_causal 1.6761 re_mapping 0.0549 re_causal 0.0546 /// teacc 91.98 lr 0.00544820
+Epoch 34, weight, value: tensor([[ 0.0585,  0.0063,  0.1002,  ...,  0.0407, -0.0591, -0.0321],
+        [ 0.1091,  0.2879,  0.1501,  ...,  0.0401,  0.1527,  0.1304],
+        [-0.1953, -0.4353, -0.2615,  ..., -0.0045,  0.0411,  0.0324],
+        ...,
+        [-0.2437, -0.2365, -0.2227,  ...,  0.1220,  0.2156,  0.1126],
+        [ 0.1961,  0.2603,  0.0794,  ...,  0.0404, -0.1011,  0.0226],
+        [ 0.2034,  0.1304,  0.2576,  ..., -0.2172, -0.2898, -0.2201]],
+       device='cuda:0'), grad: tensor([[-0.0095, -0.0029, -0.0019,  ..., -0.0056, -0.0037, -0.0036],
+        [-0.0684, -0.0244, -0.0249,  ..., -0.0086, -0.0083, -0.0086],
+        [-0.0090, -0.0011, -0.0009,  ..., -0.0014, -0.0014, -0.0010],
+        ...,
+        [ 0.0013,  0.0003,  0.0002,  ...,  0.0006,  0.0004,  0.0004],
+        [ 0.0328,  0.0096,  0.0091,  ...,  0.0069,  0.0057,  0.0054],
+        [ 0.0529,  0.0184,  0.0184,  ...,  0.0081,  0.0073,  0.0074]],
+       device='cuda:0')
+Epoch 34, bias, value: tensor([ 0.0795,  0.1209,  0.1078, -0.0647, -0.0726, -0.0600, -0.0790],
+       device='cuda:0'), grad: tensor([-2.1469e-02, -1.3879e-01, -2.9297e-02,  2.0862e-07,  3.1528e-03,
+         7.6843e-02,  1.0950e-01], device='cuda:0')
+351
+0.00544819654451717
+changing lr
+epoch 33, time 516.95, cls_loss 0.6802 cls_loss_mapping 2.0248 cls_loss_causal 1.6471 re_mapping 0.0548 re_causal 0.0530 /// teacc 94.51 lr 0.00522432
+Epoch 35, weight, value: tensor([[ 0.0565, -0.0252,  0.0821,  ...,  0.0093, -0.0795, -0.0487],
+        [ 0.1135,  0.2966,  0.1510,  ...,  0.0688,  0.1626,  0.1398],
+        [-0.1997, -0.4274, -0.2292,  ..., -0.0096,  0.0492,  0.0314],
+        ...,
+        [-0.2473, -0.2755, -0.2466,  ...,  0.1421,  0.2425,  0.1438],
+        [ 0.1762,  0.2219,  0.0166,  ..., -0.0056, -0.1735, -0.0359],
+        [ 0.2140,  0.1820,  0.2870,  ..., -0.2235, -0.3102, -0.2407]],
+       device='cuda:0'), grad: tensor([[-2.2446e-02, -2.4815e-03, -3.6640e-03,  ..., -2.4986e-03,
+         -3.0613e-03, -3.6278e-03],
+        [-2.3010e-02, -9.8190e-03, -9.8038e-03,  ..., -7.7667e-03,
+         -8.3466e-03, -8.2169e-03],
+        [ 6.4039e-04,  8.8692e-05,  1.2124e-04,  ...,  8.9943e-05,
+          1.0592e-04,  1.2243e-04],
+        ...,
+        [-3.7365e-03, -1.4601e-03, -1.5497e-03,  ..., -2.6131e-03,
+         -2.8553e-03, -2.4357e-03],
+        [ 2.8467e-04,  3.4451e-05,  4.9055e-05,  ...,  3.4332e-05,
+          4.1395e-05,  4.8578e-05],
+        [ 3.8269e-02,  1.2451e-02,  1.3145e-02,  ...,  1.1566e-02,
+          1.2688e-02,  1.2421e-02]], device='cuda:0')
+Epoch 35, bias, value: tensor([ 0.0770,  0.1096,  0.1074, -0.0798, -0.0480, -0.0375, -0.0925],
+       device='cuda:0'), grad: tensor([-0.1265, -0.0762,  0.0035,  0.0558,  0.0048,  0.0016,  0.1370],
+       device='cuda:0')
+351
+0.005224324151752577
+changing lr
+epoch 34, time 517.32, cls_loss 0.6344 cls_loss_mapping 2.0142 cls_loss_causal 1.6392 re_mapping 0.0532 re_causal 0.0519 /// teacc 91.14 lr 0.00500000
+Epoch 36, weight, value: tensor([[ 6.9796e-02, -1.4062e-02,  9.5574e-02,  ..., -1.9911e-04,
+         -8.7270e-02, -5.4044e-02],
+        [ 1.0874e-01,  2.8316e-01,  1.4446e-01,  ...,  7.2891e-02,
+          1.5609e-01,  1.3429e-01],
+        [-2.0718e-01, -4.5888e-01, -2.6003e-01,  ..., -4.1501e-02,
+          1.8462e-02, -3.4331e-03],
+        ...,
+        [-2.4907e-01, -2.9926e-01, -2.7615e-01,  ...,  1.6176e-01,
+          2.5143e-01,  1.6033e-01],
+        [ 1.8436e-01,  2.7745e-01,  5.9178e-02,  ...,  1.4356e-02,
+         -1.4737e-01, -8.4064e-03],
+        [ 1.9917e-01,  1.7917e-01,  2.8215e-01,  ..., -2.3540e-01,
+         -3.1769e-01, -2.5838e-01]], device='cuda:0'), grad: tensor([[ 7.0267e-03,  4.4823e-04,  6.2132e-04,  ...,  1.0651e-04,
+          4.7922e-04,  5.8126e-04],
+        [ 3.3051e-02,  4.0474e-03,  7.3166e-03,  ...,  1.5236e-02,
+          1.7685e-02,  1.7838e-02],
+        [-3.0212e-02, -4.0588e-03, -7.4997e-03,  ..., -1.6647e-02,
+         -1.9012e-02, -1.9104e-02],
+        ...,
+        [ 5.1155e-03,  3.7265e-04,  5.5695e-04,  ...,  4.2939e-04,
+          7.1716e-04,  7.8392e-04],
+        [-2.2293e-02, -1.3838e-03, -1.8854e-03,  ..., -5.1379e-05,
+         -1.2207e-03, -1.5507e-03],
+        [ 3.7041e-03,  2.3770e-04,  3.3069e-04,  ...,  6.7055e-05,
+          2.6393e-04,  3.1757e-04]], device='cuda:0')
+Epoch 36, bias, value: tensor([ 0.0825,  0.0918,  0.1084, -0.0947, -0.0479, -0.0494, -0.0665],
+       device='cuda:0'), grad: tensor([ 0.0463,  0.1626, -0.1385,  0.0208,  0.0324, -0.1479,  0.0244],
+       device='cuda:0')
+351
+0.005000000000000003
+changing lr
+epoch 35, time 522.11, cls_loss 0.6517 cls_loss_mapping 2.0150 cls_loss_causal 1.6200 re_mapping 0.0510 re_causal 0.0495 /// teacc 89.87 lr 0.00477568
+Epoch 37, weight, value: tensor([[ 0.0489, -0.0590,  0.0510,  ..., -0.0083, -0.0834, -0.0509],
+        [ 0.1231,  0.3213,  0.1929,  ...,  0.0751,  0.1676,  0.1496],
+        [-0.1954, -0.4250, -0.2400,  ..., -0.0549,  0.0188, -0.0157],
+        ...,
+        [-0.2582, -0.2965, -0.2630,  ...,  0.2143,  0.2907,  0.1988],
+        [ 0.1511,  0.1759, -0.0228,  ..., -0.0461, -0.1922, -0.0511],
+        [ 0.2173,  0.1993,  0.2946,  ..., -0.2629, -0.3473, -0.2932]],
+       device='cuda:0'), grad: tensor([[ 1.0872e-03,  2.1911e-04,  6.7055e-05,  ...,  1.7416e-04,
+          7.8201e-05,  1.0741e-04],
+        [ 3.6303e-06,  7.3388e-07,  2.2165e-07,  ...,  5.7369e-07,
+          2.4959e-07,  3.4645e-07],
+        [ 2.0385e-04,  4.1068e-05,  1.2763e-05,  ...,  3.2306e-05,
+          1.4655e-05,  2.0087e-05],
+        ...,
+        [-1.3485e-03, -2.7156e-04, -8.3387e-05,  ..., -2.1553e-04,
+         -9.6977e-05, -1.3316e-04],
+        [ 1.4901e-08,  3.7253e-09,  1.8626e-09,  ...,  1.8626e-09,
+          1.8626e-09,  1.8626e-09],
+        [ 5.0992e-05,  1.0267e-05,  3.1963e-06,  ...,  8.0764e-06,
+          3.6769e-06,  5.0329e-06]], device='cuda:0')
+Epoch 37, bias, value: tensor([ 0.0997,  0.0870,  0.0987, -0.0326, -0.0629, -0.0397, -0.0919],
+       device='cuda:0'), grad: tensor([ 4.4746e-03,  1.4998e-05,  8.3733e-04,  1.3709e-05, -5.5466e-03,
+         6.3330e-08,  2.0933e-04], device='cuda:0')
+351
+0.004775675848247429
+changing lr
+epoch 36, time 513.54, cls_loss 0.6701 cls_loss_mapping 2.0228 cls_loss_causal 1.6083 re_mapping 0.0501 re_causal 0.0489 /// teacc 87.34 lr 0.00455180
+Epoch 38, weight, value: tensor([[ 0.0599, -0.0210,  0.0861,  ..., -0.0436, -0.1342, -0.1028],
+        [ 0.1306,  0.3083,  0.1772,  ...,  0.1160,  0.1984,  0.1795],
+        [-0.1966, -0.4690, -0.2965,  ..., -0.0584,  0.0166, -0.0170],
+        ...,
+        [-0.2551, -0.2791, -0.2597,  ...,  0.2133,  0.2978,  0.1991],
+        [ 0.1546,  0.1887, -0.0226,  ..., -0.0048, -0.1632, -0.0107],
+        [ 0.2028,  0.1967,  0.3107,  ..., -0.2591, -0.3253, -0.2681]],
+       device='cuda:0'), grad: tensor([[-7.0610e-03, -2.3174e-03, -2.3575e-03,  ..., -3.0684e-04,
+         -6.6328e-04, -5.8413e-04],
+        [ 7.0572e-03,  2.3155e-03,  2.3556e-03,  ...,  3.0637e-04,
+          6.6233e-04,  5.8365e-04],
+        [ 2.4214e-08,  7.4506e-09,  7.4506e-09,  ...,  1.8626e-09,
+          1.8626e-09,  1.8626e-09],
+        ...,
+        [ 6.1467e-07,  1.7695e-07,  1.8068e-07,  ...,  6.5193e-08,
+          8.9407e-08,  8.3819e-08],
+        [ 4.8429e-08,  1.4901e-08,  1.6764e-08,  ...,  1.8626e-09,
+          3.7253e-09,  3.7253e-09],
+        [ 8.9630e-06,  2.9486e-06,  2.9914e-06,  ...,  4.0233e-07,
+          8.4564e-07,  7.5065e-07]], device='cuda:0')
+Epoch 38, bias, value: tensor([ 0.0879,  0.1174,  0.1135, -0.0678, -0.0509, -0.0314, -0.1210],
+       device='cuda:0'), grad: tensor([-2.1286e-02,  2.1271e-02,  7.0781e-08,  4.4703e-08,  1.7714e-06,
+         1.4342e-07,  2.6882e-05], device='cuda:0')
+351
+0.004551803455482836
+changing lr
+epoch 37, time 519.32, cls_loss 0.5550 cls_loss_mapping 2.0081 cls_loss_causal 1.5897 re_mapping 0.0499 re_causal 0.0480 /// teacc 89.45 lr 0.00432883
+Epoch 39, weight, value: tensor([[ 0.0572, -0.0232,  0.0778,  ...,  0.0147, -0.0854, -0.0580],
+        [ 0.1242,  0.3113,  0.1880,  ...,  0.0894,  0.1726,  0.1578],
+        [-0.2157, -0.4816, -0.3151,  ..., -0.0444,  0.0248, -0.0177],
+        ...,
+        [-0.2495, -0.2651, -0.2187,  ...,  0.1613,  0.2716,  0.1759],
+        [ 0.1450,  0.1910, -0.0274,  ..., -0.0007, -0.1735, -0.0121],
+        [ 0.2249,  0.1937,  0.2990,  ..., -0.2533, -0.3238, -0.2647]],
+       device='cuda:0'), grad: tensor([[ 6.3133e-04,  1.4699e-04,  1.4997e-04,  ...,  3.0947e-04,
+          2.4843e-04,  2.7323e-04],
+        [-1.2751e-03, -2.7537e-04, -3.5977e-04,  ..., -3.0732e-04,
+         -4.2605e-04, -3.6359e-04],
+        [-1.7099e-03, -4.4417e-04, -4.5490e-04,  ..., -2.1029e-04,
+         -1.3566e-04, -1.3924e-04],
+        ...,
+        [-2.9564e-04, -6.0976e-05, -6.1870e-05,  ..., -2.6751e-04,
+         -2.2089e-04, -2.4462e-04],
+        [-1.8492e-05, -1.5274e-06, -1.6242e-06,  ..., -3.9116e-06,
+         -4.1425e-06, -4.8727e-06],
+        [ 2.6665e-03,  6.3467e-04,  7.2813e-04,  ...,  4.7970e-04,
+          5.3835e-04,  4.7922e-04]], device='cuda:0')
+Epoch 39, bias, value: tensor([ 0.0943,  0.1019,  0.0967, -0.0858, -0.0279, -0.0628, -0.0910],
+       device='cuda:0'), grad: tensor([ 2.5139e-03, -1.8682e-03, -6.9656e-03,  3.7812e-06, -1.1234e-03,
+        -1.3673e-04,  7.5760e-03], device='cuda:0')
+351
+0.004328833670911726
+changing lr
+epoch 38, time 514.43, cls_loss 0.5678 cls_loss_mapping 2.0133 cls_loss_causal 1.5978 re_mapping 0.0495 re_causal 0.0474 /// teacc 94.09 lr 0.00410722
+Epoch 40, weight, value: tensor([[ 0.0445, -0.0386,  0.0810,  ..., -0.0189, -0.0944, -0.0731],
+        [ 0.1344,  0.3271,  0.2239,  ...,  0.0973,  0.1933,  0.1696],
+        [-0.2006, -0.4036, -0.2698,  ...,  0.0066,  0.0645,  0.0223],
+        ...,
+        [-0.2441, -0.3042, -0.2567,  ...,  0.1545,  0.2525,  0.1672],
+        [ 0.1620,  0.2004, -0.0262,  ...,  0.0030, -0.1641,  0.0014],
+        [ 0.2046,  0.1719,  0.2644,  ..., -0.2616, -0.3576, -0.2930]],
+       device='cuda:0'), grad: tensor([[ 1.9930e-07,  3.9116e-08,  5.0291e-08,  ...,  8.0094e-08,
+          9.6858e-08,  1.0058e-07],
+        [-3.3528e-08, -5.5879e-09, -3.7253e-09,  ..., -1.1176e-08,
+         -1.1176e-08, -9.3132e-09],
+        [ 1.1548e-07,  1.3039e-08,  1.8626e-08,  ...,  6.5193e-08,
+          7.4506e-08,  8.1956e-08],
+        ...,
+        [-1.0207e-06, -3.0734e-07, -4.0606e-07,  ..., -2.3469e-07,
+         -3.8929e-07, -3.9488e-07],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 7.2084e-07,  2.5332e-07,  3.3155e-07,  ...,  1.0245e-07,
+          2.2352e-07,  2.1793e-07]], device='cuda:0')
+Epoch 40, bias, value: tensor([ 0.0910,  0.1022,  0.1076, -0.0985, -0.0368, -0.0225, -0.1070],
+       device='cuda:0'), grad: tensor([ 6.2212e-07, -5.7742e-08,  4.0978e-07,  9.1270e-08, -3.3565e-06,
+         0.0000e+00,  2.3153e-06], device='cuda:0')
+351
+0.0041072155260068206
+changing lr
+epoch 39, time 509.68, cls_loss 0.5485 cls_loss_mapping 2.0121 cls_loss_causal 1.6023 re_mapping 0.0457 re_causal 0.0454 /// teacc 93.67 lr 0.00388740
+Epoch 41, weight, value: tensor([[ 0.0563, -0.0360,  0.0934,  ..., -0.0163, -0.0562, -0.0499],
+        [ 0.1347,  0.3287,  0.2202,  ...,  0.1261,  0.2073,  0.1861],
+        [-0.2070, -0.4245, -0.2739,  ..., -0.0274,  0.0423, -0.0030],
+        ...,
+        [-0.2507, -0.2697, -0.2485,  ...,  0.1614,  0.2260,  0.1591],
+        [ 0.1574,  0.1995, -0.0194,  ..., -0.0065, -0.1668,  0.0008],
+        [ 0.2049,  0.1749,  0.2683,  ..., -0.2637, -0.3562, -0.2889]],
+       device='cuda:0'), grad: tensor([[ 2.5116e-02,  7.2289e-03,  7.4654e-03,  ...,  4.2877e-03,
+          4.0588e-03,  3.3417e-03],
+        [ 5.9652e-04,  1.1712e-04,  1.3208e-04,  ...,  4.3780e-05,
+          4.9323e-05,  4.9233e-05],
+        [ 1.4853e-04,  3.5077e-05,  3.5286e-05,  ...,  1.4320e-05,
+          1.6734e-05,  1.7479e-05],
+        ...,
+        [-2.4216e-02, -7.0610e-03, -7.2632e-03,  ..., -4.2458e-03,
+         -4.0092e-03, -3.2978e-03],
+        [-5.6076e-03, -1.0319e-03, -1.2360e-03,  ..., -2.9874e-04,
+         -3.2163e-04, -3.0851e-04],
+        [ 1.2856e-03,  2.4652e-04,  2.8729e-04,  ...,  7.6890e-05,
+          8.4102e-05,  8.2076e-05]], device='cuda:0')
+Epoch 41, bias, value: tensor([ 0.1214,  0.1035,  0.1379, -0.1253, -0.1024, -0.0129, -0.0997],
+       device='cuda:0'), grad: tensor([ 0.0527,  0.0021,  0.0007,  0.0073, -0.0500, -0.0168,  0.0041],
+       device='cuda:0')
+351
+0.0038873953302184317
+changing lr
+---------------------saving model at epoch 40----------------------------------------------------
+epoch 40, time 513.86, cls_loss 0.5432 cls_loss_mapping 2.0128 cls_loss_causal 1.5994 re_mapping 0.0461 re_causal 0.0449 /// teacc 95.36 lr 0.00366982
+Epoch 42, weight, value: tensor([[ 5.4254e-02, -9.8813e-03,  9.1193e-02,  ..., -9.2332e-03,
+         -8.2300e-02, -7.1133e-02],
+        [ 1.3345e-01,  3.1586e-01,  1.9959e-01,  ...,  1.6291e-01,
+          2.2806e-01,  2.0370e-01],
+        [-1.9875e-01, -4.0610e-01, -2.6660e-01,  ...,  5.9895e-03,
+          5.1363e-02,  8.3295e-03],
+        ...,
+        [-2.3673e-01, -3.0089e-01, -2.3964e-01,  ...,  1.4556e-01,
+          2.3465e-01,  1.6399e-01],
+        [ 1.3871e-01,  1.4912e-01, -5.1723e-02,  ..., -1.6223e-04,
+         -1.5480e-01,  1.1256e-02],
+        [ 2.1437e-01,  2.1203e-01,  3.0667e-01,  ..., -2.9160e-01,
+         -3.5081e-01, -2.8256e-01]], device='cuda:0'), grad: tensor([[ 1.3447e-03,  7.6532e-05,  6.6698e-05,  ...,  1.0662e-03,
+          1.1854e-03,  1.4296e-03],
+        [ 3.5889e-02,  1.1703e-02,  1.2772e-02,  ...,  8.5678e-03,
+          1.0872e-02,  1.2131e-02],
+        [ 9.9945e-04,  5.6267e-05,  4.8816e-05,  ...,  7.9536e-04,
+          8.8358e-04,  1.0662e-03],
+        ...,
+        [ 3.3474e-03,  7.2956e-04,  7.7915e-04,  ...,  1.5640e-03,
+          1.8148e-03,  2.1343e-03],
+        [ 8.5163e-04,  4.7207e-05,  4.0591e-05,  ...,  6.8331e-04,
+          7.5912e-04,  9.1553e-04],
+        [-4.2816e-02, -1.2634e-02, -1.3725e-02,  ..., -1.2985e-02,
+         -1.5854e-02, -1.8082e-02]], device='cuda:0')
+Epoch 42, bias, value: tensor([ 0.1261,  0.1253,  0.1224, -0.1587, -0.1046, -0.0187, -0.0943],
+       device='cuda:0'), grad: tensor([ 0.0240,  0.1104,  0.0179,  0.0068,  0.0306,  0.0154, -0.2052],
+       device='cuda:0')
+351
+0.003669815772166629
+changing lr
+epoch 41, time 512.04, cls_loss 0.5438 cls_loss_mapping 2.0124 cls_loss_causal 1.5886 re_mapping 0.0460 re_causal 0.0435 /// teacc 94.09 lr 0.00345492
+Epoch 43, weight, value: tensor([[ 5.7933e-02, -1.8663e-03,  1.0306e-01,  ..., -1.7979e-02,
+         -8.2056e-02, -7.6299e-02],
+        [ 1.2788e-01,  3.2638e-01,  1.9825e-01,  ...,  1.8030e-01,
+          2.4479e-01,  2.1880e-01],
+        [-1.9516e-01, -4.3272e-01, -2.7490e-01,  ..., -2.8230e-02,
+          2.7986e-02,  3.5133e-03],
+        ...,
+        [-2.5607e-01, -3.3139e-01, -2.5817e-01,  ...,  1.7035e-01,
+          2.4724e-01,  1.8084e-01],
+        [ 1.4013e-01,  1.3398e-01, -5.9999e-02,  ..., -2.9420e-02,
+         -1.6585e-01, -3.1199e-04],
+        [ 2.2246e-01,  2.3113e-01,  3.1712e-01,  ..., -2.9427e-01,
+         -3.5810e-01, -2.9456e-01]], device='cuda:0'), grad: tensor([[ 3.7727e-03,  3.6716e-04,  4.5991e-04,  ...,  7.7391e-04,
+          7.8678e-04,  8.2636e-04],
+        [ 4.9255e-02,  1.2962e-02,  1.3992e-02,  ...,  7.6981e-03,
+          1.0765e-02,  1.0139e-02],
+        [ 2.9011e-03,  1.2553e-04,  1.5628e-04,  ...,  2.7633e-04,
+          8.0442e-04,  1.2646e-03],
+        ...,
+        [-2.3155e-03, -2.1350e-04, -2.9731e-04,  ..., -6.9618e-04,
+         -3.5834e-04, -1.4055e-04],
+        [ 6.4945e-04,  4.2230e-05,  5.3704e-05,  ...,  9.7990e-05,
+          1.5795e-04,  2.1386e-04],
+        [-5.4474e-02, -1.3290e-02, -1.4374e-02,  ..., -8.1635e-03,
+         -1.2207e-02, -1.2390e-02]], device='cuda:0')
+Epoch 43, bias, value: tensor([ 0.1293,  0.0932,  0.2061, -0.1913, -0.1274, -0.0296, -0.0916],
+       device='cuda:0'), grad: tensor([ 0.0284, -0.0225,  0.0667,  0.0046,  0.0044,  0.0101, -0.0919],
+       device='cuda:0')
+351
+0.0034549150281252667
+changing lr
+epoch 42, time 513.15, cls_loss 0.4794 cls_loss_mapping 2.0081 cls_loss_causal 1.5691 re_mapping 0.0438 re_causal 0.0425 /// teacc 92.83 lr 0.00324313
+Epoch 44, weight, value: tensor([[ 5.8567e-02,  5.0522e-06,  1.1420e-01,  ..., -2.8653e-02,
+         -8.7530e-02, -7.3185e-02],
+        [ 1.2741e-01,  3.1643e-01,  1.9476e-01,  ...,  1.4342e-01,
+          2.1955e-01,  1.9181e-01],
+        [-2.0834e-01, -4.4797e-01, -2.7967e-01,  ..., -2.0007e-02,
+          3.3734e-02, -7.0638e-03],
+        ...,
+        [-2.3444e-01, -2.7922e-01, -2.2546e-01,  ...,  1.9001e-01,
+          2.5860e-01,  1.9245e-01],
+        [ 1.3917e-01,  1.0024e-01, -9.9891e-02,  ..., -2.7270e-02,
+         -1.8200e-01, -2.7985e-03],
+        [ 2.1885e-01,  2.3454e-01,  3.1456e-01,  ..., -2.8594e-01,
+         -3.5129e-01, -2.8981e-01]], device='cuda:0'), grad: tensor([[-2.3636e-02, -2.8362e-03, -4.3983e-03,  ..., -3.6926e-03,
+         -8.2779e-03, -5.7869e-03],
+        [ 7.8231e-06,  1.0142e-06,  1.5087e-06,  ...,  1.1995e-06,
+          2.6338e-06,  1.8543e-06],
+        [ 8.1211e-06,  9.9279e-07,  1.5097e-06,  ...,  1.2554e-06,
+          2.7902e-06,  1.9725e-06],
+        ...,
+        [ 2.3651e-02,  2.8419e-03,  4.4022e-03,  ...,  3.6926e-03,
+          8.2703e-03,  5.7869e-03],
+        [ 4.5300e-06,  5.4389e-07,  8.4378e-07,  ...,  7.0781e-07,
+          1.5860e-06,  1.1092e-06],
+        [-2.5496e-05, -6.2510e-06, -4.4219e-06,  ..., -1.4883e-06,
+          9.5367e-07, -3.3621e-06]], device='cuda:0')
+Epoch 44, bias, value: tensor([ 0.1327,  0.0951,  0.1546, -0.2009, -0.1028,  0.0080, -0.0947],
+       device='cuda:0'), grad: tensor([-1.3892e-01,  4.4435e-05,  4.7654e-05,  6.2119e-07,  1.3904e-01,
+         2.6628e-05, -1.3256e-04], device='cuda:0')
+351
+0.0032431258795932905
+changing lr
+---------------------saving model at epoch 43----------------------------------------------------
+epoch 43, time 518.76, cls_loss 0.5085 cls_loss_mapping 2.1001 cls_loss_causal 1.6860 re_mapping 0.0582 re_causal 0.0489 /// teacc 96.20 lr 0.00303487
+Epoch 45, weight, value: tensor([[ 0.0647, -0.0047,  0.1090,  ..., -0.0195, -0.0665, -0.0448],
+        [ 0.1329,  0.3451,  0.2124,  ...,  0.1672,  0.2370,  0.1993],
+        [-0.1988, -0.4635, -0.2842,  ..., -0.0513,  0.0080, -0.0255],
+        ...,
+        [-0.2425, -0.2845, -0.2329,  ...,  0.1892,  0.2528,  0.1754],
+        [ 0.1477,  0.1198, -0.0658,  ..., -0.0073, -0.1702,  0.0072],
+        [ 0.2058,  0.2204,  0.2979,  ..., -0.2989, -0.3604, -0.2966]],
+       device='cuda:0'), grad: tensor([[ 2.8824e-02,  7.2708e-03,  8.7967e-03,  ...,  2.6741e-03,
+          5.0468e-03,  3.9482e-03],
+        [ 4.9957e-02,  1.4626e-02,  1.7181e-02,  ...,  6.2943e-03,
+          8.5220e-03,  7.2746e-03],
+        [ 2.2924e-04,  5.1528e-05,  6.3241e-05,  ...,  2.3112e-05,
+          4.2915e-05,  3.4332e-05],
+        ...,
+        [ 1.0920e-03,  1.1945e-04,  1.5831e-04,  ...,  2.5153e-04,
+          2.9159e-04,  2.8610e-04],
+        [-1.1816e-03,  2.9534e-05,  5.6811e-06,  ..., -4.1914e-04,
+         -4.1556e-04, -4.4489e-04],
+        [-7.8918e-02, -2.2095e-02, -2.6215e-02,  ..., -8.8196e-03,
+         -1.3481e-02, -1.1093e-02]], device='cuda:0')
+Epoch 45, bias, value: tensor([ 0.1516,  0.0880,  0.1448, -0.2041, -0.1199,  0.0122, -0.0848],
+       device='cuda:0'), grad: tensor([ 9.8816e-02,  1.5857e-01,  8.2636e-04, -3.0864e-06,  4.7607e-03,
+        -6.1874e-03, -2.5684e-01], device='cuda:0')
+351
+0.0030348748417303863
+changing lr
+---------------------saving model at epoch 44----------------------------------------------------
+epoch 44, time 517.28, cls_loss 0.4238 cls_loss_mapping 2.0343 cls_loss_causal 1.5900 re_mapping 0.0450 re_causal 0.0452 /// teacc 96.62 lr 0.00283058
+Epoch 46, weight, value: tensor([[ 0.0510, -0.0139,  0.0923,  ..., -0.0389, -0.0838, -0.0651],
+        [ 0.1338,  0.3364,  0.2073,  ...,  0.1674,  0.2361,  0.2048],
+        [-0.2087, -0.5012, -0.3144,  ..., -0.0399,  0.0171, -0.0245],
+        ...,
+        [-0.2289, -0.2449, -0.2016,  ...,  0.1820,  0.2485,  0.1666],
+        [ 0.1429,  0.0996, -0.0804,  ..., -0.0275, -0.1764,  0.0025],
+        [ 0.2104,  0.2294,  0.3064,  ..., -0.2872, -0.3558, -0.2845]],
+       device='cuda:0'), grad: tensor([[ 2.0289e-04,  2.8253e-05,  2.9251e-05,  ...,  6.4731e-05,
+          8.3983e-05,  7.8261e-05],
+        [ 8.3148e-05,  1.1548e-05,  1.1966e-05,  ...,  2.6554e-05,
+          3.4422e-05,  3.2067e-05],
+        [-1.2112e-03, -1.6844e-04, -1.7440e-04,  ..., -3.8648e-04,
+         -5.0116e-04, -4.6706e-04],
+        ...,
+        [ 8.2254e-04,  1.1450e-04,  1.1873e-04,  ...,  2.6226e-04,
+          3.4046e-04,  3.1734e-04],
+        [ 3.4478e-06,  3.9674e-07,  4.1910e-07,  ...,  1.2582e-06,
+          1.6252e-06,  1.5339e-06],
+        [ 4.4703e-05,  6.2697e-06,  6.2697e-06,  ...,  1.4395e-05,
+          1.8463e-05,  1.7092e-05]], device='cuda:0')
+Epoch 46, bias, value: tensor([ 0.1395,  0.0985,  0.1219, -0.2074, -0.0930,  0.0139, -0.0871],
+       device='cuda:0'), grad: tensor([ 1.2770e-03,  5.2404e-04, -7.6256e-03,  3.4499e-04,  5.1765e-03,
+         2.6464e-05,  2.8062e-04], device='cuda:0')
+351
+0.0028305813044122124
+changing lr
+epoch 45, time 519.12, cls_loss 0.4614 cls_loss_mapping 2.0098 cls_loss_causal 1.5874 re_mapping 0.0426 re_causal 0.0423 /// teacc 92.41 lr 0.00263066
+Epoch 47, weight, value: tensor([[ 0.0677,  0.0137,  0.1035,  ..., -0.0535, -0.0986, -0.0843],
+        [ 0.1318,  0.3325,  0.2051,  ...,  0.1873,  0.2515,  0.2312],
+        [-0.2068, -0.5325, -0.3454,  ..., -0.0610,  0.0031, -0.0392],
+        ...,
+        [-0.2312, -0.2311, -0.1772,  ...,  0.1831,  0.2529,  0.1696],
+        [ 0.1211,  0.0546, -0.1177,  ..., -0.0346, -0.1718,  0.0008],
+        [ 0.2036,  0.2217,  0.3086,  ..., -0.2849, -0.3539, -0.2847]],
+       device='cuda:0'), grad: tensor([[-7.5562e-02, -1.4015e-02, -1.6006e-02,  ..., -2.7420e-02,
+         -3.2776e-02, -2.7145e-02],
+        [ 2.0599e-04,  3.7313e-05,  3.6478e-05,  ...,  2.0802e-05,
+          3.4541e-05,  2.9653e-05],
+        [ 5.1689e-03,  1.2922e-03,  1.5574e-03,  ...,  2.9540e-04,
+          6.9237e-04,  5.5361e-04],
+        ...,
+        [ 7.6355e-02,  1.4229e-02,  1.6281e-02,  ...,  2.7435e-02,
+          3.2928e-02,  2.7206e-02],
+        [-8.1110e-04, -9.4235e-05, -5.4091e-05,  ..., -1.1891e-04,
+         -1.7262e-04, -1.4913e-04],
+        [-5.4245e-03, -1.4620e-03, -1.8320e-03,  ..., -2.2388e-04,
+         -7.0763e-04, -4.9400e-04]], device='cuda:0')
+Epoch 47, bias, value: tensor([ 0.1391,  0.1200,  0.1460, -0.2323, -0.1097, -0.0010, -0.0920],
+       device='cuda:0'), grad: tensor([-2.0374e-01,  6.0797e-04,  1.1230e-02,  1.3220e-04,  2.0398e-01,
+        -2.8419e-03, -9.3002e-03], device='cuda:0')
+351
+0.0026306566876350096
+changing lr
+epoch 46, time 510.36, cls_loss 0.4595 cls_loss_mapping 2.0051 cls_loss_causal 1.5727 re_mapping 0.0404 re_causal 0.0393 /// teacc 95.78 lr 0.00243550
+Epoch 48, weight, value: tensor([[ 6.3844e-02,  1.4529e-02,  1.0177e-01,  ..., -3.0998e-02,
+         -8.9246e-02, -7.3568e-02],
+        [ 1.2788e-01,  3.1314e-01,  1.8938e-01,  ...,  1.5825e-01,
+          2.2348e-01,  1.9618e-01],
+        [-2.0966e-01, -5.1798e-01, -3.1398e-01,  ..., -9.3159e-02,
+         -1.6673e-02, -5.6145e-02],
+        ...,
+        [-2.3356e-01, -2.5342e-01, -2.0370e-01,  ...,  1.9737e-01,
+          2.6343e-01,  1.7414e-01],
+        [ 1.2609e-01,  7.4439e-02, -1.0637e-01,  ..., -3.5956e-05,
+         -1.3285e-01,  4.1937e-02],
+        [ 2.1362e-01,  2.4305e-01,  3.2065e-01,  ..., -2.8506e-01,
+         -3.5426e-01, -2.7592e-01]], device='cuda:0'), grad: tensor([[-0.0119, -0.0032, -0.0032,  ..., -0.0011, -0.0013, -0.0019],
+        [ 0.0210,  0.0043,  0.0044,  ...,  0.0022,  0.0036,  0.0047],
+        [ 0.0042,  0.0005,  0.0006,  ...,  0.0005,  0.0010,  0.0013],
+        ...,
+        [-0.0211, -0.0024, -0.0028,  ..., -0.0025, -0.0053, -0.0066],
+        [ 0.0061,  0.0007,  0.0008,  ...,  0.0007,  0.0015,  0.0019],
+        [ 0.0015,  0.0001,  0.0002,  ...,  0.0002,  0.0004,  0.0005]],
+       device='cuda:0')
+Epoch 48, bias, value: tensor([ 0.1182,  0.1233,  0.1476, -0.2544, -0.0838,  0.0130, -0.0959],
+       device='cuda:0'), grad: tensor([-0.0405,  0.0960,  0.0255,  0.0020, -0.1307,  0.0370,  0.0107],
+       device='cuda:0')
+351
+0.0024355036129704724
+changing lr
+epoch 47, time 513.16, cls_loss 0.4594 cls_loss_mapping 2.0003 cls_loss_causal 1.5668 re_mapping 0.0399 re_causal 0.0382 /// teacc 95.36 lr 0.00224552
+Epoch 49, weight, value: tensor([[ 0.0639,  0.0141,  0.1016,  ..., -0.0086, -0.0620, -0.0467],
+        [ 0.1283,  0.3240,  0.1902,  ...,  0.1724,  0.2285,  0.2020],
+        [-0.2070, -0.5076, -0.3041,  ..., -0.0845, -0.0044, -0.0439],
+        ...,
+        [-0.2396, -0.2482, -0.1830,  ...,  0.1733,  0.2486,  0.1598],
+        [ 0.1246,  0.0454, -0.1256,  ..., -0.0386, -0.1743, -0.0010],
+        [ 0.2178,  0.2407,  0.3115,  ..., -0.2858, -0.3605, -0.2858]],
+       device='cuda:0'), grad: tensor([[ 1.1795e-02,  8.7309e-04,  9.5224e-04,  ...,  4.4972e-05,
+          6.3086e-04,  8.6832e-04],
+        [ 1.3008e-02,  6.0177e-04,  5.6458e-04,  ...,  1.4365e-04,
+          5.4407e-04,  9.1600e-04],
+        [ 1.6876e-02,  1.5345e-03,  1.7023e-03,  ...,  1.5163e-04,
+          1.1206e-03,  1.3704e-03],
+        ...,
+        [-2.9755e-02, -7.7677e-04, -5.6219e-04,  ..., -1.8620e-04,
+         -8.0776e-04, -1.8511e-03],
+        [ 3.7231e-03,  1.6022e-04,  1.5008e-04,  ...,  2.5973e-05,
+          1.3924e-04,  2.5010e-04],
+        [-1.7746e-02, -2.5387e-03, -2.9621e-03,  ..., -1.9705e-04,
+         -1.7405e-03, -1.7118e-03]], device='cuda:0')
+Epoch 49, bias, value: tensor([ 1.1419e-01,  1.3954e-01,  1.5274e-01, -2.4743e-01, -8.9732e-02,
+         1.4010e-04, -1.0269e-01], device='cuda:0'), grad: tensor([ 0.0541,  0.0616,  0.0745,  0.0098, -0.1469,  0.0179, -0.0709],
+       device='cuda:0')
+351
+0.00224551509273949
+changing lr
+epoch 48, time 518.55, cls_loss 0.4316 cls_loss_mapping 2.0007 cls_loss_causal 1.5557 re_mapping 0.0404 re_causal 0.0377 /// teacc 94.51 lr 0.00206107
+Epoch 50, weight, value: tensor([[ 0.0631,  0.0188,  0.0975,  ..., -0.0055, -0.0615, -0.0431],
+        [ 0.1228,  0.2880,  0.1732,  ...,  0.1377,  0.2112,  0.1858],
+        [-0.2064, -0.5241, -0.3047,  ..., -0.0849,  0.0144, -0.0207],
+        ...,
+        [-0.2337, -0.2353, -0.1873,  ...,  0.1726,  0.2382,  0.1407],
+        [ 0.1195,  0.0764, -0.0941,  ..., -0.0046, -0.1557,  0.0210],
+        [ 0.2226,  0.2626,  0.3275,  ..., -0.2608, -0.3477, -0.2742]],
+       device='cuda:0'), grad: tensor([[ 1.3550e-02,  2.6588e-03,  2.8477e-03,  ...,  2.3956e-03,
+          3.2635e-03,  2.8496e-03],
+        [-1.6678e-02, -3.5343e-03, -4.3831e-03,  ..., -2.9068e-03,
+         -3.8471e-03, -3.3169e-03],
+        [ 6.2180e-03,  9.1887e-04,  2.8801e-04,  ...,  1.1559e-03,
+          1.7004e-03,  1.5326e-03],
+        ...,
+        [ 2.5253e-03,  3.6335e-04,  8.5294e-05,  ...,  4.6897e-04,
+          6.9523e-04,  6.2799e-04],
+        [ 1.0071e-02,  1.4324e-03,  2.8563e-04,  ...,  1.8711e-03,
+          2.7828e-03,  2.5158e-03],
+        [-1.5991e-02, -1.8826e-03,  8.6927e-04,  ..., -3.0422e-03,
+         -4.6806e-03, -4.2877e-03]], device='cuda:0')
+Epoch 50, bias, value: tensor([ 0.1141,  0.1367,  0.1540, -0.2378, -0.0983, -0.0208, -0.0840],
+       device='cuda:0'), grad: tensor([ 0.0398, -0.0366,  0.0326,  0.0016,  0.0137,  0.0554, -0.1066],
+       device='cuda:0')
+351
+0.002061073738537637
+changing lr
+epoch 49, time 507.72, cls_loss 0.4081 cls_loss_mapping 1.9997 cls_loss_causal 1.5381 re_mapping 0.0385 re_causal 0.0363 /// teacc 94.94 lr 0.00188255
+Epoch 51, weight, value: tensor([[ 6.4353e-02,  2.4596e-02,  1.0900e-01,  ..., -1.7421e-02,
+         -6.5980e-02, -4.8632e-02],
+        [ 1.2307e-01,  2.9127e-01,  1.7963e-01,  ...,  1.5389e-01,
+          2.3183e-01,  2.0609e-01],
+        [-2.1599e-01, -5.3051e-01, -3.1146e-01,  ..., -8.9153e-02,
+         -9.1149e-05, -3.7238e-02],
+        ...,
+        [-2.2878e-01, -2.2970e-01, -1.7085e-01,  ...,  1.6940e-01,
+          2.4522e-01,  1.4501e-01],
+        [ 1.2763e-01,  8.0969e-02, -1.0223e-01,  ..., -3.2350e-03,
+         -1.5923e-01,  1.6912e-02],
+        [ 2.1736e-01,  2.5423e-01,  3.1103e-01,  ..., -2.5745e-01,
+         -3.5413e-01, -2.7449e-01]], device='cuda:0'), grad: tensor([[ 0.0328,  0.0132,  0.0124,  ...,  0.0058,  0.0076,  0.0071],
+        [ 0.0074,  0.0012,  0.0012,  ...,  0.0011,  0.0015,  0.0020],
+        [-0.0174, -0.0018, -0.0020,  ..., -0.0026, -0.0033, -0.0050],
+        ...,
+        [ 0.0047,  0.0007,  0.0007,  ...,  0.0007,  0.0009,  0.0013],
+        [ 0.0024,  0.0003,  0.0003,  ...,  0.0004,  0.0005,  0.0007],
+        [-0.0308, -0.0137, -0.0128,  ..., -0.0056, -0.0073, -0.0064]],
+       device='cuda:0')
+Epoch 51, bias, value: tensor([ 0.0967,  0.1361,  0.1440, -0.2295, -0.0783, -0.0227, -0.0778],
+       device='cuda:0'), grad: tensor([ 0.0845,  0.0548, -0.1512,  0.0087,  0.0359,  0.0203, -0.0529],
+       device='cuda:0')
+351
+0.0018825509907063344
+changing lr
+---------------------saving model at epoch 50----------------------------------------------------
+epoch 50, time 507.16, cls_loss 0.4107 cls_loss_mapping 2.0022 cls_loss_causal 1.5429 re_mapping 0.0374 re_causal 0.0362 /// teacc 97.47 lr 0.00171031
+Epoch 52, weight, value: tensor([[ 0.0689,  0.0596,  0.1335,  ...,  0.0022, -0.0560, -0.0431],
+        [ 0.1205,  0.2712,  0.1616,  ...,  0.1699,  0.2394,  0.2170],
+        [-0.2207, -0.5374, -0.3184,  ..., -0.0970, -0.0050, -0.0404],
+        ...,
+        [-0.2300, -0.2499, -0.1710,  ...,  0.1595,  0.2440,  0.1423],
+        [ 0.1287,  0.0920, -0.0927,  ..., -0.0213, -0.1732, -0.0023],
+        [ 0.2217,  0.2571,  0.3099,  ..., -0.2701, -0.3574, -0.2726]],
+       device='cuda:0'), grad: tensor([[-4.0412e-04, -1.1861e-04, -1.2219e-04,  ...,  8.0109e-05,
+          6.8545e-05,  9.0182e-05],
+        [ 1.0147e-03,  2.0981e-04,  2.9373e-04,  ...,  2.9492e-04,
+          4.1270e-04,  4.2462e-04],
+        [ 7.4196e-04,  1.5306e-04,  2.1446e-04,  ...,  2.1696e-04,
+          3.0327e-04,  3.1209e-04],
+        ...,
+        [-3.8109e-03, -7.8869e-04, -1.1082e-03,  ..., -1.1168e-03,
+         -1.5650e-03, -1.6127e-03],
+        [ 6.8009e-05,  1.4029e-05,  1.9670e-05,  ...,  1.9923e-05,
+          2.7835e-05,  2.8655e-05],
+        [ 2.3193e-03,  5.1546e-04,  6.8188e-04,  ...,  4.8470e-04,
+          7.2432e-04,  7.2765e-04]], device='cuda:0')
+Epoch 52, bias, value: tensor([ 0.0921,  0.1354,  0.1366, -0.2213, -0.0787, -0.0355, -0.0618],
+       device='cuda:0'), grad: tensor([-0.0011,  0.0038,  0.0028,  0.0003, -0.0143,  0.0003,  0.0083],
+       device='cuda:0')
+351
+0.0017103063703014388
+changing lr
+epoch 51, time 506.28, cls_loss 0.4076 cls_loss_mapping 1.9959 cls_loss_causal 1.5387 re_mapping 0.0366 re_causal 0.0350 /// teacc 94.09 lr 0.00154469
+Epoch 53, weight, value: tensor([[ 0.0778,  0.0705,  0.1561,  ..., -0.0127, -0.0546, -0.0438],
+        [ 0.1161,  0.2820,  0.1677,  ...,  0.1932,  0.2505,  0.2317],
+        [-0.2107, -0.5117, -0.3060,  ..., -0.0976, -0.0093, -0.0439],
+        ...,
+        [-0.2404, -0.2596, -0.1913,  ...,  0.1554,  0.2306,  0.1292],
+        [ 0.1275,  0.0776, -0.0993,  ..., -0.0154, -0.1646,  0.0107],
+        [ 0.2205,  0.2343,  0.2898,  ..., -0.2838, -0.3635, -0.2813]],
+       device='cuda:0'), grad: tensor([[ 7.0068e-02,  6.1646e-03,  8.1787e-03,  ...,  1.3054e-02,
+          1.8738e-02,  1.8311e-02],
+        [ 7.8049e-03,  7.0286e-04,  4.2462e-04,  ...,  5.6297e-05,
+          7.2765e-04,  1.0614e-03],
+        [ 1.9875e-03,  1.7786e-04,  1.1724e-04,  ...,  3.4243e-05,
+          2.1553e-04,  2.9492e-04],
+        ...,
+        [-6.4453e-02, -5.6152e-03, -8.1711e-03,  ..., -1.3672e-02,
+         -1.9211e-02, -1.8341e-02],
+        [ 1.3504e-03,  1.2165e-04,  7.2122e-05,  ...,  6.9663e-06,
+          1.2177e-04,  1.8036e-04],
+        [-1.7838e-02, -1.6441e-03, -6.7663e-04,  ...,  5.1546e-04,
+         -6.9094e-04, -1.6336e-03]], device='cuda:0')
+Epoch 53, bias, value: tensor([ 0.1010,  0.1321,  0.1380, -0.2329, -0.0936, -0.0231, -0.0580],
+       device='cuda:0'), grad: tensor([ 0.2131,  0.0526,  0.0131,  0.0071, -0.1666,  0.0091, -0.1285],
+       device='cuda:0')
+351
+0.0015446867550656784
+changing lr
+epoch 52, time 503.80, cls_loss 0.3915 cls_loss_mapping 1.9984 cls_loss_causal 1.5326 re_mapping 0.0359 re_causal 0.0342 /// teacc 93.25 lr 0.00138603
+Epoch 54, weight, value: tensor([[ 7.3323e-02,  7.0026e-02,  1.5287e-01,  ..., -2.9073e-02,
+         -7.3820e-02, -5.7492e-02],
+        [ 1.2045e-01,  2.9265e-01,  1.7842e-01,  ...,  1.9378e-01,
+          2.5333e-01,  2.3565e-01],
+        [-2.1019e-01, -5.1735e-01, -3.0422e-01,  ..., -6.4707e-02,
+          2.1316e-02, -1.5093e-02],
+        ...,
+        [-2.3114e-01, -2.4528e-01, -1.8952e-01,  ...,  1.4574e-01,
+          2.2133e-01,  1.1805e-01],
+        [ 1.2648e-01,  6.5940e-02, -1.0740e-01,  ..., -3.3001e-04,
+         -1.5281e-01,  2.1064e-02],
+        [ 2.0974e-01,  2.2047e-01,  2.8207e-01,  ..., -2.8655e-01,
+         -3.6317e-01, -2.8688e-01]], device='cuda:0'), grad: tensor([[ 9.3307e-03,  3.0441e-03,  3.3150e-03,  ...,  2.0428e-03,
+          2.4338e-03,  2.6855e-03],
+        [-1.4565e-02, -4.7073e-03, -5.1422e-03,  ..., -3.2024e-03,
+         -3.8280e-03, -4.2305e-03],
+        [ 6.0225e-04,  1.9312e-04,  2.1148e-04,  ...,  1.3292e-04,
+          1.5938e-04,  1.7643e-04],
+        ...,
+        [ 4.4556e-03,  1.4133e-03,  1.5526e-03,  ...,  9.8705e-04,
+          1.1883e-03,  1.3180e-03],
+        [ 5.1931e-06,  1.6326e-06,  1.7993e-06,  ...,  1.1530e-06,
+          1.3923e-06,  1.5479e-06],
+        [ 8.9586e-05,  2.8819e-05,  3.1531e-05,  ...,  1.9759e-05,
+          2.3648e-05,  2.6137e-05]], device='cuda:0')
+Epoch 54, bias, value: tensor([ 0.0945,  0.1317,  0.1391, -0.2337, -0.0827, -0.0154, -0.0666],
+       device='cuda:0'), grad: tensor([ 4.2358e-02, -6.6650e-02,  2.7752e-03,  3.5930e-04,  2.0691e-02,
+         2.4319e-05,  4.1056e-04], device='cuda:0')
+351
+0.001386025680863044
+changing lr
+epoch 53, time 501.14, cls_loss 0.3552 cls_loss_mapping 1.9993 cls_loss_causal 1.5301 re_mapping 0.0359 re_causal 0.0341 /// teacc 94.94 lr 0.00123464
+Epoch 55, weight, value: tensor([[ 0.0711,  0.0533,  0.1346,  ..., -0.0275, -0.0730, -0.0546],
+        [ 0.1209,  0.2979,  0.1856,  ...,  0.2018,  0.2653,  0.2491],
+        [-0.2112, -0.5192, -0.3084,  ..., -0.0730,  0.0120, -0.0204],
+        ...,
+        [-0.2358, -0.2459, -0.1853,  ...,  0.1494,  0.2226,  0.1112],
+        [ 0.1380,  0.0819, -0.0900,  ...,  0.0095, -0.1454,  0.0296],
+        [ 0.2143,  0.2307,  0.2872,  ..., -0.2998, -0.3738, -0.2942]],
+       device='cuda:0'), grad: tensor([[ 0.0143,  0.0019,  0.0019,  ...,  0.0015,  0.0018,  0.0025],
+        [-0.0408, -0.0048, -0.0050,  ..., -0.0042, -0.0053, -0.0073],
+        [ 0.0040,  0.0003,  0.0003,  ...,  0.0004,  0.0006,  0.0008],
+        ...,
+        [ 0.0029,  0.0002,  0.0002,  ...,  0.0003,  0.0004,  0.0006],
+        [ 0.0076,  0.0007,  0.0008,  ...,  0.0008,  0.0010,  0.0014],
+        [ 0.0107,  0.0016,  0.0016,  ...,  0.0011,  0.0013,  0.0018]],
+       device='cuda:0')
+Epoch 55, bias, value: tensor([ 0.0943,  0.1453,  0.1334, -0.2486, -0.0879, -0.0182, -0.0614],
+       device='cuda:0'), grad: tensor([ 0.0873, -0.2654,  0.0308,  0.0102,  0.0225,  0.0522,  0.0624],
+       device='cuda:0')
+351
+0.0012346426699819469
+changing lr
+epoch 54, time 507.13, cls_loss 0.4205 cls_loss_mapping 1.9954 cls_loss_causal 1.5419 re_mapping 0.0342 re_causal 0.0326 /// teacc 95.36 lr 0.00109084
+Epoch 56, weight, value: tensor([[ 7.4944e-02,  7.6388e-02,  1.4600e-01,  ..., -3.7974e-02,
+         -9.4236e-02, -7.3989e-02],
+        [ 1.1494e-01,  2.8221e-01,  1.7087e-01,  ...,  1.9636e-01,
+          2.6007e-01,  2.3869e-01],
+        [-2.1345e-01, -5.2127e-01, -3.1249e-01,  ..., -8.1661e-02,
+          8.1802e-03, -2.2807e-02],
+        ...,
+        [-2.3078e-01, -2.3661e-01, -1.6888e-01,  ...,  1.7235e-01,
+          2.4797e-01,  1.3559e-01],
+        [ 1.3035e-01,  6.8332e-02, -1.0051e-01,  ..., -1.4455e-04,
+         -1.5228e-01,  1.8339e-02],
+        [ 2.1482e-01,  2.2152e-01,  2.8481e-01,  ..., -3.0455e-01,
+         -3.7109e-01, -2.8631e-01]], device='cuda:0'), grad: tensor([[-9.7885e-03, -2.6107e-04, -4.3249e-04,  ...,  1.9312e-04,
+         -1.7452e-04, -1.6317e-03],
+        [ 1.9255e-03,  7.8857e-05,  9.8348e-05,  ...,  5.4836e-05,
+          1.7238e-04,  3.9768e-04],
+        [ 2.5730e-03,  1.2094e-04,  1.3888e-04,  ...,  1.2565e-04,
+          3.0828e-04,  5.7459e-04],
+        ...,
+        [-2.4166e-03, -2.7347e-04, -2.0719e-04,  ..., -6.5708e-04,
+         -1.0910e-03, -9.8419e-04],
+        [ 1.8845e-03,  7.4029e-05,  9.4712e-05,  ...,  4.3005e-05,
+          1.5283e-04,  3.8052e-04],
+        [ 4.0741e-03,  1.9085e-04,  2.1958e-04,  ...,  1.9693e-04,
+          4.8518e-04,  9.0837e-04]], device='cuda:0')
+Epoch 56, bias, value: tensor([ 0.0937,  0.1298,  0.1274, -0.2417, -0.0783, -0.0316, -0.0438],
+       device='cuda:0'), grad: tensor([-0.1293,  0.0203,  0.0243,  0.0188,  0.0067,  0.0205,  0.0386],
+       device='cuda:0')
+351
+0.0010908425876598518
+changing lr
+epoch 55, time 501.76, cls_loss 0.3836 cls_loss_mapping 1.9912 cls_loss_causal 1.5375 re_mapping 0.0346 re_causal 0.0329 /// teacc 94.51 lr 0.00095492
+Epoch 57, weight, value: tensor([[ 0.0750,  0.0771,  0.1465,  ..., -0.0303, -0.0880, -0.0692],
+        [ 0.1170,  0.2811,  0.1679,  ...,  0.1979,  0.2609,  0.2437],
+        [-0.2151, -0.5300, -0.3112,  ..., -0.0856,  0.0113, -0.0223],
+        ...,
+        [-0.2337, -0.2370, -0.1698,  ...,  0.1707,  0.2428,  0.1306],
+        [ 0.1358,  0.0608, -0.1067,  ..., -0.0013, -0.1456,  0.0306],
+        [ 0.2115,  0.2230,  0.2860,  ..., -0.3085, -0.3746, -0.2927]],
+       device='cuda:0'), grad: tensor([[ 2.0278e-04,  5.1737e-05,  5.2214e-05,  ...,  4.5240e-05,
+          4.8846e-05,  5.1826e-05],
+        [-1.6105e-04, -4.7386e-05, -3.9339e-05,  ..., -3.4720e-05,
+         -2.6077e-05, -2.7671e-05],
+        [ 2.2769e-04,  5.5254e-05,  6.4552e-05,  ...,  5.8860e-05,
+          8.5115e-05,  9.2387e-05],
+        ...,
+        [-3.2097e-05,  7.7412e-06, -1.0990e-05,  ..., -6.1654e-06,
+         -2.6569e-05, -2.7061e-05],
+        [ 8.2925e-06,  2.3469e-06,  2.3097e-06,  ...,  2.1886e-06,
+          2.7847e-06,  3.0603e-06],
+        [-2.4605e-04, -6.9857e-05, -6.8843e-05,  ..., -6.5506e-05,
+         -8.4221e-05, -9.2685e-05]], device='cuda:0')
+Epoch 57, bias, value: tensor([ 0.0958,  0.1428,  0.1200, -0.2544, -0.0779, -0.0153, -0.0571],
+       device='cuda:0'), grad: tensor([ 5.8031e-04, -3.2806e-04,  8.2302e-04,  5.6345e-07, -3.6907e-04,
+         2.4453e-05, -7.3099e-04], device='cuda:0')
+351
+0.000954915028125264
+changing lr
+epoch 56, time 507.49, cls_loss 0.3563 cls_loss_mapping 1.9924 cls_loss_causal 1.5230 re_mapping 0.0331 re_causal 0.0310 /// teacc 95.36 lr 0.00082713
+Epoch 58, weight, value: tensor([[ 0.0762,  0.0735,  0.1377,  ..., -0.0304, -0.0952, -0.0712],
+        [ 0.1190,  0.2779,  0.1650,  ...,  0.1847,  0.2467,  0.2291],
+        [-0.2094, -0.5184, -0.3049,  ..., -0.0902,  0.0101, -0.0189],
+        ...,
+        [-0.2363, -0.2420, -0.1771,  ...,  0.1648,  0.2358,  0.1241],
+        [ 0.1266,  0.0581, -0.1114,  ...,  0.0025, -0.1461,  0.0267],
+        [ 0.2124,  0.2271,  0.3007,  ..., -0.2912, -0.3495, -0.2758]],
+       device='cuda:0'), grad: tensor([[-1.3390e-02, -1.3981e-03, -1.4992e-03,  ..., -1.4505e-03,
+         -8.1778e-04, -7.2908e-04],
+        [ 1.5106e-02,  1.3494e-03,  1.4668e-03,  ...,  1.3971e-03,
+          8.1205e-04,  6.6710e-04],
+        [ 2.8610e-03,  2.7108e-04,  2.7084e-04,  ...,  1.2851e-04,
+          2.8443e-04,  3.3975e-04],
+        ...,
+        [ 6.9504e-03,  6.2370e-04,  6.2609e-04,  ...,  2.9159e-04,
+          6.6185e-04,  7.8106e-04],
+        [ 5.4455e-04,  5.1379e-05,  5.1349e-05,  ...,  2.4334e-05,
+          5.3972e-05,  6.4373e-05],
+        [-1.2291e-02, -9.2030e-04, -9.3794e-04,  ..., -4.0245e-04,
+         -1.0176e-03, -1.1511e-03]], device='cuda:0')
+Epoch 58, bias, value: tensor([ 0.0952,  0.1392,  0.1335, -0.2444, -0.0732, -0.0283, -0.0654],
+       device='cuda:0'), grad: tensor([-0.0043,  0.0129,  0.0185,  0.0015,  0.0444,  0.0035, -0.0765],
+       device='cuda:0')
+351
+0.0008271337313934874
+changing lr
+epoch 57, time 503.75, cls_loss 0.3471 cls_loss_mapping 1.9920 cls_loss_causal 1.5044 re_mapping 0.0313 re_causal 0.0294 /// teacc 94.94 lr 0.00070776
+Epoch 59, weight, value: tensor([[ 0.0792,  0.0747,  0.1409,  ..., -0.0282, -0.0907, -0.0679],
+        [ 0.1194,  0.2793,  0.1666,  ...,  0.1820,  0.2465,  0.2267],
+        [-0.2094, -0.5162, -0.3031,  ..., -0.0968,  0.0038, -0.0261],
+        ...,
+        [-0.2331, -0.2387, -0.1689,  ...,  0.1632,  0.2357,  0.1242],
+        [ 0.1241,  0.0569, -0.1082,  ..., -0.0037, -0.1501,  0.0215],
+        [ 0.2094,  0.2255,  0.2911,  ..., -0.2843, -0.3521, -0.2742]],
+       device='cuda:0'), grad: tensor([[-2.4933e-02, -1.5354e-03, -3.7251e-03,  ..., -3.3092e-03,
+         -6.0501e-03, -5.8861e-03],
+        [-1.4029e-03, -6.0081e-04, -5.1355e-04,  ..., -5.4073e-04,
+         -5.6553e-04, -5.5075e-04],
+        [ 5.5771e-03,  4.3702e-04,  8.9693e-04,  ...,  7.9489e-04,
+          1.3876e-03,  1.3552e-03],
+        ...,
+        [ 1.3939e-02,  1.1778e-03,  2.2564e-03,  ...,  2.1019e-03,
+          3.5515e-03,  3.4409e-03],
+        [ 3.2395e-05, -1.8239e-05, -1.4603e-05,  ..., -1.6689e-05,
+         -1.8716e-05, -1.7539e-05],
+        [ 6.6528e-03,  5.2834e-04,  1.0786e-03,  ...,  9.4938e-04,
+          1.6594e-03,  1.6222e-03]], device='cuda:0')
+Epoch 59, bias, value: tensor([ 0.0924,  0.1383,  0.1266, -0.2376, -0.0672, -0.0391, -0.0578],
+       device='cuda:0'), grad: tensor([-6.8848e-02, -2.6016e-03,  1.5221e-02,  3.7074e-04,  3.7720e-02,
+        -3.3557e-05,  1.8173e-02], device='cuda:0')
+351
+0.00070775603199067
+changing lr
+epoch 58, time 502.29, cls_loss 0.3452 cls_loss_mapping 1.9942 cls_loss_causal 1.5129 re_mapping 0.0300 re_causal 0.0283 /// teacc 95.78 lr 0.00059702
+Epoch 60, weight, value: tensor([[ 0.0695,  0.0624,  0.1262,  ..., -0.0455, -0.1046, -0.0810],
+        [ 0.1217,  0.2878,  0.1747,  ...,  0.1911,  0.2523,  0.2341],
+        [-0.2069, -0.5142, -0.3068,  ..., -0.0982, -0.0045, -0.0324],
+        ...,
+        [-0.2283, -0.2313, -0.1593,  ...,  0.1722,  0.2455,  0.1295],
+        [ 0.1299,  0.0631, -0.0994,  ...,  0.0061, -0.1387,  0.0321],
+        [ 0.2077,  0.2219,  0.2893,  ..., -0.2928, -0.3561, -0.2776]],
+       device='cuda:0'), grad: tensor([[-2.2018e-02, -8.3389e-03, -8.0338e-03,  ..., -5.4502e-04,
+         -6.9809e-04, -1.6737e-03],
+        [ 1.3290e-02,  5.0316e-03,  4.8485e-03,  ...,  3.2926e-04,
+          4.2176e-04,  1.0109e-03],
+        [ 6.6948e-04,  1.5199e-04,  1.6880e-04,  ...,  7.9632e-05,
+          1.3411e-04,  1.2231e-04],
+        ...,
+        [-8.8632e-05,  6.8426e-05,  4.3392e-05,  ..., -6.5506e-05,
+         -1.1617e-04, -7.8499e-05],
+        [ 2.0993e-04,  7.9453e-05,  7.6532e-05,  ...,  5.1931e-06,
+          6.6496e-06,  1.5944e-05],
+        [ 7.8659e-03,  2.9793e-03,  2.8706e-03,  ...,  1.9479e-04,
+          2.4939e-04,  5.9795e-04]], device='cuda:0')
+Epoch 60, bias, value: tensor([ 0.0930,  0.1392,  0.1267, -0.2429, -0.0702, -0.0321, -0.0585],
+       device='cuda:0'), grad: tensor([-0.1230,  0.0742,  0.0029,  0.0004,  0.0003,  0.0012,  0.0439],
+       device='cuda:0')
+351
+0.0005970223407163104
+changing lr
+epoch 59, time 500.18, cls_loss 0.3675 cls_loss_mapping 1.9968 cls_loss_causal 1.5092 re_mapping 0.0286 re_causal 0.0268 /// teacc 96.62 lr 0.00049516
+Epoch 61, weight, value: tensor([[ 0.0739,  0.0634,  0.1348,  ..., -0.0371, -0.0884, -0.0667],
+        [ 0.1222,  0.2929,  0.1796,  ...,  0.1895,  0.2475,  0.2287],
+        [-0.2082, -0.5171, -0.3136,  ..., -0.0977, -0.0071, -0.0342],
+        ...,
+        [-0.2329, -0.2285, -0.1624,  ...,  0.1670,  0.2362,  0.1211],
+        [ 0.1260,  0.0680, -0.0990,  ...,  0.0042, -0.1397,  0.0300],
+        [ 0.2103,  0.2144,  0.2816,  ..., -0.2919, -0.3543, -0.2742]],
+       device='cuda:0'), grad: tensor([[ 1.5366e-02,  1.3227e-03,  1.3084e-03,  ...,  9.6893e-04,
+          1.7900e-03,  2.2221e-03],
+        [ 2.0905e-03,  1.7965e-04,  1.7774e-04,  ...,  1.3161e-04,
+          2.4319e-04,  3.0208e-04],
+        [-2.2919e-02, -1.9722e-03, -1.9512e-03,  ..., -1.4448e-03,
+         -2.6684e-03, -3.3150e-03],
+        ...,
+        [ 5.3215e-04,  4.5806e-05,  4.5300e-05,  ...,  3.3557e-05,
+          6.1989e-05,  7.6950e-05],
+        [ 1.8239e-05,  1.5358e-06,  1.4966e-06,  ...,  1.0319e-06,
+          1.9800e-06,  2.4792e-06],
+        [ 4.8409e-03,  4.1676e-04,  4.1246e-04,  ...,  3.0541e-04,
+          5.6410e-04,  7.0047e-04]], device='cuda:0')
+Epoch 61, bias, value: tensor([ 0.0900,  0.1377,  0.1297, -0.2477, -0.0755, -0.0343, -0.0481],
+       device='cuda:0'), grad: tensor([ 6.1340e-02,  8.3466e-03, -9.1492e-02,  2.6155e-04,  2.1229e-03,
+         7.2539e-05,  1.9333e-02], device='cuda:0')
+351
+0.0004951556604879052
+changing lr
+epoch 60, time 502.87, cls_loss 0.3353 cls_loss_mapping 1.9945 cls_loss_causal 1.5122 re_mapping 0.0277 re_causal 0.0257 /// teacc 96.20 lr 0.00040236
+Epoch 62, weight, value: tensor([[ 7.1702e-02,  6.1295e-02,  1.2918e-01,  ..., -3.8449e-02,
+         -9.2640e-02, -6.9285e-02],
+        [ 1.2116e-01,  2.9096e-01,  1.8026e-01,  ...,  1.8855e-01,
+          2.4819e-01,  2.2967e-01],
+        [-2.0879e-01, -5.1336e-01, -3.1002e-01,  ..., -9.5967e-02,
+         -3.1548e-03, -2.9241e-02],
+        ...,
+        [-2.2799e-01, -2.2327e-01, -1.5587e-01,  ...,  1.7215e-01,
+          2.4019e-01,  1.2354e-01],
+        [ 1.2620e-01,  6.4781e-02, -1.0154e-01,  ...,  2.2510e-04,
+         -1.4256e-01,  2.8709e-02],
+        [ 2.0906e-01,  2.1311e-01,  2.8058e-01,  ..., -2.9630e-01,
+         -3.5815e-01, -2.7915e-01]], device='cuda:0'), grad: tensor([[ 4.0512e-03,  2.0695e-04,  4.8637e-04,  ...,  3.9744e-04,
+          5.3024e-04,  7.3051e-04],
+        [ 3.8509e-03,  2.0730e-04,  4.6897e-04,  ...,  3.8409e-04,
+          5.1260e-04,  7.0286e-04],
+        [ 1.3878e-02,  3.1662e-03,  3.1013e-03,  ...,  2.9831e-03,
+          3.8910e-03,  4.4174e-03],
+        ...,
+        [-1.7929e-02, -1.2130e-04, -1.6909e-03,  ..., -1.2293e-03,
+         -1.6727e-03, -2.6131e-03],
+        [ 2.2793e-03,  9.8884e-05,  2.6369e-04,  ...,  2.1160e-04,
+          2.8324e-04,  3.9744e-04],
+        [-7.8506e-03, -3.6106e-03, -2.8172e-03,  ..., -2.8934e-03,
+         -3.7422e-03, -3.9177e-03]], device='cuda:0')
+Epoch 62, bias, value: tensor([ 0.0859,  0.1408,  0.1356, -0.2496, -0.0752, -0.0322, -0.0533],
+       device='cuda:0'), grad: tensor([ 0.0290,  0.0275,  0.0771,  0.0126, -0.1356,  0.0165, -0.0271],
+       device='cuda:0')
+351
+0.00040236113724274745
+changing lr
+epoch 61, time 502.20, cls_loss 0.3430 cls_loss_mapping 1.9894 cls_loss_causal 1.5239 re_mapping 0.0266 re_causal 0.0247 /// teacc 96.62 lr 0.00031883
+Epoch 63, weight, value: tensor([[ 0.0752,  0.0675,  0.1343,  ..., -0.0401, -0.0929, -0.0693],
+        [ 0.1205,  0.2837,  0.1741,  ...,  0.1871,  0.2469,  0.2302],
+        [-0.2147, -0.5144, -0.3130,  ..., -0.0937, -0.0044, -0.0309],
+        ...,
+        [-0.2267, -0.2241, -0.1557,  ...,  0.1744,  0.2426,  0.1241],
+        [ 0.1283,  0.0686, -0.0947,  ..., -0.0023, -0.1416,  0.0294],
+        [ 0.2072,  0.2123,  0.2792,  ..., -0.2990, -0.3607, -0.2814]],
+       device='cuda:0'), grad: tensor([[ 2.7100e-02,  4.1275e-03,  5.0049e-03,  ...,  5.6076e-03,
+          8.2932e-03,  7.7553e-03],
+        [ 2.2364e-04,  2.3171e-05,  2.9340e-05,  ...,  1.6525e-05,
+          4.2140e-05,  4.0680e-05],
+        [ 3.9577e-04,  5.8323e-05,  7.0930e-05,  ...,  7.6473e-05,
+          1.1629e-04,  1.0896e-04],
+        ...,
+        [-6.8115e-02, -8.0109e-03, -9.9869e-03,  ..., -7.6370e-03,
+         -1.5137e-02, -1.4435e-02],
+        [ 3.9795e-02,  3.7441e-03,  4.8065e-03,  ...,  1.9026e-03,
+          6.5842e-03,  6.4316e-03],
+        [ 5.7554e-04,  5.4598e-05,  7.0035e-05,  ...,  2.8774e-05,
+          9.6321e-05,  9.3997e-05]], device='cuda:0')
+Epoch 63, bias, value: tensor([ 0.0913,  0.1397,  0.1263, -0.2503, -0.0728, -0.0302, -0.0525],
+       device='cuda:0'), grad: tensor([ 1.4294e-01,  9.4891e-04,  2.0466e-03,  8.6069e-05, -3.0933e-01,
+         1.6089e-01,  2.3365e-03], device='cuda:0')
+351
+0.00031882564680131423
+changing lr
+epoch 62, time 501.97, cls_loss 0.3460 cls_loss_mapping 1.9948 cls_loss_causal 1.5023 re_mapping 0.0256 re_causal 0.0239 /// teacc 96.20 lr 0.00024472
+Epoch 64, weight, value: tensor([[ 0.0737,  0.0650,  0.1316,  ..., -0.0434, -0.0945, -0.0719],
+        [ 0.1210,  0.2842,  0.1747,  ...,  0.1910,  0.2498,  0.2329],
+        [-0.2102, -0.5154, -0.3134,  ..., -0.0891,  0.0006, -0.0258],
+        ...,
+        [-0.2313, -0.2327, -0.1616,  ...,  0.1711,  0.2395,  0.1214],
+        [ 0.1263,  0.0699, -0.0959,  ..., -0.0099, -0.1499,  0.0227],
+        [ 0.2100,  0.2191,  0.2850,  ..., -0.2977, -0.3605, -0.2812]],
+       device='cuda:0'), grad: tensor([[ 9.4557e-04,  1.9324e-04,  6.2659e-06,  ...,  8.1599e-05,
+          1.2755e-04,  3.5644e-04],
+        [ 1.5860e-03,  3.7289e-04,  1.3185e-04,  ...,  1.9395e-04,
+          2.8801e-04,  5.5456e-04],
+        [ 1.2379e-03,  2.8586e-04,  9.0957e-05,  ...,  1.4687e-04,
+          2.1887e-04,  4.3774e-04],
+        ...,
+        [ 1.1015e-03,  2.6751e-04,  1.1098e-04,  ...,  1.4257e-04,
+          2.1052e-04,  3.7766e-04],
+        [ 9.8610e-04,  2.2936e-04,  8.0287e-05,  ...,  1.1939e-04,
+          1.7667e-04,  3.4595e-04],
+        [-6.2790e-03, -1.4467e-03, -4.5109e-04,  ..., -7.3385e-04,
+         -1.0958e-03, -2.2202e-03]], device='cuda:0')
+Epoch 64, bias, value: tensor([ 0.0897,  0.1396,  0.1261, -0.2461, -0.0749, -0.0332, -0.0488],
+       device='cuda:0'), grad: tensor([ 0.0260,  0.0328,  0.0267,  0.0091,  0.0212,  0.0207, -0.1365],
+       device='cuda:0')
+351
+0.0002447174185242325
+changing lr
+epoch 63, time 502.00, cls_loss 0.3325 cls_loss_mapping 1.9915 cls_loss_causal 1.5028 re_mapping 0.0249 re_causal 0.0232 /// teacc 94.94 lr 0.00018019
+Epoch 65, weight, value: tensor([[ 0.0720,  0.0625,  0.1292,  ..., -0.0465, -0.0963, -0.0726],
+        [ 0.1213,  0.2846,  0.1747,  ...,  0.1885,  0.2474,  0.2308],
+        [-0.2125, -0.5160, -0.3158,  ..., -0.0908, -0.0027, -0.0282],
+        ...,
+        [-0.2304, -0.2309, -0.1598,  ...,  0.1757,  0.2433,  0.1240],
+        [ 0.1295,  0.0757, -0.0873,  ..., -0.0078, -0.1474,  0.0245],
+        [ 0.2103,  0.2169,  0.2829,  ..., -0.2975, -0.3599, -0.2801]],
+       device='cuda:0'), grad: tensor([[ 1.2417e-03,  1.7393e-04,  2.9492e-04,  ...,  3.4976e-04,
+          6.2323e-04,  6.5327e-04],
+        [-5.2643e-04, -6.7711e-05, -4.8071e-05,  ..., -2.2924e-04,
+         -2.2221e-04, -2.3353e-04],
+        [ 4.5633e-04,  9.2089e-05,  1.3053e-04,  ...,  3.8952e-05,
+          1.2684e-04,  1.0157e-04],
+        ...,
+        [ 1.9196e-02,  2.5158e-03,  6.8932e-03,  ...,  3.7270e-03,
+          1.2375e-02,  1.3313e-02],
+        [ 2.4090e-03,  5.3120e-04,  6.4468e-04,  ...,  1.3447e-04,
+          4.3774e-04,  2.3830e-04],
+        [-2.2781e-02, -3.2463e-03, -7.9193e-03,  ..., -4.0207e-03,
+         -1.3344e-02, -1.4076e-02]], device='cuda:0')
+Epoch 65, bias, value: tensor([ 0.0917,  0.1407,  0.1256, -0.2483, -0.0757, -0.0340, -0.0493],
+       device='cuda:0'), grad: tensor([ 5.0735e-03, -1.8339e-03,  1.2140e-03,  1.8150e-05,  9.7229e-02,
+         4.8904e-03, -1.0657e-01], device='cuda:0')
+351
+0.0001801856965207339
+changing lr
+epoch 64, time 504.58, cls_loss 0.3377 cls_loss_mapping 1.9901 cls_loss_causal 1.5093 re_mapping 0.0243 re_causal 0.0227 /// teacc 96.20 lr 0.00012536
+Epoch 66, weight, value: tensor([[ 0.0718,  0.0632,  0.1289,  ..., -0.0450, -0.0958, -0.0727],
+        [ 0.1226,  0.2869,  0.1775,  ...,  0.1902,  0.2502,  0.2338],
+        [-0.2101, -0.5144, -0.3147,  ..., -0.0888, -0.0022, -0.0274],
+        ...,
+        [-0.2302, -0.2288, -0.1592,  ...,  0.1764,  0.2434,  0.1241],
+        [ 0.1275,  0.0726, -0.0892,  ..., -0.0108, -0.1499,  0.0217],
+        [ 0.2097,  0.2148,  0.2811,  ..., -0.2987, -0.3604, -0.2797]],
+       device='cuda:0'), grad: tensor([[-4.9133e-03, -1.4181e-03, -1.5485e-04,  ...,  7.7009e-04,
+          6.9904e-04, -4.0770e-04],
+        [ 2.6965e-04, -6.1631e-05, -4.6420e-04,  ..., -6.5231e-04,
+         -7.4863e-04, -3.6240e-04],
+        [ 1.6556e-03,  3.3712e-04,  1.7226e-04,  ...,  5.6475e-05,
+          1.3709e-04,  2.9516e-04],
+        ...,
+        [-2.5082e-03,  6.2943e-05, -1.9753e-04,  ..., -5.1212e-04,
+         -7.1859e-04, -5.8603e-04],
+        [ 1.1311e-03,  2.6155e-04,  1.2016e-04,  ...,  1.4275e-05,
+          6.4254e-05,  1.9336e-04],
+        [ 3.8319e-03,  6.9571e-04,  4.6682e-04,  ...,  3.1543e-04,
+          5.3358e-04,  7.7486e-04]], device='cuda:0')
+Epoch 66, bias, value: tensor([ 0.0921,  0.1444,  0.1274, -0.2534, -0.0758, -0.0384, -0.0495],
+       device='cuda:0'), grad: tensor([-0.1292,  0.0316,  0.0217,  0.0080,  0.0130,  0.0174,  0.0374],
+       device='cuda:0')
+351
+0.000125360439090882
+changing lr
+epoch 65, time 501.74, cls_loss 0.3467 cls_loss_mapping 1.9922 cls_loss_causal 1.4891 re_mapping 0.0238 re_causal 0.0222 /// teacc 96.20 lr 0.00008035
+Epoch 67, weight, value: tensor([[ 0.0719,  0.0634,  0.1281,  ..., -0.0439, -0.0957, -0.0727],
+        [ 0.1217,  0.2853,  0.1774,  ...,  0.1901,  0.2503,  0.2334],
+        [-0.2109, -0.5144, -0.3151,  ..., -0.0904, -0.0040, -0.0289],
+        ...,
+        [-0.2307, -0.2290, -0.1596,  ...,  0.1755,  0.2433,  0.1240],
+        [ 0.1311,  0.0764, -0.0854,  ..., -0.0100, -0.1482,  0.0242],
+        [ 0.2090,  0.2131,  0.2792,  ..., -0.2988, -0.3612, -0.2799]],
+       device='cuda:0'), grad: tensor([[ 0.0031,  0.0009,  0.0009,  ...,  0.0009,  0.0009,  0.0011],
+        [ 0.0173,  0.0051,  0.0048,  ...,  0.0049,  0.0053,  0.0059],
+        [-0.0308, -0.0082, -0.0089,  ..., -0.0084, -0.0124, -0.0116],
+        ...,
+        [ 0.0111,  0.0032,  0.0031,  ...,  0.0031,  0.0037,  0.0039],
+        [-0.0262, -0.0080, -0.0072,  ..., -0.0075, -0.0070, -0.0086],
+        [ 0.0042,  0.0013,  0.0012,  ...,  0.0012,  0.0012,  0.0014]],
+       device='cuda:0')
+Epoch 67, bias, value: tensor([ 0.0921,  0.1417,  0.1267, -0.2534, -0.0758, -0.0338, -0.0494],
+       device='cuda:0'), grad: tensor([ 0.0172,  0.0907, -0.1135,  0.0828,  0.0524, -0.1533,  0.0237],
+       device='cuda:0')
+351
+8.03520570068517e-05
+changing lr
+epoch 66, time 500.62, cls_loss 0.3403 cls_loss_mapping 1.9906 cls_loss_causal 1.4932 re_mapping 0.0233 re_causal 0.0217 /// teacc 96.62 lr 0.00004525
+Epoch 68, weight, value: tensor([[ 0.0723,  0.0628,  0.1277,  ..., -0.0440, -0.0954, -0.0724],
+        [ 0.1213,  0.2861,  0.1781,  ...,  0.1907,  0.2505,  0.2334],
+        [-0.2109, -0.5145, -0.3151,  ..., -0.0894, -0.0033, -0.0278],
+        ...,
+        [-0.2308, -0.2280, -0.1591,  ...,  0.1750,  0.2430,  0.1235],
+        [ 0.1302,  0.0754, -0.0869,  ..., -0.0120, -0.1497,  0.0227],
+        [ 0.2092,  0.2126,  0.2788,  ..., -0.2990, -0.3616, -0.2801]],
+       device='cuda:0'), grad: tensor([[-3.8409e-04, -9.1434e-05, -6.0171e-05,  ..., -7.2420e-05,
+         -5.5701e-05, -3.6716e-05],
+        [ 6.3516e-06,  2.1234e-06,  3.0007e-06,  ...,  1.1716e-06,
+          1.5916e-06,  1.9204e-06],
+        [ 3.2157e-05,  1.0729e-05,  1.4961e-05,  ...,  5.9605e-06,
+          8.2478e-06,  9.7975e-06],
+        ...,
+        [ 2.0466e-03,  7.0381e-04,  1.0519e-03,  ...,  3.7336e-04,
+          5.1069e-04,  6.4802e-04],
+        [ 2.4308e-07,  8.4750e-08,  1.2666e-07,  ...,  4.3306e-08,
+          5.9139e-08,  7.5903e-08],
+        [-1.6994e-03, -6.2466e-04, -1.0090e-03,  ..., -3.0780e-04,
+         -4.6420e-04, -6.2227e-04]], device='cuda:0')
+Epoch 68, bias, value: tensor([ 0.0927,  0.1405,  0.1277, -0.2524, -0.0767, -0.0337, -0.0495],
+       device='cuda:0'), grad: tensor([-4.0746e-04,  2.2978e-05,  1.1456e-04,  2.5872e-06,  8.0948e-03,
+         9.6485e-07, -7.8125e-03], device='cuda:0')
+351
+4.5251191160326525e-05
+changing lr
+epoch 67, time 501.24, cls_loss 0.3233 cls_loss_mapping 1.9880 cls_loss_causal 1.4986 re_mapping 0.0230 re_causal 0.0214 /// teacc 96.20 lr 0.00002013
+Epoch 69, weight, value: tensor([[ 0.0710,  0.0615,  0.1264,  ..., -0.0446, -0.0966, -0.0737],
+        [ 0.1221,  0.2865,  0.1786,  ...,  0.1909,  0.2510,  0.2338],
+        [-0.2126, -0.5159, -0.3166,  ..., -0.0905, -0.0044, -0.0288],
+        ...,
+        [-0.2296, -0.2274, -0.1584,  ...,  0.1758,  0.2439,  0.1244],
+        [ 0.1308,  0.0757, -0.0868,  ..., -0.0121, -0.1496,  0.0231],
+        [ 0.2091,  0.2134,  0.2794,  ..., -0.2986, -0.3614, -0.2800]],
+       device='cuda:0'), grad: tensor([[ 1.4946e-02,  1.7433e-03,  1.0605e-03,  ...,  2.6722e-03,
+          2.3880e-03,  3.1815e-03],
+        [ 5.4550e-03,  3.4356e-04,  3.8457e-04,  ...,  2.3913e-04,
+          6.2943e-04,  1.2941e-03],
+        [ 4.0779e-03,  2.3592e-04,  2.8586e-04,  ...,  1.2982e-04,
+          4.5466e-04,  9.7752e-04],
+        ...,
+        [-6.8932e-03, -1.3275e-03, -4.9257e-04,  ..., -2.5501e-03,
+         -1.5345e-03, -1.2283e-03],
+        [ 2.9869e-03,  1.6785e-04,  2.0885e-04,  ...,  8.3566e-05,
+          3.2902e-04,  7.1812e-04],
+        [-2.2293e-02, -1.2598e-03, -1.5678e-03,  ..., -6.2180e-04,
+         -2.4548e-03, -5.3558e-03]], device='cuda:0')
+Epoch 69, bias, value: tensor([ 0.0912,  0.1413,  0.1264, -0.2519, -0.0754, -0.0326, -0.0498],
+       device='cuda:0'), grad: tensor([ 0.0598,  0.0340,  0.0263,  0.0112, -0.0057,  0.0194, -0.1450],
+       device='cuda:0')
+351
+2.0128530023804673e-05
+changing lr
+epoch 68, time 500.61, cls_loss 0.3365 cls_loss_mapping 1.9877 cls_loss_causal 1.5144 re_mapping 0.0228 re_causal 0.0213 /// teacc 96.62 lr 0.00000503
+Epoch 70, weight, value: tensor([[ 0.0708,  0.0615,  0.1265,  ..., -0.0448, -0.0967, -0.0739],
+        [ 0.1224,  0.2868,  0.1789,  ...,  0.1914,  0.2516,  0.2345],
+        [-0.2122, -0.5156, -0.3165,  ..., -0.0901, -0.0041, -0.0284],
+        ...,
+        [-0.2301, -0.2279, -0.1587,  ...,  0.1752,  0.2434,  0.1238],
+        [ 0.1304,  0.0755, -0.0870,  ..., -0.0123, -0.1500,  0.0227],
+        [ 0.2091,  0.2133,  0.2793,  ..., -0.2987, -0.3615, -0.2801]],
+       device='cuda:0'), grad: tensor([[ 0.0205,  0.0025,  0.0036,  ...,  0.0026,  0.0045,  0.0051],
+        [ 0.0048,  0.0007,  0.0008,  ...,  0.0010,  0.0014,  0.0015],
+        [-0.0395, -0.0049, -0.0068,  ..., -0.0059, -0.0093, -0.0105],
+        ...,
+        [ 0.0057,  0.0008,  0.0010,  ...,  0.0010,  0.0014,  0.0016],
+        [ 0.0029,  0.0004,  0.0005,  ...,  0.0004,  0.0007,  0.0008],
+        [ 0.0051,  0.0006,  0.0008,  ...,  0.0008,  0.0012,  0.0014]],
+       device='cuda:0')
+Epoch 70, bias, value: tensor([ 0.0911,  0.1417,  0.1269, -0.2518, -0.0759, -0.0329, -0.0499],
+       device='cuda:0'), grad: tensor([ 0.0848,  0.0179, -0.1594,  0.0016,  0.0220,  0.0117,  0.0213],
+       device='cuda:0')
+351
+5.034667293427056e-06
+changing lr
+epoch 69, time 498.05, cls_loss 0.3622 cls_loss_mapping 1.9871 cls_loss_causal 1.4960 re_mapping 0.0227 re_causal 0.0212 /// teacc 95.78 lr 0.00000000
+---------------------saving last model at epoch 69----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//cartoon/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_Adam', 'source_domain': 'cartoon', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//cartoon/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_Adam/cartoon_16factor_best_test_check.csv', 'factor_num': 16, 'epoch': 'best', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of best
+randm: False
+stride: 5
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+columns: ['cartoon', 'art_painting', 'photo', 'sketch']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+                       cartoon  art_painting      photo     sketch        Avg
+w/o do (original x)  99.658703     68.554688  84.850299  72.792059  75.399015
+      cartoon  art_painting      photo     sketch        Avg
+do  16.595563     19.628906  11.137725  19.750573  16.839068
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//cartoon/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_Adam', 'source_domain': 'cartoon', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//cartoon/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_Adam/cartoon_16factor_last_test_check.csv', 'factor_num': 16, 'epoch': 'last', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of last
+randm: False
+stride: 5
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+columns: ['cartoon', 'art_painting', 'photo', 'sketch']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+                       cartoon  art_painting      photo     sketch        Avg
+w/o do (original x)  99.573379     66.943359  83.772455  77.067956  75.927924
+      cartoon  art_painting      photo     sketch        Avg
+do  29.607509     16.455078  15.688623  26.648002  19.597234
diff --git a/Meta-causal/code-withStyleAttack/73089.error b/Meta-causal/code-withStyleAttack/73089.error
new file mode 100644
index 0000000000000000000000000000000000000000..f81fb680d1436488482073ba9a72adbe8343ce02
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73089.error
@@ -0,0 +1,317 @@
+Solving dependencies
+Installing conda packages
+Empty environment created at prefix: /scratch/yuqian_fu/micromamba/envs/auto-72vhe6zjf3ib
+error    libmamba Could not lock non-existing path '/scratch/yuqian_fu/micromamba/pkgs'
+Transaction
+
+  Prefix: /scratch/yuqian_fu/micromamba/envs/auto-72vhe6zjf3ib
+
+
+
+  No specs added or removed.
+
+  Package                 Version  Build                         Channel                           Size
+─────────────────────────────────────────────────────────────────────────────────────────────────────────
+  Install:
+─────────────────────────────────────────────────────────────────────────────────────────────────────────
+
+  + _libgcc_mutex             0.1  conda_forge                   conda-forge                           
+  + _openmp_mutex             4.5  2_kmp_llvm                    conda-forge                           
+  + blas                    2.116  mkl                           conda-forge                           
+  + blas-devel              3.9.0  16_linux64_mkl                conda-forge                           
+  + brotli-python           1.1.0  py311hb755f60_1               conda-forge                           
+  + bzip2                   1.0.8  h4bc722e_7                    conda-forge                           
+  + ca-certificates      2024.7.4  hbcca054_0                    conda-forge                           
+  + certifi              2024.7.4  pyhd8ed1ab_0                  conda-forge                           
+  + cffi                   1.16.0  py311hb3a22ac_0               conda-forge                           
+  + charset-normalizer      3.3.2  pyhd8ed1ab_0                  conda-forge                           
+  + click                   8.1.7  unix_pyh707e725_0             conda-forge                           
+  + cuda-cudart          12.1.105  0                             nvidia                                
+  + cuda-cupti           12.1.105  0                             /work/conda/cache/nvidia              
+  + cuda-libraries         12.1.0  0                             nvidia                                
+  + cuda-nvrtc           12.1.105  0                             /work/conda/cache/nvidia              
+  + cuda-nvtx            12.1.105  0                             nvidia                                
+  + cuda-opencl           12.5.39  0                             nvidia                                
+  + cuda-runtime           12.1.0  0                             nvidia                                
+  + cuda-version             12.5  3                             nvidia                                
+  + ffmpeg                    4.3  hf484d3e_0                    /work/conda/cache/pytorch             
+  + filelock               3.15.4  pyhd8ed1ab_0                  conda-forge                           
+  + freetype               2.12.1  h267a509_2                    conda-forge                           
+  + gmp                     6.3.0  hac33072_2                    conda-forge                           
+  + gmpy2                   2.1.5  py311hc4f1f91_1               conda-forge                           
+  + gnutls                 3.6.13  h85f3911_1                    /work/conda/cache/conda-forge         
+  + h2                      4.1.0  pyhd8ed1ab_0                  conda-forge                           
+  + hpack                   4.0.0  pyh9f0ad1d_0                  conda-forge                           
+  + hyperframe              6.0.1  pyhd8ed1ab_0                  conda-forge                           
+  + icu                      73.2  h59595ed_0                    /work/conda/cache/conda-forge         
+  + idna                      3.7  pyhd8ed1ab_0                  conda-forge                           
+  + jinja2                  3.1.4  pyhd8ed1ab_0                  conda-forge                           
+  + jpeg                       9e  h166bdaf_2                    conda-forge                           
+  + lame                    3.100  h166bdaf_1003                 conda-forge                           
+  + lcms2                    2.15  hfd0df8a_0                    conda-forge                           
+  + ld_impl_linux-64         2.40  hf3520f5_7                    conda-forge                           
+  + lerc                    4.0.0  h27087fc_0                    conda-forge                           
+  + libblas                 3.9.0  16_linux64_mkl                conda-forge                           
+  + libcblas                3.9.0  16_linux64_mkl                conda-forge                           
+  + libcublas           12.1.0.26  0                             /work/conda/cache/nvidia              
+  + libcufft             11.0.2.4  0                             /work/conda/cache/nvidia              
+  + libcufile            1.10.1.7  0                             nvidia                                
+  + libcurand           10.3.6.82  0                             nvidia                                
+  + libcusolver         11.4.4.55  0                             /work/conda/cache/nvidia              
+  + libcusparse         12.0.2.55  0                             /work/conda/cache/nvidia              
+  + libdeflate               1.17  h0b41bf4_0                    conda-forge                           
+  + libexpat                2.6.2  h59595ed_0                    conda-forge                           
+  + libffi                  3.4.2  h7f98852_5                    conda-forge                           
+  + libgcc-ng              14.1.0  h77fa898_0                    conda-forge                           
+  + libgfortran-ng         14.1.0  h69a702a_0                    conda-forge                           
+  + libgfortran5           14.1.0  hc5f4f2c_0                    /work/conda/cache/conda-forge         
+  + libhwloc               2.11.1  default_hecaa2ac_1000         conda-forge                           
+  + libiconv                 1.17  hd590300_2                    conda-forge                           
+  + libjpeg-turbo           2.0.0  h9bf148f_0                    pytorch                               
+  + liblapack               3.9.0  16_linux64_mkl                conda-forge                           
+  + liblapacke              3.9.0  16_linux64_mkl                conda-forge                           
+  + libnpp              12.0.2.50  0                             /work/conda/cache/nvidia              
+  + libnsl                  2.0.1  hd590300_0                    conda-forge                           
+  + libnvjitlink         12.1.105  0                             /work/conda/cache/nvidia              
+  + libnvjpeg           12.1.1.14  0                             /work/conda/cache/nvidia              
+  + libpng                 1.6.43  h2797004_0                    conda-forge                           
+  + libsqlite              3.46.0  hde9e2c9_0                    conda-forge                           
+  + libstdcxx-ng           14.1.0  hc0a3c3a_0                    /work/conda/cache/conda-forge         
+  + libtiff                 4.5.0  h6adf6a1_2                    conda-forge                           
+  + libuuid                2.38.1  h0b41bf4_0                    conda-forge                           
+  + libwebp-base            1.4.0  hd590300_0                    conda-forge                           
+  + libxcb                   1.13  h7f98852_1004                 conda-forge                           
+  + libxcrypt              4.4.36  hd590300_1                    conda-forge                           
+  + libxml2                2.12.7  hc051c1a_1                    conda-forge                           
+  + libzlib                1.2.13  h4ab18f5_6                    conda-forge                           
+  + llvm-openmp            15.0.7  h0cdce71_0                    /work/conda/cache/conda-forge         
+  + markupsafe              2.1.5  py311h459d7ec_0               conda-forge                           
+  + mkl                  2022.1.0  h84fe81f_915                  /work/conda/cache/conda-forge         
+  + mkl-devel            2022.1.0  ha770c72_916                  conda-forge                           
+  + mkl-include          2022.1.0  h84fe81f_915                  conda-forge                           
+  + mpc                     1.3.1  hfe3b2da_0                    conda-forge                           
+  + mpfr                    4.2.1  h38ae2d0_2                    conda-forge                           
+  + mpmath                  1.3.0  pyhd8ed1ab_0                  conda-forge                           
+  + ncurses                   6.5  h59595ed_0                    conda-forge                           
+  + nettle                    3.6  he412f7d_0                    /work/conda/cache/conda-forge         
+  + networkx                  3.3  pyhd8ed1ab_1                  /work/conda/cache/conda-forge         
+  + numpy                   2.0.1  py311hed25524_0               conda-forge                           
+  + openh264                2.1.1  h780b84a_0                    /work/conda/cache/conda-forge         
+  + openjpeg                2.5.0  hfec8fc6_2                    conda-forge                           
+  + openssl                 3.3.1  h4bc722e_2                    conda-forge                           
+  + pandas                  2.2.2  py311h14de704_1               conda-forge                           
+  + pillow                  9.4.0  py311h50def17_1               /work/conda/cache/conda-forge         
+  + pip                      24.2  pyhd8ed1ab_0                  conda-forge                           
+  + pthread-stubs             0.4  h36c2ea0_1001                 conda-forge                           
+  + pycparser                2.22  pyhd8ed1ab_0                  conda-forge                           
+  + pysocks                 1.7.1  pyha2e5f31_6                  conda-forge                           
+  + python                 3.11.9  hb806964_0_cpython            /work/conda/cache/conda-forge         
+  + python-dateutil         2.9.0  pyhd8ed1ab_0                  conda-forge                           
+  + python-tzdata          2024.1  pyhd8ed1ab_0                  conda-forge                           
+  + python_abi               3.11  4_cp311                       conda-forge                           
+  + pytorch                 2.4.0  py3.11_cuda12.1_cudnn9.1.0_0  pytorch                               
+  + pytorch-cuda             12.1  ha16c6d3_5                    pytorch                               
+  + pytorch-mutex             1.0  cuda                          pytorch                               
+  + pytz                   2024.1  pyhd8ed1ab_0                  conda-forge                           
+  + pyyaml                  6.0.1  py311h459d7ec_1               conda-forge                           
+  + readline                  8.2  h8228510_1                    conda-forge                           
+  + requests               2.32.3  pyhd8ed1ab_0                  conda-forge                           
+  + setuptools             71.0.4  pyhd8ed1ab_0                  conda-forge                           
+  + six                    1.16.0  pyh6c4a22f_0                  conda-forge                           
+  + sympy                  1.13.0  pypyh2585a3b_103              conda-forge                           
+  + tbb                 2021.12.0  h434a139_3                    conda-forge                           
+  + tk                     8.6.13  noxft_h4845f30_101            /work/conda/cache/conda-forge         
+  + torchtriton             3.0.0  py311                         pytorch                               
+  + torchvision            0.19.0  py311_cu121                   pytorch                               
+  + typing_extensions      4.12.2  pyha770c72_0                  conda-forge                           
+  + tzdata                  2024a  h0c530f3_0                    conda-forge                           
+  + urllib3                 2.2.2  pyhd8ed1ab_1                  conda-forge                           
+  + wheel                  0.43.0  pyhd8ed1ab_1                  conda-forge                           
+  + xorg-libxau            1.0.11  hd590300_0                    conda-forge                           
+  + xorg-libxdmcp           1.1.3  h516909a_0                    conda-forge                           
+  + xz                      5.2.6  h166bdaf_0                    conda-forge                           
+  + yaml                    0.2.5  h7f98852_2                    conda-forge                           
+  + zlib                   1.2.13  h4ab18f5_6                    conda-forge                           
+  + zstandard              0.23.0  py311h5cd10c7_0               conda-forge                           
+  + zstd                    1.5.6  ha6fb4c9_0                    conda-forge                           
+
+  Summary:
+
+  Install: 119 packages
+
+  Total download: 0 B
+
+─────────────────────────────────────────────────────────────────────────────────────────────────────────
+
+
+
+Transaction starting
+Linking libcublas-12.1.0.26-0
+Linking libcufft-11.0.2.4-0
+Linking libcusolver-11.4.4.55-0
+Linking libcusparse-12.0.2.55-0
+Linking libnpp-12.0.2.50-0
+Linking libnvjitlink-12.1.105-0
+Linking cuda-cudart-12.1.105-0
+Linking cuda-nvrtc-12.1.105-0
+Linking libnvjpeg-12.1.1.14-0
+Linking cuda-cupti-12.1.105-0
+Linking cuda-nvtx-12.1.105-0
+Linking pytorch-mutex-1.0-cuda
+Linking _libgcc_mutex-0.1-conda_forge
+Linking mkl-include-2022.1.0-h84fe81f_915
+Linking python_abi-3.11-4_cp311
+Linking ld_impl_linux-64-2.40-hf3520f5_7
+Linking ca-certificates-2024.7.4-hbcca054_0
+Linking libgcc-ng-14.1.0-h77fa898_0
+Linking libzlib-1.2.13-h4ab18f5_6
+Linking llvm-openmp-15.0.7-h0cdce71_0
+Linking _openmp_mutex-4.5-2_kmp_llvm
+Linking xorg-libxdmcp-1.1.3-h516909a_0
+Linking pthread-stubs-0.4-h36c2ea0_1001
+Linking xorg-libxau-1.0.11-hd590300_0
+Linking libwebp-base-1.4.0-hd590300_0
+Linking libdeflate-1.17-h0b41bf4_0
+Linking jpeg-9e-h166bdaf_2
+Linking libffi-3.4.2-h7f98852_5
+Linking tk-8.6.13-noxft_h4845f30_101
+Linking openssl-3.3.1-h4bc722e_2
+Linking libxcrypt-4.4.36-hd590300_1
+Linking libsqlite-3.46.0-hde9e2c9_0
+Linking yaml-0.2.5-h7f98852_2
+Linking ncurses-6.5-h59595ed_0
+Linking libgfortran5-14.1.0-hc5f4f2c_0
+Linking lame-3.100-h166bdaf_1003
+Linking nettle-3.6-he412f7d_0
+Linking zlib-1.2.13-h4ab18f5_6
+Linking libstdcxx-ng-14.1.0-hc0a3c3a_0
+Linking libiconv-1.17-hd590300_2
+Linking bzip2-1.0.8-h4bc722e_7
+Linking libpng-1.6.43-h2797004_0
+Linking xz-5.2.6-h166bdaf_0
+Linking libuuid-2.38.1-h0b41bf4_0
+Linking libnsl-2.0.1-hd590300_0
+Linking libexpat-2.6.2-h59595ed_0
+Linking libxcb-1.13-h7f98852_1004
+Linking readline-8.2-h8228510_1
+Linking libgfortran-ng-14.1.0-h69a702a_0
+Linking icu-73.2-h59595ed_0
+Linking zstd-1.5.6-ha6fb4c9_0
+Linking lerc-4.0.0-h27087fc_0
+Linking openh264-2.1.1-h780b84a_0
+Linking gnutls-3.6.13-h85f3911_1
+Linking gmp-6.3.0-hac33072_2
+Linking freetype-2.12.1-h267a509_2
+Linking libxml2-2.12.7-hc051c1a_1
+Linking libtiff-4.5.0-h6adf6a1_2
+Linking mpfr-4.2.1-h38ae2d0_2
+Linking libhwloc-2.11.1-default_hecaa2ac_1000
+Linking openjpeg-2.5.0-hfec8fc6_2
+Linking lcms2-2.15-hfd0df8a_0
+Linking mpc-1.3.1-hfe3b2da_0
+Linking tbb-2021.12.0-h434a139_3
+Linking mkl-2022.1.0-h84fe81f_915
+Linking mkl-devel-2022.1.0-ha770c72_916
+Linking libblas-3.9.0-16_linux64_mkl
+Linking liblapack-3.9.0-16_linux64_mkl
+Linking libcblas-3.9.0-16_linux64_mkl
+Linking liblapacke-3.9.0-16_linux64_mkl
+Linking blas-devel-3.9.0-16_linux64_mkl
+Linking blas-2.116-mkl
+Linking cuda-version-12.5-3
+Linking tzdata-2024a-h0c530f3_0
+Linking libjpeg-turbo-2.0.0-h9bf148f_0
+warning  libmamba [libjpeg-turbo-2.0.0-h9bf148f_0] The following files were already present in the environment:
+    - bin/cjpeg
+    - bin/djpeg
+    - bin/jpegtran
+    - bin/rdjpgcom
+    - bin/wrjpgcom
+    - include/jconfig.h
+    - include/jerror.h
+    - include/jmorecfg.h
+    - include/jpeglib.h
+    - lib/libjpeg.a
+    - lib/libjpeg.so
+    - lib/pkgconfig/libjpeg.pc
+    - share/man/man1/cjpeg.1
+    - share/man/man1/djpeg.1
+    - share/man/man1/jpegtran.1
+    - share/man/man1/rdjpgcom.1
+    - share/man/man1/wrjpgcom.1
+Linking ffmpeg-4.3-hf484d3e_0
+Linking libcurand-10.3.6.82-0
+Linking libcufile-1.10.1.7-0
+Linking cuda-opencl-12.5.39-0
+Linking cuda-libraries-12.1.0-0
+Linking cuda-runtime-12.1.0-0
+Linking python-3.11.9-hb806964_0_cpython
+Linking pytorch-cuda-12.1-ha16c6d3_5
+Linking wheel-0.43.0-pyhd8ed1ab_1
+Linking setuptools-71.0.4-pyhd8ed1ab_0
+Linking pip-24.2-pyhd8ed1ab_0
+Linking pycparser-2.22-pyhd8ed1ab_0
+Linking six-1.16.0-pyh6c4a22f_0
+Linking hyperframe-6.0.1-pyhd8ed1ab_0
+Linking pytz-2024.1-pyhd8ed1ab_0
+Linking python-tzdata-2024.1-pyhd8ed1ab_0
+Linking charset-normalizer-3.3.2-pyhd8ed1ab_0
+Linking hpack-4.0.0-pyh9f0ad1d_0
+Linking pysocks-1.7.1-pyha2e5f31_6
+Linking idna-3.7-pyhd8ed1ab_0
+Linking certifi-2024.7.4-pyhd8ed1ab_0
+Linking mpmath-1.3.0-pyhd8ed1ab_0
+Linking typing_extensions-4.12.2-pyha770c72_0
+Linking networkx-3.3-pyhd8ed1ab_1
+Linking filelock-3.15.4-pyhd8ed1ab_0
+Linking click-8.1.7-unix_pyh707e725_0
+Linking python-dateutil-2.9.0-pyhd8ed1ab_0
+Linking h2-4.1.0-pyhd8ed1ab_0
+Linking brotli-python-1.1.0-py311hb755f60_1
+Linking markupsafe-2.1.5-py311h459d7ec_0
+Linking gmpy2-2.1.5-py311hc4f1f91_1
+Linking pyyaml-6.0.1-py311h459d7ec_1
+Linking pillow-9.4.0-py311h50def17_1
+Linking numpy-2.0.1-py311hed25524_0
+Linking cffi-1.16.0-py311hb3a22ac_0
+Linking pandas-2.2.2-py311h14de704_1
+Linking zstandard-0.23.0-py311h5cd10c7_0
+Linking jinja2-3.1.4-pyhd8ed1ab_0
+Linking sympy-1.13.0-pypyh2585a3b_103
+Linking urllib3-2.2.2-pyhd8ed1ab_1
+Linking requests-2.32.3-pyhd8ed1ab_0
+Linking pytorch-2.4.0-py3.11_cuda12.1_cudnn9.1.0_0
+Linking torchtriton-3.0.0-py311
+Linking torchvision-0.19.0-py311_cu121
+
+Transaction finished
+
+To activate this environment, use:
+
+    mamba activate auto-72vhe6zjf3ib
+
+Or to execute a single command in this environment, use:
+
+    mamba run -n auto-72vhe6zjf3ib mycommand
+
+Installing pip packages
+WARNING: The candidate selected for download or install is a yanked version: 'opencv-python' candidate (version 4.5.5.62 at https://files.pythonhosted.org/packages/9d/98/36bfcbff30da27dd6922ed73ca7802c37d87f77daf4c569da3dcb87b4296/opencv_python-4.5.5.62-cp36-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (from https://pypi.org/simple/opencv-python/) (requires-python:>=3.6))
+Reason for being yanked: deprecated, use 4.5.5.64
+Downloading: "https://download.pytorch.org/models/resnet18-5c106cde.pth" to /home/yuqian_fu/.cache/torch/hub/checkpoints/resnet18-5c106cde.pth
+  0%|          | 0.00/44.7M [00:00<?, ?B/s]  4%|▎         | 1.62M/44.7M [00:00<00:02, 16.8MB/s] 46%|████▋     | 20.8M/44.7M [00:00<00:00, 124MB/s] 100%|██████████| 44.7M/44.7M [00:00<00:00, 183MB/s]
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py:225: FutureWarning: `torch.cuda.amp.GradScaler(args...)` is deprecated. Please use `torch.amp.GradScaler('cuda', args...)` instead.
+  scaler = GradScaler()
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py:247: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with autocast():
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:44: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'best_cls_net.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:58: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'best_mapping_'+str(i)+'.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:68: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'best_E_to_W.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:47: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'last_cls_net.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:61: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'last_mapping_'+str(i)+'.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:71: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'last_E_to_W.pkl'))
diff --git a/Meta-causal/code-withStyleAttack/73089.log b/Meta-causal/code-withStyleAttack/73089.log
new file mode 100644
index 0000000000000000000000000000000000000000..8e03bd2f94169efce7ce9abd557cfd1be1a5832d
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73089.log
@@ -0,0 +1,2103 @@
+Collecting h5py>=2.9.0
+  Downloading h5py-3.11.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (2.5 kB)
+Collecting ml-collections
+  Downloading ml_collections-0.1.1.tar.gz (77 kB)
+  Preparing metadata (setup.py): started
+  Preparing metadata (setup.py): finished with status 'done'
+Requirement already satisfied: numpy in ./lib/python3.11/site-packages (2.0.1)
+Collecting opencv-python==4.5.5.62
+  Downloading opencv_python-4.5.5.62-cp36-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (18 kB)
+Collecting scipy>=1.3.2
+  Downloading scipy-1.14.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (60 kB)
+Collecting tensorboard
+  Downloading tensorboard-2.17.0-py3-none-any.whl.metadata (1.6 kB)
+Collecting tensorboardX>=1.4
+  Downloading tensorboardX-2.6.2.2-py2.py3-none-any.whl.metadata (5.8 kB)
+Collecting timm
+  Downloading timm-1.0.8-py3-none-any.whl.metadata (53 kB)
+Collecting absl-py (from ml-collections)
+  Downloading absl_py-2.1.0-py3-none-any.whl.metadata (2.3 kB)
+Requirement already satisfied: PyYAML in ./lib/python3.11/site-packages (from ml-collections) (6.0.1)
+Requirement already satisfied: six in ./lib/python3.11/site-packages (from ml-collections) (1.16.0)
+Collecting contextlib2 (from ml-collections)
+  Downloading contextlib2-21.6.0-py2.py3-none-any.whl.metadata (4.1 kB)
+Collecting grpcio>=1.48.2 (from tensorboard)
+  Downloading grpcio-1.65.2-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (3.3 kB)
+Collecting markdown>=2.6.8 (from tensorboard)
+  Downloading Markdown-3.6-py3-none-any.whl.metadata (7.0 kB)
+Collecting protobuf!=4.24.0,<5.0.0,>=3.19.6 (from tensorboard)
+  Downloading protobuf-4.25.4-cp37-abi3-manylinux2014_x86_64.whl.metadata (541 bytes)
+Requirement already satisfied: setuptools>=41.0.0 in ./lib/python3.11/site-packages (from tensorboard) (71.0.4)
+Collecting tensorboard-data-server<0.8.0,>=0.7.0 (from tensorboard)
+  Downloading tensorboard_data_server-0.7.2-py3-none-manylinux_2_31_x86_64.whl.metadata (1.1 kB)
+Collecting werkzeug>=1.0.1 (from tensorboard)
+  Downloading werkzeug-3.0.3-py3-none-any.whl.metadata (3.7 kB)
+Collecting packaging (from tensorboardX>=1.4)
+  Downloading packaging-24.1-py3-none-any.whl.metadata (3.2 kB)
+Requirement already satisfied: torch in ./lib/python3.11/site-packages (from timm) (2.4.0)
+Requirement already satisfied: torchvision in ./lib/python3.11/site-packages (from timm) (0.19.0)
+Collecting huggingface_hub (from timm)
+  Downloading huggingface_hub-0.24.5-py3-none-any.whl.metadata (13 kB)
+Collecting safetensors (from timm)
+  Downloading safetensors-0.4.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (3.8 kB)
+Requirement already satisfied: MarkupSafe>=2.1.1 in ./lib/python3.11/site-packages (from werkzeug>=1.0.1->tensorboard) (2.1.5)
+Requirement already satisfied: filelock in ./lib/python3.11/site-packages (from huggingface_hub->timm) (3.15.4)
+Collecting fsspec>=2023.5.0 (from huggingface_hub->timm)
+  Downloading fsspec-2024.6.1-py3-none-any.whl.metadata (11 kB)
+Requirement already satisfied: requests in ./lib/python3.11/site-packages (from huggingface_hub->timm) (2.32.3)
+Collecting tqdm>=4.42.1 (from huggingface_hub->timm)
+  Downloading tqdm-4.66.4-py3-none-any.whl.metadata (57 kB)
+Requirement already satisfied: typing-extensions>=3.7.4.3 in ./lib/python3.11/site-packages (from huggingface_hub->timm) (4.12.2)
+Requirement already satisfied: sympy in ./lib/python3.11/site-packages (from torch->timm) (1.13.0)
+Requirement already satisfied: networkx in ./lib/python3.11/site-packages (from torch->timm) (3.3)
+Requirement already satisfied: jinja2 in ./lib/python3.11/site-packages (from torch->timm) (3.1.4)
+Requirement already satisfied: pillow!=8.3.*,>=5.3.0 in ./lib/python3.11/site-packages (from torchvision->timm) (9.4.0)
+Requirement already satisfied: charset-normalizer<4,>=2 in ./lib/python3.11/site-packages (from requests->huggingface_hub->timm) (3.3.2)
+Requirement already satisfied: idna<4,>=2.5 in ./lib/python3.11/site-packages (from requests->huggingface_hub->timm) (3.7)
+Requirement already satisfied: urllib3<3,>=1.21.1 in ./lib/python3.11/site-packages (from requests->huggingface_hub->timm) (2.2.2)
+Requirement already satisfied: certifi>=2017.4.17 in ./lib/python3.11/site-packages (from requests->huggingface_hub->timm) (2024.7.4)
+Requirement already satisfied: mpmath<1.4,>=1.1.0 in ./lib/python3.11/site-packages (from sympy->torch->timm) (1.3.0)
+Downloading opencv_python-4.5.5.62-cp36-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (60.4 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 60.4/60.4 MB 213.3 MB/s eta 0:00:00
+Downloading h5py-3.11.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (5.4 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 5.4/5.4 MB 23.0 MB/s eta 0:00:00
+Downloading scipy-1.14.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (41.1 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 41.1/41.1 MB 102.8 MB/s eta 0:00:00
+Downloading tensorboard-2.17.0-py3-none-any.whl (5.5 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 5.5/5.5 MB 220.5 MB/s eta 0:00:00
+Downloading tensorboardX-2.6.2.2-py2.py3-none-any.whl (101 kB)
+Downloading timm-1.0.8-py3-none-any.whl (2.3 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 2.3/2.3 MB 219.4 MB/s eta 0:00:00
+Downloading absl_py-2.1.0-py3-none-any.whl (133 kB)
+Downloading grpcio-1.65.2-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (5.7 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 5.7/5.7 MB 228.9 MB/s eta 0:00:00
+Downloading Markdown-3.6-py3-none-any.whl (105 kB)
+Downloading protobuf-4.25.4-cp37-abi3-manylinux2014_x86_64.whl (294 kB)
+Downloading tensorboard_data_server-0.7.2-py3-none-manylinux_2_31_x86_64.whl (6.6 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 6.6/6.6 MB 113.3 MB/s eta 0:00:00
+Downloading werkzeug-3.0.3-py3-none-any.whl (227 kB)
+Downloading contextlib2-21.6.0-py2.py3-none-any.whl (13 kB)
+Downloading huggingface_hub-0.24.5-py3-none-any.whl (417 kB)
+Downloading packaging-24.1-py3-none-any.whl (53 kB)
+Downloading safetensors-0.4.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.2 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 1.2/1.2 MB 166.2 MB/s eta 0:00:00
+Downloading fsspec-2024.6.1-py3-none-any.whl (177 kB)
+Downloading tqdm-4.66.4-py3-none-any.whl (78 kB)
+Building wheels for collected packages: ml-collections
+  Building wheel for ml-collections (setup.py): started
+  Building wheel for ml-collections (setup.py): finished with status 'done'
+  Created wheel for ml-collections: filename=ml_collections-0.1.1-py3-none-any.whl size=94506 sha256=9e9dbea2962f09081d9d0e5d8b966d27885bea2398cb21aa7f3377b19780459b
+  Stored in directory: /scratch/yuqian_fu/.cache/pip/wheels/28/82/ef/a6971b09a96519d55ce6efef66f0cbcdef2ae9cc1e6b41daf7
+Successfully built ml-collections
+Installing collected packages: werkzeug, tqdm, tensorboard-data-server, scipy, safetensors, protobuf, packaging, opencv-python, markdown, h5py, grpcio, fsspec, contextlib2, absl-py, tensorboardX, tensorboard, ml-collections, huggingface_hub, timm
+Successfully installed absl-py-2.1.0 contextlib2-21.6.0 fsspec-2024.6.1 grpcio-1.65.2 h5py-3.11.0 huggingface_hub-0.24.5 markdown-3.6 ml-collections-0.1.1 opencv-python-4.5.5.62 packaging-24.1 protobuf-4.25.4 safetensors-0.4.3 scipy-1.14.0 tensorboard-2.17.0 tensorboard-data-server-0.7.2 tensorboardX-2.6.2.2 timm-1.0.8 tqdm-4.66.4 werkzeug-3.0.3
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'sketch', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 5, 'factor_num': 16, 'epochs': 70, 'nbatch': 100, 'batchsize': 6, 'lr': 0.01, 'lr_scheduler': 'cosine', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_Adam', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 5
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_train.hdf5 torch.Size([3531, 3, 227, 227]) torch.Size([3531])
+--------------------------CA_multiple--------------------------
+---------------------------16 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_val.hdf5 torch.Size([398, 3, 227, 227]) torch.Size([398])
+-------------------------------------loading pretrain weights----------------------------------
+Epoch 1, weight, value: tensor([[-0.0184, -0.0119,  0.0022,  ...,  0.0157,  0.0061, -0.0129],
+        [ 0.0170,  0.0004,  0.0204,  ...,  0.0014,  0.0035, -0.0166],
+        [ 0.0130, -0.0087, -0.0109,  ...,  0.0161, -0.0087, -0.0111],
+        ...,
+        [-0.0124,  0.0201,  0.0069,  ..., -0.0073, -0.0180, -0.0210],
+        [-0.0180, -0.0212, -0.0180,  ...,  0.0162, -0.0175,  0.0149],
+        [-0.0038, -0.0085,  0.0052,  ..., -0.0174,  0.0157,  0.0038]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([-0.0148,  0.0139,  0.0076,  0.0038,  0.0162, -0.0021, -0.0016],
+       device='cuda:0'), grad: None
+588
+0.01
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 768.94, cls_loss 3.5739 cls_loss_mapping 110.2172 cls_loss_causal 105.5066 re_mapping 2525.5655 re_causal 2193.0438 /// teacc 51.51 lr 0.00999497
+Epoch 2, weight, value: tensor([[ 0.0223,  0.0250,  0.0774,  ..., -0.0066,  0.0195,  0.0088],
+        [ 0.0179, -0.0201,  0.0476,  ...,  0.0630,  0.0328,  0.0235],
+        [-0.0528, -0.0651, -0.1461,  ..., -0.0156, -0.0286, -0.0407],
+        ...,
+        [-0.0769, -0.0025, -0.0956,  ...,  0.0682,  0.0606,  0.0698],
+        [ 0.0183,  0.0183,  0.0580,  ..., -0.0346, -0.1123, -0.0328],
+        [-0.0052, -0.0021,  0.0394,  ..., -0.0235,  0.0480,  0.0352]],
+       device='cuda:0'), grad: tensor([[ 3.2983e-01,  3.3276e-01,  2.2681e-01,  ...,  2.0007e-01,
+          2.1716e-01,  2.6611e-01],
+        [-1.3916e-01, -1.6992e-01, -1.0114e-01,  ..., -2.1130e-01,
+         -2.1997e-01, -2.3523e-01],
+        [ 5.2989e-05,  1.1700e-04,  6.1274e-05,  ...,  4.0174e-04,
+          4.3678e-04,  3.7694e-04],
+        ...,
+        [ 5.1147e-02,  6.2561e-02,  3.7598e-02,  ...,  7.5562e-02,
+          7.5134e-02,  8.5510e-02],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 3.1796e-03,  2.9716e-03,  2.1496e-03,  ...,  8.7070e-04,
+          9.7942e-04,  1.5593e-03]], device='cuda:0')
+Epoch 2, bias, value: tensor([ 1.2916e-02,  8.2871e-04,  2.0194e-02,  2.0127e-02,  5.4337e-02,
+        -4.9469e-02,  6.9660e-05], device='cuda:0'), grad: tensor([ 3.7085e-01, -3.4546e-01,  3.6287e-04, -1.6492e-01,  1.3696e-01,
+         0.0000e+00,  2.1744e-03], device='cuda:0')
+588
+0.009994965332706574
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 773.01, cls_loss 1.8538 cls_loss_mapping 1.8926 cls_loss_causal 1.8840 re_mapping 0.3082 re_causal 0.3068 /// teacc 63.07 lr 0.00997987
+Epoch 3, weight, value: tensor([[ 0.0374,  0.0464,  0.0185,  ...,  0.0325,  0.0157,  0.0311],
+        [ 0.0620,  0.0456,  0.1125,  ...,  0.0401,  0.0043, -0.0202],
+        [ 0.0399,  0.0045, -0.1133,  ..., -0.0064, -0.0302, -0.0488],
+        ...,
+        [-0.1396, -0.0521, -0.0657,  ..., -0.0593,  0.0603,  0.0217],
+        [ 0.0314,  0.0201,  0.1118,  ...,  0.0228, -0.0943,  0.0076],
+        [-0.1154, -0.1236, -0.0613,  ...,  0.0711,  0.1170,  0.0888]],
+       device='cuda:0'), grad: tensor([[ 6.7215e-03, -2.1534e-03, -2.9343e-02,  ...,  3.3539e-02,
+          1.4696e-03,  4.2725e-03],
+        [-3.1738e-01, -2.6782e-01, -1.8347e-01,  ..., -2.3206e-01,
+         -2.1057e-01, -2.1838e-01],
+        [ 1.9910e-01,  1.7639e-01,  1.4795e-01,  ...,  7.6416e-02,
+          7.6172e-02,  8.8013e-02],
+        ...,
+        [ 2.6665e-03,  2.3746e-03,  2.0657e-03,  ...,  2.2869e-03,
+          2.9621e-03,  2.7847e-03],
+        [ 5.3644e-07,  4.1723e-07,  3.5763e-07,  ...,  5.9605e-08,
+          5.9605e-08,  5.9605e-08],
+        [ 2.5781e-01,  2.2180e-01,  1.6968e-01,  ...,  1.4087e-01,
+          1.5295e-01,  1.4722e-01]], device='cuda:0')
+Epoch 3, bias, value: tensor([ 0.0091,  0.0036,  0.0441,  0.0197,  0.0410, -0.0548, -0.0045],
+       device='cuda:0'), grad: tensor([-8.9844e-02, -3.4863e-01,  3.0054e-01, -1.5210e-01,  5.1880e-03,
+         5.3644e-07,  2.8491e-01], device='cuda:0')
+588
+0.009979871469976196
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 780.58, cls_loss 1.5391 cls_loss_mapping 1.8986 cls_loss_causal 1.8912 re_mapping 0.1304 re_causal 0.1297 /// teacc 69.35 lr 0.00995475
+Epoch 4, weight, value: tensor([[ 0.0820,  0.0893,  0.0341,  ...,  0.0367,  0.0471,  0.0508],
+        [ 0.0364,  0.0183,  0.0674,  ...,  0.0311, -0.0154, -0.0208],
+        [ 0.0234, -0.0017, -0.0791,  ...,  0.0038, -0.0132, -0.0277],
+        ...,
+        [-0.1511, -0.0522, -0.0584,  ..., -0.0349,  0.0741,  0.0339],
+        [ 0.0934,  0.0830,  0.1424,  ...,  0.0781, -0.0802,  0.0071],
+        [-0.1357, -0.1573, -0.1040,  ...,  0.0300,  0.0307,  0.0358]],
+       device='cuda:0'), grad: tensor([[-1.0254e-01, -5.2948e-02, -2.8168e-02,  ..., -7.8857e-02,
+         -5.2704e-02, -4.3488e-02],
+        [ 2.4255e-01,  1.6577e-01,  8.6914e-02,  ...,  1.6101e-01,
+          1.2683e-01,  1.1298e-01],
+        [ 2.8244e-02,  2.0615e-02,  9.7733e-03,  ...,  1.6678e-02,
+          1.3931e-02,  1.2566e-02],
+        ...,
+        [-4.4281e-02, -4.2908e-02, -2.6855e-02,  ..., -2.6245e-02,
+         -2.7908e-02, -2.8290e-02],
+        [ 1.1921e-07,  5.9605e-08,  5.9605e-08,  ...,  1.1921e-07,
+          5.9605e-08,  1.1921e-07],
+        [ 1.0550e-05,  1.0490e-05,  6.1393e-06,  ...,  5.9605e-06,
+          6.3777e-06,  6.2585e-06]], device='cuda:0')
+Epoch 4, bias, value: tensor([ 0.0076,  0.0268,  0.0495,  0.0059,  0.0494, -0.0534, -0.0556],
+       device='cuda:0'), grad: tensor([-7.1899e-02,  3.4863e-01,  4.0131e-02, -1.6663e-01, -1.5027e-01,
+         4.7684e-07,  3.2544e-05], device='cuda:0')
+588
+0.009954748808839675
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 785.32, cls_loss 1.3587 cls_loss_mapping 2.1901 cls_loss_causal 2.0801 re_mapping 0.1097 re_causal 0.0748 /// teacc 73.87 lr 0.00991965
+Epoch 5, weight, value: tensor([[ 0.0695,  0.0671,  0.0358,  ...,  0.0113,  0.0492,  0.0534],
+        [ 0.0274,  0.0196,  0.0236,  ...,  0.0316, -0.0380, -0.0459],
+        [ 0.0144, -0.0048, -0.0799,  ..., -0.0018, -0.0316, -0.0349],
+        ...,
+        [-0.1295, -0.0424, -0.0462,  ..., -0.0368,  0.0855,  0.0309],
+        [ 0.1435,  0.1211,  0.1868,  ...,  0.0738, -0.0791,  0.0190],
+        [-0.1357, -0.1652, -0.0843,  ...,  0.0743,  0.1043,  0.0921]],
+       device='cuda:0'), grad: tensor([[ 3.9558e-03,  2.2221e-03,  1.2808e-03,  ...,  1.0490e-02,
+          8.7967e-03,  1.0811e-02],
+        [ 1.6518e-03,  9.1314e-04,  4.8804e-04,  ...,  7.5102e-04,
+          4.5705e-04,  3.6025e-04],
+        [ 1.1032e-02,  5.4398e-03,  2.7637e-03,  ...,  5.5923e-03,
+          3.9101e-03,  3.0422e-03],
+        ...,
+        [-1.8921e-02, -9.5291e-03, -5.0392e-03,  ..., -2.0050e-02,
+         -1.5656e-02, -1.7059e-02],
+        [ 1.9765e-04,  1.0020e-04,  5.4598e-05,  ...,  1.8251e-04,
+          1.3185e-04,  1.4544e-04],
+        [ 3.9864e-03,  2.0237e-03,  1.1015e-03,  ...,  3.6697e-03,
+          2.6512e-03,  2.9221e-03]], device='cuda:0')
+Epoch 5, bias, value: tensor([ 0.0211,  0.0262,  0.0561, -0.0229,  0.0575, -0.0753, -0.0556],
+       device='cuda:0'), grad: tensor([ 0.0378,  0.0030,  0.0197, -0.0035, -0.0715,  0.0007,  0.0138],
+       device='cuda:0')
+588
+0.009919647942993149
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 781.29, cls_loss 1.2020 cls_loss_mapping 1.9142 cls_loss_causal 1.8996 re_mapping 0.0660 re_causal 0.0658 /// teacc 85.93 lr 0.00987464
+Epoch 6, weight, value: tensor([[ 0.0266,  0.0229, -0.0079,  ..., -0.0146,  0.0206,  0.0161],
+        [ 0.0501,  0.0481,  0.0592,  ...,  0.0700,  0.0044,  0.0104],
+        [ 0.0558,  0.0519, -0.0151,  ..., -0.0215, -0.0604, -0.0649],
+        ...,
+        [-0.1457, -0.0573, -0.0560,  ..., -0.0435,  0.0920,  0.0356],
+        [ 0.1095,  0.0892,  0.1326,  ...,  0.0458, -0.1377, -0.0370],
+        [-0.1541, -0.2007, -0.1094,  ...,  0.1120,  0.1443,  0.1341]],
+       device='cuda:0'), grad: tensor([[-1.1389e-01, -5.4779e-02, -8.9111e-03,  ..., -5.0507e-02,
+         -1.9196e-02, -1.9135e-02],
+        [ 3.9330e-03,  2.7237e-03,  2.1992e-03,  ...,  1.3399e-03,
+          1.1625e-03,  9.1076e-04],
+        [ 2.7657e-03,  1.5955e-03,  1.6918e-03,  ..., -3.4785e-04,
+         -5.6267e-05, -3.9482e-04],
+        ...,
+        [ 9.0271e-02,  3.8300e-02, -4.5815e-03,  ...,  4.3091e-02,
+          1.2718e-02,  1.4366e-02],
+        [ 2.6202e-04,  1.8251e-04,  1.4889e-04,  ...,  8.5175e-05,
+          7.4387e-05,  5.6177e-05],
+        [ 3.6240e-04,  2.5272e-04,  2.0730e-04,  ...,  1.0860e-04,
+          9.5725e-05,  6.8247e-05]], device='cuda:0')
+Epoch 6, bias, value: tensor([ 0.0448,  0.0248,  0.0328,  0.0130,  0.0623, -0.0987, -0.1037],
+       device='cuda:0'), grad: tensor([-0.1582,  0.0141,  0.0086,  0.0615,  0.0718,  0.0010,  0.0014],
+       device='cuda:0')
+588
+0.009874639560909117
+changing lr
+epoch 5, time 782.25, cls_loss 1.0410 cls_loss_mapping 1.9548 cls_loss_causal 1.8761 re_mapping 0.0672 re_causal 0.0645 /// teacc 71.86 lr 0.00981981
+Epoch 7, weight, value: tensor([[ 0.0316,  0.0397,  0.0112,  ...,  0.0122,  0.0542,  0.0416],
+        [ 0.0262,  0.0136,  0.0114,  ...,  0.0690, -0.0098,  0.0035],
+        [ 0.0512,  0.0590, -0.0043,  ..., -0.0567, -0.0998, -0.1060],
+        ...,
+        [-0.1470, -0.0585, -0.0542,  ..., -0.0344,  0.0967,  0.0371],
+        [ 0.1206,  0.0975,  0.1345,  ...,  0.0267, -0.1654, -0.0568],
+        [-0.1286, -0.1820, -0.0886,  ...,  0.1344,  0.1690,  0.1676]],
+       device='cuda:0'), grad: tensor([[ 6.0272e-02,  2.7435e-02,  9.3155e-03,  ...,  3.4790e-02,
+          2.2552e-02,  2.3010e-02],
+        [ 7.8674e-02,  3.1830e-02,  7.7705e-03,  ...,  4.8492e-02,
+          3.1525e-02,  3.0685e-02],
+        [-1.4258e-01, -6.0852e-02, -1.5106e-02,  ..., -8.3557e-02,
+         -5.3650e-02, -5.3711e-02],
+        ...,
+        [ 1.0071e-03,  5.9032e-04,  3.5238e-04,  ...,  5.1308e-04,
+          3.4189e-04,  3.8791e-04],
+        [ 5.9128e-03,  3.4428e-03,  1.8206e-03,  ...,  2.8954e-03,
+          1.8768e-03,  2.1820e-03],
+        [ 1.1683e-05,  6.8247e-06,  3.6061e-06,  ...,  5.7220e-06,
+          3.7253e-06,  4.3213e-06]], device='cuda:0')
+Epoch 7, bias, value: tensor([ 0.0657,  0.0294,  0.0322, -0.0343,  0.0530, -0.0953, -0.0699],
+       device='cuda:0'), grad: tensor([ 9.8755e-02,  7.3120e-02, -1.6650e-01, -2.9617e-02,  3.7117e-03,
+         2.0508e-02,  4.0621e-05], device='cuda:0')
+588
+0.009819814303479266
+changing lr
+epoch 6, time 785.00, cls_loss 1.1321 cls_loss_mapping 2.0379 cls_loss_causal 1.9503 re_mapping 0.0874 re_causal 0.0683 /// teacc 67.09 lr 0.00975528
+Epoch 8, weight, value: tensor([[ 0.0497,  0.0576,  0.0631,  ..., -0.0440, -0.0326, -0.0438],
+        [ 0.0461,  0.0368,  0.0215,  ...,  0.1022,  0.0300,  0.0572],
+        [ 0.0155,  0.0182, -0.0703,  ..., -0.0451, -0.0587, -0.0731],
+        ...,
+        [-0.1224, -0.0320, -0.0220,  ..., -0.0342,  0.0880,  0.0214],
+        [ 0.0736,  0.0444,  0.0680,  ..., -0.0154, -0.2294, -0.1180],
+        [-0.1203, -0.1739, -0.1006,  ...,  0.1403,  0.1648,  0.1680]],
+       device='cuda:0'), grad: tensor([[-1.4307e-01, -6.6956e-02, -4.9164e-02,  ..., -4.6051e-02,
+         -3.3051e-02, -3.1891e-02],
+        [ 1.3928e-01,  6.4148e-02,  4.3549e-02,  ...,  3.6499e-02,
+          2.2797e-02,  2.3361e-02],
+        [ 5.2185e-03,  3.7098e-03,  6.9733e-03,  ...,  1.3771e-02,
+          1.4526e-02,  1.2390e-02],
+        ...,
+        [ 8.8930e-05,  4.2528e-05,  4.7088e-05,  ...,  1.0747e-04,
+          1.0806e-04,  9.9599e-05],
+        [ 2.0757e-05,  8.7470e-06,  7.1675e-06,  ...,  1.5885e-05,
+          1.5512e-05,  1.5080e-05],
+        [ 8.2850e-05,  3.9488e-05,  4.2707e-05,  ...,  1.0383e-04,
+          1.0383e-04,  9.6321e-05]], device='cuda:0')
+Epoch 8, bias, value: tensor([ 0.0465,  0.0106,  0.0850, -0.0369,  0.0885, -0.1035, -0.1627],
+       device='cuda:0'), grad: tensor([-1.6052e-01,  1.7181e-02,  1.7004e-01, -2.8488e-02,  9.3079e-04,
+         1.2159e-04,  8.1444e-04], device='cuda:0')
+588
+0.009755282581475767
+changing lr
+epoch 7, time 785.21, cls_loss 0.9270 cls_loss_mapping 1.9301 cls_loss_causal 1.7580 re_mapping 0.0610 re_causal 0.0614 /// teacc 73.62 lr 0.00968117
+Epoch 9, weight, value: tensor([[ 0.0706,  0.0821,  0.1112,  ..., -0.0248,  0.0023, -0.0161],
+        [ 0.0381,  0.0519,  0.0004,  ...,  0.1056,  0.0288,  0.0387],
+        [-0.0074, -0.0221, -0.1374,  ..., -0.0416, -0.0661, -0.0858],
+        ...,
+        [-0.1207, -0.0353, -0.0097,  ..., -0.0640,  0.0612,  0.0087],
+        [ 0.0864,  0.0459,  0.0736,  ..., -0.0896, -0.3091, -0.1860],
+        [-0.1414, -0.1997, -0.1052,  ...,  0.1783,  0.2116,  0.2316]],
+       device='cuda:0'), grad: tensor([[ 8.8196e-02,  3.5431e-02,  3.8544e-02,  ...,  2.7359e-02,
+          2.7740e-02,  2.8519e-02],
+        [ 1.1986e-02,  3.1319e-03,  2.1114e-03,  ...,  6.5918e-03,
+          5.9891e-03,  6.0616e-03],
+        [-1.8244e-03, -3.7837e-04, -2.4283e-04,  ..., -1.5717e-03,
+         -1.7834e-03, -1.7385e-03],
+        ...,
+        [-9.8389e-02, -3.8177e-02, -4.0436e-02,  ..., -3.2379e-02,
+         -3.1952e-02, -3.2867e-02],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 7.8976e-07,  2.3842e-07,  2.0862e-07,  ...,  4.6194e-07,
+          4.9174e-07,  4.7684e-07]], device='cuda:0')
+Epoch 9, bias, value: tensor([ 0.0800,  0.0006,  0.0876, -0.0736,  0.0668, -0.0791, -0.1341],
+       device='cuda:0'), grad: tensor([ 1.7090e-01,  2.6810e-02, -3.9062e-03,  1.1027e-06, -1.9385e-01,
+         0.0000e+00,  1.6540e-06], device='cuda:0')
+588
+0.009681174353198686
+changing lr
+---------------------saving model at epoch 8----------------------------------------------------
+epoch 8, time 781.29, cls_loss 0.8739 cls_loss_mapping 1.9264 cls_loss_causal 1.7031 re_mapping 0.0548 re_causal 0.0548 /// teacc 89.20 lr 0.00959764
+Epoch 10, weight, value: tensor([[ 0.0749,  0.0902,  0.1229,  ..., -0.0243,  0.0085, -0.0069],
+        [ 0.0096,  0.0120, -0.0589,  ...,  0.0984,  0.0110,  0.0391],
+        [ 0.0221,  0.0364, -0.0500,  ..., -0.0063, -0.0399, -0.0708],
+        ...,
+        [-0.1264, -0.0622, -0.0581,  ..., -0.0483,  0.0814,  0.0171],
+        [ 0.0781,  0.0707,  0.1235,  ..., -0.1009, -0.3176, -0.1900],
+        [-0.1512, -0.2267, -0.1250,  ...,  0.1614,  0.1977,  0.2150]],
+       device='cuda:0'), grad: tensor([[-9.1858e-02, -3.2288e-02, -3.4973e-02,  ..., -2.9587e-02,
+         -3.0762e-02, -2.7374e-02],
+        [ 1.5152e-02,  9.3231e-03,  1.0956e-02,  ...,  5.9128e-03,
+          6.6681e-03,  6.8779e-03],
+        [ 6.3324e-03,  3.0494e-04, -3.1328e-04,  ..., -1.6379e-04,
+         -5.2738e-04, -2.1248e-03],
+        ...,
+        [ 1.5274e-02,  4.3793e-03,  4.5471e-03,  ...,  4.7340e-03,
+          4.8065e-03,  4.1237e-03],
+        [ 7.4506e-05,  5.6177e-05,  6.7770e-05,  ...,  3.5584e-05,
+          4.1127e-05,  4.6372e-05],
+        [ 6.9733e-03,  5.2795e-03,  6.3057e-03,  ...,  2.8381e-03,
+          3.3112e-03,  3.5248e-03]], device='cuda:0')
+Epoch 10, bias, value: tensor([ 0.0810, -0.0156,  0.0911, -0.0452,  0.0564, -0.0767, -0.1248],
+       device='cuda:0'), grad: tensor([-0.2581,  0.0810, -0.0205,  0.1172,  0.0347,  0.0005,  0.0452],
+       device='cuda:0')
+588
+0.009597638862757255
+changing lr
+---------------------saving model at epoch 9----------------------------------------------------
+epoch 9, time 785.85, cls_loss 0.8995 cls_loss_mapping 1.9225 cls_loss_causal 1.6496 re_mapping 0.0522 re_causal 0.0520 /// teacc 89.45 lr 0.00950484
+Epoch 11, weight, value: tensor([[ 0.0599,  0.0623,  0.1251,  ..., -0.0106,  0.0308, -0.0036],
+        [ 0.0313,  0.0261, -0.0223,  ...,  0.1425,  0.0620,  0.1000],
+        [ 0.0330,  0.0484, -0.0699,  ..., -0.0325, -0.0637, -0.0841],
+        ...,
+        [-0.1210, -0.0126, -0.0284,  ..., -0.0981,  0.0041, -0.0339],
+        [ 0.0780,  0.0251,  0.1002,  ..., -0.1323, -0.3406, -0.2067],
+        [-0.1619, -0.2235, -0.1608,  ...,  0.1217,  0.1507,  0.1442]],
+       device='cuda:0'), grad: tensor([[-8.3008e-02, -6.0997e-03, -5.0011e-03,  ..., -2.9266e-02,
+         -3.5095e-02, -4.2633e-02],
+        [ 3.8452e-02,  9.3155e-03,  9.8801e-03,  ...,  1.7490e-03,
+          3.8033e-03,  6.6147e-03],
+        [ 1.0052e-01,  1.1597e-02,  1.2558e-02,  ...,  3.0136e-02,
+          3.6621e-02,  4.5044e-02],
+        ...,
+        [-5.1300e-02, -1.1230e-02, -1.0216e-02,  ..., -2.0962e-03,
+         -5.0774e-03, -9.2163e-03],
+        [ 8.5163e-04,  2.4652e-04,  3.1686e-04,  ...,  4.3809e-05,
+          8.0884e-05,  1.3030e-04],
+        [-1.8234e-02, -7.0877e-03, -1.1215e-02,  ..., -1.1625e-03,
+         -1.5802e-03, -2.0561e-03]], device='cuda:0')
+Epoch 11, bias, value: tensor([ 0.0930, -0.0307,  0.0866,  0.0041,  0.0191, -0.0644, -0.0959],
+       device='cuda:0'), grad: tensor([-0.1167,  0.1121,  0.2109,  0.0428, -0.1073,  0.0039, -0.1458],
+       device='cuda:0')
+588
+0.009504844339512096
+changing lr
+epoch 10, time 788.52, cls_loss 0.8072 cls_loss_mapping 1.9321 cls_loss_causal 1.5963 re_mapping 0.0528 re_causal 0.0515 /// teacc 85.43 lr 0.00940298
+Epoch 12, weight, value: tensor([[ 0.0781,  0.0914,  0.1681,  ..., -0.0547, -0.0107, -0.0282],
+        [ 0.0217,  0.0047, -0.0365,  ...,  0.1635,  0.0752,  0.1021],
+        [ 0.0120,  0.0353, -0.1016,  ..., -0.0444, -0.0656, -0.0869],
+        ...,
+        [-0.1132,  0.0120,  0.0207,  ..., -0.0414,  0.0796,  0.0249],
+        [ 0.0775, -0.0169,  0.0332,  ..., -0.1575, -0.3792, -0.2468],
+        [-0.1794, -0.2264, -0.1943,  ...,  0.1030,  0.1175,  0.1258]],
+       device='cuda:0'), grad: tensor([[-2.8732e-02, -7.7209e-03, -1.1177e-02,  ..., -4.9744e-03,
+         -1.1841e-02, -1.4404e-02],
+        [-4.5837e-02, -7.5684e-03, -8.1406e-03,  ..., -1.1093e-02,
+         -1.5976e-02, -2.0782e-02],
+        [-1.7075e-02, -1.6022e-03,  1.0376e-03,  ..., -6.7711e-03,
+         -4.5586e-03, -2.1820e-03],
+        ...,
+        [ 4.6539e-02,  1.0094e-02,  1.2726e-02,  ...,  1.0178e-02,
+          1.7502e-02,  2.0767e-02],
+        [ 3.0365e-03,  4.2748e-04,  2.7204e-04,  ...,  9.1887e-04,
+          9.6607e-04,  9.7513e-04],
+        [ 8.8692e-05,  1.2189e-05,  6.8024e-06,  ...,  2.7642e-05,
+          2.7806e-05,  2.6613e-05]], device='cuda:0')
+Epoch 12, bias, value: tensor([ 0.0643, -0.0029,  0.1133,  0.0198,  0.0366, -0.1691, -0.1317],
+       device='cuda:0'), grad: tensor([-0.1500, -0.1061, -0.0862,  0.1324,  0.1986,  0.0109,  0.0003],
+       device='cuda:0')
+588
+0.009402977659283692
+changing lr
+epoch 11, time 780.78, cls_loss 0.8625 cls_loss_mapping 1.9354 cls_loss_causal 1.5560 re_mapping 0.0516 re_causal 0.0509 /// teacc 86.18 lr 0.00929224
+Epoch 13, weight, value: tensor([[ 0.0994,  0.1175,  0.2072,  ...,  0.0095,  0.0632,  0.0378],
+        [ 0.0239,  0.0202, -0.0117,  ...,  0.1219,  0.0594,  0.0686],
+        [-0.0032,  0.0054, -0.1578,  ..., -0.0145, -0.0509, -0.0981],
+        ...,
+        [-0.1119,  0.0189,  0.0309,  ..., -0.1342, -0.0211, -0.0492],
+        [ 0.0584, -0.0392, -0.0244,  ..., -0.2124, -0.4568, -0.3141],
+        [-0.1354, -0.1843, -0.1637,  ...,  0.1503,  0.1429,  0.1685]],
+       device='cuda:0'), grad: tensor([[-6.9702e-02, -1.9058e-02, -1.6525e-02,  ..., -6.1913e-03,
+         -1.2161e-02, -1.7960e-02],
+        [ 1.2039e-02,  3.2258e-04,  7.5626e-04,  ...,  1.8477e-04,
+          4.9877e-04,  1.1559e-03],
+        [-3.6194e-02, -1.0138e-03, -2.3384e-03,  ..., -1.0548e-03,
+         -2.0084e-03, -4.0398e-03],
+        ...,
+        [ 7.4646e-02,  1.9211e-02,  1.6861e-02,  ...,  6.4240e-03,
+          1.2527e-02,  1.8616e-02],
+        [ 8.4114e-04,  2.3559e-05,  5.4330e-05,  ...,  2.4512e-05,
+          4.6670e-05,  9.3937e-05],
+        [ 1.7960e-02,  5.1308e-04,  1.1721e-03,  ...,  6.0177e-04,
+          1.0777e-03,  2.0943e-03]], device='cuda:0')
+Epoch 13, bias, value: tensor([ 0.0716, -0.0209,  0.1285, -0.0644,  0.0349, -0.1278, -0.0401],
+       device='cuda:0'), grad: tensor([-0.1522,  0.0534, -0.1591,  0.0020,  0.1736,  0.0037,  0.0787],
+       device='cuda:0')
+588
+0.009292243968009333
+changing lr
+epoch 12, time 788.18, cls_loss 0.8157 cls_loss_mapping 1.9419 cls_loss_causal 1.5347 re_mapping 0.0501 re_causal 0.0484 /// teacc 84.17 lr 0.00917287
+Epoch 14, weight, value: tensor([[ 0.0897,  0.1369,  0.2297,  ..., -0.0123,  0.0430,  0.0184],
+        [ 0.0054, -0.0383, -0.0697,  ...,  0.1412,  0.0559,  0.0741],
+        [ 0.0216,  0.0205, -0.1270,  ..., -0.0577, -0.0855, -0.1333],
+        ...,
+        [-0.1028,  0.0523,  0.0464,  ..., -0.0920,  0.0234, -0.0142],
+        [ 0.0635,  0.0260,  0.0361,  ..., -0.1465, -0.3877, -0.2240],
+        [-0.1648, -0.2473, -0.2080,  ...,  0.1545,  0.1637,  0.2083]],
+       device='cuda:0'), grad: tensor([[ 4.7531e-03,  8.1158e-04,  1.0948e-03,  ...,  1.3628e-03,
+          1.6851e-03,  2.3518e-03],
+        [ 1.2238e-01,  9.2697e-03,  1.4427e-02,  ...,  1.2444e-02,
+          1.8356e-02,  3.8300e-02],
+        [ 3.0701e-02,  2.5482e-03,  3.8834e-03,  ...,  3.5610e-03,
+          5.0926e-03,  1.0033e-02],
+        ...,
+        [-8.8501e-02, -9.2545e-03, -1.3451e-02,  ..., -1.4000e-02,
+         -1.8799e-02, -3.2593e-02],
+        [ 5.1335e-06,  3.7998e-07,  5.9605e-07,  ...,  4.9919e-07,
+          7.4506e-07,  1.5870e-06],
+        [-6.9519e-02, -3.3817e-03, -5.9700e-03,  ..., -3.3894e-03,
+         -6.3667e-03, -1.8143e-02]], device='cuda:0')
+Epoch 14, bias, value: tensor([ 0.0903, -0.0141,  0.1083, -0.0382,  0.0304, -0.1286, -0.0785],
+       device='cuda:0'), grad: tensor([ 1.3031e-02,  2.8564e-01,  7.2632e-02,  3.7384e-04, -2.1790e-01,
+         1.1936e-05, -1.5405e-01], device='cuda:0')
+588
+0.009172866268606516
+changing lr
+epoch 13, time 781.62, cls_loss 0.8214 cls_loss_mapping 1.9875 cls_loss_causal 1.5469 re_mapping 0.0599 re_causal 0.0463 /// teacc 83.17 lr 0.00904508
+Epoch 15, weight, value: tensor([[ 0.1048,  0.1656,  0.2340,  ..., -0.1068, -0.0505, -0.0660],
+        [-0.0049, -0.0581, -0.0859,  ...,  0.1688,  0.0811,  0.0820],
+        [ 0.0133,  0.0728, -0.0662,  ..., -0.0319, -0.0422, -0.0959],
+        ...,
+        [-0.1108,  0.0209,  0.0174,  ..., -0.0368,  0.0661,  0.0214],
+        [ 0.0604, -0.0521, -0.0192,  ..., -0.2233, -0.4485, -0.2269],
+        [-0.1568, -0.2658, -0.1842,  ...,  0.1709,  0.1814,  0.2454]],
+       device='cuda:0'), grad: tensor([[-7.9422e-03, -4.0603e-04, -6.6757e-04,  ..., -1.2197e-03,
+         -1.7109e-03, -3.2368e-03],
+        [ 2.4104e-04,  1.5482e-05,  2.3097e-05,  ...,  3.8922e-05,
+          5.3585e-05,  1.0073e-04],
+        [ 3.5763e-05,  1.8440e-06,  3.0212e-06,  ...,  5.5060e-06,
+          7.7114e-06,  1.4596e-05],
+        ...,
+        [ 7.6370e-03,  3.8719e-04,  6.3896e-04,  ...,  1.1721e-03,
+          1.6432e-03,  3.1109e-03],
+        [ 3.2037e-07,  1.4901e-08,  2.6077e-08,  ...,  4.8429e-08,
+          7.0781e-08,  1.3039e-07],
+        [ 1.5259e-05,  8.6427e-07,  1.3597e-06,  ...,  2.3954e-06,
+          3.3304e-06,  6.2883e-06]], device='cuda:0')
+Epoch 15, bias, value: tensor([ 0.1039, -0.0150,  0.1055,  0.0046,  0.0436, -0.1953, -0.1409],
+       device='cuda:0'), grad: tensor([-3.8330e-02,  1.1873e-03,  1.7273e-04,  3.8803e-05,  3.6835e-02,
+         1.5497e-06,  7.4267e-05], device='cuda:0')
+588
+0.00904508497187474
+changing lr
+---------------------saving model at epoch 14----------------------------------------------------
+epoch 14, time 785.22, cls_loss 0.7987 cls_loss_mapping 1.9176 cls_loss_causal 1.5042 re_mapping 0.0453 re_causal 0.0440 /// teacc 90.70 lr 0.00890916
+Epoch 16, weight, value: tensor([[ 0.0932,  0.1151,  0.1646,  ..., -0.1365, -0.0741, -0.0827],
+        [-0.0090, -0.0474, -0.0663,  ...,  0.1953,  0.0896,  0.0805],
+        [ 0.0254,  0.0497, -0.0991,  ..., -0.0568, -0.0479, -0.1008],
+        ...,
+        [-0.0952,  0.0957,  0.0867,  ..., -0.0252,  0.0657,  0.0264],
+        [ 0.0606, -0.1301, -0.0576,  ..., -0.1886, -0.3981, -0.2093],
+        [-0.1773, -0.2405, -0.1711,  ...,  0.2728,  0.2728,  0.2919]],
+       device='cuda:0'), grad: tensor([[ 4.7989e-03,  6.4230e-04,  7.7724e-04,  ...,  2.5082e-04,
+          3.6550e-04,  1.6956e-03],
+        [-1.5533e-02, -2.6722e-03, -3.0994e-03,  ...,  6.4373e-04,
+          4.2081e-05, -5.1842e-03],
+        [ 5.4121e-04,  6.9022e-05,  8.3804e-05,  ...,  3.2514e-05,
+          4.5180e-05,  1.9038e-04],
+        ...,
+        [ 5.7373e-03,  1.3742e-03,  1.5306e-03,  ..., -1.1511e-03,
+         -7.8726e-04,  1.7395e-03],
+        [ 1.4198e-04,  1.8656e-05,  2.2531e-05,  ...,  7.3016e-06,
+          1.0803e-05,  4.9710e-05],
+        [ 2.2373e-03,  2.9469e-04,  3.5572e-04,  ...,  1.1384e-04,
+          1.6928e-04,  7.8344e-04]], device='cuda:0')
+Epoch 16, bias, value: tensor([ 0.1158,  0.0231,  0.1040, -0.0379,  0.0579, -0.3031, -0.1504],
+       device='cuda:0'), grad: tensor([ 0.0304, -0.1083,  0.0034,  0.0131,  0.0466,  0.0009,  0.0140],
+       device='cuda:0')
+588
+0.008909157412340152
+changing lr
+epoch 15, time 785.61, cls_loss 0.7490 cls_loss_mapping 1.9150 cls_loss_causal 1.4867 re_mapping 0.0391 re_causal 0.0375 /// teacc 87.19 lr 0.00876536
+Epoch 17, weight, value: tensor([[ 0.0881,  0.1401,  0.1780,  ..., -0.0813, -0.0197, -0.0337],
+        [-0.0289, -0.1781, -0.1736,  ...,  0.1876,  0.0876,  0.0780],
+        [ 0.0400,  0.0977, -0.0207,  ..., -0.0433, -0.0435, -0.0837],
+        ...,
+        [-0.1047,  0.0791,  0.0697,  ..., -0.0430,  0.0530, -0.0055],
+        [ 0.0515, -0.1268, -0.0618,  ..., -0.3298, -0.5177, -0.2736],
+        [-0.1459, -0.1469, -0.1048,  ...,  0.2251,  0.2375,  0.2757]],
+       device='cuda:0'), grad: tensor([[-5.1727e-03, -2.7084e-04, -2.8849e-04,  ..., -9.2554e-04,
+         -1.3981e-03, -2.6894e-03],
+        [ 2.1383e-06,  5.8487e-07,  5.9232e-07,  ...,  5.0664e-07,
+          5.3272e-07,  8.2329e-07],
+        [-5.3272e-07,  7.4506e-09,  2.2352e-08,  ..., -4.8801e-07,
+         -4.3958e-07, -4.9919e-07],
+        ...,
+        [ 5.1689e-03,  2.7013e-04,  2.8753e-04,  ...,  9.2506e-04,
+          1.3962e-03,  2.6855e-03],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 5.9605e-08,  2.9802e-08,  2.9802e-08,  ...,  3.7253e-09,
+          0.0000e+00,  7.4506e-09]], device='cuda:0')
+Epoch 17, bias, value: tensor([ 0.0820,  0.0419,  0.0772, -0.0038,  0.0782, -0.2720, -0.1550],
+       device='cuda:0'), grad: tensor([-1.9409e-02,  6.4485e-06, -3.6508e-07,  1.1176e-08,  1.9394e-02,
+         0.0000e+00,  1.6019e-07], device='cuda:0')
+588
+0.00876535733001806
+changing lr
+epoch 16, time 787.07, cls_loss 1.0272 cls_loss_mapping 2.4374 cls_loss_causal 2.3161 re_mapping 0.0529 re_causal 0.1017 /// teacc 82.66 lr 0.00861397
+Epoch 18, weight, value: tensor([[ 0.1099,  0.1502,  0.1563,  ...,  0.0062,  0.0320,  0.0096],
+        [-0.0287, -0.1242, -0.1041,  ...,  0.1810,  0.1111,  0.1118],
+        [ 0.0531,  0.0996,  0.0422,  ..., -0.1603, -0.1208, -0.1710],
+        ...,
+        [-0.1320, -0.0151, -0.0713,  ..., -0.0658,  0.0121,  0.0082],
+        [ 0.0321, -0.2659, -0.2384,  ..., -0.3475, -0.5984, -0.3172],
+        [-0.1466, -0.1135, -0.0220,  ...,  0.2731,  0.3049,  0.2587]],
+       device='cuda:0'), grad: tensor([[-2.6978e-02, -1.6556e-03, -1.8330e-03,  ..., -4.2496e-03,
+         -3.5191e-03, -3.1338e-03],
+        [-5.7831e-02, -4.4250e-03, -3.0384e-03,  ..., -1.9836e-02,
+         -1.8967e-02, -2.4017e-02],
+        [ 2.0233e-02,  1.8778e-03,  1.3866e-03,  ...,  7.6485e-03,
+          7.3547e-03,  8.7128e-03],
+        ...,
+        [ 6.7566e-02,  4.3640e-03,  3.9825e-03,  ...,  1.4503e-02,
+          1.2993e-02,  1.6006e-02],
+        [ 1.2293e-07,  9.6858e-08,  5.9605e-08,  ...,  4.0606e-07,
+          4.2096e-07,  4.7311e-07],
+        [ 7.5722e-04,  5.4979e-04,  3.3545e-04,  ...,  2.3022e-03,
+          2.3746e-03,  2.6875e-03]], device='cuda:0')
+Epoch 18, bias, value: tensor([ 0.1178,  0.0349,  0.0845, -0.0011,  0.0849, -0.3069, -0.2269],
+       device='cuda:0'), grad: tensor([-3.9398e-02, -3.4058e-01,  1.2360e-01, -2.4281e-03,  2.1936e-01,
+         6.9439e-06,  3.9337e-02], device='cuda:0')
+588
+0.008613974319136962
+changing lr
+epoch 17, time 786.48, cls_loss 0.7901 cls_loss_mapping 2.0370 cls_loss_causal 1.8258 re_mapping 0.0511 re_causal 0.0509 /// teacc 89.70 lr 0.00845531
+Epoch 19, weight, value: tensor([[ 9.9670e-02,  1.7887e-01,  1.8741e-01,  ...,  6.4120e-02,
+          9.3857e-02,  4.8437e-02],
+        [-1.4598e-02, -1.5046e-01, -1.2635e-01,  ...,  1.1182e-01,
+          5.6881e-02,  6.4223e-02],
+        [ 5.7039e-02,  1.4452e-01,  6.9422e-02,  ..., -1.4164e-01,
+         -1.3186e-01, -1.5214e-01],
+        ...,
+        [-1.2695e-01, -4.2238e-02, -9.9209e-02,  ..., -9.0369e-02,
+         -2.1096e-02, -4.8919e-03],
+        [ 2.6778e-02, -3.1781e-01, -2.8282e-01,  ..., -3.0728e-01,
+         -5.5136e-01, -2.9990e-01],
+        [-1.5649e-01, -9.9608e-02,  7.9323e-05,  ...,  3.1000e-01,
+          3.4786e-01,  2.8849e-01]], device='cuda:0'), grad: tensor([[-4.1931e-02, -4.8943e-03, -5.2834e-03,  ..., -2.4738e-03,
+         -3.5858e-03, -8.3237e-03],
+        [ 3.6652e-02,  4.8752e-03,  5.2414e-03,  ...,  2.1725e-03,
+          3.0804e-03,  6.9504e-03],
+        [ 2.6989e-04,  3.4086e-07,  1.7136e-06,  ...,  1.3523e-05,
+          2.3633e-05,  6.7115e-05],
+        ...,
+        [ 4.9896e-03,  1.9729e-05,  4.4107e-05,  ...,  2.8801e-04,
+          4.8280e-04,  1.3037e-03],
+        [ 3.8743e-07,  0.0000e+00,  1.8626e-09,  ...,  1.8626e-08,
+          3.3528e-08,  9.6858e-08],
+        [ 1.1176e-07,  0.0000e+00,  0.0000e+00,  ...,  5.5879e-09,
+          9.3132e-09,  2.7940e-08]], device='cuda:0')
+Epoch 19, bias, value: tensor([ 0.0687,  0.0727,  0.0997,  0.0147,  0.1020, -0.3036, -0.2705],
+       device='cuda:0'), grad: tensor([-1.0883e-01,  8.8562e-02,  1.0290e-03,  1.9334e-06,  1.9287e-02,
+         1.4771e-06,  4.2655e-07], device='cuda:0')
+588
+0.008455313244934327
+changing lr
+---------------------saving model at epoch 18----------------------------------------------------
+epoch 18, time 792.48, cls_loss 0.6640 cls_loss_mapping 1.9030 cls_loss_causal 1.7181 re_mapping 0.0393 re_causal 0.0394 /// teacc 91.71 lr 0.00828969
+Epoch 20, weight, value: tensor([[ 0.0927,  0.1293,  0.1443,  ..., -0.0596, -0.0156, -0.0514],
+        [-0.0186, -0.0840, -0.0982,  ...,  0.1475,  0.0574,  0.0569],
+        [ 0.0534,  0.1153,  0.0411,  ..., -0.1358, -0.1174, -0.1334],
+        ...,
+        [-0.1253, -0.0480, -0.0766,  ..., -0.0348,  0.0274,  0.0258],
+        [ 0.0300, -0.2536, -0.2211,  ..., -0.3071, -0.5326, -0.2698],
+        [-0.1354, -0.1153, -0.0204,  ...,  0.3638,  0.4074,  0.3599]],
+       device='cuda:0'), grad: tensor([[ 5.9223e-04,  8.8632e-05,  9.8467e-05,  ...,  1.4770e-04,
+          1.5235e-04,  2.2733e-04],
+        [-5.8031e-04, -8.8930e-05, -9.8705e-05,  ..., -1.3971e-04,
+         -1.4472e-04, -2.1744e-04],
+        [ 2.9989e-07,  3.9116e-08,  4.4703e-08,  ...,  8.9407e-08,
+          8.9407e-08,  1.3039e-07],
+        ...,
+        [-1.3396e-05,  8.0094e-08, -6.1467e-08,  ..., -8.4266e-06,
+         -8.0243e-06, -1.0595e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 4.2841e-08,  7.4506e-09,  7.4506e-09,  ...,  1.1176e-08,
+          1.1176e-08,  1.6764e-08]], device='cuda:0')
+Epoch 20, bias, value: tensor([ 0.0435,  0.0453,  0.1091,  0.0806,  0.1088, -0.3200, -0.2686],
+       device='cuda:0'), grad: tensor([ 1.8625e-03, -1.7653e-03,  1.1176e-06,  2.0042e-06, -1.0282e-04,
+         0.0000e+00,  1.3039e-07], device='cuda:0')
+588
+0.008289693629698565
+changing lr
+---------------------saving model at epoch 19----------------------------------------------------
+epoch 19, time 788.43, cls_loss 0.7175 cls_loss_mapping 1.9173 cls_loss_causal 1.6670 re_mapping 0.0330 re_causal 0.0330 /// teacc 92.96 lr 0.00811745
+Epoch 21, weight, value: tensor([[ 9.1891e-02,  8.1340e-02,  8.2969e-02,  ..., -6.4563e-02,
+         -1.6301e-02, -5.2537e-02],
+        [-2.6142e-02, -1.9188e-01, -1.6663e-01,  ...,  1.5026e-01,
+          6.6145e-02,  8.6999e-02],
+        [ 6.0192e-02,  1.7453e-01,  1.2074e-01,  ...,  5.0772e-03,
+         -3.2672e-03, -7.5871e-02],
+        ...,
+        [-1.2180e-01,  6.8406e-05, -5.3561e-02,  ..., -1.1375e-01,
+         -3.1294e-02, -1.4242e-02],
+        [ 3.8203e-02, -1.2938e-01, -1.2141e-01,  ..., -2.3461e-01,
+         -4.6549e-01, -2.5152e-01],
+        [-1.3058e-01, -4.1205e-02,  6.0092e-02,  ...,  1.9548e-01,
+          2.5214e-01,  2.9548e-01]], device='cuda:0'), grad: tensor([[-0.0468, -0.0046, -0.0053,  ..., -0.0109, -0.0111, -0.0158],
+        [-0.0105, -0.0012, -0.0008,  ..., -0.0048, -0.0046, -0.0102],
+        [ 0.0035,  0.0001,  0.0001,  ...,  0.0002,  0.0003,  0.0012],
+        ...,
+        [ 0.0696,  0.0055,  0.0063,  ...,  0.0131,  0.0139,  0.0247],
+        [-0.0305, -0.0009, -0.0011,  ..., -0.0014, -0.0023, -0.0095],
+        [ 0.0133,  0.0010,  0.0008,  ...,  0.0037,  0.0037,  0.0091]],
+       device='cuda:0')
+Epoch 21, bias, value: tensor([ 0.0989,  0.0398,  0.0508,  0.0519,  0.1190, -0.3271, -0.2437],
+       device='cuda:0'), grad: tensor([-0.0945, -0.0936,  0.0182,  0.0071,  0.2197, -0.1527,  0.0956],
+       device='cuda:0')
+588
+0.00811744900929367
+changing lr
+epoch 20, time 785.92, cls_loss 0.6661 cls_loss_mapping 1.9219 cls_loss_causal 1.5924 re_mapping 0.0329 re_causal 0.0327 /// teacc 91.96 lr 0.00793893
+Epoch 22, weight, value: tensor([[ 0.0629,  0.0440,  0.0395,  ..., -0.0731, -0.0183, -0.0545],
+        [-0.0205, -0.1703, -0.1429,  ...,  0.1584,  0.0753,  0.0772],
+        [ 0.0643,  0.1886,  0.1447,  ..., -0.0214, -0.0353, -0.0622],
+        ...,
+        [-0.1204,  0.0411, -0.0259,  ..., -0.0771,  0.0035,  0.0036],
+        [ 0.0665, -0.0236, -0.0147,  ..., -0.3274, -0.5222, -0.3354],
+        [-0.1134, -0.0866,  0.0271,  ...,  0.1807,  0.2289,  0.2838]],
+       device='cuda:0'), grad: tensor([[ 7.0572e-04,  2.7552e-05,  8.2236e-07,  ...,  6.1393e-05,
+          4.5925e-05,  2.7442e-04],
+        [ 4.3640e-03,  1.7095e-04,  5.9679e-06,  ...,  3.7503e-04,
+          2.7990e-04,  1.6928e-03],
+        [ 4.7035e-03,  1.8489e-04,  6.9290e-06,  ...,  4.0793e-04,
+          3.0518e-04,  1.8263e-03],
+        ...,
+        [-1.5823e-02, -6.1989e-04, -2.1398e-05,  ..., -1.3638e-03,
+         -1.0176e-03, -6.1417e-03],
+        [ 1.4853e-04,  5.8003e-06,  1.8813e-07,  ...,  1.2733e-05,
+          9.4920e-06,  5.7638e-05],
+        [ 2.8057e-03,  1.0961e-04,  3.5595e-06,  ...,  2.4056e-04,
+          1.7941e-04,  1.0891e-03]], device='cuda:0')
+Epoch 22, bias, value: tensor([ 0.0517, -0.0274,  0.1397,  0.0850,  0.1357, -0.3868, -0.2248],
+       device='cuda:0'), grad: tensor([ 0.0060,  0.0372,  0.0401,  0.0264, -0.1350,  0.0013,  0.0239],
+       device='cuda:0')
+588
+0.007938926261462368
+changing lr
+epoch 21, time 789.20, cls_loss 0.7044 cls_loss_mapping 1.9627 cls_loss_causal 1.5618 re_mapping 0.0338 re_causal 0.0317 /// teacc 85.43 lr 0.00775448
+Epoch 23, weight, value: tensor([[ 0.0814,  0.0740,  0.0388,  ..., -0.0022,  0.0538, -0.0081],
+        [-0.0296, -0.1631, -0.1394,  ...,  0.1643,  0.0467,  0.0704],
+        [ 0.0663,  0.1293,  0.0185,  ..., -0.0327, -0.0695, -0.0847],
+        ...,
+        [-0.1219,  0.0087,  0.0325,  ..., -0.1030,  0.0113, -0.0175],
+        [ 0.0309, -0.0047, -0.0515,  ..., -0.2170, -0.4692, -0.3170],
+        [-0.1410, -0.1190,  0.0104,  ...,  0.1578,  0.2296,  0.2565]],
+       device='cuda:0'), grad: tensor([[-9.2316e-03, -2.4997e-06, -2.7232e-06,  ..., -2.8920e-04,
+         -2.9588e-04, -4.0092e-03],
+        [ 8.7118e-04,  3.7253e-09,  5.5879e-09,  ...,  2.5928e-05,
+          2.4945e-05,  3.8552e-04],
+        [ 2.5501e-03,  7.6368e-08,  8.2888e-08,  ...,  7.6234e-05,
+          7.3671e-05,  1.1272e-03],
+        ...,
+        [ 2.2068e-03,  2.5406e-06,  2.7083e-06,  ...,  8.0943e-05,
+          9.5069e-05,  8.9645e-04],
+        [ 1.1528e-04, -1.2387e-07, -7.8231e-08,  ...,  2.2985e-06,
+          2.4829e-06,  5.5432e-05],
+        [ 3.6478e-04,  9.3132e-10,  9.3132e-10,  ...,  1.0841e-05,
+          1.0408e-05,  1.6153e-04]], device='cuda:0')
+Epoch 23, bias, value: tensor([ 0.1000, -0.0150,  0.1328,  0.1201,  0.1050, -0.4625, -0.2734],
+       device='cuda:0'), grad: tensor([-0.1293,  0.0125,  0.0365,  0.0449,  0.0281,  0.0019,  0.0052],
+       device='cuda:0')
+588
+0.007754484907260515
+changing lr
+epoch 22, time 781.63, cls_loss 0.6161 cls_loss_mapping 1.9454 cls_loss_causal 1.4837 re_mapping 0.0307 re_causal 0.0308 /// teacc 92.71 lr 0.00756450
+Epoch 24, weight, value: tensor([[ 0.0800,  0.0338, -0.0104,  ..., -0.0265,  0.0049, -0.0452],
+        [-0.0125, -0.0722, -0.0557,  ...,  0.0961, -0.0114,  0.0456],
+        [ 0.0486,  0.1229, -0.0028,  ...,  0.0315, -0.0277, -0.0674],
+        ...,
+        [-0.1049,  0.0251,  0.0667,  ..., -0.0633,  0.0767,  0.0181],
+        [ 0.0445, -0.0205, -0.1205,  ..., -0.2981, -0.5527, -0.2694],
+        [-0.1630, -0.1408, -0.0178,  ...,  0.1374,  0.2132,  0.2691]],
+       device='cuda:0'), grad: tensor([[-2.1698e-02, -1.6994e-03, -1.8892e-03,  ..., -3.2234e-03,
+         -3.4847e-03, -6.6299e-03],
+        [ 6.0806e-03,  1.1034e-03,  9.0456e-04,  ...,  5.0402e-04,
+          5.3978e-04,  1.4162e-03],
+        [ 4.6492e-04,  1.9938e-05,  2.9132e-05,  ...,  7.8738e-05,
+          8.5354e-05,  1.5247e-04],
+        ...,
+        [ 1.5152e-02,  5.7650e-04,  9.5654e-04,  ...,  2.6398e-03,
+          2.8572e-03,  5.0621e-03],
+        [ 3.9302e-06,  3.3528e-07,  3.3528e-07,  ...,  6.7987e-07,
+          7.1898e-07,  1.2740e-06],
+        [ 6.8359e-07,  2.4214e-08,  5.7742e-08,  ...,  1.2852e-07,
+          1.3784e-07,  2.4214e-07]], device='cuda:0')
+Epoch 24, bias, value: tensor([ 0.0437,  0.0075,  0.1359,  0.0993,  0.1586, -0.4476, -0.2938],
+       device='cuda:0'), grad: tensor([-8.7830e-02,  2.2202e-02,  1.8454e-03,  1.7583e-05,  6.3782e-02,
+         1.9386e-05,  3.9339e-06], device='cuda:0')
+588
+0.007564496387029534
+changing lr
+epoch 23, time 787.72, cls_loss 0.6427 cls_loss_mapping 1.9558 cls_loss_causal 1.4656 re_mapping 0.0319 re_causal 0.0319 /// teacc 90.20 lr 0.00736934
+Epoch 25, weight, value: tensor([[ 8.8193e-02,  1.4741e-01,  9.0724e-02,  ..., -2.2174e-02,
+          3.3019e-02, -2.3089e-02],
+        [-1.1034e-02, -1.3567e-01, -1.3019e-01,  ...,  1.1658e-01,
+          6.8575e-05,  5.1640e-02],
+        [ 3.0338e-02,  1.3420e-01, -3.2888e-03,  ...,  6.7560e-02,
+          4.6044e-03, -5.2422e-02],
+        ...,
+        [-1.0876e-01, -5.3759e-02,  3.3776e-02,  ..., -6.1071e-02,
+          6.4407e-02,  1.8074e-02],
+        [ 5.2106e-02, -4.3553e-02, -1.6549e-01,  ..., -2.9827e-01,
+         -5.7158e-01, -3.1876e-01],
+        [-1.3325e-01, -1.0131e-01,  1.2952e-02,  ...,  2.7104e-02,
+          1.2206e-01,  1.7748e-01]], device='cuda:0'), grad: tensor([[ 7.9834e-02,  3.9253e-03,  1.5764e-03,  ...,  5.5695e-03,
+          3.1586e-03,  1.2199e-02],
+        [ 6.2294e-03,  3.2115e-04,  2.3818e-04,  ...,  5.8126e-04,
+          2.8348e-04,  3.3875e-03],
+        [ 1.8967e-02,  1.2369e-03,  5.0497e-04,  ...,  1.8320e-03,
+          7.5245e-04,  4.6806e-03],
+        ...,
+        [-1.0699e-01, -5.6076e-03, -2.4185e-03,  ..., -8.2397e-03,
+         -4.3335e-03, -2.1759e-02],
+        [ 1.0139e-04,  6.9030e-06,  5.7854e-06,  ...,  1.5438e-05,
+          8.5831e-06,  8.9586e-05],
+        [ 4.5633e-04,  1.9133e-05,  1.2949e-05,  ...,  2.7701e-05,
+          1.1049e-05,  1.6868e-04]], device='cuda:0')
+Epoch 25, bias, value: tensor([ 0.1200, -0.0290,  0.1008,  0.1543,  0.1530, -0.4763, -0.3745],
+       device='cuda:0'), grad: tensor([ 0.1738,  0.0605,  0.0690,  0.0209, -0.3291,  0.0015,  0.0032],
+       device='cuda:0')
+588
+0.007369343312364995
+changing lr
+epoch 24, time 788.55, cls_loss 1.1315 cls_loss_mapping 3.4355 cls_loss_causal 2.2370 re_mapping 0.3131 re_causal 0.0427 /// teacc 89.20 lr 0.00716942
+Epoch 26, weight, value: tensor([[ 0.0878,  0.1991,  0.1638,  ..., -0.0773, -0.0426, -0.0493],
+        [-0.0240, -0.1001, -0.0669,  ...,  0.0547, -0.0221,  0.0230],
+        [ 0.0336,  0.0375, -0.1346,  ...,  0.0546,  0.0035, -0.0137],
+        ...,
+        [-0.1058, -0.1054, -0.0226,  ..., -0.0700,  0.0644,  0.0029],
+        [ 0.0710,  0.0174, -0.0849,  ..., -0.2391, -0.5537, -0.2359],
+        [-0.1200, -0.0744, -0.0111,  ...,  0.0516,  0.1376,  0.1838]],
+       device='cuda:0'), grad: tensor([[-2.4857e-02, -2.3329e-04,  1.6689e-04,  ..., -1.2379e-03,
+         -4.9925e-04, -5.0964e-03],
+        [ 3.0079e-03,  8.9586e-05,  4.6998e-05,  ...,  2.2125e-04,
+          1.1927e-04,  8.1253e-04],
+        [-2.0187e-02, -1.2960e-03, -1.0767e-03,  ..., -2.2945e-03,
+         -1.4668e-03, -7.6714e-03],
+        ...,
+        [ 3.5126e-02,  1.1816e-03,  6.9714e-04,  ...,  2.7428e-03,
+          1.5230e-03,  9.9258e-03],
+        [ 1.9932e-03,  7.1108e-05,  4.3988e-05,  ...,  1.6034e-04,
+          9.0301e-05,  5.7602e-04],
+        [ 4.5128e-03,  1.7214e-04,  1.1188e-04,  ...,  3.7599e-04,
+          2.1517e-04,  1.3399e-03]], device='cuda:0')
+Epoch 26, bias, value: tensor([ 0.1609, -0.0482,  0.1062,  0.0832,  0.1208, -0.3899, -0.3219],
+       device='cuda:0'), grad: tensor([-0.1237,  0.0164, -0.1273,  0.0023,  0.1954,  0.0112,  0.0256],
+       device='cuda:0')
+588
+0.0071694186955877925
+changing lr
+epoch 25, time 785.12, cls_loss 0.5741 cls_loss_mapping 1.9114 cls_loss_causal 1.6204 re_mapping 0.0319 re_causal 0.0319 /// teacc 91.96 lr 0.00696513
+Epoch 27, weight, value: tensor([[ 0.0982,  0.1648,  0.1783,  ..., -0.1124, -0.0876, -0.0807],
+        [-0.0085,  0.0185,  0.0316,  ...,  0.0832,  0.0404,  0.0526],
+        [ 0.0371, -0.0723, -0.2495,  ...,  0.0228, -0.0261, -0.0346],
+        ...,
+        [-0.1209, -0.0259,  0.0448,  ..., -0.0154,  0.1043,  0.0033],
+        [ 0.0403, -0.0464, -0.1138,  ..., -0.2935, -0.5336, -0.2503],
+        [-0.1358, -0.0385, -0.0302,  ..., -0.0237,  0.0271,  0.1576]],
+       device='cuda:0'), grad: tensor([[ 8.6899e-03,  1.0281e-03,  7.6437e-04,  ...,  1.4591e-03,
+          7.8630e-04,  3.8605e-03],
+        [ 1.4791e-03,  1.9038e-04,  1.5974e-04,  ...,  2.3341e-04,
+          1.0222e-04,  6.7043e-04],
+        [-3.6316e-02, -3.6621e-03, -1.9283e-03,  ..., -6.8626e-03,
+         -4.6654e-03, -1.5869e-02],
+        ...,
+        [ 2.5116e-02,  2.3098e-03,  8.9169e-04,  ...,  5.0087e-03,
+          3.7041e-03,  1.0880e-02],
+        [ 9.7573e-05,  1.2517e-05,  1.0505e-05,  ...,  1.5259e-05,
+          6.7465e-06,  4.3809e-05],
+        [ 2.2125e-04,  2.8417e-05,  2.3842e-05,  ...,  3.4600e-05,
+          1.5274e-05,  9.9421e-05]], device='cuda:0')
+Epoch 27, bias, value: tensor([ 0.1745, -0.0293,  0.0722,  0.1363,  0.1182, -0.4579, -0.3441],
+       device='cuda:0'), grad: tensor([ 0.0941,  0.0185, -0.2969,  0.0090,  0.1716,  0.0012,  0.0027],
+       device='cuda:0')
+588
+0.0069651251582696205
+changing lr
+---------------------saving model at epoch 26----------------------------------------------------
+epoch 26, time 792.61, cls_loss 0.5976 cls_loss_mapping 1.9169 cls_loss_causal 1.5012 re_mapping 0.0282 re_causal 0.0280 /// teacc 93.47 lr 0.00675687
+Epoch 28, weight, value: tensor([[ 0.0849,  0.2158,  0.1909,  ..., -0.0670, -0.0224, -0.0653],
+        [-0.0050, -0.0781,  0.0187,  ...,  0.0143, -0.0333,  0.0300],
+        [ 0.0321, -0.0056, -0.1753,  ...,  0.1102,  0.0497, -0.0252],
+        ...,
+        [-0.1299, -0.1128, -0.0702,  ..., -0.0092,  0.1033,  0.0364],
+        [ 0.0531, -0.0508, -0.1309,  ..., -0.4602, -0.7650, -0.3344],
+        [-0.1232,  0.0577,  0.0606,  ..., -0.1415, -0.1076,  0.1019]],
+       device='cuda:0'), grad: tensor([[ 1.3847e-02,  1.0290e-03,  7.7295e-04,  ...,  2.3003e-03,
+          2.2545e-03,  3.3627e-03],
+        [ 3.4165e-04,  1.9178e-05,  1.6481e-05,  ...,  8.1480e-05,
+          7.8142e-05,  1.5199e-04],
+        [ 1.6439e-04,  9.2834e-06,  7.9498e-06,  ...,  3.8981e-05,
+          3.7402e-05,  7.2539e-05],
+        ...,
+        [-1.4359e-02, -1.0576e-03, -7.9727e-04,  ..., -2.4204e-03,
+         -2.3708e-03, -3.5896e-03],
+        [ 7.5903e-07,  4.2841e-08,  3.6322e-08,  ...,  1.8161e-07,
+          1.7416e-07,  3.3993e-07],
+        [ 2.0023e-07,  1.1176e-08,  9.3132e-09,  ...,  4.7497e-08,
+          4.5635e-08,  8.9407e-08]], device='cuda:0')
+Epoch 28, bias, value: tensor([ 0.1484,  0.0285,  0.0899,  0.1157,  0.1162, -0.5097, -0.3546],
+       device='cuda:0'), grad: tensor([ 4.8004e-02,  1.9236e-03,  9.1887e-04,  1.1250e-05, -5.0842e-02,
+         4.2990e-06,  1.1325e-06], device='cuda:0')
+588
+0.006756874120406716
+changing lr
+epoch 27, time 781.38, cls_loss 0.5419 cls_loss_mapping 1.9509 cls_loss_causal 1.3682 re_mapping 0.0263 re_causal 0.0265 /// teacc 90.95 lr 0.00654508
+Epoch 29, weight, value: tensor([[ 0.0795,  0.1775,  0.1434,  ..., -0.0355,  0.0117, -0.0423],
+        [-0.0027, -0.1031, -0.0182,  ..., -0.0129, -0.0968, -0.0158],
+        [ 0.0158, -0.0338, -0.2434,  ...,  0.1364,  0.0689,  0.0018],
+        ...,
+        [-0.1121, -0.0934, -0.0026,  ..., -0.0365,  0.1038,  0.0124],
+        [ 0.0433,  0.0887, -0.0647,  ..., -0.4377, -0.7782, -0.3282],
+        [-0.1288,  0.1385,  0.1747,  ..., -0.1319, -0.0666,  0.1398]],
+       device='cuda:0'), grad: tensor([[-3.0937e-03, -1.1024e-03, -2.4188e-04,  ..., -2.1133e-03,
+         -3.8552e-04, -3.2291e-03],
+        [-7.0740e-02, -4.3640e-03, -1.5545e-03,  ..., -1.3870e-02,
+         -1.0757e-02, -2.3834e-02],
+        [ 3.1395e-03,  1.0872e-03,  2.0838e-04,  ...,  2.7447e-03,
+          1.3008e-03,  4.4403e-03],
+        ...,
+        [ 6.3599e-02,  2.0905e-03,  1.1339e-03,  ...,  7.3051e-03,
+          6.9160e-03,  1.3115e-02],
+        [ 1.3781e-04,  5.1200e-05,  9.2462e-06,  ...,  1.2922e-04,
+          6.1989e-05,  2.1267e-04],
+        [ 4.6730e-03,  1.5717e-03,  3.0494e-04,  ...,  4.0703e-03,
+          2.0103e-03,  6.5575e-03]], device='cuda:0')
+Epoch 29, bias, value: tensor([ 0.1206,  0.0119,  0.1236,  0.1193,  0.1013, -0.4441, -0.3368],
+       device='cuda:0'), grad: tensor([-0.1005, -0.4434,  0.0994,  0.0629,  0.2317,  0.0046,  0.1451],
+       device='cuda:0')
+588
+0.00654508497187474
+changing lr
+epoch 28, time 788.92, cls_loss 0.5397 cls_loss_mapping 1.9572 cls_loss_causal 1.3194 re_mapping 0.0269 re_causal 0.0270 /// teacc 93.47 lr 0.00633018
+Epoch 30, weight, value: tensor([[ 0.0970,  0.1313,  0.1570,  ..., -0.0301,  0.0310, -0.0383],
+        [-0.0013, -0.0586, -0.0991,  ...,  0.0811, -0.0720,  0.0178],
+        [ 0.0013, -0.0700, -0.1946,  ...,  0.1307,  0.1063,  0.0015],
+        ...,
+        [-0.1193, -0.0050, -0.0050,  ..., -0.0915,  0.0110, -0.0163],
+        [ 0.0203,  0.0178, -0.0341,  ..., -0.3808, -0.6659, -0.3106],
+        [-0.1217,  0.0976,  0.1366,  ..., -0.1656, -0.0705,  0.1269]],
+       device='cuda:0'), grad: tensor([[ 1.2390e-02,  4.3106e-04,  4.7064e-04,  ...,  2.0142e-03,
+          1.6708e-03,  2.8572e-03],
+        [-7.1373e-03, -1.6105e-04, -4.0865e-04,  ..., -1.4248e-03,
+         -1.5392e-03, -2.0161e-03],
+        [-3.9825e-02, -1.9464e-03, -4.4966e-04,  ..., -4.2038e-03,
+         -9.2793e-04, -6.1264e-03],
+        ...,
+        [ 1.8425e-03,  1.1265e-04,  2.6941e-05,  ...,  2.5678e-04,
+          6.4135e-05,  3.4761e-04],
+        [ 5.1707e-06,  2.8964e-07,  6.7987e-08,  ...,  6.4541e-07,
+          1.5274e-07,  8.9779e-07],
+        [ 6.6643e-03,  3.2306e-04,  7.4565e-05,  ...,  6.9666e-04,
+          1.5306e-04,  1.0176e-03]], device='cuda:0')
+Epoch 30, bias, value: tensor([ 0.0586,  0.1363,  0.1159,  0.1093,  0.1186, -0.4779, -0.4230],
+       device='cuda:0'), grad: tensor([ 3.7048e-02,  1.9970e-03, -2.8271e-01,  1.8079e-01,  1.5976e-02,
+         4.1485e-05,  4.6997e-02], device='cuda:0')
+588
+0.006330184227833378
+changing lr
+epoch 29, time 788.04, cls_loss 0.5340 cls_loss_mapping 1.9680 cls_loss_causal 1.2786 re_mapping 0.0260 re_causal 0.0260 /// teacc 91.71 lr 0.00611260
+Epoch 31, weight, value: tensor([[ 0.0813,  0.1521,  0.2056,  ..., -0.1037, -0.0121, -0.0705],
+        [-0.0157, -0.1477, -0.0928,  ...,  0.0127, -0.1391, -0.0113],
+        [ 0.0296,  0.0112, -0.1848,  ...,  0.1852,  0.1251,  0.0714],
+        ...,
+        [-0.1151, -0.0392, -0.0127,  ..., -0.0562,  0.0719, -0.0291],
+        [ 0.0647,  0.0228,  0.0058,  ..., -0.3576, -0.5895, -0.2920],
+        [-0.1091,  0.0916,  0.1145,  ..., -0.1134, -0.0486,  0.1463]],
+       device='cuda:0'), grad: tensor([[ 7.5340e-04,  1.0788e-04,  2.8402e-05,  ...,  3.4952e-04,
+          9.8467e-05,  4.8780e-04],
+        [ 5.1260e-04,  7.3433e-05,  1.8924e-05,  ...,  2.3699e-04,
+          6.5148e-05,  3.3212e-04],
+        [-2.8610e-03, -4.9025e-05, -1.8671e-05,  ..., -1.0020e-04,
+         -2.3615e-04, -1.5295e-04],
+        ...,
+        [ 1.2331e-03,  1.4114e-04,  3.7640e-05,  ...,  4.5133e-04,
+          1.4722e-04,  6.3133e-04],
+        [-3.5000e-03, -5.8031e-04, -1.5092e-04,  ..., -1.8902e-03,
+         -4.8470e-04, -2.6379e-03],
+        [ 2.4815e-03,  1.8239e-04,  5.0724e-05,  ...,  5.6219e-04,
+          2.5821e-04,  7.9155e-04]], device='cuda:0')
+Epoch 31, bias, value: tensor([ 0.0227,  0.1434,  0.2009,  0.0940,  0.0847, -0.4690, -0.4327],
+       device='cuda:0'), grad: tensor([ 0.0267,  0.0183,  0.0109,  0.0261,  0.0327, -0.1489,  0.0341],
+       device='cuda:0')
+588
+0.006112604669781575
+changing lr
+epoch 30, time 788.91, cls_loss 0.4965 cls_loss_mapping 1.9696 cls_loss_causal 1.3076 re_mapping 0.0263 re_causal 0.0259 /// teacc 84.17 lr 0.00589278
+Epoch 32, weight, value: tensor([[ 0.0793,  0.1248,  0.1654,  ..., -0.0718, -0.0028, -0.0436],
+        [-0.0039, -0.1375, -0.0999,  ..., -0.0187, -0.1632, -0.0308],
+        [ 0.0468, -0.0828, -0.1934,  ...,  0.1889,  0.1445,  0.0811],
+        ...,
+        [-0.1174,  0.0410,  0.0460,  ..., -0.0418,  0.0861, -0.0411],
+        [ 0.0302, -0.0699, -0.2443,  ..., -0.4236, -0.6916, -0.3525],
+        [-0.1332,  0.1385,  0.1457,  ..., -0.1190, -0.0400,  0.1374]],
+       device='cuda:0'), grad: tensor([[ 2.1820e-03,  5.9557e-04,  5.0735e-04,  ...,  2.0466e-03,
+          1.4563e-03,  2.0466e-03],
+        [ 1.7691e-03,  4.8542e-04,  4.1270e-04,  ...,  1.6298e-03,
+          1.1492e-03,  1.6193e-03],
+        [ 2.6188e-03,  7.2193e-04,  6.1226e-04,  ...,  2.3689e-03,
+          1.6546e-03,  2.3384e-03],
+        ...,
+        [-4.1771e-03, -9.4938e-04, -8.8930e-04,  ..., -6.1531e-03,
+         -5.1956e-03, -6.9199e-03],
+        [ 3.7408e-04,  1.1033e-04,  9.0599e-05,  ...,  2.5511e-04,
+          1.4651e-04,  2.2233e-04],
+        [ 1.0471e-03,  2.9111e-04,  2.4605e-04,  ...,  9.1887e-04,
+          6.3086e-04,  8.9741e-04]], device='cuda:0')
+Epoch 32, bias, value: tensor([ 0.0680,  0.0919,  0.1895,  0.0895,  0.0840, -0.4686, -0.4053],
+       device='cuda:0'), grad: tensor([ 0.0666,  0.0542,  0.0806, -0.1348, -0.1113,  0.0121,  0.0324],
+       device='cuda:0')
+588
+0.005892784473993186
+changing lr
+epoch 31, time 785.58, cls_loss 0.4924 cls_loss_mapping 1.9799 cls_loss_causal 1.2812 re_mapping 0.0287 re_causal 0.0285 /// teacc 90.95 lr 0.00567117
+Epoch 33, weight, value: tensor([[ 0.0898,  0.1106,  0.1689,  ..., -0.0609, -0.0084, -0.0501],
+        [ 0.0060, -0.1027, -0.1031,  ..., -0.0119, -0.1542, -0.0428],
+        [ 0.0192, -0.1245, -0.3801,  ...,  0.2343,  0.1420,  0.0927],
+        ...,
+        [-0.1043,  0.1256,  0.1974,  ..., -0.0666,  0.0506, -0.0522],
+        [ 0.0356, -0.1164, -0.2787,  ..., -0.3279, -0.5156, -0.2662],
+        [-0.1434,  0.0185,  0.1391,  ..., -0.1208,  0.0278,  0.1511]],
+       device='cuda:0'), grad: tensor([[-4.6921e-04,  3.9339e-05, -1.3277e-05,  ..., -5.7332e-06,
+         -2.6608e-04, -4.8786e-05],
+        [ 2.9011e-03,  2.3961e-04,  1.2946e-04,  ...,  7.8297e-04,
+          8.8334e-05,  7.7534e-04],
+        [-5.1460e-03, -5.4550e-04, -2.3949e-04,  ..., -1.6346e-03,
+         -6.1452e-05, -1.6384e-03],
+        ...,
+        [ 1.8759e-03,  1.7905e-04,  8.4639e-05,  ...,  5.9032e-04,
+          2.0921e-04,  6.3896e-04],
+        [ 2.0885e-04,  2.1845e-05,  9.6709e-06,  ...,  6.6757e-05,
+          7.5661e-06,  6.8247e-05],
+        [ 1.1289e-04,  1.1832e-05,  5.2303e-06,  ...,  3.6031e-05,
+          3.7141e-06,  3.6776e-05]], device='cuda:0')
+Epoch 33, bias, value: tensor([ 0.0389,  0.1217,  0.2248,  0.1206,  0.0889, -0.5410, -0.4683],
+       device='cuda:0'), grad: tensor([ 0.0138,  0.0526, -0.1074,  0.0098,  0.0250,  0.0040,  0.0022],
+       device='cuda:0')
+588
+0.00567116632908828
+changing lr
+epoch 32, time 787.12, cls_loss 0.5030 cls_loss_mapping 2.0219 cls_loss_causal 1.2584 re_mapping 0.0316 re_causal 0.0280 /// teacc 92.96 lr 0.00544820
+Epoch 34, weight, value: tensor([[ 0.0866,  0.0697,  0.0957,  ..., -0.0776, -0.0634, -0.0689],
+        [-0.0064, -0.0470, -0.0392,  ...,  0.0678, -0.0588,  0.0327],
+        [ 0.0253, -0.1556, -0.3172,  ...,  0.1847,  0.1656,  0.0918],
+        ...,
+        [-0.1022,  0.1191,  0.1856,  ..., -0.0881,  0.0141, -0.0924],
+        [ 0.0263, -0.1992, -0.3390,  ..., -0.3390, -0.5622, -0.2738],
+        [-0.1282,  0.1198,  0.1879,  ..., -0.0373,  0.1293,  0.2007]],
+       device='cuda:0'), grad: tensor([[-1.9852e-02, -2.6722e-03, -1.2140e-03,  ..., -2.3937e-03,
+         -2.1324e-03, -5.3711e-03],
+        [ 3.6061e-05,  4.8392e-06,  2.1979e-06,  ...,  4.3474e-06,
+          3.8706e-06,  9.7379e-06],
+        [ 1.9806e-02,  2.6569e-03,  1.2074e-03,  ...,  2.3880e-03,
+          2.1267e-03,  5.3482e-03],
+        ...,
+        [ 1.4916e-05,  8.9556e-06,  4.2692e-06,  ...,  2.6170e-07,
+          1.8673e-06,  1.1876e-05],
+        [ 1.4035e-06,  1.8836e-07,  8.5682e-08,  ...,  1.6927e-07,
+          1.5064e-07,  3.7928e-07],
+        [ 1.3597e-06,  1.8254e-07,  8.2888e-08,  ...,  1.6391e-07,
+          1.4598e-07,  3.6741e-07]], device='cuda:0')
+Epoch 34, bias, value: tensor([ 0.0526,  0.1499,  0.2116,  0.1250,  0.0584, -0.6006, -0.4359],
+       device='cuda:0'), grad: tensor([-1.5857e-01,  2.8729e-04,  1.5771e-01,  2.5004e-05,  5.0068e-04,
+         1.1183e-05,  1.0833e-05], device='cuda:0')
+588
+0.00544819654451717
+changing lr
+epoch 33, time 786.99, cls_loss 0.4777 cls_loss_mapping 1.9825 cls_loss_causal 1.2119 re_mapping 0.0252 re_causal 0.0246 /// teacc 93.47 lr 0.00522432
+Epoch 35, weight, value: tensor([[ 9.6564e-02,  8.6402e-02,  1.2515e-01,  ..., -5.9213e-02,
+         -1.7374e-02, -7.3853e-02],
+        [-8.0869e-03, -1.5768e-01, -1.4085e-01,  ...,  2.2443e-02,
+         -9.8792e-02,  4.2673e-03],
+        [ 2.9069e-02, -9.4800e-02, -1.9037e-01,  ...,  1.5574e-01,
+          1.3214e-01,  4.1642e-02],
+        ...,
+        [-1.1820e-01,  1.0329e-01,  1.1748e-01,  ..., -7.6169e-02,
+         -1.8759e-04, -6.7465e-02],
+        [-3.4037e-02, -2.1797e-01, -3.6182e-01,  ..., -2.6841e-01,
+         -5.0084e-01, -2.3240e-01],
+        [-9.9478e-02,  1.6780e-01,  2.2658e-01,  ...,  2.1547e-03,
+          1.7345e-01,  2.7692e-01]], device='cuda:0'), grad: tensor([[ 1.1641e-04,  8.7097e-06, -1.0347e-06,  ...,  3.1918e-05,
+          2.6524e-05,  4.3392e-05],
+        [ 1.6347e-05,  3.0138e-06,  1.6927e-07,  ...,  1.4566e-05,
+          1.0543e-05,  1.8179e-05],
+        [ 6.7444e-03,  1.2379e-03,  7.1824e-05,  ...,  5.9738e-03,
+          4.3259e-03,  7.4615e-03],
+        ...,
+        [-6.8855e-03, -1.2512e-03, -7.0989e-05,  ..., -6.0272e-03,
+         -4.3678e-03, -7.5302e-03],
+        [ 1.3597e-07,  2.5146e-08,  1.3970e-09,  ...,  1.2107e-07,
+          8.7777e-08,  1.5134e-07],
+        [ 1.5199e-06,  2.8033e-07,  1.5832e-08,  ...,  1.3551e-06,
+          9.8068e-07,  1.6913e-06]], device='cuda:0')
+Epoch 35, bias, value: tensor([ 0.0102,  0.1092,  0.2120,  0.1399,  0.0852, -0.5872, -0.3527],
+       device='cuda:0'), grad: tensor([ 7.7581e-04,  4.0340e-04,  1.6553e-01,  5.3763e-05, -1.6687e-01,
+         3.3565e-06,  3.7521e-05], device='cuda:0')
+588
+0.005224324151752577
+changing lr
+epoch 34, time 789.07, cls_loss 0.4744 cls_loss_mapping 1.9965 cls_loss_causal 1.1882 re_mapping 0.0266 re_causal 0.0262 /// teacc 93.47 lr 0.00500000
+Epoch 36, weight, value: tensor([[ 0.0967,  0.1221,  0.1184,  ..., -0.0430, -0.0615, -0.0757],
+        [-0.0043, -0.1667, -0.1240,  ...,  0.0556, -0.0596,  0.0331],
+        [ 0.0120, -0.0279, -0.1300,  ...,  0.1821,  0.2069,  0.0506],
+        ...,
+        [-0.0990,  0.0124,  0.0623,  ..., -0.1354, -0.0033, -0.0557],
+        [ 0.0066, -0.1723, -0.2741,  ..., -0.2797, -0.4600, -0.2167],
+        [-0.1336,  0.1297,  0.1504,  ..., -0.0877,  0.0066,  0.1904]],
+       device='cuda:0'), grad: tensor([[ 4.1428e-03, -8.2970e-04, -6.4659e-04,  ..., -8.5592e-04,
+          1.7866e-05, -6.2180e-04],
+        [-9.0790e-03,  2.1160e-04,  1.9991e-04,  ..., -8.9359e-04,
+         -9.9277e-04, -1.2178e-03],
+        [ 9.3842e-04,  1.3697e-04,  9.9242e-05,  ...,  3.8648e-04,
+          2.1183e-04,  4.0460e-04],
+        ...,
+        [ 2.7332e-03,  3.2091e-04,  2.3162e-04,  ...,  9.1791e-04,
+          5.1689e-04,  9.6798e-04],
+        [ 4.9591e-04,  6.2704e-05,  4.5419e-05,  ...,  1.7476e-04,
+          9.6738e-05,  1.8334e-04],
+        [ 5.3793e-05,  6.8285e-06,  4.9360e-06,  ...,  1.8999e-05,
+          1.0498e-05,  1.9938e-05]], device='cuda:0')
+Epoch 36, bias, value: tensor([ 0.0993,  0.0918,  0.1681,  0.0937,  0.1258, -0.6833, -0.3940],
+       device='cuda:0'), grad: tensor([-0.0761,  0.0035,  0.0164,  0.0104,  0.0376,  0.0073,  0.0008],
+       device='cuda:0')
+588
+0.005000000000000003
+changing lr
+epoch 35, time 792.03, cls_loss 0.4560 cls_loss_mapping 1.9909 cls_loss_causal 1.1629 re_mapping 0.0249 re_causal 0.0246 /// teacc 88.69 lr 0.00477568
+Epoch 37, weight, value: tensor([[ 0.1013,  0.1890,  0.1736,  ..., -0.0483, -0.0621, -0.0633],
+        [-0.0103, -0.1278, -0.1001,  ...,  0.0404, -0.1113,  0.0351],
+        [ 0.0370, -0.0673, -0.1721,  ...,  0.1677,  0.1644,  0.0353],
+        ...,
+        [-0.1176, -0.0319, -0.0022,  ..., -0.1089,  0.0363, -0.0545],
+        [-0.0070, -0.0855, -0.1436,  ..., -0.3884, -0.5403, -0.2805],
+        [-0.1227,  0.0629,  0.0988,  ..., -0.0030,  0.1669,  0.2495]],
+       device='cuda:0'), grad: tensor([[ 4.1515e-05,  1.1928e-05,  5.3421e-06,  ...,  1.5631e-05,
+          2.5257e-06,  2.4036e-05],
+        [ 3.3062e-06,  9.8906e-07,  4.3958e-07,  ...,  1.2908e-06,
+          1.9628e-07,  1.9856e-06],
+        [ 9.0480e-05,  4.7386e-06,  3.6545e-06,  ...,  6.7763e-06,
+          5.5656e-06,  1.1995e-05],
+        ...,
+        [-9.1314e-05, -4.3660e-06, -3.5316e-06,  ..., -6.3032e-06,
+         -5.6215e-06, -1.1317e-05],
+        [ 1.9395e-07,  5.8906e-08,  2.6077e-08,  ...,  7.7067e-08,
+          1.1874e-08,  1.1805e-07],
+        [-4.4197e-05, -1.3396e-05, -5.9493e-06,  ..., -1.7524e-05,
+         -2.6841e-06, -2.6911e-05]], device='cuda:0')
+Epoch 37, bias, value: tensor([ 0.1112,  0.1319,  0.1627,  0.0850,  0.1299, -0.6363, -0.5115],
+       device='cuda:0'), grad: tensor([ 1.3371e-03,  1.1128e-04,  3.1662e-04,  6.9439e-06, -2.6846e-04,
+         6.6236e-06, -1.5087e-03], device='cuda:0')
+588
+0.004775675848247429
+changing lr
+epoch 36, time 796.83, cls_loss 0.4659 cls_loss_mapping 1.9866 cls_loss_causal 1.2009 re_mapping 0.0260 re_causal 0.0257 /// teacc 91.46 lr 0.00455180
+Epoch 38, weight, value: tensor([[ 0.0813,  0.1262,  0.0609,  ..., -0.0690, -0.0698, -0.0691],
+        [-0.0043, -0.1431, -0.1101,  ...,  0.0090, -0.1583,  0.0231],
+        [ 0.0284, -0.0451, -0.1768,  ...,  0.2120,  0.2247,  0.0699],
+        ...,
+        [-0.1171,  0.0164,  0.0747,  ..., -0.0878,  0.0124, -0.0669],
+        [ 0.0369, -0.0323, -0.0879,  ..., -0.3959, -0.4334, -0.2563],
+        [-0.1201,  0.0114,  0.0562,  ...,  0.0023,  0.1179,  0.2207]],
+       device='cuda:0'), grad: tensor([[ 1.6708e-03,  2.5201e-04,  3.8184e-06,  ...,  4.5013e-04,
+          5.3227e-05,  7.4673e-04],
+        [-7.2289e-03, -1.0662e-03, -1.5929e-05,  ..., -1.9140e-03,
+         -2.2995e-04, -3.2253e-03],
+        [ 2.1782e-03,  3.4761e-04,  5.4501e-06,  ...,  6.1274e-04,
+          6.9618e-05,  9.7752e-04],
+        ...,
+        [ 1.0767e-03,  1.4424e-04,  2.0191e-06,  ...,  2.6560e-04,
+          3.4064e-05,  4.7731e-04],
+        [ 2.9540e-04,  4.0531e-05,  5.7695e-07,  ...,  7.4089e-05,
+          9.3505e-06,  1.3113e-04],
+        [ 6.6996e-04,  9.0063e-05,  1.2629e-06,  ...,  1.6558e-04,
+          2.1189e-05,  2.9683e-04]], device='cuda:0')
+Epoch 38, bias, value: tensor([ 0.0797,  0.1661,  0.1733,  0.1131,  0.0780, -0.6217, -0.4580],
+       device='cuda:0'), grad: tensor([ 0.0606, -0.2644,  0.0772,  0.0495,  0.0407,  0.0111,  0.0253],
+       device='cuda:0')
+588
+0.004551803455482836
+changing lr
+epoch 37, time 793.56, cls_loss 0.4088 cls_loss_mapping 1.9945 cls_loss_causal 1.1390 re_mapping 0.0272 re_causal 0.0267 /// teacc 90.45 lr 0.00432883
+Epoch 39, weight, value: tensor([[ 0.0832,  0.0943,  0.0779,  ..., -0.1074, -0.1026, -0.0777],
+        [ 0.0134, -0.0943, -0.1052,  ...,  0.0421, -0.1147,  0.0317],
+        [ 0.0184, -0.1020, -0.2025,  ...,  0.1754,  0.2036,  0.0666],
+        ...,
+        [-0.1180, -0.0023,  0.0671,  ..., -0.0080,  0.0718, -0.0207],
+        [ 0.0664,  0.0084, -0.0064,  ..., -0.4826, -0.5101, -0.3272],
+        [-0.1370,  0.0443,  0.0230,  ..., -0.0018,  0.1435,  0.1990]],
+       device='cuda:0'), grad: tensor([[ 1.1313e-04,  4.7946e-04,  1.7059e-04,  ...,  7.0810e-04,
+          3.7551e-04,  6.2132e-04],
+        [-1.2312e-03, -5.7936e-04, -3.7885e-04,  ..., -2.7731e-05,
+         -1.4746e-04, -2.9731e-04],
+        [ 1.2197e-03,  4.2462e-04,  1.5688e-04,  ...,  8.1348e-04,
+          4.8971e-04,  7.3385e-04],
+        ...,
+        [-1.9798e-03, -9.7084e-04, -1.7929e-04,  ..., -2.7885e-03,
+         -1.4896e-03, -2.2106e-03],
+        [ 1.3804e-04,  4.9263e-05,  1.9655e-05,  ...,  8.4996e-05,
+          5.2363e-05,  7.9095e-05],
+        [ 2.9349e-04,  1.0264e-04,  3.8415e-05,  ...,  1.9336e-04,
+          1.1677e-04,  1.7524e-04]], device='cuda:0')
+Epoch 39, bias, value: tensor([ 0.0425,  0.1473,  0.2778,  0.1131,  0.0742, -0.6858, -0.4781],
+       device='cuda:0'), grad: tensor([ 0.0753, -0.1073,  0.0614,  0.0701, -0.1216,  0.0073,  0.0149],
+       device='cuda:0')
+588
+0.004328833670911726
+changing lr
+epoch 38, time 790.75, cls_loss 0.4256 cls_loss_mapping 1.9899 cls_loss_causal 1.1630 re_mapping 0.0241 re_causal 0.0242 /// teacc 93.22 lr 0.00410722
+Epoch 40, weight, value: tensor([[ 8.6891e-02,  1.3303e-01,  6.1671e-02,  ..., -9.0542e-02,
+         -7.1304e-02, -4.9730e-02],
+        [ 2.7732e-04, -6.9901e-02, -3.5240e-02,  ..., -3.8250e-02,
+         -2.0263e-01, -5.6416e-02],
+        [ 6.6434e-03, -1.1944e-01, -2.1008e-01,  ...,  1.9276e-01,
+          2.7706e-01,  9.6234e-02],
+        ...,
+        [-9.2859e-02, -3.6517e-02,  2.1713e-02,  ..., -5.2031e-03,
+          6.0510e-02, -1.6178e-02],
+        [ 2.0870e-02,  4.6258e-02,  2.4939e-02,  ..., -4.9472e-01,
+         -5.3191e-01, -2.9663e-01],
+        [-1.3070e-01,  2.9015e-02,  4.0670e-02,  ...,  4.8675e-04,
+          1.3944e-01,  1.7128e-01]], device='cuda:0'), grad: tensor([[ 5.8222e-04,  1.1253e-04,  7.4208e-05,  ...,  3.7336e-04,
+          1.4448e-04,  8.3542e-04],
+        [-5.7638e-05,  6.7353e-05,  4.9293e-05,  ...,  2.5773e-04,
+          1.7136e-05,  6.0368e-04],
+        [ 3.4451e-04,  7.1108e-05,  4.7863e-05,  ...,  2.4331e-04,
+          8.1003e-05,  5.4121e-04],
+        ...,
+        [ 7.5817e-04,  1.1164e-04,  7.3910e-05,  ...,  3.7551e-04,
+          1.5259e-04,  8.1205e-04],
+        [ 5.5224e-05,  1.1846e-05,  7.9870e-06,  ...,  4.0680e-05,
+          1.3225e-05,  9.0718e-05],
+        [ 4.4316e-05,  8.5086e-06,  5.6922e-06,  ...,  2.8893e-05,
+          1.0200e-05,  6.4075e-05]], device='cuda:0')
+Epoch 40, bias, value: tensor([ 0.0364,  0.1547,  0.1998,  0.1858,  0.1211, -0.7020, -0.5193],
+       device='cuda:0'), grad: tensor([ 0.0376,  0.0268,  0.0241, -0.1310,  0.0356,  0.0040,  0.0028],
+       device='cuda:0')
+588
+0.0041072155260068206
+changing lr
+epoch 39, time 797.91, cls_loss 0.4333 cls_loss_mapping 2.0248 cls_loss_causal 1.1616 re_mapping 0.0283 re_causal 0.0232 /// teacc 87.44 lr 0.00388740
+Epoch 41, weight, value: tensor([[ 0.0911,  0.0764,  0.0081,  ..., -0.1578, -0.1109, -0.1089],
+        [ 0.0021, -0.1234, -0.0031,  ..., -0.0790, -0.1233, -0.0430],
+        [ 0.0287, -0.1029, -0.2422,  ...,  0.2096,  0.2480,  0.1162],
+        ...,
+        [-0.1239,  0.0178,  0.0969,  ...,  0.0444,  0.0611,  0.0067],
+        [ 0.0503,  0.0292, -0.0074,  ..., -0.5563, -0.6339, -0.3520],
+        [-0.1007,  0.0255,  0.0523,  ...,  0.0263,  0.2143,  0.2079]],
+       device='cuda:0'), grad: tensor([[ 3.7217e-04,  1.0151e-04,  1.0008e-04,  ...,  6.9761e-04,
+          6.1178e-04,  8.0538e-04],
+        [ 1.4484e-04,  4.7237e-05,  4.7177e-05,  ...,  3.2640e-04,
+          2.8729e-04,  3.7861e-04],
+        [-6.5029e-05,  5.9575e-05,  6.4790e-05,  ...,  4.2558e-04,
+          3.8528e-04,  5.0926e-04],
+        ...,
+        [ 1.6356e-04,  4.9561e-05,  4.9263e-05,  ...,  3.4165e-04,
+          3.0041e-04,  3.9577e-04],
+        [ 2.4170e-05,  8.0094e-06,  8.0094e-06,  ...,  5.5373e-05,
+          4.8786e-05,  6.4254e-05],
+        [-9.3555e-04, -3.2663e-04, -3.2759e-04,  ..., -2.2602e-03,
+         -1.9932e-03, -2.6264e-03]], device='cuda:0')
+Epoch 41, bias, value: tensor([ 0.0730,  0.1973,  0.1965,  0.2019,  0.0446, -0.7820, -0.4795],
+       device='cuda:0'), grad: tensor([ 0.0490,  0.0229,  0.0301,  0.0290,  0.0240,  0.0039, -0.1588],
+       device='cuda:0')
+588
+0.0038873953302184317
+changing lr
+epoch 40, time 793.18, cls_loss 0.4262 cls_loss_mapping 2.0002 cls_loss_causal 1.1095 re_mapping 0.0238 re_causal 0.0233 /// teacc 93.22 lr 0.00366982
+Epoch 42, weight, value: tensor([[ 0.0840,  0.1488,  0.1224,  ..., -0.1270, -0.0851, -0.0858],
+        [-0.0175, -0.1495, -0.0575,  ..., -0.0498, -0.0857,  0.0024],
+        [ 0.0192, -0.1242, -0.2258,  ...,  0.1480,  0.1890,  0.0565],
+        ...,
+        [-0.0936,  0.0161,  0.0502,  ...,  0.0650,  0.0849,  0.0097],
+        [ 0.0668,  0.0112, -0.0315,  ..., -0.5849, -0.7258, -0.3710],
+        [-0.1213, -0.0046, -0.0204,  ...,  0.0504,  0.2552,  0.2326]],
+       device='cuda:0'), grad: tensor([[-6.9008e-03, -2.5196e-03, -2.0008e-03,  ..., -2.9793e-03,
+         -2.1839e-03, -3.8757e-03],
+        [-4.0359e-03, -5.6028e-04, -4.0054e-04,  ..., -1.4534e-03,
+         -1.2255e-03, -1.7681e-03],
+        [ 1.1845e-03,  4.1723e-04,  3.3045e-04,  ...,  5.0640e-04,
+          3.7384e-04,  6.5660e-04],
+        ...,
+        [ 8.8730e-03,  2.4624e-03,  1.9178e-03,  ...,  3.5820e-03,
+          2.7637e-03,  4.5586e-03],
+        [ 6.4559e-06,  2.2762e-06,  1.8030e-06,  ...,  2.7604e-06,
+          2.0377e-06,  3.5800e-06],
+        [ 7.7534e-04,  1.6177e-04,  1.2255e-04,  ...,  2.9659e-04,
+          2.3890e-04,  3.6979e-04]], device='cuda:0')
+Epoch 42, bias, value: tensor([ 0.0461,  0.2063,  0.1867,  0.1634,  0.1129, -0.7826, -0.5055],
+       device='cuda:0'), grad: tensor([-1.2646e-01, -3.0930e-02,  2.0981e-02,  1.9131e-03,  1.2598e-01,
+         1.1444e-04,  8.4991e-03], device='cuda:0')
+588
+0.003669815772166629
+changing lr
+epoch 41, time 793.89, cls_loss 0.3935 cls_loss_mapping 2.0710 cls_loss_causal 1.1350 re_mapping 0.0310 re_causal 0.0246 /// teacc 92.71 lr 0.00345492
+Epoch 43, weight, value: tensor([[ 0.0643,  0.1088,  0.0626,  ..., -0.0929, -0.0535, -0.0638],
+        [ 0.0028, -0.0901, -0.0426,  ..., -0.0234, -0.1150,  0.0112],
+        [ 0.0149, -0.1513, -0.2476,  ...,  0.1876,  0.2205,  0.0927],
+        ...,
+        [-0.0908,  0.0468,  0.1297,  ...,  0.0240,  0.0925, -0.0197],
+        [ 0.0966,  0.0282, -0.0233,  ..., -0.6239, -0.7280, -0.3785],
+        [-0.1093, -0.0436, -0.0647,  ..., -0.0154,  0.1854,  0.1869]],
+       device='cuda:0'), grad: tensor([[ 1.0422e-02,  1.5628e-04,  7.0393e-05,  ...,  2.0962e-03,
+          2.0924e-03,  2.6207e-03],
+        [-1.1168e-03, -6.2883e-05, -3.4243e-05,  ..., -5.1880e-04,
+         -1.6975e-03, -1.2026e-03],
+        [-6.5857e-02, -7.9918e-04, -3.2258e-04,  ..., -1.2230e-02,
+         -8.1863e-03, -1.3405e-02],
+        ...,
+        [ 5.4901e-02,  6.2561e-04,  2.3735e-04,  ...,  1.0056e-02,
+          6.1264e-03,  1.0735e-02],
+        [ 5.6744e-04,  2.6718e-05,  1.6287e-05,  ...,  2.0099e-04,
+          5.5265e-04,  4.1747e-04],
+        [ 2.2662e-04,  1.0826e-05,  6.6124e-06,  ...,  8.1003e-05,
+          2.2435e-04,  1.6904e-04]], device='cuda:0')
+Epoch 43, bias, value: tensor([ 0.1039,  0.1597,  0.2045,  0.1776,  0.0795, -0.7515, -0.5459],
+       device='cuda:0'), grad: tensor([ 0.0842, -0.0832, -0.2791,  0.0431,  0.1971,  0.0268,  0.0109],
+       device='cuda:0')
+588
+0.0034549150281252667
+changing lr
+epoch 42, time 793.69, cls_loss 0.3802 cls_loss_mapping 1.9892 cls_loss_causal 1.0924 re_mapping 0.0229 re_causal 0.0225 /// teacc 93.22 lr 0.00324313
+Epoch 44, weight, value: tensor([[ 0.0834,  0.1332,  0.0910,  ..., -0.1525, -0.0840, -0.1161],
+        [-0.0021, -0.0873, -0.0451,  ..., -0.0073, -0.1078,  0.0156],
+        [ 0.0146, -0.1524, -0.2777,  ...,  0.1898,  0.2598,  0.1004],
+        ...,
+        [-0.1010,  0.0378,  0.1309,  ...,  0.0671,  0.0940,  0.0226],
+        [ 0.0986, -0.0018, -0.0487,  ..., -0.7223, -0.7836, -0.4384],
+        [-0.1270,  0.0059,  0.0115,  ...,  0.0070,  0.2349,  0.2318]],
+       device='cuda:0'), grad: tensor([[ 7.7020e-07,  7.6601e-08,  4.8662e-08,  ...,  1.6997e-07,
+          1.7486e-07,  1.7299e-07],
+        [ 5.0430e-03,  5.3501e-04,  3.3927e-04,  ...,  1.5249e-03,
+          1.5764e-03,  1.4753e-03],
+        [-5.0659e-03, -5.3740e-04, -3.4094e-04,  ..., -1.5326e-03,
+         -1.5841e-03, -1.4820e-03],
+        ...,
+        [ 2.6450e-05,  2.8070e-06,  1.7807e-06,  ...,  8.0019e-06,
+          8.2701e-06,  7.7412e-06],
+        [ 1.4133e-07,  1.4901e-08,  9.3132e-09,  ...,  4.0280e-08,
+          4.1677e-08,  3.9348e-08],
+        [ 1.0245e-08,  1.1642e-09,  6.9849e-10,  ...,  3.0268e-09,
+          3.2596e-09,  3.0268e-09]], device='cuda:0')
+Epoch 44, bias, value: tensor([ 0.0907,  0.1949,  0.2062,  0.1744,  0.0891, -0.8095, -0.5587],
+       device='cuda:0'), grad: tensor([ 4.3847e-06,  3.2471e-02, -3.2623e-02, -2.1327e-07,  1.7047e-04,
+         8.8802e-07,  6.6124e-08], device='cuda:0')
+588
+0.0032431258795932905
+changing lr
+epoch 43, time 789.57, cls_loss 0.3522 cls_loss_mapping 1.9937 cls_loss_causal 1.0828 re_mapping 0.0234 re_causal 0.0229 /// teacc 91.96 lr 0.00303487
+Epoch 45, weight, value: tensor([[ 0.0955,  0.1317,  0.1385,  ..., -0.1394, -0.0978, -0.1083],
+        [ 0.0087, -0.0818, -0.0973,  ...,  0.0101, -0.0519,  0.0091],
+        [ 0.0183, -0.1682, -0.2719,  ...,  0.1735,  0.2487,  0.1136],
+        ...,
+        [-0.1164,  0.0541,  0.1336,  ...,  0.0493,  0.0661,  0.0058],
+        [ 0.0464, -0.0092, -0.0714,  ..., -0.7157, -0.7955, -0.4830],
+        [-0.1022, -0.0298, -0.0185,  ..., -0.0183,  0.2220,  0.2155]],
+       device='cuda:0'), grad: tensor([[-3.1910e-03, -8.5545e-04, -8.6164e-04,  ..., -8.4400e-04,
+         -1.3742e-03, -1.5039e-03],
+        [ 1.7672e-03,  4.7231e-04,  4.7612e-04,  ...,  4.6682e-04,
+          7.5912e-04,  8.3160e-04],
+        [ 2.9039e-04,  7.3493e-05,  7.4208e-05,  ...,  7.4744e-05,
+          1.1790e-04,  1.3268e-04],
+        ...,
+        [ 7.6914e-04,  2.1195e-04,  2.1338e-04,  ...,  2.0635e-04,
+          3.4070e-04,  3.6836e-04],
+        [ 9.1136e-05,  2.4363e-05,  2.4557e-05,  ...,  2.4080e-05,
+          3.9160e-05,  4.2886e-05],
+        [ 1.2159e-04,  3.2514e-05,  3.2783e-05,  ...,  3.2157e-05,
+          5.2243e-05,  5.7250e-05]], device='cuda:0')
+Epoch 45, bias, value: tensor([ 0.1140,  0.1826,  0.1994,  0.1708,  0.1024, -0.8266, -0.5850],
+       device='cuda:0'), grad: tensor([-0.1249,  0.0690,  0.0109,  0.0059,  0.0308,  0.0036,  0.0048],
+       device='cuda:0')
+588
+0.0030348748417303863
+changing lr
+---------------------saving model at epoch 44----------------------------------------------------
+epoch 44, time 795.83, cls_loss 0.3978 cls_loss_mapping 1.9878 cls_loss_causal 1.1038 re_mapping 0.0225 re_causal 0.0223 /// teacc 93.97 lr 0.00283058
+Epoch 46, weight, value: tensor([[ 0.0839,  0.0965,  0.1240,  ..., -0.1082, -0.0749, -0.0755],
+        [ 0.0055, -0.0306, -0.0517,  ..., -0.0313, -0.1022, -0.0195],
+        [ 0.0100, -0.1071, -0.1644,  ...,  0.1763,  0.2366,  0.0998],
+        ...,
+        [-0.0981,  0.0232,  0.0561,  ...,  0.0557,  0.0843,  0.0088],
+        [ 0.0672,  0.0190, -0.0069,  ..., -0.7138, -0.7913, -0.4696],
+        [-0.1312, -0.1181, -0.1156,  ..., -0.0245,  0.2260,  0.1983]],
+       device='cuda:0'), grad: tensor([[ 1.1587e-03,  5.3078e-05,  1.8433e-05,  ...,  4.1866e-04,
+          3.5286e-04,  7.6532e-04],
+        [-1.5497e-04, -3.2276e-05, -1.1854e-05,  ...,  1.2422e-04,
+          1.0598e-04,  3.6764e-04],
+        [-1.7033e-03, -1.0192e-04, -1.9267e-05,  ...,  2.3887e-05,
+          6.8843e-05,  2.2292e-04],
+        ...,
+        [ 2.7733e-03,  1.2243e-04,  2.6718e-05,  ...,  5.9557e-04,
+          4.5776e-04,  1.0719e-03],
+        [ 4.2558e-05,  8.6892e-07,  2.9127e-07,  ...,  2.3574e-05,
+          1.9982e-05,  4.9174e-05],
+        [-2.4204e-03, -4.9174e-05, -1.6510e-05,  ..., -1.3437e-03,
+         -1.1387e-03, -2.8038e-03]], device='cuda:0')
+Epoch 46, bias, value: tensor([ 0.1065,  0.2135,  0.1948,  0.1774,  0.1072, -0.8170, -0.6395],
+       device='cuda:0'), grad: tensor([ 0.0378,  0.0275,  0.0229,  0.0188,  0.0518,  0.0028, -0.1616],
+       device='cuda:0')
+588
+0.0028305813044122124
+changing lr
+---------------------saving model at epoch 45----------------------------------------------------
+epoch 45, time 793.49, cls_loss 0.3623 cls_loss_mapping 1.9942 cls_loss_causal 1.0389 re_mapping 0.0226 re_causal 0.0221 /// teacc 95.73 lr 0.00263066
+Epoch 47, weight, value: tensor([[ 0.0841,  0.1589,  0.1415,  ..., -0.0505, -0.0102, -0.0414],
+        [-0.0044, -0.0669,  0.0280,  ..., -0.0547, -0.1378, -0.0437],
+        [ 0.0146, -0.1602, -0.2107,  ...,  0.1659,  0.2378,  0.0657],
+        ...,
+        [-0.0972,  0.0043,  0.0218,  ...,  0.0352,  0.0535,  0.0162],
+        [ 0.0674,  0.0272,  0.0462,  ..., -0.6853, -0.7837, -0.4699],
+        [-0.1275, -0.1053, -0.0656,  ..., -0.0593,  0.2231,  0.1930]],
+       device='cuda:0'), grad: tensor([[ 1.0528e-05,  9.8825e-05,  4.8339e-05,  ..., -1.7762e-04,
+          2.6751e-04, -1.5097e-03],
+        [-1.2131e-03,  5.4312e-04,  1.5461e-04,  ..., -1.0080e-03,
+         -1.0281e-03, -9.6178e-04],
+        [ 6.4945e-04,  5.8937e-04,  2.1136e-04,  ...,  2.4772e-04,
+          1.8764e-04,  7.2575e-04],
+        ...,
+        [-1.2379e-03, -2.8477e-03, -9.9373e-04,  ...,  2.5320e-04,
+          4.7743e-05, -2.3520e-04],
+        [ 1.8501e-04,  1.6427e-04,  5.8860e-05,  ...,  7.3135e-05,
+          5.2392e-05,  2.1923e-04],
+        [ 3.4595e-04,  3.3283e-04,  1.1873e-04,  ...,  1.2720e-04,
+          8.9347e-05,  4.0579e-04]], device='cuda:0')
+Epoch 47, bias, value: tensor([ 0.1119,  0.1700,  0.1375,  0.2191,  0.1577, -0.8327, -0.6262],
+       device='cuda:0'), grad: tensor([-0.0715, -0.0638,  0.0537,  0.1011, -0.0654,  0.0159,  0.0297],
+       device='cuda:0')
+588
+0.0026306566876350096
+changing lr
+epoch 46, time 786.80, cls_loss 0.3553 cls_loss_mapping 1.9916 cls_loss_causal 1.0388 re_mapping 0.0231 re_causal 0.0224 /// teacc 92.46 lr 0.00243550
+Epoch 48, weight, value: tensor([[ 0.0956,  0.1558,  0.0879,  ..., -0.0899, -0.0491, -0.0674],
+        [-0.0115, -0.0421,  0.0354,  ..., -0.0749, -0.1362, -0.0593],
+        [ 0.0077, -0.1381, -0.2124,  ...,  0.2029,  0.2413,  0.1030],
+        ...,
+        [-0.0945, -0.0059,  0.0601,  ...,  0.0411,  0.0617,  0.0120],
+        [ 0.0528,  0.0421,  0.0290,  ..., -0.6839, -0.7994, -0.4708],
+        [-0.1295, -0.0696, -0.0456,  ..., -0.0112,  0.2695,  0.2299]],
+       device='cuda:0'), grad: tensor([[ 9.5034e-04,  7.5281e-05,  7.4506e-05,  ...,  2.2638e-04,
+          1.2189e-04,  2.8396e-04],
+        [ 3.6478e-04,  3.2634e-05,  3.2872e-05,  ...,  8.5950e-05,
+          4.1932e-05,  1.1307e-04],
+        [ 5.7268e-04,  5.1200e-05,  5.1588e-05,  ...,  1.3494e-04,
+          6.5863e-05,  1.7750e-04],
+        ...,
+        [ 4.9162e-04,  5.3734e-05,  5.5492e-05,  ...,  1.1331e-04,
+          4.3839e-05,  1.6296e-04],
+        [-2.9774e-03, -2.6631e-04, -2.6822e-04,  ..., -7.0143e-04,
+         -3.4213e-04, -9.2268e-04],
+        [ 1.2887e-04,  1.1526e-05,  1.1608e-05,  ...,  3.0354e-05,
+          1.4812e-05,  3.9935e-05]], device='cuda:0')
+Epoch 48, bias, value: tensor([ 0.1229,  0.1631,  0.1843,  0.2061,  0.1127, -0.8222, -0.6167],
+       device='cuda:0'), grad: tensor([ 0.0432,  0.0200,  0.0313,  0.0257,  0.0357, -0.1630,  0.0071],
+       device='cuda:0')
+588
+0.0024355036129704724
+changing lr
+epoch 47, time 795.90, cls_loss 0.3662 cls_loss_mapping 1.9847 cls_loss_causal 1.0493 re_mapping 0.0217 re_causal 0.0213 /// teacc 92.46 lr 0.00224552
+Epoch 49, weight, value: tensor([[ 0.0922,  0.1120,  0.0930,  ..., -0.1250, -0.0653, -0.0949],
+        [-0.0051, -0.0318, -0.0315,  ..., -0.0817, -0.1453, -0.0640],
+        [ 0.0037, -0.1050, -0.2166,  ...,  0.1755,  0.2101,  0.0731],
+        ...,
+        [-0.1005, -0.0186,  0.1052,  ...,  0.0833,  0.1078,  0.0529],
+        [ 0.0616,  0.0550,  0.0163,  ..., -0.6891, -0.8328, -0.4716],
+        [-0.1069, -0.0613, -0.0591,  ..., -0.0168,  0.2633,  0.2115]],
+       device='cuda:0'), grad: tensor([[ 9.0361e-04,  2.4486e-04,  1.2577e-04,  ...,  5.3930e-04,
+          4.0340e-04,  1.2808e-03],
+        [-3.0640e-02, -4.7135e-04, -3.2711e-04,  ..., -5.8136e-03,
+         -5.9357e-03, -8.0338e-03],
+        [ 2.3234e-04,  6.7770e-05,  3.4958e-05,  ...,  1.4591e-04,
+          1.0866e-04,  3.5119e-04],
+        ...,
+        [-1.6909e-03, -4.7898e-04, -2.4652e-04,  ..., -1.0414e-03,
+         -7.7629e-04, -2.4929e-03],
+        [ 3.3110e-05,  8.1658e-06,  4.2245e-06,  ...,  1.8403e-05,
+          1.3992e-05,  4.3273e-05],
+        [ 4.1902e-05,  1.1764e-05,  6.0722e-06,  ...,  2.5570e-05,
+          1.9133e-05,  6.1274e-05]], device='cuda:0')
+Epoch 49, bias, value: tensor([ 0.0660,  0.2048,  0.1961,  0.2368,  0.1202, -0.8832, -0.6157],
+       device='cuda:0'), grad: tensor([ 0.0501, -0.1084,  0.0139,  0.1385, -0.0981,  0.0017,  0.0024],
+       device='cuda:0')
+588
+0.00224551509273949
+changing lr
+epoch 48, time 791.15, cls_loss 0.3587 cls_loss_mapping 1.9853 cls_loss_causal 1.0358 re_mapping 0.0222 re_causal 0.0221 /// teacc 94.97 lr 0.00206107
+Epoch 50, weight, value: tensor([[ 0.0846,  0.1816,  0.1254,  ..., -0.0750,  0.0012, -0.0450],
+        [-0.0013, -0.0766, -0.0773,  ..., -0.1077, -0.1881, -0.0801],
+        [ 0.0212, -0.1647, -0.2473,  ...,  0.1684,  0.2135,  0.0857],
+        ...,
+        [-0.0958, -0.0384,  0.0915,  ...,  0.0667,  0.0922,  0.0290],
+        [ 0.0626,  0.0544,  0.0271,  ..., -0.6782, -0.8441, -0.4648],
+        [-0.1303,  0.0366,  0.0180,  ..., -0.0128,  0.2398,  0.2009]],
+       device='cuda:0'), grad: tensor([[-1.5373e-03, -4.3774e-04, -4.2224e-04,  ..., -1.9836e-04,
+         -6.0892e-04, -1.6680e-03],
+        [ 3.6526e-04,  1.0401e-04,  1.0031e-04,  ...,  4.7117e-05,
+          1.4460e-04,  3.9625e-04],
+        [ 3.9077e-04,  1.1337e-04,  1.0937e-04,  ...,  5.0902e-05,
+          1.5759e-04,  4.3225e-04],
+        ...,
+        [ 4.2677e-04,  1.1957e-04,  1.1528e-04,  ...,  5.4568e-05,
+          1.6630e-04,  4.5514e-04],
+        [ 5.6386e-05,  1.6049e-05,  1.5482e-05,  ...,  7.2718e-06,
+          2.2322e-05,  6.1154e-05],
+        [ 5.2214e-05,  1.4871e-05,  1.4335e-05,  ...,  6.7353e-06,
+          2.0683e-05,  5.6654e-05]], device='cuda:0')
+Epoch 50, bias, value: tensor([ 0.1598,  0.1734,  0.1801,  0.1802,  0.1135, -0.8684, -0.6332],
+       device='cuda:0'), grad: tensor([-0.1240,  0.0295,  0.0322,  0.0198,  0.0338,  0.0045,  0.0042],
+       device='cuda:0')
+588
+0.002061073738537637
+changing lr
+epoch 49, time 791.66, cls_loss 0.3642 cls_loss_mapping 1.9799 cls_loss_causal 1.0172 re_mapping 0.0228 re_causal 0.0216 /// teacc 91.96 lr 0.00188255
+Epoch 51, weight, value: tensor([[ 8.0050e-02,  1.1906e-01,  1.0821e-01,  ..., -1.1237e-01,
+         -1.8257e-02, -8.6082e-02],
+        [-2.8441e-04, -4.6112e-02, -6.0809e-02,  ..., -9.2129e-02,
+         -1.4189e-01, -6.3123e-02],
+        [ 3.1039e-02, -1.1264e-01, -1.9799e-01,  ...,  1.6092e-01,
+          1.9514e-01,  5.9242e-02],
+        ...,
+        [-1.0457e-01, -6.0067e-02,  2.4459e-02,  ...,  7.8760e-02,
+          8.4602e-02,  5.1598e-02],
+        [ 7.7575e-02,  3.1680e-02,  4.2495e-03,  ..., -7.1626e-01,
+         -8.7211e-01, -4.7275e-01],
+        [-1.1534e-01,  5.9901e-02,  3.1899e-02,  ...,  9.2074e-03,
+          2.5169e-01,  2.3730e-01]], device='cuda:0'), grad: tensor([[-5.6298e-07, -1.2806e-09,  2.3283e-10,  ..., -7.5612e-08,
+         -5.9546e-08, -9.7963e-08],
+        [-2.6776e-09, -5.8208e-11, -1.1642e-10,  ...,  3.4925e-10,
+         -5.8208e-10,  0.0000e+00],
+        [-1.5378e-05, -1.0012e-06, -9.3947e-08,  ..., -2.9653e-06,
+         -1.3877e-06, -2.8573e-06],
+        ...,
+        [ 1.5989e-05,  1.0058e-06,  9.5868e-08,  ...,  3.0417e-06,
+          1.4501e-06,  2.9579e-06],
+        [ 2.3283e-09,  1.7462e-10,  1.1642e-10,  ...,  1.1642e-10,
+          1.1642e-10,  1.7462e-10],
+        [-3.7893e-08, -2.7358e-09, -2.3283e-09,  ..., -1.4552e-09,
+         -1.6298e-09, -2.6776e-09]], device='cuda:0')
+Epoch 51, bias, value: tensor([ 0.1052,  0.2196,  0.1519,  0.1560,  0.1559, -0.8919, -0.5913],
+       device='cuda:0'), grad: tensor([-2.1085e-06, -5.0059e-09, -9.9659e-05,  2.3865e-09,  1.0186e-04,
+         6.6357e-09, -1.0635e-07], device='cuda:0')
+588
+0.0018825509907063344
+changing lr
+epoch 50, time 792.19, cls_loss 0.3518 cls_loss_mapping 1.9837 cls_loss_causal 0.9953 re_mapping 0.0223 re_causal 0.0216 /// teacc 93.97 lr 0.00171031
+Epoch 52, weight, value: tensor([[ 0.0866,  0.0985,  0.1082,  ..., -0.1027, -0.0159, -0.0661],
+        [ 0.0080, -0.0585, -0.0623,  ..., -0.0809, -0.1541, -0.0534],
+        [ 0.0161, -0.1148, -0.1782,  ...,  0.1115,  0.1755,  0.0307],
+        ...,
+        [-0.1067, -0.0302,  0.0260,  ...,  0.0835,  0.0624,  0.0352],
+        [ 0.0713,  0.0242, -0.0059,  ..., -0.6828, -0.8655, -0.4524],
+        [-0.1252,  0.0592,  0.0131,  ...,  0.0226,  0.2841,  0.2409]],
+       device='cuda:0'), grad: tensor([[8.2970e-04, 1.3388e-09, 3.4925e-09,  ..., 4.7952e-05, 4.6587e-04,
+         3.2496e-04],
+        [1.5850e-03, 3.8766e-08, 1.0332e-07,  ..., 9.2506e-05, 8.9121e-04,
+         6.2180e-04],
+        [8.0967e-04, 1.9209e-09, 5.1805e-09,  ..., 4.6819e-05, 4.5466e-04,
+         3.1710e-04],
+        ...,
+        [8.0633e-04, 4.0745e-10, 8.7311e-10,  ..., 4.6581e-05, 4.5276e-04,
+         3.1567e-04],
+        [1.7512e-04, 5.8208e-11, 2.3283e-10,  ..., 1.0118e-05, 9.8348e-05,
+         6.8605e-05],
+        [1.8668e-04, 1.7462e-10, 4.0745e-10,  ..., 1.0788e-05, 1.0484e-04,
+         7.3135e-05]], device='cuda:0')
+Epoch 52, bias, value: tensor([ 0.0871,  0.2250,  0.1671,  0.1756,  0.1291, -0.8618, -0.5868],
+       device='cuda:0'), grad: tensor([ 0.0266,  0.0507,  0.0259, -0.1405,  0.0258,  0.0056,  0.0060],
+       device='cuda:0')
+588
+0.0017103063703014388
+changing lr
+epoch 51, time 788.44, cls_loss 0.3190 cls_loss_mapping 1.9850 cls_loss_causal 0.9625 re_mapping 0.0214 re_causal 0.0201 /// teacc 95.73 lr 0.00154469
+Epoch 53, weight, value: tensor([[ 0.0876,  0.0600,  0.1045,  ..., -0.0811,  0.0089, -0.0534],
+        [ 0.0014, -0.0317, -0.0467,  ..., -0.0808, -0.1815, -0.0571],
+        [ 0.0183, -0.0910, -0.1617,  ...,  0.1261,  0.1863,  0.0311],
+        ...,
+        [-0.1071, -0.0345,  0.0117,  ...,  0.0714,  0.0735,  0.0359],
+        [ 0.0532,  0.0471,  0.0300,  ..., -0.6734, -0.8537, -0.4532],
+        [-0.1118,  0.0073, -0.0313,  ..., -0.0092,  0.2564,  0.2223]],
+       device='cuda:0'), grad: tensor([[-2.4796e-03, -1.2941e-03, -1.0529e-03,  ..., -4.8027e-03,
+         -4.9057e-03, -5.3940e-03],
+        [ 1.5469e-03,  1.0319e-03,  8.9645e-04,  ...,  4.0779e-03,
+          2.5291e-03,  3.4771e-03],
+        [ 2.1863e-04,  4.2468e-05,  1.6421e-05,  ...,  7.7665e-05,
+          6.0129e-04,  4.3964e-04],
+        ...,
+        [ 4.7302e-04,  1.7166e-04,  1.2064e-04,  ...,  5.5265e-04,
+          1.1129e-03,  9.9087e-04],
+        [ 3.4988e-05,  1.2383e-05,  8.5831e-06,  ...,  3.9369e-05,
+          8.3029e-05,  7.3135e-05],
+        [ 5.2601e-05,  9.7007e-06,  3.4031e-06,  ...,  1.6198e-05,
+          1.4591e-04,  1.0550e-04]], device='cuda:0')
+Epoch 53, bias, value: tensor([ 0.1020,  0.2097,  0.1749,  0.1619,  0.1433, -0.8940, -0.5930],
+       device='cuda:0'), grad: tensor([-0.0985, -0.0142,  0.0328,  0.0244,  0.0441,  0.0034,  0.0081],
+       device='cuda:0')
+588
+0.0015446867550656784
+changing lr
+epoch 52, time 789.46, cls_loss 0.3353 cls_loss_mapping 1.9789 cls_loss_causal 0.9720 re_mapping 0.0202 re_causal 0.0195 /// teacc 95.48 lr 0.00138603
+Epoch 54, weight, value: tensor([[ 0.0870,  0.1018,  0.1322,  ..., -0.0850, -0.0085, -0.0579],
+        [-0.0097, -0.0700, -0.0837,  ..., -0.0925, -0.1853, -0.0620],
+        [ 0.0211, -0.0879, -0.1712,  ...,  0.1150,  0.1763,  0.0230],
+        ...,
+        [-0.1036, -0.0421,  0.0291,  ...,  0.0902,  0.0958,  0.0477],
+        [ 0.0499,  0.0694,  0.0337,  ..., -0.6543, -0.8369, -0.4341],
+        [-0.1149, -0.0044, -0.0291,  ...,  0.0015,  0.2656,  0.2268]],
+       device='cuda:0'), grad: tensor([[-5.0974e-04, -1.8522e-05, -2.5466e-05,  ..., -8.1420e-05,
+         -8.4937e-05, -1.4079e-04],
+        [-3.1147e-03, -7.0408e-06,  1.8835e-05,  ..., -1.3113e-04,
+         -7.6473e-05, -1.3566e-04],
+        [ 7.2131e-07, -2.0256e-07, -1.3458e-07,  ..., -4.1537e-07,
+         -3.8161e-07, -2.7660e-07],
+        ...,
+        [ 3.6221e-03,  2.5690e-05,  6.6943e-06,  ...,  2.1267e-04,
+          1.6165e-04,  2.7657e-04],
+        [ 1.3539e-07,  4.6566e-09,  6.4028e-09,  ...,  2.0489e-08,
+          2.1420e-08,  3.5507e-08],
+        [ 5.9512e-07,  2.3167e-08,  2.9453e-08,  ...,  9.3598e-08,
+          9.7323e-08,  1.5879e-07]], device='cuda:0')
+Epoch 54, bias, value: tensor([ 0.0913,  0.2123,  0.1681,  0.1768,  0.1330, -0.8870, -0.5721],
+       device='cuda:0'), grad: tensor([-2.8477e-03, -1.0956e-02, -6.1877e-06,  6.0722e-06,  1.3802e-02,
+         7.4832e-07,  3.3192e-06], device='cuda:0')
+588
+0.001386025680863044
+changing lr
+epoch 53, time 789.24, cls_loss 0.3444 cls_loss_mapping 1.9801 cls_loss_causal 0.9729 re_mapping 0.0201 re_causal 0.0194 /// teacc 95.23 lr 0.00123464
+Epoch 55, weight, value: tensor([[ 0.0899,  0.0994,  0.1185,  ..., -0.0883, -0.0154, -0.0628],
+        [-0.0138, -0.0552, -0.0646,  ..., -0.0786, -0.1759, -0.0448],
+        [ 0.0190, -0.0833, -0.1638,  ...,  0.1143,  0.1703,  0.0314],
+        ...,
+        [-0.0976, -0.0140,  0.0644,  ...,  0.0951,  0.1176,  0.0502],
+        [ 0.0533,  0.0488,  0.0212,  ..., -0.6563, -0.8324, -0.4305],
+        [-0.1198, -0.0496, -0.0600,  ..., -0.0246,  0.2251,  0.2029]],
+       device='cuda:0'), grad: tensor([[ 1.9855e-03,  8.1599e-05,  1.0729e-05,  ...,  5.2899e-05,
+          8.5890e-05,  1.5986e-04],
+        [-6.4308e-07, -3.5856e-08, -3.5041e-08,  ..., -1.5623e-07,
+         -1.6892e-07, -1.9337e-07],
+        [-3.0777e-02, -1.2655e-03, -1.6606e-04,  ..., -8.1873e-04,
+         -1.3304e-03, -2.4776e-03],
+        ...,
+        [ 2.8809e-02,  1.1845e-03,  1.5545e-04,  ...,  7.6628e-04,
+          1.2455e-03,  2.3193e-03],
+        [ 4.6566e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [-2.6193e-08, -3.4925e-09, -2.9104e-09,  ..., -3.3760e-09,
+         -4.4238e-09, -5.0059e-09]], device='cuda:0')
+Epoch 55, bias, value: tensor([ 0.1008,  0.1947,  0.1942,  0.1807,  0.1339, -0.8819, -0.6171],
+       device='cuda:0'), grad: tensor([ 8.9722e-03, -2.7604e-06, -1.3916e-01,  1.6764e-08,  1.3025e-01,
+         2.0955e-09, -6.2049e-08], device='cuda:0')
+588
+0.0012346426699819469
+changing lr
+epoch 54, time 787.86, cls_loss 0.3206 cls_loss_mapping 1.9793 cls_loss_causal 0.9498 re_mapping 0.0204 re_causal 0.0194 /// teacc 95.48 lr 0.00109084
+Epoch 56, weight, value: tensor([[ 0.0925,  0.0880,  0.1235,  ..., -0.1024, -0.0247, -0.0701],
+        [-0.0047, -0.0246, -0.0448,  ..., -0.0640, -0.1698, -0.0438],
+        [ 0.0114, -0.0813, -0.1900,  ...,  0.1038,  0.1607,  0.0077],
+        ...,
+        [-0.1076, -0.0237,  0.0582,  ...,  0.1092,  0.1341,  0.0602],
+        [ 0.0442,  0.0242,  0.0075,  ..., -0.6532, -0.8245, -0.4242],
+        [-0.1167, -0.0489, -0.0508,  ..., -0.0102,  0.2154,  0.2315]],
+       device='cuda:0'), grad: tensor([[7.3135e-05, 1.2144e-06, 4.8131e-06,  ..., 2.8417e-05, 3.7432e-05,
+         5.5701e-05],
+        [1.2434e-04, 2.0862e-06, 8.1658e-06,  ..., 4.8101e-05, 6.3360e-05,
+         9.4295e-05],
+        [1.6632e-03, 2.7791e-05, 1.0926e-04,  ..., 6.4373e-04, 8.4877e-04,
+         1.2627e-03],
+        ...,
+        [6.2585e-05, 1.0468e-06, 4.1127e-06,  ..., 2.4229e-05, 3.1918e-05,
+         4.7505e-05],
+        [7.0482e-06, 1.1781e-07, 4.6310e-07,  ..., 2.7288e-06, 3.5968e-06,
+         5.3495e-06],
+        [1.9205e-04, 3.2093e-06, 1.2614e-05,  ..., 7.4327e-05, 9.7990e-05,
+         1.4579e-04]], device='cuda:0')
+Epoch 56, bias, value: tensor([ 0.0872,  0.1928,  0.1729,  0.1769,  0.1607, -0.8810, -0.5969],
+       device='cuda:0'), grad: tensor([ 0.0018,  0.0031,  0.0416, -0.0531,  0.0016,  0.0002,  0.0048],
+       device='cuda:0')
+588
+0.0010908425876598518
+changing lr
+epoch 55, time 786.43, cls_loss 0.3282 cls_loss_mapping 1.9821 cls_loss_causal 0.9340 re_mapping 0.0193 re_causal 0.0177 /// teacc 95.73 lr 0.00095492
+Epoch 57, weight, value: tensor([[ 0.0849,  0.0755,  0.0935,  ..., -0.1036, -0.0197, -0.0655],
+        [-0.0095, -0.0116, -0.0134,  ..., -0.0643, -0.1662, -0.0527],
+        [ 0.0208, -0.0986, -0.2220,  ...,  0.0728,  0.1324, -0.0059],
+        ...,
+        [-0.0978,  0.0050,  0.1041,  ...,  0.1330,  0.1540,  0.0799],
+        [ 0.0418,  0.0328,  0.0083,  ..., -0.6448, -0.8223, -0.4147],
+        [-0.1264, -0.0757, -0.0820,  ...,  0.0061,  0.2072,  0.2298]],
+       device='cuda:0'), grad: tensor([[ 1.7536e-04,  9.3132e-10,  1.1642e-09,  ...,  4.3988e-05,
+          4.4763e-05,  1.3244e-04],
+        [ 1.6344e-04, -6.9849e-10, -9.3132e-10,  ...,  4.1008e-05,
+          4.1693e-05,  1.2350e-04],
+        [-7.1812e-04,  1.1642e-10,  2.3283e-10,  ..., -1.8024e-04,
+         -1.8334e-04, -5.4264e-04],
+        ...,
+        [ 1.6940e-04,  1.1642e-10,  1.1642e-10,  ...,  4.2498e-05,
+          4.3243e-05,  1.2803e-04],
+        [ 2.8685e-05,  0.0000e+00,  0.0000e+00,  ...,  7.1973e-06,
+          7.3202e-06,  2.1666e-05],
+        [ 5.6595e-05,  0.0000e+00,  0.0000e+00,  ...,  1.4201e-05,
+          1.4447e-05,  4.2766e-05]], device='cuda:0')
+Epoch 57, bias, value: tensor([ 0.0884,  0.1921,  0.1628,  0.1668,  0.1655, -0.8695, -0.5853],
+       device='cuda:0'), grad: tensor([ 0.0331,  0.0309, -0.1357,  0.0236,  0.0320,  0.0054,  0.0107],
+       device='cuda:0')
+588
+0.000954915028125264
+changing lr
+epoch 56, time 794.91, cls_loss 0.3137 cls_loss_mapping 1.9781 cls_loss_causal 0.9403 re_mapping 0.0187 re_causal 0.0169 /// teacc 95.48 lr 0.00082713
+Epoch 58, weight, value: tensor([[ 0.0945,  0.0867,  0.1059,  ..., -0.1034, -0.0176, -0.0633],
+        [-0.0110, -0.0268, -0.0210,  ..., -0.0691, -0.1674, -0.0602],
+        [ 0.0115, -0.1071, -0.2236,  ...,  0.0860,  0.1386,  0.0063],
+        ...,
+        [-0.1007,  0.0193,  0.1096,  ...,  0.1217,  0.1406,  0.0734],
+        [ 0.0280,  0.0210, -0.0052,  ..., -0.6541, -0.8266, -0.4252],
+        [-0.1237, -0.0900, -0.1109,  ..., -0.0034,  0.2090,  0.2245]],
+       device='cuda:0'), grad: tensor([[ 5.8508e-04,  6.0380e-05,  8.1122e-05,  ...,  9.2030e-05,
+          1.1188e-04,  9.8765e-05],
+        [ 6.9849e-10,  0.0000e+00,  0.0000e+00,  ...,  1.1642e-10,
+          1.1642e-10,  1.1642e-10],
+        [ 1.0477e-09,  0.0000e+00,  1.1642e-10,  ...,  1.1642e-10,
+          1.1642e-10,  1.1642e-10],
+        ...,
+        [-5.8508e-04, -6.0380e-05, -8.1122e-05,  ..., -9.2030e-05,
+         -1.1188e-04, -9.8765e-05],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 1.1642e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 58, bias, value: tensor([ 0.0861,  0.1934,  0.1672,  0.1621,  0.1814, -0.8975, -0.5961],
+       device='cuda:0'), grad: tensor([ 1.3752e-03,  1.5134e-09,  2.2119e-09,  0.0000e+00, -1.3752e-03,
+         0.0000e+00,  2.3283e-10], device='cuda:0')
+588
+0.0008271337313934874
+changing lr
+epoch 57, time 793.63, cls_loss 0.3182 cls_loss_mapping 1.9770 cls_loss_causal 0.9363 re_mapping 0.0179 re_causal 0.0162 /// teacc 94.22 lr 0.00070776
+Epoch 59, weight, value: tensor([[ 0.0888,  0.0869,  0.1046,  ..., -0.0862, -0.0070, -0.0598],
+        [ 0.0009, -0.0291, -0.0251,  ..., -0.0691, -0.1569, -0.0566],
+        [ 0.0186, -0.1012, -0.2123,  ...,  0.1033,  0.1411,  0.0275],
+        ...,
+        [-0.1039,  0.0033,  0.0946,  ...,  0.0985,  0.1191,  0.0543],
+        [ 0.0455,  0.0372,  0.0154,  ..., -0.6556, -0.8375, -0.4216],
+        [-0.1209, -0.0725, -0.0921,  ...,  0.0013,  0.2220,  0.2357]],
+       device='cuda:0'), grad: tensor([[ 1.0811e-02,  2.8998e-05,  1.1642e-10,  ...,  3.8071e-03,
+          3.9043e-03,  6.3400e-03],
+        [-6.7282e-04, -1.2779e-04,  1.1642e-10,  ...,  2.0191e-06,
+         -1.4477e-03, -1.7529e-03],
+        [ 2.9755e-04,  3.4481e-05,  6.9849e-10,  ...,  4.0889e-05,
+          4.2963e-04,  5.3787e-04],
+        ...,
+        [-1.0628e-02,  2.7165e-05,  1.1642e-10,  ..., -3.8490e-03,
+         -3.3054e-03, -5.6343e-03],
+        [ 2.8417e-05,  5.3495e-06,  0.0000e+00,  ...,  8.6147e-09,
+          6.0678e-05,  7.3493e-05],
+        [ 5.5879e-05,  1.0297e-05,  0.0000e+00,  ...,  4.3353e-07,
+          1.1718e-04,  1.4210e-04]], device='cuda:0')
+Epoch 59, bias, value: tensor([ 0.0663,  0.2097,  0.1770,  0.1631,  0.1550, -0.8730, -0.5753],
+       device='cuda:0'), grad: tensor([ 0.1864, -0.1350,  0.0381,  0.0228, -0.1288,  0.0057,  0.0109],
+       device='cuda:0')
+588
+0.00070775603199067
+changing lr
+epoch 58, time 791.25, cls_loss 0.2901 cls_loss_mapping 1.9804 cls_loss_causal 0.9192 re_mapping 0.0170 re_causal 0.0153 /// teacc 94.97 lr 0.00059702
+Epoch 60, weight, value: tensor([[ 9.1027e-02,  8.0252e-02,  1.0966e-01,  ..., -7.8625e-02,
+          3.5921e-03, -5.6498e-02],
+        [-1.4066e-03, -1.2845e-02, -1.5504e-02,  ..., -6.0565e-02,
+         -1.5019e-01, -4.6106e-02],
+        [ 1.6564e-02, -1.1053e-01, -2.2458e-01,  ...,  9.8393e-02,
+          1.4435e-01,  2.9368e-02],
+        ...,
+        [-1.0433e-01, -7.6022e-04,  8.2667e-02,  ...,  9.0935e-02,
+          1.0773e-01,  4.9190e-02],
+        [ 3.7246e-02,  2.3048e-02, -2.6357e-04,  ..., -6.7142e-01,
+         -8.5446e-01, -4.3935e-01],
+        [-1.1422e-01, -6.6161e-02, -8.7990e-02,  ..., -1.8907e-04,
+          2.1051e-01,  2.2841e-01]], device='cuda:0'), grad: tensor([[-1.5676e-04,  5.4955e-05, -1.0324e-04,  ...,  5.1320e-05,
+          2.7180e-04,  3.9124e-04],
+        [-9.4891e-04, -6.8188e-04, -3.0577e-05,  ...,  3.3025e-06,
+         -9.8801e-04, -1.9236e-03],
+        [ 4.5896e-04,  2.1553e-04,  4.5747e-05,  ...,  2.2784e-05,
+          2.6202e-04,  5.4216e-04],
+        ...,
+        [ 3.3188e-04,  2.0230e-04,  7.3135e-05,  ..., -7.9691e-05,
+          1.5903e-04,  4.1056e-04],
+        [ 2.3142e-05,  1.6019e-05,  9.1642e-07,  ...,  4.1618e-08,
+          2.2918e-05,  4.4793e-05],
+        [ 9.5248e-05,  5.5879e-05,  6.5751e-06,  ...,  2.1756e-06,
+          7.5221e-05,  1.5008e-04]], device='cuda:0')
+Epoch 60, bias, value: tensor([ 0.0636,  0.2131,  0.1707,  0.1703,  0.1683, -0.8938, -0.5851],
+       device='cuda:0'), grad: tensor([ 0.0217, -0.1340,  0.0378,  0.0268,  0.0341,  0.0031,  0.0105],
+       device='cuda:0')
+588
+0.0005970223407163104
+changing lr
+---------------------saving model at epoch 59----------------------------------------------------
+epoch 59, time 792.35, cls_loss 0.3278 cls_loss_mapping 1.9809 cls_loss_causal 0.9372 re_mapping 0.0166 re_causal 0.0147 /// teacc 96.73 lr 0.00049516
+Epoch 61, weight, value: tensor([[ 8.5440e-02,  9.8089e-02,  1.2226e-01,  ..., -7.7280e-02,
+          1.0226e-02, -4.9343e-02],
+        [ 5.9321e-04, -1.5743e-02, -2.9336e-02,  ..., -7.3289e-02,
+         -1.6599e-01, -5.3425e-02],
+        [ 1.6552e-02, -1.1387e-01, -2.2323e-01,  ...,  9.5401e-02,
+          1.4125e-01,  2.3359e-02],
+        ...,
+        [-1.0525e-01, -1.8519e-03,  8.4089e-02,  ...,  9.0946e-02,
+          1.1003e-01,  4.7462e-02],
+        [ 4.9495e-02,  3.3376e-02,  1.0728e-02,  ..., -6.6826e-01,
+         -8.4971e-01, -4.3507e-01],
+        [-1.1555e-01, -8.8010e-02, -1.0304e-01,  ...,  3.3772e-03,
+          2.1152e-01,  2.2746e-01]], device='cuda:0'), grad: tensor([[ 1.8173e-02,  1.9369e-03,  1.6441e-03,  ...,  3.3092e-03,
+          2.0313e-03,  2.5291e-03],
+        [ 3.9315e-04,  7.5698e-05, -1.3113e-05,  ..., -9.0361e-04,
+         -5.3501e-04, -8.6689e-04],
+        [ 6.2561e-04,  5.8770e-05,  6.7949e-05,  ...,  3.4142e-04,
+          2.0504e-04,  3.0208e-04],
+        ...,
+        [-1.9699e-02, -2.1191e-03, -1.7538e-03,  ..., -3.0384e-03,
+         -1.8749e-03, -2.2240e-03],
+        [ 3.4273e-05,  2.9095e-06,  4.1723e-06,  ...,  2.7701e-05,
+          1.6570e-05,  2.5049e-05],
+        [ 2.8467e-04,  2.8133e-05,  2.8908e-05,  ...,  1.1533e-04,
+          6.9499e-05,  9.9659e-05]], device='cuda:0')
+Epoch 61, bias, value: tensor([ 0.0783,  0.2048,  0.1796,  0.1541,  0.1735, -0.8931, -0.6030],
+       device='cuda:0'), grad: tensor([ 0.1573, -0.1240,  0.0352,  0.0166, -0.0989,  0.0031,  0.0108],
+       device='cuda:0')
+588
+0.0004951556604879052
+changing lr
+epoch 60, time 791.05, cls_loss 0.3158 cls_loss_mapping 1.9791 cls_loss_causal 0.9121 re_mapping 0.0157 re_causal 0.0140 /// teacc 94.72 lr 0.00040236
+Epoch 62, weight, value: tensor([[ 0.0857,  0.0924,  0.1144,  ..., -0.0729,  0.0183, -0.0492],
+        [-0.0042, -0.0068, -0.0229,  ..., -0.0765, -0.1683, -0.0542],
+        [ 0.0245, -0.0980, -0.2087,  ...,  0.1062,  0.1521,  0.0308],
+        ...,
+        [-0.1061, -0.0096,  0.0811,  ...,  0.0871,  0.1008,  0.0451],
+        [ 0.0382,  0.0153, -0.0056,  ..., -0.6643, -0.8481, -0.4378],
+        [-0.1126, -0.1011, -0.1112,  ..., -0.0118,  0.1943,  0.2124]],
+       device='cuda:0'), grad: tensor([[-1.1024e-02, -4.4060e-04, -3.2377e-04,  ..., -1.8454e-03,
+         -7.7057e-04, -6.5470e-04],
+        [ 6.2370e-03,  5.1594e-04,  3.2806e-04,  ...,  9.4843e-04,
+          1.0052e-03,  1.1072e-03],
+        [ 2.1667e-03,  3.2043e-04,  1.9121e-04,  ...,  2.7537e-04,
+          6.4468e-04,  7.6580e-04],
+        ...,
+        [ 2.1629e-03, -5.9748e-04, -3.0828e-04,  ...,  6.0987e-04,
+         -1.3008e-03, -1.7509e-03],
+        [ 3.3498e-05,  1.6540e-05,  9.2387e-06,  ...,  1.6764e-07,
+          3.4720e-05,  4.3929e-05],
+        [ 1.4818e-04,  4.6730e-05,  2.6509e-05,  ...,  1.0215e-05,
+          9.7275e-05,  1.2141e-04]], device='cuda:0')
+Epoch 62, bias, value: tensor([ 0.0728,  0.2098,  0.1846,  0.1634,  0.1688, -0.8905, -0.6168],
+       device='cuda:0'), grad: tensor([-0.0482,  0.0734,  0.0497,  0.0231, -0.1085,  0.0028,  0.0077],
+       device='cuda:0')
+588
+0.00040236113724274745
+changing lr
+epoch 61, time 787.53, cls_loss 0.3060 cls_loss_mapping 1.9756 cls_loss_causal 0.9226 re_mapping 0.0150 re_causal 0.0132 /// teacc 95.98 lr 0.00031883
+Epoch 63, weight, value: tensor([[ 0.0928,  0.0778,  0.1075,  ..., -0.0762,  0.0147, -0.0527],
+        [-0.0077, -0.0070, -0.0268,  ..., -0.0797, -0.1680, -0.0487],
+        [ 0.0146, -0.1010, -0.2117,  ...,  0.1067,  0.1558,  0.0293],
+        ...,
+        [-0.1087,  0.0071,  0.0897,  ...,  0.0919,  0.0955,  0.0425],
+        [ 0.0441,  0.0034, -0.0133,  ..., -0.6673, -0.8508, -0.4418],
+        [-0.1197, -0.1039, -0.1095,  ..., -0.0056,  0.1977,  0.2147]],
+       device='cuda:0'), grad: tensor([[ 2.9874e-04,  1.3243e-06,  3.0585e-06,  ...,  1.0304e-05,
+          4.1962e-04,  4.2820e-04],
+        [ 2.6894e-04,  1.1176e-08,  2.6776e-08,  ...,  2.7642e-06,
+          4.0984e-04,  4.1819e-04],
+        [-1.1330e-03,  8.9407e-07,  2.1253e-06,  ..., -6.2659e-06,
+         -1.7529e-03, -1.7881e-03],
+        ...,
+        [ 2.0456e-04, -2.2389e-06, -5.2303e-06,  ..., -1.0468e-05,
+          3.7336e-04,  3.8123e-04],
+        [ 3.2306e-05,  0.0000e+00,  0.0000e+00,  ...,  3.2457e-07,
+          4.9293e-05,  5.0306e-05],
+        [ 7.0691e-05,  1.1642e-09,  2.0955e-09,  ...,  7.1479e-07,
+          1.0782e-04,  1.1003e-04]], device='cuda:0')
+Epoch 63, bias, value: tensor([ 0.0705,  0.2137,  0.1821,  0.1657,  0.1671, -0.8872, -0.6179],
+       device='cuda:0'), grad: tensor([ 0.0317,  0.0315, -0.1349,  0.0301,  0.0295,  0.0038,  0.0083],
+       device='cuda:0')
+588
+0.00031882564680131423
+changing lr
+epoch 62, time 783.02, cls_loss 0.3126 cls_loss_mapping 1.9805 cls_loss_causal 0.9083 re_mapping 0.0139 re_causal 0.0121 /// teacc 94.47 lr 0.00024472
+Epoch 64, weight, value: tensor([[ 9.4025e-02,  7.5913e-02,  1.0598e-01,  ..., -7.7749e-02,
+          1.3209e-02, -4.9579e-02],
+        [-2.3682e-03, -1.4028e-02, -3.3347e-02,  ..., -7.4437e-02,
+         -1.6476e-01, -4.5317e-02],
+        [ 1.1081e-02, -9.7927e-02, -2.0655e-01,  ...,  1.0106e-01,
+          1.4903e-01,  2.4322e-02],
+        ...,
+        [-1.0632e-01,  8.5577e-03,  9.1031e-02,  ...,  9.7435e-02,
+          1.0349e-01,  4.5756e-02],
+        [ 4.3566e-02, -8.3931e-04, -1.6542e-02,  ..., -6.6553e-01,
+         -8.4983e-01, -4.4415e-01],
+        [-1.2004e-01, -1.0169e-01, -1.0813e-01,  ..., -1.3541e-02,
+          1.9016e-01,  2.0893e-01]], device='cuda:0'), grad: tensor([[-1.8127e-02, -6.4373e-04, -2.5439e-04,  ..., -2.0351e-03,
+         -1.2655e-03, -2.8305e-03],
+        [ 1.5135e-03,  4.8733e-04,  1.4710e-04,  ...,  1.3208e-04,
+          3.8218e-04,  5.6648e-04],
+        [ 9.4414e-04,  4.8018e-04,  1.4353e-04,  ...,  6.8009e-05,
+          3.5191e-04,  4.8876e-04],
+        ...,
+        [ 1.7059e-02,  1.7729e-03,  5.7697e-04,  ...,  1.8110e-03,
+          1.9331e-03,  3.5496e-03],
+        [ 5.3525e-05,  3.9935e-05,  1.1787e-05,  ...,  2.6841e-06,
+          2.7969e-05,  3.7313e-05],
+        [ 2.5749e-04,  1.0943e-04,  3.2723e-05,  ...,  2.0131e-05,
+          8.1897e-05,  1.1659e-04]], device='cuda:0')
+Epoch 64, bias, value: tensor([ 0.0722,  0.2086,  0.1834,  0.1726,  0.1670, -0.8905, -0.6231],
+       device='cuda:0'), grad: tensor([-0.0863,  0.0341,  0.0322, -0.1433,  0.1533,  0.0026,  0.0074],
+       device='cuda:0')
+588
+0.0002447174185242325
+changing lr
+epoch 63, time 791.10, cls_loss 0.2896 cls_loss_mapping 1.9798 cls_loss_causal 0.9002 re_mapping 0.0130 re_causal 0.0113 /// teacc 96.73 lr 0.00018019
+Epoch 65, weight, value: tensor([[ 0.0897,  0.0794,  0.1075,  ..., -0.0752,  0.0138, -0.0476],
+        [-0.0028, -0.0199, -0.0362,  ..., -0.0751, -0.1664, -0.0470],
+        [ 0.0160, -0.0956, -0.2014,  ...,  0.1081,  0.1495,  0.0265],
+        ...,
+        [-0.1055,  0.0042,  0.0905,  ...,  0.0933,  0.1036,  0.0431],
+        [ 0.0456, -0.0022, -0.0198,  ..., -0.6700, -0.8502, -0.4428],
+        [-0.1198, -0.0995, -0.1094,  ..., -0.0149,  0.1900,  0.2070]],
+       device='cuda:0'), grad: tensor([[ 3.8719e-04,  6.5088e-04,  3.5584e-05,  ...,  1.7494e-05,
+          9.7096e-05,  4.5800e-04],
+        [ 1.9753e-04,  6.5279e-04,  2.5883e-05,  ..., -3.0156e-06,
+          8.0347e-05,  4.3654e-04],
+        [-5.5885e-03,  3.3259e-04, -2.6321e-04,  ..., -3.3379e-04,
+         -3.0375e-04, -3.0208e-04],
+        ...,
+        [ 5.8899e-03,  9.5892e-04,  3.1066e-04,  ...,  3.3188e-04,
+          4.6277e-04,  1.1625e-03],
+        [ 2.3320e-05,  6.8247e-05,  2.8629e-06,  ...,  3.3434e-07,
+          8.8438e-06,  4.6134e-05],
+        [ 6.8665e-05,  1.9968e-04,  8.4043e-06,  ...,  1.0394e-06,
+          2.5943e-05,  1.3518e-04]], device='cuda:0')
+Epoch 65, bias, value: tensor([ 0.0750,  0.2072,  0.1763,  0.1767,  0.1697, -0.8926, -0.6247],
+       device='cuda:0'), grad: tensor([ 0.0307,  0.0306,  0.0069, -0.1343,  0.0534,  0.0032,  0.0094],
+       device='cuda:0')
+588
+0.0001801856965207339
+changing lr
+epoch 64, time 790.68, cls_loss 0.3230 cls_loss_mapping 1.9763 cls_loss_causal 0.9211 re_mapping 0.0121 re_causal 0.0105 /// teacc 96.23 lr 0.00012536
+Epoch 66, weight, value: tensor([[ 0.0896,  0.0815,  0.1091,  ..., -0.0733,  0.0158, -0.0460],
+        [-0.0033, -0.0255, -0.0421,  ..., -0.0750, -0.1651, -0.0474],
+        [ 0.0194, -0.0961, -0.1969,  ...,  0.1095,  0.1503,  0.0283],
+        ...,
+        [-0.1068,  0.0056,  0.0886,  ...,  0.0900,  0.1001,  0.0383],
+        [ 0.0486, -0.0059, -0.0212,  ..., -0.6668, -0.8473, -0.4375],
+        [-0.1204, -0.0982, -0.1078,  ..., -0.0144,  0.1904,  0.2093]],
+       device='cuda:0'), grad: tensor([[ 3.3188e-04,  7.6234e-05,  7.5996e-05,  ...,  1.4627e-04,
+          4.2081e-05,  3.3665e-04],
+        [-1.5087e-03, -3.2306e-04, -3.2306e-04,  ..., -6.4230e-04,
+         -2.0349e-04, -1.4515e-03],
+        [ 3.7408e-04,  7.9930e-05,  7.9930e-05,  ...,  1.5903e-04,
+          5.0604e-05,  3.5906e-04],
+        ...,
+        [ 3.6812e-04,  7.3791e-05,  7.4029e-05,  ...,  1.5211e-04,
+          5.2303e-05,  3.3760e-04],
+        [ 5.4836e-05,  1.1742e-05,  1.1742e-05,  ...,  2.3350e-05,
+          7.4022e-06,  5.2780e-05],
+        [ 9.3997e-05,  2.0131e-05,  2.0131e-05,  ...,  4.0054e-05,
+          1.2688e-05,  9.0480e-05]], device='cuda:0')
+Epoch 66, bias, value: tensor([ 0.0744,  0.2027,  0.1767,  0.1782,  0.1681, -0.8861, -0.6207],
+       device='cuda:0'), grad: tensor([ 0.0316, -0.1344,  0.0332,  0.0255,  0.0308,  0.0049,  0.0084],
+       device='cuda:0')
+588
+0.000125360439090882
+changing lr
+epoch 65, time 792.38, cls_loss 0.3172 cls_loss_mapping 1.9716 cls_loss_causal 0.9230 re_mapping 0.0114 re_causal 0.0098 /// teacc 95.98 lr 0.00008035
+Epoch 67, weight, value: tensor([[ 0.0879,  0.0803,  0.1082,  ..., -0.0725,  0.0165, -0.0452],
+        [-0.0021, -0.0270, -0.0425,  ..., -0.0759, -0.1655, -0.0470],
+        [ 0.0177, -0.0954, -0.1975,  ...,  0.1083,  0.1491,  0.0283],
+        ...,
+        [-0.1052,  0.0073,  0.0912,  ...,  0.0872,  0.0981,  0.0358],
+        [ 0.0486, -0.0031, -0.0203,  ..., -0.6690, -0.8496, -0.4403],
+        [-0.1216, -0.0972, -0.1065,  ..., -0.0113,  0.1937,  0.2112]],
+       device='cuda:0'), grad: tensor([[ 6.2631e-07,  1.6764e-08,  5.8208e-10,  ...,  7.2177e-09,
+          9.7789e-09,  5.5647e-08],
+        [ 6.9849e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  1.1642e-10],
+        [ 3.7509e-07, -8.7311e-09, -2.4564e-08,  ..., -1.3621e-08,
+         -2.2119e-09,  4.3423e-08],
+        ...,
+        [-1.0012e-06, -7.9162e-09,  2.4098e-08,  ...,  6.5193e-09,
+         -7.4506e-09, -9.9069e-08],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 2.3283e-10,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 67, bias, value: tensor([ 0.0739,  0.2011,  0.1782,  0.1772,  0.1696, -0.8900, -0.6189],
+       device='cuda:0'), grad: tensor([ 2.7716e-06,  3.3760e-09,  1.3104e-06,  9.3132e-10, -4.0829e-06,
+         0.0000e+00,  1.0477e-09], device='cuda:0')
+588
+8.03520570068517e-05
+changing lr
+epoch 66, time 792.09, cls_loss 0.3132 cls_loss_mapping 1.9714 cls_loss_causal 0.9056 re_mapping 0.0109 re_causal 0.0092 /// teacc 95.73 lr 0.00004525
+Epoch 68, weight, value: tensor([[ 0.0903,  0.0820,  0.1100,  ..., -0.0714,  0.0175, -0.0440],
+        [-0.0027, -0.0259, -0.0430,  ..., -0.0751, -0.1636, -0.0455],
+        [ 0.0169, -0.0956, -0.1967,  ...,  0.1085,  0.1495,  0.0269],
+        ...,
+        [-0.1063,  0.0068,  0.0903,  ...,  0.0852,  0.0970,  0.0348],
+        [ 0.0504, -0.0033, -0.0198,  ..., -0.6671, -0.8467, -0.4384],
+        [-0.1218, -0.0956, -0.1050,  ..., -0.0105,  0.1951,  0.2123]],
+       device='cuda:0'), grad: tensor([[ 6.4969e-05,  1.0461e-05,  1.0937e-05,  ...,  3.2902e-05,
+          2.4676e-05,  4.6372e-05],
+        [-2.8104e-05,  1.4314e-06,  1.6550e-06,  ..., -5.5879e-06,
+         -7.2382e-06, -2.6189e-06],
+        [ 7.3016e-05,  3.6597e-05,  3.8296e-05,  ...,  7.2181e-05,
+          4.5568e-05,  1.2672e-04],
+        ...,
+        [-1.3077e-04, -5.0217e-05, -5.2750e-05,  ..., -1.0782e-04,
+         -6.9261e-05, -1.8013e-04],
+        [ 1.4659e-06,  3.4645e-07,  3.6298e-07,  ...,  8.9966e-07,
+          6.3097e-07,  1.3746e-06],
+        [ 4.8913e-06,  7.1246e-07,  7.5856e-07,  ...,  2.3860e-06,
+          1.7183e-06,  3.2131e-06]], device='cuda:0')
+Epoch 68, bias, value: tensor([ 0.0743,  0.2025,  0.1760,  0.1748,  0.1704, -0.8874, -0.6184],
+       device='cuda:0'), grad: tensor([ 1.5821e-03,  3.6407e-04,  2.5311e-03,  6.9046e-04, -5.4092e-03,
+         4.3780e-05,  2.0087e-04], device='cuda:0')
+588
+4.5251191160326525e-05
+changing lr
+epoch 67, time 792.08, cls_loss 0.3078 cls_loss_mapping 1.9745 cls_loss_causal 0.8983 re_mapping 0.0105 re_causal 0.0088 /// teacc 96.73 lr 0.00002013
+Epoch 69, weight, value: tensor([[ 0.0900,  0.0832,  0.1111,  ..., -0.0700,  0.0194, -0.0424],
+        [-0.0029, -0.0280, -0.0443,  ..., -0.0757, -0.1646, -0.0467],
+        [ 0.0167, -0.0953, -0.1967,  ...,  0.1070,  0.1488,  0.0259],
+        ...,
+        [-0.1058,  0.0064,  0.0900,  ...,  0.0859,  0.0970,  0.0354],
+        [ 0.0498, -0.0023, -0.0195,  ..., -0.6663, -0.8453, -0.4373],
+        [-0.1214, -0.0954, -0.1051,  ..., -0.0114,  0.1945,  0.2114]],
+       device='cuda:0'), grad: tensor([[ 4.9019e-04, -1.2049e-08,  7.5698e-06,  ...,  4.6992e-04,
+          3.4881e-04,  5.8270e-04],
+        [-2.1420e-03,  1.0425e-07, -3.2783e-05,  ..., -2.0409e-03,
+         -1.5144e-03, -2.5311e-03],
+        [ 5.1308e-04, -3.5646e-07,  7.5921e-06,  ...,  4.9019e-04,
+          3.6383e-04,  6.0749e-04],
+        ...,
+        [ 4.8018e-04,  2.6287e-07,  7.5325e-06,  ...,  4.5419e-04,
+          3.3689e-04,  5.6314e-04],
+        [ 5.7459e-05,  0.0000e+00,  8.8010e-07,  ...,  5.4657e-05,
+          4.0561e-05,  6.7770e-05],
+        [ 2.0742e-04,  9.8953e-10,  3.1758e-06,  ...,  1.9717e-04,
+          1.4627e-04,  2.4438e-04]], device='cuda:0')
+Epoch 69, bias, value: tensor([ 0.0754,  0.2015,  0.1754,  0.1740,  0.1711, -0.8861, -0.6191],
+       device='cuda:0'), grad: tensor([ 0.0315, -0.1367,  0.0328,  0.0252,  0.0304,  0.0037,  0.0132],
+       device='cuda:0')
+588
+2.0128530023804673e-05
+changing lr
+epoch 68, time 787.10, cls_loss 0.3233 cls_loss_mapping 1.9749 cls_loss_causal 0.9070 re_mapping 0.0102 re_causal 0.0086 /// teacc 95.48 lr 0.00000503
+Epoch 70, weight, value: tensor([[ 0.0898,  0.0830,  0.1111,  ..., -0.0705,  0.0195, -0.0426],
+        [-0.0026, -0.0271, -0.0435,  ..., -0.0750, -0.1640, -0.0459],
+        [ 0.0172, -0.0963, -0.1971,  ...,  0.1068,  0.1485,  0.0255],
+        ...,
+        [-0.1057,  0.0069,  0.0900,  ...,  0.0860,  0.0970,  0.0355],
+        [ 0.0496, -0.0023, -0.0197,  ..., -0.6663, -0.8452, -0.4372],
+        [-0.1219, -0.0956, -0.1055,  ..., -0.0122,  0.1939,  0.2107]],
+       device='cuda:0'), grad: tensor([[-1.0443e-03, -3.0518e-05, -3.2634e-05,  ..., -1.6773e-04,
+         -1.6141e-04, -2.8014e-04],
+        [ 8.9312e-04,  2.6107e-05,  2.7910e-05,  ...,  1.4341e-04,
+          1.3804e-04,  2.3973e-04],
+        [ 9.2536e-06,  2.7055e-07,  2.8918e-07,  ...,  1.4864e-06,
+          1.4296e-06,  2.4829e-06],
+        ...,
+        [ 1.4174e-04,  4.1462e-06,  4.4294e-06,  ...,  2.2769e-05,
+          2.1920e-05,  3.8058e-05],
+        [ 3.7253e-09,  1.1642e-10,  1.1642e-10,  ...,  5.8208e-10,
+          5.8208e-10,  9.8953e-10],
+        [ 2.3330e-07,  6.8103e-09,  7.2760e-09,  ...,  3.7486e-08,
+          3.6031e-08,  6.2631e-08]], device='cuda:0')
+Epoch 70, bias, value: tensor([ 0.0752,  0.2024,  0.1749,  0.1738,  0.1712, -0.8861, -0.6196],
+       device='cuda:0'), grad: tensor([-4.4060e-03,  3.7689e-03,  3.9071e-05,  7.1304e-08,  5.9843e-04,
+         1.5774e-08,  9.8441e-07], device='cuda:0')
+588
+5.034667293427056e-06
+changing lr
+epoch 69, time 794.32, cls_loss 0.3137 cls_loss_mapping 1.9734 cls_loss_causal 0.9050 re_mapping 0.0102 re_causal 0.0085 /// teacc 95.48 lr 0.00000000
+---------------------saving last model at epoch 69----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_Adam', 'source_domain': 'sketch', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_Adam/sketch_16factor_best_test_check.csv', 'factor_num': 16, 'epoch': 'best', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of best
+randm: False
+stride: 5
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+columns: ['sketch', 'art_painting', 'cartoon', 'photo']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+                        sketch  art_painting    cartoon      photo       Avg
+w/o do (original x)  99.770934     50.585938  60.452218  53.652695  54.89695
+       sketch  art_painting    cartoon      photo        Avg
+do  19.979639     18.603516  16.638225  11.556886  15.599542
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_Adam', 'source_domain': 'sketch', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_Adam/sketch_16factor_last_test_check.csv', 'factor_num': 16, 'epoch': 'last', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of last
+randm: False
+stride: 5
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+columns: ['sketch', 'art_painting', 'cartoon', 'photo']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+                        sketch  art_painting    cartoon      photo        Avg
+w/o do (original x)  99.541868     46.777344  64.846416  47.005988  52.876583
+       sketch  art_painting    cartoon      photo        Avg
+do  24.840926     20.751953  21.587031  27.125749  23.154911
diff --git a/Meta-causal/code-withStyleAttack/73090.error b/Meta-causal/code-withStyleAttack/73090.error
new file mode 100644
index 0000000000000000000000000000000000000000..9c6218c0a16de0906055735a2be983a2e8bb5681
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73090.error
@@ -0,0 +1,19 @@
+Solving dependencies
+Downloading: "https://download.pytorch.org/models/resnet18-5c106cde.pth" to /home/yuqian_fu/.cache/torch/hub/checkpoints/resnet18-5c106cde.pth
+  0%|          | 0.00/44.7M [00:00<?, ?B/s] 74%|███████▍  | 33.2M/44.7M [00:00<00:00, 348MB/s]100%|██████████| 44.7M/44.7M [00:00<00:00, 385MB/s]
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py:225: FutureWarning: `torch.cuda.amp.GradScaler(args...)` is deprecated. Please use `torch.amp.GradScaler('cuda', args...)` instead.
+  scaler = GradScaler()
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py:247: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with autocast():
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:44: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'best_cls_net.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:58: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'best_mapping_'+str(i)+'.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:68: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'best_E_to_W.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:47: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'last_cls_net.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:61: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'last_mapping_'+str(i)+'.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:71: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'last_E_to_W.pkl'))
diff --git a/Meta-causal/code-withStyleAttack/73090.log b/Meta-causal/code-withStyleAttack/73090.log
new file mode 100644
index 0000000000000000000000000000000000000000..30458e96f86eae85b61f8df3e51396aeb52607a5
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73090.log
@@ -0,0 +1,1967 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'sketch', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 5, 'factor_num': 16, 'epochs': 70, 'nbatch': 100, 'batchsize': 6, 'lr': 0.01, 'lr_scheduler': 'cosine', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_Adam', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 5
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_train.hdf5 torch.Size([3531, 3, 227, 227]) torch.Size([3531])
+--------------------------CA_multiple--------------------------
+---------------------------16 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_val.hdf5 torch.Size([398, 3, 227, 227]) torch.Size([398])
+-------------------------------------loading pretrain weights----------------------------------
+Epoch 1, weight, value: tensor([[-2.1625e-02,  3.8125e-03,  1.1124e-02,  ..., -1.0825e-02,
+          1.9601e-02,  8.8313e-03],
+        [ 1.9789e-02, -3.0169e-05,  1.3654e-02,  ...,  2.1715e-02,
+          1.7796e-02, -7.6951e-03],
+        [-1.8144e-02, -9.1082e-05, -1.1914e-02,  ...,  1.1847e-02,
+         -1.8191e-02,  2.0586e-02],
+        ...,
+        [ 6.6451e-03,  1.0948e-02,  1.5021e-02,  ...,  6.8346e-03,
+         -2.4872e-03, -1.5828e-02],
+        [-7.1159e-03,  1.1170e-02, -1.1075e-03,  ..., -7.8657e-03,
+         -1.9807e-02,  1.1467e-02],
+        [ 1.6795e-02, -5.1336e-03,  3.4164e-03,  ..., -6.4271e-03,
+          1.9887e-02,  5.3888e-03]], device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([-0.0097,  0.0213,  0.0203, -0.0157, -0.0132,  0.0182,  0.0052],
+       device='cuda:0'), grad: None
+588
+0.01
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 773.61, cls_loss 3.3504 cls_loss_mapping 108.7251 cls_loss_causal 104.2675 re_mapping 3972.4697 re_causal 3619.6457 /// teacc 39.20 lr 0.00999497
+Epoch 2, weight, value: tensor([[-0.0132,  0.0313,  0.0215,  ..., -0.0481,  0.0039,  0.0210],
+        [ 0.0789,  0.0537,  0.0883,  ..., -0.0603, -0.0152, -0.0918],
+        [-0.0391, -0.0449, -0.0492,  ...,  0.0387,  0.0014,  0.0477],
+        ...,
+        [-0.0263,  0.0134, -0.0030,  ...,  0.1181,  0.0578,  0.0649],
+        [-0.0071,  0.0141,  0.0291,  ...,  0.0644, -0.0050,  0.0591],
+        [-0.0068, -0.0876, -0.0566,  ...,  0.0193,  0.0899,  0.0525]],
+       device='cuda:0'), grad: tensor([[ 5.3310e-04,  9.3174e-04,  9.6798e-04,  ...,  1.2646e-03,
+          1.3781e-03,  1.4372e-03],
+        [-2.9346e-01, -2.8564e-01, -2.2388e-01,  ..., -1.1395e-01,
+         -1.0114e-01, -1.2891e-01],
+        [-2.2266e-01, -2.6392e-01, -1.8787e-01,  ..., -2.2144e-01,
+         -1.8250e-01, -1.9751e-01],
+        ...,
+        [ 4.2505e-01,  4.7363e-01,  3.1348e-01,  ...,  2.1606e-01,
+          1.8262e-01,  2.4109e-01],
+        [ 1.1921e-07,  1.1921e-07,  1.1921e-07,  ...,  1.1921e-07,
+          1.1921e-07,  0.0000e+00],
+        [ 8.8501e-02,  7.2754e-02,  9.5215e-02,  ...,  1.1743e-01,
+          9.8083e-02,  8.2581e-02]], device='cuda:0')
+Epoch 2, bias, value: tensor([ 0.0223,  0.0231,  0.0420, -0.0229,  0.0008,  0.0070,  0.0291],
+       device='cuda:0'), grad: tensor([ 1.9684e-03, -1.6492e-01, -3.7402e-01,  3.3188e-03,  3.1372e-01,
+         3.5763e-07,  2.1997e-01], device='cuda:0')
+588
+0.009994965332706574
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 776.48, cls_loss 1.9819 cls_loss_mapping 1.8880 cls_loss_causal 1.8718 re_mapping 0.3956 re_causal 0.3962 /// teacc 42.46 lr 0.00997987
+Epoch 3, weight, value: tensor([[ 0.0593,  0.1004,  0.0530,  ..., -0.0635,  0.0160,  0.0207],
+        [ 0.0374,  0.0249,  0.0342,  ..., -0.0994, -0.0876, -0.1435],
+        [-0.0574, -0.0484, -0.0952,  ...,  0.0877,  0.0261,  0.0895],
+        ...,
+        [-0.0636, -0.0233, -0.0087,  ...,  0.1516,  0.0945,  0.0934],
+        [ 0.1172,  0.1527,  0.2031,  ..., -0.0598, -0.0918, -0.0575],
+        [ 0.0459, -0.0387, -0.0007,  ..., -0.0377,  0.0353,  0.0710]],
+       device='cuda:0'), grad: tensor([[ 0.0769,  0.0793,  0.0659,  ...,  0.0645,  0.0961,  0.0839],
+        [ 0.1895,  0.1743,  0.1729,  ...,  0.1511,  0.2064,  0.1777],
+        [-0.0474, -0.0086, -0.0533,  ..., -0.0305, -0.0316, -0.0397],
+        ...,
+        [-0.0519, -0.0531, -0.0438,  ..., -0.0465, -0.0799, -0.0896],
+        [ 0.0000,  0.0000,  0.0000,  ...,  0.0000,  0.0000,  0.0000],
+        [-0.1580, -0.1802, -0.1329,  ..., -0.1295, -0.1721, -0.1234]],
+       device='cuda:0')
+Epoch 3, bias, value: tensor([ 0.0199,  0.0368,  0.0411, -0.0216,  0.0039,  0.0158,  0.0025],
+       device='cuda:0'), grad: tensor([ 0.1300,  0.2598, -0.0700, -0.0282, -0.1246,  0.0000, -0.1666],
+       device='cuda:0')
+588
+0.009979871469976196
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 783.08, cls_loss 1.6311 cls_loss_mapping 1.9001 cls_loss_causal 1.8866 re_mapping 0.1811 re_causal 0.1817 /// teacc 74.12 lr 0.00995475
+Epoch 4, weight, value: tensor([[ 0.0810,  0.1354,  0.0957,  ..., -0.0868, -0.0020,  0.0092],
+        [ 0.0695,  0.0301,  0.0024,  ..., -0.0948, -0.0860, -0.1309],
+        [-0.0524, -0.0261, -0.0632,  ...,  0.0967,  0.0495,  0.0875],
+        ...,
+        [-0.1293, -0.0694, -0.0603,  ...,  0.1418,  0.0863,  0.0736],
+        [ 0.0997,  0.1681,  0.1994,  ..., -0.0690, -0.1369, -0.0843],
+        [ 0.0912, -0.0275,  0.0175,  ...,  0.0302,  0.0843,  0.1483]],
+       device='cuda:0'), grad: tensor([[-0.3416, -0.2129, -0.2285,  ..., -0.1545, -0.2494, -0.1221],
+        [-0.1306, -0.0725, -0.0826,  ..., -0.0482, -0.0988, -0.0434],
+        [ 0.3230,  0.1630,  0.2067,  ...,  0.1702,  0.2678,  0.1294],
+        ...,
+        [-0.0133,  0.0281, -0.0015,  ..., -0.0297, -0.0429, -0.0198],
+        [ 0.0000,  0.0000,  0.0000,  ...,  0.0000,  0.0000,  0.0000],
+        [ 0.1614,  0.0928,  0.1050,  ...,  0.0608,  0.1221,  0.0543]],
+       device='cuda:0')
+Epoch 4, bias, value: tensor([ 0.0125,  0.0339,  0.0475, -0.0223,  0.0101, -0.0338,  0.0382],
+       device='cuda:0'), grad: tensor([-0.5908, -0.1442,  0.5371,  0.0090, -0.0064,  0.0000,  0.1954],
+       device='cuda:0')
+588
+0.009954748808839675
+changing lr
+epoch 3, time 773.23, cls_loss 1.4060 cls_loss_mapping 1.9212 cls_loss_causal 1.9129 re_mapping 0.0942 re_causal 0.0942 /// teacc 68.59 lr 0.00991965
+Epoch 5, weight, value: tensor([[ 0.0386,  0.1219,  0.0618,  ..., -0.1467, -0.0487, -0.0505],
+        [ 0.1178,  0.0682,  0.0382,  ..., -0.0558, -0.0425, -0.0704],
+        [-0.0421, -0.0375, -0.0425,  ...,  0.0882,  0.0315,  0.0606],
+        ...,
+        [-0.1275, -0.0602, -0.0516,  ...,  0.1619,  0.0932,  0.0818],
+        [ 0.0949,  0.1826,  0.1896,  ..., -0.0860, -0.1442, -0.0840],
+        [ 0.0863, -0.0588, -0.0056,  ...,  0.0505,  0.0992,  0.1795]],
+       device='cuda:0'), grad: tensor([[-6.0150e-02, -4.2328e-02, -4.7546e-02,  ..., -4.7455e-02,
+         -5.4291e-02, -4.9042e-02],
+        [-2.0837e-01, -6.7139e-02, -1.0895e-01,  ..., -5.7739e-02,
+         -1.3171e-01, -4.4739e-02],
+        [ 1.3989e-01,  5.5389e-02,  7.4341e-02,  ...,  5.5908e-02,
+          1.0382e-01,  3.9642e-02],
+        ...,
+        [ 2.1533e-01,  8.1787e-02,  1.1981e-01,  ...,  9.3689e-02,
+          1.7065e-01,  7.9407e-02],
+        [ 4.7684e-07,  2.9802e-07,  4.1723e-07,  ...,  4.1723e-07,
+          4.7684e-07,  4.1723e-07],
+        [ 1.0185e-02,  6.5498e-03,  8.3313e-03,  ...,  8.2855e-03,
+          9.6130e-03,  8.4686e-03]], device='cuda:0')
+Epoch 5, bias, value: tensor([ 0.0182,  0.0513,  0.0540, -0.0479,  0.0052, -0.0370,  0.0322],
+       device='cuda:0'), grad: tensor([-3.2202e-01, -2.7783e-01,  3.2178e-01, -1.6663e-01,  4.0918e-01,
+         1.6689e-06,  3.5309e-02], device='cuda:0')
+588
+0.009919647942993149
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 779.95, cls_loss 1.1883 cls_loss_mapping 2.0787 cls_loss_causal 1.9718 re_mapping 0.0850 re_causal 0.0735 /// teacc 76.88 lr 0.00987464
+Epoch 6, weight, value: tensor([[ 0.0796,  0.1677,  0.1051,  ..., -0.1315, -0.0400, -0.0448],
+        [ 0.0855,  0.0563,  0.0067,  ..., -0.0386, -0.0431, -0.0538],
+        [-0.0663, -0.0690, -0.0654,  ...,  0.0584,  0.0116,  0.0331],
+        ...,
+        [-0.1641, -0.0860, -0.0904,  ...,  0.1562,  0.0895,  0.0801],
+        [ 0.0784,  0.1604,  0.1551,  ..., -0.0578, -0.1402, -0.0943],
+        [ 0.1283, -0.0439,  0.0311,  ...,  0.0601,  0.1170,  0.1919]],
+       device='cuda:0'), grad: tensor([[-0.0261, -0.0178, -0.0073,  ..., -0.0036, -0.0030,  0.0018],
+        [ 0.0274,  0.0125,  0.0129,  ...,  0.0109,  0.0171,  0.0081],
+        [-0.0185, -0.0021, -0.0065,  ...,  0.0102,  0.0068,  0.0131],
+        ...,
+        [-0.1470, -0.0288, -0.0632,  ..., -0.0471, -0.1146, -0.0367],
+        [ 0.1333,  0.0330,  0.0543,  ...,  0.0239,  0.0735,  0.0112],
+        [ 0.0081,  0.0018,  0.0032,  ...,  0.0015,  0.0047,  0.0007]],
+       device='cuda:0')
+Epoch 6, bias, value: tensor([ 0.0648,  0.0084,  0.0277, -0.0391,  0.0046,  0.0023,  0.0342],
+       device='cuda:0'), grad: tensor([ 0.0126,  0.0448, -0.0359,  0.0307, -0.2301,  0.1683,  0.0095],
+       device='cuda:0')
+588
+0.009874639560909117
+changing lr
+epoch 5, time 775.90, cls_loss 1.1017 cls_loss_mapping 1.8953 cls_loss_causal 1.8675 re_mapping 0.0688 re_causal 0.0692 /// teacc 76.88 lr 0.00981981
+Epoch 7, weight, value: tensor([[ 0.0589,  0.1220,  0.0762,  ..., -0.1393, -0.0529, -0.0569],
+        [ 0.0917,  0.0526,  0.0185,  ..., -0.0189, -0.0078, -0.0363],
+        [-0.0480, -0.0367, -0.0537,  ...,  0.0764,  0.0197,  0.0406],
+        ...,
+        [-0.1656, -0.0762, -0.0889,  ...,  0.1379,  0.0805,  0.0782],
+        [ 0.0929,  0.1797,  0.1491,  ..., -0.0796, -0.1898, -0.1495],
+        [ 0.1101, -0.0481,  0.0133,  ...,  0.1111,  0.1336,  0.2428]],
+       device='cuda:0'), grad: tensor([[-1.5030e-02, -3.4771e-03, -1.4009e-03,  ..., -9.2468e-03,
+         -1.1246e-02, -2.0733e-03],
+        [ 1.6003e-01,  6.0150e-02,  8.1970e-02,  ...,  1.8326e-02,
+          6.3904e-02,  5.6839e-03],
+        [-1.3904e-01, -5.6305e-02, -7.6477e-02,  ..., -7.1373e-03,
+         -4.6722e-02, -4.7231e-04],
+        ...,
+        [ 7.6151e-04,  3.7384e-04,  3.2640e-04,  ...,  2.6941e-04,
+          3.7861e-04,  8.8513e-05],
+        [ 2.5467e-02,  8.2245e-03,  1.3031e-02,  ...,  9.3307e-03,
+          1.7960e-02,  7.2632e-03],
+        [ 5.0259e-04,  2.5058e-04,  2.1827e-04,  ...,  1.9252e-04,
+          2.6464e-04,  7.3850e-05]], device='cuda:0')
+Epoch 7, bias, value: tensor([ 0.0806,  0.0148,  0.0295, -0.0408, -0.0070, -0.0007,  0.0165],
+       device='cuda:0'), grad: tensor([-0.1327,  0.2524, -0.1390, -0.0388,  0.0038,  0.0518,  0.0025],
+       device='cuda:0')
+588
+0.009819814303479266
+changing lr
+---------------------saving model at epoch 6----------------------------------------------------
+epoch 6, time 789.44, cls_loss 1.0187 cls_loss_mapping 1.8989 cls_loss_causal 1.8168 re_mapping 0.0665 re_causal 0.0674 /// teacc 83.92 lr 0.00975528
+Epoch 8, weight, value: tensor([[ 0.0516,  0.1425,  0.0998,  ..., -0.1300, -0.0456, -0.0478],
+        [ 0.0816,  0.0337,  0.0003,  ..., -0.0110, -0.0100, -0.0352],
+        [-0.0278, -0.0380, -0.0365,  ...,  0.0230, -0.0077, -0.0056],
+        ...,
+        [-0.1496, -0.0440, -0.0596,  ...,  0.1451,  0.0781,  0.0802],
+        [ 0.0421,  0.1481,  0.1043,  ..., -0.1002, -0.2150, -0.1621],
+        [ 0.1391, -0.0310,  0.0335,  ...,  0.1268,  0.1581,  0.2718]],
+       device='cuda:0'), grad: tensor([[-1.0895e-01, -9.6054e-03, -3.3569e-02,  ..., -9.9487e-03,
+         -5.2887e-02, -7.9803e-03],
+        [ 6.3057e-03,  2.7695e-03,  3.7041e-03,  ...,  1.1044e-03,
+          2.0523e-03,  1.1721e-03],
+        [ 2.7374e-02,  3.6831e-03,  8.7662e-03,  ...,  3.6888e-03,
+          1.2947e-02,  3.5648e-03],
+        ...,
+        [-2.3087e-02, -5.5275e-03, -7.9956e-03,  ..., -4.9934e-03,
+         -1.0231e-02, -4.8523e-03],
+        [ 3.4451e-04,  9.8407e-05,  1.2529e-04,  ...,  9.4712e-05,
+          1.4365e-04,  1.1837e-04],
+        [ 5.3711e-02,  4.3335e-03,  1.5717e-02,  ...,  4.6043e-03,
+          2.5940e-02,  2.9488e-03]], device='cuda:0')
+Epoch 8, bias, value: tensor([ 0.0872, -0.0266,  0.0304, -0.0234,  0.0192, -0.0251,  0.0161],
+       device='cuda:0'), grad: tensor([-0.1065,  0.0327,  0.0868,  0.0988, -0.1239,  0.0044,  0.0077],
+       device='cuda:0')
+588
+0.009755282581475767
+changing lr
+---------------------saving model at epoch 7----------------------------------------------------
+epoch 7, time 787.97, cls_loss 0.9566 cls_loss_mapping 1.9658 cls_loss_causal 1.8149 re_mapping 0.0647 re_causal 0.0643 /// teacc 87.69 lr 0.00968117
+Epoch 9, weight, value: tensor([[ 0.0535,  0.1597,  0.1119,  ..., -0.1276, -0.0477, -0.0531],
+        [ 0.1062,  0.0586,  0.0313,  ..., -0.0205, -0.0069, -0.0426],
+        [-0.0784, -0.0852, -0.0957,  ...,  0.0473, -0.0099,  0.0018],
+        ...,
+        [-0.1251, -0.0286, -0.0360,  ...,  0.1050,  0.0522,  0.0382],
+        [ 0.0543,  0.1469,  0.1037,  ..., -0.1459, -0.2379, -0.2019],
+        [ 0.1613, -0.0058,  0.0559,  ...,  0.1136,  0.1605,  0.2826]],
+       device='cuda:0'), grad: tensor([[-8.6212e-04,  1.9608e-03,  7.8630e-04,  ..., -1.1778e-03,
+         -1.9112e-03, -1.0195e-03],
+        [ 5.3406e-03,  4.7722e-03,  2.8152e-03,  ...,  1.0118e-03,
+          1.6098e-03,  1.2589e-03],
+        [-7.3242e-02, -2.3392e-02, -2.0264e-02,  ..., -8.0490e-03,
+         -2.5528e-02, -7.6790e-03],
+        ...,
+        [ 6.8398e-03,  3.8013e-03,  2.5616e-03,  ...,  2.2240e-03,
+          3.5324e-03,  2.3727e-03],
+        [ 7.3850e-05,  6.7353e-05,  3.9577e-05,  ...,  1.4156e-05,
+          2.2143e-05,  1.7673e-05],
+        [ 2.0008e-03,  1.2684e-03,  8.2541e-04,  ...,  4.3797e-04,
+          7.8011e-04,  4.8804e-04]], device='cuda:0')
+Epoch 9, bias, value: tensor([ 0.0649,  0.0130,  0.0372, -0.0388,  0.0285, -0.0092, -0.0275],
+       device='cuda:0'), grad: tensor([ 0.0225,  0.0550, -0.3081,  0.1715,  0.0436,  0.0008,  0.0148],
+       device='cuda:0')
+588
+0.009681174353198686
+changing lr
+epoch 8, time 782.38, cls_loss 0.9450 cls_loss_mapping 1.9352 cls_loss_causal 1.7119 re_mapping 0.0647 re_causal 0.0649 /// teacc 87.69 lr 0.00959764
+Epoch 10, weight, value: tensor([[ 0.0849,  0.2005,  0.1598,  ..., -0.1060, -0.0273, -0.0240],
+        [ 0.1101,  0.0994,  0.0765,  ..., -0.0313,  0.0049, -0.0352],
+        [-0.0783, -0.0963, -0.1307,  ...,  0.0651, -0.0131, -0.0049],
+        ...,
+        [-0.1487, -0.0809, -0.0873,  ...,  0.0958,  0.0396,  0.0228],
+        [ 0.0598,  0.1652,  0.1459,  ..., -0.1638, -0.2496, -0.2169],
+        [ 0.1330, -0.0270,  0.0211,  ...,  0.1287,  0.1601,  0.3071]],
+       device='cuda:0'), grad: tensor([[-1.3281e-01, -2.2720e-02, -2.9633e-02,  ..., -2.3483e-02,
+         -4.6753e-02, -1.8417e-02],
+        [ 1.7433e-03,  4.4322e-04,  5.7220e-04,  ...,  5.0640e-04,
+          8.9312e-04,  5.3072e-04],
+        [ 9.4452e-03,  3.4332e-03,  4.1084e-03,  ...,  4.4174e-03,
+          6.8016e-03,  5.0011e-03],
+        ...,
+        [ 1.4624e-01,  2.8687e-02,  3.6835e-02,  ...,  3.1036e-02,
+          5.8350e-02,  2.7481e-02],
+        [ 1.2887e-04,  5.0247e-05,  6.0737e-05,  ...,  6.3777e-05,
+          9.8944e-05,  7.4208e-05],
+        [ 3.8886e-04,  1.5473e-04,  1.8692e-04,  ...,  1.9646e-04,
+          3.0398e-04,  2.2984e-04]], device='cuda:0')
+Epoch 10, bias, value: tensor([ 0.0941, -0.0354,  0.0363, -0.0088,  0.0176,  0.0420, -0.0460],
+       device='cuda:0'), grad: tensor([-0.2202,  0.0051,  0.0438, -0.1282,  0.2969,  0.0006,  0.0020],
+       device='cuda:0')
+588
+0.009597638862757255
+changing lr
+---------------------saving model at epoch 9----------------------------------------------------
+epoch 9, time 788.96, cls_loss 0.8325 cls_loss_mapping 1.9318 cls_loss_causal 1.6573 re_mapping 0.0607 re_causal 0.0595 /// teacc 88.69 lr 0.00950484
+Epoch 11, weight, value: tensor([[ 0.0787,  0.1804,  0.1507,  ..., -0.1232, -0.0281, -0.0336],
+        [ 0.1283,  0.1287,  0.0865,  ..., -0.0189,  0.0064, -0.0110],
+        [-0.1121, -0.1374, -0.1695,  ...,  0.0750, -0.0071, -0.0139],
+        ...,
+        [-0.1406, -0.0832, -0.0745,  ...,  0.0390, -0.0043, -0.0407],
+        [ 0.0384,  0.1580,  0.1334,  ..., -0.1861, -0.2627, -0.2378],
+        [ 0.1685, -0.0035,  0.0477,  ...,  0.1265,  0.1877,  0.3266]],
+       device='cuda:0'), grad: tensor([[ 3.5309e-02,  1.6565e-03,  4.4518e-03,  ...,  1.0048e-02,
+          1.4519e-02,  8.8654e-03],
+        [-3.9948e-02, -1.8816e-03, -5.0468e-03,  ..., -1.1383e-02,
+         -1.6449e-02, -1.0040e-02],
+        [ 2.1782e-03,  9.5069e-05,  2.6774e-04,  ...,  6.1941e-04,
+          8.9645e-04,  5.4646e-04],
+        ...,
+        [ 1.9293e-03,  9.0897e-05,  2.4366e-04,  ...,  5.4884e-04,
+          7.9346e-04,  4.8447e-04],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 6.1572e-05,  2.8312e-06,  7.7188e-06,  ...,  1.7524e-05,
+          2.5332e-05,  1.5467e-05]], device='cuda:0')
+Epoch 11, bias, value: tensor([ 0.1110, -0.0177,  0.0542, -0.0012, -0.0065, -0.0152, -0.0684],
+       device='cuda:0'), grad: tensor([ 1.1536e-01, -1.3049e-01,  7.1411e-03,  1.5078e-03,  6.3095e-03,
+         2.9802e-08,  2.0134e-04], device='cuda:0')
+588
+0.009504844339512096
+changing lr
+epoch 10, time 787.79, cls_loss 0.8291 cls_loss_mapping 1.9188 cls_loss_causal 1.6253 re_mapping 0.0548 re_causal 0.0539 /// teacc 81.41 lr 0.00940298
+Epoch 12, weight, value: tensor([[ 0.0678,  0.1758,  0.1612,  ..., -0.1450, -0.0347, -0.0559],
+        [ 0.1286,  0.1445,  0.0866,  ...,  0.0554,  0.0667,  0.0764],
+        [-0.1090, -0.1487, -0.1846,  ...,  0.0382, -0.0233, -0.0647],
+        ...,
+        [-0.1392, -0.1042, -0.0890,  ...,  0.0798,  0.0069, -0.0041],
+        [ 0.0718,  0.1897,  0.1507,  ..., -0.1933, -0.2458, -0.2350],
+        [ 0.1610, -0.0262,  0.0336,  ...,  0.1494,  0.1988,  0.3398]],
+       device='cuda:0'), grad: tensor([[-1.4233e-01, -9.4727e-02, -8.7952e-02,  ..., -1.4908e-02,
+         -1.8906e-02, -1.7105e-02],
+        [ 1.1566e-01,  7.5989e-02,  7.2632e-02,  ...,  1.0384e-02,
+          1.3702e-02,  1.0521e-02],
+        [ 8.6487e-02,  2.7405e-02,  2.5620e-02,  ...,  2.1378e-02,
+          2.5955e-02,  2.1652e-02],
+        ...,
+        [-1.8692e-02, -2.8019e-03, -1.9217e-03,  ..., -9.4910e-03,
+         -1.0429e-02, -7.9803e-03],
+        [ 2.7299e-05,  5.0813e-06,  6.2585e-06,  ...,  5.2154e-06,
+          7.0482e-06,  5.1409e-06],
+        [ 1.0872e-02,  3.8738e-03,  3.5496e-03,  ...,  2.5368e-03,
+          3.0842e-03,  2.6684e-03]], device='cuda:0')
+Epoch 12, bias, value: tensor([ 0.0940, -0.0227,  0.0673, -0.0467,  0.0229,  0.0213, -0.0676],
+       device='cuda:0'), grad: tensor([-2.1802e-01,  1.5466e-01,  2.6709e-01, -1.6553e-01, -7.0923e-02,
+         8.6784e-05,  3.2654e-02], device='cuda:0')
+588
+0.009402977659283692
+changing lr
+epoch 11, time 783.83, cls_loss 0.8801 cls_loss_mapping 1.9312 cls_loss_causal 1.5834 re_mapping 0.0500 re_causal 0.0500 /// teacc 76.13 lr 0.00929224
+Epoch 13, weight, value: tensor([[ 0.0965,  0.2314,  0.2122,  ..., -0.1570, -0.0623, -0.0848],
+        [ 0.0979,  0.0993,  0.0228,  ...,  0.1376,  0.1181,  0.1753],
+        [-0.0753, -0.0355, -0.0806,  ...,  0.0122, -0.0546, -0.0971],
+        ...,
+        [-0.1852, -0.2246, -0.1926,  ...,  0.0303, -0.0115, -0.0587],
+        [ 0.0456,  0.1399,  0.1121,  ..., -0.2253, -0.2554, -0.2755],
+        [ 0.1414, -0.0680,  0.0032,  ...,  0.1460,  0.2248,  0.3638]],
+       device='cuda:0'), grad: tensor([[-4.2480e-02, -2.3384e-03, -4.1466e-03,  ..., -9.8801e-03,
+         -1.0429e-02, -8.3237e-03],
+        [ 5.9418e-02,  3.6201e-03,  5.7869e-03,  ...,  1.0643e-02,
+          1.1536e-02,  8.8959e-03],
+        [ 1.2596e-02,  8.6498e-04,  1.2236e-03,  ...,  1.3628e-03,
+          1.5888e-03,  1.1158e-03],
+        ...,
+        [ 3.7785e-03,  2.4629e-04,  3.6740e-04,  ...,  5.2929e-04,
+          5.9223e-04,  4.3869e-04],
+        [ 8.7976e-05,  5.8413e-06,  8.5533e-06,  ...,  1.1310e-05,
+          1.2815e-05,  9.3281e-06],
+        [ 1.0281e-03,  7.0274e-05,  9.9897e-05,  ...,  1.1408e-04,
+          1.3244e-04,  9.3520e-05]], device='cuda:0')
+Epoch 13, bias, value: tensor([ 0.1317, -0.0310,  0.0422, -0.0037,  0.0233, -0.0018, -0.1284],
+       device='cuda:0'), grad: tensor([-0.1171,  0.1670,  0.0363, -0.1002,  0.0108,  0.0003,  0.0030],
+       device='cuda:0')
+588
+0.009292243968009333
+changing lr
+epoch 12, time 783.78, cls_loss 0.8293 cls_loss_mapping 1.9327 cls_loss_causal 1.5112 re_mapping 0.0493 re_causal 0.0484 /// teacc 86.43 lr 0.00917287
+Epoch 14, weight, value: tensor([[ 0.0777,  0.2108,  0.1936,  ..., -0.0923, -0.0291, -0.0334],
+        [ 0.1153,  0.1454,  0.0746,  ...,  0.1644,  0.1521,  0.2122],
+        [-0.0834, -0.0824, -0.1147,  ..., -0.0575, -0.1158, -0.1687],
+        ...,
+        [-0.1710, -0.2490, -0.2187,  ..., -0.0356, -0.0597, -0.1243],
+        [ 0.0419,  0.1356,  0.1142,  ..., -0.1584, -0.1926, -0.1647],
+        [ 0.1327, -0.0303,  0.0284,  ...,  0.2466,  0.2982,  0.4510]],
+       device='cuda:0'), grad: tensor([[ 2.1305e-03,  3.3903e-04,  1.6975e-04,  ...,  2.4176e-04,
+          3.4523e-04,  4.9496e-04],
+        [-1.0760e-01, -2.1240e-02, -1.6479e-02,  ..., -2.6596e-02,
+         -2.8839e-02, -3.2410e-02],
+        [ 4.2610e-03,  5.0735e-04,  1.6189e-04,  ...,  9.4748e-04,
+          1.1377e-03,  1.4381e-03],
+        ...,
+        [ 9.8389e-02,  2.0020e-02,  1.6037e-02,  ...,  2.5131e-02,
+          2.6932e-02,  2.9831e-02],
+        [ 3.8832e-05,  5.1707e-06,  1.5497e-06,  ...,  3.7700e-06,
+          5.9307e-06,  9.0152e-06],
+        [ 1.7494e-05,  2.3395e-06,  7.0035e-07,  ...,  1.6987e-06,
+          2.6673e-06,  4.0680e-06]], device='cuda:0')
+Epoch 14, bias, value: tensor([ 0.1049, -0.0231,  0.0723, -0.0492,  0.0465,  0.0279, -0.1450],
+       device='cuda:0'), grad: tensor([ 1.0162e-02, -3.2080e-01,  2.0264e-02,  1.4198e-02,  2.7588e-01,
+         2.0289e-04,  9.1434e-05], device='cuda:0')
+588
+0.009172866268606516
+changing lr
+epoch 13, time 788.74, cls_loss 0.8462 cls_loss_mapping 1.9353 cls_loss_causal 1.4709 re_mapping 0.0443 re_causal 0.0434 /// teacc 88.44 lr 0.00904508
+Epoch 15, weight, value: tensor([[ 0.0782,  0.1956,  0.1481,  ..., -0.1640, -0.0967, -0.1245],
+        [ 0.0882,  0.0963,  0.0507,  ...,  0.1717,  0.1587,  0.2159],
+        [-0.1040, -0.1523, -0.1872,  ..., -0.0617, -0.1191, -0.1696],
+        ...,
+        [-0.1471, -0.1623, -0.1210,  ..., -0.0274, -0.0441, -0.1064],
+        [ 0.0591,  0.1738,  0.1613,  ..., -0.1838, -0.1874, -0.1927],
+        [ 0.1592, -0.0029,  0.0592,  ...,  0.2263,  0.2536,  0.4416]],
+       device='cuda:0'), grad: tensor([[-5.7487e-03, -8.5592e-04, -8.2397e-04,  ..., -8.3447e-04,
+         -7.8583e-04, -9.8133e-04],
+        [ 2.8387e-06,  7.0035e-07,  6.1840e-07,  ...,  5.1409e-07,
+          3.5018e-07,  3.3528e-07],
+        [-1.3447e-03, -3.7622e-04, -3.2425e-04,  ..., -2.5964e-04,
+         -1.6034e-04, -1.3888e-04],
+        ...,
+        [ 7.0953e-03,  1.2321e-03,  1.1482e-03,  ...,  1.0939e-03,
+          9.4604e-04,  1.1206e-03],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 15, bias, value: tensor([ 0.0705, -0.0097,  0.0608, -0.0779,  0.0977, -0.0054, -0.1174],
+       device='cuda:0'), grad: tensor([-1.4557e-02,  9.9912e-06, -5.1689e-03,  6.7055e-08,  1.9730e-02,
+         0.0000e+00,  0.0000e+00], device='cuda:0')
+588
+0.00904508497187474
+changing lr
+epoch 14, time 787.99, cls_loss 0.8104 cls_loss_mapping 1.9545 cls_loss_causal 1.4242 re_mapping 0.0440 re_causal 0.0433 /// teacc 84.42 lr 0.00890916
+Epoch 16, weight, value: tensor([[ 0.1100,  0.2794,  0.2263,  ..., -0.1389, -0.0593, -0.0787],
+        [ 0.1087,  0.1279,  0.0939,  ...,  0.1621,  0.1517,  0.2123],
+        [-0.1301, -0.2406, -0.2614,  ..., -0.1204, -0.1628, -0.2361],
+        ...,
+        [-0.1776, -0.2431, -0.1986,  ...,  0.0181, -0.0197, -0.0810],
+        [ 0.0099,  0.0399,  0.0035,  ..., -0.1451, -0.1740, -0.1599],
+        [ 0.1844,  0.0378,  0.0998,  ...,  0.2404,  0.2457,  0.4508]],
+       device='cuda:0'), grad: tensor([[-1.0986e-01, -3.7262e-02, -3.4698e-02,  ..., -3.4119e-02,
+         -3.6072e-02, -4.0070e-02],
+        [ 5.2795e-02,  2.1347e-02,  1.7883e-02,  ...,  9.4223e-03,
+          9.3842e-03,  1.2657e-02],
+        [-3.9520e-02, -3.3951e-03, -1.6375e-03,  ..., -7.7209e-03,
+         -6.2180e-03, -1.3580e-02],
+        ...,
+        [ 9.6619e-02,  1.9318e-02,  1.8463e-02,  ...,  3.2440e-02,
+          3.2928e-02,  4.1016e-02],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 7.2271e-07,  2.3842e-07,  2.2352e-07,  ...,  2.3842e-07,
+          2.5332e-07,  2.7567e-07]], device='cuda:0')
+Epoch 16, bias, value: tensor([ 0.1027, -0.0312,  0.0233, -0.0872,  0.1114,  0.0707, -0.1415],
+       device='cuda:0'), grad: tensor([-3.1494e-01,  1.2146e-01, -1.6663e-01,  0.0000e+00,  3.6035e-01,
+         0.0000e+00,  2.1309e-06], device='cuda:0')
+588
+0.008909157412340152
+changing lr
+---------------------saving model at epoch 15----------------------------------------------------
+epoch 15, time 790.44, cls_loss 0.8249 cls_loss_mapping 1.9533 cls_loss_causal 1.3953 re_mapping 0.0421 re_causal 0.0406 /// teacc 90.70 lr 0.00876536
+Epoch 17, weight, value: tensor([[ 0.0962,  0.2255,  0.1708,  ..., -0.0999,  0.0005, -0.0541],
+        [ 0.1250,  0.1699,  0.1376,  ...,  0.1510,  0.1236,  0.1787],
+        [-0.0948, -0.1456, -0.1489,  ..., -0.1232, -0.1759, -0.2217],
+        ...,
+        [-0.1864, -0.2241, -0.1821,  ..., -0.0149, -0.0493, -0.0927],
+        [-0.0010, -0.0291, -0.0696,  ..., -0.2039, -0.2072, -0.1883],
+        [ 0.1654,  0.0480,  0.1045,  ...,  0.2511,  0.2629,  0.4583]],
+       device='cuda:0'), grad: tensor([[ 3.8223e-03,  4.3559e-04,  2.4796e-04,  ...,  2.6321e-03,
+          2.3823e-03,  3.3054e-03],
+        [ 6.3419e-05,  2.1115e-05,  1.9178e-05,  ...,  1.2584e-05,
+          1.2092e-05,  1.6108e-05],
+        [-1.4984e-02, -1.7033e-03, -9.6941e-04,  ..., -1.0323e-02,
+         -9.3460e-03, -1.2955e-02],
+        ...,
+        [ 1.1040e-02,  1.2560e-03,  7.1526e-04,  ...,  7.6065e-03,
+          6.8893e-03,  9.5444e-03],
+        [ 7.3761e-07,  8.1956e-08,  4.4703e-08,  ...,  5.0664e-07,
+          4.6194e-07,  6.4075e-07],
+        [ 5.5730e-05, -9.3356e-06, -1.2971e-05,  ...,  7.2122e-05,
+          6.5267e-05,  8.9228e-05]], device='cuda:0')
+Epoch 17, bias, value: tensor([ 0.0568, -0.0546,  0.0598, -0.0813,  0.1396,  0.0915, -0.1285],
+       device='cuda:0'), grad: tensor([ 3.5187e-02,  1.5855e-04, -1.3782e-01,  1.9073e-06,  1.0156e-01,
+         6.7800e-06,  9.4461e-04], device='cuda:0')
+588
+0.00876535733001806
+changing lr
+epoch 16, time 784.86, cls_loss 0.7257 cls_loss_mapping 1.9611 cls_loss_causal 1.3698 re_mapping 0.0399 re_causal 0.0394 /// teacc 87.19 lr 0.00861397
+Epoch 18, weight, value: tensor([[ 0.1018,  0.2561,  0.2068,  ..., -0.1179, -0.0283, -0.0701],
+        [ 0.0983,  0.1176,  0.0827,  ...,  0.2023,  0.1715,  0.2293],
+        [-0.1017, -0.2034, -0.2049,  ..., -0.1349, -0.2052, -0.2293],
+        ...,
+        [-0.1877, -0.2327, -0.2155,  ..., -0.0200, -0.0320, -0.1179],
+        [ 0.0299,  0.0466,  0.0134,  ..., -0.2925, -0.2812, -0.2460],
+        [ 0.2017,  0.1188,  0.1835,  ...,  0.3185,  0.3244,  0.5068]],
+       device='cuda:0'), grad: tensor([[ 2.4116e-04,  1.0294e-04,  1.0109e-04,  ...,  2.3916e-05,
+          2.6613e-05,  3.2365e-05],
+        [-1.1023e-01, -4.6967e-02, -4.5502e-02,  ..., -1.0269e-02,
+         -1.1406e-02, -1.3809e-02],
+        [ 4.5151e-05,  1.9580e-05,  2.1338e-05,  ...,  6.7800e-06,
+          7.6070e-06,  9.4995e-06],
+        ...,
+        [ 1.1011e-01,  4.6875e-02,  4.5441e-02,  ...,  1.0254e-02,
+          1.1391e-02,  1.3786e-02],
+        [ 2.2352e-08,  0.0000e+00,  0.0000e+00,  ...,  7.4506e-09,
+          7.4506e-09,  7.4506e-09],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 18, bias, value: tensor([ 0.0791, -0.0574,  0.1020, -0.0874,  0.1255, -0.0077, -0.1551],
+       device='cuda:0'), grad: tensor([ 3.3426e-04, -1.4795e-01,  7.9393e-05, -1.5831e-04,  1.4771e-01,
+         1.0431e-07,  0.0000e+00], device='cuda:0')
+588
+0.008613974319136962
+changing lr
+epoch 17, time 789.79, cls_loss 0.7392 cls_loss_mapping 1.9596 cls_loss_causal 1.3423 re_mapping 0.0397 re_causal 0.0379 /// teacc 87.94 lr 0.00845531
+Epoch 19, weight, value: tensor([[ 0.1057,  0.2734,  0.2083,  ..., -0.1433, -0.0721, -0.1124],
+        [ 0.0967,  0.1344,  0.0972,  ...,  0.1901,  0.1499,  0.2200],
+        [-0.1211, -0.2458, -0.1995,  ..., -0.1654, -0.1936, -0.2323],
+        ...,
+        [-0.2031, -0.3258, -0.3285,  ..., -0.0279, -0.0610, -0.1198],
+        [ 0.0588,  0.0430,  0.0588,  ..., -0.2292, -0.1936, -0.1755],
+        [ 0.1932,  0.1061,  0.1562,  ...,  0.4041,  0.4264,  0.5782]],
+       device='cuda:0'), grad: tensor([[ 1.0567e-03,  4.7374e-04,  4.3917e-04,  ...,  3.9411e-04,
+          3.7527e-04,  4.2820e-04],
+        [-1.1520e-03, -5.5933e-04, -5.2214e-04,  ..., -4.1223e-04,
+         -4.0007e-04, -4.4751e-04],
+        [-1.5350e-02, -1.3657e-03, -8.3113e-04,  ..., -7.8506e-03,
+         -6.5269e-03, -8.5678e-03],
+        ...,
+        [ 2.3022e-05,  2.1234e-06,  1.3076e-06,  ...,  1.1861e-05,
+          9.8720e-06,  1.2957e-05],
+        [ 4.9174e-07,  4.4703e-08,  2.6077e-08,  ...,  2.5332e-07,
+          2.0862e-07,  2.7567e-07],
+        [ 1.4381e-02,  1.2789e-03,  7.7772e-04,  ...,  7.3547e-03,
+          6.1111e-03,  8.0261e-03]], device='cuda:0')
+Epoch 19, bias, value: tensor([ 0.1217, -0.1213,  0.0669, -0.0036,  0.1197,  0.0242, -0.1696],
+       device='cuda:0'), grad: tensor([ 1.7681e-03, -1.3647e-03, -9.6497e-02,  5.5351e-03,  1.4460e-04,
+         3.1032e-06,  9.0393e-02], device='cuda:0')
+588
+0.008455313244934327
+changing lr
+epoch 18, time 787.58, cls_loss 0.7877 cls_loss_mapping 1.9799 cls_loss_causal 1.3478 re_mapping 0.0661 re_causal 0.0349 /// teacc 84.17 lr 0.00828969
+Epoch 20, weight, value: tensor([[ 0.0863,  0.2166,  0.1413,  ..., -0.1484, -0.0454, -0.0878],
+        [ 0.1257,  0.1927,  0.1661,  ...,  0.1861,  0.1666,  0.2057],
+        [-0.1167, -0.2185, -0.1606,  ..., -0.0888, -0.1380, -0.1782],
+        ...,
+        [-0.2129, -0.3600, -0.3774,  ..., -0.0157, -0.0488, -0.1033],
+        [ 0.1006,  0.1435,  0.1633,  ..., -0.2126, -0.1941, -0.2069],
+        [ 0.1799,  0.0319,  0.0615,  ...,  0.3252,  0.3177,  0.5156]],
+       device='cuda:0'), grad: tensor([[-2.1378e-02, -8.4000e-03, -7.4081e-03,  ..., -2.8896e-03,
+         -2.3670e-03, -3.0136e-03],
+        [ 4.9877e-04,  2.0528e-04,  1.8466e-04,  ...,  6.8426e-05,
+          5.6267e-05,  7.0095e-05],
+        [ 4.0855e-03,  1.6031e-03,  1.4133e-03,  ...,  5.5218e-04,
+          4.5252e-04,  5.7459e-04],
+        ...,
+        [ 2.1362e-03,  8.2779e-04,  7.3004e-04,  ...,  2.8944e-04,
+          2.3651e-04,  3.0947e-04],
+        [ 3.2711e-04,  1.2875e-04,  1.1367e-04,  ...,  4.4048e-05,
+          3.6120e-05,  4.5866e-05],
+        [ 1.3145e-02,  5.1613e-03,  4.5471e-03,  ...,  1.7738e-03,
+          1.4534e-03,  1.8463e-03]], device='cuda:0')
+Epoch 20, bias, value: tensor([ 0.1136, -0.1377,  0.0738,  0.0662,  0.1018, -0.0262, -0.1432],
+       device='cuda:0'), grad: tensor([-0.0545,  0.0012,  0.0104,  0.0030,  0.0057,  0.0008,  0.0334],
+       device='cuda:0')
+588
+0.008289693629698565
+changing lr
+epoch 19, time 788.73, cls_loss 0.7202 cls_loss_mapping 2.0849 cls_loss_causal 1.4526 re_mapping 0.0357 re_causal 0.0356 /// teacc 88.19 lr 0.00811745
+Epoch 21, weight, value: tensor([[ 0.0907,  0.2389,  0.1738,  ..., -0.1446, -0.0265, -0.0812],
+        [ 0.1201,  0.1742,  0.1335,  ...,  0.2406,  0.2242,  0.2548],
+        [-0.1069, -0.2159, -0.1390,  ..., -0.1387, -0.1393, -0.2031],
+        ...,
+        [-0.2204, -0.3801, -0.4128,  ..., -0.0080, -0.0832, -0.1097],
+        [ 0.1126,  0.1753,  0.2092,  ..., -0.3033, -0.2777, -0.3084],
+        [ 0.1534, -0.0054,  0.0306,  ...,  0.3518,  0.3387,  0.5434]],
+       device='cuda:0'), grad: tensor([[ 6.5613e-02,  1.1650e-02,  4.8065e-03,  ...,  1.2337e-02,
+          9.3613e-03,  1.0078e-02],
+        [-2.2736e-02, -6.1378e-03, -3.5629e-03,  ..., -4.4937e-03,
+         -3.9978e-03, -3.9635e-03],
+        [ 7.6256e-03,  1.7128e-03,  9.6989e-04,  ...,  1.6689e-03,
+          1.3523e-03,  1.5650e-03],
+        ...,
+        [-6.1615e-02, -1.0155e-02, -3.9101e-03,  ..., -1.1696e-02,
+         -8.6288e-03, -9.6054e-03],
+        [ 1.8539e-03,  4.7493e-04,  2.7347e-04,  ...,  3.7527e-04,
+          3.2377e-04,  3.3665e-04],
+        [ 3.5596e-04,  9.4831e-05,  5.4657e-05,  ...,  6.9439e-05,
+          6.1333e-05,  6.0976e-05]], device='cuda:0')
+Epoch 21, bias, value: tensor([ 0.0496, -0.1132,  0.1154,  0.0335,  0.1428,  0.0303, -0.1998],
+       device='cuda:0'), grad: tensor([ 0.1910, -0.1478,  0.0350,  0.0564, -0.1478,  0.0110,  0.0023],
+       device='cuda:0')
+588
+0.00811744900929367
+changing lr
+epoch 20, time 789.55, cls_loss 1.2345 cls_loss_mapping 2.3654 cls_loss_causal 2.0781 re_mapping 0.0688 re_causal 0.0697 /// teacc 88.94 lr 0.00793893
+Epoch 22, weight, value: tensor([[ 0.0692,  0.1622,  0.1038,  ..., -0.2117, -0.0947, -0.1543],
+        [ 0.1420,  0.3141,  0.2565,  ...,  0.2800,  0.2870,  0.2564],
+        [-0.0745, -0.1349, -0.1499,  ..., -0.1645, -0.1760, -0.1678],
+        ...,
+        [-0.2284, -0.4817, -0.4826,  ...,  0.0753, -0.0181, -0.0285],
+        [ 0.0292,  0.1086,  0.1353,  ..., -0.3725, -0.3170, -0.3822],
+        [ 0.1921,  0.0216,  0.1621,  ...,  0.3018,  0.3416,  0.4424]],
+       device='cuda:0'), grad: tensor([[ 4.9248e-03,  3.5370e-02,  1.0538e-03,  ...,  3.5248e-02,
+          2.6073e-03,  7.2861e-03],
+        [ 4.8462e-02,  8.9417e-02,  4.5990e-02,  ...,  4.8645e-02,
+          7.6256e-03,  1.6037e-02],
+        [ 4.0221e-04,  2.8324e-03,  9.2328e-05,  ...,  2.8324e-03,
+          2.0969e-04,  5.7173e-04],
+        ...,
+        [-5.3749e-03, -3.8513e-02, -1.1663e-03,  ..., -3.8269e-02,
+         -2.8667e-03, -8.0185e-03],
+        [-1.1765e-02, -7.7698e-02, -2.6569e-03,  ..., -8.3130e-02,
+         -4.5471e-03, -1.0101e-02],
+        [ 1.1322e-02,  2.0935e-02,  1.0735e-02,  ...,  1.1436e-02,
+          1.7891e-03,  3.7537e-03]], device='cuda:0')
+Epoch 22, bias, value: tensor([ 0.0447, -0.0841,  0.1666, -0.0129,  0.1221,  0.0124, -0.2110],
+       device='cuda:0'), grad: tensor([ 0.1121,  0.1364,  0.0088,  0.0006, -0.1232, -0.1666,  0.0320],
+       device='cuda:0')
+588
+0.007938926261462368
+changing lr
+epoch 21, time 784.45, cls_loss 0.8963 cls_loss_mapping 1.8830 cls_loss_causal 1.9278 re_mapping 0.0579 re_causal 0.0578 /// teacc 88.94 lr 0.00775448
+Epoch 23, weight, value: tensor([[ 0.0581,  0.1674,  0.1021,  ..., -0.2102, -0.0954, -0.1395],
+        [ 0.1024,  0.2598,  0.1984,  ...,  0.2873,  0.2944,  0.2849],
+        [-0.0376, -0.0941, -0.0780,  ..., -0.1632, -0.1839, -0.1797],
+        ...,
+        [-0.2106, -0.4629, -0.4883,  ...,  0.0697, -0.0364, -0.0634],
+        [ 0.0569,  0.1584,  0.2257,  ..., -0.3437, -0.3234, -0.4077],
+        [ 0.1633, -0.0262,  0.0682,  ...,  0.2931,  0.3046,  0.4019]],
+       device='cuda:0'), grad: tensor([[-9.9869e-03, -4.6661e-02, -7.7705e-03,  ..., -3.9734e-02,
+         -1.9503e-03, -2.6283e-03],
+        [ 6.4659e-03,  2.7969e-02,  5.1689e-03,  ...,  2.3453e-02,
+          1.2531e-03,  1.7796e-03],
+        [ 2.5249e-04,  1.4315e-03,  1.8084e-04,  ...,  1.2589e-03,
+          4.9949e-05,  5.7161e-05],
+        ...,
+        [ 5.6410e-04,  3.8280e-03,  3.6430e-04,  ...,  3.4504e-03,
+          1.1528e-04,  1.0687e-04],
+        [ 3.7253e-09,  2.9802e-08,  1.8626e-09,  ...,  2.7940e-08,
+          0.0000e+00,  0.0000e+00],
+        [ 1.7004e-03,  8.2092e-03,  1.3056e-03,  ...,  7.0343e-03,
+          3.3307e-04,  4.3821e-04]], device='cuda:0')
+Epoch 23, bias, value: tensor([ 0.0429, -0.1175,  0.1603,  0.0150,  0.1382,  0.0352, -0.2063],
+       device='cuda:0'), grad: tensor([-1.0675e-01,  6.2042e-02,  3.4866e-03,  1.2398e-02,  9.7733e-03,
+         8.1956e-08,  1.8997e-02], device='cuda:0')
+588
+0.007754484907260515
+changing lr
+---------------------saving model at epoch 22----------------------------------------------------
+epoch 22, time 788.93, cls_loss 0.7680 cls_loss_mapping 1.8468 cls_loss_causal 1.8316 re_mapping 0.0464 re_causal 0.0470 /// teacc 92.96 lr 0.00756450
+Epoch 24, weight, value: tensor([[ 0.0740,  0.1668,  0.1526,  ..., -0.2273, -0.1226, -0.1396],
+        [ 0.0830,  0.2543,  0.1813,  ...,  0.3012,  0.3164,  0.3331],
+        [-0.0472, -0.0922, -0.1244,  ..., -0.1726, -0.2034, -0.2304],
+        ...,
+        [-0.2053, -0.4633, -0.5101,  ...,  0.0734, -0.0321, -0.0872],
+        [ 0.0451,  0.1808,  0.2267,  ..., -0.3206, -0.3505, -0.4470],
+        [ 0.1529, -0.0292,  0.0461,  ...,  0.2973,  0.3119,  0.4129]],
+       device='cuda:0'), grad: tensor([[-1.0834e-02, -1.3110e-01, -4.2915e-03,  ..., -1.3770e-01,
+         -1.0536e-02, -1.0834e-02],
+        [ 7.1335e-03,  9.0820e-02,  2.6741e-03,  ...,  9.5581e-02,
+          7.1716e-03,  7.3547e-03],
+        [ 1.2293e-03,  1.2703e-02,  5.6124e-04,  ...,  1.3214e-02,
+          1.0834e-03,  1.1215e-03],
+        ...,
+        [ 3.1137e-04,  2.6836e-03,  1.6069e-04,  ...,  2.7523e-03,
+          2.4652e-04,  2.5773e-04],
+        [ 8.5950e-05,  6.4421e-04,  4.7654e-05,  ...,  6.5327e-04,
+          6.3121e-05,  6.6400e-05],
+        [ 3.2377e-04,  3.1376e-03,  1.5521e-04,  ...,  3.2463e-03,
+          2.7442e-04,  2.8515e-04]], device='cuda:0')
+Epoch 24, bias, value: tensor([ 0.0266, -0.0862,  0.1584,  0.0114,  0.1318,  0.0293, -0.1960],
+       device='cuda:0'), grad: tensor([-0.3254,  0.2100,  0.0392,  0.0525,  0.0105,  0.0030,  0.0105],
+       device='cuda:0')
+588
+0.007564496387029534
+changing lr
+epoch 23, time 785.30, cls_loss 0.7662 cls_loss_mapping 1.8845 cls_loss_causal 1.7288 re_mapping 0.0407 re_causal 0.0404 /// teacc 90.95 lr 0.00736934
+Epoch 25, weight, value: tensor([[ 0.0365,  0.1527,  0.1048,  ..., -0.2203, -0.1665, -0.1732],
+        [ 0.1297,  0.2792,  0.2474,  ...,  0.2982,  0.3199,  0.2927],
+        [ 0.0082, -0.0752, -0.0214,  ..., -0.1751, -0.1710, -0.2138],
+        ...,
+        [-0.2003, -0.4574, -0.5103,  ...,  0.0690, -0.0249, -0.0629],
+        [-0.0721,  0.1107,  0.0221,  ..., -0.3288, -0.3306, -0.4389],
+        [ 0.1930,  0.0027,  0.1167,  ...,  0.3094,  0.3346,  0.4767]],
+       device='cuda:0'), grad: tensor([[ 4.1733e-03,  1.7822e-02,  3.5076e-03,  ...,  1.7395e-02,
+          3.4122e-03,  2.3899e-03],
+        [ 1.1045e-04,  5.0545e-04,  9.7215e-05,  ...,  4.8733e-04,
+          8.2374e-05,  5.3704e-05],
+        [-7.0534e-03, -3.1189e-02, -6.0883e-03,  ..., -3.0319e-02,
+         -5.5809e-03, -3.7670e-03],
+        ...,
+        [ 2.7409e-03,  1.2726e-02,  2.4567e-03,  ...,  1.2306e-02,
+          2.0638e-03,  1.3084e-03],
+        [ 9.3132e-09,  2.3283e-08,  5.5879e-09,  ...,  2.4214e-08,
+          1.0245e-08,  8.3819e-09],
+        [ 2.7388e-05,  1.2696e-04,  2.4378e-05,  ...,  1.2279e-04,
+          2.0742e-05,  1.3381e-05]], device='cuda:0')
+Epoch 25, bias, value: tensor([-0.0061, -0.0714,  0.2059,  0.0143,  0.1513,  0.0089, -0.2689],
+       device='cuda:0'), grad: tensor([ 4.3579e-02,  1.0872e-03, -7.1777e-02,  3.2008e-05,  2.6840e-02,
+         1.1083e-07,  2.7251e-04], device='cuda:0')
+588
+0.007369343312364995
+changing lr
+epoch 24, time 787.85, cls_loss 0.7108 cls_loss_mapping 1.8973 cls_loss_causal 1.6318 re_mapping 0.0383 re_causal 0.0377 /// teacc 89.45 lr 0.00716942
+Epoch 26, weight, value: tensor([[ 0.0142,  0.1305,  0.0910,  ..., -0.2224, -0.1564, -0.1285],
+        [ 0.1348,  0.2744,  0.2725,  ...,  0.2695,  0.2497,  0.2181],
+        [-0.0246, -0.0880, -0.0877,  ..., -0.1710, -0.1561, -0.1993],
+        ...,
+        [-0.1723, -0.4277, -0.4818,  ...,  0.0789, -0.0452, -0.1072],
+        [-0.0951,  0.1185,  0.0123,  ..., -0.2931, -0.2770, -0.3769],
+        [ 0.1667, -0.0167,  0.0731,  ...,  0.3122,  0.4267,  0.5457]],
+       device='cuda:0'), grad: tensor([[ 1.7977e-04,  4.8971e-04,  1.7965e-04,  ...,  3.9124e-04,
+          6.9499e-05,  5.3972e-05],
+        [-2.0015e-04, -3.8862e-04, -2.0564e-04,  ..., -2.6846e-04,
+         -7.7009e-05, -4.6998e-05],
+        [ 3.2091e-04,  3.2387e-03,  2.9564e-04,  ...,  3.1319e-03,
+          1.0985e-04,  2.4676e-04],
+        ...,
+        [-7.1955e-04, -6.0310e-03, -5.5408e-04,  ..., -5.9166e-03,
+         -2.6441e-04, -5.5933e-04],
+        [ 1.4281e-04,  7.1669e-04,  1.0908e-04,  ...,  7.3338e-04,
+          1.2648e-04,  1.0812e-04],
+        [ 1.6456e-06,  1.3880e-05,  1.4035e-06,  ...,  1.3568e-05,
+          7.8976e-07,  1.2554e-06]], device='cuda:0')
+Epoch 26, bias, value: tensor([ 0.0119, -0.0786,  0.2261,  0.0666,  0.0876, -0.0310, -0.2350],
+       device='cuda:0'), grad: tensor([ 1.5726e-03, -1.3800e-03,  7.4692e-03,  5.4283e-03, -1.5976e-02,
+         2.8362e-03,  3.6329e-05], device='cuda:0')
+588
+0.0071694186955877925
+changing lr
+epoch 25, time 788.62, cls_loss 0.6475 cls_loss_mapping 1.9076 cls_loss_causal 1.5884 re_mapping 0.0343 re_causal 0.0343 /// teacc 91.21 lr 0.00696513
+Epoch 27, weight, value: tensor([[ 0.0563,  0.1587,  0.1482,  ..., -0.2059, -0.0958, -0.1066],
+        [ 0.1005,  0.2629,  0.2183,  ...,  0.2709,  0.2110,  0.2140],
+        [ 0.0192, -0.0709, -0.0229,  ..., -0.1690, -0.1645, -0.2571],
+        ...,
+        [-0.2304, -0.4445, -0.5726,  ...,  0.0727, -0.0701, -0.1229],
+        [-0.0658,  0.1089,  0.0510,  ..., -0.3020, -0.2300, -0.2808],
+        [ 0.0765, -0.0625,  0.0027,  ...,  0.2837,  0.3630,  0.4757]],
+       device='cuda:0'), grad: tensor([[-3.9612e-02, -7.9956e-02, -4.0039e-02,  ..., -6.4148e-02,
+         -2.3956e-02, -2.4429e-02],
+        [ 2.2507e-03,  3.2104e-02,  2.1400e-03,  ...,  3.1708e-02,
+          2.2793e-03,  1.0777e-03],
+        [-1.2388e-03, -1.1320e-03, -1.2178e-03,  ..., -7.5579e-05,
+         -1.6270e-03,  6.7663e-04],
+        ...,
+        [-2.1782e-03, -6.4392e-02, -2.9640e-03,  ..., -6.5918e-02,
+         -2.2926e-03, -2.7180e-03],
+        [ 3.2067e-05,  4.4632e-04,  2.8506e-05,  ...,  4.3750e-04,
+          3.1650e-05,  2.0519e-05],
+        [ 2.1495e-06,  2.9862e-05,  1.9204e-06,  ...,  2.9251e-05,
+          2.1327e-06,  1.3821e-06]], device='cuda:0')
+Epoch 27, bias, value: tensor([ 0.0491, -0.0644,  0.2149,  0.0306,  0.0818, -0.0456, -0.2498],
+       device='cuda:0'), grad: tensor([-1.8530e-01,  1.1652e-01, -1.7090e-02,  2.9077e-01, -2.0679e-01,
+         1.8320e-03,  1.2350e-04], device='cuda:0')
+588
+0.0069651251582696205
+changing lr
+epoch 26, time 792.28, cls_loss 0.6615 cls_loss_mapping 1.9141 cls_loss_causal 1.5588 re_mapping 0.0327 re_causal 0.0322 /// teacc 90.95 lr 0.00675687
+Epoch 28, weight, value: tensor([[ 0.0892,  0.1605,  0.2075,  ..., -0.2109, -0.0373, -0.0577],
+        [ 0.1007,  0.2773,  0.2171,  ...,  0.2871,  0.1950,  0.1978],
+        [-0.0350, -0.0703, -0.0801,  ..., -0.1626, -0.1739, -0.2877],
+        ...,
+        [-0.2165, -0.4469, -0.6294,  ...,  0.0728, -0.0634, -0.1180],
+        [-0.1340,  0.1232, -0.0333,  ..., -0.2569, -0.2698, -0.2514],
+        [ 0.1039, -0.0380,  0.0771,  ...,  0.2829,  0.2394,  0.3927]],
+       device='cuda:0'), grad: tensor([[ 7.0751e-05,  5.0592e-04,  4.8131e-05,  ...,  4.7112e-04,
+          4.8757e-05,  3.2812e-05],
+        [ 1.8799e-04,  2.9888e-03,  2.6631e-04,  ...,  3.0746e-03,
+          3.0494e-04,  1.9097e-04],
+        [ 9.2745e-04,  7.2327e-03,  7.3385e-04,  ...,  6.9199e-03,
+          7.4863e-04,  5.1260e-04],
+        ...,
+        [-9.6664e-03, -9.3872e-02, -9.0866e-03,  ..., -9.2346e-02,
+         -9.6283e-03, -6.3324e-03],
+        [ 8.4610e-03,  8.2947e-02,  8.0185e-03,  ...,  8.1665e-02,
+          8.5068e-03,  5.5809e-03],
+        [ 1.4275e-05,  1.9133e-04,  1.7390e-05,  ...,  1.9431e-04,
+          1.9491e-05,  1.2383e-05]], device='cuda:0')
+Epoch 28, bias, value: tensor([ 0.0719, -0.1122,  0.2673, -0.1104,  0.1135, -0.0021, -0.2133],
+       device='cuda:0'), grad: tensor([ 1.8606e-03,  9.3765e-03,  2.5558e-02,  4.0978e-06, -3.1689e-01,
+         2.7954e-01,  6.1464e-04], device='cuda:0')
+588
+0.006756874120406716
+changing lr
+---------------------saving model at epoch 27----------------------------------------------------
+epoch 27, time 799.50, cls_loss 0.5966 cls_loss_mapping 1.9252 cls_loss_causal 1.4598 re_mapping 0.0308 re_causal 0.0306 /// teacc 93.47 lr 0.00654508
+Epoch 29, weight, value: tensor([[ 0.0723,  0.1601,  0.1570,  ..., -0.1959, -0.0357, -0.0264],
+        [ 0.1757,  0.3007,  0.2832,  ...,  0.2843,  0.2216,  0.2356],
+        [-0.0409, -0.0792, -0.0618,  ..., -0.1712, -0.1863, -0.3104],
+        ...,
+        [-0.2882, -0.4612, -0.6617,  ...,  0.0659, -0.0837, -0.1679],
+        [-0.1052,  0.0933,  0.0347,  ..., -0.3151, -0.3466, -0.3711],
+        [ 0.0774, -0.0454,  0.0722,  ...,  0.2957,  0.3003,  0.4700]],
+       device='cuda:0'), grad: tensor([[ 1.2144e-06,  1.5274e-05,  1.6345e-06,  ...,  1.6332e-05,
+          1.8217e-06,  1.7863e-06],
+        [-5.5246e-06, -1.3366e-05, -5.8524e-06,  ..., -1.4275e-05,
+         -6.3255e-06, -5.2936e-06],
+        [-7.4804e-06, -9.4354e-05, -9.6858e-06,  ..., -9.9123e-05,
+         -9.1046e-06, -8.5235e-06],
+        ...,
+        [ 1.1384e-05,  8.1122e-05,  1.3024e-05,  ...,  8.4579e-05,
+          1.2241e-05,  1.0476e-05],
+        [ 0.0000e+00,  9.3132e-10,  0.0000e+00,  ...,  9.3132e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 4.0093e-07,  1.1124e-05,  8.6520e-07,  ...,  1.2279e-05,
+          1.3476e-06,  1.5358e-06]], device='cuda:0')
+Epoch 29, bias, value: tensor([ 0.0788, -0.0657,  0.1953, -0.0374,  0.1284, -0.0447, -0.2749],
+       device='cuda:0'), grad: tensor([ 4.6700e-05, -4.0084e-05, -3.1018e-04,  3.5763e-07,  2.7490e-04,
+         3.2596e-09,  2.8253e-05], device='cuda:0')
+588
+0.00654508497187474
+changing lr
+epoch 28, time 792.95, cls_loss 0.6055 cls_loss_mapping 1.9119 cls_loss_causal 1.4331 re_mapping 0.0305 re_causal 0.0306 /// teacc 91.71 lr 0.00633018
+Epoch 30, weight, value: tensor([[ 0.1358,  0.1852,  0.2297,  ..., -0.1964, -0.0690, -0.0682],
+        [ 0.1587,  0.2878,  0.2627,  ...,  0.2718,  0.1913,  0.1993],
+        [-0.0709, -0.0819, -0.0530,  ..., -0.1624, -0.1415, -0.2712],
+        ...,
+        [-0.3439, -0.4698, -0.7465,  ...,  0.0793, -0.0382, -0.0891],
+        [-0.1202,  0.0969,  0.0429,  ..., -0.3174, -0.4206, -0.4284],
+        [ 0.2058, -0.0318,  0.1807,  ...,  0.2827,  0.3043,  0.4872]],
+       device='cuda:0'), grad: tensor([[-2.1801e-03, -1.9714e-02, -1.6499e-03,  ..., -1.9989e-02,
+         -1.8215e-03, -1.1492e-03],
+        [-3.7918e-03, -1.7593e-02, -3.4142e-03,  ..., -1.7563e-02,
+         -3.6602e-03, -5.1575e-03],
+        [ 1.8044e-03,  9.3002e-03,  1.5965e-03,  ...,  9.3155e-03,
+          1.7166e-03,  2.2850e-03],
+        ...,
+        [ 4.0398e-03,  2.7420e-02,  3.3550e-03,  ...,  2.7649e-02,
+          3.6449e-03,  3.8548e-03],
+        [ 2.0534e-05,  1.0777e-04,  1.8075e-05,  ...,  1.0800e-04,
+          1.9461e-05,  2.5585e-05],
+        [ 5.8353e-05,  2.6965e-04,  5.2661e-05,  ...,  2.6894e-04,
+          5.5909e-05,  7.8678e-05]], device='cuda:0')
+Epoch 30, bias, value: tensor([ 0.0989, -0.0897,  0.1854,  0.0052,  0.1319, -0.0978, -0.2726],
+       device='cuda:0'), grad: tensor([-0.0637, -0.0893,  0.0437,  0.0011,  0.1063,  0.0005,  0.0014],
+       device='cuda:0')
+588
+0.006330184227833378
+changing lr
+epoch 29, time 792.20, cls_loss 0.5751 cls_loss_mapping 1.9297 cls_loss_causal 1.4110 re_mapping 0.0297 re_causal 0.0297 /// teacc 77.64 lr 0.00611260
+Epoch 31, weight, value: tensor([[ 0.1090,  0.1738,  0.1984,  ..., -0.1922, -0.0488, -0.0315],
+        [ 0.1758,  0.2976,  0.2919,  ...,  0.2647,  0.1275,  0.1098],
+        [-0.0128, -0.0958, -0.0184,  ..., -0.1856, -0.1357, -0.2447],
+        ...,
+        [-0.4091, -0.4908, -0.8174,  ...,  0.0588, -0.0619, -0.1228],
+        [-0.1605,  0.1035, -0.0089,  ..., -0.3060, -0.4720, -0.4859],
+        [ 0.1660, -0.0100,  0.1612,  ...,  0.3081,  0.2940,  0.4810]],
+       device='cuda:0'), grad: tensor([[ 8.5831e-03,  7.0862e-02,  6.3782e-03,  ...,  6.6895e-02,
+          3.3131e-03,  7.7095e-03],
+        [ 1.7273e-04,  1.9436e-03,  8.3089e-05,  ...,  1.9064e-03,
+          1.1468e-04, -2.1253e-06],
+        [ 1.9765e-04,  1.7166e-03,  1.1677e-04,  ...,  1.6680e-03,
+          1.2052e-04,  3.1441e-05],
+        ...,
+        [-1.0521e-02, -8.7769e-02, -7.5340e-03,  ..., -8.3252e-02,
+         -4.5013e-03, -7.9727e-03],
+        [ 1.0401e-04,  9.0122e-04,  6.2168e-05,  ...,  8.7309e-04,
+          6.3837e-05,  1.4529e-05],
+        [ 1.2314e-04,  1.0672e-03,  7.3791e-05,  ...,  1.0328e-03,
+          7.5579e-05,  1.6704e-05]], device='cuda:0')
+Epoch 31, bias, value: tensor([ 0.1015, -0.0532,  0.1764,  0.0280,  0.0941, -0.1064, -0.2706],
+       device='cuda:0'), grad: tensor([ 0.1705,  0.0160,  0.0131,  0.0868, -0.3018,  0.0070,  0.0083],
+       device='cuda:0')
+588
+0.006112604669781575
+changing lr
+epoch 30, time 792.87, cls_loss 0.5589 cls_loss_mapping 1.9335 cls_loss_causal 1.3668 re_mapping 0.0302 re_causal 0.0301 /// teacc 81.41 lr 0.00589278
+Epoch 32, weight, value: tensor([[ 0.0702,  0.1610,  0.1659,  ..., -0.1851, -0.0469,  0.0112],
+        [ 0.1920,  0.2958,  0.3260,  ...,  0.2392,  0.0818,  0.0443],
+        [-0.0358, -0.0815, -0.0593,  ..., -0.1650, -0.1044, -0.2176],
+        ...,
+        [-0.3745, -0.4795, -0.7929,  ...,  0.0723, -0.0060, -0.0847],
+        [-0.1691,  0.1043, -0.0395,  ..., -0.3111, -0.4995, -0.5245],
+        [ 0.1982, -0.0114,  0.1698,  ...,  0.2951,  0.2772,  0.4395]],
+       device='cuda:0'), grad: tensor([[-9.5081e-04, -3.6346e-02, -3.3226e-03,  ..., -3.7720e-02,
+         -3.8338e-03, -3.4103e-03],
+        [ 6.0387e-03,  2.0477e-02,  6.5842e-03,  ...,  1.6510e-02,
+          2.1992e-03,  1.4706e-03],
+        [ 5.1422e-03,  1.7365e-02,  5.6038e-03,  ...,  1.3977e-02,
+          1.8644e-03,  1.2445e-03],
+        ...,
+        [-1.1436e-02, -1.4702e-02, -1.0811e-02,  ..., -5.7411e-03,
+         -1.6279e-03, -4.7445e-04],
+        [ 3.0923e-04,  1.0662e-03,  3.3855e-04,  ...,  8.6403e-04,
+          1.1444e-04,  7.7009e-05],
+        [ 6.4898e-04,  5.5046e-03,  9.3555e-04,  ...,  5.2795e-03,
+          5.8413e-04,  4.7517e-04]], device='cuda:0')
+Epoch 32, bias, value: tensor([ 0.0865, -0.0390,  0.1070,  0.0425,  0.1243, -0.1049, -0.2173],
+       device='cuda:0'), grad: tensor([-0.1498,  0.0997,  0.0845,  0.0276, -0.0912,  0.0052,  0.0241],
+       device='cuda:0')
+588
+0.005892784473993186
+changing lr
+epoch 31, time 789.28, cls_loss 0.5478 cls_loss_mapping 1.9505 cls_loss_causal 1.3237 re_mapping 0.0289 re_causal 0.0288 /// teacc 86.93 lr 0.00567117
+Epoch 33, weight, value: tensor([[ 0.1787,  0.1940,  0.2738,  ..., -0.1753, -0.0474,  0.0055],
+        [ 0.1189,  0.2843,  0.2696,  ...,  0.2579,  0.1497,  0.1002],
+        [-0.0639, -0.0732, -0.1347,  ..., -0.1472, -0.1204, -0.1978],
+        ...,
+        [-0.4380, -0.5072, -0.8665,  ...,  0.0409, -0.0598, -0.1512],
+        [-0.1845,  0.0850, -0.0223,  ..., -0.3224, -0.4900, -0.5557],
+        [ 0.1926, -0.0030,  0.1807,  ...,  0.2941,  0.2018,  0.3720]],
+       device='cuda:0'), grad: tensor([[ 1.4009e-03,  6.5063e-02,  4.1428e-03,  ...,  7.5500e-02,
+          8.1329e-03,  6.8207e-03],
+        [-2.4028e-07, -4.8103e-07, -2.3004e-07,  ..., -4.8708e-07,
+         -2.3283e-07, -2.3143e-07],
+        [ 2.7940e-09,  7.3109e-08,  5.5879e-09,  ...,  8.3353e-08,
+          9.3132e-09,  7.4506e-09],
+        ...,
+        [-1.4009e-03, -6.5063e-02, -4.1428e-03,  ..., -7.5500e-02,
+         -8.1329e-03, -6.8207e-03],
+        [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  ...,  0.0000e+00,
+          0.0000e+00,  0.0000e+00],
+        [ 6.9849e-09,  2.0955e-08,  6.9849e-09,  ...,  1.6298e-08,
+          1.8626e-09,  1.3970e-09]], device='cuda:0')
+Epoch 33, bias, value: tensor([ 0.0913, -0.0071,  0.1498, -0.0085,  0.1505, -0.1858, -0.3046],
+       device='cuda:0'), grad: tensor([ 1.6663e-01, -1.4827e-06,  1.8440e-07,  0.0000e+00, -1.6663e-01,
+         0.0000e+00,  3.4925e-08], device='cuda:0')
+588
+0.00567116632908828
+changing lr
+epoch 32, time 787.23, cls_loss 0.5281 cls_loss_mapping 1.9423 cls_loss_causal 1.3058 re_mapping 0.0288 re_causal 0.0291 /// teacc 88.94 lr 0.00544820
+Epoch 34, weight, value: tensor([[ 0.1436,  0.1658,  0.2488,  ..., -0.2042, -0.0840, -0.0325],
+        [ 0.1438,  0.2868,  0.2862,  ...,  0.2637,  0.2187,  0.1660],
+        [ 0.0269, -0.0490, -0.0578,  ..., -0.1358, -0.1180, -0.1732],
+        ...,
+        [-0.5004, -0.5034, -0.9221,  ...,  0.0614, -0.0591, -0.1398],
+        [-0.1111,  0.1197,  0.0019,  ..., -0.2976, -0.4828, -0.5449],
+        [ 0.1616, -0.0235,  0.1684,  ...,  0.2804,  0.2455,  0.3867]],
+       device='cuda:0'), grad: tensor([[-7.2384e-04, -1.2749e-02, -9.0981e-04,  ..., -1.2650e-02,
+         -9.6798e-04, -7.5388e-04],
+        [ 5.0187e-05,  7.1383e-04,  5.4598e-05,  ...,  7.0143e-04,
+          5.3018e-05,  4.6372e-05],
+        [-1.1891e-04,  1.7214e-03,  3.9339e-05,  ...,  1.8473e-03,
+          1.5628e-04,  8.7097e-06],
+        ...,
+        [ 7.6675e-04,  1.0086e-02,  7.9441e-04,  ...,  9.8724e-03,
+          7.4244e-04,  6.7949e-04],
+        [ 1.6361e-05,  1.5628e-04,  1.4037e-05,  ...,  1.5020e-04,
+          1.0982e-05,  1.2457e-05],
+        [ 6.0499e-06,  4.7177e-05,  4.6641e-06,  ...,  4.4614e-05,
+          3.1833e-06,  4.2394e-06]], device='cuda:0')
+Epoch 34, bias, value: tensor([ 0.0882,  0.0159,  0.1829,  0.0143,  0.1056, -0.1164, -0.3854],
+       device='cuda:0'), grad: tensor([-0.0872,  0.0050,  0.0093,  0.0002,  0.0712,  0.0012,  0.0004],
+       device='cuda:0')
+588
+0.00544819654451717
+changing lr
+epoch 33, time 780.70, cls_loss 0.5007 cls_loss_mapping 1.9384 cls_loss_causal 1.2911 re_mapping 0.0270 re_causal 0.0263 /// teacc 90.20 lr 0.00522432
+Epoch 35, weight, value: tensor([[ 0.1378,  0.1749,  0.2338,  ..., -0.1912, -0.0928, -0.0316],
+        [ 0.1821,  0.2903,  0.3337,  ...,  0.2427,  0.1167,  0.0656],
+        [ 0.0177, -0.0646, -0.0655,  ..., -0.1328, -0.0040, -0.0710],
+        ...,
+        [-0.5194, -0.5005, -0.9457,  ...,  0.0597, -0.0653, -0.1602],
+        [-0.1479,  0.1023, -0.0466,  ..., -0.3068, -0.5084, -0.5564],
+        [ 0.1416, -0.0327,  0.1564,  ...,  0.2779,  0.2374,  0.4033]],
+       device='cuda:0'), grad: tensor([[-4.0894e-03, -1.9302e-02, -4.7836e-03,  ..., -1.8402e-02,
+         -2.9564e-03, -3.5534e-03],
+        [-1.3161e-03, -7.2365e-03, -5.1165e-04,  ..., -7.0686e-03,
+         -9.6512e-04, -6.0415e-04],
+        [ 6.8712e-04,  3.5839e-03,  4.6277e-04,  ...,  3.4637e-03,
+          4.8399e-04,  4.1103e-04],
+        ...,
+        [ 4.3678e-03,  2.1042e-02,  4.6806e-03,  ...,  2.0142e-02,
+          3.1796e-03,  3.5782e-03],
+        [ 6.6996e-05,  3.6597e-04,  2.8580e-05,  ...,  3.5739e-04,
+          4.9114e-05,  3.2097e-05],
+        [ 5.6148e-05,  3.0661e-04,  2.4080e-05,  ...,  2.9922e-04,
+          4.1157e-05,  2.6956e-05]], device='cuda:0')
+Epoch 35, bias, value: tensor([ 0.0577, -0.0212,  0.2175,  0.0436,  0.1364, -0.1740, -0.3820],
+       device='cuda:0'), grad: tensor([-0.0842, -0.1405,  0.0511,  0.0232,  0.1378,  0.0069,  0.0057],
+       device='cuda:0')
+588
+0.005224324151752577
+changing lr
+---------------------saving model at epoch 34----------------------------------------------------
+epoch 34, time 792.46, cls_loss 0.4855 cls_loss_mapping 1.9415 cls_loss_causal 1.2627 re_mapping 0.0273 re_causal 0.0272 /// teacc 93.72 lr 0.00500000
+Epoch 36, weight, value: tensor([[ 0.1592,  0.1802,  0.2719,  ..., -0.1982, -0.1356, -0.0742],
+        [ 0.1721,  0.2944,  0.3008,  ...,  0.2584,  0.1755,  0.1343],
+        [-0.0438, -0.0600, -0.1093,  ..., -0.1269, -0.0528, -0.1052],
+        ...,
+        [-0.4962, -0.5048, -0.9543,  ...,  0.0645, -0.0088, -0.1110],
+        [-0.1843,  0.0950, -0.0577,  ..., -0.3029, -0.5219, -0.5634],
+        [ 0.1817, -0.0359,  0.2240,  ...,  0.2611,  0.2249,  0.3406]],
+       device='cuda:0'), grad: tensor([[-3.6850e-03, -2.1744e-02, -3.0994e-03,  ..., -2.3209e-02,
+         -5.2834e-03, -8.6975e-03],
+        [ 6.9046e-04,  4.5662e-03,  1.1272e-03,  ...,  4.3983e-03,
+          1.1749e-03,  1.9588e-03],
+        [ 4.0970e-03,  2.6169e-02,  3.8052e-03,  ...,  2.7771e-02,
+          5.7373e-03,  9.2468e-03],
+        ...,
+        [-2.8491e-04, -3.0708e-03,  1.6379e-04,  ..., -3.7880e-03,
+         -2.3451e-06,  2.4116e-04],
+        [-1.0061e-03, -7.1716e-03, -2.3117e-03,  ..., -6.3667e-03,
+         -1.9512e-03, -3.2883e-03],
+        [ 3.1650e-05,  2.0635e-04,  4.8667e-05,  ...,  2.0099e-04,
+          5.2899e-05,  8.8096e-05]], device='cuda:0')
+Epoch 36, bias, value: tensor([ 0.0816,  0.0759,  0.1283,  0.0857,  0.1064, -0.2084, -0.4135],
+       device='cuda:0'), grad: tensor([-0.1311,  0.0734,  0.1991,  0.0175,  0.0037, -0.1656,  0.0031],
+       device='cuda:0')
+588
+0.005000000000000003
+changing lr
+epoch 35, time 783.25, cls_loss 0.4618 cls_loss_mapping 1.9557 cls_loss_causal 1.2492 re_mapping 0.0283 re_causal 0.0269 /// teacc 91.46 lr 0.00477568
+Epoch 37, weight, value: tensor([[ 0.1897,  0.1699,  0.2939,  ..., -0.2113, -0.1317, -0.0865],
+        [ 0.1542,  0.2962,  0.2920,  ...,  0.2618,  0.1356,  0.0984],
+        [-0.0906, -0.0793, -0.1750,  ..., -0.1409, -0.0610, -0.1353],
+        ...,
+        [-0.4988, -0.4865, -0.9342,  ...,  0.0907,  0.0712, -0.0095],
+        [-0.1918,  0.0788, -0.0490,  ..., -0.3132, -0.4803, -0.4981],
+        [ 0.1592,  0.0020,  0.1969,  ...,  0.2796,  0.1041,  0.2495]],
+       device='cuda:0'), grad: tensor([[ 9.3400e-05,  7.6008e-04,  2.1350e-04,  ...,  6.9237e-04,
+          1.8334e-04,  2.1243e-04],
+        [-3.7694e-04, -3.0670e-03, -8.6164e-04,  ..., -2.7943e-03,
+         -7.4005e-04, -8.5735e-04],
+        [ 1.0031e-04,  8.1635e-04,  2.2995e-04,  ...,  7.4291e-04,
+          1.9729e-04,  2.2852e-04],
+        ...,
+        [ 8.9943e-05,  7.3147e-04,  2.0504e-04,  ...,  6.6710e-04,
+          1.7619e-04,  2.0409e-04],
+        [ 1.8522e-05,  1.5068e-04,  4.2349e-05,  ...,  1.3721e-04,
+          3.6359e-05,  4.2111e-05],
+        [ 2.6643e-05,  2.1684e-04,  6.0916e-05,  ...,  1.9753e-04,
+          5.2303e-05,  6.0588e-05]], device='cuda:0')
+Epoch 37, bias, value: tensor([ 0.0977,  0.0658,  0.1415,  0.0637,  0.0653, -0.1797, -0.3550],
+       device='cuda:0'), grad: tensor([ 0.0334, -0.1346,  0.0360,  0.0172,  0.0320,  0.0066,  0.0095],
+       device='cuda:0')
+588
+0.004775675848247429
+changing lr
+epoch 36, time 783.95, cls_loss 0.4525 cls_loss_mapping 1.9504 cls_loss_causal 1.2418 re_mapping 0.0267 re_causal 0.0266 /// teacc 84.92 lr 0.00455180
+Epoch 38, weight, value: tensor([[ 0.2289,  0.1834,  0.3153,  ..., -0.1911, -0.0768, -0.0315],
+        [ 0.1340,  0.2911,  0.2879,  ...,  0.2600,  0.1506,  0.1044],
+        [-0.0733, -0.0648, -0.1309,  ..., -0.1318, -0.0661, -0.1380],
+        ...,
+        [-0.5562, -0.5126, -0.9928,  ...,  0.0574, -0.0010, -0.0800],
+        [-0.2364,  0.0840, -0.0911,  ..., -0.2944, -0.4563, -0.5099],
+        [ 0.2242, -0.0021,  0.2530,  ...,  0.2622,  0.0737,  0.2346]],
+       device='cuda:0'), grad: tensor([[ 7.0073e-06,  1.2942e-05,  7.4692e-06,  ...,  7.8082e-06,
+          2.2799e-06,  2.5239e-06],
+        [ 1.0513e-05,  1.3880e-05,  1.1139e-05,  ...,  5.0031e-06,
+          2.6040e-06,  2.6785e-06],
+        [ 2.7704e-04,  3.6693e-04,  2.9349e-04,  ...,  1.3280e-04,
+          6.8486e-05,  7.0453e-05],
+        ...,
+        [ 9.7603e-07, -2.5034e-06,  9.8161e-07,  ..., -4.1500e-06,
+         -3.3528e-07, -5.3272e-07],
+        [ 3.6415e-07,  4.8149e-07,  3.8557e-07,  ...,  1.7416e-07,
+          8.9873e-08,  9.2434e-08],
+        [ 1.5602e-05,  2.0653e-05,  1.6525e-05,  ...,  7.4692e-06,
+          3.8557e-06,  3.9637e-06]], device='cuda:0')
+Epoch 38, bias, value: tensor([ 0.1494,  0.0158,  0.1353,  0.0492,  0.1092, -0.2453, -0.4012],
+       device='cuda:0'), grad: tensor([ 8.9526e-05,  1.1724e-04,  3.0823e-03, -3.4676e-03, -1.4929e-06,
+         4.0494e-06,  1.7357e-04], device='cuda:0')
+588
+0.004551803455482836
+changing lr
+---------------------saving model at epoch 37----------------------------------------------------
+epoch 37, time 788.31, cls_loss 0.4664 cls_loss_mapping 1.9430 cls_loss_causal 1.2160 re_mapping 0.0257 re_causal 0.0254 /// teacc 93.97 lr 0.00432883
+Epoch 39, weight, value: tensor([[ 0.2287,  0.1864,  0.3241,  ..., -0.1933, -0.1127, -0.0606],
+        [ 0.1217,  0.2844,  0.2729,  ...,  0.2522,  0.1514,  0.1094],
+        [-0.0943, -0.0760, -0.1711,  ..., -0.1386, -0.0853, -0.1619],
+        ...,
+        [-0.5428, -0.4902, -0.9826,  ...,  0.0812,  0.0392, -0.0599],
+        [-0.2568,  0.0809, -0.0830,  ..., -0.2995, -0.5155, -0.5216],
+        [ 0.2825, -0.0056,  0.3099,  ...,  0.2560,  0.1212,  0.2796]],
+       device='cuda:0'), grad: tensor([[ 4.0293e-05,  4.3297e-04,  3.1263e-05,  ...,  4.8065e-04,
+          6.5863e-05,  5.6505e-05],
+        [ 1.0896e-06,  2.3633e-05,  2.9383e-07,  ...,  2.7090e-05,
+          2.9188e-06,  2.3171e-06],
+        [ 4.1664e-05,  3.5787e-04,  3.4630e-05,  ...,  3.9220e-04,
+          5.7667e-05,  5.3376e-05],
+        ...,
+        [-6.8724e-05, -7.6866e-04, -5.2094e-05,  ..., -8.5545e-04,
+         -1.1539e-04, -9.8288e-05],
+        [ 2.3283e-10,  6.9849e-10,  0.0000e+00,  ...,  6.9849e-10,
+          2.3283e-10,  2.3283e-10],
+        [-1.4283e-05, -4.4852e-05, -1.4044e-05,  ..., -4.3303e-05,
+         -1.0930e-05, -1.3828e-05]], device='cuda:0')
+Epoch 39, bias, value: tensor([ 0.1190,  0.0676,  0.1565, -0.0441,  0.1312, -0.2610, -0.3847],
+       device='cuda:0'), grad: tensor([ 1.2217e-03,  6.7651e-05,  1.1988e-03,  7.0408e-07, -2.1515e-03,
+         3.2596e-09, -3.3498e-04], device='cuda:0')
+588
+0.004328833670911726
+changing lr
+epoch 38, time 784.18, cls_loss 0.4472 cls_loss_mapping 1.9442 cls_loss_causal 1.1942 re_mapping 0.0270 re_causal 0.0265 /// teacc 93.47 lr 0.00410722
+Epoch 40, weight, value: tensor([[ 0.2546,  0.1916,  0.3477,  ..., -0.1922, -0.0895, -0.0418],
+        [ 0.1281,  0.2850,  0.2842,  ...,  0.2521,  0.1157,  0.0930],
+        [-0.1531, -0.0878, -0.2148,  ..., -0.1435, -0.0902, -0.1692],
+        ...,
+        [-0.5571, -0.4958, -1.0092,  ...,  0.0698, -0.0083, -0.1124],
+        [-0.2193,  0.0849, -0.0998,  ..., -0.2907, -0.4399, -0.4463],
+        [ 0.1715, -0.0198,  0.2185,  ...,  0.2701,  0.1888,  0.3255]],
+       device='cuda:0'), grad: tensor([[-9.0103e-03, -3.9062e-02, -9.1476e-03,  ..., -3.6407e-02,
+         -4.0588e-03, -4.5280e-03],
+        [ 1.7834e-03,  5.2071e-03,  1.9989e-03,  ...,  5.3062e-03,
+          1.6165e-03,  1.4610e-03],
+        [ 8.0049e-05,  1.7774e-04,  1.0103e-04,  ...,  2.2376e-04,
+          1.1939e-04,  1.0842e-04],
+        ...,
+        [ 7.1106e-03,  3.3569e-02,  7.0000e-03,  ...,  3.0777e-02,
+          2.2736e-03,  2.9144e-03],
+        [ 9.1717e-06,  2.0325e-05,  1.1586e-05,  ...,  2.5615e-05,
+          1.3702e-05,  1.2442e-05],
+        [ 8.8140e-06,  1.9535e-05,  1.1131e-05,  ...,  2.4632e-05,
+          1.3173e-05,  1.1958e-05]], device='cuda:0')
+Epoch 40, bias, value: tensor([ 0.1050,  0.1074,  0.1634, -0.0311,  0.0788, -0.3177, -0.3086],
+       device='cuda:0'), grad: tensor([-0.1447,  0.0321,  0.0043,  0.0007,  0.1066,  0.0005,  0.0005],
+       device='cuda:0')
+588
+0.0041072155260068206
+changing lr
+epoch 39, time 782.42, cls_loss 0.4391 cls_loss_mapping 1.9589 cls_loss_causal 1.2035 re_mapping 0.0263 re_causal 0.0250 /// teacc 91.96 lr 0.00388740
+Epoch 41, weight, value: tensor([[ 0.2227,  0.1939,  0.3234,  ..., -0.1803, -0.0550, -0.0208],
+        [ 0.1430,  0.2858,  0.2953,  ...,  0.2479,  0.0948,  0.0573],
+        [-0.1433, -0.0981, -0.2000,  ..., -0.1500, -0.0900, -0.1676],
+        ...,
+        [-0.5657, -0.5040, -1.0238,  ...,  0.0616, -0.0139, -0.1005],
+        [-0.1835,  0.0870, -0.0355,  ..., -0.3201, -0.4700, -0.4675],
+        [ 0.1760, -0.0047,  0.2028,  ...,  0.2794,  0.1684,  0.3296]],
+       device='cuda:0'), grad: tensor([[-2.0579e-05, -2.8896e-04, -1.3006e-04,  ..., -2.7037e-04,
+          2.0552e-04,  1.0031e-04],
+        [ 4.4751e-04,  2.1973e-03,  3.7789e-04,  ...,  2.2278e-03,
+          4.4155e-04,  3.4881e-04],
+        [ 1.6010e-04,  7.1859e-04,  9.1732e-05,  ...,  7.3814e-04,
+          2.4354e-04,  1.6868e-04],
+        ...,
+        [ 2.1231e-04,  9.5415e-04,  1.2207e-04,  ...,  9.7942e-04,
+          3.2210e-04,  2.2328e-04],
+        [ 1.7315e-05,  7.7784e-05,  9.8869e-06,  ...,  7.9930e-05,
+          2.6360e-05,  1.8254e-05],
+        [ 7.9334e-05,  3.5644e-04,  4.5359e-05,  ...,  3.6597e-04,
+          1.2076e-04,  8.3625e-05]], device='cuda:0')
+Epoch 41, bias, value: tensor([ 0.1438,  0.1089,  0.1524,  0.0046,  0.0176, -0.3236, -0.2939],
+       device='cuda:0'), grad: tensor([ 0.0361,  0.0327,  0.0260, -0.1449,  0.0344,  0.0028,  0.0129],
+       device='cuda:0')
+588
+0.0038873953302184317
+changing lr
+epoch 40, time 786.18, cls_loss 0.4465 cls_loss_mapping 1.9360 cls_loss_causal 1.1987 re_mapping 0.0257 re_causal 0.0254 /// teacc 92.21 lr 0.00366982
+Epoch 42, weight, value: tensor([[ 0.2736,  0.1915,  0.3684,  ..., -0.1951, -0.0769, -0.0139],
+        [ 0.0882,  0.2583,  0.2418,  ...,  0.2331,  0.0678,  0.0323],
+        [-0.1596, -0.0816, -0.2299,  ..., -0.1342, -0.1049, -0.1794],
+        ...,
+        [-0.6017, -0.5035, -1.0650,  ...,  0.0728,  0.0194, -0.0759],
+        [-0.1515,  0.1305, -0.0023,  ..., -0.2855, -0.4629, -0.4566],
+        [ 0.2664,  0.0152,  0.3001,  ...,  0.2841,  0.2332,  0.3476]],
+       device='cuda:0'), grad: tensor([[ 2.3155e-03,  9.1858e-03,  2.7180e-03,  ...,  7.8430e-03,
+          1.2178e-03,  5.9557e-04],
+        [-4.8561e-03, -1.9272e-02, -5.6992e-03,  ..., -1.6464e-02,
+         -2.5558e-03, -1.2503e-03],
+        [ 3.8242e-04,  1.5173e-03,  4.4894e-04,  ...,  1.2960e-03,
+          2.0123e-04,  9.8348e-05],
+        ...,
+        [ 2.0981e-03,  8.3313e-03,  2.4624e-03,  ...,  7.1220e-03,
+          1.1044e-03,  5.4121e-04],
+        [ 6.8173e-06,  2.7046e-05,  8.0019e-06,  ...,  2.3097e-05,
+          3.5875e-06,  1.7527e-06],
+        [ 3.9518e-05,  1.5676e-04,  4.6372e-05,  ...,  1.3387e-04,
+          2.0802e-05,  1.0163e-05]], device='cuda:0')
+Epoch 42, bias, value: tensor([ 0.1159,  0.1126,  0.1749,  0.0645,  0.0103, -0.3011, -0.3579],
+       device='cuda:0'), grad: tensor([ 0.0411, -0.0862,  0.0068,  0.0003,  0.0373,  0.0001,  0.0007],
+       device='cuda:0')
+588
+0.003669815772166629
+changing lr
+---------------------saving model at epoch 41----------------------------------------------------
+epoch 41, time 786.86, cls_loss 0.3834 cls_loss_mapping 1.9345 cls_loss_causal 1.1468 re_mapping 0.0246 re_causal 0.0246 /// teacc 94.97 lr 0.00345492
+Epoch 43, weight, value: tensor([[ 0.2760,  0.2026,  0.3453,  ..., -0.1840, -0.1054, -0.0200],
+        [ 0.0953,  0.2657,  0.2603,  ...,  0.2380,  0.0838,  0.0432],
+        [-0.2366, -0.1023, -0.2893,  ..., -0.1344, -0.0903, -0.1553],
+        ...,
+        [-0.5752, -0.5046, -1.0268,  ...,  0.0613,  0.0108, -0.1040],
+        [-0.1823,  0.0979, -0.0074,  ..., -0.3100, -0.4360, -0.4352],
+        [ 0.2821,  0.0240,  0.3158,  ...,  0.2901,  0.2566,  0.3585]],
+       device='cuda:0'), grad: tensor([[ 1.0252e-03,  1.8454e-03,  4.9829e-04,  ...,  9.4891e-04,
+          2.6345e-04,  1.8966e-04],
+        [ 9.6083e-04,  1.6947e-03,  4.6277e-04,  ...,  8.4972e-04,
+          2.3973e-04,  1.7083e-04],
+        [-1.4610e-03, -3.5992e-03, -1.1787e-03,  ..., -3.1891e-03,
+         -1.7548e-03, -1.3428e-03],
+        ...,
+        [-4.3488e-03, -7.6141e-03, -2.0332e-03,  ..., -3.6888e-03,
+         -9.3412e-04, -6.4993e-04],
+        [ 7.2122e-05,  1.2541e-04,  3.4004e-05,  ...,  6.0558e-05,
+          1.5840e-05,  1.1131e-05],
+        [ 6.5517e-04,  1.1730e-03,  3.5477e-04,  ...,  6.4039e-04,
+          2.1708e-04,  1.7202e-04]], device='cuda:0')
+Epoch 43, bias, value: tensor([ 0.1260,  0.0952,  0.1735,  0.1009,  0.0077, -0.3247, -0.3742],
+       device='cuda:0'), grad: tensor([ 0.0340,  0.0319, -0.0388,  0.0941, -0.1451,  0.0024,  0.0217],
+       device='cuda:0')
+588
+0.0034549150281252667
+changing lr
+epoch 42, time 783.32, cls_loss 0.3975 cls_loss_mapping 1.9322 cls_loss_causal 1.1577 re_mapping 0.0242 re_causal 0.0236 /// teacc 91.96 lr 0.00324313
+Epoch 44, weight, value: tensor([[ 0.2616,  0.2044,  0.3484,  ..., -0.1819, -0.1111, -0.0471],
+        [ 0.1048,  0.2616,  0.2656,  ...,  0.2319,  0.0742,  0.0432],
+        [-0.1846, -0.1050, -0.2512,  ..., -0.1449, -0.0842, -0.1505],
+        ...,
+        [-0.5877, -0.4920, -1.0572,  ...,  0.0765,  0.0068, -0.0793],
+        [-0.1160,  0.1094,  0.0698,  ..., -0.3008, -0.3338, -0.3541],
+        [ 0.2883,  0.0069,  0.3251,  ...,  0.2694,  0.2338,  0.3429]],
+       device='cuda:0'), grad: tensor([[ 1.8954e-04,  5.0497e-04,  1.9276e-04,  ...,  3.6740e-04,
+          1.2314e-04,  3.2336e-05],
+        [ 3.0947e-04,  8.2493e-04,  3.1471e-04,  ...,  5.9986e-04,
+          2.0123e-04,  5.2840e-05],
+        [-1.0490e-03, -2.7962e-03, -1.0672e-03,  ..., -2.0332e-03,
+         -6.8188e-04, -1.7858e-04],
+        ...,
+        [ 2.6011e-04,  6.9284e-04,  2.6441e-04,  ...,  5.0402e-04,
+          1.6904e-04,  4.4376e-05],
+        [ 5.2243e-05,  1.3924e-04,  5.3108e-05,  ...,  1.0127e-04,
+          3.3945e-05,  8.9109e-06],
+        [ 7.5281e-05,  2.0051e-04,  7.6532e-05,  ...,  1.4591e-04,
+          4.8906e-05,  1.2852e-05]], device='cuda:0')
+Epoch 44, bias, value: tensor([ 0.1253,  0.1216,  0.1605,  0.0672,  0.0256, -0.3162, -0.3921],
+       device='cuda:0'), grad: tensor([ 0.0244,  0.0399, -0.1354,  0.0211,  0.0335,  0.0067,  0.0097],
+       device='cuda:0')
+588
+0.0032431258795932905
+changing lr
+epoch 43, time 784.54, cls_loss 0.3904 cls_loss_mapping 1.9376 cls_loss_causal 1.1509 re_mapping 0.0241 re_causal 0.0237 /// teacc 94.72 lr 0.00303487
+Epoch 45, weight, value: tensor([[ 0.2542,  0.1999,  0.3509,  ..., -0.1829, -0.0909, -0.0348],
+        [ 0.0895,  0.2586,  0.2547,  ...,  0.2285,  0.0502,  0.0444],
+        [-0.2154, -0.1045, -0.2712,  ..., -0.1404, -0.0845, -0.1582],
+        ...,
+        [-0.5796, -0.4974, -1.0665,  ...,  0.0678, -0.0097, -0.1135],
+        [-0.1154,  0.1240,  0.0615,  ..., -0.2858, -0.3634, -0.4004],
+        [ 0.3239,  0.0198,  0.3454,  ...,  0.2829,  0.2449,  0.3608]],
+       device='cuda:0'), grad: tensor([[ 2.7418e-04,  4.1986e-04,  2.1204e-05,  ...,  3.7193e-04,
+          1.9688e-06, -1.1392e-05],
+        [ 2.9540e-04,  5.5075e-04,  6.0976e-05,  ...,  4.8780e-04,
+          1.5929e-05,  1.3588e-06],
+        [ 3.1590e-04,  4.7851e-04,  5.8949e-05,  ...,  3.9315e-04,
+         -2.9225e-06, -1.5214e-05],
+        ...,
+        [ 4.0150e-04,  9.0122e-04,  1.0592e-04,  ...,  8.2874e-04,
+          4.7475e-05,  2.4393e-05],
+        [ 2.8431e-05,  5.2780e-05,  5.7928e-06,  ...,  4.6760e-05,
+          1.5041e-06,  1.0326e-07],
+        [ 8.4102e-05,  1.5700e-04,  1.7449e-05,  ...,  1.3900e-04,
+          4.5672e-06,  4.1816e-07]], device='cuda:0')
+Epoch 45, bias, value: tensor([ 0.1590,  0.0960,  0.1929,  0.0518,  0.0281, -0.3610, -0.4260],
+       device='cuda:0'), grad: tensor([ 0.0311,  0.0294,  0.0315, -0.1414,  0.0381,  0.0028,  0.0084],
+       device='cuda:0')
+588
+0.0030348748417303863
+changing lr
+epoch 44, time 783.66, cls_loss 0.3736 cls_loss_mapping 1.9361 cls_loss_causal 1.1348 re_mapping 0.0233 re_causal 0.0239 /// teacc 92.71 lr 0.00283058
+Epoch 46, weight, value: tensor([[ 2.6471e-01,  1.9714e-01,  3.6917e-01,  ..., -1.8629e-01,
+         -1.1565e-01, -5.0080e-02],
+        [ 5.0419e-02,  2.4856e-01,  1.9977e-01,  ...,  2.3564e-01,
+          7.1863e-02,  8.0459e-02],
+        [-1.8962e-01, -1.0444e-01, -2.5039e-01,  ..., -1.4142e-01,
+         -7.1101e-02, -1.4100e-01],
+        ...,
+        [-5.7204e-01, -4.8643e-01, -1.0522e+00,  ...,  7.2664e-02,
+         -7.6668e-03, -1.2232e-01],
+        [-1.0552e-01,  1.3934e-01,  7.8426e-02,  ..., -2.8409e-01,
+         -3.5465e-01, -4.0601e-01],
+        [ 2.8772e-01, -3.1046e-04,  3.1284e-01,  ...,  2.7507e-01,
+          2.4946e-01,  3.5473e-01]], device='cuda:0'), grad: tensor([[ 3.2215e-03,  9.5901e-03,  2.5692e-03,  ...,  8.6060e-03,
+          1.9588e-03,  1.6575e-03],
+        [ 2.7237e-03,  7.4730e-03,  2.1553e-03,  ...,  6.3934e-03,
+          1.4744e-03,  1.1158e-03],
+        [ 5.7793e-04,  2.8210e-03,  4.9353e-04,  ...,  3.0804e-03,
+          6.7043e-04,  8.0061e-04],
+        ...,
+        [-6.8359e-03, -2.0737e-02, -5.4626e-03,  ..., -1.8799e-02,
+         -4.2725e-03, -3.7003e-03],
+        [ 2.5630e-04,  7.0286e-04,  2.0278e-04,  ...,  6.0129e-04,
+          1.3864e-04,  1.0490e-04],
+        [ 3.8028e-05,  1.0431e-04,  3.0071e-05,  ...,  8.9228e-05,
+          2.0579e-05,  1.5572e-05]], device='cuda:0')
+Epoch 46, bias, value: tensor([ 0.1438,  0.1147,  0.1677,  0.0274,  0.0729, -0.3093, -0.4694],
+       device='cuda:0'), grad: tensor([ 0.0778,  0.0657,  0.0140,  0.0004, -0.1649,  0.0062,  0.0009],
+       device='cuda:0')
+588
+0.0028305813044122124
+changing lr
+---------------------saving model at epoch 45----------------------------------------------------
+epoch 45, time 786.48, cls_loss 0.3843 cls_loss_mapping 1.9282 cls_loss_causal 1.1484 re_mapping 0.0218 re_causal 0.0213 /// teacc 96.48 lr 0.00263066
+Epoch 47, weight, value: tensor([[ 0.2334,  0.1967,  0.3437,  ..., -0.1808, -0.1440, -0.0759],
+        [ 0.0723,  0.2512,  0.2273,  ...,  0.2233,  0.0811,  0.0636],
+        [-0.2039, -0.1005, -0.2760,  ..., -0.1240, -0.0488, -0.1136],
+        ...,
+        [-0.5849, -0.4956, -1.0709,  ...,  0.0639, -0.0269, -0.1389],
+        [-0.0598,  0.1347,  0.1103,  ..., -0.3024, -0.3869, -0.4282],
+        [ 0.3681,  0.0221,  0.3768,  ...,  0.2889,  0.2922,  0.4230]],
+       device='cuda:0'), grad: tensor([[ 0.0010,  0.0016,  0.0008,  ...,  0.0012,  0.0005,  0.0005],
+        [ 0.0014,  0.0024,  0.0012,  ...,  0.0017,  0.0007,  0.0007],
+        [ 0.0013,  0.0025,  0.0010,  ...,  0.0018,  0.0006,  0.0006],
+        ...,
+        [-0.0026, -0.0032, -0.0022,  ..., -0.0024, -0.0013, -0.0012],
+        [ 0.0012,  0.0033,  0.0009,  ...,  0.0024,  0.0005,  0.0006],
+        [-0.0025, -0.0071, -0.0020,  ..., -0.0051, -0.0010, -0.0012]],
+       device='cuda:0')
+Epoch 47, bias, value: tensor([ 0.1264,  0.1423,  0.1320,  0.0844,  0.0361, -0.3162, -0.4218],
+       device='cuda:0'), grad: tensor([ 0.0201,  0.0292,  0.0294,  0.0060, -0.0441,  0.0356, -0.0762],
+       device='cuda:0')
+588
+0.0026306566876350096
+changing lr
+epoch 46, time 779.44, cls_loss 0.3831 cls_loss_mapping 1.9341 cls_loss_causal 1.1325 re_mapping 0.0212 re_causal 0.0208 /// teacc 92.71 lr 0.00243550
+Epoch 48, weight, value: tensor([[ 0.2317,  0.1770,  0.3421,  ..., -0.1945, -0.1259, -0.0558],
+        [ 0.0661,  0.2648,  0.2316,  ...,  0.2448,  0.1011,  0.0879],
+        [-0.2064, -0.1040, -0.2753,  ..., -0.1376, -0.0857, -0.1467],
+        ...,
+        [-0.5349, -0.4846, -1.0485,  ...,  0.0642, -0.0333, -0.1506],
+        [-0.0622,  0.1339,  0.1200,  ..., -0.3065, -0.4073, -0.4532],
+        [ 0.3282,  0.0328,  0.3606,  ...,  0.3091,  0.3205,  0.4299]],
+       device='cuda:0'), grad: tensor([[-1.6708e-06, -1.3663e-06, -1.4724e-06,  ..., -1.1250e-06,
+         -1.6056e-06, -1.4696e-06],
+        [ 2.8568e-07,  7.2783e-07,  2.6193e-07,  ...,  7.0501e-07,
+          2.5099e-07,  2.3167e-07],
+        [ 6.6822e-07,  1.5646e-06,  6.2911e-07,  ...,  1.4855e-06,
+          5.8720e-07,  5.2806e-07],
+        ...,
+        [ 7.1665e-07, -9.3039e-07,  5.8161e-07,  ..., -1.0701e-06,
+          7.6694e-07,  7.0967e-07],
+        [ 5.2387e-09,  1.3271e-08,  4.8894e-09,  ...,  1.2806e-08,
+          4.6566e-09,  4.3074e-09],
+        [ 2.9104e-09,  1.1642e-08,  2.4447e-09,  ...,  1.1991e-08,
+          2.6776e-09,  2.6776e-09]], device='cuda:0')
+Epoch 48, bias, value: tensor([ 0.1174,  0.1374,  0.1742,  0.0632,  0.0500, -0.3380, -0.4489],
+       device='cuda:0'), grad: tensor([-3.3021e-05,  5.5842e-06,  1.1601e-05,  2.9104e-08,  1.5795e-05,
+         1.0221e-07,  8.3703e-08], device='cuda:0')
+588
+0.0024355036129704724
+changing lr
+epoch 47, time 785.99, cls_loss 0.3711 cls_loss_mapping 1.9306 cls_loss_causal 1.1429 re_mapping 0.0230 re_causal 0.0227 /// teacc 94.72 lr 0.00224552
+Epoch 49, weight, value: tensor([[ 0.2153,  0.1796,  0.3177,  ..., -0.1834, -0.1455, -0.0606],
+        [ 0.0635,  0.2648,  0.2266,  ...,  0.2447,  0.1170,  0.0990],
+        [-0.2210, -0.1118, -0.2830,  ..., -0.1473, -0.1037, -0.1623],
+        ...,
+        [-0.5120, -0.4846, -1.0155,  ...,  0.0562, -0.0265, -0.1555],
+        [-0.0635,  0.1466,  0.1298,  ..., -0.2945, -0.4046, -0.4416],
+        [ 0.3146,  0.0185,  0.3507,  ...,  0.2994,  0.3178,  0.4276]],
+       device='cuda:0'), grad: tensor([[ 2.0523e-03,  3.8033e-03,  2.3422e-03,  ...,  4.7379e-03,
+          3.1986e-03,  3.1414e-03],
+        [ 4.0317e-04,  8.0490e-04,  4.6396e-04,  ...,  9.9659e-04,
+          6.4039e-04,  6.2370e-04],
+        [-5.9738e-03, -1.0742e-02, -6.8436e-03,  ..., -1.3458e-02,
+         -9.3231e-03, -9.1324e-03],
+        ...,
+        [ 2.5711e-03,  4.7226e-03,  2.9678e-03,  ...,  5.9280e-03,
+          4.0627e-03,  3.9520e-03],
+        [ 2.1845e-05,  2.7567e-05,  2.4348e-05,  ...,  3.6001e-05,
+          3.1859e-05,  3.2157e-05],
+        [ 2.5868e-04,  3.8934e-04,  2.9182e-04,  ...,  4.9734e-04,
+          3.8886e-04,  3.8719e-04]], device='cuda:0')
+Epoch 49, bias, value: tensor([ 0.0580,  0.1596,  0.1594,  0.1096,  0.0947, -0.3838, -0.4631],
+       device='cuda:0'), grad: tensor([ 0.0525,  0.0104, -0.1501,  0.0162,  0.0643,  0.0005,  0.0063],
+       device='cuda:0')
+588
+0.00224551509273949
+changing lr
+epoch 48, time 790.56, cls_loss 0.3572 cls_loss_mapping 1.9332 cls_loss_causal 1.1191 re_mapping 0.0222 re_causal 0.0223 /// teacc 93.47 lr 0.00206107
+Epoch 50, weight, value: tensor([[ 0.2399,  0.1888,  0.3436,  ..., -0.1803, -0.1240, -0.0536],
+        [ 0.0767,  0.2710,  0.2363,  ...,  0.2482,  0.1140,  0.0998],
+        [-0.2148, -0.1104, -0.2693,  ..., -0.1471, -0.0995, -0.1634],
+        ...,
+        [-0.5746, -0.5068, -1.0803,  ...,  0.0429, -0.0562, -0.1667],
+        [-0.0173,  0.1536,  0.1681,  ..., -0.2937, -0.3785, -0.4233],
+        [ 0.3104,  0.0235,  0.3473,  ...,  0.3113,  0.3387,  0.4387]],
+       device='cuda:0'), grad: tensor([[-7.2956e-04, -1.8120e-03, -1.1892e-03,  ..., -1.0672e-03,
+         -8.6069e-04, -9.6846e-04],
+        [ 1.4484e-04,  3.7122e-04,  2.3365e-04,  ...,  2.2805e-04,
+          1.6963e-04,  1.9050e-04],
+        [ 1.5938e-04,  3.8457e-04,  2.6131e-04,  ...,  2.2137e-04,
+          1.8907e-04,  2.1195e-04],
+        ...,
+        [ 1.6308e-04,  3.8433e-04,  2.7084e-04,  ...,  2.0492e-04,
+          1.9467e-04,  2.2066e-04],
+        [ 3.3885e-05,  8.6725e-05,  5.4687e-05,  ...,  5.3227e-05,
+          3.9697e-05,  4.4554e-05],
+        [ 5.6535e-05,  1.4496e-04,  9.1255e-05,  ...,  8.8990e-05,
+          6.6221e-05,  7.4387e-05]], device='cuda:0')
+Epoch 50, bias, value: tensor([ 0.1082,  0.1295,  0.1551,  0.0946,  0.0723, -0.3740, -0.4469],
+       device='cuda:0'), grad: tensor([-0.1224,  0.0237,  0.0267,  0.0282,  0.0290,  0.0055,  0.0093],
+       device='cuda:0')
+588
+0.002061073738537637
+changing lr
+epoch 49, time 788.69, cls_loss 0.3665 cls_loss_mapping 1.9277 cls_loss_causal 1.1219 re_mapping 0.0222 re_causal 0.0220 /// teacc 95.48 lr 0.00188255
+Epoch 51, weight, value: tensor([[ 0.2191,  0.1819,  0.3122,  ..., -0.1835, -0.1448, -0.0756],
+        [ 0.1037,  0.2820,  0.2754,  ...,  0.2452,  0.1066,  0.0904],
+        [-0.2208, -0.1131, -0.2618,  ..., -0.1455, -0.0645, -0.1301],
+        ...,
+        [-0.5626, -0.4958, -1.0659,  ...,  0.0522, -0.0466, -0.1551],
+        [-0.0463,  0.1518,  0.1266,  ..., -0.2757, -0.3612, -0.4114],
+        [ 0.3035,  0.0050,  0.3329,  ...,  0.2943,  0.3060,  0.4049]],
+       device='cuda:0'), grad: tensor([[ 6.5565e-04,  9.1028e-04,  5.0497e-04,  ...,  7.4339e-04,
+          4.1914e-04,  3.8123e-04],
+        [ 6.3658e-04,  8.8263e-04,  4.9019e-04,  ...,  7.2050e-04,
+          4.0674e-04,  3.7003e-04],
+        [ 6.3324e-04,  8.8644e-04,  4.8876e-04,  ...,  7.2575e-04,
+          4.0650e-04,  3.6931e-04],
+        ...,
+        [ 7.3385e-04,  1.0080e-03,  5.6362e-04,  ...,  8.2016e-04,
+          4.6659e-04,  4.2510e-04],
+        [ 1.5152e-04,  2.1005e-04,  1.1665e-04,  ...,  1.7142e-04,
+          9.6798e-05,  8.8036e-05],
+        [-3.3264e-03, -4.6120e-03, -2.5616e-03,  ..., -3.7632e-03,
+         -2.1248e-03, -1.9331e-03]], device='cuda:0')
+Epoch 51, bias, value: tensor([ 0.0858,  0.1260,  0.1884,  0.0864,  0.0912, -0.3906, -0.4686],
+       device='cuda:0'), grad: tensor([ 0.0308,  0.0299,  0.0297,  0.0243,  0.0345,  0.0071, -0.1561],
+       device='cuda:0')
+588
+0.0018825509907063344
+changing lr
+epoch 50, time 785.77, cls_loss 0.3542 cls_loss_mapping 1.9275 cls_loss_causal 1.1163 re_mapping 0.0216 re_causal 0.0213 /// teacc 93.22 lr 0.00171031
+Epoch 52, weight, value: tensor([[ 0.2098,  0.1761,  0.3166,  ..., -0.1880, -0.1417, -0.0865],
+        [ 0.1093,  0.2822,  0.2661,  ...,  0.2452,  0.1023,  0.0940],
+        [-0.2233, -0.0922, -0.2693,  ..., -0.1280, -0.0909, -0.1585],
+        ...,
+        [-0.5777, -0.5100, -1.0744,  ...,  0.0396, -0.0517, -0.1567],
+        [-0.0465,  0.1495,  0.1380,  ..., -0.2797, -0.3332, -0.3724],
+        [ 0.3089,  0.0082,  0.3351,  ...,  0.3006,  0.3178,  0.4168]],
+       device='cuda:0'), grad: tensor([[ 1.4377e-04,  7.7581e-04,  1.5867e-04,  ...,  2.9039e-04,
+          1.3256e-04,  1.4246e-04],
+        [ 1.7059e-04,  9.2077e-04,  1.8847e-04,  ...,  3.4213e-04,
+          1.5652e-04,  1.6844e-04],
+        [ 1.5652e-04,  8.4639e-04,  1.7262e-04,  ...,  3.2306e-04,
+          1.4651e-04,  1.5712e-04],
+        ...,
+        [ 1.2660e-04,  6.8045e-04,  1.4019e-04,  ...,  2.4259e-04,
+          1.1247e-04,  1.2153e-04],
+        [ 2.2918e-05,  1.2362e-04,  2.5317e-05,  ...,  4.5955e-05,
+          2.1026e-05,  2.2620e-05],
+        [-7.2956e-04, -3.9368e-03, -8.0585e-04,  ..., -1.4629e-03,
+         -6.6900e-04, -7.2002e-04]], device='cuda:0')
+Epoch 52, bias, value: tensor([ 0.0835,  0.1508,  0.1561,  0.1077,  0.0688, -0.3706, -0.4519],
+       device='cuda:0'), grad: tensor([ 0.0311,  0.0370,  0.0338,  0.0237,  0.0277,  0.0050, -0.1583],
+       device='cuda:0')
+588
+0.0017103063703014388
+changing lr
+epoch 51, time 787.03, cls_loss 0.3438 cls_loss_mapping 1.9289 cls_loss_causal 1.1084 re_mapping 0.0213 re_causal 0.0209 /// teacc 93.72 lr 0.00154469
+Epoch 53, weight, value: tensor([[ 0.2469,  0.1836,  0.3540,  ..., -0.1854, -0.1377, -0.0702],
+        [ 0.0701,  0.2723,  0.2175,  ...,  0.2454,  0.0796,  0.0765],
+        [-0.2200, -0.1050, -0.2800,  ..., -0.1408, -0.0909, -0.1600],
+        ...,
+        [-0.5676, -0.4990, -1.0609,  ...,  0.0535, -0.0224, -0.1426],
+        [-0.0542,  0.1474,  0.1292,  ..., -0.2865, -0.3384, -0.3775],
+        [ 0.2809,  0.0043,  0.3298,  ...,  0.2902,  0.2874,  0.3801]],
+       device='cuda:0'), grad: tensor([[ 8.7118e-04,  1.5526e-03,  4.0627e-04,  ...,  1.3914e-03,
+          5.4741e-04,  8.0299e-04],
+        [-2.5692e-03, -4.5815e-03, -1.2026e-03,  ..., -4.1008e-03,
+         -1.6146e-03, -2.3670e-03],
+        [ 6.7759e-04,  1.2131e-03,  3.1877e-04,  ...,  1.0862e-03,
+          4.2677e-04,  6.2466e-04],
+        ...,
+        [ 4.7398e-04,  8.4019e-04,  2.2197e-04,  ...,  7.5054e-04,
+          2.9707e-04,  4.3631e-04],
+        [ 1.8269e-05,  3.2544e-05,  8.5458e-06,  ...,  2.9147e-05,
+          1.1474e-05,  1.6823e-05],
+        [ 9.8526e-05,  1.7560e-04,  4.6104e-05,  ...,  1.5724e-04,
+          6.1929e-05,  9.0778e-05]], device='cuda:0')
+Epoch 53, bias, value: tensor([ 0.1019,  0.1289,  0.1649,  0.1096,  0.0778, -0.3605, -0.4967],
+       device='cuda:0'), grad: tensor([ 0.0468, -0.1378,  0.0363,  0.0231,  0.0254,  0.0010,  0.0053],
+       device='cuda:0')
+588
+0.0015446867550656784
+changing lr
+epoch 52, time 789.17, cls_loss 0.3516 cls_loss_mapping 1.9276 cls_loss_causal 1.1105 re_mapping 0.0225 re_causal 0.0214 /// teacc 95.48 lr 0.00138603
+Epoch 54, weight, value: tensor([[ 0.2322,  0.1823,  0.3341,  ..., -0.1877, -0.1560, -0.0878],
+        [ 0.0749,  0.2710,  0.2307,  ...,  0.2453,  0.0947,  0.0902],
+        [-0.2147, -0.1127, -0.2756,  ..., -0.1534, -0.1092, -0.1841],
+        ...,
+        [-0.5747, -0.5009, -1.0578,  ...,  0.0574, -0.0019, -0.1170],
+        [-0.0711,  0.1656,  0.1105,  ..., -0.2614, -0.3372, -0.3711],
+        [ 0.3079,  0.0247,  0.3522,  ...,  0.3078,  0.3029,  0.3983]],
+       device='cuda:0'), grad: tensor([[ 1.0042e-03,  2.5921e-03,  1.2245e-03,  ...,  4.1580e-03,
+          2.9621e-03,  2.6665e-03],
+        [-2.4005e-07, -1.1129e-06, -2.3784e-07,  ..., -8.4098e-07,
+          1.3364e-07,  1.3469e-07],
+        [ 1.3776e-05,  3.5554e-05,  1.6809e-05,  ...,  5.7012e-05,
+          4.0650e-05,  3.6597e-05],
+        ...,
+        [-1.0185e-03, -2.6283e-03, -1.2426e-03,  ..., -4.2152e-03,
+         -3.0041e-03, -2.7065e-03],
+        [ 9.3132e-09,  2.4331e-08,  1.1292e-08,  ...,  3.8301e-08,
+          2.6776e-08,  2.4098e-08],
+        [ 6.1933e-08,  1.6170e-07,  7.5437e-08,  ...,  2.5611e-07,
+          1.7998e-07,  1.6193e-07]], device='cuda:0')
+Epoch 54, bias, value: tensor([ 0.1105,  0.1118,  0.1558,  0.0989,  0.0834, -0.3506, -0.4729],
+       device='cuda:0'), grad: tensor([ 1.3330e-01,  1.2554e-05,  1.8291e-03,  1.0077e-06, -1.3525e-01,
+         1.2014e-06,  8.0764e-06], device='cuda:0')
+588
+0.001386025680863044
+changing lr
+epoch 53, time 788.91, cls_loss 0.3380 cls_loss_mapping 1.9286 cls_loss_causal 1.0914 re_mapping 0.0203 re_causal 0.0200 /// teacc 95.48 lr 0.00123464
+Epoch 55, weight, value: tensor([[ 2.2798e-01,  1.8316e-01,  3.1918e-01,  ..., -1.8363e-01,
+         -1.4985e-01, -8.6179e-02],
+        [ 6.9753e-02,  2.6283e-01,  2.3191e-01,  ...,  2.3493e-01,
+          8.6738e-02,  8.4826e-02],
+        [-2.1079e-01, -1.1086e-01, -2.7724e-01,  ..., -1.5620e-01,
+         -1.2376e-01, -2.0306e-01],
+        ...,
+        [-5.6177e-01, -4.9989e-01, -1.0330e+00,  ...,  5.4938e-02,
+         -7.7232e-04, -1.1237e-01],
+        [-8.1593e-02,  1.6836e-01,  8.3106e-02,  ..., -2.4386e-01,
+         -3.3586e-01, -3.6263e-01],
+        [ 3.2812e-01,  3.2232e-02,  3.7982e-01,  ...,  3.1652e-01,
+          3.2753e-01,  4.2295e-01]], device='cuda:0'), grad: tensor([[2.2545e-05, 1.5283e-04, 2.8655e-05,  ..., 1.7333e-04, 4.6343e-05,
+         4.2558e-05],
+        [1.0602e-05, 7.1943e-05, 1.3478e-05,  ..., 8.1599e-05, 2.1815e-05,
+         2.0027e-05],
+        [2.9159e-04, 1.9779e-03, 3.7074e-04,  ..., 2.2430e-03, 5.9986e-04,
+         5.5075e-04],
+        ...,
+        [3.2727e-06, 2.2188e-05, 4.1574e-06,  ..., 2.5168e-05, 6.7279e-06,
+         6.1765e-06],
+        [3.3644e-08, 2.2794e-07, 4.2724e-08,  ..., 2.5844e-07, 6.9151e-08,
+         6.3446e-08],
+        [4.0323e-05, 2.7347e-04, 5.1260e-05,  ..., 3.1018e-04, 8.2970e-05,
+         7.6115e-05]], device='cuda:0')
+Epoch 55, bias, value: tensor([ 0.1018,  0.1164,  0.1551,  0.0704,  0.1154, -0.3603, -0.4776],
+       device='cuda:0'), grad: tensor([ 9.9850e-04,  4.6992e-04,  1.2924e-02, -1.6327e-02,  1.4496e-04,
+         1.4892e-06,  1.7872e-03], device='cuda:0')
+588
+0.0012346426699819469
+changing lr
+epoch 54, time 788.71, cls_loss 0.3359 cls_loss_mapping 1.9262 cls_loss_causal 1.0900 re_mapping 0.0211 re_causal 0.0205 /// teacc 94.47 lr 0.00109084
+Epoch 56, weight, value: tensor([[ 0.2324,  0.1790,  0.3327,  ..., -0.1902, -0.1513, -0.0940],
+        [ 0.0627,  0.2626,  0.2145,  ...,  0.2361,  0.0724,  0.0740],
+        [-0.2308, -0.1093, -0.2874,  ..., -0.1488, -0.1121, -0.1878],
+        ...,
+        [-0.5513, -0.4873, -1.0284,  ...,  0.0664,  0.0031, -0.1088],
+        [-0.0654,  0.1487,  0.0905,  ..., -0.2670, -0.3383, -0.3605],
+        [ 0.3282,  0.0185,  0.3759,  ...,  0.3043,  0.3306,  0.4261]],
+       device='cuda:0'), grad: tensor([[3.3426e-04, 7.4291e-04, 3.3307e-04,  ..., 8.4448e-04, 4.5776e-04,
+         5.6887e-04],
+        [4.5919e-04, 8.7404e-04, 4.4036e-04,  ..., 1.0138e-03, 6.0797e-04,
+         7.7391e-04],
+        [1.8072e-04, 3.4547e-04, 1.7345e-04,  ..., 4.0030e-04, 2.3913e-04,
+         3.0422e-04],
+        ...,
+        [2.2852e-04, 3.3045e-04, 2.0659e-04,  ..., 3.9959e-04, 2.8634e-04,
+         3.7813e-04],
+        [3.4541e-05, 6.5804e-05, 3.3140e-05,  ..., 7.6354e-05, 4.5687e-05,
+         5.8144e-05],
+        [7.0751e-05, 1.3483e-04, 6.7890e-05,  ..., 1.5640e-04, 9.3639e-05,
+         1.1915e-04]], device='cuda:0')
+Epoch 56, bias, value: tensor([ 0.0903,  0.1428,  0.1313,  0.0768,  0.1115, -0.3425, -0.4721],
+       device='cuda:0'), grad: tensor([ 0.0386,  0.0524,  0.0206, -0.1489,  0.0254,  0.0039,  0.0081],
+       device='cuda:0')
+588
+0.0010908425876598518
+changing lr
+---------------------saving model at epoch 55----------------------------------------------------
+epoch 55, time 792.85, cls_loss 0.3262 cls_loss_mapping 1.9267 cls_loss_causal 1.0805 re_mapping 0.0196 re_causal 0.0187 /// teacc 96.73 lr 0.00095492
+Epoch 57, weight, value: tensor([[ 0.2238,  0.1806,  0.3225,  ..., -0.1885, -0.1617, -0.1083],
+        [ 0.0666,  0.2656,  0.2264,  ...,  0.2385,  0.0816,  0.0906],
+        [-0.2486, -0.1184, -0.3053,  ..., -0.1569, -0.1267, -0.2025],
+        ...,
+        [-0.5184, -0.4844, -1.0079,  ...,  0.0666,  0.0129, -0.1004],
+        [-0.0858,  0.1492,  0.0724,  ..., -0.2607, -0.3400, -0.3555],
+        [ 0.3210,  0.0119,  0.3732,  ...,  0.2971,  0.3234,  0.4224]],
+       device='cuda:0'), grad: tensor([[ 2.2736e-03,  3.0853e-02,  2.9068e-03,  ...,  3.3417e-02,
+          3.9825e-03,  4.2229e-03],
+        [ 1.7035e-04,  8.2541e-04,  4.0340e-04,  ...,  6.4993e-04,
+          3.4285e-04,  7.0930e-05],
+        [ 1.1885e-04,  5.7602e-04,  2.8133e-04,  ...,  4.5347e-04,
+          2.3913e-04,  4.9502e-05],
+        ...,
+        [-1.9703e-03, -2.9358e-02, -2.1896e-03,  ..., -3.2257e-02,
+         -3.3703e-03, -4.0970e-03],
+        [ 2.6703e-05,  1.2934e-04,  6.3181e-05,  ...,  1.0186e-04,
+          5.3704e-05,  1.1116e-05],
+        [ 4.0412e-05,  1.9574e-04,  9.5665e-05,  ...,  1.5414e-04,
+          8.1301e-05,  1.6823e-05]], device='cuda:0')
+Epoch 57, bias, value: tensor([ 0.0718,  0.1683,  0.1087,  0.0810,  0.1248, -0.3472, -0.4703],
+       device='cuda:0'), grad: tensor([ 0.1094,  0.0371,  0.0259, -0.1434, -0.0435,  0.0058,  0.0088],
+       device='cuda:0')
+588
+0.000954915028125264
+changing lr
+epoch 56, time 788.48, cls_loss 0.3220 cls_loss_mapping 1.9284 cls_loss_causal 1.0702 re_mapping 0.0193 re_causal 0.0181 /// teacc 93.47 lr 0.00082713
+Epoch 58, weight, value: tensor([[ 0.2344,  0.1828,  0.3400,  ..., -0.1881, -0.1423, -0.0995],
+        [ 0.0630,  0.2707,  0.2221,  ...,  0.2473,  0.0890,  0.0993],
+        [-0.2340, -0.1118, -0.3006,  ..., -0.1512, -0.1250, -0.1950],
+        ...,
+        [-0.5404, -0.4981, -1.0297,  ...,  0.0531, -0.0107, -0.1175],
+        [-0.1024,  0.1691,  0.0652,  ..., -0.2434, -0.3488, -0.3661],
+        [ 0.3303,  0.0178,  0.3798,  ...,  0.3033,  0.3226,  0.4192]],
+       device='cuda:0'), grad: tensor([[6.5076e-08, 8.7428e-08, 6.6473e-08,  ..., 5.3435e-08, 3.2363e-08,
+         3.3178e-08],
+        [6.4494e-07, 7.0175e-07, 6.6217e-07,  ..., 2.9663e-07, 2.7195e-07,
+         2.7637e-07],
+        [2.7055e-07, 2.7264e-07, 2.7823e-07,  ..., 9.3598e-08, 1.0745e-07,
+         1.0885e-07],
+        ...,
+        [3.2713e-08, 3.9232e-08, 3.3528e-08,  ..., 2.0140e-08, 1.4901e-08,
+         1.5134e-08],
+        [7.3342e-09, 7.9162e-09, 7.5670e-09,  ..., 3.3760e-09, 3.1432e-09,
+         3.1432e-09],
+        [1.2224e-08, 1.3388e-08, 1.2573e-08,  ..., 5.5879e-09, 5.1223e-09,
+         5.2387e-09]], device='cuda:0')
+Epoch 58, bias, value: tensor([ 0.0935,  0.1550,  0.1176,  0.0817,  0.1216, -0.3631, -0.4895],
+       device='cuda:0'), grad: tensor([ 5.9977e-07,  5.5842e-06,  2.2911e-06, -8.9258e-06,  2.9104e-07,
+         6.3446e-08,  1.0629e-07], device='cuda:0')
+588
+0.0008271337313934874
+changing lr
+epoch 57, time 786.54, cls_loss 0.3361 cls_loss_mapping 1.9254 cls_loss_causal 1.0816 re_mapping 0.0192 re_causal 0.0173 /// teacc 91.46 lr 0.00070776
+Epoch 59, weight, value: tensor([[ 0.2294,  0.1795,  0.3324,  ..., -0.1913, -0.1544, -0.1064],
+        [ 0.0564,  0.2658,  0.2116,  ...,  0.2445,  0.0881,  0.0924],
+        [-0.2215, -0.1086, -0.2887,  ..., -0.1449, -0.1046, -0.1781],
+        ...,
+        [-0.5457, -0.4896, -1.0262,  ...,  0.0618, -0.0026, -0.1066],
+        [-0.0922,  0.1619,  0.0712,  ..., -0.2569, -0.3661, -0.3847],
+        [ 0.3496,  0.0092,  0.3976,  ...,  0.2838,  0.3112,  0.4033]],
+       device='cuda:0'), grad: tensor([[ 2.4438e-04,  8.0061e-04,  2.9445e-04,  ...,  6.8808e-04,
+          2.8539e-04,  1.5450e-04],
+        [ 2.0373e-04,  6.7043e-04,  2.4748e-04,  ...,  5.7459e-04,
+          2.3687e-04,  1.2791e-04],
+        [ 3.0613e-04,  9.5510e-04,  2.9492e-04,  ...,  8.8120e-04,
+          3.3236e-04,  1.9693e-04],
+        ...,
+        [-4.4990e-04, -1.8778e-03, -8.8453e-04,  ..., -1.4124e-03,
+         -6.5613e-04, -2.9492e-04],
+        [ 3.9756e-05,  1.2779e-04,  4.5717e-05,  ...,  1.1116e-04,
+          4.5359e-05,  2.4959e-05],
+        [ 1.8740e-04,  5.2214e-04,  1.4138e-04,  ...,  5.0163e-04,
+          1.8620e-04,  1.1641e-04]], device='cuda:0')
+Epoch 59, bias, value: tensor([ 0.0854,  0.1481,  0.1409,  0.0676,  0.1147, -0.3773, -0.4614],
+       device='cuda:0'), grad: tensor([ 0.0608,  0.0502,  0.0751, -0.1305, -0.1117,  0.0098,  0.0462],
+       device='cuda:0')
+588
+0.00070775603199067
+changing lr
+epoch 58, time 785.78, cls_loss 0.3320 cls_loss_mapping 1.9258 cls_loss_causal 1.0706 re_mapping 0.0180 re_causal 0.0164 /// teacc 93.97 lr 0.00059702
+Epoch 60, weight, value: tensor([[ 0.2244,  0.1764,  0.3287,  ..., -0.1924, -0.1503, -0.1066],
+        [ 0.0652,  0.2645,  0.2194,  ...,  0.2418,  0.0898,  0.0999],
+        [-0.2224, -0.1118, -0.2871,  ..., -0.1487, -0.1059, -0.1833],
+        ...,
+        [-0.5510, -0.4856, -1.0376,  ...,  0.0654, -0.0125, -0.1146],
+        [-0.0962,  0.1532,  0.0650,  ..., -0.2672, -0.3755, -0.3848],
+        [ 0.3550,  0.0144,  0.4013,  ...,  0.2908,  0.3218,  0.4138]],
+       device='cuda:0'), grad: tensor([[-1.2529e-04, -1.8082e-03, -6.8045e-04,  ..., -8.1539e-04,
+         -3.0184e-04, -8.7118e-04],
+        [ 5.9700e-04,  1.4257e-03,  7.7963e-04,  ...,  7.6628e-04,
+          5.5838e-04,  4.2725e-04],
+        [-2.1400e-03, -3.1757e-03, -2.2125e-03,  ..., -1.6918e-03,
+         -1.7653e-03, -6.2275e-04],
+        ...,
+        [ 6.4468e-04,  1.2655e-03,  8.2445e-04,  ...,  5.0592e-04,
+          5.6934e-04,  4.0865e-04],
+        [ 8.3625e-05,  1.9896e-04,  1.0896e-04,  ...,  1.0675e-04,
+          7.8082e-05,  5.9515e-05],
+        [ 3.1614e-04,  6.7902e-04,  3.8886e-04,  ...,  3.6716e-04,
+          2.8634e-04,  1.8919e-04]], device='cuda:0')
+Epoch 60, bias, value: tensor([ 0.0780,  0.1477,  0.1425,  0.0765,  0.1133, -0.3796, -0.4577],
+       device='cuda:0'), grad: tensor([-0.1066,  0.0552, -0.0939,  0.0533,  0.0594,  0.0077,  0.0249],
+       device='cuda:0')
+588
+0.0005970223407163104
+changing lr
+epoch 59, time 788.18, cls_loss 0.3206 cls_loss_mapping 1.9293 cls_loss_causal 1.0696 re_mapping 0.0171 re_causal 0.0159 /// teacc 96.73 lr 0.00049516
+Epoch 61, weight, value: tensor([[ 0.2165,  0.1737,  0.3163,  ..., -0.1932, -0.1563, -0.1120],
+        [ 0.0755,  0.2670,  0.2274,  ...,  0.2430,  0.0926,  0.1038],
+        [-0.2246, -0.1099, -0.2865,  ..., -0.1480, -0.1147, -0.1874],
+        ...,
+        [-0.5610, -0.4918, -1.0389,  ...,  0.0604, -0.0081, -0.1089],
+        [-0.0854,  0.1579,  0.0752,  ..., -0.2637, -0.3573, -0.3683],
+        [ 0.3528,  0.0222,  0.4062,  ...,  0.2953,  0.3141,  0.4045]],
+       device='cuda:0'), grad: tensor([[-3.5856e-08,  5.2387e-08, -1.7812e-08,  ...,  1.0896e-07,
+          2.8987e-08,  2.9802e-08],
+        [ 3.2596e-08,  3.0152e-08,  1.5018e-08,  ...,  1.2806e-09,
+         -6.9849e-09, -8.3819e-09],
+        [ 7.3342e-09,  7.1130e-08,  8.3819e-09,  ...,  8.1374e-08,
+          1.7812e-08,  1.6415e-08],
+        ...,
+        [-3.3760e-09, -1.5367e-07, -5.0059e-09,  ..., -1.9255e-07,
+         -3.9930e-08, -3.8068e-08],
+        [ 1.1642e-10,  2.3283e-10,  1.1642e-10,  ...,  1.1642e-10,
+          0.0000e+00,  0.0000e+00],
+        [ 0.0000e+00,  1.1642e-10,  0.0000e+00,  ...,  1.1642e-10,
+          0.0000e+00,  0.0000e+00]], device='cuda:0')
+Epoch 61, bias, value: tensor([ 0.0749,  0.1485,  0.1471,  0.0795,  0.1132, -0.3725, -0.4706],
+       device='cuda:0'), grad: tensor([ 5.0524e-08, -1.9674e-08,  1.1967e-07,  2.5611e-09, -1.4994e-07,
+         1.1642e-09,  5.8208e-10], device='cuda:0')
+588
+0.0004951556604879052
+changing lr
+epoch 60, time 786.91, cls_loss 0.3276 cls_loss_mapping 1.9257 cls_loss_causal 1.0673 re_mapping 0.0163 re_causal 0.0153 /// teacc 95.23 lr 0.00040236
+Epoch 62, weight, value: tensor([[ 0.2143,  0.1765,  0.3176,  ..., -0.1900, -0.1508, -0.1061],
+        [ 0.0719,  0.2624,  0.2234,  ...,  0.2387,  0.0903,  0.1003],
+        [-0.2268, -0.1103, -0.2897,  ..., -0.1476, -0.1171, -0.1912],
+        ...,
+        [-0.5482, -0.4933, -1.0358,  ...,  0.0578, -0.0060, -0.1052],
+        [-0.0777,  0.1666,  0.0843,  ..., -0.2578, -0.3614, -0.3730],
+        [ 0.3489,  0.0291,  0.4038,  ...,  0.3047,  0.3140,  0.4027]],
+       device='cuda:0'), grad: tensor([[-5.6297e-05, -2.6951e-03, -1.1654e-03,  ..., -2.2125e-03,
+         -9.2745e-04, -1.4887e-03],
+        [ 5.5647e-04,  1.7347e-03,  5.6028e-04,  ...,  1.3180e-03,
+          4.9973e-04,  5.1832e-04],
+        [ 4.6134e-04,  1.7366e-03,  5.6171e-04,  ...,  1.3733e-03,
+          5.0068e-04,  5.6934e-04],
+        ...,
+        [ 5.0020e-04,  1.4477e-03,  5.7220e-04,  ...,  9.7513e-04,
+          4.7112e-04,  5.0735e-04],
+        [ 8.4877e-05,  2.7061e-04,  8.7917e-05,  ...,  2.0635e-04,
+          7.8261e-05,  8.2314e-05],
+        [ 1.5783e-04,  4.7040e-04,  1.4997e-04,  ...,  3.5548e-04,
+          1.3447e-04,  1.3518e-04]], device='cuda:0')
+Epoch 62, bias, value: tensor([ 0.0826,  0.1468,  0.1463,  0.0649,  0.1255, -0.3617, -0.4918],
+       device='cuda:0'), grad: tensor([-0.0956,  0.0646,  0.0611, -0.1223,  0.0645,  0.0101,  0.0176],
+       device='cuda:0')
+588
+0.00040236113724274745
+changing lr
+epoch 61, time 787.40, cls_loss 0.3097 cls_loss_mapping 1.9231 cls_loss_causal 1.0735 re_mapping 0.0156 re_causal 0.0147 /// teacc 96.23 lr 0.00031883
+Epoch 63, weight, value: tensor([[ 2.1701e-01,  1.7435e-01,  3.1838e-01,  ..., -1.9316e-01,
+         -1.5297e-01, -1.0857e-01],
+        [ 6.0939e-02,  2.6192e-01,  2.1654e-01,  ...,  2.3881e-01,
+          8.3603e-02,  9.1953e-02],
+        [-2.2560e-01, -1.1001e-01, -2.9142e-01,  ..., -1.4603e-01,
+         -1.1764e-01, -1.9191e-01],
+        ...,
+        [-5.4018e-01, -4.8644e-01, -1.0295e+00,  ...,  6.4397e-02,
+         -4.7032e-04, -9.5942e-02],
+        [-8.6203e-02,  1.5484e-01,  7.4960e-02,  ..., -2.7007e-01,
+         -3.6784e-01, -3.7736e-01],
+        [ 3.4640e-01,  2.6221e-02,  4.0529e-01,  ...,  3.0271e-01,
+          3.1687e-01,  4.0411e-01]], device='cuda:0'), grad: tensor([[ 5.0020e-04,  2.8000e-03,  4.0841e-04,  ...,  2.7752e-03,
+          7.1716e-04,  7.1764e-04],
+        [ 9.2208e-05,  5.6744e-04,  1.7297e-04,  ...,  2.1017e-04,
+          1.1915e-04,  1.2934e-04],
+        [ 2.8801e-04,  1.5965e-03,  2.8372e-04,  ...,  1.3924e-03,
+          3.9983e-04,  4.0412e-04],
+        ...,
+        [-9.9754e-04, -5.6877e-03, -1.0853e-03,  ..., -4.6425e-03,
+         -1.3876e-03, -1.4162e-03],
+        [ 1.7658e-05,  1.0884e-04,  3.3468e-05,  ...,  3.9071e-05,
+          2.2754e-05,  2.4736e-05],
+        [ 2.5839e-05,  1.5867e-04,  4.7803e-05,  ...,  6.0916e-05,
+          3.3468e-05,  3.6240e-05]], device='cuda:0')
+Epoch 63, bias, value: tensor([ 0.0871,  0.1431,  0.1441,  0.0695,  0.1243, -0.3666, -0.4918],
+       device='cuda:0'), grad: tensor([ 0.0526,  0.0299,  0.0406,  0.0240, -0.1611,  0.0058,  0.0082],
+       device='cuda:0')
+588
+0.00031882564680131423
+changing lr
+---------------------saving model at epoch 62----------------------------------------------------
+epoch 62, time 791.01, cls_loss 0.3458 cls_loss_mapping 1.9223 cls_loss_causal 1.0817 re_mapping 0.0146 re_causal 0.0137 /// teacc 97.74 lr 0.00024472
+Epoch 64, weight, value: tensor([[ 0.2180,  0.1757,  0.3188,  ..., -0.1922, -0.1524, -0.1070],
+        [ 0.0557,  0.2557,  0.2121,  ...,  0.2338,  0.0832,  0.0924],
+        [-0.2324, -0.1121, -0.2943,  ..., -0.1485, -0.1196, -0.1977],
+        ...,
+        [-0.5388, -0.4876, -1.0308,  ...,  0.0636, -0.0028, -0.0998],
+        [-0.0733,  0.1651,  0.0877,  ..., -0.2626, -0.3618, -0.3745],
+        [ 0.3504,  0.0258,  0.4078,  ...,  0.3034,  0.3240,  0.4134]],
+       device='cuda:0'), grad: tensor([[ 1.0635e-02,  3.3722e-02,  9.6130e-03,  ...,  3.1586e-02,
+          4.4060e-03,  4.3907e-03],
+        [-1.0727e-02, -3.6469e-02, -9.8953e-03,  ..., -3.4454e-02,
+         -4.5776e-03, -4.5509e-03],
+        [ 1.3852e-04,  8.5735e-04,  1.1820e-04,  ...,  8.0395e-04,
+          3.9071e-05,  4.8280e-05],
+        ...,
+        [-2.2173e-04, -4.9956e-06, -5.0575e-05,  ...,  1.7536e-04,
+          3.7551e-05,  8.7991e-06],
+        [ 1.0960e-05,  1.4496e-04,  1.5944e-05,  ...,  1.4472e-04,
+          7.5214e-06,  7.8008e-06],
+        [ 8.4162e-05,  8.4209e-04,  9.8228e-05,  ...,  8.2493e-04,
+          4.1187e-05,  4.5180e-05]], device='cuda:0')
+Epoch 64, bias, value: tensor([ 0.0861,  0.1355,  0.1434,  0.0765,  0.1217, -0.3616, -0.4844],
+       device='cuda:0'), grad: tensor([ 0.1212, -0.1234,  0.0040,  0.0024, -0.0071,  0.0003,  0.0026],
+       device='cuda:0')
+588
+0.0002447174185242325
+changing lr
+epoch 63, time 788.33, cls_loss 0.3072 cls_loss_mapping 1.9254 cls_loss_causal 1.0470 re_mapping 0.0136 re_causal 0.0125 /// teacc 94.97 lr 0.00018019
+Epoch 65, weight, value: tensor([[ 0.2201,  0.1750,  0.3193,  ..., -0.1926, -0.1512, -0.1043],
+        [ 0.0622,  0.2612,  0.2197,  ...,  0.2359,  0.0804,  0.0889],
+        [-0.2293, -0.1103, -0.2912,  ..., -0.1454, -0.1121, -0.1904],
+        ...,
+        [-0.5442, -0.4897, -1.0353,  ...,  0.0617, -0.0059, -0.1040],
+        [-0.0740,  0.1649,  0.0862,  ..., -0.2613, -0.3613, -0.3747],
+        [ 0.3435,  0.0250,  0.4004,  ...,  0.3043,  0.3207,  0.4102]],
+       device='cuda:0'), grad: tensor([[ 1.7223e-03,  1.0536e-02,  2.2507e-03,  ...,  9.2163e-03,
+          1.1883e-03,  9.6703e-04],
+        [-2.9716e-03, -2.7100e-02, -5.2147e-03,  ..., -2.5894e-02,
+         -3.8395e-03, -2.3918e-03],
+        [-1.6441e-03, -3.7521e-05, -8.8263e-04,  ...,  2.4948e-03,
+          8.4448e-04, -7.2539e-05],
+        ...,
+        [ 1.6823e-03,  9.6741e-03,  2.2030e-03,  ...,  8.2855e-03,
+          1.0500e-03,  8.7881e-04],
+        [ 3.1066e-04,  1.5583e-03,  4.1246e-04,  ...,  1.2598e-03,
+          1.5295e-04,  1.3697e-04],
+        [ 3.3116e-04,  2.1896e-03,  4.5085e-04,  ...,  1.9569e-03,
+          2.6059e-04,  2.0015e-04]], device='cuda:0')
+Epoch 65, bias, value: tensor([ 0.0856,  0.1439,  0.1456,  0.0773,  0.1159, -0.3696, -0.4856],
+       device='cuda:0'), grad: tensor([ 0.0886, -0.1472, -0.0865,  0.0278,  0.0850,  0.0150,  0.0171],
+       device='cuda:0')
+588
+0.0001801856965207339
+changing lr
+epoch 64, time 785.64, cls_loss 0.3117 cls_loss_mapping 1.9235 cls_loss_causal 1.0536 re_mapping 0.0125 re_causal 0.0114 /// teacc 95.73 lr 0.00012536
+Epoch 66, weight, value: tensor([[ 0.2197,  0.1744,  0.3204,  ..., -0.1933, -0.1486, -0.1026],
+        [ 0.0689,  0.2642,  0.2260,  ...,  0.2385,  0.0862,  0.0944],
+        [-0.2316, -0.1112, -0.2949,  ..., -0.1462, -0.1149, -0.1933],
+        ...,
+        [-0.5464, -0.4894, -1.0385,  ...,  0.0624, -0.0070, -0.1034],
+        [-0.0768,  0.1637,  0.0818,  ..., -0.2617, -0.3663, -0.3805],
+        [ 0.3377,  0.0197,  0.3955,  ...,  0.2983,  0.3131,  0.4034]],
+       device='cuda:0'), grad: tensor([[ 0.0014,  0.0047,  0.0018,  ...,  0.0040,  0.0014,  0.0018],
+        [ 0.0012,  0.0040,  0.0016,  ...,  0.0033,  0.0011,  0.0015],
+        [ 0.0012,  0.0044,  0.0016,  ...,  0.0041,  0.0014,  0.0018],
+        ...,
+        [-0.0028, -0.0052, -0.0029,  ..., -0.0019, -0.0008, -0.0008],
+        [-0.0009, -0.0035, -0.0006,  ..., -0.0033, -0.0008, -0.0005],
+        [-0.0005, -0.0057, -0.0020,  ..., -0.0072, -0.0026, -0.0042]],
+       device='cuda:0')
+Epoch 66, bias, value: tensor([ 0.0912,  0.1437,  0.1434,  0.0760,  0.1145, -0.3733, -0.4854],
+       device='cuda:0'), grad: tensor([ 0.0820,  0.0691,  0.0675,  0.0329, -0.0945, -0.0180, -0.1388],
+       device='cuda:0')
+588
+0.000125360439090882
+changing lr
+epoch 65, time 782.85, cls_loss 0.3148 cls_loss_mapping 1.9221 cls_loss_causal 1.0626 re_mapping 0.0117 re_causal 0.0106 /// teacc 95.48 lr 0.00008035
+Epoch 67, weight, value: tensor([[ 0.2194,  0.1730,  0.3181,  ..., -0.1941, -0.1477, -0.1033],
+        [ 0.0688,  0.2634,  0.2257,  ...,  0.2375,  0.0846,  0.0934],
+        [-0.2349, -0.1126, -0.2970,  ..., -0.1479, -0.1176, -0.1952],
+        ...,
+        [-0.5444, -0.4874, -1.0357,  ...,  0.0642, -0.0047, -0.1013],
+        [-0.0778,  0.1638,  0.0814,  ..., -0.2608, -0.3660, -0.3787],
+        [ 0.3415,  0.0236,  0.4001,  ...,  0.3013,  0.3146,  0.4045]],
+       device='cuda:0'), grad: tensor([[ 2.4647e-05,  5.6773e-05,  2.4930e-05,  ...,  4.8339e-05,
+          1.7762e-05,  1.6257e-05],
+        [-1.0643e-02, -2.4063e-02, -1.0834e-02,  ..., -2.0294e-02,
+         -7.7133e-03, -7.0114e-03],
+        [ 1.1566e-02,  2.5772e-02,  1.1536e-02,  ...,  2.1927e-02,
+          8.2474e-03,  7.6332e-03],
+        ...,
+        [ 4.9084e-05,  8.9705e-05,  3.8177e-05,  ...,  8.4877e-05,
+          2.9072e-05,  3.3021e-05],
+        [ 4.0745e-09,  1.1176e-08,  3.3760e-09,  ...,  1.0827e-08,
+          2.5611e-09,  2.6776e-09],
+        [ 2.8029e-05,  5.2124e-05,  2.1473e-05,  ...,  4.9859e-05,
+          1.6421e-05,  1.8895e-05]], device='cuda:0')
+Epoch 67, bias, value: tensor([ 0.0879,  0.1434,  0.1463,  0.0749,  0.1152, -0.3764, -0.4816],
+       device='cuda:0'), grad: tensor([ 3.9840e-04, -1.6626e-01,  1.9446e-01, -3.0792e-02,  1.4353e-03,
+         1.1164e-07,  8.4305e-04], device='cuda:0')
+588
+8.03520570068517e-05
+changing lr
+epoch 66, time 787.83, cls_loss 0.3254 cls_loss_mapping 1.9234 cls_loss_causal 1.0633 re_mapping 0.0111 re_causal 0.0101 /// teacc 95.23 lr 0.00004525
+Epoch 68, weight, value: tensor([[ 0.2193,  0.1745,  0.3182,  ..., -0.1928, -0.1486, -0.1047],
+        [ 0.0681,  0.2621,  0.2245,  ...,  0.2368,  0.0842,  0.0937],
+        [-0.2323, -0.1117, -0.2946,  ..., -0.1473, -0.1156, -0.1933],
+        ...,
+        [-0.5446, -0.4875, -1.0359,  ...,  0.0641, -0.0051, -0.1017],
+        [-0.0753,  0.1650,  0.0836,  ..., -0.2599, -0.3641, -0.3769],
+        [ 0.3380,  0.0201,  0.3971,  ...,  0.2984,  0.3137,  0.4038]],
+       device='cuda:0'), grad: tensor([[-1.3809e-03, -2.1875e-04, -3.4857e-04,  ..., -5.7793e-04,
+         -4.6039e-04,  1.2815e-04],
+        [-1.4248e-03, -4.1542e-03, -1.0242e-03,  ..., -2.2202e-03,
+          5.9307e-06, -4.4966e-04],
+        [ 7.7009e-04,  1.2321e-03,  3.8218e-04,  ...,  7.8106e-04,
+          1.2094e-04,  9.2983e-05],
+        ...,
+        [ 9.9564e-04,  1.6384e-03,  5.0163e-04,  ...,  1.0281e-03,
+          1.5032e-04,  1.2684e-04],
+        [ 2.5296e-04,  4.6444e-04,  1.3566e-04,  ...,  2.8110e-04,
+          3.2425e-05,  3.9339e-05],
+        [ 2.7466e-04,  4.3774e-04,  1.3602e-04,  ...,  2.7776e-04,
+          4.3362e-05,  3.2872e-05]], device='cuda:0')
+Epoch 68, bias, value: tensor([ 0.0894,  0.1404,  0.1472,  0.0779,  0.1139, -0.3746, -0.4840],
+       device='cuda:0'), grad: tensor([-0.1049, -0.0799,  0.0505,  0.0352,  0.0649,  0.0162,  0.0180],
+       device='cuda:0')
+588
+4.5251191160326525e-05
+changing lr
+epoch 67, time 789.70, cls_loss 0.3147 cls_loss_mapping 1.9217 cls_loss_causal 1.0583 re_mapping 0.0106 re_causal 0.0096 /// teacc 94.97 lr 0.00002013
+Epoch 69, weight, value: tensor([[ 0.2182,  0.1742,  0.3169,  ..., -0.1929, -0.1499, -0.1060],
+        [ 0.0682,  0.2616,  0.2244,  ...,  0.2362,  0.0838,  0.0936],
+        [-0.2321, -0.1113, -0.2943,  ..., -0.1469, -0.1146, -0.1922],
+        ...,
+        [-0.5440, -0.4873, -1.0354,  ...,  0.0641, -0.0048, -0.1016],
+        [-0.0756,  0.1647,  0.0832,  ..., -0.2602, -0.3645, -0.3770],
+        [ 0.3378,  0.0196,  0.3969,  ...,  0.2979,  0.3141,  0.4043]],
+       device='cuda:0'), grad: tensor([[-2.6131e-03, -4.3488e-03, -2.8191e-03,  ..., -2.4376e-03,
+         -1.1368e-03, -9.4938e-04],
+        [ 1.1854e-03,  1.5850e-03,  1.3380e-03,  ...,  6.8617e-04,
+          4.9257e-04,  4.1723e-04],
+        [ 2.8944e-04,  9.2411e-04,  2.4378e-04,  ...,  7.4720e-04,
+          1.5140e-04,  1.1939e-04],
+        ...,
+        [ 6.1035e-04,  1.1358e-03,  6.3944e-04,  ...,  7.0000e-04,
+          2.7370e-04,  2.2686e-04],
+        [ 4.8876e-04,  6.5088e-04,  5.5265e-04,  ...,  2.7990e-04,
+          2.0301e-04,  1.7190e-04],
+        [ 3.1829e-05,  4.3064e-05,  3.5882e-05,  ...,  1.8939e-05,
+          1.3255e-05,  1.1221e-05]], device='cuda:0')
+Epoch 69, bias, value: tensor([ 0.0884,  0.1393,  0.1494,  0.0791,  0.1125, -0.3748, -0.4834],
+       device='cuda:0'), grad: tensor([-0.0668,  0.0293,  0.0086,  0.0002,  0.0159,  0.0121,  0.0008],
+       device='cuda:0')
+588
+2.0128530023804673e-05
+changing lr
+epoch 68, time 787.57, cls_loss 0.3174 cls_loss_mapping 1.9208 cls_loss_causal 1.0619 re_mapping 0.0103 re_causal 0.0093 /// teacc 95.73 lr 0.00000503
+Epoch 70, weight, value: tensor([[ 0.2184,  0.1745,  0.3171,  ..., -0.1925, -0.1494, -0.1055],
+        [ 0.0679,  0.2614,  0.2242,  ...,  0.2361,  0.0832,  0.0931],
+        [-0.2327, -0.1114, -0.2946,  ..., -0.1469, -0.1145, -0.1923],
+        ...,
+        [-0.5438, -0.4876, -1.0352,  ...,  0.0638, -0.0050, -0.1018],
+        [-0.0756,  0.1648,  0.0829,  ..., -0.2601, -0.3646, -0.3769],
+        [ 0.3378,  0.0196,  0.3966,  ...,  0.2980,  0.3142,  0.4043]],
+       device='cuda:0'), grad: tensor([[ 1.4286e-06,  1.4991e-05,  9.8813e-07,  ...,  1.8686e-05,
+          3.7719e-06,  3.4794e-06],
+        [ 1.4948e-07,  1.6792e-06,  2.2852e-07,  ...,  1.8543e-06,
+          3.3458e-07,  2.6217e-07],
+        [ 5.9269e-06,  6.5088e-05,  6.2957e-06,  ...,  7.7784e-05,
+          1.5825e-05,  1.3702e-05],
+        ...,
+        [-7.4990e-06, -8.1837e-05, -7.5139e-06,  ..., -9.8407e-05,
+         -1.9953e-05, -1.7464e-05],
+        [ 5.8208e-10,  3.6089e-09,  5.8208e-10,  ...,  3.9581e-09,
+          8.1491e-10,  6.9849e-10],
+        [ 1.1758e-08,  1.2771e-07,  1.2689e-08,  ...,  1.5204e-07,
+          3.0850e-08,  2.6659e-08]], device='cuda:0')
+Epoch 70, bias, value: tensor([ 0.0885,  0.1392,  0.1491,  0.0798,  0.1125, -0.3752, -0.4835],
+       device='cuda:0'), grad: tensor([ 6.3777e-05,  4.9248e-06,  2.1005e-04,  1.1863e-07, -2.7895e-04,
+         1.1991e-08,  4.1118e-07], device='cuda:0')
+588
+5.034667293427056e-06
+changing lr
+epoch 69, time 784.77, cls_loss 0.3324 cls_loss_mapping 1.9195 cls_loss_causal 1.0685 re_mapping 0.0102 re_causal 0.0092 /// teacc 96.48 lr 0.00000000
+---------------------saving last model at epoch 69----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_Adam', 'source_domain': 'sketch', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_Adam/sketch_16factor_best_test_check.csv', 'factor_num': 16, 'epoch': 'best', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of best
+randm: False
+stride: 5
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+columns: ['sketch', 'art_painting', 'cartoon', 'photo']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+                        sketch  art_painting    cartoon      photo       Avg
+w/o do (original x)  99.770934     50.585938  60.452218  53.652695  54.89695
+       sketch  art_painting    cartoon      photo        Avg
+do  19.979639     18.603516  16.680887  11.497006  15.593803
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_Adam', 'source_domain': 'sketch', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps5_RA_Adam/sketch_16factor_last_test_check.csv', 'factor_num': 16, 'epoch': 'last', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of last
+randm: False
+stride: 5
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+columns: ['sketch', 'art_painting', 'cartoon', 'photo']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+                        sketch  art_painting    cartoon      photo        Avg
+w/o do (original x)  99.541868     46.777344  64.846416  47.005988  52.876583
+       sketch  art_painting    cartoon     photo        Avg
+do  24.840926     20.751953  21.843003  27.42515  23.340035
diff --git a/Meta-causal/code-withStyleAttack/73322.error b/Meta-causal/code-withStyleAttack/73322.error
new file mode 100644
index 0000000000000000000000000000000000000000..e51ed6c6a9374ccf75a800585086f3f7a638749e
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73322.error
@@ -0,0 +1,9 @@
+Downloading: "https://download.pytorch.org/models/resnet18-5c106cde.pth" to /home/yuqian_fu/.cache/torch/hub/checkpoints/resnet18-5c106cde.pth
+  0%|          | 0.00/44.7M [00:00<?, ?B/s]  5%|▌         | 2.25M/44.7M [00:00<00:01, 23.4MB/s] 66%|██████▌   | 29.5M/44.7M [00:00<00:00, 177MB/s] 100%|██████████| 44.7M/44.7M [00:00<00:00, 204MB/s]
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py:225: FutureWarning: `torch.cuda.amp.GradScaler(args...)` is deprecated. Please use `torch.amp.GradScaler('cuda', args...)` instead.
+  scaler = GradScaler()
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py:247: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with autocast():
+slurmstepd: error: *** JOB 73322 ON gcp-eu-1 CANCELLED AT 2024-08-02T10:23:37 ***
+slurmstepd: error: *** STEP 73322.0 ON gcp-eu-1 CANCELLED AT 2024-08-02T10:23:37 ***
+srun: Job step aborted: Waiting up to 32 seconds for job step to finish.
diff --git a/Meta-causal/code-withStyleAttack/73322.log b/Meta-causal/code-withStyleAttack/73322.log
new file mode 100644
index 0000000000000000000000000000000000000000..b9c2a0b04bab15c5e3ac859cf616fca8b180d35a
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73322.log
@@ -0,0 +1,30 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'art_painting', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 5, 'factor_num': 16, 'epochs': 70, 'nbatch': 100, 'batchsize': 6, 'lr': 0.01, 'lr_scheduler': 'cosine', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps1_RA', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 5
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_train.hdf5 torch.Size([1840, 3, 227, 227]) torch.Size([1840])
+--------------------------CA_multiple--------------------------
+---------------------------16 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_val.hdf5 torch.Size([208, 3, 227, 227]) torch.Size([208])
+-------------------------------------loading pretrain weights----------------------------------
+Epoch 1, weight, value: tensor([[ 2.0041e-02,  1.4450e-03,  1.9075e-02,  ...,  4.6462e-03,
+         -1.2650e-02, -1.6690e-02],
+        [-6.1610e-03,  1.1117e-02, -1.5772e-02,  ...,  7.6058e-03,
+         -6.6990e-03, -5.3285e-03],
+        [ 2.0951e-02, -3.4939e-03, -1.7433e-04,  ..., -1.3135e-02,
+         -3.1456e-03,  8.9728e-03],
+        ...,
+        [ 1.5949e-02,  2.1505e-02, -4.5771e-03,  ..., -9.0531e-03,
+          6.5715e-05, -1.6854e-02],
+        [ 4.7469e-03,  1.2057e-02,  1.0226e-02,  ...,  2.1934e-02,
+         -2.0032e-02,  1.8525e-02],
+        [-2.0493e-02, -7.3091e-03, -1.9307e-02,  ..., -2.1493e-02,
+          1.8698e-02, -1.6368e-02]], device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([ 0.0033,  0.0030, -0.0100, -0.0200, -0.0035, -0.0168, -0.0169],
+       device='cuda:0'), grad: None
+306
diff --git a/Meta-causal/code-withStyleAttack/73324.error b/Meta-causal/code-withStyleAttack/73324.error
new file mode 100644
index 0000000000000000000000000000000000000000..1d8892f503da98d186cde00bd23a07723e0edba4
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73324.error
@@ -0,0 +1 @@
+run_my_joint_v13_test.sh: line 33: randm}: command not found
diff --git a/Meta-causal/code-withStyleAttack/73324.log b/Meta-causal/code-withStyleAttack/73324.log
new file mode 100644
index 0000000000000000000000000000000000000000..5599e789c9487678786aaab7ef90ec818f0fa299
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73324.log
@@ -0,0 +1,1785 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'cartoon', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 5, 'factor_num': 16, 'epochs': 70, 'nbatch': 100, 'batchsize': 6, 'lr': 0.01, 'lr_scheduler': 'cosine', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//cartoon/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps1_RA', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 5
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_train.hdf5 torch.Size([2107, 3, 227, 227]) torch.Size([2107])
+--------------------------CA_multiple--------------------------
+---------------------------16 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_val.hdf5 torch.Size([237, 3, 227, 227]) torch.Size([237])
+-------------------------------------loading pretrain weights----------------------------------
+Epoch 1, weight, value: tensor([[-0.0189,  0.0061,  0.0021,  ..., -0.0171, -0.0128, -0.0157],
+        [-0.0021, -0.0025,  0.0017,  ..., -0.0136,  0.0019, -0.0061],
+        [ 0.0142,  0.0217,  0.0086,  ..., -0.0216, -0.0155,  0.0093],
+        ...,
+        [ 0.0173,  0.0025, -0.0056,  ...,  0.0145, -0.0076,  0.0094],
+        [-0.0058, -0.0124, -0.0061,  ...,  0.0182,  0.0077,  0.0136],
+        [-0.0023, -0.0031,  0.0159,  ..., -0.0190, -0.0115, -0.0119]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([ 0.0083, -0.0155, -0.0082,  0.0068, -0.0154, -0.0208,  0.0037],
+       device='cuda:0'), grad: None
+351
+0.01
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 440.15, cls_loss 8.5696 cls_loss_mapping 1.9149 cls_loss_causal 1.9231 re_mapping 0.3017 re_causal 0.3010 /// teacc 20.68 lr 0.00999497
+Epoch 2, weight, value: tensor([[ 0.0557,  0.1188,  0.1135,  ...,  0.0626,  0.0572,  0.0417],
+        [ 0.1103,  0.0897,  0.0630,  ..., -0.0181, -0.0331, -0.0497],
+        [-0.0840, -0.1056, -0.0779,  ..., -0.0440, -0.0306, -0.0002],
+        ...,
+        [-0.0796, -0.0822, -0.0865,  ...,  0.1114,  0.1195,  0.1191],
+        [ 0.0119, -0.0031, -0.0009,  ...,  0.0002, -0.0201,  0.0179],
+        [ 0.0072,  0.0198,  0.0384,  ..., -0.1369, -0.1151, -0.1144]],
+       device='cuda:0'), grad: tensor([[-0.1084, -0.0432, -0.0307,  ..., -0.0280, -0.0376, -0.0075],
+        [-0.0551, -0.0223, -0.0199,  ..., -0.0198, -0.0248, -0.0093],
+        [ 0.1075,  0.0345,  0.0255,  ...,  0.0348,  0.0462,  0.0081],
+        ...,
+        [ 0.0067,  0.0024,  0.0021,  ...,  0.0022,  0.0027,  0.0008],
+        [-0.0823, -0.0209, -0.0111,  ..., -0.0263, -0.0377, -0.0023],
+        [ 0.0872,  0.0346,  0.0231,  ...,  0.0232,  0.0326,  0.0068]],
+       device='cuda:0')
+Epoch 2, bias, value: tensor([ 0.0267,  0.0470, -0.0228, -0.0513, -0.0326, -0.0554,  0.0484],
+       device='cuda:0'), grad: tensor([-0.1719, -0.2563,  0.2479,  0.1028,  0.0202, -0.1215,  0.1788],
+       device='cuda:0')
+351
+0.009994965332706574
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 447.39, cls_loss 2.3821 cls_loss_mapping 1.8044 cls_loss_causal 1.8531 re_mapping 0.0697 re_causal 0.0693 /// teacc 40.93 lr 0.00997987
+Epoch 3, weight, value: tensor([[ 0.0433,  0.1185,  0.1097,  ...,  0.0698,  0.0655,  0.0497],
+        [ 0.1029,  0.0815,  0.0496,  ..., -0.0163, -0.0252, -0.0503],
+        [-0.0884, -0.1108, -0.0770,  ..., -0.0561, -0.0412, -0.0098],
+        ...,
+        [-0.0775, -0.0905, -0.0970,  ...,  0.1386,  0.1476,  0.1360],
+        [ 0.0116, -0.0029,  0.0036,  ..., -0.0137, -0.0392,  0.0039],
+        [ 0.0701,  0.0726,  0.0851,  ..., -0.1548, -0.1359, -0.1286]],
+       device='cuda:0'), grad: tensor([[ 0.0760,  0.0328,  0.0346,  ...,  0.0172,  0.0231,  0.0123],
+        [-0.1522, -0.0564, -0.0523,  ..., -0.0489, -0.0608, -0.0382],
+        [ 0.0206,  0.0059,  0.0055,  ...,  0.0060,  0.0076,  0.0045],
+        ...,
+        [ 0.0565,  0.0179,  0.0175,  ...,  0.0169,  0.0218,  0.0120],
+        [ 0.0185,  0.0056,  0.0055,  ...,  0.0053,  0.0069,  0.0036],
+        [-0.0253, -0.0075, -0.0125,  ...,  0.0016, -0.0008,  0.0045]],
+       device='cuda:0')
+Epoch 3, bias, value: tensor([ 0.0186,  0.0754, -0.0780, -0.0247,  0.0162, -0.0774,  0.0306],
+       device='cuda:0'), grad: tensor([ 0.1453, -0.4209,  0.0547,  0.0167,  0.1443,  0.0463,  0.0135],
+       device='cuda:0')
+351
+0.009979871469976196
+changing lr
+epoch 2, time 446.98, cls_loss 1.9299 cls_loss_mapping 1.3579 cls_loss_causal 1.5635 re_mapping 0.0716 re_causal 0.0707 /// teacc 32.07 lr 0.00995475
+Epoch 4, weight, value: tensor([[ 0.0440,  0.1122,  0.1086,  ...,  0.0837,  0.0787,  0.0642],
+        [ 0.1040,  0.0768,  0.0475,  ...,  0.0093,  0.0014, -0.0293],
+        [-0.0757, -0.0912, -0.0551,  ..., -0.0824, -0.0659, -0.0360],
+        ...,
+        [-0.1003, -0.1128, -0.1153,  ...,  0.1703,  0.1791,  0.1643],
+        [ 0.0012, -0.0155, -0.0071,  ..., -0.0461, -0.0744, -0.0309],
+        [ 0.1352,  0.1353,  0.1249,  ..., -0.2095, -0.1886, -0.1748]],
+       device='cuda:0'), grad: tensor([[ 0.0074, -0.0098, -0.0097,  ...,  0.0170,  0.0184,  0.0180],
+        [ 0.0718,  0.0272,  0.0306,  ...,  0.0193,  0.0197,  0.0206],
+        [-0.0222,  0.0021, -0.0005,  ..., -0.0153, -0.0169, -0.0170],
+        ...,
+        [ 0.0258,  0.0050,  0.0066,  ...,  0.0088,  0.0093,  0.0096],
+        [ 0.0025,  0.0003,  0.0004,  ...,  0.0006,  0.0006,  0.0007],
+        [-0.0897, -0.0253, -0.0282,  ..., -0.0319, -0.0328, -0.0335]],
+       device='cuda:0')
+Epoch 4, bias, value: tensor([ 0.0387,  0.1001, -0.0957, -0.0407,  0.0131, -0.0965,  0.0421],
+       device='cuda:0'), grad: tensor([ 0.0547,  0.1512, -0.0762,  0.0125,  0.0678,  0.0069, -0.2170],
+       device='cuda:0')
+351
+0.009954748808839675
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 449.00, cls_loss 1.7489 cls_loss_mapping 1.1621 cls_loss_causal 1.4478 re_mapping 0.0688 re_causal 0.0677 /// teacc 45.99 lr 0.00991965
+Epoch 5, weight, value: tensor([[ 0.0309,  0.1008,  0.1061,  ...,  0.0738,  0.0700,  0.0582],
+        [ 0.0963,  0.0708,  0.0448,  ...,  0.0244,  0.0164, -0.0163],
+        [-0.0920, -0.1016, -0.0695,  ..., -0.1057, -0.0943, -0.0643],
+        ...,
+        [-0.1009, -0.1146, -0.1209,  ...,  0.1834,  0.1927,  0.1744],
+        [-0.0021, -0.0215, -0.0146,  ..., -0.0454, -0.0755, -0.0323],
+        [ 0.1912,  0.1855,  0.1721,  ..., -0.2173, -0.1914, -0.1756]],
+       device='cuda:0'), grad: tensor([[-0.0504, -0.0370, -0.0444,  ...,  0.0013, -0.0017,  0.0030],
+        [ 0.1246,  0.0490,  0.0606,  ...,  0.0191,  0.0224,  0.0178],
+        [-0.0673, -0.0129, -0.0172,  ..., -0.0257, -0.0257, -0.0261],
+        ...,
+        [-0.0460, -0.0050, -0.0071,  ..., -0.0034, -0.0040, -0.0036],
+        [ 0.0091,  0.0013,  0.0018,  ...,  0.0016,  0.0016,  0.0016],
+        [ 0.0292,  0.0045,  0.0061,  ...,  0.0069,  0.0071,  0.0071]],
+       device='cuda:0')
+Epoch 5, bias, value: tensor([ 0.0857,  0.0939, -0.1472, -0.0146,  0.0019, -0.0910,  0.0329],
+       device='cuda:0'), grad: tensor([-0.0160,  0.2236, -0.1823,  0.0021, -0.1360,  0.0260,  0.0824],
+       device='cuda:0')
+351
+0.009919647942993149
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 452.74, cls_loss 1.6089 cls_loss_mapping 0.8971 cls_loss_causal 1.2675 re_mapping 0.0695 re_causal 0.0682 /// teacc 66.67 lr 0.00987464
+Epoch 6, weight, value: tensor([[ 0.0118,  0.0750,  0.0889,  ...,  0.0913,  0.0841,  0.0792],
+        [ 0.1477,  0.1151,  0.0935,  ...,  0.0076,  0.0050, -0.0338],
+        [-0.1113, -0.1190, -0.0862,  ..., -0.1011, -0.0904, -0.0644],
+        ...,
+        [-0.1065, -0.1183, -0.1258,  ...,  0.1699,  0.1745,  0.1585],
+        [-0.0172, -0.0300, -0.0242,  ..., -0.0478, -0.0811, -0.0370],
+        [ 0.1982,  0.2044,  0.1797,  ..., -0.2250, -0.1924, -0.1784]],
+       device='cuda:0'), grad: tensor([[ 0.0251,  0.0078,  0.0097,  ...,  0.0101,  0.0092,  0.0094],
+        [-0.0213, -0.0114, -0.0127,  ..., -0.0017, -0.0009, -0.0016],
+        [-0.0410, -0.0013, -0.0067,  ..., -0.0102, -0.0135, -0.0106],
+        ...,
+        [ 0.0144,  0.0010,  0.0036,  ..., -0.0034, -0.0005, -0.0023],
+        [ 0.0042,  0.0006,  0.0011,  ...,  0.0009,  0.0010,  0.0009],
+        [ 0.0088,  0.0021,  0.0029,  ...,  0.0018,  0.0019,  0.0018]],
+       device='cuda:0')
+Epoch 6, bias, value: tensor([ 0.0940,  0.0933, -0.1204,  0.0203, -0.0127, -0.1302,  0.0180],
+       device='cuda:0'), grad: tensor([ 0.0627, -0.0378, -0.1472,  0.0321,  0.0533,  0.0129,  0.0239],
+       device='cuda:0')
+351
+0.009874639560909117
+changing lr
+---------------------saving model at epoch 5----------------------------------------------------
+epoch 5, time 454.78, cls_loss 1.4026 cls_loss_mapping 0.6825 cls_loss_causal 1.0945 re_mapping 0.0688 re_causal 0.0674 /// teacc 69.20 lr 0.00981981
+Epoch 7, weight, value: tensor([[ 0.0144,  0.0698,  0.0934,  ...,  0.1115,  0.0969,  0.0996],
+        [ 0.1408,  0.1103,  0.0896,  ..., -0.0036, -0.0058, -0.0480],
+        [-0.1273, -0.1361, -0.1051,  ..., -0.0875, -0.0772, -0.0536],
+        ...,
+        [-0.0997, -0.1144, -0.1233,  ...,  0.1564,  0.1621,  0.1444],
+        [-0.0185, -0.0208, -0.0206,  ..., -0.0570, -0.0914, -0.0455],
+        [ 0.2206,  0.2264,  0.1986,  ..., -0.2327, -0.1972, -0.1819]],
+       device='cuda:0'), grad: tensor([[ 0.0933,  0.0541,  0.0461,  ...,  0.0681,  0.0706,  0.0605],
+        [ 0.0765,  0.0251,  0.0261,  ...,  0.0279,  0.0285,  0.0301],
+        [-0.0738, -0.0221, -0.0254,  ..., -0.0347, -0.0336, -0.0367],
+        ...,
+        [-0.1570, -0.0834, -0.0706,  ..., -0.0699, -0.0754, -0.0650],
+        [ 0.0323,  0.0145,  0.0129,  ...,  0.0036,  0.0044,  0.0049],
+        [ 0.0228,  0.0101,  0.0092,  ...,  0.0032,  0.0036,  0.0041]],
+       device='cuda:0')
+Epoch 7, bias, value: tensor([ 0.1347,  0.0758, -0.1063,  0.0093, -0.0243, -0.1556,  0.0292],
+       device='cuda:0'), grad: tensor([ 0.1375,  0.1808, -0.1864,  0.0146, -0.2491,  0.0596,  0.0431],
+       device='cuda:0')
+351
+0.009819814303479266
+changing lr
+epoch 6, time 453.77, cls_loss 1.3282 cls_loss_mapping 0.5491 cls_loss_causal 0.9909 re_mapping 0.0655 re_causal 0.0642 /// teacc 60.76 lr 0.00975528
+Epoch 8, weight, value: tensor([[ 0.0398,  0.0936,  0.1188,  ...,  0.1064,  0.0907,  0.0996],
+        [ 0.1412,  0.1094,  0.0860,  ...,  0.0068,  0.0037, -0.0392],
+        [-0.1204, -0.1311, -0.0986,  ..., -0.0864, -0.0801, -0.0545],
+        ...,
+        [-0.1183, -0.1211, -0.1342,  ...,  0.1680,  0.1767,  0.1535],
+        [-0.0355, -0.0365, -0.0315,  ..., -0.0674, -0.1033, -0.0549],
+        [ 0.2234,  0.2279,  0.1978,  ..., -0.2368, -0.1960, -0.1853]],
+       device='cuda:0'), grad: tensor([[-0.0623, -0.0522, -0.0449,  ...,  0.0019, -0.0008, -0.0010],
+        [ 0.0587,  0.0097,  0.0114,  ...,  0.0081,  0.0081,  0.0081],
+        [ 0.0419,  0.0054,  0.0062,  ...,  0.0025,  0.0031,  0.0038],
+        ...,
+        [-0.0971, -0.0136, -0.0166,  ..., -0.0174, -0.0188, -0.0176],
+        [ 0.0105,  0.0018,  0.0021,  ...,  0.0015,  0.0016,  0.0015],
+        [ 0.0404,  0.0478,  0.0405,  ...,  0.0022,  0.0057,  0.0040]],
+       device='cuda:0')
+Epoch 8, bias, value: tensor([ 0.1477,  0.0618, -0.0965,  0.0062, -0.0655, -0.1308,  0.0407],
+       device='cuda:0'), grad: tensor([-0.0390,  0.1696,  0.1198,  0.0233, -0.3074,  0.0314,  0.0023],
+       device='cuda:0')
+351
+0.009755282581475767
+changing lr
+---------------------saving model at epoch 7----------------------------------------------------
+epoch 7, time 457.32, cls_loss 1.2554 cls_loss_mapping 0.4686 cls_loss_causal 0.9507 re_mapping 0.0641 re_causal 0.0630 /// teacc 75.95 lr 0.00968117
+Epoch 9, weight, value: tensor([[ 0.0278,  0.0834,  0.1053,  ...,  0.1109,  0.0973,  0.1037],
+        [ 0.1658,  0.1352,  0.1064,  ..., -0.0017, -0.0012, -0.0460],
+        [-0.1391, -0.1519, -0.1196,  ..., -0.0862, -0.0763, -0.0535],
+        ...,
+        [-0.1050, -0.1030, -0.1135,  ...,  0.1604,  0.1645,  0.1450],
+        [-0.0416, -0.0422, -0.0363,  ..., -0.0745, -0.1096, -0.0612],
+        [ 0.2183,  0.2199,  0.1946,  ..., -0.2178, -0.1821, -0.1688]],
+       device='cuda:0'), grad: tensor([[-0.0883, -0.0135, -0.0131,  ..., -0.0143, -0.0139, -0.0144],
+        [-0.0609, -0.0325, -0.0312,  ..., -0.0013, -0.0006, -0.0022],
+        [ 0.0304,  0.0059,  0.0055,  ...,  0.0038,  0.0031,  0.0041],
+        ...,
+        [ 0.0475,  0.0090,  0.0086,  ...,  0.0058,  0.0053,  0.0062],
+        [ 0.0043,  0.0008,  0.0007,  ...,  0.0005,  0.0004,  0.0005],
+        [ 0.0563,  0.0287,  0.0280,  ...,  0.0044,  0.0049,  0.0046]],
+       device='cuda:0')
+Epoch 9, bias, value: tensor([ 0.1589,  0.0625, -0.1112, -0.0016, -0.0588, -0.1325,  0.0467],
+       device='cuda:0'), grad: tensor([-0.2479, -0.0677,  0.0864,  0.0305,  0.1304,  0.0124,  0.0562],
+       device='cuda:0')
+351
+0.009681174353198686
+changing lr
+---------------------saving model at epoch 8----------------------------------------------------
+epoch 8, time 455.24, cls_loss 1.1757 cls_loss_mapping 0.3979 cls_loss_causal 0.8756 re_mapping 0.0628 re_causal 0.0618 /// teacc 83.97 lr 0.00959764
+Epoch 10, weight, value: tensor([[ 0.0625,  0.1157,  0.1348,  ...,  0.1011,  0.0910,  0.0953],
+        [ 0.1498,  0.1238,  0.0985,  ..., -0.0012,  0.0010, -0.0424],
+        [-0.1413, -0.1502, -0.1186,  ..., -0.0833, -0.0755, -0.0550],
+        ...,
+        [-0.1284, -0.1333, -0.1405,  ...,  0.1584,  0.1639,  0.1421],
+        [-0.0396, -0.0423, -0.0350,  ..., -0.0679, -0.1031, -0.0573],
+        [ 0.2282,  0.2296,  0.2012,  ..., -0.2213, -0.1891, -0.1696]],
+       device='cuda:0'), grad: tensor([[ 0.0352,  0.0140,  0.0136,  ...,  0.0077,  0.0063,  0.0073],
+        [-0.0071, -0.0013, -0.0011,  ..., -0.0032, -0.0027, -0.0028],
+        [ 0.0073,  0.0004,  0.0006,  ...,  0.0031,  0.0026,  0.0032],
+        ...,
+        [-0.0029,  0.0006,  0.0009,  ..., -0.0038, -0.0026, -0.0040],
+        [-0.0194, -0.0008, -0.0020,  ..., -0.0052, -0.0051, -0.0052],
+        [-0.0158, -0.0133, -0.0124,  ...,  0.0003,  0.0006,  0.0005]],
+       device='cuda:0')
+Epoch 10, bias, value: tensor([ 0.1836,  0.0202, -0.1379, -0.0220, -0.0325, -0.1092,  0.0626],
+       device='cuda:0'), grad: tensor([ 0.0712, -0.0170,  0.0259,  0.0075, -0.0249, -0.0558, -0.0068],
+       device='cuda:0')
+351
+0.009597638862757255
+changing lr
+epoch 9, time 449.01, cls_loss 1.0783 cls_loss_mapping 0.3339 cls_loss_causal 0.8024 re_mapping 0.0617 re_causal 0.0609 /// teacc 54.43 lr 0.00950484
+Epoch 11, weight, value: tensor([[ 0.0426,  0.1046,  0.1231,  ...,  0.0978,  0.0939,  0.0977],
+        [ 0.1533,  0.1176,  0.0916,  ...,  0.0068,  0.0076, -0.0345],
+        [-0.1441, -0.1527, -0.1180,  ..., -0.0798, -0.0729, -0.0511],
+        ...,
+        [-0.1326, -0.1330, -0.1354,  ...,  0.1730,  0.1748,  0.1473],
+        [-0.0284, -0.0353, -0.0262,  ..., -0.0731, -0.1098, -0.0623],
+        [ 0.2437,  0.2496,  0.2129,  ..., -0.2333, -0.2007, -0.1790]],
+       device='cuda:0'), grad: tensor([[ 0.0385,  0.0102,  0.0120,  ...,  0.0148,  0.0177,  0.0159],
+        [-0.0253, -0.0209, -0.0213,  ..., -0.0016, -0.0024, -0.0016],
+        [ 0.0611,  0.0104,  0.0151,  ...,  0.0138,  0.0171,  0.0187],
+        ...,
+        [-0.0848, -0.0169, -0.0224,  ..., -0.0265, -0.0337, -0.0323],
+        [ 0.0042,  0.0003,  0.0006,  ...,  0.0010,  0.0009,  0.0012],
+        [ 0.0417,  0.0179,  0.0199,  ...,  0.0067,  0.0070,  0.0078]],
+       device='cuda:0')
+Epoch 11, bias, value: tensor([ 0.1757,  0.0550, -0.1292, -0.0103, -0.0859, -0.0962,  0.0561],
+       device='cuda:0'), grad: tensor([ 0.0939, -0.0054,  0.1709, -0.1412, -0.2180,  0.0155,  0.0844],
+       device='cuda:0')
+351
+0.009504844339512096
+changing lr
+---------------------saving model at epoch 10----------------------------------------------------
+epoch 10, time 460.02, cls_loss 1.0558 cls_loss_mapping 0.2953 cls_loss_causal 0.7793 re_mapping 0.0601 re_causal 0.0595 /// teacc 84.39 lr 0.00940298
+Epoch 12, weight, value: tensor([[ 0.0483,  0.1054,  0.1242,  ...,  0.0820,  0.0798,  0.0820],
+        [ 0.1505,  0.1209,  0.0947,  ...,  0.0042,  0.0064, -0.0339],
+        [-0.1613, -0.1731, -0.1391,  ..., -0.0812, -0.0740, -0.0511],
+        ...,
+        [-0.1352, -0.1407, -0.1387,  ...,  0.1934,  0.1912,  0.1657],
+        [-0.0201, -0.0242, -0.0164,  ..., -0.0669, -0.1038, -0.0563],
+        [ 0.2609,  0.2660,  0.2266,  ..., -0.2458, -0.2138, -0.1936]],
+       device='cuda:0'), grad: tensor([[ 0.0038, -0.0005,  0.0011,  ...,  0.0099,  0.0096,  0.0098],
+        [ 0.0407,  0.0055,  0.0084,  ...,  0.0054,  0.0047,  0.0044],
+        [-0.0213, -0.0027, -0.0057,  ..., -0.0021, -0.0041, -0.0027],
+        ...,
+        [-0.0914, -0.0195, -0.0278,  ..., -0.0533, -0.0476, -0.0487],
+        [ 0.0056,  0.0007,  0.0010,  ...,  0.0007,  0.0005,  0.0005],
+        [ 0.0152,  0.0019,  0.0031,  ...,  0.0019,  0.0018,  0.0016]],
+       device='cuda:0')
+Epoch 12, bias, value: tensor([ 0.1866,  0.0545, -0.1332, -0.0226, -0.0534, -0.1151,  0.0492],
+       device='cuda:0'), grad: tensor([-0.0023,  0.1158, -0.0518,  0.1112, -0.2318,  0.0164,  0.0426],
+       device='cuda:0')
+351
+0.009402977659283692
+changing lr
+---------------------saving model at epoch 11----------------------------------------------------
+epoch 11, time 454.33, cls_loss 1.0398 cls_loss_mapping 0.2819 cls_loss_causal 0.7541 re_mapping 0.0591 re_causal 0.0586 /// teacc 91.98 lr 0.00929224
+Epoch 13, weight, value: tensor([[ 0.0713,  0.1357,  0.1500,  ...,  0.0775,  0.0713,  0.0783],
+        [ 0.1313,  0.0968,  0.0707,  ...,  0.0115,  0.0138, -0.0251],
+        [-0.1622, -0.1718, -0.1354,  ..., -0.0756, -0.0701, -0.0490],
+        ...,
+        [-0.1330, -0.1338, -0.1339,  ...,  0.1853,  0.1883,  0.1586],
+        [-0.0259, -0.0341, -0.0240,  ..., -0.0712, -0.1064, -0.0611],
+        [ 0.2578,  0.2589,  0.2204,  ..., -0.2345, -0.2045, -0.1835]],
+       device='cuda:0'), grad: tensor([[ 5.8258e-02,  3.7476e-02,  3.5950e-02,  ...,  1.3275e-02,
+          1.4183e-02,  1.2985e-02],
+        [-9.3933e-02, -6.4331e-02, -6.2012e-02,  ..., -1.9516e-02,
+         -2.1210e-02, -1.9028e-02],
+        [-2.5444e-03, -3.3569e-04, -2.3758e-04,  ..., -9.0265e-04,
+         -8.5878e-04, -8.8930e-04],
+        ...,
+        [-3.9864e-03, -1.2789e-03, -1.1244e-03,  ..., -1.8024e-03,
+         -1.8101e-03, -1.8063e-03],
+        [ 2.0015e-04,  1.5497e-04,  1.5473e-04,  ...,  3.8177e-05,
+          4.2140e-05,  3.4750e-05],
+        [ 4.1656e-02,  2.8229e-02,  2.7176e-02,  ...,  8.7891e-03,
+          9.5291e-03,  8.5754e-03]], device='cuda:0')
+Epoch 13, bias, value: tensor([ 0.1644,  0.0638, -0.1272, -0.0139, -0.0696, -0.1224,  0.0715],
+       device='cuda:0'), grad: tensor([ 0.0701, -0.0998, -0.0080,  0.0009, -0.0088,  0.0002,  0.0454],
+       device='cuda:0')
+351
+0.009292243968009333
+changing lr
+epoch 12, time 450.91, cls_loss 1.0272 cls_loss_mapping 0.2470 cls_loss_causal 0.7442 re_mapping 0.0562 re_causal 0.0560 /// teacc 84.81 lr 0.00917287
+Epoch 14, weight, value: tensor([[ 0.0686,  0.1280,  0.1382,  ...,  0.0697,  0.0653,  0.0732],
+        [ 0.1487,  0.1214,  0.0971,  ...,  0.0143,  0.0178, -0.0242],
+        [-0.1657, -0.1792, -0.1401,  ..., -0.0776, -0.0704, -0.0503],
+        ...,
+        [-0.1496, -0.1501, -0.1481,  ...,  0.1825,  0.1855,  0.1554],
+        [-0.0270, -0.0264, -0.0158,  ..., -0.0716, -0.1058, -0.0600],
+        [ 0.2709,  0.2640,  0.2248,  ..., -0.2248, -0.1969, -0.1750]],
+       device='cuda:0'), grad: tensor([[ 7.4585e-02,  2.4384e-02,  2.4719e-02,  ...,  1.7944e-02,
+          2.0050e-02,  2.2858e-02],
+        [-5.1025e-02, -1.2413e-02, -1.2932e-02,  ..., -1.4473e-02,
+         -1.6281e-02, -1.9348e-02],
+        [ 6.6299e-03,  1.7309e-03,  1.8206e-03,  ...,  2.1935e-03,
+          2.3727e-03,  2.5501e-03],
+        ...,
+        [ 1.3888e-04,  5.8889e-04,  5.9843e-04,  ..., -9.7942e-04,
+         -9.5415e-04, -7.3528e-04],
+        [-1.5617e-02, -4.7035e-03, -4.9934e-03,  ..., -5.0354e-03,
+         -5.3215e-03, -5.5809e-03],
+        [-1.4961e-02, -9.6512e-03, -9.2850e-03,  ...,  2.7251e-04,
+          5.2005e-05,  1.6046e-04]], device='cuda:0')
+Epoch 14, bias, value: tensor([ 0.1961,  0.0361, -0.1098, -0.0173, -0.0908, -0.1285,  0.0813],
+       device='cuda:0'), grad: tensor([ 0.1724, -0.1383,  0.0170,  0.0007, -0.0016, -0.0363, -0.0137],
+       device='cuda:0')
+351
+0.009172866268606516
+changing lr
+epoch 13, time 453.20, cls_loss 0.9116 cls_loss_mapping 0.2102 cls_loss_causal 0.6751 re_mapping 0.0546 re_causal 0.0545 /// teacc 76.79 lr 0.00904508
+Epoch 15, weight, value: tensor([[ 0.0573,  0.1256,  0.1327,  ...,  0.0711,  0.0654,  0.0756],
+        [ 0.1509,  0.1202,  0.0981,  ...,  0.0106,  0.0183, -0.0245],
+        [-0.1616, -0.1759, -0.1361,  ..., -0.0811, -0.0733, -0.0568],
+        ...,
+        [-0.1633, -0.1587, -0.1596,  ...,  0.1834,  0.1852,  0.1540],
+        [-0.0206, -0.0230, -0.0140,  ..., -0.0670, -0.1012, -0.0553],
+        [ 0.2813,  0.2776,  0.2417,  ..., -0.2255, -0.1990, -0.1756]],
+       device='cuda:0'), grad: tensor([[ 0.0178,  0.0015,  0.0016,  ...,  0.0026,  0.0023,  0.0026],
+        [-0.0255, -0.0007, -0.0007,  ..., -0.0060, -0.0050, -0.0061],
+        [-0.0339, -0.0005, -0.0005,  ..., -0.0030, -0.0029, -0.0028],
+        ...,
+        [ 0.0124,  0.0013,  0.0013,  ...,  0.0018,  0.0016,  0.0018],
+        [ 0.0086,  0.0003,  0.0003,  ...,  0.0012,  0.0011,  0.0012],
+        [ 0.0067, -0.0026, -0.0025,  ...,  0.0014,  0.0010,  0.0012]],
+       device='cuda:0')
+Epoch 15, bias, value: tensor([ 0.1582,  0.0502, -0.1158,  0.0223, -0.1179, -0.1045,  0.0754],
+       device='cuda:0'), grad: tensor([ 0.0597, -0.0913, -0.1237,  0.0491,  0.0408,  0.0303,  0.0351],
+       device='cuda:0')
+351
+0.00904508497187474
+changing lr
+---------------------saving model at epoch 14----------------------------------------------------
+epoch 14, time 458.69, cls_loss 0.9612 cls_loss_mapping 0.2005 cls_loss_causal 0.7050 re_mapping 0.0541 re_causal 0.0542 /// teacc 92.41 lr 0.00890916
+Epoch 16, weight, value: tensor([[ 0.0557,  0.1184,  0.1275,  ...,  0.0589,  0.0559,  0.0662],
+        [ 0.1410,  0.1110,  0.0868,  ...,  0.0304,  0.0316, -0.0088],
+        [-0.1698, -0.1848, -0.1461,  ..., -0.0906, -0.0795, -0.0656],
+        ...,
+        [-0.1624, -0.1611, -0.1600,  ...,  0.1767,  0.1767,  0.1492],
+        [-0.0245, -0.0218, -0.0152,  ..., -0.0643, -0.0984, -0.0537],
+        [ 0.3010,  0.2933,  0.2561,  ..., -0.2201, -0.1922, -0.1692]],
+       device='cuda:0'), grad: tensor([[ 0.0088, -0.0027, -0.0038,  ...,  0.0082,  0.0064,  0.0073],
+        [ 0.0187,  0.0117,  0.0135,  ...,  0.0032,  0.0030,  0.0020],
+        [ 0.0070,  0.0009,  0.0012,  ...,  0.0016,  0.0013,  0.0016],
+        ...,
+        [ 0.0016,  0.0011,  0.0014,  ..., -0.0063, -0.0059, -0.0059],
+        [ 0.0020,  0.0001,  0.0002,  ...,  0.0006,  0.0005,  0.0006],
+        [-0.0401, -0.0113, -0.0128,  ..., -0.0078, -0.0056, -0.0060]],
+       device='cuda:0')
+Epoch 16, bias, value: tensor([ 0.1849,  0.0512, -0.1069, -0.0171, -0.1140, -0.1163,  0.0864],
+       device='cuda:0'), grad: tensor([ 0.0376,  0.0111,  0.0193,  0.0062,  0.0055,  0.0073, -0.0870],
+       device='cuda:0')
+351
+0.008909157412340152
+changing lr
+epoch 15, time 453.11, cls_loss 0.9066 cls_loss_mapping 0.1870 cls_loss_causal 0.6779 re_mapping 0.0528 re_causal 0.0530 /// teacc 88.61 lr 0.00876536
+Epoch 17, weight, value: tensor([[ 0.0782,  0.1433,  0.1458,  ...,  0.0479,  0.0450,  0.0548],
+        [ 0.1221,  0.0977,  0.0768,  ...,  0.0333,  0.0351, -0.0018],
+        [-0.1619, -0.1843, -0.1423,  ..., -0.0898, -0.0790, -0.0660],
+        ...,
+        [-0.1688, -0.1679, -0.1666,  ...,  0.1741,  0.1736,  0.1459],
+        [-0.0311, -0.0263, -0.0211,  ..., -0.0661, -0.1001, -0.0565],
+        [ 0.2899,  0.2819,  0.2490,  ..., -0.2190, -0.1903, -0.1680]],
+       device='cuda:0'), grad: tensor([[-3.0548e-02, -6.7062e-03, -8.5754e-03,  ..., -1.6449e-02,
+         -1.8036e-02, -1.4374e-02],
+        [ 2.9068e-02,  7.0000e-03,  9.3460e-03,  ...,  1.0864e-02,
+          1.1490e-02,  1.0071e-02],
+        [ 8.0750e-02,  2.8198e-02,  3.5889e-02,  ...,  1.1345e-02,
+          1.2016e-02,  1.1909e-02],
+        ...,
+        [ 2.4551e-02,  6.4812e-03,  8.7891e-03,  ...,  5.9853e-03,
+          5.8250e-03,  6.0921e-03],
+        [-1.6212e-03,  1.8463e-05, -1.5759e-04,  ..., -2.4748e-04,
+         -3.4928e-04, -2.2602e-04],
+        [-1.0443e-01, -3.5583e-02, -4.6082e-02,  ..., -1.2093e-02,
+         -1.1566e-02, -1.4053e-02]], device='cuda:0')
+Epoch 17, bias, value: tensor([ 0.1889,  0.0190, -0.0869, -0.0146, -0.1086, -0.1200,  0.0909],
+       device='cuda:0'), grad: tensor([-0.0674,  0.0630,  0.1656,  0.0049,  0.0519, -0.0049, -0.2130],
+       device='cuda:0')
+351
+0.00876535733001806
+changing lr
+epoch 16, time 453.00, cls_loss 0.8472 cls_loss_mapping 0.1591 cls_loss_causal 0.6410 re_mapping 0.0519 re_causal 0.0523 /// teacc 91.14 lr 0.00861397
+Epoch 18, weight, value: tensor([[ 0.1059,  0.1740,  0.1714,  ...,  0.0444,  0.0454,  0.0510],
+        [ 0.1126,  0.0840,  0.0607,  ...,  0.0396,  0.0392,  0.0055],
+        [-0.1739, -0.1877, -0.1472,  ..., -0.0897, -0.0811, -0.0687],
+        ...,
+        [-0.1850, -0.1847, -0.1818,  ...,  0.1676,  0.1683,  0.1395],
+        [-0.0206, -0.0293, -0.0204,  ..., -0.0642, -0.0962, -0.0547],
+        [ 0.2902,  0.2877,  0.2584,  ..., -0.2160, -0.1906, -0.1638]],
+       device='cuda:0'), grad: tensor([[-0.0638, -0.0191, -0.0215,  ..., -0.0238, -0.0244, -0.0258],
+        [ 0.0114,  0.0035,  0.0043,  ...,  0.0045,  0.0044,  0.0044],
+        [ 0.0009,  0.0003,  0.0005,  ...,  0.0003,  0.0004,  0.0002],
+        ...,
+        [ 0.0843,  0.0226,  0.0293,  ...,  0.0301,  0.0315,  0.0309],
+        [ 0.0162,  0.0041,  0.0065,  ...,  0.0053,  0.0056,  0.0047],
+        [-0.0506, -0.0118, -0.0197,  ..., -0.0169, -0.0181, -0.0150]],
+       device='cuda:0')
+Epoch 18, bias, value: tensor([ 0.1771,  0.0636, -0.0978, -0.0233, -0.1175, -0.0933,  0.0604],
+       device='cuda:0'), grad: tensor([-0.1577,  0.0261,  0.0018,  0.0038,  0.2101,  0.0380, -0.1220],
+       device='cuda:0')
+351
+0.008613974319136962
+changing lr
+epoch 17, time 451.96, cls_loss 0.7742 cls_loss_mapping 0.1417 cls_loss_causal 0.5760 re_mapping 0.0510 re_causal 0.0514 /// teacc 92.41 lr 0.00845531
+Epoch 19, weight, value: tensor([[ 0.0843,  0.1555,  0.1506,  ...,  0.0433,  0.0460,  0.0490],
+        [ 0.1311,  0.0988,  0.0772,  ...,  0.0538,  0.0535,  0.0191],
+        [-0.1675, -0.1919, -0.1496,  ..., -0.0908, -0.0859, -0.0724],
+        ...,
+        [-0.1929, -0.1927, -0.1885,  ...,  0.1628,  0.1646,  0.1352],
+        [-0.0370, -0.0420, -0.0320,  ..., -0.0611, -0.0931, -0.0516],
+        [ 0.3148,  0.3157,  0.2843,  ..., -0.2238, -0.1980, -0.1686]],
+       device='cuda:0'), grad: tensor([[ 0.0091,  0.0019,  0.0025,  ...,  0.0016,  0.0015,  0.0018],
+        [ 0.0016, -0.0029, -0.0029,  ..., -0.0020, -0.0015, -0.0012],
+        [-0.0296,  0.0030,  0.0020,  ..., -0.0038, -0.0041, -0.0061],
+        ...,
+        [-0.0533, -0.0281, -0.0348,  ..., -0.0015, -0.0014, -0.0013],
+        [ 0.0122,  0.0036,  0.0047,  ...,  0.0011,  0.0011,  0.0014],
+        [ 0.0584,  0.0223,  0.0282,  ...,  0.0045,  0.0043,  0.0051]],
+       device='cuda:0')
+Epoch 19, bias, value: tensor([ 0.2025,  0.0283, -0.0659, -0.0152, -0.1163, -0.1058,  0.0422],
+       device='cuda:0'), grad: tensor([ 0.0248,  0.0202, -0.1221,  0.0048, -0.0724,  0.0289,  0.1158],
+       device='cuda:0')
+351
+0.008455313244934327
+changing lr
+epoch 18, time 449.03, cls_loss 0.8364 cls_loss_mapping 0.1282 cls_loss_causal 0.6320 re_mapping 0.0493 re_causal 0.0500 /// teacc 91.14 lr 0.00828969
+Epoch 20, weight, value: tensor([[ 0.1087,  0.1796,  0.1761,  ...,  0.0408,  0.0475,  0.0490],
+        [ 0.1116,  0.0859,  0.0641,  ...,  0.0435,  0.0450,  0.0109],
+        [-0.1737, -0.1980, -0.1549,  ..., -0.0841, -0.0807, -0.0673],
+        ...,
+        [-0.1916, -0.1920, -0.1864,  ...,  0.1598,  0.1621,  0.1314],
+        [-0.0333, -0.0422, -0.0309,  ..., -0.0604, -0.0925, -0.0515],
+        [ 0.3100,  0.3126,  0.2769,  ..., -0.2144, -0.1911, -0.1582]],
+       device='cuda:0'), grad: tensor([[ 0.0197,  0.0099,  0.0059,  ..., -0.0031, -0.0050, -0.0031],
+        [-0.0321, -0.0169, -0.0172,  ..., -0.0031, -0.0029, -0.0047],
+        [ 0.0227,  0.0029,  0.0031,  ...,  0.0115,  0.0118,  0.0122],
+        ...,
+        [ 0.0161,  0.0029,  0.0031,  ...,  0.0065,  0.0066,  0.0070],
+        [-0.0457, -0.0021, -0.0022,  ..., -0.0232, -0.0240, -0.0252],
+        [ 0.0283,  0.0056,  0.0098,  ...,  0.0173,  0.0195,  0.0198]],
+       device='cuda:0')
+Epoch 20, bias, value: tensor([ 0.1864,  0.0156, -0.0886,  0.0018, -0.1136, -0.1055,  0.0739],
+       device='cuda:0'), grad: tensor([ 0.0626, -0.0616,  0.0718, -0.0233,  0.0474, -0.1609,  0.0641],
+       device='cuda:0')
+351
+0.008289693629698565
+changing lr
+epoch 19, time 455.46, cls_loss 0.7814 cls_loss_mapping 0.1178 cls_loss_causal 0.5921 re_mapping 0.0479 re_causal 0.0487 /// teacc 72.15 lr 0.00811745
+Epoch 21, weight, value: tensor([[ 0.1106,  0.1791,  0.1756,  ...,  0.0389,  0.0426,  0.0435],
+        [ 0.1243,  0.0942,  0.0700,  ...,  0.0457,  0.0474,  0.0143],
+        [-0.1741, -0.1944, -0.1508,  ..., -0.0910, -0.0813, -0.0710],
+        ...,
+        [-0.2081, -0.2010, -0.1960,  ...,  0.1575,  0.1580,  0.1287],
+        [-0.0381, -0.0462, -0.0356,  ..., -0.0544, -0.0869, -0.0468],
+        [ 0.3151,  0.3138,  0.2803,  ..., -0.2114, -0.1906, -0.1545]],
+       device='cuda:0'), grad: tensor([[ 1.0785e-01,  6.8726e-02,  7.0312e-02,  ...,  1.6388e-02,
+          1.2192e-02,  1.2253e-02],
+        [ 1.3733e-03,  5.2404e-04,  5.6410e-04,  ...,  3.3355e-04,
+          2.4867e-04,  2.5868e-04],
+        [-5.1651e-03, -1.2517e-04, -3.9053e-04,  ..., -1.8826e-03,
+         -1.4172e-03, -1.5049e-03],
+        ...,
+        [ 7.3814e-04,  3.0428e-05,  6.6578e-05,  ...,  2.6536e-04,
+          2.0075e-04,  2.1386e-04],
+        [ 1.4877e-04,  1.9699e-05,  2.4125e-05,  ...,  5.0485e-05,
+          3.3647e-05,  3.6120e-05],
+        [-1.0468e-01, -6.9153e-02, -7.0557e-02,  ..., -1.5038e-02,
+         -1.1169e-02, -1.1169e-02]], device='cuda:0')
+Epoch 21, bias, value: tensor([ 1.9403e-01,  2.8833e-02, -8.8846e-02,  1.8840e-04, -1.4140e-01,
+        -8.7356e-02,  6.4821e-02], device='cuda:0'), grad: tensor([ 0.1373,  0.0031, -0.0186, -0.0010,  0.0026,  0.0005, -0.1239],
+       device='cuda:0')
+351
+0.00811744900929367
+changing lr
+epoch 20, time 451.68, cls_loss 0.7638 cls_loss_mapping 0.1102 cls_loss_causal 0.5785 re_mapping 0.0478 re_causal 0.0487 /// teacc 90.30 lr 0.00793893
+Epoch 22, weight, value: tensor([[ 0.1193,  0.1878,  0.1812,  ...,  0.0358,  0.0411,  0.0401],
+        [ 0.1060,  0.0723,  0.0512,  ...,  0.0471,  0.0490,  0.0155],
+        [-0.1692, -0.1952, -0.1505,  ..., -0.0915, -0.0833, -0.0723],
+        ...,
+        [-0.1960, -0.1961, -0.1884,  ...,  0.1656,  0.1635,  0.1344],
+        [-0.0364, -0.0403, -0.0300,  ..., -0.0578, -0.0894, -0.0485],
+        [ 0.3055,  0.3136,  0.2773,  ..., -0.2167, -0.1943, -0.1581]],
+       device='cuda:0'), grad: tensor([[ 0.0340,  0.0035,  0.0048,  ...,  0.0139,  0.0113,  0.0108],
+        [ 0.0007, -0.0012, -0.0012,  ...,  0.0017,  0.0011,  0.0015],
+        [-0.0289, -0.0021, -0.0037,  ..., -0.0092, -0.0079, -0.0056],
+        ...,
+        [ 0.0110,  0.0008,  0.0012,  ...,  0.0054,  0.0043,  0.0046],
+        [ 0.0030,  0.0002,  0.0003,  ...,  0.0014,  0.0011,  0.0011],
+        [-0.0370, -0.0026, -0.0035,  ..., -0.0193, -0.0150, -0.0165]],
+       device='cuda:0')
+Epoch 22, bias, value: tensor([ 0.1858,  0.0162, -0.0574, -0.0030, -0.1264, -0.1156,  0.0711],
+       device='cuda:0'), grad: tensor([ 0.1171,  0.0118, -0.0874,  0.0555,  0.0433,  0.0112, -0.1515],
+       device='cuda:0')
+351
+0.007938926261462368
+changing lr
+epoch 21, time 450.74, cls_loss 0.7312 cls_loss_mapping 0.0901 cls_loss_causal 0.5696 re_mapping 0.0465 re_causal 0.0476 /// teacc 92.41 lr 0.00775448
+Epoch 23, weight, value: tensor([[ 0.0911,  0.1688,  0.1572,  ...,  0.0365,  0.0408,  0.0402],
+        [ 0.1351,  0.0929,  0.0740,  ...,  0.0507,  0.0504,  0.0170],
+        [-0.1782, -0.2003, -0.1546,  ..., -0.0913, -0.0816, -0.0702],
+        ...,
+        [-0.2124, -0.2058, -0.1982,  ...,  0.1629,  0.1598,  0.1316],
+        [-0.0355, -0.0457, -0.0345,  ..., -0.0589, -0.0911, -0.0507],
+        [ 0.3234,  0.3301,  0.2943,  ..., -0.2182, -0.1925, -0.1574]],
+       device='cuda:0'), grad: tensor([[-0.0500, -0.0139, -0.0171,  ..., -0.0012, -0.0009, -0.0025],
+        [-0.0099,  0.0062,  0.0047,  ..., -0.0075, -0.0064, -0.0072],
+        [ 0.0270,  0.0067,  0.0083,  ...,  0.0080,  0.0063,  0.0065],
+        ...,
+        [ 0.0044,  0.0013,  0.0016,  ...,  0.0012,  0.0010,  0.0010],
+        [ 0.0084,  0.0022,  0.0027,  ...,  0.0023,  0.0018,  0.0019],
+        [ 0.0107, -0.0061, -0.0040,  ..., -0.0059, -0.0041, -0.0017]],
+       device='cuda:0')
+Epoch 23, bias, value: tensor([ 0.1719,  0.0307, -0.0446,  0.0129, -0.1463, -0.0915,  0.0381],
+       device='cuda:0'), grad: tensor([-0.1018, -0.0622,  0.0665,  0.0175,  0.0097,  0.0200,  0.0504],
+       device='cuda:0')
+351
+0.007754484907260515
+changing lr
+epoch 22, time 451.84, cls_loss 0.7518 cls_loss_mapping 0.0929 cls_loss_causal 0.5837 re_mapping 0.0451 re_causal 0.0464 /// teacc 89.87 lr 0.00756450
+Epoch 24, weight, value: tensor([[ 0.0956,  0.1683,  0.1567,  ...,  0.0242,  0.0315,  0.0336],
+        [ 0.1396,  0.0987,  0.0802,  ...,  0.0565,  0.0550,  0.0212],
+        [-0.1854, -0.2025, -0.1591,  ..., -0.0883, -0.0800, -0.0691],
+        ...,
+        [-0.2074, -0.2095, -0.2011,  ...,  0.1587,  0.1573,  0.1289],
+        [-0.0183, -0.0305, -0.0176,  ..., -0.0615, -0.0934, -0.0541],
+        [ 0.3028,  0.3179,  0.2797,  ..., -0.2052, -0.1833, -0.1477]],
+       device='cuda:0'), grad: tensor([[-1.5884e-02, -5.9013e-03, -7.3280e-03,  ..., -2.0256e-03,
+         -7.8535e-04, -9.6226e-04],
+        [ 1.6754e-02,  6.9733e-03,  7.8201e-03,  ...,  1.6747e-03,
+          6.6900e-04,  8.8549e-04],
+        [ 1.5392e-03,  3.9339e-04,  4.8828e-04,  ...,  5.5408e-04,
+          5.2023e-04,  5.0068e-04],
+        ...,
+        [ 3.2158e-03,  8.7261e-04,  1.1234e-03,  ...,  3.8171e-04,
+          1.0842e-04,  1.8370e-04],
+        [ 1.3196e-04,  9.4295e-05,  7.7844e-05,  ..., -1.6838e-05,
+         -1.9092e-06, -2.1365e-06],
+        [-5.5733e-03, -2.4166e-03, -2.1420e-03,  ..., -3.7766e-04,
+         -3.3832e-04, -4.2987e-04]], device='cuda:0')
+Epoch 24, bias, value: tensor([ 0.1861,  0.0180, -0.0312,  0.0165, -0.1313, -0.1171,  0.0305],
+       device='cuda:0'), grad: tensor([-2.9816e-02,  2.8854e-02,  3.3073e-03, -5.4884e-04,  6.1455e-03,
+         2.9162e-05, -7.9498e-03], device='cuda:0')
+351
+0.007564496387029534
+changing lr
+epoch 23, time 453.50, cls_loss 0.7166 cls_loss_mapping 0.0905 cls_loss_causal 0.5468 re_mapping 0.0435 re_causal 0.0447 /// teacc 89.45 lr 0.00736934
+Epoch 25, weight, value: tensor([[ 0.0858,  0.1587,  0.1440,  ...,  0.0262,  0.0345,  0.0385],
+        [ 0.1304,  0.0923,  0.0764,  ...,  0.0645,  0.0644,  0.0310],
+        [-0.1850, -0.2030, -0.1562,  ..., -0.0867, -0.0800, -0.0695],
+        ...,
+        [-0.1993, -0.2017, -0.1947,  ...,  0.1412,  0.1412,  0.1108],
+        [-0.0258, -0.0343, -0.0223,  ..., -0.0587, -0.0904, -0.0516],
+        [ 0.3175,  0.3315,  0.2921,  ..., -0.2043, -0.1856, -0.1496]],
+       device='cuda:0'), grad: tensor([[-0.0986, -0.0581, -0.0554,  ..., -0.0217, -0.0136, -0.0163],
+        [ 0.0618,  0.0235,  0.0215,  ...,  0.0227,  0.0155,  0.0179],
+        [ 0.0055,  0.0007,  0.0007,  ...,  0.0011,  0.0007,  0.0010],
+        ...,
+        [ 0.0038,  0.0010,  0.0010,  ...,  0.0006,  0.0004,  0.0006],
+        [ 0.0025,  0.0002,  0.0002,  ...,  0.0005,  0.0003,  0.0005],
+        [ 0.0207,  0.0318,  0.0312,  ..., -0.0041, -0.0039, -0.0045]],
+       device='cuda:0')
+Epoch 25, bias, value: tensor([ 0.1992,  0.0090, -0.0381,  0.0307, -0.1283, -0.1171,  0.0164],
+       device='cuda:0'), grad: tensor([-0.1006,  0.1296,  0.0206,  0.0136,  0.0116,  0.0100, -0.0847],
+       device='cuda:0')
+351
+0.007369343312364995
+changing lr
+epoch 24, time 450.13, cls_loss 0.6709 cls_loss_mapping 0.0812 cls_loss_causal 0.5176 re_mapping 0.0426 re_causal 0.0439 /// teacc 91.14 lr 0.00716942
+Epoch 26, weight, value: tensor([[ 0.1034,  0.1717,  0.1580,  ...,  0.0304,  0.0354,  0.0413],
+        [ 0.1067,  0.0743,  0.0580,  ...,  0.0643,  0.0635,  0.0312],
+        [-0.1853, -0.2036, -0.1562,  ..., -0.0901, -0.0842, -0.0730],
+        ...,
+        [-0.2009, -0.2021, -0.1978,  ...,  0.1422,  0.1462,  0.1140],
+        [-0.0227, -0.0358, -0.0238,  ..., -0.0514, -0.0838, -0.0459],
+        [ 0.3311,  0.3459,  0.3071,  ..., -0.2073, -0.1893, -0.1536]],
+       device='cuda:0'), grad: tensor([[ 0.0973,  0.0473,  0.0493,  ...,  0.0125,  0.0118,  0.0114],
+        [ 0.0702,  0.0349,  0.0357,  ...,  0.0082,  0.0089,  0.0081],
+        [-0.0394,  0.0003,  0.0005,  ..., -0.0284, -0.0349, -0.0302],
+        ...,
+        [ 0.0549,  0.0066,  0.0070,  ...,  0.0306,  0.0366,  0.0320],
+        [ 0.0098,  0.0047,  0.0051,  ...,  0.0013,  0.0014,  0.0013],
+        [-0.1929, -0.0939, -0.0977,  ..., -0.0240, -0.0237, -0.0224]],
+       device='cuda:0')
+Epoch 26, bias, value: tensor([ 0.1947,  0.0112, -0.0341,  0.0138, -0.1167, -0.1078,  0.0111],
+       device='cuda:0'), grad: tensor([ 0.1610,  0.1115, -0.1550, -0.0006,  0.1830,  0.0156, -0.3157],
+       device='cuda:0')
+351
+0.0071694186955877925
+changing lr
+epoch 25, time 452.15, cls_loss 0.6665 cls_loss_mapping 0.0694 cls_loss_causal 0.5095 re_mapping 0.0422 re_causal 0.0435 /// teacc 92.41 lr 0.00696513
+Epoch 27, weight, value: tensor([[ 0.0902,  0.1591,  0.1467,  ...,  0.0306,  0.0340,  0.0392],
+        [ 0.1098,  0.0723,  0.0556,  ...,  0.0624,  0.0591,  0.0290],
+        [-0.1854, -0.2021, -0.1563,  ..., -0.0887, -0.0814, -0.0708],
+        ...,
+        [-0.2090, -0.2073, -0.2044,  ...,  0.1361,  0.1424,  0.1109],
+        [-0.0185, -0.0312, -0.0185,  ..., -0.0462, -0.0781, -0.0412],
+        [ 0.3444,  0.3559,  0.3195,  ..., -0.2091, -0.1921, -0.1562]],
+       device='cuda:0'), grad: tensor([[-5.6763e-02, -3.0365e-02, -3.1616e-02,  ..., -6.4621e-03,
+         -4.7989e-03, -5.6572e-03],
+        [ 5.2490e-03,  2.7866e-03,  2.9068e-03,  ...,  6.2943e-04,
+          4.7326e-04,  5.5647e-04],
+        [-9.2268e-04,  2.7329e-05, -4.8548e-05,  ..., -4.4656e-04,
+         -3.8910e-04, -4.1771e-04],
+        ...,
+        [ 6.5708e-04,  3.6883e-04,  3.8218e-04,  ...,  3.4630e-05,
+          2.9564e-05,  3.1143e-05],
+        [-3.4831e-07,  6.6996e-05,  4.3809e-05,  ..., -3.4660e-05,
+         -3.4183e-05, -3.1084e-05],
+        [ 5.0903e-02,  2.7023e-02,  2.8214e-02,  ...,  5.9242e-03,
+          4.4174e-03,  5.1918e-03]], device='cuda:0')
+Epoch 27, bias, value: tensor([ 0.1866,  0.0373, -0.0425,  0.0068, -0.1264, -0.1044,  0.0150],
+       device='cuda:0'), grad: tensor([-0.0792,  0.0075, -0.0036,  0.0029,  0.0007, -0.0002,  0.0718],
+       device='cuda:0')
+351
+0.0069651251582696205
+changing lr
+epoch 26, time 450.65, cls_loss 0.6320 cls_loss_mapping 0.0628 cls_loss_causal 0.5073 re_mapping 0.0405 re_causal 0.0421 /// teacc 89.87 lr 0.00675687
+Epoch 28, weight, value: tensor([[ 0.0900,  0.1582,  0.1457,  ...,  0.0303,  0.0326,  0.0392],
+        [ 0.0942,  0.0618,  0.0457,  ...,  0.0597,  0.0571,  0.0247],
+        [-0.1825, -0.1986, -0.1537,  ..., -0.0875, -0.0806, -0.0693],
+        ...,
+        [-0.1999, -0.1998, -0.1971,  ...,  0.1290,  0.1366,  0.1044],
+        [-0.0151, -0.0315, -0.0167,  ..., -0.0440, -0.0749, -0.0398],
+        [ 0.3425,  0.3557,  0.3175,  ..., -0.2057, -0.1900, -0.1514]],
+       device='cuda:0'), grad: tensor([[ 0.0394,  0.0105,  0.0144,  ...,  0.0042,  0.0022,  0.0032],
+        [ 0.0098,  0.0014,  0.0025,  ...,  0.0011,  0.0005,  0.0007],
+        [ 0.0135,  0.0017,  0.0032,  ...,  0.0015,  0.0006,  0.0009],
+        ...,
+        [ 0.0173,  0.0044,  0.0061,  ...,  0.0019,  0.0009,  0.0014],
+        [-0.0315,  0.0016, -0.0025,  ..., -0.0040, -0.0011, -0.0020],
+        [-0.0499, -0.0197, -0.0238,  ..., -0.0049, -0.0033, -0.0043]],
+       device='cuda:0')
+Epoch 28, bias, value: tensor([ 0.2040,  0.0013, -0.0443,  0.0009, -0.1244, -0.0900,  0.0254],
+       device='cuda:0'), grad: tensor([ 0.0886,  0.0264,  0.0353,  0.0046,  0.0417, -0.1147, -0.0818],
+       device='cuda:0')
+351
+0.006756874120406716
+changing lr
+epoch 27, time 453.34, cls_loss 0.6335 cls_loss_mapping 0.0615 cls_loss_causal 0.4910 re_mapping 0.0396 re_causal 0.0411 /// teacc 91.56 lr 0.00654508
+Epoch 29, weight, value: tensor([[ 0.0896,  0.1623,  0.1501,  ...,  0.0338,  0.0340,  0.0407],
+        [ 0.1107,  0.0726,  0.0574,  ...,  0.0553,  0.0550,  0.0221],
+        [-0.1747, -0.1930, -0.1501,  ..., -0.0952, -0.0886, -0.0770],
+        ...,
+        [-0.2043, -0.2047, -0.2033,  ...,  0.1334,  0.1401,  0.1088],
+        [-0.0224, -0.0311, -0.0170,  ..., -0.0474, -0.0788, -0.0434],
+        [ 0.3295,  0.3388,  0.3040,  ..., -0.1986, -0.1809, -0.1439]],
+       device='cuda:0'), grad: tensor([[-0.0729, -0.0283, -0.0330,  ..., -0.0194, -0.0136, -0.0132],
+        [ 0.0414,  0.0167,  0.0193,  ...,  0.0097,  0.0067,  0.0064],
+        [ 0.0035,  0.0017,  0.0019,  ...,  0.0008,  0.0006,  0.0005],
+        ...,
+        [ 0.0140,  0.0052,  0.0061,  ...,  0.0049,  0.0038,  0.0038],
+        [ 0.0009,  0.0003,  0.0003,  ...,  0.0002,  0.0001,  0.0001],
+        [ 0.0126,  0.0043,  0.0052,  ...,  0.0036,  0.0023,  0.0023]],
+       device='cuda:0')
+Epoch 29, bias, value: tensor([ 0.1901,  0.0174, -0.0235,  0.0057, -0.1282, -0.1196,  0.0314],
+       device='cuda:0'), grad: tensor([-0.1454,  0.0801,  0.0061,  0.0010,  0.0275,  0.0017,  0.0289],
+       device='cuda:0')
+351
+0.00654508497187474
+changing lr
+---------------------saving model at epoch 28----------------------------------------------------
+epoch 28, time 456.29, cls_loss 0.6409 cls_loss_mapping 0.0534 cls_loss_causal 0.5124 re_mapping 0.0386 re_causal 0.0403 /// teacc 93.25 lr 0.00633018
+Epoch 30, weight, value: tensor([[ 0.0873,  0.1578,  0.1444,  ...,  0.0353,  0.0352,  0.0438],
+        [ 0.1083,  0.0694,  0.0548,  ...,  0.0582,  0.0578,  0.0231],
+        [-0.1916, -0.2063, -0.1623,  ..., -0.0941, -0.0887, -0.0764],
+        ...,
+        [-0.2044, -0.2076, -0.2053,  ...,  0.1365,  0.1425,  0.1115],
+        [-0.0164, -0.0280, -0.0143,  ..., -0.0523, -0.0826, -0.0473],
+        [ 0.3427,  0.3556,  0.3184,  ..., -0.2008, -0.1835, -0.1474]],
+       device='cuda:0'), grad: tensor([[ 2.0275e-03, -4.7874e-03, -5.3749e-03,  ..., -7.1526e-03,
+         -5.7449e-03, -5.3902e-03],
+        [ 9.6283e-03,  1.8644e-03,  1.6575e-03,  ...,  2.1305e-03,
+          1.5268e-03,  1.9455e-03],
+        [ 1.2665e-02,  2.5864e-03,  2.3117e-03,  ...,  1.8826e-03,
+          1.3819e-03,  1.7958e-03],
+        ...,
+        [-1.4854e-02, -3.5419e-03, -2.8210e-03,  ...,  6.1836e-03,
+          4.2801e-03,  4.6501e-03],
+        [ 4.5547e-03,  1.4126e-04, -3.4481e-05,  ...,  7.7391e-04,
+          4.6253e-04,  7.8869e-04],
+        [-1.5732e-02,  3.5458e-03,  4.1122e-03,  ..., -4.1389e-03,
+         -2.1210e-03, -4.0970e-03]], device='cuda:0')
+Epoch 30, bias, value: tensor([ 0.2205,  0.0040, -0.0384, -0.0215, -0.1325, -0.0877,  0.0288],
+       device='cuda:0'), grad: tensor([ 0.0513,  0.0311,  0.0401,  0.0067, -0.0492,  0.0208, -0.1007],
+       device='cuda:0')
+351
+0.006330184227833378
+changing lr
+epoch 29, time 455.36, cls_loss 0.6138 cls_loss_mapping 0.0545 cls_loss_causal 0.4904 re_mapping 0.0378 re_causal 0.0395 /// teacc 91.98 lr 0.00611260
+Epoch 31, weight, value: tensor([[ 0.0916,  0.1580,  0.1439,  ...,  0.0392,  0.0352,  0.0439],
+        [ 0.1017,  0.0600,  0.0456,  ...,  0.0562,  0.0583,  0.0231],
+        [-0.1876, -0.2008, -0.1589,  ..., -0.0958, -0.0916, -0.0777],
+        ...,
+        [-0.1923, -0.1968, -0.1929,  ...,  0.1247,  0.1331,  0.1025],
+        [-0.0225, -0.0332, -0.0194,  ..., -0.0550, -0.0854, -0.0505],
+        [ 0.3351,  0.3533,  0.3176,  ..., -0.1884, -0.1711, -0.1370]],
+       device='cuda:0'), grad: tensor([[ 0.0165,  0.0088,  0.0087,  ...,  0.0018,  0.0014,  0.0015],
+        [ 0.0039,  0.0011,  0.0012,  ...,  0.0008,  0.0006,  0.0006],
+        [ 0.0012,  0.0005,  0.0005,  ...,  0.0002,  0.0001,  0.0001],
+        ...,
+        [ 0.0038,  0.0018,  0.0018,  ...,  0.0006,  0.0005,  0.0005],
+        [ 0.0024,  0.0014,  0.0014,  ...,  0.0005,  0.0004,  0.0004],
+        [-0.0280, -0.0136, -0.0137,  ..., -0.0039, -0.0029, -0.0031]],
+       device='cuda:0')
+Epoch 31, bias, value: tensor([ 0.2193,  0.0164, -0.0426, -0.0112, -0.1228, -0.0863,  0.0009],
+       device='cuda:0'), grad: tensor([ 0.0226,  0.0085,  0.0023,  0.0003,  0.0064,  0.0029, -0.0429],
+       device='cuda:0')
+351
+0.006112604669781575
+changing lr
+---------------------saving model at epoch 30----------------------------------------------------
+epoch 30, time 450.68, cls_loss 0.5810 cls_loss_mapping 0.0505 cls_loss_causal 0.4670 re_mapping 0.0376 re_causal 0.0395 /// teacc 94.51 lr 0.00589278
+Epoch 32, weight, value: tensor([[ 0.1044,  0.1749,  0.1585,  ...,  0.0417,  0.0356,  0.0443],
+        [ 0.0998,  0.0607,  0.0461,  ...,  0.0567,  0.0592,  0.0244],
+        [-0.1910, -0.2073, -0.1650,  ..., -0.0963, -0.0930, -0.0789],
+        ...,
+        [-0.1951, -0.1997, -0.1953,  ...,  0.1184,  0.1286,  0.0981],
+        [-0.0273, -0.0360, -0.0226,  ..., -0.0533, -0.0829, -0.0489],
+        [ 0.3326,  0.3468,  0.3134,  ..., -0.1876, -0.1703, -0.1359]],
+       device='cuda:0'), grad: tensor([[-2.4597e-02, -8.0948e-03, -8.5297e-03,  ..., -2.9335e-03,
+         -3.1166e-03, -3.2959e-03],
+        [ 2.7191e-02,  9.4070e-03,  9.3613e-03,  ...,  4.2992e-03,
+          3.4447e-03,  3.8338e-03],
+        [ 2.6417e-03,  9.1791e-04,  8.9359e-04,  ...,  4.7159e-04,
+          3.6025e-04,  4.0293e-04],
+        ...,
+        [-6.2256e-02, -2.4063e-02, -2.3056e-02,  ..., -1.2070e-02,
+         -7.9498e-03, -9.0637e-03],
+        [ 1.4648e-03,  7.4625e-04,  7.6437e-04,  ...,  1.7011e-04,
+          3.6567e-05,  5.6148e-05],
+        [ 5.3650e-02,  2.0432e-02,  1.9913e-02,  ...,  9.7504e-03,
+          6.9809e-03,  7.8011e-03]], device='cuda:0')
+Epoch 32, bias, value: tensor([ 0.1877,  0.0003, -0.0347, -0.0228, -0.0995, -0.1056,  0.0486],
+       device='cuda:0'), grad: tensor([-0.0765,  0.0741,  0.0068,  0.0051, -0.1411,  0.0037,  0.1279],
+       device='cuda:0')
+351
+0.005892784473993186
+changing lr
+epoch 31, time 451.85, cls_loss 0.5504 cls_loss_mapping 0.0389 cls_loss_causal 0.4514 re_mapping 0.0368 re_causal 0.0387 /// teacc 87.34 lr 0.00567117
+Epoch 33, weight, value: tensor([[ 0.0998,  0.1692,  0.1510,  ...,  0.0413,  0.0369,  0.0452],
+        [ 0.0902,  0.0540,  0.0384,  ...,  0.0640,  0.0646,  0.0309],
+        [-0.1777, -0.1970, -0.1560,  ..., -0.1007, -0.0986, -0.0846],
+        ...,
+        [-0.1910, -0.1946, -0.1884,  ...,  0.1188,  0.1303,  0.0995],
+        [-0.0328, -0.0413, -0.0279,  ..., -0.0546, -0.0847, -0.0510],
+        [ 0.3305,  0.3456,  0.3148,  ..., -0.1885, -0.1711, -0.1367]],
+       device='cuda:0'), grad: tensor([[ 0.0246,  0.0061,  0.0054,  ...,  0.0044,  0.0043,  0.0048],
+        [-0.0392, -0.0140, -0.0128,  ..., -0.0036, -0.0036, -0.0037],
+        [ 0.0047,  0.0002,  0.0001,  ...,  0.0019,  0.0018,  0.0022],
+        ...,
+        [-0.0215,  0.0012,  0.0014,  ..., -0.0103, -0.0098, -0.0117],
+        [ 0.0036,  0.0003,  0.0003,  ...,  0.0013,  0.0013,  0.0015],
+        [ 0.0259,  0.0062,  0.0057,  ...,  0.0055,  0.0053,  0.0061]],
+       device='cuda:0')
+Epoch 33, bias, value: tensor([ 0.1819,  0.0229, -0.0382, -0.0332, -0.0991, -0.1168,  0.0568],
+       device='cuda:0'), grad: tensor([ 0.0641, -0.0601,  0.0252,  0.0098, -0.1322,  0.0171,  0.0761],
+       device='cuda:0')
+351
+0.00567116632908828
+changing lr
+epoch 32, time 452.23, cls_loss 0.5374 cls_loss_mapping 0.0427 cls_loss_causal 0.4460 re_mapping 0.0354 re_causal 0.0374 /// teacc 92.83 lr 0.00544820
+Epoch 34, weight, value: tensor([[ 0.0937,  0.1661,  0.1464,  ...,  0.0402,  0.0372,  0.0444],
+        [ 0.0956,  0.0593,  0.0445,  ...,  0.0640,  0.0663,  0.0331],
+        [-0.1873, -0.2021, -0.1623,  ..., -0.0987, -0.0980, -0.0830],
+        ...,
+        [-0.1895, -0.1944, -0.1866,  ...,  0.1151,  0.1257,  0.0949],
+        [-0.0311, -0.0433, -0.0296,  ..., -0.0540, -0.0833, -0.0508],
+        [ 0.3333,  0.3494,  0.3183,  ..., -0.1851, -0.1695, -0.1342]],
+       device='cuda:0'), grad: tensor([[ 1.1856e-02,  2.2297e-03,  2.5291e-03,  ...,  3.6507e-03,
+          2.7199e-03,  3.0041e-03],
+        [ 1.3855e-02,  2.0638e-03,  2.3117e-03,  ...,  3.8700e-03,
+          2.9106e-03,  3.1662e-03],
+        [-4.2725e-02, -1.1971e-02, -1.3809e-02,  ..., -1.6113e-02,
+         -1.2215e-02, -1.3428e-02],
+        ...,
+        [-1.0094e-02,  3.1643e-03,  3.8948e-03,  ...,  6.5088e-04,
+          8.1110e-04,  7.6103e-04],
+        [ 1.0452e-03, -2.4939e-04, -3.1972e-04,  ...,  9.4056e-05,
+         -1.6201e-04,  3.4928e-05],
+        [ 2.2507e-02,  4.3602e-03,  4.9553e-03,  ...,  6.9275e-03,
+          5.2605e-03,  5.7182e-03]], device='cuda:0')
+Epoch 34, bias, value: tensor([ 0.1546,  0.0268, -0.0414, -0.0248, -0.0771, -0.1201,  0.0565],
+       device='cuda:0'), grad: tensor([ 0.0406,  0.0514, -0.1125,  0.0143, -0.0784,  0.0098,  0.0748],
+       device='cuda:0')
+351
+0.00544819654451717
+changing lr
+epoch 33, time 448.82, cls_loss 0.5464 cls_loss_mapping 0.0392 cls_loss_causal 0.4385 re_mapping 0.0340 re_causal 0.0358 /// teacc 91.56 lr 0.00522432
+Epoch 35, weight, value: tensor([[ 0.0892,  0.1603,  0.1400,  ...,  0.0393,  0.0363,  0.0448],
+        [ 0.0945,  0.0574,  0.0435,  ...,  0.0675,  0.0701,  0.0363],
+        [-0.1775, -0.1974, -0.1570,  ..., -0.0949, -0.0954, -0.0803],
+        ...,
+        [-0.1892, -0.1931, -0.1850,  ...,  0.1084,  0.1200,  0.0883],
+        [-0.0363, -0.0474, -0.0338,  ..., -0.0524, -0.0806, -0.0485],
+        [ 0.3381,  0.3560,  0.3244,  ..., -0.1849, -0.1699, -0.1340]],
+       device='cuda:0'), grad: tensor([[ 4.8294e-03,  9.5654e-04,  9.8419e-04,  ...,  2.8920e-04,
+          3.0160e-04,  2.9087e-04],
+        [ 2.7679e-02,  4.7607e-03,  4.8332e-03,  ...,  1.7338e-03,
+          1.6365e-03,  1.7700e-03],
+        [-2.9587e-02,  4.1819e-04,  6.2180e-04,  ..., -2.5120e-03,
+         -1.3237e-03, -2.4757e-03],
+        ...,
+        [ 4.4098e-03,  7.8583e-04,  5.9509e-04,  ..., -1.8680e-04,
+         -1.6406e-05,  3.7611e-05],
+        [ 7.1983e-03,  1.5869e-03,  1.6155e-03,  ...,  3.8886e-04,
+          4.4036e-04,  4.1223e-04],
+        [-1.5900e-02, -8.7585e-03, -8.9111e-03,  ...,  2.0969e-04,
+         -1.1158e-03, -1.1593e-04]], device='cuda:0')
+Epoch 35, bias, value: tensor([ 0.1658,  0.0233, -0.0405, -0.0342, -0.0822, -0.1294,  0.0719],
+       device='cuda:0'), grad: tensor([ 0.0138,  0.0808, -0.0997,  0.0039,  0.0139,  0.0202, -0.0330],
+       device='cuda:0')
+351
+0.005224324151752577
+changing lr
+epoch 34, time 455.67, cls_loss 0.5854 cls_loss_mapping 0.0360 cls_loss_causal 0.4782 re_mapping 0.0335 re_causal 0.0357 /// teacc 93.67 lr 0.00500000
+Epoch 36, weight, value: tensor([[ 0.0931,  0.1617,  0.1414,  ...,  0.0386,  0.0363,  0.0446],
+        [ 0.1009,  0.0657,  0.0504,  ...,  0.0648,  0.0676,  0.0342],
+        [-0.1799, -0.2011, -0.1618,  ..., -0.0895, -0.0920, -0.0758],
+        ...,
+        [-0.1940, -0.1964, -0.1884,  ...,  0.1050,  0.1177,  0.0864],
+        [-0.0302, -0.0481, -0.0334,  ..., -0.0507, -0.0784, -0.0471],
+        [ 0.3318,  0.3558,  0.3255,  ..., -0.1836, -0.1693, -0.1338]],
+       device='cuda:0'), grad: tensor([[ 6.1005e-02,  2.4994e-02,  2.8519e-02,  ...,  7.2670e-03,
+          8.1940e-03,  6.1989e-03],
+        [-8.7341e-02, -4.2633e-02, -4.9164e-02,  ..., -1.0941e-02,
+         -1.2947e-02, -8.9722e-03],
+        [ 7.5455e-03,  8.0919e-04,  7.8297e-04,  ...,  6.5994e-04,
+          5.7840e-04,  6.8951e-04],
+        ...,
+        [ 1.6586e-02,  6.0043e-03,  6.8359e-03,  ...,  1.8396e-03,
+          2.0676e-03,  1.6155e-03],
+        [ 1.2512e-02,  1.6594e-03,  1.6546e-03,  ...,  1.0424e-03,
+          9.5034e-04,  1.1044e-03],
+        [-1.1986e-02,  8.9493e-03,  1.1116e-02,  ..., -2.3752e-05,
+          1.0090e-03, -7.9441e-04]], device='cuda:0')
+Epoch 36, bias, value: tensor([ 0.1663,  0.0351, -0.0229, -0.0391, -0.0927, -0.1196,  0.0482],
+       device='cuda:0'), grad: tensor([ 0.1098, -0.1086,  0.0299,  0.0064,  0.0356,  0.0478, -0.1209],
+       device='cuda:0')
+351
+0.005000000000000003
+changing lr
+epoch 35, time 456.93, cls_loss 0.5758 cls_loss_mapping 0.0348 cls_loss_causal 0.4730 re_mapping 0.0329 re_causal 0.0352 /// teacc 86.92 lr 0.00477568
+Epoch 37, weight, value: tensor([[ 0.0940,  0.1610,  0.1417,  ...,  0.0302,  0.0284,  0.0373],
+        [ 0.0937,  0.0627,  0.0466,  ...,  0.0691,  0.0729,  0.0394],
+        [-0.1861, -0.2042, -0.1643,  ..., -0.0887, -0.0911, -0.0749],
+        ...,
+        [-0.1898, -0.1962, -0.1881,  ...,  0.1066,  0.1182,  0.0872],
+        [-0.0369, -0.0491, -0.0346,  ..., -0.0520, -0.0803, -0.0486],
+        [ 0.3385,  0.3610,  0.3291,  ..., -0.1808, -0.1665, -0.1323]],
+       device='cuda:0'), grad: tensor([[ 0.0506,  0.0162,  0.0150,  ...,  0.0038,  0.0031,  0.0041],
+        [ 0.0042,  0.0015,  0.0018,  ...,  0.0012,  0.0013,  0.0010],
+        [-0.0587, -0.0192, -0.0183,  ..., -0.0050, -0.0043, -0.0052],
+        ...,
+        [ 0.0051,  0.0016,  0.0016,  ...,  0.0006,  0.0006,  0.0006],
+        [ 0.0006,  0.0001,  0.0002,  ...,  0.0002,  0.0003,  0.0002],
+        [ 0.0013,  0.0004,  0.0005,  ...,  0.0004,  0.0005,  0.0004]],
+       device='cuda:0')
+Epoch 37, bias, value: tensor([ 0.1567,  0.0401, -0.0340, -0.0233, -0.0791, -0.1434,  0.0584],
+       device='cuda:0'), grad: tensor([ 0.1451,  0.0090, -0.1653, -0.0071,  0.0140,  0.0014,  0.0029],
+       device='cuda:0')
+351
+0.004775675848247429
+changing lr
+epoch 36, time 450.43, cls_loss 0.5470 cls_loss_mapping 0.0286 cls_loss_causal 0.4613 re_mapping 0.0314 re_causal 0.0337 /// teacc 92.41 lr 0.00455180
+Epoch 38, weight, value: tensor([[ 0.0967,  0.1641,  0.1463,  ...,  0.0319,  0.0325,  0.0399],
+        [ 0.0973,  0.0650,  0.0487,  ...,  0.0680,  0.0719,  0.0386],
+        [-0.1872, -0.2049, -0.1654,  ..., -0.0886, -0.0920, -0.0751],
+        ...,
+        [-0.1916, -0.1964, -0.1880,  ...,  0.1046,  0.1156,  0.0845],
+        [-0.0404, -0.0528, -0.0384,  ..., -0.0521, -0.0804, -0.0487],
+        [ 0.3381,  0.3577,  0.3252,  ..., -0.1787, -0.1655, -0.1304]],
+       device='cuda:0'), grad: tensor([[-0.0137, -0.0075, -0.0076,  ..., -0.0130, -0.0152, -0.0129],
+        [ 0.0329,  0.0086,  0.0088,  ...,  0.0130,  0.0145,  0.0135],
+        [-0.0318, -0.0007, -0.0006,  ..., -0.0063, -0.0052, -0.0069],
+        ...,
+        [ 0.0078,  0.0021,  0.0022,  ...,  0.0031,  0.0035,  0.0032],
+        [ 0.0017,  0.0002,  0.0002,  ...,  0.0003,  0.0003,  0.0003],
+        [-0.0011, -0.0037, -0.0038,  ...,  0.0012,  0.0004,  0.0011]],
+       device='cuda:0')
+Epoch 38, bias, value: tensor([ 0.1691,  0.0405, -0.0330, -0.0367, -0.0912, -0.1477,  0.0747],
+       device='cuda:0'), grad: tensor([-0.0246,  0.1022, -0.1475,  0.0151,  0.0236,  0.0065,  0.0246],
+       device='cuda:0')
+351
+0.004551803455482836
+changing lr
+epoch 37, time 457.14, cls_loss 0.5106 cls_loss_mapping 0.0287 cls_loss_causal 0.4323 re_mapping 0.0305 re_causal 0.0327 /// teacc 94.09 lr 0.00432883
+Epoch 39, weight, value: tensor([[ 0.1028,  0.1704,  0.1517,  ...,  0.0327,  0.0338,  0.0412],
+        [ 0.0967,  0.0620,  0.0473,  ...,  0.0688,  0.0740,  0.0398],
+        [-0.1894, -0.2058, -0.1666,  ..., -0.0912, -0.0948, -0.0776],
+        ...,
+        [-0.1934, -0.1981, -0.1906,  ...,  0.1059,  0.1156,  0.0854],
+        [-0.0398, -0.0541, -0.0391,  ..., -0.0512, -0.0788, -0.0479],
+        [ 0.3379,  0.3592,  0.3267,  ..., -0.1773, -0.1650, -0.1300]],
+       device='cuda:0'), grad: tensor([[-0.0320,  0.0006,  0.0006,  ...,  0.0011,  0.0008, -0.0009],
+        [-0.0403, -0.0212, -0.0192,  ..., -0.0310, -0.0342, -0.0319],
+        [ 0.0071,  0.0011,  0.0010,  ...,  0.0021,  0.0024,  0.0025],
+        ...,
+        [ 0.0014,  0.0003,  0.0002,  ..., -0.0010, -0.0009, -0.0008],
+        [ 0.0038,  0.0003,  0.0003,  ...,  0.0005,  0.0006,  0.0007],
+        [ 0.0186,  0.0019,  0.0017,  ...,  0.0032,  0.0036,  0.0041]],
+       device='cuda:0')
+Epoch 39, bias, value: tensor([ 0.1905,  0.0303, -0.0400, -0.0383, -0.0751, -0.1551,  0.0637],
+       device='cuda:0'), grad: tensor([-0.1201, -0.1067,  0.0244,  0.1194,  0.0041,  0.0137,  0.0651],
+       device='cuda:0')
+351
+0.004328833670911726
+changing lr
+---------------------saving model at epoch 38----------------------------------------------------
+epoch 38, time 455.41, cls_loss 0.4816 cls_loss_mapping 0.0275 cls_loss_causal 0.3983 re_mapping 0.0307 re_causal 0.0331 /// teacc 97.05 lr 0.00410722
+Epoch 40, weight, value: tensor([[ 0.0898,  0.1600,  0.1419,  ...,  0.0356,  0.0373,  0.0441],
+        [ 0.0984,  0.0602,  0.0461,  ...,  0.0678,  0.0725,  0.0382],
+        [-0.1922, -0.2081, -0.1684,  ..., -0.0915, -0.0955, -0.0777],
+        ...,
+        [-0.1812, -0.1875, -0.1793,  ...,  0.1073,  0.1172,  0.0871],
+        [-0.0388, -0.0558, -0.0411,  ..., -0.0539, -0.0809, -0.0504],
+        [ 0.3365,  0.3634,  0.3291,  ..., -0.1750, -0.1634, -0.1285]],
+       device='cuda:0'), grad: tensor([[ 1.8707e-02,  9.3765e-03,  1.0033e-02,  ...,  3.8528e-03,
+          4.2343e-03,  3.8834e-03],
+        [ 1.5884e-02,  9.8114e-03,  1.0056e-02,  ...,  3.3569e-03,
+          3.6221e-03,  3.2463e-03],
+        [ 5.2795e-03,  2.7637e-03,  2.9430e-03,  ...,  9.9182e-04,
+          1.1091e-03,  9.8991e-04],
+        ...,
+        [-1.7654e-02, -4.6120e-03, -6.2523e-03,  ...,  8.5950e-05,
+         -1.2903e-03, -6.1560e-04],
+        [ 7.8964e-03,  2.4509e-03,  3.0708e-03,  ...,  5.6601e-04,
+          1.0176e-03,  7.8917e-04],
+        [-3.1250e-02, -2.0096e-02, -2.0248e-02,  ..., -9.0256e-03,
+         -8.9111e-03, -8.4915e-03]], device='cuda:0')
+Epoch 40, bias, value: tensor([ 0.1812,  0.0411, -0.0448, -0.0275, -0.0792, -0.1427,  0.0480],
+       device='cuda:0'), grad: tensor([ 0.0330,  0.0236,  0.0091,  0.0027, -0.0465,  0.0190, -0.0410],
+       device='cuda:0')
+351
+0.0041072155260068206
+changing lr
+epoch 39, time 451.47, cls_loss 0.5213 cls_loss_mapping 0.0269 cls_loss_causal 0.4531 re_mapping 0.0290 re_causal 0.0314 /// teacc 94.94 lr 0.00388740
+Epoch 41, weight, value: tensor([[ 0.0844,  0.1509,  0.1317,  ...,  0.0346,  0.0351,  0.0428],
+        [ 0.0954,  0.0651,  0.0509,  ...,  0.0670,  0.0733,  0.0385],
+        [-0.1895, -0.2085, -0.1693,  ..., -0.0910, -0.0945, -0.0767],
+        ...,
+        [-0.1810, -0.1896, -0.1801,  ...,  0.1075,  0.1175,  0.0866],
+        [-0.0401, -0.0564, -0.0404,  ..., -0.0521, -0.0793, -0.0489],
+        [ 0.3444,  0.3704,  0.3357,  ..., -0.1751, -0.1637, -0.1290]],
+       device='cuda:0'), grad: tensor([[-4.1748e-02, -7.5817e-04, -3.5076e-03,  ..., -8.7585e-03,
+         -1.3962e-02, -1.1269e-02],
+        [ 9.8343e-03,  1.2094e-04,  7.6437e-04,  ...,  2.0123e-03,
+          3.2673e-03,  2.6150e-03],
+        [ 2.8858e-03,  4.7296e-05,  2.3282e-04,  ...,  5.4359e-04,
+          9.2173e-04,  7.2002e-04],
+        ...,
+        [ 5.6534e-03,  1.3351e-04,  5.0211e-04,  ...,  1.1635e-03,
+          1.8625e-03,  1.4992e-03],
+        [ 8.0261e-03,  2.0698e-05,  5.5075e-04,  ...,  1.6565e-03,
+          2.6970e-03,  2.1591e-03],
+        [ 1.3618e-02,  4.1223e-04,  1.3227e-03,  ...,  3.0231e-03,
+          4.6425e-03,  3.8109e-03]], device='cuda:0')
+Epoch 41, bias, value: tensor([ 0.1982,  0.0092, -0.0352, -0.0285, -0.0739, -0.1519,  0.0585],
+       device='cuda:0'), grad: tensor([-0.1538,  0.0366,  0.0108,  0.0064,  0.0207,  0.0302,  0.0491],
+       device='cuda:0')
+351
+0.0038873953302184317
+changing lr
+epoch 40, time 451.40, cls_loss 0.4959 cls_loss_mapping 0.0276 cls_loss_causal 0.4079 re_mapping 0.0289 re_causal 0.0312 /// teacc 93.67 lr 0.00366982
+Epoch 42, weight, value: tensor([[ 0.0950,  0.1649,  0.1459,  ...,  0.0368,  0.0372,  0.0448],
+        [ 0.0904,  0.0573,  0.0440,  ...,  0.0649,  0.0708,  0.0367],
+        [-0.1886, -0.2111, -0.1722,  ..., -0.0904, -0.0931, -0.0762],
+        ...,
+        [-0.1889, -0.1950, -0.1856,  ...,  0.1052,  0.1153,  0.0847],
+        [-0.0353, -0.0537, -0.0380,  ..., -0.0528, -0.0799, -0.0497],
+        [ 0.3408,  0.3686,  0.3338,  ..., -0.1721, -0.1610, -0.1264]],
+       device='cuda:0'), grad: tensor([[ 3.4447e-03,  1.6165e-03,  1.7586e-03,  ...,  6.8140e-04,
+          6.7616e-04,  6.6185e-04],
+        [-3.2177e-03, -5.2834e-04, -6.8378e-04,  ..., -1.3695e-03,
+         -1.2245e-03, -1.1597e-03],
+        [-1.0166e-03,  9.8422e-06, -4.9144e-05,  ..., -1.6439e-04,
+         -2.5153e-04, -1.4853e-04],
+        ...,
+        [ 2.2907e-03,  4.1699e-04,  5.3215e-04,  ...,  5.8794e-04,
+          6.3181e-04,  5.2214e-04],
+        [ 6.4802e-04,  3.0136e-04,  3.2806e-04,  ...,  1.3292e-04,
+          1.3053e-04,  1.2803e-04],
+        [-2.3041e-03, -1.8549e-03, -1.9312e-03,  ...,  7.7128e-05,
+         -1.2286e-05, -5.0485e-05]], device='cuda:0')
+Epoch 42, bias, value: tensor([ 0.1902,  0.0131, -0.0280, -0.0391, -0.0801, -0.1341,  0.0545],
+       device='cuda:0'), grad: tensor([ 0.0055, -0.0081, -0.0036,  0.0004,  0.0061,  0.0010, -0.0013],
+       device='cuda:0')
+351
+0.003669815772166629
+changing lr
+epoch 41, time 452.55, cls_loss 0.4885 cls_loss_mapping 0.0255 cls_loss_causal 0.4221 re_mapping 0.0275 re_causal 0.0296 /// teacc 68.78 lr 0.00345492
+Epoch 43, weight, value: tensor([[ 0.0932,  0.1625,  0.1437,  ...,  0.0356,  0.0360,  0.0443],
+        [ 0.0979,  0.0603,  0.0477,  ...,  0.0643,  0.0703,  0.0364],
+        [-0.1883, -0.2121, -0.1736,  ..., -0.0884, -0.0917, -0.0746],
+        ...,
+        [-0.1856, -0.1902, -0.1808,  ...,  0.1068,  0.1173,  0.0868],
+        [-0.0384, -0.0530, -0.0374,  ..., -0.0543, -0.0817, -0.0516],
+        [ 0.3343,  0.3638,  0.3278,  ..., -0.1729, -0.1612, -0.1276]],
+       device='cuda:0'), grad: tensor([[-1.5327e-02, -2.5158e-03, -2.6131e-03,  ..., -7.0000e-03,
+         -7.1335e-03, -7.6828e-03],
+        [ 2.1866e-02,  7.7591e-03,  8.2169e-03,  ...,  5.6915e-03,
+          5.5733e-03,  6.3629e-03],
+        [ 4.1138e-02,  1.0124e-02,  1.0223e-02,  ...,  1.0742e-02,
+          1.1093e-02,  1.2886e-02],
+        ...,
+        [-4.3427e-02, -1.0628e-02, -1.0620e-02,  ..., -1.0422e-02,
+         -1.0841e-02, -1.2810e-02],
+        [ 3.6411e-03,  1.1387e-03,  1.1663e-03,  ...,  7.2956e-04,
+          7.3528e-04,  8.9121e-04],
+        [-9.0408e-03, -6.2637e-03, -6.7711e-03,  ..., -8.7321e-06,
+          3.0613e-04,  3.5256e-05]], device='cuda:0')
+Epoch 43, bias, value: tensor([ 0.1989,  0.0207, -0.0245, -0.0438, -0.0774, -0.1530,  0.0556],
+       device='cuda:0'), grad: tensor([-0.0389,  0.0479,  0.1209,  0.0028, -0.1324,  0.0099, -0.0101],
+       device='cuda:0')
+351
+0.0034549150281252667
+changing lr
+epoch 42, time 451.35, cls_loss 0.4917 cls_loss_mapping 0.0241 cls_loss_causal 0.3988 re_mapping 0.0266 re_causal 0.0287 /// teacc 92.83 lr 0.00324313
+Epoch 44, weight, value: tensor([[ 0.0922,  0.1615,  0.1431,  ...,  0.0353,  0.0361,  0.0437],
+        [ 0.1044,  0.0648,  0.0527,  ...,  0.0656,  0.0712,  0.0380],
+        [-0.1912, -0.2110, -0.1723,  ..., -0.0887, -0.0917, -0.0752],
+        ...,
+        [-0.1857, -0.1902, -0.1812,  ...,  0.1077,  0.1179,  0.0873],
+        [-0.0419, -0.0561, -0.0408,  ..., -0.0557, -0.0829, -0.0530],
+        [ 0.3323,  0.3614,  0.3253,  ..., -0.1745, -0.1633, -0.1288]],
+       device='cuda:0'), grad: tensor([[-3.7861e-03, -2.0409e-03, -2.0676e-03,  ..., -9.3758e-05,
+          3.2276e-05, -9.4920e-06],
+        [-4.0460e-04,  6.5982e-05,  5.5522e-05,  ..., -3.3915e-05,
+         -8.6486e-05, -9.2924e-05],
+        [ 2.1207e-04,  7.9811e-05,  8.3208e-05,  ...,  2.4408e-05,
+          2.3484e-05,  2.6450e-05],
+        ...,
+        [ 2.1152e-03,  1.0471e-03,  1.0691e-03,  ...,  1.9241e-06,
+         -3.1054e-05, -9.1270e-06],
+        [ 3.5614e-05,  1.0885e-05,  1.1563e-05,  ...,  1.8263e-06,
+          2.8610e-06,  3.2838e-06],
+        [ 1.7910e-03,  8.2541e-04,  8.3780e-04,  ...,  9.7215e-05,
+          5.5552e-05,  7.7963e-05]], device='cuda:0')
+Epoch 44, bias, value: tensor([ 0.1958,  0.0222, -0.0364, -0.0293, -0.0726, -0.1528,  0.0498],
+       device='cuda:0'), grad: tensor([-6.8092e-03, -1.8435e-03,  4.6134e-04,  1.0020e-04,  4.3373e-03,
+         9.4891e-05,  3.6564e-03], device='cuda:0')
+351
+0.0032431258795932905
+changing lr
+epoch 43, time 457.67, cls_loss 0.4908 cls_loss_mapping 0.0222 cls_loss_causal 0.4210 re_mapping 0.0258 re_causal 0.0280 /// teacc 67.93 lr 0.00303487
+Epoch 45, weight, value: tensor([[ 0.0922,  0.1617,  0.1433,  ...,  0.0402,  0.0415,  0.0492],
+        [ 0.0994,  0.0629,  0.0511,  ...,  0.0640,  0.0690,  0.0360],
+        [-0.1887, -0.2081, -0.1697,  ..., -0.0898, -0.0929, -0.0770],
+        ...,
+        [-0.1833, -0.1898, -0.1802,  ...,  0.1072,  0.1166,  0.0862],
+        [-0.0409, -0.0580, -0.0423,  ..., -0.0555, -0.0827, -0.0527],
+        [ 0.3351,  0.3617,  0.3244,  ..., -0.1752, -0.1636, -0.1290]],
+       device='cuda:0'), grad: tensor([[ 0.0045,  0.0007,  0.0007,  ...,  0.0009,  0.0009,  0.0011],
+        [ 0.0029,  0.0004,  0.0004,  ...,  0.0006,  0.0006,  0.0007],
+        [-0.0256, -0.0040, -0.0040,  ..., -0.0050, -0.0052, -0.0061],
+        ...,
+        [ 0.0068,  0.0011,  0.0011,  ...,  0.0013,  0.0014,  0.0016],
+        [ 0.0098,  0.0015,  0.0015,  ...,  0.0019,  0.0020,  0.0023],
+        [ 0.0015,  0.0002,  0.0002,  ...,  0.0003,  0.0003,  0.0004]],
+       device='cuda:0')
+Epoch 45, bias, value: tensor([ 0.1964,  0.0160, -0.0320, -0.0501, -0.0713, -0.1426,  0.0605],
+       device='cuda:0'), grad: tensor([ 0.0160,  0.0101, -0.0910,  0.0009,  0.0240,  0.0346,  0.0053],
+       device='cuda:0')
+351
+0.0030348748417303863
+changing lr
+epoch 44, time 456.61, cls_loss 0.4795 cls_loss_mapping 0.0189 cls_loss_causal 0.4097 re_mapping 0.0253 re_causal 0.0275 /// teacc 93.67 lr 0.00283058
+Epoch 46, weight, value: tensor([[ 0.0885,  0.1612,  0.1433,  ...,  0.0398,  0.0414,  0.0485],
+        [ 0.1002,  0.0634,  0.0504,  ...,  0.0625,  0.0663,  0.0338],
+        [-0.1799, -0.2018, -0.1645,  ..., -0.0878, -0.0911, -0.0749],
+        ...,
+        [-0.1815, -0.1905, -0.1805,  ...,  0.1052,  0.1144,  0.0842],
+        [-0.0446, -0.0614, -0.0457,  ..., -0.0547, -0.0819, -0.0519],
+        [ 0.3297,  0.3601,  0.3239,  ..., -0.1749, -0.1620, -0.1276]],
+       device='cuda:0'), grad: tensor([[ 3.3512e-03, -2.0850e-04, -2.8586e-04,  ...,  7.9679e-04,
+          7.7105e-04,  1.0529e-03],
+        [-2.4796e-02, -3.1900e-04,  6.7234e-05,  ..., -6.6261e-03,
+         -6.2256e-03, -8.0109e-03],
+        [ 5.7869e-03,  1.2130e-04,  3.6269e-05,  ...,  1.5650e-03,
+          1.4715e-03,  1.8797e-03],
+        ...,
+        [ 5.3139e-03,  1.3745e-04,  6.0201e-05,  ...,  1.4391e-03,
+          1.3418e-03,  1.7157e-03],
+        [ 4.0245e-03,  1.0753e-04,  5.0277e-05,  ...,  1.0967e-03,
+          1.0262e-03,  1.3075e-03],
+        [ 3.9864e-03,  1.0252e-04,  4.6641e-05,  ...,  1.0948e-03,
+          1.0233e-03,  1.3008e-03]], device='cuda:0')
+Epoch 46, bias, value: tensor([ 0.1820,  0.0254, -0.0324, -0.0378, -0.0665, -0.1369,  0.0433],
+       device='cuda:0'), grad: tensor([ 0.0191, -0.1259,  0.0289,  0.0116,  0.0265,  0.0200,  0.0198],
+       device='cuda:0')
+351
+0.0028305813044122124
+changing lr
+epoch 45, time 450.69, cls_loss 0.4801 cls_loss_mapping 0.0227 cls_loss_causal 0.4291 re_mapping 0.0240 re_causal 0.0258 /// teacc 92.83 lr 0.00263066
+Epoch 47, weight, value: tensor([[ 0.0881,  0.1583,  0.1407,  ...,  0.0380,  0.0402,  0.0469],
+        [ 0.0966,  0.0616,  0.0494,  ...,  0.0620,  0.0654,  0.0331],
+        [-0.1866, -0.2044, -0.1675,  ..., -0.0862, -0.0899, -0.0740],
+        ...,
+        [-0.1812, -0.1897, -0.1801,  ...,  0.1060,  0.1148,  0.0850],
+        [-0.0447, -0.0616, -0.0459,  ..., -0.0540, -0.0812, -0.0513],
+        [ 0.3368,  0.3656,  0.3293,  ..., -0.1744, -0.1614, -0.1267]],
+       device='cuda:0'), grad: tensor([[ 0.0284,  0.0121,  0.0111,  ...,  0.0060,  0.0056,  0.0063],
+        [-0.0211, -0.0126, -0.0119,  ..., -0.0064, -0.0057, -0.0060],
+        [ 0.0107,  0.0011,  0.0008,  ...,  0.0006,  0.0008,  0.0013],
+        ...,
+        [ 0.0098,  0.0015,  0.0011,  ...,  0.0006,  0.0008,  0.0011],
+        [ 0.0053,  0.0011,  0.0008,  ...,  0.0003,  0.0004,  0.0005],
+        [ 0.0079, -0.0009, -0.0008,  ...,  0.0007,  0.0009,  0.0013]],
+       device='cuda:0')
+Epoch 47, bias, value: tensor([ 0.1940,  0.0116, -0.0482, -0.0276, -0.0694, -0.1396,  0.0564],
+       device='cuda:0'), grad: tensor([ 0.0593, -0.0291,  0.0374, -0.1498,  0.0327,  0.0165,  0.0330],
+       device='cuda:0')
+351
+0.0026306566876350096
+changing lr
+---------------------saving model at epoch 46----------------------------------------------------
+epoch 46, time 456.47, cls_loss 0.4526 cls_loss_mapping 0.0180 cls_loss_causal 0.3927 re_mapping 0.0230 re_causal 0.0249 /// teacc 97.47 lr 0.00243550
+Epoch 48, weight, value: tensor([[ 0.0918,  0.1617,  0.1444,  ...,  0.0342,  0.0366,  0.0432],
+        [ 0.0968,  0.0608,  0.0479,  ...,  0.0643,  0.0673,  0.0351],
+        [-0.1845, -0.2043, -0.1675,  ..., -0.0843, -0.0887, -0.0725],
+        ...,
+        [-0.1828, -0.1879, -0.1780,  ...,  0.1053,  0.1144,  0.0846],
+        [-0.0430, -0.0621, -0.0463,  ..., -0.0524, -0.0792, -0.0497],
+        [ 0.3344,  0.3621,  0.3259,  ..., -0.1753, -0.1615, -0.1272]],
+       device='cuda:0'), grad: tensor([[ 2.2568e-02,  7.8125e-03,  8.8120e-03,  ...,  2.7695e-03,
+          3.2406e-03,  3.7727e-03],
+        [ 4.3983e-03, -8.3256e-04, -9.1791e-04,  ..., -3.2592e-04,
+         -2.4509e-04, -8.2850e-05],
+        [-2.9404e-02, -1.5411e-02, -1.7578e-02,  ..., -4.2610e-03,
+         -5.4665e-03, -6.0768e-03],
+        ...,
+        [ 5.8784e-03,  9.5272e-04,  1.0271e-03,  ...,  5.7888e-04,
+          6.1560e-04,  7.5245e-04],
+        [ 5.6534e-03,  1.2290e-04,  7.3135e-05,  ...,  4.0150e-04,
+          3.7479e-04,  5.1880e-04],
+        [ 2.5925e-02,  7.5493e-03,  8.3923e-03,  ...,  3.1624e-03,
+          3.6125e-03,  4.1618e-03]], device='cuda:0')
+Epoch 48, bias, value: tensor([ 0.1910,  0.0209, -0.0402, -0.0391, -0.0748, -0.1331,  0.0525],
+       device='cuda:0'), grad: tensor([ 0.0505,  0.0272, -0.0342, -0.1586,  0.0206,  0.0250,  0.0695],
+       device='cuda:0')
+351
+0.0024355036129704724
+changing lr
+epoch 47, time 453.80, cls_loss 0.4612 cls_loss_mapping 0.0214 cls_loss_causal 0.4066 re_mapping 0.0222 re_causal 0.0240 /// teacc 96.20 lr 0.00224552
+Epoch 49, weight, value: tensor([[ 0.0893,  0.1606,  0.1432,  ...,  0.0333,  0.0351,  0.0419],
+        [ 0.0977,  0.0613,  0.0491,  ...,  0.0654,  0.0687,  0.0365],
+        [-0.1824, -0.2054, -0.1687,  ..., -0.0820, -0.0857, -0.0699],
+        ...,
+        [-0.1814, -0.1867, -0.1769,  ...,  0.1053,  0.1144,  0.0852],
+        [-0.0419, -0.0614, -0.0459,  ..., -0.0526, -0.0790, -0.0500],
+        [ 0.3317,  0.3617,  0.3254,  ..., -0.1776, -0.1643, -0.1300]],
+       device='cuda:0'), grad: tensor([[ 4.3259e-03,  5.9938e-04,  6.1369e-04,  ...,  5.9128e-04,
+          5.7650e-04,  6.0463e-04],
+        [ 6.4125e-03,  1.3314e-05, -1.1744e-06,  ...,  2.1160e-04,
+          2.1219e-04,  2.7943e-04],
+        [ 1.2062e-02,  2.4486e-04,  2.2542e-04,  ...,  5.6458e-04,
+          5.5933e-04,  6.7997e-04],
+        ...,
+        [-6.3801e-04, -2.0905e-03, -2.1763e-03,  ..., -1.5974e-03,
+         -1.5440e-03, -1.4877e-03],
+        [ 7.5264e-03,  5.2810e-05,  3.6597e-05,  ...,  2.7680e-04,
+          2.7633e-04,  3.5453e-04],
+        [-3.1372e-02,  1.0920e-03,  1.2140e-03,  ..., -1.6618e-04,
+         -1.9777e-04, -5.6410e-04]], device='cuda:0')
+Epoch 49, bias, value: tensor([ 0.1818,  0.0117, -0.0230, -0.0429, -0.0703, -0.1304,  0.0506],
+       device='cuda:0'), grad: tensor([ 0.0151,  0.0279,  0.0511,  0.0067,  0.0102,  0.0325, -0.1436],
+       device='cuda:0')
+351
+0.00224551509273949
+changing lr
+epoch 48, time 452.07, cls_loss 0.4497 cls_loss_mapping 0.0183 cls_loss_causal 0.3982 re_mapping 0.0210 re_causal 0.0226 /// teacc 95.78 lr 0.00206107
+Epoch 50, weight, value: tensor([[ 0.0900,  0.1588,  0.1413,  ...,  0.0334,  0.0362,  0.0425],
+        [ 0.0956,  0.0617,  0.0489,  ...,  0.0649,  0.0678,  0.0358],
+        [-0.1844, -0.2053, -0.1686,  ..., -0.0824, -0.0857, -0.0704],
+        ...,
+        [-0.1785, -0.1858, -0.1759,  ...,  0.1042,  0.1127,  0.0839],
+        [-0.0414, -0.0604, -0.0451,  ..., -0.0522, -0.0790, -0.0503],
+        [ 0.3308,  0.3609,  0.3257,  ..., -0.1760, -0.1629, -0.1280]],
+       device='cuda:0'), grad: tensor([[ 5.9738e-03,  5.1403e-04,  2.4092e-04,  ...,  5.6124e-04,
+          5.1117e-04,  7.4100e-04],
+        [ 3.7804e-03,  1.4329e-04, -7.6532e-05,  ...,  1.7226e-04,
+          1.5104e-04,  3.2091e-04],
+        [-2.6657e-02, -1.6928e-03, -1.4257e-04,  ..., -1.1129e-03,
+         -8.2779e-04, -2.1076e-03],
+        ...,
+        [ 3.8071e-03,  1.7691e-04, -1.5843e-04,  ..., -2.9302e-04,
+         -4.0102e-04, -9.8348e-05],
+        [ 5.8327e-03,  3.8838e-04,  6.7770e-05,  ...,  3.1614e-04,
+          2.6727e-04,  5.2404e-04],
+        [ 5.7220e-03,  3.8695e-04,  7.6711e-05,  ...,  3.3045e-04,
+          2.8515e-04,  5.3120e-04]], device='cuda:0')
+Epoch 50, bias, value: tensor([ 0.1942,  0.0026, -0.0274, -0.0419, -0.0584, -0.1407,  0.0491],
+       device='cuda:0'), grad: tensor([ 0.0272,  0.0192, -0.1333,  0.0078,  0.0229,  0.0284,  0.0277],
+       device='cuda:0')
+351
+0.002061073738537637
+changing lr
+epoch 49, time 449.73, cls_loss 0.4381 cls_loss_mapping 0.0165 cls_loss_causal 0.3885 re_mapping 0.0209 re_causal 0.0226 /// teacc 94.51 lr 0.00188255
+Epoch 51, weight, value: tensor([[ 0.0878,  0.1567,  0.1395,  ...,  0.0327,  0.0357,  0.0420],
+        [ 0.0935,  0.0578,  0.0451,  ...,  0.0649,  0.0674,  0.0359],
+        [-0.1846, -0.2040, -0.1680,  ..., -0.0841, -0.0876, -0.0725],
+        ...,
+        [-0.1791, -0.1844, -0.1745,  ...,  0.1047,  0.1131,  0.0842],
+        [-0.0444, -0.0612, -0.0458,  ..., -0.0529, -0.0799, -0.0512],
+        [ 0.3364,  0.3656,  0.3302,  ..., -0.1733, -0.1595, -0.1251]],
+       device='cuda:0'), grad: tensor([[ 7.6523e-03,  3.6478e-04,  3.1734e-04,  ...,  1.4772e-03,
+          1.1473e-03,  1.9894e-03],
+        [ 6.5384e-03,  9.2760e-06, -7.1116e-06,  ...,  1.0042e-03,
+          6.8665e-04,  1.5297e-03],
+        [-3.7872e-02, -1.1081e-04,  8.5607e-06,  ..., -6.1417e-03,
+         -4.3831e-03, -8.9951e-03],
+        ...,
+        [ 5.7983e-03, -2.8920e-04, -2.8825e-04,  ...,  7.4482e-04,
+          4.6396e-04,  1.2131e-03],
+        [ 4.5891e-03,  2.5332e-05,  1.0535e-05,  ...,  7.4387e-04,
+          5.3120e-04,  1.0881e-03],
+        [ 9.5139e-03, -1.5780e-05, -4.5240e-05,  ...,  1.5535e-03,
+          1.1091e-03,  2.2755e-03]], device='cuda:0')
+Epoch 51, bias, value: tensor([ 0.1863,  0.0139, -0.0329, -0.0261, -0.0643, -0.1485,  0.0490],
+       device='cuda:0'), grad: tensor([ 0.0279,  0.0252, -0.1436,  0.0142,  0.0225,  0.0173,  0.0362],
+       device='cuda:0')
+351
+0.0018825509907063344
+changing lr
+epoch 50, time 448.16, cls_loss 0.4113 cls_loss_mapping 0.0163 cls_loss_causal 0.3625 re_mapping 0.0198 re_causal 0.0212 /// teacc 96.20 lr 0.00171031
+Epoch 52, weight, value: tensor([[ 0.0933,  0.1628,  0.1450,  ...,  0.0342,  0.0367,  0.0434],
+        [ 0.0906,  0.0551,  0.0426,  ...,  0.0635,  0.0666,  0.0345],
+        [-0.1832, -0.2037, -0.1681,  ..., -0.0845, -0.0882, -0.0731],
+        ...,
+        [-0.1807, -0.1862, -0.1760,  ...,  0.1051,  0.1137,  0.0850],
+        [-0.0422, -0.0607, -0.0454,  ..., -0.0529, -0.0801, -0.0513],
+        [ 0.3327,  0.3622,  0.3275,  ..., -0.1731, -0.1592, -0.1248]],
+       device='cuda:0'), grad: tensor([[-0.0868, -0.0529, -0.0527,  ..., -0.0066, -0.0117, -0.0102],
+        [-0.0105, -0.0018, -0.0020,  ..., -0.0053, -0.0049, -0.0051],
+        [-0.0016, -0.0003, -0.0003,  ..., -0.0004, -0.0005, -0.0005],
+        ...,
+        [ 0.0013,  0.0004,  0.0005,  ...,  0.0003,  0.0004,  0.0003],
+        [ 0.0006,  0.0002,  0.0002,  ...,  0.0001,  0.0001,  0.0001],
+        [ 0.0969,  0.0543,  0.0543,  ...,  0.0118,  0.0166,  0.0152]],
+       device='cuda:0')
+Epoch 52, bias, value: tensor([ 0.1835,  0.0110, -0.0265, -0.0360, -0.0675, -0.1390,  0.0520],
+       device='cuda:0'), grad: tensor([-0.1348, -0.0247, -0.0049,  0.0006,  0.0029,  0.0014,  0.1595],
+       device='cuda:0')
+351
+0.0017103063703014388
+changing lr
+epoch 51, time 437.00, cls_loss 0.4090 cls_loss_mapping 0.0146 cls_loss_causal 0.3685 re_mapping 0.0191 re_causal 0.0205 /// teacc 93.25 lr 0.00154469
+Epoch 53, weight, value: tensor([[ 0.0890,  0.1593,  0.1412,  ...,  0.0342,  0.0368,  0.0436],
+        [ 0.0935,  0.0558,  0.0430,  ...,  0.0637,  0.0663,  0.0346],
+        [-0.1867, -0.2052, -0.1698,  ..., -0.0854, -0.0890, -0.0739],
+        ...,
+        [-0.1781, -0.1847, -0.1747,  ...,  0.1064,  0.1144,  0.0861],
+        [-0.0442, -0.0621, -0.0468,  ..., -0.0532, -0.0805, -0.0516],
+        [ 0.3351,  0.3642,  0.3303,  ..., -0.1739, -0.1594, -0.1257]],
+       device='cuda:0'), grad: tensor([[-0.0394, -0.0063, -0.0074,  ..., -0.0147, -0.0155, -0.0173],
+        [ 0.0146,  0.0006,  0.0007,  ...,  0.0040,  0.0040,  0.0050],
+        [ 0.0102,  0.0005,  0.0007,  ...,  0.0034,  0.0034,  0.0041],
+        ...,
+        [ 0.0307,  0.0045,  0.0051,  ...,  0.0067,  0.0072,  0.0086],
+        [ 0.0057,  0.0002,  0.0002,  ...,  0.0014,  0.0014,  0.0018],
+        [-0.0267,  0.0002,  0.0003,  ..., -0.0023, -0.0020, -0.0040]],
+       device='cuda:0')
+Epoch 53, bias, value: tensor([ 0.1812,  0.0228, -0.0325, -0.0380, -0.0636, -0.1363,  0.0441],
+       device='cuda:0'), grad: tensor([-0.1471,  0.0613,  0.0427,  0.0204,  0.1089,  0.0237, -0.1099],
+       device='cuda:0')
+351
+0.0015446867550656784
+changing lr
+epoch 52, time 440.53, cls_loss 0.4198 cls_loss_mapping 0.0148 cls_loss_causal 0.3803 re_mapping 0.0189 re_causal 0.0203 /// teacc 95.36 lr 0.00138603
+Epoch 54, weight, value: tensor([[ 0.0909,  0.1579,  0.1402,  ...,  0.0348,  0.0374,  0.0443],
+        [ 0.0950,  0.0576,  0.0447,  ...,  0.0628,  0.0658,  0.0340],
+        [-0.1866, -0.2058, -0.1705,  ..., -0.0857, -0.0892, -0.0741],
+        ...,
+        [-0.1792, -0.1825, -0.1727,  ...,  0.1064,  0.1142,  0.0858],
+        [-0.0444, -0.0622, -0.0470,  ..., -0.0525, -0.0797, -0.0512],
+        [ 0.3317,  0.3626,  0.3289,  ..., -0.1740, -0.1597, -0.1257]],
+       device='cuda:0'), grad: tensor([[-1.4009e-03, -9.0027e-04, -9.1457e-04,  ..., -3.9577e-05,
+         -1.5795e-04, -2.0957e-04],
+        [ 1.0233e-03,  4.3726e-04,  4.5419e-04,  ...,  2.0218e-04,
+          2.4867e-04,  2.5582e-04],
+        [ 2.5320e-04,  6.1929e-05,  6.6578e-05,  ...,  5.9813e-05,
+          6.0469e-05,  6.6698e-05],
+        ...,
+        [-4.3106e-04,  3.1757e-04,  3.0613e-04,  ..., -3.2067e-04,
+         -2.7728e-04, -2.5535e-04],
+        [ 9.5844e-05,  2.4989e-05,  2.6241e-05,  ...,  1.9565e-05,
+          1.9625e-05,  2.2575e-05],
+        [ 3.3259e-04,  1.3053e-05,  1.4946e-05,  ...,  5.8174e-05,
+          8.2850e-05,  9.3162e-05]], device='cuda:0')
+Epoch 54, bias, value: tensor([ 0.1892,  0.0241, -0.0297, -0.0308, -0.0789, -0.1347,  0.0386],
+       device='cuda:0'), grad: tensor([-0.0022,  0.0020,  0.0006,  0.0003, -0.0022,  0.0002,  0.0012],
+       device='cuda:0')
+351
+0.001386025680863044
+changing lr
+epoch 53, time 440.74, cls_loss 0.4272 cls_loss_mapping 0.0143 cls_loss_causal 0.3815 re_mapping 0.0185 re_causal 0.0199 /// teacc 91.56 lr 0.00123464
+Epoch 55, weight, value: tensor([[ 0.0904,  0.1581,  0.1405,  ...,  0.0340,  0.0367,  0.0436],
+        [ 0.0891,  0.0528,  0.0399,  ...,  0.0623,  0.0655,  0.0337],
+        [-0.1844, -0.2054, -0.1700,  ..., -0.0851, -0.0885, -0.0735],
+        ...,
+        [-0.1753, -0.1803, -0.1707,  ...,  0.1065,  0.1143,  0.0858],
+        [-0.0449, -0.0623, -0.0467,  ..., -0.0513, -0.0787, -0.0501],
+        [ 0.3351,  0.3653,  0.3313,  ..., -0.1730, -0.1589, -0.1248]],
+       device='cuda:0'), grad: tensor([[-2.8458e-02, -9.4064e-07, -6.5006e-07,  ..., -1.0252e-03,
+         -5.8460e-04, -1.8253e-03],
+        [ 5.1537e-03, -5.7556e-07, -2.4531e-06,  ...,  1.1188e-04,
+          2.2829e-05,  2.5773e-04],
+        [ 6.7749e-03, -3.9637e-06, -4.2766e-06,  ...,  2.3246e-04,
+          1.2469e-04,  4.2105e-04],
+        ...,
+        [ 5.3291e-03,  1.2942e-05,  1.4886e-05,  ...,  2.6536e-04,
+          1.9288e-04,  4.1437e-04],
+        [ 3.4676e-03, -5.7928e-07, -5.4482e-07,  ...,  1.2457e-04,
+          7.1168e-05,  2.2233e-04],
+        [ 5.8212e-03, -9.2983e-06, -9.5591e-06,  ...,  2.1434e-04,
+          1.2469e-04,  3.7837e-04]], device='cuda:0')
+Epoch 55, bias, value: tensor([ 0.1859,  0.0230, -0.0233, -0.0400, -0.0730, -0.1354,  0.0407],
+       device='cuda:0'), grad: tensor([-0.1390,  0.0254,  0.0331,  0.0093,  0.0258,  0.0170,  0.0285],
+       device='cuda:0')
+351
+0.0012346426699819469
+changing lr
+epoch 54, time 434.41, cls_loss 0.4359 cls_loss_mapping 0.0147 cls_loss_causal 0.3901 re_mapping 0.0180 re_causal 0.0194 /// teacc 95.36 lr 0.00109084
+Epoch 56, weight, value: tensor([[ 0.0892,  0.1572,  0.1400,  ...,  0.0335,  0.0365,  0.0432],
+        [ 0.0920,  0.0528,  0.0399,  ...,  0.0632,  0.0664,  0.0348],
+        [-0.1842, -0.2040, -0.1689,  ..., -0.0857, -0.0892, -0.0741],
+        ...,
+        [-0.1751, -0.1793, -0.1696,  ...,  0.1062,  0.1138,  0.0852],
+        [-0.0458, -0.0630, -0.0474,  ..., -0.0515, -0.0788, -0.0503],
+        [ 0.3327,  0.3641,  0.3300,  ..., -0.1732, -0.1591, -0.1251]],
+       device='cuda:0'), grad: tensor([[-0.0602, -0.0350, -0.0354,  ..., -0.0046, -0.0036, -0.0047],
+        [-0.0278, -0.0014, -0.0014,  ..., -0.0170, -0.0163, -0.0165],
+        [ 0.0077,  0.0008,  0.0008,  ...,  0.0031,  0.0031,  0.0031],
+        ...,
+        [ 0.0901,  0.0383,  0.0387,  ...,  0.0162,  0.0151,  0.0164],
+        [-0.0236, -0.0048, -0.0047,  ..., -0.0008, -0.0014, -0.0016],
+        [ 0.0111,  0.0019,  0.0018,  ...,  0.0019,  0.0020,  0.0021]],
+       device='cuda:0')
+Epoch 56, bias, value: tensor([ 0.1801,  0.0376, -0.0271, -0.0371, -0.0784, -0.1361,  0.0389],
+       device='cuda:0'), grad: tensor([-0.0728, -0.0809,  0.0232,  0.0076,  0.1625, -0.0740,  0.0342],
+       device='cuda:0')
+351
+0.0010908425876598518
+changing lr
+epoch 55, time 431.40, cls_loss 0.4292 cls_loss_mapping 0.0129 cls_loss_causal 0.3888 re_mapping 0.0177 re_causal 0.0191 /// teacc 93.67 lr 0.00095492
+Epoch 57, weight, value: tensor([[ 0.0869,  0.1549,  0.1376,  ...,  0.0323,  0.0353,  0.0419],
+        [ 0.0900,  0.0532,  0.0404,  ...,  0.0635,  0.0667,  0.0350],
+        [-0.1851, -0.2048, -0.1697,  ..., -0.0857, -0.0892, -0.0742],
+        ...,
+        [-0.1735, -0.1792, -0.1695,  ...,  0.1062,  0.1137,  0.0852],
+        [-0.0457, -0.0635, -0.0480,  ..., -0.0511, -0.0785, -0.0499],
+        [ 0.3368,  0.3670,  0.3327,  ..., -0.1720, -0.1579, -0.1238]],
+       device='cuda:0'), grad: tensor([[ 4.2114e-03, -4.2248e-04, -4.0507e-04,  ..., -1.5998e-04,
+          4.3027e-06,  1.2696e-04],
+        [-3.2745e-02,  1.5545e-04,  1.5235e-04,  ..., -3.3188e-04,
+         -9.0647e-04, -1.8339e-03],
+        [ 8.8348e-03,  6.6710e-04,  6.5041e-04,  ...,  7.1526e-04,
+          8.6021e-04,  1.0433e-03],
+        ...,
+        [ 6.8703e-03,  5.7268e-04,  5.5742e-04,  ...,  4.9686e-04,
+          5.6219e-04,  7.2098e-04],
+        [ 6.9695e-03,  4.7660e-04,  4.6778e-04,  ...,  5.3167e-04,
+          6.5613e-04,  8.0252e-04],
+        [ 9.7656e-03,  4.3392e-04,  4.2510e-04,  ...,  5.5838e-04,
+          7.2145e-04,  9.5177e-04]], device='cuda:0')
+Epoch 57, bias, value: tensor([ 0.1767,  0.0248, -0.0261, -0.0403, -0.0718, -0.1316,  0.0464],
+       device='cuda:0'), grad: tensor([ 0.0200, -0.1339,  0.0342, -0.0118,  0.0255,  0.0273,  0.0386],
+       device='cuda:0')
+351
+0.000954915028125264
+changing lr
+epoch 56, time 441.95, cls_loss 0.4157 cls_loss_mapping 0.0153 cls_loss_causal 0.3816 re_mapping 0.0171 re_causal 0.0184 /// teacc 93.25 lr 0.00082713
+Epoch 58, weight, value: tensor([[ 0.0845,  0.1538,  0.1366,  ...,  0.0315,  0.0346,  0.0413],
+        [ 0.0927,  0.0531,  0.0401,  ...,  0.0641,  0.0670,  0.0358],
+        [-0.1840, -0.2043, -0.1692,  ..., -0.0860, -0.0896, -0.0745],
+        ...,
+        [-0.1733, -0.1789, -0.1690,  ...,  0.1068,  0.1143,  0.0857],
+        [-0.0471, -0.0636, -0.0479,  ..., -0.0511, -0.0785, -0.0499],
+        [ 0.3355,  0.3675,  0.3330,  ..., -0.1718, -0.1573, -0.1236]],
+       device='cuda:0'), grad: tensor([[-1.8406e-03, -1.0653e-03, -1.1330e-03,  ..., -9.7573e-05,
+         -7.9274e-06, -1.2636e-04],
+        [ 4.8523e-03,  1.7433e-03,  1.7853e-03,  ...,  8.2922e-04,
+          8.1062e-04,  8.6260e-04],
+        [-8.1420e-05, -5.4979e-04, -6.2513e-04,  ...,  4.6539e-04,
+          4.8780e-04,  3.9411e-04],
+        ...,
+        [ 1.0109e-02,  2.1782e-03,  2.0771e-03,  ...,  2.5654e-03,
+          2.7962e-03,  2.5616e-03],
+        [ 8.5831e-03,  1.8110e-03,  1.7204e-03,  ...,  2.2106e-03,
+          2.4109e-03,  2.2030e-03],
+        [ 9.6970e-03,  2.4300e-03,  2.3823e-03,  ...,  2.1458e-03,
+          2.3537e-03,  2.1877e-03]], device='cuda:0')
+Epoch 58, bias, value: tensor([ 0.1749,  0.0384, -0.0239, -0.0377, -0.0776, -0.1361,  0.0399],
+       device='cuda:0'), grad: tensor([-0.0002,  0.0099,  0.0022, -0.1022,  0.0326,  0.0279,  0.0298],
+       device='cuda:0')
+351
+0.0008271337313934874
+changing lr
+epoch 57, time 439.92, cls_loss 0.3760 cls_loss_mapping 0.0121 cls_loss_causal 0.3368 re_mapping 0.0168 re_causal 0.0176 /// teacc 94.51 lr 0.00070776
+Epoch 59, weight, value: tensor([[ 0.0860,  0.1541,  0.1368,  ...,  0.0317,  0.0346,  0.0414],
+        [ 0.0895,  0.0520,  0.0390,  ...,  0.0637,  0.0666,  0.0354],
+        [-0.1837, -0.2044, -0.1692,  ..., -0.0855, -0.0890, -0.0740],
+        ...,
+        [-0.1711, -0.1777, -0.1679,  ...,  0.1064,  0.1136,  0.0850],
+        [-0.0470, -0.0634, -0.0476,  ..., -0.0507, -0.0779, -0.0495],
+        [ 0.3344,  0.3669,  0.3324,  ..., -0.1719, -0.1572, -0.1234]],
+       device='cuda:0'), grad: tensor([[ 7.6752e-03,  1.1864e-03,  1.0595e-03,  ...,  2.1152e-03,
+          2.1915e-03,  2.2812e-03],
+        [-3.5919e-02, -4.2458e-03, -3.2558e-03,  ..., -9.4070e-03,
+         -9.8038e-03, -1.0292e-02],
+        [ 1.4488e-02,  1.4906e-03,  1.0729e-03,  ...,  3.8738e-03,
+          4.0436e-03,  4.2305e-03],
+        ...,
+        [ 3.5896e-03,  3.6263e-04,  2.5201e-04,  ...,  9.3651e-04,
+          9.8324e-04,  1.0319e-03],
+        [ 1.2026e-03,  1.2290e-04,  7.2598e-05,  ...,  2.7728e-04,
+          2.8920e-04,  3.1233e-04],
+        [ 4.3564e-03,  6.3658e-04,  5.1880e-04,  ...,  1.0662e-03,
+          1.1110e-03,  1.1778e-03]], device='cuda:0')
+Epoch 59, bias, value: tensor([ 0.1784,  0.0331, -0.0219, -0.0373, -0.0750, -0.1381,  0.0387],
+       device='cuda:0'), grad: tensor([ 0.0311, -0.1621,  0.0674,  0.0222,  0.0168,  0.0061,  0.0185],
+       device='cuda:0')
+351
+0.00070775603199067
+changing lr
+epoch 58, time 431.59, cls_loss 0.4049 cls_loss_mapping 0.0137 cls_loss_causal 0.3646 re_mapping 0.0164 re_causal 0.0175 /// teacc 93.67 lr 0.00059702
+Epoch 60, weight, value: tensor([[ 0.0872,  0.1541,  0.1370,  ...,  0.0313,  0.0340,  0.0408],
+        [ 0.0885,  0.0514,  0.0387,  ...,  0.0639,  0.0669,  0.0356],
+        [-0.1842, -0.2047, -0.1695,  ..., -0.0853, -0.0888, -0.0739],
+        ...,
+        [-0.1727, -0.1790, -0.1693,  ...,  0.1060,  0.1133,  0.0848],
+        [-0.0447, -0.0626, -0.0467,  ..., -0.0506, -0.0778, -0.0493],
+        [ 0.3342,  0.3678,  0.3331,  ..., -0.1714, -0.1568, -0.1228]],
+       device='cuda:0'), grad: tensor([[ 1.9035e-03,  9.6941e-04,  9.6560e-04,  ...,  1.9825e-04,
+          2.0206e-04,  2.3103e-04],
+        [ 4.7348e-06,  2.5228e-05,  2.5749e-05,  ..., -1.1319e-04,
+         -1.1599e-04, -1.1337e-04],
+        [ 2.7752e-04,  1.4031e-04,  1.4019e-04,  ...,  2.2084e-05,
+          2.2963e-05,  2.6822e-05],
+        ...,
+        [ 2.1875e-04,  1.1468e-04,  1.1432e-04,  ...,  1.0096e-05,
+          1.0312e-05,  1.3813e-05],
+        [ 1.4877e-04,  8.1182e-05,  8.0466e-05,  ...,  5.1670e-06,
+          5.3458e-06,  8.0243e-06],
+        [-2.5539e-03, -1.3380e-03, -1.3332e-03,  ..., -1.0800e-04,
+         -1.0926e-04, -1.5187e-04]], device='cuda:0')
+Epoch 60, bias, value: tensor([ 0.1855,  0.0291, -0.0239, -0.0408, -0.0751, -0.1320,  0.0351],
+       device='cuda:0'), grad: tensor([ 2.7122e-03, -2.0182e-04,  3.8171e-04, -1.8060e-05,  2.8372e-04,
+         1.7953e-04, -3.3321e-03], device='cuda:0')
+351
+0.0005970223407163104
+changing lr
+epoch 59, time 441.56, cls_loss 0.3598 cls_loss_mapping 0.0101 cls_loss_causal 0.3156 re_mapping 0.0166 re_causal 0.0177 /// teacc 95.78 lr 0.00049516
+Epoch 61, weight, value: tensor([[ 0.0851,  0.1535,  0.1364,  ...,  0.0303,  0.0332,  0.0399],
+        [ 0.0889,  0.0510,  0.0384,  ...,  0.0645,  0.0673,  0.0361],
+        [-0.1843, -0.2047, -0.1696,  ..., -0.0856, -0.0892, -0.0742],
+        ...,
+        [-0.1732, -0.1792, -0.1694,  ...,  0.1057,  0.1131,  0.0845],
+        [-0.0450, -0.0628, -0.0469,  ..., -0.0504, -0.0777, -0.0492],
+        [ 0.3366,  0.3688,  0.3340,  ..., -0.1706, -0.1561, -0.1222]],
+       device='cuda:0'), grad: tensor([[-0.1373, -0.0530, -0.0529,  ..., -0.0434, -0.0415, -0.0402],
+        [ 0.0286,  0.0186,  0.0188,  ...,  0.0159,  0.0170,  0.0156],
+        [-0.1088, -0.0644, -0.0654,  ..., -0.0066, -0.0094, -0.0106],
+        ...,
+        [-0.0035, -0.0020, -0.0020,  ...,  0.0004, -0.0007, -0.0005],
+        [ 0.0126,  0.0030,  0.0030,  ...,  0.0015,  0.0015,  0.0017],
+        [ 0.2030,  0.0963,  0.0969,  ...,  0.0312,  0.0323,  0.0331]],
+       device='cuda:0')
+Epoch 61, bias, value: tensor([ 0.1797,  0.0312, -0.0232, -0.0420, -0.0762, -0.1334,  0.0418],
+       device='cuda:0'), grad: tensor([-0.2798,  0.0081, -0.1208,  0.0146, -0.0065,  0.0376,  0.3467],
+       device='cuda:0')
+351
+0.0004951556604879052
+changing lr
+epoch 60, time 427.63, cls_loss 0.3901 cls_loss_mapping 0.0115 cls_loss_causal 0.3669 re_mapping 0.0163 re_causal 0.0173 /// teacc 85.23 lr 0.00040236
+Epoch 62, weight, value: tensor([[ 0.0861,  0.1538,  0.1370,  ...,  0.0299,  0.0330,  0.0396],
+        [ 0.0897,  0.0518,  0.0391,  ...,  0.0646,  0.0673,  0.0362],
+        [-0.1850, -0.2049, -0.1698,  ..., -0.0859, -0.0895, -0.0746],
+        ...,
+        [-0.1737, -0.1797, -0.1701,  ...,  0.1060,  0.1133,  0.0848],
+        [-0.0455, -0.0630, -0.0471,  ..., -0.0506, -0.0779, -0.0494],
+        [ 0.3365,  0.3685,  0.3336,  ..., -0.1704, -0.1559, -0.1220]],
+       device='cuda:0'), grad: tensor([[ 2.8519e-02,  3.9482e-03,  3.9406e-03,  ...,  9.5978e-03,
+          9.2697e-03,  8.5907e-03],
+        [-4.6631e-02, -8.7433e-03, -8.9569e-03,  ..., -2.2598e-02,
+         -2.2537e-02, -2.0782e-02],
+        [ 7.8278e-03,  7.2718e-04,  6.8617e-04,  ...,  1.3971e-03,
+          1.2236e-03,  1.1578e-03],
+        ...,
+        [ 9.5797e-04,  5.4436e-03,  5.8517e-03,  ...,  1.0880e-02,
+          1.1780e-02,  1.0735e-02],
+        [ 4.3068e-03,  1.2529e-04,  8.3447e-05,  ...,  3.0208e-04,
+          1.6463e-04,  1.7142e-04],
+        [ 3.2024e-03, -1.5373e-03, -1.6251e-03,  ...,  2.9588e-04,
+          2.9668e-05,  4.8280e-05]], device='cuda:0')
+Epoch 62, bias, value: tensor([ 0.1823,  0.0291, -0.0259, -0.0430, -0.0755, -0.1328,  0.0439],
+       device='cuda:0'), grad: tensor([ 0.0900, -0.1119,  0.0307,  0.0084, -0.0619,  0.0200,  0.0247],
+       device='cuda:0')
+351
+0.00040236113724274745
+changing lr
+epoch 61, time 419.03, cls_loss 0.4130 cls_loss_mapping 0.0103 cls_loss_causal 0.3758 re_mapping 0.0160 re_causal 0.0171 /// teacc 94.94 lr 0.00031883
+Epoch 63, weight, value: tensor([[ 0.0870,  0.1542,  0.1374,  ...,  0.0301,  0.0333,  0.0399],
+        [ 0.0883,  0.0513,  0.0386,  ...,  0.0641,  0.0669,  0.0357],
+        [-0.1857, -0.2050, -0.1700,  ..., -0.0861, -0.0897, -0.0748],
+        ...,
+        [-0.1722, -0.1795, -0.1700,  ...,  0.1061,  0.1134,  0.0850],
+        [-0.0455, -0.0631, -0.0474,  ..., -0.0506, -0.0778, -0.0494],
+        [ 0.3354,  0.3685,  0.3338,  ..., -0.1703, -0.1559, -0.1219]],
+       device='cuda:0'), grad: tensor([[-0.0547, -0.0326, -0.0323,  ..., -0.0165, -0.0139, -0.0149],
+        [ 0.0107,  0.0015,  0.0015,  ...,  0.0018,  0.0017,  0.0020],
+        [-0.0327, -0.0013, -0.0013,  ..., -0.0097, -0.0102, -0.0108],
+        ...,
+        [-0.0289,  0.0005,  0.0006,  ..., -0.0028, -0.0026, -0.0035],
+        [ 0.0339,  0.0013,  0.0013,  ...,  0.0084,  0.0087,  0.0094],
+        [ 0.0647,  0.0303,  0.0300,  ...,  0.0173,  0.0149,  0.0161]],
+       device='cuda:0')
+Epoch 63, bias, value: tensor([ 0.1837,  0.0270, -0.0285, -0.0409, -0.0694, -0.1332,  0.0394],
+       device='cuda:0'), grad: tensor([-0.1189,  0.0400, -0.1290,  0.0284, -0.1254,  0.1355,  0.1692],
+       device='cuda:0')
+351
+0.00031882564680131423
+changing lr
+epoch 62, time 420.70, cls_loss 0.4128 cls_loss_mapping 0.0120 cls_loss_causal 0.3758 re_mapping 0.0157 re_causal 0.0168 /// teacc 94.94 lr 0.00024472
+Epoch 64, weight, value: tensor([[ 0.0861,  0.1546,  0.1379,  ...,  0.0300,  0.0330,  0.0397],
+        [ 0.0899,  0.0517,  0.0390,  ...,  0.0644,  0.0673,  0.0361],
+        [-0.1850, -0.2052, -0.1701,  ..., -0.0862, -0.0898, -0.0749],
+        ...,
+        [-0.1735, -0.1801, -0.1706,  ...,  0.1059,  0.1132,  0.0848],
+        [-0.0465, -0.0635, -0.0478,  ..., -0.0508, -0.0780, -0.0497],
+        [ 0.3359,  0.3687,  0.3340,  ..., -0.1701, -0.1556, -0.1217]],
+       device='cuda:0'), grad: tensor([[-4.2969e-02, -8.8425e-03, -8.1406e-03,  ..., -4.5395e-03,
+         -3.4065e-03, -4.7607e-03],
+        [ 7.6637e-03,  1.3504e-03,  1.2150e-03,  ...,  2.8205e-04,
+          1.1909e-04,  3.3689e-04],
+        [ 5.0316e-03,  1.2088e-04,  4.1187e-05,  ...,  3.8362e-04,
+          3.8004e-04,  5.0688e-04],
+        ...,
+        [ 1.5434e-02,  6.2218e-03,  5.9738e-03,  ...,  2.5902e-03,
+          1.7443e-03,  2.3499e-03],
+        [ 4.6806e-03,  9.2208e-05,  1.8254e-05,  ...,  3.4499e-04,
+          3.4451e-04,  4.6158e-04],
+        [ 7.5607e-03,  9.8610e-04,  8.6498e-04,  ...,  7.3862e-04,
+          6.1941e-04,  8.3876e-04]], device='cuda:0')
+Epoch 64, bias, value: tensor([ 0.1781,  0.0297, -0.0239, -0.0389, -0.0723, -0.1358,  0.0411],
+       device='cuda:0'), grad: tensor([-0.1694,  0.0328,  0.0247,  0.0126,  0.0435,  0.0231,  0.0327],
+       device='cuda:0')
+351
+0.0002447174185242325
+changing lr
+epoch 63, time 425.13, cls_loss 0.4009 cls_loss_mapping 0.0102 cls_loss_causal 0.3778 re_mapping 0.0154 re_causal 0.0164 /// teacc 95.78 lr 0.00018019
+Epoch 65, weight, value: tensor([[ 0.0855,  0.1544,  0.1376,  ...,  0.0299,  0.0330,  0.0396],
+        [ 0.0895,  0.0518,  0.0390,  ...,  0.0645,  0.0673,  0.0362],
+        [-0.1844, -0.2050, -0.1699,  ..., -0.0863, -0.0899, -0.0749],
+        ...,
+        [-0.1725, -0.1797, -0.1702,  ...,  0.1061,  0.1134,  0.0850],
+        [-0.0461, -0.0635, -0.0478,  ..., -0.0506, -0.0779, -0.0495],
+        [ 0.3360,  0.3687,  0.3340,  ..., -0.1700, -0.1556, -0.1218]],
+       device='cuda:0'), grad: tensor([[ 0.0200,  0.0052,  0.0053,  ...,  0.0012,  0.0012,  0.0015],
+        [-0.0103,  0.0064,  0.0065,  ...,  0.0003,  0.0001, -0.0003],
+        [ 0.0124,  0.0008,  0.0008,  ...,  0.0005,  0.0005,  0.0008],
+        ...,
+        [ 0.0164,  0.0019,  0.0018,  ...,  0.0007,  0.0008,  0.0011],
+        [ 0.0100,  0.0006,  0.0006,  ...,  0.0003,  0.0004,  0.0006],
+        [-0.0156, -0.0150, -0.0151,  ..., -0.0020, -0.0019, -0.0018]],
+       device='cuda:0')
+Epoch 65, bias, value: tensor([ 0.1766,  0.0286, -0.0225, -0.0419, -0.0700, -0.1337,  0.0410],
+       device='cuda:0'), grad: tensor([ 0.0616, -0.0839,  0.0520, -0.1501,  0.0646,  0.0423,  0.0136],
+       device='cuda:0')
+351
+0.0001801856965207339
+changing lr
+epoch 64, time 423.74, cls_loss 0.3844 cls_loss_mapping 0.0096 cls_loss_causal 0.3462 re_mapping 0.0155 re_causal 0.0165 /// teacc 96.62 lr 0.00012536
+Epoch 66, weight, value: tensor([[ 0.0868,  0.1550,  0.1382,  ...,  0.0304,  0.0334,  0.0401],
+        [ 0.0888,  0.0514,  0.0386,  ...,  0.0644,  0.0672,  0.0361],
+        [-0.1846, -0.2051, -0.1701,  ..., -0.0864, -0.0900, -0.0751],
+        ...,
+        [-0.1735, -0.1800, -0.1705,  ...,  0.1057,  0.1131,  0.0846],
+        [-0.0463, -0.0636, -0.0479,  ..., -0.0506, -0.0779, -0.0495],
+        [ 0.3366,  0.3689,  0.3343,  ..., -0.1700, -0.1555, -0.1217]],
+       device='cuda:0'), grad: tensor([[-3.3779e-03, -2.0847e-03, -2.0332e-03,  ...,  7.7486e-04,
+          8.4639e-04,  9.4080e-04],
+        [-1.9178e-03,  3.5197e-05, -5.0478e-06,  ..., -2.0390e-03,
+         -2.3212e-03, -2.3918e-03],
+        [ 3.4308e-04,  1.2386e-04,  1.2386e-04,  ...,  1.1188e-04,
+          1.2851e-04,  1.2851e-04],
+        ...,
+        [ 2.0161e-03,  8.5449e-04,  8.5163e-04,  ...,  4.5991e-04,
+          5.4693e-04,  5.3644e-04],
+        [ 2.9707e-04,  9.9003e-05,  9.8884e-05,  ...,  9.4771e-05,
+          1.0860e-04,  1.0854e-04],
+        [ 2.2087e-03,  8.5497e-04,  8.4543e-04,  ...,  4.1151e-04,
+          4.7708e-04,  4.6110e-04]], device='cuda:0')
+Epoch 66, bias, value: tensor([ 0.1783,  0.0279, -0.0225, -0.0414, -0.0723, -0.1340,  0.0421],
+       device='cuda:0'), grad: tensor([-0.0025, -0.0086,  0.0008,  0.0012,  0.0041,  0.0007,  0.0044],
+       device='cuda:0')
+351
+0.000125360439090882
+changing lr
+epoch 65, time 423.68, cls_loss 0.3968 cls_loss_mapping 0.0122 cls_loss_causal 0.3652 re_mapping 0.0154 re_causal 0.0162 /// teacc 79.75 lr 0.00008035
+Epoch 67, weight, value: tensor([[ 0.0869,  0.1551,  0.1384,  ...,  0.0303,  0.0333,  0.0400],
+        [ 0.0890,  0.0513,  0.0386,  ...,  0.0646,  0.0674,  0.0362],
+        [-0.1843, -0.2050, -0.1700,  ..., -0.0864, -0.0900, -0.0751],
+        ...,
+        [-0.1737, -0.1801, -0.1707,  ...,  0.1058,  0.1131,  0.0846],
+        [-0.0467, -0.0638, -0.0481,  ..., -0.0507, -0.0779, -0.0495],
+        [ 0.3358,  0.3686,  0.3340,  ..., -0.1702, -0.1558, -0.1220]],
+       device='cuda:0'), grad: tensor([[ 0.0241,  0.0143,  0.0143,  ...,  0.0020,  0.0011,  0.0014],
+        [-0.0074, -0.0014, -0.0013,  ..., -0.0025, -0.0024, -0.0024],
+        [ 0.0100,  0.0055,  0.0055,  ...,  0.0012,  0.0009,  0.0011],
+        ...,
+        [ 0.0027,  0.0008,  0.0007,  ...,  0.0006,  0.0006,  0.0006],
+        [ 0.0022,  0.0003,  0.0003,  ...,  0.0011,  0.0009,  0.0010],
+        [-0.0308, -0.0193, -0.0193,  ..., -0.0021, -0.0008, -0.0012]],
+       device='cuda:0')
+Epoch 67, bias, value: tensor([ 0.1781,  0.0288, -0.0217, -0.0396, -0.0727, -0.1350,  0.0402],
+       device='cuda:0'), grad: tensor([ 0.0369, -0.0221,  0.0177, -0.0031,  0.0071,  0.0072, -0.0437],
+       device='cuda:0')
+351
+8.03520570068517e-05
+changing lr
+epoch 66, time 423.05, cls_loss 0.3767 cls_loss_mapping 0.0089 cls_loss_causal 0.3418 re_mapping 0.0154 re_causal 0.0161 /// teacc 94.09 lr 0.00004525
+Epoch 68, weight, value: tensor([[ 0.0869,  0.1551,  0.1384,  ...,  0.0302,  0.0332,  0.0399],
+        [ 0.0890,  0.0513,  0.0386,  ...,  0.0645,  0.0673,  0.0362],
+        [-0.1843, -0.2050, -0.1700,  ..., -0.0863, -0.0899, -0.0750],
+        ...,
+        [-0.1735, -0.1800, -0.1705,  ...,  0.1058,  0.1131,  0.0847],
+        [-0.0467, -0.0638, -0.0481,  ..., -0.0507, -0.0779, -0.0495],
+        [ 0.3356,  0.3685,  0.3338,  ..., -0.1701, -0.1557, -0.1219]],
+       device='cuda:0'), grad: tensor([[ 1.9932e-03,  2.4662e-03,  2.4643e-03,  ..., -1.2219e-04,
+         -5.5027e-04, -2.5964e-04],
+        [ 4.7569e-03,  2.0142e-03,  2.0142e-03,  ...,  1.3018e-03,
+          1.3351e-03,  1.3905e-03],
+        [ 2.6360e-03,  1.6146e-03,  1.6146e-03,  ...,  5.2738e-04,
+          4.1556e-04,  5.2071e-04],
+        ...,
+        [ 7.4816e-04,  3.6263e-04,  3.6240e-04,  ...,  1.8120e-04,
+          1.7178e-04,  1.9097e-04],
+        [ 3.7289e-04,  4.6778e-04,  4.7016e-04,  ...,  6.1631e-05,
+          2.1905e-05,  1.9684e-05],
+        [-1.1444e-02, -7.3280e-03, -7.3280e-03,  ..., -2.2049e-03,
+         -1.6546e-03, -2.1343e-03]], device='cuda:0')
+Epoch 68, bias, value: tensor([ 0.1782,  0.0290, -0.0220, -0.0398, -0.0726, -0.1351,  0.0404],
+       device='cuda:0'), grad: tensor([ 0.0007,  0.0106,  0.0047,  0.0020,  0.0016, -0.0002, -0.0194],
+       device='cuda:0')
+351
+4.5251191160326525e-05
+changing lr
+epoch 67, time 421.20, cls_loss 0.3717 cls_loss_mapping 0.0104 cls_loss_causal 0.3366 re_mapping 0.0154 re_causal 0.0161 /// teacc 96.20 lr 0.00002013
+Epoch 69, weight, value: tensor([[ 0.0865,  0.1549,  0.1381,  ...,  0.0302,  0.0331,  0.0398],
+        [ 0.0889,  0.0513,  0.0386,  ...,  0.0645,  0.0674,  0.0362],
+        [-0.1843, -0.2050, -0.1700,  ..., -0.0864, -0.0899, -0.0750],
+        ...,
+        [-0.1736, -0.1800, -0.1705,  ...,  0.1058,  0.1131,  0.0847],
+        [-0.0468, -0.0638, -0.0481,  ..., -0.0507, -0.0779, -0.0495],
+        [ 0.3364,  0.3688,  0.3341,  ..., -0.1701, -0.1557, -0.1218]],
+       device='cuda:0'), grad: tensor([[ 3.8834e-03,  1.9388e-03,  1.9398e-03,  ...,  3.4308e-04,
+          5.0068e-04,  4.6802e-04],
+        [ 1.0490e-02,  6.3477e-03,  6.3477e-03,  ...,  9.3222e-04,
+          1.0748e-03,  1.0557e-03],
+        [ 4.6768e-03,  2.2774e-03,  2.2774e-03,  ...,  4.0126e-04,
+          6.0749e-04,  5.5933e-04],
+        ...,
+        [ 3.8395e-03,  1.8711e-03,  1.8702e-03,  ...,  3.3760e-04,
+          5.0259e-04,  4.6420e-04],
+        [ 3.7050e-04,  1.9622e-04,  1.9622e-04,  ...,  3.0845e-05,
+          4.3392e-05,  4.0650e-05],
+        [-2.3987e-02, -1.2985e-02, -1.2985e-02,  ..., -2.1076e-03,
+         -2.8229e-03, -2.6741e-03]], device='cuda:0')
+Epoch 69, bias, value: tensor([ 0.1774,  0.0288, -0.0220, -0.0400, -0.0729, -0.1352,  0.0421],
+       device='cuda:0'), grad: tensor([ 0.0079,  0.0141,  0.0099,  0.0015,  0.0081,  0.0007, -0.0421],
+       device='cuda:0')
+351
+2.0128530023804673e-05
+changing lr
+epoch 68, time 421.54, cls_loss 0.3747 cls_loss_mapping 0.0090 cls_loss_causal 0.3429 re_mapping 0.0153 re_causal 0.0161 /// teacc 97.05 lr 0.00000503
+Epoch 70, weight, value: tensor([[ 0.0865,  0.1549,  0.1382,  ...,  0.0302,  0.0331,  0.0398],
+        [ 0.0889,  0.0513,  0.0386,  ...,  0.0645,  0.0673,  0.0362],
+        [-0.1843, -0.2050, -0.1700,  ..., -0.0864, -0.0899, -0.0750],
+        ...,
+        [-0.1735, -0.1800, -0.1705,  ...,  0.1058,  0.1131,  0.0847],
+        [-0.0468, -0.0638, -0.0481,  ..., -0.0507, -0.0779, -0.0495],
+        [ 0.3363,  0.3688,  0.3341,  ..., -0.1701, -0.1557, -0.1218]],
+       device='cuda:0'), grad: tensor([[ 0.0300,  0.0112,  0.0104,  ...,  0.0046,  0.0052,  0.0056],
+        [-0.0257, -0.0051, -0.0046,  ..., -0.0044, -0.0050, -0.0065],
+        [-0.0396, -0.0065, -0.0076,  ..., -0.0153, -0.0162, -0.0155],
+        ...,
+        [ 0.0246,  0.0048,  0.0050,  ...,  0.0084,  0.0088,  0.0088],
+        [ 0.0034,  0.0007,  0.0006,  ...,  0.0008,  0.0009,  0.0010],
+        [-0.0033, -0.0068, -0.0059,  ...,  0.0025,  0.0025,  0.0029]],
+       device='cuda:0')
+Epoch 70, bias, value: tensor([ 0.1773,  0.0288, -0.0219, -0.0400, -0.0728, -0.1353,  0.0421],
+       device='cuda:0'), grad: tensor([ 0.0715, -0.0918, -0.1276,  0.0346,  0.0797,  0.0116,  0.0219],
+       device='cuda:0')
+351
+5.034667293427056e-06
+changing lr
+epoch 69, time 422.02, cls_loss 0.3970 cls_loss_mapping 0.0122 cls_loss_causal 0.3619 re_mapping 0.0154 re_causal 0.0162 /// teacc 95.78 lr 0.00000000
+---------------------saving last model at epoch 69----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//cartoon/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps1_RA', 'source_domain': 'cartoon', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//cartoon/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps1_RA/cartoon_16factor_best_test_check.csv', 'factor_num': 16, 'epoch': 'best', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of best
+randm: False
+stride: 5
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+columns: ['cartoon', 'art_painting', 'photo', 'sketch']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+                       cartoon  art_painting      photo     sketch        Avg
+w/o do (original x)  99.744027     63.671875  81.137725  72.893866  72.567822
+      cartoon  art_painting      photo     sketch        Avg
+do  99.616041     61.767578  78.742515  73.046577  71.185557
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//cartoon/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps1_RA', 'source_domain': 'cartoon', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//cartoon/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps1_RA/cartoon_16factor_last_test_check.csv', 'factor_num': 16, 'epoch': 'last', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of last
+randm: False
+stride: 5
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+columns: ['cartoon', 'art_painting', 'photo', 'sketch']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+                       cartoon  art_painting      photo     sketch        Avg
+w/o do (original x)  99.573379     66.650391  83.233533  73.835582  74.573168
+      cartoon  art_painting      photo     sketch        Avg
+do  99.573379     66.503906  83.652695  73.784678  74.647093
diff --git a/Meta-causal/code-withStyleAttack/73325.error b/Meta-causal/code-withStyleAttack/73325.error
new file mode 100644
index 0000000000000000000000000000000000000000..1d8892f503da98d186cde00bd23a07723e0edba4
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73325.error
@@ -0,0 +1 @@
+run_my_joint_v13_test.sh: line 33: randm}: command not found
diff --git a/Meta-causal/code-withStyleAttack/73325.log b/Meta-causal/code-withStyleAttack/73325.log
new file mode 100644
index 0000000000000000000000000000000000000000..3f8520c9eb9d9daf385efb1af241b48bdf7cf0d3
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73325.log
@@ -0,0 +1,1823 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'photo', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 5, 'factor_num': 16, 'epochs': 70, 'nbatch': 100, 'batchsize': 6, 'lr': 0.01, 'lr_scheduler': 'cosine', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//photo/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps1_RA', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 5
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_train.hdf5 torch.Size([1499, 3, 227, 227]) torch.Size([1499])
+--------------------------CA_multiple--------------------------
+---------------------------16 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_val.hdf5 torch.Size([171, 3, 227, 227]) torch.Size([171])
+-------------------------------------loading pretrain weights----------------------------------
+Epoch 1, weight, value: tensor([[ 0.0103, -0.0063,  0.0097,  ...,  0.0146, -0.0166,  0.0156],
+        [-0.0070,  0.0139, -0.0139,  ..., -0.0043, -0.0060, -0.0216],
+        [ 0.0051, -0.0077,  0.0161,  ..., -0.0143, -0.0118, -0.0163],
+        ...,
+        [ 0.0073, -0.0163,  0.0004,  ..., -0.0146,  0.0042,  0.0162],
+        [ 0.0166,  0.0012,  0.0025,  ..., -0.0114,  0.0091,  0.0127],
+        [-0.0105,  0.0016, -0.0141,  ...,  0.0161, -0.0200, -0.0175]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([ 0.0076,  0.0079,  0.0042, -0.0156,  0.0164, -0.0046,  0.0145],
+       device='cuda:0'), grad: None
+249
+0.01
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 317.27, cls_loss 9.8470 cls_loss_mapping 1.5225 cls_loss_causal 1.6705 re_mapping 0.5105 re_causal 0.5098 /// teacc 55.56 lr 0.00999497
+Epoch 2, weight, value: tensor([[ 0.0268,  0.0145,  0.0261,  ...,  0.0084, -0.0552, -0.0166],
+        [ 0.0165,  0.0106, -0.0100,  ..., -0.0722, -0.0719, -0.0993],
+        [ 0.0573,  0.0690,  0.0473,  ...,  0.0371,  0.0400,  0.0252],
+        ...,
+        [-0.0911, -0.0770, -0.0699,  ..., -0.0066, -0.0280,  0.0151],
+        [-0.0698, -0.0957, -0.1149,  ..., -0.0964, -0.0420, -0.0361],
+        [ 0.0733,  0.0912,  0.1058,  ..., -0.0139, -0.0180, -0.0414]],
+       device='cuda:0'), grad: tensor([[ 0.0937,  0.0473,  0.0210,  ...,  0.0489,  0.0195,  0.0092],
+        [ 0.0184,  0.0084,  0.0026,  ...,  0.0083,  0.0011, -0.0011],
+        [ 0.0135,  0.0078,  0.0051,  ...,  0.0066,  0.0034,  0.0022],
+        ...,
+        [-0.1028, -0.0434, -0.0082,  ..., -0.0525, -0.0199, -0.0071],
+        [-0.0159, -0.0197, -0.0291,  ...,  0.0032, -0.0004, -0.0023],
+        [ 0.0383,  0.0242,  0.0181,  ...,  0.0168,  0.0080,  0.0051]],
+       device='cuda:0')
+Epoch 2, bias, value: tensor([-0.0283,  0.0070,  0.0739, -0.0533,  0.0427,  0.0015, -0.0139],
+       device='cuda:0'), grad: tensor([ 0.1746, -0.0033,  0.0381, -0.1365, -0.0905, -0.0859,  0.1035],
+       device='cuda:0')
+249
+0.009994965332706574
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 318.56, cls_loss 2.0179 cls_loss_mapping 0.9569 cls_loss_causal 1.1837 re_mapping 0.1561 re_causal 0.1546 /// teacc 56.73 lr 0.00997987
+Epoch 3, weight, value: tensor([[ 0.0250,  0.0142,  0.0246,  ...,  0.0098, -0.0490, -0.0087],
+        [ 0.0126,  0.0013, -0.0112,  ..., -0.0869, -0.0840, -0.1114],
+        [ 0.0666,  0.0698,  0.0512,  ...,  0.0439,  0.0433,  0.0283],
+        ...,
+        [-0.1056, -0.0811, -0.0723,  ...,  0.0027, -0.0142,  0.0234],
+        [-0.0766, -0.0981, -0.1169,  ..., -0.1099, -0.0549, -0.0467],
+        [ 0.1001,  0.1130,  0.1234,  ..., -0.0289, -0.0356, -0.0615]],
+       device='cuda:0'), grad: tensor([[ 0.0646,  0.0250,  0.0110,  ...,  0.0331,  0.0161,  0.0103],
+        [-0.0610, -0.0237, -0.0043,  ..., -0.0233, -0.0078, -0.0014],
+        [-0.1293, -0.0494, -0.0259,  ..., -0.0843, -0.0440, -0.0354],
+        ...,
+        [ 0.0480,  0.0188,  0.0009,  ...,  0.0317,  0.0132,  0.0100],
+        [-0.0051, -0.0023, -0.0011,  ..., -0.0023, -0.0003, -0.0004],
+        [ 0.0024,  0.0009,  0.0005,  ...,  0.0014,  0.0007,  0.0006]],
+       device='cuda:0')
+Epoch 3, bias, value: tensor([ 0.0150,  0.0250,  0.0708, -0.0378,  0.0133, -0.0221, -0.0351],
+       device='cuda:0'), grad: tensor([ 0.1405, -0.1220, -0.3091,  0.1760,  0.1142, -0.0049,  0.0054],
+       device='cuda:0')
+249
+0.009979871469976196
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 325.93, cls_loss 1.3761 cls_loss_mapping 0.6283 cls_loss_causal 0.9430 re_mapping 0.1205 re_causal 0.1182 /// teacc 59.06 lr 0.00995475
+Epoch 4, weight, value: tensor([[ 0.0490,  0.0374,  0.0439,  ..., -0.0009, -0.0602, -0.0234],
+        [-0.0176, -0.0230, -0.0332,  ..., -0.1010, -0.0948, -0.1222],
+        [ 0.0821,  0.0743,  0.0589,  ...,  0.0546,  0.0483,  0.0335],
+        ...,
+        [-0.1039, -0.0900, -0.0752,  ...,  0.0230,  0.0078,  0.0448],
+        [-0.0614, -0.0856, -0.1083,  ..., -0.1161, -0.0661, -0.0521],
+        [ 0.0977,  0.1197,  0.1272,  ..., -0.0284, -0.0309, -0.0578]],
+       device='cuda:0'), grad: tensor([[-0.0663, -0.0321, -0.0295,  ..., -0.0174, -0.0129, -0.0098],
+        [ 0.0068,  0.0024,  0.0015,  ...,  0.0037,  0.0017,  0.0015],
+        [ 0.0466,  0.0154,  0.0083,  ...,  0.0292,  0.0136,  0.0118],
+        ...,
+        [ 0.0977,  0.0366,  0.0273,  ...,  0.0449,  0.0249,  0.0180],
+        [-0.0540, -0.0129, -0.0037,  ..., -0.0193, -0.0048, -0.0024],
+        [ 0.0372,  0.0092,  0.0029,  ...,  0.0145,  0.0041,  0.0024]],
+       device='cuda:0')
+Epoch 4, bias, value: tensor([ 0.0544, -0.0017,  0.0837, -0.1002,  0.0191, -0.0222, -0.0045],
+       device='cuda:0'), grad: tensor([-0.1210,  0.0181,  0.1208, -0.1593,  0.1919, -0.1605,  0.1100],
+       device='cuda:0')
+249
+0.009954748808839675
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 320.74, cls_loss 1.4584 cls_loss_mapping 0.4727 cls_loss_causal 0.8717 re_mapping 0.1043 re_causal 0.1019 /// teacc 95.32 lr 0.00991965
+Epoch 5, weight, value: tensor([[ 0.0585,  0.0519,  0.0605,  ..., -0.0059, -0.0563, -0.0248],
+        [-0.0309, -0.0393, -0.0517,  ..., -0.0905, -0.0875, -0.1108],
+        [ 0.0835,  0.0760,  0.0623,  ...,  0.0556,  0.0525,  0.0410],
+        ...,
+        [-0.1101, -0.0888, -0.0738,  ...,  0.0326,  0.0155,  0.0502],
+        [-0.0455, -0.0778, -0.1026,  ..., -0.1246, -0.0796, -0.0650],
+        [ 0.0910,  0.1134,  0.1222,  ..., -0.0402, -0.0405, -0.0663]],
+       device='cuda:0'), grad: tensor([[-0.0264, -0.0113, -0.0103,  ..., -0.0075, -0.0056, -0.0031],
+        [ 0.0252,  0.0082,  0.0077,  ...,  0.0123,  0.0082,  0.0078],
+        [ 0.0220,  0.0078,  0.0053,  ...,  0.0056,  0.0028,  0.0015],
+        ...,
+        [-0.0760, -0.0187, -0.0134,  ..., -0.0385, -0.0219, -0.0237],
+        [ 0.0075,  0.0016,  0.0012,  ...,  0.0039,  0.0023,  0.0025],
+        [ 0.0443,  0.0115,  0.0087,  ...,  0.0223,  0.0130,  0.0138]],
+       device='cuda:0')
+Epoch 5, bias, value: tensor([ 0.0658,  0.0154,  0.0766, -0.1159,  0.0172, -0.0312,  0.0004],
+       device='cuda:0'), grad: tensor([-0.0454,  0.0595,  0.0239,  0.0078, -0.1532,  0.0160,  0.0914],
+       device='cuda:0')
+249
+0.009919647942993149
+changing lr
+epoch 4, time 324.31, cls_loss 1.1454 cls_loss_mapping 0.3584 cls_loss_causal 0.7323 re_mapping 0.0935 re_causal 0.0910 /// teacc 77.78 lr 0.00987464
+Epoch 6, weight, value: tensor([[ 0.0516,  0.0434,  0.0512,  ..., -0.0043, -0.0525, -0.0204],
+        [-0.0307, -0.0308, -0.0468,  ..., -0.0859, -0.0819, -0.1067],
+        [ 0.0859,  0.0754,  0.0640,  ...,  0.0495,  0.0425,  0.0355],
+        ...,
+        [-0.1114, -0.1003, -0.0806,  ...,  0.0386,  0.0178,  0.0538],
+        [-0.0455, -0.0725, -0.0980,  ..., -0.1345, -0.0882, -0.0732],
+        [ 0.0944,  0.1164,  0.1252,  ..., -0.0446, -0.0438, -0.0712]],
+       device='cuda:0'), grad: tensor([[-0.0449, -0.0088, -0.0104,  ..., -0.0212, -0.0129, -0.0120],
+        [-0.0311, -0.0103, -0.0079,  ..., -0.0072, -0.0023, -0.0030],
+        [ 0.0411,  0.0096,  0.0109,  ...,  0.0224,  0.0154,  0.0149],
+        ...,
+        [ 0.0278,  0.0077,  0.0055,  ...,  0.0018, -0.0033, -0.0029],
+        [ 0.0019,  0.0005,  0.0006,  ...,  0.0012,  0.0009,  0.0009],
+        [ 0.0006,  0.0001,  0.0002,  ...,  0.0003,  0.0002,  0.0002]],
+       device='cuda:0')
+Epoch 6, bias, value: tensor([ 0.0599, -0.0016,  0.1325, -0.1123, -0.0044, -0.0448, -0.0016],
+       device='cuda:0'), grad: tensor([-0.1249, -0.0542,  0.1085,  0.0119,  0.0523,  0.0049,  0.0014],
+       device='cuda:0')
+249
+0.009874639560909117
+changing lr
+epoch 5, time 321.48, cls_loss 1.1646 cls_loss_mapping 0.3070 cls_loss_causal 0.7310 re_mapping 0.0859 re_causal 0.0838 /// teacc 85.96 lr 0.00981981
+Epoch 7, weight, value: tensor([[ 0.0704,  0.0610,  0.0647,  ..., -0.0160, -0.0663, -0.0303],
+        [-0.0261, -0.0308, -0.0427,  ..., -0.0863, -0.0824, -0.1066],
+        [ 0.0751,  0.0677,  0.0554,  ...,  0.0409,  0.0323,  0.0275],
+        ...,
+        [-0.1196, -0.1018, -0.0789,  ...,  0.0409,  0.0210,  0.0548],
+        [-0.0419, -0.0772, -0.1047,  ..., -0.1293, -0.0820, -0.0689],
+        [ 0.0938,  0.1161,  0.1257,  ..., -0.0434, -0.0437, -0.0706]],
+       device='cuda:0'), grad: tensor([[-0.0076, -0.0036, -0.0037,  ..., -0.0045, -0.0043, -0.0038],
+        [ 0.0364,  0.0048,  0.0078,  ...,  0.0091,  0.0058,  0.0064],
+        [ 0.0141,  0.0019,  0.0031,  ...,  0.0036,  0.0023,  0.0025],
+        ...,
+        [ 0.0208,  0.0030,  0.0047,  ...,  0.0055,  0.0037,  0.0040],
+        [ 0.0202,  0.0045,  0.0056,  ...,  0.0027,  0.0034,  0.0028],
+        [-0.0889, -0.0113, -0.0186,  ..., -0.0177, -0.0117, -0.0128]],
+       device='cuda:0')
+Epoch 7, bias, value: tensor([ 0.0650,  0.0398,  0.1027, -0.1486,  0.0025, -0.0297, -0.0043],
+       device='cuda:0'), grad: tensor([-0.0265,  0.1029,  0.0398,  0.0152,  0.0591,  0.0008, -0.1913],
+       device='cuda:0')
+249
+0.009819814303479266
+changing lr
+epoch 6, time 319.36, cls_loss 1.0481 cls_loss_mapping 0.2479 cls_loss_causal 0.6631 re_mapping 0.0798 re_causal 0.0780 /// teacc 91.23 lr 0.00975528
+Epoch 8, weight, value: tensor([[ 0.0781,  0.0693,  0.0713,  ..., -0.0201, -0.0677, -0.0332],
+        [-0.0479, -0.0534, -0.0654,  ..., -0.0796, -0.0777, -0.1021],
+        [ 0.0776,  0.0704,  0.0598,  ...,  0.0392,  0.0290,  0.0246],
+        ...,
+        [-0.1092, -0.0906, -0.0685,  ...,  0.0473,  0.0292,  0.0647],
+        [-0.0496, -0.0797, -0.1095,  ..., -0.1365, -0.0868, -0.0753],
+        [ 0.0903,  0.1134,  0.1243,  ..., -0.0510, -0.0523, -0.0782]],
+       device='cuda:0'), grad: tensor([[-0.0484, -0.0048, -0.0101,  ..., -0.0067, -0.0041, -0.0062],
+        [ 0.0177,  0.0037,  0.0043,  ...,  0.0079,  0.0066,  0.0080],
+        [-0.0283, -0.0039, -0.0079,  ..., -0.0139, -0.0143, -0.0144],
+        ...,
+        [ 0.0360,  0.0081,  0.0089,  ...,  0.0169,  0.0138,  0.0170],
+        [ 0.0035,  0.0009,  0.0010,  ...,  0.0023,  0.0019,  0.0024],
+        [ 0.0043,  0.0012,  0.0011,  ...,  0.0026,  0.0021,  0.0027]],
+       device='cuda:0')
+Epoch 8, bias, value: tensor([ 0.0230, -0.0119,  0.1316, -0.0917,  0.0677, -0.0885, -0.0032],
+       device='cuda:0'), grad: tensor([-0.1085,  0.0609, -0.1302,  0.0189,  0.1241,  0.0178,  0.0169],
+       device='cuda:0')
+249
+0.009755282581475767
+changing lr
+epoch 7, time 321.75, cls_loss 0.9587 cls_loss_mapping 0.2012 cls_loss_causal 0.6491 re_mapping 0.0730 re_causal 0.0713 /// teacc 88.89 lr 0.00968117
+Epoch 9, weight, value: tensor([[ 0.0873,  0.0805,  0.0781,  ..., -0.0195, -0.0662, -0.0324],
+        [-0.0450, -0.0595, -0.0686,  ..., -0.0980, -0.0985, -0.1200],
+        [ 0.0733,  0.0635,  0.0545,  ...,  0.0465,  0.0360,  0.0317],
+        ...,
+        [-0.1132, -0.0980, -0.0750,  ...,  0.0466,  0.0321,  0.0649],
+        [-0.0442, -0.0702, -0.1014,  ..., -0.1332, -0.0862, -0.0736],
+        [ 0.1000,  0.1221,  0.1343,  ..., -0.0457, -0.0465, -0.0730]],
+       device='cuda:0'), grad: tensor([[ 0.0105,  0.0023,  0.0039,  ...,  0.0021,  0.0022,  0.0023],
+        [-0.0722, -0.0180, -0.0236,  ..., -0.0164, -0.0146, -0.0144],
+        [ 0.0182,  0.0042,  0.0055,  ...,  0.0057,  0.0053,  0.0057],
+        ...,
+        [ 0.0464,  0.0107,  0.0137,  ...,  0.0187,  0.0168,  0.0172],
+        [ 0.0133,  0.0028,  0.0036,  ...,  0.0080,  0.0071,  0.0071],
+        [-0.0021, -0.0008, -0.0008,  ..., -0.0004, -0.0004, -0.0005]],
+       device='cuda:0')
+Epoch 9, bias, value: tensor([ 0.0199,  0.0083,  0.1379, -0.1191,  0.0695, -0.0593, -0.0306],
+       device='cuda:0'), grad: tensor([ 0.0291, -0.1727,  0.0463, -0.0706,  0.1277,  0.0433, -0.0031],
+       device='cuda:0')
+249
+0.009681174353198686
+changing lr
+epoch 8, time 323.83, cls_loss 0.9251 cls_loss_mapping 0.1862 cls_loss_causal 0.6333 re_mapping 0.0681 re_causal 0.0669 /// teacc 93.57 lr 0.00959764
+Epoch 10, weight, value: tensor([[ 0.0811,  0.0770,  0.0748,  ..., -0.0249, -0.0706, -0.0372],
+        [-0.0547, -0.0599, -0.0700,  ..., -0.0964, -0.0952, -0.1146],
+        [ 0.0652,  0.0602,  0.0497,  ...,  0.0477,  0.0354,  0.0310],
+        ...,
+        [-0.1097, -0.0958, -0.0706,  ...,  0.0475,  0.0348,  0.0659],
+        [-0.0351, -0.0688, -0.0994,  ..., -0.1314, -0.0858, -0.0719],
+        [ 0.1056,  0.1237,  0.1368,  ..., -0.0442, -0.0463, -0.0729]],
+       device='cuda:0'), grad: tensor([[ 0.0336,  0.0071,  0.0098,  ...,  0.0072,  0.0056,  0.0069],
+        [-0.0624, -0.0173, -0.0214,  ..., -0.0208, -0.0185, -0.0183],
+        [ 0.0342,  0.0089,  0.0115,  ...,  0.0094,  0.0080,  0.0083],
+        ...,
+        [ 0.0428,  0.0101,  0.0134,  ...,  0.0109,  0.0090,  0.0100],
+        [-0.0216, -0.0058, -0.0080,  ..., -0.0051, -0.0037, -0.0050],
+        [-0.0317, -0.0041, -0.0068,  ..., -0.0023, -0.0010, -0.0026]],
+       device='cuda:0')
+Epoch 10, bias, value: tensor([ 0.0372,  0.0030,  0.1113, -0.1492,  0.0743, -0.0331, -0.0171],
+       device='cuda:0'), grad: tensor([ 0.1073, -0.1170,  0.0800,  0.0184,  0.1163, -0.0822, -0.1229],
+       device='cuda:0')
+249
+0.009597638862757255
+changing lr
+epoch 9, time 319.68, cls_loss 0.8251 cls_loss_mapping 0.1573 cls_loss_causal 0.5275 re_mapping 0.0670 re_causal 0.0654 /// teacc 87.72 lr 0.00950484
+Epoch 11, weight, value: tensor([[ 0.0703,  0.0724,  0.0694,  ..., -0.0240, -0.0683, -0.0364],
+        [-0.0640, -0.0655, -0.0787,  ..., -0.0928, -0.0930, -0.1118],
+        [ 0.0584,  0.0504,  0.0400,  ...,  0.0449,  0.0342,  0.0278],
+        ...,
+        [-0.1041, -0.0889, -0.0611,  ...,  0.0362,  0.0249,  0.0563],
+        [-0.0338, -0.0692, -0.1007,  ..., -0.1349, -0.0902, -0.0748],
+        [ 0.1132,  0.1291,  0.1421,  ..., -0.0413, -0.0450, -0.0695]],
+       device='cuda:0'), grad: tensor([[ 1.8072e-03,  4.3654e-04,  4.3535e-04,  ...,  4.1485e-04,
+          4.3511e-04,  3.2520e-04],
+        [ 8.7166e-04,  3.0041e-04,  2.5105e-04,  ...,  2.3663e-04,
+          2.4557e-04,  1.7548e-04],
+        [ 2.9182e-04,  7.2598e-05,  7.2300e-05,  ...,  6.7353e-05,
+          7.0572e-05,  5.2840e-05],
+        ...,
+        [-3.1796e-03, -8.8358e-04, -8.1825e-04,  ..., -7.7677e-04,
+         -8.1205e-04, -5.9652e-04],
+        [ 1.2958e-04,  4.5806e-05,  3.5703e-05,  ...,  3.6836e-05,
+          3.7968e-05,  2.6479e-05],
+        [-4.9099e-06, -1.3039e-08, -6.5193e-08,  ..., -1.2200e-06,
+         -2.9802e-07, -3.3528e-08]], device='cuda:0')
+Epoch 11, bias, value: tensor([ 0.0534, -0.0597,  0.1325, -0.1425,  0.0786, -0.0258, -0.0103],
+       device='cuda:0'), grad: tensor([ 4.9744e-03,  2.5291e-03,  7.9775e-04,  2.3878e-04, -8.9264e-03,
+         3.9268e-04, -9.4175e-06], device='cuda:0')
+249
+0.009504844339512096
+changing lr
+epoch 10, time 323.06, cls_loss 0.9157 cls_loss_mapping 0.1496 cls_loss_causal 0.6189 re_mapping 0.0637 re_causal 0.0625 /// teacc 90.64 lr 0.00940298
+Epoch 12, weight, value: tensor([[ 0.0700,  0.0740,  0.0706,  ..., -0.0311, -0.0739, -0.0421],
+        [-0.0585, -0.0562, -0.0694,  ..., -0.0828, -0.0832, -0.1028],
+        [ 0.0522,  0.0421,  0.0339,  ...,  0.0524,  0.0437,  0.0382],
+        ...,
+        [-0.0962, -0.0852, -0.0564,  ...,  0.0379,  0.0293,  0.0606],
+        [-0.0483, -0.0793, -0.1116,  ..., -0.1403, -0.0963, -0.0814],
+        [ 0.1209,  0.1359,  0.1469,  ..., -0.0375, -0.0431, -0.0674]],
+       device='cuda:0'), grad: tensor([[ 0.0836,  0.0191,  0.0213,  ...,  0.0185,  0.0148,  0.0195],
+        [-0.0501, -0.0113, -0.0116,  ..., -0.0093, -0.0058, -0.0098],
+        [ 0.0188,  0.0037,  0.0046,  ...,  0.0048,  0.0042,  0.0050],
+        ...,
+        [ 0.0154,  0.0033,  0.0040,  ...,  0.0037,  0.0032,  0.0039],
+        [-0.0199, -0.0038, -0.0047,  ..., -0.0107, -0.0106, -0.0106],
+        [-0.0252, -0.0077, -0.0094,  ..., -0.0073, -0.0080, -0.0074]],
+       device='cuda:0')
+Epoch 12, bias, value: tensor([ 0.0289, -0.0195,  0.1679, -0.1374,  0.0812, -0.0941, -0.0012],
+       device='cuda:0'), grad: tensor([ 0.2329, -0.1271,  0.0673, -0.1006,  0.0517, -0.0751, -0.0492],
+       device='cuda:0')
+249
+0.009402977659283692
+changing lr
+epoch 11, time 325.66, cls_loss 0.7534 cls_loss_mapping 0.1208 cls_loss_causal 0.5363 re_mapping 0.0624 re_causal 0.0608 /// teacc 90.06 lr 0.00929224
+Epoch 13, weight, value: tensor([[ 0.0620,  0.0722,  0.0720,  ..., -0.0335, -0.0739, -0.0430],
+        [-0.0440, -0.0477, -0.0603,  ..., -0.0787, -0.0802, -0.0996],
+        [ 0.0460,  0.0391,  0.0313,  ...,  0.0544,  0.0465,  0.0399],
+        ...,
+        [-0.0940, -0.0818, -0.0555,  ...,  0.0289,  0.0214,  0.0539],
+        [-0.0409, -0.0763, -0.1108,  ..., -0.1363, -0.0953, -0.0787],
+        [ 0.1148,  0.1285,  0.1390,  ..., -0.0387, -0.0442, -0.0674]],
+       device='cuda:0'), grad: tensor([[ 7.9393e-05,  2.3946e-05,  3.0264e-05,  ...,  1.6078e-05,
+          1.3225e-05,  1.2390e-05],
+        [ 5.4449e-05,  4.8071e-05,  4.6730e-05,  ...,  1.5087e-05,
+          1.5795e-05,  9.5963e-06],
+        [ 1.6773e-04,  5.3972e-05,  6.4552e-05,  ...,  3.6895e-05,
+          3.1054e-05,  2.6956e-05],
+        ...,
+        [ 4.7278e-04,  1.2803e-04,  1.6224e-04,  ...,  1.0151e-04,
+          8.2731e-05,  7.5102e-05],
+        [-1.1797e-03, -3.9363e-04, -4.7231e-04,  ..., -2.5582e-04,
+         -2.1541e-04, -1.8811e-04],
+        [ 3.2234e-04,  1.1688e-04,  1.4174e-04,  ...,  6.7115e-05,
+          5.6624e-05,  5.0455e-05]], device='cuda:0')
+Epoch 13, bias, value: tensor([-0.0108,  0.0219,  0.1330, -0.1469,  0.0647, -0.0522,  0.0158],
+       device='cuda:0'), grad: tensor([ 2.0802e-04, -9.0897e-06,  4.1103e-04,  2.3139e-04,  1.2589e-03,
+        -2.8076e-03,  7.0810e-04], device='cuda:0')
+249
+0.009292243968009333
+changing lr
+epoch 12, time 320.64, cls_loss 0.7875 cls_loss_mapping 0.1279 cls_loss_causal 0.5384 re_mapping 0.0584 re_causal 0.0570 /// teacc 94.74 lr 0.00917287
+Epoch 14, weight, value: tensor([[ 0.0601,  0.0650,  0.0639,  ..., -0.0298, -0.0729, -0.0399],
+        [-0.0419, -0.0442, -0.0555,  ..., -0.0811, -0.0796, -0.1019],
+        [ 0.0424,  0.0351,  0.0295,  ...,  0.0503,  0.0426,  0.0347],
+        ...,
+        [-0.0965, -0.0807, -0.0544,  ...,  0.0310,  0.0220,  0.0565],
+        [-0.0350, -0.0766, -0.1114,  ..., -0.1355, -0.0955, -0.0778],
+        [ 0.1187,  0.1339,  0.1424,  ..., -0.0388, -0.0440, -0.0669]],
+       device='cuda:0'), grad: tensor([[-5.9204e-02, -9.8267e-03, -1.5228e-02,  ..., -1.0864e-02,
+         -9.3460e-03, -1.2032e-02],
+        [ 5.8838e-02,  9.7733e-03,  1.5129e-02,  ...,  1.0803e-02,
+          9.2926e-03,  1.1955e-02],
+        [ 1.6421e-05,  3.4608e-06,  3.6713e-06,  ...,  3.6694e-06,
+          3.2820e-06,  3.2783e-06],
+        ...,
+        [ 5.2261e-04,  8.9526e-05,  1.2887e-04,  ...,  1.0335e-04,
+          8.9645e-05,  1.0711e-04],
+        [-2.7490e-04, -5.9247e-05, -6.3717e-05,  ..., -6.2823e-05,
+         -5.6326e-05, -5.6028e-05],
+        [ 7.6056e-05,  1.5497e-05,  1.6600e-05,  ...,  1.6034e-05,
+          1.4275e-05,  1.4871e-05]], device='cuda:0')
+Epoch 14, bias, value: tensor([ 0.0171,  0.0006,  0.1133, -0.1598,  0.0873, -0.0423,  0.0091],
+       device='cuda:0'), grad: tensor([-1.5454e-01,  1.5356e-01,  4.0710e-05,  4.3631e-05,  1.3771e-03,
+        -6.9237e-04,  1.8275e-04], device='cuda:0')
+249
+0.009172866268606516
+changing lr
+epoch 13, time 319.64, cls_loss 0.7551 cls_loss_mapping 0.1046 cls_loss_causal 0.5119 re_mapping 0.0576 re_causal 0.0567 /// teacc 92.98 lr 0.00904508
+Epoch 15, weight, value: tensor([[ 0.0496,  0.0577,  0.0561,  ..., -0.0375, -0.0797, -0.0453],
+        [-0.0442, -0.0466, -0.0602,  ..., -0.0870, -0.0857, -0.1066],
+        [ 0.0463,  0.0357,  0.0338,  ...,  0.0554,  0.0498,  0.0416],
+        ...,
+        [-0.0957, -0.0757, -0.0486,  ...,  0.0458,  0.0371,  0.0684],
+        [-0.0380, -0.0801, -0.1146,  ..., -0.1366, -0.0979, -0.0787],
+        [ 0.1265,  0.1409,  0.1482,  ..., -0.0374, -0.0429, -0.0672]],
+       device='cuda:0'), grad: tensor([[-5.4016e-02, -3.0441e-03, -5.2490e-03,  ..., -5.2910e-03,
+         -3.2692e-03, -3.5763e-03],
+        [ 5.8441e-03,  3.9291e-04,  6.2323e-04,  ...,  6.2513e-04,
+          4.0150e-04,  4.4036e-04],
+        [ 5.5504e-03, -2.8801e-04,  3.1829e-05,  ..., -5.6297e-05,
+         -2.3782e-04, -2.2542e-04],
+        ...,
+        [ 1.4595e-02,  1.1539e-03,  1.6975e-03,  ...,  1.7681e-03,
+          1.2093e-03,  1.2989e-03],
+        [ 1.3992e-02,  8.8596e-04,  1.4420e-03,  ...,  1.4696e-03,
+          9.4175e-04,  1.0233e-03],
+        [ 7.2174e-03,  4.5252e-04,  7.4005e-04,  ...,  7.5388e-04,
+          4.8161e-04,  5.2357e-04]], device='cuda:0')
+Epoch 15, bias, value: tensor([ 0.0076,  0.0203,  0.1300, -0.1412,  0.0609, -0.0431, -0.0096],
+       device='cuda:0'), grad: tensor([-0.1501,  0.0163,  0.0155,  0.0188,  0.0406,  0.0389,  0.0201],
+       device='cuda:0')
+249
+0.00904508497187474
+changing lr
+epoch 14, time 325.40, cls_loss 0.7362 cls_loss_mapping 0.1139 cls_loss_causal 0.5319 re_mapping 0.0534 re_causal 0.0521 /// teacc 81.29 lr 0.00890916
+Epoch 16, weight, value: tensor([[ 0.0563,  0.0625,  0.0596,  ..., -0.0181, -0.0609, -0.0260],
+        [-0.0456, -0.0473, -0.0593,  ..., -0.0989, -0.0957, -0.1170],
+        [ 0.0486,  0.0322,  0.0326,  ...,  0.0529,  0.0447,  0.0374],
+        ...,
+        [-0.1046, -0.0770, -0.0521,  ...,  0.0457,  0.0375,  0.0695],
+        [-0.0327, -0.0775, -0.1130,  ..., -0.1347, -0.0961, -0.0777],
+        [ 0.1191,  0.1346,  0.1416,  ..., -0.0455, -0.0514, -0.0738]],
+       device='cuda:0'), grad: tensor([[-0.0443, -0.0075, -0.0123,  ..., -0.0051, -0.0067, -0.0059],
+        [ 0.0057,  0.0007,  0.0011,  ...,  0.0008,  0.0007,  0.0008],
+        [-0.0293, -0.0017, -0.0040,  ..., -0.0025, -0.0010, -0.0029],
+        ...,
+        [ 0.0512,  0.0078,  0.0130,  ...,  0.0063,  0.0074,  0.0071],
+        [-0.0236, -0.0040, -0.0052,  ..., -0.0148, -0.0155, -0.0158],
+        [ 0.0027, -0.0003,  0.0001,  ..., -0.0002, -0.0002,  0.0002]],
+       device='cuda:0')
+Epoch 16, bias, value: tensor([-0.0051,  0.0274,  0.1623, -0.1527,  0.0319, -0.0319, -0.0070],
+       device='cuda:0'), grad: tensor([-0.1289,  0.0180, -0.1057,  0.1383,  0.1552, -0.0900,  0.0134],
+       device='cuda:0')
+249
+0.008909157412340152
+changing lr
+---------------------saving model at epoch 15----------------------------------------------------
+epoch 15, time 324.09, cls_loss 0.6901 cls_loss_mapping 0.0922 cls_loss_causal 0.4947 re_mapping 0.0505 re_causal 0.0495 /// teacc 96.49 lr 0.00876536
+Epoch 17, weight, value: tensor([[ 0.0537,  0.0596,  0.0557,  ..., -0.0190, -0.0619, -0.0266],
+        [-0.0386, -0.0416, -0.0540,  ..., -0.0958, -0.0947, -0.1139],
+        [ 0.0409,  0.0296,  0.0317,  ...,  0.0532,  0.0440,  0.0377],
+        ...,
+        [-0.0985, -0.0779, -0.0522,  ...,  0.0440,  0.0379,  0.0680],
+        [-0.0441, -0.0780, -0.1141,  ..., -0.1350, -0.0960, -0.0791],
+        [ 0.1309,  0.1390,  0.1461,  ..., -0.0439, -0.0496, -0.0719]],
+       device='cuda:0'), grad: tensor([[-0.0390, -0.0116, -0.0099,  ..., -0.0136, -0.0174, -0.0156],
+        [ 0.0137,  0.0038,  0.0035,  ...,  0.0044,  0.0057,  0.0051],
+        [ 0.0042,  0.0009,  0.0011,  ...,  0.0010,  0.0013,  0.0012],
+        ...,
+        [ 0.0296,  0.0079,  0.0075,  ...,  0.0090,  0.0116,  0.0105],
+        [-0.0138, -0.0021, -0.0034,  ..., -0.0019, -0.0026, -0.0026],
+        [ 0.0027,  0.0006,  0.0007,  ...,  0.0006,  0.0008,  0.0008]],
+       device='cuda:0')
+Epoch 17, bias, value: tensor([-0.0267,  0.0364,  0.1427, -0.1598,  0.0838, -0.0696,  0.0177],
+       device='cuda:0'), grad: tensor([-0.1326,  0.0479,  0.0160,  0.0100,  0.1050, -0.0569,  0.0104],
+       device='cuda:0')
+249
+0.00876535733001806
+changing lr
+epoch 16, time 318.70, cls_loss 0.6296 cls_loss_mapping 0.0820 cls_loss_causal 0.4572 re_mapping 0.0487 re_causal 0.0468 /// teacc 95.91 lr 0.00861397
+Epoch 18, weight, value: tensor([[ 0.0516,  0.0601,  0.0541,  ..., -0.0162, -0.0588, -0.0223],
+        [-0.0392, -0.0398, -0.0542,  ..., -0.0987, -0.0989, -0.1176],
+        [ 0.0365,  0.0239,  0.0276,  ...,  0.0518,  0.0403,  0.0360],
+        ...,
+        [-0.1012, -0.0770, -0.0493,  ...,  0.0432,  0.0408,  0.0691],
+        [-0.0407, -0.0827, -0.1170,  ..., -0.1337, -0.0957, -0.0790],
+        [ 0.1295,  0.1431,  0.1487,  ..., -0.0437, -0.0479, -0.0713]],
+       device='cuda:0'), grad: tensor([[ 8.3685e-05,  1.4149e-05,  1.6302e-05,  ...,  5.8621e-05,
+          5.5462e-05,  5.8711e-05],
+        [ 1.0252e-05,  1.4072e-06,  1.8748e-06,  ...,  7.9796e-06,
+          7.5437e-06,  7.9796e-06],
+        [ 2.1625e-04,  3.3796e-05,  4.1306e-05,  ...,  1.7536e-04,
+          1.6415e-04,  1.7440e-04],
+        ...,
+        [-2.1607e-05, -7.2271e-07, -2.5090e-06,  ..., -1.7881e-05,
+         -1.7315e-05, -1.8075e-05],
+        [ 4.6074e-05,  9.2760e-06,  9.9093e-06,  ...,  2.9504e-05,
+          2.7850e-05,  2.9564e-05],
+        [-1.5656e-06, -5.4669e-07, -6.6310e-07,  ..., -6.8918e-08,
+          0.0000e+00, -5.6811e-08]], device='cuda:0')
+Epoch 18, bias, value: tensor([-0.0176,  0.0304,  0.1888, -0.1536,  0.0439, -0.0509, -0.0169],
+       device='cuda:0'), grad: tensor([ 2.2936e-04,  3.1292e-05,  5.9891e-04, -8.7976e-04, -8.9169e-05,
+         1.1301e-04, -3.8929e-06], device='cuda:0')
+249
+0.008613974319136962
+changing lr
+---------------------saving model at epoch 17----------------------------------------------------
+epoch 17, time 324.12, cls_loss 0.6399 cls_loss_mapping 0.0750 cls_loss_causal 0.4533 re_mapping 0.0466 re_causal 0.0444 /// teacc 98.25 lr 0.00845531
+Epoch 19, weight, value: tensor([[ 0.0580,  0.0625,  0.0600,  ..., -0.0146, -0.0554, -0.0177],
+        [-0.0399, -0.0389, -0.0558,  ..., -0.0906, -0.0924, -0.1097],
+        [ 0.0312,  0.0227,  0.0251,  ...,  0.0407,  0.0308,  0.0257],
+        ...,
+        [-0.0929, -0.0734, -0.0431,  ...,  0.0466,  0.0446,  0.0718],
+        [-0.0451, -0.0859, -0.1198,  ..., -0.1339, -0.0967, -0.0793],
+        [ 0.1284,  0.1435,  0.1493,  ..., -0.0452, -0.0493, -0.0738]],
+       device='cuda:0'), grad: tensor([[ 4.4212e-03,  1.3075e-03,  1.5364e-03,  ...,  1.3762e-03,
+          1.3733e-03,  1.4677e-03],
+        [-9.5034e-04, -1.9133e-04, -2.3246e-04,  ..., -1.4257e-04,
+         -4.3005e-05, -8.1718e-05],
+        [ 3.0575e-03,  5.9462e-04,  8.2541e-04,  ...,  1.7319e-03,
+          2.0390e-03,  2.0256e-03],
+        ...,
+        [-3.8280e-03, -7.7009e-04, -1.0376e-03,  ..., -2.6379e-03,
+         -3.1986e-03, -3.1281e-03],
+        [-1.0405e-03, -1.4591e-04, -2.8610e-04,  ..., -1.3959e-04,
+         -1.0902e-04, -1.5795e-04],
+        [-2.2831e-03, -9.0599e-04, -9.7609e-04,  ..., -4.5323e-04,
+         -3.6120e-04, -4.3058e-04]], device='cuda:0')
+Epoch 19, bias, value: tensor([-0.0019,  0.0448,  0.1612, -0.1589,  0.0775, -0.0578, -0.0407],
+       device='cuda:0'), grad: tensor([ 0.0119, -0.0026,  0.0082,  0.0018, -0.0098, -0.0035, -0.0060],
+       device='cuda:0')
+249
+0.008455313244934327
+changing lr
+epoch 18, time 320.31, cls_loss 0.6512 cls_loss_mapping 0.0685 cls_loss_causal 0.4711 re_mapping 0.0432 re_causal 0.0415 /// teacc 91.23 lr 0.00828969
+Epoch 20, weight, value: tensor([[ 0.0399,  0.0511,  0.0471,  ..., -0.0184, -0.0578, -0.0209],
+        [-0.0344, -0.0368, -0.0515,  ..., -0.0925, -0.0937, -0.1119],
+        [ 0.0303,  0.0190,  0.0202,  ...,  0.0400,  0.0310,  0.0265],
+        ...,
+        [-0.0863, -0.0638, -0.0322,  ...,  0.0500,  0.0484,  0.0760],
+        [-0.0423, -0.0860, -0.1194,  ..., -0.1334, -0.0987, -0.0807],
+        [ 0.1419,  0.1509,  0.1541,  ..., -0.0448, -0.0500, -0.0736]],
+       device='cuda:0'), grad: tensor([[ 0.0142,  0.0016,  0.0019,  ...,  0.0031,  0.0025,  0.0022],
+        [-0.0573, -0.0071, -0.0085,  ..., -0.0096, -0.0070, -0.0030],
+        [ 0.0084,  0.0009,  0.0010,  ...,  0.0015,  0.0011,  0.0010],
+        ...,
+        [ 0.0565,  0.0068,  0.0083,  ...,  0.0127,  0.0104,  0.0077],
+        [-0.0264, -0.0024, -0.0020,  ..., -0.0018, -0.0002, -0.0019],
+        [ 0.0098,  0.0009,  0.0008,  ...,  0.0008,  0.0002,  0.0008]],
+       device='cuda:0')
+Epoch 20, bias, value: tensor([-0.0424,  0.0487,  0.1821, -0.2078,  0.0812, -0.0435,  0.0054],
+       device='cuda:0'), grad: tensor([ 0.0469, -0.1281,  0.0317, -0.0173,  0.1569, -0.1395,  0.0494],
+       device='cuda:0')
+249
+0.008289693629698565
+changing lr
+epoch 19, time 320.15, cls_loss 0.6293 cls_loss_mapping 0.0625 cls_loss_causal 0.4638 re_mapping 0.0409 re_causal 0.0392 /// teacc 96.49 lr 0.00811745
+Epoch 21, weight, value: tensor([[ 0.0405,  0.0487,  0.0436,  ..., -0.0217, -0.0595, -0.0221],
+        [-0.0299, -0.0337, -0.0482,  ..., -0.0926, -0.0967, -0.1147],
+        [ 0.0227,  0.0186,  0.0194,  ...,  0.0445,  0.0360,  0.0310],
+        ...,
+        [-0.0945, -0.0703, -0.0383,  ...,  0.0522,  0.0528,  0.0789],
+        [-0.0417, -0.0809, -0.1167,  ..., -0.1327, -0.0981, -0.0799],
+        [ 0.1464,  0.1550,  0.1580,  ..., -0.0442, -0.0505, -0.0724]],
+       device='cuda:0'), grad: tensor([[-6.6662e-04, -2.8825e-04, -4.1723e-04,  ..., -1.8612e-05,
+         -1.3363e-04, -1.1420e-04],
+        [ 2.8896e-03,  3.6931e-04,  4.7565e-04,  ...,  1.2674e-03,
+          1.1768e-03,  1.1930e-03],
+        [ 3.2544e-05,  7.5363e-06,  6.5640e-06,  ...,  7.4953e-06,
+          1.6242e-06,  1.6131e-06],
+        ...,
+        [-9.2983e-04,  1.1581e-04,  9.0525e-06,  ..., -5.8985e-04,
+         -6.8903e-04, -6.6710e-04],
+        [-6.4697e-03, -1.6394e-03, -1.6031e-03,  ..., -2.1896e-03,
+         -1.5411e-03, -1.6184e-03],
+        [ 3.1681e-03,  9.0837e-04,  1.0176e-03,  ...,  8.5020e-04,
+          7.0286e-04,  7.0715e-04]], device='cuda:0')
+Epoch 21, bias, value: tensor([-0.0266,  0.0623,  0.1490, -0.1723,  0.0459, -0.0529,  0.0181],
+       device='cuda:0'), grad: tensor([-1.4877e-03,  7.7400e-03,  6.5148e-05,  4.9286e-03, -2.5425e-03,
+        -1.6479e-02,  7.7744e-03], device='cuda:0')
+249
+0.00811744900929367
+changing lr
+epoch 20, time 317.71, cls_loss 0.5800 cls_loss_mapping 0.0657 cls_loss_causal 0.4347 re_mapping 0.0384 re_causal 0.0366 /// teacc 90.06 lr 0.00793893
+Epoch 22, weight, value: tensor([[ 0.0411,  0.0523,  0.0497,  ..., -0.0223, -0.0613, -0.0236],
+        [-0.0367, -0.0343, -0.0501,  ..., -0.0854, -0.0892, -0.1086],
+        [ 0.0300,  0.0177,  0.0189,  ...,  0.0416,  0.0322,  0.0282],
+        ...,
+        [-0.0856, -0.0670, -0.0360,  ...,  0.0526,  0.0567,  0.0816],
+        [-0.0379, -0.0780, -0.1117,  ..., -0.1331, -0.0981, -0.0811],
+        [ 0.1406,  0.1519,  0.1527,  ..., -0.0421, -0.0493, -0.0698]],
+       device='cuda:0'), grad: tensor([[4.2076e-03, 5.3644e-04, 1.2503e-03,  ..., 2.8381e-03, 2.6093e-03,
+         2.8229e-03],
+        [9.0504e-04, 1.0729e-04, 2.6512e-04,  ..., 6.8426e-04, 6.3229e-04,
+         6.7902e-04],
+        [6.3286e-03, 5.5599e-04, 1.6518e-03,  ..., 4.6921e-03, 4.3526e-03,
+         4.6768e-03],
+        ...,
+        [1.1879e-02, 1.5526e-03, 3.5610e-03,  ..., 7.9117e-03, 7.2670e-03,
+         7.8659e-03],
+        [5.7411e-04, 6.8307e-05, 1.6594e-04,  ..., 3.9458e-04, 3.6335e-04,
+         3.9244e-04],
+        [1.5020e-04, 1.6242e-05, 4.3422e-05,  ..., 1.0496e-04, 9.6142e-05,
+         1.0496e-04]], device='cuda:0')
+Epoch 22, bias, value: tensor([-0.0341,  0.0208,  0.1621, -0.1747,  0.0669, -0.0548,  0.0371],
+       device='cuda:0'), grad: tensor([ 0.0172,  0.0039,  0.0277, -0.1002,  0.0483,  0.0024,  0.0006],
+       device='cuda:0')
+249
+0.007938926261462368
+changing lr
+epoch 21, time 320.13, cls_loss 0.6097 cls_loss_mapping 0.0640 cls_loss_causal 0.4353 re_mapping 0.0363 re_causal 0.0341 /// teacc 95.91 lr 0.00775448
+Epoch 23, weight, value: tensor([[ 0.0354,  0.0462,  0.0420,  ..., -0.0220, -0.0610, -0.0227],
+        [-0.0353, -0.0353, -0.0497,  ..., -0.0836, -0.0847, -0.1059],
+        [ 0.0316,  0.0207,  0.0229,  ...,  0.0399,  0.0313,  0.0274],
+        ...,
+        [-0.0857, -0.0678, -0.0358,  ...,  0.0558,  0.0583,  0.0833],
+        [-0.0328, -0.0759, -0.1107,  ..., -0.1316, -0.0982, -0.0802],
+        [ 0.1391,  0.1566,  0.1550,  ..., -0.0424, -0.0500, -0.0704]],
+       device='cuda:0'), grad: tensor([[ 6.6986e-03,  7.2527e-04,  7.3624e-04,  ...,  6.7282e-04,
+          3.5238e-04,  6.8808e-04],
+        [ 3.6335e-03,  3.4404e-04,  3.4976e-04,  ...,  2.7061e-04,
+          8.3685e-05,  2.7490e-04],
+        [ 5.4436e-03,  5.2929e-04,  5.4073e-04,  ...,  4.4489e-04,
+          1.7047e-04,  4.5466e-04],
+        ...,
+        [-2.8580e-02, -2.6932e-03, -2.7504e-03,  ..., -2.1133e-03,
+         -6.4135e-04, -2.1610e-03],
+        [ 4.5929e-03,  3.8791e-04,  4.1580e-04,  ...,  3.1209e-04,
+          6.7234e-05,  3.2616e-04],
+        [ 5.7678e-03,  5.2071e-04,  5.3167e-04,  ...,  4.0150e-04,
+          1.0341e-04,  4.1127e-04]], device='cuda:0')
+Epoch 23, bias, value: tensor([-0.0138, -0.0015,  0.1450, -0.1861,  0.0679, -0.0066,  0.0177],
+       device='cuda:0'), grad: tensor([ 0.0330,  0.0186,  0.0276,  0.0133, -0.1465,  0.0240,  0.0299],
+       device='cuda:0')
+249
+0.007754484907260515
+changing lr
+epoch 22, time 321.90, cls_loss 0.6052 cls_loss_mapping 0.0617 cls_loss_causal 0.4516 re_mapping 0.0355 re_causal 0.0349 /// teacc 96.49 lr 0.00756450
+Epoch 24, weight, value: tensor([[ 0.0395,  0.0433,  0.0419,  ..., -0.0238, -0.0625, -0.0246],
+        [-0.0303, -0.0378, -0.0527,  ..., -0.0832, -0.0850, -0.1055],
+        [ 0.0316,  0.0234,  0.0257,  ...,  0.0400,  0.0333,  0.0288],
+        ...,
+        [-0.0951, -0.0730, -0.0400,  ...,  0.0518,  0.0540,  0.0794],
+        [-0.0373, -0.0768, -0.1130,  ..., -0.1298, -0.0959, -0.0791],
+        [ 0.1442,  0.1626,  0.1592,  ..., -0.0415, -0.0498, -0.0691]],
+       device='cuda:0'), grad: tensor([[ 0.0206,  0.0030,  0.0034,  ...,  0.0074,  0.0051,  0.0071],
+        [-0.0381, -0.0052, -0.0059,  ..., -0.0134, -0.0091, -0.0127],
+        [ 0.0049,  0.0007,  0.0008,  ...,  0.0018,  0.0012,  0.0017],
+        ...,
+        [ 0.0044,  0.0008,  0.0009,  ...,  0.0018,  0.0014,  0.0017],
+        [-0.0010, -0.0006, -0.0007,  ..., -0.0009, -0.0009, -0.0009],
+        [ 0.0079,  0.0011,  0.0013,  ...,  0.0028,  0.0019,  0.0027]],
+       device='cuda:0')
+Epoch 24, bias, value: tensor([-0.0005,  0.0192,  0.1439, -0.1879,  0.0545, -0.0405,  0.0339],
+       device='cuda:0'), grad: tensor([ 0.0596, -0.1099,  0.0141,  0.0039,  0.0130, -0.0034,  0.0227],
+       device='cuda:0')
+249
+0.007564496387029534
+changing lr
+epoch 23, time 319.54, cls_loss 0.5847 cls_loss_mapping 0.0607 cls_loss_causal 0.4327 re_mapping 0.0348 re_causal 0.0348 /// teacc 86.55 lr 0.00736934
+Epoch 25, weight, value: tensor([[ 0.0324,  0.0433,  0.0415,  ..., -0.0196, -0.0566, -0.0184],
+        [-0.0324, -0.0375, -0.0507,  ..., -0.0810, -0.0816, -0.1031],
+        [ 0.0279,  0.0192,  0.0222,  ...,  0.0338,  0.0287,  0.0226],
+        ...,
+        [-0.0866, -0.0708, -0.0379,  ...,  0.0513,  0.0520,  0.0769],
+        [-0.0402, -0.0757, -0.1127,  ..., -0.1327, -0.1000, -0.0820],
+        [ 0.1420,  0.1610,  0.1552,  ..., -0.0418, -0.0505, -0.0694]],
+       device='cuda:0'), grad: tensor([[ 0.0135,  0.0021,  0.0025,  ...,  0.0034,  0.0029,  0.0040],
+        [ 0.0472,  0.0063,  0.0086,  ...,  0.0105,  0.0083,  0.0123],
+        [ 0.0061,  0.0006,  0.0010,  ...,  0.0012,  0.0008,  0.0014],
+        ...,
+        [ 0.0441,  0.0030,  0.0077,  ...,  0.0096,  0.0064,  0.0112],
+        [-0.0478, -0.0080, -0.0106,  ..., -0.0162, -0.0152, -0.0195],
+        [-0.0831, -0.0059, -0.0126,  ..., -0.0122, -0.0056, -0.0136]],
+       device='cuda:0')
+Epoch 25, bias, value: tensor([-0.0066,  0.0065,  0.0942, -0.1773,  0.1159, -0.0534,  0.0431],
+       device='cuda:0'), grad: tensor([ 0.0449,  0.1517,  0.0226,  0.0686,  0.1669, -0.1566, -0.2981],
+       device='cuda:0')
+249
+0.007369343312364995
+changing lr
+epoch 24, time 318.36, cls_loss 0.5660 cls_loss_mapping 0.0497 cls_loss_causal 0.4076 re_mapping 0.0331 re_causal 0.0326 /// teacc 97.66 lr 0.00716942
+Epoch 26, weight, value: tensor([[ 0.0390,  0.0500,  0.0481,  ..., -0.0177, -0.0545, -0.0162],
+        [-0.0310, -0.0361, -0.0494,  ..., -0.0789, -0.0788, -0.1006],
+        [ 0.0308,  0.0172,  0.0214,  ...,  0.0310,  0.0257,  0.0210],
+        ...,
+        [-0.0937, -0.0714, -0.0383,  ...,  0.0467,  0.0494,  0.0711],
+        [-0.0359, -0.0752, -0.1121,  ..., -0.1297, -0.0982, -0.0794],
+        [ 0.1388,  0.1579,  0.1505,  ..., -0.0424, -0.0520, -0.0700]],
+       device='cuda:0'), grad: tensor([[-0.0072, -0.0012, -0.0025,  ..., -0.0032, -0.0027, -0.0030],
+        [ 0.0102,  0.0012,  0.0024,  ...,  0.0032,  0.0028,  0.0030],
+        [-0.0402, -0.0045, -0.0065,  ..., -0.0113, -0.0108, -0.0111],
+        ...,
+        [ 0.0099,  0.0013,  0.0021,  ...,  0.0032,  0.0029,  0.0031],
+        [ 0.0030,  0.0003,  0.0005,  ...,  0.0008,  0.0008,  0.0008],
+        [ 0.0056,  0.0008,  0.0009,  ...,  0.0019,  0.0019,  0.0019]],
+       device='cuda:0')
+Epoch 26, bias, value: tensor([-0.0229,  0.0012,  0.1255, -0.1806,  0.0765, -0.0402,  0.0626],
+       device='cuda:0'), grad: tensor([-0.0240,  0.0279, -0.1032,  0.0482,  0.0278,  0.0076,  0.0156],
+       device='cuda:0')
+249
+0.0071694186955877925
+changing lr
+epoch 25, time 319.98, cls_loss 0.5631 cls_loss_mapping 0.0407 cls_loss_causal 0.4281 re_mapping 0.0314 re_causal 0.0320 /// teacc 94.15 lr 0.00696513
+Epoch 27, weight, value: tensor([[ 0.0416,  0.0498,  0.0480,  ..., -0.0240, -0.0582, -0.0212],
+        [-0.0347, -0.0376, -0.0518,  ..., -0.0758, -0.0769, -0.0981],
+        [ 0.0344,  0.0185,  0.0242,  ...,  0.0325,  0.0272,  0.0220],
+        ...,
+        [-0.0983, -0.0760, -0.0423,  ...,  0.0470,  0.0508,  0.0717],
+        [-0.0362, -0.0719, -0.1099,  ..., -0.1310, -0.0997, -0.0811],
+        [ 0.1455,  0.1608,  0.1541,  ..., -0.0447, -0.0551, -0.0712]],
+       device='cuda:0'), grad: tensor([[-0.0060, -0.0023, -0.0014,  ..., -0.0006, -0.0010, -0.0005],
+        [ 0.0061,  0.0016,  0.0020,  ...,  0.0018,  0.0019,  0.0018],
+        [-0.0136, -0.0032, -0.0046,  ..., -0.0045, -0.0047, -0.0047],
+        ...,
+        [ 0.0041,  0.0013,  0.0012,  ...,  0.0007,  0.0009,  0.0006],
+        [ 0.0026,  0.0006,  0.0009,  ...,  0.0009,  0.0009,  0.0009],
+        [ 0.0015,  0.0004,  0.0004,  ...,  0.0004,  0.0004,  0.0004]],
+       device='cuda:0')
+Epoch 27, bias, value: tensor([-0.0325, -0.0037,  0.1352, -0.2010,  0.0619, -0.0504,  0.1125],
+       device='cuda:0'), grad: tensor([-0.0171,  0.0144, -0.0304,  0.0137,  0.0097,  0.0060,  0.0038],
+       device='cuda:0')
+249
+0.0069651251582696205
+changing lr
+epoch 26, time 318.51, cls_loss 0.5038 cls_loss_mapping 0.0477 cls_loss_causal 0.3762 re_mapping 0.0300 re_causal 0.0301 /// teacc 92.98 lr 0.00675687
+Epoch 28, weight, value: tensor([[ 0.0401,  0.0498,  0.0497,  ..., -0.0269, -0.0599, -0.0234],
+        [-0.0337, -0.0340, -0.0493,  ..., -0.0709, -0.0717, -0.0933],
+        [ 0.0272,  0.0177,  0.0223,  ...,  0.0319,  0.0267,  0.0213],
+        ...,
+        [-0.0990, -0.0769, -0.0425,  ...,  0.0401,  0.0431,  0.0633],
+        [-0.0277, -0.0707, -0.1094,  ..., -0.1237, -0.0940, -0.0746],
+        [ 0.1444,  0.1616,  0.1548,  ..., -0.0464, -0.0567, -0.0720]],
+       device='cuda:0'), grad: tensor([[ 4.7040e-04,  2.2721e-04,  2.2519e-04,  ...,  1.0115e-04,
+          8.6546e-05,  8.5235e-05],
+        [-1.3695e-03, -1.2994e-04, -1.6475e-04,  ..., -1.8513e-04,
+         -1.8716e-04, -1.4842e-04],
+        [ 5.8748e-06, -4.8615e-07, -4.3400e-07,  ...,  5.8487e-07,
+          5.0478e-07,  3.5763e-07],
+        ...,
+        [ 7.5221e-05,  9.9093e-06,  1.1228e-05,  ...,  1.2569e-05,
+          1.2152e-05,  1.0803e-05],
+        [ 1.4267e-03,  1.6856e-04,  1.9956e-04,  ...,  2.3019e-04,
+          2.2554e-04,  1.9503e-04],
+        [-5.6696e-04, -2.8038e-04, -2.7084e-04,  ..., -1.2106e-04,
+         -1.0049e-04, -1.0091e-04]], device='cuda:0')
+Epoch 28, bias, value: tensor([-0.0649, -0.0228,  0.0879, -0.1657,  0.0791, -0.0099,  0.1180],
+       device='cuda:0'), grad: tensor([ 7.9155e-04, -4.3602e-03,  2.0638e-05, -1.5616e-04,  2.3150e-04,
+         4.4327e-03, -9.5510e-04], device='cuda:0')
+249
+0.006756874120406716
+changing lr
+epoch 27, time 318.71, cls_loss 0.5703 cls_loss_mapping 0.0440 cls_loss_causal 0.4098 re_mapping 0.0292 re_causal 0.0294 /// teacc 93.57 lr 0.00654508
+Epoch 29, weight, value: tensor([[ 0.0404,  0.0479,  0.0447,  ..., -0.0316, -0.0638, -0.0273],
+        [-0.0332, -0.0329, -0.0472,  ..., -0.0693, -0.0693, -0.0912],
+        [ 0.0286,  0.0149,  0.0209,  ...,  0.0306,  0.0243,  0.0200],
+        ...,
+        [-0.0938, -0.0772, -0.0405,  ...,  0.0484,  0.0509,  0.0712],
+        [-0.0345, -0.0686, -0.1065,  ..., -0.1263, -0.0957, -0.0770],
+        [ 0.1466,  0.1631,  0.1568,  ..., -0.0462, -0.0564, -0.0720]],
+       device='cuda:0'), grad: tensor([[ 1.6342e-02,  3.0632e-03,  2.6398e-03,  ...,  9.5062e-03,
+          9.3918e-03,  9.3689e-03],
+        [ 1.7290e-03,  3.2783e-04,  2.8396e-04,  ...,  9.9850e-04,
+          9.8610e-04,  9.8228e-04],
+        [-2.9892e-02, -5.6114e-03, -4.8370e-03,  ..., -1.7380e-02,
+         -1.7166e-02, -1.7120e-02],
+        ...,
+        [ 5.7030e-03,  1.0719e-03,  9.2411e-04,  ...,  3.3131e-03,
+          3.2730e-03,  3.2635e-03],
+        [ 1.2674e-03,  2.3818e-04,  2.0552e-04,  ...,  7.3433e-04,
+          7.2527e-04,  7.2241e-04],
+        [ 1.6332e-04,  3.0845e-05,  2.6107e-05,  ...,  1.0508e-04,
+          1.0628e-04,  1.0848e-04]], device='cuda:0')
+Epoch 29, bias, value: tensor([-0.0527, -0.0430,  0.1041, -0.1836,  0.0890, -0.0239,  0.1314],
+       device='cuda:0'), grad: tensor([ 0.0775,  0.0081, -0.1417,  0.0222,  0.0270,  0.0060,  0.0009],
+       device='cuda:0')
+249
+0.00654508497187474
+changing lr
+epoch 28, time 320.84, cls_loss 0.5090 cls_loss_mapping 0.0411 cls_loss_causal 0.3809 re_mapping 0.0284 re_causal 0.0291 /// teacc 95.32 lr 0.00633018
+Epoch 30, weight, value: tensor([[ 0.0417,  0.0546,  0.0530,  ..., -0.0310, -0.0617, -0.0260],
+        [-0.0423, -0.0398, -0.0535,  ..., -0.0678, -0.0669, -0.0892],
+        [ 0.0275,  0.0128,  0.0192,  ...,  0.0310,  0.0251,  0.0206],
+        ...,
+        [-0.0899, -0.0763, -0.0411,  ...,  0.0473,  0.0475,  0.0684],
+        [-0.0351, -0.0714, -0.1088,  ..., -0.1292, -0.0986, -0.0796],
+        [ 0.1475,  0.1657,  0.1585,  ..., -0.0454, -0.0559, -0.0711]],
+       device='cuda:0'), grad: tensor([[-7.1106e-03, -1.4029e-03, -1.3189e-03,  ...,  2.8324e-04,
+          4.5085e-04,  1.4913e-04],
+        [-4.9683e-02, -5.4970e-03, -1.0078e-02,  ..., -2.6733e-02,
+         -2.5299e-02, -2.7145e-02],
+        [ 1.2341e-03,  1.9181e-04,  2.3711e-04,  ...,  2.8276e-04,
+          2.5153e-04,  2.9635e-04],
+        ...,
+        [ 1.4191e-02,  2.0332e-03,  2.7657e-03,  ...,  4.5242e-03,
+          4.1771e-03,  4.4975e-03],
+        [ 1.2732e-04,  1.5721e-05,  2.4185e-05,  ...,  4.9770e-05,
+          4.6313e-05,  5.1677e-05],
+        [ 4.3702e-04,  5.6237e-05,  8.7380e-05,  ...,  1.8537e-04,
+          1.7357e-04,  1.8764e-04]], device='cuda:0')
+Epoch 30, bias, value: tensor([-0.0569, -0.0200,  0.0852, -0.1859,  0.0815, -0.0014,  0.1189],
+       device='cuda:0'), grad: tensor([-0.0219, -0.1727,  0.0040,  0.1451,  0.0435,  0.0004,  0.0014],
+       device='cuda:0')
+249
+0.006330184227833378
+changing lr
+epoch 29, time 319.69, cls_loss 0.5395 cls_loss_mapping 0.0424 cls_loss_causal 0.3979 re_mapping 0.0269 re_causal 0.0276 /// teacc 87.72 lr 0.00611260
+Epoch 31, weight, value: tensor([[ 0.0429,  0.0519,  0.0494,  ..., -0.0256, -0.0562, -0.0220],
+        [-0.0386, -0.0369, -0.0495,  ..., -0.0652, -0.0649, -0.0858],
+        [ 0.0253,  0.0112,  0.0193,  ...,  0.0307,  0.0262,  0.0212],
+        ...,
+        [-0.0935, -0.0766, -0.0437,  ...,  0.0414,  0.0397,  0.0622],
+        [-0.0323, -0.0696, -0.1065,  ..., -0.1282, -0.0980, -0.0792],
+        [ 0.1473,  0.1660,  0.1588,  ..., -0.0479, -0.0580, -0.0731]],
+       device='cuda:0'), grad: tensor([[ 2.1317e-02,  3.4637e-03,  4.8332e-03,  ...,  2.7447e-03,
+          2.6855e-03,  3.7594e-03],
+        [-2.5574e-02, -9.2087e-03, -9.7351e-03,  ..., -3.2997e-03,
+         -3.3417e-03, -5.7983e-03],
+        [ 6.0387e-03,  1.5459e-03,  1.7776e-03,  ...,  9.0599e-04,
+          8.6689e-04,  1.2655e-03],
+        ...,
+        [-1.6510e-02, -9.1600e-04, -2.3861e-03,  ..., -1.8902e-03,
+         -1.8501e-03, -2.2945e-03],
+        [ 2.9926e-03,  1.0223e-03,  1.1625e-03,  ...,  5.3525e-05,
+          1.4138e-04,  4.9496e-04],
+        [ 7.6180e-03,  2.7065e-03,  2.8725e-03,  ...,  8.5926e-04,
+          8.9169e-04,  1.6165e-03]], device='cuda:0')
+Epoch 31, bias, value: tensor([-0.0728,  0.0036,  0.0867, -0.1855,  0.0779, -0.0074,  0.1188],
+       device='cuda:0'), grad: tensor([ 0.0867, -0.1530,  0.0284,  0.0227, -0.0510,  0.0209,  0.0453],
+       device='cuda:0')
+249
+0.006112604669781575
+changing lr
+epoch 30, time 321.36, cls_loss 0.5484 cls_loss_mapping 0.0383 cls_loss_causal 0.4156 re_mapping 0.0265 re_causal 0.0278 /// teacc 94.15 lr 0.00589278
+Epoch 32, weight, value: tensor([[ 0.0406,  0.0509,  0.0481,  ..., -0.0307, -0.0613, -0.0254],
+        [-0.0355, -0.0359, -0.0482,  ..., -0.0633, -0.0627, -0.0814],
+        [ 0.0220,  0.0101,  0.0181,  ...,  0.0308,  0.0265,  0.0203],
+        ...,
+        [-0.0975, -0.0755, -0.0437,  ...,  0.0441,  0.0439,  0.0645],
+        [-0.0318, -0.0693, -0.1058,  ..., -0.1292, -0.0991, -0.0804],
+        [ 0.1520,  0.1671,  0.1612,  ..., -0.0467, -0.0577, -0.0723]],
+       device='cuda:0'), grad: tensor([[ 1.8692e-02,  3.5057e-03,  4.3297e-03,  ...,  3.2635e-03,
+          2.0008e-03,  2.9049e-03],
+        [-3.8422e-02, -5.1498e-03, -7.5798e-03,  ..., -6.6795e-03,
+         -4.2763e-03, -6.5308e-03],
+        [ 3.1033e-03,  5.6267e-04,  7.0620e-04,  ...,  5.4312e-04,
+          3.3545e-04,  4.8876e-04],
+        ...,
+        [ 1.1429e-02,  1.8644e-03,  2.4662e-03,  ...,  1.9932e-03,
+          1.2465e-03,  1.8511e-03],
+        [ 2.9297e-03,  6.2752e-04,  7.2861e-04,  ...,  5.1355e-04,
+          3.0851e-04,  4.3464e-04],
+        [-4.8243e-06, -1.8435e-03, -1.1845e-03,  ..., -1.9088e-05,
+          1.5104e-04,  5.0831e-04]], device='cuda:0')
+Epoch 32, bias, value: tensor([-0.0610,  0.0305,  0.0780, -0.1938,  0.0299,  0.0003,  0.1372],
+       device='cuda:0'), grad: tensor([ 0.0575, -0.1302,  0.0097,  0.0069,  0.0368,  0.0086,  0.0108],
+       device='cuda:0')
+249
+0.005892784473993186
+changing lr
+epoch 31, time 323.65, cls_loss 0.5037 cls_loss_mapping 0.0346 cls_loss_causal 0.3681 re_mapping 0.0257 re_causal 0.0277 /// teacc 95.91 lr 0.00567117
+Epoch 33, weight, value: tensor([[ 0.0410,  0.0509,  0.0471,  ..., -0.0284, -0.0598, -0.0231],
+        [-0.0281, -0.0322, -0.0440,  ..., -0.0618, -0.0604, -0.0795],
+        [ 0.0237,  0.0092,  0.0187,  ...,  0.0313,  0.0270,  0.0206],
+        ...,
+        [-0.1054, -0.0793, -0.0484,  ...,  0.0422,  0.0418,  0.0632],
+        [-0.0325, -0.0696, -0.1052,  ..., -0.1272, -0.0976, -0.0795],
+        [ 0.1542,  0.1674,  0.1605,  ..., -0.0478, -0.0588, -0.0730]],
+       device='cuda:0'), grad: tensor([[ 1.2672e-04,  1.6704e-05,  3.0026e-05,  ...,  2.2411e-05,
+          2.0951e-05,  2.3022e-05],
+        [-5.8270e-04, -5.0962e-05, -1.1045e-04,  ..., -5.3734e-05,
+         -4.5806e-05, -5.7429e-05],
+        [ 6.1452e-05, -9.9614e-06, -5.0850e-06,  ..., -2.3752e-05,
+         -2.5526e-05, -2.3320e-05],
+        ...,
+        [ 3.0947e-04,  3.1352e-05,  6.3241e-05,  ...,  3.6687e-05,
+          3.2693e-05,  3.8534e-05],
+        [ 2.4751e-05,  4.1984e-06,  6.8136e-06,  ...,  6.0797e-06,
+          5.7966e-06,  6.0573e-06],
+        [ 3.3587e-05,  3.7588e-06,  7.5735e-06,  ...,  4.9211e-06,
+          4.7162e-06,  5.6177e-06]], device='cuda:0')
+Epoch 33, bias, value: tensor([-0.0600,  0.0293,  0.0975, -0.2112,  0.0198, -0.0139,  0.1593],
+       device='cuda:0'), grad: tensor([ 4.2653e-04, -2.0905e-03,  2.9612e-04,  8.0645e-05,  1.0891e-03,
+         7.7963e-05,  1.1909e-04], device='cuda:0')
+249
+0.00567116632908828
+changing lr
+epoch 32, time 320.88, cls_loss 0.4969 cls_loss_mapping 0.0342 cls_loss_causal 0.3852 re_mapping 0.0244 re_causal 0.0259 /// teacc 91.23 lr 0.00544820
+Epoch 34, weight, value: tensor([[ 0.0386,  0.0465,  0.0437,  ..., -0.0260, -0.0568, -0.0206],
+        [-0.0312, -0.0318, -0.0444,  ..., -0.0636, -0.0618, -0.0816],
+        [ 0.0207,  0.0070,  0.0166,  ...,  0.0278,  0.0251,  0.0177],
+        ...,
+        [-0.0998, -0.0758, -0.0447,  ...,  0.0418,  0.0393,  0.0621],
+        [-0.0286, -0.0687, -0.1043,  ..., -0.1272, -0.0985, -0.0793],
+        [ 0.1520,  0.1692,  0.1625,  ..., -0.0456, -0.0563, -0.0706]],
+       device='cuda:0'), grad: tensor([[-0.0754, -0.0179, -0.0205,  ..., -0.0270, -0.0242, -0.0250],
+        [ 0.0402,  0.0097,  0.0110,  ...,  0.0142,  0.0129,  0.0133],
+        [ 0.0206,  0.0044,  0.0050,  ...,  0.0086,  0.0072,  0.0077],
+        ...,
+        [ 0.0051,  0.0011,  0.0013,  ...,  0.0020,  0.0018,  0.0019],
+        [ 0.0042,  0.0011,  0.0012,  ...,  0.0015,  0.0013,  0.0014],
+        [ 0.0011,  0.0003,  0.0003,  ...,  0.0004,  0.0004,  0.0004]],
+       device='cuda:0')
+Epoch 34, bias, value: tensor([-0.0473,  0.0167,  0.0855, -0.2190,  0.0410,  0.0327,  0.1112],
+       device='cuda:0'), grad: tensor([-0.2241,  0.1162,  0.0657,  0.0124,  0.0155,  0.0114,  0.0029],
+       device='cuda:0')
+249
+0.00544819654451717
+changing lr
+epoch 33, time 320.16, cls_loss 0.5048 cls_loss_mapping 0.0271 cls_loss_causal 0.3870 re_mapping 0.0243 re_causal 0.0268 /// teacc 97.66 lr 0.00522432
+Epoch 35, weight, value: tensor([[ 0.0338,  0.0444,  0.0411,  ..., -0.0271, -0.0569, -0.0205],
+        [-0.0290, -0.0284, -0.0404,  ..., -0.0671, -0.0652, -0.0846],
+        [ 0.0212,  0.0052,  0.0146,  ...,  0.0286,  0.0252,  0.0182],
+        ...,
+        [-0.0985, -0.0757, -0.0438,  ...,  0.0414,  0.0388,  0.0620],
+        [-0.0272, -0.0648, -0.1009,  ..., -0.1245, -0.0960, -0.0764],
+        [ 0.1528,  0.1672,  0.1607,  ..., -0.0445, -0.0552, -0.0706]],
+       device='cuda:0'), grad: tensor([[ 5.5313e-03,  1.0910e-03,  1.4982e-03,  ...,  7.7820e-04,
+          5.0306e-04,  5.6553e-04],
+        [ 4.6082e-03,  8.4066e-04,  1.2236e-03,  ...,  2.2948e-04,
+         -3.1173e-05,  4.5449e-05],
+        [ 6.7101e-03,  1.2407e-03,  1.7691e-03,  ...,  6.6710e-04,
+          3.0375e-04,  4.1008e-04],
+        ...,
+        [ 9.7961e-03,  1.8358e-03,  2.6112e-03,  ...,  1.1492e-03,
+          6.6280e-04,  7.5960e-04],
+        [-4.4067e-02, -8.1940e-03, -1.1658e-02,  ..., -4.4174e-03,
+         -2.0542e-03, -2.7199e-03],
+        [ 1.3062e-02,  2.3746e-03,  3.4084e-03,  ...,  1.1692e-03,
+          4.3106e-04,  6.7949e-04]], device='cuda:0')
+Epoch 35, bias, value: tensor([-0.0713,  0.0296,  0.0943, -0.2208,  0.0615,  0.0161,  0.1112],
+       device='cuda:0'), grad: tensor([ 0.0182,  0.0168,  0.0233,  0.0153,  0.0328, -0.1526,  0.0463],
+       device='cuda:0')
+249
+0.005224324151752577
+changing lr
+epoch 34, time 321.29, cls_loss 0.4772 cls_loss_mapping 0.0295 cls_loss_causal 0.3639 re_mapping 0.0233 re_causal 0.0254 /// teacc 94.15 lr 0.00500000
+Epoch 36, weight, value: tensor([[ 0.0384,  0.0488,  0.0441,  ..., -0.0287, -0.0583, -0.0232],
+        [-0.0287, -0.0284, -0.0390,  ..., -0.0642, -0.0643, -0.0816],
+        [ 0.0233,  0.0066,  0.0163,  ...,  0.0272,  0.0241,  0.0167],
+        ...,
+        [-0.1018, -0.0766, -0.0443,  ...,  0.0386,  0.0382,  0.0611],
+        [-0.0313, -0.0667, -0.1028,  ..., -0.1270, -0.0983, -0.0789],
+        [ 0.1496,  0.1643,  0.1562,  ..., -0.0435, -0.0541, -0.0700]],
+       device='cuda:0'), grad: tensor([[ 7.3509e-03,  1.0691e-03,  8.8692e-04,  ...,  6.4373e-04,
+          3.0422e-04,  5.9080e-04],
+        [ 1.3485e-03,  2.6226e-04,  2.6178e-04,  ...,  1.7524e-04,
+          1.2338e-04,  1.6940e-04],
+        [ 7.0906e-04,  1.7130e-04,  1.8787e-04,  ...,  1.1200e-04,
+          9.6679e-05,  1.1522e-04],
+        ...,
+        [-1.0170e-02, -1.6937e-03, -1.5497e-03,  ..., -1.0729e-03,
+         -6.4087e-04, -1.0147e-03],
+        [ 7.0989e-05,  1.7524e-05,  1.9357e-05,  ...,  1.2837e-05,
+          1.0453e-05,  1.2562e-05],
+        [ 2.0361e-04,  6.1035e-05,  7.1645e-05,  ...,  4.4584e-05,
+          4.0323e-05,  4.5061e-05]], device='cuda:0')
+Epoch 36, bias, value: tensor([-0.0715,  0.0249,  0.1042, -0.2013,  0.0419,  0.0103,  0.1119],
+       device='cuda:0'), grad: tensor([ 0.0308,  0.0048,  0.0020,  0.0015, -0.0399,  0.0002,  0.0005],
+       device='cuda:0')
+249
+0.005000000000000003
+changing lr
+epoch 35, time 321.27, cls_loss 0.4713 cls_loss_mapping 0.0332 cls_loss_causal 0.3882 re_mapping 0.0230 re_causal 0.0252 /// teacc 90.64 lr 0.00477568
+Epoch 37, weight, value: tensor([[ 0.0370,  0.0446,  0.0392,  ..., -0.0271, -0.0564, -0.0209],
+        [-0.0250, -0.0232, -0.0327,  ..., -0.0659, -0.0659, -0.0824],
+        [ 0.0225,  0.0057,  0.0147,  ...,  0.0261,  0.0228,  0.0157],
+        ...,
+        [-0.1037, -0.0789, -0.0460,  ...,  0.0377,  0.0373,  0.0602],
+        [-0.0289, -0.0670, -0.1022,  ..., -0.1292, -0.0997, -0.0808],
+        [ 0.1507,  0.1662,  0.1580,  ..., -0.0391, -0.0503, -0.0665]],
+       device='cuda:0'), grad: tensor([[-1.5289e-02, -1.1873e-03, -3.1834e-03,  ..., -2.3689e-03,
+         -2.4681e-03, -2.5597e-03],
+        [ 2.2202e-03,  1.6570e-04,  5.0831e-04,  ...,  3.8099e-04,
+          4.5371e-04,  4.9067e-04],
+        [ 4.4174e-03,  3.5191e-04,  8.9836e-04,  ...,  7.9012e-04,
+          7.8964e-04,  8.1539e-04],
+        ...,
+        [ 7.8430e-03,  6.2418e-04,  1.6050e-03,  ...,  1.3123e-03,
+          1.3266e-03,  1.3609e-03],
+        [ 3.7670e-04,  2.5868e-05,  7.2300e-05,  ...,  6.0558e-05,
+          6.0380e-05,  6.1154e-05],
+        [ 6.6185e-04,  5.4836e-05,  1.2755e-04,  ...,  1.3351e-04,
+          1.2469e-04,  1.2565e-04]], device='cuda:0')
+Epoch 37, bias, value: tensor([-0.0421,  0.0396,  0.1028, -0.2055,  0.0248, -0.0014,  0.1020],
+       device='cuda:0'), grad: tensor([-0.0593,  0.0094,  0.0168, -0.0005,  0.0298,  0.0014,  0.0024],
+       device='cuda:0')
+249
+0.004775675848247429
+changing lr
+epoch 36, time 319.84, cls_loss 0.4394 cls_loss_mapping 0.0270 cls_loss_causal 0.3400 re_mapping 0.0224 re_causal 0.0248 /// teacc 98.25 lr 0.00455180
+Epoch 38, weight, value: tensor([[ 0.0343,  0.0425,  0.0369,  ..., -0.0304, -0.0610, -0.0248],
+        [-0.0227, -0.0230, -0.0318,  ..., -0.0644, -0.0646, -0.0799],
+        [ 0.0226,  0.0052,  0.0151,  ...,  0.0245,  0.0218,  0.0148],
+        ...,
+        [-0.0995, -0.0766, -0.0450,  ...,  0.0408,  0.0406,  0.0626],
+        [-0.0288, -0.0658, -0.1013,  ..., -0.1275, -0.0984, -0.0800],
+        [ 0.1437,  0.1632,  0.1544,  ..., -0.0425, -0.0528, -0.0694]],
+       device='cuda:0'), grad: tensor([[-4.9210e-03, -1.6890e-03, -1.8549e-03,  ..., -8.7786e-04,
+         -7.5340e-04, -8.8215e-04],
+        [ 2.2469e-03,  8.8024e-04,  8.8787e-04,  ...,  2.8586e-04,
+          2.0397e-04,  2.6751e-04],
+        [ 1.1644e-03,  3.5119e-04,  4.2009e-04,  ...,  2.6035e-04,
+          2.4176e-04,  2.6989e-04],
+        ...,
+        [ 1.1568e-03,  3.4618e-04,  4.1604e-04,  ...,  2.6870e-04,
+          2.5058e-04,  2.7776e-04],
+        [ 8.2925e-06,  9.2853e-07,  1.4156e-07,  ...,  2.2426e-06,
+         -5.1921e-07,  1.8887e-06],
+        [ 1.0926e-04,  3.8773e-05,  4.4733e-05,  ...,  1.7524e-05,
+          1.5825e-05,  1.9088e-05]], device='cuda:0')
+Epoch 38, bias, value: tensor([-0.0444,  0.0558,  0.1049, -0.1995,  0.0174, -0.0058,  0.0919],
+       device='cuda:0'), grad: tensor([-1.1368e-02,  4.5395e-03,  2.9755e-03,  5.9319e-04,  2.9716e-03,
+         2.5123e-05,  2.6655e-04], device='cuda:0')
+249
+0.004551803455482836
+changing lr
+epoch 37, time 318.53, cls_loss 0.4395 cls_loss_mapping 0.0239 cls_loss_causal 0.3595 re_mapping 0.0216 re_causal 0.0242 /// teacc 97.08 lr 0.00432883
+Epoch 39, weight, value: tensor([[ 0.0373,  0.0410,  0.0365,  ..., -0.0295, -0.0603, -0.0241],
+        [-0.0216, -0.0205, -0.0299,  ..., -0.0616, -0.0612, -0.0771],
+        [ 0.0180,  0.0040,  0.0145,  ...,  0.0210,  0.0187,  0.0122],
+        ...,
+        [-0.1056, -0.0774, -0.0459,  ...,  0.0392,  0.0380,  0.0607],
+        [-0.0292, -0.0666, -0.1022,  ..., -0.1287, -0.0996, -0.0808],
+        [ 0.1478,  0.1634,  0.1544,  ..., -0.0404, -0.0510, -0.0674]],
+       device='cuda:0'), grad: tensor([[ 0.0066,  0.0016,  0.0015,  ...,  0.0020,  0.0017,  0.0019],
+        [ 0.0012,  0.0005,  0.0004,  ...,  0.0008,  0.0007,  0.0008],
+        [-0.0064, -0.0008, -0.0013,  ..., -0.0009, -0.0010, -0.0009],
+        ...,
+        [ 0.0076,  0.0016,  0.0018,  ...,  0.0019,  0.0017,  0.0018],
+        [ 0.0008,  0.0002,  0.0002,  ...,  0.0002,  0.0002,  0.0002],
+        [-0.0194, -0.0061, -0.0053,  ..., -0.0078, -0.0064, -0.0076]],
+       device='cuda:0')
+Epoch 39, bias, value: tensor([-0.0455,  0.0629,  0.0960, -0.2070,  0.0054, -0.0017,  0.1100],
+       device='cuda:0'), grad: tensor([ 0.0209,  0.0032, -0.0169,  0.0305,  0.0223,  0.0026, -0.0625],
+       device='cuda:0')
+249
+0.004328833670911726
+changing lr
+epoch 38, time 320.14, cls_loss 0.4394 cls_loss_mapping 0.0251 cls_loss_causal 0.3581 re_mapping 0.0214 re_causal 0.0241 /// teacc 92.98 lr 0.00410722
+Epoch 40, weight, value: tensor([[ 0.0360,  0.0399,  0.0358,  ..., -0.0317, -0.0624, -0.0259],
+        [-0.0247, -0.0216, -0.0305,  ..., -0.0630, -0.0629, -0.0783],
+        [ 0.0247,  0.0052,  0.0164,  ...,  0.0223,  0.0199,  0.0140],
+        ...,
+        [-0.1091, -0.0790, -0.0473,  ...,  0.0376,  0.0367,  0.0584],
+        [-0.0274, -0.0649, -0.1007,  ..., -0.1258, -0.0961, -0.0779],
+        [ 0.1490,  0.1644,  0.1546,  ..., -0.0391, -0.0498, -0.0660]],
+       device='cuda:0'), grad: tensor([[ 7.6714e-03,  8.7309e-04,  9.4748e-04,  ...,  4.3702e-04,
+          2.1195e-04,  3.6788e-04],
+        [ 8.7585e-03,  3.8204e-03,  5.4779e-03,  ...,  3.7956e-03,
+          2.8839e-03,  2.8610e-03],
+        [ 5.3711e-03,  5.5265e-04,  5.7125e-04,  ...,  2.2483e-04,
+          8.3447e-05,  1.9693e-04],
+        ...,
+        [ 1.5488e-03,  1.7059e-04,  1.8227e-04,  ...,  7.7367e-05,
+          3.4362e-05,  6.6280e-05],
+        [-5.1331e-02, -8.2169e-03, -1.0033e-02,  ..., -5.6305e-03,
+         -3.5896e-03, -4.4632e-03],
+        [ 2.5543e-02,  2.5558e-03,  2.6054e-03,  ...,  1.0023e-03,
+          3.4499e-04,  8.8882e-04]], device='cuda:0')
+Epoch 40, bias, value: tensor([-0.0416,  0.0573,  0.1232, -0.2101, -0.0052, -0.0095,  0.1059],
+       device='cuda:0'), grad: tensor([ 0.0275, -0.0018,  0.0200,  0.0092,  0.0056, -0.1561,  0.0957],
+       device='cuda:0')
+249
+0.0041072155260068206
+changing lr
+epoch 39, time 320.34, cls_loss 0.4342 cls_loss_mapping 0.0269 cls_loss_causal 0.3574 re_mapping 0.0199 re_causal 0.0222 /// teacc 97.08 lr 0.00388740
+Epoch 41, weight, value: tensor([[ 0.0327,  0.0406,  0.0348,  ..., -0.0315, -0.0623, -0.0263],
+        [-0.0262, -0.0227, -0.0313,  ..., -0.0609, -0.0605, -0.0758],
+        [ 0.0238,  0.0067,  0.0175,  ...,  0.0228,  0.0215,  0.0151],
+        ...,
+        [-0.1026, -0.0804, -0.0480,  ...,  0.0376,  0.0365,  0.0579],
+        [-0.0260, -0.0638, -0.0989,  ..., -0.1257, -0.0961, -0.0779],
+        [ 0.1466,  0.1629,  0.1534,  ..., -0.0399, -0.0509, -0.0665]],
+       device='cuda:0'), grad: tensor([[ 7.7307e-05,  1.1437e-05,  1.8805e-05,  ...,  2.6911e-05,
+          2.2918e-05,  2.5690e-05],
+        [ 6.6042e-05,  9.1121e-06,  1.5162e-05,  ...,  2.6196e-05,
+          2.1785e-05,  2.5108e-05],
+        [ 3.5095e-04,  4.3541e-05,  7.5400e-05,  ...,  1.5497e-04,
+          1.2457e-04,  1.5008e-04],
+        ...,
+        [ 3.5214e-04,  4.1664e-05,  7.2718e-05,  ...,  1.6713e-04,
+          1.3280e-04,  1.6201e-04],
+        [-1.8454e-03, -2.2960e-04, -3.9697e-04,  ..., -8.1491e-04,
+         -6.5470e-04, -7.8917e-04],
+        [ 2.4006e-05,  2.4829e-06,  4.8801e-06,  ...,  1.1832e-05,
+          9.1493e-06,  1.1742e-05]], device='cuda:0')
+Epoch 41, bias, value: tensor([-0.0548,  0.0511,  0.1030, -0.2097,  0.0218, -0.0053,  0.1137],
+       device='cuda:0'), grad: tensor([ 0.0003,  0.0003,  0.0015,  0.0040,  0.0015, -0.0076,  0.0001],
+       device='cuda:0')
+249
+0.0038873953302184317
+changing lr
+epoch 40, time 322.99, cls_loss 0.4559 cls_loss_mapping 0.0271 cls_loss_causal 0.3611 re_mapping 0.0205 re_causal 0.0232 /// teacc 97.66 lr 0.00366982
+Epoch 42, weight, value: tensor([[ 0.0264,  0.0372,  0.0314,  ..., -0.0309, -0.0612, -0.0249],
+        [-0.0240, -0.0210, -0.0294,  ..., -0.0617, -0.0616, -0.0763],
+        [ 0.0288,  0.0068,  0.0183,  ...,  0.0194,  0.0186,  0.0112],
+        ...,
+        [-0.1065, -0.0799, -0.0487,  ...,  0.0405,  0.0393,  0.0599],
+        [-0.0227, -0.0628, -0.0973,  ..., -0.1270, -0.0981, -0.0794],
+        [ 0.1426,  0.1613,  0.1517,  ..., -0.0400, -0.0512, -0.0662]],
+       device='cuda:0'), grad: tensor([[-0.0370, -0.0006, -0.0033,  ..., -0.0040, -0.0021, -0.0034],
+        [ 0.0076,  0.0005,  0.0006,  ...,  0.0008,  0.0004,  0.0008],
+        [ 0.0125,  0.0007,  0.0010,  ...,  0.0013,  0.0006,  0.0013],
+        ...,
+        [ 0.0087,  0.0006,  0.0007,  ...,  0.0009,  0.0005,  0.0009],
+        [ 0.0095,  0.0006,  0.0008,  ...,  0.0010,  0.0005,  0.0010],
+        [-0.0091, -0.0023, -0.0003,  ..., -0.0008, -0.0002, -0.0014]],
+       device='cuda:0')
+Epoch 42, bias, value: tensor([-0.0555,  0.0720,  0.1045, -0.1994, -0.0096,  0.0006,  0.1071],
+       device='cuda:0'), grad: tensor([-0.1444,  0.0359,  0.0584,  0.0355,  0.0403,  0.0448, -0.0705],
+       device='cuda:0')
+249
+0.003669815772166629
+changing lr
+epoch 41, time 317.16, cls_loss 0.4281 cls_loss_mapping 0.0178 cls_loss_causal 0.3491 re_mapping 0.0203 re_causal 0.0233 /// teacc 95.32 lr 0.00345492
+Epoch 43, weight, value: tensor([[ 0.0344,  0.0396,  0.0348,  ..., -0.0283, -0.0594, -0.0236],
+        [-0.0234, -0.0224, -0.0304,  ..., -0.0615, -0.0620, -0.0759],
+        [ 0.0218,  0.0057,  0.0169,  ...,  0.0197,  0.0191,  0.0120],
+        ...,
+        [-0.1079, -0.0796, -0.0501,  ...,  0.0408,  0.0398,  0.0606],
+        [-0.0208, -0.0612, -0.0952,  ..., -0.1253, -0.0958, -0.0784],
+        [ 0.1382,  0.1569,  0.1467,  ..., -0.0419, -0.0527, -0.0674]],
+       device='cuda:0'), grad: tensor([[ 0.0594,  0.0176,  0.0215,  ...,  0.0300,  0.0274,  0.0277],
+        [ 0.0029,  0.0010,  0.0012,  ...,  0.0014,  0.0013,  0.0014],
+        [ 0.0459,  0.0178,  0.0207,  ...,  0.0223,  0.0211,  0.0221],
+        ...,
+        [-0.0659, -0.0224, -0.0269,  ..., -0.0289, -0.0270, -0.0280],
+        [ 0.0011,  0.0004,  0.0004,  ...,  0.0005,  0.0005,  0.0005],
+        [ 0.0007,  0.0003,  0.0003,  ...,  0.0003,  0.0003,  0.0003]],
+       device='cuda:0')
+Epoch 43, bias, value: tensor([-0.0467,  0.0790,  0.0817, -0.1913, -0.0042, -0.0146,  0.1157],
+       device='cuda:0'), grad: tensor([ 0.1854,  0.0092,  0.1506, -0.1334, -0.2175,  0.0035,  0.0023],
+       device='cuda:0')
+249
+0.0034549150281252667
+changing lr
+epoch 42, time 321.58, cls_loss 0.4290 cls_loss_mapping 0.0198 cls_loss_causal 0.3491 re_mapping 0.0192 re_causal 0.0221 /// teacc 98.25 lr 0.00324313
+Epoch 44, weight, value: tensor([[ 0.0335,  0.0405,  0.0359,  ..., -0.0281, -0.0596, -0.0233],
+        [-0.0238, -0.0221, -0.0297,  ..., -0.0582, -0.0583, -0.0734],
+        [ 0.0191,  0.0034,  0.0143,  ...,  0.0197,  0.0188,  0.0118],
+        ...,
+        [-0.1052, -0.0775, -0.0483,  ...,  0.0371,  0.0361,  0.0580],
+        [-0.0229, -0.0627, -0.0964,  ..., -0.1254, -0.0959, -0.0786],
+        [ 0.1407,  0.1568,  0.1467,  ..., -0.0419, -0.0526, -0.0674]],
+       device='cuda:0'), grad: tensor([[ 0.0034,  0.0005,  0.0007,  ...,  0.0017,  0.0012,  0.0017],
+        [ 0.0237,  0.0063,  0.0085,  ...,  0.0105,  0.0089,  0.0100],
+        [-0.0154, -0.0056, -0.0076,  ..., -0.0065, -0.0065, -0.0061],
+        ...,
+        [ 0.0060,  0.0009,  0.0011,  ...,  0.0027,  0.0017,  0.0026],
+        [-0.0127, -0.0008, -0.0011,  ..., -0.0062, -0.0030, -0.0057],
+        [ 0.0019,  0.0004,  0.0005,  ...,  0.0009,  0.0007,  0.0009]],
+       device='cuda:0')
+Epoch 44, bias, value: tensor([-0.0381,  0.0627,  0.0810, -0.1946,  0.0095, -0.0246,  0.1236],
+       device='cuda:0'), grad: tensor([ 0.0123,  0.0701, -0.0383, -0.0260,  0.0200, -0.0448,  0.0066],
+       device='cuda:0')
+249
+0.0032431258795932905
+changing lr
+epoch 43, time 321.61, cls_loss 0.4447 cls_loss_mapping 0.0199 cls_loss_causal 0.3705 re_mapping 0.0189 re_causal 0.0220 /// teacc 95.91 lr 0.00303487
+Epoch 45, weight, value: tensor([[ 0.0328,  0.0396,  0.0344,  ..., -0.0319, -0.0632, -0.0265],
+        [-0.0232, -0.0219, -0.0297,  ..., -0.0583, -0.0584, -0.0738],
+        [ 0.0193,  0.0031,  0.0143,  ...,  0.0228,  0.0220,  0.0148],
+        ...,
+        [-0.1031, -0.0762, -0.0462,  ...,  0.0367,  0.0352,  0.0572],
+        [-0.0221, -0.0616, -0.0952,  ..., -0.1253, -0.0953, -0.0788],
+        [ 0.1387,  0.1554,  0.1456,  ..., -0.0414, -0.0521, -0.0666]],
+       device='cuda:0'), grad: tensor([[ 2.2182e-03,  2.7919e-04,  4.6444e-04,  ...,  6.3133e-04,
+          5.6553e-04,  6.2990e-04],
+        [ 1.1528e-02,  1.6956e-03,  2.8381e-03,  ...,  2.2011e-03,
+          1.8244e-03,  2.2163e-03],
+        [ 1.2077e-02,  1.2560e-03,  2.1763e-03,  ...,  4.1618e-03,
+          3.8376e-03,  4.1847e-03],
+        ...,
+        [ 3.6888e-03,  5.3787e-04,  8.9788e-04,  ...,  7.3004e-04,
+          6.1035e-04,  7.3433e-04],
+        [-2.2659e-02, -3.6335e-03, -6.0387e-03,  ..., -3.2234e-03,
+         -2.4433e-03, -3.2539e-03],
+        [ 6.7472e-04,  7.2896e-05,  1.4317e-04,  ...,  1.5271e-04,
+          1.3351e-04,  1.6201e-04]], device='cuda:0')
+Epoch 45, bias, value: tensor([-0.0213,  0.0712,  0.0747, -0.2012,  0.0105, -0.0314,  0.1169],
+       device='cuda:0'), grad: tensor([ 0.0099,  0.0513,  0.0549, -0.0355,  0.0164, -0.1002,  0.0032],
+       device='cuda:0')
+249
+0.0030348748417303863
+changing lr
+epoch 44, time 323.57, cls_loss 0.3726 cls_loss_mapping 0.0154 cls_loss_causal 0.3152 re_mapping 0.0184 re_causal 0.0217 /// teacc 97.66 lr 0.00283058
+Epoch 46, weight, value: tensor([[ 0.0342,  0.0403,  0.0359,  ..., -0.0309, -0.0615, -0.0252],
+        [-0.0262, -0.0233, -0.0316,  ..., -0.0590, -0.0594, -0.0744],
+        [ 0.0229,  0.0051,  0.0163,  ...,  0.0235,  0.0230,  0.0155],
+        ...,
+        [-0.1033, -0.0768, -0.0465,  ...,  0.0357,  0.0333,  0.0562],
+        [-0.0196, -0.0609, -0.0944,  ..., -0.1247, -0.0948, -0.0784],
+        [ 0.1379,  0.1553,  0.1453,  ..., -0.0410, -0.0521, -0.0664]],
+       device='cuda:0'), grad: tensor([[ 1.0338e-02,  1.7300e-03,  2.0580e-03,  ...,  4.6005e-03,
+          3.3722e-03,  3.2349e-03],
+        [ 4.6997e-03,  7.8297e-04,  9.3222e-04,  ...,  2.1095e-03,
+          1.5430e-03,  1.4830e-03],
+        [ 2.4048e-02,  4.0207e-03,  4.7874e-03,  ...,  1.0719e-02,
+          7.8506e-03,  7.5378e-03],
+        ...,
+        [-4.0314e-02, -6.7406e-03, -8.0261e-03,  ..., -1.7975e-02,
+         -1.3161e-02, -1.2634e-02],
+        [ 5.6458e-04,  9.5367e-05,  1.1337e-04,  ...,  2.5272e-04,
+          1.8620e-04,  1.7774e-04],
+        [ 3.9160e-05,  3.6899e-06,  4.7497e-06,  ...,  7.3127e-06,
+          2.4587e-06,  4.2133e-06]], device='cuda:0')
+Epoch 46, bias, value: tensor([-0.0215,  0.0636,  0.0788, -0.2010,  0.0095, -0.0144,  0.1044],
+       device='cuda:0'), grad: tensor([ 0.0284,  0.0129,  0.0662,  0.0017, -0.1109,  0.0015,  0.0001],
+       device='cuda:0')
+249
+0.0028305813044122124
+changing lr
+epoch 45, time 323.84, cls_loss 0.4133 cls_loss_mapping 0.0200 cls_loss_causal 0.3447 re_mapping 0.0180 re_causal 0.0207 /// teacc 94.74 lr 0.00263066
+Epoch 47, weight, value: tensor([[ 0.0360,  0.0407,  0.0364,  ..., -0.0313, -0.0612, -0.0254],
+        [-0.0301, -0.0245, -0.0329,  ..., -0.0599, -0.0602, -0.0753],
+        [ 0.0230,  0.0056,  0.0162,  ...,  0.0240,  0.0232,  0.0159],
+        ...,
+        [-0.1029, -0.0785, -0.0479,  ...,  0.0369,  0.0348,  0.0576],
+        [-0.0197, -0.0603, -0.0940,  ..., -0.1239, -0.0945, -0.0775],
+        [ 0.1388,  0.1560,  0.1466,  ..., -0.0419, -0.0530, -0.0672]],
+       device='cuda:0'), grad: tensor([[ 4.3884e-02,  4.7722e-03,  7.6294e-03,  ...,  1.0559e-02,
+          8.7814e-03,  7.8430e-03],
+        [ 5.9471e-03,  1.1406e-03,  1.3409e-03,  ...,  5.7507e-04,
+          3.5882e-04,  5.1403e-04],
+        [-2.3941e-02, -4.5929e-03, -5.3253e-03,  ..., -1.6384e-03,
+         -7.2908e-04, -1.4982e-03],
+        ...,
+        [-3.3691e-02, -2.8038e-03, -5.3749e-03,  ..., -1.0078e-02,
+         -8.7051e-03, -7.3929e-03],
+        [ 3.1528e-03,  5.9319e-04,  6.9427e-04,  ...,  2.2626e-04,
+          1.0628e-04,  2.0611e-04],
+        [ 2.6093e-03,  5.0020e-04,  5.8222e-04,  ...,  1.9467e-04,
+          9.6500e-05,  1.7691e-04]], device='cuda:0')
+Epoch 47, bias, value: tensor([-0.0170,  0.0550,  0.0779, -0.1971,  0.0128, -0.0128,  0.1004],
+       device='cuda:0'), grad: tensor([ 0.1832,  0.0288, -0.1226,  0.0100, -0.1290,  0.0161,  0.0132],
+       device='cuda:0')
+249
+0.0026306566876350096
+changing lr
+epoch 46, time 321.90, cls_loss 0.4155 cls_loss_mapping 0.0176 cls_loss_causal 0.3499 re_mapping 0.0175 re_causal 0.0205 /// teacc 94.74 lr 0.00243550
+Epoch 48, weight, value: tensor([[ 0.0368,  0.0410,  0.0366,  ..., -0.0310, -0.0614, -0.0252],
+        [-0.0327, -0.0261, -0.0341,  ..., -0.0623, -0.0625, -0.0774],
+        [ 0.0228,  0.0064,  0.0170,  ...,  0.0225,  0.0218,  0.0145],
+        ...,
+        [-0.1017, -0.0773, -0.0467,  ...,  0.0389,  0.0368,  0.0595],
+        [-0.0207, -0.0610, -0.0950,  ..., -0.1238, -0.0943, -0.0773],
+        [ 0.1404,  0.1557,  0.1464,  ..., -0.0409, -0.0522, -0.0667]],
+       device='cuda:0'), grad: tensor([[ 0.0069,  0.0003,  0.0004,  ...,  0.0009,  0.0008,  0.0009],
+        [-0.0426, -0.0022, -0.0026,  ..., -0.0058, -0.0049, -0.0056],
+        [ 0.0053,  0.0003,  0.0003,  ...,  0.0007,  0.0006,  0.0007],
+        ...,
+        [ 0.0049,  0.0003,  0.0003,  ...,  0.0007,  0.0006,  0.0006],
+        [ 0.0086,  0.0004,  0.0005,  ...,  0.0012,  0.0010,  0.0011],
+        [ 0.0114,  0.0006,  0.0007,  ...,  0.0015,  0.0013,  0.0015]],
+       device='cuda:0')
+Epoch 48, bias, value: tensor([-0.0146,  0.0523,  0.0692, -0.2021,  0.0205, -0.0076,  0.1015],
+       device='cuda:0'), grad: tensor([ 0.0255, -0.1577,  0.0198,  0.0206,  0.0181,  0.0316,  0.0420],
+       device='cuda:0')
+249
+0.0024355036129704724
+changing lr
+epoch 47, time 321.91, cls_loss 0.4107 cls_loss_mapping 0.0214 cls_loss_causal 0.3405 re_mapping 0.0167 re_causal 0.0192 /// teacc 97.66 lr 0.00224552
+Epoch 49, weight, value: tensor([[ 0.0359,  0.0421,  0.0370,  ..., -0.0307, -0.0605, -0.0247],
+        [-0.0296, -0.0259, -0.0337,  ..., -0.0620, -0.0620, -0.0770],
+        [ 0.0218,  0.0052,  0.0163,  ...,  0.0220,  0.0215,  0.0143],
+        ...,
+        [-0.1005, -0.0769, -0.0465,  ...,  0.0392,  0.0369,  0.0594],
+        [-0.0214, -0.0612, -0.0951,  ..., -0.1235, -0.0939, -0.0774],
+        [ 0.1386,  0.1555,  0.1465,  ..., -0.0408, -0.0525, -0.0664]],
+       device='cuda:0'), grad: tensor([[-3.4882e-02, -2.0962e-03, -5.6953e-03,  ..., -7.9956e-03,
+         -7.0839e-03, -5.8212e-03],
+        [ 8.9312e-04, -9.0599e-05,  1.0777e-03,  ..., -1.1206e-03,
+         -6.5660e-04, -1.7738e-03],
+        [ 9.9468e-04, -2.5415e-04, -4.2963e-04,  ...,  3.2425e-04,
+          4.1294e-04,  2.7084e-04],
+        ...,
+        [ 3.0212e-02,  2.2316e-03,  4.7302e-03,  ...,  7.9041e-03,
+          6.6414e-03,  6.4697e-03],
+        [ 2.8387e-05, -9.4771e-05, -7.8619e-05,  ..., -4.8906e-05,
+         -5.3763e-05,  4.5374e-06],
+        [ 1.1168e-03,  1.3244e-04,  1.6534e-04,  ...,  3.8433e-04,
+          3.1018e-04,  3.4332e-04]], device='cuda:0')
+Epoch 49, bias, value: tensor([-0.0250,  0.0630,  0.0703, -0.1870,  0.0240, -0.0171,  0.0910],
+       device='cuda:0'), grad: tensor([-0.1017, -0.0140,  0.0030,  0.0065,  0.1006,  0.0015,  0.0041],
+       device='cuda:0')
+249
+0.00224551509273949
+changing lr
+epoch 48, time 325.59, cls_loss 0.4149 cls_loss_mapping 0.0190 cls_loss_causal 0.3314 re_mapping 0.0170 re_causal 0.0205 /// teacc 94.74 lr 0.00206107
+Epoch 50, weight, value: tensor([[ 0.0365,  0.0428,  0.0379,  ..., -0.0304, -0.0602, -0.0251],
+        [-0.0309, -0.0243, -0.0323,  ..., -0.0591, -0.0598, -0.0744],
+        [ 0.0246,  0.0054,  0.0164,  ...,  0.0225,  0.0220,  0.0146],
+        ...,
+        [-0.1038, -0.0793, -0.0486,  ...,  0.0371,  0.0359,  0.0582],
+        [-0.0190, -0.0607, -0.0947,  ..., -0.1230, -0.0936, -0.0773],
+        [ 0.1380,  0.1549,  0.1459,  ..., -0.0413, -0.0530, -0.0664]],
+       device='cuda:0'), grad: tensor([[ 0.0124,  0.0017,  0.0029,  ...,  0.0009,  0.0006,  0.0010],
+        [-0.0168, -0.0021, -0.0038,  ..., -0.0008, -0.0004, -0.0010],
+        [ 0.0112,  0.0024,  0.0029,  ...,  0.0054,  0.0050,  0.0049],
+        ...,
+        [ 0.0067,  0.0011,  0.0016,  ...,  0.0012,  0.0011,  0.0012],
+        [-0.0162, -0.0036, -0.0042,  ..., -0.0079, -0.0073, -0.0071],
+        [ 0.0005,  0.0001,  0.0001,  ...,  0.0001,  0.0001,  0.0001]],
+       device='cuda:0')
+Epoch 50, bias, value: tensor([-0.0402,  0.0546,  0.0763, -0.1872,  0.0259, -0.0126,  0.1023],
+       device='cuda:0'), grad: tensor([ 0.0462, -0.0638,  0.0373,  0.0071,  0.0240, -0.0522,  0.0013],
+       device='cuda:0')
+249
+0.002061073738537637
+changing lr
+epoch 49, time 321.50, cls_loss 0.4120 cls_loss_mapping 0.0176 cls_loss_causal 0.3469 re_mapping 0.0166 re_causal 0.0193 /// teacc 97.66 lr 0.00188255
+Epoch 51, weight, value: tensor([[ 0.0344,  0.0421,  0.0371,  ..., -0.0309, -0.0603, -0.0253],
+        [-0.0266, -0.0235, -0.0311,  ..., -0.0585, -0.0597, -0.0743],
+        [ 0.0202,  0.0046,  0.0153,  ...,  0.0219,  0.0214,  0.0140],
+        ...,
+        [-0.1031, -0.0794, -0.0485,  ...,  0.0390,  0.0377,  0.0597],
+        [-0.0185, -0.0602, -0.0942,  ..., -0.1227, -0.0934, -0.0767],
+        [ 0.1390,  0.1553,  0.1463,  ..., -0.0412, -0.0530, -0.0662]],
+       device='cuda:0'), grad: tensor([[ 5.1918e-03,  4.6992e-04,  7.0095e-04,  ...,  1.2159e-03,
+          9.3222e-04,  8.5020e-04],
+        [-1.0729e-03, -3.8683e-05, -3.1638e-04,  ..., -9.2936e-04,
+         -1.5335e-03, -1.4715e-03],
+        [ 7.4654e-03,  1.0757e-03,  1.2150e-03,  ...,  1.8349e-03,
+          1.2217e-03,  1.1415e-03],
+        ...,
+        [ 5.0316e-03,  2.9492e-04,  8.0681e-04,  ...,  3.6550e-04,
+          1.2798e-03,  1.2150e-03],
+        [ 7.1526e-03,  8.1968e-04,  1.0557e-03,  ...,  1.1978e-03,
+          8.8215e-04,  8.0967e-04],
+        [-2.9144e-02, -3.2463e-03, -4.2610e-03,  ..., -4.6005e-03,
+         -3.4580e-03, -3.1662e-03]], device='cuda:0')
+Epoch 51, bias, value: tensor([-0.0390,  0.0607,  0.0611, -0.1893,  0.0348, -0.0135,  0.1044],
+       device='cuda:0'), grad: tensor([ 0.0216, -0.0078,  0.0295,  0.0201,  0.0179,  0.0268, -0.1080],
+       device='cuda:0')
+249
+0.0018825509907063344
+changing lr
+epoch 50, time 322.71, cls_loss 0.3765 cls_loss_mapping 0.0167 cls_loss_causal 0.3153 re_mapping 0.0161 re_causal 0.0188 /// teacc 97.66 lr 0.00171031
+Epoch 52, weight, value: tensor([[ 0.0382,  0.0425,  0.0378,  ..., -0.0309, -0.0606, -0.0256],
+        [-0.0284, -0.0244, -0.0317,  ..., -0.0578, -0.0591, -0.0736],
+        [ 0.0216,  0.0046,  0.0154,  ...,  0.0235,  0.0231,  0.0157],
+        ...,
+        [-0.1069, -0.0800, -0.0493,  ...,  0.0383,  0.0373,  0.0592],
+        [-0.0202, -0.0596, -0.0939,  ..., -0.1232, -0.0941, -0.0775],
+        [ 0.1416,  0.1559,  0.1470,  ..., -0.0408, -0.0523, -0.0654]],
+       device='cuda:0'), grad: tensor([[ 0.0021,  0.0008,  0.0005,  ..., -0.0005, -0.0008, -0.0005],
+        [ 0.0060,  0.0013,  0.0012,  ...,  0.0016,  0.0012,  0.0013],
+        [-0.0309, -0.0076, -0.0066,  ..., -0.0053, -0.0027, -0.0040],
+        ...,
+        [ 0.0073,  0.0019,  0.0019,  ...,  0.0021,  0.0017,  0.0018],
+        [ 0.0042,  0.0010,  0.0008,  ...,  0.0006,  0.0002,  0.0004],
+        [ 0.0090,  0.0021,  0.0017,  ...,  0.0012,  0.0003,  0.0008]],
+       device='cuda:0')
+Epoch 52, bias, value: tensor([-0.0287,  0.0602,  0.0614, -0.1908,  0.0283, -0.0229,  0.1116],
+       device='cuda:0'), grad: tensor([ 0.0184,  0.0267, -0.1603,  0.0125,  0.0299,  0.0228,  0.0498],
+       device='cuda:0')
+249
+0.0017103063703014388
+changing lr
+epoch 51, time 323.31, cls_loss 0.3545 cls_loss_mapping 0.0138 cls_loss_causal 0.2908 re_mapping 0.0162 re_causal 0.0185 /// teacc 96.49 lr 0.00154469
+Epoch 53, weight, value: tensor([[ 0.0340,  0.0414,  0.0365,  ..., -0.0321, -0.0612, -0.0265],
+        [-0.0269, -0.0246, -0.0316,  ..., -0.0575, -0.0589, -0.0734],
+        [ 0.0233,  0.0051,  0.0157,  ...,  0.0224,  0.0218,  0.0145],
+        ...,
+        [-0.1062, -0.0793, -0.0485,  ...,  0.0382,  0.0373,  0.0594],
+        [-0.0183, -0.0593, -0.0934,  ..., -0.1230, -0.0941, -0.0773],
+        [ 0.1371,  0.1551,  0.1460,  ..., -0.0412, -0.0527, -0.0658]],
+       device='cuda:0'), grad: tensor([[-8.6880e-04, -1.0633e-03, -1.0176e-03,  ..., -6.9332e-04,
+         -6.3133e-04, -5.1403e-04],
+        [-2.2476e-02, -8.5592e-04, -9.9468e-04,  ..., -7.7677e-04,
+         -3.0088e-04, -9.8705e-04],
+        [ 2.2507e-03,  8.4519e-05,  7.9870e-05,  ..., -5.0701e-06,
+         -6.0409e-05,  1.1146e-05],
+        ...,
+        [ 3.9024e-03,  4.4489e-04,  4.6134e-04,  ...,  3.5429e-04,
+          2.6178e-04,  3.3855e-04],
+        [ 3.7327e-03,  1.7464e-04,  2.0051e-04,  ...,  1.7023e-04,
+          9.1851e-05,  2.0051e-04],
+        [ 8.1787e-03,  4.3082e-04,  4.7660e-04,  ...,  3.6478e-04,
+          1.8716e-04,  4.1986e-04]], device='cuda:0')
+Epoch 53, bias, value: tensor([-0.0432,  0.0726,  0.0677, -0.1862,  0.0276, -0.0132,  0.0936],
+       device='cuda:0'), grad: tensor([ 0.0100, -0.1436,  0.0145,  0.0249,  0.0204,  0.0233,  0.0504],
+       device='cuda:0')
+249
+0.0015446867550656784
+changing lr
+epoch 52, time 321.01, cls_loss 0.3930 cls_loss_mapping 0.0145 cls_loss_causal 0.3377 re_mapping 0.0158 re_causal 0.0185 /// teacc 92.98 lr 0.00138603
+Epoch 54, weight, value: tensor([[ 0.0345,  0.0414,  0.0367,  ..., -0.0317, -0.0606, -0.0260],
+        [-0.0304, -0.0252, -0.0320,  ..., -0.0580, -0.0592, -0.0738],
+        [ 0.0233,  0.0052,  0.0156,  ...,  0.0229,  0.0221,  0.0148],
+        ...,
+        [-0.0999, -0.0778, -0.0473,  ...,  0.0378,  0.0367,  0.0589],
+        [-0.0195, -0.0594, -0.0936,  ..., -0.1218, -0.0930, -0.0763],
+        [ 0.1363,  0.1544,  0.1454,  ..., -0.0417, -0.0531, -0.0661]],
+       device='cuda:0'), grad: tensor([[-2.1622e-02, -4.6577e-03, -5.1270e-03,  ..., -1.2579e-03,
+         -3.7909e-04, -6.8474e-04],
+        [ 4.2305e-03,  7.4625e-04,  1.0080e-03,  ...,  3.4356e-04,
+          2.0003e-04,  2.1935e-04],
+        [ 9.1934e-03,  1.5659e-03,  2.1172e-03,  ...,  9.6607e-04,
+          7.0524e-04,  6.5708e-04],
+        ...,
+        [ 1.9547e-02,  3.7117e-03,  4.7722e-03,  ...,  1.0004e-03,
+          7.8738e-05,  4.3464e-04],
+        [-2.2461e-02, -3.3798e-03, -5.3978e-03,  ..., -1.9741e-03,
+         -1.1301e-03, -1.1997e-03],
+        [ 8.0872e-03,  1.5182e-03,  1.9197e-03,  ...,  6.0749e-04,
+          3.0017e-04,  3.6263e-04]], device='cuda:0')
+Epoch 54, bias, value: tensor([-0.0406,  0.0609,  0.0661, -0.1917,  0.0456, -0.0187,  0.0973],
+       device='cuda:0'), grad: tensor([-0.0847,  0.0160,  0.0335,  0.0110,  0.0749, -0.0811,  0.0305],
+       device='cuda:0')
+249
+0.001386025680863044
+changing lr
+epoch 53, time 320.54, cls_loss 0.3838 cls_loss_mapping 0.0129 cls_loss_causal 0.3280 re_mapping 0.0154 re_causal 0.0185 /// teacc 98.25 lr 0.00123464
+Epoch 55, weight, value: tensor([[ 0.0382,  0.0426,  0.0380,  ..., -0.0311, -0.0595, -0.0257],
+        [-0.0284, -0.0250, -0.0316,  ..., -0.0566, -0.0579, -0.0722],
+        [ 0.0221,  0.0050,  0.0155,  ...,  0.0227,  0.0219,  0.0146],
+        ...,
+        [-0.1030, -0.0783, -0.0478,  ...,  0.0368,  0.0353,  0.0579],
+        [-0.0203, -0.0597, -0.0940,  ..., -0.1225, -0.0937, -0.0770],
+        [ 0.1368,  0.1538,  0.1447,  ..., -0.0421, -0.0536, -0.0665]],
+       device='cuda:0'), grad: tensor([[-2.8793e-02, -1.8721e-03, -1.8320e-03,  ..., -2.0657e-03,
+         -1.1759e-03, -1.7052e-03],
+        [ 8.8654e-03,  1.1854e-03,  1.1969e-03,  ...,  1.2140e-03,
+          9.3699e-04,  7.8821e-04],
+        [ 3.6068e-03,  1.4460e-04,  1.4830e-04,  ...,  2.4116e-04,
+          1.3471e-04,  2.4283e-04],
+        ...,
+        [ 3.6755e-03,  1.1432e-04,  7.9691e-05,  ...,  9.0003e-06,
+         -1.1283e-04,  2.7463e-05],
+        [ 3.4599e-03,  1.1373e-04,  1.0794e-04,  ...,  1.5938e-04,
+          5.4598e-05,  1.7393e-04],
+        [ 6.1417e-03,  2.0754e-04,  1.9681e-04,  ...,  2.8872e-04,
+          1.0210e-04,  3.1114e-04]], device='cuda:0')
+Epoch 55, bias, value: tensor([-0.0379,  0.0730,  0.0600, -0.1939,  0.0309, -0.0184,  0.1053],
+       device='cuda:0'), grad: tensor([-0.1539,  0.0359,  0.0209,  0.0179,  0.0221,  0.0206,  0.0364],
+       device='cuda:0')
+249
+0.0012346426699819469
+changing lr
+epoch 54, time 321.43, cls_loss 0.3409 cls_loss_mapping 0.0152 cls_loss_causal 0.2857 re_mapping 0.0152 re_causal 0.0177 /// teacc 95.91 lr 0.00109084
+Epoch 56, weight, value: tensor([[ 0.0354,  0.0415,  0.0368,  ..., -0.0309, -0.0590, -0.0252],
+        [-0.0298, -0.0249, -0.0315,  ..., -0.0574, -0.0590, -0.0731],
+        [ 0.0226,  0.0050,  0.0157,  ...,  0.0224,  0.0217,  0.0144],
+        ...,
+        [-0.1042, -0.0786, -0.0482,  ...,  0.0367,  0.0354,  0.0576],
+        [-0.0194, -0.0596, -0.0939,  ..., -0.1228, -0.0940, -0.0773],
+        [ 0.1390,  0.1543,  0.1454,  ..., -0.0414, -0.0531, -0.0659]],
+       device='cuda:0'), grad: tensor([[-4.0649e-02, -4.0398e-03, -5.8365e-03,  ..., -5.5084e-03,
+         -3.4695e-03, -3.5305e-03],
+        [ 2.6131e-03,  2.9492e-04,  3.9768e-04,  ...,  1.0376e-03,
+          8.6069e-04,  8.8692e-04],
+        [ 4.1077e-02,  4.0665e-03,  5.8823e-03,  ...,  5.7411e-03,
+          3.6678e-03,  3.7365e-03],
+        ...,
+        [-3.3436e-03, -3.6669e-04, -4.9686e-04,  ..., -1.3599e-03,
+         -1.1301e-03, -1.1654e-03],
+        [ 3.6806e-05,  2.6189e-06,  4.6715e-06,  ...,  5.1707e-06,
+          3.0957e-06,  3.6638e-06],
+        [ 1.8346e-04,  2.5570e-05,  3.2693e-05,  ...,  5.8681e-05,
+          4.8399e-05,  4.8667e-05]], device='cuda:0')
+Epoch 56, bias, value: tensor([-0.0472,  0.0667,  0.0640, -0.1893,  0.0255, -0.0127,  0.1119],
+       device='cuda:0'), grad: tensor([-1.6296e-01,  6.3629e-03,  1.6370e-01,  2.2137e-04, -7.9727e-03,
+         1.3649e-04,  4.8661e-04], device='cuda:0')
+249
+0.0010908425876598518
+changing lr
+epoch 55, time 324.33, cls_loss 0.3852 cls_loss_mapping 0.0116 cls_loss_causal 0.3308 re_mapping 0.0152 re_causal 0.0184 /// teacc 93.57 lr 0.00095492
+Epoch 57, weight, value: tensor([[ 0.0354,  0.0416,  0.0367,  ..., -0.0309, -0.0590, -0.0254],
+        [-0.0303, -0.0253, -0.0319,  ..., -0.0571, -0.0588, -0.0727],
+        [ 0.0221,  0.0049,  0.0155,  ...,  0.0223,  0.0216,  0.0142],
+        ...,
+        [-0.1033, -0.0777, -0.0472,  ...,  0.0364,  0.0350,  0.0573],
+        [-0.0196, -0.0596, -0.0938,  ..., -0.1223, -0.0935, -0.0769],
+        [ 0.1384,  0.1536,  0.1447,  ..., -0.0417, -0.0532, -0.0659]],
+       device='cuda:0'), grad: tensor([[-1.6642e-04,  4.0352e-05, -7.2196e-06,  ..., -8.9121e-04,
+         -6.4135e-04, -6.4135e-04],
+        [ 9.0485e-03,  2.4261e-03,  2.1763e-03,  ...,  7.3242e-04,
+          6.7234e-04,  9.1743e-04],
+        [ 2.0933e-04,  5.5015e-05,  4.9770e-05,  ...,  2.6792e-05,
+          2.2948e-05,  2.8342e-05],
+        ...,
+        [ 1.2192e-02,  3.2291e-03,  2.9163e-03,  ...,  1.3914e-03,
+          1.1969e-03,  1.5249e-03],
+        [ 1.9419e-04,  5.5611e-05,  4.8608e-05,  ...,  1.1036e-06,
+         -1.5618e-06,  7.3425e-06],
+        [-2.2888e-02, -6.1722e-03, -5.5199e-03,  ..., -1.5001e-03,
+         -1.4467e-03, -2.0695e-03]], device='cuda:0')
+Epoch 57, bias, value: tensor([-0.0508,  0.0682,  0.0591, -0.1855,  0.0269, -0.0137,  0.1147],
+       device='cuda:0'), grad: tensor([-3.4600e-05,  3.1433e-02,  7.2098e-04,  4.8866e-03,  4.2084e-02,
+         6.8855e-04, -7.9712e-02], device='cuda:0')
+249
+0.000954915028125264
+changing lr
+epoch 56, time 323.08, cls_loss 0.3691 cls_loss_mapping 0.0106 cls_loss_causal 0.3132 re_mapping 0.0152 re_causal 0.0181 /// teacc 97.08 lr 0.00082713
+Epoch 58, weight, value: tensor([[ 0.0378,  0.0422,  0.0372,  ..., -0.0302, -0.0582, -0.0249],
+        [-0.0291, -0.0251, -0.0315,  ..., -0.0565, -0.0584, -0.0723],
+        [ 0.0223,  0.0052,  0.0156,  ...,  0.0223,  0.0217,  0.0142],
+        ...,
+        [-0.1020, -0.0773, -0.0468,  ...,  0.0362,  0.0346,  0.0571],
+        [-0.0192, -0.0597, -0.0938,  ..., -0.1218, -0.0931, -0.0763],
+        [ 0.1362,  0.1531,  0.1441,  ..., -0.0418, -0.0533, -0.0659]],
+       device='cuda:0'), grad: tensor([[ 7.5293e-04,  2.7657e-04,  2.8443e-04,  ...,  2.1875e-04,
+          2.0730e-04,  1.6761e-04],
+        [ 8.8334e-05,  2.2605e-05,  2.1636e-05,  ...,  2.6345e-05,
+          2.3231e-05,  2.1204e-05],
+        [ 8.1599e-05,  1.5706e-05,  1.3806e-05,  ...,  3.5316e-05,
+          3.3319e-05,  2.8402e-05],
+        ...,
+        [ 2.7251e-04,  5.1856e-05,  4.5419e-05,  ...,  1.2279e-04,
+          1.1683e-04,  9.8825e-05],
+        [ 7.1096e-04,  1.4317e-04,  1.2130e-04,  ...,  3.6526e-04,
+          3.5334e-04,  2.8968e-04],
+        [-2.0695e-03, -5.4359e-04, -5.1689e-04,  ..., -8.4257e-04,
+         -8.0538e-04, -6.6566e-04]], device='cuda:0')
+Epoch 58, bias, value: tensor([-0.0430,  0.0691,  0.0559, -0.1954,  0.0337, -0.0070,  0.1056],
+       device='cuda:0'), grad: tensor([ 0.0014,  0.0003,  0.0002,  0.0004,  0.0006,  0.0012, -0.0041],
+       device='cuda:0')
+249
+0.0008271337313934874
+changing lr
+epoch 57, time 324.26, cls_loss 0.3602 cls_loss_mapping 0.0119 cls_loss_causal 0.3046 re_mapping 0.0151 re_causal 0.0179 /// teacc 96.49 lr 0.00070776
+Epoch 59, weight, value: tensor([[ 0.0378,  0.0421,  0.0374,  ..., -0.0309, -0.0588, -0.0254],
+        [-0.0302, -0.0252, -0.0317,  ..., -0.0566, -0.0584, -0.0723],
+        [ 0.0234,  0.0053,  0.0158,  ...,  0.0225,  0.0220,  0.0145],
+        ...,
+        [-0.1025, -0.0772, -0.0468,  ...,  0.0363,  0.0347,  0.0570],
+        [-0.0213, -0.0599, -0.0939,  ..., -0.1220, -0.0934, -0.0766],
+        [ 0.1362,  0.1529,  0.1438,  ..., -0.0418, -0.0532, -0.0659]],
+       device='cuda:0'), grad: tensor([[ 8.1635e-04,  1.9765e-04,  1.9383e-04,  ...,  3.2878e-04,
+          3.3212e-04,  2.8849e-04],
+        [ 4.9067e-04,  1.2648e-04,  1.3089e-04,  ...,  1.8585e-04,
+          1.8597e-04,  1.6224e-04],
+        [-7.2336e-04, -2.7347e-04, -2.8038e-04,  ..., -2.7537e-04,
+         -2.5010e-04, -2.5916e-04],
+        ...,
+        [-1.0948e-03, -2.4986e-04, -2.2244e-04,  ..., -4.7588e-04,
+         -4.8780e-04, -4.2534e-04],
+        [-2.2322e-05,  5.5164e-05,  3.0458e-05,  ...,  3.2157e-05,
+          1.5870e-05,  5.1886e-05],
+        [ 2.0146e-05,  6.8545e-06,  7.2867e-06,  ...,  8.1584e-06,
+          8.8364e-06,  8.9109e-06]], device='cuda:0')
+Epoch 59, bias, value: tensor([-0.0416,  0.0666,  0.0592, -0.1866,  0.0303, -0.0138,  0.1048],
+       device='cuda:0'), grad: tensor([ 1.8034e-03,  1.2102e-03, -1.9569e-03,  1.2560e-03, -2.0390e-03,
+        -3.4142e-04,  6.9916e-05], device='cuda:0')
+249
+0.00070775603199067
+changing lr
+epoch 58, time 317.14, cls_loss 0.3841 cls_loss_mapping 0.0124 cls_loss_causal 0.3417 re_mapping 0.0147 re_causal 0.0176 /// teacc 96.49 lr 0.00059702
+Epoch 60, weight, value: tensor([[ 0.0362,  0.0421,  0.0371,  ..., -0.0311, -0.0591, -0.0256],
+        [-0.0290, -0.0248, -0.0312,  ..., -0.0565, -0.0582, -0.0722],
+        [ 0.0233,  0.0054,  0.0161,  ...,  0.0228,  0.0223,  0.0148],
+        ...,
+        [-0.1014, -0.0772, -0.0469,  ...,  0.0364,  0.0349,  0.0572],
+        [-0.0201, -0.0598, -0.0937,  ..., -0.1218, -0.0933, -0.0764],
+        [ 0.1350,  0.1526,  0.1436,  ..., -0.0419, -0.0532, -0.0659]],
+       device='cuda:0'), grad: tensor([[ 6.0234e-03,  2.1017e-04,  4.4584e-04,  ...,  4.2605e-04,
+          2.7919e-04,  4.7135e-04],
+        [ 8.2550e-03,  6.3753e-04,  8.8167e-04,  ...,  7.4959e-04,
+          5.5027e-04,  8.0252e-04],
+        [ 6.8665e-03,  3.9363e-04,  5.1832e-04,  ...,  2.2364e-04,
+          4.3362e-05,  3.3927e-04],
+        ...,
+        [-2.2308e-02, -5.5265e-04, -1.6098e-03,  ..., -1.6956e-03,
+         -8.6355e-04, -1.8167e-03],
+        [-1.8784e-02, -1.8501e-03, -2.1000e-03,  ..., -9.8801e-04,
+         -8.5783e-04, -1.4315e-03],
+        [ 1.1810e-02,  5.9843e-04,  1.0490e-03,  ...,  5.7936e-04,
+          3.4499e-04,  8.7881e-04]], device='cuda:0')
+Epoch 60, bias, value: tensor([-0.0470,  0.0707,  0.0571, -0.1907,  0.0348, -0.0076,  0.1015],
+       device='cuda:0'), grad: tensor([ 0.0339,  0.0450,  0.0392,  0.0443, -0.1144, -0.1182,  0.0701],
+       device='cuda:0')
+249
+0.0005970223407163104
+changing lr
+epoch 59, time 323.48, cls_loss 0.3564 cls_loss_mapping 0.0109 cls_loss_causal 0.3016 re_mapping 0.0146 re_causal 0.0174 /// teacc 97.66 lr 0.00049516
+Epoch 61, weight, value: tensor([[ 0.0369,  0.0420,  0.0371,  ..., -0.0312, -0.0592, -0.0258],
+        [-0.0294, -0.0247, -0.0312,  ..., -0.0564, -0.0580, -0.0721],
+        [ 0.0232,  0.0053,  0.0161,  ...,  0.0229,  0.0223,  0.0148],
+        ...,
+        [-0.1019, -0.0774, -0.0471,  ...,  0.0361,  0.0346,  0.0571],
+        [-0.0195, -0.0595, -0.0935,  ..., -0.1216, -0.0930, -0.0763],
+        [ 0.1349,  0.1527,  0.1436,  ..., -0.0415, -0.0528, -0.0656]],
+       device='cuda:0'), grad: tensor([[-1.8013e-04, -8.6606e-05, -8.5831e-05,  ..., -1.0751e-05,
+         -2.4568e-06, -1.4585e-06],
+        [-1.7142e-04, -2.0623e-05, -3.8475e-05,  ...,  1.2018e-05,
+          2.1830e-05,  1.1899e-05],
+        [ 4.8218e-02,  1.0147e-02,  1.1124e-02,  ...,  2.7496e-02,
+          2.6031e-02,  2.5131e-02],
+        ...,
+        [-4.8004e-02, -1.0078e-02, -1.1032e-02,  ..., -2.7573e-02,
+         -2.6108e-02, -2.5208e-02],
+        [ 1.0431e-04,  2.2128e-05,  2.4572e-05,  ...,  5.5701e-05,
+          5.2392e-05,  5.0634e-05],
+        [ 8.4043e-06,  4.6901e-06,  4.5598e-06,  ..., -8.3912e-07,
+         -1.3709e-06, -1.0002e-06]], device='cuda:0')
+Epoch 61, bias, value: tensor([-0.0444,  0.0710,  0.0552, -0.1927,  0.0362, -0.0063,  0.0999],
+       device='cuda:0'), grad: tensor([-3.1614e-04, -8.8453e-04,  1.6577e-01,  4.7982e-05, -1.6504e-01,
+         3.5763e-04,  1.9774e-05], device='cuda:0')
+249
+0.0004951556604879052
+changing lr
+epoch 60, time 322.26, cls_loss 0.3567 cls_loss_mapping 0.0101 cls_loss_causal 0.3074 re_mapping 0.0147 re_causal 0.0173 /// teacc 98.25 lr 0.00040236
+Epoch 62, weight, value: tensor([[ 0.0363,  0.0421,  0.0372,  ..., -0.0316, -0.0595, -0.0262],
+        [-0.0291, -0.0247, -0.0311,  ..., -0.0561, -0.0577, -0.0718],
+        [ 0.0230,  0.0052,  0.0159,  ...,  0.0229,  0.0222,  0.0147],
+        ...,
+        [-0.1010, -0.0772, -0.0470,  ...,  0.0363,  0.0347,  0.0574],
+        [-0.0192, -0.0595, -0.0935,  ..., -0.1215, -0.0930, -0.0762],
+        [ 0.1351,  0.1525,  0.1434,  ..., -0.0416, -0.0528, -0.0656]],
+       device='cuda:0'), grad: tensor([[ 1.2642e-02,  1.6088e-03,  2.4796e-03,  ...,  1.5335e-03,
+          1.0586e-03,  1.2569e-03],
+        [ 4.2458e-03,  5.2071e-04,  8.7452e-04,  ...,  1.4668e-03,
+          1.3390e-03,  1.3351e-03],
+        [-2.6131e-03, -2.5654e-04, -6.7711e-04,  ..., -4.0283e-03,
+         -4.0512e-03, -3.8204e-03],
+        ...,
+        [-1.9348e-02, -2.5082e-03, -3.6907e-03,  ..., -7.3984e-06,
+          7.9918e-04,  3.2163e-04],
+        [ 1.6146e-03,  2.0421e-04,  3.1352e-04,  ...,  1.3542e-04,
+          7.2718e-05,  1.0347e-04],
+        [ 1.4591e-03,  1.8656e-04,  2.8467e-04,  ...,  1.4281e-04,
+          8.6725e-05,  1.1212e-04]], device='cuda:0')
+Epoch 62, bias, value: tensor([-0.0482,  0.0709,  0.0544, -0.1962,  0.0418, -0.0042,  0.1003],
+       device='cuda:0'), grad: tensor([ 0.0430,  0.0156, -0.0135,  0.0075, -0.0629,  0.0054,  0.0049],
+       device='cuda:0')
+249
+0.00040236113724274745
+changing lr
+epoch 61, time 323.27, cls_loss 0.3568 cls_loss_mapping 0.0140 cls_loss_causal 0.3021 re_mapping 0.0143 re_causal 0.0166 /// teacc 98.25 lr 0.00031883
+Epoch 63, weight, value: tensor([[ 0.0372,  0.0423,  0.0374,  ..., -0.0314, -0.0593, -0.0260],
+        [-0.0290, -0.0247, -0.0310,  ..., -0.0559, -0.0575, -0.0716],
+        [ 0.0230,  0.0052,  0.0159,  ...,  0.0229,  0.0222,  0.0147],
+        ...,
+        [-0.1025, -0.0776, -0.0474,  ...,  0.0358,  0.0343,  0.0569],
+        [-0.0197, -0.0596, -0.0936,  ..., -0.1216, -0.0930, -0.0762],
+        [ 0.1348,  0.1524,  0.1433,  ..., -0.0415, -0.0528, -0.0656]],
+       device='cuda:0'), grad: tensor([[ 2.5940e-04,  6.0976e-05,  7.5758e-05,  ...,  7.0333e-05,
+          6.4433e-05,  4.7565e-05],
+        [-7.0524e-04, -1.8084e-04, -1.9324e-04,  ..., -1.7691e-04,
+         -1.6248e-04, -1.1045e-04],
+        [ 1.0088e-05,  1.9670e-06,  3.0156e-06,  ...,  2.2501e-06,
+          2.0955e-06,  1.5600e-06],
+        ...,
+        [ 2.4676e-04,  6.4135e-05,  6.1214e-05,  ...,  5.0783e-05,
+          4.7952e-05,  2.8938e-05],
+        [ 9.9182e-05,  2.8238e-05,  2.7895e-05,  ...,  2.8104e-05,
+          2.5183e-05,  1.7017e-05],
+        [ 8.5294e-05,  2.4304e-05,  2.3976e-05,  ...,  2.4214e-05,
+          2.1696e-05,  1.4640e-05]], device='cuda:0')
+Epoch 63, bias, value: tensor([-0.0447,  0.0719,  0.0539, -0.1941,  0.0380, -0.0053,  0.0993],
+       device='cuda:0'), grad: tensor([ 7.0715e-04, -1.6317e-03,  3.0637e-05,  1.1414e-05,  4.6468e-04,
+         2.2411e-04,  1.9252e-04], device='cuda:0')
+249
+0.00031882564680131423
+changing lr
+epoch 62, time 320.81, cls_loss 0.3493 cls_loss_mapping 0.0108 cls_loss_causal 0.2929 re_mapping 0.0146 re_causal 0.0170 /// teacc 96.49 lr 0.00024472
+Epoch 64, weight, value: tensor([[ 0.0363,  0.0420,  0.0371,  ..., -0.0317, -0.0595, -0.0262],
+        [-0.0292, -0.0248, -0.0311,  ..., -0.0559, -0.0576, -0.0716],
+        [ 0.0228,  0.0051,  0.0158,  ...,  0.0228,  0.0221,  0.0147],
+        ...,
+        [-0.1017, -0.0773, -0.0470,  ...,  0.0362,  0.0346,  0.0572],
+        [-0.0193, -0.0595, -0.0935,  ..., -0.1215, -0.0930, -0.0762],
+        [ 0.1343,  0.1524,  0.1433,  ..., -0.0416, -0.0528, -0.0657]],
+       device='cuda:0'), grad: tensor([[-0.0210, -0.0039, -0.0036,  ..., -0.0024, -0.0023, -0.0048],
+        [ 0.0163,  0.0027,  0.0029,  ...,  0.0047,  0.0040,  0.0034],
+        [ 0.0305,  0.0052,  0.0056,  ...,  0.0075,  0.0066,  0.0070],
+        ...,
+        [ 0.0226,  0.0038,  0.0042,  ...,  0.0062,  0.0054,  0.0045],
+        [-0.0581, -0.0078, -0.0096,  ..., -0.0196, -0.0165, -0.0111],
+        [ 0.0175,  0.0026,  0.0030,  ...,  0.0054,  0.0046,  0.0035]],
+       device='cuda:0')
+Epoch 64, bias, value: tensor([-0.0481,  0.0729,  0.0538, -0.1919,  0.0389, -0.0040,  0.0971],
+       device='cuda:0'), grad: tensor([-0.1105,  0.0468,  0.1141, -0.0325,  0.0682, -0.1355,  0.0494],
+       device='cuda:0')
+249
+0.0002447174185242325
+changing lr
+epoch 63, time 323.24, cls_loss 0.3337 cls_loss_mapping 0.0092 cls_loss_causal 0.2938 re_mapping 0.0147 re_causal 0.0170 /// teacc 96.49 lr 0.00018019
+Epoch 65, weight, value: tensor([[ 0.0365,  0.0421,  0.0371,  ..., -0.0314, -0.0592, -0.0259],
+        [-0.0300, -0.0250, -0.0313,  ..., -0.0561, -0.0578, -0.0718],
+        [ 0.0234,  0.0053,  0.0161,  ...,  0.0230,  0.0223,  0.0149],
+        ...,
+        [-0.1018, -0.0773, -0.0471,  ...,  0.0359,  0.0344,  0.0569],
+        [-0.0191, -0.0595, -0.0935,  ..., -0.1215, -0.0930, -0.0762],
+        [ 0.1348,  0.1525,  0.1435,  ..., -0.0415, -0.0527, -0.0656]],
+       device='cuda:0'), grad: tensor([[ 5.9433e-03,  8.5545e-04,  9.7847e-04,  ...,  1.1511e-03,
+          4.7302e-04,  8.3447e-04],
+        [ 3.3855e-03,  4.8614e-04,  5.5981e-04,  ...,  6.4754e-04,
+          2.6131e-04,  4.6396e-04],
+        [ 2.2171e-02,  3.0937e-03,  3.3283e-03,  ...,  4.2496e-03,
+          1.5478e-03,  3.2768e-03],
+        ...,
+        [ 3.9337e-02,  5.9013e-03,  7.5798e-03,  ...,  7.4158e-03,
+          3.4618e-03,  4.5242e-03],
+        [-7.4036e-02, -1.0788e-02, -1.3000e-02,  ..., -1.4038e-02,
+         -5.9624e-03, -9.4757e-03],
+        [ 4.2319e-04,  4.5508e-05,  5.1975e-05,  ...,  4.4525e-05,
+         -1.7539e-05,  2.5377e-05]], device='cuda:0')
+Epoch 65, bias, value: tensor([-0.0475,  0.0703,  0.0551, -0.1927,  0.0377, -0.0024,  0.0983],
+       device='cuda:0'), grad: tensor([ 0.0225,  0.0128,  0.0850,  0.0104,  0.1473, -0.2798,  0.0019],
+       device='cuda:0')
+249
+0.0001801856965207339
+changing lr
+epoch 64, time 321.57, cls_loss 0.3520 cls_loss_mapping 0.0121 cls_loss_causal 0.2966 re_mapping 0.0144 re_causal 0.0172 /// teacc 97.08 lr 0.00012536
+Epoch 66, weight, value: tensor([[ 0.0365,  0.0420,  0.0371,  ..., -0.0312, -0.0590, -0.0258],
+        [-0.0300, -0.0249, -0.0313,  ..., -0.0560, -0.0577, -0.0717],
+        [ 0.0231,  0.0053,  0.0161,  ...,  0.0228,  0.0221,  0.0147],
+        ...,
+        [-0.1020, -0.0775, -0.0472,  ...,  0.0358,  0.0344,  0.0569],
+        [-0.0191, -0.0595, -0.0935,  ..., -0.1215, -0.0930, -0.0762],
+        [ 0.1350,  0.1525,  0.1435,  ..., -0.0415, -0.0528, -0.0656]],
+       device='cuda:0'), grad: tensor([[ 1.9760e-03,  2.8253e-04,  4.9305e-04,  ...,  5.9938e-04,
+          5.8699e-04,  6.3658e-04],
+        [ 8.0490e-03,  1.0748e-03,  1.9951e-03,  ...,  1.9207e-03,
+          1.8845e-03,  2.0962e-03],
+        [-2.6901e-02, -3.5095e-03, -6.6376e-03,  ..., -6.1264e-03,
+         -6.0196e-03, -6.7444e-03],
+        ...,
+        [ 1.6891e-02,  2.2697e-03,  4.1847e-03,  ...,  4.2305e-03,
+          4.1504e-03,  4.5929e-03],
+        [-1.3232e-04, -8.3983e-05, -7.3075e-05,  ..., -2.6003e-05,
+         -8.1360e-06,  8.4788e-06],
+        [ 1.8382e-04,  3.3587e-05,  5.1677e-05,  ...,  5.5790e-05,
+          5.3436e-05,  5.6714e-05]], device='cuda:0')
+Epoch 66, bias, value: tensor([-0.0475,  0.0705,  0.0538, -0.1929,  0.0369, -0.0022,  0.1002],
+       device='cuda:0'), grad: tensor([ 8.8654e-03,  3.5889e-02, -1.2018e-01, -9.5844e-04,  7.5500e-02,
+         5.0575e-05,  7.7629e-04], device='cuda:0')
+249
+0.000125360439090882
+changing lr
+epoch 65, time 318.77, cls_loss 0.3582 cls_loss_mapping 0.0114 cls_loss_causal 0.3173 re_mapping 0.0143 re_causal 0.0174 /// teacc 97.66 lr 0.00008035
+Epoch 67, weight, value: tensor([[ 0.0360,  0.0418,  0.0369,  ..., -0.0314, -0.0592, -0.0259],
+        [-0.0295, -0.0248, -0.0311,  ..., -0.0558, -0.0575, -0.0716],
+        [ 0.0230,  0.0053,  0.0161,  ...,  0.0227,  0.0221,  0.0147],
+        ...,
+        [-0.1022, -0.0774, -0.0472,  ...,  0.0358,  0.0344,  0.0569],
+        [-0.0189, -0.0594, -0.0934,  ..., -0.1214, -0.0930, -0.0762],
+        [ 0.1352,  0.1525,  0.1435,  ..., -0.0414, -0.0527, -0.0655]],
+       device='cuda:0'), grad: tensor([[ 1.4007e-04,  2.2948e-05,  6.0081e-05,  ..., -2.7850e-05,
+         -2.2873e-05, -2.7984e-05],
+        [-3.1322e-05, -1.0386e-05,  3.8743e-05,  ...,  3.5286e-05,
+          4.3064e-05,  7.6711e-05],
+        [ 4.7326e-04,  6.2644e-05,  1.2875e-04,  ...,  1.5962e-04,
+          1.6403e-04,  1.4782e-04],
+        ...,
+        [-1.3123e-03, -1.7655e-04, -4.0054e-04,  ..., -4.0865e-04,
+         -4.1366e-04, -4.1294e-04],
+        [ 1.5247e-04,  2.9087e-05,  3.6299e-05,  ...,  4.8488e-05,
+          4.1872e-05,  4.2409e-05],
+        [-3.2377e-04, -1.5044e-04, -1.7750e-04,  ..., -1.0145e-04,
+         -1.0639e-04, -1.0210e-04]], device='cuda:0')
+Epoch 67, bias, value: tensor([-0.0491,  0.0714,  0.0532, -0.1924,  0.0360, -0.0016,  0.1013],
+       device='cuda:0'), grad: tensor([ 0.0004,  0.0002,  0.0013,  0.0025, -0.0038,  0.0004, -0.0009],
+       device='cuda:0')
+249
+8.03520570068517e-05
+changing lr
+---------------------saving model at epoch 66----------------------------------------------------
+epoch 66, time 326.34, cls_loss 0.3555 cls_loss_mapping 0.0114 cls_loss_causal 0.3106 re_mapping 0.0143 re_causal 0.0172 /// teacc 98.83 lr 0.00004525
+Epoch 68, weight, value: tensor([[ 0.0359,  0.0418,  0.0369,  ..., -0.0315, -0.0592, -0.0260],
+        [-0.0296, -0.0248, -0.0311,  ..., -0.0558, -0.0575, -0.0716],
+        [ 0.0230,  0.0053,  0.0161,  ...,  0.0228,  0.0221,  0.0147],
+        ...,
+        [-0.1020, -0.0774, -0.0472,  ...,  0.0358,  0.0344,  0.0569],
+        [-0.0190, -0.0594, -0.0934,  ..., -0.1215, -0.0930, -0.0762],
+        [ 0.1352,  0.1525,  0.1434,  ..., -0.0414, -0.0527, -0.0655]],
+       device='cuda:0'), grad: tensor([[ 0.0244,  0.0045,  0.0057,  ...,  0.0062,  0.0063,  0.0053],
+        [-0.0526, -0.0098, -0.0124,  ..., -0.0139, -0.0143, -0.0121],
+        [ 0.0053,  0.0008,  0.0012,  ...,  0.0007,  0.0007,  0.0006],
+        ...,
+        [ 0.0368,  0.0061,  0.0081,  ...,  0.0074,  0.0065,  0.0056],
+        [ 0.0041,  0.0007,  0.0009,  ...,  0.0008,  0.0007,  0.0006],
+        [-0.0386, -0.0060, -0.0084,  ..., -0.0065, -0.0052, -0.0045]],
+       device='cuda:0')
+Epoch 68, bias, value: tensor([-0.0492,  0.0712,  0.0535, -0.1918,  0.0359, -0.0020,  0.1012],
+       device='cuda:0'), grad: tensor([ 0.0648, -0.1351,  0.0171,  0.0552,  0.1155,  0.0131, -0.1305],
+       device='cuda:0')
+249
+4.5251191160326525e-05
+changing lr
+epoch 67, time 317.77, cls_loss 0.3359 cls_loss_mapping 0.0103 cls_loss_causal 0.2896 re_mapping 0.0144 re_causal 0.0165 /// teacc 97.08 lr 0.00002013
+Epoch 69, weight, value: tensor([[ 0.0360,  0.0418,  0.0369,  ..., -0.0315, -0.0592, -0.0260],
+        [-0.0296, -0.0248, -0.0311,  ..., -0.0558, -0.0575, -0.0715],
+        [ 0.0231,  0.0054,  0.0161,  ...,  0.0228,  0.0221,  0.0147],
+        ...,
+        [-0.1022, -0.0774, -0.0472,  ...,  0.0358,  0.0344,  0.0568],
+        [-0.0190, -0.0594, -0.0934,  ..., -0.1215, -0.0930, -0.0762],
+        [ 0.1350,  0.1525,  0.1434,  ..., -0.0415, -0.0527, -0.0655]],
+       device='cuda:0'), grad: tensor([[ 4.8351e-04,  8.6486e-05,  6.1154e-05,  ...,  1.3280e-04,
+          9.9003e-05,  5.6505e-05],
+        [ 4.2248e-04,  1.3030e-04,  1.2326e-04,  ...,  1.0383e-04,
+          8.1599e-05,  6.8367e-05],
+        [ 2.1732e-04,  5.5313e-05,  4.7296e-05,  ...,  5.8889e-05,
+          4.4465e-05,  3.5286e-05],
+        ...,
+        [ 8.1682e-04,  2.2948e-04,  2.0480e-04,  ...,  2.1267e-04,
+          1.5879e-04,  1.4031e-04],
+        [ 1.9722e-03,  4.8637e-04,  4.1223e-04,  ...,  5.1355e-04,
+          3.7956e-04,  2.9707e-04],
+        [-4.1122e-03, -1.0405e-03, -8.9550e-04,  ..., -1.0815e-03,
+         -8.0967e-04, -6.3562e-04]], device='cuda:0')
+Epoch 69, bias, value: tensor([-0.0487,  0.0710,  0.0539, -0.1919,  0.0356, -0.0019,  0.1008],
+       device='cuda:0'), grad: tensor([ 0.0008,  0.0010,  0.0005,  0.0005,  0.0019,  0.0042, -0.0087],
+       device='cuda:0')
+249
+2.0128530023804673e-05
+changing lr
+epoch 68, time 319.69, cls_loss 0.3435 cls_loss_mapping 0.0116 cls_loss_causal 0.2949 re_mapping 0.0143 re_causal 0.0167 /// teacc 97.66 lr 0.00000503
+Epoch 70, weight, value: tensor([[ 0.0361,  0.0418,  0.0369,  ..., -0.0315, -0.0592, -0.0260],
+        [-0.0296, -0.0248, -0.0311,  ..., -0.0558, -0.0575, -0.0715],
+        [ 0.0231,  0.0054,  0.0161,  ...,  0.0228,  0.0221,  0.0147],
+        ...,
+        [-0.1022, -0.0774, -0.0472,  ...,  0.0358,  0.0344,  0.0568],
+        [-0.0190, -0.0594, -0.0934,  ..., -0.1214, -0.0930, -0.0762],
+        [ 0.1350,  0.1525,  0.1434,  ..., -0.0415, -0.0527, -0.0655]],
+       device='cuda:0'), grad: tensor([[ 0.0166,  0.0045,  0.0046,  ...,  0.0083,  0.0081,  0.0081],
+        [ 0.0247,  0.0041,  0.0062,  ..., -0.0011, -0.0022, -0.0012],
+        [ 0.0032,  0.0004,  0.0004,  ...,  0.0002,  0.0002,  0.0003],
+        ...,
+        [ 0.0055,  0.0008,  0.0009,  ...,  0.0005,  0.0005,  0.0006],
+        [-0.0342, -0.0081, -0.0106,  ..., -0.0075, -0.0060, -0.0068],
+        [ 0.0065,  0.0008,  0.0007,  ...,  0.0003,  0.0003,  0.0005]],
+       device='cuda:0')
+Epoch 70, bias, value: tensor([-0.0486,  0.0710,  0.0539, -0.1919,  0.0357, -0.0019,  0.1007],
+       device='cuda:0'), grad: tensor([ 0.0606,  0.1315,  0.0197, -0.1417,  0.0309, -0.1418,  0.0408],
+       device='cuda:0')
+249
+5.034667293427056e-06
+changing lr
+epoch 69, time 323.25, cls_loss 0.3731 cls_loss_mapping 0.0130 cls_loss_causal 0.3229 re_mapping 0.0142 re_causal 0.0175 /// teacc 97.66 lr 0.00000000
+---------------------saving last model at epoch 69----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//photo/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps1_RA', 'source_domain': 'photo', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//photo/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps1_RA/photo_16factor_best_test_check.csv', 'factor_num': 16, 'epoch': 'best', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of best
+randm: False
+stride: 5
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+columns: ['photo', 'art_painting', 'cartoon', 'sketch']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+                        photo  art_painting    cartoon     sketch        Avg
+w/o do (original x)  99.88024     67.285156  48.250853  66.836345  60.790785
+        photo  art_painting    cartoon     sketch        Avg
+do  99.820359     68.505859  53.668942  73.428353  65.201052
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//photo/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps1_RA', 'source_domain': 'photo', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//photo/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps1_RA/photo_16factor_last_test_check.csv', 'factor_num': 16, 'epoch': 'last', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of last
+randm: False
+stride: 5
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+columns: ['photo', 'art_painting', 'cartoon', 'sketch']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+                         photo  art_painting    cartoon     sketch        Avg
+w/o do (original x)  99.760479     68.261719  52.687713  68.897938  63.282457
+        photo  art_painting    cartoon     sketch        Avg
+do  99.640719      67.96875  55.674061  74.115551  65.919454
diff --git a/Meta-causal/code-withStyleAttack/73330.error b/Meta-causal/code-withStyleAttack/73330.error
new file mode 100644
index 0000000000000000000000000000000000000000..9bdd6d87b00535013036c2e27ecc69a0a1bec404
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73330.error
@@ -0,0 +1,2 @@
+slurmstepd: error: *** JOB 73330 ON gcp-eu-1 CANCELLED AT 2024-08-02T10:27:07 ***
+slurmstepd: error: *** STEP 73330.0 ON gcp-eu-1 CANCELLED AT 2024-08-02T10:27:07 ***
diff --git a/Meta-causal/code-withStyleAttack/73330.log b/Meta-causal/code-withStyleAttack/73330.log
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/Meta-causal/code-withStyleAttack/73332.error b/Meta-causal/code-withStyleAttack/73332.error
new file mode 100644
index 0000000000000000000000000000000000000000..31456a77f032b34f4a87dcb0d00d6471a9884365
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73332.error
@@ -0,0 +1,17 @@
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py:225: FutureWarning: `torch.cuda.amp.GradScaler(args...)` is deprecated. Please use `torch.amp.GradScaler('cuda', args...)` instead.
+  scaler = GradScaler()
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py:247: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with autocast():
+run_my_joint_v13_test.sh: line 33: randm}: command not found
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:44: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'best_cls_net.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:58: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'best_mapping_'+str(i)+'.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:68: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'best_E_to_W.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:47: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'last_cls_net.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:61: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'last_mapping_'+str(i)+'.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:71: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'last_E_to_W.pkl'))
diff --git a/Meta-causal/code-withStyleAttack/73332.log b/Meta-causal/code-withStyleAttack/73332.log
new file mode 100644
index 0000000000000000000000000000000000000000..b3452a13103e43e0f712202358725e3b6703909b
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73332.log
@@ -0,0 +1,1898 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'sketch', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 5, 'factor_num': 16, 'epochs': 70, 'nbatch': 100, 'batchsize': 6, 'lr': 0.01, 'lr_scheduler': 'cosine', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps1_RA', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 5
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_train.hdf5 torch.Size([3531, 3, 227, 227]) torch.Size([3531])
+--------------------------CA_multiple--------------------------
+---------------------------16 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_val.hdf5 torch.Size([398, 3, 227, 227]) torch.Size([398])
+-------------------------------------loading pretrain weights----------------------------------
+Epoch 1, weight, value: tensor([[-0.0117, -0.0081, -0.0072,  ...,  0.0113,  0.0101,  0.0153],
+        [-0.0175,  0.0124, -0.0205,  ..., -0.0028, -0.0198, -0.0036],
+        [-0.0106, -0.0104,  0.0137,  ...,  0.0183, -0.0148, -0.0046],
+        ...,
+        [-0.0164, -0.0101,  0.0215,  ...,  0.0202,  0.0083,  0.0130],
+        [ 0.0072, -0.0123, -0.0085,  ..., -0.0070,  0.0215,  0.0145],
+        [-0.0093,  0.0084,  0.0167,  ...,  0.0071,  0.0104, -0.0196]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([-0.0214,  0.0032, -0.0086,  0.0121,  0.0076,  0.0047,  0.0176],
+       device='cuda:0'), grad: None
+588
+0.01
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 679.65, cls_loss 6.2478 cls_loss_mapping 1.8057 cls_loss_causal 1.8074 re_mapping 0.1853 re_causal 0.1848 /// teacc 20.60 lr 0.00999497
+Epoch 2, weight, value: tensor([[-0.0399, -0.0168, -0.0146,  ...,  0.0375, -0.0392,  0.0120],
+        [-0.0282,  0.0102, -0.0197,  ..., -0.0369, -0.0356, -0.0269],
+        [-0.0024, -0.0073, -0.0083,  ..., -0.0014, -0.0637, -0.0429],
+        ...,
+        [ 0.0117,  0.0149,  0.0663,  ...,  0.0662,  0.1290,  0.1252],
+        [-0.0127, -0.0288, -0.0107,  ..., -0.0223, -0.0038, -0.0111],
+        [-0.0034, -0.0116, -0.0067,  ..., -0.0087,  0.0213, -0.0311]],
+       device='cuda:0'), grad: tensor([[ 0.0491,  0.0091,  0.0180,  ...,  0.0100,  0.0209,  0.0090],
+        [-0.0315, -0.0079, -0.0147,  ..., -0.0038, -0.0107, -0.0071],
+        [ 0.1024,  0.0160,  0.0334,  ...,  0.0177,  0.0428,  0.0160],
+        ...,
+        [-0.0764, -0.0131, -0.0249,  ..., -0.0150, -0.0324, -0.0123],
+        [ 0.0019,  0.0004,  0.0008,  ...,  0.0004,  0.0008,  0.0004],
+        [-0.0652, -0.0067, -0.0176,  ..., -0.0085, -0.0269, -0.0083]],
+       device='cuda:0')
+Epoch 2, bias, value: tensor([ 0.0793, -0.0447,  0.0116,  0.1523, -0.0278, -0.0475, -0.1080],
+       device='cuda:0'), grad: tensor([ 0.1558, -0.1385,  0.2732,  0.0416, -0.2002,  0.0068, -0.1384],
+       device='cuda:0')
+588
+0.009994965332706574
+changing lr
+epoch 1, time 670.55, cls_loss 2.2015 cls_loss_mapping 1.7888 cls_loss_causal 1.7892 re_mapping 0.0455 re_causal 0.0452 /// teacc 19.60 lr 0.00997987
+Epoch 3, weight, value: tensor([[-0.0462, -0.0164, -0.0165,  ...,  0.0374, -0.0401,  0.0076],
+        [-0.0221,  0.0089, -0.0165,  ..., -0.0428, -0.0354, -0.0256],
+        [ 0.0050, -0.0071, -0.0057,  ...,  0.0010, -0.0605, -0.0417],
+        ...,
+        [ 0.0071,  0.0099,  0.0610,  ...,  0.0590,  0.1207,  0.1173],
+        [-0.0090, -0.0290, -0.0124,  ..., -0.0253, -0.0048, -0.0156],
+        [-0.0080, -0.0106, -0.0031,  ..., -0.0072,  0.0217, -0.0251]],
+       device='cuda:0'), grad: tensor([[-0.1063, -0.0139, -0.0177,  ..., -0.0171, -0.0170, -0.0173],
+        [ 0.0604,  0.0091,  0.0126,  ...,  0.0102,  0.0109,  0.0102],
+        [-0.0411, -0.0106, -0.0144,  ..., -0.0110, -0.0106, -0.0106],
+        ...,
+        [ 0.0672,  0.0108,  0.0153,  ...,  0.0127,  0.0139,  0.0138],
+        [ 0.0019,  0.0003,  0.0004,  ...,  0.0003,  0.0004,  0.0003],
+        [ 0.0054,  0.0008,  0.0012,  ...,  0.0009,  0.0010,  0.0010]],
+       device='cuda:0')
+Epoch 3, bias, value: tensor([ 0.0672,  0.0225, -0.0059,  0.1588, -0.0661, -0.1024, -0.0598],
+       device='cuda:0'), grad: tensor([-0.2976,  0.1895, -0.2014,  0.0453,  0.2406,  0.0062,  0.0177],
+       device='cuda:0')
+588
+0.009979871469976196
+changing lr
+epoch 2, time 684.46, cls_loss 2.0752 cls_loss_mapping 1.7840 cls_loss_causal 1.7849 re_mapping 0.0371 re_causal 0.0368 /// teacc 18.84 lr 0.00995475
+Epoch 4, weight, value: tensor([[-3.6179e-02, -1.4935e-02, -1.7299e-02,  ...,  3.6308e-02,
+         -3.6490e-02,  6.2514e-03],
+        [-2.5878e-02,  8.9644e-03, -1.6552e-02,  ..., -4.8597e-02,
+         -3.7920e-02, -2.6637e-02],
+        [-2.3406e-03, -5.1000e-03, -4.2587e-04,  ..., -6.4124e-05,
+         -5.8567e-02, -4.1894e-02],
+        ...,
+        [ 3.7468e-03,  2.9508e-03,  5.4338e-02,  ...,  4.9771e-02,
+          1.0897e-01,  1.0680e-01],
+        [-1.0324e-02, -2.6679e-02, -1.1083e-02,  ..., -2.8111e-02,
+         -7.1771e-03, -1.7597e-02],
+        [-4.4647e-03, -9.2773e-03, -1.6067e-04,  ..., -6.8192e-03,
+          1.9451e-02, -2.5301e-02]], device='cuda:0'), grad: tensor([[ 0.0276,  0.0030,  0.0062,  ...,  0.0074,  0.0062,  0.0054],
+        [-0.0542, -0.0085, -0.0147,  ..., -0.0167, -0.0154, -0.0133],
+        [ 0.0537,  0.0084,  0.0109,  ...,  0.0097,  0.0079,  0.0088],
+        ...,
+        [-0.0186, -0.0018, -0.0034,  ..., -0.0011, -0.0010, -0.0016],
+        [ 0.0012,  0.0002,  0.0002,  ...,  0.0002,  0.0002,  0.0002],
+        [ 0.0042,  0.0006,  0.0008,  ...,  0.0008,  0.0008,  0.0008]],
+       device='cuda:0')
+Epoch 4, bias, value: tensor([ 0.0443,  0.0517,  0.0301,  0.1844, -0.1247, -0.1114, -0.0607],
+       device='cuda:0'), grad: tensor([ 0.0783, -0.1820,  0.1692, -0.0338, -0.0484,  0.0037,  0.0131],
+       device='cuda:0')
+588
+0.009954748808839675
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 689.22, cls_loss 1.9188 cls_loss_mapping 1.6855 cls_loss_causal 1.7207 re_mapping 0.0387 re_causal 0.0384 /// teacc 31.41 lr 0.00991965
+Epoch 5, weight, value: tensor([[-0.0443, -0.0179, -0.0170,  ...,  0.0413, -0.0259,  0.0090],
+        [-0.0231,  0.0091, -0.0149,  ..., -0.0518, -0.0415, -0.0288],
+        [-0.0078, -0.0065, -0.0012,  ..., -0.0125, -0.0695, -0.0501],
+        ...,
+        [-0.0003,  0.0003,  0.0487,  ...,  0.0407,  0.1014,  0.0989],
+        [-0.0020, -0.0245, -0.0090,  ..., -0.0290, -0.0074, -0.0180],
+        [ 0.0026, -0.0086,  0.0036,  ..., -0.0055,  0.0187, -0.0224]],
+       device='cuda:0'), grad: tensor([[-0.0718, -0.0099, -0.0114,  ..., -0.0099, -0.0110, -0.0142],
+        [ 0.0245,  0.0037,  0.0049,  ...,  0.0053,  0.0053,  0.0069],
+        [ 0.0276,  0.0023,  0.0048,  ...,  0.0070,  0.0067,  0.0084],
+        ...,
+        [-0.0358, -0.0037, -0.0071,  ..., -0.0120, -0.0112, -0.0140],
+        [ 0.0089,  0.0012,  0.0015,  ...,  0.0016,  0.0017,  0.0021],
+        [ 0.0084,  0.0012,  0.0014,  ...,  0.0015,  0.0016,  0.0020]],
+       device='cuda:0')
+Epoch 5, bias, value: tensor([ 0.0536,  0.0223, -0.0247,  0.1986, -0.1063, -0.0975, -0.0325],
+       device='cuda:0'), grad: tensor([-0.2129,  0.0896,  0.1011,  0.1192, -0.1511,  0.0278,  0.0264],
+       device='cuda:0')
+588
+0.009919647942993149
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 690.51, cls_loss 1.7639 cls_loss_mapping 1.3078 cls_loss_causal 1.4919 re_mapping 0.0423 re_causal 0.0418 /// teacc 35.93 lr 0.00987464
+Epoch 6, weight, value: tensor([[-0.0443, -0.0215, -0.0189,  ...,  0.0361, -0.0225,  0.0046],
+        [-0.0162,  0.0080, -0.0138,  ..., -0.0520, -0.0448, -0.0263],
+        [-0.0126, -0.0114,  0.0025,  ..., -0.0240, -0.0797, -0.0600],
+        ...,
+        [-0.0015, -0.0010,  0.0447,  ...,  0.0543,  0.1129,  0.1097],
+        [ 0.0012, -0.0180, -0.0069,  ..., -0.0280, -0.0042, -0.0172],
+        [ 0.0038, -0.0030,  0.0029,  ..., -0.0027,  0.0192, -0.0193]],
+       device='cuda:0'), grad: tensor([[ 0.0039,  0.0027,  0.0043,  ...,  0.0093,  0.0114,  0.0093],
+        [-0.0251, -0.0070, -0.0075,  ..., -0.0137, -0.0150, -0.0145],
+        [-0.0028, -0.0005, -0.0006,  ..., -0.0008, -0.0008, -0.0007],
+        ...,
+        [ 0.0503,  0.0069,  0.0080,  ...,  0.0097,  0.0084,  0.0119],
+        [ 0.0084,  0.0011,  0.0013,  ...,  0.0016,  0.0014,  0.0020],
+        [ 0.0082,  0.0011,  0.0013,  ...,  0.0015,  0.0013,  0.0019]],
+       device='cuda:0')
+Epoch 6, bias, value: tensor([ 0.0943,  0.0325, -0.0150,  0.1547, -0.1126, -0.1035, -0.0374],
+       device='cuda:0'), grad: tensor([ 0.0008, -0.0665, -0.0027, -0.1448,  0.1597,  0.0271,  0.0264],
+       device='cuda:0')
+588
+0.009874639560909117
+changing lr
+epoch 5, time 683.94, cls_loss 1.5825 cls_loss_mapping 0.9770 cls_loss_causal 1.2985 re_mapping 0.0480 re_causal 0.0473 /// teacc 20.35 lr 0.00981981
+Epoch 7, weight, value: tensor([[-0.0372, -0.0152, -0.0134,  ...,  0.0216, -0.0299, -0.0063],
+        [-0.0179,  0.0070, -0.0179,  ..., -0.0533, -0.0483, -0.0269],
+        [-0.0236, -0.0129,  0.0028,  ..., -0.0212, -0.0818, -0.0614],
+        ...,
+        [-0.0016, -0.0092,  0.0414,  ...,  0.0658,  0.1238,  0.1216],
+        [ 0.0023, -0.0153, -0.0080,  ..., -0.0308, -0.0035, -0.0187],
+        [ 0.0073, -0.0011,  0.0055,  ...,  0.0002,  0.0191, -0.0183]],
+       device='cuda:0'), grad: tensor([[-0.0398, -0.0110, -0.0115,  ..., -0.0164, -0.0168, -0.0181],
+        [-0.0455, -0.0068, -0.0060,  ..., -0.0102, -0.0092, -0.0130],
+        [-0.0110, -0.0004, -0.0016,  ..., -0.0014, -0.0003, -0.0019],
+        ...,
+        [ 0.0858,  0.0164,  0.0174,  ...,  0.0249,  0.0233,  0.0292],
+        [ 0.0034,  0.0005,  0.0005,  ...,  0.0007,  0.0007,  0.0009],
+        [ 0.0112,  0.0016,  0.0017,  ...,  0.0023,  0.0020,  0.0030]],
+       device='cuda:0')
+Epoch 7, bias, value: tensor([ 0.1046, -0.0020, -0.0308,  0.1592, -0.0179, -0.1415, -0.0593],
+       device='cuda:0'), grad: tensor([-0.1014, -0.1515, -0.0464, -0.0111,  0.2627,  0.0111,  0.0365],
+       device='cuda:0')
+588
+0.009819814303479266
+changing lr
+epoch 6, time 682.78, cls_loss 1.3254 cls_loss_mapping 0.7594 cls_loss_causal 1.1214 re_mapping 0.0519 re_causal 0.0510 /// teacc 29.65 lr 0.00975528
+Epoch 8, weight, value: tensor([[-0.0296,  0.0003,  0.0024,  ...,  0.0364, -0.0151,  0.0075],
+        [-0.0205,  0.0031, -0.0230,  ..., -0.0474, -0.0416, -0.0193],
+        [-0.0254, -0.0102,  0.0066,  ..., -0.0232, -0.0830, -0.0613],
+        ...,
+        [-0.0250, -0.0291,  0.0208,  ...,  0.0576,  0.1127,  0.1071],
+        [ 0.0072, -0.0141, -0.0100,  ..., -0.0410, -0.0126, -0.0279],
+        [ 0.0206,  0.0072,  0.0151,  ...,  0.0050,  0.0248, -0.0108]],
+       device='cuda:0'), grad: tensor([[ 1.3077e-02,  2.0161e-03,  3.0632e-03,  ...,  8.0252e-04,
+          1.4305e-03,  1.2732e-03],
+        [-2.0279e-02, -7.8630e-04, -2.5749e-03,  ..., -4.3259e-03,
+         -3.3512e-03, -6.3591e-03],
+        [ 1.8265e-02,  1.8492e-03,  2.5082e-03,  ...,  3.5152e-03,
+          3.2825e-03,  4.3640e-03],
+        ...,
+        [-4.8714e-03, -7.7677e-04, -8.3399e-04,  ...,  4.3344e-04,
+         -7.7915e-04, -7.9349e-06],
+        [ 7.2556e-03,  8.6546e-04,  1.0109e-03,  ...,  1.3571e-03,
+          1.3609e-03,  1.5888e-03],
+        [-1.2421e-02, -3.0975e-03, -3.4008e-03,  ..., -1.4915e-03,
+         -2.0485e-03, -7.6246e-04]], device='cuda:0')
+Epoch 8, bias, value: tensor([ 0.0832, -0.0043, -0.0298,  0.1694,  0.0087, -0.1500, -0.0653],
+       device='cuda:0'), grad: tensor([ 0.0355, -0.0582,  0.0589,  0.0004, -0.0243,  0.0246, -0.0367],
+       device='cuda:0')
+588
+0.009755282581475767
+changing lr
+epoch 7, time 684.68, cls_loss 1.1872 cls_loss_mapping 0.5971 cls_loss_causal 0.9658 re_mapping 0.0528 re_causal 0.0520 /// teacc 35.43 lr 0.00968117
+Epoch 9, weight, value: tensor([[-0.0173,  0.0067,  0.0082,  ...,  0.0357, -0.0159,  0.0083],
+        [-0.0200,  0.0035, -0.0198,  ..., -0.0330, -0.0290, -0.0048],
+        [-0.0260, -0.0083,  0.0083,  ..., -0.0138, -0.0717, -0.0531],
+        ...,
+        [-0.0273, -0.0230,  0.0242,  ...,  0.0368,  0.0918,  0.0837],
+        [ 0.0112, -0.0166, -0.0149,  ..., -0.0482, -0.0179, -0.0339],
+        [ 0.0104, -0.0019,  0.0093,  ...,  0.0066,  0.0255, -0.0079]],
+       device='cuda:0'), grad: tensor([[-3.2684e-02,  4.6539e-03,  4.3793e-03,  ...,  2.0008e-03,
+          3.7212e-03,  1.0622e-04],
+        [ 8.6670e-03,  1.0376e-03,  1.1225e-03,  ...,  9.3126e-04,
+          7.4816e-04,  1.2655e-03],
+        [ 6.9046e-04,  1.2958e-04,  9.5546e-05,  ..., -4.4823e-05,
+         -2.3320e-05,  1.8314e-05],
+        ...,
+        [-1.8219e-02, -1.1520e-02, -1.1772e-02,  ..., -7.2670e-03,
+         -7.4348e-03, -7.1487e-03],
+        [ 1.9592e-02,  3.3302e-03,  3.5458e-03,  ...,  2.4357e-03,
+          1.8635e-03,  3.0479e-03],
+        [ 1.0635e-02,  1.1549e-03,  1.2922e-03,  ...,  9.8801e-04,
+          5.7936e-04,  1.3447e-03]], device='cuda:0')
+Epoch 9, bias, value: tensor([ 0.0813,  0.0070, -0.0242,  0.1749, -0.0150, -0.1535, -0.0596],
+       device='cuda:0'), grad: tensor([-0.1238,  0.0256,  0.0015,  0.0332, -0.0211,  0.0534,  0.0313],
+       device='cuda:0')
+588
+0.009681174353198686
+changing lr
+---------------------saving model at epoch 8----------------------------------------------------
+epoch 8, time 689.14, cls_loss 1.0632 cls_loss_mapping 0.4641 cls_loss_causal 0.8810 re_mapping 0.0515 re_causal 0.0507 /// teacc 72.36 lr 0.00959764
+Epoch 10, weight, value: tensor([[-0.0035,  0.0219,  0.0237,  ...,  0.0321, -0.0173,  0.0088],
+        [-0.0214, -0.0086, -0.0315,  ..., -0.0174, -0.0148,  0.0115],
+        [-0.0051,  0.0021,  0.0206,  ..., -0.0005, -0.0573, -0.0421],
+        ...,
+        [-0.0288, -0.0297,  0.0160,  ...,  0.0169,  0.0700,  0.0628],
+        [ 0.0035, -0.0175, -0.0168,  ..., -0.0502, -0.0204, -0.0379],
+        [ 0.0037, -0.0028,  0.0081,  ...,  0.0035,  0.0227, -0.0108]],
+       device='cuda:0'), grad: tensor([[-0.0374, -0.0034, -0.0047,  ..., -0.0081, -0.0069, -0.0101],
+        [-0.0069, -0.0087, -0.0081,  ..., -0.0110, -0.0098, -0.0091],
+        [ 0.0059,  0.0026,  0.0021,  ...,  0.0030,  0.0014,  0.0019],
+        ...,
+        [ 0.0338,  0.0093,  0.0101,  ...,  0.0151,  0.0144,  0.0159],
+        [ 0.0039,  0.0003,  0.0005,  ...,  0.0007,  0.0006,  0.0010],
+        [ 0.0022,  0.0002,  0.0003,  ...,  0.0004,  0.0004,  0.0006]],
+       device='cuda:0')
+Epoch 10, bias, value: tensor([ 0.0758,  0.0480,  0.0218,  0.1410,  0.0028, -0.1890, -0.0896],
+       device='cuda:0'), grad: tensor([-0.1414,  0.0041,  0.0129, -0.0023,  0.1044,  0.0141,  0.0082],
+       device='cuda:0')
+588
+0.009597638862757255
+changing lr
+---------------------saving model at epoch 9----------------------------------------------------
+epoch 9, time 691.39, cls_loss 0.9793 cls_loss_mapping 0.3846 cls_loss_causal 0.8080 re_mapping 0.0487 re_causal 0.0481 /// teacc 81.91 lr 0.00950484
+Epoch 11, weight, value: tensor([[ 0.0058,  0.0278,  0.0299,  ...,  0.0284, -0.0208,  0.0017],
+        [-0.0180,  0.0023, -0.0211,  ..., -0.0132, -0.0110,  0.0154],
+        [-0.0168, -0.0045,  0.0169,  ..., -0.0084, -0.0623, -0.0466],
+        ...,
+        [-0.0377, -0.0387,  0.0055,  ...,  0.0209,  0.0714,  0.0657],
+        [ 0.0023, -0.0147, -0.0147,  ..., -0.0508, -0.0204, -0.0385],
+        [ 0.0071, -0.0049,  0.0059,  ...,  0.0098,  0.0293, -0.0036]],
+       device='cuda:0'), grad: tensor([[ 1.1826e-02,  1.0767e-03,  1.5059e-03,  ...,  1.6766e-03,
+          1.0509e-03,  2.2469e-03],
+        [ 3.0708e-03,  1.6534e-04,  2.1565e-04,  ...,  4.4632e-04,
+          1.8728e-04,  5.1785e-04],
+        [ 8.6069e-04,  7.5519e-05,  1.0222e-04,  ...,  1.2553e-04,
+          7.3493e-05,  1.5295e-04],
+        ...,
+        [-1.7670e-02, -1.4362e-03, -2.0218e-03,  ..., -2.4605e-03,
+         -1.4296e-03, -3.3455e-03],
+        [ 2.6436e-03,  2.1982e-04,  3.0637e-04,  ...,  3.7360e-04,
+          2.1911e-04,  4.9543e-04],
+        [ 3.3569e-03,  2.8253e-04,  3.9196e-04,  ...,  4.7803e-04,
+          2.8157e-04,  6.2656e-04]], device='cuda:0')
+Epoch 11, bias, value: tensor([ 0.0666,  0.0331,  0.0327,  0.1624, -0.0100, -0.1965, -0.0777],
+       device='cuda:0'), grad: tensor([ 0.0427,  0.0121,  0.0030, -0.0130, -0.0670,  0.0098,  0.0124],
+       device='cuda:0')
+588
+0.009504844339512096
+changing lr
+epoch 10, time 686.31, cls_loss 0.8839 cls_loss_mapping 0.2974 cls_loss_causal 0.7312 re_mapping 0.0458 re_causal 0.0451 /// teacc 54.27 lr 0.00940298
+Epoch 12, weight, value: tensor([[ 3.3808e-02,  5.0741e-02,  5.0204e-02,  ...,  3.3343e-02,
+         -1.5058e-02,  9.1033e-03],
+        [-1.3945e-02,  7.7240e-05, -2.2964e-02,  ..., -8.7405e-03,
+         -3.8307e-03,  2.1440e-02],
+        [-2.4273e-02, -1.0480e-02,  1.1699e-02,  ...,  2.8028e-04,
+         -5.3541e-02, -4.0500e-02],
+        ...,
+        [-5.2374e-02, -4.7787e-02, -4.1709e-03,  ...,  1.3031e-02,
+          6.2235e-02,  5.5974e-02],
+        [ 2.9953e-03, -1.4939e-02, -1.5340e-02,  ..., -5.2226e-02,
+         -2.2265e-02, -3.9769e-02],
+        [-7.5718e-03, -9.7394e-03,  2.1153e-03,  ...,  5.3758e-03,
+          2.6043e-02, -7.1063e-03]], device='cuda:0'), grad: tensor([[ 1.4458e-02,  1.2674e-03,  1.6203e-03,  ...,  1.8692e-03,
+          1.7118e-03,  2.7065e-03],
+        [ 1.6724e-02,  1.4114e-03,  1.7729e-03,  ...,  1.6069e-03,
+          1.5421e-03,  2.6646e-03],
+        [-2.8114e-03, -2.2280e-04, -3.7766e-04,  ..., -4.7135e-04,
+         -2.9182e-04, -4.4012e-04],
+        ...,
+        [-3.5034e-02, -2.9316e-03, -3.6888e-03,  ..., -3.5248e-03,
+         -3.4809e-03, -5.9242e-03],
+        [-1.6251e-03, -2.3127e-04, -2.1601e-04,  ..., -3.2115e-04,
+         -2.8467e-04, -3.7432e-04],
+        [ 3.2234e-04,  2.9549e-05,  3.5584e-05,  ...,  3.6031e-05,
+          3.4004e-05,  5.5611e-05]], device='cuda:0')
+Epoch 12, bias, value: tensor([ 0.0409,  0.0602,  0.0346,  0.1839, -0.0186, -0.1906, -0.1001],
+       device='cuda:0'), grad: tensor([ 0.0494,  0.0593, -0.0066,  0.0283, -0.1273, -0.0042,  0.0011],
+       device='cuda:0')
+588
+0.009402977659283692
+changing lr
+epoch 11, time 691.34, cls_loss 0.8286 cls_loss_mapping 0.2238 cls_loss_causal 0.6658 re_mapping 0.0425 re_causal 0.0420 /// teacc 33.67 lr 0.00929224
+Epoch 13, weight, value: tensor([[ 0.0303,  0.0505,  0.0506,  ...,  0.0299, -0.0162,  0.0075],
+        [-0.0213, -0.0020, -0.0250,  ..., -0.0021,  0.0042,  0.0294],
+        [-0.0251, -0.0161,  0.0088,  ..., -0.0070, -0.0598, -0.0462],
+        ...,
+        [-0.0534, -0.0430, -0.0031,  ...,  0.0148,  0.0599,  0.0524],
+        [ 0.0036, -0.0127, -0.0127,  ..., -0.0518, -0.0229, -0.0396],
+        [ 0.0046, -0.0075,  0.0038,  ...,  0.0059,  0.0254, -0.0054]],
+       device='cuda:0'), grad: tensor([[ 0.0129,  0.0019,  0.0023,  ...,  0.0024,  0.0019,  0.0028],
+        [-0.0352, -0.0027, -0.0053,  ..., -0.0026, -0.0023, -0.0045],
+        [ 0.0397,  0.0115,  0.0108,  ...,  0.0069,  0.0049,  0.0080],
+        ...,
+        [-0.0752, -0.0171, -0.0175,  ..., -0.0152, -0.0114, -0.0172],
+        [ 0.0011,  0.0001,  0.0002,  ...,  0.0002,  0.0001,  0.0002],
+        [ 0.0087,  0.0010,  0.0015,  ...,  0.0013,  0.0011,  0.0017]],
+       device='cuda:0')
+Epoch 13, bias, value: tensor([ 0.0392,  0.0409,  0.0323,  0.1564, -0.0098, -0.1920, -0.0571],
+       device='cuda:0'), grad: tensor([ 0.0457, -0.1360,  0.1519,  0.1798, -0.2776,  0.0038,  0.0323],
+       device='cuda:0')
+588
+0.009292243968009333
+changing lr
+---------------------saving model at epoch 12----------------------------------------------------
+epoch 12, time 686.63, cls_loss 0.8230 cls_loss_mapping 0.1975 cls_loss_causal 0.6437 re_mapping 0.0391 re_causal 0.0387 /// teacc 90.20 lr 0.00917287
+Epoch 14, weight, value: tensor([[ 0.0386,  0.0527,  0.0520,  ...,  0.0173, -0.0246, -0.0018],
+        [-0.0194, -0.0078, -0.0293,  ...,  0.0038,  0.0097,  0.0366],
+        [-0.0275, -0.0189,  0.0076,  ..., -0.0033, -0.0555, -0.0433],
+        ...,
+        [-0.0465, -0.0307,  0.0068,  ...,  0.0136,  0.0590,  0.0488],
+        [ 0.0039, -0.0127, -0.0131,  ..., -0.0505, -0.0226, -0.0386],
+        [-0.0040, -0.0094,  0.0015,  ...,  0.0058,  0.0245, -0.0053]],
+       device='cuda:0'), grad: tensor([[-6.4468e-03, -7.1144e-04, -1.1950e-03,  ..., -9.3889e-04,
+         -9.0837e-04, -1.4162e-03],
+        [ 4.9744e-02,  1.2665e-02,  1.2886e-02,  ...,  3.9864e-03,
+          3.5934e-03,  6.0158e-03],
+        [-5.7190e-02, -1.4420e-02, -1.4702e-02,  ..., -4.8065e-03,
+         -4.2725e-03, -7.0877e-03],
+        ...,
+        [ 1.2321e-02,  2.0866e-03,  2.6112e-03,  ...,  1.6136e-03,
+          1.4582e-03,  2.2793e-03],
+        [ 6.6876e-05,  1.5810e-05,  1.6451e-05,  ...,  6.7316e-06,
+          5.7779e-06,  9.2909e-06],
+        [ 7.4327e-05,  1.6198e-05,  1.7315e-05,  ...,  8.7991e-06,
+          7.3686e-06,  1.1586e-05]], device='cuda:0')
+Epoch 14, bias, value: tensor([ 0.0614,  0.0489,  0.0776,  0.1191, -0.0423, -0.1780, -0.0766],
+       device='cuda:0'), grad: tensor([-0.0209,  0.1415, -0.1633,  0.0041,  0.0381,  0.0002,  0.0002],
+       device='cuda:0')
+588
+0.009172866268606516
+changing lr
+epoch 13, time 686.27, cls_loss 0.7288 cls_loss_mapping 0.1580 cls_loss_causal 0.5759 re_mapping 0.0368 re_causal 0.0367 /// teacc 89.70 lr 0.00904508
+Epoch 15, weight, value: tensor([[ 0.0335,  0.0488,  0.0491,  ...,  0.0191, -0.0201,  0.0025],
+        [-0.0222, -0.0078, -0.0287,  ...,  0.0064,  0.0130,  0.0380],
+        [-0.0193, -0.0110,  0.0136,  ...,  0.0022, -0.0523, -0.0398],
+        ...,
+        [-0.0500, -0.0333,  0.0034,  ...,  0.0036,  0.0502,  0.0399],
+        [ 0.0046, -0.0104, -0.0112,  ..., -0.0519, -0.0244, -0.0398],
+        [ 0.0039, -0.0095,  0.0027,  ...,  0.0091,  0.0264, -0.0026]],
+       device='cuda:0'), grad: tensor([[ 0.0268,  0.0049,  0.0067,  ...,  0.0026,  0.0013,  0.0029],
+        [ 0.0015,  0.0003,  0.0003,  ...,  0.0005,  0.0004,  0.0005],
+        [-0.0347, -0.0063, -0.0090,  ..., -0.0022, -0.0005, -0.0026],
+        ...,
+        [ 0.0175,  0.0033,  0.0041,  ...,  0.0029,  0.0020,  0.0030],
+        [ 0.0053,  0.0011,  0.0010,  ...,  0.0018,  0.0015,  0.0018],
+        [ 0.0169,  0.0035,  0.0032,  ...,  0.0057,  0.0047,  0.0056]],
+       device='cuda:0')
+Epoch 15, bias, value: tensor([ 0.1101,  0.0059,  0.0519,  0.1048, -0.0310, -0.1843, -0.0477],
+       device='cuda:0'), grad: tensor([ 0.0918,  0.0041, -0.1232, -0.0873,  0.0561,  0.0139,  0.0446],
+       device='cuda:0')
+588
+0.00904508497187474
+changing lr
+---------------------saving model at epoch 14----------------------------------------------------
+epoch 14, time 688.65, cls_loss 0.6791 cls_loss_mapping 0.1334 cls_loss_causal 0.5477 re_mapping 0.0339 re_causal 0.0340 /// teacc 91.21 lr 0.00890916
+Epoch 16, weight, value: tensor([[ 0.0302,  0.0464,  0.0477,  ...,  0.0194, -0.0194,  0.0019],
+        [-0.0161, -0.0063, -0.0254,  ...,  0.0098,  0.0156,  0.0413],
+        [-0.0223, -0.0131,  0.0107,  ...,  0.0092, -0.0437, -0.0320],
+        ...,
+        [-0.0450, -0.0349,  0.0007,  ..., -0.0086,  0.0386,  0.0273],
+        [ 0.0051, -0.0099, -0.0107,  ..., -0.0500, -0.0235, -0.0384],
+        [ 0.0029, -0.0055,  0.0060,  ...,  0.0096,  0.0264, -0.0016]],
+       device='cuda:0'), grad: tensor([[-6.4850e-03, -1.6575e-03, -1.5936e-03,  ..., -6.5947e-04,
+         -2.4605e-04, -5.6219e-04],
+        [ 8.7585e-03,  1.3275e-03,  1.3084e-03,  ...,  1.5926e-03,
+          1.0052e-03,  1.3647e-03],
+        [ 2.8870e-02,  1.3313e-03,  1.6632e-03,  ...,  8.4152e-03,
+          6.3896e-03,  7.2403e-03],
+        ...,
+        [-3.2471e-02, -1.0786e-03, -1.4696e-03,  ..., -9.7046e-03,
+         -7.4158e-03, -8.3542e-03],
+        [ 5.4419e-05,  2.7511e-06,  3.3379e-06,  ...,  1.5557e-05,
+          1.1757e-05,  1.3418e-05],
+        [ 5.1594e-04,  3.7044e-05,  4.0859e-05,  ...,  1.3399e-04,
+          9.7752e-05,  1.1516e-04]], device='cuda:0')
+Epoch 16, bias, value: tensor([ 0.1075,  0.0166,  0.0439,  0.0945, -0.0042, -0.1868, -0.0620],
+       device='cuda:0'), grad: tensor([-0.0147,  0.0244,  0.0975,  0.0025, -0.1115,  0.0002,  0.0017],
+       device='cuda:0')
+588
+0.008909157412340152
+changing lr
+epoch 15, time 685.76, cls_loss 0.6881 cls_loss_mapping 0.1092 cls_loss_causal 0.5556 re_mapping 0.0321 re_causal 0.0324 /// teacc 87.69 lr 0.00876536
+Epoch 17, weight, value: tensor([[ 0.0448,  0.0562,  0.0561,  ...,  0.0196, -0.0205,  0.0010],
+        [-0.0239, -0.0123, -0.0296,  ...,  0.0081,  0.0148,  0.0394],
+        [-0.0221, -0.0108,  0.0110,  ...,  0.0085, -0.0423, -0.0319],
+        ...,
+        [-0.0555, -0.0400, -0.0049,  ..., -0.0030,  0.0430,  0.0323],
+        [ 0.0145, -0.0047, -0.0050,  ..., -0.0481, -0.0222, -0.0361],
+        [-0.0038, -0.0077,  0.0021,  ...,  0.0069,  0.0244, -0.0046]],
+       device='cuda:0'), grad: tensor([[ 5.0011e-03,  9.7561e-04,  1.2264e-03,  ...,  1.8978e-03,
+          1.9932e-03,  2.1839e-03],
+        [ 6.1432e-02,  1.3680e-02,  1.5671e-02,  ...,  2.5711e-03,
+          3.2635e-03,  5.0697e-03],
+        [-2.7161e-02, -6.0806e-03, -7.6332e-03,  ..., -7.9880e-03,
+         -8.6365e-03, -9.8495e-03],
+        ...,
+        [-3.9886e-02, -8.7204e-03, -9.4376e-03,  ...,  3.3417e-03,
+          3.1853e-03,  2.3785e-03],
+        [ 2.9609e-05,  6.8061e-06,  8.4937e-06,  ...,  7.7263e-06,
+          8.4341e-06,  9.7677e-06],
+        [ 1.0943e-04,  2.5079e-05,  3.1471e-05,  ...,  3.0249e-05,
+          3.2932e-05,  3.7968e-05]], device='cuda:0')
+Epoch 17, bias, value: tensor([ 0.0816,  0.0176,  0.0452,  0.1131, -0.0011, -0.1647, -0.0828],
+       device='cuda:0'), grad: tensor([ 1.5976e-02,  1.6675e-01, -8.8867e-02,  1.5869e-03, -9.5886e-02,
+         9.6083e-05,  3.5906e-04], device='cuda:0')
+588
+0.00876535733001806
+changing lr
+epoch 16, time 683.35, cls_loss 0.6408 cls_loss_mapping 0.0982 cls_loss_causal 0.5191 re_mapping 0.0301 re_causal 0.0307 /// teacc 68.59 lr 0.00861397
+Epoch 18, weight, value: tensor([[ 0.0558,  0.0605,  0.0609,  ...,  0.0142, -0.0238,  0.0006],
+        [-0.0295, -0.0156, -0.0349,  ...,  0.0082,  0.0132,  0.0372],
+        [-0.0204, -0.0101,  0.0139,  ...,  0.0158, -0.0350, -0.0267],
+        ...,
+        [-0.0537, -0.0361, -0.0023,  ..., -0.0114,  0.0349,  0.0242],
+        [ 0.0129, -0.0056, -0.0058,  ..., -0.0471, -0.0220, -0.0358],
+        [-0.0020, -0.0088,  0.0013,  ...,  0.0094,  0.0269, -0.0018]],
+       device='cuda:0'), grad: tensor([[ 1.1482e-02,  2.1057e-03,  2.5654e-03,  ...,  2.9278e-03,
+          2.7313e-03,  3.1967e-03],
+        [-1.6251e-03, -1.9515e-04, -2.5439e-04,  ..., -1.6475e-04,
+         -1.3721e-04, -2.3901e-04],
+        [-1.8143e-02, -3.5229e-03, -4.2610e-03,  ..., -5.0583e-03,
+         -4.7379e-03, -5.4169e-03],
+        ...,
+        [ 7.6790e-03,  1.4963e-03,  1.8091e-03,  ...,  2.1305e-03,
+          1.9913e-03,  2.2831e-03],
+        [ 7.3493e-05,  1.3821e-05,  1.6779e-05,  ...,  1.9625e-05,
+          1.8373e-05,  2.1219e-05],
+        [ 3.5572e-04,  6.8665e-05,  8.3089e-05,  ...,  9.8228e-05,
+          9.1970e-05,  1.0544e-04]], device='cuda:0')
+Epoch 18, bias, value: tensor([ 0.1219,  0.0174,  0.0074,  0.0801,  0.0275, -0.1661, -0.0793],
+       device='cuda:0'), grad: tensor([ 0.0334, -0.0055, -0.0513,  0.0004,  0.0217,  0.0002,  0.0010],
+       device='cuda:0')
+588
+0.008613974319136962
+changing lr
+---------------------saving model at epoch 17----------------------------------------------------
+epoch 17, time 691.26, cls_loss 0.6367 cls_loss_mapping 0.0966 cls_loss_causal 0.5112 re_mapping 0.0290 re_causal 0.0297 /// teacc 92.21 lr 0.00845531
+Epoch 19, weight, value: tensor([[ 0.0605,  0.0683,  0.0682,  ...,  0.0141, -0.0229,  0.0005],
+        [-0.0336, -0.0161, -0.0374,  ...,  0.0099,  0.0135,  0.0383],
+        [-0.0156, -0.0113,  0.0150,  ...,  0.0110, -0.0389, -0.0301],
+        ...,
+        [-0.0622, -0.0430, -0.0093,  ..., -0.0099,  0.0370,  0.0244],
+        [ 0.0081, -0.0066, -0.0070,  ..., -0.0471, -0.0228, -0.0363],
+        [-0.0002, -0.0073,  0.0025,  ...,  0.0092,  0.0268, -0.0011]],
+       device='cuda:0'), grad: tensor([[ 6.4659e-04,  9.6440e-05,  1.1283e-04,  ...,  1.5426e-04,
+          1.4412e-04,  1.7035e-04],
+        [-1.2493e-03, -1.7750e-04, -2.1541e-04,  ..., -3.0518e-04,
+         -2.9087e-04, -3.4022e-04],
+        [ 5.5218e-04,  8.3268e-05,  8.8632e-05,  ...,  8.0347e-05,
+          5.7518e-05,  8.4221e-05],
+        ...,
+        [ 1.3876e-03,  2.0218e-04,  2.2840e-04,  ...,  2.6011e-04,
+          2.2042e-04,  2.8253e-04],
+        [-2.6035e-03, -3.9744e-04, -4.1771e-04,  ..., -3.7217e-04,
+         -2.5940e-04, -3.8671e-04],
+        [ 4.9543e-04,  7.5519e-05,  7.9453e-05,  ...,  7.0989e-05,
+          4.9591e-05,  7.3850e-05]], device='cuda:0')
+Epoch 19, bias, value: tensor([ 0.0747,  0.0014,  0.0629,  0.0769,  0.0418, -0.1750, -0.0740],
+       device='cuda:0'), grad: tensor([ 0.0017, -0.0033,  0.0015,  0.0020,  0.0037, -0.0069,  0.0013],
+       device='cuda:0')
+588
+0.008455313244934327
+changing lr
+epoch 18, time 690.96, cls_loss 0.6200 cls_loss_mapping 0.0782 cls_loss_causal 0.5085 re_mapping 0.0277 re_causal 0.0288 /// teacc 69.10 lr 0.00828969
+Epoch 20, weight, value: tensor([[ 0.0647,  0.0696,  0.0701,  ...,  0.0186, -0.0184,  0.0066],
+        [-0.0268, -0.0169, -0.0357,  ...,  0.0118,  0.0154,  0.0403],
+        [-0.0310, -0.0194,  0.0070,  ...,  0.0096, -0.0390, -0.0328],
+        ...,
+        [-0.0514, -0.0324, -0.0012,  ..., -0.0168,  0.0305,  0.0191],
+        [ 0.0129, -0.0081, -0.0086,  ..., -0.0450, -0.0214, -0.0347],
+        [-0.0016, -0.0082,  0.0017,  ...,  0.0112,  0.0288,  0.0009]],
+       device='cuda:0'), grad: tensor([[ 3.0270e-03,  5.1451e-04,  5.3167e-04,  ...,  2.0351e-03,
+          1.6975e-03,  2.0981e-03],
+        [ 2.1801e-03,  2.8229e-04,  3.2806e-04,  ...,  3.8648e-04,
+          3.4046e-04,  4.5776e-04],
+        [ 1.3977e-02,  2.0714e-03,  2.1534e-03,  ...,  5.5008e-03,
+          4.5967e-03,  5.8594e-03],
+        ...,
+        [-1.9470e-02, -2.9125e-03, -3.0594e-03,  ..., -8.0185e-03,
+         -6.7215e-03, -8.5220e-03],
+        [ 9.5010e-05,  1.4625e-05,  1.6242e-05,  ...,  3.5018e-05,
+          3.0994e-05,  3.8624e-05],
+        [ 1.6642e-04,  2.5913e-05,  2.6226e-05,  ...,  5.8055e-05,
+          5.0455e-05,  6.3777e-05]], device='cuda:0')
+Epoch 20, bias, value: tensor([ 0.0925,  0.0291,  0.0295,  0.0155,  0.0807, -0.1564, -0.0821],
+       device='cuda:0'), grad: tensor([ 0.0133,  0.0065,  0.0498,  0.0001, -0.0706,  0.0003,  0.0005],
+       device='cuda:0')
+588
+0.008289693629698565
+changing lr
+epoch 19, time 679.40, cls_loss 0.5819 cls_loss_mapping 0.0666 cls_loss_causal 0.4653 re_mapping 0.0255 re_causal 0.0267 /// teacc 91.71 lr 0.00811745
+Epoch 21, weight, value: tensor([[ 0.0767,  0.0779,  0.0778,  ...,  0.0133, -0.0237,  0.0024],
+        [-0.0346, -0.0243, -0.0412,  ...,  0.0148,  0.0180,  0.0438],
+        [-0.0342, -0.0251,  0.0008,  ...,  0.0085, -0.0368, -0.0325],
+        ...,
+        [-0.0526, -0.0287,  0.0027,  ..., -0.0108,  0.0347,  0.0227],
+        [ 0.0146, -0.0063, -0.0068,  ..., -0.0441, -0.0204, -0.0339],
+        [-0.0035, -0.0079,  0.0002,  ...,  0.0084,  0.0249, -0.0035]],
+       device='cuda:0'), grad: tensor([[-0.0248, -0.0019, -0.0031,  ..., -0.0023, -0.0022, -0.0034],
+        [ 0.0055, -0.0001, -0.0001,  ...,  0.0007,  0.0008,  0.0012],
+        [ 0.0221,  0.0025,  0.0045,  ...,  0.0029,  0.0016,  0.0039],
+        ...,
+        [-0.0139, -0.0018, -0.0036,  ..., -0.0028, -0.0010, -0.0038],
+        [ 0.0039,  0.0005,  0.0008,  ...,  0.0005,  0.0003,  0.0007],
+        [ 0.0026,  0.0003,  0.0005,  ...,  0.0003,  0.0002,  0.0005]],
+       device='cuda:0')
+Epoch 21, bias, value: tensor([ 0.1354,  0.0026,  0.0275,  0.0414,  0.0935, -0.1624, -0.1297],
+       device='cuda:0'), grad: tensor([-0.0701,  0.0123,  0.0900,  0.0189, -0.0787,  0.0166,  0.0109],
+       device='cuda:0')
+588
+0.00811744900929367
+changing lr
+epoch 20, time 684.08, cls_loss 0.5686 cls_loss_mapping 0.0614 cls_loss_causal 0.4583 re_mapping 0.0239 re_causal 0.0252 /// teacc 91.46 lr 0.00793893
+Epoch 22, weight, value: tensor([[ 0.0875,  0.0786,  0.0813,  ...,  0.0091, -0.0287,  0.0014],
+        [-0.0369, -0.0201, -0.0378,  ...,  0.0195,  0.0219,  0.0469],
+        [-0.0364, -0.0245,  0.0015,  ...,  0.0077, -0.0352, -0.0309],
+        ...,
+        [-0.0500, -0.0306,  0.0002,  ..., -0.0102,  0.0364,  0.0214],
+        [ 0.0043, -0.0080, -0.0092,  ..., -0.0449, -0.0216, -0.0360],
+        [-0.0011, -0.0075, -0.0006,  ...,  0.0091,  0.0258, -0.0024]],
+       device='cuda:0'), grad: tensor([[ 2.0691e-02,  2.6131e-03,  4.5242e-03,  ...,  7.6218e-03,
+          7.0763e-03,  8.3771e-03],
+        [-6.3477e-02, -8.4686e-03, -1.5167e-02,  ..., -2.5818e-02,
+         -2.4475e-02, -2.8580e-02],
+        [ 6.4125e-03,  7.1335e-04,  1.3752e-03,  ...,  1.6270e-03,
+          1.4095e-03,  1.7891e-03],
+        ...,
+        [ 3.8330e-02,  5.4321e-03,  8.6136e-03,  ...,  1.8005e-02,
+          1.7273e-02,  1.9791e-02],
+        [ 6.8521e-04,  6.1810e-05,  1.4102e-04,  ...,  9.5427e-05,
+          6.6221e-05,  1.0520e-04],
+        [ 2.0885e-03,  2.0826e-04,  4.3511e-04,  ...,  4.1723e-04,
+          3.3689e-04,  4.5896e-04]], device='cuda:0')
+Epoch 22, bias, value: tensor([ 0.2062, -0.0023,  0.0088,  0.0351,  0.0951, -0.1967, -0.1379],
+       device='cuda:0'), grad: tensor([ 0.0882, -0.2825,  0.0278, -0.0055,  0.1595,  0.0031,  0.0093],
+       device='cuda:0')
+588
+0.007938926261462368
+changing lr
+epoch 21, time 690.05, cls_loss 0.5631 cls_loss_mapping 0.0606 cls_loss_causal 0.4647 re_mapping 0.0229 re_causal 0.0245 /// teacc 87.19 lr 0.00775448
+Epoch 23, weight, value: tensor([[ 0.0911,  0.0821,  0.0867,  ...,  0.0043, -0.0307, -0.0043],
+        [-0.0467, -0.0229, -0.0423,  ...,  0.0208,  0.0226,  0.0471],
+        [-0.0300, -0.0212,  0.0031,  ...,  0.0103, -0.0329, -0.0287],
+        ...,
+        [-0.0581, -0.0346, -0.0028,  ..., -0.0134,  0.0333,  0.0206],
+        [ 0.0110, -0.0070, -0.0080,  ..., -0.0424, -0.0201, -0.0339],
+        [ 0.0001, -0.0080, -0.0011,  ...,  0.0086,  0.0250, -0.0020]],
+       device='cuda:0'), grad: tensor([[ 8.2245e-03,  9.2983e-04,  1.1587e-03,  ...,  5.7316e-04,
+          2.3949e-04,  5.5265e-04],
+        [ 3.6793e-03,  4.2915e-04,  5.3120e-04,  ...,  2.6965e-04,
+          1.1772e-04,  2.6774e-04],
+        [ 1.1925e-02,  1.3418e-03,  1.6823e-03,  ...,  8.9836e-04,
+          4.1175e-04,  8.7976e-04],
+        ...,
+        [-3.1067e-02, -3.3684e-03, -4.2915e-03,  ..., -2.1973e-03,
+         -9.2173e-04, -2.1458e-03],
+        [ 1.2426e-03,  1.3518e-04,  1.7214e-04,  ...,  9.1195e-05,
+          4.0323e-05,  8.9169e-05],
+        [ 2.9221e-03,  3.2091e-04,  4.0674e-04,  ...,  2.1636e-04,
+          9.6798e-05,  2.1172e-04]], device='cuda:0')
+Epoch 23, bias, value: tensor([ 0.1206, -0.0229,  0.0545,  0.0454,  0.1161, -0.1601, -0.1457],
+       device='cuda:0'), grad: tensor([ 0.0373,  0.0166,  0.0540,  0.0155, -0.1425,  0.0057,  0.0133],
+       device='cuda:0')
+588
+0.007754484907260515
+changing lr
+epoch 22, time 681.00, cls_loss 0.5272 cls_loss_mapping 0.0522 cls_loss_causal 0.4451 re_mapping 0.0217 re_causal 0.0234 /// teacc 90.70 lr 0.00756450
+Epoch 24, weight, value: tensor([[ 0.0899,  0.0758,  0.0809,  ..., -0.0011, -0.0358, -0.0098],
+        [-0.0420, -0.0205, -0.0384,  ...,  0.0207,  0.0225,  0.0477],
+        [-0.0303, -0.0144,  0.0090,  ...,  0.0111, -0.0310, -0.0279],
+        ...,
+        [-0.0605, -0.0378, -0.0074,  ..., -0.0098,  0.0378,  0.0234],
+        [ 0.0142, -0.0030, -0.0041,  ..., -0.0414, -0.0200, -0.0334],
+        [-0.0028, -0.0107, -0.0038,  ...,  0.0088,  0.0251, -0.0008]],
+       device='cuda:0'), grad: tensor([[ 0.0303,  0.0024,  0.0044,  ...,  0.0055,  0.0050,  0.0079],
+        [ 0.0095,  0.0007,  0.0013,  ...,  0.0017,  0.0015,  0.0024],
+        [-0.0432, -0.0035, -0.0065,  ..., -0.0101, -0.0099, -0.0136],
+        ...,
+        [-0.0224, -0.0016, -0.0030,  ..., -0.0022, -0.0019, -0.0043],
+        [ 0.0032,  0.0002,  0.0005,  ...,  0.0006,  0.0006,  0.0009],
+        [ 0.0131,  0.0011,  0.0019,  ...,  0.0029,  0.0031,  0.0042]],
+       device='cuda:0')
+Epoch 24, bias, value: tensor([ 0.1457,  0.0085,  0.0444,  0.0338,  0.0960, -0.1684, -0.1520],
+       device='cuda:0'), grad: tensor([ 0.1346,  0.0440, -0.2073,  0.0415, -0.0831,  0.0145,  0.0557],
+       device='cuda:0')
+588
+0.007564496387029534
+changing lr
+epoch 23, time 680.35, cls_loss 0.5455 cls_loss_mapping 0.0497 cls_loss_causal 0.4525 re_mapping 0.0202 re_causal 0.0223 /// teacc 71.36 lr 0.00736934
+Epoch 25, weight, value: tensor([[ 0.0908,  0.0750,  0.0781,  ..., -0.0003, -0.0357, -0.0092],
+        [-0.0285, -0.0156, -0.0323,  ...,  0.0197,  0.0235,  0.0472],
+        [-0.0332, -0.0134,  0.0090,  ...,  0.0107, -0.0312, -0.0297],
+        ...,
+        [-0.0642, -0.0393, -0.0076,  ..., -0.0118,  0.0349,  0.0219],
+        [ 0.0081, -0.0049, -0.0063,  ..., -0.0410, -0.0198, -0.0336],
+        [-0.0067, -0.0100, -0.0043,  ...,  0.0075,  0.0237, -0.0018]],
+       device='cuda:0'), grad: tensor([[ 0.0458,  0.0111,  0.0122,  ...,  0.0038,  0.0043,  0.0062],
+        [-0.0229, -0.0031, -0.0048,  ..., -0.0025, -0.0022, -0.0041],
+        [-0.0255, -0.0099, -0.0103,  ..., -0.0011, -0.0024, -0.0027],
+        ...,
+        [-0.0062,  0.0007,  0.0009,  ..., -0.0012, -0.0005, -0.0010],
+        [ 0.0013,  0.0002,  0.0003,  ...,  0.0001,  0.0001,  0.0002],
+        [ 0.0024,  0.0004,  0.0005,  ...,  0.0003,  0.0002,  0.0004]],
+       device='cuda:0')
+Epoch 25, bias, value: tensor([ 0.1066,  0.0097,  0.0416,  0.0788,  0.1032, -0.1774, -0.1548],
+       device='cuda:0'), grad: tensor([ 0.1372, -0.1082, -0.0603,  0.0242, -0.0100,  0.0060,  0.0111],
+       device='cuda:0')
+588
+0.007369343312364995
+changing lr
+epoch 24, time 690.33, cls_loss 0.5467 cls_loss_mapping 0.0481 cls_loss_causal 0.4408 re_mapping 0.0189 re_causal 0.0208 /// teacc 73.12 lr 0.00716942
+Epoch 26, weight, value: tensor([[ 0.0919,  0.0772,  0.0781,  ...,  0.0019, -0.0344, -0.0072],
+        [-0.0332, -0.0181, -0.0343,  ...,  0.0205,  0.0233,  0.0468],
+        [-0.0298, -0.0169,  0.0045,  ...,  0.0122, -0.0296, -0.0279],
+        ...,
+        [-0.0579, -0.0393, -0.0044,  ..., -0.0165,  0.0326,  0.0186],
+        [ 0.0102, -0.0052, -0.0065,  ..., -0.0404, -0.0194, -0.0326],
+        [-0.0070, -0.0052, -0.0003,  ...,  0.0074,  0.0239, -0.0021]],
+       device='cuda:0'), grad: tensor([[-0.0538, -0.0149, -0.0138,  ..., -0.0084, -0.0076, -0.0080],
+        [ 0.0036,  0.0029,  0.0011,  ..., -0.0006,  0.0002, -0.0009],
+        [ 0.0284,  0.0027,  0.0037,  ...,  0.0042,  0.0031,  0.0046],
+        ...,
+        [ 0.0436,  0.0109,  0.0125,  ...,  0.0080,  0.0060,  0.0082],
+        [ 0.0027,  0.0003,  0.0003,  ...,  0.0004,  0.0003,  0.0004],
+        [-0.0316, -0.0024, -0.0047,  ..., -0.0047, -0.0028, -0.0056]],
+       device='cuda:0')
+Epoch 26, bias, value: tensor([ 0.0928, -0.0009,  0.0752,  0.0552,  0.1187, -0.1616, -0.1718],
+       device='cuda:0'), grad: tensor([-0.1130, -0.0191,  0.1117,  0.0286,  0.1315,  0.0104, -0.1499],
+       device='cuda:0')
+588
+0.0071694186955877925
+changing lr
+epoch 25, time 685.51, cls_loss 0.4863 cls_loss_mapping 0.0354 cls_loss_causal 0.4066 re_mapping 0.0180 re_causal 0.0201 /// teacc 90.45 lr 0.00696513
+Epoch 27, weight, value: tensor([[ 0.0852,  0.0738,  0.0732,  ...,  0.0012, -0.0359, -0.0080],
+        [-0.0304, -0.0179, -0.0346,  ...,  0.0183,  0.0207,  0.0443],
+        [-0.0261, -0.0135,  0.0086,  ...,  0.0137, -0.0261, -0.0247],
+        ...,
+        [-0.0703, -0.0433, -0.0088,  ..., -0.0187,  0.0301,  0.0141],
+        [ 0.0109, -0.0034, -0.0050,  ..., -0.0385, -0.0180, -0.0309],
+        [-0.0003, -0.0046,  0.0014,  ...,  0.0081,  0.0247, -0.0012]],
+       device='cuda:0'), grad: tensor([[ 5.5361e-04,  5.6297e-05,  7.1824e-05,  ...,  1.1319e-04,
+          9.8050e-05,  1.5998e-04],
+        [-7.1287e-04, -7.9870e-05, -9.9361e-05,  ..., -1.4067e-04,
+         -1.2290e-04, -1.9860e-04],
+        [ 1.2398e-04,  9.6634e-06,  1.0125e-05,  ...,  2.9579e-05,
+          1.6615e-05,  2.7463e-05],
+        ...,
+        [ 2.6494e-05,  3.0920e-06,  3.6918e-06,  ...,  5.0887e-06,
+          4.1723e-06,  6.8136e-06],
+        [ 8.1778e-05,  1.2785e-05,  1.4015e-05,  ...,  1.3821e-05,
+          1.1370e-05,  1.7181e-05],
+        [ 6.1750e-05,  6.5267e-06,  7.8753e-06,  ...,  1.2688e-05,
+          1.0051e-05,  1.6287e-05]], device='cuda:0')
+Epoch 27, bias, value: tensor([ 0.0739,  0.0183,  0.0740,  0.0493,  0.0782, -0.1581, -0.1283],
+       device='cuda:0'), grad: tensor([ 0.0024, -0.0029,  0.0004, -0.0005,  0.0001,  0.0002,  0.0002],
+       device='cuda:0')
+588
+0.0069651251582696205
+changing lr
+epoch 26, time 680.22, cls_loss 0.4851 cls_loss_mapping 0.0342 cls_loss_causal 0.4202 re_mapping 0.0165 re_causal 0.0189 /// teacc 70.10 lr 0.00675687
+Epoch 28, weight, value: tensor([[ 0.0859,  0.0753,  0.0747,  ..., -0.0008, -0.0384, -0.0111],
+        [-0.0319, -0.0178, -0.0347,  ...,  0.0193,  0.0224,  0.0454],
+        [-0.0268, -0.0122,  0.0094,  ...,  0.0156, -0.0230, -0.0221],
+        ...,
+        [-0.0657, -0.0472, -0.0117,  ..., -0.0165,  0.0304,  0.0167],
+        [ 0.0126, -0.0028, -0.0044,  ..., -0.0382, -0.0178, -0.0304],
+        [-0.0026, -0.0028,  0.0030,  ...,  0.0076,  0.0233, -0.0028]],
+       device='cuda:0'), grad: tensor([[ 4.7798e-03,  4.2152e-04,  4.9829e-04,  ...,  8.7166e-04,
+          7.7629e-04,  1.2436e-03],
+        [-2.9037e-02, -1.3914e-03, -2.2774e-03,  ..., -4.4746e-03,
+         -4.2801e-03, -6.9962e-03],
+        [ 1.0727e-02,  6.0797e-04,  8.7786e-04,  ...,  1.7557e-03,
+          1.6384e-03,  2.6913e-03],
+        ...,
+        [ 1.5457e-02,  1.0386e-03,  1.3132e-03,  ...,  3.3836e-03,
+          3.0651e-03,  4.8103e-03],
+        [ 7.3242e-04,  4.6551e-05,  6.2644e-05,  ...,  1.3614e-04,
+          1.2505e-04,  2.0039e-04],
+        [ 9.2030e-04,  4.7743e-05,  7.4267e-05,  ...,  1.4579e-04,
+          1.3816e-04,  2.2531e-04]], device='cuda:0')
+Epoch 28, bias, value: tensor([ 0.0205,  0.0431,  0.0886,  0.0290,  0.1352, -0.1435, -0.1658],
+       device='cuda:0'), grad: tensor([ 0.0215, -0.1378,  0.0507, -0.0155,  0.0733,  0.0034,  0.0043],
+       device='cuda:0')
+588
+0.006756874120406716
+changing lr
+epoch 27, time 684.96, cls_loss 0.4889 cls_loss_mapping 0.0332 cls_loss_causal 0.4272 re_mapping 0.0155 re_causal 0.0182 /// teacc 91.21 lr 0.00654508
+Epoch 29, weight, value: tensor([[ 0.0888,  0.0760,  0.0731,  ...,  0.0025, -0.0356, -0.0061],
+        [-0.0375, -0.0179, -0.0358,  ...,  0.0186,  0.0226,  0.0424],
+        [-0.0222, -0.0129,  0.0081,  ...,  0.0143, -0.0239, -0.0234],
+        ...,
+        [-0.0699, -0.0455, -0.0073,  ..., -0.0141,  0.0327,  0.0198],
+        [ 0.0127, -0.0043, -0.0054,  ..., -0.0399, -0.0189, -0.0315],
+        [-0.0029, -0.0031,  0.0027,  ...,  0.0075,  0.0229, -0.0029]],
+       device='cuda:0'), grad: tensor([[ 1.5350e-02,  2.1954e-03,  1.7910e-03,  ...,  5.3825e-03,
+          2.9964e-03,  4.8523e-03],
+        [-2.1011e-02, -3.0499e-03, -2.5234e-03,  ..., -7.1983e-03,
+         -4.0016e-03, -6.5041e-03],
+        [ 2.9736e-03,  4.4179e-04,  3.7503e-04,  ...,  9.6655e-04,
+          5.3215e-04,  8.7738e-04],
+        ...,
+        [ 4.9925e-04,  8.3983e-05,  7.5340e-05,  ...,  1.4734e-04,
+          8.2850e-05,  1.3638e-04],
+        [ 1.1024e-03,  1.6654e-04,  1.4210e-04,  ...,  3.5620e-04,
+          1.9670e-04,  3.2401e-04],
+        [ 6.6137e-04,  9.9957e-05,  8.5413e-05,  ...,  2.1338e-04,
+          1.1784e-04,  1.9407e-04]], device='cuda:0')
+Epoch 29, bias, value: tensor([ 0.0566, -0.0129,  0.0808,  0.0428,  0.1565, -0.1348, -0.1819],
+       device='cuda:0'), grad: tensor([ 0.0476, -0.0646,  0.0090,  0.0013,  0.0015,  0.0033,  0.0020],
+       device='cuda:0')
+588
+0.00654508497187474
+changing lr
+---------------------saving model at epoch 28----------------------------------------------------
+epoch 28, time 692.49, cls_loss 0.4780 cls_loss_mapping 0.0269 cls_loss_causal 0.4118 re_mapping 0.0144 re_causal 0.0172 /// teacc 93.97 lr 0.00633018
+Epoch 30, weight, value: tensor([[ 0.0886,  0.0768,  0.0724,  ...,  0.0018, -0.0371, -0.0081],
+        [-0.0329, -0.0185, -0.0355,  ...,  0.0175,  0.0209,  0.0420],
+        [-0.0332, -0.0159,  0.0047,  ...,  0.0144, -0.0228, -0.0223],
+        ...,
+        [-0.0570, -0.0386,  0.0008,  ..., -0.0125,  0.0338,  0.0206],
+        [ 0.0064, -0.0057, -0.0075,  ..., -0.0402, -0.0193, -0.0328],
+        [ 0.0003, -0.0024,  0.0036,  ...,  0.0092,  0.0238, -0.0014]],
+       device='cuda:0'), grad: tensor([[-3.1525e-02, -5.7716e-03, -5.9280e-03,  ..., -4.0588e-03,
+         -2.2049e-03, -5.6267e-03],
+        [ 9.0361e-04,  1.2445e-04,  1.2541e-04,  ...,  1.6320e-04,
+          1.1039e-04,  1.7929e-04],
+        [ 1.8036e-02,  2.2564e-03,  2.2812e-03,  ...,  2.9926e-03,
+          1.8854e-03,  3.4695e-03],
+        ...,
+        [ 2.1652e-02,  3.7289e-03,  3.8185e-03,  ...,  2.9812e-03,
+          1.6975e-03,  3.9444e-03],
+        [ 2.2590e-05,  3.7383e-06,  3.8259e-06,  ...,  3.1143e-06,
+          1.7583e-06,  4.1127e-06],
+        [ 7.7069e-05,  1.0721e-05,  1.0885e-05,  ...,  1.1876e-05,
+          7.0892e-06,  1.4760e-05]], device='cuda:0')
+Epoch 30, bias, value: tensor([ 0.0367,  0.0397,  0.0530,  0.0645,  0.1490, -0.1679, -0.1679],
+       device='cuda:0'), grad: tensor([-1.1957e-01,  2.9793e-03,  6.4026e-02, -2.8687e-02,  8.0811e-02,
+         8.4937e-05,  2.8729e-04], device='cuda:0')
+588
+0.006330184227833378
+changing lr
+epoch 29, time 690.94, cls_loss 0.4710 cls_loss_mapping 0.0277 cls_loss_causal 0.4113 re_mapping 0.0136 re_causal 0.0164 /// teacc 93.72 lr 0.00611260
+Epoch 31, weight, value: tensor([[ 0.1023,  0.0803,  0.0766,  ...,  0.0053, -0.0331, -0.0026],
+        [-0.0395, -0.0202, -0.0377,  ...,  0.0175,  0.0197,  0.0410],
+        [-0.0308, -0.0150,  0.0065,  ...,  0.0179, -0.0189, -0.0190],
+        ...,
+        [-0.0653, -0.0397, -0.0003,  ..., -0.0181,  0.0294,  0.0151],
+        [ 0.0154, -0.0040, -0.0056,  ..., -0.0389, -0.0187, -0.0315],
+        [-0.0007, -0.0024,  0.0027,  ...,  0.0099,  0.0238, -0.0012]],
+       device='cuda:0'), grad: tensor([[-1.7563e-02, -1.7366e-03, -3.3550e-03,  ..., -2.5978e-03,
+         -2.0123e-03, -3.8033e-03],
+        [ 2.7847e-03,  2.7800e-04,  5.3406e-04,  ...,  4.1962e-04,
+          3.2258e-04,  6.0511e-04],
+        [ 6.3858e-03,  6.4278e-04,  1.2226e-03,  ...,  9.7656e-04,
+          7.4911e-04,  1.3943e-03],
+        ...,
+        [ 4.4098e-03,  4.2129e-04,  8.3780e-04,  ...,  6.0320e-04,
+          4.8041e-04,  9.3842e-04],
+        [ 8.2779e-04,  8.0466e-05,  1.5748e-04,  ...,  1.2386e-04,
+          9.5308e-05,  1.7989e-04],
+        [ 1.0300e-03,  1.0401e-04,  1.9717e-04,  ...,  1.5736e-04,
+          1.2076e-04,  2.2471e-04]], device='cuda:0')
+Epoch 31, bias, value: tensor([ 0.0756,  0.0349,  0.0627,  0.0120,  0.1208, -0.1350, -0.1641],
+       device='cuda:0'), grad: tensor([-0.1053,  0.0166,  0.0380,  0.0128,  0.0269,  0.0050,  0.0061],
+       device='cuda:0')
+588
+0.006112604669781575
+changing lr
+epoch 30, time 693.10, cls_loss 0.4571 cls_loss_mapping 0.0313 cls_loss_causal 0.3971 re_mapping 0.0132 re_causal 0.0160 /// teacc 89.95 lr 0.00589278
+Epoch 32, weight, value: tensor([[ 0.1043,  0.0865,  0.0828,  ..., -0.0007, -0.0399, -0.0078],
+        [-0.0400, -0.0237, -0.0391,  ...,  0.0189,  0.0216,  0.0415],
+        [-0.0327, -0.0170,  0.0048,  ...,  0.0211, -0.0150, -0.0154],
+        ...,
+        [-0.0669, -0.0412, -0.0032,  ..., -0.0204,  0.0267,  0.0124],
+        [ 0.0098, -0.0051, -0.0070,  ..., -0.0384, -0.0182, -0.0314],
+        [ 0.0030, -0.0009,  0.0033,  ...,  0.0120,  0.0257,  0.0004]],
+       device='cuda:0'), grad: tensor([[ 0.0003,  0.0088,  0.0050,  ..., -0.0069, -0.0075, -0.0084],
+        [-0.0412, -0.0222, -0.0210,  ..., -0.0069, -0.0057, -0.0078],
+        [-0.0574, -0.0055, -0.0068,  ..., -0.0094, -0.0090, -0.0128],
+        ...,
+        [ 0.0674,  0.0136,  0.0163,  ...,  0.0163,  0.0156,  0.0202],
+        [ 0.0119,  0.0025,  0.0031,  ...,  0.0033,  0.0032,  0.0041],
+        [ 0.0116,  0.0020,  0.0024,  ...,  0.0025,  0.0024,  0.0031]],
+       device='cuda:0')
+Epoch 32, bias, value: tensor([ 0.0958,  0.0736,  0.0700,  0.0122,  0.1214, -0.1661, -0.2001],
+       device='cuda:0'), grad: tensor([ 0.0087, -0.1146, -0.2386,  0.0333,  0.2311,  0.0396,  0.0406],
+       device='cuda:0')
+588
+0.005892784473993186
+changing lr
+---------------------saving model at epoch 31----------------------------------------------------
+epoch 31, time 774.97, cls_loss 0.4590 cls_loss_mapping 0.0249 cls_loss_causal 0.3979 re_mapping 0.0126 re_causal 0.0154 /// teacc 94.72 lr 0.00567117
+Epoch 33, weight, value: tensor([[ 1.1088e-01,  9.4781e-02,  8.9059e-02,  ...,  2.8668e-03,
+         -3.6429e-02, -4.4354e-03],
+        [-3.9855e-02, -2.2291e-02, -3.6948e-02,  ...,  1.9971e-02,
+          2.3500e-02,  4.3481e-02],
+        [-3.6161e-02, -2.0158e-02,  1.7275e-03,  ...,  1.5479e-02,
+         -2.0984e-02, -2.2662e-02],
+        ...,
+        [-7.0528e-02, -4.4247e-02, -6.3601e-03,  ..., -1.9381e-02,
+          2.8153e-02,  1.4077e-02],
+        [ 9.4995e-03, -5.1433e-03, -7.2195e-03,  ..., -3.7953e-02,
+         -1.7829e-02, -3.1514e-02],
+        [ 3.8024e-03, -3.0088e-03,  2.3731e-03,  ...,  1.1398e-02,
+          2.4555e-02, -4.1598e-05]], device='cuda:0'), grad: tensor([[-0.0131, -0.0021, -0.0031,  ..., -0.0025, -0.0020, -0.0039],
+        [ 0.0095,  0.0016,  0.0021,  ...,  0.0012,  0.0012,  0.0019],
+        [ 0.0081,  0.0013,  0.0018,  ...,  0.0010,  0.0010,  0.0016],
+        ...,
+        [ 0.0106,  0.0018,  0.0027,  ...,  0.0005,  0.0009,  0.0018],
+        [ 0.0026,  0.0004,  0.0006,  ...,  0.0004,  0.0003,  0.0006],
+        [ 0.0094,  0.0015,  0.0020,  ...,  0.0014,  0.0013,  0.0021]],
+       device='cuda:0')
+Epoch 33, bias, value: tensor([ 0.0747,  0.0877,  0.0452,  0.0302,  0.1275, -0.1847, -0.1739],
+       device='cuda:0'), grad: tensor([-0.0499,  0.0422,  0.0363, -0.1355,  0.0559,  0.0113,  0.0395],
+       device='cuda:0')
+588
+0.00567116632908828
+changing lr
+epoch 32, time 764.55, cls_loss 0.4449 cls_loss_mapping 0.0241 cls_loss_causal 0.3866 re_mapping 0.0118 re_causal 0.0148 /// teacc 84.67 lr 0.00544820
+Epoch 34, weight, value: tensor([[ 0.1065,  0.0906,  0.0859,  ...,  0.0024, -0.0371, -0.0043],
+        [-0.0352, -0.0230, -0.0371,  ...,  0.0193,  0.0234,  0.0434],
+        [-0.0362, -0.0167,  0.0027,  ...,  0.0154, -0.0202, -0.0235],
+        ...,
+        [-0.0704, -0.0411, -0.0024,  ..., -0.0198,  0.0275,  0.0140],
+        [ 0.0104, -0.0056, -0.0076,  ..., -0.0370, -0.0172, -0.0306],
+        [ 0.0007, -0.0049,  0.0001,  ...,  0.0108,  0.0238, -0.0009]],
+       device='cuda:0'), grad: tensor([[ 5.2567e-03,  3.7718e-04,  1.1120e-03,  ...,  1.1683e-03,
+          1.0529e-03,  1.8654e-03],
+        [-2.1042e-02, -1.7138e-03, -4.6539e-03,  ..., -4.4289e-03,
+         -3.8185e-03, -7.1259e-03],
+        [ 3.7670e-03,  3.2234e-04,  8.5878e-04,  ...,  7.6580e-04,
+          6.3181e-04,  1.2407e-03],
+        ...,
+        [ 4.9171e-03,  4.1628e-04,  1.0862e-03,  ...,  1.0328e-03,
+          8.9836e-04,  1.6546e-03],
+        [ 1.0004e-03,  8.3327e-05,  2.2113e-04,  ...,  2.1017e-04,
+          1.8215e-04,  3.3736e-04],
+        [ 1.5516e-03,  1.2958e-04,  3.4475e-04,  ...,  3.2425e-04,
+          2.7871e-04,  5.2166e-04]], device='cuda:0')
+Epoch 34, bias, value: tensor([ 0.0945,  0.0980,  0.0156,  0.0471,  0.1189, -0.1740, -0.1936],
+       device='cuda:0'), grad: tensor([ 0.0342, -0.1377,  0.0251,  0.0302,  0.0316,  0.0065,  0.0101],
+       device='cuda:0')
+588
+0.00544819654451717
+changing lr
+epoch 33, time 779.12, cls_loss 0.4387 cls_loss_mapping 0.0180 cls_loss_causal 0.3814 re_mapping 0.0108 re_causal 0.0139 /// teacc 92.71 lr 0.00522432
+Epoch 35, weight, value: tensor([[ 1.0692e-01,  8.7335e-02,  8.3676e-02,  ...,  3.2237e-03,
+         -3.4370e-02, -2.4075e-03],
+        [-3.7341e-02, -2.2378e-02, -3.6617e-02,  ...,  1.7829e-02,
+          2.2098e-02,  4.1635e-02],
+        [-3.4131e-02, -1.9474e-02, -9.5873e-04,  ...,  1.5953e-02,
+         -1.9218e-02, -2.2449e-02],
+        ...,
+        [-6.6750e-02, -3.7825e-02,  7.1545e-04,  ..., -1.9787e-02,
+          2.6101e-02,  1.3364e-02],
+        [ 6.5653e-03, -5.3993e-03, -7.5580e-03,  ..., -3.6816e-02,
+         -1.7364e-02, -3.0610e-02],
+        [ 2.0241e-03, -4.3454e-03,  5.8446e-04,  ...,  1.1217e-02,
+          2.4308e-02, -4.4662e-06]], device='cuda:0'), grad: tensor([[ 1.2421e-02,  1.2932e-03,  2.5444e-03,  ...,  2.0008e-03,
+          1.5078e-03,  3.1853e-03],
+        [-1.8295e-02, -2.0180e-03, -3.5553e-03,  ..., -2.5444e-03,
+         -2.1515e-03, -4.5929e-03],
+        [ 6.8235e-04, -3.0780e-04,  9.6917e-05,  ..., -8.6832e-04,
+         -5.6124e-04, -2.1768e-04],
+        ...,
+        [ 1.8814e-02,  2.2411e-03,  3.7346e-03,  ...,  3.6888e-03,
+          2.6493e-03,  4.9095e-03],
+        [ 1.2236e-03,  1.2529e-04,  2.4676e-04,  ...,  1.8930e-04,
+          1.4198e-04,  3.0661e-04],
+        [ 2.7695e-03,  2.8300e-04,  5.6124e-04,  ...,  4.3464e-04,
+          3.2401e-04,  6.9714e-04]], device='cuda:0')
+Epoch 35, bias, value: tensor([ 0.1158,  0.0699,  0.0349,  0.0361,  0.1315, -0.1821, -0.1997],
+       device='cuda:0'), grad: tensor([ 0.0805, -0.1219,  0.0337, -0.1145,  0.0961,  0.0080,  0.0181],
+       device='cuda:0')
+588
+0.005224324151752577
+changing lr
+epoch 34, time 757.73, cls_loss 0.4479 cls_loss_mapping 0.0170 cls_loss_causal 0.3875 re_mapping 0.0102 re_causal 0.0132 /// teacc 92.71 lr 0.00500000
+Epoch 36, weight, value: tensor([[ 1.0066e-01,  8.7065e-02,  8.4182e-02,  ...,  4.8024e-03,
+         -3.2129e-02,  1.0299e-04],
+        [-3.5042e-02, -1.8709e-02, -3.3490e-02,  ...,  1.7385e-02,
+          2.2637e-02,  4.1265e-02],
+        [-3.4555e-02, -2.1502e-02, -2.8534e-03,  ...,  1.6603e-02,
+         -1.7758e-02, -2.1150e-02],
+        ...,
+        [-6.1213e-02, -3.6531e-02,  1.4066e-03,  ..., -2.2078e-02,
+          2.2884e-02,  1.0314e-02],
+        [ 1.3104e-02, -4.8887e-03, -6.1416e-03,  ..., -3.4353e-02,
+         -1.5921e-02, -2.8223e-02],
+        [ 2.7333e-03, -5.1766e-03,  1.1926e-05,  ...,  1.0267e-02,
+          2.3043e-02, -8.5734e-04]], device='cuda:0'), grad: tensor([[-0.0053,  0.0023,  0.0026,  ..., -0.0074, -0.0075, -0.0112],
+        [-0.0158, -0.0053, -0.0057,  ..., -0.0007, -0.0004, -0.0011],
+        [ 0.0082,  0.0011,  0.0011,  ...,  0.0033,  0.0032,  0.0049],
+        ...,
+        [ 0.0086,  0.0014,  0.0014,  ...,  0.0030,  0.0029,  0.0046],
+        [ 0.0010,  0.0001,  0.0001,  ...,  0.0004,  0.0004,  0.0007],
+        [ 0.0015,  0.0002,  0.0002,  ...,  0.0006,  0.0006,  0.0009]],
+       device='cuda:0')
+Epoch 36, bias, value: tensor([ 0.1341,  0.0527,  0.0424, -0.0082,  0.1259, -0.1553, -0.1854],
+       device='cuda:0'), grad: tensor([-0.1028, -0.0265,  0.0518,  0.0123,  0.0492,  0.0068,  0.0094],
+       device='cuda:0')
+588
+0.005000000000000003
+changing lr
+epoch 35, time 771.10, cls_loss 0.4343 cls_loss_mapping 0.0186 cls_loss_causal 0.3799 re_mapping 0.0095 re_causal 0.0127 /// teacc 93.97 lr 0.00477568
+Epoch 37, weight, value: tensor([[ 0.0995,  0.0823,  0.0798,  ...,  0.0025, -0.0348, -0.0018],
+        [-0.0337, -0.0161, -0.0300,  ...,  0.0166,  0.0230,  0.0411],
+        [-0.0386, -0.0213, -0.0032,  ...,  0.0164, -0.0177, -0.0224],
+        ...,
+        [-0.0626, -0.0372,  0.0009,  ..., -0.0166,  0.0274,  0.0169],
+        [ 0.0082, -0.0056, -0.0071,  ..., -0.0349, -0.0165, -0.0294],
+        [ 0.0049, -0.0021,  0.0017,  ...,  0.0087,  0.0209, -0.0030]],
+       device='cuda:0'), grad: tensor([[4.2953e-03, 2.3353e-04, 4.8232e-04,  ..., 6.4230e-04, 9.0551e-04,
+         1.1539e-03],
+        [4.4899e-03, 3.0231e-04, 5.5885e-04,  ..., 6.9618e-04, 9.5463e-04,
+         1.2121e-03],
+        [2.7504e-03, 1.5175e-04, 3.1090e-04,  ..., 4.1056e-04, 5.7840e-04,
+         7.3767e-04],
+        ...,
+        [6.8665e-03, 2.5988e-04, 6.6566e-04,  ..., 9.7322e-04, 1.4286e-03,
+         1.8272e-03],
+        [8.2731e-04, 7.1645e-05, 1.1784e-04,  ..., 1.3542e-04, 1.7834e-04,
+         2.2554e-04],
+        [1.1501e-03, 6.9320e-05, 1.3554e-04,  ..., 1.7464e-04, 2.4331e-04,
+         3.0947e-04]], device='cuda:0')
+Epoch 37, bias, value: tensor([ 0.1488,  0.0642,  0.0060,  0.0016,  0.1758, -0.1781, -0.2120],
+       device='cuda:0'), grad: tensor([ 0.0297,  0.0296,  0.0190, -0.1414,  0.0502,  0.0051,  0.0078],
+       device='cuda:0')
+588
+0.004775675848247429
+changing lr
+epoch 36, time 779.47, cls_loss 0.4363 cls_loss_mapping 0.0161 cls_loss_causal 0.3879 re_mapping 0.0091 re_causal 0.0124 /// teacc 86.68 lr 0.00455180
+Epoch 38, weight, value: tensor([[ 0.0978,  0.0788,  0.0761,  ...,  0.0006, -0.0375, -0.0038],
+        [-0.0309, -0.0141, -0.0280,  ...,  0.0189,  0.0252,  0.0431],
+        [-0.0326, -0.0183,  0.0017,  ...,  0.0169, -0.0162, -0.0210],
+        ...,
+        [-0.0652, -0.0372, -0.0016,  ..., -0.0186,  0.0256,  0.0144],
+        [ 0.0036, -0.0063, -0.0083,  ..., -0.0349, -0.0167, -0.0298],
+        [ 0.0056, -0.0020,  0.0013,  ...,  0.0091,  0.0211, -0.0030]],
+       device='cuda:0'), grad: tensor([[ 1.8906e-02,  1.4210e-03,  2.9564e-03,  ...,  3.0632e-03,
+          2.4643e-03,  3.6240e-03],
+        [-1.6113e-02, -9.7227e-04, -2.9049e-03,  ..., -1.5612e-03,
+         -1.4124e-03, -2.0142e-03],
+        [-7.2289e-04, -1.3733e-04,  3.1209e-04,  ..., -6.2847e-04,
+         -6.5756e-04, -2.9063e-04],
+        ...,
+        [-1.6876e-02, -1.3781e-03, -2.9335e-03,  ..., -2.9774e-03,
+         -1.9932e-03, -4.0779e-03],
+        [ 9.9564e-04,  7.0393e-05,  1.7381e-04,  ...,  1.3626e-04,
+          1.0478e-04,  1.7917e-04],
+        [ 2.8248e-03,  2.0337e-04,  4.8876e-04,  ...,  4.0174e-04,
+          3.0661e-04,  5.2500e-04]], device='cuda:0')
+Epoch 38, bias, value: tensor([ 0.1407,  0.0708,  0.0286,  0.0378,  0.1499, -0.1973, -0.2245],
+       device='cuda:0'), grad: tensor([ 0.0956, -0.1208,  0.0276,  0.0692, -0.0957,  0.0064,  0.0177],
+       device='cuda:0')
+588
+0.004551803455482836
+changing lr
+epoch 37, time 786.30, cls_loss 0.4040 cls_loss_mapping 0.0160 cls_loss_causal 0.3616 re_mapping 0.0091 re_causal 0.0123 /// teacc 86.18 lr 0.00432883
+Epoch 39, weight, value: tensor([[ 0.0916,  0.0732,  0.0713,  ...,  0.0030, -0.0350, -0.0010],
+        [-0.0280, -0.0151, -0.0296,  ...,  0.0200,  0.0254,  0.0439],
+        [-0.0305, -0.0154,  0.0036,  ...,  0.0184, -0.0144, -0.0197],
+        ...,
+        [-0.0652, -0.0359,  0.0005,  ..., -0.0228,  0.0225,  0.0107],
+        [ 0.0074, -0.0053, -0.0074,  ..., -0.0338, -0.0164, -0.0289],
+        [ 0.0094,  0.0006,  0.0037,  ...,  0.0098,  0.0214, -0.0023]],
+       device='cuda:0'), grad: tensor([[-1.4581e-05, -5.0329e-06, -4.8727e-06,  ...,  1.0999e-06,
+          1.3215e-06,  3.1758e-07],
+        [ 5.1707e-05,  1.4842e-05,  1.6198e-05,  ...,  8.4341e-06,
+          7.5921e-06,  9.4622e-06],
+        [ 1.6512e-06, -6.1095e-06, -4.5858e-06,  ...,  5.2005e-06,
+          4.8243e-06,  5.3048e-06],
+        ...,
+        [-1.2875e-05,  2.1420e-08, -6.9384e-07,  ..., -8.2608e-07,
+         -8.1956e-07, -1.4976e-06],
+        [ 3.0641e-07,  6.5193e-08,  7.7300e-08,  ...,  6.3330e-08,
+          5.8673e-08,  6.8918e-08],
+        [ 5.5991e-06,  1.2349e-06,  1.5628e-06,  ...,  2.0713e-06,
+          1.9260e-06,  2.0657e-06]], device='cuda:0')
+Epoch 39, bias, value: tensor([ 0.1431,  0.0782,  0.0160,  0.0155,  0.1591, -0.1883, -0.2175],
+       device='cuda:0'), grad: tensor([-2.5854e-05,  1.1688e-04,  2.8625e-05, -8.6725e-05, -4.8101e-05,
+         8.3353e-07,  1.4268e-05], device='cuda:0')
+588
+0.004328833670911726
+changing lr
+---------------------saving model at epoch 38----------------------------------------------------
+epoch 38, time 780.82, cls_loss 0.4154 cls_loss_mapping 0.0162 cls_loss_causal 0.3698 re_mapping 0.0089 re_causal 0.0122 /// teacc 94.97 lr 0.00410722
+Epoch 40, weight, value: tensor([[ 0.0920,  0.0744,  0.0717,  ...,  0.0019, -0.0357, -0.0023],
+        [-0.0278, -0.0134, -0.0279,  ...,  0.0197,  0.0252,  0.0434],
+        [-0.0313, -0.0136,  0.0055,  ...,  0.0189, -0.0131, -0.0182],
+        ...,
+        [-0.0666, -0.0383, -0.0010,  ..., -0.0205,  0.0244,  0.0130],
+        [ 0.0111, -0.0057, -0.0079,  ..., -0.0331, -0.0165, -0.0284],
+        [ 0.0070, -0.0003,  0.0028,  ...,  0.0078,  0.0195, -0.0047]],
+       device='cuda:0'), grad: tensor([[4.2038e-03, 4.2152e-04, 7.8535e-04,  ..., 5.0259e-04, 2.0897e-04,
+         6.9189e-04],
+        [6.7978e-03, 6.8235e-04, 1.2693e-03,  ..., 8.1205e-04, 3.3808e-04,
+         1.1177e-03],
+        [4.7951e-03, 4.8137e-04, 8.9550e-04,  ..., 5.7268e-04, 2.3794e-04,
+         7.8821e-04],
+        ...,
+        [6.8359e-03, 6.8712e-04, 1.2770e-03,  ..., 8.1635e-04, 3.3903e-04,
+         1.1234e-03],
+        [1.8139e-03, 1.8203e-04, 3.3879e-04,  ..., 2.1660e-04, 8.9943e-05,
+         2.9802e-04],
+        [2.2030e-03, 2.2125e-04, 4.1175e-04,  ..., 2.6321e-04, 1.0931e-04,
+         3.6216e-04]], device='cuda:0')
+Epoch 40, bias, value: tensor([ 0.1263,  0.0593,  0.0603,  0.0042,  0.1765, -0.1862, -0.2344],
+       device='cuda:0'), grad: tensor([ 0.0235,  0.0380,  0.0268, -0.1490,  0.0382,  0.0101,  0.0123],
+       device='cuda:0')
+588
+0.0041072155260068206
+changing lr
+---------------------saving model at epoch 39----------------------------------------------------
+epoch 39, time 779.77, cls_loss 0.4177 cls_loss_mapping 0.0138 cls_loss_causal 0.3630 re_mapping 0.0086 re_causal 0.0118 /// teacc 95.98 lr 0.00388740
+Epoch 41, weight, value: tensor([[ 0.0984,  0.0775,  0.0753,  ...,  0.0041, -0.0332, -0.0003],
+        [-0.0319, -0.0139, -0.0284,  ...,  0.0195,  0.0251,  0.0428],
+        [-0.0310, -0.0155,  0.0040,  ...,  0.0171, -0.0147, -0.0194],
+        ...,
+        [-0.0663, -0.0381, -0.0024,  ..., -0.0235,  0.0217,  0.0099],
+        [ 0.0095, -0.0060, -0.0087,  ..., -0.0331, -0.0169, -0.0286],
+        [ 0.0066,  0.0004,  0.0036,  ...,  0.0091,  0.0204, -0.0037]],
+       device='cuda:0'), grad: tensor([[-1.8326e-02, -2.1744e-03, -3.5877e-03,  ..., -2.2984e-03,
+         -4.8846e-05, -2.0256e-03],
+        [-2.5085e-02, -1.9684e-03, -3.1757e-03,  ..., -2.8210e-03,
+         -1.9131e-03, -4.2381e-03],
+        [ 1.1238e-02,  1.0681e-03,  1.7481e-03,  ...,  1.2856e-03,
+          4.5896e-04,  1.5821e-03],
+        ...,
+        [ 1.3763e-02,  1.3332e-03,  2.1706e-03,  ...,  1.6632e-03,
+          6.4182e-04,  2.0008e-03],
+        [ 1.8530e-03,  1.7548e-04,  2.8825e-04,  ...,  2.1911e-04,
+          8.3745e-05,  2.6774e-04],
+        [ 6.2943e-03,  5.8603e-04,  9.5606e-04,  ...,  7.3957e-04,
+          3.1281e-04,  9.3126e-04]], device='cuda:0')
+Epoch 41, bias, value: tensor([ 0.1502,  0.0550,  0.0647,  0.0349,  0.1417, -0.1977, -0.2429],
+       device='cuda:0'), grad: tensor([-0.0866, -0.1193,  0.0535,  0.0486,  0.0651,  0.0088,  0.0299],
+       device='cuda:0')
+588
+0.0038873953302184317
+changing lr
+epoch 40, time 791.47, cls_loss 0.3946 cls_loss_mapping 0.0121 cls_loss_causal 0.3588 re_mapping 0.0084 re_causal 0.0118 /// teacc 90.45 lr 0.00366982
+Epoch 42, weight, value: tensor([[ 0.0973,  0.0764,  0.0741,  ...,  0.0015, -0.0344, -0.0030],
+        [-0.0298, -0.0131, -0.0269,  ...,  0.0212,  0.0259,  0.0442],
+        [-0.0271, -0.0142,  0.0052,  ...,  0.0189, -0.0123, -0.0172],
+        ...,
+        [-0.0683, -0.0386, -0.0041,  ..., -0.0247,  0.0199,  0.0085],
+        [ 0.0064, -0.0063, -0.0092,  ..., -0.0334, -0.0173, -0.0291],
+        [ 0.0084, -0.0004,  0.0034,  ...,  0.0100,  0.0207, -0.0019]],
+       device='cuda:0'), grad: tensor([[-1.4954e-03, -4.0698e-04, -5.4300e-05,  ..., -1.7347e-03,
+         -1.0986e-03, -1.4629e-03],
+        [ 9.1705e-03,  7.8249e-04,  1.0357e-03,  ...,  1.9760e-03,
+          1.2846e-03,  2.4204e-03],
+        [-2.3594e-03, -4.4870e-04, -6.6471e-04,  ..., -2.1973e-03,
+         -2.4948e-03, -2.2583e-03],
+        ...,
+        [ 1.6235e-02,  1.4524e-03,  2.1782e-03,  ...,  4.7493e-03,
+          4.1618e-03,  5.6000e-03],
+        [ 7.6342e-04,  4.9502e-05,  8.8871e-05,  ...,  9.9480e-05,
+          6.6161e-05,  1.5271e-04],
+        [ 1.8587e-03,  1.2445e-04,  2.1911e-04,  ...,  2.4629e-04,
+          1.6415e-04,  3.7456e-04]], device='cuda:0')
+Epoch 42, bias, value: tensor([ 0.1428,  0.0445,  0.0842,  0.0344,  0.1191, -0.2139, -0.2054],
+       device='cuda:0'), grad: tensor([ 0.0102,  0.0445,  0.0079, -0.1438,  0.0657,  0.0045,  0.0110],
+       device='cuda:0')
+588
+0.003669815772166629
+changing lr
+epoch 41, time 792.29, cls_loss 0.4267 cls_loss_mapping 0.0129 cls_loss_causal 0.3780 re_mapping 0.0080 re_causal 0.0115 /// teacc 92.46 lr 0.00345492
+Epoch 43, weight, value: tensor([[ 0.0931,  0.0730,  0.0702,  ...,  0.0012, -0.0348, -0.0031],
+        [-0.0311, -0.0143, -0.0278,  ...,  0.0204,  0.0247,  0.0436],
+        [-0.0256, -0.0108,  0.0088,  ...,  0.0183, -0.0126, -0.0175],
+        ...,
+        [-0.0639, -0.0362, -0.0021,  ..., -0.0214,  0.0226,  0.0113],
+        [ 0.0080, -0.0070, -0.0099,  ..., -0.0334, -0.0174, -0.0290],
+        [ 0.0056,  0.0002,  0.0039,  ...,  0.0090,  0.0203, -0.0032]],
+       device='cuda:0'), grad: tensor([[ 1.2231e-04,  2.1413e-05,  2.9638e-05,  ...,  3.6806e-05,
+          3.6776e-05,  4.1515e-05],
+        [-2.4751e-05, -4.7646e-06, -5.3570e-06,  ..., -4.9435e-06,
+         -4.5784e-06, -5.4091e-06],
+        [ 7.5293e-04,  1.2243e-04,  1.3542e-04,  ...,  1.1533e-04,
+          1.1504e-04,  1.4341e-04],
+        ...,
+        [-8.5354e-04, -1.3959e-04, -1.6034e-04,  ..., -1.4782e-04,
+         -1.4782e-04, -1.8024e-04],
+        [ 8.5682e-07,  1.4529e-07,  2.0489e-07,  ...,  2.5518e-07,
+          2.5705e-07,  2.9244e-07],
+        [ 1.3821e-06,  2.3656e-07,  2.7381e-07,  ...,  2.5891e-07,
+          2.5518e-07,  3.0734e-07]], device='cuda:0')
+Epoch 43, bias, value: tensor([ 0.1181,  0.0755,  0.0780,  0.0365,  0.1302, -0.2041, -0.2284],
+       device='cuda:0'), grad: tensor([ 3.7217e-04, -6.4254e-05,  2.0313e-03,  1.1995e-06, -2.3479e-03,
+         2.6301e-06,  3.7830e-06], device='cuda:0')
+588
+0.0034549150281252667
+changing lr
+epoch 42, time 787.57, cls_loss 0.3895 cls_loss_mapping 0.0101 cls_loss_causal 0.3585 re_mapping 0.0073 re_causal 0.0105 /// teacc 92.21 lr 0.00324313
+Epoch 44, weight, value: tensor([[ 0.0927,  0.0746,  0.0724,  ...,  0.0026, -0.0331, -0.0015],
+        [-0.0294, -0.0125, -0.0258,  ...,  0.0220,  0.0264,  0.0457],
+        [-0.0271, -0.0111,  0.0073,  ...,  0.0158, -0.0148, -0.0204],
+        ...,
+        [-0.0619, -0.0388, -0.0049,  ..., -0.0225,  0.0209,  0.0101],
+        [ 0.0093, -0.0066, -0.0091,  ..., -0.0329, -0.0174, -0.0286],
+        [ 0.0046, -0.0011,  0.0028,  ...,  0.0084,  0.0196, -0.0038]],
+       device='cuda:0'), grad: tensor([[ 9.1553e-03,  1.5316e-03,  1.0080e-03,  ...,  9.4771e-05,
+         -2.1195e-04, -1.6999e-04],
+        [-1.1391e-02, -1.8349e-03, -1.3313e-03,  ..., -7.4387e-04,
+         -2.6751e-04, -5.7602e-04],
+        [ 4.9782e-04,  8.1778e-05,  9.6619e-05,  ...,  9.1076e-05,
+          8.1182e-05,  1.0973e-04],
+        ...,
+        [ 1.8320e-03,  2.5415e-04,  3.1614e-04,  ...,  5.8603e-04,
+          4.6778e-04,  6.9427e-04],
+        [ 3.3975e-05,  5.2340e-06,  5.2229e-06,  ...,  6.4969e-06,
+          4.9248e-06,  7.3053e-06],
+        [ 1.3411e-04,  2.1666e-05,  2.4527e-05,  ...,  2.4512e-05,
+          2.0996e-05,  2.8938e-05]], device='cuda:0')
+Epoch 44, bias, value: tensor([ 0.1306,  0.0833,  0.0673, -0.0022,  0.1496, -0.1983, -0.2248],
+       device='cuda:0'), grad: tensor([ 0.0188, -0.0268,  0.0015, -0.0008,  0.0067,  0.0001,  0.0004],
+       device='cuda:0')
+588
+0.0032431258795932905
+changing lr
+epoch 43, time 788.01, cls_loss 0.3788 cls_loss_mapping 0.0094 cls_loss_causal 0.3419 re_mapping 0.0070 re_causal 0.0101 /// teacc 93.97 lr 0.00303487
+Epoch 45, weight, value: tensor([[ 0.0932,  0.0760,  0.0743,  ...,  0.0015, -0.0335, -0.0021],
+        [-0.0291, -0.0106, -0.0243,  ...,  0.0233,  0.0270,  0.0466],
+        [-0.0239, -0.0090,  0.0093,  ...,  0.0159, -0.0135, -0.0195],
+        ...,
+        [-0.0698, -0.0438, -0.0101,  ..., -0.0230,  0.0201,  0.0086],
+        [ 0.0077, -0.0061, -0.0090,  ..., -0.0330, -0.0178, -0.0292],
+        [ 0.0032, -0.0022,  0.0017,  ...,  0.0080,  0.0190, -0.0040]],
+       device='cuda:0'), grad: tensor([[-3.4271e-02, -3.1567e-03, -5.1651e-03,  ..., -3.9787e-03,
+         -2.3766e-03, -4.8599e-03],
+        [ 1.3542e-02,  1.2465e-03,  2.0409e-03,  ...,  1.5726e-03,
+          9.3985e-04,  1.9197e-03],
+        [ 2.3041e-03,  2.1851e-04,  3.5453e-04,  ...,  2.2399e-04,
+          1.0812e-04,  2.7847e-04],
+        ...,
+        [ 8.3389e-03,  7.6342e-04,  1.2512e-03,  ...,  1.0080e-03,
+          6.2561e-04,  1.2264e-03],
+        [ 6.7406e-03,  6.2037e-04,  1.0157e-03,  ...,  7.8297e-04,
+          4.6754e-04,  9.5558e-04],
+        [ 1.3571e-03,  1.2481e-04,  2.0444e-04,  ...,  1.5783e-04,
+          9.4473e-05,  1.9276e-04]], device='cuda:0')
+Epoch 45, bias, value: tensor([ 0.1403,  0.0697,  0.0775,  0.0337,  0.1173, -0.2086, -0.2242],
+       device='cuda:0'), grad: tensor([-0.1427,  0.0564,  0.0098,  0.0083,  0.0346,  0.0281,  0.0056],
+       device='cuda:0')
+588
+0.0030348748417303863
+changing lr
+epoch 44, time 788.55, cls_loss 0.3752 cls_loss_mapping 0.0130 cls_loss_causal 0.3453 re_mapping 0.0071 re_causal 0.0103 /// teacc 88.44 lr 0.00283058
+Epoch 46, weight, value: tensor([[ 0.0930,  0.0731,  0.0705,  ...,  0.0015, -0.0342, -0.0025],
+        [-0.0307, -0.0099, -0.0233,  ...,  0.0228,  0.0268,  0.0454],
+        [-0.0222, -0.0077,  0.0106,  ...,  0.0169, -0.0122, -0.0177],
+        ...,
+        [-0.0655, -0.0404, -0.0067,  ..., -0.0217,  0.0218,  0.0108],
+        [ 0.0066, -0.0064, -0.0093,  ..., -0.0330, -0.0179, -0.0294],
+        [ 0.0024, -0.0034,  0.0004,  ...,  0.0069,  0.0178, -0.0053]],
+       device='cuda:0'), grad: tensor([[ 0.0108,  0.0013,  0.0020,  ...,  0.0015,  0.0009,  0.0021],
+        [-0.0224, -0.0031, -0.0046,  ..., -0.0023, -0.0016, -0.0037],
+        [-0.0093, -0.0063, -0.0065,  ..., -0.0047, -0.0044, -0.0046],
+        ...,
+        [-0.0074, -0.0002, -0.0006,  ..., -0.0014, -0.0005, -0.0017],
+        [ 0.0015,  0.0002,  0.0003,  ...,  0.0002,  0.0001,  0.0003],
+        [ 0.0024,  0.0003,  0.0005,  ...,  0.0003,  0.0002,  0.0005]],
+       device='cuda:0')
+Epoch 46, bias, value: tensor([ 0.1353,  0.0474,  0.1003,  0.0256,  0.1483, -0.2184, -0.2329],
+       device='cuda:0'), grad: tensor([ 0.0675, -0.1145,  0.0065,  0.0963, -0.0801,  0.0093,  0.0149],
+       device='cuda:0')
+588
+0.0028305813044122124
+changing lr
+epoch 45, time 794.64, cls_loss 0.3797 cls_loss_mapping 0.0091 cls_loss_causal 0.3451 re_mapping 0.0070 re_causal 0.0103 /// teacc 87.69 lr 0.00263066
+Epoch 47, weight, value: tensor([[ 0.0949,  0.0748,  0.0727,  ...,  0.0012, -0.0333, -0.0025],
+        [-0.0303, -0.0112, -0.0248,  ...,  0.0228,  0.0261,  0.0447],
+        [-0.0240, -0.0094,  0.0085,  ...,  0.0178, -0.0107, -0.0160],
+        ...,
+        [-0.0691, -0.0408, -0.0071,  ..., -0.0226,  0.0203,  0.0095],
+        [ 0.0073, -0.0059, -0.0090,  ..., -0.0325, -0.0173, -0.0289],
+        [ 0.0048, -0.0031,  0.0009,  ...,  0.0067,  0.0171, -0.0052]],
+       device='cuda:0'), grad: tensor([[ 3.5126e-02,  7.4921e-03,  8.8043e-03,  ...,  3.3112e-03,
+          2.0714e-03,  3.8185e-03],
+        [ 2.8419e-03,  1.0548e-03,  1.3552e-03,  ...,  1.2217e-03,
+          9.1362e-04,  1.1644e-03],
+        [-1.9135e-02, -3.9005e-03, -5.7678e-03,  ..., -6.3515e-03,
+         -5.9967e-03, -7.4539e-03],
+        ...,
+        [ 2.7283e-02,  5.6648e-03,  7.6256e-03,  ...,  4.9858e-03,
+          4.2038e-03,  5.9738e-03],
+        [ 1.8311e-03,  4.1080e-04,  4.8184e-04,  ...,  1.6034e-04,
+          8.3268e-05,  1.7667e-04],
+        [ 4.6806e-03,  1.0548e-03,  1.2321e-03,  ...,  4.4155e-04,
+          2.4438e-04,  4.8137e-04]], device='cuda:0')
+Epoch 47, bias, value: tensor([ 0.1302,  0.0417,  0.1064,  0.0243,  0.1461, -0.2259, -0.2174],
+       device='cuda:0'), grad: tensor([ 0.0998,  0.0127, -0.0768, -0.1498,  0.0953,  0.0053,  0.0134],
+       device='cuda:0')
+588
+0.0026306566876350096
+changing lr
+epoch 46, time 788.81, cls_loss 0.3821 cls_loss_mapping 0.0086 cls_loss_causal 0.3571 re_mapping 0.0067 re_causal 0.0100 /// teacc 93.72 lr 0.00243550
+Epoch 48, weight, value: tensor([[ 9.8832e-02,  7.8723e-02,  7.5819e-02,  ...,  3.2153e-03,
+         -3.0785e-02,  1.9964e-04],
+        [-3.1082e-02, -1.2070e-02, -2.5610e-02,  ...,  2.2784e-02,
+          2.6262e-02,  4.4508e-02],
+        [-2.5414e-02, -1.1270e-02,  6.8512e-03,  ...,  1.7703e-02,
+         -1.0975e-02, -1.6176e-02],
+        ...,
+        [-6.9416e-02, -4.1209e-02, -7.0464e-03,  ..., -2.4983e-02,
+          1.8085e-02,  6.7489e-03],
+        [ 6.7538e-03, -6.0105e-03, -9.0117e-03,  ..., -3.2284e-02,
+         -1.7208e-02, -2.8692e-02],
+        [ 4.7708e-03, -3.9658e-03, -3.9599e-06,  ...,  7.4891e-03,
+          1.7579e-02, -4.4311e-03]], device='cuda:0'), grad: tensor([[ 4.8876e-04,  4.3660e-05,  6.7532e-05,  ...,  1.1307e-04,
+          9.3222e-05,  1.2970e-04],
+        [-4.6253e-05, -4.8280e-06, -5.5060e-06,  ..., -3.1143e-06,
+          7.4040e-07, -2.9840e-06],
+        [ 8.1718e-05,  1.0684e-05,  1.3143e-05,  ...,  1.6615e-05,
+          1.3590e-05,  1.8105e-05],
+        ...,
+        [-5.3310e-04, -5.0902e-05, -7.6652e-05,  ..., -1.2732e-04,
+         -1.0782e-04, -1.4567e-04],
+        [ 1.4808e-06,  1.7695e-07,  2.2072e-07,  ...,  2.5425e-07,
+          1.8068e-07,  2.7940e-07],
+        [ 4.1574e-06,  8.9407e-07,  9.7416e-07,  ...,  6.9477e-07,
+          5.2433e-07,  7.7859e-07]], device='cuda:0')
+Epoch 48, bias, value: tensor([ 0.1343,  0.0376,  0.0983,  0.0171,  0.1444, -0.2191, -0.2073],
+       device='cuda:0'), grad: tensor([ 1.4133e-03, -1.7858e-04,  2.2793e-04,  1.3262e-05, -1.4906e-03,
+         4.5709e-06,  1.1399e-05], device='cuda:0')
+588
+0.0024355036129704724
+changing lr
+epoch 47, time 794.92, cls_loss 0.3570 cls_loss_mapping 0.0080 cls_loss_causal 0.3289 re_mapping 0.0065 re_causal 0.0096 /// teacc 93.97 lr 0.00224552
+Epoch 49, weight, value: tensor([[ 0.0992,  0.0781,  0.0750,  ...,  0.0048, -0.0295,  0.0014],
+        [-0.0307, -0.0120, -0.0255,  ...,  0.0218,  0.0250,  0.0433],
+        [-0.0264, -0.0112,  0.0067,  ...,  0.0175, -0.0114, -0.0167],
+        ...,
+        [-0.0648, -0.0395, -0.0050,  ..., -0.0246,  0.0193,  0.0084],
+        [ 0.0045, -0.0064, -0.0096,  ..., -0.0321, -0.0173, -0.0287],
+        [ 0.0023, -0.0044, -0.0007,  ...,  0.0068,  0.0169, -0.0054]],
+       device='cuda:0'), grad: tensor([[ 1.5343e-02,  3.6068e-03,  4.3373e-03,  ...,  1.6031e-03,
+          1.5955e-03,  2.3670e-03],
+        [-2.8503e-02, -6.7024e-03, -8.0185e-03,  ..., -2.4471e-03,
+         -2.5692e-03, -3.9330e-03],
+        [ 5.0888e-03,  1.2369e-03,  1.5259e-03,  ...,  5.8365e-04,
+          5.8079e-04,  8.5878e-04],
+        ...,
+        [ 5.8937e-03,  1.4114e-03,  1.7109e-03,  ...,  5.3263e-04,
+          5.5933e-04,  8.5402e-04],
+        [ 7.0238e-04,  1.6832e-04,  2.0325e-04,  ...,  5.9605e-05,
+          6.3658e-05,  9.8050e-05],
+        [ 2.1267e-03,  5.1212e-04,  6.2370e-04,  ...,  2.0730e-04,
+          2.1362e-04,  3.2306e-04]], device='cuda:0')
+Epoch 49, bias, value: tensor([ 0.1504,  0.0236,  0.0838,  0.0342,  0.1661, -0.2288, -0.2239],
+       device='cuda:0'), grad: tensor([ 0.0656, -0.1320,  0.0214,  0.0049,  0.0272,  0.0033,  0.0096],
+       device='cuda:0')
+588
+0.00224551509273949
+changing lr
+epoch 48, time 792.70, cls_loss 0.3658 cls_loss_mapping 0.0078 cls_loss_causal 0.3443 re_mapping 0.0064 re_causal 0.0096 /// teacc 93.97 lr 0.00206107
+Epoch 50, weight, value: tensor([[ 9.3500e-02,  7.5695e-02,  7.2975e-02,  ...,  4.7087e-03,
+         -2.9311e-02,  1.7662e-03],
+        [-2.8402e-02, -9.5862e-03, -2.3283e-02,  ...,  2.2162e-02,
+          2.5251e-02,  4.3627e-02],
+        [-2.7040e-02, -1.2486e-02,  5.0498e-03,  ...,  1.8750e-02,
+         -1.0154e-02, -1.5613e-02],
+        ...,
+        [-6.4121e-02, -3.9467e-02, -4.7846e-03,  ..., -2.5472e-02,
+          1.8466e-02,  7.5078e-03],
+        [ 6.0537e-03, -5.9389e-03, -9.0222e-03,  ..., -3.2243e-02,
+         -1.7398e-02, -2.8831e-02],
+        [ 5.5540e-03, -3.6441e-03, -1.8395e-05,  ...,  6.8890e-03,
+          1.6735e-02, -5.3372e-03]], device='cuda:0'), grad: tensor([[-1.6907e-02, -1.0757e-03, -2.2469e-03,  ..., -3.5095e-03,
+         -3.2234e-03, -5.6953e-03],
+        [ 3.6011e-03,  3.2163e-04,  5.3740e-04,  ...,  7.2956e-04,
+          6.6233e-04,  1.1644e-03],
+        [ 4.4212e-03,  3.9029e-04,  6.5660e-04,  ...,  8.9645e-04,
+          8.1444e-04,  1.4324e-03],
+        ...,
+        [ 3.6411e-03, -9.5367e-05,  2.7728e-04,  ...,  8.2016e-04,
+          7.8201e-04,  1.3981e-03],
+        [ 5.7268e-04,  4.9561e-05,  8.4460e-05,  ...,  1.1641e-04,
+          1.0580e-04,  1.8620e-04],
+        [ 1.5612e-03,  1.4246e-04,  2.3472e-04,  ...,  3.1567e-04,
+          2.8610e-04,  5.0306e-04]], device='cuda:0')
+Epoch 50, bias, value: tensor([ 0.1415,  0.0270,  0.0970,  0.0182,  0.1700, -0.2304, -0.2179],
+       device='cuda:0'), grad: tensor([-0.1318,  0.0264,  0.0324,  0.0229,  0.0346,  0.0042,  0.0114],
+       device='cuda:0')
+588
+0.002061073738537637
+changing lr
+epoch 49, time 783.86, cls_loss 0.3816 cls_loss_mapping 0.0063 cls_loss_causal 0.3562 re_mapping 0.0062 re_causal 0.0095 /// teacc 93.47 lr 0.00188255
+Epoch 51, weight, value: tensor([[ 0.0952,  0.0738,  0.0709,  ...,  0.0048, -0.0295,  0.0020],
+        [-0.0312, -0.0111, -0.0246,  ...,  0.0208,  0.0240,  0.0425],
+        [-0.0270, -0.0116,  0.0058,  ...,  0.0175, -0.0110, -0.0167],
+        ...,
+        [-0.0623, -0.0364, -0.0023,  ..., -0.0229,  0.0214,  0.0096],
+        [ 0.0052, -0.0061, -0.0090,  ..., -0.0323, -0.0176, -0.0289],
+        [ 0.0025, -0.0048, -0.0014,  ...,  0.0070,  0.0167, -0.0055]],
+       device='cuda:0'), grad: tensor([[-7.7248e-03, -1.6966e-03, -2.7237e-03,  ..., -1.3409e-03,
+         -1.3657e-03, -2.4757e-03],
+        [ 3.5400e-03,  7.7915e-04,  1.2474e-03,  ...,  6.1893e-04,
+          6.2990e-04,  1.1358e-03],
+        [ 1.6718e-03,  3.6073e-04,  5.8794e-04,  ...,  2.8181e-04,
+          2.8777e-04,  5.3358e-04],
+        ...,
+        [ 2.2984e-03,  5.0735e-04,  8.1015e-04,  ...,  4.0221e-04,
+          4.0936e-04,  7.3719e-04],
+        [ 4.7922e-05,  1.0476e-05,  1.6823e-05,  ...,  8.3968e-06,
+          8.5458e-06,  1.5423e-05],
+        [ 7.1466e-05,  1.6809e-05,  2.5928e-05,  ...,  1.2368e-05,
+          1.2532e-05,  2.2471e-05]], device='cuda:0')
+Epoch 51, bias, value: tensor([ 0.1630,  0.0328,  0.0870,  0.0402,  0.1445, -0.2255, -0.2366],
+       device='cuda:0'), grad: tensor([-0.0411,  0.0188,  0.0090,  0.0005,  0.0122,  0.0003,  0.0004],
+       device='cuda:0')
+588
+0.0018825509907063344
+changing lr
+epoch 50, time 766.31, cls_loss 0.3662 cls_loss_mapping 0.0076 cls_loss_causal 0.3381 re_mapping 0.0059 re_causal 0.0092 /// teacc 84.67 lr 0.00171031
+Epoch 52, weight, value: tensor([[ 0.0929,  0.0729,  0.0706,  ...,  0.0057, -0.0282,  0.0031],
+        [-0.0286, -0.0106, -0.0245,  ...,  0.0211,  0.0242,  0.0428],
+        [-0.0276, -0.0119,  0.0055,  ...,  0.0161, -0.0117, -0.0177],
+        ...,
+        [-0.0637, -0.0364, -0.0026,  ..., -0.0231,  0.0203,  0.0083],
+        [ 0.0097, -0.0059, -0.0084,  ..., -0.0313, -0.0169, -0.0273],
+        [ 0.0036, -0.0041, -0.0008,  ...,  0.0073,  0.0169, -0.0052]],
+       device='cuda:0'), grad: tensor([[-4.5925e-05, -1.3389e-05, -1.2062e-05,  ..., -5.4240e-06,
+         -5.4128e-06, -9.2313e-06],
+        [ 3.6269e-05,  1.1101e-05,  1.0066e-05,  ...,  4.6641e-06,
+          4.7348e-06,  7.5027e-06],
+        [ 5.7220e-06,  1.5777e-06,  1.6876e-06,  ...,  2.1830e-06,
+          1.7695e-06,  2.5760e-06],
+        ...,
+        [ 9.6485e-06,  2.4140e-06,  1.9316e-06,  ..., -1.9744e-07,
+          5.0850e-07,  7.7859e-07],
+        [ 4.0792e-07,  1.3784e-07,  1.2666e-07,  ...,  6.1467e-08,
+          8.9407e-08,  8.9407e-08],
+        [-5.9232e-06, -2.0117e-06, -1.8720e-06,  ..., -8.9407e-07,
+         -1.3672e-06, -1.2778e-06]], device='cuda:0')
+Epoch 52, bias, value: tensor([ 0.1584,  0.0303,  0.0964,  0.0096,  0.1381, -0.1932, -0.2343],
+       device='cuda:0'), grad: tensor([-1.2863e-04,  9.9421e-05,  1.7390e-05, -1.1381e-06,  2.5600e-05,
+         9.5926e-07, -1.3582e-05], device='cuda:0')
+588
+0.0017103063703014388
+changing lr
+epoch 51, time 709.45, cls_loss 0.3536 cls_loss_mapping 0.0062 cls_loss_causal 0.3336 re_mapping 0.0058 re_causal 0.0089 /// teacc 88.94 lr 0.00154469
+Epoch 53, weight, value: tensor([[ 0.0904,  0.0732,  0.0699,  ...,  0.0060, -0.0280,  0.0032],
+        [-0.0251, -0.0108, -0.0243,  ...,  0.0215,  0.0245,  0.0434],
+        [-0.0270, -0.0130,  0.0047,  ...,  0.0161, -0.0115, -0.0175],
+        ...,
+        [-0.0635, -0.0357, -0.0016,  ..., -0.0230,  0.0204,  0.0081],
+        [ 0.0088, -0.0057, -0.0083,  ..., -0.0315, -0.0171, -0.0276],
+        [ 0.0014, -0.0046, -0.0015,  ...,  0.0072,  0.0168, -0.0053]],
+       device='cuda:0'), grad: tensor([[-1.3702e-02, -4.8709e-04, -1.2131e-03,  ..., -4.4250e-03,
+         -3.0994e-03, -6.5651e-03],
+        [ 5.6381e-03,  5.9414e-04,  8.6260e-04,  ...,  1.4858e-03,
+          1.0757e-03,  2.1610e-03],
+        [ 7.3471e-03,  9.6798e-04,  1.3714e-03,  ...,  2.3632e-03,
+          1.8654e-03,  2.9697e-03],
+        ...,
+        [-1.8044e-03, -1.1292e-03, -1.1578e-03,  ...,  2.2769e-04,
+          5.2869e-05,  4.2439e-04],
+        [ 9.6798e-04,  1.0204e-04,  1.4734e-04,  ...,  2.4986e-04,
+          1.8001e-04,  3.6335e-04],
+        [ 1.3008e-03,  1.3423e-04,  1.9646e-04,  ...,  3.4571e-04,
+          2.4986e-04,  5.0402e-04]], device='cuda:0')
+Epoch 53, bias, value: tensor([ 0.1368,  0.0553,  0.0974,  0.0230,  0.1339, -0.1971, -0.2439],
+       device='cuda:0'), grad: tensor([-0.1252,  0.0396,  0.0423,  0.0154,  0.0119,  0.0067,  0.0093],
+       device='cuda:0')
+588
+0.0015446867550656784
+changing lr
+epoch 52, time 691.37, cls_loss 0.3696 cls_loss_mapping 0.0057 cls_loss_causal 0.3444 re_mapping 0.0057 re_causal 0.0090 /// teacc 94.47 lr 0.00138603
+Epoch 54, weight, value: tensor([[ 0.0905,  0.0721,  0.0688,  ...,  0.0071, -0.0273,  0.0044],
+        [-0.0246, -0.0095, -0.0228,  ...,  0.0210,  0.0241,  0.0430],
+        [-0.0273, -0.0136,  0.0043,  ...,  0.0155, -0.0119, -0.0180],
+        ...,
+        [-0.0618, -0.0348, -0.0009,  ..., -0.0229,  0.0206,  0.0085],
+        [ 0.0067, -0.0060, -0.0087,  ..., -0.0319, -0.0174, -0.0283],
+        [ 0.0036, -0.0047, -0.0013,  ...,  0.0073,  0.0168, -0.0051]],
+       device='cuda:0'), grad: tensor([[-0.0182, -0.0009, -0.0021,  ..., -0.0038, -0.0034, -0.0051],
+        [ 0.0038, -0.0005,  0.0006,  ...,  0.0008,  0.0008,  0.0018],
+        [ 0.0120,  0.0012,  0.0024,  ...,  0.0027,  0.0024,  0.0040],
+        ...,
+        [-0.0059, -0.0005, -0.0025,  ..., -0.0016, -0.0016, -0.0036],
+        [ 0.0015,  0.0001,  0.0003,  ...,  0.0003,  0.0003,  0.0005],
+        [ 0.0017,  0.0001,  0.0004,  ...,  0.0004,  0.0004,  0.0006]],
+       device='cuda:0')
+Epoch 54, bias, value: tensor([ 0.1494,  0.0515,  0.1018, -0.0007,  0.1436, -0.2090, -0.2312],
+       device='cuda:0'), grad: tensor([-0.0891,  0.0430,  0.0690,  0.0307, -0.0747,  0.0096,  0.0115],
+       device='cuda:0')
+588
+0.001386025680863044
+changing lr
+epoch 53, time 711.07, cls_loss 0.3531 cls_loss_mapping 0.0065 cls_loss_causal 0.3358 re_mapping 0.0056 re_causal 0.0087 /// teacc 93.97 lr 0.00123464
+Epoch 55, weight, value: tensor([[ 0.0918,  0.0728,  0.0698,  ...,  0.0081, -0.0261,  0.0052],
+        [-0.0258, -0.0106, -0.0238,  ...,  0.0202,  0.0233,  0.0423],
+        [-0.0296, -0.0139,  0.0038,  ...,  0.0141, -0.0130, -0.0194],
+        ...,
+        [-0.0597, -0.0343, -0.0005,  ..., -0.0223,  0.0209,  0.0092],
+        [ 0.0068, -0.0059, -0.0087,  ..., -0.0318, -0.0173, -0.0281],
+        [ 0.0029, -0.0045, -0.0013,  ...,  0.0078,  0.0169, -0.0049]],
+       device='cuda:0'), grad: tensor([[ 5.0163e-04,  1.0461e-04,  1.4234e-04,  ...,  1.5485e-04,
+          1.6296e-04,  1.7059e-04],
+        [ 1.2410e-04,  3.5852e-05,  3.9905e-05,  ...,  7.4923e-05,
+          7.0632e-05,  7.2122e-05],
+        [ 1.2341e-03,  3.7384e-04,  4.0770e-04,  ...,  8.1062e-04,
+          7.6628e-04,  7.7724e-04],
+        ...,
+        [-7.3671e-05, -9.7826e-06, -2.6867e-05,  ...,  1.1586e-05,
+         -1.1928e-05, -8.5607e-06],
+        [ 1.0235e-06,  2.8778e-07,  3.3248e-07,  ...,  5.4017e-07,
+          5.0385e-07,  5.2247e-07],
+        [ 1.9372e-05,  5.1521e-06,  5.7481e-06,  ...,  1.0878e-05,
+          1.0200e-05,  1.0505e-05]], device='cuda:0')
+Epoch 55, bias, value: tensor([ 0.1393,  0.0544,  0.0951,  0.0027,  0.1551, -0.2072, -0.2341],
+       device='cuda:0'), grad: tensor([ 1.3838e-03,  2.5535e-04,  2.3613e-03, -3.7727e-03, -2.7013e-04,
+         2.3507e-06,  4.1395e-05], device='cuda:0')
+588
+0.0012346426699819469
+changing lr
+epoch 54, time 719.45, cls_loss 0.3444 cls_loss_mapping 0.0061 cls_loss_causal 0.3318 re_mapping 0.0055 re_causal 0.0086 /// teacc 93.97 lr 0.00109084
+Epoch 56, weight, value: tensor([[ 0.0905,  0.0730,  0.0697,  ...,  0.0071, -0.0269,  0.0042],
+        [-0.0248, -0.0102, -0.0233,  ...,  0.0211,  0.0241,  0.0431],
+        [-0.0263, -0.0131,  0.0046,  ...,  0.0141, -0.0128, -0.0193],
+        ...,
+        [-0.0603, -0.0347, -0.0010,  ..., -0.0216,  0.0214,  0.0100],
+        [ 0.0056, -0.0063, -0.0091,  ..., -0.0320, -0.0175, -0.0284],
+        [ 0.0006, -0.0050, -0.0019,  ...,  0.0073,  0.0164, -0.0054]],
+       device='cuda:0'), grad: tensor([[ 1.2124e-04,  7.4133e-06,  6.3777e-06,  ...,  5.0008e-05,
+          4.3929e-05,  5.4151e-05],
+        [ 5.2357e-04,  7.9632e-05,  8.3029e-05,  ...,  1.3721e-04,
+          1.2004e-04,  1.5593e-04],
+        [-7.0047e-04, -1.2469e-04, -1.1808e-04,  ..., -3.2306e-04,
+         -2.6822e-04, -3.3021e-04],
+        ...,
+        [ 5.2780e-05,  3.5733e-05,  2.7642e-05,  ...,  1.2982e-04,
+          1.0669e-04,  1.1975e-04],
+        [ 6.2883e-06,  9.2108e-07,  9.3691e-07,  ...,  1.7947e-06,
+          1.5637e-06,  2.0172e-06],
+        [ 7.3425e-06,  1.2787e-06,  1.4221e-06,  ...,  2.8647e-06,
+          2.5723e-06,  3.0566e-06]], device='cuda:0')
+Epoch 56, bias, value: tensor([ 0.1291,  0.0568,  0.0969,  0.0159,  0.1660, -0.2111, -0.2482],
+       device='cuda:0'), grad: tensor([ 4.5419e-04,  1.4763e-03, -2.2430e-03, -1.8191e-04,  4.5204e-04,
+         1.8477e-05,  2.4736e-05], device='cuda:0')
+588
+0.0010908425876598518
+changing lr
+epoch 55, time 728.30, cls_loss 0.3564 cls_loss_mapping 0.0054 cls_loss_causal 0.3317 re_mapping 0.0055 re_causal 0.0084 /// teacc 88.94 lr 0.00095492
+Epoch 57, weight, value: tensor([[ 0.0912,  0.0734,  0.0704,  ...,  0.0075, -0.0267,  0.0043],
+        [-0.0248, -0.0107, -0.0238,  ...,  0.0207,  0.0238,  0.0428],
+        [-0.0279, -0.0134,  0.0040,  ...,  0.0146, -0.0122, -0.0187],
+        ...,
+        [-0.0620, -0.0345, -0.0010,  ..., -0.0226,  0.0203,  0.0088],
+        [ 0.0062, -0.0064, -0.0091,  ..., -0.0318, -0.0173, -0.0281],
+        [ 0.0029, -0.0043, -0.0012,  ...,  0.0076,  0.0167, -0.0050]],
+       device='cuda:0'), grad: tensor([[ 4.2801e-03,  6.5565e-04,  1.4925e-03,  ...,  1.0195e-03,
+          1.6174e-03,  1.9894e-03],
+        [ 3.5515e-03,  5.4359e-04,  1.2474e-03,  ...,  8.5306e-04,
+          1.3552e-03,  1.6670e-03],
+        [-1.6174e-02, -2.4757e-03, -5.6572e-03,  ..., -3.8662e-03,
+         -6.1378e-03, -7.5493e-03],
+        ...,
+        [ 3.4180e-03,  5.2309e-04,  1.1940e-03,  ...,  8.1539e-04,
+          1.2951e-03,  1.5926e-03],
+        [ 6.3181e-04,  9.6560e-05,  2.2078e-04,  ...,  1.5092e-04,
+          2.3961e-04,  2.9469e-04],
+        [ 1.0824e-03,  1.6546e-04,  3.7789e-04,  ...,  2.5821e-04,
+          4.1008e-04,  5.0449e-04]], device='cuda:0')
+Epoch 57, bias, value: tensor([ 0.1340,  0.0604,  0.0932,  0.0169,  0.1503, -0.2067, -0.2430],
+       device='cuda:0'), grad: tensor([ 0.0357,  0.0299, -0.1356,  0.0269,  0.0286,  0.0053,  0.0091],
+       device='cuda:0')
+588
+0.000954915028125264
+changing lr
+epoch 56, time 720.81, cls_loss 0.3445 cls_loss_mapping 0.0055 cls_loss_causal 0.3298 re_mapping 0.0054 re_causal 0.0085 /// teacc 91.96 lr 0.00082713
+Epoch 58, weight, value: tensor([[ 0.0902,  0.0721,  0.0689,  ...,  0.0080, -0.0261,  0.0050],
+        [-0.0258, -0.0105, -0.0237,  ...,  0.0206,  0.0235,  0.0426],
+        [-0.0274, -0.0130,  0.0046,  ...,  0.0145, -0.0119, -0.0187],
+        ...,
+        [-0.0621, -0.0339, -0.0003,  ..., -0.0230,  0.0198,  0.0081],
+        [ 0.0071, -0.0062, -0.0091,  ..., -0.0316, -0.0172, -0.0279],
+        [ 0.0030, -0.0040, -0.0010,  ...,  0.0076,  0.0168, -0.0051]],
+       device='cuda:0'), grad: tensor([[ 1.2550e-03, -7.2384e-04, -6.7854e-04,  ...,  7.0155e-05,
+         -1.3590e-04,  3.0422e-04],
+        [-8.8730e-03, -5.6839e-04, -1.2407e-03,  ..., -1.2999e-03,
+         -1.1997e-03, -2.2621e-03],
+        [ 8.5831e-04,  1.6022e-04,  2.3198e-04,  ...,  1.4901e-04,
+          1.6463e-04,  2.2972e-04],
+        ...,
+        [ 5.2414e-03,  9.6798e-04,  1.4038e-03,  ...,  8.4877e-04,
+          9.3985e-04,  1.3390e-03],
+        [ 1.0462e-03,  9.0659e-05,  1.7142e-04,  ...,  1.5688e-04,
+          1.5056e-04,  2.6727e-04],
+        [ 2.4283e-04,  4.2289e-05,  6.2346e-05,  ...,  3.9458e-05,
+          4.3094e-05,  6.2525e-05]], device='cuda:0')
+Epoch 58, bias, value: tensor([ 0.1339,  0.0589,  0.0967,  0.0214,  0.1408, -0.2044, -0.2421],
+       device='cuda:0'), grad: tensor([ 0.0203, -0.0573,  0.0039,  0.0013,  0.0242,  0.0064,  0.0012],
+       device='cuda:0')
+588
+0.0008271337313934874
+changing lr
+epoch 57, time 720.24, cls_loss 0.3473 cls_loss_mapping 0.0045 cls_loss_causal 0.3321 re_mapping 0.0054 re_causal 0.0084 /// teacc 89.95 lr 0.00070776
+Epoch 59, weight, value: tensor([[ 0.0912,  0.0716,  0.0682,  ...,  0.0077, -0.0264,  0.0046],
+        [-0.0243, -0.0091, -0.0222,  ...,  0.0211,  0.0240,  0.0433],
+        [-0.0279, -0.0138,  0.0038,  ...,  0.0145, -0.0119, -0.0186],
+        ...,
+        [-0.0606, -0.0334,  0.0005,  ..., -0.0232,  0.0197,  0.0081],
+        [ 0.0057, -0.0065, -0.0094,  ..., -0.0317, -0.0173, -0.0282],
+        [ 0.0024, -0.0041, -0.0011,  ...,  0.0078,  0.0168, -0.0049]],
+       device='cuda:0'), grad: tensor([[-0.0144, -0.0017, -0.0041,  ..., -0.0025, -0.0036, -0.0058],
+        [ 0.0096,  0.0009,  0.0016,  ...,  0.0014,  0.0013,  0.0022],
+        [ 0.0093,  0.0009,  0.0015,  ...,  0.0013,  0.0013,  0.0022],
+        ...,
+        [ 0.0097,  0.0009,  0.0015,  ...,  0.0014,  0.0013,  0.0022],
+        [ 0.0013,  0.0001,  0.0002,  ...,  0.0002,  0.0002,  0.0003],
+        [-0.0280, -0.0024, -0.0031,  ..., -0.0036, -0.0026, -0.0045]],
+       device='cuda:0')
+Epoch 59, bias, value: tensor([ 0.1379,  0.0648,  0.0953,  0.0145,  0.1479, -0.2114, -0.2437],
+       device='cuda:0'), grad: tensor([-0.0982,  0.0565,  0.0552,  0.0765,  0.0567,  0.0077, -0.1542],
+       device='cuda:0')
+588
+0.00070775603199067
+changing lr
+epoch 58, time 719.49, cls_loss 0.3535 cls_loss_mapping 0.0054 cls_loss_causal 0.3281 re_mapping 0.0053 re_causal 0.0083 /// teacc 92.21 lr 0.00059702
+Epoch 60, weight, value: tensor([[ 0.0922,  0.0718,  0.0684,  ...,  0.0084, -0.0257,  0.0053],
+        [-0.0235, -0.0086, -0.0217,  ...,  0.0211,  0.0239,  0.0434],
+        [-0.0283, -0.0137,  0.0038,  ...,  0.0143, -0.0120, -0.0189],
+        ...,
+        [-0.0609, -0.0340, -0.0001,  ..., -0.0234,  0.0195,  0.0080],
+        [ 0.0056, -0.0064, -0.0094,  ..., -0.0316, -0.0172, -0.0281],
+        [ 0.0025, -0.0041, -0.0011,  ...,  0.0077,  0.0167, -0.0050]],
+       device='cuda:0'), grad: tensor([[ 2.7046e-03,  4.1103e-04,  4.8113e-04,  ...,  1.5135e-03,
+          1.4639e-03,  1.6479e-03],
+        [ 1.2147e-04,  1.8507e-05,  2.1696e-05,  ...,  6.7830e-05,
+          6.5565e-05,  7.3791e-05],
+        [-9.4604e-03, -1.4353e-03, -1.6794e-03,  ..., -5.2986e-03,
+         -5.1270e-03, -5.7716e-03],
+        ...,
+        [ 5.9586e-03,  9.0361e-04,  1.0576e-03,  ...,  3.3398e-03,
+          3.2291e-03,  3.6373e-03],
+        [ 1.0110e-05,  1.5404e-06,  1.8030e-06,  ...,  5.6438e-06,
+          5.4576e-06,  6.1467e-06],
+        [ 2.3913e-04,  3.6389e-05,  4.2617e-05,  ...,  1.3363e-04,
+          1.2922e-04,  1.4544e-04]], device='cuda:0')
+Epoch 60, bias, value: tensor([ 0.1397,  0.0671,  0.0937,  0.0118,  0.1504, -0.2132, -0.2444],
+       device='cuda:0'), grad: tensor([ 9.1095e-03,  4.0960e-04, -3.1860e-02,  1.4257e-03,  2.0065e-02,
+         3.4094e-05,  8.0633e-04], device='cuda:0')
+588
+0.0005970223407163104
+changing lr
+epoch 59, time 711.38, cls_loss 0.3520 cls_loss_mapping 0.0046 cls_loss_causal 0.3366 re_mapping 0.0053 re_causal 0.0083 /// teacc 95.48 lr 0.00049516
+Epoch 61, weight, value: tensor([[ 0.0895,  0.0711,  0.0674,  ...,  0.0080, -0.0262,  0.0048],
+        [-0.0239, -0.0088, -0.0219,  ...,  0.0215,  0.0242,  0.0437],
+        [-0.0276, -0.0138,  0.0036,  ...,  0.0143, -0.0118, -0.0187],
+        ...,
+        [-0.0596, -0.0330,  0.0009,  ..., -0.0235,  0.0195,  0.0079],
+        [ 0.0055, -0.0064, -0.0094,  ..., -0.0316, -0.0172, -0.0281],
+        [ 0.0030, -0.0040, -0.0009,  ...,  0.0078,  0.0168, -0.0048]],
+       device='cuda:0'), grad: tensor([[ 0.0044,  0.0003,  0.0006,  ...,  0.0008,  0.0006,  0.0012],
+        [ 0.0089,  0.0006,  0.0013,  ...,  0.0016,  0.0013,  0.0024],
+        [ 0.0056,  0.0004,  0.0008,  ...,  0.0010,  0.0008,  0.0015],
+        ...,
+        [ 0.0056,  0.0004,  0.0008,  ...,  0.0010,  0.0008,  0.0015],
+        [ 0.0021,  0.0001,  0.0003,  ...,  0.0004,  0.0003,  0.0006],
+        [-0.0292, -0.0019, -0.0042,  ..., -0.0051, -0.0042, -0.0079]],
+       device='cuda:0')
+Epoch 61, bias, value: tensor([ 0.1307,  0.0630,  0.0974,  0.0166,  0.1524, -0.2141, -0.2408],
+       device='cuda:0'), grad: tensor([ 0.0232,  0.0464,  0.0294,  0.0127,  0.0291,  0.0112, -0.1520],
+       device='cuda:0')
+588
+0.0004951556604879052
+changing lr
+epoch 60, time 721.51, cls_loss 0.3545 cls_loss_mapping 0.0040 cls_loss_causal 0.3374 re_mapping 0.0053 re_causal 0.0083 /// teacc 90.45 lr 0.00040236
+Epoch 62, weight, value: tensor([[ 0.0903,  0.0721,  0.0680,  ...,  0.0082, -0.0262,  0.0049],
+        [-0.0244, -0.0092, -0.0221,  ...,  0.0215,  0.0243,  0.0436],
+        [-0.0271, -0.0137,  0.0038,  ...,  0.0144, -0.0116, -0.0185],
+        ...,
+        [-0.0603, -0.0335,  0.0005,  ..., -0.0235,  0.0196,  0.0081],
+        [ 0.0051, -0.0064, -0.0095,  ..., -0.0316, -0.0172, -0.0282],
+        [ 0.0033, -0.0040, -0.0010,  ...,  0.0078,  0.0167, -0.0048]],
+       device='cuda:0'), grad: tensor([[-2.0447e-03, -2.3365e-03, -2.0657e-03,  ..., -2.1100e-04,
+         -2.9588e-04, -3.4499e-04],
+        [ 1.2550e-02,  2.8286e-03,  3.1700e-03,  ...,  1.2264e-03,
+          1.3638e-03,  1.7815e-03],
+        [ 3.1395e-03, -1.0008e-04,  1.2434e-04,  ..., -3.6354e-03,
+         -3.0346e-03, -3.1281e-03],
+        ...,
+        [-2.0645e-02, -8.6641e-04, -2.0866e-03,  ...,  1.9407e-03,
+          1.2569e-03,  7.3528e-04],
+        [ 6.8951e-04,  4.9889e-05,  8.7082e-05,  ...,  6.6996e-05,
+          7.0393e-05,  9.4533e-05],
+        [ 1.7385e-03,  1.3685e-04,  2.2876e-04,  ...,  1.6952e-04,
+          1.7786e-04,  2.3878e-04]], device='cuda:0')
+Epoch 62, bias, value: tensor([ 0.1281,  0.0621,  0.0996,  0.0177,  0.1531, -0.2182, -0.2373],
+       device='cuda:0'), grad: tensor([ 0.0135,  0.0474,  0.0204,  0.0255, -0.1200,  0.0038,  0.0094],
+       device='cuda:0')
+588
+0.00040236113724274745
+changing lr
+epoch 61, time 726.65, cls_loss 0.3523 cls_loss_mapping 0.0039 cls_loss_causal 0.3313 re_mapping 0.0052 re_causal 0.0081 /// teacc 95.48 lr 0.00031883
+Epoch 63, weight, value: tensor([[ 0.0907,  0.0722,  0.0682,  ...,  0.0083, -0.0259,  0.0052],
+        [-0.0246, -0.0093, -0.0221,  ...,  0.0213,  0.0241,  0.0433],
+        [-0.0280, -0.0142,  0.0034,  ...,  0.0142, -0.0118, -0.0187],
+        ...,
+        [-0.0606, -0.0333,  0.0005,  ..., -0.0234,  0.0197,  0.0079],
+        [ 0.0059, -0.0064, -0.0094,  ..., -0.0314, -0.0171, -0.0279],
+        [ 0.0033, -0.0040, -0.0009,  ...,  0.0078,  0.0166, -0.0048]],
+       device='cuda:0'), grad: tensor([[ 6.7663e-04,  2.1017e-04,  2.3484e-04,  ...,  3.7050e-04,
+          4.2033e-04,  4.2439e-04],
+        [ 4.8578e-06,  1.4091e-06,  1.5423e-06,  ...,  1.6494e-06,
+          1.6792e-06,  1.8701e-06],
+        [ 1.0407e-04,  3.2276e-05,  3.6031e-05,  ...,  5.6714e-05,
+          6.4313e-05,  6.4969e-05],
+        ...,
+        [ 1.3471e-04,  4.1515e-05,  4.6372e-05,  ...,  7.2896e-05,
+          8.2433e-05,  8.3447e-05],
+        [ 9.6392e-07,  2.9802e-07,  3.3341e-07,  ...,  5.2340e-07,
+          5.9232e-07,  5.9977e-07],
+        [-9.2459e-04, -2.8634e-04, -3.1996e-04,  ..., -5.0640e-04,
+         -5.7411e-04, -5.7983e-04]], device='cuda:0')
+Epoch 63, bias, value: tensor([ 0.1283,  0.0626,  0.0996,  0.0178,  0.1469, -0.2147, -0.2353],
+       device='cuda:0'), grad: tensor([ 1.5736e-03,  1.2062e-05,  2.4235e-04,  6.8545e-06,  3.1471e-04,
+         2.2464e-06, -2.1534e-03], device='cuda:0')
+588
+0.00031882564680131423
+changing lr
+epoch 62, time 721.68, cls_loss 0.3421 cls_loss_mapping 0.0049 cls_loss_causal 0.3249 re_mapping 0.0052 re_causal 0.0080 /// teacc 93.47 lr 0.00024472
+Epoch 64, weight, value: tensor([[ 0.0904,  0.0718,  0.0677,  ...,  0.0083, -0.0259,  0.0051],
+        [-0.0244, -0.0090, -0.0218,  ...,  0.0214,  0.0242,  0.0434],
+        [-0.0281, -0.0144,  0.0032,  ...,  0.0142, -0.0118, -0.0187],
+        ...,
+        [-0.0602, -0.0330,  0.0008,  ..., -0.0235,  0.0195,  0.0078],
+        [ 0.0058, -0.0064, -0.0094,  ..., -0.0315, -0.0171, -0.0280],
+        [ 0.0034, -0.0039, -0.0009,  ...,  0.0079,  0.0167, -0.0047]],
+       device='cuda:0'), grad: tensor([[ 1.0536e-02,  1.3399e-03,  1.5221e-03,  ...,  8.1062e-04,
+          3.5763e-04,  8.3590e-04],
+        [ 5.4970e-03,  7.2336e-04,  9.0694e-04,  ...,  4.2295e-04,
+          2.2638e-04,  4.7994e-04],
+        [ 8.5373e-03,  1.0862e-03,  1.2169e-03,  ...,  6.7091e-04,
+          2.9922e-04,  6.8426e-04],
+        ...,
+        [ 1.3908e-02,  1.6689e-03,  1.8616e-03,  ...,  8.4972e-04,
+          1.7810e-04,  8.3971e-04],
+        [ 1.5926e-03,  2.2542e-04,  3.1829e-04,  ...,  1.3494e-04,
+          9.8884e-05,  1.7226e-04],
+        [-2.7294e-03, -4.3058e-04, -6.9904e-04,  ..., -2.6679e-04,
+         -2.6250e-04, -3.8791e-04]], device='cuda:0')
+Epoch 64, bias, value: tensor([ 0.1271,  0.0617,  0.0999,  0.0176,  0.1499, -0.2153, -0.2357],
+       device='cuda:0'), grad: tensor([ 0.0441,  0.0215,  0.0359, -0.1605,  0.0606,  0.0054, -0.0072],
+       device='cuda:0')
+588
+0.0002447174185242325
+changing lr
+epoch 63, time 731.37, cls_loss 0.3226 cls_loss_mapping 0.0039 cls_loss_causal 0.3115 re_mapping 0.0051 re_causal 0.0079 /// teacc 86.18 lr 0.00018019
+Epoch 65, weight, value: tensor([[ 0.0914,  0.0720,  0.0679,  ...,  0.0086, -0.0257,  0.0054],
+        [-0.0243, -0.0089, -0.0217,  ...,  0.0214,  0.0241,  0.0434],
+        [-0.0282, -0.0144,  0.0032,  ...,  0.0141, -0.0117, -0.0186],
+        ...,
+        [-0.0602, -0.0330,  0.0007,  ..., -0.0236,  0.0195,  0.0078],
+        [ 0.0056, -0.0064, -0.0094,  ..., -0.0314, -0.0171, -0.0280],
+        [ 0.0028, -0.0039, -0.0009,  ...,  0.0078,  0.0167, -0.0048]],
+       device='cuda:0'), grad: tensor([[ 1.6678e-02,  4.9210e-03,  6.2027e-03,  ...,  1.9407e-03,
+          1.4706e-03,  2.8782e-03],
+        [-1.4412e-02,  7.4005e-04, -1.3552e-03,  ..., -1.8511e-03,
+         -1.3533e-03, -2.9202e-03],
+        [ 1.6527e-03,  5.7173e-04,  7.5912e-04,  ..., -5.2977e-04,
+         -6.4087e-04, -4.0460e-04],
+        ...,
+        [-3.3569e-02, -2.0065e-02, -2.0798e-02,  ..., -2.1152e-03,
+         -1.2245e-03, -3.5458e-03],
+        [ 1.4668e-03,  4.7040e-04,  5.7888e-04,  ...,  1.4102e-04,
+          9.7752e-05,  2.2292e-04],
+        [ 2.5558e-02,  1.2833e-02,  1.3832e-02,  ...,  2.0447e-03,
+          1.3533e-03,  3.2425e-03]], device='cuda:0')
+Epoch 65, bias, value: tensor([ 0.1291,  0.0620,  0.1002,  0.0169,  0.1514, -0.2160, -0.2383],
+       device='cuda:0'), grad: tensor([ 0.0688, -0.0895,  0.0093,  0.0120, -0.0834,  0.0060,  0.0768],
+       device='cuda:0')
+588
+0.0001801856965207339
+changing lr
+epoch 64, time 722.03, cls_loss 0.3417 cls_loss_mapping 0.0041 cls_loss_causal 0.3192 re_mapping 0.0052 re_causal 0.0081 /// teacc 92.71 lr 0.00012536
+Epoch 66, weight, value: tensor([[ 0.0908,  0.0717,  0.0675,  ...,  0.0084, -0.0259,  0.0051],
+        [-0.0243, -0.0089, -0.0217,  ...,  0.0213,  0.0241,  0.0434],
+        [-0.0285, -0.0143,  0.0032,  ...,  0.0141, -0.0118, -0.0187],
+        ...,
+        [-0.0596, -0.0328,  0.0010,  ..., -0.0234,  0.0197,  0.0080],
+        [ 0.0054, -0.0064, -0.0094,  ..., -0.0314, -0.0171, -0.0280],
+        [ 0.0030, -0.0040, -0.0010,  ...,  0.0079,  0.0167, -0.0047]],
+       device='cuda:0'), grad: tensor([[ 0.0104,  0.0010,  0.0023,  ...,  0.0018,  0.0012,  0.0026],
+        [ 0.0090,  0.0008,  0.0020,  ...,  0.0015,  0.0010,  0.0022],
+        [ 0.0098,  0.0009,  0.0021,  ...,  0.0017,  0.0012,  0.0025],
+        ...,
+        [ 0.0085,  0.0007,  0.0018,  ...,  0.0012,  0.0008,  0.0020],
+        [ 0.0025,  0.0003,  0.0006,  ...,  0.0004,  0.0003,  0.0006],
+        [-0.0214, -0.0027, -0.0058,  ..., -0.0034, -0.0020, -0.0050]],
+       device='cuda:0')
+Epoch 66, bias, value: tensor([ 0.1265,  0.0614,  0.0998,  0.0184,  0.1527, -0.2169, -0.2368],
+       device='cuda:0'), grad: tensor([ 0.0701,  0.0614,  0.0638, -0.1265,  0.0616,  0.0174, -0.1477],
+       device='cuda:0')
+588
+0.000125360439090882
+changing lr
+epoch 65, time 725.43, cls_loss 0.3392 cls_loss_mapping 0.0044 cls_loss_causal 0.3246 re_mapping 0.0051 re_causal 0.0078 /// teacc 93.22 lr 0.00008035
+Epoch 67, weight, value: tensor([[ 0.0909,  0.0717,  0.0675,  ...,  0.0084, -0.0259,  0.0051],
+        [-0.0247, -0.0090, -0.0218,  ...,  0.0212,  0.0240,  0.0432],
+        [-0.0282, -0.0143,  0.0034,  ...,  0.0142, -0.0116, -0.0186],
+        ...,
+        [-0.0603, -0.0330,  0.0008,  ..., -0.0234,  0.0196,  0.0079],
+        [ 0.0054, -0.0064, -0.0094,  ..., -0.0314, -0.0171, -0.0280],
+        [ 0.0033, -0.0039, -0.0009,  ...,  0.0079,  0.0167, -0.0047]],
+       device='cuda:0'), grad: tensor([[ 4.1389e-03,  1.7748e-03,  1.5240e-03,  ...,  9.5081e-04,
+          7.0286e-04,  1.1454e-03],
+        [ 7.7152e-04,  3.2330e-04,  2.8491e-04,  ...,  1.6725e-04,
+          1.2398e-04,  1.9991e-04],
+        [ 2.0447e-03,  8.6975e-04,  7.5579e-04,  ...,  4.6515e-04,
+          3.4595e-04,  5.5838e-04],
+        ...,
+        [ 4.0436e-03,  1.6994e-03,  1.4677e-03,  ...,  9.1267e-04,
+          6.7949e-04,  1.1015e-03],
+        [ 1.0288e-04,  4.3690e-05,  3.7849e-05,  ...,  2.3335e-05,
+          1.7330e-05,  2.8044e-05],
+        [-1.2146e-02, -5.1537e-03, -4.4556e-03,  ..., -2.7561e-03,
+         -2.0466e-03, -3.3169e-03]], device='cuda:0')
+Epoch 67, bias, value: tensor([ 0.1258,  0.0593,  0.1013,  0.0203,  0.1510, -0.2171, -0.2354],
+       device='cuda:0'), grad: tensor([ 0.0172,  0.0030,  0.0083,  0.0042,  0.0165,  0.0004, -0.0497],
+       device='cuda:0')
+588
+8.03520570068517e-05
+changing lr
+epoch 66, time 712.68, cls_loss 0.3396 cls_loss_mapping 0.0046 cls_loss_causal 0.3254 re_mapping 0.0052 re_causal 0.0080 /// teacc 94.97 lr 0.00004525
+Epoch 68, weight, value: tensor([[ 0.0909,  0.0718,  0.0675,  ...,  0.0084, -0.0258,  0.0051],
+        [-0.0247, -0.0089, -0.0218,  ...,  0.0212,  0.0240,  0.0432],
+        [-0.0283, -0.0144,  0.0033,  ...,  0.0142, -0.0116, -0.0186],
+        ...,
+        [-0.0601, -0.0329,  0.0009,  ..., -0.0235,  0.0195,  0.0079],
+        [ 0.0054, -0.0064, -0.0094,  ..., -0.0314, -0.0171, -0.0280],
+        [ 0.0031, -0.0039, -0.0009,  ...,  0.0079,  0.0167, -0.0047]],
+       device='cuda:0'), grad: tensor([[ 2.1229e-03,  4.0841e-04,  4.5776e-04,  ...,  1.0519e-03,
+          1.1330e-03,  1.2074e-03],
+        [-1.2910e-04, -3.8952e-05, -4.8935e-05,  ..., -2.0564e-05,
+         -2.4483e-05, -2.9013e-05],
+        [ 4.8351e-04,  1.5306e-04,  1.4150e-04,  ...,  3.3879e-04,
+          2.9850e-04,  3.5620e-04],
+        ...,
+        [-2.5139e-03, -5.3358e-04, -5.6410e-04,  ..., -1.3771e-03,
+         -1.4143e-03, -1.5430e-03],
+        [ 3.1173e-05,  9.4548e-06,  1.1854e-05,  ...,  5.2601e-06,
+          6.1765e-06,  7.2867e-06],
+        [ 4.1984e-06,  1.2154e-06,  1.4650e-06,  ...,  1.1204e-06,
+          1.2023e-06,  1.3867e-06]], device='cuda:0')
+Epoch 68, bias, value: tensor([ 0.1250,  0.0589,  0.1023,  0.0210,  0.1511, -0.2169, -0.2361],
+       device='cuda:0'), grad: tensor([ 7.5645e-03, -3.4356e-04,  1.5612e-03,  5.6550e-06, -8.8806e-03,
+         8.3566e-05,  1.2070e-05], device='cuda:0')
+588
+4.5251191160326525e-05
+changing lr
+epoch 67, time 725.16, cls_loss 0.3410 cls_loss_mapping 0.0040 cls_loss_causal 0.3272 re_mapping 0.0051 re_causal 0.0080 /// teacc 92.71 lr 0.00002013
+Epoch 69, weight, value: tensor([[ 0.0908,  0.0718,  0.0675,  ...,  0.0084, -0.0259,  0.0051],
+        [-0.0248, -0.0089, -0.0218,  ...,  0.0212,  0.0240,  0.0432],
+        [-0.0283, -0.0144,  0.0033,  ...,  0.0141, -0.0117, -0.0186],
+        ...,
+        [-0.0600, -0.0329,  0.0009,  ..., -0.0235,  0.0195,  0.0079],
+        [ 0.0054, -0.0064, -0.0094,  ..., -0.0314, -0.0171, -0.0280],
+        [ 0.0031, -0.0039, -0.0009,  ...,  0.0079,  0.0167, -0.0047]],
+       device='cuda:0'), grad: tensor([[-1.7639e-02, -1.4877e-03, -3.1433e-03,  ..., -2.4681e-03,
+         -1.1539e-03, -3.4161e-03],
+        [ 3.7785e-03,  3.2020e-04,  6.7377e-04,  ...,  5.3310e-04,
+          2.5177e-04,  7.3576e-04],
+        [ 4.0550e-03,  3.4571e-04,  7.2193e-04,  ...,  5.9462e-04,
+          2.8515e-04,  8.0919e-04],
+        ...,
+        [ 4.2839e-03,  3.5477e-04,  7.6342e-04,  ...,  5.6171e-04,
+          2.4962e-04,  7.9584e-04],
+        [ 8.5783e-04,  7.2598e-05,  1.5306e-04,  ...,  1.2094e-04,
+          5.6952e-05,  1.6689e-04],
+        [ 1.6556e-03,  1.4019e-04,  2.9516e-04,  ...,  2.3341e-04,
+          1.1021e-04,  3.2234e-04]], device='cuda:0')
+Epoch 69, bias, value: tensor([ 0.1248,  0.0580,  0.1019,  0.0214,  0.1517, -0.2167, -0.2358],
+       device='cuda:0'), grad: tensor([-0.1302,  0.0278,  0.0297,  0.0221,  0.0321,  0.0063,  0.0122],
+       device='cuda:0')
+588
+2.0128530023804673e-05
+changing lr
+epoch 68, time 721.97, cls_loss 0.3320 cls_loss_mapping 0.0041 cls_loss_causal 0.3172 re_mapping 0.0051 re_causal 0.0079 /// teacc 92.21 lr 0.00000503
+Epoch 70, weight, value: tensor([[ 0.0909,  0.0718,  0.0675,  ...,  0.0084, -0.0258,  0.0051],
+        [-0.0248, -0.0089, -0.0218,  ...,  0.0212,  0.0240,  0.0432],
+        [-0.0284, -0.0144,  0.0033,  ...,  0.0141, -0.0117, -0.0186],
+        ...,
+        [-0.0600, -0.0329,  0.0009,  ..., -0.0235,  0.0195,  0.0079],
+        [ 0.0055, -0.0064, -0.0094,  ..., -0.0314, -0.0171, -0.0280],
+        [ 0.0031, -0.0039, -0.0009,  ...,  0.0079,  0.0167, -0.0047]],
+       device='cuda:0'), grad: tensor([[4.7989e-03, 5.0449e-04, 1.4648e-03,  ..., 8.6069e-04, 7.7963e-04,
+         1.4391e-03],
+        [4.0245e-03, 3.7360e-04, 1.3084e-03,  ..., 5.8746e-04, 5.2595e-04,
+         1.1415e-03],
+        [3.2787e-03, 3.0851e-04, 1.0595e-03,  ..., 4.8757e-04, 4.3750e-04,
+         9.3365e-04],
+        ...,
+        [2.9907e-03, 2.1636e-04, 1.0681e-03,  ..., 2.6131e-04, 2.2638e-04,
+         7.5865e-04],
+        [8.0347e-04, 7.4625e-05, 2.6083e-04,  ..., 1.1688e-04, 1.0473e-04,
+         2.2733e-04],
+        [1.2989e-03, 1.2082e-04, 4.2176e-04,  ..., 1.8919e-04, 1.6952e-04,
+         3.6764e-04]], device='cuda:0')
+Epoch 70, bias, value: tensor([ 0.1250,  0.0581,  0.1016,  0.0215,  0.1517, -0.2167, -0.2359],
+       device='cuda:0'), grad: tensor([ 0.0356,  0.0336,  0.0271, -0.1437,  0.0297,  0.0067,  0.0108],
+       device='cuda:0')
+588
+5.034667293427056e-06
+changing lr
+epoch 69, time 727.78, cls_loss 0.3435 cls_loss_mapping 0.0047 cls_loss_causal 0.3260 re_mapping 0.0051 re_causal 0.0080 /// teacc 85.93 lr 0.00000000
+---------------------saving last model at epoch 69----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps1_RA', 'source_domain': 'sketch', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps1_RA/sketch_16factor_best_test_check.csv', 'factor_num': 16, 'epoch': 'best', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of best
+randm: False
+stride: 5
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+columns: ['sketch', 'art_painting', 'cartoon', 'photo']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+                        sketch  art_painting    cartoon      photo        Avg
+w/o do (original x)  99.592772     45.654297  61.220137  54.131737  53.668723
+      sketch  art_painting    cartoon      photo        Avg
+do  99.56732     47.998047  62.883959  55.329341  55.403782
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps1_RA', 'source_domain': 'sketch', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps1_RA/sketch_16factor_last_test_check.csv', 'factor_num': 16, 'epoch': 'last', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of last
+randm: False
+stride: 5
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+columns: ['sketch', 'art_painting', 'cartoon', 'photo']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+                        sketch  art_painting    cartoon      photo       Avg
+w/o do (original x)  96.004072     29.638672  47.866894  38.562874  38.68948
+       sketch  art_painting    cartoon      photo        Avg
+do  98.956477     35.058594  60.238908  46.407186  47.234896
diff --git a/Meta-causal/code-withStyleAttack/73335.error b/Meta-causal/code-withStyleAttack/73335.error
new file mode 100644
index 0000000000000000000000000000000000000000..1d8892f503da98d186cde00bd23a07723e0edba4
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73335.error
@@ -0,0 +1 @@
+run_my_joint_v13_test.sh: line 33: randm}: command not found
diff --git a/Meta-causal/code-withStyleAttack/73335.log b/Meta-causal/code-withStyleAttack/73335.log
new file mode 100644
index 0000000000000000000000000000000000000000..6f9e357a33f42bb89009243c4142038e7dfb541e
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73335.log
@@ -0,0 +1,1750 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'art_painting', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 5, 'factor_num': 16, 'epochs': 70, 'nbatch': 100, 'batchsize': 6, 'lr': 0.01, 'lr_scheduler': 'cosine', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps1_RA', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 5
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_train.hdf5 torch.Size([1840, 3, 227, 227]) torch.Size([1840])
+--------------------------CA_multiple--------------------------
+---------------------------16 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_val.hdf5 torch.Size([208, 3, 227, 227]) torch.Size([208])
+-------------------------------------loading pretrain weights----------------------------------
+Epoch 1, weight, value: tensor([[ 0.0053, -0.0013, -0.0098,  ..., -0.0012,  0.0013, -0.0029],
+        [-0.0165,  0.0187, -0.0004,  ..., -0.0081, -0.0148, -0.0057],
+        [-0.0006,  0.0162,  0.0136,  ...,  0.0131,  0.0182,  0.0024],
+        ...,
+        [-0.0212,  0.0016, -0.0046,  ..., -0.0019, -0.0098, -0.0033],
+        [ 0.0064, -0.0190, -0.0205,  ...,  0.0201,  0.0204, -0.0022],
+        [ 0.0054, -0.0009, -0.0093,  ...,  0.0110, -0.0210, -0.0037]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([ 0.0011,  0.0142,  0.0121, -0.0146, -0.0177, -0.0205, -0.0069],
+       device='cuda:0'), grad: None
+306
+0.01
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 376.29, cls_loss 8.4500 cls_loss_mapping 1.9255 cls_loss_causal 1.9317 re_mapping 0.3113 re_causal 0.3106 /// teacc 19.71 lr 0.00999497
+Epoch 2, weight, value: tensor([[ 0.0391,  0.0158,  0.0516,  ..., -0.0727, -0.0589, -0.0626],
+        [-0.0375, -0.0092, -0.0231,  ...,  0.0917,  0.1073,  0.0968],
+        [-0.0041,  0.0067,  0.0022,  ...,  0.0652,  0.0553,  0.0310],
+        ...,
+        [-0.0440, -0.0371, -0.0060,  ..., -0.0112, -0.0222, -0.0217],
+        [ 0.0232, -0.0062, -0.0511,  ...,  0.0213,  0.0270, -0.0092],
+        [ 0.0086,  0.0237,  0.0026,  ..., -0.0689, -0.0672, -0.0597]],
+       device='cuda:0'), grad: tensor([[ 0.1709,  0.0406,  0.0615,  ...,  0.0498,  0.0764,  0.0161],
+        [ 0.0112, -0.0040, -0.0076,  ..., -0.0075, -0.0048, -0.0124],
+        [-0.1487, -0.0360, -0.0532,  ..., -0.0410, -0.0630, -0.0133],
+        ...,
+        [ 0.0023,  0.0011,  0.0017,  ...,  0.0015,  0.0018,  0.0013],
+        [ 0.0618,  0.0179,  0.0273,  ...,  0.0230,  0.0321,  0.0119],
+        [ 0.0430,  0.0132,  0.0200,  ...,  0.0169,  0.0231,  0.0095]],
+       device='cuda:0')
+Epoch 2, bias, value: tensor([ 0.0095,  0.0197,  0.0234, -0.0709, -0.0009,  0.0141, -0.0265],
+       device='cuda:0'), grad: tensor([ 0.3354, -0.2361, -0.2761, -0.2778,  0.0257,  0.2384,  0.1906],
+       device='cuda:0')
+306
+0.009994965332706574
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 371.69, cls_loss 2.6503 cls_loss_mapping 1.9162 cls_loss_causal 1.9207 re_mapping 0.0698 re_causal 0.0694 /// teacc 27.88 lr 0.00997987
+Epoch 3, weight, value: tensor([[ 0.0514,  0.0289,  0.0586,  ..., -0.0662, -0.0524, -0.0604],
+        [-0.0262, -0.0098, -0.0179,  ...,  0.0920,  0.1066,  0.0947],
+        [-0.0211,  0.0006, -0.0014,  ...,  0.0650,  0.0543,  0.0334],
+        ...,
+        [-0.0456, -0.0430, -0.0105,  ..., -0.0103, -0.0121, -0.0194],
+        [ 0.0215, -0.0141, -0.0551,  ...,  0.0134,  0.0158, -0.0157],
+        [ 0.0188,  0.0377,  0.0117,  ..., -0.0702, -0.0698, -0.0568]],
+       device='cuda:0'), grad: tensor([[-0.1062, -0.0127, -0.0232,  ..., -0.0208, -0.0378, -0.0107],
+        [-0.0327, -0.0051, -0.0113,  ..., -0.0071, -0.0090, -0.0041],
+        [ 0.0704,  0.0108,  0.0199,  ...,  0.0152,  0.0222,  0.0084],
+        ...,
+        [ 0.0546,  0.0078,  0.0145,  ...,  0.0114,  0.0174,  0.0062],
+        [ 0.0029, -0.0057, -0.0079,  ..., -0.0028,  0.0033, -0.0032],
+        [-0.0108,  0.0015,  0.0017,  ..., -0.0006, -0.0030,  0.0009]],
+       device='cuda:0')
+Epoch 3, bias, value: tensor([ 0.0251, -0.0049,  0.0636, -0.1255,  0.0116, -0.0103,  0.0092],
+       device='cuda:0'), grad: tensor([-0.2612, -0.1074,  0.2012,  0.0634,  0.1493, -0.0515,  0.0063],
+       device='cuda:0')
+306
+0.009979871469976196
+changing lr
+epoch 2, time 376.92, cls_loss 2.3544 cls_loss_mapping 1.9079 cls_loss_causal 1.9130 re_mapping 0.0544 re_causal 0.0541 /// teacc 24.04 lr 0.00995475
+Epoch 4, weight, value: tensor([[ 0.0752,  0.0553,  0.0808,  ..., -0.0666, -0.0481, -0.0624],
+        [-0.0416, -0.0245, -0.0326,  ...,  0.0919,  0.1035,  0.0942],
+        [-0.0296, -0.0114, -0.0118,  ...,  0.0699,  0.0616,  0.0369],
+        ...,
+        [-0.0620, -0.0549, -0.0187,  ..., -0.0073, -0.0064, -0.0141],
+        [ 0.0133, -0.0214, -0.0636,  ...,  0.0054, -0.0010, -0.0254],
+        [ 0.0504,  0.0650,  0.0360,  ..., -0.0735, -0.0693, -0.0578]],
+       device='cuda:0'), grad: tensor([[ 0.0193,  0.0119,  0.0148,  ...,  0.0024,  0.0033,  0.0045],
+        [-0.0318, -0.0026, -0.0064,  ..., -0.0099, -0.0138, -0.0098],
+        [ 0.0154,  0.0052,  0.0073,  ...,  0.0043,  0.0037,  0.0027],
+        ...,
+        [ 0.0181,  0.0029,  0.0042,  ...,  0.0034,  0.0051,  0.0037],
+        [-0.0370, -0.0263, -0.0275,  ..., -0.0014, -0.0012, -0.0032],
+        [ 0.0418,  0.0117,  0.0144,  ...,  0.0065,  0.0096,  0.0076]],
+       device='cuda:0')
+Epoch 4, bias, value: tensor([ 0.0022,  0.0241,  0.0841, -0.1061,  0.0643, -0.0579, -0.0415],
+       device='cuda:0'), grad: tensor([ 0.0834, -0.0908,  0.0380, -0.1333,  0.0555, -0.0728,  0.1200],
+       device='cuda:0')
+306
+0.009954748808839675
+changing lr
+epoch 3, time 377.30, cls_loss 2.2054 cls_loss_mapping 1.8581 cls_loss_causal 1.8853 re_mapping 0.0493 re_causal 0.0490 /// teacc 14.42 lr 0.00991965
+Epoch 5, weight, value: tensor([[ 0.0929,  0.0776,  0.1090,  ..., -0.0731, -0.0534, -0.0701],
+        [-0.0484, -0.0323, -0.0412,  ...,  0.0871,  0.0968,  0.0875],
+        [-0.0439, -0.0206, -0.0164,  ...,  0.0747,  0.0620,  0.0409],
+        ...,
+        [-0.0746, -0.0644, -0.0292,  ..., -0.0023,  0.0003, -0.0076],
+        [ 0.0134, -0.0346, -0.0710,  ..., -0.0024, -0.0069, -0.0301],
+        [ 0.0874,  0.1044,  0.0580,  ..., -0.0717, -0.0641, -0.0552]],
+       device='cuda:0'), grad: tensor([[ 1.2286e-01,  4.6234e-02,  5.0415e-02,  ...,  1.8127e-02,
+          1.8356e-02,  1.9730e-02],
+        [-2.9266e-02, -3.6755e-03, -4.7302e-03,  ..., -3.7060e-03,
+         -3.4847e-03, -4.9286e-03],
+        [-1.5076e-01, -5.8258e-02, -6.4209e-02,  ..., -1.4427e-02,
+         -1.6144e-02, -1.6312e-02],
+        ...,
+        [ 2.7588e-02,  5.8975e-03,  6.6452e-03,  ...,  6.0501e-03,
+          6.3782e-03,  6.6719e-03],
+        [ 2.6535e-02,  7.2746e-03,  6.7215e-03,  ..., -2.6302e-03,
+         -2.9507e-03, -2.0485e-03],
+        [-8.9874e-03,  1.4889e-04,  2.5196e-03,  ..., -6.1646e-03,
+         -5.0278e-03, -6.1493e-03]], device='cuda:0')
+Epoch 5, bias, value: tensor([-0.0398,  0.0252,  0.1339, -0.1231,  0.0821, -0.0891, -0.0198],
+       device='cuda:0'), grad: tensor([ 0.2517, -0.0845, -0.2615,  0.0360,  0.0792,  0.0333, -0.0543],
+       device='cuda:0')
+306
+0.009919647942993149
+changing lr
+epoch 4, time 383.49, cls_loss 2.0885 cls_loss_mapping 1.6475 cls_loss_causal 1.7650 re_mapping 0.0498 re_causal 0.0493 /// teacc 26.92 lr 0.00987464
+Epoch 6, weight, value: tensor([[ 6.0138e-02,  4.3250e-02,  9.1669e-02,  ..., -8.1134e-02,
+         -5.8127e-02, -7.6786e-02],
+        [-4.9339e-02, -3.4439e-02, -4.4384e-02,  ...,  7.8394e-02,
+          8.6169e-02,  8.1343e-02],
+        [-1.3713e-02,  9.1968e-03,  1.3564e-02,  ...,  8.4537e-02,
+          7.3124e-02,  4.9576e-02],
+        ...,
+        [-8.7511e-02, -7.7323e-02, -3.9506e-02,  ...,  3.8575e-03,
+          4.6083e-05, -7.1018e-03],
+        [-7.7889e-03, -4.9964e-02, -8.5410e-02,  ..., -1.0512e-02,
+         -1.3470e-02, -3.6862e-02],
+        [ 1.2723e-01,  1.4002e-01,  7.0526e-02,  ..., -7.0053e-02,
+         -6.3971e-02, -5.1724e-02]], device='cuda:0'), grad: tensor([[-8.2642e-02, -4.1229e-02, -3.5034e-02,  ..., -1.7517e-02,
+         -1.8112e-02, -1.6144e-02],
+        [ 1.0046e-01,  3.8605e-02,  3.4393e-02,  ...,  2.0020e-02,
+          2.0905e-02,  1.9180e-02],
+        [ 4.9591e-04,  5.1193e-03,  3.7537e-03,  ..., -9.1076e-05,
+         -9.7322e-04, -1.9083e-03],
+        ...,
+        [ 8.4305e-03,  1.4324e-03,  1.5440e-03,  ...,  1.5612e-03,
+          1.6565e-03,  1.5841e-03],
+        [-5.1208e-02, -1.9445e-03, -4.9095e-03,  ..., -7.9269e-03,
+         -6.9923e-03, -8.8882e-03],
+        [ 6.1340e-02,  2.1839e-03,  4.4174e-03,  ...,  1.1955e-02,
+          1.2527e-02,  1.2535e-02]], device='cuda:0')
+Epoch 6, bias, value: tensor([-0.0371,  0.0348,  0.1630, -0.0923,  0.0543, -0.1413, -0.0116],
+       device='cuda:0'), grad: tensor([-0.1328,  0.2062, -0.0131, -0.0883,  0.0236, -0.2053,  0.2100],
+       device='cuda:0')
+306
+0.009874639560909117
+changing lr
+---------------------saving model at epoch 5----------------------------------------------------
+epoch 5, time 385.72, cls_loss 2.0249 cls_loss_mapping 1.4768 cls_loss_causal 1.6873 re_mapping 0.0514 re_causal 0.0507 /// teacc 34.62 lr 0.00981981
+Epoch 7, weight, value: tensor([[ 0.0839,  0.0604,  0.1290,  ..., -0.0867, -0.0651, -0.0834],
+        [-0.0630, -0.0510, -0.0633,  ...,  0.0783,  0.0835,  0.0791],
+        [-0.0217, -0.0071,  0.0026,  ...,  0.0909,  0.0817,  0.0578],
+        ...,
+        [-0.0936, -0.0890, -0.0442,  ...,  0.0016,  0.0004, -0.0094],
+        [-0.0161, -0.0528, -0.0831,  ..., -0.0125, -0.0204, -0.0412],
+        [ 0.1338,  0.1643,  0.0657,  ..., -0.0729, -0.0646, -0.0528]],
+       device='cuda:0'), grad: tensor([[-0.2358, -0.0932, -0.1008,  ..., -0.0454, -0.0450, -0.0411],
+        [-0.0285, -0.0082, -0.0044,  ..., -0.0025, -0.0023, -0.0036],
+        [ 0.0493,  0.0082,  0.0106,  ...,  0.0098,  0.0101,  0.0097],
+        ...,
+        [ 0.0707,  0.0147,  0.0145,  ...,  0.0116,  0.0117,  0.0123],
+        [ 0.0584,  0.0038,  0.0070,  ...,  0.0145,  0.0168,  0.0143],
+        [ 0.1227,  0.0743,  0.0746,  ...,  0.0250,  0.0199,  0.0197]],
+       device='cuda:0')
+Epoch 7, bias, value: tensor([-0.0626,  0.0034,  0.1680, -0.0491,  0.0877, -0.1515, -0.0255],
+       device='cuda:0'), grad: tensor([-0.4817, -0.0718,  0.1416, -0.1602,  0.1907,  0.2057,  0.1758],
+       device='cuda:0')
+306
+0.009819814303479266
+changing lr
+---------------------saving model at epoch 6----------------------------------------------------
+epoch 6, time 389.23, cls_loss 1.9610 cls_loss_mapping 1.2770 cls_loss_causal 1.5761 re_mapping 0.0551 re_causal 0.0543 /// teacc 39.90 lr 0.00975528
+Epoch 8, weight, value: tensor([[ 0.0883,  0.0602,  0.1302,  ..., -0.0809, -0.0609, -0.0787],
+        [-0.0524, -0.0385, -0.0537,  ...,  0.0758,  0.0806,  0.0748],
+        [-0.0445, -0.0286, -0.0185,  ...,  0.0829,  0.0802,  0.0547],
+        ...,
+        [-0.1187, -0.1069, -0.0565,  ..., -0.0016, -0.0011, -0.0113],
+        [-0.0203, -0.0570, -0.0861,  ..., -0.0178, -0.0300, -0.0470],
+        [ 0.1728,  0.1991,  0.0925,  ..., -0.0719, -0.0672, -0.0542]],
+       device='cuda:0'), grad: tensor([[-0.0218, -0.0272, -0.0234,  ..., -0.0008, -0.0008, -0.0005],
+        [-0.0124, -0.0045, -0.0024,  ..., -0.0073, -0.0039, -0.0043],
+        [ 0.0409,  0.0080,  0.0058,  ...,  0.0081,  0.0075,  0.0086],
+        ...,
+        [ 0.0447,  0.0108,  0.0079,  ...,  0.0108,  0.0086,  0.0098],
+        [ 0.0104,  0.0023,  0.0018,  ...,  0.0022,  0.0019,  0.0022],
+        [ 0.1117,  0.0474,  0.0386,  ...,  0.0195,  0.0168,  0.0190]],
+       device='cuda:0')
+Epoch 8, bias, value: tensor([-0.0783, -0.0309,  0.1924, -0.0475,  0.0862, -0.1578,  0.0070],
+       device='cuda:0'), grad: tensor([ 0.0172, -0.0440,  0.1069, -0.4407,  0.1189,  0.0250,  0.2167],
+       device='cuda:0')
+306
+0.009755282581475767
+changing lr
+epoch 7, time 370.84, cls_loss 1.7508 cls_loss_mapping 1.1142 cls_loss_causal 1.4611 re_mapping 0.0588 re_causal 0.0578 /// teacc 26.44 lr 0.00968117
+Epoch 9, weight, value: tensor([[ 0.0901,  0.0674,  0.1357,  ..., -0.0835, -0.0624, -0.0808],
+        [-0.0545, -0.0390, -0.0533,  ...,  0.0764,  0.0784,  0.0738],
+        [-0.0541, -0.0378, -0.0303,  ...,  0.0950,  0.0979,  0.0713],
+        ...,
+        [-0.1009, -0.0906, -0.0416,  ..., -0.0099, -0.0070, -0.0190],
+        [-0.0316, -0.0675, -0.0954,  ..., -0.0227, -0.0363, -0.0521],
+        [ 0.1581,  0.1785,  0.0785,  ..., -0.0785, -0.0754, -0.0621]],
+       device='cuda:0'), grad: tensor([[ 0.0287,  0.0032,  0.0035,  ...,  0.0048,  0.0061,  0.0067],
+        [ 0.0245,  0.0045,  0.0046,  ...,  0.0049,  0.0062,  0.0067],
+        [-0.0116, -0.0030, -0.0036,  ..., -0.0013, -0.0013, -0.0013],
+        ...,
+        [-0.0862, -0.0104, -0.0107,  ..., -0.0142, -0.0187, -0.0202],
+        [ 0.0010,  0.0001,  0.0002,  ...,  0.0003,  0.0002,  0.0003],
+        [ 0.0457,  0.0053,  0.0057,  ...,  0.0064,  0.0081,  0.0088]],
+       device='cuda:0')
+Epoch 9, bias, value: tensor([-0.0640, -0.0477,  0.2150, -0.0655,  0.0673, -0.1500,  0.0165],
+       device='cuda:0'), grad: tensor([ 0.0916,  0.0740, -0.0197, -0.0108, -0.2842,  0.0036,  0.1454],
+       device='cuda:0')
+306
+0.009681174353198686
+changing lr
+epoch 8, time 372.53, cls_loss 1.6115 cls_loss_mapping 0.9594 cls_loss_causal 1.3691 re_mapping 0.0621 re_causal 0.0610 /// teacc 37.50 lr 0.00959764
+Epoch 10, weight, value: tensor([[ 0.0926,  0.0655,  0.1352,  ..., -0.0697, -0.0506, -0.0698],
+        [-0.0575, -0.0365, -0.0505,  ...,  0.0830,  0.0834,  0.0787],
+        [-0.0580, -0.0415, -0.0371,  ...,  0.0919,  0.0978,  0.0718],
+        ...,
+        [-0.1004, -0.0993, -0.0487,  ..., -0.0219, -0.0166, -0.0281],
+        [-0.0471, -0.0810, -0.1075,  ..., -0.0276, -0.0427, -0.0560],
+        [ 0.1724,  0.1960,  0.0966,  ..., -0.0716, -0.0725, -0.0590]],
+       device='cuda:0'), grad: tensor([[ 0.0017, -0.0050, -0.0050,  ...,  0.0005,  0.0007,  0.0008],
+        [-0.0638, -0.0199, -0.0198,  ..., -0.0157, -0.0147, -0.0157],
+        [ 0.0384,  0.0065,  0.0063,  ...,  0.0125,  0.0136,  0.0134],
+        ...,
+        [ 0.0413,  0.0100,  0.0100,  ...,  0.0061,  0.0069,  0.0071],
+        [-0.0804, -0.0107, -0.0107,  ..., -0.0054, -0.0083, -0.0085],
+        [ 0.0743,  0.0191,  0.0189,  ...,  0.0118,  0.0123,  0.0130]],
+       device='cuda:0')
+Epoch 10, bias, value: tensor([-0.0603, -0.0418,  0.2159, -0.0500,  0.0764, -0.1696,  0.0012],
+       device='cuda:0'), grad: tensor([ 0.0218, -0.1571,  0.1117, -0.0466,  0.1021, -0.2211,  0.1893],
+       device='cuda:0')
+306
+0.009597638862757255
+changing lr
+---------------------saving model at epoch 9----------------------------------------------------
+epoch 9, time 388.13, cls_loss 1.5792 cls_loss_mapping 0.7980 cls_loss_causal 1.2693 re_mapping 0.0626 re_causal 0.0613 /// teacc 55.29 lr 0.00950484
+Epoch 11, weight, value: tensor([[ 0.1319,  0.1058,  0.1762,  ..., -0.0754, -0.0543, -0.0741],
+        [-0.0632, -0.0429, -0.0567,  ...,  0.0764,  0.0741,  0.0682],
+        [-0.0782, -0.0591, -0.0574,  ...,  0.0956,  0.1005,  0.0748],
+        ...,
+        [-0.1182, -0.1125, -0.0618,  ..., -0.0239, -0.0198, -0.0302],
+        [-0.0561, -0.0922, -0.1188,  ..., -0.0276, -0.0433, -0.0555],
+        [ 0.1819,  0.2043,  0.1053,  ..., -0.0729, -0.0712, -0.0571]],
+       device='cuda:0'), grad: tensor([[-0.0612, -0.0264, -0.0242,  ..., -0.0108, -0.0095, -0.0106],
+        [ 0.0166,  0.0023,  0.0023,  ...,  0.0031,  0.0036,  0.0033],
+        [-0.0366, -0.0012, -0.0011,  ..., -0.0070, -0.0090, -0.0077],
+        ...,
+        [ 0.0184,  0.0017,  0.0016,  ...,  0.0035,  0.0041,  0.0037],
+        [-0.0036, -0.0010, -0.0007,  ..., -0.0019, -0.0015, -0.0011],
+        [ 0.0517,  0.0231,  0.0208,  ...,  0.0099,  0.0087,  0.0091]],
+       device='cuda:0')
+Epoch 11, bias, value: tensor([-0.0524, -0.0517,  0.2057, -0.0272,  0.0754, -0.1823,  0.0045],
+       device='cuda:0'), grad: tensor([-0.1077,  0.0468, -0.1149,  0.0428,  0.0549, -0.0074,  0.0856],
+       device='cuda:0')
+306
+0.009504844339512096
+changing lr
+---------------------saving model at epoch 10----------------------------------------------------
+epoch 10, time 388.45, cls_loss 1.4982 cls_loss_mapping 0.6722 cls_loss_causal 1.1805 re_mapping 0.0630 re_causal 0.0618 /// teacc 63.94 lr 0.00940298
+Epoch 12, weight, value: tensor([[ 0.1326,  0.1123,  0.1835,  ..., -0.0806, -0.0616, -0.0779],
+        [-0.0848, -0.0579, -0.0724,  ...,  0.0891,  0.0876,  0.0802],
+        [-0.0824, -0.0668, -0.0635,  ...,  0.0825,  0.0883,  0.0598],
+        ...,
+        [-0.1035, -0.0975, -0.0459,  ..., -0.0292, -0.0240, -0.0343],
+        [-0.0627, -0.1070, -0.1318,  ..., -0.0240, -0.0424, -0.0533],
+        [ 0.1855,  0.2022,  0.0990,  ..., -0.0674, -0.0668, -0.0514]],
+       device='cuda:0'), grad: tensor([[-4.0680e-02, -4.1428e-03, -4.4327e-03,  ..., -7.0839e-03,
+         -9.4528e-03, -1.1246e-02],
+        [ 1.2199e-02,  2.0580e-03,  2.1324e-03,  ...,  2.1591e-03,
+          2.0943e-03,  2.6283e-03],
+        [-3.7659e-02, -1.1644e-03, -1.5011e-03,  ..., -1.0422e-02,
+         -3.9330e-03, -8.6212e-03],
+        ...,
+        [ 3.4760e-02,  8.6441e-03,  8.2626e-03,  ...,  4.1275e-03,
+          3.3875e-03,  4.9706e-03],
+        [-3.5419e-03, -4.6654e-03, -4.8180e-03,  ...,  2.9621e-03,
+          4.9162e-04,  2.2488e-03],
+        [ 3.2349e-02, -1.2856e-03, -9.2268e-05,  ...,  9.9487e-03,
+          8.9798e-03,  1.1345e-02]], device='cuda:0')
+Epoch 12, bias, value: tensor([-0.0930, -0.0412,  0.1913, -0.0382,  0.0863, -0.1875,  0.0545],
+       device='cuda:0'), grad: tensor([-0.1238,  0.0362, -0.1497,  0.0091,  0.0917,  0.0083,  0.1283],
+       device='cuda:0')
+306
+0.009402977659283692
+changing lr
+---------------------saving model at epoch 11----------------------------------------------------
+epoch 11, time 385.46, cls_loss 1.3446 cls_loss_mapping 0.5772 cls_loss_causal 1.0861 re_mapping 0.0625 re_causal 0.0615 /// teacc 74.52 lr 0.00929224
+Epoch 13, weight, value: tensor([[ 0.1589,  0.1297,  0.2037,  ..., -0.0841, -0.0640, -0.0815],
+        [-0.0723, -0.0476, -0.0619,  ...,  0.0818,  0.0801,  0.0706],
+        [-0.0896, -0.0744, -0.0723,  ...,  0.0832,  0.0875,  0.0606],
+        ...,
+        [-0.1465, -0.1351, -0.0850,  ..., -0.0336, -0.0271, -0.0363],
+        [-0.0637, -0.1048, -0.1288,  ..., -0.0213, -0.0383, -0.0500],
+        [ 0.1877,  0.2094,  0.1062,  ..., -0.0645, -0.0664, -0.0479]],
+       device='cuda:0'), grad: tensor([[ 0.0441,  0.0166,  0.0178,  ...,  0.0049,  0.0059,  0.0059],
+        [ 0.0022,  0.0006,  0.0007,  ...,  0.0010,  0.0010,  0.0011],
+        [ 0.0015,  0.0003,  0.0004,  ...,  0.0008,  0.0007,  0.0008],
+        ...,
+        [-0.0789, -0.0327, -0.0348,  ..., -0.0074, -0.0092, -0.0091],
+        [ 0.0261,  0.0037,  0.0047,  ...,  0.0035,  0.0028,  0.0041],
+        [ 0.0267,  0.0113,  0.0120,  ...,  0.0028,  0.0034,  0.0034]],
+       device='cuda:0')
+Epoch 13, bias, value: tensor([-0.0982, -0.0286,  0.1617, -0.0122,  0.1054, -0.1855,  0.0303],
+       device='cuda:0'), grad: tensor([ 0.0863,  0.0048,  0.0044, -0.0745, -0.1460,  0.0754,  0.0494],
+       device='cuda:0')
+306
+0.009292243968009333
+changing lr
+epoch 12, time 371.32, cls_loss 1.3444 cls_loss_mapping 0.4845 cls_loss_causal 1.0228 re_mapping 0.0611 re_causal 0.0602 /// teacc 71.63 lr 0.00917287
+Epoch 14, weight, value: tensor([[ 0.1577,  0.1362,  0.2085,  ..., -0.0884, -0.0653, -0.0828],
+        [-0.0812, -0.0541, -0.0688,  ...,  0.0738,  0.0672,  0.0558],
+        [-0.0658, -0.0551, -0.0523,  ...,  0.0765,  0.0805,  0.0542],
+        ...,
+        [-0.1438, -0.1366, -0.0859,  ..., -0.0301, -0.0207, -0.0298],
+        [-0.0734, -0.1156, -0.1382,  ..., -0.0237, -0.0426, -0.0543],
+        [ 0.1854,  0.2068,  0.1043,  ..., -0.0561, -0.0557, -0.0366]],
+       device='cuda:0'), grad: tensor([[ 0.0088,  0.0006,  0.0012,  ...,  0.0035,  0.0027,  0.0031],
+        [ 0.0088,  0.0023,  0.0027,  ...,  0.0021,  0.0016,  0.0020],
+        [ 0.0246,  0.0053,  0.0068,  ...,  0.0085,  0.0065,  0.0074],
+        ...,
+        [ 0.0025,  0.0020,  0.0019,  ...,  0.0006,  0.0004,  0.0007],
+        [ 0.0440,  0.0131,  0.0143,  ...,  0.0035,  0.0026,  0.0041],
+        [-0.0955, -0.0253, -0.0291,  ..., -0.0189, -0.0144, -0.0180]],
+       device='cuda:0')
+Epoch 14, bias, value: tensor([-0.0842, -0.0495,  0.1375, -0.0216,  0.1041, -0.1999,  0.0867],
+       device='cuda:0'), grad: tensor([ 2.7283e-02,  2.0493e-02,  6.3721e-02,  1.4313e-02,  2.1648e-04,
+         9.2407e-02, -2.1851e-01], device='cuda:0')
+306
+0.009172866268606516
+changing lr
+---------------------saving model at epoch 13----------------------------------------------------
+epoch 13, time 384.71, cls_loss 1.2433 cls_loss_mapping 0.4481 cls_loss_causal 0.9733 re_mapping 0.0603 re_causal 0.0595 /// teacc 75.96 lr 0.00904508
+Epoch 15, weight, value: tensor([[ 0.1653,  0.1482,  0.2173,  ..., -0.0796, -0.0591, -0.0754],
+        [-0.0803, -0.0506, -0.0678,  ...,  0.0789,  0.0702,  0.0615],
+        [-0.0910, -0.0749, -0.0692,  ...,  0.0724,  0.0774,  0.0517],
+        ...,
+        [-0.1339, -0.1203, -0.0707,  ..., -0.0322, -0.0215, -0.0316],
+        [-0.0669, -0.1158, -0.1363,  ..., -0.0299, -0.0468, -0.0592],
+        [ 0.1752,  0.1930,  0.0902,  ..., -0.0555, -0.0583, -0.0382]],
+       device='cuda:0'), grad: tensor([[ 0.0762,  0.0346,  0.0345,  ...,  0.0103,  0.0128,  0.0152],
+        [ 0.0033,  0.0006,  0.0005,  ...,  0.0011,  0.0011,  0.0013],
+        [ 0.0283,  0.0026,  0.0014,  ...,  0.0105,  0.0104,  0.0124],
+        ...,
+        [-0.0420, -0.0025, -0.0005,  ..., -0.0159, -0.0156, -0.0187],
+        [-0.0121,  0.0010,  0.0009,  ..., -0.0109, -0.0106, -0.0115],
+        [-0.0669, -0.0373, -0.0378,  ..., -0.0034, -0.0063, -0.0077]],
+       device='cuda:0')
+Epoch 15, bias, value: tensor([-0.0425, -0.0375,  0.1258, -0.0194,  0.0886, -0.1897,  0.0482],
+       device='cuda:0'), grad: tensor([ 0.1677,  0.0113,  0.1028,  0.0493, -0.1578, -0.0531, -0.1202],
+       device='cuda:0')
+306
+0.00904508497187474
+changing lr
+epoch 14, time 375.77, cls_loss 1.2228 cls_loss_mapping 0.4032 cls_loss_causal 0.9584 re_mapping 0.0575 re_causal 0.0569 /// teacc 75.48 lr 0.00890916
+Epoch 16, weight, value: tensor([[ 0.1765,  0.1524,  0.2282,  ..., -0.0832, -0.0615, -0.0786],
+        [-0.0846, -0.0603, -0.0772,  ...,  0.0695,  0.0606,  0.0512],
+        [-0.0857, -0.0710, -0.0658,  ...,  0.0736,  0.0791,  0.0528],
+        ...,
+        [-0.1403, -0.1246, -0.0809,  ..., -0.0301, -0.0232, -0.0293],
+        [-0.0638, -0.1131, -0.1309,  ..., -0.0304, -0.0453, -0.0595],
+        [ 0.1809,  0.2060,  0.1003,  ..., -0.0519, -0.0551, -0.0337]],
+       device='cuda:0'), grad: tensor([[-0.1802, -0.0469, -0.0497,  ..., -0.0433, -0.0450, -0.0509],
+        [ 0.1320,  0.0365,  0.0385,  ...,  0.0304,  0.0332,  0.0365],
+        [ 0.0139,  0.0045,  0.0048,  ...,  0.0027,  0.0027,  0.0032],
+        ...,
+        [ 0.0141,  0.0031,  0.0033,  ...,  0.0034,  0.0032,  0.0038],
+        [ 0.0065,  0.0011,  0.0012,  ...,  0.0014,  0.0011,  0.0015],
+        [ 0.0095,  0.0006,  0.0007,  ...,  0.0035,  0.0033,  0.0040]],
+       device='cuda:0')
+Epoch 16, bias, value: tensor([-0.0292, -0.0335,  0.1331, -0.0374,  0.1014, -0.1938,  0.0332],
+       device='cuda:0'), grad: tensor([-0.4414,  0.3062,  0.0315,  0.0123,  0.0392,  0.0198,  0.0325],
+       device='cuda:0')
+306
+0.008909157412340152
+changing lr
+---------------------saving model at epoch 15----------------------------------------------------
+epoch 15, time 394.10, cls_loss 1.1426 cls_loss_mapping 0.3545 cls_loss_causal 0.9163 re_mapping 0.0583 re_causal 0.0578 /// teacc 78.37 lr 0.00876536
+Epoch 17, weight, value: tensor([[ 0.1913,  0.1762,  0.2551,  ..., -0.0909, -0.0681, -0.0831],
+        [-0.1083, -0.0779, -0.0955,  ...,  0.0744,  0.0633,  0.0559],
+        [-0.0938, -0.0812, -0.0737,  ...,  0.0749,  0.0808,  0.0545],
+        ...,
+        [-0.1247, -0.1092, -0.0710,  ..., -0.0297, -0.0254, -0.0300],
+        [-0.0575, -0.1130, -0.1316,  ..., -0.0256, -0.0424, -0.0564],
+        [ 0.1837,  0.2012,  0.0955,  ..., -0.0539, -0.0540, -0.0349]],
+       device='cuda:0'), grad: tensor([[ 0.0113,  0.0029,  0.0029,  ...,  0.0019,  0.0016,  0.0019],
+        [ 0.0536,  0.0115,  0.0112,  ...,  0.0102,  0.0091,  0.0100],
+        [-0.0061, -0.0004, -0.0002,  ..., -0.0039, -0.0036, -0.0040],
+        ...,
+        [-0.0364, -0.0008, -0.0002,  ..., -0.0110, -0.0105, -0.0105],
+        [-0.0692, -0.0246, -0.0248,  ..., -0.0059, -0.0042, -0.0060],
+        [ 0.0424,  0.0111,  0.0109,  ...,  0.0072,  0.0062,  0.0072]],
+       device='cuda:0')
+Epoch 17, bias, value: tensor([-0.0003, -0.0295,  0.1302, -0.0524,  0.1031, -0.1833,  0.0066],
+       device='cuda:0'), grad: tensor([ 0.0300,  0.1553, -0.0198,  0.0156, -0.1356, -0.1595,  0.1140],
+       device='cuda:0')
+306
+0.00876535733001806
+changing lr
+epoch 16, time 372.24, cls_loss 1.1972 cls_loss_mapping 0.3272 cls_loss_causal 0.9196 re_mapping 0.0556 re_causal 0.0552 /// teacc 49.04 lr 0.00861397
+Epoch 18, weight, value: tensor([[ 0.1845,  0.1675,  0.2441,  ..., -0.0868, -0.0636, -0.0767],
+        [-0.1077, -0.0769, -0.0945,  ...,  0.0559,  0.0419,  0.0384],
+        [-0.0739, -0.0632, -0.0576,  ...,  0.0840,  0.0895,  0.0624],
+        ...,
+        [-0.1363, -0.1124, -0.0733,  ..., -0.0368, -0.0295, -0.0353],
+        [-0.0606, -0.1146, -0.1339,  ..., -0.0286, -0.0451, -0.0574],
+        [ 0.1930,  0.2101,  0.1083,  ..., -0.0546, -0.0536, -0.0377]],
+       device='cuda:0'), grad: tensor([[-4.9225e-02, -1.2665e-02, -9.9640e-03,  ..., -2.1179e-02,
+         -1.7044e-02, -1.7975e-02],
+        [ 4.4937e-03,  8.0252e-04,  5.6744e-04,  ...,  1.7004e-03,
+          1.3418e-03,  1.4057e-03],
+        [ 2.5146e-02,  1.5831e-03,  3.6979e-04,  ...,  7.6637e-03,
+          5.7716e-03,  5.9509e-03],
+        ...,
+        [-7.3290e-04,  1.4484e-04,  1.4794e-04,  ..., -6.5231e-04,
+         -7.8869e-04, -6.5947e-04],
+        [-4.1016e-02, -1.9989e-03, -6.0052e-06,  ..., -1.1421e-02,
+         -8.1787e-03, -8.5754e-03],
+        [ 5.7648e-02,  1.1795e-02,  8.7280e-03,  ...,  2.2766e-02,
+          1.8051e-02,  1.8982e-02]], device='cuda:0')
+Epoch 18, bias, value: tensor([ 0.0296, -0.0273,  0.1252, -0.0435,  0.0817, -0.1935,  0.0026],
+       device='cuda:0'), grad: tensor([-0.1266,  0.0131,  0.0862,  0.0120, -0.0038, -0.1423,  0.1615],
+       device='cuda:0')
+306
+0.008613974319136962
+changing lr
+epoch 17, time 373.84, cls_loss 1.1591 cls_loss_mapping 0.2842 cls_loss_causal 0.8782 re_mapping 0.0567 re_causal 0.0565 /// teacc 76.92 lr 0.00845531
+Epoch 19, weight, value: tensor([[ 0.1863,  0.1765,  0.2516,  ..., -0.0793, -0.0549, -0.0692],
+        [-0.1049, -0.0811, -0.0978,  ...,  0.0512,  0.0365,  0.0339],
+        [-0.0775, -0.0682, -0.0608,  ...,  0.0801,  0.0868,  0.0617],
+        ...,
+        [-0.1463, -0.1197, -0.0808,  ..., -0.0393, -0.0332, -0.0377],
+        [-0.0600, -0.1132, -0.1343,  ..., -0.0266, -0.0419, -0.0548],
+        [ 0.2097,  0.2235,  0.1228,  ..., -0.0587, -0.0593, -0.0451]],
+       device='cuda:0'), grad: tensor([[ 0.0407,  0.0142,  0.0133,  ...,  0.0059,  0.0041,  0.0068],
+        [-0.0334, -0.0023, -0.0016,  ..., -0.0082, -0.0071, -0.0094],
+        [-0.1072, -0.0281, -0.0253,  ..., -0.0202, -0.0166, -0.0226],
+        ...,
+        [-0.0712, -0.0315, -0.0305,  ..., -0.0108, -0.0110, -0.0128],
+        [ 0.0217,  0.0062,  0.0057,  ...,  0.0038,  0.0033,  0.0042],
+        [ 0.1299,  0.0362,  0.0337,  ...,  0.0263,  0.0247,  0.0302]],
+       device='cuda:0')
+Epoch 19, bias, value: tensor([-0.0150,  0.0016,  0.1266, -0.0443,  0.0984, -0.2074,  0.0156],
+       device='cuda:0'), grad: tensor([ 0.1158, -0.0880, -0.2639,  0.0462, -0.1531,  0.0519,  0.2910],
+       device='cuda:0')
+306
+0.008455313244934327
+changing lr
+---------------------saving model at epoch 18----------------------------------------------------
+epoch 18, time 387.10, cls_loss 1.0753 cls_loss_mapping 0.2896 cls_loss_causal 0.8310 re_mapping 0.0551 re_causal 0.0550 /// teacc 81.73 lr 0.00828969
+Epoch 20, weight, value: tensor([[ 0.1953,  0.1870,  0.2643,  ..., -0.0830, -0.0598, -0.0744],
+        [-0.0947, -0.0688, -0.0860,  ...,  0.0530,  0.0393,  0.0371],
+        [-0.0706, -0.0623, -0.0564,  ...,  0.0768,  0.0847,  0.0571],
+        ...,
+        [-0.1383, -0.1188, -0.0816,  ..., -0.0423, -0.0363, -0.0402],
+        [-0.0716, -0.1254, -0.1463,  ..., -0.0235, -0.0388, -0.0517],
+        [ 0.1916,  0.2072,  0.1076,  ..., -0.0592, -0.0601, -0.0438]],
+       device='cuda:0'), grad: tensor([[-0.0191, -0.0117, -0.0118,  ..., -0.0022, -0.0019, -0.0022],
+        [-0.0359, -0.0013, -0.0005,  ..., -0.0176, -0.0155, -0.0183],
+        [ 0.0042,  0.0010,  0.0010,  ...,  0.0010,  0.0009,  0.0011],
+        ...,
+        [-0.0447, -0.0041, -0.0038,  ..., -0.0089, -0.0095, -0.0110],
+        [-0.0177,  0.0005,  0.0009,  ..., -0.0028, -0.0023, -0.0039],
+        [ 0.0748,  0.0123,  0.0116,  ...,  0.0151,  0.0147,  0.0180]],
+       device='cuda:0')
+Epoch 20, bias, value: tensor([-6.3101e-03, -5.6889e-05,  9.9267e-02, -5.2824e-02,  1.0531e-01,
+        -1.9733e-01,  2.7418e-02], device='cuda:0'), grad: tensor([-0.0252, -0.1346,  0.0121,  0.1343, -0.1562, -0.0656,  0.2352],
+       device='cuda:0')
+306
+0.008289693629698565
+changing lr
+epoch 19, time 371.97, cls_loss 1.1081 cls_loss_mapping 0.2602 cls_loss_causal 0.8403 re_mapping 0.0526 re_causal 0.0526 /// teacc 26.44 lr 0.00811745
+Epoch 21, weight, value: tensor([[ 0.1955,  0.1830,  0.2618,  ..., -0.0887, -0.0660, -0.0794],
+        [-0.0946, -0.0608, -0.0771,  ...,  0.0513,  0.0354,  0.0330],
+        [-0.0764, -0.0693, -0.0649,  ...,  0.0761,  0.0851,  0.0565],
+        ...,
+        [-0.1425, -0.1240, -0.0880,  ..., -0.0370, -0.0309, -0.0347],
+        [-0.0684, -0.1259, -0.1480,  ..., -0.0275, -0.0438, -0.0537],
+        [ 0.1933,  0.2114,  0.1138,  ..., -0.0630, -0.0608, -0.0453]],
+       device='cuda:0'), grad: tensor([[-0.0410, -0.0124, -0.0159,  ..., -0.0016,  0.0003, -0.0021],
+        [-0.0335, -0.0007, -0.0004,  ..., -0.0155, -0.0160, -0.0164],
+        [-0.0007, -0.0007, -0.0006,  ..., -0.0013, -0.0013, -0.0011],
+        ...,
+        [ 0.0466,  0.0067,  0.0082,  ...,  0.0125,  0.0118,  0.0134],
+        [-0.0095,  0.0004,  0.0005,  ..., -0.0008, -0.0005, -0.0011],
+        [ 0.0317,  0.0058,  0.0072,  ...,  0.0056,  0.0048,  0.0061]],
+       device='cuda:0')
+Epoch 21, bias, value: tensor([ 0.0074, -0.0214,  0.1041, -0.0581,  0.0911, -0.1867,  0.0395],
+       device='cuda:0'), grad: tensor([-0.0822, -0.1068,  0.0018,  0.0193,  0.1257, -0.0418,  0.0839],
+       device='cuda:0')
+306
+0.00811744900929367
+changing lr
+---------------------saving model at epoch 20----------------------------------------------------
+epoch 20, time 397.30, cls_loss 1.0361 cls_loss_mapping 0.2402 cls_loss_causal 0.8172 re_mapping 0.0536 re_causal 0.0538 /// teacc 85.58 lr 0.00793893
+Epoch 22, weight, value: tensor([[ 0.2078,  0.1999,  0.2755,  ..., -0.0897, -0.0683, -0.0844],
+        [-0.0912, -0.0659, -0.0807,  ...,  0.0474,  0.0342,  0.0309],
+        [-0.0733, -0.0596, -0.0546,  ...,  0.0741,  0.0839,  0.0534],
+        ...,
+        [-0.1483, -0.1303, -0.0946,  ..., -0.0413, -0.0344, -0.0366],
+        [-0.0646, -0.1248, -0.1458,  ..., -0.0232, -0.0402, -0.0480],
+        [ 0.1891,  0.2098,  0.1132,  ..., -0.0582, -0.0582, -0.0401]],
+       device='cuda:0'), grad: tensor([[-0.0350, -0.0033, -0.0031,  ..., -0.0050, -0.0061, -0.0065],
+        [ 0.0229,  0.0064,  0.0063,  ...,  0.0033,  0.0029,  0.0037],
+        [ 0.0062,  0.0026,  0.0026,  ...,  0.0008,  0.0006,  0.0009],
+        ...,
+        [ 0.0096, -0.0085, -0.0093,  ...,  0.0032,  0.0022,  0.0017],
+        [ 0.0507,  0.0101,  0.0093,  ...,  0.0089,  0.0080,  0.0099],
+        [-0.0190, -0.0033, -0.0029,  ..., -0.0036, -0.0010, -0.0015]],
+       device='cuda:0')
+Epoch 22, bias, value: tensor([ 0.0100, -0.0143,  0.0806, -0.0508,  0.1127, -0.1786,  0.0166],
+       device='cuda:0'), grad: tensor([-0.0963,  0.0503,  0.0114, -0.0976,  0.0463,  0.1255, -0.0396],
+       device='cuda:0')
+306
+0.007938926261462368
+changing lr
+epoch 21, time 373.83, cls_loss 1.0178 cls_loss_mapping 0.2098 cls_loss_causal 0.7991 re_mapping 0.0508 re_causal 0.0510 /// teacc 84.13 lr 0.00775448
+Epoch 23, weight, value: tensor([[ 0.2193,  0.2110,  0.2861,  ..., -0.0879, -0.0664, -0.0805],
+        [-0.0955, -0.0681, -0.0846,  ...,  0.0458,  0.0308,  0.0292],
+        [-0.0755, -0.0667, -0.0622,  ...,  0.0747,  0.0814,  0.0530],
+        ...,
+        [-0.1501, -0.1284, -0.0948,  ..., -0.0486, -0.0397, -0.0433],
+        [-0.0622, -0.1225, -0.1416,  ..., -0.0302, -0.0477, -0.0544],
+        [ 0.1881,  0.2093,  0.1143,  ..., -0.0497, -0.0463, -0.0317]],
+       device='cuda:0'), grad: tensor([[ 0.0039, -0.0022, -0.0025,  ...,  0.0033,  0.0027,  0.0029],
+        [-0.0273,  0.0003,  0.0002,  ..., -0.0120, -0.0112, -0.0127],
+        [ 0.0054,  0.0016,  0.0015,  ...,  0.0021,  0.0019,  0.0020],
+        ...,
+        [ 0.0149,  0.0035,  0.0031,  ...,  0.0060,  0.0053,  0.0056],
+        [ 0.0150,  0.0031,  0.0026,  ...,  0.0062,  0.0052,  0.0056],
+        [ 0.0139,  0.0041,  0.0038,  ...,  0.0035,  0.0023,  0.0032]],
+       device='cuda:0')
+Epoch 23, bias, value: tensor([ 0.0349, -0.0204,  0.0796, -0.0456,  0.1029, -0.1796,  0.0049],
+       device='cuda:0'), grad: tensor([ 0.0158, -0.0952,  0.0127, -0.0397,  0.0371,  0.0374,  0.0318],
+       device='cuda:0')
+306
+0.007754484907260515
+changing lr
+epoch 22, time 375.57, cls_loss 0.9567 cls_loss_mapping 0.2049 cls_loss_causal 0.7354 re_mapping 0.0497 re_causal 0.0500 /// teacc 85.10 lr 0.00756450
+Epoch 24, weight, value: tensor([[ 0.2233,  0.2149,  0.2870,  ..., -0.0866, -0.0684, -0.0797],
+        [-0.0960, -0.0705, -0.0866,  ...,  0.0361,  0.0235,  0.0215],
+        [-0.0695, -0.0663, -0.0623,  ...,  0.0738,  0.0812,  0.0536],
+        ...,
+        [-0.1502, -0.1260, -0.0920,  ..., -0.0485, -0.0394, -0.0423],
+        [-0.0729, -0.1273, -0.1463,  ..., -0.0279, -0.0472, -0.0525],
+        [ 0.1976,  0.2146,  0.1230,  ..., -0.0542, -0.0493, -0.0374]],
+       device='cuda:0'), grad: tensor([[-5.5603e-02, -7.9269e-03, -8.7891e-03,  ..., -6.8207e-03,
+         -7.7972e-03, -7.8659e-03],
+        [-2.7710e-02,  5.9223e-04,  1.2362e-04,  ...,  4.6253e-05,
+         -1.3227e-03, -9.1791e-04],
+        [ 2.2369e-02,  2.5692e-03,  3.1204e-03,  ...,  7.2975e-03,
+          8.2397e-03,  7.5226e-03],
+        ...,
+        [ 7.1831e-03,  5.7936e-04,  7.3099e-04,  ...,  1.4353e-03,
+          1.7233e-03,  1.5612e-03],
+        [-5.6744e-04, -2.9147e-05, -5.4151e-05,  ...,  2.0280e-05,
+          9.9480e-05,  1.3328e-04],
+        [ 6.8420e-02,  8.6136e-03,  1.0178e-02,  ...,  1.9882e-02,
+          2.2354e-02,  2.0630e-02]], device='cuda:0')
+Epoch 24, bias, value: tensor([ 0.0513, -0.0138,  0.0819, -0.0425,  0.0978, -0.1868, -0.0112],
+       device='cuda:0'), grad: tensor([-0.1422, -0.1069,  0.0674, -0.0378,  0.0229, -0.0004,  0.1969],
+       device='cuda:0')
+306
+0.007564496387029534
+changing lr
+epoch 23, time 369.00, cls_loss 0.9614 cls_loss_mapping 0.1907 cls_loss_causal 0.7604 re_mapping 0.0489 re_causal 0.0492 /// teacc 81.73 lr 0.00736934
+Epoch 25, weight, value: tensor([[ 0.2262,  0.2156,  0.2884,  ..., -0.0811, -0.0646, -0.0744],
+        [-0.1071, -0.0752, -0.0910,  ...,  0.0368,  0.0275,  0.0217],
+        [-0.0715, -0.0635, -0.0598,  ...,  0.0783,  0.0854,  0.0586],
+        ...,
+        [-0.1405, -0.1173, -0.0860,  ..., -0.0528, -0.0464, -0.0476],
+        [-0.0723, -0.1328, -0.1519,  ..., -0.0291, -0.0491, -0.0535],
+        [ 0.2020,  0.2183,  0.1292,  ..., -0.0610, -0.0543, -0.0424]],
+       device='cuda:0'), grad: tensor([[ 0.0512,  0.0213,  0.0208,  ...,  0.0105,  0.0110,  0.0110],
+        [-0.0081, -0.0010, -0.0005,  ..., -0.0028, -0.0029, -0.0028],
+        [ 0.0016,  0.0002,  0.0002,  ...,  0.0004,  0.0004,  0.0005],
+        ...,
+        [ 0.0017,  0.0006,  0.0005,  ...,  0.0004,  0.0004,  0.0004],
+        [ 0.0010,  0.0001,  0.0001,  ...,  0.0003,  0.0003,  0.0003],
+        [-0.0457, -0.0218, -0.0216,  ..., -0.0082, -0.0086, -0.0087]],
+       device='cuda:0')
+Epoch 25, bias, value: tensor([ 0.0468, -0.0369,  0.0817, -0.0467,  0.1163, -0.1638, -0.0204],
+       device='cuda:0'), grad: tensor([ 0.0900, -0.0218,  0.0055, -0.0106,  0.0040,  0.0033, -0.0706],
+       device='cuda:0')
+306
+0.007369343312364995
+changing lr
+epoch 24, time 370.26, cls_loss 0.9643 cls_loss_mapping 0.1737 cls_loss_causal 0.7489 re_mapping 0.0481 re_causal 0.0486 /// teacc 45.67 lr 0.00716942
+Epoch 26, weight, value: tensor([[ 0.2258,  0.2121,  0.2910,  ..., -0.0819, -0.0665, -0.0745],
+        [-0.1017, -0.0698, -0.0887,  ...,  0.0382,  0.0276,  0.0227],
+        [-0.0752, -0.0690, -0.0663,  ...,  0.0764,  0.0833,  0.0571],
+        ...,
+        [-0.1375, -0.1151, -0.0845,  ..., -0.0554, -0.0496, -0.0513],
+        [-0.0863, -0.1417, -0.1608,  ..., -0.0299, -0.0488, -0.0539],
+        [ 0.2112,  0.2281,  0.1372,  ..., -0.0564, -0.0480, -0.0376]],
+       device='cuda:0'), grad: tensor([[ 0.0334,  0.0241,  0.0229,  ..., -0.0016, -0.0026, -0.0011],
+        [ 0.0083,  0.0013,  0.0010,  ...,  0.0019,  0.0018,  0.0023],
+        [-0.0580, -0.0300, -0.0235,  ..., -0.0078, -0.0078, -0.0109],
+        ...,
+        [ 0.0059,  0.0012,  0.0009,  ...,  0.0013,  0.0012,  0.0015],
+        [-0.0505, -0.0196, -0.0200,  ..., -0.0034, -0.0017, -0.0042],
+        [ 0.0539,  0.0208,  0.0167,  ...,  0.0084,  0.0080,  0.0110]],
+       device='cuda:0')
+Epoch 26, bias, value: tensor([ 0.0384, -0.0267,  0.1042, -0.0456,  0.1118, -0.1924, -0.0124],
+       device='cuda:0'), grad: tensor([ 0.0441,  0.0253, -0.1407,  0.0185,  0.0181, -0.1064,  0.1411],
+       device='cuda:0')
+306
+0.0071694186955877925
+changing lr
+epoch 25, time 372.91, cls_loss 0.9016 cls_loss_mapping 0.1495 cls_loss_causal 0.6895 re_mapping 0.0486 re_causal 0.0492 /// teacc 71.63 lr 0.00696513
+Epoch 27, weight, value: tensor([[ 0.2119,  0.2043,  0.2814,  ..., -0.0818, -0.0657, -0.0726],
+        [-0.0930, -0.0611, -0.0782,  ...,  0.0373,  0.0260,  0.0197],
+        [-0.0729, -0.0673, -0.0651,  ...,  0.0763,  0.0835,  0.0568],
+        ...,
+        [-0.1374, -0.1169, -0.0881,  ..., -0.0563, -0.0498, -0.0523],
+        [-0.0886, -0.1430, -0.1626,  ..., -0.0303, -0.0491, -0.0539],
+        [ 0.2099,  0.2252,  0.1371,  ..., -0.0562, -0.0505, -0.0366]],
+       device='cuda:0'), grad: tensor([[ 0.0255,  0.0071,  0.0081,  ...,  0.0079,  0.0073,  0.0088],
+        [-0.0204, -0.0078, -0.0086,  ..., -0.0054, -0.0048, -0.0060],
+        [ 0.0094,  0.0020,  0.0021,  ...,  0.0031,  0.0029,  0.0035],
+        ...,
+        [ 0.0088,  0.0018,  0.0020,  ...,  0.0030,  0.0027,  0.0033],
+        [ 0.0336,  0.0075,  0.0086,  ...,  0.0094,  0.0104,  0.0101],
+        [-0.0851, -0.0162, -0.0181,  ..., -0.0277, -0.0275, -0.0304]],
+       device='cuda:0')
+Epoch 27, bias, value: tensor([ 0.0410, -0.0463,  0.1012, -0.0370,  0.1106, -0.1967,  0.0049],
+       device='cuda:0'), grad: tensor([ 0.0640, -0.0416,  0.0280,  0.0819,  0.0262,  0.0777, -0.2362],
+       device='cuda:0')
+306
+0.0069651251582696205
+changing lr
+epoch 26, time 377.76, cls_loss 0.8758 cls_loss_mapping 0.1516 cls_loss_causal 0.7155 re_mapping 0.0477 re_causal 0.0486 /// teacc 85.58 lr 0.00675687
+Epoch 28, weight, value: tensor([[ 0.2120,  0.2089,  0.2840,  ..., -0.0804, -0.0668, -0.0711],
+        [-0.0936, -0.0671, -0.0827,  ...,  0.0349,  0.0245,  0.0180],
+        [-0.0783, -0.0639, -0.0625,  ...,  0.0693,  0.0768,  0.0498],
+        ...,
+        [-0.1288, -0.1079, -0.0808,  ..., -0.0529, -0.0468, -0.0511],
+        [-0.0865, -0.1436, -0.1630,  ..., -0.0306, -0.0480, -0.0519],
+        [ 0.2181,  0.2284,  0.1418,  ..., -0.0575, -0.0515, -0.0375]],
+       device='cuda:0'), grad: tensor([[-0.0474, -0.0210, -0.0204,  ..., -0.0088, -0.0076, -0.0095],
+        [ 0.0009,  0.0004,  0.0004,  ...,  0.0002,  0.0001,  0.0002],
+        [ 0.0050,  0.0021,  0.0021,  ...,  0.0010,  0.0008,  0.0010],
+        ...,
+        [ 0.0207,  0.0090,  0.0087,  ...,  0.0039,  0.0034,  0.0042],
+        [ 0.0040,  0.0017,  0.0017,  ...,  0.0008,  0.0007,  0.0008],
+        [ 0.0115,  0.0054,  0.0053,  ...,  0.0020,  0.0017,  0.0021]],
+       device='cuda:0')
+Epoch 28, bias, value: tensor([ 0.0322, -0.0186,  0.0614, -0.0269,  0.0999, -0.1886,  0.0185],
+       device='cuda:0'), grad: tensor([-0.0841,  0.0015,  0.0090,  0.0096,  0.0371,  0.0072,  0.0196],
+       device='cuda:0')
+306
+0.006756874120406716
+changing lr
+---------------------saving model at epoch 27----------------------------------------------------
+epoch 27, time 389.74, cls_loss 0.8567 cls_loss_mapping 0.1551 cls_loss_causal 0.7003 re_mapping 0.0476 re_causal 0.0485 /// teacc 87.50 lr 0.00654508
+Epoch 29, weight, value: tensor([[ 0.2257,  0.2298,  0.2995,  ..., -0.0840, -0.0716, -0.0732],
+        [-0.0979, -0.0704, -0.0846,  ...,  0.0258,  0.0164,  0.0091],
+        [-0.0795, -0.0703, -0.0677,  ...,  0.0670,  0.0738,  0.0472],
+        ...,
+        [-0.1286, -0.1105, -0.0829,  ..., -0.0445, -0.0388, -0.0424],
+        [-0.0865, -0.1419, -0.1613,  ..., -0.0314, -0.0493, -0.0526],
+        [ 0.2155,  0.2235,  0.1389,  ..., -0.0514, -0.0456, -0.0323]],
+       device='cuda:0'), grad: tensor([[ 8.8623e-02,  4.5746e-02,  4.4281e-02,  ...,  1.0773e-02,
+          1.0063e-02,  1.2138e-02],
+        [ 1.1383e-02,  1.0548e-03,  1.1797e-03,  ...,  1.5440e-03,
+          1.2159e-03,  1.8616e-03],
+        [-7.2327e-02, -1.1581e-02, -1.2756e-02,  ..., -9.9182e-03,
+         -7.6942e-03, -1.1429e-02],
+        ...,
+        [ 2.2766e-02,  5.9738e-03,  6.6681e-03,  ...,  4.0245e-03,
+          3.4790e-03,  4.3030e-03],
+        [-2.3773e-02, -8.7500e-05, -6.1131e-04,  ..., -5.3482e-03,
+         -5.2109e-03, -6.2904e-03],
+        [-5.6244e-02, -4.2542e-02, -4.0649e-02,  ..., -6.4545e-03,
+         -6.7329e-03, -6.9656e-03]], device='cuda:0')
+Epoch 29, bias, value: tensor([ 0.0266, -0.0058,  0.0934, -0.0528,  0.0989, -0.1915,  0.0093],
+       device='cuda:0'), grad: tensor([ 0.1398,  0.0333, -0.1903,  0.0973,  0.0534, -0.0867, -0.0467],
+       device='cuda:0')
+306
+0.00654508497187474
+changing lr
+epoch 28, time 381.10, cls_loss 0.8812 cls_loss_mapping 0.1261 cls_loss_causal 0.6894 re_mapping 0.0461 re_causal 0.0471 /// teacc 87.50 lr 0.00633018
+Epoch 30, weight, value: tensor([[ 0.2320,  0.2419,  0.3124,  ..., -0.0870, -0.0761, -0.0763],
+        [-0.0957, -0.0690, -0.0839,  ...,  0.0272,  0.0180,  0.0110],
+        [-0.0764, -0.0767, -0.0738,  ...,  0.0611,  0.0685,  0.0413],
+        ...,
+        [-0.1308, -0.1114, -0.0853,  ..., -0.0399, -0.0350, -0.0380],
+        [-0.0908, -0.1443, -0.1634,  ..., -0.0286, -0.0462, -0.0494],
+        [ 0.2061,  0.2135,  0.1294,  ..., -0.0544, -0.0483, -0.0354]],
+       device='cuda:0'), grad: tensor([[ 9.2850e-03,  1.9627e-03,  2.0485e-03,  ...,  1.5049e-03,
+          1.2388e-03,  1.5745e-03],
+        [ 1.5160e-02,  4.0588e-03,  3.8776e-03,  ...,  2.6302e-03,
+          2.1896e-03,  2.6684e-03],
+        [ 3.3234e-02,  3.8223e-03,  5.4131e-03,  ...,  4.2534e-03,
+          3.3016e-03,  4.8141e-03],
+        ...,
+        [ 5.1147e-02,  6.9962e-03,  5.3635e-03,  ...,  2.7054e-02,
+          2.4673e-02,  2.5803e-02],
+        [ 2.1782e-03, -4.8685e-04, -7.6056e-05,  ...,  2.0102e-05,
+         -2.1994e-04,  4.7445e-05],
+        [-1.2372e-01, -1.9791e-02, -1.9775e-02,  ..., -3.8483e-02,
+         -3.3783e-02, -3.7872e-02]], device='cuda:0')
+Epoch 30, bias, value: tensor([ 0.0179, -0.0021,  0.1195, -0.0536,  0.0881, -0.1952,  0.0038],
+       device='cuda:0'), grad: tensor([ 0.0254,  0.0364,  0.1107,  0.0296,  0.1632,  0.0127, -0.3782],
+       device='cuda:0')
+306
+0.006330184227833378
+changing lr
+epoch 29, time 378.87, cls_loss 0.8684 cls_loss_mapping 0.1235 cls_loss_causal 0.6882 re_mapping 0.0449 re_causal 0.0460 /// teacc 87.50 lr 0.00611260
+Epoch 31, weight, value: tensor([[ 0.2403,  0.2475,  0.3178,  ..., -0.0828, -0.0720, -0.0718],
+        [-0.1043, -0.0727, -0.0880,  ...,  0.0237,  0.0148,  0.0083],
+        [-0.0740, -0.0736, -0.0697,  ...,  0.0598,  0.0681,  0.0411],
+        ...,
+        [-0.1389, -0.1192, -0.0941,  ..., -0.0394, -0.0346, -0.0372],
+        [-0.0872, -0.1408, -0.1593,  ..., -0.0261, -0.0435, -0.0464],
+        [ 0.2108,  0.2134,  0.1292,  ..., -0.0553, -0.0499, -0.0376]],
+       device='cuda:0'), grad: tensor([[ 0.0340,  0.0097,  0.0106,  ...,  0.0059,  0.0049,  0.0058],
+        [-0.0403, -0.0058, -0.0059,  ..., -0.0154, -0.0180, -0.0159],
+        [ 0.0331,  0.0026,  0.0044,  ...,  0.0081,  0.0074,  0.0092],
+        ...,
+        [-0.0738, -0.0126, -0.0163,  ..., -0.0086, -0.0051, -0.0096],
+        [ 0.0044,  0.0002,  0.0005,  ...,  0.0010,  0.0008,  0.0011],
+        [ 0.0816,  0.0065,  0.0101,  ...,  0.0230,  0.0229,  0.0253]],
+       device='cuda:0')
+Epoch 31, bias, value: tensor([ 0.0335, -0.0062,  0.1192, -0.0709,  0.0698, -0.2003,  0.0336],
+       device='cuda:0'), grad: tensor([ 0.0832, -0.1017,  0.1008, -0.1418, -0.1982,  0.0134,  0.2446],
+       device='cuda:0')
+306
+0.006112604669781575
+changing lr
+epoch 30, time 379.81, cls_loss 0.7973 cls_loss_mapping 0.1125 cls_loss_causal 0.6334 re_mapping 0.0447 re_causal 0.0457 /// teacc 66.83 lr 0.00589278
+Epoch 32, weight, value: tensor([[ 0.2484,  0.2536,  0.3241,  ..., -0.0893, -0.0794, -0.0784],
+        [-0.0990, -0.0700, -0.0840,  ...,  0.0223,  0.0141,  0.0074],
+        [-0.0783, -0.0766, -0.0759,  ...,  0.0584,  0.0669,  0.0401],
+        ...,
+        [-0.1416, -0.1203, -0.0954,  ..., -0.0439, -0.0388, -0.0416],
+        [-0.0855, -0.1450, -0.1623,  ..., -0.0225, -0.0396, -0.0426],
+        [ 0.2072,  0.2156,  0.1321,  ..., -0.0523, -0.0481, -0.0345]],
+       device='cuda:0'), grad: tensor([[-0.0399, -0.0038, -0.0026,  ..., -0.0040, -0.0051, -0.0051],
+        [ 0.0059,  0.0006,  0.0004,  ...,  0.0006,  0.0007,  0.0008],
+        [-0.0352, -0.0027, -0.0024,  ..., -0.0041, -0.0037, -0.0056],
+        ...,
+        [ 0.0213,  0.0020,  0.0014,  ...,  0.0022,  0.0027,  0.0029],
+        [ 0.0333,  0.0028,  0.0023,  ...,  0.0038,  0.0038,  0.0051],
+        [ 0.0117,  0.0009,  0.0006,  ...,  0.0011,  0.0012,  0.0015]],
+       device='cuda:0')
+Epoch 32, bias, value: tensor([ 0.0226,  0.0034,  0.1250, -0.0595,  0.0582, -0.1950,  0.0241],
+       device='cuda:0'), grad: tensor([-0.1348,  0.0189, -0.0949,  0.0085,  0.0697,  0.0964,  0.0363],
+       device='cuda:0')
+306
+0.005892784473993186
+changing lr
+epoch 31, time 376.26, cls_loss 0.8624 cls_loss_mapping 0.1132 cls_loss_causal 0.6857 re_mapping 0.0441 re_causal 0.0452 /// teacc 71.15 lr 0.00567117
+Epoch 33, weight, value: tensor([[ 0.2438,  0.2532,  0.3201,  ..., -0.0921, -0.0824, -0.0801],
+        [-0.1011, -0.0740, -0.0876,  ...,  0.0124,  0.0049, -0.0028],
+        [-0.0786, -0.0701, -0.0697,  ...,  0.0623,  0.0704,  0.0440],
+        ...,
+        [-0.1445, -0.1240, -0.0986,  ..., -0.0478, -0.0435, -0.0453],
+        [-0.0855, -0.1461, -0.1632,  ..., -0.0235, -0.0402, -0.0444],
+        [ 0.2156,  0.2243,  0.1434,  ..., -0.0418, -0.0377, -0.0233]],
+       device='cuda:0'), grad: tensor([[ 0.0286,  0.0111,  0.0110,  ...,  0.0063,  0.0063,  0.0061],
+        [ 0.0167,  0.0043,  0.0041,  ...,  0.0034,  0.0038,  0.0031],
+        [ 0.0095,  0.0025,  0.0024,  ...,  0.0021,  0.0023,  0.0020],
+        ...,
+        [ 0.0067,  0.0015,  0.0015,  ...,  0.0014,  0.0016,  0.0013],
+        [ 0.0299,  0.0051,  0.0048,  ...,  0.0065,  0.0077,  0.0061],
+        [-0.0216, -0.0051, -0.0048,  ..., -0.0037, -0.0043, -0.0033]],
+       device='cuda:0')
+Epoch 33, bias, value: tensor([ 0.0312,  0.0133,  0.1068, -0.0377,  0.0559, -0.1949,  0.0045],
+       device='cuda:0'), grad: tensor([ 0.0669,  0.0473,  0.0304, -0.2152,  0.0199,  0.1071, -0.0565],
+       device='cuda:0')
+306
+0.00567116632908828
+changing lr
+epoch 32, time 373.11, cls_loss 0.7741 cls_loss_mapping 0.0969 cls_loss_causal 0.6229 re_mapping 0.0444 re_causal 0.0455 /// teacc 87.02 lr 0.00544820
+Epoch 34, weight, value: tensor([[ 0.2467,  0.2564,  0.3226,  ..., -0.0921, -0.0840, -0.0799],
+        [-0.1025, -0.0755, -0.0887,  ...,  0.0104,  0.0039, -0.0033],
+        [-0.0779, -0.0724, -0.0713,  ...,  0.0603,  0.0681,  0.0419],
+        ...,
+        [-0.1495, -0.1290, -0.1042,  ..., -0.0391, -0.0347, -0.0368],
+        [-0.0828, -0.1436, -0.1603,  ..., -0.0225, -0.0397, -0.0436],
+        [ 0.2211,  0.2304,  0.1497,  ..., -0.0407, -0.0345, -0.0234]],
+       device='cuda:0'), grad: tensor([[-3.6713e-02, -1.8097e-02, -1.8234e-02,  ..., -4.5128e-03,
+         -4.0283e-03, -4.5662e-03],
+        [-1.0853e-03, -1.3910e-05,  5.2899e-05,  ..., -1.3084e-03,
+         -1.1168e-03, -1.2989e-03],
+        [-1.5030e-02,  2.2221e-04,  1.2722e-03,  ..., -6.6071e-03,
+         -5.6992e-03, -6.9885e-03],
+        ...,
+        [ 8.8196e-03,  1.9140e-03,  1.5879e-03,  ...,  2.1286e-03,
+          1.8559e-03,  2.2678e-03],
+        [-1.1108e-02, -1.8425e-03, -1.3103e-03,  ...,  5.7364e-04,
+          4.3154e-04,  2.6107e-04],
+        [ 4.7394e-02,  1.6663e-02,  1.5839e-02,  ...,  8.1329e-03,
+          7.1640e-03,  8.5678e-03]], device='cuda:0')
+Epoch 34, bias, value: tensor([ 0.0417,  0.0128,  0.1152, -0.0401,  0.0536, -0.2071,  0.0032],
+       device='cuda:0'), grad: tensor([-0.0614, -0.0049, -0.0579,  0.0225,  0.0242, -0.0268,  0.1042],
+       device='cuda:0')
+306
+0.00544819654451717
+changing lr
+epoch 33, time 379.54, cls_loss 0.8057 cls_loss_mapping 0.1032 cls_loss_causal 0.6863 re_mapping 0.0433 re_causal 0.0448 /// teacc 68.75 lr 0.00522432
+Epoch 35, weight, value: tensor([[ 0.2371,  0.2529,  0.3198,  ..., -0.0936, -0.0837, -0.0803],
+        [-0.1040, -0.0779, -0.0913,  ...,  0.0112,  0.0033, -0.0023],
+        [-0.0805, -0.0716, -0.0713,  ...,  0.0586,  0.0666,  0.0401],
+        ...,
+        [-0.1473, -0.1253, -0.1011,  ..., -0.0407, -0.0363, -0.0384],
+        [-0.0758, -0.1413, -0.1566,  ..., -0.0217, -0.0387, -0.0422],
+        [ 0.2237,  0.2292,  0.1481,  ..., -0.0371, -0.0326, -0.0220]],
+       device='cuda:0'), grad: tensor([[-0.0393, -0.0205, -0.0210,  ..., -0.0025, -0.0002, -0.0019],
+        [-0.0514, -0.0262, -0.0252,  ..., -0.0161, -0.0189, -0.0152],
+        [ 0.0328,  0.0121,  0.0104,  ...,  0.0083,  0.0090,  0.0085],
+        ...,
+        [ 0.0337,  0.0150,  0.0154,  ..., -0.0041, -0.0054, -0.0054],
+        [ 0.0221,  0.0074,  0.0064,  ...,  0.0043,  0.0046,  0.0047],
+        [-0.0270,  0.0012,  0.0041,  ...,  0.0045,  0.0053,  0.0035]],
+       device='cuda:0')
+Epoch 35, bias, value: tensor([ 0.0158,  0.0362,  0.1039, -0.0275,  0.0492, -0.2067,  0.0086],
+       device='cuda:0'), grad: tensor([-0.0708, -0.0842,  0.0738,  0.0646,  0.0132,  0.0508, -0.0475],
+       device='cuda:0')
+306
+0.005224324151752577
+changing lr
+epoch 34, time 379.88, cls_loss 0.7833 cls_loss_mapping 0.0918 cls_loss_causal 0.6274 re_mapping 0.0425 re_causal 0.0439 /// teacc 80.77 lr 0.00500000
+Epoch 36, weight, value: tensor([[ 0.2501,  0.2616,  0.3280,  ..., -0.0919, -0.0823, -0.0784],
+        [-0.0944, -0.0734, -0.0857,  ...,  0.0112,  0.0055, -0.0012],
+        [-0.0847, -0.0759, -0.0745,  ...,  0.0570,  0.0650,  0.0381],
+        ...,
+        [-0.1565, -0.1340, -0.1106,  ..., -0.0389, -0.0361, -0.0364],
+        [-0.0745, -0.1391, -0.1546,  ..., -0.0218, -0.0384, -0.0427],
+        [ 0.2223,  0.2283,  0.1469,  ..., -0.0382, -0.0348, -0.0236]],
+       device='cuda:0'), grad: tensor([[ 3.2990e-02,  9.9869e-03,  8.0795e-03,  ...,  3.7441e-03,
+          2.6226e-03,  3.7041e-03],
+        [ 2.1301e-02,  3.3817e-03,  2.0847e-03,  ...,  2.9774e-03,
+          2.0313e-03,  2.8954e-03],
+        [-4.3671e-02, -1.6861e-02, -1.0437e-02,  ..., -5.0278e-03,
+         -3.6812e-03, -5.4970e-03],
+        ...,
+        [ 4.2610e-03,  3.8266e-04,  2.4986e-04,  ...,  7.0620e-04,
+          4.9639e-04,  6.6090e-04],
+        [ 1.2115e-02,  1.0424e-03,  6.1464e-04,  ...,  1.3027e-03,
+          7.2575e-04,  1.2331e-03],
+        [ 2.4796e-02,  2.6951e-03, -6.0368e-04,  ...,  1.0729e-03,
+         -5.8591e-05,  1.4172e-03]], device='cuda:0')
+Epoch 36, bias, value: tensor([ 0.0411,  0.0305,  0.1069, -0.0515,  0.0514, -0.2276,  0.0289],
+       device='cuda:0'), grad: tensor([ 0.0779,  0.0615, -0.1049, -0.1635,  0.0130,  0.0364,  0.0795],
+       device='cuda:0')
+306
+0.005000000000000003
+changing lr
+epoch 35, time 373.47, cls_loss 0.7596 cls_loss_mapping 0.0846 cls_loss_causal 0.5980 re_mapping 0.0417 re_causal 0.0430 /// teacc 85.58 lr 0.00477568
+Epoch 37, weight, value: tensor([[ 0.2403,  0.2528,  0.3225,  ..., -0.0950, -0.0866, -0.0814],
+        [-0.0990, -0.0713, -0.0860,  ...,  0.0151,  0.0086,  0.0017],
+        [-0.0875, -0.0787, -0.0779,  ...,  0.0548,  0.0633,  0.0366],
+        ...,
+        [-0.1551, -0.1349, -0.1119,  ..., -0.0393, -0.0359, -0.0360],
+        [-0.0711, -0.1370, -0.1528,  ..., -0.0236, -0.0397, -0.0443],
+        [ 0.2305,  0.2363,  0.1560,  ..., -0.0407, -0.0356, -0.0259]],
+       device='cuda:0'), grad: tensor([[-8.4076e-03, -6.4316e-03, -6.8092e-03,  ..., -4.8256e-04,
+         -6.5184e-04, -5.4741e-04],
+        [ 1.5495e-02,  6.3477e-03,  6.8016e-03,  ...,  2.7885e-03,
+          2.3117e-03,  3.0327e-03],
+        [ 7.8583e-03,  6.8474e-04,  8.9312e-04,  ...,  1.4763e-03,
+          9.4557e-04,  1.6756e-03],
+        ...,
+        [ 4.3526e-03,  5.9843e-04,  6.3086e-04,  ...,  1.6184e-03,
+          1.2770e-03,  1.6823e-03],
+        [-3.6072e-02, -1.1683e-03, -2.1591e-03,  ..., -5.7373e-03,
+         -2.9278e-03, -6.9160e-03],
+        [ 9.0790e-03, -5.5552e-04, -5.9336e-05,  ..., -1.3800e-03,
+         -2.1248e-03, -8.1921e-04]], device='cuda:0')
+Epoch 37, bias, value: tensor([ 0.0354,  0.0173,  0.1073, -0.0393,  0.0644, -0.2207,  0.0154],
+       device='cuda:0'), grad: tensor([-0.0034,  0.0287,  0.0250,  0.0251,  0.0128, -0.1246,  0.0364],
+       device='cuda:0')
+306
+0.004775675848247429
+changing lr
+epoch 36, time 378.90, cls_loss 0.7014 cls_loss_mapping 0.0816 cls_loss_causal 0.5753 re_mapping 0.0407 re_causal 0.0419 /// teacc 86.54 lr 0.00455180
+Epoch 38, weight, value: tensor([[ 0.2555,  0.2666,  0.3368,  ..., -0.0975, -0.0895, -0.0838],
+        [-0.1017, -0.0766, -0.0919,  ...,  0.0173,  0.0094,  0.0037],
+        [-0.0849, -0.0802, -0.0790,  ...,  0.0505,  0.0598,  0.0326],
+        ...,
+        [-0.1513, -0.1277, -0.1046,  ..., -0.0416, -0.0385, -0.0380],
+        [-0.0764, -0.1387, -0.1548,  ..., -0.0257, -0.0413, -0.0459],
+        [ 0.2223,  0.2290,  0.1491,  ..., -0.0339, -0.0286, -0.0197]],
+       device='cuda:0'), grad: tensor([[-0.0983, -0.0212, -0.0244,  ..., -0.0112, -0.0082, -0.0123],
+        [ 0.1110,  0.0240,  0.0277,  ...,  0.0163,  0.0141,  0.0171],
+        [ 0.0164,  0.0039,  0.0046,  ...,  0.0032,  0.0028,  0.0032],
+        ...,
+        [ 0.0064,  0.0012,  0.0016,  ...,  0.0013,  0.0013,  0.0013],
+        [-0.0050, -0.0008, -0.0012,  ..., -0.0022, -0.0025, -0.0028],
+        [-0.0392, -0.0093, -0.0107,  ..., -0.0094, -0.0094, -0.0086]],
+       device='cuda:0')
+Epoch 38, bias, value: tensor([ 0.0339,  0.0320,  0.1245, -0.0542,  0.0553, -0.2219,  0.0105],
+       device='cuda:0'), grad: tensor([-0.2505,  0.2900,  0.0383,  0.0216,  0.0170, -0.0164, -0.1000],
+       device='cuda:0')
+306
+0.004551803455482836
+changing lr
+epoch 37, time 383.61, cls_loss 0.7484 cls_loss_mapping 0.0804 cls_loss_causal 0.6328 re_mapping 0.0396 re_causal 0.0410 /// teacc 58.17 lr 0.00432883
+Epoch 39, weight, value: tensor([[ 0.2547,  0.2681,  0.3388,  ..., -0.0939, -0.0847, -0.0808],
+        [-0.1066, -0.0766, -0.0924,  ...,  0.0124,  0.0052, -0.0012],
+        [-0.0802, -0.0758, -0.0750,  ...,  0.0498,  0.0583,  0.0329],
+        ...,
+        [-0.1475, -0.1269, -0.1042,  ..., -0.0401, -0.0372, -0.0362],
+        [-0.0780, -0.1397, -0.1551,  ..., -0.0273, -0.0428, -0.0473],
+        [ 0.2126,  0.2191,  0.1393,  ..., -0.0295, -0.0256, -0.0158]],
+       device='cuda:0'), grad: tensor([[ 0.0458,  0.0116,  0.0131,  ...,  0.0063,  0.0053,  0.0063],
+        [-0.0536, -0.0168, -0.0187,  ..., -0.0068, -0.0058, -0.0066],
+        [ 0.0064,  0.0005,  0.0005,  ...,  0.0009,  0.0007,  0.0011],
+        ...,
+        [ 0.0082,  0.0014,  0.0016,  ...,  0.0013,  0.0010,  0.0013],
+        [ 0.0477,  0.0046,  0.0065,  ...,  0.0119,  0.0110,  0.0114],
+        [ 0.0291,  0.0044,  0.0050,  ...,  0.0046,  0.0037,  0.0049]],
+       device='cuda:0')
+Epoch 39, bias, value: tensor([ 0.0365,  0.0247,  0.1203, -0.0351,  0.0551, -0.2276,  0.0062],
+       device='cuda:0'), grad: tensor([ 0.1185, -0.1248,  0.0226, -0.2659,  0.0242,  0.1364,  0.0887],
+       device='cuda:0')
+306
+0.004328833670911726
+changing lr
+epoch 38, time 382.49, cls_loss 0.7256 cls_loss_mapping 0.0711 cls_loss_causal 0.6027 re_mapping 0.0391 re_causal 0.0405 /// teacc 85.58 lr 0.00410722
+Epoch 40, weight, value: tensor([[ 0.2586,  0.2691,  0.3382,  ..., -0.0927, -0.0845, -0.0790],
+        [-0.1042, -0.0738, -0.0899,  ...,  0.0168,  0.0094,  0.0031],
+        [-0.0857, -0.0838, -0.0812,  ...,  0.0458,  0.0538,  0.0294],
+        ...,
+        [-0.1469, -0.1266, -0.1046,  ..., -0.0421, -0.0382, -0.0376],
+        [-0.0776, -0.1381, -0.1533,  ..., -0.0262, -0.0417, -0.0461],
+        [ 0.2102,  0.2197,  0.1410,  ..., -0.0302, -0.0259, -0.0175]],
+       device='cuda:0'), grad: tensor([[-3.2532e-02, -1.0017e-02, -7.9575e-03,  ..., -5.8517e-03,
+         -6.9504e-03, -6.0120e-03],
+        [ 4.2000e-03,  1.2197e-03,  1.0071e-03,  ...,  7.1287e-04,
+          7.9203e-04,  7.3004e-04],
+        [ 2.6047e-02,  7.7820e-03,  6.4087e-03,  ...,  4.4365e-03,
+          4.9896e-03,  4.5242e-03],
+        ...,
+        [ 2.1648e-03,  5.9128e-04,  5.2071e-04,  ...,  3.3236e-04,
+          3.2711e-04,  3.3593e-04],
+        [-7.9575e-03,  8.8692e-05,  2.2113e-04,  ..., -1.4877e-03,
+         -1.3647e-03, -1.8454e-03],
+        [-2.3079e-03, -1.8816e-03, -1.9703e-03,  ...,  4.3422e-05,
+          2.8229e-04,  3.0279e-04]], device='cuda:0')
+Epoch 40, bias, value: tensor([ 0.0648,  0.0215,  0.1207, -0.0411,  0.0635, -0.2397, -0.0094],
+       device='cuda:0'), grad: tensor([-0.0746,  0.0101,  0.0614,  0.0293,  0.0055, -0.0322,  0.0005],
+       device='cuda:0')
+306
+0.0041072155260068206
+changing lr
+epoch 39, time 374.69, cls_loss 0.6806 cls_loss_mapping 0.0668 cls_loss_causal 0.5636 re_mapping 0.0390 re_causal 0.0406 /// teacc 86.54 lr 0.00388740
+Epoch 41, weight, value: tensor([[ 0.2532,  0.2653,  0.3345,  ..., -0.0902, -0.0825, -0.0766],
+        [-0.1063, -0.0764, -0.0923,  ...,  0.0165,  0.0096,  0.0033],
+        [-0.0856, -0.0839, -0.0819,  ...,  0.0436,  0.0511,  0.0274],
+        ...,
+        [-0.1460, -0.1281, -0.1066,  ..., -0.0442, -0.0395, -0.0394],
+        [-0.0756, -0.1359, -0.1508,  ..., -0.0266, -0.0419, -0.0457],
+        [ 0.2191,  0.2265,  0.1486,  ..., -0.0304, -0.0259, -0.0182]],
+       device='cuda:0'), grad: tensor([[ 2.1698e-02,  7.8659e-03,  7.1831e-03,  ...,  6.0806e-03,
+          5.7716e-03,  6.1264e-03],
+        [ 2.1362e-03,  4.4036e-04,  3.9387e-04,  ...,  1.1053e-03,
+          1.0719e-03,  1.1263e-03],
+        [-1.4679e-02, -2.3823e-03, -2.0943e-03,  ..., -8.3923e-03,
+         -8.1635e-03, -8.5678e-03],
+        ...,
+        [ 7.3128e-03,  2.3880e-03,  2.2163e-03,  ...,  1.7529e-03,
+          1.7185e-03,  1.7872e-03],
+        [ 3.9148e-04,  1.0902e-04,  9.3043e-05,  ...,  1.7238e-04,
+          1.6415e-04,  1.7273e-04],
+        [-2.0218e-02, -9.1019e-03, -8.3923e-03,  ..., -2.5940e-03,
+         -2.3708e-03, -2.5539e-03]], device='cuda:0')
+Epoch 41, bias, value: tensor([ 0.0624,  0.0256,  0.1237, -0.0444,  0.0647, -0.2326, -0.0189],
+       device='cuda:0'), grad: tensor([ 0.0489,  0.0066, -0.0487,  0.0106,  0.0171,  0.0011, -0.0356],
+       device='cuda:0')
+306
+0.0038873953302184317
+changing lr
+epoch 40, time 378.81, cls_loss 0.6983 cls_loss_mapping 0.0657 cls_loss_causal 0.5910 re_mapping 0.0382 re_causal 0.0398 /// teacc 86.54 lr 0.00366982
+Epoch 42, weight, value: tensor([[ 0.2575,  0.2695,  0.3403,  ..., -0.0897, -0.0817, -0.0757],
+        [-0.1061, -0.0775, -0.0951,  ...,  0.0171,  0.0090,  0.0041],
+        [-0.0829, -0.0820, -0.0802,  ...,  0.0449,  0.0526,  0.0286],
+        ...,
+        [-0.1482, -0.1262, -0.1046,  ..., -0.0477, -0.0427, -0.0433],
+        [-0.0763, -0.1388, -0.1540,  ..., -0.0280, -0.0436, -0.0467],
+        [ 0.2144,  0.2232,  0.1462,  ..., -0.0299, -0.0248, -0.0170]],
+       device='cuda:0'), grad: tensor([[ 0.0173,  0.0030,  0.0022,  ...,  0.0039,  0.0030,  0.0039],
+        [ 0.0058,  0.0008,  0.0006,  ...,  0.0014,  0.0011,  0.0013],
+        [ 0.0221,  0.0026,  0.0018,  ...,  0.0058,  0.0048,  0.0057],
+        ...,
+        [ 0.0205,  0.0041,  0.0032,  ...,  0.0040,  0.0027,  0.0040],
+        [ 0.0077,  0.0006,  0.0004,  ...,  0.0023,  0.0020,  0.0022],
+        [-0.0343, -0.0096, -0.0078,  ..., -0.0050, -0.0025, -0.0051]],
+       device='cuda:0')
+Epoch 42, bias, value: tensor([ 0.0646,  0.0312,  0.1219, -0.0505,  0.0559, -0.2236, -0.0190],
+       device='cuda:0'), grad: tensor([ 0.0477,  0.0171,  0.0695, -0.1451,  0.0516,  0.0266, -0.0673],
+       device='cuda:0')
+306
+0.003669815772166629
+changing lr
+epoch 41, time 377.20, cls_loss 0.6328 cls_loss_mapping 0.0572 cls_loss_causal 0.5368 re_mapping 0.0388 re_causal 0.0405 /// teacc 74.04 lr 0.00345492
+Epoch 43, weight, value: tensor([[ 0.2561,  0.2694,  0.3408,  ..., -0.0918, -0.0830, -0.0766],
+        [-0.1036, -0.0752, -0.0922,  ...,  0.0170,  0.0094,  0.0040],
+        [-0.0860, -0.0840, -0.0825,  ...,  0.0445,  0.0529,  0.0283],
+        ...,
+        [-0.1472, -0.1271, -0.1061,  ..., -0.0483, -0.0434, -0.0441],
+        [-0.0772, -0.1400, -0.1557,  ..., -0.0274, -0.0434, -0.0457],
+        [ 0.2187,  0.2249,  0.1482,  ..., -0.0281, -0.0235, -0.0157]],
+       device='cuda:0'), grad: tensor([[ 8.6212e-03,  3.4118e-04,  2.4307e-04,  ...,  1.8311e-03,
+          1.1339e-03,  2.1095e-03],
+        [ 1.1797e-03,  2.6608e-04,  4.3845e-04,  ...,  9.8228e-05,
+         -4.8876e-04,  5.6595e-05],
+        [ 4.2877e-02,  7.4234e-03,  6.2141e-03,  ...,  3.6407e-02,
+          3.7659e-02,  3.7567e-02],
+        ...,
+        [ 7.1106e-03,  5.2023e-04,  3.6407e-04,  ...,  1.7862e-03,
+          1.4486e-03,  2.0161e-03],
+        [-3.0273e-02,  5.6553e-04,  6.2990e-04,  ..., -1.3542e-03,
+          2.5253e-03, -2.3289e-03],
+        [ 2.6596e-02,  2.3708e-03,  1.7881e-03,  ...,  1.8158e-02,
+          1.7853e-02,  1.8982e-02]], device='cuda:0')
+Epoch 43, bias, value: tensor([ 0.0683,  0.0257,  0.1085, -0.0582,  0.0585, -0.2201, -0.0019],
+       device='cuda:0'), grad: tensor([ 0.0342,  0.0040,  0.1188, -0.1390,  0.0267, -0.1333,  0.0887],
+       device='cuda:0')
+306
+0.0034549150281252667
+changing lr
+---------------------saving model at epoch 42----------------------------------------------------
+epoch 42, time 391.68, cls_loss 0.6718 cls_loss_mapping 0.0585 cls_loss_causal 0.5651 re_mapping 0.0375 re_causal 0.0393 /// teacc 88.46 lr 0.00324313
+Epoch 44, weight, value: tensor([[ 0.2547,  0.2682,  0.3391,  ..., -0.0916, -0.0823, -0.0766],
+        [-0.1048, -0.0760, -0.0927,  ...,  0.0145,  0.0060,  0.0009],
+        [-0.0899, -0.0877, -0.0855,  ...,  0.0434,  0.0521,  0.0279],
+        ...,
+        [-0.1472, -0.1284, -0.1075,  ..., -0.0484, -0.0439, -0.0439],
+        [-0.0762, -0.1388, -0.1550,  ..., -0.0293, -0.0451, -0.0480],
+        [ 0.2230,  0.2303,  0.1537,  ..., -0.0277, -0.0224, -0.0153]],
+       device='cuda:0'), grad: tensor([[-0.1130, -0.0512, -0.0506,  ..., -0.0101, -0.0088, -0.0105],
+        [ 0.0111,  0.0051,  0.0049,  ...,  0.0007,  0.0004,  0.0008],
+        [ 0.0050,  0.0022,  0.0022,  ...,  0.0005,  0.0005,  0.0005],
+        ...,
+        [ 0.0144,  0.0060,  0.0057,  ...,  0.0019,  0.0015,  0.0019],
+        [ 0.0118,  0.0039,  0.0037,  ...,  0.0010,  0.0009,  0.0010],
+        [ 0.0721,  0.0342,  0.0342,  ...,  0.0075,  0.0069,  0.0077]],
+       device='cuda:0')
+Epoch 44, bias, value: tensor([ 0.0690,  0.0233,  0.1075, -0.0459,  0.0593, -0.2218, -0.0107],
+       device='cuda:0'), grad: tensor([-0.2275,  0.0217,  0.0104, -0.0025,  0.0291,  0.0292,  0.1398],
+       device='cuda:0')
+306
+0.0032431258795932905
+changing lr
+epoch 43, time 371.43, cls_loss 0.6571 cls_loss_mapping 0.0600 cls_loss_causal 0.5678 re_mapping 0.0371 re_causal 0.0389 /// teacc 87.02 lr 0.00303487
+Epoch 45, weight, value: tensor([[ 0.2484,  0.2645,  0.3357,  ..., -0.0894, -0.0787, -0.0738],
+        [-0.1034, -0.0782, -0.0946,  ...,  0.0152,  0.0063,  0.0019],
+        [-0.0880, -0.0874, -0.0856,  ...,  0.0417,  0.0506,  0.0265],
+        ...,
+        [-0.1417, -0.1217, -0.1006,  ..., -0.0489, -0.0445, -0.0443],
+        [-0.0739, -0.1372, -0.1537,  ..., -0.0299, -0.0464, -0.0490],
+        [ 0.2178,  0.2259,  0.1506,  ..., -0.0280, -0.0231, -0.0158]],
+       device='cuda:0'), grad: tensor([[-0.0581, -0.0269, -0.0269,  ..., -0.0107, -0.0100, -0.0123],
+        [ 0.0091,  0.0048,  0.0048,  ...,  0.0019,  0.0018,  0.0021],
+        [ 0.0164,  0.0076,  0.0076,  ...,  0.0047,  0.0040,  0.0047],
+        ...,
+        [ 0.0155,  0.0071,  0.0071,  ...,  0.0019,  0.0020,  0.0025],
+        [ 0.0017,  0.0007,  0.0007,  ...,  0.0002,  0.0002,  0.0003],
+        [ 0.0145,  0.0063,  0.0063,  ...,  0.0019,  0.0019,  0.0024]],
+       device='cuda:0')
+Epoch 45, bias, value: tensor([ 0.0650,  0.0391,  0.1060, -0.0483,  0.0489, -0.2174, -0.0126],
+       device='cuda:0'), grad: tensor([-0.1124,  0.0148,  0.0274,  0.0017,  0.0330,  0.0038,  0.0317],
+       device='cuda:0')
+306
+0.0030348748417303863
+changing lr
+epoch 44, time 377.17, cls_loss 0.6999 cls_loss_mapping 0.0568 cls_loss_causal 0.6106 re_mapping 0.0360 re_causal 0.0378 /// teacc 82.21 lr 0.00283058
+Epoch 46, weight, value: tensor([[ 0.2573,  0.2691,  0.3397,  ..., -0.0867, -0.0763, -0.0719],
+        [-0.1049, -0.0768, -0.0935,  ...,  0.0135,  0.0048,  0.0007],
+        [-0.0947, -0.0932, -0.0916,  ...,  0.0414,  0.0507,  0.0270],
+        ...,
+        [-0.1415, -0.1215, -0.1008,  ..., -0.0464, -0.0419, -0.0424],
+        [-0.0751, -0.1385, -0.1545,  ..., -0.0313, -0.0482, -0.0498],
+        [ 0.2175,  0.2263,  0.1520,  ..., -0.0279, -0.0228, -0.0153]],
+       device='cuda:0'), grad: tensor([[-2.1057e-02, -4.3559e-04, -3.2473e-04,  ..., -2.1687e-03,
+         -4.3068e-03, -4.0436e-03],
+        [-3.3997e-02, -5.3048e-05, -7.2956e-05,  ..., -5.9929e-03,
+         -2.3327e-03, -6.1378e-03],
+        [-2.7710e-02,  2.8163e-05, -3.1781e-04,  ..., -4.3449e-03,
+         -5.3215e-03, -7.4272e-03],
+        ...,
+        [ 7.3280e-03,  7.1645e-05,  6.2525e-05,  ...,  1.1053e-03,
+          8.6880e-04,  1.3657e-03],
+        [ 5.3619e-02,  2.7966e-04,  5.7077e-04,  ...,  8.1863e-03,
+          8.4305e-03,  1.2169e-02],
+        [ 1.6357e-02,  7.4089e-05,  5.1111e-05,  ...,  2.3899e-03,
+          2.0084e-03,  3.0441e-03]], device='cuda:0')
+Epoch 46, bias, value: tensor([ 0.0777,  0.0274,  0.1081, -0.0462,  0.0476, -0.2226, -0.0110],
+       device='cuda:0'), grad: tensor([-0.0689, -0.1318, -0.1182,  0.0203,  0.0269,  0.2119,  0.0600],
+       device='cuda:0')
+306
+0.0028305813044122124
+changing lr
+epoch 45, time 385.95, cls_loss 0.6292 cls_loss_mapping 0.0500 cls_loss_causal 0.5478 re_mapping 0.0359 re_causal 0.0376 /// teacc 64.90 lr 0.00263066
+Epoch 47, weight, value: tensor([[ 0.2437,  0.2623,  0.3334,  ..., -0.0877, -0.0773, -0.0729],
+        [-0.1079, -0.0772, -0.0942,  ...,  0.0151,  0.0069,  0.0028],
+        [-0.0940, -0.0925, -0.0911,  ...,  0.0424,  0.0506,  0.0283],
+        ...,
+        [-0.1453, -0.1227, -0.1019,  ..., -0.0467, -0.0419, -0.0433],
+        [-0.0703, -0.1369, -0.1526,  ..., -0.0322, -0.0485, -0.0506],
+        [ 0.2233,  0.2287,  0.1541,  ..., -0.0274, -0.0227, -0.0153]],
+       device='cuda:0'), grad: tensor([[ 6.8140e-04, -5.9462e-04, -6.2180e-04,  ...,  8.6844e-05,
+          5.1081e-05,  9.8228e-05],
+        [ 3.3081e-02,  4.4518e-03,  4.5052e-03,  ...,  8.0948e-03,
+          6.9580e-03,  8.3008e-03],
+        [-4.4159e-02, -5.7144e-03, -5.7831e-03,  ..., -1.0803e-02,
+         -9.2697e-03, -1.1078e-02],
+        ...,
+        [ 9.5892e-04,  1.9193e-04,  1.9598e-04,  ...,  2.3675e-04,
+          2.0945e-04,  2.4402e-04],
+        [ 1.6794e-03,  5.4550e-04,  5.5742e-04,  ...,  4.4394e-04,
+          4.0054e-04,  4.5204e-04],
+        [ 4.9362e-03,  5.4979e-04,  5.5742e-04,  ...,  1.2341e-03,
+          1.0271e-03,  1.2531e-03]], device='cuda:0')
+Epoch 47, bias, value: tensor([ 0.0569,  0.0193,  0.1142, -0.0338,  0.0302, -0.2127,  0.0070],
+       device='cuda:0'), grad: tensor([ 0.0068,  0.1192, -0.1606,  0.0090,  0.0031,  0.0041,  0.0185],
+       device='cuda:0')
+306
+0.0026306566876350096
+changing lr
+epoch 46, time 375.77, cls_loss 0.5832 cls_loss_mapping 0.0470 cls_loss_causal 0.5142 re_mapping 0.0353 re_causal 0.0368 /// teacc 79.81 lr 0.00243550
+Epoch 48, weight, value: tensor([[ 0.2505,  0.2675,  0.3379,  ..., -0.0888, -0.0782, -0.0739],
+        [-0.1021, -0.0769, -0.0938,  ...,  0.0136,  0.0054,  0.0010],
+        [-0.0988, -0.0947, -0.0931,  ...,  0.0440,  0.0524,  0.0298],
+        ...,
+        [-0.1434, -0.1227, -0.1027,  ..., -0.0475, -0.0434, -0.0440],
+        [-0.0712, -0.1356, -0.1509,  ..., -0.0345, -0.0504, -0.0526],
+        [ 0.2187,  0.2249,  0.1509,  ..., -0.0213, -0.0169, -0.0090]],
+       device='cuda:0'), grad: tensor([[ 0.0017, -0.0039, -0.0034,  ...,  0.0002,  0.0002,  0.0007],
+        [ 0.0136,  0.0036,  0.0034,  ...,  0.0035,  0.0033,  0.0039],
+        [ 0.0014,  0.0003,  0.0003,  ...,  0.0003,  0.0003,  0.0004],
+        ...,
+        [ 0.0080,  0.0019,  0.0018,  ...,  0.0020,  0.0019,  0.0023],
+        [ 0.0053,  0.0009,  0.0009,  ...,  0.0014,  0.0013,  0.0016],
+        [-0.0316, -0.0032, -0.0034,  ..., -0.0079, -0.0075, -0.0095]],
+       device='cuda:0')
+Epoch 48, bias, value: tensor([ 0.0571,  0.0282,  0.1044, -0.0478,  0.0409, -0.2182,  0.0166],
+       device='cuda:0'), grad: tensor([ 0.0289,  0.0419,  0.0046,  0.0055,  0.0258,  0.0195, -0.1261],
+       device='cuda:0')
+306
+0.0024355036129704724
+changing lr
+---------------------saving model at epoch 47----------------------------------------------------
+epoch 47, time 391.77, cls_loss 0.6198 cls_loss_mapping 0.0400 cls_loss_causal 0.5452 re_mapping 0.0345 re_causal 0.0361 /// teacc 89.90 lr 0.00224552
+Epoch 49, weight, value: tensor([[ 0.2513,  0.2684,  0.3388,  ..., -0.0885, -0.0780, -0.0735],
+        [-0.1007, -0.0758, -0.0932,  ...,  0.0140,  0.0057,  0.0008],
+        [-0.0949, -0.0907, -0.0891,  ...,  0.0447,  0.0530,  0.0305],
+        ...,
+        [-0.1406, -0.1213, -0.1012,  ..., -0.0488, -0.0448, -0.0450],
+        [-0.0721, -0.1357, -0.1511,  ..., -0.0345, -0.0506, -0.0526],
+        [ 0.2122,  0.2198,  0.1463,  ..., -0.0215, -0.0160, -0.0091]],
+       device='cuda:0'), grad: tensor([[-0.0080,  0.0009, -0.0003,  ..., -0.0024, -0.0015, -0.0039],
+        [-0.0343, -0.0184, -0.0170,  ..., -0.0062, -0.0043, -0.0063],
+        [ 0.0181,  0.0035,  0.0036,  ...,  0.0046,  0.0042,  0.0047],
+        ...,
+        [ 0.0262,  0.0069,  0.0067,  ...,  0.0054,  0.0043,  0.0057],
+        [-0.0085,  0.0112,  0.0111,  ...,  0.0008,  0.0019,  0.0012],
+        [-0.0059, -0.0065, -0.0068,  ..., -0.0052, -0.0073, -0.0046]],
+       device='cuda:0')
+Epoch 49, bias, value: tensor([ 0.0604,  0.0292,  0.1030, -0.0413,  0.0482, -0.2187,  0.0004],
+       device='cuda:0'), grad: tensor([-0.0401, -0.0751,  0.0487,  0.0343,  0.0736, -0.0716,  0.0302],
+       device='cuda:0')
+306
+0.00224551509273949
+changing lr
+epoch 48, time 380.72, cls_loss 0.6493 cls_loss_mapping 0.0430 cls_loss_causal 0.5664 re_mapping 0.0335 re_causal 0.0352 /// teacc 88.94 lr 0.00206107
+Epoch 50, weight, value: tensor([[ 0.2479,  0.2670,  0.3373,  ..., -0.0858, -0.0755, -0.0709],
+        [-0.1027, -0.0761, -0.0936,  ...,  0.0137,  0.0059,  0.0009],
+        [-0.0885, -0.0885, -0.0871,  ...,  0.0461,  0.0543,  0.0317],
+        ...,
+        [-0.1426, -0.1232, -0.1030,  ..., -0.0497, -0.0460, -0.0458],
+        [-0.0719, -0.1358, -0.1509,  ..., -0.0349, -0.0506, -0.0527],
+        [ 0.2132,  0.2199,  0.1468,  ..., -0.0235, -0.0187, -0.0115]],
+       device='cuda:0'), grad: tensor([[ 2.7447e-03, -7.8392e-04, -5.9938e-04,  ..., -1.2457e-04,
+         -4.8965e-05,  1.7774e-04],
+        [-5.2399e-02, -1.2222e-02, -1.3527e-02,  ..., -4.8370e-03,
+         -5.5733e-03, -7.5302e-03],
+        [ 8.6823e-03,  2.7008e-03,  2.8095e-03,  ...,  2.4567e-03,
+          2.5711e-03,  2.8248e-03],
+        ...,
+        [ 3.0766e-03,  8.2541e-04,  8.9359e-04,  ...,  3.0756e-04,
+          3.4952e-04,  4.5800e-04],
+        [ 2.4094e-02,  5.6534e-03,  6.2599e-03,  ...,  2.0676e-03,
+          2.4223e-03,  3.3531e-03],
+        [ 1.3603e-02,  3.5000e-03,  3.7956e-03,  ...,  1.6050e-03,
+          1.7662e-03,  2.1992e-03]], device='cuda:0')
+Epoch 50, bias, value: tensor([ 0.0534,  0.0251,  0.1116, -0.0462,  0.0529, -0.2172,  0.0017],
+       device='cuda:0'), grad: tensor([ 0.0161, -0.1644,  0.0227,  0.0002,  0.0091,  0.0758,  0.0405],
+       device='cuda:0')
+306
+0.002061073738537637
+changing lr
+epoch 49, time 385.51, cls_loss 0.6125 cls_loss_mapping 0.0429 cls_loss_causal 0.5477 re_mapping 0.0334 re_causal 0.0351 /// teacc 48.08 lr 0.00188255
+Epoch 51, weight, value: tensor([[ 0.2512,  0.2716,  0.3423,  ..., -0.0848, -0.0742, -0.0699],
+        [-0.1032, -0.0773, -0.0949,  ...,  0.0124,  0.0047, -0.0003],
+        [-0.0912, -0.0886, -0.0877,  ...,  0.0434,  0.0524,  0.0294],
+        ...,
+        [-0.1454, -0.1274, -0.1073,  ..., -0.0490, -0.0454, -0.0452],
+        [-0.0706, -0.1350, -0.1499,  ..., -0.0339, -0.0500, -0.0518],
+        [ 0.2121,  0.2191,  0.1463,  ..., -0.0243, -0.0200, -0.0126]],
+       device='cuda:0'), grad: tensor([[-0.0104, -0.0054, -0.0054,  ..., -0.0015, -0.0014, -0.0016],
+        [ 0.0076,  0.0023,  0.0023,  ...,  0.0018,  0.0016,  0.0018],
+        [ 0.0056, -0.0002, -0.0001,  ...,  0.0045,  0.0043,  0.0047],
+        ...,
+        [-0.0014, -0.0005, -0.0005,  ..., -0.0017, -0.0015, -0.0017],
+        [ 0.0023,  0.0005,  0.0005,  ...,  0.0008,  0.0007,  0.0008],
+        [-0.0094,  0.0018,  0.0017,  ..., -0.0063, -0.0059, -0.0065]],
+       device='cuda:0')
+Epoch 51, bias, value: tensor([ 5.1953e-02,  2.7117e-02,  1.0480e-01, -4.5173e-02,  5.4918e-02,
+        -2.1225e-01, -7.5154e-05], device='cuda:0'), grad: tensor([-0.0168,  0.0190,  0.0207,  0.0150, -0.0031,  0.0063, -0.0410],
+       device='cuda:0')
+306
+0.0018825509907063344
+changing lr
+epoch 50, time 380.31, cls_loss 0.6271 cls_loss_mapping 0.0397 cls_loss_causal 0.5682 re_mapping 0.0326 re_causal 0.0343 /// teacc 89.42 lr 0.00171031
+Epoch 52, weight, value: tensor([[ 0.2505,  0.2695,  0.3399,  ..., -0.0816, -0.0715, -0.0666],
+        [-0.1044, -0.0765, -0.0938,  ...,  0.0110,  0.0037, -0.0018],
+        [-0.0932, -0.0917, -0.0906,  ...,  0.0431,  0.0522,  0.0290],
+        ...,
+        [-0.1413, -0.1243, -0.1043,  ..., -0.0494, -0.0460, -0.0456],
+        [-0.0705, -0.1340, -0.1490,  ..., -0.0338, -0.0498, -0.0515],
+        [ 0.2132,  0.2202,  0.1477,  ..., -0.0253, -0.0209, -0.0136]],
+       device='cuda:0'), grad: tensor([[ 2.1973e-03,  9.7656e-04,  8.3447e-04,  ...,  4.8923e-04,
+          3.9434e-04,  4.5633e-04],
+        [ 2.9564e-05,  4.0412e-05,  3.4332e-05,  ..., -3.5137e-05,
+         -2.4781e-05, -2.6584e-05],
+        [ 7.2300e-05, -9.9465e-06, -1.9848e-05,  ..., -3.2842e-05,
+         -3.5197e-05, -3.2842e-05],
+        ...,
+        [-4.5443e-04,  7.7009e-05,  7.8440e-05,  ..., -3.8922e-05,
+         -6.3062e-05, -5.2482e-05],
+        [-1.3447e-04,  2.9244e-06,  7.9628e-07,  ..., -7.1265e-06,
+         -8.8513e-06, -1.1913e-05],
+        [-1.8673e-03, -1.1272e-03, -9.6321e-04,  ..., -4.0746e-04,
+         -2.9063e-04, -3.6454e-04]], device='cuda:0')
+Epoch 52, bias, value: tensor([ 0.0539,  0.0217,  0.1090, -0.0481,  0.0627, -0.2167, -0.0012],
+       device='cuda:0'), grad: tensor([ 0.0039, -0.0002,  0.0003,  0.0004, -0.0018, -0.0004, -0.0022],
+       device='cuda:0')
+306
+0.0017103063703014388
+changing lr
+epoch 51, time 371.42, cls_loss 0.5745 cls_loss_mapping 0.0388 cls_loss_causal 0.5096 re_mapping 0.0319 re_causal 0.0334 /// teacc 85.58 lr 0.00154469
+Epoch 53, weight, value: tensor([[ 2.5761e-01,  2.7530e-01,  3.4533e-01,  ..., -8.2721e-02,
+         -7.2474e-02, -6.7804e-02],
+        [-1.0293e-01, -7.6382e-02, -9.3620e-02,  ...,  1.2786e-02,
+          5.1747e-03, -8.0065e-05],
+        [-9.5241e-02, -9.2339e-02, -9.1178e-02,  ...,  4.1910e-02,
+          5.1276e-02,  2.7885e-02],
+        ...,
+        [-1.4063e-01, -1.2338e-01, -1.0332e-01,  ..., -5.0123e-02,
+         -4.7026e-02, -4.6222e-02],
+        [-7.1251e-02, -1.3548e-01, -1.5024e-01,  ..., -3.4023e-02,
+         -5.0111e-02, -5.1385e-02],
+        [ 2.0884e-01,  2.1572e-01,  1.4339e-01,  ..., -2.3927e-02,
+         -1.9364e-02, -1.2239e-02]], device='cuda:0'), grad: tensor([[-0.0146, -0.0074, -0.0065,  ..., -0.0068, -0.0041, -0.0061],
+        [ 0.0350,  0.0065,  0.0074,  ...,  0.0105,  0.0122,  0.0102],
+        [-0.0059,  0.0032, -0.0014,  ..., -0.0007, -0.0081, -0.0015],
+        ...,
+        [ 0.0356,  0.0091,  0.0087,  ...,  0.0103,  0.0108,  0.0103],
+        [ 0.0092,  0.0021,  0.0020,  ...,  0.0024,  0.0025,  0.0024],
+        [-0.0646, -0.0148, -0.0114,  ..., -0.0175, -0.0150, -0.0169]],
+       device='cuda:0')
+Epoch 53, bias, value: tensor([ 0.0573,  0.0254,  0.1023, -0.0565,  0.0629, -0.2126,  0.0027],
+       device='cuda:0'), grad: tensor([-0.0119,  0.1000, -0.0440,  0.0141,  0.0909,  0.0250, -0.1740],
+       device='cuda:0')
+306
+0.0015446867550656784
+changing lr
+epoch 52, time 380.42, cls_loss 0.5926 cls_loss_mapping 0.0417 cls_loss_causal 0.5260 re_mapping 0.0316 re_causal 0.0333 /// teacc 87.50 lr 0.00138603
+Epoch 54, weight, value: tensor([[ 0.2571,  0.2735,  0.3432,  ..., -0.0823, -0.0724, -0.0675],
+        [-0.0983, -0.0738, -0.0910,  ...,  0.0113,  0.0037, -0.0014],
+        [-0.0971, -0.0935, -0.0923,  ...,  0.0418,  0.0511,  0.0277],
+        ...,
+        [-0.1421, -0.1240, -0.1038,  ..., -0.0513, -0.0484, -0.0471],
+        [-0.0744, -0.1362, -0.1509,  ..., -0.0343, -0.0504, -0.0518],
+        [ 0.2121,  0.2183,  0.1459,  ..., -0.0222, -0.0174, -0.0108]],
+       device='cuda:0'), grad: tensor([[ 0.0080,  0.0086,  0.0087,  ...,  0.0077,  0.0020,  0.0040],
+        [ 0.0015,  0.0005,  0.0004,  ...,  0.0002,  0.0001,  0.0002],
+        [ 0.0397,  0.0099,  0.0063,  ...,  0.0026,  0.0018,  0.0024],
+        ...,
+        [-0.0512, -0.0197, -0.0158,  ..., -0.0107, -0.0041, -0.0068],
+        [-0.0052, -0.0015, -0.0015,  ..., -0.0004, -0.0005, -0.0007],
+        [ 0.0067,  0.0020,  0.0018,  ...,  0.0006,  0.0006,  0.0008]],
+       device='cuda:0')
+Epoch 54, bias, value: tensor([ 0.0606,  0.0305,  0.0975, -0.0558,  0.0627, -0.2200,  0.0059],
+       device='cuda:0'), grad: tensor([ 0.0613,  0.0031,  0.0847,  0.0012, -0.1527, -0.0134,  0.0160],
+       device='cuda:0')
+306
+0.001386025680863044
+changing lr
+epoch 53, time 385.40, cls_loss 0.5677 cls_loss_mapping 0.0323 cls_loss_causal 0.4998 re_mapping 0.0319 re_causal 0.0335 /// teacc 73.08 lr 0.00123464
+Epoch 55, weight, value: tensor([[ 0.2581,  0.2756,  0.3451,  ..., -0.0828, -0.0728, -0.0680],
+        [-0.1023, -0.0757, -0.0929,  ...,  0.0104,  0.0029, -0.0021],
+        [-0.0986, -0.0943, -0.0930,  ...,  0.0407,  0.0501,  0.0268],
+        ...,
+        [-0.1414, -0.1236, -0.1036,  ..., -0.0504, -0.0475, -0.0461],
+        [-0.0736, -0.1357, -0.1506,  ..., -0.0343, -0.0505, -0.0517],
+        [ 0.2138,  0.2185,  0.1465,  ..., -0.0209, -0.0163, -0.0099]],
+       device='cuda:0'), grad: tensor([[ 4.9896e-03,  3.2949e-04,  2.7490e-04,  ...,  1.1034e-03,
+          1.3189e-03,  1.1978e-03],
+        [ 5.4016e-03,  2.1124e-04,  1.7786e-04,  ...,  1.1473e-03,
+          1.4582e-03,  1.2522e-03],
+        [ 7.9803e-03,  1.5402e-04,  1.5414e-04,  ...,  1.7748e-03,
+          2.1305e-03,  1.9722e-03],
+        ...,
+        [ 4.8943e-03,  8.9884e-05,  8.2195e-05,  ...,  1.2188e-03,
+          1.4582e-03,  1.3294e-03],
+        [-1.9684e-03, -2.8372e-04, -2.9254e-04,  ..., -7.1096e-04,
+         -2.6059e-04, -8.4352e-04],
+        [ 1.0185e-02, -3.5810e-04, -2.6703e-04,  ...,  2.1591e-03,
+          2.9297e-03,  2.4128e-03]], device='cuda:0')
+Epoch 55, bias, value: tensor([ 0.0549,  0.0236,  0.0982, -0.0502,  0.0646, -0.2206,  0.0109],
+       device='cuda:0'), grad: tensor([ 0.0196,  0.0224,  0.0334, -0.1389,  0.0205, -0.0040,  0.0472],
+       device='cuda:0')
+306
+0.0012346426699819469
+changing lr
+epoch 54, time 382.11, cls_loss 0.5824 cls_loss_mapping 0.0355 cls_loss_causal 0.5214 re_mapping 0.0314 re_causal 0.0333 /// teacc 87.98 lr 0.00109084
+Epoch 56, weight, value: tensor([[ 0.2566,  0.2762,  0.3458,  ..., -0.0824, -0.0721, -0.0677],
+        [-0.1013, -0.0756, -0.0927,  ...,  0.0102,  0.0028, -0.0021],
+        [-0.0936, -0.0928, -0.0917,  ...,  0.0421,  0.0514,  0.0282],
+        ...,
+        [-0.1431, -0.1247, -0.1046,  ..., -0.0509, -0.0479, -0.0466],
+        [-0.0712, -0.1344, -0.1497,  ..., -0.0340, -0.0502, -0.0513],
+        [ 0.2100,  0.2170,  0.1451,  ..., -0.0220, -0.0179, -0.0111]],
+       device='cuda:0'), grad: tensor([[-1.2999e-03, -2.4261e-03, -2.5768e-03,  ...,  5.2691e-04,
+          2.1672e-04,  6.5088e-04],
+        [ 7.0610e-03,  1.3933e-03,  1.4610e-03,  ...,  1.8158e-03,
+          1.6451e-03,  2.0771e-03],
+        [ 1.4229e-02, -8.8990e-05, -2.4304e-05,  ...,  5.1041e-03,
+          4.2114e-03,  5.8899e-03],
+        ...,
+        [ 3.2635e-03,  3.5286e-04,  3.6478e-04,  ...,  9.5844e-04,
+          8.3113e-04,  1.1024e-03],
+        [ 4.0665e-03,  6.9678e-05,  5.5224e-05,  ...,  1.3237e-03,
+          1.1129e-03,  1.5316e-03],
+        [-3.0609e-02,  6.1989e-04,  6.4802e-04,  ..., -1.0796e-02,
+         -8.9188e-03, -1.2482e-02]], device='cuda:0')
+Epoch 56, bias, value: tensor([ 0.0436,  0.0318,  0.1102, -0.0504,  0.0589, -0.2193,  0.0068],
+       device='cuda:0'), grad: tensor([ 0.0086,  0.0234,  0.0654,  0.0142,  0.0126,  0.0178, -0.1421],
+       device='cuda:0')
+306
+0.0010908425876598518
+changing lr
+epoch 55, time 373.85, cls_loss 0.5619 cls_loss_mapping 0.0331 cls_loss_causal 0.5108 re_mapping 0.0305 re_causal 0.0320 /// teacc 70.19 lr 0.00095492
+Epoch 57, weight, value: tensor([[ 0.2558,  0.2744,  0.3444,  ..., -0.0820, -0.0717, -0.0672],
+        [-0.1029, -0.0753, -0.0926,  ...,  0.0105,  0.0032, -0.0019],
+        [-0.0938, -0.0916, -0.0904,  ...,  0.0420,  0.0512,  0.0280],
+        ...,
+        [-0.1424, -0.1251, -0.1050,  ..., -0.0499, -0.0470, -0.0454],
+        [-0.0722, -0.1340, -0.1494,  ..., -0.0343, -0.0506, -0.0516],
+        [ 0.2126,  0.2176,  0.1458,  ..., -0.0224, -0.0180, -0.0115]],
+       device='cuda:0'), grad: tensor([[-0.0270, -0.0051, -0.0063,  ..., -0.0073, -0.0079, -0.0046],
+        [ 0.0363,  0.0069,  0.0059,  ...,  0.0123,  0.0105,  0.0113],
+        [-0.0076,  0.0037,  0.0026,  ...,  0.0048,  0.0058,  0.0016],
+        ...,
+        [ 0.0161,  0.0027,  0.0018,  ...,  0.0042,  0.0025,  0.0039],
+        [-0.0352, -0.0084, -0.0082,  ..., -0.0034, -0.0030, -0.0051],
+        [ 0.0673,  0.0127,  0.0100,  ...,  0.0155,  0.0107,  0.0148]],
+       device='cuda:0')
+Epoch 57, bias, value: tensor([ 0.0514,  0.0230,  0.1044, -0.0472,  0.0624, -0.2232,  0.0106],
+       device='cuda:0'), grad: tensor([-0.0739,  0.1065, -0.0494, -0.1571,  0.0513, -0.0707,  0.1934],
+       device='cuda:0')
+306
+0.000954915028125264
+changing lr
+epoch 56, time 376.96, cls_loss 0.5499 cls_loss_mapping 0.0342 cls_loss_causal 0.4971 re_mapping 0.0301 re_causal 0.0317 /// teacc 83.65 lr 0.00082713
+Epoch 58, weight, value: tensor([[ 0.2582,  0.2747,  0.3447,  ..., -0.0812, -0.0710, -0.0664],
+        [-0.1015, -0.0751, -0.0926,  ...,  0.0111,  0.0038, -0.0012],
+        [-0.0958, -0.0915, -0.0903,  ...,  0.0413,  0.0505,  0.0273],
+        ...,
+        [-0.1419, -0.1245, -0.1045,  ..., -0.0506, -0.0475, -0.0459],
+        [-0.0710, -0.1340, -0.1496,  ..., -0.0342, -0.0505, -0.0513],
+        [ 0.2101,  0.2155,  0.1440,  ..., -0.0226, -0.0183, -0.0117]],
+       device='cuda:0'), grad: tensor([[ 0.0293,  0.0008,  0.0005,  ...,  0.0053,  0.0035,  0.0058],
+        [-0.0748, -0.0002, -0.0005,  ..., -0.0105, -0.0058, -0.0123],
+        [-0.0688, -0.0166, -0.0168,  ..., -0.0236, -0.0195, -0.0237],
+        ...,
+        [ 0.0456,  0.0087,  0.0087,  ...,  0.0136,  0.0109,  0.0140],
+        [ 0.0163,  0.0004,  0.0004,  ...,  0.0025,  0.0015,  0.0028],
+        [ 0.0459,  0.0068,  0.0076,  ...,  0.0117,  0.0087,  0.0121]],
+       device='cuda:0')
+Epoch 58, bias, value: tensor([ 0.0623,  0.0269,  0.0961, -0.0570,  0.0624, -0.2196,  0.0105],
+       device='cuda:0'), grad: tensor([ 0.1049, -0.2854, -0.1331,  0.0241,  0.1095,  0.0596,  0.1203],
+       device='cuda:0')
+306
+0.0008271337313934874
+changing lr
+epoch 57, time 381.33, cls_loss 0.5612 cls_loss_mapping 0.0322 cls_loss_causal 0.5095 re_mapping 0.0295 re_causal 0.0309 /// teacc 87.50 lr 0.00070776
+Epoch 59, weight, value: tensor([[ 0.2564,  0.2744,  0.3443,  ..., -0.0814, -0.0713, -0.0668],
+        [-0.1013, -0.0752, -0.0927,  ...,  0.0111,  0.0038, -0.0010],
+        [-0.0956, -0.0914, -0.0901,  ...,  0.0408,  0.0500,  0.0268],
+        ...,
+        [-0.1412, -0.1237, -0.1037,  ..., -0.0504, -0.0472, -0.0458],
+        [-0.0716, -0.1344, -0.1500,  ..., -0.0343, -0.0506, -0.0513],
+        [ 0.2102,  0.2152,  0.1439,  ..., -0.0227, -0.0186, -0.0118]],
+       device='cuda:0'), grad: tensor([[ 0.0074,  0.0120,  0.0114,  ...,  0.0016,  0.0020,  0.0017],
+        [ 0.0095,  0.0014,  0.0016,  ...,  0.0016,  0.0010,  0.0017],
+        [ 0.0067,  0.0006,  0.0008,  ...,  0.0013,  0.0008,  0.0013],
+        ...,
+        [-0.0374, -0.0152, -0.0145,  ..., -0.0089, -0.0075, -0.0092],
+        [ 0.0292,  0.0059,  0.0067,  ...,  0.0042,  0.0024,  0.0040],
+        [-0.0228, -0.0055, -0.0069,  ..., -0.0012,  0.0003, -0.0008]],
+       device='cuda:0')
+Epoch 59, bias, value: tensor([ 0.0576,  0.0279,  0.0962, -0.0532,  0.0610, -0.2204,  0.0125],
+       device='cuda:0'), grad: tensor([-0.0409,  0.0317,  0.0244,  0.0271, -0.0647,  0.0897, -0.0673],
+       device='cuda:0')
+306
+0.00070775603199067
+changing lr
+epoch 58, time 373.07, cls_loss 0.5715 cls_loss_mapping 0.0304 cls_loss_causal 0.5113 re_mapping 0.0294 re_causal 0.0309 /// teacc 84.62 lr 0.00059702
+Epoch 60, weight, value: tensor([[ 0.2542,  0.2730,  0.3429,  ..., -0.0825, -0.0724, -0.0678],
+        [-0.1019, -0.0754, -0.0929,  ...,  0.0108,  0.0034, -0.0014],
+        [-0.0934, -0.0911, -0.0900,  ...,  0.0418,  0.0508,  0.0279],
+        ...,
+        [-0.1433, -0.1247, -0.1047,  ..., -0.0504, -0.0471, -0.0460],
+        [-0.0714, -0.1342, -0.1498,  ..., -0.0341, -0.0503, -0.0511],
+        [ 0.2117,  0.2170,  0.1458,  ..., -0.0222, -0.0181, -0.0113]],
+       device='cuda:0'), grad: tensor([[ 0.0453,  0.0184,  0.0185,  ...,  0.0138,  0.0124,  0.0135],
+        [-0.0461, -0.0005, -0.0004,  ..., -0.0022, -0.0008, -0.0022],
+        [ 0.0173,  0.0050,  0.0050,  ...,  0.0044,  0.0038,  0.0043],
+        ...,
+        [ 0.0030,  0.0004,  0.0004,  ...,  0.0004,  0.0003,  0.0004],
+        [ 0.0175,  0.0012,  0.0012,  ...,  0.0014,  0.0009,  0.0014],
+        [ 0.0699,  0.0288,  0.0290,  ...,  0.0210,  0.0189,  0.0206]],
+       device='cuda:0')
+Epoch 60, bias, value: tensor([ 0.0561,  0.0252,  0.1028, -0.0502,  0.0560, -0.2203,  0.0120],
+       device='cuda:0'), grad: tensor([ 0.0945, -0.1462,  0.0432, -0.1959,  0.0084,  0.0523,  0.1436],
+       device='cuda:0')
+306
+0.0005970223407163104
+changing lr
+epoch 59, time 383.18, cls_loss 0.5435 cls_loss_mapping 0.0310 cls_loss_causal 0.4856 re_mapping 0.0287 re_causal 0.0300 /// teacc 76.92 lr 0.00049516
+Epoch 61, weight, value: tensor([[ 0.2549,  0.2732,  0.3432,  ..., -0.0823, -0.0723, -0.0675],
+        [-0.1011, -0.0750, -0.0926,  ...,  0.0108,  0.0035, -0.0014],
+        [-0.0943, -0.0918, -0.0906,  ...,  0.0408,  0.0499,  0.0268],
+        ...,
+        [-0.1424, -0.1246, -0.1046,  ..., -0.0501, -0.0468, -0.0456],
+        [-0.0722, -0.1346, -0.1502,  ..., -0.0339, -0.0501, -0.0508],
+        [ 0.2106,  0.2171,  0.1458,  ..., -0.0220, -0.0180, -0.0112]],
+       device='cuda:0'), grad: tensor([[ 0.0102,  0.0002,  0.0002,  ...,  0.0012,  0.0007,  0.0011],
+        [ 0.0125,  0.0005,  0.0005,  ...,  0.0017,  0.0011,  0.0016],
+        [-0.0316, -0.0021, -0.0020,  ..., -0.0046, -0.0028, -0.0035],
+        ...,
+        [ 0.0071,  0.0002,  0.0002,  ...,  0.0008,  0.0005,  0.0008],
+        [ 0.0141,  0.0005,  0.0005,  ...,  0.0017,  0.0010,  0.0016],
+        [-0.0158,  0.0006,  0.0006,  ...,  0.0002,  0.0009, -0.0006]],
+       device='cuda:0')
+Epoch 61, bias, value: tensor([ 0.0564,  0.0264,  0.1026, -0.0504,  0.0578, -0.2209,  0.0097],
+       device='cuda:0'), grad: tensor([ 0.0424,  0.0469, -0.0864,  0.0166,  0.0299,  0.0562, -0.1056],
+       device='cuda:0')
+306
+0.0004951556604879052
+changing lr
+epoch 60, time 387.88, cls_loss 0.5386 cls_loss_mapping 0.0268 cls_loss_causal 0.4879 re_mapping 0.0285 re_causal 0.0298 /// teacc 85.58 lr 0.00040236
+Epoch 62, weight, value: tensor([[ 0.2563,  0.2740,  0.3439,  ..., -0.0818, -0.0717, -0.0670],
+        [-0.1025, -0.0752, -0.0927,  ...,  0.0104,  0.0030, -0.0018],
+        [-0.0955, -0.0918, -0.0906,  ...,  0.0400,  0.0492,  0.0261],
+        ...,
+        [-0.1420, -0.1245, -0.1046,  ..., -0.0500, -0.0468, -0.0455],
+        [-0.0723, -0.1347, -0.1502,  ..., -0.0337, -0.0498, -0.0505],
+        [ 0.2116,  0.2168,  0.1457,  ..., -0.0212, -0.0173, -0.0105]],
+       device='cuda:0'), grad: tensor([[ 9.0485e-03,  3.5357e-04,  1.3626e-04,  ...,  1.4639e-03,
+          6.7711e-04,  1.6270e-03],
+        [-3.6041e-02, -1.2360e-03, -3.4046e-04,  ..., -5.6229e-03,
+         -2.4529e-03, -6.3210e-03],
+        [ 6.0501e-03,  2.4915e-04,  1.0955e-04,  ...,  1.0633e-03,
+          5.3215e-04,  1.1578e-03],
+        ...,
+        [ 4.9057e-03,  1.7869e-04,  5.8830e-05,  ...,  7.8917e-04,
+          3.6001e-04,  8.8024e-04],
+        [ 5.0964e-03,  1.6475e-04,  4.3243e-05,  ...,  8.2541e-04,
+          3.5620e-04,  9.1267e-04],
+        [ 7.5760e-03,  2.5201e-04,  6.2168e-05,  ...,  1.2159e-03,
+          5.4932e-04,  1.3609e-03]], device='cuda:0')
+Epoch 62, bias, value: tensor([ 0.0570,  0.0227,  0.0975, -0.0485,  0.0591, -0.2208,  0.0147],
+       device='cuda:0'), grad: tensor([ 0.0383, -0.1541,  0.0254,  0.0152,  0.0208,  0.0219,  0.0324],
+       device='cuda:0')
+306
+0.00040236113724274745
+changing lr
+epoch 61, time 379.40, cls_loss 0.5358 cls_loss_mapping 0.0277 cls_loss_causal 0.4814 re_mapping 0.0283 re_causal 0.0297 /// teacc 86.54 lr 0.00031883
+Epoch 63, weight, value: tensor([[ 0.2566,  0.2740,  0.3438,  ..., -0.0823, -0.0723, -0.0676],
+        [-0.1024, -0.0753, -0.0928,  ...,  0.0104,  0.0030, -0.0018],
+        [-0.0941, -0.0910, -0.0898,  ...,  0.0401,  0.0493,  0.0262],
+        ...,
+        [-0.1427, -0.1248, -0.1049,  ..., -0.0496, -0.0463, -0.0450],
+        [-0.0723, -0.1350, -0.1505,  ..., -0.0339, -0.0500, -0.0508],
+        [ 0.2105,  0.2168,  0.1457,  ..., -0.0214, -0.0174, -0.0107]],
+       device='cuda:0'), grad: tensor([[ 5.0049e-03,  7.3004e-04,  7.9918e-04,  ...,  1.1644e-03,
+          9.7847e-04,  1.1091e-03],
+        [-5.2490e-03, -5.7077e-04, -6.9046e-04,  ..., -8.7976e-04,
+         -6.9189e-04, -7.9584e-04],
+        [ 1.7157e-03,  2.0468e-04,  2.1148e-04,  ...,  6.0177e-04,
+          5.1546e-04,  5.9319e-04],
+        ...,
+        [ 9.3842e-04,  1.1909e-04,  1.4830e-04,  ...,  1.7202e-04,
+          8.0347e-05,  1.4603e-04],
+        [ 1.6320e-04,  3.8296e-05,  5.2869e-05,  ...,  4.4680e-04,
+          4.4131e-04,  4.5323e-04],
+        [ 6.3467e-04, -1.1647e-04, -1.0848e-04,  ...,  3.0541e-04,
+          2.5082e-04,  3.0065e-04]], device='cuda:0')
+Epoch 63, bias, value: tensor([ 0.0587,  0.0239,  0.0998, -0.0482,  0.0570, -0.2193,  0.0098],
+       device='cuda:0'), grad: tensor([ 0.0143, -0.0151,  0.0054, -0.0106,  0.0028,  0.0004,  0.0028],
+       device='cuda:0')
+306
+0.00031882564680131423
+changing lr
+epoch 62, time 390.73, cls_loss 0.5078 cls_loss_mapping 0.0277 cls_loss_causal 0.4620 re_mapping 0.0286 re_causal 0.0298 /// teacc 42.79 lr 0.00024472
+Epoch 64, weight, value: tensor([[ 0.2562,  0.2741,  0.3439,  ..., -0.0822, -0.0723, -0.0675],
+        [-0.1014, -0.0751, -0.0926,  ...,  0.0109,  0.0034, -0.0013],
+        [-0.0937, -0.0911, -0.0899,  ...,  0.0399,  0.0491,  0.0260],
+        ...,
+        [-0.1418, -0.1247, -0.1048,  ..., -0.0494, -0.0463, -0.0449],
+        [-0.0736, -0.1353, -0.1508,  ..., -0.0342, -0.0504, -0.0511],
+        [ 0.2108,  0.2167,  0.1457,  ..., -0.0213, -0.0172, -0.0105]],
+       device='cuda:0'), grad: tensor([[ 0.0122, -0.0005, -0.0005,  ...,  0.0026,  0.0014,  0.0030],
+        [-0.0297,  0.0009,  0.0010,  ..., -0.0083, -0.0085, -0.0106],
+        [ 0.0128,  0.0010,  0.0010,  ...,  0.0027,  0.0017,  0.0031],
+        ...,
+        [ 0.0354,  0.0005,  0.0005,  ...,  0.0088,  0.0080,  0.0109],
+        [ 0.0057,  0.0003,  0.0003,  ...,  0.0011,  0.0005,  0.0012],
+        [-0.0425, -0.0026, -0.0027,  ..., -0.0081, -0.0038, -0.0091]],
+       device='cuda:0')
+Epoch 64, bias, value: tensor([ 0.0561,  0.0266,  0.1016, -0.0505,  0.0592, -0.2221,  0.0108],
+       device='cuda:0'), grad: tensor([ 0.0479, -0.1239,  0.0434,  0.0208,  0.1360,  0.0197, -0.1439],
+       device='cuda:0')
+306
+0.0002447174185242325
+changing lr
+epoch 63, time 389.58, cls_loss 0.5236 cls_loss_mapping 0.0287 cls_loss_causal 0.4794 re_mapping 0.0280 re_causal 0.0293 /// teacc 87.50 lr 0.00018019
+Epoch 65, weight, value: tensor([[ 0.2565,  0.2744,  0.3442,  ..., -0.0822, -0.0724, -0.0675],
+        [-0.1024, -0.0754, -0.0930,  ...,  0.0106,  0.0031, -0.0016],
+        [-0.0945, -0.0911, -0.0900,  ...,  0.0396,  0.0490,  0.0258],
+        ...,
+        [-0.1413, -0.1245, -0.1046,  ..., -0.0492, -0.0461, -0.0446],
+        [-0.0733, -0.1352, -0.1507,  ..., -0.0341, -0.0502, -0.0510],
+        [ 0.2118,  0.2167,  0.1457,  ..., -0.0212, -0.0171, -0.0104]],
+       device='cuda:0'), grad: tensor([[ 0.0657,  0.0192,  0.0219,  ...,  0.0066,  0.0038,  0.0060],
+        [ 0.0083,  0.0004,  0.0005,  ...,  0.0010,  0.0006,  0.0011],
+        [ 0.0066,  0.0002,  0.0003,  ...,  0.0007,  0.0004,  0.0008],
+        ...,
+        [-0.0880, -0.0188, -0.0222,  ..., -0.0080, -0.0038, -0.0080],
+        [ 0.0100,  0.0003,  0.0005,  ...,  0.0011,  0.0007,  0.0013],
+        [-0.0084, -0.0014, -0.0014,  ..., -0.0020, -0.0020, -0.0020]],
+       device='cuda:0')
+Epoch 65, bias, value: tensor([ 0.0565,  0.0247,  0.0993, -0.0518,  0.0600, -0.2217,  0.0146],
+       device='cuda:0'), grad: tensor([ 0.1425,  0.0289,  0.0234,  0.0208, -0.2208,  0.0356, -0.0303],
+       device='cuda:0')
+306
+0.0001801856965207339
+changing lr
+epoch 64, time 381.02, cls_loss 0.5162 cls_loss_mapping 0.0244 cls_loss_causal 0.4630 re_mapping 0.0278 re_causal 0.0290 /// teacc 64.90 lr 0.00012536
+Epoch 66, weight, value: tensor([[ 0.2558,  0.2736,  0.3434,  ..., -0.0823, -0.0725, -0.0676],
+        [-0.1021, -0.0753, -0.0928,  ...,  0.0109,  0.0034, -0.0013],
+        [-0.0946, -0.0911, -0.0900,  ...,  0.0397,  0.0491,  0.0259],
+        ...,
+        [-0.1410, -0.1242, -0.1042,  ..., -0.0493, -0.0463, -0.0448],
+        [-0.0727, -0.1351, -0.1506,  ..., -0.0339, -0.0500, -0.0508],
+        [ 0.2116,  0.2169,  0.1459,  ..., -0.0215, -0.0174, -0.0107]],
+       device='cuda:0'), grad: tensor([[ 0.1195,  0.0453,  0.0431,  ...,  0.0236,  0.0202,  0.0200],
+        [-0.1202, -0.0492, -0.0470,  ..., -0.0222, -0.0186, -0.0181],
+        [ 0.0117,  0.0008,  0.0007,  ...,  0.0030,  0.0028,  0.0032],
+        ...,
+        [ 0.0324,  0.0041,  0.0040,  ...,  0.0080,  0.0075,  0.0082],
+        [-0.0248, -0.0007, -0.0003,  ..., -0.0054, -0.0048, -0.0065],
+        [-0.0283, -0.0009, -0.0011,  ..., -0.0097, -0.0096, -0.0097]],
+       device='cuda:0')
+Epoch 66, bias, value: tensor([ 0.0564,  0.0253,  0.0987, -0.0529,  0.0598, -0.2195,  0.0137],
+       device='cuda:0'), grad: tensor([ 0.2610, -0.2383,  0.0435,  0.0344,  0.0999, -0.1086, -0.0917],
+       device='cuda:0')
+306
+0.000125360439090882
+changing lr
+epoch 65, time 376.01, cls_loss 0.5398 cls_loss_mapping 0.0237 cls_loss_causal 0.4854 re_mapping 0.0277 re_causal 0.0291 /// teacc 75.96 lr 0.00008035
+Epoch 67, weight, value: tensor([[ 0.2556,  0.2737,  0.3434,  ..., -0.0823, -0.0725, -0.0676],
+        [-0.1022, -0.0754, -0.0929,  ...,  0.0109,  0.0034, -0.0014],
+        [-0.0942, -0.0910, -0.0899,  ...,  0.0397,  0.0490,  0.0259],
+        ...,
+        [-0.1416, -0.1243, -0.1044,  ..., -0.0495, -0.0464, -0.0450],
+        [-0.0731, -0.1352, -0.1507,  ..., -0.0341, -0.0502, -0.0509],
+        [ 0.2117,  0.2169,  0.1459,  ..., -0.0214, -0.0172, -0.0106]],
+       device='cuda:0'), grad: tensor([[ 4.2170e-05,  2.8312e-07,  2.1886e-07,  ...,  1.0245e-05,
+          9.4026e-06,  1.1615e-05],
+        [ 4.3064e-05,  4.0121e-06,  4.4145e-06,  ...,  6.8583e-06,
+          6.7614e-06,  8.4862e-06],
+        [ 3.8266e-04,  2.1398e-05,  2.8834e-05,  ...,  8.2254e-05,
+          8.4341e-05,  9.2983e-05],
+        ...,
+        [ 3.6627e-05,  3.5726e-06,  3.9861e-06,  ...,  1.0192e-05,
+          1.0125e-05,  1.0982e-05],
+        [-8.6832e-04, -6.3658e-05, -6.7115e-05,  ..., -1.6773e-04,
+         -1.5831e-04, -1.9491e-04],
+        [ 1.0133e-04,  9.2387e-06,  9.1568e-06,  ...,  2.0325e-05,
+          1.8507e-05,  2.3142e-05]], device='cuda:0')
+Epoch 67, bias, value: tensor([ 0.0551,  0.0252,  0.0999, -0.0507,  0.0583, -0.2201,  0.0139],
+       device='cuda:0'), grad: tensor([ 0.0002,  0.0002,  0.0016,  0.0009,  0.0001, -0.0034,  0.0004],
+       device='cuda:0')
+306
+8.03520570068517e-05
+changing lr
+epoch 66, time 377.29, cls_loss 0.5291 cls_loss_mapping 0.0246 cls_loss_causal 0.4834 re_mapping 0.0277 re_causal 0.0292 /// teacc 83.65 lr 0.00004525
+Epoch 68, weight, value: tensor([[ 0.2557,  0.2737,  0.3435,  ..., -0.0823, -0.0724, -0.0676],
+        [-0.1020, -0.0754, -0.0929,  ...,  0.0109,  0.0034, -0.0013],
+        [-0.0944, -0.0910, -0.0899,  ...,  0.0396,  0.0490,  0.0258],
+        ...,
+        [-0.1417, -0.1243, -0.1044,  ..., -0.0495, -0.0464, -0.0450],
+        [-0.0732, -0.1353, -0.1508,  ..., -0.0341, -0.0502, -0.0509],
+        [ 0.2117,  0.2169,  0.1459,  ..., -0.0214, -0.0173, -0.0106]],
+       device='cuda:0'), grad: tensor([[ 0.0583,  0.0265,  0.0249,  ...,  0.0146,  0.0136,  0.0148],
+        [ 0.0110,  0.0011,  0.0012,  ...,  0.0021,  0.0017,  0.0023],
+        [ 0.0164,  0.0034,  0.0037,  ...,  0.0041,  0.0045,  0.0042],
+        ...,
+        [-0.1012, -0.0440, -0.0418,  ..., -0.0246, -0.0230, -0.0255],
+        [ 0.0173,  0.0012,  0.0014,  ...,  0.0031,  0.0024,  0.0035],
+        [ 0.0240,  0.0080,  0.0071,  ...,  0.0046,  0.0028,  0.0049]],
+       device='cuda:0')
+Epoch 68, bias, value: tensor([ 0.0553,  0.0258,  0.0993, -0.0502,  0.0580, -0.2204,  0.0139],
+       device='cuda:0'), grad: tensor([ 0.1382,  0.0384,  0.0420, -0.1241, -0.2390,  0.0625,  0.0822],
+       device='cuda:0')
+306
+4.5251191160326525e-05
+changing lr
+epoch 67, time 389.44, cls_loss 0.5016 cls_loss_mapping 0.0262 cls_loss_causal 0.4620 re_mapping 0.0276 re_causal 0.0288 /// teacc 87.98 lr 0.00002013
+Epoch 69, weight, value: tensor([[ 0.2556,  0.2737,  0.3434,  ..., -0.0823, -0.0725, -0.0676],
+        [-0.1018, -0.0753, -0.0929,  ...,  0.0110,  0.0035, -0.0012],
+        [-0.0944, -0.0910, -0.0899,  ...,  0.0396,  0.0490,  0.0258],
+        ...,
+        [-0.1417, -0.1243, -0.1044,  ..., -0.0495, -0.0464, -0.0450],
+        [-0.0732, -0.1353, -0.1508,  ..., -0.0341, -0.0502, -0.0509],
+        [ 0.2117,  0.2169,  0.1459,  ..., -0.0215, -0.0173, -0.0107]],
+       device='cuda:0'), grad: tensor([[-0.0797, -0.0497, -0.0468,  ..., -0.0061, -0.0053, -0.0032],
+        [ 0.0294,  0.0014,  0.0011,  ...,  0.0117,  0.0101,  0.0114],
+        [ 0.0251,  0.0014,  0.0012,  ...,  0.0097,  0.0084,  0.0095],
+        ...,
+        [ 0.0045,  0.0004,  0.0004,  ...,  0.0012,  0.0009,  0.0012],
+        [ 0.0468,  0.0227,  0.0213,  ...,  0.0057,  0.0047,  0.0043],
+        [-0.0315,  0.0236,  0.0226,  ..., -0.0236, -0.0201, -0.0249]],
+       device='cuda:0')
+Epoch 69, bias, value: tensor([ 0.0548,  0.0261,  0.0995, -0.0502,  0.0578, -0.2202,  0.0139],
+       device='cuda:0'), grad: tensor([-0.1086,  0.1037,  0.0881,  0.0221,  0.0182,  0.0948, -0.2183],
+       device='cuda:0')
+306
+2.0128530023804673e-05
+changing lr
+epoch 68, time 378.22, cls_loss 0.5278 cls_loss_mapping 0.0296 cls_loss_causal 0.4776 re_mapping 0.0274 re_causal 0.0286 /// teacc 88.46 lr 0.00000503
+Epoch 70, weight, value: tensor([[ 0.2555,  0.2737,  0.3434,  ..., -0.0823, -0.0725, -0.0676],
+        [-0.1019, -0.0754, -0.0929,  ...,  0.0110,  0.0035, -0.0013],
+        [-0.0943, -0.0910, -0.0899,  ...,  0.0397,  0.0490,  0.0259],
+        ...,
+        [-0.1418, -0.1244, -0.1044,  ..., -0.0495, -0.0464, -0.0450],
+        [-0.0732, -0.1353, -0.1507,  ..., -0.0341, -0.0502, -0.0509],
+        [ 0.2118,  0.2169,  0.1459,  ..., -0.0215, -0.0173, -0.0107]],
+       device='cuda:0'), grad: tensor([[-3.4698e-02, -1.3657e-02, -1.4122e-02,  ..., -1.2150e-03,
+         -1.0138e-03, -1.6241e-03],
+        [ 1.8950e-03,  7.7724e-04,  7.4053e-04,  ...,  5.4002e-05,
+          8.5771e-05,  1.7047e-04],
+        [ 7.9651e-03,  2.7771e-03,  2.7676e-03,  ...,  1.0462e-03,
+          9.8038e-04,  1.1368e-03],
+        ...,
+        [ 3.9749e-03,  1.0386e-03,  9.3126e-04,  ...,  1.2283e-03,
+          1.1711e-03,  1.2598e-03],
+        [ 1.9312e-03,  6.4754e-04,  6.3944e-04,  ...,  3.6669e-04,
+          3.3617e-04,  3.6597e-04],
+        [ 1.6159e-02,  7.7705e-03,  8.4991e-03,  ..., -2.4796e-03,
+         -2.5120e-03, -2.3232e-03]], device='cuda:0')
+Epoch 70, bias, value: tensor([ 0.0547,  0.0261,  0.0997, -0.0501,  0.0575, -0.2203,  0.0141],
+       device='cuda:0'), grad: tensor([-0.0934,  0.0040,  0.0214,  0.0076,  0.0108,  0.0054,  0.0442],
+       device='cuda:0')
+306
+5.034667293427056e-06
+changing lr
+epoch 69, time 380.48, cls_loss 0.5055 cls_loss_mapping 0.0270 cls_loss_causal 0.4596 re_mapping 0.0274 re_causal 0.0286 /// teacc 87.50 lr 0.00000000
+---------------------saving last model at epoch 69----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps1_RA', 'source_domain': 'art_painting', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps1_RA/art_painting_16factor_best_test_check.csv', 'factor_num': 16, 'epoch': 'best', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of best
+randm: False
+stride: 5
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+columns: ['art_painting', 'cartoon', 'photo', 'sketch']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+                     art_painting    cartoon      photo     sketch        Avg
+w/o do (original x)     98.974609  68.643345  91.257485  72.715704  77.538844
+    art_painting   cartoon      photo     sketch        Avg
+do     98.974609  69.75256  90.479042  72.741156  77.657586
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps1_RA', 'source_domain': 'art_painting', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps1_RA/art_painting_16factor_last_test_check.csv', 'factor_num': 16, 'epoch': 'last', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of last
+randm: False
+stride: 5
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+columns: ['art_painting', 'cartoon', 'photo', 'sketch']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+                     art_painting    cartoon      photo     sketch        Avg
+w/o do (original x)     98.730469  66.296928  92.215569  73.275643  77.262713
+    art_painting    cartoon      photo     sketch        Avg
+do     98.730469  66.808874  90.359281  72.359379  76.509178
diff --git a/Meta-causal/code-withStyleAttack/73348.error b/Meta-causal/code-withStyleAttack/73348.error
new file mode 100644
index 0000000000000000000000000000000000000000..cd1a6a68597022c09dfa0e0c65edbcfe0f894c27
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73348.error
@@ -0,0 +1,3 @@
+slurmstepd: error: *** JOB 73348 ON gcpl4-eu-4 CANCELLED AT 2024-08-02T10:38:05 ***
+srun: error: Slurm job 73348 has expired
+srun: Check SLURM_JOB_ID environment variable. Expired or invalid job 73348
diff --git a/Meta-causal/code-withStyleAttack/73348.log b/Meta-causal/code-withStyleAttack/73348.log
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/Meta-causal/code-withStyleAttack/73724.error b/Meta-causal/code-withStyleAttack/73724.error
new file mode 100644
index 0000000000000000000000000000000000000000..d4cae9c14f1b02ce78b5efc4ecc9cba1f06923fb
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73724.error
@@ -0,0 +1,18 @@
+Solving dependencies
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py:225: FutureWarning: `torch.cuda.amp.GradScaler(args...)` is deprecated. Please use `torch.amp.GradScaler('cuda', args...)` instead.
+  scaler = GradScaler()
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py:247: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with autocast():
+run_my_joint_v13_test.sh: line 34: andm: command not found
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:44: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'best_cls_net.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:58: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'best_mapping_'+str(i)+'.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:68: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'best_E_to_W.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:47: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'last_cls_net.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:61: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'last_mapping_'+str(i)+'.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:71: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'last_E_to_W.pkl'))
diff --git a/Meta-causal/code-withStyleAttack/73724.log b/Meta-causal/code-withStyleAttack/73724.log
new file mode 100644
index 0000000000000000000000000000000000000000..7b07fd64feb46e1abe9ad3606f1c122a031823d4
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73724.log
@@ -0,0 +1,2043 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'sketch', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 5, 'factor_num': 16, 'epochs': 70, 'nbatch': 100, 'batchsize': 6, 'lr': 0.01, 'lr_scheduler': 'cosine', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps2', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 5
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_train.hdf5 torch.Size([3531, 3, 227, 227]) torch.Size([3531])
+--------------------------CA_multiple--------------------------
+---------------------------16 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_val.hdf5 torch.Size([398, 3, 227, 227]) torch.Size([398])
+-------------------------------------loading pretrain weights----------------------------------
+Epoch 1, weight, value: tensor([[-0.0112, -0.0212, -0.0087,  ..., -0.0081, -0.0176, -0.0132],
+        [ 0.0038, -0.0165,  0.0006,  ..., -0.0037,  0.0137, -0.0183],
+        [-0.0152,  0.0216, -0.0119,  ...,  0.0042, -0.0098, -0.0165],
+        ...,
+        [-0.0173, -0.0132,  0.0057,  ...,  0.0041, -0.0065,  0.0095],
+        [ 0.0010, -0.0076,  0.0081,  ..., -0.0131, -0.0201, -0.0127],
+        [ 0.0047,  0.0215,  0.0017,  ...,  0.0016,  0.0066, -0.0137]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([ 0.0153, -0.0168, -0.0115,  0.0078, -0.0177, -0.0184, -0.0123],
+       device='cuda:0'), grad: None
+588
+0.01
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 824.24, cls_loss 3.8137 cls_loss_mapping 1.1017 cls_loss_causal 1.3979 re_mapping 0.3319 re_causal 0.3316 /// teacc 88.69 lr 0.00999497
+Epoch 2, weight, value: tensor([[ 0.0073,  0.0027, -0.0091,  ..., -0.0058,  0.0126,  0.0298],
+        [ 0.1191,  0.1055,  0.0993,  ...,  0.0053,  0.0441, -0.0106],
+        [-0.0245,  0.0112, -0.0026,  ...,  0.0525, -0.0357, -0.0388],
+        ...,
+        [-0.1952, -0.1769, -0.1372,  ..., -0.0546, -0.0555, -0.0471],
+        [ 0.0677,  0.0521,  0.0544,  ..., -0.0805, -0.0787, -0.0680],
+        [ 0.0344,  0.0396,  0.0107,  ..., -0.0493, -0.0632, -0.0682]],
+       device='cuda:0'), grad: tensor([[ 0.0350,  0.0141,  0.0131,  ...,  0.0104,  0.0145,  0.0051],
+        [-0.0622, -0.0252, -0.0233,  ..., -0.0185, -0.0257, -0.0091],
+        [ 0.0694,  0.0233,  0.0184,  ...,  0.0324,  0.0370,  0.0198],
+        ...,
+        [-0.0573, -0.0184, -0.0132,  ..., -0.0296, -0.0319, -0.0182],
+        [ 0.0022,  0.0009,  0.0008,  ...,  0.0007,  0.0009,  0.0003],
+        [ 0.0093,  0.0038,  0.0029,  ...,  0.0035,  0.0037,  0.0015]],
+       device='cuda:0')
+Epoch 2, bias, value: tensor([ 0.0223, -0.0412,  0.0160,  0.0010, -0.0315, -0.0111, -0.0078],
+       device='cuda:0'), grad: tensor([ 0.0703, -0.1248,  0.1506,  0.0073, -0.1256,  0.0045,  0.0179],
+       device='cuda:0')
+588
+0.009994965332706574
+changing lr
+epoch 1, time 809.10, cls_loss 0.4617 cls_loss_mapping 0.4263 cls_loss_causal 0.9589 re_mapping 0.1513 re_causal 0.1502 /// teacc 88.19 lr 0.00997987
+Epoch 3, weight, value: tensor([[ 0.0374,  0.0336,  0.0153,  ..., -0.0153,  0.0121,  0.0212],
+        [ 0.1326,  0.1125,  0.1122,  ...,  0.0110,  0.0471, -0.0039],
+        [-0.0436, -0.0082, -0.0215,  ...,  0.0594, -0.0332, -0.0368],
+        ...,
+        [-0.2278, -0.2008, -0.1594,  ..., -0.0599, -0.0608, -0.0481],
+        [ 0.0728,  0.0582,  0.0606,  ..., -0.0825, -0.0813, -0.0692],
+        [ 0.0367,  0.0372,  0.0073,  ..., -0.0445, -0.0583, -0.0650]],
+       device='cuda:0'), grad: tensor([[-7.2205e-02, -3.7048e-02, -3.1311e-02,  ..., -1.5083e-02,
+         -1.8860e-02, -4.5586e-03],
+        [ 8.9645e-03,  4.3182e-03,  3.5610e-03,  ...,  2.2392e-03,
+          2.7790e-03,  8.6832e-04],
+        [ 4.4678e-02,  2.2171e-02,  1.8524e-02,  ...,  9.2163e-03,
+          1.1383e-02,  2.1915e-03],
+        ...,
+        [-1.4412e-04,  3.1638e-04,  3.5477e-04,  ..., -6.8426e-04,
+         -5.4550e-04, -2.6441e-04],
+        [ 7.5293e-04,  4.0007e-04,  3.4285e-04,  ...,  1.7250e-04,
+          2.0862e-04,  6.3419e-05],
+        [ 1.7838e-02,  9.7885e-03,  8.4763e-03,  ...,  4.1122e-03,
+          4.9934e-03,  1.6909e-03]], device='cuda:0')
+Epoch 3, bias, value: tensor([ 4.7692e-02, -4.4820e-02,  2.5071e-02, -1.7779e-02, -4.6590e-02,
+        -1.4485e-02,  9.4553e-05], device='cuda:0'), grad: tensor([-0.1166,  0.0151,  0.0788,  0.0002, -0.0057,  0.0012,  0.0270],
+       device='cuda:0')
+588
+0.009979871469976196
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 819.17, cls_loss 0.2384 cls_loss_mapping 0.2554 cls_loss_causal 0.8052 re_mapping 0.1263 re_causal 0.1254 /// teacc 90.95 lr 0.00995475
+Epoch 4, weight, value: tensor([[ 2.3914e-02,  1.7423e-02,  2.3611e-05,  ..., -2.0097e-02,
+          4.0477e-03,  1.4629e-02],
+        [ 1.5017e-01,  1.2756e-01,  1.3364e-01,  ...,  1.6704e-02,
+          5.4068e-02,  1.6719e-04],
+        [-3.8385e-02,  6.9206e-04, -1.9445e-02,  ...,  6.0124e-02,
+         -3.2518e-02, -3.5526e-02],
+        ...,
+        [-2.3188e-01, -2.0394e-01, -1.6261e-01,  ..., -5.9298e-02,
+         -5.5593e-02, -4.3940e-02],
+        [ 7.8376e-02,  6.4828e-02,  6.7242e-02,  ..., -8.2141e-02,
+         -8.0966e-02, -6.8868e-02],
+        [ 2.1796e-02,  2.4490e-02, -4.5566e-03,  ..., -4.4282e-02,
+         -5.8299e-02, -6.2113e-02]], device='cuda:0'), grad: tensor([[-1.9485e-02, -6.6414e-03, -3.0365e-03,  ..., -6.1798e-03,
+         -7.8735e-03, -2.9888e-03],
+        [ 1.1212e-04,  4.4852e-05,  3.2037e-05,  ...,  2.9609e-05,
+          3.7521e-05,  1.2636e-05],
+        [ 1.3199e-03,  4.6492e-04,  2.3878e-04,  ...,  4.0650e-04,
+          5.1689e-04,  1.9372e-04],
+        ...,
+        [ 1.7944e-02,  6.0883e-03,  2.7409e-03,  ...,  5.7144e-03,
+          7.2823e-03,  2.7733e-03],
+        [ 4.2200e-05,  1.6168e-05,  1.0513e-05,  ...,  1.1429e-05,
+          1.4611e-05,  4.8801e-06],
+        [ 7.7784e-05,  2.8223e-05,  1.5914e-05,  ...,  2.2814e-05,
+          2.9117e-05,  1.0431e-05]], device='cuda:0')
+Epoch 4, bias, value: tensor([ 0.0531, -0.0229,  0.0154, -0.0239, -0.0399, -0.0182, -0.0129],
+       device='cuda:0'), grad: tensor([-6.4819e-02,  3.2425e-04,  4.2763e-03, -1.3851e-05,  5.9845e-02,
+         1.2803e-04,  2.4629e-04], device='cuda:0')
+588
+0.009954748808839675
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 808.94, cls_loss 0.1500 cls_loss_mapping 0.1864 cls_loss_causal 0.7034 re_mapping 0.1136 re_causal 0.1134 /// teacc 93.47 lr 0.00991965
+Epoch 5, weight, value: tensor([[ 0.0188,  0.0105, -0.0057,  ..., -0.0278, -0.0015,  0.0093],
+        [ 0.1495,  0.1269,  0.1350,  ...,  0.0299,  0.0667,  0.0153],
+        [-0.0347,  0.0051, -0.0172,  ...,  0.0501, -0.0430, -0.0460],
+        ...,
+        [-0.2208, -0.1944, -0.1542,  ..., -0.0589, -0.0549, -0.0461],
+        [ 0.0794,  0.0660,  0.0684,  ..., -0.0808, -0.0798, -0.0679],
+        [ 0.0162,  0.0190, -0.0100,  ..., -0.0412, -0.0544, -0.0580]],
+       device='cuda:0'), grad: tensor([[ 1.2749e-02,  3.0422e-03,  2.0084e-03,  ...,  2.7275e-03,
+          3.3913e-03,  8.3208e-04],
+        [-2.3913e-04, -1.3161e-04, -1.2255e-04,  ..., -6.4135e-05,
+         -9.7990e-05, -4.3809e-05],
+        [-2.1408e-02, -5.0278e-03, -3.2864e-03,  ..., -4.8409e-03,
+         -5.8441e-03, -1.5459e-03],
+        ...,
+        [ 7.4730e-03,  1.7834e-03,  1.1845e-03,  ...,  1.8549e-03,
+          2.1610e-03,  6.5374e-04],
+        [ 4.3184e-05,  1.0252e-05,  6.7651e-06,  ...,  1.0185e-05,
+          1.2122e-05,  3.4347e-06],
+        [ 5.1641e-04,  1.2231e-04,  8.0585e-05,  ...,  1.2207e-04,
+          1.4496e-04,  4.0978e-05]], device='cuda:0')
+Epoch 5, bias, value: tensor([ 0.0825, -0.0272,  0.0036, -0.0285, -0.0435, -0.0181, -0.0168],
+       device='cuda:0'), grad: tensor([ 0.0302, -0.0004, -0.0510,  0.0021,  0.0178,  0.0001,  0.0012],
+       device='cuda:0')
+588
+0.009919647942993149
+changing lr
+epoch 4, time 805.65, cls_loss 0.0722 cls_loss_mapping 0.1349 cls_loss_causal 0.6775 re_mapping 0.1022 re_causal 0.1034 /// teacc 90.20 lr 0.00987464
+Epoch 6, weight, value: tensor([[ 0.0071,  0.0063, -0.0117,  ..., -0.0382, -0.0103,  0.0014],
+        [ 0.1518,  0.1273,  0.1372,  ...,  0.0340,  0.0694,  0.0187],
+        [-0.0304,  0.0086, -0.0136,  ...,  0.0449, -0.0471, -0.0497],
+        ...,
+        [-0.2125, -0.1907, -0.1513,  ..., -0.0516, -0.0474, -0.0397],
+        [ 0.0822,  0.0671,  0.0696,  ..., -0.0780, -0.0770, -0.0660],
+        [ 0.0109,  0.0151, -0.0130,  ..., -0.0400, -0.0531, -0.0564]],
+       device='cuda:0'), grad: tensor([[ 1.6844e-04,  6.3121e-05,  5.6148e-05,  ...,  7.8797e-05,
+          9.7275e-05,  6.6578e-05],
+        [ 2.5558e-04,  9.1672e-05,  8.6427e-05,  ...,  1.2231e-04,
+          1.4436e-04,  9.9599e-05],
+        [ 2.4629e-04,  7.1466e-05,  5.9009e-05,  ...,  1.0926e-04,
+          1.3542e-04,  8.5950e-05],
+        ...,
+        [ 2.5223e-02,  1.5640e-02,  1.5762e-02,  ...,  2.1896e-03,
+          3.9005e-03,  1.2598e-03],
+        [-2.5497e-02, -1.5732e-02, -1.5839e-02,  ..., -2.2888e-03,
+         -4.0321e-03, -1.3399e-03],
+        [ 5.3853e-05,  3.2634e-05,  3.2604e-05,  ...,  5.4985e-06,
+          9.3058e-06,  3.4086e-06]], device='cuda:0')
+Epoch 6, bias, value: tensor([ 0.0796, -0.0215, -0.0036, -0.0284, -0.0370, -0.0128, -0.0229],
+       device='cuda:0'), grad: tensor([ 3.9530e-04,  5.1022e-04,  5.8365e-04, -8.7500e-04,  3.3142e-02,
+        -3.3813e-02,  7.3552e-05], device='cuda:0')
+588
+0.009874639560909117
+changing lr
+---------------------saving model at epoch 5----------------------------------------------------
+epoch 5, time 813.80, cls_loss 0.0653 cls_loss_mapping 0.1244 cls_loss_causal 0.6754 re_mapping 0.0913 re_causal 0.0938 /// teacc 93.97 lr 0.00981981
+Epoch 7, weight, value: tensor([[ 0.0104,  0.0045, -0.0106,  ..., -0.0408, -0.0129, -0.0022],
+        [ 0.1579,  0.1333,  0.1431,  ...,  0.0348,  0.0698,  0.0198],
+        [-0.0246,  0.0116, -0.0116,  ...,  0.0426, -0.0467, -0.0503],
+        ...,
+        [-0.2251, -0.1973, -0.1592,  ..., -0.0500, -0.0469, -0.0376],
+        [ 0.0798,  0.0667,  0.0695,  ..., -0.0774, -0.0766, -0.0652],
+        [ 0.0125,  0.0150, -0.0132,  ..., -0.0366, -0.0490, -0.0527]],
+       device='cuda:0'), grad: tensor([[ 1.0066e-05,  2.3078e-06,  1.3858e-06,  ...,  3.1982e-06,
+          3.6526e-06,  2.0694e-06],
+        [ 4.5681e-07,  8.8417e-08,  3.5332e-08,  ...,  2.4727e-07,
+          2.4959e-07,  1.6519e-07],
+        [-9.2909e-06, -1.6792e-06, -4.9546e-07,  ..., -5.9456e-06,
+         -5.8748e-06, -4.0084e-06],
+        ...,
+        [-1.5065e-05, -3.9525e-06, -2.8554e-06,  ..., -2.3562e-06,
+         -3.5055e-06, -1.4333e-06],
+        [ 3.3323e-06,  7.9535e-07,  5.0478e-07,  ...,  9.4110e-07,
+          1.1176e-06,  6.0676e-07],
+        [ 4.7944e-06,  9.2946e-07,  3.8696e-07,  ...,  2.4196e-06,
+          2.4699e-06,  1.6037e-06]], device='cuda:0')
+Epoch 7, bias, value: tensor([ 0.0890, -0.0162,  0.0047, -0.0319, -0.0528, -0.0201, -0.0180],
+       device='cuda:0'), grad: tensor([ 2.6599e-05,  1.2740e-06, -2.6271e-05,  1.4260e-05, -3.7849e-05,
+         8.6799e-06,  1.3329e-05], device='cuda:0')
+588
+0.009819814303479266
+changing lr
+epoch 6, time 812.09, cls_loss 0.0307 cls_loss_mapping 0.0812 cls_loss_causal 0.5995 re_mapping 0.0785 re_causal 0.0824 /// teacc 92.71 lr 0.00975528
+Epoch 8, weight, value: tensor([[ 0.0127,  0.0034, -0.0106,  ..., -0.0405, -0.0141, -0.0039],
+        [ 0.1536,  0.1332,  0.1425,  ...,  0.0343,  0.0684,  0.0203],
+        [-0.0288,  0.0108, -0.0115,  ...,  0.0391, -0.0494, -0.0518],
+        ...,
+        [-0.2214, -0.1958, -0.1590,  ..., -0.0483, -0.0433, -0.0352],
+        [ 0.0805,  0.0673,  0.0701,  ..., -0.0757, -0.0748, -0.0638],
+        [ 0.0139,  0.0146, -0.0132,  ..., -0.0352, -0.0470, -0.0508]],
+       device='cuda:0'), grad: tensor([[-1.3443e-02, -6.8169e-03, -6.4392e-03,  ..., -1.0672e-03,
+         -2.3251e-03, -8.5783e-04],
+        [ 2.0170e-04,  1.8597e-04,  2.0158e-04,  ..., -1.1605e-04,
+         -1.0914e-04, -1.1718e-04],
+        [ 4.3511e-04,  2.2054e-04,  2.0814e-04,  ...,  3.4660e-05,
+          7.5638e-05,  2.8193e-05],
+        ...,
+        [ 8.9417e-03,  4.4861e-03,  4.2343e-03,  ...,  7.9966e-04,
+          1.6460e-03,  6.6185e-04],
+        [ 1.1396e-03,  5.7745e-04,  5.4502e-04,  ...,  9.1195e-05,
+          1.9777e-04,  7.3433e-05],
+        [ 1.6651e-03,  8.0442e-04,  7.4100e-04,  ...,  1.7059e-04,
+          3.2830e-04,  1.4222e-04]], device='cuda:0')
+Epoch 8, bias, value: tensor([ 0.1044, -0.0274, -0.0122, -0.0314, -0.0455, -0.0186, -0.0132],
+       device='cuda:0'), grad: tensor([-2.4597e-02,  6.9499e-05,  7.9584e-04,  1.9398e-03,  1.6541e-02,
+         2.0866e-03,  3.1509e-03], device='cuda:0')
+588
+0.009755282581475767
+changing lr
+epoch 7, time 814.98, cls_loss 0.0132 cls_loss_mapping 0.0693 cls_loss_causal 0.5673 re_mapping 0.0686 re_causal 0.0728 /// teacc 92.21 lr 0.00968117
+Epoch 9, weight, value: tensor([[ 0.0080, -0.0007, -0.0142,  ..., -0.0441, -0.0184, -0.0078],
+        [ 0.1547,  0.1333,  0.1427,  ...,  0.0352,  0.0687,  0.0214],
+        [-0.0251,  0.0118, -0.0103,  ...,  0.0396, -0.0470, -0.0497],
+        ...,
+        [-0.2181, -0.1907, -0.1550,  ..., -0.0476, -0.0422, -0.0343],
+        [ 0.0767,  0.0654,  0.0683,  ..., -0.0739, -0.0732, -0.0622],
+        [ 0.0134,  0.0138, -0.0135,  ..., -0.0342, -0.0455, -0.0491]],
+       device='cuda:0'), grad: tensor([[ 9.1195e-05,  2.8476e-05,  2.9236e-05,  ...,  2.8074e-05,
+          3.5614e-05,  2.3827e-05],
+        [-8.3590e-04, -2.3961e-04, -2.0730e-04,  ..., -1.6642e-04,
+         -2.6011e-04, -1.3995e-04],
+        [ 1.2390e-05,  4.2841e-06,  3.1684e-06,  ...,  1.8124e-06,
+          3.4496e-06,  1.6969e-06],
+        ...,
+        [ 6.2847e-04,  1.7476e-04,  1.4925e-04,  ...,  1.1909e-04,
+          1.9109e-04,  9.9301e-05],
+        [ 8.8587e-06,  2.9225e-06,  2.1495e-06,  ...,  1.1316e-06,
+          2.3004e-06,  1.0263e-06],
+        [ 8.4341e-05,  2.5898e-05,  2.1040e-05,  ...,  1.4685e-05,
+          2.4751e-05,  1.2688e-05]], device='cuda:0')
+Epoch 9, bias, value: tensor([ 0.1013, -0.0205, -0.0022, -0.0294, -0.0544, -0.0241, -0.0136],
+       device='cuda:0'), grad: tensor([ 2.2781e-04, -2.1687e-03,  3.0115e-05,  2.3350e-05,  1.6489e-03,
+         2.1905e-05,  2.1386e-04], device='cuda:0')
+588
+0.009681174353198686
+changing lr
+epoch 8, time 816.37, cls_loss 0.0092 cls_loss_mapping 0.0613 cls_loss_causal 0.5815 re_mapping 0.0579 re_causal 0.0642 /// teacc 93.97 lr 0.00959764
+Epoch 10, weight, value: tensor([[ 0.0133,  0.0022, -0.0108,  ..., -0.0428, -0.0173, -0.0076],
+        [ 0.1480,  0.1281,  0.1378,  ...,  0.0343,  0.0673,  0.0212],
+        [-0.0275,  0.0091, -0.0131,  ...,  0.0375, -0.0477, -0.0500],
+        ...,
+        [-0.2107, -0.1854, -0.1510,  ..., -0.0465, -0.0409, -0.0335],
+        [ 0.0774,  0.0661,  0.0690,  ..., -0.0721, -0.0713, -0.0607],
+        [ 0.0099,  0.0119, -0.0144,  ..., -0.0337, -0.0448, -0.0480]],
+       device='cuda:0'), grad: tensor([[-4.9949e-05, -1.1018e-06,  4.9993e-06,  ...,  3.6806e-05,
+          2.6807e-05,  3.2783e-05],
+        [-1.1930e-06, -1.8505e-06, -2.6915e-06,  ...,  1.1682e-07,
+         -8.9349e-08, -3.8213e-08],
+        [ 3.1143e-05,  1.1757e-05,  6.8657e-06,  ...,  1.4164e-05,
+          1.6630e-05,  1.3299e-05],
+        ...,
+        [ 1.3757e-04,  4.0442e-05,  2.1636e-05,  ...,  1.8016e-05,
+          3.2961e-05,  1.8105e-05],
+        [ 2.0191e-05,  7.9200e-06,  4.9807e-06,  ...,  9.3505e-06,
+          1.0826e-05,  8.7321e-06],
+        [ 1.0514e-04,  4.1962e-05,  2.6569e-05,  ...,  5.0992e-05,
+          5.8472e-05,  4.7594e-05]], device='cuda:0')
+Epoch 10, bias, value: tensor([ 0.1093, -0.0230, -0.0050, -0.0321, -0.0473, -0.0235, -0.0200],
+       device='cuda:0'), grad: tensor([-1.6391e-04,  1.1763e-06,  6.4373e-05, -4.7874e-04,  3.2496e-04,
+         4.0889e-05,  2.1052e-04], device='cuda:0')
+588
+0.009597638862757255
+changing lr
+epoch 9, time 812.26, cls_loss 0.0096 cls_loss_mapping 0.0534 cls_loss_causal 0.5578 re_mapping 0.0512 re_causal 0.0595 /// teacc 93.22 lr 0.00950484
+Epoch 11, weight, value: tensor([[ 0.0124,  0.0020, -0.0107,  ..., -0.0437, -0.0185, -0.0090],
+        [ 0.1450,  0.1262,  0.1356,  ...,  0.0347,  0.0667,  0.0218],
+        [-0.0276,  0.0082, -0.0135,  ...,  0.0356, -0.0477, -0.0500],
+        ...,
+        [-0.2059, -0.1814, -0.1478,  ..., -0.0449, -0.0393, -0.0322],
+        [ 0.0758,  0.0652,  0.0680,  ..., -0.0705, -0.0698, -0.0594],
+        [ 0.0116,  0.0121, -0.0137,  ..., -0.0323, -0.0430, -0.0461]],
+       device='cuda:0'), grad: tensor([[-2.7561e-03, -8.3208e-04, -6.4850e-04,  ..., -2.1684e-04,
+         -4.5037e-04, -2.1005e-04],
+        [ 2.1839e-03,  6.4898e-04,  4.9543e-04,  ...,  1.8299e-04,
+          3.6812e-04,  1.7524e-04],
+        [ 9.0241e-05,  3.0845e-05,  2.6524e-05,  ...,  2.4557e-05,
+          3.0398e-05,  2.3350e-05],
+        ...,
+        [ 4.2629e-04,  1.3363e-04,  1.0788e-04,  ...,  7.7248e-05,
+          1.1194e-04,  7.5221e-05],
+        [ 3.5673e-05,  1.0893e-05,  8.9034e-06,  ...,  6.0908e-06,
+          8.8811e-06,  5.8748e-06],
+        [ 4.0531e-05,  1.7360e-05,  1.4648e-05,  ..., -2.8476e-05,
+         -2.7448e-05, -2.9370e-05]], device='cuda:0')
+Epoch 11, bias, value: tensor([ 0.1074, -0.0245, -0.0055, -0.0332, -0.0434, -0.0247, -0.0164],
+       device='cuda:0'), grad: tensor([-6.9351e-03,  5.5237e-03,  2.1279e-04, -2.8417e-05,  1.0538e-03,
+         8.9347e-05,  8.2135e-05], device='cuda:0')
+588
+0.009504844339512096
+changing lr
+epoch 10, time 804.55, cls_loss 0.0051 cls_loss_mapping 0.0459 cls_loss_causal 0.5575 re_mapping 0.0431 re_causal 0.0519 /// teacc 92.21 lr 0.00940298
+Epoch 12, weight, value: tensor([[ 1.1326e-02, -3.3988e-05, -1.2386e-02,  ..., -4.4997e-02,
+         -1.9908e-02, -1.0624e-02],
+        [ 1.4470e-01,  1.2668e-01,  1.3603e-01,  ...,  3.4868e-02,
+          6.5995e-02,  2.2190e-02],
+        [-2.8700e-02,  7.2177e-03, -1.3868e-02,  ...,  3.2520e-02,
+         -4.8740e-02, -5.0918e-02],
+        ...,
+        [-2.0168e-01, -1.7785e-01, -1.4550e-01,  ..., -4.2013e-02,
+         -3.6800e-02, -2.9870e-02],
+        [ 7.8140e-02,  6.5887e-02,  6.8624e-02,  ..., -6.8627e-02,
+         -6.7746e-02, -5.7872e-02],
+        [ 6.8028e-03,  9.5705e-03, -1.5459e-02,  ..., -3.1929e-02,
+         -4.2605e-02, -4.5252e-02]], device='cuda:0'), grad: tensor([[ 2.9159e-04,  1.0097e-04,  1.1218e-04,  ...,  2.7463e-05,
+          5.2243e-05,  2.4021e-05],
+        [ 8.9779e-06,  3.0007e-06,  3.1125e-06,  ...,  1.0412e-06,
+          1.8533e-06,  9.9186e-07],
+        [ 3.5405e-05,  1.0982e-05,  1.0155e-05,  ...,  1.5512e-05,
+          1.8626e-05,  1.5408e-05],
+        ...,
+        [ 2.2590e-04,  7.9036e-05,  8.6963e-05,  ...,  1.9073e-05,
+          3.8207e-05,  1.6332e-05],
+        [ 1.9531e-03,  6.7520e-04,  7.4434e-04,  ...,  1.7726e-04,
+          3.4451e-04,  1.5557e-04],
+        [-2.5368e-03, -8.7786e-04, -9.6750e-04,  ..., -2.2984e-04,
+         -4.4703e-04, -2.0158e-04]], device='cuda:0')
+Epoch 12, bias, value: tensor([ 0.1107, -0.0229, -0.0100, -0.0324, -0.0425, -0.0176, -0.0246],
+       device='cuda:0'), grad: tensor([ 6.3276e-04,  1.9670e-05,  8.2254e-05,  5.1916e-05,  4.7827e-04,
+         4.2267e-03, -5.4893e-03], device='cuda:0')
+588
+0.009402977659283692
+changing lr
+epoch 11, time 812.39, cls_loss 0.0067 cls_loss_mapping 0.0428 cls_loss_causal 0.5328 re_mapping 0.0369 re_causal 0.0465 /// teacc 92.46 lr 0.00929224
+Epoch 13, weight, value: tensor([[ 0.0131,  0.0024, -0.0097,  ..., -0.0447, -0.0201, -0.0107],
+        [ 0.1443,  0.1244,  0.1338,  ...,  0.0346,  0.0653,  0.0221],
+        [-0.0249,  0.0082, -0.0125,  ...,  0.0317, -0.0477, -0.0502],
+        ...,
+        [-0.2010, -0.1758, -0.1445,  ..., -0.0414, -0.0362, -0.0292],
+        [ 0.0728,  0.0634,  0.0662,  ..., -0.0676, -0.0670, -0.0571],
+        [ 0.0068,  0.0087, -0.0157,  ..., -0.0311, -0.0413, -0.0440]],
+       device='cuda:0'), grad: tensor([[-1.4567e-04, -7.7665e-05, -7.3195e-05,  ..., -3.6675e-06,
+         -1.4439e-05, -8.3074e-06],
+        [ 5.1796e-05,  2.0802e-05,  1.9312e-05,  ...,  1.7017e-05,
+          2.2247e-05,  1.7881e-05],
+        [ 1.1510e-04,  5.7817e-05,  5.4270e-05,  ...,  8.1435e-06,
+          1.7032e-05,  1.1481e-05],
+        ...,
+        [ 1.7462e-07,  2.3581e-06,  2.3767e-06,  ...,  3.5949e-07,
+          4.6054e-07,  5.1875e-07],
+        [ 1.3754e-05,  6.1058e-06,  5.6550e-06,  ...,  2.3339e-06,
+          3.4291e-06,  2.6431e-06],
+        [ 1.0945e-05,  4.2133e-06,  3.8669e-06,  ...,  3.5521e-06,
+          4.5747e-06,  3.7216e-06]], device='cuda:0')
+Epoch 13, bias, value: tensor([ 0.1092, -0.0145, -0.0040, -0.0327, -0.0478, -0.0267, -0.0217],
+       device='cuda:0'), grad: tensor([-2.6274e-04,  1.1069e-04,  2.1839e-04, -1.1033e-04, -9.0003e-06,
+         2.8297e-05,  2.4036e-05], device='cuda:0')
+588
+0.009292243968009333
+changing lr
+---------------------saving model at epoch 12----------------------------------------------------
+epoch 12, time 821.89, cls_loss 0.0033 cls_loss_mapping 0.0380 cls_loss_causal 0.5287 re_mapping 0.0315 re_causal 0.0433 /// teacc 94.47 lr 0.00917287
+Epoch 14, weight, value: tensor([[ 0.0131,  0.0020, -0.0098,  ..., -0.0433, -0.0189, -0.0099],
+        [ 0.1395,  0.1213,  0.1308,  ...,  0.0330,  0.0625,  0.0208],
+        [-0.0241,  0.0078, -0.0127,  ...,  0.0305, -0.0472, -0.0496],
+        ...,
+        [-0.1957, -0.1712, -0.1408,  ..., -0.0407, -0.0353, -0.0288],
+        [ 0.0726,  0.0635,  0.0662,  ..., -0.0660, -0.0654, -0.0558],
+        [ 0.0052,  0.0074, -0.0163,  ..., -0.0305, -0.0404, -0.0429]],
+       device='cuda:0'), grad: tensor([[-1.9133e-05, -7.4245e-06, -6.1281e-06,  ...,  2.1104e-06,
+         -1.8824e-07,  1.5274e-06],
+        [ 9.7305e-06,  3.4664e-06,  2.6803e-06,  ...,  1.8636e-06,
+          2.8163e-06,  1.9986e-06],
+        [-7.3910e-06, -2.7902e-06, -2.0415e-06,  ..., -2.4331e-07,
+         -9.7230e-07, -5.4995e-07],
+        ...,
+        [ 1.8224e-05,  6.9141e-06,  5.5917e-06,  ...,  3.2131e-06,
+          4.9472e-06,  3.4794e-06],
+        [ 1.7146e-06,  6.4215e-07,  4.9407e-07,  ...,  3.9069e-07,
+          5.3877e-07,  4.2282e-07],
+        [ 2.1737e-06,  8.3447e-07,  6.4773e-07,  ...,  4.6520e-07,
+          6.5379e-07,  5.1316e-07]], device='cuda:0')
+Epoch 14, bias, value: tensor([ 0.1105, -0.0183, -0.0033, -0.0310, -0.0456, -0.0262, -0.0232],
+       device='cuda:0'), grad: tensor([-4.3929e-05,  2.2978e-05, -1.6496e-05, -1.2457e-05,  4.1246e-05,
+         3.8594e-06,  4.8019e-06], device='cuda:0')
+588
+0.009172866268606516
+changing lr
+epoch 13, time 815.04, cls_loss 0.0037 cls_loss_mapping 0.0315 cls_loss_causal 0.5131 re_mapping 0.0270 re_causal 0.0389 /// teacc 93.22 lr 0.00904508
+Epoch 15, weight, value: tensor([[ 0.0117,  0.0013, -0.0102,  ..., -0.0446, -0.0205, -0.0117],
+        [ 0.1365,  0.1190,  0.1284,  ...,  0.0334,  0.0619,  0.0213],
+        [-0.0210,  0.0083, -0.0115,  ...,  0.0301, -0.0459, -0.0484],
+        ...,
+        [-0.1931, -0.1683, -0.1390,  ..., -0.0399, -0.0346, -0.0283],
+        [ 0.0720,  0.0632,  0.0659,  ..., -0.0646, -0.0641, -0.0546],
+        [ 0.0057,  0.0068, -0.0163,  ..., -0.0295, -0.0391, -0.0416]],
+       device='cuda:0'), grad: tensor([[-1.2617e-03, -6.6090e-04, -6.2895e-04,  ..., -6.4135e-05,
+         -1.2767e-04, -6.4611e-05],
+        [ 7.2289e-04,  3.6144e-04,  3.3951e-04,  ...,  6.6936e-05,
+          1.0645e-04,  6.7055e-05],
+        [ 1.0128e-03,  3.7742e-04,  3.2377e-04,  ...,  3.1447e-04,
+          3.6430e-04,  3.1161e-04],
+        ...,
+        [-3.1471e-04, -5.4777e-05, -3.6567e-05,  ..., -1.0610e-04,
+         -1.3196e-04, -1.1092e-04],
+        [ 1.0860e-04,  4.4703e-05,  4.0799e-05,  ...,  1.9014e-05,
+          2.4036e-05,  1.8835e-05],
+        [ 1.8466e-04,  7.6771e-05,  6.9797e-05,  ...,  3.3498e-05,
+          4.2856e-05,  3.3200e-05]], device='cuda:0')
+Epoch 15, bias, value: tensor([ 0.1081, -0.0188,  0.0032, -0.0363, -0.0463, -0.0260, -0.0201],
+       device='cuda:0'), grad: tensor([-0.0023,  0.0013,  0.0023, -0.0010, -0.0010,  0.0003,  0.0004],
+       device='cuda:0')
+588
+0.00904508497187474
+changing lr
+epoch 14, time 814.32, cls_loss 0.0047 cls_loss_mapping 0.0336 cls_loss_causal 0.5060 re_mapping 0.0238 re_causal 0.0368 /// teacc 93.22 lr 0.00890916
+Epoch 16, weight, value: tensor([[ 0.0131,  0.0019, -0.0093,  ..., -0.0466, -0.0230, -0.0143],
+        [ 0.1360,  0.1178,  0.1270,  ...,  0.0328,  0.0608,  0.0210],
+        [-0.0218,  0.0075, -0.0119,  ...,  0.0296, -0.0448, -0.0471],
+        ...,
+        [-0.1895, -0.1651, -0.1366,  ..., -0.0374, -0.0319, -0.0260],
+        [ 0.0707,  0.0623,  0.0650,  ..., -0.0633, -0.0627, -0.0535],
+        [ 0.0033,  0.0056, -0.0169,  ..., -0.0295, -0.0389, -0.0412]],
+       device='cuda:0'), grad: tensor([[-1.2796e-06, -4.5029e-07, -4.5332e-07,  ..., -3.8114e-07,
+         -5.0524e-07, -4.0932e-07],
+        [ 1.6410e-06,  3.3271e-07,  3.0897e-07,  ...,  6.2026e-07,
+          6.2352e-07,  5.3598e-07],
+        [-2.5466e-05, -5.4613e-06, -4.8988e-06,  ..., -9.7901e-06,
+         -9.0599e-06, -8.2701e-06],
+        ...,
+        [ 8.9481e-06,  1.7574e-06,  1.5246e-06,  ...,  3.7197e-06,
+          3.3975e-06,  3.0175e-06],
+        [ 1.9241e-06,  5.4576e-07,  5.2340e-07,  ...,  5.7509e-07,
+          5.6997e-07,  5.6624e-07],
+        [ 1.5879e-06,  3.9791e-07,  3.6787e-07,  ...,  5.6298e-07,
+          5.4063e-07,  4.9965e-07]], device='cuda:0')
+Epoch 16, bias, value: tensor([ 0.1100, -0.0148,  0.0004, -0.0354, -0.0448, -0.0265, -0.0241],
+       device='cuda:0'), grad: tensor([-2.8554e-06,  4.6715e-06, -7.2241e-05,  3.5435e-05,  2.5317e-05,
+         5.2936e-06,  4.3511e-06], device='cuda:0')
+588
+0.008909157412340152
+changing lr
+---------------------saving model at epoch 15----------------------------------------------------
+epoch 15, time 817.34, cls_loss 0.0021 cls_loss_mapping 0.0269 cls_loss_causal 0.5049 re_mapping 0.0222 re_causal 0.0359 /// teacc 94.72 lr 0.00876536
+Epoch 17, weight, value: tensor([[ 0.0123,  0.0015, -0.0093,  ..., -0.0468, -0.0242, -0.0155],
+        [ 0.1331,  0.1158,  0.1251,  ...,  0.0330,  0.0606,  0.0216],
+        [-0.0206,  0.0073, -0.0119,  ...,  0.0293, -0.0433, -0.0457],
+        ...,
+        [-0.1855, -0.1617, -0.1343,  ..., -0.0375, -0.0320, -0.0263],
+        [ 0.0696,  0.0617,  0.0643,  ..., -0.0621, -0.0615, -0.0525],
+        [ 0.0036,  0.0052, -0.0166,  ..., -0.0287, -0.0379, -0.0401]],
+       device='cuda:0'), grad: tensor([[-2.5034e-04, -6.7890e-05, -5.7906e-05,  ..., -9.6023e-05,
+         -1.0204e-04, -1.0771e-04],
+        [ 8.9645e-05,  2.2292e-05,  1.8895e-05,  ...,  3.6329e-05,
+          3.9786e-05,  3.9548e-05],
+        [ 1.2863e-04,  1.9044e-05,  1.4372e-05,  ...,  7.5698e-05,
+          8.7678e-05,  7.7426e-05],
+        ...,
+        [-1.1623e-04, -5.2899e-06, -1.5572e-06,  ..., -8.6248e-05,
+         -1.0395e-04, -8.3864e-05],
+        [ 3.5733e-05,  8.0094e-06,  6.6645e-06,  ...,  1.6212e-05,
+          1.8016e-05,  1.7360e-05],
+        [ 3.4243e-05,  6.0201e-06,  4.7460e-06,  ...,  1.8418e-05,
+          2.1219e-05,  1.8895e-05]], device='cuda:0')
+Epoch 17, bias, value: tensor([ 0.1079, -0.0168,  0.0023, -0.0369, -0.0423, -0.0266, -0.0218],
+       device='cuda:0'), grad: tensor([-0.0007,  0.0003,  0.0004,  0.0002, -0.0004,  0.0001,  0.0001],
+       device='cuda:0')
+588
+0.00876535733001806
+changing lr
+epoch 16, time 813.77, cls_loss 0.0025 cls_loss_mapping 0.0278 cls_loss_causal 0.4794 re_mapping 0.0191 re_causal 0.0333 /// teacc 94.22 lr 0.00861397
+Epoch 18, weight, value: tensor([[ 0.0145,  0.0028, -0.0078,  ..., -0.0464, -0.0243, -0.0157],
+        [ 0.1308,  0.1140,  0.1232,  ...,  0.0328,  0.0599,  0.0218],
+        [-0.0221,  0.0062, -0.0126,  ...,  0.0276, -0.0436, -0.0458],
+        ...,
+        [-0.1820, -0.1590, -0.1325,  ..., -0.0372, -0.0318, -0.0263],
+        [ 0.0687,  0.0610,  0.0636,  ..., -0.0609, -0.0602, -0.0515],
+        [ 0.0023,  0.0044, -0.0168,  ..., -0.0280, -0.0369, -0.0390]],
+       device='cuda:0'), grad: tensor([[-9.8813e-07,  6.2864e-07,  7.4878e-07,  ...,  4.4378e-07,
+          5.3272e-07,  4.0443e-07],
+        [-1.2302e-04, -5.3257e-05, -5.4359e-05,  ..., -5.6595e-05,
+         -6.3062e-05, -5.8323e-05],
+        [ 7.8380e-05,  3.1978e-05,  3.1918e-05,  ...,  4.1485e-05,
+          4.5091e-05,  4.2289e-05],
+        ...,
+        [ 2.5541e-05,  1.0371e-05,  1.0654e-05,  ...,  9.9912e-06,
+          1.1392e-05,  1.0416e-05],
+        [ 3.7216e-06,  1.5274e-06,  1.5795e-06,  ...,  1.2014e-06,
+          1.4175e-06,  1.2759e-06],
+        [ 1.2681e-05,  5.6811e-06,  5.9605e-06,  ...,  4.3213e-06,
+          5.1111e-06,  4.5709e-06]], device='cuda:0')
+Epoch 18, bias, value: tensor([ 0.1102, -0.0166, -0.0022, -0.0354, -0.0394, -0.0262, -0.0238],
+       device='cuda:0'), grad: tensor([-7.4841e-06, -2.3735e-04,  1.5807e-04,  3.6824e-06,  5.1737e-05,
+         7.5512e-06,  2.3663e-05], device='cuda:0')
+588
+0.008613974319136962
+changing lr
+epoch 17, time 812.93, cls_loss 0.0013 cls_loss_mapping 0.0243 cls_loss_causal 0.4755 re_mapping 0.0163 re_causal 0.0302 /// teacc 91.96 lr 0.00845531
+Epoch 19, weight, value: tensor([[ 0.0142,  0.0029, -0.0074,  ..., -0.0463, -0.0247, -0.0161],
+        [ 0.1295,  0.1130,  0.1220,  ...,  0.0319,  0.0584,  0.0212],
+        [-0.0221,  0.0056, -0.0129,  ...,  0.0264, -0.0432, -0.0455],
+        ...,
+        [-0.1791, -0.1562, -0.1303,  ..., -0.0370, -0.0317, -0.0265],
+        [ 0.0678,  0.0605,  0.0632,  ..., -0.0598, -0.0591, -0.0507],
+        [ 0.0023,  0.0038, -0.0169,  ..., -0.0274, -0.0361, -0.0381]],
+       device='cuda:0'), grad: tensor([[-7.7963e-05, -2.2337e-05, -2.2858e-05,  ..., -6.2324e-06,
+         -9.6336e-06, -4.8466e-06],
+        [ 5.1975e-05,  1.5348e-05,  1.5676e-05,  ...,  7.0520e-06,
+          9.2462e-06,  6.1467e-06],
+        [ 3.4630e-05,  9.9689e-06,  9.8050e-06,  ...,  1.0386e-05,
+          1.1683e-05,  9.7528e-06],
+        ...,
+        [ 8.1584e-06,  2.4121e-06,  2.3153e-06,  ...,  2.8647e-06,
+          3.0566e-06,  2.6859e-06],
+        [-3.5077e-05, -1.8299e-05, -2.0117e-05,  ..., -4.2352e-07,
+         -1.1316e-06, -1.1170e-07],
+        [ 2.7150e-05,  1.2934e-05,  1.4074e-05,  ...,  1.3281e-06,
+          1.9744e-06,  1.0384e-06]], device='cuda:0')
+Epoch 19, bias, value: tensor([ 0.1070, -0.0159, -0.0022, -0.0341, -0.0390, -0.0266, -0.0218],
+       device='cuda:0'), grad: tensor([-2.2924e-04,  1.4663e-04,  9.2745e-05, -2.5347e-05,  2.0683e-05,
+        -5.2929e-05,  4.7624e-05], device='cuda:0')
+588
+0.008455313244934327
+changing lr
+epoch 18, time 805.91, cls_loss 0.0020 cls_loss_mapping 0.0258 cls_loss_causal 0.4733 re_mapping 0.0150 re_causal 0.0290 /// teacc 94.22 lr 0.00828969
+Epoch 20, weight, value: tensor([[ 0.0128,  0.0021, -0.0078,  ..., -0.0461, -0.0249, -0.0164],
+        [ 0.1283,  0.1124,  0.1213,  ...,  0.0310,  0.0570,  0.0206],
+        [-0.0212,  0.0057, -0.0126,  ...,  0.0256, -0.0426, -0.0447],
+        ...,
+        [-0.1752, -0.1534, -0.1282,  ..., -0.0363, -0.0310, -0.0261],
+        [ 0.0672,  0.0600,  0.0627,  ..., -0.0585, -0.0579, -0.0496],
+        [ 0.0011,  0.0029, -0.0173,  ..., -0.0269, -0.0353, -0.0372]],
+       device='cuda:0'), grad: tensor([[ 2.1195e-04,  1.2450e-05,  1.3247e-05,  ...,  2.4125e-05,
+          4.1276e-05,  3.1471e-05],
+        [ 1.1700e-04,  6.7018e-06,  5.6811e-06,  ...,  1.2577e-05,
+          1.9893e-05,  1.6153e-05],
+        [ 4.3893e-04,  9.3997e-05,  8.8334e-05,  ...,  1.6832e-04,
+          1.8847e-04,  1.7107e-04],
+        ...,
+        [ 5.5218e-04,  7.5698e-05,  7.2896e-05,  ...,  6.7770e-05,
+          1.1075e-04,  8.4281e-05],
+        [ 8.9169e-05,  1.0014e-05,  9.7230e-06,  ...,  1.2256e-05,
+          1.7539e-05,  1.4246e-05],
+        [-1.1797e-03, -1.2743e-04, -1.2362e-04,  ..., -1.1522e-04,
+         -2.0528e-04, -1.5259e-04]], device='cuda:0')
+Epoch 20, bias, value: tensor([ 0.1042, -0.0165, -0.0016, -0.0341, -0.0350, -0.0260, -0.0228],
+       device='cuda:0'), grad: tensor([ 0.0006,  0.0004,  0.0011, -0.0005,  0.0016,  0.0003, -0.0035],
+       device='cuda:0')
+588
+0.008289693629698565
+changing lr
+epoch 19, time 816.56, cls_loss 0.0021 cls_loss_mapping 0.0238 cls_loss_causal 0.4691 re_mapping 0.0145 re_causal 0.0290 /// teacc 94.47 lr 0.00811745
+Epoch 21, weight, value: tensor([[ 0.0143,  0.0032, -0.0066,  ..., -0.0453, -0.0244, -0.0162],
+        [ 0.1255,  0.1107,  0.1195,  ...,  0.0301,  0.0555,  0.0200],
+        [-0.0200,  0.0052, -0.0129,  ...,  0.0247, -0.0421, -0.0441],
+        ...,
+        [-0.1732, -0.1509, -0.1264,  ..., -0.0356, -0.0304, -0.0257],
+        [ 0.0664,  0.0596,  0.0623,  ..., -0.0576, -0.0569, -0.0488],
+        [ 0.0004,  0.0021, -0.0176,  ..., -0.0264, -0.0346, -0.0365]],
+       device='cuda:0'), grad: tensor([[-1.1854e-03, -1.8656e-04, -1.4508e-04,  ..., -1.4102e-04,
+         -2.0599e-04, -1.8108e-04],
+        [ 3.9697e-04,  9.6500e-05,  9.4116e-05,  ...,  6.8665e-05,
+          9.0897e-05,  7.7128e-05],
+        [ 2.7990e-04,  6.4671e-05,  5.6386e-05,  ...,  4.7922e-05,
+          6.5446e-05,  5.6118e-05],
+        ...,
+        [-3.6502e-04, -1.5402e-04, -1.5962e-04,  ..., -1.0610e-04,
+         -1.3232e-04, -1.0931e-04],
+        [ 6.6638e-05,  1.8820e-05,  1.8030e-05,  ...,  1.3433e-05,
+          1.7613e-05,  1.4879e-05],
+        [ 1.7428e-04,  3.1561e-05,  3.1948e-05,  ...,  2.4542e-05,
+          3.2187e-05,  2.7284e-05]], device='cuda:0')
+Epoch 21, bias, value: tensor([ 0.1057, -0.0185,  0.0015, -0.0338, -0.0367, -0.0264, -0.0228],
+       device='cuda:0'), grad: tensor([-0.0034,  0.0011,  0.0007,  0.0017, -0.0008,  0.0002,  0.0005],
+       device='cuda:0')
+588
+0.00811744900929367
+changing lr
+epoch 20, time 815.36, cls_loss 0.0015 cls_loss_mapping 0.0195 cls_loss_causal 0.4584 re_mapping 0.0127 re_causal 0.0272 /// teacc 92.71 lr 0.00793893
+Epoch 22, weight, value: tensor([[ 0.0141,  0.0027, -0.0068,  ..., -0.0452, -0.0248, -0.0166],
+        [ 0.1239,  0.1095,  0.1181,  ...,  0.0298,  0.0546,  0.0199],
+        [-0.0203,  0.0050, -0.0128,  ...,  0.0236, -0.0418, -0.0438],
+        ...,
+        [-0.1704, -0.1483, -0.1245,  ..., -0.0348, -0.0297, -0.0251],
+        [ 0.0662,  0.0594,  0.0621,  ..., -0.0566, -0.0559, -0.0480],
+        [ 0.0012,  0.0020, -0.0172,  ..., -0.0255, -0.0334, -0.0352]],
+       device='cuda:0'), grad: tensor([[-2.0504e-04, -9.2208e-05, -8.3685e-05,  ..., -3.1501e-05,
+         -3.6120e-05, -3.0369e-05],
+        [ 1.2171e-04,  5.3257e-05,  4.8339e-05,  ...,  2.0131e-05,
+          2.2858e-05,  1.9446e-05],
+        [ 4.8137e-04,  1.1152e-04,  1.0341e-04,  ...,  2.4819e-04,
+          2.6870e-04,  2.5153e-04],
+        ...,
+        [ 2.3499e-05,  7.1824e-06,  6.6012e-06,  ...,  2.8126e-06,
+          2.9281e-06,  2.4401e-06],
+        [ 3.4451e-04,  8.5175e-05,  7.9572e-05,  ...,  2.6524e-05,
+          2.3186e-05,  1.7449e-05],
+        [-3.0971e-04, -6.4969e-05, -6.1452e-05,  ..., -1.8328e-05,
+         -1.3374e-05, -8.9183e-06]], device='cuda:0')
+Epoch 22, bias, value: tensor([ 0.1063, -0.0186, -0.0005, -0.0356, -0.0367, -0.0256, -0.0197],
+       device='cuda:0'), grad: tensor([-3.6311e-04,  2.2078e-04,  1.2016e-03, -1.1539e-03,  5.1767e-05,
+         8.5449e-04, -8.0919e-04], device='cuda:0')
+588
+0.007938926261462368
+changing lr
+epoch 21, time 809.93, cls_loss 0.0016 cls_loss_mapping 0.0205 cls_loss_causal 0.4553 re_mapping 0.0123 re_causal 0.0261 /// teacc 93.72 lr 0.00775448
+Epoch 23, weight, value: tensor([[ 0.0157,  0.0034, -0.0060,  ..., -0.0452, -0.0251, -0.0172],
+        [ 0.1239,  0.1092,  0.1178,  ...,  0.0297,  0.0542,  0.0201],
+        [-0.0209,  0.0041, -0.0134,  ...,  0.0227, -0.0416, -0.0435],
+        ...,
+        [-0.1688, -0.1466, -0.1234,  ..., -0.0341, -0.0290, -0.0246],
+        [ 0.0657,  0.0593,  0.0621,  ..., -0.0557, -0.0550, -0.0473],
+        [ 0.0003,  0.0011, -0.0176,  ..., -0.0252, -0.0328, -0.0346]],
+       device='cuda:0'), grad: tensor([[ 4.3893e-04,  1.2165e-04,  1.2165e-04,  ...,  2.0576e-04,
+          2.3019e-04,  2.1768e-04],
+        [-1.5450e-04, -8.0645e-05, -8.3208e-05,  ..., -1.7449e-05,
+         -2.4855e-05, -1.6361e-05],
+        [ 2.6569e-05,  9.0227e-06,  8.7842e-06,  ...,  2.4691e-05,
+          2.5779e-05,  2.5824e-05],
+        ...,
+        [ 8.1778e-05,  1.8939e-05,  1.8179e-05,  ...,  4.5180e-05,
+          4.8071e-05,  4.6223e-05],
+        [ 2.2113e-05,  5.7966e-06,  5.7407e-06,  ...,  1.0207e-05,
+          1.1325e-05,  1.0706e-05],
+        [ 2.3261e-05,  9.7826e-06,  9.9614e-06,  ...,  6.7726e-06,
+          8.0466e-06,  7.0259e-06]], device='cuda:0')
+Epoch 23, bias, value: tensor([ 0.1086, -0.0160, -0.0017, -0.0368, -0.0373, -0.0262, -0.0203],
+       device='cuda:0'), grad: tensor([ 1.0376e-03, -2.5964e-04,  4.7088e-05, -1.1330e-03,  2.0909e-04,
+         5.4181e-05,  4.5538e-05], device='cuda:0')
+588
+0.007754484907260515
+changing lr
+epoch 22, time 815.50, cls_loss 0.0015 cls_loss_mapping 0.0191 cls_loss_causal 0.4377 re_mapping 0.0116 re_causal 0.0248 /// teacc 94.72 lr 0.00756450
+Epoch 24, weight, value: tensor([[ 1.4860e-02,  3.3435e-03, -5.6939e-03,  ..., -4.5524e-02,
+         -2.5734e-02, -1.7965e-02],
+        [ 1.2265e-01,  1.0807e-01,  1.1651e-01,  ...,  2.9581e-02,
+          5.3617e-02,  2.0238e-02],
+        [-2.0623e-02,  3.9081e-03, -1.3399e-02,  ...,  2.1305e-02,
+         -4.1949e-02, -4.3630e-02],
+        ...,
+        [-1.6579e-01, -1.4397e-01, -1.2136e-01,  ..., -3.3246e-02,
+         -2.8183e-02, -2.3984e-02],
+        [ 6.5484e-02,  5.8742e-02,  6.1544e-02,  ..., -5.4635e-02,
+         -5.3891e-02, -4.6354e-02],
+        [-1.2586e-03,  1.5942e-04, -1.8079e-02,  ..., -2.5003e-02,
+         -3.2547e-02, -3.4185e-02]], device='cuda:0'), grad: tensor([[ 1.9819e-05,  6.6757e-06,  6.7130e-06,  ...,  8.1658e-06,
+          1.0230e-05,  8.6427e-06],
+        [-2.4423e-05, -1.4491e-05, -1.5154e-05,  ..., -7.7933e-06,
+         -1.0945e-05, -7.8455e-06],
+        [ 9.8124e-06,  1.7695e-06,  1.4277e-06,  ...,  4.7646e-06,
+          5.1595e-06,  4.9956e-06],
+        ...,
+        [-5.1230e-05, -6.1840e-06, -5.3830e-06,  ..., -8.9854e-06,
+         -1.2785e-05, -1.1548e-05],
+        [ 9.8944e-06,  2.0545e-06,  1.8962e-06,  ...,  2.5369e-06,
+          3.2000e-06,  2.8741e-06],
+        [ 1.7479e-05,  2.8517e-06,  2.6729e-06,  ...,  4.4964e-06,
+          5.9977e-06,  5.2713e-06]], device='cuda:0')
+Epoch 24, bias, value: tensor([ 0.1052, -0.0152, -0.0013, -0.0352, -0.0354, -0.0245, -0.0226],
+       device='cuda:0'), grad: tensor([ 5.7161e-05, -6.6996e-05,  2.6733e-05,  5.2869e-05, -1.4818e-04,
+         2.7299e-05,  5.0843e-05], device='cuda:0')
+588
+0.007564496387029534
+changing lr
+epoch 23, time 815.82, cls_loss 0.0013 cls_loss_mapping 0.0150 cls_loss_causal 0.4419 re_mapping 0.0107 re_causal 0.0247 /// teacc 93.22 lr 0.00736934
+Epoch 25, weight, value: tensor([[ 0.0166,  0.0041, -0.0047,  ..., -0.0453, -0.0258, -0.0182],
+        [ 0.1209,  0.1069,  0.1153,  ...,  0.0294,  0.0530,  0.0202],
+        [-0.0194,  0.0039, -0.0131,  ...,  0.0206, -0.0415, -0.0432],
+        ...,
+        [-0.1635, -0.1417, -0.1196,  ..., -0.0327, -0.0277, -0.0236],
+        [ 0.0635,  0.0577,  0.0605,  ..., -0.0539, -0.0532, -0.0458],
+        [-0.0015, -0.0004, -0.0183,  ..., -0.0247, -0.0321, -0.0336]],
+       device='cuda:0'), grad: tensor([[ 5.1737e-04,  9.0003e-05,  9.0539e-05,  ...,  1.5891e-04,
+          1.8239e-04,  1.7965e-04],
+        [ 5.8126e-04,  8.7142e-05,  9.5427e-05,  ...,  1.8632e-04,
+          2.1684e-04,  2.1195e-04],
+        [-1.8334e-04, -1.0115e-04, -8.4698e-05,  ..., -1.9804e-05,
+         -1.9804e-05, -2.3559e-05],
+        ...,
+        [-1.1005e-03, -1.4055e-04, -1.5616e-04,  ..., -3.7003e-04,
+         -4.2844e-04, -4.1747e-04],
+        [ 2.0966e-05,  4.6939e-06,  4.0978e-06,  ...,  6.6124e-06,
+          7.4096e-06,  7.2494e-06],
+        [ 2.0862e-05,  5.2191e-06,  4.6901e-06,  ...,  6.0797e-06,
+          6.7055e-06,  6.5863e-06]], device='cuda:0')
+Epoch 25, bias, value: tensor([ 0.1079, -0.0161,  0.0017, -0.0375, -0.0354, -0.0271, -0.0218],
+       device='cuda:0'), grad: tensor([ 1.4467e-03,  1.6394e-03, -2.8872e-04,  3.1638e-04, -3.2272e-03,
+         5.8085e-05,  5.5432e-05], device='cuda:0')
+588
+0.007369343312364995
+changing lr
+epoch 24, time 816.84, cls_loss 0.0012 cls_loss_mapping 0.0137 cls_loss_causal 0.4266 re_mapping 0.0098 re_causal 0.0231 /// teacc 93.72 lr 0.00716942
+Epoch 26, weight, value: tensor([[ 0.0167,  0.0042, -0.0043,  ..., -0.0455, -0.0263, -0.0188],
+        [ 0.1201,  0.1059,  0.1142,  ...,  0.0295,  0.0527,  0.0205],
+        [-0.0195,  0.0035, -0.0134,  ...,  0.0199, -0.0412, -0.0428],
+        ...,
+        [-0.1602, -0.1393, -0.1177,  ..., -0.0322, -0.0274, -0.0235],
+        [ 0.0641,  0.0581,  0.0609,  ..., -0.0530, -0.0522, -0.0450],
+        [-0.0030, -0.0013, -0.0189,  ..., -0.0243, -0.0314, -0.0329]],
+       device='cuda:0'), grad: tensor([[ 2.0981e-05,  4.3213e-06,  3.6228e-06,  ...,  3.8054e-06,
+          3.3136e-06,  3.5502e-06],
+        [ 1.8016e-05,  4.0494e-06,  3.7309e-06,  ...,  2.8871e-06,
+          2.5183e-06,  2.6692e-06],
+        [-2.1346e-06, -6.4634e-07, -4.2329e-07,  ..., -5.3132e-07,
+         -3.6252e-07, -4.7358e-07],
+        ...,
+        [ 2.7474e-07,  9.3644e-07,  1.1418e-06,  ...,  3.2334e-08,
+          1.2619e-07,  3.5623e-08],
+        [ 1.4365e-05,  3.3379e-06,  3.0398e-06,  ...,  2.3246e-06,
+          2.0526e-06,  2.1495e-06],
+        [-5.2631e-05, -1.2226e-05, -1.1146e-05,  ..., -7.9870e-06,
+         -6.9588e-06, -7.3388e-06]], device='cuda:0')
+Epoch 26, bias, value: tensor([ 0.1072, -0.0142,  0.0012, -0.0401, -0.0326, -0.0254, -0.0238],
+       device='cuda:0'), grad: tensor([ 6.0737e-05,  5.0247e-05, -5.0776e-06,  3.8091e-06, -3.5837e-06,
+         3.9816e-05, -1.4603e-04], device='cuda:0')
+588
+0.0071694186955877925
+changing lr
+epoch 25, time 812.47, cls_loss 0.0028 cls_loss_mapping 0.0174 cls_loss_causal 0.4490 re_mapping 0.0103 re_causal 0.0243 /// teacc 92.96 lr 0.00696513
+Epoch 27, weight, value: tensor([[ 0.0175,  0.0049, -0.0034,  ..., -0.0454, -0.0264, -0.0191],
+        [ 0.1182,  0.1047,  0.1128,  ...,  0.0292,  0.0519,  0.0205],
+        [-0.0185,  0.0035, -0.0132,  ...,  0.0190, -0.0412, -0.0427],
+        ...,
+        [-0.1580, -0.1373, -0.1162,  ..., -0.0314, -0.0267, -0.0229],
+        [ 0.0628,  0.0568,  0.0597,  ..., -0.0524, -0.0515, -0.0445],
+        [-0.0035, -0.0018, -0.0189,  ..., -0.0241, -0.0311, -0.0325]],
+       device='cuda:0'), grad: tensor([[-1.5879e-03, -4.0126e-04, -2.7013e-04,  ..., -2.3019e-04,
+         -1.6749e-04, -1.8680e-04],
+        [-1.1816e-03, -7.2479e-04, -6.7568e-04,  ..., -1.8001e-04,
+         -2.2793e-04, -2.0301e-04],
+        [ 1.6508e-03,  8.1444e-04,  7.2193e-04,  ...,  2.4140e-04,
+          2.5773e-04,  2.4533e-04],
+        ...,
+        [ 8.1968e-04,  1.9562e-04,  1.2827e-04,  ...,  1.4067e-04,
+          1.0979e-04,  1.1736e-04],
+        [ 9.2566e-05,  2.7895e-05,  2.1040e-05,  ...,  1.3046e-05,
+          1.1690e-05,  1.1921e-05],
+        [ 9.7454e-05,  3.7789e-05,  3.1590e-05,  ...,  1.2048e-05,
+          1.2971e-05,  1.2398e-05]], device='cuda:0')
+Epoch 27, bias, value: tensor([ 0.1063, -0.0152,  0.0028, -0.0404, -0.0321, -0.0243, -0.0241],
+       device='cuda:0'), grad: tensor([-0.0044, -0.0017,  0.0031,  0.0002,  0.0023,  0.0002,  0.0002],
+       device='cuda:0')
+588
+0.0069651251582696205
+changing lr
+epoch 26, time 813.38, cls_loss 0.0013 cls_loss_mapping 0.0155 cls_loss_causal 0.4741 re_mapping 0.0098 re_causal 0.0247 /// teacc 94.47 lr 0.00675687
+Epoch 28, weight, value: tensor([[ 0.0175,  0.0051, -0.0031,  ..., -0.0458, -0.0271, -0.0199],
+        [ 0.1179,  0.1041,  0.1123,  ...,  0.0291,  0.0514,  0.0206],
+        [-0.0196,  0.0027, -0.0136,  ...,  0.0181, -0.0410, -0.0424],
+        ...,
+        [-0.1554, -0.1355, -0.1149,  ..., -0.0307, -0.0261, -0.0224],
+        [ 0.0615,  0.0562,  0.0591,  ..., -0.0519, -0.0510, -0.0441],
+        [-0.0024, -0.0017, -0.0186,  ..., -0.0232, -0.0298, -0.0313]],
+       device='cuda:0'), grad: tensor([[-5.9754e-05, -2.1666e-05, -2.1815e-05,  ..., -1.1764e-05,
+         -1.4074e-05, -1.1377e-05],
+        [ 3.7432e-05,  9.2238e-06,  7.5698e-06,  ...,  1.1422e-05,
+          1.1787e-05,  1.0155e-05],
+        [ 1.1253e-04,  2.3499e-05,  1.6883e-05,  ...,  4.1753e-05,
+          4.1693e-05,  3.7104e-05],
+        ...,
+        [-1.2910e-04, -2.1398e-05, -1.1601e-05,  ..., -5.2899e-05,
+         -5.1588e-05, -4.6462e-05],
+        [ 8.0764e-06,  2.0545e-06,  1.7649e-06,  ...,  2.4624e-06,
+          2.5965e-06,  2.2706e-06],
+        [ 3.7886e-06,  9.6299e-07,  6.5472e-07,  ...,  1.1334e-06,
+          1.1567e-06,  9.8627e-07]], device='cuda:0')
+Epoch 28, bias, value: tensor([ 0.1052, -0.0133, -0.0003, -0.0423, -0.0295, -0.0263, -0.0201],
+       device='cuda:0'), grad: tensor([-1.2469e-04,  9.9361e-05,  3.2091e-04,  6.8009e-05, -3.9530e-04,
+         2.1011e-05,  1.0259e-05], device='cuda:0')
+588
+0.006756874120406716
+changing lr
+---------------------saving model at epoch 27----------------------------------------------------
+epoch 27, time 813.12, cls_loss 0.0016 cls_loss_mapping 0.0169 cls_loss_causal 0.4370 re_mapping 0.0094 re_causal 0.0229 /// teacc 95.23 lr 0.00654508
+Epoch 29, weight, value: tensor([[ 0.0178,  0.0050, -0.0030,  ..., -0.0456, -0.0272, -0.0201],
+        [ 0.1158,  0.1028,  0.1109,  ...,  0.0286,  0.0504,  0.0202],
+        [-0.0202,  0.0025, -0.0136,  ...,  0.0169, -0.0413, -0.0427],
+        ...,
+        [-0.1539, -0.1340, -0.1138,  ..., -0.0300, -0.0256, -0.0220],
+        [ 0.0621,  0.0567,  0.0595,  ..., -0.0511, -0.0502, -0.0434],
+        [-0.0038, -0.0025, -0.0190,  ..., -0.0233, -0.0298, -0.0312]],
+       device='cuda:0'), grad: tensor([[ 3.9244e-04,  1.8966e-04,  1.8942e-04,  ...,  7.1466e-05,
+          7.7128e-05,  7.1764e-05],
+        [-5.0354e-04, -2.4223e-04, -2.4140e-04,  ..., -9.4831e-05,
+         -1.0180e-04, -9.5069e-05],
+        [ 1.3314e-05,  6.1020e-06,  6.0573e-06,  ...,  3.6769e-06,
+          3.8743e-06,  3.7160e-06],
+        ...,
+        [ 2.8774e-05,  1.2539e-05,  1.2331e-05,  ...,  1.2353e-05,
+          1.3091e-05,  1.2532e-05],
+        [ 1.2271e-05,  5.2042e-06,  5.0887e-06,  ...,  3.7681e-06,
+          3.9600e-06,  3.7700e-06],
+        [ 4.3213e-05,  1.9401e-05,  1.9044e-05,  ...,  1.0639e-05,
+          1.1176e-05,  1.0587e-05]], device='cuda:0')
+Epoch 29, bias, value: tensor([ 0.1056, -0.0148, -0.0033, -0.0366, -0.0296, -0.0251, -0.0223],
+       device='cuda:0'), grad: tensor([ 7.2813e-04, -9.3365e-04,  2.5928e-05,  1.4588e-05,  5.5224e-05,
+         2.5064e-05,  8.3983e-05], device='cuda:0')
+588
+0.00654508497187474
+changing lr
+epoch 28, time 816.88, cls_loss 0.0012 cls_loss_mapping 0.0138 cls_loss_causal 0.4400 re_mapping 0.0090 re_causal 0.0230 /// teacc 92.96 lr 0.00633018
+Epoch 30, weight, value: tensor([[ 0.0172,  0.0051, -0.0029,  ..., -0.0454, -0.0273, -0.0203],
+        [ 0.1145,  0.1019,  0.1100,  ...,  0.0282,  0.0497,  0.0200],
+        [-0.0185,  0.0028, -0.0131,  ...,  0.0170, -0.0403, -0.0417],
+        ...,
+        [-0.1522, -0.1323, -0.1126,  ..., -0.0298, -0.0254, -0.0219],
+        [ 0.0610,  0.0562,  0.0590,  ..., -0.0505, -0.0495, -0.0428],
+        [-0.0030, -0.0026, -0.0189,  ..., -0.0230, -0.0292, -0.0306]],
+       device='cuda:0'), grad: tensor([[-2.5535e-04, -7.3373e-05, -2.8521e-05,  ..., -1.1951e-05,
+         -3.4541e-05, -3.2455e-05],
+        [-4.5729e-04, -1.8716e-04, -1.8299e-04,  ..., -1.9968e-04,
+         -2.0409e-04, -1.7989e-04],
+        [ 2.1994e-04,  8.4043e-05,  7.1645e-05,  ...,  7.5102e-05,
+          8.1897e-05,  7.2658e-05],
+        ...,
+        [ 5.3376e-05,  1.7166e-05,  1.3039e-05,  ...,  1.0870e-05,
+          1.3441e-05,  1.2033e-05],
+        [ 4.5836e-05,  1.5020e-05,  1.1235e-05,  ...,  9.9018e-06,
+          1.2130e-05,  1.0855e-05],
+        [ 1.5295e-04,  5.7042e-05,  4.6492e-05,  ...,  4.7266e-05,
+          5.2899e-05,  4.7058e-05]], device='cuda:0')
+Epoch 30, bias, value: tensor([ 0.1026, -0.0149,  0.0003, -0.0388, -0.0291, -0.0264, -0.0191],
+       device='cuda:0'), grad: tensor([-0.0006, -0.0009,  0.0005,  0.0005,  0.0001,  0.0001,  0.0003],
+       device='cuda:0')
+588
+0.006330184227833378
+changing lr
+epoch 29, time 810.64, cls_loss 0.0011 cls_loss_mapping 0.0116 cls_loss_causal 0.4073 re_mapping 0.0085 re_causal 0.0213 /// teacc 94.22 lr 0.00611260
+Epoch 31, weight, value: tensor([[ 0.0173,  0.0051, -0.0027,  ..., -0.0453, -0.0276, -0.0206],
+        [ 0.1132,  0.1009,  0.1089,  ...,  0.0278,  0.0490,  0.0199],
+        [-0.0183,  0.0027, -0.0131,  ...,  0.0165, -0.0399, -0.0413],
+        ...,
+        [-0.1498, -0.1306, -0.1113,  ..., -0.0293, -0.0250, -0.0216],
+        [ 0.0608,  0.0561,  0.0590,  ..., -0.0500, -0.0490, -0.0425],
+        [-0.0030, -0.0031, -0.0191,  ..., -0.0223, -0.0285, -0.0298]],
+       device='cuda:0'), grad: tensor([[ 4.8280e-06,  2.4009e-06,  5.3868e-06,  ...,  1.3344e-05,
+          1.5169e-05,  1.3337e-05],
+        [-1.5926e-04, -7.4208e-05, -7.6175e-05,  ..., -3.7879e-05,
+         -4.5061e-05, -3.9667e-05],
+        [ 1.5073e-05,  7.7933e-06,  7.5772e-06,  ...,  2.2575e-06,
+          3.1050e-06,  2.7474e-06],
+        ...,
+        [ 2.2769e-05,  9.3505e-06,  8.7768e-06,  ...,  4.1090e-06,
+          4.5225e-06,  4.1910e-06],
+        [ 1.7703e-05,  6.6608e-06,  6.4969e-06,  ...,  4.9062e-06,
+          5.4725e-06,  5.0738e-06],
+        [ 1.0908e-04,  4.0323e-05,  4.0919e-05,  ...,  3.5405e-05,
+          3.9935e-05,  3.6746e-05]], device='cuda:0')
+Epoch 31, bias, value: tensor([ 0.1019, -0.0147,  0.0005, -0.0414, -0.0271, -0.0268, -0.0174],
+       device='cuda:0'), grad: tensor([ 7.5884e-06, -3.0279e-04,  2.6301e-05, -5.9217e-05,  4.7565e-05,
+         3.8862e-05,  2.4164e-04], device='cuda:0')
+588
+0.006112604669781575
+changing lr
+epoch 30, time 815.27, cls_loss 0.0009 cls_loss_mapping 0.0120 cls_loss_causal 0.4198 re_mapping 0.0082 re_causal 0.0207 /// teacc 94.22 lr 0.00589278
+Epoch 32, weight, value: tensor([[ 0.0178,  0.0051, -0.0025,  ..., -0.0451, -0.0276, -0.0208],
+        [ 0.1123,  0.1000,  0.1080,  ...,  0.0274,  0.0483,  0.0196],
+        [-0.0174,  0.0027, -0.0129,  ...,  0.0162, -0.0392, -0.0407],
+        ...,
+        [-0.1487, -0.1293, -0.1103,  ..., -0.0290, -0.0249, -0.0215],
+        [ 0.0606,  0.0562,  0.0590,  ..., -0.0494, -0.0485, -0.0420],
+        [-0.0045, -0.0037, -0.0194,  ..., -0.0225, -0.0285, -0.0297]],
+       device='cuda:0'), grad: tensor([[-3.4261e-04, -1.1379e-04, -7.3612e-05,  ..., -2.1458e-05,
+         -3.2544e-05, -2.9966e-05],
+        [ 3.0828e-04,  9.6262e-05,  6.3658e-05,  ...,  4.5806e-05,
+          5.5939e-05,  5.2869e-05],
+        [-9.7007e-06, -3.0864e-06, -3.4664e-06,  ..., -1.6183e-05,
+         -1.4722e-05, -1.3471e-05],
+        ...,
+        [ 2.2501e-05,  1.1206e-05,  7.2606e-06,  ...,  2.0899e-06,
+          2.3171e-06,  2.2389e-06],
+        [-7.7933e-06, -5.8785e-06, -6.2808e-06,  ...,  8.1118e-07,
+          5.9418e-07,  6.2585e-07],
+        [ 3.6508e-05,  1.3374e-05,  1.0595e-05,  ...,  5.5879e-06,
+          6.6347e-06,  6.2473e-06]], device='cuda:0')
+Epoch 32, bias, value: tensor([ 0.1027, -0.0140,  0.0025, -0.0406, -0.0282, -0.0269, -0.0202],
+       device='cuda:0'), grad: tensor([-7.5436e-04,  7.1239e-04, -5.2363e-05, -6.2659e-06,  2.7671e-05,
+        -5.1819e-06,  7.8082e-05], device='cuda:0')
+588
+0.005892784473993186
+changing lr
+epoch 31, time 815.14, cls_loss 0.0014 cls_loss_mapping 0.0132 cls_loss_causal 0.4417 re_mapping 0.0082 re_causal 0.0218 /// teacc 93.72 lr 0.00567117
+Epoch 33, weight, value: tensor([[ 0.0183,  0.0052, -0.0023,  ..., -0.0448, -0.0275, -0.0208],
+        [ 0.1114,  0.0993,  0.1073,  ...,  0.0269,  0.0475,  0.0192],
+        [-0.0179,  0.0025, -0.0130,  ...,  0.0153, -0.0395, -0.0408],
+        ...,
+        [-0.1472, -0.1279, -0.1093,  ..., -0.0285, -0.0244, -0.0211],
+        [ 0.0613,  0.0565,  0.0593,  ..., -0.0488, -0.0478, -0.0415],
+        [-0.0055, -0.0045, -0.0198,  ..., -0.0224, -0.0283, -0.0295]],
+       device='cuda:0'), grad: tensor([[-1.8239e-05, -8.0913e-06, -6.9626e-06,  ..., -2.4438e-06,
+         -3.1199e-06, -2.7623e-06],
+        [ 3.4600e-05,  7.3686e-06,  6.0499e-06,  ...,  1.7673e-05,
+          1.9595e-05,  1.8716e-05],
+        [ 4.9174e-05,  9.0301e-06,  7.8753e-06,  ...,  2.0206e-05,
+          2.2098e-05,  2.1473e-05],
+        ...,
+        [-8.5652e-05, -1.4558e-05, -1.1370e-05,  ..., -2.7388e-05,
+         -3.0294e-05, -2.8804e-05],
+        [ 9.0376e-06,  2.3432e-06,  1.8068e-06,  ...,  2.6189e-06,
+          2.9448e-06,  2.7660e-06],
+        [ 1.2122e-05,  2.5127e-06,  1.8114e-06,  ...,  3.4217e-06,
+          3.9116e-06,  3.6098e-06]], device='cuda:0')
+Epoch 33, bias, value: tensor([ 0.1038, -0.0137,  0.0006, -0.0410, -0.0276, -0.0249, -0.0213],
+       device='cuda:0'), grad: tensor([-3.7313e-05,  9.9123e-05,  1.4782e-04, -6.3255e-06, -2.6321e-04,
+         2.4498e-05,  3.5375e-05], device='cuda:0')
+588
+0.00567116632908828
+changing lr
+epoch 32, time 808.83, cls_loss 0.0012 cls_loss_mapping 0.0138 cls_loss_causal 0.4202 re_mapping 0.0081 re_causal 0.0218 /// teacc 93.22 lr 0.00544820
+Epoch 34, weight, value: tensor([[ 0.0177,  0.0050, -0.0024,  ..., -0.0448, -0.0278, -0.0211],
+        [ 0.1110,  0.0987,  0.1065,  ...,  0.0269,  0.0471,  0.0193],
+        [-0.0168,  0.0024, -0.0129,  ...,  0.0150, -0.0391, -0.0404],
+        ...,
+        [-0.1463, -0.1266, -0.1084,  ..., -0.0285, -0.0245, -0.0212],
+        [ 0.0617,  0.0569,  0.0597,  ..., -0.0482, -0.0472, -0.0409],
+        [-0.0059, -0.0049, -0.0199,  ..., -0.0223, -0.0279, -0.0291]],
+       device='cuda:0'), grad: tensor([[ 6.8545e-05,  1.2316e-05,  9.8124e-06,  ...,  4.9829e-05,
+          5.1796e-05,  5.0813e-05],
+        [-1.3262e-05, -1.2524e-05, -1.2390e-05,  ..., -5.3607e-06,
+         -3.4608e-06, -3.7123e-06],
+        [ 1.9655e-05,  3.4403e-06,  2.7940e-06,  ...,  1.3098e-05,
+          1.3739e-05,  1.3426e-05],
+        ...,
+        [-2.5570e-05,  1.9595e-06,  2.2091e-06,  ..., -9.7379e-06,
+         -9.7007e-06, -8.5756e-06],
+        [-7.3574e-06, -6.7465e-06, -6.8769e-06,  ...,  2.9206e-06,
+          2.9039e-06,  2.8871e-06],
+        [ 1.5736e-05,  4.2133e-06,  3.7830e-06,  ...,  8.0615e-06,
+          8.3596e-06,  8.1435e-06]], device='cuda:0')
+Epoch 34, bias, value: tensor([ 0.1017, -0.0121,  0.0034, -0.0419, -0.0289, -0.0249, -0.0212],
+       device='cuda:0'), grad: tensor([ 2.0027e-04,  6.6357e-07,  5.9634e-05, -1.7405e-04, -1.2755e-04,
+        -1.5115e-06,  4.2766e-05], device='cuda:0')
+588
+0.00544819654451717
+changing lr
+epoch 33, time 810.78, cls_loss 0.0009 cls_loss_mapping 0.0117 cls_loss_causal 0.4009 re_mapping 0.0078 re_causal 0.0203 /// teacc 93.97 lr 0.00522432
+Epoch 35, weight, value: tensor([[ 0.0184,  0.0054, -0.0018,  ..., -0.0448, -0.0280, -0.0214],
+        [ 0.1087,  0.0976,  0.1053,  ...,  0.0264,  0.0463,  0.0189],
+        [-0.0160,  0.0024, -0.0128,  ...,  0.0147, -0.0388, -0.0400],
+        ...,
+        [-0.1444, -0.1251, -0.1072,  ..., -0.0282, -0.0242, -0.0211],
+        [ 0.0605,  0.0563,  0.0591,  ..., -0.0478, -0.0467, -0.0406],
+        [-0.0060, -0.0052, -0.0200,  ..., -0.0220, -0.0275, -0.0287]],
+       device='cuda:0'), grad: tensor([[ 7.3147e-04,  3.8981e-05,  4.7803e-05,  ...,  2.6155e-04,
+          3.6240e-04,  3.1042e-04],
+        [ 1.0979e-04, -6.9849e-07,  7.6974e-07,  ...,  4.0799e-05,
+          5.7518e-05,  4.8906e-05],
+        [ 4.2582e-04,  2.6330e-05,  2.9862e-05,  ...,  1.5390e-04,
+          2.1005e-04,  1.8048e-04],
+        ...,
+        [ 7.5102e-05,  3.1702e-06,  5.7556e-06,  ...,  2.1100e-05,
+          3.3319e-05,  2.7984e-05],
+        [ 2.5487e-04,  1.6928e-05,  1.9997e-05,  ...,  8.6188e-05,
+          1.1826e-04,  1.0300e-04],
+        [-2.0504e-03, -1.1271e-04, -1.3721e-04,  ..., -7.2289e-04,
+         -1.0014e-03, -8.5974e-04]], device='cuda:0')
+Epoch 35, bias, value: tensor([ 0.1022, -0.0151,  0.0050, -0.0406, -0.0280, -0.0264, -0.0206],
+       device='cuda:0'), grad: tensor([ 0.0023,  0.0004,  0.0013,  0.0014,  0.0002,  0.0008, -0.0065],
+       device='cuda:0')
+588
+0.005224324151752577
+changing lr
+epoch 34, time 805.53, cls_loss 0.0009 cls_loss_mapping 0.0110 cls_loss_causal 0.3901 re_mapping 0.0075 re_causal 0.0197 /// teacc 94.72 lr 0.00500000
+Epoch 36, weight, value: tensor([[ 0.0181,  0.0054, -0.0017,  ..., -0.0446, -0.0280, -0.0215],
+        [ 0.1086,  0.0972,  0.1048,  ...,  0.0262,  0.0458,  0.0188],
+        [-0.0169,  0.0021, -0.0130,  ...,  0.0141, -0.0388, -0.0399],
+        ...,
+        [-0.1422, -0.1236, -0.1061,  ..., -0.0278, -0.0238, -0.0207],
+        [ 0.0598,  0.0560,  0.0588,  ..., -0.0474, -0.0464, -0.0403],
+        [-0.0060, -0.0056, -0.0201,  ..., -0.0216, -0.0270, -0.0281]],
+       device='cuda:0'), grad: tensor([[ 2.0182e-04,  8.2076e-05,  8.0347e-05,  ...,  3.2246e-05,
+          4.0025e-05,  3.4511e-05],
+        [-1.2951e-03, -5.7030e-04, -5.6458e-04,  ..., -1.9276e-04,
+         -2.5272e-04, -2.2364e-04],
+        [ 4.1580e-04,  1.7703e-04,  1.7214e-04,  ...,  5.9187e-05,
+          7.8380e-05,  6.8784e-05],
+        ...,
+        [ 4.5542e-07,  2.5705e-05,  2.8104e-05,  ..., -1.3880e-05,
+         -9.3505e-06, -8.1733e-06],
+        [ 7.4089e-05,  2.9743e-05,  2.9624e-05,  ...,  1.3083e-05,
+          1.6108e-05,  1.4447e-05],
+        [ 1.3280e-04,  5.4300e-05,  5.4181e-05,  ...,  2.7016e-05,
+          3.1680e-05,  2.8834e-05]], device='cuda:0')
+Epoch 36, bias, value: tensor([ 0.1009, -0.0130,  0.0025, -0.0412, -0.0255, -0.0274, -0.0193],
+       device='cuda:0'), grad: tensor([ 0.0004, -0.0024,  0.0008,  0.0009, -0.0001,  0.0001,  0.0003],
+       device='cuda:0')
+588
+0.005000000000000003
+changing lr
+epoch 35, time 809.90, cls_loss 0.0011 cls_loss_mapping 0.0105 cls_loss_causal 0.3923 re_mapping 0.0073 re_causal 0.0194 /// teacc 94.22 lr 0.00477568
+Epoch 37, weight, value: tensor([[ 0.0179,  0.0053, -0.0017,  ..., -0.0447, -0.0282, -0.0218],
+        [ 0.1091,  0.0972,  0.1048,  ...,  0.0261,  0.0456,  0.0189],
+        [-0.0171,  0.0018, -0.0131,  ...,  0.0135, -0.0388, -0.0399],
+        ...,
+        [-0.1407, -0.1225, -0.1052,  ..., -0.0274, -0.0234, -0.0205],
+        [ 0.0591,  0.0556,  0.0584,  ..., -0.0470, -0.0460, -0.0400],
+        [-0.0070, -0.0060, -0.0203,  ..., -0.0215, -0.0269, -0.0280]],
+       device='cuda:0'), grad: tensor([[ 4.2081e-05,  6.2361e-06,  6.5714e-06,  ...,  1.5900e-05,
+          2.3082e-05,  1.7628e-05],
+        [ 1.7571e-04,  4.1872e-05,  3.6955e-05,  ...,  5.8770e-05,
+          7.3254e-05,  6.2048e-05],
+        [ 5.2512e-05,  1.2591e-05,  1.1116e-05,  ...,  1.7554e-05,
+          2.1756e-05,  1.8463e-05],
+        ...,
+        [-4.0817e-04, -9.3937e-05, -8.3923e-05,  ..., -1.3816e-04,
+         -1.7524e-04, -1.4663e-04],
+        [ 2.8208e-05,  6.9849e-06,  6.1132e-06,  ...,  9.3132e-06,
+          1.1422e-05,  9.7975e-06],
+        [ 4.6849e-05,  1.1221e-05,  9.8944e-06,  ...,  1.5631e-05,
+          1.9491e-05,  1.6525e-05]], device='cuda:0')
+Epoch 37, bias, value: tensor([ 0.0997, -0.0107,  0.0019, -0.0408, -0.0240, -0.0277, -0.0213],
+       device='cuda:0'), grad: tensor([ 1.2350e-04,  4.7302e-04,  1.4031e-04,  1.7011e-04, -1.1053e-03,
+         7.4744e-05,  1.2565e-04], device='cuda:0')
+588
+0.004775675848247429
+changing lr
+epoch 36, time 811.34, cls_loss 0.0011 cls_loss_mapping 0.0112 cls_loss_causal 0.3994 re_mapping 0.0072 re_causal 0.0198 /// teacc 93.97 lr 0.00455180
+Epoch 38, weight, value: tensor([[ 0.0181,  0.0053, -0.0015,  ..., -0.0446, -0.0284, -0.0220],
+        [ 0.1086,  0.0969,  0.1044,  ...,  0.0257,  0.0449,  0.0185],
+        [-0.0170,  0.0017, -0.0131,  ...,  0.0128, -0.0388, -0.0399],
+        ...,
+        [-0.1394, -0.1214, -0.1045,  ..., -0.0271, -0.0232, -0.0203],
+        [ 0.0586,  0.0553,  0.0581,  ..., -0.0466, -0.0456, -0.0396],
+        [-0.0075, -0.0064, -0.0204,  ..., -0.0214, -0.0267, -0.0278]],
+       device='cuda:0'), grad: tensor([[-3.0208e-04, -1.2076e-04, -1.1092e-04,  ..., -2.9758e-05,
+         -4.0740e-05, -3.5554e-05],
+        [ 1.1271e-04,  4.3213e-05,  3.9309e-05,  ...,  1.3143e-05,
+          1.6391e-05,  1.4864e-05],
+        [ 2.4244e-05,  9.2834e-06,  8.2403e-06,  ...,  2.2557e-06,
+          2.6766e-06,  2.6375e-06],
+        ...,
+        [ 3.0428e-05,  1.7300e-05,  1.6838e-05,  ...,  9.9652e-07,
+          4.6939e-06,  2.8536e-06],
+        [ 2.2590e-05,  8.3447e-06,  7.5437e-06,  ...,  2.8349e-06,
+          3.3472e-06,  3.1069e-06],
+        [ 6.9141e-05,  2.6107e-05,  2.3767e-05,  ...,  8.0019e-06,
+          9.8720e-06,  8.9183e-06]], device='cuda:0')
+Epoch 38, bias, value: tensor([ 0.0996, -0.0104,  0.0015, -0.0398, -0.0232, -0.0283, -0.0218],
+       device='cuda:0'), grad: tensor([-6.7711e-04,  2.5749e-04,  5.5224e-05,  9.9838e-05,  5.2750e-05,
+         5.2571e-05,  1.5986e-04], device='cuda:0')
+588
+0.004551803455482836
+changing lr
+epoch 37, time 813.84, cls_loss 0.0008 cls_loss_mapping 0.0090 cls_loss_causal 0.3874 re_mapping 0.0069 re_causal 0.0190 /// teacc 93.47 lr 0.00432883
+Epoch 39, weight, value: tensor([[ 0.0185,  0.0056, -0.0011,  ..., -0.0444, -0.0283, -0.0220],
+        [ 0.1076,  0.0963,  0.1038,  ...,  0.0253,  0.0442,  0.0182],
+        [-0.0168,  0.0015, -0.0132,  ...,  0.0127, -0.0385, -0.0395],
+        ...,
+        [-0.1379, -0.1203, -0.1036,  ..., -0.0267, -0.0227, -0.0199],
+        [ 0.0587,  0.0553,  0.0581,  ..., -0.0462, -0.0452, -0.0393],
+        [-0.0076, -0.0067, -0.0206,  ..., -0.0212, -0.0264, -0.0275]],
+       device='cuda:0'), grad: tensor([[ 3.4422e-05,  1.6093e-05,  1.5587e-05,  ...,  1.0885e-05,
+          1.1086e-05,  1.0729e-05],
+        [-1.5152e-04, -8.0526e-05, -7.7844e-05,  ..., -4.4882e-05,
+         -4.5419e-05, -4.3184e-05],
+        [ 6.0089e-06,  6.7279e-06,  6.8173e-06,  ...,  2.7437e-06,
+          3.0659e-06,  2.8424e-06],
+        ...,
+        [ 1.0622e-04,  4.9800e-05,  4.8041e-05,  ...,  2.5287e-05,
+          2.6733e-05,  2.5496e-05],
+        [-6.5148e-05, -3.5763e-05, -3.4362e-05,  ..., -1.2806e-06,
+         -2.6505e-06, -2.6468e-06],
+        [ 2.2054e-06,  1.0148e-05,  9.3728e-06,  ..., -1.0297e-05,
+         -1.1042e-05, -1.0803e-05]], device='cuda:0')
+Epoch 39, bias, value: tensor([ 0.0998, -0.0114,  0.0023, -0.0423, -0.0220, -0.0277, -0.0209],
+       device='cuda:0'), grad: tensor([ 6.6638e-05, -2.6941e-04, -1.2452e-06,  1.2434e-04,  2.0349e-04,
+        -9.8109e-05, -2.5824e-05], device='cuda:0')
+588
+0.004328833670911726
+changing lr
+epoch 38, time 808.32, cls_loss 0.0010 cls_loss_mapping 0.0093 cls_loss_causal 0.4097 re_mapping 0.0069 re_causal 0.0195 /// teacc 93.97 lr 0.00410722
+Epoch 40, weight, value: tensor([[ 0.0182,  0.0054, -0.0012,  ..., -0.0444, -0.0285, -0.0222],
+        [ 0.1068,  0.0959,  0.1033,  ...,  0.0250,  0.0438,  0.0181],
+        [-0.0161,  0.0017, -0.0129,  ...,  0.0123, -0.0383, -0.0393],
+        ...,
+        [-0.1373, -0.1195, -0.1030,  ..., -0.0265, -0.0227, -0.0199],
+        [ 0.0589,  0.0553,  0.0581,  ..., -0.0458, -0.0447, -0.0389],
+        [-0.0078, -0.0071, -0.0207,  ..., -0.0211, -0.0261, -0.0272]],
+       device='cuda:0'), grad: tensor([[ 2.4810e-05, -3.0119e-06, -6.5193e-06,  ...,  1.4372e-05,
+          1.1027e-05,  1.1422e-05],
+        [ 6.4015e-05,  1.2934e-05,  8.3745e-06,  ...,  1.8343e-05,
+          1.6645e-05,  1.6332e-05],
+        [-2.2972e-04, -3.6031e-05, -1.6987e-05,  ..., -6.1929e-05,
+         -5.2065e-05, -5.2094e-05],
+        ...,
+        [ 3.5554e-05,  7.8604e-06,  5.0738e-06,  ...,  1.1086e-05,
+          1.0274e-05,  1.0572e-05],
+        [ 2.2754e-05,  4.8578e-06,  3.2969e-06,  ...,  5.7705e-06,
+          5.2415e-06,  5.0664e-06],
+        [ 3.9726e-05,  7.8976e-06,  4.9099e-06,  ...,  1.0237e-05,
+          9.0078e-06,  8.7917e-06]], device='cuda:0')
+Epoch 40, bias, value: tensor([ 0.0988, -0.0117,  0.0033, -0.0425, -0.0227, -0.0266, -0.0204],
+       device='cuda:0'), grad: tensor([ 9.7275e-05,  1.8275e-04, -6.9141e-04,  1.3554e-04,  9.7871e-05,
+         6.4194e-05,  1.1384e-04], device='cuda:0')
+588
+0.0041072155260068206
+changing lr
+epoch 39, time 813.33, cls_loss 0.0007 cls_loss_mapping 0.0077 cls_loss_causal 0.4051 re_mapping 0.0066 re_causal 0.0187 /// teacc 93.22 lr 0.00388740
+Epoch 41, weight, value: tensor([[ 0.0186,  0.0055, -0.0010,  ..., -0.0443, -0.0285, -0.0223],
+        [ 0.1062,  0.0955,  0.1028,  ...,  0.0248,  0.0433,  0.0180],
+        [-0.0165,  0.0015, -0.0130,  ...,  0.0119, -0.0383, -0.0393],
+        ...,
+        [-0.1361, -0.1186, -0.1023,  ..., -0.0263, -0.0225, -0.0197],
+        [ 0.0585,  0.0551,  0.0580,  ..., -0.0455, -0.0444, -0.0387],
+        [-0.0081, -0.0074, -0.0209,  ..., -0.0209, -0.0259, -0.0270]],
+       device='cuda:0'), grad: tensor([[-4.4656e-04, -1.5962e-04, -1.5616e-04,  ..., -4.2796e-05,
+         -5.8532e-05, -4.5091e-05],
+        [ 1.0395e-04,  3.4869e-05,  3.1859e-05,  ..., -1.3545e-05,
+         -1.0811e-05, -1.5661e-05],
+        [ 2.2680e-05,  1.7032e-05,  1.9222e-05,  ..., -1.4275e-05,
+         -6.8247e-06, -9.0301e-06],
+        ...,
+        [ 9.3400e-05,  3.4750e-05,  3.4213e-05,  ...,  1.4931e-05,
+          1.7509e-05,  1.5527e-05],
+        [ 5.0366e-05,  1.7688e-05,  1.7345e-05,  ...,  7.6741e-06,
+          9.1866e-06,  7.8604e-06],
+        [ 5.1767e-05,  1.6943e-05,  1.6645e-05,  ...,  1.1027e-05,
+          1.2331e-05,  1.1094e-05]], device='cuda:0')
+Epoch 41, bias, value: tensor([ 0.0994, -0.0118,  0.0021, -0.0417, -0.0219, -0.0272, -0.0205],
+       device='cuda:0'), grad: tensor([-9.9754e-04,  2.5272e-04,  2.7925e-05,  2.8586e-04,  1.9979e-04,
+         1.1247e-04,  1.1820e-04], device='cuda:0')
+588
+0.0038873953302184317
+changing lr
+epoch 40, time 807.17, cls_loss 0.0008 cls_loss_mapping 0.0074 cls_loss_causal 0.4051 re_mapping 0.0065 re_causal 0.0188 /// teacc 93.97 lr 0.00366982
+Epoch 42, weight, value: tensor([[ 0.0185,  0.0055, -0.0010,  ..., -0.0443, -0.0286, -0.0225],
+        [ 0.1060,  0.0952,  0.1025,  ...,  0.0248,  0.0431,  0.0180],
+        [-0.0157,  0.0016, -0.0128,  ...,  0.0118, -0.0380, -0.0390],
+        ...,
+        [-0.1350, -0.1177, -0.1017,  ..., -0.0262, -0.0224, -0.0197],
+        [ 0.0579,  0.0548,  0.0576,  ..., -0.0452, -0.0442, -0.0385],
+        [-0.0089, -0.0077, -0.0211,  ..., -0.0209, -0.0258, -0.0268]],
+       device='cuda:0'), grad: tensor([[ 6.6638e-05,  1.6138e-05,  1.4260e-05,  ...,  1.7360e-05,
+          1.7419e-05,  1.6630e-05],
+        [-3.7879e-05, -2.1949e-05, -2.1130e-05,  ..., -9.1717e-06,
+         -9.9018e-06, -9.5516e-06],
+        [-2.5079e-05, -5.2862e-06, -4.5784e-06,  ..., -8.5682e-06,
+         -9.5665e-06, -8.9183e-06],
+        ...,
+        [ 6.1989e-05,  1.4685e-05,  1.2957e-05,  ...,  7.8380e-06,
+          6.9812e-06,  6.6757e-06],
+        [ 2.4423e-05,  3.7886e-06,  3.0957e-06,  ...,  4.1649e-06,
+          3.9898e-06,  3.7160e-06],
+        [-1.0902e-04, -1.2808e-05, -9.6634e-06,  ..., -6.7353e-06,
+         -4.0457e-06, -3.4664e-06]], device='cuda:0')
+Epoch 42, bias, value: tensor([ 0.0984, -0.0109,  0.0039, -0.0419, -0.0212, -0.0278, -0.0220],
+       device='cuda:0'), grad: tensor([ 1.7250e-04, -5.7846e-05, -6.8903e-05,  4.7803e-05,  1.5283e-04,
+         6.9857e-05, -3.1662e-04], device='cuda:0')
+588
+0.003669815772166629
+changing lr
+epoch 41, time 805.89, cls_loss 0.0006 cls_loss_mapping 0.0062 cls_loss_causal 0.3675 re_mapping 0.0064 re_causal 0.0176 /// teacc 93.47 lr 0.00345492
+Epoch 43, weight, value: tensor([[ 0.0185,  0.0055, -0.0010,  ..., -0.0442, -0.0287, -0.0226],
+        [ 0.1054,  0.0947,  0.1020,  ...,  0.0246,  0.0428,  0.0179],
+        [-0.0158,  0.0014, -0.0129,  ...,  0.0114, -0.0380, -0.0389],
+        ...,
+        [-0.1344, -0.1169, -0.1011,  ..., -0.0260, -0.0222, -0.0196],
+        [ 0.0579,  0.0548,  0.0576,  ..., -0.0449, -0.0438, -0.0382],
+        [-0.0088, -0.0079, -0.0210,  ..., -0.0206, -0.0255, -0.0265]],
+       device='cuda:0'), grad: tensor([[ 1.6332e-04,  4.5687e-05,  3.2276e-05,  ...,  6.4969e-05,
+          6.1631e-05,  6.1512e-05],
+        [ 1.5116e-04,  3.0473e-05,  2.7105e-05,  ...,  7.4327e-05,
+          6.2168e-05,  6.6280e-05],
+        [-1.0595e-03, -2.0361e-04, -1.8644e-04,  ..., -5.0926e-04,
+         -3.9959e-04, -4.3583e-04],
+        ...,
+        [ 4.1366e-04,  6.4015e-05,  6.9201e-05,  ...,  2.2447e-04,
+          1.6999e-04,  1.8966e-04],
+        [ 5.0873e-05,  9.7752e-06,  8.9556e-06,  ...,  2.4348e-05,
+          1.9446e-05,  2.1085e-05],
+        [ 1.3542e-04,  2.4945e-05,  2.3678e-05,  ...,  6.6280e-05,
+          5.1200e-05,  5.6297e-05]], device='cuda:0')
+Epoch 43, bias, value: tensor([ 0.0986, -0.0110,  0.0034, -0.0419, -0.0215, -0.0275, -0.0211],
+       device='cuda:0'), grad: tensor([ 0.0004,  0.0004, -0.0030,  0.0004,  0.0012,  0.0001,  0.0004],
+       device='cuda:0')
+588
+0.0034549150281252667
+changing lr
+epoch 42, time 812.76, cls_loss 0.0007 cls_loss_mapping 0.0070 cls_loss_causal 0.3691 re_mapping 0.0063 re_causal 0.0171 /// teacc 94.47 lr 0.00324313
+Epoch 44, weight, value: tensor([[ 0.0183,  0.0053, -0.0010,  ..., -0.0442, -0.0288, -0.0227],
+        [ 0.1050,  0.0944,  0.1016,  ...,  0.0246,  0.0426,  0.0180],
+        [-0.0158,  0.0013, -0.0129,  ...,  0.0112, -0.0378, -0.0387],
+        ...,
+        [-0.1337, -0.1161, -0.1005,  ..., -0.0259, -0.0222, -0.0196],
+        [ 0.0577,  0.0547,  0.0575,  ..., -0.0446, -0.0435, -0.0380],
+        [-0.0088, -0.0080, -0.0211,  ..., -0.0205, -0.0253, -0.0263]],
+       device='cuda:0'), grad: tensor([[-2.3210e-04, -5.1826e-05, -5.5373e-05,  ..., -2.9385e-05,
+         -4.1336e-05, -3.7521e-05],
+        [ 1.0204e-04,  1.3493e-05,  1.6227e-05,  ...,  9.0301e-06,
+          1.5125e-05,  1.3366e-05],
+        [ 1.1854e-05,  7.5847e-06,  7.4357e-06,  ...,  5.8440e-07,
+          1.3486e-06,  1.8971e-06],
+        ...,
+        [ 3.1173e-05,  6.8955e-06,  7.3239e-06,  ...,  4.7721e-06,
+          6.1244e-06,  5.3160e-06],
+        [ 1.3918e-05,  3.4422e-06,  3.5465e-06,  ...,  2.1514e-06,
+          2.7753e-06,  2.5257e-06],
+        [ 3.9488e-05,  9.2760e-06,  9.8422e-06,  ...,  5.6736e-06,
+          7.6443e-06,  6.8694e-06]], device='cuda:0')
+Epoch 44, bias, value: tensor([ 0.0982, -0.0104,  0.0033, -0.0418, -0.0221, -0.0277, -0.0204],
+       device='cuda:0'), grad: tensor([-5.7840e-04,  2.8443e-04,  1.3784e-05,  7.3433e-05,  7.5281e-05,
+         3.4124e-05,  9.7454e-05], device='cuda:0')
+588
+0.0032431258795932905
+changing lr
+epoch 43, time 807.01, cls_loss 0.0007 cls_loss_mapping 0.0070 cls_loss_causal 0.3884 re_mapping 0.0062 re_causal 0.0170 /// teacc 95.23 lr 0.00303487
+Epoch 45, weight, value: tensor([[ 0.0192,  0.0057, -0.0006,  ..., -0.0442, -0.0288, -0.0229],
+        [ 0.1045,  0.0940,  0.1012,  ...,  0.0244,  0.0423,  0.0179],
+        [-0.0160,  0.0011, -0.0130,  ...,  0.0109, -0.0378, -0.0386],
+        ...,
+        [-0.1333, -0.1155, -0.1001,  ..., -0.0257, -0.0221, -0.0195],
+        [ 0.0574,  0.0546,  0.0574,  ..., -0.0444, -0.0433, -0.0378],
+        [-0.0091, -0.0083, -0.0212,  ..., -0.0204, -0.0252, -0.0261]],
+       device='cuda:0'), grad: tensor([[ 5.9223e-04,  1.6034e-04,  1.4663e-04,  ...,  1.7238e-04,
+          1.6677e-04,  1.4734e-04],
+        [ 2.5362e-05, -8.2254e-06, -6.4895e-06,  ...,  5.4426e-06,
+          3.2671e-06,  1.9893e-06],
+        [-1.4658e-03, -3.8528e-04, -3.5667e-04,  ..., -4.5133e-04,
+         -4.2701e-04, -3.7599e-04],
+        ...,
+        [ 3.2234e-04,  9.7454e-05,  9.2864e-05,  ...,  1.0318e-04,
+          9.8884e-05,  8.5711e-05],
+        [ 1.0425e-04,  3.2783e-05,  3.1829e-05,  ...,  3.1680e-05,
+          3.1352e-05,  2.7373e-05],
+        [ 1.6093e-04,  4.4793e-05,  4.1544e-05,  ...,  5.1916e-05,
+          4.9263e-05,  4.3601e-05]], device='cuda:0')
+Epoch 45, bias, value: tensor([ 0.0995, -0.0107,  0.0028, -0.0411, -0.0227, -0.0279, -0.0207],
+       device='cuda:0'), grad: tensor([ 0.0015,  0.0001, -0.0037,  0.0007,  0.0008,  0.0002,  0.0004],
+       device='cuda:0')
+588
+0.0030348748417303863
+changing lr
+epoch 44, time 814.09, cls_loss 0.0006 cls_loss_mapping 0.0065 cls_loss_causal 0.3747 re_mapping 0.0061 re_causal 0.0171 /// teacc 93.97 lr 0.00283058
+Epoch 46, weight, value: tensor([[ 0.0193,  0.0058, -0.0004,  ..., -0.0441, -0.0288, -0.0229],
+        [ 0.1034,  0.0934,  0.1006,  ...,  0.0243,  0.0420,  0.0178],
+        [-0.0155,  0.0011, -0.0130,  ...,  0.0108, -0.0375, -0.0384],
+        ...,
+        [-0.1325, -0.1149, -0.0997,  ..., -0.0256, -0.0220, -0.0194],
+        [ 0.0579,  0.0548,  0.0577,  ..., -0.0441, -0.0430, -0.0375],
+        [-0.0092, -0.0085, -0.0213,  ..., -0.0203, -0.0250, -0.0259]],
+       device='cuda:0'), grad: tensor([[-6.0648e-05, -1.5616e-05, -1.6600e-05,  ..., -2.0504e-05,
+         -2.4289e-05, -2.2426e-05],
+        [ 1.9729e-05,  4.8392e-06,  4.7274e-06,  ...,  6.6943e-06,
+          7.3761e-06,  6.8843e-06],
+        [-2.1607e-05, -6.4783e-06, -4.3809e-06,  ..., -5.5246e-06,
+         -4.0121e-06, -4.0010e-06],
+        ...,
+        [-4.2096e-06,  1.0366e-06,  9.5461e-07,  ..., -2.6245e-06,
+         -2.8461e-06, -2.7008e-06],
+        [ 8.5086e-06,  2.3432e-06,  2.2948e-06,  ...,  2.6133e-06,
+          2.9411e-06,  2.7195e-06],
+        [ 1.8016e-05,  4.7162e-06,  4.5113e-06,  ...,  5.7258e-06,
+          6.2957e-06,  5.8711e-06]], device='cuda:0')
+Epoch 46, bias, value: tensor([ 0.0992, -0.0118,  0.0038, -0.0423, -0.0222, -0.0268, -0.0203],
+       device='cuda:0'), grad: tensor([-1.5628e-04,  5.1141e-05, -4.9770e-05,  1.0580e-04, -1.7717e-05,
+         2.1175e-05,  4.5538e-05], device='cuda:0')
+588
+0.0028305813044122124
+changing lr
+epoch 45, time 811.62, cls_loss 0.0006 cls_loss_mapping 0.0078 cls_loss_causal 0.3861 re_mapping 0.0060 re_causal 0.0167 /// teacc 93.97 lr 0.00263066
+Epoch 47, weight, value: tensor([[ 0.0192,  0.0057, -0.0004,  ..., -0.0441, -0.0289, -0.0231],
+        [ 0.1033,  0.0933,  0.1004,  ...,  0.0242,  0.0418,  0.0178],
+        [-0.0152,  0.0010, -0.0129,  ...,  0.0107, -0.0374, -0.0382],
+        ...,
+        [-0.1319, -0.1144, -0.0992,  ..., -0.0255, -0.0220, -0.0195],
+        [ 0.0579,  0.0548,  0.0576,  ..., -0.0439, -0.0428, -0.0374],
+        [-0.0097, -0.0088, -0.0215,  ..., -0.0202, -0.0248, -0.0258]],
+       device='cuda:0'), grad: tensor([[-1.4812e-05, -2.7493e-06, -4.7386e-06,  ...,  1.2800e-05,
+          8.1435e-06,  8.9332e-06],
+        [-2.3693e-05, -1.8820e-05, -1.9118e-05,  ..., -1.5469e-06,
+         -1.2619e-06, -5.6298e-07],
+        [-2.6321e-04, -1.7896e-05,  1.9099e-09,  ..., -1.4853e-04,
+         -1.2863e-04, -1.4949e-04],
+        ...,
+        [ 2.3651e-04,  2.2501e-05,  8.5086e-06,  ...,  1.2589e-04,
+          1.1146e-04,  1.2898e-04],
+        [ 1.9476e-05,  4.4890e-06,  4.2319e-06,  ...,  6.9216e-06,
+          7.2792e-06,  7.4729e-06],
+        [ 3.2604e-05,  8.7470e-06,  7.9647e-06,  ...,  1.1407e-05,
+          1.1034e-05,  1.1794e-05]], device='cuda:0')
+Epoch 47, bias, value: tensor([ 0.0988, -0.0112,  0.0045, -0.0428, -0.0223, -0.0266, -0.0209],
+       device='cuda:0'), grad: tensor([-5.8204e-05, -1.8284e-05, -7.7534e-04,  3.6091e-05,  6.8426e-04,
+         5.1796e-05,  8.0585e-05], device='cuda:0')
+588
+0.0026306566876350096
+changing lr
+epoch 46, time 819.72, cls_loss 0.0006 cls_loss_mapping 0.0059 cls_loss_causal 0.3760 re_mapping 0.0059 re_causal 0.0164 /// teacc 93.47 lr 0.00243550
+Epoch 48, weight, value: tensor([[ 0.0191,  0.0057, -0.0004,  ..., -0.0441, -0.0290, -0.0231],
+        [ 0.1033,  0.0931,  0.1002,  ...,  0.0243,  0.0418,  0.0179],
+        [-0.0155,  0.0009, -0.0130,  ...,  0.0103, -0.0375, -0.0383],
+        ...,
+        [-0.1314, -0.1138, -0.0988,  ..., -0.0254, -0.0219, -0.0194],
+        [ 0.0579,  0.0548,  0.0577,  ..., -0.0437, -0.0426, -0.0372],
+        [-0.0097, -0.0089, -0.0215,  ..., -0.0200, -0.0246, -0.0255]],
+       device='cuda:0'), grad: tensor([[ 4.3178e-04,  1.3256e-04,  1.1522e-04,  ...,  7.7307e-05,
+          8.4400e-05,  8.7023e-05],
+        [-1.2361e-05, -1.4417e-05, -1.3530e-05,  ..., -4.6343e-06,
+         -4.4368e-06, -4.5262e-06],
+        [-3.1495e-04, -1.2553e-04, -1.1110e-04,  ..., -3.0875e-05,
+         -3.5048e-05, -4.0770e-05],
+        ...,
+        [-1.8585e-04, -1.5408e-05, -1.0312e-05,  ..., -5.8681e-05,
+         -6.3241e-05, -6.0171e-05],
+        [ 3.1680e-05,  1.0021e-05,  8.7172e-06,  ...,  5.4277e-06,
+          5.9977e-06,  6.2659e-06],
+        [ 2.9728e-05,  5.1968e-06,  4.2468e-06,  ...,  8.3447e-06,
+          8.9929e-06,  8.7172e-06]], device='cuda:0')
+Epoch 48, bias, value: tensor([ 0.0987, -0.0105,  0.0034, -0.0425, -0.0224, -0.0264, -0.0206],
+       device='cuda:0'), grad: tensor([ 1.0653e-03,  5.6550e-06, -6.8331e-04,  4.5031e-05, -5.9509e-04,
+         7.7248e-05,  8.6188e-05], device='cuda:0')
+588
+0.0024355036129704724
+changing lr
+epoch 47, time 812.38, cls_loss 0.0008 cls_loss_mapping 0.0074 cls_loss_causal 0.3671 re_mapping 0.0058 re_causal 0.0160 /// teacc 93.97 lr 0.00224552
+Epoch 49, weight, value: tensor([[ 0.0185,  0.0056, -0.0004,  ..., -0.0442, -0.0292, -0.0234],
+        [ 0.1028,  0.0929,  0.1000,  ...,  0.0241,  0.0415,  0.0178],
+        [-0.0157,  0.0006, -0.0132,  ...,  0.0101, -0.0374, -0.0382],
+        ...,
+        [-0.1302, -0.1132, -0.0983,  ..., -0.0252, -0.0217, -0.0193],
+        [ 0.0578,  0.0548,  0.0576,  ..., -0.0436, -0.0424, -0.0371],
+        [-0.0095, -0.0090, -0.0215,  ..., -0.0199, -0.0244, -0.0253]],
+       device='cuda:0'), grad: tensor([[ 2.7847e-04,  8.0884e-05,  7.7367e-05,  ...,  5.8055e-05,
+          6.8903e-05,  5.3048e-05],
+        [-2.0111e-04, -1.1545e-04, -1.1259e-04,  ..., -6.0230e-05,
+         -6.8486e-05, -6.3360e-05],
+        [ 2.7940e-05,  1.2130e-05,  1.1697e-05,  ...,  6.9216e-06,
+          7.9870e-06,  6.8769e-06],
+        ...,
+        [-2.3305e-04, -3.9428e-05, -3.6478e-05,  ..., -3.9667e-05,
+         -4.8488e-05, -3.2187e-05],
+        [ 1.4171e-05,  5.6960e-06,  5.5023e-06,  ...,  3.5316e-06,
+          4.0904e-06,  3.4850e-06],
+        [ 2.1666e-05,  7.7188e-06,  7.4208e-06,  ...,  5.5209e-06,
+          6.3851e-06,  5.4501e-06]], device='cuda:0')
+Epoch 49, bias, value: tensor([ 0.0968, -0.0111,  0.0035, -0.0426, -0.0206, -0.0267, -0.0194],
+       device='cuda:0'), grad: tensor([ 7.3147e-04, -2.8682e-04,  5.6356e-05,  1.4877e-04, -7.3099e-04,
+         3.0369e-05,  4.9919e-05], device='cuda:0')
+588
+0.00224551509273949
+changing lr
+epoch 48, time 807.93, cls_loss 0.0006 cls_loss_mapping 0.0059 cls_loss_causal 0.3733 re_mapping 0.0058 re_causal 0.0160 /// teacc 95.23 lr 0.00206107
+Epoch 50, weight, value: tensor([[ 0.0187,  0.0057, -0.0003,  ..., -0.0442, -0.0292, -0.0234],
+        [ 0.1025,  0.0927,  0.0997,  ...,  0.0240,  0.0413,  0.0178],
+        [-0.0155,  0.0006, -0.0132,  ...,  0.0100, -0.0373, -0.0381],
+        ...,
+        [-0.1297, -0.1127, -0.0979,  ..., -0.0252, -0.0217, -0.0193],
+        [ 0.0576,  0.0547,  0.0575,  ..., -0.0434, -0.0423, -0.0370],
+        [-0.0099, -0.0093, -0.0216,  ..., -0.0198, -0.0243, -0.0252]],
+       device='cuda:0'), grad: tensor([[ 1.4150e-04,  4.5717e-05,  3.7283e-05,  ...,  2.9683e-05,
+          3.6061e-05,  3.3766e-05],
+        [ 7.6234e-05,  2.2665e-05,  1.8865e-05,  ...,  1.7941e-05,
+          2.1681e-05,  2.0117e-05],
+        [-2.5415e-04, -1.0395e-04, -8.6486e-05,  ..., -3.2157e-05,
+         -4.2439e-05, -3.9577e-05],
+        ...,
+        [-4.8280e-05, -5.6019e-07,  2.6077e-07,  ..., -1.6645e-05,
+         -1.7524e-05, -1.6034e-05],
+        [ 4.7356e-05,  8.2925e-06,  7.2196e-06,  ...,  1.2480e-05,
+          1.6361e-05,  1.4678e-05],
+        [-4.4823e-05, -1.4426e-06, -1.8943e-06,  ..., -1.4082e-05,
+         -2.0206e-05, -1.7673e-05]], device='cuda:0')
+Epoch 50, bias, value: tensor([ 0.0970, -0.0112,  0.0038, -0.0422, -0.0205, -0.0268, -0.0200],
+       device='cuda:0'), grad: tensor([ 0.0004,  0.0002, -0.0006,  0.0002, -0.0002,  0.0001, -0.0001],
+       device='cuda:0')
+588
+0.002061073738537637
+changing lr
+epoch 49, time 814.93, cls_loss 0.0008 cls_loss_mapping 0.0054 cls_loss_causal 0.3942 re_mapping 0.0056 re_causal 0.0163 /// teacc 94.72 lr 0.00188255
+Epoch 51, weight, value: tensor([[ 0.0190,  0.0058, -0.0001,  ..., -0.0441, -0.0293, -0.0235],
+        [ 0.1022,  0.0925,  0.0995,  ...,  0.0240,  0.0412,  0.0178],
+        [-0.0159,  0.0005, -0.0133,  ...,  0.0097, -0.0374, -0.0381],
+        ...,
+        [-0.1292, -0.1123, -0.0976,  ..., -0.0251, -0.0216, -0.0192],
+        [ 0.0572,  0.0545,  0.0574,  ..., -0.0433, -0.0422, -0.0369],
+        [-0.0099, -0.0094, -0.0217,  ..., -0.0198, -0.0242, -0.0251]],
+       device='cuda:0'), grad: tensor([[ 5.8603e-04,  2.2888e-04,  2.2733e-04,  ...,  4.4793e-05,
+          6.0678e-05,  5.0366e-05],
+        [-8.4734e-04, -3.3331e-04, -3.3116e-04,  ..., -6.3181e-05,
+         -8.6367e-05, -7.1645e-05],
+        [ 9.9003e-05,  3.8713e-05,  3.8385e-05,  ...,  9.1270e-06,
+          1.1891e-05,  1.0036e-05],
+        ...,
+        [ 1.1033e-04,  4.5210e-05,  4.5180e-05,  ...,  6.1505e-06,
+          9.2760e-06,  7.6890e-06],
+        [ 1.5274e-05,  5.7481e-06,  5.6922e-06,  ...,  1.4864e-06,
+          1.8831e-06,  1.5767e-06],
+        [ 1.2018e-05,  5.0999e-06,  5.0627e-06,  ...,  9.3598e-07,
+          1.3448e-06,  1.1260e-06]], device='cuda:0')
+Epoch 51, bias, value: tensor([ 0.0974, -0.0113,  0.0026, -0.0410, -0.0205, -0.0274, -0.0196],
+       device='cuda:0'), grad: tensor([ 1.2121e-03, -1.7414e-03,  2.0456e-04,  5.0306e-05,  2.1756e-04,
+         3.2485e-05,  2.3574e-05], device='cuda:0')
+588
+0.0018825509907063344
+changing lr
+epoch 50, time 809.86, cls_loss 0.0008 cls_loss_mapping 0.0061 cls_loss_causal 0.3764 re_mapping 0.0057 re_causal 0.0156 /// teacc 94.72 lr 0.00171031
+Epoch 52, weight, value: tensor([[ 0.0189,  0.0058, -0.0001,  ..., -0.0441, -0.0293, -0.0236],
+        [ 0.1020,  0.0924,  0.0994,  ...,  0.0240,  0.0412,  0.0179],
+        [-0.0156,  0.0005, -0.0132,  ...,  0.0097, -0.0371, -0.0379],
+        ...,
+        [-0.1285, -0.1118, -0.0973,  ..., -0.0248, -0.0214, -0.0190],
+        [ 0.0576,  0.0546,  0.0575,  ..., -0.0431, -0.0420, -0.0367],
+        [-0.0102, -0.0096, -0.0218,  ..., -0.0198, -0.0242, -0.0250]],
+       device='cuda:0'), grad: tensor([[ 9.6560e-05,  3.2753e-05,  2.9624e-05,  ...,  2.9966e-05,
+          3.3796e-05,  3.1680e-05],
+        [-1.1474e-05, -1.6153e-05, -1.6794e-05,  ...,  2.4870e-05,
+          2.5570e-05,  2.5362e-05],
+        [-5.4121e-05, -6.5565e-06, -8.5682e-07,  ...,  1.6941e-06,
+          2.7306e-06,  4.1202e-06],
+        ...,
+        [ 2.9579e-05,  6.9924e-06,  5.3085e-06,  ...,  3.2872e-05,
+          3.4422e-05,  3.4094e-05],
+        [ 2.7314e-05,  7.4990e-06,  6.4932e-06,  ...,  1.4871e-05,
+          1.6212e-05,  1.5572e-05],
+        [ 4.4286e-05,  9.6112e-06,  7.1265e-06,  ...,  1.5140e-05,
+          1.6451e-05,  1.5318e-05]], device='cuda:0')
+Epoch 52, bias, value: tensor([ 0.0968, -0.0113,  0.0035, -0.0431, -0.0194, -0.0261, -0.0201],
+       device='cuda:0'), grad: tensor([ 2.2924e-04,  1.0692e-05, -1.6677e-04, -3.3760e-04,  7.1406e-05,
+         6.9916e-05,  1.2267e-04], device='cuda:0')
+588
+0.0017103063703014388
+changing lr
+epoch 51, time 817.67, cls_loss 0.0006 cls_loss_mapping 0.0054 cls_loss_causal 0.3671 re_mapping 0.0058 re_causal 0.0159 /// teacc 93.97 lr 0.00154469
+Epoch 53, weight, value: tensor([[ 1.9171e-02,  5.8618e-03, -3.3324e-05,  ..., -4.4002e-02,
+         -2.9225e-02, -2.3554e-02],
+        [ 1.0185e-01,  9.2304e-02,  9.9248e-02,  ...,  2.4009e-02,
+          4.1042e-02,  1.7865e-02],
+        [-1.5600e-02,  3.9834e-04, -1.3245e-02,  ...,  9.5511e-03,
+         -3.7156e-02, -3.7855e-02],
+        ...,
+        [-1.2822e-01, -1.1157e-01, -9.7136e-02,  ..., -2.4728e-02,
+         -2.1296e-02, -1.8941e-02],
+        [ 5.7360e-02,  5.4487e-02,  5.7391e-02,  ..., -4.3009e-02,
+         -4.1881e-02, -3.6650e-02],
+        [-1.0169e-02, -9.6332e-03, -2.1786e-02,  ..., -1.9706e-02,
+         -2.4074e-02, -2.4930e-02]], device='cuda:0'), grad: tensor([[-2.4343e-04, -1.2290e-04, -1.2046e-04,  ..., -4.3601e-05,
+         -5.0932e-05, -4.3958e-05],
+        [ 1.3530e-05,  4.2245e-06,  2.9318e-06,  ...,  7.5903e-07,
+          4.7195e-07,  6.6217e-07],
+        [ 9.6560e-05,  2.2426e-05,  1.7181e-05,  ...,  3.6240e-05,
+          3.0249e-05,  3.3975e-05],
+        ...,
+        [-3.9451e-06,  4.0114e-05,  4.5389e-05,  ..., -2.3261e-05,
+         -1.2256e-05, -2.1011e-05],
+        [ 3.2306e-05,  1.3471e-05,  1.3240e-05,  ...,  6.5938e-06,
+          7.3537e-06,  6.8098e-06],
+        [ 4.5836e-05,  1.5363e-05,  1.5303e-05,  ...,  1.0788e-05,
+          1.1683e-05,  1.1288e-05]], device='cuda:0')
+Epoch 53, bias, value: tensor([ 0.0975, -0.0110,  0.0033, -0.0435, -0.0195, -0.0265, -0.0199],
+       device='cuda:0'), grad: tensor([-4.1103e-04,  2.7731e-05,  2.4629e-04,  1.1206e-04, -1.4293e-04,
+         6.3896e-05,  1.0395e-04], device='cuda:0')
+588
+0.0015446867550656784
+changing lr
+epoch 52, time 811.24, cls_loss 0.0006 cls_loss_mapping 0.0049 cls_loss_causal 0.3763 re_mapping 0.0057 re_causal 0.0153 /// teacc 93.72 lr 0.00138603
+Epoch 54, weight, value: tensor([[ 1.9236e-02,  5.9243e-03,  4.4802e-05,  ..., -4.4004e-02,
+         -2.9287e-02, -2.3634e-02],
+        [ 1.0154e-01,  9.2152e-02,  9.9085e-02,  ...,  2.3838e-02,
+          4.0795e-02,  1.7714e-02],
+        [-1.5591e-02,  3.2306e-04, -1.3287e-02,  ...,  9.4146e-03,
+         -3.7143e-02, -3.7829e-02],
+        ...,
+        [-1.2796e-01, -1.1127e-01, -9.6918e-02,  ..., -2.4736e-02,
+         -2.1310e-02, -1.8973e-02],
+        [ 5.7148e-02,  5.4380e-02,  5.7287e-02,  ..., -4.2927e-02,
+         -4.1800e-02, -3.6588e-02],
+        [-1.0168e-02, -9.7066e-03, -2.1790e-02,  ..., -1.9552e-02,
+         -2.3871e-02, -2.4724e-02]], device='cuda:0'), grad: tensor([[-2.3794e-04, -5.3108e-05, -5.1767e-05,  ..., -4.8101e-05,
+         -5.3376e-05, -4.4495e-05],
+        [ 6.0171e-05,  1.8865e-05,  1.7509e-05,  ...,  1.5721e-05,
+          1.6555e-05,  1.5303e-05],
+        [-4.6134e-05, -1.1638e-05, -8.7023e-06,  ..., -2.2396e-05,
+         -2.2814e-05, -2.2754e-05],
+        ...,
+        [ 1.9574e-04,  3.6955e-05,  3.5584e-05,  ...,  4.8995e-05,
+          5.3227e-05,  4.5955e-05],
+        [ 1.5602e-05,  4.0084e-06,  3.8054e-06,  ...,  4.5002e-06,
+          4.7609e-06,  4.3325e-06],
+        [-9.8720e-06,  2.4424e-07,  1.1857e-07,  ..., -2.7101e-06,
+         -2.3302e-06, -1.9874e-06]], device='cuda:0')
+Epoch 54, bias, value: tensor([ 0.0973, -0.0113,  0.0034, -0.0429, -0.0196, -0.0268, -0.0196],
+       device='cuda:0'), grad: tensor([-8.1778e-04,  1.4758e-04, -9.5308e-05,  6.3658e-05,  6.8712e-04,
+         4.3929e-05, -2.9817e-05], device='cuda:0')
+588
+0.001386025680863044
+changing lr
+epoch 53, time 819.35, cls_loss 0.0005 cls_loss_mapping 0.0054 cls_loss_causal 0.3623 re_mapping 0.0057 re_causal 0.0149 /// teacc 94.97 lr 0.00123464
+Epoch 55, weight, value: tensor([[ 1.8977e-02,  5.8678e-03,  1.7327e-05,  ..., -4.4071e-02,
+         -2.9401e-02, -2.3767e-02],
+        [ 1.0181e-01,  9.2190e-02,  9.9106e-02,  ...,  2.3874e-02,
+          4.0781e-02,  1.7779e-02],
+        [-1.5330e-02,  3.3188e-04, -1.3243e-02,  ...,  9.4033e-03,
+         -3.7013e-02, -3.7684e-02],
+        ...,
+        [-1.2764e-01, -1.1101e-01, -9.6721e-02,  ..., -2.4645e-02,
+         -2.1225e-02, -1.8906e-02],
+        [ 5.6868e-02,  5.4226e-02,  5.7134e-02,  ..., -4.2846e-02,
+         -4.1726e-02, -3.6532e-02],
+        [-1.0504e-02, -9.8369e-03, -2.1864e-02,  ..., -1.9594e-02,
+         -2.3893e-02, -2.4736e-02]], device='cuda:0'), grad: tensor([[ 1.8859e-04,  7.7188e-05,  7.0512e-05,  ...,  8.0988e-06,
+          8.2254e-06,  6.0834e-06],
+        [ 4.1157e-05,  1.4707e-05,  1.1243e-05,  ...,  8.0913e-06,
+          8.8811e-06,  8.1807e-06],
+        [-2.9564e-04, -1.1748e-04, -1.0145e-04,  ..., -2.1741e-05,
+         -2.3305e-05, -1.8910e-05],
+        ...,
+        [ 1.1735e-05,  4.6529e-06,  3.2205e-06,  ...,  3.4217e-06,
+          4.0606e-06,  3.4161e-06],
+        [ 1.5542e-05,  6.1505e-06,  5.0701e-06,  ...,  1.5860e-06,
+          1.8831e-06,  1.5544e-06],
+        [ 2.0042e-05,  7.3947e-06,  5.7667e-06,  ...,  2.9299e-06,
+          3.0883e-06,  2.7288e-06]], device='cuda:0')
+Epoch 55, bias, value: tensor([ 0.0964, -0.0103,  0.0040, -0.0427, -0.0195, -0.0271, -0.0203],
+       device='cuda:0'), grad: tensor([ 3.9649e-04,  9.7752e-05, -6.4182e-04,  4.2558e-05,  2.5377e-05,
+         3.4302e-05,  4.6104e-05], device='cuda:0')
+588
+0.0012346426699819469
+changing lr
+epoch 54, time 818.20, cls_loss 0.0006 cls_loss_mapping 0.0052 cls_loss_causal 0.4023 re_mapping 0.0054 re_causal 0.0155 /// teacc 95.23 lr 0.00109084
+Epoch 56, weight, value: tensor([[ 1.9027e-02,  5.9107e-03,  7.4981e-05,  ..., -4.4077e-02,
+         -2.9437e-02, -2.3831e-02],
+        [ 1.0174e-01,  9.2130e-02,  9.9036e-02,  ...,  2.3879e-02,
+          4.0730e-02,  1.7805e-02],
+        [-1.5078e-02,  3.2887e-04, -1.3226e-02,  ...,  9.4241e-03,
+         -3.6863e-02, -3.7524e-02],
+        ...,
+        [-1.2755e-01, -1.1081e-01, -9.6567e-02,  ..., -2.4646e-02,
+         -2.1244e-02, -1.8933e-02],
+        [ 5.6710e-02,  5.4144e-02,  5.7054e-02,  ..., -4.2774e-02,
+         -4.1657e-02, -3.6478e-02],
+        [-1.0579e-02, -9.9115e-03, -2.1897e-02,  ..., -1.9593e-02,
+         -2.3874e-02, -2.4708e-02]], device='cuda:0'), grad: tensor([[ 5.3358e-04,  5.9724e-05,  4.3571e-05,  ...,  2.0003e-04,
+          1.9407e-04,  1.8501e-04],
+        [ 9.1136e-05,  6.8806e-06,  3.9712e-06,  ...,  2.5928e-05,
+          2.5451e-05,  2.4155e-05],
+        [-1.2560e-03, -1.4877e-04, -1.0318e-04,  ..., -5.0020e-04,
+         -4.7970e-04, -4.5681e-04],
+        ...,
+        [ 2.9945e-04,  3.4630e-05,  2.1651e-05,  ...,  1.6785e-04,
+          1.5759e-04,  1.5044e-04],
+        [ 5.6535e-05,  7.7933e-06,  5.5432e-06,  ...,  1.9357e-05,
+          1.8731e-05,  1.7837e-05],
+        [ 1.8883e-04,  2.1562e-05,  1.5259e-05,  ...,  7.1585e-05,
+          6.9320e-05,  6.5923e-05]], device='cuda:0')
+Epoch 56, bias, value: tensor([ 0.0964, -0.0102,  0.0047, -0.0428, -0.0199, -0.0273, -0.0203],
+       device='cuda:0'), grad: tensor([ 0.0017,  0.0003, -0.0040,  0.0002,  0.0010,  0.0002,  0.0006],
+       device='cuda:0')
+588
+0.0010908425876598518
+changing lr
+epoch 55, time 862.11, cls_loss 0.0006 cls_loss_mapping 0.0047 cls_loss_causal 0.3806 re_mapping 0.0054 re_causal 0.0152 /// teacc 94.47 lr 0.00095492
+Epoch 57, weight, value: tensor([[ 0.0193,  0.0060,  0.0002,  ..., -0.0440, -0.0294, -0.0238],
+        [ 0.1015,  0.0920,  0.0989,  ...,  0.0238,  0.0406,  0.0177],
+        [-0.0152,  0.0003, -0.0133,  ...,  0.0093, -0.0368, -0.0375],
+        ...,
+        [-0.1274, -0.1106, -0.0964,  ..., -0.0246, -0.0213, -0.0190],
+        [ 0.0565,  0.0540,  0.0570,  ..., -0.0427, -0.0416, -0.0364],
+        [-0.0106, -0.0100, -0.0219,  ..., -0.0196, -0.0238, -0.0247]],
+       device='cuda:0'), grad: tensor([[ 3.8600e-04,  2.6822e-05,  1.0721e-05,  ...,  1.1760e-04,
+          1.2839e-04,  1.3816e-04],
+        [-6.6757e-05, -8.3327e-05, -8.6904e-05,  ..., -2.9244e-06,
+         -5.7817e-06,  1.2927e-06],
+        [ 2.1973e-03,  3.1185e-04,  2.5558e-04,  ...,  5.0831e-04,
+          6.1703e-04,  6.3705e-04],
+        ...,
+        [ 3.5453e-04,  9.0837e-05,  7.9513e-05,  ...,  1.0568e-04,
+          1.1677e-04,  1.0854e-04],
+        [ 1.4377e-04,  2.7627e-05,  2.3857e-05,  ...,  3.2544e-05,
+          3.9220e-05,  3.8713e-05],
+        [-3.2330e-03, -3.9554e-04, -2.9469e-04,  ..., -7.9489e-04,
+         -9.4032e-04, -9.7227e-04]], device='cuda:0')
+Epoch 57, bias, value: tensor([ 0.0969, -0.0104,  0.0046, -0.0423, -0.0202, -0.0276, -0.0203],
+       device='cuda:0'), grad: tensor([ 8.3447e-04,  4.0412e-05,  5.7449e-03,  5.9032e-04,  8.8978e-04,
+         3.8910e-04, -8.4839e-03], device='cuda:0')
+588
+0.000954915028125264
+changing lr
+epoch 56, time 837.67, cls_loss 0.0005 cls_loss_mapping 0.0042 cls_loss_causal 0.3633 re_mapping 0.0055 re_causal 0.0149 /// teacc 93.47 lr 0.00082713
+Epoch 58, weight, value: tensor([[ 0.0193,  0.0060,  0.0002,  ..., -0.0440, -0.0295, -0.0239],
+        [ 0.1015,  0.0920,  0.0988,  ...,  0.0238,  0.0406,  0.0178],
+        [-0.0151,  0.0002, -0.0133,  ...,  0.0093, -0.0368, -0.0375],
+        ...,
+        [-0.1271, -0.1104, -0.0963,  ..., -0.0246, -0.0212, -0.0189],
+        [ 0.0566,  0.0541,  0.0570,  ..., -0.0426, -0.0415, -0.0364],
+        [-0.0108, -0.0101, -0.0220,  ..., -0.0196, -0.0238, -0.0246]],
+       device='cuda:0'), grad: tensor([[-1.6823e-03, -5.0926e-04, -4.8637e-04,  ..., -3.2330e-04,
+         -3.7551e-04, -3.5477e-04],
+        [ 8.0526e-05,  1.8597e-05,  1.6928e-05,  ...,  6.6347e-06,
+          8.4117e-06,  7.7710e-06],
+        [ 5.4884e-04,  1.7750e-04,  1.7118e-04,  ...,  8.9109e-05,
+          1.0771e-04,  9.7871e-05],
+        ...,
+        [ 1.9574e-04,  5.8621e-05,  5.4687e-05,  ...,  4.6819e-05,
+          5.1171e-05,  5.1379e-05],
+        [ 1.3626e-04,  3.8087e-05,  3.6269e-05,  ...,  2.7359e-05,
+          3.1888e-05,  3.0234e-05],
+        [ 2.4152e-04,  6.7830e-05,  6.4731e-05,  ...,  5.2035e-05,
+          5.9992e-05,  5.7161e-05]], device='cuda:0')
+Epoch 58, bias, value: tensor([ 0.0968, -0.0102,  0.0046, -0.0425, -0.0200, -0.0273, -0.0206],
+       device='cuda:0'), grad: tensor([-0.0040,  0.0002,  0.0012,  0.0011,  0.0005,  0.0003,  0.0006],
+       device='cuda:0')
+588
+0.0008271337313934874
+changing lr
+epoch 57, time 834.06, cls_loss 0.0006 cls_loss_mapping 0.0045 cls_loss_causal 0.3628 re_mapping 0.0056 re_causal 0.0145 /// teacc 94.47 lr 0.00070776
+Epoch 59, weight, value: tensor([[ 0.0191,  0.0059,  0.0002,  ..., -0.0441, -0.0296, -0.0240],
+        [ 0.1015,  0.0920,  0.0988,  ...,  0.0238,  0.0406,  0.0178],
+        [-0.0153,  0.0002, -0.0133,  ...,  0.0091, -0.0369, -0.0375],
+        ...,
+        [-0.1270, -0.1103, -0.0962,  ..., -0.0246, -0.0212, -0.0189],
+        [ 0.0566,  0.0540,  0.0570,  ..., -0.0426, -0.0415, -0.0363],
+        [-0.0109, -0.0101, -0.0220,  ..., -0.0195, -0.0238, -0.0246]],
+       device='cuda:0'), grad: tensor([[ 6.4969e-05,  1.7434e-05,  1.6734e-05,  ...,  5.0068e-05,
+          5.6088e-05,  5.3346e-05],
+        [-2.0516e-04, -6.3479e-05, -6.1333e-05,  ..., -1.1885e-04,
+         -1.3685e-04, -1.2839e-04],
+        [ 3.8266e-05,  9.7081e-06,  9.3654e-06,  ...,  2.6137e-05,
+          2.9400e-05,  2.7910e-05],
+        ...,
+        [ 8.5711e-05,  2.5943e-05,  2.5034e-05,  ...,  4.4644e-05,
+          5.1081e-05,  4.8190e-05],
+        [ 2.7150e-05,  6.6273e-06,  6.5230e-06,  ...,  1.4983e-05,
+          1.6764e-05,  1.5929e-05],
+        [ 2.9743e-05,  7.6964e-06,  7.5363e-06,  ...,  1.6034e-05,
+          1.8016e-05,  1.7092e-05]], device='cuda:0')
+Epoch 59, bias, value: tensor([ 0.0963, -0.0098,  0.0042, -0.0420, -0.0200, -0.0272, -0.0207],
+       device='cuda:0'), grad: tensor([ 1.6248e-04, -4.9639e-04,  9.8109e-05, -1.1456e-04,  2.0695e-04,
+         6.9261e-05,  7.4804e-05], device='cuda:0')
+588
+0.00070775603199067
+changing lr
+epoch 58, time 827.02, cls_loss 0.0004 cls_loss_mapping 0.0034 cls_loss_causal 0.3578 re_mapping 0.0055 re_causal 0.0146 /// teacc 93.47 lr 0.00059702
+Epoch 60, weight, value: tensor([[ 0.0192,  0.0060,  0.0002,  ..., -0.0441, -0.0295, -0.0240],
+        [ 0.1015,  0.0919,  0.0988,  ...,  0.0238,  0.0405,  0.0178],
+        [-0.0153,  0.0001, -0.0133,  ...,  0.0091, -0.0368, -0.0374],
+        ...,
+        [-0.1269, -0.1101, -0.0961,  ..., -0.0245, -0.0212, -0.0189],
+        [ 0.0566,  0.0540,  0.0570,  ..., -0.0425, -0.0414, -0.0363],
+        [-0.0110, -0.0102, -0.0220,  ..., -0.0195, -0.0238, -0.0246]],
+       device='cuda:0'), grad: tensor([[ 1.4305e-04,  1.9282e-05,  1.7032e-05,  ...,  5.0604e-05,
+          5.0515e-05,  4.6581e-05],
+        [ 7.9691e-05,  1.2316e-05,  1.1563e-05,  ...,  2.8864e-05,
+          2.9862e-05,  2.7835e-05],
+        [-1.4925e-04, -2.4706e-05, -1.8701e-05,  ..., -5.4717e-05,
+         -5.0336e-05, -4.5568e-05],
+        ...,
+        [ 4.7445e-05,  2.2650e-06,  5.1223e-06,  ..., -3.2503e-06,
+         -2.2985e-06, -2.7996e-06],
+        [ 3.8445e-05,  4.8876e-06,  5.1185e-06,  ...,  8.3223e-06,
+          8.8960e-06,  8.1509e-06],
+        [-1.6069e-04, -1.2018e-05, -1.7703e-05,  ...,  4.4070e-06,
+          2.5542e-07,  1.7406e-06]], device='cuda:0')
+Epoch 60, bias, value: tensor([ 0.0965, -0.0097,  0.0043, -0.0424, -0.0201, -0.0271, -0.0208],
+       device='cuda:0'), grad: tensor([ 3.6097e-04,  2.0945e-04, -3.3689e-04,  3.8035e-06,  1.1551e-04,
+         1.0365e-04, -4.5753e-04], device='cuda:0')
+588
+0.0005970223407163104
+changing lr
+epoch 59, time 833.93, cls_loss 0.0006 cls_loss_mapping 0.0046 cls_loss_causal 0.3728 re_mapping 0.0055 re_causal 0.0144 /// teacc 93.47 lr 0.00049516
+Epoch 61, weight, value: tensor([[ 1.9358e-02,  5.9921e-03,  2.2187e-04,  ..., -4.4049e-02,
+         -2.9533e-02, -2.3989e-02],
+        [ 1.0139e-01,  9.1860e-02,  9.8725e-02,  ...,  2.3804e-02,
+          4.0483e-02,  1.7808e-02],
+        [-1.5310e-02,  1.0410e-04, -1.3330e-02,  ...,  9.0783e-03,
+         -3.6790e-02, -3.7418e-02],
+        ...,
+        [-1.2680e-01, -1.1002e-01, -9.5998e-02,  ..., -2.4496e-02,
+         -2.1143e-02, -1.8867e-02],
+        [ 5.6539e-02,  5.4003e-02,  5.6932e-02,  ..., -4.2478e-02,
+         -4.1351e-02, -3.6234e-02],
+        [-1.1027e-02, -1.0200e-02, -2.2028e-02,  ..., -1.9508e-02,
+         -2.3734e-02, -2.4540e-02]], device='cuda:0'), grad: tensor([[ 3.1829e-05,  1.4780e-06, -9.8255e-07,  ...,  8.5533e-06,
+          6.4261e-06,  6.1728e-06],
+        [ 9.4697e-06,  2.8610e-06,  2.1830e-06,  ...,  2.3656e-06,
+          2.5481e-06,  2.2873e-06],
+        [-2.9966e-05, -6.3665e-06, -2.7064e-06,  ..., -2.8498e-06,
+          7.8510e-07,  1.6391e-07],
+        ...,
+        [-3.5614e-05, -2.3879e-06, -1.5106e-06,  ..., -1.4834e-05,
+         -1.6674e-05, -1.4864e-05],
+        [ 6.2808e-06,  1.2089e-06,  8.5123e-07,  ...,  1.8999e-06,
+          1.9465e-06,  1.7714e-06],
+        [ 1.0625e-05,  1.7984e-06,  1.1921e-06,  ...,  3.2224e-06,
+          3.3136e-06,  3.0063e-06]], device='cuda:0')
+Epoch 61, bias, value: tensor([ 0.0968, -0.0097,  0.0041, -0.0422, -0.0202, -0.0271, -0.0208],
+       device='cuda:0'), grad: tensor([ 1.0639e-04,  2.4289e-05, -7.6115e-05,  2.2411e-05, -1.2767e-04,
+         1.8746e-05,  3.2216e-05], device='cuda:0')
+588
+0.0004951556604879052
+changing lr
+epoch 60, time 814.07, cls_loss 0.0005 cls_loss_mapping 0.0040 cls_loss_causal 0.3484 re_mapping 0.0055 re_causal 0.0142 /// teacc 93.97 lr 0.00040236
+Epoch 62, weight, value: tensor([[ 1.9339e-02,  5.9891e-03,  2.2648e-04,  ..., -4.4053e-02,
+         -2.9553e-02, -2.4015e-02],
+        [ 1.0133e-01,  9.1832e-02,  9.8697e-02,  ...,  2.3796e-02,
+          4.0456e-02,  1.7812e-02],
+        [-1.5361e-02,  8.2123e-05, -1.3336e-02,  ...,  9.0285e-03,
+         -3.6793e-02, -3.7415e-02],
+        ...,
+        [-1.2664e-01, -1.0991e-01, -9.5910e-02,  ..., -2.4450e-02,
+         -2.1100e-02, -1.8832e-02],
+        [ 5.6426e-02,  5.3945e-02,  5.6875e-02,  ..., -4.2450e-02,
+         -4.1326e-02, -3.6214e-02],
+        [-1.0852e-02, -1.0183e-02, -2.1999e-02,  ..., -1.9454e-02,
+         -2.3666e-02, -2.4474e-02]], device='cuda:0'), grad: tensor([[ 1.9401e-05,  1.7760e-06,  1.0058e-06,  ...,  1.0498e-05,
+          1.0416e-05,  1.0252e-05],
+        [ 9.1717e-06,  1.0962e-06,  9.6019e-07,  ...,  2.4419e-06,
+          2.4382e-06,  2.2687e-06],
+        [ 7.1451e-06, -8.5973e-08, -3.0082e-07,  ...,  4.6119e-06,
+          4.4703e-06,  4.3139e-06],
+        ...,
+        [-3.5644e-05, -1.7444e-06, -1.6764e-06,  ..., -4.5523e-06,
+         -4.2170e-06, -3.3155e-06],
+        [ 1.0163e-05,  1.6522e-06,  1.3337e-06,  ...,  4.4592e-06,
+          4.4741e-06,  4.3660e-06],
+        [ 2.2277e-05,  3.4608e-06,  2.6468e-06,  ...,  1.1228e-05,
+          1.1235e-05,  1.1146e-05]], device='cuda:0')
+Epoch 62, bias, value: tensor([ 0.0967, -0.0098,  0.0040, -0.0424, -0.0200, -0.0273, -0.0203],
+       device='cuda:0'), grad: tensor([ 5.9962e-05,  2.8893e-05,  2.6122e-05, -8.5354e-05, -1.2314e-04,
+         2.9430e-05,  6.3837e-05], device='cuda:0')
+588
+0.00040236113724274745
+changing lr
+epoch 61, time 818.46, cls_loss 0.0005 cls_loss_mapping 0.0037 cls_loss_causal 0.3831 re_mapping 0.0056 re_causal 0.0145 /// teacc 94.22 lr 0.00031883
+Epoch 63, weight, value: tensor([[ 1.9363e-02,  5.9985e-03,  2.3881e-04,  ..., -4.4039e-02,
+         -2.9550e-02, -2.4018e-02],
+        [ 1.0122e-01,  9.1775e-02,  9.8637e-02,  ...,  2.3767e-02,
+          4.0408e-02,  1.7790e-02],
+        [-1.5357e-02,  7.1578e-05, -1.3335e-02,  ...,  9.0095e-03,
+         -3.6767e-02, -3.7386e-02],
+        ...,
+        [-1.2657e-01, -1.0983e-01, -9.5850e-02,  ..., -2.4428e-02,
+         -2.1083e-02, -1.8820e-02],
+        [ 5.6379e-02,  5.3913e-02,  5.6843e-02,  ..., -4.2419e-02,
+         -4.1295e-02, -3.6189e-02],
+        [-1.0837e-02, -1.0192e-02, -2.1994e-02,  ..., -1.9449e-02,
+         -2.3656e-02, -2.4463e-02]], device='cuda:0'), grad: tensor([[ 2.6488e-04,  1.9848e-05,  3.2991e-05,  ...,  6.5565e-05,
+          8.4043e-05,  8.1599e-05],
+        [ 1.1134e-04,  3.2008e-05,  2.9013e-05,  ...,  3.2455e-05,
+          3.6865e-05,  3.0056e-05],
+        [ 2.5892e-04,  6.5267e-05,  5.8979e-05,  ...,  1.0282e-04,
+          1.1772e-04,  1.0735e-04],
+        ...,
+        [-6.4087e-04, -3.6716e-05, -3.5524e-05,  ..., -2.5940e-04,
+         -3.0088e-04, -2.7990e-04],
+        [-3.6716e-04, -2.2912e-04, -2.2316e-04,  ..., -2.1562e-05,
+         -3.3110e-05, -2.4393e-05],
+        [ 1.0294e-04,  2.6777e-05,  2.5406e-05,  ...,  3.0965e-05,
+          3.6538e-05,  3.3766e-05]], device='cuda:0')
+Epoch 63, bias, value: tensor([ 0.0967, -0.0099,  0.0039, -0.0422, -0.0201, -0.0273, -0.0202],
+       device='cuda:0'), grad: tensor([ 0.0009,  0.0003,  0.0007,  0.0005, -0.0022, -0.0004,  0.0003],
+       device='cuda:0')
+588
+0.00031882564680131423
+changing lr
+epoch 62, time 818.18, cls_loss 0.0005 cls_loss_mapping 0.0036 cls_loss_causal 0.3767 re_mapping 0.0055 re_causal 0.0145 /// teacc 94.72 lr 0.00024472
+Epoch 64, weight, value: tensor([[ 1.9397e-02,  6.0069e-03,  2.5168e-04,  ..., -4.4023e-02,
+         -2.9542e-02, -2.4017e-02],
+        [ 1.0121e-01,  9.1758e-02,  9.8619e-02,  ...,  2.3769e-02,
+          4.0397e-02,  1.7799e-02],
+        [-1.5343e-02,  6.4448e-05, -1.3336e-02,  ...,  8.9903e-03,
+         -3.6754e-02, -3.7371e-02],
+        ...,
+        [-1.2646e-01, -1.0975e-01, -9.5791e-02,  ..., -2.4396e-02,
+         -2.1054e-02, -1.8795e-02],
+        [ 5.6358e-02,  5.3897e-02,  5.6829e-02,  ..., -4.2391e-02,
+         -4.1265e-02, -3.6163e-02],
+        [-1.0902e-02, -1.0219e-02, -2.2008e-02,  ..., -1.9452e-02,
+         -2.3656e-02, -2.4460e-02]], device='cuda:0'), grad: tensor([[ 7.8249e-04,  2.6870e-04,  2.5654e-04,  ...,  3.6502e-04,
+          4.0627e-04,  3.9268e-04],
+        [-9.0981e-04, -3.2449e-04, -3.1972e-04,  ..., -4.0054e-04,
+         -4.5037e-04, -4.3225e-04],
+        [-2.5392e-04, -8.8215e-05, -7.1347e-05,  ..., -6.3241e-05,
+         -6.8545e-05, -6.2943e-05],
+        ...,
+        [ 1.3018e-04,  5.0902e-05,  4.6849e-05,  ...,  2.5526e-05,
+          3.0309e-05,  2.6613e-05],
+        [ 5.3078e-05,  1.9252e-05,  1.7226e-05,  ...,  1.4260e-05,
+          1.5929e-05,  1.4618e-05],
+        [ 7.8738e-05,  2.8983e-05,  2.7746e-05,  ...,  2.4587e-05,
+          2.7925e-05,  2.5958e-05]], device='cuda:0')
+Epoch 64, bias, value: tensor([ 0.0968, -0.0099,  0.0040, -0.0424, -0.0200, -0.0273, -0.0203],
+       device='cuda:0'), grad: tensor([ 0.0018, -0.0020, -0.0006,  0.0003,  0.0003,  0.0001,  0.0002],
+       device='cuda:0')
+588
+0.0002447174185242325
+changing lr
+epoch 63, time 817.11, cls_loss 0.0005 cls_loss_mapping 0.0043 cls_loss_causal 0.3586 re_mapping 0.0055 re_causal 0.0140 /// teacc 93.47 lr 0.00018019
+Epoch 65, weight, value: tensor([[ 1.9430e-02,  6.0206e-03,  2.6923e-04,  ..., -4.4019e-02,
+         -2.9545e-02, -2.4024e-02],
+        [ 1.0116e-01,  9.1729e-02,  9.8590e-02,  ...,  2.3754e-02,
+          4.0371e-02,  1.7788e-02],
+        [-1.5338e-02,  5.6364e-05, -1.3338e-02,  ...,  8.9773e-03,
+         -3.6743e-02, -3.7356e-02],
+        ...,
+        [-1.2641e-01, -1.0970e-01, -9.5758e-02,  ..., -2.4382e-02,
+         -2.1042e-02, -1.8785e-02],
+        [ 5.6326e-02,  5.3883e-02,  5.6814e-02,  ..., -4.2378e-02,
+         -4.1253e-02, -3.6155e-02],
+        [-1.0889e-02, -1.0227e-02, -2.2006e-02,  ..., -1.9438e-02,
+         -2.3638e-02, -2.4441e-02]], device='cuda:0'), grad: tensor([[-3.8892e-05, -2.4647e-05, -1.9073e-05,  ..., -2.3451e-06,
+         -5.2527e-06, -5.6513e-06],
+        [-3.7640e-05, -2.2203e-05, -2.1234e-05,  ..., -3.0287e-06,
+         -3.8855e-06, -3.4124e-06],
+        [-6.7174e-05, -7.9870e-06, -1.8477e-06,  ..., -2.3425e-05,
+         -1.8865e-05, -1.8954e-05],
+        ...,
+        [ 5.9009e-05,  2.1681e-05,  1.6868e-05,  ...,  1.4737e-05,
+          1.4514e-05,  1.4693e-05],
+        [ 2.0579e-05,  8.5905e-06,  6.9067e-06,  ...,  4.6045e-06,
+          4.9807e-06,  4.9695e-06],
+        [ 3.8952e-05,  1.2927e-05,  9.7305e-06,  ...,  1.0096e-05,
+          9.7305e-06,  9.7528e-06]], device='cuda:0')
+Epoch 65, bias, value: tensor([ 0.0968, -0.0099,  0.0040, -0.0424, -0.0200, -0.0274, -0.0202],
+       device='cuda:0'), grad: tensor([-5.6654e-05, -5.7191e-05, -2.1434e-04,  5.2452e-05,  1.3638e-04,
+         4.3988e-05,  9.5069e-05], device='cuda:0')
+588
+0.0001801856965207339
+changing lr
+epoch 64, time 818.37, cls_loss 0.0005 cls_loss_mapping 0.0043 cls_loss_causal 0.3701 re_mapping 0.0055 re_causal 0.0143 /// teacc 93.97 lr 0.00012536
+Epoch 66, weight, value: tensor([[ 1.9391e-02,  6.0045e-03,  2.5656e-04,  ..., -4.4025e-02,
+         -2.9557e-02, -2.4037e-02],
+        [ 1.0118e-01,  9.1728e-02,  9.8586e-02,  ...,  2.3757e-02,
+          4.0366e-02,  1.7794e-02],
+        [-1.5323e-02,  5.2084e-05, -1.3338e-02,  ...,  8.9705e-03,
+         -3.6732e-02, -3.7344e-02],
+        ...,
+        [-1.2638e-01, -1.0967e-01, -9.5732e-02,  ..., -2.4379e-02,
+         -2.1040e-02, -1.8785e-02],
+        [ 5.6347e-02,  5.3891e-02,  5.6822e-02,  ..., -4.2362e-02,
+         -4.1237e-02, -3.6141e-02],
+        [-1.0914e-02, -1.0242e-02, -2.2015e-02,  ..., -1.9436e-02,
+         -2.3633e-02, -2.4435e-02]], device='cuda:0'), grad: tensor([[-6.0749e-04, -2.3127e-04, -2.1076e-04,  ..., -7.3493e-05,
+         -1.1480e-04, -9.1970e-05],
+        [ 3.8624e-05,  1.0416e-05,  9.1195e-06,  ..., -6.2212e-06,
+         -1.3597e-06, -3.7886e-06],
+        [ 8.5771e-05,  3.4720e-05,  3.3379e-05,  ...,  9.1940e-06,
+          1.6868e-05,  1.2621e-05],
+        ...,
+        [ 1.1730e-04,  4.5061e-05,  4.1395e-05,  ...,  1.4901e-05,
+          2.2456e-05,  1.8030e-05],
+        [ 4.8608e-05,  1.7926e-05,  1.5914e-05,  ...,  5.7332e-06,
+          8.6129e-06,  6.7353e-06],
+        [ 6.8128e-05,  2.6032e-05,  2.2680e-05,  ...,  1.0304e-05,
+          1.3813e-05,  1.1615e-05]], device='cuda:0')
+Epoch 66, bias, value: tensor([ 0.0967, -0.0098,  0.0040, -0.0424, -0.0200, -0.0273, -0.0203],
+       device='cuda:0'), grad: tensor([-0.0014,  0.0001,  0.0002,  0.0005,  0.0003,  0.0001,  0.0002],
+       device='cuda:0')
+588
+0.000125360439090882
+changing lr
+epoch 65, time 821.21, cls_loss 0.0004 cls_loss_mapping 0.0032 cls_loss_causal 0.3603 re_mapping 0.0055 re_causal 0.0141 /// teacc 94.22 lr 0.00008035
+Epoch 67, weight, value: tensor([[ 1.9395e-02,  6.0037e-03,  2.5760e-04,  ..., -4.4020e-02,
+         -2.9556e-02, -2.4039e-02],
+        [ 1.0117e-01,  9.1720e-02,  9.8576e-02,  ...,  2.3755e-02,
+          4.0359e-02,  1.7794e-02],
+        [-1.5327e-02,  4.8331e-05, -1.3338e-02,  ...,  8.9619e-03,
+         -3.6727e-02, -3.7338e-02],
+        ...,
+        [-1.2636e-01, -1.0965e-01, -9.5715e-02,  ..., -2.4372e-02,
+         -2.1034e-02, -1.8781e-02],
+        [ 5.6358e-02,  5.3893e-02,  5.6824e-02,  ..., -4.2352e-02,
+         -4.1227e-02, -3.6132e-02],
+        [-1.0933e-02, -1.0252e-02, -2.2019e-02,  ..., -1.9435e-02,
+         -2.3630e-02, -2.4431e-02]], device='cuda:0'), grad: tensor([[ 5.1893e-06, -9.9763e-06, -1.2435e-05,  ...,  1.1377e-05,
+          1.0319e-05,  1.0945e-05],
+        [ 5.5403e-05,  1.4208e-05,  1.0669e-05,  ...,  1.8984e-05,
+          2.0772e-05,  1.9774e-05],
+        [-1.1122e-04, -1.9580e-05, -1.1794e-05,  ..., -3.4779e-05,
+         -2.6643e-05, -2.6211e-05],
+        ...,
+        [-1.5461e-04, -2.4006e-05, -1.0379e-05,  ..., -7.1645e-05,
+         -8.6904e-05, -8.2314e-05],
+        [ 2.3827e-05,  5.6513e-06,  4.0270e-06,  ...,  8.1882e-06,
+          9.2238e-06,  8.6203e-06],
+        [ 3.6031e-05,  8.2925e-06,  5.8301e-06,  ...,  1.1750e-05,
+          1.1489e-05,  1.0930e-05]], device='cuda:0')
+Epoch 67, bias, value: tensor([ 0.0967, -0.0098,  0.0040, -0.0424, -0.0200, -0.0273, -0.0203],
+       device='cuda:0'), grad: tensor([ 5.1171e-05,  1.5330e-04, -3.1614e-04,  4.4394e-04, -5.0020e-04,
+         6.7890e-05,  1.0043e-04], device='cuda:0')
+588
+8.03520570068517e-05
+changing lr
+epoch 66, time 822.08, cls_loss 0.0005 cls_loss_mapping 0.0041 cls_loss_causal 0.3840 re_mapping 0.0054 re_causal 0.0142 /// teacc 93.72 lr 0.00004525
+Epoch 68, weight, value: tensor([[ 1.9386e-02,  6.0006e-03,  2.5605e-04,  ..., -4.4021e-02,
+         -2.9560e-02, -2.4044e-02],
+        [ 1.0117e-01,  9.1715e-02,  9.8571e-02,  ...,  2.3754e-02,
+          4.0355e-02,  1.7795e-02],
+        [-1.5326e-02,  4.6192e-05, -1.3338e-02,  ...,  8.9587e-03,
+         -3.6723e-02, -3.7333e-02],
+        ...,
+        [-1.2635e-01, -1.0963e-01, -9.5705e-02,  ..., -2.4368e-02,
+         -2.1031e-02, -1.8779e-02],
+        [ 5.6361e-02,  5.3893e-02,  5.6824e-02,  ..., -4.2346e-02,
+         -4.1220e-02, -3.6127e-02],
+        [-1.0933e-02, -1.0256e-02, -2.2021e-02,  ..., -1.9432e-02,
+         -2.3625e-02, -2.4427e-02]], device='cuda:0'), grad: tensor([[ 5.1165e-04,  2.0063e-04,  2.0337e-04,  ...,  1.0556e-04,
+          1.3030e-04,  1.1927e-04],
+        [ 6.7890e-05,  1.6257e-05,  1.5646e-05,  ...,  4.4435e-05,
+          4.8548e-05,  4.7535e-05],
+        [ 2.3222e-04,  1.0866e-04,  1.1337e-04,  ...,  2.1458e-06,
+          1.5616e-05,  1.0595e-05],
+        ...,
+        [ 2.4033e-04,  8.5056e-05,  8.7380e-05,  ...,  4.8339e-05,
+          6.1035e-05,  5.4985e-05],
+        [-1.8196e-03, -7.2813e-04, -7.6342e-04,  ..., -4.5121e-05,
+         -1.4198e-04, -9.0241e-05],
+        [ 8.0776e-04,  2.9039e-04,  3.0875e-04,  ...,  3.1978e-05,
+          7.9513e-05,  5.4061e-05]], device='cuda:0')
+Epoch 68, bias, value: tensor([ 0.0967, -0.0098,  0.0040, -0.0424, -0.0200, -0.0272, -0.0203],
+       device='cuda:0'), grad: tensor([ 0.0011,  0.0002,  0.0004, -0.0002,  0.0005, -0.0038,  0.0018],
+       device='cuda:0')
+588
+4.5251191160326525e-05
+changing lr
+epoch 67, time 826.03, cls_loss 0.0005 cls_loss_mapping 0.0030 cls_loss_causal 0.3671 re_mapping 0.0054 re_causal 0.0139 /// teacc 93.47 lr 0.00002013
+Epoch 69, weight, value: tensor([[ 1.9381e-02,  6.0005e-03,  2.5696e-04,  ..., -4.4022e-02,
+         -2.9563e-02, -2.4047e-02],
+        [ 1.0115e-01,  9.1708e-02,  9.8563e-02,  ...,  2.3750e-02,
+          4.0349e-02,  1.7792e-02],
+        [-1.5322e-02,  4.5653e-05, -1.3338e-02,  ...,  8.9570e-03,
+         -3.6720e-02, -3.7330e-02],
+        ...,
+        [-1.2632e-01, -1.0962e-01, -9.5695e-02,  ..., -2.4363e-02,
+         -2.1026e-02, -1.8775e-02],
+        [ 5.6358e-02,  5.3890e-02,  5.6822e-02,  ..., -4.2343e-02,
+         -4.1217e-02, -3.6124e-02],
+        [-1.0940e-02, -1.0259e-02, -2.2022e-02,  ..., -1.9431e-02,
+         -2.3625e-02, -2.4426e-02]], device='cuda:0'), grad: tensor([[-5.2571e-05, -2.1592e-05, -1.6123e-05,  ...,  1.7524e-05,
+          1.6361e-05,  1.7121e-05],
+        [ 1.4913e-04,  5.0575e-05,  4.3660e-05,  ...,  6.2585e-05,
+          6.6280e-05,  6.3479e-05],
+        [ 3.7169e-04,  1.3077e-04,  1.1325e-04,  ...,  1.5879e-04,
+          1.6749e-04,  1.6141e-04],
+        ...,
+        [ 3.7938e-05,  1.4491e-05,  1.0163e-05,  ...,  4.1425e-05,
+          4.2081e-05,  4.2140e-05],
+        [ 4.6223e-05,  1.5482e-05,  1.3426e-05,  ...,  1.7703e-05,
+          1.8865e-05,  1.7986e-05],
+        [ 4.0650e-05,  1.2502e-05,  1.0550e-05,  ...,  1.5870e-05,
+          1.7017e-05,  1.6078e-05]], device='cuda:0')
+Epoch 69, bias, value: tensor([ 0.0967, -0.0098,  0.0040, -0.0424, -0.0200, -0.0272, -0.0203],
+       device='cuda:0'), grad: tensor([-1.2136e-04,  3.5787e-04,  8.7738e-04, -1.4086e-03,  8.1360e-05,
+         1.1182e-04,  1.0175e-04], device='cuda:0')
+588
+2.0128530023804673e-05
+changing lr
+epoch 68, time 822.66, cls_loss 0.0006 cls_loss_mapping 0.0041 cls_loss_causal 0.3419 re_mapping 0.0054 re_causal 0.0136 /// teacc 94.22 lr 0.00000503
+Epoch 70, weight, value: tensor([[ 1.9376e-02,  5.9980e-03,  2.5460e-04,  ..., -4.4023e-02,
+         -2.9564e-02, -2.4048e-02],
+        [ 1.0115e-01,  9.1704e-02,  9.8559e-02,  ...,  2.3748e-02,
+          4.0346e-02,  1.7790e-02],
+        [-1.5322e-02,  4.4735e-05, -1.3338e-02,  ...,  8.9561e-03,
+         -3.6719e-02, -3.7328e-02],
+        ...,
+        [-1.2632e-01, -1.0961e-01, -9.5691e-02,  ..., -2.4362e-02,
+         -2.1025e-02, -1.8774e-02],
+        [ 5.6372e-02,  5.3896e-02,  5.6828e-02,  ..., -4.2340e-02,
+         -4.1213e-02, -3.6122e-02],
+        [-1.0944e-02, -1.0261e-02, -2.2024e-02,  ..., -1.9431e-02,
+         -2.3624e-02, -2.4425e-02]], device='cuda:0'), grad: tensor([[ 2.3887e-05,  3.8594e-06,  2.2706e-06,  ...,  5.3272e-06,
+          6.1691e-06,  5.7891e-06],
+        [ 6.0081e-05,  1.3053e-05,  9.9242e-06,  ...,  1.2040e-05,
+          1.5795e-05,  1.3605e-05],
+        [ 1.8263e-04,  3.5405e-05,  2.4334e-05,  ...,  4.2975e-05,
+          4.8727e-05,  4.5717e-05],
+        ...,
+        [-3.0303e-04, -6.0678e-05, -4.2796e-05,  ..., -6.1095e-05,
+         -7.3016e-05, -6.6578e-05],
+        [ 1.5147e-05,  2.6915e-06,  2.3749e-06,  ...,  3.7998e-06,
+          4.4405e-06,  4.0382e-06],
+        [ 2.2575e-05,  4.6827e-06,  3.6024e-06,  ...,  4.3511e-06,
+          5.6103e-06,  4.8652e-06]], device='cuda:0')
+Epoch 70, bias, value: tensor([ 0.0967, -0.0098,  0.0040, -0.0424, -0.0200, -0.0272, -0.0203],
+       device='cuda:0'), grad: tensor([ 7.2002e-05,  1.6785e-04,  5.2834e-04, -1.3001e-06, -8.7643e-04,
+         4.5389e-05,  6.4313e-05], device='cuda:0')
+588
+5.034667293427056e-06
+changing lr
+epoch 69, time 798.92, cls_loss 0.0005 cls_loss_mapping 0.0031 cls_loss_causal 0.3595 re_mapping 0.0055 re_causal 0.0142 /// teacc 93.72 lr 0.00000000
+---------------------saving last model at epoch 69----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps2', 'source_domain': 'sketch', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps2/sketch_16factor_best_test_check.csv', 'factor_num': 16, 'epoch': 'best', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of best
+randm: False
+stride: 5
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+columns: ['sketch', 'art_painting', 'cartoon', 'photo']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+                        sketch  art_painting    cartoon      photo        Avg
+w/o do (original x)  99.516416     55.810547  64.974403  56.886228  59.223726
+       sketch  art_painting    cartoon      photo       Avg
+do  99.414609     48.193359  61.433447  53.293413  54.30674
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps2', 'source_domain': 'sketch', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps2/sketch_16factor_last_test_check.csv', 'factor_num': 16, 'epoch': 'last', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of last
+randm: False
+stride: 5
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+columns: ['sketch', 'art_painting', 'cartoon', 'photo']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+                        sketch  art_painting    cartoon      photo        Avg
+w/o do (original x)  99.363706     57.519531  66.552901  60.239521  61.437318
+       sketch  art_painting    cartoon      photo        Avg
+do  99.440061     56.054688  65.443686  59.341317  60.279897
diff --git a/Meta-causal/code-withStyleAttack/73725.error b/Meta-causal/code-withStyleAttack/73725.error
new file mode 100644
index 0000000000000000000000000000000000000000..68ebc7c9e27d1fe496dca13317c570dc31508805
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73725.error
@@ -0,0 +1,384 @@
+Solving dependencies
+Installing conda packages
+Empty environment created at prefix: /scratch/yuqian_fu/micromamba/envs/auto-mbc2l5uijcy3
+Transaction
+
+  Prefix: /scratch/yuqian_fu/micromamba/envs/auto-mbc2l5uijcy3
+
+
+
+  No specs added or removed.
+
+  Package                 Version  Build                         Channel                           Size
+─────────────────────────────────────────────────────────────────────────────────────────────────────────
+  Install:
+─────────────────────────────────────────────────────────────────────────────────────────────────────────
+
+  + _libgcc_mutex             0.1  conda_forge                   conda-forge                           
+  + _openmp_mutex             4.5  2_kmp_llvm                    conda-forge                           
+  + blas                    2.116  mkl                           conda-forge                           
+  + blas-devel              3.9.0  16_linux64_mkl                conda-forge                           
+  + brotli-python           1.1.0  py311hb755f60_1               conda-forge                           
+  + bzip2                   1.0.8  h4bc722e_7                    conda-forge                           
+  + ca-certificates      2024.7.4  hbcca054_0                    conda-forge                           
+  + certifi              2024.7.4  pyhd8ed1ab_0                  conda-forge                           
+  + cffi                   1.16.0  py311hb3a22ac_0               conda-forge                           
+  + charset-normalizer      3.3.2  pyhd8ed1ab_0                  conda-forge                           
+  + click                   8.1.7  unix_pyh707e725_0             conda-forge                           
+  + cuda-cudart          12.1.105  0                             nvidia                                
+  + cuda-cupti           12.1.105  0                             /work/conda/cache/nvidia              
+  + cuda-libraries         12.1.0  0                             nvidia                                
+  + cuda-nvrtc           12.1.105  0                             /work/conda/cache/nvidia              
+  + cuda-nvtx            12.1.105  0                             nvidia                                
+  + cuda-opencl           12.6.37  0                             nvidia                                
+  + cuda-runtime           12.1.0  0                             nvidia                                
+  + cuda-version             12.6  3                             nvidia                                
+  + ffmpeg                    4.3  hf484d3e_0                    /work/conda/cache/pytorch             
+  + filelock               3.15.4  pyhd8ed1ab_0                  conda-forge                           
+  + freetype               2.12.1  h267a509_2                    conda-forge                           
+  + gmp                     6.3.0  hac33072_2                    conda-forge                           
+  + gmpy2                   2.1.5  py311hc4f1f91_1               conda-forge                           
+  + gnutls                 3.6.13  h85f3911_1                    /work/conda/cache/conda-forge         
+  + h2                      4.1.0  pyhd8ed1ab_0                  conda-forge                           
+  + hpack                   4.0.0  pyh9f0ad1d_0                  conda-forge                           
+  + hyperframe              6.0.1  pyhd8ed1ab_0                  conda-forge                           
+  + icu                      73.2  h59595ed_0                    /work/conda/cache/conda-forge         
+  + idna                      3.7  pyhd8ed1ab_0                  conda-forge                           
+  + jinja2                  3.1.4  pyhd8ed1ab_0                  conda-forge                           
+  + jpeg                       9e  h166bdaf_2                    conda-forge                           
+  + lame                    3.100  h166bdaf_1003                 conda-forge                           
+  + lcms2                    2.15  hfd0df8a_0                    conda-forge                           
+  + ld_impl_linux-64         2.40  hf3520f5_7                    conda-forge                           
+  + lerc                    4.0.0  h27087fc_0                    conda-forge                           
+  + libblas                 3.9.0  16_linux64_mkl                conda-forge                           
+  + libcblas                3.9.0  16_linux64_mkl                conda-forge                           
+  + libcublas           12.1.0.26  0                             /work/conda/cache/nvidia              
+  + libcufft             11.0.2.4  0                             /work/conda/cache/nvidia              
+  + libcufile           1.11.0.15  0                             /work/conda/cache/nvidia              
+  + libcurand           10.3.7.37  0                             /work/conda/cache/nvidia              
+  + libcusolver         11.4.4.55  0                             /work/conda/cache/nvidia              
+  + libcusparse         12.0.2.55  0                             /work/conda/cache/nvidia              
+  + libdeflate               1.17  h0b41bf4_0                    conda-forge                           
+  + libexpat                2.6.2  h59595ed_0                    conda-forge                           
+  + libffi                  3.4.2  h7f98852_5                    conda-forge                           
+  + libgcc-ng              14.1.0  h77fa898_0                    conda-forge                           
+  + libgfortran-ng         14.1.0  h69a702a_0                    conda-forge                           
+  + libgfortran5           14.1.0  hc5f4f2c_0                    /work/conda/cache/conda-forge         
+  + libhwloc               2.11.1  default_hecaa2ac_1000         /work/conda/cache/conda-forge         
+  + libiconv                 1.17  hd590300_2                    conda-forge                           
+  + libjpeg-turbo           2.0.0  h9bf148f_0                    pytorch                               
+  + liblapack               3.9.0  16_linux64_mkl                conda-forge                           
+  + liblapacke              3.9.0  16_linux64_mkl                conda-forge                           
+  + libnpp              12.0.2.50  0                             /work/conda/cache/nvidia              
+  + libnsl                  2.0.1  hd590300_0                    conda-forge                           
+  + libnvjitlink         12.1.105  0                             /work/conda/cache/nvidia              
+  + libnvjpeg           12.1.1.14  0                             /work/conda/cache/nvidia              
+  + libpng                 1.6.43  h2797004_0                    conda-forge                           
+  + libsqlite              3.46.0  hde9e2c9_0                    conda-forge                           
+  + libstdcxx-ng           14.1.0  hc0a3c3a_0                    /work/conda/cache/conda-forge         
+  + libtiff                 4.5.0  h6adf6a1_2                    conda-forge                           
+  + libuuid                2.38.1  h0b41bf4_0                    conda-forge                           
+  + libwebp-base            1.4.0  hd590300_0                    conda-forge                           
+  + libxcb                   1.13  h7f98852_1004                 conda-forge                           
+  + libxcrypt              4.4.36  hd590300_1                    conda-forge                           
+  + libxml2                2.12.7  hc051c1a_1                    conda-forge                           
+  + libzlib                1.2.13  h4ab18f5_6                    conda-forge                           
+  + llvm-openmp            15.0.7  h0cdce71_0                    /work/conda/cache/conda-forge         
+  + markupsafe              2.1.5  py311h459d7ec_0               conda-forge                           
+  + mkl                  2022.1.0  h84fe81f_915                  /work/conda/cache/conda-forge         
+  + mkl-devel            2022.1.0  ha770c72_916                  conda-forge                           
+  + mkl-include          2022.1.0  h84fe81f_915                  conda-forge                           
+  + mpc                     1.3.1  hfe3b2da_0                    conda-forge                           
+  + mpfr                    4.2.1  h38ae2d0_2                    conda-forge                           
+  + mpmath                  1.3.0  pyhd8ed1ab_0                  conda-forge                           
+  + ncurses                   6.5  h59595ed_0                    conda-forge                           
+  + nettle                    3.6  he412f7d_0                    /work/conda/cache/conda-forge         
+  + networkx                  3.3  pyhd8ed1ab_1                  /work/conda/cache/conda-forge         
+  + numpy                   2.0.1  py311hed25524_0               /work/conda/cache/conda-forge         
+  + openh264                2.1.1  h780b84a_0                    /work/conda/cache/conda-forge         
+  + openjpeg                2.5.0  hfec8fc6_2                    conda-forge                           
+  + openssl                 3.3.1  h4bc722e_2                    /work/conda/cache/conda-forge         
+  + pandas                  2.2.2  py311h14de704_1               conda-forge                           
+  + pillow                  9.4.0  py311h50def17_1               /work/conda/cache/conda-forge         
+  + pip                      24.2  pyhd8ed1ab_0                  /work/conda/cache/conda-forge         
+  + pthread-stubs             0.4  h36c2ea0_1001                 conda-forge                           
+  + pycparser                2.22  pyhd8ed1ab_0                  conda-forge                           
+  + pysocks                 1.7.1  pyha2e5f31_6                  conda-forge                           
+  + python                 3.11.9  hb806964_0_cpython            /work/conda/cache/conda-forge         
+  + python-dateutil         2.9.0  pyhd8ed1ab_0                  conda-forge                           
+  + python-tzdata          2024.1  pyhd8ed1ab_0                  conda-forge                           
+  + python_abi               3.11  4_cp311                       conda-forge                           
+  + pytorch                 2.4.0  py3.11_cuda12.1_cudnn9.1.0_0  /work/conda/cache/pytorch             
+  + pytorch-cuda             12.1  ha16c6d3_5                    pytorch                               
+  + pytorch-mutex             1.0  cuda                          pytorch                               
+  + pytz                   2024.1  pyhd8ed1ab_0                  conda-forge                           
+  + pyyaml                  6.0.1  py311h459d7ec_1               conda-forge                           
+  + readline                  8.2  h8228510_1                    conda-forge                           
+  + requests               2.32.3  pyhd8ed1ab_0                  conda-forge                           
+  + setuptools             72.1.0  pyhd8ed1ab_0                  /work/conda/cache/conda-forge         
+  + six                    1.16.0  pyh6c4a22f_0                  conda-forge                           
+  + sympy                  1.13.0  pypyh2585a3b_103              /work/conda/cache/conda-forge         
+  + tbb                 2021.12.0  h434a139_3                    conda-forge                           
+  + tk                     8.6.13  noxft_h4845f30_101            /work/conda/cache/conda-forge         
+  + torchtriton             3.0.0  py311                         /work/conda/cache/pytorch             
+  + torchvision            0.19.0  py311_cu121                   pytorch                               
+  + typing_extensions      4.12.2  pyha770c72_0                  conda-forge                           
+  + tzdata                  2024a  h0c530f3_0                    conda-forge                           
+  + urllib3                 2.2.2  pyhd8ed1ab_1                  conda-forge                           
+  + wheel                  0.44.0  pyhd8ed1ab_0                  conda-forge                           
+  + xorg-libxau            1.0.11  hd590300_0                    conda-forge                           
+  + xorg-libxdmcp           1.1.3  h516909a_0                    conda-forge                           
+  + xz                      5.2.6  h166bdaf_0                    conda-forge                           
+  + yaml                    0.2.5  h7f98852_2                    conda-forge                           
+  + zlib                   1.2.13  h4ab18f5_6                    conda-forge                           
+  + zstandard              0.23.0  py311h5cd10c7_0               conda-forge                           
+  + zstd                    1.5.6  ha6fb4c9_0                    conda-forge                           
+
+  Summary:
+
+  Install: 119 packages
+
+  Total download: 0 B
+
+─────────────────────────────────────────────────────────────────────────────────────────────────────────
+
+
+
+Transaction starting
+Linking libcublas-12.1.0.26-0
+Linking libcufft-11.0.2.4-0
+Linking libcusolver-11.4.4.55-0
+Linking libcusparse-12.0.2.55-0
+Linking libnpp-12.0.2.50-0
+Linking libnvjitlink-12.1.105-0
+Linking cuda-cudart-12.1.105-0
+Linking cuda-nvrtc-12.1.105-0
+Linking libnvjpeg-12.1.1.14-0
+Linking cuda-cupti-12.1.105-0
+Linking cuda-nvtx-12.1.105-0
+Linking pytorch-mutex-1.0-cuda
+Linking _libgcc_mutex-0.1-conda_forge
+Linking mkl-include-2022.1.0-h84fe81f_915
+Linking python_abi-3.11-4_cp311
+Linking ld_impl_linux-64-2.40-hf3520f5_7
+Linking ca-certificates-2024.7.4-hbcca054_0
+Linking libgcc-ng-14.1.0-h77fa898_0
+Linking libzlib-1.2.13-h4ab18f5_6
+Linking llvm-openmp-15.0.7-h0cdce71_0
+Linking _openmp_mutex-4.5-2_kmp_llvm
+Linking xorg-libxdmcp-1.1.3-h516909a_0
+Linking pthread-stubs-0.4-h36c2ea0_1001
+Linking xorg-libxau-1.0.11-hd590300_0
+Linking libwebp-base-1.4.0-hd590300_0
+Linking libdeflate-1.17-h0b41bf4_0
+Linking jpeg-9e-h166bdaf_2
+Linking libffi-3.4.2-h7f98852_5
+Linking tk-8.6.13-noxft_h4845f30_101
+Linking openssl-3.3.1-h4bc722e_2
+Linking libxcrypt-4.4.36-hd590300_1
+Linking libsqlite-3.46.0-hde9e2c9_0
+Linking yaml-0.2.5-h7f98852_2
+Linking ncurses-6.5-h59595ed_0
+Linking libgfortran5-14.1.0-hc5f4f2c_0
+Linking lame-3.100-h166bdaf_1003
+Linking nettle-3.6-he412f7d_0
+Linking zlib-1.2.13-h4ab18f5_6
+Linking libstdcxx-ng-14.1.0-hc0a3c3a_0
+Linking libiconv-1.17-hd590300_2
+Linking bzip2-1.0.8-h4bc722e_7
+Linking libpng-1.6.43-h2797004_0
+Linking xz-5.2.6-h166bdaf_0
+Linking libuuid-2.38.1-h0b41bf4_0
+Linking libnsl-2.0.1-hd590300_0
+Linking libexpat-2.6.2-h59595ed_0
+Linking libxcb-1.13-h7f98852_1004
+Linking readline-8.2-h8228510_1
+Linking libgfortran-ng-14.1.0-h69a702a_0
+Linking icu-73.2-h59595ed_0
+Linking zstd-1.5.6-ha6fb4c9_0
+Linking lerc-4.0.0-h27087fc_0
+Linking openh264-2.1.1-h780b84a_0
+Linking gnutls-3.6.13-h85f3911_1
+Linking gmp-6.3.0-hac33072_2
+Linking freetype-2.12.1-h267a509_2
+Linking libxml2-2.12.7-hc051c1a_1
+Linking libtiff-4.5.0-h6adf6a1_2
+Linking mpfr-4.2.1-h38ae2d0_2
+Linking libhwloc-2.11.1-default_hecaa2ac_1000
+Linking openjpeg-2.5.0-hfec8fc6_2
+Linking lcms2-2.15-hfd0df8a_0
+Linking mpc-1.3.1-hfe3b2da_0
+Linking tbb-2021.12.0-h434a139_3
+Linking mkl-2022.1.0-h84fe81f_915
+Linking mkl-devel-2022.1.0-ha770c72_916
+Linking libblas-3.9.0-16_linux64_mkl
+Linking liblapack-3.9.0-16_linux64_mkl
+Linking libcblas-3.9.0-16_linux64_mkl
+Linking liblapacke-3.9.0-16_linux64_mkl
+Linking blas-devel-3.9.0-16_linux64_mkl
+Linking blas-2.116-mkl
+Linking cuda-version-12.6-3
+Linking tzdata-2024a-h0c530f3_0
+Linking libjpeg-turbo-2.0.0-h9bf148f_0
+warning  libmamba [libjpeg-turbo-2.0.0-h9bf148f_0] The following files were already present in the environment:
+    - bin/cjpeg
+    - bin/djpeg
+    - bin/jpegtran
+    - bin/rdjpgcom
+    - bin/wrjpgcom
+    - include/jconfig.h
+    - include/jerror.h
+    - include/jmorecfg.h
+    - include/jpeglib.h
+    - lib/libjpeg.a
+    - lib/libjpeg.so
+    - lib/pkgconfig/libjpeg.pc
+    - share/man/man1/cjpeg.1
+    - share/man/man1/djpeg.1
+    - share/man/man1/jpegtran.1
+    - share/man/man1/rdjpgcom.1
+    - share/man/man1/wrjpgcom.1
+Linking ffmpeg-4.3-hf484d3e_0
+Linking libcurand-10.3.7.37-0
+Linking libcufile-1.11.0.15-0
+Linking cuda-opencl-12.6.37-0
+Linking cuda-libraries-12.1.0-0
+Linking cuda-runtime-12.1.0-0
+Linking python-3.11.9-hb806964_0_cpython
+Linking pytorch-cuda-12.1-ha16c6d3_5
+Linking wheel-0.44.0-pyhd8ed1ab_0
+Linking setuptools-72.1.0-pyhd8ed1ab_0
+Linking pip-24.2-pyhd8ed1ab_0
+Linking pycparser-2.22-pyhd8ed1ab_0
+Linking six-1.16.0-pyh6c4a22f_0
+Linking hyperframe-6.0.1-pyhd8ed1ab_0
+Linking pytz-2024.1-pyhd8ed1ab_0
+Linking python-tzdata-2024.1-pyhd8ed1ab_0
+Linking charset-normalizer-3.3.2-pyhd8ed1ab_0
+Linking hpack-4.0.0-pyh9f0ad1d_0
+Linking pysocks-1.7.1-pyha2e5f31_6
+Linking idna-3.7-pyhd8ed1ab_0
+Linking certifi-2024.7.4-pyhd8ed1ab_0
+Linking mpmath-1.3.0-pyhd8ed1ab_0
+Linking typing_extensions-4.12.2-pyha770c72_0
+Linking networkx-3.3-pyhd8ed1ab_1
+Linking filelock-3.15.4-pyhd8ed1ab_0
+Linking click-8.1.7-unix_pyh707e725_0
+Linking python-dateutil-2.9.0-pyhd8ed1ab_0
+Linking h2-4.1.0-pyhd8ed1ab_0
+Linking brotli-python-1.1.0-py311hb755f60_1
+Linking markupsafe-2.1.5-py311h459d7ec_0
+Linking gmpy2-2.1.5-py311hc4f1f91_1
+Linking pyyaml-6.0.1-py311h459d7ec_1
+Linking pillow-9.4.0-py311h50def17_1
+Linking numpy-2.0.1-py311hed25524_0
+Linking cffi-1.16.0-py311hb3a22ac_0
+Linking pandas-2.2.2-py311h14de704_1
+Linking zstandard-0.23.0-py311h5cd10c7_0
+Linking jinja2-3.1.4-pyhd8ed1ab_0
+Linking sympy-1.13.0-pypyh2585a3b_103
+Linking urllib3-2.2.2-pyhd8ed1ab_1
+Linking requests-2.32.3-pyhd8ed1ab_0
+Linking pytorch-2.4.0-py3.11_cuda12.1_cudnn9.1.0_0
+Linking torchtriton-3.0.0-py311
+Linking torchvision-0.19.0-py311_cu121
+
+Transaction finished
+
+To activate this environment, use:
+
+    mamba activate auto-mbc2l5uijcy3
+
+Or to execute a single command in this environment, use:
+
+    mamba run -n auto-mbc2l5uijcy3 mycommand
+
+Installing pip packages
+WARNING: The candidate selected for download or install is a yanked version: 'opencv-python' candidate (version 4.5.5.62 at https://files.pythonhosted.org/packages/9d/98/36bfcbff30da27dd6922ed73ca7802c37d87f77daf4c569da3dcb87b4296/opencv_python-4.5.5.62-cp36-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (from https://pypi.org/simple/opencv-python/) (requires-python:>=3.6))
+Reason for being yanked: deprecated, use 4.5.5.64
+Traceback (most recent call last):
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py", line 672, in <module>
+    experiment()
+  File "/scratch/yuqian_fu/micromamba/envs/auto-mbc2l5uijcy3/lib/python3.11/site-packages/click/core.py", line 1157, in __call__
+    return self.main(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-mbc2l5uijcy3/lib/python3.11/site-packages/click/core.py", line 1078, in main
+    rv = self.invoke(ctx)
+         ^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-mbc2l5uijcy3/lib/python3.11/site-packages/click/core.py", line 1434, in invoke
+    return ctx.invoke(self.callback, **ctx.params)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-mbc2l5uijcy3/lib/python3.11/site-packages/click/core.py", line 783, in invoke
+    return __callback(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py", line 72, in experiment
+    os.makedirs(svroot)
+  File "<frozen os>", line 225, in makedirs
+FileExistsError: [Errno 17] File exists: '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps2'
+Downloading: "https://download.pytorch.org/models/resnet18-5c106cde.pth" to /home/yuqian_fu/.cache/torch/hub/checkpoints/resnet18-5c106cde.pth
+  0%|          | 0.00/44.7M [00:00<?, ?B/s] 97%|█████████▋| 43.1M/44.7M [00:00<00:00, 452MB/s]100%|██████████| 44.7M/44.7M [00:00<00:00, 454MB/s]
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:44: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'best_cls_net.pkl'))
+Traceback (most recent call last):
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py", line 140, in <module>
+    main()
+  File "/scratch/yuqian_fu/micromamba/envs/auto-mbc2l5uijcy3/lib/python3.11/site-packages/click/core.py", line 1157, in __call__
+    return self.main(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-mbc2l5uijcy3/lib/python3.11/site-packages/click/core.py", line 1078, in main
+    rv = self.invoke(ctx)
+         ^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-mbc2l5uijcy3/lib/python3.11/site-packages/click/core.py", line 1434, in invoke
+    return ctx.invoke(self.callback, **ctx.params)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-mbc2l5uijcy3/lib/python3.11/site-packages/click/core.py", line 783, in invoke
+    return __callback(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py", line 30, in main
+    evaluate_pacs(gpu, svroot, source_domain, svpath, factor_num, epoch, stride,eval_mapping, network)
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py", line 44, in evaluate_pacs
+    saved_weight = torch.load(os.path.join(svroot, 'best_cls_net.pkl'))
+                   ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-mbc2l5uijcy3/lib/python3.11/site-packages/torch/serialization.py", line 1065, in load
+    with _open_file_like(f, 'rb') as opened_file:
+         ^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-mbc2l5uijcy3/lib/python3.11/site-packages/torch/serialization.py", line 468, in _open_file_like
+    return _open_file(name_or_buffer, mode)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-mbc2l5uijcy3/lib/python3.11/site-packages/torch/serialization.py", line 449, in __init__
+    super().__init__(open(name, mode))
+                     ^^^^^^^^^^^^^^^^
+FileNotFoundError: [Errno 2] No such file or directory: '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps2/best_cls_net.pkl'
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:47: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'last_cls_net.pkl'))
+Traceback (most recent call last):
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py", line 140, in <module>
+    main()
+  File "/scratch/yuqian_fu/micromamba/envs/auto-mbc2l5uijcy3/lib/python3.11/site-packages/click/core.py", line 1157, in __call__
+    return self.main(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-mbc2l5uijcy3/lib/python3.11/site-packages/click/core.py", line 1078, in main
+    rv = self.invoke(ctx)
+         ^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-mbc2l5uijcy3/lib/python3.11/site-packages/click/core.py", line 1434, in invoke
+    return ctx.invoke(self.callback, **ctx.params)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-mbc2l5uijcy3/lib/python3.11/site-packages/click/core.py", line 783, in invoke
+    return __callback(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py", line 30, in main
+    evaluate_pacs(gpu, svroot, source_domain, svpath, factor_num, epoch, stride,eval_mapping, network)
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py", line 47, in evaluate_pacs
+    saved_weight = torch.load(os.path.join(svroot, 'last_cls_net.pkl'))
+                   ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-mbc2l5uijcy3/lib/python3.11/site-packages/torch/serialization.py", line 1065, in load
+    with _open_file_like(f, 'rb') as opened_file:
+         ^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-mbc2l5uijcy3/lib/python3.11/site-packages/torch/serialization.py", line 468, in _open_file_like
+    return _open_file(name_or_buffer, mode)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-mbc2l5uijcy3/lib/python3.11/site-packages/torch/serialization.py", line 449, in __init__
+    super().__init__(open(name, mode))
+                     ^^^^^^^^^^^^^^^^
+FileNotFoundError: [Errno 2] No such file or directory: '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps2/last_cls_net.pkl'
+srun: error: gcpl4-eu-0: task 0: Exited with exit code 1
diff --git a/Meta-causal/code-withStyleAttack/73725.log b/Meta-causal/code-withStyleAttack/73725.log
new file mode 100644
index 0000000000000000000000000000000000000000..911c3968acc1b120967e5f36d0af8cdae3ab396b
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73725.log
@@ -0,0 +1,105 @@
+Collecting h5py>=2.9.0
+  Downloading h5py-3.11.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (2.5 kB)
+Collecting ml-collections
+  Downloading ml_collections-0.1.1.tar.gz (77 kB)
+  Preparing metadata (setup.py): started
+  Preparing metadata (setup.py): finished with status 'done'
+Requirement already satisfied: numpy in ./lib/python3.11/site-packages (2.0.1)
+Collecting opencv-python==4.5.5.62
+  Downloading opencv_python-4.5.5.62-cp36-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (18 kB)
+Collecting scipy>=1.3.2
+  Downloading scipy-1.14.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (60 kB)
+Collecting tensorboard
+  Downloading tensorboard-2.17.0-py3-none-any.whl.metadata (1.6 kB)
+Collecting tensorboardX>=1.4
+  Downloading tensorboardX-2.6.2.2-py2.py3-none-any.whl.metadata (5.8 kB)
+Collecting timm
+  Downloading timm-1.0.8-py3-none-any.whl.metadata (53 kB)
+Collecting absl-py (from ml-collections)
+  Downloading absl_py-2.1.0-py3-none-any.whl.metadata (2.3 kB)
+Requirement already satisfied: PyYAML in ./lib/python3.11/site-packages (from ml-collections) (6.0.1)
+Requirement already satisfied: six in ./lib/python3.11/site-packages (from ml-collections) (1.16.0)
+Collecting contextlib2 (from ml-collections)
+  Downloading contextlib2-21.6.0-py2.py3-none-any.whl.metadata (4.1 kB)
+Collecting grpcio>=1.48.2 (from tensorboard)
+  Downloading grpcio-1.65.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (3.3 kB)
+Collecting markdown>=2.6.8 (from tensorboard)
+  Downloading Markdown-3.6-py3-none-any.whl.metadata (7.0 kB)
+Collecting protobuf!=4.24.0,<5.0.0,>=3.19.6 (from tensorboard)
+  Downloading protobuf-4.25.4-cp37-abi3-manylinux2014_x86_64.whl.metadata (541 bytes)
+Requirement already satisfied: setuptools>=41.0.0 in ./lib/python3.11/site-packages (from tensorboard) (72.1.0)
+Collecting tensorboard-data-server<0.8.0,>=0.7.0 (from tensorboard)
+  Downloading tensorboard_data_server-0.7.2-py3-none-manylinux_2_31_x86_64.whl.metadata (1.1 kB)
+Collecting werkzeug>=1.0.1 (from tensorboard)
+  Downloading werkzeug-3.0.3-py3-none-any.whl.metadata (3.7 kB)
+Collecting packaging (from tensorboardX>=1.4)
+  Using cached packaging-24.1-py3-none-any.whl.metadata (3.2 kB)
+Requirement already satisfied: torch in ./lib/python3.11/site-packages (from timm) (2.4.0)
+Requirement already satisfied: torchvision in ./lib/python3.11/site-packages (from timm) (0.19.0)
+Collecting huggingface_hub (from timm)
+  Downloading huggingface_hub-0.24.5-py3-none-any.whl.metadata (13 kB)
+Collecting safetensors (from timm)
+  Downloading safetensors-0.4.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (3.8 kB)
+Requirement already satisfied: MarkupSafe>=2.1.1 in ./lib/python3.11/site-packages (from werkzeug>=1.0.1->tensorboard) (2.1.5)
+Requirement already satisfied: filelock in ./lib/python3.11/site-packages (from huggingface_hub->timm) (3.15.4)
+Collecting fsspec>=2023.5.0 (from huggingface_hub->timm)
+  Downloading fsspec-2024.6.1-py3-none-any.whl.metadata (11 kB)
+Requirement already satisfied: requests in ./lib/python3.11/site-packages (from huggingface_hub->timm) (2.32.3)
+Collecting tqdm>=4.42.1 (from huggingface_hub->timm)
+  Using cached tqdm-4.66.5-py3-none-any.whl.metadata (57 kB)
+Requirement already satisfied: typing-extensions>=3.7.4.3 in ./lib/python3.11/site-packages (from huggingface_hub->timm) (4.12.2)
+Requirement already satisfied: sympy in ./lib/python3.11/site-packages (from torch->timm) (1.13.0)
+Requirement already satisfied: networkx in ./lib/python3.11/site-packages (from torch->timm) (3.3)
+Requirement already satisfied: jinja2 in ./lib/python3.11/site-packages (from torch->timm) (3.1.4)
+Requirement already satisfied: pillow!=8.3.*,>=5.3.0 in ./lib/python3.11/site-packages (from torchvision->timm) (9.4.0)
+Requirement already satisfied: charset-normalizer<4,>=2 in ./lib/python3.11/site-packages (from requests->huggingface_hub->timm) (3.3.2)
+Requirement already satisfied: idna<4,>=2.5 in ./lib/python3.11/site-packages (from requests->huggingface_hub->timm) (3.7)
+Requirement already satisfied: urllib3<3,>=1.21.1 in ./lib/python3.11/site-packages (from requests->huggingface_hub->timm) (2.2.2)
+Requirement already satisfied: certifi>=2017.4.17 in ./lib/python3.11/site-packages (from requests->huggingface_hub->timm) (2024.7.4)
+Requirement already satisfied: mpmath<1.4,>=1.1.0 in ./lib/python3.11/site-packages (from sympy->torch->timm) (1.3.0)
+Downloading opencv_python-4.5.5.62-cp36-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (60.4 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 60.4/60.4 MB 279.0 MB/s eta 0:00:00
+Downloading h5py-3.11.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (5.4 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 5.4/5.4 MB 333.2 MB/s eta 0:00:00
+Downloading scipy-1.14.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (41.1 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 41.1/41.1 MB 347.3 MB/s eta 0:00:00
+Downloading tensorboard-2.17.0-py3-none-any.whl (5.5 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 5.5/5.5 MB 184.5 MB/s eta 0:00:00
+Downloading tensorboardX-2.6.2.2-py2.py3-none-any.whl (101 kB)
+Downloading timm-1.0.8-py3-none-any.whl (2.3 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 2.3/2.3 MB 275.2 MB/s eta 0:00:00
+Downloading absl_py-2.1.0-py3-none-any.whl (133 kB)
+Downloading grpcio-1.65.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (5.7 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 5.7/5.7 MB 119.7 MB/s eta 0:00:00
+Downloading Markdown-3.6-py3-none-any.whl (105 kB)
+Downloading protobuf-4.25.4-cp37-abi3-manylinux2014_x86_64.whl (294 kB)
+Downloading tensorboard_data_server-0.7.2-py3-none-manylinux_2_31_x86_64.whl (6.6 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 6.6/6.6 MB 278.1 MB/s eta 0:00:00
+Downloading werkzeug-3.0.3-py3-none-any.whl (227 kB)
+Downloading contextlib2-21.6.0-py2.py3-none-any.whl (13 kB)
+Downloading huggingface_hub-0.24.5-py3-none-any.whl (417 kB)
+Using cached packaging-24.1-py3-none-any.whl (53 kB)
+Downloading safetensors-0.4.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.2 MB)
+   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 1.2/1.2 MB 167.9 MB/s eta 0:00:00
+Downloading fsspec-2024.6.1-py3-none-any.whl (177 kB)
+Using cached tqdm-4.66.5-py3-none-any.whl (78 kB)
+Building wheels for collected packages: ml-collections
+  Building wheel for ml-collections (setup.py): started
+  Building wheel for ml-collections (setup.py): finished with status 'done'
+  Created wheel for ml-collections: filename=ml_collections-0.1.1-py3-none-any.whl size=94507 sha256=f8f3fbc001d31b15b1dd062d26dcf5af8a419e69223933f1f3b206ea12eae5d6
+  Stored in directory: /scratch/yuqian_fu/.cache/pip/wheels/28/82/ef/a6971b09a96519d55ce6efef66f0cbcdef2ae9cc1e6b41daf7
+Successfully built ml-collections
+Installing collected packages: werkzeug, tqdm, tensorboard-data-server, scipy, safetensors, protobuf, packaging, opencv-python, markdown, h5py, grpcio, fsspec, contextlib2, absl-py, tensorboardX, tensorboard, ml-collections, huggingface_hub, timm
+Successfully installed absl-py-2.1.0 contextlib2-21.6.0 fsspec-2024.6.1 grpcio-1.65.4 h5py-3.11.0 huggingface_hub-0.24.5 markdown-3.6 ml-collections-0.1.1 opencv-python-4.5.5.62 packaging-24.1 protobuf-4.25.4 safetensors-0.4.3 scipy-1.14.0 tensorboard-2.17.0 tensorboard-data-server-0.7.2 tensorboardX-2.6.2.2 timm-1.0.8 tqdm-4.66.5 werkzeug-3.0.3
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'sketch', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 5, 'factor_num': 16, 'epochs': 70, 'nbatch': 100, 'batchsize': 6, 'lr': 0.01, 'lr_scheduler': 'cosine', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps2', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps2', 'source_domain': 'sketch', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps2/sketch_16factor_best_test_check.csv', 'factor_num': 16, 'epoch': 'best', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of best
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps2', 'source_domain': 'sketch', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps2/sketch_16factor_last_test_check.csv', 'factor_num': 16, 'epoch': 'last', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of last
diff --git a/Meta-causal/code-withStyleAttack/73726.error b/Meta-causal/code-withStyleAttack/73726.error
new file mode 100644
index 0000000000000000000000000000000000000000..d4cae9c14f1b02ce78b5efc4ecc9cba1f06923fb
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73726.error
@@ -0,0 +1,18 @@
+Solving dependencies
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py:225: FutureWarning: `torch.cuda.amp.GradScaler(args...)` is deprecated. Please use `torch.amp.GradScaler('cuda', args...)` instead.
+  scaler = GradScaler()
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py:247: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with autocast():
+run_my_joint_v13_test.sh: line 34: andm: command not found
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:44: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'best_cls_net.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:58: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'best_mapping_'+str(i)+'.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:68: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'best_E_to_W.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:47: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'last_cls_net.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:61: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'last_mapping_'+str(i)+'.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:71: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'last_E_to_W.pkl'))
diff --git a/Meta-causal/code-withStyleAttack/73726.log b/Meta-causal/code-withStyleAttack/73726.log
new file mode 100644
index 0000000000000000000000000000000000000000..38d6b08519e47a44ca0812228fb7b0df2d2a2682
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73726.log
@@ -0,0 +1,2030 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'sketch', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 5, 'factor_num': 16, 'epochs': 70, 'nbatch': 100, 'batchsize': 6, 'lr': 0.01, 'lr_scheduler': 'cosine', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps2', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 5
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_train.hdf5 torch.Size([3531, 3, 227, 227]) torch.Size([3531])
+--------------------------CA_multiple--------------------------
+---------------------------16 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_val.hdf5 torch.Size([398, 3, 227, 227]) torch.Size([398])
+-------------------------------------loading pretrain weights----------------------------------
+Epoch 1, weight, value: tensor([[ 5.0321e-03, -2.0984e-02, -9.3549e-03,  ...,  6.2974e-03,
+         -1.1026e-02,  1.6907e-02],
+        [ 1.8178e-03, -9.4542e-04,  9.6098e-03,  ..., -3.6409e-03,
+          1.6892e-02,  1.7561e-02],
+        [ 4.8632e-03,  1.5569e-02, -9.7156e-03,  ..., -6.5302e-03,
+         -7.2668e-04, -2.3526e-03],
+        ...,
+        [-2.8515e-03, -2.0712e-02,  1.6087e-02,  ...,  1.3537e-02,
+         -8.7155e-03, -1.1101e-02],
+        [-1.6359e-02,  1.5327e-03,  4.4491e-03,  ...,  6.7593e-04,
+          1.7600e-02, -2.0811e-02],
+        [-9.0949e-03, -4.9629e-03,  1.9741e-02,  ...,  1.5146e-02,
+         -4.0215e-03,  6.5127e-05]], device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([ 0.0169, -0.0141,  0.0051,  0.0054,  0.0115, -0.0021,  0.0115],
+       device='cuda:0'), grad: None
+588
+0.01
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 828.31, cls_loss 5.2711 cls_loss_mapping 1.1924 cls_loss_causal 1.4418 re_mapping 0.4544 re_causal 0.4542 /// teacc 83.17 lr 0.00999497
+Epoch 2, weight, value: tensor([[ 0.1217,  0.1173,  0.0514,  ..., -0.0046, -0.0003,  0.0027],
+        [ 0.1174,  0.0145,  0.1393,  ..., -0.0966, -0.0285, -0.0377],
+        [-0.0571,  0.0007, -0.0756,  ...,  0.0668,  0.0251,  0.0395],
+        ...,
+        [-0.1860, -0.1862, -0.1100,  ...,  0.0255, -0.0027, -0.0029],
+        [ 0.0276,  0.0367,  0.0287,  ...,  0.0273,  0.0208, -0.0063],
+        [ 0.0405,  0.0606,  0.0413,  ..., -0.0429, -0.0609, -0.0464]],
+       device='cuda:0'), grad: tensor([[ 2.3999e-01,  1.5540e-01,  1.7395e-01,  ...,  6.3599e-02,
+          3.1830e-02,  1.4832e-02],
+        [-2.9297e-01, -1.7139e-01, -1.9385e-01,  ..., -9.8938e-02,
+         -5.2307e-02, -2.4780e-02],
+        [-7.4272e-03, -2.2011e-03, -2.3670e-03,  ..., -7.6981e-03,
+         -4.7684e-03, -3.5572e-03],
+        ...,
+        [ 4.8889e-02,  1.5366e-02,  1.8539e-02,  ...,  3.4393e-02,
+          2.0172e-02,  1.0971e-02],
+        [ 1.1436e-02,  2.8381e-03,  3.6564e-03,  ...,  8.5602e-03,
+          5.0163e-03,  2.5101e-03],
+        [ 1.0669e-04,  3.4630e-05,  4.2349e-05,  ...,  7.0214e-05,
+          4.0710e-05,  2.0385e-05]], device='cuda:0')
+Epoch 2, bias, value: tensor([ 0.0438, -0.0197, -0.0433, -0.1126,  0.0461,  0.0814,  0.0377],
+       device='cuda:0'), grad: tensor([ 2.2461e-01, -3.2373e-01, -1.5762e-02,  2.9569e-08,  9.1003e-02,
+         2.3636e-02,  1.9741e-04], device='cuda:0')
+588
+0.009994965332706574
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 799.62, cls_loss 0.6358 cls_loss_mapping 0.4896 cls_loss_causal 0.9883 re_mapping 0.1652 re_causal 0.1647 /// teacc 84.42 lr 0.00997987
+Epoch 3, weight, value: tensor([[ 0.2203,  0.2033,  0.1431,  ...,  0.0037,  0.0061,  0.0012],
+        [ 0.0460, -0.0347,  0.0835,  ..., -0.1054, -0.0311, -0.0345],
+        [-0.0530, -0.0073, -0.0789,  ...,  0.0554,  0.0163,  0.0260],
+        ...,
+        [-0.2380, -0.2207, -0.1522,  ...,  0.0301, -0.0020,  0.0036],
+        [ 0.0159,  0.0271,  0.0189,  ...,  0.0258,  0.0218, -0.0054],
+        [ 0.0311,  0.0490,  0.0286,  ..., -0.0492, -0.0671, -0.0513]],
+       device='cuda:0'), grad: tensor([[ 1.8129e-03,  1.2245e-03,  1.4124e-03,  ...,  3.6287e-04,
+          1.1533e-04,  1.2660e-04],
+        [-3.8757e-02, -1.6647e-02, -2.4887e-02,  ..., -2.3804e-02,
+         -1.8066e-02, -1.4252e-02],
+        [ 6.5880e-03,  4.1084e-03,  4.5586e-03,  ...,  2.2697e-03,
+          1.5936e-03,  1.1473e-03],
+        ...,
+        [ 1.9318e-02,  7.3471e-03,  1.2062e-02,  ...,  1.3222e-02,
+          1.0208e-02,  8.0872e-03],
+        [ 1.4770e-04,  8.6725e-05,  1.0210e-04,  ...,  5.6893e-05,
+          4.0770e-05,  2.8580e-05],
+        [ 6.7830e-05,  4.5627e-05,  4.9263e-05,  ...,  1.7539e-05,
+          1.1235e-05,  6.4932e-06]], device='cuda:0')
+Epoch 3, bias, value: tensor([ 0.0477, -0.0237, -0.0222, -0.0822,  0.0136,  0.0640,  0.0352],
+       device='cuda:0'), grad: tensor([ 2.1400e-03, -9.0088e-02,  8.7280e-03,  2.9373e-02,  4.9530e-02,
+         2.3103e-04,  8.0168e-05], device='cuda:0')
+588
+0.009979871469976196
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 801.14, cls_loss 0.2952 cls_loss_mapping 0.2818 cls_loss_causal 0.8366 re_mapping 0.1379 re_causal 0.1375 /// teacc 89.70 lr 0.00995475
+Epoch 4, weight, value: tensor([[ 0.2456,  0.2246,  0.1671,  ...,  0.0053,  0.0070,  0.0030],
+        [ 0.0538, -0.0369,  0.0839,  ..., -0.0998, -0.0256, -0.0324],
+        [-0.0791, -0.0294, -0.1034,  ...,  0.0457,  0.0108,  0.0191],
+        ...,
+        [-0.2597, -0.2334, -0.1673,  ...,  0.0324, -0.0027,  0.0040],
+        [ 0.0087,  0.0224,  0.0140,  ...,  0.0238,  0.0202, -0.0057],
+        [ 0.0509,  0.0667,  0.0467,  ..., -0.0484, -0.0651, -0.0492]],
+       device='cuda:0'), grad: tensor([[-1.7810e-01, -8.4961e-02, -9.7595e-02,  ..., -4.4067e-02,
+         -2.4261e-02, -1.2955e-02],
+        [ 1.4136e-01,  7.3181e-02,  8.9783e-02,  ...,  3.0365e-02,
+          1.6113e-02,  8.3160e-03],
+        [ 2.0935e-02,  6.7139e-03,  3.6945e-03,  ...,  7.2441e-03,
+          4.4250e-03,  2.4929e-03],
+        ...,
+        [ 1.4091e-02,  4.5280e-03,  3.6755e-03,  ...,  5.7526e-03,
+          3.3150e-03,  1.9131e-03],
+        [ 2.3770e-04,  7.3910e-05,  6.9916e-05,  ...,  1.0741e-04,
+          6.1035e-05,  3.5971e-05],
+        [ 1.6940e-04,  6.6280e-05,  6.6817e-05,  ...,  6.1005e-05,
+          3.3110e-05,  1.8448e-05]], device='cuda:0')
+Epoch 4, bias, value: tensor([ 0.0681, -0.0062, -0.0313, -0.0872,  0.0010,  0.0518,  0.0354],
+       device='cuda:0'), grad: tensor([-0.2710,  0.1898,  0.0462,  0.0029,  0.0312,  0.0005,  0.0003],
+       device='cuda:0')
+588
+0.009954748808839675
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 797.88, cls_loss 0.1408 cls_loss_mapping 0.1878 cls_loss_causal 0.7363 re_mapping 0.1118 re_causal 0.1116 /// teacc 90.45 lr 0.00991965
+Epoch 5, weight, value: tensor([[ 0.2791,  0.2501,  0.2026,  ...,  0.0055,  0.0088,  0.0030],
+        [ 0.0312, -0.0494,  0.0644,  ..., -0.1022, -0.0300, -0.0349],
+        [-0.0713, -0.0226, -0.0975,  ...,  0.0506,  0.0151,  0.0221],
+        ...,
+        [-0.2745, -0.2473, -0.1853,  ...,  0.0290, -0.0043,  0.0031],
+        [ 0.0101,  0.0234,  0.0154,  ...,  0.0239,  0.0207, -0.0047],
+        [ 0.0501,  0.0629,  0.0435,  ..., -0.0468, -0.0634, -0.0481]],
+       device='cuda:0'), grad: tensor([[ 1.3316e-04,  4.7386e-05,  6.3956e-05,  ...,  7.7188e-05,
+          5.0247e-05,  4.2111e-05],
+        [-5.4911e-06, -2.1532e-06, -3.4533e-06,  ..., -1.8850e-06,
+         -1.5842e-06, -8.4657e-07],
+        [-1.4305e-04, -4.8727e-05, -6.7532e-05,  ..., -9.1493e-05,
+         -6.0022e-05, -5.2571e-05],
+        ...,
+        [ 2.5645e-05,  9.9912e-06,  1.3128e-05,  ...,  1.3083e-05,
+          8.5607e-06,  6.8210e-06],
+        [-7.0930e-05, -3.4750e-05, -3.9726e-05,  ..., -1.9625e-05,
+         -1.1273e-05, -5.3793e-06],
+        [ 3.4571e-05,  1.6645e-05,  1.9327e-05,  ...,  1.0930e-05,
+          6.5230e-06,  3.8370e-06]], device='cuda:0')
+Epoch 5, bias, value: tensor([ 0.0838, -0.0224, -0.0294, -0.0923,  0.0014,  0.0493,  0.0404],
+       device='cuda:0'), grad: tensor([ 3.7646e-04, -7.3053e-06, -4.4131e-04,  6.0856e-05,  6.4552e-05,
+        -1.1587e-04,  6.1989e-05], device='cuda:0')
+588
+0.009919647942993149
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 805.53, cls_loss 0.0873 cls_loss_mapping 0.1471 cls_loss_causal 0.6787 re_mapping 0.1024 re_causal 0.1030 /// teacc 92.96 lr 0.00987464
+Epoch 6, weight, value: tensor([[ 0.2880,  0.2631,  0.2133,  ...,  0.0096,  0.0128,  0.0064],
+        [ 0.0292, -0.0533,  0.0617,  ..., -0.0958, -0.0255, -0.0311],
+        [-0.0630, -0.0201, -0.0924,  ...,  0.0469,  0.0108,  0.0176],
+        ...,
+        [-0.2901, -0.2574, -0.1985,  ...,  0.0203, -0.0107, -0.0024],
+        [ 0.0088,  0.0226,  0.0147,  ...,  0.0234,  0.0208, -0.0040],
+        [ 0.0459,  0.0593,  0.0399,  ..., -0.0480, -0.0637, -0.0485]],
+       device='cuda:0'), grad: tensor([[-1.7767e-03, -1.2865e-03, -1.3285e-03,  ..., -2.8992e-04,
+         -1.9503e-04, -1.2255e-04],
+        [ 4.7207e-04,  3.9721e-04,  3.8815e-04,  ...,  6.9976e-05,
+          5.1200e-05,  4.0233e-05],
+        [ 3.7193e-04,  2.0504e-04,  2.3699e-04,  ...,  1.0020e-04,
+          6.5267e-05,  4.1932e-05],
+        ...,
+        [ 1.6391e-06,  1.1921e-06,  1.2303e-06,  ...,  2.1886e-07,
+          1.4389e-07,  7.5554e-08],
+        [ 5.0634e-05,  3.7193e-05,  3.8207e-05,  ...,  6.4634e-06,
+          4.2431e-06,  2.1756e-06],
+        [ 2.2482e-06,  1.6494e-06,  1.6959e-06,  ...,  3.4180e-07,
+          2.3004e-07,  1.4040e-07]], device='cuda:0')
+Epoch 6, bias, value: tensor([ 0.0861, -0.0168, -0.0168, -0.0818, -0.0185,  0.0443,  0.0335],
+       device='cuda:0'), grad: tensor([-1.8644e-03,  5.5695e-04,  4.9257e-04,  7.6818e-04,  1.4622e-06,
+         4.4137e-05,  2.2613e-06], device='cuda:0')
+588
+0.009874639560909117
+changing lr
+epoch 5, time 795.78, cls_loss 0.0215 cls_loss_mapping 0.1020 cls_loss_causal 0.6322 re_mapping 0.0907 re_causal 0.0919 /// teacc 91.46 lr 0.00981981
+Epoch 7, weight, value: tensor([[ 0.2936,  0.2675,  0.2189,  ...,  0.0081,  0.0102,  0.0045],
+        [ 0.0293, -0.0530,  0.0608,  ..., -0.0915, -0.0228, -0.0291],
+        [-0.0717, -0.0265, -0.0971,  ...,  0.0444,  0.0096,  0.0166],
+        ...,
+        [-0.2808, -0.2497, -0.1938,  ...,  0.0218, -0.0081, -0.0004],
+        [ 0.0066,  0.0212,  0.0130,  ...,  0.0227,  0.0201, -0.0039],
+        [ 0.0466,  0.0576,  0.0395,  ..., -0.0465, -0.0620, -0.0472]],
+       device='cuda:0'), grad: tensor([[ 5.6992e-03,  2.0063e-04,  8.2016e-04,  ...,  2.8534e-03,
+          2.1381e-03,  1.2836e-03],
+        [ 9.4762e-07, -1.4377e-08,  6.7230e-08,  ...,  5.1595e-07,
+          3.5716e-07,  1.7753e-07],
+        [ 1.1247e-04,  4.3064e-06,  1.6466e-05,  ...,  5.6356e-05,
+          4.2289e-05,  2.5496e-05],
+        ...,
+        [-5.8174e-03, -2.0444e-04, -8.3685e-04,  ..., -2.9144e-03,
+         -2.1820e-03, -1.3103e-03],
+        [ 3.6247e-06,  1.7602e-07,  5.7789e-07,  ...,  1.8282e-06,
+          1.3737e-06,  8.4285e-07],
+        [ 2.4717e-06,  1.7020e-07,  4.6194e-07,  ...,  1.2461e-06,
+          9.4157e-07,  5.9605e-07]], device='cuda:0')
+Epoch 7, bias, value: tensor([ 0.0911, -0.0088, -0.0323, -0.0890, -0.0097,  0.0401,  0.0377],
+       device='cuda:0'), grad: tensor([ 1.8372e-02,  3.5465e-06,  3.6073e-04,  1.2424e-06, -1.8753e-02,
+         1.1586e-05,  7.7859e-06], device='cuda:0')
+588
+0.009819814303479266
+changing lr
+epoch 6, time 800.31, cls_loss 0.0243 cls_loss_mapping 0.0918 cls_loss_causal 0.6256 re_mapping 0.0766 re_causal 0.0788 /// teacc 91.46 lr 0.00975528
+Epoch 8, weight, value: tensor([[ 0.2980,  0.2746,  0.2264,  ...,  0.0057,  0.0083,  0.0022],
+        [ 0.0237, -0.0570,  0.0542,  ..., -0.0866, -0.0195, -0.0258],
+        [-0.0704, -0.0298, -0.0975,  ...,  0.0443,  0.0106,  0.0166],
+        ...,
+        [-0.2812, -0.2497, -0.1957,  ...,  0.0196, -0.0108, -0.0023],
+        [ 0.0065,  0.0209,  0.0131,  ...,  0.0221,  0.0197, -0.0036],
+        [ 0.0429,  0.0549,  0.0364,  ..., -0.0467, -0.0615, -0.0468]],
+       device='cuda:0'), grad: tensor([[ 4.1890e-04, -1.3962e-05,  2.1800e-05,  ...,  3.5572e-04,
+          2.9254e-04,  2.3329e-04],
+        [ 2.1112e-04,  2.6956e-05,  4.5240e-05,  ...,  1.0735e-04,
+          7.2122e-05,  5.5432e-05],
+        [ 1.2074e-03,  4.4554e-05,  1.4460e-04,  ...,  9.3460e-04,
+          7.7057e-04,  6.1226e-04],
+        ...,
+        [-2.0294e-03, -7.0989e-05, -2.4092e-04,  ..., -1.5392e-03,
+         -1.2522e-03, -9.9373e-04],
+        [ 6.6102e-05,  4.1723e-06,  9.6187e-06,  ...,  4.8727e-05,
+          3.9905e-05,  3.1650e-05],
+        [ 8.1509e-06,  9.3179e-07,  1.5674e-06,  ...,  5.8152e-06,
+          4.8541e-06,  3.8333e-06]], device='cuda:0')
+Epoch 8, bias, value: tensor([ 0.0899, -0.0095, -0.0254, -0.0850, -0.0107,  0.0374,  0.0315],
+       device='cuda:0'), grad: tensor([ 1.3647e-03,  5.8794e-04,  3.6697e-03,  3.5238e-04, -6.1874e-03,
+         1.9550e-04,  2.2992e-05], device='cuda:0')
+588
+0.009755282581475767
+changing lr
+epoch 7, time 805.18, cls_loss 0.0157 cls_loss_mapping 0.0757 cls_loss_causal 0.6106 re_mapping 0.0691 re_causal 0.0726 /// teacc 91.46 lr 0.00968117
+Epoch 9, weight, value: tensor([[ 0.3025,  0.2786,  0.2318,  ...,  0.0029,  0.0058, -0.0004],
+        [ 0.0247, -0.0542,  0.0536,  ..., -0.0836, -0.0183, -0.0246],
+        [-0.0734, -0.0333, -0.0990,  ...,  0.0455,  0.0127,  0.0187],
+        ...,
+        [-0.2799, -0.2501, -0.1977,  ...,  0.0195, -0.0109, -0.0026],
+        [ 0.0050,  0.0200,  0.0123,  ...,  0.0215,  0.0194, -0.0033],
+        [ 0.0415,  0.0535,  0.0354,  ..., -0.0462, -0.0604, -0.0460]],
+       device='cuda:0'), grad: tensor([[ 3.4999e-06,  1.0198e-06,  1.2470e-06,  ...,  1.5171e-06,
+          1.0785e-06,  9.0664e-07],
+        [ 7.9256e-07, -1.2777e-08, -7.0315e-08,  ...,  8.2096e-07,
+          6.3796e-07,  5.7789e-07],
+        [ 1.0952e-05, -3.9872e-08,  6.2166e-07,  ...,  1.2264e-05,
+          9.8646e-06,  9.0227e-06],
+        ...,
+        [-1.9744e-05, -1.2182e-06, -2.2389e-06,  ..., -1.6436e-05,
+         -1.2703e-05, -1.1384e-05],
+        [-1.6108e-05, -9.7379e-06, -1.0706e-05,  ..., -4.1425e-06,
+         -3.0976e-06, -2.4643e-06],
+        [ 1.4357e-05,  8.5533e-06,  9.4250e-06,  ...,  3.7495e-06,
+          2.7921e-06,  2.2240e-06]], device='cuda:0')
+Epoch 9, bias, value: tensor([ 0.0908, -0.0060, -0.0282, -0.0862, -0.0051,  0.0331,  0.0290],
+       device='cuda:0'), grad: tensor([ 8.4564e-06,  2.9206e-06,  4.2200e-05,  1.5944e-05, -6.7711e-05,
+        -2.1055e-05,  1.9222e-05], device='cuda:0')
+588
+0.009681174353198686
+changing lr
+epoch 8, time 802.22, cls_loss 0.0149 cls_loss_mapping 0.0665 cls_loss_causal 0.5558 re_mapping 0.0621 re_causal 0.0664 /// teacc 91.46 lr 0.00959764
+Epoch 10, weight, value: tensor([[ 3.0159e-01,  2.7923e-01,  2.3433e-01,  ..., -2.8317e-03,
+          1.3968e-04, -5.7595e-03],
+        [ 1.8288e-02, -5.7675e-02,  4.7190e-02,  ..., -8.2277e-02,
+         -1.8411e-02, -2.4713e-02],
+        [-7.7096e-02, -3.6908e-02, -1.0139e-01,  ...,  4.4417e-02,
+          1.2294e-02,  1.8147e-02],
+        ...,
+        [-2.7502e-01, -2.4551e-01, -1.9469e-01,  ...,  2.1172e-02,
+         -8.4590e-03, -3.5385e-04],
+        [ 7.3740e-03,  1.9798e-02,  1.2663e-02,  ...,  2.2504e-02,
+          2.0140e-02, -2.0309e-03],
+        [ 4.3695e-02,  5.3812e-02,  3.5940e-02,  ..., -4.4764e-02,
+         -5.8660e-02, -4.4696e-02]], device='cuda:0'), grad: tensor([[-7.9956e-03, -4.4746e-03, -4.3983e-03,  ..., -1.5936e-03,
+         -9.3937e-04, -7.4768e-04],
+        [ 1.0624e-03,  5.6171e-04,  5.6887e-04,  ...,  2.3031e-04,
+          1.4746e-04,  1.1587e-04],
+        [ 1.4887e-03,  8.1444e-04,  8.0538e-04,  ...,  3.1209e-04,
+          1.9157e-04,  1.5295e-04],
+        ...,
+        [ 3.4485e-03,  2.0180e-03,  1.9407e-03,  ...,  6.3705e-04,
+          3.4356e-04,  2.7776e-04],
+        [ 4.9543e-04,  2.6703e-04,  2.6989e-04,  ...,  1.0324e-04,
+          6.4194e-05,  5.0187e-05],
+        [ 1.2350e-03,  6.6280e-04,  6.6805e-04,  ...,  2.6107e-04,
+          1.6379e-04,  1.2863e-04]], device='cuda:0')
+Epoch 10, bias, value: tensor([ 0.0872, -0.0109, -0.0321, -0.0853, -0.0045,  0.0384,  0.0337],
+       device='cuda:0'), grad: tensor([-0.0128,  0.0018,  0.0024,  0.0004,  0.0054,  0.0008,  0.0020],
+       device='cuda:0')
+588
+0.009597638862757255
+changing lr
+epoch 9, time 803.61, cls_loss 0.0121 cls_loss_mapping 0.0578 cls_loss_causal 0.5632 re_mapping 0.0554 re_causal 0.0609 /// teacc 90.95 lr 0.00950484
+Epoch 11, weight, value: tensor([[ 0.2987,  0.2761,  0.2324,  ..., -0.0008,  0.0016, -0.0040],
+        [ 0.0157, -0.0577,  0.0448,  ..., -0.0808, -0.0185, -0.0249],
+        [-0.0757, -0.0366, -0.1007,  ...,  0.0421,  0.0109,  0.0166],
+        ...,
+        [-0.2711, -0.2433, -0.1930,  ...,  0.0202, -0.0087, -0.0009],
+        [ 0.0046,  0.0185,  0.0115,  ...,  0.0212,  0.0192, -0.0023],
+        [ 0.0445,  0.0547,  0.0372,  ..., -0.0443, -0.0575, -0.0439]],
+       device='cuda:0'), grad: tensor([[ 2.2084e-05,  5.6289e-06,  7.4245e-06,  ...,  9.7901e-06,
+          5.7407e-06,  5.5172e-06],
+        [ 2.4259e-05,  7.4990e-06,  9.7901e-06,  ...,  8.8587e-06,
+          5.1893e-06,  4.9546e-06],
+        [-1.1665e-04, -3.3945e-05, -4.4584e-05,  ..., -4.6194e-05,
+         -2.7493e-05, -2.6301e-05],
+        ...,
+        [ 3.1054e-05,  9.4697e-06,  1.2361e-05,  ...,  1.1608e-05,
+          6.7763e-06,  6.5193e-06],
+        [ 5.4277e-06,  1.6382e-06,  2.1402e-06,  ...,  2.0564e-06,
+          1.2172e-06,  1.1604e-06],
+        [ 7.7337e-06,  2.5276e-06,  3.2857e-06,  ...,  2.6897e-06,
+          1.6196e-06,  1.5302e-06]], device='cuda:0')
+Epoch 11, bias, value: tensor([ 0.0942, -0.0130, -0.0315, -0.0807, -0.0044,  0.0305,  0.0308],
+       device='cuda:0'), grad: tensor([ 5.7161e-05,  5.7817e-05, -2.8586e-04,  6.5506e-05,  7.4863e-05,
+         1.3068e-05,  1.7837e-05], device='cuda:0')
+588
+0.009504844339512096
+changing lr
+epoch 10, time 800.50, cls_loss 0.0193 cls_loss_mapping 0.0536 cls_loss_causal 0.5720 re_mapping 0.0534 re_causal 0.0604 /// teacc 91.71 lr 0.00940298
+Epoch 12, weight, value: tensor([[ 0.2950,  0.2705,  0.2280,  ..., -0.0022, -0.0017, -0.0069],
+        [ 0.0223, -0.0496,  0.0510,  ..., -0.0767, -0.0150, -0.0217],
+        [-0.0756, -0.0387, -0.1018,  ...,  0.0406,  0.0101,  0.0156],
+        ...,
+        [-0.2702, -0.2412, -0.1921,  ...,  0.0179, -0.0095, -0.0019],
+        [ 0.0051,  0.0183,  0.0114,  ...,  0.0211,  0.0190, -0.0019],
+        [ 0.0425,  0.0536,  0.0363,  ..., -0.0440, -0.0565, -0.0432]],
+       device='cuda:0'), grad: tensor([[ 1.8215e-04,  3.8624e-05,  4.7177e-05,  ...,  1.3149e-04,
+          1.0204e-04,  9.9838e-05],
+        [ 5.9814e-03,  2.3289e-03,  2.5291e-03,  ...,  1.1272e-03,
+          5.2547e-04,  5.1832e-04],
+        [-5.6267e-03, -2.2545e-03, -2.4681e-03,  ..., -9.4128e-04,
+         -4.0197e-04, -3.9339e-04],
+        ...,
+        [-5.6887e-04, -1.2016e-04, -1.1533e-04,  ..., -3.3188e-04,
+         -2.3425e-04, -2.3437e-04],
+        [-3.4153e-05, -1.9282e-05, -2.2233e-05,  ..., -6.6087e-06,
+         -6.7391e-06, -4.1500e-06],
+        [ 4.2230e-05,  1.8030e-05,  1.9923e-05,  ...,  1.1779e-05,
+          8.8066e-06,  7.3500e-06]], device='cuda:0')
+Epoch 12, bias, value: tensor([ 0.1016, -0.0127, -0.0305, -0.0851, -0.0045,  0.0304,  0.0259],
+       device='cuda:0'), grad: tensor([ 6.6280e-04,  1.2558e-02, -1.1635e-02,  5.4300e-05, -1.6785e-03,
+        -3.4899e-05,  7.4983e-05], device='cuda:0')
+588
+0.009402977659283692
+changing lr
+epoch 11, time 798.45, cls_loss 0.0046 cls_loss_mapping 0.0423 cls_loss_causal 0.5215 re_mapping 0.0447 re_causal 0.0523 /// teacc 92.21 lr 0.00929224
+Epoch 13, weight, value: tensor([[ 0.3001,  0.2751,  0.2348,  ..., -0.0022, -0.0019, -0.0069],
+        [ 0.0182, -0.0511,  0.0465,  ..., -0.0744, -0.0143, -0.0207],
+        [-0.0784, -0.0421, -0.1037,  ...,  0.0389,  0.0092,  0.0144],
+        ...,
+        [-0.2661, -0.2381, -0.1907,  ...,  0.0176, -0.0092, -0.0018],
+        [ 0.0048,  0.0180,  0.0111,  ...,  0.0200,  0.0178, -0.0024],
+        [ 0.0395,  0.0506,  0.0335,  ..., -0.0430, -0.0551, -0.0421]],
+       device='cuda:0'), grad: tensor([[4.9502e-05, 4.2245e-06, 1.2688e-05,  ..., 4.2140e-05, 3.3408e-05,
+         3.4004e-05],
+        [3.4690e-05, 1.9267e-05, 2.3529e-05,  ..., 1.5870e-05, 1.2502e-05,
+         1.3538e-05],
+        [3.8922e-05, 2.1085e-05, 2.4259e-05,  ..., 1.8880e-05, 1.6168e-05,
+         1.5691e-05],
+        ...,
+        [1.9991e-04, 8.3208e-05, 9.4414e-05,  ..., 6.9439e-05, 5.0664e-05,
+         4.9055e-05],
+        [6.3658e-05, 2.6479e-05, 3.1114e-05,  ..., 2.2322e-05, 1.6332e-05,
+         1.6034e-05],
+        [1.2767e-04, 5.2661e-05, 6.1005e-05,  ..., 4.1693e-05, 3.0011e-05,
+         2.8968e-05]], device='cuda:0')
+Epoch 13, bias, value: tensor([ 0.1029, -0.0135, -0.0320, -0.0831, -0.0018,  0.0279,  0.0242],
+       device='cuda:0'), grad: tensor([ 1.4329e-04,  2.8968e-05,  6.3419e-05, -1.0004e-03,  3.8838e-04,
+         1.2207e-04,  2.5368e-04], device='cuda:0')
+588
+0.009292243968009333
+changing lr
+epoch 12, time 798.32, cls_loss 0.0049 cls_loss_mapping 0.0433 cls_loss_causal 0.5335 re_mapping 0.0382 re_causal 0.0468 /// teacc 91.71 lr 0.00917287
+Epoch 14, weight, value: tensor([[ 0.3032,  0.2785,  0.2400,  ..., -0.0022, -0.0019, -0.0067],
+        [ 0.0162, -0.0523,  0.0430,  ..., -0.0712, -0.0129, -0.0192],
+        [-0.0783, -0.0429, -0.1035,  ...,  0.0361,  0.0071,  0.0123],
+        ...,
+        [-0.2636, -0.2361, -0.1904,  ...,  0.0174, -0.0085, -0.0016],
+        [ 0.0028,  0.0167,  0.0099,  ...,  0.0196,  0.0176, -0.0021],
+        [ 0.0369,  0.0479,  0.0314,  ..., -0.0427, -0.0544, -0.0417]],
+       device='cuda:0'), grad: tensor([[-1.3769e-04, -6.1214e-05, -6.0767e-05,  ..., -1.7315e-05,
+         -6.6720e-06, -5.9307e-06],
+        [-1.9763e-06, -1.5730e-06, -1.7546e-06,  ..., -2.4680e-07,
+         -2.6729e-07, -2.4703e-07],
+        [ 4.6760e-05,  2.0847e-05,  2.0757e-05,  ...,  5.7667e-06,
+          2.2184e-06,  2.0135e-06],
+        ...,
+        [ 1.9595e-05,  9.2313e-06,  9.1717e-06,  ...,  2.1346e-06,
+          7.0641e-07,  5.6112e-07],
+        [ 1.0327e-05,  4.5635e-06,  4.5486e-06,  ...,  1.3914e-06,
+          5.8440e-07,  5.2527e-07],
+        [ 5.9336e-05,  2.6643e-05,  2.6569e-05,  ...,  7.6443e-06,
+          3.1237e-06,  2.7958e-06]], device='cuda:0')
+Epoch 14, bias, value: tensor([ 0.1022, -0.0082, -0.0316, -0.0808, -0.0023,  0.0228,  0.0218],
+       device='cuda:0'), grad: tensor([-2.4629e-04, -1.5059e-06,  8.2552e-05,  7.3090e-06,  3.3557e-05,
+         1.8746e-05,  1.0586e-04], device='cuda:0')
+588
+0.009172866268606516
+changing lr
+epoch 13, time 806.83, cls_loss 0.0036 cls_loss_mapping 0.0387 cls_loss_causal 0.5195 re_mapping 0.0331 re_causal 0.0424 /// teacc 91.71 lr 0.00904508
+Epoch 15, weight, value: tensor([[ 0.3061,  0.2818,  0.2440,  ..., -0.0028, -0.0028, -0.0074],
+        [ 0.0131, -0.0530,  0.0402,  ..., -0.0699, -0.0130, -0.0191],
+        [-0.0803, -0.0457, -0.1050,  ...,  0.0343,  0.0060,  0.0111],
+        ...,
+        [-0.2625, -0.2347, -0.1900,  ...,  0.0170, -0.0078, -0.0012],
+        [ 0.0047,  0.0168,  0.0103,  ...,  0.0201,  0.0180, -0.0013],
+        [ 0.0353,  0.0459,  0.0296,  ..., -0.0416, -0.0529, -0.0404]],
+       device='cuda:0'), grad: tensor([[ 1.4208e-05, -2.1197e-06, -2.3581e-06,  ...,  9.9689e-06,
+          6.9700e-06,  6.8434e-06],
+        [ 3.2187e-05,  5.5358e-06,  4.6119e-06,  ...,  1.8895e-05,
+          1.3009e-05,  1.3582e-05],
+        [-1.7479e-05, -7.4096e-06, -7.0855e-06,  ...,  5.6066e-06,
+          6.5379e-06,  7.4357e-06],
+        ...,
+        [-1.4894e-05,  6.0685e-06,  7.9274e-06,  ..., -2.1115e-05,
+         -1.3746e-05, -1.5616e-05],
+        [-3.7223e-05, -8.8513e-06, -9.4548e-06,  ..., -2.1309e-05,
+         -1.8582e-05, -1.7688e-05],
+        [ 3.4779e-05,  1.2688e-05,  1.2919e-05,  ...,  1.4134e-05,
+          1.1563e-05,  1.1049e-05]], device='cuda:0')
+Epoch 15, bias, value: tensor([ 0.0998, -0.0093, -0.0319, -0.0797, -0.0044,  0.0277,  0.0211],
+       device='cuda:0'), grad: tensor([ 6.1989e-05,  1.0294e-04, -3.8952e-05, -1.7032e-05, -8.8334e-05,
+        -9.9003e-05,  7.8380e-05], device='cuda:0')
+588
+0.00904508497187474
+changing lr
+epoch 14, time 797.25, cls_loss 0.0050 cls_loss_mapping 0.0371 cls_loss_causal 0.5289 re_mapping 0.0291 re_causal 0.0393 /// teacc 91.71 lr 0.00890916
+Epoch 16, weight, value: tensor([[ 0.3069,  0.2842,  0.2474,  ..., -0.0036, -0.0034, -0.0078],
+        [ 0.0107, -0.0545,  0.0363,  ..., -0.0687, -0.0135, -0.0194],
+        [-0.0799, -0.0465, -0.1049,  ...,  0.0330,  0.0051,  0.0101],
+        ...,
+        [-0.2605, -0.2335, -0.1903,  ...,  0.0171, -0.0070, -0.0008],
+        [ 0.0024,  0.0154,  0.0090,  ...,  0.0195,  0.0176, -0.0012],
+        [ 0.0349,  0.0444,  0.0292,  ..., -0.0407, -0.0516, -0.0394]],
+       device='cuda:0'), grad: tensor([[-5.1022e-04, -3.0041e-04, -2.7776e-04,  ..., -7.4565e-05,
+         -4.5955e-05, -4.3511e-05],
+        [-1.5073e-05,  2.7359e-05,  2.2188e-05,  ..., -1.0446e-05,
+         -5.6513e-06, -7.4841e-06],
+        [ 6.1035e-05,  3.2037e-05,  2.9325e-05,  ...,  1.3839e-06,
+         -2.5630e-06, -9.0757e-07],
+        ...,
+        [ 1.2231e-04,  5.1975e-05,  5.0098e-05,  ...,  2.5004e-05,
+          1.5914e-05,  1.5207e-05],
+        [ 2.9877e-05,  1.5073e-05,  1.4149e-05,  ...,  5.1111e-06,
+          3.1367e-06,  2.9914e-06],
+        [ 1.4663e-04,  7.7069e-05,  7.1466e-05,  ...,  2.3887e-05,
+          1.4424e-05,  1.3933e-05]], device='cuda:0')
+Epoch 16, bias, value: tensor([ 0.0935, -0.0055, -0.0301, -0.0787, -0.0017,  0.0221,  0.0232],
+       device='cuda:0'), grad: tensor([-7.3004e-04, -1.7083e-04,  8.3864e-05,  2.6584e-04,  2.5558e-04,
+         5.2065e-05,  2.4271e-04], device='cuda:0')
+588
+0.008909157412340152
+changing lr
+epoch 15, time 804.54, cls_loss 0.0026 cls_loss_mapping 0.0329 cls_loss_causal 0.4981 re_mapping 0.0250 re_causal 0.0353 /// teacc 92.46 lr 0.00876536
+Epoch 17, weight, value: tensor([[ 3.0877e-01,  2.8484e-01,  2.4943e-01,  ..., -3.7709e-03,
+         -3.5700e-03, -7.9942e-03],
+        [ 9.6614e-03, -5.4450e-02,  3.4373e-02,  ..., -6.6495e-02,
+         -1.2707e-02, -1.8452e-02],
+        [-8.0009e-02, -4.7167e-02, -1.0457e-01,  ...,  3.1683e-02,
+          4.3488e-03,  9.3263e-03],
+        ...,
+        [-2.5681e-01, -2.3070e-01, -1.8887e-01,  ...,  1.7559e-02,
+         -5.9791e-03,  4.6386e-05],
+        [ 3.3051e-03,  1.5180e-02,  9.0167e-03,  ...,  1.9487e-02,
+          1.7549e-02, -8.4258e-04],
+        [ 2.9731e-02,  4.1046e-02,  2.6216e-02,  ..., -4.0756e-02,
+         -5.1178e-02, -3.9193e-02]], device='cuda:0'), grad: tensor([[-9.5129e-04, -6.0892e-04, -5.7459e-04,  ..., -7.3254e-05,
+         -4.3511e-05, -3.4660e-05],
+        [ 2.2995e-04,  1.4925e-04,  1.3995e-04,  ...,  1.7419e-05,
+          1.0207e-05,  7.9051e-06],
+        [ 4.1771e-04,  2.0003e-04,  1.8895e-04,  ...,  8.5592e-05,
+          6.5327e-05,  5.9038e-05],
+        ...,
+        [-4.3422e-05,  4.4525e-05,  3.9905e-05,  ..., -6.4969e-05,
+         -5.6446e-05, -5.4479e-05],
+        [ 1.8954e-05,  1.4342e-05,  1.2636e-05,  ..., -3.4012e-06,
+         -3.5074e-06, -3.6582e-06],
+        [ 7.2479e-05,  4.3869e-05,  4.1634e-05,  ...,  8.1062e-06,
+          5.5060e-06,  4.7162e-06]], device='cuda:0')
+Epoch 17, bias, value: tensor([ 0.0977, -0.0022, -0.0301, -0.0810, -0.0012,  0.0240,  0.0148],
+       device='cuda:0'), grad: tensor([-1.2197e-03,  2.8682e-04,  8.0919e-04,  3.6120e-04, -3.5715e-04,
+         1.6138e-05,  1.0234e-04], device='cuda:0')
+588
+0.00876535733001806
+changing lr
+---------------------saving model at epoch 16----------------------------------------------------
+epoch 16, time 801.25, cls_loss 0.0035 cls_loss_mapping 0.0301 cls_loss_causal 0.4996 re_mapping 0.0233 re_causal 0.0345 /// teacc 93.22 lr 0.00861397
+Epoch 18, weight, value: tensor([[ 0.3084,  0.2859,  0.2511,  ..., -0.0048, -0.0045, -0.0088],
+        [ 0.0077, -0.0551,  0.0318,  ..., -0.0646, -0.0121, -0.0177],
+        [-0.0786, -0.0478, -0.1040,  ...,  0.0308,  0.0038,  0.0087],
+        ...,
+        [-0.2536, -0.2282, -0.1873,  ...,  0.0177, -0.0052,  0.0006],
+        [ 0.0015,  0.0141,  0.0080,  ...,  0.0189,  0.0171, -0.0008],
+        [ 0.0288,  0.0393,  0.0249,  ..., -0.0401, -0.0502, -0.0385]],
+       device='cuda:0'), grad: tensor([[-8.0681e-04, -1.2195e-04, -1.2898e-04,  ..., -1.3053e-04,
+         -4.7460e-06, -1.6645e-05],
+        [ 1.6248e-04,  2.6643e-05,  2.7582e-05,  ...,  3.3528e-05,
+          9.1642e-06,  1.1556e-05],
+        [ 5.5361e-04,  8.6367e-05,  8.6010e-05,  ...,  1.6189e-04,
+          8.4102e-05,  9.1195e-05],
+        ...,
+        [-1.3089e-04, -2.9251e-05, -2.3514e-05,  ..., -1.1784e-04,
+         -1.0931e-04, -1.1015e-04],
+        [ 8.4877e-05,  1.6317e-05,  1.6421e-05,  ...,  2.2918e-05,
+          1.0960e-05,  1.2271e-05],
+        [ 9.1136e-05,  1.4931e-05,  1.5408e-05,  ...,  1.9282e-05,
+          5.6885e-06,  7.0222e-06]], device='cuda:0')
+Epoch 18, bias, value: tensor([ 0.0932, -0.0010, -0.0250, -0.0807, -0.0009,  0.0199,  0.0159],
+       device='cuda:0'), grad: tensor([-0.0024,  0.0005,  0.0017,  0.0001, -0.0004,  0.0002,  0.0003],
+       device='cuda:0')
+588
+0.008613974319136962
+changing lr
+---------------------saving model at epoch 17----------------------------------------------------
+epoch 17, time 797.72, cls_loss 0.0028 cls_loss_mapping 0.0307 cls_loss_causal 0.5040 re_mapping 0.0213 re_causal 0.0336 /// teacc 93.47 lr 0.00845531
+Epoch 19, weight, value: tensor([[ 0.3081,  0.2848,  0.2510,  ..., -0.0048, -0.0047, -0.0089],
+        [ 0.0072, -0.0541,  0.0308,  ..., -0.0628, -0.0116, -0.0170],
+        [-0.0802, -0.0488, -0.1041,  ...,  0.0286,  0.0023,  0.0071],
+        ...,
+        [-0.2502, -0.2258, -0.1860,  ...,  0.0181, -0.0042,  0.0013],
+        [ 0.0010,  0.0135,  0.0076,  ...,  0.0184,  0.0167, -0.0008],
+        [ 0.0275,  0.0378,  0.0237,  ..., -0.0392, -0.0491, -0.0376]],
+       device='cuda:0'), grad: tensor([[ 2.8849e-04,  4.6074e-05,  5.1081e-05,  ...,  1.8489e-04,
+          1.5497e-04,  1.4234e-04],
+        [ 1.0481e-03,  1.0043e-04,  1.2106e-04,  ...,  8.1396e-04,
+          6.8808e-04,  6.3181e-04],
+        [-3.1054e-05, -1.2353e-05, -9.3281e-06,  ...,  3.5018e-06,
+          4.2990e-06,  3.9078e-06],
+        ...,
+        [-1.4515e-03, -1.3566e-04, -1.6534e-04,  ..., -1.1339e-03,
+         -9.5844e-04, -8.8024e-04],
+        [ 1.5306e-04,  2.1562e-05,  2.5362e-05,  ...,  1.0747e-04,
+          9.0837e-05,  8.3327e-05],
+        [-5.7817e-05, -3.6657e-05, -4.1723e-05,  ...,  4.6641e-06,
+          3.9190e-06,  3.8408e-06]], device='cuda:0')
+Epoch 19, bias, value: tensor([ 0.0960, -0.0008, -0.0296, -0.0797,  0.0015,  0.0181,  0.0155],
+       device='cuda:0'), grad: tensor([ 8.9502e-04,  3.5439e-03, -6.1989e-05,  1.1826e-04, -4.9210e-03,
+         4.8828e-04, -6.4075e-05], device='cuda:0')
+588
+0.008455313244934327
+changing lr
+epoch 18, time 798.76, cls_loss 0.0039 cls_loss_mapping 0.0328 cls_loss_causal 0.4978 re_mapping 0.0189 re_causal 0.0313 /// teacc 92.71 lr 0.00828969
+Epoch 20, weight, value: tensor([[ 3.0665e-01,  2.8359e-01,  2.5095e-01,  ..., -6.0339e-03,
+         -5.9578e-03, -1.0030e-02],
+        [ 6.9393e-03, -5.2780e-02,  3.0491e-02,  ..., -6.1266e-02,
+         -1.1229e-02, -1.6480e-02],
+        [-7.9515e-02, -4.9647e-02, -1.0421e-01,  ...,  2.7716e-02,
+          1.8759e-03,  6.4953e-03],
+        ...,
+        [-2.4765e-01, -2.2352e-01, -1.8469e-01,  ...,  1.8843e-02,
+         -2.9624e-03,  2.3516e-03],
+        [ 6.2641e-05,  1.2833e-02,  7.0505e-03,  ...,  1.8054e-02,
+          1.6392e-02, -6.4744e-04],
+        [ 2.6739e-02,  3.6766e-02,  2.2924e-02,  ..., -3.8863e-02,
+         -4.8415e-02, -3.7202e-02]], device='cuda:0'), grad: tensor([[ 5.4300e-05,  2.3454e-05,  2.3410e-05,  ...,  1.1541e-05,
+          8.7619e-06,  8.7172e-06],
+        [-4.7326e-05, -1.6063e-05, -2.0429e-05,  ..., -4.0978e-06,
+         -1.6568e-06, -2.0191e-06],
+        [ 2.6673e-05,  1.2994e-05,  1.3642e-05,  ...,  8.0541e-06,
+          7.0632e-06,  7.0035e-06],
+        ...,
+        [-1.8075e-05, -9.0972e-06, -6.3851e-06,  ..., -6.0201e-06,
+         -4.8541e-06, -4.6007e-06],
+        [ 2.5127e-06,  9.0385e-07,  1.0878e-06,  ...,  3.3341e-07,
+          2.0722e-07,  2.1921e-07],
+        [ 1.1466e-05,  3.9227e-06,  4.9397e-06,  ...,  1.1260e-06,
+          5.3737e-07,  6.1840e-07]], device='cuda:0')
+Epoch 20, bias, value: tensor([ 0.0950, -0.0014, -0.0262, -0.0786,  0.0015,  0.0157,  0.0145],
+       device='cuda:0'), grad: tensor([ 1.1820e-04, -1.0955e-04,  4.5121e-05, -4.2945e-05, -4.3094e-05,
+         5.6624e-06,  2.6494e-05], device='cuda:0')
+588
+0.008289693629698565
+changing lr
+epoch 19, time 792.11, cls_loss 0.0039 cls_loss_mapping 0.0237 cls_loss_causal 0.4932 re_mapping 0.0180 re_causal 0.0315 /// teacc 91.46 lr 0.00811745
+Epoch 21, weight, value: tensor([[ 3.0447e-01,  2.8187e-01,  2.4979e-01,  ..., -6.7076e-03,
+         -6.7756e-03, -1.0729e-02],
+        [ 4.7002e-03, -5.3421e-02,  2.7895e-02,  ..., -5.9239e-02,
+         -1.0466e-02, -1.5559e-02],
+        [-8.0416e-02, -5.0230e-02, -1.0362e-01,  ...,  2.6126e-02,
+          9.0521e-04,  5.4391e-03],
+        ...,
+        [-2.4427e-01, -2.2061e-01, -1.8261e-01,  ...,  1.8997e-02,
+         -2.1985e-03,  2.8948e-03],
+        [ 9.3206e-05,  1.2356e-02,  6.7242e-03,  ...,  1.8128e-02,
+          1.6502e-02, -1.2376e-04],
+        [ 2.8731e-02,  3.7008e-02,  2.3603e-02,  ..., -3.8469e-02,
+         -4.7741e-02, -3.6795e-02]], device='cuda:0'), grad: tensor([[-6.7532e-05, -3.3796e-05, -3.6597e-05,  ..., -1.3702e-05,
+         -1.1690e-05, -1.1109e-05],
+        [ 1.8811e-04,  4.0323e-05,  4.5031e-05,  ...,  5.3257e-05,
+          4.5836e-05,  4.2945e-05],
+        [-9.0361e-04, -1.1033e-04, -1.1712e-04,  ..., -3.1137e-04,
+         -2.6441e-04, -2.4796e-04],
+        ...,
+        [ 6.2656e-04,  9.2924e-05,  9.9301e-05,  ...,  2.0146e-04,
+          1.6916e-04,  1.5903e-04],
+        [ 3.8415e-05,  6.9588e-06,  8.0541e-06,  ...,  1.2241e-05,
+          1.0744e-05,  1.0028e-05],
+        [-6.0856e-05, -3.1680e-05, -3.9607e-05,  ...,  9.1866e-06,
+          8.8736e-06,  8.0541e-06]], device='cuda:0')
+Epoch 21, bias, value: tensor([ 0.0943, -0.0015, -0.0295, -0.0791,  0.0009,  0.0159,  0.0189],
+       device='cuda:0'), grad: tensor([-1.0812e-04,  4.7445e-04, -2.5234e-03,  4.6134e-04,  1.6918e-03,
+         1.0103e-04, -9.5367e-05], device='cuda:0')
+588
+0.00811744900929367
+changing lr
+epoch 20, time 801.93, cls_loss 0.0025 cls_loss_mapping 0.0274 cls_loss_causal 0.4824 re_mapping 0.0165 re_causal 0.0294 /// teacc 92.21 lr 0.00793893
+Epoch 22, weight, value: tensor([[ 3.0332e-01,  2.8126e-01,  2.4988e-01,  ..., -7.2212e-03,
+         -7.1288e-03, -1.1022e-02],
+        [ 2.2383e-03, -5.3393e-02,  2.6200e-02,  ..., -5.8581e-02,
+         -1.0962e-02, -1.5828e-02],
+        [-7.8736e-02, -5.1609e-02, -1.0401e-01,  ...,  2.6550e-02,
+          1.5312e-03,  5.9552e-03],
+        ...,
+        [-2.4178e-01, -2.1774e-01, -1.8075e-01,  ...,  1.8485e-02,
+         -2.1285e-03,  2.7723e-03],
+        [-2.9574e-04,  1.1796e-02,  6.3332e-03,  ...,  1.7844e-02,
+          1.6253e-02,  4.7915e-06],
+        [ 2.7793e-02,  3.5903e-02,  2.2670e-02,  ..., -3.8213e-02,
+         -4.7233e-02, -3.6489e-02]], device='cuda:0'), grad: tensor([[-3.6836e-04, -2.5177e-04, -2.4652e-04,  ..., -4.3809e-05,
+         -3.1322e-05, -2.8759e-05],
+        [-2.4527e-05,  1.1601e-05,  1.1146e-05,  ..., -2.8938e-05,
+         -2.6405e-05, -2.6599e-05],
+        [ 1.9491e-04,  1.1951e-04,  1.1772e-04,  ...,  4.6253e-05,
+          3.8534e-05,  3.7432e-05],
+        ...,
+        [ 1.2636e-04,  7.4267e-05,  7.3791e-05,  ...,  3.0041e-05,
+          2.5019e-05,  2.4006e-05],
+        [ 1.8492e-05,  1.2353e-05,  1.2174e-05,  ...,  2.6375e-06,
+          2.0005e-06,  1.8878e-06],
+        [ 8.9884e-05,  4.4286e-05,  4.3482e-05,  ...,  2.6584e-05,
+          2.2545e-05,  2.2218e-05]], device='cuda:0')
+Epoch 22, bias, value: tensor([ 0.0933, -0.0056, -0.0201, -0.0788, -0.0019,  0.0151,  0.0176],
+       device='cuda:0'), grad: tensor([-4.7088e-04, -1.3137e-04,  2.8849e-04, -8.9347e-05,  2.0564e-04,
+         2.3976e-05,  1.7357e-04], device='cuda:0')
+588
+0.007938926261462368
+changing lr
+---------------------saving model at epoch 21----------------------------------------------------
+epoch 21, time 804.93, cls_loss 0.0017 cls_loss_mapping 0.0210 cls_loss_causal 0.4604 re_mapping 0.0152 re_causal 0.0278 /// teacc 93.97 lr 0.00775448
+Epoch 23, weight, value: tensor([[ 3.0241e-01,  2.8070e-01,  2.5009e-01,  ..., -7.2762e-03,
+         -7.3297e-03, -1.1042e-02],
+        [ 3.3405e-03, -5.2328e-02,  2.5679e-02,  ..., -5.6922e-02,
+         -1.0260e-02, -1.5070e-02],
+        [-8.0902e-02, -5.3023e-02, -1.0454e-01,  ...,  2.4919e-02,
+          4.5360e-04,  4.8131e-03],
+        ...,
+        [-2.3769e-01, -2.1498e-01, -1.7900e-01,  ...,  1.9241e-02,
+         -9.9494e-04,  3.6478e-03],
+        [-6.8180e-04,  1.1238e-02,  5.9412e-03,  ...,  1.7508e-02,
+          1.5926e-02,  6.2798e-05],
+        [ 2.5671e-02,  3.4222e-02,  2.1278e-02,  ..., -3.8128e-02,
+         -4.6865e-02, -3.6323e-02]], device='cuda:0'), grad: tensor([[-9.3460e-05, -9.2089e-05, -1.0115e-04,  ...,  2.8029e-05,
+          2.2590e-05,  2.4304e-05],
+        [-5.7906e-05, -3.4869e-05, -3.4958e-05,  ...,  1.2800e-05,
+          1.2353e-05,  1.2778e-05],
+        [ 3.9995e-05,  5.4002e-05,  5.8174e-05,  ..., -7.7263e-06,
+         -3.3919e-06, -3.3993e-06],
+        ...,
+        [ 2.7910e-05,  1.4126e-05,  1.5378e-05,  ...,  7.2680e-06,
+          6.9104e-06,  6.5789e-06],
+        [ 3.9577e-05,  2.2858e-05,  2.4661e-05,  ...,  3.2112e-06,
+          3.1590e-06,  2.6021e-06],
+        [ 9.1255e-05,  5.1975e-05,  5.5701e-05,  ...,  6.2399e-06,
+          6.0759e-06,  4.8578e-06]], device='cuda:0')
+Epoch 23, bias, value: tensor([ 0.0929, -0.0009, -0.0245, -0.0785,  0.0014,  0.0141,  0.0145],
+       device='cuda:0'), grad: tensor([-2.0582e-07, -9.3699e-05, -4.3452e-05, -1.0294e-04,  4.5955e-05,
+         5.7280e-05,  1.3685e-04], device='cuda:0')
+588
+0.007754484907260515
+changing lr
+epoch 22, time 804.92, cls_loss 0.0012 cls_loss_mapping 0.0169 cls_loss_causal 0.4926 re_mapping 0.0135 re_causal 0.0270 /// teacc 92.46 lr 0.00756450
+Epoch 24, weight, value: tensor([[ 3.0341e-01,  2.8073e-01,  2.5079e-01,  ..., -7.3566e-03,
+         -7.5387e-03, -1.1151e-02],
+        [ 2.2362e-03, -5.2175e-02,  2.4299e-02,  ..., -5.5901e-02,
+         -1.0195e-02, -1.4882e-02],
+        [-8.1328e-02, -5.4016e-02, -1.0463e-01,  ...,  2.3827e-02,
+         -9.1272e-05,  4.1168e-03],
+        ...,
+        [-2.3558e-01, -2.1269e-01, -1.7767e-01,  ...,  1.9353e-02,
+         -4.5102e-04,  4.0575e-03],
+        [-9.7764e-04,  1.0551e-02,  5.4267e-03,  ...,  1.7267e-02,
+          1.5704e-02,  1.6631e-04],
+        [ 2.3303e-02,  3.2839e-02,  2.0170e-02,  ..., -3.8064e-02,
+         -4.6516e-02, -3.6156e-02]], device='cuda:0'), grad: tensor([[-3.5238e-04, -2.3055e-04, -2.3615e-04,  ..., -2.4348e-05,
+         -2.0236e-05, -1.9029e-05],
+        [ 1.1915e-04,  6.5088e-05,  6.7651e-05,  ...,  1.9163e-05,
+          1.7196e-05,  1.4812e-05],
+        [ 2.9311e-05,  3.6269e-05,  3.9190e-05,  ...,  4.6603e-06,
+          7.0035e-06,  6.3032e-06],
+        ...,
+        [-1.1533e-05,  2.5406e-05,  2.4766e-05,  ..., -3.7104e-05,
+         -3.6001e-05, -2.9743e-05],
+        [ 5.5015e-05,  2.6435e-05,  2.7090e-05,  ...,  1.2539e-05,
+          1.1414e-05,  9.7975e-06],
+        [ 5.5641e-05,  2.6867e-05,  2.7537e-05,  ...,  1.1757e-05,
+          1.0565e-05,  9.0525e-06]], device='cuda:0')
+Epoch 24, bias, value: tensor([ 9.7089e-02, -1.6464e-03, -2.4646e-02, -7.6325e-02, -9.4057e-05,
+         1.4250e-02,  9.9926e-03], device='cuda:0'), grad: tensor([-4.3774e-04,  1.9503e-04, -5.9791e-06,  1.9085e-04, -1.5306e-04,
+         1.0592e-04,  1.0550e-04], device='cuda:0')
+588
+0.007564496387029534
+changing lr
+epoch 23, time 800.65, cls_loss 0.0010 cls_loss_mapping 0.0178 cls_loss_causal 0.4827 re_mapping 0.0127 re_causal 0.0264 /// teacc 92.96 lr 0.00736934
+Epoch 25, weight, value: tensor([[ 2.9767e-01,  2.7746e-01,  2.4832e-01,  ..., -8.7068e-03,
+         -8.7573e-03, -1.2214e-02],
+        [ 3.5369e-03, -5.1034e-02,  2.4146e-02,  ..., -5.4302e-02,
+         -9.6105e-03, -1.4181e-02],
+        [-8.0467e-02, -5.4146e-02, -1.0408e-01,  ...,  2.3166e-02,
+         -4.0458e-04,  3.7015e-03],
+        ...,
+        [-2.3154e-01, -2.0966e-01, -1.7562e-01,  ...,  1.9981e-02,
+          6.3002e-04,  4.9106e-03],
+        [-1.7386e-03,  9.8716e-03,  4.8619e-03,  ...,  1.6948e-02,
+          1.5422e-02,  2.2180e-04],
+        [ 2.3662e-02,  3.2522e-02,  2.0136e-02,  ..., -3.7595e-02,
+         -4.5840e-02, -3.5701e-02]], device='cuda:0'), grad: tensor([[ 2.1793e-06, -9.1791e-06, -1.0736e-05,  ...,  6.3106e-06,
+          3.8967e-06,  4.2617e-06],
+        [-6.9022e-05, -2.4393e-05, -2.2501e-05,  ..., -1.6659e-05,
+         -1.2137e-05, -1.2122e-05],
+        [ 2.4751e-05,  1.1161e-05,  1.1109e-05,  ...,  5.2005e-06,
+          4.2506e-06,  4.1351e-06],
+        ...,
+        [ 1.8418e-05,  1.0662e-05,  1.0833e-05,  ...,  2.2370e-06,
+          1.9036e-06,  1.7798e-06],
+        [ 1.1772e-05,  6.7949e-06,  6.8247e-06,  ...,  1.3644e-06,
+          1.1018e-06,  1.0049e-06],
+        [ 1.3508e-05,  5.8524e-06,  5.6326e-06,  ...,  2.6282e-06,
+          1.9539e-06,  1.9129e-06]], device='cuda:0')
+Epoch 25, bias, value: tensor([ 0.0893,  0.0024, -0.0232, -0.0765,  0.0024,  0.0128,  0.0112],
+       device='cuda:0'), grad: tensor([ 4.2707e-05, -1.6236e-04,  4.9114e-05, -1.7397e-06,  2.7105e-05,
+         1.7464e-05,  2.7597e-05], device='cuda:0')
+588
+0.007369343312364995
+changing lr
+epoch 24, time 797.55, cls_loss 0.0014 cls_loss_mapping 0.0192 cls_loss_causal 0.4524 re_mapping 0.0122 re_causal 0.0246 /// teacc 93.47 lr 0.00716942
+Epoch 26, weight, value: tensor([[ 0.3000,  0.2791,  0.2508,  ..., -0.0088, -0.0089, -0.0123],
+        [ 0.0006, -0.0522,  0.0216,  ..., -0.0535, -0.0096, -0.0140],
+        [-0.0822, -0.0562, -0.1054,  ...,  0.0223, -0.0009,  0.0030],
+        ...,
+        [-0.2290, -0.2075, -0.1744,  ...,  0.0201,  0.0011,  0.0053],
+        [-0.0018,  0.0097,  0.0049,  ...,  0.0168,  0.0153,  0.0004],
+        [ 0.0232,  0.0319,  0.0197,  ..., -0.0371, -0.0452, -0.0352]],
+       device='cuda:0'), grad: tensor([[ 6.5088e-04,  1.9658e-04,  2.0254e-04,  ...,  2.2066e-04,
+          1.8895e-04,  1.9455e-04],
+        [-1.8561e-04, -3.1143e-05, -4.0710e-05,  ..., -2.4721e-05,
+         -1.6004e-05, -1.5855e-05],
+        [ 4.2081e-04,  1.2130e-04,  1.2314e-04,  ...,  1.5497e-04,
+          1.3554e-04,  1.3888e-04],
+        ...,
+        [-9.8705e-04, -2.8467e-04, -2.8110e-04,  ..., -3.6788e-04,
+         -3.1900e-04, -3.2997e-04],
+        [ 1.2672e-04,  3.7640e-05,  3.7223e-05,  ...,  4.6343e-05,
+          3.9935e-05,  4.1425e-05],
+        [ 7.8797e-05,  1.8910e-05,  2.0757e-05,  ...,  2.0325e-05,
+          1.6555e-05,  1.6943e-05]], device='cuda:0')
+Epoch 26, bias, value: tensor([ 0.0930, -0.0002, -0.0241, -0.0761,  0.0029,  0.0117,  0.0107],
+       device='cuda:0'), grad: tensor([ 0.0016, -0.0005,  0.0011, -0.0001, -0.0025,  0.0003,  0.0002],
+       device='cuda:0')
+588
+0.0071694186955877925
+changing lr
+epoch 25, time 798.32, cls_loss 0.0014 cls_loss_mapping 0.0173 cls_loss_causal 0.4765 re_mapping 0.0114 re_causal 0.0249 /// teacc 92.46 lr 0.00696513
+Epoch 27, weight, value: tensor([[ 0.2992,  0.2786,  0.2510,  ..., -0.0096, -0.0097, -0.0130],
+        [ 0.0007, -0.0513,  0.0211,  ..., -0.0522, -0.0092, -0.0135],
+        [-0.0827, -0.0573, -0.1057,  ...,  0.0216, -0.0013,  0.0026],
+        ...,
+        [-0.2271, -0.2057, -0.1735,  ...,  0.0200,  0.0014,  0.0054],
+        [-0.0018,  0.0097,  0.0051,  ...,  0.0165,  0.0152,  0.0005],
+        [ 0.0222,  0.0305,  0.0185,  ..., -0.0367, -0.0445, -0.0347]],
+       device='cuda:0'), grad: tensor([[-3.2234e-04, -2.1136e-04, -2.5582e-04,  ..., -3.6538e-05,
+         -3.8832e-05, -3.0115e-05],
+        [ 6.3753e-04,  1.5867e-04,  2.0230e-04,  ...,  1.2553e-04,
+          1.0616e-04,  9.0301e-05],
+        [-1.1482e-03, -7.7665e-05, -1.2553e-04,  ..., -2.6131e-04,
+         -2.0933e-04, -1.8072e-04],
+        ...,
+        [ 4.3869e-04,  4.6045e-05,  7.3969e-05,  ...,  8.6069e-05,
+          7.0870e-05,  5.7817e-05],
+        [ 6.4552e-05,  1.4663e-05,  1.8716e-05,  ...,  1.3188e-05,
+          1.1049e-05,  9.4995e-06],
+        [ 1.0896e-04,  1.7837e-05,  2.3589e-05,  ...,  2.3484e-05,
+          1.9148e-05,  1.6630e-05]], device='cuda:0')
+Epoch 27, bias, value: tensor([ 0.0918,  0.0010, -0.0236, -0.0753,  0.0025,  0.0101,  0.0109],
+       device='cuda:0'), grad: tensor([-0.0004,  0.0016, -0.0036,  0.0006,  0.0013,  0.0002,  0.0003],
+       device='cuda:0')
+588
+0.0069651251582696205
+changing lr
+epoch 26, time 797.17, cls_loss 0.0013 cls_loss_mapping 0.0172 cls_loss_causal 0.4458 re_mapping 0.0104 re_causal 0.0235 /// teacc 93.47 lr 0.00675687
+Epoch 28, weight, value: tensor([[ 0.2990,  0.2783,  0.2510,  ..., -0.0100, -0.0103, -0.0135],
+        [ 0.0011, -0.0507,  0.0206,  ..., -0.0510, -0.0088, -0.0131],
+        [-0.0834, -0.0582, -0.1057,  ...,  0.0205, -0.0020,  0.0019],
+        ...,
+        [-0.2254, -0.2040, -0.1726,  ...,  0.0204,  0.0022,  0.0060],
+        [-0.0025,  0.0090,  0.0044,  ...,  0.0163,  0.0150,  0.0006],
+        [ 0.0219,  0.0300,  0.0182,  ..., -0.0365, -0.0440, -0.0344]],
+       device='cuda:0'), grad: tensor([[ 3.2735e-04,  1.5974e-04,  1.6665e-04,  ...,  6.4611e-05,
+          5.8174e-05,  5.8711e-05],
+        [ 2.7388e-05,  1.0744e-05,  1.0781e-05,  ...,  6.4336e-06,
+          5.6624e-06,  5.6103e-06],
+        [-1.7011e-04, -4.9680e-05, -4.5806e-05,  ..., -1.3113e-05,
+         -1.2346e-05, -1.2852e-05],
+        ...,
+        [-3.4630e-05, -1.1139e-06, -1.0550e-08,  ..., -2.4438e-05,
+         -2.1309e-05, -1.9833e-05],
+        [ 3.0413e-05,  9.4846e-06,  9.1419e-06,  ...,  5.6848e-06,
+          5.1446e-06,  5.0291e-06],
+        [ 2.1249e-05,  5.6885e-06,  5.2862e-06,  ...,  5.7481e-06,
+          5.0664e-06,  4.8839e-06]], device='cuda:0')
+Epoch 28, bias, value: tensor([ 0.0930,  0.0031, -0.0248, -0.0758,  0.0018,  0.0096,  0.0101],
+       device='cuda:0'), grad: tensor([ 5.7983e-04,  5.8293e-05, -4.2319e-04, -2.2304e-04, -1.2046e-04,
+         7.3552e-05,  5.5075e-05], device='cuda:0')
+588
+0.006756874120406716
+changing lr
+epoch 27, time 794.87, cls_loss 0.0010 cls_loss_mapping 0.0156 cls_loss_causal 0.4354 re_mapping 0.0101 re_causal 0.0227 /// teacc 91.96 lr 0.00654508
+Epoch 29, weight, value: tensor([[ 0.2964,  0.2768,  0.2501,  ..., -0.0106, -0.0110, -0.0140],
+        [-0.0003, -0.0508,  0.0192,  ..., -0.0499, -0.0086, -0.0127],
+        [-0.0830, -0.0584, -0.1052,  ...,  0.0195, -0.0025,  0.0013],
+        ...,
+        [-0.2227, -0.2019, -0.1714,  ...,  0.0206,  0.0028,  0.0064],
+        [-0.0022,  0.0085,  0.0041,  ...,  0.0162,  0.0149,  0.0008],
+        [ 0.0216,  0.0297,  0.0181,  ..., -0.0362, -0.0435, -0.0341]],
+       device='cuda:0'), grad: tensor([[ 2.1100e-05,  2.8107e-06,  4.6752e-06,  ...,  9.8497e-06,
+          8.6352e-06,  7.9274e-06],
+        [ 2.0242e-04,  2.1428e-05,  2.7567e-05,  ...,  7.5579e-05,
+          6.1452e-05,  5.5641e-05],
+        [-6.2370e-04, -8.9765e-05, -1.2732e-04,  ..., -2.3520e-04,
+         -1.9300e-04, -1.7798e-04],
+        ...,
+        [ 1.2058e-04,  6.2808e-06,  4.7833e-06,  ...,  3.9488e-05,
+          2.9057e-05,  2.6211e-05],
+        [ 1.7896e-05,  3.2187e-06,  4.3213e-06,  ...,  6.6496e-06,
+          5.6550e-06,  5.1633e-06],
+        [-1.3197e-06, -5.2676e-06, -4.2990e-06,  ...,  3.9190e-06,
+          3.0492e-06,  2.8163e-06]], device='cuda:0')
+Epoch 29, bias, value: tensor([ 0.0892,  0.0022, -0.0241, -0.0743,  0.0036,  0.0108,  0.0095],
+       device='cuda:0'), grad: tensor([ 7.8917e-05,  6.7806e-04, -2.1114e-03,  8.7309e-04,  4.0364e-04,
+         5.7459e-05,  1.9580e-05], device='cuda:0')
+588
+0.00654508497187474
+changing lr
+epoch 28, time 805.55, cls_loss 0.0012 cls_loss_mapping 0.0149 cls_loss_causal 0.4483 re_mapping 0.0097 re_causal 0.0227 /// teacc 92.21 lr 0.00633018
+Epoch 30, weight, value: tensor([[ 0.2958,  0.2760,  0.2501,  ..., -0.0108, -0.0112, -0.0142],
+        [-0.0015, -0.0508,  0.0179,  ..., -0.0491, -0.0085, -0.0125],
+        [-0.0831, -0.0591, -0.1053,  ...,  0.0189, -0.0029,  0.0009],
+        ...,
+        [-0.2210, -0.2002, -0.1704,  ...,  0.0205,  0.0031,  0.0066],
+        [-0.0030,  0.0081,  0.0037,  ...,  0.0159,  0.0146,  0.0007],
+        [ 0.0227,  0.0298,  0.0185,  ..., -0.0358, -0.0429, -0.0337]],
+       device='cuda:0'), grad: tensor([[-1.0805e-03, -3.7551e-04, -4.2343e-04,  ..., -1.4603e-04,
+         -8.7082e-05, -1.1414e-04],
+        [ 5.3835e-04,  1.9062e-04,  2.1446e-04,  ...,  8.3685e-05,
+          5.4508e-05,  6.8009e-05],
+        [ 3.0708e-04,  9.1732e-05,  9.2924e-05,  ...,  7.2002e-05,
+          5.4151e-05,  6.0499e-05],
+        ...,
+        [ 1.6141e-04,  7.1049e-05,  8.7857e-05,  ...,  2.6733e-05,
+          2.1249e-05,  2.4289e-05],
+        [ 5.6893e-05,  2.1517e-05,  2.3648e-05,  ...,  1.0692e-05,
+          8.1211e-06,  9.1568e-06],
+        [ 7.7963e-05,  2.8268e-05,  3.1024e-05,  ...,  1.6436e-05,
+          1.2979e-05,  1.4275e-05]], device='cuda:0')
+Epoch 30, bias, value: tensor([ 0.0890,  0.0014, -0.0226, -0.0744,  0.0027,  0.0087,  0.0116],
+       device='cuda:0'), grad: tensor([-0.0024,  0.0012,  0.0008, -0.0001,  0.0003,  0.0001,  0.0002],
+       device='cuda:0')
+588
+0.006330184227833378
+changing lr
+epoch 29, time 800.78, cls_loss 0.0022 cls_loss_mapping 0.0162 cls_loss_causal 0.4417 re_mapping 0.0096 re_causal 0.0220 /// teacc 93.72 lr 0.00611260
+Epoch 31, weight, value: tensor([[ 2.9643e-01,  2.7640e-01,  2.5087e-01,  ..., -1.1205e-02,
+         -1.1681e-02, -1.4603e-02],
+        [-2.0792e-03, -5.0847e-02,  1.6912e-02,  ..., -4.7939e-02,
+         -8.1598e-03, -1.2038e-02],
+        [-8.3404e-02, -6.0154e-02, -1.0570e-01,  ...,  1.8019e-02,
+         -3.3490e-03,  2.8479e-04],
+        ...,
+        [-2.1862e-01, -1.9835e-01, -1.6911e-01,  ...,  2.0958e-02,
+          3.8500e-03,  7.2092e-03],
+        [-4.0201e-03,  7.2901e-03,  2.9537e-03,  ...,  1.5558e-02,
+          1.4312e-02,  7.1897e-04],
+        [ 2.1437e-02,  2.9160e-02,  1.7969e-02,  ..., -3.5824e-02,
+         -4.2671e-02, -3.3568e-02]], device='cuda:0'), grad: tensor([[-9.1457e-04, -5.7173e-04, -5.7650e-04,  ..., -8.1003e-05,
+         -7.4625e-05, -7.1347e-05],
+        [ 6.6853e-04,  3.9935e-04,  4.0102e-04,  ...,  6.8128e-05,
+          6.2287e-05,  5.8621e-05],
+        [ 9.3758e-05,  7.7426e-05,  7.6532e-05,  ...,  2.7195e-06,
+          4.0010e-06,  4.9435e-06],
+        ...,
+        [ 6.8128e-05,  2.6152e-05,  2.8029e-05,  ...,  2.3112e-05,
+          2.1592e-05,  1.9968e-05],
+        [-5.3465e-05, -2.6207e-06, -4.3362e-06,  ..., -3.8505e-05,
+         -3.7253e-05, -3.4034e-05],
+        [ 9.2506e-05,  4.5151e-05,  4.7624e-05,  ...,  2.2009e-05,
+          2.0757e-05,  1.9178e-05]], device='cuda:0')
+Epoch 31, bias, value: tensor([ 0.0902,  0.0026, -0.0210, -0.0748,  0.0033,  0.0070,  0.0088],
+       device='cuda:0'), grad: tensor([-1.2283e-03,  9.7322e-04,  5.2720e-05,  6.4433e-05,  1.4603e-04,
+        -1.7130e-04,  1.6260e-04], device='cuda:0')
+588
+0.006112604669781575
+changing lr
+epoch 30, time 803.32, cls_loss 0.0010 cls_loss_mapping 0.0153 cls_loss_causal 0.4200 re_mapping 0.0093 re_causal 0.0218 /// teacc 93.72 lr 0.00589278
+Epoch 32, weight, value: tensor([[ 0.2955,  0.2757,  0.2508,  ..., -0.0117, -0.0121, -0.0150],
+        [-0.0038, -0.0513,  0.0154,  ..., -0.0471, -0.0080, -0.0118],
+        [-0.0839, -0.0608, -0.1056,  ...,  0.0171, -0.0039, -0.0003],
+        ...,
+        [-0.2166, -0.1966, -0.1682,  ...,  0.0209,  0.0041,  0.0074],
+        [-0.0041,  0.0070,  0.0027,  ...,  0.0154,  0.0142,  0.0008],
+        [ 0.0220,  0.0289,  0.0178,  ..., -0.0354, -0.0421, -0.0331]],
+       device='cuda:0'), grad: tensor([[ 1.1473e-03,  4.5085e-04,  5.0259e-04,  ...,  6.2656e-04,
+          6.0129e-04,  5.9652e-04],
+        [ 2.4128e-04,  9.1970e-05,  1.0252e-04,  ...,  1.2875e-04,
+          1.2362e-04,  1.2255e-04],
+        [ 9.9838e-06,  1.7092e-05,  1.9282e-05,  ...,  1.9982e-05,
+          1.8999e-05,  1.9163e-05],
+        ...,
+        [ 9.0408e-04,  3.5238e-04,  3.9291e-04,  ...,  4.9210e-04,
+          4.7183e-04,  4.6825e-04],
+        [-8.0824e-05, -3.1620e-05, -2.5362e-05,  ...,  2.4382e-06,
+          1.2638e-06,  1.6280e-06],
+        [ 1.1528e-04,  4.4107e-05,  4.3482e-05,  ...,  3.4809e-05,
+          3.4034e-05,  3.3557e-05]], device='cuda:0')
+Epoch 32, bias, value: tensor([ 0.0894,  0.0011, -0.0218, -0.0742,  0.0038,  0.0067,  0.0108],
+       device='cuda:0'), grad: tensor([ 2.1744e-03,  4.6849e-04, -3.5048e-05, -4.3869e-03,  1.7233e-03,
+        -1.9062e-04,  2.4414e-04], device='cuda:0')
+588
+0.005892784473993186
+changing lr
+epoch 31, time 807.94, cls_loss 0.0011 cls_loss_mapping 0.0141 cls_loss_causal 0.4438 re_mapping 0.0094 re_causal 0.0225 /// teacc 93.47 lr 0.00567117
+Epoch 33, weight, value: tensor([[ 0.2931,  0.2734,  0.2494,  ..., -0.0120, -0.0124, -0.0153],
+        [-0.0035, -0.0507,  0.0149,  ..., -0.0460, -0.0076, -0.0113],
+        [-0.0824, -0.0604, -0.1047,  ...,  0.0165, -0.0042, -0.0007],
+        ...,
+        [-0.2136, -0.1940, -0.1665,  ...,  0.0211,  0.0045,  0.0077],
+        [-0.0045,  0.0066,  0.0024,  ...,  0.0151,  0.0140,  0.0008],
+        [ 0.0203,  0.0279,  0.0169,  ..., -0.0353, -0.0418, -0.0330]],
+       device='cuda:0'), grad: tensor([[ 1.2314e-04,  5.6297e-05,  6.4850e-05,  ...,  8.8885e-06,
+          1.5147e-05,  1.2144e-05],
+        [-2.0421e-04, -6.9261e-05, -1.1009e-04,  ..., -4.1753e-05,
+         -3.6001e-05, -3.6359e-05],
+        [-1.9407e-04, -1.0091e-04, -1.0794e-04,  ..., -1.3933e-05,
+         -2.2918e-05, -1.8120e-05],
+        ...,
+        [ 2.7269e-05,  1.2420e-05,  1.5542e-05,  ...,  4.0792e-06,
+          3.9861e-06,  3.7514e-06],
+        [ 5.0187e-05,  1.8343e-05,  2.7403e-05,  ...,  9.7379e-06,
+          8.6203e-06,  8.5980e-06],
+        [ 9.4652e-05,  4.1217e-05,  5.5104e-05,  ...,  1.5408e-05,
+          1.3940e-05,  1.3582e-05]], device='cuda:0')
+Epoch 33, bias, value: tensor([ 0.0883,  0.0033, -0.0191, -0.0753,  0.0045,  0.0059,  0.0079],
+       device='cuda:0'), grad: tensor([ 2.3878e-04, -3.5334e-04, -3.5167e-04,  1.8370e-04,  4.4793e-05,
+         8.6069e-05,  1.5199e-04], device='cuda:0')
+588
+0.00567116632908828
+changing lr
+---------------------saving model at epoch 32----------------------------------------------------
+epoch 32, time 807.15, cls_loss 0.0010 cls_loss_mapping 0.0137 cls_loss_causal 0.4254 re_mapping 0.0090 re_causal 0.0209 /// teacc 94.47 lr 0.00544820
+Epoch 34, weight, value: tensor([[ 0.2921,  0.2724,  0.2489,  ..., -0.0123, -0.0128, -0.0156],
+        [-0.0043, -0.0503,  0.0143,  ..., -0.0453, -0.0075, -0.0111],
+        [-0.0827, -0.0608, -0.1045,  ...,  0.0159, -0.0044, -0.0010],
+        ...,
+        [-0.2125, -0.1929, -0.1659,  ...,  0.0206,  0.0043,  0.0074],
+        [-0.0045,  0.0063,  0.0022,  ...,  0.0151,  0.0139,  0.0010],
+        [ 0.0197,  0.0272,  0.0164,  ..., -0.0350, -0.0414, -0.0327]],
+       device='cuda:0'), grad: tensor([[ 8.4925e-04,  2.9707e-04,  3.1471e-04,  ...,  2.5940e-04,
+          2.5916e-04,  2.5082e-04],
+        [-7.5569e-03, -2.6493e-03, -2.8076e-03,  ..., -2.3994e-03,
+         -2.3823e-03, -2.3232e-03],
+        [ 3.5629e-03,  1.2598e-03,  1.3294e-03,  ...,  1.1501e-03,
+          1.1454e-03,  1.1187e-03],
+        ...,
+        [ 5.9414e-04,  2.0432e-04,  2.1875e-04,  ...,  1.9705e-04,
+          1.9121e-04,  1.8919e-04],
+        [ 1.5664e-04,  5.3883e-05,  5.7608e-05,  ...,  4.7475e-05,
+          4.6819e-05,  4.5508e-05],
+        [ 7.3814e-04,  2.4331e-04,  2.6560e-04,  ...,  2.0218e-04,
+          1.9646e-04,  1.8907e-04]], device='cuda:0')
+Epoch 34, bias, value: tensor([ 0.0883,  0.0018, -0.0194, -0.0726,  0.0036,  0.0059,  0.0076],
+       device='cuda:0'), grad: tensor([ 0.0019, -0.0166,  0.0077,  0.0035,  0.0013,  0.0004,  0.0017],
+       device='cuda:0')
+588
+0.00544819654451717
+changing lr
+epoch 33, time 801.32, cls_loss 0.0009 cls_loss_mapping 0.0120 cls_loss_causal 0.4182 re_mapping 0.0085 re_causal 0.0208 /// teacc 92.21 lr 0.00522432
+Epoch 35, weight, value: tensor([[ 0.2903,  0.2713,  0.2482,  ..., -0.0129, -0.0133, -0.0160],
+        [-0.0034, -0.0494,  0.0143,  ..., -0.0442, -0.0070, -0.0106],
+        [-0.0834, -0.0615, -0.1046,  ...,  0.0150, -0.0050, -0.0017],
+        ...,
+        [-0.2097, -0.1909, -0.1645,  ...,  0.0209,  0.0048,  0.0079],
+        [-0.0047,  0.0058,  0.0018,  ...,  0.0149,  0.0138,  0.0011],
+        [ 0.0188,  0.0265,  0.0158,  ..., -0.0349, -0.0410, -0.0325]],
+       device='cuda:0'), grad: tensor([[-1.6623e-03, -9.4938e-04, -1.0691e-03,  ..., -2.4772e-04,
+         -2.3317e-04, -2.4343e-04],
+        [ 2.8062e-04,  1.6332e-04,  1.5497e-04,  ...,  2.0042e-05,
+          1.9893e-05,  2.1189e-05],
+        [ 1.2183e-04,  6.8367e-05,  7.3433e-05,  ...,  1.7747e-05,
+          1.6943e-05,  1.6987e-05],
+        ...,
+        [ 6.3324e-04,  3.6430e-04,  4.3082e-04,  ...,  1.0502e-04,
+          9.7692e-05,  1.0312e-04],
+        [ 1.0037e-04,  5.7071e-05,  6.6102e-05,  ...,  1.6525e-05,
+          1.5527e-05,  1.6168e-05],
+        [ 2.9516e-04,  1.6642e-04,  1.9372e-04,  ...,  4.9919e-05,
+          4.6909e-05,  4.8518e-05]], device='cuda:0')
+Epoch 35, bias, value: tensor([ 0.0854,  0.0042, -0.0203, -0.0732,  0.0063,  0.0067,  0.0059],
+       device='cuda:0'), grad: tensor([-0.0023,  0.0004,  0.0002,  0.0003,  0.0009,  0.0001,  0.0004],
+       device='cuda:0')
+588
+0.005224324151752577
+changing lr
+epoch 34, time 795.20, cls_loss 0.0010 cls_loss_mapping 0.0118 cls_loss_causal 0.4274 re_mapping 0.0082 re_causal 0.0200 /// teacc 91.71 lr 0.00500000
+Epoch 36, weight, value: tensor([[ 0.2902,  0.2709,  0.2482,  ..., -0.0132, -0.0136, -0.0163],
+        [-0.0040, -0.0492,  0.0136,  ..., -0.0437, -0.0070, -0.0105],
+        [-0.0830, -0.0617, -0.1043,  ...,  0.0146, -0.0053, -0.0020],
+        ...,
+        [-0.2083, -0.1896, -0.1639,  ...,  0.0210,  0.0052,  0.0081],
+        [-0.0055,  0.0054,  0.0014,  ...,  0.0146,  0.0135,  0.0009],
+        [ 0.0182,  0.0259,  0.0154,  ..., -0.0346, -0.0407, -0.0322]],
+       device='cuda:0'), grad: tensor([[-8.0287e-05, -5.7131e-05, -5.0098e-05,  ..., -1.9763e-06,
+          5.5617e-08, -1.5134e-07],
+        [ 3.2574e-05,  1.4395e-05,  1.4730e-05,  ...,  1.5602e-05,
+          1.4566e-05,  1.4544e-05],
+        [ 8.7798e-05,  3.5137e-05,  3.6985e-05,  ...,  5.2035e-05,
+          4.9829e-05,  4.9561e-05],
+        ...,
+        [ 1.1677e-04,  6.7174e-05,  6.2585e-05,  ...,  2.9519e-05,
+          2.5943e-05,  2.6077e-05],
+        [ 1.1258e-05,  5.0142e-06,  5.1297e-06,  ...,  5.4352e-06,
+          5.0813e-06,  5.0738e-06],
+        [ 1.5706e-05,  7.3649e-06,  7.4171e-06,  ...,  6.7689e-06,
+          6.3069e-06,  6.2957e-06]], device='cuda:0')
+Epoch 36, bias, value: tensor([ 0.0863,  0.0040, -0.0189, -0.0729,  0.0064,  0.0047,  0.0053],
+       device='cuda:0'), grad: tensor([-1.0407e-04,  6.8367e-05,  1.9825e-04, -4.1604e-04,  1.9872e-04,
+         2.3410e-05,  3.1650e-05], device='cuda:0')
+588
+0.005000000000000003
+changing lr
+epoch 35, time 792.13, cls_loss 0.0008 cls_loss_mapping 0.0095 cls_loss_causal 0.4105 re_mapping 0.0080 re_causal 0.0194 /// teacc 93.47 lr 0.00477568
+Epoch 37, weight, value: tensor([[ 0.2894,  0.2700,  0.2477,  ..., -0.0135, -0.0139, -0.0165],
+        [-0.0049, -0.0490,  0.0131,  ..., -0.0433, -0.0071, -0.0105],
+        [-0.0823, -0.0618, -0.1039,  ...,  0.0142, -0.0054, -0.0022],
+        ...,
+        [-0.2075, -0.1884, -0.1631,  ...,  0.0210,  0.0053,  0.0082],
+        [-0.0042,  0.0054,  0.0015,  ...,  0.0149,  0.0138,  0.0014],
+        [ 0.0179,  0.0256,  0.0152,  ..., -0.0344, -0.0404, -0.0321]],
+       device='cuda:0'), grad: tensor([[-1.3101e-04, -1.0580e-04, -1.0169e-04,  ...,  1.4357e-05,
+          1.5572e-05,  1.5512e-05],
+        [-3.6263e-04, -3.8356e-05, -4.4197e-05,  ..., -1.2255e-04,
+         -1.2350e-04, -1.1641e-04],
+        [ 2.5916e-04,  1.0717e-04,  1.1051e-04,  ...,  6.8307e-05,
+          6.6459e-05,  6.4075e-05],
+        ...,
+        [ 2.1553e-04,  4.8310e-05,  5.2541e-05,  ...,  7.7128e-05,
+          7.5579e-05,  7.2181e-05],
+        [ 6.5923e-05,  2.0012e-05,  2.0698e-05,  ...,  1.7375e-05,
+          1.7196e-05,  1.6212e-05],
+        [ 8.0645e-05,  2.7642e-05,  2.8148e-05,  ...,  1.8388e-05,
+          1.8135e-05,  1.7047e-05]], device='cuda:0')
+Epoch 37, bias, value: tensor([ 0.0864,  0.0019, -0.0167, -0.0745,  0.0044,  0.0081,  0.0049],
+       device='cuda:0'), grad: tensor([-8.1778e-05, -1.1969e-03,  5.4407e-04, -2.3472e-04,  6.0987e-04,
+         1.6737e-04,  1.9264e-04], device='cuda:0')
+588
+0.004775675848247429
+changing lr
+epoch 36, time 798.79, cls_loss 0.0009 cls_loss_mapping 0.0122 cls_loss_causal 0.4150 re_mapping 0.0079 re_causal 0.0202 /// teacc 93.22 lr 0.00455180
+Epoch 38, weight, value: tensor([[ 0.2885,  0.2691,  0.2472,  ..., -0.0137, -0.0140, -0.0167],
+        [-0.0042, -0.0482,  0.0131,  ..., -0.0424, -0.0068, -0.0101],
+        [-0.0824, -0.0621, -0.1037,  ...,  0.0136, -0.0057, -0.0026],
+        ...,
+        [-0.2068, -0.1874, -0.1625,  ...,  0.0208,  0.0054,  0.0083],
+        [-0.0045,  0.0052,  0.0014,  ...,  0.0148,  0.0137,  0.0015],
+        [ 0.0180,  0.0252,  0.0150,  ..., -0.0341, -0.0400, -0.0318]],
+       device='cuda:0'), grad: tensor([[-1.1810e-02, -5.7907e-03, -6.4354e-03,  ..., -1.9150e-03,
+         -1.8396e-03, -1.5230e-03],
+        [ 2.3289e-03,  1.0719e-03,  1.2245e-03,  ...,  4.2105e-04,
+          4.0293e-04,  3.3545e-04],
+        [ 2.2926e-03,  1.2970e-03,  1.3771e-03,  ...,  2.3854e-04,
+          2.2101e-04,  1.8394e-04],
+        ...,
+        [ 5.0240e-03,  2.3766e-03,  2.6627e-03,  ...,  8.9931e-04,
+          8.7404e-04,  7.1955e-04],
+        [ 3.4261e-04,  1.6701e-04,  1.8680e-04,  ...,  5.4419e-05,
+          5.1767e-05,  4.3064e-05],
+        [ 3.2520e-04,  1.6987e-04,  1.8561e-04,  ...,  4.1962e-05,
+          3.9637e-05,  3.3170e-05]], device='cuda:0')
+Epoch 38, bias, value: tensor([ 0.0866,  0.0040, -0.0170, -0.0750,  0.0025,  0.0075,  0.0058],
+       device='cuda:0'), grad: tensor([-0.0224,  0.0047,  0.0035,  0.0030,  0.0101,  0.0006,  0.0005],
+       device='cuda:0')
+588
+0.004551803455482836
+changing lr
+epoch 37, time 800.57, cls_loss 0.0010 cls_loss_mapping 0.0106 cls_loss_causal 0.4152 re_mapping 0.0077 re_causal 0.0193 /// teacc 92.96 lr 0.00432883
+Epoch 39, weight, value: tensor([[ 0.2868,  0.2679,  0.2464,  ..., -0.0142, -0.0145, -0.0171],
+        [-0.0044, -0.0479,  0.0127,  ..., -0.0419, -0.0067, -0.0100],
+        [-0.0824, -0.0624, -0.1035,  ...,  0.0131, -0.0060, -0.0029],
+        ...,
+        [-0.2046, -0.1860, -0.1616,  ...,  0.0213,  0.0060,  0.0088],
+        [-0.0057,  0.0046,  0.0008,  ...,  0.0144,  0.0133,  0.0013],
+        [ 0.0185,  0.0251,  0.0150,  ..., -0.0338, -0.0395, -0.0314]],
+       device='cuda:0'), grad: tensor([[-3.4738e-04, -2.0671e-04, -2.4319e-04,  ..., -1.1101e-05,
+         -1.1504e-05, -6.8583e-06],
+        [ 9.3997e-05,  4.2319e-05,  4.9889e-05,  ...,  1.4775e-05,
+          1.5303e-05,  1.3471e-05],
+        [-2.8521e-05,  1.8358e-05,  2.7299e-05,  ..., -2.5079e-05,
+         -2.0444e-05, -2.2128e-05],
+        ...,
+        [ 5.8673e-06,  1.6987e-05,  1.8612e-05,  ..., -1.2435e-05,
+         -1.3791e-05, -1.2688e-05],
+        [ 1.1146e-04,  6.3837e-05,  7.5161e-05,  ...,  5.3756e-06,
+          5.3532e-06,  3.8929e-06],
+        [ 8.1778e-05,  3.8028e-05,  4.3213e-05,  ...,  1.0148e-05,
+          9.0450e-06,  8.4341e-06]], device='cuda:0')
+Epoch 39, bias, value: tensor([ 0.0844,  0.0040, -0.0171, -0.0745,  0.0052,  0.0047,  0.0075],
+       device='cuda:0'), grad: tensor([-3.8004e-04,  1.6165e-04, -1.6963e-04,  1.7810e-04, -5.3316e-05,
+         1.3161e-04,  1.3173e-04], device='cuda:0')
+588
+0.004328833670911726
+changing lr
+epoch 38, time 796.82, cls_loss 0.0008 cls_loss_mapping 0.0106 cls_loss_causal 0.4009 re_mapping 0.0075 re_causal 0.0187 /// teacc 92.21 lr 0.00410722
+Epoch 40, weight, value: tensor([[ 0.2865,  0.2674,  0.2463,  ..., -0.0143, -0.0146, -0.0172],
+        [-0.0047, -0.0478,  0.0121,  ..., -0.0415, -0.0067, -0.0099],
+        [-0.0831, -0.0629, -0.1036,  ...,  0.0125, -0.0064, -0.0033],
+        ...,
+        [-0.2026, -0.1846, -0.1607,  ...,  0.0213,  0.0062,  0.0089],
+        [-0.0061,  0.0043,  0.0006,  ...,  0.0142,  0.0132,  0.0012],
+        [ 0.0169,  0.0243,  0.0142,  ..., -0.0338, -0.0394, -0.0314]],
+       device='cuda:0'), grad: tensor([[-1.0471e-03, -6.4516e-04, -6.2609e-04,  ..., -9.7811e-05,
+         -1.0026e-04, -8.8274e-05],
+        [ 1.0246e-04,  6.1035e-05,  5.9575e-05,  ...,  1.1928e-05,
+          1.2927e-05,  1.1586e-05],
+        [ 9.3520e-05,  5.3167e-05,  5.2869e-05,  ...,  2.1726e-05,
+          2.2560e-05,  2.1011e-05],
+        ...,
+        [ 4.9877e-04,  2.8777e-04,  2.8229e-04,  ...,  5.8442e-05,
+          5.5343e-05,  4.8816e-05],
+        [ 8.1003e-05,  4.9174e-05,  4.7952e-05,  ...,  8.1807e-06,
+          8.8364e-06,  7.8455e-06],
+        [ 1.1645e-05,  1.2942e-05,  1.1452e-05,  ...,  1.0058e-06,
+          5.8254e-07,  7.1852e-07]], device='cuda:0')
+Epoch 40, bias, value: tensor([ 0.0849,  0.0044, -0.0183, -0.0719,  0.0068,  0.0039,  0.0043],
+       device='cuda:0'), grad: tensor([-1.3752e-03,  1.4281e-04,  1.3685e-04,  2.7895e-04,  7.0906e-04,
+         1.0878e-04, -1.1288e-06], device='cuda:0')
+588
+0.0041072155260068206
+changing lr
+epoch 39, time 799.50, cls_loss 0.0009 cls_loss_mapping 0.0103 cls_loss_causal 0.3938 re_mapping 0.0073 re_causal 0.0185 /// teacc 92.21 lr 0.00388740
+Epoch 41, weight, value: tensor([[ 0.2860,  0.2672,  0.2464,  ..., -0.0146, -0.0149, -0.0174],
+        [-0.0048, -0.0475,  0.0118,  ..., -0.0409, -0.0065, -0.0097],
+        [-0.0834, -0.0634, -0.1036,  ...,  0.0123, -0.0064, -0.0034],
+        ...,
+        [-0.2027, -0.1840, -0.1605,  ...,  0.0210,  0.0061,  0.0088],
+        [-0.0049,  0.0046,  0.0009,  ...,  0.0143,  0.0132,  0.0014],
+        [ 0.0171,  0.0240,  0.0140,  ..., -0.0335, -0.0390, -0.0311]],
+       device='cuda:0'), grad: tensor([[ 1.1873e-04,  2.8163e-05,  3.3200e-05,  ...,  3.4928e-05,
+          3.4213e-05,  3.3349e-05],
+        [-1.1492e-04, -4.1366e-05, -5.5224e-05,  ..., -3.8594e-05,
+         -3.7491e-05, -3.2783e-05],
+        [ 4.0561e-05,  1.4029e-05,  1.6689e-05,  ...,  1.1601e-05,
+          1.1168e-05,  1.0289e-05],
+        ...,
+        [-5.4598e-05,  5.8040e-06,  1.1645e-05,  ..., -7.5698e-06,
+         -4.4480e-06, -8.8960e-06],
+        [ 2.8580e-05,  8.0168e-06,  9.9689e-06,  ...,  8.9481e-06,
+          8.7991e-06,  8.2776e-06],
+        [ 4.1574e-05,  1.2174e-05,  1.4141e-05,  ...,  1.1735e-05,
+          1.1489e-05,  1.0811e-05]], device='cuda:0')
+Epoch 41, bias, value: tensor([ 0.0841,  0.0050, -0.0180, -0.0731,  0.0038,  0.0064,  0.0057],
+       device='cuda:0'), grad: tensor([ 2.9898e-04, -2.4199e-04,  8.8632e-05, -1.0020e-04, -2.1112e-04,
+         6.7532e-05,  9.8109e-05], device='cuda:0')
+588
+0.0038873953302184317
+changing lr
+epoch 40, time 795.42, cls_loss 0.0008 cls_loss_mapping 0.0091 cls_loss_causal 0.4129 re_mapping 0.0072 re_causal 0.0185 /// teacc 94.22 lr 0.00366982
+Epoch 42, weight, value: tensor([[ 0.2847,  0.2663,  0.2458,  ..., -0.0150, -0.0152, -0.0178],
+        [-0.0043, -0.0469,  0.0117,  ..., -0.0404, -0.0064, -0.0096],
+        [-0.0830, -0.0635, -0.1034,  ...,  0.0120, -0.0065, -0.0035],
+        ...,
+        [-0.2009, -0.1828, -0.1596,  ...,  0.0213,  0.0065,  0.0092],
+        [-0.0055,  0.0042,  0.0005,  ...,  0.0141,  0.0131,  0.0014],
+        [ 0.0165,  0.0234,  0.0135,  ..., -0.0334, -0.0388, -0.0309]],
+       device='cuda:0'), grad: tensor([[ 5.4538e-05,  2.4676e-05,  2.5213e-05,  ...,  7.8529e-06,
+          8.7097e-06,  8.2329e-06],
+        [ 1.2949e-05,  1.4193e-06,  2.9383e-07,  ...,  3.0547e-06,
+          2.4810e-06,  3.0231e-06],
+        [-1.2410e-04, -5.5641e-05, -5.7817e-05,  ..., -4.5933e-06,
+         -8.3447e-06, -7.0632e-06],
+        ...,
+        [ 2.1502e-05,  1.6764e-05,  1.8194e-05,  ..., -5.8934e-06,
+         -4.7050e-06, -5.0850e-06],
+        [ 1.2375e-05,  5.1744e-06,  5.4352e-06,  ...,  1.1707e-06,
+          1.5898e-06,  1.3737e-06],
+        [ 1.5512e-05,  6.5938e-06,  6.9365e-06,  ...,  1.7397e-06,
+          2.2594e-06,  1.9930e-06]], device='cuda:0')
+Epoch 42, bias, value: tensor([ 0.0822,  0.0061, -0.0170, -0.0737,  0.0054,  0.0054,  0.0053],
+       device='cuda:0'), grad: tensor([ 9.6619e-05,  2.9564e-05, -2.1553e-04,  2.1651e-05,  1.3605e-05,
+         2.3916e-05,  3.0071e-05], device='cuda:0')
+588
+0.003669815772166629
+changing lr
+epoch 41, time 801.63, cls_loss 0.0008 cls_loss_mapping 0.0096 cls_loss_causal 0.3998 re_mapping 0.0070 re_causal 0.0182 /// teacc 92.96 lr 0.00345492
+Epoch 43, weight, value: tensor([[ 0.2846,  0.2662,  0.2459,  ..., -0.0152, -0.0155, -0.0180],
+        [-0.0056, -0.0472,  0.0108,  ..., -0.0403, -0.0067, -0.0098],
+        [-0.0829, -0.0637, -0.1033,  ...,  0.0119, -0.0065, -0.0035],
+        ...,
+        [-0.1998, -0.1820, -0.1591,  ...,  0.0215,  0.0069,  0.0095],
+        [-0.0059,  0.0039,  0.0003,  ...,  0.0139,  0.0129,  0.0013],
+        [ 0.0164,  0.0230,  0.0133,  ..., -0.0332, -0.0386, -0.0308]],
+       device='cuda:0'), grad: tensor([[-4.0722e-04, -2.7061e-04, -2.7323e-04,  ..., -2.7493e-05,
+         -2.5436e-05, -2.3738e-05],
+        [ 1.4566e-05,  1.2442e-05,  1.2346e-05,  ..., -1.4491e-06,
+         -1.7099e-06, -1.7192e-06],
+        [ 1.2808e-05,  2.1994e-05,  2.2396e-05,  ..., -6.4671e-06,
+         -5.9083e-06, -6.0797e-06],
+        ...,
+        [ 6.3896e-05,  3.8564e-05,  3.9160e-05,  ...,  6.4485e-06,
+          6.1393e-06,  5.8524e-06],
+        [ 4.0621e-05,  2.6256e-05,  2.6584e-05,  ...,  3.2447e-06,
+          3.0492e-06,  2.8592e-06],
+        [ 4.6164e-05,  2.8789e-05,  2.9176e-05,  ...,  4.4964e-06,
+          4.2766e-06,  4.0680e-06]], device='cuda:0')
+Epoch 43, bias, value: tensor([ 0.0823,  0.0040, -0.0161, -0.0725,  0.0060,  0.0045,  0.0053],
+       device='cuda:0'), grad: tensor([-4.8351e-04,  7.0594e-06, -2.9013e-05,  3.0375e-04,  8.9645e-05,
+         5.0664e-05,  6.1691e-05], device='cuda:0')
+588
+0.0034549150281252667
+changing lr
+epoch 42, time 796.69, cls_loss 0.0008 cls_loss_mapping 0.0101 cls_loss_causal 0.3981 re_mapping 0.0069 re_causal 0.0177 /// teacc 92.96 lr 0.00324313
+Epoch 44, weight, value: tensor([[ 2.8448e-01,  2.6600e-01,  2.4602e-01,  ..., -1.5436e-02,
+         -1.5655e-02, -1.8136e-02],
+        [-6.1491e-03, -4.7257e-02,  1.0294e-02,  ..., -3.9985e-02,
+         -6.6576e-03, -9.7128e-03],
+        [-8.2745e-02, -6.3955e-02, -1.0317e-01,  ...,  1.1570e-02,
+         -6.6499e-03, -3.7478e-03],
+        ...,
+        [-1.9834e-01, -1.8096e-01, -1.5846e-01,  ...,  2.1870e-02,
+          7.3295e-03,  9.8903e-03],
+        [-6.0654e-03,  3.7579e-03,  1.6885e-04,  ...,  1.3831e-02,
+          1.2828e-02,  1.3772e-03],
+        [ 1.5728e-02,  2.2594e-02,  1.2900e-02,  ..., -3.3166e-02,
+         -3.8398e-02, -3.0691e-02]], device='cuda:0'), grad: tensor([[ 7.6950e-05,  3.3706e-05,  3.8385e-05,  ...,  2.7925e-05,
+          2.6584e-05,  2.6196e-05],
+        [-8.2791e-05, -2.1219e-05, -2.8834e-05,  ..., -1.4342e-05,
+         -1.2286e-05, -1.1615e-05],
+        [ 2.6226e-05,  1.0192e-05,  1.1869e-05,  ...,  8.0168e-06,
+          7.5251e-06,  7.3686e-06],
+        ...,
+        [ 5.4121e-05,  1.8701e-05,  2.2903e-05,  ...,  1.1973e-05,
+          1.0692e-05,  1.0453e-05],
+        [ 2.2337e-05,  8.5011e-06,  9.4399e-06,  ...,  4.0531e-06,
+          3.9600e-06,  3.8557e-06],
+        [-1.3709e-05, -5.4650e-06, -5.3830e-06,  ...,  1.2210e-06,
+          8.2562e-07,  8.4797e-07]], device='cuda:0')
+Epoch 44, bias, value: tensor([ 0.0827,  0.0037, -0.0154, -0.0732,  0.0073,  0.0040,  0.0044],
+       device='cuda:0'), grad: tensor([ 1.4389e-04, -2.1696e-04,  5.4330e-05, -1.2207e-04,  1.2040e-04,
+         4.5657e-05, -2.5272e-05], device='cuda:0')
+588
+0.0032431258795932905
+changing lr
+epoch 43, time 802.38, cls_loss 0.0008 cls_loss_mapping 0.0091 cls_loss_causal 0.4083 re_mapping 0.0068 re_causal 0.0177 /// teacc 93.22 lr 0.00303487
+Epoch 45, weight, value: tensor([[ 2.8393e-01,  2.6552e-01,  2.4583e-01,  ..., -1.5520e-02,
+         -1.5750e-02, -1.8209e-02],
+        [-5.5705e-03, -4.6848e-02,  1.0230e-02,  ..., -3.9526e-02,
+         -6.4789e-03, -9.5158e-03],
+        [-8.3250e-02, -6.4266e-02, -1.0321e-01,  ...,  1.1034e-02,
+         -7.0113e-03, -4.1401e-03],
+        ...,
+        [-1.9825e-01, -1.8043e-01, -1.5828e-01,  ...,  2.1683e-02,
+          7.2651e-03,  9.8060e-03],
+        [-6.1646e-03,  3.5860e-03,  3.1987e-05,  ...,  1.3814e-02,
+          1.2821e-02,  1.4692e-03],
+        [ 1.5339e-02,  2.2269e-02,  1.2642e-02,  ..., -3.3106e-02,
+         -3.8273e-02, -3.0628e-02]], device='cuda:0'), grad: tensor([[ 3.4302e-05,  8.4788e-06,  9.6858e-06,  ...,  9.8124e-06,
+          9.0227e-06,  8.6725e-06],
+        [-2.8417e-05, -1.6123e-05, -1.9059e-05,  ..., -6.7912e-06,
+         -7.6666e-06, -7.0557e-06],
+        [ 2.9299e-06,  1.5199e-06,  2.6412e-06,  ...,  2.3805e-06,
+          3.1367e-06,  2.9635e-06],
+        ...,
+        [-6.4790e-05, -4.4033e-06, -4.4666e-06,  ..., -1.8165e-05,
+         -1.6659e-05, -1.6019e-05],
+        [ 2.3350e-05,  3.3956e-06,  3.2838e-06,  ...,  4.9174e-06,
+          5.0031e-06,  4.6790e-06],
+        [ 2.0295e-05,  5.9754e-06,  6.7651e-06,  ...,  5.3309e-06,
+          5.0589e-06,  4.7907e-06]], device='cuda:0')
+Epoch 45, bias, value: tensor([ 0.0823,  0.0057, -0.0166, -0.0713,  0.0055,  0.0038,  0.0038],
+       device='cuda:0'), grad: tensor([ 8.9884e-05, -5.4538e-05,  1.0334e-05,  3.8356e-05, -2.0170e-04,
+         6.6519e-05,  5.1379e-05], device='cuda:0')
+588
+0.0030348748417303863
+changing lr
+epoch 44, time 799.44, cls_loss 0.0007 cls_loss_mapping 0.0072 cls_loss_causal 0.3894 re_mapping 0.0068 re_causal 0.0173 /// teacc 92.96 lr 0.00283058
+Epoch 46, weight, value: tensor([[ 2.8382e-01,  2.6527e-01,  2.4582e-01,  ..., -1.5541e-02,
+         -1.5773e-02, -1.8226e-02],
+        [-5.8964e-03, -4.6766e-02,  9.8641e-03,  ..., -3.9271e-02,
+         -6.4859e-03, -9.4906e-03],
+        [-8.2545e-02, -6.4172e-02, -1.0280e-01,  ...,  1.0980e-02,
+         -6.9455e-03, -4.1089e-03],
+        ...,
+        [-1.9680e-01, -1.7954e-01, -1.5767e-01,  ...,  2.1922e-02,
+          7.6230e-03,  1.0123e-02],
+        [-6.4769e-03,  3.3920e-03, -1.4152e-04,  ...,  1.3695e-02,
+          1.2709e-02,  1.4647e-03],
+        [ 1.4935e-02,  2.1985e-02,  1.2435e-02,  ..., -3.3013e-02,
+         -3.8111e-02, -3.0528e-02]], device='cuda:0'), grad: tensor([[ 1.3173e-05,  1.7118e-06,  1.0105e-06,  ...,  5.3868e-06,
+          4.4331e-06,  4.7274e-06],
+        [ 1.0185e-05,  1.5367e-07, -1.1753e-06,  ...,  5.7220e-06,
+          4.2543e-06,  4.0792e-06],
+        [-1.3161e-04, -1.0498e-05, -4.6603e-06,  ..., -6.7949e-05,
+         -5.2184e-05, -5.5194e-05],
+        ...,
+        [ 2.9318e-06, -1.4808e-06, -1.1141e-07,  ...,  3.6526e-06,
+          2.5872e-06,  2.7567e-06],
+        [ 7.6108e-06,  1.0431e-06,  7.7253e-07,  ...,  3.2224e-06,
+          2.5909e-06,  2.7474e-06],
+        [ 1.3076e-05,  2.0694e-06,  1.6941e-06,  ...,  5.5432e-06,
+          4.4182e-06,  4.7535e-06]], device='cuda:0')
+Epoch 46, bias, value: tensor([ 0.0828,  0.0054, -0.0150, -0.0734,  0.0072,  0.0031,  0.0030],
+       device='cuda:0'), grad: tensor([ 4.0889e-05,  3.4660e-05, -4.1389e-04,  2.6488e-04,  1.2204e-05,
+         2.3052e-05,  3.8326e-05], device='cuda:0')
+588
+0.0028305813044122124
+changing lr
+epoch 45, time 801.33, cls_loss 0.0006 cls_loss_mapping 0.0064 cls_loss_causal 0.3921 re_mapping 0.0067 re_causal 0.0170 /// teacc 92.71 lr 0.00263066
+Epoch 47, weight, value: tensor([[ 0.2831,  0.2648,  0.2456,  ..., -0.0157, -0.0159, -0.0183],
+        [-0.0057, -0.0465,  0.0097,  ..., -0.0389, -0.0064, -0.0094],
+        [-0.0824, -0.0644, -0.1027,  ...,  0.0108, -0.0070, -0.0042],
+        ...,
+        [-0.1963, -0.1789, -0.1573,  ...,  0.0219,  0.0077,  0.0101],
+        [-0.0069,  0.0031, -0.0004,  ...,  0.0136,  0.0126,  0.0014],
+        [ 0.0151,  0.0218,  0.0124,  ..., -0.0328, -0.0379, -0.0304]],
+       device='cuda:0'), grad: tensor([[-3.5644e-04, -2.7180e-04, -2.5177e-04,  ..., -1.9185e-06,
+          1.2331e-06, -3.2806e-07],
+        [ 8.8036e-05,  5.2333e-05,  4.8786e-05,  ...,  4.4405e-06,
+          3.6415e-06,  3.0380e-06],
+        [ 1.5706e-05,  6.1154e-05,  5.3763e-05,  ..., -1.1146e-05,
+         -1.1571e-05, -9.0748e-06],
+        ...,
+        [ 3.6299e-05,  2.7597e-05,  2.6762e-05,  ..., -5.6289e-06,
+         -6.2473e-06, -4.9658e-06],
+        [ 3.3677e-05,  1.6645e-05,  1.5840e-05,  ...,  3.6806e-06,
+          3.5185e-06,  3.0026e-06],
+        [ 8.1122e-05,  4.6939e-05,  4.4197e-05,  ...,  6.7726e-06,
+          6.3442e-06,  5.5581e-06]], device='cuda:0')
+Epoch 47, bias, value: tensor([ 0.0819,  0.0062, -0.0144, -0.0731,  0.0064,  0.0021,  0.0039],
+       device='cuda:0'), grad: tensor([-2.9564e-04,  1.2982e-04, -1.6510e-04,  1.2386e-04,  1.8924e-05,
+         6.2943e-05,  1.2505e-04], device='cuda:0')
+588
+0.0026306566876350096
+changing lr
+epoch 46, time 798.60, cls_loss 0.0007 cls_loss_mapping 0.0080 cls_loss_causal 0.3906 re_mapping 0.0066 re_causal 0.0169 /// teacc 93.47 lr 0.00243550
+Epoch 48, weight, value: tensor([[ 0.2834,  0.2647,  0.2457,  ..., -0.0157, -0.0160, -0.0184],
+        [-0.0062, -0.0465,  0.0093,  ..., -0.0386, -0.0063, -0.0093],
+        [-0.0827, -0.0646, -0.1027,  ...,  0.0106, -0.0071, -0.0044],
+        ...,
+        [-0.1956, -0.1782, -0.1569,  ...,  0.0219,  0.0078,  0.0103],
+        [-0.0069,  0.0030, -0.0005,  ...,  0.0135,  0.0126,  0.0015],
+        [ 0.0150,  0.0216,  0.0123,  ..., -0.0328, -0.0378, -0.0303]],
+       device='cuda:0'), grad: tensor([[-2.7746e-05, -1.9118e-05, -2.0504e-05,  ..., -3.5646e-07,
+         -4.0345e-06, -3.7979e-06],
+        [-3.4124e-05, -7.2643e-06, -1.1057e-05,  ..., -3.6228e-06,
+         -1.4268e-06, -2.8801e-07],
+        [-3.8333e-06,  2.4959e-06,  3.3453e-06,  ..., -5.1335e-06,
+         -4.5225e-06, -4.2729e-06],
+        ...,
+        [ 4.4078e-05,  1.7509e-05,  2.0623e-05,  ...,  6.7875e-06,
+          7.3239e-06,  6.3516e-06],
+        [ 7.0073e-06,  2.4196e-06,  2.9020e-06,  ...,  1.3020e-06,
+          1.2852e-06,  1.1139e-06],
+        [ 1.2197e-05,  4.6082e-06,  5.2340e-06,  ...,  1.8831e-06,
+          1.9781e-06,  1.6866e-06]], device='cuda:0')
+Epoch 48, bias, value: tensor([ 0.0831,  0.0055, -0.0148, -0.0733,  0.0063,  0.0024,  0.0038],
+       device='cuda:0'), grad: tensor([-3.6061e-05, -7.7128e-05, -2.3782e-05,  1.1355e-05,  8.5950e-05,
+         1.4737e-05,  2.4915e-05], device='cuda:0')
+588
+0.0024355036129704724
+changing lr
+epoch 47, time 799.38, cls_loss 0.0006 cls_loss_mapping 0.0071 cls_loss_causal 0.3829 re_mapping 0.0065 re_causal 0.0164 /// teacc 92.46 lr 0.00224552
+Epoch 49, weight, value: tensor([[ 0.2825,  0.2642,  0.2453,  ..., -0.0160, -0.0162, -0.0186],
+        [-0.0069, -0.0466,  0.0088,  ..., -0.0384, -0.0063, -0.0092],
+        [-0.0828, -0.0647, -0.1026,  ...,  0.0102, -0.0074, -0.0046],
+        ...,
+        [-0.1945, -0.1775, -0.1563,  ...,  0.0220,  0.0080,  0.0104],
+        [-0.0068,  0.0028, -0.0006,  ...,  0.0135,  0.0126,  0.0016],
+        [ 0.0148,  0.0215,  0.0121,  ..., -0.0328, -0.0377, -0.0303]],
+       device='cuda:0'), grad: tensor([[-2.8825e-04, -2.1040e-04, -2.0421e-04,  ..., -1.5795e-05,
+         -1.5706e-05, -1.4976e-05],
+        [ 2.1815e-04,  1.1706e-04,  1.1510e-04,  ...,  2.1115e-05,
+          2.1413e-05,  1.8880e-05],
+        [-4.8733e-04, -3.6329e-05, -4.1038e-05,  ..., -3.7730e-05,
+         -3.0607e-05, -2.3693e-05],
+        ...,
+        [-4.5472e-07,  1.8477e-05,  1.4365e-05,  ..., -2.0981e-05,
+         -2.7463e-05, -2.2218e-05],
+        [ 3.7432e-05,  1.5169e-05,  1.5691e-05,  ...,  6.3702e-06,
+          7.2643e-06,  6.0685e-06],
+        [ 5.8204e-05,  2.2158e-05,  2.2754e-05,  ...,  8.0839e-06,
+          8.8960e-06,  7.4431e-06]], device='cuda:0')
+Epoch 49, bias, value: tensor([ 0.0819,  0.0044, -0.0151, -0.0720,  0.0073,  0.0029,  0.0034],
+       device='cuda:0'), grad: tensor([-2.9588e-04,  3.6693e-04, -1.6050e-03,  1.3800e-03, -5.4926e-05,
+         7.8201e-05,  1.2743e-04], device='cuda:0')
+588
+0.00224551509273949
+changing lr
+epoch 48, time 786.01, cls_loss 0.0007 cls_loss_mapping 0.0063 cls_loss_causal 0.3663 re_mapping 0.0065 re_causal 0.0160 /// teacc 93.97 lr 0.00206107
+Epoch 50, weight, value: tensor([[ 0.2825,  0.2641,  0.2453,  ..., -0.0160, -0.0163, -0.0186],
+        [-0.0069, -0.0464,  0.0087,  ..., -0.0381, -0.0063, -0.0092],
+        [-0.0829, -0.0649, -0.1026,  ...,  0.0100, -0.0075, -0.0047],
+        ...,
+        [-0.1937, -0.1771, -0.1560,  ...,  0.0221,  0.0082,  0.0106],
+        [-0.0071,  0.0026, -0.0008,  ...,  0.0134,  0.0125,  0.0016],
+        [ 0.0147,  0.0214,  0.0121,  ..., -0.0327, -0.0376, -0.0302]],
+       device='cuda:0'), grad: tensor([[ 1.6713e-04,  7.1347e-05,  7.0751e-05,  ...,  2.7284e-05,
+          3.0518e-05,  2.8655e-05],
+        [-1.8609e-04, -6.7532e-05, -7.6532e-05,  ..., -4.3631e-05,
+         -4.6760e-05, -4.6492e-05],
+        [-3.3192e-06,  4.4480e-06,  4.6082e-06,  ..., -5.1633e-06,
+         -4.9211e-06, -4.6492e-06],
+        ...,
+        [ 6.2525e-05,  1.8641e-05,  2.6613e-05,  ...,  1.5542e-05,
+          1.5467e-05,  1.6257e-05],
+        [ 2.8655e-05,  1.3143e-05,  1.4052e-05,  ...,  2.2389e-06,
+          2.3972e-06,  2.2817e-06],
+        [-9.3400e-05, -4.9412e-05, -5.0008e-05,  ...,  7.0222e-07,
+          1.8487e-07,  9.0851e-07]], device='cuda:0')
+Epoch 50, bias, value: tensor([ 0.0826,  0.0046, -0.0151, -0.0728,  0.0080,  0.0023,  0.0032],
+       device='cuda:0'), grad: tensor([ 3.5238e-04, -4.3797e-04, -2.6524e-05,  5.2154e-05,  1.5450e-04,
+         5.3644e-05, -1.4865e-04], device='cuda:0')
+588
+0.002061073738537637
+changing lr
+epoch 49, time 797.69, cls_loss 0.0005 cls_loss_mapping 0.0065 cls_loss_causal 0.3759 re_mapping 0.0063 re_causal 0.0155 /// teacc 94.22 lr 0.00188255
+Epoch 51, weight, value: tensor([[ 0.2822,  0.2638,  0.2452,  ..., -0.0161, -0.0164, -0.0187],
+        [-0.0069, -0.0463,  0.0085,  ..., -0.0378, -0.0062, -0.0091],
+        [-0.0827, -0.0649, -0.1024,  ...,  0.0099, -0.0075, -0.0048],
+        ...,
+        [-0.1938, -0.1768, -0.1559,  ...,  0.0220,  0.0082,  0.0105],
+        [-0.0074,  0.0025, -0.0010,  ...,  0.0133,  0.0124,  0.0015],
+        [ 0.0151,  0.0214,  0.0122,  ..., -0.0326, -0.0374, -0.0300]],
+       device='cuda:0'), grad: tensor([[ 2.1413e-05,  9.0152e-06,  9.7007e-06,  ...,  4.5635e-06,
+          4.5709e-06,  4.1835e-06],
+        [-1.8728e-04, -9.0241e-05, -9.6738e-05,  ..., -2.8402e-05,
+         -2.8253e-05, -2.5168e-05],
+        [ 3.2693e-05,  2.1756e-05,  2.2322e-05,  ...,  4.7423e-06,
+          4.4219e-06,  4.1835e-06],
+        ...,
+        [ 1.9789e-05,  3.2187e-06,  5.0440e-06,  ...,  2.2762e-06,
+          2.1271e-06,  1.6373e-06],
+        [ 1.0066e-05,  2.8573e-06,  3.2932e-06,  ...,  2.0619e-06,
+          2.1830e-06,  1.9092e-06],
+        [ 9.8228e-05,  5.1469e-05,  5.4270e-05,  ...,  1.5110e-05,
+          1.5125e-05,  1.3597e-05]], device='cuda:0')
+Epoch 51, bias, value: tensor([ 0.0823,  0.0050, -0.0144, -0.0727,  0.0064,  0.0019,  0.0042],
+       device='cuda:0'), grad: tensor([ 4.7833e-05, -3.8409e-04,  4.9025e-05,  1.2919e-05,  5.9575e-05,
+         2.6226e-05,  1.8859e-04], device='cuda:0')
+588
+0.0018825509907063344
+changing lr
+epoch 50, time 796.52, cls_loss 0.0007 cls_loss_mapping 0.0074 cls_loss_causal 0.3886 re_mapping 0.0062 re_causal 0.0157 /// teacc 93.22 lr 0.00171031
+Epoch 52, weight, value: tensor([[ 0.2819,  0.2636,  0.2451,  ..., -0.0163, -0.0165, -0.0188],
+        [-0.0068, -0.0461,  0.0085,  ..., -0.0376, -0.0061, -0.0089],
+        [-0.0821, -0.0649, -0.1023,  ...,  0.0098, -0.0075, -0.0048],
+        ...,
+        [-0.1935, -0.1765, -0.1557,  ...,  0.0220,  0.0083,  0.0106],
+        [-0.0075,  0.0024, -0.0010,  ...,  0.0133,  0.0123,  0.0015],
+        [ 0.0146,  0.0211,  0.0119,  ..., -0.0325, -0.0373, -0.0300]],
+       device='cuda:0'), grad: tensor([[-1.2130e-04, -7.1228e-05, -8.4400e-05,  ..., -5.5805e-06,
+         -5.2676e-06, -4.9733e-06],
+        [ 1.9139e-07,  6.3889e-06,  8.0541e-06,  ..., -2.7455e-06,
+         -3.0957e-06, -2.9020e-06],
+        [ 1.7852e-05,  1.5929e-05,  1.8746e-05,  ..., -4.7013e-06,
+         -4.3735e-06, -4.2170e-06],
+        ...,
+        [ 2.4468e-05,  1.1340e-05,  1.3232e-05,  ...,  3.0175e-06,
+          2.8796e-06,  2.7996e-06],
+        [ 1.4387e-05,  7.3798e-06,  8.6948e-06,  ...,  1.2759e-06,
+          1.2778e-06,  1.1921e-06],
+        [ 2.1636e-05,  1.0438e-05,  1.2234e-05,  ...,  2.1234e-06,
+          2.1681e-06,  2.0266e-06]], device='cuda:0')
+Epoch 52, bias, value: tensor([ 0.0819,  0.0055, -0.0127, -0.0730,  0.0061,  0.0016,  0.0033],
+       device='cuda:0'), grad: tensor([-1.4007e-04, -2.4676e-05, -2.0321e-06,  7.0810e-05,  4.0650e-05,
+         2.1055e-05,  3.4153e-05], device='cuda:0')
+588
+0.0017103063703014388
+changing lr
+epoch 51, time 797.46, cls_loss 0.0010 cls_loss_mapping 0.0071 cls_loss_causal 0.3851 re_mapping 0.0060 re_causal 0.0155 /// teacc 93.47 lr 0.00154469
+Epoch 53, weight, value: tensor([[ 0.2814,  0.2633,  0.2449,  ..., -0.0165, -0.0167, -0.0190],
+        [-0.0062, -0.0459,  0.0085,  ..., -0.0373, -0.0059, -0.0087],
+        [-0.0825, -0.0651, -0.1023,  ...,  0.0096, -0.0077, -0.0050],
+        ...,
+        [-0.1931, -0.1761, -0.1555,  ...,  0.0222,  0.0085,  0.0108],
+        [-0.0076,  0.0023, -0.0011,  ...,  0.0132,  0.0123,  0.0015],
+        [ 0.0144,  0.0209,  0.0118,  ..., -0.0325, -0.0372, -0.0300]],
+       device='cuda:0'), grad: tensor([[ 5.0306e-04,  1.1176e-04,  1.3840e-04,  ...,  1.1438e-04,
+          1.2243e-04,  1.0753e-04],
+        [-1.2469e-04, -2.7537e-05, -3.8087e-05,  ..., -1.2085e-05,
+         -9.9987e-06, -8.7470e-06],
+        [-5.5742e-04, -1.1384e-04, -1.6129e-04,  ..., -6.0469e-05,
+         -8.7380e-05, -6.1452e-05],
+        ...,
+        [-1.3426e-05, -8.6799e-06,  1.1496e-05,  ..., -7.4804e-05,
+         -6.1810e-05, -6.7234e-05],
+        [ 3.3736e-05,  8.1658e-06,  9.3505e-06,  ...,  7.0818e-06,
+          7.5251e-06,  6.6124e-06],
+        [ 7.1108e-05,  1.7479e-05,  2.0579e-05,  ...,  1.3396e-05,
+          1.3880e-05,  1.2286e-05]], device='cuda:0')
+Epoch 53, bias, value: tensor([ 0.0812,  0.0071, -0.0138, -0.0725,  0.0063,  0.0013,  0.0031],
+       device='cuda:0'), grad: tensor([ 1.3027e-03, -3.2806e-04, -1.4381e-03,  2.5582e-04, -5.6207e-05,
+         8.5473e-05,  1.7917e-04], device='cuda:0')
+588
+0.0015446867550656784
+changing lr
+epoch 52, time 799.47, cls_loss 0.0006 cls_loss_mapping 0.0062 cls_loss_causal 0.3679 re_mapping 0.0061 re_causal 0.0153 /// teacc 92.46 lr 0.00138603
+Epoch 54, weight, value: tensor([[ 0.2812,  0.2631,  0.2448,  ..., -0.0166, -0.0168, -0.0191],
+        [-0.0068, -0.0460,  0.0081,  ..., -0.0372, -0.0060, -0.0088],
+        [-0.0824, -0.0652, -0.1022,  ...,  0.0095, -0.0077, -0.0050],
+        ...,
+        [-0.1928, -0.1758, -0.1553,  ...,  0.0222,  0.0085,  0.0108],
+        [-0.0075,  0.0022, -0.0011,  ...,  0.0132,  0.0123,  0.0016],
+        [ 0.0146,  0.0209,  0.0118,  ..., -0.0324, -0.0371, -0.0299]],
+       device='cuda:0'), grad: tensor([[ 2.4110e-05,  6.9663e-06,  7.5586e-06,  ...,  1.0364e-05,
+          1.0893e-05,  9.9912e-06],
+        [ 4.3609e-07, -5.4240e-06, -5.9977e-06,  ...,  4.2245e-06,
+          2.6245e-06,  2.1569e-06],
+        [-4.9204e-05,  4.0187e-07,  1.6494e-06,  ..., -1.9670e-05,
+         -1.4894e-05, -1.3962e-05],
+        ...,
+        [ 3.5733e-05,  8.7023e-06,  1.0386e-05,  ...,  1.7047e-05,
+          1.8060e-05,  1.5751e-05],
+        [ 1.2994e-05,  3.1758e-06,  3.1926e-06,  ...,  5.6587e-06,
+          5.4687e-06,  5.0776e-06],
+        [ 2.2680e-05,  7.6294e-06,  8.2329e-06,  ...,  1.0602e-05,
+          1.1273e-05,  1.0207e-05]], device='cuda:0')
+Epoch 54, bias, value: tensor([ 0.0810,  0.0060, -0.0134, -0.0723,  0.0059,  0.0018,  0.0036],
+       device='cuda:0'), grad: tensor([ 5.9038e-05,  2.4468e-05, -1.8048e-04, -8.2850e-05,  9.2089e-05,
+         3.5256e-05,  5.2601e-05], device='cuda:0')
+588
+0.001386025680863044
+changing lr
+epoch 53, time 798.75, cls_loss 0.0006 cls_loss_mapping 0.0049 cls_loss_causal 0.3745 re_mapping 0.0061 re_causal 0.0150 /// teacc 92.96 lr 0.00123464
+Epoch 55, weight, value: tensor([[ 0.2806,  0.2628,  0.2445,  ..., -0.0167, -0.0169, -0.0192],
+        [-0.0070, -0.0460,  0.0080,  ..., -0.0371, -0.0060, -0.0088],
+        [-0.0821, -0.0652, -0.1021,  ...,  0.0095, -0.0077, -0.0051],
+        ...,
+        [-0.1922, -0.1753, -0.1549,  ...,  0.0222,  0.0086,  0.0109],
+        [-0.0076,  0.0021, -0.0012,  ...,  0.0131,  0.0122,  0.0016],
+        [ 0.0144,  0.0208,  0.0117,  ..., -0.0324, -0.0370, -0.0298]],
+       device='cuda:0'), grad: tensor([[-4.9561e-05, -3.4869e-05, -3.9577e-05,  ..., -1.2685e-06,
+         -2.1383e-06, -1.1781e-06],
+        [-6.4909e-05, -5.1456e-07, -2.5555e-06,  ..., -3.8207e-05,
+         -4.4256e-05, -4.2200e-05],
+        [-3.7760e-05, -9.9838e-07, -7.8464e-08,  ..., -1.3851e-05,
+         -1.0043e-05, -1.0252e-05],
+        ...,
+        [ 7.9215e-05,  1.3858e-05,  1.6168e-05,  ...,  3.2604e-05,
+          3.4302e-05,  3.2842e-05],
+        [ 1.0483e-05,  3.6396e-06,  4.1686e-06,  ...,  2.8908e-06,
+          3.1721e-06,  2.9635e-06],
+        [ 2.3022e-05,  6.9551e-06,  8.1956e-06,  ...,  7.1935e-06,
+          7.9051e-06,  7.3984e-06]], device='cuda:0')
+Epoch 55, bias, value: tensor([ 0.0803,  0.0059, -0.0126, -0.0723,  0.0064,  0.0015,  0.0033],
+       device='cuda:0'), grad: tensor([-4.4674e-05, -2.2376e-04, -1.3554e-04,  9.5725e-05,  2.2900e-04,
+         2.3529e-05,  5.5224e-05], device='cuda:0')
+588
+0.0012346426699819469
+changing lr
+epoch 54, time 794.37, cls_loss 0.0005 cls_loss_mapping 0.0049 cls_loss_causal 0.3706 re_mapping 0.0060 re_causal 0.0148 /// teacc 93.47 lr 0.00109084
+Epoch 56, weight, value: tensor([[ 0.2811,  0.2629,  0.2447,  ..., -0.0166, -0.0168, -0.0191],
+        [-0.0071, -0.0460,  0.0078,  ..., -0.0370, -0.0060, -0.0088],
+        [-0.0823, -0.0653, -0.1021,  ...,  0.0093, -0.0078, -0.0051],
+        ...,
+        [-0.1918, -0.1750, -0.1548,  ...,  0.0222,  0.0086,  0.0109],
+        [-0.0078,  0.0021, -0.0013,  ...,  0.0131,  0.0122,  0.0015],
+        [ 0.0141,  0.0206,  0.0115,  ..., -0.0324, -0.0370, -0.0298]],
+       device='cuda:0'), grad: tensor([[ 5.1051e-05,  1.3635e-05,  1.3933e-05,  ...,  1.2957e-05,
+          1.3240e-05,  1.3150e-05],
+        [-1.3411e-04, -4.5836e-05, -5.3883e-05,  ..., -3.7611e-05,
+         -3.7819e-05, -3.2663e-05],
+        [ 2.5988e-05,  7.5363e-06,  8.6576e-06,  ...,  9.8124e-06,
+          1.0036e-05,  9.9838e-06],
+        ...,
+        [ 1.7047e-04,  4.1544e-05,  5.0306e-05,  ...,  4.8578e-05,
+          4.9680e-05,  4.7624e-05],
+        [ 4.1395e-05,  7.3984e-06,  8.5235e-06,  ...,  1.0625e-05,
+          1.1064e-05,  1.1601e-05],
+        [-1.5807e-04, -2.1905e-05, -2.5377e-05,  ..., -3.7372e-05,
+         -3.9428e-05, -4.3184e-05]], device='cuda:0')
+Epoch 56, bias, value: tensor([ 0.0815,  0.0058, -0.0127, -0.0724,  0.0065,  0.0011,  0.0027],
+       device='cuda:0'), grad: tensor([ 1.3351e-04, -3.0065e-04,  6.3956e-05,  2.3320e-05,  4.5133e-04,
+         1.2201e-04, -4.9305e-04], device='cuda:0')
+588
+0.0010908425876598518
+changing lr
+epoch 55, time 827.55, cls_loss 0.0005 cls_loss_mapping 0.0045 cls_loss_causal 0.3826 re_mapping 0.0060 re_causal 0.0148 /// teacc 92.46 lr 0.00095492
+Epoch 57, weight, value: tensor([[ 0.2808,  0.2627,  0.2446,  ..., -0.0167, -0.0169, -0.0192],
+        [-0.0070, -0.0458,  0.0078,  ..., -0.0368, -0.0059, -0.0087],
+        [-0.0823, -0.0654, -0.1021,  ...,  0.0092, -0.0078, -0.0052],
+        ...,
+        [-0.1916, -0.1748, -0.1546,  ...,  0.0222,  0.0087,  0.0109],
+        [-0.0078,  0.0020, -0.0014,  ...,  0.0131,  0.0122,  0.0016],
+        [ 0.0141,  0.0206,  0.0115,  ..., -0.0323, -0.0369, -0.0298]],
+       device='cuda:0'), grad: tensor([[-4.7827e-04, -1.5104e-04, -2.0325e-04,  ..., -1.0800e-04,
+         -1.0729e-04, -9.7275e-05],
+        [ 4.2200e-05,  1.0833e-05,  1.6347e-05,  ...,  1.2152e-05,
+          1.1913e-05,  1.0714e-05],
+        [ 3.6031e-05,  1.1928e-05,  1.6063e-05,  ...,  8.0392e-06,
+          7.8678e-06,  7.2978e-06],
+        ...,
+        [ 3.1161e-04,  9.9123e-05,  1.3292e-04,  ...,  6.9380e-05,
+          6.9082e-05,  6.2525e-05],
+        [ 2.9162e-05,  9.4175e-06,  1.2636e-05,  ...,  6.4299e-06,
+          6.3479e-06,  5.8264e-06],
+        [ 3.0756e-05,  1.0729e-05,  1.3247e-05,  ...,  5.9083e-06,
+          6.0424e-06,  5.4277e-06]], device='cuda:0')
+Epoch 57, bias, value: tensor([ 0.0812,  0.0062, -0.0128, -0.0724,  0.0061,  0.0012,  0.0029],
+       device='cuda:0'), grad: tensor([-9.7942e-04,  8.6308e-05,  7.3612e-05,  5.9694e-05,  6.3610e-04,
+         5.9843e-05,  6.4433e-05], device='cuda:0')
+588
+0.000954915028125264
+changing lr
+epoch 56, time 844.10, cls_loss 0.0005 cls_loss_mapping 0.0051 cls_loss_causal 0.3976 re_mapping 0.0060 re_causal 0.0146 /// teacc 93.47 lr 0.00082713
+Epoch 58, weight, value: tensor([[ 0.2804,  0.2624,  0.2444,  ..., -0.0168, -0.0170, -0.0193],
+        [-0.0070, -0.0458,  0.0077,  ..., -0.0367, -0.0059, -0.0086],
+        [-0.0823, -0.0654, -0.1020,  ...,  0.0092, -0.0079, -0.0052],
+        ...,
+        [-0.1914, -0.1745, -0.1544,  ...,  0.0222,  0.0087,  0.0109],
+        [-0.0079,  0.0019, -0.0014,  ...,  0.0130,  0.0121,  0.0016],
+        [ 0.0143,  0.0206,  0.0116,  ..., -0.0323, -0.0369, -0.0297]],
+       device='cuda:0'), grad: tensor([[-4.5568e-05, -7.2658e-05, -7.1228e-05,  ...,  1.8388e-05,
+          1.6898e-05,  1.6958e-05],
+        [ 5.1498e-05,  3.2544e-05,  3.2544e-05,  ...,  2.2873e-05,
+          1.7777e-05,  1.9237e-05],
+        [-3.5372e-06,  2.7835e-05,  3.1590e-05,  ...,  1.2621e-05,
+          8.9929e-06,  8.4043e-06],
+        ...,
+        [ 2.6226e-04,  9.2864e-05,  9.4056e-05,  ...,  6.2764e-05,
+          5.7697e-05,  5.8204e-05],
+        [-7.9155e-04, -2.4867e-04, -2.5606e-04,  ..., -2.5034e-04,
+         -2.2256e-04, -2.2459e-04],
+        [ 2.7633e-04,  9.3520e-05,  9.5129e-05,  ...,  7.5698e-05,
+          6.8307e-05,  6.8665e-05]], device='cuda:0')
+Epoch 58, bias, value: tensor([ 0.0807,  0.0064, -0.0127, -0.0724,  0.0060,  0.0010,  0.0034],
+       device='cuda:0'), grad: tensor([ 8.4877e-05,  3.3945e-05, -1.0407e-04,  5.8937e-04,  5.8365e-04,
+        -1.8044e-03,  6.1512e-04], device='cuda:0')
+588
+0.0008271337313934874
+changing lr
+epoch 57, time 831.80, cls_loss 0.0005 cls_loss_mapping 0.0055 cls_loss_causal 0.3892 re_mapping 0.0060 re_causal 0.0147 /// teacc 92.46 lr 0.00070776
+Epoch 59, weight, value: tensor([[ 0.2802,  0.2623,  0.2443,  ..., -0.0168, -0.0170, -0.0193],
+        [-0.0070, -0.0457,  0.0076,  ..., -0.0366, -0.0058, -0.0086],
+        [-0.0823, -0.0655, -0.1021,  ...,  0.0091, -0.0079, -0.0053],
+        ...,
+        [-0.1911, -0.1743, -0.1543,  ...,  0.0222,  0.0087,  0.0110],
+        [-0.0079,  0.0019, -0.0014,  ...,  0.0130,  0.0121,  0.0016],
+        [ 0.0142,  0.0205,  0.0115,  ..., -0.0323, -0.0368, -0.0297]],
+       device='cuda:0'), grad: tensor([[-1.4458e-03, -8.4400e-04, -8.3685e-04,  ..., -2.1994e-04,
+         -2.1100e-04, -1.9038e-04],
+        [ 7.4434e-04,  4.0364e-04,  4.0793e-04,  ...,  1.2231e-04,
+          1.1736e-04,  1.0604e-04],
+        [-1.0234e-04,  3.4750e-05,  3.5793e-05,  ..., -3.9726e-05,
+         -3.6955e-05, -3.5733e-05],
+        ...,
+        [ 2.8872e-04,  1.7309e-04,  1.6582e-04,  ...,  4.2737e-05,
+          4.0442e-05,  3.6955e-05],
+        [ 1.0991e-04,  5.7966e-05,  5.8204e-05,  ...,  1.8507e-05,
+          1.7703e-05,  1.6078e-05],
+        [ 1.6439e-04,  8.2612e-05,  8.2433e-05,  ...,  2.8223e-05,
+          2.7031e-05,  2.4632e-05]], device='cuda:0')
+Epoch 59, bias, value: tensor([ 0.0805,  0.0063, -0.0128, -0.0723,  0.0063,  0.0009,  0.0034],
+       device='cuda:0'), grad: tensor([-0.0023,  0.0012, -0.0004,  0.0005,  0.0005,  0.0002,  0.0003],
+       device='cuda:0')
+588
+0.00070775603199067
+changing lr
+epoch 58, time 819.14, cls_loss 0.0005 cls_loss_mapping 0.0055 cls_loss_causal 0.3894 re_mapping 0.0059 re_causal 0.0143 /// teacc 91.46 lr 0.00059702
+Epoch 60, weight, value: tensor([[ 0.2803,  0.2623,  0.2443,  ..., -0.0168, -0.0170, -0.0193],
+        [-0.0072, -0.0457,  0.0075,  ..., -0.0365, -0.0058, -0.0086],
+        [-0.0823, -0.0655, -0.1020,  ...,  0.0090, -0.0079, -0.0053],
+        ...,
+        [-0.1909, -0.1741, -0.1542,  ...,  0.0222,  0.0087,  0.0110],
+        [-0.0080,  0.0018, -0.0015,  ...,  0.0130,  0.0121,  0.0016],
+        [ 0.0142,  0.0204,  0.0115,  ..., -0.0322, -0.0368, -0.0297]],
+       device='cuda:0'), grad: tensor([[-6.7787e-03, -3.0537e-03, -2.9202e-03,  ..., -9.1457e-04,
+         -1.1253e-03, -9.9182e-04],
+        [ 1.0204e-03,  4.7708e-04,  4.9448e-04,  ...,  1.5736e-04,
+          1.8883e-04,  1.7345e-04],
+        [ 1.6956e-03,  6.5470e-04,  6.0511e-04,  ...,  2.5892e-04,
+          3.0756e-04,  2.7180e-04],
+        ...,
+        [ 1.0824e-03,  5.5647e-04,  5.0831e-04,  ...,  8.0526e-05,
+          1.2136e-04,  9.6023e-05],
+        [ 4.1556e-04,  1.7333e-04,  1.5962e-04,  ...,  5.4002e-05,
+          6.7174e-05,  5.8085e-05],
+        [ 8.7690e-04,  3.6573e-04,  3.3498e-04,  ...,  1.1265e-04,
+          1.4067e-04,  1.2106e-04]], device='cuda:0')
+Epoch 60, bias, value: tensor([ 0.0807,  0.0062, -0.0126, -0.0724,  0.0061,  0.0008,  0.0035],
+       device='cuda:0'), grad: tensor([-0.0133,  0.0019,  0.0037,  0.0031,  0.0019,  0.0009,  0.0018],
+       device='cuda:0')
+588
+0.0005970223407163104
+changing lr
+epoch 59, time 814.50, cls_loss 0.0007 cls_loss_mapping 0.0059 cls_loss_causal 0.3381 re_mapping 0.0059 re_causal 0.0138 /// teacc 92.71 lr 0.00049516
+Epoch 61, weight, value: tensor([[ 0.2802,  0.2622,  0.2443,  ..., -0.0169, -0.0171, -0.0194],
+        [-0.0074, -0.0458,  0.0074,  ..., -0.0365, -0.0059, -0.0086],
+        [-0.0823, -0.0655, -0.1020,  ...,  0.0090, -0.0080, -0.0053],
+        ...,
+        [-0.1907, -0.1740, -0.1541,  ...,  0.0222,  0.0088,  0.0110],
+        [-0.0080,  0.0018, -0.0015,  ...,  0.0130,  0.0121,  0.0016],
+        [ 0.0144,  0.0204,  0.0115,  ..., -0.0322, -0.0367, -0.0296]],
+       device='cuda:0'), grad: tensor([[-1.6832e-03, -1.0757e-03, -8.9216e-04,  ..., -3.7283e-05,
+         -6.5982e-05, -5.0902e-05],
+        [ 3.9601e-04,  1.5604e-04,  1.4305e-04,  ...,  1.2177e-04,
+          1.1653e-04,  1.0395e-04],
+        [-1.2188e-03, -9.0659e-05, -9.7632e-05,  ..., -8.6641e-04,
+         -8.2254e-04, -7.1621e-04],
+        ...,
+        [ 1.4887e-03,  6.0654e-04,  5.1260e-04,  ...,  5.6934e-04,
+          5.6267e-04,  4.7302e-04],
+        [ 1.3816e-04,  7.1645e-05,  6.0081e-05,  ...,  1.7062e-05,
+          1.7494e-05,  1.5557e-05],
+        [ 4.3225e-04,  1.9133e-04,  1.5461e-04,  ...,  5.9456e-05,
+          5.9456e-05,  5.4836e-05]], device='cuda:0')
+Epoch 61, bias, value: tensor([ 0.0807,  0.0056, -0.0127, -0.0725,  0.0064,  0.0007,  0.0040],
+       device='cuda:0'), grad: tensor([-0.0024,  0.0009, -0.0043,  0.0011,  0.0036,  0.0003,  0.0009],
+       device='cuda:0')
+588
+0.0004951556604879052
+changing lr
+epoch 60, time 811.20, cls_loss 0.0007 cls_loss_mapping 0.0055 cls_loss_causal 0.3530 re_mapping 0.0060 re_causal 0.0139 /// teacc 91.71 lr 0.00040236
+Epoch 62, weight, value: tensor([[ 0.2804,  0.2622,  0.2444,  ..., -0.0169, -0.0171, -0.0193],
+        [-0.0076, -0.0458,  0.0073,  ..., -0.0364, -0.0059, -0.0086],
+        [-0.0824, -0.0656, -0.1020,  ...,  0.0089, -0.0080, -0.0054],
+        ...,
+        [-0.1906, -0.1739, -0.1540,  ...,  0.0222,  0.0088,  0.0110],
+        [-0.0078,  0.0018, -0.0015,  ...,  0.0130,  0.0122,  0.0017],
+        [ 0.0143,  0.0204,  0.0114,  ..., -0.0322, -0.0367, -0.0296]],
+       device='cuda:0'), grad: tensor([[-1.9569e-03, -8.9359e-04, -9.8228e-04,  ..., -5.1689e-04,
+         -4.9973e-04, -4.8327e-04],
+        [ 1.1933e-04,  5.8621e-05,  6.2406e-05,  ...,  3.1203e-05,
+          3.0220e-05,  2.9534e-05],
+        [ 6.9666e-04,  3.0160e-04,  3.2949e-04,  ...,  1.8990e-04,
+          1.8394e-04,  1.7786e-04],
+        ...,
+        [ 2.5058e-04,  1.2970e-04,  1.4579e-04,  ...,  4.7624e-05,
+          4.6819e-05,  4.4048e-05],
+        [ 1.2529e-04,  5.3614e-05,  5.8681e-05,  ...,  3.2544e-05,
+          3.1888e-05,  3.0667e-05],
+        [ 4.9889e-05,  3.1292e-05,  3.4332e-05,  ...,  2.0638e-05,
+          1.8150e-05,  1.8433e-05]], device='cuda:0')
+Epoch 62, bias, value: tensor([ 0.0810,  0.0054, -0.0129, -0.0724,  0.0061,  0.0014,  0.0038],
+       device='cuda:0'), grad: tensor([-3.7651e-03,  2.2376e-04,  1.3990e-03,  1.4057e-03,  4.2057e-04,
+         2.5535e-04,  6.1870e-05], device='cuda:0')
+588
+0.00040236113724274745
+changing lr
+epoch 61, time 807.28, cls_loss 0.0004 cls_loss_mapping 0.0041 cls_loss_causal 0.3915 re_mapping 0.0059 re_causal 0.0142 /// teacc 93.72 lr 0.00031883
+Epoch 63, weight, value: tensor([[ 0.2802,  0.2622,  0.2443,  ..., -0.0169, -0.0171, -0.0194],
+        [-0.0075, -0.0458,  0.0073,  ..., -0.0364, -0.0059, -0.0086],
+        [-0.0823, -0.0656, -0.1020,  ...,  0.0089, -0.0080, -0.0054],
+        ...,
+        [-0.1905, -0.1738, -0.1539,  ...,  0.0222,  0.0088,  0.0110],
+        [-0.0078,  0.0018, -0.0015,  ...,  0.0130,  0.0122,  0.0017],
+        [ 0.0142,  0.0203,  0.0114,  ..., -0.0322, -0.0367, -0.0296]],
+       device='cuda:0'), grad: tensor([[ 4.9710e-05,  1.4678e-05,  1.5251e-05,  ...,  1.3709e-05,
+          1.3046e-05,  1.2688e-05],
+        [ 2.0742e-05, -6.0797e-06, -5.1297e-06,  ...,  1.1548e-05,
+          1.1817e-05,  1.0729e-05],
+        [-1.8489e-04, -3.1650e-05, -3.4392e-05,  ..., -7.3910e-05,
+         -7.2956e-05, -6.9559e-05],
+        ...,
+        [ 3.3647e-05,  7.4916e-06,  8.0690e-06,  ...,  1.1712e-05,
+          1.1392e-05,  1.0930e-05],
+        [-6.0588e-05, -1.1645e-05, -1.4849e-05,  ..., -8.4117e-06,
+         -7.7188e-06, -6.9439e-06],
+        [ 5.7191e-05,  1.1474e-05,  1.3858e-05,  ...,  1.1086e-05,
+          1.0386e-05,  9.6411e-06]], device='cuda:0')
+Epoch 63, bias, value: tensor([ 0.0808,  0.0055, -0.0127, -0.0725,  0.0062,  0.0014,  0.0036],
+       device='cuda:0'), grad: tensor([ 1.2708e-04,  1.1134e-04, -5.8222e-04,  2.5630e-04,  9.6560e-05,
+        -1.7190e-04,  1.6367e-04], device='cuda:0')
+588
+0.00031882564680131423
+changing lr
+epoch 62, time 807.95, cls_loss 0.0005 cls_loss_mapping 0.0044 cls_loss_causal 0.3894 re_mapping 0.0058 re_causal 0.0142 /// teacc 93.47 lr 0.00024472
+Epoch 64, weight, value: tensor([[ 0.2801,  0.2621,  0.2443,  ..., -0.0169, -0.0171, -0.0194],
+        [-0.0075, -0.0457,  0.0073,  ..., -0.0364, -0.0059, -0.0086],
+        [-0.0823, -0.0656, -0.1020,  ...,  0.0089, -0.0080, -0.0054],
+        ...,
+        [-0.1903, -0.1737, -0.1539,  ...,  0.0222,  0.0088,  0.0111],
+        [-0.0078,  0.0018, -0.0015,  ...,  0.0130,  0.0122,  0.0017],
+        [ 0.0141,  0.0203,  0.0114,  ..., -0.0322, -0.0367, -0.0296]],
+       device='cuda:0'), grad: tensor([[ 1.5706e-05, -2.1428e-05, -1.8954e-05,  ...,  1.9580e-05,
+          2.1145e-05,  1.9655e-05],
+        [ 5.5850e-05,  2.8703e-06,  4.4145e-06,  ...,  2.7135e-05,
+          3.0041e-05,  2.7075e-05],
+        [ 1.0788e-05,  9.5218e-06,  9.8944e-06,  ...,  8.3670e-06,
+          7.8157e-06,  8.6278e-06],
+        ...,
+        [-1.0562e-04, -5.1782e-07, -1.4892e-06,  ..., -5.6863e-05,
+         -6.1333e-05, -5.6207e-05],
+        [ 4.4182e-06, -1.6177e-06, -1.5702e-06,  ...,  1.6177e-06,
+          1.7490e-06,  1.6317e-06],
+        [ 6.3241e-05,  8.4937e-06,  1.1571e-05,  ...,  2.5243e-05,
+          2.7627e-05,  2.5675e-05]], device='cuda:0')
+Epoch 64, bias, value: tensor([ 0.0806,  0.0057, -0.0127, -0.0726,  0.0063,  0.0014,  0.0035],
+       device='cuda:0'), grad: tensor([ 1.4091e-04,  1.9705e-04,  2.5444e-06, -1.6570e-04, -3.9673e-04,
+         2.3782e-05,  1.9848e-04], device='cuda:0')
+588
+0.0002447174185242325
+changing lr
+epoch 63, time 800.79, cls_loss 0.0005 cls_loss_mapping 0.0043 cls_loss_causal 0.3645 re_mapping 0.0058 re_causal 0.0137 /// teacc 92.96 lr 0.00018019
+Epoch 65, weight, value: tensor([[ 0.2800,  0.2620,  0.2442,  ..., -0.0170, -0.0172, -0.0194],
+        [-0.0075, -0.0457,  0.0073,  ..., -0.0363, -0.0058, -0.0086],
+        [-0.0823, -0.0656, -0.1019,  ...,  0.0089, -0.0080, -0.0054],
+        ...,
+        [-0.1903, -0.1736, -0.1538,  ...,  0.0222,  0.0089,  0.0111],
+        [-0.0078,  0.0018, -0.0015,  ...,  0.0130,  0.0122,  0.0017],
+        [ 0.0141,  0.0203,  0.0114,  ..., -0.0322, -0.0367, -0.0296]],
+       device='cuda:0'), grad: tensor([[ 2.3663e-04,  6.5327e-05,  7.1287e-05,  ...,  3.8981e-05,
+          3.8862e-05,  3.2604e-05],
+        [-3.3331e-04, -6.7234e-05, -7.2896e-05,  ..., -5.2780e-05,
+         -4.8369e-05, -3.5584e-05],
+        [ 1.0020e-04,  2.4155e-05,  2.6375e-05,  ...,  1.6272e-05,
+          1.6153e-05,  1.2092e-05],
+        ...,
+        [ 3.8803e-05,  1.9759e-05,  2.1338e-05,  ...,  1.2852e-05,
+          9.9316e-06,  9.9391e-06],
+        [ 3.4213e-05,  9.4250e-06,  1.0446e-05,  ...,  6.3889e-06,
+          6.6273e-06,  5.7556e-06],
+        [-5.7310e-05, -3.6985e-05, -3.8534e-05,  ...,  2.3283e-06,
+          1.1045e-06,  2.2212e-07]], device='cuda:0')
+Epoch 65, bias, value: tensor([ 0.0804,  0.0058, -0.0127, -0.0726,  0.0064,  0.0015,  0.0035],
+       device='cuda:0'), grad: tensor([ 5.6124e-04, -8.7214e-04,  2.4772e-04, -8.1211e-06,  5.9217e-05,
+         8.1003e-05, -6.9082e-05], device='cuda:0')
+588
+0.0001801856965207339
+changing lr
+epoch 64, time 806.57, cls_loss 0.0005 cls_loss_mapping 0.0039 cls_loss_causal 0.3887 re_mapping 0.0059 re_causal 0.0144 /// teacc 92.21 lr 0.00012536
+Epoch 66, weight, value: tensor([[ 0.2799,  0.2619,  0.2442,  ..., -0.0170, -0.0172, -0.0194],
+        [-0.0074, -0.0457,  0.0073,  ..., -0.0363, -0.0058, -0.0086],
+        [-0.0823, -0.0656, -0.1019,  ...,  0.0089, -0.0080, -0.0054],
+        ...,
+        [-0.1902, -0.1736, -0.1538,  ...,  0.0223,  0.0089,  0.0111],
+        [-0.0078,  0.0018, -0.0015,  ...,  0.0130,  0.0122,  0.0017],
+        [ 0.0141,  0.0202,  0.0113,  ..., -0.0322, -0.0367, -0.0296]],
+       device='cuda:0'), grad: tensor([[-7.4208e-05, -4.9382e-05, -4.5568e-05,  ..., -2.7120e-06,
+         -2.4829e-06, -2.1067e-06],
+        [ 7.6234e-05,  3.8773e-05,  4.0531e-05,  ...,  2.2858e-05,
+          2.4304e-05,  2.1905e-05],
+        [ 9.8720e-06,  6.0499e-06,  6.1169e-06,  ...,  2.6654e-06,
+          2.5295e-06,  2.2203e-06],
+        ...,
+        [ 3.4630e-05,  1.5914e-05,  1.6615e-05,  ...,  1.1235e-05,
+          1.2189e-05,  1.0826e-05],
+        [ 6.4336e-06,  3.5278e-06,  3.4962e-06,  ...,  1.3625e-06,
+          1.4864e-06,  1.3262e-06],
+        [ 1.7092e-05,  9.9391e-06,  9.7305e-06,  ...,  2.8815e-06,
+          3.1013e-06,  2.7642e-06]], device='cuda:0')
+Epoch 66, bias, value: tensor([ 0.0803,  0.0058, -0.0127, -0.0726,  0.0065,  0.0015,  0.0035],
+       device='cuda:0'), grad: tensor([-9.6381e-05,  1.2600e-04,  9.8869e-06, -1.4079e-04,  6.4850e-05,
+         1.0490e-05,  2.5824e-05], device='cuda:0')
+588
+0.000125360439090882
+changing lr
+epoch 65, time 808.78, cls_loss 0.0005 cls_loss_mapping 0.0045 cls_loss_causal 0.3667 re_mapping 0.0059 re_causal 0.0134 /// teacc 93.22 lr 0.00008035
+Epoch 67, weight, value: tensor([[ 0.2798,  0.2619,  0.2441,  ..., -0.0170, -0.0172, -0.0195],
+        [-0.0074, -0.0456,  0.0073,  ..., -0.0363, -0.0058, -0.0086],
+        [-0.0823, -0.0656, -0.1019,  ...,  0.0088, -0.0080, -0.0054],
+        ...,
+        [-0.1901, -0.1735, -0.1538,  ...,  0.0223,  0.0089,  0.0111],
+        [-0.0078,  0.0018, -0.0015,  ...,  0.0130,  0.0122,  0.0017],
+        [ 0.0141,  0.0202,  0.0113,  ..., -0.0322, -0.0367, -0.0296]],
+       device='cuda:0'), grad: tensor([[ 4.2648e-03,  2.3117e-03,  2.3460e-03,  ...,  2.6727e-04,
+          3.2973e-04,  3.4213e-04],
+        [ 4.3821e-04,  1.2589e-04,  1.3447e-04,  ...,  6.1989e-05,
+          6.6161e-05,  6.2048e-05],
+        [-3.0971e-04, -1.3430e-06, -2.4870e-05,  ..., -1.4102e-04,
+         -1.4400e-04, -1.3316e-04],
+        ...,
+        [ 3.3736e-04,  1.5569e-04,  1.6546e-04,  ...,  3.4511e-05,
+          3.9518e-05,  3.8922e-05],
+        [ 8.9049e-05,  2.9191e-05,  3.1352e-05,  ...,  1.4775e-05,
+          1.5661e-05,  1.4886e-05],
+        [-4.9210e-03, -2.6112e-03, -2.6436e-03,  ..., -2.6274e-04,
+         -3.3402e-04, -3.4785e-04]], device='cuda:0')
+Epoch 67, bias, value: tensor([ 0.0802,  0.0059, -0.0127, -0.0725,  0.0065,  0.0014,  0.0035],
+       device='cuda:0'), grad: tensor([ 0.0064,  0.0010, -0.0012,  0.0004,  0.0006,  0.0002, -0.0075],
+       device='cuda:0')
+588
+8.03520570068517e-05
+changing lr
+epoch 66, time 805.21, cls_loss 0.0005 cls_loss_mapping 0.0043 cls_loss_causal 0.3723 re_mapping 0.0059 re_causal 0.0138 /// teacc 93.47 lr 0.00004525
+Epoch 68, weight, value: tensor([[ 0.2798,  0.2619,  0.2441,  ..., -0.0170, -0.0172, -0.0195],
+        [-0.0074, -0.0456,  0.0073,  ..., -0.0363, -0.0058, -0.0086],
+        [-0.0823, -0.0656, -0.1019,  ...,  0.0088, -0.0080, -0.0054],
+        ...,
+        [-0.1901, -0.1735, -0.1537,  ...,  0.0223,  0.0089,  0.0111],
+        [-0.0078,  0.0018, -0.0015,  ...,  0.0130,  0.0122,  0.0017],
+        [ 0.0141,  0.0202,  0.0113,  ..., -0.0322, -0.0367, -0.0296]],
+       device='cuda:0'), grad: tensor([[-2.5034e-04, -1.6713e-04, -1.6880e-04,  ..., -1.0543e-05,
+         -1.1466e-05, -1.0572e-05],
+        [-5.5671e-05, -2.0284e-06, -1.7649e-06,  ..., -1.5542e-05,
+         -1.5691e-05, -1.5885e-05],
+        [ 5.1588e-05,  5.4836e-05,  5.5194e-05,  ..., -1.1787e-05,
+         -1.4707e-05, -1.1392e-05],
+        ...,
+        [ 1.1039e-04,  4.1306e-05,  4.2021e-05,  ...,  2.2307e-05,
+          2.4095e-05,  2.1860e-05],
+        [ 3.7134e-05,  2.1636e-05,  2.1875e-05,  ...,  3.4645e-06,
+          3.7570e-06,  3.4906e-06],
+        [ 4.5300e-05,  2.1130e-05,  2.1294e-05,  ...,  6.8657e-06,
+          7.4469e-06,  7.0930e-06]], device='cuda:0')
+Epoch 68, bias, value: tensor([ 0.0802,  0.0058, -0.0127, -0.0725,  0.0065,  0.0014,  0.0035],
+       device='cuda:0'), grad: tensor([-2.8110e-04, -2.2256e-04, -3.5822e-05,  1.2255e-04,  2.6083e-04,
+         5.7101e-05,  9.9182e-05], device='cuda:0')
+588
+4.5251191160326525e-05
+changing lr
+epoch 67, time 806.20, cls_loss 0.0005 cls_loss_mapping 0.0048 cls_loss_causal 0.3926 re_mapping 0.0058 re_causal 0.0139 /// teacc 93.22 lr 0.00002013
+Epoch 69, weight, value: tensor([[ 0.2798,  0.2619,  0.2441,  ..., -0.0170, -0.0172, -0.0195],
+        [-0.0074, -0.0456,  0.0073,  ..., -0.0363, -0.0058, -0.0086],
+        [-0.0823, -0.0656, -0.1019,  ...,  0.0088, -0.0080, -0.0054],
+        ...,
+        [-0.1901, -0.1735, -0.1537,  ...,  0.0223,  0.0089,  0.0111],
+        [-0.0078,  0.0018, -0.0015,  ...,  0.0130,  0.0122,  0.0017],
+        [ 0.0141,  0.0202,  0.0113,  ..., -0.0322, -0.0367, -0.0296]],
+       device='cuda:0'), grad: tensor([[-1.7926e-05, -4.2558e-05, -4.1962e-05,  ...,  2.8610e-05,
+          2.9489e-05,  2.8580e-05],
+        [ 9.9689e-06,  5.4874e-06,  4.2394e-06,  ...,  9.0972e-06,
+          1.0937e-05,  9.6411e-06],
+        [ 7.0333e-05,  3.0875e-05,  3.1590e-05,  ...,  2.4319e-05,
+          2.4244e-05,  2.3410e-05],
+        ...,
+        [-9.7990e-05, -1.0200e-05, -7.7561e-06,  ..., -5.3912e-05,
+         -5.5939e-05, -5.3674e-05],
+        [ 2.0862e-05,  9.3058e-06,  9.2313e-06,  ...,  5.4464e-06,
+          5.5470e-06,  5.2899e-06],
+        [ 3.7640e-05,  1.5102e-05,  1.5378e-05,  ...,  6.6869e-06,
+          5.9530e-06,  6.1281e-06]], device='cuda:0')
+Epoch 69, bias, value: tensor([ 0.0802,  0.0058, -0.0127, -0.0725,  0.0066,  0.0014,  0.0034],
+       device='cuda:0'), grad: tensor([ 9.5785e-05,  1.4924e-05,  1.3804e-04, -4.7803e-05, -3.2473e-04,
+         4.1425e-05,  8.2016e-05], device='cuda:0')
+588
+2.0128530023804673e-05
+changing lr
+epoch 68, time 806.78, cls_loss 0.0005 cls_loss_mapping 0.0051 cls_loss_causal 0.3597 re_mapping 0.0059 re_causal 0.0134 /// teacc 93.22 lr 0.00000503
+Epoch 70, weight, value: tensor([[ 0.2798,  0.2619,  0.2441,  ..., -0.0170, -0.0172, -0.0195],
+        [-0.0074, -0.0456,  0.0073,  ..., -0.0363, -0.0058, -0.0086],
+        [-0.0823, -0.0656, -0.1019,  ...,  0.0088, -0.0080, -0.0054],
+        ...,
+        [-0.1901, -0.1735, -0.1537,  ...,  0.0223,  0.0089,  0.0111],
+        [-0.0078,  0.0017, -0.0015,  ...,  0.0130,  0.0122,  0.0017],
+        [ 0.0141,  0.0202,  0.0113,  ..., -0.0322, -0.0367, -0.0296]],
+       device='cuda:0'), grad: tensor([[-6.9809e-04, -4.3750e-04, -4.5300e-04,  ..., -6.7949e-05,
+         -6.5744e-05, -5.2512e-05],
+        [ 3.1948e-04,  1.9705e-04,  2.0468e-04,  ...,  3.2932e-05,
+          3.0845e-05,  2.4393e-05],
+        [ 1.3494e-04,  8.6308e-05,  9.0063e-05,  ...,  1.5706e-05,
+          1.4812e-05,  1.2159e-05],
+        ...,
+        [ 1.2732e-04,  7.5877e-05,  7.6950e-05,  ...,  1.5974e-05,
+          1.6287e-05,  1.4447e-05],
+        [ 4.7207e-05,  2.7984e-05,  2.8849e-05,  ...,  6.9700e-06,
+          6.7130e-06,  5.8748e-06],
+        [ 8.1778e-05,  4.8131e-05,  4.9859e-05,  ...,  1.2770e-05,
+          1.2040e-05,  1.0483e-05]], device='cuda:0')
+Epoch 70, bias, value: tensor([ 0.0802,  0.0058, -0.0127, -0.0725,  0.0066,  0.0014,  0.0034],
+       device='cuda:0'), grad: tensor([-9.3508e-04,  4.4107e-04,  1.7381e-04, -6.0767e-05,  1.8752e-04,
+         6.9916e-05,  1.2267e-04], device='cuda:0')
+588
+5.034667293427056e-06
+changing lr
+epoch 69, time 805.22, cls_loss 0.0004 cls_loss_mapping 0.0041 cls_loss_causal 0.3673 re_mapping 0.0059 re_causal 0.0137 /// teacc 92.21 lr 0.00000000
+---------------------saving last model at epoch 69----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps2', 'source_domain': 'sketch', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps2/sketch_16factor_best_test_check.csv', 'factor_num': 16, 'epoch': 'best', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of best
+randm: False
+stride: 5
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+columns: ['sketch', 'art_painting', 'cartoon', 'photo']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+                        sketch  art_painting    cartoon      photo        Avg
+w/o do (original x)  99.516416     55.810547  64.974403  56.886228  59.223726
+       sketch  art_painting    cartoon      photo        Avg
+do  99.414609     48.144531  61.476109  53.353293  54.324645
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps2', 'source_domain': 'sketch', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps2/sketch_16factor_last_test_check.csv', 'factor_num': 16, 'epoch': 'last', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of last
+randm: False
+stride: 5
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+columns: ['sketch', 'art_painting', 'cartoon', 'photo']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+                        sketch  art_painting    cartoon      photo        Avg
+w/o do (original x)  99.363706     57.519531  66.552901  60.239521  61.437318
+       sketch  art_painting    cartoon      photo        Avg
+do  99.440061     56.103516  65.443686  59.281437  60.276213
diff --git a/Meta-causal/code-withStyleAttack/73728.error b/Meta-causal/code-withStyleAttack/73728.error
new file mode 100644
index 0000000000000000000000000000000000000000..d4cae9c14f1b02ce78b5efc4ecc9cba1f06923fb
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73728.error
@@ -0,0 +1,18 @@
+Solving dependencies
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py:225: FutureWarning: `torch.cuda.amp.GradScaler(args...)` is deprecated. Please use `torch.amp.GradScaler('cuda', args...)` instead.
+  scaler = GradScaler()
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py:247: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with autocast():
+run_my_joint_v13_test.sh: line 34: andm: command not found
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:44: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'best_cls_net.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:58: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'best_mapping_'+str(i)+'.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:68: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'best_E_to_W.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:47: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'last_cls_net.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:61: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'last_mapping_'+str(i)+'.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:71: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'last_E_to_W.pkl'))
diff --git a/Meta-causal/code-withStyleAttack/73728.log b/Meta-causal/code-withStyleAttack/73728.log
new file mode 100644
index 0000000000000000000000000000000000000000..b8bf2a30c4348037db6af835714e9465cd246d8c
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73728.log
@@ -0,0 +1,1974 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'sketch', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 5, 'factor_num': 16, 'epochs': 70, 'nbatch': 100, 'batchsize': 6, 'lr': 0.01, 'lr_scheduler': 'cosine', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps2', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 5
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_train.hdf5 torch.Size([3531, 3, 227, 227]) torch.Size([3531])
+--------------------------CA_multiple--------------------------
+---------------------------16 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_val.hdf5 torch.Size([398, 3, 227, 227]) torch.Size([398])
+-------------------------------------loading pretrain weights----------------------------------
+Epoch 1, weight, value: tensor([[ 1.8066e-02, -1.4616e-02, -5.2350e-03,  ..., -1.3573e-02,
+         -5.3800e-03,  8.4514e-03],
+        [-2.9903e-03, -3.7094e-03,  6.7388e-04,  ...,  1.3490e-02,
+          1.7055e-02, -9.0759e-03],
+        [ 6.4058e-03, -1.5238e-02,  2.4516e-04,  ..., -1.4837e-02,
+          1.9578e-03, -1.6192e-02],
+        ...,
+        [-2.0085e-02, -1.5276e-02, -1.6557e-02,  ..., -9.0591e-03,
+         -3.4042e-03,  6.4908e-03],
+        [-1.9666e-02, -9.1805e-04,  1.4554e-02,  ..., -4.7549e-03,
+         -8.1075e-05, -1.6379e-02],
+        [-2.2419e-03, -1.7907e-02,  1.3829e-02,  ...,  1.4124e-03,
+         -7.4572e-03,  1.0296e-02]], device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([-0.0050, -0.0021, -0.0018, -0.0059,  0.0006, -0.0049,  0.0084],
+       device='cuda:0'), grad: None
+588
+0.01
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 777.99, cls_loss 4.3509 cls_loss_mapping 1.1279 cls_loss_causal 1.4185 re_mapping 0.4384 re_causal 0.4385 /// teacc 84.92 lr 0.00999497
+Epoch 2, weight, value: tensor([[-0.0641, -0.0505, -0.1411,  ...,  0.0175,  0.0704,  0.0477],
+        [ 0.2240,  0.1512,  0.2202,  ...,  0.0486,  0.0596,  0.0267],
+        [-0.0330, -0.0519, -0.0591,  ..., -0.0819, -0.1133, -0.1124],
+        ...,
+        [-0.2529, -0.2231, -0.1790,  ...,  0.0475,  0.0563,  0.0592],
+        [ 0.1038,  0.1071,  0.1337,  ..., -0.1160, -0.1088, -0.1196],
+        [ 0.0398,  0.0373,  0.0445,  ..., -0.0132, -0.0174, -0.0009]],
+       device='cuda:0'), grad: tensor([[ 4.2236e-02,  8.0948e-03, -1.1368e-02,  ...,  6.8970e-02,
+          6.2683e-02,  3.6743e-02],
+        [ 9.6375e-02,  6.5552e-02,  3.6011e-02,  ...,  3.9551e-02,
+          3.5309e-02,  1.4694e-02],
+        [-7.8613e-02, -4.2023e-02, -6.4964e-03,  ..., -6.7871e-02,
+         -5.6824e-02, -3.2562e-02],
+        ...,
+        [-6.1005e-02, -3.2318e-02, -1.8494e-02,  ..., -4.1046e-02,
+         -4.1504e-02, -1.8982e-02],
+        [ 5.3316e-05,  3.5554e-05,  2.1845e-05,  ...,  1.8999e-05,
+          1.8522e-05,  6.3777e-06],
+        [ 3.9130e-05,  2.6524e-05,  1.4313e-05,  ...,  1.3396e-05,
+          1.3120e-05,  4.1462e-06]], device='cuda:0')
+Epoch 2, bias, value: tensor([ 3.1027e-02, -1.2553e-02, -3.6311e-02, -5.0901e-02,  1.2749e-02,
+        -8.4003e-05,  4.5286e-02], device='cuda:0'), grad: tensor([ 1.3892e-01,  1.2219e-01, -1.4893e-01,  1.3962e-03, -1.1365e-01,
+         7.8976e-05,  6.0230e-05], device='cuda:0')
+588
+0.009994965332706574
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 771.45, cls_loss 0.5868 cls_loss_mapping 0.4660 cls_loss_causal 1.0081 re_mapping 0.1610 re_causal 0.1604 /// teacc 91.96 lr 0.00997987
+Epoch 3, weight, value: tensor([[-0.0646, -0.0589, -0.1475,  ...,  0.0246,  0.0791,  0.0600],
+        [ 0.2646,  0.1994,  0.2629,  ...,  0.0578,  0.0666,  0.0365],
+        [-0.0793, -0.0915, -0.0975,  ..., -0.0850, -0.1109, -0.1113],
+        ...,
+        [-0.2961, -0.2595, -0.2078,  ...,  0.0233,  0.0273,  0.0278],
+        [ 0.1148,  0.1168,  0.1435,  ..., -0.1130, -0.1042, -0.1159],
+        [ 0.0684,  0.0600,  0.0581,  ..., -0.0140, -0.0198, -0.0034]],
+       device='cuda:0'), grad: tensor([[ 3.9246e-02,  1.4778e-02,  6.1378e-03,  ...,  1.3214e-02,
+          1.5762e-02,  6.4125e-03],
+        [-5.2460e-02, -2.0218e-02, -8.4991e-03,  ..., -1.7319e-02,
+         -2.0676e-02, -8.2321e-03],
+        [ 7.7963e-04,  3.2425e-04,  1.3626e-04,  ...,  2.9707e-04,
+          3.2449e-04,  1.5128e-04],
+        ...,
+        [ 8.3389e-03,  3.5267e-03,  1.5554e-03,  ...,  2.5043e-03,
+          3.0041e-03,  1.0738e-03],
+        [ 3.8471e-03,  1.4982e-03,  6.3276e-04,  ...,  1.2541e-03,
+          1.4982e-03,  5.8889e-04],
+        [ 3.0518e-04,  1.1790e-04,  4.9353e-05,  ...,  1.0031e-04,
+          1.1981e-04,  4.7386e-05]], device='cuda:0')
+Epoch 3, bias, value: tensor([ 0.0393, -0.0130, -0.0661, -0.0372,  0.0051,  0.0004,  0.0611],
+       device='cuda:0'), grad: tensor([ 8.4473e-02, -1.1200e-01,  1.5860e-03,  1.8403e-05,  1.7105e-02,
+         8.1711e-03,  6.5136e-04], device='cuda:0')
+588
+0.009979871469976196
+changing lr
+epoch 2, time 778.16, cls_loss 0.2506 cls_loss_mapping 0.2656 cls_loss_causal 0.8203 re_mapping 0.1303 re_causal 0.1296 /// teacc 86.68 lr 0.00995475
+Epoch 4, weight, value: tensor([[-0.0672, -0.0718, -0.1605,  ...,  0.0241,  0.0755,  0.0530],
+        [ 0.2772,  0.2214,  0.2872,  ...,  0.0624,  0.0698,  0.0431],
+        [-0.0532, -0.0682, -0.0817,  ..., -0.0827, -0.1068, -0.1117],
+        ...,
+        [-0.3240, -0.2869, -0.2331,  ...,  0.0108,  0.0187,  0.0220],
+        [ 0.1108,  0.1148,  0.1421,  ..., -0.1111, -0.1019, -0.1128],
+        [ 0.0640,  0.0548,  0.0526,  ..., -0.0097, -0.0166, -0.0010]],
+       device='cuda:0'), grad: tensor([[ 5.6601e-04,  3.8314e-04,  3.0184e-04,  ...,  2.3842e-04,
+          2.6822e-04,  1.9336e-04],
+        [-1.0973e-04, -8.6367e-05, -7.6056e-05,  ..., -5.5619e-06,
+         -4.4368e-06,  3.6992e-06],
+        [ 2.3746e-03,  1.5621e-03,  1.2035e-03,  ...,  1.1530e-03,
+          1.3189e-03,  9.7084e-04],
+        ...,
+        [ 3.1412e-05,  1.7956e-05,  1.1876e-05,  ...,  2.3767e-05,
+          2.5392e-05,  2.0787e-05],
+        [-6.7838e-06, -5.1297e-06, -3.8780e-06,  ..., -3.8091e-07,
+         -4.7777e-07,  6.4261e-08],
+        [ 1.0364e-05,  6.9141e-06,  5.0589e-06,  ...,  4.0941e-06,
+          4.5300e-06,  3.2634e-06]], device='cuda:0')
+Epoch 4, bias, value: tensor([ 0.0697, -0.0210, -0.0571, -0.0513, -0.0050, -0.0074,  0.0618],
+       device='cuda:0'), grad: tensor([ 7.2241e-04, -1.1706e-04,  3.0746e-03, -3.7327e-03,  5.1528e-05,
+        -6.3702e-06,  1.3195e-05], device='cuda:0')
+588
+0.009954748808839675
+changing lr
+epoch 3, time 778.29, cls_loss 0.1132 cls_loss_mapping 0.1794 cls_loss_causal 0.7350 re_mapping 0.1117 re_causal 0.1117 /// teacc 89.45 lr 0.00991965
+Epoch 5, weight, value: tensor([[-0.0509, -0.0596, -0.1472,  ...,  0.0416,  0.0907,  0.0689],
+        [ 0.2854,  0.2319,  0.2971,  ...,  0.0610,  0.0693,  0.0421],
+        [-0.0703, -0.0823, -0.0959,  ..., -0.0906, -0.1146, -0.1192],
+        ...,
+        [-0.3450, -0.3093, -0.2570,  ..., -0.0020,  0.0058,  0.0091],
+        [ 0.1094,  0.1143,  0.1412,  ..., -0.1094, -0.1004, -0.1109],
+        [ 0.0732,  0.0634,  0.0606,  ..., -0.0076, -0.0145,  0.0011]],
+       device='cuda:0'), grad: tensor([[-2.2495e-04, -7.9691e-05, -3.3528e-05,  ..., -8.6010e-05,
+         -1.0067e-04, -6.0201e-05],
+        [ 1.0490e-05, -4.1164e-06, -8.4937e-06,  ...,  6.0946e-06,
+          8.0168e-06,  4.5225e-06],
+        [-3.0883e-06, -1.2498e-06,  4.3213e-07,  ..., -7.8091e-07,
+          1.1278e-06,  1.1064e-06],
+        ...,
+        [ 1.4758e-04,  5.5283e-05,  2.5570e-05,  ...,  5.6654e-05,
+          6.3896e-05,  3.8058e-05],
+        [ 9.3132e-06,  3.5204e-06,  1.6363e-06,  ...,  3.4254e-06,
+          4.0121e-06,  2.4028e-06],
+        [ 5.6297e-05,  2.4781e-05,  1.3664e-05,  ...,  1.8552e-05,
+          2.1458e-05,  1.2845e-05]], device='cuda:0')
+Epoch 5, bias, value: tensor([ 0.0699, -0.0210, -0.0638, -0.0557,  0.0103, -0.0102,  0.0605],
+       device='cuda:0'), grad: tensor([-5.7936e-04,  5.4985e-05, -5.3085e-06,  1.2010e-05,  3.7050e-04,
+         2.3007e-05,  1.2362e-04], device='cuda:0')
+588
+0.009919647942993149
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 787.89, cls_loss 0.0795 cls_loss_mapping 0.1361 cls_loss_causal 0.6984 re_mapping 0.0997 re_causal 0.1004 /// teacc 92.21 lr 0.00987464
+Epoch 6, weight, value: tensor([[-0.0650, -0.0745, -0.1608,  ...,  0.0434,  0.0951,  0.0720],
+        [ 0.3094,  0.2547,  0.3183,  ...,  0.0604,  0.0678,  0.0418],
+        [-0.0780, -0.0862, -0.0994,  ..., -0.0866, -0.1113, -0.1157],
+        ...,
+        [-0.3432, -0.3108, -0.2608,  ..., -0.0084, -0.0020,  0.0019],
+        [ 0.1100,  0.1147,  0.1405,  ..., -0.1070, -0.0981, -0.1083],
+        [ 0.0684,  0.0621,  0.0612,  ..., -0.0102, -0.0181, -0.0020]],
+       device='cuda:0'), grad: tensor([[-8.9539e-02, -3.6102e-02, -1.8234e-02,  ..., -2.8183e-02,
+         -3.8666e-02, -3.2867e-02],
+        [ 3.6438e-02,  1.4847e-02,  7.5455e-03,  ...,  1.1536e-02,
+          1.5747e-02,  1.3451e-02],
+        [ 5.9204e-03,  2.2964e-03,  1.1244e-03,  ...,  1.8950e-03,
+          2.5864e-03,  2.1667e-03],
+        ...,
+        [ 4.5685e-02,  1.8448e-02,  9.3689e-03,  ...,  1.4359e-02,
+          1.9745e-02,  1.6754e-02],
+        [ 3.8528e-04,  1.5247e-04,  8.0585e-05,  ...,  1.2076e-04,
+          1.6952e-04,  1.4007e-04],
+        [ 4.9305e-04,  1.9550e-04,  9.8288e-05,  ...,  1.5604e-04,
+          2.1434e-04,  1.8048e-04]], device='cuda:0')
+Epoch 6, bias, value: tensor([ 0.0739, -0.0085, -0.0726, -0.0523,  0.0149, -0.0101,  0.0451],
+       device='cuda:0'), grad: tensor([-0.1722,  0.0696,  0.0117,  0.0014,  0.0879,  0.0008,  0.0010],
+       device='cuda:0')
+588
+0.009874639560909117
+changing lr
+epoch 5, time 778.76, cls_loss 0.0530 cls_loss_mapping 0.1098 cls_loss_causal 0.6454 re_mapping 0.0894 re_causal 0.0910 /// teacc 91.96 lr 0.00981981
+Epoch 7, weight, value: tensor([[-0.0598, -0.0710, -0.1576,  ...,  0.0420,  0.0938,  0.0694],
+        [ 0.3013,  0.2502,  0.3140,  ...,  0.0608,  0.0663,  0.0417],
+        [-0.0732, -0.0849, -0.0995,  ..., -0.0864, -0.1098, -0.1144],
+        ...,
+        [-0.3411, -0.3072, -0.2568,  ..., -0.0054,  0.0004,  0.0052],
+        [ 0.1056,  0.1117,  0.1376,  ..., -0.1047, -0.0965, -0.1060],
+        [ 0.0718,  0.0641,  0.0619,  ..., -0.0105, -0.0178, -0.0023]],
+       device='cuda:0'), grad: tensor([[ 2.3975e-03,  6.8235e-04,  1.3387e-04,  ...,  5.4264e-04,
+          8.4114e-04,  4.9353e-04],
+        [ 2.0084e-03,  6.0892e-04,  1.5950e-04,  ...,  4.7421e-04,
+          7.0953e-04,  4.2844e-04],
+        [ 5.0813e-05,  1.9267e-05,  8.9779e-06,  ...,  1.3664e-05,
+          1.8343e-05,  1.2241e-05],
+        ...,
+        [-4.6844e-03, -1.3247e-03, -2.5201e-04,  ..., -1.0643e-03,
+         -1.6470e-03, -9.6607e-04],
+        [ 7.9572e-05,  2.2620e-05,  4.4331e-06,  ...,  1.8343e-05,
+          2.8133e-05,  1.6630e-05],
+        [ 2.9922e-04,  8.6010e-05,  1.7822e-05,  ...,  6.9499e-05,
+          1.0592e-04,  6.2883e-05]], device='cuda:0')
+Epoch 7, bias, value: tensor([ 0.0672, -0.0121, -0.0528, -0.0537,  0.0089, -0.0162,  0.0493],
+       device='cuda:0'), grad: tensor([ 0.0065,  0.0052,  0.0001, -0.0002, -0.0126,  0.0002,  0.0008],
+       device='cuda:0')
+588
+0.009819814303479266
+changing lr
+---------------------saving model at epoch 6----------------------------------------------------
+epoch 6, time 786.05, cls_loss 0.0297 cls_loss_mapping 0.0896 cls_loss_causal 0.6016 re_mapping 0.0792 re_causal 0.0812 /// teacc 92.71 lr 0.00975528
+Epoch 8, weight, value: tensor([[-0.0676, -0.0763, -0.1606,  ...,  0.0425,  0.0935,  0.0699],
+        [ 0.3098,  0.2586,  0.3212,  ...,  0.0589,  0.0645,  0.0406],
+        [-0.0757, -0.0879, -0.1031,  ..., -0.0840, -0.1073, -0.1118],
+        ...,
+        [-0.3368, -0.3049, -0.2562,  ..., -0.0082, -0.0026,  0.0019],
+        [ 0.1032,  0.1099,  0.1352,  ..., -0.1024, -0.0945, -0.1036],
+        [ 0.0685,  0.0621,  0.0606,  ..., -0.0112, -0.0184, -0.0031]],
+       device='cuda:0'), grad: tensor([[-7.1716e-04, -3.8743e-04, -2.8014e-04,  ..., -2.1017e-04,
+         -3.3545e-04, -2.5296e-04],
+        [ 7.5054e-04,  3.9124e-04,  2.6035e-04,  ...,  2.0492e-04,
+          2.7323e-04,  2.1517e-04],
+        [-4.8232e-04, -2.2614e-04, -1.2803e-04,  ..., -1.2010e-04,
+         -1.2362e-04, -9.9778e-05],
+        ...,
+        [ 7.5936e-05,  2.4676e-05,  9.2313e-06,  ...,  1.8805e-05,
+          2.4348e-05,  1.4916e-05],
+        [ 9.5218e-06,  4.8392e-06,  3.1833e-06,  ...,  2.5872e-06,
+          3.5297e-06,  2.7195e-06],
+        [ 3.4070e-04,  1.8251e-04,  1.2958e-04,  ...,  9.8169e-05,
+          1.5116e-04,  1.1492e-04]], device='cuda:0')
+Epoch 8, bias, value: tensor([ 0.0598, -0.0080, -0.0461, -0.0518,  0.0121, -0.0188,  0.0437],
+       device='cuda:0'), grad: tensor([-1.3371e-03,  1.3237e-03, -8.6784e-04,  4.3958e-05,  1.9133e-04,
+         1.7464e-05,  6.2799e-04], device='cuda:0')
+588
+0.009755282581475767
+changing lr
+epoch 7, time 772.92, cls_loss 0.0159 cls_loss_mapping 0.0684 cls_loss_causal 0.5923 re_mapping 0.0701 re_causal 0.0730 /// teacc 92.46 lr 0.00968117
+Epoch 9, weight, value: tensor([[-7.0294e-02, -8.2486e-02, -1.6514e-01,  ...,  4.2083e-02,
+          9.2127e-02,  6.8614e-02],
+        [ 3.0445e-01,  2.5849e-01,  3.2050e-01,  ...,  5.8001e-02,
+          6.3234e-02,  4.0235e-02],
+        [-7.0183e-02, -8.2932e-02, -9.8085e-02,  ..., -8.1957e-02,
+         -1.0465e-01, -1.0967e-01],
+        ...,
+        [-3.3327e-01, -3.0170e-01, -2.5488e-01,  ..., -1.0581e-02,
+         -5.5196e-03, -1.6071e-04],
+        [ 1.0367e-01,  1.0979e-01,  1.3427e-01,  ..., -9.9582e-02,
+         -9.1773e-02, -1.0072e-01],
+        [ 6.6764e-02,  6.0905e-02,  5.9512e-02,  ..., -1.0945e-02,
+         -1.7924e-02, -3.0606e-03]], device='cuda:0'), grad: tensor([[-1.6987e-04, -7.6294e-05, -6.2823e-05,  ..., -2.9922e-05,
+         -5.8085e-05, -4.1664e-05],
+        [-3.2127e-05, -4.3064e-05, -3.6836e-05,  ..., -4.4964e-06,
+          1.2316e-05,  4.6194e-06],
+        [ 1.6284e-04,  9.9838e-05,  8.1062e-05,  ...,  2.8148e-05,
+          3.2336e-05,  2.7448e-05],
+        ...,
+        [ 3.5524e-05,  1.8373e-05,  1.5914e-05,  ...,  4.7088e-06,
+          1.0245e-05,  7.1898e-06],
+        [ 9.3281e-06,  5.2415e-06,  4.2692e-06,  ...,  1.5702e-06,
+          2.2147e-06,  1.7481e-06],
+        [-4.5240e-05, -2.9370e-05, -2.1487e-05,  ..., -6.5789e-06,
+         -5.7928e-06, -5.2638e-06]], device='cuda:0')
+Epoch 9, bias, value: tensor([ 0.0720, -0.0199, -0.0425, -0.0519,  0.0113, -0.0174,  0.0395],
+       device='cuda:0'), grad: tensor([-3.8147e-04,  6.1512e-05,  2.3568e-04,  5.1528e-05,  7.0751e-05,
+         1.5721e-05, -5.4061e-05], device='cuda:0')
+588
+0.009681174353198686
+changing lr
+epoch 8, time 777.37, cls_loss 0.0148 cls_loss_mapping 0.0577 cls_loss_causal 0.5646 re_mapping 0.0630 re_causal 0.0673 /// teacc 91.71 lr 0.00959764
+Epoch 10, weight, value: tensor([[-0.0781, -0.0882, -0.1678,  ...,  0.0405,  0.0900,  0.0669],
+        [ 0.3057,  0.2600,  0.3207,  ...,  0.0574,  0.0631,  0.0404],
+        [-0.0690, -0.0810, -0.0974,  ..., -0.0808, -0.1042, -0.1088],
+        ...,
+        [-0.3274, -0.2982, -0.2523,  ..., -0.0112, -0.0062, -0.0009],
+        [ 0.1028,  0.1089,  0.1328,  ..., -0.0970, -0.0894, -0.0981],
+        [ 0.0657,  0.0598,  0.0583,  ..., -0.0110, -0.0178, -0.0034]],
+       device='cuda:0'), grad: tensor([[-2.7714e-03, -8.9121e-04, -4.0722e-04,  ..., -9.0313e-04,
+         -8.7309e-04, -7.9441e-04],
+        [ 1.8206e-03,  5.9080e-04,  2.7418e-04,  ...,  5.9128e-04,
+          5.7220e-04,  5.2023e-04],
+        [ 5.6171e-04,  1.8156e-04,  8.4460e-05,  ...,  1.8311e-04,
+          1.7738e-04,  1.6129e-04],
+        ...,
+        [ 2.6321e-04,  8.7440e-05,  4.0233e-05,  ...,  8.4162e-05,
+          8.0884e-05,  7.3850e-05],
+        [ 3.3706e-05,  1.0908e-05,  5.2154e-06,  ...,  1.1005e-05,
+          1.0721e-05,  9.7305e-06],
+        [ 1.5631e-05, -4.7199e-06, -8.6278e-06,  ...,  9.6932e-06,
+          8.7395e-06,  7.8455e-06]], device='cuda:0')
+Epoch 10, bias, value: tensor([ 0.0645, -0.0142, -0.0434, -0.0515,  0.0164, -0.0180,  0.0376],
+       device='cuda:0'), grad: tensor([-6.3286e-03,  4.1428e-03,  1.2827e-03,  1.7333e-04,  5.8937e-04,
+         7.6950e-05,  6.7055e-05], device='cuda:0')
+588
+0.009597638862757255
+changing lr
+epoch 9, time 778.03, cls_loss 0.0051 cls_loss_mapping 0.0493 cls_loss_causal 0.5442 re_mapping 0.0534 re_causal 0.0586 /// teacc 91.46 lr 0.00950484
+Epoch 11, weight, value: tensor([[-0.0841, -0.0941, -0.1715,  ...,  0.0380,  0.0867,  0.0641],
+        [ 0.3054,  0.2613,  0.3211,  ...,  0.0561,  0.0617,  0.0394],
+        [-0.0692, -0.0806, -0.0967,  ..., -0.0798, -0.1030, -0.1076],
+        ...,
+        [-0.3233, -0.2945, -0.2503,  ..., -0.0112, -0.0066, -0.0011],
+        [ 0.1038,  0.1091,  0.1323,  ..., -0.0944, -0.0866, -0.0951],
+        [ 0.0658,  0.0599,  0.0580,  ..., -0.0108, -0.0175, -0.0035]],
+       device='cuda:0'), grad: tensor([[-3.3894e-03, -2.1896e-03, -1.7900e-03,  ..., -3.7837e-04,
+         -5.4598e-04, -4.4060e-04],
+        [ 1.5087e-03,  9.5987e-04,  7.8297e-04,  ...,  1.8430e-04,
+          2.6417e-04,  2.1267e-04],
+        [ 1.5628e-04,  8.4937e-05,  6.8069e-05,  ...,  3.9160e-05,
+          5.3555e-05,  4.3809e-05],
+        ...,
+        [ 2.8342e-05,  7.5459e-05,  6.7115e-05,  ..., -7.2420e-05,
+         -9.0361e-05, -7.4565e-05],
+        [ 6.9320e-05,  3.8296e-05,  3.0667e-05,  ...,  1.6332e-05,
+          2.1875e-05,  1.7911e-05],
+        [ 1.5001e-03,  9.5367e-04,  7.7868e-04,  ...,  1.9145e-04,
+          2.7084e-04,  2.1970e-04]], device='cuda:0')
+Epoch 11, bias, value: tensor([ 0.0619, -0.0127, -0.0436, -0.0510,  0.0152, -0.0142,  0.0360],
+       device='cuda:0'), grad: tensor([-0.0044,  0.0020,  0.0003,  0.0002, -0.0002,  0.0001,  0.0020],
+       device='cuda:0')
+588
+0.009504844339512096
+changing lr
+epoch 10, time 774.60, cls_loss 0.0047 cls_loss_mapping 0.0510 cls_loss_causal 0.5466 re_mapping 0.0465 re_causal 0.0531 /// teacc 92.71 lr 0.00940298
+Epoch 12, weight, value: tensor([[-0.0839, -0.0960, -0.1720,  ...,  0.0390,  0.0870,  0.0646],
+        [ 0.3010,  0.2583,  0.3176,  ...,  0.0545,  0.0600,  0.0383],
+        [-0.0696, -0.0805, -0.0965,  ..., -0.0786, -0.1018, -0.1064],
+        ...,
+        [-0.3213, -0.2923, -0.2497,  ..., -0.0127, -0.0084, -0.0027],
+        [ 0.1061,  0.1114,  0.1336,  ..., -0.0919, -0.0843, -0.0926],
+        [ 0.0650,  0.0597,  0.0578,  ..., -0.0108, -0.0174, -0.0038]],
+       device='cuda:0'), grad: tensor([[ 3.0918e-03,  5.6839e-04,  2.7800e-04,  ...,  1.4496e-03,
+          1.6880e-03,  1.5783e-03],
+        [ 6.1095e-05,  2.4781e-05,  1.9237e-05,  ...,  1.6943e-05,
+          1.9178e-05,  1.7986e-05],
+        [ 8.3372e-06, -1.6585e-05, -1.8209e-05,  ...,  2.3082e-05,
+          2.9430e-05,  2.4959e-05],
+        ...,
+        [-3.1319e-03, -5.3263e-04, -2.3746e-04,  ..., -1.5078e-03,
+         -1.7595e-03, -1.6422e-03],
+        [ 4.3333e-05,  1.2241e-05,  8.2031e-06,  ...,  1.6436e-05,
+          1.9014e-05,  1.7807e-05],
+        [-8.8274e-05, -6.1035e-05, -5.3346e-05,  ..., -3.3136e-06,
+         -2.3209e-06, -1.9576e-06]], device='cuda:0')
+Epoch 12, bias, value: tensor([ 0.0681, -0.0108, -0.0434, -0.0517,  0.0130, -0.0156,  0.0323],
+       device='cuda:0'), grad: tensor([ 9.1553e-03,  1.2910e-04,  9.7752e-05,  3.8117e-05, -9.4452e-03,
+         1.1194e-04, -9.1195e-05], device='cuda:0')
+588
+0.009402977659283692
+changing lr
+epoch 11, time 778.37, cls_loss 0.0064 cls_loss_mapping 0.0432 cls_loss_causal 0.5521 re_mapping 0.0414 re_causal 0.0490 /// teacc 92.46 lr 0.00929224
+Epoch 13, weight, value: tensor([[-0.0895, -0.1000, -0.1741,  ...,  0.0388,  0.0858,  0.0638],
+        [ 0.3020,  0.2592,  0.3167,  ...,  0.0531,  0.0586,  0.0375],
+        [-0.0682, -0.0785, -0.0950,  ..., -0.0778, -0.1009, -0.1055],
+        ...,
+        [-0.3176, -0.2893, -0.2477,  ..., -0.0138, -0.0098, -0.0040],
+        [ 0.1063,  0.1117,  0.1336,  ..., -0.0899, -0.0825, -0.0905],
+        [ 0.0652,  0.0579,  0.0562,  ..., -0.0098, -0.0157, -0.0025]],
+       device='cuda:0'), grad: tensor([[ 8.2433e-05,  1.9953e-05,  1.0490e-05,  ...,  1.7807e-05,
+          2.6301e-05,  1.9848e-05],
+        [ 6.4909e-05,  1.0408e-05,  1.3374e-06,  ...,  1.1384e-05,
+          1.7986e-05,  1.4320e-05],
+        [-3.5262e-04, -1.8263e-04, -1.2827e-04,  ..., -1.3399e-04,
+         -1.5056e-04, -1.1611e-04],
+        ...,
+        [-2.6727e-04, -4.0770e-05, -4.0755e-06,  ..., -4.4644e-05,
+         -7.2002e-05, -5.7787e-05],
+        [ 3.7223e-05,  7.6741e-06,  2.3544e-06,  ...,  7.3239e-06,
+          1.0781e-05,  8.6427e-06],
+        [ 1.0252e-04,  4.0174e-05,  2.3350e-05,  ...,  3.1441e-05,
+          3.7342e-05,  2.9862e-05]], device='cuda:0')
+Epoch 13, bias, value: tensor([ 0.0610, -0.0050, -0.0432, -0.0564,  0.0138, -0.0165,  0.0385],
+       device='cuda:0'), grad: tensor([ 0.0002,  0.0002, -0.0009,  0.0008, -0.0008,  0.0001,  0.0003],
+       device='cuda:0')
+588
+0.009292243968009333
+changing lr
+epoch 12, time 778.05, cls_loss 0.0034 cls_loss_mapping 0.0397 cls_loss_causal 0.4946 re_mapping 0.0357 re_causal 0.0443 /// teacc 92.46 lr 0.00917287
+Epoch 14, weight, value: tensor([[-0.0858, -0.0990, -0.1720,  ...,  0.0390,  0.0854,  0.0636],
+        [ 0.2971,  0.2573,  0.3136,  ...,  0.0509,  0.0561,  0.0357],
+        [-0.0689, -0.0782, -0.0943,  ..., -0.0765, -0.0994, -0.1038],
+        ...,
+        [-0.3110, -0.2854, -0.2451,  ..., -0.0137, -0.0101, -0.0043],
+        [ 0.1056,  0.1112,  0.1326,  ..., -0.0876, -0.0801, -0.0880],
+        [ 0.0592,  0.0545,  0.0535,  ..., -0.0107, -0.0167, -0.0036]],
+       device='cuda:0'), grad: tensor([[ 5.0020e-04,  1.7703e-04,  1.3399e-04,  ...,  9.3341e-05,
+          1.1951e-04,  8.8930e-05],
+        [-2.8658e-04, -1.8084e-04, -1.6677e-04,  ..., -5.6177e-05,
+         -6.2406e-05, -5.9783e-05],
+        [ 2.1195e-04,  6.1929e-05,  4.0680e-05,  ...,  3.9279e-05,
+          5.1975e-05,  3.6150e-05],
+        ...,
+        [-5.5981e-04, -8.6486e-05, -2.0877e-05,  ..., -1.0252e-04,
+         -1.4460e-04, -8.9288e-05],
+        [ 4.6194e-05,  9.7901e-06,  4.4219e-06,  ...,  9.2089e-06,
+          1.2517e-05,  8.6576e-06],
+        [ 4.4495e-05,  9.9018e-06,  4.8466e-06,  ...,  8.2478e-06,
+          1.1235e-05,  7.2941e-06]], device='cuda:0')
+Epoch 14, bias, value: tensor([ 0.0710, -0.0108, -0.0448, -0.0553,  0.0208, -0.0171,  0.0285],
+       device='cuda:0'), grad: tensor([ 0.0012, -0.0004,  0.0006,  0.0001, -0.0018,  0.0001,  0.0001],
+       device='cuda:0')
+588
+0.009172866268606516
+changing lr
+---------------------saving model at epoch 13----------------------------------------------------
+epoch 13, time 778.21, cls_loss 0.0027 cls_loss_mapping 0.0345 cls_loss_causal 0.5152 re_mapping 0.0299 re_causal 0.0393 /// teacc 93.97 lr 0.00904508
+Epoch 15, weight, value: tensor([[-0.0885, -0.1006, -0.1715,  ...,  0.0375,  0.0830,  0.0615],
+        [ 0.2988,  0.2582,  0.3130,  ...,  0.0516,  0.0570,  0.0370],
+        [-0.0679, -0.0788, -0.0953,  ..., -0.0748, -0.0975, -0.1017],
+        ...,
+        [-0.3096, -0.2833, -0.2440,  ..., -0.0152, -0.0120, -0.0062],
+        [ 0.1030,  0.1099,  0.1312,  ..., -0.0860, -0.0787, -0.0864],
+        [ 0.0582,  0.0537,  0.0525,  ..., -0.0109, -0.0167, -0.0039]],
+       device='cuda:0'), grad: tensor([[ 7.9393e-04,  2.1148e-04,  1.3363e-04,  ...,  1.8585e-04,
+          2.4772e-04,  2.1100e-04],
+        [ 6.7282e-04,  3.1376e-04,  2.6083e-04,  ...,  1.1039e-04,
+          1.4329e-04,  1.2684e-04],
+        [ 2.5883e-03,  5.7745e-04,  2.4629e-04,  ...,  7.5293e-04,
+          9.1219e-04,  8.1730e-04],
+        ...,
+        [-4.2000e-03, -9.4509e-04, -4.4274e-04,  ..., -1.1654e-03,
+         -1.4477e-03, -1.2789e-03],
+        [-1.4439e-03, -9.9754e-04, -9.2840e-04,  ..., -1.0061e-04,
+         -1.4162e-04, -1.3125e-04],
+        [ 8.4448e-04,  4.9305e-04,  4.4131e-04,  ...,  9.5725e-05,
+          1.2875e-04,  1.1522e-04]], device='cuda:0')
+Epoch 15, bias, value: tensor([ 0.0666, -0.0021, -0.0379, -0.0540,  0.0156, -0.0225,  0.0269],
+       device='cuda:0'), grad: tensor([ 0.0021,  0.0012,  0.0068,  0.0013, -0.0112, -0.0013,  0.0011],
+       device='cuda:0')
+588
+0.00904508497187474
+changing lr
+epoch 14, time 776.19, cls_loss 0.0041 cls_loss_mapping 0.0315 cls_loss_causal 0.4928 re_mapping 0.0264 re_causal 0.0371 /// teacc 93.97 lr 0.00890916
+Epoch 16, weight, value: tensor([[-0.0897, -0.1021, -0.1711,  ...,  0.0378,  0.0827,  0.0614],
+        [ 0.2948,  0.2564,  0.3104,  ...,  0.0497,  0.0553,  0.0358],
+        [-0.0707, -0.0802, -0.0964,  ..., -0.0744, -0.0968, -0.1007],
+        ...,
+        [-0.3038, -0.2791, -0.2413,  ..., -0.0143, -0.0115, -0.0058],
+        [ 0.1054,  0.1116,  0.1325,  ..., -0.0837, -0.0765, -0.0840],
+        [ 0.0578,  0.0526,  0.0509,  ..., -0.0114, -0.0172, -0.0046]],
+       device='cuda:0'), grad: tensor([[ 9.8705e-05,  4.2081e-05,  3.3855e-05,  ...,  2.5094e-05,
+          2.2784e-05,  1.9744e-05],
+        [-4.3154e-05, -3.7581e-05, -3.4839e-05,  ..., -1.2957e-05,
+         -1.2979e-05, -1.2062e-05],
+        [-7.9572e-05, -3.3170e-05, -2.7269e-05,  ..., -1.7211e-05,
+         -1.2763e-05, -1.1444e-05],
+        ...,
+        [-5.4657e-05, -8.2552e-06, -2.6654e-06,  ..., -1.4283e-05,
+         -1.3880e-05, -1.1198e-05],
+        [ 1.0870e-05,  4.1053e-06,  3.2391e-06,  ...,  3.1311e-06,
+          2.9299e-06,  2.5500e-06],
+        [ 2.3231e-05,  1.1705e-05,  1.0073e-05,  ...,  6.2846e-06,
+          5.3830e-06,  4.8503e-06]], device='cuda:0')
+Epoch 16, bias, value: tensor([ 0.0685, -0.0054, -0.0399, -0.0563,  0.0179, -0.0206,  0.0285],
+       device='cuda:0'), grad: tensor([ 1.9526e-04, -2.2843e-05, -1.5879e-04,  8.1658e-05, -1.5867e-04,
+         2.3648e-05,  4.0025e-05], device='cuda:0')
+588
+0.008909157412340152
+changing lr
+epoch 15, time 778.58, cls_loss 0.0033 cls_loss_mapping 0.0375 cls_loss_causal 0.5059 re_mapping 0.0235 re_causal 0.0350 /// teacc 93.97 lr 0.00876536
+Epoch 17, weight, value: tensor([[-0.0916, -0.1036, -0.1711,  ...,  0.0374,  0.0813,  0.0603],
+        [ 0.2933,  0.2555,  0.3084,  ...,  0.0484,  0.0540,  0.0350],
+        [-0.0697, -0.0791, -0.0953,  ..., -0.0731, -0.0955, -0.0993],
+        ...,
+        [-0.3017, -0.2775, -0.2407,  ..., -0.0151, -0.0124, -0.0067],
+        [ 0.1059,  0.1123,  0.1329,  ..., -0.0822, -0.0750, -0.0823],
+        [ 0.0565,  0.0515,  0.0498,  ..., -0.0115, -0.0172, -0.0049]],
+       device='cuda:0'), grad: tensor([[-2.2972e-04, -1.1915e-04, -1.0139e-04,  ..., -1.0985e-04,
+         -1.1837e-04, -1.1688e-04],
+        [ 2.2840e-04,  1.0729e-04,  8.7261e-05,  ...,  1.0186e-04,
+          1.1033e-04,  1.0931e-04],
+        [ 7.7412e-06,  1.4137e-06,  9.4529e-07,  ...,  7.4431e-06,
+          8.5086e-06,  8.9929e-06],
+        ...,
+        [-7.7128e-05, -1.6451e-05, -5.0515e-06,  ..., -2.5421e-05,
+         -2.8759e-05, -2.9579e-05],
+        [ 2.9624e-05,  1.0096e-05,  6.1989e-06,  ...,  1.0081e-05,
+          1.1168e-05,  1.1221e-05],
+        [ 2.8998e-05,  1.2301e-05,  9.0301e-06,  ...,  1.1556e-05,
+          1.2405e-05,  1.2219e-05]], device='cuda:0')
+Epoch 17, bias, value: tensor([ 0.0674, -0.0017, -0.0403, -0.0556,  0.0183, -0.0222,  0.0269],
+       device='cuda:0'), grad: tensor([-3.7766e-04,  4.1556e-04,  2.2411e-05,  2.5913e-05, -2.1303e-04,
+         6.8545e-05,  5.7757e-05], device='cuda:0')
+588
+0.00876535733001806
+changing lr
+epoch 16, time 787.75, cls_loss 0.0028 cls_loss_mapping 0.0351 cls_loss_causal 0.4896 re_mapping 0.0216 re_causal 0.0333 /// teacc 93.22 lr 0.00861397
+Epoch 18, weight, value: tensor([[-0.0939, -0.1067, -0.1731,  ...,  0.0376,  0.0803,  0.0597],
+        [ 0.2905,  0.2543,  0.3057,  ...,  0.0468,  0.0523,  0.0339],
+        [-0.0695, -0.0787, -0.0947,  ..., -0.0723, -0.0942, -0.0979],
+        ...,
+        [-0.2982, -0.2739, -0.2381,  ..., -0.0155, -0.0129, -0.0073],
+        [ 0.1080,  0.1135,  0.1342,  ..., -0.0806, -0.0731, -0.0804],
+        [ 0.0557,  0.0509,  0.0493,  ..., -0.0120, -0.0178, -0.0057]],
+       device='cuda:0'), grad: tensor([[ 2.2471e-04,  8.0824e-05,  5.8323e-05,  ...,  4.1693e-05,
+          4.3541e-05,  4.1455e-05],
+        [ 3.4332e-04,  1.7226e-04,  1.4496e-04,  ...,  1.3685e-04,
+          1.4579e-04,  1.4079e-04],
+        [-8.1711e-03, -2.6722e-03, -1.6327e-03,  ..., -1.6499e-03,
+         -1.9569e-03, -1.7881e-03],
+        ...,
+        [ 7.4081e-03,  2.4147e-03,  1.4582e-03,  ...,  1.5192e-03,
+          1.8148e-03,  1.6556e-03],
+        [ 1.7858e-04,  6.1631e-05,  4.3243e-05,  ...,  2.8327e-05,
+          2.9683e-05,  2.8059e-05],
+        [ 9.5844e-05,  3.7581e-05,  2.8685e-05,  ...,  2.2396e-05,
+          2.3127e-05,  2.2218e-05]], device='cuda:0')
+Epoch 18, bias, value: tensor([ 0.0695, -0.0026, -0.0400, -0.0562,  0.0168, -0.0193,  0.0248],
+       device='cuda:0'), grad: tensor([ 4.9210e-04,  5.8699e-04, -1.9394e-02,  6.0976e-05,  1.7654e-02,
+         3.9959e-04,  2.0039e-04], device='cuda:0')
+588
+0.008613974319136962
+changing lr
+epoch 17, time 783.23, cls_loss 0.0016 cls_loss_mapping 0.0270 cls_loss_causal 0.4554 re_mapping 0.0189 re_causal 0.0304 /// teacc 93.97 lr 0.00845531
+Epoch 19, weight, value: tensor([[-0.0932, -0.1060, -0.1708,  ...,  0.0371,  0.0790,  0.0587],
+        [ 0.2853,  0.2510,  0.3015,  ...,  0.0449,  0.0502,  0.0322],
+        [-0.0712, -0.0805, -0.0969,  ..., -0.0709, -0.0929, -0.0964],
+        ...,
+        [-0.2919, -0.2689, -0.2341,  ..., -0.0153, -0.0126, -0.0070],
+        [ 0.1086,  0.1144,  0.1350,  ..., -0.0795, -0.0721, -0.0792],
+        [ 0.0551,  0.0500,  0.0483,  ..., -0.0118, -0.0175, -0.0057]],
+       device='cuda:0'), grad: tensor([[-6.6340e-05, -2.0504e-05, -1.5438e-05,  ..., -1.8775e-05,
+         -2.3022e-05, -1.7628e-05],
+        [ 9.1046e-06,  2.7250e-06,  1.8775e-06,  ...,  2.8554e-06,
+          3.0827e-06,  2.4457e-06],
+        [ 3.9130e-05,  1.0230e-05,  5.1521e-06,  ...,  1.1802e-05,
+          1.3918e-05,  1.1459e-05],
+        ...,
+        [-1.9446e-05, -3.7737e-06,  2.7474e-08,  ..., -6.3181e-06,
+         -6.9141e-06, -6.2250e-06],
+        [ 6.3255e-06,  1.8487e-06,  1.2461e-06,  ...,  1.9111e-06,
+          2.1514e-06,  1.7406e-06],
+        [ 2.5466e-05,  7.8455e-06,  5.9605e-06,  ...,  7.0967e-06,
+          8.9630e-06,  6.8583e-06]], device='cuda:0')
+Epoch 19, bias, value: tensor([ 0.0694, -0.0055, -0.0364, -0.0572,  0.0192, -0.0211,  0.0248],
+       device='cuda:0'), grad: tensor([-1.4925e-04,  2.1026e-05,  9.8705e-05,  1.3396e-05, -5.6416e-05,
+         1.4968e-05,  5.7429e-05], device='cuda:0')
+588
+0.008455313244934327
+changing lr
+epoch 18, time 784.05, cls_loss 0.0034 cls_loss_mapping 0.0282 cls_loss_causal 0.4894 re_mapping 0.0180 re_causal 0.0308 /// teacc 93.97 lr 0.00828969
+Epoch 20, weight, value: tensor([[-0.0906, -0.1053, -0.1686,  ...,  0.0369,  0.0781,  0.0583],
+        [ 0.2827,  0.2493,  0.2987,  ...,  0.0441,  0.0491,  0.0316],
+        [-0.0706, -0.0802, -0.0965,  ..., -0.0704, -0.0921, -0.0955],
+        ...,
+        [-0.2892, -0.2655, -0.2317,  ..., -0.0156, -0.0129, -0.0076],
+        [ 0.1067,  0.1132,  0.1336,  ..., -0.0780, -0.0709, -0.0778],
+        [ 0.0528,  0.0484,  0.0469,  ..., -0.0122, -0.0178, -0.0063]],
+       device='cuda:0'), grad: tensor([[-5.7280e-05,  1.3441e-05,  2.3514e-05,  ..., -6.1333e-05,
+         -7.1764e-05, -6.0350e-05],
+        [ 3.2949e-04,  2.2340e-04,  2.0254e-04,  ...,  2.7671e-05,
+          3.7760e-05,  2.9266e-05],
+        [ 5.2840e-05,  2.3499e-05,  1.8448e-05,  ...,  1.8016e-05,
+          2.1964e-05,  1.8463e-05],
+        ...,
+        [ 1.2321e-03,  8.5735e-04,  7.7248e-04,  ...,  1.0759e-04,
+          1.6880e-04,  1.3793e-04],
+        [-2.7237e-03, -1.9026e-03, -1.7233e-03,  ..., -2.0909e-04,
+         -3.2377e-04, -2.5988e-04],
+        [ 4.9543e-04,  3.3903e-04,  3.0684e-04,  ...,  4.2081e-05,
+          6.0827e-05,  4.8190e-05]], device='cuda:0')
+Epoch 20, bias, value: tensor([ 0.0739, -0.0047, -0.0337, -0.0556,  0.0157, -0.0240,  0.0219],
+       device='cuda:0'), grad: tensor([-0.0003,  0.0004,  0.0001,  0.0008,  0.0012, -0.0027,  0.0005],
+       device='cuda:0')
+588
+0.008289693629698565
+changing lr
+epoch 19, time 784.24, cls_loss 0.0016 cls_loss_mapping 0.0202 cls_loss_causal 0.4631 re_mapping 0.0153 re_causal 0.0277 /// teacc 92.21 lr 0.00811745
+Epoch 21, weight, value: tensor([[-0.0907, -0.1054, -0.1672,  ...,  0.0355,  0.0760,  0.0565],
+        [ 0.2816,  0.2481,  0.2962,  ...,  0.0442,  0.0493,  0.0321],
+        [-0.0731, -0.0815, -0.0975,  ..., -0.0708, -0.0925, -0.0955],
+        ...,
+        [-0.2854, -0.2619, -0.2291,  ..., -0.0157, -0.0134, -0.0080],
+        [ 0.1064,  0.1128,  0.1328,  ..., -0.0764, -0.0694, -0.0761],
+        [ 0.0508,  0.0468,  0.0455,  ..., -0.0126, -0.0182, -0.0068]],
+       device='cuda:0'), grad: tensor([[-5.0402e-04, -1.3399e-04, -6.7711e-05,  ..., -1.0961e-04,
+         -1.3840e-04, -1.1963e-04],
+        [ 2.2531e-04,  7.9691e-05,  5.1290e-05,  ...,  6.3121e-05,
+          7.5698e-05,  6.9797e-05],
+        [-4.8375e-04, -2.2137e-04, -1.7023e-04,  ..., -1.6260e-04,
+         -1.9073e-04, -1.8334e-04],
+        ...,
+        [ 4.2701e-04,  1.5950e-04,  1.0848e-04,  ...,  1.1283e-04,
+          1.3638e-04,  1.2875e-04],
+        [ 4.9263e-05,  1.5363e-05,  1.0908e-05,  ...,  1.3426e-05,
+          1.7136e-05,  1.4856e-05],
+        [ 9.1434e-05,  2.9832e-05,  1.6481e-05,  ...,  2.1935e-05,
+          2.6092e-05,  2.2903e-05]], device='cuda:0')
+Epoch 21, bias, value: tensor([ 0.0742, -0.0014, -0.0364, -0.0531,  0.0146, -0.0242,  0.0199],
+       device='cuda:0'), grad: tensor([-0.0013,  0.0005, -0.0008,  0.0004,  0.0009,  0.0001,  0.0002],
+       device='cuda:0')
+588
+0.00811744900929367
+changing lr
+epoch 20, time 781.25, cls_loss 0.0016 cls_loss_mapping 0.0238 cls_loss_causal 0.4656 re_mapping 0.0142 re_causal 0.0270 /// teacc 93.72 lr 0.00793893
+Epoch 22, weight, value: tensor([[-0.0905, -0.1050, -0.1653,  ...,  0.0352,  0.0754,  0.0560],
+        [ 0.2779,  0.2455,  0.2927,  ...,  0.0435,  0.0485,  0.0317],
+        [-0.0696, -0.0799, -0.0961,  ..., -0.0688, -0.0903, -0.0933],
+        ...,
+        [-0.2810, -0.2585, -0.2269,  ..., -0.0164, -0.0143, -0.0088],
+        [ 0.1060,  0.1125,  0.1321,  ..., -0.0749, -0.0680, -0.0746],
+        [ 0.0503,  0.0465,  0.0453,  ..., -0.0128, -0.0184, -0.0072]],
+       device='cuda:0'), grad: tensor([[ 1.1024e-03,  1.7571e-04,  2.6654e-06,  ...,  1.3304e-04,
+          1.4126e-04,  9.6440e-05],
+        [ 4.5240e-05,  1.0446e-05,  6.2324e-06,  ...,  9.6932e-06,
+          9.9763e-06,  7.6108e-06],
+        [ 1.4460e-04,  2.7388e-05,  6.2995e-06,  ...,  2.1040e-05,
+          2.2888e-05,  1.6823e-05],
+        ...,
+        [-1.3838e-03, -2.3115e-04, -2.0191e-05,  ..., -1.7822e-04,
+         -1.8954e-04, -1.3220e-04],
+        [ 3.8713e-05,  7.9274e-06,  3.2261e-06,  ...,  6.7167e-06,
+          7.0482e-06,  5.2378e-06],
+        [ 4.1366e-05,  7.4916e-06,  1.3122e-06,  ...,  5.8711e-06,
+          6.3404e-06,  4.6156e-06]], device='cuda:0')
+Epoch 22, bias, value: tensor([ 0.0737, -0.0015, -0.0287, -0.0590,  0.0157, -0.0245,  0.0181],
+       device='cuda:0'), grad: tensor([ 3.0155e-03,  1.3125e-04,  3.9840e-04,  3.5793e-05, -3.8013e-03,
+         1.0926e-04,  1.1390e-04], device='cuda:0')
+588
+0.007938926261462368
+changing lr
+epoch 21, time 782.38, cls_loss 0.0015 cls_loss_mapping 0.0242 cls_loss_causal 0.4788 re_mapping 0.0139 re_causal 0.0263 /// teacc 93.47 lr 0.00775448
+Epoch 23, weight, value: tensor([[-0.0903, -0.1048, -0.1638,  ...,  0.0347,  0.0743,  0.0550],
+        [ 0.2745,  0.2426,  0.2889,  ...,  0.0427,  0.0479,  0.0315],
+        [-0.0698, -0.0793, -0.0952,  ..., -0.0680, -0.0893, -0.0923],
+        ...,
+        [-0.2765, -0.2548, -0.2240,  ..., -0.0165, -0.0147, -0.0092],
+        [ 0.1057,  0.1121,  0.1314,  ..., -0.0736, -0.0669, -0.0733],
+        [ 0.0496,  0.0458,  0.0445,  ..., -0.0126, -0.0181, -0.0071]],
+       device='cuda:0'), grad: tensor([[-3.3379e-04, -5.0217e-05,  6.4960e-07,  ..., -7.9572e-05,
+         -8.9288e-05, -7.8738e-05],
+        [ 6.7651e-05,  1.6302e-05,  5.7444e-06,  ...,  1.6719e-05,
+          1.8090e-05,  1.6406e-05],
+        [ 2.9877e-05,  2.6990e-06, -2.5518e-06,  ...,  7.1749e-06,
+          8.9183e-06,  7.8976e-06],
+        ...,
+        [ 1.4472e-04,  1.4268e-05, -5.7854e-06,  ...,  3.6836e-05,
+          4.1395e-05,  3.6150e-05],
+        [ 2.5228e-05,  4.8280e-06,  9.1037e-07,  ...,  5.8971e-06,
+          6.5528e-06,  5.8413e-06],
+        [ 4.7833e-05,  9.7379e-06,  1.9241e-06,  ...,  1.0654e-05,
+          1.1787e-05,  1.0490e-05]], device='cuda:0')
+Epoch 23, bias, value: tensor([ 0.0737, -0.0002, -0.0307, -0.0591,  0.0165, -0.0243,  0.0180],
+       device='cuda:0'), grad: tensor([-9.7656e-04,  1.7679e-04,  9.5427e-05,  5.5522e-05,  4.4632e-04,
+         7.0810e-05,  1.3161e-04], device='cuda:0')
+588
+0.007754484907260515
+changing lr
+---------------------saving model at epoch 22----------------------------------------------------
+epoch 22, time 785.57, cls_loss 0.0022 cls_loss_mapping 0.0237 cls_loss_causal 0.4663 re_mapping 0.0132 re_causal 0.0264 /// teacc 94.22 lr 0.00756450
+Epoch 24, weight, value: tensor([[-0.0925, -0.1062, -0.1638,  ...,  0.0340,  0.0733,  0.0542],
+        [ 0.2716,  0.2406,  0.2860,  ...,  0.0418,  0.0469,  0.0308],
+        [-0.0699, -0.0791, -0.0948,  ..., -0.0674, -0.0885, -0.0913],
+        ...,
+        [-0.2725, -0.2517, -0.2217,  ..., -0.0163, -0.0150, -0.0094],
+        [ 0.1059,  0.1125,  0.1314,  ..., -0.0726, -0.0660, -0.0722],
+        [ 0.0495,  0.0454,  0.0441,  ..., -0.0128, -0.0183, -0.0074]],
+       device='cuda:0'), grad: tensor([[-5.5552e-05, -1.0900e-05, -6.4932e-06,  ..., -3.2425e-05,
+         -3.6955e-05, -3.3021e-05],
+        [ 1.9073e-05,  4.8093e-06,  2.3395e-06,  ...,  9.2834e-06,
+          9.8944e-06,  9.1344e-06],
+        [ 9.9659e-05,  1.9118e-05,  5.3756e-06,  ...,  2.0966e-05,
+          2.7210e-05,  2.2233e-05],
+        ...,
+        [-1.1027e-04, -1.6630e-05,  3.1432e-09,  ..., -1.2614e-05,
+         -1.9699e-05, -1.4253e-05],
+        [ 1.2137e-05,  2.8312e-06,  1.2452e-06,  ...,  3.2634e-06,
+          3.9898e-06,  3.3993e-06],
+        [ 5.4151e-05,  1.5765e-05,  1.0066e-05,  ...,  2.6867e-05,
+          2.9981e-05,  2.7239e-05]], device='cuda:0')
+Epoch 24, bias, value: tensor([ 0.0723, -0.0003, -0.0308, -0.0574,  0.0175, -0.0252,  0.0180],
+       device='cuda:0'), grad: tensor([-1.6594e-04,  5.0187e-05,  2.9349e-04, -5.8934e-06, -3.4261e-04,
+         3.3677e-05,  1.3709e-04], device='cuda:0')
+588
+0.007564496387029534
+changing lr
+epoch 23, time 777.39, cls_loss 0.0027 cls_loss_mapping 0.0201 cls_loss_causal 0.4614 re_mapping 0.0129 re_causal 0.0259 /// teacc 93.47 lr 0.00736934
+Epoch 25, weight, value: tensor([[-0.0925, -0.1067, -0.1631,  ...,  0.0337,  0.0723,  0.0535],
+        [ 0.2693,  0.2389,  0.2835,  ...,  0.0412,  0.0462,  0.0305],
+        [-0.0700, -0.0792, -0.0949,  ..., -0.0671, -0.0880, -0.0907],
+        ...,
+        [-0.2701, -0.2491, -0.2198,  ..., -0.0171, -0.0159, -0.0104],
+        [ 0.1053,  0.1119,  0.1304,  ..., -0.0713, -0.0648, -0.0709],
+        [ 0.0499,  0.0458,  0.0444,  ..., -0.0126, -0.0178, -0.0072]],
+       device='cuda:0'), grad: tensor([[ 1.6289e-03,  8.6451e-04,  7.7534e-04,  ...,  1.5330e-04,
+          1.7023e-04,  1.8120e-04],
+        [-1.7748e-03, -9.5940e-04, -8.6403e-04,  ..., -1.7333e-04,
+         -1.8895e-04, -1.9956e-04],
+        [ 1.9670e-04,  8.6963e-05,  6.9618e-05,  ...,  3.5405e-05,
+          4.6581e-05,  4.5359e-05],
+        ...,
+        [-7.8082e-06,  2.1253e-06,  4.8913e-06,  ..., -2.8498e-06,
+         -3.9488e-06, -3.4459e-06],
+        [ 2.2471e-05,  1.1474e-05,  9.8199e-06,  ...,  3.4980e-06,
+          4.1015e-06,  4.0047e-06],
+        [-2.1005e-04, -7.8499e-05, -5.6773e-05,  ..., -4.1306e-05,
+         -5.8591e-05, -5.7042e-05]], device='cuda:0')
+Epoch 25, bias, value: tensor([ 0.0732,  0.0002, -0.0302, -0.0569,  0.0154, -0.0257,  0.0180],
+       device='cuda:0'), grad: tensor([ 2.4300e-03, -2.6035e-03,  3.6573e-04,  2.3913e-04, -3.2187e-05,
+         3.6359e-05, -4.3821e-04], device='cuda:0')
+588
+0.007369343312364995
+changing lr
+---------------------saving model at epoch 24----------------------------------------------------
+epoch 24, time 784.29, cls_loss 0.0012 cls_loss_mapping 0.0202 cls_loss_causal 0.4193 re_mapping 0.0118 re_causal 0.0243 /// teacc 94.47 lr 0.00716942
+Epoch 26, weight, value: tensor([[-0.0932, -0.1077, -0.1631,  ...,  0.0334,  0.0712,  0.0527],
+        [ 0.2674,  0.2375,  0.2814,  ...,  0.0404,  0.0455,  0.0301],
+        [-0.0683, -0.0774, -0.0932,  ..., -0.0662, -0.0869, -0.0895],
+        ...,
+        [-0.2676, -0.2463, -0.2176,  ..., -0.0174, -0.0161, -0.0108],
+        [ 0.1044,  0.1111,  0.1293,  ..., -0.0700, -0.0637, -0.0696],
+        [ 0.0503,  0.0456,  0.0441,  ..., -0.0123, -0.0174, -0.0070]],
+       device='cuda:0'), grad: tensor([[ 6.6757e-04,  3.2020e-04,  2.6894e-04,  ...,  2.1827e-04,
+          2.4021e-04,  2.2185e-04],
+        [-1.0004e-03, -5.3501e-04, -4.6778e-04,  ..., -3.1519e-04,
+         -3.4690e-04, -3.2616e-04],
+        [-1.9267e-05,  1.4506e-05,  2.4095e-05,  ..., -2.6450e-05,
+         -2.3142e-05, -1.8403e-05],
+        ...,
+        [-4.3333e-05,  1.7703e-05,  2.6360e-05,  ..., -1.3717e-05,
+         -1.7226e-05, -1.2234e-05],
+        [ 6.3777e-05,  2.9311e-05,  2.4229e-05,  ...,  1.6570e-05,
+          1.8924e-05,  1.7494e-05],
+        [ 7.4208e-05,  3.5852e-05,  2.9847e-05,  ...,  2.6062e-05,
+          2.8253e-05,  2.6092e-05]], device='cuda:0')
+Epoch 26, bias, value: tensor([ 0.0744,  0.0013, -0.0292, -0.0586,  0.0133, -0.0262,  0.0192],
+       device='cuda:0'), grad: tensor([ 0.0012, -0.0016, -0.0001,  0.0005, -0.0002,  0.0001,  0.0001],
+       device='cuda:0')
+588
+0.0071694186955877925
+changing lr
+epoch 25, time 783.09, cls_loss 0.0015 cls_loss_mapping 0.0195 cls_loss_causal 0.4439 re_mapping 0.0110 re_causal 0.0235 /// teacc 93.47 lr 0.00696513
+Epoch 27, weight, value: tensor([[-0.0931, -0.1077, -0.1622,  ...,  0.0328,  0.0699,  0.0516],
+        [ 0.2649,  0.2359,  0.2791,  ...,  0.0397,  0.0447,  0.0297],
+        [-0.0692, -0.0773, -0.0928,  ..., -0.0659, -0.0865, -0.0889],
+        ...,
+        [-0.2623, -0.2428, -0.2149,  ..., -0.0172, -0.0158, -0.0106],
+        [ 0.1036,  0.1106,  0.1287,  ..., -0.0688, -0.0627, -0.0684],
+        [ 0.0495,  0.0446,  0.0431,  ..., -0.0125, -0.0172, -0.0071]],
+       device='cuda:0'), grad: tensor([[ 3.4404e-04,  1.6963e-04,  1.5175e-04,  ...,  1.0163e-04,
+          1.0586e-04,  1.0747e-04],
+        [-5.7697e-04, -3.1424e-04, -2.8729e-04,  ..., -1.5736e-04,
+         -1.6725e-04, -1.6594e-04],
+        [ 3.3212e-04,  1.7452e-04,  1.7071e-04,  ...,  6.0886e-05,
+          7.8261e-05,  7.0035e-05],
+        ...,
+        [ 1.9908e-04,  1.4424e-04,  1.3816e-04,  ...,  9.4175e-06,
+          1.3933e-05,  1.1228e-05],
+        [-3.2783e-04, -2.2471e-04, -2.1291e-04,  ..., -1.0632e-05,
+         -2.0429e-05, -1.5661e-05],
+        [ 2.5725e-04,  1.6308e-04,  1.5402e-04,  ...,  3.9935e-05,
+          4.8101e-05,  4.3929e-05]], device='cuda:0')
+Epoch 27, bias, value: tensor([ 0.0737,  0.0005, -0.0319, -0.0594,  0.0191, -0.0274,  0.0198],
+       device='cuda:0'), grad: tensor([ 0.0006, -0.0010,  0.0005, -0.0004,  0.0002, -0.0004,  0.0003],
+       device='cuda:0')
+588
+0.0069651251582696205
+changing lr
+epoch 26, time 784.48, cls_loss 0.0016 cls_loss_mapping 0.0172 cls_loss_causal 0.4328 re_mapping 0.0104 re_causal 0.0226 /// teacc 93.97 lr 0.00675687
+Epoch 28, weight, value: tensor([[-0.0910, -0.1079, -0.1617,  ...,  0.0331,  0.0699,  0.0515],
+        [ 0.2612,  0.2333,  0.2757,  ...,  0.0386,  0.0434,  0.0288],
+        [-0.0675, -0.0760, -0.0914,  ..., -0.0651, -0.0857, -0.0879],
+        ...,
+        [-0.2631, -0.2416, -0.2140,  ..., -0.0181, -0.0169, -0.0116],
+        [ 0.1059,  0.1122,  0.1298,  ..., -0.0674, -0.0613, -0.0670],
+        [ 0.0461,  0.0427,  0.0413,  ..., -0.0131, -0.0179, -0.0078]],
+       device='cuda:0'), grad: tensor([[-3.8624e-05, -1.5020e-05, -1.2144e-05,  ..., -9.7975e-06,
+         -1.0334e-05, -9.5740e-06],
+        [-5.6289e-06, -5.3123e-06, -4.6603e-06,  ..., -2.4913e-07,
+         -9.1316e-07, -1.0745e-07],
+        [ 2.4755e-06,  1.6652e-06,  1.5339e-06,  ...,  1.0310e-06,
+          1.1958e-06,  1.1399e-06],
+        ...,
+        [ 1.1645e-05,  7.1600e-06,  6.2920e-06,  ...,  3.0696e-06,
+          3.2298e-06,  2.7381e-06],
+        [ 1.0073e-05,  4.6119e-06,  3.8557e-06,  ...,  2.5518e-06,
+          2.8424e-06,  2.4885e-06],
+        [ 1.9416e-05,  8.2329e-06,  6.7055e-06,  ...,  4.7274e-06,
+          5.1372e-06,  4.5113e-06]], device='cuda:0')
+Epoch 28, bias, value: tensor([ 0.0811, -0.0006, -0.0296, -0.0574,  0.0113, -0.0252,  0.0148],
+       device='cuda:0'), grad: tensor([-7.1585e-05, -6.8471e-06,  1.1623e-06,  6.6198e-06,  1.5810e-05,
+         1.7777e-05,  3.6836e-05], device='cuda:0')
+588
+0.006756874120406716
+changing lr
+epoch 27, time 787.67, cls_loss 0.0018 cls_loss_mapping 0.0170 cls_loss_causal 0.4260 re_mapping 0.0104 re_causal 0.0233 /// teacc 93.47 lr 0.00654508
+Epoch 29, weight, value: tensor([[-0.0942, -0.1096, -0.1622,  ...,  0.0321,  0.0683,  0.0503],
+        [ 0.2606,  0.2329,  0.2746,  ...,  0.0384,  0.0432,  0.0288],
+        [-0.0668, -0.0750, -0.0904,  ..., -0.0651, -0.0855, -0.0877],
+        ...,
+        [-0.2580, -0.2385, -0.2116,  ..., -0.0175, -0.0162, -0.0111],
+        [ 0.1045,  0.1113,  0.1287,  ..., -0.0666, -0.0606, -0.0661],
+        [ 0.0453,  0.0417,  0.0403,  ..., -0.0128, -0.0175, -0.0077]],
+       device='cuda:0'), grad: tensor([[ 8.3017e-04,  4.9400e-04,  4.5729e-04,  ...,  2.7943e-04,
+          2.8706e-04,  2.5630e-04],
+        [-1.5125e-03, -9.4414e-04, -8.8310e-04,  ..., -5.1022e-04,
+         -5.1260e-04, -4.6444e-04],
+        [ 3.5524e-04,  2.2745e-04,  2.1183e-04,  ...,  1.2589e-04,
+          1.2755e-04,  1.1522e-04],
+        ...,
+        [-3.2544e-05,  1.2241e-05,  1.9267e-05,  ..., -1.0952e-05,
+         -2.1741e-05, -1.3456e-05],
+        [ 5.8740e-05,  3.1263e-05,  2.8178e-05,  ...,  1.9714e-05,
+          2.1145e-05,  1.8328e-05],
+        [ 9.6500e-05,  5.5939e-05,  5.1767e-05,  ...,  3.1322e-05,
+          3.2336e-05,  2.8819e-05]], device='cuda:0')
+Epoch 29, bias, value: tensor([ 0.0755,  0.0014, -0.0294, -0.0574,  0.0169, -0.0274,  0.0149],
+       device='cuda:0'), grad: tensor([ 1.1759e-03, -1.9722e-03,  4.3583e-04,  2.8968e-04, -1.6963e-04,
+         9.8050e-05,  1.4305e-04], device='cuda:0')
+588
+0.00654508497187474
+changing lr
+epoch 28, time 782.41, cls_loss 0.0013 cls_loss_mapping 0.0135 cls_loss_causal 0.4478 re_mapping 0.0099 re_causal 0.0232 /// teacc 91.21 lr 0.00633018
+Epoch 30, weight, value: tensor([[-0.0950, -0.1099, -0.1616,  ...,  0.0315,  0.0671,  0.0494],
+        [ 0.2588,  0.2313,  0.2725,  ...,  0.0379,  0.0427,  0.0286],
+        [-0.0667, -0.0745, -0.0898,  ..., -0.0645, -0.0848, -0.0869],
+        ...,
+        [-0.2561, -0.2372, -0.2107,  ..., -0.0176, -0.0163, -0.0113],
+        [ 0.1060,  0.1123,  0.1292,  ..., -0.0651, -0.0592, -0.0646],
+        [ 0.0453,  0.0416,  0.0400,  ..., -0.0128, -0.0174, -0.0078]],
+       device='cuda:0'), grad: tensor([[ 9.0420e-05,  5.4091e-05,  5.1469e-05,  ...,  3.5822e-05,
+          3.7998e-05,  3.6001e-05],
+        [ 1.0986e-03,  5.4789e-04,  5.0545e-04,  ...,  6.4230e-04,
+          6.7425e-04,  6.4564e-04],
+        [ 1.1692e-03,  6.7568e-04,  6.7043e-04,  ...,  3.3116e-04,
+          3.7360e-04,  3.4857e-04],
+        ...,
+        [-1.8664e-06, -8.3596e-06, -1.1399e-05,  ...,  1.2106e-04,
+          1.2374e-04,  1.2410e-04],
+        [ 1.3912e-04,  6.4492e-05,  6.0350e-05,  ...,  4.7445e-05,
+          5.1826e-05,  4.7833e-05],
+        [ 1.3411e-04,  6.7055e-05,  6.4194e-05,  ...,  5.7012e-05,
+          6.1929e-05,  5.8502e-05]], device='cuda:0')
+Epoch 30, bias, value: tensor([ 0.0736,  0.0026, -0.0302, -0.0588,  0.0181, -0.0259,  0.0152],
+       device='cuda:0'), grad: tensor([ 1.0484e-04,  1.8797e-03,  1.5717e-03, -4.0665e-03,  2.4527e-05,
+         2.5821e-04,  2.2674e-04], device='cuda:0')
+588
+0.006330184227833378
+changing lr
+epoch 29, time 787.30, cls_loss 0.0014 cls_loss_mapping 0.0155 cls_loss_causal 0.4136 re_mapping 0.0095 re_causal 0.0221 /// teacc 93.97 lr 0.00611260
+Epoch 31, weight, value: tensor([[-0.0945, -0.1099, -0.1608,  ...,  0.0311,  0.0662,  0.0486],
+        [ 0.2560,  0.2293,  0.2698,  ...,  0.0376,  0.0423,  0.0285],
+        [-0.0661, -0.0739, -0.0889,  ..., -0.0641, -0.0843, -0.0863],
+        ...,
+        [-0.2531, -0.2351, -0.2093,  ..., -0.0175, -0.0162, -0.0112],
+        [ 0.1062,  0.1128,  0.1296,  ..., -0.0643, -0.0583, -0.0638],
+        [ 0.0436,  0.0405,  0.0390,  ..., -0.0130, -0.0176, -0.0081]],
+       device='cuda:0'), grad: tensor([[ 2.4152e-04,  9.8050e-05,  9.0122e-05,  ...,  5.9277e-05,
+          5.1796e-05,  5.5343e-05],
+        [ 3.0547e-05, -5.6960e-06, -9.4920e-06,  ...,  3.0510e-06,
+          5.8264e-06,  7.0110e-06],
+        [-1.3351e-04, -4.4465e-05, -3.5226e-05,  ..., -7.9349e-06,
+         -2.6718e-05, -2.6569e-05],
+        ...,
+        [-1.4198e-04,  2.9847e-05,  4.0114e-05,  ..., -1.0359e-04,
+         -7.9453e-05, -8.3447e-05],
+        [-1.0366e-03, -7.8630e-04, -7.5960e-04,  ..., -1.0937e-05,
+         -3.3736e-05, -2.6807e-05],
+        [ 6.4993e-04,  4.7135e-04,  4.5252e-04,  ...,  2.2724e-05,
+          3.6240e-05,  3.1263e-05]], device='cuda:0')
+Epoch 31, bias, value: tensor([ 0.0748,  0.0023, -0.0298, -0.0585,  0.0201, -0.0268,  0.0126],
+       device='cuda:0'), grad: tensor([ 0.0005,  0.0001, -0.0003,  0.0005, -0.0006, -0.0008,  0.0006],
+       device='cuda:0')
+588
+0.006112604669781575
+changing lr
+epoch 30, time 777.64, cls_loss 0.0009 cls_loss_mapping 0.0130 cls_loss_causal 0.4182 re_mapping 0.0090 re_causal 0.0209 /// teacc 93.47 lr 0.00589278
+Epoch 32, weight, value: tensor([[-0.0958, -0.1103, -0.1603,  ...,  0.0302,  0.0649,  0.0475],
+        [ 0.2544,  0.2283,  0.2682,  ...,  0.0371,  0.0417,  0.0282],
+        [-0.0650, -0.0733, -0.0882,  ..., -0.0639, -0.0838, -0.0857],
+        ...,
+        [-0.2512, -0.2333, -0.2080,  ..., -0.0174, -0.0163, -0.0112],
+        [ 0.1061,  0.1126,  0.1292,  ..., -0.0635, -0.0577, -0.0630],
+        [ 0.0430,  0.0400,  0.0383,  ..., -0.0130, -0.0174, -0.0082]],
+       device='cuda:0'), grad: tensor([[-1.7881e-04, -3.1769e-05, -8.3894e-06,  ..., -7.2002e-05,
+         -8.5115e-05, -8.2433e-05],
+        [ 1.2219e-05, -2.5169e-07, -2.0284e-06,  ...,  3.5614e-06,
+          4.0829e-06,  4.0829e-06],
+        [ 1.1176e-05,  1.0207e-06, -4.6985e-07,  ...,  6.5155e-06,
+          9.6485e-06,  8.7246e-06],
+        ...,
+        [ 6.4254e-05,  1.0289e-05,  5.6461e-09,  ...,  2.7999e-05,
+          3.2693e-05,  3.2157e-05],
+        [ 1.6838e-05,  4.7274e-06,  3.0529e-06,  ...,  5.6140e-06,
+          6.5491e-06,  6.3069e-06],
+        [-3.6824e-06, -6.1244e-06, -6.4969e-06,  ...,  1.8412e-06,
+          2.0638e-06,  1.9595e-06]], device='cuda:0')
+Epoch 32, bias, value: tensor([ 0.0717,  0.0021, -0.0272, -0.0570,  0.0196, -0.0265,  0.0121],
+       device='cuda:0'), grad: tensor([-5.0974e-04,  4.3571e-05,  3.6329e-05,  1.9956e-04,  1.7917e-04,
+         4.3243e-05,  7.9870e-06], device='cuda:0')
+588
+0.005892784473993186
+changing lr
+epoch 31, time 786.99, cls_loss 0.0010 cls_loss_mapping 0.0126 cls_loss_causal 0.4029 re_mapping 0.0085 re_causal 0.0205 /// teacc 93.22 lr 0.00567117
+Epoch 33, weight, value: tensor([[-0.0957, -0.1104, -0.1598,  ...,  0.0300,  0.0642,  0.0470],
+        [ 0.2545,  0.2280,  0.2673,  ...,  0.0368,  0.0416,  0.0282],
+        [-0.0660, -0.0741, -0.0889,  ..., -0.0638, -0.0835, -0.0854],
+        ...,
+        [-0.2500, -0.2317, -0.2068,  ..., -0.0176, -0.0166, -0.0116],
+        [ 0.1066,  0.1130,  0.1294,  ..., -0.0625, -0.0568, -0.0620],
+        [ 0.0430,  0.0399,  0.0383,  ..., -0.0131, -0.0175, -0.0083]],
+       device='cuda:0'), grad: tensor([[-3.7479e-04, -1.0264e-04, -5.4061e-05,  ..., -1.2934e-04,
+         -1.5962e-04, -1.3351e-04],
+        [ 1.0926e-04,  3.0875e-05,  1.6913e-05,  ...,  3.5852e-05,
+          4.4197e-05,  3.7044e-05],
+        [ 2.6718e-05,  7.8008e-06,  4.3102e-06,  ...,  1.0461e-05,
+          1.2524e-05,  1.0684e-05],
+        ...,
+        [ 1.2136e-04,  3.4034e-05,  1.8865e-05,  ...,  4.2945e-05,
+          5.3167e-05,  4.4525e-05],
+        [ 3.9786e-05,  1.0602e-05,  5.4576e-06,  ...,  1.2681e-05,
+          1.5855e-05,  1.3150e-05],
+        [ 4.3809e-05,  1.2331e-05,  6.6198e-06,  ...,  1.6227e-05,
+          1.9699e-05,  1.6645e-05]], device='cuda:0')
+Epoch 33, bias, value: tensor([ 0.0725,  0.0054, -0.0270, -0.0588,  0.0172, -0.0261,  0.0118],
+       device='cuda:0'), grad: tensor([-9.7752e-04,  2.8324e-04,  6.5923e-05,  9.7632e-05,  3.1328e-04,
+         1.0639e-04,  1.1134e-04], device='cuda:0')
+588
+0.00567116632908828
+changing lr
+epoch 32, time 781.76, cls_loss 0.0009 cls_loss_mapping 0.0111 cls_loss_causal 0.3864 re_mapping 0.0085 re_causal 0.0203 /// teacc 93.22 lr 0.00544820
+Epoch 34, weight, value: tensor([[-0.0953, -0.1098, -0.1585,  ...,  0.0296,  0.0633,  0.0463],
+        [ 0.2515,  0.2261,  0.2648,  ...,  0.0359,  0.0406,  0.0274],
+        [-0.0654, -0.0735, -0.0881,  ..., -0.0632, -0.0828, -0.0845],
+        ...,
+        [-0.2463, -0.2292, -0.2048,  ..., -0.0172, -0.0161, -0.0112],
+        [ 0.1047,  0.1117,  0.1278,  ..., -0.0619, -0.0563, -0.0614],
+        [ 0.0430,  0.0396,  0.0380,  ..., -0.0131, -0.0174, -0.0084]],
+       device='cuda:0'), grad: tensor([[-3.1257e-04, -1.0788e-04, -1.1796e-04,  ..., -5.4955e-05,
+         -6.5863e-05, -4.9770e-05],
+        [ 1.6057e-04,  4.4435e-05,  3.5286e-05,  ...,  4.7147e-05,
+          5.1558e-05,  4.8280e-05],
+        [ 1.0710e-03,  1.9407e-04,  1.1021e-04,  ...,  3.2425e-04,
+          3.3426e-04,  3.2640e-04],
+        ...,
+        [-1.0185e-03, -1.4710e-04, -4.0054e-05,  ..., -3.3808e-04,
+         -3.4451e-04, -3.4618e-04],
+        [ 3.4362e-05,  8.6948e-06,  7.3947e-06,  ...,  8.5086e-06,
+          9.5740e-06,  8.5533e-06],
+        [ 4.0114e-05,  1.0327e-05,  8.5458e-06,  ...,  9.8795e-06,
+          1.1548e-05,  1.0200e-05]], device='cuda:0')
+Epoch 34, bias, value: tensor([ 0.0718,  0.0034, -0.0265, -0.0587,  0.0206, -0.0282,  0.0127],
+       device='cuda:0'), grad: tensor([-6.4993e-04,  4.1318e-04,  3.2349e-03,  1.0186e-04, -3.2940e-03,
+         8.9824e-05,  1.0437e-04], device='cuda:0')
+588
+0.00544819654451717
+changing lr
+epoch 33, time 786.81, cls_loss 0.0016 cls_loss_mapping 0.0138 cls_loss_causal 0.4062 re_mapping 0.0083 re_causal 0.0200 /// teacc 93.72 lr 0.00522432
+Epoch 35, weight, value: tensor([[-0.0950, -0.1096, -0.1576,  ...,  0.0291,  0.0624,  0.0456],
+        [ 0.2496,  0.2247,  0.2629,  ...,  0.0357,  0.0403,  0.0273],
+        [-0.0657, -0.0734, -0.0880,  ..., -0.0630, -0.0825, -0.0841],
+        ...,
+        [-0.2449, -0.2281, -0.2041,  ..., -0.0171, -0.0160, -0.0112],
+        [ 0.1066,  0.1127,  0.1286,  ..., -0.0610, -0.0554, -0.0604],
+        [ 0.0418,  0.0390,  0.0373,  ..., -0.0132, -0.0174, -0.0085]],
+       device='cuda:0'), grad: tensor([[ 7.8678e-05,  2.4125e-05,  1.5855e-05,  ...,  1.8612e-05,
+          1.6034e-05,  1.8910e-05],
+        [ 5.3018e-05,  1.6555e-05,  1.0923e-05,  ...,  1.3947e-05,
+          1.1861e-05,  1.3560e-05],
+        [ 3.6776e-05,  1.0327e-05,  6.2548e-06,  ...,  1.0982e-05,
+          9.8944e-06,  1.1176e-05],
+        ...,
+        [-4.6134e-04, -1.4389e-04, -9.5129e-05,  ..., -1.2058e-04,
+         -1.0270e-04, -1.1784e-04],
+        [ 1.1903e-04,  3.7104e-05,  2.4602e-05,  ...,  3.1441e-05,
+          2.6762e-05,  3.0667e-05],
+        [ 3.1680e-05,  9.9242e-06,  6.5863e-06,  ...,  8.6203e-06,
+          7.3425e-06,  8.3521e-06]], device='cuda:0')
+Epoch 35, bias, value: tensor([ 0.0719,  0.0029, -0.0268, -0.0584,  0.0200, -0.0249,  0.0105],
+       device='cuda:0'), grad: tensor([ 1.8919e-04,  1.2517e-04,  9.4056e-05,  3.2926e-04, -1.0948e-03,
+         2.8300e-04,  7.4983e-05], device='cuda:0')
+588
+0.005224324151752577
+changing lr
+epoch 34, time 788.36, cls_loss 0.0010 cls_loss_mapping 0.0114 cls_loss_causal 0.4279 re_mapping 0.0082 re_causal 0.0208 /// teacc 92.21 lr 0.00500000
+Epoch 36, weight, value: tensor([[-0.0944, -0.1094, -0.1567,  ...,  0.0292,  0.0622,  0.0455],
+        [ 0.2489,  0.2240,  0.2618,  ...,  0.0355,  0.0402,  0.0274],
+        [-0.0642, -0.0729, -0.0875,  ..., -0.0626, -0.0819, -0.0835],
+        ...,
+        [-0.2443, -0.2269, -0.2032,  ..., -0.0173, -0.0163, -0.0115],
+        [ 0.1058,  0.1124,  0.1281,  ..., -0.0607, -0.0553, -0.0602],
+        [ 0.0411,  0.0385,  0.0370,  ..., -0.0133, -0.0174, -0.0086]],
+       device='cuda:0'), grad: tensor([[ 3.0369e-05,  4.1686e-06,  1.3700e-06,  ...,  1.1645e-05,
+          1.3180e-05,  1.2532e-05],
+        [ 4.6372e-04,  2.4199e-04,  2.2376e-04,  ...,  1.7905e-04,
+          1.9515e-04,  1.8990e-04],
+        [ 6.3944e-04,  3.5572e-04,  3.3736e-04,  ...,  2.2244e-04,
+          2.4486e-04,  2.3806e-04],
+        ...,
+        [-2.5678e-04, -2.8476e-05, -6.0163e-06,  ..., -8.7380e-05,
+         -1.0180e-04, -9.4712e-05],
+        [-5.4538e-05, -4.6074e-05, -4.0442e-05,  ..., -1.2489e-06,
+         -1.8086e-06, -2.1346e-06],
+        [ 5.3406e-05,  3.3915e-05,  2.9311e-05,  ...,  9.1642e-06,
+          1.0468e-05,  1.0230e-05]], device='cuda:0')
+Epoch 36, bias, value: tensor([ 0.0732,  0.0045, -0.0225, -0.0599,  0.0171, -0.0265,  0.0094],
+       device='cuda:0'), grad: tensor([ 9.6619e-05,  7.7295e-04,  9.8133e-04, -1.0500e-03, -8.4162e-04,
+        -2.8640e-05,  6.9499e-05], device='cuda:0')
+588
+0.005000000000000003
+changing lr
+epoch 35, time 784.15, cls_loss 0.0008 cls_loss_mapping 0.0103 cls_loss_causal 0.4000 re_mapping 0.0078 re_causal 0.0196 /// teacc 94.47 lr 0.00477568
+Epoch 37, weight, value: tensor([[-0.0943, -0.1092, -0.1560,  ...,  0.0286,  0.0611,  0.0447],
+        [ 0.2470,  0.2227,  0.2600,  ...,  0.0350,  0.0397,  0.0270],
+        [-0.0640, -0.0725, -0.0870,  ..., -0.0623, -0.0815, -0.0830],
+        ...,
+        [-0.2424, -0.2254, -0.2022,  ..., -0.0172, -0.0162, -0.0114],
+        [ 0.1049,  0.1117,  0.1273,  ..., -0.0603, -0.0550, -0.0598],
+        [ 0.0405,  0.0380,  0.0365,  ..., -0.0135, -0.0176, -0.0089]],
+       device='cuda:0'), grad: tensor([[ 2.5749e-04,  6.3002e-05,  3.3140e-05,  ...,  9.3997e-05,
+          8.0764e-05,  8.1837e-05],
+        [-4.2468e-05, -3.8445e-05, -3.6210e-05,  ..., -1.3217e-05,
+         -1.4812e-05, -1.3486e-05],
+        [-2.6727e-04, -8.1241e-05, -4.2796e-05,  ..., -1.4842e-04,
+         -1.1343e-04, -1.1891e-04],
+        ...,
+        [-2.5702e-04, -3.8713e-05, -1.3314e-05,  ..., -4.9621e-05,
+         -5.5194e-05, -5.4419e-05],
+        [ 7.0095e-05,  1.1258e-05,  3.5018e-06,  ...,  1.5974e-05,
+          1.7226e-05,  1.7881e-05],
+        [ 4.5627e-05,  1.3471e-05,  8.6352e-06,  ...,  1.5035e-05,
+          1.4067e-05,  1.4104e-05]], device='cuda:0')
+Epoch 37, bias, value: tensor([ 0.0725,  0.0038, -0.0224, -0.0573,  0.0177, -0.0276,  0.0085],
+       device='cuda:0'), grad: tensor([ 6.5470e-04, -1.8090e-05, -6.0844e-04,  4.1199e-04, -7.5769e-04,
+         2.0742e-04,  1.1051e-04], device='cuda:0')
+588
+0.004775675848247429
+changing lr
+epoch 36, time 779.70, cls_loss 0.0008 cls_loss_mapping 0.0094 cls_loss_causal 0.4166 re_mapping 0.0075 re_causal 0.0197 /// teacc 93.22 lr 0.00455180
+Epoch 38, weight, value: tensor([[-0.0950, -0.1094, -0.1556,  ...,  0.0280,  0.0601,  0.0438],
+        [ 0.2470,  0.2225,  0.2594,  ...,  0.0350,  0.0397,  0.0272],
+        [-0.0644, -0.0727, -0.0869,  ..., -0.0623, -0.0813, -0.0827],
+        ...,
+        [-0.2408, -0.2241, -0.2012,  ..., -0.0172, -0.0164, -0.0115],
+        [ 0.1047,  0.1116,  0.1270,  ..., -0.0596, -0.0544, -0.0591],
+        [ 0.0405,  0.0378,  0.0363,  ..., -0.0135, -0.0174, -0.0088]],
+       device='cuda:0'), grad: tensor([[ 2.8133e-04,  1.6737e-04,  1.5581e-04,  ...,  8.6308e-05,
+          8.5950e-05,  8.3745e-05],
+        [-1.0338e-03, -6.2656e-04, -5.8079e-04,  ..., -3.2234e-04,
+         -3.1805e-04, -3.0947e-04],
+        [ 7.2050e-04,  3.7026e-04,  3.2830e-04,  ...,  2.6965e-04,
+          2.7084e-04,  2.6679e-04],
+        ...,
+        [ 2.1029e-04,  9.8705e-05,  8.5533e-05,  ...,  9.5487e-05,
+          9.6500e-05,  9.5129e-05],
+        [ 1.0371e-04,  5.8979e-05,  5.4002e-05,  ...,  3.2783e-05,
+          3.2812e-05,  3.2067e-05],
+        [ 1.5438e-04,  8.7798e-05,  7.9989e-05,  ...,  5.2989e-05,
+          5.2631e-05,  5.1528e-05]], device='cuda:0')
+Epoch 38, bias, value: tensor([ 0.0709,  0.0059, -0.0227, -0.0581,  0.0179, -0.0277,  0.0091],
+       device='cuda:0'), grad: tensor([ 0.0004, -0.0016,  0.0013, -0.0009,  0.0004,  0.0002,  0.0003],
+       device='cuda:0')
+588
+0.004551803455482836
+changing lr
+epoch 37, time 775.94, cls_loss 0.0007 cls_loss_mapping 0.0081 cls_loss_causal 0.4098 re_mapping 0.0072 re_causal 0.0189 /// teacc 93.47 lr 0.00432883
+Epoch 39, weight, value: tensor([[-0.0943, -0.1091, -0.1548,  ...,  0.0278,  0.0596,  0.0435],
+        [ 0.2452,  0.2213,  0.2577,  ...,  0.0346,  0.0393,  0.0269],
+        [-0.0641, -0.0724, -0.0865,  ..., -0.0621, -0.0809, -0.0823],
+        ...,
+        [-0.2387, -0.2225, -0.2000,  ..., -0.0173, -0.0165, -0.0117],
+        [ 0.1044,  0.1114,  0.1267,  ..., -0.0591, -0.0539, -0.0585],
+        [ 0.0400,  0.0374,  0.0358,  ..., -0.0136, -0.0175, -0.0090]],
+       device='cuda:0'), grad: tensor([[ 1.2234e-05, -2.5481e-06, -1.2654e-07,  ...,  7.1228e-06,
+          9.0897e-06,  7.6517e-06],
+        [ 2.0653e-05,  3.8557e-06,  1.0664e-06,  ...,  5.8673e-06,
+          7.1339e-06,  5.8860e-06],
+        [-9.2983e-05, -4.9472e-05, -3.7372e-05,  ..., -9.7230e-06,
+         -7.4841e-06, -7.2457e-06],
+        ...,
+        [-1.0264e-04, -8.2627e-06,  2.5867e-07,  ..., -4.2975e-05,
+         -5.5522e-05, -4.7594e-05],
+        [ 2.5004e-05,  5.2787e-06,  2.5723e-06,  ...,  8.2478e-06,
+          1.0408e-05,  8.9854e-06],
+        [ 3.2425e-05,  1.0610e-05,  6.4336e-06,  ...,  7.8827e-06,
+          9.5293e-06,  8.3074e-06]], device='cuda:0')
+Epoch 39, bias, value: tensor([ 0.0719,  0.0052, -0.0220, -0.0590,  0.0191, -0.0281,  0.0084],
+       device='cuda:0'), grad: tensor([ 5.7787e-05,  5.9575e-05, -1.3900e-04,  2.2423e-04, -3.5095e-04,
+         7.1526e-05,  7.6413e-05], device='cuda:0')
+588
+0.004328833670911726
+changing lr
+epoch 38, time 784.49, cls_loss 0.0009 cls_loss_mapping 0.0107 cls_loss_causal 0.3768 re_mapping 0.0071 re_causal 0.0182 /// teacc 93.47 lr 0.00410722
+Epoch 40, weight, value: tensor([[-0.0941, -0.1091, -0.1543,  ...,  0.0276,  0.0591,  0.0430],
+        [ 0.2440,  0.2204,  0.2564,  ...,  0.0344,  0.0391,  0.0268],
+        [-0.0645, -0.0725, -0.0865,  ..., -0.0621, -0.0809, -0.0822],
+        ...,
+        [-0.2372, -0.2211, -0.1989,  ..., -0.0171, -0.0164, -0.0116],
+        [ 0.1047,  0.1114,  0.1266,  ..., -0.0585, -0.0533, -0.0579],
+        [ 0.0392,  0.0369,  0.0353,  ..., -0.0137, -0.0175, -0.0091]],
+       device='cuda:0'), grad: tensor([[ 9.7096e-05,  9.8646e-05,  1.0026e-04,  ...,  1.2271e-05,
+          1.5959e-05,  1.0937e-05],
+        [-2.9489e-05,  5.1498e-05,  4.5955e-05,  ..., -1.8001e-04,
+         -1.9634e-04, -1.8787e-04],
+        [ 5.7745e-04,  2.9302e-04,  2.8849e-04,  ...,  2.5678e-04,
+          2.7299e-04,  2.6202e-04],
+        ...,
+        [ 5.5933e-04,  3.7813e-04,  3.7217e-04,  ...,  9.0182e-05,
+          8.9288e-05,  8.9407e-05],
+        [-1.3695e-03, -9.8991e-04, -9.7179e-04,  ..., -9.5427e-05,
+         -8.1360e-05, -8.7738e-05],
+        [ 1.2732e-04,  9.3222e-05,  9.1851e-05,  ...,  1.2018e-05,
+          1.1064e-05,  1.1325e-05]], device='cuda:0')
+Epoch 40, bias, value: tensor([ 0.0726,  0.0053, -0.0227, -0.0585,  0.0188, -0.0274,  0.0074],
+       device='cuda:0'), grad: tensor([-4.2170e-05, -3.4165e-04,  1.0271e-03, -1.2577e-04,  6.2037e-04,
+        -1.2465e-03,  1.0931e-04], device='cuda:0')
+588
+0.0041072155260068206
+changing lr
+epoch 39, time 782.01, cls_loss 0.0009 cls_loss_mapping 0.0088 cls_loss_causal 0.4045 re_mapping 0.0069 re_causal 0.0178 /// teacc 93.97 lr 0.00388740
+Epoch 41, weight, value: tensor([[-0.0943, -0.1093, -0.1541,  ...,  0.0272,  0.0584,  0.0424],
+        [ 0.2439,  0.2202,  0.2557,  ...,  0.0342,  0.0388,  0.0267],
+        [-0.0636, -0.0721, -0.0860,  ..., -0.0618, -0.0804, -0.0817],
+        ...,
+        [-0.2365, -0.2203, -0.1983,  ..., -0.0171, -0.0165, -0.0117],
+        [ 0.1047,  0.1115,  0.1265,  ..., -0.0580, -0.0529, -0.0574],
+        [ 0.0383,  0.0363,  0.0347,  ..., -0.0137, -0.0175, -0.0092]],
+       device='cuda:0'), grad: tensor([[ 2.4867e-04,  1.1575e-04,  7.6890e-05,  ...,  8.9705e-05,
+          7.6592e-05,  8.2135e-05],
+        [ 2.8443e-04,  9.6500e-05,  4.0561e-05,  ...,  1.0222e-04,
+          9.0897e-05,  9.7454e-05],
+        [-7.4863e-04, -3.1734e-04, -1.9884e-04,  ..., -2.7394e-04,
+         -2.1338e-04, -2.3150e-04],
+        ...,
+        [-3.0756e-04, -1.2153e-04, -8.8871e-05,  ..., -6.4611e-05,
+         -9.6679e-05, -9.0182e-05],
+        [ 1.2326e-04,  5.1200e-05,  3.6359e-05,  ...,  3.2485e-05,
+          3.6359e-05,  3.5733e-05],
+        [ 1.5604e-04,  6.8247e-05,  4.7863e-05,  ...,  4.7207e-05,
+          4.4048e-05,  4.5091e-05]], device='cuda:0')
+Epoch 41, bias, value: tensor([ 0.0724,  0.0070, -0.0205, -0.0598,  0.0176, -0.0278,  0.0067],
+       device='cuda:0'), grad: tensor([ 0.0005,  0.0006, -0.0014,  0.0005, -0.0007,  0.0003,  0.0003],
+       device='cuda:0')
+588
+0.0038873953302184317
+changing lr
+epoch 40, time 784.45, cls_loss 0.0007 cls_loss_mapping 0.0081 cls_loss_causal 0.3746 re_mapping 0.0068 re_causal 0.0167 /// teacc 93.72 lr 0.00366982
+Epoch 42, weight, value: tensor([[-0.0939, -0.1090, -0.1533,  ...,  0.0269,  0.0578,  0.0420],
+        [ 0.2415,  0.2186,  0.2539,  ...,  0.0337,  0.0383,  0.0263],
+        [-0.0639, -0.0721, -0.0860,  ..., -0.0617, -0.0803, -0.0816],
+        ...,
+        [-0.2352, -0.2192, -0.1975,  ..., -0.0172, -0.0167, -0.0118],
+        [ 0.1048,  0.1115,  0.1263,  ..., -0.0575, -0.0524, -0.0569],
+        [ 0.0390,  0.0366,  0.0349,  ..., -0.0136, -0.0172, -0.0090]],
+       device='cuda:0'), grad: tensor([[-7.7009e-05, -4.2282e-06,  2.4810e-06,  ..., -4.7326e-05,
+         -5.2571e-05, -4.8190e-05],
+        [-9.6500e-05, -9.1612e-05, -8.8453e-05,  ...,  1.2748e-05,
+          9.9018e-06,  9.6783e-06],
+        [ 3.0492e-06, -1.2167e-05, -1.5259e-05,  ...,  7.4804e-06,
+          8.8289e-06,  8.7321e-06],
+        ...,
+        [ 6.4194e-05,  5.1707e-05,  4.8608e-05,  ...,  4.0047e-06,
+          5.0478e-06,  3.5167e-06],
+        [ 4.5717e-05,  2.8208e-05,  2.7463e-05,  ...,  7.7859e-06,
+          9.8199e-06,  8.8662e-06],
+        [-4.8764e-06, -4.0755e-06, -3.5353e-06,  ..., -4.3809e-06,
+         -3.9600e-06, -4.5821e-06]], device='cuda:0')
+Epoch 42, bias, value: tensor([ 0.0725,  0.0055, -0.0207, -0.0594,  0.0175, -0.0276,  0.0076],
+       device='cuda:0'), grad: tensor([-2.5010e-04, -2.9832e-05,  5.4538e-05,  1.1677e-04,  4.9055e-05,
+         6.1452e-05, -2.0377e-06], device='cuda:0')
+588
+0.003669815772166629
+changing lr
+epoch 41, time 785.42, cls_loss 0.0008 cls_loss_mapping 0.0086 cls_loss_causal 0.3795 re_mapping 0.0068 re_causal 0.0172 /// teacc 93.47 lr 0.00345492
+Epoch 43, weight, value: tensor([[-0.0945, -0.1091, -0.1530,  ...,  0.0265,  0.0571,  0.0414],
+        [ 0.2417,  0.2184,  0.2533,  ...,  0.0337,  0.0384,  0.0265],
+        [-0.0639, -0.0720, -0.0858,  ..., -0.0617, -0.0801, -0.0814],
+        ...,
+        [-0.2336, -0.2181, -0.1966,  ..., -0.0170, -0.0166, -0.0117],
+        [ 0.1039,  0.1109,  0.1257,  ..., -0.0571, -0.0521, -0.0565],
+        [ 0.0391,  0.0366,  0.0348,  ..., -0.0135, -0.0171, -0.0090]],
+       device='cuda:0'), grad: tensor([[-2.8759e-05, -3.9190e-06, -2.4792e-06,  ..., -1.1273e-05,
+         -1.5885e-05, -1.3143e-05],
+        [-2.1607e-05, -2.6926e-05, -2.3410e-05,  ..., -3.2067e-05,
+         -3.2812e-05, -3.1412e-05],
+        [-3.6907e-04, -1.4079e-04, -1.2422e-04,  ..., -7.2420e-05,
+         -9.6321e-05, -9.0182e-05],
+        ...,
+        [ 1.5509e-04,  7.0274e-05,  6.0767e-05,  ...,  4.3333e-05,
+          5.4598e-05,  5.1677e-05],
+        [ 4.4584e-05,  2.0862e-05,  1.7837e-05,  ...,  1.0572e-05,
+          1.3895e-05,  1.3337e-05],
+        [-9.7394e-05, -5.5313e-05, -4.6998e-05,  ..., -1.6689e-05,
+         -2.3067e-05, -2.4334e-05]], device='cuda:0')
+Epoch 43, bias, value: tensor([ 0.0706,  0.0078, -0.0209, -0.0599,  0.0187, -0.0288,  0.0080],
+       device='cuda:0'), grad: tensor([-9.0897e-05,  2.2352e-06, -6.7520e-04,  5.5695e-04,  2.7084e-04,
+         7.7784e-05, -1.4234e-04], device='cuda:0')
+588
+0.0034549150281252667
+changing lr
+epoch 42, time 781.37, cls_loss 0.0008 cls_loss_mapping 0.0091 cls_loss_causal 0.3906 re_mapping 0.0066 re_causal 0.0175 /// teacc 93.47 lr 0.00324313
+Epoch 44, weight, value: tensor([[-0.0937, -0.1090, -0.1526,  ...,  0.0266,  0.0569,  0.0413],
+        [ 0.2405,  0.2179,  0.2524,  ...,  0.0333,  0.0380,  0.0262],
+        [-0.0640, -0.0720, -0.0857,  ..., -0.0615, -0.0798, -0.0811],
+        ...,
+        [-0.2324, -0.2171, -0.1957,  ..., -0.0170, -0.0166, -0.0118],
+        [ 0.1045,  0.1112,  0.1259,  ..., -0.0567, -0.0517, -0.0561],
+        [ 0.0380,  0.0358,  0.0342,  ..., -0.0137, -0.0172, -0.0091]],
+       device='cuda:0'), grad: tensor([[ 4.3178e-04,  1.4257e-04,  1.1826e-04,  ...,  1.0210e-04,
+          1.0818e-04,  9.1910e-05],
+        [ 3.0422e-04,  1.4377e-04,  1.3006e-04,  ...,  5.9456e-05,
+          6.4552e-05,  5.4389e-05],
+        [-9.0218e-04, -2.2757e-04, -1.5807e-04,  ..., -3.4285e-04,
+         -3.5477e-04, -3.3140e-04],
+        ...,
+        [ 3.6502e-04,  1.1307e-04,  9.7275e-05,  ...,  1.0073e-04,
+          1.0383e-04,  9.0361e-05],
+        [ 2.5129e-04,  1.1909e-04,  1.0931e-04,  ...,  4.1991e-05,
+          4.6015e-05,  3.6687e-05],
+        [-1.3657e-03, -6.9523e-04, -6.5088e-04,  ..., -1.8764e-04,
+         -2.1398e-04, -1.5986e-04]], device='cuda:0')
+Epoch 44, bias, value: tensor([ 0.0728,  0.0069, -0.0209, -0.0608,  0.0186, -0.0277,  0.0067],
+       device='cuda:0'), grad: tensor([ 0.0010,  0.0005, -0.0023,  0.0017,  0.0008,  0.0004, -0.0022],
+       device='cuda:0')
+588
+0.0032431258795932905
+changing lr
+---------------------saving model at epoch 43----------------------------------------------------
+epoch 43, time 780.99, cls_loss 0.0007 cls_loss_mapping 0.0082 cls_loss_causal 0.3753 re_mapping 0.0066 re_causal 0.0167 /// teacc 95.23 lr 0.00303487
+Epoch 45, weight, value: tensor([[-0.0933, -0.1088, -0.1521,  ...,  0.0264,  0.0566,  0.0410],
+        [ 0.2397,  0.2173,  0.2516,  ...,  0.0330,  0.0377,  0.0260],
+        [-0.0641, -0.0719, -0.0855,  ..., -0.0614, -0.0796, -0.0808],
+        ...,
+        [-0.2312, -0.2160, -0.1950,  ..., -0.0170, -0.0167, -0.0118],
+        [ 0.1041,  0.1109,  0.1255,  ..., -0.0563, -0.0514, -0.0557],
+        [ 0.0376,  0.0355,  0.0338,  ..., -0.0136, -0.0171, -0.0091]],
+       device='cuda:0'), grad: tensor([[ 9.8526e-05,  5.9068e-05,  5.9336e-05,  ...,  8.7097e-06,
+          7.2382e-06,  8.2776e-06],
+        [ 1.6838e-06, -8.2180e-06, -8.1658e-06,  ..., -2.8566e-05,
+         -3.1203e-05, -3.2872e-05],
+        [-4.6396e-04, -1.2732e-04, -8.7261e-05,  ..., -1.0407e-04,
+         -8.4102e-05, -8.1182e-05],
+        ...,
+        [ 2.9778e-04,  1.4830e-04,  1.3936e-04,  ...,  5.0753e-05,
+          5.2691e-05,  5.0783e-05],
+        [-6.5565e-04, -4.4060e-04, -4.5657e-04,  ..., -3.6985e-05,
+         -5.6416e-05, -5.3614e-05],
+        [ 3.3355e-04,  1.9693e-04,  1.9622e-04,  ...,  3.7581e-05,
+          4.3303e-05,  4.1753e-05]], device='cuda:0')
+Epoch 45, bias, value: tensor([ 0.0736,  0.0071, -0.0210, -0.0604,  0.0186, -0.0283,  0.0062],
+       device='cuda:0'), grad: tensor([ 1.1885e-04,  7.0035e-06, -1.1644e-03,  7.2956e-04,  4.9019e-04,
+        -5.9938e-04,  4.1986e-04], device='cuda:0')
+588
+0.0030348748417303863
+changing lr
+epoch 44, time 779.23, cls_loss 0.0006 cls_loss_mapping 0.0056 cls_loss_causal 0.3810 re_mapping 0.0065 re_causal 0.0167 /// teacc 92.96 lr 0.00283058
+Epoch 46, weight, value: tensor([[-0.0944, -0.1093, -0.1522,  ...,  0.0260,  0.0559,  0.0404],
+        [ 0.2392,  0.2169,  0.2509,  ...,  0.0330,  0.0376,  0.0261],
+        [-0.0635, -0.0717, -0.0852,  ..., -0.0610, -0.0792, -0.0804],
+        ...,
+        [-0.2298, -0.2150, -0.1942,  ..., -0.0170, -0.0166, -0.0118],
+        [ 0.1042,  0.1109,  0.1254,  ..., -0.0559, -0.0511, -0.0553],
+        [ 0.0374,  0.0354,  0.0337,  ..., -0.0136, -0.0170, -0.0091]],
+       device='cuda:0'), grad: tensor([[-3.5381e-04, -6.0469e-05, -4.0948e-05,  ..., -8.4877e-05,
+         -1.1462e-04, -1.0496e-04],
+        [ 5.4419e-05, -6.3516e-06, -8.9481e-06,  ...,  3.1859e-05,
+          3.7342e-05,  3.5703e-05],
+        [-5.6326e-05, -2.5675e-05, -1.9148e-05,  ..., -1.3374e-06,
+          1.3635e-06,  1.7937e-06],
+        ...,
+        [ 2.6846e-04,  8.0526e-05,  6.6280e-05,  ...,  7.5161e-05,
+          9.1076e-05,  8.5056e-05],
+        [ 5.8591e-05,  1.6183e-05,  1.2800e-05,  ...,  1.4663e-05,
+          1.8165e-05,  1.6823e-05],
+        [ 9.3877e-05,  3.3319e-05,  2.6554e-05,  ...,  1.7792e-05,
+          2.0459e-05,  1.8761e-05]], device='cuda:0')
+Epoch 46, bias, value: tensor([ 0.0715,  0.0075, -0.0197, -0.0609,  0.0193, -0.0281,  0.0061],
+       device='cuda:0'), grad: tensor([-1.0271e-03,  2.0909e-04, -1.0324e-04, -9.7573e-05,  6.5947e-04,
+         1.4853e-04,  2.1064e-04], device='cuda:0')
+588
+0.0028305813044122124
+changing lr
+epoch 45, time 782.16, cls_loss 0.0006 cls_loss_mapping 0.0065 cls_loss_causal 0.4017 re_mapping 0.0063 re_causal 0.0168 /// teacc 94.47 lr 0.00263066
+Epoch 47, weight, value: tensor([[-0.0943, -0.1093, -0.1519,  ...,  0.0259,  0.0556,  0.0402],
+        [ 0.2384,  0.2164,  0.2502,  ...,  0.0327,  0.0374,  0.0259],
+        [-0.0635, -0.0715, -0.0850,  ..., -0.0609, -0.0790, -0.0801],
+        ...,
+        [-0.2290, -0.2144, -0.1938,  ..., -0.0170, -0.0166, -0.0118],
+        [ 0.1040,  0.1109,  0.1253,  ..., -0.0556, -0.0508, -0.0550],
+        [ 0.0371,  0.0351,  0.0335,  ..., -0.0136, -0.0170, -0.0092]],
+       device='cuda:0'), grad: tensor([[ 1.0943e-04,  9.1255e-05,  9.0539e-05,  ...,  3.6418e-05,
+          4.6253e-05,  3.9160e-05],
+        [-2.0409e-04, -1.3947e-04, -1.3614e-04,  ..., -6.1810e-05,
+         -7.4685e-05, -6.5446e-05],
+        [ 1.5408e-05,  9.5367e-06,  9.0674e-06,  ...,  3.7346e-06,
+          4.6231e-06,  3.9823e-06],
+        ...,
+        [ 1.1688e-04,  8.0884e-05,  7.8976e-05,  ...,  6.3926e-06,
+          8.2701e-06,  8.3894e-06],
+        [-1.4687e-04, -1.0443e-04, -1.0210e-04,  ..., -9.9912e-06,
+         -1.4298e-05, -1.2837e-05],
+        [ 4.1425e-05,  2.1636e-05,  2.0519e-05,  ...,  7.1786e-06,
+          8.2031e-06,  7.6443e-06]], device='cuda:0')
+Epoch 47, bias, value: tensor([ 0.0718,  0.0074, -0.0197, -0.0606,  0.0195, -0.0284,  0.0057],
+       device='cuda:0'), grad: tensor([ 6.6936e-05, -2.3532e-04,  2.1771e-05,  9.8288e-05,  1.0723e-04,
+        -1.2827e-04,  6.9022e-05], device='cuda:0')
+588
+0.0026306566876350096
+changing lr
+epoch 46, time 780.02, cls_loss 0.0009 cls_loss_mapping 0.0073 cls_loss_causal 0.3808 re_mapping 0.0062 re_causal 0.0164 /// teacc 94.22 lr 0.00243550
+Epoch 48, weight, value: tensor([[-0.0945, -0.1096, -0.1519,  ...,  0.0256,  0.0551,  0.0398],
+        [ 0.2374,  0.2158,  0.2494,  ...,  0.0326,  0.0371,  0.0258],
+        [-0.0631, -0.0713, -0.0848,  ..., -0.0607, -0.0787, -0.0798],
+        ...,
+        [-0.2289, -0.2139, -0.1934,  ..., -0.0172, -0.0169, -0.0121],
+        [ 0.1045,  0.1112,  0.1255,  ..., -0.0553, -0.0505, -0.0547],
+        [ 0.0374,  0.0351,  0.0334,  ..., -0.0133, -0.0167, -0.0089]],
+       device='cuda:0'), grad: tensor([[ 4.6939e-05,  2.9400e-05,  3.1143e-05,  ...,  2.5705e-06,
+          4.1761e-06,  3.1665e-06],
+        [-1.9699e-05, -2.8163e-05, -2.9176e-05,  ..., -2.3488e-06,
+         -3.1944e-06, -4.9844e-06],
+        [-1.8775e-04, -5.6952e-05, -5.0545e-05,  ..., -3.3647e-05,
+         -4.2319e-05, -3.2812e-05],
+        ...,
+        [ 3.1292e-05,  1.6630e-05,  1.5453e-05,  ...,  9.0823e-06,
+          9.8944e-06,  9.2238e-06],
+        [ 2.7731e-05,  8.2776e-06,  6.8024e-06,  ...,  7.1861e-06,
+          8.4415e-06,  7.1935e-06],
+        [ 7.0155e-05,  2.0653e-05,  1.6779e-05,  ...,  1.8433e-05,
+          2.2486e-05,  1.8969e-05]], device='cuda:0')
+Epoch 48, bias, value: tensor([ 0.0715,  0.0070, -0.0184, -0.0608,  0.0178, -0.0278,  0.0066],
+       device='cuda:0'), grad: tensor([ 5.7459e-05,  2.7984e-05, -4.3344e-04,  7.0810e-05,  4.8548e-05,
+         6.5327e-05,  1.6344e-04], device='cuda:0')
+588
+0.0024355036129704724
+changing lr
+epoch 47, time 777.64, cls_loss 0.0007 cls_loss_mapping 0.0077 cls_loss_causal 0.3881 re_mapping 0.0063 re_causal 0.0164 /// teacc 93.97 lr 0.00224552
+Epoch 49, weight, value: tensor([[-0.0944, -0.1097, -0.1519,  ...,  0.0254,  0.0548,  0.0395],
+        [ 0.2377,  0.2158,  0.2492,  ...,  0.0327,  0.0372,  0.0260],
+        [-0.0629, -0.0712, -0.0846,  ..., -0.0606, -0.0785, -0.0797],
+        ...,
+        [-0.2282, -0.2132, -0.1928,  ..., -0.0173, -0.0169, -0.0121],
+        [ 0.1047,  0.1113,  0.1255,  ..., -0.0550, -0.0502, -0.0544],
+        [ 0.0365,  0.0345,  0.0329,  ..., -0.0135, -0.0168, -0.0090]],
+       device='cuda:0'), grad: tensor([[ 8.9931e-04,  2.2614e-04,  1.8775e-04,  ...,  3.4213e-04,
+          2.8157e-04,  2.9850e-04],
+        [ 2.0866e-03,  6.0844e-04,  4.9543e-04,  ...,  8.4305e-04,
+          6.9046e-04,  7.1907e-04],
+        [-8.8272e-03, -2.4700e-03, -2.0409e-03,  ..., -3.5534e-03,
+         -2.8877e-03, -3.0384e-03],
+        ...,
+        [ 2.6169e-03,  6.5708e-04,  5.7602e-04,  ...,  1.0681e-03,
+          8.5640e-04,  9.1982e-04],
+        [ 3.8743e-04,  1.1140e-04,  9.3937e-05,  ...,  1.4520e-04,
+          1.1879e-04,  1.2517e-04],
+        [ 3.3474e-04,  9.4175e-05,  6.2168e-05,  ...,  1.6975e-04,
+          1.3697e-04,  1.4067e-04]], device='cuda:0')
+Epoch 49, bias, value: tensor([ 0.0722,  0.0084, -0.0180, -0.0616,  0.0171, -0.0276,  0.0054],
+       device='cuda:0'), grad: tensor([ 0.0023,  0.0051, -0.0218,  0.0059,  0.0067,  0.0009,  0.0008],
+       device='cuda:0')
+588
+0.00224551509273949
+changing lr
+epoch 48, time 781.02, cls_loss 0.0008 cls_loss_mapping 0.0071 cls_loss_causal 0.3980 re_mapping 0.0061 re_causal 0.0164 /// teacc 94.47 lr 0.00206107
+Epoch 50, weight, value: tensor([[-0.0949, -0.1100, -0.1519,  ...,  0.0253,  0.0545,  0.0393],
+        [ 0.2367,  0.2151,  0.2484,  ...,  0.0324,  0.0370,  0.0258],
+        [-0.0635, -0.0714, -0.0848,  ..., -0.0607, -0.0787, -0.0798],
+        ...,
+        [-0.2271, -0.2124, -0.1922,  ..., -0.0171, -0.0167, -0.0119],
+        [ 0.1045,  0.1112,  0.1253,  ..., -0.0548, -0.0501, -0.0542],
+        [ 0.0373,  0.0349,  0.0332,  ..., -0.0133, -0.0167, -0.0090]],
+       device='cuda:0'), grad: tensor([[-7.2360e-05,  4.4256e-06,  1.0900e-05,  ..., -6.4969e-06,
+         -1.2942e-05, -2.9765e-06],
+        [ 1.5318e-04,  6.4552e-05,  5.5045e-05,  ...,  4.1813e-05,
+          4.8548e-05,  4.5240e-05],
+        [-3.1233e-04, -1.2100e-04, -1.0043e-04,  ..., -7.5161e-05,
+         -9.3043e-05, -9.1016e-05],
+        ...,
+        [ 1.1617e-04,  2.2396e-05,  1.2688e-05,  ...,  1.7375e-05,
+          2.9966e-05,  2.3380e-05],
+        [ 4.3690e-05,  1.3724e-05,  1.0848e-05,  ...,  1.0937e-05,
+          1.2949e-05,  1.1988e-05],
+        [ 4.4823e-05,  1.2606e-05,  9.6634e-06,  ...,  1.1720e-05,
+          1.3515e-05,  1.2405e-05]], device='cuda:0')
+Epoch 50, bias, value: tensor([ 0.0712,  0.0082, -0.0193, -0.0609,  0.0177, -0.0280,  0.0069],
+       device='cuda:0'), grad: tensor([-2.9421e-04,  2.9659e-04, -6.4230e-04,  8.2076e-05,  3.4451e-04,
+         1.0306e-04,  1.1146e-04], device='cuda:0')
+588
+0.002061073738537637
+changing lr
+epoch 49, time 775.85, cls_loss 0.0007 cls_loss_mapping 0.0059 cls_loss_causal 0.3879 re_mapping 0.0061 re_causal 0.0162 /// teacc 93.72 lr 0.00188255
+Epoch 51, weight, value: tensor([[-0.0950, -0.1101, -0.1517,  ...,  0.0251,  0.0542,  0.0390],
+        [ 0.2366,  0.2150,  0.2481,  ...,  0.0324,  0.0370,  0.0258],
+        [-0.0631, -0.0713, -0.0846,  ..., -0.0605, -0.0785, -0.0796],
+        ...,
+        [-0.2264, -0.2118, -0.1918,  ..., -0.0171, -0.0167, -0.0120],
+        [ 0.1043,  0.1110,  0.1252,  ..., -0.0546, -0.0499, -0.0539],
+        [ 0.0366,  0.0345,  0.0329,  ..., -0.0134, -0.0167, -0.0091]],
+       device='cuda:0'), grad: tensor([[-2.4974e-05, -9.4399e-06, -9.8273e-06,  ..., -2.8126e-07,
+         -4.0084e-06, -2.3097e-06],
+        [ 1.2159e-05,  4.7684e-06,  4.3511e-06,  ...,  4.4964e-06,
+          5.4128e-06,  4.9211e-06],
+        [-6.6543e-07, -5.6531e-07, -4.2899e-08,  ...,  4.2608e-07,
+          1.3607e-06,  1.2927e-06],
+        ...,
+        [-2.8894e-07,  3.3490e-06,  3.9898e-06,  ...,  7.8813e-08,
+          4.0256e-07, -2.2433e-07],
+        [ 8.4564e-06,  2.5351e-06,  2.1197e-06,  ...,  2.7735e-06,
+          3.3230e-06,  3.1330e-06],
+        [ 1.3173e-05,  4.8317e-06,  4.3996e-06,  ...,  3.3658e-06,
+          4.4480e-06,  3.8967e-06]], device='cuda:0')
+Epoch 51, bias, value: tensor([ 0.0709,  0.0088, -0.0183, -0.0611,  0.0180, -0.0283,  0.0059],
+       device='cuda:0'), grad: tensor([-5.8919e-05,  2.6375e-05,  5.8254e-07, -6.9402e-06, -1.1913e-05,
+         2.0921e-05,  3.0026e-05], device='cuda:0')
+588
+0.0018825509907063344
+changing lr
+epoch 50, time 778.58, cls_loss 0.0006 cls_loss_mapping 0.0055 cls_loss_causal 0.3620 re_mapping 0.0062 re_causal 0.0157 /// teacc 93.22 lr 0.00171031
+Epoch 52, weight, value: tensor([[-0.0944, -0.1098, -0.1513,  ...,  0.0251,  0.0540,  0.0389],
+        [ 0.2356,  0.2144,  0.2473,  ...,  0.0322,  0.0368,  0.0257],
+        [-0.0636, -0.0714, -0.0846,  ..., -0.0605, -0.0785, -0.0795],
+        ...,
+        [-0.2261, -0.2114, -0.1915,  ..., -0.0171, -0.0168, -0.0120],
+        [ 0.1048,  0.1113,  0.1254,  ..., -0.0543, -0.0495, -0.0536],
+        [ 0.0365,  0.0344,  0.0327,  ..., -0.0134, -0.0167, -0.0091]],
+       device='cuda:0'), grad: tensor([[ 7.1585e-05,  2.3738e-05,  2.2829e-05,  ...,  2.7627e-05,
+          3.2187e-05,  2.9474e-05],
+        [-7.3388e-06, -1.5572e-05, -1.5676e-05,  ...,  1.5974e-05,
+          1.7300e-05,  1.5572e-05],
+        [ 2.3872e-05,  6.3367e-06,  6.0759e-06,  ...,  1.5751e-05,
+          1.7658e-05,  1.6004e-05],
+        ...,
+        [-1.5843e-04, -4.1500e-06,  2.1309e-06,  ..., -1.1569e-04,
+         -1.3137e-04, -1.2040e-04],
+        [-1.1539e-04, -9.3699e-05, -9.7096e-05,  ...,  2.1607e-06,
+          1.8592e-07,  1.5637e-06],
+        [ 6.2466e-05,  3.2395e-05,  3.2336e-05,  ...,  1.4745e-05,
+          1.7583e-05,  1.5691e-05]], device='cuda:0')
+Epoch 52, bias, value: tensor([ 0.0720,  0.0081, -0.0192, -0.0609,  0.0174, -0.0273,  0.0058],
+       device='cuda:0'), grad: tensor([ 1.7464e-04,  4.0978e-05,  6.9141e-05,  2.5940e-04, -5.9509e-04,
+        -5.3793e-05,  1.0496e-04], device='cuda:0')
+588
+0.0017103063703014388
+changing lr
+epoch 51, time 777.04, cls_loss 0.0006 cls_loss_mapping 0.0064 cls_loss_causal 0.3832 re_mapping 0.0060 re_causal 0.0157 /// teacc 93.22 lr 0.00154469
+Epoch 53, weight, value: tensor([[-0.0944, -0.1098, -0.1512,  ...,  0.0250,  0.0538,  0.0388],
+        [ 0.2352,  0.2141,  0.2469,  ...,  0.0321,  0.0367,  0.0256],
+        [-0.0636, -0.0714, -0.0846,  ..., -0.0604, -0.0783, -0.0793],
+        ...,
+        [-0.2253, -0.2108, -0.1910,  ..., -0.0170, -0.0167, -0.0120],
+        [ 0.1046,  0.1112,  0.1252,  ..., -0.0541, -0.0494, -0.0534],
+        [ 0.0368,  0.0345,  0.0328,  ..., -0.0134, -0.0167, -0.0091]],
+       device='cuda:0'), grad: tensor([[-1.1519e-05, -1.4165e-06,  1.2703e-06,  ...,  1.1958e-05,
+          9.8720e-06,  1.2934e-05],
+        [ 5.2691e-05,  2.5686e-06, -4.5896e-06,  ...,  2.7329e-05,
+          2.8938e-05,  2.8655e-05],
+        [ 1.1331e-04,  2.3946e-05,  7.9796e-06,  ...,  4.3511e-05,
+          4.8459e-05,  4.8310e-05],
+        ...,
+        [-3.5477e-04, -7.0393e-05, -2.2277e-05,  ..., -1.5438e-04,
+         -1.6773e-04, -1.6880e-04],
+        [ 7.0035e-05,  1.5274e-05,  4.5523e-06,  ...,  2.5392e-05,
+          2.8521e-05,  2.8431e-05],
+        [ 4.6134e-05,  1.1250e-05,  5.2303e-06,  ...,  1.6332e-05,
+          1.8328e-05,  1.7807e-05]], device='cuda:0')
+Epoch 53, bias, value: tensor([ 0.0719,  0.0082, -0.0191, -0.0616,  0.0177, -0.0275,  0.0063],
+       device='cuda:0'), grad: tensor([-2.3514e-05,  1.7953e-04,  3.2234e-04,  2.3305e-04, -1.0347e-03,
+         1.9968e-04,  1.2434e-04], device='cuda:0')
+588
+0.0015446867550656784
+changing lr
+epoch 52, time 782.09, cls_loss 0.0006 cls_loss_mapping 0.0067 cls_loss_causal 0.3884 re_mapping 0.0060 re_causal 0.0158 /// teacc 92.71 lr 0.00138603
+Epoch 54, weight, value: tensor([[-0.0945, -0.1098, -0.1511,  ...,  0.0248,  0.0536,  0.0386],
+        [ 0.2345,  0.2137,  0.2463,  ...,  0.0319,  0.0365,  0.0255],
+        [-0.0630, -0.0711, -0.0842,  ..., -0.0602, -0.0780, -0.0791],
+        ...,
+        [-0.2252, -0.2105, -0.1909,  ..., -0.0172, -0.0169, -0.0121],
+        [ 0.1048,  0.1114,  0.1254,  ..., -0.0539, -0.0492, -0.0532],
+        [ 0.0366,  0.0343,  0.0326,  ..., -0.0134, -0.0166, -0.0090]],
+       device='cuda:0'), grad: tensor([[-7.3338e-04, -2.7394e-04, -2.6226e-04,  ..., -2.8658e-04,
+         -3.0828e-04, -2.6822e-04],
+        [ 2.9230e-04,  1.0693e-04,  9.9599e-05,  ...,  9.7156e-05,
+          1.0562e-04,  9.0897e-05],
+        [ 1.4770e-04,  4.1157e-05,  3.7640e-05,  ...,  7.1108e-05,
+          7.1049e-05,  6.4492e-05],
+        ...,
+        [-2.3529e-05,  1.5661e-05,  2.3380e-05,  ...,  1.3188e-05,
+          1.9163e-05,  1.5557e-05],
+        [ 7.1764e-05,  2.5257e-05,  2.3022e-05,  ...,  1.9610e-05,
+          2.1726e-05,  1.8224e-05],
+        [ 1.2422e-04,  4.5151e-05,  4.1783e-05,  ...,  3.5584e-05,
+          3.9577e-05,  3.3230e-05]], device='cuda:0')
+Epoch 54, bias, value: tensor([ 0.0715,  0.0078, -0.0179, -0.0614,  0.0171, -0.0274,  0.0062],
+       device='cuda:0'), grad: tensor([-0.0017,  0.0007,  0.0004,  0.0003, -0.0001,  0.0002,  0.0003],
+       device='cuda:0')
+588
+0.001386025680863044
+changing lr
+epoch 53, time 774.24, cls_loss 0.0005 cls_loss_mapping 0.0052 cls_loss_causal 0.3412 re_mapping 0.0059 re_causal 0.0145 /// teacc 92.21 lr 0.00123464
+Epoch 55, weight, value: tensor([[-0.0946, -0.1099, -0.1510,  ...,  0.0247,  0.0534,  0.0384],
+        [ 0.2346,  0.2136,  0.2462,  ...,  0.0320,  0.0365,  0.0256],
+        [-0.0629, -0.0711, -0.0842,  ..., -0.0601, -0.0780, -0.0790],
+        ...,
+        [-0.2248, -0.2101, -0.1905,  ..., -0.0172, -0.0170, -0.0122],
+        [ 0.1044,  0.1110,  0.1250,  ..., -0.0538, -0.0491, -0.0531],
+        [ 0.0365,  0.0342,  0.0325,  ..., -0.0134, -0.0166, -0.0091]],
+       device='cuda:0'), grad: tensor([[ 2.2089e-04,  1.0550e-04,  1.0586e-04,  ...,  1.3101e-04,
+          1.3411e-04,  1.3399e-04],
+        [-4.0889e-04, -2.0576e-04, -2.0719e-04,  ..., -2.4796e-04,
+         -2.4986e-04, -2.5177e-04],
+        [ 9.8050e-05,  4.5896e-05,  4.5389e-05,  ...,  6.5923e-05,
+          6.7651e-05,  6.7174e-05],
+        ...,
+        [ 4.8250e-05,  3.1799e-05,  3.1918e-05,  ...,  3.7879e-05,
+          3.5912e-05,  3.7074e-05],
+        [-7.3984e-06, -1.1280e-05, -1.1750e-05,  ...,  1.0759e-05,
+          1.0639e-05,  1.0796e-05],
+        [ 4.4703e-05,  2.5362e-05,  2.5615e-05,  ...,  1.9953e-05,
+          2.0534e-05,  2.0444e-05]], device='cuda:0')
+Epoch 55, bias, value: tensor([ 0.0714,  0.0085, -0.0177, -0.0612,  0.0167, -0.0280,  0.0062],
+       device='cuda:0'), grad: tensor([ 4.9305e-04, -8.8120e-04,  2.1744e-04, -5.1521e-06,  7.4267e-05,
+         2.2992e-05,  7.9215e-05], device='cuda:0')
+588
+0.0012346426699819469
+changing lr
+epoch 54, time 782.77, cls_loss 0.0006 cls_loss_mapping 0.0059 cls_loss_causal 0.3807 re_mapping 0.0058 re_causal 0.0151 /// teacc 92.21 lr 0.00109084
+Epoch 56, weight, value: tensor([[-0.0947, -0.1100, -0.1509,  ...,  0.0246,  0.0531,  0.0382],
+        [ 0.2345,  0.2135,  0.2460,  ...,  0.0320,  0.0365,  0.0256],
+        [-0.0628, -0.0709, -0.0841,  ..., -0.0601, -0.0778, -0.0788],
+        ...,
+        [-0.2242, -0.2097, -0.1902,  ..., -0.0172, -0.0169, -0.0122],
+        [ 0.1043,  0.1110,  0.1249,  ..., -0.0537, -0.0490, -0.0530],
+        [ 0.0362,  0.0340,  0.0323,  ..., -0.0135, -0.0166, -0.0091]],
+       device='cuda:0'), grad: tensor([[ 2.7627e-05,  2.1264e-05,  1.8045e-05,  ...,  2.0955e-06,
+          3.7104e-06,  3.7644e-06],
+        [ 1.9491e-05, -3.7819e-05, -4.5240e-05,  ...,  1.8194e-05,
+          1.9312e-05,  1.8984e-05],
+        [-5.8532e-05, -1.4134e-05, -8.1658e-06,  ..., -9.3356e-06,
+         -8.9183e-06, -8.4117e-06],
+        ...,
+        [-1.6868e-04, -4.2349e-05, -2.1830e-05,  ..., -6.6578e-05,
+         -7.4983e-05, -7.2956e-05],
+        [ 3.6687e-05,  1.1131e-05,  7.0967e-06,  ...,  1.2882e-05,
+          1.4156e-05,  1.3798e-05],
+        [ 4.1872e-05,  1.5736e-05,  1.2420e-05,  ...,  1.2293e-05,
+          1.3627e-05,  1.2979e-05]], device='cuda:0')
+Epoch 56, bias, value: tensor([ 0.0712,  0.0088, -0.0173, -0.0614,  0.0170, -0.0281,  0.0057],
+       device='cuda:0'), grad: tensor([ 1.0133e-06,  2.3293e-04, -1.2696e-04,  1.8799e-04, -4.7779e-04,
+         9.3281e-05,  8.9526e-05], device='cuda:0')
+588
+0.0010908425876598518
+changing lr
+epoch 55, time 782.23, cls_loss 0.0006 cls_loss_mapping 0.0059 cls_loss_causal 0.3434 re_mapping 0.0058 re_causal 0.0145 /// teacc 93.72 lr 0.00095492
+Epoch 57, weight, value: tensor([[-0.0947, -0.1100, -0.1508,  ...,  0.0245,  0.0530,  0.0381],
+        [ 0.2342,  0.2133,  0.2457,  ...,  0.0319,  0.0364,  0.0256],
+        [-0.0631, -0.0710, -0.0841,  ..., -0.0601, -0.0778, -0.0788],
+        ...,
+        [-0.2236, -0.2093, -0.1898,  ..., -0.0171, -0.0169, -0.0121],
+        [ 0.1040,  0.1108,  0.1247,  ..., -0.0536, -0.0490, -0.0529],
+        [ 0.0363,  0.0339,  0.0323,  ..., -0.0134, -0.0166, -0.0091]],
+       device='cuda:0'), grad: tensor([[-3.4332e-04, -1.1641e-04, -8.1122e-05,  ..., -6.3300e-05,
+         -6.0499e-05, -4.4078e-05],
+        [ 3.5620e-04,  1.1104e-04,  8.8036e-05,  ...,  9.5963e-05,
+          1.0800e-04,  9.4950e-05],
+        [ 1.6856e-04,  3.9130e-05,  2.7493e-05,  ...,  7.2122e-05,
+          8.4817e-05,  8.2672e-05],
+        ...,
+        [-4.0865e-04, -5.9426e-05, -3.9786e-05,  ..., -1.6725e-04,
+         -2.0897e-04, -2.0361e-04],
+        [ 8.7440e-05,  2.0519e-05,  1.4551e-05,  ...,  2.9668e-05,
+          3.5048e-05,  3.2812e-05],
+        [ 1.0663e-04,  3.4690e-05,  2.8372e-05,  ...,  3.4213e-05,
+          3.9250e-05,  3.5703e-05]], device='cuda:0')
+Epoch 57, bias, value: tensor([ 0.0711,  0.0088, -0.0179, -0.0613,  0.0175, -0.0285,  0.0063],
+       device='cuda:0'), grad: tensor([-0.0007,  0.0008,  0.0005,  0.0002, -0.0013,  0.0002,  0.0002],
+       device='cuda:0')
+588
+0.000954915028125264
+changing lr
+epoch 56, time 778.58, cls_loss 0.0006 cls_loss_mapping 0.0045 cls_loss_causal 0.3808 re_mapping 0.0057 re_causal 0.0148 /// teacc 93.72 lr 0.00082713
+Epoch 58, weight, value: tensor([[-0.0945, -0.1099, -0.1507,  ...,  0.0246,  0.0530,  0.0381],
+        [ 0.2335,  0.2129,  0.2452,  ...,  0.0317,  0.0362,  0.0254],
+        [-0.0632, -0.0711, -0.0841,  ..., -0.0601, -0.0778, -0.0788],
+        ...,
+        [-0.2232, -0.2089, -0.1896,  ..., -0.0172, -0.0169, -0.0122],
+        [ 0.1043,  0.1110,  0.1249,  ..., -0.0535, -0.0489, -0.0528],
+        [ 0.0361,  0.0338,  0.0322,  ..., -0.0135, -0.0166, -0.0091]],
+       device='cuda:0'), grad: tensor([[-1.6630e-04,  6.9011e-07,  1.9506e-05,  ..., -3.3617e-05,
+         -3.9756e-05, -3.4124e-05],
+        [-3.8166e-03, -2.1992e-03, -2.1572e-03,  ..., -1.2531e-03,
+         -1.4200e-03, -1.2770e-03],
+        [ 8.0824e-04,  4.3297e-04,  4.1485e-04,  ...,  3.1972e-04,
+          3.5095e-04,  3.1400e-04],
+        ...,
+        [ 1.2236e-03,  6.4898e-04,  6.3467e-04,  ...,  2.1338e-04,
+          2.7490e-04,  2.5058e-04],
+        [ 2.1064e-04,  1.1522e-04,  1.1188e-04,  ...,  6.6459e-05,
+          7.5638e-05,  6.7890e-05],
+        [ 6.1464e-04,  3.5548e-04,  3.4618e-04,  ...,  2.4509e-04,
+          2.6989e-04,  2.4176e-04]], device='cuda:0')
+Epoch 58, bias, value: tensor([ 0.0715,  0.0081, -0.0182, -0.0611,  0.0178, -0.0282,  0.0060],
+       device='cuda:0'), grad: tensor([-0.0006, -0.0057,  0.0014,  0.0017,  0.0019,  0.0003,  0.0009],
+       device='cuda:0')
+588
+0.0008271337313934874
+changing lr
+epoch 57, time 809.48, cls_loss 0.0005 cls_loss_mapping 0.0042 cls_loss_causal 0.3936 re_mapping 0.0057 re_causal 0.0150 /// teacc 93.22 lr 0.00070776
+Epoch 59, weight, value: tensor([[-0.0946, -0.1099, -0.1506,  ...,  0.0245,  0.0529,  0.0380],
+        [ 0.2334,  0.2128,  0.2451,  ...,  0.0317,  0.0362,  0.0254],
+        [-0.0631, -0.0711, -0.0841,  ..., -0.0600, -0.0777, -0.0787],
+        ...,
+        [-0.2230, -0.2087, -0.1894,  ..., -0.0172, -0.0169, -0.0122],
+        [ 0.1041,  0.1108,  0.1247,  ..., -0.0534, -0.0488, -0.0527],
+        [ 0.0362,  0.0339,  0.0322,  ..., -0.0134, -0.0165, -0.0091]],
+       device='cuda:0'), grad: tensor([[ 4.9144e-05,  3.4124e-05,  3.2842e-05,  ...,  3.8035e-06,
+          5.2154e-06,  4.7907e-06],
+        [-2.6989e-04, -1.5306e-04, -1.4567e-04,  ..., -1.8135e-05,
+         -2.6599e-05, -1.7509e-05],
+        [ 3.6359e-05,  2.5690e-05,  2.6360e-05,  ...,  4.1015e-06,
+          6.3218e-06,  4.4480e-06],
+        ...,
+        [ 1.4770e-04,  7.4089e-05,  6.6221e-05,  ...,  3.2574e-05,
+          3.4869e-05,  3.1054e-05],
+        [ 6.5386e-05,  3.4660e-05,  3.2157e-05,  ...,  1.0155e-05,
+          1.1824e-05,  9.5814e-06],
+        [ 4.6521e-05,  2.3782e-05,  2.1100e-05,  ...,  1.4767e-05,
+          1.5408e-05,  1.4156e-05]], device='cuda:0')
+Epoch 59, bias, value: tensor([ 0.0714,  0.0082, -0.0178, -0.0612,  0.0175, -0.0284,  0.0063],
+       device='cuda:0'), grad: tensor([ 4.7773e-05, -4.1842e-04,  4.0114e-05, -1.2136e-04,  2.6059e-04,
+         1.1051e-04,  8.0645e-05], device='cuda:0')
+588
+0.00070775603199067
+changing lr
+epoch 58, time 805.04, cls_loss 0.0006 cls_loss_mapping 0.0054 cls_loss_causal 0.3910 re_mapping 0.0058 re_causal 0.0149 /// teacc 93.72 lr 0.00059702
+Epoch 60, weight, value: tensor([[-0.0945, -0.1099, -0.1505,  ...,  0.0245,  0.0528,  0.0380],
+        [ 0.2331,  0.2126,  0.2448,  ...,  0.0316,  0.0361,  0.0253],
+        [-0.0631, -0.0711, -0.0841,  ..., -0.0599, -0.0777, -0.0786],
+        ...,
+        [-0.2227, -0.2084, -0.1892,  ..., -0.0172, -0.0169, -0.0122],
+        [ 0.1040,  0.1108,  0.1246,  ..., -0.0533, -0.0487, -0.0527],
+        [ 0.0360,  0.0337,  0.0321,  ..., -0.0135, -0.0166, -0.0091]],
+       device='cuda:0'), grad: tensor([[ 3.2961e-05,  4.0025e-05,  3.5167e-05,  ..., -2.2024e-05,
+         -2.5541e-05, -2.6152e-05],
+        [ 3.3092e-04,  1.3506e-04,  9.7990e-05,  ...,  7.9155e-05,
+          6.9618e-05,  6.2406e-05],
+        [-1.0567e-03, -4.5300e-04, -3.4881e-04,  ..., -2.2972e-04,
+         -2.1887e-04, -2.0504e-04],
+        ...,
+        [ 1.2070e-04,  5.7369e-05,  5.0813e-05,  ...,  2.4587e-05,
+          2.8566e-05,  3.1531e-05],
+        [ 8.1837e-05,  3.0264e-05,  2.2873e-05,  ...,  2.2545e-05,
+          2.2694e-05,  2.2009e-05],
+        [ 1.5068e-04,  5.3704e-05,  3.9071e-05,  ...,  3.9101e-05,
+          3.8505e-05,  3.6687e-05]], device='cuda:0')
+Epoch 60, bias, value: tensor([ 0.0716,  0.0080, -0.0178, -0.0609,  0.0176, -0.0284,  0.0060],
+       device='cuda:0'), grad: tensor([-2.1264e-05,  6.4468e-04, -1.9836e-03,  6.7139e-04,  1.8978e-04,
+         1.7500e-04,  3.2091e-04], device='cuda:0')
+588
+0.0005970223407163104
+changing lr
+epoch 59, time 807.15, cls_loss 0.0006 cls_loss_mapping 0.0047 cls_loss_causal 0.3793 re_mapping 0.0057 re_causal 0.0145 /// teacc 92.46 lr 0.00049516
+Epoch 61, weight, value: tensor([[-0.0946, -0.1099, -0.1505,  ...,  0.0245,  0.0527,  0.0379],
+        [ 0.2328,  0.2124,  0.2446,  ...,  0.0315,  0.0361,  0.0253],
+        [-0.0635, -0.0713, -0.0843,  ..., -0.0600, -0.0777, -0.0786],
+        ...,
+        [-0.2225, -0.2083, -0.1891,  ..., -0.0172, -0.0170, -0.0123],
+        [ 0.1044,  0.1110,  0.1248,  ..., -0.0532, -0.0486, -0.0525],
+        [ 0.0360,  0.0337,  0.0320,  ..., -0.0135, -0.0165, -0.0091]],
+       device='cuda:0'), grad: tensor([[ 1.4031e-04,  1.0115e-04,  9.8348e-05,  ...,  2.1204e-05,
+          2.3738e-05,  2.2426e-05],
+        [-5.2404e-04, -3.5501e-04, -3.4118e-04,  ..., -1.0306e-04,
+         -1.1355e-04, -1.0812e-04],
+        [ 4.5031e-05,  3.0726e-05,  2.8789e-05,  ...,  1.2629e-05,
+          1.4290e-05,  1.3478e-05],
+        ...,
+        [ 6.5982e-05,  5.2780e-05,  5.0902e-05,  ...,  1.4029e-05,
+          1.4067e-05,  1.5333e-05],
+        [ 4.8369e-05,  2.8491e-05,  2.7150e-05,  ...,  1.1295e-05,
+          1.2696e-05,  1.1601e-05],
+        [ 1.0043e-04,  6.2644e-05,  5.9962e-05,  ...,  2.2292e-05,
+          2.4587e-05,  2.3022e-05]], device='cuda:0')
+Epoch 61, bias, value: tensor([ 0.0714,  0.0079, -0.0181, -0.0608,  0.0176, -0.0280,  0.0061],
+       device='cuda:0'), grad: tensor([ 1.3781e-04, -5.8556e-04,  4.9412e-05,  1.5855e-04,  3.7253e-05,
+         7.0691e-05,  1.3208e-04], device='cuda:0')
+588
+0.0004951556604879052
+changing lr
+epoch 60, time 792.83, cls_loss 0.0006 cls_loss_mapping 0.0047 cls_loss_causal 0.3636 re_mapping 0.0057 re_causal 0.0141 /// teacc 92.71 lr 0.00040236
+Epoch 62, weight, value: tensor([[-0.0947, -0.1100, -0.1505,  ...,  0.0244,  0.0526,  0.0378],
+        [ 0.2327,  0.2124,  0.2445,  ...,  0.0315,  0.0360,  0.0253],
+        [-0.0635, -0.0713, -0.0843,  ..., -0.0599, -0.0777, -0.0786],
+        ...,
+        [-0.2223, -0.2081, -0.1890,  ..., -0.0172, -0.0169, -0.0122],
+        [ 0.1044,  0.1110,  0.1248,  ..., -0.0532, -0.0486, -0.0525],
+        [ 0.0359,  0.0337,  0.0320,  ..., -0.0135, -0.0165, -0.0091]],
+       device='cuda:0'), grad: tensor([[1.5759e-04, 1.2422e-04, 1.1712e-04,  ..., 6.3181e-05, 6.2168e-05,
+         6.3777e-05],
+        [3.9101e-04, 1.7965e-04, 1.6463e-04,  ..., 1.6248e-04, 1.6677e-04,
+         1.5986e-04],
+        [6.8760e-04, 3.3975e-04, 3.1376e-04,  ..., 2.7561e-04, 2.8062e-04,
+         2.7156e-04],
+        ...,
+        [3.8803e-05, 2.3484e-05, 2.3335e-05,  ..., 3.9011e-05, 3.3319e-05,
+         3.4481e-05],
+        [1.5879e-04, 7.5519e-05, 6.9559e-05,  ..., 5.1141e-05, 5.3763e-05,
+         5.1528e-05],
+        [2.6274e-04, 1.2243e-04, 1.1265e-04,  ..., 8.4460e-05, 8.9109e-05,
+         8.5115e-05]], device='cuda:0')
+Epoch 62, bias, value: tensor([ 0.0712,  0.0080, -0.0181, -0.0608,  0.0178, -0.0281,  0.0059],
+       device='cuda:0'), grad: tensor([ 7.4744e-05,  7.1096e-04,  1.1415e-03, -2.6989e-03,  3.1173e-05,
+         2.7537e-04,  4.6659e-04], device='cuda:0')
+588
+0.00040236113724274745
+changing lr
+epoch 61, time 803.46, cls_loss 0.0005 cls_loss_mapping 0.0046 cls_loss_causal 0.3672 re_mapping 0.0057 re_causal 0.0143 /// teacc 93.47 lr 0.00031883
+Epoch 63, weight, value: tensor([[-0.0945, -0.1099, -0.1504,  ...,  0.0244,  0.0526,  0.0379],
+        [ 0.2326,  0.2123,  0.2444,  ...,  0.0315,  0.0360,  0.0253],
+        [-0.0635, -0.0713, -0.0843,  ..., -0.0599, -0.0776, -0.0785],
+        ...,
+        [-0.2221, -0.2080, -0.1889,  ..., -0.0172, -0.0170, -0.0123],
+        [ 0.1043,  0.1109,  0.1247,  ..., -0.0531, -0.0486, -0.0525],
+        [ 0.0358,  0.0336,  0.0319,  ..., -0.0135, -0.0166, -0.0092]],
+       device='cuda:0'), grad: tensor([[ 1.0508e-04,  1.4856e-05,  2.4930e-05,  ...,  2.8849e-05,
+          3.3826e-05,  3.2455e-05],
+        [ 2.8682e-04,  8.7380e-05,  1.0943e-04,  ...,  7.9691e-05,
+          1.0055e-04,  8.9288e-05],
+        [ 2.3678e-05,  2.8145e-06,  7.0296e-06,  ...,  6.0871e-06,
+          9.9540e-06,  8.2627e-06],
+        ...,
+        [-7.6818e-04, -1.8561e-04, -2.5368e-04,  ..., -1.9324e-04,
+         -2.5415e-04, -2.2399e-04],
+        [ 1.2767e-04,  3.2902e-05,  4.3064e-05,  ...,  3.1650e-05,
+          4.2170e-05,  3.6776e-05],
+        [ 6.0111e-05,  1.6093e-05,  2.0161e-05,  ...,  1.4834e-05,
+          1.9684e-05,  1.7151e-05]], device='cuda:0')
+Epoch 63, bias, value: tensor([ 0.0716,  0.0080, -0.0180, -0.0608,  0.0178, -0.0282,  0.0058],
+       device='cuda:0'), grad: tensor([ 2.8872e-04,  6.4993e-04,  6.9916e-05,  4.3464e-04, -1.8988e-03,
+         3.1042e-04,  1.4484e-04], device='cuda:0')
+588
+0.00031882564680131423
+changing lr
+epoch 62, time 783.15, cls_loss 0.0005 cls_loss_mapping 0.0043 cls_loss_causal 0.3643 re_mapping 0.0057 re_causal 0.0142 /// teacc 92.71 lr 0.00024472
+Epoch 64, weight, value: tensor([[-0.0945, -0.1099, -0.1503,  ...,  0.0244,  0.0526,  0.0378],
+        [ 0.2326,  0.2123,  0.2443,  ...,  0.0315,  0.0360,  0.0253],
+        [-0.0634, -0.0712, -0.0842,  ..., -0.0599, -0.0776, -0.0785],
+        ...,
+        [-0.2220, -0.2079, -0.1888,  ..., -0.0172, -0.0170, -0.0123],
+        [ 0.1041,  0.1108,  0.1246,  ..., -0.0531, -0.0485, -0.0524],
+        [ 0.0357,  0.0336,  0.0319,  ..., -0.0135, -0.0166, -0.0092]],
+       device='cuda:0'), grad: tensor([[-2.6107e-04, -9.1016e-05, -6.5625e-05,  ..., -1.0306e-04,
+         -1.1551e-04, -9.4712e-05],
+        [ 2.9159e-04,  9.7215e-05,  8.0347e-05,  ...,  1.5521e-04,
+          1.7440e-04,  1.5688e-04],
+        [ 5.9396e-05,  2.0087e-05,  1.6272e-05,  ...,  3.4511e-05,
+          3.7819e-05,  3.5465e-05],
+        ...,
+        [-5.8830e-05,  1.1109e-05,  1.3985e-05,  ...,  1.7032e-05,
+          1.1884e-05,  1.0535e-05],
+        [ 5.7578e-05,  1.2890e-05,  8.0094e-06,  ...,  1.6004e-05,
+          1.8656e-05,  1.7390e-05],
+        [ 7.3493e-05,  2.4989e-05,  1.5810e-05,  ...,  2.9519e-05,
+          3.0696e-05,  2.8580e-05]], device='cuda:0')
+Epoch 64, bias, value: tensor([ 0.0715,  0.0081, -0.0179, -0.0607,  0.0178, -0.0284,  0.0057],
+       device='cuda:0'), grad: tensor([-0.0006,  0.0006,  0.0001, -0.0003, -0.0003,  0.0002,  0.0002],
+       device='cuda:0')
+588
+0.0002447174185242325
+changing lr
+epoch 63, time 783.23, cls_loss 0.0005 cls_loss_mapping 0.0040 cls_loss_causal 0.3704 re_mapping 0.0057 re_causal 0.0142 /// teacc 92.71 lr 0.00018019
+Epoch 65, weight, value: tensor([[-0.0945, -0.1099, -0.1503,  ...,  0.0244,  0.0525,  0.0378],
+        [ 0.2325,  0.2122,  0.2442,  ...,  0.0315,  0.0360,  0.0252],
+        [-0.0634, -0.0712, -0.0842,  ..., -0.0599, -0.0775, -0.0785],
+        ...,
+        [-0.2219, -0.2078, -0.1887,  ..., -0.0172, -0.0170, -0.0123],
+        [ 0.1041,  0.1108,  0.1246,  ..., -0.0531, -0.0485, -0.0524],
+        [ 0.0357,  0.0335,  0.0319,  ..., -0.0135, -0.0166, -0.0092]],
+       device='cuda:0'), grad: tensor([[ 1.2007e-03,  1.5318e-04,  3.4958e-05,  ...,  1.9395e-04,
+          2.8396e-04,  2.0969e-04],
+        [ 7.3254e-05,  1.9327e-05,  1.4015e-05,  ...,  2.5243e-05,
+          2.9102e-05,  2.5526e-05],
+        [ 9.2268e-05,  1.4566e-05,  8.6427e-06,  ...,  2.4602e-05,
+          3.1501e-05,  2.4706e-05],
+        ...,
+        [-1.4887e-03, -1.8537e-04, -4.3571e-05,  ..., -2.4867e-04,
+         -3.6168e-04, -2.6584e-04],
+        [ 9.1374e-05,  1.2487e-05,  5.3495e-06,  ...,  2.0772e-05,
+          2.7791e-05,  2.0996e-05],
+        [ 5.6684e-05,  8.5309e-06,  3.6918e-06,  ...,  1.2532e-05,
+          1.6615e-05,  1.2919e-05]], device='cuda:0')
+Epoch 65, bias, value: tensor([ 0.0714,  0.0081, -0.0179, -0.0607,  0.0178, -0.0284,  0.0057],
+       device='cuda:0'), grad: tensor([ 3.6163e-03,  1.8573e-04,  2.8801e-04,  6.7502e-06, -4.5547e-03,
+         2.8849e-04,  1.7118e-04], device='cuda:0')
+588
+0.0001801856965207339
+changing lr
+epoch 64, time 784.41, cls_loss 0.0005 cls_loss_mapping 0.0039 cls_loss_causal 0.3865 re_mapping 0.0057 re_causal 0.0146 /// teacc 93.22 lr 0.00012536
+Epoch 66, weight, value: tensor([[-0.0945, -0.1099, -0.1503,  ...,  0.0244,  0.0525,  0.0378],
+        [ 0.2325,  0.2122,  0.2442,  ...,  0.0314,  0.0360,  0.0252],
+        [-0.0634, -0.0712, -0.0842,  ..., -0.0599, -0.0775, -0.0785],
+        ...,
+        [-0.2218, -0.2078, -0.1887,  ..., -0.0172, -0.0170, -0.0123],
+        [ 0.1041,  0.1109,  0.1246,  ..., -0.0530, -0.0485, -0.0524],
+        [ 0.0357,  0.0335,  0.0319,  ..., -0.0135, -0.0165, -0.0092]],
+       device='cuda:0'), grad: tensor([[ 1.3554e-04,  1.8835e-05,  8.1435e-06,  ...,  2.0534e-05,
+          3.6955e-05,  2.6882e-05],
+        [ 3.9041e-05,  1.3135e-05,  8.7395e-06,  ...,  1.1697e-05,
+          1.3746e-05,  1.2234e-05],
+        [-4.7863e-05, -3.6389e-05, -3.1203e-05,  ..., -1.2845e-05,
+         -1.3970e-05, -1.5751e-05],
+        ...,
+        [-3.0518e-04, -3.8534e-05, -1.0140e-05,  ..., -7.1526e-05,
+         -1.0008e-04, -7.6473e-05],
+        [ 4.9859e-05,  1.0267e-05,  5.2229e-06,  ...,  1.3337e-05,
+          1.7017e-05,  1.3866e-05],
+        [ 4.3541e-05,  9.4622e-06,  5.2005e-06,  ...,  1.3575e-05,
+          1.6257e-05,  1.3515e-05]], device='cuda:0')
+Epoch 66, bias, value: tensor([ 0.0715,  0.0081, -0.0179, -0.0607,  0.0178, -0.0284,  0.0057],
+       device='cuda:0'), grad: tensor([ 3.6740e-04,  8.8513e-05, -4.8727e-05,  2.0921e-04, -8.6117e-04,
+         1.3030e-04,  1.1593e-04], device='cuda:0')
+588
+0.000125360439090882
+changing lr
+epoch 65, time 788.68, cls_loss 0.0006 cls_loss_mapping 0.0044 cls_loss_causal 0.4013 re_mapping 0.0057 re_causal 0.0149 /// teacc 93.22 lr 0.00008035
+Epoch 67, weight, value: tensor([[-0.0945, -0.1099, -0.1503,  ...,  0.0244,  0.0525,  0.0378],
+        [ 0.2325,  0.2122,  0.2442,  ...,  0.0314,  0.0359,  0.0252],
+        [-0.0634, -0.0712, -0.0842,  ..., -0.0599, -0.0775, -0.0785],
+        ...,
+        [-0.2218, -0.2077, -0.1886,  ..., -0.0172, -0.0170, -0.0123],
+        [ 0.1041,  0.1108,  0.1246,  ..., -0.0530, -0.0485, -0.0524],
+        [ 0.0358,  0.0335,  0.0319,  ..., -0.0135, -0.0165, -0.0091]],
+       device='cuda:0'), grad: tensor([[-4.7535e-05, -1.0945e-05, -5.4426e-06,  ..., -9.0525e-06,
+         -1.0304e-05, -8.7395e-06],
+        [ 1.0920e-04,  3.1292e-05,  2.2084e-05,  ...,  4.4525e-05,
+          4.4137e-05,  4.3720e-05],
+        [-1.2636e-05, -2.3730e-06, -3.1833e-06,  ...,  1.3057e-06,
+         -4.8429e-07,  9.8348e-07],
+        ...,
+        [-1.2589e-04, -3.4958e-05, -2.3052e-05,  ..., -5.9754e-05,
+         -5.6773e-05, -5.8293e-05],
+        [ 3.6716e-05,  9.8273e-06,  6.2212e-06,  ...,  1.5318e-05,
+          1.5132e-05,  1.4961e-05],
+        [ 2.5898e-05,  6.4559e-06,  3.9339e-06,  ...,  8.5160e-06,
+          8.9854e-06,  8.3372e-06]], device='cuda:0')
+Epoch 67, bias, value: tensor([ 0.0714,  0.0081, -0.0179, -0.0608,  0.0178, -0.0284,  0.0058],
+       device='cuda:0'), grad: tensor([-1.1188e-04,  3.1734e-04, -2.0221e-05,  5.3823e-05, -4.1795e-04,
+         1.1033e-04,  6.9141e-05], device='cuda:0')
+588
+8.03520570068517e-05
+changing lr
+epoch 66, time 789.18, cls_loss 0.0005 cls_loss_mapping 0.0035 cls_loss_causal 0.3567 re_mapping 0.0056 re_causal 0.0140 /// teacc 92.71 lr 0.00004525
+Epoch 68, weight, value: tensor([[-0.0945, -0.1099, -0.1503,  ...,  0.0244,  0.0525,  0.0377],
+        [ 0.2325,  0.2122,  0.2442,  ...,  0.0314,  0.0359,  0.0252],
+        [-0.0634, -0.0712, -0.0842,  ..., -0.0599, -0.0775, -0.0785],
+        ...,
+        [-0.2218, -0.2077, -0.1886,  ..., -0.0172, -0.0170, -0.0123],
+        [ 0.1041,  0.1108,  0.1246,  ..., -0.0530, -0.0485, -0.0524],
+        [ 0.0357,  0.0335,  0.0319,  ..., -0.0135, -0.0165, -0.0091]],
+       device='cuda:0'), grad: tensor([[ 9.5904e-05,  6.1035e-05,  6.4611e-05,  ...,  2.4572e-05,
+          2.9638e-05,  2.5541e-05],
+        [-1.1568e-03, -6.7329e-04, -7.0858e-04,  ..., -1.6499e-04,
+         -2.1207e-04, -1.7130e-04],
+        [ 1.8251e-04,  8.7857e-05,  9.2208e-05,  ...,  5.7310e-05,
+          6.7353e-05,  5.9038e-05],
+        ...,
+        [ 5.7602e-04,  3.3116e-04,  3.3569e-04,  ...,  1.0914e-04,
+          1.3900e-04,  1.1832e-04],
+        [ 1.6415e-04,  9.1374e-05,  1.0031e-04,  ...,  2.2128e-05,
+          2.6956e-05,  2.1100e-05],
+        [ 2.6441e-04,  1.5140e-04,  1.6344e-04,  ...,  3.5971e-05,
+          4.3869e-05,  3.4839e-05]], device='cuda:0')
+Epoch 68, bias, value: tensor([ 0.0715,  0.0081, -0.0179, -0.0608,  0.0178, -0.0285,  0.0058],
+       device='cuda:0'), grad: tensor([ 0.0001, -0.0015,  0.0003, -0.0002,  0.0008,  0.0002,  0.0003],
+       device='cuda:0')
+588
+4.5251191160326525e-05
+changing lr
+epoch 67, time 790.92, cls_loss 0.0005 cls_loss_mapping 0.0037 cls_loss_causal 0.3522 re_mapping 0.0057 re_causal 0.0140 /// teacc 93.97 lr 0.00002013
+Epoch 69, weight, value: tensor([[-0.0945, -0.1099, -0.1503,  ...,  0.0244,  0.0525,  0.0377],
+        [ 0.2325,  0.2122,  0.2442,  ...,  0.0314,  0.0359,  0.0252],
+        [-0.0634, -0.0712, -0.0842,  ..., -0.0599, -0.0775, -0.0784],
+        ...,
+        [-0.2218, -0.2077, -0.1886,  ..., -0.0172, -0.0170, -0.0123],
+        [ 0.1041,  0.1108,  0.1246,  ..., -0.0530, -0.0485, -0.0524],
+        [ 0.0357,  0.0335,  0.0318,  ..., -0.0135, -0.0165, -0.0091]],
+       device='cuda:0'), grad: tensor([[ 1.9145e-04,  5.7161e-05,  3.0041e-05,  ...,  3.8981e-05,
+          3.7760e-05,  3.4571e-05],
+        [ 1.0885e-05,  1.1064e-06, -1.4063e-06,  ...,  1.0841e-06,
+          6.1514e-07,  5.4296e-07],
+        [ 3.4332e-05,  8.8140e-06,  4.2804e-06,  ...,  5.4985e-06,
+          5.7667e-06,  4.8243e-06],
+        ...,
+        [-3.8934e-04, -1.1307e-04, -5.8293e-05,  ..., -7.6592e-05,
+         -7.5161e-05, -6.7890e-05],
+        [ 4.4286e-05,  1.2510e-05,  6.5118e-06,  ...,  8.3819e-06,
+          8.5384e-06,  7.5027e-06],
+        [ 4.1634e-05,  1.2763e-05,  7.1228e-06,  ...,  8.5682e-06,
+          8.4639e-06,  7.7039e-06]], device='cuda:0')
+Epoch 69, bias, value: tensor([ 0.0715,  0.0081, -0.0179, -0.0608,  0.0178, -0.0285,  0.0058],
+       device='cuda:0'), grad: tensor([ 4.7398e-04,  3.5584e-05,  9.0063e-05,  1.6248e-04, -9.7513e-04,
+         1.1194e-04,  1.0157e-04], device='cuda:0')
+588
+2.0128530023804673e-05
+changing lr
+epoch 68, time 782.87, cls_loss 0.0006 cls_loss_mapping 0.0041 cls_loss_causal 0.3614 re_mapping 0.0057 re_causal 0.0139 /// teacc 94.72 lr 0.00000503
+Epoch 70, weight, value: tensor([[-0.0945, -0.1099, -0.1503,  ...,  0.0244,  0.0525,  0.0377],
+        [ 0.2325,  0.2121,  0.2441,  ...,  0.0314,  0.0359,  0.0252],
+        [-0.0634, -0.0712, -0.0842,  ..., -0.0599, -0.0775, -0.0784],
+        ...,
+        [-0.2218, -0.2077, -0.1886,  ..., -0.0172, -0.0170, -0.0123],
+        [ 0.1041,  0.1108,  0.1246,  ..., -0.0530, -0.0485, -0.0524],
+        [ 0.0357,  0.0335,  0.0318,  ..., -0.0135, -0.0165, -0.0091]],
+       device='cuda:0'), grad: tensor([[ 7.4625e-04,  3.4142e-04,  2.9564e-04,  ...,  1.3793e-04,
+          1.3316e-04,  1.3506e-04],
+        [-5.5695e-04, -3.1757e-04, -2.9588e-04,  ..., -2.0981e-05,
+         -2.5749e-05, -2.4766e-05],
+        [-5.8651e-04, -1.5652e-04, -9.7096e-05,  ..., -1.9526e-04,
+         -1.6868e-04, -1.7869e-04],
+        ...,
+        [ 3.4714e-04,  1.2934e-04,  1.0431e-04,  ...,  1.0133e-04,
+          9.6619e-05,  9.6619e-05],
+        [ 6.6698e-05,  2.9922e-05,  2.6062e-05,  ...,  1.5393e-05,
+          1.5378e-05,  1.5073e-05],
+        [ 1.0866e-04,  5.4061e-05,  4.9651e-05,  ...,  2.6464e-05,
+          2.9162e-05,  2.7150e-05]], device='cuda:0')
+Epoch 70, bias, value: tensor([ 0.0715,  0.0081, -0.0179, -0.0608,  0.0178, -0.0285,  0.0058],
+       device='cuda:0'), grad: tensor([ 0.0015, -0.0009, -0.0016, -0.0001,  0.0008,  0.0001,  0.0002],
+       device='cuda:0')
+588
+5.034667293427056e-06
+changing lr
+epoch 69, time 787.19, cls_loss 0.0005 cls_loss_mapping 0.0051 cls_loss_causal 0.3718 re_mapping 0.0057 re_causal 0.0140 /// teacc 93.47 lr 0.00000000
+---------------------saving last model at epoch 69----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps2', 'source_domain': 'sketch', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps2/sketch_16factor_best_test_check.csv', 'factor_num': 16, 'epoch': 'best', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of best
+randm: False
+stride: 5
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+columns: ['sketch', 'art_painting', 'cartoon', 'photo']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+                        sketch  art_painting    cartoon      photo        Avg
+w/o do (original x)  99.516416     55.810547  64.974403  56.886228  59.223726
+       sketch  art_painting    cartoon      photo        Avg
+do  99.414609     48.144531  61.390785  53.353293  54.296203
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps2', 'source_domain': 'sketch', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps2/sketch_16factor_last_test_check.csv', 'factor_num': 16, 'epoch': 'last', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of last
+randm: False
+stride: 5
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+columns: ['sketch', 'art_painting', 'cartoon', 'photo']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+                        sketch  art_painting    cartoon      photo        Avg
+w/o do (original x)  99.363706     57.519531  66.552901  60.239521  61.437318
+       sketch  art_painting    cartoon      photo        Avg
+do  99.440061     56.054688  65.486348  59.341317  60.294118
diff --git a/Meta-causal/code-withStyleAttack/73764.error b/Meta-causal/code-withStyleAttack/73764.error
new file mode 100644
index 0000000000000000000000000000000000000000..66663d356c0c65db0c8baefb03adbc6cb56c3698
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73764.error
@@ -0,0 +1,33 @@
+/scratch/yuqian_fu/micromamba/envs/auto-mbc2l5uijcy3/lib/python3.11/site-packages/torch/storage.py:414: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  return torch.load(io.BytesIO(b))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py:225: FutureWarning: `torch.cuda.amp.GradScaler(args...)` is deprecated. Please use `torch.amp.GradScaler('cuda', args...)` instead.
+  scaler = GradScaler()
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py:247: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with autocast():
+Traceback (most recent call last):
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py", line 672, in <module>
+    experiment()
+  File "/scratch/yuqian_fu/micromamba/envs/auto-mbc2l5uijcy3/lib/python3.11/site-packages/click/core.py", line 1157, in __call__
+    return self.main(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-mbc2l5uijcy3/lib/python3.11/site-packages/click/core.py", line 1078, in main
+    rv = self.invoke(ctx)
+         ^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-mbc2l5uijcy3/lib/python3.11/site-packages/click/core.py", line 1434, in invoke
+    return ctx.invoke(self.callback, **ctx.params)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-mbc2l5uijcy3/lib/python3.11/site-packages/click/core.py", line 783, in invoke
+    return __callback(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py", line 273, in experiment
+    adv_style_mean_block1, adv_style_std_block1, adv_style_mean_block2, adv_style_std_block2, adv_style_mean_block3, adv_style_std_block3 = adversarial_attack_Incre(cls_net, cls_criterion, x_RA, y, epsilon_list)
+                                                                                                                                            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/tool_func.py", line 187, in adversarial_attack_Incre
+    ori_style_mean_block3, ori_style_std_block3 = calc_mean_std(x_ori_block3)
+                                                  ^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/tool_func.py", line 19, in calc_mean_std
+    assert (len(size) == 4)
+            ^^^^^^^^^^^^^^
+AssertionError
+slurmstepd: error: *** JOB 73764 ON gcpl4-eu-0 CANCELLED AT 2024-08-05T08:57:29 ***
+slurmstepd: error: *** STEP 73764.0 ON gcpl4-eu-0 CANCELLED AT 2024-08-05T08:57:29 ***
diff --git a/Meta-causal/code-withStyleAttack/73764.log b/Meta-causal/code-withStyleAttack/73764.log
new file mode 100644
index 0000000000000000000000000000000000000000..8a5d3b91fa031df5c88460a657d70db4e63c5281
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73764.log
@@ -0,0 +1,22 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 500, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps1_RA', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 3
+--------------------------CA_multiple--------------------------
+---------------------------14 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+Epoch 1, weight, value: tensor([[-0.0010,  0.0102, -0.0287,  ...,  0.0063, -0.0032,  0.0239],
+        [-0.0166, -0.0058,  0.0193,  ..., -0.0011,  0.0189, -0.0066],
+        [ 0.0068,  0.0064, -0.0134,  ...,  0.0104, -0.0278,  0.0060],
+        ...,
+        [ 0.0182, -0.0116,  0.0244,  ..., -0.0167,  0.0049, -0.0256],
+        [-0.0230, -0.0194, -0.0141,  ...,  0.0098, -0.0289, -0.0030],
+        [ 0.0196,  0.0216,  0.0258,  ..., -0.0108,  0.0208,  0.0110]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([ 0.0302,  0.0098, -0.0187, -0.0011,  0.0113,  0.0204,  0.0101,  0.0234,
+        -0.0148, -0.0095], device='cuda:0'), grad: None
+100
diff --git a/Meta-causal/code-withStyleAttack/73765.error b/Meta-causal/code-withStyleAttack/73765.error
new file mode 100644
index 0000000000000000000000000000000000000000..a8a3ce7e52bea242daa4b938eb68723d707d5e81
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73765.error
@@ -0,0 +1,96 @@
+/scratch/yuqian_fu/micromamba/envs/auto-72vhe6zjf3ib/lib/python3.11/site-packages/torch/storage.py:414: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  return torch.load(io.BytesIO(b))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py:225: FutureWarning: `torch.cuda.amp.GradScaler(args...)` is deprecated. Please use `torch.amp.GradScaler('cuda', args...)` instead.
+  scaler = GradScaler()
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py:247: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with autocast():
+Traceback (most recent call last):
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py", line 672, in <module>
+    experiment()
+  File "/scratch/yuqian_fu/micromamba/envs/auto-72vhe6zjf3ib/lib/python3.11/site-packages/click/core.py", line 1157, in __call__
+    return self.main(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-72vhe6zjf3ib/lib/python3.11/site-packages/click/core.py", line 1078, in main
+    rv = self.invoke(ctx)
+         ^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-72vhe6zjf3ib/lib/python3.11/site-packages/click/core.py", line 1434, in invoke
+    return ctx.invoke(self.callback, **ctx.params)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-72vhe6zjf3ib/lib/python3.11/site-packages/click/core.py", line 783, in invoke
+    return __callback(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py", line 273, in experiment
+    adv_style_mean_block1, adv_style_std_block1, adv_style_mean_block2, adv_style_std_block2, adv_style_mean_block3, adv_style_std_block3 = adversarial_attack_Incre(cls_net, cls_criterion, x_RA, y, epsilon_list)
+                                                                                                                                            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/tool_func.py", line 187, in adversarial_attack_Incre
+    ori_style_mean_block3, ori_style_std_block3 = calc_mean_std(x_ori_block3)
+                                                  ^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/tool_func.py", line 19, in calc_mean_std
+    assert (len(size) == 4)
+            ^^^^^^^^^^^^^^
+AssertionError
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_digit_v13.py:45: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'best_cls_net.pkl'))
+Traceback (most recent call last):
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_digit_v13.py", line 145, in <module>
+    main()
+  File "/scratch/yuqian_fu/micromamba/envs/auto-72vhe6zjf3ib/lib/python3.11/site-packages/click/core.py", line 1157, in __call__
+    return self.main(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-72vhe6zjf3ib/lib/python3.11/site-packages/click/core.py", line 1078, in main
+    rv = self.invoke(ctx)
+         ^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-72vhe6zjf3ib/lib/python3.11/site-packages/click/core.py", line 1434, in invoke
+    return ctx.invoke(self.callback, **ctx.params)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-72vhe6zjf3ib/lib/python3.11/site-packages/click/core.py", line 783, in invoke
+    return __callback(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_digit_v13.py", line 29, in main
+    evaluate_digit(gpu, svroot, svpath, channels, factor_num, stride,epoch, eval_mapping)
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_digit_v13.py", line 45, in evaluate_digit
+    saved_weight = torch.load(os.path.join(svroot, 'best_cls_net.pkl'))
+                   ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-72vhe6zjf3ib/lib/python3.11/site-packages/torch/serialization.py", line 1065, in load
+    with _open_file_like(f, 'rb') as opened_file:
+         ^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-72vhe6zjf3ib/lib/python3.11/site-packages/torch/serialization.py", line 468, in _open_file_like
+    return _open_file(name_or_buffer, mode)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-72vhe6zjf3ib/lib/python3.11/site-packages/torch/serialization.py", line 449, in __init__
+    super().__init__(open(name, mode))
+                     ^^^^^^^^^^^^^^^^
+FileNotFoundError: [Errno 2] No such file or directory: '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps1_RA/best_cls_net.pkl'
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_digit_v13.py:48: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'last_cls_net.pkl'))
+Traceback (most recent call last):
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_digit_v13.py", line 145, in <module>
+    main()
+  File "/scratch/yuqian_fu/micromamba/envs/auto-72vhe6zjf3ib/lib/python3.11/site-packages/click/core.py", line 1157, in __call__
+    return self.main(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-72vhe6zjf3ib/lib/python3.11/site-packages/click/core.py", line 1078, in main
+    rv = self.invoke(ctx)
+         ^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-72vhe6zjf3ib/lib/python3.11/site-packages/click/core.py", line 1434, in invoke
+    return ctx.invoke(self.callback, **ctx.params)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-72vhe6zjf3ib/lib/python3.11/site-packages/click/core.py", line 783, in invoke
+    return __callback(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_digit_v13.py", line 29, in main
+    evaluate_digit(gpu, svroot, svpath, channels, factor_num, stride,epoch, eval_mapping)
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_digit_v13.py", line 48, in evaluate_digit
+    saved_weight = torch.load(os.path.join(svroot, 'last_cls_net.pkl'))
+                   ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-72vhe6zjf3ib/lib/python3.11/site-packages/torch/serialization.py", line 1065, in load
+    with _open_file_like(f, 'rb') as opened_file:
+         ^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-72vhe6zjf3ib/lib/python3.11/site-packages/torch/serialization.py", line 468, in _open_file_like
+    return _open_file(name_or_buffer, mode)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-72vhe6zjf3ib/lib/python3.11/site-packages/torch/serialization.py", line 449, in __init__
+    super().__init__(open(name, mode))
+                     ^^^^^^^^^^^^^^^^
+FileNotFoundError: [Errno 2] No such file or directory: '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps1_RA/last_cls_net.pkl'
+srun: error: gcpl4-eu-4: task 0: Exited with exit code 1
diff --git a/Meta-causal/code-withStyleAttack/73765.log b/Meta-causal/code-withStyleAttack/73765.log
new file mode 100644
index 0000000000000000000000000000000000000000..adb7c53661786f6b081c3b44a4c065060a4c19d5
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73765.log
@@ -0,0 +1,28 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 500, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps1_RA', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 3
+--------------------------CA_multiple--------------------------
+---------------------------14 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+Epoch 1, weight, value: tensor([[-0.0128,  0.0060, -0.0054,  ..., -0.0203,  0.0303,  0.0084],
+        [-0.0285, -0.0046,  0.0098,  ..., -0.0264, -0.0134, -0.0136],
+        [ 0.0266, -0.0277, -0.0084,  ..., -0.0112, -0.0297,  0.0311],
+        ...,
+        [ 0.0247,  0.0260, -0.0072,  ..., -0.0026,  0.0066, -0.0214],
+        [ 0.0018,  0.0162,  0.0054,  ..., -0.0162,  0.0112, -0.0263],
+        [ 0.0310,  0.0115, -0.0126,  ..., -0.0082, -0.0026, -0.0038]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([ 0.0159,  0.0270,  0.0303, -0.0006, -0.0084, -0.0255, -0.0144,  0.0308,
+        -0.0104,  0.0292], device='cuda:0'), grad: None
+100
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps1_RA', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps1_RA/14factor_best.csv', 'channels': 3, 'factor_num': 14, 'stride': 3, 'epoch': 'best', 'eval_mapping': True}
+loading weight of best
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps1_RA', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps1_RA/14factor_last.csv', 'channels': 3, 'factor_num': 14, 'stride': 3, 'epoch': 'last', 'eval_mapping': True}
+loading weight of last
diff --git a/Meta-causal/code-withStyleAttack/73766.error b/Meta-causal/code-withStyleAttack/73766.error
new file mode 100644
index 0000000000000000000000000000000000000000..1a4d12840feeec2f0f264b245f7905f571c9b3d3
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73766.error
@@ -0,0 +1,16 @@
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py:225: FutureWarning: `torch.cuda.amp.GradScaler(args...)` is deprecated. Please use `torch.amp.GradScaler('cuda', args...)` instead.
+  scaler = GradScaler()
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py:247: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with autocast():
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:44: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'best_cls_net.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:58: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'best_mapping_'+str(i)+'.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:68: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'best_E_to_W.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:47: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'last_cls_net.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:61: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'last_mapping_'+str(i)+'.pkl'))
+/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py:71: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  saved_weight = torch.load(os.path.join(svroot, 'last_E_to_W.pkl'))
diff --git a/Meta-causal/code-withStyleAttack/73766.log b/Meta-causal/code-withStyleAttack/73766.log
new file mode 100644
index 0000000000000000000000000000000000000000..f95a64a361303ad44abcd6c94aa00a7a699544a6
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73766.log
@@ -0,0 +1,1870 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'photo', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 5, 'factor_num': 16, 'epochs': 70, 'nbatch': 100, 'batchsize': 6, 'lr': 0.01, 'lr_scheduler': 'cosine', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//photo/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps1_RA_repeat', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 5
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_train.hdf5 torch.Size([1499, 3, 227, 227]) torch.Size([1499])
+--------------------------CA_multiple--------------------------
+---------------------------16 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_val.hdf5 torch.Size([171, 3, 227, 227]) torch.Size([171])
+-------------------------------------loading pretrain weights----------------------------------
+Epoch 1, weight, value: tensor([[ 0.0041,  0.0207, -0.0077,  ...,  0.0090,  0.0170,  0.0028],
+        [ 0.0097, -0.0137, -0.0030,  ...,  0.0091,  0.0208, -0.0191],
+        [-0.0200, -0.0138, -0.0094,  ...,  0.0213,  0.0134, -0.0101],
+        ...,
+        [-0.0031,  0.0079,  0.0148,  ...,  0.0083, -0.0022, -0.0086],
+        [ 0.0023, -0.0039,  0.0085,  ..., -0.0169, -0.0207, -0.0105],
+        [-0.0204, -0.0101,  0.0135,  ..., -0.0202,  0.0021,  0.0039]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([ 0.0168, -0.0204,  0.0171, -0.0100,  0.0122,  0.0034, -0.0083],
+       device='cuda:0'), grad: None
+249
+0.01
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 328.04, cls_loss 12.3285 cls_loss_mapping 1.5743 cls_loss_causal 1.7093 re_mapping 0.5029 re_causal 0.5021 /// teacc 42.69 lr 0.00999497
+Epoch 2, weight, value: tensor([[ 0.0806,  0.0979,  0.0322,  ...,  0.0049,  0.0013,  0.0016],
+        [-0.0891, -0.0909, -0.0997,  ..., -0.0512,  0.0041, -0.0834],
+        [-0.0414, -0.0397, -0.0141,  ...,  0.0265, -0.0240, -0.0375],
+        ...,
+        [-0.0395, -0.0549, -0.0132,  ...,  0.0733,  0.0263,  0.0311],
+        [-0.0512, -0.0253, -0.0534,  ..., -0.0343, -0.0698, -0.0448],
+        [ 0.1202,  0.1275,  0.1626,  ..., -0.0923, -0.0109, -0.0019]],
+       device='cuda:0'), grad: tensor([[ 0.0258,  0.0135,  0.0039,  ...,  0.0085,  0.0035,  0.0035],
+        [-0.0181, -0.0107, -0.0024,  ..., -0.0072, -0.0023, -0.0009],
+        [ 0.0141,  0.0076,  0.0043,  ...,  0.0067,  0.0030,  0.0018],
+        ...,
+        [ 0.0320,  0.0172,  0.0096,  ...,  0.0152,  0.0067,  0.0040],
+        [-0.1096, -0.0575, -0.0323,  ..., -0.0508, -0.0232, -0.0150],
+        [ 0.0326,  0.0175,  0.0098,  ...,  0.0160,  0.0070,  0.0039]],
+       device='cuda:0')
+Epoch 2, bias, value: tensor([ 0.0665,  0.0081,  0.0509, -0.0436,  0.0429, -0.0208, -0.0932],
+       device='cuda:0'), grad: tensor([ 0.0765, -0.0126,  0.0306,  0.0511,  0.0686, -0.2800,  0.0657],
+       device='cuda:0')
+249
+0.009994965332706574
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 328.92, cls_loss 2.2266 cls_loss_mapping 1.1671 cls_loss_causal 1.3959 re_mapping 0.1256 re_causal 0.1245 /// teacc 54.39 lr 0.00997987
+Epoch 3, weight, value: tensor([[ 0.0755,  0.0854,  0.0223,  ...,  0.0188,  0.0139,  0.0173],
+        [-0.1050, -0.1059, -0.1274,  ..., -0.0483,  0.0053, -0.0817],
+        [-0.0278, -0.0293, -0.0017,  ...,  0.0300, -0.0264, -0.0385],
+        ...,
+        [-0.0520, -0.0710, -0.0232,  ...,  0.0739,  0.0279,  0.0344],
+        [-0.0462, -0.0186, -0.0451,  ..., -0.0560, -0.0890, -0.0671],
+        [ 0.1301,  0.1493,  0.1794,  ..., -0.1049, -0.0189, -0.0107]],
+       device='cuda:0'), grad: tensor([[ 0.0210,  0.0086,  0.0037,  ...,  0.0146,  0.0075,  0.0057],
+        [ 0.0216,  0.0091,  0.0044,  ...,  0.0155,  0.0087,  0.0070],
+        [ 0.0156,  0.0065,  0.0030,  ...,  0.0102,  0.0051,  0.0038],
+        ...,
+        [ 0.0411,  0.0174,  0.0083,  ...,  0.0268,  0.0137,  0.0106],
+        [-0.2141, -0.0903, -0.0414,  ..., -0.1223, -0.0476, -0.0331],
+        [-0.0315, -0.0168, -0.0130,  ..., -0.0124, -0.0091, -0.0092]],
+       device='cuda:0')
+Epoch 3, bias, value: tensor([ 0.0612,  0.0128,  0.0711, -0.0212,  0.0568, -0.0341, -0.1361],
+       device='cuda:0'), grad: tensor([ 0.0480,  0.0515,  0.0365,  0.3518,  0.0977, -0.4834, -0.1021],
+       device='cuda:0')
+249
+0.009979871469976196
+changing lr
+epoch 2, time 328.07, cls_loss 1.6508 cls_loss_mapping 0.8533 cls_loss_causal 1.1405 re_mapping 0.1107 re_causal 0.1092 /// teacc 43.27 lr 0.00995475
+Epoch 4, weight, value: tensor([[ 0.0929,  0.1021,  0.0452,  ...,  0.0205,  0.0201,  0.0275],
+        [-0.1317, -0.1291, -0.1553,  ..., -0.0556, -0.0021, -0.0900],
+        [-0.0005, -0.0066,  0.0176,  ...,  0.0492, -0.0091, -0.0232],
+        ...,
+        [-0.0565, -0.0722, -0.0220,  ...,  0.0674,  0.0222,  0.0287],
+        [-0.0426, -0.0129, -0.0439,  ..., -0.0612, -0.0975, -0.0749],
+        [ 0.1251,  0.1393,  0.1731,  ..., -0.1051, -0.0189, -0.0132]],
+       device='cuda:0'), grad: tensor([[ 0.0323,  0.0141,  0.0141,  ...,  0.0124,  0.0062,  0.0055],
+        [ 0.0334,  0.0115,  0.0130,  ...,  0.0159,  0.0115,  0.0080],
+        [-0.0419, -0.0097, -0.0117,  ..., -0.0201, -0.0086, -0.0077],
+        ...,
+        [-0.1156, -0.0612, -0.0610,  ..., -0.0418, -0.0280, -0.0229],
+        [ 0.0024,  0.0010,  0.0011,  ...,  0.0009,  0.0004,  0.0004],
+        [ 0.0709,  0.0370,  0.0364,  ...,  0.0247,  0.0138,  0.0126]],
+       device='cuda:0')
+Epoch 4, bias, value: tensor([ 0.0733, -0.0484,  0.0864, -0.0268,  0.0908, -0.0282, -0.1370],
+       device='cuda:0'), grad: tensor([ 0.0681,  0.1196, -0.1030,  0.0478, -0.2786,  0.0052,  0.1409],
+       device='cuda:0')
+249
+0.009954748808839675
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 330.54, cls_loss 1.4102 cls_loss_mapping 0.6470 cls_loss_causal 0.9715 re_mapping 0.0946 re_causal 0.0925 /// teacc 77.19 lr 0.00991965
+Epoch 5, weight, value: tensor([[ 0.1021,  0.1082,  0.0558,  ...,  0.0227,  0.0215,  0.0301],
+        [-0.1205, -0.1211, -0.1480,  ..., -0.0445,  0.0067, -0.0803],
+        [ 0.0108,  0.0058,  0.0233,  ...,  0.0449, -0.0193, -0.0309],
+        ...,
+        [-0.0646, -0.0826, -0.0366,  ...,  0.0580,  0.0143,  0.0228],
+        [-0.0472, -0.0178, -0.0483,  ..., -0.0654, -0.0994, -0.0794],
+        [ 0.1141,  0.1368,  0.1698,  ..., -0.1095, -0.0189, -0.0151]],
+       device='cuda:0'), grad: tensor([[-0.0292, -0.0067, -0.0099,  ..., -0.0085, -0.0042, -0.0030],
+        [ 0.0619,  0.0148,  0.0165,  ...,  0.0259,  0.0137,  0.0124],
+        [-0.0691, -0.0168, -0.0143,  ..., -0.0348, -0.0188, -0.0182],
+        ...,
+        [-0.0536, -0.0107, -0.0084,  ..., -0.0421, -0.0257, -0.0264],
+        [ 0.0040,  0.0009,  0.0007,  ...,  0.0025,  0.0015,  0.0015],
+        [ 0.0048,  0.0011,  0.0009,  ...,  0.0026,  0.0014,  0.0014]],
+       device='cuda:0')
+Epoch 5, bias, value: tensor([ 0.0704, -0.0303,  0.0656,  0.0026,  0.0692, -0.0089, -0.1585],
+       device='cuda:0'), grad: tensor([-0.1077,  0.1888, -0.1777,  0.1881, -0.1130,  0.0094,  0.0123],
+       device='cuda:0')
+249
+0.009919647942993149
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 334.03, cls_loss 1.3158 cls_loss_mapping 0.5101 cls_loss_causal 0.8892 re_mapping 0.0855 re_causal 0.0834 /// teacc 84.21 lr 0.00987464
+Epoch 6, weight, value: tensor([[ 0.0793,  0.0906,  0.0408,  ...,  0.0199,  0.0203,  0.0290],
+        [-0.1072, -0.1078, -0.1340,  ..., -0.0465,  0.0058, -0.0799],
+        [ 0.0284,  0.0186,  0.0323,  ...,  0.0362, -0.0274, -0.0397],
+        ...,
+        [-0.0744, -0.0941, -0.0491,  ...,  0.0560,  0.0099,  0.0183],
+        [-0.0568, -0.0259, -0.0561,  ..., -0.0676, -0.1014, -0.0813],
+        [ 0.1281,  0.1506,  0.1832,  ..., -0.1055, -0.0169, -0.0125]],
+       device='cuda:0'), grad: tensor([[ 2.1164e-02,  8.8272e-03,  9.5825e-03,  ...,  4.4441e-04,
+         -2.2602e-03, -3.6850e-03],
+        [ 2.5543e-02,  9.6207e-03,  1.1208e-02,  ...,  5.3291e-03,
+          3.2196e-03,  1.1883e-03],
+        [ 2.1011e-02,  7.0343e-03,  7.5188e-03,  ...,  5.7373e-03,
+          2.9163e-03,  1.3037e-03],
+        ...,
+        [ 2.6596e-02,  1.9318e-02,  2.2980e-02,  ...,  2.6855e-03,
+          4.1428e-03,  3.3798e-03],
+        [ 6.1150e-03,  2.1019e-03,  2.1915e-03,  ...,  1.2999e-03,
+          4.8089e-04,  2.6956e-05],
+        [-1.1462e-01, -5.1758e-02, -5.8624e-02,  ..., -1.9928e-02,
+         -1.1055e-02, -3.7251e-03]], device='cuda:0')
+Epoch 6, bias, value: tensor([ 0.1190, -0.0475,  0.0738, -0.0121,  0.0560, -0.0130, -0.1660],
+       device='cuda:0'), grad: tensor([ 0.0582,  0.0546,  0.0554,  0.0359, -0.0010,  0.0160, -0.2190],
+       device='cuda:0')
+249
+0.009874639560909117
+changing lr
+epoch 5, time 329.85, cls_loss 1.1547 cls_loss_mapping 0.4385 cls_loss_causal 0.8479 re_mapping 0.0812 re_causal 0.0792 /// teacc 79.53 lr 0.00981981
+Epoch 7, weight, value: tensor([[ 0.0883,  0.0981,  0.0492,  ...,  0.0134,  0.0104,  0.0195],
+        [-0.1033, -0.1092, -0.1363,  ..., -0.0510,  0.0040, -0.0806],
+        [ 0.0255,  0.0188,  0.0320,  ...,  0.0357, -0.0222, -0.0383],
+        ...,
+        [-0.0910, -0.1046, -0.0603,  ...,  0.0653,  0.0178,  0.0298],
+        [-0.0530, -0.0238, -0.0521,  ..., -0.0684, -0.1016, -0.0838],
+        [ 0.1283,  0.1518,  0.1848,  ..., -0.1020, -0.0158, -0.0117]],
+       device='cuda:0'), grad: tensor([[ 0.0604,  0.0214,  0.0201,  ...,  0.0237,  0.0145,  0.0152],
+        [-0.0547, -0.0210, -0.0169,  ..., -0.0184, -0.0130, -0.0121],
+        [-0.0213, -0.0029, -0.0016,  ..., -0.0107, -0.0048, -0.0050],
+        ...,
+        [ 0.0221,  0.0061,  0.0028,  ...,  0.0053,  0.0017,  0.0014],
+        [ 0.0040,  0.0015,  0.0015,  ...,  0.0013,  0.0007,  0.0008],
+        [-0.0275, -0.0114, -0.0120,  ..., -0.0073, -0.0026, -0.0043]],
+       device='cuda:0')
+Epoch 7, bias, value: tensor([ 0.1099, -0.0230,  0.0583,  0.0044,  0.0656, -0.0406, -0.1646],
+       device='cuda:0'), grad: tensor([ 0.1075, -0.1266, -0.0558,  0.0421,  0.0897,  0.0098, -0.0667],
+       device='cuda:0')
+249
+0.009819814303479266
+changing lr
+epoch 6, time 326.67, cls_loss 1.1271 cls_loss_mapping 0.3584 cls_loss_causal 0.7879 re_mapping 0.0775 re_causal 0.0756 /// teacc 76.02 lr 0.00975528
+Epoch 8, weight, value: tensor([[ 0.0711,  0.0809,  0.0296,  ...,  0.0088,  0.0043,  0.0145],
+        [-0.1045, -0.1063, -0.1341,  ..., -0.0397,  0.0157, -0.0668],
+        [ 0.0211,  0.0105,  0.0239,  ...,  0.0413, -0.0161, -0.0322],
+        ...,
+        [-0.0833, -0.0990, -0.0501,  ...,  0.0567,  0.0107,  0.0225],
+        [-0.0458, -0.0236, -0.0506,  ..., -0.0682, -0.1008, -0.0849],
+        [ 0.1406,  0.1675,  0.1989,  ..., -0.1046, -0.0191, -0.0158]],
+       device='cuda:0'), grad: tensor([[ 1.6815e-02,  4.2381e-03,  4.5357e-03,  ...,  4.2076e-03,
+          2.6627e-03,  1.6079e-03],
+        [-1.6083e-02, -5.0449e-04, -1.7424e-03,  ..., -3.0537e-03,
+         -1.0414e-03, -3.4392e-05],
+        [ 1.3191e-02,  3.0155e-03,  2.9793e-03,  ...,  3.5172e-03,
+          2.2888e-03,  1.3504e-03],
+        ...,
+        [ 3.3661e-02,  6.4659e-03,  6.8054e-03,  ...,  8.5526e-03,
+          5.1994e-03,  2.8610e-03],
+        [ 1.0887e-02,  3.1624e-03,  3.0499e-03,  ...,  3.0060e-03,
+          2.0752e-03,  1.3409e-03],
+        [-5.9784e-02, -1.6724e-02, -1.5961e-02,  ..., -1.6602e-02,
+         -1.1436e-02, -7.2823e-03]], device='cuda:0')
+Epoch 8, bias, value: tensor([ 0.1165,  0.0103,  0.0518, -0.0153,  0.0377, -0.0192, -0.1721],
+       device='cuda:0'), grad: tensor([ 0.0467, -0.0516,  0.0388,  0.0040,  0.1010,  0.0303, -0.1691],
+       device='cuda:0')
+249
+0.009755282581475767
+changing lr
+---------------------saving model at epoch 7----------------------------------------------------
+epoch 7, time 332.33, cls_loss 1.0205 cls_loss_mapping 0.3281 cls_loss_causal 0.7437 re_mapping 0.0703 re_causal 0.0688 /// teacc 94.74 lr 0.00968117
+Epoch 9, weight, value: tensor([[ 0.0655,  0.0778,  0.0290,  ...,  0.0109,  0.0081,  0.0178],
+        [-0.0935, -0.1044, -0.1313,  ..., -0.0413,  0.0119, -0.0695],
+        [ 0.0122,  0.0072,  0.0218,  ...,  0.0457, -0.0096, -0.0250],
+        ...,
+        [-0.0895, -0.1031, -0.0576,  ...,  0.0494,  0.0036,  0.0173],
+        [-0.0527, -0.0276, -0.0559,  ..., -0.0737, -0.1073, -0.0920],
+        [ 0.1482,  0.1761,  0.2075,  ..., -0.1117, -0.0270, -0.0244]],
+       device='cuda:0'), grad: tensor([[-0.0704, -0.0111, -0.0158,  ..., -0.0218, -0.0181, -0.0171],
+        [ 0.0493,  0.0078,  0.0108,  ...,  0.0125,  0.0097,  0.0085],
+        [ 0.0060,  0.0010,  0.0014,  ...,  0.0014,  0.0011,  0.0009],
+        ...,
+        [ 0.0272,  0.0043,  0.0060,  ...,  0.0072,  0.0057,  0.0050],
+        [-0.0365, -0.0060, -0.0084,  ..., -0.0059, -0.0040, -0.0023],
+        [ 0.0010,  0.0002,  0.0002,  ...,  0.0002,  0.0002,  0.0001]],
+       device='cuda:0')
+Epoch 9, bias, value: tensor([ 0.1084,  0.0215,  0.0581,  0.0034,  0.0180, -0.0383, -0.1613],
+       device='cuda:0'), grad: tensor([-0.2130,  0.1293,  0.0164,  0.0725,  0.0736, -0.0812,  0.0026],
+       device='cuda:0')
+249
+0.009681174353198686
+changing lr
+epoch 8, time 331.92, cls_loss 0.9519 cls_loss_mapping 0.2813 cls_loss_causal 0.6873 re_mapping 0.0690 re_causal 0.0674 /// teacc 74.27 lr 0.00959764
+Epoch 10, weight, value: tensor([[ 0.0632,  0.0775,  0.0291,  ...,  0.0156,  0.0120,  0.0230],
+        [-0.1114, -0.1079, -0.1396,  ..., -0.0458,  0.0084, -0.0705],
+        [ 0.0107,  0.0053,  0.0206,  ...,  0.0454, -0.0096, -0.0244],
+        ...,
+        [-0.0776, -0.0953, -0.0465,  ...,  0.0499,  0.0077,  0.0182],
+        [-0.0492, -0.0308, -0.0586,  ..., -0.0804, -0.1166, -0.1012],
+        [ 0.1539,  0.1826,  0.2116,  ..., -0.1141, -0.0304, -0.0279]],
+       device='cuda:0'), grad: tensor([[-3.4149e-02, -1.7075e-02, -1.7670e-02,  ..., -7.3738e-03,
+         -6.0005e-03, -6.1493e-03],
+        [-3.9093e-02, -1.2817e-02, -1.5022e-02,  ..., -5.9776e-03,
+         -9.7351e-03, -5.1575e-03],
+        [ 4.4922e-02,  1.9516e-02,  2.0401e-02,  ...,  9.8114e-03,
+          9.0637e-03,  8.3160e-03],
+        ...,
+        [ 4.0375e-02,  1.1116e-02,  1.2596e-02,  ...,  8.0872e-03,
+          1.0765e-02,  7.0953e-03],
+        [-1.4709e-02, -1.2846e-03, -8.9836e-04,  ..., -5.2071e-03,
+         -4.8714e-03, -4.6921e-03],
+        [ 1.8346e-04, -1.4395e-05, -1.1884e-06,  ...,  2.6703e-05,
+          5.5432e-05,  2.5854e-05]], device='cuda:0')
+Epoch 10, bias, value: tensor([ 0.1135,  0.0183,  0.0807, -0.0265,  0.0165, -0.0341, -0.1587],
+       device='cuda:0'), grad: tensor([-0.0498, -0.1252,  0.0838,  0.0073,  0.1248, -0.0418,  0.0009],
+       device='cuda:0')
+249
+0.009597638862757255
+changing lr
+epoch 9, time 329.09, cls_loss 0.9671 cls_loss_mapping 0.2545 cls_loss_causal 0.6727 re_mapping 0.0667 re_causal 0.0652 /// teacc 88.30 lr 0.00950484
+Epoch 11, weight, value: tensor([[ 0.0512,  0.0741,  0.0275,  ...,  0.0174,  0.0153,  0.0271],
+        [-0.0926, -0.0992, -0.1311,  ..., -0.0423,  0.0122, -0.0663],
+        [ 0.0180,  0.0045,  0.0183,  ...,  0.0390, -0.0136, -0.0289],
+        ...,
+        [-0.0884, -0.1046, -0.0546,  ...,  0.0459,  0.0022,  0.0134],
+        [-0.0528, -0.0319, -0.0592,  ..., -0.0815, -0.1193, -0.1015],
+        [ 0.1608,  0.1935,  0.2216,  ..., -0.1105, -0.0272, -0.0268]],
+       device='cuda:0'), grad: tensor([[ 0.0069,  0.0024,  0.0031,  ...,  0.0024,  0.0027,  0.0022],
+        [-0.0634, -0.0111, -0.0202,  ..., -0.0131, -0.0175, -0.0111],
+        [ 0.0605,  0.0114,  0.0197,  ...,  0.0150,  0.0192,  0.0132],
+        ...,
+        [ 0.0064,  0.0026,  0.0031,  ...,  0.0019,  0.0022,  0.0017],
+        [ 0.0036,  0.0012,  0.0015,  ...,  0.0021,  0.0023,  0.0020],
+        [-0.0086, -0.0053, -0.0056,  ..., -0.0005, -0.0005, -0.0003]],
+       device='cuda:0')
+Epoch 11, bias, value: tensor([ 0.1092,  0.0245,  0.0954, -0.0343, -0.0178, -0.0177, -0.1501],
+       device='cuda:0'), grad: tensor([ 0.0146, -0.1552,  0.1486, -0.0186,  0.0125,  0.0086, -0.0105],
+       device='cuda:0')
+249
+0.009504844339512096
+changing lr
+epoch 10, time 330.61, cls_loss 0.8677 cls_loss_mapping 0.2115 cls_loss_causal 0.6044 re_mapping 0.0645 re_causal 0.0630 /// teacc 88.89 lr 0.00940298
+Epoch 12, weight, value: tensor([[ 0.0533,  0.0726,  0.0248,  ...,  0.0079,  0.0041,  0.0166],
+        [-0.0923, -0.0968, -0.1302,  ..., -0.0392,  0.0156, -0.0649],
+        [ 0.0133,  0.0006,  0.0156,  ...,  0.0298, -0.0240, -0.0363],
+        ...,
+        [-0.0960, -0.1126, -0.0620,  ...,  0.0487,  0.0110,  0.0201],
+        [-0.0550, -0.0307, -0.0566,  ..., -0.0801, -0.1174, -0.0991],
+        [ 0.1767,  0.2036,  0.2309,  ..., -0.1105, -0.0298, -0.0289]],
+       device='cuda:0'), grad: tensor([[ 6.2103e-03,  1.2302e-03,  1.9684e-03,  ...,  1.1110e-03,
+          1.4257e-03,  1.4706e-03],
+        [ 1.1263e-03,  2.5225e-04,  3.6550e-04,  ...,  2.1648e-04,
+          2.7752e-04,  2.8324e-04],
+        [ 4.2076e-03, -1.3840e-04,  1.0347e-03,  ...,  2.9159e-04,
+          3.8481e-04,  4.8208e-04],
+        ...,
+        [-1.1940e-02, -1.4353e-03, -3.4981e-03,  ..., -1.6928e-03,
+         -2.1839e-03, -2.3327e-03],
+        [ 1.8167e-04,  3.9846e-05,  6.1452e-05,  ...,  3.0190e-05,
+          3.8952e-05,  4.0352e-05],
+        [ 1.3196e-04,  2.9266e-05,  4.1127e-05,  ...,  2.6554e-05,
+          3.4243e-05,  3.4899e-05]], device='cuda:0')
+Epoch 12, bias, value: tensor([ 0.0990,  0.0170,  0.0597, -0.0340, -0.0004, -0.0047, -0.1275],
+       device='cuda:0'), grad: tensor([ 0.0247,  0.0043,  0.0240,  0.0003, -0.0545,  0.0007,  0.0005],
+       device='cuda:0')
+249
+0.009402977659283692
+changing lr
+---------------------saving model at epoch 11----------------------------------------------------
+epoch 11, time 331.19, cls_loss 0.8594 cls_loss_mapping 0.1861 cls_loss_causal 0.5998 re_mapping 0.0623 re_causal 0.0610 /// teacc 96.49 lr 0.00929224
+Epoch 13, weight, value: tensor([[ 6.2814e-02,  7.3441e-02,  2.2405e-02,  ..., -4.8237e-03,
+         -6.0718e-03,  5.2522e-03],
+        [-9.2762e-02, -9.2045e-02, -1.2446e-01,  ..., -2.4398e-02,
+          3.2369e-02, -4.9289e-02],
+        [ 1.6479e-02, -1.7004e-04,  1.2857e-02,  ...,  3.3231e-02,
+         -2.0912e-02, -3.3961e-02],
+        ...,
+        [-1.0067e-01, -1.1331e-01, -6.0309e-02,  ...,  5.0409e-02,
+          1.1058e-02,  2.2917e-02],
+        [-5.6428e-02, -3.3847e-02, -6.0100e-02,  ..., -8.7616e-02,
+         -1.2580e-01, -1.0642e-01],
+        [ 1.7163e-01,  2.0295e-01,  2.3100e-01,  ..., -1.1376e-01,
+         -3.3123e-02, -3.3123e-02]], device='cuda:0'), grad: tensor([[ 0.0477,  0.0087,  0.0102,  ...,  0.0077,  0.0133,  0.0070],
+        [ 0.0009,  0.0002,  0.0002,  ...,  0.0005,  0.0005,  0.0005],
+        [ 0.0049,  0.0010,  0.0010,  ...,  0.0020,  0.0022,  0.0022],
+        ...,
+        [-0.0584, -0.0110, -0.0124,  ..., -0.0121, -0.0181, -0.0119],
+        [ 0.0008,  0.0002,  0.0002,  ...,  0.0003,  0.0004,  0.0004],
+        [ 0.0008,  0.0002,  0.0002,  ...,  0.0003,  0.0004,  0.0004]],
+       device='cuda:0')
+Epoch 13, bias, value: tensor([ 0.0886, -0.0081,  0.0858, -0.0343,  0.0154,  0.0007, -0.1392],
+       device='cuda:0'), grad: tensor([ 0.1378,  0.0026,  0.0148,  0.0097, -0.1698,  0.0025,  0.0025],
+       device='cuda:0')
+249
+0.009292243968009333
+changing lr
+epoch 12, time 328.66, cls_loss 0.7884 cls_loss_mapping 0.1570 cls_loss_causal 0.5338 re_mapping 0.0606 re_causal 0.0592 /// teacc 85.96 lr 0.00917287
+Epoch 14, weight, value: tensor([[ 0.0615,  0.0769,  0.0281,  ..., -0.0086, -0.0078,  0.0025],
+        [-0.1012, -0.0984, -0.1294,  ..., -0.0246,  0.0306, -0.0496],
+        [ 0.0153, -0.0004,  0.0110,  ...,  0.0283, -0.0253, -0.0378],
+        ...,
+        [-0.0983, -0.1116, -0.0615,  ...,  0.0510,  0.0112,  0.0251],
+        [-0.0436, -0.0272, -0.0524,  ..., -0.0877, -0.1262, -0.1079],
+        [ 0.1741,  0.2049,  0.2322,  ..., -0.1117, -0.0330, -0.0334]],
+       device='cuda:0'), grad: tensor([[-1.2360e-02, -1.6689e-03, -2.1782e-03,  ..., -1.3695e-03,
+         -1.8444e-03, -1.2569e-03],
+        [-2.6188e-03, -1.7560e-04,  4.6194e-05,  ..., -1.2903e-03,
+         -1.0080e-03, -1.2169e-03],
+        [ 1.1909e-02,  1.7262e-03,  1.8282e-03,  ...,  1.4267e-03,
+          1.8158e-03,  1.7233e-03],
+        ...,
+        [ 2.5406e-02,  3.6488e-03,  3.6907e-03,  ...,  3.9711e-03,
+          4.4861e-03,  4.4441e-03],
+        [-3.0823e-02, -4.4365e-03, -4.2458e-03,  ..., -3.6411e-03,
+         -4.6196e-03, -4.9553e-03],
+        [ 4.1847e-03,  2.7370e-04,  2.4772e-04,  ...,  3.6621e-04,
+          5.0259e-04,  5.5885e-04]], device='cuda:0')
+Epoch 14, bias, value: tensor([ 0.0458, -0.0057,  0.0768, -0.0453,  0.0524,  0.0168, -0.1319],
+       device='cuda:0'), grad: tensor([-0.0580, -0.0057,  0.0432,  0.0136,  0.0892, -0.0966,  0.0143],
+       device='cuda:0')
+249
+0.009172866268606516
+changing lr
+epoch 13, time 330.53, cls_loss 0.7788 cls_loss_mapping 0.1604 cls_loss_causal 0.5419 re_mapping 0.0587 re_causal 0.0576 /// teacc 89.47 lr 0.00904508
+Epoch 15, weight, value: tensor([[ 0.0543,  0.0690,  0.0245,  ..., -0.0101, -0.0094,  0.0020],
+        [-0.0891, -0.0909, -0.1231,  ..., -0.0165,  0.0380, -0.0410],
+        [ 0.0096, -0.0032,  0.0056,  ...,  0.0338, -0.0202, -0.0313],
+        ...,
+        [-0.1022, -0.1135, -0.0643,  ...,  0.0398,  0.0018,  0.0146],
+        [-0.0513, -0.0273, -0.0520,  ..., -0.0899, -0.1276, -0.1114],
+        [ 0.1794,  0.2118,  0.2379,  ..., -0.1066, -0.0298, -0.0298]],
+       device='cuda:0'), grad: tensor([[-3.8727e-02, -5.3978e-03, -6.6414e-03,  ..., -4.4403e-03,
+         -6.5880e-03, -5.6458e-03],
+        [ 2.5787e-02,  2.8992e-03,  3.8128e-03,  ...,  3.4657e-03,
+          4.7989e-03,  4.3488e-03],
+        [ 3.3234e-02,  1.5211e-03,  3.5324e-03,  ...,  7.4463e-03,
+          8.7738e-03,  8.9951e-03],
+        ...,
+        [-2.9022e-02,  3.4499e-04, -1.8139e-03,  ..., -8.2016e-03,
+         -9.1019e-03, -9.8038e-03],
+        [ 8.5068e-04,  6.1452e-05,  1.0502e-04,  ...,  1.6069e-04,
+          1.9574e-04,  1.9622e-04],
+        [ 5.4836e-04,  5.0932e-05,  7.6413e-05,  ...,  9.1612e-05,
+          1.1808e-04,  1.1295e-04]], device='cuda:0')
+Epoch 15, bias, value: tensor([ 0.0235,  0.0189,  0.0600, -0.0188,  0.0581,  0.0033, -0.1361],
+       device='cuda:0'), grad: tensor([-0.1204,  0.0803,  0.0999,  0.0220, -0.0862,  0.0026,  0.0017],
+       device='cuda:0')
+249
+0.00904508497187474
+changing lr
+epoch 14, time 332.05, cls_loss 0.7896 cls_loss_mapping 0.1331 cls_loss_causal 0.5382 re_mapping 0.0563 re_causal 0.0555 /// teacc 88.89 lr 0.00890916
+Epoch 16, weight, value: tensor([[ 0.0507,  0.0644,  0.0202,  ..., -0.0115, -0.0100,  0.0012],
+        [-0.0902, -0.0853, -0.1148,  ..., -0.0046,  0.0471, -0.0318],
+        [ 0.0073, -0.0051,  0.0031,  ...,  0.0341, -0.0184, -0.0285],
+        ...,
+        [-0.0909, -0.1086, -0.0602,  ...,  0.0317, -0.0028,  0.0092],
+        [-0.0494, -0.0279, -0.0526,  ..., -0.0870, -0.1246, -0.1088],
+        [ 0.1756,  0.2082,  0.2327,  ..., -0.1124, -0.0380, -0.0372]],
+       device='cuda:0'), grad: tensor([[-0.0344, -0.0060, -0.0095,  ..., -0.0063, -0.0076, -0.0072],
+        [ 0.0205,  0.0037,  0.0054,  ...,  0.0044,  0.0049,  0.0048],
+        [-0.0551, -0.0103, -0.0130,  ..., -0.0145, -0.0147, -0.0149],
+        ...,
+        [ 0.0391,  0.0071,  0.0099,  ...,  0.0091,  0.0097,  0.0096],
+        [ 0.0194,  0.0036,  0.0046,  ...,  0.0051,  0.0051,  0.0052],
+        [ 0.0020,  0.0004,  0.0005,  ...,  0.0005,  0.0005,  0.0005]],
+       device='cuda:0')
+Epoch 16, bias, value: tensor([ 0.0318,  0.0176,  0.0590, -0.0301,  0.0591, -0.0022, -0.1263],
+       device='cuda:0'), grad: tensor([-0.1025,  0.0603, -0.1576,  0.0245,  0.1137,  0.0556,  0.0058],
+       device='cuda:0')
+249
+0.008909157412340152
+changing lr
+epoch 15, time 330.68, cls_loss 0.7538 cls_loss_mapping 0.1214 cls_loss_causal 0.5324 re_mapping 0.0535 re_causal 0.0527 /// teacc 89.47 lr 0.00876536
+Epoch 17, weight, value: tensor([[ 0.0495,  0.0606,  0.0159,  ..., -0.0167, -0.0161, -0.0039],
+        [-0.0854, -0.0851, -0.1131,  ..., -0.0048,  0.0466, -0.0312],
+        [ 0.0095, -0.0045,  0.0021,  ...,  0.0302, -0.0208, -0.0313],
+        ...,
+        [-0.0978, -0.1112, -0.0638,  ...,  0.0395,  0.0065,  0.0183],
+        [-0.0519, -0.0292, -0.0548,  ..., -0.0917, -0.1277, -0.1138],
+        [ 0.1782,  0.2135,  0.2395,  ..., -0.1085, -0.0353, -0.0343]],
+       device='cuda:0'), grad: tensor([[ 4.2748e-04,  1.1969e-04,  1.2207e-04,  ...,  1.3006e-04,
+          1.2010e-04,  1.0848e-04],
+        [ 1.0085e-04,  3.1233e-05,  3.2514e-05,  ...,  3.7760e-05,
+          3.5286e-05,  3.2365e-05],
+        [-7.5006e-04, -8.9109e-05, -1.0699e-04,  ..., -2.6321e-04,
+         -2.5272e-04, -2.2566e-04],
+        ...,
+        [ 2.4629e-04,  6.0737e-05,  6.2585e-05,  ...,  7.6532e-05,
+          7.1466e-05,  6.4731e-05],
+        [ 1.7762e-04,  2.6643e-05,  2.8387e-05,  ...,  5.7787e-05,
+          5.5104e-05,  5.0515e-05],
+        [-3.4380e-04, -1.7953e-04, -1.7190e-04,  ..., -9.0003e-05,
+         -7.7963e-05, -7.4148e-05]], device='cuda:0')
+Epoch 17, bias, value: tensor([ 0.0431,  0.0347,  0.0788, -0.0381,  0.0351, -0.0139, -0.1310],
+       device='cuda:0'), grad: tensor([ 0.0012,  0.0003, -0.0028,  0.0005,  0.0007,  0.0006, -0.0005],
+       device='cuda:0')
+249
+0.00876535733001806
+changing lr
+epoch 16, time 330.33, cls_loss 0.7158 cls_loss_mapping 0.0959 cls_loss_causal 0.5369 re_mapping 0.0526 re_causal 0.0519 /// teacc 94.15 lr 0.00861397
+Epoch 18, weight, value: tensor([[ 0.0449,  0.0565,  0.0137,  ..., -0.0169, -0.0154, -0.0049],
+        [-0.0928, -0.0910, -0.1204,  ..., -0.0028,  0.0457, -0.0285],
+        [ 0.0077, -0.0064,  0.0016,  ...,  0.0295, -0.0225, -0.0319],
+        ...,
+        [-0.0945, -0.1056, -0.0579,  ...,  0.0404,  0.0117,  0.0230],
+        [-0.0543, -0.0308, -0.0577,  ..., -0.0970, -0.1333, -0.1192],
+        [ 0.1882,  0.2196,  0.2448,  ..., -0.1046, -0.0314, -0.0324]],
+       device='cuda:0'), grad: tensor([[ 2.9640e-03,  1.5087e-05, -1.2487e-05,  ...,  6.4421e-04,
+          9.0408e-04,  8.3351e-04],
+        [-3.9124e-02, -5.6763e-03, -5.1651e-03,  ..., -8.2016e-03,
+         -1.0010e-02, -9.6970e-03],
+        [ 5.2719e-03,  8.2636e-04,  7.5102e-04,  ...,  1.0967e-03,
+          1.3180e-03,  1.2846e-03],
+        ...,
+        [ 7.3853e-03,  1.2684e-03,  1.1692e-03,  ...,  1.5392e-03,
+          1.8225e-03,  1.7834e-03],
+        [ 4.0970e-03,  5.9843e-04,  5.4550e-04,  ...,  8.5926e-04,
+          1.0481e-03,  1.0147e-03],
+        [ 3.9024e-03,  6.8951e-04,  6.3562e-04,  ...,  8.1110e-04,
+          9.5463e-04,  9.3699e-04]], device='cuda:0')
+Epoch 18, bias, value: tensor([ 0.0450,  0.0189,  0.0744, -0.0380,  0.0326, -0.0089, -0.1155],
+       device='cuda:0'), grad: tensor([ 0.0156, -0.1628,  0.0215,  0.0645,  0.0291,  0.0170,  0.0153],
+       device='cuda:0')
+249
+0.008613974319136962
+changing lr
+epoch 17, time 332.15, cls_loss 0.6988 cls_loss_mapping 0.1077 cls_loss_causal 0.4824 re_mapping 0.0497 re_causal 0.0490 /// teacc 93.57 lr 0.00845531
+Epoch 19, weight, value: tensor([[ 0.0339,  0.0438,  0.0010,  ..., -0.0201, -0.0196, -0.0092],
+        [-0.0835, -0.0845, -0.1132,  ..., -0.0004,  0.0460, -0.0263],
+        [ 0.0090, -0.0067,  0.0012,  ...,  0.0233, -0.0282, -0.0372],
+        ...,
+        [-0.0906, -0.1018, -0.0536,  ...,  0.0414,  0.0144,  0.0254],
+        [-0.0498, -0.0311, -0.0574,  ..., -0.1009, -0.1372, -0.1226],
+        [ 0.1849,  0.2209,  0.2455,  ..., -0.1042, -0.0302, -0.0325]],
+       device='cuda:0'), grad: tensor([[ 1.2932e-03,  1.5438e-04,  1.7822e-04,  ...,  5.6267e-04,
+          5.2834e-04,  5.4789e-04],
+        [-1.9791e-02, -3.1681e-03, -3.7670e-03,  ..., -7.5111e-03,
+         -7.0915e-03, -7.2899e-03],
+        [ 4.6349e-03,  7.2432e-04,  8.5878e-04,  ...,  1.7843e-03,
+          1.6842e-03,  1.7319e-03],
+        ...,
+        [ 1.2718e-02,  2.1267e-03,  2.5406e-03,  ...,  4.6883e-03,
+          4.4327e-03,  4.5471e-03],
+        [ 1.4830e-04,  2.1055e-05,  2.5973e-05,  ...,  6.6638e-05,
+          6.2168e-05,  6.6042e-05],
+        [ 2.1327e-04,  3.4451e-05,  4.0352e-05,  ...,  8.3327e-05,
+          7.8619e-05,  8.0943e-05]], device='cuda:0')
+Epoch 19, bias, value: tensor([ 0.0250,  0.0310,  0.0902, -0.0317,  0.0387, -0.0252, -0.1194],
+       device='cuda:0'), grad: tensor([ 0.0054, -0.0831,  0.0194,  0.0032,  0.0535,  0.0007,  0.0009],
+       device='cuda:0')
+249
+0.008455313244934327
+changing lr
+epoch 18, time 332.32, cls_loss 0.7309 cls_loss_mapping 0.0882 cls_loss_causal 0.5184 re_mapping 0.0476 re_causal 0.0468 /// teacc 95.91 lr 0.00828969
+Epoch 20, weight, value: tensor([[ 0.0337,  0.0446,  0.0015,  ..., -0.0211, -0.0204, -0.0103],
+        [-0.0897, -0.0866, -0.1140,  ...,  0.0029,  0.0484, -0.0236],
+        [ 0.0073, -0.0084, -0.0016,  ...,  0.0239, -0.0258, -0.0362],
+        ...,
+        [-0.0875, -0.0985, -0.0495,  ...,  0.0371,  0.0106,  0.0229],
+        [-0.0529, -0.0351, -0.0617,  ..., -0.1022, -0.1382, -0.1231],
+        [ 0.1910,  0.2242,  0.2488,  ..., -0.1034, -0.0304, -0.0334]],
+       device='cuda:0'), grad: tensor([[ 0.0155,  0.0025,  0.0032,  ...,  0.0038,  0.0036,  0.0040],
+        [-0.0185, -0.0019, -0.0018,  ..., -0.0065, -0.0066, -0.0069],
+        [ 0.0057,  0.0012,  0.0016,  ...,  0.0009,  0.0008,  0.0010],
+        ...,
+        [-0.0304, -0.0078, -0.0112,  ..., -0.0026, -0.0014, -0.0026],
+        [ 0.0060,  0.0012,  0.0016,  ...,  0.0011,  0.0010,  0.0012],
+        [ 0.0158,  0.0035,  0.0048,  ...,  0.0023,  0.0018,  0.0024]],
+       device='cuda:0')
+Epoch 20, bias, value: tensor([ 0.0229,  0.0047,  0.0509, -0.0327,  0.0590,  0.0081, -0.1043],
+       device='cuda:0'), grad: tensor([ 0.0580, -0.0692,  0.0212,  0.0220, -0.1139,  0.0226,  0.0591],
+       device='cuda:0')
+249
+0.008289693629698565
+changing lr
+---------------------saving model at epoch 19----------------------------------------------------
+epoch 19, time 331.35, cls_loss 0.6405 cls_loss_mapping 0.0975 cls_loss_causal 0.4552 re_mapping 0.0467 re_causal 0.0465 /// teacc 97.66 lr 0.00811745
+Epoch 21, weight, value: tensor([[ 0.0233,  0.0409, -0.0019,  ..., -0.0184, -0.0186, -0.0071],
+        [-0.0808, -0.0887, -0.1161,  ..., -0.0016,  0.0459, -0.0268],
+        [ 0.0061, -0.0060,  0.0007,  ...,  0.0297, -0.0216, -0.0308],
+        ...,
+        [-0.0845, -0.0976, -0.0496,  ...,  0.0321,  0.0055,  0.0183],
+        [-0.0483, -0.0342, -0.0608,  ..., -0.1027, -0.1387, -0.1238],
+        [ 0.1853,  0.2265,  0.2511,  ..., -0.1003, -0.0282, -0.0320]],
+       device='cuda:0'), grad: tensor([[ 0.0071,  0.0009,  0.0009,  ...,  0.0016,  0.0014,  0.0014],
+        [-0.0539, -0.0104, -0.0101,  ..., -0.0222, -0.0219, -0.0188],
+        [ 0.0016,  0.0002,  0.0002,  ..., -0.0003, -0.0004, -0.0004],
+        ...,
+        [ 0.0222,  0.0062,  0.0053,  ...,  0.0171,  0.0176,  0.0145],
+        [ 0.0126,  0.0017,  0.0020,  ...,  0.0020,  0.0018,  0.0018],
+        [ 0.0014,  0.0002,  0.0002,  ...,  0.0002,  0.0002,  0.0002]],
+       device='cuda:0')
+Epoch 21, bias, value: tensor([ 0.0173,  0.0031,  0.0273, -0.0330,  0.0884,  0.0304, -0.1249],
+       device='cuda:0'), grad: tensor([ 0.0259, -0.1476,  0.0072,  0.0380,  0.0166,  0.0540,  0.0058],
+       device='cuda:0')
+249
+0.00811744900929367
+changing lr
+---------------------saving model at epoch 20----------------------------------------------------
+epoch 20, time 333.43, cls_loss 0.6067 cls_loss_mapping 0.0854 cls_loss_causal 0.4607 re_mapping 0.0461 re_causal 0.0455 /// teacc 98.25 lr 0.00793893
+Epoch 22, weight, value: tensor([[ 0.0405,  0.0514,  0.0106,  ..., -0.0137, -0.0141, -0.0019],
+        [-0.0799, -0.0906, -0.1176,  ...,  0.0028,  0.0508, -0.0216],
+        [ 0.0059, -0.0075, -0.0031,  ...,  0.0258, -0.0251, -0.0343],
+        ...,
+        [-0.0937, -0.1027, -0.0542,  ...,  0.0320,  0.0055,  0.0172],
+        [-0.0520, -0.0341, -0.0624,  ..., -0.1042, -0.1404, -0.1254],
+        [ 0.1820,  0.2247,  0.2515,  ..., -0.1011, -0.0297, -0.0345]],
+       device='cuda:0'), grad: tensor([[ 0.0032,  0.0005, -0.0003,  ...,  0.0037,  0.0050,  0.0054],
+        [-0.0380, -0.0085, -0.0084,  ..., -0.0027, -0.0043, -0.0056],
+        [ 0.0186,  0.0038,  0.0040,  ...,  0.0095,  0.0096,  0.0096],
+        ...,
+        [ 0.0214,  0.0046,  0.0049,  ...,  0.0069,  0.0071,  0.0073],
+        [ 0.0202,  0.0040,  0.0038,  ...,  0.0141,  0.0146,  0.0146],
+        [ 0.0059,  0.0013,  0.0013,  ...,  0.0014,  0.0016,  0.0018]],
+       device='cuda:0')
+Epoch 22, bias, value: tensor([ 0.0392,  0.0122,  0.0013, -0.0322,  0.0914,  0.0076, -0.1111],
+       device='cuda:0'), grad: tensor([ 0.0113, -0.1250,  0.0560, -0.0873,  0.0663,  0.0597,  0.0190],
+       device='cuda:0')
+249
+0.007938926261462368
+changing lr
+epoch 21, time 327.98, cls_loss 0.6550 cls_loss_mapping 0.0824 cls_loss_causal 0.4821 re_mapping 0.0436 re_causal 0.0438 /// teacc 94.15 lr 0.00775448
+Epoch 23, weight, value: tensor([[ 3.4201e-02,  5.0662e-02,  8.9740e-03,  ..., -2.1122e-04,
+         -2.7622e-03,  1.0790e-02],
+        [-7.5561e-02, -8.4475e-02, -1.1104e-01,  ..., -4.7518e-04,
+          5.0359e-02, -2.2617e-02],
+        [ 7.8655e-03, -8.7703e-03, -3.6687e-03,  ...,  1.9358e-02,
+         -3.0439e-02, -4.0037e-02],
+        ...,
+        [-9.6102e-02, -1.0140e-01, -5.3479e-02,  ...,  2.6631e-02,
+         -4.5946e-05,  1.2200e-02],
+        [-5.1474e-02, -3.3746e-02, -6.1860e-02,  ..., -1.0549e-01,
+         -1.4164e-01, -1.2638e-01],
+        [ 1.8815e-01,  2.2104e-01,  2.4732e-01,  ..., -9.9035e-02,
+         -3.0846e-02, -3.4547e-02]], device='cuda:0'), grad: tensor([[ 0.0206,  0.0029,  0.0030,  ...,  0.0016,  0.0024,  0.0024],
+        [ 0.0091,  0.0012,  0.0016,  ...,  0.0006,  0.0010,  0.0011],
+        [-0.0322, -0.0047, -0.0033,  ..., -0.0027, -0.0037, -0.0035],
+        ...,
+        [ 0.0049,  0.0007,  0.0007,  ...,  0.0003,  0.0005,  0.0006],
+        [ 0.0188,  0.0025,  0.0033,  ...,  0.0012,  0.0021,  0.0022],
+        [-0.0283, -0.0036, -0.0068,  ..., -0.0015, -0.0031, -0.0036]],
+       device='cuda:0')
+Epoch 23, bias, value: tensor([-0.0102,  0.0090,  0.0143, -0.0455,  0.0791,  0.0312, -0.0695],
+       device='cuda:0'), grad: tensor([ 0.0809,  0.0351, -0.1302,  0.0270,  0.0193,  0.0726, -0.1045],
+       device='cuda:0')
+249
+0.007754484907260515
+changing lr
+epoch 22, time 330.59, cls_loss 0.6359 cls_loss_mapping 0.0691 cls_loss_causal 0.4715 re_mapping 0.0417 re_causal 0.0414 /// teacc 88.89 lr 0.00756450
+Epoch 24, weight, value: tensor([[ 0.0297,  0.0495,  0.0066,  ...,  0.0025, -0.0029,  0.0126],
+        [-0.0726, -0.0838, -0.1098,  ...,  0.0009,  0.0526, -0.0210],
+        [ 0.0102, -0.0069, -0.0015,  ...,  0.0206, -0.0283, -0.0378],
+        ...,
+        [-0.0925, -0.1007, -0.0532,  ...,  0.0323,  0.0066,  0.0201],
+        [-0.0484, -0.0315, -0.0589,  ..., -0.1099, -0.1459, -0.1307],
+        [ 0.1805,  0.2173,  0.2427,  ..., -0.1020, -0.0350, -0.0389]],
+       device='cuda:0'), grad: tensor([[ 0.0157,  0.0022,  0.0028,  ...,  0.0115,  0.0073,  0.0072],
+        [ 0.0063,  0.0010,  0.0014,  ...,  0.0021,  0.0018,  0.0019],
+        [ 0.0055,  0.0010,  0.0011,  ...,  0.0009,  0.0011,  0.0012],
+        ...,
+        [-0.0447, -0.0077, -0.0091,  ..., -0.0168, -0.0125, -0.0138],
+        [ 0.0102,  0.0021,  0.0024,  ...,  0.0016,  0.0019,  0.0023],
+        [ 0.0037,  0.0002,  0.0003,  ...,  0.0004,  0.0005,  0.0008]],
+       device='cuda:0')
+Epoch 24, bias, value: tensor([-0.0262,  0.0202,  0.0096, -0.0479,  0.0986,  0.0423, -0.0883],
+       device='cuda:0'), grad: tensor([ 0.0757,  0.0298,  0.0225,  0.0187, -0.2087,  0.0410,  0.0209],
+       device='cuda:0')
+249
+0.007564496387029534
+changing lr
+epoch 23, time 328.95, cls_loss 0.6473 cls_loss_mapping 0.0632 cls_loss_causal 0.4710 re_mapping 0.0390 re_causal 0.0383 /// teacc 90.06 lr 0.00736934
+Epoch 25, weight, value: tensor([[ 0.0354,  0.0505,  0.0064,  ..., -0.0128, -0.0179, -0.0011],
+        [-0.0726, -0.0786, -0.1029,  ...,  0.0073,  0.0563, -0.0160],
+        [ 0.0039, -0.0110, -0.0055,  ...,  0.0250, -0.0243, -0.0333],
+        ...,
+        [-0.0857, -0.0961, -0.0482,  ...,  0.0355,  0.0116,  0.0246],
+        [-0.0518, -0.0322, -0.0606,  ..., -0.1137, -0.1492, -0.1351],
+        [ 0.1791,  0.2133,  0.2393,  ..., -0.1019, -0.0347, -0.0390]],
+       device='cuda:0'), grad: tensor([[-0.0074, -0.0009, -0.0006,  ..., -0.0032, -0.0046, -0.0038],
+        [ 0.0115,  0.0015,  0.0015,  ...,  0.0036,  0.0047,  0.0043],
+        [ 0.0023,  0.0003,  0.0004,  ...,  0.0005,  0.0005,  0.0006],
+        ...,
+        [-0.0173, -0.0023, -0.0032,  ..., -0.0030, -0.0032, -0.0037],
+        [ 0.0021,  0.0003,  0.0004,  ...,  0.0003,  0.0004,  0.0004],
+        [ 0.0032,  0.0004,  0.0005,  ...,  0.0007,  0.0007,  0.0008]],
+       device='cuda:0')
+Epoch 25, bias, value: tensor([-0.0229,  0.0201,  0.0102, -0.0626,  0.1099,  0.0253, -0.0719],
+       device='cuda:0'), grad: tensor([-0.0216,  0.0528,  0.0142,  0.0318, -0.1116,  0.0145,  0.0199],
+       device='cuda:0')
+249
+0.007369343312364995
+changing lr
+epoch 24, time 332.00, cls_loss 0.6398 cls_loss_mapping 0.0677 cls_loss_causal 0.4755 re_mapping 0.0390 re_causal 0.0388 /// teacc 89.47 lr 0.00716942
+Epoch 26, weight, value: tensor([[ 0.0382,  0.0500,  0.0073,  ..., -0.0081, -0.0154,  0.0036],
+        [-0.0729, -0.0787, -0.1029,  ...,  0.0119,  0.0599, -0.0118],
+        [-0.0049, -0.0143, -0.0077,  ...,  0.0240, -0.0250, -0.0342],
+        ...,
+        [-0.0900, -0.0957, -0.0487,  ...,  0.0295,  0.0070,  0.0202],
+        [-0.0457, -0.0301, -0.0592,  ..., -0.1130, -0.1475, -0.1339],
+        [ 0.1854,  0.2161,  0.2411,  ..., -0.1009, -0.0339, -0.0398]],
+       device='cuda:0'), grad: tensor([[ 0.0233,  0.0034,  0.0050,  ...,  0.0070,  0.0073,  0.0074],
+        [ 0.0038,  0.0006,  0.0008,  ...,  0.0008,  0.0008,  0.0008],
+        [ 0.0019,  0.0003,  0.0004,  ...,  0.0004,  0.0004,  0.0004],
+        ...,
+        [ 0.0039,  0.0006,  0.0007,  ...,  0.0009,  0.0010,  0.0010],
+        [-0.0287, -0.0046, -0.0056,  ..., -0.0058, -0.0062, -0.0063],
+        [ 0.0032,  0.0005,  0.0006,  ...,  0.0007,  0.0007,  0.0007]],
+       device='cuda:0')
+Epoch 26, bias, value: tensor([-0.0096,  0.0024, -0.0115, -0.0645,  0.1321,  0.0331, -0.0738],
+       device='cuda:0'), grad: tensor([ 0.0940,  0.0174,  0.0085, -0.0218,  0.0169, -0.1296,  0.0145],
+       device='cuda:0')
+249
+0.0071694186955877925
+changing lr
+epoch 25, time 330.45, cls_loss 0.6167 cls_loss_mapping 0.0631 cls_loss_causal 0.4583 re_mapping 0.0373 re_causal 0.0370 /// teacc 86.55 lr 0.00696513
+Epoch 27, weight, value: tensor([[ 0.0291,  0.0450,  0.0038,  ..., -0.0099, -0.0150,  0.0033],
+        [-0.0689, -0.0753, -0.1012,  ...,  0.0162,  0.0639, -0.0065],
+        [-0.0016, -0.0147, -0.0085,  ...,  0.0246, -0.0256, -0.0337],
+        ...,
+        [-0.0891, -0.0949, -0.0479,  ...,  0.0311,  0.0090,  0.0208],
+        [-0.0484, -0.0300, -0.0604,  ..., -0.1132, -0.1478, -0.1338],
+        [ 0.1865,  0.2173,  0.2434,  ..., -0.1022, -0.0355, -0.0417]],
+       device='cuda:0'), grad: tensor([[-0.0355, -0.0106, -0.0125,  ..., -0.0094, -0.0115, -0.0123],
+        [ 0.0024,  0.0023,  0.0016,  ...,  0.0023,  0.0015,  0.0001],
+        [ 0.0042,  0.0009,  0.0009,  ...,  0.0004,  0.0007,  0.0008],
+        ...,
+        [ 0.0084,  0.0021,  0.0023,  ...,  0.0014,  0.0019,  0.0022],
+        [ 0.0219,  0.0051,  0.0055,  ...,  0.0032,  0.0045,  0.0053],
+        [ 0.0339,  0.0082,  0.0092,  ...,  0.0056,  0.0077,  0.0090]],
+       device='cuda:0')
+Epoch 27, bias, value: tensor([-0.0398,  0.0162,  0.0080, -0.0598,  0.1309,  0.0240, -0.0714],
+       device='cuda:0'), grad: tensor([-0.0991, -0.0373,  0.0158, -0.1063,  0.0296,  0.0779,  0.1193],
+       device='cuda:0')
+249
+0.0069651251582696205
+changing lr
+epoch 26, time 329.67, cls_loss 0.5797 cls_loss_mapping 0.0547 cls_loss_causal 0.4521 re_mapping 0.0359 re_causal 0.0356 /// teacc 94.74 lr 0.00675687
+Epoch 28, weight, value: tensor([[ 0.0296,  0.0479,  0.0056,  ..., -0.0083, -0.0129,  0.0055],
+        [-0.0635, -0.0771, -0.1022,  ...,  0.0173,  0.0646, -0.0031],
+        [ 0.0014, -0.0160, -0.0100,  ...,  0.0202, -0.0299, -0.0372],
+        ...,
+        [-0.0881, -0.0948, -0.0474,  ...,  0.0348,  0.0136,  0.0242],
+        [-0.0515, -0.0288, -0.0590,  ..., -0.1128, -0.1473, -0.1337],
+        [ 0.1851,  0.2156,  0.2419,  ..., -0.1035, -0.0383, -0.0448]],
+       device='cuda:0'), grad: tensor([[-3.2379e-02, -1.0920e-03, -2.8629e-03,  ..., -4.0131e-03,
+         -5.5962e-03, -5.5771e-03],
+        [ 2.0889e-02,  2.8038e-03,  3.5915e-03,  ...,  3.9444e-03,
+          4.8485e-03,  4.9324e-03],
+        [ 6.1455e-03,  1.2851e-04,  7.3433e-04,  ..., -6.7186e-04,
+         -2.5487e-04, -3.5954e-04],
+        ...,
+        [ 2.0447e-03, -2.9111e-04, -1.8477e-04,  ...,  4.2272e-04,
+          3.9196e-04,  4.4465e-04],
+        [ 2.1057e-03,  9.6560e-05,  2.0063e-04,  ...,  3.1281e-04,
+          4.1771e-04,  4.1795e-04],
+        [-1.3342e-03, -1.7681e-03, -1.7300e-03,  ..., -3.4809e-04,
+         -2.8825e-04, -3.3569e-04]], device='cuda:0')
+Epoch 28, bias, value: tensor([-0.0779,  0.0406,  0.0447, -0.0915,  0.1372,  0.0079, -0.0530],
+       device='cuda:0'), grad: tensor([-0.1472,  0.0815,  0.0300,  0.0113,  0.0111,  0.0094,  0.0041],
+       device='cuda:0')
+249
+0.006756874120406716
+changing lr
+epoch 27, time 331.20, cls_loss 0.5574 cls_loss_mapping 0.0509 cls_loss_causal 0.4335 re_mapping 0.0341 re_causal 0.0339 /// teacc 95.32 lr 0.00654508
+Epoch 29, weight, value: tensor([[ 0.0304,  0.0503,  0.0085,  ..., -0.0058, -0.0120,  0.0072],
+        [-0.0768, -0.0828, -0.1073,  ...,  0.0146,  0.0624, -0.0061],
+        [-0.0012, -0.0181, -0.0123,  ...,  0.0214, -0.0270, -0.0360],
+        ...,
+        [-0.0904, -0.0955, -0.0495,  ...,  0.0372,  0.0162,  0.0272],
+        [-0.0497, -0.0261, -0.0575,  ..., -0.1099, -0.1450, -0.1310],
+        [ 0.1914,  0.2156,  0.2432,  ..., -0.1031, -0.0392, -0.0447]],
+       device='cuda:0'), grad: tensor([[-1.3367e-02, -4.8141e-03, -4.5052e-03,  ..., -1.5497e-03,
+         -1.6203e-03, -2.0981e-03],
+        [ 1.2231e-04,  5.2422e-05,  4.9323e-05,  ...,  8.0764e-05,
+          7.7248e-05,  1.1367e-04],
+        [ 1.6391e-05,  5.1928e-04,  6.5613e-04,  ..., -4.4060e-04,
+         -3.6407e-04, -4.4990e-04],
+        ...,
+        [ 8.2550e-03,  2.9011e-03,  2.6970e-03,  ...,  1.0481e-03,
+          1.0977e-03,  1.3857e-03],
+        [ 1.6584e-03,  4.9019e-04,  4.2510e-04,  ...,  3.0446e-04,
+          3.0375e-04,  3.7599e-04],
+        [ 8.2350e-04,  2.5725e-04,  2.3580e-04,  ...,  1.6701e-04,
+          1.8442e-04,  2.0158e-04]], device='cuda:0')
+Epoch 29, bias, value: tensor([-0.0906,  0.0002,  0.0289, -0.0507,  0.1348,  0.0144, -0.0292],
+       device='cuda:0'), grad: tensor([-0.0324,  0.0003, -0.0017,  0.0071,  0.0202,  0.0044,  0.0021],
+       device='cuda:0')
+249
+0.00654508497187474
+changing lr
+epoch 28, time 330.13, cls_loss 0.5201 cls_loss_mapping 0.0471 cls_loss_causal 0.3959 re_mapping 0.0325 re_causal 0.0319 /// teacc 98.25 lr 0.00633018
+Epoch 30, weight, value: tensor([[ 0.0278,  0.0433,  0.0012,  ..., -0.0062, -0.0116,  0.0061],
+        [-0.0718, -0.0800, -0.1032,  ...,  0.0200,  0.0680, -0.0004],
+        [-0.0048, -0.0208, -0.0152,  ...,  0.0243, -0.0240, -0.0325],
+        ...,
+        [-0.0927, -0.0954, -0.0493,  ...,  0.0318,  0.0101,  0.0223],
+        [-0.0482, -0.0270, -0.0577,  ..., -0.1149, -0.1492, -0.1351],
+        [ 0.1935,  0.2213,  0.2486,  ..., -0.1004, -0.0374, -0.0427]],
+       device='cuda:0'), grad: tensor([[ 3.3539e-02,  2.4433e-03,  4.3488e-03,  ...,  9.6436e-03,
+          9.1782e-03,  9.7198e-03],
+        [ 3.8635e-02,  4.2038e-03,  5.7144e-03,  ...,  1.1887e-02,
+          1.2558e-02,  1.4526e-02],
+        [ 1.7042e-03,  1.3375e-04,  2.2352e-04,  ...,  4.9543e-04,
+          4.7588e-04,  5.0545e-04],
+        ...,
+        [-3.3905e-02, -4.1199e-03, -5.1804e-03,  ..., -1.0689e-02,
+         -1.1513e-02, -1.3420e-02],
+        [-4.2877e-02, -2.8706e-03, -5.4817e-03,  ..., -1.2169e-02,
+         -1.1497e-02, -1.2177e-02],
+        [ 6.4850e-04,  4.6849e-05,  8.4221e-05,  ...,  1.8620e-04,
+          1.7869e-04,  1.9145e-04]], device='cuda:0')
+Epoch 30, bias, value: tensor([-0.0856,  0.0118,  0.0120, -0.0648,  0.1293,  0.0469, -0.0419],
+       device='cuda:0'), grad: tensor([ 0.1093,  0.1780,  0.0057,  0.0076, -0.1642, -0.1384,  0.0022],
+       device='cuda:0')
+249
+0.006330184227833378
+changing lr
+epoch 29, time 328.61, cls_loss 0.5769 cls_loss_mapping 0.0458 cls_loss_causal 0.4448 re_mapping 0.0318 re_causal 0.0321 /// teacc 91.23 lr 0.00611260
+Epoch 31, weight, value: tensor([[ 0.0227,  0.0393, -0.0026,  ...,  0.0007, -0.0055,  0.0133],
+        [-0.0735, -0.0797, -0.1031,  ...,  0.0189,  0.0667, -0.0018],
+        [-0.0030, -0.0226, -0.0156,  ...,  0.0212, -0.0272, -0.0356],
+        ...,
+        [-0.0894, -0.0942, -0.0486,  ...,  0.0219,  0.0020,  0.0137],
+        [-0.0473, -0.0221, -0.0541,  ..., -0.1089, -0.1438, -0.1290],
+        [ 0.1950,  0.2227,  0.2500,  ..., -0.1019, -0.0392, -0.0445]],
+       device='cuda:0'), grad: tensor([[ 2.0752e-02,  3.4256e-03,  3.6106e-03,  ...,  5.5504e-03,
+          5.8594e-03,  6.2523e-03],
+        [ 9.7427e-03,  1.3885e-03,  1.6747e-03,  ...,  1.0185e-03,
+          1.2217e-03,  1.5631e-03],
+        [-6.3965e-02, -9.3765e-03, -1.0880e-02,  ..., -9.0942e-03,
+         -1.0384e-02, -1.2352e-02],
+        ...,
+        [ 3.4294e-03,  3.5167e-04,  4.5967e-04,  ..., -5.0575e-05,
+          8.6367e-05,  2.1911e-04],
+        [ 7.1716e-03,  1.0052e-03,  1.2264e-03,  ...,  6.1607e-04,
+          7.6723e-04,  1.0319e-03],
+        [ 1.6373e-02,  2.2926e-03,  2.7981e-03,  ...,  1.3905e-03,
+          1.7357e-03,  2.3403e-03]], device='cuda:0')
+Epoch 31, bias, value: tensor([-0.0840,  0.0259,  0.0214, -0.0854,  0.1202,  0.0166, -0.0070],
+       device='cuda:0'), grad: tensor([ 0.0748,  0.0286, -0.1986,  0.0188,  0.0090,  0.0206,  0.0470],
+       device='cuda:0')
+249
+0.006112604669781575
+changing lr
+epoch 30, time 331.79, cls_loss 0.5156 cls_loss_mapping 0.0503 cls_loss_causal 0.4165 re_mapping 0.0308 re_causal 0.0313 /// teacc 92.98 lr 0.00589278
+Epoch 32, weight, value: tensor([[ 0.0300,  0.0474,  0.0041,  ..., -0.0004, -0.0067,  0.0131],
+        [-0.0771, -0.0815, -0.1040,  ...,  0.0176,  0.0646, -0.0019],
+        [-0.0086, -0.0254, -0.0183,  ...,  0.0227, -0.0271, -0.0362],
+        ...,
+        [-0.0879, -0.0921, -0.0471,  ...,  0.0200,  0.0009,  0.0115],
+        [-0.0438, -0.0222, -0.0538,  ..., -0.1073, -0.1405, -0.1267],
+        [ 0.1896,  0.2165,  0.2438,  ..., -0.1061, -0.0442, -0.0494]],
+       device='cuda:0'), grad: tensor([[ 0.0073,  0.0009,  0.0012,  ..., -0.0005,  0.0002,  0.0004],
+        [ 0.0295,  0.0042,  0.0056,  ...,  0.0088,  0.0124,  0.0111],
+        [ 0.0060,  0.0009,  0.0011,  ...,  0.0005,  0.0009,  0.0011],
+        ...,
+        [-0.0171, -0.0021, -0.0033,  ..., -0.0075, -0.0106, -0.0087],
+        [ 0.0152,  0.0023,  0.0027,  ...,  0.0009,  0.0019,  0.0024],
+        [-0.0491, -0.0074, -0.0089,  ..., -0.0028, -0.0059, -0.0076]],
+       device='cuda:0')
+Epoch 32, bias, value: tensor([-0.0674,  0.0170, -0.0022, -0.0813,  0.1231,  0.0158,  0.0026],
+       device='cuda:0'), grad: tensor([ 0.0229,  0.1025,  0.0175,  0.0244, -0.0687,  0.0443, -0.1429],
+       device='cuda:0')
+249
+0.005892784473993186
+changing lr
+epoch 31, time 330.29, cls_loss 0.5033 cls_loss_mapping 0.0417 cls_loss_causal 0.3811 re_mapping 0.0303 re_causal 0.0305 /// teacc 96.49 lr 0.00567117
+Epoch 33, weight, value: tensor([[ 2.1752e-02,  4.0650e-02, -1.1649e-03,  ..., -1.9465e-04,
+         -6.8365e-03,  1.3906e-02],
+        [-7.6714e-02, -7.9450e-02, -1.0255e-01,  ...,  1.9779e-02,
+          6.5701e-02,  6.6563e-04],
+        [-2.2845e-03, -2.4987e-02, -1.7244e-02,  ...,  2.6580e-02,
+         -2.3315e-02, -3.2678e-02],
+        ...,
+        [-8.3019e-02, -8.7031e-02, -4.2755e-02,  ...,  1.7453e-02,
+         -1.3261e-04,  9.4224e-03],
+        [-4.5152e-02, -2.4074e-02, -5.6061e-02,  ..., -1.0920e-01,
+         -1.4236e-01, -1.2901e-01],
+        [ 1.8911e-01,  2.1565e-01,  2.4291e-01,  ..., -1.0694e-01,
+         -4.5432e-02, -5.0759e-02]], device='cuda:0'), grad: tensor([[ 0.0145,  0.0023,  0.0023,  ...,  0.0044,  0.0057,  0.0057],
+        [ 0.0072,  0.0024,  0.0026,  ...,  0.0016,  0.0022,  0.0022],
+        [-0.0324, -0.0049, -0.0055,  ..., -0.0098, -0.0128, -0.0128],
+        ...,
+        [ 0.0130,  0.0023,  0.0026,  ...,  0.0038,  0.0050,  0.0050],
+        [ 0.0008,  0.0002,  0.0002,  ...,  0.0002,  0.0003,  0.0003],
+        [-0.0041, -0.0024, -0.0024,  ..., -0.0005, -0.0007, -0.0008]],
+       device='cuda:0')
+Epoch 33, bias, value: tensor([-0.0675,  0.0047,  0.0232, -0.0976,  0.1352,  0.0036,  0.0059],
+       device='cuda:0'), grad: tensor([ 0.0587,  0.0216, -0.1288,  0.0037,  0.0499,  0.0028, -0.0079],
+       device='cuda:0')
+249
+0.00567116632908828
+changing lr
+epoch 32, time 333.62, cls_loss 0.5276 cls_loss_mapping 0.0446 cls_loss_causal 0.4236 re_mapping 0.0290 re_causal 0.0293 /// teacc 89.47 lr 0.00544820
+Epoch 34, weight, value: tensor([[ 0.0221,  0.0405, -0.0008,  ...,  0.0050, -0.0014,  0.0214],
+        [-0.0757, -0.0799, -0.1037,  ...,  0.0182,  0.0634, -0.0005],
+        [-0.0067, -0.0259, -0.0180,  ...,  0.0251, -0.0245, -0.0348],
+        ...,
+        [-0.0869, -0.0876, -0.0439,  ...,  0.0177,  0.0007,  0.0110],
+        [-0.0463, -0.0271, -0.0585,  ..., -0.1112, -0.1442, -0.1317],
+        [ 0.1905,  0.2169,  0.2438,  ..., -0.1069, -0.0458, -0.0530]],
+       device='cuda:0'), grad: tensor([[ 7.9269e-03,  8.4066e-04,  1.2541e-03,  ...,  1.1244e-03,
+          1.1339e-03,  1.0099e-03],
+        [ 7.5073e-03,  7.8869e-04,  1.1806e-03,  ...,  1.0662e-03,
+          1.0748e-03,  9.5749e-04],
+        [-2.7054e-02, -2.7981e-03, -4.2114e-03,  ..., -3.8090e-03,
+         -3.8433e-03, -3.4180e-03],
+        ...,
+        [ 4.0207e-03,  4.3082e-04,  6.3992e-04,  ...,  5.8174e-04,
+          5.8556e-04,  5.2357e-04],
+        [ 2.4376e-03,  2.4140e-04,  3.7503e-04,  ...,  2.5368e-04,
+          2.6608e-04,  2.2280e-04],
+        [ 3.8815e-04, -6.7055e-05, -4.5568e-05,  ...,  2.9266e-05,
+          2.8685e-05,  2.1294e-05]], device='cuda:0')
+Epoch 34, bias, value: tensor([-0.0257,  0.0073, -0.0020, -0.0803,  0.1131,  0.0054, -0.0103],
+       device='cuda:0'), grad: tensor([ 0.0328,  0.0311, -0.1124,  0.0193,  0.0166,  0.0103,  0.0022],
+       device='cuda:0')
+249
+0.00544819654451717
+changing lr
+epoch 33, time 329.71, cls_loss 0.4845 cls_loss_mapping 0.0441 cls_loss_causal 0.3794 re_mapping 0.0287 re_causal 0.0289 /// teacc 92.40 lr 0.00522432
+Epoch 35, weight, value: tensor([[ 0.0168,  0.0360, -0.0060,  ...,  0.0067,  0.0009,  0.0228],
+        [-0.0761, -0.0776, -0.1011,  ...,  0.0209,  0.0654,  0.0024],
+        [-0.0038, -0.0265, -0.0190,  ...,  0.0260, -0.0229, -0.0342],
+        ...,
+        [-0.0823, -0.0832, -0.0386,  ...,  0.0122, -0.0051,  0.0061],
+        [-0.0506, -0.0288, -0.0606,  ..., -0.1109, -0.1443, -0.1310],
+        [ 0.1946,  0.2181,  0.2456,  ..., -0.1053, -0.0442, -0.0519]],
+       device='cuda:0'), grad: tensor([[-0.0533, -0.0167, -0.0165,  ..., -0.0188, -0.0193, -0.0189],
+        [ 0.0446,  0.0144,  0.0143,  ...,  0.0155,  0.0158,  0.0155],
+        [ 0.0016,  0.0005,  0.0005,  ...,  0.0007,  0.0007,  0.0007],
+        ...,
+        [ 0.0037,  0.0012,  0.0011,  ...,  0.0013,  0.0014,  0.0013],
+        [-0.0082, -0.0019, -0.0016,  ..., -0.0042, -0.0047, -0.0044],
+        [-0.0067, -0.0030, -0.0032,  ..., -0.0017, -0.0014, -0.0014]],
+       device='cuda:0')
+Epoch 35, bias, value: tensor([-0.0323, -0.0002,  0.0048, -0.0758,  0.1144,  0.0019, -0.0051],
+       device='cuda:0'), grad: tensor([-0.1429,  0.1179,  0.0044,  0.0507,  0.0101, -0.0270, -0.0131],
+       device='cuda:0')
+249
+0.005224324151752577
+changing lr
+epoch 34, time 330.52, cls_loss 0.4793 cls_loss_mapping 0.0372 cls_loss_causal 0.3881 re_mapping 0.0276 re_causal 0.0279 /// teacc 98.25 lr 0.00500000
+Epoch 36, weight, value: tensor([[ 0.0177,  0.0385, -0.0037,  ...,  0.0109,  0.0039,  0.0261],
+        [-0.0737, -0.0744, -0.0980,  ...,  0.0228,  0.0668,  0.0034],
+        [-0.0021, -0.0254, -0.0185,  ...,  0.0254, -0.0230, -0.0334],
+        ...,
+        [-0.0790, -0.0835, -0.0385,  ...,  0.0075, -0.0074,  0.0026],
+        [-0.0455, -0.0271, -0.0583,  ..., -0.1087, -0.1419, -0.1277],
+        [ 0.1882,  0.2120,  0.2393,  ..., -0.1064, -0.0460, -0.0534]],
+       device='cuda:0'), grad: tensor([[ 2.0466e-03,  2.3782e-04,  4.1747e-04,  ...,  9.5963e-05,
+          2.3568e-04,  2.4724e-04],
+        [ 6.3777e-05,  9.9838e-06,  1.4998e-05,  ...,  7.1898e-06,
+          1.0766e-05,  1.1154e-05],
+        [ 4.1991e-05,  5.5321e-06,  8.9332e-06,  ...,  5.7667e-06,
+          8.1062e-06,  8.2999e-06],
+        ...,
+        [-2.1267e-03, -2.4056e-04, -4.2892e-04,  ..., -8.3625e-05,
+         -2.3139e-04, -2.4307e-04],
+        [ 9.8571e-06,  2.1067e-06,  2.8666e-06,  ...,  4.2766e-06,
+          3.8184e-06,  3.8184e-06],
+        [-1.4260e-05, -1.0580e-05, -1.0520e-05,  ..., -3.3900e-06,
+         -2.9430e-06, -2.9858e-06]], device='cuda:0')
+Epoch 36, bias, value: tensor([-0.0506, -0.0003,  0.0084, -0.1080,  0.1157,  0.0425, -0.0002],
+       device='cuda:0'), grad: tensor([ 8.5678e-03,  2.5105e-04,  1.7083e-04, -5.4926e-05, -8.9493e-03,
+         3.3110e-05, -1.0870e-05], device='cuda:0')
+249
+0.005000000000000003
+changing lr
+epoch 35, time 329.50, cls_loss 0.4577 cls_loss_mapping 0.0368 cls_loss_causal 0.3710 re_mapping 0.0269 re_causal 0.0275 /// teacc 88.89 lr 0.00477568
+Epoch 37, weight, value: tensor([[ 0.0243,  0.0433,  0.0029,  ...,  0.0153,  0.0096,  0.0301],
+        [-0.0743, -0.0760, -0.0994,  ...,  0.0199,  0.0636,  0.0008],
+        [-0.0072, -0.0256, -0.0193,  ...,  0.0236, -0.0258, -0.0361],
+        ...,
+        [-0.0845, -0.0856, -0.0421,  ...,  0.0069, -0.0088,  0.0023],
+        [-0.0473, -0.0269, -0.0583,  ..., -0.1085, -0.1416, -0.1278],
+        [ 0.1903,  0.2097,  0.2371,  ..., -0.1051, -0.0446, -0.0516]],
+       device='cuda:0'), grad: tensor([[-0.0939, -0.0243, -0.0273,  ..., -0.0372, -0.0416, -0.0429],
+        [-0.0333, -0.0091, -0.0090,  ..., -0.0050, -0.0061, -0.0099],
+        [ 0.0591,  0.0145,  0.0168,  ...,  0.0236,  0.0245,  0.0262],
+        ...,
+        [ 0.0277,  0.0069,  0.0073,  ...,  0.0098,  0.0125,  0.0130],
+        [ 0.0064,  0.0018,  0.0018,  ...,  0.0015,  0.0018,  0.0023],
+        [ 0.0249,  0.0079,  0.0079,  ...,  0.0051,  0.0060,  0.0079]],
+       device='cuda:0')
+Epoch 37, bias, value: tensor([-0.0554,  0.0193, -0.0239, -0.0958,  0.1055,  0.0275,  0.0302],
+       device='cuda:0'), grad: tensor([-0.2903, -0.1429,  0.1881,  0.0349,  0.0937,  0.0249,  0.0914],
+       device='cuda:0')
+249
+0.004775675848247429
+changing lr
+epoch 36, time 332.31, cls_loss 0.4722 cls_loss_mapping 0.0348 cls_loss_causal 0.3787 re_mapping 0.0263 re_causal 0.0266 /// teacc 95.32 lr 0.00455180
+Epoch 38, weight, value: tensor([[ 0.0165,  0.0405, -0.0005,  ...,  0.0109,  0.0055,  0.0266],
+        [-0.0711, -0.0751, -0.0988,  ...,  0.0172,  0.0605, -0.0024],
+        [-0.0049, -0.0245, -0.0187,  ...,  0.0232, -0.0269, -0.0370],
+        ...,
+        [-0.0820, -0.0839, -0.0394,  ...,  0.0061, -0.0089,  0.0024],
+        [-0.0473, -0.0280, -0.0586,  ..., -0.1047, -0.1381, -0.1243],
+        [ 0.1912,  0.2107,  0.2379,  ..., -0.1023, -0.0421, -0.0494]],
+       device='cuda:0'), grad: tensor([[ 6.7663e-04,  4.4465e-05,  7.9989e-05,  ...,  2.5034e-05,
+          4.6313e-05,  5.1856e-05],
+        [ 3.5828e-02,  2.1362e-03,  4.0321e-03,  ...,  1.2283e-03,
+          2.3632e-03,  2.6569e-03],
+        [-4.2236e-02, -2.5177e-03, -4.7531e-03,  ..., -1.4486e-03,
+         -2.7866e-03, -3.1319e-03],
+        ...,
+        [ 3.7422e-03,  2.2364e-04,  4.2176e-04,  ...,  1.2887e-04,
+          2.4748e-04,  2.7800e-04],
+        [ 7.0095e-04,  4.2766e-05,  7.9811e-05,  ...,  2.4512e-05,
+          4.6700e-05,  5.2422e-05],
+        [ 6.7997e-04,  3.4124e-05,  7.0632e-05,  ...,  2.0579e-05,
+          4.2439e-05,  4.8012e-05]], device='cuda:0')
+Epoch 38, bias, value: tensor([-0.0852,  0.0306, -0.0319, -0.0947,  0.1212,  0.0330,  0.0343],
+       device='cuda:0'), grad: tensor([ 0.0026,  0.1387, -0.1635,  0.0023,  0.0145,  0.0027,  0.0027],
+       device='cuda:0')
+249
+0.004551803455482836
+changing lr
+epoch 37, time 331.27, cls_loss 0.4758 cls_loss_mapping 0.0314 cls_loss_causal 0.3870 re_mapping 0.0256 re_causal 0.0268 /// teacc 95.32 lr 0.00432883
+Epoch 39, weight, value: tensor([[ 0.0204,  0.0393, -0.0012,  ...,  0.0124,  0.0081,  0.0289],
+        [-0.0737, -0.0760, -0.0994,  ...,  0.0153,  0.0584, -0.0044],
+        [-0.0019, -0.0237, -0.0170,  ...,  0.0240, -0.0261, -0.0358],
+        ...,
+        [-0.0790, -0.0820, -0.0383,  ...,  0.0030, -0.0121, -0.0011],
+        [-0.0506, -0.0307, -0.0612,  ..., -0.1041, -0.1372, -0.1233],
+        [ 0.1883,  0.2107,  0.2377,  ..., -0.1039, -0.0440, -0.0514]],
+       device='cuda:0'), grad: tensor([[ 0.0248,  0.0056,  0.0056,  ...,  0.0067,  0.0061,  0.0070],
+        [-0.0345, -0.0099, -0.0098,  ..., -0.0067, -0.0051, -0.0066],
+        [ 0.0201,  0.0054,  0.0055,  ...,  0.0059,  0.0054,  0.0061],
+        ...,
+        [ 0.0186,  0.0044,  0.0045,  ...,  0.0054,  0.0049,  0.0056],
+        [-0.0507, -0.0112, -0.0118,  ..., -0.0191, -0.0187, -0.0202],
+        [ 0.0048,  0.0012,  0.0012,  ...,  0.0012,  0.0011,  0.0013]],
+       device='cuda:0')
+Epoch 39, bias, value: tensor([-0.0647,  0.0238, -0.0303, -0.1071,  0.1277,  0.0334,  0.0246],
+       device='cuda:0'), grad: tensor([ 0.0852, -0.0952,  0.0595,  0.0500,  0.0615, -0.1760,  0.0149],
+       device='cuda:0')
+249
+0.004328833670911726
+changing lr
+epoch 38, time 329.95, cls_loss 0.4622 cls_loss_mapping 0.0261 cls_loss_causal 0.3888 re_mapping 0.0249 re_causal 0.0258 /// teacc 98.25 lr 0.00410722
+Epoch 40, weight, value: tensor([[ 0.0149,  0.0370, -0.0035,  ...,  0.0090,  0.0052,  0.0259],
+        [-0.0703, -0.0735, -0.0964,  ...,  0.0148,  0.0582, -0.0040],
+        [-0.0012, -0.0236, -0.0168,  ...,  0.0260, -0.0249, -0.0345],
+        ...,
+        [-0.0772, -0.0814, -0.0387,  ...,  0.0027, -0.0121, -0.0015],
+        [-0.0504, -0.0318, -0.0618,  ..., -0.1026, -0.1350, -0.1216],
+        [ 0.1901,  0.2120,  0.2392,  ..., -0.1025, -0.0427, -0.0498]],
+       device='cuda:0'), grad: tensor([[ 8.7280e-03,  1.4296e-03,  1.9016e-03,  ...,  1.9369e-03,
+          1.8005e-03,  2.0885e-03],
+        [ 1.9894e-03,  1.4043e-04, -1.2755e-04,  ..., -4.7827e-04,
+          1.3947e-04,  2.4438e-04],
+        [ 8.3771e-03,  1.2226e-03,  1.4896e-03,  ...,  6.0511e-04,
+          8.0347e-04,  1.1272e-03],
+        ...,
+        [ 4.4785e-03,  7.2813e-04,  8.6689e-04,  ..., -3.9554e-04,
+         -2.9302e-04, -9.9182e-05],
+        [-3.6255e-02, -5.4550e-03, -6.4697e-03,  ..., -2.7485e-03,
+         -3.8147e-03, -5.2071e-03],
+        [ 9.4299e-03,  1.4324e-03,  1.7195e-03,  ...,  7.7343e-04,
+          1.0099e-03,  1.3704e-03]], device='cuda:0')
+Epoch 40, bias, value: tensor([-0.0847,  0.0377, -0.0310, -0.1113,  0.1245,  0.0389,  0.0333],
+       device='cuda:0'), grad: tensor([ 0.0291,  0.0120,  0.0299,  0.0112,  0.0142, -0.1298,  0.0334],
+       device='cuda:0')
+249
+0.0041072155260068206
+changing lr
+epoch 39, time 331.15, cls_loss 0.4891 cls_loss_mapping 0.0286 cls_loss_causal 0.3927 re_mapping 0.0243 re_causal 0.0260 /// teacc 96.49 lr 0.00388740
+Epoch 41, weight, value: tensor([[ 0.0134,  0.0357, -0.0046,  ...,  0.0067,  0.0024,  0.0236],
+        [-0.0727, -0.0737, -0.0978,  ...,  0.0178,  0.0615, -0.0006],
+        [-0.0003, -0.0209, -0.0139,  ...,  0.0245, -0.0252, -0.0349],
+        ...,
+        [-0.0832, -0.0844, -0.0419,  ...,  0.0015, -0.0137, -0.0031],
+        [-0.0488, -0.0334, -0.0633,  ..., -0.1002, -0.1335, -0.1208],
+        [ 0.1972,  0.2152,  0.2422,  ..., -0.1017, -0.0426, -0.0496]],
+       device='cuda:0'), grad: tensor([[-0.0276, -0.0074, -0.0107,  ..., -0.0043, -0.0054, -0.0093],
+        [ 0.0037,  0.0011,  0.0015,  ...,  0.0006,  0.0008,  0.0013],
+        [-0.0006, -0.0001,  0.0002,  ..., -0.0007, -0.0007, -0.0003],
+        ...,
+        [ 0.0030,  0.0008,  0.0011,  ...,  0.0006,  0.0007,  0.0011],
+        [ 0.0099,  0.0026,  0.0034,  ...,  0.0024,  0.0031,  0.0038],
+        [ 0.0093,  0.0024,  0.0035,  ...,  0.0015,  0.0019,  0.0032]],
+       device='cuda:0')
+Epoch 41, bias, value: tensor([-0.0931,  0.0289, -0.0288, -0.0874,  0.1113,  0.0396,  0.0367],
+       device='cuda:0'), grad: tensor([-0.1532,  0.0199,  0.0037,  0.0134,  0.0159,  0.0478,  0.0524],
+       device='cuda:0')
+249
+0.0038873953302184317
+changing lr
+epoch 40, time 330.06, cls_loss 0.4254 cls_loss_mapping 0.0236 cls_loss_causal 0.3561 re_mapping 0.0231 re_causal 0.0244 /// teacc 92.98 lr 0.00366982
+Epoch 42, weight, value: tensor([[ 0.0150,  0.0362, -0.0038,  ...,  0.0082,  0.0046,  0.0268],
+        [-0.0688, -0.0728, -0.0960,  ...,  0.0217,  0.0657,  0.0036],
+        [-0.0004, -0.0203, -0.0136,  ...,  0.0231, -0.0259, -0.0358],
+        ...,
+        [-0.0803, -0.0846, -0.0429,  ..., -0.0012, -0.0176, -0.0070],
+        [-0.0511, -0.0327, -0.0628,  ..., -0.0992, -0.1329, -0.1200],
+        [ 0.1931,  0.2138,  0.2410,  ..., -0.1026, -0.0443, -0.0515]],
+       device='cuda:0'), grad: tensor([[ 0.0127,  0.0027,  0.0024,  ...,  0.0022,  0.0020,  0.0021],
+        [ 0.0206,  0.0048,  0.0042,  ...,  0.0034,  0.0036,  0.0039],
+        [ 0.0106,  0.0020,  0.0019,  ...,  0.0019,  0.0016,  0.0017],
+        ...,
+        [ 0.0131,  0.0030,  0.0026,  ...,  0.0022,  0.0022,  0.0024],
+        [-0.0783, -0.0177, -0.0156,  ..., -0.0131, -0.0128, -0.0140],
+        [ 0.0177,  0.0043,  0.0037,  ...,  0.0028,  0.0029,  0.0032]],
+       device='cuda:0')
+Epoch 42, bias, value: tensor([-0.0796,  0.0295, -0.0175, -0.0914,  0.1212,  0.0197,  0.0252],
+       device='cuda:0'), grad: tensor([ 0.0528,  0.0803,  0.0445,  0.0146,  0.0527, -0.3176,  0.0727],
+       device='cuda:0')
+249
+0.003669815772166629
+changing lr
+epoch 41, time 328.71, cls_loss 0.4690 cls_loss_mapping 0.0286 cls_loss_causal 0.3983 re_mapping 0.0226 re_causal 0.0241 /// teacc 94.74 lr 0.00345492
+Epoch 43, weight, value: tensor([[ 0.0134,  0.0368, -0.0032,  ...,  0.0068,  0.0038,  0.0265],
+        [-0.0706, -0.0740, -0.0973,  ...,  0.0228,  0.0667,  0.0047],
+        [ 0.0005, -0.0201, -0.0136,  ...,  0.0235, -0.0249, -0.0351],
+        ...,
+        [-0.0788, -0.0842, -0.0421,  ...,  0.0018, -0.0162, -0.0059],
+        [-0.0478, -0.0321, -0.0624,  ..., -0.1000, -0.1331, -0.1203],
+        [ 0.1924,  0.2145,  0.2422,  ..., -0.1034, -0.0456, -0.0525]],
+       device='cuda:0'), grad: tensor([[-0.0735, -0.0339, -0.0370,  ..., -0.0244, -0.0208, -0.0199],
+        [ 0.0218,  0.0130,  0.0155,  ...,  0.0057,  0.0050,  0.0032],
+        [ 0.0021,  0.0008,  0.0008,  ...,  0.0007,  0.0006,  0.0006],
+        ...,
+        [ 0.0274,  0.0106,  0.0107,  ...,  0.0102,  0.0087,  0.0094],
+        [ 0.0026,  0.0010,  0.0011,  ...,  0.0010,  0.0008,  0.0009],
+        [ 0.0171,  0.0075,  0.0080,  ...,  0.0059,  0.0050,  0.0050]],
+       device='cuda:0')
+Epoch 43, bias, value: tensor([-0.0770,  0.0188, -0.0099, -0.0947,  0.0983,  0.0380,  0.0337],
+       device='cuda:0'), grad: tensor([-0.1666,  0.0365,  0.0053,  0.0061,  0.0714,  0.0068,  0.0406],
+       device='cuda:0')
+249
+0.0034549150281252667
+changing lr
+epoch 42, time 329.62, cls_loss 0.4459 cls_loss_mapping 0.0224 cls_loss_causal 0.3648 re_mapping 0.0226 re_causal 0.0240 /// teacc 97.66 lr 0.00324313
+Epoch 44, weight, value: tensor([[ 0.0138,  0.0355, -0.0043,  ...,  0.0053,  0.0032,  0.0258],
+        [-0.0675, -0.0713, -0.0948,  ...,  0.0198,  0.0633,  0.0018],
+        [-0.0014, -0.0207, -0.0147,  ...,  0.0218, -0.0262, -0.0359],
+        ...,
+        [-0.0824, -0.0850, -0.0429,  ...,  0.0046, -0.0129, -0.0025],
+        [-0.0487, -0.0311, -0.0620,  ..., -0.0980, -0.1314, -0.1188],
+        [ 0.1923,  0.2136,  0.2416,  ..., -0.1026, -0.0453, -0.0526]],
+       device='cuda:0'), grad: tensor([[ 0.0080,  0.0016,  0.0021,  ...,  0.0042,  0.0038,  0.0043],
+        [ 0.0070,  0.0014,  0.0017,  ...,  0.0009,  0.0012,  0.0013],
+        [ 0.0114,  0.0022,  0.0029,  ...,  0.0010,  0.0015,  0.0018],
+        ...,
+        [ 0.0037,  0.0008,  0.0010,  ...,  0.0002,  0.0004,  0.0004],
+        [ 0.0077,  0.0015,  0.0020,  ...,  0.0007,  0.0011,  0.0012],
+        [-0.0420, -0.0083, -0.0107,  ..., -0.0075, -0.0086, -0.0098]],
+       device='cuda:0')
+Epoch 44, bias, value: tensor([-0.0628,  0.0187, -0.0107, -0.0785,  0.0837,  0.0302,  0.0266],
+       device='cuda:0'), grad: tensor([-0.0007,  0.0299,  0.0517,  0.0183,  0.0171,  0.0347, -0.1510],
+       device='cuda:0')
+249
+0.0032431258795932905
+changing lr
+epoch 43, time 331.60, cls_loss 0.4038 cls_loss_mapping 0.0240 cls_loss_causal 0.3298 re_mapping 0.0213 re_causal 0.0221 /// teacc 96.49 lr 0.00303487
+Epoch 45, weight, value: tensor([[ 0.0169,  0.0380, -0.0020,  ...,  0.0042,  0.0024,  0.0249],
+        [-0.0663, -0.0706, -0.0934,  ...,  0.0192,  0.0633,  0.0023],
+        [-0.0003, -0.0197, -0.0144,  ...,  0.0244, -0.0244, -0.0343],
+        ...,
+        [-0.0832, -0.0875, -0.0458,  ...,  0.0054, -0.0117, -0.0012],
+        [-0.0486, -0.0313, -0.0620,  ..., -0.0991, -0.1322, -0.1199],
+        [ 0.1938,  0.2147,  0.2430,  ..., -0.1019, -0.0450, -0.0524]],
+       device='cuda:0'), grad: tensor([[ 1.5078e-03,  2.7275e-04,  2.8729e-04,  ...,  6.9809e-04,
+          7.5102e-04,  6.9666e-04],
+        [-9.6369e-04, -4.1127e-04, -3.8123e-04,  ...,  3.4904e-04,
+          2.3067e-04,  2.7132e-04],
+        [ 5.9557e-04,  9.5010e-05,  1.0246e-04,  ...,  3.1090e-04,
+          3.2711e-04,  3.0613e-04],
+        ...,
+        [ 5.4245e-03,  9.3651e-04,  9.9277e-04,  ...,  2.5997e-03,
+          2.7733e-03,  2.5806e-03],
+        [ 5.6267e-03,  8.1110e-04,  8.9502e-04,  ...,  3.2158e-03,
+          3.3360e-03,  3.1414e-03],
+        [ 2.8586e-04,  5.3197e-05,  5.4866e-05,  ...,  1.1313e-04,
+          1.2589e-04,  1.1539e-04]], device='cuda:0')
+Epoch 45, bias, value: tensor([-0.0503,  0.0255, -0.0244, -0.0944,  0.0951,  0.0332,  0.0224],
+       device='cuda:0'), grad: tensor([ 0.0054, -0.0022,  0.0022, -0.0475,  0.0197,  0.0213,  0.0010],
+       device='cuda:0')
+249
+0.0030348748417303863
+changing lr
+epoch 44, time 329.83, cls_loss 0.4152 cls_loss_mapping 0.0238 cls_loss_causal 0.3450 re_mapping 0.0213 re_causal 0.0223 /// teacc 84.80 lr 0.00283058
+Epoch 46, weight, value: tensor([[ 0.0155,  0.0365, -0.0030,  ...,  0.0026,  0.0018,  0.0244],
+        [-0.0683, -0.0706, -0.0937,  ...,  0.0217,  0.0646,  0.0038],
+        [ 0.0038, -0.0191, -0.0134,  ...,  0.0244, -0.0242, -0.0344],
+        ...,
+        [-0.0862, -0.0878, -0.0461,  ...,  0.0034, -0.0137, -0.0035],
+        [-0.0493, -0.0316, -0.0624,  ..., -0.1001, -0.1328, -0.1208],
+        [ 0.1910,  0.2135,  0.2419,  ..., -0.1018, -0.0455, -0.0523]],
+       device='cuda:0'), grad: tensor([[ 6.7673e-03,  1.6346e-03,  1.1425e-03,  ...,  2.4128e-03,
+          2.2144e-03,  2.3632e-03],
+        [-4.7379e-03, -1.2341e-03, -6.3896e-04,  ..., -6.4945e-04,
+         -3.0136e-04, -4.6825e-04],
+        [ 4.0007e-04,  8.6546e-05,  8.7738e-05,  ...,  2.6608e-04,
+          2.7943e-04,  2.8062e-04],
+        ...,
+        [-3.1090e-03, -6.3133e-04, -7.3338e-04,  ..., -2.4700e-03,
+         -2.6531e-03, -2.6379e-03],
+        [-9.3132e-06, -6.1691e-06, -1.0207e-05,  ..., -1.0028e-05,
+         -1.3426e-05, -1.2413e-05],
+        [ 3.9518e-05,  5.3868e-06,  1.2144e-06,  ...,  1.3329e-05,
+          1.2040e-05,  1.2964e-05]], device='cuda:0')
+Epoch 46, bias, value: tensor([-0.0518,  0.0027, -0.0073, -0.0779,  0.0876,  0.0297,  0.0241],
+       device='cuda:0'), grad: tensor([ 2.3590e-02, -1.6129e-02,  1.4343e-03,  2.2850e-03, -1.1353e-02,
+        -9.8813e-07,  1.5974e-04], device='cuda:0')
+249
+0.0028305813044122124
+changing lr
+epoch 45, time 328.07, cls_loss 0.4047 cls_loss_mapping 0.0210 cls_loss_causal 0.3507 re_mapping 0.0208 re_causal 0.0218 /// teacc 97.66 lr 0.00263066
+Epoch 47, weight, value: tensor([[ 1.6543e-02,  3.7707e-02, -1.7139e-03,  ..., -2.0231e-04,
+         -7.0720e-06,  2.2496e-02],
+        [-6.9729e-02, -7.1758e-02, -9.4664e-02,  ...,  2.2367e-02,
+          6.4598e-02,  4.2657e-03],
+        [ 1.1171e-03, -1.8672e-02, -1.3626e-02,  ...,  2.3659e-02,
+         -2.5242e-02, -3.5041e-02],
+        ...,
+        [-8.2318e-02, -8.6204e-02, -4.4770e-02,  ...,  6.1175e-03,
+         -1.1213e-02, -7.6069e-04],
+        [-4.9991e-02, -3.2823e-02, -6.3484e-02,  ..., -9.9780e-02,
+         -1.3256e-01, -1.2100e-01],
+        [ 1.9374e-01,  2.1411e-01,  2.4282e-01,  ..., -1.0082e-01,
+         -4.4396e-02, -5.1597e-02]], device='cuda:0'), grad: tensor([[ 9.4557e-04,  1.0705e-04,  1.7452e-04,  ...,  4.2152e-04,
+          3.1972e-04,  3.0303e-04],
+        [ 7.7295e-04,  8.3983e-05,  1.4055e-04,  ...,  3.4189e-04,
+          2.5654e-04,  2.4199e-04],
+        [-5.2452e-03, -4.2748e-04, -8.2350e-04,  ..., -2.3937e-03,
+         -1.7929e-03, -1.7033e-03],
+        ...,
+        [ 3.0727e-03,  2.5177e-04,  4.8304e-04,  ...,  1.3981e-03,
+          1.0462e-03,  9.9277e-04],
+        [ 3.0994e-04,  2.3350e-05,  4.9412e-05,  ...,  1.4484e-04,
+          1.0562e-04,  1.0049e-04],
+        [-5.4896e-05, -6.5506e-05, -6.4015e-05,  ...,  2.0601e-06,
+         -1.8012e-06,  2.0079e-06]], device='cuda:0')
+Epoch 47, bias, value: tensor([-0.0488, -0.0029, -0.0215, -0.0863,  0.1010,  0.0324,  0.0333],
+       device='cuda:0'), grad: tensor([ 0.0042,  0.0035, -0.0245,  0.0009,  0.0143,  0.0015,  0.0001],
+       device='cuda:0')
+249
+0.0026306566876350096
+changing lr
+---------------------saving model at epoch 46----------------------------------------------------
+epoch 46, time 331.01, cls_loss 0.3899 cls_loss_mapping 0.0215 cls_loss_causal 0.3216 re_mapping 0.0202 re_causal 0.0212 /// teacc 99.42 lr 0.00243550
+Epoch 48, weight, value: tensor([[ 0.0213,  0.0411,  0.0021,  ...,  0.0023,  0.0021,  0.0245],
+        [-0.0673, -0.0714, -0.0943,  ...,  0.0232,  0.0658,  0.0055],
+        [-0.0024, -0.0201, -0.0155,  ...,  0.0226, -0.0265, -0.0361],
+        ...,
+        [-0.0821, -0.0858, -0.0449,  ...,  0.0043, -0.0129, -0.0025],
+        [-0.0498, -0.0328, -0.0636,  ..., -0.0994, -0.1319, -0.1205],
+        [ 0.1895,  0.2118,  0.2408,  ..., -0.1011, -0.0448, -0.0520]],
+       device='cuda:0'), grad: tensor([[ 0.0203,  0.0044,  0.0062,  ...,  0.0067,  0.0066,  0.0069],
+        [-0.0407, -0.0050, -0.0075,  ..., -0.0256, -0.0225, -0.0193],
+        [ 0.0055,  0.0016,  0.0021,  ...,  0.0009,  0.0011,  0.0015],
+        ...,
+        [ 0.0432,  0.0081,  0.0111,  ...,  0.0199,  0.0184,  0.0175],
+        [-0.0187, -0.0058, -0.0075,  ..., -0.0020, -0.0029, -0.0046],
+        [ 0.0110,  0.0033,  0.0043,  ...,  0.0015,  0.0020,  0.0029]],
+       device='cuda:0')
+Epoch 48, bias, value: tensor([-4.2536e-02,  5.2242e-05, -3.5888e-02, -8.0597e-02,  1.0369e-01,
+         3.2327e-02,  3.0015e-02], device='cuda:0'), grad: tensor([ 0.0827, -0.1013,  0.0276, -0.1138,  0.1481, -0.1000,  0.0569],
+       device='cuda:0')
+249
+0.0024355036129704724
+changing lr
+epoch 47, time 330.12, cls_loss 0.4134 cls_loss_mapping 0.0203 cls_loss_causal 0.3577 re_mapping 0.0194 re_causal 0.0206 /// teacc 98.25 lr 0.00224552
+Epoch 49, weight, value: tensor([[ 1.9520e-02,  4.0544e-02,  1.2135e-03,  ...,  2.9020e-03,
+          2.6058e-03,  2.5107e-02],
+        [-6.9452e-02, -7.1449e-02, -9.4182e-02,  ...,  2.1665e-02,
+          6.3694e-02,  4.0164e-03],
+        [-1.2825e-04, -2.0393e-02, -1.5923e-02,  ...,  2.3945e-02,
+         -2.5404e-02, -3.4911e-02],
+        ...,
+        [-8.3666e-02, -8.5399e-02, -4.4409e-02,  ...,  4.9752e-03,
+         -1.1643e-02, -1.6987e-03],
+        [-4.6602e-02, -3.2437e-02, -6.2693e-02,  ..., -9.9265e-02,
+         -1.3136e-01, -1.1988e-01],
+        [ 1.9226e-01,  2.1261e-01,  2.4166e-01,  ..., -1.0052e-01,
+         -4.4378e-02, -5.1521e-02]], device='cuda:0'), grad: tensor([[ 2.3823e-03,  4.2057e-04,  5.5218e-04,  ...,  6.0415e-04,
+          5.7507e-04,  5.6982e-04],
+        [ 1.8587e-03,  3.1400e-04,  4.1485e-04,  ...,  3.9101e-04,
+          3.6907e-04,  3.5381e-04],
+        [ 5.3062e-03,  8.8596e-04,  1.1721e-03,  ...,  1.0624e-03,
+          1.0033e-03,  9.4891e-04],
+        ...,
+        [-1.7975e-02, -2.9354e-03, -3.8948e-03,  ..., -3.1948e-03,
+         -2.9869e-03, -2.7561e-03],
+        [ 9.0942e-03,  1.5259e-03,  2.0161e-03,  ...,  1.8597e-03,
+          1.7653e-03,  1.6737e-03],
+        [ 1.9431e-04,  3.4064e-05,  4.4614e-05,  ...,  5.5224e-05,
+          5.4121e-05,  5.3406e-05]], device='cuda:0')
+Epoch 49, bias, value: tensor([-0.0478, -0.0049, -0.0309, -0.0930,  0.0918,  0.0527,  0.0392],
+       device='cuda:0'), grad: tensor([ 0.0107,  0.0084,  0.0242, -0.0032, -0.0823,  0.0413,  0.0009],
+       device='cuda:0')
+249
+0.00224551509273949
+changing lr
+epoch 48, time 330.06, cls_loss 0.4012 cls_loss_mapping 0.0186 cls_loss_causal 0.3383 re_mapping 0.0193 re_causal 0.0201 /// teacc 93.57 lr 0.00206107
+Epoch 50, weight, value: tensor([[ 2.0446e-02,  4.0472e-02,  1.2142e-03,  ...,  1.8591e-03,
+          1.7368e-03,  2.4057e-02],
+        [-6.7066e-02, -7.0794e-02, -9.3470e-02,  ...,  2.2911e-02,
+          6.4539e-02,  5.5077e-03],
+        [ 6.3006e-04, -2.0119e-02, -1.5844e-02,  ...,  2.2897e-02,
+         -2.6317e-02, -3.5647e-02],
+        ...,
+        [-8.5042e-02, -8.5942e-02, -4.4809e-02,  ...,  6.5366e-03,
+         -9.5915e-03, -1.1390e-05],
+        [-5.0727e-02, -3.3386e-02, -6.4097e-02,  ..., -9.9113e-02,
+         -1.3153e-01, -1.2037e-01],
+        [ 1.9127e-01,  2.1286e-01,  2.4207e-01,  ..., -1.0039e-01,
+         -4.4504e-02, -5.1503e-02]], device='cuda:0'), grad: tensor([[ 6.0730e-03,  1.2159e-03,  1.1368e-03,  ...,  9.3985e-04,
+          1.0500e-03,  1.3018e-03],
+        [-2.1698e-02, -3.1109e-03, -2.0142e-03,  ..., -1.3132e-03,
+         -2.5463e-03, -2.7905e-03],
+        [-2.6245e-02, -4.0779e-03, -6.5346e-03,  ..., -9.6359e-03,
+         -8.8882e-03, -8.6517e-03],
+        ...,
+        [ 2.4704e-02,  3.5038e-03,  3.9787e-03,  ...,  5.1460e-03,
+          5.5923e-03,  5.4703e-03],
+        [ 1.1536e-02,  1.7271e-03,  2.3155e-03,  ...,  3.1910e-03,
+          3.1624e-03,  3.1013e-03],
+        [ 8.8024e-04, -4.0084e-05,  2.1085e-05,  ...,  1.3852e-04,
+          1.4365e-04,  1.4412e-04]], device='cuda:0')
+Epoch 50, bias, value: tensor([-0.0437, -0.0013, -0.0297, -0.0772,  0.0900,  0.0326,  0.0362],
+       device='cuda:0'), grad: tensor([ 0.0250, -0.0861, -0.1057,  0.0184,  0.0978,  0.0461,  0.0045],
+       device='cuda:0')
+249
+0.002061073738537637
+changing lr
+epoch 49, time 330.05, cls_loss 0.4108 cls_loss_mapping 0.0204 cls_loss_causal 0.3672 re_mapping 0.0191 re_causal 0.0203 /// teacc 97.08 lr 0.00188255
+Epoch 51, weight, value: tensor([[ 1.7320e-02,  3.9216e-02,  6.2498e-07,  ...,  1.9222e-03,
+          1.7273e-03,  2.4075e-02],
+        [-6.7380e-02, -7.0292e-02, -9.3030e-02,  ...,  2.2198e-02,
+          6.3751e-02,  5.0907e-03],
+        [-1.6921e-04, -2.0815e-02, -1.6985e-02,  ...,  2.2693e-02,
+         -2.6474e-02, -3.5978e-02],
+        ...,
+        [-8.1570e-02, -8.4228e-02, -4.3248e-02,  ...,  7.7393e-03,
+         -8.4003e-03,  1.0179e-03],
+        [-5.2555e-02, -3.4182e-02, -6.4818e-02,  ..., -9.9578e-02,
+         -1.3199e-01, -1.2057e-01],
+        [ 1.9409e-01,  2.1346e-01,  2.4298e-01,  ..., -9.9893e-02,
+         -4.3940e-02, -5.1111e-02]], device='cuda:0'), grad: tensor([[-0.0468, -0.0091, -0.0094,  ..., -0.0149, -0.0140, -0.0150],
+        [ 0.0134,  0.0031,  0.0034,  ...,  0.0035,  0.0035,  0.0039],
+        [-0.0219, -0.0061, -0.0081,  ..., -0.0014, -0.0028, -0.0044],
+        ...,
+        [ 0.0136,  0.0032,  0.0036,  ...,  0.0036,  0.0036,  0.0040],
+        [ 0.0090,  0.0022,  0.0025,  ...,  0.0015,  0.0016,  0.0021],
+        [ 0.0209,  0.0034,  0.0044,  ...,  0.0052,  0.0056,  0.0064]],
+       device='cuda:0')
+Epoch 51, bias, value: tensor([-0.0596, -0.0054, -0.0307, -0.0723,  0.0958,  0.0308,  0.0483],
+       device='cuda:0'), grad: tensor([-0.1361,  0.0511, -0.1448,  0.0470,  0.0534,  0.0397,  0.0896],
+       device='cuda:0')
+249
+0.0018825509907063344
+changing lr
+epoch 50, time 331.20, cls_loss 0.4085 cls_loss_mapping 0.0208 cls_loss_causal 0.3579 re_mapping 0.0189 re_causal 0.0201 /// teacc 97.08 lr 0.00171031
+Epoch 52, weight, value: tensor([[ 1.6594e-02,  3.8365e-02, -9.4104e-04,  ...,  4.6807e-04,
+          5.0040e-05,  2.2813e-02],
+        [-6.7123e-02, -7.0090e-02, -9.2892e-02,  ...,  2.2839e-02,
+          6.4205e-02,  5.7850e-03],
+        [-9.1552e-04, -2.0781e-02, -1.6831e-02,  ...,  2.2784e-02,
+         -2.6147e-02, -3.5580e-02],
+        ...,
+        [-8.1133e-02, -8.4615e-02, -4.3569e-02,  ...,  7.6624e-03,
+         -8.3209e-03,  5.4378e-04],
+        [-5.0682e-02, -3.3415e-02, -6.3757e-02,  ..., -9.9805e-02,
+         -1.3180e-01, -1.2028e-01],
+        [ 1.9335e-01,  2.1379e-01,  2.4317e-01,  ..., -9.9732e-02,
+         -4.3972e-02, -5.1258e-02]], device='cuda:0'), grad: tensor([[-0.0623, -0.0100, -0.0099,  ..., -0.0070, -0.0105, -0.0144],
+        [ 0.0210,  0.0043,  0.0046,  ...,  0.0054,  0.0062,  0.0073],
+        [ 0.0055,  0.0012,  0.0015,  ...,  0.0006,  0.0008,  0.0012],
+        ...,
+        [ 0.0811,  0.0198,  0.0192,  ...,  0.0397,  0.0405,  0.0426],
+        [ 0.0169,  0.0037,  0.0047,  ...,  0.0022,  0.0030,  0.0042],
+        [-0.0541, -0.0158, -0.0138,  ..., -0.0434, -0.0418, -0.0414]],
+       device='cuda:0')
+Epoch 52, bias, value: tensor([-0.0616, -0.0062, -0.0324, -0.0720,  0.0968,  0.0415,  0.0409],
+       device='cuda:0'), grad: tensor([-0.2673,  0.0804,  0.0253, -0.0621,  0.2345,  0.0765, -0.0873],
+       device='cuda:0')
+249
+0.0017103063703014388
+changing lr
+epoch 51, time 332.18, cls_loss 0.3786 cls_loss_mapping 0.0164 cls_loss_causal 0.3241 re_mapping 0.0190 re_causal 0.0202 /// teacc 98.25 lr 0.00154469
+Epoch 53, weight, value: tensor([[ 0.0161,  0.0378, -0.0018,  ...,  0.0009,  0.0011,  0.0239],
+        [-0.0643, -0.0686, -0.0911,  ...,  0.0227,  0.0638,  0.0054],
+        [ 0.0010, -0.0205, -0.0164,  ...,  0.0215, -0.0275, -0.0367],
+        ...,
+        [-0.0835, -0.0851, -0.0440,  ...,  0.0069, -0.0092, -0.0004],
+        [-0.0520, -0.0340, -0.0643,  ..., -0.0991, -0.1311, -0.1197],
+        [ 0.1919,  0.2130,  0.2424,  ..., -0.0994, -0.0437, -0.0507]],
+       device='cuda:0'), grad: tensor([[ 0.0029,  0.0031,  0.0009,  ..., -0.0008,  0.0015,  0.0004],
+        [-0.0264, -0.0075, -0.0098,  ..., -0.0020, -0.0038, -0.0039],
+        [ 0.0136,  0.0032,  0.0042,  ...,  0.0049,  0.0044,  0.0043],
+        ...,
+        [-0.0147, -0.0058, -0.0035,  ..., -0.0055, -0.0070, -0.0054],
+        [ 0.0054,  0.0016,  0.0019,  ...,  0.0002,  0.0006,  0.0005],
+        [ 0.0085,  0.0024,  0.0030,  ...,  0.0006,  0.0012,  0.0011]],
+       device='cuda:0')
+Epoch 53, bias, value: tensor([-6.3325e-02,  8.9842e-05, -1.9721e-02, -7.2095e-02,  8.4363e-02,
+         3.6477e-02,  4.1203e-02], device='cuda:0'), grad: tensor([ 0.0168, -0.1346,  0.0454,  0.0424, -0.0390,  0.0275,  0.0414],
+       device='cuda:0')
+249
+0.0015446867550656784
+changing lr
+epoch 52, time 329.41, cls_loss 0.3857 cls_loss_mapping 0.0160 cls_loss_causal 0.3440 re_mapping 0.0185 re_causal 0.0199 /// teacc 92.98 lr 0.00138603
+Epoch 54, weight, value: tensor([[ 0.0178,  0.0388, -0.0011,  ...,  0.0013,  0.0015,  0.0242],
+        [-0.0657, -0.0688, -0.0913,  ...,  0.0215,  0.0624,  0.0042],
+        [ 0.0008, -0.0209, -0.0167,  ...,  0.0207, -0.0282, -0.0375],
+        ...,
+        [-0.0844, -0.0850, -0.0442,  ...,  0.0077, -0.0087,  0.0003],
+        [-0.0516, -0.0337, -0.0640,  ..., -0.0985, -0.1303, -0.1193],
+        [ 0.1927,  0.2125,  0.2420,  ..., -0.0995, -0.0438, -0.0505]],
+       device='cuda:0'), grad: tensor([[ 2.5902e-03,  4.3750e-04,  3.8147e-04,  ...,  6.9046e-04,
+          8.2159e-04,  9.0170e-04],
+        [ 6.4278e-04,  1.3268e-04,  9.0897e-05,  ...,  1.6940e-04,
+          1.5903e-04,  2.2840e-04],
+        [ 8.8730e-03,  1.6870e-03,  1.1358e-03,  ...,  2.0676e-03,
+          1.8272e-03,  2.6093e-03],
+        ...,
+        [-1.4648e-02, -2.7256e-03, -1.9217e-03,  ..., -3.5095e-03,
+         -3.3245e-03, -4.4708e-03],
+        [ 1.5039e-03,  2.9707e-04,  2.1136e-04,  ...,  3.5834e-04,
+          3.2043e-04,  4.3845e-04],
+        [ 3.5554e-05, -6.6161e-05, -8.5950e-05,  ..., -5.1498e-05,
+         -5.7280e-05, -3.1382e-05]], device='cuda:0')
+Epoch 54, bias, value: tensor([-0.0653, -0.0009, -0.0222, -0.0690,  0.0776,  0.0348,  0.0520],
+       device='cuda:0'), grad: tensor([ 0.0105,  0.0027,  0.0405,  0.0042, -0.0654,  0.0068,  0.0007],
+       device='cuda:0')
+249
+0.001386025680863044
+changing lr
+epoch 53, time 330.86, cls_loss 0.3514 cls_loss_mapping 0.0183 cls_loss_causal 0.3007 re_mapping 0.0182 re_causal 0.0194 /// teacc 94.74 lr 0.00123464
+Epoch 55, weight, value: tensor([[ 0.0183,  0.0384, -0.0015,  ...,  0.0009,  0.0010,  0.0238],
+        [-0.0660, -0.0690, -0.0910,  ...,  0.0212,  0.0622,  0.0039],
+        [ 0.0013, -0.0212, -0.0171,  ...,  0.0212, -0.0273, -0.0367],
+        ...,
+        [-0.0838, -0.0847, -0.0441,  ...,  0.0079, -0.0085,  0.0006],
+        [-0.0518, -0.0337, -0.0639,  ..., -0.0987, -0.1306, -0.1196],
+        [ 0.1940,  0.2136,  0.2431,  ..., -0.0987, -0.0431, -0.0496]],
+       device='cuda:0'), grad: tensor([[-0.0344, -0.0039, -0.0057,  ..., -0.0044, -0.0057, -0.0051],
+        [ 0.0092,  0.0016,  0.0022,  ...,  0.0008,  0.0013,  0.0016],
+        [ 0.0147,  0.0026,  0.0034,  ...,  0.0017,  0.0024,  0.0029],
+        ...,
+        [ 0.0098,  0.0017,  0.0022,  ...,  0.0014,  0.0018,  0.0021],
+        [ 0.0111,  0.0020,  0.0026,  ...,  0.0013,  0.0018,  0.0023],
+        [ 0.0208,  0.0039,  0.0050,  ...,  0.0023,  0.0033,  0.0043]],
+       device='cuda:0')
+Epoch 55, bias, value: tensor([-0.0610,  0.0027, -0.0191, -0.0790,  0.0788,  0.0319,  0.0527],
+       device='cuda:0'), grad: tensor([-0.1146,  0.0354,  0.0564, -0.1403,  0.0373,  0.0436,  0.0823],
+       device='cuda:0')
+249
+0.0012346426699819469
+changing lr
+epoch 54, time 331.05, cls_loss 0.3828 cls_loss_mapping 0.0129 cls_loss_causal 0.3438 re_mapping 0.0180 re_causal 0.0191 /// teacc 98.83 lr 0.00109084
+Epoch 56, weight, value: tensor([[ 0.0160,  0.0379, -0.0021,  ...,  0.0004,  0.0005,  0.0234],
+        [-0.0657, -0.0690, -0.0911,  ...,  0.0213,  0.0622,  0.0040],
+        [ 0.0015, -0.0211, -0.0169,  ...,  0.0209, -0.0274, -0.0368],
+        ...,
+        [-0.0807, -0.0841, -0.0436,  ...,  0.0085, -0.0079,  0.0012],
+        [-0.0518, -0.0332, -0.0635,  ..., -0.0981, -0.1300, -0.1190],
+        [ 0.1926,  0.2129,  0.2426,  ..., -0.0986, -0.0432, -0.0499]],
+       device='cuda:0'), grad: tensor([[ 0.0143,  0.0027,  0.0028,  ...,  0.0048,  0.0043,  0.0044],
+        [-0.0716, -0.0192, -0.0203,  ..., -0.0194, -0.0167, -0.0164],
+        [ 0.0094,  0.0017,  0.0018,  ...,  0.0032,  0.0029,  0.0030],
+        ...,
+        [ 0.0139,  0.0026,  0.0026,  ...,  0.0047,  0.0043,  0.0043],
+        [ 0.0093,  0.0034,  0.0037,  ...,  0.0018,  0.0014,  0.0012],
+        [ 0.0234,  0.0084,  0.0091,  ...,  0.0046,  0.0035,  0.0032]],
+       device='cuda:0')
+Epoch 56, bias, value: tensor([-0.0685,  0.0034, -0.0140, -0.0769,  0.0874,  0.0293,  0.0463],
+       device='cuda:0'), grad: tensor([ 0.0470, -0.2128,  0.0312,  0.0043,  0.0464,  0.0238,  0.0600],
+       device='cuda:0')
+249
+0.0010908425876598518
+changing lr
+epoch 55, time 323.62, cls_loss 0.3661 cls_loss_mapping 0.0160 cls_loss_causal 0.3215 re_mapping 0.0177 re_causal 0.0189 /// teacc 98.25 lr 0.00095492
+Epoch 57, weight, value: tensor([[ 1.5005e-02,  3.7605e-02, -2.3149e-03,  ..., -2.7426e-07,
+          2.0216e-04,  2.3002e-02],
+        [-6.4370e-02, -6.8672e-02, -9.1084e-02,  ...,  2.1848e-02,
+          6.2258e-02,  4.4904e-03],
+        [ 1.1558e-03, -2.0930e-02, -1.6830e-02,  ...,  2.1629e-02,
+         -2.6595e-02, -3.6126e-02],
+        ...,
+        [-8.3195e-02, -8.4801e-02, -4.4234e-02,  ...,  7.2385e-03,
+         -8.7855e-03,  1.1951e-04],
+        [-5.1073e-02, -3.3311e-02, -6.3440e-02,  ..., -9.8062e-02,
+         -1.2996e-01, -1.1895e-01],
+        [ 1.9303e-01,  2.1301e-01,  2.4275e-01,  ..., -9.8213e-02,
+         -4.2823e-02, -4.9595e-02]], device='cuda:0'), grad: tensor([[-4.6349e-03, -1.4801e-03, -2.1553e-03,  ..., -1.2388e-03,
+         -9.0551e-04, -1.3304e-03],
+        [ 3.6755e-03,  1.0653e-03,  1.4753e-03,  ...,  9.8324e-04,
+          7.9060e-04,  1.0071e-03],
+        [ 1.1816e-03,  3.3689e-04,  4.6349e-04,  ...,  3.2043e-04,
+          2.6178e-04,  3.2544e-04],
+        ...,
+        [ 1.2760e-03,  3.2973e-04,  4.2701e-04,  ...,  3.4094e-04,
+          2.9993e-04,  3.3116e-04],
+        [-1.9550e-03, -3.6120e-04, -3.4738e-04,  ..., -5.1260e-04,
+         -5.4312e-04, -4.3273e-04],
+        [ 1.8120e-04,  4.5985e-05,  5.9009e-05,  ...,  4.9561e-05,
+          4.4197e-05,  4.8012e-05]], device='cuda:0')
+Epoch 57, bias, value: tensor([-0.0722,  0.0066, -0.0188, -0.0720,  0.0825,  0.0322,  0.0486],
+       device='cuda:0'), grad: tensor([-0.0132,  0.0104,  0.0033,  0.0007,  0.0036, -0.0054,  0.0005],
+       device='cuda:0')
+249
+0.000954915028125264
+changing lr
+epoch 56, time 331.48, cls_loss 0.3338 cls_loss_mapping 0.0158 cls_loss_causal 0.2944 re_mapping 0.0172 re_causal 0.0179 /// teacc 97.66 lr 0.00082713
+Epoch 58, weight, value: tensor([[ 1.4829e-02,  3.7431e-02, -2.3595e-03,  ..., -2.7541e-04,
+          2.0141e-04,  2.2959e-02],
+        [-6.4693e-02, -6.8549e-02, -9.0969e-02,  ...,  2.0967e-02,
+          6.1273e-02,  3.5630e-03],
+        [ 6.0739e-04, -2.1134e-02, -1.7188e-02,  ...,  2.2493e-02,
+         -2.5617e-02, -3.5140e-02],
+        ...,
+        [-8.0295e-02, -8.3671e-02, -4.3064e-02,  ...,  7.5777e-03,
+         -8.6172e-03,  4.3596e-04],
+        [-5.1215e-02, -3.3439e-02, -6.3594e-02,  ..., -9.7778e-02,
+         -1.2974e-01, -1.1868e-01],
+        [ 1.9182e-01,  2.1246e-01,  2.4225e-01,  ..., -9.8180e-02,
+         -4.2844e-02, -4.9746e-02]], device='cuda:0'), grad: tensor([[ 2.6302e-03,  3.8552e-04,  4.5037e-04,  ...,  8.6260e-04,
+          4.9591e-04,  8.1873e-04],
+        [ 2.3556e-03,  4.9305e-04,  5.5075e-04,  ...,  1.3342e-03,
+          1.1988e-03,  1.2360e-03],
+        [ 8.0538e-04,  7.5459e-05,  8.9288e-05,  ...,  2.7370e-04,
+          1.3626e-04,  2.5654e-04],
+        ...,
+        [-7.7400e-03, -7.4768e-04, -9.3222e-04,  ..., -1.2827e-03,
+          2.6774e-04, -1.2789e-03],
+        [ 4.6539e-03,  7.1239e-04,  8.2493e-04,  ...,  1.6880e-03,
+          1.0872e-03,  1.5926e-03],
+        [ 7.3767e-04,  1.5116e-04,  1.6904e-04,  ...,  4.0865e-04,
+          3.6311e-04,  3.7909e-04]], device='cuda:0')
+Epoch 58, bias, value: tensor([-0.0706,  0.0075, -0.0220, -0.0744,  0.0909,  0.0314,  0.0442],
+       device='cuda:0'), grad: tensor([ 0.0093,  0.0078,  0.0029, -0.0101, -0.0286,  0.0163,  0.0024],
+       device='cuda:0')
+249
+0.0008271337313934874
+changing lr
+epoch 57, time 329.85, cls_loss 0.3746 cls_loss_mapping 0.0148 cls_loss_causal 0.3414 re_mapping 0.0171 re_causal 0.0178 /// teacc 98.83 lr 0.00070776
+Epoch 59, weight, value: tensor([[ 1.5693e-02,  3.7125e-02, -2.5885e-03,  ..., -5.5509e-04,
+         -2.1890e-04,  2.2631e-02],
+        [-6.3554e-02, -6.8061e-02, -9.0497e-02,  ...,  2.1130e-02,
+          6.1466e-02,  3.8598e-03],
+        [ 2.8481e-04, -2.1117e-02, -1.7230e-02,  ...,  2.2447e-02,
+         -2.5683e-02, -3.5191e-02],
+        ...,
+        [-8.1024e-02, -8.3837e-02, -4.3133e-02,  ...,  7.2621e-03,
+         -8.7246e-03,  2.5914e-04],
+        [-5.1622e-02, -3.3392e-02, -6.3493e-02,  ..., -9.7656e-02,
+         -1.2955e-01, -1.1856e-01],
+        [ 1.9065e-01,  2.1233e-01,  2.4202e-01,  ..., -9.8071e-02,
+         -4.2879e-02, -4.9871e-02]], device='cuda:0'), grad: tensor([[-4.0680e-02, -3.4428e-03, -5.0812e-03,  ..., -4.4632e-03,
+         -3.8223e-03, -3.9101e-03],
+        [ 2.0187e-02,  1.7681e-03,  2.5806e-03,  ...,  2.2449e-03,
+          1.9264e-03,  1.9703e-03],
+        [ 1.2360e-02,  1.0509e-03,  1.5488e-03,  ...,  1.3590e-03,
+          1.1635e-03,  1.1902e-03],
+        ...,
+        [ 3.7937e-03,  3.2425e-04,  4.7684e-04,  ...,  4.1795e-04,
+          3.5810e-04,  3.6621e-04],
+        [ 3.7308e-03,  3.6693e-04,  5.1689e-04,  ...,  4.2915e-04,
+          3.6931e-04,  3.7837e-04],
+        [-1.5664e-04, -1.8132e-04, -1.8728e-04,  ..., -8.1003e-05,
+         -7.5459e-05, -7.9095e-05]], device='cuda:0')
+Epoch 59, bias, value: tensor([-0.0684,  0.0132, -0.0251, -0.0723,  0.0904,  0.0310,  0.0381],
+       device='cuda:0'), grad: tensor([-1.5039e-01,  7.4341e-02,  4.5654e-02,  2.5940e-03,  1.4000e-02,
+         1.3565e-02,  1.3137e-04], device='cuda:0')
+249
+0.00070775603199067
+changing lr
+epoch 58, time 326.82, cls_loss 0.4041 cls_loss_mapping 0.0154 cls_loss_causal 0.3807 re_mapping 0.0166 re_causal 0.0179 /// teacc 97.66 lr 0.00059702
+Epoch 60, weight, value: tensor([[ 1.6642e-02,  3.7745e-02, -1.9779e-03,  ...,  3.0557e-05,
+          3.0679e-04,  2.3253e-02],
+        [-6.2860e-02, -6.7697e-02, -9.0057e-02,  ...,  2.1445e-02,
+          6.1701e-02,  4.3185e-03],
+        [ 4.1718e-04, -2.1119e-02, -1.7099e-02,  ...,  2.2253e-02,
+         -2.5673e-02, -3.5164e-02],
+        ...,
+        [-8.2178e-02, -8.4207e-02, -4.3647e-02,  ...,  6.9399e-03,
+         -9.0221e-03, -1.9886e-04],
+        [-5.1376e-02, -3.3487e-02, -6.3582e-02,  ..., -9.7748e-02,
+         -1.2963e-01, -1.1882e-01],
+        [ 1.9097e-01,  2.1212e-01,  2.4184e-01,  ..., -9.7635e-02,
+         -4.2626e-02, -4.9554e-02]], device='cuda:0'), grad: tensor([[0.0049, 0.0014, 0.0016,  ..., 0.0007, 0.0006, 0.0009],
+        [0.0021, 0.0010, 0.0012,  ..., 0.0002, 0.0002, 0.0005],
+        [0.0033, 0.0010, 0.0011,  ..., 0.0005, 0.0004, 0.0006],
+        ...,
+        [0.0067, 0.0016, 0.0018,  ..., 0.0010, 0.0009, 0.0012],
+        [0.0056, 0.0016, 0.0019,  ..., 0.0008, 0.0007, 0.0010],
+        [0.0084, 0.0024, 0.0028,  ..., 0.0012, 0.0010, 0.0015]],
+       device='cuda:0')
+Epoch 60, bias, value: tensor([-0.0656,  0.0152, -0.0203, -0.0775,  0.0834,  0.0307,  0.0411],
+       device='cuda:0'), grad: tensor([ 0.0234,  0.0136,  0.0158, -0.1503,  0.0294,  0.0274,  0.0406],
+       device='cuda:0')
+249
+0.0005970223407163104
+changing lr
+epoch 59, time 329.57, cls_loss 0.3804 cls_loss_mapping 0.0173 cls_loss_causal 0.3254 re_mapping 0.0165 re_causal 0.0176 /// teacc 95.32 lr 0.00049516
+Epoch 61, weight, value: tensor([[ 1.5601e-02,  3.7483e-02, -2.2291e-03,  ..., -4.6495e-04,
+         -2.6343e-04,  2.2696e-02],
+        [-6.4556e-02, -6.8083e-02, -9.0482e-02,  ...,  2.1067e-02,
+          6.1298e-02,  3.9165e-03],
+        [ 1.5231e-03, -2.0817e-02, -1.6741e-02,  ...,  2.2012e-02,
+         -2.5944e-02, -3.5229e-02],
+        ...,
+        [-8.2038e-02, -8.4064e-02, -4.3485e-02,  ...,  6.9604e-03,
+         -8.8938e-03, -1.1123e-04],
+        [-5.1393e-02, -3.3565e-02, -6.3658e-02,  ..., -9.7557e-02,
+         -1.2941e-01, -1.1864e-01],
+        [ 1.9107e-01,  2.1190e-01,  2.4157e-01,  ..., -9.7761e-02,
+         -4.2792e-02, -4.9808e-02]], device='cuda:0'), grad: tensor([[-4.9782e-04, -9.0778e-05, -6.9320e-05,  ..., -1.3649e-04,
+         -1.5163e-04, -1.5879e-04],
+        [ 3.0351e-04,  5.7369e-05,  4.5091e-05,  ...,  7.9036e-05,
+          8.2791e-05,  8.6308e-05],
+        [ 1.0669e-04,  1.4327e-05,  9.5814e-06,  ...,  2.2203e-05,
+          1.9684e-05,  2.1145e-05],
+        ...,
+        [ 6.8307e-05,  2.4498e-05,  2.2128e-05,  ...,  3.4571e-05,
+          4.8399e-05,  4.9651e-05],
+        [ 2.5138e-05,  3.6769e-06,  2.5071e-06,  ...,  4.6752e-06,
+          4.3623e-06,  4.3921e-06],
+        [-1.4976e-05, -1.1064e-05, -1.1660e-05,  ..., -6.4708e-06,
+         -5.9865e-06, -5.2452e-06]], device='cuda:0')
+Epoch 61, bias, value: tensor([-0.0696,  0.0104, -0.0169, -0.0737,  0.0840,  0.0302,  0.0424],
+       device='cuda:0'), grad: tensor([-1.8530e-03,  1.0500e-03,  3.4451e-04,  2.8238e-05,  3.5954e-04,
+         7.8559e-05, -8.9034e-06], device='cuda:0')
+249
+0.0004951556604879052
+changing lr
+epoch 60, time 331.34, cls_loss 0.3563 cls_loss_mapping 0.0130 cls_loss_causal 0.3074 re_mapping 0.0166 re_causal 0.0178 /// teacc 97.08 lr 0.00040236
+Epoch 62, weight, value: tensor([[ 1.5320e-02,  3.7093e-02, -2.5707e-03,  ..., -2.8073e-04,
+         -6.4013e-05,  2.2859e-02],
+        [-6.4080e-02, -6.8139e-02, -9.0520e-02,  ...,  2.1187e-02,
+          6.1283e-02,  3.9405e-03],
+        [ 9.9581e-04, -2.0593e-02, -1.6530e-02,  ...,  2.1803e-02,
+         -2.6072e-02, -3.5299e-02],
+        ...,
+        [-8.1551e-02, -8.3702e-02, -4.3287e-02,  ...,  7.0809e-03,
+         -8.7540e-03,  2.4438e-06],
+        [-5.1627e-02, -3.3640e-02, -6.3646e-02,  ..., -9.7765e-02,
+         -1.2953e-01, -1.1882e-01],
+        [ 1.9169e-01,  2.1191e-01,  2.4162e-01,  ..., -9.7639e-02,
+         -4.2731e-02, -4.9642e-02]], device='cuda:0'), grad: tensor([[ 0.0177,  0.0029,  0.0033,  ...,  0.0051,  0.0045,  0.0051],
+        [-0.0066, -0.0028, -0.0045,  ...,  0.0027,  0.0024,  0.0018],
+        [-0.0643, -0.0097, -0.0098,  ..., -0.0200, -0.0175, -0.0195],
+        ...,
+        [ 0.0273,  0.0044,  0.0049,  ...,  0.0083,  0.0072,  0.0082],
+        [ 0.0079,  0.0016,  0.0018,  ...,  0.0013,  0.0011,  0.0014],
+        [ 0.0092,  0.0019,  0.0023,  ...,  0.0010,  0.0009,  0.0013]],
+       device='cuda:0')
+Epoch 62, bias, value: tensor([-0.0700,  0.0114, -0.0195, -0.0764,  0.0855,  0.0296,  0.0464],
+       device='cuda:0'), grad: tensor([ 0.0704, -0.0613, -0.2361,  0.0386,  0.1059,  0.0364,  0.0459],
+       device='cuda:0')
+249
+0.00040236113724274745
+changing lr
+epoch 61, time 332.05, cls_loss 0.3396 cls_loss_mapping 0.0144 cls_loss_causal 0.3085 re_mapping 0.0164 re_causal 0.0173 /// teacc 98.25 lr 0.00031883
+Epoch 63, weight, value: tensor([[ 1.4954e-02,  3.6922e-02, -2.8140e-03,  ..., -2.3422e-04,
+         -5.7432e-05,  2.2867e-02],
+        [-6.3762e-02, -6.8041e-02, -9.0369e-02,  ...,  2.1279e-02,
+          6.1407e-02,  4.1065e-03],
+        [ 8.8317e-04, -2.0730e-02, -1.6648e-02,  ...,  2.1510e-02,
+         -2.6352e-02, -3.5580e-02],
+        ...,
+        [-8.1370e-02, -8.3663e-02, -4.3208e-02,  ...,  7.1921e-03,
+         -8.6710e-03,  9.9769e-05],
+        [-5.1957e-02, -3.3730e-02, -6.3738e-02,  ..., -9.7821e-02,
+         -1.2954e-01, -1.1883e-01],
+        [ 1.9213e-01,  2.1229e-01,  2.4199e-01,  ..., -9.7457e-02,
+         -4.2612e-02, -4.9565e-02]], device='cuda:0'), grad: tensor([[-3.5797e-02, -5.6915e-03, -5.5962e-03,  ..., -7.2517e-03,
+         -6.8703e-03, -6.6795e-03],
+        [ 7.2336e-04,  1.2314e-04,  1.2267e-04,  ...,  1.5068e-04,
+          1.4389e-04,  1.3912e-04],
+        [ 8.9788e-04,  1.4281e-04,  1.4067e-04,  ...,  1.8299e-04,
+          1.7345e-04,  1.6868e-04],
+        ...,
+        [ 3.4149e-02,  5.4245e-03,  5.3368e-03,  ...,  6.9237e-03,
+          6.5613e-03,  6.3782e-03],
+        [ 4.0859e-05,  8.4862e-06,  8.9407e-06,  ...,  1.6809e-05,
+          1.7121e-05,  1.6600e-05],
+        [-8.7023e-06, -9.3803e-06, -1.0960e-05,  ..., -2.3209e-06,
+         -3.0641e-06, -1.6522e-06]], device='cuda:0')
+Epoch 63, bias, value: tensor([-0.0718,  0.0127, -0.0193, -0.0762,  0.0862,  0.0291,  0.0462],
+       device='cuda:0'), grad: tensor([-1.5234e-01,  3.0193e-03,  3.8185e-03,  3.4392e-05,  1.4526e-01,
+         1.4937e-04,  2.0429e-05], device='cuda:0')
+249
+0.00031882564680131423
+changing lr
+epoch 62, time 330.00, cls_loss 0.3464 cls_loss_mapping 0.0136 cls_loss_causal 0.3091 re_mapping 0.0164 re_causal 0.0172 /// teacc 98.25 lr 0.00024472
+Epoch 64, weight, value: tensor([[ 1.5206e-02,  3.6896e-02, -2.7770e-03,  ..., -1.9652e-05,
+          2.2984e-04,  2.3190e-02],
+        [-6.4100e-02, -6.8116e-02, -9.0477e-02,  ...,  2.0861e-02,
+          6.0934e-02,  3.6454e-03],
+        [ 7.6458e-04, -2.0777e-02, -1.6668e-02,  ...,  2.1358e-02,
+         -2.6479e-02, -3.5712e-02],
+        ...,
+        [-8.1783e-02, -8.3904e-02, -4.3463e-02,  ...,  7.2126e-03,
+         -8.6849e-03,  9.1893e-05],
+        [-5.1559e-02, -3.3591e-02, -6.3580e-02,  ..., -9.7622e-02,
+         -1.2931e-01, -1.1860e-01],
+        [ 1.9201e-01,  2.1231e-01,  2.4198e-01,  ..., -9.7476e-02,
+         -4.2681e-02, -4.9656e-02]], device='cuda:0'), grad: tensor([[-0.0392, -0.0079, -0.0093,  ..., -0.0054, -0.0068, -0.0106],
+        [ 0.0072,  0.0015,  0.0017,  ...,  0.0012,  0.0015,  0.0021],
+        [ 0.0056,  0.0011,  0.0013,  ...,  0.0008,  0.0010,  0.0015],
+        ...,
+        [ 0.0041,  0.0009,  0.0010,  ...,  0.0005,  0.0007,  0.0011],
+        [ 0.0041,  0.0009,  0.0011,  ..., -0.0006, -0.0002,  0.0002],
+        [ 0.0106,  0.0021,  0.0025,  ...,  0.0016,  0.0020,  0.0030]],
+       device='cuda:0')
+Epoch 64, bias, value: tensor([-0.0705,  0.0115, -0.0199, -0.0755,  0.0861,  0.0309,  0.0443],
+       device='cuda:0'), grad: tensor([-0.1573,  0.0282,  0.0224,  0.0291,  0.0163,  0.0191,  0.0422],
+       device='cuda:0')
+249
+0.0002447174185242325
+changing lr
+epoch 63, time 329.55, cls_loss 0.3577 cls_loss_mapping 0.0146 cls_loss_causal 0.3315 re_mapping 0.0162 re_causal 0.0171 /// teacc 97.66 lr 0.00018019
+Epoch 65, weight, value: tensor([[ 1.5464e-02,  3.6975e-02, -2.6881e-03,  ...,  2.0285e-04,
+          4.9334e-04,  2.3442e-02],
+        [-6.4448e-02, -6.8152e-02, -9.0541e-02,  ...,  2.0774e-02,
+          6.0798e-02,  3.4957e-03],
+        [ 1.2724e-03, -2.0635e-02, -1.6506e-02,  ...,  2.1437e-02,
+         -2.6383e-02, -3.5585e-02],
+        ...,
+        [-8.1584e-02, -8.3761e-02, -4.3345e-02,  ...,  7.3348e-03,
+         -8.5704e-03,  2.2214e-04],
+        [-5.1986e-02, -3.3723e-02, -6.3708e-02,  ..., -9.7758e-02,
+         -1.2946e-01, -1.1873e-01],
+        [ 1.9178e-01,  2.1214e-01,  2.4180e-01,  ..., -9.7505e-02,
+         -4.2729e-02, -4.9686e-02]], device='cuda:0'), grad: tensor([[ 0.0439,  0.0069,  0.0067,  ...,  0.0146,  0.0159,  0.0169],
+        [-0.0056, -0.0017, -0.0010,  ...,  0.0003,  0.0004,  0.0002],
+        [ 0.0234,  0.0066,  0.0063,  ...,  0.0034,  0.0037,  0.0051],
+        ...,
+        [-0.0472, -0.0066, -0.0065,  ..., -0.0162, -0.0178, -0.0185],
+        [ 0.0065,  0.0022,  0.0023,  ...,  0.0010,  0.0011,  0.0016],
+        [-0.0265, -0.0092, -0.0097,  ..., -0.0038, -0.0042, -0.0068]],
+       device='cuda:0')
+Epoch 65, bias, value: tensor([-0.0696,  0.0099, -0.0176, -0.0752,  0.0855,  0.0300,  0.0439],
+       device='cuda:0'), grad: tensor([ 0.1364, -0.0251,  0.0841,  0.0211, -0.1368,  0.0251, -0.1047],
+       device='cuda:0')
+249
+0.0001801856965207339
+changing lr
+epoch 64, time 329.98, cls_loss 0.3297 cls_loss_mapping 0.0141 cls_loss_causal 0.2899 re_mapping 0.0161 re_causal 0.0168 /// teacc 98.25 lr 0.00012536
+Epoch 66, weight, value: tensor([[ 1.5510e-02,  3.6970e-02, -2.6831e-03,  ...,  3.1927e-04,
+          5.6486e-04,  2.3529e-02],
+        [-6.4049e-02, -6.8082e-02, -9.0448e-02,  ...,  2.0773e-02,
+          6.0787e-02,  3.5026e-03],
+        [ 1.2444e-03, -2.0612e-02, -1.6482e-02,  ...,  2.1480e-02,
+         -2.6332e-02, -3.5529e-02],
+        ...,
+        [-8.1536e-02, -8.3659e-02, -4.3253e-02,  ...,  7.2265e-03,
+         -8.6300e-03,  1.4584e-04],
+        [-5.2100e-02, -3.3740e-02, -6.3728e-02,  ..., -9.7790e-02,
+         -1.2948e-01, -1.1877e-01],
+        [ 1.9161e-01,  2.1207e-01,  2.4172e-01,  ..., -9.7513e-02,
+         -4.2750e-02, -4.9713e-02]], device='cuda:0'), grad: tensor([[ 3.5048e-04,  7.7426e-05,  7.2837e-05,  ...,  1.2398e-04,
+          1.1045e-04,  1.1355e-04],
+        [ 3.4857e-04,  7.4923e-05,  6.8188e-05,  ...,  1.1712e-04,
+          9.9897e-05,  1.0514e-04],
+        [ 2.6965e-04,  4.6492e-05,  3.9548e-05,  ...,  8.7678e-05,
+          7.2956e-05,  7.8261e-05],
+        ...,
+        [ 3.9220e-04,  6.5684e-05,  5.0783e-05,  ...,  1.1128e-04,
+          8.0824e-05,  9.3877e-05],
+        [-1.7481e-03, -2.7728e-04, -2.2542e-04,  ..., -5.5456e-04,
+         -4.5109e-04, -4.9114e-04],
+        [-1.3852e-04, -9.9540e-05, -1.0753e-04,  ..., -5.6326e-05,
+         -5.5879e-05, -5.1141e-05]], device='cuda:0')
+Epoch 66, bias, value: tensor([-0.0699,  0.0114, -0.0175, -0.0763,  0.0858,  0.0301,  0.0433],
+       device='cuda:0'), grad: tensor([ 0.0010,  0.0010,  0.0008,  0.0015,  0.0012, -0.0054, -0.0002],
+       device='cuda:0')
+249
+0.000125360439090882
+changing lr
+epoch 65, time 331.68, cls_loss 0.3528 cls_loss_mapping 0.0135 cls_loss_causal 0.3265 re_mapping 0.0159 re_causal 0.0170 /// teacc 98.25 lr 0.00008035
+Epoch 67, weight, value: tensor([[ 1.5643e-02,  3.6990e-02, -2.6502e-03,  ...,  3.3949e-04,
+          5.7431e-04,  2.3557e-02],
+        [-6.4198e-02, -6.8172e-02, -9.0535e-02,  ...,  2.0703e-02,
+          6.0710e-02,  3.4334e-03],
+        [ 1.1406e-03, -2.0663e-02, -1.6544e-02,  ...,  2.1427e-02,
+         -2.6369e-02, -3.5590e-02],
+        ...,
+        [-8.1601e-02, -8.3584e-02, -4.3196e-02,  ...,  7.3042e-03,
+         -8.5377e-03,  2.2703e-04],
+        [-5.1952e-02, -3.3717e-02, -6.3702e-02,  ..., -9.7715e-02,
+         -1.2940e-01, -1.1869e-01],
+        [ 1.9175e-01,  2.1213e-01,  2.4178e-01,  ..., -9.7403e-02,
+         -4.2665e-02, -4.9612e-02]], device='cuda:0'), grad: tensor([[ 0.0066,  0.0014,  0.0016,  ...,  0.0016,  0.0019,  0.0018],
+        [ 0.0041,  0.0009,  0.0009,  ...,  0.0008,  0.0012,  0.0010],
+        [ 0.0066,  0.0014,  0.0015,  ...,  0.0015,  0.0019,  0.0018],
+        ...,
+        [ 0.0052,  0.0011,  0.0012,  ...,  0.0009,  0.0013,  0.0012],
+        [-0.0372, -0.0080, -0.0086,  ..., -0.0080, -0.0104, -0.0097],
+        [ 0.0080,  0.0017,  0.0019,  ...,  0.0017,  0.0022,  0.0021]],
+       device='cuda:0')
+Epoch 67, bias, value: tensor([-0.0692,  0.0109, -0.0178, -0.0765,  0.0852,  0.0306,  0.0438],
+       device='cuda:0'), grad: tensor([ 0.0256,  0.0171,  0.0263,  0.0271,  0.0211, -0.1495,  0.0322],
+       device='cuda:0')
+249
+8.03520570068517e-05
+changing lr
+epoch 66, time 330.34, cls_loss 0.3384 cls_loss_mapping 0.0129 cls_loss_causal 0.2931 re_mapping 0.0159 re_causal 0.0167 /// teacc 97.66 lr 0.00004525
+Epoch 68, weight, value: tensor([[ 0.0156,  0.0370, -0.0027,  ...,  0.0003,  0.0005,  0.0235],
+        [-0.0641, -0.0681, -0.0905,  ...,  0.0207,  0.0607,  0.0034],
+        [ 0.0011, -0.0207, -0.0165,  ...,  0.0214, -0.0263, -0.0356],
+        ...,
+        [-0.0815, -0.0836, -0.0432,  ...,  0.0073, -0.0085,  0.0003],
+        [-0.0520, -0.0337, -0.0637,  ..., -0.0977, -0.1294, -0.1187],
+        [ 0.1917,  0.2121,  0.2417,  ..., -0.0974, -0.0427, -0.0496]],
+       device='cuda:0'), grad: tensor([[ 0.0050,  0.0011,  0.0012,  ...,  0.0006,  0.0008,  0.0011],
+        [ 0.0047,  0.0010,  0.0011,  ...,  0.0005,  0.0008,  0.0010],
+        [-0.0364, -0.0079, -0.0087,  ..., -0.0044, -0.0060, -0.0082],
+        ...,
+        [ 0.0043,  0.0009,  0.0010,  ...,  0.0005,  0.0007,  0.0010],
+        [ 0.0075,  0.0016,  0.0018,  ...,  0.0009,  0.0012,  0.0017],
+        [ 0.0101,  0.0022,  0.0024,  ...,  0.0012,  0.0017,  0.0023]],
+       device='cuda:0')
+Epoch 68, bias, value: tensor([-0.0695,  0.0113, -0.0178, -0.0766,  0.0859,  0.0300,  0.0436],
+       device='cuda:0'), grad: tensor([ 0.0188,  0.0186, -0.1398,  0.0184,  0.0165,  0.0287,  0.0387],
+       device='cuda:0')
+249
+4.5251191160326525e-05
+changing lr
+epoch 67, time 326.76, cls_loss 0.3621 cls_loss_mapping 0.0137 cls_loss_causal 0.3337 re_mapping 0.0158 re_causal 0.0167 /// teacc 98.25 lr 0.00002013
+Epoch 69, weight, value: tensor([[ 0.0155,  0.0370, -0.0027,  ...,  0.0002,  0.0005,  0.0235],
+        [-0.0640, -0.0681, -0.0904,  ...,  0.0207,  0.0607,  0.0034],
+        [ 0.0011, -0.0207, -0.0166,  ...,  0.0214, -0.0263, -0.0356],
+        ...,
+        [-0.0815, -0.0836, -0.0432,  ...,  0.0074, -0.0085,  0.0003],
+        [-0.0520, -0.0337, -0.0637,  ..., -0.0977, -0.1294, -0.1187],
+        [ 0.1916,  0.2121,  0.2417,  ..., -0.0975, -0.0427, -0.0497]],
+       device='cuda:0'), grad: tensor([[-5.5962e-03, -1.2188e-03, -1.9083e-03,  ..., -1.5488e-03,
+         -2.3575e-03, -2.5043e-03],
+        [-2.8439e-03, -7.0095e-04, -6.6280e-04,  ..., -5.6648e-04,
+         -3.6955e-04, -4.1246e-04],
+        [ 2.1219e-04,  4.7594e-05,  6.6340e-05,  ...,  5.1439e-05,
+          7.2539e-05,  7.7248e-05],
+        ...,
+        [ 5.6305e-03,  1.2331e-03,  1.8368e-03,  ...,  1.5287e-03,
+          2.1935e-03,  2.3365e-03],
+        [ 2.1744e-03,  5.4455e-04,  5.4502e-04,  ...,  4.3416e-04,
+          3.3426e-04,  3.6693e-04],
+        [ 9.1195e-05,  1.5035e-05,  2.2843e-05,  ...,  1.9804e-05,
+          2.7820e-05,  3.0816e-05]], device='cuda:0')
+Epoch 69, bias, value: tensor([-0.0697,  0.0114, -0.0179, -0.0767,  0.0859,  0.0302,  0.0437],
+       device='cuda:0'), grad: tensor([-0.0353, -0.0065,  0.0011,  0.0015,  0.0328,  0.0059,  0.0005],
+       device='cuda:0')
+249
+2.0128530023804673e-05
+changing lr
+epoch 68, time 329.02, cls_loss 0.3571 cls_loss_mapping 0.0154 cls_loss_causal 0.3297 re_mapping 0.0158 re_causal 0.0166 /// teacc 95.32 lr 0.00000503
+Epoch 70, weight, value: tensor([[ 1.5356e-02,  3.6919e-02, -2.7168e-03,  ...,  2.1096e-04,
+          4.6857e-04,  2.3457e-02],
+        [-6.3965e-02, -6.8048e-02, -9.0401e-02,  ...,  2.0716e-02,
+          6.0715e-02,  3.4511e-03],
+        [ 1.0391e-03, -2.0695e-02, -1.6568e-02,  ...,  2.1415e-02,
+         -2.6356e-02, -3.5591e-02],
+        ...,
+        [-8.1340e-02, -8.3535e-02, -4.3149e-02,  ...,  7.4071e-03,
+         -8.4435e-03,  3.2380e-04],
+        [-5.1926e-02, -3.3719e-02, -6.3704e-02,  ..., -9.7643e-02,
+         -1.2933e-01, -1.1863e-01],
+        [ 1.9161e-01,  2.1204e-01,  2.4169e-01,  ..., -9.7465e-02,
+         -4.2731e-02, -4.9671e-02]], device='cuda:0'), grad: tensor([[-0.0250, -0.0076, -0.0089,  ..., -0.0044, -0.0027, -0.0015],
+        [ 0.0036,  0.0011,  0.0011,  ...,  0.0010,  0.0010,  0.0010],
+        [-0.0169, -0.0047, -0.0050,  ..., -0.0040, -0.0049, -0.0048],
+        ...,
+        [ 0.0385,  0.0114,  0.0129,  ...,  0.0078,  0.0070,  0.0057],
+        [-0.0054, -0.0020, -0.0019,  ..., -0.0043, -0.0042, -0.0042],
+        [ 0.0004,  0.0001,  0.0001,  ...,  0.0003,  0.0003,  0.0003]],
+       device='cuda:0')
+Epoch 70, bias, value: tensor([-0.0701,  0.0115, -0.0179, -0.0767,  0.0862,  0.0304,  0.0435],
+       device='cuda:0'), grad: tensor([-0.0362,  0.0102, -0.0623,  0.0113,  0.0884, -0.0124,  0.0011],
+       device='cuda:0')
+249
+5.034667293427056e-06
+changing lr
+epoch 69, time 331.03, cls_loss 0.3636 cls_loss_mapping 0.0142 cls_loss_causal 0.3308 re_mapping 0.0159 re_causal 0.0171 /// teacc 97.08 lr 0.00000000
+---------------------saving last model at epoch 69----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//photo/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps1_RA_repeat', 'source_domain': 'photo', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//photo/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps1_RA_repeat/photo_16factor_best_test_check.csv', 'factor_num': 16, 'epoch': 'best', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of best
+randm: False
+stride: 5
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+columns: ['photo', 'art_painting', 'cartoon', 'sketch']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+                        photo  art_painting    cartoon     sketch        Avg
+w/o do (original x)  99.94012     67.236328  42.576792  57.241028  55.684716
+        photo  art_painting    cartoon     sketch        Avg
+do  99.820359     68.994141  52.047782  69.076101  63.372674
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//photo/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps1_RA_repeat', 'source_domain': 'photo', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//photo/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_WithStyleAttackExp1_eps1_RA_repeat/photo_16factor_last_test_check.csv', 'factor_num': 16, 'epoch': 'last', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of last
+randm: False
+stride: 5
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+columns: ['photo', 'art_painting', 'cartoon', 'sketch']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+                         photo  art_painting    cartoon     sketch        Avg
+w/o do (original x)  99.700599     66.601562  50.554608  64.545686  60.567285
+        photo  art_painting    cartoon     sketch        Avg
+do  99.640719     65.478516  54.692833  67.981675  62.717674
diff --git a/Meta-causal/code-withStyleAttack/73771.error b/Meta-causal/code-withStyleAttack/73771.error
new file mode 100644
index 0000000000000000000000000000000000000000..cec843779d7c967ab2b29f38358285fe08cafe5e
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73771.error
@@ -0,0 +1,86 @@
+Traceback (most recent call last):
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py", line 672, in <module>
+    experiment()
+  File "/scratch/yuqian_fu/micromamba/envs/auto-3wy7kgr4zaqz/lib/python3.11/site-packages/click/core.py", line 1157, in __call__
+    return self.main(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-3wy7kgr4zaqz/lib/python3.11/site-packages/click/core.py", line 1078, in main
+    rv = self.invoke(ctx)
+         ^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-3wy7kgr4zaqz/lib/python3.11/site-packages/click/core.py", line 1434, in invoke
+    return ctx.invoke(self.callback, **ctx.params)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-3wy7kgr4zaqz/lib/python3.11/site-packages/click/core.py", line 783, in invoke
+    return __callback(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py", line 273, in experiment
+    adv_style_mean_block1, adv_style_std_block1, adv_style_mean_block2, adv_style_std_block2, adv_style_mean_block3, adv_style_std_block3 = adversarial_attack_Incre(cls_net, cls_criterion, x_RA, y, epsilon_list)
+                                                                                                                                            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/tool_func.py", line 187, in adversarial_attack_Incre
+    ori_style_mean_block3, ori_style_std_block3 = calc_mean_std(x_ori_block3)
+                                                  ^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/tool_func.py", line 19, in calc_mean_std
+    assert (len(size) == 4)
+            ^^^^^^^^^^^^^^
+AssertionError
+Traceback (most recent call last):
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_digit_v13.py", line 145, in <module>
+    main()
+  File "/scratch/yuqian_fu/micromamba/envs/auto-3wy7kgr4zaqz/lib/python3.11/site-packages/click/core.py", line 1157, in __call__
+    return self.main(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-3wy7kgr4zaqz/lib/python3.11/site-packages/click/core.py", line 1078, in main
+    rv = self.invoke(ctx)
+         ^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-3wy7kgr4zaqz/lib/python3.11/site-packages/click/core.py", line 1434, in invoke
+    return ctx.invoke(self.callback, **ctx.params)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-3wy7kgr4zaqz/lib/python3.11/site-packages/click/core.py", line 783, in invoke
+    return __callback(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_digit_v13.py", line 29, in main
+    evaluate_digit(gpu, svroot, svpath, channels, factor_num, stride,epoch, eval_mapping)
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_digit_v13.py", line 45, in evaluate_digit
+    saved_weight = torch.load(os.path.join(svroot, 'best_cls_net.pkl'))
+                   ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-3wy7kgr4zaqz/lib/python3.11/site-packages/torch/serialization.py", line 997, in load
+    with _open_file_like(f, 'rb') as opened_file:
+         ^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-3wy7kgr4zaqz/lib/python3.11/site-packages/torch/serialization.py", line 444, in _open_file_like
+    return _open_file(name_or_buffer, mode)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-3wy7kgr4zaqz/lib/python3.11/site-packages/torch/serialization.py", line 425, in __init__
+    super().__init__(open(name, mode))
+                     ^^^^^^^^^^^^^^^^
+FileNotFoundError: [Errno 2] No such file or directory: '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps1_RA/best_cls_net.pkl'
+Traceback (most recent call last):
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_digit_v13.py", line 145, in <module>
+    main()
+  File "/scratch/yuqian_fu/micromamba/envs/auto-3wy7kgr4zaqz/lib/python3.11/site-packages/click/core.py", line 1157, in __call__
+    return self.main(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-3wy7kgr4zaqz/lib/python3.11/site-packages/click/core.py", line 1078, in main
+    rv = self.invoke(ctx)
+         ^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-3wy7kgr4zaqz/lib/python3.11/site-packages/click/core.py", line 1434, in invoke
+    return ctx.invoke(self.callback, **ctx.params)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-3wy7kgr4zaqz/lib/python3.11/site-packages/click/core.py", line 783, in invoke
+    return __callback(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_digit_v13.py", line 29, in main
+    evaluate_digit(gpu, svroot, svpath, channels, factor_num, stride,epoch, eval_mapping)
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code-withStyleAttack/main_test_digit_v13.py", line 48, in evaluate_digit
+    saved_weight = torch.load(os.path.join(svroot, 'last_cls_net.pkl'))
+                   ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-3wy7kgr4zaqz/lib/python3.11/site-packages/torch/serialization.py", line 997, in load
+    with _open_file_like(f, 'rb') as opened_file:
+         ^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-3wy7kgr4zaqz/lib/python3.11/site-packages/torch/serialization.py", line 444, in _open_file_like
+    return _open_file(name_or_buffer, mode)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-3wy7kgr4zaqz/lib/python3.11/site-packages/torch/serialization.py", line 425, in __init__
+    super().__init__(open(name, mode))
+                     ^^^^^^^^^^^^^^^^
+FileNotFoundError: [Errno 2] No such file or directory: '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps1_RA/last_cls_net.pkl'
+srun: error: gcpl4-eu-1: task 0: Exited with exit code 1
diff --git a/Meta-causal/code-withStyleAttack/73771.log b/Meta-causal/code-withStyleAttack/73771.log
new file mode 100644
index 0000000000000000000000000000000000000000..62a5832c7da6e31856b7941323e1f1d2affebcad
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73771.log
@@ -0,0 +1,28 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 500, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps1_RA', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 3
+--------------------------CA_multiple--------------------------
+---------------------------14 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+Epoch 1, weight, value: tensor([[-0.0261,  0.0158,  0.0133,  ...,  0.0026, -0.0106,  0.0144],
+        [ 0.0192, -0.0037,  0.0040,  ...,  0.0299, -0.0211, -0.0292],
+        [-0.0290, -0.0065,  0.0231,  ...,  0.0248,  0.0046,  0.0166],
+        ...,
+        [ 0.0263,  0.0206,  0.0228,  ..., -0.0254, -0.0240,  0.0079],
+        [ 0.0304, -0.0059,  0.0271,  ...,  0.0253,  0.0035, -0.0263],
+        [ 0.0075, -0.0214, -0.0031,  ..., -0.0144,  0.0155, -0.0123]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([ 0.0129,  0.0222,  0.0276,  0.0118,  0.0310, -0.0219,  0.0043,  0.0032,
+         0.0284, -0.0059], device='cuda:0'), grad: None
+100
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps1_RA', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps1_RA/14factor_best.csv', 'channels': 3, 'factor_num': 14, 'stride': 3, 'epoch': 'best', 'eval_mapping': True}
+loading weight of best
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps1_RA', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps1_RA/14factor_last.csv', 'channels': 3, 'factor_num': 14, 'stride': 3, 'epoch': 'last', 'eval_mapping': True}
+loading weight of last
diff --git a/Meta-causal/code-withStyleAttack/73772.error b/Meta-causal/code-withStyleAttack/73772.error
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/Meta-causal/code-withStyleAttack/73772.log b/Meta-causal/code-withStyleAttack/73772.log
new file mode 100644
index 0000000000000000000000000000000000000000..d25c5da5742b398db00877d8519b854f548c4c0c
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/73772.log
@@ -0,0 +1,13405 @@
+/home/yuqian_fu
+here1
+here2
+{'gpu': '0', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 500, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps1_RA', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 3
+--------------------------CA_multiple--------------------------
+---------------------------14 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+Epoch 1, weight, value: tensor([[-0.0257, -0.0217, -0.0145,  ...,  0.0098, -0.0079, -0.0043],
+        [ 0.0085,  0.0093,  0.0299,  ..., -0.0185, -0.0250,  0.0172],
+        [ 0.0309,  0.0209, -0.0241,  ...,  0.0148, -0.0250,  0.0080],
+        ...,
+        [-0.0115, -0.0008,  0.0226,  ...,  0.0186, -0.0206, -0.0125],
+        [-0.0296,  0.0005,  0.0156,  ...,  0.0194, -0.0230,  0.0121],
+        [ 0.0034,  0.0047,  0.0175,  ..., -0.0118, -0.0244, -0.0308]],
+       device='cuda:0'), grad: None
+Epoch 1, bias, value: tensor([-0.0295, -0.0087, -0.0069, -0.0114, -0.0144,  0.0117, -0.0009,  0.0181,
+         0.0012,  0.0265], device='cuda:0'), grad: None
+100
+0.0001
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 215.27, cls_loss 2.2952 cls_loss_mapping 2.2932 cls_loss_causal 2.3004 re_mapping 0.0021 re_causal 0.0022 /// teacc 40.22 lr 0.00010000
+Epoch 2, weight, value: tensor([[-0.0266, -0.0224, -0.0154,  ...,  0.0093, -0.0077, -0.0068],
+        [ 0.0100,  0.0086,  0.0291,  ..., -0.0149, -0.0229,  0.0181],
+        [ 0.0300,  0.0203, -0.0232,  ...,  0.0159, -0.0255,  0.0077],
+        ...,
+        [-0.0105, -0.0002,  0.0203,  ...,  0.0181, -0.0215, -0.0113],
+        [-0.0279, -0.0001,  0.0145,  ...,  0.0186, -0.0240,  0.0117],
+        [ 0.0027,  0.0041,  0.0171,  ..., -0.0145, -0.0252, -0.0304]],
+       device='cuda:0'), grad: tensor([[ 0.0033,  0.0000,  0.0000,  ...,  0.0003,  0.0000,  0.0014],
+        [-0.0039,  0.0000,  0.0000,  ...,  0.0001,  0.0000,  0.0010],
+        [-0.0009,  0.0000,  0.0000,  ..., -0.0005,  0.0000, -0.0013],
+        ...,
+        [-0.0009,  0.0000,  0.0000,  ..., -0.0003,  0.0000,  0.0012],
+        [ 0.0036,  0.0000,  0.0000,  ...,  0.0003,  0.0000, -0.0022],
+        [-0.0013,  0.0000,  0.0000,  ..., -0.0004,  0.0000, -0.0039]],
+       device='cuda:0')
+Epoch 2, bias, value: tensor([-0.0305, -0.0062, -0.0074, -0.0108, -0.0143,  0.0082, -0.0010,  0.0198,
+         0.0007,  0.0259], device='cuda:0'), grad: tensor([ 0.0401, -0.0173, -0.0286,  0.0070,  0.0047,  0.0200, -0.0013,  0.0184,
+         0.0051, -0.0482], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 214.59, cls_loss 2.2133 cls_loss_mapping 1.7574 cls_loss_causal 2.1724 re_mapping 0.0493 re_causal 0.0267 /// teacc 69.41 lr 0.00010000
+Epoch 3, weight, value: tensor([[-0.0284, -0.0224, -0.0154,  ...,  0.0050, -0.0077, -0.0092],
+        [ 0.0109,  0.0086,  0.0291,  ..., -0.0116, -0.0229,  0.0158],
+        [ 0.0297,  0.0203, -0.0232,  ...,  0.0168, -0.0255,  0.0073],
+        ...,
+        [-0.0108, -0.0002,  0.0203,  ...,  0.0154, -0.0215, -0.0101],
+        [-0.0283, -0.0001,  0.0145,  ...,  0.0180, -0.0240,  0.0093],
+        [ 0.0004,  0.0041,  0.0171,  ..., -0.0178, -0.0252, -0.0297]],
+       device='cuda:0'), grad: tensor([[ 0.0055,  0.0000,  0.0000,  ...,  0.0079,  0.0000,  0.0097],
+        [-0.0021,  0.0000,  0.0000,  ..., -0.0054,  0.0000, -0.0017],
+        [ 0.0049,  0.0000,  0.0000,  ..., -0.0001,  0.0000,  0.0074],
+        ...,
+        [ 0.0016,  0.0000,  0.0000,  ...,  0.0072,  0.0000,  0.0032],
+        [ 0.0063,  0.0000,  0.0000,  ..., -0.0011,  0.0000,  0.0048],
+        [-0.0132,  0.0000,  0.0000,  ..., -0.0145,  0.0000, -0.0124]],
+       device='cuda:0')
+Epoch 3, bias, value: tensor([-0.0310, -0.0046, -0.0087, -0.0107, -0.0146,  0.0074,  0.0005,  0.0195,
+        -0.0003,  0.0264], device='cuda:0'), grad: tensor([ 0.0634,  0.0126,  0.0408, -0.0457,  0.0363, -0.0687,  0.0420,  0.0433,
+        -0.0366, -0.0872], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 214.49, cls_loss 2.0050 cls_loss_mapping 0.8717 cls_loss_causal 1.8206 re_mapping 0.1308 re_causal 0.1030 /// teacc 87.88 lr 0.00010000
+Epoch 4, weight, value: tensor([[-0.0312, -0.0310, -0.0154,  ...,  0.0030, -0.0154, -0.0132],
+        [ 0.0102, -0.0029,  0.0291,  ..., -0.0088, -0.0178,  0.0121],
+        [ 0.0287,  0.0067, -0.0232,  ...,  0.0216, -0.0246,  0.0064],
+        ...,
+        [-0.0099,  0.0063,  0.0203,  ...,  0.0103, -0.0188, -0.0105],
+        [-0.0260, -0.0076,  0.0145,  ...,  0.0187, -0.0227,  0.0103],
+        [-0.0017,  0.0059,  0.0171,  ..., -0.0242, -0.0287, -0.0286]],
+       device='cuda:0'), grad: tensor([[-0.0024,  0.0014,  0.0000,  ..., -0.0173,  0.0029,  0.0001],
+        [-0.0019,  0.0074,  0.0000,  ...,  0.0002,  0.0033, -0.0002],
+        [-0.0035, -0.0108,  0.0000,  ...,  0.0044, -0.0054, -0.0046],
+        ...,
+        [ 0.0042,  0.0070,  0.0000,  ...,  0.0040,  0.0027,  0.0044],
+        [ 0.0036,  0.0012,  0.0000,  ...,  0.0017,  0.0013,  0.0032],
+        [ 0.0050,  0.0070,  0.0000,  ...,  0.0027,  0.0031,  0.0038]],
+       device='cuda:0')
+Epoch 4, bias, value: tensor([-0.0309, -0.0045, -0.0095, -0.0100, -0.0147,  0.0082, -0.0002,  0.0192,
+         0.0002,  0.0262], device='cuda:0'), grad: tensor([-0.0816,  0.0069, -0.0895,  0.0048, -0.0013,  0.0634, -0.0400,  0.0790,
+        -0.0061,  0.0643], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 214.41, cls_loss 1.7866 cls_loss_mapping 0.5233 cls_loss_causal 1.5828 re_mapping 0.1264 re_causal 0.1410 /// teacc 91.49 lr 0.00010000
+Epoch 5, weight, value: tensor([[-3.4419e-02, -3.5779e-02, -1.5380e-02,  ...,  2.4680e-03,
+         -2.9849e-02, -1.5549e-02],
+        [ 9.3580e-03, -9.9548e-03,  2.9077e-02,  ..., -6.0945e-03,
+         -7.3603e-03,  1.0554e-02],
+        [ 2.6511e-02, -1.7537e-03, -2.3167e-02,  ...,  2.3826e-02,
+         -2.5357e-02,  4.3792e-03],
+        ...,
+        [-1.0976e-02,  1.2861e-02,  2.0267e-02,  ...,  1.0183e-02,
+         -2.3878e-02, -1.2458e-02],
+        [-2.5294e-02, -7.2615e-03,  1.4495e-02,  ...,  2.2081e-02,
+         -1.6458e-02,  7.7974e-03],
+        [-1.3568e-05,  1.2129e-02,  1.7080e-02,  ..., -2.8597e-02,
+         -3.2479e-02, -2.7199e-02]], device='cuda:0'), grad: tensor([[ 2.5082e-03,  8.8959e-03,  0.0000e+00,  ..., -1.3561e-03,
+          1.5177e-05,  1.3523e-03],
+        [ 4.1580e-04, -1.1429e-02,  0.0000e+00,  ..., -1.6031e-03,
+         -2.8968e-05,  3.3569e-03],
+        [ 2.4586e-03, -7.6370e-03,  0.0000e+00,  ..., -5.3368e-03,
+         -9.7370e-04,  5.2147e-03],
+        ...,
+        [ 5.3368e-03,  1.2512e-02,  0.0000e+00,  ...,  5.9986e-04,
+          7.0810e-04, -1.4362e-03],
+        [ 2.2339e-02,  1.7822e-02,  0.0000e+00,  ...,  8.4381e-03,
+          7.0524e-04,  1.5114e-02],
+        [-1.7975e-02, -2.5421e-02,  0.0000e+00,  ...,  2.1973e-03,
+          1.4448e-03, -1.4191e-02]], device='cuda:0')
+Epoch 5, bias, value: tensor([-0.0301, -0.0041, -0.0095, -0.0093, -0.0138,  0.0081, -0.0017,  0.0185,
+         0.0003,  0.0256], device='cuda:0'), grad: tensor([ 0.0030, -0.0207, -0.0003,  0.0251, -0.0262,  0.0673, -0.0639,  0.0069,
+         0.1094, -0.1006], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 214.48, cls_loss 1.6165 cls_loss_mapping 0.3603 cls_loss_causal 1.3744 re_mapping 0.1120 re_causal 0.1466 /// teacc 91.67 lr 0.00010000
+Epoch 6, weight, value: tensor([[-0.0359, -0.0376, -0.0153,  ...,  0.0025, -0.0343, -0.0175],
+        [ 0.0078, -0.0134,  0.0272,  ..., -0.0037, -0.0035,  0.0078],
+        [ 0.0241, -0.0050, -0.0236,  ...,  0.0251, -0.0211,  0.0021],
+        ...,
+        [-0.0109,  0.0158,  0.0186,  ...,  0.0117, -0.0250, -0.0138],
+        [-0.0257, -0.0081,  0.0148,  ...,  0.0243, -0.0145,  0.0051],
+        [ 0.0017,  0.0174,  0.0165,  ..., -0.0326, -0.0343, -0.0257]],
+       device='cuda:0'), grad: tensor([[ 0.0118,  0.0029,  0.0000,  ...,  0.0068,  0.0026,  0.0123],
+        [ 0.0054, -0.0118,  0.0000,  ..., -0.0050, -0.0099,  0.0013],
+        [ 0.0062, -0.0006,  0.0000,  ..., -0.0018,  0.0020,  0.0072],
+        ...,
+        [ 0.0040,  0.0102,  0.0000,  ...,  0.0147,  0.0062,  0.0075],
+        [-0.0035,  0.0043,  0.0000,  ..., -0.0032,  0.0029,  0.0081],
+        [-0.0033, -0.0107,  0.0000,  ..., -0.0051,  0.0011, -0.0101]],
+       device='cuda:0')
+Epoch 6, bias, value: tensor([-0.0291, -0.0042, -0.0085, -0.0095, -0.0132,  0.0091, -0.0029,  0.0191,
+        -0.0016,  0.0250], device='cuda:0'), grad: tensor([ 0.0630,  0.0033, -0.0320, -0.0046,  0.0212, -0.0768, -0.0086,  0.0711,
+         0.0387, -0.0752], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 5----------------------------------------------------
+epoch 5, time 214.68, cls_loss 1.5231 cls_loss_mapping 0.2814 cls_loss_causal 1.2788 re_mapping 0.0952 re_causal 0.1394 /// teacc 92.94 lr 0.00010000
+Epoch 7, weight, value: tensor([[-0.0376, -0.0381, -0.0163,  ...,  0.0033, -0.0381, -0.0196],
+        [ 0.0070, -0.0148,  0.0277,  ..., -0.0013, -0.0025,  0.0050],
+        [ 0.0214, -0.0093, -0.0222,  ...,  0.0274, -0.0170,  0.0003],
+        ...,
+        [-0.0107,  0.0175,  0.0132,  ...,  0.0112, -0.0288, -0.0146],
+        [-0.0252, -0.0081,  0.0109,  ...,  0.0264, -0.0110,  0.0033],
+        [ 0.0019,  0.0196,  0.0113,  ..., -0.0359, -0.0366, -0.0252]],
+       device='cuda:0'), grad: tensor([[ 0.0018,  0.0028,  0.0000,  ..., -0.0023,  0.0051, -0.0061],
+        [-0.0097,  0.0020,  0.0000,  ..., -0.0202,  0.0030, -0.0169],
+        [ 0.0077,  0.0024,  0.0000,  ...,  0.0001, -0.0076,  0.0049],
+        ...,
+        [-0.0036,  0.0121,  0.0000,  ...,  0.0060,  0.0131, -0.0103],
+        [-0.0048, -0.0305,  0.0000,  ..., -0.0168, -0.0431, -0.0006],
+        [ 0.0026,  0.0505,  0.0000,  ...,  0.0087,  0.0238,  0.0083]],
+       device='cuda:0')
+Epoch 7, bias, value: tensor([-0.0292, -0.0045, -0.0085, -0.0084, -0.0129,  0.0083, -0.0027,  0.0193,
+        -0.0021,  0.0246], device='cuda:0'), grad: tensor([ 0.0168, -0.1144, -0.0107,  0.0742, -0.0011, -0.0155,  0.0515, -0.0100,
+        -0.0684,  0.0776], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 6----------------------------------------------------
+epoch 6, time 214.51, cls_loss 1.4263 cls_loss_mapping 0.2359 cls_loss_causal 1.1985 re_mapping 0.0810 re_causal 0.1366 /// teacc 94.32 lr 0.00010000
+Epoch 8, weight, value: tensor([[-0.0399, -0.0381, -0.0166,  ...,  0.0039, -0.0389, -0.0206],
+        [ 0.0068, -0.0187,  0.0274,  ...,  0.0003, -0.0006,  0.0033],
+        [ 0.0198, -0.0117, -0.0223,  ...,  0.0283, -0.0150, -0.0025],
+        ...,
+        [-0.0112,  0.0188,  0.0125,  ...,  0.0114, -0.0294, -0.0167],
+        [-0.0251, -0.0076,  0.0106,  ...,  0.0268, -0.0094,  0.0023],
+        [ 0.0021,  0.0215,  0.0106,  ..., -0.0376, -0.0377, -0.0236]],
+       device='cuda:0'), grad: tensor([[-0.0009,  0.0044,  0.0000,  ...,  0.0032,  0.0010, -0.0077],
+        [ 0.0024,  0.0029,  0.0000,  ..., -0.0023,  0.0004,  0.0051],
+        [ 0.0071,  0.0080,  0.0000,  ...,  0.0074, -0.0032,  0.0082],
+        ...,
+        [-0.0035, -0.0287,  0.0000,  ..., -0.0062,  0.0003,  0.0019],
+        [-0.0014, -0.0081,  0.0000,  ..., -0.0097,  0.0010,  0.0038],
+        [-0.0044,  0.0081,  0.0000,  ...,  0.0007,  0.0002, -0.0134]],
+       device='cuda:0')
+Epoch 8, bias, value: tensor([-0.0285, -0.0041, -0.0085, -0.0080, -0.0128,  0.0077, -0.0032,  0.0194,
+        -0.0024,  0.0242], device='cuda:0'), grad: tensor([-0.0442,  0.0173,  0.0562, -0.0463, -0.0025,  0.0402,  0.0295, -0.0161,
+        -0.0328, -0.0012], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 7----------------------------------------------------
+epoch 7, time 214.66, cls_loss 1.3349 cls_loss_mapping 0.2118 cls_loss_causal 1.1245 re_mapping 0.0704 re_causal 0.1275 /// teacc 95.25 lr 0.00010000
+Epoch 9, weight, value: tensor([[-0.0420, -0.0382, -0.0205,  ...,  0.0037, -0.0418, -0.0217],
+        [ 0.0056, -0.0189,  0.0241,  ...,  0.0020,  0.0007,  0.0010],
+        [ 0.0173, -0.0142, -0.0218,  ...,  0.0290, -0.0144, -0.0035],
+        ...,
+        [-0.0117,  0.0192,  0.0109,  ...,  0.0117, -0.0313, -0.0170],
+        [-0.0252, -0.0069,  0.0124,  ...,  0.0261, -0.0080,  0.0003],
+        [ 0.0035,  0.0221,  0.0078,  ..., -0.0395, -0.0385, -0.0226]],
+       device='cuda:0'), grad: tensor([[-3.9291e-03, -2.0325e-02, -1.5993e-03,  ..., -8.2092e-03,
+          1.2512e-03, -9.1476e-03],
+        [ 1.5507e-03,  3.0255e-04,  9.7394e-05,  ..., -3.2166e-02,
+         -5.8556e-03,  4.0436e-03],
+        [ 2.1954e-03,  4.0321e-03,  1.8489e-04,  ...,  9.0637e-03,
+         -8.9455e-04,  4.9591e-03],
+        ...,
+        [ 4.6992e-04,  2.9926e-03,  5.2881e-04,  ...,  1.6270e-03,
+          1.5116e-03,  6.2981e-03],
+        [ 5.3406e-03,  1.4908e-02,  6.1226e-04,  ...,  7.1182e-03,
+          2.7351e-03,  1.0880e-02],
+        [ 5.3692e-04, -6.4735e-03, -6.7711e-05,  ...,  5.5351e-03,
+          3.6359e-04,  1.0109e-03]], device='cuda:0')
+Epoch 9, bias, value: tensor([-0.0288, -0.0039, -0.0086, -0.0078, -0.0133,  0.0078, -0.0030,  0.0195,
+        -0.0023,  0.0242], device='cuda:0'), grad: tensor([-0.1016, -0.0212,  0.0164,  0.0358,  0.0102, -0.0010, -0.0588,  0.0231,
+         0.0649,  0.0322], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 8, time 213.70, cls_loss 1.2971 cls_loss_mapping 0.1972 cls_loss_causal 1.0997 re_mapping 0.0653 re_causal 0.1244 /// teacc 94.86 lr 0.00010000
+Epoch 10, weight, value: tensor([[-4.3552e-02, -3.7830e-02, -2.1098e-02,  ...,  3.3888e-03,
+         -4.3135e-02, -2.3272e-02],
+        [ 6.0748e-03, -1.8447e-02,  1.8358e-02,  ...,  3.7643e-03,
+          6.2216e-05,  1.1227e-03],
+        [ 1.6568e-02, -1.5606e-02, -2.7065e-02,  ...,  2.9607e-02,
+         -1.3574e-02, -4.9672e-03],
+        ...,
+        [-1.2801e-02,  1.9409e-02,  1.3275e-02,  ...,  1.2541e-02,
+         -2.9741e-02, -1.7815e-02],
+        [-2.5315e-02, -7.5025e-03,  9.3757e-03,  ...,  2.6315e-02,
+         -7.5325e-03, -1.2798e-03],
+        [ 4.7083e-03,  2.3244e-02,  6.9806e-03,  ..., -4.0716e-02,
+         -3.9597e-02, -2.1435e-02]], device='cuda:0'), grad: tensor([[ 0.0013,  0.0075,  0.0000,  ...,  0.0133,  0.0038,  0.0066],
+        [ 0.0004,  0.0009,  0.0000,  ..., -0.0127, -0.0105, -0.0049],
+        [ 0.0006,  0.0013,  0.0000,  ...,  0.0024,  0.0008, -0.0020],
+        ...,
+        [ 0.0007,  0.0434,  0.0000,  ...,  0.0038,  0.0186,  0.0069],
+        [-0.0045,  0.0124,  0.0000,  ...,  0.0002,  0.0091,  0.0041],
+        [ 0.0191,  0.0310,  0.0000,  ...,  0.0008,  0.0136,  0.0075]],
+       device='cuda:0')
+Epoch 10, bias, value: tensor([-0.0290, -0.0037, -0.0084, -0.0078, -0.0133,  0.0078, -0.0033,  0.0197,
+        -0.0025,  0.0245], device='cuda:0'), grad: tensor([ 0.0701, -0.0559, -0.0114, -0.0258,  0.0330, -0.0676,  0.0064,  0.0322,
+        -0.0017,  0.0208], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 9----------------------------------------------------
+epoch 9, time 214.34, cls_loss 1.2984 cls_loss_mapping 0.1952 cls_loss_causal 1.1072 re_mapping 0.0583 re_causal 0.1136 /// teacc 95.89 lr 0.00010000
+Epoch 11, weight, value: tensor([[-0.0456, -0.0365, -0.0209,  ...,  0.0039, -0.0440, -0.0239],
+        [ 0.0058, -0.0187,  0.0172,  ...,  0.0057,  0.0003,  0.0001],
+        [ 0.0153, -0.0175, -0.0290,  ...,  0.0310, -0.0128, -0.0053],
+        ...,
+        [-0.0120,  0.0194,  0.0153,  ...,  0.0115, -0.0287, -0.0172],
+        [-0.0260, -0.0059,  0.0085,  ...,  0.0268, -0.0068, -0.0039],
+        [ 0.0046,  0.0232,  0.0045,  ..., -0.0435, -0.0413, -0.0203]],
+       device='cuda:0'), grad: tensor([[ 2.8858e-03,  3.7880e-03,  5.0932e-05,  ...,  4.7379e-03,
+          2.7561e-03,  3.7594e-03],
+        [ 2.2488e-03,  2.3926e-02,  3.9196e-04,  ...,  1.8829e-02,
+          5.8411e-02,  5.2338e-03],
+        [-3.6697e-03,  3.9406e-03,  1.0997e-04,  ...,  2.6550e-03,
+         -3.8376e-03,  3.8967e-03],
+        ...,
+        [ 1.0633e-03,  1.5335e-02,  3.2115e-04,  ...,  7.8812e-03,
+          2.4841e-02,  6.0120e-03],
+        [ 3.6430e-03, -2.3346e-02,  3.4475e-04,  ..., -1.7090e-02,
+         -5.3284e-02, -1.3666e-03],
+        [ 2.3708e-03, -7.0047e-04,  1.0395e-03,  ...,  4.3106e-03,
+          1.6747e-03,  4.6539e-03]], device='cuda:0')
+Epoch 11, bias, value: tensor([-0.0291, -0.0034, -0.0077, -0.0078, -0.0129,  0.0077, -0.0036,  0.0200,
+        -0.0032,  0.0241], device='cuda:0'), grad: tensor([ 0.0412,  0.0699,  0.0022, -0.0941, -0.0242, -0.0572,  0.0221,  0.0344,
+        -0.0367,  0.0425], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 10, time 214.03, cls_loss 1.2460 cls_loss_mapping 0.1566 cls_loss_causal 1.0507 re_mapping 0.0544 re_causal 0.1092 /// teacc 95.12 lr 0.00010000
+Epoch 12, weight, value: tensor([[-0.0470, -0.0365, -0.0199,  ...,  0.0049, -0.0428, -0.0249],
+        [ 0.0053, -0.0196,  0.0171,  ...,  0.0063,  0.0007, -0.0012],
+        [ 0.0142, -0.0180, -0.0329,  ...,  0.0316, -0.0125, -0.0057],
+        ...,
+        [-0.0129,  0.0200,  0.0181,  ...,  0.0113, -0.0301, -0.0175],
+        [-0.0269, -0.0060,  0.0083,  ...,  0.0281, -0.0072, -0.0047],
+        [ 0.0059,  0.0234,  0.0041,  ..., -0.0444, -0.0419, -0.0188]],
+       device='cuda:0'), grad: tensor([[ 0.0019,  0.0021,  0.0000,  ..., -0.0088, -0.0006, -0.0013],
+        [ 0.0018, -0.0016,  0.0000,  ..., -0.0290, -0.0007, -0.0173],
+        [ 0.0027,  0.0050,  0.0000,  ...,  0.0138,  0.0022,  0.0123],
+        ...,
+        [ 0.0015,  0.0058,  0.0000,  ...,  0.0018,  0.0029, -0.0048],
+        [-0.0011,  0.0007,  0.0000,  ...,  0.0019, -0.0028, -0.0012],
+        [-0.0018, -0.0118,  0.0000,  ...,  0.0121, -0.0015,  0.0003]],
+       device='cuda:0')
+Epoch 12, bias, value: tensor([-0.0289, -0.0030, -0.0077, -0.0079, -0.0132,  0.0069, -0.0034,  0.0194,
+        -0.0031,  0.0247], device='cuda:0'), grad: tensor([-0.0415, -0.0632,  0.0842, -0.0616, -0.0169,  0.0559,  0.0486,  0.0276,
+        -0.0253, -0.0077], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 11, time 213.93, cls_loss 1.2324 cls_loss_mapping 0.1540 cls_loss_causal 1.0474 re_mapping 0.0533 re_causal 0.1093 /// teacc 95.60 lr 0.00010000
+Epoch 13, weight, value: tensor([[-0.0483, -0.0362, -0.0198,  ...,  0.0055, -0.0427, -0.0268],
+        [ 0.0051, -0.0214,  0.0160,  ...,  0.0066,  0.0010, -0.0021],
+        [ 0.0132, -0.0188, -0.0329,  ...,  0.0324, -0.0124, -0.0068],
+        ...,
+        [-0.0127,  0.0200,  0.0173,  ...,  0.0119, -0.0309, -0.0170],
+        [-0.0277, -0.0059,  0.0082,  ...,  0.0287, -0.0074, -0.0053],
+        [ 0.0057,  0.0242,  0.0040,  ..., -0.0460, -0.0408, -0.0191]],
+       device='cuda:0'), grad: tensor([[ 2.5864e-03,  3.2623e-02,  9.7603e-06,  ...,  4.2999e-02,
+          5.2719e-03,  3.6163e-03],
+        [ 5.6791e-04,  2.5368e-03,  3.8445e-05,  ...,  1.7872e-03,
+          3.7880e-03,  9.8610e-04],
+        [ 1.5736e-03,  1.3323e-03,  1.0915e-05,  ..., -8.0109e-03,
+         -1.4908e-02,  4.6959e-03],
+        ...,
+        [ 1.3142e-03,  1.1730e-03,  4.1097e-05,  ...,  4.1962e-03,
+          1.9598e-04,  8.8959e-03],
+        [ 5.4970e-03, -1.8478e-02,  4.1097e-05,  ..., -2.0996e-02,
+         -1.9531e-03, -8.4000e-03],
+        [ 9.5654e-04,  2.4681e-03,  2.7061e-04,  ...,  9.5654e-04,
+          5.3253e-03,  8.0185e-03]], device='cuda:0')
+Epoch 13, bias, value: tensor([-0.0289, -0.0031, -0.0077, -0.0073, -0.0130,  0.0068, -0.0038,  0.0197,
+        -0.0030,  0.0242], device='cuda:0'), grad: tensor([ 0.0989, -0.0048, -0.0379, -0.0505, -0.0331,  0.0029,  0.0288,  0.0159,
+        -0.0348,  0.0146], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 12, time 213.87, cls_loss 1.1705 cls_loss_mapping 0.1441 cls_loss_causal 0.9753 re_mapping 0.0510 re_causal 0.1034 /// teacc 95.55 lr 0.00010000
+Epoch 14, weight, value: tensor([[-0.0486, -0.0362, -0.0203,  ...,  0.0049, -0.0427, -0.0268],
+        [ 0.0049, -0.0232,  0.0146,  ...,  0.0073,  0.0029, -0.0031],
+        [ 0.0117, -0.0196, -0.0341,  ...,  0.0318, -0.0126, -0.0082],
+        ...,
+        [-0.0126,  0.0199,  0.0179,  ...,  0.0127, -0.0302, -0.0169],
+        [-0.0281, -0.0068,  0.0086,  ...,  0.0295, -0.0081, -0.0061],
+        [ 0.0071,  0.0253,  0.0019,  ..., -0.0473, -0.0427, -0.0188]],
+       device='cuda:0'), grad: tensor([[ 4.8423e-04,  1.7729e-03,  1.2124e-04,  ..., -2.7981e-03,
+         -1.3800e-03, -4.7302e-03],
+        [ 3.2120e-03,  2.0103e-03,  8.0168e-05,  ..., -6.1722e-03,
+         -1.1454e-03, -9.4452e-03],
+        [ 1.4086e-03,  3.1471e-03,  6.5982e-05,  ..., -2.6760e-03,
+          1.8911e-03,  2.0905e-03],
+        ...,
+        [ 9.6512e-04, -2.8610e-04,  4.6420e-04,  ..., -2.8172e-03,
+         -2.7823e-04,  3.6335e-03],
+        [-1.8072e-03,  4.7951e-03,  2.5702e-04,  ...,  1.3418e-03,
+          1.5306e-03,  4.3144e-03],
+        [ 4.2343e-03, -1.1650e-02,  4.3869e-03,  ...,  3.5686e-03,
+          1.1635e-03,  6.0043e-03]], device='cuda:0')
+Epoch 14, bias, value: tensor([-0.0289, -0.0031, -0.0076, -0.0073, -0.0126,  0.0068, -0.0040,  0.0198,
+        -0.0028,  0.0236], device='cuda:0'), grad: tensor([-0.0390, -0.0440, -0.0130,  0.0498,  0.0197, -0.0407,  0.0337,  0.0077,
+        -0.0064,  0.0323], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 13----------------------------------------------------
+epoch 13, time 214.36, cls_loss 1.1478 cls_loss_mapping 0.1399 cls_loss_causal 0.9650 re_mapping 0.0493 re_causal 0.1019 /// teacc 96.32 lr 0.00010000
+Epoch 15, weight, value: tensor([[-0.0501, -0.0359, -0.0193,  ...,  0.0048, -0.0422, -0.0272],
+        [ 0.0041, -0.0235,  0.0101,  ...,  0.0078,  0.0025, -0.0040],
+        [ 0.0110, -0.0202, -0.0305,  ...,  0.0329, -0.0129, -0.0082],
+        ...,
+        [-0.0124,  0.0189,  0.0183,  ...,  0.0125, -0.0300, -0.0176],
+        [-0.0288, -0.0071,  0.0079,  ...,  0.0309, -0.0075, -0.0066],
+        [ 0.0064,  0.0273,  0.0016,  ..., -0.0478, -0.0413, -0.0190]],
+       device='cuda:0'), grad: tensor([[ 0.0010, -0.0328,  0.0002,  ...,  0.0006,  0.0044,  0.0013],
+        [ 0.0009,  0.0005,  0.0002,  ...,  0.0006,  0.0007,  0.0008],
+        [ 0.0017,  0.0049,  0.0004,  ...,  0.0089,  0.0141,  0.0046],
+        ...,
+        [-0.0076,  0.0029, -0.0029,  ..., -0.0006,  0.0023, -0.0035],
+        [-0.0017,  0.0122,  0.0013,  ...,  0.0124,  0.0198,  0.0027],
+        [ 0.0019, -0.0105,  0.0017,  ..., -0.0141, -0.0169,  0.0001]],
+       device='cuda:0')
+Epoch 15, bias, value: tensor([-0.0285, -0.0030, -0.0071, -0.0074, -0.0127,  0.0062, -0.0046,  0.0198,
+        -0.0021,  0.0234], device='cuda:0'), grad: tensor([-0.0182,  0.0141,  0.0750,  0.0158,  0.0573, -0.0111, -0.1108, -0.0547,
+         0.0310,  0.0016], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 14, time 213.84, cls_loss 1.1324 cls_loss_mapping 0.1232 cls_loss_causal 0.9501 re_mapping 0.0482 re_causal 0.1021 /// teacc 96.28 lr 0.00010000
+Epoch 16, weight, value: tensor([[-0.0515, -0.0362, -0.0202,  ...,  0.0039, -0.0432, -0.0280],
+        [ 0.0042, -0.0243,  0.0101,  ...,  0.0081,  0.0029, -0.0047],
+        [ 0.0106, -0.0217, -0.0315,  ...,  0.0328, -0.0134, -0.0089],
+        ...,
+        [-0.0126,  0.0195,  0.0203,  ...,  0.0133, -0.0294, -0.0181],
+        [-0.0294, -0.0073,  0.0077,  ...,  0.0311, -0.0082, -0.0069],
+        [ 0.0069,  0.0274,  0.0008,  ..., -0.0473, -0.0413, -0.0178]],
+       device='cuda:0'), grad: tensor([[ 1.0004e-03,  4.0591e-05,  0.0000e+00,  ..., -5.3864e-03,
+         -8.7738e-05, -3.0365e-03],
+        [ 1.0996e-03,  2.0123e-04,  0.0000e+00,  ..., -4.6844e-03,
+         -2.4090e-03, -5.8594e-03],
+        [ 3.1042e-04, -9.4652e-05,  0.0000e+00,  ...,  1.7080e-03,
+         -5.2500e-04,  2.1915e-03],
+        ...,
+        [ 1.2398e-03,  6.4316e-03,  0.0000e+00,  ..., -2.6817e-03,
+          7.6103e-04,  1.0033e-03],
+        [-5.6458e-03, -6.1989e-03,  0.0000e+00,  ...,  1.3313e-03,
+         -7.8630e-04, -7.3624e-04],
+        [ 1.6260e-03,  2.3544e-02,  0.0000e+00,  ...,  8.0795e-03,
+          8.6136e-03,  4.4136e-03]], device='cuda:0')
+Epoch 16, bias, value: tensor([-0.0290, -0.0034, -0.0073, -0.0072, -0.0126,  0.0063, -0.0042,  0.0200,
+        -0.0024,  0.0236], device='cuda:0'), grad: tensor([-0.0291, -0.0085, -0.0170,  0.0105, -0.0662, -0.0108,  0.0465,  0.0114,
+         0.0035,  0.0597], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 15----------------------------------------------------
+epoch 15, time 214.41, cls_loss 1.1358 cls_loss_mapping 0.1230 cls_loss_causal 0.9681 re_mapping 0.0443 re_causal 0.0972 /// teacc 96.54 lr 0.00010000
+Epoch 17, weight, value: tensor([[-5.3411e-02, -3.6009e-02, -1.9137e-02,  ...,  3.6422e-03,
+         -4.3475e-02, -2.8798e-02],
+        [ 3.5445e-03, -2.4572e-02,  8.2040e-03,  ...,  8.1961e-03,
+          2.0793e-03, -4.5984e-03],
+        [ 1.0166e-02, -2.3038e-02, -3.2474e-02,  ...,  3.3691e-02,
+         -1.2874e-02, -9.1427e-03],
+        ...,
+        [-1.2993e-02,  1.9616e-02,  1.9004e-02,  ...,  1.4400e-02,
+         -2.8677e-02, -1.8872e-02],
+        [-3.0115e-02, -6.2024e-03,  7.6136e-03,  ...,  3.1983e-02,
+         -8.7944e-03, -7.5004e-03],
+        [ 7.8345e-03,  2.7041e-02, -7.4626e-05,  ..., -4.8305e-02,
+         -4.0654e-02, -1.7473e-02]], device='cuda:0'), grad: tensor([[ 6.0797e-04,  1.1501e-03,  7.0453e-05,  ...,  4.9820e-03,
+          4.3411e-03,  2.4967e-03],
+        [ 3.3379e-04,  2.3937e-04,  6.2227e-05,  ..., -7.5226e-03,
+         -7.6342e-04, -1.3170e-03],
+        [ 8.6927e-04,  5.2547e-04,  6.0648e-05,  ..., -1.7147e-03,
+         -6.4201e-03, -5.7449e-03],
+        ...,
+        [ 2.2297e-03,  2.3117e-03, -1.0824e-03,  ..., -1.6966e-03,
+          2.0981e-05,  3.3226e-03],
+        [-7.7400e-03,  2.5692e-03,  7.2479e-05,  ..., -3.0212e-03,
+         -4.3449e-03,  1.1663e-03],
+        [ 1.9730e-02,  2.5436e-02,  1.3590e-03,  ..., -8.7357e-04,
+         -6.2828e-03,  1.4160e-02]], device='cuda:0')
+Epoch 17, bias, value: tensor([-0.0289, -0.0033, -0.0069, -0.0074, -0.0123,  0.0069, -0.0048,  0.0202,
+        -0.0028,  0.0232], device='cuda:0'), grad: tensor([ 0.0191, -0.0114, -0.0294, -0.0221, -0.0402,  0.0311,  0.0584, -0.0183,
+        -0.0270,  0.0398], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 16----------------------------------------------------
+epoch 16, time 214.38, cls_loss 1.0765 cls_loss_mapping 0.1155 cls_loss_causal 0.9108 re_mapping 0.0435 re_causal 0.0941 /// teacc 96.73 lr 0.00010000
+Epoch 18, weight, value: tensor([[-0.0549, -0.0355, -0.0194,  ...,  0.0023, -0.0434, -0.0301],
+        [ 0.0022, -0.0243,  0.0092,  ...,  0.0097,  0.0036, -0.0057],
+        [ 0.0087, -0.0215, -0.0330,  ...,  0.0354, -0.0121, -0.0099],
+        ...,
+        [-0.0133,  0.0190,  0.0185,  ...,  0.0144, -0.0288, -0.0202],
+        [-0.0302, -0.0063,  0.0062,  ...,  0.0320, -0.0093, -0.0086],
+        [ 0.0086,  0.0271, -0.0018,  ..., -0.0492, -0.0410, -0.0157]],
+       device='cuda:0'), grad: tensor([[ 7.2956e-04,  3.2544e-05,  3.9387e-04,  ...,  6.8207e-03,
+          3.9520e-03,  4.0894e-03],
+        [ 1.3380e-03,  4.1723e-04,  2.6913e-03,  ...,  2.8400e-03,
+          1.6804e-03, -6.0768e-03],
+        [-3.6502e-04,  5.5522e-05, -8.2932e-03,  ..., -2.0645e-02,
+         -9.4604e-03,  1.2070e-04],
+        ...,
+        [-9.3460e-05,  2.6941e-04,  1.3936e-04,  ...,  9.9182e-05,
+          4.0550e-03,  5.0583e-03],
+        [-1.3723e-03,  9.8944e-05,  1.2302e-03,  ..., -1.3924e-03,
+         -6.9904e-04,  1.8196e-03],
+        [ 3.5858e-03,  2.1935e-03,  5.1785e-04,  ...,  9.0637e-03,
+          5.2299e-03,  9.6741e-03]], device='cuda:0')
+Epoch 18, bias, value: tensor([-0.0295, -0.0030, -0.0066, -0.0070, -0.0118,  0.0057, -0.0046,  0.0202,
+        -0.0028,  0.0233], device='cuda:0'), grad: tensor([ 0.0323, -0.0053, -0.0860,  0.0056, -0.0185,  0.0309, -0.0240,  0.0267,
+        -0.0131,  0.0514], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 17----------------------------------------------------
+epoch 17, time 214.39, cls_loss 1.0657 cls_loss_mapping 0.0996 cls_loss_causal 0.9001 re_mapping 0.0429 re_causal 0.0966 /// teacc 96.77 lr 0.00010000
+Epoch 19, weight, value: tensor([[-0.0557, -0.0356, -0.0181,  ...,  0.0021, -0.0430, -0.0306],
+        [ 0.0019, -0.0258,  0.0090,  ...,  0.0101,  0.0032, -0.0065],
+        [ 0.0072, -0.0210, -0.0331,  ...,  0.0364, -0.0114, -0.0113],
+        ...,
+        [-0.0119,  0.0189,  0.0194,  ...,  0.0145, -0.0291, -0.0200],
+        [-0.0302, -0.0063,  0.0043,  ...,  0.0329, -0.0099, -0.0097],
+        [ 0.0087,  0.0284, -0.0026,  ..., -0.0505, -0.0398, -0.0157]],
+       device='cuda:0'), grad: tensor([[ 0.0008, -0.0026,  0.0005,  ...,  0.0016,  0.0039,  0.0011],
+        [-0.0026, -0.0186,  0.0021,  ..., -0.0257, -0.0202,  0.0002],
+        [ 0.0006,  0.0012,  0.0035,  ..., -0.0010,  0.0076, -0.0006],
+        ...,
+        [-0.0005, -0.0091, -0.0194,  ...,  0.0108, -0.0344,  0.0014],
+        [-0.0045,  0.0158,  0.0006,  ...,  0.0066,  0.0014,  0.0038],
+        [-0.0010,  0.0050,  0.0022,  ..., -0.0045, -0.0015, -0.0054]],
+       device='cuda:0')
+Epoch 19, bias, value: tensor([-0.0291, -0.0033, -0.0063, -0.0068, -0.0115,  0.0056, -0.0048,  0.0202,
+        -0.0028,  0.0226], device='cuda:0'), grad: tensor([ 0.0177, -0.0679,  0.0006,  0.0368,  0.0659,  0.0206, -0.0080, -0.0128,
+        -0.0180, -0.0349], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 18----------------------------------------------------
+epoch 18, time 214.45, cls_loss 1.0378 cls_loss_mapping 0.1012 cls_loss_causal 0.8786 re_mapping 0.0422 re_causal 0.0929 /// teacc 96.85 lr 0.00010000
+Epoch 20, weight, value: tensor([[-0.0561, -0.0350, -0.0181,  ...,  0.0022, -0.0435, -0.0317],
+        [ 0.0017, -0.0253,  0.0102,  ...,  0.0091,  0.0025, -0.0072],
+        [ 0.0067, -0.0209, -0.0344,  ...,  0.0373, -0.0118, -0.0118],
+        ...,
+        [-0.0124,  0.0174,  0.0208,  ...,  0.0148, -0.0284, -0.0200],
+        [-0.0312, -0.0064,  0.0034,  ...,  0.0330, -0.0105, -0.0115],
+        [ 0.0091,  0.0288, -0.0039,  ..., -0.0522, -0.0403, -0.0152]],
+       device='cuda:0'), grad: tensor([[-0.0040, -0.0044, -0.0027,  ..., -0.0190, -0.0028, -0.0084],
+        [ 0.0011,  0.0004,  0.0221,  ...,  0.0233,  0.0210,  0.0067],
+        [ 0.0019,  0.0006,  0.0030,  ...,  0.0045,  0.0022,  0.0004],
+        ...,
+        [-0.0031,  0.0004, -0.0008,  ..., -0.0100, -0.0044, -0.0120],
+        [-0.0089,  0.0007, -0.0036,  ..., -0.0125, -0.0033,  0.0020],
+        [ 0.0049,  0.0003,  0.0037,  ...,  0.0089,  0.0030,  0.0038]],
+       device='cuda:0')
+Epoch 20, bias, value: tensor([-0.0291, -0.0034, -0.0067, -0.0061, -0.0110,  0.0058, -0.0050,  0.0209,
+        -0.0036,  0.0222], device='cuda:0'), grad: tensor([-0.0720,  0.0888,  0.0301,  0.0028, -0.0207,  0.0293, -0.0072, -0.0741,
+        -0.0208,  0.0438], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 19, time 213.87, cls_loss 1.0126 cls_loss_mapping 0.0928 cls_loss_causal 0.8729 re_mapping 0.0404 re_causal 0.0917 /// teacc 95.77 lr 0.00010000
+Epoch 21, weight, value: tensor([[-0.0573, -0.0353, -0.0182,  ...,  0.0020, -0.0444, -0.0322],
+        [ 0.0016, -0.0269,  0.0088,  ...,  0.0103,  0.0034, -0.0069],
+        [ 0.0062, -0.0217, -0.0364,  ...,  0.0372, -0.0124, -0.0118],
+        ...,
+        [-0.0125,  0.0172,  0.0189,  ...,  0.0147, -0.0284, -0.0210],
+        [-0.0321, -0.0062,  0.0077,  ...,  0.0323, -0.0113, -0.0131],
+        [ 0.0100,  0.0295, -0.0037,  ..., -0.0505, -0.0389, -0.0143]],
+       device='cuda:0'), grad: tensor([[-0.0057,  0.0022, -0.0111,  ..., -0.0007,  0.0005,  0.0003],
+        [ 0.0014,  0.0006,  0.0009,  ...,  0.0013, -0.0019,  0.0016],
+        [ 0.0027,  0.0014,  0.0018,  ...,  0.0062,  0.0015,  0.0044],
+        ...,
+        [ 0.0009, -0.0133,  0.0002,  ..., -0.0044,  0.0007, -0.0023],
+        [ 0.0040, -0.0034,  0.0031,  ...,  0.0004,  0.0027,  0.0019],
+        [ 0.0035,  0.0067,  0.0043,  ...,  0.0013,  0.0012,  0.0021]],
+       device='cuda:0')
+Epoch 21, bias, value: tensor([-0.0293, -0.0034, -0.0062, -0.0067, -0.0113,  0.0055, -0.0049,  0.0208,
+        -0.0035,  0.0229], device='cuda:0'), grad: tensor([-0.0309,  0.0101,  0.0370, -0.0602,  0.0139, -0.0463,  0.0466, -0.0153,
+         0.0187,  0.0264], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 20----------------------------------------------------
+epoch 20, time 214.55, cls_loss 1.0210 cls_loss_mapping 0.1005 cls_loss_causal 0.8468 re_mapping 0.0392 re_causal 0.0819 /// teacc 96.98 lr 0.00010000
+Epoch 22, weight, value: tensor([[-0.0594, -0.0349, -0.0154,  ...,  0.0019, -0.0458, -0.0329],
+        [ 0.0017, -0.0274,  0.0075,  ...,  0.0109,  0.0025, -0.0072],
+        [ 0.0056, -0.0222, -0.0367,  ...,  0.0370, -0.0126, -0.0127],
+        ...,
+        [-0.0135,  0.0189,  0.0211,  ...,  0.0148, -0.0273, -0.0220],
+        [-0.0322, -0.0065,  0.0089,  ...,  0.0325, -0.0116, -0.0135],
+        [ 0.0099,  0.0289, -0.0046,  ..., -0.0512, -0.0396, -0.0137]],
+       device='cuda:0'), grad: tensor([[ 0.0016,  0.0001,  0.0009,  ...,  0.0040,  0.0019,  0.0027],
+        [ 0.0005,  0.0011,  0.0016,  ...,  0.0055,  0.0040,  0.0014],
+        [ 0.0006,  0.0051,  0.0011,  ...,  0.0114,  0.0087,  0.0042],
+        ...,
+        [-0.0021, -0.0065,  0.0020,  ..., -0.0248, -0.0199,  0.0025],
+        [ 0.0025,  0.0019, -0.0051,  ..., -0.0026, -0.0013,  0.0036],
+        [ 0.0057, -0.0054, -0.0053,  ...,  0.0012,  0.0013, -0.0032]],
+       device='cuda:0')
+Epoch 22, bias, value: tensor([-0.0295, -0.0037, -0.0058, -0.0063, -0.0111,  0.0057, -0.0056,  0.0212,
+        -0.0033,  0.0223], device='cuda:0'), grad: tensor([ 0.0220,  0.0302,  0.0352,  0.0206,  0.0146, -0.0574,  0.0176, -0.0756,
+        -0.0042, -0.0029], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 21----------------------------------------------------
+epoch 21, time 214.82, cls_loss 1.0064 cls_loss_mapping 0.0877 cls_loss_causal 0.8580 re_mapping 0.0375 re_causal 0.0837 /// teacc 97.28 lr 0.00010000
+Epoch 23, weight, value: tensor([[-0.0610, -0.0349, -0.0162,  ...,  0.0016, -0.0459, -0.0338],
+        [ 0.0011, -0.0277,  0.0073,  ...,  0.0110,  0.0023, -0.0074],
+        [ 0.0038, -0.0212, -0.0374,  ...,  0.0361, -0.0131, -0.0133],
+        ...,
+        [-0.0142,  0.0191,  0.0212,  ...,  0.0162, -0.0265, -0.0223],
+        [-0.0322, -0.0060,  0.0084,  ...,  0.0327, -0.0121, -0.0143],
+        [ 0.0107,  0.0292, -0.0052,  ..., -0.0523, -0.0395, -0.0135]],
+       device='cuda:0'), grad: tensor([[ 1.5011e-03,  5.3883e-04,  3.8266e-05,  ...,  3.6964e-03,
+          1.2836e-03,  1.1568e-03],
+        [ 1.0386e-03,  3.8090e-03,  3.8671e-04,  ..., -2.8725e-03,
+         -3.6068e-03, -1.6432e-03],
+        [ 1.2274e-03,  4.7660e-04,  1.1277e-04,  ..., -1.2276e-02,
+         -3.5915e-03,  1.6708e-03],
+        ...,
+        [-2.1324e-03,  2.4147e-03,  3.7527e-04,  ...,  6.7863e-03,
+          3.5553e-03,  1.7605e-03],
+        [ 7.5569e-03,  1.6332e-04,  1.5831e-04,  ...,  3.7994e-03,
+         -4.1351e-03,  4.0665e-03],
+        [ 1.2608e-03, -1.9547e-02,  8.4972e-04,  ..., -1.1452e-02,
+         -8.6594e-03, -3.2616e-03]], device='cuda:0')
+Epoch 23, bias, value: tensor([-0.0295, -0.0033, -0.0063, -0.0070, -0.0105,  0.0062, -0.0057,  0.0219,
+        -0.0037,  0.0218], device='cuda:0'), grad: tensor([ 0.0134, -0.0265, -0.0247,  0.0339,  0.0248, -0.0520,  0.0249,  0.0190,
+         0.0284, -0.0412], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 22, time 214.66, cls_loss 0.9904 cls_loss_mapping 0.0934 cls_loss_causal 0.8568 re_mapping 0.0378 re_causal 0.0843 /// teacc 97.08 lr 0.00010000
+Epoch 24, weight, value: tensor([[-0.0613, -0.0353, -0.0162,  ...,  0.0020, -0.0457, -0.0337],
+        [ 0.0009, -0.0279,  0.0061,  ...,  0.0110,  0.0020, -0.0081],
+        [ 0.0023, -0.0217, -0.0384,  ...,  0.0356, -0.0133, -0.0144],
+        ...,
+        [-0.0135,  0.0185,  0.0203,  ...,  0.0167, -0.0274, -0.0223],
+        [-0.0324, -0.0065,  0.0085,  ...,  0.0327, -0.0121, -0.0152],
+        [ 0.0105,  0.0301, -0.0041,  ..., -0.0521, -0.0401, -0.0139]],
+       device='cuda:0'), grad: tensor([[ 2.1152e-03,  3.5453e-04,  4.0568e-06,  ...,  6.2752e-03,
+          5.2643e-03,  2.9888e-03],
+        [ 6.0892e-04,  1.5888e-03,  1.0327e-05,  ...,  4.7836e-03,
+          6.0005e-03,  1.5488e-03],
+        [ 1.2493e-03,  5.8889e-04,  1.2541e-04,  ..., -1.4481e-02,
+         -1.6861e-02, -1.2207e-03],
+        ...,
+        [ 7.7868e-04,  4.5280e-03,  1.8895e-04,  ...,  1.0292e-02,
+          4.9820e-03,  3.5000e-03],
+        [ 3.9177e-03, -6.7139e-03,  1.5914e-04,  ..., -1.4229e-02,
+         -4.4250e-03, -2.6588e-03],
+        [-5.7755e-03, -5.4626e-03, -5.7411e-04,  ...,  3.4828e-03,
+         -2.8496e-03, -2.6569e-03]], device='cuda:0')
+Epoch 24, bias, value: tensor([-0.0296, -0.0039, -0.0064, -0.0068, -0.0099,  0.0059, -0.0055,  0.0215,
+        -0.0036,  0.0221], device='cuda:0'), grad: tensor([ 0.0450,  0.0284, -0.0471, -0.0001,  0.0109,  0.0132, -0.0010,  0.0220,
+        -0.0507, -0.0205], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 23, time 214.27, cls_loss 0.9814 cls_loss_mapping 0.0806 cls_loss_causal 0.8296 re_mapping 0.0375 re_causal 0.0823 /// teacc 96.89 lr 0.00010000
+Epoch 25, weight, value: tensor([[-0.0630, -0.0352, -0.0164,  ...,  0.0021, -0.0451, -0.0341],
+        [ 0.0011, -0.0289,  0.0063,  ...,  0.0116,  0.0027, -0.0086],
+        [ 0.0020, -0.0216, -0.0394,  ...,  0.0360, -0.0125, -0.0147],
+        ...,
+        [-0.0140,  0.0188,  0.0199,  ...,  0.0168, -0.0267, -0.0225],
+        [-0.0327, -0.0059,  0.0081,  ...,  0.0333, -0.0116, -0.0160],
+        [ 0.0117,  0.0299, -0.0054,  ..., -0.0525, -0.0408, -0.0122]],
+       device='cuda:0'), grad: tensor([[ 1.4381e-03, -1.9882e-02,  1.4149e-05,  ...,  9.1028e-04,
+          2.8210e-03, -4.5151e-05],
+        [ 1.4267e-03,  1.7405e-03,  1.6809e-05,  ...,  4.4403e-03,
+          4.0741e-03,  5.0783e-04],
+        [-4.9305e-04,  5.6114e-03,  1.7405e-05,  ...,  1.8219e-02,
+          1.7349e-02, -2.1791e-04],
+        ...,
+        [ 7.2823e-03,  2.8824e-02,  4.9978e-05,  ...,  1.4313e-02,
+          1.5175e-02,  1.4191e-03],
+        [ 1.3046e-03,  2.6428e-02,  1.7673e-05,  ...,  9.9487e-03,
+          5.2185e-03,  7.3385e-04],
+        [-1.0967e-03, -6.1127e-02,  2.3472e-04,  ..., -1.4391e-03,
+         -1.7517e-02,  1.2674e-03]], device='cuda:0')
+Epoch 25, bias, value: tensor([-0.0299, -0.0037, -0.0053, -0.0066, -0.0100,  0.0059, -0.0061,  0.0213,
+        -0.0039,  0.0222], device='cuda:0'), grad: tensor([-0.0477,  0.0216,  0.0273, -0.0892,  0.0505, -0.0183,  0.0038,  0.0479,
+        -0.0053,  0.0094], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 24, time 214.07, cls_loss 0.9405 cls_loss_mapping 0.0924 cls_loss_causal 0.7898 re_mapping 0.0369 re_causal 0.0782 /// teacc 96.41 lr 0.00010000
+Epoch 26, weight, value: tensor([[-0.0631, -0.0352, -0.0158,  ...,  0.0022, -0.0446, -0.0345],
+        [ 0.0019, -0.0302,  0.0049,  ...,  0.0122,  0.0020, -0.0097],
+        [ 0.0009, -0.0235, -0.0403,  ...,  0.0362, -0.0136, -0.0148],
+        ...,
+        [-0.0141,  0.0189,  0.0194,  ...,  0.0178, -0.0249, -0.0220],
+        [-0.0327, -0.0051,  0.0079,  ...,  0.0332, -0.0120, -0.0183],
+        [ 0.0120,  0.0297, -0.0060,  ..., -0.0534, -0.0401, -0.0118]],
+       device='cuda:0'), grad: tensor([[ 0.0034,  0.0005,  0.0000,  ...,  0.0037,  0.0011,  0.0047],
+        [ 0.0017,  0.0103,  0.0000,  ...,  0.0128,  0.0087,  0.0035],
+        [ 0.0011,  0.0003,  0.0000,  ...,  0.0098,  0.0096,  0.0058],
+        ...,
+        [ 0.0003,  0.0014,  0.0000,  ...,  0.0016,  0.0056,  0.0121],
+        [ 0.0034, -0.0098,  0.0000,  ...,  0.0028,  0.0042,  0.0048],
+        [-0.0060,  0.0026,  0.0000,  ...,  0.0044,  0.0021, -0.0127]],
+       device='cuda:0')
+Epoch 26, bias, value: tensor([-0.0300, -0.0038, -0.0051, -0.0064, -0.0098,  0.0060, -0.0063,  0.0216,
+        -0.0044,  0.0222], device='cuda:0'), grad: tensor([ 0.0184,  0.0254,  0.0115, -0.0589, -0.0382, -0.0010, -0.0042,  0.0152,
+         0.0219,  0.0100], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 25, time 214.27, cls_loss 0.9942 cls_loss_mapping 0.0905 cls_loss_causal 0.8462 re_mapping 0.0353 re_causal 0.0793 /// teacc 97.17 lr 0.00010000
+Epoch 27, weight, value: tensor([[-0.0647, -0.0345, -0.0152,  ...,  0.0019, -0.0446, -0.0352],
+        [ 0.0017, -0.0307,  0.0068,  ...,  0.0131,  0.0023, -0.0108],
+        [-0.0013, -0.0237, -0.0398,  ...,  0.0361, -0.0140, -0.0150],
+        ...,
+        [-0.0138,  0.0189,  0.0207,  ...,  0.0181, -0.0248, -0.0219],
+        [-0.0336, -0.0060,  0.0085,  ...,  0.0335, -0.0123, -0.0177],
+        [ 0.0131,  0.0300, -0.0061,  ..., -0.0543, -0.0401, -0.0104]],
+       device='cuda:0'), grad: tensor([[-0.0025, -0.0001,  0.0017,  ...,  0.0045,  0.0026,  0.0004],
+        [ 0.0022,  0.0006,  0.0019,  ..., -0.0079, -0.0086,  0.0006],
+        [-0.0139,  0.0013,  0.0007,  ...,  0.0066,  0.0048,  0.0010],
+        ...,
+        [ 0.0027,  0.0140,  0.0008,  ...,  0.0075, -0.0010,  0.0020],
+        [ 0.0005,  0.0008, -0.0145,  ..., -0.0087, -0.0019,  0.0011],
+        [ 0.0084, -0.0170, -0.0009,  ..., -0.0089,  0.0026,  0.0019]],
+       device='cuda:0')
+Epoch 27, bias, value: tensor([-0.0297, -0.0034, -0.0048, -0.0067, -0.0097,  0.0057, -0.0068,  0.0218,
+        -0.0043,  0.0217], device='cuda:0'), grad: tensor([ 0.0179, -0.0205, -0.0186,  0.0268, -0.0227, -0.0061,  0.0250,  0.0132,
+        -0.0119, -0.0031], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 26, time 214.59, cls_loss 0.9781 cls_loss_mapping 0.0834 cls_loss_causal 0.8259 re_mapping 0.0353 re_causal 0.0751 /// teacc 97.01 lr 0.00010000
+Epoch 28, weight, value: tensor([[-0.0678, -0.0343, -0.0145,  ...,  0.0019, -0.0441, -0.0363],
+        [ 0.0023, -0.0309,  0.0070,  ...,  0.0132,  0.0016, -0.0108],
+        [-0.0020, -0.0243, -0.0415,  ...,  0.0358, -0.0137, -0.0159],
+        ...,
+        [-0.0145,  0.0188,  0.0215,  ...,  0.0184, -0.0249, -0.0230],
+        [-0.0341, -0.0060,  0.0087,  ...,  0.0353, -0.0116, -0.0182],
+        [ 0.0139,  0.0308, -0.0061,  ..., -0.0550, -0.0414, -0.0094]],
+       device='cuda:0'), grad: tensor([[-0.0015,  0.0002, -0.0010,  ..., -0.0072, -0.0031,  0.0004],
+        [-0.0287,  0.0023, -0.0047,  ..., -0.0292, -0.0007, -0.0004],
+        [ 0.0029,  0.0004,  0.0011,  ..., -0.0010, -0.0024,  0.0011],
+        ...,
+        [ 0.0039,  0.0075, -0.0024,  ...,  0.0043,  0.0055, -0.0033],
+        [ 0.0021,  0.0004,  0.0013,  ...,  0.0057,  0.0067, -0.0006],
+        [ 0.0083,  0.0070,  0.0056,  ...,  0.0051,  0.0107,  0.0046]],
+       device='cuda:0')
+Epoch 28, bias, value: tensor([-0.0303, -0.0035, -0.0052, -0.0064, -0.0093,  0.0058, -0.0063,  0.0215,
+        -0.0038,  0.0215], device='cuda:0'), grad: tensor([-0.0315, -0.0773, -0.0070,  0.0156, -0.0135,  0.0079,  0.0230,  0.0170,
+         0.0231,  0.0427], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 27, time 214.48, cls_loss 0.9082 cls_loss_mapping 0.0781 cls_loss_causal 0.7707 re_mapping 0.0350 re_causal 0.0752 /// teacc 97.19 lr 0.00010000
+Epoch 29, weight, value: tensor([[-0.0690, -0.0342, -0.0137,  ...,  0.0024, -0.0437, -0.0371],
+        [ 0.0035, -0.0306,  0.0070,  ...,  0.0136,  0.0021, -0.0114],
+        [-0.0030, -0.0250, -0.0411,  ...,  0.0357, -0.0142, -0.0155],
+        ...,
+        [-0.0143,  0.0187,  0.0222,  ...,  0.0182, -0.0251, -0.0236],
+        [-0.0344, -0.0060,  0.0091,  ...,  0.0353, -0.0114, -0.0200],
+        [ 0.0144,  0.0307, -0.0065,  ..., -0.0557, -0.0420, -0.0090]],
+       device='cuda:0'), grad: tensor([[-0.0005,  0.0017,  0.0002,  ..., -0.0139, -0.0078, -0.0013],
+        [ 0.0003,  0.0050,  0.0003,  ...,  0.0367,  0.0102, -0.0008],
+        [ 0.0006,  0.0018,  0.0002,  ...,  0.0047,  0.0014,  0.0018],
+        ...,
+        [-0.0006, -0.0029, -0.0053,  ..., -0.0171,  0.0023, -0.0008],
+        [ 0.0026, -0.0245,  0.0023,  ...,  0.0003, -0.0129, -0.0455],
+        [ 0.0078, -0.0304,  0.0028,  ..., -0.0125, -0.0190,  0.0100]],
+       device='cuda:0')
+Epoch 29, bias, value: tensor([-0.0302, -0.0033, -0.0053, -0.0064, -0.0089,  0.0064, -0.0069,  0.0216,
+        -0.0039,  0.0209], device='cuda:0'), grad: tensor([-0.0455,  0.0565,  0.0171, -0.0245,  0.0282,  0.0278,  0.0252, -0.0366,
+        -0.0260, -0.0221], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 28----------------------------------------------------
+epoch 28, time 214.82, cls_loss 0.9152 cls_loss_mapping 0.0649 cls_loss_causal 0.7640 re_mapping 0.0362 re_causal 0.0785 /// teacc 97.57 lr 0.00010000
+Epoch 30, weight, value: tensor([[-0.0700, -0.0351, -0.0128,  ...,  0.0017, -0.0443, -0.0379],
+        [ 0.0031, -0.0317,  0.0069,  ...,  0.0153,  0.0029, -0.0120],
+        [-0.0043, -0.0257, -0.0420,  ...,  0.0360, -0.0140, -0.0165],
+        ...,
+        [-0.0138,  0.0196,  0.0227,  ...,  0.0179, -0.0254, -0.0236],
+        [-0.0335, -0.0061,  0.0107,  ...,  0.0358, -0.0121, -0.0197],
+        [ 0.0136,  0.0310, -0.0074,  ..., -0.0568, -0.0403, -0.0088]],
+       device='cuda:0'), grad: tensor([[ 6.5346e-03,  8.1182e-05,  1.5373e-03,  ..., -4.8141e-03,
+          8.7738e-03,  1.2169e-03],
+        [-6.6490e-03,  2.7943e-04, -1.3313e-03,  ..., -1.1244e-03,
+          3.2921e-03,  1.3599e-03],
+        [ 1.4153e-03,  9.0539e-05,  1.0376e-03,  ..., -4.0359e-03,
+          7.8011e-03,  1.9073e-06],
+        ...,
+        [-7.3624e-03,  2.0618e-03,  1.2236e-03,  ..., -1.4381e-03,
+          2.3079e-03, -5.2071e-04],
+        [ 5.5695e-03,  8.2684e-04,  2.7580e-03,  ..., -2.8229e-03,
+          1.4458e-03,  3.7217e-04],
+        [-6.6605e-03, -3.1242e-03, -5.7697e-04,  ..., -1.8723e-02,
+         -7.5684e-03, -5.8289e-03]], device='cuda:0')
+Epoch 30, bias, value: tensor([-0.0306, -0.0032, -0.0051, -0.0065, -0.0089,  0.0063, -0.0073,  0.0219,
+        -0.0036,  0.0208], device='cuda:0'), grad: tensor([ 0.0257, -0.0084, -0.0237,  0.0232,  0.0395,  0.0166, -0.0076, -0.0289,
+         0.0058, -0.0423], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 29, time 214.63, cls_loss 0.9028 cls_loss_mapping 0.0782 cls_loss_causal 0.7685 re_mapping 0.0351 re_causal 0.0719 /// teacc 97.49 lr 0.00010000
+Epoch 31, weight, value: tensor([[-0.0711, -0.0345, -0.0120,  ...,  0.0014, -0.0452, -0.0382],
+        [ 0.0027, -0.0316,  0.0064,  ...,  0.0155,  0.0030, -0.0134],
+        [-0.0049, -0.0275, -0.0414,  ...,  0.0357, -0.0141, -0.0167],
+        ...,
+        [-0.0143,  0.0192,  0.0219,  ...,  0.0185, -0.0255, -0.0245],
+        [-0.0331, -0.0056,  0.0107,  ...,  0.0365, -0.0132, -0.0198],
+        [ 0.0139,  0.0309, -0.0092,  ..., -0.0567, -0.0403, -0.0081]],
+       device='cuda:0'), grad: tensor([[ 0.0003, -0.0186, -0.0009,  ..., -0.0149, -0.0093, -0.0021],
+        [-0.0002,  0.0059,  0.0010,  ...,  0.0049,  0.0036,  0.0002],
+        [-0.0129,  0.0027, -0.0039,  ...,  0.0053,  0.0023,  0.0003],
+        ...,
+        [-0.0002, -0.0145,  0.0005,  ...,  0.0008, -0.0033,  0.0013],
+        [ 0.0030, -0.0093, -0.0061,  ..., -0.0023, -0.0040,  0.0010],
+        [ 0.0007,  0.0024,  0.0034,  ...,  0.0029,  0.0033, -0.0033]],
+       device='cuda:0')
+Epoch 31, bias, value: tensor([-0.0307, -0.0033, -0.0056, -0.0061, -0.0091,  0.0058, -0.0070,  0.0225,
+        -0.0031,  0.0204], device='cuda:0'), grad: tensor([-0.0697,  0.0264, -0.0152,  0.0435, -0.0588,  0.0179,  0.0884, -0.0110,
+        -0.0430,  0.0216], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 30, time 214.29, cls_loss 0.9081 cls_loss_mapping 0.0647 cls_loss_causal 0.7586 re_mapping 0.0349 re_causal 0.0778 /// teacc 97.36 lr 0.00010000
+Epoch 32, weight, value: tensor([[-0.0726, -0.0348, -0.0126,  ...,  0.0014, -0.0453, -0.0382],
+        [ 0.0023, -0.0331,  0.0068,  ...,  0.0160,  0.0033, -0.0140],
+        [-0.0045, -0.0283, -0.0411,  ...,  0.0359, -0.0137, -0.0174],
+        ...,
+        [-0.0146,  0.0194,  0.0221,  ...,  0.0184, -0.0265, -0.0250],
+        [-0.0339, -0.0055,  0.0097,  ...,  0.0365, -0.0140, -0.0205],
+        [ 0.0134,  0.0313, -0.0092,  ..., -0.0567, -0.0399, -0.0075]],
+       device='cuda:0'), grad: tensor([[ 3.4380e-04, -5.4474e-03,  1.7309e-03,  ..., -3.8452e-03,
+         -1.6413e-03,  2.6798e-04],
+        [ 6.6910e-03, -5.0211e-04,  4.8332e-03,  ...,  7.2403e-03,
+         -4.1931e-02,  4.4327e-03],
+        [ 2.1744e-04, -3.9520e-03,  1.5020e-03,  ..., -3.0121e-02,
+         -4.1084e-03,  5.2881e-04],
+        ...,
+        [ 2.0504e-03,  5.2299e-03,  3.4218e-03,  ...,  6.5308e-03,
+          4.1885e-03, -9.5248e-05],
+        [-6.8626e-03,  1.6190e-02,  3.0556e-03,  ...,  1.5213e-02,
+          1.2856e-02, -3.2654e-03],
+        [-8.6498e-04, -2.2354e-02, -7.5951e-03,  ..., -1.8024e-03,
+          3.0351e-04, -4.0474e-03]], device='cuda:0')
+Epoch 32, bias, value: tensor([-0.0307, -0.0032, -0.0051, -0.0063, -0.0090,  0.0059, -0.0072,  0.0219,
+        -0.0032,  0.0207], device='cuda:0'), grad: tensor([-0.0102,  0.0184, -0.0826,  0.0204,  0.0309,  0.0463, -0.0720,  0.0289,
+         0.0504, -0.0307], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 31, time 214.14, cls_loss 0.9015 cls_loss_mapping 0.0657 cls_loss_causal 0.7572 re_mapping 0.0329 re_causal 0.0747 /// teacc 97.40 lr 0.00010000
+Epoch 33, weight, value: tensor([[-0.0743, -0.0337, -0.0128,  ...,  0.0012, -0.0453, -0.0395],
+        [ 0.0023, -0.0337,  0.0064,  ...,  0.0161,  0.0032, -0.0149],
+        [-0.0051, -0.0302, -0.0412,  ...,  0.0358, -0.0137, -0.0183],
+        ...,
+        [-0.0150,  0.0194,  0.0227,  ...,  0.0185, -0.0271, -0.0262],
+        [-0.0346, -0.0058,  0.0088,  ...,  0.0364, -0.0140, -0.0212],
+        [ 0.0140,  0.0313, -0.0088,  ..., -0.0566, -0.0396, -0.0073]],
+       device='cuda:0'), grad: tensor([[ 2.1362e-03,  8.8215e-06,  7.1347e-05,  ..., -1.7929e-02,
+         -5.6763e-03,  2.2488e-03],
+        [ 3.3593e-04, -2.1315e-04, -1.8024e-04,  ...,  1.9312e-03,
+          1.2989e-03,  3.4070e-04],
+        [-2.8553e-03,  3.2425e-05,  7.8559e-05,  ...,  3.1891e-03,
+          1.2123e-02, -6.7329e-04],
+        ...,
+        [ 7.3671e-04, -1.2875e-03,  2.2876e-04,  ..., -4.6349e-03,
+         -9.2077e-04,  1.1759e-03],
+        [ 1.2188e-03,  1.1873e-04,  1.6558e-04,  ...,  3.8738e-03,
+          2.5291e-03,  2.3117e-03],
+        [-1.4679e-02,  1.2512e-03, -1.1520e-03,  ...,  4.6806e-03,
+          2.1057e-03, -1.2543e-02]], device='cuda:0')
+Epoch 33, bias, value: tensor([-0.0309, -0.0035, -0.0049, -0.0060, -0.0088,  0.0057, -0.0078,  0.0220,
+        -0.0034,  0.0213], device='cuda:0'), grad: tensor([-0.0443,  0.0099,  0.0015, -0.0157,  0.0224,  0.0428, -0.0269, -0.0115,
+         0.0375, -0.0157], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 32----------------------------------------------------
+epoch 32, time 214.91, cls_loss 0.8947 cls_loss_mapping 0.0650 cls_loss_causal 0.7649 re_mapping 0.0321 re_causal 0.0722 /// teacc 97.71 lr 0.00010000
+Epoch 34, weight, value: tensor([[-0.0758, -0.0329, -0.0119,  ...,  0.0010, -0.0451, -0.0407],
+        [ 0.0016, -0.0341,  0.0066,  ...,  0.0171,  0.0046, -0.0150],
+        [-0.0061, -0.0296, -0.0402,  ...,  0.0349, -0.0153, -0.0195],
+        ...,
+        [-0.0141,  0.0191,  0.0219,  ...,  0.0181, -0.0278, -0.0255],
+        [-0.0347, -0.0053,  0.0077,  ...,  0.0359, -0.0154, -0.0216],
+        [ 0.0148,  0.0312, -0.0092,  ..., -0.0570, -0.0399, -0.0069]],
+       device='cuda:0'), grad: tensor([[ 3.2401e-04, -1.2770e-03, -2.1362e-03,  ..., -2.0142e-03,
+          2.7618e-03, -9.6130e-04],
+        [ 2.1613e-04, -6.1035e-03, -1.1559e-03,  ..., -9.1553e-05,
+         -5.5695e-03, -1.4620e-03],
+        [-1.5163e-03,  1.3218e-03,  1.2112e-03,  ...,  8.9645e-03,
+          6.2447e-03,  1.0653e-03],
+        ...,
+        [-2.1229e-03,  2.7905e-03,  1.4315e-03,  ...,  1.1833e-02,
+          9.2316e-03,  1.8406e-03],
+        [ 6.3858e-03,  4.0588e-03,  5.6992e-03,  ...,  2.8076e-02,
+          2.1225e-02,  3.6469e-03],
+        [ 2.0275e-03,  1.3733e-03,  3.1948e-03,  ..., -1.8555e-02,
+         -1.1200e-02,  8.1635e-04]], device='cuda:0')
+Epoch 34, bias, value: tensor([-0.0299, -0.0030, -0.0058, -0.0062, -0.0091,  0.0066, -0.0082,  0.0221,
+        -0.0036,  0.0209], device='cuda:0'), grad: tensor([-0.0191, -0.0017,  0.0203, -0.0338,  0.0164, -0.0311, -0.0267,  0.0186,
+         0.0718, -0.0147], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 33----------------------------------------------------
+epoch 33, time 215.34, cls_loss 0.9087 cls_loss_mapping 0.0564 cls_loss_causal 0.7747 re_mapping 0.0319 re_causal 0.0707 /// teacc 97.92 lr 0.00010000
+Epoch 35, weight, value: tensor([[-0.0758, -0.0336, -0.0110,  ..., -0.0001, -0.0449, -0.0412],
+        [ 0.0017, -0.0338,  0.0076,  ...,  0.0171,  0.0031, -0.0142],
+        [-0.0065, -0.0286, -0.0398,  ...,  0.0360, -0.0158, -0.0189],
+        ...,
+        [-0.0144,  0.0196,  0.0212,  ...,  0.0181, -0.0268, -0.0262],
+        [-0.0352, -0.0058,  0.0081,  ...,  0.0363, -0.0162, -0.0229],
+        [ 0.0152,  0.0312, -0.0104,  ..., -0.0567, -0.0390, -0.0060]],
+       device='cuda:0'), grad: tensor([[ 5.1484e-06,  9.1362e-04,  5.5134e-06,  ..., -1.6541e-02,
+         -1.4565e-02,  2.3985e-04],
+        [ 4.5970e-06,  1.8997e-03, -2.4116e-04,  ...,  3.1357e-03,
+         -1.4055e-04,  1.9467e-04],
+        [ 1.7717e-05,  3.4447e-03,  2.2743e-06,  ...,  7.4081e-03,
+          6.9962e-03,  2.0885e-03],
+        ...,
+        [ 1.4246e-04,  1.0880e-02,  2.0757e-05,  ...,  1.4526e-02,
+          6.7978e-03,  2.9736e-03],
+        [-2.8461e-05, -1.5945e-03,  1.7190e-04,  ..., -2.9335e-03,
+          1.7433e-03,  9.7275e-04],
+        [-3.3617e-04, -4.3030e-02,  8.3566e-05,  ..., -1.7319e-02,
+         -1.2375e-02, -3.2787e-03]], device='cuda:0')
+Epoch 35, bias, value: tensor([-0.0303, -0.0032, -0.0050, -0.0066, -0.0094,  0.0067, -0.0083,  0.0224,
+        -0.0037,  0.0212], device='cuda:0'), grad: tensor([-0.0513,  0.0091,  0.0258, -0.0067,  0.0224,  0.0118,  0.0071,  0.0404,
+         0.0016, -0.0602], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 34, time 214.57, cls_loss 0.8723 cls_loss_mapping 0.0598 cls_loss_causal 0.7437 re_mapping 0.0315 re_causal 0.0679 /// teacc 97.69 lr 0.00010000
+Epoch 36, weight, value: tensor([[-0.0776, -0.0336, -0.0108,  ..., -0.0005, -0.0440, -0.0423],
+        [ 0.0018, -0.0334,  0.0073,  ...,  0.0167,  0.0029, -0.0141],
+        [-0.0066, -0.0298, -0.0401,  ...,  0.0361, -0.0170, -0.0194],
+        ...,
+        [-0.0154,  0.0192,  0.0212,  ...,  0.0186, -0.0261, -0.0274],
+        [-0.0359, -0.0059,  0.0072,  ...,  0.0374, -0.0159, -0.0236],
+        [ 0.0153,  0.0322, -0.0104,  ..., -0.0562, -0.0388, -0.0051]],
+       device='cuda:0'), grad: tensor([[ 9.1434e-05,  1.7872e-03, -5.6496e-03,  ..., -2.8706e-04,
+         -7.8125e-03,  4.0054e-04],
+        [ 4.3899e-05,  1.8787e-03,  3.1710e-04,  ...,  1.6174e-03,
+          4.4518e-03, -5.8842e-04],
+        [ 3.2640e-04,  8.0395e-04,  1.3456e-03,  ...,  1.0818e-02,
+          7.9956e-03,  5.8937e-04],
+        ...,
+        [ 6.4087e-03,  5.4436e-03,  5.3453e-04,  ...,  1.9852e-02,
+          1.4778e-02,  9.0866e-03],
+        [-1.5640e-03, -1.4038e-03,  1.9951e-03,  ...,  1.7920e-03,
+          8.2779e-03,  1.1826e-03],
+        [-6.8893e-03, -2.6226e-03, -3.4118e-04,  ..., -3.7720e-02,
+         -3.0457e-02, -1.1398e-02]], device='cuda:0')
+Epoch 36, bias, value: tensor([-0.0303, -0.0037, -0.0051, -0.0061, -0.0089,  0.0065, -0.0088,  0.0228,
+        -0.0037,  0.0211], device='cuda:0'), grad: tensor([-0.0203, -0.0092,  0.0351, -0.0063,  0.0001, -0.0126,  0.0356,  0.0639,
+         0.0111, -0.0974], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 35, time 214.40, cls_loss 0.8496 cls_loss_mapping 0.0584 cls_loss_causal 0.7033 re_mapping 0.0310 re_causal 0.0678 /// teacc 97.75 lr 0.00010000
+Epoch 37, weight, value: tensor([[-0.0777, -0.0333, -0.0102,  ..., -0.0012, -0.0443, -0.0432],
+        [ 0.0019, -0.0331,  0.0073,  ...,  0.0174,  0.0038, -0.0148],
+        [-0.0082, -0.0288, -0.0397,  ...,  0.0375, -0.0167, -0.0196],
+        ...,
+        [-0.0161,  0.0205,  0.0215,  ...,  0.0186, -0.0244, -0.0281],
+        [-0.0362, -0.0064,  0.0064,  ...,  0.0369, -0.0176, -0.0244],
+        [ 0.0154,  0.0308, -0.0111,  ..., -0.0566, -0.0385, -0.0054]],
+       device='cuda:0'), grad: tensor([[-3.9220e-04, -9.6741e-03, -2.8458e-03,  ..., -1.2421e-02,
+         -1.5583e-03, -5.6267e-03],
+        [ 3.8087e-05,  2.1191e-03,  1.2093e-03,  ...,  4.4823e-03,
+          4.4479e-03,  2.4014e-03],
+        [ 1.8239e-04, -9.0790e-04,  3.0804e-03,  ..., -2.0615e-02,
+         -7.3242e-02, -1.3494e-04],
+        ...,
+        [ 4.4990e-04, -3.7537e-03, -2.1393e-02,  ..., -1.8005e-02,
+         -1.9470e-02,  2.5034e-04],
+        [ 3.4142e-04,  2.2831e-03, -3.4924e-03,  ...,  2.6131e-03,
+         -4.7150e-03,  9.4414e-04],
+        [-5.4550e-03,  4.8180e-03, -1.2589e-04,  ...,  1.2085e-02,
+          4.8523e-03, -2.2373e-03]], device='cuda:0')
+Epoch 37, bias, value: tensor([-0.0305, -0.0035, -0.0043, -0.0057, -0.0093,  0.0063, -0.0092,  0.0228,
+        -0.0040,  0.0212], device='cuda:0'), grad: tensor([-0.0564,  0.0254, -0.0612, -0.0053,  0.0146,  0.0188,  0.0775, -0.0311,
+        -0.0041,  0.0218], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 36, time 214.94, cls_loss 0.8506 cls_loss_mapping 0.0618 cls_loss_causal 0.7219 re_mapping 0.0302 re_causal 0.0670 /// teacc 97.88 lr 0.00010000
+Epoch 38, weight, value: tensor([[-0.0780, -0.0326, -0.0097,  ..., -0.0003, -0.0442, -0.0441],
+        [ 0.0009, -0.0336,  0.0082,  ...,  0.0171,  0.0036, -0.0152],
+        [-0.0087, -0.0300, -0.0415,  ...,  0.0367, -0.0161, -0.0206],
+        ...,
+        [-0.0172,  0.0192,  0.0215,  ...,  0.0182, -0.0250, -0.0284],
+        [-0.0358, -0.0054,  0.0084,  ...,  0.0381, -0.0175, -0.0239],
+        [ 0.0157,  0.0314, -0.0105,  ..., -0.0574, -0.0381, -0.0049]],
+       device='cuda:0'), grad: tensor([[ 4.7302e-04,  5.3835e-04,  4.5514e-04,  ...,  7.5302e-03,
+          1.0422e-02,  1.8044e-03],
+        [ 8.4543e-04,  8.6355e-04,  8.4686e-04,  ...,  3.2616e-03,
+         -1.1864e-02,  4.6110e-04],
+        [-5.3177e-03,  1.1206e-03, -7.0114e-03,  ..., -9.0103e-03,
+         -4.6883e-03, -4.7646e-03],
+        ...,
+        [ 2.8229e-03, -9.0103e-03,  3.8795e-03,  ..., -4.0588e-03,
+          5.9853e-03,  1.9569e-03],
+        [ 1.5278e-03,  3.4313e-03,  9.0599e-05,  ..., -5.5161e-03,
+         -1.6251e-02,  2.3670e-03],
+        [-5.1422e-03,  2.5921e-03, -5.1079e-03,  ...,  1.8082e-03,
+         -1.7075e-02, -3.2749e-03]], device='cuda:0')
+Epoch 38, bias, value: tensor([-0.0304, -0.0036, -0.0045, -0.0055, -0.0086,  0.0067, -0.0099,  0.0227,
+        -0.0037,  0.0205], device='cuda:0'), grad: tensor([ 0.0356, -0.0082, -0.0075,  0.0122,  0.0246,  0.0562, -0.0639,  0.0067,
+        -0.0458, -0.0100], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 37----------------------------------------------------
+epoch 37, time 215.58, cls_loss 0.8937 cls_loss_mapping 0.0647 cls_loss_causal 0.7608 re_mapping 0.0307 re_causal 0.0665 /// teacc 98.03 lr 0.00010000
+Epoch 39, weight, value: tensor([[-0.0790, -0.0311, -0.0096,  ..., -0.0007, -0.0441, -0.0437],
+        [ 0.0007, -0.0344,  0.0092,  ...,  0.0163,  0.0033, -0.0164],
+        [-0.0078, -0.0310, -0.0417,  ...,  0.0362, -0.0159, -0.0203],
+        ...,
+        [-0.0182,  0.0178,  0.0227,  ...,  0.0191, -0.0251, -0.0284],
+        [-0.0365, -0.0059,  0.0087,  ...,  0.0377, -0.0184, -0.0250],
+        [ 0.0164,  0.0319, -0.0109,  ..., -0.0575, -0.0382, -0.0043]],
+       device='cuda:0'), grad: tensor([[-9.3889e-04, -2.0210e-07,  5.2881e-04,  ..., -6.2408e-03,
+         -5.3635e-03, -4.1461e-04],
+        [ 9.4771e-05,  1.6298e-08,  7.5102e-04,  ..., -5.2071e-03,
+         -9.9411e-03, -1.1806e-03],
+        [ 2.6298e-04,  1.4529e-07,  8.6308e-04,  ...,  5.1079e-03,
+          1.1833e-02,  2.3460e-03],
+        ...,
+        [ 1.0996e-03,  7.9162e-09,  5.1346e-03,  ...,  6.6032e-03,
+          1.6220e-02,  1.0090e-03],
+        [ 7.6294e-04,  3.2522e-06, -2.7448e-05,  ..., -3.3722e-03,
+         -5.3139e-03, -5.4026e-04],
+        [-1.5440e-03,  2.7986e-07,  2.3251e-03,  ...,  4.1161e-03,
+          9.3842e-03,  9.9087e-04]], device='cuda:0')
+Epoch 39, bias, value: tensor([-0.0305, -0.0045, -0.0048, -0.0057, -0.0085,  0.0070, -0.0087,  0.0233,
+        -0.0041,  0.0203], device='cuda:0'), grad: tensor([-0.0196, -0.0324,  0.0374, -0.0600, -0.0247,  0.0459,  0.0122,  0.0376,
+        -0.0180,  0.0217], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 38, time 214.80, cls_loss 0.8355 cls_loss_mapping 0.0570 cls_loss_causal 0.7181 re_mapping 0.0288 re_causal 0.0638 /// teacc 97.79 lr 0.00010000
+Epoch 40, weight, value: tensor([[-0.0796, -0.0316, -0.0091,  ..., -0.0014, -0.0450, -0.0440],
+        [ 0.0002, -0.0346,  0.0098,  ...,  0.0169,  0.0037, -0.0165],
+        [-0.0069, -0.0317, -0.0433,  ...,  0.0358, -0.0165, -0.0194],
+        ...,
+        [-0.0181,  0.0194,  0.0219,  ...,  0.0185, -0.0258, -0.0281],
+        [-0.0375, -0.0061,  0.0089,  ...,  0.0389, -0.0173, -0.0265],
+        [ 0.0168,  0.0312, -0.0125,  ..., -0.0587, -0.0394, -0.0038]],
+       device='cuda:0'), grad: tensor([[ 1.0133e-04, -1.5205e-02,  3.0670e-03,  ..., -5.7268e-04,
+         -4.4861e-03,  3.3081e-05],
+        [ 4.6581e-05,  1.3876e-03,  6.2981e-03,  ...,  1.8539e-03,
+          4.0054e-03,  2.0400e-05],
+        [ 8.5413e-05, -6.2485e-03,  3.1209e-04,  ..., -9.2621e-03,
+         -5.2299e-03,  8.0764e-05],
+        ...,
+        [ 3.8109e-03,  3.4008e-03, -1.2999e-03,  ..., -3.8719e-04,
+         -1.3380e-03,  1.2636e-03],
+        [ 5.2309e-04,  1.8444e-03, -1.7029e-02,  ..., -1.0239e-02,
+         -1.6159e-02,  2.4080e-04],
+        [-5.4359e-03,  3.3588e-03, -3.2120e-03,  ..., -1.7605e-03,
+          2.1858e-03, -2.3098e-03]], device='cuda:0')
+Epoch 40, bias, value: tensor([-0.0309, -0.0046, -0.0041, -0.0059, -0.0078,  0.0064, -0.0090,  0.0230,
+        -0.0036,  0.0201], device='cuda:0'), grad: tensor([-0.0017,  0.0192, -0.0307, -0.0453,  0.0423,  0.0353,  0.0275,  0.0028,
+        -0.0344, -0.0150], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 39, time 214.72, cls_loss 0.8318 cls_loss_mapping 0.0513 cls_loss_causal 0.6879 re_mapping 0.0300 re_causal 0.0643 /// teacc 97.52 lr 0.00010000
+Epoch 41, weight, value: tensor([[-0.0807, -0.0309, -0.0085,  ..., -0.0014, -0.0443, -0.0457],
+        [-0.0001, -0.0364,  0.0098,  ...,  0.0176,  0.0037, -0.0171],
+        [-0.0077, -0.0336, -0.0435,  ...,  0.0349, -0.0169, -0.0212],
+        ...,
+        [-0.0190,  0.0197,  0.0209,  ...,  0.0182, -0.0265, -0.0291],
+        [-0.0388, -0.0062,  0.0104,  ...,  0.0392, -0.0178, -0.0261],
+        [ 0.0165,  0.0319, -0.0118,  ..., -0.0579, -0.0383, -0.0030]],
+       device='cuda:0'), grad: tensor([[-0.0019, -0.0070, -0.0051,  ..., -0.0231, -0.0124, -0.0002],
+        [-0.0004, -0.0006,  0.0014,  ...,  0.0052,  0.0188, -0.0003],
+        [-0.0006,  0.0024, -0.0001,  ..., -0.0007,  0.0019,  0.0005],
+        ...,
+        [-0.0053, -0.0011, -0.0037,  ..., -0.0154, -0.0003, -0.0058],
+        [ 0.0010, -0.0003,  0.0012,  ...,  0.0020, -0.0012,  0.0006],
+        [ 0.0056,  0.0010,  0.0028,  ...,  0.0141,  0.0066,  0.0053]],
+       device='cuda:0')
+Epoch 41, bias, value: tensor([-0.0310, -0.0046, -0.0052, -0.0055, -0.0072,  0.0067, -0.0092,  0.0227,
+        -0.0035,  0.0205], device='cuda:0'), grad: tensor([-0.0572,  0.0244, -0.0007,  0.0166,  0.0295, -0.0233, -0.0094, -0.0342,
+         0.0016,  0.0527], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 40, time 214.58, cls_loss 0.8316 cls_loss_mapping 0.0541 cls_loss_causal 0.6942 re_mapping 0.0294 re_causal 0.0640 /// teacc 97.81 lr 0.00010000
+Epoch 42, weight, value: tensor([[-0.0801, -0.0304, -0.0075,  ..., -0.0020, -0.0442, -0.0450],
+        [ 0.0001, -0.0359,  0.0103,  ...,  0.0176,  0.0033, -0.0181],
+        [-0.0080, -0.0346, -0.0442,  ...,  0.0342, -0.0173, -0.0214],
+        ...,
+        [-0.0200,  0.0197,  0.0213,  ...,  0.0182, -0.0259, -0.0300],
+        [-0.0403, -0.0060,  0.0102,  ...,  0.0405, -0.0177, -0.0266],
+        [ 0.0174,  0.0318, -0.0128,  ..., -0.0593, -0.0382, -0.0022]],
+       device='cuda:0'), grad: tensor([[ 1.6460e-03,  4.1847e-03,  2.4300e-03,  ...,  4.2267e-03,
+          4.3068e-03,  1.2350e-03],
+        [ 2.3997e-04,  7.8726e-04,  1.1711e-03,  ...,  1.0918e-02,
+          6.6986e-03,  3.3879e-04],
+        [ 8.4925e-04,  8.6784e-04, -8.4610e-03,  ...,  6.3782e-03,
+          3.8719e-03,  6.9141e-04],
+        ...,
+        [ 2.2831e-03, -7.8917e-04,  3.5324e-03,  ..., -4.3671e-02,
+         -3.1586e-02,  1.8291e-03],
+        [-2.8133e-03,  6.7234e-04, -6.3744e-03,  ...,  3.3531e-03,
+          4.6806e-03, -3.5820e-03],
+        [ 1.2684e-03,  5.3253e-03,  7.2784e-03,  ...,  8.6060e-03,
+          4.1580e-03, -2.7061e-05]], device='cuda:0')
+Epoch 42, bias, value: tensor([-0.0313, -0.0049, -0.0057, -0.0051, -0.0070,  0.0058, -0.0082,  0.0228,
+        -0.0031,  0.0203], device='cuda:0'), grad: tensor([ 0.0105,  0.0211, -0.0177, -0.0286, -0.0188,  0.0217, -0.0155, -0.0057,
+        -0.0094,  0.0422], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 41, time 214.23, cls_loss 0.8361 cls_loss_mapping 0.0553 cls_loss_causal 0.7031 re_mapping 0.0282 re_causal 0.0623 /// teacc 97.90 lr 0.00010000
+Epoch 43, weight, value: tensor([[-0.0806, -0.0312, -0.0076,  ..., -0.0024, -0.0443, -0.0456],
+        [-0.0005, -0.0370,  0.0091,  ...,  0.0185,  0.0036, -0.0189],
+        [-0.0079, -0.0369, -0.0450,  ...,  0.0338, -0.0183, -0.0228],
+        ...,
+        [-0.0208,  0.0203,  0.0214,  ...,  0.0186, -0.0261, -0.0313],
+        [-0.0395, -0.0047,  0.0099,  ...,  0.0402, -0.0179, -0.0264],
+        [ 0.0179,  0.0321, -0.0127,  ..., -0.0603, -0.0373, -0.0006]],
+       device='cuda:0'), grad: tensor([[ 3.7253e-05,  1.8625e-03,  2.7132e-04,  ...,  3.9177e-03,
+         -1.0735e-02,  8.9121e-04],
+        [ 5.6058e-05, -6.1264e-03,  9.3365e-04,  ..., -3.7498e-03,
+         -8.5640e-04, -4.7255e-04],
+        [ 2.6107e-05, -1.3618e-03,  5.9307e-05,  ...,  8.3447e-06,
+         -1.9741e-03,  3.0899e-04],
+        ...,
+        [ 1.9431e-05,  5.1498e-03,  2.9802e-04,  ...,  4.4289e-03,
+          4.5929e-03,  1.0853e-03],
+        [ 1.3638e-03, -1.3025e-01, -5.6572e-03,  ..., -3.4027e-02,
+         -1.4458e-02, -1.2115e-02],
+        [-2.5101e-03,  1.1047e-01,  2.1210e-03,  ...,  2.6321e-02,
+          1.6495e-02,  2.5005e-03]], device='cuda:0')
+Epoch 43, bias, value: tensor([-0.0315, -0.0052, -0.0061, -0.0049, -0.0068,  0.0058, -0.0084,  0.0227,
+        -0.0027,  0.0206], device='cuda:0'), grad: tensor([-1.2527e-02, -1.8570e-02, -1.0848e-05, -9.0637e-03, -2.8305e-02,
+         3.2501e-02,  3.5004e-02,  2.4765e-02, -8.9722e-02,  6.5918e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 42, time 214.31, cls_loss 0.8345 cls_loss_mapping 0.0591 cls_loss_causal 0.7259 re_mapping 0.0280 re_causal 0.0613 /// teacc 97.73 lr 0.00010000
+Epoch 44, weight, value: tensor([[-0.0817, -0.0319, -0.0069,  ..., -0.0018, -0.0436, -0.0462],
+        [ 0.0003, -0.0367,  0.0094,  ...,  0.0187,  0.0037, -0.0199],
+        [-0.0083, -0.0372, -0.0458,  ...,  0.0337, -0.0177, -0.0240],
+        ...,
+        [-0.0211,  0.0200,  0.0219,  ...,  0.0191, -0.0266, -0.0318],
+        [-0.0405, -0.0040,  0.0094,  ...,  0.0409, -0.0182, -0.0277],
+        [ 0.0182,  0.0315, -0.0121,  ..., -0.0614, -0.0379, -0.0001]],
+       device='cuda:0'), grad: tensor([[ 2.9278e-04,  1.6747e-03,  1.1826e-03,  ...,  5.8250e-03,
+          5.0354e-03,  1.2636e-03],
+        [ 1.4963e-03,  3.7346e-03,  2.4300e-03,  ...,  6.2294e-03,
+          3.8757e-03,  2.4815e-03],
+        [-1.3039e-02,  2.6226e-03, -1.2026e-03,  ..., -1.0231e-02,
+         -1.3218e-03,  7.4267e-05],
+        ...,
+        [-3.3226e-03,  1.7258e-02,  1.4067e-03,  ..., -3.3665e-03,
+          5.8174e-05, -6.2847e-04],
+        [ 1.3199e-03,  1.3634e-02,  5.8403e-03,  ...,  5.9662e-03,
+          4.1161e-03,  3.7708e-03],
+        [ 1.9035e-03, -2.3865e-02,  3.8853e-03,  ..., -1.7662e-03,
+         -6.1321e-04,  5.9605e-06]], device='cuda:0')
+Epoch 44, bias, value: tensor([-0.0313, -0.0048, -0.0056, -0.0055, -0.0068,  0.0053, -0.0087,  0.0231,
+        -0.0026,  0.0204], device='cuda:0'), grad: tensor([ 0.0335,  0.0440, -0.0609,  0.0407, -0.0370, -0.0567, -0.0096,  0.0088,
+         0.0566, -0.0194], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 43, time 214.40, cls_loss 0.8506 cls_loss_mapping 0.0527 cls_loss_causal 0.7285 re_mapping 0.0275 re_causal 0.0620 /// teacc 97.81 lr 0.00010000
+Epoch 45, weight, value: tensor([[-0.0829, -0.0328, -0.0070,  ..., -0.0024, -0.0447, -0.0468],
+        [ 0.0018, -0.0374,  0.0087,  ...,  0.0190,  0.0030, -0.0202],
+        [-0.0093, -0.0382, -0.0455,  ...,  0.0347, -0.0172, -0.0250],
+        ...,
+        [-0.0216,  0.0203,  0.0229,  ...,  0.0191, -0.0269, -0.0313],
+        [-0.0411, -0.0046,  0.0094,  ...,  0.0411, -0.0193, -0.0282],
+        [ 0.0193,  0.0327, -0.0130,  ..., -0.0608, -0.0357, -0.0011]],
+       device='cuda:0'), grad: tensor([[ 0.0048, -0.0113,  0.0044,  ..., -0.0242, -0.0290, -0.0030],
+        [ 0.0003, -0.0278, -0.0028,  ..., -0.0200, -0.0219, -0.0010],
+        [ 0.0014,  0.0033, -0.0059,  ...,  0.0179,  0.0231, -0.0123],
+        ...,
+        [ 0.0008,  0.0036,  0.0024,  ...,  0.0058,  0.0041,  0.0028],
+        [-0.0007,  0.0051, -0.0021,  ..., -0.0021,  0.0025,  0.0012],
+        [-0.0147,  0.0058, -0.0151,  ..., -0.0090,  0.0013, -0.0121]],
+       device='cuda:0')
+Epoch 45, bias, value: tensor([-0.0317, -0.0048, -0.0051, -0.0060, -0.0078,  0.0054, -0.0077,  0.0228,
+        -0.0029,  0.0214], device='cuda:0'), grad: tensor([ 0.0045, -0.0580, -0.0140,  0.0431, -0.0068,  0.0568,  0.0535,  0.0255,
+        -0.0154, -0.0891], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 44, time 214.13, cls_loss 0.8352 cls_loss_mapping 0.0471 cls_loss_causal 0.7006 re_mapping 0.0282 re_causal 0.0616 /// teacc 97.86 lr 0.00010000
+Epoch 46, weight, value: tensor([[-0.0836, -0.0332, -0.0068,  ..., -0.0021, -0.0451, -0.0466],
+        [ 0.0012, -0.0375,  0.0081,  ...,  0.0189,  0.0033, -0.0210],
+        [-0.0098, -0.0378, -0.0437,  ...,  0.0351, -0.0176, -0.0255],
+        ...,
+        [-0.0218,  0.0215,  0.0231,  ...,  0.0201, -0.0261, -0.0324],
+        [-0.0428, -0.0046,  0.0089,  ...,  0.0413, -0.0197, -0.0302],
+        [ 0.0215,  0.0320, -0.0122,  ..., -0.0622, -0.0362,  0.0003]],
+       device='cuda:0'), grad: tensor([[-2.4986e-03,  9.3794e-04,  9.6083e-04,  ...,  6.7101e-03,
+          2.0256e-03,  1.7633e-03],
+        [ 9.6416e-04,  6.7139e-04,  1.0719e-03,  ...,  7.7133e-03,
+          4.6234e-03, -4.0169e-03],
+        [ 5.1842e-03,  3.2787e-03,  4.0779e-03,  ...,  4.3182e-03,
+          3.1433e-03,  1.5402e-03],
+        ...,
+        [ 7.8738e-05,  1.3943e-03,  1.0471e-03,  ...,  4.0283e-03,
+          1.5831e-03, -1.4985e-04],
+        [-7.4272e-03, -1.9896e-04, -2.4643e-02,  ..., -5.2681e-03,
+          3.1605e-03,  8.8215e-04],
+        [ 6.3515e-03, -4.7073e-03,  8.5144e-03,  ..., -2.4261e-03,
+         -1.8873e-03,  1.6346e-03]], device='cuda:0')
+Epoch 46, bias, value: tensor([-0.0312, -0.0054, -0.0043, -0.0059, -0.0079,  0.0059, -0.0083,  0.0229,
+        -0.0037,  0.0216], device='cuda:0'), grad: tensor([ 0.0244,  0.0043,  0.0356,  0.0140, -0.0122, -0.0553,  0.0098, -0.0173,
+        -0.0350,  0.0316], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 45, time 214.12, cls_loss 0.8469 cls_loss_mapping 0.0404 cls_loss_causal 0.7034 re_mapping 0.0279 re_causal 0.0612 /// teacc 97.83 lr 0.00010000
+Epoch 47, weight, value: tensor([[-0.0834, -0.0345, -0.0062,  ..., -0.0010, -0.0445, -0.0471],
+        [ 0.0008, -0.0362,  0.0089,  ...,  0.0184,  0.0031, -0.0213],
+        [-0.0105, -0.0379, -0.0444,  ...,  0.0355, -0.0179, -0.0271],
+        ...,
+        [-0.0222,  0.0216,  0.0228,  ...,  0.0215, -0.0262, -0.0337],
+        [-0.0428, -0.0060,  0.0090,  ...,  0.0421, -0.0197, -0.0311],
+        [ 0.0210,  0.0324, -0.0119,  ..., -0.0631, -0.0358,  0.0010]],
+       device='cuda:0'), grad: tensor([[ 1.5557e-04,  8.3923e-04,  1.6260e-04,  ..., -1.1932e-02,
+         -2.2163e-03,  3.6573e-04],
+        [ 6.7472e-04,  7.2289e-03,  5.5275e-03,  ...,  3.9406e-03,
+          1.1559e-03,  8.2111e-04],
+        [ 3.6860e-04,  6.2037e-04,  3.2449e-04,  ..., -7.7133e-03,
+         -2.4223e-04, -2.2516e-05],
+        ...,
+        [-7.7209e-03,  3.6102e-02,  5.3596e-04,  ...,  4.7445e-04,
+          3.3436e-03, -2.0618e-03],
+        [-4.4975e-03,  3.5706e-03, -3.2959e-03,  ...,  6.1035e-03,
+          1.7891e-03,  5.3444e-03],
+        [ 1.4397e-02, -5.7526e-02,  4.5891e-03,  ...,  2.4170e-02,
+         -2.5864e-03,  3.7804e-03]], device='cuda:0')
+Epoch 47, bias, value: tensor([-0.0312, -0.0057, -0.0039, -0.0061, -0.0075,  0.0057, -0.0086,  0.0231,
+        -0.0036,  0.0215], device='cuda:0'), grad: tensor([-0.0063,  0.0173, -0.0329, -0.0409, -0.0179, -0.0327,  0.0309, -0.0089,
+         0.0205,  0.0709], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 46, time 214.46, cls_loss 0.8150 cls_loss_mapping 0.0541 cls_loss_causal 0.6965 re_mapping 0.0269 re_causal 0.0595 /// teacc 97.98 lr 0.00010000
+Epoch 48, weight, value: tensor([[-0.0847, -0.0332, -0.0052,  ..., -0.0028, -0.0458, -0.0478],
+        [ 0.0003, -0.0371,  0.0109,  ...,  0.0193,  0.0033, -0.0218],
+        [-0.0105, -0.0369, -0.0464,  ...,  0.0348, -0.0186, -0.0280],
+        ...,
+        [-0.0234,  0.0208,  0.0224,  ...,  0.0225, -0.0263, -0.0344],
+        [-0.0430, -0.0070,  0.0089,  ...,  0.0421, -0.0200, -0.0312],
+        [ 0.0211,  0.0325, -0.0123,  ..., -0.0627, -0.0350,  0.0016]],
+       device='cuda:0'), grad: tensor([[ 2.1982e-04,  1.8561e-04, -5.8479e-03,  ..., -7.6523e-03,
+         -7.2441e-03,  2.5635e-03],
+        [-3.0098e-03,  1.4770e-04,  5.7793e-04,  ..., -2.0905e-03,
+          1.1539e-03,  1.5469e-03],
+        [ 3.4761e-04, -9.4700e-04,  1.1396e-03,  ...,  5.6190e-03,
+          1.8873e-03,  2.3918e-03],
+        ...,
+        [ 3.9029e-04, -3.6144e-03,  1.2560e-03,  ..., -4.4746e-03,
+          1.9197e-03, -2.8849e-04],
+        [ 2.8152e-03,  8.3876e-04,  5.4741e-04,  ..., -6.0463e-03,
+         -3.6163e-03,  3.2330e-04],
+        [ 9.8109e-05,  1.5717e-03,  1.8730e-03,  ..., -2.9640e-03,
+         -1.3018e-03, -2.1744e-03]], device='cuda:0')
+Epoch 48, bias, value: tensor([-0.0320, -0.0053, -0.0049, -0.0058, -0.0070,  0.0049, -0.0082,  0.0229,
+        -0.0031,  0.0221], device='cuda:0'), grad: tensor([-0.0045,  0.0101,  0.0153, -0.0215, -0.0048, -0.0107,  0.0512, -0.0055,
+        -0.0188, -0.0108], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 47----------------------------------------------------
+epoch 47, time 214.59, cls_loss 0.8129 cls_loss_mapping 0.0470 cls_loss_causal 0.6799 re_mapping 0.0281 re_causal 0.0602 /// teacc 98.10 lr 0.00010000
+Epoch 49, weight, value: tensor([[-0.0860, -0.0326, -0.0047,  ..., -0.0040, -0.0467, -0.0483],
+        [ 0.0004, -0.0376,  0.0111,  ...,  0.0202,  0.0033, -0.0220],
+        [-0.0098, -0.0364, -0.0469,  ...,  0.0334, -0.0194, -0.0288],
+        ...,
+        [-0.0245,  0.0208,  0.0234,  ...,  0.0233, -0.0262, -0.0355],
+        [-0.0436, -0.0065,  0.0091,  ...,  0.0422, -0.0207, -0.0320],
+        [ 0.0214,  0.0327, -0.0124,  ..., -0.0631, -0.0345,  0.0018]],
+       device='cuda:0'), grad: tensor([[-4.8089e-04, -2.3019e-04,  6.3848e-04,  ...,  5.1117e-03,
+         -1.3542e-03,  1.7004e-03],
+        [-1.0490e-03, -3.2043e-03,  4.1080e-04,  ...,  8.3542e-04,
+          3.7217e-04,  8.4352e-04],
+        [ 4.9496e-04, -1.3151e-03,  5.0163e-04,  ...,  2.1725e-03,
+         -6.9022e-05,  8.9741e-04],
+        ...,
+        [ 4.6587e-04,  4.5586e-03, -5.0049e-03,  ..., -1.1368e-02,
+         -2.6340e-03, -4.5128e-03],
+        [ 1.0595e-03,  4.1428e-03,  1.6508e-03,  ...,  7.1640e-03,
+          1.1892e-03,  2.4834e-03],
+        [ 1.1158e-04, -1.0597e-02,  1.4534e-03,  ..., -8.6670e-03,
+         -3.8033e-03, -2.7618e-03]], device='cuda:0')
+Epoch 49, bias, value: tensor([-0.0326, -0.0059, -0.0051, -0.0057, -0.0065,  0.0051, -0.0082,  0.0235,
+        -0.0030,  0.0221], device='cuda:0'), grad: tensor([-0.0047,  0.0017, -0.0173,  0.0603, -0.0050,  0.0110,  0.0112, -0.0362,
+         0.0277, -0.0487], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 48, time 214.43, cls_loss 0.8233 cls_loss_mapping 0.0492 cls_loss_causal 0.7011 re_mapping 0.0268 re_causal 0.0577 /// teacc 98.07 lr 0.00010000
+Epoch 50, weight, value: tensor([[-0.0875, -0.0327, -0.0037,  ..., -0.0032, -0.0463, -0.0493],
+        [ 0.0002, -0.0368,  0.0112,  ...,  0.0200,  0.0037, -0.0227],
+        [-0.0103, -0.0358, -0.0476,  ...,  0.0331, -0.0199, -0.0292],
+        ...,
+        [-0.0244,  0.0204,  0.0229,  ...,  0.0230, -0.0264, -0.0361],
+        [-0.0432, -0.0061,  0.0091,  ...,  0.0415, -0.0219, -0.0328],
+        [ 0.0209,  0.0327, -0.0120,  ..., -0.0632, -0.0341,  0.0017]],
+       device='cuda:0'), grad: tensor([[ 2.6798e-04,  2.7344e-02,  2.4338e-03,  ...,  8.8882e-03,
+         -1.7273e-02,  3.6979e-04],
+        [ 2.4259e-05,  6.3705e-04,  3.0231e-04,  ..., -4.6577e-03,
+         -5.3024e-03,  1.2010e-04],
+        [ 1.3542e-04, -2.5749e-03,  1.5087e-03,  ..., -7.1640e-03,
+          2.1763e-03, -5.9280e-03],
+        ...,
+        [ 4.1723e-04,  1.2970e-03,  3.7308e-03,  ...,  2.7008e-03,
+          1.9875e-03,  3.1090e-04],
+        [ 2.4283e-04, -1.5554e-03,  2.4643e-03,  ..., -3.9215e-03,
+          8.4076e-03,  1.0014e-03],
+        [-7.6962e-04,  1.3023e-02, -4.9973e-03,  ..., -1.4448e-03,
+          2.3308e-03,  9.7418e-04]], device='cuda:0')
+Epoch 50, bias, value: tensor([-0.0325, -0.0064, -0.0049, -0.0055, -0.0069,  0.0054, -0.0086,  0.0239,
+        -0.0028,  0.0218], device='cuda:0'), grad: tensor([ 0.0400, -0.0173, -0.0263, -0.0039, -0.0309,  0.0224, -0.0040,  0.0287,
+         0.0004, -0.0091], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 49, time 214.38, cls_loss 0.8170 cls_loss_mapping 0.0397 cls_loss_causal 0.6892 re_mapping 0.0256 re_causal 0.0560 /// teacc 98.05 lr 0.00010000
+Epoch 51, weight, value: tensor([[-0.0880, -0.0334, -0.0031,  ..., -0.0035, -0.0462, -0.0492],
+        [ 0.0007, -0.0373,  0.0106,  ...,  0.0212,  0.0038, -0.0232],
+        [-0.0102, -0.0359, -0.0475,  ...,  0.0334, -0.0203, -0.0296],
+        ...,
+        [-0.0250,  0.0208,  0.0222,  ...,  0.0226, -0.0272, -0.0371],
+        [-0.0432, -0.0063,  0.0086,  ...,  0.0417, -0.0218, -0.0332],
+        [ 0.0198,  0.0323, -0.0137,  ..., -0.0634, -0.0333,  0.0020]],
+       device='cuda:0'), grad: tensor([[ 0.0003,  0.0093,  0.0001,  ...,  0.0058,  0.0020,  0.0016],
+        [ 0.0005,  0.0009,  0.0003,  ...,  0.0097,  0.0035,  0.0007],
+        [ 0.0025,  0.0020,  0.0007,  ...,  0.0007, -0.0028,  0.0036],
+        ...,
+        [-0.0006,  0.0014,  0.0005,  ...,  0.0028,  0.0012,  0.0019],
+        [-0.0022, -0.0153, -0.0009,  ..., -0.0057, -0.0006, -0.0017],
+        [ 0.0029, -0.0047,  0.0022,  ...,  0.0004,  0.0025, -0.0008]],
+       device='cuda:0')
+Epoch 51, bias, value: tensor([-0.0325, -0.0057, -0.0047, -0.0059, -0.0067,  0.0055, -0.0086,  0.0237,
+        -0.0030,  0.0214], device='cuda:0'), grad: tensor([ 0.0234,  0.0185,  0.0013, -0.0060, -0.0055,  0.0224, -0.0353,  0.0118,
+        -0.0395,  0.0088], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 50, time 214.57, cls_loss 0.7946 cls_loss_mapping 0.0390 cls_loss_causal 0.6636 re_mapping 0.0256 re_causal 0.0575 /// teacc 97.64 lr 0.00010000
+Epoch 52, weight, value: tensor([[-0.0888, -0.0334, -0.0033,  ..., -0.0046, -0.0468, -0.0504],
+        [ 0.0004, -0.0382,  0.0123,  ...,  0.0211,  0.0042, -0.0234],
+        [-0.0106, -0.0371, -0.0484,  ...,  0.0329, -0.0215, -0.0304],
+        ...,
+        [-0.0247,  0.0212,  0.0226,  ...,  0.0232, -0.0268, -0.0383],
+        [-0.0443, -0.0060,  0.0081,  ...,  0.0414, -0.0215, -0.0335],
+        [ 0.0199,  0.0325, -0.0131,  ..., -0.0630, -0.0324,  0.0030]],
+       device='cuda:0'), grad: tensor([[ 1.0080e-03,  2.2449e-03,  1.4668e-03,  ..., -1.9779e-03,
+         -4.7989e-03,  2.7084e-04],
+        [ 1.7214e-03, -3.8544e-02, -3.6031e-05,  ...,  4.8470e-04,
+          4.6120e-03,  1.1647e-04],
+        [-4.2343e-03, -3.1490e-03, -1.7023e-04,  ..., -7.0953e-03,
+          2.4796e-05,  6.7568e-04],
+        ...,
+        [-4.1084e-03, -2.2964e-03,  6.0606e-04,  ..., -1.6281e-02,
+         -2.3865e-02, -9.2010e-03],
+        [ 2.5005e-03,  7.8049e-03,  8.5545e-04,  ..., -2.2171e-02,
+         -1.1429e-02,  1.6136e-03],
+        [ 2.0523e-03,  2.1103e-02,  6.0425e-03,  ...,  1.0017e-02,
+          1.0757e-02,  9.4681e-03]], device='cuda:0')
+Epoch 52, bias, value: tensor([-0.0332, -0.0055, -0.0052, -0.0057, -0.0074,  0.0058, -0.0085,  0.0245,
+        -0.0029,  0.0214], device='cuda:0'), grad: tensor([-0.0018, -0.0228, -0.0305,  0.0493,  0.0329, -0.0140, -0.0288, -0.0645,
+        -0.0047,  0.0848], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 51, time 214.43, cls_loss 0.8064 cls_loss_mapping 0.0418 cls_loss_causal 0.6848 re_mapping 0.0254 re_causal 0.0569 /// teacc 97.99 lr 0.00010000
+Epoch 53, weight, value: tensor([[-0.0890, -0.0340, -0.0027,  ..., -0.0048, -0.0469, -0.0507],
+        [ 0.0005, -0.0381,  0.0129,  ...,  0.0217,  0.0043, -0.0251],
+        [-0.0110, -0.0371, -0.0498,  ...,  0.0333, -0.0221, -0.0315],
+        ...,
+        [-0.0258,  0.0215,  0.0230,  ...,  0.0225, -0.0263, -0.0392],
+        [-0.0448, -0.0057,  0.0071,  ...,  0.0416, -0.0217, -0.0350],
+        [ 0.0217,  0.0326, -0.0128,  ..., -0.0634, -0.0319,  0.0047]],
+       device='cuda:0'), grad: tensor([[ 1.4591e-04,  3.6716e-04,  1.4009e-03,  ...,  5.0964e-03,
+         -3.3661e-02,  1.3447e-04],
+        [ 1.9038e-04, -1.1349e-03,  2.2717e-03,  ..., -9.0027e-03,
+         -2.1515e-03,  7.1168e-05],
+        [ 1.4889e-04, -7.9880e-03,  3.1352e-04,  ...,  5.6686e-03,
+          5.7564e-03,  6.9427e-04],
+        ...,
+        [-5.0604e-05,  5.8556e-04,  6.8092e-04,  ...,  5.7106e-03,
+          6.9847e-03,  9.5427e-05],
+        [ 8.3876e-04, -3.0689e-03, -6.1722e-03,  ..., -2.6302e-03,
+         -6.5041e-04, -2.7809e-03],
+        [ 3.0947e-04,  5.9891e-04,  5.6419e-03,  ...,  5.4512e-03,
+          1.9882e-02,  7.1526e-04]], device='cuda:0')
+Epoch 53, bias, value: tensor([-0.0334, -0.0050, -0.0053, -0.0059, -0.0077,  0.0056, -0.0081,  0.0243,
+        -0.0025,  0.0214], device='cuda:0'), grad: tensor([ 0.0094, -0.0452,  0.0005,  0.0062, -0.0186,  0.0094, -0.0168,  0.0328,
+        -0.0213,  0.0436], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 52, time 214.53, cls_loss 0.7726 cls_loss_mapping 0.0404 cls_loss_causal 0.6513 re_mapping 0.0252 re_causal 0.0558 /// teacc 97.88 lr 0.00010000
+Epoch 54, weight, value: tensor([[-8.8468e-02, -3.3681e-02, -2.7028e-03,  ..., -4.1885e-03,
+         -4.5839e-02, -4.9988e-02],
+        [ 6.9997e-05, -3.8439e-02,  1.1607e-02,  ...,  2.1339e-02,
+          3.5160e-03, -2.5470e-02],
+        [-1.0773e-02, -3.6684e-02, -4.9982e-02,  ...,  3.3299e-02,
+         -2.2985e-02, -3.2814e-02],
+        ...,
+        [-2.5811e-02,  2.2059e-02,  2.1377e-02,  ...,  2.2945e-02,
+         -2.7185e-02, -3.9848e-02],
+        [-4.4911e-02, -5.4660e-03,  7.2780e-03,  ...,  4.1432e-02,
+         -2.2396e-02, -3.6457e-02],
+        [ 2.2130e-02,  3.2353e-02, -1.3004e-02,  ..., -6.3769e-02,
+         -3.1147e-02,  5.7734e-03]], device='cuda:0'), grad: tensor([[ 2.2662e-04, -7.6437e-04,  3.0398e-04,  ..., -8.5602e-03,
+         -9.6588e-03,  3.1590e-04],
+        [ 3.3569e-04, -1.5459e-03, -1.3771e-03,  ..., -2.1210e-02,
+         -9.6970e-03, -1.2894e-03],
+        [ 2.1231e-04,  1.0712e-02,  1.0519e-03,  ...,  1.9211e-02,
+          1.1131e-02,  1.5962e-04],
+        ...,
+        [ 2.7442e-04, -6.8970e-03,  2.1610e-03,  ...,  8.3113e-04,
+         -2.7084e-03,  1.9670e-04],
+        [ 2.4274e-05,  3.8433e-03,  1.2846e-03,  ...,  8.9264e-03,
+          6.7368e-03,  2.1820e-03],
+        [ 2.7905e-03, -1.1642e-02, -3.5267e-03,  ..., -1.6251e-02,
+          1.2980e-03,  3.6316e-03]], device='cuda:0')
+Epoch 54, bias, value: tensor([-0.0328, -0.0055, -0.0052, -0.0064, -0.0066,  0.0057, -0.0080,  0.0239,
+        -0.0029,  0.0214], device='cuda:0'), grad: tensor([-0.0087, -0.0604,  0.0672, -0.0056, -0.0033, -0.0065,  0.0342,  0.0003,
+         0.0103, -0.0274], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 53, time 214.59, cls_loss 0.7603 cls_loss_mapping 0.0368 cls_loss_causal 0.6423 re_mapping 0.0259 re_causal 0.0546 /// teacc 97.96 lr 0.00010000
+Epoch 55, weight, value: tensor([[-0.0890, -0.0338, -0.0034,  ..., -0.0045, -0.0458, -0.0500],
+        [ 0.0004, -0.0381,  0.0123,  ...,  0.0204,  0.0036, -0.0256],
+        [-0.0108, -0.0370, -0.0496,  ...,  0.0326, -0.0236, -0.0348],
+        ...,
+        [-0.0261,  0.0213,  0.0223,  ...,  0.0229, -0.0276, -0.0396],
+        [-0.0444, -0.0055,  0.0074,  ...,  0.0419, -0.0225, -0.0365],
+        [ 0.0223,  0.0335, -0.0135,  ..., -0.0640, -0.0299,  0.0047]],
+       device='cuda:0'), grad: tensor([[ 3.0351e-04,  1.3673e-04,  6.2799e-04,  ...,  7.6580e-04,
+          1.5259e-03,  2.3842e-04],
+        [ 4.7946e-04, -1.2789e-03,  1.6155e-03,  ...,  1.6332e-04,
+          1.7128e-03,  3.4189e-04],
+        [ 5.6839e-04, -1.6241e-03,  3.7694e-04,  ..., -4.9744e-03,
+         -2.8572e-03, -7.4005e-03],
+        ...,
+        [ 3.1109e-03, -5.4264e-04,  1.3790e-03,  ...,  9.3699e-05,
+          6.2180e-04,  2.4261e-03],
+        [ 7.1049e-04,  1.5182e-03,  7.1621e-04,  ...,  1.5097e-03,
+          3.3035e-03,  1.1358e-03],
+        [ 1.2274e-03,  1.1247e-04,  2.2335e-03,  ...,  1.5907e-03,
+          2.9545e-03,  1.2674e-03]], device='cuda:0')
+Epoch 55, bias, value: tensor([-0.0331, -0.0054, -0.0057, -0.0062, -0.0066,  0.0053, -0.0074,  0.0240,
+        -0.0025,  0.0212], device='cuda:0'), grad: tensor([-0.0090,  0.0088, -0.0431, -0.0127, -0.0019, -0.0073,  0.0102,  0.0156,
+         0.0202,  0.0192], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 54, time 214.47, cls_loss 0.7830 cls_loss_mapping 0.0383 cls_loss_causal 0.6575 re_mapping 0.0249 re_causal 0.0555 /// teacc 97.76 lr 0.00010000
+Epoch 56, weight, value: tensor([[-0.0900, -0.0346, -0.0026,  ..., -0.0040, -0.0436, -0.0500],
+        [-0.0002, -0.0373,  0.0115,  ...,  0.0203,  0.0039, -0.0254],
+        [-0.0107, -0.0376, -0.0505,  ...,  0.0324, -0.0247, -0.0362],
+        ...,
+        [-0.0265,  0.0219,  0.0225,  ...,  0.0232, -0.0278, -0.0407],
+        [-0.0461, -0.0060,  0.0083,  ...,  0.0424, -0.0229, -0.0364],
+        [ 0.0227,  0.0337, -0.0141,  ..., -0.0652, -0.0306,  0.0063]],
+       device='cuda:0'), grad: tensor([[ 0.0013,  0.0063,  0.0012,  ...,  0.0022,  0.0030,  0.0020],
+        [ 0.0047,  0.0155, -0.0019,  ..., -0.0110, -0.0011,  0.0072],
+        [ 0.0040,  0.0019,  0.0019,  ...,  0.0044,  0.0030,  0.0011],
+        ...,
+        [ 0.0030,  0.0085,  0.0036,  ...,  0.0020,  0.0077,  0.0015],
+        [-0.0136,  0.0023, -0.0013,  ..., -0.0069,  0.0023,  0.0082],
+        [-0.0076, -0.0453,  0.0004,  ...,  0.0037,  0.0043, -0.0057]],
+       device='cuda:0')
+Epoch 56, bias, value: tensor([-0.0328, -0.0053, -0.0055, -0.0058, -0.0063,  0.0055, -0.0079,  0.0237,
+        -0.0025,  0.0205], device='cuda:0'), grad: tensor([ 0.0186,  0.0350,  0.0211, -0.0557,  0.0060, -0.0047, -0.0177,  0.0283,
+         0.0041, -0.0351], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 55, time 214.51, cls_loss 0.8051 cls_loss_mapping 0.0350 cls_loss_causal 0.6857 re_mapping 0.0249 re_causal 0.0568 /// teacc 97.78 lr 0.00010000
+Epoch 57, weight, value: tensor([[-0.0889, -0.0341, -0.0033,  ..., -0.0044, -0.0437, -0.0502],
+        [-0.0010, -0.0378,  0.0123,  ...,  0.0202,  0.0036, -0.0265],
+        [-0.0125, -0.0378, -0.0506,  ...,  0.0337, -0.0242, -0.0365],
+        ...,
+        [-0.0273,  0.0214,  0.0235,  ...,  0.0230, -0.0277, -0.0413],
+        [-0.0455, -0.0058,  0.0083,  ...,  0.0428, -0.0230, -0.0384],
+        [ 0.0236,  0.0340, -0.0148,  ..., -0.0653, -0.0310,  0.0077]],
+       device='cuda:0'), grad: tensor([[ 0.0052, -0.0012,  0.0006,  ...,  0.0026,  0.0005,  0.0013],
+        [ 0.0064, -0.0004,  0.0022,  ..., -0.0022, -0.0003, -0.0018],
+        [ 0.0024,  0.0008,  0.0013,  ...,  0.0034,  0.0010,  0.0018],
+        ...,
+        [ 0.0002, -0.0118, -0.0066,  ..., -0.0036, -0.0090,  0.0013],
+        [-0.0104, -0.0013, -0.0109,  ...,  0.0014,  0.0012, -0.0062],
+        [ 0.0148,  0.0085,  0.0127,  ...,  0.0094,  0.0020,  0.0072]],
+       device='cuda:0')
+Epoch 57, bias, value: tensor([-0.0331, -0.0054, -0.0047, -0.0066, -0.0056,  0.0057, -0.0079,  0.0237,
+        -0.0031,  0.0207], device='cuda:0'), grad: tensor([-0.0099,  0.0100, -0.0044, -0.0481,  0.0069, -0.0243,  0.0095,  0.0034,
+        -0.0149,  0.0718], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 56, time 214.45, cls_loss 0.7843 cls_loss_mapping 0.0334 cls_loss_causal 0.6632 re_mapping 0.0246 re_causal 0.0553 /// teacc 98.01 lr 0.00010000
+Epoch 58, weight, value: tensor([[-0.0904, -0.0335, -0.0039,  ..., -0.0046, -0.0444, -0.0506],
+        [-0.0023, -0.0382,  0.0121,  ...,  0.0207,  0.0038, -0.0270],
+        [-0.0118, -0.0386, -0.0509,  ...,  0.0332, -0.0246, -0.0378],
+        ...,
+        [-0.0273,  0.0218,  0.0252,  ...,  0.0219, -0.0278, -0.0419],
+        [-0.0459, -0.0058,  0.0093,  ...,  0.0431, -0.0225, -0.0391],
+        [ 0.0243,  0.0338, -0.0160,  ..., -0.0661, -0.0314,  0.0093]],
+       device='cuda:0'), grad: tensor([[ 0.0012,  0.0002,  0.0017,  ...,  0.0042,  0.0014,  0.0004],
+        [ 0.0002,  0.0004,  0.0005,  ...,  0.0057,  0.0013,  0.0002],
+        [ 0.0012,  0.0007,  0.0002,  ...,  0.0009,  0.0013,  0.0014],
+        ...,
+        [ 0.0009,  0.0022,  0.0028,  ..., -0.0050, -0.0011,  0.0003],
+        [ 0.0118, -0.0297,  0.0023,  ..., -0.0331, -0.0026,  0.0037],
+        [-0.0138,  0.0106, -0.0105,  ...,  0.0089, -0.0023, -0.0050]],
+       device='cuda:0')
+Epoch 58, bias, value: tensor([-0.0333, -0.0048, -0.0050, -0.0069, -0.0053,  0.0062, -0.0078,  0.0237,
+        -0.0033,  0.0200], device='cuda:0'), grad: tensor([ 0.0278,  0.0327,  0.0107, -0.0801,  0.0414,  0.0250, -0.0066,  0.0126,
+         0.0048, -0.0684], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 57----------------------------------------------------
+epoch 57, time 215.08, cls_loss 0.7821 cls_loss_mapping 0.0385 cls_loss_causal 0.6566 re_mapping 0.0242 re_causal 0.0518 /// teacc 98.22 lr 0.00010000
+Epoch 59, weight, value: tensor([[-0.0912, -0.0337, -0.0032,  ..., -0.0048, -0.0447, -0.0521],
+        [-0.0020, -0.0392,  0.0136,  ...,  0.0207,  0.0044, -0.0267],
+        [-0.0121, -0.0385, -0.0519,  ...,  0.0339, -0.0242, -0.0384],
+        ...,
+        [-0.0273,  0.0226,  0.0253,  ...,  0.0226, -0.0282, -0.0429],
+        [-0.0453, -0.0064,  0.0098,  ...,  0.0435, -0.0221, -0.0397],
+        [ 0.0242,  0.0337, -0.0166,  ..., -0.0677, -0.0314,  0.0091]],
+       device='cuda:0'), grad: tensor([[ 2.4772e-04,  2.3727e-03,  3.8087e-05,  ...,  5.8746e-03,
+          1.1749e-03,  7.3385e-04],
+        [ 1.2094e-04, -2.5520e-03, -1.4532e-04,  ...,  8.9836e-04,
+         -3.8567e-03, -2.3329e-04],
+        [ 2.1768e-04,  2.6550e-03,  2.8238e-05,  ...,  5.6953e-03,
+         -4.0531e-04,  1.0751e-05],
+        ...,
+        [ 2.6584e-04, -1.6754e-02,  2.0429e-05,  ..., -1.5297e-02,
+         -5.5084e-03, -4.9362e-03],
+        [ 8.8501e-04,  2.3613e-03,  6.9201e-05,  ..., -1.9119e-02,
+          2.5597e-03,  1.5631e-03],
+        [ 2.6241e-05,  3.1986e-03,  1.8612e-05,  ...,  3.1128e-03,
+          1.2722e-03,  1.3361e-03]], device='cuda:0')
+Epoch 59, bias, value: tensor([-0.0336, -0.0042, -0.0044, -0.0069, -0.0048,  0.0063, -0.0089,  0.0241,
+        -0.0039,  0.0200], device='cuda:0'), grad: tensor([ 0.0289, -0.0181,  0.0252,  0.0406,  0.0155,  0.0132, -0.0375, -0.0382,
+        -0.0257, -0.0039], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 58, time 214.23, cls_loss 0.7289 cls_loss_mapping 0.0306 cls_loss_causal 0.6184 re_mapping 0.0238 re_causal 0.0519 /// teacc 98.13 lr 0.00010000
+Epoch 60, weight, value: tensor([[-0.0912, -0.0333, -0.0038,  ..., -0.0053, -0.0444, -0.0537],
+        [-0.0026, -0.0392,  0.0139,  ...,  0.0210,  0.0041, -0.0278],
+        [-0.0131, -0.0384, -0.0526,  ...,  0.0348, -0.0245, -0.0393],
+        ...,
+        [-0.0265,  0.0224,  0.0249,  ...,  0.0222, -0.0286, -0.0415],
+        [-0.0452, -0.0068,  0.0103,  ...,  0.0436, -0.0225, -0.0402],
+        [ 0.0246,  0.0341, -0.0165,  ..., -0.0682, -0.0305,  0.0097]],
+       device='cuda:0'), grad: tensor([[ 0.0006,  0.0007,  0.0001,  ...,  0.0092,  0.0007,  0.0004],
+        [ 0.0014,  0.0022,  0.0002,  ...,  0.0090,  0.0009,  0.0008],
+        [ 0.0015, -0.0001,  0.0003,  ...,  0.0062, -0.0016,  0.0002],
+        ...,
+        [ 0.0001,  0.0162,  0.0005,  ...,  0.0106,  0.0017,  0.0029],
+        [ 0.0013,  0.0011, -0.0013,  ...,  0.0037,  0.0011, -0.0022],
+        [-0.0021,  0.0180, -0.0003,  ..., -0.0087, -0.0025, -0.0007]],
+       device='cuda:0')
+Epoch 60, bias, value: tensor([-0.0344, -0.0043, -0.0041, -0.0066, -0.0053,  0.0063, -0.0092,  0.0244,
+        -0.0034,  0.0202], device='cuda:0'), grad: tensor([ 0.0220,  0.0327,  0.0075, -0.0403, -0.1123,  0.0340,  0.0195,  0.0390,
+         0.0164, -0.0185], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 59, time 214.30, cls_loss 0.7548 cls_loss_mapping 0.0394 cls_loss_causal 0.6445 re_mapping 0.0237 re_causal 0.0520 /// teacc 98.12 lr 0.00010000
+Epoch 61, weight, value: tensor([[-0.0911, -0.0331, -0.0042,  ..., -0.0049, -0.0447, -0.0541],
+        [-0.0033, -0.0391,  0.0140,  ...,  0.0216,  0.0044, -0.0284],
+        [-0.0134, -0.0387, -0.0532,  ...,  0.0347, -0.0242, -0.0395],
+        ...,
+        [-0.0261,  0.0212,  0.0252,  ...,  0.0224, -0.0285, -0.0417],
+        [-0.0459, -0.0064,  0.0114,  ...,  0.0439, -0.0231, -0.0410],
+        [ 0.0248,  0.0345, -0.0165,  ..., -0.0668, -0.0288,  0.0098]],
+       device='cuda:0'), grad: tensor([[-7.3242e-03,  4.5700e-03, -7.8278e-03,  ...,  6.3858e-03,
+          2.1038e-03,  2.8715e-05],
+        [-2.7828e-03,  8.2684e-04, -1.6956e-03,  ..., -6.5308e-03,
+          1.0658e-02,  7.5877e-05],
+        [ 4.3750e-04,  7.1411e-03,  1.2350e-04,  ...,  8.6670e-03,
+          7.4339e-04,  6.6757e-05],
+        ...,
+        [ 8.3876e-04, -1.8520e-03,  5.0831e-04,  ..., -3.1319e-03,
+          1.1644e-03,  1.4186e-04],
+        [ 1.9855e-03, -1.8204e-02,  1.1692e-03,  ..., -7.6370e-03,
+         -1.4702e-02,  1.2732e-04],
+        [ 6.8903e-04,  1.3893e-02,  3.2845e-03,  ...,  9.5749e-03,
+          5.4693e-04,  7.5674e-04]], device='cuda:0')
+Epoch 61, bias, value: tensor([-0.0341, -0.0037, -0.0039, -0.0071, -0.0064,  0.0058, -0.0092,  0.0244,
+        -0.0037,  0.0214], device='cuda:0'), grad: tensor([ 0.0159, -0.0295,  0.0248,  0.0034, -0.0136, -0.0361,  0.0132, -0.0096,
+        -0.0078,  0.0393], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 60, time 220.81, cls_loss 0.7612 cls_loss_mapping 0.0345 cls_loss_causal 0.6546 re_mapping 0.0236 re_causal 0.0535 /// teacc 97.93 lr 0.00010000
+Epoch 62, weight, value: tensor([[-0.0918, -0.0323, -0.0044,  ..., -0.0035, -0.0437, -0.0554],
+        [-0.0028, -0.0376,  0.0145,  ...,  0.0213,  0.0043, -0.0293],
+        [-0.0147, -0.0395, -0.0534,  ...,  0.0354, -0.0248, -0.0405],
+        ...,
+        [-0.0256,  0.0218,  0.0254,  ...,  0.0228, -0.0288, -0.0419],
+        [-0.0463, -0.0066,  0.0118,  ...,  0.0432, -0.0231, -0.0426],
+        [ 0.0241,  0.0350, -0.0176,  ..., -0.0673, -0.0293,  0.0114]],
+       device='cuda:0'), grad: tensor([[ 4.5204e-04,  1.2374e-04,  6.2180e-04,  ...,  4.7541e-04,
+          1.1748e-04,  2.0170e-04],
+        [ 6.1798e-04,  3.7730e-05,  6.8998e-04,  ..., -7.3204e-03,
+         -2.4796e-03,  3.7217e-04],
+        [ 2.3961e-04,  1.1802e-04,  3.3307e-04,  ...,  7.1430e-04,
+          1.2016e-04,  2.7966e-04],
+        ...,
+        [ 5.8222e-04, -2.0981e-03,  6.5517e-04,  ..., -5.1403e-04,
+          1.4937e-04,  4.1795e-04],
+        [-4.2038e-03, -4.2939e-04, -6.4392e-03,  ..., -2.8114e-03,
+          1.6165e-03, -5.9853e-03],
+        [ 1.0624e-03,  2.9583e-03,  3.3398e-03,  ...,  2.7409e-03,
+          1.2660e-04,  1.5764e-03]], device='cuda:0')
+Epoch 62, bias, value: tensor([-0.0339, -0.0042, -0.0035, -0.0066, -0.0063,  0.0058, -0.0094,  0.0241,
+        -0.0039,  0.0214], device='cuda:0'), grad: tensor([ 0.0063, -0.0310,  0.0052,  0.0171, -0.0114,  0.0171, -0.0043,  0.0076,
+        -0.0253,  0.0186], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 61, time 216.06, cls_loss 0.7601 cls_loss_mapping 0.0276 cls_loss_causal 0.6473 re_mapping 0.0227 re_causal 0.0501 /// teacc 98.08 lr 0.00010000
+Epoch 63, weight, value: tensor([[-0.0923, -0.0325, -0.0044,  ..., -0.0037, -0.0433, -0.0553],
+        [-0.0021, -0.0368,  0.0149,  ...,  0.0209,  0.0041, -0.0289],
+        [-0.0149, -0.0389, -0.0545,  ...,  0.0349, -0.0247, -0.0393],
+        ...,
+        [-0.0265,  0.0222,  0.0253,  ...,  0.0230, -0.0300, -0.0424],
+        [-0.0474, -0.0075,  0.0121,  ...,  0.0436, -0.0222, -0.0437],
+        [ 0.0245,  0.0343, -0.0181,  ..., -0.0665, -0.0275,  0.0109]],
+       device='cuda:0'), grad: tensor([[-2.2125e-03,  2.6150e-03, -2.5845e-03,  ...,  2.6464e-05,
+          2.0695e-03,  4.0317e-04],
+        [ 5.5981e-04, -1.2722e-03,  2.2278e-03,  ...,  1.1606e-03,
+          8.8978e-04,  7.6771e-04],
+        [-3.4409e-03,  9.5701e-04, -2.5520e-03,  ...,  2.0468e-04,
+         -2.4319e-03,  2.0981e-04],
+        ...,
+        [ 2.0933e-04,  3.9062e-03,  1.4563e-03,  ..., -1.7524e-05,
+         -4.0507e-04,  9.4795e-04],
+        [ 1.8673e-03, -1.8940e-03,  3.6278e-03,  ..., -6.1417e-03,
+         -2.3537e-03, -2.4776e-03],
+        [ 9.4223e-04, -9.1629e-03, -1.2436e-02,  ..., -3.5591e-03,
+         -7.3090e-03, -1.0042e-03]], device='cuda:0')
+Epoch 63, bias, value: tensor([-0.0337, -0.0044, -0.0034, -0.0064, -0.0063,  0.0052, -0.0092,  0.0243,
+        -0.0039,  0.0213], device='cuda:0'), grad: tensor([-0.0202,  0.0049, -0.0081,  0.0502, -0.0038,  0.0300, -0.0081,  0.0055,
+         0.0003, -0.0507], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 62, time 214.53, cls_loss 0.7777 cls_loss_mapping 0.0336 cls_loss_causal 0.6719 re_mapping 0.0227 re_causal 0.0507 /// teacc 98.00 lr 0.00010000
+Epoch 64, weight, value: tensor([[-0.0929, -0.0326, -0.0045,  ..., -0.0036, -0.0439, -0.0558],
+        [-0.0033, -0.0375,  0.0148,  ...,  0.0212,  0.0034, -0.0298],
+        [-0.0139, -0.0389, -0.0559,  ...,  0.0355, -0.0253, -0.0402],
+        ...,
+        [-0.0265,  0.0219,  0.0267,  ...,  0.0226, -0.0293, -0.0422],
+        [-0.0486, -0.0073,  0.0127,  ...,  0.0440, -0.0218, -0.0444],
+        [ 0.0238,  0.0348, -0.0195,  ..., -0.0670, -0.0275,  0.0107]],
+       device='cuda:0'), grad: tensor([[ 1.2722e-03, -2.6840e-02,  2.8777e-04,  ...,  4.5624e-03,
+          8.7118e-04, -2.9507e-03],
+        [ 5.4741e-04,  8.3566e-05,  5.0735e-04,  ...,  3.7708e-03,
+          2.2297e-03,  4.2892e-04],
+        [ 1.0004e-03,  1.4362e-03,  1.9026e-03,  ...,  1.8738e-02,
+          1.3451e-02,  3.7861e-03],
+        ...,
+        [ 1.0557e-03,  2.9707e-04,  1.3840e-04,  ..., -3.2837e-02,
+         -1.6464e-02,  3.7241e-04],
+        [-4.7188e-03, -4.8447e-04, -3.3054e-03,  ...,  3.1395e-03,
+          3.0746e-03, -3.8490e-03],
+        [-1.1263e-03,  8.4152e-03,  6.7139e-04,  ...,  4.8180e-03,
+          2.5291e-03,  1.5545e-03]], device='cuda:0')
+Epoch 64, bias, value: tensor([-0.0338, -0.0044, -0.0025, -0.0065, -0.0061,  0.0053, -0.0096,  0.0245,
+        -0.0042,  0.0210], device='cuda:0'), grad: tensor([ 0.0228,  0.0227, -0.0147,  0.0184, -0.0229, -0.0001, -0.0078, -0.0287,
+        -0.0141,  0.0245], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 63----------------------------------------------------
+epoch 63, time 215.12, cls_loss 0.7441 cls_loss_mapping 0.0345 cls_loss_causal 0.6407 re_mapping 0.0233 re_causal 0.0516 /// teacc 98.23 lr 0.00010000
+Epoch 65, weight, value: tensor([[-0.0943, -0.0325, -0.0046,  ..., -0.0039, -0.0433, -0.0567],
+        [-0.0023, -0.0380,  0.0150,  ...,  0.0205,  0.0028, -0.0300],
+        [-0.0151, -0.0385, -0.0559,  ...,  0.0366, -0.0253, -0.0413],
+        ...,
+        [-0.0273,  0.0216,  0.0261,  ...,  0.0228, -0.0283, -0.0437],
+        [-0.0493, -0.0075,  0.0120,  ...,  0.0433, -0.0221, -0.0452],
+        [ 0.0246,  0.0349, -0.0194,  ..., -0.0682, -0.0290,  0.0124]],
+       device='cuda:0'), grad: tensor([[-1.1176e-06, -2.4948e-03,  1.6034e-04,  ...,  2.2945e-03,
+          5.4169e-04,  5.6362e-04],
+        [ 1.8919e-04,  9.5034e-04,  3.1137e-04,  ...,  5.1231e-03,
+          4.0579e-04,  3.6621e-04],
+        [ 5.4407e-04,  2.5597e-03,  5.3644e-04,  ..., -5.4245e-03,
+          6.9284e-04,  1.1177e-03],
+        ...,
+        [ 2.8496e-03, -4.1733e-03,  2.2564e-03,  ...,  1.3866e-03,
+          3.6335e-04,  1.4162e-03],
+        [ 2.0266e-05,  1.8530e-03, -5.6171e-04,  ..., -7.3700e-03,
+          5.6410e-04, -9.4604e-04],
+        [-6.0501e-03,  9.4080e-04, -5.0735e-03,  ...,  3.1223e-03,
+          6.9094e-04, -2.7828e-03]], device='cuda:0')
+Epoch 65, bias, value: tensor([-0.0339, -0.0050, -0.0027, -0.0061, -0.0057,  0.0054, -0.0089,  0.0243,
+        -0.0044,  0.0205], device='cuda:0'), grad: tensor([ 0.0140,  0.0206, -0.0113,  0.0289,  0.0242, -0.0159, -0.0409,  0.0151,
+        -0.0316, -0.0031], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 64----------------------------------------------------
+epoch 64, time 215.34, cls_loss 0.7265 cls_loss_mapping 0.0313 cls_loss_causal 0.6048 re_mapping 0.0230 re_causal 0.0493 /// teacc 98.31 lr 0.00010000
+Epoch 66, weight, value: tensor([[-0.0955, -0.0322, -0.0043,  ..., -0.0052, -0.0446, -0.0576],
+        [-0.0023, -0.0375,  0.0153,  ...,  0.0203,  0.0021, -0.0296],
+        [-0.0159, -0.0389, -0.0564,  ...,  0.0371, -0.0260, -0.0428],
+        ...,
+        [-0.0277,  0.0210,  0.0251,  ...,  0.0229, -0.0287, -0.0451],
+        [-0.0490, -0.0076,  0.0122,  ...,  0.0444, -0.0230, -0.0452],
+        [ 0.0256,  0.0347, -0.0200,  ..., -0.0687, -0.0292,  0.0130]],
+       device='cuda:0'), grad: tensor([[ 5.5027e-04,  3.5632e-06,  5.5361e-04,  ...,  1.9426e-03,
+          4.4155e-04, -1.3132e-03],
+        [-5.7487e-03, -3.9905e-05,  5.3167e-04,  ..., -2.9316e-03,
+          1.1196e-03,  4.3660e-05],
+        [-2.0516e-04,  2.5654e-04, -3.0365e-03,  ..., -5.8136e-03,
+         -4.5180e-04,  1.5187e-04],
+        ...,
+        [ 1.0052e-03, -1.0759e-05,  2.3956e-03,  ..., -4.0627e-03,
+          1.1319e-04, -2.2781e-04],
+        [ 5.7106e-03, -3.1114e-04,  1.6003e-03,  ...,  4.4975e-03,
+          6.3229e-04,  2.1877e-03],
+        [ 9.7561e-04,  1.0327e-05,  1.6356e-03,  ...,  2.3594e-03,
+          2.5272e-04,  3.8767e-04]], device='cuda:0')
+Epoch 66, bias, value: tensor([-0.0347, -0.0049, -0.0024, -0.0067, -0.0054,  0.0057, -0.0092,  0.0242,
+        -0.0041,  0.0210], device='cuda:0'), grad: tensor([ 0.0030, -0.0244, -0.0194,  0.0130,  0.0152, -0.0308, -0.0040, -0.0077,
+         0.0372,  0.0178], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 65, time 214.63, cls_loss 0.7399 cls_loss_mapping 0.0310 cls_loss_causal 0.6237 re_mapping 0.0236 re_causal 0.0521 /// teacc 98.10 lr 0.00010000
+Epoch 67, weight, value: tensor([[-0.0963, -0.0310, -0.0046,  ..., -0.0055, -0.0462, -0.0578],
+        [-0.0026, -0.0383,  0.0151,  ...,  0.0204,  0.0023, -0.0300],
+        [-0.0162, -0.0395, -0.0556,  ...,  0.0374, -0.0243, -0.0432],
+        ...,
+        [-0.0281,  0.0207,  0.0253,  ...,  0.0225, -0.0274, -0.0463],
+        [-0.0492, -0.0078,  0.0117,  ...,  0.0448, -0.0231, -0.0464],
+        [ 0.0260,  0.0357, -0.0203,  ..., -0.0693, -0.0304,  0.0133]],
+       device='cuda:0'), grad: tensor([[-6.1531e-03,  2.9898e-04, -9.3918e-03,  ..., -2.9812e-03,
+          3.8147e-04, -4.3945e-03],
+        [ 2.6817e-03,  7.9107e-04,  1.0729e-03,  ..., -3.4122e-03,
+          1.4963e-03,  6.1703e-04],
+        [-1.5068e-03,  1.0711e-04,  4.8280e-05,  ..., -9.4681e-03,
+         -3.5648e-03, -4.2763e-03],
+        ...,
+        [-1.5839e-02, -3.7022e-03,  2.5558e-04,  ...,  9.3341e-05,
+          4.3154e-05, -3.6125e-03],
+        [ 3.7346e-03,  8.6069e-04,  3.3321e-03,  ...,  4.4441e-03,
+          1.7691e-03,  2.7523e-03],
+        [ 2.2217e-02,  2.5272e-03,  1.4849e-03,  ...,  1.7271e-03,
+          2.0847e-03,  1.0078e-02]], device='cuda:0')
+Epoch 67, bias, value: tensor([-0.0349, -0.0051, -0.0020, -0.0066, -0.0057,  0.0055, -0.0095,  0.0243,
+        -0.0040,  0.0215], device='cuda:0'), grad: tensor([-0.0208, -0.0102, -0.0264,  0.0203,  0.0033, -0.0177,  0.0177, -0.0271,
+         0.0281,  0.0327], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 66, time 214.16, cls_loss 0.7268 cls_loss_mapping 0.0279 cls_loss_causal 0.6242 re_mapping 0.0230 re_causal 0.0521 /// teacc 97.99 lr 0.00010000
+Epoch 68, weight, value: tensor([[-0.0948, -0.0315, -0.0039,  ..., -0.0046, -0.0465, -0.0570],
+        [-0.0025, -0.0384,  0.0149,  ...,  0.0207,  0.0022, -0.0300],
+        [-0.0173, -0.0402, -0.0560,  ...,  0.0366, -0.0246, -0.0430],
+        ...,
+        [-0.0281,  0.0206,  0.0241,  ...,  0.0229, -0.0268, -0.0470],
+        [-0.0497, -0.0071,  0.0115,  ...,  0.0455, -0.0231, -0.0481],
+        [ 0.0257,  0.0364, -0.0198,  ..., -0.0696, -0.0296,  0.0140]],
+       device='cuda:0'), grad: tensor([[ 0.0015,  0.0028,  0.0004,  ...,  0.0076, -0.0056,  0.0028],
+        [-0.0025,  0.0012,  0.0005,  ..., -0.0071,  0.0014,  0.0004],
+        [-0.0034, -0.0231,  0.0002,  ..., -0.0194,  0.0004, -0.0022],
+        ...,
+        [-0.0029,  0.0153, -0.0057,  ...,  0.0134,  0.0031, -0.0038],
+        [ 0.0032,  0.0027, -0.0007,  ...,  0.0065,  0.0018,  0.0007],
+        [-0.0007, -0.0096, -0.0043,  ...,  0.0098,  0.0005,  0.0007]],
+       device='cuda:0')
+Epoch 68, bias, value: tensor([-0.0337, -0.0046, -0.0026, -0.0068, -0.0059,  0.0049, -0.0089,  0.0243,
+        -0.0040,  0.0209], device='cuda:0'), grad: tensor([ 1.9089e-02, -5.8563e-02, -7.7209e-02,  9.9640e-03,  1.3161e-02,
+         6.3106e-06,  5.3482e-03,  3.3020e-02,  3.4454e-02,  2.0676e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 67, time 214.37, cls_loss 0.7422 cls_loss_mapping 0.0268 cls_loss_causal 0.6226 re_mapping 0.0225 re_causal 0.0484 /// teacc 98.07 lr 0.00010000
+Epoch 69, weight, value: tensor([[-0.0950, -0.0321, -0.0024,  ..., -0.0057, -0.0480, -0.0574],
+        [-0.0024, -0.0387,  0.0144,  ...,  0.0208,  0.0009, -0.0309],
+        [-0.0167, -0.0401, -0.0573,  ...,  0.0374, -0.0239, -0.0430],
+        ...,
+        [-0.0287,  0.0217,  0.0239,  ...,  0.0238, -0.0271, -0.0477],
+        [-0.0518, -0.0065,  0.0119,  ...,  0.0452, -0.0210, -0.0495],
+        [ 0.0267,  0.0360, -0.0199,  ..., -0.0699, -0.0285,  0.0153]],
+       device='cuda:0'), grad: tensor([[-6.6986e-03, -4.3106e-03, -1.7242e-02,  ..., -1.5991e-02,
+         -8.0948e-03, -2.5940e-03],
+        [ 1.1057e-04,  3.8795e-03,  3.5362e-03,  ...,  7.9193e-03,
+          5.0011e-03,  2.9474e-05],
+        [ 1.0509e-03,  2.3441e-03,  1.5955e-03,  ...,  7.9422e-03,
+          1.9050e-04,  1.7023e-04],
+        ...,
+        [ 3.6449e-03,  1.8112e-02, -3.2349e-03,  ...,  1.2642e-02,
+         -6.8398e-03,  1.8091e-03],
+        [ 2.2850e-03, -3.5973e-03, -2.1343e-03,  ..., -1.0773e-02,
+         -2.4548e-03,  3.5930e-04],
+        [ 1.0614e-03, -2.9877e-02,  6.4354e-03,  ...,  4.1351e-03,
+          6.0463e-03, -8.9407e-05]], device='cuda:0')
+Epoch 69, bias, value: tensor([-0.0346, -0.0046, -0.0013, -0.0079, -0.0064,  0.0054, -0.0088,  0.0246,
+        -0.0042,  0.0213], device='cuda:0'), grad: tensor([-0.0509,  0.0246,  0.0118,  0.0177,  0.0176, -0.0733, -0.0080,  0.0390,
+         0.0016,  0.0198], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 68, time 214.33, cls_loss 0.7552 cls_loss_mapping 0.0342 cls_loss_causal 0.6409 re_mapping 0.0225 re_causal 0.0480 /// teacc 98.23 lr 0.00010000
+Epoch 70, weight, value: tensor([[-0.0945, -0.0326, -0.0021,  ..., -0.0059, -0.0484, -0.0582],
+        [-0.0029, -0.0382,  0.0138,  ...,  0.0212,  0.0002, -0.0325],
+        [-0.0160, -0.0398, -0.0572,  ...,  0.0376, -0.0245, -0.0440],
+        ...,
+        [-0.0291,  0.0216,  0.0257,  ...,  0.0227, -0.0267, -0.0480],
+        [-0.0525, -0.0070,  0.0117,  ...,  0.0451, -0.0191, -0.0509],
+        [ 0.0275,  0.0367, -0.0213,  ..., -0.0705, -0.0295,  0.0175]],
+       device='cuda:0'), grad: tensor([[ 0.0033,  0.0007,  0.0023,  ..., -0.0238, -0.0017,  0.0001],
+        [ 0.0005,  0.0004,  0.0014,  ...,  0.0130,  0.0023,  0.0003],
+        [ 0.0061,  0.0006,  0.0050,  ...,  0.0204,  0.0042,  0.0025],
+        ...,
+        [ 0.0163,  0.0225,  0.0013,  ...,  0.0089,  0.0023,  0.0090],
+        [ 0.0028, -0.0190, -0.0099,  ...,  0.0020, -0.0051,  0.0023],
+        [ 0.0018, -0.0030, -0.0037,  ..., -0.0082, -0.0045, -0.0048]],
+       device='cuda:0')
+Epoch 70, bias, value: tensor([-0.0350, -0.0047, -0.0012, -0.0070, -0.0066,  0.0055, -0.0086,  0.0249,
+        -0.0048,  0.0210], device='cuda:0'), grad: tensor([-0.0612,  0.0424,  0.0770, -0.0321,  0.0511, -0.0486, -0.0115,  0.0160,
+        -0.0135, -0.0196], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 69, time 214.27, cls_loss 0.7782 cls_loss_mapping 0.0246 cls_loss_causal 0.6577 re_mapping 0.0219 re_causal 0.0499 /// teacc 98.21 lr 0.00010000
+Epoch 71, weight, value: tensor([[-0.0959, -0.0328, -0.0031,  ..., -0.0057, -0.0492, -0.0599],
+        [-0.0031, -0.0384,  0.0124,  ...,  0.0224, -0.0005, -0.0321],
+        [-0.0164, -0.0399, -0.0562,  ...,  0.0376, -0.0228, -0.0447],
+        ...,
+        [-0.0295,  0.0215,  0.0260,  ...,  0.0231, -0.0274, -0.0494],
+        [-0.0526, -0.0067,  0.0121,  ...,  0.0445, -0.0196, -0.0514],
+        [ 0.0278,  0.0372, -0.0213,  ..., -0.0707, -0.0292,  0.0181]],
+       device='cuda:0'), grad: tensor([[ 0.0190,  0.0006,  0.0004,  ...,  0.0051,  0.0108,  0.0005],
+        [ 0.0002,  0.0003, -0.0029,  ..., -0.0064, -0.0111,  0.0003],
+        [ 0.0008,  0.0006,  0.0006,  ...,  0.0038,  0.0032,  0.0009],
+        ...,
+        [ 0.0022,  0.0007,  0.0028,  ...,  0.0032,  0.0022,  0.0023],
+        [ 0.0021,  0.0005,  0.0010,  ...,  0.0039,  0.0024,  0.0019],
+        [ 0.0012,  0.0012, -0.0003,  ...,  0.0052,  0.0038,  0.0019]],
+       device='cuda:0')
+Epoch 71, bias, value: tensor([-0.0348, -0.0042, -0.0016, -0.0080, -0.0059,  0.0054, -0.0096,  0.0250,
+        -0.0042,  0.0212], device='cuda:0'), grad: tensor([ 0.0621, -0.0423,  0.0208, -0.0164, -0.0797,  0.0499, -0.0732,  0.0231,
+         0.0260,  0.0296], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 70, time 214.82, cls_loss 0.7309 cls_loss_mapping 0.0263 cls_loss_causal 0.6219 re_mapping 0.0212 re_causal 0.0472 /// teacc 98.26 lr 0.00010000
+Epoch 72, weight, value: tensor([[-0.0967, -0.0332, -0.0025,  ..., -0.0059, -0.0481, -0.0604],
+        [-0.0038, -0.0387,  0.0137,  ...,  0.0224, -0.0008, -0.0315],
+        [-0.0175, -0.0403, -0.0571,  ...,  0.0382, -0.0232, -0.0450],
+        ...,
+        [-0.0304,  0.0205,  0.0247,  ...,  0.0232, -0.0279, -0.0498],
+        [-0.0521, -0.0076,  0.0124,  ...,  0.0442, -0.0208, -0.0522],
+        [ 0.0269,  0.0373, -0.0206,  ..., -0.0709, -0.0281,  0.0177]],
+       device='cuda:0'), grad: tensor([[ 3.7932e-04,  3.4027e-03,  4.4012e-04,  ...,  5.0964e-03,
+          8.9645e-03,  1.7440e-04],
+        [ 3.7551e-04, -8.9931e-04, -1.3202e-05,  ...,  1.9207e-03,
+         -9.5673e-03,  1.0443e-03],
+        [ 4.4012e-04,  1.7586e-03,  9.7370e-04,  ..., -5.0507e-03,
+         -3.0708e-03,  4.4060e-04],
+        ...,
+        [-1.8463e-03, -8.1940e-03, -5.7259e-03,  ..., -1.8120e-03,
+          3.4332e-03,  1.5867e-04],
+        [-1.1959e-03, -6.2447e-03, -1.5097e-03,  ..., -5.0697e-03,
+         -5.9052e-03, -6.1722e-03],
+        [ 7.8201e-04,  7.4615e-03,  1.6556e-03,  ...,  1.5736e-04,
+          5.4455e-04,  1.2589e-03]], device='cuda:0')
+Epoch 72, bias, value: tensor([-0.0344, -0.0044, -0.0015, -0.0082, -0.0051,  0.0048, -0.0097,  0.0250,
+        -0.0048,  0.0217], device='cuda:0'), grad: tensor([ 0.0256, -0.0211,  0.0154,  0.0353, -0.0058, -0.0250,  0.0318, -0.0124,
+        -0.0476,  0.0039], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 71, time 214.66, cls_loss 0.7178 cls_loss_mapping 0.0294 cls_loss_causal 0.6090 re_mapping 0.0209 re_causal 0.0459 /// teacc 98.13 lr 0.00010000
+Epoch 73, weight, value: tensor([[-0.0978, -0.0324, -0.0004,  ..., -0.0071, -0.0471, -0.0613],
+        [-0.0035, -0.0395,  0.0127,  ...,  0.0227, -0.0009, -0.0327],
+        [-0.0171, -0.0411, -0.0572,  ...,  0.0378, -0.0247, -0.0450],
+        ...,
+        [-0.0313,  0.0207,  0.0245,  ...,  0.0247, -0.0278, -0.0503],
+        [-0.0521, -0.0071,  0.0118,  ...,  0.0455, -0.0212, -0.0535],
+        [ 0.0272,  0.0376, -0.0205,  ..., -0.0735, -0.0288,  0.0183]],
+       device='cuda:0'), grad: tensor([[-1.3363e-04,  2.8286e-03, -9.9792e-03,  ...,  4.1733e-03,
+          3.3245e-03,  3.5667e-03],
+        [ 7.0715e-04,  8.6517e-03,  7.3433e-03,  ...,  6.3705e-03,
+          3.8929e-03,  9.3985e-04],
+        [-4.1389e-03, -3.3894e-03, -5.6601e-04,  ..., -1.1040e-02,
+         -6.6452e-03, -5.9662e-03],
+        ...,
+        [-8.6606e-05, -3.4189e-04,  2.3293e-04,  ..., -1.2192e-02,
+         -4.7646e-03,  6.6566e-04],
+        [-3.7823e-03, -9.3307e-03, -2.1458e-03,  ..., -8.4686e-03,
+         -5.9700e-03,  3.0518e-04],
+        [ 2.9564e-03,  4.2191e-03,  3.4547e-04,  ..., -5.8174e-04,
+         -1.8024e-03,  1.9703e-03]], device='cuda:0')
+Epoch 73, bias, value: tensor([-0.0345, -0.0041, -0.0025, -0.0079, -0.0048,  0.0051, -0.0097,  0.0258,
+        -0.0048,  0.0207], device='cuda:0'), grad: tensor([ 0.0101,  0.0265, -0.0445,  0.0464,  0.0159, -0.0050,  0.0137, -0.0382,
+        -0.0293,  0.0042], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 72, time 214.37, cls_loss 0.7506 cls_loss_mapping 0.0250 cls_loss_causal 0.6321 re_mapping 0.0206 re_causal 0.0461 /// teacc 98.18 lr 0.00010000
+Epoch 74, weight, value: tensor([[-0.0989, -0.0310,  0.0004,  ..., -0.0067, -0.0481, -0.0616],
+        [-0.0045, -0.0386,  0.0117,  ...,  0.0232, -0.0006, -0.0337],
+        [-0.0163, -0.0416, -0.0570,  ...,  0.0378, -0.0257, -0.0449],
+        ...,
+        [-0.0314,  0.0209,  0.0249,  ...,  0.0236, -0.0283, -0.0497],
+        [-0.0531, -0.0076,  0.0114,  ...,  0.0461, -0.0207, -0.0545],
+        [ 0.0273,  0.0378, -0.0200,  ..., -0.0732, -0.0278,  0.0186]],
+       device='cuda:0'), grad: tensor([[ 0.0003,  0.0014,  0.0002,  ...,  0.0045,  0.0035,  0.0007],
+        [-0.0012,  0.0090, -0.0060,  ...,  0.0085,  0.0019,  0.0012],
+        [ 0.0033,  0.0018,  0.0003,  ..., -0.0056, -0.0053,  0.0016],
+        ...,
+        [ 0.0013, -0.0021,  0.0008,  ..., -0.0074, -0.0035, -0.0004],
+        [ 0.0028, -0.0088,  0.0052,  ...,  0.0015, -0.0055,  0.0008],
+        [-0.0013,  0.0021, -0.0014,  ...,  0.0043,  0.0023, -0.0002]],
+       device='cuda:0')
+Epoch 74, bias, value: tensor([-0.0344, -0.0040, -0.0026, -0.0078, -0.0052,  0.0061, -0.0101,  0.0257,
+        -0.0044,  0.0203], device='cuda:0'), grad: tensor([ 0.0271,  0.0170, -0.0256, -0.0158, -0.0079, -0.0439,  0.0432, -0.0161,
+         0.0042,  0.0179], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 73----------------------------------------------------
+epoch 73, time 215.34, cls_loss 0.7539 cls_loss_mapping 0.0295 cls_loss_causal 0.6515 re_mapping 0.0204 re_causal 0.0464 /// teacc 98.39 lr 0.00010000
+Epoch 75, weight, value: tensor([[-1.0066e-01, -3.1539e-02,  1.1570e-03,  ..., -7.1371e-03,
+         -4.8355e-02, -6.2627e-02],
+        [-5.5121e-03, -3.8157e-02,  1.2446e-02,  ...,  2.2803e-02,
+         -8.8621e-05, -3.5304e-02],
+        [-1.7032e-02, -4.1763e-02, -5.7699e-02,  ...,  3.8446e-02,
+         -2.5801e-02, -4.5856e-02],
+        ...,
+        [-3.0982e-02,  2.1652e-02,  2.3889e-02,  ...,  2.3208e-02,
+         -2.8668e-02, -4.8909e-02],
+        [-5.2276e-02, -7.6586e-03,  1.1834e-02,  ...,  4.5792e-02,
+         -2.1970e-02, -5.3894e-02],
+        [ 2.7572e-02,  3.7161e-02, -1.8581e-02,  ..., -7.3759e-02,
+         -2.9613e-02,  1.8219e-02]], device='cuda:0'), grad: tensor([[ 1.0271e-03,  1.5335e-02,  3.1605e-03,  ...,  9.1400e-03,
+          6.0654e-03,  3.5524e-04],
+        [-2.5558e-03, -1.8902e-03, -7.2479e-04,  ...,  1.2230e-02,
+          1.8417e-02, -2.1152e-03],
+        [ 2.0103e-03, -3.1261e-03,  4.3917e-04,  ..., -5.8632e-03,
+         -2.6764e-02,  6.2180e-04],
+        ...,
+        [-3.1900e-04,  7.0906e-04,  3.4004e-05,  ...,  3.3379e-03,
+         -3.2825e-03, -1.0853e-03],
+        [ 2.3079e-03,  1.8511e-03, -5.4245e-03,  ...,  6.8016e-03,
+          5.1689e-03,  7.0858e-04],
+        [ 5.7697e-05, -1.8921e-02,  3.2997e-04,  ..., -3.3661e-02,
+         -1.0353e-02,  2.2185e-04]], device='cuda:0')
+Epoch 75, bias, value: tensor([-0.0345, -0.0045, -0.0026, -0.0078, -0.0057,  0.0067, -0.0094,  0.0257,
+        -0.0045,  0.0201], device='cuda:0'), grad: tensor([ 0.0653,  0.0041,  0.0087, -0.0352, -0.0017,  0.0273,  0.0218, -0.0020,
+         0.0057, -0.0942], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 74, time 216.54, cls_loss 0.7100 cls_loss_mapping 0.0275 cls_loss_causal 0.6002 re_mapping 0.0208 re_causal 0.0443 /// teacc 98.34 lr 0.00010000
+Epoch 76, weight, value: tensor([[-0.1004, -0.0318,  0.0007,  ..., -0.0072, -0.0498, -0.0615],
+        [-0.0055, -0.0385,  0.0123,  ...,  0.0224, -0.0009, -0.0350],
+        [-0.0177, -0.0419, -0.0579,  ...,  0.0383, -0.0257, -0.0470],
+        ...,
+        [-0.0305,  0.0232,  0.0242,  ...,  0.0232, -0.0292, -0.0490],
+        [-0.0533, -0.0068,  0.0111,  ...,  0.0448, -0.0234, -0.0554],
+        [ 0.0280,  0.0364, -0.0185,  ..., -0.0735, -0.0302,  0.0191]],
+       device='cuda:0'), grad: tensor([[ 0.0009,  0.0001,  0.0013,  ...,  0.0006,  0.0013,  0.0002],
+        [ 0.0013,  0.0003,  0.0010,  ...,  0.0016,  0.0026,  0.0003],
+        [ 0.0017,  0.0005,  0.0014,  ...,  0.0020,  0.0021,  0.0008],
+        ...,
+        [ 0.0027, -0.0009,  0.0020,  ..., -0.0004,  0.0006,  0.0016],
+        [-0.0217,  0.0017, -0.0093,  ..., -0.0060, -0.0075, -0.0143],
+        [-0.0140,  0.0009, -0.0130,  ..., -0.0038, -0.0038, -0.0099]],
+       device='cuda:0')
+Epoch 76, bias, value: tensor([-0.0346, -0.0044, -0.0031, -0.0071, -0.0054,  0.0074, -0.0096,  0.0258,
+        -0.0052,  0.0198], device='cuda:0'), grad: tensor([ 0.0113,  0.0209,  0.0122,  0.0196,  0.0426, -0.0171,  0.0246,  0.0139,
+        -0.0527, -0.0753], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 75, time 214.65, cls_loss 0.6792 cls_loss_mapping 0.0248 cls_loss_causal 0.5717 re_mapping 0.0204 re_causal 0.0449 /// teacc 98.27 lr 0.00010000
+Epoch 77, weight, value: tensor([[-0.1011, -0.0323,  0.0002,  ..., -0.0067, -0.0508, -0.0619],
+        [-0.0046, -0.0392,  0.0121,  ...,  0.0226, -0.0008, -0.0358],
+        [-0.0177, -0.0414, -0.0561,  ...,  0.0386, -0.0257, -0.0464],
+        ...,
+        [-0.0315,  0.0243,  0.0239,  ...,  0.0236, -0.0287, -0.0501],
+        [-0.0535, -0.0065,  0.0120,  ...,  0.0448, -0.0232, -0.0565],
+        [ 0.0292,  0.0367, -0.0188,  ..., -0.0741, -0.0299,  0.0198]],
+       device='cuda:0'), grad: tensor([[ 1.4019e-03,  8.4102e-05,  1.6436e-05,  ...,  4.1389e-03,
+          1.0986e-03,  8.3971e-04],
+        [ 1.4801e-03,  3.3131e-03, -1.2434e-04,  ...,  1.3285e-03,
+          2.4378e-04,  9.1910e-05],
+        [ 1.8005e-03,  4.6420e-04,  1.3642e-05,  ...,  3.6621e-03,
+          1.3170e-03,  1.8902e-03],
+        ...,
+        [-2.5291e-03, -3.0136e-03,  5.1439e-05,  ..., -9.2697e-03,
+          5.3120e-04,  7.0906e-04],
+        [ 1.8326e-02,  9.5320e-04,  1.3840e-04,  ...,  4.5357e-03,
+         -4.9553e-03,  5.1403e-04],
+        [ 3.0041e-03,  4.2076e-03,  2.1305e-03,  ...,  6.0730e-03,
+          5.5933e-04,  3.3712e-04]], device='cuda:0')
+Epoch 77, bias, value: tensor([-0.0346, -0.0038, -0.0023, -0.0078, -0.0053,  0.0075, -0.0102,  0.0252,
+        -0.0054,  0.0205], device='cuda:0'), grad: tensor([ 0.0382,  0.0103,  0.0301, -0.0345, -0.0151, -0.0786,  0.0263, -0.0605,
+         0.0376,  0.0461], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 76----------------------------------------------------
+epoch 76, time 215.23, cls_loss 0.7240 cls_loss_mapping 0.0321 cls_loss_causal 0.6237 re_mapping 0.0201 re_causal 0.0438 /// teacc 98.42 lr 0.00010000
+Epoch 78, weight, value: tensor([[-1.0229e-01, -3.2048e-02,  1.8693e-04,  ..., -6.6452e-03,
+         -5.1338e-02, -6.2215e-02],
+        [-4.2440e-03, -4.0016e-02,  1.2258e-02,  ...,  2.2619e-02,
+          5.9843e-05, -3.6112e-02],
+        [-1.7592e-02, -4.0706e-02, -5.6424e-02,  ...,  3.8281e-02,
+         -2.6813e-02, -4.6330e-02],
+        ...,
+        [-3.1391e-02,  2.4409e-02,  2.3498e-02,  ...,  2.3671e-02,
+         -2.9178e-02, -5.1592e-02],
+        [-5.4483e-02, -6.0722e-03,  1.2066e-02,  ...,  4.5250e-02,
+         -2.3717e-02, -5.6993e-02],
+        [ 2.7999e-02,  3.6960e-02, -2.0505e-02,  ..., -7.3778e-02,
+         -2.9040e-02,  2.0040e-02]], device='cuda:0'), grad: tensor([[ 5.3501e-04, -2.1553e-04,  4.6158e-04,  ...,  1.2264e-03,
+          1.7023e-03,  9.6858e-05],
+        [ 1.6203e-03,  3.2368e-03,  7.1096e-04,  ...,  2.0504e-03,
+          1.8444e-03,  3.8171e-04],
+        [ 6.9332e-04,  2.8849e-04,  1.4923e-02,  ..., -4.0102e-04,
+         -2.1725e-03, -1.6479e-03],
+        ...,
+        [ 1.5807e-04,  1.2016e-03,  8.3113e-04,  ..., -1.8091e-03,
+          1.4486e-03,  1.5652e-04],
+        [ 2.7790e-03,  9.8896e-04, -3.6240e-03,  ...,  3.1071e-03,
+          1.5697e-03,  2.6627e-03],
+        [ 7.0763e-04,  3.8109e-03,  9.1124e-04,  ...,  2.1248e-03,
+          1.7941e-04,  4.9305e-04]], device='cuda:0')
+Epoch 78, bias, value: tensor([-0.0345, -0.0039, -0.0023, -0.0078, -0.0049,  0.0067, -0.0099,  0.0255,
+        -0.0056,  0.0203], device='cuda:0'), grad: tensor([ 0.0126,  0.0255,  0.0155,  0.0160, -0.0009, -0.0434, -0.0516,  0.0069,
+         0.0031,  0.0163], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 77, time 214.42, cls_loss 0.6871 cls_loss_mapping 0.0233 cls_loss_causal 0.5751 re_mapping 0.0201 re_causal 0.0436 /// teacc 98.31 lr 0.00010000
+Epoch 79, weight, value: tensor([[-1.0304e-01, -3.2197e-02,  2.0503e-05,  ..., -6.9149e-03,
+         -5.2560e-02, -6.3131e-02],
+        [-4.3293e-03, -4.0805e-02,  1.1724e-02,  ...,  2.2548e-02,
+         -5.5474e-04, -3.6920e-02],
+        [-1.7699e-02, -3.9200e-02, -5.6190e-02,  ...,  3.8417e-02,
+         -2.6520e-02, -4.6914e-02],
+        ...,
+        [-3.1496e-02,  2.4293e-02,  2.2704e-02,  ...,  2.3778e-02,
+         -2.9489e-02, -5.1945e-02],
+        [-5.3825e-02, -6.6946e-03,  1.2813e-02,  ...,  4.5106e-02,
+         -2.2611e-02, -5.7671e-02],
+        [ 2.8089e-02,  3.6216e-02, -2.1271e-02,  ..., -7.4582e-02,
+         -2.9713e-02,  2.0508e-02]], device='cuda:0'), grad: tensor([[-1.5001e-03,  8.3971e-04,  5.7042e-05,  ...,  1.6098e-03,
+          2.8515e-04, -1.7042e-03],
+        [ 1.9288e-04,  1.8539e-03,  2.0158e-04,  ..., -9.9030e-03,
+         -1.6052e-02,  2.5177e-04],
+        [ 1.4172e-03,  6.5460e-03,  1.9932e-03,  ...,  8.1863e-03,
+          1.1253e-02,  3.3832e-04],
+        ...,
+        [ 1.3142e-03,  1.0178e-02,  3.0875e-04,  ...,  1.8034e-03,
+          2.7275e-03, -4.6301e-04],
+        [-5.5466e-03,  2.5215e-03,  1.2493e-04,  ..., -8.3160e-03,
+         -2.0142e-03, -5.8699e-04],
+        [-2.4261e-03,  2.4551e-02, -1.7071e-03,  ...,  3.4523e-03,
+          9.0256e-03,  2.9624e-05]], device='cuda:0')
+Epoch 79, bias, value: tensor([-0.0354, -0.0040, -0.0023, -0.0074, -0.0048,  0.0074, -0.0095,  0.0253,
+        -0.0054,  0.0197], device='cuda:0'), grad: tensor([ 0.0054, -0.0044,  0.0233,  0.0142, -0.0297,  0.0450, -0.0362,  0.0031,
+        -0.0627,  0.0419], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 78, time 214.81, cls_loss 0.7108 cls_loss_mapping 0.0241 cls_loss_causal 0.5962 re_mapping 0.0212 re_causal 0.0455 /// teacc 98.10 lr 0.00010000
+Epoch 80, weight, value: tensor([[-0.1040, -0.0320,  0.0002,  ..., -0.0070, -0.0514, -0.0640],
+        [-0.0053, -0.0416,  0.0122,  ...,  0.0230, -0.0003, -0.0389],
+        [-0.0174, -0.0399, -0.0565,  ...,  0.0379, -0.0276, -0.0472],
+        ...,
+        [-0.0323,  0.0243,  0.0227,  ...,  0.0246, -0.0295, -0.0524],
+        [-0.0535, -0.0061,  0.0135,  ...,  0.0450, -0.0236, -0.0600],
+        [ 0.0288,  0.0363, -0.0212,  ..., -0.0744, -0.0285,  0.0210]],
+       device='cuda:0'), grad: tensor([[ 3.5095e-04,  1.0948e-03,  6.3848e-04,  ...,  4.4785e-03,
+          3.2120e-03,  2.7135e-05],
+        [ 1.4521e-05, -6.0654e-03,  1.0824e-04,  ...,  2.2602e-04,
+         -5.4245e-03,  1.0461e-05],
+        [ 1.1688e-04,  2.6989e-03,  2.7514e-04,  ..., -3.0842e-03,
+          3.4103e-03,  2.8968e-05],
+        ...,
+        [ 2.1725e-03,  4.2267e-02,  5.3072e-04,  ...,  1.9241e-02,
+          1.1024e-02,  2.3746e-03],
+        [ 3.0383e-05, -8.0884e-05, -5.7340e-05,  ...,  6.3705e-03,
+          2.7370e-03,  1.8275e-04],
+        [-2.9182e-03, -4.2145e-02, -4.1461e-04,  ..., -2.2079e-02,
+         -1.3687e-02, -3.2101e-03]], device='cuda:0')
+Epoch 80, bias, value: tensor([-0.0351, -0.0044, -0.0028, -0.0072, -0.0046,  0.0070, -0.0097,  0.0254,
+        -0.0051,  0.0200], device='cuda:0'), grad: tensor([ 0.0226, -0.0123,  0.0004, -0.0072, -0.0281, -0.0041,  0.0191,  0.0404,
+         0.0182, -0.0490], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 79, time 214.69, cls_loss 0.7207 cls_loss_mapping 0.0216 cls_loss_causal 0.6112 re_mapping 0.0196 re_causal 0.0426 /// teacc 98.30 lr 0.00010000
+Epoch 81, weight, value: tensor([[-0.1045, -0.0314,  0.0007,  ..., -0.0076, -0.0522, -0.0642],
+        [-0.0060, -0.0402,  0.0135,  ...,  0.0242,  0.0011, -0.0398],
+        [-0.0181, -0.0410, -0.0558,  ...,  0.0381, -0.0266, -0.0475],
+        ...,
+        [-0.0323,  0.0238,  0.0226,  ...,  0.0236, -0.0310, -0.0522],
+        [-0.0544, -0.0042,  0.0125,  ...,  0.0459, -0.0246, -0.0611],
+        [ 0.0289,  0.0352, -0.0219,  ..., -0.0761, -0.0285,  0.0220]],
+       device='cuda:0'), grad: tensor([[ 4.0603e-04,  1.3638e-03,  4.1819e-04,  ...,  9.9945e-04,
+          6.4087e-04, -5.3823e-05],
+        [ 3.4070e-04,  1.6475e-04,  5.3215e-04,  ...,  3.0556e-03,
+          5.3368e-03,  1.3006e-04],
+        [-1.0223e-03,  2.7370e-03,  3.7050e-04,  ..., -8.0872e-03,
+         -3.8414e-03, -4.7731e-04],
+        ...,
+        [ 1.1861e-04,  1.2436e-03,  3.9673e-03,  ...,  1.4658e-03,
+          2.0695e-03,  7.6890e-05],
+        [ 1.5850e-03,  2.0218e-02,  1.9627e-03,  ...,  8.0948e-03,
+          1.0628e-02,  8.4519e-05],
+        [ 4.6277e-04,  4.6463e-03,  4.0398e-03,  ...,  6.8436e-03,
+          6.9351e-03,  2.1327e-04]], device='cuda:0')
+Epoch 81, bias, value: tensor([-0.0355, -0.0036, -0.0023, -0.0070, -0.0043,  0.0067, -0.0097,  0.0249,
+        -0.0055,  0.0198], device='cuda:0'), grad: tensor([-0.0043,  0.0107, -0.0789,  0.0039,  0.0285, -0.0781,  0.0257,  0.0060,
+         0.0517,  0.0347], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 80, time 214.76, cls_loss 0.7156 cls_loss_mapping 0.0236 cls_loss_causal 0.6183 re_mapping 0.0203 re_causal 0.0450 /// teacc 98.25 lr 0.00010000
+Epoch 82, weight, value: tensor([[-0.1042, -0.0312,  0.0010,  ..., -0.0074, -0.0509, -0.0650],
+        [-0.0059, -0.0401,  0.0134,  ...,  0.0241,  0.0014, -0.0411],
+        [-0.0176, -0.0403, -0.0559,  ...,  0.0379, -0.0266, -0.0462],
+        ...,
+        [-0.0332,  0.0243,  0.0217,  ...,  0.0240, -0.0305, -0.0537],
+        [-0.0550, -0.0041,  0.0118,  ...,  0.0455, -0.0238, -0.0625],
+        [ 0.0296,  0.0349, -0.0226,  ..., -0.0757, -0.0287,  0.0241]],
+       device='cuda:0'), grad: tensor([[ 6.6233e-04,  6.4516e-04,  2.3842e-03,  ..., -4.9477e-03,
+         -1.0353e-02,  1.7047e-04],
+        [ 1.0020e-04,  2.5225e-04,  2.0409e-03,  ...,  4.8370e-03,
+          6.3629e-03,  3.9041e-06],
+        [ 2.0351e-03,  7.1335e-04,  1.6918e-03,  ...,  2.2354e-03,
+          3.4695e-03,  7.5459e-05],
+        ...,
+        [ 9.5320e-04,  1.1005e-03,  3.4199e-03,  ...,  2.3327e-03,
+          6.4316e-03,  1.3769e-04],
+        [ 8.7786e-04,  2.9278e-03, -4.5509e-03,  ..., -1.0086e-02,
+         -1.2520e-02,  1.4591e-04],
+        [ 1.5230e-03, -9.8801e-03,  3.7804e-03,  ...,  2.1152e-03,
+          6.5880e-03,  1.9646e-04]], device='cuda:0')
+Epoch 82, bias, value: tensor([-0.0350, -0.0038, -0.0024, -0.0083, -0.0040,  0.0075, -0.0104,  0.0251,
+        -0.0051,  0.0201], device='cuda:0'), grad: tensor([-0.0585,  0.0374,  0.0267,  0.0219, -0.0216,  0.0250,  0.0009,  0.0339,
+        -0.0751,  0.0095], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 81----------------------------------------------------
+epoch 81, time 216.48, cls_loss 0.7066 cls_loss_mapping 0.0192 cls_loss_causal 0.6117 re_mapping 0.0192 re_causal 0.0432 /// teacc 98.46 lr 0.00010000
+Epoch 83, weight, value: tensor([[-0.1043, -0.0309,  0.0003,  ..., -0.0074, -0.0517, -0.0649],
+        [-0.0068, -0.0396,  0.0145,  ...,  0.0236,  0.0008, -0.0410],
+        [-0.0170, -0.0410, -0.0564,  ...,  0.0383, -0.0265, -0.0470],
+        ...,
+        [-0.0335,  0.0248,  0.0230,  ...,  0.0245, -0.0314, -0.0547],
+        [-0.0547, -0.0047,  0.0120,  ...,  0.0465, -0.0233, -0.0639],
+        [ 0.0303,  0.0355, -0.0230,  ..., -0.0766, -0.0295,  0.0256]],
+       device='cuda:0'), grad: tensor([[ 2.5487e-04, -1.3672e-05,  7.3388e-06,  ..., -3.2425e-03,
+          3.0565e-04,  3.0518e-05],
+        [ 3.2234e-04,  1.3008e-03,  9.2015e-06,  ...,  5.0659e-03,
+          2.6245e-03,  2.0608e-05],
+        [ 2.2831e-03,  4.2629e-04,  4.4852e-05,  ..., -5.9586e-03,
+         -5.7220e-03,  7.2539e-05],
+        ...,
+        [ 2.0103e-03,  2.5063e-03,  7.9036e-05,  ...,  8.6823e-03,
+          4.3259e-03,  1.5230e-03],
+        [ 3.2544e-04,  4.5967e-03, -2.8062e-04,  ...,  5.3940e-03,
+          4.9706e-03,  5.0592e-04],
+        [-7.7362e-03, -1.6052e-02,  2.5129e-04,  ..., -2.2568e-02,
+          1.0662e-03, -6.7291e-03]], device='cuda:0')
+Epoch 83, bias, value: tensor([-0.0352, -0.0041, -0.0021, -0.0082, -0.0039,  0.0067, -0.0101,  0.0254,
+        -0.0046,  0.0198], device='cuda:0'), grad: tensor([-0.0170,  0.0233, -0.0385,  0.0162,  0.0313, -0.0533,  0.0289,  0.0316,
+         0.0282, -0.0508], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 82, time 215.97, cls_loss 0.7059 cls_loss_mapping 0.0222 cls_loss_causal 0.5968 re_mapping 0.0195 re_causal 0.0442 /// teacc 98.20 lr 0.00010000
+Epoch 84, weight, value: tensor([[-0.1045, -0.0310,  0.0010,  ..., -0.0076, -0.0520, -0.0653],
+        [-0.0070, -0.0402,  0.0139,  ...,  0.0239,  0.0014, -0.0415],
+        [-0.0169, -0.0412, -0.0565,  ...,  0.0380, -0.0270, -0.0479],
+        ...,
+        [-0.0331,  0.0248,  0.0234,  ...,  0.0243, -0.0323, -0.0555],
+        [-0.0549, -0.0056,  0.0122,  ...,  0.0458, -0.0241, -0.0643],
+        [ 0.0296,  0.0357, -0.0237,  ..., -0.0773, -0.0297,  0.0260]],
+       device='cuda:0'), grad: tensor([[ 3.3945e-05, -3.6812e-03,  4.1604e-04,  ...,  3.8338e-03,
+          3.1509e-03,  7.3051e-04],
+        [ 8.6486e-05, -2.0172e-02,  1.2264e-03,  ..., -1.7967e-03,
+         -2.0874e-02,  1.3244e-04],
+        [ 3.1114e-04,  5.2309e-04, -4.7188e-03,  ..., -2.8122e-02,
+         -2.8900e-02,  2.4223e-04],
+        ...,
+        [ 3.5226e-05,  2.3575e-02,  9.3937e-04,  ...,  7.5912e-03,
+          2.9785e-02,  3.3307e-04],
+        [ 5.4054e-03, -2.2793e-03,  2.1553e-03,  ..., -2.1095e-03,
+         -9.6893e-03,  1.7776e-03],
+        [ 2.0218e-04,  8.4543e-04,  7.7534e-04,  ...,  6.6490e-03,
+          6.1569e-03,  4.6992e-04]], device='cuda:0')
+Epoch 84, bias, value: tensor([-0.0352, -0.0034, -0.0026, -0.0080, -0.0030,  0.0072, -0.0105,  0.0249,
+        -0.0054,  0.0198], device='cuda:0'), grad: tensor([ 0.0226, -0.0151, -0.1359,  0.0225,  0.0454, -0.0020,  0.0097,  0.0495,
+        -0.0312,  0.0344], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 83, time 216.18, cls_loss 0.6791 cls_loss_mapping 0.0250 cls_loss_causal 0.5678 re_mapping 0.0199 re_causal 0.0428 /// teacc 98.31 lr 0.00010000
+Epoch 85, weight, value: tensor([[-0.1051, -0.0302,  0.0007,  ..., -0.0071, -0.0529, -0.0667],
+        [-0.0069, -0.0414,  0.0149,  ...,  0.0243,  0.0015, -0.0413],
+        [-0.0174, -0.0421, -0.0550,  ...,  0.0386, -0.0266, -0.0496],
+        ...,
+        [-0.0327,  0.0227,  0.0239,  ...,  0.0237, -0.0331, -0.0547],
+        [-0.0547, -0.0054,  0.0115,  ...,  0.0466, -0.0247, -0.0654],
+        [ 0.0298,  0.0377, -0.0248,  ..., -0.0774, -0.0287,  0.0257]],
+       device='cuda:0'), grad: tensor([[ 9.1410e-04,  9.0456e-04, -1.4794e-04,  ...,  3.7785e-03,
+          1.4610e-03,  5.8556e-04],
+        [ 8.2135e-05, -2.7776e-04,  3.0565e-04,  ..., -5.1727e-03,
+         -7.0534e-03,  5.2333e-05],
+        [ 4.6754e-04,  8.2245e-03,  1.0788e-04,  ...,  6.9618e-03,
+          1.0777e-03,  2.9874e-04],
+        ...,
+        [ 1.3647e-03, -1.6113e-02, -1.5955e-03,  ..., -1.6235e-02,
+         -3.8261e-03,  1.4582e-03],
+        [-4.7646e-03,  3.0556e-03,  2.2709e-04,  ...,  7.1478e-04,
+          2.2659e-03, -3.1357e-03],
+        [-7.4625e-05,  1.4400e-03,  1.9336e-04,  ...,  4.2305e-03,
+          3.1204e-03, -2.6655e-04]], device='cuda:0')
+Epoch 85, bias, value: tensor([-0.0352, -0.0037, -0.0022, -0.0078, -0.0035,  0.0069, -0.0100,  0.0245,
+        -0.0058,  0.0204], device='cuda:0'), grad: tensor([ 0.0159, -0.0430,  0.0224,  0.0161,  0.0169, -0.0205,  0.0307, -0.0475,
+        -0.0064,  0.0155], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 84, time 216.30, cls_loss 0.6602 cls_loss_mapping 0.0219 cls_loss_causal 0.5622 re_mapping 0.0198 re_causal 0.0417 /// teacc 98.35 lr 0.00010000
+Epoch 86, weight, value: tensor([[-0.1070, -0.0300,  0.0004,  ..., -0.0075, -0.0531, -0.0681],
+        [-0.0067, -0.0421,  0.0150,  ...,  0.0251,  0.0010, -0.0418],
+        [-0.0180, -0.0422, -0.0555,  ...,  0.0388, -0.0270, -0.0501],
+        ...,
+        [-0.0324,  0.0232,  0.0222,  ...,  0.0237, -0.0325, -0.0546],
+        [-0.0552, -0.0057,  0.0122,  ...,  0.0470, -0.0241, -0.0649],
+        [ 0.0294,  0.0371, -0.0244,  ..., -0.0792, -0.0304,  0.0269]],
+       device='cuda:0'), grad: tensor([[ 7.4768e-04,  5.1832e-04,  7.4959e-04,  ..., -6.1798e-03,
+         -5.9128e-03,  1.7023e-04],
+        [ 2.8849e-04,  9.8724e-03,  4.3464e-04,  ...,  4.4632e-03,
+          6.3477e-03,  5.5671e-05],
+        [ 1.1044e-03, -1.2054e-03,  9.8515e-04,  ...,  2.4624e-03,
+         -2.5463e-03,  5.4550e-04],
+        ...,
+        [-4.1199e-03, -3.7781e-02,  4.8375e-04,  ..., -1.4328e-02,
+         -2.9877e-02,  3.7265e-04],
+        [-4.2534e-03, -1.3916e-02, -1.9875e-03,  ...,  2.5024e-03,
+          6.8903e-04, -3.1834e-03],
+        [ 8.5678e-03,  1.8263e-03,  5.1117e-03,  ...,  5.4398e-03,
+          1.4420e-03,  1.1778e-03]], device='cuda:0')
+Epoch 86, bias, value: tensor([-0.0355, -0.0035, -0.0024, -0.0081, -0.0030,  0.0082, -0.0097,  0.0247,
+        -0.0059,  0.0189], device='cuda:0'), grad: tensor([-0.0382,  0.0243,  0.0084, -0.0157,  0.0491,  0.0085,  0.0242, -0.0754,
+        -0.0211,  0.0359], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 85, time 216.38, cls_loss 0.7146 cls_loss_mapping 0.0213 cls_loss_causal 0.6146 re_mapping 0.0196 re_causal 0.0447 /// teacc 98.33 lr 0.00010000
+Epoch 87, weight, value: tensor([[-1.0724e-01, -2.9468e-02, -6.7055e-07,  ..., -7.7962e-03,
+         -5.2578e-02, -6.9750e-02],
+        [-7.1714e-03, -4.2247e-02,  1.6062e-02,  ...,  2.6540e-02,
+          1.7369e-03, -4.2300e-02],
+        [-1.9485e-02, -4.2606e-02, -5.5793e-02,  ...,  3.6845e-02,
+         -2.7250e-02, -5.1601e-02],
+        ...,
+        [-3.2938e-02,  2.3249e-02,  2.2649e-02,  ...,  2.4995e-02,
+         -3.2311e-02, -5.5354e-02],
+        [-5.5380e-02, -6.4965e-03,  1.2651e-02,  ...,  4.8469e-02,
+         -2.4331e-02, -6.7280e-02],
+        [ 3.0679e-02,  3.7622e-02, -2.4840e-02,  ..., -7.9100e-02,
+         -3.0917e-02,  3.0080e-02]], device='cuda:0'), grad: tensor([[ 0.0004,  0.0017,  0.0006,  ..., -0.0003,  0.0023,  0.0004],
+        [ 0.0009,  0.0026,  0.0012,  ...,  0.0048, -0.0004,  0.0011],
+        [ 0.0007,  0.0011,  0.0019,  ...,  0.0055,  0.0034,  0.0007],
+        ...,
+        [-0.0006, -0.0113, -0.0103,  ..., -0.0147, -0.0088, -0.0027],
+        [ 0.0011,  0.0029,  0.0016,  ...,  0.0094,  0.0059,  0.0017],
+        [ 0.0002,  0.0073,  0.0017,  ...,  0.0021, -0.0007,  0.0088]],
+       device='cuda:0')
+Epoch 87, bias, value: tensor([-0.0355, -0.0035, -0.0032, -0.0077, -0.0037,  0.0079, -0.0095,  0.0251,
+        -0.0055,  0.0194], device='cuda:0'), grad: tensor([-0.0052,  0.0219,  0.0301, -0.0540,  0.0104, -0.0274,  0.0129, -0.0520,
+         0.0390,  0.0244], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 86, time 216.58, cls_loss 0.7185 cls_loss_mapping 0.0208 cls_loss_causal 0.6082 re_mapping 0.0191 re_causal 0.0424 /// teacc 98.34 lr 0.00010000
+Epoch 88, weight, value: tensor([[-0.1079, -0.0299,  0.0014,  ..., -0.0071, -0.0517, -0.0690],
+        [-0.0074, -0.0425,  0.0158,  ...,  0.0256,  0.0013, -0.0435],
+        [-0.0200, -0.0428, -0.0574,  ...,  0.0358, -0.0277, -0.0545],
+        ...,
+        [-0.0327,  0.0237,  0.0224,  ...,  0.0259, -0.0322, -0.0548],
+        [-0.0555, -0.0063,  0.0134,  ...,  0.0490, -0.0247, -0.0688],
+        [ 0.0303,  0.0378, -0.0252,  ..., -0.0801, -0.0306,  0.0298]],
+       device='cuda:0'), grad: tensor([[ 1.0276e-04,  5.9187e-05,  4.8351e-04,  ..., -1.4381e-03,
+          5.7793e-03,  3.2234e-04],
+        [ 9.8765e-05,  2.3127e-04,  2.9159e-04,  ...,  2.5034e-04,
+          1.4286e-03,  1.6153e-04],
+        [ 9.2840e-04,  6.2141e-03, -3.1261e-03,  ..., -4.1771e-03,
+         -5.0621e-03,  1.7214e-03],
+        ...,
+        [ 4.0269e-04,  1.7138e-03,  7.3814e-04,  ...,  7.6294e-05,
+          9.4557e-04,  5.7125e-04],
+        [-8.9264e-03, -6.0768e-03, -3.6316e-03,  ..., -1.7426e-02,
+          2.3880e-03, -7.2594e-03],
+        [ 5.2414e-03, -2.3327e-03,  1.6212e-03,  ...,  1.7807e-02,
+          1.6756e-03,  4.2191e-03]], device='cuda:0')
+Epoch 88, bias, value: tensor([-0.0341, -0.0041, -0.0036, -0.0075, -0.0033,  0.0069, -0.0098,  0.0259,
+        -0.0058,  0.0192], device='cuda:0'), grad: tensor([-0.0012,  0.0088, -0.0285,  0.0220,  0.0221, -0.0276,  0.0015,  0.0024,
+        -0.0331,  0.0335], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 87, time 216.83, cls_loss 0.7007 cls_loss_mapping 0.0223 cls_loss_causal 0.5995 re_mapping 0.0182 re_causal 0.0394 /// teacc 98.28 lr 0.00010000
+Epoch 89, weight, value: tensor([[-0.1087, -0.0292,  0.0009,  ..., -0.0072, -0.0519, -0.0703],
+        [-0.0071, -0.0433,  0.0156,  ...,  0.0254,  0.0017, -0.0453],
+        [-0.0203, -0.0417, -0.0577,  ...,  0.0354, -0.0277, -0.0555],
+        ...,
+        [-0.0336,  0.0232,  0.0233,  ...,  0.0262, -0.0328, -0.0549],
+        [-0.0550, -0.0069,  0.0137,  ...,  0.0493, -0.0249, -0.0716],
+        [ 0.0309,  0.0376, -0.0251,  ..., -0.0805, -0.0306,  0.0300]],
+       device='cuda:0'), grad: tensor([[ 7.9632e-05,  2.0828e-03,  6.6376e-04,  ...,  1.3062e-02,
+          1.1816e-03, -7.6294e-04],
+        [ 4.7517e-04, -2.9713e-05, -6.8617e-04,  ..., -5.4512e-03,
+         -1.6422e-03, -2.2340e-04],
+        [-3.7613e-03, -7.3624e-03,  6.3934e-03,  ..., -1.4465e-02,
+          2.5673e-03,  1.0258e-04],
+        ...,
+        [ 8.4639e-04,  8.0414e-03,  6.7139e-04,  ...,  8.3008e-03,
+          3.5381e-04,  1.9765e-04],
+        [ 1.3123e-03,  9.1019e-03, -8.5068e-03,  ..., -3.6716e-03,
+         -1.8024e-04,  5.6505e-04],
+        [-2.6435e-05, -1.2703e-02, -2.6488e-04,  ..., -1.7252e-03,
+         -1.2369e-03, -9.3317e-04]], device='cuda:0')
+Epoch 89, bias, value: tensor([-0.0345, -0.0038, -0.0034, -0.0065, -0.0033,  0.0070, -0.0102,  0.0255,
+        -0.0062,  0.0190], device='cuda:0'), grad: tensor([ 0.0327, -0.0249, -0.0183, -0.0260,  0.0194,  0.0155, -0.0208,  0.0085,
+         0.0097,  0.0042], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 88, time 216.12, cls_loss 0.6970 cls_loss_mapping 0.0239 cls_loss_causal 0.5981 re_mapping 0.0190 re_causal 0.0407 /// teacc 98.19 lr 0.00010000
+Epoch 90, weight, value: tensor([[-0.1109, -0.0287,  0.0018,  ..., -0.0072, -0.0524, -0.0699],
+        [-0.0078, -0.0433,  0.0146,  ...,  0.0244,  0.0014, -0.0461],
+        [-0.0197, -0.0426, -0.0583,  ...,  0.0346, -0.0274, -0.0537],
+        ...,
+        [-0.0344,  0.0231,  0.0216,  ...,  0.0262, -0.0329, -0.0553],
+        [-0.0545, -0.0070,  0.0160,  ...,  0.0510, -0.0245, -0.0718],
+        [ 0.0313,  0.0375, -0.0251,  ..., -0.0807, -0.0296,  0.0296]],
+       device='cuda:0'), grad: tensor([[ 0.0007,  0.0018, -0.0032,  ...,  0.0041, -0.0006,  0.0008],
+        [ 0.0003, -0.0043,  0.0013,  ..., -0.0110,  0.0013,  0.0004],
+        [ 0.0003,  0.0006, -0.0004,  ..., -0.0166, -0.0067,  0.0002],
+        ...,
+        [ 0.0007,  0.0065,  0.0019,  ...,  0.0147,  0.0030,  0.0021],
+        [ 0.0005,  0.0018, -0.0069,  ..., -0.0100, -0.0082,  0.0009],
+        [-0.0077, -0.0129, -0.0072,  ..., -0.0067, -0.0005, -0.0084]],
+       device='cuda:0')
+Epoch 90, bias, value: tensor([-0.0349, -0.0035, -0.0029, -0.0070, -0.0034,  0.0057, -0.0100,  0.0251,
+        -0.0049,  0.0192], device='cuda:0'), grad: tensor([-6.0177e-04, -1.9640e-05, -5.8594e-02,  1.6632e-02,  3.5522e-02,
+         1.1505e-02,  3.2959e-02,  3.4851e-02, -4.5929e-02, -2.6398e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 89, time 216.08, cls_loss 0.6936 cls_loss_mapping 0.0205 cls_loss_causal 0.5965 re_mapping 0.0194 re_causal 0.0416 /// teacc 98.21 lr 0.00010000
+Epoch 91, weight, value: tensor([[-0.1110, -0.0291,  0.0011,  ..., -0.0073, -0.0520, -0.0691],
+        [-0.0079, -0.0446,  0.0156,  ...,  0.0257,  0.0028, -0.0460],
+        [-0.0210, -0.0434, -0.0582,  ...,  0.0347, -0.0283, -0.0539],
+        ...,
+        [-0.0347,  0.0231,  0.0220,  ...,  0.0264, -0.0342, -0.0549],
+        [-0.0549, -0.0079,  0.0158,  ...,  0.0517, -0.0247, -0.0733],
+        [ 0.0319,  0.0386, -0.0254,  ..., -0.0817, -0.0287,  0.0301]],
+       device='cuda:0'), grad: tensor([[ 2.4629e-04,  6.8130e-03,  3.6373e-03,  ...,  1.8578e-03,
+          1.8797e-03,  6.0558e-04],
+        [ 2.6450e-05,  4.2248e-04,  1.4420e-03,  ...,  3.7956e-03,
+          1.2951e-03,  4.1574e-05],
+        [ 1.7595e-03,  1.0509e-03,  1.4668e-03,  ...,  8.6689e-04,
+         -2.1591e-03,  9.3952e-06],
+        ...,
+        [-4.7035e-03, -5.5885e-04, -6.1131e-04,  ..., -5.7602e-03,
+         -1.0271e-03,  1.4436e-04],
+        [ 1.0014e-03,  3.5492e-02,  1.5144e-03,  ...,  3.3131e-03,
+          5.2986e-03,  7.4434e-04],
+        [ 4.3249e-04, -4.7546e-02,  1.2226e-03,  ...,  3.6163e-03,
+         -5.4054e-03,  1.7691e-04]], device='cuda:0')
+Epoch 91, bias, value: tensor([-0.0349, -0.0030, -0.0030, -0.0073, -0.0036,  0.0059, -0.0109,  0.0253,
+        -0.0044,  0.0194], device='cuda:0'), grad: tensor([-0.0017,  0.0242,  0.0138,  0.0158, -0.0118,  0.0013, -0.0057, -0.0821,
+         0.0340,  0.0122], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 90, time 216.78, cls_loss 0.6707 cls_loss_mapping 0.0189 cls_loss_causal 0.5890 re_mapping 0.0188 re_causal 0.0412 /// teacc 98.26 lr 0.00010000
+Epoch 92, weight, value: tensor([[-0.1120, -0.0299,  0.0018,  ..., -0.0074, -0.0522, -0.0677],
+        [-0.0082, -0.0441,  0.0145,  ...,  0.0255,  0.0020, -0.0466],
+        [-0.0215, -0.0431, -0.0570,  ...,  0.0347, -0.0292, -0.0546],
+        ...,
+        [-0.0343,  0.0231,  0.0213,  ...,  0.0261, -0.0334, -0.0542],
+        [-0.0544, -0.0080,  0.0156,  ...,  0.0515, -0.0249, -0.0738],
+        [ 0.0323,  0.0388, -0.0256,  ..., -0.0814, -0.0290,  0.0307]],
+       device='cuda:0'), grad: tensor([[ 1.8196e-03,  5.0157e-05,  1.3635e-05,  ...,  3.1281e-03,
+          7.5912e-04,  4.1151e-04],
+        [ 1.4091e-04, -1.6537e-03,  1.8314e-05,  ..., -2.0386e-02,
+         -1.1749e-02,  1.1408e-04],
+        [-2.8095e-03,  4.4942e-04,  8.3596e-06,  ...,  2.1839e-03,
+          4.5156e-04,  2.6393e-04],
+        ...,
+        [-1.3094e-03, -2.4548e-03,  3.3855e-05,  ...,  1.6129e-02,
+          4.6959e-03, -9.4271e-04],
+        [ 5.0240e-03,  6.1226e-04, -7.5340e-04,  ...,  4.6043e-03,
+          8.0872e-04,  4.5509e-03],
+        [-5.4665e-03, -3.8834e-03,  5.2214e-05,  ...,  2.1133e-03,
+          1.1711e-03, -8.6823e-03]], device='cuda:0')
+Epoch 92, bias, value: tensor([-0.0351, -0.0034, -0.0031, -0.0081, -0.0032,  0.0076, -0.0111,  0.0251,
+        -0.0048,  0.0196], device='cuda:0'), grad: tensor([ 0.0267, -0.0774,  0.0039, -0.0255, -0.0297,  0.0484,  0.0230, -0.0045,
+         0.0335,  0.0016], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 91, time 214.85, cls_loss 0.6608 cls_loss_mapping 0.0207 cls_loss_causal 0.5662 re_mapping 0.0181 re_causal 0.0389 /// teacc 98.44 lr 0.00010000
+Epoch 93, weight, value: tensor([[-0.1129, -0.0294,  0.0020,  ..., -0.0082, -0.0528, -0.0679],
+        [-0.0087, -0.0442,  0.0148,  ...,  0.0253,  0.0026, -0.0466],
+        [-0.0219, -0.0440, -0.0566,  ...,  0.0351, -0.0294, -0.0547],
+        ...,
+        [-0.0343,  0.0233,  0.0218,  ...,  0.0254, -0.0333, -0.0549],
+        [-0.0547, -0.0076,  0.0156,  ...,  0.0514, -0.0256, -0.0752],
+        [ 0.0329,  0.0389, -0.0261,  ..., -0.0812, -0.0292,  0.0317]],
+       device='cuda:0'), grad: tensor([[ 1.5205e-02,  1.3120e-05, -3.8223e-03,  ..., -1.8673e-03,
+          2.1591e-03, -3.7909e-04],
+        [ 4.5091e-05, -2.5821e-04,  1.7667e-04,  ...,  5.2595e-04,
+          7.4387e-04,  1.7315e-05],
+        [ 6.6459e-05,  2.7075e-05,  1.4618e-05,  ...,  5.8031e-04,
+         -8.3008e-03,  1.0663e-04],
+        ...,
+        [-4.3273e-04,  1.2971e-05, -2.7865e-05,  ..., -3.4561e-03,
+         -7.6485e-03, -2.5177e-04],
+        [ 1.7366e-03, -3.0613e-04,  3.4199e-03,  ...,  9.4748e-04,
+          3.0460e-03,  7.8964e-04],
+        [ 1.2505e-04,  8.4221e-05,  8.7619e-05,  ...,  8.8120e-04,
+          1.1673e-03,  7.3850e-05]], device='cuda:0')
+Epoch 93, bias, value: tensor([-0.0361, -0.0033, -0.0026, -0.0073, -0.0035,  0.0073, -0.0115,  0.0253,
+        -0.0052,  0.0203], device='cuda:0'), grad: tensor([ 0.0105,  0.0091, -0.0141, -0.0165,  0.0100, -0.0111,  0.0071, -0.0259,
+         0.0177,  0.0132], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 92----------------------------------------------------
+epoch 92, time 217.47, cls_loss 0.7193 cls_loss_mapping 0.0216 cls_loss_causal 0.6199 re_mapping 0.0189 re_causal 0.0411 /// teacc 98.53 lr 0.00010000
+Epoch 94, weight, value: tensor([[-0.1136, -0.0292,  0.0037,  ..., -0.0078, -0.0527, -0.0685],
+        [-0.0092, -0.0448,  0.0150,  ...,  0.0252,  0.0023, -0.0462],
+        [-0.0214, -0.0446, -0.0578,  ...,  0.0353, -0.0298, -0.0559],
+        ...,
+        [-0.0359,  0.0237,  0.0214,  ...,  0.0256, -0.0331, -0.0558],
+        [-0.0548, -0.0071,  0.0140,  ...,  0.0510, -0.0255, -0.0764],
+        [ 0.0329,  0.0387, -0.0259,  ..., -0.0819, -0.0293,  0.0333]],
+       device='cuda:0'), grad: tensor([[-2.0752e-03,  1.5116e-04, -5.2299e-03,  ..., -2.3785e-03,
+          6.1750e-04,  5.1320e-05],
+        [ 3.5419e-03,  5.3358e-04,  7.3662e-03,  ...,  3.5362e-03,
+          1.4366e-02,  1.3582e-05],
+        [-1.1200e-04,  1.5764e-03, -5.7259e-03,  ..., -4.0665e-03,
+         -8.9359e-04,  1.6046e-04],
+        ...,
+        [ 2.5988e-04, -3.4351e-03,  6.0797e-04,  ..., -1.7757e-03,
+         -2.1591e-03,  1.1456e-04],
+        [ 2.1133e-03,  5.8413e-04,  2.2087e-03,  ...,  1.7681e-03,
+          6.7673e-03,  2.1827e-04],
+        [-2.9030e-03,  3.9983e-04, -2.0933e-04,  ...,  9.9277e-04,
+          1.7366e-03, -9.5272e-04]], device='cuda:0')
+Epoch 94, bias, value: tensor([-0.0360, -0.0034, -0.0024, -0.0076, -0.0030,  0.0076, -0.0117,  0.0257,
+        -0.0050,  0.0193], device='cuda:0'), grad: tensor([ 0.0045,  0.0222, -0.0128,  0.0028, -0.0160, -0.0398, -0.0012, -0.0079,
+         0.0396,  0.0086], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 93, time 215.46, cls_loss 0.7183 cls_loss_mapping 0.0248 cls_loss_causal 0.6240 re_mapping 0.0182 re_causal 0.0400 /// teacc 98.28 lr 0.00010000
+Epoch 95, weight, value: tensor([[-0.1148, -0.0302,  0.0043,  ..., -0.0092, -0.0539, -0.0707],
+        [-0.0076, -0.0453,  0.0142,  ...,  0.0250,  0.0021, -0.0473],
+        [-0.0223, -0.0448, -0.0585,  ...,  0.0360, -0.0295, -0.0555],
+        ...,
+        [-0.0362,  0.0239,  0.0205,  ...,  0.0265, -0.0323, -0.0569],
+        [-0.0547, -0.0061,  0.0133,  ...,  0.0507, -0.0258, -0.0753],
+        [ 0.0334,  0.0383, -0.0239,  ..., -0.0826, -0.0298,  0.0332]],
+       device='cuda:0'), grad: tensor([[ 1.1295e-04, -2.4834e-03,  7.2718e-04,  ...,  1.2922e-03,
+          5.9471e-03, -2.2829e-04],
+        [ 1.3363e-04,  1.6861e-03,  7.6771e-04,  ...,  1.9388e-03,
+          3.2654e-03,  5.9545e-05],
+        [ 2.0428e-03,  1.3218e-03, -7.7677e-04,  ..., -1.3878e-02,
+         -4.6326e-02,  1.5348e-05],
+        ...,
+        [ 3.9673e-03, -1.8530e-03,  8.9550e-04,  ..., -1.1921e-04,
+          1.8501e-03,  2.9793e-03],
+        [ 1.0347e-03,  3.1662e-03,  5.4240e-05,  ...,  3.1948e-03,
+         -2.0218e-04,  5.4169e-04],
+        [-7.8278e-03,  1.9684e-03,  1.0490e-03,  ...,  8.8739e-04,
+          6.3057e-03, -5.4283e-03]], device='cuda:0')
+Epoch 95, bias, value: tensor([-0.0378, -0.0041, -0.0016, -0.0072, -0.0013,  0.0074, -0.0114,  0.0255,
+        -0.0050,  0.0189], device='cuda:0'), grad: tensor([ 0.0228,  0.0264, -0.0709,  0.0294, -0.0582,  0.0433,  0.0167,  0.0117,
+        -0.0240,  0.0027], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 94, time 216.72, cls_loss 0.6897 cls_loss_mapping 0.0193 cls_loss_causal 0.5862 re_mapping 0.0181 re_causal 0.0400 /// teacc 98.32 lr 0.00010000
+Epoch 96, weight, value: tensor([[-0.1147, -0.0303,  0.0041,  ..., -0.0091, -0.0549, -0.0706],
+        [-0.0083, -0.0447,  0.0135,  ...,  0.0253,  0.0020, -0.0487],
+        [-0.0234, -0.0451, -0.0602,  ...,  0.0357, -0.0311, -0.0557],
+        ...,
+        [-0.0365,  0.0243,  0.0243,  ...,  0.0260, -0.0319, -0.0577],
+        [-0.0540, -0.0059,  0.0133,  ...,  0.0511, -0.0264, -0.0759],
+        [ 0.0332,  0.0385, -0.0241,  ..., -0.0828, -0.0297,  0.0345]],
+       device='cuda:0'), grad: tensor([[ 0.0002,  0.0006,  0.0005,  ..., -0.0026,  0.0008,  0.0009],
+        [ 0.0001,  0.0016, -0.0026,  ...,  0.0001,  0.0016,  0.0004],
+        [ 0.0004, -0.0061,  0.0006,  ...,  0.0031, -0.0019,  0.0013],
+        ...,
+        [ 0.0002,  0.0012,  0.0001,  ...,  0.0028,  0.0008, -0.0045],
+        [ 0.0005, -0.0052,  0.0007,  ..., -0.0016, -0.0029,  0.0019],
+        [ 0.0002, -0.0017,  0.0001,  ..., -0.0032, -0.0037,  0.0024]],
+       device='cuda:0')
+Epoch 96, bias, value: tensor([-0.0386, -0.0041, -0.0018, -0.0067, -0.0020,  0.0075, -0.0103,  0.0264,
+        -0.0050,  0.0178], device='cuda:0'), grad: tensor([-0.0141,  0.0150, -0.0113, -0.0471,  0.0323,  0.0197,  0.0198, -0.0030,
+        -0.0081, -0.0033], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 95, time 214.85, cls_loss 0.6862 cls_loss_mapping 0.0173 cls_loss_causal 0.5946 re_mapping 0.0181 re_causal 0.0402 /// teacc 98.44 lr 0.00010000
+Epoch 97, weight, value: tensor([[-0.1157, -0.0302,  0.0037,  ..., -0.0095, -0.0557, -0.0711],
+        [-0.0072, -0.0448,  0.0136,  ...,  0.0252,  0.0021, -0.0488],
+        [-0.0252, -0.0447, -0.0610,  ...,  0.0366, -0.0308, -0.0575],
+        ...,
+        [-0.0360,  0.0243,  0.0242,  ...,  0.0265, -0.0329, -0.0574],
+        [-0.0542, -0.0069,  0.0143,  ...,  0.0513, -0.0264, -0.0771],
+        [ 0.0332,  0.0387, -0.0242,  ..., -0.0837, -0.0304,  0.0350]],
+       device='cuda:0'), grad: tensor([[-9.3794e-04,  9.1600e-04,  1.4553e-03,  ...,  4.8904e-03,
+          2.3384e-03,  3.1501e-05],
+        [ 2.0528e-04, -4.8370e-03,  1.2980e-03,  ..., -1.5535e-03,
+          2.5368e-03,  9.3460e-05],
+        [ 1.1168e-03,  1.2293e-03,  3.0155e-03,  ...,  7.3767e-04,
+          1.7700e-02,  5.8556e-04],
+        ...,
+        [-1.0115e-04,  4.1294e-04,  1.2474e-03,  ...,  2.1172e-03,
+          3.1033e-03, -6.2084e-04],
+        [-9.2888e-04,  1.1959e-03,  6.4898e-04,  ...,  3.0022e-03,
+          1.7767e-03,  3.8910e-04],
+        [-8.1873e-04,  1.6403e-03,  9.9850e-04,  ...,  4.1466e-03,
+          4.3182e-03, -7.1859e-04]], device='cuda:0')
+Epoch 97, bias, value: tensor([-0.0383, -0.0039, -0.0020, -0.0065, -0.0019,  0.0074, -0.0103,  0.0262,
+        -0.0043,  0.0168], device='cuda:0'), grad: tensor([ 0.0164,  0.0009, -0.0091,  0.0259, -0.0249, -0.0083, -0.0512,  0.0195,
+         0.0044,  0.0263], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 96, time 217.11, cls_loss 0.7004 cls_loss_mapping 0.0160 cls_loss_causal 0.5914 re_mapping 0.0186 re_causal 0.0427 /// teacc 98.51 lr 0.00010000
+Epoch 98, weight, value: tensor([[-0.1151, -0.0296,  0.0048,  ..., -0.0091, -0.0572, -0.0694],
+        [-0.0070, -0.0458,  0.0147,  ...,  0.0251,  0.0022, -0.0507],
+        [-0.0254, -0.0445, -0.0617,  ...,  0.0367, -0.0306, -0.0579],
+        ...,
+        [-0.0361,  0.0243,  0.0236,  ...,  0.0267, -0.0350, -0.0574],
+        [-0.0546, -0.0069,  0.0139,  ...,  0.0521, -0.0271, -0.0781],
+        [ 0.0337,  0.0391, -0.0243,  ..., -0.0845, -0.0307,  0.0347]],
+       device='cuda:0'), grad: tensor([[ 0.0019, -0.0053, -0.0007,  ..., -0.0010, -0.0011, -0.0033],
+        [-0.0003,  0.0002, -0.0005,  ..., -0.0009,  0.0016,  0.0004],
+        [ 0.0006,  0.0018,  0.0007,  ...,  0.0013,  0.0054,  0.0016],
+        ...,
+        [ 0.0041, -0.0016,  0.0038,  ...,  0.0033,  0.0019,  0.0004],
+        [ 0.0016,  0.0017,  0.0015,  ...,  0.0011,  0.0050,  0.0020],
+        [-0.0079,  0.0026, -0.0064,  ..., -0.0027,  0.0026, -0.0035]],
+       device='cuda:0')
+Epoch 98, bias, value: tensor([-0.0379, -0.0038, -0.0011, -0.0068, -0.0023,  0.0079, -0.0110,  0.0255,
+        -0.0048,  0.0175], device='cuda:0'), grad: tensor([-0.0295,  0.0069,  0.0254, -0.0107,  0.0289,  0.0106, -0.0622,  0.0207,
+         0.0238, -0.0139], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 97, time 214.99, cls_loss 0.7029 cls_loss_mapping 0.0180 cls_loss_causal 0.6155 re_mapping 0.0165 re_causal 0.0384 /// teacc 98.52 lr 0.00010000
+Epoch 99, weight, value: tensor([[-0.1148, -0.0302,  0.0035,  ..., -0.0084, -0.0559, -0.0695],
+        [-0.0069, -0.0461,  0.0149,  ...,  0.0251,  0.0024, -0.0510],
+        [-0.0256, -0.0446, -0.0616,  ...,  0.0365, -0.0311, -0.0590],
+        ...,
+        [-0.0366,  0.0249,  0.0243,  ...,  0.0271, -0.0363, -0.0583],
+        [-0.0554, -0.0069,  0.0136,  ...,  0.0519, -0.0276, -0.0782],
+        [ 0.0337,  0.0390, -0.0249,  ..., -0.0847, -0.0309,  0.0341]],
+       device='cuda:0'), grad: tensor([[ 0.0029,  0.0004,  0.0019,  ...,  0.0033,  0.0029,  0.0009],
+        [ 0.0042, -0.0020,  0.0045,  ...,  0.0014, -0.0048,  0.0015],
+        [ 0.0057,  0.0006,  0.0011,  ...,  0.0054,  0.0017,  0.0011],
+        ...,
+        [-0.0042, -0.0034, -0.0053,  ..., -0.0166, -0.0091, -0.0050],
+        [-0.0065,  0.0009, -0.0100,  ..., -0.0083,  0.0021, -0.0013],
+        [-0.0317,  0.0017,  0.0009,  ...,  0.0030,  0.0060,  0.0024]],
+       device='cuda:0')
+Epoch 99, bias, value: tensor([-0.0377, -0.0037, -0.0023, -0.0068, -0.0015,  0.0074, -0.0109,  0.0259,
+        -0.0048,  0.0176], device='cuda:0'), grad: tensor([ 0.0343, -0.0289,  0.0315, -0.0082,  0.0022,  0.0417,  0.0212, -0.0671,
+        -0.0186, -0.0080], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 98, time 214.75, cls_loss 0.6638 cls_loss_mapping 0.0136 cls_loss_causal 0.5603 re_mapping 0.0175 re_causal 0.0386 /// teacc 98.44 lr 0.00010000
+Epoch 100, weight, value: tensor([[-0.1150, -0.0307,  0.0039,  ..., -0.0086, -0.0557, -0.0700],
+        [-0.0068, -0.0460,  0.0151,  ...,  0.0245,  0.0024, -0.0498],
+        [-0.0257, -0.0442, -0.0610,  ...,  0.0371, -0.0327, -0.0591],
+        ...,
+        [-0.0368,  0.0242,  0.0262,  ...,  0.0269, -0.0362, -0.0579],
+        [-0.0554, -0.0065,  0.0142,  ...,  0.0520, -0.0286, -0.0789],
+        [ 0.0343,  0.0393, -0.0251,  ..., -0.0846, -0.0292,  0.0343]],
+       device='cuda:0'), grad: tensor([[ 2.7347e-04,  1.4870e-02,  7.5722e-04,  ...,  3.0956e-03,
+          3.4607e-02,  6.2847e-04],
+        [ 5.3167e-05, -6.8188e-04,  8.9598e-04,  ...,  4.9248e-03,
+          1.2093e-02,  2.2650e-04],
+        [ 7.8619e-05,  1.4858e-03,  3.9625e-04,  ...,  3.4580e-03,
+          3.8280e-03,  2.5582e-04],
+        ...,
+        [ 8.2433e-05, -1.6623e-03,  4.2081e-04,  ..., -1.4849e-03,
+          3.2425e-03,  9.6798e-04],
+        [ 3.0780e-04, -1.3527e-02, -2.2469e-03,  ..., -6.6681e-03,
+         -4.5807e-02,  1.3065e-03],
+        [ 4.5002e-06, -1.4887e-03,  8.5402e-04,  ...,  2.2640e-03,
+          3.7613e-03, -3.6201e-03]], device='cuda:0')
+Epoch 100, bias, value: tensor([-0.0379, -0.0037, -0.0018, -0.0072, -0.0024,  0.0071, -0.0099,  0.0269,
+        -0.0050,  0.0173], device='cuda:0'), grad: tensor([ 0.0532,  0.0428,  0.0182,  0.0108, -0.0126, -0.0379, -0.0109, -0.0133,
+        -0.0615,  0.0113], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 99----------------------------------------------------
+epoch 99, time 214.94, cls_loss 0.6294 cls_loss_mapping 0.0143 cls_loss_causal 0.5420 re_mapping 0.0177 re_causal 0.0384 /// teacc 98.55 lr 0.00010000
+Epoch 101, weight, value: tensor([[-0.1149, -0.0308,  0.0043,  ..., -0.0086, -0.0564, -0.0707],
+        [-0.0075, -0.0459,  0.0172,  ...,  0.0232,  0.0026, -0.0505],
+        [-0.0265, -0.0458, -0.0622,  ...,  0.0374, -0.0345, -0.0601],
+        ...,
+        [-0.0357,  0.0244,  0.0260,  ...,  0.0273, -0.0340, -0.0573],
+        [-0.0555, -0.0062,  0.0133,  ...,  0.0517, -0.0283, -0.0794],
+        [ 0.0335,  0.0396, -0.0267,  ..., -0.0852, -0.0290,  0.0342]],
+       device='cuda:0'), grad: tensor([[ 0.0003,  0.0004,  0.0002,  ..., -0.0055,  0.0044, -0.0002],
+        [-0.0026, -0.0219, -0.0016,  ..., -0.0181, -0.0042,  0.0001],
+        [ 0.0007,  0.0017,  0.0004,  ...,  0.0048,  0.0016,  0.0002],
+        ...,
+        [ 0.0006,  0.0033,  0.0006,  ...,  0.0058,  0.0010,  0.0008],
+        [ 0.0026,  0.0036,  0.0017,  ...,  0.0065,  0.0026,  0.0002],
+        [-0.0009,  0.0034, -0.0018,  ...,  0.0042,  0.0019, -0.0041]],
+       device='cuda:0')
+Epoch 101, bias, value: tensor([-0.0385, -0.0036, -0.0023, -0.0065, -0.0024,  0.0060, -0.0093,  0.0275,
+        -0.0056,  0.0180], device='cuda:0'), grad: tensor([-0.0293, -0.0614,  0.0274,  0.0005,  0.0162,  0.0355, -0.0641,  0.0377,
+         0.0125,  0.0251], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 100, time 214.40, cls_loss 0.6868 cls_loss_mapping 0.0143 cls_loss_causal 0.5939 re_mapping 0.0174 re_causal 0.0396 /// teacc 98.21 lr 0.00010000
+Epoch 102, weight, value: tensor([[-0.1142, -0.0311,  0.0046,  ..., -0.0082, -0.0563, -0.0710],
+        [-0.0070, -0.0457,  0.0176,  ...,  0.0244,  0.0025, -0.0496],
+        [-0.0274, -0.0469, -0.0635,  ...,  0.0379, -0.0338, -0.0625],
+        ...,
+        [-0.0359,  0.0240,  0.0263,  ...,  0.0270, -0.0342, -0.0571],
+        [-0.0556, -0.0056,  0.0135,  ...,  0.0520, -0.0279, -0.0805],
+        [ 0.0336,  0.0390, -0.0264,  ..., -0.0857, -0.0303,  0.0341]],
+       device='cuda:0'), grad: tensor([[ 0.0002,  0.0003,  0.0021,  ...,  0.0084,  0.0110,  0.0013],
+        [ 0.0016, -0.0013,  0.0017,  ...,  0.0021,  0.0014,  0.0035],
+        [ 0.0004,  0.0012,  0.0008,  ..., -0.0021, -0.0060,  0.0020],
+        ...,
+        [-0.0015, -0.0209,  0.0013,  ..., -0.0040,  0.0009, -0.0136],
+        [ 0.0021,  0.0017,  0.0009,  ...,  0.0051,  0.0056, -0.0039],
+        [-0.0034,  0.0140,  0.0007,  ...,  0.0036,  0.0075,  0.0104]],
+       device='cuda:0')
+Epoch 102, bias, value: tensor([-0.0385, -0.0029, -0.0018, -0.0065, -0.0030,  0.0055, -0.0101,  0.0270,
+        -0.0049,  0.0182], device='cuda:0'), grad: tensor([ 0.0229, -0.0009, -0.0113,  0.0204, -0.0734,  0.0299, -0.0028, -0.0177,
+        -0.0109,  0.0438], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 101, time 214.93, cls_loss 0.7027 cls_loss_mapping 0.0173 cls_loss_causal 0.5938 re_mapping 0.0179 re_causal 0.0392 /// teacc 98.40 lr 0.00010000
+Epoch 103, weight, value: tensor([[-0.1137, -0.0303,  0.0054,  ..., -0.0097, -0.0561, -0.0725],
+        [-0.0072, -0.0465,  0.0190,  ...,  0.0248,  0.0032, -0.0491],
+        [-0.0282, -0.0479, -0.0642,  ...,  0.0390, -0.0333, -0.0626],
+        ...,
+        [-0.0365,  0.0241,  0.0251,  ...,  0.0266, -0.0342, -0.0576],
+        [-0.0541, -0.0052,  0.0136,  ...,  0.0532, -0.0277, -0.0804],
+        [ 0.0328,  0.0398, -0.0267,  ..., -0.0860, -0.0311,  0.0338]],
+       device='cuda:0'), grad: tensor([[-2.1801e-03,  1.8320e-03,  2.0313e-04,  ...,  1.6083e-02,
+          6.8665e-03, -2.1982e-04],
+        [ 4.1986e-04,  1.0475e-02,  1.3027e-03,  ...,  7.2136e-03,
+          2.3823e-03,  5.6362e-04],
+        [ 1.0090e-03,  4.5323e-04, -6.3419e-05,  ...,  1.7033e-03,
+          1.2388e-03, -1.1740e-03],
+        ...,
+        [ 1.3123e-03,  3.6182e-03,  3.3116e-04,  ..., -1.3687e-02,
+         -1.2573e-02,  1.3561e-03],
+        [ 1.3666e-03,  2.8658e-04, -4.9667e-03,  ..., -3.7575e-03,
+         -6.3438e-03,  1.1072e-03],
+        [-3.2101e-03,  4.0483e-04,  3.0303e-04,  ..., -1.2413e-02,
+          1.1358e-03,  1.4992e-03]], device='cuda:0')
+Epoch 103, bias, value: tensor([-0.0399, -0.0019, -0.0015, -0.0061, -0.0033,  0.0057, -0.0100,  0.0266,
+        -0.0042,  0.0175], device='cuda:0'), grad: tensor([ 0.0384,  0.0323,  0.0011, -0.0006, -0.0346,  0.0349,  0.0252, -0.0361,
+        -0.0009, -0.0596], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 102, time 215.87, cls_loss 0.6728 cls_loss_mapping 0.0186 cls_loss_causal 0.5734 re_mapping 0.0171 re_causal 0.0386 /// teacc 98.26 lr 0.00010000
+Epoch 104, weight, value: tensor([[-0.1141, -0.0295,  0.0059,  ..., -0.0087, -0.0560, -0.0722],
+        [-0.0073, -0.0475,  0.0188,  ...,  0.0245,  0.0027, -0.0484],
+        [-0.0288, -0.0474, -0.0657,  ...,  0.0400, -0.0331, -0.0642],
+        ...,
+        [-0.0376,  0.0244,  0.0265,  ...,  0.0260, -0.0345, -0.0583],
+        [-0.0538, -0.0052,  0.0138,  ...,  0.0523, -0.0281, -0.0812],
+        [ 0.0332,  0.0397, -0.0268,  ..., -0.0862, -0.0315,  0.0352]],
+       device='cuda:0'), grad: tensor([[ 3.4404e-04,  4.6581e-05,  1.0252e-03,  ...,  1.1396e-03,
+          3.5930e-04,  5.5838e-04],
+        [ 1.7476e-04,  6.9141e-05,  4.6134e-04,  ...,  8.0395e-04,
+          8.9407e-04,  2.9135e-04],
+        [ 2.5225e-04,  1.2290e-04,  2.0351e-03,  ...,  1.2903e-03,
+          2.9445e-04,  1.3885e-03],
+        ...,
+        [-4.5514e-04,  2.2385e-02, -8.0948e-03,  ..., -4.1313e-03,
+         -1.9159e-03, -3.7537e-03],
+        [-8.3237e-03,  4.9680e-05,  8.9312e-04,  ..., -6.2561e-03,
+         -9.5673e-03,  5.6696e-04],
+        [-3.6278e-03, -2.3453e-02, -5.9052e-03,  ..., -2.8114e-03,
+          5.4508e-05, -3.7231e-03]], device='cuda:0')
+Epoch 104, bias, value: tensor([-0.0386, -0.0030, -0.0017, -0.0058, -0.0028,  0.0055, -0.0098,  0.0267,
+        -0.0047,  0.0174], device='cuda:0'), grad: tensor([ 0.0111,  0.0096,  0.0121,  0.0126,  0.0240,  0.0596,  0.0045, -0.0122,
+        -0.0787, -0.0427], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 103, time 215.64, cls_loss 0.6844 cls_loss_mapping 0.0139 cls_loss_causal 0.6019 re_mapping 0.0177 re_causal 0.0397 /// teacc 98.30 lr 0.00010000
+Epoch 105, weight, value: tensor([[-0.1147, -0.0302,  0.0065,  ..., -0.0095, -0.0568, -0.0729],
+        [-0.0074, -0.0489,  0.0190,  ...,  0.0245,  0.0031, -0.0487],
+        [-0.0291, -0.0474, -0.0656,  ...,  0.0401, -0.0334, -0.0646],
+        ...,
+        [-0.0372,  0.0251,  0.0272,  ...,  0.0265, -0.0337, -0.0578],
+        [-0.0523, -0.0049,  0.0138,  ...,  0.0531, -0.0285, -0.0814],
+        [ 0.0332,  0.0396, -0.0270,  ..., -0.0862, -0.0320,  0.0341]],
+       device='cuda:0'), grad: tensor([[-1.4806e-04,  1.4484e-04,  6.0892e-04,  ...,  4.1962e-03,
+          2.9087e-03, -1.1808e-04],
+        [ 2.2650e-05, -1.9169e-03,  8.0585e-04,  ...,  3.7518e-03,
+          2.6608e-03,  3.5077e-05],
+        [ 8.8990e-05,  1.2627e-03,  4.7874e-03,  ...,  1.3847e-02,
+          3.2063e-03,  8.0729e-04],
+        ...,
+        [ 3.4924e-03,  1.5182e-03,  1.5701e-02,  ...,  3.0589e-04,
+          2.2106e-03,  2.8858e-03],
+        [ 1.1055e-02,  7.2670e-04, -7.9489e-04,  ..., -4.9591e-03,
+         -2.2736e-03,  9.8114e-03],
+        [-4.1885e-03, -1.5345e-03, -1.9394e-02,  ..., -1.3054e-02,
+         -1.8749e-03, -3.3951e-03]], device='cuda:0')
+Epoch 105, bias, value: tensor([-0.0394, -0.0032, -0.0012, -0.0067, -0.0029,  0.0058, -0.0097,  0.0272,
+        -0.0049,  0.0181], device='cuda:0'), grad: tensor([ 0.0223,  0.0282,  0.0834, -0.0823, -0.0051,  0.0217,  0.0031, -0.0499,
+         0.0105, -0.0320], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 104, time 215.56, cls_loss 0.6399 cls_loss_mapping 0.0201 cls_loss_causal 0.5514 re_mapping 0.0173 re_causal 0.0372 /// teacc 98.32 lr 0.00010000
+Epoch 106, weight, value: tensor([[-0.1149, -0.0295,  0.0061,  ..., -0.0099, -0.0569, -0.0736],
+        [-0.0089, -0.0493,  0.0202,  ...,  0.0246,  0.0022, -0.0486],
+        [-0.0298, -0.0476, -0.0665,  ...,  0.0399, -0.0331, -0.0646],
+        ...,
+        [-0.0372,  0.0251,  0.0273,  ...,  0.0274, -0.0340, -0.0575],
+        [-0.0529, -0.0067,  0.0131,  ...,  0.0532, -0.0299, -0.0826],
+        [ 0.0334,  0.0398, -0.0279,  ..., -0.0863, -0.0315,  0.0339]],
+       device='cuda:0'), grad: tensor([[ 1.2028e-04,  1.1187e-03,  7.0381e-04,  ...,  8.2636e-04,
+          4.1175e-04,  4.5371e-04],
+        [ 1.9908e-05, -1.8051e-02, -2.8191e-03,  ..., -1.5312e-02,
+         -5.1804e-03,  1.5414e-04],
+        [ 6.5756e-04,  4.8523e-03,  6.9952e-04,  ...,  3.0270e-03,
+          2.0123e-03,  2.2945e-03],
+        ...,
+        [ 6.6876e-05,  1.2398e-02, -4.1485e-04,  ...,  2.2297e-03,
+          5.0402e-04,  7.6218e-03],
+        [ 1.0198e-04,  3.8738e-03,  3.0875e-04,  ...,  1.7214e-03,
+          3.7241e-04,  3.3355e-04],
+        [ 4.2856e-05, -4.1466e-03,  9.9564e-04,  ...,  1.4915e-03,
+          3.2210e-04, -6.9695e-03]], device='cuda:0')
+Epoch 106, bias, value: tensor([-0.0398, -0.0029, -0.0004, -0.0063, -0.0026,  0.0061, -0.0101,  0.0269,
+        -0.0060,  0.0182], device='cuda:0'), grad: tensor([ 0.0113, -0.0702,  0.0448,  0.0088,  0.0071, -0.0244, -0.0029,  0.0116,
+         0.0111,  0.0029], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 105, time 216.10, cls_loss 0.6704 cls_loss_mapping 0.0185 cls_loss_causal 0.5777 re_mapping 0.0167 re_causal 0.0365 /// teacc 98.34 lr 0.00010000
+Epoch 107, weight, value: tensor([[-0.1155, -0.0303,  0.0061,  ..., -0.0104, -0.0571, -0.0733],
+        [-0.0089, -0.0488,  0.0214,  ...,  0.0256,  0.0022, -0.0479],
+        [-0.0303, -0.0476, -0.0662,  ...,  0.0400, -0.0330, -0.0659],
+        ...,
+        [-0.0376,  0.0249,  0.0268,  ...,  0.0270, -0.0344, -0.0575],
+        [-0.0527, -0.0057,  0.0133,  ...,  0.0531, -0.0295, -0.0829],
+        [ 0.0338,  0.0398, -0.0285,  ..., -0.0862, -0.0317,  0.0343]],
+       device='cuda:0'), grad: tensor([[ 7.3719e-04,  7.0953e-04,  7.6532e-04,  ...,  1.3371e-03,
+          1.2338e-04,  9.8515e-04],
+        [ 1.0023e-03,  1.1978e-03,  1.5659e-03,  ...,  3.9268e-04,
+          7.8529e-06,  5.7697e-04],
+        [-7.8964e-04, -1.2894e-02, -1.8463e-03,  ..., -4.1924e-03,
+          8.5533e-06, -4.0512e-03],
+        ...,
+        [-8.7814e-03,  6.9695e-03, -8.7204e-03,  ..., -8.3828e-04,
+         -1.0262e-03, -6.8779e-03],
+        [ 1.3838e-03,  7.0457e-03,  1.2474e-03,  ..., -6.3276e-04,
+          1.8346e-04,  1.9426e-03],
+        [ 3.0041e-03, -2.2812e-03,  1.5745e-03,  ...,  6.0225e-04,
+          5.5170e-04,  6.7673e-03]], device='cuda:0')
+Epoch 107, bias, value: tensor([-0.0392, -0.0024, -0.0009, -0.0072, -0.0028,  0.0060, -0.0103,  0.0268,
+        -0.0055,  0.0185], device='cuda:0'), grad: tensor([ 0.0314,  0.0065, -0.0688,  0.0398, -0.0086,  0.0085, -0.0159, -0.0161,
+         0.0059,  0.0172], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 106, time 215.91, cls_loss 0.6837 cls_loss_mapping 0.0138 cls_loss_causal 0.5957 re_mapping 0.0170 re_causal 0.0382 /// teacc 98.48 lr 0.00010000
+Epoch 108, weight, value: tensor([[-0.1148, -0.0300,  0.0062,  ..., -0.0114, -0.0578, -0.0735],
+        [-0.0092, -0.0508,  0.0213,  ...,  0.0258,  0.0012, -0.0486],
+        [-0.0306, -0.0475, -0.0656,  ...,  0.0401, -0.0331, -0.0647],
+        ...,
+        [-0.0378,  0.0251,  0.0264,  ...,  0.0266, -0.0345, -0.0571],
+        [-0.0526, -0.0051,  0.0129,  ...,  0.0533, -0.0296, -0.0832],
+        [ 0.0336,  0.0402, -0.0283,  ..., -0.0873, -0.0303,  0.0341]],
+       device='cuda:0'), grad: tensor([[ 4.8351e-04,  6.9275e-03,  5.0354e-04,  ...,  6.0539e-03,
+          4.2605e-04,  2.7676e-03],
+        [ 2.6059e-04,  6.0320e-04,  3.6526e-03,  ..., -3.9597e-03,
+         -2.3041e-03,  1.6463e-04],
+        [ 2.9874e-04,  5.1003e-03, -2.8229e-03,  ..., -1.0338e-02,
+         -1.4341e-04,  3.9673e-04],
+        ...,
+        [ 5.2223e-03,  6.8843e-05,  1.2856e-03,  ...,  1.7242e-03,
+         -5.7793e-04,  3.7937e-03],
+        [ 1.3599e-03, -2.1866e-02,  9.0599e-04,  ...,  4.5433e-03,
+          8.5831e-04,  7.2527e-04],
+        [-9.0256e-03,  3.5076e-03, -5.5275e-03,  ..., -1.4137e-02,
+         -1.1854e-03, -5.3291e-03]], device='cuda:0')
+Epoch 108, bias, value: tensor([-0.0399, -0.0026, -0.0009, -0.0072, -0.0028,  0.0063, -0.0099,  0.0264,
+        -0.0052,  0.0188], device='cuda:0'), grad: tensor([ 0.0377,  0.0062, -0.0158,  0.0165,  0.0155, -0.0009,  0.0106,  0.0119,
+         0.0032, -0.0848], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 107, time 216.75, cls_loss 0.6623 cls_loss_mapping 0.0187 cls_loss_causal 0.5805 re_mapping 0.0170 re_causal 0.0376 /// teacc 98.26 lr 0.00010000
+Epoch 109, weight, value: tensor([[-0.1157, -0.0299,  0.0061,  ..., -0.0121, -0.0584, -0.0756],
+        [-0.0094, -0.0504,  0.0211,  ...,  0.0261,  0.0017, -0.0517],
+        [-0.0313, -0.0487, -0.0650,  ...,  0.0396, -0.0331, -0.0652],
+        ...,
+        [-0.0373,  0.0252,  0.0268,  ...,  0.0263, -0.0343, -0.0575],
+        [-0.0522, -0.0034,  0.0140,  ...,  0.0539, -0.0301, -0.0837],
+        [ 0.0332,  0.0406, -0.0296,  ..., -0.0885, -0.0303,  0.0351]],
+       device='cuda:0'), grad: tensor([[ 5.5730e-05,  5.4789e-04,  6.4850e-04,  ...,  2.3327e-03,
+          9.7322e-04,  2.1935e-04],
+        [-1.2505e-04,  3.0327e-04,  5.9462e-04,  ...,  2.9469e-03,
+          9.0170e-04,  3.6383e-04],
+        [ 8.8394e-05,  1.5414e-04, -4.3526e-03,  ..., -3.8433e-03,
+         -4.9744e-03,  4.6730e-04],
+        ...,
+        [ 6.8307e-05,  1.6940e-04,  3.8218e-04,  ...,  1.9913e-03,
+          1.5664e-04,  2.5058e-04],
+        [ 7.2956e-04, -9.6273e-04,  6.4087e-04,  ..., -3.4523e-03,
+          5.9366e-04,  1.8530e-03],
+        [-2.4853e-03,  3.4332e-04, -1.2268e-02,  ...,  2.2888e-03,
+          3.9840e-04, -1.1238e-02]], device='cuda:0')
+Epoch 109, bias, value: tensor([-0.0407, -0.0026, -0.0013, -0.0071, -0.0025,  0.0063, -0.0099,  0.0265,
+        -0.0045,  0.0186], device='cuda:0'), grad: tensor([ 0.0191,  0.0193,  0.0010, -0.0158,  0.0504, -0.0050, -0.0175,  0.0094,
+        -0.0148, -0.0460], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 108, time 215.41, cls_loss 0.6649 cls_loss_mapping 0.0136 cls_loss_causal 0.5623 re_mapping 0.0167 re_causal 0.0368 /// teacc 98.45 lr 0.00010000
+Epoch 110, weight, value: tensor([[-0.1169, -0.0307,  0.0063,  ..., -0.0120, -0.0590, -0.0772],
+        [-0.0096, -0.0502,  0.0211,  ...,  0.0260,  0.0009, -0.0529],
+        [-0.0301, -0.0481, -0.0636,  ...,  0.0397, -0.0334, -0.0640],
+        ...,
+        [-0.0371,  0.0251,  0.0269,  ...,  0.0270, -0.0341, -0.0578],
+        [-0.0531, -0.0028,  0.0127,  ...,  0.0526, -0.0302, -0.0838],
+        [ 0.0339,  0.0405, -0.0291,  ..., -0.0889, -0.0300,  0.0358]],
+       device='cuda:0'), grad: tensor([[ 1.2608e-03,  5.7936e-04,  1.7185e-03,  ...,  2.1477e-03,
+          1.6594e-03,  8.7929e-04],
+        [ 2.6369e-04, -7.6914e-04, -8.5878e-04,  ..., -1.6785e-03,
+          1.1425e-03,  2.7156e-04],
+        [ 6.5804e-05,  3.9363e-04,  2.4090e-03,  ..., -5.7983e-04,
+         -2.4948e-03,  2.5005e-03],
+        ...,
+        [ 1.0767e-03,  3.3379e-03, -2.8973e-03,  ...,  1.7414e-03,
+          2.0142e-03,  1.3342e-03],
+        [-3.7823e-03,  2.4261e-03, -3.2544e-04,  ..., -2.8877e-03,
+          1.7185e-03, -4.9210e-04],
+        [-8.2159e-04, -1.1719e-02, -3.4027e-03,  ..., -4.1199e-03,
+         -2.7866e-03, -3.5057e-03]], device='cuda:0')
+Epoch 110, bias, value: tensor([-0.0414, -0.0024, -0.0013, -0.0066, -0.0028,  0.0063, -0.0099,  0.0266,
+        -0.0050,  0.0191], device='cuda:0'), grad: tensor([ 0.0266, -0.0168, -0.0229, -0.0062,  0.0277,  0.0210,  0.0173, -0.0046,
+        -0.0095, -0.0327], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 109, time 215.74, cls_loss 0.6645 cls_loss_mapping 0.0134 cls_loss_causal 0.5674 re_mapping 0.0165 re_causal 0.0371 /// teacc 98.40 lr 0.00010000
+Epoch 111, weight, value: tensor([[-0.1178, -0.0299,  0.0066,  ..., -0.0117, -0.0578, -0.0773],
+        [-0.0093, -0.0505,  0.0205,  ...,  0.0265,  0.0006, -0.0533],
+        [-0.0304, -0.0487, -0.0633,  ...,  0.0392, -0.0349, -0.0646],
+        ...,
+        [-0.0376,  0.0259,  0.0270,  ...,  0.0274, -0.0324, -0.0582],
+        [-0.0538, -0.0041,  0.0128,  ...,  0.0525, -0.0316, -0.0843],
+        [ 0.0329,  0.0402, -0.0290,  ..., -0.0894, -0.0292,  0.0353]],
+       device='cuda:0'), grad: tensor([[ 2.1148e-04,  4.1437e-04, -6.1803e-06,  ...,  4.1428e-03,
+          5.5275e-03,  1.0128e-03],
+        [ 1.7154e-04,  3.7918e-03,  9.7752e-05,  ...,  1.1883e-03,
+          2.1553e-03,  7.4291e-04],
+        [ 2.1601e-04,  1.2856e-03,  2.3437e-04,  ...,  3.5610e-03,
+          1.8673e-03,  1.4286e-03],
+        ...,
+        [ 7.8506e-03, -1.1032e-02,  8.2922e-04,  ..., -5.9891e-04,
+         -6.5765e-03,  5.2338e-03],
+        [ 4.5562e-04, -1.3103e-03,  7.1526e-05,  ...,  1.7872e-03,
+          2.3079e-03,  1.1082e-03],
+        [ 1.1625e-03,  1.9226e-03,  7.5817e-04,  ...,  2.6011e-04,
+         -1.3870e-02,  6.8045e-04]], device='cuda:0')
+Epoch 111, bias, value: tensor([-0.0412, -0.0022, -0.0018, -0.0058, -0.0024,  0.0061, -0.0104,  0.0272,
+        -0.0052,  0.0185], device='cuda:0'), grad: tensor([ 0.0247,  0.0108,  0.0205, -0.0151,  0.0246, -0.0435,  0.0115, -0.0225,
+         0.0172, -0.0283], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 110, time 214.18, cls_loss 0.6494 cls_loss_mapping 0.0127 cls_loss_causal 0.5511 re_mapping 0.0164 re_causal 0.0377 /// teacc 98.49 lr 0.00010000
+Epoch 112, weight, value: tensor([[-0.1181, -0.0293,  0.0061,  ..., -0.0113, -0.0577, -0.0771],
+        [-0.0099, -0.0504,  0.0207,  ...,  0.0259,  0.0005, -0.0540],
+        [-0.0299, -0.0489, -0.0627,  ...,  0.0398, -0.0342, -0.0627],
+        ...,
+        [-0.0383,  0.0264,  0.0257,  ...,  0.0274, -0.0322, -0.0589],
+        [-0.0545, -0.0050,  0.0135,  ...,  0.0522, -0.0322, -0.0857],
+        [ 0.0330,  0.0392, -0.0298,  ..., -0.0897, -0.0289,  0.0354]],
+       device='cuda:0'), grad: tensor([[ 2.6494e-05, -2.3401e-04, -4.1313e-03,  ..., -5.0621e-03,
+          1.9479e-04, -1.1269e-02],
+        [ 2.3752e-05,  1.0672e-03,  8.3447e-04,  ...,  3.0956e-03,
+          3.0303e-04,  1.9798e-03],
+        [ 1.3077e-04, -4.7112e-03, -4.8599e-03,  ..., -5.8937e-03,
+         -1.1215e-03, -3.0937e-03],
+        ...,
+        [ 1.5914e-04,  2.5635e-03,  6.9618e-04,  ...,  1.1185e-02,
+          5.2834e-03,  1.9169e-03],
+        [ 8.8120e-04,  6.1083e-04,  8.8358e-04,  ...,  2.5272e-03,
+          5.1880e-04,  2.0103e-03],
+        [ 3.2215e-03,  1.7548e-03,  5.2299e-03,  ...,  5.5313e-03,
+          4.5633e-04,  8.9722e-03]], device='cuda:0')
+Epoch 112, bias, value: tensor([-0.0414, -0.0019, -0.0012, -0.0061, -0.0024,  0.0070, -0.0105,  0.0268,
+        -0.0061,  0.0184], device='cuda:0'), grad: tensor([-0.0478,  0.0136, -0.0179, -0.0033, -0.0613,  0.0178,  0.0201,  0.0326,
+         0.0139,  0.0322], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 111----------------------------------------------------
+epoch 111, time 214.98, cls_loss 0.6636 cls_loss_mapping 0.0136 cls_loss_causal 0.5784 re_mapping 0.0164 re_causal 0.0372 /// teacc 98.56 lr 0.00010000
+Epoch 113, weight, value: tensor([[-0.1187, -0.0293,  0.0057,  ..., -0.0108, -0.0571, -0.0777],
+        [-0.0110, -0.0512,  0.0207,  ...,  0.0262,  0.0008, -0.0537],
+        [-0.0307, -0.0486, -0.0629,  ...,  0.0398, -0.0344, -0.0653],
+        ...,
+        [-0.0383,  0.0271,  0.0260,  ...,  0.0283, -0.0313, -0.0582],
+        [-0.0549, -0.0048,  0.0131,  ...,  0.0529, -0.0325, -0.0859],
+        [ 0.0340,  0.0395, -0.0298,  ..., -0.0902, -0.0296,  0.0356]],
+       device='cuda:0'), grad: tensor([[ 1.8135e-05,  3.5691e-04,  2.5616e-03,  ...,  2.5158e-03,
+          9.7692e-05,  1.6117e-03],
+        [ 2.0161e-05, -2.8667e-03,  4.1819e-04,  ..., -6.6223e-03,
+         -8.9169e-04, -1.1426e-04],
+        [ 8.5607e-06,  3.7694e-04,  1.1177e-03,  ...,  1.6994e-03,
+          2.7537e-04,  6.7282e-04],
+        ...,
+        [ 1.8805e-05,  4.5204e-03,  1.0977e-03,  ...,  5.5885e-03,
+          1.8635e-03,  5.4359e-03],
+        [ 9.0972e-06,  3.8600e-04,  4.8218e-03,  ...,  3.5706e-03,
+          2.1207e-04,  3.0842e-03],
+        [ 1.9267e-05,  6.4926e-03,  2.1648e-03,  ...,  3.8910e-03,
+          1.0529e-03,  7.1716e-03]], device='cuda:0')
+Epoch 113, bias, value: tensor([-0.0410, -0.0016, -0.0015, -0.0064, -0.0027,  0.0072, -0.0114,  0.0280,
+        -0.0061,  0.0183], device='cuda:0'), grad: tensor([ 0.0116, -0.0227,  0.0085, -0.0227, -0.0145, -0.0241,  0.0075,  0.0196,
+         0.0168,  0.0201], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 112, time 213.93, cls_loss 0.6511 cls_loss_mapping 0.0135 cls_loss_causal 0.5616 re_mapping 0.0167 re_causal 0.0376 /// teacc 98.54 lr 0.00010000
+Epoch 114, weight, value: tensor([[-0.1187, -0.0297,  0.0061,  ..., -0.0120, -0.0573, -0.0790],
+        [-0.0110, -0.0516,  0.0205,  ...,  0.0265,  0.0004, -0.0539],
+        [-0.0318, -0.0495, -0.0645,  ...,  0.0401, -0.0355, -0.0665],
+        ...,
+        [-0.0368,  0.0277,  0.0258,  ...,  0.0284, -0.0308, -0.0583],
+        [-0.0548, -0.0055,  0.0139,  ...,  0.0514, -0.0319, -0.0862],
+        [ 0.0335,  0.0409, -0.0291,  ..., -0.0907, -0.0298,  0.0369]],
+       device='cuda:0'), grad: tensor([[ 5.1022e-04,  1.3084e-03,  4.3988e-04,  ...,  3.0842e-03,
+          4.2282e-07,  3.1543e-04],
+        [ 4.7803e-04,  2.2259e-03, -3.8266e-05,  ...,  4.1389e-03,
+          2.0694e-06,  2.7999e-05],
+        [ 1.3745e-04,  6.3896e-04,  1.4048e-03,  ...,  6.7596e-03,
+         -8.2776e-06,  1.1368e-03],
+        ...,
+        [ 4.1533e-04, -9.3651e-04,  2.3425e-04,  ..., -2.3155e-03,
+          1.7677e-06,  1.3828e-04],
+        [ 1.7920e-03,  1.2083e-03,  1.4391e-03,  ..., -1.7414e-03,
+          6.0257e-07,  1.3361e-03],
+        [ 1.5383e-03,  3.9577e-04,  1.7567e-03,  ..., -4.6635e-04,
+          3.6322e-07,  1.1311e-03]], device='cuda:0')
+Epoch 114, bias, value: tensor([-0.0415, -0.0020, -0.0012, -0.0059, -0.0029,  0.0084, -0.0114,  0.0284,
+        -0.0068,  0.0177], device='cuda:0'), grad: tensor([ 0.0210,  0.0281,  0.0381, -0.0332,  0.0200, -0.0662,  0.0205, -0.0370,
+        -0.0003,  0.0089], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 113----------------------------------------------------
+epoch 113, time 214.99, cls_loss 0.6862 cls_loss_mapping 0.0153 cls_loss_causal 0.5965 re_mapping 0.0163 re_causal 0.0352 /// teacc 98.66 lr 0.00010000
+Epoch 115, weight, value: tensor([[-0.1189, -0.0289,  0.0074,  ..., -0.0110, -0.0572, -0.0790],
+        [-0.0111, -0.0505,  0.0203,  ...,  0.0265,  0.0004, -0.0538],
+        [-0.0325, -0.0502, -0.0633,  ...,  0.0391, -0.0354, -0.0677],
+        ...,
+        [-0.0367,  0.0274,  0.0260,  ...,  0.0288, -0.0310, -0.0591],
+        [-0.0561, -0.0043,  0.0130,  ...,  0.0517, -0.0327, -0.0861],
+        [ 0.0345,  0.0400, -0.0282,  ..., -0.0906, -0.0284,  0.0370]],
+       device='cuda:0'), grad: tensor([[ 1.2255e-04,  4.3488e-04,  8.8215e-05,  ...,  3.7899e-03,
+          2.6722e-03,  7.0572e-05],
+        [ 6.8307e-05,  1.2064e-03, -6.9022e-05,  ..., -6.8321e-03,
+         -6.9695e-03,  7.5996e-05],
+        [ 2.0370e-05,  2.5482e-03,  3.3498e-05,  ...,  5.3368e-03,
+          3.5992e-03,  4.3213e-05],
+        ...,
+        [-1.8539e-03, -4.9934e-03,  8.1897e-05,  ..., -5.8899e-03,
+         -1.7633e-03,  2.3711e-04],
+        [ 4.3362e-05,  8.9836e-04,  1.6880e-04,  ...,  5.2948e-03,
+          4.5052e-03,  2.3854e-04],
+        [ 1.3618e-03,  1.9388e-03,  9.1672e-05,  ..., -6.7673e-03,
+         -9.3994e-03,  9.2936e-04]], device='cuda:0')
+Epoch 115, bias, value: tensor([-0.0403, -0.0014, -0.0015, -0.0061, -0.0031,  0.0082, -0.0118,  0.0286,
+        -0.0075,  0.0179], device='cuda:0'), grad: tensor([ 0.0200, -0.0356,  0.0261,  0.0284,  0.0157, -0.0305, -0.0175, -0.0328,
+         0.0301, -0.0040], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 114, time 214.12, cls_loss 0.6663 cls_loss_mapping 0.0139 cls_loss_causal 0.5826 re_mapping 0.0157 re_causal 0.0364 /// teacc 98.57 lr 0.00010000
+Epoch 116, weight, value: tensor([[-0.1202, -0.0287,  0.0069,  ..., -0.0110, -0.0580, -0.0801],
+        [-0.0122, -0.0505,  0.0201,  ...,  0.0276,  0.0001, -0.0553],
+        [-0.0334, -0.0506, -0.0629,  ...,  0.0386, -0.0349, -0.0678],
+        ...,
+        [-0.0387,  0.0268,  0.0259,  ...,  0.0285, -0.0309, -0.0601],
+        [-0.0554, -0.0042,  0.0135,  ...,  0.0525, -0.0326, -0.0868],
+        [ 0.0338,  0.0412, -0.0286,  ..., -0.0897, -0.0282,  0.0373]],
+       device='cuda:0'), grad: tensor([[-2.4343e-04,  1.7996e-03,  4.1795e-04,  ...,  3.4676e-03,
+          1.6174e-03, -6.2847e-04],
+        [ 2.7657e-04,  3.9220e-04, -4.4556e-03,  ..., -1.3466e-02,
+         -2.5826e-03, -5.7650e-04],
+        [-1.5516e-03, -1.3069e-02, -2.7962e-03,  ..., -5.8899e-03,
+         -8.1863e-03,  1.5318e-04],
+        ...,
+        [ 8.2445e-04,  6.3133e-03,  8.6164e-04,  ...,  6.0883e-03,
+          2.5978e-03,  9.2506e-05],
+        [ 1.0052e-03,  2.1954e-03,  2.1648e-03,  ..., -2.5921e-03,
+          3.5820e-03,  3.2568e-04],
+        [ 5.7983e-04,  1.4982e-03,  9.6130e-04,  ...,  6.2561e-03,
+          2.1553e-03,  3.8862e-05]], device='cuda:0')
+Epoch 116, bias, value: tensor([-0.0403, -0.0012, -0.0012, -0.0065, -0.0036,  0.0085, -0.0127,  0.0281,
+        -0.0060,  0.0177], device='cuda:0'), grad: tensor([ 0.0161, -0.0773, -0.0486,  0.0070,  0.0132, -0.0269,  0.0543,  0.0365,
+        -0.0106,  0.0361], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 115, time 213.96, cls_loss 0.6459 cls_loss_mapping 0.0132 cls_loss_causal 0.5583 re_mapping 0.0162 re_causal 0.0361 /// teacc 98.37 lr 0.00010000
+Epoch 117, weight, value: tensor([[-0.1203, -0.0278,  0.0064,  ..., -0.0115, -0.0567, -0.0814],
+        [-0.0130, -0.0503,  0.0203,  ...,  0.0273,  0.0002, -0.0565],
+        [-0.0332, -0.0503, -0.0635,  ...,  0.0392, -0.0340, -0.0682],
+        ...,
+        [-0.0387,  0.0272,  0.0261,  ...,  0.0280, -0.0313, -0.0598],
+        [-0.0555, -0.0038,  0.0127,  ...,  0.0518, -0.0335, -0.0868],
+        [ 0.0339,  0.0408, -0.0281,  ..., -0.0893, -0.0285,  0.0387]],
+       device='cuda:0'), grad: tensor([[ 5.1069e-04,  3.3932e-03,  8.9526e-05,  ...,  5.1613e-03,
+          1.8096e-04,  1.7757e-03],
+        [ 1.0061e-04,  1.6165e-04,  1.5289e-05,  ...,  1.2226e-03,
+          5.0211e-04,  1.5831e-04],
+        [-6.8893e-03, -5.1346e-03, -4.1318e-04,  ...,  3.9711e-03,
+         -4.8494e-04, -8.4915e-03],
+        ...,
+        [-1.0788e-05, -5.7602e-04,  1.2651e-05,  ...,  3.6621e-04,
+          3.0375e-04,  1.4818e-04],
+        [ 2.7061e-04,  8.8310e-04,  5.2243e-05,  ..., -1.5762e-02,
+         -7.0858e-04,  1.1482e-03],
+        [ 1.8609e-04, -1.1589e-02,  1.1370e-05,  ...,  4.8332e-03,
+          2.2388e-04,  3.9554e-04]], device='cuda:0')
+Epoch 117, bias, value: tensor([-0.0406, -0.0015, -0.0010, -0.0062, -0.0029,  0.0074, -0.0118,  0.0281,
+        -0.0067,  0.0180], device='cuda:0'), grad: tensor([ 0.0346,  0.0045, -0.0288,  0.0206, -0.0451, -0.0073,  0.0474, -0.0017,
+        -0.0356,  0.0115], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 116, time 214.18, cls_loss 0.6857 cls_loss_mapping 0.0138 cls_loss_causal 0.5953 re_mapping 0.0163 re_causal 0.0364 /// teacc 98.47 lr 0.00010000
+Epoch 118, weight, value: tensor([[-0.1206, -0.0276,  0.0072,  ..., -0.0124, -0.0575, -0.0818],
+        [-0.0140, -0.0508,  0.0205,  ...,  0.0264,  0.0017, -0.0572],
+        [-0.0331, -0.0505, -0.0641,  ...,  0.0411, -0.0331, -0.0687],
+        ...,
+        [-0.0394,  0.0274,  0.0262,  ...,  0.0276, -0.0316, -0.0606],
+        [-0.0555, -0.0039,  0.0132,  ...,  0.0528, -0.0346, -0.0871],
+        [ 0.0345,  0.0403, -0.0294,  ..., -0.0911, -0.0294,  0.0387]],
+       device='cuda:0'), grad: tensor([[ 4.1890e-04,  1.4591e-04,  4.2915e-04,  ..., -1.6088e-03,
+          1.0128e-03,  7.5531e-04],
+        [-6.9332e-04, -3.5906e-04,  2.0897e-04,  ..., -1.5593e-03,
+         -4.3640e-03,  6.5744e-05],
+        [ 3.4237e-04,  2.8300e-04,  8.9312e-04,  ...,  4.7684e-06,
+          6.4611e-04,  8.1587e-04],
+        ...,
+        [ 1.4472e-04, -3.4738e-04,  2.1923e-04,  ...,  1.4715e-03,
+          1.1415e-03,  4.1544e-05],
+        [ 1.9436e-03, -1.8187e-03, -1.3280e-04,  ...,  2.8725e-03,
+          3.3932e-03,  2.5558e-03],
+        [-3.3875e-03,  2.8872e-04, -8.0109e-04,  ..., -1.3514e-03,
+          1.6785e-03, -7.7972e-03]], device='cuda:0')
+Epoch 118, bias, value: tensor([-0.0407, -0.0012, -0.0006, -0.0054, -0.0030,  0.0071, -0.0112,  0.0273,
+        -0.0064,  0.0169], device='cuda:0'), grad: tensor([-0.0062, -0.0285,  0.0024,  0.0385, -0.0118, -0.0166, -0.0007,  0.0190,
+         0.0475, -0.0437], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 117, time 214.03, cls_loss 0.6307 cls_loss_mapping 0.0141 cls_loss_causal 0.5465 re_mapping 0.0160 re_causal 0.0357 /// teacc 98.52 lr 0.00010000
+Epoch 119, weight, value: tensor([[-0.1205, -0.0281,  0.0075,  ..., -0.0136, -0.0579, -0.0822],
+        [-0.0157, -0.0515,  0.0191,  ...,  0.0270,  0.0016, -0.0578],
+        [-0.0339, -0.0522, -0.0640,  ...,  0.0408, -0.0340, -0.0678],
+        ...,
+        [-0.0392,  0.0274,  0.0274,  ...,  0.0278, -0.0308, -0.0616],
+        [-0.0550, -0.0030,  0.0131,  ...,  0.0528, -0.0353, -0.0874],
+        [ 0.0342,  0.0399, -0.0295,  ..., -0.0902, -0.0294,  0.0391]],
+       device='cuda:0'), grad: tensor([[ 5.6791e-04,  2.1970e-04,  7.8857e-05,  ..., -3.9330e-03,
+          1.0929e-03,  3.9130e-05],
+        [ 4.1628e-04,  2.5225e-04, -1.9729e-04,  ..., -3.5534e-03,
+         -1.5726e-03,  8.1301e-05],
+        [ 1.8053e-03, -3.4962e-03,  3.2115e-04,  ...,  2.7428e-03,
+          1.0843e-03,  6.2323e-04],
+        ...,
+        [-1.0460e-02, -4.6182e-04, -2.2297e-03,  ..., -1.5907e-03,
+          1.6699e-03, -2.7447e-03],
+        [ 2.0485e-03,  6.2275e-04,  4.1056e-04,  ...,  3.4466e-03,
+          1.1559e-03,  3.0422e-04],
+        [ 6.0501e-03, -5.8317e-04,  1.2465e-03,  ...,  3.0255e-04,
+          1.4353e-03,  5.0545e-04]], device='cuda:0')
+Epoch 119, bias, value: tensor([-0.0415, -0.0005, -0.0010, -0.0050, -0.0034,  0.0069, -0.0112,  0.0279,
+        -0.0064,  0.0170], device='cuda:0'), grad: tensor([-0.0119, -0.0029,  0.0124, -0.0075, -0.0403,  0.0163,  0.0163, -0.0079,
+         0.0233,  0.0022], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 118, time 214.22, cls_loss 0.6379 cls_loss_mapping 0.0140 cls_loss_causal 0.5493 re_mapping 0.0156 re_causal 0.0342 /// teacc 98.47 lr 0.00010000
+Epoch 120, weight, value: tensor([[-0.1205, -0.0261,  0.0085,  ..., -0.0125, -0.0577, -0.0814],
+        [-0.0161, -0.0517,  0.0205,  ...,  0.0266,  0.0022, -0.0583],
+        [-0.0322, -0.0544, -0.0647,  ...,  0.0399, -0.0338, -0.0679],
+        ...,
+        [-0.0395,  0.0277,  0.0266,  ...,  0.0275, -0.0312, -0.0622],
+        [-0.0551, -0.0036,  0.0121,  ...,  0.0537, -0.0353, -0.0870],
+        [ 0.0342,  0.0398, -0.0291,  ..., -0.0906, -0.0300,  0.0388]],
+       device='cuda:0'), grad: tensor([[ 4.8494e-04,  7.7295e-04,  3.5793e-05,  ..., -4.1389e-03,
+         -7.9441e-04,  2.3603e-04],
+        [ 1.9944e-04,  2.2392e-03,  1.4353e-04,  ...,  1.2226e-03,
+          8.8215e-05,  1.4572e-03],
+        [ 2.5201e-04, -9.7961e-03,  9.7733e-03,  ...,  6.0425e-03,
+          2.6474e-03, -1.3557e-02],
+        ...,
+        [ 1.6558e-04,  5.7945e-03,  3.6793e-03,  ...,  3.7384e-03,
+          9.2649e-04,  1.0309e-03],
+        [ 8.7500e-04,  3.9864e-03, -1.4709e-02,  ..., -5.9013e-03,
+         -3.6736e-03,  1.9484e-03],
+        [ 2.3782e-04, -1.9333e-02,  1.8203e-04,  ..., -3.9902e-03,
+          2.0361e-04,  8.8739e-04]], device='cuda:0')
+Epoch 120, bias, value: tensor([-0.0400, -0.0002, -0.0011, -0.0051, -0.0036,  0.0070, -0.0116,  0.0275,
+        -0.0063,  0.0164], device='cuda:0'), grad: tensor([-0.0268,  0.0136,  0.0054,  0.0131,  0.0149, -0.0110, -0.0077,  0.0223,
+        -0.0078, -0.0160], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 119----------------------------------------------------
+epoch 119, time 214.75, cls_loss 0.6473 cls_loss_mapping 0.0151 cls_loss_causal 0.5520 re_mapping 0.0155 re_causal 0.0359 /// teacc 98.71 lr 0.00010000
+Epoch 121, weight, value: tensor([[-0.1226, -0.0267,  0.0069,  ..., -0.0125, -0.0586, -0.0828],
+        [-0.0167, -0.0520,  0.0202,  ...,  0.0276,  0.0023, -0.0586],
+        [-0.0331, -0.0533, -0.0662,  ...,  0.0400, -0.0347, -0.0676],
+        ...,
+        [-0.0385,  0.0281,  0.0244,  ...,  0.0274, -0.0311, -0.0614],
+        [-0.0549, -0.0036,  0.0125,  ...,  0.0534, -0.0361, -0.0888],
+        [ 0.0351,  0.0386, -0.0290,  ..., -0.0894, -0.0301,  0.0387]],
+       device='cuda:0'), grad: tensor([[-1.6651e-03,  9.8109e-05, -2.3766e-03,  ...,  7.9536e-04,
+          5.1641e-04, -1.5697e-03],
+        [ 3.3021e-05,  5.0402e-04,  1.2684e-04,  ..., -9.3460e-04,
+          5.6922e-05,  3.0613e-04],
+        [ 2.7847e-04, -1.0010e-02, -1.6518e-03,  ..., -7.6628e-04,
+          6.9976e-05, -1.0910e-03],
+        ...,
+        [ 5.5254e-05,  1.1196e-03, -2.2888e-03,  ..., -8.6427e-05,
+          1.5378e-04, -4.4556e-03],
+        [ 3.9940e-03,  8.4839e-03,  2.8133e-03,  ...,  9.0790e-04,
+          6.9571e-04,  5.8441e-03],
+        [ 2.0361e-04, -6.6280e-04,  4.4084e-04,  ...,  5.6553e-04,
+          3.8886e-04,  1.1444e-03]], device='cuda:0')
+Epoch 121, bias, value: tensor([-4.0708e-02,  5.9647e-05, -9.7154e-04, -5.0502e-03, -3.9269e-03,
+         7.0832e-03, -1.1632e-02,  2.7602e-02, -6.4881e-03,  1.6793e-02],
+       device='cuda:0'), grad: tensor([ 0.0087, -0.0122, -0.0356,  0.0041, -0.0484,  0.0329, -0.0069, -0.0143,
+         0.0565,  0.0152], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 120, time 214.21, cls_loss 0.6590 cls_loss_mapping 0.0152 cls_loss_causal 0.5722 re_mapping 0.0159 re_causal 0.0350 /// teacc 98.48 lr 0.00010000
+Epoch 122, weight, value: tensor([[-0.1232, -0.0275,  0.0074,  ..., -0.0134, -0.0590, -0.0838],
+        [-0.0169, -0.0529,  0.0197,  ...,  0.0279,  0.0021, -0.0589],
+        [-0.0327, -0.0531, -0.0663,  ...,  0.0413, -0.0344, -0.0683],
+        ...,
+        [-0.0389,  0.0276,  0.0244,  ...,  0.0284, -0.0306, -0.0617],
+        [-0.0548, -0.0045,  0.0120,  ...,  0.0525, -0.0373, -0.0897],
+        [ 0.0348,  0.0389, -0.0285,  ..., -0.0895, -0.0304,  0.0390]],
+       device='cuda:0'), grad: tensor([[-2.7008e-03,  1.2856e-03, -4.5204e-03,  ...,  6.0120e-03,
+         -3.3360e-03,  1.1311e-03],
+        [-1.0548e-03,  2.2793e-03,  1.1258e-05,  ..., -2.5768e-03,
+          2.4014e-03, -2.7180e-03],
+        [ 2.5678e-04,  1.4124e-03,  5.2184e-05,  ..., -1.4229e-03,
+          2.2621e-03,  6.3229e-04],
+        ...,
+        [ 5.0116e-04,  4.3058e-04,  1.0467e-04,  ...,  4.8637e-03,
+          3.8719e-04,  8.2064e-04],
+        [-7.9155e-05,  6.5708e-04,  1.5211e-04,  ...,  6.2714e-03,
+          9.2888e-04,  9.2745e-04],
+        [-5.2309e-04,  2.1541e-04, -6.0618e-05,  ..., -2.3003e-03,
+          2.2328e-04, -5.2452e-04]], device='cuda:0')
+Epoch 122, bias, value: tensor([-4.1007e-02, -5.9427e-04, -2.7417e-05, -5.2969e-03, -3.6806e-03,
+         6.8738e-03, -1.1815e-02,  2.8935e-02, -8.0402e-03,  1.7384e-02],
+       device='cuda:0'), grad: tensor([ 0.0131,  0.0020,  0.0045, -0.0176, -0.0773,  0.0165,  0.0216,  0.0212,
+         0.0274, -0.0114], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 121, time 214.00, cls_loss 0.6822 cls_loss_mapping 0.0131 cls_loss_causal 0.5914 re_mapping 0.0155 re_causal 0.0345 /// teacc 98.50 lr 0.00010000
+Epoch 123, weight, value: tensor([[-0.1216, -0.0283,  0.0074,  ..., -0.0139, -0.0586, -0.0835],
+        [-0.0172, -0.0543,  0.0202,  ...,  0.0280,  0.0010, -0.0598],
+        [-0.0328, -0.0547, -0.0676,  ...,  0.0421, -0.0343, -0.0670],
+        ...,
+        [-0.0401,  0.0273,  0.0258,  ...,  0.0282, -0.0307, -0.0626],
+        [-0.0534, -0.0044,  0.0109,  ...,  0.0531, -0.0358, -0.0891],
+        [ 0.0358,  0.0401, -0.0284,  ..., -0.0901, -0.0303,  0.0380]],
+       device='cuda:0'), grad: tensor([[ 7.5150e-04,  2.4271e-04,  1.5659e-03,  ..., -3.5534e-03,
+          7.0524e-04,  1.5831e-04],
+        [ 4.4107e-04,  3.5000e-04,  1.3189e-03,  ...,  1.8759e-03,
+          1.0834e-03,  1.3041e-04],
+        [ 4.4632e-04, -1.1568e-03,  1.1702e-03,  ..., -1.1765e-02,
+         -9.6817e-03,  2.4676e-04],
+        ...,
+        [ 2.6035e-04, -2.0266e-05,  9.6607e-04,  ...,  1.8845e-03,
+          1.0357e-03,  3.3665e-04],
+        [ 2.4819e-04,  9.3126e-04,  1.7853e-03,  ...,  1.3685e-03,
+          6.9046e-04,  9.1362e-04],
+        [-1.0509e-03,  9.1076e-04,  3.1738e-03,  ...,  2.2449e-03,
+          5.4979e-04, -9.6369e-04]], device='cuda:0')
+Epoch 123, bias, value: tensor([-0.0410, -0.0006,  0.0006, -0.0051, -0.0033,  0.0059, -0.0122,  0.0286,
+        -0.0078,  0.0174], device='cuda:0'), grad: tensor([-0.0161,  0.0140, -0.0462, -0.0048,  0.0112,  0.0103, -0.0136,  0.0153,
+         0.0132,  0.0166], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 122, time 214.13, cls_loss 0.6422 cls_loss_mapping 0.0135 cls_loss_causal 0.5479 re_mapping 0.0158 re_causal 0.0349 /// teacc 98.40 lr 0.00010000
+Epoch 124, weight, value: tensor([[-0.1223, -0.0278,  0.0082,  ..., -0.0130, -0.0585, -0.0823],
+        [-0.0181, -0.0537,  0.0202,  ...,  0.0280,  0.0002, -0.0609],
+        [-0.0324, -0.0543, -0.0684,  ...,  0.0414, -0.0347, -0.0666],
+        ...,
+        [-0.0387,  0.0274,  0.0267,  ...,  0.0282, -0.0299, -0.0623],
+        [-0.0543, -0.0046,  0.0112,  ...,  0.0539, -0.0360, -0.0902],
+        [ 0.0357,  0.0393, -0.0291,  ..., -0.0903, -0.0293,  0.0384]],
+       device='cuda:0'), grad: tensor([[ 3.4752e-03,  2.4211e-04,  2.5177e-03,  ..., -3.1757e-04,
+          7.9632e-04,  1.2293e-03],
+        [ 1.8224e-05, -2.7828e-03,  1.2369e-03,  ..., -6.5536e-03,
+          1.0509e-03,  1.1545e-04],
+        [ 2.7251e-04,  9.9564e-04,  1.1139e-03,  ...,  1.7605e-03,
+          9.8801e-04,  2.9039e-04],
+        ...,
+        [ 5.9843e-04, -6.3171e-02,  1.1620e-02,  ...,  8.3694e-03,
+          4.4560e-04,  7.3671e-04],
+        [ 7.2718e-04, -3.1357e-03, -1.0246e-02,  ..., -6.7177e-03,
+          9.7692e-05,  9.7227e-04],
+        [-3.3021e-04,  6.4026e-02,  1.4057e-03,  ...,  1.5602e-03,
+          2.4915e-04,  1.5879e-04]], device='cuda:0')
+Epoch 124, bias, value: tensor([-4.0826e-02, -6.9545e-05,  4.9023e-04, -5.6946e-03, -3.3404e-03,
+         5.7964e-03, -1.2686e-02,  2.8223e-02, -6.9016e-03,  1.7681e-02],
+       device='cuda:0'), grad: tensor([-0.0051, -0.0048,  0.0347,  0.0444,  0.0113, -0.0956, -0.0025,  0.0186,
+        -0.0146,  0.0136], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 123, time 214.06, cls_loss 0.6517 cls_loss_mapping 0.0148 cls_loss_causal 0.5498 re_mapping 0.0148 re_causal 0.0327 /// teacc 98.32 lr 0.00010000
+Epoch 125, weight, value: tensor([[-1.2389e-01, -2.8001e-02,  8.6844e-03,  ..., -1.3437e-02,
+         -5.8099e-02, -8.1284e-02],
+        [-1.7297e-02, -5.3578e-02,  1.9731e-02,  ...,  2.7561e-02,
+          3.6909e-05, -6.1791e-02],
+        [-3.3333e-02, -5.3676e-02, -6.9748e-02,  ...,  4.2636e-02,
+         -3.4836e-02, -6.6161e-02],
+        ...,
+        [-3.7980e-02,  2.7927e-02,  2.7079e-02,  ...,  2.6971e-02,
+         -3.1327e-02, -6.1369e-02],
+        [-5.4691e-02, -5.2084e-03,  1.1311e-02,  ...,  5.5171e-02,
+         -3.6421e-02, -9.1268e-02],
+        [ 3.4489e-02,  3.9893e-02, -3.0131e-02,  ..., -9.0470e-02,
+         -2.9973e-02,  3.7858e-02]], device='cuda:0'), grad: tensor([[ 7.5340e-03,  5.1079e-03,  9.5825e-03,  ...,  9.4080e-04,
+          3.6564e-03,  1.2369e-03],
+        [ 2.3353e-04,  1.9817e-03,  2.7313e-03,  ..., -1.7023e-03,
+         -3.9177e-03,  9.3699e-04],
+        [ 7.1716e-04,  5.8937e-03,  8.2970e-04,  ...,  1.0490e-03,
+          2.2774e-03,  1.3237e-03],
+        ...,
+        [ 3.1929e-03,  3.4241e-02, -7.4272e-03,  ...,  6.7711e-05,
+         -1.0605e-03,  1.0586e-03],
+        [ 5.5838e-04, -1.0017e-02,  1.0338e-03,  ...,  8.5926e-04,
+         -6.9504e-03,  6.4468e-04],
+        [-7.8583e-03, -2.7313e-02, -8.8806e-03,  ...,  2.0275e-03,
+          1.4620e-03,  2.5578e-03]], device='cuda:0')
+Epoch 125, bias, value: tensor([-0.0412,  0.0002,  0.0008, -0.0049, -0.0032,  0.0060, -0.0129,  0.0273,
+        -0.0072,  0.0177], device='cuda:0'), grad: tensor([ 0.0405, -0.0256,  0.0079, -0.0264, -0.0249,  0.0153,  0.0021,  0.0227,
+         0.0051, -0.0167], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 124, time 214.23, cls_loss 0.6420 cls_loss_mapping 0.0110 cls_loss_causal 0.5517 re_mapping 0.0158 re_causal 0.0349 /// teacc 98.24 lr 0.00010000
+Epoch 126, weight, value: tensor([[-0.1264, -0.0286,  0.0086,  ..., -0.0139, -0.0570, -0.0816],
+        [-0.0181, -0.0513,  0.0193,  ...,  0.0264,  0.0001, -0.0618],
+        [-0.0329, -0.0531, -0.0705,  ...,  0.0438, -0.0351, -0.0664],
+        ...,
+        [-0.0407,  0.0273,  0.0262,  ...,  0.0268, -0.0318, -0.0616],
+        [-0.0541, -0.0053,  0.0129,  ...,  0.0555, -0.0365, -0.0906],
+        [ 0.0356,  0.0398, -0.0298,  ..., -0.0896, -0.0315,  0.0380]],
+       device='cuda:0'), grad: tensor([[ 1.3840e-04,  8.9169e-04, -9.8646e-05,  ...,  9.3126e-04,
+          3.2037e-05,  1.0653e-03],
+        [-4.2648e-03,  1.1244e-03, -5.0507e-03,  ..., -2.4757e-03,
+          1.8150e-05, -3.8948e-03],
+        [ 2.4395e-03,  5.3749e-03,  1.8911e-03,  ...,  1.7176e-03,
+          1.6146e-03,  1.9398e-03],
+        ...,
+        [ 1.7443e-03,  2.8534e-03,  2.0142e-03,  ..., -5.4693e-04,
+         -2.4509e-04,  2.4319e-03],
+        [ 6.3944e-04,  7.8430e-03,  2.6846e-04,  ...,  1.8167e-03,
+          1.2243e-04,  1.1158e-03],
+        [ 1.9293e-03,  1.0216e-02,  1.5440e-03,  ...,  3.6011e-03,
+          7.2956e-04,  2.4052e-03]], device='cuda:0')
+Epoch 126, bias, value: tensor([-0.0417,  0.0003,  0.0013, -0.0050, -0.0035,  0.0068, -0.0134,  0.0271,
+        -0.0067,  0.0175], device='cuda:0'), grad: tensor([ 0.0081, -0.0060,  0.0204, -0.0558, -0.0321,  0.0023,  0.0077,  0.0035,
+         0.0161,  0.0358], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 125, time 214.15, cls_loss 0.6412 cls_loss_mapping 0.0147 cls_loss_causal 0.5561 re_mapping 0.0164 re_causal 0.0352 /// teacc 98.48 lr 0.00010000
+Epoch 127, weight, value: tensor([[-0.1273, -0.0289,  0.0084,  ..., -0.0126, -0.0577, -0.0812],
+        [-0.0168, -0.0514,  0.0186,  ...,  0.0259, -0.0014, -0.0607],
+        [-0.0315, -0.0537, -0.0711,  ...,  0.0425, -0.0347, -0.0679],
+        ...,
+        [-0.0412,  0.0275,  0.0261,  ...,  0.0274, -0.0332, -0.0622],
+        [-0.0540, -0.0058,  0.0124,  ...,  0.0564, -0.0363, -0.0914],
+        [ 0.0358,  0.0398, -0.0290,  ..., -0.0886, -0.0291,  0.0383]],
+       device='cuda:0'), grad: tensor([[ 3.5977e-04,  1.0505e-05,  2.5482e-03,  ...,  4.2000e-03,
+          3.8605e-03,  5.5838e-04],
+        [ 2.1422e-04, -8.2552e-05,  1.3056e-03,  ...,  3.5114e-03,
+          1.7118e-03,  3.0589e-04],
+        [ 9.7513e-05,  4.9211e-06, -1.1200e-02,  ...,  2.6817e-03,
+         -2.8305e-02,  1.6332e-04],
+        ...,
+        [-1.0550e-05,  2.0340e-06, -1.7452e-03,  ..., -8.3084e-03,
+          2.1267e-03, -5.0402e-04],
+        [ 7.9870e-04,  4.0919e-05, -4.9171e-03,  ..., -7.2823e-03,
+         -5.1994e-03,  1.1091e-03],
+        [-1.7852e-05,  1.0885e-05,  1.7653e-03,  ...,  3.5019e-03,
+          2.4776e-03,  1.2004e-04]], device='cuda:0')
+Epoch 127, bias, value: tensor([-0.0408, -0.0003,  0.0003, -0.0052, -0.0033,  0.0066, -0.0139,  0.0283,
+        -0.0071,  0.0181], device='cuda:0'), grad: tensor([ 0.0191,  0.0118, -0.0179,  0.0109, -0.0192,  0.0178,  0.0168, -0.0343,
+        -0.0202,  0.0151], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 126, time 214.78, cls_loss 0.6349 cls_loss_mapping 0.0113 cls_loss_causal 0.5562 re_mapping 0.0160 re_causal 0.0357 /// teacc 98.61 lr 0.00010000
+Epoch 128, weight, value: tensor([[-0.1267, -0.0291,  0.0084,  ..., -0.0144, -0.0576, -0.0818],
+        [-0.0178, -0.0520,  0.0187,  ...,  0.0270, -0.0013, -0.0610],
+        [-0.0304, -0.0536, -0.0706,  ...,  0.0410, -0.0351, -0.0684],
+        ...,
+        [-0.0418,  0.0265,  0.0267,  ...,  0.0267, -0.0337, -0.0627],
+        [-0.0546, -0.0062,  0.0129,  ...,  0.0570, -0.0369, -0.0919],
+        [ 0.0376,  0.0403, -0.0299,  ..., -0.0888, -0.0290,  0.0396]],
+       device='cuda:0'), grad: tensor([[ 1.0471e-03, -1.8616e-03,  1.1897e-04,  ...,  2.7599e-03,
+          2.3496e-04,  2.1279e-04],
+        [-3.3140e-05,  1.5453e-05, -7.9393e-05,  ...,  1.1215e-03,
+          2.6137e-05,  1.7583e-04],
+        [ 3.0956e-03,  4.3249e-04,  7.6389e-04,  ...,  3.4866e-03,
+          3.5238e-04,  1.9817e-03],
+        ...,
+        [ 2.2182e-03, -2.5854e-05,  1.4038e-03,  ...,  4.9706e-03,
+          3.1738e-03,  8.8501e-04],
+        [-7.4387e-04,  3.1424e-04, -4.6039e-04,  ...,  1.7920e-03,
+          1.3208e-04,  4.4703e-04],
+        [-1.0475e-02, -9.9754e-04, -2.8372e-04,  ..., -5.4665e-03,
+         -1.6922e-02, -1.5430e-03]], device='cuda:0')
+Epoch 128, bias, value: tensor([-4.1836e-02,  7.0876e-05, -8.6509e-06, -4.6336e-03, -2.7277e-03,
+         5.9588e-03, -1.3718e-02,  2.8319e-02, -7.2488e-03,  1.8364e-02],
+       device='cuda:0'), grad: tensor([ 0.0231,  0.0040,  0.0083, -0.0025,  0.0264,  0.0090, -0.0790,  0.0149,
+         0.0070, -0.0112], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 127, time 218.18, cls_loss 0.6487 cls_loss_mapping 0.0123 cls_loss_causal 0.5666 re_mapping 0.0153 re_causal 0.0348 /// teacc 98.62 lr 0.00010000
+Epoch 129, weight, value: tensor([[-0.1275, -0.0292,  0.0091,  ..., -0.0145, -0.0562, -0.0824],
+        [-0.0186, -0.0525,  0.0194,  ...,  0.0269, -0.0017, -0.0612],
+        [-0.0311, -0.0547, -0.0700,  ...,  0.0410, -0.0355, -0.0685],
+        ...,
+        [-0.0419,  0.0275,  0.0275,  ...,  0.0272, -0.0327, -0.0625],
+        [-0.0541, -0.0061,  0.0154,  ...,  0.0575, -0.0372, -0.0916],
+        [ 0.0375,  0.0399, -0.0318,  ..., -0.0890, -0.0289,  0.0399]],
+       device='cuda:0'), grad: tensor([[ 1.2436e-03,  9.7871e-05,  3.9935e-04,  ...,  3.8052e-03,
+          1.2410e-04,  2.8968e-04],
+        [-3.5629e-03,  1.5593e-04, -9.1696e-04,  ...,  2.9564e-03,
+          3.5048e-04, -5.1384e-03],
+        [-1.0081e-05, -2.7733e-03,  3.8671e-04,  ..., -1.3351e-03,
+          3.3784e-04, -3.2730e-03],
+        ...,
+        [-4.1656e-03,  8.7261e-04, -1.4938e-02,  ..., -1.7609e-02,
+         -2.8267e-03,  8.0872e-04],
+        [-2.9099e-02, -9.3937e-04,  2.4605e-03,  ..., -9.6207e-03,
+         -1.8206e-03, -1.4877e-03],
+        [ 5.6877e-03,  7.0333e-04,  4.9820e-03,  ...,  8.5983e-03,
+          8.7547e-04,  4.5204e-03]], device='cuda:0')
+Epoch 129, bias, value: tensor([-0.0403,  0.0002,  0.0003, -0.0050, -0.0039,  0.0058, -0.0133,  0.0288,
+        -0.0077,  0.0177], device='cuda:0'), grad: tensor([ 0.0201,  0.0046, -0.0037, -0.0010,  0.0548, -0.0488,  0.0453, -0.0505,
+        -0.0574,  0.0366], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 128, time 216.18, cls_loss 0.6196 cls_loss_mapping 0.0127 cls_loss_causal 0.5326 re_mapping 0.0147 re_causal 0.0335 /// teacc 98.48 lr 0.00010000
+Epoch 130, weight, value: tensor([[-0.1271, -0.0290,  0.0087,  ..., -0.0150, -0.0558, -0.0816],
+        [-0.0194, -0.0527,  0.0209,  ...,  0.0269, -0.0021, -0.0613],
+        [-0.0317, -0.0540, -0.0699,  ...,  0.0423, -0.0356, -0.0676],
+        ...,
+        [-0.0433,  0.0280,  0.0270,  ...,  0.0282, -0.0318, -0.0641],
+        [-0.0546, -0.0061,  0.0143,  ...,  0.0564, -0.0383, -0.0916],
+        [ 0.0379,  0.0397, -0.0326,  ..., -0.0888, -0.0279,  0.0395]],
+       device='cuda:0'), grad: tensor([[ 9.1970e-05, -1.0467e-04,  1.1110e-03,  ...,  4.2992e-03,
+          1.2445e-03,  6.5744e-05],
+        [ 1.3256e-03,  6.5565e-06,  2.8534e-03,  ...,  7.9422e-03,
+          2.5845e-03,  8.8406e-04],
+        [ 1.1462e-04, -5.2185e-03,  9.8419e-04,  ..., -1.1253e-02,
+         -4.4136e-03, -5.9223e-04],
+        ...,
+        [-3.2616e-03,  9.0551e-04, -7.3700e-03,  ..., -1.4694e-02,
+         -8.4229e-03, -1.3599e-03],
+        [ 9.8038e-04,  1.0586e-03, -6.6614e-04,  ..., -1.7023e-03,
+          2.3327e-03,  7.5006e-04],
+        [ 1.7929e-03, -2.8000e-03,  3.7670e-03,  ...,  4.4441e-03,
+          1.5278e-03,  1.5049e-03]], device='cuda:0')
+Epoch 130, bias, value: tensor([-0.0405,  0.0012,  0.0008, -0.0054, -0.0041,  0.0049, -0.0134,  0.0297,
+        -0.0080,  0.0175], device='cuda:0'), grad: tensor([ 0.0277,  0.0352, -0.0376,  0.0352,  0.0173,  0.0174, -0.0596, -0.0475,
+        -0.0081,  0.0201], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 129, time 216.86, cls_loss 0.6438 cls_loss_mapping 0.0133 cls_loss_causal 0.5665 re_mapping 0.0155 re_causal 0.0358 /// teacc 98.40 lr 0.00010000
+Epoch 131, weight, value: tensor([[-0.1284, -0.0269,  0.0092,  ..., -0.0162, -0.0556, -0.0809],
+        [-0.0180, -0.0540,  0.0202,  ...,  0.0259, -0.0035, -0.0605],
+        [-0.0316, -0.0538, -0.0703,  ...,  0.0413, -0.0364, -0.0672],
+        ...,
+        [-0.0428,  0.0282,  0.0267,  ...,  0.0283, -0.0308, -0.0658],
+        [-0.0549, -0.0056,  0.0142,  ...,  0.0580, -0.0376, -0.0919],
+        [ 0.0369,  0.0388, -0.0332,  ..., -0.0890, -0.0274,  0.0405]],
+       device='cuda:0'), grad: tensor([[-2.1911e-04, -7.4921e-03,  4.1008e-03,  ..., -4.4899e-03,
+         -3.2425e-03,  4.0913e-04],
+        [ 2.1249e-05,  4.0016e-03,  2.7627e-05,  ...,  7.4387e-03,
+          2.9144e-03,  6.1131e-04],
+        [ 3.9172e-04,  2.7866e-03,  6.1131e-04,  ...,  5.3596e-03,
+          1.8940e-03,  7.6437e-04],
+        ...,
+        [-7.7200e-04, -6.0577e-03, -1.2646e-03,  ..., -7.3166e-03,
+         -7.7724e-05, -1.5712e-04],
+        [ 4.6158e-04,  2.6169e-03,  4.6134e-04,  ...,  6.6681e-03,
+          2.5024e-03,  1.4219e-03],
+        [-1.2102e-03,  2.7580e-03,  2.8229e-04,  ..., -3.2616e-04,
+          2.5826e-03,  7.0763e-04]], device='cuda:0')
+Epoch 131, bias, value: tensor([-0.0402, -0.0002,  0.0002, -0.0061, -0.0035,  0.0063, -0.0137,  0.0292,
+        -0.0072,  0.0180], device='cuda:0'), grad: tensor([-0.0394,  0.0298,  0.0245,  0.0111, -0.0403, -0.0114,  0.0238, -0.0262,
+         0.0320, -0.0039], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 130, time 215.02, cls_loss 0.6367 cls_loss_mapping 0.0124 cls_loss_causal 0.5427 re_mapping 0.0152 re_causal 0.0333 /// teacc 98.52 lr 0.00010000
+Epoch 132, weight, value: tensor([[-0.1309, -0.0287,  0.0097,  ..., -0.0162, -0.0549, -0.0815],
+        [-0.0184, -0.0545,  0.0203,  ...,  0.0264, -0.0035, -0.0606],
+        [-0.0321, -0.0546, -0.0706,  ...,  0.0406, -0.0367, -0.0683],
+        ...,
+        [-0.0429,  0.0284,  0.0265,  ...,  0.0282, -0.0306, -0.0664],
+        [-0.0543, -0.0054,  0.0148,  ...,  0.0589, -0.0371, -0.0914],
+        [ 0.0371,  0.0384, -0.0338,  ..., -0.0911, -0.0284,  0.0405]],
+       device='cuda:0'), grad: tensor([[-3.5197e-05,  4.0412e-05,  1.1927e-04,  ..., -1.3418e-03,
+          9.4461e-04,  1.6701e-04],
+        [ 1.0459e-06,  6.6869e-06,  5.6648e-04,  ...,  2.0889e-02,
+          5.5923e-03,  1.0478e-04],
+        [ 1.9707e-06,  1.0127e-04, -5.0974e-04,  ..., -6.5002e-03,
+         -7.3090e-03,  4.1819e-04],
+        ...,
+        [ 1.5676e-05,  9.1136e-05, -5.3787e-04,  ..., -8.2474e-03,
+          3.9330e-03, -3.1137e-04],
+        [ 3.2991e-05,  5.1796e-05,  3.8218e-04,  ..., -1.6602e-02,
+         -1.1604e-02,  3.1829e-04],
+        [-6.7830e-05, -1.3065e-04, -9.3174e-04,  ..., -2.2297e-03,
+         -1.6766e-03,  8.1956e-05]], device='cuda:0')
+Epoch 132, bias, value: tensor([-4.1679e-02, -2.1365e-05,  2.3002e-04, -6.5972e-03, -3.2754e-03,
+         5.6250e-03, -1.1911e-02,  2.9683e-02, -5.9936e-03,  1.6487e-02],
+       device='cuda:0'), grad: tensor([-0.0020,  0.0539, -0.0091, -0.0058, -0.0087,  0.0167,  0.0015, -0.0314,
+         0.0011, -0.0163], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 131, time 215.53, cls_loss 0.6404 cls_loss_mapping 0.0141 cls_loss_causal 0.5506 re_mapping 0.0149 re_causal 0.0333 /// teacc 98.58 lr 0.00010000
+Epoch 133, weight, value: tensor([[-0.1309, -0.0275,  0.0098,  ..., -0.0167, -0.0558, -0.0804],
+        [-0.0191, -0.0540,  0.0199,  ...,  0.0274, -0.0030, -0.0607],
+        [-0.0322, -0.0545, -0.0711,  ...,  0.0390, -0.0374, -0.0680],
+        ...,
+        [-0.0425,  0.0282,  0.0258,  ...,  0.0285, -0.0305, -0.0673],
+        [-0.0544, -0.0049,  0.0149,  ...,  0.0583, -0.0372, -0.0918],
+        [ 0.0367,  0.0389, -0.0339,  ..., -0.0907, -0.0280,  0.0412]],
+       device='cuda:0'), grad: tensor([[ 8.7738e-05, -2.3937e-03, -8.1177e-03,  ...,  2.2774e-03,
+         -1.3748e-02, -3.8242e-03],
+        [ 6.4325e-04,  1.0500e-03,  5.4741e-04,  ...,  6.9580e-03,
+          2.9602e-03,  4.0269e-04],
+        [ 1.1539e-04,  9.6142e-05,  7.7391e-04,  ...,  3.9043e-03,
+          1.5259e-03,  4.2152e-04],
+        ...,
+        [-1.7441e-02, -1.1343e-04, -1.6184e-03,  ...,  6.5994e-04,
+         -2.8362e-03, -1.0620e-02],
+        [-5.2147e-03,  6.0177e-04, -1.2350e-03,  ..., -9.6741e-03,
+          2.1019e-03, -2.6855e-03],
+        [ 1.6205e-02,  1.7347e-03,  2.9469e-03,  ..., -6.0768e-03,
+          5.7220e-03,  9.6741e-03]], device='cuda:0')
+Epoch 133, bias, value: tensor([-0.0424,  0.0007,  0.0005, -0.0061, -0.0033,  0.0056, -0.0115,  0.0287,
+        -0.0071,  0.0174], device='cuda:0'), grad: tensor([-0.0356,  0.0328,  0.0199, -0.0215,  0.0339,  0.0436, -0.0228, -0.0097,
+        -0.0319, -0.0087], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 132, time 215.21, cls_loss 0.6433 cls_loss_mapping 0.0116 cls_loss_causal 0.5569 re_mapping 0.0149 re_causal 0.0341 /// teacc 98.43 lr 0.00010000
+Epoch 134, weight, value: tensor([[-0.1294, -0.0281,  0.0102,  ..., -0.0168, -0.0552, -0.0816],
+        [-0.0199, -0.0537,  0.0215,  ...,  0.0273, -0.0029, -0.0611],
+        [-0.0325, -0.0535, -0.0723,  ...,  0.0396, -0.0371, -0.0679],
+        ...,
+        [-0.0431,  0.0286,  0.0265,  ...,  0.0291, -0.0302, -0.0681],
+        [-0.0541, -0.0049,  0.0128,  ...,  0.0580, -0.0371, -0.0920],
+        [ 0.0373,  0.0387, -0.0339,  ..., -0.0914, -0.0287,  0.0413]],
+       device='cuda:0'), grad: tensor([[ 2.7752e-03,  2.3973e-04,  5.1737e-04,  ...,  3.1471e-03,
+          3.6011e-03,  2.8133e-03],
+        [ 9.5740e-06,  5.6496e-03,  9.1851e-05,  ..., -7.7324e-03,
+          6.9332e-04,  1.0930e-05],
+        [ 9.8038e-04,  4.8351e-04,  2.5201e-04,  ...,  2.3384e-03,
+          1.0653e-03,  9.8133e-04],
+        ...,
+        [ 8.4996e-05,  8.3923e-04,  7.9298e-04,  ...,  5.0545e-03,
+          3.2501e-03,  9.0837e-05],
+        [ 1.8585e-04,  7.8297e-04,  4.6277e-04,  ..., -4.0016e-03,
+         -1.0666e-02,  4.6968e-04],
+        [ 2.1017e-04, -1.3538e-01,  2.5034e-04,  ..., -2.5681e-02,
+          3.6907e-03,  2.4772e-04]], device='cuda:0')
+Epoch 134, bias, value: tensor([-0.0420,  0.0005,  0.0008, -0.0062, -0.0045,  0.0052, -0.0110,  0.0295,
+        -0.0073,  0.0174], device='cuda:0'), grad: tensor([ 0.0250, -0.0440,  0.0175,  0.0044,  0.0592, -0.0474,  0.0189,  0.0256,
+         0.0034, -0.0626], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 133, time 215.27, cls_loss 0.6479 cls_loss_mapping 0.0151 cls_loss_causal 0.5661 re_mapping 0.0147 re_causal 0.0320 /// teacc 98.54 lr 0.00010000
+Epoch 135, weight, value: tensor([[-0.1292, -0.0291,  0.0105,  ..., -0.0170, -0.0557, -0.0816],
+        [-0.0202, -0.0538,  0.0203,  ...,  0.0267, -0.0032, -0.0628],
+        [-0.0335, -0.0534, -0.0714,  ...,  0.0405, -0.0375, -0.0683],
+        ...,
+        [-0.0427,  0.0278,  0.0259,  ...,  0.0290, -0.0306, -0.0679],
+        [-0.0540, -0.0061,  0.0137,  ...,  0.0591, -0.0356, -0.0909],
+        [ 0.0371,  0.0414, -0.0336,  ..., -0.0906, -0.0285,  0.0403]],
+       device='cuda:0'), grad: tensor([[-2.8563e-04,  3.9554e-04,  1.0353e-04,  ...,  4.1809e-03,
+          3.3116e-04,  1.2267e-04],
+        [ 3.5185e-06,  3.1328e-04,  2.4748e-04,  ...,  4.8866e-03,
+          5.8603e-04,  4.4703e-06],
+        [ 8.4460e-05,  7.1192e-04,  2.9182e-04,  ...,  6.5651e-03,
+          1.3151e-03,  2.2817e-04],
+        ...,
+        [ 3.8475e-05,  4.5013e-04, -5.6000e-03,  ..., -1.5078e-03,
+          1.6298e-03,  3.3170e-05],
+        [ 3.0637e-04, -2.8019e-03,  2.7847e-04,  ..., -1.6966e-03,
+         -1.0166e-03, -2.9945e-03],
+        [-3.2425e-05,  5.7554e-04,  9.9182e-04,  ..., -7.5150e-04,
+          9.4175e-04,  2.1338e-04]], device='cuda:0')
+Epoch 135, bias, value: tensor([-4.2428e-02,  9.1617e-05,  1.0651e-03, -6.0409e-03, -5.5962e-03,
+         4.9534e-03, -1.0143e-02,  2.9424e-02, -7.0573e-03,  1.8071e-02],
+       device='cuda:0'), grad: tensor([ 0.0190,  0.0245,  0.0275,  0.0044, -0.0591,  0.0181,  0.0101, -0.0190,
+        -0.0256,  0.0001], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 134, time 215.15, cls_loss 0.6253 cls_loss_mapping 0.0102 cls_loss_causal 0.5371 re_mapping 0.0150 re_causal 0.0338 /// teacc 98.45 lr 0.00010000
+Epoch 136, weight, value: tensor([[-0.1305, -0.0291,  0.0095,  ..., -0.0169, -0.0560, -0.0822],
+        [-0.0217, -0.0552,  0.0192,  ...,  0.0265, -0.0033, -0.0637],
+        [-0.0325, -0.0522, -0.0709,  ...,  0.0415, -0.0375, -0.0684],
+        ...,
+        [-0.0427,  0.0269,  0.0258,  ...,  0.0288, -0.0318, -0.0680],
+        [-0.0545, -0.0051,  0.0143,  ...,  0.0597, -0.0346, -0.0908],
+        [ 0.0364,  0.0413, -0.0344,  ..., -0.0911, -0.0275,  0.0398]],
+       device='cuda:0'), grad: tensor([[ 4.2486e-04,  8.8024e-04,  8.3876e-04,  ...,  2.4853e-03,
+         -4.3678e-04,  1.6785e-04],
+        [ 1.4842e-04,  9.0599e-04,  4.6492e-04,  ..., -4.4289e-03,
+          2.0657e-06,  3.4541e-05],
+        [ 3.6793e-03,  4.6873e-04,  3.4485e-03,  ...,  6.7759e-04,
+          1.5870e-05,  1.8346e-04],
+        ...,
+        [ 3.3398e-03,  8.8263e-04,  4.4975e-03,  ...,  8.2932e-03,
+          7.5772e-06,  1.7958e-03],
+        [ 4.0474e-03,  1.6129e-02,  1.1559e-03,  ...,  3.0708e-03,
+          1.2094e-04,  6.0654e-03],
+        [-1.4763e-02,  1.6556e-02, -1.0620e-02,  ..., -4.2267e-03,
+         -1.8585e-04, -1.2505e-02]], device='cuda:0')
+Epoch 136, bias, value: tensor([-0.0412, -0.0005,  0.0018, -0.0075, -0.0050,  0.0050, -0.0111,  0.0293,
+        -0.0064,  0.0180], device='cuda:0'), grad: tensor([ 0.0113, -0.0232,  0.0277, -0.0184, -0.0151, -0.0440,  0.0147,  0.0340,
+         0.0365, -0.0234], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 135, time 215.14, cls_loss 0.6660 cls_loss_mapping 0.0089 cls_loss_causal 0.5777 re_mapping 0.0144 re_causal 0.0341 /// teacc 98.49 lr 0.00010000
+Epoch 137, weight, value: tensor([[-0.1303, -0.0293,  0.0093,  ..., -0.0174, -0.0556, -0.0833],
+        [-0.0216, -0.0538,  0.0201,  ...,  0.0289, -0.0024, -0.0638],
+        [-0.0332, -0.0527, -0.0715,  ...,  0.0398, -0.0376, -0.0669],
+        ...,
+        [-0.0424,  0.0271,  0.0255,  ...,  0.0295, -0.0316, -0.0680],
+        [-0.0551, -0.0051,  0.0159,  ...,  0.0586, -0.0348, -0.0916],
+        [ 0.0361,  0.0405, -0.0358,  ..., -0.0912, -0.0279,  0.0398]],
+       device='cuda:0'), grad: tensor([[ 4.5538e-04,  1.1027e-04,  6.7806e-04,  ..., -5.6801e-03,
+          1.3914e-03, -3.6373e-03],
+        [ 5.7101e-05,  4.2224e-04, -1.5198e-02,  ..., -1.8051e-02,
+         -9.3269e-04, -6.1989e-04],
+        [ 2.8419e-04,  2.1696e-04,  3.1891e-03,  ...,  6.4926e-03,
+          1.2636e-03,  3.9959e-04],
+        ...,
+        [ 1.4842e-05, -1.0443e-03,  1.4591e-03,  ...,  5.4054e-03,
+          6.9523e-04,  3.2496e-04],
+        [ 1.8668e-04,  4.5371e-04,  4.6234e-03,  ...,  8.3466e-03,
+          3.3321e-03,  9.1839e-04],
+        [ 2.7820e-05, -4.6463e-03,  8.4782e-04,  ..., -1.3733e-03,
+          6.3848e-04, -4.2510e-04]], device='cuda:0')
+Epoch 137, bias, value: tensor([-0.0413,  0.0013,  0.0012, -0.0069, -0.0048,  0.0053, -0.0110,  0.0286,
+        -0.0075,  0.0176], device='cuda:0'), grad: tensor([-0.0289, -0.0669,  0.0300,  0.0124,  0.0056,  0.0404, -0.0326,  0.0211,
+         0.0338, -0.0150], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 136, time 215.29, cls_loss 0.6172 cls_loss_mapping 0.0102 cls_loss_causal 0.5282 re_mapping 0.0144 re_causal 0.0321 /// teacc 98.48 lr 0.00010000
+Epoch 138, weight, value: tensor([[-0.1299, -0.0298,  0.0104,  ..., -0.0185, -0.0561, -0.0834],
+        [-0.0221, -0.0539,  0.0197,  ...,  0.0273, -0.0026, -0.0640],
+        [-0.0330, -0.0530, -0.0712,  ...,  0.0402, -0.0363, -0.0663],
+        ...,
+        [-0.0426,  0.0275,  0.0246,  ...,  0.0301, -0.0318, -0.0685],
+        [-0.0548, -0.0049,  0.0155,  ...,  0.0582, -0.0351, -0.0921],
+        [ 0.0361,  0.0397, -0.0347,  ..., -0.0920, -0.0277,  0.0397]],
+       device='cuda:0'), grad: tensor([[ 2.0969e-04,  1.2487e-05,  2.0828e-03,  ...,  2.0370e-03,
+          3.3927e-04, -6.5374e-04],
+        [ 2.7227e-04,  9.8169e-05, -1.5221e-03,  ...,  1.0033e-03,
+          3.7813e-04,  8.0705e-05],
+        [-6.4697e-03,  5.7936e-05, -1.3990e-03,  ...,  1.2932e-03,
+          6.1560e-04, -4.8676e-03],
+        ...,
+        [ 1.2007e-03,  3.1090e-04,  1.1911e-03,  ..., -2.2869e-03,
+         -1.9503e-03,  2.3735e-04],
+        [-2.4986e-04,  7.0000e-04, -6.3400e-03,  ..., -4.0283e-03,
+          3.7742e-04,  3.8862e-04],
+        [-2.3613e-03, -1.8511e-03,  3.1300e-03,  ..., -1.0121e-04,
+          4.8137e-04,  2.2545e-03]], device='cuda:0')
+Epoch 138, bias, value: tensor([-0.0416,  0.0005,  0.0014, -0.0070, -0.0039,  0.0049, -0.0110,  0.0291,
+        -0.0070,  0.0171], device='cuda:0'), grad: tensor([ 0.0156,  0.0061,  0.0054, -0.0436,  0.0063,  0.0313,  0.0210, -0.0197,
+        -0.0328,  0.0104], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 137, time 215.28, cls_loss 0.6337 cls_loss_mapping 0.0073 cls_loss_causal 0.5455 re_mapping 0.0142 re_causal 0.0337 /// teacc 98.65 lr 0.00010000
+Epoch 139, weight, value: tensor([[-0.1307, -0.0296,  0.0099,  ..., -0.0191, -0.0560, -0.0843],
+        [-0.0219, -0.0547,  0.0209,  ...,  0.0284, -0.0004, -0.0644],
+        [-0.0330, -0.0536, -0.0699,  ...,  0.0391, -0.0366, -0.0666],
+        ...,
+        [-0.0427,  0.0266,  0.0245,  ...,  0.0292, -0.0313, -0.0687],
+        [-0.0554, -0.0032,  0.0153,  ...,  0.0594, -0.0348, -0.0930],
+        [ 0.0366,  0.0414, -0.0358,  ..., -0.0913, -0.0283,  0.0400]],
+       device='cuda:0'), grad: tensor([[-1.3697e-04,  8.6880e-04,  2.3136e-03,  ...,  4.3793e-03,
+          1.0090e-03,  1.0042e-03],
+        [ 1.5602e-05,  3.1233e-04,  1.2989e-03,  ...,  5.8060e-03,
+          1.1730e-03,  2.2995e-04],
+        [ 1.8820e-05,  9.1410e-04,  2.6131e-03,  ...,  5.1727e-03,
+          1.1015e-03,  6.9160e-03],
+        ...,
+        [ 1.5271e-04, -1.9150e-03, -7.9203e-04,  ..., -1.3733e-02,
+          7.9918e-04, -1.4296e-03],
+        [ 2.0015e-04,  2.9492e-04,  1.9217e-03,  ..., -6.9122e-03,
+         -3.5858e-03,  4.1103e-04],
+        [-5.3215e-04,  3.1967e-03, -5.6267e-03,  ...,  2.6436e-03,
+         -1.8787e-03,  1.5621e-03]], device='cuda:0')
+Epoch 139, bias, value: tensor([-0.0423,  0.0009,  0.0011, -0.0072, -0.0039,  0.0048, -0.0109,  0.0290,
+        -0.0067,  0.0175], device='cuda:0'), grad: tensor([ 0.0232,  0.0244,  0.0255, -0.0401,  0.0214, -0.0144,  0.0186, -0.0394,
+        -0.0238,  0.0045], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 138, time 215.25, cls_loss 0.6245 cls_loss_mapping 0.0095 cls_loss_causal 0.5446 re_mapping 0.0147 re_causal 0.0336 /// teacc 98.58 lr 0.00010000
+Epoch 140, weight, value: tensor([[-0.1313, -0.0294,  0.0113,  ..., -0.0184, -0.0563, -0.0851],
+        [-0.0209, -0.0559,  0.0214,  ...,  0.0292, -0.0003, -0.0634],
+        [-0.0331, -0.0528, -0.0705,  ...,  0.0389, -0.0378, -0.0673],
+        ...,
+        [-0.0433,  0.0279,  0.0232,  ...,  0.0292, -0.0312, -0.0688],
+        [-0.0559, -0.0036,  0.0153,  ...,  0.0606, -0.0333, -0.0940],
+        [ 0.0371,  0.0397, -0.0363,  ..., -0.0914, -0.0277,  0.0406]],
+       device='cuda:0'), grad: tensor([[ 0.0003,  0.0004,  0.0010,  ...,  0.0025,  0.0003,  0.0007],
+        [ 0.0039,  0.0047,  0.0043,  ...,  0.0097,  0.0027,  0.0008],
+        [ 0.0007, -0.0043,  0.0025,  ..., -0.0294,  0.0011,  0.0006],
+        ...,
+        [ 0.0006,  0.0002,  0.0026,  ...,  0.0266,  0.0007,  0.0005],
+        [ 0.0003,  0.0030, -0.0038,  ..., -0.0008, -0.0063, -0.0002],
+        [-0.0082, -0.0014, -0.0094,  ..., -0.0009, -0.0008, -0.0017]],
+       device='cuda:0')
+Epoch 140, bias, value: tensor([-0.0417,  0.0015,  0.0008, -0.0071, -0.0038,  0.0041, -0.0111,  0.0290,
+        -0.0061,  0.0167], device='cuda:0'), grad: tensor([ 0.0187,  0.0509, -0.0326, -0.0004, -0.0350,  0.0127, -0.0034,  0.0440,
+        -0.0149, -0.0400], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 139, time 215.31, cls_loss 0.6407 cls_loss_mapping 0.0105 cls_loss_causal 0.5510 re_mapping 0.0143 re_causal 0.0338 /// teacc 98.54 lr 0.00010000
+Epoch 141, weight, value: tensor([[-1.3167e-01, -2.9014e-02,  1.1778e-02,  ..., -1.9120e-02,
+         -5.7323e-02, -8.5191e-02],
+        [-2.2049e-02, -5.7292e-02,  2.1099e-02,  ...,  2.9071e-02,
+          7.8232e-06, -6.4065e-02],
+        [-3.3194e-02, -5.3109e-02, -7.0066e-02,  ...,  4.0837e-02,
+         -3.8607e-02, -6.7493e-02],
+        ...,
+        [-4.3120e-02,  2.8189e-02,  2.4304e-02,  ...,  2.9609e-02,
+         -3.1251e-02, -6.8027e-02],
+        [-5.5595e-02, -3.1558e-03,  1.5306e-02,  ...,  6.0232e-02,
+         -3.3300e-02, -9.4613e-02],
+        [ 3.7355e-02,  3.9991e-02, -3.6958e-02,  ..., -9.0309e-02,
+         -2.7752e-02,  4.0891e-02]], device='cuda:0'), grad: tensor([[ 3.2425e-05,  7.2765e-04,  1.1057e-04,  ..., -5.0278e-03,
+          6.5327e-04,  1.0473e-04],
+        [ 9.2566e-05,  2.6207e-03,  1.4043e-04,  ...,  8.4152e-03,
+          8.8406e-04,  3.5495e-05],
+        [ 4.4197e-05,  3.9387e-04,  1.1963e-04,  ..., -1.0681e-03,
+          4.2129e-04,  1.7196e-05],
+        ...,
+        [ 3.2306e-04,  2.6646e-03,  4.4346e-04,  ..., -8.3113e-04,
+          1.0986e-03,  1.3876e-04],
+        [ 3.1161e-04,  3.7823e-03,  2.9850e-04,  ...,  5.3864e-03,
+          9.5987e-04,  1.6367e-04],
+        [-2.1648e-03, -1.1703e-02, -9.6130e-04,  ...,  3.0804e-04,
+         -7.2441e-03, -1.3685e-03]], device='cuda:0')
+Epoch 141, bias, value: tensor([-0.0428,  0.0011,  0.0023, -0.0071, -0.0042,  0.0037, -0.0110,  0.0294,
+        -0.0068,  0.0176], device='cuda:0'), grad: tensor([-0.0131,  0.0323, -0.0150,  0.0236,  0.0007, -0.0154, -0.0106,  0.0036,
+         0.0237, -0.0298], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 140, time 215.22, cls_loss 0.6388 cls_loss_mapping 0.0123 cls_loss_causal 0.5481 re_mapping 0.0140 re_causal 0.0323 /// teacc 98.59 lr 0.00010000
+Epoch 142, weight, value: tensor([[-0.1332, -0.0279,  0.0118,  ..., -0.0191, -0.0577, -0.0856],
+        [-0.0223, -0.0578,  0.0209,  ...,  0.0281, -0.0008, -0.0650],
+        [-0.0349, -0.0547, -0.0698,  ...,  0.0419, -0.0365, -0.0673],
+        ...,
+        [-0.0441,  0.0289,  0.0240,  ...,  0.0289, -0.0319, -0.0681],
+        [-0.0541, -0.0040,  0.0148,  ...,  0.0609, -0.0337, -0.0948],
+        [ 0.0386,  0.0408, -0.0364,  ..., -0.0911, -0.0279,  0.0412]],
+       device='cuda:0'), grad: tensor([[ 1.1903e-04, -9.8813e-07,  5.9217e-05,  ...,  1.0471e-03,
+          5.5122e-03,  6.4313e-05],
+        [ 2.1160e-04,  1.4044e-05, -1.2338e-04,  ...,  8.8215e-04,
+          1.3404e-05,  2.5034e-05],
+        [ 8.9359e-04,  1.2960e-03,  1.8191e-04,  ...,  5.3406e-04,
+         -1.8244e-03,  7.0989e-05],
+        ...,
+        [ 1.3475e-03,  1.3075e-03, -7.0572e-04,  ..., -4.8714e-03,
+          9.0742e-04,  1.2808e-05],
+        [-2.4395e-03,  1.1545e-04, -2.6112e-03,  ..., -2.0123e-03,
+         -9.3460e-03,  5.6505e-04],
+        [ 1.3485e-03,  6.0141e-05,  2.5558e-03,  ...,  3.9673e-03,
+          1.0052e-03,  2.0191e-05]], device='cuda:0')
+Epoch 142, bias, value: tensor([-0.0423,  0.0004,  0.0031, -0.0065, -0.0049,  0.0046, -0.0113,  0.0291,
+        -0.0073,  0.0173], device='cuda:0'), grad: tensor([ 2.4857e-02,  6.1264e-03,  2.0966e-05,  7.0877e-03,  9.6664e-03,
+        -2.3865e-02,  4.7150e-03, -2.3468e-02, -2.7344e-02,  2.2202e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 141, time 215.50, cls_loss 0.6288 cls_loss_mapping 0.0118 cls_loss_causal 0.5540 re_mapping 0.0135 re_causal 0.0305 /// teacc 98.43 lr 0.00010000
+Epoch 143, weight, value: tensor([[-0.1338, -0.0272,  0.0124,  ..., -0.0190, -0.0581, -0.0854],
+        [-0.0215, -0.0568,  0.0214,  ...,  0.0286, -0.0010, -0.0647],
+        [-0.0352, -0.0540, -0.0726,  ...,  0.0413, -0.0360, -0.0694],
+        ...,
+        [-0.0439,  0.0277,  0.0244,  ...,  0.0285, -0.0314, -0.0693],
+        [-0.0555, -0.0045,  0.0143,  ...,  0.0615, -0.0335, -0.0947],
+        [ 0.0386,  0.0409, -0.0369,  ..., -0.0911, -0.0283,  0.0422]],
+       device='cuda:0'), grad: tensor([[ 1.4567e-04, -1.4030e-02,  6.8760e-04,  ...,  3.2463e-03,
+          1.3771e-03, -1.3046e-02],
+        [ 2.7156e-04,  4.5270e-05,  4.4537e-04,  ...,  5.6381e-03,
+          2.0180e-03,  9.8109e-05],
+        [ 4.1413e-04,  4.0889e-04,  9.6416e-04,  ..., -4.0588e-03,
+          1.6766e-03,  4.1914e-04],
+        ...,
+        [ 3.2158e-03,  1.1826e-04,  2.5921e-03,  ..., -3.1424e-04,
+          7.4959e-04,  2.2817e-04],
+        [-1.4362e-03,  2.2924e-04, -3.8662e-03,  ...,  3.4714e-03,
+          9.1076e-04, -9.5510e-04],
+        [-1.5011e-03,  1.0643e-02, -3.9139e-03,  ...,  4.5471e-03,
+         -7.0524e-04,  8.1406e-03]], device='cuda:0')
+Epoch 143, bias, value: tensor([-0.0428,  0.0010,  0.0020, -0.0061, -0.0048,  0.0046, -0.0109,  0.0291,
+        -0.0070,  0.0172], device='cuda:0'), grad: tensor([-1.7532e-02,  2.5360e-02, -1.2230e-02, -1.1513e-02, -2.4475e-02,
+         1.9043e-02, -2.2522e-02,  2.6627e-03, -3.7611e-05,  4.1290e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 142, time 215.49, cls_loss 0.6259 cls_loss_mapping 0.0099 cls_loss_causal 0.5321 re_mapping 0.0139 re_causal 0.0325 /// teacc 98.51 lr 0.00010000
+Epoch 144, weight, value: tensor([[-0.1335, -0.0267,  0.0122,  ..., -0.0186, -0.0594, -0.0841],
+        [-0.0223, -0.0577,  0.0207,  ...,  0.0288, -0.0021, -0.0660],
+        [-0.0356, -0.0543, -0.0736,  ...,  0.0413, -0.0373, -0.0697],
+        ...,
+        [-0.0454,  0.0280,  0.0251,  ...,  0.0282, -0.0321, -0.0696],
+        [-0.0564, -0.0059,  0.0143,  ...,  0.0618, -0.0315, -0.0947],
+        [ 0.0399,  0.0423, -0.0364,  ..., -0.0918, -0.0290,  0.0430]],
+       device='cuda:0'), grad: tensor([[ 6.6936e-05, -9.2447e-05,  1.5724e-04,  ..., -2.1782e-03,
+          6.6385e-06, -7.0155e-05],
+        [ 4.0817e-04,  1.5771e-04,  6.2180e-04,  ..., -1.0052e-03,
+          7.2643e-07,  3.6812e-04],
+        [ 9.2411e-04,  4.5985e-05,  1.1940e-03,  ..., -5.6648e-03,
+         -5.1641e-04,  9.3794e-04],
+        ...,
+        [ 1.4114e-03,  5.7602e-04,  1.0777e-03,  ..., -1.6136e-03,
+          3.5405e-05,  1.4629e-03],
+        [-4.6158e-03,  1.2999e-03, -4.8256e-04,  ...,  2.3403e-03,
+          3.9577e-05, -1.3580e-03],
+        [ 1.0178e-02,  1.3252e-02, -2.5787e-03,  ...,  2.8381e-03,
+          3.1590e-06,  1.7807e-02]], device='cuda:0')
+Epoch 144, bias, value: tensor([-0.0432,  0.0008,  0.0015, -0.0057, -0.0037,  0.0042, -0.0113,  0.0283,
+        -0.0055,  0.0166], device='cuda:0'), grad: tensor([-0.0386, -0.0052, -0.0270, -0.0272, -0.0103,  0.0176,  0.0287, -0.0141,
+         0.0185,  0.0575], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 143, time 215.41, cls_loss 0.6342 cls_loss_mapping 0.0114 cls_loss_causal 0.5453 re_mapping 0.0138 re_causal 0.0314 /// teacc 98.51 lr 0.00010000
+Epoch 145, weight, value: tensor([[-0.1338, -0.0281,  0.0127,  ..., -0.0186, -0.0596, -0.0843],
+        [-0.0234, -0.0598,  0.0208,  ...,  0.0299, -0.0030, -0.0670],
+        [-0.0371, -0.0556, -0.0737,  ...,  0.0412, -0.0371, -0.0704],
+        ...,
+        [-0.0433,  0.0281,  0.0251,  ...,  0.0272, -0.0330, -0.0691],
+        [-0.0570, -0.0059,  0.0136,  ...,  0.0613, -0.0328, -0.0935],
+        [ 0.0399,  0.0433, -0.0366,  ..., -0.0919, -0.0282,  0.0430]],
+       device='cuda:0'), grad: tensor([[-1.0994e-02,  1.1654e-03, -3.0193e-03,  ..., -3.1395e-03,
+          9.4700e-04, -3.0804e-03],
+        [-2.8515e-03,  3.8290e-04, -2.6188e-03,  ..., -2.5177e-03,
+          2.3804e-03,  1.5593e-04],
+        [ 1.7300e-03,  2.0012e-05, -2.1954e-03,  ..., -2.2173e-04,
+         -7.4768e-03,  6.2227e-04],
+        ...,
+        [ 1.4296e-03,  3.3016e-03,  3.2997e-03,  ...,  3.3417e-03,
+          4.1962e-03,  3.0398e-04],
+        [-3.1204e-03,  8.5068e-03,  7.0047e-04,  ...,  2.6016e-03,
+          1.9608e-03,  6.6853e-04],
+        [ 4.0894e-03, -2.0645e-02, -5.9547e-03,  ..., -6.2332e-03,
+         -3.6316e-03, -1.5497e-03]], device='cuda:0')
+Epoch 145, bias, value: tensor([-0.0427,  0.0014,  0.0007, -0.0055, -0.0028,  0.0045, -0.0116,  0.0289,
+        -0.0067,  0.0160], device='cuda:0'), grad: tensor([-0.0215, -0.0125, -0.0018,  0.0149,  0.0434, -0.0516,  0.0203,  0.0373,
+         0.0182, -0.0467], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 144, time 215.61, cls_loss 0.6352 cls_loss_mapping 0.0133 cls_loss_causal 0.5488 re_mapping 0.0149 re_causal 0.0326 /// teacc 98.51 lr 0.00010000
+Epoch 146, weight, value: tensor([[-0.1336, -0.0276,  0.0124,  ..., -0.0192, -0.0611, -0.0852],
+        [-0.0236, -0.0594,  0.0227,  ...,  0.0301, -0.0003, -0.0670],
+        [-0.0380, -0.0542, -0.0746,  ...,  0.0416, -0.0368, -0.0715],
+        ...,
+        [-0.0427,  0.0278,  0.0245,  ...,  0.0277, -0.0345, -0.0694],
+        [-0.0573, -0.0068,  0.0138,  ...,  0.0607, -0.0325, -0.0941],
+        [ 0.0408,  0.0433, -0.0373,  ..., -0.0920, -0.0279,  0.0430]],
+       device='cuda:0'), grad: tensor([[ 7.4196e-04,  4.4327e-03,  8.5735e-04,  ...,  1.7309e-03,
+         -5.8556e-03,  4.4918e-04],
+        [-5.2500e-04, -1.9455e-03, -3.7813e-04,  ..., -1.4984e-02,
+         -2.1469e-02,  8.8930e-05],
+        [ 4.2653e-04,  2.0275e-03,  2.3508e-04,  ...,  1.6190e-02,
+          2.5421e-02,  1.6642e-04],
+        ...,
+        [-6.1455e-03,  1.0204e-03, -2.6722e-03,  ...,  1.2388e-03,
+          1.7328e-03, -5.7335e-03],
+        [ 7.0000e-04, -1.5259e-02,  2.3091e-04,  ..., -2.2411e-03,
+         -2.4796e-05, -2.7314e-05],
+        [ 5.2605e-03,  6.0034e-04,  2.1763e-03,  ...,  2.9297e-03,
+          3.3131e-03,  3.7956e-03]], device='cuda:0')
+Epoch 146, bias, value: tensor([-0.0436,  0.0024,  0.0008, -0.0056, -0.0028,  0.0050, -0.0120,  0.0282,
+        -0.0076,  0.0172], device='cuda:0'), grad: tensor([ 0.0152, -0.0454,  0.0471, -0.0110, -0.0331,  0.0053,  0.0230, -0.0014,
+        -0.0344,  0.0348], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 145, time 215.52, cls_loss 0.6267 cls_loss_mapping 0.0094 cls_loss_causal 0.5424 re_mapping 0.0143 re_causal 0.0319 /// teacc 98.62 lr 0.00010000
+Epoch 147, weight, value: tensor([[-1.3435e-01, -2.7540e-02,  1.3251e-02,  ..., -1.9509e-02,
+         -6.0111e-02, -8.5825e-02],
+        [-2.4170e-02, -5.9526e-02,  2.2393e-02,  ...,  2.9982e-02,
+         -3.3975e-06, -6.7638e-02],
+        [-3.7395e-02, -5.5080e-02, -7.4315e-02,  ...,  4.0965e-02,
+         -3.6712e-02, -7.1260e-02],
+        ...,
+        [-4.2642e-02,  2.7517e-02,  2.5700e-02,  ...,  2.7541e-02,
+         -3.5340e-02, -6.8569e-02],
+        [-5.6710e-02, -6.8011e-03,  1.4177e-02,  ...,  5.9994e-02,
+         -3.2395e-02, -9.4678e-02],
+        [ 3.9982e-02,  4.3059e-02, -3.8726e-02,  ..., -9.1799e-02,
+         -2.8021e-02,  4.1716e-02]], device='cuda:0'), grad: tensor([[-2.5616e-03,  2.5201e-04,  4.1649e-06,  ..., -3.4046e-03,
+         -4.1084e-03,  9.4324e-06],
+        [-7.7057e-04, -6.5994e-04, -1.9608e-03,  ..., -3.2310e-03,
+          8.7023e-04,  3.7365e-06],
+        [ 2.1210e-03,  7.9803e-03,  1.6470e-03,  ...,  1.1377e-03,
+          2.2430e-03,  3.0577e-05],
+        ...,
+        [-5.6696e-04, -1.7365e-02, -2.1381e-03,  ..., -7.1001e-04,
+         -9.3699e-05,  1.4486e-03],
+        [-1.0717e-04,  1.8234e-03,  7.8297e-04,  ...,  7.3862e-04,
+          2.0838e-04, -3.9043e-03],
+        [ 2.0638e-03,  2.4586e-03,  1.4009e-03,  ...,  1.0900e-03,
+          3.9768e-04,  1.5497e-03]], device='cuda:0')
+Epoch 147, bias, value: tensor([-0.0441,  0.0024, -0.0001, -0.0053, -0.0020,  0.0059, -0.0116,  0.0281,
+        -0.0078,  0.0166], device='cuda:0'), grad: tensor([-0.0847, -0.0361,  0.0667,  0.0454, -0.0032,  0.0197,  0.0290, -0.0825,
+         0.0163,  0.0293], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 146, time 215.34, cls_loss 0.6253 cls_loss_mapping 0.0091 cls_loss_causal 0.5497 re_mapping 0.0139 re_causal 0.0318 /// teacc 98.52 lr 0.00010000
+Epoch 148, weight, value: tensor([[-1.3464e-01, -2.8885e-02,  1.2889e-02,  ..., -2.0254e-02,
+         -6.1833e-02, -8.6921e-02],
+        [-2.5922e-02, -5.9812e-02,  2.1840e-02,  ...,  3.0222e-02,
+          5.7060e-06, -6.8135e-02],
+        [-3.5620e-02, -5.5718e-02, -7.4854e-02,  ...,  4.1619e-02,
+         -3.6157e-02, -7.1089e-02],
+        ...,
+        [-4.2622e-02,  2.8643e-02,  2.5181e-02,  ...,  2.7809e-02,
+         -3.5973e-02, -6.9587e-02],
+        [-5.6488e-02, -6.3884e-03,  1.4457e-02,  ...,  6.0712e-02,
+         -3.2094e-02, -9.4473e-02],
+        [ 4.0215e-02,  4.2762e-02, -3.9473e-02,  ..., -9.2000e-02,
+         -2.7728e-02,  4.2401e-02]], device='cuda:0'), grad: tensor([[ 1.5469e-03,  2.8324e-04,  2.3766e-03,  ...,  5.3835e-04,
+          3.6407e-04,  1.3638e-03],
+        [-9.9564e-04,  3.0499e-03, -3.3798e-03,  ..., -1.9264e-03,
+          1.0982e-05,  4.9412e-05],
+        [ 1.8167e-04, -1.3474e-02, -1.8477e-04,  ...,  5.5742e-04,
+         -8.9741e-04,  4.6444e-04],
+        ...,
+        [ 7.0000e-04,  1.2274e-03,  7.6771e-04,  ...,  3.9387e-04,
+          2.3261e-05,  5.5361e-04],
+        [ 1.0056e-02,  4.4785e-03,  8.8501e-03,  ..., -2.6846e-04,
+          1.9588e-03,  3.7785e-03],
+        [-7.9956e-03, -4.2847e-02, -1.2684e-03,  ..., -1.8921e-03,
+          3.2902e-05, -2.7710e-02]], device='cuda:0')
+Epoch 148, bias, value: tensor([-0.0442,  0.0034,  0.0010, -0.0063, -0.0024,  0.0053, -0.0123,  0.0288,
+        -0.0077,  0.0164], device='cuda:0'), grad: tensor([ 0.0143, -0.0025, -0.0208,  0.0311,  0.0139,  0.0051,  0.0017,  0.0114,
+         0.0158, -0.0701], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 147, time 215.76, cls_loss 0.6163 cls_loss_mapping 0.0112 cls_loss_causal 0.5429 re_mapping 0.0142 re_causal 0.0328 /// teacc 98.49 lr 0.00010000
+Epoch 149, weight, value: tensor([[-0.1334, -0.0270,  0.0135,  ..., -0.0194, -0.0626, -0.0857],
+        [-0.0259, -0.0607,  0.0216,  ...,  0.0303, -0.0004, -0.0681],
+        [-0.0372, -0.0551, -0.0756,  ...,  0.0417, -0.0361, -0.0718],
+        ...,
+        [-0.0424,  0.0291,  0.0255,  ...,  0.0282, -0.0368, -0.0693],
+        [-0.0572, -0.0065,  0.0143,  ...,  0.0606, -0.0313, -0.0948],
+        [ 0.0398,  0.0432, -0.0398,  ..., -0.0932, -0.0266,  0.0430]],
+       device='cuda:0'), grad: tensor([[ 2.0838e-04,  8.6606e-05,  9.1672e-05,  ...,  5.3368e-03,
+          6.6109e-03,  9.8825e-05],
+        [-3.7193e-03, -4.0126e-04, -2.8496e-03,  ..., -1.7471e-02,
+         -1.1978e-03,  1.5116e-04],
+        [ 1.4091e-04, -9.6798e-04,  2.7347e-04,  ..., -8.9979e-04,
+          1.6060e-03,  4.8542e-04],
+        ...,
+        [ 7.9536e-04,  1.0929e-03, -3.0098e-03,  ..., -9.9640e-03,
+         -1.0941e-02,  1.1373e-04],
+        [ 1.7776e-03,  1.4832e-02,  1.7385e-03,  ...,  8.0338e-03,
+          1.9169e-03,  5.8746e-04],
+        [ 1.7967e-03, -2.5330e-02,  3.4466e-03,  ...,  2.6855e-03,
+          1.9083e-03,  9.6369e-04]], device='cuda:0')
+Epoch 149, bias, value: tensor([-0.0430,  0.0030,  0.0012, -0.0061, -0.0032,  0.0061, -0.0123,  0.0288,
+        -0.0084,  0.0161], device='cuda:0'), grad: tensor([ 0.0382, -0.0611, -0.0066,  0.0114,  0.0453, -0.0090, -0.0234, -0.0347,
+         0.0440, -0.0043], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 148, time 215.48, cls_loss 0.6061 cls_loss_mapping 0.0120 cls_loss_causal 0.5259 re_mapping 0.0135 re_causal 0.0305 /// teacc 98.59 lr 0.00010000
+Epoch 150, weight, value: tensor([[-0.1335, -0.0264,  0.0139,  ..., -0.0201, -0.0621, -0.0856],
+        [-0.0265, -0.0606,  0.0215,  ...,  0.0300, -0.0002, -0.0674],
+        [-0.0376, -0.0565, -0.0753,  ...,  0.0419, -0.0363, -0.0727],
+        ...,
+        [-0.0437,  0.0293,  0.0259,  ...,  0.0288, -0.0360, -0.0702],
+        [-0.0575, -0.0076,  0.0152,  ...,  0.0603, -0.0317, -0.0960],
+        [ 0.0397,  0.0441, -0.0394,  ..., -0.0930, -0.0264,  0.0435]],
+       device='cuda:0'), grad: tensor([[ 5.7250e-05, -1.6880e-04, -6.7444e-03,  ..., -1.1307e-02,
+          0.0000e+00, -2.2507e-03],
+        [ 1.5602e-05,  9.4652e-04,  5.1451e-04,  ..., -3.5686e-03,
+          0.0000e+00,  4.0793e-04],
+        [ 3.2091e-04,  1.1721e-03,  2.1229e-03,  ...,  3.7231e-03,
+          0.0000e+00,  2.1782e-03],
+        ...,
+        [ 3.0975e-03, -3.7670e-04,  2.5959e-03,  ..., -2.1286e-03,
+          0.0000e+00,  3.5362e-03],
+        [-2.0719e-04,  1.1301e-03,  4.8294e-03,  ...,  4.3335e-03,
+          0.0000e+00,  1.9627e-03],
+        [ 2.1744e-03, -1.8387e-02,  2.5787e-03,  ..., -5.1842e-03,
+          0.0000e+00, -2.2766e-02]], device='cuda:0')
+Epoch 150, bias, value: tensor([-0.0428,  0.0030,  0.0011, -0.0061, -0.0037,  0.0062, -0.0120,  0.0298,
+        -0.0089,  0.0158], device='cuda:0'), grad: tensor([-0.0752, -0.0153,  0.0357,  0.0494,  0.0474, -0.0357, -0.0360, -0.0251,
+         0.0352,  0.0195], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 149, time 215.57, cls_loss 0.6365 cls_loss_mapping 0.0101 cls_loss_causal 0.5542 re_mapping 0.0132 re_causal 0.0296 /// teacc 98.61 lr 0.00010000
+Epoch 151, weight, value: tensor([[-0.1344, -0.0273,  0.0145,  ..., -0.0201, -0.0627, -0.0865],
+        [-0.0265, -0.0610,  0.0223,  ...,  0.0302, -0.0008, -0.0670],
+        [-0.0375, -0.0569, -0.0754,  ...,  0.0419, -0.0351, -0.0741],
+        ...,
+        [-0.0433,  0.0296,  0.0256,  ...,  0.0283, -0.0369, -0.0693],
+        [-0.0580, -0.0086,  0.0147,  ...,  0.0608, -0.0318, -0.0968],
+        [ 0.0400,  0.0434, -0.0390,  ..., -0.0930, -0.0269,  0.0442]],
+       device='cuda:0'), grad: tensor([[ 4.6301e-04,  4.6539e-04,  3.5691e-04,  ...,  2.0809e-03,
+         -3.1042e-04,  1.2875e-04],
+        [-1.7500e-03, -2.6703e-04, -8.7070e-04,  ..., -9.6283e-03,
+          3.3426e-04, -1.2199e-02],
+        [ 2.8229e-03,  2.7046e-03,  1.9312e-04,  ...,  6.6757e-03,
+          2.1422e-04,  2.0161e-03],
+        ...,
+        [-8.3685e-04,  6.3777e-05,  1.9705e-04,  ..., -6.2523e-03,
+         -8.0049e-05,  9.9659e-05],
+        [-1.9245e-03,  4.6802e-04,  6.5660e-04,  ..., -2.4452e-03,
+         -9.5510e-04,  5.8985e-04],
+        [ 1.0948e-03, -2.1982e-04, -2.4033e-03,  ...,  2.4948e-03,
+          1.1361e-04,  3.8475e-05]], device='cuda:0')
+Epoch 151, bias, value: tensor([-0.0425,  0.0033,  0.0009, -0.0063, -0.0040,  0.0062, -0.0126,  0.0298,
+        -0.0077,  0.0153], device='cuda:0'), grad: tensor([ 0.0147, -0.0828,  0.0682,  0.0450,  0.0255,  0.0509, -0.0328, -0.0766,
+         0.0133, -0.0255], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 150, time 215.59, cls_loss 0.5870 cls_loss_mapping 0.0083 cls_loss_causal 0.5038 re_mapping 0.0144 re_causal 0.0314 /// teacc 98.59 lr 0.00010000
+Epoch 152, weight, value: tensor([[-0.1359, -0.0267,  0.0144,  ..., -0.0196, -0.0624, -0.0883],
+        [-0.0258, -0.0619,  0.0213,  ...,  0.0298, -0.0019, -0.0664],
+        [-0.0389, -0.0579, -0.0760,  ...,  0.0425, -0.0361, -0.0747],
+        ...,
+        [-0.0441,  0.0293,  0.0253,  ...,  0.0285, -0.0367, -0.0707],
+        [-0.0576, -0.0090,  0.0156,  ...,  0.0605, -0.0320, -0.0978],
+        [ 0.0397,  0.0438, -0.0392,  ..., -0.0936, -0.0267,  0.0439]],
+       device='cuda:0'), grad: tensor([[ 4.8399e-04,  7.1049e-04,  1.7071e-04,  ..., -6.5660e-04,
+          7.4434e-04,  8.1062e-04],
+        [ 3.2902e-04,  9.5963e-05,  1.4210e-04,  ...,  7.6675e-03,
+          3.3646e-03,  1.4102e-04],
+        [ 3.1700e-03,  1.1377e-03, -3.4199e-03,  ..., -4.2648e-03,
+         -3.4542e-03, -1.9436e-03],
+        ...,
+        [ 1.2035e-03, -3.3569e-03,  1.2982e-04,  ..., -5.1041e-03,
+          1.6079e-03,  1.1034e-03],
+        [ 1.1909e-04,  4.5359e-05,  1.3580e-03,  ..., -2.5902e-03,
+         -2.4109e-03, -9.4843e-04],
+        [ 3.5405e-04,  5.5361e-04,  2.4211e-04,  ...,  3.6602e-03,
+          5.0116e-04,  6.7806e-04]], device='cuda:0')
+Epoch 152, bias, value: tensor([-0.0426,  0.0039,  0.0010, -0.0060, -0.0047,  0.0060, -0.0117,  0.0290,
+        -0.0074,  0.0148], device='cuda:0'), grad: tensor([-0.0060,  0.0330, -0.0254, -0.0743, -0.0055,  0.0391,  0.0178,  0.0018,
+        -0.0021,  0.0217], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 151, time 215.73, cls_loss 0.6013 cls_loss_mapping 0.0082 cls_loss_causal 0.5187 re_mapping 0.0138 re_causal 0.0317 /// teacc 98.64 lr 0.00010000
+Epoch 153, weight, value: tensor([[-0.1347, -0.0272,  0.0143,  ..., -0.0195, -0.0627, -0.0896],
+        [-0.0262, -0.0620,  0.0223,  ...,  0.0300, -0.0008, -0.0660],
+        [-0.0379, -0.0583, -0.0759,  ...,  0.0429, -0.0358, -0.0742],
+        ...,
+        [-0.0437,  0.0295,  0.0238,  ...,  0.0281, -0.0370, -0.0698],
+        [-0.0587, -0.0087,  0.0168,  ...,  0.0601, -0.0327, -0.0992],
+        [ 0.0402,  0.0435, -0.0392,  ..., -0.0935, -0.0268,  0.0443]],
+       device='cuda:0'), grad: tensor([[-9.6440e-05,  1.0328e-03,  9.8038e-04,  ...,  1.7815e-03,
+          1.5535e-03,  1.5819e-04],
+        [ 8.2850e-05, -6.6467e-02,  4.1695e-03,  ...,  2.3270e-03,
+          1.5450e-03,  3.6693e-04],
+        [ 1.3232e-04,  2.8467e-04,  1.3466e-03,  ...,  1.6298e-03,
+          1.1711e-03,  3.7241e-04],
+        ...,
+        [ 3.1304e-04,  5.9387e-02, -2.7161e-03,  ..., -2.6398e-03,
+          1.0462e-03, -5.1594e-04],
+        [ 5.9032e-04,  4.2796e-04,  2.6474e-03,  ..., -3.0289e-03,
+         -4.4441e-03,  1.2035e-03],
+        [ 6.7043e-04,  8.3389e-03,  3.1834e-03,  ..., -5.0306e-04,
+         -6.7043e-04,  1.3781e-03]], device='cuda:0')
+Epoch 153, bias, value: tensor([-0.0415,  0.0040,  0.0007, -0.0059, -0.0049,  0.0064, -0.0120,  0.0284,
+        -0.0082,  0.0153], device='cuda:0'), grad: tensor([ 0.0351, -0.0133,  0.0283,  0.0521,  0.0217, -0.0019, -0.0695, -0.0303,
+        -0.0005, -0.0217], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 152, time 215.45, cls_loss 0.6134 cls_loss_mapping 0.0106 cls_loss_causal 0.5369 re_mapping 0.0130 re_causal 0.0297 /// teacc 98.59 lr 0.00010000
+Epoch 154, weight, value: tensor([[-0.1351, -0.0265,  0.0147,  ..., -0.0197, -0.0631, -0.0912],
+        [-0.0258, -0.0617,  0.0231,  ...,  0.0303, -0.0009, -0.0664],
+        [-0.0394, -0.0586, -0.0767,  ...,  0.0432, -0.0354, -0.0731],
+        ...,
+        [-0.0431,  0.0298,  0.0232,  ...,  0.0278, -0.0383, -0.0691],
+        [-0.0595, -0.0084,  0.0164,  ...,  0.0607, -0.0327, -0.0995],
+        [ 0.0403,  0.0430, -0.0389,  ..., -0.0939, -0.0275,  0.0444]],
+       device='cuda:0'), grad: tensor([[-0.0026, -0.0032,  0.0009,  ...,  0.0012,  0.0014,  0.0010],
+        [-0.0033, -0.0038, -0.0026,  ..., -0.0013,  0.0015, -0.0048],
+        [ 0.0008,  0.0007,  0.0011,  ...,  0.0016,  0.0011,  0.0011],
+        ...,
+        [ 0.0029,  0.0010,  0.0050,  ...,  0.0043,  0.0023,  0.0010],
+        [ 0.0009, -0.0006,  0.0010,  ..., -0.0007,  0.0011,  0.0009],
+        [-0.0039, -0.0032, -0.0071,  ..., -0.0051, -0.0017, -0.0012]],
+       device='cuda:0')
+Epoch 154, bias, value: tensor([-0.0428,  0.0041,  0.0009, -0.0067, -0.0050,  0.0068, -0.0105,  0.0280,
+        -0.0076,  0.0152], device='cuda:0'), grad: tensor([ 0.0220, -0.0293,  0.0267,  0.0061, -0.0437,  0.0032,  0.0014,  0.0371,
+        -0.0062, -0.0172], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 153, time 215.63, cls_loss 0.6206 cls_loss_mapping 0.0100 cls_loss_causal 0.5507 re_mapping 0.0138 re_causal 0.0323 /// teacc 98.59 lr 0.00010000
+Epoch 155, weight, value: tensor([[-0.1365, -0.0267,  0.0150,  ..., -0.0198, -0.0629, -0.0922],
+        [-0.0249, -0.0618,  0.0248,  ...,  0.0300, -0.0011, -0.0651],
+        [-0.0398, -0.0592, -0.0780,  ...,  0.0424, -0.0355, -0.0729],
+        ...,
+        [-0.0432,  0.0300,  0.0233,  ...,  0.0283, -0.0387, -0.0672],
+        [-0.0590, -0.0077,  0.0167,  ...,  0.0609, -0.0330, -0.1008],
+        [ 0.0397,  0.0428, -0.0391,  ..., -0.0939, -0.0286,  0.0436]],
+       device='cuda:0'), grad: tensor([[ 1.1759e-03, -9.1374e-05,  1.0443e-03,  ...,  1.1921e-03,
+          3.2997e-04,  4.7731e-04],
+        [ 8.9455e-04,  2.6319e-06,  1.4648e-03,  ...,  4.7040e-04,
+          1.1187e-03, -5.0640e-04],
+        [-1.3847e-03,  4.4137e-05, -6.2103e-03,  ..., -6.7978e-03,
+         -1.1015e-03, -2.5921e-03],
+        ...,
+        [ 1.6441e-03,  2.2277e-06, -2.1706e-03,  ...,  5.7077e-04,
+         -2.0676e-03,  3.9792e-04],
+        [ 2.3556e-03,  8.0407e-05,  2.0771e-03,  ...,  1.6079e-03,
+          4.9448e-04,  1.1063e-03],
+        [ 2.9526e-03,  1.1861e-05,  3.1796e-03,  ...,  2.8572e-03,
+          7.7152e-04,  1.4019e-03]], device='cuda:0')
+Epoch 155, bias, value: tensor([-0.0433,  0.0047, -0.0001, -0.0065, -0.0041,  0.0065, -0.0105,  0.0276,
+        -0.0069,  0.0150], device='cuda:0'), grad: tensor([ 0.0137,  0.0051, -0.0537,  0.0219, -0.0189, -0.0156,  0.0231, -0.0332,
+         0.0212,  0.0364], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 154----------------------------------------------------
+epoch 154, time 216.28, cls_loss 0.6193 cls_loss_mapping 0.0062 cls_loss_causal 0.5336 re_mapping 0.0138 re_causal 0.0331 /// teacc 98.77 lr 0.00010000
+Epoch 156, weight, value: tensor([[-0.1357, -0.0263,  0.0149,  ..., -0.0202, -0.0636, -0.0944],
+        [-0.0262, -0.0610,  0.0229,  ...,  0.0297, -0.0010, -0.0637],
+        [-0.0401, -0.0596, -0.0781,  ...,  0.0424, -0.0356, -0.0733],
+        ...,
+        [-0.0437,  0.0306,  0.0234,  ...,  0.0290, -0.0379, -0.0676],
+        [-0.0599, -0.0086,  0.0163,  ...,  0.0609, -0.0339, -0.1040],
+        [ 0.0403,  0.0427, -0.0366,  ..., -0.0947, -0.0280,  0.0439]],
+       device='cuda:0'), grad: tensor([[ 2.7001e-05, -1.9409e-02,  2.9251e-05,  ...,  2.8682e-04,
+          8.3685e-05,  2.3663e-04],
+        [ 1.4476e-05,  1.4753e-03,  1.0818e-04,  ..., -1.9121e-04,
+          1.1200e-04,  1.4377e-04],
+        [-3.5226e-05, -1.7532e-02,  7.1645e-05,  ...,  6.9094e-04,
+         -2.7218e-03,  7.2122e-05],
+        ...,
+        [ 4.5955e-05,  2.0950e-02,  2.3687e-04,  ..., -3.2501e-03,
+         -2.8152e-03,  4.7994e-04],
+        [ 1.0929e-03,  2.1561e-02,  2.4390e-04,  ...,  1.8787e-03,
+          2.8362e-03,  4.0894e-03],
+        [-1.4579e-04, -1.2169e-02,  6.4135e-04,  ..., -1.0386e-03,
+          3.4213e-04, -4.9248e-03]], device='cuda:0')
+Epoch 156, bias, value: tensor([-0.0433,  0.0050, -0.0008, -0.0065, -0.0037,  0.0064, -0.0107,  0.0276,
+        -0.0076,  0.0160], device='cuda:0'), grad: tensor([-0.0246,  0.0089, -0.0199,  0.0092,  0.0082,  0.0019,  0.0060,  0.0244,
+         0.0532, -0.0672], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 155, time 215.67, cls_loss 0.6105 cls_loss_mapping 0.0076 cls_loss_causal 0.5198 re_mapping 0.0139 re_causal 0.0319 /// teacc 98.61 lr 0.00010000
+Epoch 157, weight, value: tensor([[-0.1332, -0.0254,  0.0160,  ..., -0.0203, -0.0648, -0.0934],
+        [-0.0258, -0.0624,  0.0241,  ...,  0.0293, -0.0018, -0.0636],
+        [-0.0394, -0.0593, -0.0802,  ...,  0.0424, -0.0362, -0.0744],
+        ...,
+        [-0.0430,  0.0310,  0.0225,  ...,  0.0293, -0.0363, -0.0691],
+        [-0.0604, -0.0098,  0.0153,  ...,  0.0601, -0.0348, -0.1036],
+        [ 0.0390,  0.0442, -0.0373,  ..., -0.0944, -0.0281,  0.0452]],
+       device='cuda:0'), grad: tensor([[ 6.5386e-05, -2.4872e-03,  1.0014e-03,  ...,  2.5654e-03,
+          3.2067e-04,  2.4009e-04],
+        [ 4.1425e-05,  2.8893e-05, -2.8000e-03,  ..., -5.3482e-03,
+          2.3091e-04,  3.1948e-05],
+        [ 1.0669e-04,  3.3045e-04,  1.6069e-03,  ..., -1.9569e-03,
+          4.3893e-04,  1.2410e-04],
+        ...,
+        [-6.7902e-04,  7.2241e-05,  3.8795e-03,  ...,  7.4768e-03,
+          2.4247e-04, -7.0572e-04],
+        [ 2.9755e-04,  1.5223e-04, -6.4163e-03,  ..., -1.7481e-03,
+          9.3699e-05,  1.5175e-04],
+        [ 2.5201e-04,  5.5647e-04, -7.1049e-04,  ...,  1.7633e-03,
+         -3.3188e-04, -3.3569e-04]], device='cuda:0')
+Epoch 157, bias, value: tensor([-0.0431,  0.0044, -0.0019, -0.0056, -0.0040,  0.0064, -0.0100,  0.0287,
+        -0.0084,  0.0159], device='cuda:0'), grad: tensor([ 0.0036, -0.0152, -0.0032,  0.0120, -0.0186, -0.0493,  0.0396,  0.0298,
+        -0.0137,  0.0149], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 156, time 215.53, cls_loss 0.6284 cls_loss_mapping 0.0101 cls_loss_causal 0.5417 re_mapping 0.0136 re_causal 0.0302 /// teacc 98.57 lr 0.00010000
+Epoch 158, weight, value: tensor([[-0.1339, -0.0270,  0.0172,  ..., -0.0208, -0.0653, -0.0940],
+        [-0.0258, -0.0630,  0.0232,  ...,  0.0292, -0.0023, -0.0631],
+        [-0.0406, -0.0588, -0.0809,  ...,  0.0430, -0.0352, -0.0751],
+        ...,
+        [-0.0433,  0.0302,  0.0231,  ...,  0.0289, -0.0369, -0.0698],
+        [-0.0614, -0.0092,  0.0158,  ...,  0.0607, -0.0347, -0.1042],
+        [ 0.0403,  0.0454, -0.0379,  ..., -0.0949, -0.0286,  0.0463]],
+       device='cuda:0'), grad: tensor([[ 4.1313e-06,  6.3121e-05,  2.4116e-04,  ...,  1.6174e-03,
+          7.1168e-05,  1.3940e-05],
+        [ 3.1495e-04, -2.8205e-04,  6.9141e-04,  ...,  1.7891e-03,
+          1.7416e-04,  2.6450e-06],
+        [ 2.4624e-06,  7.6294e-05,  1.6851e-03,  ..., -2.4204e-03,
+          6.1035e-05,  3.3140e-05],
+        ...,
+        [ 2.6941e-05,  7.5626e-04,  1.4477e-03,  ...,  2.7313e-03,
+          4.6253e-04,  2.7299e-05],
+        [-3.4690e-04,  2.2640e-03,  1.0109e-02,  ...,  1.1406e-02,
+          3.1624e-03,  3.6895e-05],
+        [-1.9968e-05,  1.0460e-02, -4.6005e-03,  ..., -3.6068e-03,
+         -1.9407e-03, -1.0155e-05]], device='cuda:0')
+Epoch 158, bias, value: tensor([-0.0437,  0.0042, -0.0008, -0.0052, -0.0038,  0.0060, -0.0102,  0.0282,
+        -0.0079,  0.0155], device='cuda:0'), grad: tensor([ 0.0090,  0.0097, -0.0244,  0.0098,  0.0067, -0.0181, -0.0201,  0.0164,
+         0.0359, -0.0250], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 157, time 215.73, cls_loss 0.6001 cls_loss_mapping 0.0084 cls_loss_causal 0.5104 re_mapping 0.0139 re_causal 0.0313 /// teacc 98.56 lr 0.00010000
+Epoch 159, weight, value: tensor([[-0.1328, -0.0274,  0.0182,  ..., -0.0209, -0.0651, -0.0940],
+        [-0.0267, -0.0636,  0.0233,  ...,  0.0294, -0.0043, -0.0642],
+        [-0.0406, -0.0603, -0.0800,  ...,  0.0443, -0.0349, -0.0762],
+        ...,
+        [-0.0437,  0.0308,  0.0226,  ...,  0.0286, -0.0351, -0.0697],
+        [-0.0613, -0.0086,  0.0156,  ...,  0.0599, -0.0352, -0.1060],
+        [ 0.0401,  0.0453, -0.0374,  ..., -0.0953, -0.0283,  0.0465]],
+       device='cuda:0'), grad: tensor([[ 2.4959e-05,  8.0109e-03, -1.4210e-04,  ...,  1.8787e-03,
+         -9.9182e-05, -6.9761e-04],
+        [ 2.2575e-05,  1.4961e-04,  1.2362e-04,  ...,  3.6755e-03,
+          3.0017e-04,  8.9645e-05],
+        [ 5.4896e-05,  1.6766e-03,  6.7174e-05,  ..., -1.6146e-03,
+          2.4164e-04,  3.3975e-04],
+        ...,
+        [ 5.4948e-06,  2.9993e-04, -8.5592e-05,  ...,  4.8141e-03,
+          1.5962e-04,  7.0906e-04],
+        [ 6.2943e-05,  1.4772e-03,  1.5318e-04,  ..., -1.0956e-02,
+          2.8753e-04, -2.4624e-03],
+        [ 4.5389e-05, -1.0004e-03,  4.8804e-04,  ...,  7.6904e-03,
+          3.7336e-04,  2.0981e-03]], device='cuda:0')
+Epoch 159, bias, value: tensor([-0.0435,  0.0040,  0.0004, -0.0061, -0.0029,  0.0059, -0.0107,  0.0275,
+        -0.0078,  0.0154], device='cuda:0'), grad: tensor([ 0.0278,  0.0287,  0.0004, -0.0069,  0.0185, -0.0489, -0.0186,  0.0270,
+        -0.0296,  0.0015], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 158, time 216.05, cls_loss 0.5965 cls_loss_mapping 0.0091 cls_loss_causal 0.4993 re_mapping 0.0136 re_causal 0.0311 /// teacc 98.53 lr 0.00010000
+Epoch 160, weight, value: tensor([[-0.1331, -0.0270,  0.0183,  ..., -0.0212, -0.0654, -0.0958],
+        [-0.0270, -0.0630,  0.0226,  ...,  0.0287, -0.0039, -0.0634],
+        [-0.0412, -0.0595, -0.0791,  ...,  0.0443, -0.0361, -0.0755],
+        ...,
+        [-0.0439,  0.0306,  0.0238,  ...,  0.0282, -0.0357, -0.0704],
+        [-0.0621, -0.0092,  0.0168,  ...,  0.0613, -0.0350, -0.1078],
+        [ 0.0393,  0.0434, -0.0383,  ..., -0.0946, -0.0289,  0.0458]],
+       device='cuda:0'), grad: tensor([[ 2.7671e-05,  2.9385e-05,  8.6784e-04,  ...,  1.0500e-03,
+         -4.7226e-03,  1.8013e-04],
+        [ 1.7548e-04,  2.2268e-04,  7.2050e-04,  ..., -8.1778e-04,
+          2.6398e-03,  3.9887e-04],
+        [ 1.2046e-04, -1.0616e-04,  5.8222e-04,  ..., -1.6842e-03,
+          5.2959e-05,  2.8539e-04],
+        ...,
+        [ 1.6785e-04,  1.2512e-03,  2.2507e-03,  ...,  1.6108e-03,
+          6.1464e-04,  3.6240e-04],
+        [ 1.2183e-04,  1.5879e-04, -6.8321e-03,  ...,  1.1802e-04,
+         -1.8120e-03,  7.4673e-04],
+        [ 1.0419e-04, -2.0351e-03, -6.0043e-03,  ...,  1.2436e-03,
+          2.4629e-04, -9.7418e-04]], device='cuda:0')
+Epoch 160, bias, value: tensor([-0.0435,  0.0040, -0.0003, -0.0061, -0.0024,  0.0062, -0.0112,  0.0283,
+        -0.0073,  0.0146], device='cuda:0'), grad: tensor([ 0.0073, -0.0010, -0.0181, -0.0476,  0.0061,  0.0078, -0.0017,  0.0261,
+         0.0078,  0.0133], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 159, time 215.72, cls_loss 0.5835 cls_loss_mapping 0.0076 cls_loss_causal 0.5039 re_mapping 0.0134 re_causal 0.0309 /// teacc 98.42 lr 0.00010000
+Epoch 161, weight, value: tensor([[-0.1331, -0.0278,  0.0205,  ..., -0.0204, -0.0659, -0.0961],
+        [-0.0275, -0.0643,  0.0236,  ...,  0.0293, -0.0034, -0.0632],
+        [-0.0408, -0.0600, -0.0786,  ...,  0.0432, -0.0368, -0.0745],
+        ...,
+        [-0.0443,  0.0304,  0.0236,  ...,  0.0298, -0.0367, -0.0723],
+        [-0.0623, -0.0097,  0.0162,  ...,  0.0609, -0.0348, -0.1093],
+        [ 0.0394,  0.0437, -0.0393,  ..., -0.0959, -0.0283,  0.0470]],
+       device='cuda:0'), grad: tensor([[-6.9284e-04,  3.2806e-04, -8.6069e-04,  ..., -8.6308e-04,
+          7.1669e-04, -1.2589e-03],
+        [ 2.6554e-05, -4.0412e-05,  9.4295e-05,  ...,  2.9507e-03,
+          1.1164e-04,  4.0150e-04],
+        [ 8.5950e-05,  2.0161e-03,  3.9077e-04,  ...,  2.4605e-03,
+          4.9829e-04,  4.3201e-04],
+        ...,
+        [ 1.3149e-04,  2.8870e-02,  1.7941e-04,  ...,  2.8439e-03,
+          1.8930e-04,  3.2759e-04],
+        [ 1.3571e-03, -3.6678e-03,  1.6489e-03,  ...,  3.3379e-03,
+          1.7576e-03, -1.3657e-03],
+        [ 2.7008e-03,  4.5662e-03,  3.3207e-03,  ...,  2.7981e-03,
+          3.5419e-03,  1.9836e-04]], device='cuda:0')
+Epoch 161, bias, value: tensor([-0.0432,  0.0046,  0.0003, -0.0058, -0.0036,  0.0055, -0.0108,  0.0289,
+        -0.0077,  0.0140], device='cuda:0'), grad: tensor([-0.0122,  0.0157,  0.0223, -0.0353, -0.0181, -0.0308, -0.0059,  0.0378,
+         0.0040,  0.0225], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 160, time 215.69, cls_loss 0.6010 cls_loss_mapping 0.0090 cls_loss_causal 0.5221 re_mapping 0.0132 re_causal 0.0293 /// teacc 98.48 lr 0.00010000
+Epoch 162, weight, value: tensor([[-0.1332, -0.0275,  0.0204,  ..., -0.0219, -0.0663, -0.0955],
+        [-0.0279, -0.0653,  0.0248,  ...,  0.0296, -0.0041, -0.0631],
+        [-0.0403, -0.0610, -0.0791,  ...,  0.0431, -0.0373, -0.0746],
+        ...,
+        [-0.0447,  0.0312,  0.0238,  ...,  0.0296, -0.0360, -0.0731],
+        [-0.0628, -0.0087,  0.0148,  ...,  0.0613, -0.0342, -0.1112],
+        [ 0.0400,  0.0422, -0.0392,  ..., -0.0964, -0.0297,  0.0481]],
+       device='cuda:0'), grad: tensor([[-9.5892e-04, -3.2522e-06, -7.6332e-03,  ..., -1.0862e-03,
+         -4.1175e-04, -2.1219e-04],
+        [ 2.6369e-04,  1.2228e-06,  6.6519e-04,  ..., -4.4250e-03,
+          1.1152e-04,  6.0886e-05],
+        [ 9.7334e-05,  2.7791e-05,  7.1764e-04,  ...,  1.9798e-03,
+          2.1343e-03,  3.5435e-05],
+        ...,
+        [-3.4070e-04, -6.7890e-05,  2.3270e-04,  ...,  4.0889e-04,
+          2.1839e-04,  1.3697e-04],
+        [ 8.3160e-03,  1.5473e-04,  5.0240e-03,  ..., -4.9515e-03,
+          1.7862e-03,  6.8283e-04],
+        [-8.8196e-03, -2.0397e-04, -6.3896e-03,  ...,  3.7422e-03,
+         -6.7997e-04, -8.3637e-04]], device='cuda:0')
+Epoch 162, bias, value: tensor([-0.0439,  0.0043,  0.0003, -0.0058, -0.0024,  0.0056, -0.0107,  0.0287,
+        -0.0072,  0.0136], device='cuda:0'), grad: tensor([-0.0188, -0.0223,  0.0201, -0.0385,  0.0115,  0.0165,  0.0146,  0.0039,
+         0.0208, -0.0079], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 161, time 215.18, cls_loss 0.5935 cls_loss_mapping 0.0075 cls_loss_causal 0.5088 re_mapping 0.0134 re_causal 0.0300 /// teacc 98.59 lr 0.00010000
+Epoch 163, weight, value: tensor([[-0.1341, -0.0272,  0.0201,  ..., -0.0216, -0.0657, -0.0964],
+        [-0.0278, -0.0662,  0.0245,  ...,  0.0295, -0.0053, -0.0642],
+        [-0.0410, -0.0618, -0.0792,  ...,  0.0433, -0.0388, -0.0740],
+        ...,
+        [-0.0450,  0.0310,  0.0233,  ...,  0.0295, -0.0357, -0.0741],
+        [-0.0632, -0.0102,  0.0157,  ...,  0.0610, -0.0336, -0.1117],
+        [ 0.0406,  0.0438, -0.0387,  ..., -0.0965, -0.0302,  0.0489]],
+       device='cuda:0'), grad: tensor([[ 0.0002,  0.0011,  0.0024,  ...,  0.0035,  0.0018,  0.0019],
+        [ 0.0002,  0.0003,  0.0018,  ...,  0.0020,  0.0025,  0.0003],
+        [ 0.0018,  0.0007,  0.0020,  ..., -0.0074,  0.0014, -0.0212],
+        ...,
+        [ 0.0008,  0.0013,  0.0015,  ...,  0.0046,  0.0005,  0.0011],
+        [ 0.0012,  0.0005,  0.0012,  ..., -0.0066,  0.0005,  0.0013],
+        [ 0.0009, -0.0045,  0.0034,  ...,  0.0022,  0.0010, -0.0027]],
+       device='cuda:0')
+Epoch 163, bias, value: tensor([-0.0437,  0.0046,  0.0004, -0.0057, -0.0032,  0.0056, -0.0100,  0.0283,
+        -0.0074,  0.0134], device='cuda:0'), grad: tensor([ 0.0274,  0.0245, -0.0332,  0.0287, -0.0530, -0.0002,  0.0189,  0.0289,
+        -0.0584,  0.0163], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 162, time 214.87, cls_loss 0.5819 cls_loss_mapping 0.0088 cls_loss_causal 0.5082 re_mapping 0.0132 re_causal 0.0302 /// teacc 98.56 lr 0.00010000
+Epoch 164, weight, value: tensor([[-0.1348, -0.0264,  0.0189,  ..., -0.0217, -0.0652, -0.0975],
+        [-0.0280, -0.0659,  0.0237,  ...,  0.0290, -0.0066, -0.0643],
+        [-0.0410, -0.0643, -0.0801,  ...,  0.0435, -0.0387, -0.0733],
+        ...,
+        [-0.0450,  0.0321,  0.0228,  ...,  0.0294, -0.0364, -0.0747],
+        [-0.0636, -0.0083,  0.0159,  ...,  0.0621, -0.0348, -0.1123],
+        [ 0.0412,  0.0432, -0.0386,  ..., -0.0961, -0.0293,  0.0490]],
+       device='cuda:0'), grad: tensor([[ 1.1235e-04,  1.5259e-04,  8.5258e-04,  ...,  1.2243e-04,
+          4.2772e-04,  2.6777e-05],
+        [ 1.3196e-04, -2.4021e-05,  4.0293e-04,  ...,  3.1650e-05,
+         -8.7559e-05,  1.0318e-04],
+        [ 2.7962e-03,  5.6410e-04,  4.0245e-03,  ...,  1.1244e-03,
+          2.7580e-03,  9.7632e-05],
+        ...,
+        [ 2.1935e-04,  3.1042e-04, -1.2169e-03,  ..., -9.8765e-05,
+          7.7295e-04, -1.2505e-04],
+        [ 1.3447e-03,  4.8780e-04,  1.2560e-03,  ...,  3.6168e-04,
+          1.0710e-03,  4.2009e-04],
+        [ 3.9959e-04, -1.7986e-03,  1.7853e-03,  ...,  3.6502e-04,
+         -2.6245e-03,  4.9114e-04]], device='cuda:0')
+Epoch 164, bias, value: tensor([-0.0445,  0.0038,  0.0008, -0.0063, -0.0036,  0.0057, -0.0099,  0.0283,
+        -0.0062,  0.0141], device='cuda:0'), grad: tensor([ 0.0082, -0.0242,  0.0333,  0.0130, -0.0263, -0.0165,  0.0069,  0.0017,
+         0.0146, -0.0108], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 163, time 214.72, cls_loss 0.6227 cls_loss_mapping 0.0086 cls_loss_causal 0.5427 re_mapping 0.0133 re_causal 0.0307 /// teacc 98.65 lr 0.00010000
+Epoch 165, weight, value: tensor([[-0.1352, -0.0274,  0.0196,  ..., -0.0216, -0.0664, -0.0978],
+        [-0.0268, -0.0663,  0.0227,  ...,  0.0291, -0.0064, -0.0643],
+        [-0.0411, -0.0645, -0.0806,  ...,  0.0431, -0.0393, -0.0725],
+        ...,
+        [-0.0451,  0.0318,  0.0226,  ...,  0.0305, -0.0361, -0.0751],
+        [-0.0639, -0.0080,  0.0156,  ...,  0.0616, -0.0370, -0.1133],
+        [ 0.0398,  0.0445, -0.0380,  ..., -0.0969, -0.0288,  0.0484]],
+       device='cuda:0'), grad: tensor([[ 1.7631e-04, -4.0507e-04,  2.7776e-04,  ..., -1.4162e-03,
+          5.7787e-05,  2.3341e-04],
+        [ 4.5681e-04,  2.3861e-03, -8.7662e-03,  ..., -1.2283e-03,
+         -1.5287e-03, -2.3258e-04],
+        [ 5.7793e-04,  4.2820e-04,  3.9768e-04,  ...,  6.8998e-04,
+          1.5306e-04,  6.4087e-04],
+        ...,
+        [-4.0102e-04,  2.1946e-04,  3.7003e-03,  ...,  4.7898e-04,
+          1.5154e-03, -1.6747e-03],
+        [ 4.6802e-04,  2.0477e-02,  5.0926e-04,  ...,  5.8651e-04,
+          9.1019e-03,  5.9795e-04],
+        [ 5.8699e-04,  3.0494e-04,  3.3894e-03,  ...,  1.0157e-03,
+          8.5115e-04,  1.2455e-03]], device='cuda:0')
+Epoch 165, bias, value: tensor([-0.0450,  0.0036,  0.0008, -0.0071, -0.0024,  0.0055, -0.0102,  0.0283,
+        -0.0068,  0.0153], device='cuda:0'), grad: tensor([-0.0459, -0.0346,  0.0234, -0.0100, -0.0099,  0.0187, -0.0044,  0.0224,
+         0.0419, -0.0017], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 164, time 214.75, cls_loss 0.6179 cls_loss_mapping 0.0087 cls_loss_causal 0.5323 re_mapping 0.0135 re_causal 0.0302 /// teacc 98.50 lr 0.00010000
+Epoch 166, weight, value: tensor([[-0.1358, -0.0273,  0.0196,  ..., -0.0219, -0.0664, -0.0978],
+        [-0.0257, -0.0685,  0.0229,  ...,  0.0296, -0.0072, -0.0646],
+        [-0.0415, -0.0632, -0.0808,  ...,  0.0443, -0.0391, -0.0721],
+        ...,
+        [-0.0449,  0.0322,  0.0221,  ...,  0.0296, -0.0379, -0.0748],
+        [-0.0641, -0.0092,  0.0162,  ...,  0.0617, -0.0360, -0.1142],
+        [ 0.0397,  0.0438, -0.0376,  ..., -0.0968, -0.0291,  0.0480]],
+       device='cuda:0'), grad: tensor([[ 0.0003,  0.0016,  0.0003,  ..., -0.0002,  0.0009,  0.0003],
+        [ 0.0001,  0.0006, -0.0022,  ...,  0.0009, -0.0025,  0.0002],
+        [ 0.0159,  0.0028,  0.0004,  ..., -0.0010,  0.0008,  0.0004],
+        ...,
+        [ 0.0002,  0.0006,  0.0006,  ..., -0.0004,  0.0009,  0.0003],
+        [ 0.0020,  0.0008,  0.0008,  ...,  0.0013,  0.0009,  0.0005],
+        [ 0.0007,  0.0008,  0.0004,  ...,  0.0012,  0.0012,  0.0007]],
+       device='cuda:0')
+Epoch 166, bias, value: tensor([-0.0449,  0.0041,  0.0011, -0.0073, -0.0026,  0.0047, -0.0100,  0.0286,
+        -0.0068,  0.0153], device='cuda:0'), grad: tensor([-0.0100, -0.0114,  0.0258,  0.0054, -0.0002,  0.0145, -0.0840,  0.0127,
+         0.0256,  0.0217], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 165, time 214.58, cls_loss 0.5959 cls_loss_mapping 0.0096 cls_loss_causal 0.5187 re_mapping 0.0132 re_causal 0.0299 /// teacc 98.56 lr 0.00010000
+Epoch 167, weight, value: tensor([[-0.1366, -0.0271,  0.0199,  ..., -0.0216, -0.0662, -0.0984],
+        [-0.0263, -0.0680,  0.0236,  ...,  0.0304, -0.0092, -0.0640],
+        [-0.0416, -0.0638, -0.0820,  ...,  0.0445, -0.0382, -0.0725],
+        ...,
+        [-0.0455,  0.0326,  0.0204,  ...,  0.0297, -0.0384, -0.0759],
+        [-0.0643, -0.0088,  0.0162,  ...,  0.0618, -0.0350, -0.1148],
+        [ 0.0408,  0.0444, -0.0376,  ..., -0.0973, -0.0297,  0.0496]],
+       device='cuda:0'), grad: tensor([[-7.5912e-04,  4.8304e-04,  6.4850e-04,  ...,  1.8158e-03,
+          1.2627e-03,  2.0117e-06],
+        [ 7.8201e-04,  1.3723e-03,  1.3371e-03,  ...,  3.7155e-03,
+          3.0670e-03,  2.5555e-06],
+        [ 3.6216e-04, -1.4496e-03,  2.8539e-04,  ..., -1.9779e-03,
+         -1.1702e-03,  5.7966e-06],
+        ...,
+        [ 6.4039e-04, -5.2338e-03,  1.4706e-03,  ...,  2.4509e-04,
+          3.3646e-03, -2.4632e-05],
+        [ 1.1520e-03,  6.8378e-04,  2.2049e-03,  ...,  1.7948e-03,
+          1.1971e-02,  8.5831e-06],
+        [-1.8196e-03,  1.2579e-03, -2.8133e-05,  ...,  1.6375e-03,
+          1.8988e-03,  2.4915e-05]], device='cuda:0')
+Epoch 167, bias, value: tensor([-0.0442,  0.0041,  0.0004, -0.0062, -0.0032,  0.0043, -0.0102,  0.0287,
+        -0.0065,  0.0148], device='cuda:0'), grad: tensor([ 0.0015,  0.0301, -0.0327, -0.0138,  0.0097, -0.0457,  0.0262,  0.0071,
+         0.0002,  0.0174], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 166, time 214.40, cls_loss 0.6369 cls_loss_mapping 0.0079 cls_loss_causal 0.5456 re_mapping 0.0130 re_causal 0.0305 /// teacc 98.44 lr 0.00010000
+Epoch 168, weight, value: tensor([[-0.1380, -0.0268,  0.0198,  ..., -0.0214, -0.0651, -0.0977],
+        [-0.0257, -0.0666,  0.0233,  ...,  0.0298, -0.0099, -0.0646],
+        [-0.0413, -0.0645, -0.0816,  ...,  0.0446, -0.0382, -0.0718],
+        ...,
+        [-0.0448,  0.0309,  0.0212,  ...,  0.0293, -0.0386, -0.0757],
+        [-0.0640, -0.0094,  0.0158,  ...,  0.0604, -0.0366, -0.1151],
+        [ 0.0407,  0.0445, -0.0370,  ..., -0.0960, -0.0283,  0.0476]],
+       device='cuda:0'), grad: tensor([[ 6.8583e-06,  2.7671e-05,  3.5763e-04,  ...,  4.4670e-03,
+          5.0850e-03,  1.5348e-06],
+        [ 5.4181e-05,  6.3658e-05,  5.1403e-04,  ...,  3.3836e-03,
+          2.4891e-03,  9.1270e-08],
+        [ 8.4266e-06,  3.1281e-02,  1.5345e-03,  ...,  5.5237e-03,
+         -1.1971e-02,  2.9653e-06],
+        ...,
+        [ 5.1469e-05, -4.4084e-04, -5.5981e-04,  ..., -1.1887e-02,
+          6.6757e-06,  5.1260e-05],
+        [-1.8120e-04,  6.4898e-04, -4.1652e-04,  ...,  1.3237e-03,
+         -6.2180e-03,  4.9561e-05],
+        [ 8.3923e-05, -1.0361e-02,  7.9870e-04,  ..., -1.4658e-03,
+          1.7090e-03, -2.1565e-04]], device='cuda:0')
+Epoch 168, bias, value: tensor([-0.0436,  0.0040,  0.0015, -0.0073, -0.0032,  0.0049, -0.0107,  0.0288,
+        -0.0070,  0.0147], device='cuda:0'), grad: tensor([ 0.0359,  0.0230,  0.0326, -0.0222,  0.0172, -0.0464,  0.0249, -0.0651,
+         0.0033, -0.0035], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 167, time 214.76, cls_loss 0.6060 cls_loss_mapping 0.0077 cls_loss_causal 0.5203 re_mapping 0.0131 re_causal 0.0302 /// teacc 98.68 lr 0.00010000
+Epoch 169, weight, value: tensor([[-0.1389, -0.0282,  0.0197,  ..., -0.0216, -0.0661, -0.0977],
+        [-0.0256, -0.0680,  0.0226,  ...,  0.0297, -0.0114, -0.0655],
+        [-0.0422, -0.0647, -0.0819,  ...,  0.0453, -0.0385, -0.0717],
+        ...,
+        [-0.0459,  0.0310,  0.0223,  ...,  0.0288, -0.0376, -0.0772],
+        [-0.0648, -0.0081,  0.0165,  ...,  0.0608, -0.0372, -0.1152],
+        [ 0.0414,  0.0461, -0.0367,  ..., -0.0954, -0.0278,  0.0483]],
+       device='cuda:0'), grad: tensor([[-3.3081e-05,  2.0485e-03,  1.3983e-04,  ...,  2.5883e-03,
+          2.5539e-03,  1.1432e-04],
+        [ 7.8306e-06,  1.5430e-03, -2.3613e-03,  ...,  7.5722e-03,
+          2.1343e-03,  8.4400e-05],
+        [ 4.7505e-05,  3.1829e-04,  1.2505e-04,  ..., -1.9440e-02,
+          4.2992e-03,  1.0300e-04],
+        ...,
+        [-1.6284e-04, -3.2692e-03,  2.0182e-04,  ...,  4.8752e-03,
+          3.6411e-03,  1.7023e-04],
+        [ 2.5153e-04, -8.4610e-03,  5.9557e-04,  ...,  2.9583e-03,
+          2.0638e-03,  2.6250e-04],
+        [ 3.0923e-04,  4.5395e-03,  1.9062e-04,  ..., -5.6534e-03,
+         -4.8447e-04, -7.3385e-04]], device='cuda:0')
+Epoch 169, bias, value: tensor([-0.0436,  0.0042,  0.0012, -0.0061, -0.0032,  0.0040, -0.0118,  0.0284,
+        -0.0065,  0.0155], device='cuda:0'), grad: tensor([ 0.0191,  0.0230, -0.0452,  0.0238, -0.0053,  0.0281, -0.0435,  0.0228,
+         0.0015, -0.0244], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 168, time 214.44, cls_loss 0.6081 cls_loss_mapping 0.0085 cls_loss_causal 0.5204 re_mapping 0.0133 re_causal 0.0313 /// teacc 98.55 lr 0.00010000
+Epoch 170, weight, value: tensor([[-0.1403, -0.0279,  0.0195,  ..., -0.0234, -0.0668, -0.0974],
+        [-0.0254, -0.0692,  0.0229,  ...,  0.0296, -0.0108, -0.0655],
+        [-0.0423, -0.0646, -0.0836,  ...,  0.0464, -0.0378, -0.0713],
+        ...,
+        [-0.0459,  0.0304,  0.0230,  ...,  0.0290, -0.0364, -0.0769],
+        [-0.0647, -0.0078,  0.0161,  ...,  0.0613, -0.0371, -0.1153],
+        [ 0.0407,  0.0472, -0.0372,  ..., -0.0947, -0.0270,  0.0475]],
+       device='cuda:0'), grad: tensor([[ 2.5451e-05,  2.0528e-04,  3.0661e-04,  ...,  5.3787e-03,
+          1.3695e-03,  1.0952e-05],
+        [ 1.2958e-04,  1.1754e-04,  4.0627e-04,  ...,  6.5765e-03,
+          1.4887e-03,  2.2039e-05],
+        [ 8.4564e-06,  2.2143e-05,  1.1331e-04,  ...,  6.1569e-03,
+          1.6117e-03,  1.5521e-04],
+        ...,
+        [ 5.3912e-05,  2.0421e-04,  1.5354e-04,  ...,  7.0419e-03,
+          3.3092e-03, -1.4615e-04],
+        [-1.5364e-03,  1.4555e-04, -1.8272e-03,  ..., -5.7907e-03,
+          1.2913e-03,  1.2481e-04],
+        [ 8.3017e-04,  2.1160e-04,  1.8282e-03,  ..., -2.1343e-03,
+         -8.3313e-03,  5.7608e-05]], device='cuda:0')
+Epoch 170, bias, value: tensor([-0.0451,  0.0041,  0.0026, -0.0064, -0.0045,  0.0032, -0.0107,  0.0284,
+        -0.0057,  0.0158], device='cuda:0'), grad: tensor([ 0.0223,  0.0289,  0.0278, -0.0073, -0.0361, -0.0468,  0.0022,  0.0282,
+        -0.0207,  0.0015], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 169, time 214.66, cls_loss 0.6454 cls_loss_mapping 0.0096 cls_loss_causal 0.5670 re_mapping 0.0128 re_causal 0.0311 /// teacc 98.64 lr 0.00010000
+Epoch 171, weight, value: tensor([[-0.1404, -0.0296,  0.0191,  ..., -0.0235, -0.0657, -0.0970],
+        [-0.0253, -0.0696,  0.0242,  ...,  0.0303, -0.0116, -0.0659],
+        [-0.0432, -0.0648, -0.0833,  ...,  0.0457, -0.0385, -0.0717],
+        ...,
+        [-0.0457,  0.0327,  0.0229,  ...,  0.0286, -0.0364, -0.0780],
+        [-0.0658, -0.0078,  0.0151,  ...,  0.0613, -0.0362, -0.1174],
+        [ 0.0418,  0.0460, -0.0381,  ..., -0.0946, -0.0283,  0.0501]],
+       device='cuda:0'), grad: tensor([[ 0.0003,  0.0004,  0.0015,  ...,  0.0017,  0.0009,  0.0002],
+        [ 0.0003,  0.0005, -0.0094,  ..., -0.0029, -0.0086,  0.0001],
+        [ 0.0002,  0.0028,  0.0015,  ...,  0.0013,  0.0006,  0.0001],
+        ...,
+        [ 0.0003,  0.0034,  0.0023,  ...,  0.0023,  0.0013,  0.0001],
+        [ 0.0023,  0.0008,  0.0038,  ...,  0.0026,  0.0012,  0.0010],
+        [-0.0060,  0.0011, -0.0012,  ...,  0.0005,  0.0011, -0.0023]],
+       device='cuda:0')
+Epoch 171, bias, value: tensor([-0.0461,  0.0040,  0.0024, -0.0069, -0.0031,  0.0041, -0.0106,  0.0278,
+        -0.0055,  0.0158], device='cuda:0'), grad: tensor([ 0.0126, -0.0174,  0.0186, -0.0046,  0.0070,  0.0149, -0.0811,  0.0263,
+         0.0205,  0.0032], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 170, time 214.64, cls_loss 0.5911 cls_loss_mapping 0.0072 cls_loss_causal 0.5104 re_mapping 0.0128 re_causal 0.0292 /// teacc 98.65 lr 0.00010000
+Epoch 172, weight, value: tensor([[-0.1408, -0.0273,  0.0191,  ..., -0.0247, -0.0664, -0.0974],
+        [-0.0258, -0.0697,  0.0237,  ...,  0.0318, -0.0103, -0.0669],
+        [-0.0409, -0.0644, -0.0835,  ...,  0.0462, -0.0384, -0.0710],
+        ...,
+        [-0.0459,  0.0325,  0.0221,  ...,  0.0271, -0.0371, -0.0778],
+        [-0.0664, -0.0078,  0.0170,  ...,  0.0625, -0.0360, -0.1177],
+        [ 0.0415,  0.0461, -0.0381,  ..., -0.0943, -0.0285,  0.0514]],
+       device='cuda:0'), grad: tensor([[ 1.0115e-04,  2.2888e-05,  3.3355e-04,  ...,  2.0046e-03,
+          3.5381e-03,  5.1641e-04],
+        [ 2.7919e-04,  6.4969e-06,  2.3708e-03,  ...,  2.2926e-03,
+          3.0079e-03,  7.5865e-04],
+        [ 1.0729e-04, -1.1772e-05, -2.2984e-03,  ...,  1.4706e-03,
+         -6.8359e-03,  4.3154e-04],
+        ...,
+        [ 1.2636e-04,  1.9222e-05,  5.2595e-04,  ...,  1.6212e-03,
+          3.0398e-04,  8.2016e-04],
+        [ 2.7657e-04,  5.7667e-06,  8.8930e-04,  ...,  1.8511e-03,
+         -5.6982e-04,  7.8535e-04],
+        [ 4.0817e-04,  2.9922e-04,  2.4915e-04,  ...,  1.7567e-03,
+          6.6280e-04,  1.4153e-03]], device='cuda:0')
+Epoch 172, bias, value: tensor([-0.0460,  0.0049,  0.0027, -0.0071, -0.0036,  0.0044, -0.0112,  0.0272,
+        -0.0054,  0.0159], device='cuda:0'), grad: tensor([ 0.0290,  0.0537, -0.0074, -0.0247, -0.0401, -0.0185, -0.0278,  0.0168,
+        -0.0069,  0.0258], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 171, time 214.63, cls_loss 0.6013 cls_loss_mapping 0.0079 cls_loss_causal 0.5139 re_mapping 0.0123 re_causal 0.0284 /// teacc 98.69 lr 0.00010000
+Epoch 173, weight, value: tensor([[-0.1407, -0.0284,  0.0192,  ..., -0.0240, -0.0663, -0.0974],
+        [-0.0257, -0.0690,  0.0237,  ...,  0.0325, -0.0094, -0.0670],
+        [-0.0414, -0.0640, -0.0849,  ...,  0.0465, -0.0386, -0.0715],
+        ...,
+        [-0.0452,  0.0322,  0.0224,  ...,  0.0268, -0.0357, -0.0776],
+        [-0.0676, -0.0087,  0.0172,  ...,  0.0627, -0.0347, -0.1191],
+        [ 0.0416,  0.0462, -0.0379,  ..., -0.0958, -0.0298,  0.0517]],
+       device='cuda:0'), grad: tensor([[ 2.2203e-06,  2.4307e-04,  1.8415e-03,  ...,  2.8248e-03,
+          1.6022e-03,  8.0824e-05],
+        [ 4.0010e-06,  3.6740e-04, -1.3294e-03,  ..., -3.8757e-03,
+         -5.7068e-03,  8.4281e-05],
+        [ 5.1707e-06,  7.6115e-05,  2.1324e-03,  ...,  2.5654e-03,
+          1.8024e-04,  7.3051e-04],
+        ...,
+        [ 1.7130e-04,  1.3638e-03, -4.7035e-03,  ..., -4.2915e-04,
+         -2.4967e-03,  4.2582e-04],
+        [ 4.5121e-05,  3.6049e-04,  1.5898e-03,  ..., -7.4768e-04,
+          2.4052e-03,  2.8467e-04],
+        [-2.1410e-04, -9.9850e-04,  3.4904e-03,  ...,  5.2872e-03,
+          2.6741e-03, -2.2006e-04]], device='cuda:0')
+Epoch 173, bias, value: tensor([-0.0453,  0.0058,  0.0032, -0.0069, -0.0036,  0.0048, -0.0121,  0.0271,
+        -0.0063,  0.0152], device='cuda:0'), grad: tensor([ 1.8951e-02, -9.3155e-03,  1.4587e-02,  1.5457e-02, -2.8152e-02,
+        -2.0203e-02, -1.2772e-02,  3.2455e-05, -8.0719e-03,  2.9449e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 172, time 214.58, cls_loss 0.5971 cls_loss_mapping 0.0087 cls_loss_causal 0.5110 re_mapping 0.0133 re_causal 0.0291 /// teacc 98.67 lr 0.00010000
+Epoch 174, weight, value: tensor([[-0.1421, -0.0287,  0.0185,  ..., -0.0250, -0.0664, -0.0988],
+        [-0.0250, -0.0709,  0.0240,  ...,  0.0319, -0.0094, -0.0660],
+        [-0.0420, -0.0641, -0.0851,  ...,  0.0465, -0.0380, -0.0723],
+        ...,
+        [-0.0448,  0.0309,  0.0226,  ...,  0.0272, -0.0366, -0.0785],
+        [-0.0681, -0.0084,  0.0172,  ...,  0.0630, -0.0339, -0.1207],
+        [ 0.0406,  0.0474, -0.0398,  ..., -0.0959, -0.0299,  0.0515]],
+       device='cuda:0'), grad: tensor([[-6.6948e-03, -1.0941e-02, -3.0746e-03,  ..., -4.8828e-03,
+          1.5411e-03, -5.3635e-03],
+        [ 3.8624e-05,  2.0838e-04, -4.3602e-03,  ...,  7.6342e-04,
+         -1.5326e-03,  1.8668e-04],
+        [ 2.6464e-04,  7.4539e-03,  2.8157e-04,  ...,  1.5593e-03,
+          1.6050e-03,  3.2210e-04],
+        ...,
+        [ 3.1519e-04, -6.2904e-03,  2.8467e-04,  ...,  1.5097e-03,
+          8.8930e-04,  5.3692e-04],
+        [ 1.8144e-04,  1.3666e-03,  3.5143e-04,  ...,  8.5545e-04,
+          2.5234e-03,  2.1720e-04],
+        [ 4.5657e-04, -3.5439e-03,  7.0000e-04,  ..., -1.9331e-03,
+          1.2093e-03,  4.6778e-04]], device='cuda:0')
+Epoch 174, bias, value: tensor([-0.0461,  0.0059,  0.0031, -0.0068, -0.0030,  0.0052, -0.0118,  0.0280,
+        -0.0067,  0.0141], device='cuda:0'), grad: tensor([-0.0271, -0.0075,  0.0237,  0.0491,  0.0351, -0.0592, -0.0225,  0.0062,
+         0.0185, -0.0164], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 173, time 214.69, cls_loss 0.6196 cls_loss_mapping 0.0095 cls_loss_causal 0.5402 re_mapping 0.0132 re_causal 0.0288 /// teacc 98.63 lr 0.00010000
+Epoch 175, weight, value: tensor([[-0.1425, -0.0271,  0.0185,  ..., -0.0236, -0.0659, -0.0985],
+        [-0.0256, -0.0724,  0.0240,  ...,  0.0312, -0.0093, -0.0654],
+        [-0.0428, -0.0649, -0.0852,  ...,  0.0464, -0.0383, -0.0732],
+        ...,
+        [-0.0450,  0.0315,  0.0222,  ...,  0.0272, -0.0373, -0.0799],
+        [-0.0675, -0.0081,  0.0166,  ...,  0.0636, -0.0337, -0.1200],
+        [ 0.0407,  0.0470, -0.0398,  ..., -0.0970, -0.0303,  0.0520]],
+       device='cuda:0'), grad: tensor([[-1.0319e-05,  9.8705e-04, -3.6097e-04,  ...,  8.0919e-04,
+         -3.1590e-04,  1.2579e-03],
+        [ 9.3579e-06,  9.1732e-05, -1.0567e-03,  ..., -2.5425e-03,
+          4.4145e-06,  1.8954e-05],
+        [ 2.3529e-05,  9.4795e-04, -5.8651e-04,  ...,  4.3321e-04,
+          3.3307e-04,  5.1403e-04],
+        ...,
+        [ 1.2293e-05,  7.8297e-04,  6.7759e-04,  ...,  4.5156e-04,
+          5.8383e-05,  1.2267e-04],
+        [ 3.4958e-05,  4.3082e-04,  4.5943e-04,  ...,  3.0661e-04,
+          2.1625e-04,  1.8048e-04],
+        [ 1.1832e-05, -7.6175e-05,  3.6564e-03,  ...,  3.0270e-03,
+          2.5482e-03,  3.7441e-03]], device='cuda:0')
+Epoch 175, bias, value: tensor([-0.0454,  0.0059,  0.0034, -0.0068, -0.0023,  0.0053, -0.0126,  0.0282,
+        -0.0066,  0.0130], device='cuda:0'), grad: tensor([ 0.0114, -0.0343,  0.0058, -0.0229, -0.0303,  0.0055,  0.0160,  0.0155,
+         0.0052,  0.0281], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 174, time 214.48, cls_loss 0.6325 cls_loss_mapping 0.0076 cls_loss_causal 0.5539 re_mapping 0.0122 re_causal 0.0289 /// teacc 98.70 lr 0.00010000
+Epoch 176, weight, value: tensor([[-0.1435, -0.0275,  0.0188,  ..., -0.0236, -0.0669, -0.0992],
+        [-0.0267, -0.0736,  0.0239,  ...,  0.0311, -0.0097, -0.0664],
+        [-0.0431, -0.0639, -0.0861,  ...,  0.0456, -0.0386, -0.0731],
+        ...,
+        [-0.0451,  0.0321,  0.0211,  ...,  0.0276, -0.0387, -0.0806],
+        [-0.0667, -0.0094,  0.0165,  ...,  0.0648, -0.0328, -0.1208],
+        [ 0.0408,  0.0472, -0.0386,  ..., -0.0980, -0.0296,  0.0515]],
+       device='cuda:0'), grad: tensor([[-0.0002,  0.0012, -0.0016,  ...,  0.0007,  0.0003,  0.0004],
+        [ 0.0002,  0.0016,  0.0021,  ...,  0.0030,  0.0035,  0.0010],
+        [ 0.0218, -0.0010,  0.0009,  ..., -0.0018, -0.0015, -0.0002],
+        ...,
+        [ 0.0003, -0.0003,  0.0019,  ...,  0.0006,  0.0016,  0.0009],
+        [-0.0026, -0.0016, -0.0069,  ..., -0.0052, -0.0084, -0.0049],
+        [ 0.0006,  0.0009,  0.0026,  ..., -0.0017, -0.0044,  0.0019]],
+       device='cuda:0')
+Epoch 176, bias, value: tensor([-0.0461,  0.0053,  0.0030, -0.0063, -0.0025,  0.0055, -0.0127,  0.0284,
+        -0.0058,  0.0131], device='cuda:0'), grad: tensor([ 0.0259,  0.0524, -0.0018,  0.0114, -0.0337,  0.0329,  0.0078,  0.0132,
+        -0.0969, -0.0111], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 175, time 214.66, cls_loss 0.6050 cls_loss_mapping 0.0108 cls_loss_causal 0.5031 re_mapping 0.0133 re_causal 0.0290 /// teacc 98.65 lr 0.00010000
+Epoch 177, weight, value: tensor([[-0.1448, -0.0277,  0.0187,  ..., -0.0232, -0.0658, -0.0998],
+        [-0.0271, -0.0732,  0.0245,  ...,  0.0323, -0.0092, -0.0671],
+        [-0.0451, -0.0642, -0.0865,  ...,  0.0450, -0.0382, -0.0733],
+        ...,
+        [-0.0458,  0.0320,  0.0215,  ...,  0.0284, -0.0393, -0.0809],
+        [-0.0654, -0.0093,  0.0175,  ...,  0.0648, -0.0319, -0.1206],
+        [ 0.0426,  0.0475, -0.0408,  ..., -0.0981, -0.0301,  0.0506]],
+       device='cuda:0'), grad: tensor([[-7.3433e-05,  1.4591e-04, -2.8276e-04,  ...,  1.5793e-03,
+          7.5626e-04,  1.1966e-05],
+        [ 1.6677e-04,  1.7989e-04, -8.1539e-04,  ...,  3.4637e-03,
+         -7.7295e-04,  1.2755e-05],
+        [ 1.7095e-04,  1.0210e-04,  6.0606e-04,  ...,  2.4834e-03,
+          1.0582e-02, -1.5140e-04],
+        ...,
+        [-5.6419e-03, -8.7404e-04, -3.5992e-03,  ..., -1.5945e-02,
+         -4.7188e-03,  3.9548e-05],
+        [ 1.3075e-03, -1.2851e-04,  3.1161e-04,  ...,  2.8706e-04,
+          1.2484e-03,  2.4605e-04],
+        [-2.5845e-04,  3.2473e-04,  1.6975e-03,  ...,  4.9782e-03,
+          9.8228e-04, -6.7139e-04]], device='cuda:0')
+Epoch 177, bias, value: tensor([-0.0460,  0.0054,  0.0027, -0.0059, -0.0037,  0.0053, -0.0128,  0.0296,
+        -0.0061,  0.0132], device='cuda:0'), grad: tensor([ 0.0147,  0.0017,  0.0015, -0.0547,  0.0086,  0.0145,  0.0183, -0.0551,
+         0.0189,  0.0315], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 176, time 215.07, cls_loss 0.5660 cls_loss_mapping 0.0065 cls_loss_causal 0.4844 re_mapping 0.0132 re_causal 0.0291 /// teacc 98.50 lr 0.00010000
+Epoch 178, weight, value: tensor([[-0.1451, -0.0269,  0.0185,  ..., -0.0240, -0.0666, -0.1005],
+        [-0.0273, -0.0733,  0.0251,  ...,  0.0326, -0.0089, -0.0669],
+        [-0.0446, -0.0642, -0.0869,  ...,  0.0433, -0.0379, -0.0724],
+        ...,
+        [-0.0475,  0.0316,  0.0210,  ...,  0.0289, -0.0407, -0.0816],
+        [-0.0657, -0.0094,  0.0173,  ...,  0.0653, -0.0307, -0.1215],
+        [ 0.0424,  0.0476, -0.0408,  ..., -0.0978, -0.0302,  0.0508]],
+       device='cuda:0'), grad: tensor([[ 2.9874e-04,  2.6417e-03,  8.4257e-04,  ...,  1.2302e-03,
+          6.8307e-05,  1.1206e-03],
+        [ 1.9908e-04, -3.6163e-03,  1.7822e-04,  ...,  1.5440e-03,
+         -4.2975e-05,  3.7670e-04],
+        [ 1.4429e-03,  1.2293e-03,  1.2207e-03,  ..., -2.6436e-03,
+          1.3649e-04,  1.4725e-03],
+        ...,
+        [ 1.0080e-03, -3.0017e-04,  2.4872e-03,  ...,  1.5545e-03,
+          6.3705e-04,  1.9007e-03],
+        [-5.7411e-03,  1.6966e-03, -7.9575e-03,  ...,  3.3021e-04,
+          3.2544e-05, -5.3062e-03],
+        [ 8.3303e-04,  4.2496e-03,  1.2846e-03,  ...,  3.1528e-03,
+          2.5725e-04,  1.5326e-03]], device='cuda:0')
+Epoch 178, bias, value: tensor([-0.0465,  0.0053,  0.0028, -0.0065, -0.0036,  0.0058, -0.0122,  0.0294,
+        -0.0059,  0.0134], device='cuda:0'), grad: tensor([ 0.0021, -0.0010, -0.0102, -0.0236,  0.0326,  0.0237, -0.0716,  0.0277,
+        -0.0085,  0.0287], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 177, time 224.77, cls_loss 0.6485 cls_loss_mapping 0.0074 cls_loss_causal 0.5647 re_mapping 0.0121 re_causal 0.0294 /// teacc 98.55 lr 0.00010000
+Epoch 179, weight, value: tensor([[-0.1462, -0.0269,  0.0192,  ..., -0.0243, -0.0669, -0.1007],
+        [-0.0280, -0.0740,  0.0251,  ...,  0.0338, -0.0082, -0.0677],
+        [-0.0454, -0.0633, -0.0879,  ...,  0.0434, -0.0375, -0.0737],
+        ...,
+        [-0.0474,  0.0309,  0.0213,  ...,  0.0278, -0.0411, -0.0812],
+        [-0.0650, -0.0103,  0.0190,  ...,  0.0655, -0.0308, -0.1214],
+        [ 0.0433,  0.0486, -0.0409,  ..., -0.0968, -0.0312,  0.0508]],
+       device='cuda:0'), grad: tensor([[ 3.9220e-04,  4.1366e-05,  2.0828e-02,  ...,  6.2904e-03,
+          2.2030e-03,  6.6936e-05],
+        [-1.8328e-05,  7.3202e-07, -2.5063e-03,  ..., -1.0170e-02,
+          2.1000e-03,  3.2872e-05],
+        [ 2.8777e-04,  9.9763e-06,  3.9787e-03,  ...,  1.1139e-02,
+          1.7653e-03,  4.3392e-05],
+        ...,
+        [ 2.1496e-03,  4.5449e-05, -2.4368e-02,  ..., -5.2109e-03,
+          1.6413e-03,  4.6015e-04],
+        [-1.2436e-02, -6.1913e-03, -1.5419e-02,  ..., -1.0002e-02,
+         -2.3575e-03, -7.7286e-03],
+        [ 2.9869e-03,  5.9319e-03,  6.8359e-03,  ...,  1.2047e-02,
+          6.2561e-04,  6.7177e-03]], device='cuda:0')
+Epoch 179, bias, value: tensor([-0.0460,  0.0058,  0.0027, -0.0068, -0.0034,  0.0052, -0.0114,  0.0286,
+        -0.0068,  0.0141], device='cuda:0'), grad: tensor([ 0.0373, -0.0156,  0.0370,  0.0172,  0.0206, -0.0303, -0.0145, -0.0308,
+        -0.0592,  0.0383], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 178, time 217.90, cls_loss 0.5724 cls_loss_mapping 0.0070 cls_loss_causal 0.4834 re_mapping 0.0128 re_causal 0.0287 /// teacc 98.51 lr 0.00010000
+Epoch 180, weight, value: tensor([[-0.1454, -0.0260,  0.0183,  ..., -0.0246, -0.0678, -0.1002],
+        [-0.0287, -0.0749,  0.0262,  ...,  0.0338, -0.0096, -0.0677],
+        [-0.0455, -0.0637, -0.0883,  ...,  0.0435, -0.0374, -0.0743],
+        ...,
+        [-0.0470,  0.0310,  0.0204,  ...,  0.0271, -0.0421, -0.0811],
+        [-0.0650, -0.0105,  0.0201,  ...,  0.0657, -0.0313, -0.1222],
+        [ 0.0430,  0.0494, -0.0391,  ..., -0.0962, -0.0305,  0.0505]],
+       device='cuda:0'), grad: tensor([[ 5.4061e-05,  5.7564e-03,  2.8992e-04,  ...,  5.4264e-04,
+          1.3399e-03,  4.4703e-05],
+        [ 2.8431e-05,  7.7391e-04, -3.3408e-05,  ...,  4.7755e-04,
+          2.4719e-03,  4.6074e-05],
+        [ 1.2465e-03,  5.8508e-04,  2.7714e-03,  ..., -1.4114e-03,
+         -1.0042e-03,  8.6129e-05],
+        ...,
+        [ 1.4246e-04,  4.2725e-03,  1.0490e-04,  ...,  2.8825e-04,
+          9.8038e-04,  6.9857e-04],
+        [ 1.2481e-04,  1.4715e-03,  3.3760e-04,  ...,  1.3695e-03,
+         -1.9131e-03,  3.9601e-04],
+        [-1.0747e-04, -7.5188e-03,  2.0862e-04,  ...,  4.3225e-04,
+          1.0796e-03, -1.3895e-03]], device='cuda:0')
+Epoch 180, bias, value: tensor([-0.0458,  0.0062,  0.0024, -0.0074, -0.0042,  0.0059, -0.0108,  0.0284,
+        -0.0071,  0.0144], device='cuda:0'), grad: tensor([ 0.0275,  0.0267,  0.0141, -0.0648, -0.0076, -0.0280,  0.0106,  0.0220,
+        -0.0086,  0.0083], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 179, time 216.46, cls_loss 0.5969 cls_loss_mapping 0.0073 cls_loss_causal 0.5257 re_mapping 0.0123 re_causal 0.0293 /// teacc 98.69 lr 0.00010000
+Epoch 181, weight, value: tensor([[-0.1463, -0.0257,  0.0184,  ..., -0.0243, -0.0681, -0.0992],
+        [-0.0284, -0.0750,  0.0258,  ...,  0.0332, -0.0095, -0.0676],
+        [-0.0455, -0.0636, -0.0881,  ...,  0.0430, -0.0366, -0.0743],
+        ...,
+        [-0.0470,  0.0313,  0.0201,  ...,  0.0272, -0.0422, -0.0816],
+        [-0.0646, -0.0112,  0.0204,  ...,  0.0656, -0.0322, -0.1226],
+        [ 0.0434,  0.0498, -0.0396,  ..., -0.0971, -0.0300,  0.0499]],
+       device='cuda:0'), grad: tensor([[ 1.0556e-04,  2.8276e-04, -8.3017e-04,  ...,  1.4133e-03,
+         -3.4943e-03,  1.3255e-05],
+        [-5.8031e-04,  9.0361e-04,  4.5991e-04,  ..., -2.1973e-03,
+         -1.3466e-03,  2.6166e-05],
+        [ 1.4019e-03,  2.2984e-03,  1.1806e-03,  ...,  2.5234e-03,
+         -2.0943e-03,  4.9412e-05],
+        ...,
+        [-3.1643e-03, -4.3640e-03,  1.2932e-03,  ..., -7.7209e-03,
+          2.2964e-03,  6.7294e-05],
+        [ 1.7130e-04, -4.5700e-03,  1.6699e-03,  ...,  1.9627e-03,
+         -4.1542e-03,  1.5032e-04],
+        [ 6.2752e-03,  1.1139e-03,  7.7744e-03,  ..., -2.7418e-05,
+          2.7084e-03,  3.6068e-03]], device='cuda:0')
+Epoch 181, bias, value: tensor([-0.0454,  0.0062,  0.0020, -0.0086, -0.0038,  0.0061, -0.0101,  0.0288,
+        -0.0076,  0.0145], device='cuda:0'), grad: tensor([-0.0019, -0.0447,  0.0103, -0.0184, -0.0048,  0.0282,  0.0329, -0.0276,
+         0.0073,  0.0187], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 180, time 224.09, cls_loss 0.6058 cls_loss_mapping 0.0088 cls_loss_causal 0.5177 re_mapping 0.0125 re_causal 0.0282 /// teacc 98.75 lr 0.00010000
+Epoch 182, weight, value: tensor([[-0.1467, -0.0263,  0.0175,  ..., -0.0242, -0.0685, -0.0992],
+        [-0.0277, -0.0736,  0.0279,  ...,  0.0331, -0.0083, -0.0699],
+        [-0.0465, -0.0647, -0.0885,  ...,  0.0429, -0.0378, -0.0755],
+        ...,
+        [-0.0469,  0.0318,  0.0213,  ...,  0.0283, -0.0421, -0.0819],
+        [-0.0638, -0.0099,  0.0200,  ...,  0.0651, -0.0316, -0.1226],
+        [ 0.0429,  0.0500, -0.0398,  ..., -0.0976, -0.0300,  0.0498]],
+       device='cuda:0'), grad: tensor([[ 1.3790e-03,  6.8069e-05,  1.1005e-03,  ...,  9.3794e-04,
+          1.0672e-03,  9.1887e-04],
+        [ 2.0351e-03,  1.9426e-03,  2.7733e-03,  ...,  1.2026e-03,
+          5.8975e-03,  2.5425e-03],
+        [-6.4316e-03,  3.9458e-04, -1.3641e-02,  ..., -9.7322e-04,
+         -1.1215e-02, -1.9395e-04],
+        ...,
+        [ 2.5959e-03,  4.5061e-04,  4.5300e-06,  ...,  1.1349e-03,
+         -1.2655e-03, -5.6410e-04],
+        [ 1.7204e-03, -4.2343e-03,  5.9204e-03,  ...,  1.1616e-03,
+          7.2432e-04, -6.1989e-04],
+        [-5.3978e-03,  1.3866e-03, -5.5122e-03,  ..., -2.3994e-03,
+         -2.7161e-03, -4.4098e-03]], device='cuda:0')
+Epoch 182, bias, value: tensor([-0.0452,  0.0072,  0.0014, -0.0088, -0.0041,  0.0053, -0.0096,  0.0296,
+        -0.0078,  0.0139], device='cuda:0'), grad: tensor([ 0.0176,  0.0248, -0.0799,  0.0117,  0.0380, -0.0331,  0.0307,  0.0081,
+         0.0118, -0.0298], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 181, time 223.91, cls_loss 0.5841 cls_loss_mapping 0.0054 cls_loss_causal 0.5073 re_mapping 0.0121 re_causal 0.0278 /// teacc 98.71 lr 0.00010000
+Epoch 183, weight, value: tensor([[-0.1458, -0.0262,  0.0176,  ..., -0.0244, -0.0689, -0.0991],
+        [-0.0277, -0.0734,  0.0281,  ...,  0.0327, -0.0081, -0.0719],
+        [-0.0458, -0.0647, -0.0882,  ...,  0.0433, -0.0387, -0.0746],
+        ...,
+        [-0.0457,  0.0321,  0.0209,  ...,  0.0284, -0.0429, -0.0798],
+        [-0.0649, -0.0103,  0.0193,  ...,  0.0652, -0.0323, -0.1237],
+        [ 0.0426,  0.0501, -0.0397,  ..., -0.0982, -0.0304,  0.0498]],
+       device='cuda:0'), grad: tensor([[ 2.7680e-04,  8.6689e-04,  1.4009e-03,  ...,  2.5387e-03,
+          5.9891e-04, -2.3842e-04],
+        [ 1.6165e-04,  2.5749e-03,  4.6539e-04,  ...,  2.9755e-03,
+          1.3142e-03,  6.0171e-05],
+        [ 9.8705e-04,  1.5287e-03,  5.1212e-04,  ..., -8.3399e-04,
+         -2.7657e-03,  7.2908e-04],
+        ...,
+        [ 1.3809e-03, -5.7945e-03,  2.3689e-03,  ..., -1.3931e-02,
+         -2.5311e-03,  1.4839e-03],
+        [ 1.4200e-03,  3.3016e-03,  5.0850e-03,  ...,  3.6793e-03,
+          8.1396e-04,  3.1972e-04],
+        [-1.2039e-02,  3.6221e-03, -3.2177e-03,  ...,  5.4502e-04,
+          8.4019e-04, -8.6365e-03]], device='cuda:0')
+Epoch 183, bias, value: tensor([-0.0445,  0.0067,  0.0021, -0.0084, -0.0038,  0.0054, -0.0105,  0.0294,
+        -0.0079,  0.0137], device='cuda:0'), grad: tensor([ 0.0184,  0.0296, -0.0427, -0.0044, -0.0090, -0.0096,  0.0189, -0.0082,
+         0.0370, -0.0300], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 182, time 222.32, cls_loss 0.6121 cls_loss_mapping 0.0073 cls_loss_causal 0.5328 re_mapping 0.0120 re_causal 0.0278 /// teacc 98.67 lr 0.00010000
+Epoch 184, weight, value: tensor([[-0.1451, -0.0258,  0.0165,  ..., -0.0256, -0.0708, -0.0994],
+        [-0.0279, -0.0727,  0.0271,  ...,  0.0323, -0.0076, -0.0719],
+        [-0.0462, -0.0651, -0.0876,  ...,  0.0428, -0.0385, -0.0745],
+        ...,
+        [-0.0464,  0.0324,  0.0218,  ...,  0.0293, -0.0440, -0.0795],
+        [-0.0647, -0.0097,  0.0199,  ...,  0.0651, -0.0329, -0.1248],
+        [ 0.0429,  0.0502, -0.0388,  ..., -0.0991, -0.0301,  0.0501]],
+       device='cuda:0'), grad: tensor([[ 2.0707e-04,  1.8096e-04,  4.4632e-04,  ...,  1.1730e-03,
+          8.7643e-04,  7.0751e-05],
+        [ 3.2157e-05,  1.2016e-03,  4.2886e-05,  ...,  1.4658e-03,
+          1.9283e-03,  1.3661e-04],
+        [ 1.5342e-04, -5.6801e-03, -2.2182e-03,  ..., -3.5024e-04,
+         -1.1078e-02,  2.7493e-05],
+        ...,
+        [ 1.5870e-05,  1.5106e-03, -6.8951e-04,  ..., -7.6370e-03,
+         -6.2256e-03,  3.9160e-05],
+        [ 2.5043e-03,  1.4687e-03,  1.6832e-03,  ...,  1.2608e-03,
+         -1.8477e-05,  1.9297e-05],
+        [ 7.9334e-05,  1.7204e-03,  2.9993e-04,  ...,  2.7394e-04,
+          7.0953e-04,  3.8505e-05]], device='cuda:0')
+Epoch 184, bias, value: tensor([-0.0447,  0.0068,  0.0015, -0.0076, -0.0039,  0.0043, -0.0106,  0.0310,
+        -0.0079,  0.0131], device='cuda:0'), grad: tensor([ 0.0096,  0.0176, -0.0283,  0.0245, -0.0153,  0.0042, -0.0077, -0.0144,
+        -0.0044,  0.0142], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 183, time 229.27, cls_loss 0.5958 cls_loss_mapping 0.0051 cls_loss_causal 0.5169 re_mapping 0.0117 re_causal 0.0284 /// teacc 98.72 lr 0.00010000
+Epoch 185, weight, value: tensor([[-0.1453, -0.0254,  0.0167,  ..., -0.0257, -0.0697, -0.0989],
+        [-0.0283, -0.0724,  0.0276,  ...,  0.0328, -0.0075, -0.0699],
+        [-0.0466, -0.0653, -0.0878,  ...,  0.0428, -0.0390, -0.0748],
+        ...,
+        [-0.0470,  0.0322,  0.0218,  ...,  0.0303, -0.0434, -0.0811],
+        [-0.0641, -0.0100,  0.0190,  ...,  0.0635, -0.0328, -0.1252],
+        [ 0.0430,  0.0506, -0.0392,  ..., -0.0985, -0.0305,  0.0500]],
+       device='cuda:0'), grad: tensor([[-1.3571e-03,  1.8954e-04,  2.2256e-04,  ...,  1.1845e-03,
+          3.2654e-03,  7.9811e-05],
+        [ 6.0368e-04, -4.1275e-03,  1.0633e-03,  ..., -2.2621e-03,
+          6.4926e-03,  3.7456e-04],
+        [ 1.3990e-03,  4.0855e-03,  1.0118e-03,  ...,  6.4850e-03,
+          5.2261e-03,  2.3508e-04],
+        ...,
+        [-1.7303e-02,  3.5038e-03,  8.7738e-04,  ..., -7.4244e-04,
+          3.8395e-03, -1.1696e-02],
+        [ 7.3004e-04,  3.5501e-04,  9.3079e-04,  ..., -2.0065e-03,
+          4.3297e-03,  1.2022e-04],
+        [ 1.1009e-02, -4.9477e-03, -4.4250e-03,  ..., -1.6594e-04,
+          5.1003e-03,  7.3853e-03]], device='cuda:0')
+Epoch 185, bias, value: tensor([-0.0448,  0.0070,  0.0016, -0.0072, -0.0037,  0.0046, -0.0116,  0.0306,
+        -0.0075,  0.0130], device='cuda:0'), grad: tensor([ 0.0005, -0.0130,  0.0467,  0.0143,  0.0314, -0.0422, -0.0214, -0.0062,
+        -0.0175,  0.0075], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 184, time 229.30, cls_loss 0.6088 cls_loss_mapping 0.0075 cls_loss_causal 0.5312 re_mapping 0.0126 re_causal 0.0290 /// teacc 98.70 lr 0.00010000
+Epoch 186, weight, value: tensor([[-0.1459, -0.0242,  0.0152,  ..., -0.0264, -0.0711, -0.0992],
+        [-0.0284, -0.0722,  0.0277,  ...,  0.0322, -0.0095, -0.0710],
+        [-0.0463, -0.0660, -0.0867,  ...,  0.0436, -0.0383, -0.0749],
+        ...,
+        [-0.0477,  0.0327,  0.0221,  ...,  0.0296, -0.0434, -0.0812],
+        [-0.0640, -0.0097,  0.0191,  ...,  0.0636, -0.0330, -0.1248],
+        [ 0.0445,  0.0499, -0.0379,  ..., -0.0975, -0.0295,  0.0506]],
+       device='cuda:0'), grad: tensor([[-2.1133e-03,  2.7585e-04, -3.5334e-04,  ..., -3.3550e-03,
+          5.4091e-05, -1.1473e-03],
+        [ 2.8820e-03,  1.7691e-03,  5.6953e-03,  ...,  6.9797e-05,
+          1.5354e-04,  1.2481e-04],
+        [ 2.2240e-03,  5.7697e-04,  2.1992e-03,  ...,  3.9597e-03,
+          3.1292e-05,  1.4019e-03],
+        ...,
+        [ 5.3167e-04,  3.5496e-03,  1.4925e-03,  ...,  3.6030e-03,
+          1.1909e-04,  2.6560e-04],
+        [-8.8654e-03,  2.8732e-02, -6.9008e-03,  ..., -5.1994e-03,
+         -2.0943e-03, -3.7403e-03],
+        [-3.2845e-03, -2.8610e-02, -6.3095e-03,  ...,  1.2226e-03,
+          3.7527e-04, -2.7809e-03]], device='cuda:0')
+Epoch 186, bias, value: tensor([-0.0460,  0.0064,  0.0021, -0.0077, -0.0035,  0.0048, -0.0116,  0.0301,
+        -0.0067,  0.0140], device='cuda:0'), grad: tensor([-0.0258,  0.0094,  0.0216,  0.0086, -0.0106,  0.0203, -0.0185,  0.0305,
+         0.0122, -0.0478], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 185, time 217.65, cls_loss 0.5982 cls_loss_mapping 0.0085 cls_loss_causal 0.5123 re_mapping 0.0130 re_causal 0.0283 /// teacc 98.61 lr 0.00010000
+Epoch 187, weight, value: tensor([[-0.1458, -0.0242,  0.0155,  ..., -0.0274, -0.0716, -0.0996],
+        [-0.0286, -0.0723,  0.0275,  ...,  0.0324, -0.0089, -0.0706],
+        [-0.0467, -0.0648, -0.0872,  ...,  0.0431, -0.0371, -0.0759],
+        ...,
+        [-0.0473,  0.0311,  0.0222,  ...,  0.0308, -0.0440, -0.0829],
+        [-0.0620, -0.0102,  0.0211,  ...,  0.0630, -0.0324, -0.1253],
+        [ 0.0426,  0.0509, -0.0389,  ..., -0.0980, -0.0306,  0.0515]],
+       device='cuda:0'), grad: tensor([[ 1.2898e-04,  6.7294e-05,  2.7490e-04,  ...,  2.5196e-03,
+         -7.6580e-04,  2.7919e-04],
+        [ 4.4882e-05,  3.3453e-06,  8.1301e-04,  ...,  2.9964e-03,
+          2.0638e-05,  4.4912e-05],
+        [ 3.5238e-04,  1.0026e-04,  8.3590e-04,  ...,  2.7313e-03,
+          7.1049e-05,  3.1781e-04],
+        ...,
+        [ 1.7166e-04,  1.2422e-04,  9.9564e-04,  ...,  3.1471e-03,
+          2.4512e-05,  3.7193e-04],
+        [ 4.6641e-05, -1.8967e-02,  6.1703e-04,  ..., -3.3131e-03,
+          5.8591e-05,  3.5572e-04],
+        [ 2.0826e-04,  1.7761e-02,  1.3294e-03,  ..., -3.1033e-03,
+          1.4611e-05,  3.7551e-04]], device='cuda:0')
+Epoch 187, bias, value: tensor([-0.0462,  0.0067,  0.0028, -0.0077, -0.0035,  0.0044, -0.0113,  0.0312,
+        -0.0074,  0.0131], device='cuda:0'), grad: tensor([-0.0041,  0.0198,  0.0282, -0.0324, -0.0010, -0.0148,  0.0094,  0.0217,
+        -0.0289,  0.0021], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 186, time 214.65, cls_loss 0.5929 cls_loss_mapping 0.0060 cls_loss_causal 0.5142 re_mapping 0.0123 re_causal 0.0284 /// teacc 98.76 lr 0.00010000
+Epoch 188, weight, value: tensor([[-0.1464, -0.0254,  0.0159,  ..., -0.0260, -0.0711, -0.1003],
+        [-0.0292, -0.0730,  0.0274,  ...,  0.0335, -0.0084, -0.0706],
+        [-0.0487, -0.0651, -0.0869,  ...,  0.0436, -0.0373, -0.0760],
+        ...,
+        [-0.0464,  0.0305,  0.0217,  ...,  0.0306, -0.0450, -0.0811],
+        [-0.0638, -0.0095,  0.0202,  ...,  0.0622, -0.0327, -0.1269],
+        [ 0.0436,  0.0513, -0.0388,  ..., -0.0989, -0.0302,  0.0513]],
+       device='cuda:0'), grad: tensor([[ 1.0185e-03,  8.4043e-06, -4.4899e-03,  ..., -3.5210e-03,
+         -4.4289e-03,  2.4989e-05],
+        [ 4.5872e-04,  1.3995e-04,  4.8676e-03,  ...,  5.9662e-03,
+          5.5361e-04,  3.4380e-04],
+        [ 5.3406e-03,  1.0854e-04, -5.2834e-03,  ...,  9.1028e-04,
+          4.7340e-03,  6.1631e-05],
+        ...,
+        [ 1.1263e-03,  2.2411e-04,  5.4169e-04,  ...,  3.6583e-03,
+          1.1663e-03,  5.4550e-04],
+        [ 3.3588e-03, -1.8847e-04,  5.5504e-04,  ..., -3.9444e-03,
+          2.3842e-03,  5.4169e-04],
+        [ 3.7193e-03,  1.3256e-04,  1.0042e-03,  ..., -2.7618e-03,
+          2.0885e-03,  3.7498e-03]], device='cuda:0')
+Epoch 188, bias, value: tensor([-0.0458,  0.0070,  0.0028, -0.0071, -0.0033,  0.0032, -0.0120,  0.0316,
+        -0.0071,  0.0125], device='cuda:0'), grad: tensor([-0.0589,  0.0403,  0.0141, -0.0138, -0.0079,  0.0221, -0.0096,  0.0248,
+        -0.0070, -0.0041], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 187, time 216.81, cls_loss 0.6082 cls_loss_mapping 0.0062 cls_loss_causal 0.5328 re_mapping 0.0122 re_causal 0.0286 /// teacc 98.59 lr 0.00010000
+Epoch 189, weight, value: tensor([[-0.1464, -0.0250,  0.0155,  ..., -0.0259, -0.0707, -0.1007],
+        [-0.0298, -0.0715,  0.0276,  ...,  0.0330, -0.0078, -0.0709],
+        [-0.0498, -0.0654, -0.0876,  ...,  0.0439, -0.0379, -0.0762],
+        ...,
+        [-0.0461,  0.0309,  0.0218,  ...,  0.0310, -0.0464, -0.0811],
+        [-0.0646, -0.0096,  0.0207,  ...,  0.0617, -0.0319, -0.1277],
+        [ 0.0445,  0.0497, -0.0387,  ..., -0.0993, -0.0308,  0.0523]],
+       device='cuda:0'), grad: tensor([[ 5.5361e-04,  6.5327e-05,  1.9646e-04,  ...,  2.8515e-03,
+          1.5283e-04,  1.8501e-04],
+        [ 7.9632e-04,  2.0885e-03,  8.3923e-04,  ...,  3.3607e-03,
+          6.8903e-04,  2.4188e-04],
+        [ 1.2970e-03,  2.5535e-04,  1.3590e-03,  ..., -2.2640e-03,
+          1.4582e-03,  3.4857e-04],
+        ...,
+        [ 4.6790e-05,  1.1187e-03,  1.6565e-03,  ...,  8.5297e-03,
+          1.7357e-03,  2.6741e-03],
+        [ 4.4990e-04,  1.4277e-03,  3.1304e-04,  ..., -1.1879e-02,
+          2.3317e-04, -3.2921e-03],
+        [ 2.1133e-02,  4.7836e-03, -1.0475e-02,  ..., -3.4447e-03,
+          8.7738e-03,  1.9014e-04]], device='cuda:0')
+Epoch 189, bias, value: tensor([-0.0460,  0.0069,  0.0020, -0.0064, -0.0045,  0.0035, -0.0107,  0.0321,
+        -0.0076,  0.0124], device='cuda:0'), grad: tensor([ 0.0183,  0.0247, -0.0033, -0.0291,  0.0403, -0.0539,  0.0025,  0.0260,
+        -0.0499,  0.0246], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 188, time 218.47, cls_loss 0.5973 cls_loss_mapping 0.0083 cls_loss_causal 0.5144 re_mapping 0.0127 re_causal 0.0288 /// teacc 98.69 lr 0.00010000
+Epoch 190, weight, value: tensor([[-0.1473, -0.0248,  0.0162,  ..., -0.0266, -0.0719, -0.1006],
+        [-0.0315, -0.0723,  0.0276,  ...,  0.0323, -0.0081, -0.0714],
+        [-0.0499, -0.0652, -0.0882,  ...,  0.0437, -0.0369, -0.0761],
+        ...,
+        [-0.0479,  0.0302,  0.0218,  ...,  0.0316, -0.0466, -0.0823],
+        [-0.0644, -0.0078,  0.0207,  ...,  0.0622, -0.0317, -0.1274],
+        [ 0.0449,  0.0492, -0.0390,  ..., -0.0997, -0.0312,  0.0529]],
+       device='cuda:0'), grad: tensor([[ 3.0351e-04,  3.5167e-04,  8.6054e-07,  ..., -3.8662e-03,
+          1.6779e-05,  4.7803e-04],
+        [ 1.4234e-04,  3.1090e-04, -3.9399e-05,  ...,  2.3518e-03,
+         -9.8050e-06,  3.4881e-04],
+        [ 1.3590e-03,  2.5845e-03,  1.0893e-05,  ...,  1.9588e-03,
+          8.7619e-05,  1.9550e-03],
+        ...,
+        [-3.0746e-03,  1.5421e-03,  4.8615e-07,  ..., -4.4441e-04,
+         -1.1802e-05,  3.1233e-04],
+        [ 7.9918e-04, -2.2068e-03,  9.7528e-06,  ..., -2.3613e-03,
+          8.0705e-05,  8.7166e-04],
+        [ 2.7847e-03, -3.4904e-03,  4.4632e-04,  ...,  6.9761e-04,
+          5.0440e-06, -5.4932e-04]], device='cuda:0')
+Epoch 190, bias, value: tensor([-0.0463,  0.0073,  0.0023, -0.0073, -0.0041,  0.0036, -0.0116,  0.0314,
+        -0.0068,  0.0134], device='cuda:0'), grad: tensor([-0.0164,  0.0242,  0.0374, -0.0232,  0.0149, -0.0172,  0.0124, -0.0341,
+        -0.0116,  0.0135], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 189, time 215.51, cls_loss 0.5897 cls_loss_mapping 0.0059 cls_loss_causal 0.5058 re_mapping 0.0123 re_causal 0.0276 /// teacc 98.75 lr 0.00010000
+Epoch 191, weight, value: tensor([[-0.1462, -0.0257,  0.0161,  ..., -0.0272, -0.0716, -0.1008],
+        [-0.0340, -0.0725,  0.0270,  ...,  0.0330, -0.0104, -0.0724],
+        [-0.0520, -0.0646, -0.0884,  ...,  0.0432, -0.0377, -0.0771],
+        ...,
+        [-0.0486,  0.0303,  0.0222,  ...,  0.0304, -0.0457, -0.0833],
+        [-0.0628, -0.0079,  0.0207,  ...,  0.0638, -0.0312, -0.1269],
+        [ 0.0450,  0.0490, -0.0396,  ..., -0.0999, -0.0292,  0.0532]],
+       device='cuda:0'), grad: tensor([[ 7.9930e-05,  6.6042e-04,  2.2054e-04,  ...,  2.7523e-03,
+          4.2510e-04,  2.6441e-04],
+        [ 4.5705e-04, -7.6175e-05,  6.2704e-04,  ..., -4.5633e-04,
+         -2.0325e-04,  3.9130e-05],
+        [ 8.6486e-05,  4.5319e-03,  3.3164e-04,  ...,  2.9354e-03,
+          9.8419e-04,  3.3593e-04],
+        ...,
+        [ 1.8167e-04, -1.8396e-03,  5.5647e-04,  ...,  4.5815e-03,
+         -3.9124e-04,  1.1101e-03],
+        [ 1.5287e-03, -2.1133e-03, -1.2058e-04,  ..., -4.4746e-03,
+          3.1447e-04,  1.2589e-03],
+        [-2.5153e-04,  1.5726e-03, -3.0365e-03,  ..., -4.9019e-04,
+         -6.4373e-04, -1.9970e-03]], device='cuda:0')
+Epoch 191, bias, value: tensor([-0.0465,  0.0072,  0.0014, -0.0068, -0.0045,  0.0039, -0.0113,  0.0313,
+        -0.0064,  0.0136], device='cuda:0'), grad: tensor([ 0.0143, -0.0098,  0.0165, -0.0413,  0.0225,  0.0015,  0.0009,  0.0192,
+        -0.0128, -0.0110], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 190, time 220.42, cls_loss 0.6250 cls_loss_mapping 0.0072 cls_loss_causal 0.5451 re_mapping 0.0126 re_causal 0.0280 /// teacc 98.71 lr 0.00010000
+Epoch 192, weight, value: tensor([[-0.1453, -0.0253,  0.0158,  ..., -0.0270, -0.0697, -0.1010],
+        [-0.0340, -0.0726,  0.0268,  ...,  0.0333, -0.0112, -0.0733],
+        [-0.0520, -0.0643, -0.0876,  ...,  0.0446, -0.0378, -0.0781],
+        ...,
+        [-0.0484,  0.0305,  0.0230,  ...,  0.0307, -0.0456, -0.0833],
+        [-0.0624, -0.0078,  0.0200,  ...,  0.0624, -0.0308, -0.1272],
+        [ 0.0446,  0.0483, -0.0405,  ..., -0.0991, -0.0299,  0.0545]],
+       device='cuda:0'), grad: tensor([[-1.4269e-04, -1.0863e-05, -1.0830e-04,  ..., -4.9858e-03,
+         -1.1261e-02, -4.4227e-04],
+        [ 9.1046e-06,  8.1122e-05, -3.8654e-05,  ...,  1.1339e-03,
+          1.1578e-03,  7.3850e-05],
+        [ 1.7347e-03,  1.2726e-05,  1.4496e-03,  ...,  2.2907e-03,
+          3.6201e-03,  9.0301e-05],
+        ...,
+        [ 1.1917e-02, -8.6725e-05, -2.3544e-04,  ...,  2.2388e-04,
+          9.2926e-03,  3.5973e-03],
+        [-1.2627e-03, -1.2708e-04, -7.2575e-04,  ..., -8.4209e-04,
+          2.8191e-03,  2.7586e-06],
+        [-1.1810e-02,  2.6464e-05,  1.8001e-04,  ...,  5.2929e-04,
+         -6.8398e-03, -3.5706e-03]], device='cuda:0')
+Epoch 192, bias, value: tensor([-0.0453,  0.0078,  0.0016, -0.0068, -0.0056,  0.0036, -0.0120,  0.0315,
+        -0.0076,  0.0145], device='cuda:0'), grad: tensor([-0.0494,  0.0094,  0.0288, -0.0228,  0.0116,  0.0115,  0.0036,  0.0204,
+        -0.0060, -0.0069], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 191, time 222.23, cls_loss 0.5892 cls_loss_mapping 0.0062 cls_loss_causal 0.5051 re_mapping 0.0126 re_causal 0.0287 /// teacc 98.54 lr 0.00010000
+Epoch 193, weight, value: tensor([[-0.1451, -0.0229,  0.0171,  ..., -0.0281, -0.0687, -0.1027],
+        [-0.0313, -0.0725,  0.0275,  ...,  0.0332, -0.0114, -0.0746],
+        [-0.0517, -0.0649, -0.0870,  ...,  0.0452, -0.0377, -0.0776],
+        ...,
+        [-0.0486,  0.0309,  0.0216,  ...,  0.0306, -0.0473, -0.0832],
+        [-0.0638, -0.0077,  0.0191,  ...,  0.0622, -0.0322, -0.1293],
+        [ 0.0443,  0.0479, -0.0404,  ..., -0.0989, -0.0297,  0.0549]],
+       device='cuda:0'), grad: tensor([[ 0.0015,  0.0033,  0.0011,  ...,  0.0014,  0.0007,  0.0001],
+        [ 0.0021,  0.0006,  0.0006,  ...,  0.0041,  0.0008,  0.0006],
+        [-0.0001, -0.0208,  0.0006,  ..., -0.0031,  0.0011,  0.0002],
+        ...,
+        [-0.0038, -0.0003, -0.0037,  ..., -0.0003, -0.0047,  0.0004],
+        [ 0.0009,  0.0023, -0.0009,  ...,  0.0017,  0.0024,  0.0004],
+        [ 0.0005,  0.0013,  0.0009,  ...,  0.0013,  0.0008, -0.0021]],
+       device='cuda:0')
+Epoch 193, bias, value: tensor([-0.0451,  0.0083,  0.0025, -0.0071, -0.0053,  0.0049, -0.0126,  0.0310,
+        -0.0093,  0.0144], device='cuda:0'), grad: tensor([ 0.0360,  0.0390, -0.0479,  0.0265, -0.0303,  0.0007, -0.0066, -0.0395,
+        -0.0013,  0.0234], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 192, time 214.67, cls_loss 0.6156 cls_loss_mapping 0.0073 cls_loss_causal 0.5321 re_mapping 0.0126 re_causal 0.0275 /// teacc 98.59 lr 0.00010000
+Epoch 194, weight, value: tensor([[-0.1462, -0.0230,  0.0164,  ..., -0.0268, -0.0690, -0.1019],
+        [-0.0323, -0.0728,  0.0272,  ...,  0.0324, -0.0121, -0.0725],
+        [-0.0508, -0.0635, -0.0870,  ...,  0.0457, -0.0377, -0.0779],
+        ...,
+        [-0.0498,  0.0316,  0.0216,  ...,  0.0312, -0.0453, -0.0836],
+        [-0.0650, -0.0075,  0.0190,  ...,  0.0616, -0.0319, -0.1323],
+        [ 0.0452,  0.0471, -0.0409,  ..., -0.1005, -0.0304,  0.0558]],
+       device='cuda:0'), grad: tensor([[ 2.5482e-03,  7.2622e-04, -2.9817e-05,  ...,  2.2049e-03,
+          3.7622e-04,  1.4420e-03],
+        [ 6.6638e-05, -4.4479e-03,  3.0816e-05,  ...,  2.3384e-03,
+          2.8563e-04,  6.2561e-04],
+        [-4.0169e-03, -1.0347e-03, -2.1114e-03,  ..., -8.6670e-03,
+         -4.0221e-04, -6.1417e-03],
+        ...,
+        [ 8.1301e-04,  1.3323e-03,  4.1699e-04,  ...,  4.4098e-03,
+          4.1604e-04,  2.4147e-03],
+        [ 1.4508e-04,  7.7200e-04,  3.5733e-05,  ..., -4.4785e-03,
+          3.3593e-04,  7.8535e-04],
+        [ 7.3147e-04,  1.8005e-03,  1.2374e-04,  ...,  3.6888e-03,
+          5.2834e-04,  2.2850e-03]], device='cuda:0')
+Epoch 194, bias, value: tensor([-0.0455,  0.0082,  0.0026, -0.0080, -0.0051,  0.0053, -0.0111,  0.0318,
+        -0.0095,  0.0131], device='cuda:0'), grad: tensor([ 0.0166, -0.0029, -0.0606,  0.0602,  0.0128, -0.0698,  0.0071,  0.0302,
+        -0.0153,  0.0217], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 193, time 214.61, cls_loss 0.5770 cls_loss_mapping 0.0077 cls_loss_causal 0.5056 re_mapping 0.0128 re_causal 0.0287 /// teacc 98.74 lr 0.00010000
+Epoch 195, weight, value: tensor([[-0.1464, -0.0236,  0.0165,  ..., -0.0276, -0.0695, -0.1014],
+        [-0.0331, -0.0733,  0.0272,  ...,  0.0330, -0.0126, -0.0732],
+        [-0.0497, -0.0642, -0.0872,  ...,  0.0458, -0.0379, -0.0775],
+        ...,
+        [-0.0500,  0.0320,  0.0211,  ...,  0.0314, -0.0454, -0.0835],
+        [-0.0655, -0.0068,  0.0189,  ...,  0.0622, -0.0323, -0.1321],
+        [ 0.0458,  0.0473, -0.0406,  ..., -0.1008, -0.0306,  0.0555]],
+       device='cuda:0'), grad: tensor([[ 3.9458e-04, -8.6069e-04,  2.5177e-04,  ...,  3.3340e-03,
+          6.9666e-04,  3.0398e-04],
+        [ 3.0565e-04, -4.9877e-04,  2.1183e-04,  ..., -1.6336e-03,
+          9.3818e-05,  1.2314e-04],
+        [ 4.0894e-03,  7.7915e-04,  2.7905e-03,  ...,  2.9659e-04,
+          2.2373e-03,  2.7885e-03],
+        ...,
+        [ 4.9353e-04, -1.3374e-02,  3.6597e-04,  ..., -1.6724e-02,
+         -6.3820e-03,  4.3941e-04],
+        [ 1.7509e-03,  9.1982e-04,  1.0748e-03,  ..., -6.2408e-03,
+          9.6703e-04,  1.6394e-03],
+        [ 4.5204e-04,  5.0850e-03,  3.7193e-04,  ...,  5.8784e-03,
+          2.8992e-03,  3.1710e-04]], device='cuda:0')
+Epoch 195, bias, value: tensor([-0.0459,  0.0080,  0.0032, -0.0081, -0.0040,  0.0048, -0.0112,  0.0317,
+        -0.0090,  0.0123], device='cuda:0'), grad: tensor([ 0.0166, -0.0096,  0.0158, -0.0207,  0.0268,  0.0331, -0.0068, -0.0489,
+        -0.0266,  0.0204], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 194, time 214.84, cls_loss 0.6136 cls_loss_mapping 0.0070 cls_loss_causal 0.5446 re_mapping 0.0118 re_causal 0.0274 /// teacc 98.72 lr 0.00010000
+Epoch 196, weight, value: tensor([[-0.1463, -0.0235,  0.0160,  ..., -0.0288, -0.0710, -0.1014],
+        [-0.0333, -0.0719,  0.0280,  ...,  0.0332, -0.0127, -0.0723],
+        [-0.0499, -0.0641, -0.0868,  ...,  0.0463, -0.0386, -0.0789],
+        ...,
+        [-0.0484,  0.0307,  0.0222,  ...,  0.0308, -0.0456, -0.0834],
+        [-0.0641, -0.0075,  0.0184,  ...,  0.0615, -0.0321, -0.1324],
+        [ 0.0461,  0.0482, -0.0413,  ..., -0.1007, -0.0294,  0.0562]],
+       device='cuda:0'), grad: tensor([[ 0.0004,  0.0002, -0.0002,  ...,  0.0018,  0.0002,  0.0006],
+        [ 0.0003,  0.0037,  0.0004,  ..., -0.0092,  0.0015,  0.0014],
+        [ 0.0003,  0.0012,  0.0008,  ...,  0.0096, -0.0051,  0.0003],
+        ...,
+        [ 0.0008,  0.0051,  0.0014,  ...,  0.0059,  0.0045,  0.0021],
+        [ 0.0007, -0.0028,  0.0009,  ..., -0.0008, -0.0047,  0.0005],
+        [-0.0013, -0.0089, -0.0004,  ..., -0.0017,  0.0022,  0.0007]],
+       device='cuda:0')
+Epoch 196, bias, value: tensor([-0.0465,  0.0087,  0.0033, -0.0077, -0.0044,  0.0034, -0.0106,  0.0316,
+        -0.0091,  0.0132], device='cuda:0'), grad: tensor([ 0.0188, -0.0190,  0.0195, -0.0015, -0.0596, -0.0318,  0.0213,  0.0405,
+         0.0217, -0.0099], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 195, time 214.42, cls_loss 0.5920 cls_loss_mapping 0.0068 cls_loss_causal 0.5129 re_mapping 0.0119 re_causal 0.0271 /// teacc 98.71 lr 0.00010000
+Epoch 197, weight, value: tensor([[-0.1462, -0.0242,  0.0165,  ..., -0.0283, -0.0714, -0.1008],
+        [-0.0326, -0.0727,  0.0287,  ...,  0.0338, -0.0145, -0.0722],
+        [-0.0479, -0.0636, -0.0867,  ...,  0.0457, -0.0384, -0.0791],
+        ...,
+        [-0.0486,  0.0309,  0.0219,  ...,  0.0312, -0.0432, -0.0838],
+        [-0.0653, -0.0068,  0.0179,  ...,  0.0616, -0.0317, -0.1335],
+        [ 0.0459,  0.0479, -0.0417,  ..., -0.1006, -0.0297,  0.0556]],
+       device='cuda:0'), grad: tensor([[ 0.0147,  0.0015,  0.0010,  ...,  0.0014,  0.0062,  0.0004],
+        [ 0.0026, -0.0025,  0.0026,  ...,  0.0032,  0.0011,  0.0019],
+        [ 0.0003,  0.0017, -0.0035,  ..., -0.0065,  0.0014, -0.0026],
+        ...,
+        [ 0.0001,  0.0113,  0.0015,  ...,  0.0085,  0.0059,  0.0022],
+        [ 0.0014, -0.0208,  0.0027,  ...,  0.0028,  0.0035,  0.0014],
+        [ 0.0009, -0.0109, -0.0158,  ..., -0.0115, -0.0155, -0.0026]],
+       device='cuda:0')
+Epoch 197, bias, value: tensor([-0.0462,  0.0085,  0.0030, -0.0077, -0.0053,  0.0039, -0.0103,  0.0316,
+        -0.0088,  0.0131], device='cuda:0'), grad: tensor([ 0.0259,  0.0163, -0.0225,  0.0128,  0.0056,  0.0109, -0.0188,  0.0264,
+        -0.0015, -0.0551], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 196----------------------------------------------------
+epoch 196, time 215.46, cls_loss 0.5613 cls_loss_mapping 0.0063 cls_loss_causal 0.4777 re_mapping 0.0125 re_causal 0.0276 /// teacc 98.84 lr 0.00010000
+Epoch 198, weight, value: tensor([[-0.1482, -0.0246,  0.0172,  ..., -0.0290, -0.0713, -0.1011],
+        [-0.0330, -0.0730,  0.0292,  ...,  0.0351, -0.0144, -0.0729],
+        [-0.0484, -0.0635, -0.0873,  ...,  0.0453, -0.0388, -0.0793],
+        ...,
+        [-0.0485,  0.0312,  0.0222,  ...,  0.0320, -0.0442, -0.0838],
+        [-0.0666, -0.0066,  0.0184,  ...,  0.0614, -0.0325, -0.1349],
+        [ 0.0462,  0.0476, -0.0422,  ..., -0.1020, -0.0290,  0.0563]],
+       device='cuda:0'), grad: tensor([[ 0.0003, -0.0003,  0.0002,  ...,  0.0024, -0.0003,  0.0001],
+        [ 0.0008,  0.0002,  0.0017,  ..., -0.0012,  0.0007,  0.0002],
+        [ 0.0029,  0.0001,  0.0091,  ..., -0.0085,  0.0006,  0.0020],
+        ...,
+        [ 0.0008,  0.0047,  0.0014,  ...,  0.0203,  0.0004,  0.0073],
+        [ 0.0011, -0.0008,  0.0019,  ...,  0.0044,  0.0004,  0.0010],
+        [-0.0036, -0.0056, -0.0097,  ..., -0.0100,  0.0002, -0.0124]],
+       device='cuda:0')
+Epoch 198, bias, value: tensor([-0.0464,  0.0092,  0.0023, -0.0073, -0.0046,  0.0037, -0.0107,  0.0322,
+        -0.0085,  0.0117], device='cuda:0'), grad: tensor([ 0.0104, -0.0057,  0.0138, -0.0215, -0.0135, -0.0085, -0.0111,  0.0569,
+         0.0217, -0.0425], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 197, time 214.58, cls_loss 0.5746 cls_loss_mapping 0.0062 cls_loss_causal 0.4995 re_mapping 0.0123 re_causal 0.0264 /// teacc 98.71 lr 0.00010000
+Epoch 199, weight, value: tensor([[-0.1489, -0.0249,  0.0179,  ..., -0.0288, -0.0697, -0.1004],
+        [-0.0332, -0.0736,  0.0277,  ...,  0.0350, -0.0141, -0.0719],
+        [-0.0472, -0.0645, -0.0890,  ...,  0.0453, -0.0381, -0.0814],
+        ...,
+        [-0.0486,  0.0321,  0.0227,  ...,  0.0308, -0.0464, -0.0824],
+        [-0.0681, -0.0060,  0.0192,  ...,  0.0627, -0.0337, -0.1362],
+        [ 0.0450,  0.0472, -0.0429,  ..., -0.1019, -0.0262,  0.0560]],
+       device='cuda:0'), grad: tensor([[ 0.0010, -0.0029,  0.0051,  ...,  0.0053,  0.0005,  0.0009],
+        [-0.0027,  0.0006, -0.0020,  ..., -0.0018,  0.0011,  0.0011],
+        [ 0.0007, -0.0042, -0.0071,  ..., -0.0065, -0.0023,  0.0008],
+        ...,
+        [ 0.0028,  0.0022,  0.0019,  ...,  0.0032,  0.0007,  0.0038],
+        [ 0.0064,  0.0009,  0.0059,  ...,  0.0016,  0.0005,  0.0077],
+        [ 0.0037,  0.0024,  0.0017,  ...,  0.0019,  0.0005,  0.0036]],
+       device='cuda:0')
+Epoch 199, bias, value: tensor([-0.0460,  0.0093,  0.0022, -0.0083, -0.0037,  0.0041, -0.0109,  0.0323,
+        -0.0087,  0.0113], device='cuda:0'), grad: tensor([ 0.0427, -0.0163, -0.0739, -0.0352, -0.0041, -0.0145,  0.0109,  0.0333,
+         0.0336,  0.0235], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 198, time 214.64, cls_loss 0.5830 cls_loss_mapping 0.0055 cls_loss_causal 0.5139 re_mapping 0.0120 re_causal 0.0263 /// teacc 98.58 lr 0.00010000
+Epoch 200, weight, value: tensor([[-0.1496, -0.0254,  0.0187,  ..., -0.0287, -0.0706, -0.1002],
+        [-0.0342, -0.0745,  0.0276,  ...,  0.0354, -0.0143, -0.0726],
+        [-0.0475, -0.0635, -0.0896,  ...,  0.0455, -0.0395, -0.0808],
+        ...,
+        [-0.0503,  0.0322,  0.0211,  ...,  0.0304, -0.0447, -0.0849],
+        [-0.0684, -0.0060,  0.0204,  ...,  0.0624, -0.0335, -0.1389],
+        [ 0.0453,  0.0469, -0.0429,  ..., -0.1008, -0.0268,  0.0579]],
+       device='cuda:0'), grad: tensor([[ 3.4094e-04, -6.1281e-07,  8.9502e-04,  ...,  1.0386e-03,
+          2.8782e-03,  1.2045e-03],
+        [ 2.9251e-05,  1.2314e-04, -1.4582e-03,  ...,  9.6655e-04,
+         -2.1534e-03,  5.1727e-03],
+        [ 2.9316e-03,  4.6194e-07,  1.8911e-03,  ..., -1.8530e-03,
+          2.5005e-03,  3.9041e-05],
+        ...,
+        [ 3.4118e-04,  5.0240e-03, -1.5869e-03,  ..., -2.6913e-03,
+          3.2711e-03,  5.6000e-03],
+        [ 8.0538e-04,  2.2918e-05,  2.9087e-03,  ...,  1.8358e-03,
+          2.8515e-03,  2.2392e-03],
+        [-4.3793e-03,  1.7195e-03, -2.5711e-03,  ..., -2.9793e-03,
+         -1.4191e-02, -1.0490e-03]], device='cuda:0')
+Epoch 200, bias, value: tensor([-0.0454,  0.0099,  0.0023, -0.0082, -0.0046,  0.0039, -0.0109,  0.0317,
+        -0.0091,  0.0123], device='cuda:0'), grad: tensor([ 0.0133, -0.0031,  0.0029, -0.0637,  0.0394,  0.0258, -0.0087, -0.0025,
+         0.0220, -0.0255], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 199, time 214.76, cls_loss 0.5671 cls_loss_mapping 0.0049 cls_loss_causal 0.4924 re_mapping 0.0123 re_causal 0.0282 /// teacc 98.71 lr 0.00010000
+Epoch 201, weight, value: tensor([[-0.1514, -0.0264,  0.0192,  ..., -0.0293, -0.0730, -0.1008],
+        [-0.0342, -0.0750,  0.0275,  ...,  0.0358, -0.0150, -0.0733],
+        [-0.0475, -0.0642, -0.0863,  ...,  0.0449, -0.0402, -0.0808],
+        ...,
+        [-0.0492,  0.0319,  0.0208,  ...,  0.0311, -0.0434, -0.0850],
+        [-0.0679, -0.0056,  0.0207,  ...,  0.0624, -0.0326, -0.1397],
+        [ 0.0453,  0.0483, -0.0428,  ..., -0.0998, -0.0248,  0.0572]],
+       device='cuda:0'), grad: tensor([[ 2.4581e-04,  1.4172e-03,  1.3075e-03,  ...,  2.5978e-03,
+          1.8129e-03,  9.4986e-04],
+        [-3.8147e-03,  7.3612e-05, -8.0338e-03,  ...,  1.5659e-03,
+          2.4033e-03,  1.2245e-03],
+        [ 6.2408e-03,  8.1635e-04,  2.7390e-03,  ..., -5.1422e-03,
+         -2.2995e-04, -4.6349e-04],
+        ...,
+        [ 1.9588e-03,  6.7810e-02,  1.9722e-03,  ...,  1.6678e-02,
+          2.6169e-03,  1.2217e-03],
+        [ 3.7479e-03,  2.8248e-03,  9.5367e-03,  ...,  7.5912e-03,
+         -1.0605e-02, -2.1744e-04],
+        [-2.5082e-03, -6.0944e-02, -7.4310e-03,  ..., -2.8702e-02,
+         -1.2636e-03, -6.4507e-03]], device='cuda:0')
+Epoch 201, bias, value: tensor([-0.0463,  0.0106,  0.0024, -0.0088, -0.0052,  0.0037, -0.0110,  0.0321,
+        -0.0083,  0.0126], device='cuda:0'), grad: tensor([ 1.7014e-02, -8.0261e-03, -8.0872e-03,  3.9940e-03, -8.5068e-03,
+         2.6627e-03,  4.0771e-02, -1.1063e-02, -9.5963e-05, -2.8656e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 200, time 215.08, cls_loss 0.5546 cls_loss_mapping 0.0062 cls_loss_causal 0.4836 re_mapping 0.0117 re_causal 0.0274 /// teacc 98.67 lr 0.00010000
+Epoch 202, weight, value: tensor([[-0.1526, -0.0263,  0.0184,  ..., -0.0285, -0.0749, -0.1014],
+        [-0.0344, -0.0754,  0.0267,  ...,  0.0336, -0.0136, -0.0731],
+        [-0.0473, -0.0643, -0.0864,  ...,  0.0457, -0.0405, -0.0818],
+        ...,
+        [-0.0497,  0.0307,  0.0206,  ...,  0.0313, -0.0443, -0.0857],
+        [-0.0688, -0.0058,  0.0207,  ...,  0.0623, -0.0328, -0.1415],
+        [ 0.0454,  0.0494, -0.0438,  ..., -0.1005, -0.0256,  0.0587]],
+       device='cuda:0'), grad: tensor([[-6.4552e-05,  7.8440e-04, -2.8682e-04,  ...,  1.2856e-03,
+          3.8700e-03,  1.3924e-04],
+        [ 1.2979e-05,  2.7905e-03,  5.2681e-03,  ...,  4.4785e-03,
+          7.2517e-03,  3.4046e-03],
+        [ 1.9163e-05,  1.2951e-03,  4.9591e-04,  ..., -3.4618e-03,
+         -2.2873e-02,  1.1044e-03],
+        ...,
+        [-3.7774e-06, -7.8888e-03, -2.1946e-04,  ..., -1.0040e-02,
+          3.9530e-04, -3.5439e-03],
+        [-1.1182e-04,  4.1122e-03,  1.5068e-03,  ...,  3.0727e-03,
+          4.3983e-03,  2.0466e-03],
+        [ 7.4953e-06,  1.0700e-03,  5.1785e-04,  ...,  2.4128e-03,
+          3.9177e-03,  6.6185e-04]], device='cuda:0')
+Epoch 202, bias, value: tensor([-0.0466,  0.0103,  0.0022, -0.0085, -0.0055,  0.0045, -0.0105,  0.0325,
+        -0.0086,  0.0119], device='cuda:0'), grad: tensor([ 0.0138,  0.0405, -0.0345, -0.0136, -0.0235,  0.0131,  0.0177, -0.0643,
+         0.0309,  0.0201], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 201, time 214.56, cls_loss 0.6166 cls_loss_mapping 0.0072 cls_loss_causal 0.5466 re_mapping 0.0120 re_causal 0.0265 /// teacc 98.78 lr 0.00010000
+Epoch 203, weight, value: tensor([[-0.1524, -0.0276,  0.0201,  ..., -0.0279, -0.0739, -0.1018],
+        [-0.0356, -0.0753,  0.0271,  ...,  0.0336, -0.0132, -0.0742],
+        [-0.0459, -0.0653, -0.0856,  ...,  0.0457, -0.0389, -0.0815],
+        ...,
+        [-0.0502,  0.0317,  0.0201,  ...,  0.0324, -0.0437, -0.0870],
+        [-0.0684, -0.0040,  0.0190,  ...,  0.0614, -0.0338, -0.1390],
+        [ 0.0456,  0.0479, -0.0447,  ..., -0.1017, -0.0239,  0.0607]],
+       device='cuda:0'), grad: tensor([[ 4.1294e-04,  9.5701e-04,  1.7748e-03,  ...,  1.8358e-03,
+          3.1834e-03,  1.0767e-03],
+        [ 1.3895e-03,  2.0966e-02,  3.4523e-03,  ...,  8.3971e-04,
+          4.2000e-03,  1.1721e-03],
+        [ 2.4199e-04,  5.3644e-04,  2.4910e-03,  ...,  2.3136e-03,
+          2.3117e-03,  1.2245e-03],
+        ...,
+        [ 4.6659e-04, -2.1469e-02, -2.0485e-03,  ...,  4.1962e-04,
+         -5.4550e-03,  1.4553e-03],
+        [ 2.2531e-04,  8.6641e-04,  1.1415e-03,  ...,  3.0136e-03,
+          2.4147e-03,  4.5090e-03],
+        [-4.8250e-05,  5.2691e-04,  1.4591e-03,  ...,  1.4477e-03,
+          3.2406e-03,  3.7766e-04]], device='cuda:0')
+Epoch 203, bias, value: tensor([-0.0460,  0.0101,  0.0027, -0.0084, -0.0055,  0.0052, -0.0114,  0.0333,
+        -0.0090,  0.0108], device='cuda:0'), grad: tensor([ 0.0254,  0.0273,  0.0240, -0.0748,  0.0101, -0.0209, -0.0064, -0.0370,
+         0.0319,  0.0203], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 202, time 214.66, cls_loss 0.5879 cls_loss_mapping 0.0062 cls_loss_causal 0.5211 re_mapping 0.0125 re_causal 0.0270 /// teacc 98.68 lr 0.00010000
+Epoch 204, weight, value: tensor([[-0.1537, -0.0275,  0.0196,  ..., -0.0279, -0.0747, -0.1026],
+        [-0.0370, -0.0766,  0.0279,  ...,  0.0342, -0.0144, -0.0741],
+        [-0.0469, -0.0647, -0.0868,  ...,  0.0457, -0.0406, -0.0811],
+        ...,
+        [-0.0499,  0.0316,  0.0201,  ...,  0.0324, -0.0448, -0.0873],
+        [-0.0674, -0.0044,  0.0190,  ...,  0.0609, -0.0345, -0.1364],
+        [ 0.0454,  0.0485, -0.0429,  ..., -0.1014, -0.0232,  0.0615]],
+       device='cuda:0'), grad: tensor([[ 0.0003, -0.0012,  0.0003,  ...,  0.0010,  0.0012, -0.0004],
+        [ 0.0003,  0.0012,  0.0005,  ..., -0.0031, -0.0002, -0.0006],
+        [ 0.0004, -0.0001,  0.0004,  ..., -0.0007,  0.0004, -0.0002],
+        ...,
+        [ 0.0009,  0.0045, -0.0019,  ...,  0.0015, -0.0033, -0.0005],
+        [-0.0003, -0.0002, -0.0062,  ...,  0.0010, -0.0029, -0.0009],
+        [-0.0009, -0.0151,  0.0032,  ..., -0.0020,  0.0041, -0.0007]],
+       device='cuda:0')
+Epoch 204, bias, value: tensor([-0.0467,  0.0097,  0.0030, -0.0076, -0.0054,  0.0051, -0.0122,  0.0322,
+        -0.0089,  0.0124], device='cuda:0'), grad: tensor([ 0.0064, -0.0139,  0.0045,  0.0301,  0.0176,  0.0260, -0.0429, -0.0201,
+        -0.0032, -0.0045], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 203, time 214.98, cls_loss 0.5753 cls_loss_mapping 0.0060 cls_loss_causal 0.5089 re_mapping 0.0123 re_causal 0.0277 /// teacc 98.74 lr 0.00010000
+Epoch 205, weight, value: tensor([[-0.1527, -0.0282,  0.0203,  ..., -0.0283, -0.0753, -0.1036],
+        [-0.0378, -0.0757,  0.0282,  ...,  0.0352, -0.0119, -0.0740],
+        [-0.0467, -0.0645, -0.0871,  ...,  0.0455, -0.0402, -0.0821],
+        ...,
+        [-0.0491,  0.0311,  0.0194,  ...,  0.0318, -0.0452, -0.0878],
+        [-0.0679, -0.0035,  0.0184,  ...,  0.0609, -0.0362, -0.1357],
+        [ 0.0459,  0.0488, -0.0425,  ..., -0.1011, -0.0237,  0.0613]],
+       device='cuda:0'), grad: tensor([[ 1.0109e-03, -2.6657e-02,  1.0653e-03,  ..., -1.0956e-02,
+          1.9722e-03,  8.8024e-04],
+        [ 4.8995e-05,  4.2305e-03,  1.7941e-04,  ...,  4.0512e-03,
+          4.9438e-03,  6.5756e-04],
+        [ 3.9220e-04, -4.1084e-03,  1.3828e-03,  ..., -5.2834e-04,
+         -8.3237e-03,  7.5150e-04],
+        ...,
+        [ 1.5771e-04, -2.2621e-03,  3.3522e-04,  ..., -2.9812e-03,
+          2.5959e-03, -1.4706e-03],
+        [ 7.0047e-04,  6.2561e-03,  8.1587e-04,  ...,  3.3073e-03,
+          3.4657e-03,  1.2989e-03],
+        [-1.4858e-03, -2.1687e-03,  7.8082e-06,  ...,  3.5286e-03,
+          1.4277e-03, -8.1711e-03]], device='cuda:0')
+Epoch 205, bias, value: tensor([-0.0470,  0.0106,  0.0032, -0.0084, -0.0053,  0.0055, -0.0121,  0.0322,
+        -0.0089,  0.0120], device='cuda:0'), grad: tensor([-0.0247,  0.0390, -0.0200,  0.0016,  0.0204,  0.0258, -0.0491, -0.0180,
+         0.0286, -0.0035], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 204, time 214.85, cls_loss 0.5804 cls_loss_mapping 0.0038 cls_loss_causal 0.5010 re_mapping 0.0124 re_causal 0.0285 /// teacc 98.71 lr 0.00010000
+Epoch 206, weight, value: tensor([[-0.1531, -0.0273,  0.0209,  ..., -0.0273, -0.0750, -0.1021],
+        [-0.0374, -0.0754,  0.0281,  ...,  0.0350, -0.0123, -0.0726],
+        [-0.0475, -0.0661, -0.0867,  ...,  0.0457, -0.0407, -0.0829],
+        ...,
+        [-0.0491,  0.0313,  0.0190,  ...,  0.0327, -0.0449, -0.0870],
+        [-0.0683, -0.0041,  0.0186,  ...,  0.0606, -0.0363, -0.1360],
+        [ 0.0450,  0.0497, -0.0432,  ..., -0.1015, -0.0241,  0.0605]],
+       device='cuda:0'), grad: tensor([[ 7.5027e-06,  1.7571e-04,  2.3097e-05,  ..., -1.8358e-03,
+          3.6383e-04, -4.2057e-04],
+        [ 1.4052e-05, -1.9455e-03, -2.7156e-04,  ...,  8.2159e-04,
+         -3.7384e-04, -9.8324e-04],
+        [-1.0930e-05, -3.9816e-05, -1.3614e-04,  ...,  6.1131e-04,
+         -2.8152e-03, -4.0007e-04],
+        ...,
+        [ 3.5429e-04,  6.1846e-04,  4.2987e-04,  ...,  1.2121e-03,
+          1.2693e-03,  8.3733e-04],
+        [-1.1833e-02,  3.8815e-04,  2.1541e-04,  ...,  8.2827e-04,
+          5.5599e-04,  5.0497e-04],
+        [-1.3914e-03, -4.5633e-04,  5.3310e-04,  ..., -2.6913e-03,
+         -6.0177e-04, -9.1982e-04]], device='cuda:0')
+Epoch 206, bias, value: tensor([-0.0458,  0.0112,  0.0026, -0.0082, -0.0056,  0.0048, -0.0122,  0.0325,
+        -0.0094,  0.0119], device='cuda:0'), grad: tensor([-0.0190,  0.0056, -0.0232,  0.0287,  0.0155, -0.0179,  0.0109,  0.0226,
+        -0.0024, -0.0208], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 205, time 214.85, cls_loss 0.5985 cls_loss_mapping 0.0046 cls_loss_causal 0.5178 re_mapping 0.0121 re_causal 0.0275 /// teacc 98.73 lr 0.00010000
+Epoch 207, weight, value: tensor([[-0.1533, -0.0272,  0.0197,  ..., -0.0276, -0.0743, -0.1028],
+        [-0.0374, -0.0758,  0.0283,  ...,  0.0353, -0.0116, -0.0732],
+        [-0.0484, -0.0658, -0.0869,  ...,  0.0461, -0.0405, -0.0827],
+        ...,
+        [-0.0481,  0.0306,  0.0202,  ...,  0.0329, -0.0461, -0.0868],
+        [-0.0683, -0.0050,  0.0193,  ...,  0.0611, -0.0355, -0.1366],
+        [ 0.0450,  0.0497, -0.0429,  ..., -0.1016, -0.0244,  0.0604]],
+       device='cuda:0'), grad: tensor([[ 0.0003, -0.0014,  0.0003,  ...,  0.0007,  0.0018,  0.0004],
+        [-0.0014,  0.0004, -0.0014,  ..., -0.0056, -0.0039,  0.0011],
+        [ 0.0008, -0.0010, -0.0006,  ...,  0.0005, -0.0019, -0.0041],
+        ...,
+        [ 0.0007,  0.0020,  0.0037,  ..., -0.0003,  0.0002,  0.0025],
+        [ 0.0010,  0.0003,  0.0031,  ...,  0.0021,  0.0035,  0.0007],
+        [ 0.0001, -0.0017, -0.0018,  ...,  0.0001, -0.0014, -0.0046]],
+       device='cuda:0')
+Epoch 207, bias, value: tensor([-0.0453,  0.0112,  0.0037, -0.0082, -0.0057,  0.0044, -0.0132,  0.0326,
+        -0.0095,  0.0117], device='cuda:0'), grad: tensor([ 0.0093, -0.0478, -0.0077,  0.0234,  0.0193, -0.0170, -0.0076,  0.0283,
+         0.0208, -0.0210], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 206, time 214.86, cls_loss 0.5707 cls_loss_mapping 0.0042 cls_loss_causal 0.4918 re_mapping 0.0120 re_causal 0.0270 /// teacc 98.73 lr 0.00010000
+Epoch 208, weight, value: tensor([[-0.1527, -0.0272,  0.0181,  ..., -0.0285, -0.0759, -0.1022],
+        [-0.0384, -0.0754,  0.0283,  ...,  0.0358, -0.0103, -0.0737],
+        [-0.0476, -0.0664, -0.0866,  ...,  0.0475, -0.0407, -0.0826],
+        ...,
+        [-0.0496,  0.0299,  0.0218,  ...,  0.0322, -0.0461, -0.0873],
+        [-0.0677, -0.0044,  0.0186,  ...,  0.0597, -0.0363, -0.1376],
+        [ 0.0456,  0.0488, -0.0433,  ..., -0.1016, -0.0232,  0.0610]],
+       device='cuda:0'), grad: tensor([[ 1.5450e-04,  0.0000e+00,  1.2550e-03,  ...,  1.9064e-03,
+          2.1725e-03,  2.1026e-05],
+        [ 1.5891e-04,  0.0000e+00,  1.0063e-02,  ..., -2.3293e-04,
+          3.8934e-04,  5.2065e-05],
+        [ 7.6866e-04,  0.0000e+00, -1.7273e-02,  ..., -9.2621e-03,
+         -7.7133e-03,  9.0241e-05],
+        ...,
+        [ 4.8876e-04,  0.0000e+00,  1.4477e-03,  ..., -3.0842e-03,
+          2.7866e-03, -1.5392e-03],
+        [ 7.5722e-04,  0.0000e+00,  8.8978e-04,  ...,  2.1935e-03,
+          3.4943e-03,  5.3078e-05],
+        [ 4.7636e-04,  0.0000e+00,  1.9217e-03,  ...,  3.4199e-03,
+          3.1471e-03,  1.7719e-03]], device='cuda:0')
+Epoch 208, bias, value: tensor([-0.0461,  0.0119,  0.0045, -0.0084, -0.0062,  0.0048, -0.0123,  0.0319,
+        -0.0104,  0.0121], device='cuda:0'), grad: tensor([ 0.0176, -0.0112, -0.0623, -0.0030,  0.0310, -0.0106,  0.0069, -0.0233,
+         0.0206,  0.0344], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 207, time 214.73, cls_loss 0.5736 cls_loss_mapping 0.0048 cls_loss_causal 0.5017 re_mapping 0.0119 re_causal 0.0259 /// teacc 98.84 lr 0.00010000
+Epoch 209, weight, value: tensor([[-0.1522, -0.0275,  0.0177,  ..., -0.0288, -0.0756, -0.1026],
+        [-0.0379, -0.0755,  0.0282,  ...,  0.0343, -0.0118, -0.0748],
+        [-0.0478, -0.0659, -0.0862,  ...,  0.0470, -0.0404, -0.0836],
+        ...,
+        [-0.0516,  0.0293,  0.0221,  ...,  0.0334, -0.0459, -0.0863],
+        [-0.0670, -0.0047,  0.0188,  ...,  0.0591, -0.0356, -0.1382],
+        [ 0.0450,  0.0487, -0.0429,  ..., -0.1020, -0.0234,  0.0608]],
+       device='cuda:0'), grad: tensor([[ 3.7421e-06,  8.5640e-04,  2.0452e-06,  ..., -2.3975e-03,
+          2.1210e-03, -9.4223e-04],
+        [ 3.8557e-07,  2.9635e-04,  2.5518e-07,  ..., -2.5444e-03,
+          1.6928e-03,  5.5599e-04],
+        [ 8.1584e-07,  2.7523e-03,  1.2163e-06,  ..., -3.2020e-04,
+          3.3531e-03,  2.3727e-03],
+        ...,
+        [ 1.3471e-04,  4.6873e-04,  2.8163e-05,  ...,  2.9106e-03,
+          3.0823e-03,  9.8896e-04],
+        [ 3.9756e-05,  4.9400e-04,  1.4022e-05,  ...,  1.6108e-03,
+          2.3594e-03,  5.7268e-04],
+        [-1.9419e-04,  3.4523e-04, -4.4525e-05,  ..., -5.3704e-05,
+         -8.5068e-03, -1.1368e-03]], device='cuda:0')
+Epoch 209, bias, value: tensor([-0.0469,  0.0110,  0.0038, -0.0067, -0.0065,  0.0036, -0.0111,  0.0321,
+        -0.0098,  0.0121], device='cuda:0'), grad: tensor([-0.0164, -0.0130,  0.0056, -0.0074,  0.0192, -0.0144, -0.0088,  0.0256,
+         0.0174, -0.0078], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 208----------------------------------------------------
+epoch 208, time 215.63, cls_loss 0.5649 cls_loss_mapping 0.0048 cls_loss_causal 0.4995 re_mapping 0.0118 re_causal 0.0262 /// teacc 98.91 lr 0.00010000
+Epoch 210, weight, value: tensor([[-0.1530, -0.0276,  0.0187,  ..., -0.0286, -0.0749, -0.1029],
+        [-0.0387, -0.0754,  0.0283,  ...,  0.0339, -0.0115, -0.0748],
+        [-0.0468, -0.0657, -0.0867,  ...,  0.0468, -0.0402, -0.0831],
+        ...,
+        [-0.0527,  0.0287,  0.0236,  ...,  0.0337, -0.0467, -0.0875],
+        [-0.0668, -0.0053,  0.0183,  ...,  0.0580, -0.0372, -0.1390],
+        [ 0.0465,  0.0490, -0.0427,  ..., -0.1018, -0.0232,  0.0620]],
+       device='cuda:0'), grad: tensor([[-3.8109e-03, -4.6158e-03, -9.4604e-04,  ..., -2.7447e-03,
+         -1.9493e-03, -1.1543e-02],
+        [ 1.9741e-04,  2.7885e-03,  4.1008e-04,  ...,  5.8670e-03,
+          1.4105e-03,  3.0088e-04],
+        [ 2.3222e-04,  7.8022e-05,  1.2541e-04,  ...,  3.0212e-03,
+          7.8011e-04,  4.3488e-04],
+        ...,
+        [ 8.6641e-04, -3.0003e-03,  4.8280e-04,  ..., -4.5547e-03,
+          1.0576e-03, -9.5081e-04],
+        [-1.0929e-03,  2.8496e-03, -2.4757e-03,  ..., -1.6375e-03,
+          1.0576e-03,  1.2817e-03],
+        [-8.9931e-04,  1.8263e-03,  6.1846e-04,  ..., -1.1482e-03,
+          1.0548e-03,  7.3528e-04]], device='cuda:0')
+Epoch 210, bias, value: tensor([-0.0461,  0.0117,  0.0042, -0.0065, -0.0059,  0.0035, -0.0113,  0.0317,
+        -0.0115,  0.0119], device='cuda:0'), grad: tensor([-0.0728,  0.0577,  0.0212,  0.0174,  0.0098,  0.0090, -0.0292, -0.0114,
+        -0.0085,  0.0067], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 209, time 214.71, cls_loss 0.5627 cls_loss_mapping 0.0078 cls_loss_causal 0.4899 re_mapping 0.0118 re_causal 0.0259 /// teacc 98.64 lr 0.00010000
+Epoch 211, weight, value: tensor([[-0.1530, -0.0279,  0.0185,  ..., -0.0295, -0.0751, -0.1033],
+        [-0.0378, -0.0755,  0.0287,  ...,  0.0343, -0.0118, -0.0753],
+        [-0.0453, -0.0667, -0.0865,  ...,  0.0462, -0.0403, -0.0835],
+        ...,
+        [-0.0524,  0.0282,  0.0237,  ...,  0.0333, -0.0469, -0.0869],
+        [-0.0669, -0.0053,  0.0186,  ...,  0.0597, -0.0376, -0.1392],
+        [ 0.0460,  0.0496, -0.0428,  ..., -0.1016, -0.0235,  0.0633]],
+       device='cuda:0'), grad: tensor([[ 6.4135e-04,  8.4788e-06,  1.5745e-03,  ...,  1.2474e-03,
+          1.4114e-03,  5.9128e-04],
+        [ 8.9109e-05,  1.6499e-04,  3.6669e-04,  ...,  2.9831e-03,
+          1.5163e-03,  1.1034e-03],
+        [ 4.3416e-04,  6.5446e-05,  4.0741e-03,  ..., -2.0199e-03,
+          7.5817e-04, -8.4019e-04],
+        ...,
+        [ 1.0973e-04, -6.6233e-04,  2.2101e-04,  ..., -2.8934e-03,
+          1.2426e-03, -2.4567e-03],
+        [ 1.5583e-03,  2.1636e-05,  3.2883e-03,  ..., -4.1938e-04,
+          1.3485e-03,  1.2665e-03],
+        [-1.7891e-03, -4.0472e-05, -8.2321e-03,  ..., -2.7199e-03,
+          1.1358e-03,  4.1556e-04]], device='cuda:0')
+Epoch 211, bias, value: tensor([-0.0462,  0.0121,  0.0043, -0.0066, -0.0056,  0.0035, -0.0120,  0.0308,
+        -0.0110,  0.0124], device='cuda:0'), grad: tensor([ 0.0231,  0.0397, -0.0017,  0.0020, -0.0164,  0.0374, -0.0163, -0.0128,
+        -0.0292, -0.0258], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 210, time 214.56, cls_loss 0.5725 cls_loss_mapping 0.0045 cls_loss_causal 0.4975 re_mapping 0.0124 re_causal 0.0277 /// teacc 98.68 lr 0.00010000
+Epoch 212, weight, value: tensor([[-0.1542, -0.0280,  0.0192,  ..., -0.0305, -0.0751, -0.1045],
+        [-0.0380, -0.0754,  0.0280,  ...,  0.0346, -0.0121, -0.0761],
+        [-0.0465, -0.0667, -0.0876,  ...,  0.0462, -0.0406, -0.0833],
+        ...,
+        [-0.0538,  0.0286,  0.0245,  ...,  0.0334, -0.0465, -0.0881],
+        [-0.0671, -0.0051,  0.0188,  ...,  0.0593, -0.0375, -0.1387],
+        [ 0.0462,  0.0497, -0.0427,  ..., -0.1015, -0.0234,  0.0624]],
+       device='cuda:0'), grad: tensor([[ 1.2743e-04,  1.7250e-04,  8.1658e-05,  ...,  1.6689e-03,
+          4.2677e-04,  1.6737e-03],
+        [ 1.3137e-04,  2.7676e-03,  5.9605e-05,  ...,  3.0994e-03,
+          6.1369e-04,  6.0892e-04],
+        [ 2.7609e-04, -6.5384e-03,  2.0552e-04,  ..., -1.1604e-02,
+          6.0368e-04, -2.5692e-03],
+        ...,
+        [ 1.0937e-04,  3.3593e-04,  2.8044e-05,  ..., -1.0180e-04,
+          4.1413e-04, -6.6233e-04],
+        [-3.1395e-03,  6.6948e-04,  7.5483e-04,  ..., -3.7556e-03,
+         -3.8052e-03,  3.4904e-03],
+        [ 1.4782e-04,  5.0813e-06,  5.6088e-05,  ..., -8.1444e-04,
+          2.6965e-04,  1.1730e-03]], device='cuda:0')
+Epoch 212, bias, value: tensor([-0.0473,  0.0113,  0.0049, -0.0072, -0.0054,  0.0041, -0.0123,  0.0311,
+        -0.0106,  0.0129], device='cuda:0'), grad: tensor([ 0.0176,  0.0290, -0.0777,  0.0373,  0.0200,  0.0101, -0.0034,  0.0073,
+        -0.0249, -0.0154], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 211, time 215.02, cls_loss 0.6072 cls_loss_mapping 0.0053 cls_loss_causal 0.5324 re_mapping 0.0115 re_causal 0.0264 /// teacc 98.69 lr 0.00010000
+Epoch 213, weight, value: tensor([[-0.1571, -0.0283,  0.0195,  ..., -0.0295, -0.0742, -0.1050],
+        [-0.0371, -0.0752,  0.0283,  ...,  0.0347, -0.0122, -0.0766],
+        [-0.0465, -0.0671, -0.0878,  ...,  0.0458, -0.0413, -0.0835],
+        ...,
+        [-0.0526,  0.0284,  0.0241,  ...,  0.0330, -0.0463, -0.0874],
+        [-0.0656, -0.0055,  0.0189,  ...,  0.0605, -0.0387, -0.1388],
+        [ 0.0446,  0.0502, -0.0433,  ..., -0.1010, -0.0237,  0.0613]],
+       device='cuda:0'), grad: tensor([[ 3.4881e-04, -2.5146e-07,  1.2279e-04,  ..., -2.2392e-03,
+          1.9817e-03,  1.0859e-06],
+        [ 8.4937e-05,  2.2352e-08,  1.4555e-04,  ...,  5.3368e-03,
+          2.7828e-03,  1.6298e-06],
+        [ 2.5892e-04,  1.2852e-06,  6.2943e-05,  ..., -2.5597e-03,
+         -9.7036e-04,  7.9907e-07],
+        ...,
+        [ 2.4378e-04,  8.9169e-05,  9.6023e-05,  ..., -1.8911e-03,
+          1.4029e-03,  1.6868e-05],
+        [ 3.8052e-04, -3.2883e-03, -7.0143e-04,  ..., -2.7943e-03,
+         -1.9484e-03, -8.0681e-04],
+        [-3.9673e-04,  1.3294e-03, -5.7268e-04,  ..., -1.9569e-03,
+          2.3384e-03,  2.1052e-04]], device='cuda:0')
+Epoch 213, bias, value: tensor([-0.0472,  0.0123,  0.0042, -0.0076, -0.0055,  0.0046, -0.0131,  0.0316,
+        -0.0107,  0.0128], device='cuda:0'), grad: tensor([-0.0108,  0.0341, -0.0109,  0.0234, -0.0089, -0.0014,  0.0168, -0.0119,
+        -0.0167, -0.0137], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 212, time 214.84, cls_loss 0.5648 cls_loss_mapping 0.0069 cls_loss_causal 0.4905 re_mapping 0.0123 re_causal 0.0258 /// teacc 98.72 lr 0.00010000
+Epoch 214, weight, value: tensor([[-0.1572, -0.0273,  0.0186,  ..., -0.0307, -0.0736, -0.1054],
+        [-0.0370, -0.0758,  0.0287,  ...,  0.0354, -0.0110, -0.0774],
+        [-0.0462, -0.0668, -0.0861,  ...,  0.0458, -0.0418, -0.0839],
+        ...,
+        [-0.0527,  0.0286,  0.0234,  ...,  0.0341, -0.0463, -0.0880],
+        [-0.0669, -0.0046,  0.0185,  ...,  0.0614, -0.0384, -0.1394],
+        [ 0.0446,  0.0508, -0.0438,  ..., -0.1024, -0.0246,  0.0610]],
+       device='cuda:0'), grad: tensor([[ 6.0558e-05,  1.3518e-04, -4.1275e-03,  ..., -3.0518e-03,
+          2.1553e-04,  2.1234e-05],
+        [ 7.4357e-06,  8.7976e-04,  1.7080e-03,  ...,  6.9542e-03,
+          1.7920e-03,  3.4682e-06],
+        [ 5.4747e-05, -5.3167e-04,  6.3848e-04,  ..., -6.2084e-04,
+          3.6645e-04,  2.7984e-05],
+        ...,
+        [-1.1665e-04, -1.0124e-02,  1.8072e-03,  ..., -2.4811e-02,
+         -4.5319e-02,  5.9515e-05],
+        [-1.8492e-03, -6.9962e-03,  8.5640e-04,  ...,  1.8930e-03,
+          4.6396e-04,  1.8585e-04],
+        [ 9.1362e-04,  7.2098e-03, -2.0236e-05,  ...,  2.5024e-03,
+          1.5187e-04, -8.1825e-04]], device='cuda:0')
+Epoch 214, bias, value: tensor([-0.0471,  0.0126,  0.0042, -0.0076, -0.0064,  0.0044, -0.0125,  0.0325,
+        -0.0112,  0.0128], device='cuda:0'), grad: tensor([-0.0207,  0.0219,  0.0117,  0.0318,  0.0145, -0.0482,  0.0092, -0.0391,
+        -0.0169,  0.0357], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 213, time 214.57, cls_loss 0.5691 cls_loss_mapping 0.0065 cls_loss_causal 0.4949 re_mapping 0.0120 re_causal 0.0257 /// teacc 98.83 lr 0.00010000
+Epoch 215, weight, value: tensor([[-0.1577, -0.0274,  0.0187,  ..., -0.0320, -0.0727, -0.1051],
+        [-0.0360, -0.0756,  0.0275,  ...,  0.0365, -0.0108, -0.0767],
+        [-0.0470, -0.0663, -0.0853,  ...,  0.0466, -0.0414, -0.0828],
+        ...,
+        [-0.0534,  0.0298,  0.0227,  ...,  0.0332, -0.0462, -0.0881],
+        [-0.0664, -0.0049,  0.0205,  ...,  0.0612, -0.0381, -0.1393],
+        [ 0.0448,  0.0505, -0.0440,  ..., -0.1023, -0.0253,  0.0615]],
+       device='cuda:0'), grad: tensor([[ 1.3018e-04,  3.7290e-06,  2.2995e-04,  ...,  1.1330e-03,
+          7.8082e-05,  1.3048e-06],
+        [ 1.6212e-04,  3.2902e-05,  4.2439e-04,  ..., -2.9278e-03,
+          9.4771e-05,  9.5665e-06],
+        [ 6.2799e-04,  7.3910e-06,  4.9925e-04,  ...,  1.8902e-03,
+         -2.4819e-04,  8.8885e-06],
+        ...,
+        [ 3.2961e-05, -1.9759e-05, -3.4027e-03,  ..., -1.8215e-03,
+         -2.9755e-04,  1.8165e-05],
+        [-3.0446e-04,  1.8090e-05,  3.5048e-04,  ...,  1.5392e-03,
+          7.2956e-05,  1.5527e-05],
+        [-5.1521e-06,  3.1143e-05,  5.7602e-04,  ...,  1.3704e-03,
+          1.3149e-04, -3.5554e-05]], device='cuda:0')
+Epoch 215, bias, value: tensor([-0.0482,  0.0120,  0.0054, -0.0066, -0.0069,  0.0051, -0.0127,  0.0312,
+        -0.0103,  0.0126], device='cuda:0'), grad: tensor([ 0.0099, -0.0166,  0.0152,  0.0151,  0.0087,  0.0126, -0.0350, -0.0332,
+         0.0103,  0.0132], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 214, time 214.81, cls_loss 0.5720 cls_loss_mapping 0.0055 cls_loss_causal 0.4932 re_mapping 0.0116 re_causal 0.0252 /// teacc 98.80 lr 0.00010000
+Epoch 216, weight, value: tensor([[-0.1582, -0.0279,  0.0189,  ..., -0.0330, -0.0713, -0.1052],
+        [-0.0362, -0.0758,  0.0259,  ...,  0.0362, -0.0108, -0.0772],
+        [-0.0474, -0.0656, -0.0863,  ...,  0.0460, -0.0417, -0.0835],
+        ...,
+        [-0.0536,  0.0291,  0.0235,  ...,  0.0341, -0.0464, -0.0881],
+        [-0.0673, -0.0050,  0.0193,  ...,  0.0621, -0.0387, -0.1388],
+        [ 0.0450,  0.0515, -0.0437,  ..., -0.1021, -0.0247,  0.0624]],
+       device='cuda:0'), grad: tensor([[ 1.2508e-06,  1.2708e-04,  2.6846e-04,  ...,  2.9964e-03,
+          1.2433e-06,  2.4402e-04],
+        [ 1.2582e-06,  3.7909e-05,  5.5885e-04,  ..., -7.6904e-03,
+         -1.5184e-05,  1.2577e-04],
+        [ 3.1680e-05, -1.0216e-04, -1.3838e-03,  ...,  2.5578e-03,
+         -5.6997e-06,  1.1415e-03],
+        ...,
+        [ 8.9183e-06,  1.6367e-04,  3.4404e-04,  ...,  4.1885e-03,
+          1.3001e-06,  4.5180e-04],
+        [ 1.8731e-05,  6.0511e-04, -1.6937e-03,  ..., -5.2547e-04,
+          4.1984e-06, -3.1071e-03],
+        [ 4.4405e-05,  7.5769e-04,  1.9681e-04,  ...,  5.0621e-03,
+          3.3043e-06,  6.2370e-04]], device='cuda:0')
+Epoch 216, bias, value: tensor([-0.0482,  0.0123,  0.0051, -0.0074, -0.0055,  0.0047, -0.0136,  0.0321,
+        -0.0109,  0.0129], device='cuda:0'), grad: tensor([ 0.0251, -0.0572,  0.0139,  0.0410, -0.0163, -0.0996,  0.0209,  0.0251,
+         0.0054,  0.0417], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 215, time 215.10, cls_loss 0.5409 cls_loss_mapping 0.0056 cls_loss_causal 0.4646 re_mapping 0.0115 re_causal 0.0264 /// teacc 98.80 lr 0.00010000
+Epoch 217, weight, value: tensor([[-0.1579, -0.0283,  0.0176,  ..., -0.0316, -0.0718, -0.1054],
+        [-0.0371, -0.0760,  0.0271,  ...,  0.0351, -0.0095, -0.0779],
+        [-0.0465, -0.0658, -0.0865,  ...,  0.0456, -0.0411, -0.0824],
+        ...,
+        [-0.0540,  0.0296,  0.0236,  ...,  0.0335, -0.0463, -0.0880],
+        [-0.0673, -0.0056,  0.0192,  ...,  0.0632, -0.0382, -0.1385],
+        [ 0.0450,  0.0517, -0.0438,  ..., -0.1014, -0.0248,  0.0627]],
+       device='cuda:0'), grad: tensor([[ 1.5652e-04,  1.0673e-06,  1.0033e-03,  ..., -3.8834e-03,
+          7.2050e-04,  2.3711e-04],
+        [ 3.6836e-04,  1.1124e-05, -3.4847e-03,  ..., -1.0735e-02,
+         -1.6108e-03, -1.3256e-03],
+        [ 2.3544e-04,  1.4082e-05, -1.8301e-03,  ..., -1.1539e-04,
+         -1.2627e-03,  3.4070e-04],
+        ...,
+        [ 3.1796e-03, -2.5702e-04,  2.4738e-03,  ...,  5.8556e-03,
+          6.6566e-04,  4.1580e-03],
+        [ 1.2789e-03,  4.7296e-05,  1.7166e-03,  ...,  3.6697e-03,
+         -2.7580e-03,  1.3008e-03],
+        [-8.5144e-03,  1.0508e-04, -9.7351e-03,  ..., -2.1133e-03,
+          8.8692e-04, -8.8577e-03]], device='cuda:0')
+Epoch 217, bias, value: tensor([-0.0486,  0.0132,  0.0048, -0.0077, -0.0050,  0.0053, -0.0139,  0.0320,
+        -0.0108,  0.0123], device='cuda:0'), grad: tensor([-0.0152, -0.0668, -0.0041,  0.0439,  0.0133,  0.0382, -0.0463,  0.0378,
+         0.0040, -0.0049], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 216, time 214.66, cls_loss 0.5667 cls_loss_mapping 0.0054 cls_loss_causal 0.4845 re_mapping 0.0114 re_causal 0.0255 /// teacc 98.75 lr 0.00010000
+Epoch 218, weight, value: tensor([[-0.1579, -0.0267,  0.0181,  ..., -0.0312, -0.0717, -0.1059],
+        [-0.0375, -0.0758,  0.0267,  ...,  0.0356, -0.0089, -0.0779],
+        [-0.0460, -0.0650, -0.0874,  ...,  0.0435, -0.0435, -0.0830],
+        ...,
+        [-0.0542,  0.0288,  0.0237,  ...,  0.0336, -0.0455, -0.0887],
+        [-0.0671, -0.0060,  0.0207,  ...,  0.0637, -0.0377, -0.1387],
+        [ 0.0447,  0.0517, -0.0438,  ..., -0.1008, -0.0251,  0.0632]],
+       device='cuda:0'), grad: tensor([[ 2.3842e-06,  4.0978e-08,  2.3341e-04,  ...,  2.7905e-03,
+          1.0735e-04,  4.5747e-05],
+        [ 1.0729e-06,  4.6566e-09,  2.6627e-03,  ...,  6.4507e-03,
+          4.2772e-04,  2.7847e-04],
+        [ 1.2094e-04,  9.5926e-08,  7.9060e-04,  ..., -1.8654e-03,
+          2.4068e-04,  2.7919e-04],
+        ...,
+        [ 1.5132e-05, -6.2119e-07,  1.0595e-03,  ...,  3.9406e-03,
+          6.6280e-05,  3.6925e-05],
+        [ 5.6381e-03,  8.8103e-07,  1.5354e-03,  ..., -2.5806e-03,
+         -3.4761e-04,  6.8321e-03],
+        [-2.7165e-05, -2.1979e-06, -2.1591e-03,  ..., -1.0357e-03,
+          5.8174e-05, -3.0816e-05]], device='cuda:0')
+Epoch 218, bias, value: tensor([-0.0476,  0.0125,  0.0035, -0.0076, -0.0037,  0.0047, -0.0146,  0.0320,
+        -0.0102,  0.0125], device='cuda:0'), grad: tensor([ 0.0167,  0.0313, -0.0080, -0.1056,  0.0165,  0.0182, -0.0125,  0.0215,
+         0.0138,  0.0080], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 217----------------------------------------------------
+epoch 217, time 215.39, cls_loss 0.5742 cls_loss_mapping 0.0062 cls_loss_causal 0.4960 re_mapping 0.0120 re_causal 0.0268 /// teacc 98.99 lr 0.00010000
+Epoch 219, weight, value: tensor([[-0.1583, -0.0255,  0.0173,  ..., -0.0323, -0.0710, -0.1067],
+        [-0.0370, -0.0767,  0.0264,  ...,  0.0353, -0.0101, -0.0784],
+        [-0.0456, -0.0642, -0.0879,  ...,  0.0445, -0.0426, -0.0817],
+        ...,
+        [-0.0550,  0.0285,  0.0242,  ...,  0.0335, -0.0449, -0.0897],
+        [-0.0669, -0.0061,  0.0204,  ...,  0.0651, -0.0383, -0.1395],
+        [ 0.0453,  0.0518, -0.0433,  ..., -0.1021, -0.0267,  0.0635]],
+       device='cuda:0'), grad: tensor([[ 2.2161e-04,  1.5676e-04,  3.0351e-04,  ...,  3.5973e-03,
+          1.4811e-03,  1.0259e-05],
+        [ 8.9979e-04,  4.9057e-03,  2.3880e-03,  ...,  2.0275e-03,
+          3.0003e-03,  7.2867e-06],
+        [ 4.3654e-04,  1.3037e-03,  7.8106e-04,  ..., -4.8409e-03,
+         -1.5884e-02,  7.5936e-05],
+        ...,
+        [-1.6883e-05, -1.4563e-03,  1.6928e-04,  ...,  3.1338e-03,
+          5.1422e-03, -3.3569e-04],
+        [ 5.3930e-04,  8.3971e-04,  1.0700e-03,  ...,  1.8930e-04,
+          3.2063e-03, -5.4836e-06],
+        [ 2.0099e-04,  3.1471e-04,  2.3961e-04,  ...,  4.0016e-03,
+          1.8921e-03,  3.0175e-05]], device='cuda:0')
+Epoch 219, bias, value: tensor([-0.0473,  0.0123,  0.0039, -0.0077, -0.0037,  0.0043, -0.0146,  0.0321,
+        -0.0096,  0.0116], device='cuda:0'), grad: tensor([ 0.0185, -0.0016, -0.0346,  0.0227, -0.0138, -0.0354, -0.0078,  0.0219,
+         0.0105,  0.0196], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 218, time 214.74, cls_loss 0.5787 cls_loss_mapping 0.0046 cls_loss_causal 0.5089 re_mapping 0.0121 re_causal 0.0261 /// teacc 98.79 lr 0.00010000
+Epoch 220, weight, value: tensor([[-0.1592, -0.0272,  0.0192,  ..., -0.0328, -0.0712, -0.1071],
+        [-0.0366, -0.0763,  0.0249,  ...,  0.0360, -0.0101, -0.0793],
+        [-0.0455, -0.0627, -0.0878,  ...,  0.0448, -0.0424, -0.0805],
+        ...,
+        [-0.0544,  0.0278,  0.0240,  ...,  0.0343, -0.0438, -0.0889],
+        [-0.0679, -0.0057,  0.0210,  ...,  0.0631, -0.0384, -0.1389],
+        [ 0.0460,  0.0514, -0.0440,  ..., -0.1028, -0.0262,  0.0628]],
+       device='cuda:0'), grad: tensor([[ 3.0547e-07,  4.5563e-02,  1.5348e-06,  ...,  2.7580e-03,
+          1.3895e-06,  4.5262e-07],
+        [ 3.4086e-07,  1.1347e-05,  5.0552e-06,  ...,  2.9125e-03,
+          8.9630e-06,  1.8626e-07],
+        [ 2.1517e-05, -2.7823e-04,  5.1767e-05,  ..., -1.6373e-02,
+          7.6771e-05,  1.2532e-05],
+        ...,
+        [ 1.7453e-06,  4.7237e-06,  1.2286e-05,  ...,  1.4830e-03,
+          8.0988e-06,  2.5518e-07],
+        [-1.4067e-05,  2.5082e-04, -6.2764e-05,  ...,  3.1242e-03,
+         -1.4770e-04,  1.2904e-05],
+        [-1.6868e-05, -4.5746e-02,  1.3316e-04,  ...,  1.5640e-03,
+          1.1690e-05, -8.7917e-06]], device='cuda:0')
+Epoch 220, bias, value: tensor([-0.0479,  0.0121,  0.0048, -0.0081, -0.0027,  0.0036, -0.0139,  0.0325,
+        -0.0096,  0.0106], device='cuda:0'), grad: tensor([ 0.0382,  0.0175, -0.0778,  0.0083,  0.0268, -0.0191,  0.0527,  0.0116,
+        -0.0459, -0.0122], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 219, time 214.40, cls_loss 0.5739 cls_loss_mapping 0.0046 cls_loss_causal 0.5030 re_mapping 0.0123 re_causal 0.0282 /// teacc 98.84 lr 0.00010000
+Epoch 221, weight, value: tensor([[-0.1600, -0.0284,  0.0197,  ..., -0.0330, -0.0715, -0.1071],
+        [-0.0376, -0.0760,  0.0257,  ...,  0.0367, -0.0105, -0.0792],
+        [-0.0464, -0.0633, -0.0885,  ...,  0.0449, -0.0439, -0.0815],
+        ...,
+        [-0.0546,  0.0282,  0.0228,  ...,  0.0339, -0.0442, -0.0889],
+        [-0.0682, -0.0063,  0.0210,  ...,  0.0619, -0.0386, -0.1390],
+        [ 0.0459,  0.0526, -0.0441,  ..., -0.1021, -0.0260,  0.0629]],
+       device='cuda:0'), grad: tensor([[-6.6805e-04, -2.3518e-03, -1.4992e-03,  ...,  1.8492e-03,
+         -4.7183e-04, -8.3351e-04],
+        [ 1.1444e-05,  3.0613e-04,  3.0547e-05,  ...,  9.1219e-04,
+         -1.5306e-03,  1.4901e-05],
+        [-1.3441e-05,  2.5201e-04,  3.3140e-05,  ..., -2.8591e-03,
+          5.3263e-04,  3.1739e-05],
+        ...,
+        [ 1.2070e-05,  1.2600e-04,  2.8253e-05,  ...,  2.4109e-03,
+          4.3273e-04,  9.7305e-06],
+        [ 1.4186e-04,  3.6740e-04,  2.5439e-04,  ..., -2.0103e-03,
+          3.4165e-04,  1.7893e-04],
+        [ 1.8203e-04,  7.3624e-04,  3.7956e-04,  ...,  1.9817e-03,
+          1.2856e-03,  2.3282e-04]], device='cuda:0')
+Epoch 221, bias, value: tensor([-0.0484,  0.0127,  0.0043, -0.0082, -0.0031,  0.0046, -0.0143,  0.0320,
+        -0.0101,  0.0120], device='cuda:0'), grad: tensor([ 0.0147, -0.0272, -0.0416,  0.0306,  0.0281, -0.0663,  0.0138,  0.0277,
+        -0.0085,  0.0288], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 220, time 214.46, cls_loss 0.5942 cls_loss_mapping 0.0055 cls_loss_causal 0.5188 re_mapping 0.0117 re_causal 0.0267 /// teacc 98.74 lr 0.00010000
+Epoch 222, weight, value: tensor([[-0.1603, -0.0270,  0.0193,  ..., -0.0332, -0.0711, -0.1071],
+        [-0.0375, -0.0773,  0.0260,  ...,  0.0371, -0.0098, -0.0796],
+        [-0.0472, -0.0633, -0.0882,  ...,  0.0451, -0.0428, -0.0825],
+        ...,
+        [-0.0554,  0.0280,  0.0237,  ...,  0.0337, -0.0444, -0.0888],
+        [-0.0693, -0.0076,  0.0204,  ...,  0.0622, -0.0400, -0.1408],
+        [ 0.0462,  0.0514, -0.0447,  ..., -0.1023, -0.0263,  0.0632]],
+       device='cuda:0'), grad: tensor([[ 3.8314e-04,  4.1866e-04,  5.3197e-06,  ...,  2.7409e-03,
+          4.1771e-04,  9.3222e-04],
+        [ 1.1548e-05, -4.5853e-03, -6.2585e-05,  ...,  6.1655e-04,
+          1.9236e-03,  1.8924e-05],
+        [ 4.4286e-05,  1.7710e-03,  1.4722e-05,  ...,  6.1188e-03,
+          2.1744e-03,  9.1016e-05],
+        ...,
+        [ 3.7342e-05,  8.5678e-03,  1.0490e-04,  ...,  2.4475e-02,
+          7.4005e-03,  3.7044e-05],
+        [ 1.1373e-04,  1.3390e-03,  9.1866e-06,  ..., -3.1708e-02,
+         -4.7188e-03,  3.9268e-04],
+        [ 5.6118e-05,  9.5272e-04,  4.3726e-04,  ...,  4.0016e-03,
+          9.4652e-04, -1.0312e-04]], device='cuda:0')
+Epoch 222, bias, value: tensor([-0.0479,  0.0136,  0.0050, -0.0079, -0.0035,  0.0048, -0.0158,  0.0321,
+        -0.0102,  0.0113], device='cuda:0'), grad: tensor([ 0.0157, -0.0122,  0.0228, -0.0155, -0.0066, -0.0168,  0.0031,  0.0588,
+        -0.0661,  0.0168], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 221, time 214.84, cls_loss 0.5708 cls_loss_mapping 0.0070 cls_loss_causal 0.4925 re_mapping 0.0118 re_causal 0.0255 /// teacc 98.85 lr 0.00010000
+Epoch 223, weight, value: tensor([[-0.1610, -0.0271,  0.0197,  ..., -0.0324, -0.0714, -0.1085],
+        [-0.0379, -0.0751,  0.0261,  ...,  0.0373, -0.0092, -0.0809],
+        [-0.0464, -0.0640, -0.0905,  ...,  0.0438, -0.0426, -0.0819],
+        ...,
+        [-0.0565,  0.0275,  0.0237,  ...,  0.0333, -0.0441, -0.0897],
+        [-0.0695, -0.0077,  0.0214,  ...,  0.0631, -0.0392, -0.1410],
+        [ 0.0461,  0.0519, -0.0457,  ..., -0.1027, -0.0269,  0.0631]],
+       device='cuda:0'), grad: tensor([[ 0.0005,  0.0009,  0.0013,  ..., -0.0008,  0.0005,  0.0007],
+        [ 0.0005, -0.0013, -0.0006,  ..., -0.0031,  0.0001,  0.0007],
+        [ 0.0003, -0.0055,  0.0018,  ...,  0.0018, -0.0038,  0.0009],
+        ...,
+        [ 0.0008, -0.0052,  0.0021,  ...,  0.0033,  0.0041,  0.0010],
+        [ 0.0022,  0.0059, -0.0020,  ...,  0.0003,  0.0038,  0.0009],
+        [ 0.0085,  0.0068,  0.0003,  ...,  0.0015, -0.0046,  0.0119]],
+       device='cuda:0')
+Epoch 223, bias, value: tensor([-0.0482,  0.0145,  0.0040, -0.0073, -0.0040,  0.0047, -0.0157,  0.0322,
+        -0.0103,  0.0115], device='cuda:0'), grad: tensor([-0.0091, -0.0157,  0.0024, -0.0840,  0.0337,  0.0230, -0.0001,  0.0348,
+         0.0297, -0.0146], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 222, time 214.50, cls_loss 0.5731 cls_loss_mapping 0.0043 cls_loss_causal 0.4990 re_mapping 0.0111 re_causal 0.0251 /// teacc 98.81 lr 0.00010000
+Epoch 224, weight, value: tensor([[-0.1616, -0.0279,  0.0191,  ..., -0.0328, -0.0722, -0.1090],
+        [-0.0385, -0.0752,  0.0253,  ...,  0.0374, -0.0094, -0.0819],
+        [-0.0458, -0.0640, -0.0908,  ...,  0.0445, -0.0432, -0.0819],
+        ...,
+        [-0.0562,  0.0280,  0.0233,  ...,  0.0332, -0.0437, -0.0893],
+        [-0.0683, -0.0076,  0.0217,  ...,  0.0634, -0.0402, -0.1411],
+        [ 0.0467,  0.0507, -0.0446,  ..., -0.1030, -0.0262,  0.0625]],
+       device='cuda:0'), grad: tensor([[ 6.1691e-06, -2.6894e-04,  8.8263e-04,  ...,  2.6779e-03,
+          2.6751e-04, -9.7573e-05],
+        [ 2.3562e-06,  1.8597e-04, -3.4370e-03,  ..., -8.2474e-03,
+         -1.6937e-03,  4.7803e-05],
+        [-2.3651e-04,  1.6081e-04,  8.1444e-04,  ...,  2.2259e-03,
+          2.5630e-04,  8.6844e-05],
+        ...,
+        [-7.5817e-05, -1.6336e-03,  5.0545e-04,  ..., -4.6921e-03,
+          1.5485e-04, -6.2466e-04],
+        [ 3.8981e-05,  1.8418e-04,  4.9543e-04,  ...,  1.7185e-03,
+          1.2130e-04,  1.0169e-04],
+        [ 7.5817e-05,  9.7752e-04,  6.6090e-04,  ...,  2.7752e-03,
+          2.0945e-04,  1.1563e-04]], device='cuda:0')
+Epoch 224, bias, value: tensor([-0.0486,  0.0142,  0.0042, -0.0061, -0.0034,  0.0043, -0.0161,  0.0323,
+        -0.0114,  0.0121], device='cuda:0'), grad: tensor([ 0.0270, -0.0971,  0.0217,  0.0267,  0.0279,  0.0164, -0.0330, -0.0320,
+         0.0174,  0.0250], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 223, time 214.43, cls_loss 0.5577 cls_loss_mapping 0.0074 cls_loss_causal 0.4960 re_mapping 0.0113 re_causal 0.0258 /// teacc 98.70 lr 0.00010000
+Epoch 225, weight, value: tensor([[-0.1612, -0.0269,  0.0190,  ..., -0.0326, -0.0708, -0.1087],
+        [-0.0380, -0.0755,  0.0276,  ...,  0.0374, -0.0097, -0.0807],
+        [-0.0466, -0.0640, -0.0899,  ...,  0.0453, -0.0434, -0.0820],
+        ...,
+        [-0.0547,  0.0279,  0.0219,  ...,  0.0333, -0.0438, -0.0886],
+        [-0.0682, -0.0076,  0.0209,  ...,  0.0636, -0.0400, -0.1412],
+        [ 0.0461,  0.0505, -0.0448,  ..., -0.1035, -0.0257,  0.0617]],
+       device='cuda:0'), grad: tensor([[ 1.9054e-03,  4.4554e-06,  7.3004e-04,  ...,  1.8654e-03,
+          2.7958e-06,  1.9464e-03],
+        [ 9.3400e-05,  1.9951e-03,  6.8521e-04,  ..., -1.2884e-03,
+          2.2911e-07, -3.4833e-04],
+        [ 6.3717e-05,  4.6007e-06,  2.4402e-04,  ...,  1.3990e-03,
+         -4.1366e-04,  1.7309e-04],
+        ...,
+        [ 1.9777e-04,  4.8615e-07,  4.2510e-04,  ..., -5.3139e-03,
+          2.1607e-06,  2.6512e-04],
+        [ 7.4768e-04,  1.1438e-04,  3.4952e-04,  ...,  1.7176e-03,
+          3.8713e-05,  8.4639e-04],
+        [ 2.6155e-04,  1.1455e-06,  5.0306e-04,  ...,  1.9989e-03,
+          7.2531e-06,  3.8362e-04]], device='cuda:0')
+Epoch 225, bias, value: tensor([-0.0489,  0.0146,  0.0047, -0.0066, -0.0043,  0.0036, -0.0151,  0.0331,
+        -0.0110,  0.0112], device='cuda:0'), grad: tensor([ 0.0231, -0.0069,  0.0106, -0.0087, -0.0436, -0.0177,  0.0141, -0.0066,
+         0.0165,  0.0192], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 224, time 214.78, cls_loss 0.5613 cls_loss_mapping 0.0048 cls_loss_causal 0.4904 re_mapping 0.0113 re_causal 0.0255 /// teacc 98.66 lr 0.00010000
+Epoch 226, weight, value: tensor([[-0.1605, -0.0274,  0.0189,  ..., -0.0326, -0.0717, -0.1105],
+        [-0.0394, -0.0762,  0.0269,  ...,  0.0363, -0.0091, -0.0796],
+        [-0.0477, -0.0641, -0.0902,  ...,  0.0459, -0.0439, -0.0836],
+        ...,
+        [-0.0541,  0.0289,  0.0225,  ...,  0.0339, -0.0438, -0.0889],
+        [-0.0682, -0.0079,  0.0210,  ...,  0.0636, -0.0406, -0.1423],
+        [ 0.0464,  0.0514, -0.0454,  ..., -0.1045, -0.0260,  0.0618]],
+       device='cuda:0'), grad: tensor([[ 4.8339e-05, -8.2779e-04,  1.6570e-04,  ...,  4.0269e-04,
+          2.5105e-04,  8.3685e-05],
+        [ 2.7493e-06,  2.7418e-05,  4.9543e-04,  ...,  1.2388e-03,
+          4.6968e-04,  3.5405e-05],
+        [ 2.7075e-05,  2.8685e-05,  2.5892e-04,  ...,  5.8174e-04,
+          2.9945e-04,  6.1035e-05],
+        ...,
+        [ 7.1144e-04, -6.0648e-05,  6.2704e-04,  ...,  1.3084e-03,
+          4.1127e-04,  7.9870e-04],
+        [ 1.2088e-04,  7.4100e-04,  2.5201e-04,  ...,  2.8539e-04,
+          2.5201e-04,  6.6185e-04],
+        [ 1.4853e-04,  2.7609e-04, -2.3289e-03,  ..., -2.5272e-03,
+         -2.4757e-03,  5.7030e-04]], device='cuda:0')
+Epoch 226, bias, value: tensor([-0.0480,  0.0137,  0.0045, -0.0068, -0.0046,  0.0035, -0.0147,  0.0336,
+        -0.0107,  0.0108], device='cuda:0'), grad: tensor([ 0.0012,  0.0090,  0.0041,  0.0150, -0.0169, -0.0109,  0.0037,  0.0125,
+         0.0054, -0.0231], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 225, time 214.65, cls_loss 0.5688 cls_loss_mapping 0.0068 cls_loss_causal 0.4970 re_mapping 0.0118 re_causal 0.0258 /// teacc 98.89 lr 0.00010000
+Epoch 227, weight, value: tensor([[-0.1618, -0.0272,  0.0207,  ..., -0.0328, -0.0730, -0.1115],
+        [-0.0403, -0.0762,  0.0266,  ...,  0.0364, -0.0091, -0.0810],
+        [-0.0495, -0.0643, -0.0899,  ...,  0.0460, -0.0430, -0.0830],
+        ...,
+        [-0.0541,  0.0286,  0.0218,  ...,  0.0344, -0.0442, -0.0880],
+        [-0.0687, -0.0071,  0.0200,  ...,  0.0636, -0.0393, -0.1429],
+        [ 0.0468,  0.0512, -0.0460,  ..., -0.1045, -0.0259,  0.0623]],
+       device='cuda:0'), grad: tensor([[ 4.8280e-04,  3.6024e-06,  8.1444e-04,  ...,  9.6750e-04,
+          1.3304e-04,  2.0847e-03],
+        [ 6.9761e-04,  1.2852e-07,  6.6471e-04,  ...,  1.0157e-03,
+          4.6182e-04,  6.5422e-04],
+        [ 1.6708e-03,  6.4261e-07,  7.3290e-04,  ...,  2.8687e-03,
+          8.0347e-04,  6.6042e-04],
+        ...,
+        [ 1.4009e-03,  1.8620e-04,  1.3208e-04,  ..., -5.4512e-03,
+          9.0003e-05, -1.2112e-03],
+        [-5.3253e-03,  2.8461e-06, -5.5237e-03,  ..., -3.0823e-03,
+         -2.4891e-03, -3.2177e-03],
+        [-4.7531e-03, -3.4738e-04, -2.0103e-03,  ...,  5.5075e-04,
+          1.6594e-04, -6.1417e-04]], device='cuda:0')
+Epoch 227, bias, value: tensor([-0.0480,  0.0137,  0.0047, -0.0067, -0.0049,  0.0038, -0.0147,  0.0337,
+        -0.0114,  0.0111], device='cuda:0'), grad: tensor([ 0.0156,  0.0179,  0.0288,  0.0378,  0.0114,  0.0235, -0.0176, -0.0322,
+        -0.0354, -0.0496], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 226, time 214.72, cls_loss 0.5822 cls_loss_mapping 0.0050 cls_loss_causal 0.5103 re_mapping 0.0116 re_causal 0.0262 /// teacc 98.82 lr 0.00010000
+Epoch 228, weight, value: tensor([[-0.1621, -0.0272,  0.0201,  ..., -0.0329, -0.0734, -0.1121],
+        [-0.0392, -0.0749,  0.0264,  ...,  0.0364, -0.0095, -0.0783],
+        [-0.0500, -0.0639, -0.0891,  ...,  0.0460, -0.0430, -0.0837],
+        ...,
+        [-0.0552,  0.0274,  0.0216,  ...,  0.0337, -0.0450, -0.0896],
+        [-0.0688, -0.0074,  0.0205,  ...,  0.0631, -0.0384, -0.1437],
+        [ 0.0481,  0.0516, -0.0465,  ..., -0.1043, -0.0255,  0.0633]],
+       device='cuda:0'), grad: tensor([[ 6.1560e-04,  3.6097e-04,  2.7313e-03,  ...,  1.2341e-03,
+          5.7888e-04,  8.2731e-04],
+        [ 2.2364e-04,  2.5558e-04,  6.4659e-03,  ...,  3.8223e-03,
+          3.4928e-04,  6.3515e-04],
+        [-9.2566e-05,  6.2132e-04, -9.6741e-03,  ..., -5.6801e-03,
+          1.6952e-04,  3.7837e-04],
+        ...,
+        [-6.6805e-04,  6.8617e-04, -9.9411e-03,  ..., -7.3090e-03,
+          1.9073e-05, -4.8561e-03],
+        [ 6.7186e-04,  3.6812e-04,  3.2692e-03,  ...,  1.8463e-03,
+          1.1997e-03,  1.1930e-03],
+        [ 9.1600e-04,  1.3971e-03,  9.1858e-03,  ...,  2.0485e-03,
+          3.6983e-03,  4.4975e-03]], device='cuda:0')
+Epoch 228, bias, value: tensor([-0.0479,  0.0137,  0.0049, -0.0070, -0.0035,  0.0035, -0.0147,  0.0328,
+        -0.0108,  0.0105], device='cuda:0'), grad: tensor([ 0.0130,  0.0237, -0.0176,  0.0214,  0.0010,  0.0204, -0.0567, -0.0668,
+         0.0157,  0.0458], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 227, time 214.53, cls_loss 0.5237 cls_loss_mapping 0.0051 cls_loss_causal 0.4603 re_mapping 0.0115 re_causal 0.0254 /// teacc 98.87 lr 0.00010000
+Epoch 229, weight, value: tensor([[-0.1625, -0.0275,  0.0205,  ..., -0.0332, -0.0744, -0.1125],
+        [-0.0399, -0.0751,  0.0259,  ...,  0.0371, -0.0092, -0.0777],
+        [-0.0501, -0.0628, -0.0892,  ...,  0.0450, -0.0412, -0.0840],
+        ...,
+        [-0.0556,  0.0270,  0.0211,  ...,  0.0336, -0.0460, -0.0902],
+        [-0.0688, -0.0083,  0.0206,  ...,  0.0632, -0.0384, -0.1437],
+        [ 0.0472,  0.0517, -0.0470,  ..., -0.1052, -0.0256,  0.0626]],
+       device='cuda:0'), grad: tensor([[ 0.0003,  0.0097,  0.0016,  ...,  0.0027,  0.0002,  0.0001],
+        [ 0.0001,  0.0006,  0.0015,  ...,  0.0032,  0.0002,  0.0002],
+        [ 0.0001,  0.0002, -0.0055,  ..., -0.0029,  0.0001,  0.0002],
+        ...,
+        [-0.0020, -0.0029,  0.0013,  ..., -0.0003,  0.0005, -0.0014],
+        [ 0.0001,  0.0019,  0.0017,  ...,  0.0026,  0.0005,  0.0004],
+        [ 0.0004, -0.0026, -0.0020,  ...,  0.0028,  0.0002,  0.0077]],
+       device='cuda:0')
+Epoch 229, bias, value: tensor([-0.0484,  0.0144,  0.0046, -0.0063, -0.0038,  0.0034, -0.0141,  0.0327,
+        -0.0107,  0.0096], device='cuda:0'), grad: tensor([ 0.0525,  0.0288, -0.0134,  0.0288, -0.0561, -0.0427,  0.0121, -0.0143,
+         0.0321, -0.0278], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 228, time 214.50, cls_loss 0.5332 cls_loss_mapping 0.0047 cls_loss_causal 0.4594 re_mapping 0.0119 re_causal 0.0259 /// teacc 98.86 lr 0.00010000
+Epoch 230, weight, value: tensor([[-0.1640, -0.0272,  0.0202,  ..., -0.0328, -0.0748, -0.1132],
+        [-0.0397, -0.0756,  0.0262,  ...,  0.0368, -0.0103, -0.0783],
+        [-0.0512, -0.0634, -0.0901,  ...,  0.0449, -0.0418, -0.0855],
+        ...,
+        [-0.0558,  0.0263,  0.0215,  ...,  0.0336, -0.0457, -0.0902],
+        [-0.0691, -0.0084,  0.0193,  ...,  0.0630, -0.0394, -0.1440],
+        [ 0.0487,  0.0531, -0.0472,  ..., -0.1054, -0.0239,  0.0627]],
+       device='cuda:0'), grad: tensor([[ 4.0770e-04,  2.5320e-04,  1.2112e-03,  ...,  1.0719e-03,
+          1.4753e-03, -3.0470e-04],
+        [-6.6071e-03,  2.0549e-05, -8.2092e-03,  ...,  1.7023e-03,
+         -3.4885e-03, -1.5297e-03],
+        [ 3.2282e-04,  1.9979e-04,  9.2268e-04,  ...,  1.0481e-03,
+          5.1384e-03,  8.2195e-05],
+        ...,
+        [ 2.6631e-04,  8.8334e-05, -3.6502e-04,  ..., -3.0155e-03,
+          5.3501e-04,  1.4389e-04],
+        [-5.7678e-03,  9.8646e-05,  1.5783e-03,  ...,  1.3952e-03,
+          1.8969e-03,  3.0208e-04],
+        [ 9.5987e-04,  4.1275e-03,  2.0542e-03,  ...,  1.3084e-03,
+          1.4849e-03,  3.4218e-03]], device='cuda:0')
+Epoch 230, bias, value: tensor([-0.0476,  0.0143,  0.0041, -0.0066, -0.0047,  0.0042, -0.0142,  0.0332,
+        -0.0117,  0.0105], device='cuda:0'), grad: tensor([-0.0152, -0.0157,  0.0153,  0.0174,  0.0069,  0.0313, -0.0394, -0.0228,
+        -0.0037,  0.0258], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 229, time 214.47, cls_loss 0.5784 cls_loss_mapping 0.0048 cls_loss_causal 0.5047 re_mapping 0.0116 re_causal 0.0264 /// teacc 98.85 lr 0.00010000
+Epoch 231, weight, value: tensor([[-0.1652, -0.0271,  0.0200,  ..., -0.0315, -0.0750, -0.1147],
+        [-0.0380, -0.0748,  0.0262,  ...,  0.0365, -0.0080, -0.0778],
+        [-0.0516, -0.0646, -0.0898,  ...,  0.0447, -0.0419, -0.0858],
+        ...,
+        [-0.0566,  0.0270,  0.0217,  ...,  0.0341, -0.0465, -0.0894],
+        [-0.0687, -0.0086,  0.0193,  ...,  0.0636, -0.0399, -0.1455],
+        [ 0.0487,  0.0519, -0.0466,  ..., -0.1062, -0.0237,  0.0626]],
+       device='cuda:0'), grad: tensor([[ 5.6922e-06,  2.6792e-05,  5.0621e-03,  ...,  2.0523e-03,
+          3.5036e-06,  2.7239e-05],
+        [ 1.4991e-05,  3.6144e-04,  2.4974e-05,  ..., -2.0142e-03,
+          1.9856e-06,  2.4796e-04],
+        [-9.5940e-04,  8.2374e-05,  1.9714e-05,  ..., -5.7907e-03,
+         -1.2522e-03,  1.1420e-04],
+        ...,
+        [ 8.7678e-05,  3.4094e-04,  3.6001e-04,  ...,  1.8606e-03,
+          3.5435e-05,  2.9445e-04],
+        [ 2.2972e-04,  1.7846e-04,  6.5029e-05,  ...,  2.4967e-03,
+          2.4378e-05,  5.7220e-04],
+        [-3.7885e-04,  9.0027e-04, -5.7678e-03,  ...,  7.2098e-04,
+          2.9411e-06,  8.9288e-05]], device='cuda:0')
+Epoch 231, bias, value: tensor([-0.0479,  0.0152,  0.0044, -0.0068, -0.0049,  0.0029, -0.0138,  0.0336,
+        -0.0115,  0.0101], device='cuda:0'), grad: tensor([ 0.0369, -0.0155, -0.0477,  0.0146,  0.0311,  0.0039, -0.0443,  0.0174,
+         0.0213, -0.0176], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 230, time 214.70, cls_loss 0.5964 cls_loss_mapping 0.0053 cls_loss_causal 0.5245 re_mapping 0.0114 re_causal 0.0261 /// teacc 98.79 lr 0.00010000
+Epoch 232, weight, value: tensor([[-0.1652, -0.0270,  0.0186,  ..., -0.0307, -0.0732, -0.1140],
+        [-0.0366, -0.0757,  0.0257,  ...,  0.0366, -0.0093, -0.0780],
+        [-0.0510, -0.0654, -0.0906,  ...,  0.0446, -0.0412, -0.0863],
+        ...,
+        [-0.0565,  0.0280,  0.0216,  ...,  0.0330, -0.0457, -0.0885],
+        [-0.0697, -0.0084,  0.0206,  ...,  0.0640, -0.0402, -0.1464],
+        [ 0.0490,  0.0524, -0.0456,  ..., -0.1065, -0.0244,  0.0625]],
+       device='cuda:0'), grad: tensor([[ 0.0002,  0.0002,  0.0005,  ...,  0.0008,  0.0005,  0.0002],
+        [ 0.0030,  0.0007,  0.0037,  ...,  0.0015,  0.0011,  0.0016],
+        [ 0.0005,  0.0010,  0.0008,  ...,  0.0023,  0.0005,  0.0003],
+        ...,
+        [ 0.0005, -0.0005, -0.0031,  ..., -0.0003,  0.0037, -0.0047],
+        [-0.0042,  0.0002, -0.0048,  ..., -0.0008,  0.0009, -0.0014],
+        [-0.0031,  0.0005,  0.0006,  ..., -0.0040, -0.0032,  0.0001]],
+       device='cuda:0')
+Epoch 232, bias, value: tensor([-0.0472,  0.0149,  0.0045, -0.0068, -0.0047,  0.0031, -0.0145,  0.0330,
+        -0.0119,  0.0109], device='cuda:0'), grad: tensor([-0.0107,  0.0415,  0.0234, -0.0349,  0.0112,  0.0164,  0.0081, -0.0152,
+        -0.0113, -0.0285], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 231, time 214.60, cls_loss 0.5673 cls_loss_mapping 0.0050 cls_loss_causal 0.4968 re_mapping 0.0117 re_causal 0.0268 /// teacc 98.69 lr 0.00010000
+Epoch 233, weight, value: tensor([[-0.1665, -0.0270,  0.0174,  ..., -0.0316, -0.0730, -0.1145],
+        [-0.0380, -0.0754,  0.0258,  ...,  0.0367, -0.0106, -0.0785],
+        [-0.0502, -0.0662, -0.0900,  ...,  0.0448, -0.0406, -0.0868],
+        ...,
+        [-0.0557,  0.0279,  0.0215,  ...,  0.0341, -0.0468, -0.0878],
+        [-0.0703, -0.0083,  0.0206,  ...,  0.0645, -0.0408, -0.1454],
+        [ 0.0498,  0.0521, -0.0453,  ..., -0.1076, -0.0216,  0.0624]],
+       device='cuda:0'), grad: tensor([[ 2.4939e-04,  3.4237e-04,  1.9522e-03,  ...,  1.7281e-03,
+          2.2411e-03,  1.3268e-04],
+        [ 1.1283e-04,  1.2612e-04,  1.1759e-03,  ..., -2.8839e-03,
+          2.6760e-03,  1.1295e-04],
+        [ 6.5565e-04,  3.7861e-03,  4.6444e-04,  ...,  3.8490e-03,
+          1.9350e-03,  1.0252e-03],
+        ...,
+        [-2.3142e-05,  1.5326e-03, -6.1226e-03,  ..., -2.6321e-03,
+          1.4563e-03, -3.8862e-04],
+        [-6.8521e-04, -1.1473e-03, -1.2131e-03,  ..., -4.7684e-07,
+         -5.4817e-03,  2.5225e-04],
+        [ 8.9931e-04, -5.1537e-03,  1.3762e-03,  ..., -6.6452e-03,
+         -3.5019e-03,  6.7711e-04]], device='cuda:0')
+Epoch 233, bias, value: tensor([-0.0484,  0.0139,  0.0044, -0.0063, -0.0046,  0.0032, -0.0140,  0.0342,
+        -0.0120,  0.0109], device='cuda:0'), grad: tensor([ 0.0251,  0.0084,  0.0341, -0.0294,  0.0334,  0.0461, -0.0402, -0.0191,
+        -0.0362, -0.0223], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 232, time 214.82, cls_loss 0.5509 cls_loss_mapping 0.0054 cls_loss_causal 0.4774 re_mapping 0.0113 re_causal 0.0246 /// teacc 98.64 lr 0.00010000
+Epoch 234, weight, value: tensor([[-0.1661, -0.0259,  0.0185,  ..., -0.0316, -0.0730, -0.1130],
+        [-0.0384, -0.0766,  0.0260,  ...,  0.0369, -0.0103, -0.0792],
+        [-0.0517, -0.0664, -0.0915,  ...,  0.0448, -0.0429, -0.0872],
+        ...,
+        [-0.0563,  0.0282,  0.0212,  ...,  0.0346, -0.0467, -0.0897],
+        [-0.0700, -0.0095,  0.0212,  ...,  0.0639, -0.0414, -0.1452],
+        [ 0.0509,  0.0528, -0.0446,  ..., -0.1057, -0.0202,  0.0634]],
+       device='cuda:0'), grad: tensor([[ 8.6069e-04, -1.8024e-03,  2.3508e-04,  ...,  8.3208e-04,
+          1.0338e-03,  1.1301e-04],
+        [ 6.2063e-06,  3.7014e-05,  1.6600e-05,  ...,  1.0500e-03,
+          1.2815e-04,  5.1409e-06],
+        [ 6.6900e-04,  1.8880e-05,  8.2314e-05,  ...,  9.7513e-04,
+         -1.1742e-02,  4.5061e-04],
+        ...,
+        [ 1.5616e-05, -2.1152e-03,  5.0753e-05,  ...,  1.1473e-03,
+          3.7155e-03,  2.6321e-04],
+        [ 8.6665e-05,  1.1498e-04, -1.8597e-04,  ..., -2.8286e-03,
+          9.3460e-04,  6.3598e-05],
+        [-3.8862e-05,  1.7481e-03,  1.2207e-04,  ...,  6.0654e-04,
+          8.2159e-04, -3.2568e-04]], device='cuda:0')
+Epoch 234, bias, value: tensor([-0.0481,  0.0140,  0.0034, -0.0064, -0.0052,  0.0036, -0.0149,  0.0345,
+        -0.0113,  0.0115], device='cuda:0'), grad: tensor([ 0.0057,  0.0116, -0.0058, -0.0168, -0.0196,  0.0094,  0.0078,  0.0159,
+        -0.0188,  0.0105], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 233, time 214.95, cls_loss 0.5799 cls_loss_mapping 0.0043 cls_loss_causal 0.5040 re_mapping 0.0119 re_causal 0.0277 /// teacc 98.70 lr 0.00010000
+Epoch 235, weight, value: tensor([[-0.1662, -0.0267,  0.0198,  ..., -0.0315, -0.0726, -0.1130],
+        [-0.0379, -0.0777,  0.0249,  ...,  0.0364, -0.0103, -0.0800],
+        [-0.0526, -0.0655, -0.0918,  ...,  0.0460, -0.0426, -0.0864],
+        ...,
+        [-0.0572,  0.0285,  0.0216,  ...,  0.0338, -0.0470, -0.0897],
+        [-0.0705, -0.0092,  0.0221,  ...,  0.0634, -0.0408, -0.1466],
+        [ 0.0505,  0.0536, -0.0445,  ..., -0.1052, -0.0205,  0.0639]],
+       device='cuda:0'), grad: tensor([[ 6.6459e-05,  2.8491e-04,  1.5676e-04,  ...,  4.2200e-05,
+          6.2418e-04, -1.3149e-04],
+        [-8.7214e-04, -4.0665e-03,  2.5129e-04,  ..., -7.2813e-04,
+         -3.9406e-03, -6.3038e-04],
+        [ 1.1826e-04, -8.5640e-04, -2.4986e-03,  ...,  7.4744e-05,
+         -3.3131e-03, -4.3660e-05],
+        ...,
+        [ 8.2076e-05,  9.4461e-04,  4.2129e-04,  ...,  6.7294e-05,
+          1.3924e-03,  1.5581e-04],
+        [-1.5059e-03,  5.8079e-04, -3.3188e-04,  ...,  7.2718e-05,
+          8.9836e-04, -3.1924e-04],
+        [ 1.2529e-04,  3.9825e-03,  2.7370e-04,  ...,  5.9277e-05,
+          1.2703e-03,  9.4986e-04]], device='cuda:0')
+Epoch 235, bias, value: tensor([-0.0494,  0.0141,  0.0037, -0.0068, -0.0054,  0.0035, -0.0148,  0.0348,
+        -0.0115,  0.0128], device='cuda:0'), grad: tensor([ 0.0149, -0.0574, -0.0481,  0.0269, -0.0102,  0.0312, -0.0105,  0.0354,
+        -0.0161,  0.0340], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 234, time 214.64, cls_loss 0.5520 cls_loss_mapping 0.0044 cls_loss_causal 0.4751 re_mapping 0.0114 re_causal 0.0257 /// teacc 98.85 lr 0.00010000
+Epoch 236, weight, value: tensor([[-0.1666, -0.0257,  0.0207,  ..., -0.0311, -0.0724, -0.1139],
+        [-0.0392, -0.0769,  0.0243,  ...,  0.0365, -0.0097, -0.0804],
+        [-0.0536, -0.0657, -0.0922,  ...,  0.0463, -0.0422, -0.0865],
+        ...,
+        [-0.0574,  0.0282,  0.0205,  ...,  0.0336, -0.0471, -0.0883],
+        [-0.0718, -0.0093,  0.0218,  ...,  0.0633, -0.0409, -0.1474],
+        [ 0.0510,  0.0535, -0.0452,  ..., -0.1048, -0.0212,  0.0638]],
+       device='cuda:0'), grad: tensor([[ 6.4087e-04,  2.6870e-04,  7.1859e-04,  ...,  0.0000e+00,
+          3.6247e-06,  2.4271e-04],
+        [ 1.3977e-05,  2.5177e-04,  1.1183e-05,  ...,  1.8626e-09,
+          1.0189e-06,  7.3910e-06],
+        [ 9.9087e-04, -3.3360e-03,  1.1520e-03,  ...,  1.8626e-09,
+          4.1202e-06,  3.9601e-04],
+        ...,
+        [ 1.5945e-03,  4.4227e-04,  7.6437e-04,  ..., -1.1362e-07,
+          2.3276e-05,  6.8998e-04],
+        [ 7.3719e-04,  1.0786e-03,  7.8249e-04,  ...,  0.0000e+00,
+          2.2188e-05,  2.9469e-04],
+        [-1.4977e-02,  4.5586e-04, -1.6205e-02,  ...,  9.8720e-08,
+         -1.1450e-04, -5.5084e-03]], device='cuda:0')
+Epoch 236, bias, value: tensor([-0.0490,  0.0139,  0.0039, -0.0063, -0.0042,  0.0043, -0.0163,  0.0341,
+        -0.0123,  0.0130], device='cuda:0'), grad: tensor([ 0.0109,  0.0077, -0.0057,  0.0053,  0.0148, -0.0095,  0.0076, -0.0045,
+        -0.0211, -0.0054], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 235, time 214.66, cls_loss 0.5689 cls_loss_mapping 0.0055 cls_loss_causal 0.5078 re_mapping 0.0111 re_causal 0.0258 /// teacc 98.66 lr 0.00010000
+Epoch 237, weight, value: tensor([[-0.1693, -0.0247,  0.0193,  ..., -0.0316, -0.0724, -0.1141],
+        [-0.0388, -0.0757,  0.0243,  ...,  0.0367, -0.0099, -0.0799],
+        [-0.0517, -0.0662, -0.0933,  ...,  0.0464, -0.0415, -0.0872],
+        ...,
+        [-0.0578,  0.0281,  0.0208,  ...,  0.0336, -0.0472, -0.0884],
+        [-0.0711, -0.0097,  0.0217,  ...,  0.0632, -0.0413, -0.1473],
+        [ 0.0495,  0.0538, -0.0444,  ..., -0.1051, -0.0211,  0.0623]],
+       device='cuda:0'), grad: tensor([[ 1.8921e-03, -2.8954e-03, -5.9700e-04,  ..., -1.6050e-03,
+         -5.7936e-04,  1.0765e-04],
+        [ 3.0184e-04,  3.4790e-03,  8.0299e-04,  ...,  2.7084e-04,
+          2.7132e-04, -4.3303e-05],
+        [ 1.1187e-03, -1.2665e-03, -8.4534e-03,  ..., -9.0837e-04,
+         -9.1219e-04, -2.9969e-04],
+        ...,
+        [ 5.9128e-04,  5.6038e-03,  1.4935e-03,  ...,  3.5739e-04,
+          1.2106e-04,  8.8215e-04],
+        [ 3.7155e-03,  3.4218e-03,  1.5316e-03,  ...,  6.9284e-04,
+          1.1051e-04,  1.6632e-03],
+        [-1.2474e-03,  3.5286e-03, -3.9721e-04,  ...,  1.7560e-04,
+          1.0449e-04, -3.0575e-03]], device='cuda:0')
+Epoch 237, bias, value: tensor([-0.0489,  0.0143,  0.0037, -0.0059, -0.0040,  0.0042, -0.0172,  0.0342,
+        -0.0124,  0.0129], device='cuda:0'), grad: tensor([-0.0109,  0.0185, -0.0483,  0.0023,  0.0134, -0.0167,  0.0081,  0.0240,
+        -0.0044,  0.0140], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 236, time 214.64, cls_loss 0.5700 cls_loss_mapping 0.0059 cls_loss_causal 0.5048 re_mapping 0.0112 re_causal 0.0253 /// teacc 98.73 lr 0.00010000
+Epoch 238, weight, value: tensor([[-0.1691, -0.0237,  0.0192,  ..., -0.0317, -0.0726, -0.1137],
+        [-0.0387, -0.0734,  0.0251,  ...,  0.0366, -0.0098, -0.0800],
+        [-0.0520, -0.0682, -0.0940,  ...,  0.0465, -0.0414, -0.0874],
+        ...,
+        [-0.0581,  0.0289,  0.0207,  ...,  0.0339, -0.0464, -0.0890],
+        [-0.0713, -0.0084,  0.0209,  ...,  0.0630, -0.0418, -0.1465],
+        [ 0.0504,  0.0522, -0.0436,  ..., -0.1050, -0.0207,  0.0624]],
+       device='cuda:0'), grad: tensor([[ 1.5414e-04,  3.6359e-04,  3.0708e-04,  ...,  2.4939e-04,
+          1.0118e-03,  2.5010e-04],
+        [-3.2520e-04, -7.9250e-04, -1.5163e-04,  ..., -6.1369e-04,
+          1.4286e-03,  1.7118e-06],
+        [ 4.3124e-05,  1.0017e-02,  4.0197e-04,  ...,  1.5364e-03,
+          4.5128e-03,  1.4611e-05],
+        ...,
+        [ 3.3045e-04, -8.4076e-03,  1.5192e-03,  ...,  1.8048e-04,
+          2.1782e-03,  3.7879e-05],
+        [ 6.5684e-05,  3.6526e-04,  7.1406e-05,  ...,  1.8775e-04,
+          2.7142e-03,  1.5259e-04],
+        [-3.1799e-05,  1.6332e-04, -3.8738e-03,  ..., -1.3008e-03,
+          3.5286e-04, -8.1897e-05]], device='cuda:0')
+Epoch 238, bias, value: tensor([-0.0488,  0.0144,  0.0029, -0.0059, -0.0038,  0.0035, -0.0176,  0.0349,
+        -0.0121,  0.0134], device='cuda:0'), grad: tensor([ 0.0125,  0.0039,  0.0387, -0.0171, -0.0517,  0.0029,  0.0076, -0.0035,
+         0.0131, -0.0064], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 237, time 214.49, cls_loss 0.5797 cls_loss_mapping 0.0050 cls_loss_causal 0.5136 re_mapping 0.0110 re_causal 0.0256 /// teacc 98.85 lr 0.00010000
+Epoch 239, weight, value: tensor([[-0.1690, -0.0245,  0.0193,  ..., -0.0316, -0.0724, -0.1143],
+        [-0.0384, -0.0729,  0.0269,  ...,  0.0365, -0.0105, -0.0808],
+        [-0.0520, -0.0683, -0.0953,  ...,  0.0462, -0.0419, -0.0869],
+        ...,
+        [-0.0581,  0.0279,  0.0205,  ...,  0.0343, -0.0470, -0.0887],
+        [-0.0717, -0.0089,  0.0217,  ...,  0.0636, -0.0412, -0.1468],
+        [ 0.0504,  0.0518, -0.0438,  ..., -0.1048, -0.0210,  0.0625]],
+       device='cuda:0'), grad: tensor([[ 5.7936e-04, -5.2691e-04, -2.1267e-03,  ...,  5.5760e-05,
+          6.8045e-04, -4.0474e-03],
+        [ 9.5272e-04,  4.9496e-04,  1.4696e-03,  ...,  2.2352e-04,
+          1.2875e-03,  2.8300e-04],
+        [-2.6584e-04,  2.5249e-04, -8.3447e-04,  ...,  1.2755e-04,
+         -2.8076e-02,  7.7868e-04],
+        ...,
+        [-1.1311e-03,  5.7650e-04, -2.4319e-03,  ..., -8.2016e-04,
+         -3.1776e-03,  3.8719e-04],
+        [-3.3021e-04,  1.0262e-03, -1.5860e-03,  ...,  8.4698e-05,
+          1.2314e-02,  8.5592e-04],
+        [-1.3714e-03,  1.2465e-03,  9.8705e-05,  ...,  9.6917e-05,
+          8.9025e-04, -1.4544e-04]], device='cuda:0')
+Epoch 239, bias, value: tensor([-0.0481,  0.0141,  0.0041, -0.0042, -0.0043,  0.0022, -0.0165,  0.0343,
+        -0.0121,  0.0115], device='cuda:0'), grad: tensor([ 0.0011, -0.0107, -0.0057,  0.0435,  0.0024,  0.0112, -0.0329, -0.0310,
+         0.0063,  0.0157], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 238, time 214.88, cls_loss 0.5803 cls_loss_mapping 0.0045 cls_loss_causal 0.5061 re_mapping 0.0116 re_causal 0.0261 /// teacc 98.76 lr 0.00010000
+Epoch 240, weight, value: tensor([[-0.1704, -0.0237,  0.0196,  ..., -0.0312, -0.0723, -0.1139],
+        [-0.0373, -0.0736,  0.0269,  ...,  0.0368, -0.0109, -0.0808],
+        [-0.0517, -0.0690, -0.0951,  ...,  0.0474, -0.0424, -0.0861],
+        ...,
+        [-0.0580,  0.0288,  0.0194,  ...,  0.0333, -0.0478, -0.0887],
+        [-0.0723, -0.0093,  0.0212,  ...,  0.0639, -0.0417, -0.1480],
+        [ 0.0511,  0.0520, -0.0421,  ..., -0.1051, -0.0206,  0.0631]],
+       device='cuda:0'), grad: tensor([[ 2.0456e-04,  3.4237e-04,  2.8682e-04,  ..., -2.5916e-04,
+          1.3905e-03,  3.9840e-04],
+        [ 9.6202e-05, -9.8610e-04,  2.1038e-03,  ...,  3.4332e-04,
+          7.5674e-04,  4.8828e-04],
+        [ 4.2677e-04,  9.7466e-04,  1.6413e-03,  ...,  1.7238e-04,
+          3.4428e-03,  1.3094e-03],
+        ...,
+        [ 5.3930e-04, -1.2903e-03, -9.1553e-03,  ..., -1.9228e-04,
+          3.0155e-03,  3.4690e-04],
+        [ 1.7416e-04,  2.3556e-04,  1.9372e-05,  ..., -5.9307e-05,
+         -1.5503e-02,  4.0221e-04],
+        [-2.9588e-04,  7.1478e-04,  3.4943e-03,  ...,  2.5892e-04,
+          4.3297e-04,  4.3035e-05]], device='cuda:0')
+Epoch 240, bias, value: tensor([-0.0482,  0.0142,  0.0045, -0.0054, -0.0035,  0.0032, -0.0178,  0.0343,
+        -0.0123,  0.0122], device='cuda:0'), grad: tensor([-0.0187,  0.0346,  0.0188,  0.0015,  0.0020,  0.0122, -0.0124,  0.0097,
+        -0.0684,  0.0207], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 239, time 214.86, cls_loss 0.5589 cls_loss_mapping 0.0040 cls_loss_causal 0.4848 re_mapping 0.0114 re_causal 0.0267 /// teacc 98.76 lr 0.00010000
+Epoch 241, weight, value: tensor([[-0.1711, -0.0236,  0.0194,  ..., -0.0314, -0.0716, -0.1146],
+        [-0.0380, -0.0736,  0.0264,  ...,  0.0374, -0.0097, -0.0809],
+        [-0.0515, -0.0688, -0.0962,  ...,  0.0471, -0.0432, -0.0861],
+        ...,
+        [-0.0558,  0.0281,  0.0193,  ...,  0.0330, -0.0465, -0.0889],
+        [-0.0728, -0.0106,  0.0221,  ...,  0.0637, -0.0420, -0.1491],
+        [ 0.0518,  0.0531, -0.0428,  ..., -0.1050, -0.0208,  0.0645]],
+       device='cuda:0'), grad: tensor([[ 1.5533e-04,  3.2574e-05,  2.5988e-04,  ..., -2.7657e-04,
+          3.7041e-03,  1.3900e-04],
+        [-1.8156e-04, -9.9719e-05,  1.0290e-03,  ..., -3.3259e-04,
+          4.6730e-05,  3.6049e-04],
+        [ 4.9973e-04,  1.9491e-04,  3.1395e-03,  ...,  1.9598e-04,
+          2.2984e-03,  5.1022e-04],
+        ...,
+        [ 4.3058e-04, -6.2525e-05,  7.0572e-04,  ...,  2.2495e-04,
+          1.0860e-04,  6.6137e-04],
+        [ 4.4441e-04,  6.8009e-05,  1.1757e-02,  ...,  2.3162e-04,
+          2.3937e-03,  2.2233e-04],
+        [-1.2465e-03,  4.6641e-05, -2.9850e-03,  ..., -1.2455e-03,
+          1.2217e-03, -3.3779e-03]], device='cuda:0')
+Epoch 241, bias, value: tensor([-0.0478,  0.0140,  0.0040, -0.0054, -0.0040,  0.0038, -0.0168,  0.0341,
+        -0.0133,  0.0125], device='cuda:0'), grad: tensor([-0.0124,  0.0179,  0.0214, -0.0582, -0.0230,  0.0231, -0.0335,  0.0159,
+         0.0510, -0.0022], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 240, time 215.03, cls_loss 0.5523 cls_loss_mapping 0.0041 cls_loss_causal 0.4733 re_mapping 0.0108 re_causal 0.0239 /// teacc 98.81 lr 0.00010000
+Epoch 242, weight, value: tensor([[-0.1701, -0.0237,  0.0194,  ..., -0.0318, -0.0718, -0.1136],
+        [-0.0374, -0.0744,  0.0270,  ...,  0.0382, -0.0094, -0.0812],
+        [-0.0516, -0.0672, -0.0959,  ...,  0.0468, -0.0439, -0.0868],
+        ...,
+        [-0.0565,  0.0280,  0.0199,  ...,  0.0325, -0.0458, -0.0893],
+        [-0.0718, -0.0094,  0.0213,  ...,  0.0633, -0.0417, -0.1487],
+        [ 0.0512,  0.0529, -0.0437,  ..., -0.1049, -0.0214,  0.0654]],
+       device='cuda:0'), grad: tensor([[ 2.9731e-04,  8.0824e-05,  3.7479e-04,  ...,  7.1859e-04,
+          8.8024e-04,  3.6001e-04],
+        [ 3.9315e-04,  1.5664e-04,  1.2350e-03,  ...,  4.9877e-04,
+          3.5477e-04,  4.5514e-04],
+        [-4.8828e-03, -2.7943e-04, -1.6708e-03,  ..., -2.8725e-03,
+          5.6648e-04, -7.3128e-03],
+        ...,
+        [-3.2692e-03,  1.9193e-04, -1.9426e-03,  ..., -2.2411e-03,
+          8.9216e-04, -2.3499e-03],
+        [ 8.9121e-04,  9.9945e-04,  1.1520e-03,  ..., -1.8156e-04,
+          3.5076e-03,  1.3151e-03],
+        [ 1.7548e-03, -3.5223e-06,  2.2488e-03,  ...,  2.1896e-03,
+          7.2622e-04,  1.0309e-03]], device='cuda:0')
+Epoch 242, bias, value: tensor([-0.0475,  0.0147,  0.0026, -0.0048, -0.0030,  0.0048, -0.0170,  0.0340,
+        -0.0140,  0.0115], device='cuda:0'), grad: tensor([ 0.0170,  0.0203, -0.0701,  0.0156, -0.0148,  0.0213, -0.0154,  0.0097,
+        -0.0074,  0.0237], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 241, time 214.87, cls_loss 0.5649 cls_loss_mapping 0.0035 cls_loss_causal 0.4829 re_mapping 0.0116 re_causal 0.0261 /// teacc 98.78 lr 0.00010000
+Epoch 243, weight, value: tensor([[-0.1718, -0.0230,  0.0205,  ..., -0.0317, -0.0717, -0.1130],
+        [-0.0378, -0.0748,  0.0266,  ...,  0.0385, -0.0092, -0.0822],
+        [-0.0524, -0.0675, -0.0953,  ...,  0.0471, -0.0440, -0.0858],
+        ...,
+        [-0.0575,  0.0285,  0.0194,  ...,  0.0329, -0.0461, -0.0887],
+        [-0.0691, -0.0092,  0.0217,  ...,  0.0642, -0.0420, -0.1490],
+        [ 0.0507,  0.0546, -0.0442,  ..., -0.1056, -0.0210,  0.0648]],
+       device='cuda:0'), grad: tensor([[ 1.3924e-04,  8.3387e-05,  6.8378e-04,  ..., -3.3684e-03,
+          7.3385e-04,  2.8491e-05],
+        [ 1.4663e-04,  1.5104e-04,  3.7491e-05,  ...,  4.0588e-03,
+          4.7833e-05,  8.8513e-05],
+        [-4.0932e-03,  1.8358e-04, -1.9741e-03,  ..., -4.1533e-04,
+         -1.7691e-03, -2.5597e-03],
+        ...,
+        [-1.1406e-02, -1.7014e-02,  2.4819e-04,  ...,  2.6665e-03,
+         -6.2981e-03, -6.1722e-03],
+        [ 3.3360e-03,  1.5602e-03,  1.1241e-04,  ..., -2.7008e-03,
+          2.7442e-04,  1.9608e-03],
+        [ 1.8204e-02,  6.1150e-03,  6.0081e-04,  ...,  3.1528e-03,
+          6.4125e-03,  1.0208e-02]], device='cuda:0')
+Epoch 243, bias, value: tensor([-0.0470,  0.0146,  0.0039, -0.0060, -0.0032,  0.0049, -0.0177,  0.0342,
+        -0.0137,  0.0113], device='cuda:0'), grad: tensor([-0.0107,  0.0239, -0.0002, -0.0005, -0.0027,  0.0181, -0.0254, -0.0407,
+        -0.0090,  0.0472], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 242, time 214.68, cls_loss 0.5995 cls_loss_mapping 0.0041 cls_loss_causal 0.5168 re_mapping 0.0112 re_causal 0.0262 /// teacc 98.74 lr 0.00010000
+Epoch 244, weight, value: tensor([[-0.1718, -0.0227,  0.0206,  ..., -0.0310, -0.0715, -0.1138],
+        [-0.0351, -0.0751,  0.0269,  ...,  0.0370, -0.0093, -0.0823],
+        [-0.0521, -0.0661, -0.0963,  ...,  0.0486, -0.0447, -0.0861],
+        ...,
+        [-0.0580,  0.0289,  0.0205,  ...,  0.0321, -0.0464, -0.0877],
+        [-0.0682, -0.0093,  0.0219,  ...,  0.0645, -0.0428, -0.1498],
+        [ 0.0514,  0.0550, -0.0437,  ..., -0.1068, -0.0218,  0.0654]],
+       device='cuda:0'), grad: tensor([[ 1.2767e-04,  9.6416e-04,  1.5049e-03,  ...,  2.1591e-03,
+          1.5011e-03,  1.1027e-04],
+        [ 1.3900e-04,  8.1396e-04,  3.5071e-04,  ..., -1.9875e-03,
+          1.2379e-03,  1.4400e-04],
+        [ 1.4391e-03,  5.5552e-04,  1.9207e-03,  ...,  3.1776e-03,
+          2.2793e-03,  2.7728e-04],
+        ...,
+        [ 4.4227e-04, -1.3285e-03,  9.8991e-04,  ...,  2.3575e-03,
+          1.1997e-03,  5.6684e-05],
+        [ 1.3466e-03, -1.2608e-03,  4.0131e-03,  ...,  1.8463e-03,
+          1.9741e-03,  1.7405e-03],
+        [-5.3864e-03,  1.3332e-03, -7.4196e-03,  ..., -1.9836e-03,
+         -3.6087e-03,  5.3215e-04]], device='cuda:0')
+Epoch 244, bias, value: tensor([-0.0467,  0.0138,  0.0037, -0.0057, -0.0025,  0.0044, -0.0175,  0.0339,
+        -0.0137,  0.0117], device='cuda:0'), grad: tensor([ 0.0267, -0.0055,  0.0245, -0.0583,  0.0286,  0.0125, -0.0165,  0.0215,
+        -0.0077, -0.0258], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 243, time 215.04, cls_loss 0.5673 cls_loss_mapping 0.0048 cls_loss_causal 0.4999 re_mapping 0.0112 re_causal 0.0263 /// teacc 98.74 lr 0.00010000
+Epoch 245, weight, value: tensor([[-0.1718, -0.0222,  0.0207,  ..., -0.0314, -0.0719, -0.1126],
+        [-0.0352, -0.0756,  0.0261,  ...,  0.0364, -0.0104, -0.0830],
+        [-0.0512, -0.0651, -0.0974,  ...,  0.0486, -0.0447, -0.0869],
+        ...,
+        [-0.0583,  0.0308,  0.0201,  ...,  0.0324, -0.0450, -0.0873],
+        [-0.0692, -0.0095,  0.0213,  ...,  0.0650, -0.0431, -0.1498],
+        [ 0.0523,  0.0549, -0.0424,  ..., -0.1068, -0.0215,  0.0661]],
+       device='cuda:0'), grad: tensor([[ 1.1712e-04, -7.2384e-04,  7.4208e-06,  ..., -4.4847e-04,
+          9.8765e-05, -1.3828e-04],
+        [ 7.1466e-05, -1.8075e-05,  9.0301e-06,  ..., -1.0586e-03,
+          1.0151e-04,  9.6440e-05],
+        [ 3.4237e-04,  3.6144e-04,  3.2067e-04,  ...,  5.9748e-04,
+          4.5633e-04,  4.2796e-04],
+        ...,
+        [-2.0294e-03, -5.0278e-03, -2.0981e-03,  ..., -2.5806e-03,
+         -4.1351e-03, -2.3746e-03],
+        [ 8.9025e-04,  4.5085e-04,  7.7581e-04,  ...,  1.1082e-03,
+          1.0996e-03,  9.1314e-04],
+        [ 1.4794e-04,  4.5013e-03,  1.2803e-04,  ...,  5.2357e-04,
+          1.1212e-04,  1.5812e-03]], device='cuda:0')
+Epoch 245, bias, value: tensor([-0.0477,  0.0142,  0.0035, -0.0063, -0.0025,  0.0043, -0.0178,  0.0346,
+        -0.0141,  0.0131], device='cuda:0'), grad: tensor([ 0.0095, -0.0132,  0.0162, -0.0180,  0.0140,  0.0236,  0.0110, -0.0257,
+        -0.0115, -0.0059], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 244, time 214.76, cls_loss 0.5565 cls_loss_mapping 0.0050 cls_loss_causal 0.4938 re_mapping 0.0109 re_causal 0.0248 /// teacc 98.77 lr 0.00010000
+Epoch 246, weight, value: tensor([[-0.1724, -0.0230,  0.0217,  ..., -0.0306, -0.0710, -0.1118],
+        [-0.0345, -0.0768,  0.0274,  ...,  0.0367, -0.0106, -0.0837],
+        [-0.0491, -0.0635, -0.0979,  ...,  0.0481, -0.0434, -0.0868],
+        ...,
+        [-0.0601,  0.0314,  0.0188,  ...,  0.0320, -0.0454, -0.0871],
+        [-0.0711, -0.0101,  0.0211,  ...,  0.0646, -0.0437, -0.1496],
+        [ 0.0532,  0.0546, -0.0426,  ..., -0.1079, -0.0203,  0.0645]],
+       device='cuda:0'), grad: tensor([[ 1.4460e-04,  1.6427e-04, -8.2135e-05,  ...,  9.7930e-05,
+          7.0512e-05,  2.6798e-04],
+        [ 7.5519e-05, -1.4954e-03,  1.4210e-04,  ...,  8.1241e-05,
+          7.8499e-05,  7.5936e-05],
+        [ 4.8447e-04,  2.7966e-04,  6.9809e-04,  ...,  1.6320e-04,
+          2.3258e-04,  1.6441e-03],
+        ...,
+        [-3.4308e-04, -3.8123e-04,  1.2767e-04,  ..., -4.3797e-04,
+         -4.6790e-05, -1.0023e-03],
+        [ 4.5433e-03,  1.3685e-03, -3.9220e-04,  ...,  9.0957e-05,
+          6.3610e-04,  1.0614e-03],
+        [-1.8661e-02, -3.0727e-03, -1.3580e-03,  ...,  3.5715e-04,
+          2.2745e-04, -6.3782e-03]], device='cuda:0')
+Epoch 246, bias, value: tensor([-0.0477,  0.0150,  0.0033, -0.0067, -0.0022,  0.0044, -0.0177,  0.0338,
+        -0.0138,  0.0127], device='cuda:0'), grad: tensor([-0.0249,  0.0115,  0.0259,  0.0189,  0.0150, -0.0046,  0.0253,  0.0083,
+        -0.0116, -0.0638], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 245, time 214.97, cls_loss 0.5620 cls_loss_mapping 0.0054 cls_loss_causal 0.4884 re_mapping 0.0113 re_causal 0.0253 /// teacc 98.73 lr 0.00010000
+Epoch 247, weight, value: tensor([[-0.1740, -0.0232,  0.0219,  ..., -0.0303, -0.0717, -0.1125],
+        [-0.0339, -0.0765,  0.0274,  ...,  0.0374, -0.0124, -0.0835],
+        [-0.0503, -0.0630, -0.0976,  ...,  0.0489, -0.0422, -0.0882],
+        ...,
+        [-0.0591,  0.0306,  0.0189,  ...,  0.0320, -0.0452, -0.0866],
+        [-0.0725, -0.0089,  0.0212,  ...,  0.0645, -0.0448, -0.1495],
+        [ 0.0535,  0.0542, -0.0428,  ..., -0.1086, -0.0206,  0.0646]],
+       device='cuda:0'), grad: tensor([[ 2.4717e-06,  4.3082e-04,  1.2016e-03,  ...,  3.0994e-04,
+          3.2592e-04,  3.2991e-05],
+        [ 2.8625e-05,  3.9488e-05,  8.6641e-04,  ...,  4.2081e-04,
+          7.8821e-04,  2.2382e-05],
+        [ 4.8615e-06,  5.1308e-04, -5.2490e-03,  ..., -3.9458e-05,
+         -2.8858e-03,  2.4170e-05],
+        ...,
+        [ 1.5903e-04,  9.9945e-03,  1.0185e-03,  ..., -3.2425e-04,
+          2.2805e-04, -2.5606e-04],
+        [ 9.0241e-05,  1.9503e-04, -8.6260e-04,  ..., -9.3555e-04,
+          1.9026e-04,  2.1517e-05],
+        [ 1.3475e-03, -1.1826e-02,  2.1229e-03,  ...,  5.6171e-04,
+          1.0109e-03,  1.5354e-04]], device='cuda:0')
+Epoch 247, bias, value: tensor([-0.0477,  0.0141,  0.0042, -0.0075, -0.0027,  0.0053, -0.0177,  0.0346,
+        -0.0141,  0.0128], device='cuda:0'), grad: tensor([ 0.0121,  0.0157, -0.0161,  0.0122,  0.0081, -0.0237,  0.0088,  0.0293,
+        -0.0404, -0.0059], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 246, time 214.83, cls_loss 0.5446 cls_loss_mapping 0.0050 cls_loss_causal 0.4747 re_mapping 0.0107 re_causal 0.0258 /// teacc 98.77 lr 0.00010000
+Epoch 248, weight, value: tensor([[-0.1743, -0.0201,  0.0213,  ..., -0.0305, -0.0732, -0.1124],
+        [-0.0350, -0.0766,  0.0277,  ...,  0.0368, -0.0131, -0.0840],
+        [-0.0506, -0.0637, -0.0985,  ...,  0.0497, -0.0428, -0.0879],
+        ...,
+        [-0.0602,  0.0304,  0.0185,  ...,  0.0313, -0.0437, -0.0873],
+        [-0.0721, -0.0092,  0.0213,  ...,  0.0648, -0.0443, -0.1494],
+        [ 0.0540,  0.0540, -0.0437,  ..., -0.1081, -0.0203,  0.0646]],
+       device='cuda:0'), grad: tensor([[ 3.0065e-04,  1.1995e-05, -3.9711e-03,  ..., -5.5580e-03,
+          7.0371e-06, -6.5374e-04],
+        [ 1.0115e-04, -1.1861e-04,  3.1567e-04,  ...,  9.5510e-04,
+          4.6492e-06,  7.0453e-05],
+        [ 3.4451e-04, -3.0708e-04,  2.2614e-04,  ..., -1.2350e-04,
+          3.0756e-05,  1.7560e-04],
+        ...,
+        [-2.0142e-03, -7.8821e-04,  9.8586e-05,  ...,  8.8024e-04,
+          1.2927e-05, -6.3229e-04],
+        [ 8.7309e-04,  1.0738e-03,  5.0402e-04,  ...,  1.5078e-03,
+          1.1653e-04,  2.9182e-04],
+        [-8.5258e-04,  5.9795e-04,  1.2875e-04,  ...,  9.5844e-05,
+         -2.2078e-04,  1.2934e-04]], device='cuda:0')
+Epoch 248, bias, value: tensor([-0.0467,  0.0134,  0.0052, -0.0075, -0.0033,  0.0054, -0.0190,  0.0339,
+        -0.0123,  0.0122], device='cuda:0'), grad: tensor([-0.0705,  0.0160, -0.0155,  0.0162,  0.0189, -0.0194,  0.0200, -0.0091,
+         0.0253,  0.0183], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 247, time 214.57, cls_loss 0.5555 cls_loss_mapping 0.0052 cls_loss_causal 0.4890 re_mapping 0.0109 re_causal 0.0243 /// teacc 98.79 lr 0.00010000
+Epoch 249, weight, value: tensor([[-0.1750, -0.0201,  0.0218,  ..., -0.0306, -0.0736, -0.1128],
+        [-0.0364, -0.0770,  0.0281,  ...,  0.0363, -0.0127, -0.0848],
+        [-0.0508, -0.0642, -0.0997,  ...,  0.0488, -0.0432, -0.0877],
+        ...,
+        [-0.0599,  0.0293,  0.0191,  ...,  0.0311, -0.0433, -0.0875],
+        [-0.0719, -0.0097,  0.0208,  ...,  0.0654, -0.0442, -0.1497],
+        [ 0.0544,  0.0547, -0.0428,  ..., -0.1071, -0.0195,  0.0652]],
+       device='cuda:0'), grad: tensor([[ 1.5235e-04,  2.8331e-06,  1.2617e-03,  ...,  1.2321e-03,
+          4.3964e-04,  6.6280e-05],
+        [ 4.2057e-04,  6.5640e-06,  2.6727e-04,  ..., -7.9727e-04,
+          1.2636e-04,  4.2588e-05],
+        [ 1.0700e-03,  3.8385e-05,  1.2980e-03,  ...,  1.8063e-03,
+          1.1196e-03,  2.4891e-04],
+        ...,
+        [-1.5610e-02,  4.9949e-05, -1.2741e-02,  ..., -9.8495e-03,
+         -2.8286e-03, -2.2259e-03],
+        [ 1.4124e-03,  2.0027e-04,  1.5211e-03,  ..., -1.3990e-03,
+          9.6023e-05,  2.9159e-04],
+        [ 1.3672e-02,  1.1653e-04,  1.2512e-02,  ...,  6.7940e-03,
+          7.2861e-04,  1.5507e-03]], device='cuda:0')
+Epoch 249, bias, value: tensor([-0.0465,  0.0141,  0.0047, -0.0071, -0.0037,  0.0047, -0.0190,  0.0346,
+        -0.0134,  0.0127], device='cuda:0'), grad: tensor([ 0.0152, -0.0214,  0.0201, -0.0156,  0.0142, -0.0318,  0.0147, -0.0322,
+         0.0215,  0.0152], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 248, time 215.00, cls_loss 0.5550 cls_loss_mapping 0.0044 cls_loss_causal 0.4919 re_mapping 0.0107 re_causal 0.0246 /// teacc 98.79 lr 0.00010000
+Epoch 250, weight, value: tensor([[-0.1751, -0.0203,  0.0228,  ..., -0.0301, -0.0733, -0.1134],
+        [-0.0371, -0.0776,  0.0285,  ...,  0.0364, -0.0115, -0.0850],
+        [-0.0502, -0.0637, -0.1001,  ...,  0.0484, -0.0440, -0.0864],
+        ...,
+        [-0.0602,  0.0290,  0.0173,  ...,  0.0304, -0.0440, -0.0881],
+        [-0.0726, -0.0089,  0.0215,  ...,  0.0653, -0.0433, -0.1496],
+        [ 0.0543,  0.0540, -0.0416,  ..., -0.1067, -0.0198,  0.0649]],
+       device='cuda:0'), grad: tensor([[-3.1403e-02,  5.5820e-05, -1.8191e-04,  ..., -4.4174e-03,
+         -7.0477e-04,  6.1631e-05],
+        [ 3.0255e-04,  5.3644e-05, -1.4901e-05,  ...,  7.6103e-04,
+          3.2280e-06,  3.7849e-05],
+        [ 7.6723e-04,  3.1972e-04,  2.9847e-05,  ...,  4.5800e-04,
+          1.6832e-04,  1.2106e-04],
+        ...,
+        [-1.5087e-03, -9.4414e-05,  1.8626e-05,  ..., -4.4098e-03,
+          7.2718e-06,  4.2462e-04],
+        [ 5.4169e-04, -7.3075e-05,  6.6459e-05,  ...,  3.3402e-04,
+          2.8572e-03,  3.3641e-04],
+        [-5.6601e-04, -8.3160e-04,  1.9717e-04,  ...,  7.1907e-04,
+          1.5354e-04, -1.7900e-03]], device='cuda:0')
+Epoch 250, bias, value: tensor([-0.0473,  0.0146,  0.0051, -0.0064, -0.0040,  0.0043, -0.0180,  0.0333,
+        -0.0133,  0.0129], device='cuda:0'), grad: tensor([-0.0253, -0.0578,  0.0324, -0.0018,  0.0007, -0.0036,  0.0558, -0.0042,
+         0.0560, -0.0524], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 249, time 214.46, cls_loss 0.5453 cls_loss_mapping 0.0048 cls_loss_causal 0.4740 re_mapping 0.0110 re_causal 0.0248 /// teacc 98.77 lr 0.00010000
+Epoch 251, weight, value: tensor([[-0.1741, -0.0205,  0.0242,  ..., -0.0304, -0.0731, -0.1135],
+        [-0.0386, -0.0781,  0.0275,  ...,  0.0371, -0.0119, -0.0853],
+        [-0.0504, -0.0638, -0.1006,  ...,  0.0468, -0.0436, -0.0871],
+        ...,
+        [-0.0605,  0.0297,  0.0178,  ...,  0.0309, -0.0437, -0.0881],
+        [-0.0719, -0.0093,  0.0222,  ...,  0.0666, -0.0426, -0.1497],
+        [ 0.0540,  0.0540, -0.0426,  ..., -0.1079, -0.0202,  0.0643]],
+       device='cuda:0'), grad: tensor([[ 1.6332e-05,  2.0466e-03,  1.1873e-04,  ..., -7.6771e-04,
+         -5.5552e-05,  3.2063e-03],
+        [ 2.2631e-06, -2.0504e-03, -4.2877e-03,  ..., -1.7986e-03,
+          1.3679e-05, -3.5458e-03],
+        [ 5.6028e-06,  1.7607e-04,  8.1837e-05,  ...,  1.0319e-03,
+          1.1420e-04,  1.5557e-04],
+        ...,
+        [ 1.3307e-05,  4.5371e-04,  3.0518e-03,  ...,  1.0109e-03,
+          1.4491e-05,  7.5102e-04],
+        [ 3.8357e-03,  9.2411e-04,  1.0328e-03,  ...,  3.5114e-03,
+          1.9574e-04,  2.2888e-03],
+        [-9.0866e-03, -1.0595e-03, -5.3673e-03,  ...,  5.5981e-04,
+          2.4939e-04, -2.8305e-03]], device='cuda:0')
+Epoch 251, bias, value: tensor([-0.0473,  0.0157,  0.0040, -0.0071, -0.0030,  0.0030, -0.0182,  0.0340,
+        -0.0129,  0.0130], device='cuda:0'), grad: tensor([-0.0030, -0.0468,  0.0124, -0.0143,  0.0373,  0.0030, -0.0140,  0.0156,
+         0.0217, -0.0119], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 250, time 214.89, cls_loss 0.5617 cls_loss_mapping 0.0045 cls_loss_causal 0.4965 re_mapping 0.0105 re_causal 0.0231 /// teacc 98.76 lr 0.00010000
+Epoch 252, weight, value: tensor([[-0.1740, -0.0204,  0.0244,  ..., -0.0304, -0.0745, -0.1135],
+        [-0.0392, -0.0771,  0.0281,  ...,  0.0381, -0.0125, -0.0845],
+        [-0.0507, -0.0621, -0.1004,  ...,  0.0482, -0.0433, -0.0873],
+        ...,
+        [-0.0598,  0.0291,  0.0176,  ...,  0.0298, -0.0435, -0.0886],
+        [-0.0731, -0.0102,  0.0217,  ...,  0.0652, -0.0419, -0.1507],
+        [ 0.0538,  0.0539, -0.0423,  ..., -0.1090, -0.0208,  0.0650]],
+       device='cuda:0'), grad: tensor([[ 1.0371e-05, -8.1584e-07,  5.0592e-04,  ...,  1.0052e-03,
+          2.0647e-04,  5.9456e-06],
+        [ 1.4178e-05,  1.6410e-06,  7.7391e-04,  ...,  1.6060e-03,
+          1.9658e-04,  1.5020e-05],
+        [ 4.7612e-04,  3.0607e-05,  9.2840e-04,  ...,  1.6193e-03,
+          1.0061e-04,  5.4884e-04],
+        ...,
+        [ 2.1589e-04,  1.1897e-04,  4.9353e-04,  ..., -1.1282e-03,
+          1.9622e-04,  1.0377e-04],
+        [ 8.0824e-04,  1.6466e-05, -4.5242e-03,  ..., -1.0056e-02,
+         -5.2404e-04,  3.0470e-04],
+        [-1.5802e-03, -2.3353e-04, -7.9679e-04,  ...,  8.9693e-04,
+         -1.1158e-03, -2.0146e-04]], device='cuda:0')
+Epoch 252, bias, value: tensor([-0.0476,  0.0163,  0.0042, -0.0079, -0.0036,  0.0040, -0.0183,  0.0343,
+        -0.0136,  0.0133], device='cuda:0'), grad: tensor([ 0.0143,  0.0213,  0.0150,  0.0108, -0.0066,  0.0193,  0.0164, -0.0180,
+        -0.0831,  0.0106], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 251, time 214.71, cls_loss 0.6169 cls_loss_mapping 0.0054 cls_loss_causal 0.5419 re_mapping 0.0107 re_causal 0.0260 /// teacc 98.75 lr 0.00010000
+Epoch 253, weight, value: tensor([[-0.1755, -0.0201,  0.0239,  ..., -0.0314, -0.0742, -0.1139],
+        [-0.0405, -0.0783,  0.0269,  ...,  0.0376, -0.0130, -0.0856],
+        [-0.0514, -0.0607, -0.1023,  ...,  0.0483, -0.0429, -0.0879],
+        ...,
+        [-0.0596,  0.0293,  0.0199,  ...,  0.0298, -0.0435, -0.0886],
+        [-0.0724, -0.0105,  0.0223,  ...,  0.0663, -0.0413, -0.1497],
+        [ 0.0537,  0.0545, -0.0420,  ..., -0.1105, -0.0212,  0.0644]],
+       device='cuda:0'), grad: tensor([[ 4.7851e-04,  1.2749e-02, -7.1526e-06,  ...,  7.3481e-04,
+          1.9133e-05,  1.5423e-06],
+        [ 6.4659e-04,  2.4068e-04,  4.0866e-06,  ...,  7.5006e-04,
+         -1.8347e-06,  4.4331e-07],
+        [ 1.8120e-04,  6.7282e-04, -3.7819e-05,  ...,  1.6413e-03,
+          1.9088e-05,  5.2601e-05],
+        ...,
+        [ 4.2648e-03, -5.5275e-03,  1.7090e-03,  ...,  2.6202e-04,
+         -1.3375e-04,  1.2875e-05],
+        [-2.4963e-02, -1.1871e-02,  8.8662e-06,  ..., -1.4038e-02,
+          8.1882e-06, -1.3506e-04],
+        [ 2.5988e-04,  7.8487e-04,  1.9759e-05,  ...,  5.2929e-04,
+          1.0855e-05,  2.9936e-05]], device='cuda:0')
+Epoch 253, bias, value: tensor([-0.0475,  0.0152,  0.0046, -0.0065, -0.0043,  0.0045, -0.0192,  0.0349,
+        -0.0135,  0.0129], device='cuda:0'), grad: tensor([ 0.0403,  0.0196,  0.0229, -0.0494,  0.0177, -0.0464,  0.0457, -0.0088,
+        -0.0632,  0.0217], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 252, time 214.89, cls_loss 0.5667 cls_loss_mapping 0.0048 cls_loss_causal 0.4989 re_mapping 0.0108 re_causal 0.0252 /// teacc 98.62 lr 0.00010000
+Epoch 254, weight, value: tensor([[-0.1760, -0.0203,  0.0225,  ..., -0.0312, -0.0745, -0.1146],
+        [-0.0393, -0.0781,  0.0283,  ...,  0.0372, -0.0129, -0.0860],
+        [-0.0509, -0.0612, -0.1019,  ...,  0.0482, -0.0429, -0.0868],
+        ...,
+        [-0.0597,  0.0269,  0.0189,  ...,  0.0296, -0.0450, -0.0880],
+        [-0.0725, -0.0093,  0.0228,  ...,  0.0672, -0.0405, -0.1507],
+        [ 0.0528,  0.0563, -0.0434,  ..., -0.1104, -0.0215,  0.0643]],
+       device='cuda:0'), grad: tensor([[-2.4357e-03,  2.2087e-03, -1.0826e-02,  ...,  1.0747e-04,
+         -7.9727e-03,  6.2287e-06],
+        [ 1.7333e-04,  1.8692e-04,  2.1553e-03,  ..., -1.6749e-04,
+          1.3332e-03,  5.7846e-05],
+        [ 1.8013e-04,  2.0657e-03,  1.4267e-03,  ...,  5.7220e-04,
+          1.0872e-03,  4.9800e-05],
+        ...,
+        [-1.8940e-03,  4.4274e-04, -1.6647e-02,  ..., -2.0237e-03,
+         -6.7139e-03, -4.0550e-03],
+        [ 1.2314e-04, -5.2338e-03,  1.4524e-03,  ...,  4.9019e-04,
+         -1.1539e-03,  4.3899e-05],
+        [ 1.8520e-03, -8.5640e-04,  1.7502e-02,  ...,  2.5234e-03,
+          7.6256e-03,  3.6621e-03]], device='cuda:0')
+Epoch 254, bias, value: tensor([-0.0486,  0.0147,  0.0051, -0.0065, -0.0026,  0.0057, -0.0189,  0.0333,
+        -0.0137,  0.0126], device='cuda:0'), grad: tensor([-0.0396, -0.0028,  0.0347, -0.0159,  0.0278,  0.0198,  0.0266, -0.0252,
+        -0.0425,  0.0171], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 253, time 214.72, cls_loss 0.5592 cls_loss_mapping 0.0049 cls_loss_causal 0.4961 re_mapping 0.0103 re_causal 0.0241 /// teacc 98.68 lr 0.00010000
+Epoch 255, weight, value: tensor([[-0.1754, -0.0204,  0.0241,  ..., -0.0315, -0.0747, -0.1151],
+        [-0.0398, -0.0783,  0.0280,  ...,  0.0379, -0.0118, -0.0872],
+        [-0.0514, -0.0627, -0.1034,  ...,  0.0483, -0.0432, -0.0861],
+        ...,
+        [-0.0593,  0.0268,  0.0192,  ...,  0.0295, -0.0455, -0.0876],
+        [-0.0731, -0.0065,  0.0234,  ...,  0.0672, -0.0409, -0.1511],
+        [ 0.0521,  0.0554, -0.0445,  ..., -0.1106, -0.0210,  0.0632]],
+       device='cuda:0'), grad: tensor([[-4.6844e-03, -4.1695e-03,  9.9850e-04,  ..., -1.0312e-05,
+          5.0974e-04, -1.3990e-03],
+        [ 4.2081e-04,  1.7786e-04,  4.7731e-04,  ..., -7.5388e-04,
+          1.0147e-03,  4.3392e-04],
+        [-3.3627e-03, -1.1093e-02,  3.9053e-04,  ..., -7.7095e-03,
+         -1.2045e-03, -1.1797e-03],
+        ...,
+        [ 2.6393e-04,  1.7843e-03,  4.7684e-04,  ...,  1.1940e-03,
+         -3.3817e-03,  4.1151e-04],
+        [-2.0242e-04,  3.9253e-03, -3.4599e-03,  ..., -2.0504e-03,
+          1.9908e-04, -1.0424e-03],
+        [ 9.9564e-04, -5.2299e-03,  1.1835e-03,  ...,  7.9250e-04,
+          9.4080e-04,  9.6369e-04]], device='cuda:0')
+Epoch 255, bias, value: tensor([-0.0482,  0.0154,  0.0051, -0.0074, -0.0028,  0.0062, -0.0193,  0.0326,
+        -0.0127,  0.0123], device='cuda:0'), grad: tensor([-0.0086, -0.0096, -0.0419,  0.0080,  0.0286, -0.0162,  0.0218, -0.0063,
+         0.0083,  0.0159], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 254, time 214.75, cls_loss 0.5521 cls_loss_mapping 0.0074 cls_loss_causal 0.4778 re_mapping 0.0102 re_causal 0.0234 /// teacc 98.70 lr 0.00010000
+Epoch 256, weight, value: tensor([[-0.1758, -0.0199,  0.0249,  ..., -0.0327, -0.0744, -0.1147],
+        [-0.0406, -0.0780,  0.0276,  ...,  0.0382, -0.0110, -0.0871],
+        [-0.0515, -0.0629, -0.1032,  ...,  0.0478, -0.0427, -0.0868],
+        ...,
+        [-0.0597,  0.0265,  0.0190,  ...,  0.0295, -0.0465, -0.0895],
+        [-0.0734, -0.0064,  0.0230,  ...,  0.0673, -0.0421, -0.1522],
+        [ 0.0530,  0.0548, -0.0434,  ..., -0.1096, -0.0193,  0.0633]],
+       device='cuda:0'), grad: tensor([[ 3.6073e-04,  1.5993e-03,  1.2312e-03,  ...,  1.1530e-03,
+          3.7613e-03,  1.1749e-03],
+        [ 3.2812e-05,  8.0705e-05,  1.0765e-04,  ...,  3.2401e-04,
+          2.1780e-04,  1.1027e-05],
+        [-1.1605e-04, -1.5526e-03,  1.0747e-04,  ..., -2.0161e-03,
+          8.4448e-04,  3.0994e-05],
+        ...,
+        [ 3.2020e-04,  3.1471e-04,  3.0708e-04,  ...,  1.0223e-03,
+          4.9973e-04,  5.5885e-04],
+        [ 5.1260e-04,  6.7234e-04,  6.0034e-04,  ...,  1.8988e-03,
+          1.6203e-03,  6.4468e-04],
+        [-1.2455e-03, -5.7459e-04, -8.9884e-05,  ..., -2.4259e-04,
+          1.4257e-03, -3.1300e-03]], device='cuda:0')
+Epoch 256, bias, value: tensor([-0.0476,  0.0152,  0.0051, -0.0075, -0.0042,  0.0071, -0.0198,  0.0329,
+        -0.0130,  0.0131], device='cuda:0'), grad: tensor([ 0.0369,  0.0133, -0.0111, -0.0128, -0.0185, -0.0161, -0.0462,  0.0188,
+         0.0282,  0.0074], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 255, time 214.67, cls_loss 0.5787 cls_loss_mapping 0.0049 cls_loss_causal 0.5133 re_mapping 0.0104 re_causal 0.0243 /// teacc 98.77 lr 0.00010000
+Epoch 257, weight, value: tensor([[-0.1769, -0.0205,  0.0264,  ..., -0.0326, -0.0742, -0.1153],
+        [-0.0404, -0.0788,  0.0269,  ...,  0.0373, -0.0117, -0.0874],
+        [-0.0515, -0.0631, -0.1047,  ...,  0.0482, -0.0431, -0.0867],
+        ...,
+        [-0.0585,  0.0266,  0.0204,  ...,  0.0297, -0.0458, -0.0889],
+        [-0.0729, -0.0072,  0.0233,  ...,  0.0657, -0.0417, -0.1527],
+        [ 0.0530,  0.0558, -0.0433,  ..., -0.1074, -0.0194,  0.0635]],
+       device='cuda:0'), grad: tensor([[ 0.0040, -0.0092,  0.0037,  ...,  0.0002,  0.0001,  0.0018],
+        [-0.0003,  0.0030,  0.0002,  ...,  0.0001,  0.0002,  0.0003],
+        [ 0.0093,  0.0021,  0.0007,  ...,  0.0004,  0.0002,  0.0023],
+        ...,
+        [ 0.0004, -0.0047, -0.0049,  ..., -0.0026, -0.0014, -0.0007],
+        [ 0.0009,  0.0020,  0.0053,  ...,  0.0010,  0.0004,  0.0004],
+        [ 0.0025,  0.0020,  0.0012,  ...,  0.0005,  0.0001,  0.0004]],
+       device='cuda:0')
+Epoch 257, bias, value: tensor([-0.0487,  0.0146,  0.0057, -0.0075, -0.0029,  0.0062, -0.0190,  0.0330,
+        -0.0129,  0.0127], device='cuda:0'), grad: tensor([-0.0020,  0.0121,  0.0294, -0.0115,  0.0104, -0.0292, -0.0137, -0.0339,
+         0.0213,  0.0171], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 256, time 214.96, cls_loss 0.5677 cls_loss_mapping 0.0039 cls_loss_causal 0.5032 re_mapping 0.0106 re_causal 0.0244 /// teacc 98.87 lr 0.00010000
+Epoch 258, weight, value: tensor([[-0.1783, -0.0194,  0.0259,  ..., -0.0326, -0.0738, -0.1160],
+        [-0.0406, -0.0790,  0.0261,  ...,  0.0387, -0.0122, -0.0878],
+        [-0.0523, -0.0617, -0.1053,  ...,  0.0471, -0.0437, -0.0868],
+        ...,
+        [-0.0587,  0.0259,  0.0235,  ...,  0.0297, -0.0447, -0.0897],
+        [-0.0724, -0.0082,  0.0242,  ...,  0.0652, -0.0390, -0.1536],
+        [ 0.0535,  0.0568, -0.0459,  ..., -0.1070, -0.0193,  0.0640]],
+       device='cuda:0'), grad: tensor([[-1.4436e-04,  1.2636e-03, -1.8799e-04,  ...,  3.9291e-03,
+          1.1263e-03, -1.9896e-04],
+        [ 6.4492e-05,  5.5408e-04, -5.3501e-04,  ..., -1.6861e-02,
+         -4.5547e-03,  2.4176e-04],
+        [ 2.1577e-04,  1.1063e-03,  3.3522e-04,  ...,  1.9913e-03,
+          4.9210e-04, -5.6915e-03],
+        ...,
+        [ 8.1182e-05,  1.8082e-03,  1.5950e-04,  ...,  1.9073e-04,
+          2.8515e-04,  2.8920e-04],
+        [ 2.5291e-03,  1.5182e-03,  1.8940e-03,  ...,  5.0964e-03,
+          1.3371e-03,  1.6527e-03],
+        [ 5.4789e-04,  3.4885e-03,  5.4264e-04,  ...,  1.2417e-03,
+          2.7037e-04,  3.1376e-04]], device='cuda:0')
+Epoch 258, bias, value: tensor([-0.0486,  0.0152,  0.0051, -0.0078, -0.0035,  0.0057, -0.0189,  0.0332,
+        -0.0120,  0.0128], device='cuda:0'), grad: tensor([ 0.0131, -0.0465,  0.0015, -0.0191, -0.0140,  0.0161,  0.0149, -0.0141,
+         0.0283,  0.0199], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 257, time 214.66, cls_loss 0.5804 cls_loss_mapping 0.0055 cls_loss_causal 0.5000 re_mapping 0.0111 re_causal 0.0243 /// teacc 98.85 lr 0.00010000
+Epoch 259, weight, value: tensor([[-0.1796, -0.0199,  0.0259,  ..., -0.0336, -0.0733, -0.1168],
+        [-0.0393, -0.0784,  0.0273,  ...,  0.0406, -0.0110, -0.0880],
+        [-0.0514, -0.0637, -0.1052,  ...,  0.0477, -0.0438, -0.0871],
+        ...,
+        [-0.0576,  0.0270,  0.0240,  ...,  0.0296, -0.0441, -0.0892],
+        [-0.0726, -0.0062,  0.0247,  ...,  0.0655, -0.0395, -0.1527],
+        [ 0.0540,  0.0563, -0.0467,  ..., -0.1088, -0.0189,  0.0653]],
+       device='cuda:0'), grad: tensor([[ 2.5010e-04, -3.0041e-03, -2.2907e-03,  ..., -2.1458e-03,
+         -1.6413e-03, -8.2850e-05],
+        [-1.4486e-03,  8.9788e-04, -2.9793e-03,  ..., -2.4433e-03,
+         -1.5717e-03, -1.9226e-03],
+        [-4.5815e-03, -1.3514e-03, -2.6588e-03,  ..., -2.3422e-03,
+          1.0414e-03, -2.6264e-03],
+        ...,
+        [ 4.5776e-03,  1.3252e-02,  2.1534e-03,  ...,  2.1687e-03,
+          9.5463e-04,  4.6234e-03],
+        [ 2.4128e-03,  8.4496e-04,  2.5806e-03,  ..., -4.9973e-03,
+          1.8024e-03,  1.6956e-03],
+        [-5.0240e-03, -1.2863e-02, -1.8301e-03,  ...,  1.2312e-03,
+         -2.1420e-03, -3.2196e-03]], device='cuda:0')
+Epoch 259, bias, value: tensor([-0.0492,  0.0163,  0.0058, -0.0099, -0.0038,  0.0054, -0.0184,  0.0341,
+        -0.0123,  0.0130], device='cuda:0'), grad: tensor([-1.4038e-02, -9.3937e-05, -3.2959e-02,  2.1820e-02,  5.7983e-03,
+        -1.5650e-03,  1.1955e-02,  1.5205e-02,  2.8820e-03, -9.0103e-03],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 258, time 214.75, cls_loss 0.5697 cls_loss_mapping 0.0048 cls_loss_causal 0.4997 re_mapping 0.0109 re_causal 0.0238 /// teacc 98.91 lr 0.00010000
+Epoch 260, weight, value: tensor([[-0.1796, -0.0193,  0.0256,  ..., -0.0330, -0.0731, -0.1170],
+        [-0.0394, -0.0796,  0.0262,  ...,  0.0411, -0.0123, -0.0887],
+        [-0.0509, -0.0637, -0.1056,  ...,  0.0473, -0.0449, -0.0880],
+        ...,
+        [-0.0583,  0.0278,  0.0249,  ...,  0.0316, -0.0433, -0.0902],
+        [-0.0738, -0.0056,  0.0248,  ...,  0.0650, -0.0406, -0.1540],
+        [ 0.0544,  0.0566, -0.0469,  ..., -0.1087, -0.0196,  0.0660]],
+       device='cuda:0'), grad: tensor([[ 3.0661e-04,  4.6268e-06,  4.1342e-04,  ...,  3.0637e-04,
+         -2.2068e-03,  2.1017e-04],
+        [ 6.5923e-05,  3.5129e-06, -6.2370e-04,  ...,  5.3978e-04,
+          8.0943e-05,  1.7703e-04],
+        [ 4.8327e-04,  1.2219e-05,  1.3411e-04,  ..., -9.9468e-04,
+          1.1158e-03,  2.9373e-04],
+        ...,
+        [-7.3395e-03,  6.4522e-06,  2.1744e-04,  ...,  6.4230e-04,
+          9.4795e-04, -4.2496e-03],
+        [ 2.6741e-03, -2.7552e-05, -3.1376e-03,  ...,  5.4502e-04,
+         -1.6844e-04,  2.4261e-03],
+        [ 1.2726e-02,  2.4781e-05,  5.6381e-03,  ...,  1.3580e-03,
+          3.2253e-03,  6.2408e-03]], device='cuda:0')
+Epoch 260, bias, value: tensor([-0.0484,  0.0158,  0.0053, -0.0095, -0.0043,  0.0063, -0.0184,  0.0355,
+        -0.0138,  0.0129], device='cuda:0'), grad: tensor([-0.0117,  0.0107, -0.0172,  0.0304,  0.0109, -0.0514,  0.0032,  0.0038,
+        -0.0194,  0.0408], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 259, time 214.66, cls_loss 0.5418 cls_loss_mapping 0.0036 cls_loss_causal 0.4666 re_mapping 0.0108 re_causal 0.0244 /// teacc 98.88 lr 0.00010000
+Epoch 261, weight, value: tensor([[-0.1784, -0.0193,  0.0269,  ..., -0.0313, -0.0729, -0.1164],
+        [-0.0409, -0.0789,  0.0251,  ...,  0.0401, -0.0109, -0.0895],
+        [-0.0517, -0.0655, -0.1067,  ...,  0.0465, -0.0459, -0.0890],
+        ...,
+        [-0.0583,  0.0279,  0.0249,  ...,  0.0319, -0.0440, -0.0904],
+        [-0.0753, -0.0044,  0.0245,  ...,  0.0648, -0.0408, -0.1541],
+        [ 0.0549,  0.0560, -0.0460,  ..., -0.1091, -0.0203,  0.0669]],
+       device='cuda:0'), grad: tensor([[ 1.1959e-03,  3.2473e-04,  5.3793e-06,  ..., -2.5635e-03,
+         -4.0460e-04,  3.3140e-04],
+        [ 9.7007e-06,  2.5702e-04,  3.7532e-06,  ...,  1.0033e-03,
+          1.1784e-04,  3.8564e-05],
+        [-3.0518e-03, -8.0204e-04,  1.3590e-05,  ...,  2.3956e-03,
+          1.4114e-03,  2.4366e-04],
+        ...,
+        [-3.2857e-06, -7.9727e-03, -5.2989e-05,  ..., -1.5421e-03,
+          5.2977e-04, -8.0261e-03],
+        [ 2.0552e-04,  1.0061e-03, -1.7226e-05,  ..., -1.5612e-03,
+          1.4114e-04,  9.5415e-04],
+        [ 1.8895e-04,  5.9891e-03,  1.1683e-04,  ...,  7.3147e-04,
+          1.1933e-04,  6.1417e-03]], device='cuda:0')
+Epoch 261, bias, value: tensor([-0.0484,  0.0153,  0.0049, -0.0091, -0.0034,  0.0058, -0.0178,  0.0350,
+        -0.0137,  0.0126], device='cuda:0'), grad: tensor([-0.0063,  0.0141,  0.0026,  0.0208, -0.0199, -0.0183,  0.0291, -0.0388,
+        -0.0170,  0.0338], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 260, time 214.66, cls_loss 0.5329 cls_loss_mapping 0.0043 cls_loss_causal 0.4700 re_mapping 0.0106 re_causal 0.0234 /// teacc 98.71 lr 0.00010000
+Epoch 262, weight, value: tensor([[-0.1776, -0.0191,  0.0280,  ..., -0.0323, -0.0715, -0.1159],
+        [-0.0417, -0.0797,  0.0260,  ...,  0.0397, -0.0099, -0.0907],
+        [-0.0522, -0.0680, -0.1079,  ...,  0.0456, -0.0457, -0.0887],
+        ...,
+        [-0.0581,  0.0296,  0.0253,  ...,  0.0322, -0.0444, -0.0895],
+        [-0.0757, -0.0046,  0.0245,  ...,  0.0641, -0.0389, -0.1555],
+        [ 0.0540,  0.0561, -0.0468,  ..., -0.1077, -0.0211,  0.0661]],
+       device='cuda:0'), grad: tensor([[ 8.0705e-05, -7.1526e-05, -6.7368e-03,  ..., -3.8090e-03,
+          2.8498e-06, -1.6098e-03],
+        [ 2.7442e-04,  6.5279e-04,  2.4338e-03,  ...,  1.8368e-03,
+          3.6471e-06,  4.3941e-04],
+        [ 5.9509e-04,  1.1387e-03,  2.1496e-03,  ...,  2.7390e-03,
+          4.3102e-06,  1.5202e-03],
+        ...,
+        [-4.0078e-04,  2.2812e-03,  1.2522e-03,  ...,  3.2349e-03,
+          1.8273e-06,  7.6532e-05],
+        [ 1.6367e-04,  2.6464e-04,  3.2234e-04,  ...,  1.1740e-03,
+         -3.1531e-05,  7.0953e-04],
+        [-1.4639e-03, -4.6806e-03,  4.1580e-04,  ..., -5.7259e-03,
+          2.9970e-06, -2.1439e-03]], device='cuda:0')
+Epoch 262, bias, value: tensor([-0.0477,  0.0165,  0.0047, -0.0096, -0.0033,  0.0060, -0.0183,  0.0344,
+        -0.0137,  0.0124], device='cuda:0'), grad: tensor([-0.0436,  0.0202,  0.0347, -0.0441,  0.0140,  0.0095, -0.0162,  0.0139,
+         0.0191, -0.0075], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 261, time 214.63, cls_loss 0.5545 cls_loss_mapping 0.0041 cls_loss_causal 0.4766 re_mapping 0.0110 re_causal 0.0246 /// teacc 98.80 lr 0.00010000
+Epoch 263, weight, value: tensor([[-0.1784, -0.0196,  0.0281,  ..., -0.0324, -0.0713, -0.1170],
+        [-0.0416, -0.0799,  0.0271,  ...,  0.0395, -0.0098, -0.0906],
+        [-0.0505, -0.0679, -0.1060,  ...,  0.0463, -0.0450, -0.0878],
+        ...,
+        [-0.0594,  0.0295,  0.0251,  ...,  0.0314, -0.0435, -0.0894],
+        [-0.0751, -0.0027,  0.0246,  ...,  0.0641, -0.0387, -0.1555],
+        [ 0.0535,  0.0561, -0.0481,  ..., -0.1083, -0.0215,  0.0659]],
+       device='cuda:0'), grad: tensor([[ 1.7238e-04,  1.6880e-04,  1.0425e-04,  ...,  3.6597e-04,
+          3.3450e-04,  2.2184e-06],
+        [ 4.9412e-05,  2.7250e-06,  6.4564e-04,  ..., -7.7963e-04,
+          2.0337e-04,  9.6019e-07],
+        [ 5.6648e-04,  1.9760e-03,  3.0279e-04,  ...,  1.1139e-03,
+          1.6851e-03,  7.1955e-04],
+        ...,
+        [ 5.2959e-05,  1.4830e-04, -2.1286e-03,  ..., -1.5860e-03,
+          4.1628e-04,  2.4468e-05],
+        [-1.5373e-03,  6.2408e-03, -4.2200e-04,  ...,  4.5853e-03,
+          6.5231e-03,  2.3270e-04],
+        [-1.2201e-04,  2.0924e-03,  2.4223e-04,  ...,  9.2936e-04,
+          1.7424e-03, -1.5283e-04]], device='cuda:0')
+Epoch 263, bias, value: tensor([-0.0475,  0.0166,  0.0056, -0.0091, -0.0034,  0.0051, -0.0182,  0.0336,
+        -0.0136,  0.0121], device='cuda:0'), grad: tensor([ 0.0065,  0.0049,  0.0053, -0.0322,  0.0114,  0.0158, -0.0181, -0.0254,
+         0.0215,  0.0103], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 262, time 214.76, cls_loss 0.5482 cls_loss_mapping 0.0043 cls_loss_causal 0.4780 re_mapping 0.0105 re_causal 0.0233 /// teacc 98.80 lr 0.00010000
+Epoch 264, weight, value: tensor([[-0.1790, -0.0192,  0.0279,  ..., -0.0318, -0.0719, -0.1174],
+        [-0.0410, -0.0807,  0.0282,  ...,  0.0402, -0.0099, -0.0907],
+        [-0.0514, -0.0685, -0.1061,  ...,  0.0450, -0.0454, -0.0895],
+        ...,
+        [-0.0611,  0.0304,  0.0246,  ...,  0.0313, -0.0439, -0.0895],
+        [-0.0748, -0.0029,  0.0243,  ...,  0.0646, -0.0385, -0.1558],
+        [ 0.0541,  0.0564, -0.0482,  ..., -0.1084, -0.0213,  0.0666]],
+       device='cuda:0'), grad: tensor([[-3.1710e-05,  1.1784e-04, -8.3399e-04,  ...,  3.5095e-04,
+         -1.2619e-06,  2.6412e-06],
+        [ 1.6525e-05,  3.0661e-04,  1.8668e-04,  ...,  1.4277e-03,
+          1.2200e-07,  3.6299e-05],
+        [ 2.1305e-03, -2.5864e-02, -2.7919e-04,  ..., -1.3344e-02,
+          2.8964e-07,  1.3128e-05],
+        ...,
+        [-5.2452e-03, -2.5444e-03,  3.3140e-04,  ...,  6.6757e-04,
+          1.5832e-08, -4.0131e-03],
+        [ 2.8396e-04,  1.9714e-02,  1.5378e-04,  ...,  5.6458e-03,
+         -1.8626e-09,  2.2733e-04],
+        [ 1.1748e-04,  6.9046e-03,  3.7980e-04,  ...,  3.4580e-03,
+          9.6764e-07,  2.3556e-03]], device='cuda:0')
+Epoch 264, bias, value: tensor([-0.0477,  0.0174,  0.0045, -0.0095, -0.0023,  0.0060, -0.0181,  0.0333,
+        -0.0135,  0.0112], device='cuda:0'), grad: tensor([-0.0169,  0.0309, -0.0068, -0.0089, -0.0398,  0.0266, -0.0123, -0.0015,
+         0.0108,  0.0180], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 263, time 214.55, cls_loss 0.5488 cls_loss_mapping 0.0038 cls_loss_causal 0.4832 re_mapping 0.0107 re_causal 0.0248 /// teacc 98.92 lr 0.00010000
+Epoch 265, weight, value: tensor([[-0.1800, -0.0191,  0.0277,  ..., -0.0315, -0.0727, -0.1178],
+        [-0.0408, -0.0815,  0.0293,  ...,  0.0402, -0.0099, -0.0928],
+        [-0.0516, -0.0679, -0.1060,  ...,  0.0459, -0.0456, -0.0887],
+        ...,
+        [-0.0624,  0.0303,  0.0253,  ...,  0.0299, -0.0450, -0.0905],
+        [-0.0757, -0.0032,  0.0236,  ...,  0.0644, -0.0384, -0.1557],
+        [ 0.0557,  0.0571, -0.0481,  ..., -0.1078, -0.0209,  0.0678]],
+       device='cuda:0'), grad: tensor([[ 2.2297e-03,  8.5878e-04, -3.3927e-04,  ...,  3.1757e-03,
+          1.7726e-04,  2.2659e-03],
+        [ 8.5756e-06, -2.5272e-04,  8.1015e-04,  ..., -1.3790e-03,
+          1.3340e-04,  4.6968e-05],
+        [-1.0719e-02, -1.1559e-02,  3.4065e-03,  ..., -2.3895e-02,
+         -1.8644e-03, -1.3840e-02],
+        ...,
+        [ 1.2890e-05,  7.2479e-03, -3.3779e-03,  ...,  5.6267e-04,
+         -3.7670e-04,  1.7405e-05],
+        [ 2.3289e-03,  4.3716e-03,  1.7052e-03,  ...,  7.8430e-03,
+          3.5048e-04,  5.5771e-03],
+        [ 3.3998e-04,  1.0815e-03,  2.5368e-03,  ...,  1.5163e-03,
+          1.4961e-04,  3.8981e-04]], device='cuda:0')
+Epoch 265, bias, value: tensor([-0.0486,  0.0170,  0.0051, -0.0102, -0.0031,  0.0047, -0.0175,  0.0341,
+        -0.0130,  0.0125], device='cuda:0'), grad: tensor([ 0.0179, -0.0353, -0.0291, -0.0240,  0.0229,  0.0148, -0.0155,  0.0055,
+         0.0173,  0.0255], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 264, time 214.81, cls_loss 0.5787 cls_loss_mapping 0.0046 cls_loss_causal 0.5129 re_mapping 0.0104 re_causal 0.0245 /// teacc 98.83 lr 0.00010000
+Epoch 266, weight, value: tensor([[-0.1813, -0.0204,  0.0280,  ..., -0.0309, -0.0735, -0.1187],
+        [-0.0404, -0.0815,  0.0276,  ...,  0.0406, -0.0106, -0.0926],
+        [-0.0520, -0.0672, -0.1067,  ...,  0.0468, -0.0455, -0.0900],
+        ...,
+        [-0.0610,  0.0294,  0.0241,  ...,  0.0302, -0.0453, -0.0907],
+        [-0.0760, -0.0044,  0.0241,  ...,  0.0626, -0.0385, -0.1556],
+        [ 0.0545,  0.0581, -0.0480,  ..., -0.1081, -0.0193,  0.0677]],
+       device='cuda:0'), grad: tensor([[ 4.8369e-05,  2.0230e-04,  1.4887e-03,  ...,  6.9284e-04,
+          7.8011e-04,  1.7488e-04],
+        [ 7.5936e-05,  2.3613e-03,  3.0289e-03,  ...,  6.7043e-04,
+          3.6836e-04,  6.9046e-04],
+        [-4.1652e-04,  2.8491e-04, -1.3208e-03,  ...,  1.7190e-04,
+          2.4748e-04,  2.1327e-04],
+        ...,
+        [ 5.8472e-05,  5.9700e-04,  1.0080e-03,  ...,  1.9765e-04,
+          2.5892e-04,  2.0385e-04],
+        [ 1.3041e-04,  4.2224e-04,  2.5730e-03,  ...,  1.3199e-03,
+          1.5926e-03, -1.0538e-03],
+        [-5.6148e-05, -8.3542e-03,  1.4181e-03,  ...,  4.8923e-04,
+          4.2105e-04,  1.9586e-04]], device='cuda:0')
+Epoch 266, bias, value: tensor([-0.0493,  0.0170,  0.0043, -0.0083, -0.0026,  0.0035, -0.0171,  0.0345,
+        -0.0132,  0.0122], device='cuda:0'), grad: tensor([ 0.0102,  0.0204,  0.0020,  0.0220,  0.0287, -0.0231, -0.0569,  0.0083,
+         0.0034, -0.0152], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 265, time 214.65, cls_loss 0.5440 cls_loss_mapping 0.0040 cls_loss_causal 0.4727 re_mapping 0.0104 re_causal 0.0236 /// teacc 98.79 lr 0.00010000
+Epoch 267, weight, value: tensor([[-0.1810, -0.0209,  0.0272,  ..., -0.0308, -0.0755, -0.1191],
+        [-0.0408, -0.0819,  0.0272,  ...,  0.0406, -0.0123, -0.0918],
+        [-0.0518, -0.0658, -0.1066,  ...,  0.0470, -0.0464, -0.0901],
+        ...,
+        [-0.0608,  0.0297,  0.0234,  ...,  0.0301, -0.0473, -0.0909],
+        [-0.0765, -0.0052,  0.0232,  ...,  0.0616, -0.0379, -0.1558],
+        [ 0.0539,  0.0566, -0.0486,  ..., -0.1074, -0.0187,  0.0676]],
+       device='cuda:0'), grad: tensor([[-4.8637e-04,  8.0061e-04,  4.1556e-04,  ..., -9.1076e-05,
+          5.6565e-05, -9.4175e-04],
+        [-7.7400e-03,  8.8692e-04,  7.8011e-04,  ...,  4.6229e-04,
+          5.9396e-05,  6.7759e-04],
+        [-4.0321e-03,  1.3027e-03, -3.8948e-03,  ...,  6.2466e-04,
+         -1.8845e-03, -4.5280e-03],
+        ...,
+        [ 2.5272e-03,  1.7872e-03,  1.5898e-03,  ...,  1.0939e-03,
+          1.5366e-04,  2.0523e-03],
+        [ 1.0292e-02,  7.1478e-04,  4.8523e-03,  ...,  8.8167e-04,
+          1.2386e-04,  2.8381e-03],
+        [-8.7433e-03, -2.1038e-03, -1.3092e-02,  ..., -2.9182e-03,
+          2.1350e-04, -5.5008e-03]], device='cuda:0')
+Epoch 267, bias, value: tensor([-0.0491,  0.0158,  0.0044, -0.0083, -0.0028,  0.0058, -0.0177,  0.0342,
+        -0.0136,  0.0125], device='cuda:0'), grad: tensor([ 0.0104, -0.0438, -0.0121,  0.0260, -0.0035,  0.0168,  0.0111,  0.0262,
+         0.0099, -0.0410], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 266, time 214.84, cls_loss 0.5483 cls_loss_mapping 0.0047 cls_loss_causal 0.4853 re_mapping 0.0106 re_causal 0.0247 /// teacc 98.59 lr 0.00010000
+Epoch 268, weight, value: tensor([[-0.1817, -0.0195,  0.0272,  ..., -0.0299, -0.0763, -0.1192],
+        [-0.0382, -0.0832,  0.0275,  ...,  0.0408, -0.0144, -0.0931],
+        [-0.0519, -0.0668, -0.1066,  ...,  0.0467, -0.0445, -0.0906],
+        ...,
+        [-0.0608,  0.0308,  0.0238,  ...,  0.0305, -0.0472, -0.0906],
+        [-0.0772, -0.0047,  0.0221,  ...,  0.0608, -0.0368, -0.1563],
+        [ 0.0540,  0.0562, -0.0489,  ..., -0.1074, -0.0190,  0.0675]],
+       device='cuda:0'), grad: tensor([[ 2.1011e-05,  6.3992e-04,  1.0891e-03,  ...,  2.4629e-04,
+          1.0424e-03,  1.2913e-03],
+        [-3.5465e-05,  3.5024e-04, -1.4400e-04,  ..., -7.6182e-07,
+          6.9952e-04,  5.1737e-04],
+        [-1.7190e-04,  3.5429e-04,  1.8301e-03,  ...,  1.7524e-04,
+          4.5681e-04,  2.7752e-04],
+        ...,
+        [ 1.1519e-05, -5.4207e-03, -3.5076e-03,  ..., -2.4929e-03,
+         -4.6730e-03, -8.3237e-03],
+        [ 4.6587e-04,  2.0111e-04,  3.0499e-03,  ...,  3.3045e-04,
+          3.1888e-05,  6.3133e-04],
+        [ 1.3605e-05,  1.3466e-03,  8.5878e-04,  ...,  5.4741e-04,
+          1.9894e-03,  1.8892e-03]], device='cuda:0')
+Epoch 268, bias, value: tensor([-0.0490,  0.0164,  0.0051, -0.0087, -0.0020,  0.0051, -0.0175,  0.0352,
+        -0.0147,  0.0114], device='cuda:0'), grad: tensor([-0.0058,  0.0310,  0.0173, -0.0295,  0.0097, -0.0150, -0.0086, -0.0543,
+         0.0236,  0.0316], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 267, time 214.96, cls_loss 0.5674 cls_loss_mapping 0.0044 cls_loss_causal 0.4951 re_mapping 0.0102 re_causal 0.0233 /// teacc 98.72 lr 0.00010000
+Epoch 269, weight, value: tensor([[-0.1816, -0.0189,  0.0283,  ..., -0.0293, -0.0766, -0.1185],
+        [-0.0387, -0.0839,  0.0262,  ...,  0.0394, -0.0152, -0.0943],
+        [-0.0528, -0.0658, -0.1072,  ...,  0.0462, -0.0444, -0.0924],
+        ...,
+        [-0.0616,  0.0308,  0.0227,  ...,  0.0307, -0.0484, -0.0910],
+        [-0.0773, -0.0050,  0.0224,  ...,  0.0612, -0.0351, -0.1571],
+        [ 0.0562,  0.0564, -0.0488,  ..., -0.1076, -0.0190,  0.0696]],
+       device='cuda:0'), grad: tensor([[ 2.0466e-03,  1.3809e-03,  8.0442e-04,  ...,  1.3514e-03,
+          6.7663e-04,  5.3482e-03],
+        [ 5.1928e-04,  5.4896e-05, -1.2034e-04,  ...,  1.3006e-04,
+          1.1406e-03,  1.7011e-04],
+        [ 8.2874e-04,  5.4836e-04,  2.3448e-04,  ...,  4.0960e-04,
+          8.7452e-04,  1.5192e-03],
+        ...,
+        [ 2.4295e-04, -8.5783e-04,  7.2241e-05,  ...,  8.5890e-05,
+          1.1816e-03,  4.4680e-04],
+        [ 1.0586e-03,  6.3610e-04,  3.5620e-04,  ...,  5.5790e-04,
+          7.4959e-04,  2.6722e-03],
+        [ 4.0770e-04,  6.7139e-03,  1.1998e-04,  ...,  2.7609e-04,
+          9.0075e-04,  1.0014e-03]], device='cuda:0')
+Epoch 269, bias, value: tensor([-0.0483,  0.0158,  0.0050, -0.0093, -0.0022,  0.0060, -0.0178,  0.0343,
+        -0.0138,  0.0115], device='cuda:0'), grad: tensor([ 0.0242,  0.0086,  0.0111,  0.0128, -0.0299, -0.0499, -0.0110,  0.0076,
+         0.0168,  0.0097], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 268, time 223.08, cls_loss 0.5351 cls_loss_mapping 0.0054 cls_loss_causal 0.4558 re_mapping 0.0104 re_causal 0.0237 /// teacc 98.88 lr 0.00010000
+Epoch 270, weight, value: tensor([[-0.1819, -0.0194,  0.0279,  ..., -0.0300, -0.0769, -0.1200],
+        [-0.0396, -0.0854,  0.0268,  ...,  0.0395, -0.0157, -0.0929],
+        [-0.0537, -0.0657, -0.1073,  ...,  0.0457, -0.0431, -0.0931],
+        ...,
+        [-0.0615,  0.0311,  0.0215,  ...,  0.0307, -0.0479, -0.0913],
+        [-0.0762, -0.0044,  0.0227,  ...,  0.0612, -0.0363, -0.1576],
+        [ 0.0568,  0.0568, -0.0482,  ..., -0.1070, -0.0196,  0.0704]],
+       device='cuda:0'), grad: tensor([[ 4.7421e-04, -9.3765e-03,  4.5323e-04,  ...,  1.3661e-04,
+          2.4939e-04, -3.4103e-03],
+        [ 2.6512e-04,  4.3702e-04,  2.1887e-04,  ...,  7.3791e-05,
+          6.6710e-04,  1.2553e-04],
+        [ 2.7180e-03,  5.7945e-03,  2.3518e-03,  ...,  6.8855e-04,
+          6.4373e-04,  3.7880e-03],
+        ...,
+        [-8.6746e-03,  1.2321e-03, -1.0391e-02,  ...,  5.6535e-05,
+          4.0603e-04, -2.2049e-02],
+        [ 3.0308e-03,  1.9665e-03,  5.1165e-04,  ...,  7.6342e-04,
+          2.8968e-04,  1.8749e-03],
+        [-7.4577e-03,  4.7607e-03,  6.1836e-03,  ..., -3.0594e-03,
+          3.0279e-04,  1.1055e-02]], device='cuda:0')
+Epoch 270, bias, value: tensor([-0.0490,  0.0166,  0.0055, -0.0085, -0.0028,  0.0054, -0.0178,  0.0341,
+        -0.0145,  0.0121], device='cuda:0'), grad: tensor([-0.0293,  0.0067,  0.0336, -0.0030, -0.0348, -0.0144,  0.0323, -0.0218,
+         0.0188,  0.0119], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 269, time 220.74, cls_loss 0.5670 cls_loss_mapping 0.0041 cls_loss_causal 0.5070 re_mapping 0.0097 re_causal 0.0236 /// teacc 98.80 lr 0.00010000
+Epoch 271, weight, value: tensor([[-0.1823, -0.0184,  0.0284,  ..., -0.0298, -0.0766, -0.1206],
+        [-0.0380, -0.0854,  0.0268,  ...,  0.0414, -0.0159, -0.0918],
+        [-0.0541, -0.0648, -0.1083,  ...,  0.0446, -0.0436, -0.0943],
+        ...,
+        [-0.0614,  0.0307,  0.0221,  ...,  0.0308, -0.0474, -0.0904],
+        [-0.0762, -0.0056,  0.0221,  ...,  0.0610, -0.0365, -0.1581],
+        [ 0.0575,  0.0568, -0.0480,  ..., -0.1068, -0.0190,  0.0703]],
+       device='cuda:0'), grad: tensor([[ 3.3951e-04,  2.0771e-03,  1.4257e-03,  ...,  6.2132e-04,
+          1.7822e-04,  1.7631e-04],
+        [ 1.9217e-04, -4.9782e-04,  6.5327e-04,  ..., -5.9652e-04,
+         -1.0767e-03,  2.1625e-04],
+        [ 4.4584e-04,  3.6502e-04,  1.9064e-03,  ...,  6.9714e-04,
+          1.0753e-04,  2.1911e-04],
+        ...,
+        [ 1.4000e-03,  2.4948e-03,  2.2678e-03,  ...,  8.2636e-04,
+          1.1671e-04,  1.8272e-03],
+        [-1.5297e-03, -8.7814e-03, -9.5062e-03,  ..., -2.8095e-03,
+          4.9067e-04,  6.8855e-04],
+        [ 1.4992e-02, -5.4092e-03,  9.2621e-03,  ...,  2.0351e-03,
+         -3.0175e-05,  3.7212e-03]], device='cuda:0')
+Epoch 271, bias, value: tensor([-0.0490,  0.0171,  0.0046, -0.0092, -0.0033,  0.0063, -0.0174,  0.0344,
+        -0.0142,  0.0119], device='cuda:0'), grad: tensor([ 0.0197,  0.0165,  0.0153, -0.0762,  0.0194,  0.0224,  0.0166,  0.0257,
+        -0.0499, -0.0096], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 270, time 216.20, cls_loss 0.5306 cls_loss_mapping 0.0039 cls_loss_causal 0.4637 re_mapping 0.0102 re_causal 0.0229 /// teacc 98.97 lr 0.00010000
+Epoch 272, weight, value: tensor([[-0.1818, -0.0185,  0.0293,  ..., -0.0290, -0.0744, -0.1201],
+        [-0.0382, -0.0867,  0.0269,  ...,  0.0406, -0.0166, -0.0919],
+        [-0.0534, -0.0640, -0.1085,  ...,  0.0441, -0.0454, -0.0939],
+        ...,
+        [-0.0619,  0.0300,  0.0220,  ...,  0.0311, -0.0472, -0.0909],
+        [-0.0767, -0.0055,  0.0220,  ...,  0.0612, -0.0367, -0.1579],
+        [ 0.0579,  0.0569, -0.0476,  ..., -0.1059, -0.0182,  0.0706]],
+       device='cuda:0'), grad: tensor([[ 8.2180e-06,  5.0180e-06,  1.8334e-04,  ...,  1.2827e-04,
+          1.3268e-04,  2.1338e-05],
+        [ 7.4729e-06,  8.3745e-06,  2.8419e-04,  ...,  1.9407e-04,
+          1.1861e-04,  4.6119e-06],
+        [-1.8150e-05,  4.7863e-05,  1.4627e-04,  ...,  1.2171e-04,
+          1.2898e-04,  1.4949e-04],
+        ...,
+        [ 2.9993e-04, -4.7469e-04, -1.2341e-03,  ..., -1.2884e-03,
+         -7.2432e-04, -2.3441e-03],
+        [ 8.4937e-05, -1.1605e-04,  4.3106e-04,  ...,  2.7156e-04,
+          4.3225e-04,  2.0199e-03],
+        [-6.5136e-04,  3.7503e-04, -1.7815e-03,  ..., -3.7146e-04,
+          1.5771e-04, -3.8624e-04]], device='cuda:0')
+Epoch 272, bias, value: tensor([-0.0494,  0.0169,  0.0049, -0.0092, -0.0037,  0.0058, -0.0172,  0.0342,
+        -0.0142,  0.0130], device='cuda:0'), grad: tensor([ 0.0061,  0.0076,  0.0062,  0.0074, -0.0199,  0.0082, -0.0013, -0.0374,
+         0.0177,  0.0055], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 271, time 215.19, cls_loss 0.5463 cls_loss_mapping 0.0044 cls_loss_causal 0.4781 re_mapping 0.0105 re_causal 0.0242 /// teacc 98.68 lr 0.00010000
+Epoch 273, weight, value: tensor([[-0.1825, -0.0184,  0.0291,  ..., -0.0282, -0.0748, -0.1215],
+        [-0.0380, -0.0872,  0.0269,  ...,  0.0402, -0.0169, -0.0933],
+        [-0.0526, -0.0639, -0.1082,  ...,  0.0438, -0.0456, -0.0943],
+        ...,
+        [-0.0610,  0.0293,  0.0225,  ...,  0.0310, -0.0463, -0.0896],
+        [-0.0759, -0.0055,  0.0221,  ...,  0.0618, -0.0369, -0.1550],
+        [ 0.0572,  0.0569, -0.0479,  ..., -0.1054, -0.0189,  0.0708]],
+       device='cuda:0'), grad: tensor([[ 4.3027e-07,  7.7868e-04,  1.9813e-04,  ...,  3.2663e-05,
+          2.2769e-04,  1.1921e-06],
+        [ 6.9477e-07,  8.1968e-04,  5.5742e-04,  ...,  2.1112e-04,
+          6.2752e-04,  9.2946e-07],
+        [ 1.8645e-06,  1.1435e-03,  4.8780e-04,  ...,  3.6210e-05,
+          2.2697e-04,  6.8247e-06],
+        ...,
+        [ 2.8467e-04,  8.3237e-03, -4.3983e-03,  ..., -2.2678e-03,
+          8.7891e-03,  1.4439e-03],
+        [ 1.5974e-04,  1.0223e-02,  1.3485e-03,  ...,  1.0014e-03,
+          3.2902e-04,  8.8310e-04],
+        [-5.2452e-04, -2.0218e-02, -2.1534e-03,  ..., -5.2154e-05,
+         -2.8534e-03, -2.5711e-03]], device='cuda:0')
+Epoch 273, bias, value: tensor([-0.0494,  0.0158,  0.0050, -0.0096, -0.0036,  0.0051, -0.0167,  0.0352,
+        -0.0146,  0.0138], device='cuda:0'), grad: tensor([ 0.0126,  0.0128,  0.0108,  0.0134, -0.0059, -0.0499,  0.0232,  0.0021,
+         0.0247, -0.0439], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 272, time 215.34, cls_loss 0.5815 cls_loss_mapping 0.0055 cls_loss_causal 0.5145 re_mapping 0.0104 re_causal 0.0240 /// teacc 98.84 lr 0.00010000
+Epoch 274, weight, value: tensor([[-0.1830, -0.0184,  0.0282,  ..., -0.0286, -0.0750, -0.1220],
+        [-0.0386, -0.0871,  0.0274,  ...,  0.0408, -0.0142, -0.0938],
+        [-0.0531, -0.0642, -0.1078,  ...,  0.0433, -0.0463, -0.0936],
+        ...,
+        [-0.0622,  0.0289,  0.0224,  ...,  0.0301, -0.0470, -0.0913],
+        [-0.0749, -0.0070,  0.0205,  ...,  0.0628, -0.0383, -0.1546],
+        [ 0.0577,  0.0581, -0.0478,  ..., -0.1058, -0.0193,  0.0718]],
+       device='cuda:0'), grad: tensor([[ 5.6066e-06, -6.6566e-03,  4.7870e-07,  ...,  5.7340e-05,
+          5.3585e-05, -8.2350e-04],
+        [ 4.0680e-06, -4.1466e-03,  1.4640e-06,  ..., -9.6359e-03,
+          8.0645e-05, -6.6910e-03],
+        [ 5.8562e-06,  3.3092e-03,  1.3839e-06,  ...,  2.7433e-05,
+          7.8022e-05,  6.7520e-04],
+        ...,
+        [-1.2136e-04,  4.8599e-03, -4.9263e-05,  ...,  6.8436e-03,
+          4.8697e-05,  6.0883e-03],
+        [ 2.8992e-04,  2.5511e-04,  1.4380e-05,  ...,  3.5524e-05,
+          4.9740e-05, -8.1015e-04],
+        [ 5.4270e-05,  1.2770e-03,  5.7459e-05,  ...,  1.8454e-03,
+          5.2780e-05,  2.0714e-03]], device='cuda:0')
+Epoch 274, bias, value: tensor([-0.0509,  0.0165,  0.0046, -0.0094, -0.0044,  0.0064, -0.0167,  0.0355,
+        -0.0143,  0.0136], device='cuda:0'), grad: tensor([ 0.0109, -0.0970,  0.0113,  0.0197,  0.0255,  0.0108, -0.0360,  0.0542,
+         0.0025, -0.0019], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 273, time 214.77, cls_loss 0.5644 cls_loss_mapping 0.0050 cls_loss_causal 0.5002 re_mapping 0.0103 re_causal 0.0230 /// teacc 98.85 lr 0.00010000
+Epoch 275, weight, value: tensor([[-0.1836, -0.0187,  0.0282,  ..., -0.0281, -0.0743, -0.1235],
+        [-0.0386, -0.0879,  0.0269,  ...,  0.0422, -0.0145, -0.0953],
+        [-0.0528, -0.0641, -0.1074,  ...,  0.0443, -0.0462, -0.0929],
+        ...,
+        [-0.0630,  0.0297,  0.0219,  ...,  0.0303, -0.0471, -0.0905],
+        [-0.0752, -0.0078,  0.0209,  ...,  0.0611, -0.0390, -0.1552],
+        [ 0.0569,  0.0581, -0.0476,  ..., -0.1064, -0.0200,  0.0720]],
+       device='cuda:0'), grad: tensor([[-4.7541e-04,  1.8871e-04, -4.2582e-04,  ..., -4.7421e-04,
+          2.1994e-04, -1.5378e-05],
+        [ 1.1806e-03,  5.6601e-04,  5.5647e-04,  ...,  3.0270e-03,
+          2.2554e-04,  6.2957e-07],
+        [-1.5755e-03, -1.9989e-03, -7.3481e-04,  ..., -5.3864e-03,
+         -3.8681e-03,  5.4240e-06],
+        ...,
+        [ 2.8515e-04, -1.8845e-02,  1.7393e-04,  ...,  6.4802e-04,
+          4.4823e-04, -2.9445e-04],
+        [-6.2943e-04, -3.5435e-05, -4.1795e-04,  ..., -1.5106e-03,
+          9.6130e-04,  1.2720e-04],
+        [ 2.4962e-04,  3.2067e-04,  2.1756e-04,  ...,  8.1491e-04,
+          2.9063e-04,  1.0133e-04]], device='cuda:0')
+Epoch 275, bias, value: tensor([-0.0504,  0.0172,  0.0055, -0.0103, -0.0043,  0.0064, -0.0162,  0.0355,
+        -0.0147,  0.0122], device='cuda:0'), grad: tensor([-0.0520,  0.0468, -0.0092,  0.0264,  0.0286, -0.0092, -0.0059, -0.0607,
+         0.0078,  0.0274], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 274, time 214.88, cls_loss 0.5587 cls_loss_mapping 0.0035 cls_loss_causal 0.4922 re_mapping 0.0108 re_causal 0.0243 /// teacc 98.81 lr 0.00010000
+Epoch 276, weight, value: tensor([[-0.1842, -0.0187,  0.0265,  ..., -0.0294, -0.0736, -0.1238],
+        [-0.0377, -0.0889,  0.0271,  ...,  0.0417, -0.0149, -0.0947],
+        [-0.0530, -0.0626, -0.1066,  ...,  0.0442, -0.0463, -0.0931],
+        ...,
+        [-0.0617,  0.0283,  0.0221,  ...,  0.0305, -0.0459, -0.0894],
+        [-0.0750, -0.0083,  0.0211,  ...,  0.0603, -0.0392, -0.1558],
+        [ 0.0567,  0.0588, -0.0472,  ..., -0.1055, -0.0201,  0.0717]],
+       device='cuda:0'), grad: tensor([[-2.4736e-05, -1.6235e-02, -2.6951e-03,  ..., -1.3573e-02,
+         -1.8215e-03,  3.5114e-03],
+        [ 1.3649e-05,  1.1911e-03, -1.5879e-03,  ..., -7.8487e-04,
+          1.8492e-03, -4.9710e-05],
+        [ 3.9458e-05,  1.7670e-02,  9.3555e-04,  ...,  1.2024e-02,
+          8.3685e-04,  4.2081e-04],
+        ...,
+        [ 1.6940e-04,  4.2801e-03,  4.1294e-04,  ...,  1.1816e-03,
+          5.1594e-04,  9.2506e-04],
+        [ 1.7691e-04, -3.6983e-03,  6.1607e-04,  ..., -1.6623e-03,
+          2.1477e-03, -9.1887e-04],
+        [ 2.2280e-04, -1.7911e-05,  3.5477e-04,  ...,  9.0218e-04,
+          5.8174e-04, -4.5052e-03]], device='cuda:0')
+Epoch 276, bias, value: tensor([-0.0510,  0.0164,  0.0056, -0.0106, -0.0034,  0.0063, -0.0165,  0.0363,
+        -0.0140,  0.0118], device='cuda:0'), grad: tensor([-0.0550,  0.0124,  0.0225, -0.0016, -0.0036, -0.0213,  0.0309,  0.0003,
+         0.0121,  0.0034], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 275, time 215.15, cls_loss 0.5142 cls_loss_mapping 0.0035 cls_loss_causal 0.4546 re_mapping 0.0104 re_causal 0.0228 /// teacc 98.88 lr 0.00010000
+Epoch 277, weight, value: tensor([[-0.1854, -0.0177,  0.0262,  ..., -0.0275, -0.0733, -0.1242],
+        [-0.0379, -0.0897,  0.0284,  ...,  0.0411, -0.0154, -0.0947],
+        [-0.0534, -0.0639, -0.1064,  ...,  0.0439, -0.0458, -0.0940],
+        ...,
+        [-0.0615,  0.0298,  0.0220,  ...,  0.0305, -0.0457, -0.0894],
+        [-0.0747, -0.0083,  0.0214,  ...,  0.0596, -0.0395, -0.1556],
+        [ 0.0563,  0.0589, -0.0472,  ..., -0.1049, -0.0200,  0.0720]],
+       device='cuda:0'), grad: tensor([[ 2.3603e-05,  1.5780e-05,  6.9559e-05,  ...,  8.3670e-06,
+          0.0000e+00,  4.2498e-05],
+        [ 2.3216e-05,  1.6645e-05,  6.6996e-04,  ..., -2.6608e-04,
+          0.0000e+00,  8.5115e-05],
+        [ 1.8251e-04,  8.1778e-05,  4.4435e-05,  ...,  3.1543e-04,
+          0.0000e+00,  2.6870e-04],
+        ...,
+        [ 2.6748e-05, -3.8624e-03,  1.1711e-03,  ..., -2.0310e-05,
+          0.0000e+00, -3.7766e-04],
+        [ 3.3164e-04,  4.7302e-04,  7.8321e-05,  ...,  1.0848e-04,
+          0.0000e+00,  6.8760e-04],
+        [-9.6262e-05,  2.4185e-03,  1.8959e-03,  ...,  9.9689e-06,
+          0.0000e+00,  1.2016e-04]], device='cuda:0')
+Epoch 277, bias, value: tensor([-0.0507,  0.0174,  0.0070, -0.0118, -0.0048,  0.0052, -0.0169,  0.0365,
+        -0.0131,  0.0118], device='cuda:0'), grad: tensor([-0.0814,  0.0201,  0.0131, -0.0014, -0.0396,  0.0190,  0.0178,  0.0134,
+         0.0168,  0.0222], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 276, time 215.16, cls_loss 0.5546 cls_loss_mapping 0.0043 cls_loss_causal 0.4966 re_mapping 0.0100 re_causal 0.0237 /// teacc 98.91 lr 0.00010000
+Epoch 278, weight, value: tensor([[-0.1856, -0.0186,  0.0258,  ..., -0.0282, -0.0729, -0.1244],
+        [-0.0387, -0.0902,  0.0290,  ...,  0.0407, -0.0157, -0.0945],
+        [-0.0540, -0.0631, -0.1065,  ...,  0.0443, -0.0464, -0.0956],
+        ...,
+        [-0.0618,  0.0301,  0.0219,  ...,  0.0292, -0.0460, -0.0901],
+        [-0.0747, -0.0075,  0.0212,  ...,  0.0595, -0.0396, -0.1558],
+        [ 0.0560,  0.0581, -0.0471,  ..., -0.1055, -0.0196,  0.0724]],
+       device='cuda:0'), grad: tensor([[ 1.2480e-06,  1.5378e-04,  9.2506e-04,  ...,  1.1921e-04,
+          3.7885e-04,  1.6894e-06],
+        [ 3.9674e-07,  2.6560e-04,  5.7697e-04,  ...,  2.9349e-04,
+          2.1541e-04,  8.3260e-07],
+        [ 3.9861e-06,  2.6250e-04,  7.8487e-04,  ...,  3.1638e-04,
+          3.0541e-04,  6.9365e-06],
+        ...,
+        [ 4.4033e-06,  5.9843e-04,  8.0824e-04,  ...,  3.5739e-04,
+          2.6703e-04,  1.8790e-05],
+        [ 4.6641e-05, -2.1667e-03,  1.3123e-03,  ...,  2.8801e-04,
+          8.4496e-04,  1.3294e-03],
+        [ 1.7080e-06,  1.5819e-04,  4.2319e-04,  ...,  1.8108e-04,
+          1.5843e-04, -1.4029e-05]], device='cuda:0')
+Epoch 278, bias, value: tensor([-0.0505,  0.0172,  0.0065, -0.0101, -0.0047,  0.0049, -0.0168,  0.0366,
+        -0.0138,  0.0115], device='cuda:0'), grad: tensor([-0.0303,  0.0343, -0.0173,  0.0036, -0.0096,  0.0266, -0.0159,  0.0227,
+        -0.0298,  0.0158], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 277, time 215.00, cls_loss 0.5619 cls_loss_mapping 0.0046 cls_loss_causal 0.4894 re_mapping 0.0104 re_causal 0.0241 /// teacc 98.89 lr 0.00010000
+Epoch 279, weight, value: tensor([[-0.1855, -0.0193,  0.0265,  ..., -0.0284, -0.0726, -0.1253],
+        [-0.0390, -0.0908,  0.0285,  ...,  0.0400, -0.0166, -0.0932],
+        [-0.0552, -0.0635, -0.1069,  ...,  0.0449, -0.0462, -0.0966],
+        ...,
+        [-0.0605,  0.0301,  0.0230,  ...,  0.0287, -0.0464, -0.0891],
+        [-0.0742, -0.0083,  0.0213,  ...,  0.0599, -0.0394, -0.1551],
+        [ 0.0563,  0.0590, -0.0480,  ..., -0.1055, -0.0183,  0.0725]],
+       device='cuda:0'), grad: tensor([[ 8.7321e-05,  9.5177e-04, -8.8930e-04,  ..., -9.8419e-04,
+          2.4986e-04,  5.2303e-05],
+        [ 2.1949e-05, -8.2254e-04,  1.8919e-04,  ...,  4.2510e-04,
+          2.8992e-04,  1.4973e-04],
+        [-6.1631e-05,  2.5201e-04,  1.8573e-04,  ...,  8.3113e-04,
+         -1.2102e-03,  1.9729e-04],
+        ...,
+        [ 5.5647e-04, -9.1374e-05,  5.4312e-04,  ...,  3.3617e-04,
+          3.4642e-04,  6.5041e-04],
+        [ 3.0308e-03, -6.1989e-04,  2.8057e-03,  ...,  6.6090e-04,
+          3.6263e-04,  1.8139e-03],
+        [ 1.0910e-03, -1.7204e-03,  1.1969e-03,  ..., -1.3809e-03,
+          3.1185e-04, -1.6108e-03]], device='cuda:0')
+Epoch 279, bias, value: tensor([-0.0491,  0.0174,  0.0064, -0.0108, -0.0060,  0.0063, -0.0180,  0.0369,
+        -0.0140,  0.0119], device='cuda:0'), grad: tensor([-0.0095,  0.0134, -0.0104, -0.0104, -0.0102, -0.0331,  0.0020,  0.0236,
+         0.0448, -0.0103], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 278, time 215.15, cls_loss 0.5376 cls_loss_mapping 0.0031 cls_loss_causal 0.4742 re_mapping 0.0108 re_causal 0.0246 /// teacc 98.81 lr 0.00010000
+Epoch 280, weight, value: tensor([[-0.1861, -0.0193,  0.0257,  ..., -0.0278, -0.0719, -0.1263],
+        [-0.0388, -0.0925,  0.0290,  ...,  0.0405, -0.0169, -0.0934],
+        [-0.0556, -0.0642, -0.1062,  ...,  0.0441, -0.0471, -0.0986],
+        ...,
+        [-0.0599,  0.0303,  0.0227,  ...,  0.0287, -0.0458, -0.0887],
+        [-0.0737, -0.0084,  0.0216,  ...,  0.0600, -0.0388, -0.1535],
+        [ 0.0558,  0.0597, -0.0490,  ..., -0.1061, -0.0180,  0.0726]],
+       device='cuda:0'), grad: tensor([[ 1.2424e-06, -1.8215e-04,  5.1737e-04,  ..., -5.8794e-04,
+         -6.4611e-04,  1.2290e-04],
+        [ 2.1271e-06,  6.5207e-05,  6.7902e-04,  ...,  8.2374e-05,
+          8.6650e-06,  2.6360e-05],
+        [ 3.0287e-06,  6.5118e-06, -4.5242e-03,  ...,  2.7332e-03,
+          2.1191e-03,  7.8738e-05],
+        ...,
+        [ 5.5504e-04,  6.6376e-04,  3.9792e-04,  ..., -1.5383e-03,
+          1.2083e-03,  6.4087e-04],
+        [ 4.5002e-05,  5.2338e-03,  7.0238e-04,  ...,  2.3365e-03,
+          3.1090e-04,  1.7529e-03],
+        [-8.1062e-04,  2.5635e-03,  6.7472e-04,  ...,  9.9754e-04,
+         -8.2541e-04,  2.1267e-04]], device='cuda:0')
+Epoch 280, bias, value: tensor([-0.0492,  0.0174,  0.0064, -0.0103, -0.0062,  0.0065, -0.0182,  0.0362,
+        -0.0139,  0.0122], device='cuda:0'), grad: tensor([ 0.0067, -0.0171, -0.0130, -0.0153, -0.0200,  0.0116,  0.0102, -0.0209,
+         0.0371,  0.0207], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 279, time 214.82, cls_loss 0.5546 cls_loss_mapping 0.0043 cls_loss_causal 0.4912 re_mapping 0.0111 re_causal 0.0246 /// teacc 98.79 lr 0.00010000
+Epoch 281, weight, value: tensor([[-0.1861, -0.0190,  0.0249,  ..., -0.0271, -0.0732, -0.1251],
+        [-0.0393, -0.0914,  0.0283,  ...,  0.0413, -0.0153, -0.0936],
+        [-0.0563, -0.0650, -0.1071,  ...,  0.0438, -0.0478, -0.0995],
+        ...,
+        [-0.0600,  0.0304,  0.0251,  ...,  0.0277, -0.0467, -0.0894],
+        [-0.0745, -0.0065,  0.0220,  ...,  0.0611, -0.0389, -0.1550],
+        [ 0.0556,  0.0596, -0.0499,  ..., -0.1064, -0.0180,  0.0728]],
+       device='cuda:0'), grad: tensor([[ 7.1228e-06, -7.6714e-03,  2.4125e-05,  ...,  3.4161e-06,
+          1.6947e-03,  1.0177e-05],
+        [ 6.1095e-06,  4.3362e-06,  6.7115e-05,  ...,  2.4647e-05,
+          1.2331e-03,  1.9759e-05],
+        [ 2.9579e-05,  1.7929e-04, -3.4899e-05,  ..., -9.9838e-05,
+          1.4439e-03, -6.2585e-07],
+        ...,
+        [ 1.1390e-04,  1.0048e-02,  2.7046e-05,  ...,  2.5635e-03,
+          1.9417e-03,  2.4891e-03],
+        [-6.7329e-04,  5.2750e-05,  1.2922e-04,  ...,  4.2886e-05,
+         -4.1885e-03,  2.7037e-04],
+        [ 1.6785e-04,  1.3638e-04,  7.3075e-05,  ...,  9.4056e-05,
+         -6.1417e-04, -3.1233e-05]], device='cuda:0')
+Epoch 281, bias, value: tensor([-0.0490,  0.0180,  0.0057, -0.0100, -0.0052,  0.0060, -0.0183,  0.0362,
+        -0.0136,  0.0111], device='cuda:0'), grad: tensor([-0.0655,  0.0290, -0.0058, -0.0075, -0.0009, -0.0353,  0.0175,  0.0713,
+        -0.0003, -0.0025], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 280, time 215.53, cls_loss 0.5406 cls_loss_mapping 0.0048 cls_loss_causal 0.4737 re_mapping 0.0106 re_causal 0.0237 /// teacc 98.83 lr 0.00010000
+Epoch 282, weight, value: tensor([[-0.1850, -0.0193,  0.0258,  ..., -0.0269, -0.0737, -0.1240],
+        [-0.0400, -0.0913,  0.0281,  ...,  0.0406, -0.0153, -0.0947],
+        [-0.0570, -0.0653, -0.1066,  ...,  0.0435, -0.0480, -0.0989],
+        ...,
+        [-0.0605,  0.0309,  0.0242,  ...,  0.0278, -0.0469, -0.0897],
+        [-0.0745, -0.0068,  0.0219,  ...,  0.0614, -0.0391, -0.1549],
+        [ 0.0552,  0.0605, -0.0501,  ..., -0.1059, -0.0177,  0.0727]],
+       device='cuda:0'), grad: tensor([[ 1.5748e-04,  2.6405e-05, -2.9278e-04,  ...,  7.5459e-05,
+         -1.1653e-04,  1.7977e-04],
+        [ 4.5717e-05,  1.9753e-04,  2.9236e-05,  ...,  2.2531e-05,
+          2.2911e-06,  4.8846e-05],
+        [ 1.1259e-04,  3.4189e-04,  3.8117e-05,  ...,  1.0687e-04,
+          6.7279e-06,  1.3840e-04],
+        ...,
+        [-4.6959e-03,  1.1549e-03,  5.6863e-05,  ..., -2.2774e-03,
+          3.0696e-06, -7.3395e-03],
+        [ 4.7898e-04, -6.3753e-04,  1.8847e-04,  ..., -7.1049e-04,
+          2.8431e-05,  2.5988e-04],
+        [ 3.2854e-04,  3.9558e-03,  8.8394e-05,  ...,  2.7251e-04,
+          4.1500e-06,  4.3797e-04]], device='cuda:0')
+Epoch 282, bias, value: tensor([-0.0486,  0.0179,  0.0054, -0.0093, -0.0040,  0.0064, -0.0183,  0.0359,
+        -0.0153,  0.0110], device='cuda:0'), grad: tensor([ 0.0109, -0.0081, -0.0174, -0.0022, -0.0222,  0.0215,  0.0181, -0.0015,
+         0.0100, -0.0091], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 281, time 215.43, cls_loss 0.5485 cls_loss_mapping 0.0029 cls_loss_causal 0.4880 re_mapping 0.0108 re_causal 0.0240 /// teacc 98.90 lr 0.00010000
+Epoch 283, weight, value: tensor([[-0.1856, -0.0196,  0.0269,  ..., -0.0254, -0.0737, -0.1240],
+        [-0.0405, -0.0921,  0.0285,  ...,  0.0413, -0.0148, -0.0940],
+        [-0.0564, -0.0641, -0.1066,  ...,  0.0441, -0.0478, -0.0994],
+        ...,
+        [-0.0609,  0.0307,  0.0233,  ...,  0.0279, -0.0469, -0.0898],
+        [-0.0745, -0.0056,  0.0223,  ...,  0.0595, -0.0398, -0.1529],
+        [ 0.0564,  0.0590, -0.0498,  ..., -0.1058, -0.0175,  0.0736]],
+       device='cuda:0'), grad: tensor([[ 1.6838e-06,  2.5415e-04,  5.8975e-03,  ...,  1.3306e-02,
+          7.9956e-03,  1.3150e-06],
+        [ 3.7253e-07,  2.1210e-03,  2.7084e-03,  ...,  1.3103e-03,
+          2.3956e-03,  1.2070e-06],
+        [ 8.3260e-07,  3.8218e-04,  4.4990e-04,  ..., -5.6934e-04,
+         -1.8730e-03,  2.1756e-06],
+        ...,
+        [ 2.2054e-05,  8.3494e-04,  2.5201e-04,  ..., -2.6569e-03,
+         -1.0567e-03,  3.9458e-05],
+        [ 8.4698e-05,  5.6553e-04,  8.3685e-04,  ...,  5.2834e-04,
+          1.0633e-03,  1.1110e-04],
+        [-1.3322e-05,  1.5249e-03, -1.5091e-02,  ...,  1.1654e-03,
+         -6.8235e-04,  1.5843e-04]], device='cuda:0')
+Epoch 283, bias, value: tensor([-0.0490,  0.0193,  0.0055, -0.0095, -0.0050,  0.0065, -0.0182,  0.0357,
+        -0.0164,  0.0119], device='cuda:0'), grad: tensor([ 0.0511,  0.0485, -0.0213, -0.0182,  0.0036, -0.0198,  0.0185, -0.0329,
+         0.0171, -0.0467], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 282, time 214.72, cls_loss 0.5596 cls_loss_mapping 0.0037 cls_loss_causal 0.4937 re_mapping 0.0103 re_causal 0.0238 /// teacc 98.93 lr 0.00010000
+Epoch 284, weight, value: tensor([[-0.1862, -0.0193,  0.0266,  ..., -0.0257, -0.0739, -0.1236],
+        [-0.0414, -0.0933,  0.0287,  ...,  0.0412, -0.0147, -0.0942],
+        [-0.0573, -0.0654, -0.1076,  ...,  0.0436, -0.0459, -0.0997],
+        ...,
+        [-0.0612,  0.0298,  0.0229,  ...,  0.0284, -0.0468, -0.0900],
+        [-0.0747, -0.0060,  0.0225,  ...,  0.0594, -0.0403, -0.1531],
+        [ 0.0576,  0.0597, -0.0505,  ..., -0.1058, -0.0175,  0.0746]],
+       device='cuda:0'), grad: tensor([[ 4.6313e-05,  8.4281e-05,  4.3303e-05,  ...,  1.7643e-04,
+         -9.2545e-03,  2.2161e-04],
+        [ 1.3307e-05,  3.4761e-04, -1.7192e-06,  ...,  1.1104e-04,
+         -1.4820e-03,  3.0488e-05],
+        [ 2.4867e-04,  8.5878e-04,  2.2829e-05,  ...,  1.2484e-03,
+         -4.6997e-03,  2.9683e-04],
+        ...,
+        [ 1.0788e-05, -4.1313e-03,  6.8396e-06,  ..., -4.7340e-03,
+          7.9966e-04,  3.0503e-05],
+        [ 3.4809e-04,  1.5421e-03,  1.0961e-04,  ...,  1.6432e-03,
+          2.0523e-03,  1.0796e-03],
+        [ 1.6212e-05,  5.4264e-04,  1.7077e-05,  ...,  1.5163e-03,
+          3.3436e-03,  2.1267e-04]], device='cuda:0')
+Epoch 284, bias, value: tensor([-0.0495,  0.0187,  0.0052, -0.0086, -0.0061,  0.0070, -0.0170,  0.0360,
+        -0.0176,  0.0129], device='cuda:0'), grad: tensor([-0.0054,  0.0098,  0.0129, -0.0042, -0.0427, -0.0192,  0.0208, -0.0054,
+         0.0271,  0.0063], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 283, time 214.81, cls_loss 0.5475 cls_loss_mapping 0.0045 cls_loss_causal 0.4940 re_mapping 0.0104 re_causal 0.0236 /// teacc 98.83 lr 0.00010000
+Epoch 285, weight, value: tensor([[-0.1856, -0.0199,  0.0255,  ..., -0.0270, -0.0727, -0.1239],
+        [-0.0413, -0.0937,  0.0285,  ...,  0.0402, -0.0144, -0.0947],
+        [-0.0563, -0.0661, -0.1071,  ...,  0.0436, -0.0441, -0.0987],
+        ...,
+        [-0.0611,  0.0302,  0.0242,  ...,  0.0294, -0.0480, -0.0883],
+        [-0.0758, -0.0061,  0.0230,  ...,  0.0604, -0.0396, -0.1534],
+        [ 0.0585,  0.0596, -0.0517,  ..., -0.1055, -0.0176,  0.0729]],
+       device='cuda:0'), grad: tensor([[ 9.6858e-06,  6.3610e-04, -2.3346e-03,  ...,  6.2037e-04,
+         -4.7989e-03, -2.6189e-06],
+        [ 3.4943e-06,  7.3004e-04,  1.8096e-04,  ...,  6.0225e-04,
+          3.2210e-04,  1.0423e-05],
+        [ 5.5015e-05,  6.8378e-04,  3.1137e-04,  ...,  7.3099e-04,
+          6.1560e-04,  9.3699e-05],
+        ...,
+        [ 2.6178e-04,  1.1620e-02,  4.0197e-04,  ..., -3.7174e-03,
+          5.8603e-04,  3.0208e-04],
+        [ 3.5048e-04,  9.0122e-04,  4.6501e-03,  ...,  4.3526e-03,
+          4.7493e-03,  4.9639e-04],
+        [-7.9441e-04, -1.2199e-02, -3.7823e-03,  ..., -5.0020e-04,
+         -1.5583e-03,  4.0321e-03]], device='cuda:0')
+Epoch 285, bias, value: tensor([-0.0500,  0.0187,  0.0053, -0.0093, -0.0069,  0.0074, -0.0162,  0.0354,
+        -0.0172,  0.0135], device='cuda:0'), grad: tensor([ 0.0037,  0.0108,  0.0125,  0.0366, -0.0531,  0.0107,  0.0167,  0.0031,
+         0.0082, -0.0492], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 284, time 214.69, cls_loss 0.5412 cls_loss_mapping 0.0059 cls_loss_causal 0.4730 re_mapping 0.0104 re_causal 0.0230 /// teacc 98.84 lr 0.00010000
+Epoch 286, weight, value: tensor([[-0.1860, -0.0187,  0.0252,  ..., -0.0272, -0.0727, -0.1237],
+        [-0.0423, -0.0933,  0.0280,  ...,  0.0408, -0.0146, -0.0964],
+        [-0.0576, -0.0660, -0.1080,  ...,  0.0435, -0.0442, -0.0992],
+        ...,
+        [-0.0616,  0.0300,  0.0243,  ...,  0.0284, -0.0479, -0.0886],
+        [-0.0755, -0.0062,  0.0232,  ...,  0.0602, -0.0389, -0.1542],
+        [ 0.0591,  0.0593, -0.0510,  ..., -0.1053, -0.0169,  0.0733]],
+       device='cuda:0'), grad: tensor([[ 2.8706e-04,  7.1287e-05,  4.9710e-05,  ...,  2.0075e-04,
+          1.6665e-04,  1.9789e-04],
+        [ 1.4000e-05,  1.3399e-03,  6.2361e-06,  ...,  1.5268e-03,
+          1.9014e-04,  3.6430e-04],
+        [ 1.1253e-04,  1.4079e-04, -1.1063e-04,  ...,  3.4571e-04,
+         -3.7823e-03, -1.9407e-03],
+        ...,
+        [-1.0586e-04, -6.5470e-04,  2.1473e-05,  ...,  1.7614e-03,
+          4.6158e-04, -1.9833e-05],
+        [ 1.7965e-04,  6.1750e-05,  1.2374e-04,  ...,  2.5153e-04,
+          1.4582e-03,  2.2876e-04],
+        [ 1.2779e-04,  1.5802e-03,  6.0618e-05,  ...,  2.5902e-03,
+          4.4489e-04,  1.3094e-03]], device='cuda:0')
+Epoch 286, bias, value: tensor([-0.0485,  0.0185,  0.0054, -0.0087, -0.0076,  0.0070, -0.0164,  0.0352,
+        -0.0175,  0.0136], device='cuda:0'), grad: tensor([ 0.0084,  0.0195, -0.0158, -0.0046, -0.0190,  0.0107, -0.0210,  0.0148,
+         0.0145, -0.0077], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 285, time 215.29, cls_loss 0.5383 cls_loss_mapping 0.0033 cls_loss_causal 0.4671 re_mapping 0.0106 re_causal 0.0240 /// teacc 98.88 lr 0.00010000
+Epoch 287, weight, value: tensor([[-0.1869, -0.0195,  0.0237,  ..., -0.0262, -0.0723, -0.1257],
+        [-0.0431, -0.0943,  0.0285,  ...,  0.0391, -0.0148, -0.0961],
+        [-0.0585, -0.0670, -0.1080,  ...,  0.0445, -0.0437, -0.0992],
+        ...,
+        [-0.0622,  0.0309,  0.0257,  ...,  0.0295, -0.0476, -0.0887],
+        [-0.0751, -0.0064,  0.0243,  ...,  0.0582, -0.0410, -0.1542],
+        [ 0.0589,  0.0594, -0.0526,  ..., -0.1079, -0.0162,  0.0729]],
+       device='cuda:0'), grad: tensor([[ 4.0084e-05,  1.9855e-03,  7.1955e-04,  ...,  4.5204e-03,
+          5.5361e-04,  1.0145e-04],
+        [ 6.3069e-06,  1.7107e-04, -1.7920e-03,  ..., -1.3237e-03,
+         -6.0425e-03,  3.9339e-05],
+        [ 1.0520e-05, -2.2340e-04,  6.1369e-04,  ..., -1.2147e-04,
+          4.8733e-04, -4.8113e-04],
+        ...,
+        [ 5.2869e-05,  9.6655e-04, -3.1967e-03,  ..., -2.8706e-03,
+          6.0225e-04,  6.0380e-05],
+        [ 4.3392e-04,  5.1832e-04,  9.8801e-04,  ...,  1.3561e-03,
+          7.1573e-04,  3.7265e-04],
+        [ 5.0497e-04,  5.3978e-03,  4.9400e-04,  ...,  4.2953e-03,
+          7.9060e-04,  3.6860e-04]], device='cuda:0')
+Epoch 287, bias, value: tensor([-0.0492,  0.0171,  0.0062, -0.0082, -0.0073,  0.0068, -0.0161,  0.0352,
+        -0.0166,  0.0131], device='cuda:0'), grad: tensor([ 0.0413, -0.0098,  0.0154,  0.0081,  0.0010, -0.0135, -0.0634, -0.0453,
+         0.0277,  0.0386], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 286, time 217.09, cls_loss 0.5132 cls_loss_mapping 0.0030 cls_loss_causal 0.4464 re_mapping 0.0101 re_causal 0.0228 /// teacc 98.88 lr 0.00010000
+Epoch 288, weight, value: tensor([[-0.1864, -0.0206,  0.0241,  ..., -0.0280, -0.0727, -0.1259],
+        [-0.0431, -0.0945,  0.0293,  ...,  0.0380, -0.0151, -0.0952],
+        [-0.0579, -0.0683, -0.1085,  ...,  0.0437, -0.0446, -0.0998],
+        ...,
+        [-0.0632,  0.0313,  0.0259,  ...,  0.0301, -0.0474, -0.0905],
+        [-0.0757, -0.0070,  0.0239,  ...,  0.0597, -0.0406, -0.1548],
+        [ 0.0600,  0.0604, -0.0523,  ..., -0.1080, -0.0158,  0.0736]],
+       device='cuda:0'), grad: tensor([[ 1.8701e-05, -7.3776e-03,  4.1500e-06,  ..., -2.6894e-04,
+         -5.6763e-03,  2.0409e-04],
+        [ 7.1943e-05,  4.5323e-04, -2.3520e-04,  ...,  1.3027e-03,
+          6.2609e-04,  3.3045e-04],
+        [ 4.7016e-04,  2.5215e-03,  3.0518e-05,  ...,  6.5374e-04,
+          5.4626e-03,  3.7026e-04],
+        ...,
+        [ 4.7088e-05,  3.4332e-03,  2.9773e-05,  ..., -6.0806e-03,
+          5.2071e-03,  1.9658e-04],
+        [ 1.4520e-04, -4.2105e-04,  6.2823e-05,  ...,  1.3742e-03,
+          8.9407e-05,  4.0650e-04],
+        [ 1.1766e-04,  8.3494e-04,  5.6863e-05,  ...,  1.2875e-03,
+          1.1845e-03,  2.6917e-04]], device='cuda:0')
+Epoch 288, bias, value: tensor([-0.0508,  0.0170,  0.0058, -0.0076, -0.0070,  0.0063, -0.0154,  0.0361,
+        -0.0172,  0.0136], device='cuda:0'), grad: tensor([-0.0153,  0.0091,  0.0148, -0.0139, -0.0260,  0.0088,  0.0077, -0.0117,
+         0.0057,  0.0207], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 287, time 223.59, cls_loss 0.5242 cls_loss_mapping 0.0030 cls_loss_causal 0.4572 re_mapping 0.0102 re_causal 0.0233 /// teacc 98.93 lr 0.00010000
+Epoch 289, weight, value: tensor([[-0.1872, -0.0196,  0.0236,  ..., -0.0284, -0.0728, -0.1263],
+        [-0.0434, -0.0955,  0.0290,  ...,  0.0384, -0.0147, -0.0937],
+        [-0.0579, -0.0694, -0.1092,  ...,  0.0435, -0.0451, -0.1007],
+        ...,
+        [-0.0630,  0.0306,  0.0267,  ...,  0.0308, -0.0484, -0.0902],
+        [-0.0764, -0.0058,  0.0244,  ...,  0.0593, -0.0411, -0.1545],
+        [ 0.0593,  0.0606, -0.0521,  ..., -0.1087, -0.0151,  0.0729]],
+       device='cuda:0'), grad: tensor([[ 6.8247e-06,  3.9935e-04,  3.6340e-06,  ...,  1.8522e-05,
+          6.4278e-04,  4.7624e-05],
+        [ 1.5342e-04,  1.3361e-03,  3.6508e-07,  ...,  3.1233e-05,
+          4.9591e-04,  1.4329e-04],
+        [ 1.9855e-03,  5.6887e-04,  3.9697e-05,  ...,  4.8131e-06,
+         -4.6234e-03,  1.6317e-03],
+        ...,
+        [ 2.6369e-04, -1.7281e-03,  1.4317e-04,  ...,  1.5581e-04,
+         -7.1144e-04,  3.4952e-04],
+        [ 9.8825e-05, -2.0676e-03, -7.3314e-05,  ...,  7.8827e-06,
+          4.2844e-04,  2.3377e-04],
+        [ 5.5504e-04,  3.9005e-03,  1.0958e-03,  ...,  1.8787e-04,
+          5.0879e-04,  1.3170e-03]], device='cuda:0')
+Epoch 289, bias, value: tensor([-0.0508,  0.0184,  0.0058, -0.0083, -0.0072,  0.0067, -0.0160,  0.0366,
+        -0.0171,  0.0125], device='cuda:0'), grad: tensor([ 0.0198, -0.0068,  0.0039, -0.0138, -0.0248,  0.0222, -0.0367, -0.0017,
+         0.0185,  0.0193], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 288, time 222.80, cls_loss 0.5509 cls_loss_mapping 0.0038 cls_loss_causal 0.4724 re_mapping 0.0096 re_causal 0.0232 /// teacc 98.79 lr 0.00010000
+Epoch 290, weight, value: tensor([[-0.1875, -0.0194,  0.0234,  ..., -0.0280, -0.0725, -0.1276],
+        [-0.0452, -0.0960,  0.0287,  ...,  0.0386, -0.0143, -0.0920],
+        [-0.0574, -0.0693, -0.1097,  ...,  0.0431, -0.0451, -0.1018],
+        ...,
+        [-0.0617,  0.0313,  0.0273,  ...,  0.0305, -0.0500, -0.0896],
+        [-0.0771, -0.0056,  0.0245,  ...,  0.0601, -0.0397, -0.1549],
+        [ 0.0592,  0.0607, -0.0533,  ..., -0.1081, -0.0157,  0.0725]],
+       device='cuda:0'), grad: tensor([[ 8.4209e-04,  6.8918e-08,  8.5402e-04,  ...,  8.4352e-04,
+          5.1975e-04,  5.3978e-04],
+        [ 1.2243e-04,  1.9558e-07, -2.3422e-03,  ..., -2.2430e-03,
+         -1.0586e-03, -2.1271e-06],
+        [ 6.4468e-03,  4.9621e-06,  6.0129e-04,  ...,  8.0585e-04,
+          3.5238e-04,  9.1457e-04],
+        ...,
+        [-1.6998e-02,  1.2964e-06,  5.6267e-04,  ...,  7.8964e-04,
+          2.4629e-04, -1.3359e-05],
+        [ 5.9843e-04, -2.0653e-05,  4.3488e-04,  ..., -1.8978e-03,
+          2.3675e-04,  3.6120e-04],
+        [ 6.6757e-03,  4.6641e-06,  7.8154e-04,  ...,  9.9659e-04,
+          6.0749e-04,  3.2425e-04]], device='cuda:0')
+Epoch 290, bias, value: tensor([-0.0514,  0.0189,  0.0056, -0.0085, -0.0071,  0.0063, -0.0153,  0.0364,
+        -0.0167,  0.0125], device='cuda:0'), grad: tensor([ 0.0150, -0.0292,  0.0260,  0.0110,  0.0296,  0.0155, -0.0146,  0.0044,
+        -0.0200, -0.0378], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 289, time 223.38, cls_loss 0.5369 cls_loss_mapping 0.0039 cls_loss_causal 0.4663 re_mapping 0.0103 re_causal 0.0238 /// teacc 98.80 lr 0.00010000
+Epoch 291, weight, value: tensor([[-0.1872, -0.0187,  0.0241,  ..., -0.0275, -0.0727, -0.1273],
+        [-0.0458, -0.0974,  0.0294,  ...,  0.0398, -0.0151, -0.0914],
+        [-0.0582, -0.0696, -0.1094,  ...,  0.0425, -0.0439, -0.1014],
+        ...,
+        [-0.0602,  0.0313,  0.0272,  ...,  0.0320, -0.0507, -0.0900],
+        [-0.0770, -0.0055,  0.0246,  ...,  0.0594, -0.0383, -0.1549],
+        [ 0.0585,  0.0602, -0.0529,  ..., -0.1094, -0.0168,  0.0720]],
+       device='cuda:0'), grad: tensor([[ 2.5105e-04,  5.9605e-05, -5.9557e-04,  ..., -4.5228e-04,
+          5.6696e-04,  1.2495e-05],
+        [ 8.8755e-07,  3.8028e-05,  5.7983e-04,  ..., -2.6875e-03,
+          1.0090e-03,  1.4789e-06],
+        [ 5.4091e-05,  7.9012e-04,  7.2241e-04,  ...,  1.3847e-03,
+          4.2057e-04,  3.0696e-05],
+        ...,
+        [ 3.0971e-04,  2.2030e-04,  4.5538e-04,  ...,  1.5135e-03,
+          1.0319e-03,  6.6471e-04],
+        [ 2.1338e-04, -1.2569e-03,  4.5681e-04,  ..., -4.4479e-03,
+         -4.2191e-03,  3.0446e-04],
+        [-9.0265e-04, -6.0225e-04,  3.8505e-04,  ...,  9.9373e-04,
+          7.8583e-04, -1.4687e-03]], device='cuda:0')
+Epoch 291, bias, value: tensor([-0.0523,  0.0189,  0.0068, -0.0082, -0.0071,  0.0057, -0.0160,  0.0364,
+        -0.0161,  0.0123], device='cuda:0'), grad: tensor([ 0.0091,  0.0043, -0.0147,  0.0158,  0.0223,  0.0167, -0.0141, -0.0413,
+        -0.0117,  0.0136], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 290, time 223.76, cls_loss 0.5483 cls_loss_mapping 0.0041 cls_loss_causal 0.4836 re_mapping 0.0105 re_causal 0.0236 /// teacc 98.78 lr 0.00010000
+Epoch 292, weight, value: tensor([[-0.1865, -0.0175,  0.0247,  ..., -0.0274, -0.0722, -0.1278],
+        [-0.0463, -0.0974,  0.0291,  ...,  0.0398, -0.0161, -0.0918],
+        [-0.0590, -0.0704, -0.1092,  ...,  0.0432, -0.0434, -0.1012],
+        ...,
+        [-0.0606,  0.0306,  0.0273,  ...,  0.0306, -0.0532, -0.0906],
+        [-0.0762, -0.0061,  0.0240,  ...,  0.0599, -0.0394, -0.1552],
+        [ 0.0584,  0.0603, -0.0531,  ..., -0.1096, -0.0154,  0.0726]],
+       device='cuda:0'), grad: tensor([[ 2.8118e-05,  1.2852e-07,  6.5923e-05,  ...,  3.3402e-04,
+          5.3978e-04,  2.2256e-04],
+        [ 1.5900e-05,  1.4035e-06,  1.1998e-04,  ...,  5.2452e-04,
+          8.6689e-04,  1.4329e-04],
+        [ 1.5408e-05,  6.1207e-06,  6.3181e-04,  ..., -8.7500e-04,
+         -6.3419e-04,  3.7956e-04],
+        ...,
+        [ 7.6830e-05,  1.0179e-06,  1.4162e-04,  ...,  1.2312e-03,
+          1.8330e-03,  2.5415e-04],
+        [ 1.6069e-04, -7.1824e-06, -2.1229e-03,  ..., -4.7135e-04,
+         -6.8626e-03,  2.2030e-04],
+        [-3.2163e-04,  8.3148e-06,  3.2854e-04,  ...,  7.7724e-04,
+          1.6975e-03,  1.4186e-04]], device='cuda:0')
+Epoch 292, bias, value: tensor([-0.0518,  0.0182,  0.0069, -0.0082, -0.0071,  0.0048, -0.0152,  0.0357,
+        -0.0155,  0.0127], device='cuda:0'), grad: tensor([-0.0259,  0.0230,  0.0157,  0.0319, -0.0395, -0.0595,  0.0247,  0.0025,
+        -0.0017,  0.0289], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 291, time 221.68, cls_loss 0.5284 cls_loss_mapping 0.0037 cls_loss_causal 0.4641 re_mapping 0.0102 re_causal 0.0241 /// teacc 98.80 lr 0.00010000
+Epoch 293, weight, value: tensor([[-0.1877, -0.0188,  0.0238,  ..., -0.0285, -0.0720, -0.1278],
+        [-0.0468, -0.0965,  0.0291,  ...,  0.0398, -0.0153, -0.0931],
+        [-0.0598, -0.0712, -0.1086,  ...,  0.0426, -0.0427, -0.1009],
+        ...,
+        [-0.0607,  0.0307,  0.0284,  ...,  0.0311, -0.0534, -0.0912],
+        [-0.0751, -0.0048,  0.0227,  ...,  0.0600, -0.0406, -0.1550],
+        [ 0.0581,  0.0605, -0.0528,  ..., -0.1090, -0.0160,  0.0725]],
+       device='cuda:0'), grad: tensor([[-2.6226e-06,  5.2154e-08, -2.1141e-07,  ..., -5.6610e-03,
+          9.3132e-08,  9.2462e-06],
+        [ 1.5087e-07,  2.3432e-06, -1.7546e-06,  ...,  6.7472e-05,
+          4.6082e-06,  3.0398e-06],
+        [ 6.6217e-07,  6.2957e-06,  9.4064e-08,  ...,  2.8687e-03,
+          1.2383e-05,  9.7975e-06],
+        ...,
+        [-2.2966e-06, -4.0799e-05,  5.6345e-07,  ...,  4.6587e-04,
+         -7.8201e-05,  9.2909e-06],
+        [ 3.3993e-07,  5.0738e-06,  4.4610e-07,  ..., -7.7581e-04,
+          9.9838e-06, -1.2598e-03],
+        [ 2.9713e-05,  8.9407e-07,  9.1553e-05,  ...,  1.1563e-04,
+          5.4277e-06, -3.5167e-05]], device='cuda:0')
+Epoch 293, bias, value: tensor([-0.0518,  0.0184,  0.0063, -0.0083, -0.0071,  0.0054, -0.0146,  0.0358,
+        -0.0161,  0.0126], device='cuda:0'), grad: tensor([-0.0182,  0.0102,  0.0247, -0.0395,  0.0097,  0.0230,  0.0176, -0.0182,
+         0.0090, -0.0183], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 292, time 220.63, cls_loss 0.5578 cls_loss_mapping 0.0033 cls_loss_causal 0.4917 re_mapping 0.0099 re_causal 0.0239 /// teacc 98.81 lr 0.00010000
+Epoch 294, weight, value: tensor([[-0.1872, -0.0190,  0.0237,  ..., -0.0290, -0.0733, -0.1267],
+        [-0.0492, -0.0969,  0.0287,  ...,  0.0394, -0.0158, -0.0930],
+        [-0.0602, -0.0713, -0.1075,  ...,  0.0433, -0.0432, -0.1001],
+        ...,
+        [-0.0611,  0.0310,  0.0290,  ...,  0.0315, -0.0529, -0.0910],
+        [-0.0750, -0.0049,  0.0218,  ...,  0.0600, -0.0394, -0.1555],
+        [ 0.0580,  0.0603, -0.0523,  ..., -0.1096, -0.0173,  0.0722]],
+       device='cuda:0'), grad: tensor([[ 1.1504e-05,  1.4193e-06,  3.5852e-05,  ...,  9.3937e-04,
+          1.0281e-03,  5.6103e-06],
+        [ 3.6359e-04,  3.5204e-07,  1.3947e-04,  ..., -8.6308e-04,
+         -4.1847e-03,  2.6152e-06],
+        [ 1.6987e-04,  1.3447e-04,  1.7858e-04,  ...,  1.9331e-03,
+          1.4744e-03,  1.7181e-05],
+        ...,
+        [ 2.3766e-03,  7.5158e-07,  9.8228e-04,  ...,  3.4008e-03,
+          4.0627e-03,  1.1474e-04],
+        [ 8.9169e-04, -2.7490e-04,  3.0422e-04,  ..., -1.4391e-03,
+          1.1463e-03,  7.9346e-04],
+        [-3.6564e-03,  1.3217e-05,  9.8765e-05,  ...,  1.2159e-03,
+          1.0700e-03, -3.4428e-04]], device='cuda:0')
+Epoch 294, bias, value: tensor([-0.0522,  0.0176,  0.0069, -0.0079, -0.0061,  0.0048, -0.0151,  0.0358,
+        -0.0162,  0.0128], device='cuda:0'), grad: tensor([ 0.0255, -0.0120,  0.0202, -0.0052, -0.0292,  0.0147, -0.0333,  0.0470,
+        -0.0117, -0.0160], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 293, time 219.96, cls_loss 0.5621 cls_loss_mapping 0.0055 cls_loss_causal 0.4946 re_mapping 0.0099 re_causal 0.0232 /// teacc 98.60 lr 0.00010000
+Epoch 295, weight, value: tensor([[-0.1874, -0.0191,  0.0233,  ..., -0.0285, -0.0734, -0.1265],
+        [-0.0494, -0.0969,  0.0304,  ...,  0.0389, -0.0152, -0.0935],
+        [-0.0596, -0.0720, -0.1068,  ...,  0.0438, -0.0434, -0.0998],
+        ...,
+        [-0.0601,  0.0307,  0.0297,  ...,  0.0313, -0.0528, -0.0915],
+        [-0.0751, -0.0043,  0.0221,  ...,  0.0600, -0.0389, -0.1561],
+        [ 0.0580,  0.0607, -0.0526,  ..., -0.1095, -0.0177,  0.0728]],
+       device='cuda:0'), grad: tensor([[ 5.3883e-05,  2.7940e-09,  9.4318e-04,  ...,  8.6248e-05,
+         -3.3545e-04,  4.9099e-06],
+        [ 6.1393e-05,  9.3132e-09,  2.5296e-04,  ...,  1.4877e-04,
+          1.4229e-03,  1.1563e-05],
+        [-1.5707e-03,  7.3854e-07, -2.9850e-03,  ..., -7.7629e-03,
+          8.9407e-04,  1.7688e-05],
+        ...,
+        [-6.6986e-03,  1.2014e-07, -8.0795e-03,  ...,  2.7161e-03,
+         -1.1749e-03, -5.7526e-03],
+        [ 1.4753e-03, -2.2650e-06,  3.6221e-03,  ...,  1.9569e-03,
+          4.5052e-03,  2.2733e-04],
+        [ 5.9624e-03,  9.4809e-07,  3.2654e-03,  ...,  2.2793e-03,
+         -1.2131e-02,  5.3940e-03]], device='cuda:0')
+Epoch 295, bias, value: tensor([-0.0501,  0.0184,  0.0058, -0.0094, -0.0064,  0.0050, -0.0159,  0.0366,
+        -0.0154,  0.0120], device='cuda:0'), grad: tensor([ 0.0263,  0.0090, -0.0314,  0.0144,  0.0205, -0.0127, -0.0139, -0.0413,
+         0.0228,  0.0061], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 294, time 222.79, cls_loss 0.5379 cls_loss_mapping 0.0036 cls_loss_causal 0.4739 re_mapping 0.0099 re_causal 0.0233 /// teacc 98.70 lr 0.00010000
+Epoch 296, weight, value: tensor([[-0.1875, -0.0190,  0.0224,  ..., -0.0282, -0.0746, -0.1268],
+        [-0.0486, -0.0971,  0.0311,  ...,  0.0390, -0.0147, -0.0933],
+        [-0.0587, -0.0719, -0.1073,  ...,  0.0438, -0.0423, -0.1000],
+        ...,
+        [-0.0612,  0.0302,  0.0287,  ...,  0.0300, -0.0535, -0.0919],
+        [-0.0754, -0.0046,  0.0227,  ...,  0.0604, -0.0386, -0.1565],
+        [ 0.0594,  0.0615, -0.0518,  ..., -0.1098, -0.0171,  0.0741]],
+       device='cuda:0'), grad: tensor([[ 1.2503e-03,  5.6833e-05,  4.5109e-04,  ...,  1.1625e-03,
+          2.4109e-03,  2.6170e-07],
+        [ 4.0740e-05, -1.0595e-03,  2.2149e-04,  ...,  3.7117e-03,
+         -3.7646e-04,  4.4890e-07],
+        [ 3.5906e-04,  2.6298e-04,  9.3937e-04,  ...,  1.8806e-03,
+          2.0790e-03,  6.4261e-07],
+        ...,
+        [-4.2915e-04,  6.9904e-04, -1.0920e-03,  ..., -3.5620e-04,
+          3.2444e-03,  7.3433e-05],
+        [-7.9193e-03, -2.2531e-04,  8.0442e-04,  ...,  1.7986e-03,
+         -2.6512e-04, -3.0472e-02],
+        [-1.1883e-03,  7.0691e-05, -1.4877e-03,  ..., -2.7752e-03,
+         -5.2490e-03, -1.0467e-04]], device='cuda:0')
+Epoch 296, bias, value: tensor([-0.0509,  0.0179,  0.0065, -0.0080, -0.0055,  0.0047, -0.0173,  0.0362,
+        -0.0144,  0.0112], device='cuda:0'), grad: tensor([ 0.0195,  0.0146,  0.0246,  0.0415, -0.0762,  0.0234, -0.0207,  0.0178,
+        -0.0212, -0.0234], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 295, time 224.00, cls_loss 0.5361 cls_loss_mapping 0.0048 cls_loss_causal 0.4633 re_mapping 0.0105 re_causal 0.0229 /// teacc 98.72 lr 0.00010000
+Epoch 297, weight, value: tensor([[-0.1886, -0.0189,  0.0217,  ..., -0.0284, -0.0751, -0.1269],
+        [-0.0482, -0.0973,  0.0336,  ...,  0.0408, -0.0130, -0.0925],
+        [-0.0591, -0.0714, -0.1073,  ...,  0.0437, -0.0426, -0.0996],
+        ...,
+        [-0.0617,  0.0289,  0.0279,  ...,  0.0285, -0.0543, -0.0928],
+        [-0.0742, -0.0056,  0.0223,  ...,  0.0617, -0.0390, -0.1551],
+        [ 0.0584,  0.0626, -0.0529,  ..., -0.1100, -0.0176,  0.0739]],
+       device='cuda:0'), grad: tensor([[-7.5483e-04, -1.2760e-03, -6.1798e-03,  ..., -6.7787e-03,
+         -2.6684e-03, -8.3542e-04],
+        [ 6.0320e-05,  1.4496e-04, -5.3940e-03,  ..., -9.5224e-04,
+         -3.3360e-03,  6.8486e-05],
+        [ 1.7095e-04,  1.6785e-04,  1.3018e-03,  ...,  9.4843e-04,
+          6.4659e-04,  1.1903e-04],
+        ...,
+        [-5.1155e-03,  6.5148e-05,  1.0881e-03,  ...,  5.9938e-04,
+          5.9843e-04, -2.2621e-03],
+        [ 3.9220e-04,  9.2363e-04,  3.8242e-03,  ...,  3.0155e-03,
+          1.7862e-03,  6.2752e-04],
+        [ 5.2185e-03,  4.1175e-04,  1.1539e-03,  ...,  7.7772e-04,
+          5.7220e-04,  2.3079e-03]], device='cuda:0')
+Epoch 297, bias, value: tensor([-0.0506,  0.0193,  0.0058, -0.0076, -0.0051,  0.0042, -0.0168,  0.0358,
+        -0.0146,  0.0101], device='cuda:0'), grad: tensor([-0.0464, -0.0315, -0.0163,  0.0345,  0.0091,  0.0046,  0.0070,  0.0052,
+         0.0194,  0.0145], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 296, time 223.50, cls_loss 0.5391 cls_loss_mapping 0.0040 cls_loss_causal 0.4681 re_mapping 0.0104 re_causal 0.0233 /// teacc 98.88 lr 0.00010000
+Epoch 298, weight, value: tensor([[-0.1887, -0.0196,  0.0228,  ..., -0.0289, -0.0751, -0.1271],
+        [-0.0480, -0.0970,  0.0346,  ...,  0.0405, -0.0126, -0.0929],
+        [-0.0602, -0.0717, -0.1075,  ...,  0.0438, -0.0419, -0.1002],
+        ...,
+        [-0.0631,  0.0303,  0.0277,  ...,  0.0295, -0.0537, -0.0939],
+        [-0.0721, -0.0044,  0.0227,  ...,  0.0620, -0.0392, -0.1555],
+        [ 0.0602,  0.0622, -0.0528,  ..., -0.1101, -0.0189,  0.0756]],
+       device='cuda:0'), grad: tensor([[6.1631e-05, 1.3329e-05, 7.9393e-05,  ..., 2.3496e-04, 2.4498e-05,
+         6.8784e-05],
+        [1.5959e-05, 2.4159e-06, 6.6310e-06,  ..., 3.2463e-03, 2.8327e-05,
+         1.7881e-05],
+        [1.1854e-03, 6.7174e-05, 1.1349e-03,  ..., 1.4095e-03, 1.3638e-04,
+         1.2417e-03],
+        ...,
+        [2.4605e-04, 2.6917e-04, 2.3389e-04,  ..., 1.3189e-03, 3.2210e-04,
+         3.6979e-04],
+        [3.4547e-04, 2.2918e-05, 3.2043e-04,  ..., 9.0170e-04, 7.3254e-05,
+         3.5644e-04],
+        [1.9819e-05, 1.2875e-04, 9.8884e-05,  ..., 5.2786e-04, 1.4615e-04,
+         1.0049e-04]], device='cuda:0')
+Epoch 298, bias, value: tensor([-0.0522,  0.0200,  0.0068, -0.0076, -0.0061,  0.0040, -0.0162,  0.0366,
+        -0.0147,  0.0097], device='cuda:0'), grad: tensor([ 0.0146,  0.0244, -0.0305,  0.0321,  0.0033, -0.0323,  0.0021,  0.0280,
+        -0.0406, -0.0011], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 297, time 217.27, cls_loss 0.5486 cls_loss_mapping 0.0042 cls_loss_causal 0.4831 re_mapping 0.0098 re_causal 0.0232 /// teacc 98.82 lr 0.00010000
+Epoch 299, weight, value: tensor([[-0.1881, -0.0193,  0.0231,  ..., -0.0297, -0.0752, -0.1270],
+        [-0.0480, -0.0975,  0.0341,  ...,  0.0405, -0.0134, -0.0932],
+        [-0.0614, -0.0718, -0.1074,  ...,  0.0437, -0.0421, -0.1015],
+        ...,
+        [-0.0633,  0.0305,  0.0284,  ...,  0.0286, -0.0534, -0.0926],
+        [-0.0724, -0.0050,  0.0223,  ...,  0.0622, -0.0388, -0.1552],
+        [ 0.0607,  0.0627, -0.0529,  ..., -0.1093, -0.0194,  0.0756]],
+       device='cuda:0'), grad: tensor([[ 3.5793e-05,  4.8447e-03, -1.3733e-04,  ...,  2.9063e-04,
+          1.5223e-04,  2.7046e-05],
+        [ 1.4104e-05,  2.6971e-06,  1.5175e-04,  ...,  8.3160e-04,
+          4.0340e-04,  4.5709e-06],
+        [-1.2994e-04,  1.4505e-03,  2.1362e-04,  ...,  7.2289e-04,
+          3.8242e-04,  6.0946e-05],
+        ...,
+        [ 4.0007e-04,  1.8752e-04,  1.0794e-04,  ...,  4.5228e-04,
+          2.5249e-04,  5.4121e-04],
+        [ 7.2479e-05,  3.3035e-03,  9.2566e-05,  ...,  1.0099e-03,
+          3.0255e-04,  1.7369e-04],
+        [-5.9366e-04, -9.6207e-03,  4.8876e-05,  ..., -2.1992e-03,
+         -2.5988e-04, -1.0138e-03]], device='cuda:0')
+Epoch 299, bias, value: tensor([-0.0513,  0.0206,  0.0056, -0.0085, -0.0046,  0.0051, -0.0166,  0.0358,
+        -0.0150,  0.0096], device='cuda:0'), grad: tensor([ 2.9510e-02,  2.2552e-02,  4.9683e-02, -4.4861e-02, -1.0498e-02,
+         2.1114e-03,  2.4109e-02,  1.9302e-02,  6.0201e-05, -9.1980e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 298, time 215.13, cls_loss 0.5370 cls_loss_mapping 0.0041 cls_loss_causal 0.4698 re_mapping 0.0098 re_causal 0.0228 /// teacc 98.78 lr 0.00010000
+Epoch 300, weight, value: tensor([[-0.1889, -0.0195,  0.0231,  ..., -0.0308, -0.0766, -0.1269],
+        [-0.0500, -0.0954,  0.0343,  ...,  0.0414, -0.0132, -0.0931],
+        [-0.0613, -0.0718, -0.1073,  ...,  0.0436, -0.0423, -0.1018],
+        ...,
+        [-0.0622,  0.0312,  0.0296,  ...,  0.0293, -0.0530, -0.0934],
+        [-0.0740, -0.0048,  0.0210,  ...,  0.0623, -0.0390, -0.1561],
+        [ 0.0610,  0.0621, -0.0538,  ..., -0.1111, -0.0188,  0.0776]],
+       device='cuda:0'), grad: tensor([[ 1.9610e-05, -1.8978e-04, -2.9469e-03,  ..., -8.8549e-04,
+         -1.4591e-03, -1.0643e-03],
+        [ 5.0735e-04,  4.3392e-05, -2.0523e-03,  ...,  2.0523e-03,
+         -1.9855e-03,  1.9455e-04],
+        [-7.8917e-04,  1.7285e-04, -3.5954e-03,  ..., -5.1079e-03,
+         -2.4128e-03,  3.2854e-04],
+        ...,
+        [ 4.1902e-05,  2.1565e-04,  1.6136e-03,  ..., -2.0301e-04,
+          8.2827e-04,  2.6941e-04],
+        [ 4.4733e-05, -4.2987e-04,  1.9894e-03,  ...,  1.5354e-04,
+          9.6846e-04,  5.1641e-04],
+        [ 2.0117e-05,  1.3925e-05,  1.0042e-03,  ..., -3.8099e-04,
+          6.7997e-04, -5.5084e-03]], device='cuda:0')
+Epoch 300, bias, value: tensor([-0.0532,  0.0205,  0.0065, -0.0099, -0.0038,  0.0048, -0.0161,  0.0363,
+        -0.0160,  0.0114], device='cuda:0'), grad: tensor([-0.0105,  0.0018, -0.0087,  0.0152, -0.0170,  0.0116,  0.0274, -0.0151,
+         0.0150, -0.0197], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 299, time 214.57, cls_loss 0.5294 cls_loss_mapping 0.0036 cls_loss_causal 0.4671 re_mapping 0.0098 re_causal 0.0228 /// teacc 98.76 lr 0.00010000
+Epoch 301, weight, value: tensor([[-0.1894, -0.0198,  0.0232,  ..., -0.0315, -0.0780, -0.1269],
+        [-0.0503, -0.0963,  0.0354,  ...,  0.0404, -0.0133, -0.0932],
+        [-0.0615, -0.0739, -0.1064,  ...,  0.0439, -0.0425, -0.1016],
+        ...,
+        [-0.0635,  0.0308,  0.0280,  ...,  0.0291, -0.0542, -0.0929],
+        [-0.0732, -0.0039,  0.0223,  ...,  0.0621, -0.0392, -0.1551],
+        [ 0.0612,  0.0619, -0.0524,  ..., -0.1104, -0.0171,  0.0760]],
+       device='cuda:0'), grad: tensor([[ 5.7650e-04,  1.9884e-04,  2.4724e-04,  ..., -5.9986e-04,
+         -6.7787e-03,  3.0965e-05],
+        [-1.7653e-03,  8.2493e-05, -4.6234e-03,  ..., -2.3499e-03,
+         -7.8392e-04, -7.4148e-04],
+        [ 1.2094e-04, -1.3294e-03,  1.9288e-04,  ..., -4.1199e-03,
+         -1.2085e-02,  3.0100e-05],
+        ...,
+        [ 1.9455e-04,  1.1797e-03,  1.3514e-03,  ...,  2.0599e-03,
+          5.8136e-03,  6.7139e-04],
+        [-8.6546e-05,  1.5199e-04, -2.6488e-04,  ...,  3.5000e-04,
+          1.5574e-03,  8.0764e-05],
+        [ 9.9850e-04,  3.2654e-02,  1.3218e-03,  ...,  1.3494e-03,
+          3.5477e-03,  1.7075e-02]], device='cuda:0')
+Epoch 301, bias, value: tensor([-0.0523,  0.0195,  0.0052, -0.0100, -0.0030,  0.0050, -0.0161,  0.0361,
+        -0.0153,  0.0113], device='cuda:0'), grad: tensor([-0.0446, -0.0317, -0.0206,  0.0198, -0.0310,  0.0208, -0.0168,  0.0237,
+         0.0133,  0.0670], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 300, time 214.65, cls_loss 0.5254 cls_loss_mapping 0.0032 cls_loss_causal 0.4577 re_mapping 0.0101 re_causal 0.0224 /// teacc 98.85 lr 0.00010000
+Epoch 302, weight, value: tensor([[-0.1898, -0.0195,  0.0231,  ..., -0.0311, -0.0794, -0.1261],
+        [-0.0512, -0.0963,  0.0335,  ...,  0.0405, -0.0136, -0.0934],
+        [-0.0610, -0.0741, -0.1061,  ...,  0.0443, -0.0422, -0.1020],
+        ...,
+        [-0.0642,  0.0312,  0.0280,  ...,  0.0276, -0.0545, -0.0942],
+        [-0.0732, -0.0044,  0.0224,  ...,  0.0628, -0.0381, -0.1557],
+        [ 0.0603,  0.0616, -0.0517,  ..., -0.1100, -0.0169,  0.0757]],
+       device='cuda:0'), grad: tensor([[ 9.5181e-07,  1.0669e-04,  2.4891e-04,  ...,  4.3273e-04,
+          1.1301e-03,  2.9616e-07],
+        [ 4.7684e-07,  2.4354e-04, -1.8778e-03,  ..., -1.7033e-03,
+         -3.6545e-03,  1.0990e-05],
+        [ 1.8299e-05,  6.2704e-05,  3.7503e-04,  ...,  5.4169e-04,
+          1.4734e-03,  1.5005e-05],
+        ...,
+        [ 1.0103e-04,  8.4400e-05,  1.4806e-04,  ..., -3.4962e-03,
+         -3.7479e-03,  1.2374e-04],
+        [-2.5892e-04,  1.4038e-03,  2.2328e-04,  ...,  5.1832e-04,
+         -2.0618e-03,  2.7084e-04],
+        [ 2.6468e-06, -2.3819e-02,  1.2577e-04,  ...,  1.5602e-03,
+          1.9398e-03, -5.2786e-04]], device='cuda:0')
+Epoch 302, bias, value: tensor([-0.0532,  0.0192,  0.0057, -0.0099, -0.0038,  0.0057, -0.0158,  0.0351,
+        -0.0150,  0.0126], device='cuda:0'), grad: tensor([-0.0176, -0.0349,  0.0150,  0.0181,  0.0426,  0.0143, -0.0146, -0.0017,
+        -0.0112, -0.0099], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 301, time 214.78, cls_loss 0.5361 cls_loss_mapping 0.0035 cls_loss_causal 0.4792 re_mapping 0.0098 re_causal 0.0227 /// teacc 98.90 lr 0.00010000
+Epoch 303, weight, value: tensor([[-0.1902, -0.0196,  0.0239,  ..., -0.0309, -0.0795, -0.1263],
+        [-0.0524, -0.0968,  0.0331,  ...,  0.0408, -0.0149, -0.0933],
+        [-0.0610, -0.0741, -0.1059,  ...,  0.0443, -0.0401, -0.1026],
+        ...,
+        [-0.0654,  0.0306,  0.0275,  ...,  0.0271, -0.0553, -0.0945],
+        [-0.0739, -0.0043,  0.0230,  ...,  0.0629, -0.0385, -0.1567],
+        [ 0.0605,  0.0621, -0.0518,  ..., -0.1087, -0.0180,  0.0770]],
+       device='cuda:0'), grad: tensor([[ 6.6876e-05,  6.3467e-04,  9.5320e-04,  ...,  4.6349e-04,
+         -1.5154e-03,  7.5400e-06],
+        [ 1.1653e-04,  1.2436e-03,  1.2102e-03,  ...,  1.9274e-03,
+         -5.5122e-03,  7.5176e-06],
+        [ 4.2737e-05,  2.3823e-03, -2.8915e-03,  ...,  1.5707e-03,
+         -2.0771e-03,  9.2924e-05],
+        ...,
+        [-7.7934e-03, -4.7874e-03, -1.1339e-03,  ..., -1.2253e-02,
+         -1.7691e-03, -1.6146e-03],
+        [ 2.5845e-04,  1.3847e-03, -5.2109e-03,  ...,  1.2407e-03,
+          1.8711e-03,  4.1783e-05],
+        [ 1.8415e-03,  7.3481e-04,  1.7643e-03,  ...,  1.6174e-03,
+          1.6890e-03,  3.6383e-04]], device='cuda:0')
+Epoch 303, bias, value: tensor([-0.0529,  0.0192,  0.0069, -0.0107, -0.0038,  0.0050, -0.0148,  0.0348,
+        -0.0151,  0.0121], device='cuda:0'), grad: tensor([-0.0179, -0.0053,  0.0127,  0.0289, -0.0083,  0.0372, -0.0071, -0.0334,
+        -0.0050, -0.0019], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 302, time 214.74, cls_loss 0.5180 cls_loss_mapping 0.0043 cls_loss_causal 0.4589 re_mapping 0.0098 re_causal 0.0222 /// teacc 98.72 lr 0.00010000
+Epoch 304, weight, value: tensor([[-0.1914, -0.0183,  0.0241,  ..., -0.0314, -0.0788, -0.1276],
+        [-0.0530, -0.0973,  0.0341,  ...,  0.0406, -0.0133, -0.0936],
+        [-0.0597, -0.0751, -0.1055,  ...,  0.0446, -0.0397, -0.1030],
+        ...,
+        [-0.0645,  0.0302,  0.0285,  ...,  0.0275, -0.0548, -0.0945],
+        [-0.0738, -0.0036,  0.0233,  ...,  0.0632, -0.0384, -0.1571],
+        [ 0.0609,  0.0620, -0.0515,  ..., -0.1088, -0.0182,  0.0778]],
+       device='cuda:0'), grad: tensor([[ 2.1780e-04,  5.2989e-05,  5.9605e-04,  ...,  5.7030e-04,
+          5.3883e-04,  7.5197e-04],
+        [ 2.0254e-04,  8.3160e-04,  1.1282e-03,  ...,  1.3885e-03,
+          2.7409e-03,  1.3697e-04],
+        [ 1.0353e-04,  2.0802e-04,  3.1447e-04,  ..., -1.2074e-03,
+          2.4557e-04,  5.9652e-04],
+        ...,
+        [ 8.8310e-04,  3.2692e-03,  3.9625e-04,  ...,  1.6689e-04,
+         -4.0131e-03,  6.4325e-04],
+        [-1.6308e-03,  4.9744e-03, -4.7035e-03,  ..., -4.5471e-03,
+         -2.6646e-03, -2.7866e-03],
+        [-4.4179e-04, -1.0712e-02, -3.2272e-03,  ..., -4.6206e-04,
+         -5.8746e-04, -1.0521e-02]], device='cuda:0')
+Epoch 304, bias, value: tensor([-0.0524,  0.0200,  0.0067, -0.0092, -0.0038,  0.0038, -0.0148,  0.0340,
+        -0.0146,  0.0110], device='cuda:0'), grad: tensor([-0.0206,  0.0358, -0.0207,  0.0426,  0.0085,  0.0170,  0.0146, -0.0395,
+        -0.0039, -0.0338], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 303, time 214.50, cls_loss 0.5794 cls_loss_mapping 0.0046 cls_loss_causal 0.5229 re_mapping 0.0103 re_causal 0.0245 /// teacc 98.88 lr 0.00010000
+Epoch 305, weight, value: tensor([[-0.1913, -0.0184,  0.0239,  ..., -0.0319, -0.0770, -0.1292],
+        [-0.0522, -0.0981,  0.0338,  ...,  0.0407, -0.0153, -0.0937],
+        [-0.0605, -0.0754, -0.1052,  ...,  0.0441, -0.0395, -0.1017],
+        ...,
+        [-0.0646,  0.0305,  0.0292,  ...,  0.0287, -0.0540, -0.0947],
+        [-0.0732, -0.0050,  0.0220,  ...,  0.0632, -0.0390, -0.1574],
+        [ 0.0605,  0.0616, -0.0511,  ..., -0.1094, -0.0182,  0.0787]],
+       device='cuda:0'), grad: tensor([[ 3.3569e-04,  3.7253e-09,  1.0424e-03,  ...,  3.1137e-04,
+          1.9236e-03,  6.2275e-04],
+        [ 2.8849e-04,  5.5879e-09,  6.4945e-04,  ...,  1.4830e-04,
+          2.5711e-03,  3.4124e-05],
+        [ 2.7132e-04,  5.5879e-09, -1.5564e-03,  ..., -1.5278e-03,
+          4.5586e-03,  3.6669e-04],
+        ...,
+        [ 1.7142e-04, -1.2014e-06, -9.0332e-03,  ...,  9.2804e-05,
+         -2.7512e-02,  1.3781e-04],
+        [ 1.7414e-03, -1.0841e-06,  4.4289e-03,  ...,  2.7275e-04,
+          1.2535e-02,  9.4748e-04],
+        [ 1.0240e-04,  7.1712e-07, -1.0872e-03,  ...,  1.9407e-04,
+          3.7880e-03, -8.7643e-04]], device='cuda:0')
+Epoch 305, bias, value: tensor([-0.0523,  0.0199,  0.0066, -0.0100, -0.0037,  0.0041, -0.0141,  0.0345,
+        -0.0156,  0.0114], device='cuda:0'), grad: tensor([ 0.0171,  0.0141,  0.0056, -0.0455, -0.0305,  0.0328, -0.0052, -0.0154,
+         0.0114,  0.0155], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 304, time 214.64, cls_loss 0.5419 cls_loss_mapping 0.0031 cls_loss_causal 0.4713 re_mapping 0.0108 re_causal 0.0246 /// teacc 98.85 lr 0.00010000
+Epoch 306, weight, value: tensor([[-0.1907, -0.0187,  0.0246,  ..., -0.0329, -0.0776, -0.1307],
+        [-0.0523, -0.0985,  0.0326,  ...,  0.0423, -0.0157, -0.0948],
+        [-0.0602, -0.0763, -0.1055,  ...,  0.0433, -0.0400, -0.1003],
+        ...,
+        [-0.0644,  0.0300,  0.0292,  ...,  0.0291, -0.0534, -0.0945],
+        [-0.0736, -0.0038,  0.0211,  ...,  0.0630, -0.0374, -0.1589],
+        [ 0.0615,  0.0617, -0.0518,  ..., -0.1087, -0.0180,  0.0790]],
+       device='cuda:0'), grad: tensor([[ 2.6274e-04,  3.7909e-05,  1.1921e-04,  ...,  2.2340e-04,
+          3.6716e-04,  4.8518e-04],
+        [ 2.0266e-06, -9.8801e-04,  1.3299e-05,  ...,  3.2091e-04,
+          4.2200e-04,  2.6241e-05],
+        [ 2.4587e-05,  1.1759e-03,  8.4192e-06,  ...,  1.5049e-03,
+          3.0541e-04,  2.9778e-04],
+        ...,
+        [ 5.2601e-05, -3.1013e-03,  3.9458e-04,  ..., -3.5801e-03,
+          8.9645e-04,  4.2343e-04],
+        [ 1.6421e-05,  2.9039e-04,  4.9710e-05,  ..., -3.9768e-04,
+          3.1829e-04,  2.5225e-04],
+        [-1.2708e-04,  2.0075e-04, -9.6750e-04,  ..., -4.3035e-04,
+         -3.7022e-03, -9.5129e-04]], device='cuda:0')
+Epoch 306, bias, value: tensor([-0.0517,  0.0200,  0.0057, -0.0093, -0.0042,  0.0042, -0.0147,  0.0352,
+        -0.0163,  0.0119], device='cuda:0'), grad: tensor([-0.0078, -0.0175, -0.0126,  0.0184,  0.0260, -0.0190, -0.0081,  0.0221,
+         0.0179, -0.0192], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 305, time 214.97, cls_loss 0.5196 cls_loss_mapping 0.0028 cls_loss_causal 0.4634 re_mapping 0.0104 re_causal 0.0234 /// teacc 98.75 lr 0.00010000
+Epoch 307, weight, value: tensor([[-0.1910, -0.0178,  0.0262,  ..., -0.0325, -0.0773, -0.1315],
+        [-0.0529, -0.0973,  0.0332,  ...,  0.0438, -0.0155, -0.0948],
+        [-0.0586, -0.0765, -0.1060,  ...,  0.0427, -0.0405, -0.1006],
+        ...,
+        [-0.0632,  0.0311,  0.0288,  ...,  0.0293, -0.0529, -0.0944],
+        [-0.0729, -0.0047,  0.0206,  ...,  0.0641, -0.0359, -0.1589],
+        [ 0.0611,  0.0617, -0.0520,  ..., -0.1095, -0.0185,  0.0787]],
+       device='cuda:0'), grad: tensor([[ 2.2985e-06,  8.4639e-05, -1.2014e-06,  ...,  1.0433e-03,
+          6.1512e-05,  1.1760e-04],
+        [ 2.5555e-05,  1.3132e-03,  5.6535e-05,  ...,  4.0588e-03,
+          8.9407e-04,  1.3018e-03],
+        [ 8.3625e-05,  1.4868e-03,  2.0754e-04,  ...,  3.8357e-03,
+          1.1575e-04,  1.2131e-03],
+        ...,
+        [-1.3947e-04, -2.4128e-04, -3.2353e-04,  ..., -8.5220e-03,
+          1.8501e-04,  2.0671e-04],
+        [ 1.6463e-04, -8.7917e-05,  7.7486e-06,  ...,  3.8929e-03,
+          1.5869e-03,  1.1044e-03],
+        [ 2.0766e-04, -4.0016e-03,  1.0002e-04,  ...,  1.7118e-04,
+          1.9574e-04, -4.3182e-03]], device='cuda:0')
+Epoch 307, bias, value: tensor([-0.0518,  0.0207,  0.0055, -0.0099, -0.0045,  0.0051, -0.0153,  0.0363,
+        -0.0163,  0.0110], device='cuda:0'), grad: tensor([-0.0058,  0.0475,  0.0369, -0.0324, -0.0359, -0.0097, -0.0003, -0.0168,
+         0.0144,  0.0022], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 306, time 214.89, cls_loss 0.5246 cls_loss_mapping 0.0041 cls_loss_causal 0.4650 re_mapping 0.0096 re_causal 0.0210 /// teacc 98.79 lr 0.00010000
+Epoch 308, weight, value: tensor([[-0.1927, -0.0171,  0.0251,  ..., -0.0326, -0.0781, -0.1314],
+        [-0.0524, -0.0983,  0.0324,  ...,  0.0440, -0.0151, -0.0952],
+        [-0.0583, -0.0779, -0.1068,  ...,  0.0419, -0.0418, -0.1007],
+        ...,
+        [-0.0627,  0.0305,  0.0305,  ...,  0.0296, -0.0516, -0.0952],
+        [-0.0722, -0.0055,  0.0209,  ...,  0.0653, -0.0361, -0.1591],
+        [ 0.0601,  0.0630, -0.0518,  ..., -0.1102, -0.0180,  0.0797]],
+       device='cuda:0'), grad: tensor([[ 2.2873e-06,  2.0981e-04,  1.7242e-03,  ...,  1.2779e-03,
+          1.7319e-03,  1.2851e-04],
+        [ 9.3505e-07,  3.9721e-04, -1.9722e-03,  ..., -1.5459e-03,
+         -6.6280e-04,  1.2338e-04],
+        [ 3.0503e-05, -5.1117e-03, -1.0246e-02,  ..., -6.9466e-03,
+         -1.4336e-02, -1.9825e-04],
+        ...,
+        [ 1.2323e-05,  5.8174e-04,  1.4839e-03,  ...,  9.1171e-04,
+          2.2411e-03,  5.3644e-04],
+        [ 1.1277e-04,  1.6117e-03,  3.4580e-03,  ...,  8.4305e-04,
+          1.6146e-03,  2.1057e-03],
+        [-9.9301e-05,  3.2258e-04,  1.4820e-03,  ...,  1.2150e-03,
+          1.7653e-03,  1.1082e-03]], device='cuda:0')
+Epoch 308, bias, value: tensor([-0.0519,  0.0201,  0.0041, -0.0109, -0.0035,  0.0050, -0.0150,  0.0364,
+        -0.0152,  0.0115], device='cuda:0'), grad: tensor([ 0.0115, -0.0084, -0.0622,  0.0216,  0.0213, -0.0311,  0.0156,  0.0145,
+         0.0327, -0.0155], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 307, time 214.68, cls_loss 0.5572 cls_loss_mapping 0.0029 cls_loss_causal 0.4933 re_mapping 0.0098 re_causal 0.0222 /// teacc 98.95 lr 0.00010000
+Epoch 309, weight, value: tensor([[-0.1922, -0.0176,  0.0246,  ..., -0.0332, -0.0781, -0.1316],
+        [-0.0534, -0.0953,  0.0316,  ...,  0.0458, -0.0157, -0.0948],
+        [-0.0582, -0.0796, -0.1063,  ...,  0.0402, -0.0418, -0.1018],
+        ...,
+        [-0.0632,  0.0309,  0.0294,  ...,  0.0282, -0.0531, -0.0947],
+        [-0.0726, -0.0073,  0.0211,  ...,  0.0657, -0.0356, -0.1594],
+        [ 0.0606,  0.0634, -0.0516,  ..., -0.1110, -0.0185,  0.0801]],
+       device='cuda:0'), grad: tensor([[ 3.7998e-05,  3.0065e-04, -4.5013e-03,  ..., -1.0643e-03,
+         -7.3624e-04,  3.1829e-05],
+        [ 6.5708e-04,  1.5116e-03, -1.9855e-03,  ..., -2.5043e-03,
+         -5.6267e-03,  4.6396e-04],
+        [ 5.7125e-04, -4.4289e-03, -1.5221e-03,  ...,  4.9591e-03,
+          9.3307e-03,  4.0221e-04],
+        ...,
+        [ 3.3455e-03,  1.7681e-03,  2.0313e-03,  ...,  3.7537e-03,
+          1.3237e-03,  2.2488e-03],
+        [-7.8506e-03, -2.7256e-03,  2.8062e-04,  ..., -6.6032e-03,
+         -2.5582e-04, -5.3978e-03],
+        [ 1.3456e-03,  9.4700e-04, -1.1497e-02,  ...,  2.7618e-03,
+          1.0157e-03,  9.4032e-04]], device='cuda:0')
+Epoch 309, bias, value: tensor([-0.0513,  0.0206,  0.0042, -0.0105, -0.0036,  0.0058, -0.0156,  0.0356,
+        -0.0150,  0.0105], device='cuda:0'), grad: tensor([-0.0383, -0.0249,  0.0196, -0.0012,  0.0372,  0.0150,  0.0211, -0.0113,
+        -0.0151, -0.0022], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 308, time 214.59, cls_loss 0.5436 cls_loss_mapping 0.0029 cls_loss_causal 0.4858 re_mapping 0.0095 re_causal 0.0223 /// teacc 98.86 lr 0.00010000
+Epoch 310, weight, value: tensor([[-0.1917, -0.0146,  0.0256,  ..., -0.0322, -0.0784, -0.1316],
+        [-0.0530, -0.0942,  0.0307,  ...,  0.0450, -0.0177, -0.0928],
+        [-0.0585, -0.0815, -0.1071,  ...,  0.0409, -0.0406, -0.1039],
+        ...,
+        [-0.0641,  0.0294,  0.0307,  ...,  0.0275, -0.0521, -0.0935],
+        [-0.0721, -0.0060,  0.0221,  ...,  0.0666, -0.0359, -0.1591],
+        [ 0.0606,  0.0632, -0.0519,  ..., -0.1111, -0.0193,  0.0816]],
+       device='cuda:0'), grad: tensor([[ 1.7381e-04,  4.6849e-04,  2.6178e-04,  ...,  6.9094e-04,
+          8.7404e-04,  1.0359e-04],
+        [-1.1757e-02, -1.9989e-03,  8.5258e-04,  ..., -8.0185e-03,
+          3.1352e-04, -3.9520e-03],
+        [ 2.2447e-04,  2.1982e-04, -8.0049e-05,  ...,  8.1825e-04,
+          1.7673e-05,  5.2166e-04],
+        ...,
+        [ 6.6090e-04,  2.2717e-03,  1.5917e-03,  ...,  1.3361e-03,
+          6.0654e-04,  3.0947e-04],
+        [ 1.4944e-03, -1.1452e-02,  8.9550e-04,  ...,  9.2316e-04,
+          8.0729e-04,  7.2098e-04],
+        [ 3.9253e-03,  1.8738e-02, -6.6643e-03,  ...,  2.4872e-03,
+         -3.5019e-03, -6.9237e-04]], device='cuda:0')
+Epoch 310, bias, value: tensor([-0.0512,  0.0196,  0.0050, -0.0102, -0.0031,  0.0054, -0.0157,  0.0351,
+        -0.0148,  0.0107], device='cuda:0'), grad: tensor([ 0.0203, -0.0122,  0.0198, -0.0333,  0.0223,  0.0050,  0.0254,  0.0039,
+        -0.0568,  0.0054], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 309, time 214.67, cls_loss 0.5275 cls_loss_mapping 0.0039 cls_loss_causal 0.4649 re_mapping 0.0097 re_causal 0.0218 /// teacc 98.82 lr 0.00010000
+Epoch 311, weight, value: tensor([[-0.1923, -0.0150,  0.0261,  ..., -0.0320, -0.0791, -0.1313],
+        [-0.0521, -0.0938,  0.0313,  ...,  0.0458, -0.0172, -0.0935],
+        [-0.0587, -0.0823, -0.1088,  ...,  0.0409, -0.0409, -0.1042],
+        ...,
+        [-0.0620,  0.0297,  0.0310,  ...,  0.0271, -0.0524, -0.0922],
+        [-0.0725, -0.0066,  0.0240,  ...,  0.0659, -0.0364, -0.1591],
+        [ 0.0594,  0.0617, -0.0516,  ..., -0.1095, -0.0184,  0.0804]],
+       device='cuda:0'), grad: tensor([[ 1.1012e-05,  4.4131e-04,  1.1468e-04,  ...,  3.2473e-04,
+          2.5198e-05,  5.4789e-04],
+        [ 9.3639e-05,  2.0447e-03,  3.8266e-04,  ...,  2.4319e-03,
+          6.5267e-05,  3.2854e-04],
+        [ 3.6687e-05,  8.1778e-04,  3.4237e-04,  ...,  1.9252e-05,
+          9.0778e-05,  5.6887e-04],
+        ...,
+        [ 3.1013e-03, -6.6032e-03,  1.2917e-02,  ...,  1.4908e-02,
+          7.9536e-04, -1.7786e-03],
+        [-6.6012e-06,  1.7824e-03, -6.4049e-03,  ..., -1.7052e-03,
+          2.1565e-04,  7.5865e-04],
+        [-3.4447e-03,  2.4109e-03, -1.3084e-02,  ..., -2.1423e-02,
+         -2.1229e-03,  3.9911e-04]], device='cuda:0')
+Epoch 311, bias, value: tensor([-0.0509,  0.0196,  0.0053, -0.0101, -0.0028,  0.0044, -0.0154,  0.0343,
+        -0.0153,  0.0117], device='cuda:0'), grad: tensor([ 0.0103,  0.0170, -0.0278,  0.0123,  0.0060,  0.0098,  0.0166,  0.0035,
+         0.0125, -0.0602], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 310, time 214.67, cls_loss 0.5377 cls_loss_mapping 0.0035 cls_loss_causal 0.4754 re_mapping 0.0096 re_causal 0.0224 /// teacc 98.89 lr 0.00010000
+Epoch 312, weight, value: tensor([[-0.1929, -0.0151,  0.0257,  ..., -0.0319, -0.0794, -0.1329],
+        [-0.0530, -0.0933,  0.0313,  ...,  0.0463, -0.0155, -0.0922],
+        [-0.0591, -0.0841, -0.1075,  ...,  0.0410, -0.0402, -0.1052],
+        ...,
+        [-0.0630,  0.0288,  0.0305,  ...,  0.0265, -0.0529, -0.0924],
+        [-0.0734, -0.0039,  0.0244,  ...,  0.0659, -0.0365, -0.1574],
+        [ 0.0610,  0.0607, -0.0529,  ..., -0.1105, -0.0199,  0.0797]],
+       device='cuda:0'), grad: tensor([[ 1.2383e-05, -1.5721e-05, -2.5253e-03,  ...,  7.2365e-03,
+         -6.5327e-04,  6.2704e-05],
+        [ 1.3504e-06,  9.3579e-06,  2.4033e-03,  ..., -6.3095e-03,
+          1.2159e-03,  6.3896e-05],
+        [ 4.9621e-06,  5.4419e-05, -3.6278e-03,  ..., -2.6169e-03,
+          1.1845e-03,  1.8435e-03],
+        ...,
+        [ 3.9190e-05,  1.4937e-04,  2.9926e-03,  ...,  3.8929e-03,
+          8.6164e-04,  3.3784e-04],
+        [-1.1225e-03,  3.1543e-04, -1.3313e-03,  ..., -4.7874e-03,
+          1.3046e-03, -4.9448e-04],
+        [ 1.0061e-03, -1.7786e-03,  2.4414e-04,  ..., -3.5858e-03,
+         -1.8663e-03, -2.5024e-03]], device='cuda:0')
+Epoch 312, bias, value: tensor([-0.0501,  0.0209,  0.0057, -0.0103, -0.0032,  0.0049, -0.0162,  0.0333,
+        -0.0157,  0.0115], device='cuda:0'), grad: tensor([ 0.0318,  0.0184, -0.0165, -0.0095, -0.0060,  0.0176,  0.0195,  0.0291,
+        -0.0648, -0.0197], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 311, time 214.65, cls_loss 0.5650 cls_loss_mapping 0.0032 cls_loss_causal 0.5038 re_mapping 0.0094 re_causal 0.0221 /// teacc 98.87 lr 0.00010000
+Epoch 313, weight, value: tensor([[-0.1939, -0.0138,  0.0255,  ..., -0.0314, -0.0792, -0.1336],
+        [-0.0523, -0.0936,  0.0331,  ...,  0.0464, -0.0165, -0.0920],
+        [-0.0597, -0.0835, -0.1087,  ...,  0.0401, -0.0412, -0.1048],
+        ...,
+        [-0.0636,  0.0296,  0.0315,  ...,  0.0265, -0.0526, -0.0936],
+        [-0.0741, -0.0041,  0.0240,  ...,  0.0662, -0.0372, -0.1590],
+        [ 0.0608,  0.0614, -0.0549,  ..., -0.1103, -0.0201,  0.0812]],
+       device='cuda:0'), grad: tensor([[ 6.0536e-07,  5.3085e-06,  6.8283e-04,  ...,  1.2112e-04,
+          5.5456e-04,  1.8728e-04],
+        [ 4.6939e-07,  8.9169e-05, -1.7061e-03,  ...,  1.8711e-03,
+         -2.9030e-03,  2.4853e-03],
+        [-1.6212e-05, -2.6917e-04, -4.6806e-03,  ..., -2.6360e-03,
+         -2.9869e-03, -3.4447e-03],
+        ...,
+        [ 9.3877e-06,  4.3422e-05,  1.6747e-03,  ...,  4.5037e-04,
+          1.3361e-03,  6.2847e-04],
+        [ 1.6410e-06,  8.9854e-06,  8.1205e-04,  ...,  1.0860e-04,
+          6.7759e-04,  1.9741e-04],
+        [-5.0478e-07,  1.9655e-05,  1.0414e-03,  ...,  2.1803e-04,
+          8.4543e-04,  3.1543e-04]], device='cuda:0')
+Epoch 313, bias, value: tensor([-0.0497,  0.0214,  0.0052, -0.0107, -0.0043,  0.0046, -0.0160,  0.0352,
+        -0.0162,  0.0113], device='cuda:0'), grad: tensor([ 0.0115,  0.0175, -0.0111, -0.0358,  0.0120, -0.0166, -0.0220,  0.0175,
+         0.0143,  0.0128], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 312, time 215.56, cls_loss 0.5570 cls_loss_mapping 0.0037 cls_loss_causal 0.5025 re_mapping 0.0094 re_causal 0.0224 /// teacc 98.95 lr 0.00010000
+Epoch 314, weight, value: tensor([[-0.1936, -0.0128,  0.0251,  ..., -0.0312, -0.0797, -0.1326],
+        [-0.0510, -0.0938,  0.0326,  ...,  0.0461, -0.0156, -0.0925],
+        [-0.0609, -0.0831, -0.1069,  ...,  0.0412, -0.0400, -0.1041],
+        ...,
+        [-0.0643,  0.0311,  0.0316,  ...,  0.0267, -0.0524, -0.0931],
+        [-0.0747, -0.0050,  0.0238,  ...,  0.0662, -0.0376, -0.1594],
+        [ 0.0613,  0.0612, -0.0534,  ..., -0.1105, -0.0208,  0.0805]],
+       device='cuda:0'), grad: tensor([[-1.1396e-03,  1.9860e-04,  8.4639e-04,  ..., -3.0575e-03,
+          1.0767e-03,  9.1270e-07],
+        [ 1.5771e-04,  3.2568e-04,  1.1969e-03,  ...,  5.7983e-04,
+          1.5879e-03,  1.3113e-06],
+        [ 2.1768e-04,  1.7643e-04,  1.0777e-03,  ...,  5.1260e-04,
+          1.3752e-03,  7.3463e-06],
+        ...,
+        [ 1.0008e-04, -2.7161e-03,  4.7350e-04,  ..., -4.5729e-04,
+          1.3628e-03,  1.5181e-06],
+        [ 2.2042e-04,  6.2943e-04,  1.0347e-03,  ...,  6.5804e-04,
+          1.2932e-03,  1.7121e-05],
+        [-3.0270e-03,  7.2670e-04, -4.3610e-02,  ..., -8.2779e-04,
+         -2.7222e-02,  6.8098e-06]], device='cuda:0')
+Epoch 314, bias, value: tensor([-0.0499,  0.0206,  0.0052, -0.0104, -0.0039,  0.0047, -0.0156,  0.0353,
+        -0.0166,  0.0112], device='cuda:0'), grad: tensor([-0.0041,  0.0336,  0.0293, -0.0581, -0.0046, -0.0096,  0.0020,  0.0123,
+         0.0298, -0.0306], device='cuda:0')
+100
+0.0001
+changing lr
+---------------------saving model at epoch 313----------------------------------------------------
+epoch 313, time 216.20, cls_loss 0.5775 cls_loss_mapping 0.0033 cls_loss_causal 0.5115 re_mapping 0.0095 re_causal 0.0235 /// teacc 99.00 lr 0.00010000
+Epoch 315, weight, value: tensor([[-0.1936, -0.0128,  0.0246,  ..., -0.0317, -0.0810, -0.1328],
+        [-0.0516, -0.0945,  0.0326,  ...,  0.0471, -0.0158, -0.0930],
+        [-0.0612, -0.0837, -0.1051,  ...,  0.0422, -0.0379, -0.1048],
+        ...,
+        [-0.0647,  0.0310,  0.0312,  ...,  0.0261, -0.0537, -0.0944],
+        [-0.0736, -0.0042,  0.0237,  ...,  0.0662, -0.0370, -0.1593],
+        [ 0.0615,  0.0618, -0.0527,  ..., -0.1108, -0.0196,  0.0820]],
+       device='cuda:0'), grad: tensor([[ 1.9103e-05,  1.2326e-04,  2.1422e-04,  ...,  1.7910e-03,
+          7.3373e-05,  2.5898e-05],
+        [ 1.5590e-06, -1.1473e-03,  2.5725e-04,  ..., -3.4237e-03,
+         -2.7580e-03,  1.4734e-06],
+        [ 5.9128e-05,  3.7909e-04,  3.3712e-04,  ...,  2.8000e-03,
+          1.5078e-03,  8.5175e-05],
+        ...,
+        [-1.2815e-04, -3.4165e-04, -2.1973e-03,  ...,  2.7275e-04,
+          3.5381e-04, -1.1997e-03],
+        [-1.0061e-04,  2.3103e-04, -1.8466e-04,  ...,  2.4891e-04,
+         -9.0647e-04,  1.1390e-04],
+        [ 1.9431e-04, -7.3195e-04,  5.2357e-04,  ...,  3.5548e-04,
+          8.1873e-04,  1.1921e-03]], device='cuda:0')
+Epoch 315, bias, value: tensor([-0.0508,  0.0205,  0.0060, -0.0112, -0.0038,  0.0057, -0.0153,  0.0349,
+        -0.0164,  0.0112], device='cuda:0'), grad: tensor([ 0.0142, -0.0084,  0.0146,  0.0083, -0.0214,  0.0123, -0.0194, -0.0198,
+         0.0121,  0.0076], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 314, time 215.86, cls_loss 0.5230 cls_loss_mapping 0.0031 cls_loss_causal 0.4563 re_mapping 0.0095 re_causal 0.0211 /// teacc 98.86 lr 0.00010000
+Epoch 316, weight, value: tensor([[-0.1939, -0.0114,  0.0244,  ..., -0.0319, -0.0822, -0.1330],
+        [-0.0523, -0.0946,  0.0321,  ...,  0.0462, -0.0177, -0.0933],
+        [-0.0608, -0.0843, -0.1062,  ...,  0.0419, -0.0379, -0.1060],
+        ...,
+        [-0.0640,  0.0305,  0.0316,  ...,  0.0265, -0.0521, -0.0937],
+        [-0.0738, -0.0028,  0.0231,  ...,  0.0666, -0.0367, -0.1593],
+        [ 0.0604,  0.0611, -0.0536,  ..., -0.1115, -0.0194,  0.0811]],
+       device='cuda:0'), grad: tensor([[ 4.7588e-04,  4.1771e-04,  9.6607e-04,  ..., -7.2403e-03,
+         -1.3985e-02,  5.4693e-04],
+        [ 5.2363e-05,  6.2180e-04,  7.3195e-04,  ...,  7.6246e-04,
+          1.2302e-04,  4.3869e-04],
+        [ 9.3365e-04,  9.4938e-04,  2.7657e-03,  ...,  3.5439e-03,
+          8.8501e-04,  1.0843e-03],
+        ...,
+        [ 5.5885e-04,  1.9054e-03, -5.8508e-04,  ...,  1.8711e-03,
+          5.7030e-04,  1.5802e-03],
+        [ 7.5197e-04,  5.7459e-04,  1.4296e-03,  ...,  4.2000e-03,
+          1.1702e-03,  1.3123e-03],
+        [ 7.1049e-04, -5.5199e-03,  1.9398e-03,  ...,  8.6784e-05,
+         -2.2158e-05,  1.4486e-03]], device='cuda:0')
+Epoch 316, bias, value: tensor([-0.0519,  0.0205,  0.0054, -0.0103, -0.0032,  0.0049, -0.0150,  0.0357,
+        -0.0165,  0.0110], device='cuda:0'), grad: tensor([-0.0376, -0.0206,  0.0229,  0.0253, -0.0506,  0.0029,  0.0352,  0.0153,
+         0.0228, -0.0156], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 315, time 221.36, cls_loss 0.5577 cls_loss_mapping 0.0027 cls_loss_causal 0.4912 re_mapping 0.0096 re_causal 0.0225 /// teacc 98.67 lr 0.00010000
+Epoch 317, weight, value: tensor([[-0.1925, -0.0109,  0.0248,  ..., -0.0309, -0.0815, -0.1315],
+        [-0.0529, -0.0951,  0.0328,  ...,  0.0467, -0.0174, -0.0934],
+        [-0.0609, -0.0851, -0.1069,  ...,  0.0416, -0.0380, -0.1066],
+        ...,
+        [-0.0635,  0.0306,  0.0302,  ...,  0.0271, -0.0521, -0.0943],
+        [-0.0746, -0.0034,  0.0238,  ...,  0.0658, -0.0369, -0.1619],
+        [ 0.0603,  0.0604, -0.0538,  ..., -0.1117, -0.0216,  0.0816]],
+       device='cuda:0'), grad: tensor([[ 1.0672e-03,  5.5224e-05,  1.5011e-03,  ...,  1.9491e-04,
+          2.6913e-03,  1.4722e-05],
+        [ 1.6600e-05,  1.0216e-04,  2.5868e-04,  ...,  3.3855e-04,
+          1.6050e-03,  2.7165e-05],
+        [ 9.2804e-05,  1.1718e-04,  8.6546e-04,  ...,  2.3341e-04,
+          1.8177e-03,  2.0579e-05],
+        ...,
+        [ 1.0365e-04,  1.4818e-04,  1.1511e-03,  ...,  7.0953e-04,
+          3.2768e-03,  1.5473e-04],
+        [-3.1185e-04, -2.6393e-04,  6.2904e-03,  ..., -1.3459e-04,
+          2.6207e-03,  4.1038e-05],
+        [ 6.0940e-04, -4.0131e-03, -5.9586e-03,  ..., -2.7962e-03,
+         -7.8888e-03, -8.8787e-04]], device='cuda:0')
+Epoch 317, bias, value: tensor([-0.0510,  0.0210,  0.0048, -0.0117, -0.0039,  0.0061, -0.0149,  0.0360,
+        -0.0170,  0.0112], device='cuda:0'), grad: tensor([ 0.0322,  0.0214, -0.0134,  0.0189, -0.0102, -0.0156, -0.0003, -0.0043,
+         0.0294, -0.0582], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 316, time 226.55, cls_loss 0.5258 cls_loss_mapping 0.0033 cls_loss_causal 0.4616 re_mapping 0.0100 re_causal 0.0228 /// teacc 98.81 lr 0.00010000
+Epoch 318, weight, value: tensor([[-0.1934, -0.0109,  0.0249,  ..., -0.0326, -0.0815, -0.1318],
+        [-0.0530, -0.0956,  0.0330,  ...,  0.0464, -0.0181, -0.0926],
+        [-0.0606, -0.0833, -0.1063,  ...,  0.0422, -0.0373, -0.1072],
+        ...,
+        [-0.0626,  0.0309,  0.0300,  ...,  0.0276, -0.0526, -0.0931],
+        [-0.0754, -0.0038,  0.0244,  ...,  0.0654, -0.0369, -0.1633],
+        [ 0.0593,  0.0605, -0.0541,  ..., -0.1117, -0.0209,  0.0804]],
+       device='cuda:0'), grad: tensor([[-2.9299e-06,  2.4974e-05,  7.9966e-04,  ...,  7.6473e-05,
+          1.2169e-03,  6.9082e-05],
+        [ 2.0843e-06,  2.1887e-04,  3.1090e-03,  ...,  6.1941e-04,
+         -2.6588e-03,  9.3269e-04],
+        [ 1.1541e-05,  1.4417e-05,  5.3930e-04,  ...,  1.0204e-04,
+          9.8228e-04,  4.3720e-05],
+        ...,
+        [ 5.7191e-05,  3.5071e-04,  1.1368e-03,  ..., -6.4909e-05,
+          1.5965e-03,  5.0306e-04],
+        [ 2.3276e-05,  2.6875e-03,  7.5674e-04,  ...,  2.5034e-05,
+          2.9325e-05, -2.1362e-03],
+        [-6.9141e-05, -3.6545e-03,  8.5354e-04,  ...,  1.4424e-04,
+          1.7281e-03,  4.5729e-04]], device='cuda:0')
+Epoch 318, bias, value: tensor([-0.0522,  0.0198,  0.0055, -0.0113, -0.0034,  0.0070, -0.0155,  0.0365,
+        -0.0166,  0.0108], device='cuda:0'), grad: tensor([ 0.0119, -0.0299,  0.0155,  0.0104, -0.0131, -0.0159,  0.0182, -0.0163,
+         0.0161,  0.0029], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 317, time 226.15, cls_loss 0.5216 cls_loss_mapping 0.0032 cls_loss_causal 0.4675 re_mapping 0.0095 re_causal 0.0220 /// teacc 98.73 lr 0.00010000
+Epoch 319, weight, value: tensor([[-0.1938, -0.0112,  0.0261,  ..., -0.0327, -0.0806, -0.1319],
+        [-0.0526, -0.0954,  0.0339,  ...,  0.0462, -0.0188, -0.0931],
+        [-0.0600, -0.0838, -0.1071,  ...,  0.0423, -0.0367, -0.1072],
+        ...,
+        [-0.0628,  0.0293,  0.0300,  ...,  0.0283, -0.0525, -0.0927],
+        [-0.0759, -0.0041,  0.0248,  ...,  0.0655, -0.0372, -0.1632],
+        [ 0.0591,  0.0614, -0.0552,  ..., -0.1112, -0.0201,  0.0803]],
+       device='cuda:0'), grad: tensor([[ 4.2498e-05,  5.3704e-05,  4.7188e-03,  ...,  2.2869e-03,
+          1.3757e-04,  1.9913e-03],
+        [ 6.4850e-05,  4.3368e-04, -2.2602e-03,  ..., -2.4967e-03,
+         -2.9755e-04,  1.3018e-04],
+        [ 7.7426e-05,  3.4499e-04,  2.9068e-03,  ...,  1.8053e-03,
+          4.6229e-04,  6.6233e-04],
+        ...,
+        [ 4.5228e-04, -2.2640e-03, -1.6336e-03,  ...,  1.7052e-03,
+          2.8877e-03, -1.8034e-03],
+        [ 7.1192e-04,  3.9816e-04,  3.8586e-03,  ..., -3.8300e-03,
+         -3.2005e-03,  1.0910e-03],
+        [-3.9330e-03,  4.4465e-04, -3.6888e-03,  ..., -4.5662e-03,
+         -2.5158e-03, -1.0551e-02]], device='cuda:0')
+Epoch 319, bias, value: tensor([-0.0523,  0.0213,  0.0062, -0.0117, -0.0029,  0.0060, -0.0162,  0.0368,
+        -0.0164,  0.0100], device='cuda:0'), grad: tensor([ 0.0110, -0.0030,  0.0319, -0.0043,  0.0271, -0.0083, -0.0117,  0.0169,
+        -0.0294, -0.0302], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 318, time 229.08, cls_loss 0.5169 cls_loss_mapping 0.0029 cls_loss_causal 0.4438 re_mapping 0.0092 re_causal 0.0219 /// teacc 98.73 lr 0.00010000
+Epoch 320, weight, value: tensor([[-0.1951, -0.0114,  0.0271,  ..., -0.0316, -0.0808, -0.1330],
+        [-0.0519, -0.0970,  0.0349,  ...,  0.0454, -0.0196, -0.0932],
+        [-0.0600, -0.0843, -0.1085,  ...,  0.0424, -0.0348, -0.1069],
+        ...,
+        [-0.0645,  0.0295,  0.0298,  ...,  0.0276, -0.0525, -0.0942],
+        [-0.0758, -0.0040,  0.0238,  ...,  0.0665, -0.0381, -0.1635],
+        [ 0.0598,  0.0605, -0.0551,  ..., -0.1118, -0.0196,  0.0805]],
+       device='cuda:0'), grad: tensor([[ 1.0765e-04,  6.7902e-04,  9.1314e-04,  ...,  2.1958e-04,
+          1.0604e-04,  5.3406e-04],
+        [ 3.0305e-06,  5.8746e-04,  1.8442e-04,  ...,  2.1911e-04,
+          6.3121e-05,  2.0564e-04],
+        [ 1.8501e-04,  8.2827e-04,  1.4400e-03,  ...,  2.3055e-04,
+          1.8167e-04,  5.6696e-04],
+        ...,
+        [ 6.5491e-06,  8.1635e-04,  8.0776e-04,  ...,  2.6703e-04,
+          2.5725e-04,  1.5211e-04],
+        [-9.0361e-05,  3.9339e-04, -5.3864e-03,  ...,  1.2851e-04,
+          1.1736e-04, -9.1970e-05],
+        [ 8.3894e-06,  7.4434e-04,  1.9350e-03,  ...,  1.5032e-04,
+         -3.4451e-04, -3.8147e-03]], device='cuda:0')
+Epoch 320, bias, value: tensor([-0.0512,  0.0200,  0.0059, -0.0111, -0.0036,  0.0059, -0.0158,  0.0365,
+        -0.0166,  0.0107], device='cuda:0'), grad: tensor([-0.0072,  0.0011,  0.0193, -0.0435, -0.0061,  0.0229,  0.0275,  0.0055,
+        -0.0251,  0.0057], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 319, time 226.29, cls_loss 0.5202 cls_loss_mapping 0.0034 cls_loss_causal 0.4579 re_mapping 0.0091 re_causal 0.0225 /// teacc 98.82 lr 0.00010000
+Epoch 321, weight, value: tensor([[-0.1956, -0.0116,  0.0268,  ..., -0.0308, -0.0810, -0.1339],
+        [-0.0525, -0.0965,  0.0353,  ...,  0.0454, -0.0196, -0.0923],
+        [-0.0594, -0.0840, -0.1090,  ...,  0.0412, -0.0358, -0.1066],
+        ...,
+        [-0.0661,  0.0308,  0.0299,  ...,  0.0285, -0.0529, -0.0948],
+        [-0.0755, -0.0031,  0.0246,  ...,  0.0661, -0.0390, -0.1636],
+        [ 0.0598,  0.0605, -0.0561,  ..., -0.1122, -0.0199,  0.0804]],
+       device='cuda:0'), grad: tensor([[ 1.5485e-04,  8.4925e-04,  3.0303e-04,  ...,  3.6073e-04,
+          1.8225e-03,  8.1003e-05],
+        [ 1.0781e-05,  1.3626e-04, -7.5293e-04,  ..., -1.1024e-03,
+          1.4839e-03,  9.0823e-06],
+        [ 5.1826e-05, -6.6376e-03,  3.5071e-04,  ..., -8.2636e-04,
+         -8.8596e-04,  4.2617e-05],
+        ...,
+        [ 5.5847e-03,  8.1444e-04, -7.6818e-04,  ..., -2.5368e-04,
+         -8.3389e-03,  5.0392e-03],
+        [ 3.8362e-04,  4.1795e-04,  3.6073e-04,  ...,  2.3365e-04,
+          1.6060e-03,  2.2244e-04],
+        [-7.2250e-03,  1.9817e-03, -7.5674e-04,  ...,  7.5293e-04,
+          1.9321e-03, -6.0577e-03]], device='cuda:0')
+Epoch 321, bias, value: tensor([-0.0513,  0.0201,  0.0066, -0.0106, -0.0044,  0.0061, -0.0163,  0.0364,
+        -0.0167,  0.0109], device='cuda:0'), grad: tensor([ 0.0271, -0.0085, -0.0384,  0.0231,  0.0322, -0.0410, -0.0081, -0.0150,
+         0.0237,  0.0049], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 320, time 227.21, cls_loss 0.5365 cls_loss_mapping 0.0036 cls_loss_causal 0.4627 re_mapping 0.0092 re_causal 0.0219 /// teacc 98.83 lr 0.00010000
+Epoch 322, weight, value: tensor([[-0.1961, -0.0117,  0.0259,  ..., -0.0315, -0.0827, -0.1335],
+        [-0.0529, -0.0970,  0.0350,  ...,  0.0453, -0.0211, -0.0922],
+        [-0.0588, -0.0840, -0.1089,  ...,  0.0413, -0.0367, -0.1067],
+        ...,
+        [-0.0672,  0.0305,  0.0293,  ...,  0.0283, -0.0531, -0.0954],
+        [-0.0754, -0.0033,  0.0247,  ...,  0.0666, -0.0375, -0.1642],
+        [ 0.0611,  0.0603, -0.0544,  ..., -0.1120, -0.0206,  0.0807]],
+       device='cuda:0'), grad: tensor([[ 2.5660e-05,  2.3270e-04,  7.2241e-05,  ...,  4.0936e-04,
+          2.0447e-02,  2.0409e-04],
+        [ 4.2915e-05,  5.8889e-04,  1.1820e-04,  ...,  2.3448e-04,
+          1.0109e-04,  4.1652e-04],
+        [ 1.5914e-04, -1.2560e-03,  4.4870e-04,  ..., -4.0078e-04,
+          2.9588e-04, -2.2888e-03],
+        ...,
+        [ 3.5715e-04, -1.5488e-03,  9.4175e-04,  ...,  3.1924e-04,
+          4.6968e-04,  2.0325e-04],
+        [ 2.3155e-03,  7.3767e-04,  6.4850e-03,  ...,  1.9817e-03,
+         -1.8402e-02,  2.2852e-04],
+        [ 1.0653e-03,  5.7888e-04,  3.2482e-03,  ...,  1.0128e-03,
+          1.5545e-03, -6.0415e-04]], device='cuda:0')
+Epoch 322, bias, value: tensor([-0.0518,  0.0206,  0.0053, -0.0103, -0.0030,  0.0060, -0.0153,  0.0357,
+        -0.0173,  0.0108], device='cuda:0'), grad: tensor([-0.0199,  0.0164, -0.0110, -0.0291,  0.0016,  0.0230,  0.0175, -0.0156,
+        -0.0027,  0.0198], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 321, time 227.51, cls_loss 0.5585 cls_loss_mapping 0.0039 cls_loss_causal 0.4893 re_mapping 0.0094 re_causal 0.0224 /// teacc 98.84 lr 0.00010000
+Epoch 323, weight, value: tensor([[-0.1963, -0.0117,  0.0265,  ..., -0.0317, -0.0833, -0.1331],
+        [-0.0521, -0.0973,  0.0346,  ...,  0.0451, -0.0203, -0.0923],
+        [-0.0594, -0.0847, -0.1112,  ...,  0.0405, -0.0374, -0.1065],
+        ...,
+        [-0.0673,  0.0310,  0.0289,  ...,  0.0285, -0.0537, -0.0957],
+        [-0.0760, -0.0012,  0.0251,  ...,  0.0664, -0.0375, -0.1636],
+        [ 0.0616,  0.0605, -0.0537,  ..., -0.1117, -0.0215,  0.0813]],
+       device='cuda:0'), grad: tensor([[ 1.7583e-05,  2.1964e-05,  1.5278e-03,  ...,  1.3590e-03,
+          1.8778e-03,  1.0699e-05],
+        [ 3.9220e-04,  9.8348e-07,  3.9749e-03,  ...,  4.9248e-03,
+         -6.9923e-03,  3.0816e-05],
+        [-5.7173e-04,  2.9150e-06,  1.8377e-03,  ...,  1.8463e-03,
+          2.3823e-03, -2.9683e-04],
+        ...,
+        [ 8.3387e-05,  6.5640e-06, -6.5880e-03,  ..., -3.1781e-04,
+         -7.3471e-03,  5.0634e-05],
+        [-2.4891e-04,  6.5207e-05,  6.4898e-04,  ..., -1.1301e-03,
+          1.5669e-03,  4.8637e-04],
+        [ 1.5378e-05,  1.3142e-03, -1.3943e-03,  ...,  2.1350e-04,
+          2.0809e-03, -5.4073e-04]], device='cuda:0')
+Epoch 323, bias, value: tensor([-0.0519,  0.0201,  0.0042, -0.0110, -0.0030,  0.0072, -0.0146,  0.0351,
+        -0.0177,  0.0124], device='cuda:0'), grad: tensor([ 0.0274, -0.0185,  0.0287, -0.0380, -0.0628, -0.0044,  0.0193,  0.0060,
+         0.0199,  0.0224], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 322, time 226.70, cls_loss 0.5326 cls_loss_mapping 0.0036 cls_loss_causal 0.4666 re_mapping 0.0101 re_causal 0.0232 /// teacc 98.90 lr 0.00010000
+Epoch 324, weight, value: tensor([[-0.1962, -0.0124,  0.0254,  ..., -0.0312, -0.0840, -0.1323],
+        [-0.0516, -0.0978,  0.0352,  ...,  0.0455, -0.0192, -0.0917],
+        [-0.0599, -0.0865, -0.1111,  ...,  0.0403, -0.0375, -0.1063],
+        ...,
+        [-0.0674,  0.0318,  0.0298,  ...,  0.0287, -0.0532, -0.0945],
+        [-0.0766, -0.0022,  0.0265,  ...,  0.0668, -0.0366, -0.1636],
+        [ 0.0610,  0.0617, -0.0550,  ..., -0.1118, -0.0229,  0.0816]],
+       device='cuda:0'), grad: tensor([[ 7.9162e-07,  1.3888e-04,  5.3978e-04,  ...,  9.0218e-04,
+          9.4032e-04,  4.3288e-06],
+        [ 4.0419e-07,  2.7442e-04,  7.0620e-04,  ...,  8.2064e-04,
+          1.3084e-03,  1.0785e-06],
+        [ 1.2890e-06, -1.7967e-03,  5.0020e-04,  ...,  1.0796e-03,
+         -1.5984e-03,  8.4937e-06],
+        ...,
+        [ 1.2107e-07,  1.2856e-03,  3.6392e-03,  ...,  2.7269e-05,
+          1.6937e-03,  1.7095e-04],
+        [ 3.2708e-06,  4.2081e-04,  4.4155e-04,  ..., -2.7728e-04,
+          1.5354e-03,  3.2306e-05],
+        [-1.1325e-05, -6.5207e-05,  9.7322e-04,  ...,  8.6498e-04,
+         -1.0559e-02, -4.3154e-04]], device='cuda:0')
+Epoch 324, bias, value: tensor([-0.0526,  0.0199,  0.0041, -0.0120, -0.0036,  0.0079, -0.0142,  0.0365,
+        -0.0174,  0.0120], device='cuda:0'), grad: tensor([-0.0261,  0.0182, -0.0154,  0.0236, -0.0030,  0.0194, -0.0515,  0.0286,
+         0.0174, -0.0111], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 323, time 227.89, cls_loss 0.5395 cls_loss_mapping 0.0037 cls_loss_causal 0.4823 re_mapping 0.0096 re_causal 0.0223 /// teacc 98.90 lr 0.00010000
+Epoch 325, weight, value: tensor([[-0.1964, -0.0132,  0.0256,  ..., -0.0298, -0.0823, -0.1333],
+        [-0.0514, -0.0983,  0.0354,  ...,  0.0474, -0.0192, -0.0910],
+        [-0.0615, -0.0860, -0.1101,  ...,  0.0393, -0.0371, -0.1072],
+        ...,
+        [-0.0678,  0.0301,  0.0311,  ...,  0.0271, -0.0528, -0.0959],
+        [-0.0769, -0.0011,  0.0262,  ...,  0.0684, -0.0379, -0.1647],
+        [ 0.0612,  0.0620, -0.0550,  ..., -0.1117, -0.0233,  0.0822]],
+       device='cuda:0'), grad: tensor([[ 1.6063e-05,  5.5879e-07,  5.7518e-05,  ...,  3.2604e-05,
+          5.3830e-07,  7.6443e-06],
+        [ 1.0543e-05,  2.4214e-07, -3.8719e-04,  ...,  1.6674e-05,
+          3.9674e-07,  5.1484e-06],
+        [ 1.1110e-04,  5.2378e-06,  2.0933e-04,  ...,  1.2188e-03,
+          1.5712e-04,  3.6001e-05],
+        ...,
+        [-8.4579e-05,  2.5034e-06,  2.3308e-03,  ...,  1.9302e-02,
+          2.5616e-03, -1.5482e-05],
+        [ 2.6301e-05,  1.8746e-05,  4.1515e-05,  ...,  2.7195e-05,
+          2.0310e-05,  6.2644e-05],
+        [ 1.0240e-04, -1.7774e-04,  1.3027e-03,  ...,  2.4235e-04,
+         -1.0818e-04, -2.8825e-04]], device='cuda:0')
+Epoch 325, bias, value: tensor([-0.0508,  0.0194,  0.0052, -0.0117, -0.0029,  0.0078, -0.0151,  0.0352,
+        -0.0181,  0.0118], device='cuda:0'), grad: tensor([-0.0268,  0.0013,  0.0064, -0.0270,  0.0466, -0.0034, -0.0234,  0.0350,
+        -0.0189,  0.0102], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 324, time 228.08, cls_loss 0.5154 cls_loss_mapping 0.0033 cls_loss_causal 0.4568 re_mapping 0.0102 re_causal 0.0231 /// teacc 98.87 lr 0.00010000
+Epoch 326, weight, value: tensor([[-0.1962, -0.0129,  0.0260,  ..., -0.0288, -0.0823, -0.1343],
+        [-0.0523, -0.0985,  0.0345,  ...,  0.0474, -0.0183, -0.0903],
+        [-0.0614, -0.0846, -0.1103,  ...,  0.0386, -0.0364, -0.1073],
+        ...,
+        [-0.0668,  0.0293,  0.0295,  ...,  0.0253, -0.0520, -0.0958],
+        [-0.0764, -0.0015,  0.0267,  ...,  0.0683, -0.0387, -0.1657],
+        [ 0.0613,  0.0639, -0.0537,  ..., -0.1095, -0.0220,  0.0821]],
+       device='cuda:0'), grad: tensor([[ 2.8778e-06,  7.4387e-05,  1.2755e-04,  ..., -8.2874e-04,
+          4.4394e-04,  2.5082e-04],
+        [ 3.6936e-06, -6.9714e-04, -2.2411e-03,  ...,  6.4392e-03,
+         -2.0657e-03,  1.6344e-04],
+        [-6.3658e-05,  1.5521e-04,  6.0368e-04,  ...,  2.1114e-03,
+          9.5558e-04,  1.2541e-03],
+        ...,
+        [ 3.2306e-05,  9.8109e-05,  3.3998e-04,  ..., -8.7128e-03,
+          6.1035e-04,  2.5487e-04],
+        [ 4.0263e-05,  1.0216e-04,  5.1594e-04,  ...,  1.2083e-03,
+          9.8991e-04,  3.1304e-04],
+        [-4.5329e-05,  2.2297e-03,  4.4942e-04,  ..., -2.1210e-03,
+         -2.9697e-03,  2.2850e-03]], device='cuda:0')
+Epoch 326, bias, value: tensor([-0.0507,  0.0204,  0.0046, -0.0127, -0.0034,  0.0080, -0.0157,  0.0355,
+        -0.0181,  0.0127], device='cuda:0'), grad: tensor([-0.0166, -0.0242,  0.0448,  0.0044, -0.0153,  0.0138, -0.0089, -0.0132,
+         0.0200, -0.0048], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 325, time 226.57, cls_loss 0.5480 cls_loss_mapping 0.0032 cls_loss_causal 0.4781 re_mapping 0.0095 re_causal 0.0228 /// teacc 98.86 lr 0.00010000
+Epoch 327, weight, value: tensor([[-0.1978, -0.0130,  0.0260,  ..., -0.0295, -0.0829, -0.1348],
+        [-0.0518, -0.0982,  0.0358,  ...,  0.0469, -0.0179, -0.0900],
+        [-0.0615, -0.0846, -0.1109,  ...,  0.0384, -0.0367, -0.1077],
+        ...,
+        [-0.0657,  0.0289,  0.0299,  ...,  0.0252, -0.0508, -0.0953],
+        [-0.0771, -0.0011,  0.0257,  ...,  0.0683, -0.0395, -0.1664],
+        [ 0.0612,  0.0638, -0.0531,  ..., -0.1077, -0.0215,  0.0825]],
+       device='cuda:0'), grad: tensor([[ 4.9621e-06, -4.7874e-03,  1.0884e-04,  ...,  6.8951e-04,
+         -1.5430e-03, -2.8362e-03],
+        [ 3.7104e-06, -4.2496e-03,  1.3018e-03,  ...,  1.0014e-03,
+         -6.1302e-03,  1.0788e-05],
+        [ 6.6236e-06,  5.7840e-04,  1.5438e-04,  ..., -1.9951e-03,
+          5.0116e-04,  2.2793e-04],
+        ...,
+        [-1.1511e-05,  2.0397e-04,  1.0657e-04,  ...,  1.1988e-03,
+          4.1103e-04,  5.8115e-05],
+        [ 8.3074e-06,  2.8706e-03,  1.1768e-03,  ...,  5.3215e-04,
+          3.8090e-03,  1.4913e-04],
+        [-6.3404e-06,  8.9693e-04,  1.5903e-04,  ..., -3.5248e-03,
+          4.4775e-04,  4.3702e-04]], device='cuda:0')
+Epoch 327, bias, value: tensor([-0.0510,  0.0208,  0.0053, -0.0129, -0.0039,  0.0075, -0.0170,  0.0356,
+        -0.0180,  0.0141], device='cuda:0'), grad: tensor([-0.0437, -0.0257, -0.0146,  0.0135,  0.0250,  0.0198, -0.0041,  0.0138,
+         0.0377, -0.0217], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 326, time 228.42, cls_loss 0.5229 cls_loss_mapping 0.0026 cls_loss_causal 0.4573 re_mapping 0.0096 re_causal 0.0218 /// teacc 98.77 lr 0.00010000
+Epoch 328, weight, value: tensor([[-0.1986, -0.0153,  0.0276,  ..., -0.0287, -0.0830, -0.1349],
+        [-0.0514, -0.0967,  0.0356,  ...,  0.0470, -0.0175, -0.0901],
+        [-0.0614, -0.0859, -0.1103,  ...,  0.0385, -0.0369, -0.1081],
+        ...,
+        [-0.0643,  0.0290,  0.0310,  ...,  0.0249, -0.0525, -0.0956],
+        [-0.0784, -0.0015,  0.0241,  ...,  0.0687, -0.0383, -0.1677],
+        [ 0.0614,  0.0641, -0.0536,  ..., -0.1076, -0.0221,  0.0827]],
+       device='cuda:0'), grad: tensor([[ 7.9498e-06,  3.3259e-04,  1.6320e-04,  ...,  1.1846e-05,
+          2.1815e-04,  2.9519e-05],
+        [ 4.8168e-06,  1.3888e-04,  3.0351e-04,  ...,  4.5478e-05,
+          4.9067e-04,  2.2560e-05],
+        [-1.0419e-04,  1.3554e-04,  1.9896e-04,  ..., -4.3640e-03,
+         -1.9522e-03, -1.4771e-06],
+        ...,
+        [ 1.5557e-05,  8.9455e-04,  6.9857e-04,  ...,  1.8568e-03,
+          2.0294e-03,  8.7857e-05],
+        [ 1.0170e-05,  1.0767e-03,  9.8801e-04,  ...,  1.9054e-03,
+          2.5749e-03,  5.1439e-05],
+        [ 1.9446e-06, -9.4833e-03, -1.7509e-03,  ...,  1.4937e-04,
+         -2.8458e-03, -5.5742e-04]], device='cuda:0')
+Epoch 328, bias, value: tensor([-0.0524,  0.0217,  0.0056, -0.0128, -0.0042,  0.0075, -0.0158,  0.0357,
+        -0.0181,  0.0132], device='cuda:0'), grad: tensor([-0.0264,  0.0071, -0.0203,  0.0075, -0.0037, -0.0034,  0.0135,  0.0194,
+         0.0182, -0.0119], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 327, time 227.31, cls_loss 0.5292 cls_loss_mapping 0.0024 cls_loss_causal 0.4685 re_mapping 0.0092 re_causal 0.0225 /// teacc 98.69 lr 0.00010000
+Epoch 329, weight, value: tensor([[-0.1973, -0.0140,  0.0284,  ..., -0.0279, -0.0833, -0.1343],
+        [-0.0524, -0.0971,  0.0364,  ...,  0.0468, -0.0173, -0.0903],
+        [-0.0612, -0.0863, -0.1097,  ...,  0.0379, -0.0371, -0.1076],
+        ...,
+        [-0.0652,  0.0294,  0.0312,  ...,  0.0249, -0.0528, -0.0968],
+        [-0.0784, -0.0024,  0.0245,  ...,  0.0693, -0.0373, -0.1690],
+        [ 0.0607,  0.0638, -0.0553,  ..., -0.1073, -0.0220,  0.0828]],
+       device='cuda:0'), grad: tensor([[ 4.9782e-03,  1.0147e-03,  9.1314e-04,  ...,  2.3723e-04,
+          2.1887e-04,  1.2217e-03],
+        [ 7.4387e-05,  1.3828e-03, -4.0398e-03,  ...,  5.2834e-04,
+         -3.7313e-04,  1.2720e-04],
+        [ 3.2306e-04,  1.0061e-03, -1.6775e-03,  ..., -1.9908e-04,
+         -1.0405e-03,  3.1686e-04],
+        ...,
+        [ 7.0930e-05, -5.1636e-02,  3.7694e-04,  ...,  2.3441e-03,
+          2.8181e-04, -2.4078e-02],
+        [-1.3466e-03,  1.4048e-03,  1.9779e-03,  ..., -9.4376e-03,
+         -3.0384e-03,  3.0375e-04],
+        [ 1.0004e-03,  5.3314e-02,  3.7003e-04,  ...,  4.5776e-03,
+          2.3136e-03,  2.4277e-02]], device='cuda:0')
+Epoch 329, bias, value: tensor([-0.0513,  0.0204,  0.0061, -0.0129, -0.0039,  0.0076, -0.0159,  0.0349,
+        -0.0161,  0.0115], device='cuda:0'), grad: tensor([ 0.0370, -0.0168, -0.0235, -0.0119, -0.0021, -0.0145,  0.0241,  0.0068,
+         0.0021, -0.0012], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 328, time 227.53, cls_loss 0.5330 cls_loss_mapping 0.0021 cls_loss_causal 0.4732 re_mapping 0.0096 re_causal 0.0224 /// teacc 98.84 lr 0.00010000
+Epoch 330, weight, value: tensor([[-0.1980, -0.0139,  0.0284,  ..., -0.0276, -0.0831, -0.1344],
+        [-0.0504, -0.0965,  0.0367,  ...,  0.0485, -0.0177, -0.0915],
+        [-0.0608, -0.0860, -0.1088,  ...,  0.0391, -0.0376, -0.1077],
+        ...,
+        [-0.0655,  0.0300,  0.0299,  ...,  0.0234, -0.0549, -0.0956],
+        [-0.0792, -0.0016,  0.0251,  ...,  0.0691, -0.0375, -0.1705],
+        [ 0.0606,  0.0630, -0.0548,  ..., -0.1083, -0.0202,  0.0821]],
+       device='cuda:0'), grad: tensor([[ 4.5985e-05,  1.8311e-04, -3.8505e-04,  ..., -4.1046e-03,
+         -3.8433e-03,  4.9561e-05],
+        [ 9.1136e-05,  2.7679e-06,  3.0661e-04,  ...,  4.2748e-04,
+          6.4945e-04,  9.0599e-05],
+        [ 5.6416e-05,  9.9778e-05,  2.2590e-04,  ...,  6.8760e-04,
+          2.4395e-03,  3.4547e-04],
+        ...,
+        [-2.8629e-03, -3.2377e-04, -2.8515e-03,  ..., -1.3027e-03,
+          2.1515e-03, -1.6155e-03],
+        [ 3.8195e-04,  1.6823e-05,  3.7789e-04,  ...,  5.8556e-04,
+          1.2131e-03,  3.1519e-04],
+        [ 2.1667e-03,  1.1846e-05,  2.3556e-03,  ...,  1.3552e-03,
+          1.3618e-03,  1.6794e-03]], device='cuda:0')
+Epoch 330, bias, value: tensor([-0.0512,  0.0207,  0.0070, -0.0121, -0.0041,  0.0075, -0.0160,  0.0341,
+        -0.0167,  0.0114], device='cuda:0'), grad: tensor([-0.0488,  0.0148,  0.0307,  0.0096,  0.0113, -0.0070, -0.0205, -0.0358,
+         0.0176,  0.0280], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 329, time 226.85, cls_loss 0.5326 cls_loss_mapping 0.0021 cls_loss_causal 0.4698 re_mapping 0.0094 re_causal 0.0215 /// teacc 98.91 lr 0.00010000
+Epoch 331, weight, value: tensor([[-0.1988, -0.0143,  0.0283,  ..., -0.0286, -0.0831, -0.1343],
+        [-0.0507, -0.0972,  0.0376,  ...,  0.0479, -0.0182, -0.0921],
+        [-0.0609, -0.0856, -0.1101,  ...,  0.0391, -0.0365, -0.1085],
+        ...,
+        [-0.0653,  0.0307,  0.0301,  ...,  0.0228, -0.0561, -0.0942],
+        [-0.0796, -0.0013,  0.0250,  ...,  0.0713, -0.0379, -0.1703],
+        [ 0.0605,  0.0624, -0.0546,  ..., -0.1074, -0.0200,  0.0816]],
+       device='cuda:0'), grad: tensor([[ 1.7494e-05,  6.3956e-05,  7.4911e-04,  ...,  1.1273e-05,
+          7.0930e-05,  5.9783e-05],
+        [ 2.8759e-06, -2.7210e-05,  4.3511e-04,  ...,  3.7216e-06,
+          5.3495e-06,  8.7470e-06],
+        [ 1.2986e-05, -3.4761e-04, -1.0223e-02,  ..., -5.3853e-05,
+         -3.2020e-04, -3.2306e-04],
+        ...,
+        [-2.0489e-07,  1.5879e-03,  2.1011e-05,  ...,  9.2015e-07,
+          1.5661e-05,  1.2627e-03],
+        [ 2.2340e-04,  1.6296e-04,  9.5320e-04,  ..., -4.1336e-05,
+          1.7273e-04,  1.4532e-04],
+        [ 1.1642e-06, -2.7542e-03,  1.8320e-03,  ...,  1.0386e-05,
+          1.7941e-05, -2.2087e-03]], device='cuda:0')
+Epoch 331, bias, value: tensor([-0.0512,  0.0217,  0.0061, -0.0127, -0.0054,  0.0076, -0.0148,  0.0339,
+        -0.0168,  0.0122], device='cuda:0'), grad: tensor([-0.0222,  0.0130, -0.0264, -0.0158,  0.0150,  0.0217,  0.0012, -0.0186,
+         0.0218,  0.0104], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 330, time 226.87, cls_loss 0.5309 cls_loss_mapping 0.0028 cls_loss_causal 0.4749 re_mapping 0.0097 re_causal 0.0223 /// teacc 98.85 lr 0.00010000
+Epoch 332, weight, value: tensor([[-0.1983, -0.0146,  0.0285,  ..., -0.0279, -0.0819, -0.1335],
+        [-0.0511, -0.0972,  0.0372,  ...,  0.0470, -0.0191, -0.0930],
+        [-0.0612, -0.0848, -0.1101,  ...,  0.0394, -0.0361, -0.1081],
+        ...,
+        [-0.0665,  0.0301,  0.0297,  ...,  0.0230, -0.0569, -0.0949],
+        [-0.0803, -0.0013,  0.0245,  ...,  0.0717, -0.0370, -0.1698],
+        [ 0.0619,  0.0634, -0.0553,  ..., -0.1073, -0.0211,  0.0820]],
+       device='cuda:0'), grad: tensor([[-7.8440e-04,  2.9862e-05,  6.5613e-04,  ...,  7.2479e-04,
+         -6.5708e-04,  1.4804e-05],
+        [ 1.6034e-05,  4.5240e-05, -1.1194e-04,  ...,  2.4930e-05,
+          4.3586e-06,  2.0057e-05],
+        [ 8.8990e-05,  2.5451e-05,  6.8521e-04,  ...,  6.0797e-04,
+          3.1799e-05,  4.6678e-06],
+        ...,
+        [ 1.6344e-04, -1.4269e-04,  5.1594e-04,  ...,  1.7917e-04,
+          3.2187e-05, -5.7817e-06],
+        [ 2.0370e-03,  2.7905e-03,  3.0727e-03,  ..., -5.1785e-04,
+          3.4660e-05,  1.3990e-03],
+        [-6.1264e-03,  2.1070e-05, -1.4465e-02,  ..., -3.5152e-03,
+          1.8692e-04, -3.4779e-05]], device='cuda:0')
+Epoch 332, bias, value: tensor([-0.0508,  0.0213,  0.0067, -0.0134, -0.0054,  0.0076, -0.0136,  0.0333,
+        -0.0161,  0.0112], device='cuda:0'), grad: tensor([ 0.0187, -0.0199,  0.0201, -0.0221,  0.0288, -0.0447,  0.0192,  0.0125,
+         0.0058, -0.0183], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 331, time 228.03, cls_loss 0.5243 cls_loss_mapping 0.0024 cls_loss_causal 0.4536 re_mapping 0.0095 re_causal 0.0224 /// teacc 98.92 lr 0.00010000
+Epoch 333, weight, value: tensor([[-0.1988, -0.0149,  0.0294,  ..., -0.0268, -0.0819, -0.1338],
+        [-0.0516, -0.0991,  0.0377,  ...,  0.0476, -0.0188, -0.0918],
+        [-0.0599, -0.0859, -0.1086,  ...,  0.0405, -0.0349, -0.1081],
+        ...,
+        [-0.0663,  0.0280,  0.0294,  ...,  0.0223, -0.0582, -0.0928],
+        [-0.0797, -0.0003,  0.0225,  ...,  0.0704, -0.0366, -0.1714],
+        [ 0.0616,  0.0637, -0.0553,  ..., -0.1070, -0.0203,  0.0827]],
+       device='cuda:0'), grad: tensor([[-5.0592e-04,  9.5987e-04,  1.3342e-03,  ...,  3.6526e-04,
+          1.4496e-03,  9.2745e-05],
+        [-6.8092e-04, -3.0270e-03, -1.0204e-03,  ..., -2.0542e-03,
+         -2.7733e-03, -6.3820e-03],
+        [ 3.1471e-04,  3.0231e-04, -2.5711e-03,  ...,  2.7156e-04,
+         -4.3607e-04,  3.6526e-04],
+        ...,
+        [ 4.4098e-03, -2.5864e-02,  9.6207e-03,  ...,  4.6883e-03,
+         -2.0866e-03,  9.5062e-03],
+        [ 6.4707e-04, -3.4332e-03,  1.3809e-03,  ...,  4.9114e-04,
+          3.3283e-04,  6.4087e-04],
+        [ 7.0953e-04,  2.7420e-02,  1.3170e-03,  ..., -1.1530e-03,
+          1.6375e-03,  7.5293e-04]], device='cuda:0')
+Epoch 333, bias, value: tensor([-0.0515,  0.0213,  0.0068, -0.0129, -0.0057,  0.0080, -0.0144,  0.0337,
+        -0.0160,  0.0112], device='cuda:0'), grad: tensor([-0.0117, -0.0225, -0.0178, -0.0375, -0.0095,  0.0172,  0.0089,  0.0417,
+         0.0174,  0.0137], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 332, time 228.26, cls_loss 0.5360 cls_loss_mapping 0.0028 cls_loss_causal 0.4726 re_mapping 0.0096 re_causal 0.0215 /// teacc 98.80 lr 0.00010000
+Epoch 334, weight, value: tensor([[-0.1982, -0.0160,  0.0303,  ..., -0.0266, -0.0806, -0.1347],
+        [-0.0530, -0.0993,  0.0373,  ...,  0.0479, -0.0184, -0.0919],
+        [-0.0579, -0.0850, -0.1097,  ...,  0.0402, -0.0353, -0.1069],
+        ...,
+        [-0.0681,  0.0302,  0.0284,  ...,  0.0218, -0.0593, -0.0938],
+        [-0.0788, -0.0004,  0.0222,  ...,  0.0704, -0.0373, -0.1717],
+        [ 0.0615,  0.0623, -0.0541,  ..., -0.1077, -0.0199,  0.0835]],
+       device='cuda:0'), grad: tensor([[ 4.9084e-05,  1.2085e-05,  7.8773e-04,  ...,  2.4870e-05,
+          6.6900e-04,  2.0921e-05],
+        [ 2.6152e-05,  4.7028e-05, -1.1177e-03,  ...,  1.4015e-05,
+          8.5640e-04,  2.3574e-05],
+        [-7.8297e-04,  9.4833e-03, -2.3804e-03,  ...,  7.3051e-03,
+         -5.0278e-03, -3.7253e-05],
+        ...,
+        [ 5.6982e-04,  8.2684e-04,  1.7309e-03,  ...,  1.1396e-03,
+          1.0042e-03,  1.9622e-04],
+        [ 1.1873e-04,  4.4435e-05,  6.6566e-04,  ...,  2.1517e-05,
+          4.6253e-04,  8.2493e-05],
+        [-3.6263e-04,  4.0550e-03,  7.9298e-04,  ...,  9.5293e-06,
+          4.7421e-04, -4.6968e-04]], device='cuda:0')
+Epoch 334, bias, value: tensor([-0.0517,  0.0225,  0.0074, -0.0132, -0.0058,  0.0077, -0.0141,  0.0335,
+        -0.0176,  0.0120], device='cuda:0'), grad: tensor([ 0.0129,  0.0104, -0.0075, -0.0160,  0.0188,  0.0119, -0.0089, -0.0205,
+        -0.0202,  0.0191], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 333, time 228.34, cls_loss 0.5173 cls_loss_mapping 0.0033 cls_loss_causal 0.4486 re_mapping 0.0095 re_causal 0.0210 /// teacc 98.83 lr 0.00010000
+Epoch 335, weight, value: tensor([[-0.1984, -0.0161,  0.0309,  ..., -0.0268, -0.0800, -0.1346],
+        [-0.0539, -0.0993,  0.0375,  ...,  0.0486, -0.0181, -0.0929],
+        [-0.0572, -0.0866, -0.1095,  ...,  0.0405, -0.0356, -0.1065],
+        ...,
+        [-0.0691,  0.0305,  0.0282,  ...,  0.0223, -0.0598, -0.0947],
+        [-0.0784, -0.0014,  0.0224,  ...,  0.0696, -0.0376, -0.1730],
+        [ 0.0627,  0.0625, -0.0546,  ..., -0.1075, -0.0205,  0.0845]],
+       device='cuda:0'), grad: tensor([[ 3.1665e-08,  5.6386e-05,  8.8215e-06,  ...,  9.4250e-07,
+          7.0238e-04,  2.2531e-05],
+        [ 4.5449e-07,  6.5279e-04, -6.3515e-03,  ...,  2.3231e-05,
+          2.1000e-03,  4.9397e-06],
+        [ 2.5518e-07,  1.2815e-04,  1.6654e-04,  ...,  1.6999e-04,
+          2.7962e-03,  1.1660e-05],
+        ...,
+        [ 1.2051e-06, -8.7833e-04,  1.1057e-04,  ...,  1.6481e-05,
+          1.5821e-03,  9.7632e-05],
+        [ 4.8578e-06,  3.6979e-04, -4.4674e-05,  ..., -2.8539e-04,
+         -1.3901e-02,  1.3769e-04],
+        [ 1.1299e-02, -5.6887e-04,  4.8103e-03,  ...,  5.8532e-05,
+          7.7105e-04,  3.2735e-04]], device='cuda:0')
+Epoch 335, bias, value: tensor([-0.0506,  0.0226,  0.0067, -0.0135, -0.0063,  0.0077, -0.0138,  0.0333,
+        -0.0179,  0.0123], device='cuda:0'), grad: tensor([-0.0263, -0.0352,  0.0159,  0.0083, -0.0044,  0.0073,  0.0256, -0.0028,
+        -0.0205,  0.0321], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 334, time 225.77, cls_loss 0.5360 cls_loss_mapping 0.0035 cls_loss_causal 0.4720 re_mapping 0.0096 re_causal 0.0218 /// teacc 98.84 lr 0.00010000
+Epoch 336, weight, value: tensor([[-0.1982, -0.0168,  0.0312,  ..., -0.0265, -0.0801, -0.1350],
+        [-0.0542, -0.0996,  0.0373,  ...,  0.0487, -0.0192, -0.0936],
+        [-0.0577, -0.0850, -0.1097,  ...,  0.0401, -0.0361, -0.1063],
+        ...,
+        [-0.0700,  0.0309,  0.0278,  ...,  0.0216, -0.0590, -0.0958],
+        [-0.0788, -0.0019,  0.0225,  ...,  0.0694, -0.0373, -0.1743],
+        [ 0.0636,  0.0624, -0.0548,  ..., -0.1068, -0.0205,  0.0858]],
+       device='cuda:0'), grad: tensor([[ 8.5354e-04,  3.8934e-04,  1.2426e-03,  ...,  1.0147e-03,
+          7.0763e-04,  1.8568e-03],
+        [ 1.2434e-04, -6.4850e-04, -4.2572e-03,  ..., -1.0366e-03,
+          8.0204e-04, -5.4436e-03],
+        [ 6.8474e-04,  8.2636e-04,  1.2169e-03,  ...,  1.5726e-03,
+          8.3237e-03,  1.8873e-03],
+        ...,
+        [ 8.9407e-04, -9.8419e-04, -6.8545e-05,  ...,  9.0313e-04,
+          2.0370e-03,  1.8511e-03],
+        [-2.0428e-03, -4.8614e-04,  9.2328e-05,  ..., -3.1090e-03,
+          1.6575e-03, -1.5163e-03],
+        [ 1.8101e-03,  8.8358e-04, -4.8137e-04,  ...,  3.5896e-03,
+          6.9427e-04,  1.0574e-04]], device='cuda:0')
+Epoch 336, bias, value: tensor([-0.0505,  0.0220,  0.0066, -0.0146, -0.0059,  0.0079, -0.0133,  0.0331,
+        -0.0175,  0.0128], device='cuda:0'), grad: tensor([ 0.0227, -0.0436,  0.0369, -0.0001,  0.0170, -0.0358,  0.0001,  0.0254,
+        -0.0349,  0.0122], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 335, time 227.48, cls_loss 0.5316 cls_loss_mapping 0.0034 cls_loss_causal 0.4650 re_mapping 0.0096 re_causal 0.0226 /// teacc 98.85 lr 0.00010000
+Epoch 337, weight, value: tensor([[-0.1980, -0.0161,  0.0298,  ..., -0.0262, -0.0789, -0.1335],
+        [-0.0544, -0.0986,  0.0364,  ...,  0.0476, -0.0194, -0.0961],
+        [-0.0575, -0.0832, -0.1098,  ...,  0.0391, -0.0372, -0.1068],
+        ...,
+        [-0.0717,  0.0303,  0.0282,  ...,  0.0222, -0.0594, -0.0966],
+        [-0.0785, -0.0026,  0.0223,  ...,  0.0694, -0.0374, -0.1735],
+        [ 0.0643,  0.0624, -0.0540,  ..., -0.1068, -0.0216,  0.0846]],
+       device='cuda:0'), grad: tensor([[ 4.5824e-04,  1.1420e-04,  8.9705e-05,  ...,  4.1991e-05,
+          1.2174e-05,  6.8235e-04],
+        [-4.3449e-03,  6.0230e-05,  1.1778e-04,  ...,  2.9588e-04,
+          9.9754e-04, -3.2616e-03],
+        [ 6.5565e-04,  7.2598e-05,  1.2693e-03,  ...,  9.6130e-04,
+          3.0003e-03,  9.8705e-04],
+        ...,
+        [-8.5783e-04,  3.4094e-05,  2.8759e-05,  ...,  1.4700e-05,
+          3.5226e-05, -2.7218e-03],
+        [ 4.3988e-04, -1.1997e-03,  3.2854e-04,  ..., -7.5847e-06,
+         -3.3426e-04, -5.8842e-04],
+        [ 7.2384e-04,  3.5930e-04,  2.0158e-04,  ...,  2.3335e-05,
+          4.0650e-05,  1.5593e-03]], device='cuda:0')
+Epoch 337, bias, value: tensor([-0.0494,  0.0211,  0.0073, -0.0146, -0.0059,  0.0075, -0.0127,  0.0332,
+        -0.0180,  0.0123], device='cuda:0'), grad: tensor([ 0.0102, -0.0354,  0.0288, -0.0141, -0.0249,  0.0167,  0.0310, -0.0233,
+         0.0010,  0.0100], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 336, time 227.31, cls_loss 0.5130 cls_loss_mapping 0.0029 cls_loss_causal 0.4581 re_mapping 0.0096 re_causal 0.0227 /// teacc 98.81 lr 0.00010000
+Epoch 338, weight, value: tensor([[-0.1989, -0.0163,  0.0292,  ..., -0.0254, -0.0805, -0.1339],
+        [-0.0543, -0.0998,  0.0354,  ...,  0.0471, -0.0196, -0.0956],
+        [-0.0571, -0.0844, -0.1094,  ...,  0.0394, -0.0363, -0.1073],
+        ...,
+        [-0.0733,  0.0306,  0.0281,  ...,  0.0216, -0.0594, -0.0960],
+        [-0.0789, -0.0019,  0.0231,  ...,  0.0693, -0.0371, -0.1741],
+        [ 0.0655,  0.0632, -0.0547,  ..., -0.1065, -0.0212,  0.0843]],
+       device='cuda:0'), grad: tensor([[-9.9480e-05,  5.7101e-05,  2.8539e-04,  ...,  1.3244e-04,
+          7.3528e-04, -2.0206e-04],
+        [-2.8825e-04, -1.6415e-04,  5.0449e-04,  ...,  4.6444e-04,
+          1.8892e-03,  3.0667e-05],
+        [ 1.4222e-04,  9.4414e-05,  1.6699e-03,  ...,  9.9754e-04,
+          2.3117e-03,  1.0419e-04],
+        ...,
+        [-1.2337e-02, -2.0885e-04, -3.6263e-04,  ..., -1.2970e-04,
+         -7.4844e-03, -8.8272e-03],
+        [ 1.2040e-04, -1.6809e-05,  1.0071e-03,  ...,  6.8378e-04,
+          1.0433e-03, -7.1287e-05],
+        [ 1.1505e-02, -1.0471e-03,  1.3580e-03,  ...,  1.5574e-03,
+         -3.2234e-04,  8.1787e-03]], device='cuda:0')
+Epoch 338, bias, value: tensor([-0.0509,  0.0202,  0.0074, -0.0149, -0.0042,  0.0067, -0.0134,  0.0333,
+        -0.0165,  0.0128], device='cuda:0'), grad: tensor([ 0.0076,  0.0230,  0.0030, -0.0110,  0.0249, -0.0225,  0.0107, -0.0269,
+         0.0008, -0.0098], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 337, time 227.02, cls_loss 0.5071 cls_loss_mapping 0.0023 cls_loss_causal 0.4401 re_mapping 0.0093 re_causal 0.0217 /// teacc 98.96 lr 0.00010000
+Epoch 339, weight, value: tensor([[-0.1988, -0.0163,  0.0287,  ..., -0.0249, -0.0817, -0.1342],
+        [-0.0545, -0.0999,  0.0367,  ...,  0.0471, -0.0190, -0.0959],
+        [-0.0573, -0.0851, -0.1092,  ...,  0.0383, -0.0376, -0.1079],
+        ...,
+        [-0.0720,  0.0304,  0.0273,  ...,  0.0220, -0.0595, -0.0941],
+        [-0.0780, -0.0012,  0.0228,  ...,  0.0693, -0.0368, -0.1753],
+        [ 0.0651,  0.0625, -0.0543,  ..., -0.1061, -0.0192,  0.0836]],
+       device='cuda:0'), grad: tensor([[ 2.5004e-05, -6.9809e-03,  4.1910e-07,  ...,  1.1884e-05,
+          9.8133e-04, -3.1624e-03],
+        [ 1.4819e-05, -2.7294e-03,  7.6368e-07,  ...,  1.0580e-05,
+          2.2297e-03,  5.5170e-04],
+        [ 1.4210e-04,  6.7186e-04,  1.8120e-05,  ...,  1.3620e-05,
+          1.1330e-03,  3.3903e-04],
+        ...,
+        [ 1.6937e-03,  7.0496e-03,  6.0463e-04,  ..., -3.1441e-05,
+          2.5826e-03,  3.8376e-03],
+        [ 5.0306e-04, -1.0948e-03,  2.3581e-06,  ...,  1.6779e-05,
+          1.5974e-03, -1.0252e-03],
+        [-1.6356e-03,  6.2799e-04, -6.1703e-04,  ...,  9.8497e-06,
+         -5.6114e-03, -1.0996e-03]], device='cuda:0')
+Epoch 339, bias, value: tensor([-0.0500,  0.0209,  0.0060, -0.0148, -0.0041,  0.0076, -0.0134,  0.0327,
+        -0.0168,  0.0126], device='cuda:0'), grad: tensor([-0.0490, -0.0054,  0.0141,  0.0114,  0.0049,  0.0117, -0.0338,  0.0530,
+         0.0074, -0.0142], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 338, time 229.03, cls_loss 0.5403 cls_loss_mapping 0.0029 cls_loss_causal 0.4715 re_mapping 0.0088 re_causal 0.0214 /// teacc 98.94 lr 0.00010000
+Epoch 340, weight, value: tensor([[-0.1982, -0.0163,  0.0278,  ..., -0.0250, -0.0812, -0.1344],
+        [-0.0549, -0.0987,  0.0370,  ...,  0.0467, -0.0198, -0.0956],
+        [-0.0562, -0.0852, -0.1088,  ...,  0.0395, -0.0375, -0.1085],
+        ...,
+        [-0.0718,  0.0296,  0.0273,  ...,  0.0224, -0.0599, -0.0940],
+        [-0.0782, -0.0018,  0.0231,  ...,  0.0692, -0.0368, -0.1744],
+        [ 0.0661,  0.0622, -0.0537,  ..., -0.1062, -0.0195,  0.0841]],
+       device='cuda:0'), grad: tensor([[ 4.6611e-04,  2.4766e-05,  1.0891e-03,  ...,  4.7755e-04,
+          1.0939e-03,  4.0960e-04],
+        [ 6.9082e-05,  4.7708e-04, -1.0841e-02,  ..., -1.3971e-03,
+         -5.6877e-03,  5.2333e-05],
+        [ 1.6427e-04, -1.4048e-03,  4.5156e-04,  ..., -1.4887e-03,
+         -5.0426e-05,  1.4925e-04],
+        ...,
+        [ 1.0433e-03,  3.5191e-04,  4.4861e-03,  ...,  6.1464e-04,
+          2.8419e-03,  6.3324e-04],
+        [ 1.2312e-03,  4.1366e-04,  4.1962e-03,  ...,  2.1019e-03,
+         -3.6449e-03,  1.2217e-03],
+        [-2.3727e-03,  9.3699e-05, -2.5673e-03,  ..., -1.8139e-03,
+          1.0586e-03, -1.5335e-03]], device='cuda:0')
+Epoch 340, bias, value: tensor([-0.0500,  0.0208,  0.0056, -0.0143, -0.0038,  0.0075, -0.0144,  0.0329,
+        -0.0170,  0.0132], device='cuda:0'), grad: tensor([ 0.0095, -0.0129, -0.0033, -0.0085,  0.0187, -0.0056,  0.0134, -0.0053,
+         0.0018, -0.0078], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 339, time 231.10, cls_loss 0.5265 cls_loss_mapping 0.0035 cls_loss_causal 0.4578 re_mapping 0.0093 re_causal 0.0218 /// teacc 98.68 lr 0.00010000
+Epoch 341, weight, value: tensor([[-0.1980, -0.0166,  0.0273,  ..., -0.0250, -0.0829, -0.1339],
+        [-0.0539, -0.0998,  0.0376,  ...,  0.0466, -0.0192, -0.0945],
+        [-0.0571, -0.0854, -0.1079,  ...,  0.0400, -0.0368, -0.1100],
+        ...,
+        [-0.0719,  0.0309,  0.0267,  ...,  0.0223, -0.0603, -0.0946],
+        [-0.0772, -0.0017,  0.0222,  ...,  0.0691, -0.0364, -0.1754],
+        [ 0.0643,  0.0616, -0.0547,  ..., -0.1062, -0.0194,  0.0844]],
+       device='cuda:0'), grad: tensor([[ 3.2485e-05,  4.3772e-07,  2.7561e-04,  ...,  1.5533e-04,
+          8.0490e-04,  5.1916e-05],
+        [ 9.4235e-05,  8.4639e-06,  4.1723e-04,  ..., -1.0818e-04,
+          9.3985e-04,  1.3733e-04],
+        [-1.7033e-03,  5.8979e-05,  5.0640e-04,  ...,  2.7680e-04,
+          6.7282e-04,  6.1572e-05],
+        ...,
+        [ 5.5504e-04, -1.1003e-04,  3.7742e-04,  ...,  1.1630e-05,
+          1.1244e-03,  7.6056e-05],
+        [ 2.5821e-04,  2.0266e-06, -5.2404e-04,  ..., -5.0640e-04,
+          1.0548e-03,  3.9315e-04],
+        [ 4.8317e-06,  3.9011e-05, -2.7161e-03,  ...,  8.6278e-06,
+         -8.3466e-03,  9.3877e-05]], device='cuda:0')
+Epoch 341, bias, value: tensor([-0.0504,  0.0215,  0.0064, -0.0152, -0.0034,  0.0074, -0.0144,  0.0335,
+        -0.0182,  0.0133], device='cuda:0'), grad: tensor([ 0.0133,  0.0219, -0.0163,  0.0358, -0.0114, -0.0037,  0.0198,  0.0170,
+        -0.0312, -0.0452], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 340, time 228.48, cls_loss 0.5410 cls_loss_mapping 0.0029 cls_loss_causal 0.4828 re_mapping 0.0095 re_causal 0.0226 /// teacc 98.78 lr 0.00010000
+Epoch 342, weight, value: tensor([[-0.1982, -0.0169,  0.0280,  ..., -0.0257, -0.0818, -0.1349],
+        [-0.0530, -0.0997,  0.0383,  ...,  0.0464, -0.0178, -0.0952],
+        [-0.0563, -0.0853, -0.1095,  ...,  0.0397, -0.0358, -0.1095],
+        ...,
+        [-0.0714,  0.0315,  0.0264,  ...,  0.0231, -0.0603, -0.0950],
+        [-0.0777, -0.0020,  0.0215,  ...,  0.0688, -0.0369, -0.1757],
+        [ 0.0636,  0.0616, -0.0547,  ..., -0.1061, -0.0182,  0.0847]],
+       device='cuda:0'), grad: tensor([[ 2.4751e-05, -1.4031e-04, -6.9237e-04,  ...,  1.6630e-05,
+         -4.8561e-03,  2.4378e-05],
+        [-3.4809e-04,  1.9169e-04,  5.2261e-04,  ..., -3.4714e-04,
+          2.6512e-03,  5.5403e-05],
+        [ 1.3900e-04,  2.4772e-04,  1.8282e-03,  ...,  1.1462e-04,
+          1.1978e-03,  7.3969e-05],
+        ...,
+        [ 3.2158e-03,  1.4639e-03,  5.8060e-03,  ...,  7.8058e-04,
+          1.5421e-03,  2.7599e-03],
+        [ 1.0461e-04,  1.1606e-03, -3.4561e-03,  ...,  6.4254e-05,
+          1.1969e-03,  2.3115e-04],
+        [-9.3155e-03, -1.8127e-02, -3.8338e-03,  ..., -8.0872e-04,
+         -4.9744e-03, -2.7733e-03]], device='cuda:0')
+Epoch 342, bias, value: tensor([-0.0507,  0.0228,  0.0070, -0.0156, -0.0031,  0.0064, -0.0154,  0.0343,
+        -0.0183,  0.0130], device='cuda:0'), grad: tensor([-0.0235,  0.0207,  0.0197, -0.0204,  0.0101, -0.0154,  0.0148,  0.0487,
+        -0.0079, -0.0468], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 341, time 228.03, cls_loss 0.5308 cls_loss_mapping 0.0040 cls_loss_causal 0.4690 re_mapping 0.0092 re_causal 0.0214 /// teacc 98.71 lr 0.00010000
+Epoch 343, weight, value: tensor([[-0.1967, -0.0167,  0.0288,  ..., -0.0253, -0.0826, -0.1349],
+        [-0.0542, -0.1003,  0.0368,  ...,  0.0462, -0.0173, -0.0947],
+        [-0.0592, -0.0859, -0.1078,  ...,  0.0399, -0.0350, -0.1099],
+        ...,
+        [-0.0699,  0.0312,  0.0262,  ...,  0.0230, -0.0593, -0.0964],
+        [-0.0771, -0.0022,  0.0223,  ...,  0.0689, -0.0370, -0.1767],
+        [ 0.0638,  0.0621, -0.0556,  ..., -0.1057, -0.0190,  0.0856]],
+       device='cuda:0'), grad: tensor([[ 1.5843e-04,  4.3571e-05,  7.0953e-04,  ...,  5.1594e-04,
+          4.8780e-04,  2.7561e-04],
+        [ 1.7321e-04,  3.9101e-05,  1.3571e-03,  ...,  7.0333e-04,
+          3.4976e-04,  4.6682e-04],
+        [ 4.6825e-04,  3.2097e-05,  2.4471e-03,  ...,  1.7776e-03,
+          1.1597e-03,  9.7036e-04],
+        ...,
+        [ 1.2884e-03, -2.4738e-03,  3.7270e-03,  ...,  3.2024e-03,
+          2.4109e-03,  1.6403e-03],
+        [-2.9945e-03,  1.5870e-05, -7.5951e-03,  ..., -7.1564e-03,
+         -5.9662e-03, -3.5343e-03],
+        [ 9.1255e-05,  2.3918e-03,  1.1148e-03,  ...,  6.3038e-04,
+          9.0790e-04,  2.2352e-04]], device='cuda:0')
+Epoch 343, bias, value: tensor([-0.0503,  0.0221,  0.0078, -0.0148, -0.0023,  0.0068, -0.0155,  0.0325,
+        -0.0188,  0.0130], device='cuda:0'), grad: tensor([-0.0047, -0.0123,  0.0205, -0.0309, -0.0128, -0.0176,  0.0132,  0.0233,
+        -0.0159,  0.0372], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 342, time 228.04, cls_loss 0.5373 cls_loss_mapping 0.0031 cls_loss_causal 0.4776 re_mapping 0.0093 re_causal 0.0215 /// teacc 98.84 lr 0.00010000
+Epoch 344, weight, value: tensor([[-0.1977, -0.0173,  0.0284,  ..., -0.0260, -0.0836, -0.1356],
+        [-0.0546, -0.1008,  0.0360,  ...,  0.0457, -0.0193, -0.0949],
+        [-0.0594, -0.0852, -0.1078,  ...,  0.0398, -0.0353, -0.1104],
+        ...,
+        [-0.0696,  0.0321,  0.0269,  ...,  0.0224, -0.0593, -0.0955],
+        [-0.0768, -0.0014,  0.0219,  ...,  0.0699, -0.0358, -0.1771],
+        [ 0.0644,  0.0612, -0.0545,  ..., -0.1052, -0.0173,  0.0853]],
+       device='cuda:0'), grad: tensor([[ 2.2501e-05,  4.0627e-04,  1.2100e-04,  ...,  0.0000e+00,
+          1.0900e-03,  9.6262e-06],
+        [ 2.8992e-04,  1.0777e-03,  1.5116e-04,  ...,  0.0000e+00,
+          2.1152e-03,  2.0957e-04],
+        [-3.3140e-04,  8.8310e-04,  3.5822e-05,  ...,  0.0000e+00,
+          2.8706e-03,  9.6798e-05],
+        ...,
+        [ 3.6526e-04, -3.8567e-03,  1.1790e-04,  ...,  0.0000e+00,
+         -1.4572e-02,  1.8024e-04],
+        [ 3.2806e-04,  5.4407e-04,  4.4918e-04,  ...,  0.0000e+00,
+          1.2093e-03,  1.6022e-04],
+        [ 1.4472e-04,  1.3908e-02,  7.8583e-04,  ...,  0.0000e+00,
+          1.9455e-03,  7.8201e-05]], device='cuda:0')
+Epoch 344, bias, value: tensor([-0.0505,  0.0211,  0.0083, -0.0146, -0.0034,  0.0069, -0.0154,  0.0332,
+        -0.0191,  0.0142], device='cuda:0'), grad: tensor([ 0.0046, -0.0187,  0.0066, -0.0037, -0.0239,  0.0099,  0.0056, -0.0125,
+         0.0084,  0.0236], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 343, time 228.02, cls_loss 0.4975 cls_loss_mapping 0.0031 cls_loss_causal 0.4441 re_mapping 0.0095 re_causal 0.0211 /// teacc 98.96 lr 0.00010000
+Epoch 345, weight, value: tensor([[-0.1984, -0.0174,  0.0285,  ..., -0.0266, -0.0824, -0.1374],
+        [-0.0526, -0.1015,  0.0361,  ...,  0.0479, -0.0189, -0.0951],
+        [-0.0594, -0.0845, -0.1079,  ...,  0.0405, -0.0369, -0.1106],
+        ...,
+        [-0.0696,  0.0325,  0.0279,  ...,  0.0214, -0.0589, -0.0956],
+        [-0.0778, -0.0008,  0.0216,  ...,  0.0685, -0.0352, -0.1772],
+        [ 0.0658,  0.0612, -0.0551,  ..., -0.1049, -0.0178,  0.0851]],
+       device='cuda:0'), grad: tensor([[ 1.6034e-04,  1.3798e-05,  7.2300e-05,  ...,  1.7345e-04,
+          2.5892e-04,  3.4928e-04],
+        [ 1.1081e-04,  1.6809e-04,  2.2396e-05,  ..., -4.8089e-04,
+          5.0592e-04, -1.1482e-03],
+        [ 1.6327e-03,  2.4281e-03, -3.2902e-05,  ...,  1.9703e-03,
+          1.1559e-02,  1.2207e-04],
+        ...,
+        [ 2.0065e-03,  3.8834e-03,  5.4741e-04,  ...,  2.0733e-03,
+          6.1913e-03,  1.2693e-03],
+        [ 1.6890e-03, -4.6120e-03,  3.2425e-04,  ...,  2.3155e-03,
+         -9.6436e-03,  5.1689e-04],
+        [ 1.0166e-03, -4.0398e-03,  3.1543e-04,  ...,  4.9877e-04,
+         -6.2790e-03,  7.2193e-04]], device='cuda:0')
+Epoch 345, bias, value: tensor([-0.0497,  0.0217,  0.0088, -0.0142, -0.0036,  0.0054, -0.0153,  0.0329,
+        -0.0186,  0.0131], device='cuda:0'), grad: tensor([ 0.0071, -0.0257, -0.0017, -0.0260,  0.0120,  0.0065,  0.0098,  0.0312,
+         0.0122, -0.0252], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 344, time 228.16, cls_loss 0.5412 cls_loss_mapping 0.0031 cls_loss_causal 0.4815 re_mapping 0.0097 re_causal 0.0232 /// teacc 98.88 lr 0.00010000
+Epoch 346, weight, value: tensor([[-0.1992, -0.0176,  0.0292,  ..., -0.0268, -0.0811, -0.1390],
+        [-0.0538, -0.1013,  0.0359,  ...,  0.0479, -0.0179, -0.0968],
+        [-0.0593, -0.0853, -0.1084,  ...,  0.0406, -0.0385, -0.1108],
+        ...,
+        [-0.0702,  0.0321,  0.0284,  ...,  0.0209, -0.0584, -0.0960],
+        [-0.0762, -0.0012,  0.0220,  ...,  0.0686, -0.0364, -0.1764],
+        [ 0.0652,  0.0618, -0.0555,  ..., -0.1050, -0.0168,  0.0862]],
+       device='cuda:0'), grad: tensor([[ 8.8215e-05,  6.2406e-05,  1.0033e-03,  ...,  4.7421e-04,
+          4.3130e-04,  1.9038e-04],
+        [ 6.1005e-05,  7.3075e-05, -6.8045e-04,  ...,  1.1530e-03,
+          1.5688e-03,  1.0985e-04],
+        [-2.8934e-03,  1.5962e-04,  7.7295e-04,  ..., -8.9169e-04,
+          2.0199e-03, -2.0027e-03],
+        ...,
+        [ 7.2420e-05,  8.2612e-05,  3.0589e-04,  ...,  3.1805e-04,
+          3.1519e-04,  8.2970e-05],
+        [ 1.5678e-03,  2.3699e-04, -4.0627e-03,  ..., -6.8569e-04,
+         -9.4366e-04,  2.7943e-04],
+        [ 8.9526e-05,  6.4850e-04,  7.2432e-04,  ...,  3.7432e-04,
+          3.7956e-04,  1.0955e-04]], device='cuda:0')
+Epoch 346, bias, value: tensor([-0.0493,  0.0206,  0.0082, -0.0137, -0.0043,  0.0051, -0.0143,  0.0324,
+        -0.0188,  0.0145], device='cuda:0'), grad: tensor([ 0.0156,  0.0163, -0.0169,  0.0243,  0.0468, -0.0222, -0.0387,  0.0111,
+        -0.0262, -0.0100], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 345, time 228.53, cls_loss 0.5438 cls_loss_mapping 0.0033 cls_loss_causal 0.4906 re_mapping 0.0092 re_causal 0.0221 /// teacc 98.80 lr 0.00010000
+Epoch 347, weight, value: tensor([[-0.1985, -0.0171,  0.0294,  ..., -0.0266, -0.0818, -0.1366],
+        [-0.0536, -0.1022,  0.0364,  ...,  0.0474, -0.0174, -0.0980],
+        [-0.0608, -0.0855, -0.1084,  ...,  0.0408, -0.0378, -0.1109],
+        ...,
+        [-0.0700,  0.0328,  0.0279,  ...,  0.0206, -0.0574, -0.0964],
+        [-0.0774, -0.0014,  0.0218,  ...,  0.0685, -0.0377, -0.1770],
+        [ 0.0646,  0.0618, -0.0554,  ..., -0.1041, -0.0169,  0.0870]],
+       device='cuda:0'), grad: tensor([[ 6.9904e-04,  7.7903e-05,  2.7752e-04,  ...,  4.0364e-04,
+          9.5749e-04,  5.7650e-04],
+        [ 9.5367e-05,  5.8860e-05,  1.0765e-04,  ...,  1.3006e-04,
+          1.3523e-03,  7.7665e-05],
+        [-1.1702e-03,  7.6675e-04, -2.0828e-03,  ..., -2.6646e-03,
+          1.0443e-03, -4.6468e-04],
+        ...,
+        [ 4.2558e-04,  2.2316e-04,  5.5504e-04,  ...,  6.4945e-04,
+         -3.1490e-03,  3.3164e-04],
+        [-1.9398e-03, -1.7258e-02,  4.1366e-04,  ...,  3.7408e-04,
+         -1.0406e-02, -4.9114e-04],
+        [ 2.2717e-03,  8.4915e-03,  9.6846e-04,  ...,  9.2745e-04,
+          4.1428e-03,  1.7996e-03]], device='cuda:0')
+Epoch 347, bias, value: tensor([-0.0500,  0.0209,  0.0084, -0.0130, -0.0045,  0.0060, -0.0150,  0.0326,
+        -0.0191,  0.0143], device='cuda:0'), grad: tensor([ 0.0051,  0.0191,  0.0123, -0.0244,  0.0260,  0.0012,  0.0222, -0.0076,
+        -0.0695,  0.0157], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 346, time 228.27, cls_loss 0.5124 cls_loss_mapping 0.0027 cls_loss_causal 0.4477 re_mapping 0.0094 re_causal 0.0219 /// teacc 98.89 lr 0.00010000
+Epoch 348, weight, value: tensor([[-0.1984, -0.0169,  0.0292,  ..., -0.0266, -0.0828, -0.1352],
+        [-0.0543, -0.1026,  0.0352,  ...,  0.0479, -0.0177, -0.0990],
+        [-0.0625, -0.0868, -0.1090,  ...,  0.0406, -0.0376, -0.1110],
+        ...,
+        [-0.0692,  0.0332,  0.0283,  ...,  0.0208, -0.0566, -0.0966],
+        [-0.0781, -0.0008,  0.0234,  ...,  0.0683, -0.0373, -0.1777],
+        [ 0.0640,  0.0618, -0.0549,  ..., -0.1044, -0.0169,  0.0873]],
+       device='cuda:0'), grad: tensor([[ 1.1051e-04,  7.5400e-06,  1.3959e-04,  ...,  1.0008e-04,
+          9.4831e-05,  1.0276e-04],
+        [ 5.1498e-04,  6.9179e-06,  1.1330e-03,  ...,  3.6299e-05,
+          3.3855e-05,  5.4741e-04],
+        [ 1.3518e-04,  2.6703e-05,  1.7071e-04,  ...,  1.2124e-04,
+          1.1426e-04,  1.2553e-04],
+        ...,
+        [ 3.4022e-04, -3.0249e-06,  5.3215e-04,  ...,  2.2662e-04,
+          2.1422e-04,  3.3140e-04],
+        [ 3.7169e-04, -3.1352e-04,  7.3814e-04,  ...,  3.2187e-04,
+          3.1877e-04,  3.6883e-04],
+        [-3.3593e-04,  9.8944e-06, -1.4076e-03,  ...,  3.6645e-04,
+          3.4928e-04, -4.4513e-04]], device='cuda:0')
+Epoch 348, bias, value: tensor([-0.0506,  0.0207,  0.0081, -0.0132, -0.0048,  0.0053, -0.0139,  0.0337,
+        -0.0191,  0.0142], device='cuda:0'), grad: tensor([-0.0211,  0.0226,  0.0131,  0.0214, -0.0480,  0.0227,  0.0194, -0.0148,
+         0.0359, -0.0510], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 347, time 229.13, cls_loss 0.5225 cls_loss_mapping 0.0035 cls_loss_causal 0.4688 re_mapping 0.0095 re_causal 0.0219 /// teacc 98.72 lr 0.00010000
+Epoch 349, weight, value: tensor([[-0.1997, -0.0171,  0.0303,  ..., -0.0262, -0.0824, -0.1370],
+        [-0.0550, -0.1025,  0.0346,  ...,  0.0481, -0.0171, -0.0991],
+        [-0.0614, -0.0869, -0.1086,  ...,  0.0412, -0.0368, -0.1104],
+        ...,
+        [-0.0685,  0.0341,  0.0273,  ...,  0.0207, -0.0578, -0.0964],
+        [-0.0777, -0.0010,  0.0220,  ...,  0.0677, -0.0351, -0.1789],
+        [ 0.0630,  0.0619, -0.0551,  ..., -0.1040, -0.0174,  0.0875]],
+       device='cuda:0'), grad: tensor([[ 1.3757e-04,  9.1612e-05,  1.7548e-04,  ...,  2.4259e-04,
+         -6.1941e-04,  8.0109e-05],
+        [ 6.1933e-07,  3.4779e-05,  2.3913e-04,  ...,  3.8767e-04,
+          1.1432e-04,  2.9892e-05],
+        [ 1.7583e-05,  3.4642e-04, -1.4365e-04,  ...,  5.8594e-03,
+          5.8937e-04,  5.1260e-06],
+        ...,
+        [ 1.3605e-05, -1.3774e-06,  2.0117e-06,  ..., -1.3123e-03,
+          2.1279e-04, -2.0534e-05],
+        [ 4.7475e-05, -1.4687e-03,  7.9918e-04,  ...,  2.7919e-04,
+         -3.6564e-03, -4.0460e-04],
+        [-2.4724e-04,  1.3101e-04, -1.4842e-04,  ...,  2.2984e-04,
+          5.8651e-04,  9.3281e-05]], device='cuda:0')
+Epoch 349, bias, value: tensor([-0.0498,  0.0207,  0.0078, -0.0145, -0.0051,  0.0049, -0.0132,  0.0339,
+        -0.0187,  0.0144], device='cuda:0'), grad: tensor([-0.0061,  0.0085,  0.0115,  0.0306,  0.0202,  0.0157, -0.0207, -0.0220,
+        -0.0193, -0.0183], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 348, time 229.26, cls_loss 0.5389 cls_loss_mapping 0.0043 cls_loss_causal 0.4746 re_mapping 0.0091 re_causal 0.0207 /// teacc 98.79 lr 0.00010000
+Epoch 350, weight, value: tensor([[-0.1997, -0.0168,  0.0298,  ..., -0.0263, -0.0827, -0.1378],
+        [-0.0550, -0.1018,  0.0354,  ...,  0.0470, -0.0162, -0.0995],
+        [-0.0623, -0.0871, -0.1085,  ...,  0.0409, -0.0376, -0.1100],
+        ...,
+        [-0.0689,  0.0350,  0.0296,  ...,  0.0215, -0.0581, -0.0961],
+        [-0.0779, -0.0022,  0.0218,  ...,  0.0682, -0.0345, -0.1796],
+        [ 0.0639,  0.0627, -0.0558,  ..., -0.1043, -0.0162,  0.0879]],
+       device='cuda:0'), grad: tensor([[ 8.1003e-05, -3.1528e-03, -1.7166e-03,  ..., -1.3142e-03,
+          6.9141e-04,  5.7518e-06],
+        [ 6.5342e-06,  5.5790e-04, -8.2321e-03,  ..., -2.0676e-03,
+          1.9097e-04,  7.5772e-06],
+        [ 1.5182e-03,  1.8406e-04,  3.3951e-04,  ...,  1.0719e-03,
+          3.3455e-03,  1.8016e-05],
+        ...,
+        [ 6.1929e-05,  2.3782e-04,  1.8764e-04,  ...,  1.5593e-04,
+          1.4257e-03,  1.0246e-04],
+        [-2.4204e-03,  2.0065e-03,  4.5109e-04,  ..., -1.0595e-03,
+         -5.4665e-03,  1.0109e-04],
+        [ 4.5824e-04, -4.6158e-03,  2.1386e-04,  ...,  1.2970e-04,
+          1.4906e-03, -2.8896e-03]], device='cuda:0')
+Epoch 350, bias, value: tensor([-0.0495,  0.0212,  0.0079, -0.0133, -0.0060,  0.0049, -0.0138,  0.0327,
+        -0.0185,  0.0149], device='cuda:0'), grad: tensor([-0.0228,  0.0133, -0.0099, -0.0160,  0.0040,  0.0114,  0.0399,  0.0129,
+        -0.0203, -0.0125], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 349, time 228.07, cls_loss 0.5188 cls_loss_mapping 0.0022 cls_loss_causal 0.4577 re_mapping 0.0095 re_causal 0.0218 /// teacc 98.94 lr 0.00010000
+Epoch 351, weight, value: tensor([[-0.2001, -0.0167,  0.0297,  ..., -0.0260, -0.0834, -0.1379],
+        [-0.0549, -0.1028,  0.0357,  ...,  0.0477, -0.0157, -0.0987],
+        [-0.0620, -0.0877, -0.1085,  ...,  0.0401, -0.0372, -0.1088],
+        ...,
+        [-0.0690,  0.0342,  0.0300,  ...,  0.0221, -0.0587, -0.0966],
+        [-0.0786, -0.0027,  0.0215,  ...,  0.0675, -0.0346, -0.1800],
+        [ 0.0636,  0.0640, -0.0547,  ..., -0.1041, -0.0168,  0.0884]],
+       device='cuda:0'), grad: tensor([[-1.3363e-04,  3.3259e-04,  2.8825e-04,  ..., -7.3254e-05,
+          2.6631e-04, -4.7833e-05],
+        [ 1.5116e-04,  5.7983e-04,  7.9930e-05,  ..., -6.1810e-05,
+          5.4628e-05,  3.0324e-05],
+        [ 3.1853e-04,  6.5851e-04,  1.0157e-03,  ...,  3.7193e-04,
+          3.6478e-04,  2.0111e-04],
+        ...,
+        [ 3.9864e-04,  4.7798e-03,  1.8950e-03,  ...,  2.2137e-04,
+          1.4246e-04,  1.4153e-03],
+        [-7.5684e-03,  1.3390e-03, -9.3222e-04,  ..., -2.3460e-03,
+         -5.9547e-03, -1.1721e-03],
+        [-1.2064e-03,  1.3447e-03,  8.6403e-04,  ..., -1.3340e-04,
+          1.5268e-03,  1.2183e-04]], device='cuda:0')
+Epoch 351, bias, value: tensor([-0.0508,  0.0209,  0.0077, -0.0133, -0.0057,  0.0066, -0.0138,  0.0331,
+        -0.0189,  0.0146], device='cuda:0'), grad: tensor([ 5.9013e-03, -1.9958e-02,  1.3397e-02,  9.2545e-03, -3.6011e-02,
+        -9.3155e-03,  7.2420e-05,  3.0457e-02, -9.7275e-03,  1.5961e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 350, time 229.27, cls_loss 0.5169 cls_loss_mapping 0.0038 cls_loss_causal 0.4556 re_mapping 0.0091 re_causal 0.0205 /// teacc 98.87 lr 0.00010000
+Epoch 352, weight, value: tensor([[-0.1999, -0.0192,  0.0295,  ..., -0.0273, -0.0847, -0.1389],
+        [-0.0556, -0.1006,  0.0359,  ...,  0.0487, -0.0168, -0.0957],
+        [-0.0629, -0.0883, -0.1081,  ...,  0.0393, -0.0376, -0.1092],
+        ...,
+        [-0.0692,  0.0346,  0.0296,  ...,  0.0226, -0.0588, -0.0969],
+        [-0.0790, -0.0022,  0.0213,  ...,  0.0675, -0.0343, -0.1814],
+        [ 0.0655,  0.0639, -0.0545,  ..., -0.1062, -0.0161,  0.0887]],
+       device='cuda:0'), grad: tensor([[ 8.5402e-04,  5.9068e-05,  1.5745e-03,  ...,  6.8521e-04,
+          5.6219e-04,  1.7786e-04],
+        [ 7.9453e-05,  3.3408e-05,  1.2455e-03,  ...,  6.2275e-04,
+          3.4595e-04,  1.5354e-04],
+        [ 5.5599e-04,  2.7195e-05,  1.1082e-03,  ...,  6.4707e-04,
+          3.9673e-04,  4.4036e-04],
+        ...,
+        [ 6.7115e-05,  3.9078e-06,  6.1607e-04,  ..., -8.0228e-05,
+          4.3058e-04,  3.0935e-05],
+        [ 1.2140e-03, -7.8976e-05,  7.7546e-05,  ..., -1.1647e-04,
+          5.1165e-04,  4.4870e-04],
+        [ 2.3174e-04,  1.1742e-05, -5.0812e-03,  ..., -1.9493e-03,
+         -2.3251e-03,  8.5473e-05]], device='cuda:0')
+Epoch 352, bias, value: tensor([-0.0513,  0.0218,  0.0084, -0.0134, -0.0059,  0.0065, -0.0143,  0.0332,
+        -0.0185,  0.0139], device='cuda:0'), grad: tensor([ 0.0165,  0.0218,  0.0178,  0.0172,  0.0339,  0.0083, -0.0411, -0.0204,
+        -0.0020, -0.0520], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 351, time 228.14, cls_loss 0.5024 cls_loss_mapping 0.0029 cls_loss_causal 0.4470 re_mapping 0.0091 re_causal 0.0208 /// teacc 98.93 lr 0.00010000
+Epoch 353, weight, value: tensor([[-0.1992, -0.0195,  0.0289,  ..., -0.0278, -0.0857, -0.1387],
+        [-0.0565, -0.1018,  0.0360,  ...,  0.0495, -0.0165, -0.0954],
+        [-0.0626, -0.0892, -0.1087,  ...,  0.0380, -0.0375, -0.1097],
+        ...,
+        [-0.0700,  0.0350,  0.0299,  ...,  0.0225, -0.0589, -0.0971],
+        [-0.0798, -0.0021,  0.0223,  ...,  0.0670, -0.0352, -0.1824],
+        [ 0.0656,  0.0641, -0.0552,  ..., -0.1047, -0.0156,  0.0889]],
+       device='cuda:0'), grad: tensor([[ 5.9865e-06,  1.5392e-03,  7.1704e-05,  ...,  4.2057e-04,
+          4.1795e-04,  2.4045e-04],
+        [ 3.5353e-06, -1.5850e-03, -5.2661e-05,  ..., -1.1075e-04,
+         -3.4599e-03,  7.1526e-05],
+        [ 9.3699e-05, -5.2643e-04, -1.0061e-03,  ..., -4.9858e-03,
+          5.3346e-05, -2.5787e-03],
+        ...,
+        [-1.1432e-04,  1.2512e-03,  1.8597e-04,  ...,  1.2293e-03,
+          6.9761e-04,  3.7527e-04],
+        [ 1.5035e-05,  2.0447e-02,  1.8847e-04,  ...,  1.0815e-03,
+          1.0796e-03,  8.3923e-04],
+        [ 3.8464e-07, -2.1103e-02,  1.0622e-04,  ...,  7.3433e-04,
+          6.1691e-05,  2.9397e-04]], device='cuda:0')
+Epoch 353, bias, value: tensor([-0.0517,  0.0220,  0.0069, -0.0145, -0.0061,  0.0078, -0.0135,  0.0334,
+        -0.0184,  0.0145], device='cuda:0'), grad: tensor([ 0.0134, -0.0137, -0.0337, -0.0142, -0.0334,  0.0277,  0.0165,  0.0174,
+         0.0215, -0.0015], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 352, time 228.49, cls_loss 0.5412 cls_loss_mapping 0.0031 cls_loss_causal 0.4821 re_mapping 0.0096 re_causal 0.0225 /// teacc 98.79 lr 0.00010000
+Epoch 354, weight, value: tensor([[-0.1970, -0.0192,  0.0300,  ..., -0.0280, -0.0844, -0.1390],
+        [-0.0568, -0.1027,  0.0370,  ...,  0.0503, -0.0171, -0.0955],
+        [-0.0624, -0.0889, -0.1096,  ...,  0.0381, -0.0386, -0.1096],
+        ...,
+        [-0.0704,  0.0350,  0.0296,  ...,  0.0205, -0.0592, -0.0973],
+        [-0.0810, -0.0028,  0.0220,  ...,  0.0665, -0.0347, -0.1834],
+        [ 0.0654,  0.0632, -0.0537,  ..., -0.1039, -0.0165,  0.0898]],
+       device='cuda:0'), grad: tensor([[ 1.9148e-06,  1.2624e-04, -1.6756e-03,  ...,  7.6294e-04,
+          6.8605e-05, -4.3464e-04],
+        [ 1.7703e-05,  1.8132e-04, -6.4492e-05,  ...,  1.4591e-03,
+          1.0949e-04,  2.5153e-04],
+        [ 1.0836e-04,  3.5620e-04,  5.4169e-04,  ..., -4.9286e-03,
+          2.9254e-04,  7.4720e-04],
+        ...,
+        [ 5.7161e-05,  9.9850e-04,  1.9526e-04,  ...,  1.4126e-05,
+          2.2125e-03,  7.4005e-04],
+        [ 2.2069e-05,  1.2293e-03,  3.9029e-04,  ..., -5.2500e-04,
+          9.8324e-04,  3.1590e-04],
+        [-5.2691e-05, -2.0771e-03,  3.5715e-04,  ...,  6.3658e-05,
+         -5.2071e-03, -1.2197e-03]], device='cuda:0')
+Epoch 354, bias, value: tensor([-0.0512,  0.0217,  0.0063, -0.0136, -0.0054,  0.0063, -0.0129,  0.0334,
+        -0.0186,  0.0145], device='cuda:0'), grad: tensor([-0.0132,  0.0298, -0.0419,  0.0189,  0.0238, -0.0069, -0.0016, -0.0039,
+         0.0104, -0.0153], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 353, time 227.51, cls_loss 0.5395 cls_loss_mapping 0.0025 cls_loss_causal 0.4715 re_mapping 0.0095 re_causal 0.0222 /// teacc 98.87 lr 0.00010000
+Epoch 355, weight, value: tensor([[-0.1968, -0.0187,  0.0296,  ..., -0.0287, -0.0836, -0.1392],
+        [-0.0576, -0.1028,  0.0368,  ...,  0.0487, -0.0167, -0.0962],
+        [-0.0625, -0.0895, -0.1090,  ...,  0.0387, -0.0392, -0.1102],
+        ...,
+        [-0.0676,  0.0346,  0.0290,  ...,  0.0203, -0.0586, -0.0963],
+        [-0.0820, -0.0031,  0.0215,  ...,  0.0644, -0.0346, -0.1821],
+        [ 0.0654,  0.0632, -0.0547,  ..., -0.1056, -0.0156,  0.0886]],
+       device='cuda:0'), grad: tensor([[-1.2566e-02,  2.0862e-06, -8.1100e-03,  ...,  1.1861e-05,
+         -2.0935e-02,  7.8008e-06],
+        [ 1.0900e-05,  1.9953e-05,  1.3506e-04,  ...,  2.3797e-05,
+         -1.1505e-02,  2.2277e-06],
+        [ 4.5866e-05,  1.8124e-06,  4.7588e-04,  ...,  2.4211e-04,
+          1.1526e-05,  2.8104e-05],
+        ...,
+        [ 2.4338e-03,  4.8339e-05,  2.2507e-03,  ...,  2.0459e-05,
+          3.8490e-03,  1.0884e-04],
+        [ 3.6907e-04, -1.3847e-03, -2.6932e-03,  ..., -1.5869e-03,
+         -6.8009e-05,  3.5977e-04],
+        [ 1.0132e-02, -2.7954e-02,  7.4844e-03,  ...,  8.9556e-06,
+          1.7548e-02, -1.8871e-04]], device='cuda:0')
+Epoch 355, bias, value: tensor([-0.0515,  0.0210,  0.0082, -0.0137, -0.0045,  0.0068, -0.0138,  0.0332,
+        -0.0196,  0.0144], device='cuda:0'), grad: tensor([-0.0506, -0.0172,  0.0141,  0.0212,  0.0362, -0.0204,  0.0114,  0.0213,
+        -0.0309,  0.0149], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 354, time 223.56, cls_loss 0.5252 cls_loss_mapping 0.0023 cls_loss_causal 0.4646 re_mapping 0.0088 re_causal 0.0213 /// teacc 98.82 lr 0.00010000
+Epoch 356, weight, value: tensor([[-0.1961, -0.0171,  0.0301,  ..., -0.0255, -0.0833, -0.1385],
+        [-0.0566, -0.1032,  0.0373,  ...,  0.0486, -0.0163, -0.0967],
+        [-0.0627, -0.0885, -0.1092,  ...,  0.0390, -0.0400, -0.1109],
+        ...,
+        [-0.0671,  0.0335,  0.0285,  ...,  0.0194, -0.0575, -0.0985],
+        [-0.0827, -0.0041,  0.0221,  ...,  0.0630, -0.0337, -0.1824],
+        [ 0.0658,  0.0646, -0.0552,  ..., -0.1067, -0.0163,  0.0907]],
+       device='cuda:0'), grad: tensor([[ 1.3504e-03, -1.2123e-02,  5.9605e-08,  ..., -4.4870e-04,
+          4.4036e-04,  1.7643e-03],
+        [ 2.1636e-05,  6.9313e-03,  1.3165e-05,  ..., -2.6345e-05,
+          4.4815e-06,  2.4498e-05],
+        [ 2.2614e-04,  6.2752e-04,  2.0862e-05,  ...,  9.5725e-05,
+          2.9354e-03,  9.9468e-04],
+        ...,
+        [-1.9586e-04,  4.2796e-05, -1.7416e-04,  ..., -1.4114e-04,
+          1.2082e-04,  1.5962e-04],
+        [ 1.0556e-04,  6.7520e-03,  2.2620e-05,  ...,  3.7432e-05,
+          1.0696e-02,  8.7833e-04],
+        [-7.6599e-03,  3.9053e-04, -1.0574e-02,  ..., -3.6354e-03,
+          8.7118e-04, -1.6603e-03]], device='cuda:0')
+Epoch 356, bias, value: tensor([-0.0513,  0.0220,  0.0083, -0.0133, -0.0059,  0.0061, -0.0137,  0.0341,
+        -0.0195,  0.0136], device='cuda:0'), grad: tensor([-0.0558, -0.0453,  0.0254, -0.0081,  0.0319,  0.0198,  0.0006,  0.0113,
+         0.0334, -0.0131], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 355, time 226.17, cls_loss 0.5131 cls_loss_mapping 0.0037 cls_loss_causal 0.4532 re_mapping 0.0089 re_causal 0.0203 /// teacc 98.99 lr 0.00010000
+Epoch 357, weight, value: tensor([[-0.1968, -0.0177,  0.0294,  ..., -0.0260, -0.0847, -0.1381],
+        [-0.0556, -0.1036,  0.0367,  ...,  0.0500, -0.0163, -0.0973],
+        [-0.0626, -0.0879, -0.1083,  ...,  0.0397, -0.0397, -0.1116],
+        ...,
+        [-0.0667,  0.0336,  0.0283,  ...,  0.0191, -0.0578, -0.0980],
+        [-0.0825, -0.0043,  0.0234,  ...,  0.0615, -0.0339, -0.1815],
+        [ 0.0653,  0.0650, -0.0565,  ..., -0.1074, -0.0162,  0.0904]],
+       device='cuda:0'), grad: tensor([[ 4.4227e-05,  2.8086e-04,  5.5265e-04,  ...,  1.2279e-04,
+          3.2902e-04,  2.7490e-04],
+        [ 1.1927e-04,  1.4663e-04,  1.0557e-03,  ...,  3.1710e-05,
+          2.7013e-04,  1.9193e-04],
+        [-1.8799e-04,  9.2173e-04, -1.4191e-03,  ..., -5.5695e-04,
+          2.8992e-04, -2.2292e-04],
+        ...,
+        [ 1.9908e-04,  5.9748e-04,  9.6130e-04,  ...,  3.7241e-04,
+          3.4142e-04,  8.2064e-04],
+        [ 3.0689e-03,  2.3785e-03,  5.3358e-04,  ...,  1.6108e-03,
+          7.4291e-04,  1.8778e-03],
+        [-1.6475e-04, -2.8954e-03, -2.1877e-03,  ...,  3.7766e-04,
+         -2.8515e-03, -3.1815e-03]], device='cuda:0')
+Epoch 357, bias, value: tensor([-0.0511,  0.0225,  0.0086, -0.0130, -0.0053,  0.0056, -0.0151,  0.0335,
+        -0.0192,  0.0137], device='cuda:0'), grad: tensor([ 0.0172,  0.0209, -0.0287, -0.0060, -0.0143,  0.0264, -0.0339,  0.0217,
+         0.0363, -0.0395], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 356, time 225.44, cls_loss 0.5103 cls_loss_mapping 0.0026 cls_loss_causal 0.4456 re_mapping 0.0091 re_causal 0.0217 /// teacc 98.87 lr 0.00010000
+Epoch 358, weight, value: tensor([[-0.1977, -0.0175,  0.0290,  ..., -0.0269, -0.0842, -0.1400],
+        [-0.0549, -0.1048,  0.0372,  ...,  0.0500, -0.0169, -0.0972],
+        [-0.0634, -0.0860, -0.1082,  ...,  0.0400, -0.0394, -0.1126],
+        ...,
+        [-0.0680,  0.0338,  0.0275,  ...,  0.0201, -0.0583, -0.0992],
+        [-0.0799, -0.0041,  0.0240,  ...,  0.0623, -0.0343, -0.1823],
+        [ 0.0653,  0.0646, -0.0555,  ..., -0.1088, -0.0139,  0.0908]],
+       device='cuda:0'), grad: tensor([[ 9.6738e-05,  9.6381e-05,  3.3913e-03,  ...,  7.7486e-04,
+          6.0177e-04,  8.5592e-04],
+        [ 1.4234e-04,  2.0936e-05, -1.9550e-03,  ..., -4.3941e-04,
+          7.3290e-04,  5.5599e-04],
+        [ 5.1403e-04,  4.2051e-05,  4.6959e-03,  ...,  3.7556e-03,
+          1.1988e-03,  1.6489e-03],
+        ...,
+        [-3.0384e-03,  2.5139e-03, -4.1924e-03,  ..., -9.4271e-04,
+          1.0490e-03,  3.4389e-03],
+        [ 6.3753e-04,  1.2245e-02,  3.8147e-03,  ...,  1.1368e-02,
+          5.2357e-04,  5.5504e-04],
+        [ 8.5068e-04, -4.0970e-03,  2.2354e-03,  ...,  9.4366e-04,
+         -4.8790e-03, -4.1008e-03]], device='cuda:0')
+Epoch 358, bias, value: tensor([-0.0505,  0.0220,  0.0090, -0.0133, -0.0057,  0.0052, -0.0139,  0.0333,
+        -0.0196,  0.0139], device='cuda:0'), grad: tensor([ 0.0296, -0.0429,  0.0478, -0.0381,  0.0194, -0.0284, -0.0091,  0.0177,
+         0.0699, -0.0658], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 357, time 224.21, cls_loss 0.5219 cls_loss_mapping 0.0030 cls_loss_causal 0.4586 re_mapping 0.0090 re_causal 0.0209 /// teacc 98.84 lr 0.00010000
+Epoch 359, weight, value: tensor([[-0.1981, -0.0174,  0.0305,  ..., -0.0266, -0.0845, -0.1398],
+        [-0.0550, -0.1052,  0.0381,  ...,  0.0503, -0.0171, -0.0961],
+        [-0.0636, -0.0865, -0.1098,  ...,  0.0382, -0.0396, -0.1148],
+        ...,
+        [-0.0665,  0.0338,  0.0270,  ...,  0.0210, -0.0587, -0.0988],
+        [-0.0802, -0.0046,  0.0251,  ...,  0.0649, -0.0332, -0.1809],
+        [ 0.0642,  0.0648, -0.0557,  ..., -0.1097, -0.0140,  0.0901]],
+       device='cuda:0'), grad: tensor([[ 1.7717e-05,  3.8669e-06,  2.0099e-04,  ...,  1.0270e-04,
+          1.2779e-03,  1.1414e-05],
+        [ 3.5316e-05,  2.0303e-07,  1.8001e-04,  ...,  1.9753e-04,
+          1.0576e-03,  2.8327e-05],
+        [-1.0514e-04,  3.7216e-06,  5.7966e-05,  ...,  6.7174e-05,
+          1.0977e-03,  1.5348e-05],
+        ...,
+        [ 1.4138e-04,  1.6510e-04,  4.4513e-04,  ...,  1.5283e-04,
+          2.0695e-03,  1.9038e-04],
+        [ 5.3287e-05,  2.1666e-05,  3.2067e-04,  ..., -3.5596e-04,
+         -2.4323e-02,  7.7188e-05],
+        [ 4.7760e-03, -4.0030e-04,  8.6136e-03,  ...,  4.8409e-03,
+         -2.0027e-03,  4.4518e-03]], device='cuda:0')
+Epoch 359, bias, value: tensor([-0.0501,  0.0224,  0.0091, -0.0132, -0.0058,  0.0053, -0.0144,  0.0333,
+        -0.0191,  0.0128], device='cuda:0'), grad: tensor([ 0.0190,  0.0165,  0.0127, -0.0063, -0.0150, -0.0437, -0.0033,  0.0159,
+        -0.0052,  0.0094], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 358, time 224.64, cls_loss 0.5438 cls_loss_mapping 0.0032 cls_loss_causal 0.4840 re_mapping 0.0087 re_causal 0.0213 /// teacc 98.79 lr 0.00010000
+Epoch 360, weight, value: tensor([[-0.1984, -0.0185,  0.0300,  ..., -0.0274, -0.0844, -0.1406],
+        [-0.0560, -0.1055,  0.0376,  ...,  0.0514, -0.0177, -0.0945],
+        [-0.0631, -0.0870, -0.1105,  ...,  0.0398, -0.0393, -0.1144],
+        ...,
+        [-0.0665,  0.0336,  0.0279,  ...,  0.0194, -0.0603, -0.0989],
+        [-0.0806, -0.0048,  0.0246,  ...,  0.0650, -0.0328, -0.1813],
+        [ 0.0649,  0.0650, -0.0552,  ..., -0.1100, -0.0128,  0.0907]],
+       device='cuda:0'), grad: tensor([[ 1.3225e-07,  2.0158e-04,  2.0714e-03,  ...,  8.1301e-04,
+          1.0624e-03,  1.7090e-07],
+        [ 4.5560e-06,  2.5565e-07,  4.1428e-03,  ...,  6.8426e-04,
+          1.8845e-03,  3.9227e-06],
+        [ 8.2552e-06,  6.4671e-06,  2.8782e-03,  ...,  1.4048e-03,
+          1.6842e-03,  1.4417e-05],
+        ...,
+        [ 1.1072e-05,  4.5542e-07, -3.0880e-03,  ..., -2.3422e-03,
+          8.0824e-04, -4.0555e-04],
+        [ 7.8455e-06,  1.3091e-05,  3.1185e-03,  ...,  1.1206e-03,
+          8.8739e-04,  7.3537e-06],
+        [ 4.9658e-06,  8.6501e-06,  2.2335e-03,  ...,  7.8154e-04,
+          1.5965e-03,  3.7956e-04]], device='cuda:0')
+Epoch 360, bias, value: tensor([-0.0510,  0.0218,  0.0092, -0.0134, -0.0055,  0.0059, -0.0145,  0.0335,
+        -0.0191,  0.0134], device='cuda:0'), grad: tensor([ 0.0237, -0.0048,  0.0273, -0.0686,  0.0083,  0.0226, -0.0345, -0.0255,
+         0.0294,  0.0220], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 359, time 227.75, cls_loss 0.5203 cls_loss_mapping 0.0027 cls_loss_causal 0.4604 re_mapping 0.0091 re_causal 0.0212 /// teacc 98.90 lr 0.00010000
+Epoch 361, weight, value: tensor([[-0.1991, -0.0170,  0.0313,  ..., -0.0266, -0.0859, -0.1413],
+        [-0.0565, -0.1056,  0.0376,  ...,  0.0522, -0.0174, -0.0947],
+        [-0.0630, -0.0882, -0.1117,  ...,  0.0396, -0.0395, -0.1148],
+        ...,
+        [-0.0660,  0.0343,  0.0272,  ...,  0.0188, -0.0607, -0.0987],
+        [-0.0805, -0.0046,  0.0229,  ...,  0.0645, -0.0328, -0.1822],
+        [ 0.0646,  0.0638, -0.0543,  ..., -0.1093, -0.0119,  0.0908]],
+       device='cuda:0'), grad: tensor([[ 1.8740e-04, -1.8161e-07,  9.1457e-04,  ...,  1.5821e-03,
+          7.2718e-04,  3.6025e-04],
+        [ 7.8827e-06,  3.6554e-07,  4.7827e-04,  ...,  9.4032e-04,
+          4.0102e-04,  2.8044e-05],
+        [ 1.9503e-04,  5.2713e-07,  7.9918e-04,  ...,  1.3752e-03,
+          5.8270e-04,  4.1771e-04],
+        ...,
+        [ 8.6606e-05, -1.4920e-06, -9.6321e-05,  ...,  5.3978e-04,
+          1.7142e-04, -2.7823e-04],
+        [ 1.2493e-04,  1.2107e-08,  2.6274e-04,  ...,  6.3944e-04,
+          1.5950e-04,  2.3437e-04],
+        [-3.0446e-04,  5.0617e-07,  9.7513e-05,  ...,  4.7064e-04,
+          2.0218e-04, -3.4714e-04]], device='cuda:0')
+Epoch 361, bias, value: tensor([-0.0516,  0.0227,  0.0085, -0.0137, -0.0056,  0.0069, -0.0153,  0.0332,
+        -0.0188,  0.0139], device='cuda:0'), grad: tensor([ 0.0103,  0.0056,  0.0095, -0.0066, -0.0226, -0.0120,  0.0052,  0.0016,
+         0.0054,  0.0035], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 360, time 228.11, cls_loss 0.5323 cls_loss_mapping 0.0028 cls_loss_causal 0.4745 re_mapping 0.0088 re_causal 0.0206 /// teacc 98.75 lr 0.00010000
+Epoch 362, weight, value: tensor([[-0.1994, -0.0155,  0.0313,  ..., -0.0270, -0.0846, -0.1418],
+        [-0.0561, -0.1054,  0.0371,  ...,  0.0534, -0.0188, -0.0942],
+        [-0.0630, -0.0890, -0.1114,  ...,  0.0397, -0.0387, -0.1147],
+        ...,
+        [-0.0659,  0.0343,  0.0272,  ...,  0.0188, -0.0605, -0.0987],
+        [-0.0801, -0.0040,  0.0230,  ...,  0.0656, -0.0330, -0.1815],
+        [ 0.0644,  0.0635, -0.0545,  ..., -0.1100, -0.0119,  0.0911]],
+       device='cuda:0'), grad: tensor([[ 4.6587e-04,  2.3603e-04,  3.1204e-03,  ...,  2.2354e-03,
+          0.0000e+00,  2.2240e-06],
+        [ 2.9057e-06,  2.5368e-04,  4.0932e-03,  ..., -3.2024e-03,
+          0.0000e+00, -2.4110e-05],
+        [ 2.7791e-05,  1.3006e-04,  1.1759e-03,  ...,  6.3801e-04,
+          0.0000e+00,  8.0606e-07],
+        ...,
+        [ 4.0084e-05,  1.2660e-04,  1.9026e-03,  ...,  1.3571e-03,
+          0.0000e+00,  4.2506e-06],
+        [-3.5000e-04, -2.4757e-03,  1.9703e-03,  ...,  9.2983e-04,
+          0.0000e+00,  1.9018e-06],
+        [-6.6280e-04,  7.5865e-04,  7.3195e-04,  ..., -1.2982e-04,
+          0.0000e+00,  5.0366e-06]], device='cuda:0')
+Epoch 362, bias, value: tensor([-0.0526,  0.0220,  0.0089, -0.0129, -0.0054,  0.0074, -0.0161,  0.0335,
+        -0.0184,  0.0139], device='cuda:0'), grad: tensor([ 0.0358, -0.0022,  0.0086, -0.0051,  0.0322, -0.0199, -0.1020,  0.0208,
+         0.0181,  0.0136], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 361, time 227.14, cls_loss 0.5142 cls_loss_mapping 0.0024 cls_loss_causal 0.4564 re_mapping 0.0086 re_causal 0.0201 /// teacc 98.80 lr 0.00010000
+Epoch 363, weight, value: tensor([[-0.1995, -0.0161,  0.0318,  ..., -0.0271, -0.0849, -0.1422],
+        [-0.0568, -0.1057,  0.0363,  ...,  0.0492, -0.0193, -0.0944],
+        [-0.0627, -0.0909, -0.1111,  ...,  0.0417, -0.0384, -0.1146],
+        ...,
+        [-0.0665,  0.0343,  0.0257,  ...,  0.0199, -0.0607, -0.0982],
+        [-0.0800, -0.0041,  0.0235,  ...,  0.0660, -0.0326, -0.1822],
+        [ 0.0651,  0.0639, -0.0536,  ..., -0.1098, -0.0124,  0.0916]],
+       device='cuda:0'), grad: tensor([[ 4.9734e-04,  8.3745e-05,  2.7790e-03,  ...,  1.5087e-03,
+          1.8382e-04,  8.8835e-04],
+        [ 8.7798e-05, -8.2302e-04,  6.2656e-04,  ...,  3.6430e-04,
+          1.3399e-04, -4.4656e-04],
+        [ 2.1684e-04,  1.2505e-04,  2.9869e-03,  ..., -2.2602e-03,
+          2.0874e-04,  1.4389e-04],
+        ...,
+        [ 3.5095e-04, -5.3830e-06,  1.0118e-03,  ...,  2.0180e-03,
+          4.8339e-05, -2.0415e-05],
+        [ 1.6146e-03,  9.0885e-04,  3.5534e-03,  ...,  5.4817e-03,
+          1.3661e-04,  8.2254e-04],
+        [-4.3297e-03, -6.0558e-04, -5.8823e-03,  ..., -4.1542e-03,
+          6.0081e-05, -8.2111e-04]], device='cuda:0')
+Epoch 363, bias, value: tensor([-0.0533,  0.0226,  0.0091, -0.0143, -0.0061,  0.0087, -0.0155,  0.0326,
+        -0.0186,  0.0149], device='cuda:0'), grad: tensor([ 2.7222e-02,  7.4120e-03,  3.6736e-03, -6.6956e-02,  1.5854e-02,
+         2.7756e-02, -6.3419e-05,  1.4824e-02,  3.3173e-02, -6.2927e-02],
+       device='cuda:0')
+100
+0.0001
+changing lr
+epoch 362, time 225.94, cls_loss 0.5230 cls_loss_mapping 0.0033 cls_loss_causal 0.4688 re_mapping 0.0084 re_causal 0.0200 /// teacc 98.94 lr 0.00010000
+Epoch 364, weight, value: tensor([[-0.2009, -0.0164,  0.0320,  ..., -0.0262, -0.0840, -0.1438],
+        [-0.0576, -0.1066,  0.0358,  ...,  0.0496, -0.0197, -0.0948],
+        [-0.0634, -0.0907, -0.1123,  ...,  0.0409, -0.0390, -0.1158],
+        ...,
+        [-0.0673,  0.0350,  0.0254,  ...,  0.0189, -0.0610, -0.0982],
+        [-0.0800, -0.0032,  0.0237,  ...,  0.0671, -0.0327, -0.1818],
+        [ 0.0662,  0.0634, -0.0532,  ..., -0.1110, -0.0129,  0.0915]],
+       device='cuda:0'), grad: tensor([[-1.5885e-05,  3.0518e-05,  1.1063e-03,  ...,  2.0962e-03,
+         -3.1781e-04,  3.7885e-04],
+        [ 4.4167e-05, -5.0068e-05, -1.2922e-03,  ...,  1.3018e-03,
+         -2.7065e-03,  5.4598e-05],
+        [ 2.9415e-05,  3.7283e-05, -2.8458e-03,  ..., -3.8395e-03,
+         -3.2349e-03,  3.1066e-04],
+        ...,
+        [ 4.7922e-04,  2.1172e-04,  2.1839e-03,  ..., -2.5024e-03,
+         -1.9474e-03, -1.2770e-03],
+        [ 3.6001e-04,  5.6343e-03,  1.0281e-03,  ...,  1.2207e-03,
+          1.2331e-03,  2.5463e-04],
+        [-1.1892e-03, -7.3700e-03, -5.9090e-03,  ..., -4.4212e-03,
+         -2.1706e-03,  6.6280e-04]], device='cuda:0')
+Epoch 364, bias, value: tensor([-0.0521,  0.0218,  0.0085, -0.0145, -0.0052,  0.0081, -0.0162,  0.0329,
+        -0.0178,  0.0145], device='cuda:0'), grad: tensor([ 0.0177, -0.0023, -0.0380, -0.0006,  0.0298,  0.0025,  0.0397, -0.0333,
+        -0.0251,  0.0096], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 363, time 225.05, cls_loss 0.5012 cls_loss_mapping 0.0024 cls_loss_causal 0.4391 re_mapping 0.0093 re_causal 0.0214 /// teacc 98.84 lr 0.00010000
+Epoch 365, weight, value: tensor([[-0.2019, -0.0173,  0.0321,  ..., -0.0272, -0.0830, -0.1443],
+        [-0.0583, -0.1074,  0.0360,  ...,  0.0506, -0.0208, -0.0950],
+        [-0.0616, -0.0921, -0.1126,  ...,  0.0402, -0.0387, -0.1154],
+        ...,
+        [-0.0674,  0.0353,  0.0246,  ...,  0.0190, -0.0618, -0.0966],
+        [-0.0805, -0.0034,  0.0233,  ...,  0.0678, -0.0324, -0.1823],
+        [ 0.0654,  0.0646, -0.0532,  ..., -0.1106, -0.0132,  0.0902]],
+       device='cuda:0'), grad: tensor([[ 5.8556e-04,  1.8489e-04,  1.4124e-03,  ...,  1.7996e-03,
+          9.4604e-04,  2.1875e-05],
+        [ 3.6216e-04,  4.8685e-04,  1.1377e-03,  ...,  2.4071e-03,
+         -1.1536e-02,  1.1260e-06],
+        [-1.2791e-04,  4.1699e-04, -3.5038e-03,  ..., -9.1982e-04,
+         -1.7166e-03,  3.3770e-06],
+        ...,
+        [-2.4414e-03, -2.3861e-03, -4.7188e-03,  ..., -5.7411e-03,
+          1.6749e-04,  1.7472e-06],
+        [ 6.9284e-04,  9.4175e-04,  1.3037e-03,  ...,  3.4580e-03,
+          7.5493e-03, -6.4075e-05],
+        [ 2.5487e-04, -1.0242e-03,  7.3004e-04,  ...,  7.5607e-03,
+          7.3357e-03,  6.4254e-05]], device='cuda:0')
+Epoch 365, bias, value: tensor([-0.0522,  0.0217,  0.0081, -0.0139, -0.0050,  0.0083, -0.0158,  0.0320,
+        -0.0184,  0.0152], device='cuda:0'), grad: tensor([ 0.0164, -0.0209, -0.0126, -0.0157, -0.0002,  0.0376, -0.0442, -0.0198,
+         0.0388,  0.0205], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 364, time 227.22, cls_loss 0.5453 cls_loss_mapping 0.0043 cls_loss_causal 0.4812 re_mapping 0.0088 re_causal 0.0199 /// teacc 98.80 lr 0.00010000
+Epoch 366, weight, value: tensor([[-0.2015, -0.0174,  0.0306,  ..., -0.0266, -0.0828, -0.1446],
+        [-0.0591, -0.1073,  0.0342,  ...,  0.0522, -0.0208, -0.0953],
+        [-0.0616, -0.0933, -0.1126,  ...,  0.0380, -0.0369, -0.1157],
+        ...,
+        [-0.0668,  0.0356,  0.0263,  ...,  0.0191, -0.0619, -0.0968],
+        [-0.0816, -0.0035,  0.0227,  ...,  0.0671, -0.0332, -0.1821],
+        [ 0.0647,  0.0646, -0.0519,  ..., -0.1112, -0.0146,  0.0899]],
+       device='cuda:0'), grad: tensor([[ 4.8697e-05,  7.8008e-06,  5.0879e-04,  ...,  1.9484e-03,
+          5.4026e-04,  2.8089e-06],
+        [ 1.0329e-04,  2.4036e-05,  1.1454e-03,  ...,  4.0169e-03,
+          1.0757e-03,  7.2718e-06],
+        [ 7.0477e-04,  2.2507e-04,  4.8370e-03,  ...,  7.2136e-03,
+          3.8052e-03,  3.1203e-05],
+        ...,
+        [ 4.3273e-04,  1.6384e-03, -1.2827e-03,  ..., -2.0847e-03,
+         -2.3613e-03,  1.1809e-05],
+        [ 2.8586e-04,  5.2118e-04,  1.9350e-03,  ...,  3.8123e-04,
+          1.5812e-03,  5.9679e-06],
+        [-1.8167e-03, -5.8861e-03, -1.0803e-02,  ..., -1.3199e-02,
+         -7.1030e-03, -8.6948e-06]], device='cuda:0')
+Epoch 366, bias, value: tensor([-0.0515,  0.0215,  0.0071, -0.0129, -0.0048,  0.0078, -0.0154,  0.0338,
+        -0.0196,  0.0142], device='cuda:0'), grad: tensor([ 0.0164,  0.0277,  0.0349, -0.0070,  0.0165, -0.0134, -0.0088, -0.0070,
+        -0.0077, -0.0516], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 365, time 227.68, cls_loss 0.5029 cls_loss_mapping 0.0025 cls_loss_causal 0.4491 re_mapping 0.0091 re_causal 0.0218 /// teacc 98.80 lr 0.00010000
+Epoch 367, weight, value: tensor([[-0.2021, -0.0188,  0.0307,  ..., -0.0258, -0.0823, -0.1452],
+        [-0.0595, -0.1068,  0.0343,  ...,  0.0535, -0.0204, -0.0946],
+        [-0.0627, -0.0953, -0.1131,  ...,  0.0369, -0.0380, -0.1166],
+        ...,
+        [-0.0676,  0.0360,  0.0264,  ...,  0.0199, -0.0622, -0.0980],
+        [-0.0817, -0.0048,  0.0219,  ...,  0.0655, -0.0313, -0.1830],
+        [ 0.0650,  0.0653, -0.0520,  ..., -0.1105, -0.0153,  0.0909]],
+       device='cuda:0'), grad: tensor([[ 5.4693e-04,  3.7980e-04,  8.2195e-05,  ..., -1.0590e-02,
+         -1.2848e-02,  1.4246e-04],
+        [ 2.1791e-04,  8.5413e-05,  6.3181e-05,  ...,  2.6531e-03,
+          2.0618e-03,  5.2363e-05],
+        [-5.3120e-04, -2.7061e-04, -4.3988e-04,  ...,  1.2407e-03,
+          1.0662e-03, -6.5756e-04],
+        ...,
+        [ 2.6059e-04,  1.6582e-04,  7.9632e-05,  ...,  1.0328e-03,
+          6.0034e-04,  1.2338e-04],
+        [ 1.5755e-03,  4.0030e-04,  2.3031e-04,  ...,  3.1624e-03,
+          2.2144e-03,  1.5426e-04],
+        [ 1.8520e-03, -8.4591e-04, -4.2176e-04,  ...,  1.2131e-03,
+          1.4038e-03, -7.8917e-04]], device='cuda:0')
+Epoch 367, bias, value: tensor([-0.0514,  0.0219,  0.0063, -0.0123, -0.0046,  0.0071, -0.0144,  0.0343,
+        -0.0201,  0.0136], device='cuda:0'), grad: tensor([-0.0193,  0.0127, -0.0056, -0.0138, -0.0235, -0.0041,  0.0227,  0.0075,
+         0.0171,  0.0062], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 366, time 226.23, cls_loss 0.5290 cls_loss_mapping 0.0031 cls_loss_causal 0.4645 re_mapping 0.0093 re_causal 0.0223 /// teacc 98.91 lr 0.00010000
+Epoch 368, weight, value: tensor([[-0.2029, -0.0191,  0.0310,  ..., -0.0270, -0.0826, -0.1460],
+        [-0.0588, -0.1067,  0.0348,  ...,  0.0531, -0.0202, -0.0951],
+        [-0.0638, -0.0959, -0.1133,  ...,  0.0359, -0.0381, -0.1171],
+        ...,
+        [-0.0657,  0.0366,  0.0266,  ...,  0.0192, -0.0615, -0.0987],
+        [-0.0801, -0.0041,  0.0221,  ...,  0.0680, -0.0306, -0.1820],
+        [ 0.0647,  0.0646, -0.0514,  ..., -0.1102, -0.0146,  0.0925]],
+       device='cuda:0'), grad: tensor([[ 3.2987e-06,  6.0654e-04, -1.2589e-03,  ..., -1.7900e-03,
+          6.1929e-05, -6.2275e-04],
+        [ 4.6670e-05,  6.6710e-04,  8.0109e-05,  ...,  9.6083e-04,
+          1.1045e-04,  4.6730e-05],
+        [ 6.1207e-06,  1.1215e-03,  4.2391e-04,  ...,  3.7365e-03,
+          5.3978e-04,  3.7122e-04],
+        ...,
+        [ 7.5197e-04,  3.0460e-03,  9.7752e-04,  ...,  2.2812e-03,
+          4.9353e-04,  7.7200e-04],
+        [ 4.6283e-05,  4.9706e-03,  1.1337e-04,  ...,  1.8435e-03,
+          7.3814e-04,  9.1374e-05],
+        [-2.2850e-03,  9.1629e-03, -2.0599e-03,  ...,  1.2960e-03,
+          1.3065e-03, -1.0233e-03]], device='cuda:0')
+Epoch 368, bias, value: tensor([-0.0529,  0.0210,  0.0056, -0.0110, -0.0046,  0.0075, -0.0134,  0.0332,
+        -0.0195,  0.0142], device='cuda:0'), grad: tensor([-0.0041,  0.0104,  0.0297, -0.0173, -0.0347, -0.0182, -0.0487,  0.0291,
+         0.0256,  0.0281], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 367, time 228.77, cls_loss 0.5181 cls_loss_mapping 0.0034 cls_loss_causal 0.4526 re_mapping 0.0089 re_causal 0.0201 /// teacc 98.75 lr 0.00010000
+Epoch 369, weight, value: tensor([[-0.2036, -0.0203,  0.0301,  ..., -0.0275, -0.0839, -0.1455],
+        [-0.0581, -0.1081,  0.0361,  ...,  0.0541, -0.0200, -0.0948],
+        [-0.0640, -0.0936, -0.1144,  ...,  0.0368, -0.0380, -0.1170],
+        ...,
+        [-0.0652,  0.0339,  0.0274,  ...,  0.0164, -0.0609, -0.0995],
+        [-0.0798, -0.0044,  0.0236,  ...,  0.0686, -0.0319, -0.1817],
+        [ 0.0635,  0.0662, -0.0505,  ..., -0.1099, -0.0135,  0.0928]],
+       device='cuda:0'), grad: tensor([[ 1.1432e-04,  2.0576e-04,  1.6603e-03,  ...,  2.2793e-03,
+          2.1706e-03,  7.8082e-05],
+        [ 2.2843e-05,  1.3113e-04,  5.2023e-04,  ..., -2.3689e-03,
+          9.4032e-04,  1.8090e-05],
+        [ 1.8644e-04,  1.2136e-04,  3.5515e-03,  ...,  3.0403e-03,
+          1.4553e-03,  1.6618e-04],
+        ...,
+        [ 3.1519e-04,  9.0718e-05,  3.0556e-03,  ...,  1.9197e-03,
+          8.1539e-04,  2.4676e-04],
+        [ 7.0763e-04,  1.7822e-04,  2.1858e-03,  ...,  1.7910e-03,
+          4.9877e-04,  4.9448e-04],
+        [ 2.0373e-04, -9.8944e-06,  1.9217e-03,  ..., -2.4605e-03,
+          5.6505e-04,  1.7726e-04]], device='cuda:0')
+Epoch 369, bias, value: tensor([-0.0533,  0.0210,  0.0054, -0.0116, -0.0044,  0.0079, -0.0128,  0.0322,
+        -0.0191,  0.0148], device='cuda:0'), grad: tensor([ 0.0334, -0.0043,  0.0387, -0.0378, -0.0363, -0.0149, -0.0277,  0.0287,
+         0.0250, -0.0050], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 368, time 226.00, cls_loss 0.5376 cls_loss_mapping 0.0033 cls_loss_causal 0.4739 re_mapping 0.0092 re_causal 0.0217 /// teacc 98.84 lr 0.00010000
+Epoch 370, weight, value: tensor([[-0.2051, -0.0207,  0.0293,  ..., -0.0300, -0.0844, -0.1460],
+        [-0.0587, -0.1082,  0.0362,  ...,  0.0535, -0.0205, -0.0938],
+        [-0.0654, -0.0951, -0.1158,  ...,  0.0364, -0.0394, -0.1181],
+        ...,
+        [-0.0656,  0.0343,  0.0285,  ...,  0.0167, -0.0609, -0.0993],
+        [-0.0804, -0.0037,  0.0221,  ...,  0.0669, -0.0323, -0.1837],
+        [ 0.0629,  0.0646, -0.0517,  ..., -0.1099, -0.0118,  0.0931]],
+       device='cuda:0'), grad: tensor([[ 4.4078e-05,  2.7633e-04,  1.3256e-03,  ...,  1.8244e-03,
+          4.3464e-04,  5.2810e-05],
+        [ 4.8971e-04,  4.8131e-06, -4.0627e-03,  ...,  4.4250e-04,
+         -3.9864e-03,  2.0897e-04],
+        [ 1.1659e-04, -5.5933e-04,  1.7738e-03,  ...,  1.8320e-03,
+          5.0688e-04,  9.8765e-05],
+        ...,
+        [ 4.3774e-04,  1.4722e-05,  2.5711e-03,  ..., -1.4982e-03,
+          4.7064e-04,  2.4557e-04],
+        [ 3.0851e-04,  2.8580e-05,  2.5101e-03,  ..., -3.4714e-03,
+          7.0381e-04,  1.8144e-04],
+        [-1.4763e-03,  5.3048e-05, -5.7106e-03,  ..., -2.2774e-03,
+         -6.7139e-04, -2.1672e-04]], device='cuda:0')
+Epoch 370, bias, value: tensor([-0.0544,  0.0210,  0.0041, -0.0104, -0.0037,  0.0080, -0.0123,  0.0326,
+        -0.0196,  0.0146], device='cuda:0'), grad: tensor([-0.0076, -0.0122, -0.0118, -0.0116,  0.0274,  0.0360, -0.0029, -0.0293,
+        -0.0005,  0.0125], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 369, time 227.12, cls_loss 0.5292 cls_loss_mapping 0.0027 cls_loss_causal 0.4678 re_mapping 0.0093 re_causal 0.0214 /// teacc 98.88 lr 0.00010000
+Epoch 371, weight, value: tensor([[-0.2032, -0.0210,  0.0298,  ..., -0.0288, -0.0843, -0.1458],
+        [-0.0589, -0.1082,  0.0372,  ...,  0.0538, -0.0190, -0.0929],
+        [-0.0658, -0.0938, -0.1161,  ...,  0.0373, -0.0394, -0.1184],
+        ...,
+        [-0.0650,  0.0341,  0.0289,  ...,  0.0184, -0.0597, -0.0989],
+        [-0.0793, -0.0037,  0.0205,  ...,  0.0650, -0.0323, -0.1843],
+        [ 0.0617,  0.0659, -0.0533,  ..., -0.1110, -0.0126,  0.0927]],
+       device='cuda:0'), grad: tensor([[ 1.8396e-03, -7.8154e-04,  5.7831e-03,  ...,  3.8185e-03,
+          2.1774e-02,  4.4286e-05],
+        [ 1.0324e-04,  1.5793e-03,  3.0518e-03,  ...,  3.1700e-03,
+          1.2374e-04,  5.0426e-05],
+        [-3.4928e-04, -6.8951e-04, -1.5974e-03,  ..., -4.0817e-03,
+          1.8084e-04, -3.8013e-03],
+        ...,
+        [ 2.1839e-03,  7.0906e-04, -1.3496e-02,  ...,  2.1515e-03,
+          1.0271e-03,  3.5095e-03],
+        [ 3.7575e-04,  1.4222e-04,  8.1205e-04,  ...,  2.5082e-03,
+         -2.6794e-02,  1.9228e-04],
+        [-5.3525e-05,  1.8299e-04,  2.0332e-03,  ..., -1.2150e-03,
+          3.0289e-03,  4.1628e-04]], device='cuda:0')
+Epoch 371, bias, value: tensor([-0.0537,  0.0217,  0.0036, -0.0108, -0.0035,  0.0082, -0.0127,  0.0339,
+        -0.0201,  0.0137], device='cuda:0'), grad: tensor([ 0.0244,  0.0188, -0.0195,  0.0063, -0.0233,  0.0225, -0.0604,  0.0349,
+        -0.0048,  0.0009], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 370, time 226.90, cls_loss 0.5453 cls_loss_mapping 0.0023 cls_loss_causal 0.4841 re_mapping 0.0094 re_causal 0.0223 /// teacc 98.92 lr 0.00010000
+Epoch 372, weight, value: tensor([[-0.2040, -0.0208,  0.0301,  ..., -0.0282, -0.0847, -0.1464],
+        [-0.0591, -0.1084,  0.0378,  ...,  0.0549, -0.0183, -0.0927],
+        [-0.0664, -0.0938, -0.1164,  ...,  0.0382, -0.0391, -0.1170],
+        ...,
+        [-0.0638,  0.0331,  0.0286,  ...,  0.0179, -0.0586, -0.0994],
+        [-0.0786, -0.0038,  0.0209,  ...,  0.0650, -0.0312, -0.1851],
+        [ 0.0611,  0.0667, -0.0529,  ..., -0.1115, -0.0129,  0.0936]],
+       device='cuda:0'), grad: tensor([[ 7.7426e-05,  9.6917e-05,  3.8052e-04,  ...,  1.2517e-04,
+          3.5334e-04,  4.6492e-06],
+        [ 2.1040e-05,  1.4365e-04,  4.4942e-04,  ...,  1.9515e-04,
+          4.5943e-04,  1.9483e-06],
+        [ 1.2398e-04,  7.9489e-04,  5.0402e-04,  ...,  1.6630e-04,
+          6.5136e-04,  1.9521e-05],
+        ...,
+        [-4.6844e-03, -2.0657e-03,  7.7772e-04,  ...,  2.5558e-04,
+          5.2309e-04, -1.8940e-03],
+        [ 2.1982e-04,  3.3665e-04,  6.9332e-04,  ...,  2.1839e-04,
+          5.3263e-04,  5.8442e-05],
+        [ 3.8395e-03,  1.0307e-02, -5.5122e-03,  ..., -1.8082e-03,
+         -1.9989e-03,  1.9331e-03]], device='cuda:0')
+Epoch 372, bias, value: tensor([-0.0540,  0.0226,  0.0042, -0.0105, -0.0029,  0.0087, -0.0139,  0.0339,
+        -0.0210,  0.0131], device='cuda:0'), grad: tensor([-0.0205,  0.0116, -0.0150,  0.0168, -0.0108, -0.0099,  0.0126, -0.0145,
+         0.0121,  0.0176], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 371, time 229.13, cls_loss 0.5329 cls_loss_mapping 0.0026 cls_loss_causal 0.4804 re_mapping 0.0089 re_causal 0.0210 /// teacc 98.82 lr 0.00010000
+Epoch 373, weight, value: tensor([[-0.2048, -0.0206,  0.0298,  ..., -0.0277, -0.0851, -0.1462],
+        [-0.0576, -0.1077,  0.0365,  ...,  0.0558, -0.0188, -0.0925],
+        [-0.0666, -0.0945, -0.1149,  ...,  0.0381, -0.0385, -0.1148],
+        ...,
+        [-0.0634,  0.0336,  0.0273,  ...,  0.0175, -0.0575, -0.0994],
+        [-0.0780, -0.0045,  0.0215,  ...,  0.0642, -0.0310, -0.1854],
+        [ 0.0618,  0.0662, -0.0516,  ..., -0.1115, -0.0135,  0.0933]],
+       device='cuda:0'), grad: tensor([[ 2.7753e-06,  2.3782e-05,  1.5755e-03,  ...,  1.2531e-03,
+          0.0000e+00,  8.3819e-08],
+        [ 1.0461e-04,  2.0161e-03, -1.1482e-03,  ...,  1.4153e-03,
+          0.0000e+00,  3.7439e-07],
+        [ 3.6583e-03,  3.1710e-04,  6.1569e-03,  ...,  5.6419e-03,
+          0.0000e+00,  8.9966e-07],
+        ...,
+        [-3.7384e-03,  2.0504e-03, -1.0902e-02,  ..., -9.3231e-03,
+          1.1176e-08,  3.2429e-06],
+        [ 7.0035e-05,  1.3447e-03,  1.8129e-03,  ..., -7.3147e-04,
+          0.0000e+00,  3.4161e-06],
+        [ 6.2180e-04,  2.7161e-02,  9.4147e-03,  ...,  1.9817e-03,
+          1.3649e-02, -4.1053e-06]], device='cuda:0')
+Epoch 373, bias, value: tensor([-0.0552,  0.0237,  0.0047, -0.0102, -0.0025,  0.0076, -0.0133,  0.0341,
+        -0.0209,  0.0119], device='cuda:0'), grad: tensor([ 0.0131,  0.0193,  0.0621,  0.0131, -0.0415,  0.0092, -0.0118, -0.0376,
+        -0.0146, -0.0115], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 372, time 226.62, cls_loss 0.5301 cls_loss_mapping 0.0027 cls_loss_causal 0.4804 re_mapping 0.0085 re_causal 0.0205 /// teacc 98.70 lr 0.00010000
+Epoch 374, weight, value: tensor([[-0.2067, -0.0204,  0.0291,  ..., -0.0282, -0.0849, -0.1465],
+        [-0.0562, -0.1073,  0.0366,  ...,  0.0555, -0.0187, -0.0920],
+        [-0.0662, -0.0948, -0.1149,  ...,  0.0384, -0.0388, -0.1154],
+        ...,
+        [-0.0637,  0.0333,  0.0277,  ...,  0.0175, -0.0596, -0.0989],
+        [-0.0780, -0.0040,  0.0216,  ...,  0.0641, -0.0305, -0.1853],
+        [ 0.0616,  0.0670, -0.0523,  ..., -0.1110, -0.0128,  0.0934]],
+       device='cuda:0'), grad: tensor([[-1.0647e-05,  9.2328e-05,  1.2302e-03,  ...,  2.3460e-03,
+          1.2178e-03, -3.2634e-05],
+        [ 1.1157e-06,  4.5128e-03, -8.3733e-04,  ...,  7.8392e-04,
+          7.5281e-05,  3.4243e-05],
+        [ 2.4345e-06,  1.9193e-04, -2.1286e-03,  ..., -2.9640e-03,
+          1.9932e-04,  2.7791e-05],
+        ...,
+        [ 3.7123e-06, -1.3481e-02, -1.9703e-03,  ..., -2.6016e-03,
+          6.0797e-04, -1.3981e-03],
+        [-1.3557e-02,  3.3661e-02,  1.2064e-03,  ..., -1.0071e-03,
+          1.2960e-03, -1.0788e-02],
+        [ 5.5581e-05,  4.8218e-03,  2.6531e-03,  ...,  3.7498e-03,
+         -1.3885e-02,  8.9550e-04]], device='cuda:0')
+Epoch 374, bias, value: tensor([-0.0550,  0.0237,  0.0047, -0.0103, -0.0024,  0.0077, -0.0139,  0.0338,
+        -0.0206,  0.0122], device='cuda:0'), grad: tensor([ 0.0356,  0.0510, -0.0115, -0.0307,  0.0242,  0.0020, -0.0205, -0.1013,
+         0.0114,  0.0397], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 373, time 226.28, cls_loss 0.5601 cls_loss_mapping 0.0041 cls_loss_causal 0.4943 re_mapping 0.0089 re_causal 0.0209 /// teacc 98.76 lr 0.00010000
+Epoch 375, weight, value: tensor([[-0.2063, -0.0212,  0.0299,  ..., -0.0278, -0.0854, -0.1475],
+        [-0.0569, -0.1082,  0.0353,  ...,  0.0556, -0.0206, -0.0924],
+        [-0.0655, -0.0953, -0.1157,  ...,  0.0380, -0.0397, -0.1165],
+        ...,
+        [-0.0635,  0.0339,  0.0272,  ...,  0.0175, -0.0599, -0.0985],
+        [-0.0778, -0.0051,  0.0228,  ...,  0.0652, -0.0286, -0.1852],
+        [ 0.0616,  0.0674, -0.0519,  ..., -0.1114, -0.0132,  0.0932]],
+       device='cuda:0'), grad: tensor([[ 5.8413e-04,  6.7241e-07,  2.8133e-04,  ...,  1.2846e-03,
+          3.9172e-04,  7.2360e-05],
+        [ 3.1900e-04,  3.8333e-06, -4.2796e-04,  ...,  1.1120e-03,
+          1.5926e-04,  1.8024e-04],
+        [-5.9166e-03,  2.0161e-05,  4.9257e-04,  ..., -2.0294e-03,
+         -2.7962e-03,  1.7750e-04],
+        ...,
+        [ 1.2798e-03, -3.0011e-05,  1.7843e-03,  ...,  1.3723e-03,
+          1.3053e-04,  1.3876e-03],
+        [ 8.6069e-04,  2.2352e-07,  3.3116e-04,  ..., -1.7424e-03,
+          3.9172e-04,  3.5310e-04],
+        [ 2.2471e-04,  3.4459e-06,  2.1005e-04,  ...,  1.7776e-03,
+          4.2033e-04, -8.3065e-04]], device='cuda:0')
+Epoch 375, bias, value: tensor([-0.0543,  0.0235,  0.0047, -0.0100, -0.0026,  0.0082, -0.0139,  0.0346,
+        -0.0208,  0.0106], device='cuda:0'), grad: tensor([ 0.0180,  0.0100, -0.0446,  0.0122,  0.0191, -0.0485,  0.0236,  0.0108,
+        -0.0143,  0.0137], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 374, time 228.07, cls_loss 0.5247 cls_loss_mapping 0.0021 cls_loss_causal 0.4772 re_mapping 0.0091 re_causal 0.0214 /// teacc 98.73 lr 0.00010000
+Epoch 376, weight, value: tensor([[-0.2061, -0.0211,  0.0311,  ..., -0.0279, -0.0817, -0.1471],
+        [-0.0566, -0.1080,  0.0352,  ...,  0.0555, -0.0199, -0.0925],
+        [-0.0650, -0.0959, -0.1152,  ...,  0.0377, -0.0402, -0.1165],
+        ...,
+        [-0.0643,  0.0337,  0.0253,  ...,  0.0176, -0.0619, -0.0985],
+        [-0.0798, -0.0049,  0.0227,  ...,  0.0651, -0.0294, -0.1854],
+        [ 0.0622,  0.0676, -0.0524,  ..., -0.1104, -0.0116,  0.0934]],
+       device='cuda:0'), grad: tensor([[ 3.6001e-05,  1.5700e-04,  2.4834e-03,  ...,  3.5477e-03,
+          1.6832e-03,  2.5702e-04],
+        [ 1.5306e-04,  3.5119e-04,  3.0842e-03,  ...,  3.7441e-03,
+          2.5139e-03,  2.3615e-04],
+        [ 4.5598e-05,  1.0090e-03, -3.3016e-03,  ..., -1.2589e-03,
+         -3.5515e-03,  2.5520e-03],
+        ...,
+        [-2.3308e-03, -2.1534e-03, -6.2828e-03,  ..., -1.5116e-03,
+         -2.3193e-03,  2.8205e-04],
+        [ 1.6844e-04,  1.4663e-04,  1.8892e-03,  ...,  3.0327e-03,
+          1.5173e-03,  4.4274e-04],
+        [ 4.6992e-04,  8.2111e-04,  7.7152e-04,  ..., -5.0812e-03,
+         -5.9967e-03,  1.2970e-03]], device='cuda:0')
+Epoch 376, bias, value: tensor([-0.0532,  0.0226,  0.0055, -0.0098, -0.0025,  0.0083, -0.0144,  0.0341,
+        -0.0213,  0.0109], device='cuda:0'), grad: tensor([ 0.0225,  0.0278, -0.0338, -0.0338,  0.0565,  0.0130, -0.0230, -0.0212,
+         0.0194, -0.0274], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 375, time 226.14, cls_loss 0.5433 cls_loss_mapping 0.0024 cls_loss_causal 0.4766 re_mapping 0.0087 re_causal 0.0200 /// teacc 98.85 lr 0.00010000
+Epoch 377, weight, value: tensor([[-0.2062, -0.0212,  0.0320,  ..., -0.0286, -0.0829, -0.1473],
+        [-0.0576, -0.1078,  0.0347,  ...,  0.0551, -0.0208, -0.0934],
+        [-0.0654, -0.0959, -0.1154,  ...,  0.0377, -0.0404, -0.1172],
+        ...,
+        [-0.0652,  0.0340,  0.0253,  ...,  0.0162, -0.0632, -0.0991],
+        [-0.0794, -0.0042,  0.0218,  ...,  0.0649, -0.0299, -0.1851],
+        [ 0.0617,  0.0668, -0.0525,  ..., -0.1100, -0.0118,  0.0929]],
+       device='cuda:0'), grad: tensor([[ 1.2387e-06,  3.7408e-04,  4.0970e-03,  ..., -2.7084e-03,
+          1.5235e-04,  2.6340e-03],
+        [ 4.0121e-06,  1.4076e-03,  1.5557e-05,  ..., -1.2226e-03,
+          5.3406e-05,  6.4522e-06],
+        [ 2.6256e-05,  6.5231e-04,  4.6062e-04,  ..., -1.4629e-03,
+          1.9401e-05,  2.9635e-04],
+        ...,
+        [-1.0085e-04,  4.0579e-04,  6.8569e-04,  ...,  1.3247e-03,
+          1.7986e-05,  4.3416e-04],
+        [ 1.7151e-05,  1.8625e-03,  3.4180e-03,  ...,  4.6616e-03,
+          7.5912e-04,  5.6601e-04],
+        [ 1.8746e-05, -1.1292e-02, -6.6681e-03,  ..., -3.8242e-04,
+          6.9290e-06, -5.1842e-03]], device='cuda:0')
+Epoch 377, bias, value: tensor([-0.0534,  0.0225,  0.0059, -0.0098, -0.0033,  0.0092, -0.0146,  0.0333,
+        -0.0212,  0.0114], device='cuda:0'), grad: tensor([-0.0073, -0.0212, -0.0199,  0.0156,  0.0264, -0.0102,  0.0107,  0.0135,
+         0.0281, -0.0357], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 376, time 233.10, cls_loss 0.5292 cls_loss_mapping 0.0031 cls_loss_causal 0.4543 re_mapping 0.0096 re_causal 0.0202 /// teacc 98.94 lr 0.00010000
+Epoch 378, weight, value: tensor([[-0.2057, -0.0216,  0.0318,  ..., -0.0297, -0.0827, -0.1476],
+        [-0.0578, -0.1067,  0.0347,  ...,  0.0554, -0.0221, -0.0933],
+        [-0.0676, -0.0949, -0.1157,  ...,  0.0369, -0.0405, -0.1175],
+        ...,
+        [-0.0651,  0.0333,  0.0258,  ...,  0.0166, -0.0619, -0.0996],
+        [-0.0802, -0.0058,  0.0222,  ...,  0.0642, -0.0302, -0.1851],
+        [ 0.0623,  0.0670, -0.0532,  ..., -0.1111, -0.0120,  0.0937]],
+       device='cuda:0'), grad: tensor([[ 2.2149e-04,  6.1512e-04,  9.4223e-04,  ...,  1.0433e-03,
+          3.1686e-04,  3.2377e-04],
+        [ 4.1798e-06,  6.9237e-04, -4.3068e-03,  ..., -8.5449e-03,
+         -5.1788e-02,  6.0722e-06],
+        [ 2.0966e-05,  2.0008e-03,  5.0545e-04,  ...,  2.2888e-03,
+          1.9669e-02,  2.8729e-05],
+        ...,
+        [ 2.7239e-05,  1.2062e-02, -7.0839e-03,  ..., -1.2482e-02,
+          2.1011e-02,  3.8654e-05],
+        [ 2.7180e-04,  2.7332e-03,  4.8332e-03,  ...,  9.8419e-03,
+          1.4257e-03,  3.8362e-04],
+        [ 2.7403e-05, -2.5482e-02,  8.4639e-04,  ...,  7.9918e-04,
+          2.2554e-04,  3.9428e-05]], device='cuda:0')
+Epoch 378, bias, value: tensor([-0.0531,  0.0226,  0.0052, -0.0101, -0.0034,  0.0084, -0.0140,  0.0348,
+        -0.0214,  0.0112], device='cuda:0'), grad: tensor([ 0.0192, -0.0635,  0.0152,  0.0037,  0.0174,  0.0458,  0.0300, -0.0753,
+         0.0163, -0.0087], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 377, time 228.12, cls_loss 0.5076 cls_loss_mapping 0.0028 cls_loss_causal 0.4523 re_mapping 0.0090 re_causal 0.0212 /// teacc 98.96 lr 0.00010000
+Epoch 379, weight, value: tensor([[-0.2057, -0.0211,  0.0309,  ..., -0.0304, -0.0838, -0.1476],
+        [-0.0583, -0.1061,  0.0348,  ...,  0.0549, -0.0201, -0.0926],
+        [-0.0698, -0.0943, -0.1170,  ...,  0.0385, -0.0387, -0.1184],
+        ...,
+        [-0.0655,  0.0336,  0.0256,  ...,  0.0170, -0.0625, -0.1007],
+        [-0.0808, -0.0053,  0.0230,  ...,  0.0638, -0.0304, -0.1839],
+        [ 0.0631,  0.0670, -0.0534,  ..., -0.1113, -0.0115,  0.0950]],
+       device='cuda:0'), grad: tensor([[ 4.3333e-05,  4.0442e-05,  3.4070e-04,  ...,  2.4967e-03,
+          3.7441e-03,  1.0443e-04],
+        [-4.9734e-04, -5.1928e-04,  4.7088e-04,  ..., -1.6052e-02,
+          3.9635e-03, -1.0328e-03],
+        [ 5.0455e-05,  4.5121e-05,  2.7657e-03,  ...,  5.6801e-03,
+          2.8496e-03,  1.2589e-04],
+        ...,
+        [ 1.1482e-03,  1.5717e-03,  2.5120e-03,  ...,  6.5422e-03,
+          1.7948e-03,  2.1152e-03],
+        [ 7.2837e-05,  9.4235e-05,  5.2023e-04,  ...,  2.8229e-03,
+         -2.1988e-02,  2.0826e-04],
+        [-1.3428e-03, -3.1223e-03, -9.4175e-04,  ..., -1.8282e-03,
+          1.9627e-03, -3.2291e-03]], device='cuda:0')
+Epoch 379, bias, value: tensor([-0.0528,  0.0221,  0.0065, -0.0108, -0.0034,  0.0091, -0.0146,  0.0340,
+        -0.0211,  0.0112], device='cuda:0'), grad: tensor([ 0.0195, -0.0419,  0.0349, -0.0360,  0.0280, -0.0401,  0.0168,  0.0244,
+        -0.0049, -0.0007], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 378, time 228.79, cls_loss 0.5196 cls_loss_mapping 0.0028 cls_loss_causal 0.4497 re_mapping 0.0089 re_causal 0.0202 /// teacc 98.73 lr 0.00010000
+Epoch 380, weight, value: tensor([[-0.2060, -0.0204,  0.0309,  ..., -0.0302, -0.0844, -0.1480],
+        [-0.0586, -0.1058,  0.0347,  ...,  0.0546, -0.0209, -0.0933],
+        [-0.0690, -0.0951, -0.1171,  ...,  0.0381, -0.0379, -0.1173],
+        ...,
+        [-0.0665,  0.0311,  0.0254,  ...,  0.0164, -0.0644, -0.1000],
+        [-0.0825, -0.0054,  0.0229,  ...,  0.0637, -0.0311, -0.1832],
+        [ 0.0635,  0.0678, -0.0539,  ..., -0.1118, -0.0098,  0.0945]],
+       device='cuda:0'), grad: tensor([[-2.2659e-03, -1.8644e-03, -1.2865e-03,  ..., -2.8858e-03,
+          1.3306e-02, -5.4283e-03],
+        [ 4.3273e-05,  1.2457e-04,  1.1235e-04,  ...,  8.8406e-04,
+          6.2883e-05,  2.6011e-04],
+        [ 1.7512e-04,  2.4652e-04,  3.1877e-04,  ..., -6.9523e-04,
+          1.2177e-04,  5.9557e-04],
+        ...,
+        [ 1.6165e-04,  1.5891e-04,  3.1781e-04,  ..., -3.7599e-04,
+          3.1924e-04,  3.6502e-04],
+        [ 2.7370e-04,  1.3533e-03, -3.2635e-03,  ..., -3.0060e-03,
+         -2.7122e-03, -1.3475e-03],
+        [ 4.0460e-04,  1.3742e-03,  4.2081e-04,  ...,  1.8778e-03,
+          9.0265e-04,  1.4238e-03]], device='cuda:0')
+Epoch 380, bias, value: tensor([-0.0541,  0.0227,  0.0066, -0.0105, -0.0026,  0.0087, -0.0147,  0.0334,
+        -0.0211,  0.0118], device='cuda:0'), grad: tensor([-0.0005, -0.0103, -0.0062,  0.0122,  0.0060,  0.0338, -0.0616, -0.0051,
+         0.0019,  0.0297], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 379, time 227.42, cls_loss 0.5077 cls_loss_mapping 0.0030 cls_loss_causal 0.4474 re_mapping 0.0090 re_causal 0.0204 /// teacc 98.79 lr 0.00010000
+Epoch 381, weight, value: tensor([[-0.2053, -0.0208,  0.0322,  ..., -0.0280, -0.0853, -0.1469],
+        [-0.0598, -0.1054,  0.0345,  ...,  0.0550, -0.0211, -0.0944],
+        [-0.0689, -0.0963, -0.1177,  ...,  0.0378, -0.0377, -0.1181],
+        ...,
+        [-0.0668,  0.0314,  0.0257,  ...,  0.0166, -0.0642, -0.0999],
+        [-0.0836, -0.0058,  0.0229,  ...,  0.0641, -0.0319, -0.1843],
+        [ 0.0646,  0.0671, -0.0541,  ..., -0.1116, -0.0094,  0.0961]],
+       device='cuda:0'), grad: tensor([[ 1.4544e-03,  3.4839e-05,  2.5291e-03,  ...,  1.8892e-03,
+         -5.5879e-09,  9.3079e-04],
+        [ 2.0474e-05, -1.1757e-05,  3.4124e-05,  ..., -1.4305e-03,
+          3.7253e-09,  1.3217e-05],
+        [ 3.6216e-04,  4.3839e-05,  6.3705e-04,  ...,  9.5177e-04,
+          0.0000e+00,  2.2626e-04],
+        ...,
+        [ 2.4378e-04, -8.0299e-04,  1.6046e-04,  ...,  7.2432e-04,
+          1.0803e-07,  2.7180e-04],
+        [ 2.2519e-04,  1.4811e-03,  7.3373e-05,  ..., -2.7256e-03,
+          0.0000e+00,  3.6430e-03],
+        [ 3.4118e-04,  6.5947e-04,  2.9335e-03,  ...,  4.8876e-04,
+          2.6636e-07,  2.4490e-03]], device='cuda:0')
+Epoch 381, bias, value: tensor([-0.0536,  0.0235,  0.0063, -0.0102, -0.0041,  0.0080, -0.0138,  0.0330,
+        -0.0210,  0.0121], device='cuda:0'), grad: tensor([ 0.0180, -0.0717,  0.0150,  0.0104, -0.0453,  0.0236,  0.0216,  0.0133,
+        -0.0068,  0.0219], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 380, time 227.92, cls_loss 0.5241 cls_loss_mapping 0.0027 cls_loss_causal 0.4742 re_mapping 0.0091 re_causal 0.0200 /// teacc 98.74 lr 0.00010000
+Epoch 382, weight, value: tensor([[-0.2064, -0.0203,  0.0326,  ..., -0.0286, -0.0837, -0.1463],
+        [-0.0603, -0.1054,  0.0343,  ...,  0.0559, -0.0207, -0.0960],
+        [-0.0686, -0.0946, -0.1183,  ...,  0.0379, -0.0374, -0.1209],
+        ...,
+        [-0.0673,  0.0313,  0.0277,  ...,  0.0160, -0.0639, -0.0993],
+        [-0.0842, -0.0067,  0.0224,  ...,  0.0644, -0.0329, -0.1858],
+        [ 0.0656,  0.0670, -0.0532,  ..., -0.1111, -0.0095,  0.0973]],
+       device='cuda:0'), grad: tensor([[ 1.1647e-04,  1.1510e-04,  7.9060e-04,  ...,  6.5327e-04,
+          7.6389e-04,  1.1081e-04],
+        [ 1.3161e-04,  1.5354e-03,  7.6914e-04,  ...,  1.2703e-03,
+          1.6575e-03,  1.9920e-04],
+        [ 5.7936e-04, -4.8180e-03,  1.6975e-04,  ..., -4.2229e-03,
+         -7.8812e-03,  2.3019e-04],
+        ...,
+        [ 9.3699e-04,  9.7132e-04,  2.2526e-03,  ...,  5.9557e-04,
+          2.1400e-03,  2.4235e-04],
+        [ 5.9366e-04,  4.3249e-04, -5.3139e-03,  ..., -1.8587e-03,
+         -1.6241e-03,  1.5736e-04],
+        [ 3.0845e-06,  1.6308e-04,  1.5574e-03,  ...,  1.1244e-03,
+          1.6003e-03,  2.7031e-05]], device='cuda:0')
+Epoch 382, bias, value: tensor([-0.0533,  0.0228,  0.0060, -0.0117, -0.0043,  0.0091, -0.0142,  0.0343,
+        -0.0219,  0.0133], device='cuda:0'), grad: tensor([ 0.0145,  0.0493, -0.0130,  0.0114, -0.0779, -0.0211,  0.0261, -0.0010,
+        -0.0118,  0.0235], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 381, time 227.80, cls_loss 0.5312 cls_loss_mapping 0.0029 cls_loss_causal 0.4680 re_mapping 0.0092 re_causal 0.0214 /// teacc 98.85 lr 0.00010000
+Epoch 383, weight, value: tensor([[-0.2064, -0.0201,  0.0326,  ..., -0.0283, -0.0832, -0.1468],
+        [-0.0603, -0.1063,  0.0333,  ...,  0.0558, -0.0216, -0.0960],
+        [-0.0699, -0.0946, -0.1191,  ...,  0.0376, -0.0353, -0.1180],
+        ...,
+        [-0.0673,  0.0298,  0.0280,  ...,  0.0153, -0.0659, -0.0984],
+        [-0.0837, -0.0068,  0.0220,  ...,  0.0644, -0.0338, -0.1855],
+        [ 0.0666,  0.0684, -0.0526,  ..., -0.1110, -0.0101,  0.0966]],
+       device='cuda:0'), grad: tensor([[ 6.4313e-05,  4.5449e-06,  1.8990e-04,  ...,  1.7109e-03,
+          5.5981e-04,  5.4762e-06],
+        [ 2.9013e-05,  8.5086e-06,  6.8307e-05,  ..., -4.7340e-03,
+          3.6860e-04,  5.2601e-06],
+        [ 4.1056e-04,  5.9307e-06,  5.9175e-04,  ..., -4.8332e-03,
+          1.1034e-03,  1.6296e-04],
+        ...,
+        [ 3.1143e-05,  7.5293e-04,  8.0228e-05,  ...,  2.5330e-03,
+          4.9543e-04, -4.1515e-05],
+        [-3.3236e-04,  2.0778e-04, -3.4459e-06,  ...,  6.1941e-04,
+          1.6289e-03,  1.4007e-04],
+        [ 1.2314e-04, -2.0294e-03,  2.2817e-04,  ...,  1.9531e-03,
+          8.2064e-04,  8.4341e-05]], device='cuda:0')
+Epoch 383, bias, value: tensor([-0.0536,  0.0221,  0.0064, -0.0122, -0.0028,  0.0087, -0.0148,  0.0331,
+        -0.0212,  0.0144], device='cuda:0'), grad: tensor([ 0.0240, -0.0474, -0.0109, -0.0184, -0.0025,  0.0283, -0.0236,  0.0216,
+         0.0131,  0.0159], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 382, time 227.95, cls_loss 0.5066 cls_loss_mapping 0.0021 cls_loss_causal 0.4498 re_mapping 0.0087 re_causal 0.0206 /// teacc 98.84 lr 0.00010000
+Epoch 384, weight, value: tensor([[-0.2072, -0.0213,  0.0330,  ..., -0.0275, -0.0829, -0.1480],
+        [-0.0589, -0.1057,  0.0331,  ...,  0.0549, -0.0223, -0.0973],
+        [-0.0682, -0.0954, -0.1193,  ...,  0.0374, -0.0357, -0.1190],
+        ...,
+        [-0.0674,  0.0314,  0.0282,  ...,  0.0153, -0.0652, -0.0980],
+        [-0.0851, -0.0076,  0.0212,  ...,  0.0641, -0.0340, -0.1858],
+        [ 0.0665,  0.0679, -0.0516,  ..., -0.1127, -0.0114,  0.0982]],
+       device='cuda:0'), grad: tensor([[-2.2640e-03,  1.1116e-04,  1.6928e-04,  ...,  1.0824e-03,
+          7.2718e-04,  2.2256e-04],
+        [ 1.6153e-05,  1.4126e-04,  8.7786e-04,  ...,  2.2926e-03,
+          3.9077e-04,  6.8712e-04],
+        [ 3.9250e-05,  5.2452e-05,  5.3072e-04,  ...,  3.1548e-03,
+          6.5374e-04,  3.0708e-04],
+        ...,
+        [ 2.1309e-05, -4.3201e-04,  9.1505e-04,  ..., -8.6546e-04,
+          9.0742e-04,  6.8521e-04],
+        [ 4.6682e-04, -1.2150e-03, -4.3449e-03,  ..., -3.3798e-03,
+         -1.7881e-04, -4.0398e-03],
+        [ 1.8382e-04,  5.3740e-04,  7.0238e-04,  ..., -1.7061e-03,
+          1.9875e-03, -2.2638e-04]], device='cuda:0')
+Epoch 384, bias, value: tensor([-0.0531,  0.0224,  0.0059, -0.0109, -0.0020,  0.0085, -0.0155,  0.0336,
+        -0.0215,  0.0126], device='cuda:0'), grad: tensor([ 0.0052, -0.0105,  0.0149,  0.0228,  0.0161,  0.0114, -0.0421, -0.0129,
+        -0.0072,  0.0022], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 383, time 227.61, cls_loss 0.5382 cls_loss_mapping 0.0017 cls_loss_causal 0.4692 re_mapping 0.0085 re_causal 0.0206 /// teacc 98.86 lr 0.00010000
+Epoch 385, weight, value: tensor([[-0.2086, -0.0223,  0.0330,  ..., -0.0284, -0.0843, -0.1474],
+        [-0.0601, -0.1059,  0.0338,  ...,  0.0552, -0.0233, -0.0979],
+        [-0.0665, -0.0965, -0.1187,  ...,  0.0377, -0.0351, -0.1185],
+        ...,
+        [-0.0684,  0.0320,  0.0276,  ...,  0.0171, -0.0628, -0.0987],
+        [-0.0868, -0.0075,  0.0206,  ...,  0.0620, -0.0341, -0.1869],
+        [ 0.0660,  0.0682, -0.0523,  ..., -0.1125, -0.0108,  0.1007]],
+       device='cuda:0'), grad: tensor([[ 1.4771e-06,  1.9908e-04,  1.3912e-04,  ..., -5.0735e-04,
+         -1.1429e-02,  7.9095e-05],
+        [ 9.2834e-06,  5.2595e-04,  6.0177e-04,  ..., -1.1148e-03,
+          1.4038e-03,  1.9002e-04],
+        [ 2.7731e-05, -3.0594e-03,  1.8573e-04,  ..., -9.2545e-03,
+         -3.8872e-03,  1.4329e-04],
+        ...,
+        [ 7.9796e-06,  1.0653e-03,  4.6754e-04,  ...,  3.3779e-03,
+          2.4338e-03,  1.8430e-04],
+        [ 1.2219e-05,  4.6325e-04,  5.4932e-04,  ..., -1.3075e-03,
+          3.0346e-03,  3.1400e-04],
+        [ 6.9737e-06,  2.8896e-04,  1.1005e-03,  ...,  2.6588e-03,
+          4.6883e-03,  5.8889e-04]], device='cuda:0')
+Epoch 385, bias, value: tensor([-0.0534,  0.0235,  0.0061, -0.0116, -0.0031,  0.0088, -0.0140,  0.0337,
+        -0.0228,  0.0130], device='cuda:0'), grad: tensor([-0.0078, -0.0030, -0.0246, -0.0089,  0.0166, -0.0040,  0.0244,  0.0262,
+        -0.0110, -0.0079], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 384, time 229.77, cls_loss 0.5345 cls_loss_mapping 0.0022 cls_loss_causal 0.4651 re_mapping 0.0086 re_causal 0.0203 /// teacc 98.89 lr 0.00010000
+Epoch 386, weight, value: tensor([[-0.2081, -0.0232,  0.0340,  ..., -0.0293, -0.0837, -0.1455],
+        [-0.0612, -0.1064,  0.0329,  ...,  0.0551, -0.0245, -0.0984],
+        [-0.0665, -0.0970, -0.1188,  ...,  0.0377, -0.0338, -0.1192],
+        ...,
+        [-0.0684,  0.0330,  0.0269,  ...,  0.0170, -0.0626, -0.0999],
+        [-0.0863, -0.0066,  0.0199,  ...,  0.0630, -0.0343, -0.1890],
+        [ 0.0663,  0.0683, -0.0505,  ..., -0.1125, -0.0119,  0.1020]],
+       device='cuda:0'), grad: tensor([[-3.2723e-05, -1.8967e-02,  4.3273e-04,  ..., -1.6556e-03,
+          4.5919e-04,  2.8872e-04],
+        [ 1.1611e-04,  4.6074e-05,  2.1625e-04,  ...,  9.8038e-04,
+         -1.5345e-03,  4.8375e-04],
+        [-3.1605e-03,  1.5736e-04,  3.9840e-04,  ...,  7.9870e-04,
+          4.7088e-04, -1.4567e-04],
+        ...,
+        [ 9.8801e-04, -9.2387e-05,  1.9875e-03,  ...,  2.1210e-03,
+          6.6376e-04,  1.5631e-03],
+        [ 2.6178e-04,  9.0933e-04,  7.0095e-04,  ...,  1.6327e-03,
+          3.7193e-04,  7.2908e-04],
+        [-1.8110e-03,  1.8358e-04, -2.3422e-03,  ..., -2.6093e-03,
+          3.8576e-04, -3.3092e-03]], device='cuda:0')
+Epoch 386, bias, value: tensor([-0.0539,  0.0234,  0.0061, -0.0122, -0.0034,  0.0092, -0.0139,  0.0346,
+        -0.0236,  0.0136], device='cuda:0'), grad: tensor([-0.0346, -0.0165,  0.0107,  0.0015, -0.0536,  0.0470,  0.0275,  0.0194,
+         0.0221, -0.0236], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 385, time 228.47, cls_loss 0.5097 cls_loss_mapping 0.0023 cls_loss_causal 0.4515 re_mapping 0.0081 re_causal 0.0196 /// teacc 98.86 lr 0.00010000
+Epoch 387, weight, value: tensor([[-0.2087, -0.0210,  0.0367,  ..., -0.0285, -0.0842, -0.1459],
+        [-0.0607, -0.1073,  0.0333,  ...,  0.0547, -0.0250, -0.0958],
+        [-0.0660, -0.0973, -0.1195,  ...,  0.0376, -0.0347, -0.1199],
+        ...,
+        [-0.0686,  0.0328,  0.0267,  ...,  0.0178, -0.0618, -0.1005],
+        [-0.0860, -0.0063,  0.0186,  ...,  0.0627, -0.0344, -0.1885],
+        [ 0.0666,  0.0688, -0.0512,  ..., -0.1126, -0.0124,  0.1018]],
+       device='cuda:0'), grad: tensor([[ 7.8045e-07, -3.7514e-06, -7.1526e-06,  ...,  1.1759e-03,
+          2.8682e-04, -3.4515e-06],
+        [ 4.0457e-06,  1.9938e-05,  4.7326e-05,  ..., -1.8854e-03,
+          1.2827e-04,  1.1008e-06],
+        [ 4.7982e-06,  1.9252e-05,  2.0161e-05,  ...,  2.9984e-03,
+          6.7234e-04,  1.3959e-04],
+        ...,
+        [ 1.4806e-04,  1.1849e-04, -1.5366e-04,  ..., -1.0223e-03,
+          2.6274e-04,  8.6844e-05],
+        [ 8.7619e-05,  2.3232e-03,  1.1615e-05,  ...,  2.0447e-03,
+          1.2341e-03,  1.8053e-03],
+        [-3.1805e-04,  4.2908e-02,  3.9726e-05,  ...,  4.5598e-05,
+          1.3387e-04, -1.1170e-04]], device='cuda:0')
+Epoch 387, bias, value: tensor([-0.0534,  0.0230,  0.0061, -0.0131, -0.0039,  0.0084, -0.0128,  0.0355,
+        -0.0233,  0.0135], device='cuda:0'), grad: tensor([ 0.0203, -0.0031,  0.0493, -0.0435, -0.0616, -0.0164,  0.0241, -0.0050,
+         0.0322,  0.0038], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 386, time 226.60, cls_loss 0.5297 cls_loss_mapping 0.0031 cls_loss_causal 0.4680 re_mapping 0.0080 re_causal 0.0192 /// teacc 98.66 lr 0.00010000
+Epoch 388, weight, value: tensor([[-0.2106, -0.0204,  0.0361,  ..., -0.0285, -0.0840, -0.1478],
+        [-0.0606, -0.1078,  0.0327,  ...,  0.0551, -0.0260, -0.0926],
+        [-0.0661, -0.0977, -0.1196,  ...,  0.0380, -0.0361, -0.1200],
+        ...,
+        [-0.0687,  0.0331,  0.0271,  ...,  0.0173, -0.0600, -0.1009],
+        [-0.0864, -0.0068,  0.0179,  ...,  0.0623, -0.0337, -0.1892],
+        [ 0.0663,  0.0687, -0.0514,  ..., -0.1128, -0.0131,  0.1012]],
+       device='cuda:0'), grad: tensor([[ 7.2531e-06,  1.8433e-05,  3.9530e-04,  ...,  2.8133e-05,
+          6.4850e-04,  3.1412e-05],
+        [ 6.7279e-06,  8.1837e-05,  2.1207e-04,  ...,  2.7299e-04,
+          3.5310e-04,  1.2612e-04],
+        [ 1.4611e-05,  1.6999e-04,  6.5374e-04,  ..., -3.6430e-03,
+          1.0624e-03,  2.3878e-04],
+        ...,
+        [ 8.1435e-06, -8.0013e-04,  3.8028e-04,  ..., -2.4796e-04,
+          7.1144e-04, -1.1578e-03],
+        [-7.3433e-04,  7.6413e-05,  2.5063e-03,  ...,  1.1390e-04,
+          3.2864e-03, -3.2024e-03],
+        [ 3.2365e-05,  1.4722e-04,  5.2261e-04,  ...,  6.6578e-05,
+          7.8249e-04,  2.3007e-04]], device='cuda:0')
+Epoch 388, bias, value: tensor([-0.0542,  0.0242,  0.0056, -0.0120, -0.0036,  0.0086, -0.0144,  0.0358,
+        -0.0232,  0.0130], device='cuda:0'), grad: tensor([ 0.0044, -0.0253, -0.0045,  0.0279,  0.0009, -0.0211,  0.0097, -0.0021,
+         0.0040,  0.0061], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 387, time 226.99, cls_loss 0.5191 cls_loss_mapping 0.0031 cls_loss_causal 0.4547 re_mapping 0.0085 re_causal 0.0208 /// teacc 98.87 lr 0.00010000
+Epoch 389, weight, value: tensor([[-0.2108, -0.0203,  0.0362,  ..., -0.0280, -0.0839, -0.1476],
+        [-0.0611, -0.1083,  0.0322,  ...,  0.0546, -0.0267, -0.0928],
+        [-0.0659, -0.0973, -0.1200,  ...,  0.0379, -0.0356, -0.1198],
+        ...,
+        [-0.0688,  0.0330,  0.0275,  ...,  0.0169, -0.0606, -0.1013],
+        [-0.0866, -0.0060,  0.0176,  ...,  0.0621, -0.0332, -0.1890],
+        [ 0.0676,  0.0678, -0.0511,  ..., -0.1127, -0.0128,  0.1012]],
+       device='cuda:0'), grad: tensor([[-5.9128e-04, -5.3692e-04, -1.1575e-04,  ...,  3.8552e-04,
+          8.3971e-04, -8.1444e-04],
+        [ 1.1194e-06,  1.0923e-05,  1.2264e-03,  ...,  1.9817e-03,
+          2.2411e-03,  1.3206e-06],
+        [ 3.0899e-04,  2.9802e-04,  1.1768e-03,  ...,  2.2926e-03,
+          7.4625e-04,  3.7551e-04],
+        ...,
+        [ 2.5202e-06,  1.6794e-05, -6.3515e-03,  ..., -8.0338e-03,
+         -1.0307e-02,  6.5789e-06],
+        [ 2.4196e-06, -7.1831e-03,  1.0929e-03,  ...,  1.3132e-03,
+          1.6880e-03,  9.2864e-05],
+        [ 6.6981e-06,  3.2949e-04,  5.9175e-04,  ...,  9.9850e-04,
+          9.4318e-04,  8.0705e-05]], device='cuda:0')
+Epoch 389, bias, value: tensor([-0.0546,  0.0248,  0.0066, -0.0115, -0.0037,  0.0072, -0.0134,  0.0350,
+        -0.0230,  0.0125], device='cuda:0'), grad: tensor([ 0.0029,  0.0124,  0.0202, -0.0457,  0.0196, -0.0086,  0.0198, -0.0177,
+         0.0010, -0.0039], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 388, time 227.28, cls_loss 0.5035 cls_loss_mapping 0.0020 cls_loss_causal 0.4490 re_mapping 0.0085 re_causal 0.0204 /// teacc 98.85 lr 0.00010000
+Epoch 390, weight, value: tensor([[-0.2123, -0.0207,  0.0362,  ..., -0.0280, -0.0837, -0.1487],
+        [-0.0621, -0.1086,  0.0336,  ...,  0.0548, -0.0277, -0.0935],
+        [-0.0656, -0.0974, -0.1203,  ...,  0.0381, -0.0359, -0.1187],
+        ...,
+        [-0.0689,  0.0339,  0.0279,  ...,  0.0181, -0.0613, -0.1004],
+        [-0.0884, -0.0062,  0.0175,  ...,  0.0608, -0.0339, -0.1891],
+        [ 0.0681,  0.0676, -0.0511,  ..., -0.1128, -0.0132,  0.1010]],
+       device='cuda:0'), grad: tensor([[ 1.1832e-04,  1.7130e-04,  5.8222e-04,  ...,  9.2888e-04,
+          1.4186e-04,  3.6550e-04],
+        [ 1.8537e-04,  1.0031e-04, -1.0498e-02,  ..., -1.0986e-03,
+          4.2319e-06,  2.8563e-04],
+        [ 1.7333e-04, -1.1377e-03,  9.4318e-04,  ...,  9.2602e-04,
+          1.0049e-04,  1.0929e-03],
+        ...,
+        [-8.7881e-04,  2.1625e-04,  6.3086e-04,  ..., -1.5926e-03,
+         -1.3256e-04,  1.1358e-03],
+        [ 2.8634e-04, -1.3981e-03,  8.5735e-04,  ...,  2.7442e-04,
+          9.4414e-05, -3.5267e-03],
+        [ 4.8494e-04,  4.7588e-04,  9.7752e-04,  ...,  2.2583e-03,
+          5.8293e-05,  1.7977e-03]], device='cuda:0')
+Epoch 390, bias, value: tensor([-0.0553,  0.0254,  0.0071, -0.0109, -0.0039,  0.0079, -0.0147,  0.0357,
+        -0.0235,  0.0121], device='cuda:0'), grad: tensor([ 0.0144, -0.0409,  0.0062,  0.0585, -0.0439, -0.0028,  0.0332, -0.0399,
+        -0.0078,  0.0231], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 389, time 229.77, cls_loss 0.5240 cls_loss_mapping 0.0025 cls_loss_causal 0.4619 re_mapping 0.0079 re_causal 0.0192 /// teacc 98.89 lr 0.00010000
+Epoch 391, weight, value: tensor([[-0.2135, -0.0206,  0.0361,  ..., -0.0282, -0.0840, -0.1486],
+        [-0.0631, -0.1088,  0.0329,  ...,  0.0549, -0.0265, -0.0940],
+        [-0.0648, -0.0976, -0.1203,  ...,  0.0376, -0.0358, -0.1204],
+        ...,
+        [-0.0693,  0.0354,  0.0280,  ...,  0.0185, -0.0620, -0.1014],
+        [-0.0874, -0.0067,  0.0177,  ...,  0.0608, -0.0342, -0.1886],
+        [ 0.0688,  0.0671, -0.0508,  ..., -0.1141, -0.0133,  0.1020]],
+       device='cuda:0'), grad: tensor([[ 1.4022e-05, -7.7188e-06,  2.6774e-04,  ...,  1.9321e-03,
+          1.2760e-03,  9.7081e-06],
+        [ 3.9279e-05,  3.1665e-08,  3.6120e-05,  ...,  2.5558e-03,
+          4.8828e-04,  2.9624e-05],
+        [ 1.4079e-04,  4.5728e-07,  2.7490e-04,  ...,  1.7033e-03,
+          9.4032e-04,  1.0335e-04],
+        ...,
+        [ 3.3826e-05,  7.2643e-08,  3.0041e-04,  ...,  2.1381e-03,
+          5.8603e-04,  2.4766e-05],
+        [ 2.7442e-04,  6.2026e-07,  2.6417e-04,  ..., -1.2455e-03,
+         -7.5684e-03,  2.3139e-04],
+        [ 2.3520e-04,  3.5837e-06, -1.2627e-03,  ..., -5.0163e-03,
+         -3.0708e-03,  1.9360e-04]], device='cuda:0')
+Epoch 391, bias, value: tensor([-0.0551,  0.0252,  0.0069, -0.0112, -0.0030,  0.0090, -0.0146,  0.0352,
+        -0.0237,  0.0112], device='cuda:0'), grad: tensor([ 0.0173,  0.0216,  0.0009,  0.0113, -0.0129, -0.0383,  0.0216,  0.0153,
+        -0.0258, -0.0109], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 390, time 228.47, cls_loss 0.5305 cls_loss_mapping 0.0027 cls_loss_causal 0.4705 re_mapping 0.0084 re_causal 0.0196 /// teacc 98.93 lr 0.00010000
+Epoch 392, weight, value: tensor([[-0.2136, -0.0217,  0.0362,  ..., -0.0282, -0.0829, -0.1473],
+        [-0.0614, -0.1081,  0.0335,  ...,  0.0530, -0.0272, -0.0944],
+        [-0.0652, -0.0973, -0.1200,  ...,  0.0396, -0.0354, -0.1190],
+        ...,
+        [-0.0690,  0.0356,  0.0275,  ...,  0.0180, -0.0614, -0.1008],
+        [-0.0882, -0.0064,  0.0170,  ...,  0.0604, -0.0343, -0.1886],
+        [ 0.0683,  0.0678, -0.0505,  ..., -0.1131, -0.0146,  0.1023]],
+       device='cuda:0'), grad: tensor([[ 1.3864e-04, -3.5992e-03, -2.1660e-04,  ...,  2.7275e-04,
+         -4.4376e-05,  7.1907e-04],
+        [ 1.7151e-05,  2.4033e-04,  1.6186e-06,  ..., -6.3782e-03,
+          3.1069e-06, -2.9926e-03],
+        [ 2.6131e-04,  2.7409e-03,  6.9737e-05,  ...,  5.2185e-03,
+          1.4389e-04, -1.1425e-03],
+        ...,
+        [ 5.9217e-05,  2.2564e-03,  9.5189e-05,  ...,  6.4392e-03,
+          6.2957e-06,  2.5616e-03],
+        [ 1.6952e-04,  3.8767e-04,  7.4089e-05,  ...,  2.2926e-03,
+          8.6844e-05,  6.4850e-04],
+        [-6.0987e-04,  1.4849e-03,  2.3711e-04,  ..., -2.8114e-03,
+          1.5840e-05,  2.0676e-03]], device='cuda:0')
+Epoch 392, bias, value: tensor([-0.0546,  0.0240,  0.0071, -0.0109, -0.0026,  0.0101, -0.0154,  0.0350,
+        -0.0237,  0.0111], device='cuda:0'), grad: tensor([-0.0055, -0.0262,  0.0164,  0.0406, -0.0344,  0.0305, -0.0166,  0.0419,
+        -0.0152, -0.0316], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 391, time 228.75, cls_loss 0.5034 cls_loss_mapping 0.0033 cls_loss_causal 0.4443 re_mapping 0.0088 re_causal 0.0203 /// teacc 98.89 lr 0.00010000
+Epoch 393, weight, value: tensor([[-0.2135, -0.0220,  0.0365,  ..., -0.0282, -0.0820, -0.1466],
+        [-0.0605, -0.1070,  0.0338,  ...,  0.0549, -0.0276, -0.0936],
+        [-0.0673, -0.0981, -0.1203,  ...,  0.0397, -0.0357, -0.1173],
+        ...,
+        [-0.0688,  0.0349,  0.0268,  ...,  0.0172, -0.0604, -0.1019],
+        [-0.0873, -0.0062,  0.0178,  ...,  0.0607, -0.0341, -0.1894],
+        [ 0.0678,  0.0680, -0.0519,  ..., -0.1143, -0.0152,  0.1021]],
+       device='cuda:0'), grad: tensor([[ 3.3230e-06,  3.8862e-05,  3.5667e-03,  ...,  3.4542e-03,
+          4.0345e-06,  1.9569e-03],
+        [ 7.4413e-07,  3.3593e-04,  9.7275e-05,  ...,  8.0633e-04,
+          3.4869e-05,  5.2452e-04],
+        [ 1.0012e-06,  1.3793e-04,  1.2369e-03,  ...,  2.6131e-04,
+          1.4313e-05,  4.2367e-04],
+        ...,
+        [ 8.4378e-07,  4.4417e-04,  1.6284e-04,  ...,  8.7214e-04,
+          4.6104e-05,  7.0143e-04],
+        [ 1.4223e-05,  4.0746e-04, -1.0109e-03,  ...,  6.2037e-04,
+          4.2289e-05,  9.0313e-04],
+        [-2.9113e-06, -2.0847e-03, -2.0790e-04,  ..., -1.8997e-03,
+         -2.1625e-04, -3.1414e-03]], device='cuda:0')
+Epoch 393, bias, value: tensor([-0.0540,  0.0248,  0.0069, -0.0111, -0.0023,  0.0086, -0.0151,  0.0341,
+        -0.0228,  0.0111], device='cuda:0'), grad: tensor([ 0.0272,  0.0034,  0.0085, -0.0073,  0.0014,  0.0027, -0.0305,  0.0043,
+        -0.0028, -0.0068], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 392, time 229.15, cls_loss 0.5250 cls_loss_mapping 0.0035 cls_loss_causal 0.4707 re_mapping 0.0085 re_causal 0.0199 /// teacc 98.81 lr 0.00010000
+Epoch 394, weight, value: tensor([[-0.2158, -0.0216,  0.0366,  ..., -0.0286, -0.0821, -0.1484],
+        [-0.0607, -0.1072,  0.0337,  ...,  0.0542, -0.0284, -0.0929],
+        [-0.0668, -0.0982, -0.1207,  ...,  0.0413, -0.0365, -0.1172],
+        ...,
+        [-0.0688,  0.0351,  0.0277,  ...,  0.0174, -0.0595, -0.1018],
+        [-0.0876, -0.0062,  0.0178,  ...,  0.0620, -0.0347, -0.1892],
+        [ 0.0672,  0.0682, -0.0506,  ..., -0.1135, -0.0153,  0.1019]],
+       device='cuda:0'), grad: tensor([[ 1.9178e-05,  3.0255e-04,  2.6155e-04,  ...,  3.3474e-04,
+          2.0885e-04,  4.5085e-04],
+        [-7.2718e-04,  1.4663e-05, -7.5579e-04,  ..., -1.0576e-03,
+          1.8030e-05, -8.1182e-05],
+        [ 4.1127e-06,  5.8740e-05,  3.4571e-04,  ...,  4.3535e-04,
+          1.2326e-04,  1.1015e-04],
+        ...,
+        [-5.2065e-05,  4.0698e-04, -4.5815e-03,  ..., -1.3828e-03,
+          1.8463e-05,  6.1369e-04],
+        [ 1.7548e-04,  2.4581e-04,  3.4084e-03,  ...,  7.6294e-04,
+          9.5069e-06,  3.8695e-04],
+        [ 8.1658e-05, -1.6947e-03, -8.7166e-04,  ...,  9.1600e-04,
+         -8.3983e-05, -3.0174e-03]], device='cuda:0')
+Epoch 394, bias, value: tensor([-0.0535,  0.0232,  0.0080, -0.0121, -0.0024,  0.0089, -0.0152,  0.0346,
+        -0.0225,  0.0112], device='cuda:0'), grad: tensor([-0.0077,  0.0052,  0.0151,  0.0142, -0.0168, -0.0218,  0.0260,  0.0029,
+        -0.0125, -0.0044], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 393, time 225.84, cls_loss 0.5388 cls_loss_mapping 0.0022 cls_loss_causal 0.4828 re_mapping 0.0081 re_causal 0.0196 /// teacc 98.88 lr 0.00010000
+Epoch 395, weight, value: tensor([[-0.2161, -0.0215,  0.0363,  ..., -0.0298, -0.0820, -0.1485],
+        [-0.0604, -0.1073,  0.0340,  ...,  0.0536, -0.0281, -0.0921],
+        [-0.0652, -0.0972, -0.1197,  ...,  0.0424, -0.0354, -0.1169],
+        ...,
+        [-0.0685,  0.0341,  0.0277,  ...,  0.0179, -0.0598, -0.1011],
+        [-0.0869, -0.0064,  0.0183,  ...,  0.0610, -0.0356, -0.1896],
+        [ 0.0661,  0.0683, -0.0514,  ..., -0.1136, -0.0156,  0.1011]],
+       device='cuda:0'), grad: tensor([[ 8.5384e-06, -1.2708e-04,  2.2078e-04,  ...,  1.7223e-03,
+          5.1212e-04,  1.6489e-03],
+        [ 5.8562e-06, -8.6844e-05,  2.1696e-05,  ..., -2.8152e-03,
+         -2.8458e-03, -6.7520e-03],
+        [ 4.5039e-06,  5.5850e-05,  2.3976e-05,  ...,  2.2411e-03,
+          6.8712e-04,  7.7295e-04],
+        ...,
+        [ 4.0144e-05, -3.8743e-04, -4.0078e-04,  ...,  8.1205e-04,
+          8.3804e-05, -4.5180e-04],
+        [ 1.9580e-05, -7.6771e-04,  2.1324e-05,  ..., -2.9907e-03,
+          7.0477e-04, -1.3866e-03],
+        [ 1.6427e-04,  6.6471e-04,  6.7425e-04,  ...,  1.6098e-03,
+          8.0347e-04,  1.1444e-03]], device='cuda:0')
+Epoch 395, bias, value: tensor([-0.0543,  0.0226,  0.0078, -0.0117, -0.0032,  0.0090, -0.0138,  0.0355,
+        -0.0236,  0.0117], device='cuda:0'), grad: tensor([ 0.0090, -0.0457,  0.0258, -0.0054, -0.0157, -0.0008,  0.0226,  0.0141,
+        -0.0212,  0.0174], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 394, time 227.69, cls_loss 0.5102 cls_loss_mapping 0.0022 cls_loss_causal 0.4589 re_mapping 0.0081 re_causal 0.0199 /// teacc 98.86 lr 0.00010000
+Epoch 396, weight, value: tensor([[-0.2172, -0.0208,  0.0358,  ..., -0.0301, -0.0827, -0.1471],
+        [-0.0613, -0.1084,  0.0342,  ...,  0.0542, -0.0280, -0.0918],
+        [-0.0649, -0.0981, -0.1195,  ...,  0.0433, -0.0351, -0.1158],
+        ...,
+        [-0.0689,  0.0338,  0.0269,  ...,  0.0173, -0.0597, -0.1007],
+        [-0.0878, -0.0067,  0.0169,  ...,  0.0610, -0.0356, -0.1906],
+        [ 0.0660,  0.0682, -0.0510,  ..., -0.1147, -0.0158,  0.0999]],
+       device='cuda:0'), grad: tensor([[-2.5593e-06,  3.6210e-05,  7.6443e-06,  ...,  3.8433e-04,
+          2.1141e-07,  2.8834e-06],
+        [ 4.2543e-06,  4.3154e-05, -3.5167e-05,  ...,  7.7057e-04,
+          2.1793e-07,  1.0408e-05],
+        [ 7.6145e-06,  1.2798e-03,  6.6273e-06,  ..., -3.4885e-03,
+          2.9698e-05,  1.3277e-05],
+        ...,
+        [ 5.9903e-05, -7.3910e-05,  8.2180e-06,  ...,  3.1662e-03,
+          5.2415e-06, -4.8137e-04],
+        [ 2.2396e-05, -2.3117e-03,  9.1344e-06,  ..., -1.0717e-04,
+         -5.8860e-05,  4.8101e-05],
+        [-1.6356e-04, -1.0836e-04, -4.1910e-06,  ..., -4.5242e-03,
+          1.0729e-06,  2.3329e-04]], device='cuda:0')
+Epoch 396, bias, value: tensor([-0.0546,  0.0228,  0.0082, -0.0113, -0.0024,  0.0088, -0.0144,  0.0347,
+        -0.0227,  0.0108], device='cuda:0'), grad: tensor([-0.0029,  0.0042,  0.0020,  0.0113,  0.0048,  0.0041,  0.0036,  0.0070,
+        -0.0074, -0.0267], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 395, time 226.25, cls_loss 0.4934 cls_loss_mapping 0.0024 cls_loss_causal 0.4303 re_mapping 0.0082 re_causal 0.0192 /// teacc 98.83 lr 0.00010000
+Epoch 397, weight, value: tensor([[-0.2171, -0.0219,  0.0374,  ..., -0.0294, -0.0819, -0.1466],
+        [-0.0612, -0.1110,  0.0345,  ...,  0.0550, -0.0273, -0.0916],
+        [-0.0654, -0.0989, -0.1200,  ...,  0.0432, -0.0354, -0.1163],
+        ...,
+        [-0.0701,  0.0353,  0.0253,  ...,  0.0165, -0.0600, -0.1005],
+        [-0.0873, -0.0060,  0.0162,  ...,  0.0623, -0.0362, -0.1915],
+        [ 0.0650,  0.0686, -0.0505,  ..., -0.1161, -0.0158,  0.1000]],
+       device='cuda:0'), grad: tensor([[ 8.3923e-04,  4.5633e-04, -2.9888e-03,  ..., -1.6985e-03,
+          8.7097e-06,  5.1767e-05],
+        [ 8.9025e-04, -1.6785e-03,  6.6662e-04,  ...,  3.0174e-03,
+          5.5879e-07,  1.2323e-05],
+        [ 1.1759e-03,  3.8695e-04,  9.1791e-04,  ..., -1.0376e-03,
+          7.8976e-06,  2.1175e-05],
+        ...,
+        [-6.4735e-03,  2.5578e-03,  5.1689e-04,  ..., -2.3937e-04,
+          9.3132e-08,  2.5177e-04],
+        [-6.8436e-03,  3.8395e-03, -2.2755e-03,  ..., -1.0460e-02,
+          1.5432e-06,  4.8339e-05],
+        [-1.4484e-04, -8.5754e-03,  1.8394e-04,  ...,  1.9684e-03,
+          4.7404e-07, -5.5599e-04]], device='cuda:0')
+Epoch 397, bias, value: tensor([-0.0536,  0.0235,  0.0072, -0.0117, -0.0022,  0.0085, -0.0138,  0.0344,
+        -0.0223,  0.0102], device='cuda:0'), grad: tensor([-0.0014,  0.0189, -0.0060,  0.0363, -0.0409,  0.0042, -0.0037,  0.0128,
+        -0.0278,  0.0075], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 396, time 227.29, cls_loss 0.5251 cls_loss_mapping 0.0031 cls_loss_causal 0.4661 re_mapping 0.0086 re_causal 0.0208 /// teacc 98.77 lr 0.00010000
+Epoch 398, weight, value: tensor([[-0.2181, -0.0244,  0.0378,  ..., -0.0288, -0.0820, -0.1472],
+        [-0.0623, -0.1100,  0.0344,  ...,  0.0548, -0.0272, -0.0921],
+        [-0.0648, -0.1013, -0.1207,  ...,  0.0411, -0.0384, -0.1164],
+        ...,
+        [-0.0697,  0.0341,  0.0251,  ...,  0.0170, -0.0595, -0.0998],
+        [-0.0868, -0.0050,  0.0168,  ...,  0.0630, -0.0364, -0.1915],
+        [ 0.0654,  0.0695, -0.0491,  ..., -0.1174, -0.0160,  0.1008]],
+       device='cuda:0'), grad: tensor([[ 9.6112e-07,  1.0176e-03,  1.1578e-05,  ...,  6.5947e-04,
+          3.3565e-06,  2.1420e-07],
+        [ 1.8552e-06,  1.1778e-03, -1.6451e-04,  ...,  1.2970e-03,
+          8.9049e-05,  4.8243e-07],
+        [ 1.9714e-05,  1.0853e-03,  2.5369e-06,  ...,  7.6628e-04,
+          4.9859e-05,  2.0973e-06],
+        ...,
+        [-1.1462e-04, -8.5175e-05,  8.1360e-06,  ..., -4.7255e-04,
+         -4.3082e-04,  6.2063e-06],
+        [ 4.9025e-05,  1.3876e-03,  1.0890e-04,  ..., -2.8114e-03,
+          4.1991e-05,  3.7014e-05],
+        [-1.1206e-04, -1.5459e-03, -1.0490e-05,  ...,  9.5272e-04,
+          5.3197e-05, -8.4937e-05]], device='cuda:0')
+Epoch 398, bias, value: tensor([-0.0542,  0.0227,  0.0066, -0.0105, -0.0028,  0.0092, -0.0141,  0.0347,
+        -0.0224,  0.0107], device='cuda:0'), grad: tensor([ 0.0094,  0.0174,  0.0005,  0.0080, -0.0098, -0.0255,  0.0117,  0.0018,
+        -0.0199,  0.0064], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 397, time 225.53, cls_loss 0.5075 cls_loss_mapping 0.0028 cls_loss_causal 0.4473 re_mapping 0.0083 re_causal 0.0200 /// teacc 98.98 lr 0.00010000
+Epoch 399, weight, value: tensor([[-0.2161, -0.0240,  0.0383,  ..., -0.0279, -0.0814, -0.1466],
+        [-0.0627, -0.1113,  0.0352,  ...,  0.0561, -0.0276, -0.0927],
+        [-0.0653, -0.0996, -0.1183,  ...,  0.0422, -0.0387, -0.1167],
+        ...,
+        [-0.0700,  0.0339,  0.0244,  ...,  0.0163, -0.0589, -0.0993],
+        [-0.0865, -0.0059,  0.0167,  ...,  0.0632, -0.0362, -0.1912],
+        [ 0.0642,  0.0716, -0.0510,  ..., -0.1183, -0.0155,  0.1002]],
+       device='cuda:0'), grad: tensor([[-3.7774e-06,  7.7009e-04, -9.9945e-04,  ..., -1.5545e-03,
+         -4.3030e-03, -8.2552e-06],
+        [ 1.7509e-06, -2.8763e-03, -9.1076e-04,  ..., -1.4801e-02,
+          3.3712e-04,  1.7434e-06],
+        [ 4.9844e-06,  1.3294e-03,  2.3508e-04,  ...,  3.0499e-03,
+          2.0051e-04,  3.8669e-06],
+        ...,
+        [-7.1339e-06,  8.0633e-04,  2.9147e-05,  ...,  2.5806e-03,
+          2.7633e-04, -3.5390e-06],
+        [-1.4007e-05,  2.8000e-03,  7.7188e-05,  ...,  3.1776e-03,
+          2.4939e-04, -5.1148e-06],
+        [-4.5586e-04, -1.0139e-02,  1.5140e-04,  ..., -9.7351e-03,
+         -1.6642e-03, -3.8815e-04]], device='cuda:0')
+Epoch 399, bias, value: tensor([-0.0540,  0.0245,  0.0078, -0.0114, -0.0032,  0.0093, -0.0143,  0.0337,
+        -0.0229,  0.0106], device='cuda:0'), grad: tensor([-0.0200, -0.0762,  0.0168,  0.0090,  0.0663,  0.0183,  0.0184,  0.0145,
+         0.0198, -0.0668], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 398, time 227.74, cls_loss 0.5076 cls_loss_mapping 0.0021 cls_loss_causal 0.4390 re_mapping 0.0089 re_causal 0.0216 /// teacc 98.98 lr 0.00010000
+Epoch 400, weight, value: tensor([[-0.2151, -0.0231,  0.0379,  ..., -0.0286, -0.0811, -0.1475],
+        [-0.0639, -0.1130,  0.0356,  ...,  0.0562, -0.0285, -0.0933],
+        [-0.0661, -0.0997, -0.1184,  ...,  0.0422, -0.0402, -0.1174],
+        ...,
+        [-0.0704,  0.0326,  0.0247,  ...,  0.0182, -0.0579, -0.0988],
+        [-0.0859, -0.0060,  0.0163,  ...,  0.0628, -0.0348, -0.1912],
+        [ 0.0644,  0.0726, -0.0514,  ..., -0.1175, -0.0149,  0.1001]],
+       device='cuda:0'), grad: tensor([[ 1.9312e-05, -2.1072e-02,  2.6107e-04,  ...,  4.7569e-03,
+          1.5759e-04,  1.2290e-04],
+        [ 2.8327e-05,  1.6222e-03,  2.1112e-04,  ...,  6.9695e-03,
+          4.8697e-05,  9.9778e-05],
+        [-5.7995e-05,  2.2755e-03,  7.6447e-03,  ...,  8.5144e-03,
+          2.7537e-05,  6.8617e-04],
+        ...,
+        [ 2.4819e-04,  1.6279e-03,  2.9397e-04,  ...,  1.5841e-03,
+          3.5197e-05,  3.4928e-04],
+        [ 2.0866e-03,  1.9779e-03,  8.6308e-04,  ..., -2.4948e-03,
+         -8.9121e-04,  2.3537e-03],
+        [ 5.9748e-04,  5.6458e-03,  4.1699e-04,  ...,  2.8725e-03,
+          2.3866e-04,  1.0900e-03]], device='cuda:0')
+Epoch 400, bias, value: tensor([-0.0538,  0.0241,  0.0073, -0.0110, -0.0041,  0.0072, -0.0143,  0.0352,
+        -0.0233,  0.0124], device='cuda:0'), grad: tensor([-0.0140,  0.0272,  0.0298,  0.0186, -0.0499, -0.0269, -0.0349,  0.0103,
+         0.0220,  0.0178], device='cuda:0')
+100
+0.0001
+changing lr
+epoch 399, time 226.18, cls_loss 0.5355 cls_loss_mapping 0.0036 cls_loss_causal 0.4799 re_mapping 0.0086 re_causal 0.0211 /// teacc 98.87 lr 0.00001000
+Epoch 401, weight, value: tensor([[-0.2150, -0.0220,  0.0376,  ..., -0.0298, -0.0817, -0.1475],
+        [-0.0646, -0.1131,  0.0352,  ...,  0.0568, -0.0291, -0.0941],
+        [-0.0651, -0.0999, -0.1191,  ...,  0.0445, -0.0389, -0.1161],
+        ...,
+        [-0.0705,  0.0325,  0.0252,  ...,  0.0153, -0.0598, -0.0998],
+        [-0.0862, -0.0049,  0.0159,  ...,  0.0625, -0.0352, -0.1908],
+        [ 0.0649,  0.0721, -0.0516,  ..., -0.1159, -0.0150,  0.1005]],
+       device='cuda:0'), grad: tensor([[ 3.1382e-05, -6.2981e-03,  1.2579e-03,  ..., -3.4733e-03,
+          3.4720e-05,  8.8140e-06],
+        [ 3.6031e-05,  2.6941e-04, -7.6580e-04,  ...,  1.0357e-03,
+          3.3236e-04,  1.1794e-05],
+        [ 1.4031e-04,  1.7395e-02,  3.2783e-04,  ...,  7.4005e-03,
+          1.9538e-04,  6.8545e-05],
+        ...,
+        [ 5.7888e-04, -3.6438e-02,  2.5177e-04,  ..., -4.9515e-03,
+          1.4305e-04,  4.6515e-04],
+        [-1.6584e-03,  2.2293e-02, -2.1935e-03,  ...,  7.5102e-04,
+         -7.7057e-04, -1.0195e-03],
+        [-1.3268e-02, -5.1994e-03, -3.6449e-03,  ..., -7.6485e-03,
+         -1.3573e-02, -3.8087e-05]], device='cuda:0')
+Epoch 401, bias, value: tensor([-0.0541,  0.0243,  0.0088, -0.0115, -0.0035,  0.0066, -0.0146,  0.0336,
+        -0.0226,  0.0127], device='cuda:0'), grad: tensor([-0.0093, -0.0026,  0.0372,  0.0072,  0.0577,  0.0081, -0.0200, -0.0490,
+         0.0187, -0.0481], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 400, time 226.15, cls_loss 0.5022 cls_loss_mapping 0.0033 cls_loss_causal 0.4427 re_mapping 0.0083 re_causal 0.0199 /// teacc 98.84 lr 0.00001000
+Epoch 402, weight, value: tensor([[-0.2150, -0.0220,  0.0375,  ..., -0.0297, -0.0817, -0.1475],
+        [-0.0646, -0.1126,  0.0352,  ...,  0.0570, -0.0289, -0.0941],
+        [-0.0652, -0.1001, -0.1193,  ...,  0.0443, -0.0389, -0.1162],
+        ...,
+        [-0.0705,  0.0326,  0.0252,  ...,  0.0153, -0.0597, -0.0997],
+        [-0.0863, -0.0052,  0.0159,  ...,  0.0625, -0.0351, -0.1908],
+        [ 0.0649,  0.0716, -0.0517,  ..., -0.1162, -0.0152,  0.1004]],
+       device='cuda:0'), grad: tensor([[ 3.4809e-04,  4.4918e-04,  4.3273e-04,  ...,  2.0256e-03,
+          1.8799e-04,  4.2963e-04],
+        [ 3.1561e-05, -1.0902e-04,  5.0259e-04,  ..., -2.4281e-03,
+          2.4581e-04,  2.6777e-05],
+        [ 9.0361e-04,  7.8726e-04,  5.9891e-04,  ...,  2.7637e-03,
+          2.4891e-04,  1.0347e-03],
+        ...,
+        [ 1.9133e-04,  1.0312e-04,  8.3494e-04,  ...,  1.8892e-03,
+          3.8576e-04,  9.0778e-05],
+        [ 3.3436e-03, -8.0776e-04,  5.3482e-03,  ...,  3.6602e-03,
+          2.5272e-03,  1.3008e-03],
+        [ 4.2939e-04, -1.1625e-03,  1.1683e-03,  ...,  2.2907e-03,
+          5.3978e-04,  2.3949e-04]], device='cuda:0')
+Epoch 402, bias, value: tensor([-0.0541,  0.0245,  0.0087, -0.0113, -0.0035,  0.0068, -0.0145,  0.0337,
+        -0.0227,  0.0122], device='cuda:0'), grad: tensor([ 0.0110, -0.0202,  0.0131, -0.0359, -0.0226,  0.0041,  0.0117,  0.0111,
+         0.0212,  0.0066], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 401, time 226.33, cls_loss 0.4877 cls_loss_mapping 0.0014 cls_loss_causal 0.4314 re_mapping 0.0079 re_causal 0.0194 /// teacc 98.85 lr 0.00001000
+Epoch 403, weight, value: tensor([[-0.2151, -0.0220,  0.0375,  ..., -0.0298, -0.0816, -0.1475],
+        [-0.0645, -0.1126,  0.0353,  ...,  0.0571, -0.0289, -0.0940],
+        [-0.0652, -0.1002, -0.1193,  ...,  0.0441, -0.0388, -0.1162],
+        ...,
+        [-0.0706,  0.0326,  0.0253,  ...,  0.0155, -0.0597, -0.0997],
+        [-0.0863, -0.0053,  0.0159,  ...,  0.0626, -0.0350, -0.1908],
+        [ 0.0648,  0.0715, -0.0519,  ..., -0.1163, -0.0153,  0.1003]],
+       device='cuda:0'), grad: tensor([[ 8.0466e-07, -4.6432e-05,  4.8935e-05,  ...,  4.8137e-04,
+          1.7583e-04, -7.9628e-07],
+        [ 2.6792e-05,  2.0601e-06, -6.6853e-04,  ..., -4.8041e-04,
+          1.4806e-04,  2.5034e-05],
+        [ 1.1558e-06,  1.9982e-05,  2.3556e-04,  ...,  1.5011e-03,
+          1.1816e-03,  1.0030e-06],
+        ...,
+        [ 1.9774e-05, -3.2157e-05,  1.0663e-04,  ...,  1.1759e-03,
+          3.1400e-04,  2.3961e-05],
+        [ 3.8594e-05, -3.2991e-05,  5.0020e-04,  ...,  1.1616e-03,
+          1.7941e-04,  3.7193e-05],
+        [-2.4204e-03,  7.1383e-04, -1.6174e-03,  ..., -8.4782e-04,
+         -2.1315e-04, -2.1248e-03]], device='cuda:0')
+Epoch 403, bias, value: tensor([-0.0541,  0.0244,  0.0087, -0.0113, -0.0034,  0.0069, -0.0146,  0.0339,
+        -0.0227,  0.0121], device='cuda:0'), grad: tensor([ 0.0010, -0.0010,  0.0053,  0.0029, -0.0165,  0.0027,  0.0033,  0.0031,
+         0.0028, -0.0037], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 402, time 226.75, cls_loss 0.4965 cls_loss_mapping 0.0015 cls_loss_causal 0.4325 re_mapping 0.0077 re_causal 0.0196 /// teacc 98.92 lr 0.00001000
+Epoch 404, weight, value: tensor([[-0.2150, -0.0221,  0.0374,  ..., -0.0300, -0.0816, -0.1474],
+        [-0.0645, -0.1127,  0.0352,  ...,  0.0572, -0.0290, -0.0940],
+        [-0.0652, -0.1002, -0.1195,  ...,  0.0439, -0.0390, -0.1162],
+        ...,
+        [-0.0707,  0.0326,  0.0253,  ...,  0.0156, -0.0598, -0.0998],
+        [-0.0862, -0.0052,  0.0158,  ...,  0.0625, -0.0349, -0.1908],
+        [ 0.0648,  0.0713, -0.0519,  ..., -0.1163, -0.0153,  0.1002]],
+       device='cuda:0'), grad: tensor([[ 1.6177e-04,  2.3282e-04,  1.1158e-03,  ..., -3.7155e-03,
+          2.9874e-04,  2.2256e-04],
+        [ 1.4043e-04, -2.0635e-04,  1.9722e-03,  ...,  5.1804e-03,
+          1.3864e-04,  1.9774e-05],
+        [-1.2189e-04,  2.2137e-04,  5.3138e-05,  ..., -1.5163e-03,
+          1.9342e-05,  2.4557e-05],
+        ...,
+        [ 1.0590e-02,  1.6565e-03,  1.8139e-03,  ...,  8.4839e-03,
+          2.2554e-04,  5.3520e-03],
+        [ 8.9645e-04,  4.9686e-04,  8.8692e-05,  ..., -2.1935e-03,
+          5.3257e-05,  3.0088e-04],
+        [ 1.8108e-04, -3.5534e-03, -1.4725e-02,  ..., -1.9409e-02,
+         -2.3346e-03, -3.9339e-04]], device='cuda:0')
+Epoch 404, bias, value: tensor([-0.0541,  0.0244,  0.0085, -0.0112, -0.0033,  0.0068, -0.0144,  0.0340,
+        -0.0228,  0.0119], device='cuda:0'), grad: tensor([-0.0163,  0.0228, -0.0195, -0.0319,  0.0316,  0.0254,  0.0228,  0.0503,
+        -0.0177, -0.0675], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 403, time 224.88, cls_loss 0.4845 cls_loss_mapping 0.0013 cls_loss_causal 0.4312 re_mapping 0.0076 re_causal 0.0188 /// teacc 98.94 lr 0.00001000
+Epoch 405, weight, value: tensor([[-0.2150, -0.0220,  0.0376,  ..., -0.0298, -0.0816, -0.1474],
+        [-0.0645, -0.1126,  0.0353,  ...,  0.0572, -0.0289, -0.0940],
+        [-0.0652, -0.1004, -0.1195,  ...,  0.0438, -0.0390, -0.1163],
+        ...,
+        [-0.0706,  0.0326,  0.0254,  ...,  0.0156, -0.0598, -0.0999],
+        [-0.0864, -0.0053,  0.0157,  ...,  0.0624, -0.0350, -0.1910],
+        [ 0.0650,  0.0712, -0.0519,  ..., -0.1163, -0.0153,  0.1002]],
+       device='cuda:0'), grad: tensor([[ 1.0294e-04,  3.0079e-03,  7.9956e-03,  ...,  9.4376e-03,
+          1.6699e-03,  1.0830e-04],
+        [ 1.4700e-05,  3.4752e-03,  1.2693e-03,  ..., -3.0632e-03,
+          4.7708e-04,  9.7528e-06],
+        [ 3.9315e-04,  5.1689e-04,  1.1339e-03,  ..., -7.5684e-03,
+         -1.0290e-03,  4.2295e-04],
+        ...,
+        [ 5.0038e-05,  4.0579e-04, -4.6997e-03,  ..., -3.9597e-03,
+         -2.8286e-03,  4.5717e-05],
+        [-7.4267e-05,  2.0790e-03,  3.7518e-03,  ...,  5.3902e-03,
+          9.0170e-04,  6.1035e-05],
+        [-5.6863e-05,  4.3726e-04,  1.2646e-03,  ...,  3.3150e-03,
+          5.8031e-04, -2.1875e-05]], device='cuda:0')
+Epoch 405, bias, value: tensor([-0.0540,  0.0245,  0.0085, -0.0113, -0.0032,  0.0068, -0.0144,  0.0340,
+        -0.0229,  0.0119], device='cuda:0'), grad: tensor([ 0.0401, -0.0337, -0.0398, -0.0153,  0.0226, -0.0054, -0.0071, -0.0073,
+         0.0294,  0.0165], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 404, time 225.01, cls_loss 0.4885 cls_loss_mapping 0.0011 cls_loss_causal 0.4280 re_mapping 0.0075 re_causal 0.0199 /// teacc 98.92 lr 0.00001000
+Epoch 406, weight, value: tensor([[-0.2151, -0.0220,  0.0375,  ..., -0.0299, -0.0817, -0.1474],
+        [-0.0644, -0.1126,  0.0353,  ...,  0.0572, -0.0290, -0.0941],
+        [-0.0652, -0.1003, -0.1195,  ...,  0.0439, -0.0391, -0.1163],
+        ...,
+        [-0.0703,  0.0327,  0.0255,  ...,  0.0158, -0.0596, -0.0998],
+        [-0.0865, -0.0054,  0.0157,  ...,  0.0621, -0.0352, -0.1911],
+        [ 0.0649,  0.0711, -0.0517,  ..., -0.1162, -0.0153,  0.1002]],
+       device='cuda:0'), grad: tensor([[ 2.5463e-04,  3.3379e-05,  7.8297e-04,  ...,  1.9484e-03,
+          1.4877e-04,  1.9193e-05],
+        [ 6.2656e-04,  3.7163e-05,  1.6661e-03,  ..., -2.6093e-03,
+          3.6597e-04,  4.8071e-05],
+        [ 3.0327e-04, -3.6860e-04,  1.5182e-03,  ..., -1.9484e-03,
+          1.5616e-04,  2.0593e-05],
+        ...,
+        [-3.2921e-03,  2.4438e-05, -1.6527e-03,  ..., -5.9280e-03,
+         -2.1610e-03, -2.8467e-04],
+        [-1.3161e-04, -1.0386e-03, -1.1597e-02,  ..., -7.7248e-03,
+          2.7990e-04,  3.6806e-05],
+        [ 7.4577e-04,  4.4554e-05,  2.9907e-03,  ...,  3.0766e-03,
+          4.0913e-04,  5.4181e-05]], device='cuda:0')
+Epoch 406, bias, value: tensor([-0.0541,  0.0246,  0.0086, -0.0112, -0.0034,  0.0068, -0.0144,  0.0341,
+        -0.0232,  0.0119], device='cuda:0'), grad: tensor([ 0.0145, -0.0163, -0.0287,  0.0204,  0.0144,  0.0250,  0.0195, -0.0416,
+        -0.0246,  0.0176], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 405, time 225.20, cls_loss 0.4988 cls_loss_mapping 0.0013 cls_loss_causal 0.4418 re_mapping 0.0073 re_causal 0.0188 /// teacc 98.93 lr 0.00001000
+Epoch 407, weight, value: tensor([[-0.2151, -0.0219,  0.0376,  ..., -0.0298, -0.0816, -0.1475],
+        [-0.0643, -0.1126,  0.0352,  ...,  0.0571, -0.0290, -0.0941],
+        [-0.0653, -0.1003, -0.1196,  ...,  0.0437, -0.0391, -0.1164],
+        ...,
+        [-0.0703,  0.0327,  0.0255,  ...,  0.0159, -0.0596, -0.0998],
+        [-0.0864, -0.0053,  0.0158,  ...,  0.0622, -0.0352, -0.1910],
+        [ 0.0650,  0.0711, -0.0517,  ..., -0.1161, -0.0152,  0.1002]],
+       device='cuda:0'), grad: tensor([[ 3.6907e-04, -9.1248e-03, -1.0605e-02,  ..., -2.0599e-02,
+         -1.9257e-02, -6.2561e-04],
+        [-2.4967e-03,  4.4751e-04, -4.1237e-03,  ..., -3.7708e-03,
+          6.8855e-04, -1.9741e-03],
+        [ 1.0175e-04,  1.6747e-03,  3.3417e-03,  ...,  7.6332e-03,
+          4.7188e-03,  1.9920e-04],
+        ...,
+        [ 3.4779e-05,  4.2796e-04,  4.6897e-04,  ...,  2.8706e-03,
+          1.0605e-03,  5.5909e-05],
+        [ 5.1498e-04,  9.8801e-04,  6.0883e-03,  ...,  5.1384e-03,
+          6.9695e-03,  4.7183e-04],
+        [-3.5477e-03,  1.4615e-04, -6.3515e-03,  ..., -5.7030e-03,
+         -3.2768e-03, -3.3684e-03]], device='cuda:0')
+Epoch 407, bias, value: tensor([-0.0541,  0.0246,  0.0085, -0.0113, -0.0033,  0.0068, -0.0144,  0.0342,
+        -0.0232,  0.0120], device='cuda:0'), grad: tensor([-0.0671, -0.0060,  0.0301,  0.0319, -0.0076, -0.0135,  0.0418,  0.0133,
+         0.0218, -0.0448], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 406, time 224.77, cls_loss 0.5280 cls_loss_mapping 0.0011 cls_loss_causal 0.4628 re_mapping 0.0071 re_causal 0.0189 /// teacc 98.89 lr 0.00001000
+Epoch 408, weight, value: tensor([[-0.2152, -0.0220,  0.0376,  ..., -0.0299, -0.0817, -0.1476],
+        [-0.0641, -0.1126,  0.0353,  ...,  0.0572, -0.0291, -0.0941],
+        [-0.0654, -0.1004, -0.1197,  ...,  0.0438, -0.0390, -0.1165],
+        ...,
+        [-0.0702,  0.0328,  0.0255,  ...,  0.0160, -0.0595, -0.0997],
+        [-0.0865, -0.0053,  0.0159,  ...,  0.0622, -0.0352, -0.1909],
+        [ 0.0650,  0.0711, -0.0517,  ..., -0.1162, -0.0153,  0.1001]],
+       device='cuda:0'), grad: tensor([[ 2.1718e-06,  2.6684e-03,  2.0313e-03,  ...,  4.5013e-03,
+          8.5607e-06,  3.4189e-04],
+        [ 1.9986e-06,  5.1880e-03,  9.8441e-07,  ...,  4.0474e-03,
+          1.3316e-04,  5.8556e-04],
+        [ 1.3895e-06,  1.3342e-03,  7.6056e-04,  ..., -2.3605e-02,
+         -2.1477e-03, -9.3002e-03],
+        ...,
+        [-3.8706e-06,  2.2125e-03,  3.3602e-06,  ...,  2.2488e-03,
+          5.4747e-05,  2.4354e-04],
+        [ 3.6135e-06, -4.1733e-03,  1.4246e-04,  ..., -1.1683e-03,
+          6.6087e-06,  6.8963e-05],
+        [-5.8949e-05,  4.6272e-03,  2.1473e-05,  ...,  4.2763e-03,
+          1.6704e-05, -1.3065e-04]], device='cuda:0')
+Epoch 408, bias, value: tensor([-0.0541,  0.0246,  0.0085, -0.0112, -0.0034,  0.0067, -0.0144,  0.0344,
+        -0.0231,  0.0119], device='cuda:0'), grad: tensor([ 3.4515e-02,  3.7720e-02, -3.6835e-02, -9.2850e-03, -4.7302e-03,
+        -4.6082e-02, -1.2199e-02, -4.6110e-04, -4.6313e-05,  3.7384e-02],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 407, time 226.53, cls_loss 0.4742 cls_loss_mapping 0.0011 cls_loss_causal 0.4144 re_mapping 0.0070 re_causal 0.0179 /// teacc 98.89 lr 0.00001000
+Epoch 409, weight, value: tensor([[-0.2152, -0.0221,  0.0377,  ..., -0.0298, -0.0818, -0.1475],
+        [-0.0639, -0.1126,  0.0354,  ...,  0.0572, -0.0290, -0.0941],
+        [-0.0655, -0.1003, -0.1197,  ...,  0.0438, -0.0390, -0.1164],
+        ...,
+        [-0.0702,  0.0327,  0.0256,  ...,  0.0160, -0.0594, -0.0997],
+        [-0.0865, -0.0055,  0.0159,  ...,  0.0622, -0.0351, -0.1910],
+        [ 0.0649,  0.0711, -0.0518,  ..., -0.1161, -0.0155,  0.1002]],
+       device='cuda:0'), grad: tensor([[-6.3889e-06,  2.9993e-04, -2.2411e-05,  ...,  1.2207e-03,
+          8.5682e-08,  9.0063e-05],
+        [-1.7481e-06,  1.0986e-03, -3.0354e-05,  ..., -5.1727e-03,
+          5.4948e-08,  3.8594e-06],
+        [ 1.0723e-04,  1.6298e-03,  1.2171e-04,  ...,  1.6975e-03,
+         -1.0906e-06,  2.3222e-04],
+        ...,
+        [ 9.9599e-05,  8.0919e-04,  5.6416e-05,  ...,  2.8343e-03,
+         -4.6641e-06,  1.2767e-04],
+        [ 2.7359e-05, -9.4757e-03,  4.3601e-05,  ..., -9.3918e-03,
+          1.1455e-07,  9.0778e-05],
+        [-2.2709e-05,  2.8763e-03,  3.5018e-05,  ...,  2.5444e-03,
+          4.7684e-06,  5.9992e-05]], device='cuda:0')
+Epoch 409, bias, value: tensor([-0.0542,  0.0245,  0.0085, -0.0113, -0.0033,  0.0067, -0.0143,  0.0344,
+        -0.0231,  0.0119], device='cuda:0'), grad: tensor([ 0.0091, -0.0420,  0.0126,  0.0090,  0.0134,  0.0116,  0.0106,  0.0196,
+        -0.0610,  0.0172], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 408, time 224.12, cls_loss 0.5056 cls_loss_mapping 0.0010 cls_loss_causal 0.4461 re_mapping 0.0071 re_causal 0.0183 /// teacc 98.95 lr 0.00001000
+Epoch 410, weight, value: tensor([[-0.2151, -0.0220,  0.0378,  ..., -0.0296, -0.0819, -0.1475],
+        [-0.0639, -0.1125,  0.0354,  ...,  0.0572, -0.0289, -0.0942],
+        [-0.0654, -0.1004, -0.1196,  ...,  0.0438, -0.0390, -0.1163],
+        ...,
+        [-0.0702,  0.0328,  0.0255,  ...,  0.0158, -0.0593, -0.0997],
+        [-0.0864, -0.0056,  0.0159,  ...,  0.0622, -0.0350, -0.1910],
+        [ 0.0647,  0.0710, -0.0520,  ..., -0.1161, -0.0155,  0.1001]],
+       device='cuda:0'), grad: tensor([[ 3.1018e-04,  5.4693e-04,  9.7394e-05,  ...,  6.5947e-04,
+          5.1051e-05,  4.2289e-05],
+        [ 7.4059e-06, -7.9041e-03,  5.4693e-04,  ..., -7.7477e-03,
+         -1.7757e-03, -4.5562e-04],
+        [ 7.8857e-05,  4.4212e-03,  2.6560e-04,  ...,  1.0910e-03,
+          9.7692e-05,  9.1910e-05],
+        ...,
+        [ 1.6183e-05,  1.6823e-03,  1.5593e-04,  ...,  7.6723e-04,
+          5.8770e-05,  5.4240e-05],
+        [ 1.7297e-04,  2.1229e-03, -1.9836e-03,  ...,  8.8215e-04,
+          3.0780e-04,  1.5581e-04],
+        [ 1.8597e-05,  4.2915e-03,  1.7023e-04,  ...,  9.6035e-04,
+          9.5904e-05, -4.8071e-05]], device='cuda:0')
+Epoch 410, bias, value: tensor([-0.0541,  0.0245,  0.0085, -0.0113, -0.0031,  0.0067, -0.0144,  0.0343,
+        -0.0231,  0.0118], device='cuda:0'), grad: tensor([ 0.0065, -0.0787,  0.0116,  0.0208, -0.0056,  0.0108,  0.0076,  0.0075,
+         0.0087,  0.0108], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 409, time 226.37, cls_loss 0.4972 cls_loss_mapping 0.0011 cls_loss_causal 0.4349 re_mapping 0.0070 re_causal 0.0181 /// teacc 98.90 lr 0.00001000
+Epoch 411, weight, value: tensor([[-0.2150, -0.0220,  0.0379,  ..., -0.0296, -0.0820, -0.1475],
+        [-0.0640, -0.1126,  0.0352,  ...,  0.0572, -0.0289, -0.0943],
+        [-0.0655, -0.1005, -0.1196,  ...,  0.0438, -0.0390, -0.1164],
+        ...,
+        [-0.0701,  0.0328,  0.0255,  ...,  0.0159, -0.0592, -0.0997],
+        [-0.0862, -0.0056,  0.0159,  ...,  0.0621, -0.0349, -0.1909],
+        [ 0.0644,  0.0712, -0.0521,  ..., -0.1163, -0.0156,  0.1000]],
+       device='cuda:0'), grad: tensor([[ 1.8135e-05,  5.0634e-05, -3.2783e-05,  ...,  6.5231e-04,
+          5.1308e-04,  5.1069e-04],
+        [ 1.8919e-04,  8.2791e-05,  5.3458e-06,  ...,  4.0722e-04,
+          9.9018e-06,  6.0558e-05],
+        [ 1.1516e-04, -9.6989e-04, -1.6809e-05,  ..., -1.8854e-03,
+          3.1605e-03,  3.7994e-03],
+        ...,
+        [-1.4400e-03,  3.1996e-04,  7.2777e-05,  ...,  7.5674e-04,
+          1.7226e-04,  1.8907e-04],
+        [ 3.1829e-05,  1.4246e-04,  2.6509e-05,  ...,  2.9850e-04,
+          1.0592e-04,  1.1301e-04],
+        [ 1.1063e-03,  5.2691e-04, -8.0884e-05,  ...,  6.5851e-04,
+         -5.6915e-03, -3.9558e-03]], device='cuda:0')
+Epoch 411, bias, value: tensor([-0.0541,  0.0245,  0.0084, -0.0113, -0.0031,  0.0069, -0.0145,  0.0344,
+        -0.0232,  0.0116], device='cuda:0'), grad: tensor([ 0.0174, -0.0215,  0.0203, -0.0196, -0.0206,  0.0105,  0.0161,  0.0073,
+         0.0075, -0.0174], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 410, time 223.32, cls_loss 0.5118 cls_loss_mapping 0.0010 cls_loss_causal 0.4490 re_mapping 0.0069 re_causal 0.0180 /// teacc 98.91 lr 0.00001000
+Epoch 412, weight, value: tensor([[-0.2150, -0.0220,  0.0379,  ..., -0.0295, -0.0820, -0.1474],
+        [-0.0640, -0.1127,  0.0353,  ...,  0.0572, -0.0288, -0.0943],
+        [-0.0654, -0.1004, -0.1197,  ...,  0.0438, -0.0391, -0.1165],
+        ...,
+        [-0.0701,  0.0328,  0.0254,  ...,  0.0158, -0.0593, -0.0996],
+        [-0.0863, -0.0057,  0.0161,  ...,  0.0621, -0.0349, -0.1910],
+        [ 0.0646,  0.0711, -0.0521,  ..., -0.1162, -0.0154,  0.1001]],
+       device='cuda:0'), grad: tensor([[ 2.9731e-04,  8.2016e-05, -1.7602e-07,  ..., -5.6725e-03,
+          0.0000e+00,  1.2541e-04],
+        [ 2.2147e-06,  1.1283e-04,  7.4040e-08,  ...,  1.6050e-03,
+          0.0000e+00,  2.8229e-04],
+        [ 1.2398e-04, -8.3590e-04,  4.2794e-07,  ...,  6.7472e-04,
+          6.0163e-07,  8.1730e-04],
+        ...,
+        [ 5.3644e-06,  9.2108e-07,  3.2689e-07,  ..., -3.3989e-03,
+          8.8476e-09, -4.1580e-03],
+        [-2.5959e-03,  4.4912e-05, -1.2934e-05,  ...,  5.8699e-04,
+          3.8650e-07,  1.5724e-04],
+        [ 2.1696e-05,  1.5342e-04,  1.0155e-05,  ...,  2.5806e-03,
+          1.8207e-07,  1.9293e-03]], device='cuda:0')
+Epoch 412, bias, value: tensor([-0.0541,  0.0245,  0.0082, -0.0113, -0.0029,  0.0070, -0.0145,  0.0344,
+        -0.0231,  0.0116], device='cuda:0'), grad: tensor([-0.0146,  0.0075, -0.0049, -0.0133,  0.0056,  0.0137,  0.0050, -0.0057,
+        -0.0021,  0.0089], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 411, time 224.71, cls_loss 0.4856 cls_loss_mapping 0.0010 cls_loss_causal 0.4196 re_mapping 0.0071 re_causal 0.0181 /// teacc 98.94 lr 0.00001000
+Epoch 413, weight, value: tensor([[-0.2152, -0.0220,  0.0378,  ..., -0.0295, -0.0819, -0.1475],
+        [-0.0641, -0.1126,  0.0351,  ...,  0.0572, -0.0288, -0.0942],
+        [-0.0655, -0.1005, -0.1198,  ...,  0.0437, -0.0391, -0.1166],
+        ...,
+        [-0.0701,  0.0328,  0.0255,  ...,  0.0157, -0.0593, -0.0996],
+        [-0.0862, -0.0057,  0.0161,  ...,  0.0623, -0.0349, -0.1911],
+        [ 0.0646,  0.0712, -0.0522,  ..., -0.1162, -0.0154,  0.1001]],
+       device='cuda:0'), grad: tensor([[ 4.1164e-07,  6.9904e-04,  1.1444e-03,  ...,  1.2951e-03,
+          5.4436e-03,  4.7803e-05],
+        [ 6.7521e-07, -1.0424e-03, -2.3403e-03,  ..., -5.2071e-03,
+          9.9850e-04,  5.8800e-05],
+        [ 6.2399e-07,  3.6478e-04,  4.1604e-04,  ...,  1.0567e-03,
+          2.2640e-03,  4.6730e-05],
+        ...,
+        [ 5.4240e-06,  8.8596e-04,  2.4164e-04,  ..., -2.9049e-03,
+          8.6784e-04,  8.0919e-04],
+        [ 7.2047e-06, -1.2207e-03, -8.6367e-05,  ..., -2.9964e-03,
+          2.5158e-03, -9.3794e-04],
+        [-2.8998e-05, -8.9844e-02,  1.6975e-04,  ...,  2.3727e-03,
+          2.7657e-03, -2.6474e-02]], device='cuda:0')
+Epoch 413, bias, value: tensor([-0.0540,  0.0245,  0.0082, -0.0114, -0.0028,  0.0070, -0.0146,  0.0344,
+        -0.0230,  0.0115], device='cuda:0'), grad: tensor([ 0.0153, -0.0199,  0.0088,  0.0099,  0.0151, -0.0214,  0.0186, -0.0016,
+        -0.0171, -0.0077], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 412, time 225.56, cls_loss 0.4698 cls_loss_mapping 0.0008 cls_loss_causal 0.4051 re_mapping 0.0069 re_causal 0.0176 /// teacc 98.94 lr 0.00001000
+Epoch 414, weight, value: tensor([[-0.2152, -0.0218,  0.0379,  ..., -0.0293, -0.0819, -0.1474],
+        [-0.0639, -0.1128,  0.0352,  ...,  0.0571, -0.0288, -0.0941],
+        [-0.0656, -0.1005, -0.1198,  ...,  0.0437, -0.0390, -0.1166],
+        ...,
+        [-0.0702,  0.0327,  0.0253,  ...,  0.0156, -0.0592, -0.0997],
+        [-0.0864, -0.0058,  0.0161,  ...,  0.0623, -0.0348, -0.1911],
+        [ 0.0648,  0.0712, -0.0522,  ..., -0.1162, -0.0155,  0.1001]],
+       device='cuda:0'), grad: tensor([[ 1.1373e-04, -8.3113e-04,  3.0088e-04,  ...,  1.5783e-03,
+         -7.6294e-04, -1.2135e-06],
+        [ 6.8426e-05,  8.1599e-05,  6.3515e-04,  ..., -5.3139e-03,
+          2.1076e-04,  2.2799e-05],
+        [-5.4502e-04,  1.0151e-04,  3.0494e-04,  ..., -2.4757e-03,
+          1.2636e-04,  1.9893e-05],
+        ...,
+        [ 2.0468e-04, -6.9962e-03,  1.0548e-03,  ..., -5.7297e-03,
+          3.7217e-04, -3.3455e-03],
+        [ 1.2279e-04, -1.9455e-03,  4.0197e-04,  ...,  1.2608e-03,
+          3.4451e-05,  1.7798e-04],
+        [ 3.1877e-04,  2.0180e-03,  1.3742e-03,  ...,  4.3068e-03,
+          9.3889e-04,  1.3649e-04]], device='cuda:0')
+Epoch 414, bias, value: tensor([-0.0538,  0.0245,  0.0081, -0.0114, -0.0028,  0.0070, -0.0147,  0.0343,
+        -0.0230,  0.0116], device='cuda:0'), grad: tensor([ 0.0071, -0.0181, -0.0255,  0.0031, -0.0203,  0.0170,  0.0119, -0.0072,
+         0.0114,  0.0204], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 413, time 224.64, cls_loss 0.4811 cls_loss_mapping 0.0009 cls_loss_causal 0.4239 re_mapping 0.0070 re_causal 0.0181 /// teacc 98.98 lr 0.00001000
+Epoch 415, weight, value: tensor([[-0.2153, -0.0219,  0.0378,  ..., -0.0294, -0.0816, -0.1475],
+        [-0.0639, -0.1127,  0.0352,  ...,  0.0571, -0.0289, -0.0941],
+        [-0.0657, -0.1006, -0.1198,  ...,  0.0437, -0.0388, -0.1166],
+        ...,
+        [-0.0703,  0.0328,  0.0254,  ...,  0.0157, -0.0593, -0.0998],
+        [-0.0863, -0.0059,  0.0162,  ...,  0.0622, -0.0350, -0.1912],
+        [ 0.0647,  0.0712, -0.0523,  ..., -0.1161, -0.0155,  0.1002]],
+       device='cuda:0'), grad: tensor([[ 5.4911e-06,  1.7434e-05, -2.1291e-04,  ..., -9.2316e-03,
+         -1.5823e-02,  9.6858e-06],
+        [ 1.0997e-05,  2.0698e-05, -5.4270e-05,  ...,  2.1763e-03,
+          1.3876e-04,  6.8434e-06],
+        [ 2.7657e-04,  2.2945e-03,  3.4714e-04,  ...,  6.8893e-03,
+          9.8419e-04,  3.6602e-03],
+        ...,
+        [ 1.8492e-05,  4.0770e-05,  8.0466e-05,  ...,  2.9755e-03,
+          6.5422e-04,  1.7788e-06],
+        [ 5.9357e-03,  9.4452e-03,  5.2299e-03,  ...,  9.9869e-03,
+          2.3804e-03,  6.1035e-05],
+        [ 1.6856e-04,  5.4789e-04,  7.1764e-04,  ..., -1.1301e-04,
+          8.0347e-04,  3.7663e-06]], device='cuda:0')
+Epoch 415, bias, value: tensor([-0.0537,  0.0245,  0.0082, -0.0115, -0.0028,  0.0070, -0.0148,  0.0344,
+        -0.0231,  0.0116], device='cuda:0'), grad: tensor([-0.0751,  0.0160,  0.0384,  0.0028, -0.0116, -0.0381,  0.0185,  0.0188,
+         0.0428, -0.0125], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 414, time 225.58, cls_loss 0.4889 cls_loss_mapping 0.0009 cls_loss_causal 0.4330 re_mapping 0.0069 re_causal 0.0182 /// teacc 98.96 lr 0.00001000
+Epoch 416, weight, value: tensor([[-0.2153, -0.0219,  0.0379,  ..., -0.0293, -0.0816, -0.1473],
+        [-0.0640, -0.1128,  0.0351,  ...,  0.0571, -0.0289, -0.0942],
+        [-0.0657, -0.1007, -0.1199,  ...,  0.0435, -0.0389, -0.1168],
+        ...,
+        [-0.0703,  0.0328,  0.0254,  ...,  0.0159, -0.0593, -0.0998],
+        [-0.0863, -0.0059,  0.0163,  ...,  0.0621, -0.0350, -0.1913],
+        [ 0.0648,  0.0714, -0.0523,  ..., -0.1162, -0.0156,  0.1003]],
+       device='cuda:0'), grad: tensor([[-1.5192e-03,  5.7335e-03, -3.3970e-03,  ..., -9.7961e-03,
+         -5.5850e-05, -3.3264e-03],
+        [ 1.1623e-06,  6.1607e-04, -1.0217e-06,  ..., -2.8114e-03,
+          3.2037e-05,  1.3185e-04],
+        [ 1.2793e-05,  2.4014e-03,  2.4512e-05,  ...,  2.4891e-03,
+          7.3910e-05,  8.6784e-05],
+        ...,
+        [ 3.4440e-06,  7.9203e-04,  1.0230e-05,  ...,  1.8902e-03,
+          6.6578e-05,  6.8665e-05],
+        [ 9.3102e-05,  2.2049e-03,  1.6427e-04,  ...,  2.6474e-03,
+          4.4632e-04,  5.7936e-04],
+        [ 5.9485e-05,  4.8518e-04,  1.4460e-04,  ...,  1.1015e-03,
+          1.0085e-04,  2.0123e-04]], device='cuda:0')
+Epoch 416, bias, value: tensor([-0.0536,  0.0244,  0.0080, -0.0114, -0.0027,  0.0070, -0.0148,  0.0345,
+        -0.0231,  0.0115], device='cuda:0'), grad: tensor([-0.0414, -0.0211,  0.0151, -0.0047, -0.0079, -0.0026,  0.0228,  0.0120,
+         0.0187,  0.0091], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 415, time 225.34, cls_loss 0.4976 cls_loss_mapping 0.0010 cls_loss_causal 0.4237 re_mapping 0.0068 re_causal 0.0176 /// teacc 98.93 lr 0.00001000
+Epoch 417, weight, value: tensor([[-0.2155, -0.0217,  0.0377,  ..., -0.0294, -0.0816, -0.1474],
+        [-0.0640, -0.1127,  0.0354,  ...,  0.0573, -0.0289, -0.0942],
+        [-0.0656, -0.1008, -0.1199,  ...,  0.0434, -0.0388, -0.1168],
+        ...,
+        [-0.0703,  0.0328,  0.0253,  ...,  0.0159, -0.0594, -0.0997],
+        [-0.0865, -0.0058,  0.0163,  ...,  0.0620, -0.0351, -0.1913],
+        [ 0.0648,  0.0711, -0.0523,  ..., -0.1164, -0.0154,  0.1002]],
+       device='cuda:0'), grad: tensor([[ 3.3531e-03,  6.2656e-04,  2.8515e-03,  ...,  6.8741e-03,
+          7.1302e-06,  1.8206e-03],
+        [-4.2725e-03,  5.9357e-03, -4.0627e-03,  ..., -4.7207e-04,
+          1.1957e-04,  2.3746e-03],
+        [ 1.9014e-04,  3.9940e-03,  6.7091e-04,  ..., -6.4468e-04,
+          7.2122e-05,  1.7662e-03],
+        ...,
+        [ 2.3222e-04, -1.0979e-02, -3.5973e-03,  ..., -4.7302e-03,
+         -2.4009e-04, -4.1046e-03],
+        [ 5.2643e-04, -1.4448e-03,  4.1270e-04,  ..., -3.7937e-03,
+          2.3425e-04, -1.0986e-03],
+        [ 2.5916e-04,  3.3951e-03,  4.7779e-04,  ..., -4.1366e-04,
+          2.7940e-05,  1.1187e-03]], device='cuda:0')
+Epoch 417, bias, value: tensor([-0.0537,  0.0246,  0.0080, -0.0113, -0.0028,  0.0069, -0.0148,  0.0346,
+        -0.0231,  0.0114], device='cuda:0'), grad: tensor([ 0.0349,  0.0205, -0.0043,  0.0053,  0.0169, -0.0312, -0.0032, -0.0238,
+        -0.0098, -0.0054], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 416, time 225.93, cls_loss 0.5019 cls_loss_mapping 0.0009 cls_loss_causal 0.4466 re_mapping 0.0068 re_causal 0.0180 /// teacc 98.95 lr 0.00001000
+Epoch 418, weight, value: tensor([[-0.2156, -0.0216,  0.0378,  ..., -0.0296, -0.0817, -0.1473],
+        [-0.0640, -0.1126,  0.0354,  ...,  0.0574, -0.0288, -0.0942],
+        [-0.0655, -0.1010, -0.1200,  ...,  0.0434, -0.0388, -0.1169],
+        ...,
+        [-0.0703,  0.0330,  0.0254,  ...,  0.0160, -0.0593, -0.0996],
+        [-0.0866, -0.0059,  0.0164,  ...,  0.0620, -0.0352, -0.1913],
+        [ 0.0649,  0.0710, -0.0523,  ..., -0.1163, -0.0154,  0.1003]],
+       device='cuda:0'), grad: tensor([[ 3.3736e-05,  4.9019e-04,  9.7036e-04,  ...,  9.4318e-04,
+          1.6391e-05,  2.1911e-04],
+        [ 6.1798e-04, -3.1662e-03,  1.5249e-03,  ..., -1.8349e-03,
+          1.0133e-05,  1.9360e-04],
+        [ 9.4533e-05, -3.8128e-03,  1.4820e-03,  ..., -3.6449e-03,
+         -1.1492e-03, -4.2343e-03],
+        ...,
+        [-4.5896e-04,  5.3310e-04,  4.2486e-04,  ...,  2.3060e-03,
+          4.2534e-04,  5.8174e-04],
+        [ 1.0598e-04,  1.7571e-04, -4.9973e-03,  ..., -5.8365e-03,
+          5.4449e-05,  3.8171e-04],
+        [-7.9441e-04,  6.6423e-04,  1.2455e-03,  ..., -2.6264e-03,
+         -2.0707e-04, -2.3890e-04]], device='cuda:0')
+Epoch 418, bias, value: tensor([-0.0538,  0.0246,  0.0079, -0.0114, -0.0027,  0.0070, -0.0149,  0.0347,
+        -0.0231,  0.0114], device='cuda:0'), grad: tensor([-0.0181, -0.0071, -0.0089,  0.0071,  0.0059,  0.0177,  0.0153,  0.0117,
+        -0.0055, -0.0179], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 417, time 226.81, cls_loss 0.5305 cls_loss_mapping 0.0009 cls_loss_causal 0.4673 re_mapping 0.0070 re_causal 0.0184 /// teacc 98.95 lr 0.00001000
+Epoch 419, weight, value: tensor([[-0.2156, -0.0217,  0.0378,  ..., -0.0296, -0.0817, -0.1473],
+        [-0.0638, -0.1126,  0.0352,  ...,  0.0573, -0.0289, -0.0942],
+        [-0.0657, -0.1010, -0.1202,  ...,  0.0432, -0.0388, -0.1170],
+        ...,
+        [-0.0703,  0.0332,  0.0255,  ...,  0.0160, -0.0593, -0.0996],
+        [-0.0866, -0.0060,  0.0165,  ...,  0.0621, -0.0351, -0.1913],
+        [ 0.0649,  0.0708, -0.0522,  ..., -0.1164, -0.0155,  0.1003]],
+       device='cuda:0'), grad: tensor([[ 6.4354e-07, -5.8599e-06,  1.5295e-04,  ...,  1.6127e-03,
+          0.0000e+00, -1.1243e-05],
+        [ 2.1458e-06, -1.2798e-03,  9.6321e-05,  ...,  2.0905e-03,
+          0.0000e+00,  4.0373e-07],
+        [ 6.0117e-07,  6.1607e-04,  2.7657e-04,  ..., -5.5008e-03,
+          0.0000e+00,  4.4927e-06],
+        ...,
+        [ 4.4703e-08,  6.4325e-04,  3.5834e-04,  ...,  2.6207e-03,
+          0.0000e+00,  7.4446e-05],
+        [-5.6535e-05,  3.4189e-04,  1.8299e-04,  ...,  1.7481e-03,
+          0.0000e+00,  2.2590e-05],
+        [ 1.0505e-06,  2.8381e-03, -1.6289e-03,  ..., -5.1918e-03,
+          0.0000e+00, -9.6560e-05]], device='cuda:0')
+Epoch 419, bias, value: tensor([-0.0539,  0.0245,  0.0078, -0.0114, -0.0025,  0.0069, -0.0149,  0.0347,
+        -0.0229,  0.0113], device='cuda:0'), grad: tensor([ 0.0116,  0.0077, -0.0435,  0.0341,  0.0080,  0.0163, -0.0179,  0.0173,
+        -0.0178, -0.0159], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 418, time 226.05, cls_loss 0.5017 cls_loss_mapping 0.0011 cls_loss_causal 0.4343 re_mapping 0.0067 re_causal 0.0174 /// teacc 98.97 lr 0.00001000
+Epoch 420, weight, value: tensor([[-0.2157, -0.0217,  0.0377,  ..., -0.0296, -0.0817, -0.1473],
+        [-0.0638, -0.1125,  0.0350,  ...,  0.0573, -0.0289, -0.0942],
+        [-0.0658, -0.1010, -0.1202,  ...,  0.0432, -0.0389, -0.1170],
+        ...,
+        [-0.0702,  0.0332,  0.0255,  ...,  0.0160, -0.0593, -0.0996],
+        [-0.0867, -0.0059,  0.0164,  ...,  0.0621, -0.0351, -0.1913],
+        [ 0.0650,  0.0707, -0.0521,  ..., -0.1163, -0.0155,  0.1004]],
+       device='cuda:0'), grad: tensor([[ 4.3273e-05, -8.7662e-03,  7.7903e-05,  ..., -6.7091e-04,
+          8.0156e-04,  3.4392e-05],
+        [ 1.2405e-06,  1.9097e-04,  6.4254e-05,  ...,  1.1368e-03,
+          9.5272e-04,  3.5949e-07],
+        [ 1.0237e-05,  3.2616e-04,  6.7413e-05,  ..., -2.8324e-03,
+          9.1600e-04,  2.8405e-06],
+        ...,
+        [ 1.6146e-03,  3.5801e-03,  1.1873e-04,  ...,  2.0561e-03,
+          1.6260e-03,  3.6240e-04],
+        [ 2.1782e-03,  7.4911e-04,  1.1140e-04,  ...,  2.2659e-03,
+          1.3914e-03,  5.0497e-04],
+        [ 6.5684e-05,  3.1147e-03,  2.8014e-04,  ...,  2.0390e-03,
+          3.7785e-03,  1.4007e-05]], device='cuda:0')
+Epoch 420, bias, value: tensor([-0.0538,  0.0245,  0.0078, -0.0114, -0.0024,  0.0068, -0.0151,  0.0347,
+        -0.0229,  0.0114], device='cuda:0'), grad: tensor([-0.0375, -0.0072, -0.0131, -0.0081, -0.0395, -0.0126,  0.0204,  0.0357,
+         0.0269,  0.0350], device='cuda:0')
+100
+1e-05
+changing lr
+---------------------saving model at epoch 419----------------------------------------------------
+epoch 419, time 225.51, cls_loss 0.4652 cls_loss_mapping 0.0009 cls_loss_causal 0.4090 re_mapping 0.0069 re_causal 0.0177 /// teacc 99.02 lr 0.00001000
+Epoch 421, weight, value: tensor([[-0.2157, -0.0217,  0.0377,  ..., -0.0295, -0.0818, -0.1473],
+        [-0.0638, -0.1125,  0.0351,  ...,  0.0571, -0.0289, -0.0943],
+        [-0.0660, -0.1010, -0.1202,  ...,  0.0433, -0.0388, -0.1171],
+        ...,
+        [-0.0703,  0.0332,  0.0254,  ...,  0.0159, -0.0594, -0.0996],
+        [-0.0866, -0.0059,  0.0164,  ...,  0.0621, -0.0351, -0.1914],
+        [ 0.0650,  0.0707, -0.0521,  ..., -0.1164, -0.0155,  0.1005]],
+       device='cuda:0'), grad: tensor([[ 3.9101e-04,  1.3053e-04,  3.2902e-04,  ...,  1.3657e-03,
+          1.8686e-05,  2.6846e-04],
+        [ 1.5950e-04,  2.5094e-05,  1.0145e-04,  ...,  1.2045e-03,
+          5.1588e-05,  9.1672e-05],
+        [-4.1733e-03, -1.0757e-03, -3.6888e-03,  ..., -1.2283e-03,
+          2.9907e-05,  8.4400e-04],
+        ...,
+        [ 1.5039e-03,  2.4929e-03,  1.1511e-03,  ..., -5.2223e-03,
+          3.1948e-04,  1.5059e-03],
+        [ 1.1981e-04,  4.3130e-04,  8.2612e-05,  ...,  1.8492e-03,
+          1.5423e-05,  8.5735e-04],
+        [-1.5297e-03,  3.3140e-04, -9.3842e-04,  ...,  4.9686e-04,
+         -6.2513e-04, -4.8399e-04]], device='cuda:0')
+Epoch 421, bias, value: tensor([-0.0537,  0.0244,  0.0078, -0.0113, -0.0023,  0.0068, -0.0150,  0.0347,
+        -0.0229,  0.0114], device='cuda:0'), grad: tensor([ 0.0079,  0.0063, -0.0077,  0.0169,  0.0141, -0.0202,  0.0051, -0.0375,
+         0.0099,  0.0052], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 420, time 228.01, cls_loss 0.5011 cls_loss_mapping 0.0009 cls_loss_causal 0.4315 re_mapping 0.0066 re_causal 0.0179 /// teacc 99.02 lr 0.00001000
+Epoch 422, weight, value: tensor([[-0.2156, -0.0216,  0.0379,  ..., -0.0294, -0.0818, -0.1474],
+        [-0.0638, -0.1126,  0.0350,  ...,  0.0572, -0.0289, -0.0944],
+        [-0.0659, -0.1010, -0.1201,  ...,  0.0433, -0.0386, -0.1169],
+        ...,
+        [-0.0703,  0.0334,  0.0255,  ...,  0.0158, -0.0592, -0.0995],
+        [-0.0867, -0.0059,  0.0162,  ...,  0.0620, -0.0351, -0.1916],
+        [ 0.0651,  0.0706, -0.0520,  ..., -0.1163, -0.0154,  0.1005]],
+       device='cuda:0'), grad: tensor([[ 7.4916e-06,  4.5991e-04,  3.7737e-06,  ...,  8.6451e-04,
+          9.4831e-05,  2.9206e-06],
+        [ 1.4836e-06, -3.0136e-03, -2.0146e-05,  ..., -8.1406e-03,
+          8.7470e-06, -1.4133e-03],
+        [-1.5688e-04,  1.3161e-03, -6.4850e-05,  ...,  6.4011e-03,
+         -3.1948e-04,  2.4354e-04],
+        ...,
+        [ 8.2552e-05, -2.1782e-03,  5.0128e-05,  ..., -1.3618e-03,
+          5.0545e-04,  5.3972e-05],
+        [ 5.0157e-05,  1.9222e-05,  5.9679e-06,  ...,  1.4706e-03,
+          2.1684e-04,  9.2089e-05],
+        [-3.5405e-05, -2.1458e-03,  3.9153e-06,  ..., -3.2463e-03,
+         -6.2752e-04,  1.9145e-04]], device='cuda:0')
+Epoch 422, bias, value: tensor([-0.0537,  0.0245,  0.0079, -0.0115, -0.0024,  0.0068, -0.0151,  0.0348,
+        -0.0230,  0.0114], device='cuda:0'), grad: tensor([ 0.0075, -0.0233,  0.0311, -0.0112,  0.0117,  0.0079,  0.0065, -0.0176,
+        -0.0172,  0.0048], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 421, time 226.47, cls_loss 0.5107 cls_loss_mapping 0.0011 cls_loss_causal 0.4435 re_mapping 0.0067 re_causal 0.0176 /// teacc 98.96 lr 0.00001000
+Epoch 423, weight, value: tensor([[-0.2155, -0.0216,  0.0378,  ..., -0.0293, -0.0819, -0.1472],
+        [-0.0638, -0.1125,  0.0348,  ...,  0.0570, -0.0291, -0.0943],
+        [-0.0660, -0.1011, -0.1202,  ...,  0.0432, -0.0387, -0.1170],
+        ...,
+        [-0.0702,  0.0335,  0.0256,  ...,  0.0159, -0.0592, -0.0994],
+        [-0.0867, -0.0058,  0.0163,  ...,  0.0621, -0.0351, -0.1916],
+        [ 0.0651,  0.0704, -0.0520,  ..., -0.1162, -0.0153,  0.1003]],
+       device='cuda:0'), grad: tensor([[ 6.7174e-05,  1.0624e-03,  4.0674e-04,  ...,  2.0485e-03,
+          7.3850e-05,  2.3305e-04],
+        [-1.1873e-03, -2.5444e-03, -3.0088e-04,  ..., -2.1362e-03,
+          4.0698e-04,  5.1737e-05],
+        [ 1.0639e-04,  1.6966e-03,  1.1480e-04,  ...,  2.1515e-03,
+          2.3258e-04,  1.0794e-04],
+        ...,
+        [ 1.0842e-04, -3.2806e-03, -3.4599e-03,  ..., -8.7814e-03,
+          1.2159e-04, -2.1667e-03],
+        [ 1.4353e-04, -6.5384e-03,  8.2588e-04,  ...,  2.0390e-03,
+          8.0156e-04,  4.7922e-04],
+        [-2.5973e-05, -1.3504e-03,  8.8310e-04,  ...,  3.9749e-03,
+          3.3307e-04,  4.1842e-04]], device='cuda:0')
+Epoch 423, bias, value: tensor([-0.0537,  0.0245,  0.0078, -0.0115, -0.0025,  0.0068, -0.0151,  0.0348,
+        -0.0229,  0.0114], device='cuda:0'), grad: tensor([ 0.0152, -0.0070,  0.0164,  0.0248, -0.0041,  0.0168, -0.0098, -0.0845,
+         0.0120,  0.0202], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 422, time 227.75, cls_loss 0.4815 cls_loss_mapping 0.0011 cls_loss_causal 0.4223 re_mapping 0.0064 re_causal 0.0169 /// teacc 98.94 lr 0.00001000
+Epoch 424, weight, value: tensor([[-0.2155, -0.0217,  0.0378,  ..., -0.0293, -0.0820, -0.1472],
+        [-0.0638, -0.1124,  0.0349,  ...,  0.0572, -0.0290, -0.0944],
+        [-0.0660, -0.1011, -0.1203,  ...,  0.0432, -0.0388, -0.1170],
+        ...,
+        [-0.0700,  0.0337,  0.0256,  ...,  0.0159, -0.0593, -0.0994],
+        [-0.0868, -0.0058,  0.0165,  ...,  0.0620, -0.0352, -0.1916],
+        [ 0.0650,  0.0704, -0.0521,  ..., -0.1161, -0.0153,  0.1004]],
+       device='cuda:0'), grad: tensor([[ 2.7227e-04,  2.6989e-04,  6.6519e-04,  ..., -3.0079e-03,
+         -1.4515e-03,  5.2363e-05],
+        [-5.7667e-05,  5.4359e-04,  9.9564e-04,  ...,  2.6245e-03,
+          1.4973e-03,  5.9307e-06],
+        [ 1.9646e-04,  1.2946e-04, -5.9853e-03,  ..., -5.2071e-03,
+         -4.2152e-03,  7.6890e-05],
+        ...,
+        [ 1.3113e-04,  5.0354e-04,  9.0122e-04,  ...,  2.6703e-03,
+         -5.3787e-04,  2.4870e-05],
+        [ 3.0518e-03,  3.1352e-04,  1.9302e-03,  ...,  2.8801e-03,
+          1.1082e-03,  4.5547e-03],
+        [-1.0099e-03,  3.2425e-04,  4.0269e-04,  ...,  1.5688e-03,
+          7.2956e-04, -1.6963e-04]], device='cuda:0')
+Epoch 424, bias, value: tensor([-0.0538,  0.0246,  0.0078, -0.0115, -0.0024,  0.0069, -0.0151,  0.0348,
+        -0.0229,  0.0114], device='cuda:0'), grad: tensor([-0.0163,  0.0251, -0.0429,  0.0021, -0.0038,  0.0223, -0.0271, -0.0052,
+         0.0333,  0.0124], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 423, time 229.97, cls_loss 0.4705 cls_loss_mapping 0.0009 cls_loss_causal 0.4149 re_mapping 0.0066 re_causal 0.0170 /// teacc 98.93 lr 0.00001000
+Epoch 425, weight, value: tensor([[-0.2155, -0.0215,  0.0378,  ..., -0.0294, -0.0818, -0.1471],
+        [-0.0637, -0.1125,  0.0348,  ...,  0.0572, -0.0290, -0.0944],
+        [-0.0660, -0.1010, -0.1203,  ...,  0.0432, -0.0388, -0.1170],
+        ...,
+        [-0.0700,  0.0337,  0.0257,  ...,  0.0161, -0.0593, -0.0994],
+        [-0.0868, -0.0058,  0.0167,  ...,  0.0620, -0.0352, -0.1914],
+        [ 0.0651,  0.0703, -0.0522,  ..., -0.1161, -0.0153,  0.1004]],
+       device='cuda:0'), grad: tensor([[ 7.1955e-04,  9.2793e-04,  4.0932e-03,  ...,  5.3902e-03,
+          4.4136e-03,  5.1290e-05],
+        [ 2.4223e-04,  2.0466e-03,  1.3800e-03,  ...,  1.1368e-02,
+          3.5439e-03,  5.1886e-05],
+        [-3.1090e-03,  7.0953e-04,  1.5068e-03,  ..., -6.0940e-04,
+         -4.6310e-03,  1.0424e-03],
+        ...,
+        [-2.2519e-04,  9.6369e-04,  2.6779e-03,  ...,  5.4703e-03,
+          8.7128e-03,  4.5419e-05],
+        [ 1.9398e-03,  8.2922e-04,  3.0136e-03,  ...,  4.7455e-03,
+         -1.2039e-02,  8.9884e-05],
+        [ 1.9073e-03, -8.4019e-04,  3.5934e-03,  ...,  7.5073e-03,
+          1.2253e-02,  1.0777e-04]], device='cuda:0')
+Epoch 425, bias, value: tensor([-0.0537,  0.0246,  0.0079, -0.0116, -0.0024,  0.0069, -0.0152,  0.0347,
+        -0.0228,  0.0114], device='cuda:0'), grad: tensor([ 0.0252,  0.0309,  0.0039,  0.0282, -0.0210, -0.0311, -0.0446,  0.0038,
+        -0.0269,  0.0316], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 424, time 226.96, cls_loss 0.4658 cls_loss_mapping 0.0008 cls_loss_causal 0.4074 re_mapping 0.0067 re_causal 0.0170 /// teacc 98.91 lr 0.00001000
+Epoch 426, weight, value: tensor([[-0.2155, -0.0215,  0.0378,  ..., -0.0294, -0.0818, -0.1472],
+        [-0.0638, -0.1124,  0.0347,  ...,  0.0572, -0.0292, -0.0944],
+        [-0.0661, -0.1009, -0.1205,  ...,  0.0432, -0.0389, -0.1170],
+        ...,
+        [-0.0700,  0.0335,  0.0255,  ...,  0.0160, -0.0593, -0.0994],
+        [-0.0869, -0.0059,  0.0166,  ...,  0.0619, -0.0352, -0.1916],
+        [ 0.0653,  0.0704, -0.0519,  ..., -0.1160, -0.0153,  0.1004]],
+       device='cuda:0'), grad: tensor([[ 1.0459e-06,  4.9800e-05,  1.1778e-04,  ...,  1.3332e-03,
+          5.8681e-05,  1.3597e-05],
+        [ 8.2478e-06,  1.2350e-04,  1.6689e-03,  ...,  4.3678e-03,
+          6.2704e-04,  2.5257e-05],
+        [ 2.2762e-06,  7.5006e-04,  1.6499e-03,  ...,  5.3749e-03,
+          7.4911e-04,  7.0632e-05],
+        ...,
+        [ 2.0072e-05,  1.1070e-02,  1.6747e-03,  ...,  1.9501e-02,
+          2.8954e-03,  9.8884e-05],
+        [ 1.0580e-05,  9.6703e-04,  5.0926e-04,  ..., -5.4016e-03,
+          3.1948e-04,  1.7178e-04],
+        [-8.3447e-05,  1.8253e-03,  3.4356e-04,  ...,  5.9929e-03,
+          4.2677e-04,  1.3936e-04]], device='cuda:0')
+Epoch 426, bias, value: tensor([-0.0537,  0.0245,  0.0079, -0.0115, -0.0024,  0.0068, -0.0152,  0.0347,
+        -0.0229,  0.0115], device='cuda:0'), grad: tensor([ 0.0058,  0.0179,  0.0213,  0.0092, -0.0613, -0.0144,  0.0085,  0.0003,
+        -0.0006,  0.0134], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 425, time 226.69, cls_loss 0.4713 cls_loss_mapping 0.0010 cls_loss_causal 0.4064 re_mapping 0.0064 re_causal 0.0167 /// teacc 98.93 lr 0.00001000
+Epoch 427, weight, value: tensor([[-0.2155, -0.0213,  0.0380,  ..., -0.0292, -0.0816, -0.1473],
+        [-0.0639, -0.1123,  0.0348,  ...,  0.0572, -0.0291, -0.0944],
+        [-0.0660, -0.1010, -0.1204,  ...,  0.0431, -0.0390, -0.1171],
+        ...,
+        [-0.0699,  0.0335,  0.0256,  ...,  0.0159, -0.0591, -0.0994],
+        [-0.0870, -0.0058,  0.0165,  ...,  0.0621, -0.0353, -0.1917],
+        [ 0.0654,  0.0703, -0.0520,  ..., -0.1161, -0.0154,  0.1004]],
+       device='cuda:0'), grad: tensor([[-1.4031e-04,  4.7296e-05,  2.9278e-03,  ..., -8.4019e-04,
+          3.8862e-04, -2.1130e-05],
+        [ 2.8521e-05,  3.9428e-05, -1.1452e-02,  ..., -9.3994e-03,
+         -6.7425e-04,  4.3362e-06],
+        [-9.0885e-04,  1.4381e-03, -2.6122e-05,  ..., -4.3144e-03,
+          3.3355e-04,  6.5975e-06],
+        ...,
+        [ 1.7390e-05,  1.0471e-03,  5.3596e-03,  ...,  5.3673e-03,
+          5.0049e-03,  8.6948e-06],
+        [ 9.3889e-04,  6.0940e-04, -6.3744e-03,  ..., -3.6869e-03,
+         -9.1400e-03,  3.6061e-05],
+        [ 7.3969e-05,  2.4843e-04,  1.7519e-03,  ...,  2.3575e-03,
+          7.8201e-04,  3.3174e-06]], device='cuda:0')
+Epoch 427, bias, value: tensor([-0.0535,  0.0246,  0.0078, -0.0116, -0.0024,  0.0069, -0.0153,  0.0346,
+        -0.0228,  0.0114], device='cuda:0'), grad: tensor([-0.0134, -0.0782, -0.0222,  0.0057,  0.0294,  0.0185,  0.0163,  0.0276,
+        -0.0007,  0.0171], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 426, time 226.18, cls_loss 0.5030 cls_loss_mapping 0.0009 cls_loss_causal 0.4444 re_mapping 0.0066 re_causal 0.0178 /// teacc 98.93 lr 0.00001000
+Epoch 428, weight, value: tensor([[-0.2151, -0.0215,  0.0381,  ..., -0.0291, -0.0816, -0.1473],
+        [-0.0639, -0.1123,  0.0346,  ...,  0.0570, -0.0292, -0.0944],
+        [-0.0661, -0.1012, -0.1203,  ...,  0.0431, -0.0389, -0.1171],
+        ...,
+        [-0.0699,  0.0334,  0.0255,  ...,  0.0158, -0.0593, -0.0995],
+        [-0.0871, -0.0058,  0.0166,  ...,  0.0621, -0.0353, -0.1916],
+        [ 0.0652,  0.0704, -0.0521,  ..., -0.1161, -0.0155,  0.1004]],
+       device='cuda:0'), grad: tensor([[ 5.2422e-05,  5.1689e-04,  2.9597e-06,  ...,  2.8858e-03,
+          6.4850e-05,  1.7043e-07],
+        [ 7.1883e-05,  1.1454e-03,  3.4329e-06,  ...,  3.9291e-03,
+          3.3528e-07,  1.6950e-07],
+        [ 1.4534e-03, -2.3117e-03,  9.1717e-06,  ..., -6.1340e-03,
+          6.8605e-05,  6.1654e-07],
+        ...,
+        [ 2.1502e-05, -2.8133e-04, -1.1581e-02,  ...,  2.3899e-03,
+          1.8448e-05, -2.4223e-04],
+        [ 2.1279e-05,  7.3242e-04,  1.0364e-05,  ...,  2.9278e-03,
+          3.6774e-02,  2.9393e-06],
+        [-2.7064e-06, -4.8920e-02,  7.0047e-04,  ..., -7.3624e-03,
+          1.3754e-05,  1.2126e-06]], device='cuda:0')
+Epoch 428, bias, value: tensor([-0.0534,  0.0244,  0.0079, -0.0116, -0.0024,  0.0069, -0.0153,  0.0346,
+        -0.0227,  0.0114], device='cuda:0'), grad: tensor([ 0.0192,  0.0240, -0.0288, -0.0461,  0.0646,  0.0126, -0.0148, -0.0011,
+         0.0482, -0.0778], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 427, time 226.51, cls_loss 0.5136 cls_loss_mapping 0.0009 cls_loss_causal 0.4579 re_mapping 0.0067 re_causal 0.0176 /// teacc 98.96 lr 0.00001000
+Epoch 429, weight, value: tensor([[-0.2152, -0.0216,  0.0381,  ..., -0.0293, -0.0817, -0.1472],
+        [-0.0637, -0.1123,  0.0347,  ...,  0.0570, -0.0291, -0.0944],
+        [-0.0663, -0.1011, -0.1202,  ...,  0.0431, -0.0388, -0.1170],
+        ...,
+        [-0.0700,  0.0335,  0.0256,  ...,  0.0157, -0.0593, -0.0996],
+        [-0.0872, -0.0058,  0.0165,  ...,  0.0620, -0.0354, -0.1917],
+        [ 0.0654,  0.0704, -0.0521,  ..., -0.1160, -0.0155,  0.1006]],
+       device='cuda:0'), grad: tensor([[ 4.9360e-06, -2.7823e-04,  1.4267e-03,  ...,  5.4512e-03,
+          4.3368e-04,  7.3969e-05],
+        [ 9.1270e-08,  2.5425e-03, -2.7180e-04,  ...,  4.7531e-03,
+          5.3596e-04,  8.2627e-06],
+        [ 1.0114e-06, -4.6349e-03, -2.6531e-03,  ..., -4.4632e-03,
+          1.3481e-02, -7.0572e-03],
+        ...,
+        [ 2.9430e-06,  9.1219e-04,  1.5962e-04,  ..., -4.6873e-04,
+          8.5402e-04,  1.1340e-05],
+        [-4.1008e-05,  1.9836e-03, -3.5343e-03,  ..., -4.2877e-03,
+          1.1320e-03,  2.5272e-04],
+        [ 5.0873e-05, -2.0618e-03,  9.8765e-05,  ..., -1.9951e-03,
+         -2.8973e-03,  1.1474e-05]], device='cuda:0')
+Epoch 429, bias, value: tensor([-0.0536,  0.0245,  0.0079, -0.0116, -0.0024,  0.0069, -0.0152,  0.0346,
+        -0.0227,  0.0115], device='cuda:0'), grad: tensor([ 0.0289,  0.0377, -0.0338, -0.0086,  0.0198, -0.0068, -0.0009, -0.0049,
+         0.0050, -0.0365], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 428, time 226.49, cls_loss 0.4984 cls_loss_mapping 0.0010 cls_loss_causal 0.4396 re_mapping 0.0065 re_causal 0.0173 /// teacc 98.96 lr 0.00001000
+Epoch 430, weight, value: tensor([[-0.2151, -0.0217,  0.0381,  ..., -0.0294, -0.0816, -0.1473],
+        [-0.0637, -0.1123,  0.0346,  ...,  0.0571, -0.0291, -0.0945],
+        [-0.0665, -0.1011, -0.1202,  ...,  0.0431, -0.0389, -0.1171],
+        ...,
+        [-0.0699,  0.0335,  0.0258,  ...,  0.0157, -0.0592, -0.0996],
+        [-0.0873, -0.0057,  0.0165,  ...,  0.0620, -0.0353, -0.1918],
+        [ 0.0653,  0.0704, -0.0520,  ..., -0.1160, -0.0154,  0.1006]],
+       device='cuda:0'), grad: tensor([[ 4.1217e-05,  3.6740e-04,  2.0733e-03,  ...,  3.1128e-03,
+          5.5313e-04,  4.0047e-07],
+        [ 9.6977e-05, -2.8687e-03, -2.4204e-03,  ..., -9.9106e-03,
+         -3.1033e-03,  2.6077e-07],
+        [ 2.1353e-05, -3.8338e-03,  2.6631e-04,  ..., -1.0414e-03,
+          3.3379e-04,  2.2876e-04],
+        ...,
+        [-2.8387e-06,  3.3073e-03,  4.8065e-04,  ...,  8.6746e-03,
+          4.6897e-04,  2.6658e-05],
+        [-1.0490e-03,  8.0061e-04, -5.1880e-04,  ...,  2.3098e-03,
+         -2.4772e-04,  3.4428e-04],
+        [ 1.0353e-04,  1.3924e-04,  3.9029e-04,  ...,  3.7460e-03,
+          3.9268e-04, -1.8105e-05]], device='cuda:0')
+Epoch 430, bias, value: tensor([-0.0537,  0.0244,  0.0079, -0.0115, -0.0026,  0.0069, -0.0152,  0.0348,
+        -0.0227,  0.0115], device='cuda:0'), grad: tensor([ 0.0430, -0.0686,  0.0054, -0.0171, -0.0168, -0.0190,  0.0156,  0.0301,
+         0.0122,  0.0152], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 429, time 228.51, cls_loss 0.5044 cls_loss_mapping 0.0009 cls_loss_causal 0.4502 re_mapping 0.0065 re_causal 0.0172 /// teacc 98.96 lr 0.00001000
+Epoch 431, weight, value: tensor([[-0.2151, -0.0218,  0.0380,  ..., -0.0295, -0.0817, -0.1474],
+        [-0.0638, -0.1122,  0.0345,  ...,  0.0570, -0.0292, -0.0946],
+        [-0.0665, -0.1012, -0.1201,  ...,  0.0430, -0.0389, -0.1169],
+        ...,
+        [-0.0699,  0.0337,  0.0259,  ...,  0.0157, -0.0593, -0.0995],
+        [-0.0874, -0.0058,  0.0165,  ...,  0.0619, -0.0353, -0.1916],
+        [ 0.0651,  0.0704, -0.0520,  ..., -0.1160, -0.0151,  0.1005]],
+       device='cuda:0'), grad: tensor([[ 4.6706e-04, -2.0275e-03, -1.5795e-04,  ...,  3.6526e-04,
+         -8.2922e-04,  7.3290e-04],
+        [-7.3969e-05,  6.3801e-04, -1.1301e-04,  ...,  4.2057e-04,
+          2.0131e-05,  1.0036e-05],
+        [ 3.3140e-05,  1.1247e-04,  2.0146e-05,  ..., -4.7836e-03,
+         -5.1117e-03,  6.2943e-05],
+        ...,
+        [-4.5508e-05, -1.2362e-04, -4.4703e-05,  ..., -1.0509e-03,
+          4.1842e-05,  1.4275e-05],
+        [ 1.4114e-04, -1.0526e-04, -1.5962e-04,  ..., -1.9908e-04,
+          9.3269e-04,  7.8559e-05],
+        [-2.0683e-05,  3.6168e-04,  5.6505e-05,  ...,  5.6076e-04,
+          1.9979e-04, -1.7524e-05]], device='cuda:0')
+Epoch 431, bias, value: tensor([-0.0538,  0.0244,  0.0079, -0.0115, -0.0025,  0.0068, -0.0151,  0.0349,
+        -0.0227,  0.0115], device='cuda:0'), grad: tensor([-9.9564e-04,  7.3700e-03, -2.6550e-02,  1.3649e-02,  4.6501e-03,
+        -1.3275e-02,  1.4923e-02, -5.3596e-03,  3.1859e-05,  5.5618e-03],
+       device='cuda:0')
+100
+1e-05
+changing lr
+epoch 430, time 226.01, cls_loss 0.5025 cls_loss_mapping 0.0011 cls_loss_causal 0.4339 re_mapping 0.0064 re_causal 0.0167 /// teacc 99.00 lr 0.00001000
+Epoch 432, weight, value: tensor([[-0.2151, -0.0217,  0.0379,  ..., -0.0294, -0.0817, -0.1473],
+        [-0.0638, -0.1121,  0.0345,  ...,  0.0571, -0.0291, -0.0946],
+        [-0.0664, -0.1012, -0.1200,  ...,  0.0432, -0.0390, -0.1169],
+        ...,
+        [-0.0699,  0.0337,  0.0258,  ...,  0.0155, -0.0594, -0.0995],
+        [-0.0873, -0.0059,  0.0166,  ...,  0.0620, -0.0353, -0.1916],
+        [ 0.0650,  0.0702, -0.0521,  ..., -0.1161, -0.0150,  0.1004]],
+       device='cuda:0'), grad: tensor([[ 7.1049e-04,  2.2333e-06,  9.0981e-04,  ...,  1.3638e-03,
+          2.8968e-04,  1.2183e-04],
+        [ 2.0373e-04,  1.3661e-04,  1.4293e-04,  ...,  1.5316e-03,
+          9.3460e-05,  6.5684e-05],
+        [ 4.9639e-04,  1.3580e-02,  5.3978e-04,  ...,  1.4477e-03,
+          5.1727e-03,  1.6975e-04],
+        ...,
+        [-7.4310e-03, -1.6983e-02, -1.1063e-02,  ..., -9.2316e-03,
+         -1.1063e-02,  6.2108e-05],
+        [ 1.2360e-03,  1.7338e-03,  1.3618e-03,  ...,  2.1286e-03,
+          1.1549e-03,  2.3866e-04],
+        [ 9.2125e-04,  1.3371e-03,  1.3275e-03,  ..., -2.6379e-03,
+          1.0290e-03,  2.7239e-05]], device='cuda:0')
+Epoch 432, bias, value: tensor([-0.0537,  0.0245,  0.0080, -0.0117, -0.0026,  0.0069, -0.0151,  0.0347,
+        -0.0226,  0.0114], device='cuda:0'), grad: tensor([ 0.0010,  0.0091,  0.0240,  0.0124,  0.0127,  0.0134, -0.0287, -0.0393,
+         0.0147, -0.0193], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 431, time 229.02, cls_loss 0.5129 cls_loss_mapping 0.0010 cls_loss_causal 0.4475 re_mapping 0.0063 re_causal 0.0170 /// teacc 98.97 lr 0.00001000
+Epoch 433, weight, value: tensor([[-0.2151, -0.0216,  0.0378,  ..., -0.0295, -0.0818, -0.1473],
+        [-0.0638, -0.1121,  0.0345,  ...,  0.0569, -0.0290, -0.0946],
+        [-0.0663, -0.1013, -0.1201,  ...,  0.0431, -0.0391, -0.1170],
+        ...,
+        [-0.0699,  0.0336,  0.0258,  ...,  0.0155, -0.0591, -0.0994],
+        [-0.0874, -0.0060,  0.0165,  ...,  0.0619, -0.0353, -0.1917],
+        [ 0.0650,  0.0703, -0.0522,  ..., -0.1160, -0.0151,  0.1003]],
+       device='cuda:0'), grad: tensor([[ 3.8218e-04,  6.2585e-05,  5.1212e-04,  ...,  2.1343e-03,
+          4.7708e-04,  1.0902e-04],
+        [ 4.1771e-04,  1.9274e-03,  7.7724e-05,  ..., -5.5885e-04,
+          3.2425e-04,  1.5926e-04],
+        [-2.7752e-03,  3.2973e-04, -1.3008e-03,  ...,  1.2369e-03,
+          2.9016e-04, -1.6117e-03],
+        ...,
+        [ 1.2083e-03,  5.2719e-03,  1.6737e-03,  ...,  4.6043e-03,
+          2.3155e-03,  2.1768e-04],
+        [-5.2261e-03,  4.7836e-03, -2.4414e-03,  ..., -4.7646e-03,
+          2.2125e-03, -8.4352e-04],
+        [ 5.9967e-03,  3.7140e-02,  2.7008e-03,  ...,  4.7760e-03,
+          5.1422e-03,  1.1749e-03]], device='cuda:0')
+Epoch 433, bias, value: tensor([-0.0538,  0.0244,  0.0079, -0.0115, -0.0025,  0.0071, -0.0150,  0.0346,
+        -0.0228,  0.0115], device='cuda:0'), grad: tensor([ 0.0109, -0.0014,  0.0014, -0.0205, -0.0303, -0.0106,  0.0182,  0.0231,
+        -0.0050,  0.0143], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 432, time 227.29, cls_loss 0.5065 cls_loss_mapping 0.0009 cls_loss_causal 0.4424 re_mapping 0.0064 re_causal 0.0174 /// teacc 98.98 lr 0.00001000
+Epoch 434, weight, value: tensor([[-0.2151, -0.0216,  0.0378,  ..., -0.0295, -0.0819, -0.1473],
+        [-0.0637, -0.1122,  0.0345,  ...,  0.0568, -0.0289, -0.0944],
+        [-0.0664, -0.1013, -0.1202,  ...,  0.0432, -0.0389, -0.1171],
+        ...,
+        [-0.0699,  0.0337,  0.0258,  ...,  0.0156, -0.0591, -0.0995],
+        [-0.0874, -0.0060,  0.0166,  ...,  0.0618, -0.0354, -0.1916],
+        [ 0.0650,  0.0702, -0.0521,  ..., -0.1159, -0.0150,  0.1002]],
+       device='cuda:0'), grad: tensor([[ 5.9204e-03,  1.4639e-03,  9.0485e-03,  ..., -1.1702e-03,
+          1.8644e-04,  1.8626e-09],
+        [ 1.6856e-04,  7.1383e-04,  3.3998e-04,  ...,  8.0109e-05,
+          1.7440e-04,  0.0000e+00],
+        [ 1.3113e-04,  1.4591e-03,  3.0041e-04,  ..., -1.0582e-02,
+          2.2221e-04,  3.7253e-09],
+        ...,
+        [ 2.1477e-03,  9.0837e-04,  5.8937e-03,  ...,  7.5836e-03,
+          4.3983e-03,  3.3528e-07],
+        [-6.5536e-03,  3.7937e-03, -9.3842e-03,  ..., -5.2834e-04,
+          9.5224e-04,  5.6811e-06],
+        [-3.5458e-03,  9.2888e-04, -9.3842e-03,  ..., -1.6975e-03,
+         -7.1831e-03, -6.7577e-06]], device='cuda:0')
+Epoch 434, bias, value: tensor([-0.0539,  0.0244,  0.0079, -0.0116, -0.0026,  0.0071, -0.0151,  0.0346,
+        -0.0228,  0.0117], device='cuda:0'), grad: tensor([ 0.0117, -0.0116, -0.0061, -0.0110,  0.0214, -0.0286,  0.0206,  0.0354,
+        -0.0305, -0.0012], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 433, time 228.15, cls_loss 0.4965 cls_loss_mapping 0.0008 cls_loss_causal 0.4369 re_mapping 0.0065 re_causal 0.0173 /// teacc 99.00 lr 0.00001000
+Epoch 435, weight, value: tensor([[-0.2154, -0.0217,  0.0379,  ..., -0.0296, -0.0819, -0.1474],
+        [-0.0637, -0.1122,  0.0344,  ...,  0.0568, -0.0286, -0.0943],
+        [-0.0664, -0.1014, -0.1200,  ...,  0.0433, -0.0389, -0.1170],
+        ...,
+        [-0.0699,  0.0338,  0.0258,  ...,  0.0156, -0.0591, -0.0995],
+        [-0.0873, -0.0061,  0.0166,  ...,  0.0619, -0.0354, -0.1916],
+        [ 0.0650,  0.0701, -0.0522,  ..., -0.1159, -0.0150,  0.1002]],
+       device='cuda:0'), grad: tensor([[ 2.3931e-05,  7.2746e-03,  6.2132e-04,  ..., -1.2121e-03,
+          1.7846e-04,  1.6391e-07],
+        [ 1.2789e-03,  2.0534e-05,  9.6083e-04,  ...,  6.6233e-04,
+          2.6035e-03,  2.1271e-06],
+        [ 2.2575e-05,  1.0738e-03,  2.3198e-04,  ..., -2.6588e-03,
+          2.3270e-04,  1.3858e-06],
+        ...,
+        [ 2.9492e-04,  1.3781e-03,  7.8869e-04,  ..., -3.2067e-04,
+         -1.0204e-03,  1.4100e-06],
+        [ 1.0538e-04, -1.5762e-02,  2.9182e-04,  ...,  1.3342e-03,
+          2.0218e-04,  1.8343e-05],
+        [ 2.5749e-04,  1.2817e-03,  9.7275e-04,  ...,  2.7962e-03,
+          8.4591e-04, -4.7013e-06]], device='cuda:0')
+Epoch 435, bias, value: tensor([-0.0540,  0.0244,  0.0079, -0.0117, -0.0026,  0.0073, -0.0152,  0.0347,
+        -0.0226,  0.0116], device='cuda:0'), grad: tensor([ 0.0055, -0.0018, -0.0139, -0.0081, -0.0067,  0.0182,  0.0203, -0.0160,
+        -0.0188,  0.0214], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 434, time 227.53, cls_loss 0.5068 cls_loss_mapping 0.0010 cls_loss_causal 0.4519 re_mapping 0.0064 re_causal 0.0169 /// teacc 98.95 lr 0.00001000
+Epoch 436, weight, value: tensor([[-0.2153, -0.0216,  0.0380,  ..., -0.0297, -0.0819, -0.1473],
+        [-0.0636, -0.1122,  0.0343,  ...,  0.0568, -0.0285, -0.0944],
+        [-0.0664, -0.1013, -0.1199,  ...,  0.0433, -0.0390, -0.1171],
+        ...,
+        [-0.0698,  0.0339,  0.0259,  ...,  0.0155, -0.0593, -0.0995],
+        [-0.0874, -0.0063,  0.0164,  ...,  0.0618, -0.0354, -0.1917],
+        [ 0.0649,  0.0700, -0.0522,  ..., -0.1159, -0.0149,  0.1002]],
+       device='cuda:0'), grad: tensor([[ 0.0009,  0.0006, -0.0057,  ...,  0.0024,  0.0002,  0.0004],
+        [ 0.0007,  0.0012,  0.0002,  ...,  0.0003,  0.0011,  0.0002],
+        [ 0.0030,  0.0015,  0.0013,  ...,  0.0005,  0.0001,  0.0014],
+        ...,
+        [ 0.0012,  0.0029,  0.0045,  ...,  0.0063,  0.0024,  0.0006],
+        [-0.0007, -0.0067,  0.0076,  ..., -0.0084,  0.0005,  0.0005],
+        [-0.0027, -0.0014, -0.0075,  ..., -0.0065, -0.0053, -0.0016]],
+       device='cuda:0')
+Epoch 436, bias, value: tensor([-0.0541,  0.0245,  0.0078, -0.0116, -0.0026,  0.0073, -0.0150,  0.0346,
+        -0.0228,  0.0116], device='cuda:0'), grad: tensor([ 0.0035, -0.0104, -0.0103,  0.0228,  0.0245, -0.0027, -0.0201,  0.0308,
+        -0.0324, -0.0059], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 435, time 226.56, cls_loss 0.4781 cls_loss_mapping 0.0009 cls_loss_causal 0.4216 re_mapping 0.0063 re_causal 0.0165 /// teacc 98.97 lr 0.00001000
+Epoch 437, weight, value: tensor([[-0.2153, -0.0217,  0.0381,  ..., -0.0296, -0.0820, -0.1473],
+        [-0.0637, -0.1123,  0.0341,  ...,  0.0567, -0.0285, -0.0944],
+        [-0.0662, -0.1014, -0.1198,  ...,  0.0434, -0.0390, -0.1171],
+        ...,
+        [-0.0698,  0.0340,  0.0259,  ...,  0.0156, -0.0590, -0.0995],
+        [-0.0875, -0.0065,  0.0162,  ...,  0.0617, -0.0353, -0.1917],
+        [ 0.0648,  0.0699, -0.0522,  ..., -0.1159, -0.0149,  0.1001]],
+       device='cuda:0'), grad: tensor([[ 2.2829e-04,  2.4676e-04,  8.1396e-04,  ...,  1.8950e-03,
+          6.1607e-04,  3.7909e-05],
+        [ 2.8634e-04,  3.4976e-04,  1.3962e-03,  ...,  2.2850e-03,
+          9.8324e-04,  4.7714e-05],
+        [ 4.4060e-04, -1.8187e-03,  1.2474e-03,  ..., -2.5482e-03,
+         -2.7962e-03,  7.3314e-05],
+        ...,
+        [ 7.3791e-05,  1.3208e-03,  7.3147e-04,  ...,  3.0975e-03,
+          4.1237e-03,  1.6704e-05],
+        [ 1.0753e-04,  2.3222e-04,  2.3861e-03,  ..., -2.8858e-03,
+         -2.3174e-03,  2.1562e-05],
+        [ 8.7142e-05,  1.2422e-04,  6.3992e-04,  ...,  2.4376e-03,
+          3.1071e-03, -6.3702e-07]], device='cuda:0')
+Epoch 437, bias, value: tensor([-0.0540,  0.0244,  0.0080, -0.0117, -0.0026,  0.0073, -0.0151,  0.0347,
+        -0.0229,  0.0115], device='cuda:0'), grad: tensor([ 0.0151,  0.0209, -0.0348, -0.0075,  0.0150, -0.0216,  0.0162,  0.0053,
+        -0.0310,  0.0225], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 436, time 226.26, cls_loss 0.4742 cls_loss_mapping 0.0007 cls_loss_causal 0.4088 re_mapping 0.0067 re_causal 0.0176 /// teacc 99.00 lr 0.00001000
+Epoch 438, weight, value: tensor([[-0.2153, -0.0218,  0.0383,  ..., -0.0295, -0.0820, -0.1473],
+        [-0.0638, -0.1125,  0.0341,  ...,  0.0566, -0.0284, -0.0944],
+        [-0.0663, -0.1014, -0.1199,  ...,  0.0434, -0.0389, -0.1171],
+        ...,
+        [-0.0698,  0.0341,  0.0259,  ...,  0.0156, -0.0591, -0.0995],
+        [-0.0874, -0.0064,  0.0160,  ...,  0.0618, -0.0353, -0.1918],
+        [ 0.0649,  0.0698, -0.0520,  ..., -0.1158, -0.0149,  0.1001]],
+       device='cuda:0'), grad: tensor([[ 1.2457e-04,  8.8120e-04,  1.3380e-03,  ...,  2.4090e-03,
+          4.7798e-03,  1.3515e-05],
+        [ 1.0490e-04,  3.6764e-04,  1.0371e-04,  ...,  1.6556e-03,
+          1.2274e-03,  3.2961e-05],
+        [ 5.7554e-04,  9.9030e-03,  1.0633e-03,  ...,  1.4175e-02,
+          8.8310e-04,  2.2948e-05],
+        ...,
+        [-2.2793e-03,  8.3685e-04,  2.2620e-05,  ...,  1.9798e-03,
+          1.0691e-03,  1.6406e-05],
+        [ 1.7715e-04,  1.2779e-03,  6.5327e-04,  ..., -1.2531e-03,
+          1.5574e-03,  2.8461e-05],
+        [ 5.1651e-03, -2.0161e-03,  1.0628e-02,  ..., -4.6539e-03,
+         -5.5199e-03,  5.1651e-03]], device='cuda:0')
+Epoch 438, bias, value: tensor([-0.0540,  0.0244,  0.0080, -0.0117, -0.0025,  0.0073, -0.0151,  0.0347,
+        -0.0229,  0.0116], device='cuda:0'), grad: tensor([ 0.0347, -0.0129,  0.0485, -0.0422, -0.0371,  0.0260, -0.0145,  0.0045,
+        -0.0086,  0.0017], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 437, time 227.87, cls_loss 0.4819 cls_loss_mapping 0.0007 cls_loss_causal 0.4234 re_mapping 0.0066 re_causal 0.0177 /// teacc 99.00 lr 0.00001000
+Epoch 439, weight, value: tensor([[-0.2154, -0.0218,  0.0384,  ..., -0.0295, -0.0819, -0.1474],
+        [-0.0638, -0.1124,  0.0342,  ...,  0.0566, -0.0283, -0.0945],
+        [-0.0663, -0.1013, -0.1200,  ...,  0.0433, -0.0390, -0.1173],
+        ...,
+        [-0.0698,  0.0341,  0.0259,  ...,  0.0156, -0.0592, -0.0995],
+        [-0.0874, -0.0063,  0.0158,  ...,  0.0619, -0.0353, -0.1920],
+        [ 0.0648,  0.0698, -0.0521,  ..., -0.1158, -0.0150,  0.1001]],
+       device='cuda:0'), grad: tensor([[ 8.9109e-05,  5.3644e-04,  1.2779e-03,  ...,  5.8441e-03,
+          5.5504e-03,  2.8324e-04],
+        [ 9.7394e-05,  1.9989e-03, -5.2757e-03,  ...,  4.7684e-06,
+          7.6103e-04,  5.9175e-04],
+        [-8.0317e-06,  1.3466e-03,  1.0500e-03,  ...,  4.6463e-03,
+          2.0218e-03,  2.7871e-04],
+        ...,
+        [ 2.4300e-03, -8.8882e-04,  1.0452e-03,  ...,  3.5820e-03,
+          2.7561e-03, -1.1063e-03],
+        [ 2.6083e-04, -2.5463e-03,  9.7275e-04,  ..., -8.5373e-03,
+         -1.4870e-02,  1.1263e-03],
+        [-3.5343e-03, -2.3918e-03, -3.1414e-03,  ..., -9.2010e-03,
+         -3.4809e-05, -2.7733e-03]], device='cuda:0')
+Epoch 439, bias, value: tensor([-0.0541,  0.0245,  0.0079, -0.0118, -0.0025,  0.0074, -0.0152,  0.0347,
+        -0.0228,  0.0116], device='cuda:0'), grad: tensor([ 0.0379,  0.0251,  0.0277,  0.0044, -0.0013,  0.0106,  0.0262,  0.0095,
+        -0.0821, -0.0580], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 438, time 225.30, cls_loss 0.4732 cls_loss_mapping 0.0007 cls_loss_causal 0.4063 re_mapping 0.0067 re_causal 0.0176 /// teacc 99.00 lr 0.00001000
+Epoch 440, weight, value: tensor([[-0.2154, -0.0219,  0.0383,  ..., -0.0295, -0.0820, -0.1474],
+        [-0.0637, -0.1123,  0.0342,  ...,  0.0564, -0.0283, -0.0946],
+        [-0.0662, -0.1013, -0.1199,  ...,  0.0433, -0.0390, -0.1173],
+        ...,
+        [-0.0698,  0.0340,  0.0258,  ...,  0.0155, -0.0593, -0.0996],
+        [-0.0875, -0.0062,  0.0158,  ...,  0.0619, -0.0353, -0.1920],
+        [ 0.0648,  0.0699, -0.0520,  ..., -0.1158, -0.0148,  0.1001]],
+       device='cuda:0'), grad: tensor([[ 4.7922e-05,  1.1826e-03,  1.0233e-03,  ...,  1.8177e-03,
+          1.8349e-03,  3.7342e-05],
+        [ 8.2731e-05,  1.2455e-03,  1.3390e-03,  ...,  3.0956e-03,
+          2.2697e-03,  2.7716e-05],
+        [ 8.7321e-05, -7.0457e-03,  5.1842e-03,  ...,  9.7733e-03,
+         -3.1113e-02,  7.4983e-05],
+        ...,
+        [ 5.0366e-05,  1.1759e-03,  4.8661e-04,  ...,  1.3313e-03,
+          2.1225e-02,  8.5682e-06],
+        [ 3.0220e-05,  7.8583e-04, -5.0507e-03,  ..., -8.4076e-03,
+          2.2335e-03,  5.6863e-05],
+        [-6.1893e-04,  2.7390e-03, -5.0049e-03,  ..., -1.1101e-02,
+         -5.4550e-03, -6.2704e-04]], device='cuda:0')
+Epoch 440, bias, value: tensor([-0.0541,  0.0244,  0.0080, -0.0118, -0.0026,  0.0073, -0.0152,  0.0347,
+        -0.0227,  0.0116], device='cuda:0'), grad: tensor([ 0.0164,  0.0232, -0.0217, -0.0109,  0.0237, -0.0203,  0.0204,  0.0267,
+        -0.0137, -0.0439], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 439, time 224.55, cls_loss 0.4895 cls_loss_mapping 0.0009 cls_loss_causal 0.4297 re_mapping 0.0064 re_causal 0.0170 /// teacc 99.02 lr 0.00001000
+Epoch 441, weight, value: tensor([[-0.2154, -0.0219,  0.0384,  ..., -0.0294, -0.0820, -0.1474],
+        [-0.0637, -0.1123,  0.0344,  ...,  0.0565, -0.0282, -0.0946],
+        [-0.0662, -0.1013, -0.1200,  ...,  0.0432, -0.0390, -0.1174],
+        ...,
+        [-0.0697,  0.0339,  0.0258,  ...,  0.0155, -0.0593, -0.0993],
+        [-0.0874, -0.0063,  0.0158,  ...,  0.0619, -0.0354, -0.1921],
+        [ 0.0646,  0.0699, -0.0522,  ..., -0.1160, -0.0149,  0.0998]],
+       device='cuda:0'), grad: tensor([[ 9.9468e-04,  3.1948e-04,  1.0757e-03,  ...,  2.9163e-03,
+          1.1139e-06,  1.3828e-03],
+        [ 2.2912e-04,  1.0242e-03,  2.8539e-04,  ..., -5.2261e-03,
+          4.7415e-05,  1.7941e-04],
+        [ 5.1498e-04,  2.6073e-03,  3.5381e-04,  ...,  4.7340e-03,
+          2.7001e-05,  9.9277e-04],
+        ...,
+        [-4.4179e-04, -2.3899e-03, -8.7690e-04,  ..., -1.1520e-03,
+         -2.3246e-04, -2.3827e-05],
+        [ 7.2145e-04, -2.2774e-03,  3.1018e-04,  ...,  1.0586e-03,
+          3.2842e-05, -8.4162e-05],
+        [ 9.7990e-05,  1.3077e-04, -4.4060e-04,  ...,  2.0523e-03,
+          7.4744e-05, -1.7619e-04]], device='cuda:0')
+Epoch 441, bias, value: tensor([-0.0541,  0.0246,  0.0081, -0.0117, -0.0027,  0.0075, -0.0153,  0.0347,
+        -0.0227,  0.0115], device='cuda:0'), grad: tensor([ 0.0175, -0.0300,  0.0252, -0.0585,  0.0141, -0.0042,  0.0205, -0.0051,
+         0.0086,  0.0118], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 440, time 226.38, cls_loss 0.4765 cls_loss_mapping 0.0010 cls_loss_causal 0.4129 re_mapping 0.0062 re_causal 0.0166 /// teacc 99.00 lr 0.00001000
+Epoch 442, weight, value: tensor([[-0.2154, -0.0220,  0.0384,  ..., -0.0295, -0.0820, -0.1474],
+        [-0.0636, -0.1122,  0.0343,  ...,  0.0566, -0.0282, -0.0946],
+        [-0.0664, -0.1013, -0.1200,  ...,  0.0431, -0.0389, -0.1174],
+        ...,
+        [-0.0697,  0.0340,  0.0258,  ...,  0.0155, -0.0594, -0.0993],
+        [-0.0876, -0.0063,  0.0157,  ...,  0.0619, -0.0355, -0.1922],
+        [ 0.0647,  0.0699, -0.0521,  ..., -0.1160, -0.0149,  0.0998]],
+       device='cuda:0'), grad: tensor([[ 2.8491e-04,  1.6193e-03,  5.4061e-05,  ...,  2.4586e-03,
+          1.8626e-08,  6.7425e-04],
+        [ 5.3453e-04,  8.7500e-04,  1.0014e-03,  ...,  2.4319e-03,
+          3.7253e-09,  1.0377e-04],
+        [ 3.7360e-04,  2.0084e-03,  1.5092e-04,  ...,  1.6985e-03,
+          4.4331e-07,  3.3522e-04],
+        ...,
+        [ 3.6488e-03, -3.5057e-03,  2.0065e-03,  ...,  5.4512e-03,
+          1.0684e-05, -1.3580e-03],
+        [-2.0218e-03, -3.4332e-03,  7.9095e-05,  ..., -1.0712e-02,
+          3.5949e-06,  1.7643e-04],
+        [-4.3182e-03,  2.4586e-03, -2.6913e-03,  ..., -3.2597e-03,
+         -1.0006e-05,  3.5286e-04]], device='cuda:0')
+Epoch 442, bias, value: tensor([-0.0542,  0.0246,  0.0080, -0.0115, -0.0027,  0.0074, -0.0154,  0.0347,
+        -0.0227,  0.0115], device='cuda:0'), grad: tensor([ 0.0213,  0.0196,  0.0212, -0.0191,  0.0020,  0.0032,  0.0220,  0.0114,
+        -0.0794, -0.0023], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 441, time 224.72, cls_loss 0.4663 cls_loss_mapping 0.0009 cls_loss_causal 0.4083 re_mapping 0.0063 re_causal 0.0166 /// teacc 99.02 lr 0.00001000
+Epoch 443, weight, value: tensor([[-0.2156, -0.0220,  0.0383,  ..., -0.0295, -0.0820, -0.1474],
+        [-0.0635, -0.1123,  0.0343,  ...,  0.0566, -0.0283, -0.0950],
+        [-0.0665, -0.1013, -0.1199,  ...,  0.0431, -0.0390, -0.1173],
+        ...,
+        [-0.0696,  0.0339,  0.0257,  ...,  0.0154, -0.0595, -0.0993],
+        [-0.0876, -0.0064,  0.0157,  ...,  0.0620, -0.0355, -0.1923],
+        [ 0.0647,  0.0698, -0.0521,  ..., -0.1159, -0.0149,  0.0999]],
+       device='cuda:0'), grad: tensor([[ 1.3137e-04,  3.4422e-05,  2.1994e-04,  ..., -1.0023e-03,
+          1.1110e-04,  6.1631e-05],
+        [-5.1308e-04, -5.3167e-04, -1.8759e-03,  ..., -4.0100e-02,
+         -1.0233e-03,  2.2680e-05],
+        [ 1.8668e-04,  1.2565e-04,  9.7811e-05,  ...,  4.5776e-03,
+          3.0041e-05,  6.5148e-05],
+        ...,
+        [ 1.4067e-04,  3.2673e-03,  1.4555e-04,  ...,  4.5319e-03,
+          4.8995e-05,  4.6939e-05],
+        [ 2.9159e-04,  2.9831e-03,  2.9898e-04,  ...,  1.1421e-02,
+          1.3459e-04,  1.5783e-04],
+        [ 1.9670e-04, -6.2065e-03,  2.2697e-04,  ...,  1.6193e-03,
+          7.3552e-05,  6.6578e-05]], device='cuda:0')
+Epoch 443, bias, value: tensor([-0.0541,  0.0245,  0.0080, -0.0116, -0.0026,  0.0075, -0.0153,  0.0346,
+        -0.0228,  0.0116], device='cuda:0'), grad: tensor([-0.0228, -0.0045, -0.0195, -0.0248,  0.0098,  0.0122,  0.0123,  0.0165,
+         0.0176,  0.0032], device='cuda:0')
+100
+1e-05
+changing lr
+---------------------saving model at epoch 442----------------------------------------------------
+epoch 442, time 227.99, cls_loss 0.4877 cls_loss_mapping 0.0009 cls_loss_causal 0.4297 re_mapping 0.0063 re_causal 0.0167 /// teacc 99.04 lr 0.00001000
+Epoch 444, weight, value: tensor([[-0.2156, -0.0219,  0.0384,  ..., -0.0295, -0.0818, -0.1475],
+        [-0.0634, -0.1125,  0.0343,  ...,  0.0567, -0.0284, -0.0951],
+        [-0.0664, -0.1012, -0.1196,  ...,  0.0432, -0.0389, -0.1173],
+        ...,
+        [-0.0697,  0.0340,  0.0257,  ...,  0.0154, -0.0595, -0.0992],
+        [-0.0875, -0.0064,  0.0156,  ...,  0.0620, -0.0355, -0.1925],
+        [ 0.0647,  0.0697, -0.0522,  ..., -0.1159, -0.0149,  0.1001]],
+       device='cuda:0'), grad: tensor([[ 2.8349e-06,  7.8201e-05,  1.9836e-04,  ...,  1.9855e-03,
+          2.5606e-04,  1.0610e-04],
+        [ 4.5449e-05,  1.3590e-03,  1.1933e-04,  ...,  1.9722e-03,
+          1.5152e-04,  1.2946e-04],
+        [-1.3506e-04, -1.9627e-03,  1.1539e-04,  ...,  1.0910e-03,
+          1.3351e-04,  1.0753e-04],
+        ...,
+        [ 7.4744e-05,  5.1231e-03,  1.6499e-04,  ...,  2.5368e-03,
+          2.1112e-04,  8.7814e-03],
+        [ 1.3530e-05,  1.7762e-04,  1.0312e-04,  ..., -3.3035e-03,
+          3.4153e-05,  8.3208e-05],
+        [ 1.9968e-05, -4.6768e-03,  1.6010e-04,  ...,  2.2602e-03,
+          1.7178e-04, -8.4839e-03]], device='cuda:0')
+Epoch 444, bias, value: tensor([-0.0540,  0.0245,  0.0080, -0.0116, -0.0026,  0.0076, -0.0155,  0.0347,
+        -0.0228,  0.0115], device='cuda:0'), grad: tensor([ 0.0253,  0.0015,  0.0198, -0.0323,  0.0103, -0.0078, -0.0375,  0.0337,
+        -0.0379,  0.0249], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 443, time 226.62, cls_loss 0.4854 cls_loss_mapping 0.0010 cls_loss_causal 0.4186 re_mapping 0.0063 re_causal 0.0165 /// teacc 99.00 lr 0.00001000
+Epoch 445, weight, value: tensor([[-0.2156, -0.0219,  0.0384,  ..., -0.0295, -0.0816, -0.1475],
+        [-0.0634, -0.1126,  0.0343,  ...,  0.0567, -0.0283, -0.0950],
+        [-0.0663, -0.1012, -0.1194,  ...,  0.0434, -0.0389, -0.1173],
+        ...,
+        [-0.0696,  0.0339,  0.0258,  ...,  0.0155, -0.0595, -0.0994],
+        [-0.0876, -0.0062,  0.0156,  ...,  0.0620, -0.0355, -0.1925],
+        [ 0.0647,  0.0696, -0.0522,  ..., -0.1160, -0.0150,  0.1000]],
+       device='cuda:0'), grad: tensor([[ 1.0576e-03,  4.7255e-04,  5.3883e-04,  ...,  4.8256e-03,
+          9.9087e-04,  4.2725e-04],
+        [ 3.6907e-04,  2.4462e-04,  4.0674e-04,  ...,  4.9286e-03,
+          3.4771e-03,  9.1195e-05],
+        [-2.4128e-03, -1.2331e-03, -4.6043e-03,  ..., -3.8574e-02,
+         -1.8295e-02,  5.2571e-05],
+        ...,
+        [ 5.1069e-04,  2.6131e-04,  2.3150e-04,  ...,  4.0855e-03,
+          1.4696e-03,  3.7074e-05],
+        [-1.1047e-02, -1.6708e-03, -5.9662e-03,  ..., -4.9438e-03,
+         -5.7030e-03,  1.1292e-03],
+        [ 7.5188e-03,  2.0063e-04,  4.9400e-03,  ...,  8.1787e-03,
+          7.7820e-03,  5.3018e-05]], device='cuda:0')
+Epoch 445, bias, value: tensor([-0.0540,  0.0245,  0.0081, -0.0116, -0.0026,  0.0074, -0.0155,  0.0349,
+        -0.0228,  0.0114], device='cuda:0'), grad: tensor([ 0.0188, -0.0123, -0.0779,  0.0042,  0.0158,  0.0136, -0.0012,  0.0229,
+        -0.0174,  0.0336], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 444, time 224.10, cls_loss 0.4735 cls_loss_mapping 0.0008 cls_loss_causal 0.4224 re_mapping 0.0063 re_causal 0.0169 /// teacc 99.02 lr 0.00001000
+Epoch 446, weight, value: tensor([[-0.2157, -0.0220,  0.0384,  ..., -0.0296, -0.0816, -0.1476],
+        [-0.0634, -0.1126,  0.0342,  ...,  0.0565, -0.0284, -0.0951],
+        [-0.0664, -0.1012, -0.1195,  ...,  0.0435, -0.0389, -0.1174],
+        ...,
+        [-0.0696,  0.0339,  0.0258,  ...,  0.0155, -0.0595, -0.0993],
+        [-0.0874, -0.0062,  0.0156,  ...,  0.0621, -0.0354, -0.1926],
+        [ 0.0648,  0.0696, -0.0522,  ..., -0.1160, -0.0151,  0.1001]],
+       device='cuda:0'), grad: tensor([[ 2.5898e-05,  2.0444e-05, -3.8838e-04,  ...,  3.1495e-04,
+          6.7241e-06,  6.4671e-06],
+        [ 3.1479e-06,  1.9419e-04, -5.0545e-05,  ...,  4.1199e-04,
+          7.9349e-07,  9.7975e-07],
+        [ 3.7514e-06,  3.4213e-05,  2.8089e-05,  ...,  3.4499e-04,
+          1.0766e-06,  1.5378e-05],
+        ...,
+        [ 4.2230e-05,  3.1479e-06,  3.4451e-05,  ...,  4.3082e-04,
+          7.6741e-06,  5.6997e-06],
+        [ 1.2958e-04, -3.8362e-04,  4.6611e-05,  ..., -3.2196e-03,
+          5.6148e-05,  3.0547e-05],
+        [-2.1327e-04,  1.1861e-05,  4.6760e-05,  ...,  3.4499e-04,
+         -4.0114e-05, -2.8729e-05]], device='cuda:0')
+Epoch 446, bias, value: tensor([-0.0541,  0.0243,  0.0082, -0.0116, -0.0026,  0.0076, -0.0154,  0.0348,
+        -0.0228,  0.0113], device='cuda:0'), grad: tensor([ 0.0039,  0.0169,  0.0035,  0.0111, -0.0112, -0.0027,  0.0213,  0.0063,
+        -0.0560,  0.0069], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 445, time 224.85, cls_loss 0.4895 cls_loss_mapping 0.0009 cls_loss_causal 0.4246 re_mapping 0.0061 re_causal 0.0166 /// teacc 98.99 lr 0.00001000
+Epoch 447, weight, value: tensor([[-0.2158, -0.0220,  0.0384,  ..., -0.0295, -0.0816, -0.1476],
+        [-0.0633, -0.1125,  0.0343,  ...,  0.0566, -0.0284, -0.0949],
+        [-0.0663, -0.1012, -0.1196,  ...,  0.0435, -0.0389, -0.1174],
+        ...,
+        [-0.0695,  0.0341,  0.0260,  ...,  0.0157, -0.0595, -0.0992],
+        [-0.0873, -0.0062,  0.0157,  ...,  0.0622, -0.0353, -0.1926],
+        [ 0.0646,  0.0695, -0.0521,  ..., -0.1161, -0.0153,  0.1000]],
+       device='cuda:0'), grad: tensor([[ 7.5221e-05,  5.5879e-08,  2.8872e-04,  ...,  1.1187e-03,
+          1.3771e-03,  6.4731e-05],
+        [-3.7575e-04,  1.3039e-07, -5.7554e-04,  ..., -3.6259e-03,
+          4.0102e-04,  5.6952e-05],
+        [ 4.4560e-04,  3.2485e-06,  1.9379e-03,  ..., -2.7866e-03,
+          1.6725e-04,  1.4937e-04],
+        ...,
+        [ 7.8082e-05, -4.6454e-06, -9.9945e-03,  ...,  1.1549e-03,
+          1.2541e-03, -7.9966e-04],
+        [ 4.5300e-04,  3.7253e-09,  9.5224e-04,  ...,  1.4105e-03,
+          4.9515e-03,  3.8624e-04],
+        [ 1.0997e-04,  8.5309e-07,  3.9520e-03,  ...,  1.0557e-03,
+         -3.4485e-03,  4.2129e-04]], device='cuda:0')
+Epoch 447, bias, value: tensor([-0.0541,  0.0243,  0.0081, -0.0116, -0.0027,  0.0076, -0.0153,  0.0349,
+        -0.0227,  0.0113], device='cuda:0'), grad: tensor([ 0.0116, -0.0259, -0.0126, -0.0236,  0.0160, -0.0041,  0.0138, -0.0077,
+         0.0205,  0.0120], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 446, time 225.72, cls_loss 0.4659 cls_loss_mapping 0.0010 cls_loss_causal 0.4032 re_mapping 0.0061 re_causal 0.0166 /// teacc 98.99 lr 0.00001000
+Epoch 448, weight, value: tensor([[-0.2155, -0.0220,  0.0383,  ..., -0.0293, -0.0817, -0.1476],
+        [-0.0633, -0.1125,  0.0343,  ...,  0.0566, -0.0283, -0.0949],
+        [-0.0664, -0.1013, -0.1195,  ...,  0.0435, -0.0389, -0.1177],
+        ...,
+        [-0.0694,  0.0342,  0.0261,  ...,  0.0158, -0.0594, -0.0992],
+        [-0.0875, -0.0062,  0.0157,  ...,  0.0619, -0.0353, -0.1926],
+        [ 0.0647,  0.0694, -0.0520,  ..., -0.1161, -0.0153,  0.1000]],
+       device='cuda:0'), grad: tensor([[ 6.4820e-06,  1.7290e-03,  1.1444e-03,  ...,  4.1342e-04,
+          1.2884e-03,  2.5928e-06],
+        [ 8.9407e-07, -1.4668e-03, -5.5351e-03,  ..., -9.8267e-03,
+         -6.2904e-03,  3.6880e-07],
+        [ 1.0826e-05,  6.2408e-03,  8.0252e-04,  ...,  2.0008e-03,
+          3.8013e-03,  3.0957e-06],
+        ...,
+        [ 1.9640e-05,  1.3168e-02,  1.2455e-03,  ...,  2.7618e-03,
+          1.3380e-03,  1.1161e-05],
+        [ 5.5122e-04,  5.9204e-03,  5.2929e-04,  ...,  1.5879e-03,
+         -1.1421e-02,  1.6987e-05],
+        [ 1.8179e-04, -3.1525e-02,  6.2847e-04,  ...,  1.8892e-03,
+          8.4877e-04,  7.0214e-05]], device='cuda:0')
+Epoch 448, bias, value: tensor([-0.0540,  0.0244,  0.0081, -0.0116, -0.0028,  0.0075, -0.0153,  0.0351,
+        -0.0229,  0.0112], device='cuda:0'), grad: tensor([-0.0354, -0.0440,  0.0216,  0.0082,  0.0122,  0.0071, -0.0107,  0.0229,
+         0.0128,  0.0054], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 447, time 226.53, cls_loss 0.4864 cls_loss_mapping 0.0010 cls_loss_causal 0.4168 re_mapping 0.0063 re_causal 0.0168 /// teacc 99.01 lr 0.00001000
+Epoch 449, weight, value: tensor([[-0.2155, -0.0220,  0.0383,  ..., -0.0294, -0.0817, -0.1477],
+        [-0.0633, -0.1126,  0.0343,  ...,  0.0565, -0.0283, -0.0949],
+        [-0.0665, -0.1015, -0.1197,  ...,  0.0435, -0.0389, -0.1177],
+        ...,
+        [-0.0694,  0.0344,  0.0261,  ...,  0.0158, -0.0593, -0.0995],
+        [-0.0876, -0.0061,  0.0157,  ...,  0.0620, -0.0352, -0.1928],
+        [ 0.0647,  0.0694, -0.0520,  ..., -0.1161, -0.0154,  0.1002]],
+       device='cuda:0'), grad: tensor([[ 2.3544e-06,  2.3341e-04,  7.6485e-04,  ..., -7.4615e-03,
+          7.5817e-04,  9.0480e-05],
+        [ 9.5904e-05,  1.2267e-04,  9.1028e-04,  ...,  4.5891e-03,
+          1.0366e-03,  9.7573e-05],
+        [ 2.7418e-05,  9.0003e-05, -3.0670e-03,  ..., -3.8452e-03,
+         -4.5624e-03, -1.5423e-05],
+        ...,
+        [ 2.3766e-03,  3.2043e-04,  8.0824e-04,  ...,  1.3962e-03,
+          4.8876e-04,  1.6613e-03],
+        [ 9.9659e-05,  1.8966e-04,  7.7057e-04,  ...,  3.5133e-03,
+          4.8542e-04,  1.6403e-04],
+        [ 6.2943e-05, -1.0424e-03,  4.0674e-04,  ...,  2.8152e-03,
+          4.8161e-04, -4.3011e-04]], device='cuda:0')
+Epoch 449, bias, value: tensor([-0.0540,  0.0244,  0.0081, -0.0116, -0.0027,  0.0076, -0.0154,  0.0351,
+        -0.0229,  0.0111], device='cuda:0'), grad: tensor([-0.0689,  0.0314, -0.0088, -0.0441,  0.0258,  0.0323, -0.0084,  0.0001,
+         0.0228,  0.0177], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 448, time 227.34, cls_loss 0.4779 cls_loss_mapping 0.0009 cls_loss_causal 0.4259 re_mapping 0.0063 re_causal 0.0170 /// teacc 98.99 lr 0.00001000
+Epoch 450, weight, value: tensor([[-0.2155, -0.0219,  0.0382,  ..., -0.0294, -0.0817, -0.1475],
+        [-0.0632, -0.1126,  0.0343,  ...,  0.0566, -0.0282, -0.0949],
+        [-0.0667, -0.1015, -0.1196,  ...,  0.0437, -0.0389, -0.1177],
+        ...,
+        [-0.0694,  0.0346,  0.0261,  ...,  0.0159, -0.0593, -0.0994],
+        [-0.0876, -0.0062,  0.0156,  ...,  0.0619, -0.0353, -0.1929],
+        [ 0.0648,  0.0694, -0.0521,  ..., -0.1161, -0.0154,  0.1001]],
+       device='cuda:0'), grad: tensor([[ 5.5969e-05, -8.1301e-04,  1.1883e-03,  ..., -6.4545e-03,
+         -4.9744e-03,  2.2098e-05],
+        [ 1.7792e-05,  5.7983e-04,  5.2691e-04,  ..., -4.9782e-03,
+          1.6537e-03,  1.0125e-05],
+        [ 4.9829e-04,  2.0266e-04,  9.5558e-04,  ...,  2.1267e-03,
+          2.4719e-03,  1.3721e-04],
+        ...,
+        [ 7.1287e-04,  1.1711e-03,  7.6532e-04,  ...,  2.2202e-03,
+          2.7351e-03,  7.2956e-05],
+        [ 4.6234e-03,  1.2255e-03,  4.7255e-04,  ...,  2.2087e-03,
+          2.0561e-03,  1.4436e-04],
+        [-1.1040e-02, -1.1902e-03,  8.0633e-04,  ...,  5.7983e-04,
+         -1.2379e-03,  5.3495e-05]], device='cuda:0')
+Epoch 450, bias, value: tensor([-0.0539,  0.0245,  0.0081, -0.0117, -0.0030,  0.0076, -0.0154,  0.0352,
+        -0.0229,  0.0111], device='cuda:0'), grad: tensor([-0.0200, -0.0133,  0.0145, -0.0394, -0.0324,  0.0489,  0.0311,  0.0176,
+         0.0189, -0.0259], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 449, time 227.63, cls_loss 0.4936 cls_loss_mapping 0.0010 cls_loss_causal 0.4342 re_mapping 0.0062 re_causal 0.0165 /// teacc 99.00 lr 0.00001000
+Epoch 451, weight, value: tensor([[-0.2156, -0.0220,  0.0382,  ..., -0.0293, -0.0817, -0.1476],
+        [-0.0633, -0.1126,  0.0343,  ...,  0.0566, -0.0284, -0.0950],
+        [-0.0667, -0.1015, -0.1196,  ...,  0.0436, -0.0390, -0.1177],
+        ...,
+        [-0.0694,  0.0345,  0.0260,  ...,  0.0160, -0.0592, -0.0994],
+        [-0.0877, -0.0061,  0.0156,  ...,  0.0620, -0.0351, -0.1929],
+        [ 0.0647,  0.0694, -0.0521,  ..., -0.1161, -0.0155,  0.1000]],
+       device='cuda:0'), grad: tensor([[ 3.0088e-04,  6.7139e-04,  1.0691e-03,  ...,  3.0403e-03,
+          3.6669e-04,  1.2326e-04],
+        [ 2.2519e-04, -1.1196e-03,  1.6830e-02,  ...,  1.8494e-02,
+          1.3423e-04,  1.2684e-04],
+        [-1.6618e-04,  2.7156e-04,  4.1199e-04,  ..., -2.7370e-03,
+          1.9407e-04, -4.0472e-05],
+        ...,
+        [ 4.7779e-04,  9.3918e-03, -1.0595e-03,  ...,  8.7585e-03,
+          4.8137e-04,  1.2827e-04],
+        [ 1.6193e-03,  6.5327e-04, -4.8447e-03,  ..., -9.9335e-03,
+          2.9011e-03,  2.2721e-04],
+        [ 1.0662e-03, -8.5907e-03, -1.2474e-02,  ..., -1.6052e-02,
+          4.2496e-03, -3.0899e-04]], device='cuda:0')
+Epoch 451, bias, value: tensor([-0.0539,  0.0245,  0.0081, -0.0117, -0.0029,  0.0075, -0.0155,  0.0353,
+        -0.0229,  0.0111], device='cuda:0'), grad: tensor([ 0.0176,  0.0495, -0.0160,  0.0266, -0.0396,  0.0146, -0.0133,  0.0410,
+        -0.0384, -0.0418], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 450, time 227.15, cls_loss 0.4922 cls_loss_mapping 0.0009 cls_loss_causal 0.4224 re_mapping 0.0061 re_causal 0.0169 /// teacc 99.04 lr 0.00001000
+Epoch 452, weight, value: tensor([[-0.2155, -0.0220,  0.0380,  ..., -0.0294, -0.0819, -0.1476],
+        [-0.0632, -0.1125,  0.0341,  ...,  0.0565, -0.0285, -0.0951],
+        [-0.0668, -0.1013, -0.1199,  ...,  0.0435, -0.0390, -0.1177],
+        ...,
+        [-0.0693,  0.0346,  0.0262,  ...,  0.0160, -0.0591, -0.0993],
+        [-0.0880, -0.0062,  0.0157,  ...,  0.0619, -0.0352, -0.1929],
+        [ 0.0648,  0.0693, -0.0520,  ..., -0.1161, -0.0155,  0.1001]],
+       device='cuda:0'), grad: tensor([[-7.0095e-05,  8.8453e-04,  3.4475e-04,  ...,  1.1940e-03,
+          6.6459e-05, -1.0902e-04],
+        [-7.7057e-04,  8.9407e-04, -2.2602e-04,  ..., -3.1376e-03,
+          8.0466e-05, -1.8721e-03],
+        [ 2.9612e-04,  2.4734e-02,  3.7527e-04,  ..., -7.3719e-04,
+          2.5964e-04,  5.2547e-04],
+        ...,
+        [ 3.7813e-04, -2.4231e-02,  8.2827e-04,  ..., -1.0357e-03,
+          6.3038e-04,  2.3985e-04],
+        [ 1.1883e-03, -6.6147e-03,  2.5616e-03,  ...,  2.0218e-03,
+          1.8778e-03,  8.3303e-04],
+        [ 3.3784e-04,  1.5144e-03,  7.3576e-04,  ...,  2.6283e-03,
+          5.4026e-04,  2.7752e-04]], device='cuda:0')
+Epoch 452, bias, value: tensor([-0.0539,  0.0243,  0.0080, -0.0116, -0.0027,  0.0074, -0.0154,  0.0354,
+        -0.0229,  0.0111], device='cuda:0'), grad: tensor([ 0.0233,  0.0088,  0.0151,  0.0453, -0.0396, -0.0095, -0.0227, -0.0368,
+        -0.0057,  0.0220], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 451, time 227.29, cls_loss 0.4930 cls_loss_mapping 0.0010 cls_loss_causal 0.4310 re_mapping 0.0062 re_causal 0.0164 /// teacc 99.00 lr 0.00001000
+Epoch 453, weight, value: tensor([[-0.2153, -0.0219,  0.0382,  ..., -0.0292, -0.0819, -0.1476],
+        [-0.0632, -0.1125,  0.0342,  ...,  0.0565, -0.0285, -0.0947],
+        [-0.0669, -0.1014, -0.1199,  ...,  0.0435, -0.0391, -0.1178],
+        ...,
+        [-0.0693,  0.0345,  0.0263,  ...,  0.0161, -0.0590, -0.0994],
+        [-0.0880, -0.0060,  0.0156,  ...,  0.0618, -0.0352, -0.1931],
+        [ 0.0647,  0.0693, -0.0519,  ..., -0.1161, -0.0156,  0.1001]],
+       device='cuda:0'), grad: tensor([[ 1.9753e-04,  3.7003e-04,  7.5912e-04,  ...,  1.8234e-03,
+          0.0000e+00,  2.5225e-04],
+        [ 2.8804e-05,  7.7724e-05,  7.0810e-04,  ...,  2.1648e-03,
+          0.0000e+00,  6.0081e-05],
+        [ 1.2362e-04,  2.4109e-02,  1.4057e-03,  ..., -1.4229e-03,
+          1.8626e-08,  5.3501e-04],
+        ...,
+        [ 1.9580e-05,  1.7426e-02, -1.0834e-03,  ...,  4.7970e-04,
+          3.7253e-09,  2.1305e-03],
+        [ 3.3522e-04,  8.5449e-04,  8.2922e-04,  ...,  2.2049e-03,
+          3.7253e-09,  5.7220e-04],
+        [ 8.5545e-04, -1.5495e-02,  1.4439e-03,  ...,  3.2997e-03,
+          0.0000e+00, -1.1473e-03]], device='cuda:0')
+Epoch 453, bias, value: tensor([-0.0539,  0.0244,  0.0080, -0.0115, -0.0027,  0.0075, -0.0157,  0.0355,
+        -0.0229,  0.0111], device='cuda:0'), grad: tensor([ 0.0119,  0.0140,  0.0041, -0.0327, -0.0166, -0.0021, -0.0185,  0.0087,
+         0.0144,  0.0168], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 452, time 226.77, cls_loss 0.4833 cls_loss_mapping 0.0010 cls_loss_causal 0.4247 re_mapping 0.0060 re_causal 0.0160 /// teacc 99.00 lr 0.00001000
+Epoch 454, weight, value: tensor([[-0.2153, -0.0220,  0.0382,  ..., -0.0291, -0.0819, -0.1474],
+        [-0.0633, -0.1124,  0.0342,  ...,  0.0565, -0.0286, -0.0946],
+        [-0.0670, -0.1015, -0.1200,  ...,  0.0436, -0.0391, -0.1178],
+        ...,
+        [-0.0694,  0.0343,  0.0262,  ...,  0.0161, -0.0590, -0.0994],
+        [-0.0880, -0.0060,  0.0156,  ...,  0.0618, -0.0352, -0.1933],
+        [ 0.0648,  0.0694, -0.0520,  ..., -0.1162, -0.0157,  0.1001]],
+       device='cuda:0'), grad: tensor([[ 2.0623e-04,  3.1452e-03,  2.6822e-04,  ...,  1.4610e-03,
+         -3.5629e-03,  7.9870e-04],
+        [-7.1526e-03,  2.8634e-04, -6.0501e-03,  ..., -6.1531e-03,
+          6.2752e-04,  2.0802e-04],
+        [ 3.5858e-04,  4.0936e-04,  2.9125e-03,  ...,  4.2152e-03,
+          6.7616e-04,  1.2808e-03],
+        ...,
+        [ 3.5048e-05,  3.2330e-04,  1.0979e-04,  ...,  1.1444e-03,
+          4.9639e-04,  2.7895e-04],
+        [ 3.6755e-03,  1.1034e-03,  2.7237e-03,  ..., -9.9030e-03,
+          2.0676e-03,  1.2274e-03],
+        [-9.8896e-04,  1.6613e-03,  2.0730e-04,  ..., -3.6983e-03,
+         -1.5287e-03,  5.5027e-04]], device='cuda:0')
+Epoch 454, bias, value: tensor([-0.0538,  0.0244,  0.0080, -0.0115, -0.0026,  0.0073, -0.0156,  0.0355,
+        -0.0229,  0.0110], device='cuda:0'), grad: tensor([-0.0070, -0.0192,  0.0194, -0.0101,  0.0137,  0.0332, -0.0071,  0.0078,
+        -0.0059, -0.0249], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 453, time 224.02, cls_loss 0.5118 cls_loss_mapping 0.0010 cls_loss_causal 0.4567 re_mapping 0.0059 re_causal 0.0168 /// teacc 99.01 lr 0.00001000
+Epoch 455, weight, value: tensor([[-0.2153, -0.0220,  0.0382,  ..., -0.0293, -0.0819, -0.1475],
+        [-0.0634, -0.1123,  0.0342,  ...,  0.0565, -0.0287, -0.0946],
+        [-0.0671, -0.1015, -0.1200,  ...,  0.0434, -0.0391, -0.1179],
+        ...,
+        [-0.0694,  0.0342,  0.0264,  ...,  0.0161, -0.0589, -0.0996],
+        [-0.0881, -0.0061,  0.0154,  ...,  0.0618, -0.0351, -0.1934],
+        [ 0.0648,  0.0695, -0.0520,  ..., -0.1161, -0.0157,  0.1001]],
+       device='cuda:0'), grad: tensor([[-2.1572e-03, -2.3767e-05, -3.9825e-03,  ..., -2.9488e-03,
+         -8.9884e-04, -9.7084e-04],
+        [ 1.7142e-04,  2.4147e-03,  7.7629e-04,  ...,  2.3441e-03,
+          7.1406e-05,  8.9288e-05],
+        [ 4.1544e-05,  6.5446e-05, -1.5192e-03,  ..., -6.1607e-03,
+          1.6868e-05,  1.8501e-04],
+        ...,
+        [ 3.8171e-04, -1.1314e-02,  8.3780e-04,  ...,  1.3180e-03,
+          1.5748e-04,  1.2982e-04],
+        [ 6.1846e-04, -2.0237e-03,  1.3418e-03,  ...,  5.3406e-04,
+          2.5678e-04,  4.5657e-04],
+        [ 7.2002e-04,  2.5482e-03,  1.5669e-03,  ...,  2.5864e-03,
+          3.0613e-04,  4.0197e-04]], device='cuda:0')
+Epoch 455, bias, value: tensor([-0.0539,  0.0244,  0.0078, -0.0114, -0.0026,  0.0074, -0.0156,  0.0355,
+        -0.0229,  0.0110], device='cuda:0'), grad: tensor([-0.0080,  0.0180, -0.0531,  0.0090,  0.0122,  0.0134,  0.0033, -0.0131,
+        -0.0007,  0.0190], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 454, time 225.98, cls_loss 0.4695 cls_loss_mapping 0.0009 cls_loss_causal 0.4018 re_mapping 0.0062 re_causal 0.0165 /// teacc 99.00 lr 0.00001000
+Epoch 456, weight, value: tensor([[-0.2153, -0.0221,  0.0381,  ..., -0.0292, -0.0819, -0.1476],
+        [-0.0634, -0.1123,  0.0342,  ...,  0.0566, -0.0287, -0.0946],
+        [-0.0671, -0.1014, -0.1201,  ...,  0.0434, -0.0391, -0.1178],
+        ...,
+        [-0.0694,  0.0342,  0.0264,  ...,  0.0160, -0.0590, -0.0997],
+        [-0.0881, -0.0062,  0.0156,  ...,  0.0617, -0.0351, -0.1935],
+        [ 0.0647,  0.0695, -0.0520,  ..., -0.1161, -0.0156,  0.1002]],
+       device='cuda:0'), grad: tensor([[ 0.0010,  0.0006,  0.0014,  ...,  0.0025,  0.0002,  0.0003],
+        [ 0.0017,  0.0016,  0.0030,  ...,  0.0052,  0.0005,  0.0014],
+        [ 0.0031,  0.0010,  0.0022,  ...,  0.0044,  0.0009,  0.0010],
+        ...,
+        [-0.0054,  0.0007, -0.0040,  ..., -0.0118,  0.0001,  0.0002],
+        [-0.0064, -0.0310, -0.0041,  ..., -0.0075, -0.0035, -0.0034],
+        [ 0.0023,  0.0083,  0.0022,  ...,  0.0024,  0.0003,  0.0005]],
+       device='cuda:0')
+Epoch 456, bias, value: tensor([-0.0539,  0.0245,  0.0078, -0.0115, -0.0024,  0.0074, -0.0156,  0.0354,
+        -0.0229,  0.0110], device='cuda:0'), grad: tensor([ 0.0112,  0.0299,  0.0190,  0.0035,  0.0292, -0.0147,  0.0192, -0.0498,
+        -0.0692,  0.0215], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 455, time 225.54, cls_loss 0.4885 cls_loss_mapping 0.0008 cls_loss_causal 0.4299 re_mapping 0.0060 re_causal 0.0163 /// teacc 99.00 lr 0.00001000
+Epoch 457, weight, value: tensor([[-0.2151, -0.0220,  0.0381,  ..., -0.0294, -0.0819, -0.1476],
+        [-0.0634, -0.1126,  0.0343,  ...,  0.0568, -0.0286, -0.0947],
+        [-0.0671, -0.1015, -0.1201,  ...,  0.0434, -0.0391, -0.1178],
+        ...,
+        [-0.0694,  0.0343,  0.0265,  ...,  0.0160, -0.0587, -0.0997],
+        [-0.0880, -0.0063,  0.0156,  ...,  0.0618, -0.0351, -0.1936],
+        [ 0.0648,  0.0697, -0.0520,  ..., -0.1160, -0.0157,  0.1003]],
+       device='cuda:0'), grad: tensor([[ 1.6317e-06,  5.7507e-04, -1.7905e-04,  ...,  3.1781e-04,
+          9.4995e-08,  1.6857e-06],
+        [ 2.2445e-06,  8.1730e-04,  8.1062e-06,  ...,  5.4979e-04,
+          3.5018e-07,  3.0212e-06],
+        [ 2.4438e-06,  5.5981e-04,  2.0131e-05,  ..., -4.8971e-04,
+          1.0245e-07,  4.9435e-06],
+        ...,
+        [ 2.6464e-04, -3.0594e-03,  1.0079e-04,  ...,  7.1573e-04,
+          3.9525e-06,  2.0444e-04],
+        [ 4.3184e-05, -1.7190e-04,  5.5730e-05,  ..., -7.8917e-04,
+          1.8682e-06, -1.2264e-03],
+        [-5.7030e-04,  6.0749e-04, -2.3830e-04,  ..., -4.1351e-03,
+         -1.9416e-05, -3.3069e-04]], device='cuda:0')
+Epoch 457, bias, value: tensor([-0.0539,  0.0246,  0.0078, -0.0116, -0.0027,  0.0074, -0.0155,  0.0354,
+        -0.0229,  0.0111], device='cuda:0'), grad: tensor([ 0.0048,  0.0102,  0.0061,  0.0064,  0.0065,  0.0100, -0.0030, -0.0196,
+         0.0054, -0.0269], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 456, time 230.11, cls_loss 0.5059 cls_loss_mapping 0.0009 cls_loss_causal 0.4437 re_mapping 0.0062 re_causal 0.0171 /// teacc 99.01 lr 0.00001000
+Epoch 458, weight, value: tensor([[-0.2151, -0.0220,  0.0381,  ..., -0.0295, -0.0819, -0.1476],
+        [-0.0634, -0.1126,  0.0342,  ...,  0.0567, -0.0286, -0.0947],
+        [-0.0671, -0.1014, -0.1202,  ...,  0.0434, -0.0391, -0.1178],
+        ...,
+        [-0.0694,  0.0341,  0.0264,  ...,  0.0160, -0.0588, -0.0997],
+        [-0.0880, -0.0063,  0.0156,  ...,  0.0618, -0.0352, -0.1937],
+        [ 0.0648,  0.0699, -0.0518,  ..., -0.1160, -0.0157,  0.1003]],
+       device='cuda:0'), grad: tensor([[ 2.3994e-03,  1.1101e-06,  6.0387e-03,  ...,  4.5395e-03,
+          2.4014e-03,  9.0152e-06],
+        [ 2.0742e-05,  2.0337e-04,  8.2403e-06,  ...,  3.6278e-03,
+          6.8247e-06,  1.0568e-04],
+        [ 3.7537e-03,  2.1660e-04,  8.5115e-05,  ...,  2.6932e-03,
+          6.0126e-06,  1.7290e-03],
+        ...,
+        [ 1.8120e-04, -1.5450e-03, -2.2197e-04,  ...,  1.0386e-03,
+          1.3731e-05, -1.6880e-03],
+        [ 1.0365e-04,  1.1843e-04,  6.2752e-04,  ..., -1.6037e-02,
+          5.3525e-05,  1.0949e-04],
+        [-1.6975e-03,  5.1880e-04,  4.5538e-04,  ...,  3.1548e-03,
+         -1.7738e-04, -3.5882e-04]], device='cuda:0')
+Epoch 458, bias, value: tensor([-0.0540,  0.0246,  0.0079, -0.0115, -0.0026,  0.0076, -0.0156,  0.0353,
+        -0.0229,  0.0111], device='cuda:0'), grad: tensor([ 0.0450,  0.0167, -0.0097, -0.0269,  0.0192,  0.0156, -0.0648,  0.0010,
+        -0.0171,  0.0211], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 457, time 225.77, cls_loss 0.5075 cls_loss_mapping 0.0009 cls_loss_causal 0.4515 re_mapping 0.0061 re_causal 0.0168 /// teacc 99.02 lr 0.00001000
+Epoch 459, weight, value: tensor([[-0.2152, -0.0218,  0.0380,  ..., -0.0296, -0.0820, -0.1476],
+        [-0.0633, -0.1126,  0.0341,  ...,  0.0567, -0.0287, -0.0947],
+        [-0.0672, -0.1013, -0.1203,  ...,  0.0433, -0.0389, -0.1179],
+        ...,
+        [-0.0695,  0.0341,  0.0265,  ...,  0.0160, -0.0589, -0.0998],
+        [-0.0879, -0.0063,  0.0156,  ...,  0.0618, -0.0351, -0.1937],
+        [ 0.0649,  0.0698, -0.0518,  ..., -0.1161, -0.0158,  0.1003]],
+       device='cuda:0'), grad: tensor([[ 8.5950e-05,  6.4325e-04,  3.5954e-04,  ...,  2.4986e-03,
+          5.2881e-04,  4.2841e-08],
+        [ 1.1712e-04,  6.9809e-04, -1.2934e-04,  ..., -2.0742e-04,
+          2.3365e-04,  1.5087e-07],
+        [ 1.8311e-04,  4.7350e-04,  1.4734e-04,  ..., -4.9496e-04,
+         -1.5669e-03,  1.7256e-05],
+        ...,
+        [ 7.6818e-04, -8.3971e-04,  7.1335e-04,  ...,  4.0398e-03,
+          2.3794e-04,  1.7047e-05],
+        [ 1.4572e-03,  6.2895e-04,  5.4121e-04,  ...,  1.0157e-03,
+          6.7282e-04,  5.6364e-06],
+        [ 7.0286e-04, -1.2197e-03, -5.9891e-04,  ..., -7.0763e-04,
+          3.8552e-04, -2.9609e-05]], device='cuda:0')
+Epoch 459, bias, value: tensor([-0.0540,  0.0247,  0.0079, -0.0116, -0.0024,  0.0075, -0.0157,  0.0353,
+        -0.0229,  0.0110], device='cuda:0'), grad: tensor([ 0.0246, -0.0019, -0.0002,  0.0058,  0.0098, -0.0613, -0.0084,  0.0284,
+        -0.0006,  0.0037], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 458, time 225.66, cls_loss 0.4997 cls_loss_mapping 0.0008 cls_loss_causal 0.4340 re_mapping 0.0061 re_causal 0.0170 /// teacc 98.98 lr 0.00001000
+Epoch 460, weight, value: tensor([[-0.2152, -0.0218,  0.0380,  ..., -0.0295, -0.0821, -0.1475],
+        [-0.0633, -0.1126,  0.0341,  ...,  0.0566, -0.0288, -0.0947],
+        [-0.0671, -0.1012, -0.1204,  ...,  0.0432, -0.0388, -0.1180],
+        ...,
+        [-0.0693,  0.0341,  0.0266,  ...,  0.0162, -0.0587, -0.0997],
+        [-0.0880, -0.0063,  0.0155,  ...,  0.0618, -0.0351, -0.1939],
+        [ 0.0652,  0.0698, -0.0517,  ..., -0.1160, -0.0159,  0.1005]],
+       device='cuda:0'), grad: tensor([[ 1.5211e-04,  8.8882e-04,  6.7949e-04,  ...,  6.1941e-04,
+          7.2539e-05,  1.5244e-05],
+        [ 1.1402e-04,  2.3975e-03,  7.0333e-04,  ...,  1.3790e-03,
+          5.6684e-05,  3.9488e-06],
+        [-1.2293e-03, -6.8617e-04,  6.3956e-05,  ..., -4.7951e-03,
+         -7.1287e-04,  5.1707e-06],
+        ...,
+        [ 3.0804e-04,  1.2188e-03,  9.4831e-05,  ...,  7.4911e-04,
+          1.2553e-04,  9.5069e-05],
+        [-1.9501e-02,  2.5368e-03,  3.7909e-04,  ..., -4.4785e-03,
+          2.2948e-04,  3.3832e-04],
+        [ 2.3174e-03, -8.4152e-03,  1.1215e-03,  ...,  7.5960e-04,
+          6.8617e-04,  1.1158e-03]], device='cuda:0')
+Epoch 460, bias, value: tensor([-0.0541,  0.0245,  0.0079, -0.0116, -0.0024,  0.0075, -0.0156,  0.0354,
+        -0.0229,  0.0111], device='cuda:0'), grad: tensor([ 0.0081,  0.0110, -0.0502,  0.0094,  0.0168,  0.0195, -0.0021,  0.0081,
+        -0.0164, -0.0041], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 459, time 223.60, cls_loss 0.4977 cls_loss_mapping 0.0007 cls_loss_causal 0.4428 re_mapping 0.0064 re_causal 0.0175 /// teacc 98.94 lr 0.00001000
+Epoch 461, weight, value: tensor([[-0.2152, -0.0219,  0.0379,  ..., -0.0296, -0.0820, -0.1476],
+        [-0.0633, -0.1125,  0.0341,  ...,  0.0567, -0.0287, -0.0946],
+        [-0.0672, -0.1012, -0.1205,  ...,  0.0432, -0.0389, -0.1181],
+        ...,
+        [-0.0693,  0.0342,  0.0266,  ...,  0.0162, -0.0588, -0.0997],
+        [-0.0880, -0.0063,  0.0155,  ...,  0.0618, -0.0350, -0.1939],
+        [ 0.0652,  0.0697, -0.0517,  ..., -0.1160, -0.0159,  0.1005]],
+       device='cuda:0'), grad: tensor([[ 3.9153e-06,  3.1805e-04,  1.9036e-06,  ...,  1.6079e-03,
+          1.0282e-06,  9.0718e-05],
+        [-4.5225e-06,  1.6129e-04, -6.4790e-05,  ..., -1.9522e-03,
+          4.5300e-06,  1.0693e-04],
+        [ 4.3511e-06, -3.8849e-02,  2.1178e-06,  ..., -2.6550e-03,
+          4.1798e-06,  9.4235e-05],
+        ...,
+        [ 1.2442e-05,  3.3142e-02,  4.0412e-05,  ...,  3.9520e-03,
+         -1.0900e-05, -9.6083e-04],
+        [ 5.3501e-04,  2.1994e-04,  5.7936e-04,  ...,  1.7715e-04,
+          1.1456e-04,  1.6034e-04],
+        [-1.4105e-03,  5.0392e-03, -1.6079e-03,  ...,  2.1973e-03,
+         -3.2043e-04,  2.0817e-05]], device='cuda:0')
+Epoch 461, bias, value: tensor([-0.0541,  0.0246,  0.0079, -0.0115, -0.0027,  0.0075, -0.0156,  0.0354,
+        -0.0229,  0.0111], device='cuda:0'), grad: tensor([ 0.0175, -0.0140, -0.0068, -0.0126,  0.0208,  0.0181, -0.0403,  0.0109,
+        -0.0118,  0.0182], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 460, time 227.83, cls_loss 0.4764 cls_loss_mapping 0.0008 cls_loss_causal 0.4150 re_mapping 0.0062 re_causal 0.0166 /// teacc 98.96 lr 0.00001000
+Epoch 462, weight, value: tensor([[-0.2153, -0.0218,  0.0378,  ..., -0.0297, -0.0822, -0.1477],
+        [-0.0632, -0.1127,  0.0341,  ...,  0.0565, -0.0288, -0.0949],
+        [-0.0673, -0.1013, -0.1205,  ...,  0.0431, -0.0388, -0.1183],
+        ...,
+        [-0.0693,  0.0343,  0.0266,  ...,  0.0163, -0.0589, -0.0998],
+        [-0.0880, -0.0064,  0.0156,  ...,  0.0620, -0.0350, -0.1939],
+        [ 0.0653,  0.0697, -0.0517,  ..., -0.1161, -0.0158,  0.1005]],
+       device='cuda:0'), grad: tensor([[ 0.0002,  0.0004, -0.0035,  ..., -0.0007, -0.0069,  0.0002],
+        [ 0.0013,  0.0004,  0.0032,  ...,  0.0054,  0.0010,  0.0008],
+        [ 0.0012,  0.0006,  0.0024,  ...,  0.0016,  0.0010,  0.0003],
+        ...,
+        [ 0.0002,  0.0011,  0.0056,  ...,  0.0071,  0.0029,  0.0001],
+        [-0.0030,  0.0026, -0.0033,  ..., -0.0023,  0.0016,  0.0002],
+        [ 0.0010,  0.0034, -0.0052,  ..., -0.0032,  0.0029,  0.0005]],
+       device='cuda:0')
+Epoch 462, bias, value: tensor([-0.0541,  0.0245,  0.0079, -0.0114, -0.0028,  0.0076, -0.0156,  0.0354,
+        -0.0228,  0.0110], device='cuda:0'), grad: tensor([-0.0072,  0.0332, -0.0026, -0.0309, -0.0059,  0.0022, -0.0423,  0.0412,
+         0.0073,  0.0050], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 461, time 228.37, cls_loss 0.5025 cls_loss_mapping 0.0009 cls_loss_causal 0.4403 re_mapping 0.0063 re_causal 0.0169 /// teacc 99.00 lr 0.00001000
+Epoch 463, weight, value: tensor([[-0.2153, -0.0218,  0.0378,  ..., -0.0299, -0.0823, -0.1478],
+        [-0.0633, -0.1126,  0.0340,  ...,  0.0565, -0.0288, -0.0950],
+        [-0.0672, -0.1014, -0.1205,  ...,  0.0432, -0.0387, -0.1181],
+        ...,
+        [-0.0692,  0.0344,  0.0266,  ...,  0.0164, -0.0589, -0.0998],
+        [-0.0879, -0.0065,  0.0156,  ...,  0.0621, -0.0349, -0.1939],
+        [ 0.0653,  0.0696, -0.0517,  ..., -0.1162, -0.0159,  0.1005]],
+       device='cuda:0'), grad: tensor([[ 4.0978e-07,  6.4468e-04,  8.8215e-04,  ...,  3.1071e-03,
+          4.3011e-04,  7.6532e-05],
+        [ 4.5002e-06, -5.4436e-03, -1.3170e-03,  ..., -3.9520e-03,
+          1.0414e-03,  3.9130e-05],
+        [ 2.0694e-06,  1.6403e-03,  2.1780e-04,  ...,  4.3945e-03,
+          2.4676e-04,  4.7415e-05],
+        ...,
+        [ 2.0957e-04,  1.9245e-03,  5.0640e-04,  ...,  9.9411e-03,
+          3.4618e-04, -5.9509e-04],
+        [ 1.0617e-05, -1.1883e-03,  4.9973e-04,  ..., -1.8673e-03,
+          2.7800e-04, -3.4285e-04],
+        [-1.1425e-03,  2.6360e-03, -5.6177e-05,  ...,  7.6723e-04,
+          1.4877e-04,  1.2092e-05]], device='cuda:0')
+Epoch 463, bias, value: tensor([-0.0542,  0.0245,  0.0079, -0.0114, -0.0027,  0.0076, -0.0157,  0.0354,
+        -0.0228,  0.0110], device='cuda:0'), grad: tensor([ 0.0244, -0.0131,  0.0214, -0.0096, -0.0392, -0.0181,  0.0215,  0.0325,
+        -0.0132, -0.0067], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 462, time 226.96, cls_loss 0.4776 cls_loss_mapping 0.0008 cls_loss_causal 0.4156 re_mapping 0.0061 re_causal 0.0163 /// teacc 98.97 lr 0.00001000
+Epoch 464, weight, value: tensor([[-0.2154, -0.0219,  0.0378,  ..., -0.0299, -0.0823, -0.1478],
+        [-0.0633, -0.1127,  0.0341,  ...,  0.0564, -0.0288, -0.0951],
+        [-0.0671, -0.1015, -0.1204,  ...,  0.0432, -0.0387, -0.1181],
+        ...,
+        [-0.0691,  0.0345,  0.0266,  ...,  0.0164, -0.0587, -0.0998],
+        [-0.0879, -0.0066,  0.0156,  ...,  0.0620, -0.0349, -0.1940],
+        [ 0.0653,  0.0695, -0.0516,  ..., -0.1162, -0.0157,  0.1005]],
+       device='cuda:0'), grad: tensor([[ 1.7285e-05,  1.2755e-04,  4.3583e-04,  ...,  1.3695e-03,
+          9.3132e-06, -1.2016e-04],
+        [ 2.6636e-07,  4.7421e-04, -1.0128e-03,  ...,  1.6654e-04,
+          2.4751e-05,  2.2268e-04],
+        [ 3.8017e-06,  7.3004e-04,  1.9503e-04,  ...,  2.6474e-03,
+          9.6321e-05,  4.4775e-04],
+        ...,
+        [ 6.9695e-03, -7.5960e-04,  2.0063e-04,  ..., -4.0207e-03,
+          1.5929e-05,  6.9797e-05],
+        [ 1.9848e-04,  3.4237e-04, -9.5654e-04,  ...,  7.7391e-04,
+         -2.2137e-04,  1.3113e-04],
+        [-7.0038e-03, -3.3813e-02,  4.8399e-04,  ...,  2.2736e-03,
+          2.4334e-05,  4.6086e-04]], device='cuda:0')
+Epoch 464, bias, value: tensor([-0.0542,  0.0245,  0.0081, -0.0114, -0.0027,  0.0076, -0.0157,  0.0355,
+        -0.0229,  0.0110], device='cuda:0'), grad: tensor([ 0.0064,  0.0054,  0.0137,  0.0095,  0.0042, -0.0227,  0.0086,  0.0026,
+         0.0050, -0.0327], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 463, time 226.73, cls_loss 0.4860 cls_loss_mapping 0.0009 cls_loss_causal 0.4190 re_mapping 0.0061 re_causal 0.0162 /// teacc 99.03 lr 0.00001000
+Epoch 465, weight, value: tensor([[-0.2155, -0.0218,  0.0377,  ..., -0.0298, -0.0823, -0.1479],
+        [-0.0633, -0.1127,  0.0340,  ...,  0.0564, -0.0287, -0.0948],
+        [-0.0671, -0.1014, -0.1205,  ...,  0.0431, -0.0387, -0.1181],
+        ...,
+        [-0.0692,  0.0344,  0.0265,  ...,  0.0164, -0.0589, -0.0999],
+        [-0.0876, -0.0065,  0.0156,  ...,  0.0620, -0.0349, -0.1941],
+        [ 0.0653,  0.0695, -0.0515,  ..., -0.1160, -0.0155,  0.1004]],
+       device='cuda:0'), grad: tensor([[ 1.2755e-04, -1.0514e-04,  1.6630e-04,  ...,  1.0242e-03,
+         -1.8477e-05, -2.0421e-04],
+        [ 1.3970e-06, -6.9082e-05,  7.2289e-04,  ...,  2.3251e-03,
+          3.2969e-07,  2.4308e-06],
+        [-4.0680e-06, -2.3353e-04, -2.4624e-03,  ..., -1.0498e-02,
+          4.0233e-06,  6.2227e-05],
+        ...,
+        [ 5.5581e-05,  2.2739e-05,  2.8744e-03,  ...,  3.7098e-03,
+          6.3851e-06,  5.3883e-05],
+        [ 4.7863e-05,  4.7798e-03,  1.3905e-03,  ...,  2.0962e-03,
+         -5.6513e-06,  8.1837e-05],
+        [ 4.0621e-05, -5.6839e-03,  1.4296e-03,  ...,  2.1992e-03,
+          2.5749e-05,  1.1051e-04]], device='cuda:0')
+Epoch 465, bias, value: tensor([-0.0541,  0.0245,  0.0079, -0.0115, -0.0027,  0.0076, -0.0157,  0.0354,
+        -0.0228,  0.0111], device='cuda:0'), grad: tensor([ 0.0075,  0.0121, -0.0507,  0.0119, -0.0163,  0.0113, -0.0208,  0.0193,
+         0.0166,  0.0090], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 464, time 228.71, cls_loss 0.4899 cls_loss_mapping 0.0009 cls_loss_causal 0.4159 re_mapping 0.0062 re_causal 0.0168 /// teacc 99.01 lr 0.00001000
+Epoch 466, weight, value: tensor([[-0.2154, -0.0220,  0.0378,  ..., -0.0300, -0.0825, -0.1480],
+        [-0.0632, -0.1128,  0.0342,  ...,  0.0565, -0.0286, -0.0949],
+        [-0.0671, -0.1015, -0.1205,  ...,  0.0431, -0.0384, -0.1181],
+        ...,
+        [-0.0692,  0.0345,  0.0264,  ...,  0.0164, -0.0589, -0.0999],
+        [-0.0877, -0.0065,  0.0155,  ...,  0.0620, -0.0349, -0.1941],
+        [ 0.0653,  0.0696, -0.0514,  ..., -0.1158, -0.0155,  0.1005]],
+       device='cuda:0'), grad: tensor([[ 1.2517e-04, -6.0806e-03,  2.0221e-05,  ..., -1.3474e-02,
+         -1.1887e-02,  1.9804e-05],
+        [ 3.4733e-03,  3.7694e-04,  1.9956e-04,  ...,  2.0981e-03,
+          6.7520e-04,  1.9327e-05],
+        [ 9.6512e-04,  1.0864e-02,  7.0453e-05,  ...,  4.5815e-03,
+          2.0790e-03,  7.1812e-04],
+        ...,
+        [ 1.9245e-03,  4.0078e-04,  1.0967e-04,  ...,  2.9507e-03,
+          1.9274e-03,  3.6478e-05],
+        [ 4.5824e-04,  2.4529e-03,  4.6164e-05,  ...,  1.6766e-03,
+         -1.2188e-03,  4.0382e-05],
+        [ 2.8019e-03,  2.6264e-03,  2.8419e-03,  ...,  3.1528e-03,
+          1.7071e-03,  1.2283e-03]], device='cuda:0')
+Epoch 466, bias, value: tensor([-0.0543,  0.0245,  0.0080, -0.0114, -0.0028,  0.0075, -0.0158,  0.0356,
+        -0.0228,  0.0112], device='cuda:0'), grad: tensor([-0.0369,  0.0142,  0.0227,  0.0021, -0.0315, -0.0208,  0.0158,  0.0121,
+         0.0032,  0.0190], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 465, time 226.94, cls_loss 0.4604 cls_loss_mapping 0.0008 cls_loss_causal 0.4101 re_mapping 0.0063 re_causal 0.0167 /// teacc 99.00 lr 0.00001000
+Epoch 467, weight, value: tensor([[-0.2155, -0.0220,  0.0378,  ..., -0.0299, -0.0825, -0.1478],
+        [-0.0632, -0.1128,  0.0342,  ...,  0.0566, -0.0286, -0.0949],
+        [-0.0671, -0.1014, -0.1205,  ...,  0.0430, -0.0384, -0.1182],
+        ...,
+        [-0.0693,  0.0344,  0.0263,  ...,  0.0164, -0.0590, -0.0999],
+        [-0.0877, -0.0065,  0.0157,  ...,  0.0620, -0.0348, -0.1939],
+        [ 0.0653,  0.0696, -0.0514,  ..., -0.1158, -0.0154,  0.1006]],
+       device='cuda:0'), grad: tensor([[-1.1718e-04,  1.3329e-05,  1.3304e-04,  ...,  7.9250e-04,
+          3.9712e-06,  1.0263e-06],
+        [ 4.8012e-05, -3.8981e-04,  3.8362e-04,  ...,  1.5991e-02,
+          3.4034e-05,  1.7419e-05],
+        [ 4.2021e-05,  6.2406e-05,  2.9492e-04,  ...,  1.1988e-03,
+          7.3314e-06,  2.9560e-06],
+        ...,
+        [ 1.0884e-04,  3.9607e-05, -3.3016e-03,  ..., -1.7197e-02,
+          1.1659e-04,  7.9274e-05],
+        [ 1.6081e-04,  2.7800e-04,  4.9877e-04,  ...,  2.1763e-03,
+          2.7329e-05,  1.4579e-04],
+        [-5.4779e-03, -7.4863e-05, -8.5983e-03,  ..., -5.3749e-03,
+         -3.3951e-03, -2.4796e-03]], device='cuda:0')
+Epoch 467, bias, value: tensor([-0.0542,  0.0247,  0.0080, -0.0115, -0.0029,  0.0074, -0.0158,  0.0355,
+        -0.0228,  0.0111], device='cuda:0'), grad: tensor([ 0.0050,  0.0356,  0.0075, -0.0204,  0.0262,  0.0080, -0.0126, -0.0494,
+         0.0131, -0.0130], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 466, time 227.34, cls_loss 0.4873 cls_loss_mapping 0.0008 cls_loss_causal 0.4308 re_mapping 0.0062 re_causal 0.0170 /// teacc 99.02 lr 0.00001000
+Epoch 468, weight, value: tensor([[-0.2154, -0.0221,  0.0379,  ..., -0.0297, -0.0825, -0.1478],
+        [-0.0633, -0.1126,  0.0340,  ...,  0.0565, -0.0285, -0.0949],
+        [-0.0671, -0.1016, -0.1206,  ...,  0.0430, -0.0386, -0.1182],
+        ...,
+        [-0.0693,  0.0343,  0.0263,  ...,  0.0165, -0.0589, -0.1000],
+        [-0.0877, -0.0065,  0.0159,  ...,  0.0621, -0.0347, -0.1940],
+        [ 0.0655,  0.0696, -0.0513,  ..., -0.1158, -0.0155,  0.1007]],
+       device='cuda:0'), grad: tensor([[ 1.2919e-05,  8.2445e-04,  1.1772e-05,  ..., -2.7332e-03,
+          3.7432e-04,  7.9930e-05],
+        [ 2.2799e-05, -6.2904e-03,  4.6005e-03,  ...,  1.6708e-03,
+          5.2750e-05,  7.1600e-06],
+        [ 6.2525e-05,  7.5150e-04,  7.7561e-06,  ...,  1.9875e-03,
+          5.9032e-04,  7.1347e-05],
+        ...,
+        [ 6.4850e-04, -3.1815e-03,  2.2590e-04,  ..., -6.4993e-04,
+          2.3289e-03,  6.7616e-04],
+        [ 1.1406e-03,  6.4964e-03,  1.1641e-04,  ...,  2.6054e-03,
+          1.4315e-03,  3.0556e-03],
+        [ 6.1512e-04,  9.0637e-03,  3.2749e-03,  ...,  3.0346e-03,
+          1.1587e-03,  2.9488e-03]], device='cuda:0')
+Epoch 468, bias, value: tensor([-0.0542,  0.0247,  0.0079, -0.0116, -0.0029,  0.0074, -0.0158,  0.0356,
+        -0.0228,  0.0111], device='cuda:0'), grad: tensor([-0.0378, -0.0207,  0.0238, -0.0049, -0.0223, -0.0082,  0.0204, -0.0026,
+         0.0265,  0.0258], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 467, time 226.06, cls_loss 0.4865 cls_loss_mapping 0.0009 cls_loss_causal 0.4338 re_mapping 0.0059 re_causal 0.0164 /// teacc 98.93 lr 0.00001000
+Epoch 469, weight, value: tensor([[-0.2155, -0.0220,  0.0379,  ..., -0.0299, -0.0825, -0.1478],
+        [-0.0634, -0.1126,  0.0339,  ...,  0.0564, -0.0285, -0.0949],
+        [-0.0673, -0.1017, -0.1207,  ...,  0.0429, -0.0387, -0.1184],
+        ...,
+        [-0.0693,  0.0342,  0.0264,  ...,  0.0165, -0.0589, -0.1000],
+        [-0.0875, -0.0065,  0.0157,  ...,  0.0621, -0.0347, -0.1941],
+        [ 0.0654,  0.0696, -0.0513,  ..., -0.1157, -0.0155,  0.1008]],
+       device='cuda:0'), grad: tensor([[ 6.3300e-05,  2.4557e-04,  6.5899e-04,  ...,  1.9197e-03,
+         -1.5039e-03,  3.8075e-04],
+        [ 2.4529e-03, -6.0380e-05,  1.8206e-03,  ...,  2.5673e-03,
+          1.0616e-04,  8.1778e-05],
+        [ 1.0138e-03,  9.9301e-05,  1.5507e-03,  ...,  6.6948e-03,
+          7.0000e-04,  1.3471e-04],
+        ...,
+        [ 8.0919e-04,  2.8417e-05,  6.2370e-04,  ..., -7.3662e-03,
+          1.4722e-04,  4.1318e-04],
+        [-8.1711e-03,  1.6952e-04, -4.0207e-03,  ..., -4.7073e-03,
+         -2.3499e-03, -3.9062e-03],
+        [ 2.0103e-03,  1.3523e-05,  1.1444e-03,  ...,  5.6076e-03,
+          1.7271e-03,  2.4147e-03]], device='cuda:0')
+Epoch 469, bias, value: tensor([-0.0542,  0.0247,  0.0079, -0.0114, -0.0030,  0.0073, -0.0159,  0.0357,
+        -0.0228,  0.0112], device='cuda:0'), grad: tensor([ 0.0123,  0.0185,  0.0277, -0.0190,  0.0126,  0.0012, -0.0160, -0.0507,
+        -0.0079,  0.0214], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 468, time 227.71, cls_loss 0.4784 cls_loss_mapping 0.0008 cls_loss_causal 0.4148 re_mapping 0.0062 re_causal 0.0168 /// teacc 98.94 lr 0.00001000
+Epoch 470, weight, value: tensor([[-0.2154, -0.0219,  0.0379,  ..., -0.0299, -0.0825, -0.1478],
+        [-0.0635, -0.1126,  0.0339,  ...,  0.0565, -0.0284, -0.0949],
+        [-0.0672, -0.1017, -0.1208,  ...,  0.0428, -0.0387, -0.1184],
+        ...,
+        [-0.0692,  0.0343,  0.0263,  ...,  0.0167, -0.0588, -0.1000],
+        [-0.0875, -0.0065,  0.0159,  ...,  0.0621, -0.0347, -0.1940],
+        [ 0.0653,  0.0696, -0.0514,  ..., -0.1159, -0.0154,  0.1007]],
+       device='cuda:0'), grad: tensor([[ 2.9802e-04,  1.4830e-03,  6.6328e-04,  ...,  1.5001e-03,
+          1.8382e-04,  2.6617e-06],
+        [ 3.5837e-06,  3.1948e-04,  1.1269e-02,  ...,  6.3210e-03,
+          4.6349e-04,  1.3858e-06],
+        [ 4.8615e-06,  4.2558e-05, -2.3973e-04,  ..., -1.0519e-03,
+         -9.5139e-03,  1.6149e-06],
+        ...,
+        [-2.6211e-05,  1.5587e-05,  3.7003e-04,  ...,  2.7776e-04,
+          8.8406e-04,  2.4229e-05],
+        [-1.0926e-04, -3.7155e-03,  3.9792e-04,  ...,  1.2684e-03,
+          2.1267e-03,  1.1340e-05],
+        [ 1.1392e-05,  9.5010e-05,  4.9400e-04,  ...,  3.9124e-04,
+          1.3399e-03, -4.6343e-05]], device='cuda:0')
+Epoch 470, bias, value: tensor([-0.0541,  0.0248,  0.0079, -0.0115, -0.0030,  0.0073, -0.0159,  0.0359,
+        -0.0229,  0.0109], device='cuda:0'), grad: tensor([ 0.0173,  0.0018, -0.0067, -0.0095, -0.0157, -0.0048,  0.0205,  0.0043,
+        -0.0144,  0.0072], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 469, time 226.90, cls_loss 0.4926 cls_loss_mapping 0.0009 cls_loss_causal 0.4318 re_mapping 0.0061 re_causal 0.0163 /// teacc 98.95 lr 0.00001000
+Epoch 471, weight, value: tensor([[-0.2154, -0.0219,  0.0379,  ..., -0.0299, -0.0826, -0.1478],
+        [-0.0634, -0.1128,  0.0338,  ...,  0.0564, -0.0284, -0.0950],
+        [-0.0671, -0.1017, -0.1209,  ...,  0.0430, -0.0388, -0.1184],
+        ...,
+        [-0.0692,  0.0345,  0.0261,  ...,  0.0169, -0.0585, -0.0998],
+        [-0.0874, -0.0065,  0.0160,  ...,  0.0620, -0.0348, -0.1941],
+        [ 0.0653,  0.0697, -0.0513,  ..., -0.1158, -0.0154,  0.1006]],
+       device='cuda:0'), grad: tensor([[ 2.0653e-05,  7.6675e-04,  1.2398e-05,  ...,  7.4196e-04,
+          7.3731e-05,  4.3139e-06],
+        [ 8.8662e-06,  2.6150e-03,  5.8189e-06,  ...,  1.1826e-03,
+          2.8539e-04,  1.2480e-06],
+        [-1.8053e-03,  5.1880e-04, -3.0231e-03,  ..., -1.2007e-03,
+          4.5747e-05, -1.1902e-03],
+        ...,
+        [ 1.0023e-03,  4.7684e-04,  1.6602e-02,  ...,  1.3561e-03,
+          3.8743e-05,  2.4006e-05],
+        [-4.8828e-04, -6.1684e-03, -1.6678e-02,  ..., -3.2196e-03,
+         -5.9509e-04,  1.2398e-05],
+        [-8.2922e-04,  7.1287e-04,  1.3971e-04,  ..., -4.5806e-05,
+          1.0037e-04, -4.9084e-05]], device='cuda:0')
+Epoch 471, bias, value: tensor([-0.0541,  0.0248,  0.0081, -0.0115, -0.0031,  0.0072, -0.0160,  0.0360,
+        -0.0229,  0.0110], device='cuda:0'), grad: tensor([ 0.0101,  0.0072,  0.0009,  0.0228, -0.0199,  0.0054,  0.0127,  0.0137,
+        -0.0322, -0.0208], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 470, time 228.15, cls_loss 0.5116 cls_loss_mapping 0.0010 cls_loss_causal 0.4446 re_mapping 0.0060 re_causal 0.0162 /// teacc 98.95 lr 0.00001000
+Epoch 472, weight, value: tensor([[-0.2154, -0.0220,  0.0380,  ..., -0.0300, -0.0827, -0.1478],
+        [-0.0635, -0.1128,  0.0338,  ...,  0.0563, -0.0284, -0.0950],
+        [-0.0671, -0.1018, -0.1210,  ...,  0.0430, -0.0386, -0.1184],
+        ...,
+        [-0.0692,  0.0345,  0.0261,  ...,  0.0169, -0.0585, -0.0999],
+        [-0.0875, -0.0064,  0.0161,  ...,  0.0620, -0.0348, -0.1942],
+        [ 0.0654,  0.0697, -0.0513,  ..., -0.1157, -0.0154,  0.1007]],
+       device='cuda:0'), grad: tensor([[ 0.0006,  0.0006,  0.0006,  ...,  0.0015,  0.0003,  0.0003],
+        [ 0.0009, -0.0011,  0.0019,  ..., -0.0008, -0.0002,  0.0004],
+        [ 0.0002,  0.0010,  0.0009,  ..., -0.0005,  0.0004,  0.0003],
+        ...,
+        [ 0.0095, -0.0011,  0.0081,  ...,  0.0100,  0.0004,  0.0040],
+        [ 0.0016, -0.0046,  0.0013,  ...,  0.0022,  0.0003, -0.0038],
+        [-0.0089,  0.0011,  0.0024,  ..., -0.0069,  0.0008, -0.0029]],
+       device='cuda:0')
+Epoch 472, bias, value: tensor([-0.0541,  0.0247,  0.0080, -0.0115, -0.0030,  0.0072, -0.0159,  0.0361,
+        -0.0229,  0.0110], device='cuda:0'), grad: tensor([ 0.0169, -0.0081,  0.0175,  0.0155, -0.0348, -0.0106,  0.0267,  0.0412,
+        -0.0312, -0.0332], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 471, time 225.49, cls_loss 0.5160 cls_loss_mapping 0.0010 cls_loss_causal 0.4458 re_mapping 0.0060 re_causal 0.0167 /// teacc 99.01 lr 0.00001000
+Epoch 473, weight, value: tensor([[-0.2153, -0.0220,  0.0381,  ..., -0.0300, -0.0827, -0.1477],
+        [-0.0635, -0.1125,  0.0338,  ...,  0.0563, -0.0283, -0.0950],
+        [-0.0670, -0.1017, -0.1210,  ...,  0.0431, -0.0385, -0.1184],
+        ...,
+        [-0.0693,  0.0345,  0.0261,  ...,  0.0169, -0.0586, -0.1000],
+        [-0.0876, -0.0065,  0.0160,  ...,  0.0619, -0.0347, -0.1943],
+        [ 0.0655,  0.0696, -0.0513,  ..., -0.1158, -0.0155,  0.1009]],
+       device='cuda:0'), grad: tensor([[ 2.5597e-03,  7.4053e-04,  4.4212e-03,  ..., -5.8651e-05,
+          3.8981e-04,  1.2426e-03],
+        [ 1.2279e-04,  6.5231e-04,  4.7588e-04,  ...,  3.6201e-03,
+          2.0579e-05,  6.6423e-04],
+        [-8.1024e-03,  3.7169e-04, -1.3885e-02,  ..., -1.0109e-02,
+         -1.0347e-03, -3.6144e-03],
+        ...,
+        [-5.3930e-04,  5.3902e-03, -5.7888e-04,  ..., -5.3062e-03,
+          1.5423e-05,  2.4281e-03],
+        [ 3.6550e-04,  9.6273e-04,  5.5313e-04,  ...,  1.8234e-03,
+          5.2631e-05,  3.9077e-04],
+        [ 2.4471e-03,  8.2474e-03,  4.2343e-03,  ...,  4.4518e-03,
+          3.0589e-04,  6.5804e-03]], device='cuda:0')
+Epoch 473, bias, value: tensor([-0.0541,  0.0248,  0.0081, -0.0116, -0.0030,  0.0073, -0.0159,  0.0361,
+        -0.0230,  0.0110], device='cuda:0'), grad: tensor([-0.0107,  0.0218, -0.0488,  0.0228, -0.0114,  0.0230, -0.0435, -0.0065,
+         0.0126,  0.0406], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 472, time 228.94, cls_loss 0.4884 cls_loss_mapping 0.0008 cls_loss_causal 0.4264 re_mapping 0.0059 re_causal 0.0160 /// teacc 98.99 lr 0.00001000
+Epoch 474, weight, value: tensor([[-0.2154, -0.0220,  0.0382,  ..., -0.0300, -0.0826, -0.1479],
+        [-0.0636, -0.1125,  0.0336,  ...,  0.0564, -0.0283, -0.0952],
+        [-0.0669, -0.1017, -0.1209,  ...,  0.0432, -0.0386, -0.1183],
+        ...,
+        [-0.0694,  0.0345,  0.0260,  ...,  0.0170, -0.0586, -0.1000],
+        [-0.0876, -0.0067,  0.0161,  ...,  0.0617, -0.0347, -0.1942],
+        [ 0.0655,  0.0697, -0.0513,  ..., -0.1158, -0.0156,  0.1007]],
+       device='cuda:0'), grad: tensor([[-2.8343e-03,  2.5344e-04, -2.0862e-04,  ...,  2.5177e-03,
+         -4.4708e-03,  6.0558e-04],
+        [ 4.7356e-05,  3.4422e-05,  3.3212e-04,  ..., -2.2125e-03,
+          4.7541e-04,  1.0949e-04],
+        [ 5.7757e-05,  1.8346e-04,  7.4100e-04,  ...,  2.4300e-03,
+          2.8515e-04,  4.7135e-04],
+        ...,
+        [ 5.5850e-05,  5.9545e-05,  6.1691e-06,  ...,  2.1286e-03,
+          4.8041e-04,  8.6069e-04],
+        [-4.2582e-04,  1.0669e-04, -3.3875e-03,  ..., -8.6308e-04,
+          4.1246e-04,  1.1110e-04],
+        [ 8.3876e-04,  2.3258e-04,  1.1915e-04,  ..., -5.9366e-04,
+         -1.7881e-03, -2.6584e-04]], device='cuda:0')
+Epoch 474, bias, value: tensor([-0.0541,  0.0250,  0.0080, -0.0115, -0.0030,  0.0073, -0.0159,  0.0360,
+        -0.0231,  0.0109], device='cuda:0'), grad: tensor([-0.0074, -0.0127, -0.0072, -0.0103, -0.0070, -0.0065,  0.0412,  0.0178,
+         0.0013, -0.0092], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 473, time 227.47, cls_loss 0.4946 cls_loss_mapping 0.0008 cls_loss_causal 0.4411 re_mapping 0.0060 re_causal 0.0166 /// teacc 99.02 lr 0.00001000
+Epoch 475, weight, value: tensor([[-0.2154, -0.0219,  0.0381,  ..., -0.0300, -0.0827, -0.1481],
+        [-0.0637, -0.1126,  0.0335,  ...,  0.0564, -0.0284, -0.0952],
+        [-0.0669, -0.1016, -0.1210,  ...,  0.0433, -0.0387, -0.1184],
+        ...,
+        [-0.0694,  0.0345,  0.0259,  ...,  0.0170, -0.0585, -0.1000],
+        [-0.0876, -0.0068,  0.0161,  ...,  0.0619, -0.0348, -0.1943],
+        [ 0.0656,  0.0699, -0.0512,  ..., -0.1158, -0.0156,  0.1008]],
+       device='cuda:0'), grad: tensor([[-1.5460e-06,  1.9327e-05,  4.7624e-05,  ..., -2.7943e-03,
+          8.1956e-06, -3.5793e-05],
+        [ 9.1866e-06,  5.1117e-04,  6.1572e-05,  ...,  2.4624e-03,
+          4.5411e-06,  3.7938e-05],
+        [ 5.8636e-06,  1.5378e-04,  6.6698e-05,  ...,  2.3766e-03,
+          5.9791e-07,  2.6792e-05],
+        ...,
+        [ 9.6336e-06, -4.0932e-03,  7.6592e-05,  ...,  2.2869e-03,
+         -5.0478e-07, -1.1367e-04],
+        [ 4.8399e-05,  2.3103e-04,  1.4043e-04,  ...,  6.5041e-04,
+          2.2605e-05,  7.7844e-05],
+        [ 2.0973e-06,  1.3523e-03,  1.2434e-04,  ...,  2.1706e-03,
+          6.6571e-06,  5.4002e-05]], device='cuda:0')
+Epoch 475, bias, value: tensor([-0.0542,  0.0249,  0.0083, -0.0115, -0.0030,  0.0072, -0.0159,  0.0361,
+        -0.0230,  0.0108], device='cuda:0'), grad: tensor([-0.0096,  0.0261,  0.0223, -0.0419, -0.0031, -0.0432,  0.0213,  0.0145,
+        -0.0104,  0.0240], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 474, time 227.98, cls_loss 0.4698 cls_loss_mapping 0.0008 cls_loss_causal 0.4120 re_mapping 0.0063 re_causal 0.0167 /// teacc 99.00 lr 0.00001000
+Epoch 476, weight, value: tensor([[-0.2153, -0.0219,  0.0381,  ..., -0.0301, -0.0825, -0.1480],
+        [-0.0637, -0.1126,  0.0335,  ...,  0.0564, -0.0285, -0.0952],
+        [-0.0668, -0.1016, -0.1210,  ...,  0.0433, -0.0387, -0.1183],
+        ...,
+        [-0.0693,  0.0347,  0.0259,  ...,  0.0170, -0.0584, -0.1000],
+        [-0.0876, -0.0068,  0.0162,  ...,  0.0619, -0.0348, -0.1943],
+        [ 0.0655,  0.0698, -0.0513,  ..., -0.1157, -0.0156,  0.1009]],
+       device='cuda:0'), grad: tensor([[ 1.3340e-04,  7.9095e-05,  3.9244e-04,  ..., -2.2354e-03,
+          1.5390e-04,  4.9233e-05],
+        [ 1.8284e-05,  5.3358e-04,  1.7548e-03,  ...,  4.0131e-03,
+          2.9945e-04,  5.8681e-05],
+        [ 7.0810e-05,  4.8518e-05,  1.6499e-03,  ..., -1.4372e-03,
+          5.4359e-04,  2.2936e-04],
+        ...,
+        [ 5.8794e-04,  1.1158e-03,  9.2697e-04,  ..., -2.5883e-03,
+          5.0402e-04,  1.8191e-04],
+        [ 6.8426e-04,  4.5598e-05,  8.0395e-04,  ...,  2.1191e-03,
+          2.3437e-04,  6.9678e-05],
+        [-2.3327e-03,  1.4191e-03,  1.3056e-03,  ...,  2.9716e-03,
+          8.9550e-04,  5.2005e-05]], device='cuda:0')
+Epoch 476, bias, value: tensor([-0.0541,  0.0248,  0.0083, -0.0115, -0.0031,  0.0073, -0.0160,  0.0361,
+        -0.0230,  0.0108], device='cuda:0'), grad: tensor([-0.0168,  0.0285, -0.0084, -0.0020, -0.0268, -0.0115,  0.0178, -0.0375,
+         0.0212,  0.0355], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 475, time 226.88, cls_loss 0.4901 cls_loss_mapping 0.0007 cls_loss_causal 0.4339 re_mapping 0.0063 re_causal 0.0170 /// teacc 99.02 lr 0.00001000
+Epoch 477, weight, value: tensor([[-0.2153, -0.0219,  0.0383,  ..., -0.0301, -0.0825, -0.1479],
+        [-0.0638, -0.1126,  0.0337,  ...,  0.0565, -0.0284, -0.0952],
+        [-0.0667, -0.1014, -0.1210,  ...,  0.0433, -0.0386, -0.1184],
+        ...,
+        [-0.0694,  0.0347,  0.0258,  ...,  0.0170, -0.0584, -0.1000],
+        [-0.0876, -0.0068,  0.0162,  ...,  0.0619, -0.0348, -0.1945],
+        [ 0.0656,  0.0698, -0.0514,  ..., -0.1157, -0.0157,  0.1011]],
+       device='cuda:0'), grad: tensor([[ 0.0005,  0.0001, -0.0082,  ..., -0.0002,  0.0014,  0.0003],
+        [ 0.0001,  0.0002,  0.0040,  ...,  0.0051,  0.0008,  0.0002],
+        [-0.0019,  0.0002, -0.0016,  ..., -0.0173, -0.0018,  0.0004],
+        ...,
+        [ 0.0007,  0.0002,  0.0013,  ...,  0.0035,  0.0009,  0.0005],
+        [-0.0014, -0.0030, -0.0020,  ..., -0.0039,  0.0003, -0.0037],
+        [ 0.0041,  0.0025,  0.0052,  ...,  0.0089,  0.0024,  0.0037]],
+       device='cuda:0')
+Epoch 477, bias, value: tensor([-0.0542,  0.0248,  0.0084, -0.0115, -0.0032,  0.0073, -0.0161,  0.0362,
+        -0.0230,  0.0109], device='cuda:0'), grad: tensor([-0.0055,  0.0312, -0.0581,  0.0152,  0.0123,  0.0021, -0.0227,  0.0213,
+        -0.0496,  0.0539], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 476, time 227.97, cls_loss 0.4910 cls_loss_mapping 0.0009 cls_loss_causal 0.4372 re_mapping 0.0061 re_causal 0.0162 /// teacc 99.01 lr 0.00001000
+Epoch 478, weight, value: tensor([[-0.2152, -0.0219,  0.0383,  ..., -0.0301, -0.0825, -0.1478],
+        [-0.0638, -0.1126,  0.0337,  ...,  0.0565, -0.0284, -0.0953],
+        [-0.0667, -0.1013, -0.1210,  ...,  0.0433, -0.0385, -0.1184],
+        ...,
+        [-0.0693,  0.0346,  0.0257,  ...,  0.0169, -0.0584, -0.1000],
+        [-0.0876, -0.0066,  0.0162,  ...,  0.0620, -0.0348, -0.1946],
+        [ 0.0657,  0.0697, -0.0514,  ..., -0.1158, -0.0158,  0.1012]],
+       device='cuda:0'), grad: tensor([[ 2.6390e-05,  2.0909e-04,  1.5335e-03,  ...,  2.8896e-03,
+          1.9550e-03,  9.1363e-07],
+        [ 6.2346e-05,  9.5367e-04,  1.8244e-03,  ...,  1.0605e-03,
+          1.1969e-03,  1.3351e-05],
+        [ 1.6010e-04,  2.8858e-03,  1.4400e-03,  ...,  3.4504e-03,
+          8.8882e-04,  3.0661e-04],
+        ...,
+        [ 5.0277e-05,  8.9407e-04,  1.9779e-03,  ...,  3.1261e-03,
+          1.1921e-03,  2.9969e-04],
+        [ 2.8467e-04,  3.3207e-03,  3.0327e-03,  ...,  5.6114e-03,
+         -8.1205e-04,  3.1888e-05],
+        [ 1.3232e-04,  7.0620e-04, -1.8015e-03,  ..., -6.6414e-03,
+          1.3237e-03,  1.9562e-04]], device='cuda:0')
+Epoch 478, bias, value: tensor([-0.0541,  0.0248,  0.0084, -0.0115, -0.0032,  0.0072, -0.0161,  0.0362,
+        -0.0229,  0.0107], device='cuda:0'), grad: tensor([ 0.0285,  0.0249,  0.0323, -0.0254, -0.0306, -0.0063, -0.0341,  0.0302,
+         0.0102, -0.0298], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 477, time 226.00, cls_loss 0.5074 cls_loss_mapping 0.0009 cls_loss_causal 0.4451 re_mapping 0.0060 re_causal 0.0165 /// teacc 99.02 lr 0.00001000
+Epoch 479, weight, value: tensor([[-0.2152, -0.0220,  0.0382,  ..., -0.0302, -0.0825, -0.1477],
+        [-0.0638, -0.1127,  0.0336,  ...,  0.0564, -0.0285, -0.0952],
+        [-0.0668, -0.1014, -0.1210,  ...,  0.0434, -0.0386, -0.1184],
+        ...,
+        [-0.0694,  0.0346,  0.0256,  ...,  0.0169, -0.0582, -0.1002],
+        [-0.0877, -0.0067,  0.0165,  ...,  0.0621, -0.0348, -0.1946],
+        [ 0.0657,  0.0698, -0.0513,  ..., -0.1158, -0.0158,  0.1012]],
+       device='cuda:0'), grad: tensor([[ 2.9800e-02, -8.2970e-05,  5.9223e-04,  ...,  1.8721e-03,
+          1.8692e-03,  2.1124e-04],
+        [ 1.2827e-04,  8.5160e-06, -3.8376e-03,  ..., -4.5013e-03,
+         -7.0076e-03,  5.7459e-05],
+        [ 2.3890e-04,  4.2379e-05,  7.7152e-04,  ...,  2.3022e-03,
+          1.9550e-03,  1.7810e-04],
+        ...,
+        [ 8.4639e-04,  9.1195e-05,  1.8539e-03,  ...,  2.7504e-03,
+          1.6832e-03,  6.9857e-04],
+        [ 4.8208e-04,  1.3232e-04,  7.9679e-04,  ...,  2.7523e-03,
+          2.0294e-03,  4.0388e-04],
+        [-2.3251e-03, -1.1696e-02, -2.3270e-03,  ..., -6.2790e-03,
+          1.5669e-03, -1.4515e-03]], device='cuda:0')
+Epoch 479, bias, value: tensor([-0.0541,  0.0248,  0.0083, -0.0116, -0.0032,  0.0073, -0.0161,  0.0362,
+        -0.0227,  0.0107], device='cuda:0'), grad: tensor([ 0.0413, -0.0237,  0.0099,  0.0105,  0.0091, -0.0178, -0.0220,  0.0088,
+         0.0120, -0.0282], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 478, time 227.60, cls_loss 0.4372 cls_loss_mapping 0.0007 cls_loss_causal 0.3820 re_mapping 0.0061 re_causal 0.0160 /// teacc 99.01 lr 0.00001000
+Epoch 480, weight, value: tensor([[-0.2152, -0.0218,  0.0382,  ..., -0.0299, -0.0824, -0.1474],
+        [-0.0638, -0.1128,  0.0335,  ...,  0.0564, -0.0285, -0.0951],
+        [-0.0668, -0.1011, -0.1209,  ...,  0.0434, -0.0386, -0.1184],
+        ...,
+        [-0.0695,  0.0346,  0.0256,  ...,  0.0168, -0.0582, -0.1001],
+        [-0.0878, -0.0068,  0.0164,  ...,  0.0620, -0.0348, -0.1946],
+        [ 0.0658,  0.0697, -0.0513,  ..., -0.1158, -0.0158,  0.1012]],
+       device='cuda:0'), grad: tensor([[ 6.4969e-05,  3.2410e-06, -2.6369e-04,  ...,  5.3501e-04,
+         -1.2527e-02,  4.9382e-05],
+        [ 4.6396e-04,  1.2672e-04,  8.0585e-04,  ...,  2.5082e-03,
+          6.4932e-06,  4.3321e-04],
+        [ 8.4972e-04,  6.2227e-05,  1.4744e-03,  ...,  3.6564e-03,
+          3.8052e-04,  6.9761e-04],
+        ...,
+        [ 7.8440e-04,  2.0158e-04,  1.3580e-03,  ...,  4.4861e-03,
+          2.0838e-04,  6.2704e-04],
+        [ 5.3263e-04,  4.5627e-05,  3.6097e-04,  ...,  2.0714e-03,
+          1.4734e-03,  6.7759e-04],
+        [-2.8872e-04, -1.3895e-03, -3.4475e-04,  ..., -1.4839e-03,
+         -6.5041e-04, -1.4381e-03]], device='cuda:0')
+Epoch 480, bias, value: tensor([-0.0539,  0.0248,  0.0084, -0.0116, -0.0032,  0.0074, -0.0162,  0.0361,
+        -0.0229,  0.0108], device='cuda:0'), grad: tensor([-0.0367,  0.0050,  0.0314, -0.0147, -0.0388, -0.0072,  0.0112,  0.0373,
+         0.0249, -0.0123], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 479, time 227.06, cls_loss 0.4997 cls_loss_mapping 0.0008 cls_loss_causal 0.4289 re_mapping 0.0060 re_causal 0.0162 /// teacc 98.97 lr 0.00001000
+Epoch 481, weight, value: tensor([[-0.2152, -0.0219,  0.0382,  ..., -0.0299, -0.0822, -0.1474],
+        [-0.0639, -0.1129,  0.0333,  ...,  0.0563, -0.0286, -0.0953],
+        [-0.0669, -0.1011, -0.1209,  ...,  0.0434, -0.0386, -0.1184],
+        ...,
+        [-0.0692,  0.0348,  0.0258,  ...,  0.0168, -0.0582, -0.1002],
+        [-0.0878, -0.0068,  0.0165,  ...,  0.0620, -0.0347, -0.1946],
+        [ 0.0655,  0.0696, -0.0514,  ..., -0.1159, -0.0158,  0.1011]],
+       device='cuda:0'), grad: tensor([[ 7.2193e-04,  5.7793e-04,  1.5497e-03,  ...,  3.0041e-03,
+          1.3580e-03,  2.5809e-05],
+        [ 3.3474e-04,  3.8195e-04,  3.2234e-03,  ...,  4.0512e-03,
+          4.5586e-03,  7.4431e-06],
+        [-6.4194e-05,  8.3447e-04,  7.9441e-04,  ...,  1.8883e-03,
+          1.2884e-03,  2.8685e-05],
+        ...,
+        [ 3.8290e-04, -2.4323e-02,  1.5755e-03,  ...,  2.6455e-03,
+         -6.1302e-03,  7.5102e-05],
+        [ 4.0078e-04,  8.0948e-03,  3.8713e-05,  ..., -1.3161e-02,
+          7.3528e-04,  1.1673e-03],
+        [-7.2861e-04,  1.3466e-03, -9.2239e-03,  ..., -1.5364e-03,
+         -4.6806e-03,  3.3474e-04]], device='cuda:0')
+Epoch 481, bias, value: tensor([-0.0540,  0.0247,  0.0082, -0.0115, -0.0031,  0.0073, -0.0161,  0.0362,
+        -0.0228,  0.0107], device='cuda:0'), grad: tensor([ 0.0238,  0.0376,  0.0190, -0.0381,  0.0193,  0.0396, -0.0048, -0.0374,
+        -0.0498, -0.0093], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 480, time 226.81, cls_loss 0.4787 cls_loss_mapping 0.0009 cls_loss_causal 0.4195 re_mapping 0.0060 re_causal 0.0162 /// teacc 98.98 lr 0.00001000
+Epoch 482, weight, value: tensor([[-0.2153, -0.0219,  0.0381,  ..., -0.0299, -0.0823, -0.1475],
+        [-0.0638, -0.1129,  0.0334,  ...,  0.0564, -0.0286, -0.0952],
+        [-0.0670, -0.1012, -0.1208,  ...,  0.0433, -0.0388, -0.1185],
+        ...,
+        [-0.0694,  0.0347,  0.0256,  ...,  0.0167, -0.0582, -0.1002],
+        [-0.0877, -0.0069,  0.0165,  ...,  0.0621, -0.0346, -0.1947],
+        [ 0.0656,  0.0697, -0.0513,  ..., -0.1159, -0.0157,  0.1013]],
+       device='cuda:0'), grad: tensor([[-5.5403e-05,  9.6858e-05,  1.5664e-04,  ..., -2.4490e-03,
+          4.1485e-04,  1.7866e-05],
+        [ 1.3337e-05,  4.9925e-04,  5.4073e-04,  ...,  2.9945e-03,
+          7.4744e-05,  1.5751e-05],
+        [ 4.0025e-05, -1.3256e-03, -2.4509e-03,  ..., -9.8190e-03,
+         -5.6982e-04,  5.6922e-05],
+        ...,
+        [-1.5393e-05, -5.3835e-04, -2.6250e-04,  ..., -2.9469e-04,
+          7.5996e-05, -9.3281e-05],
+        [ 3.9905e-05,  4.4608e-04,  8.3303e-04,  ...,  3.7251e-03,
+          7.2956e-05,  4.9621e-05],
+        [ 2.2009e-05,  3.0828e-04,  3.1877e-04,  ...,  1.8253e-03,
+          6.8605e-05,  5.0455e-05]], device='cuda:0')
+Epoch 482, bias, value: tensor([-0.0541,  0.0247,  0.0082, -0.0115, -0.0031,  0.0073, -0.0162,  0.0361,
+        -0.0227,  0.0107], device='cuda:0'), grad: tensor([-0.0179,  0.0239, -0.0371,  0.0153,  0.0166, -0.0483,  0.0290,  0.0074,
+        -0.0051,  0.0162], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 481, time 226.36, cls_loss 0.4845 cls_loss_mapping 0.0009 cls_loss_causal 0.4230 re_mapping 0.0058 re_causal 0.0154 /// teacc 99.02 lr 0.00001000
+Epoch 483, weight, value: tensor([[-0.2154, -0.0219,  0.0381,  ..., -0.0300, -0.0823, -0.1476],
+        [-0.0638, -0.1127,  0.0335,  ...,  0.0563, -0.0286, -0.0952],
+        [-0.0670, -0.1012, -0.1207,  ...,  0.0432, -0.0389, -0.1185],
+        ...,
+        [-0.0692,  0.0346,  0.0256,  ...,  0.0166, -0.0582, -0.1002],
+        [-0.0877, -0.0069,  0.0165,  ...,  0.0622, -0.0345, -0.1947],
+        [ 0.0656,  0.0699, -0.0514,  ..., -0.1159, -0.0157,  0.1013]],
+       device='cuda:0'), grad: tensor([[-6.5536e-03, -5.5656e-03, -5.9624e-03,  ..., -8.8196e-03,
+         -3.0212e-03, -5.0634e-05],
+        [ 2.5368e-04, -1.2426e-03,  1.0920e-04,  ...,  8.6355e-04,
+          1.3542e-04, -1.4023e-02],
+        [ 4.3449e-03,  2.5082e-03,  3.9177e-03,  ...,  6.0310e-03,
+          6.2523e-03, -1.0586e-03],
+        ...,
+        [ 2.4357e-03,  9.5558e-04,  9.4366e-04,  ...,  2.7390e-03,
+         -4.3488e-03,  3.7909e-04],
+        [ 3.6192e-04,  2.6894e-04,  1.4818e-04,  ...,  7.5197e-04,
+          2.3711e-04,  1.3232e-04],
+        [-2.8248e-03, -5.2757e-03, -9.4473e-06,  ..., -5.6744e-04,
+         -2.2352e-05, -5.9652e-04]], device='cuda:0')
+Epoch 483, bias, value: tensor([-0.0542,  0.0248,  0.0082, -0.0114, -0.0032,  0.0073, -0.0161,  0.0360,
+        -0.0226,  0.0107], device='cuda:0'), grad: tensor([-0.0252, -0.0240,  0.0242,  0.0161,  0.0103,  0.0068, -0.0212,  0.0072,
+         0.0108, -0.0048], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 482, time 225.15, cls_loss 0.5050 cls_loss_mapping 0.0010 cls_loss_causal 0.4473 re_mapping 0.0058 re_causal 0.0159 /// teacc 98.97 lr 0.00001000
+Epoch 484, weight, value: tensor([[-0.2154, -0.0218,  0.0381,  ..., -0.0299, -0.0823, -0.1477],
+        [-0.0638, -0.1127,  0.0333,  ...,  0.0562, -0.0287, -0.0951],
+        [-0.0669, -0.1013, -0.1208,  ...,  0.0431, -0.0391, -0.1185],
+        ...,
+        [-0.0693,  0.0347,  0.0256,  ...,  0.0166, -0.0581, -0.1000],
+        [-0.0877, -0.0068,  0.0165,  ...,  0.0623, -0.0345, -0.1946],
+        [ 0.0657,  0.0698, -0.0513,  ..., -0.1159, -0.0158,  0.1011]],
+       device='cuda:0'), grad: tensor([[ 4.8466e-06,  1.6499e-04,  1.3173e-04,  ...,  1.8349e-03,
+          0.0000e+00,  1.4877e-04],
+        [ 4.8637e-04, -3.0303e-04,  2.0943e-03,  ..., -1.0040e-02,
+          0.0000e+00,  1.7524e-04],
+        [ 2.3171e-05,  4.4078e-05,  1.1504e-04,  ..., -4.4560e-04,
+          0.0000e+00,  2.2411e-05],
+        ...,
+        [ 6.8069e-05, -9.9564e-04, -1.3952e-03,  ..., -2.4166e-03,
+          0.0000e+00, -1.3275e-03],
+        [ 9.4175e-04,  1.8263e-04, -3.7223e-05,  ...,  2.0161e-03,
+          0.0000e+00,  1.6403e-04],
+        [ 2.9489e-05, -3.8028e-04,  4.5943e-04,  ...,  1.5221e-03,
+          0.0000e+00, -3.5787e-04]], device='cuda:0')
+Epoch 484, bias, value: tensor([-0.0542,  0.0247,  0.0081, -0.0116, -0.0033,  0.0075, -0.0160,  0.0361,
+        -0.0225,  0.0107], device='cuda:0'), grad: tensor([ 0.0163, -0.0174, -0.0490,  0.0123,  0.0046, -0.0159,  0.0299, -0.0180,
+         0.0254,  0.0118], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 483, time 226.06, cls_loss 0.4818 cls_loss_mapping 0.0010 cls_loss_causal 0.4255 re_mapping 0.0060 re_causal 0.0158 /// teacc 99.00 lr 0.00001000
+Epoch 485, weight, value: tensor([[-0.2155, -0.0217,  0.0381,  ..., -0.0299, -0.0824, -0.1476],
+        [-0.0639, -0.1127,  0.0332,  ...,  0.0561, -0.0287, -0.0951],
+        [-0.0668, -0.1013, -0.1208,  ...,  0.0431, -0.0391, -0.1186],
+        ...,
+        [-0.0693,  0.0349,  0.0256,  ...,  0.0166, -0.0582, -0.1002],
+        [-0.0878, -0.0069,  0.0166,  ...,  0.0624, -0.0344, -0.1946],
+        [ 0.0657,  0.0696, -0.0514,  ..., -0.1160, -0.0156,  0.1011]],
+       device='cuda:0'), grad: tensor([[-5.0515e-05, -5.0354e-04, -1.1659e-04,  ...,  5.1451e-04,
+          5.0449e-04, -4.1127e-06],
+        [ 3.1173e-05,  5.7526e-03,  1.9357e-05,  ...,  2.2469e-03,
+         -4.1783e-05,  3.1084e-05],
+        [ 2.3082e-05,  2.4629e-04,  2.5010e-04,  ..., -2.4033e-03,
+         -3.7441e-03,  1.9267e-05],
+        ...,
+        [-6.4135e-04, -7.5302e-03,  3.4906e-06,  ..., -5.4455e-04,
+          5.8699e-04, -2.5215e-03],
+        [ 2.4586e-03,  9.6607e-04, -3.0804e-04,  ..., -3.0613e-03,
+          8.7023e-04,  1.4601e-03],
+        [ 1.0319e-03,  1.0437e-04,  2.0079e-06,  ...,  6.1560e-04,
+          4.3106e-04,  6.5899e-04]], device='cuda:0')
+Epoch 485, bias, value: tensor([-0.0542,  0.0247,  0.0081, -0.0115, -0.0032,  0.0074, -0.0159,  0.0360,
+        -0.0225,  0.0106], device='cuda:0'), grad: tensor([ 0.0080,  0.0083, -0.0233,  0.0016,  0.0066,  0.0446, -0.0200, -0.0214,
+        -0.0135,  0.0092], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 484, time 228.50, cls_loss 0.4842 cls_loss_mapping 0.0009 cls_loss_causal 0.4235 re_mapping 0.0060 re_causal 0.0163 /// teacc 99.00 lr 0.00001000
+Epoch 486, weight, value: tensor([[-0.2157, -0.0218,  0.0382,  ..., -0.0299, -0.0824, -0.1476],
+        [-0.0639, -0.1127,  0.0332,  ...,  0.0561, -0.0287, -0.0951],
+        [-0.0668, -0.1013, -0.1208,  ...,  0.0431, -0.0390, -0.1187],
+        ...,
+        [-0.0694,  0.0349,  0.0256,  ...,  0.0165, -0.0581, -0.1002],
+        [-0.0878, -0.0069,  0.0166,  ...,  0.0625, -0.0346, -0.1946],
+        [ 0.0659,  0.0696, -0.0513,  ..., -0.1160, -0.0155,  0.1012]],
+       device='cuda:0'), grad: tensor([[ 1.5211e-04,  2.4486e-04,  2.7227e-04,  ...,  1.7385e-03,
+          5.2154e-08,  7.6771e-05],
+        [ 2.5749e-04, -1.6570e-04, -2.9011e-03,  ..., -9.0103e-03,
+          6.1467e-08,  2.2995e-04],
+        [ 1.2274e-03,  3.4785e-04,  5.5933e-04,  ...,  3.0003e-03,
+          1.7509e-05,  3.3951e-04],
+        ...,
+        [ 1.1593e-04,  7.8773e-04,  1.0246e-04,  ...,  2.3460e-03,
+          1.6037e-06,  7.4577e-04],
+        [-9.8991e-04,  3.5906e-04,  5.3596e-04,  ...,  2.8267e-03,
+          2.9039e-06,  2.4986e-04],
+        [ 9.5654e-04,  1.3456e-03,  3.6049e-04,  ...,  3.8204e-03,
+          1.1921e-06,  1.0614e-03]], device='cuda:0')
+Epoch 486, bias, value: tensor([-0.0542,  0.0248,  0.0082, -0.0116, -0.0032,  0.0075, -0.0160,  0.0360,
+        -0.0226,  0.0106], device='cuda:0'), grad: tensor([ 0.0085, -0.0431,  0.0142, -0.0309, -0.0051,  0.0103,  0.0120,  0.0097,
+         0.0104,  0.0139], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 485, time 227.13, cls_loss 0.4446 cls_loss_mapping 0.0007 cls_loss_causal 0.3859 re_mapping 0.0060 re_causal 0.0159 /// teacc 99.02 lr 0.00001000
+Epoch 487, weight, value: tensor([[-0.2157, -0.0218,  0.0383,  ..., -0.0298, -0.0823, -0.1476],
+        [-0.0639, -0.1126,  0.0333,  ...,  0.0561, -0.0287, -0.0950],
+        [-0.0668, -0.1013, -0.1209,  ...,  0.0434, -0.0391, -0.1188],
+        ...,
+        [-0.0695,  0.0350,  0.0254,  ...,  0.0163, -0.0580, -0.1002],
+        [-0.0878, -0.0070,  0.0166,  ...,  0.0624, -0.0346, -0.1947],
+        [ 0.0661,  0.0696, -0.0513,  ..., -0.1159, -0.0154,  0.1013]],
+       device='cuda:0'), grad: tensor([[ 4.2021e-06,  1.4722e-04,  2.9993e-04,  ...,  9.4032e-04,
+          2.6226e-05,  1.0088e-05],
+        [ 5.4270e-05,  2.0847e-03,  1.5473e-04,  ..., -3.2330e-04,
+          1.0830e-04,  4.7088e-05],
+        [ 2.4274e-05,  2.7828e-03,  7.9679e-04,  ...,  7.6599e-03,
+          1.0967e-03,  2.5558e-04],
+        ...,
+        [ 4.3488e-04, -3.3813e-02,  6.8903e-04,  ...,  1.1196e-03,
+          4.7278e-04,  2.4021e-04],
+        [-1.2047e-02,  1.3447e-04, -1.3329e-02,  ..., -8.5983e-03,
+         -1.1238e-02,  1.9968e-04],
+        [-1.1053e-03,  4.5967e-03,  2.3365e-05,  ...,  5.1737e-04,
+          7.8964e-04, -5.3167e-04]], device='cuda:0')
+Epoch 487, bias, value: tensor([-0.0541,  0.0248,  0.0082, -0.0117, -0.0032,  0.0074, -0.0160,  0.0360,
+        -0.0227,  0.0108], device='cuda:0'), grad: tensor([ 0.0103, -0.0199,  0.0408, -0.0252,  0.0583,  0.0080, -0.0216, -0.0103,
+        -0.0507,  0.0103], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 486, time 225.08, cls_loss 0.4685 cls_loss_mapping 0.0008 cls_loss_causal 0.4113 re_mapping 0.0059 re_causal 0.0155 /// teacc 99.04 lr 0.00001000
+Epoch 488, weight, value: tensor([[-0.2157, -0.0219,  0.0383,  ..., -0.0298, -0.0824, -0.1476],
+        [-0.0638, -0.1126,  0.0335,  ...,  0.0563, -0.0288, -0.0950],
+        [-0.0669, -0.1012, -0.1209,  ...,  0.0434, -0.0390, -0.1189],
+        ...,
+        [-0.0694,  0.0349,  0.0253,  ...,  0.0162, -0.0581, -0.1002],
+        [-0.0877, -0.0069,  0.0167,  ...,  0.0624, -0.0345, -0.1947],
+        [ 0.0661,  0.0694, -0.0514,  ..., -0.1159, -0.0154,  0.1014]],
+       device='cuda:0'), grad: tensor([[ 2.3618e-05,  1.7824e-03, -2.7218e-03,  ...,  1.5044e-04,
+         -6.4182e-04, -3.4046e-04],
+        [ 1.4901e-05,  7.2908e-04,  4.3869e-04,  ...,  7.4883e-03,
+          4.4179e-04,  2.7299e-04],
+        [ 1.4448e-03,  9.9277e-04,  3.4285e-04,  ...,  2.1553e-03,
+          4.0007e-04,  5.6648e-04],
+        ...,
+        [-1.1988e-05,  4.4006e-02, -6.3598e-05,  ...,  3.0212e-03,
+          4.9543e-04,  1.9073e-03],
+        [ 7.2622e-04, -1.5144e-03,  4.7350e-04,  ..., -8.9035e-03,
+         -5.4884e-04, -2.0409e-03],
+        [-2.3518e-03,  6.0730e-03,  2.9683e-04,  ..., -2.2640e-03,
+          3.8195e-04, -3.7060e-03]], device='cuda:0')
+Epoch 488, bias, value: tensor([-0.0541,  0.0249,  0.0084, -0.0117, -0.0032,  0.0074, -0.0159,  0.0358,
+        -0.0227,  0.0107], device='cuda:0'), grad: tensor([-0.0253,  0.0146,  0.0121,  0.0101, -0.0132, -0.0008,  0.0093,  0.0272,
+        -0.0306, -0.0034], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 487, time 225.52, cls_loss 0.4716 cls_loss_mapping 0.0008 cls_loss_causal 0.4157 re_mapping 0.0058 re_causal 0.0158 /// teacc 99.03 lr 0.00001000
+Epoch 489, weight, value: tensor([[-0.2158, -0.0220,  0.0382,  ..., -0.0298, -0.0823, -0.1476],
+        [-0.0636, -0.1126,  0.0334,  ...,  0.0563, -0.0288, -0.0949],
+        [-0.0670, -0.1013, -0.1209,  ...,  0.0434, -0.0393, -0.1188],
+        ...,
+        [-0.0694,  0.0350,  0.0254,  ...,  0.0162, -0.0578, -0.1002],
+        [-0.0876, -0.0068,  0.0167,  ...,  0.0624, -0.0347, -0.1946],
+        [ 0.0661,  0.0695, -0.0513,  ..., -0.1159, -0.0155,  0.1014]],
+       device='cuda:0'), grad: tensor([[ 2.5965e-06,  5.3406e-04,  5.0887e-06,  ...,  7.8154e-04,
+          4.1395e-05,  1.7321e-04],
+        [ 8.7172e-07, -5.6877e-03,  7.7200e-04,  ...,  9.4843e-04,
+          6.0387e-06,  2.3320e-05],
+        [ 3.5614e-06,  1.4210e-03,  1.7717e-05,  ..., -1.6356e-03,
+          2.7448e-05,  1.0401e-04],
+        ...,
+        [ 6.7377e-04, -1.6797e-04,  6.6102e-05,  ...,  4.5848e-04,
+          1.5333e-05,  5.1689e-04],
+        [ 1.1683e-04, -3.3607e-03,  2.3276e-05,  ...,  5.0497e-04,
+          1.7750e-04,  7.5436e-04],
+        [-1.1311e-03,  1.6441e-03,  6.5982e-05,  ...,  1.3399e-03,
+          2.1541e-04,  4.3690e-05]], device='cuda:0')
+Epoch 489, bias, value: tensor([-0.0542,  0.0248,  0.0084, -0.0117, -0.0033,  0.0074, -0.0159,  0.0359,
+        -0.0226,  0.0107], device='cuda:0'), grad: tensor([ 0.0073, -0.0059, -0.0203,  0.0095,  0.0204, -0.0045, -0.0210,  0.0078,
+        -0.0048,  0.0116], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 488, time 225.64, cls_loss 0.5085 cls_loss_mapping 0.0009 cls_loss_causal 0.4471 re_mapping 0.0061 re_causal 0.0167 /// teacc 99.02 lr 0.00001000
+Epoch 490, weight, value: tensor([[-0.2158, -0.0220,  0.0382,  ..., -0.0297, -0.0823, -0.1475],
+        [-0.0636, -0.1128,  0.0333,  ...,  0.0563, -0.0289, -0.0948],
+        [-0.0671, -0.1013, -0.1208,  ...,  0.0435, -0.0393, -0.1187],
+        ...,
+        [-0.0693,  0.0350,  0.0256,  ...,  0.0162, -0.0578, -0.1001],
+        [-0.0875, -0.0068,  0.0167,  ...,  0.0624, -0.0347, -0.1948],
+        [ 0.0662,  0.0693, -0.0512,  ..., -0.1160, -0.0157,  0.1013]],
+       device='cuda:0'), grad: tensor([[ 1.1012e-05,  4.3917e-04,  9.7275e-05,  ...,  2.3575e-03,
+          9.5591e-06,  7.9334e-05],
+        [ 2.6114e-06,  1.4782e-03,  4.2510e-04,  ...,  4.5433e-03,
+          2.8276e-04,  1.3578e-04],
+        [-6.3144e-06, -1.3933e-03,  1.6842e-03,  ...,  2.7924e-03,
+          4.1056e-04,  4.0078e-04],
+        ...,
+        [-1.2673e-05,  4.1428e-03,  5.4073e-04,  ...,  6.8398e-03,
+          1.0881e-03, -5.4207e-03],
+        [ 7.3016e-06, -7.6981e-03,  2.1982e-04,  ..., -7.7019e-03,
+         -3.1528e-03,  1.7524e-04],
+        [ 1.0289e-05,  1.8489e-04, -6.2943e-03,  ..., -2.1835e-02,
+          6.0707e-05, -1.6856e-04]], device='cuda:0')
+Epoch 490, bias, value: tensor([-0.0542,  0.0248,  0.0084, -0.0117, -0.0033,  0.0073, -0.0158,  0.0360,
+        -0.0226,  0.0107], device='cuda:0'), grad: tensor([ 0.0200,  0.0291,  0.0146,  0.0321,  0.0288,  0.0183, -0.0146,  0.0081,
+        -0.0341, -0.1022], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 489, time 228.35, cls_loss 0.4906 cls_loss_mapping 0.0008 cls_loss_causal 0.4304 re_mapping 0.0061 re_causal 0.0163 /// teacc 99.02 lr 0.00001000
+Epoch 491, weight, value: tensor([[-0.2158, -0.0221,  0.0383,  ..., -0.0297, -0.0823, -0.1476],
+        [-0.0635, -0.1129,  0.0332,  ...,  0.0564, -0.0287, -0.0948],
+        [-0.0671, -0.1014, -0.1207,  ...,  0.0434, -0.0392, -0.1187],
+        ...,
+        [-0.0694,  0.0350,  0.0256,  ...,  0.0161, -0.0579, -0.1000],
+        [-0.0876, -0.0068,  0.0167,  ...,  0.0623, -0.0347, -0.1947],
+        [ 0.0663,  0.0694, -0.0512,  ..., -0.1158, -0.0157,  0.1013]],
+       device='cuda:0'), grad: tensor([[-1.2051e-06,  1.3054e-02,  2.4128e-04,  ...,  9.2745e-04,
+          4.2868e-04,  8.1211e-06],
+        [ 1.3806e-05,  3.8862e-04,  1.3323e-03,  ...,  1.8892e-03,
+          1.1148e-03,  2.4438e-06],
+        [-6.4135e-05, -3.1586e-02,  1.4997e-04,  ..., -4.9400e-03,
+          5.3024e-04,  2.6450e-06],
+        ...,
+        [ 1.1571e-05,  2.4509e-04,  3.8671e-04,  ...,  1.5831e-03,
+          6.4135e-04,  1.2942e-05],
+        [ 5.3234e-06,  1.4725e-02,  4.3559e-04,  ...,  9.0218e-04,
+          4.2725e-04,  4.0270e-06],
+        [ 8.5160e-06,  3.0565e-04, -2.3479e-03,  ...,  1.2331e-03,
+          6.4516e-04,  1.6296e-04]], device='cuda:0')
+Epoch 491, bias, value: tensor([-0.0543,  0.0248,  0.0085, -0.0117, -0.0032,  0.0074, -0.0159,  0.0360,
+        -0.0228,  0.0110], device='cuda:0'), grad: tensor([ 0.0302,  0.0327, -0.0652, -0.0016,  0.0149, -0.0442,  0.0151, -0.0020,
+         0.0308, -0.0108], device='cuda:0')
+100
+1e-05
+changing lr
+---------------------saving model at epoch 490----------------------------------------------------
+epoch 490, time 225.90, cls_loss 0.4583 cls_loss_mapping 0.0008 cls_loss_causal 0.3988 re_mapping 0.0062 re_causal 0.0161 /// teacc 99.06 lr 0.00001000
+Epoch 492, weight, value: tensor([[-0.2160, -0.0221,  0.0383,  ..., -0.0297, -0.0824, -0.1474],
+        [-0.0636, -0.1128,  0.0332,  ...,  0.0563, -0.0289, -0.0947],
+        [-0.0671, -0.1014, -0.1206,  ...,  0.0435, -0.0393, -0.1188],
+        ...,
+        [-0.0693,  0.0350,  0.0255,  ...,  0.0161, -0.0579, -0.1000],
+        [-0.0873, -0.0069,  0.0167,  ...,  0.0622, -0.0347, -0.1948],
+        [ 0.0662,  0.0695, -0.0512,  ..., -0.1159, -0.0157,  0.1013]],
+       device='cuda:0'), grad: tensor([[ 3.6538e-05,  1.3411e-04,  1.5497e-05,  ...,  7.9870e-04,
+          2.4021e-04, -1.9800e-06],
+        [ 7.6652e-05, -3.3722e-03,  1.3635e-05,  ...,  1.0700e-03,
+          3.7432e-04,  2.3663e-05],
+        [ 2.4348e-05,  2.7943e-04,  9.7603e-06,  ...,  7.3338e-04,
+          2.5916e-04,  6.2324e-06],
+        ...,
+        [ 3.0613e-04,  2.2888e-03,  2.7984e-05,  ...,  2.2087e-03,
+          1.2751e-03,  4.2439e-05],
+        [-1.4181e-03,  1.7242e-03, -2.2840e-04,  ..., -1.9588e-03,
+          3.0088e-04,  5.8025e-05],
+        [ 1.9722e-03, -1.5917e-03, -1.0163e-04,  ..., -7.5836e-03,
+         -3.3169e-03,  3.2687e-04]], device='cuda:0')
+Epoch 492, bias, value: tensor([-0.0543,  0.0248,  0.0084, -0.0117, -0.0031,  0.0074, -0.0160,  0.0360,
+        -0.0229,  0.0109], device='cuda:0'), grad: tensor([-0.0183,  0.0073,  0.0120,  0.0133,  0.0193,  0.0141, -0.0110,  0.0216,
+        -0.0215, -0.0367], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 491, time 225.98, cls_loss 0.4780 cls_loss_mapping 0.0008 cls_loss_causal 0.4168 re_mapping 0.0061 re_causal 0.0162 /// teacc 99.02 lr 0.00001000
+Epoch 493, weight, value: tensor([[-0.2160, -0.0219,  0.0382,  ..., -0.0298, -0.0824, -0.1475],
+        [-0.0636, -0.1129,  0.0332,  ...,  0.0563, -0.0291, -0.0948],
+        [-0.0671, -0.1015, -0.1205,  ...,  0.0434, -0.0394, -0.1189],
+        ...,
+        [-0.0695,  0.0352,  0.0254,  ...,  0.0160, -0.0578, -0.1000],
+        [-0.0873, -0.0070,  0.0168,  ...,  0.0622, -0.0345, -0.1949],
+        [ 0.0662,  0.0694, -0.0513,  ..., -0.1158, -0.0157,  0.1013]],
+       device='cuda:0'), grad: tensor([[ 1.5132e-05, -1.0796e-03,  2.1896e-03,  ...,  6.0177e-04,
+          4.5635e-08, -4.9561e-05],
+        [ 7.7009e-05,  2.7370e-03, -2.1362e-03,  ...,  1.2451e-02,
+          3.5390e-08,  7.1144e-04],
+        [-3.6526e-04, -3.0651e-03, -9.2087e-03,  ..., -1.8417e-02,
+          4.7497e-08,  5.8681e-05],
+        ...,
+        [ 1.2957e-05,  1.2598e-03,  1.0052e-03,  ...,  1.0014e-03,
+          2.2445e-07,  6.8855e-04],
+        [ 1.5819e-04,  2.2945e-03,  1.0099e-03,  ...,  1.3514e-03,
+          1.7330e-05,  1.1435e-03],
+        [-1.7452e-04, -2.5311e-03,  1.4973e-03,  ...,  2.0447e-03,
+          1.1474e-06, -2.9602e-03]], device='cuda:0')
+Epoch 493, bias, value: tensor([-0.0544,  0.0247,  0.0083, -0.0115, -0.0031,  0.0076, -0.0159,  0.0359,
+        -0.0228,  0.0108], device='cuda:0'), grad: tensor([ 0.0104,  0.0045, -0.0569,  0.0186, -0.0103, -0.0108,  0.0056,  0.0148,
+         0.0179,  0.0062], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 492, time 224.69, cls_loss 0.4789 cls_loss_mapping 0.0008 cls_loss_causal 0.4099 re_mapping 0.0060 re_causal 0.0158 /// teacc 99.03 lr 0.00001000
+Epoch 494, weight, value: tensor([[-0.2161, -0.0219,  0.0382,  ..., -0.0296, -0.0822, -0.1475],
+        [-0.0635, -0.1130,  0.0333,  ...,  0.0563, -0.0290, -0.0947],
+        [-0.0669, -0.1015, -0.1204,  ...,  0.0435, -0.0394, -0.1189],
+        ...,
+        [-0.0693,  0.0351,  0.0256,  ...,  0.0159, -0.0575, -0.0999],
+        [-0.0874, -0.0069,  0.0167,  ...,  0.0622, -0.0344, -0.1949],
+        [ 0.0661,  0.0695, -0.0515,  ..., -0.1157, -0.0159,  0.1012]],
+       device='cuda:0'), grad: tensor([[ 1.1420e-04,  1.0741e-04,  1.5497e-04,  ...,  1.4677e-03,
+         -8.3637e-04,  4.3094e-05],
+        [ 9.7871e-05,  1.6570e-04,  1.7285e-04,  ..., -1.8265e-02,
+         -2.8381e-03,  4.2826e-05],
+        [ 6.2466e-04,  4.8161e-04,  9.5415e-04,  ...,  4.9973e-03,
+          5.0688e-04,  2.9111e-04],
+        ...,
+        [-3.3169e-03,  7.1955e-04, -3.2463e-03,  ..., -3.2139e-03,
+         -1.6761e-04, -2.0943e-03],
+        [ 2.8872e-04,  5.7745e-04, -1.5955e-03,  ...,  8.3780e-04,
+          5.1928e-04,  1.3673e-04],
+        [ 3.0479e-03, -8.3447e-05,  1.0700e-03,  ...,  3.0727e-03,
+          1.2434e-04,  1.5306e-03]], device='cuda:0')
+Epoch 494, bias, value: tensor([-0.0542,  0.0247,  0.0083, -0.0116, -0.0032,  0.0074, -0.0157,  0.0358,
+        -0.0229,  0.0108], device='cuda:0'), grad: tensor([ 0.0119, -0.0706,  0.0251, -0.0159, -0.0159,  0.0144,  0.0223,  0.0001,
+         0.0081,  0.0204], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 493, time 228.03, cls_loss 0.4884 cls_loss_mapping 0.0009 cls_loss_causal 0.4246 re_mapping 0.0060 re_causal 0.0161 /// teacc 99.05 lr 0.00001000
+Epoch 495, weight, value: tensor([[-0.2162, -0.0218,  0.0382,  ..., -0.0296, -0.0821, -0.1476],
+        [-0.0636, -0.1130,  0.0333,  ...,  0.0564, -0.0291, -0.0945],
+        [-0.0669, -0.1015, -0.1205,  ...,  0.0435, -0.0395, -0.1187],
+        ...,
+        [-0.0693,  0.0352,  0.0257,  ...,  0.0160, -0.0575, -0.0999],
+        [-0.0875, -0.0068,  0.0168,  ...,  0.0622, -0.0344, -0.1949],
+        [ 0.0662,  0.0694, -0.0515,  ..., -0.1157, -0.0161,  0.1012]],
+       device='cuda:0'), grad: tensor([[-9.4147e-03,  3.1638e-04,  7.3719e-04,  ...,  2.3880e-03,
+          9.0742e-04,  1.5283e-04],
+        [ 1.5616e-04,  5.2303e-05, -1.1997e-03,  ..., -2.5806e-03,
+          2.0766e-04,  1.3888e-05],
+        [-5.2357e-04, -1.1339e-03, -1.4915e-03,  ..., -3.8185e-03,
+         -1.8063e-03,  6.1321e-04],
+        ...,
+        [ 1.2624e-04,  1.5974e-05,  1.4555e-04,  ..., -5.9395e-03,
+         -2.4471e-03, -6.6124e-07],
+        [ 2.4930e-05,  3.2258e-04, -3.8624e-04,  ...,  2.3727e-03,
+          1.2989e-03,  2.8300e-04],
+        [ 6.2637e-03,  5.6297e-05,  9.3281e-05,  ...,  1.4601e-03,
+          3.9983e-04,  4.0606e-06]], device='cuda:0')
+Epoch 495, bias, value: tensor([-0.0541,  0.0248,  0.0082, -0.0116, -0.0032,  0.0074, -0.0157,  0.0359,
+        -0.0230,  0.0108], device='cuda:0'), grad: tensor([-0.0168, -0.0260, -0.0178,  0.0167,  0.0137,  0.0147,  0.0153, -0.0506,
+         0.0190,  0.0319], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 494, time 225.87, cls_loss 0.4873 cls_loss_mapping 0.0008 cls_loss_causal 0.4290 re_mapping 0.0061 re_causal 0.0166 /// teacc 99.02 lr 0.00001000
+Epoch 496, weight, value: tensor([[-0.2161, -0.0219,  0.0382,  ..., -0.0297, -0.0821, -0.1475],
+        [-0.0634, -0.1127,  0.0333,  ...,  0.0563, -0.0290, -0.0945],
+        [-0.0670, -0.1016, -0.1206,  ...,  0.0434, -0.0393, -0.1188],
+        ...,
+        [-0.0692,  0.0351,  0.0257,  ...,  0.0160, -0.0575, -0.1001],
+        [-0.0875, -0.0068,  0.0167,  ...,  0.0621, -0.0345, -0.1949],
+        [ 0.0662,  0.0694, -0.0515,  ..., -0.1158, -0.0161,  0.1013]],
+       device='cuda:0'), grad: tensor([[ 7.8022e-05,  1.6165e-04,  2.3155e-03,  ...,  2.5501e-03,
+          0.0000e+00,  5.0403e-06],
+        [ 8.9049e-05,  1.3676e-03, -1.6630e-05,  ..., -1.8501e-03,
+          0.0000e+00,  5.8562e-06],
+        [ 1.7405e-04,  4.3774e-04,  3.1531e-05,  ...,  1.7529e-03,
+          0.0000e+00,  5.6177e-06],
+        ...,
+        [-3.7670e-03, -6.2904e-03,  1.3001e-05,  ..., -6.6948e-04,
+          0.0000e+00, -2.4338e-03],
+        [-2.9063e-04,  2.1820e-03,  1.8537e-04,  ...,  1.8320e-03,
+          0.0000e+00,  1.7732e-05],
+        [ 1.2016e-04,  1.6689e-03,  9.0420e-05,  ..., -1.2627e-03,
+          0.0000e+00, -7.0906e-04]], device='cuda:0')
+Epoch 496, bias, value: tensor([-0.0543,  0.0248,  0.0081, -0.0114, -0.0032,  0.0074, -0.0155,  0.0360,
+        -0.0231,  0.0107], device='cuda:0'), grad: tensor([-0.0108, -0.0139,  0.0137,  0.0175,  0.0179,  0.0211, -0.0031, -0.0191,
+         0.0135, -0.0368], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 495, time 229.03, cls_loss 0.5054 cls_loss_mapping 0.0009 cls_loss_causal 0.4367 re_mapping 0.0060 re_causal 0.0162 /// teacc 99.02 lr 0.00001000
+Epoch 497, weight, value: tensor([[-0.2162, -0.0217,  0.0381,  ..., -0.0298, -0.0820, -0.1476],
+        [-0.0633, -0.1126,  0.0334,  ...,  0.0563, -0.0290, -0.0945],
+        [-0.0671, -0.1016, -0.1205,  ...,  0.0434, -0.0393, -0.1188],
+        ...,
+        [-0.0692,  0.0350,  0.0257,  ...,  0.0160, -0.0574, -0.1000],
+        [-0.0874, -0.0068,  0.0169,  ...,  0.0622, -0.0345, -0.1947],
+        [ 0.0661,  0.0695, -0.0516,  ..., -0.1159, -0.0161,  0.1012]],
+       device='cuda:0'), grad: tensor([[ 5.5462e-05,  1.2054e-03,  2.3261e-05,  ...,  7.0047e-04,
+          3.3617e-04,  1.9932e-03],
+        [ 4.6992e-04,  6.0987e-04,  3.4642e-04,  ...,  2.7924e-03,
+          6.6423e-04,  1.3602e-04],
+        [ 8.8274e-05,  4.4727e-04,  5.4538e-05,  ..., -1.4015e-02,
+          9.8705e-05,  1.2672e-04],
+        ...,
+        [ 2.9087e-04,  3.0756e-04,  1.0767e-03,  ...,  2.3022e-03,
+          7.2327e-03,  1.9372e-04],
+        [ 4.8018e-04,  5.2109e-03,  2.5916e-04,  ...,  1.9569e-03,
+          4.9973e-04,  9.5272e-04],
+        [ 5.6791e-04,  2.4853e-03,  6.5756e-04,  ...,  1.4591e-03,
+          1.2732e-03,  4.8375e-04]], device='cuda:0')
+Epoch 497, bias, value: tensor([-0.0543,  0.0248,  0.0082, -0.0114, -0.0032,  0.0073, -0.0155,  0.0360,
+        -0.0230,  0.0107], device='cuda:0'), grad: tensor([ 0.0016,  0.0225, -0.0469, -0.0292,  0.0048, -0.0065, -0.0036,  0.0338,
+         0.0274, -0.0040], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 496, time 226.48, cls_loss 0.4872 cls_loss_mapping 0.0009 cls_loss_causal 0.4209 re_mapping 0.0059 re_causal 0.0160 /// teacc 99.03 lr 0.00001000
+Epoch 498, weight, value: tensor([[-0.2162, -0.0217,  0.0380,  ..., -0.0298, -0.0821, -0.1476],
+        [-0.0631, -0.1126,  0.0337,  ...,  0.0564, -0.0290, -0.0943],
+        [-0.0672, -0.1014, -0.1206,  ...,  0.0434, -0.0393, -0.1189],
+        ...,
+        [-0.0691,  0.0349,  0.0258,  ...,  0.0160, -0.0574, -0.0999],
+        [-0.0875, -0.0070,  0.0169,  ...,  0.0622, -0.0344, -0.1948],
+        [ 0.0659,  0.0694, -0.0517,  ..., -0.1160, -0.0161,  0.1011]],
+       device='cuda:0'), grad: tensor([[ 1.4246e-04, -4.8027e-03,  1.6201e-04,  ..., -5.1880e-04,
+          1.8692e-04, -7.1764e-04],
+        [ 1.3784e-05,  7.4005e-04,  1.9445e-03,  ...,  5.1384e-03,
+          7.2575e-04,  7.6771e-05],
+        [ 2.9594e-05,  6.0120e-03,  1.6320e-04,  ..., -8.0872e-03,
+         -1.7929e-03,  1.8120e-04],
+        ...,
+        [ 9.2089e-05,  2.1801e-03, -1.8148e-03,  ..., -1.6670e-03,
+          7.5531e-04,  3.6383e-04],
+        [ 2.2268e-04, -8.4496e-04,  2.3949e-04,  ...,  1.8063e-03,
+          1.7347e-03,  4.8542e-04],
+        [-7.7295e-04,  7.8249e-04,  4.3488e-04,  ...,  2.1038e-03,
+          4.6515e-04, -4.4644e-05]], device='cuda:0')
+Epoch 498, bias, value: tensor([-0.0543,  0.0249,  0.0082, -0.0115, -0.0031,  0.0072, -0.0156,  0.0361,
+        -0.0230,  0.0107], device='cuda:0'), grad: tensor([-0.0281,  0.0275, -0.0361, -0.0083,  0.0170, -0.0309,  0.0054,  0.0110,
+         0.0239,  0.0185], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 497, time 225.86, cls_loss 0.4814 cls_loss_mapping 0.0008 cls_loss_causal 0.4181 re_mapping 0.0061 re_causal 0.0164 /// teacc 99.04 lr 0.00001000
+Epoch 499, weight, value: tensor([[-0.2163, -0.0217,  0.0380,  ..., -0.0299, -0.0823, -0.1474],
+        [-0.0633, -0.1127,  0.0337,  ...,  0.0563, -0.0290, -0.0945],
+        [-0.0673, -0.1014, -0.1206,  ...,  0.0434, -0.0394, -0.1189],
+        ...,
+        [-0.0691,  0.0348,  0.0259,  ...,  0.0159, -0.0574, -0.1000],
+        [-0.0876, -0.0070,  0.0169,  ...,  0.0623, -0.0344, -0.1948],
+        [ 0.0661,  0.0695, -0.0515,  ..., -0.1159, -0.0158,  0.1013]],
+       device='cuda:0'), grad: tensor([[ 1.9688e-06,  4.4048e-05,  1.2055e-05,  ..., -2.6569e-03,
+         -2.4494e-07,  9.0778e-05],
+        [ 2.6561e-06,  1.5664e-04, -2.9778e-04,  ...,  3.0804e-04,
+          1.3970e-09,  1.4043e-04],
+        [ 3.2187e-06, -3.1686e-04,  9.5293e-06,  ..., -2.1992e-03,
+          4.0978e-08, -1.1663e-03],
+        ...,
+        [ 2.0117e-05,  2.6509e-05, -9.8441e-07,  ...,  2.8640e-05,
+          2.1001e-07,  5.2035e-05],
+        [-2.7657e-05, -1.1129e-03, -2.6330e-05,  ...,  1.2083e-03,
+          3.0734e-08,  1.5676e-04],
+        [-4.6015e-05,  5.5075e-05,  2.3931e-05,  ...,  3.9530e-04,
+         -1.1316e-07,  6.0052e-05]], device='cuda:0')
+Epoch 499, bias, value: tensor([-0.0543,  0.0247,  0.0082, -0.0114, -0.0033,  0.0073, -0.0156,  0.0359,
+        -0.0229,  0.0109], device='cuda:0'), grad: tensor([-0.0022,  0.0071, -0.0245,  0.0079,  0.0087, -0.0218,  0.0084,  0.0049,
+         0.0057,  0.0059], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 498, time 227.24, cls_loss 0.4588 cls_loss_mapping 0.0008 cls_loss_causal 0.4012 re_mapping 0.0059 re_causal 0.0158 /// teacc 99.06 lr 0.00001000
+Epoch 500, weight, value: tensor([[-0.2162, -0.0217,  0.0381,  ..., -0.0299, -0.0823, -0.1473],
+        [-0.0632, -0.1126,  0.0337,  ...,  0.0563, -0.0287, -0.0945],
+        [-0.0674, -0.1014, -0.1208,  ...,  0.0433, -0.0395, -0.1190],
+        ...,
+        [-0.0690,  0.0349,  0.0258,  ...,  0.0159, -0.0574, -0.0999],
+        [-0.0877, -0.0070,  0.0167,  ...,  0.0622, -0.0345, -0.1949],
+        [ 0.0660,  0.0695, -0.0514,  ..., -0.1158, -0.0159,  0.1014]],
+       device='cuda:0'), grad: tensor([[ 1.6510e-05,  7.9334e-05,  6.8843e-05,  ...,  8.8787e-04,
+          7.0238e-04,  1.6654e-04],
+        [ 9.3207e-06,  5.3167e-04,  2.8014e-04,  ...,  2.8210e-03,
+         -7.8773e-04,  1.3971e-04],
+        [ 1.8209e-05,  1.2755e-04,  8.7559e-05,  ...,  5.3406e-04,
+          7.2622e-04,  1.7929e-04],
+        ...,
+        [ 5.4508e-05, -8.9455e-04, -7.6675e-04,  ..., -8.8196e-03,
+         -5.5962e-03,  3.6049e-04],
+        [ 3.4541e-05,  8.4877e-05,  7.9334e-05,  ...,  9.5987e-04,
+          8.3447e-04,  1.7250e-04],
+        [-1.3542e-04,  2.3293e-04,  1.3006e-04,  ...,  1.3494e-03,
+          9.6369e-04, -3.1066e-04]], device='cuda:0')
+Epoch 500, bias, value: tensor([-0.0543,  0.0247,  0.0081, -0.0114, -0.0033,  0.0074, -0.0157,  0.0360,
+        -0.0230,  0.0110], device='cuda:0'), grad: tensor([ 0.0110, -0.0037, -0.0200, -0.0128,  0.0090,  0.0153,  0.0120, -0.0386,
+         0.0118,  0.0161], device='cuda:0')
+100
+1e-05
+changing lr
+epoch 499, time 225.78, cls_loss 0.4998 cls_loss_mapping 0.0008 cls_loss_causal 0.4380 re_mapping 0.0059 re_causal 0.0166 /// teacc 99.02 lr 0.00001000
+---------------------saving last model at epoch 499----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps1_RA', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps1_RA/14factor_best.csv', 'channels': 3, 'factor_num': 14, 'stride': 3, 'epoch': 'best', 'eval_mapping': True}
+loading weight of best
+randm: False
+stride: 3
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+Using downloaded and verified file: /home/yuqian_fu/.pytorch/SVHN/test_32x32.mat
+                         mnist   mnist_FA  ...   usps_FA        Avg
+ShearX               98.989998  98.879997  ...  84.90284  74.539656
+ShearY               98.869995  98.979996  ...  84.90284  68.235694
+AutoContrast         98.989998  99.000000  ...  84.90284  63.396949
+Invert               98.989998  98.919998  ...  84.90284  72.542549
+Equalize             98.250000  98.309998  ...  84.90284  70.364035
+Solarize             98.279999  98.089996  ...  84.90284  65.044853
+SolarizeAdd          98.470001  98.199997  ...  84.90284  72.076269
+Posterize            98.979996  98.940002  ...  84.90284  74.368635
+Contrast             99.040001  98.989998  ...  84.90284  73.096380
+Color                99.029999  99.059998  ...  84.90284  63.243871
+Brightness           98.930000  98.989998  ...  84.90284  73.377682
+Sharpness            99.040001  99.010002  ...  84.90284  74.417749
+NoiseSalt            99.099998  99.040001  ...  84.90284  67.804282
+NoiseGaussian        99.019997  99.070000  ...  84.90284  69.921497
+w/o do (original x)  99.060000   0.000000  ...   0.00000  78.214057
+
+[15 rows x 11 columns]
+    mnist       svhn    mnist_m   syndigit       usps        Avg
+do  99.04  70.075292  77.858016  78.174395  85.201794  77.827374
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps1_RA', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_WithStyleAttackExp1_eps1_RA/14factor_last.csv', 'channels': 3, 'factor_num': 14, 'stride': 3, 'epoch': 'last', 'eval_mapping': True}
+loading weight of last
+randm: False
+stride: 3
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+Using downloaded and verified file: /home/yuqian_fu/.pytorch/SVHN/test_32x32.mat
+                         mnist   mnist_FA  ...    usps_FA        Avg
+ShearX               99.040001  98.959999  ...  84.554062  73.788023
+ShearY               98.790001  98.860001  ...  84.554062  67.782350
+AutoContrast         99.019997  99.059998  ...  84.554062  63.308972
+Invert               99.019997  98.940002  ...  84.554062  72.191246
+Equalize             98.199997  98.320000  ...  84.554062  71.175241
+Solarize             98.250000  98.129997  ...  84.554062  65.321118
+SolarizeAdd          98.470001  98.150002  ...  84.554062  72.141506
+Posterize            98.979996  98.919998  ...  84.554062  74.073261
+Contrast             99.070000  98.970001  ...  84.554062  72.475910
+Color                99.019997  99.019997  ...  84.554062  61.998447
+Brightness           99.000000  98.970001  ...  84.554062  72.502592
+Sharpness            98.989998  98.970001  ...  84.554062  74.041452
+NoiseSalt            98.989998  98.989998  ...  84.554062  67.042088
+NoiseGaussian        99.010002  99.010002  ...  84.554062  68.879292
+w/o do (original x)  99.020000   0.000000  ...   0.000000  78.022972
+
+[15 rows x 11 columns]
+    mnist       svhn    mnist_m   syndigit      usps        Avg
+do  99.02  69.426091  78.091323  77.703339  84.10563  77.331596
diff --git a/Meta-causal/code-withStyleAttack/backbone_multiblock.py b/Meta-causal/code-withStyleAttack/backbone_multiblock.py
new file mode 100644
index 0000000000000000000000000000000000000000..e4045f42709def4cff06ccbb144e0f21bf017c5d
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/backbone_multiblock.py
@@ -0,0 +1,155 @@
+from torch import nn
+from torch.utils import model_zoo
+#from torchvision.models.resnet import BasicBlock, model_urls, Bottleneck
+from torchvision.models.resnet import BasicBlock, Bottleneck
+
+import torch
+import ssl
+# from torch import nn as nn
+# from utils.util import *
+
+ssl._create_default_https_context = ssl._create_unverified_context
+
+all = ['ResNet', 'resnet18', 'resnet34', 'resnet50', 'resnet101','resnet152']
+
+model_urls = {
+'resnet18': 'https://download.pytorch.org/models/resnet18-5c106cde.pth',
+'resnet34': 'https://download.pytorch.org/models/resnet34-333f7ec4.pth',
+'resnet50': 'https://download.pytorch.org/models/resnet50-19c8e357.pth',
+'resnet101': 'https://download.pytorch.org/models/resnet101-5d3b4d8f.pth',
+'resnet152': 'https://download.pytorch.org/models/resnet152-b121ed2d.pth',
+}
+
+
+class ResNetMultiBlock(nn.Module):
+    def __init__(self, block, layers,classes=7,c_dim=512):
+        self.inplanes = 64
+        super(ResNetMultiBlock, self).__init__()
+        self.conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3,
+                               bias=False)
+        self.bn1 = nn.BatchNorm2d(64)
+        self.relu = nn.ReLU(inplace=True)
+        self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)
+        self.layer1 = self._make_layer(block, 64, layers[0])
+        self.layer2 = self._make_layer(block, 128, layers[1], stride=2)
+        self.layer3 = self._make_layer(block, 256, layers[2], stride=2)
+        self.layer4 = self._make_layer(block, 512, layers[3], stride=2)
+        self.avgpool = nn.AvgPool2d(7, stride=1)
+        self.class_classifier = nn.Linear(c_dim, classes)
+
+        # for attacking 
+        self.classifier = nn.Linear(c_dim, classes)
+
+        for m in self.modules():
+            if isinstance(m, nn.Conv2d):
+                nn.init.kaiming_normal_(m.weight, mode='fan_out', nonlinearity='relu')
+            elif isinstance(m, nn.BatchNorm2d):
+                nn.init.constant_(m.weight, 1)
+                nn.init.constant_(m.bias, 0)
+
+    def _make_layer(self, block, planes, blocks, stride=1):
+        downsample = None
+        if stride != 1 or self.inplanes != planes * block.expansion:
+            downsample = nn.Sequential(
+                nn.Conv2d(self.inplanes, planes * block.expansion,
+                          kernel_size=1, stride=stride, bias=False),
+                nn.BatchNorm2d(planes * block.expansion),
+            )
+
+        layers = []
+        layers.append(block(self.inplanes, planes, stride, downsample))
+        self.inplanes = planes * block.expansion
+        for i in range(1, blocks):
+            layers.append(block(self.inplanes, planes))
+
+        return nn.Sequential(*layers)
+    
+    # def forward(self, x, mode='fc'):
+    #     if mode == 'c':
+    #         return self.class_classifier(x)
+    #     else:
+    #         x = self.conv1(x)
+    #         x = self.bn1(x)
+    #         x = self.relu(x)
+    #         x = self.maxpool(x)
+
+    #         x = self.layer1(x)
+    #         x = self.layer2(x)
+    #         x = self.layer3(x)
+    #         x = self.layer4(x)
+    #         x = self.avgpool(x)
+    #         x = x.view(x.size(0), -1)
+    #         # print("x.shape:",x.shape)
+    #         return self.class_classifier(x), x
+
+    def forward_block1(self, x):
+      x = self.conv1(x)
+      x = self.bn1(x)
+      x = self.relu(x)
+      x = self.maxpool(x)
+      x = self.layer1(x)
+      return x
+  
+    def forward_block2(self, x):
+      x = self.layer2(x)
+      return x
+
+    def forward_block3(self, x):
+      x = self.layer3(x)
+      return x
+
+    def forward_block4(self, x):
+      x = self.layer4(x)
+      return x
+ 
+    def forward_rest(self,x):
+      x = self.avgpool(x)
+      x = x.view(x.size(0), -1)
+      return self.class_classifier(x), x
+    
+
+    def forward(self,x,mode='fc'):
+      if mode == 'c':
+        return self.class_classifier(x)
+      else:
+        layer1 = self.forward_block1(x)
+        layer2 = self.forward_block2(layer1)
+        layer3 = self.forward_block3(layer2)
+        layer4 = self.forward_block4(layer3)
+        p, f= self.forward_rest(layer4)
+        return layer1, layer2, layer3, layer4, p, f
+
+
+def resnet18Multiblock(pretrained=True, **kwargs):
+    """Constructs a ResNet-18 model.
+    Args:
+        pretrained (bool): If True, returns a model pre-trained on ImageNet
+    """
+    model = ResNetMultiBlock(BasicBlock, [2, 2, 2, 2], **kwargs)
+    if pretrained:
+        print("-------------------------------------loading pretrain weights----------------------------------")
+        model.load_state_dict(model_zoo.load_url(model_urls['resnet18']), strict=False)
+    return model
+
+
+if __name__ =='__main__':
+    print('%'*100)
+    print('---test RN18 original--')
+    from network.resnet import resnet18
+    cls_net = resnet18(classes=7,c_dim=2048).cuda()
+    print('cls_net:', cls_net)
+    x = torch.randn([16,3,227,227]).cuda()
+    p, f = cls_net(x)
+    print(p.shape, f.shape)
+
+
+    print('---test RN18 multiblock--')
+    cls_net = resnet18Multiblock(classes=7,c_dim=2048).cuda()
+    print('cls_net:', cls_net)
+    x = torch.randn([16,3,227,227]).cuda()
+    L1, L2, L3, L4, p, f = cls_net(x)
+    print(L1.shape, L2.shape, L3.shape, L4.shape, p.shape, f.shape)
+
+
+
+
diff --git a/Meta-causal/code-withStyleAttack/data_loader_joint_v3.py b/Meta-causal/code-withStyleAttack/data_loader_joint_v3.py
new file mode 100644
index 0000000000000000000000000000000000000000..dd2de2de850d89657507ff9a0e348c94c0e070d0
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/data_loader_joint_v3.py
@@ -0,0 +1,743 @@
+''' Digit 实验
+'''
+import torch
+import torch.nn.functional as F
+from torch.utils.data import Dataset, TensorDataset
+from torchvision import transforms
+from torchvision.datasets import MNIST, SVHN, CIFAR10, STL10, USPS
+
+import os
+import pickle
+import numpy as np
+import h5py
+#import cv2
+from scipy.io import loadmat
+from PIL import Image
+
+from tools.autoaugment import SVHNPolicy, CIFAR10Policy
+from tools.randaugment import RandAugment
+from tools.causalaugment_v3 import RandAugment_incausal, FactualAugment_incausal, CounterfactualAugment_incausal, MultiCounterfactualAugment_incausal
+
+class myTensorDataset(Dataset):
+    def __init__(self, x, y, transform=None, transform2=None, transform3=None, twox=False):
+        self.x = x
+        self.y = y
+        self.transform = transform
+        self.transform2 = transform2
+        self.transform3 = transform3
+        self.twox = twox
+    def __len__(self):
+        return len(self.x)
+    def __getitem__(self, index):
+        x = self.x[index]
+        y = self.y[index]
+        c, h, w =x.shape
+        # print("x.shape:",x.shape)
+        if self.transform is not None:
+            x_RA = self.transform(x)
+            # print("x_RA.shape:",x_RA.shape)
+            if self.transform3 is not None:
+                x_CA = self.transform3(x_RA)
+                x_CA = x_CA.reshape(-1,c,h,w)
+                # print("x_CA.shape:",x_CA.shape)           
+                if self.transform2 is not None:
+                    x_FA = self.transform2(x)
+                    # x_FA = x_FA.view(c,13,h,w)
+                    x_FA = x_FA.reshape(-1,c,h,w)
+                    # print("x_FA_in getitem.shape:",x_FA.shape)
+                    # print("x_FA.shape:",x_FA.shape)
+                    return (x, x_RA, x_FA, x_CA), y
+                else:
+                    return (x, x_RA, x_CA), y
+            else:
+                if self.transform2 is not None:
+                    x_FA = self.transform2(x)
+                    x_FA = x_FA.reshape(-1,c,h,w)
+                    return (x, x_RA, x_FA), y
+                else:
+                    if self.twox:
+                        return (x, x_RA), y
+                    else:
+                        return  x_RA, y
+
+HOME = os.environ['HOME']
+print(HOME)
+def resize_imgs(x, size):
+    ''' 目前只能处理单通道 
+        x [n, 28, 28]
+        size int
+    '''
+    resize_x = np.zeros([x.shape[0], size, size])
+    for i, im in enumerate(x):
+        im = Image.fromarray(im)
+        im = im.resize([size, size], Image.ANTIALIAS)
+        resize_x[i] = np.asarray(im)
+    return resize_x
+
+def load_mnist(split='train', translate=None, twox=False, ntr=None, autoaug=None, factor_num=16, randm=False,randn=False,channels=3,n=3,stride=5):
+    '''
+        autoaug == 'AA', AutoAugment
+                   'FastAA', Fast AutoAugment
+                   'RA', RandAugment
+        channels == 3 默认返回 rgb 3通道图像
+                    1 返回单通道图像
+    '''
+    #path = f'data/mnist-{split}.pkl'
+    path = f'/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/minst-{split}.pkl'
+    if not os.path.exists(path):
+        dataset = MNIST(f'{HOME}/.pytorch/MNIST', train=(split=='train'), download=True)
+        x, y = dataset.data, dataset.targets
+        if split=='train':
+            x, y = x[0:10000], y[0:10000]
+        x = torch.tensor(resize_imgs(x.numpy(), 32))
+        x = (x.float()/255.).unsqueeze(1).repeat(1,3,1,1)
+        with open(path, 'wb') as f:
+            pickle.dump([x, y], f)
+    with open(path, 'rb') as f:
+        # print("reading!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!")
+        x, y = pickle.load(f)
+        if channels == 1:
+            x = x[:,0:1,:,:]
+    
+    if ntr is not None:
+        x, y = x[0:ntr], y[0:ntr]
+    
+    # 如果没有数据增强
+    if (translate is None) and (autoaug is None):
+        dataset = TensorDataset(x, y)
+        return dataset
+    
+    # 数据增强管道
+    transform = [transforms.ToPILImage()]
+    transform_single_factor = [transforms.ToPILImage()]
+    if autoaug == 'CA' or autoaug == 'CA_multiple':
+        transform_CA = [transforms.ToPILImage()]
+    if translate is not None:
+        transform.append(transforms.RandomAffine(0, [translate, translate]))
+        transform_single_factor.append(transforms.RandomAffine(0, [translate, translate]))
+        if autoaug == 'CA' or autoaug == 'CA_multiple':
+            transform_CA.append(transforms.RandomAffine(0, [translate, translate]))
+    if autoaug is not None:
+        if autoaug == 'CA':
+            print("--------------------------CA--------------------------")
+            print("n:",n)
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(CounterfactualAugment_incausal(factor_num))
+        elif autoaug == 'CA_multiple':
+            print("--------------------------CA_multiple--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(MultiCounterfactualAugment_incausal(factor_num, stride))
+        elif autoaug == 'Ours_A':
+            print("--------------------------Ours_Augment--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+
+    transform.append(transforms.ToTensor())
+    transform = transforms.Compose(transform)
+    transform_single_factor.append(transforms.ToTensor())
+    transform_single_factor = transforms.Compose(transform_single_factor)
+    if autoaug == 'CA' or autoaug == 'CA_multiple':
+        transform_CA.append(transforms.ToTensor())
+        transform_CA = transforms.Compose(transform_CA)
+        dataset = myTensorDataset(x, y, transform=transform, transform2=transform_single_factor, transform3=transform_CA,twox=twox)
+    else:
+        dataset = myTensorDataset(x, y, transform=transform, transform2=transform_single_factor, twox=twox)
+    # print(x.shape)
+    # print(y.shape)
+    return dataset
+
+def load_cifar10(split='train', translate=None, twox=False, autoaug=None, factor_num=16, randm=False,randn=False,channels=3,n=3,stride=5):
+    dataset = CIFAR10(f'{HOME}/.pytorch/CIFAR10', train=(split=='train'), download=True)
+    x, y = dataset.data, dataset.targets
+    x = x.transpose(0,3,1,2)
+    x, y = torch.tensor(x), torch.tensor(y)
+    x = x.float()/255.
+    print(x.shape,y.shape)
+    if (translate is None) and (autoaug is None):
+        dataset = TensorDataset(x, y)
+        return dataset
+    #x.transpose(0,3,1,2)
+    
+    # 数据增强管道
+    transform = [transforms.ToPILImage()]
+    transform_single_factor = [transforms.ToPILImage()]
+    if autoaug == 'CA' or autoaug == 'CA_multiple':
+        transform_CA = [transforms.ToPILImage()]
+    if translate is not None:
+        transform.append(transforms.RandomAffine(0, [translate, translate]))
+        transform_single_factor.append(transforms.RandomAffine(0, [translate, translate]))
+        if autoaug == 'CA' or autoaug == 'CA_multiple':
+            transform_CA.append(transforms.RandomAffine(0, [translate, translate]))
+    if autoaug is not None:
+        if autoaug == 'CA':
+            print("--------------------------CA--------------------------")
+            print("n:",n)
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(CounterfactualAugment_incausal(factor_num))
+        elif autoaug == 'CA_multiple':
+            print("--------------------------CA_multiple--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(MultiCounterfactualAugment_incausal(factor_num, stride))
+        elif autoaug == 'Ours_A':
+            print("--------------------------Ours_Augment--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+
+    transform.append(transforms.ToTensor())
+    transform = transforms.Compose(transform)
+    transform_single_factor.append(transforms.ToTensor())
+    transform_single_factor = transforms.Compose(transform_single_factor)
+    if autoaug == 'CA' or autoaug == 'CA_multiple':
+        transform_CA.append(transforms.ToTensor())
+        transform_CA = transforms.Compose(transform_CA)
+        dataset = myTensorDataset(x, y, transform=transform, transform2=transform_single_factor, transform3=transform_CA,twox=twox)
+    else:
+        dataset = myTensorDataset(x, y, transform=transform, transform2=transform_single_factor, twox=twox)
+    # print(x.shape)
+    # print(y.shape)
+    return dataset
+def load_IMG(task='S-U', translate=None, twox=False, autoaug=None, factor_num=16, randm=False,randn=False,channels=3,n=3,stride=5):
+    # path = f'data/img2vid/{domain}/stanford40_12.npz'
+    if task == 'S-U':
+        path = f'data/img2vid/{task}/stanford40_12.npz'
+    elif task == 'E-H':
+        path = f'data/img2vid/{task}/EAD50_13.npz'
+    print(path)
+    dataset = np.load(path)
+    x, y = dataset['x'], dataset['y']
+    b, g, r = np.split(x,3,axis=-1)
+    x = np.concatenate((r,g,b),axis=-1)
+    x = x.transpose(0,3,1,2)
+    x, y = torch.tensor(x), torch.tensor(y, dtype=torch.long)
+    x = x.float()/255.
+    print(path,x.shape,y.shape)
+    # for i in range(20):
+    #     img_temp = transforms.ToPILImage()(x[i])
+    #     img_temp.save('data/PACS/debug_images/img_pil_'+domain+'_'+split+'_'+str(i)+'.png')    
+    if (translate is None) and (autoaug is None):
+        dataset = TensorDataset(x, y)
+        return dataset
+    #x.transpose(0,3,1,2)
+    
+    # 数据增强管道
+    transform = [transforms.ToPILImage()]
+    if autoaug != 'CA_multiple_noSingle':
+        transform_single_factor = [transforms.ToPILImage()]
+    if autoaug == 'CA' or autoaug == 'CA_multiple' or autoaug == 'CA_multiple_noSingle':
+        transform_CA = [transforms.ToPILImage()]
+    if translate is not None:
+        transform.append(transforms.RandomAffine(0, [translate, translate]))
+        if autoaug != 'CA_multiple_noSingle':
+            transform_single_factor.append(transforms.RandomAffine(0, [translate, translate]))
+        if autoaug == 'CA' or autoaug == 'CA_multiple' or autoaug == 'CA_multiple_noSingle':
+            transform_CA.append(transforms.RandomAffine(0, [translate, translate]))
+    if autoaug is not None:
+        if autoaug == 'CA':
+            print("--------------------------CA--------------------------")
+            print("n:",n)
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(CounterfactualAugment_incausal(factor_num))
+        elif autoaug == 'CA_multiple':
+            print("--------------------------CA_multiple--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(MultiCounterfactualAugment_incausal(factor_num, stride))
+        elif autoaug == 'CA_multiple_noSingle':
+            print("--------------------------CA_multiple_noSingle--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            # transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(MultiCounterfactualAugment_incausal(factor_num, stride))
+        elif autoaug == 'Ours_A':
+            print("--------------------------Ours_Augment--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+
+    transform.append(transforms.ToTensor())
+    transform = transforms.Compose(transform)
+    if autoaug != 'CA_multiple_noSingle':
+        transform_single_factor.append(transforms.ToTensor())
+        transform_single_factor = transforms.Compose(transform_single_factor)
+    if autoaug == 'CA' or autoaug == 'CA_multiple':
+        transform_CA.append(transforms.ToTensor())
+        transform_CA = transforms.Compose(transform_CA)
+        dataset = myTensorDataset(x, y, transform=transform, transform2=transform_single_factor, transform3=transform_CA,twox=twox)
+    elif autoaug == 'CA_multiple_noSingle':
+        transform_CA.append(transforms.ToTensor())
+        transform_CA = transforms.Compose(transform_CA)
+        dataset = myTensorDataset(x, y, transform=transform, transform3=transform_CA,twox=twox)
+    else:
+        dataset = myTensorDataset(x, y, transform=transform, transform2=transform_single_factor, twox=twox)
+    # print(x.shape)
+    # print(y.shape)
+    return dataset
+
+def load_VID(task='S-U',split='1'):
+    if task == 'S-U':
+        path = f'data/img2vid/{task}/ucf101_12_frame_sample8_{split}.npz'
+    elif task == 'E-H':
+        path = f'data/img2vid/{task}/hmdb51_13_frame_sample8_{split}.npz'
+    dataset = np.load(path)
+    print(path)
+    x, y = dataset['x'], dataset['y']
+    b, g, r = np.split(x,3,axis=-1)
+    x = np.concatenate((r,g,b),axis=-1)
+    x = x.transpose(0,3,1,2)
+    x, y = torch.tensor(x), torch.tensor(y, dtype=torch.long)
+    x = x.float()/255.
+    print(path,x.shape,y.shape)
+    # for i in range(20):
+    #     img_temp = transforms.ToPILImage()(x[i])
+    #     img_temp.save('data/PACS/debug_images/img_pil_'+domain+'_'+split+'_'+str(i)+'.png')    
+    dataset = TensorDataset(x, y)
+    return dataset
+
+def load_pacs(domain='photo', split='train', translate=None, twox=False, autoaug=None, factor_num=16, randm=False,randn=False,channels=3,n=3,stride=5):
+    #path = f'data/PACS/{domain}_{split}.hdf5'
+    path = f'/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/{domain}_{split}.hdf5'
+    dataset = h5py.File(path, 'r')
+    x, y = dataset['images'], dataset['labels']
+    #for i in range(20):
+    #    cv2.imwrite('data/PACS/debug_images/img_cv2_'+domain+'_'+split+'_'+str(i)+'.png', x[i])
+    b, g, r = np.split(x,3,axis=-1)
+    x = np.concatenate((r,g,b),axis=-1)
+    x = x.transpose(0,3,1,2)
+    x, y = torch.tensor(x), torch.tensor(y, dtype=torch.long)
+    y = y - 1
+    x = x.float()/255.
+    print(path,x.shape,y.shape)
+    # for i in range(20):
+    #     img_temp = transforms.ToPILImage()(x[i])
+    #     img_temp.save('data/PACS/debug_images/img_pil_'+domain+'_'+split+'_'+str(i)+'.png')    
+    if (translate is None) and (autoaug is None):
+        dataset = TensorDataset(x, y)
+        return dataset
+    #x.transpose(0,3,1,2)
+    
+    # 数据增强管道
+    transform = [transforms.ToPILImage()]
+    if autoaug != 'CA_multiple_noSingle':
+        transform_single_factor = [transforms.ToPILImage()]
+    if autoaug == 'CA' or autoaug == 'CA_multiple' or autoaug == 'CA_multiple_noSingle':
+        transform_CA = [transforms.ToPILImage()]
+    if translate is not None:
+        transform.append(transforms.RandomAffine(0, [translate, translate]))
+        if autoaug != 'CA_multiple_noSingle':
+            transform_single_factor.append(transforms.RandomAffine(0, [translate, translate]))
+        if autoaug == 'CA' or autoaug == 'CA_multiple' or autoaug == 'CA_multiple_noSingle':
+            transform_CA.append(transforms.RandomAffine(0, [translate, translate]))
+    if autoaug is not None:
+        if autoaug == 'CA':
+            print("--------------------------CA--------------------------")
+            print("n:",n)
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(CounterfactualAugment_incausal(factor_num))
+        elif autoaug == 'CA_multiple':
+            print("--------------------------CA_multiple--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(MultiCounterfactualAugment_incausal(factor_num, stride))
+        elif autoaug == 'CA_multiple_noSingle':
+            print("--------------------------CA_multiple_noSingle--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            # transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(MultiCounterfactualAugment_incausal(factor_num, stride))
+        elif autoaug == 'Ours_A':
+            print("--------------------------Ours_Augment--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+
+    transform.append(transforms.ToTensor())
+    transform = transforms.Compose(transform)
+    if autoaug != 'CA_multiple_noSingle':
+        transform_single_factor.append(transforms.ToTensor())
+        transform_single_factor = transforms.Compose(transform_single_factor)
+    if autoaug == 'CA' or autoaug == 'CA_multiple':
+        transform_CA.append(transforms.ToTensor())
+        transform_CA = transforms.Compose(transform_CA)
+        dataset = myTensorDataset(x, y, transform=transform, transform2=transform_single_factor, transform3=transform_CA,twox=twox)
+    elif autoaug == 'CA_multiple_noSingle':
+        transform_CA.append(transforms.ToTensor())
+        transform_CA = transforms.Compose(transform_CA)
+        dataset = myTensorDataset(x, y, transform=transform, transform3=transform_CA,twox=twox)
+    else:
+        dataset = myTensorDataset(x, y, transform=transform, transform2=transform_single_factor, twox=twox)
+    # print(x.shape)
+    # print(y.shape)
+    return dataset
+
+def read_dataset(domain, split):
+    path = f'/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/{domain}_{split}.hdf5'
+    dataset = h5py.File(path, 'r')
+    x_temp, y_temp = dataset['images'], dataset['labels']
+    b, g, r = np.split(x_temp,3,axis=-1)
+    x_temp = np.concatenate((r,g,b),axis=-1)
+    x_temp = x_temp.transpose(0,3,1,2)
+    x_temp, y_temp = torch.tensor(x_temp), torch.tensor(y_temp, dtype=torch.long)
+    y_temp = y_temp - 1
+    x_temp = x_temp.float()/255.
+    return x_temp, y_temp
+
+def load_pacs_multi(target_domain=['photo'], split='train', translate=None, twox=False, autoaug=None, factor_num=16, randm=False,randn=False,channels=3,n=3,stride=5):
+    domains = ['art_painting', 'cartoon', 'photo', 'sketch']
+    source_domain = [i for i in domains if i != target_domain]
+    for i in range(len(source_domain)):
+        x_temp, y_temp = read_dataset(source_domain[i],split=split)
+        print(x_temp.shape,y_temp.shape)
+        if i == 0:
+            x = x_temp.clone()
+            y = y_temp.clone()
+        else:
+            x = torch.cat([x,x_temp],0)
+            y = torch.cat([y,y_temp],0)
+    print(x.shape,y.shape)
+    if (translate is None) and (autoaug is None):
+        dataset = TensorDataset(x, y)
+        return dataset
+    #x.transpose(0,3,1,2)
+    
+    # 数据增强管道
+    transform = [transforms.ToPILImage()]
+    if autoaug != 'CA_multiple_noSingle':
+        transform_single_factor = [transforms.ToPILImage()]
+    if autoaug == 'CA' or autoaug == 'CA_multiple' or autoaug == 'CA_multiple_noSingle':
+        transform_CA = [transforms.ToPILImage()]
+    if translate is not None:
+        transform.append(transforms.RandomAffine(0, [translate, translate]))
+        if autoaug != 'CA_multiple_noSingle':
+            transform_single_factor.append(transforms.RandomAffine(0, [translate, translate]))
+        if autoaug == 'CA' or autoaug == 'CA_multiple' or autoaug == 'CA_multiple_noSingle':
+            transform_CA.append(transforms.RandomAffine(0, [translate, translate]))
+    if autoaug is not None:
+        if autoaug == 'CA':
+            print("--------------------------CA--------------------------")
+            print("n:",n)
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(CounterfactualAugment_incausal(factor_num))
+        elif autoaug == 'CA_multiple':
+            print("--------------------------CA_multiple--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(MultiCounterfactualAugment_incausal(factor_num, stride))
+        elif autoaug == 'CA_multiple_noSingle':
+            print("--------------------------CA_multiple_noSingle--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            # transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(MultiCounterfactualAugment_incausal(factor_num, stride))
+        elif autoaug == 'Ours_A':
+            print("--------------------------Ours_Augment--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+
+    transform.append(transforms.ToTensor())
+    transform = transforms.Compose(transform)
+    if autoaug != 'CA_multiple_noSingle':
+        transform_single_factor.append(transforms.ToTensor())
+        transform_single_factor = transforms.Compose(transform_single_factor)
+    if autoaug == 'CA' or autoaug == 'CA_multiple':
+        transform_CA.append(transforms.ToTensor())
+        transform_CA = transforms.Compose(transform_CA)
+        dataset = myTensorDataset(x, y, transform=transform, transform2=transform_single_factor, transform3=transform_CA,twox=twox)
+    elif autoaug == 'CA_multiple_noSingle':
+        transform_CA.append(transforms.ToTensor())
+        transform_CA = transforms.Compose(transform_CA)
+        dataset = myTensorDataset(x, y, transform=transform, transform3=transform_CA,twox=twox)
+    else:
+        dataset = myTensorDataset(x, y, transform=transform, transform2=transform_single_factor, twox=twox)
+    # print(x.shape)
+    # print(y.shape)
+    return dataset
+
+
+def load_cifar10_c_level1(dataroot):
+    path = f'/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/cifar10_c_level1.pkl'
+    if not os.path.exists(path):
+        print("genenrating cifar10_c_level1")
+        labels = np.load(os.path.join(dataroot, 'labels.npy'))
+        y_single = labels[0:10000]
+        x = torch.zeros((190000,3,32,32))
+        for j in range(19):
+            if j == 0:
+                y = y_single
+            else:
+                y = np.hstack((y,y_single))
+        index = 0 
+        for filename in os.listdir(dataroot):
+            if filename=='labels.npy':
+                continue
+            else:
+                imgs = np.load(os.path.join(dataroot,filename))
+                imgs = imgs.transpose(0,3,1,2)
+                imgs = torch.tensor(imgs)
+                imgs = imgs.float()/255.
+                print(imgs.shape)
+                x[index*10000:(index+1)*10000] = imgs[0:10000]
+                index = index + 1
+        y = torch.tensor(y)                              
+        with open(path, 'wb') as f:
+            pickle.dump([x, y], f)
+    else:
+        print("reading cifar10_c_level1")
+        with open(path, 'rb') as f:
+            x, y = pickle.load(f)
+    dataset = TensorDataset(x, y)        
+    return dataset
+def load_cifar10_c_level2(dataroot):
+    path = f'/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/cifar10_c_level2.pkl'
+    if not os.path.exists(path):
+        print("genenrating cifar10_c_level2")
+        labels = np.load(os.path.join(dataroot, 'labels.npy'))
+        y_single = labels[0:10000]
+        x = torch.zeros((190000,3,32,32))
+        for j in range(19):
+            if j == 0:
+                y = y_single
+            else:
+                y = np.hstack((y,y_single))
+        index = 0 
+        for filename in os.listdir(dataroot):
+            if filename=='labels.npy':
+                continue
+            else:
+                imgs = np.load(os.path.join(dataroot,filename))
+                imgs = imgs.transpose(0,3,1,2)
+                imgs = torch.tensor(imgs)
+                imgs = imgs.float()/255.
+                print(imgs.shape)
+                x[index*10000:(index+1)*10000] = imgs[10000:20000]
+                index = index + 1
+        y = torch.tensor(y)                              
+        with open(path, 'wb') as f:
+            pickle.dump([x, y], f)
+    else:
+        print("reading cifar10_c_level2")
+        with open(path, 'rb') as f:
+            x, y = pickle.load(f)
+    dataset = TensorDataset(x, y)        
+    return dataset
+def load_cifar10_c_level3(dataroot):
+    path = f'/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/cifar10_c_level3.pkl'
+    if not os.path.exists(path):
+        print("generating cifar10_c_level3")
+        labels = np.load(os.path.join(dataroot, 'labels.npy'))
+        y_single = labels[0:10000]
+        x = torch.zeros((190000,3,32,32))
+        for j in range(19):
+            if j == 0:
+                y = y_single
+            else:
+                y = np.hstack((y,y_single))
+        index = 0 
+        for filename in os.listdir(dataroot):
+            if filename=='labels.npy':
+                continue
+            else:
+                imgs = np.load(os.path.join(dataroot,filename))
+                imgs = imgs.transpose(0,3,1,2)
+                imgs = torch.tensor(imgs)
+                imgs = imgs.float()/255.
+                print(imgs.shape)
+                x[index*10000:(index+1)*10000] = imgs[20000:30000]
+                index = index + 1
+        y = torch.tensor(y)                              
+        with open(path, 'wb') as f:
+            pickle.dump([x, y], f)
+    else:
+        print("reading cifar10_c_level3")
+        with open(path, 'rb') as f:
+            x, y = pickle.load(f)
+    dataset = TensorDataset(x, y)        
+    return dataset
+def load_cifar10_c_level4(dataroot):
+    path = f'/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/cifar10_c_level4.pkl'
+    if not os.path.exists(path):
+        print("genenrating cifar10_c_level4")
+        labels = np.load(os.path.join(dataroot, 'labels.npy'))
+        y_single = labels[0:10000]
+        x = torch.zeros((190000,3,32,32))
+        for j in range(19):
+            if j == 0:
+                y = y_single
+            else:
+                y = np.hstack((y,y_single))
+        index = 0 
+        for filename in os.listdir(dataroot):
+            if filename=='labels.npy':
+                continue
+            else:
+                imgs = np.load(os.path.join(dataroot,filename))
+                imgs = imgs.transpose(0,3,1,2)
+                imgs = torch.tensor(imgs)
+                imgs = imgs.float()/255.
+                print(imgs.shape)
+                x[index*10000:(index+1)*10000] = imgs[30000:40000]
+                index = index + 1
+        y = torch.tensor(y)                              
+        with open(path, 'wb') as f:
+            pickle.dump([x, y], f)
+    else:
+        print("reading cifar10_c_level4")
+        with open(path, 'rb') as f:
+            x, y = pickle.load(f)
+    dataset = TensorDataset(x, y)        
+    return dataset
+def load_cifar10_c_level5(dataroot):
+    path = f'/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/cifar10_c_level5.pkl'
+    if not os.path.exists(path):
+        print("genenrating cifar10_c_level5")
+        labels = np.load(os.path.join(dataroot, 'labels.npy'))
+        y_single = labels[0:10000]
+        x = torch.zeros((190000,3,32,32))
+        for j in range(19):
+            if j == 0:
+                y = y_single
+            else:
+                y = np.hstack((y,y_single))
+        index = 0 
+        for filename in os.listdir(dataroot):
+            if filename=='labels.npy':
+                continue
+            else:
+                imgs = np.load(os.path.join(dataroot,filename))
+                imgs = imgs.transpose(0,3,1,2)
+                imgs = torch.tensor(imgs)
+                imgs = imgs.float()/255.
+                print(imgs.shape)
+                x[index*10000:(index+1)*10000] = imgs[40000:50000]
+                index = index + 1
+        y = torch.tensor(y)                              
+        with open(path, 'wb') as f:
+            pickle.dump([x, y], f)
+    else:
+        print("reading cifar10_c_level5")
+        with open(path, 'rb') as f:
+            x, y = pickle.load(f)
+    dataset = TensorDataset(x, y)        
+    return dataset
+def load_cifar10_c(dataroot):
+    y = np.load(os.path.join(dataroot, 'labels.npy'))
+    print("y.shape:",y.shape)
+    y_single = y[0:10000]
+    x1 = torch.zeros((190000,3,32,32))
+    x2 = torch.zeros((190000,3,32,32))
+    x3 = torch.zeros((190000,3,32,32))
+    x4 = torch.zeros((190000,3,32,32))
+    x5 = torch.zeros((190000,3,32,32))
+    for j in range(19):
+        if j == 0:
+            y_total = y_single
+        else:
+            y_total = np.hstack((y_total,y_single))
+    print("y_total.shape:",y_total.shape)
+    index = 0 
+    for filename in os.listdir(dataroot):
+        if filename=='labels.npy':
+            continue
+        else:
+            x = np.load(os.path.join(dataroot,filename))
+            x = x.transpose(0,3,1,2)
+            x = torch.tensor(x)
+            x = x.float()/255.
+            print(x.shape)
+            x1[index*10000:(index+1)*10000] = x[0:10000]
+            x2[index*10000:(index+1)*10000] = x[10000:20000]
+            x3[index*10000:(index+1)*10000] = x[20000:30000]
+            x4[index*10000:(index+1)*10000] = x[30000:40000]
+            x5[index*10000:(index+1)*10000] = x[40000:50000]
+            index = index + 1
+    # x1, x2, x3, x4, x5, y_total = torch.tensor(x1), torch.tensor(x2), torch.tensor(x3),\
+                                    # torch.tensor(x4),torch.tensor(x5),torch.tensor(y_total)
+    y_total = torch.tensor(y_total)                              
+    dataset1 = TensorDataset(x1, y_total)
+    dataset2 = TensorDataset(x2, y_total)
+    dataset3 = TensorDataset(x3, y_total)
+    dataset4 = TensorDataset(x4, y_total)
+    dataset5 = TensorDataset(x5, y_total)
+    return dataset1,dataset2,dataset3,dataset4,dataset5
+
+def load_cifar10_c_class(dataroot,CORRUPTIONS):
+    y = np.load(os.path.join(dataroot, 'labels.npy'))
+    y_single = y[0:10000]
+    y_single = torch.tensor(y_single) 
+    print("y.shape:",y.shape)
+    x = np.load(os.path.join(dataroot,CORRUPTIONS+'.npy'))
+    print("loading data of",os.path.join(dataroot,CORRUPTIONS+'.npy'))
+    x = x.transpose(0,3,1,2)
+    x = torch.tensor(x)
+    x = x.float()/255.
+    dataset = []
+    for i in range(5):
+        x_single = x[i*10000:(i+1)*10000]
+        dataset.append(TensorDataset(x_single, y_single))
+    return dataset
+
+def load_usps(split='train', channels=3):
+    path = f'/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/usps-{split}.pkl'
+    if not os.path.exists(path):
+        dataset = USPS(f'{HOME}/.pytorch/USPS', train=(split=='train'), download=True)
+        x, y = dataset.data, dataset.targets
+        x = torch.tensor(resize_imgs(x, 32))
+        x = (x.float()/255.).unsqueeze(1).repeat(1,3,1,1)
+        y = torch.tensor(y)
+        with open(path, 'wb') as f:
+            pickle.dump([x, y], f)
+    with open(path, 'rb') as f:
+        x, y = pickle.load(f)
+        if channels == 1:
+            x = x[:,0:1,:,:]
+    dataset = TensorDataset(x, y)
+    return dataset
+
+def load_svhn(split='train', channels=3):
+    dataset = SVHN(f'{HOME}/.pytorch/SVHN', split=split, download=True)
+    x, y = dataset.data, dataset.labels
+    x = x.astype('float32')/255.
+    x, y = torch.tensor(x), torch.tensor(y)
+    if channels == 1:
+        x = x.mean(1, keepdim=True)
+    dataset = TensorDataset(x, y)
+    return dataset
+
+
+def load_syndigit(split='train', channels=3):
+    path = f'/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/synth_{split}_32x32.mat'
+    data = loadmat(path)
+    x, y = data['X'], data['y']
+    x = np.transpose(x, [3, 2, 0, 1]).astype('float32')/255.
+    y = y.squeeze()
+    x, y = torch.tensor(x), torch.tensor(y)
+    if channels == 1:
+        x = x.mean(1, keepdim=True)
+    dataset = TensorDataset(x, y)
+    return dataset
+
+def load_mnist_m(split='train', channels=3):
+    path = f'/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/mnist_m-{split}.pkl'
+    with open(path, 'rb') as f:
+        x, y = pickle.load(f)
+        x, y = torch.tensor(x.astype('float32')/255.), torch.tensor(y)
+        if channels==1:
+            x = x.mean(1, keepdim=True)
+    dataset = TensorDataset(x, y)
+    return dataset
+
+if __name__=='__main__':
+    dataset = load_mnist(split='train')
+    print('mnist train', len(dataset))
+    dataset = load_mnist('test')
+    print('mnist test', len(dataset))
+    dataset = load_mnist_m('test')
+    print('mnsit_m test', len(dataset))
+    dataset = load_svhn(split='test')
+    print('svhn', len(dataset))
+    dataset = load_usps(split='test')
+    print('usps', len(dataset))
+    dataset = load_syndigit(split='test')
+    print('syndigit', len(dataset))
+
diff --git a/Meta-causal/code-withStyleAttack/env.yaml b/Meta-causal/code-withStyleAttack/env.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..b0bd424fb7c5aa818f10a82173549eb0dd3199c7
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/env.yaml
@@ -0,0 +1,119 @@
+name: Py3.7_torch1.8
+channels:
+  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
+  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
+  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
+  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
+  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
+  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
+  - conda-forge
+  - bioconda
+  - defaults
+dependencies:
+  - _libgcc_mutex=0.1=main
+  - asn1crypto=1.2.0=py37_0
+  - blas=1.0=mkl
+  - bottleneck=1.3.2=py37heb32a55_1
+  - bzip2=1.0.8=h7b6447c_0
+  - ca-certificates=2021.10.8=ha878542_0
+  - cairo=1.14.12=h8948797_3
+  - certifi=2021.10.8=py37h89c1867_1
+  - cffi=1.13.0=py37h2e261b9_0
+  - chardet=3.0.4=py37_1003
+  - click=8.0.3=pyhd3eb1b0_0
+  - conda-package-handling=1.6.0=py37h7b6447c_0
+  - cryptography=2.8=py37h1ba5d50_0
+  - ffmpeg=4.0=hcdf2ecd_0
+  - fontconfig=2.13.0=h9420a91_0
+  - freeglut=3.0.0=hf484d3e_5
+  - freetype=2.11.0=h70c0345_0
+  - glib=2.63.1=h5a9c865_0
+  - graphite2=1.3.14=h23475e2_0
+  - h5py=2.8.0=py37h3010b51_1003
+  - harfbuzz=1.8.8=hffaf4a1_0
+  - hdf5=1.10.2=hba1933b_1
+  - icu=58.2=he6710b0_3
+  - idna=2.8=py37_0
+  - intel-openmp=2021.3.0=h06a4308_3350
+  - jasper=2.0.14=hd8c5072_2
+  - jpeg=9d=h7f8727e_0
+  - libedit=3.1.20181209=hc058e9b_0
+  - libffi=3.2.1=hd88cf55_4
+  - libgcc-ng=9.1.0=hdf63c60_0
+  - libgfortran-ng=7.5.0=ha8ba4b0_17
+  - libgfortran4=7.5.0=ha8ba4b0_17
+  - libglu=9.0.0=hf484d3e_1
+  - libopencv=3.4.2=hb342d67_1
+  - libopus=1.3.1=h7b6447c_0
+  - libpng=1.6.37=hbc83047_0
+  - libprotobuf=3.17.2=h4ff587b_1
+  - libstdcxx-ng=9.1.0=hdf63c60_0
+  - libtiff=4.1.0=h2733197_0
+  - libuuid=1.0.3=h7f8727e_2
+  - libvpx=1.7.0=h439df22_0
+  - libxcb=1.14=h7b6447c_0
+  - libxml2=2.9.9=hea5a465_1
+  - mkl=2021.3.0=h06a4308_520
+  - mkl-service=2.4.0=py37h7f8727e_0
+  - mkl_fft=1.3.1=py37hd3c417c_0
+  - mkl_random=1.2.2=py37h51133e4_0
+  - ncurses=6.1=he6710b0_1
+  - numexpr=2.7.3=py37h22e1b3c_1
+  - numpy-base=1.21.2=py37h79a1101_0
+  - opencv=3.4.2=py37h6fd60c2_1
+  - openssl=1.1.1h=h516909a_0
+  - pandas=1.3.3=py37h8c16a72_0
+  - pcre=8.45=h295c915_0
+  - pip=19.3.1=py37_0
+  - pixman=0.40.0=h7f8727e_1
+  - protobuf=3.17.2=py37h295c915_0
+  - py-opencv=3.4.2=py37hb342d67_1
+  - pycosat=0.6.3=py37h14c3975_0
+  - pycparser=2.19=py37_0
+  - pyopenssl=19.0.0=py37_0
+  - pysocks=1.7.1=py37_0
+  - python=3.7.4=h265db76_1
+  - python-dateutil=2.8.2=pyhd3eb1b0_0
+  - python_abi=3.7=2_cp37m
+  - pytz=2021.3=pyhd3eb1b0_0
+  - readline=7.0=h7b6447c_5
+  - requests=2.22.0=py37_0
+  - ruamel_yaml=0.15.46=py37h14c3975_0
+  - scipy=1.7.1=py37h292c36d_2
+  - setuptools=41.4.0=py37_0
+  - six=1.12.0=py37_0
+  - sqlite=3.30.0=h7b6447c_0
+  - tensorboardx=2.2=pyhd3eb1b0_0
+  - tk=8.6.8=hbc83047_0
+  - tqdm=4.36.1=py_0
+  - urllib3=1.24.2=py37_0
+  - wheel=0.33.6=py37_0
+  - xz=5.2.4=h14c3975_4
+  - yaml=0.1.7=had09818_2
+  - zlib=1.2.11=h7b6447c_3
+  - zstd=1.3.7=h0b5b093_0
+  - pip:
+    - absl-py==1.0.0
+    - cachetools==4.2.4
+    - conda-pack==0.6.0
+    - google-auth==2.3.3
+    - google-auth-oauthlib==0.4.6
+    - grpcio==1.42.0
+    - importlib-metadata==4.8.2
+    - markdown==3.3.6
+    - numpy==1.21.3
+    - oauthlib==3.1.1
+    - pillow==8.4.0
+    - pyasn1==0.4.8
+    - pyasn1-modules==0.2.8
+    - requests-oauthlib==1.3.0
+    - rsa==4.8
+    - tensorboard==2.7.0
+    - tensorboard-data-server==0.6.1
+    - tensorboard-plugin-wit==1.8.0
+    - torch==1.8.1+cu111
+    - torchvision==0.9.1+cu111
+    - typing-extensions==3.10.0.2
+    - werkzeug==2.0.2
+    - zipp==3.6.0
+prefix: /home/chenjin/miniconda3/envs/Py3.7_torch1.8
diff --git a/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py b/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py
new file mode 100644
index 0000000000000000000000000000000000000000..0c15d4f45e5f1c469c28af62477bea344593ecfc
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/main_my_joint_v13_auto.py
@@ -0,0 +1,672 @@
+
+'''
+训练 base 模型
+'''
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+import itertools
+from torch import optim
+from torch.utils.data import DataLoader, RandomSampler
+from torchvision import models
+from torchvision.datasets import CIFAR10
+from torchvision.utils import make_grid
+import torchvision.transforms as transforms
+from tensorboardX import SummaryWriter
+from torch.cuda.amp import autocast,GradScaler
+
+import os
+import click
+import time
+import numpy as np
+
+from network import mnist_net_my as mnist_net
+from mnist_net_multiblock import ConvNetMultiblock
+from network import wideresnet as wideresnet
+from network import resnet as resnet
+from backbone_multiblock import resnet18Multiblock
+from network import adaptor_v2
+
+from tools import causalaugment_v3 as causalaugment
+import data_loader_joint_v3 as data_loader
+from tool_func import *
+# from utils import set_requires_grad
+
+
+HOME = os.environ['HOME']
+
+@click.command()
+@click.option('--gpu', type=str, default='0', help='选择gpu')
+@click.option('--data', type=str, default='mnist', help='数据集名称')
+@click.option('--ntr', type=int, default=None, help='选择训练集前ntr个样本')
+@click.option('--translate', type=float, default=None, help='随机平移数据增强')
+@click.option('--autoaug', type=str, default=None, help='AA FastAA RA')
+@click.option('--n', type=int, default=3, help='选择多少个factor生成RA')
+@click.option('--stride', type=int, default=5, help='if autoaug==CA_multiple, stride is used')
+@click.option('--factor_num', type=int, default=16, help='the first n factors')
+@click.option('--epochs', type=int, default=100)
+@click.option('--nbatch', type=int, default=100, help='每个epoch中batch的数量')
+@click.option('--batchsize', type=int, default=128, help='每个batch中样本的数量')
+@click.option('--lr', type=float, default=1e-3)
+@click.option('--lr_scheduler', type=str, default='none', help='是否选择学习率衰减策略')
+@click.option('--svroot', type=str, default='./saved', help='项目文件保存路径')
+@click.option('--clsadapt', type=bool, default=True, help='映射后是否用分类损失')
+@click.option('--lambda_causal', type=float, default=1, help='the weight of reconstruction during mapping and causal ')
+@click.option('--lambda_re', type=float, default=1, help='the weight of reconstruction during mapping and causal ')
+@click.option('--randm', type=bool, default=True, help='m取值是否randm')
+@click.option('--randn', type=bool, default=False, help='原始特征是否detach')
+@click.option('--network', type=str, default='resnet18', help='项目文件保存路径')
+
+
+
+
+def experiment(gpu, data, ntr, translate, autoaug,n,stride, factor_num, epochs, nbatch, batchsize, lr, lr_scheduler, svroot, clsadapt, lambda_causal,lambda_re,randm,randn,network):
+    print('here2')
+    settings = locals().copy()
+    print(settings)
+
+    # 全局设置
+    os.environ['CUDA_VISIBLE_DEVICES'] = gpu
+    if not os.path.exists(svroot):
+        os.makedirs(svroot)
+    log_file = open(svroot+os.sep+'log.log',"w")
+    log_file.write(str(settings)+'\n')
+    writer = SummaryWriter(svroot)
+    CA = causalaugment.MultiCounterfactualAugment(factor_num,stride)   
+    # FA = causalaugment.FactualAugment(m=4, factor_num=factor_num, randm=True)
+    # 加载数据集和模型
+    if data in ['mnist', 'mnist_t']: 
+        if data == 'mnist':
+            trset = data_loader.load_mnist('train', translate=translate,twox=True, ntr=ntr, factor_num=factor_num,autoaug=autoaug,randm=randm,randn=randn,n=n,stride=stride)
+        elif data == 'mnist_t':
+            trset = data_loader.load_mnist_t('train', translate=translate, ntr=ntr)
+        teset = data_loader.load_mnist('test')
+        trloader = DataLoader(trset, batch_size=batchsize, num_workers=0, \
+                sampler=RandomSampler(trset, True, nbatch*batchsize))
+        teloader = DataLoader(teset, batch_size=batchsize, num_workers=0, shuffle=False)
+        #cls_net = mnist_net.ConvNet().cuda()
+        cls_net = ConvNetMultiblock().cuda()
+        AdaptNet = []
+        parameter_list = []
+        for i in range(factor_num):
+            mapping = adaptor_v2.mapping(1024,512,1024,2).cuda()
+            AdaptNet.append(mapping)
+            parameter_list.append({'params':mapping.parameters(),'lr':lr})
+        if autoaug == 'CA_multiple':
+            var_num = len(list(range(0, 31, stride)))
+            E_to_W = adaptor_v2.effect_to_weight(10,100,1).cuda()
+        else:
+            E_to_W = adaptor_v2.effect_to_weight(10,100,1).cuda()
+        parameter_list.append({'params':cls_net.parameters(),'lr':lr})
+        parameter_list.append({'params':E_to_W.parameters(),'lr':lr})
+        #print("---------------------------------------------------------------------------------------")
+        opt = optim.Adam(parameter_list, lr=lr)
+        if lr_scheduler == 'cosine':
+            scheduler = optim.lr_scheduler.CosineAnnealingLR(opt, epochs)
+        elif lr_scheduler == 'Exp':
+            scheduler = optim.lr_scheduler.ExponentialLR(opt, gamma=0.95) 
+        elif lr_scheduler == 'Step':
+            scheduler = optim.lr_scheduler.StepLR(opt, step_size=int(epochs*0.8))
+        # print("------------------------------------opt_mapping---------------------------------------------------")
+        # for param_group in opt_mapping.param_groups:
+        #     print(param_group.keys())
+        #     # print(type(param_group))
+        #     print([type(value) for value in param_group.values()])
+        #     print('lr: ',param_group['lr'])
+
+        # print("------------------------------------opt_causal---------------------------------------------------")
+        # for param_group in opt_causal.param_groups:
+        #     print(param_group.keys())
+        #     # print(type(param_group))
+        #     print([type(value) for value in param_group.values()])
+        #     print('lr: ',param_group['lr'])
+    
+    elif data == 'cifar10':
+        # 加载数据集
+        trset = data_loader.load_cifar10(split='train',twox=True, factor_num=factor_num,autoaug=autoaug,randm=randm,randn=randn,n=n,stride=stride)
+        teset = data_loader.load_cifar10(split='test')
+        trloader = DataLoader(trset, batch_size=batchsize, num_workers=4, shuffle=True, drop_last=True)
+        teloader = DataLoader(teset, batch_size=batchsize, num_workers=4, shuffle=False)
+        cls_net = wideresnet.WideResNet(16, 10, 4).cuda()
+        # cls_opt = optim.SGD(cls_net.parameters(), lr=lr, momentum=0.9, nesterov=True, weight_decay=5e-4)
+        AdaptNet = []
+        parameter_list = []
+        for i in range(factor_num):
+            mapping = adaptor_v2.mapping(256,512,256,4).cuda()
+            AdaptNet.append(mapping)
+            parameter_list.append({'params':mapping.parameters(),'lr':lr})
+        if autoaug == 'CA_multiple':
+            var_num = len(list(range(0, 31, stride)))
+            E_to_W = adaptor_v2.effect_to_weight(10,100,1).cuda()
+        else:
+            E_to_W = adaptor_v2.effect_to_weight(10,100,1).cuda()
+        parameter_list.append({'params':cls_net.parameters(),'lr':lr})
+        parameter_list.append({'params':E_to_W.parameters(),'lr':lr})
+        #print("---------------------------------------------------------------------------------------")
+        #opt = optim.Adam(parameter_list)
+        opt = optim.SGD(parameter_list, lr=lr, momentum=0.9, nesterov=True, weight_decay=5e-4)
+        if lr_scheduler == 'cosine':
+            scheduler = optim.lr_scheduler.CosineAnnealingLR(opt, epochs)
+        elif lr_scheduler == 'Exp':
+            scheduler = optim.lr_scheduler.ExponentialLR(opt, gamma=0.95)
+        elif lr_scheduler == 'Step':
+            scheduler = optim.lr_scheduler.StepLR(opt, step_size=int(epochs*0.8))
+   
+
+    elif data in ['art_painting', 'cartoon', 'photo', 'sketch']:
+        # 加载数据集
+        trset = data_loader.load_pacs(domain=data, split='train', twox=True, factor_num=factor_num,autoaug=autoaug,randm=randm,randn=randn,n=n,stride=stride)
+        teset = data_loader.load_pacs(domain=data, split='val')
+        trloader = DataLoader(trset, batch_size=batchsize, num_workers=4, shuffle=True, drop_last=True)
+        teloader = DataLoader(teset, batch_size=batchsize, num_workers=4, shuffle=False)
+        if network == 'resnet18':
+            #cls_net = resnet.resnet18(classes=7,c_dim=2048).cuda()
+            cls_net = resnet18Multiblock(classes=7,c_dim=2048).cuda()
+            input_dim = 2048
+            # for param in cls_net.features.parameters():
+            #     param.requires_grad = False
+            # for name, parms in cls_net.named_parameters():  
+            #     print('-->name:', name)
+            #     print('-->grad_requirs:',parms.requires_grad)
+        # cls_opt = optim.SGD(cls_net.parameters(), lr=lr, momentum=0.9, nesterov=True, weight_decay=5e-4)
+        # print(cls_net.state_dict())
+
+        classifier_param = list(map(id, cls_net.class_classifier.parameters()))
+        classifierAttack_param = list(map(id, cls_net.classifier.parameters()))
+        #backbone_param  =  filter(lambda p: id(p) not in classifier_param and p.requires_grad, cls_net.parameters())
+        backbone_param  =  filter(lambda p: id(p) not in classifier_param and id(p) not in classifierAttack_param and p.requires_grad, cls_net.parameters())
+        AdaptNet = []
+        parameter_list = []
+        for i in range(factor_num):
+            mapping = adaptor_v2.mapping(input_dim,1024,input_dim,4).cuda()
+            AdaptNet.append(mapping)
+            parameter_list.append({'params':mapping.parameters(),'lr':lr})
+        if autoaug == 'CA_multiple':
+            var_num = len(list(range(0, 31, stride)))
+            E_to_W = adaptor_v2.effect_to_weight(7,70,1).cuda()
+        else:
+            E_to_W = adaptor_v2.effect_to_weight(7,70,1).cuda()
+        parameter_list.append({'params':backbone_param,'lr':0.01*lr})
+        parameter_list.append({'params':cls_net.class_classifier.parameters(),'lr':lr})
+        parameter_list.append({'params':cls_net.classifier.parameters(),'lr':lr})
+        parameter_list.append({'params':E_to_W.parameters(),'lr':lr})
+
+        #print("---------------------------------------------------------------------------------------")
+        #opt = optim.Adam(parameter_list) #version2
+        opt = optim.SGD(parameter_list, momentum=0.9, nesterov=True, weight_decay=5e-4) #version1, inital
+        if lr_scheduler == 'cosine':
+            scheduler = optim.lr_scheduler.CosineAnnealingLR(opt, epochs)
+        elif lr_scheduler == 'Exp':
+            scheduler = optim.lr_scheduler.ExponentialLR(opt, gamma=0.99999) 
+        elif lr_scheduler == 'Step':
+            scheduler = optim.lr_scheduler.StepLR(opt, step_size=15)
+
+    elif 'synthia' in data:
+        # 加载数据集
+        branch = data.split('_')[1]
+        trset = data_loader.load_synthia(branch)
+        trloader = DataLoader(trset, batch_size=batchsize, num_workers=8, shuffle=True)
+        teloader = DataLoader(trset, batch_size=batchsize, num_workers=8, shuffle=True)
+        imsize = [192, 320]
+        nclass = 14
+        # 加载模型
+        cls_net = fcn.FCN_resnet50(nclass=nclass).cuda()
+        cls_opt = optim.Adam(cls_net.parameters(), lr=lr)#, weight_decay=1e-4) # 对于synthia 加上weigh_decay会掉1-2个点
+        if lr_scheduler == 'cosine':
+            scheduler = optim.lr_scheduler.CosineAnnealingLR(cls_opt, epochs*len(trloader))
+    
+
+    cls_criterion = nn.CrossEntropyLoss()
+    adapt_criterion = nn.MSELoss()
+    # 开始训练
+    best_acc = 0
+    best_acc_t = 0
+    scaler = GradScaler()
+    for epoch in range(epochs):
+        for name, param in cls_net.classifier.named_parameters():
+            if param.requires_grad:
+                print(f'Epoch {epoch+1}, {name}, value: {param.data}, grad: {param.grad}')
+
+        t1 = time.time() 
+        loss_list = []
+        cls_net.train()
+        # unloader = transforms.ToPILImage()
+        print(len(trloader))
+        for i, (x_four,y) in enumerate(trloader):
+            b_sample_num = y.size(0)
+            x, x_RA, x_FA, x_CA, y = x_four[0].cuda(), x_four[1].cuda(), x_four[2].cuda(), x_four[3].cuda(), y.cuda()
+            b, c, h, w = x.shape
+            # x_FA_ = x_FA.transpose(1,2)
+            x_FA = x_FA.reshape(b*factor_num, c, h, w)
+            x_CA = x_CA.reshape(b*factor_num*var_num, c, h, w)
+            #learning mapping
+            y_repeat = y.unsqueeze(0).reshape(b_sample_num,1).repeat((1,factor_num)).reshape(1,b_sample_num*factor_num).squeeze()
+            # x_FA = FA(x).cuda().detach()
+            # x_CA = CA(x_RA).cuda().detach()
+            with autocast():
+                # print('x:', x.shape)
+                # print('cls_net', cls_net)
+                # p,f = cls_net(x)
+                '''
+                StyleAttack part
+                given: cls_net, cls_net.classiifer for  gradients, input x
+                output: cls_loss, p, loss_adv, p_adv, loss_cls_ori
+                '''
+                epsilon_list = [0.8, 0.08, 0.008] #eps1
+                #epsilon_list = [0.2, 0.02, 0.002] #eps2
+                #epsilon_list = [0.1, 0.01, 0.001]
+                #epsilon_list = [0.08, 0.008, 0.0008]
+                #epsilon_list = [0.02, 0.002, 0.0002]
+                ##################################################################
+                # 0. first cp x_adv from x_ori
+                #x_adv = x
+                x_adv = x_RA
+                #x_adv = x_FA
+                #x_adv = x_CA
+
+                ##################################################################
+                # 1. styleAdv
+                cls_net.eval()
+
+                #adv_style_mean_block1, adv_style_std_block1, adv_style_mean_block2, adv_style_std_block2, adv_style_mean_block3, adv_style_std_block3 = adversarial_attack_Incre(cls_net, cls_criterion, x, y, epsilon_list)
+                adv_style_mean_block1, adv_style_std_block1, adv_style_mean_block2, adv_style_std_block2, adv_style_mean_block3, adv_style_std_block3 = adversarial_attack_Incre(cls_net, cls_criterion, x_RA, y, epsilon_list)
+                #adv_style_mean_block1, adv_style_std_block1, adv_style_mean_block2, adv_style_std_block2, adv_style_mean_block3, adv_style_std_block3 = adversarial_attack_Incre(cls_net, cls_criterion, x_FA, y, epsilon_list)
+                #adv_style_mean_block1, adv_style_std_block1, adv_style_mean_block2, adv_style_std_block2, adv_style_mean_block3, adv_style_std_block3 = adversarial_attack_Incre(cls_net, cls_criterion, x_CA, y, epsilon_list)
+            
+                cls_net.zero_grad()
+
+                #################################################################
+                # 2. forward and get loss
+                cls_net.train()
+
+                # forward x_ori 
+                #L1, L2, L3, L4, p,f = cls_net(x)
+                L1, L2, L3, L4, p,f = cls_net(x_RA)
+                #L1, L2, L3, L4, p,f = cls_net(x_FA)
+                #L1, L2, L3, L4, p,f = cls_net(x_CA)
+
+                cls_loss = cls_criterion(p, y)
+
+                # ori cls global loss    
+                scores_cls_ori = cls_net.classifier.forward(f)
+                loss_cls_ori = cls_criterion(scores_cls_ori, y)
+            
+                # forward x_adv
+                x_adv = x_adv.cuda()
+                x_adv_block1 = cls_net.forward_block1(x_adv)
+                x_adv_block1_newStyle = changeNewAdvStyle(x_adv_block1, adv_style_mean_block1, adv_style_std_block1, p_thred = P_THRED) 
+                x_adv_block2 = cls_net.forward_block2(x_adv_block1_newStyle)
+                x_adv_block2_newStyle = changeNewAdvStyle(x_adv_block2, adv_style_mean_block2, adv_style_std_block2, p_thred = P_THRED)
+                x_adv_block3 = cls_net.forward_block3(x_adv_block2_newStyle)
+                x_adv_block3_newStyle = changeNewAdvStyle(x_adv_block3, adv_style_mean_block3, adv_style_std_block3, p_thred = P_THRED)
+                x_adv_block4 = cls_net.forward_block4(x_adv_block3_newStyle)
+                p_adv, x_adv_fea = cls_net.forward_rest(x_adv_block4)
+                loss_adv = cls_criterion(p_adv, y)
+
+                loss_KL = consistency_loss(p, p_adv, 'KL3')
+                loss_styleattack =  loss_adv + loss_KL + loss_cls_ori
+
+
+                '''
+                original metaCausal
+                '''
+                L1, L2, L3, L4, p,f = cls_net(x)
+                L1_FA, L2_FA, L3_FA, L4_FA, _,f_FA = cls_net(x_FA)
+                L1_RA, L2_RA, L3_RA, L4_RA, p_RA,f_RA = cls_net(x_RA)
+                L1_CA, L2_CA, L3_CA, L4_CA, p_CA,_ = cls_net(x_CA)
+                #learning mapping
+                f_repeat = f.repeat((1,factor_num)).reshape(f_FA.shape)
+                f_adapt = torch.zeros(f_FA.shape).cuda()
+                for b in range(b_sample_num):
+                    for j in range(factor_num):
+                        f_adapt[b*factor_num+j] = AdaptNet[j](f_FA[b*factor_num+j])
+                p_adapt = cls_net(f_adapt, mode='c')
+
+                #learning causality
+                if autoaug == 'CA_multiple':
+                    p_RA_repeat = p_RA.repeat((1,factor_num*var_num)).reshape(p_CA.shape)
+                    effect_context = p_RA_repeat - p_CA
+                    effect_context = effect_context.reshape(b_sample_num,factor_num,var_num,-1)
+                    effect_context = effect_context.mean(axis=2).reshape(b_sample_num*factor_num,-1)
+                    # print("effect_context.shape:",effect_context.shape)
+                else:
+                    p_RA_repeat = p_RA.repeat((1,factor_num)).reshape(p_CA.shape)
+                    effect_context = p_RA_repeat - p_CA
+                weight = E_to_W(effect_context)
+                # weight = E_to_W(effect_context.detach())
+                weight = weight.reshape(b_sample_num,factor_num)
+                alphas = F.softmax(weight,dim=1)
+                
+                f_adapt_RA = torch.zeros(f_RA.shape).cuda()
+                for b in range(b_sample_num):
+                    for j in range(factor_num):
+                        f_adapt_RA[b] = f_adapt_RA[b]+ alphas[b,j]*AdaptNet[j](f_RA[b])     
+                p_adapt_RA = cls_net(f_adapt_RA, mode='c')
+                
+                #cls_loss = cls_criterion(p, y)
+                re_mapping = adapt_criterion(f_adapt,f_repeat) 
+                re_causal = adapt_criterion(f_adapt_RA,f)                
+                cls_loss_mapping = cls_criterion(p_adapt, y_repeat)
+                cls_loss_causal = cls_criterion(p_adapt_RA, y)
+
+                loss_metacausal = cls_loss + cls_loss_mapping + lambda_re*re_mapping + lambda_causal*(lambda_re*re_causal + cls_loss_causal)
+  
+                #print('loss_styleattack:', loss_styleattack, 'loss_metacausal:', loss_metacausal)
+
+                loss = loss_styleattack + loss_metacausal 
+
+
+            opt.zero_grad()            
+            scaler.scale(loss).backward()
+            scaler.step(opt)
+            scaler.update()
+            loss_list.append([cls_loss.item(), cls_loss_mapping.item(),cls_loss_causal.item(), re_mapping.item(), re_causal.item()])
+            
+            # 调整学习率
+        if lr_scheduler in ['cosine', 'Exp', 'Step']:
+            writer.add_scalar('scalar/lr', opt.param_groups[0]["lr"], epoch)
+            print(opt.param_groups[0]["lr"])
+            print("changing lr")
+            scheduler.step()
+        cls_loss, cls_loss_mapping, cls_loss_causal, re_mapping, re_causal = np.mean(loss_list, 0)    
+
+        # 测试，并保存最优模型
+        cls_net.eval()
+        if data in ['mnist', 'mnist_t', 'cifar10', 'mnistvis', 'art_painting', 'cartoon', 'photo', 'sketch']:
+            teacc = evaluate(cls_net, teloader)
+
+        elif 'synthia' in data:
+            teacc = evaluate_seg(cls_net, teloader, nclass) # 这里算的其实是 miou
+
+        if best_acc < teacc:
+            print(f'---------------------saving model at epoch {epoch}----------------------------------------------------')
+            log_file.write(f'saving model at epoch {epoch}\n')
+
+            best_acc = teacc
+            torch.save(cls_net.state_dict(),os.path.join(svroot, 'best_cls_net.pkl'))
+            for j in range(factor_num):
+                torch.save(AdaptNet[j].state_dict(),os.path.join(svroot, 'best_mapping_'+str(j)+'.pkl'))
+            torch.save(E_to_W.state_dict(), os.path.join(svroot, 'best_E_to_W.pkl'))
+
+        # 保存日志
+        t2 = time.time()
+        print(f'epoch {epoch}, time {t2-t1:.2f}, cls_loss {cls_loss:.4f} cls_loss_mapping {cls_loss_mapping:.4f} cls_loss_causal {cls_loss_causal:.4f} re_mapping {re_mapping:.4f} re_causal {re_causal:.4f} /// teacc {teacc:2.2f} lr {opt.param_groups[0]["lr"]:.8f}')
+        log_file.write(f'epoch {epoch}, time {t2-t1:.2f}, cls_loss {cls_loss:.4f} cls_loss_mapping {cls_loss_mapping:.4f} cls_loss_causal {cls_loss_causal:.4f} re_mapping {re_mapping:.4f} re_causal {re_causal:.4f} /// teacc {teacc:2.2f} lr {opt.param_groups[0]["lr"]:.8f} \n')
+        writer.add_scalar('scalar/cls_loss', cls_loss, epoch)
+        writer.add_scalar('scalar/cls_loss_mapping', cls_loss_mapping, epoch)
+        writer.add_scalar('scalar/cls_loss_causal', cls_loss_causal, epoch)
+        writer.add_scalar('scalar/re_mapping', re_mapping, epoch)
+        writer.add_scalar('scalar/re_causal', re_causal, epoch)
+        writer.add_scalar('scalar/teacc', teacc, epoch)
+    print(f'---------------------saving last model at epoch {epoch}----------------------------------------------------')
+    log_file.write(f'saving last model at epoch {epoch}\n')
+    torch.save(cls_net.state_dict(),os.path.join(svroot, 'last_cls_net.pkl'))
+    for j in range(factor_num):
+        torch.save(AdaptNet[j].state_dict(),os.path.join(svroot, 'last_mapping_'+str(j)+'.pkl'))
+    torch.save(E_to_W.state_dict(), os.path.join(svroot, 'last_E_to_W.pkl'))
+
+    writer.close()
+
+def evalute_pacs(source_domain,cls_net,CA,AdaptNet,E_to_W):
+    cls_net.eval()
+    data_total = ['art_painting', 'cartoon', 'photo', 'sketch']
+    target = [i for i in data_total if i!=source_domain]
+    acc_CA = np.zeros(len(target))
+    for idx, data in enumerate(target):
+        teset = data_loader.load_pacs(data, 'test')
+        teloader = DataLoader(teset, batch_size=6, num_workers=0)
+        # 计算评价指标
+        acc_CA[idx] = evaluate_causal(cls_net, teloader, CA, AdaptNet, E_to_W)
+    acc_avg_CA = sum(acc_CA)/len(target)
+    return acc_avg_CA,acc_CA
+
+
+def evaluate(net, teloader):
+    ps = []
+    ys = []
+    for i,(x1, y1) in enumerate(teloader):
+        with torch.no_grad():
+            x1 = x1.cuda()
+            #p1,_ = net(x1, mode='fc')
+            _, _, _, _, p1,_ = net(x1, mode='fc')
+            p1 = p1.argmax(dim=1)
+            ps.append(p1.detach().cpu().numpy())
+            ys.append(y1.numpy())
+    # 计算评价指标
+    ps = np.concatenate(ps)
+    ys = np.concatenate(ys)
+    acc = np.mean(ys==ps)*100
+    return acc
+
+def extract_feature(net, teloader, savedir):
+    ps = []
+    ys = []
+    for i,(x1, y1) in enumerate(teloader):
+        img_class = y1[0].cpu().numpy()
+        save_path = os.path.join(savedir,str(img_class))
+        if not os.path.exists(save_path):
+            os.makedirs(save_path)
+
+        with torch.no_grad():
+            x1 = x1.cuda()
+            #p1,f1 = net(x1, mode='fc')
+            _, _, _, _, p1,f1 = net(x1, mode='fc')
+            save_name = save_path+os.sep+str(i)+'.npy'
+            np.save(save_name,f1.cpu())
+            p1 = p1.argmax(dim=1)
+            ps.append(p1.detach().cpu().numpy())
+            ys.append(y1.numpy())
+    # 计算评价指标
+    ps = np.concatenate(ps)
+    ys = np.concatenate(ys)
+    acc = np.mean(ys==ps)*100
+    return acc
+
+def evaluate_causal(net, teloader, CA, AdaptNet, E_to_W):
+    ps = []
+    ys = []
+    p_orig = []
+    y_orig = []
+    for i,(x1, y1) in enumerate(teloader):
+        b_sample_num = x1.size(0)
+        with torch.no_grad():
+            x1 = x1.cuda()
+            #p1,f_x1 = net(x1, mode='fc')
+            _, _, _, _, p1,f_x1 = net(x1, mode='fc')
+            x1_CA = CA(x1).cuda()
+            #p1_CA,_ = net(x1_CA, mode='fc')
+            _, _, _, _, p1_CA,_ = net(x1_CA, mode='fc')
+            p1_repeat = p1.repeat((1,CA.factor_num*CA.var_num)).reshape(p1_CA.shape)
+            effect_context = p1_repeat - p1_CA
+            effect_context = effect_context.reshape(b_sample_num,CA.factor_num,CA.var_num,-1)
+            effect_context = effect_context.mean(axis=2).reshape(b_sample_num*CA.factor_num,-1)
+            weight = E_to_W(effect_context)
+            weight = weight.reshape(b_sample_num,CA.factor_num)
+            alphas = F.softmax(weight,dim=1)
+            f_adapt = torch.zeros(f_x1.shape).cuda()
+            for b in range(b_sample_num):
+                for j in range(CA.factor_num):
+                    f_adapt[b] = f_adapt[b]+ alphas[b,j]*AdaptNet[j](f_x1[b])
+            p_adapt = net(f_adapt, mode='c')
+            p_adapt = p_adapt.argmax(dim=1)
+            ps.append(p_adapt.detach().cpu().numpy())
+            ys.append(y1.numpy())
+    # 计算评价指标
+    ps = np.concatenate(ps)
+    ys = np.concatenate(ys)
+    acc = np.mean(ys==ps)*100
+    return acc
+
+def extract_feature_do(net, teloader, CA, AdaptNet, E_to_W, savedir_base, savedir,source_flag):
+    ps = []
+    ys = []
+    for i,(x1, y1) in enumerate(teloader):
+        img_class = y1[0].cpu().numpy()
+        save_path_base = os.path.join(savedir_base,str(img_class))
+        save_path = os.path.join(savedir,str(img_class))
+        if not os.path.exists(save_path_base):
+            os.makedirs(save_path_base)
+        if not os.path.exists(save_path):
+            os.makedirs(save_path)
+        b_sample_num = x1.size(0)
+        with torch.no_grad():
+            x1 = x1.cuda()
+            #p1,f_x1 = net(x1, mode='fc')
+            _, _, _, _, p1,f_x1 = net(x1, mode='fc')
+            save_name_base = save_path_base+os.sep+str(i)+'_base.npy'
+            print(save_name_base)
+            np.save(save_name_base,f_x1.cpu())            
+            x1_CA = CA(x1).cuda()
+            #p1_CA,_ = net(x1_CA, mode='fc')
+            _, _, _, _,  p1_CA,_ = net(x1_CA, mode='fc')
+            p1_repeat = p1.repeat((1,CA.factor_num*CA.var_num)).reshape(p1_CA.shape)
+            effect_context = p1_repeat - p1_CA
+            effect_context = effect_context.reshape(b_sample_num,CA.factor_num,CA.var_num,-1)
+            effect_context = effect_context.mean(axis=2).reshape(b_sample_num*CA.factor_num,-1)
+            weight = E_to_W(effect_context)
+            weight = weight.reshape(b_sample_num,CA.factor_num)
+            alphas = F.softmax(weight,dim=1)
+            f_adapt = torch.zeros(f_x1.shape).cuda()
+            for b in range(b_sample_num):
+                for j in range(CA.factor_num):
+                    f_adapt[b] = f_adapt[b]+ alphas[b,j]*AdaptNet[j](f_x1[b])
+            if not source_flag:
+                save_name = save_path+os.sep+str(i)+'.npy'
+                print(save_name)
+                np.save(save_name,f_adapt.cpu())
+            p_adapt = net(f_adapt, mode='c')
+            p_adapt = p_adapt.argmax(dim=1)
+            ps.append(p_adapt.detach().cpu().numpy())
+            ys.append(y1.numpy())
+    # 计算评价指标
+    ps = np.concatenate(ps)
+    ys = np.concatenate(ys)
+    acc = np.mean(ys==ps)*100
+    return acc
+
+
+def evaluate_mapping(net, teloader, FA, AdaptNet, source=False):
+    correct, count = 0, 0
+    ps = []
+    ys = []
+    pt = []
+    yt = []
+    factor_num = FA.factor_num
+    for j in range(factor_num):
+        ps.append([])
+        ys.append([])
+        pt.append([])
+        yt.append([])
+    ps.append([])
+    ys.append([])   
+    # print(len(ps),len(ys))
+    for i,(x1, y1) in enumerate(teloader):
+        with torch.no_grad():
+            x1 = x1.cuda()
+            b = x1.size(0)
+            if source:
+                x_FA = FA(x1).cuda()
+                #_, f = net(x_FA, mode='fc')
+                _, _, _, _, _, f = net(x_FA, mode='fc')
+                #p,_ = net(x1, mode='fc')
+                _, _, _, _, p,_ = net(x1, mode='fc')
+                p = p.argmax(dim=1)
+                ps[-1].append(p.detach().cpu().numpy())
+                ys[-1].append(y1.numpy())
+            else:
+                #p, f = net(x1, mode='fc')
+                _, _, _, _, p, f = net(x1, mode='fc')
+                f = f.repeat((1,factor_num)).reshape((-1,f.size(1)))         
+                p = p.argmax(dim=1)
+                ps[-1].append(p.detach().cpu().numpy())
+                ys[-1].append(y1.numpy())
+            for b_ in range(b):
+                for j in range(factor_num):
+                    f_adapt = AdaptNet[j](f[b_*factor_num+j])
+                    #f_adapt = torch.mm(AdaptNet[j].W1,f_FA[b_*factor_num+j].unsqueeze(1)).squeeze()
+                    p1 = net(f_adapt, mode='c')
+                    p1 = p1.argmax(dim=0)
+                    ps[j].append(p1.detach().cpu())
+                    ys[j].append(y1[b_])
+                    p1_t = net(f[b_*factor_num+j], mode='c')
+                    # print("p1_t.shape:",p1_t.shape)
+                    p1_t = p1_t.argmax(dim=0)
+                    pt[j].append(p1_t.detach().cpu())
+                    yt[j].append(y1[b_])
+    # 计算评价指标
+    acc = np.zeros(factor_num+1)
+    acc_t = np.zeros(factor_num+1)
+    for j in range(factor_num):
+        pred = torch.stack(ps[j])
+        label = torch.stack(ys[j])
+        acc[j] = (pred==label).sum()/float(len(ys[j]))*100
+        predt = torch.stack(pt[j])
+        labelt = torch.stack(yt[j])
+        acc_t[j] = (predt==labelt).sum()/float(len(yt[j]))*100
+    pred = np.concatenate(ps[-1])
+    label = np.concatenate(ys[-1])
+    acc[-1] = np.mean(pred==label)*100
+    # print("acc:",acc)
+    return acc, acc_t
+
+def evaluate_causal_with_entropy(net, teloader, CA, AdaptNet):
+    ps = []
+    ys = []
+    for i,(x1, y1) in enumerate(teloader):
+        b_sample_num = x1.size(0)
+        with torch.no_grad():
+            x1 = x1.cuda()
+            #p1,f_x1 = net(x1, mode='fc')
+            _, _, _, _, p1,f_x1 = net(x1, mode='fc')
+            x1_CA = CA(x1).cuda()
+            #p1_CA, _ = net(x1_CA, mode='fc')
+            _, _, _, _, p1_CA, _ = net(x1_CA, mode='fc')
+            p1_repeat = p1.repeat((1,CA.factor_num*CA.var_num)).reshape(p1_CA.shape)
+            effect_context = p1_repeat - p1_CA
+            effect_context = effect_context.reshape(b_sample_num,CA.factor_num,CA.var_num,-1)
+            effect_context = effect_context.mean(axis=2).reshape(b_sample_num*CA.factor_num,-1)
+            effect_context = F.softmax(effect_context,dim=1)
+            # weight = calc_ent(effect_context)
+            weight = torch.sum(-effect_context*(torch.log2(effect_context)),dim=1)
+            weight = weight.reshape(b_sample_num,CA.factor_num)
+            alphas = F.softmax(-weight,dim=1)
+            f_adapt = torch.zeros(f_x1.shape).cuda()
+            for b in range(b_sample_num):
+                for j in range(CA.factor_num):
+                    f_adapt[b] = f_adapt[b]+ alphas[b,j]*AdaptNet[j](f_x1[b]) 
+            p_adapt = net(f_adapt, mode='c')
+            p_adapt = p_adapt.argmax(dim=1)
+            ps.append(p_adapt.detach().cpu().numpy())
+            ys.append(y1.numpy())
+    # 计算评价指标
+    ps = np.concatenate(ps)
+    ys = np.concatenate(ys)
+    acc = np.mean(ys==ps)*100
+    return acc
+def evaluate_causal_with_average(net, teloader, factor_num, AdaptNet):
+    ps = []
+    ys = []
+    for i,(x1, y1) in enumerate(teloader):
+        b_sample_num = x1.size(0)
+        with torch.no_grad():
+            x1 = x1.cuda()
+            #p1,f_x1 = net(x1, mode='fc')
+            _, _, _, _, p1,f_x1 = net(x1, mode='fc')
+            f_adapt = torch.zeros(f_x1.shape).cuda()
+            for b in range(b_sample_num):
+                for j in range(factor_num):
+                    f_adapt[b] = f_adapt[b]+ float(1/factor_num)*AdaptNet[j](f_x1[b]) 
+            p_adapt = net(f_adapt, mode='c')
+            p_adapt = p_adapt.argmax(dim=1)
+            ps.append(p_adapt.detach().cpu().numpy())
+            ys.append(y1.numpy())
+    # 计算评价指标
+    ps = np.concatenate(ps)
+    ys = np.concatenate(ys)
+    acc = np.mean(ys==ps)*100
+    return acc
+
+if __name__=='__main__':
+    print('here1')
+    experiment()
\ No newline at end of file
diff --git a/Meta-causal/code-withStyleAttack/main_test_digit_v13.py b/Meta-causal/code-withStyleAttack/main_test_digit_v13.py
new file mode 100644
index 0000000000000000000000000000000000000000..b591743d989d0b593cfee714221972cf714c4789
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/main_test_digit_v13.py
@@ -0,0 +1,146 @@
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from torch.utils.data import DataLoader
+
+import os
+import numpy as np
+import click
+import pandas as pd
+
+from network import mnist_net_my as mnist_net
+from mnist_net_multiblock import ConvNetMultiblock
+from network import adaptor_v2
+from tools import causalaugment_v3 as causalaugment
+from main_my_joint_v13_auto import evaluate,evaluate_causal,evaluate_causal_with_entropy,evaluate_mapping,evaluate_causal_with_average
+import data_loader_joint_v3 as data_loader
+
+@click.command()
+@click.option('--gpu', type=str, default='0', help='选择GPU编号')
+@click.option('--svroot', type=str, default='./saved')
+@click.option('--svpath', type=str, default=None, help='保存日志的路径')
+@click.option('--channels', type=int, default=3)
+@click.option('--factor_num', type=int, default=16)
+@click.option('--stride', type=int, default=16)
+@click.option('--epoch', type=str, default='best')
+@click.option('--eval_mapping', type=bool, default=True, help='是否查看mapping学习效果')
+def main(gpu, svroot, svpath, channels, factor_num,stride, epoch, eval_mapping):
+    evaluate_digit(gpu, svroot, svpath, channels, factor_num, stride,epoch, eval_mapping)
+    
+def evaluate_digit(gpu, svroot, svpath, channels=3, factor_num=16,stride=5,epoch='best', eval_mapping=True):
+    settings = locals().copy()
+    print(settings)
+    os.environ['CUDA_VISIBLE_DEVICES'] = gpu
+
+    # 加载分类模型
+    if channels == 3:
+        #cls_net = mnist_net.ConvNet().cuda()
+        cls_net = ConvNetMultiblock().cuda()
+    elif channels == 1:
+        #cls_net = mnist_net.ConvNet(imdim=channels).cuda()
+        cls_net = ConvNetMultiblock(imdim=channels).cuda()
+    if epoch == 'best':
+        print("loading weight of %s"%(epoch))
+        saved_weight = torch.load(os.path.join(svroot, 'best_cls_net.pkl'))
+    elif epoch == 'last':
+        print("loading weight of %s"%(epoch))
+        saved_weight = torch.load(os.path.join(svroot, 'last_cls_net.pkl'))
+    cls_net.load_state_dict(saved_weight)
+    #cls_net.eval()
+    # 加载adaptation模型   
+    FA = causalaugment.FactualAugment(m=4, factor_num=factor_num)
+    CA = causalaugment.MultiCounterfactualAugment(factor_num,stride) 
+    # Color_mapping = adaptor.mapping().cuda()
+    # Contrast_mapping = adaptor.mapping().cuda()
+    # Brightness_mapping = adaptor.mapping().cuda()
+    AdaptNet = []
+    parameter_list = []
+    for i in range(factor_num):
+        if epoch == 'best':
+            print("loading weight of %s"%(epoch))
+            saved_weight = torch.load(os.path.join(svroot, 'best_mapping_'+str(i)+'.pkl'))
+        elif epoch == 'last':
+            print("loading weight of %s"%(epoch))
+            saved_weight = torch.load(os.path.join(svroot, 'last_mapping_'+str(i)+'.pkl'))
+        # saved_weight = torch.load(os.path.join(svroot, 'best_mapping_'+str(i)+'.pkl'))
+        mapping = adaptor_v2.mapping(1024,512,1024,2).cuda()
+        mapping.load_state_dict(saved_weight)
+        AdaptNet.append(mapping)
+    if epoch == 'best':
+        print("loading weight of %s"%(epoch))
+        saved_weight = torch.load(os.path.join(svroot, 'best_E_to_W.pkl'))
+    elif epoch == 'last':
+        print("loading weight of %s"%(epoch))
+        saved_weight = torch.load(os.path.join(svroot, 'last_E_to_W.pkl'))
+
+    E_to_W = adaptor_v2.effect_to_weight(10,100,1).cuda()
+    # Color_mapping.load_state_dict(saved_weight['Color_mapping'])
+    # Contrast_mapping.load_state_dict(saved_weight['Contrast_mapping'])
+    # Brightness_mapping.load_state_dict(saved_weight['Brightness_mapping'])
+    # saved_weight = torch.load(os.path.join(svroot, 'best_E_to_W.pkl'))
+    E_to_W.load_state_dict(saved_weight)
+
+    # 测试
+    str2fun = { 
+        'mnist': data_loader.load_mnist,
+        'mnist_m': data_loader.load_mnist_m,
+        'usps': data_loader.load_usps,
+        'svhn': data_loader.load_svhn,
+        'syndigit': data_loader.load_syndigit,
+        }   
+    columns = ['mnist', 'svhn', 'mnist_m', 'syndigit','usps']
+    target = ['svhn', 'mnist_m', 'syndigit','usps']
+    if eval_mapping:
+        index = FA.factor_list
+        index.append('w/o do (original x)')
+    else:
+        index = ['w/o do (original x)']
+    index_ours = ['do']
+    data_result = {}
+    data_result_ours = {}
+    cls_net.eval()
+    for idx, data in enumerate(columns):
+        teset = str2fun[data]('test', channels=channels)
+        teloader = DataLoader(teset, batch_size=8, num_workers=0)
+        # 计算评价指标
+        acc_CA = evaluate_causal(cls_net, teloader, CA, AdaptNet, E_to_W)
+        data_result_ours[data] = acc_CA
+        #最后一维度是原始数据
+        if eval_mapping:
+            if data == 'mnist':
+                teacc_FA_aftermapping, acc_FA = evaluate_mapping(cls_net, teloader, FA, AdaptNet, source=True)
+                acc_avg = np.zeros(teacc_FA_aftermapping.shape)
+                acc_avg_CA = np.zeros(acc_CA.shape)
+            else:
+                teacc_FA_aftermapping, acc_FA = evaluate_mapping(cls_net, teloader, FA, AdaptNet, source=False)
+                acc_avg = acc_avg + teacc_FA_aftermapping
+                acc_avg_CA = acc_avg_CA + acc_CA
+            data_result[data]=teacc_FA_aftermapping
+            data_result[data+'_FA'] = acc_FA
+        else:
+            teacc = evaluate(cls_net, teloader)
+            if data == 'mnist':
+                acc_avg = np.zeros(teacc.shape)
+                acc_avg_CA = np.zeros(acc_CA.shape)
+            else:
+                acc_avg = acc_avg + teacc
+                acc_avg_CA = acc_avg_CA + acc_CA
+            data_result[data] = teacc         
+    acc_avg = acc_avg/float(len(target))
+    acc_avg_CA = acc_avg_CA/float(len(target))
+    
+    data_result['Avg'] = acc_avg
+    data_result_ours['Avg'] = acc_avg_CA
+
+    df = pd.DataFrame(data_result,index = index)
+    df_ours = pd.DataFrame(data_result_ours,index = index_ours)
+    print(df)
+    print(df_ours)       
+    if svpath is not None:
+        df.to_csv(svpath)
+        df_ours.to_csv(svpath, mode='a')
+
+if __name__=='__main__':
+    main()
+
diff --git a/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py b/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py
new file mode 100644
index 0000000000000000000000000000000000000000..8ab72c2e98d8f3c1a2bad66263b7e0444dabfc1e
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/main_test_pacs_v13.py
@@ -0,0 +1,141 @@
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from torch.utils.data import DataLoader
+
+import os
+import numpy as np
+import click
+import pandas as pd
+
+from network import resnet as resnet
+from backbone_multiblock import resnet18Multiblock
+from network import adaptor_v2
+from tools import causalaugment_v3 as causalaugment
+from main_my_joint_v13_auto import evaluate,evaluate_causal,evaluate_causal_with_entropy,evaluate_mapping,evaluate_causal_with_average
+import data_loader_joint_v3 as data_loader
+
+@click.command()
+@click.option('--gpu', type=str, default='0', help='选择GPU编号')
+@click.option('--svroot', type=str, default='./saved')
+@click.option('--source_domain', type=str, default='art_painting', help='source domain')
+@click.option('--svpath', type=str, default=None, help='保存日志的路径')
+@click.option('--factor_num', type=int, default=16)
+@click.option('--epoch', type=str, default='best')
+@click.option('--stride', type=int, default=5)
+@click.option('--eval_mapping', type=bool, default=False, help='是否查看mapping学习效果')
+@click.option('--network', type=str, default='resnet18', help='项目文件保存路径')
+def main(gpu, svroot, source_domain, svpath, factor_num, epoch, stride,eval_mapping, network):
+    evaluate_pacs(gpu, svroot, source_domain, svpath, factor_num, epoch, stride,eval_mapping, network)
+    
+def evaluate_pacs(gpu, svroot, source_domain, svpath, factor_num=16, epoch='best', stride=5,eval_mapping=False, network='resnet18'):
+    settings = locals().copy()
+    print(settings)
+    os.environ['CUDA_VISIBLE_DEVICES'] = gpu
+
+    # 加载分类模型
+    if network == 'resnet18':
+        #cls_net = resnet.resnet18(classes=7,c_dim=2048).cuda()
+        cls_net = resnet18Multiblock(classes=7,c_dim=2048).cuda()
+        input_dim = 2048
+    if epoch == 'best':
+        print("loading weight of %s"%(epoch))
+        saved_weight = torch.load(os.path.join(svroot, 'best_cls_net.pkl'))
+    elif epoch == 'last':
+        print("loading weight of %s"%(epoch))
+        saved_weight = torch.load(os.path.join(svroot, 'last_cls_net.pkl'))
+    cls_net.load_state_dict(saved_weight)
+    cls_net.eval()
+    # 加载adaptation模型
+    FA = causalaugment.FactualAugment(m=4, factor_num=factor_num)
+    CA = causalaugment.MultiCounterfactualAugment(factor_num,stride) 
+    AdaptNet = []
+    parameter_list = []
+    for i in range(factor_num):
+        if epoch == 'best':
+            print("loading weight of %s"%(epoch))
+            saved_weight = torch.load(os.path.join(svroot, 'best_mapping_'+str(i)+'.pkl'))
+        elif epoch == 'last':
+            print("loading weight of %s"%(epoch))
+            saved_weight = torch.load(os.path.join(svroot, 'last_mapping_'+str(i)+'.pkl'))
+        # saved_weight = torch.load(os.path.join(svroot, 'best_mapping_'+str(i)+'.pkl'))
+        mapping = adaptor_v2.mapping(input_dim,1024,input_dim,4).cuda()
+        mapping.load_state_dict(saved_weight)
+        AdaptNet.append(mapping)
+    if epoch == 'best':
+        print("loading weight of %s"%(epoch))
+        saved_weight = torch.load(os.path.join(svroot, 'best_E_to_W.pkl'))
+    elif epoch == 'last':
+        print("loading weight of %s"%(epoch))
+        saved_weight = torch.load(os.path.join(svroot, 'last_E_to_W.pkl'))
+    E_to_W = adaptor_v2.effect_to_weight(7,70,1).cuda()
+    # Color_mapping.load_state_dict(saved_weight['Color_mapping'])
+    # Contrast_mapping.load_state_dict(saved_weight['Contrast_mapping'])
+    # Brightness_mapping.load_state_dict(saved_weight['Brightness_mapping'])
+    # saved_weight = torch.load(os.path.join(svroot, 'best_E_to_W.pkl'))
+    E_to_W.load_state_dict(saved_weight)
+
+    # 测试
+    # str2fun = { 
+    #     'art_painting': data_loader.load_pacs,
+    #     'cartoon': data_loader.load_pacs,
+    #     'photo': data_loader.load_pacs,
+    #     'sketch': data_loader.load_pacs,
+    #     }   
+    columns = ['art_painting', 'cartoon', 'photo', 'sketch']
+    target = [i for i in columns if i!=source_domain]
+    columns = [source_domain] + target
+    print("columns:",columns)
+    if eval_mapping:
+        index = FA.factor_list
+        index.append('w/o do (original x)')
+    else:
+        index = ['w/o do (original x)']
+    index_ours = ['do']
+    data_result = {}
+    data_result_ours = {}
+
+    for idx, data in enumerate(columns):
+        teset = data_loader.load_pacs(data, 'test')
+        teloader = DataLoader(teset, batch_size=4, num_workers=0)
+        # 计算评价指标
+        acc_CA = evaluate_causal(cls_net, teloader, CA, AdaptNet, E_to_W)
+        data_result_ours[data] = acc_CA
+        #最后一维度是原始数据
+        if eval_mapping:
+            if data == source_domain:
+                teacc_FA_aftermapping, acc_FA = evaluate_mapping(cls_net, teloader, FA, AdaptNet, source=True)
+                acc_avg = np.zeros(teacc_FA_aftermapping.shape)
+                acc_avg_CA = np.zeros(acc_CA.shape)
+            else:
+                teacc_FA_aftermapping, acc_FA = evaluate_mapping(cls_net, teloader, FA, AdaptNet, source=False)
+                acc_avg = acc_avg + teacc_FA_aftermapping
+                acc_avg_CA = acc_avg_CA + acc_CA
+            data_result[data]=teacc_FA_aftermapping
+            data_result[data+'_FA'] = acc_FA
+        else:
+            teacc = evaluate(cls_net, teloader)
+            if data == source_domain:
+                acc_avg = np.zeros(teacc.shape)
+                acc_avg_CA = np.zeros(acc_CA.shape)
+            else:
+                acc_avg = acc_avg + teacc
+                acc_avg_CA = acc_avg_CA + acc_CA
+            data_result[data] = teacc        
+    acc_avg = acc_avg/float(len(target))
+    acc_avg_CA = acc_avg_CA/float(len(target))
+    
+    data_result['Avg'] = acc_avg
+    data_result_ours['Avg'] = acc_avg_CA
+
+    df = pd.DataFrame(data_result,index = index)
+    df_ours = pd.DataFrame(data_result_ours,index = index_ours)
+    print(df)
+    print(df_ours)       
+    if svpath is not None:
+        df.to_csv(svpath)
+        df_ours.to_csv(svpath, mode='a')
+if __name__=='__main__':
+    main()
+
diff --git a/Meta-causal/code-withStyleAttack/mnist_net_multiblock.py b/Meta-causal/code-withStyleAttack/mnist_net_multiblock.py
new file mode 100644
index 0000000000000000000000000000000000000000..603853616aba78111bb96226c6502af1abf5890c
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/mnist_net_multiblock.py
@@ -0,0 +1,96 @@
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+
+class ConvNetMultiblock(nn.Module):
+    def __init__(self, imdim=3):
+        super(ConvNetMultiblock, self).__init__()
+
+        self.conv1 = nn.Conv2d(imdim, 64, kernel_size=5, stride=1, padding=0)
+        self.mp = nn.MaxPool2d(2)
+        self.relu1 = nn.ReLU(inplace=True)
+        self.conv2 = nn.Conv2d(64, 128, kernel_size=5, stride=1, padding=0)
+        self.relu2 = nn.ReLU(inplace=True)
+        self.fc1 = nn.Linear(128*5*5, 1024)
+        self.relu3 = nn.ReLU(inplace=True)
+        self.fc2 = nn.Linear(1024, 1024)
+        self.relu4 = nn.ReLU(inplace=True)
+        
+        self.cls_head_src = nn.Linear(1024, 10)
+        # self.cls_head_tgt = nn.Linear(1024, 10)
+        # self.pro_head = nn.Linear(1024, 128)
+
+        # for style attacking 
+        self.classifier = nn.Linear(1024, 10)
+
+
+    def forward(self,x,mode='fc'):
+      if mode == 'c':
+        return self.class_classifier(x)
+      else:
+        layer1 = self.forward_block1(x)
+        layer2 = self.forward_block2(layer1)
+        layer3 = self.forward_block3(layer2)
+        layer4 = self.forward_block4(layer3)
+        p, f= self.forward_rest(layer4)
+        return layer1, layer2, layer3, layer4, p, f
+      
+    
+    def forward_block1(self, x):
+        self.in_size = x.size(0)
+        out1 = self.mp(self.relu1(self.conv1(x)))
+        return out1
+    
+    def forward_block2(self, out1):
+        out2 = self.mp(self.relu2(self.conv2(out1)))
+        return out2
+
+    def forward_block3(self, out2):
+        out2 = out2.view(self.in_size, -1)
+        out3 = self.relu3(self.fc1(out2))
+        return out3
+    
+    def forward_block4(self,out3):
+        out4_worelu = self.fc2(out3)
+        return out4_worelu
+    
+    def forward_rest(self, out4_worelu):
+        out4 = self.relu4(out4_worelu)
+        p = self.cls_head_src(out4)
+        return p, out4_worelu
+
+
+    def forward(self, x, mode='fc'):
+        if mode == 'c':
+            out4 = self.relu4(x)
+            p = self.cls_head_src(out4)
+            return p
+        else:
+            layer1 = self.forward_block1(x)
+            layer2 = self.forward_block2(layer1)
+            layer3 = self.forward_block3(layer2)
+            layer4 = self.forward_block4(layer3)
+            p, out4_worelu = self.forward_rest(layer4)
+            return layer1, layer2, layer3, layer4, p, out4_worelu
+  
+
+
+
+if __name__ =='__main__':
+    print('%'*100)
+    print('---test ConvNet original--')
+    from network.mnist_net_my import ConvNet
+    cls_net = ConvNet().cuda()
+    print('cls_net:', cls_net)
+    x = torch.randn([16,3,32,32]).cuda()
+    p, f = cls_net(x)
+    print(p.shape, f.shape)
+
+
+    print('---test RN18 multiblock--')
+    cls_net = ConvNetMultiblock().cuda()
+    print('cls_net:', cls_net)
+    x = torch.randn([16,3,32,32]).cuda()
+    L1, L2, L3, L4, p, f = cls_net(x)
+    print(L1.shape, L2.shape, L3.shape, L4.shape, p.shape, f.shape)
diff --git a/Meta-causal/code-withStyleAttack/network/adaptor_v2.py b/Meta-causal/code-withStyleAttack/network/adaptor_v2.py
new file mode 100644
index 0000000000000000000000000000000000000000..ce47dbd1a24f9e2f741d8a82061b62b86d3dba41
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/network/adaptor_v2.py
@@ -0,0 +1,63 @@
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+import numpy as np
+
+class mapping(nn.Module):
+    def __init__(self, input_dim=1024, hidden_dim = 512, out_dim=1024, layernum=4):
+        ''' 
+        '''
+        super().__init__()
+        self.layernum = layernum
+        if layernum == 4:
+            self.fc1 = nn.Linear(input_dim, hidden_dim)
+            self.fc2 = nn.Linear(hidden_dim, hidden_dim)
+            self.fc3 = nn.Linear(hidden_dim, hidden_dim)
+            self.fc4 = nn.Linear(hidden_dim, out_dim)
+        elif layernum == 2:
+            self.fc1 = nn.Linear(input_dim, hidden_dim)
+            self.fc2 = nn.Linear(hidden_dim, out_dim)            
+        self.relu = nn.ReLU(inplace=True)
+
+    def forward(self, x): 
+        ''' x '''
+        if self.layernum == 4:
+            x = self.relu(self.fc1(x))
+            x = self.relu(self.fc2(x))
+            x = self.relu(self.fc3(x))
+            x = self.fc4(x)
+        elif self.layernum == 2:
+            x = self.relu(self.fc1(x))
+            x = self.fc2(x)            
+        return x
+
+
+class effect_to_weight(nn.Module):
+    def __init__(self, input_dim = 512, hidden_dim = 256, out_dim = 1, layernum=2, hidden_dim2 = 128):
+        ''' 
+        '''
+        super().__init__()
+        
+        self.layernum = layernum
+        if layernum == 2:
+            self.fc1 = nn.Linear(input_dim, hidden_dim)
+            self.fc2 = nn.Linear(hidden_dim, out_dim)
+        elif layernum == 3:
+            self.fc1 = nn.Linear(input_dim, hidden_dim)
+            self.fc2 = nn.Linear(hidden_dim, hidden_dim2)            
+            self.fc3 = nn.Linear(hidden_dim2, out_dim)  
+        self.relu = nn.ReLU(inplace=True)
+
+    def forward(self, x): 
+        ''' x '''
+        if self.layernum == 2:
+            x = self.relu(self.fc1(x))
+            x = self.fc2(x)
+        else:
+            x = self.relu(self.fc1(x))
+            x = self.relu(self.fc2(x))
+            x = self.fc3(x)
+        return x
+
+
diff --git a/Meta-causal/code-withStyleAttack/network/mnist_net_my.py b/Meta-causal/code-withStyleAttack/network/mnist_net_my.py
new file mode 100644
index 0000000000000000000000000000000000000000..15e2e677280fdd2211b559f9f1bafd2fb66b5ef4
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/network/mnist_net_my.py
@@ -0,0 +1,104 @@
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+
+class ConvNet(nn.Module):
+    ''' 网络结构和cvpr2020的 M-ADA 方法一致 '''
+    def __init__(self, imdim=3):
+        super(ConvNet, self).__init__()
+
+        self.conv1 = nn.Conv2d(imdim, 64, kernel_size=5, stride=1, padding=0)
+        self.mp = nn.MaxPool2d(2)
+        self.relu1 = nn.ReLU(inplace=True)
+        self.conv2 = nn.Conv2d(64, 128, kernel_size=5, stride=1, padding=0)
+        self.relu2 = nn.ReLU(inplace=True)
+        self.fc1 = nn.Linear(128*5*5, 1024)
+        self.relu3 = nn.ReLU(inplace=True)
+        self.fc2 = nn.Linear(1024, 1024)
+        self.relu4 = nn.ReLU(inplace=True)
+        
+        self.cls_head_src = nn.Linear(1024, 10)
+        # self.cls_head_tgt = nn.Linear(1024, 10)
+        # self.pro_head = nn.Linear(1024, 128)
+
+    def forward(self, x, mode='fc'):
+        if mode == 'c':
+            out4 = self.relu4(x)
+            p = self.cls_head_src(out4)
+            return p
+        elif mode == 'fc':
+            in_size = x.size(0)
+            out1 = self.mp(self.relu1(self.conv1(x)))
+            out2 = self.mp(self.relu2(self.conv2(out1)))
+            out2 = out2.view(in_size, -1)
+            out3 = self.relu3(self.fc1(out2))
+            out4_worelu = self.fc2(out3)
+            out4 = self.relu4(out4_worelu)
+            p = self.cls_head_src(out4)
+            return p, out4_worelu
+
+        # if mode == 'test':
+        #     p = self.cls_head_src(out4)
+        #     return p
+        # elif mode == 'train':
+        #     p = self.cls_head_src(out4)
+        #     # z = self.pro_head(out4)
+        #     # z = F.normalize(z)
+        #     return p,out4_worelu
+        # elif mode == 'p_f':
+        #     p = self.cls_head_src(out4)
+        #     return p, out4
+        #elif mode == 'target':
+        #    p = self.cls_head_tgt(out4)
+        #    z = self.pro_head(out4)
+        #    z = F.normalize(z)
+        #    return p,z
+    
+class ConvNetVis(nn.Module):
+    ''' 方便可视化，特征提取器输出2-d特征
+    '''
+    def __init__(self, imdim=3):
+        super(ConvNetVis, self).__init__()
+
+        self.conv1 = nn.Conv2d(imdim, 64, kernel_size=5, stride=1, padding=0)
+        self.mp = nn.MaxPool2d(2)
+        self.relu1 = nn.ReLU(inplace=True)
+        self.conv2 = nn.Conv2d(64, 128, kernel_size=5, stride=1, padding=0)
+        self.relu2 = nn.ReLU(inplace=True)
+        self.fc1 = nn.Linear(128*5*5, 1024)
+        self.relu3 = nn.ReLU(inplace=True)
+        self.fc2 = nn.Linear(1024, 2)
+        self.relu4 = nn.ReLU(inplace=True)
+        
+        self.cls_head_src = nn.Linear(2, 10)
+        self.cls_head_tgt = nn.Linear(2, 10)
+        self.pro_head = nn.Linear(2, 128)
+
+    def forward(self, x, mode='test'):
+
+        in_size = x.size(0)
+        out1 = self.mp(self.relu1(self.conv1(x)))
+        out2 = self.mp(self.relu2(self.conv2(out1)))
+        out2 = out2.view(in_size, -1)
+        out3 = self.relu3(self.fc1(out2))
+        out4 = self.relu4(self.fc2(out3))
+        
+        if mode == 'test':
+            p = self.cls_head_src(out4)
+            return p
+        elif mode == 'train':
+            p = self.cls_head_src(out4)
+            z = self.pro_head(out4)
+            z = F.normalize(z)
+            return p,z
+        elif mode == 'p_f':
+            p = self.cls_head_src(out4)
+            return p, out4
+        #elif mode == 'target':
+        #    p = self.cls_head_tgt(out4)
+        #    z = self.pro_head(out4)
+        #    z = F.normalize(z)
+        #    return p,z
+    
+
diff --git a/Meta-causal/code-withStyleAttack/network/resnet.py b/Meta-causal/code-withStyleAttack/network/resnet.py
new file mode 100644
index 0000000000000000000000000000000000000000..a0beda0f3e0ac68574f3194e368737e79854b934
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/network/resnet.py
@@ -0,0 +1,102 @@
+from torch import nn
+from torch.utils import model_zoo
+#from torchvision.models.resnet import BasicBlock, model_urls, Bottleneck
+from torchvision.models.resnet import BasicBlock, Bottleneck
+
+import torch
+import ssl
+# from torch import nn as nn
+# from utils.util import *
+
+ssl._create_default_https_context = ssl._create_unverified_context
+
+all = ['ResNet', 'resnet18', 'resnet34', 'resnet50', 'resnet101','resnet152']
+
+model_urls = {
+'resnet18': 'https://download.pytorch.org/models/resnet18-5c106cde.pth',
+'resnet34': 'https://download.pytorch.org/models/resnet34-333f7ec4.pth',
+'resnet50': 'https://download.pytorch.org/models/resnet50-19c8e357.pth',
+'resnet101': 'https://download.pytorch.org/models/resnet101-5d3b4d8f.pth',
+'resnet152': 'https://download.pytorch.org/models/resnet152-b121ed2d.pth',
+}
+
+
+class ResNet(nn.Module):
+    def __init__(self, block, layers,classes=7,c_dim=512):
+        self.inplanes = 64
+        super(ResNet, self).__init__()
+        self.conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3,
+                               bias=False)
+        self.bn1 = nn.BatchNorm2d(64)
+        self.relu = nn.ReLU(inplace=True)
+        self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)
+        self.layer1 = self._make_layer(block, 64, layers[0])
+        self.layer2 = self._make_layer(block, 128, layers[1], stride=2)
+        self.layer3 = self._make_layer(block, 256, layers[2], stride=2)
+        self.layer4 = self._make_layer(block, 512, layers[3], stride=2)
+        self.avgpool = nn.AvgPool2d(7, stride=1)
+        self.class_classifier = nn.Linear(c_dim, classes)
+        for m in self.modules():
+            if isinstance(m, nn.Conv2d):
+                nn.init.kaiming_normal_(m.weight, mode='fan_out', nonlinearity='relu')
+            elif isinstance(m, nn.BatchNorm2d):
+                nn.init.constant_(m.weight, 1)
+                nn.init.constant_(m.bias, 0)
+
+    def _make_layer(self, block, planes, blocks, stride=1):
+        downsample = None
+        if stride != 1 or self.inplanes != planes * block.expansion:
+            downsample = nn.Sequential(
+                nn.Conv2d(self.inplanes, planes * block.expansion,
+                          kernel_size=1, stride=stride, bias=False),
+                nn.BatchNorm2d(planes * block.expansion),
+            )
+
+        layers = []
+        layers.append(block(self.inplanes, planes, stride, downsample))
+        self.inplanes = planes * block.expansion
+        for i in range(1, blocks):
+            layers.append(block(self.inplanes, planes))
+
+        return nn.Sequential(*layers)
+    
+    def forward(self, x, mode='fc'):
+        if mode == 'c':
+            return self.class_classifier(x)
+        else:
+            x = self.conv1(x)
+            x = self.bn1(x)
+            x = self.relu(x)
+            x = self.maxpool(x)
+
+            x = self.layer1(x)
+            x = self.layer2(x)
+            x = self.layer3(x)
+            x = self.layer4(x)
+            x = self.avgpool(x)
+            x = x.view(x.size(0), -1)
+            # print("x.shape:",x.shape)
+            return self.class_classifier(x), x
+
+
+def resnet18(pretrained=True, **kwargs):
+    """Constructs a ResNet-18 model.
+    Args:
+        pretrained (bool): If True, returns a model pre-trained on ImageNet
+    """
+    model = ResNet(BasicBlock, [2, 2, 2, 2], **kwargs)
+    if pretrained:
+        print("-------------------------------------loading pretrain weights----------------------------------")
+        model.load_state_dict(model_zoo.load_url(model_urls['resnet18']), strict=False)
+    return model
+
+def resnet50(pretrained=True, **kwargs):
+    """Constructs a ResNet-50 model.
+    Args:
+        pretrained (bool): If True, returns a model pre-trained on ImageNet
+    """
+    model = ResNet(Bottleneck, [3, 4, 6, 3], **kwargs)
+    if pretrained:
+        print("-------------------------------------loading pretrain weights----------------------------------")
+        model.load_state_dict(model_zoo.load_url(model_urls['resnet50']), strict=False)
+    return model
diff --git a/Meta-causal/code-withStyleAttack/network/wideresnet.py b/Meta-causal/code-withStyleAttack/network/wideresnet.py
new file mode 100644
index 0000000000000000000000000000000000000000..1ca130a5f278c3b63f43b589db6ebd18d6e91593
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/network/wideresnet.py
@@ -0,0 +1,86 @@
+import math
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+
+
+class BasicBlock(nn.Module):
+    def __init__(self, in_planes, out_planes, stride, dropRate=0.0):
+        super(BasicBlock, self).__init__()
+        self.bn1 = nn.BatchNorm2d(in_planes)
+        self.relu1 = nn.ReLU(inplace=True)
+        self.conv1 = nn.Conv2d(in_planes, out_planes, kernel_size=3, stride=stride,
+                               padding=1, bias=False)
+        self.bn2 = nn.BatchNorm2d(out_planes)
+        self.relu2 = nn.ReLU(inplace=True)
+        self.conv2 = nn.Conv2d(out_planes, out_planes, kernel_size=3, stride=1,
+                               padding=1, bias=False)
+        self.droprate = dropRate
+        self.equalInOut = (in_planes == out_planes)
+        self.convShortcut = (not self.equalInOut) and nn.Conv2d(in_planes, out_planes, kernel_size=1, stride=stride,
+                               padding=0, bias=False) or None
+    def forward(self, x):
+        if not self.equalInOut:
+            x = self.relu1(self.bn1(x))
+        else:
+            out = self.relu1(self.bn1(x))
+        out = self.relu2(self.bn2(self.conv1(out if self.equalInOut else x)))
+        if self.droprate > 0:
+            out = F.dropout(out, p=self.droprate, training=self.training)
+        out = self.conv2(out)
+        return torch.add(x if self.equalInOut else self.convShortcut(x), out)
+
+class NetworkBlock(nn.Module):
+    def __init__(self, nb_layers, in_planes, out_planes, block, stride, dropRate=0.0):
+        super(NetworkBlock, self).__init__()
+        self.layer = self._make_layer(block, in_planes, out_planes, nb_layers, stride, dropRate)
+    def _make_layer(self, block, in_planes, out_planes, nb_layers, stride, dropRate):
+        layers = []
+        for i in range(int(nb_layers)):
+            layers.append(block(i == 0 and in_planes or out_planes, out_planes, i == 0 and stride or 1, dropRate))
+        return nn.Sequential(*layers)
+    def forward(self, x):
+        return self.layer(x)
+
+class WideResNet(nn.Module):
+    def __init__(self, depth, num_classes, widen_factor=1, dropRate=0.0):
+        super(WideResNet, self).__init__()
+        nChannels = [16, 16*widen_factor, 32*widen_factor, 64*widen_factor]
+        assert((depth - 4) % 6 == 0)
+        n = (depth - 4) / 6
+        block = BasicBlock
+        # 1st conv before any network block
+        self.conv1 = nn.Conv2d(3, nChannels[0], kernel_size=3, stride=1,
+                               padding=1, bias=False)
+        # 1st block
+        self.block1 = NetworkBlock(n, nChannels[0], nChannels[1], block, 1, dropRate)
+        # 2nd block
+        self.block2 = NetworkBlock(n, nChannels[1], nChannels[2], block, 2, dropRate)
+        # 3rd block
+        self.block3 = NetworkBlock(n, nChannels[2], nChannels[3], block, 2, dropRate)
+        # global average pooling and classifier
+        self.bn1 = nn.BatchNorm2d(nChannels[3])
+        self.relu = nn.ReLU(inplace=True)
+        self.fc = nn.Linear(nChannels[3], num_classes)
+        self.nChannels = nChannels[3]
+
+        for m in self.modules():
+            if isinstance(m, nn.Conv2d):
+                nn.init.kaiming_normal_(m.weight, mode='fan_out', nonlinearity='relu')
+            elif isinstance(m, nn.BatchNorm2d):
+                m.weight.data.fill_(1)
+                m.bias.data.zero_()
+            elif isinstance(m, nn.Linear):
+                m.bias.data.zero_()
+    def forward(self, x, mode='fc'):
+        if mode == 'c':
+            return self.fc(x)
+        else:
+            out = self.conv1(x)
+            out = self.block1(out)
+            out = self.block2(out)
+            out = self.block3(out)
+            out = self.relu(self.bn1(out))
+            out = F.avg_pool2d(out, 8)
+            out = out.view(-1, self.nChannels)
+            return self.fc(out), out
diff --git a/Meta-causal/code-withStyleAttack/run_PACS/run_my_joint_v13_test.sh b/Meta-causal/code-withStyleAttack/run_PACS/run_my_joint_v13_test.sh
new file mode 100644
index 0000000000000000000000000000000000000000..a2008370982092645507504273e7079568f716c6
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/run_PACS/run_my_joint_v13_test.sh
@@ -0,0 +1,47 @@
+
+# $1 gpuid
+# $2 runid
+
+# base方法
+cd ..
+epochs=70
+clsadapt=True
+lr=0.01
+factor_num=16
+lr_scheduler=cosine
+lambda_causal=1
+lambda_re=1
+batchsize=6
+stride=5
+randm=True
+randn=True
+autoaug=CA_multiple
+network=resnet18
+#UniqueExpName=WithStyleAttackExp1
+#UniqueExpName=WithStyleAttackExp1_eps5_RA_SGD
+#UniqueExpName=WithStyleAttackExp1_eps5_RA_Adam
+#UniqueExpName=WithStyleAttackExp1_eps1_RA
+#UniqueExpName=WithStyleAttackExp1_eps2
+UniqueExpName=WithStyleAttackExp1_eps1_RA_repeat
+
+root=/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS/
+#data=art_painting
+#data=cartoon
+data=photo
+#data=sketch
+svroot=$root/${data}/${autoaug}_${factor_num}fa_v2_ep${epochs}_lr${lr}_${lr_scheduler}_base0.01_bs${batchsize}_lamCa_${lambda_causal}_lamRe${lambda_re}_adt4_cls1_EW2_70_rm${randm}_rn${randn}_str${stride}_${UniqueExpName}
+
+python3 main_my_joint_v13_auto.py --gpu $1 --data ${data} --epochs $epochs --autoaug $autoaug --lambda_causal ${lambda_causal} --lambda_re ${lambda_re} --lr $lr --svroot $svroot --clsadapt $clsadapt --factor_num $factor_num --lr_scheduler ${lr_scheduler} --batchsize ${batchsize} --network ${network} --randm ${randm} --randn ${randn} --stride ${stride}
+
+test_epoch=best
+python3 main_test_pacs_v13.py --gpu $1 --source_domain $data --svroot $svroot --svpath $svroot/${data}_${factor_num}factor_${test_epoch}_test_check.csv --factor_num $factor_num --epoch $test_epoch \
+									--network ${network} --stride ${stride}
+
+
+test_epoch=last
+python3 main_test_pacs_v13.py --gpu $1 --source_domain $data --svroot $svroot --svpath $svroot/${data}_${factor_num}factor_${test_epoch}_test_check.csv --factor_num $factor_num --epoch $test_epoch \
+									--network ${network} --stride ${stride}
+
+
+
+
diff --git a/Meta-causal/code-withStyleAttack/run_digits/run_my_joint_test.sh b/Meta-causal/code-withStyleAttack/run_digits/run_my_joint_test.sh
new file mode 100644
index 0000000000000000000000000000000000000000..7786bfcd65b79e536da79bc1add2fc390e429bb0
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/run_digits/run_my_joint_test.sh
@@ -0,0 +1,55 @@
+
+# $1 gpuid
+
+cd ..
+epochs=500
+#epochs=250
+clsadapt=True
+lr=1e-4
+lr_scheduler=Step
+factor_num=14
+lambda_causal=1
+lambda_re=1
+batchsize=32
+stride=3
+randm=True
+randn=True
+autoaug=CA_multiple
+#UniqueExpName=WithStyleAttackExp1_epoch250
+#UniqueExpName=WithStyleAttackExp1
+#UniqueExpName=WithStyleAttackExp1_RA
+#UniqueExpName=WithStyleAttackExp1_FA
+#UniqueExpName=WithStyleAttackExp1_CA
+#UniqueExpName=WithStyleAttackExp1_onlyblock1
+#UniqueExpName=WithStyleAttackExp1_onlyblock2
+#UniqueExpName=WithStyleAttackExp1_adam
+#UniqueExpName=WithStyleAttackExp1_eps2
+#UniqueExpName=WithStyleAttackExp1_eps3
+#UniqueExpName=WithStyleAttackExp1_eps4
+#UniqueExpName=WithStyleAttackExp1_eps5
+#UniqueExpName=WithStyleAttackExp1_skip2
+#UniqueExpName=WithStyleAttackExp1_skip3
+#UniqueExpName=WithStyleAttackExp1_skip4
+
+#UniqueExpName=WithStyleAttackExp1_eps5_repeat
+#UniqueExpName=WithStyleAttackExp1_eps5_RA
+
+UniqueExpName=WithStyleAttackExp1_eps1_RA
+
+
+root=/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit
+svroot=$root/${autoaug}_${factor_num}fa_all_ep${epochs}_lr${lr}_lr_scheduler${lr_scheduler}0.8_bs${batchsize}_lamCa_${lambda_causal}_lamRe_${lambda_re}_cls1_adt2_EW2_100_rm${randm}_rn${randn}_str${stride}_${UniqueExpName}
+
+python3 main_my_joint_v13_auto.py --gpu $1 --data mnist --epochs $epochs --autoaug $autoaug --lambda_causal ${lambda_causal} --lambda_re ${lambda_re} --lr $lr --lr_scheduler $lr_scheduler --svroot $svroot --clsadapt $clsadapt --factor_num $factor_num --batchsize ${batchsize} --randm ${randm} --randn ${randn} --stride ${stride}
+
+test_epoch=best
+python3 main_test_digit_v13.py --gpu $1 --svroot $svroot --svpath $svroot/${factor_num}factor_${test_epoch}.csv --factor_num $factor_num --epoch $test_epoch --stride ${stride}
+
+test_epoch=last
+python3 main_test_digit_v13.py --gpu $1 --svroot $svroot --svpath $svroot/${factor_num}factor_${test_epoch}.csv --factor_num $factor_num --epoch $test_epoch --stride ${stride}
+
+
+
+
+
+
diff --git a/Meta-causal/code-withStyleAttack/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/events.out.tfevents.1719926752.hala b/Meta-causal/code-withStyleAttack/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/events.out.tfevents.1719926752.hala
new file mode 100644
index 0000000000000000000000000000000000000000..aa44ae0c513b57a8501e9bb1af27dc442b72f7d7
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/events.out.tfevents.1719926752.hala
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a44a49f0a1b3c59b9763c67ea85708ef8b56cae5fe4336f0383f5f71ba0dac84
+size 40
diff --git a/Meta-causal/code-withStyleAttack/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/log.log b/Meta-causal/code-withStyleAttack/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/log.log
new file mode 100644
index 0000000000000000000000000000000000000000..f26feaaef352ae5821e49b7fbc4b1720f8735f38
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/log.log
@@ -0,0 +1 @@
+{'gpu': '0', 'data': 'art_painting', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 5, 'factor_num': 16, 'epochs': 70, 'nbatch': 100, 'batchsize': 6, 'lr': 0.01, 'lr_scheduler': 'cosine', 'svroot': 'saved-PACS//art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
diff --git a/Meta-causal/code-withStyleAttack/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/events.out.tfevents.1719925086.hala b/Meta-causal/code-withStyleAttack/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/events.out.tfevents.1719925086.hala
new file mode 100644
index 0000000000000000000000000000000000000000..5ec21b3afdf0e11651cc768f4f55ea6269b887f5
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/events.out.tfevents.1719925086.hala
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7946f93077ec2136f75fc090a5762ce810be71cc78d5201e8a671217a678c563
+size 40
diff --git a/Meta-causal/code-withStyleAttack/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/events.out.tfevents.1719925314.hala b/Meta-causal/code-withStyleAttack/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/events.out.tfevents.1719925314.hala
new file mode 100644
index 0000000000000000000000000000000000000000..620f9ba109e77ed90b7676c138933f814245e7f1
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/events.out.tfevents.1719925314.hala
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b2021c61739fbe1f9c066067b4e5903d8d2d6c1c44865e1e9c61449eb3d90327
+size 40
diff --git a/Meta-causal/code-withStyleAttack/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/events.out.tfevents.1719925652.hala b/Meta-causal/code-withStyleAttack/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/events.out.tfevents.1719925652.hala
new file mode 100644
index 0000000000000000000000000000000000000000..3144b1448112cff1aa0c26e0d825b50698f41d65
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/events.out.tfevents.1719925652.hala
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fafb4b17d350157735eb6174ff44bafcea7ab8bf86948df3421447ef45ffcae3
+size 40
diff --git a/Meta-causal/code-withStyleAttack/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/log.log b/Meta-causal/code-withStyleAttack/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/log.log
new file mode 100644
index 0000000000000000000000000000000000000000..f4c211545f0d2b537d3dcf980579f604a33419a7
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/log.log
@@ -0,0 +1 @@
+{'gpu': '0çç', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 500, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': 'saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
diff --git a/Meta-causal/code-withStyleAttack/submit_digits.sh b/Meta-causal/code-withStyleAttack/submit_digits.sh
new file mode 100644
index 0000000000000000000000000000000000000000..c768ad7fcc05ecaf8978e73448341c9671de92f4
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/submit_digits.sh
@@ -0,0 +1,23 @@
+#!/bin/bash
+#SBATCH --job-name=metatrainRN
+#SBATCH --nodes=1               # Request 1 node
+#SBATCH --ntasks=1              # Number of tasks (total)
+#SBATCH --cpus-per-task=8       # Number of CPU cores (threads) per task
+#SBATCH --mem-per-cpu=4G        # Memory limit per CPU core (there is no --mem-per-task)
+#SBATCH --time=96:00:00         # Job timeout
+#SBATCH --gpus-per-node=l4-24g:1
+#SBATCH --nodelist=gcpl4-eu-1
+#SBATCH --output=%j.log      # Redirect stdout to a log file
+#SBATCH --error=%j.error     # Redirect stderr to a separate error log file
+
+
+srun --nodes 1 --ntasks-per-node 1 -- \
+mkenv -f ../env_mc.yml -- \
+sh -c "cd run_digits
+bash run_my_joint_test.sh 0
+"
+
+
+
+
+
diff --git a/Meta-causal/code-withStyleAttack/submit_pacs.sh b/Meta-causal/code-withStyleAttack/submit_pacs.sh
new file mode 100644
index 0000000000000000000000000000000000000000..d7c22cec7befd329e4eac93fde6845fa09b5cedc
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/submit_pacs.sh
@@ -0,0 +1,23 @@
+#!/bin/bash
+#SBATCH --job-name=metatrainRN
+#SBATCH --nodes=1               # Request 1 node
+#SBATCH --ntasks=1              # Number of tasks (total)
+#SBATCH --cpus-per-task=8       # Number of CPU cores (threads) per task
+#SBATCH --mem-per-cpu=4G        # Memory limit per CPU core (there is no --mem-per-task)
+#SBATCH --time=96:00:00         # Job timeout
+#SBATCH --gpus-per-node=l4-24g:1
+#SBATCH --nodelist=gcpl4-eu-4
+#SBATCH --output=%j.log      # Redirect stdout to a log file
+#SBATCH --error=%j.error     # Redirect stderr to a separate error log file
+
+
+srun --nodes 1 --ntasks-per-node 1 -- \
+mkenv -f ../env_mc.yml -- \
+sh -c "cd run_PACS
+bash run_my_joint_v13_test.sh 0
+"
+
+
+
+
+
diff --git a/Meta-causal/code-withStyleAttack/tool_func.py b/Meta-causal/code-withStyleAttack/tool_func.py
new file mode 100644
index 0000000000000000000000000000000000000000..0dc0220a5fd285312e0139f4601efefe2c34af90
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/tool_func.py
@@ -0,0 +1,217 @@
+
+import torch
+import torch.nn as nn
+import random
+import numpy as np
+import torch.nn.functional as F
+
+EPS=0.00001
+P_THRED = 0.4
+#P_THRED = 0.2
+#P_THRED = 0.6
+#P_THRED = 0.8
+START_EPS = 16/255
+
+
+def calc_mean_std(feat, eps=1e-5):
+    # eps is a small value added to the variance to avoid divide-by-zero.
+    size = feat.size()
+    assert (len(size) == 4)
+    N, C = size[:2]
+    feat_var = feat.view(N, C, -1).var(dim=2) + eps
+    feat_std = feat_var.sqrt().view(N, C, 1, 1)
+    feat_mean = feat.view(N, C, -1).mean(dim=2).view(N, C, 1, 1)
+    return feat_mean, feat_std
+
+
+def fgsm_attack(init_input, epsilon, data_grad):
+    # random start init_input
+    init_input = init_input + torch.empty_like(init_input).uniform_(START_EPS, START_EPS)
+
+    sign_data_grad = data_grad.sign()
+    adv_input = init_input + epsilon*sign_data_grad
+    return adv_input
+
+
+def changeNewAdvStyle(input_fea, new_styleAug_mean, new_styleAug_std, p_thred):
+    if(new_styleAug_mean=='None'):
+        return input_fea
+    
+    p = np.random.uniform()
+    if( p < p_thred):
+        return input_fea
+
+    feat_size = input_fea.size()
+    ori_style_mean, ori_style_std = calc_mean_std(input_fea)
+    normalized_fea = (input_fea - ori_style_mean.expand(feat_size)) / ori_style_std.expand(feat_size)
+    styleAug_fea  = normalized_fea * new_styleAug_std.expand(feat_size) + new_styleAug_mean.expand(feat_size)
+    return styleAug_fea
+
+
+def consistency_loss(scoresM1, scoresM2, type='euclidean'):
+    if(type=='euclidean'):
+        avg_pro = (scoresM1 + scoresM2)/2.0
+        matrix1 = torch.sqrt(torch.sum((scoresM1 - avg_pro)**2,dim=1))
+        matrix2 = torch.sqrt(torch.sum((scoresM2 - avg_pro)**2,dim=1))
+        dis1 = torch.mean(matrix1)
+        dis2 = torch.mean(matrix2)
+        dis = (dis1+dis2)/2.0
+    elif(type=='KL1'):
+        avg_pro = (scoresM1 + scoresM2)/2.0
+        matrix1 = torch.sum( F.softmax(scoresM1,dim=-1) * (F.log_softmax(scoresM1, dim=-1) - F.log_softmax(avg_pro,dim=-1)), 1)
+        matrix2 = torch.sum( F.softmax(scoresM2,dim=-1) * (F.log_softmax(scoresM2, dim=-1) - F.log_softmax(avg_pro,dim=-1)), 1)
+        dis1 = torch.mean(matrix1)
+        dis2 = torch.mean(matrix2)
+        dis = (dis1+dis2)/2.0
+    elif(type=='KL2'):
+        matrix = torch.sum( F.softmax(scoresM2,dim=-1) * (F.log_softmax(scoresM2, dim=-1) - F.log_softmax(scoresM1,dim=-1)), 1)
+        dis = torch.mean(matrix)
+    elif(type=='KL3'):
+        matrix = torch.sum( F.softmax(scoresM1,dim=-1) * (F.log_softmax(scoresM1, dim=-1) - F.log_softmax(scoresM2,dim=-1)), 1)
+        dis = torch.mean(matrix)
+    else:
+        return
+    return dis
+
+
+def adversarial_attack_Incre(cls_net, cls_criterion, x_ori, y_ori, epsilon_list):
+    x_ori = x_ori.cuda()
+    y_ori = y_ori.cuda()
+    x_size = x_ori.size()
+
+    # if not adv, set defalut = 'None'
+    adv_style_mean_block1, adv_style_std_block1 = 'None', 'None'
+    adv_style_mean_block2, adv_style_std_block2 = 'None', 'None'
+    adv_style_mean_block3, adv_style_std_block3 = 'None', 'None'
+
+    # forward and set the grad = True
+    blocklist = 'block123' #for PACS
+    #blocklist = 'block12' #for digits, exp1
+    #blocklist = 'block1' #for digits, exp1_onlyblock1
+    #blocklist = 'block2' #for digits, exp1_onlyblock1
+    
+    if('1' in blocklist and epsilon_list[0] != 0 ):
+      # forward block1
+      x_ori_block1 = cls_net.forward_block1(x_ori)
+      feat_size_block1 = x_ori_block1.size()
+      ori_style_mean_block1, ori_style_std_block1 = calc_mean_std(x_ori_block1)
+      # set them as learnable parameters
+      ori_style_mean_block1  = torch.nn.Parameter(ori_style_mean_block1)
+      ori_style_std_block1 = torch.nn.Parameter(ori_style_std_block1)
+      ori_style_mean_block1.requires_grad_()
+      ori_style_std_block1.requires_grad_()
+      # contain ori_style_mean_block1 in the graph 
+      x_normalized_block1 = (x_ori_block1 - ori_style_mean_block1.detach().expand(feat_size_block1)) / ori_style_std_block1.detach().expand(feat_size_block1)
+      x_ori_block1 = x_normalized_block1 * ori_style_std_block1.expand(feat_size_block1) + ori_style_mean_block1.expand(feat_size_block1)
+      
+      # pass the rest model
+      x_ori_block2 = cls_net.forward_block2(x_ori_block1)
+      x_ori_block3 = cls_net.forward_block3(x_ori_block2)
+      x_ori_block4 = cls_net.forward_block4(x_ori_block3)
+      _, x_ori_fea = cls_net.forward_rest(x_ori_block4)
+      x_ori_output = cls_net.classifier.forward(x_ori_fea)
+    
+      # calculate initial pred, loss and acc
+      ori_loss = cls_criterion(x_ori_output, y_ori)
+
+      # zero all the existing gradients
+      cls_net.zero_grad()
+   
+      # backward loss
+      ori_loss.backward()
+
+      # collect datagrad
+      grad_ori_style_mean_block1 = ori_style_mean_block1.grad.detach()
+      grad_ori_style_std_block1 = ori_style_std_block1.grad.detach()
+    
+      # fgsm style attack
+      index = torch.randint(0, len(epsilon_list), (1, ))[0]
+      epsilon = epsilon_list[index]
+
+      adv_style_mean_block1 = fgsm_attack(ori_style_mean_block1, epsilon, grad_ori_style_mean_block1)
+      adv_style_std_block1 = fgsm_attack(ori_style_std_block1, epsilon, grad_ori_style_std_block1)
+
+    # add zero_grad
+    cls_net.zero_grad()
+
+    if('2' in blocklist and epsilon_list[1] != 0):
+      # forward block1
+      x_ori_block1 = cls_net.forward_block1(x_ori)
+      # update adv_block1
+      x_adv_block1 = changeNewAdvStyle(x_ori_block1, adv_style_mean_block1, adv_style_std_block1, p_thred=0)
+      # forward block2
+      x_ori_block2 = cls_net.forward_block2(x_adv_block1) 
+      # calculate mean and std
+      feat_size_block2 = x_ori_block2.size()
+      ori_style_mean_block2, ori_style_std_block2 = calc_mean_std(x_ori_block2)
+      # set them as learnable parameters
+      ori_style_mean_block2  = torch.nn.Parameter(ori_style_mean_block2)
+      ori_style_std_block2 = torch.nn.Parameter(ori_style_std_block2)
+      ori_style_mean_block2.requires_grad_()
+      ori_style_std_block2.requires_grad_()
+      # contain ori_style_mean_block1 in the graph 
+      x_normalized_block2 = (x_ori_block2 - ori_style_mean_block2.detach().expand(feat_size_block2)) / ori_style_std_block2.detach().expand(feat_size_block2)
+      x_ori_block2 = x_normalized_block2 * ori_style_std_block2.expand(feat_size_block2) + ori_style_mean_block2.expand(feat_size_block2)
+      # pass the rest model
+      x_ori_block3 = cls_net.forward_block3(x_ori_block2)
+      x_ori_block4 = cls_net.forward_block4(x_ori_block3)
+      _, x_ori_fea = cls_net.forward_rest(x_ori_block4)
+      x_ori_output = cls_net.classifier.forward(x_ori_fea)
+      # calculate initial pred, loss and acc
+      ori_loss = cls_criterion(x_ori_output, y_ori)
+      # zero all the existing gradients
+      cls_net.zero_grad()
+      # backward loss
+      ori_loss.backward()
+      # collect datagrad
+      grad_ori_style_mean_block2 = ori_style_mean_block2.grad.detach()
+      grad_ori_style_std_block2 = ori_style_std_block2.grad.detach()
+      # fgsm style attack
+      index = torch.randint(0, len(epsilon_list), (1, ))[0]
+      epsilon = epsilon_list[index]
+      adv_style_mean_block2 = fgsm_attack(ori_style_mean_block2, epsilon, grad_ori_style_mean_block2)
+      adv_style_std_block2 = fgsm_attack(ori_style_std_block2, epsilon, grad_ori_style_std_block2)
+
+    # add zero_grad
+    cls_net.zero_grad()
+
+    if('3' in blocklist and epsilon_list[2] != 0):
+      # forward block1, block2, block3
+      x_ori_block1 = cls_net.forward_block1(x_ori)
+      x_adv_block1 = changeNewAdvStyle(x_ori_block1, adv_style_mean_block1, adv_style_std_block1, p_thred=0)
+      x_ori_block2 = cls_net.forward_block2(x_adv_block1)
+      x_adv_block2 = changeNewAdvStyle(x_ori_block2, adv_style_mean_block2, adv_style_std_block2, p_thred=0)
+      x_ori_block3 = cls_net.forward_block3(x_adv_block2)
+      # calculate mean and std
+      feat_size_block3 = x_ori_block3.size()
+      ori_style_mean_block3, ori_style_std_block3 = calc_mean_std(x_ori_block3)
+      # set them as learnable parameters
+      ori_style_mean_block3  = torch.nn.Parameter(ori_style_mean_block3)
+      ori_style_std_block3 = torch.nn.Parameter(ori_style_std_block3)
+      ori_style_mean_block3.requires_grad_()
+      ori_style_std_block3.requires_grad_()
+      # contain ori_style_mean_block3 in the graph 
+      x_normalized_block3 = (x_ori_block3 - ori_style_mean_block3.detach().expand(feat_size_block3)) / ori_style_std_block3.detach().expand(feat_size_block3)
+      x_ori_block3 = x_normalized_block3 * ori_style_std_block3.expand(feat_size_block3) + ori_style_mean_block3.expand(feat_size_block3)
+      # pass the rest model
+      x_ori_block4 = cls_net.forward_block4(x_ori_block3)
+      _, x_ori_fea = cls_net.forward_rest(x_ori_block4)
+      x_ori_output = cls_net.classifier.forward(x_ori_fea)
+      # calculate initial pred, loss and acc
+      ori_loss = cls_criterion(x_ori_output, y_ori)
+      # zero all the existing gradients
+      cls_net.zero_grad()
+      # backward loss
+      ori_loss.backward()
+      # collect datagrad
+      grad_ori_style_mean_block3 = ori_style_mean_block3.grad.detach()
+      grad_ori_style_std_block3 = ori_style_std_block3.grad.detach()
+      # fgsm style attack
+      index = torch.randint(0, len(epsilon_list), (1, ))[0]
+      epsilon = epsilon_list[index]
+      adv_style_mean_block3 = fgsm_attack(ori_style_mean_block3, epsilon, grad_ori_style_mean_block3)
+      adv_style_std_block3 = fgsm_attack(ori_style_std_block3, epsilon, grad_ori_style_std_block3)
+
+    return adv_style_mean_block1, adv_style_std_block1, adv_style_mean_block2, adv_style_std_block2, adv_style_mean_block3, adv_style_std_block3 
+    
+  
\ No newline at end of file
diff --git a/Meta-causal/code-withStyleAttack/tools/autoaugment.py b/Meta-causal/code-withStyleAttack/tools/autoaugment.py
new file mode 100644
index 0000000000000000000000000000000000000000..76c6bc4ebd5c59b76a58a8dca196f22d41fbf114
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/tools/autoaugment.py
@@ -0,0 +1,234 @@
+from PIL import Image, ImageEnhance, ImageOps
+import numpy as np
+import random
+
+
+class ImageNetPolicy(object):
+    """ Randomly choose one of the best 24 Sub-policies on ImageNet.
+
+        Example:
+        >>> policy = ImageNetPolicy()
+        >>> transformed = policy(image)
+
+        Example as a PyTorch Transform:
+        >>> transform=transforms.Compose([
+        >>>     transforms.Resize(256),
+        >>>     ImageNetPolicy(),
+        >>>     transforms.ToTensor()])
+    """
+    def __init__(self, fillcolor=(128, 128, 128)):
+        self.policies = [
+            SubPolicy(0.4, "posterize", 8, 0.6, "rotate", 9, fillcolor),
+            SubPolicy(0.6, "solarize", 5, 0.6, "autocontrast", 5, fillcolor),
+            SubPolicy(0.8, "equalize", 8, 0.6, "equalize", 3, fillcolor),
+            SubPolicy(0.6, "posterize", 7, 0.6, "posterize", 6, fillcolor),
+            SubPolicy(0.4, "equalize", 7, 0.2, "solarize", 4, fillcolor),
+
+            SubPolicy(0.4, "equalize", 4, 0.8, "rotate", 8, fillcolor),
+            SubPolicy(0.6, "solarize", 3, 0.6, "equalize", 7, fillcolor),
+            SubPolicy(0.8, "posterize", 5, 1.0, "equalize", 2, fillcolor),
+            SubPolicy(0.2, "rotate", 3, 0.6, "solarize", 8, fillcolor),
+            SubPolicy(0.6, "equalize", 8, 0.4, "posterize", 6, fillcolor),
+
+            SubPolicy(0.8, "rotate", 8, 0.4, "color", 0, fillcolor),
+            SubPolicy(0.4, "rotate", 9, 0.6, "equalize", 2, fillcolor),
+            SubPolicy(0.0, "equalize", 7, 0.8, "equalize", 8, fillcolor),
+            SubPolicy(0.6, "invert", 4, 1.0, "equalize", 8, fillcolor),
+            SubPolicy(0.6, "color", 4, 1.0, "contrast", 8, fillcolor),
+
+            SubPolicy(0.8, "rotate", 8, 1.0, "color", 2, fillcolor),
+            SubPolicy(0.8, "color", 8, 0.8, "solarize", 7, fillcolor),
+            SubPolicy(0.4, "sharpness", 7, 0.6, "invert", 8, fillcolor),
+            SubPolicy(0.6, "shearX", 5, 1.0, "equalize", 9, fillcolor),
+            SubPolicy(0.4, "color", 0, 0.6, "equalize", 3, fillcolor),
+
+            SubPolicy(0.4, "equalize", 7, 0.2, "solarize", 4, fillcolor),
+            SubPolicy(0.6, "solarize", 5, 0.6, "autocontrast", 5, fillcolor),
+            SubPolicy(0.6, "invert", 4, 1.0, "equalize", 8, fillcolor),
+            SubPolicy(0.6, "color", 4, 1.0, "contrast", 8, fillcolor),
+            SubPolicy(0.8, "equalize", 8, 0.6, "equalize", 3, fillcolor)
+        ]
+
+
+    def __call__(self, img):
+        policy_idx = random.randint(0, len(self.policies) - 1)
+        return self.policies[policy_idx](img)
+
+    def __repr__(self):
+        return "AutoAugment ImageNet Policy"
+
+
+class CIFAR10Policy(object):
+    """ Randomly choose one of the best 25 Sub-policies on CIFAR10.
+
+        Example:
+        >>> policy = CIFAR10Policy()
+        >>> transformed = policy(image)
+
+        Example as a PyTorch Transform:
+        >>> transform=transforms.Compose([
+        >>>     transforms.Resize(256),
+        >>>     CIFAR10Policy(),
+        >>>     transforms.ToTensor()])
+    """
+    def __init__(self, fillcolor=(128, 128, 128)):
+        self.policies = [
+            SubPolicy(0.1, "invert", 7, 0.2, "contrast", 6, fillcolor),
+            SubPolicy(0.7, "rotate", 2, 0.3, "translateX", 9, fillcolor),
+            SubPolicy(0.8, "sharpness", 1, 0.9, "sharpness", 3, fillcolor),
+            SubPolicy(0.5, "shearY", 8, 0.7, "translateY", 9, fillcolor),
+            SubPolicy(0.5, "autocontrast", 8, 0.9, "equalize", 2, fillcolor),
+
+            SubPolicy(0.2, "shearY", 7, 0.3, "posterize", 7, fillcolor),
+            SubPolicy(0.4, "color", 3, 0.6, "brightness", 7, fillcolor),
+            SubPolicy(0.3, "sharpness", 9, 0.7, "brightness", 9, fillcolor),
+            SubPolicy(0.6, "equalize", 5, 0.5, "equalize", 1, fillcolor),
+            SubPolicy(0.6, "contrast", 7, 0.6, "sharpness", 5, fillcolor),
+
+            SubPolicy(0.7, "color", 7, 0.5, "translateX", 8, fillcolor),
+            SubPolicy(0.3, "equalize", 7, 0.4, "autocontrast", 8, fillcolor),
+            SubPolicy(0.4, "translateY", 3, 0.2, "sharpness", 6, fillcolor),
+            SubPolicy(0.9, "brightness", 6, 0.2, "color", 8, fillcolor),
+            SubPolicy(0.5, "solarize", 2, 0.0, "invert", 3, fillcolor),
+
+            SubPolicy(0.2, "equalize", 0, 0.6, "autocontrast", 0, fillcolor),
+            SubPolicy(0.2, "equalize", 8, 0.6, "equalize", 4, fillcolor),
+            SubPolicy(0.9, "color", 9, 0.6, "equalize", 6, fillcolor),
+            SubPolicy(0.8, "autocontrast", 4, 0.2, "solarize", 8, fillcolor),
+            SubPolicy(0.1, "brightness", 3, 0.7, "color", 0, fillcolor),
+
+            SubPolicy(0.4, "solarize", 5, 0.9, "autocontrast", 3, fillcolor),
+            SubPolicy(0.9, "translateY", 9, 0.7, "translateY", 9, fillcolor),
+            SubPolicy(0.9, "autocontrast", 2, 0.8, "solarize", 3, fillcolor),
+            SubPolicy(0.8, "equalize", 8, 0.1, "invert", 3, fillcolor),
+            SubPolicy(0.7, "translateY", 9, 0.9, "autocontrast", 1, fillcolor)
+        ]
+
+
+    def __call__(self, img):
+        policy_idx = random.randint(0, len(self.policies) - 1)
+        return self.policies[policy_idx](img)
+
+    def __repr__(self):
+        return "AutoAugment CIFAR10 Policy"
+
+
+class SVHNPolicy(object):
+    """ Randomly choose one of the best 25 Sub-policies on SVHN.
+
+        Example:
+        >>> policy = SVHNPolicy()
+        >>> transformed = policy(image)
+
+        Example as a PyTorch Transform:
+        >>> transform=transforms.Compose([
+        >>>     transforms.Resize(256),
+        >>>     SVHNPolicy(),
+        >>>     transforms.ToTensor()])
+    """
+    def __init__(self, fillcolor=(128, 128, 128)):
+        self.policies = [
+            SubPolicy(0.9, "shearX", 4, 0.2, "invert", 3, fillcolor),
+            SubPolicy(0.9, "shearY", 8, 0.7, "invert", 5, fillcolor),
+            SubPolicy(0.6, "equalize", 5, 0.6, "solarize", 6, fillcolor),
+            SubPolicy(0.9, "invert", 3, 0.6, "equalize", 3, fillcolor),
+            SubPolicy(0.6, "equalize", 1, 0.9, "rotate", 3, fillcolor),
+
+            SubPolicy(0.9, "shearX", 4, 0.8, "autocontrast", 3, fillcolor),
+            SubPolicy(0.9, "shearY", 8, 0.4, "invert", 5, fillcolor),
+            SubPolicy(0.9, "shearY", 5, 0.2, "solarize", 6, fillcolor),
+            SubPolicy(0.9, "invert", 6, 0.8, "autocontrast", 1, fillcolor),
+            SubPolicy(0.6, "equalize", 3, 0.9, "rotate", 3, fillcolor),
+
+            SubPolicy(0.9, "shearX", 4, 0.3, "solarize", 3, fillcolor),
+            SubPolicy(0.8, "shearY", 8, 0.7, "invert", 4, fillcolor),
+            SubPolicy(0.9, "equalize", 5, 0.6, "translateY", 6, fillcolor),
+            SubPolicy(0.9, "invert", 4, 0.6, "equalize", 7, fillcolor),
+            SubPolicy(0.3, "contrast", 3, 0.8, "rotate", 4, fillcolor),
+
+            SubPolicy(0.8, "invert", 5, 0.0, "translateY", 2, fillcolor),
+            SubPolicy(0.7, "shearY", 6, 0.4, "solarize", 8, fillcolor),
+            SubPolicy(0.6, "invert", 4, 0.8, "rotate", 4, fillcolor),
+            SubPolicy(0.3, "shearY", 7, 0.9, "translateX", 3, fillcolor),
+            SubPolicy(0.1, "shearX", 6, 0.6, "invert", 5, fillcolor),
+
+            SubPolicy(0.7, "solarize", 2, 0.6, "translateY", 7, fillcolor),
+            SubPolicy(0.8, "shearY", 4, 0.8, "invert", 8, fillcolor),
+            SubPolicy(0.7, "shearX", 9, 0.8, "translateY", 3, fillcolor),
+            SubPolicy(0.8, "shearY", 5, 0.7, "autocontrast", 3, fillcolor),
+            SubPolicy(0.7, "shearX", 2, 0.1, "invert", 5, fillcolor)
+        ]
+
+
+    def __call__(self, img):
+        policy_idx = random.randint(0, len(self.policies) - 1)
+        return self.policies[policy_idx](img)
+
+    def __repr__(self):
+        return "AutoAugment SVHN Policy"
+
+
+class SubPolicy(object):
+    def __init__(self, p1, operation1, magnitude_idx1, p2, operation2, magnitude_idx2, fillcolor=(128, 128, 128)):
+        ranges = {
+            "shearX": np.linspace(0, 0.3, 10),
+            "shearY": np.linspace(0, 0.3, 10),
+            "translateX": np.linspace(0, 150 / 331, 10),
+            "translateY": np.linspace(0, 150 / 331, 10),
+            "rotate": np.linspace(0, 30, 10),
+            "color": np.linspace(0.0, 0.9, 10),
+            "posterize": np.round(np.linspace(8, 4, 10), 0).astype(np.int),
+            "solarize": np.linspace(256, 0, 10),
+            "contrast": np.linspace(0.0, 0.9, 10),
+            "sharpness": np.linspace(0.0, 0.9, 10),
+            "brightness": np.linspace(0.0, 0.9, 10),
+            "autocontrast": [0] * 10,
+            "equalize": [0] * 10,
+            "invert": [0] * 10
+        }
+
+        # from https://stackoverflow.com/questions/5252170/specify-image-filling-color-when-rotating-in-python-with-pil-and-setting-expand
+        def rotate_with_fill(img, magnitude):
+            rot = img.convert("RGBA").rotate(magnitude)
+            return Image.composite(rot, Image.new("RGBA", rot.size, (128,) * 4), rot).convert(img.mode)
+
+        func = {
+            "shearX": lambda img, magnitude: img.transform(
+                img.size, Image.AFFINE, (1, magnitude * random.choice([-1, 1]), 0, 0, 1, 0),
+                Image.BICUBIC, fillcolor=fillcolor),
+            "shearY": lambda img, magnitude: img.transform(
+                img.size, Image.AFFINE, (1, 0, 0, magnitude * random.choice([-1, 1]), 1, 0),
+                Image.BICUBIC, fillcolor=fillcolor),
+            "translateX": lambda img, magnitude: img.transform(
+                img.size, Image.AFFINE, (1, 0, magnitude * img.size[0] * random.choice([-1, 1]), 0, 1, 0),
+                fillcolor=fillcolor),
+            "translateY": lambda img, magnitude: img.transform(
+                img.size, Image.AFFINE, (1, 0, 0, 0, 1, magnitude * img.size[1] * random.choice([-1, 1])),
+                fillcolor=fillcolor),
+            "rotate": lambda img, magnitude: rotate_with_fill(img, magnitude),
+            "color": lambda img, magnitude: ImageEnhance.Color(img).enhance(1 + magnitude * random.choice([-1, 1])),
+            "posterize": lambda img, magnitude: ImageOps.posterize(img, magnitude),
+            "solarize": lambda img, magnitude: ImageOps.solarize(img, magnitude),
+            "contrast": lambda img, magnitude: ImageEnhance.Contrast(img).enhance(
+                1 + magnitude * random.choice([-1, 1])),
+            "sharpness": lambda img, magnitude: ImageEnhance.Sharpness(img).enhance(
+                1 + magnitude * random.choice([-1, 1])),
+            "brightness": lambda img, magnitude: ImageEnhance.Brightness(img).enhance(
+                1 + magnitude * random.choice([-1, 1])),
+            "autocontrast": lambda img, magnitude: ImageOps.autocontrast(img),
+            "equalize": lambda img, magnitude: ImageOps.equalize(img),
+            "invert": lambda img, magnitude: ImageOps.invert(img)
+        }
+
+        self.p1 = p1
+        self.operation1 = func[operation1]
+        self.magnitude1 = ranges[operation1][magnitude_idx1]
+        self.p2 = p2
+        self.operation2 = func[operation2]
+        self.magnitude2 = ranges[operation2][magnitude_idx2]
+
+
+    def __call__(self, img):
+        if random.random() < self.p1: img = self.operation1(img, self.magnitude1)
+        if random.random() < self.p2: img = self.operation2(img, self.magnitude2)
+        return img
\ No newline at end of file
diff --git a/Meta-causal/code-withStyleAttack/tools/causalaugment_v3.py b/Meta-causal/code-withStyleAttack/tools/causalaugment_v3.py
new file mode 100644
index 0000000000000000000000000000000000000000..a375b7ebe5a83c3dba5b88f48f23a4326dec77e1
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/tools/causalaugment_v3.py
@@ -0,0 +1,694 @@
+# code in this file is adpated from rpmcruz/autoaugment
+# https://github.com/rpmcruz/autoaugment/blob/master/transformations.py
+import random
+
+import PIL, PIL.ImageOps, PIL.ImageEnhance, PIL.ImageDraw
+import numpy as np
+import torch
+from PIL import Image,ImageStat
+#import cv2
+from torchvision import transforms
+
+# def tensor2img(tensor):
+#     transform = transforms.Compose()
+
+def ShearX(img, v):  # [-0.3, 0.3]
+    assert -0.3 <= v <= 0.3
+    if random.random() > 0.5:
+        v = -v
+    return img.transform(img.size, PIL.Image.AFFINE, (1, v, 0, 0, 1, 0))
+
+def DoShearX(img, v):  # [-0.3, 0.3]
+    return img.transform(img.size, PIL.Image.AFFINE, (1, v, 0, 0, 1, 0))
+
+def ShearY(img, v):  # [-0.3, 0.3]
+    assert -0.3 <= v <= 0.3
+    if random.random() > 0.5:
+        v = -v
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, 0, v, 1, 0))
+
+def DoShearY(img, v):  # [-0.3, 0.3]
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, 0, v, 1, 0))
+
+def TranslateX(img, v):  # [-150, 150] => percentage: [-0.45, 0.45]
+    assert -0.45 <= v <= 0.45
+    if random.random() > 0.5:
+        v = -v
+    v = v * img.size[0]
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, v, 0, 1, 0))
+
+def TranslateXabs(img, v):  # [-150, 150] => percentage: [-0.45, 0.45]
+    assert 0 <= v
+    if random.random() > 0.5:
+        v = -v
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, v, 0, 1, 0))
+def DoTranslateXabs(img, v):  # [-150, 150] => percentage: [-0.45, 0.45]
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, v, 0, 1, 0))
+
+def TranslateY(img, v):  # [-150, 150] => percentage: [-0.45, 0.45]
+    assert -0.45 <= v <= 0.45
+    if random.random() > 0.5:
+        v = -v
+    v = v * img.size[1]
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, 0, 0, 1, v))
+
+
+def TranslateYabs(img, v):  # [-150, 150] => percentage: [-0.45, 0.45]
+    assert 0 <= v
+    if random.random() > 0.5:
+        v = -v
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, 0, 0, 1, v))
+def DoTranslateYabs(img, v):  # [-150, 150] => percentage: [-0.45, 0.45]
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, 0, 0, 1, v))
+
+def Rotate(img, v):  # [-30, 30]
+    assert -30 <= v <= 30
+    if random.random() > 0.5:
+        v = -v
+    return img.rotate(v)
+def DoRotate(img, v):  # [-30, 30]
+    return img.rotate(v)
+
+
+def AutoContrast(img, v):
+    return PIL.ImageOps.autocontrast(img, v)
+def DoAutoContrast(img, v):
+    return PIL.ImageOps.autocontrast(img, v)
+
+def Invert(img, _):
+    return PIL.ImageOps.invert(img)
+def DoInvert(img, _):
+    return PIL.ImageOps.invert(img)
+
+
+def Equalize(img, _):
+    return PIL.ImageOps.equalize(img)
+def DoEqualize(img, _):
+    return PIL.ImageOps.equalize(img)
+
+def Flip(img, _):  # not from the paper
+    return PIL.ImageOps.mirror(img)
+
+def DoFlip(img, _):  # not from the paper
+    return PIL.ImageOps.mirror(img)
+
+
+def Solarize(img, v):  # [0, 256]
+    assert 0 <= v <= 256
+    return PIL.ImageOps.solarize(img, v)
+def DoSolarize(img, v):  # [0, 256]
+    return PIL.ImageOps.solarize(img, v)
+
+def SolarizeAdd(img, addition=0, threshold=128):
+    #img_np = np.array(img).astype(np.int)
+    img_np = np.array(img).astype(np.int32)
+    img_np = img_np + addition
+    img_np = np.clip(img_np, 0, 255)
+    img_np = img_np.astype(np.uint8)
+    img = Image.fromarray(img_np)
+    return PIL.ImageOps.solarize(img, threshold)
+def DoSolarizeAdd(img, addition=0, threshold=128):
+    #img_np = np.array(img).astype(np.int)
+    img_np = np.array(img).astype(np.int32)
+    img_np = img_np + addition
+    img_np = np.clip(img_np, 0, 255)
+    img_np = img_np.astype(np.uint8)
+    img = Image.fromarray(img_np)
+    return PIL.ImageOps.solarize(img, threshold)
+
+def Posterize(img, v):  # [4, 8]
+    v = int(v)
+    v = max(1, v)
+    return PIL.ImageOps.posterize(img, v)
+def DoPosterize(img, v):  # [4, 8]
+    v = int(v)
+    v = max(1, v)
+    return PIL.ImageOps.posterize(img, v)
+
+
+def Contrast(img, v):  # [0.1,1.9]
+    assert 0.1 <= v <= 1.9
+    return PIL.ImageEnhance.Contrast(img).enhance(v)
+
+def DoContrast(img, v):
+    return PIL.ImageEnhance.Contrast(img).enhance(v)
+
+def Color(img, v):  # [0.1,1.9]
+    assert 0.1 <= v <= 1.9
+    return PIL.ImageEnhance.Color(img).enhance(v)
+
+def DoColor(img, v):
+    stat =ImageStat.Stat(img)
+    return PIL.ImageEnhance.Color(img).enhance(v)
+
+
+def Brightness(img, v):  # [0.1,1.9]
+    assert 0.1 <= v <= 1.9
+    return PIL.ImageEnhance.Brightness(img).enhance(v)
+
+def DoBrightness(img, v):  # obtain the brightness of image
+    return PIL.ImageEnhance.Brightness(img).enhance(v)
+
+
+def Sharpness(img, v):  # [0.1,1.9]
+    assert 0.1 <= v <= 1.9
+    return PIL.ImageEnhance.Sharpness(img).enhance(v)
+
+def DoSharpness(img, v):
+    return PIL.ImageEnhance.Sharpness(img).enhance(v)
+
+def Cutout(img, v):  # [0, 60] => percentage: [0, 0.2]
+    assert 0.0 <= v <= 0.2
+    if v <= 0.:
+        return img
+
+    v = v * img.size[0]
+    return CutoutAbs(img, v)
+
+
+def CutoutAbs(img, v):  # [0, 60] => percentage: [0, 0.2]
+    # assert 0 <= v <= 20
+    if v < 0:
+        return img
+    w, h = img.size
+    x0 = np.random.uniform(w)
+    y0 = np.random.uniform(h)
+
+    x0 = int(max(0, x0 - v / 2.))
+    y0 = int(max(0, y0 - v / 2.))
+    x1 = min(w, x0 + v)
+    y1 = min(h, y0 + v)
+
+    xy = (x0, y0, x1, y1)
+    color = (125, 123, 114)
+    # color = (0, 0, 0)
+    img = img.copy()
+    PIL.ImageDraw.Draw(img).rectangle(xy, color)
+    return img
+def DoCutoutAbs(img, v):  # [0, 60] => percentage: [0, 0.2]
+    # assert 0 <= v <= 20
+    if v < 0:
+        return img
+    w, h = img.size
+    x0 = np.random.uniform(w)
+    y0 = np.random.uniform(h)
+
+    x0 = int(max(0, x0 - v / 2.))
+    y0 = int(max(0, y0 - v / 2.))
+    x1 = min(w, x0 + v)
+    y1 = min(h, y0 + v)
+
+    xy = (x0, y0, x1, y1)
+    color = (125, 123, 114)
+    # color = (0, 0, 0)
+    img = img.copy()
+    PIL.ImageDraw.Draw(img).rectangle(xy, color)
+    return img
+
+
+def SamplePairing(imgs):  # [0, 0.4]
+    def f(img1, v):
+        i = np.random.choice(len(imgs))
+        img2 = PIL.Image.fromarray(imgs[i])
+        return PIL.Image.blend(img1, img2, v)
+
+    return f
+
+
+def Identity(img, v):
+    return img
+
+def NoiseSalt(img, noise_rate):
+    """增加椒盐噪声
+    args:
+        noise_rate (float): noise rate
+    """
+    img_ = np.array(img).copy()
+    h, w, c = img_.shape
+    signal_pct = 1 - noise_rate
+    mask = np.random.choice((0, 1, 2), size=(h, w, 1), p=[signal_pct, noise_rate/2., noise_rate/2.])
+    mask = np.repeat(mask, c, axis=2)
+    img_[mask == 1] = 255   # 盐噪声
+    img_[mask == 2] = 0     # 椒噪声
+    return Image.fromarray(img_.astype('uint8'))
+
+def DoNoiseSalt(img, noise_rate):
+    """增加椒盐噪声
+    args:
+        noise_rate (float): noise rate
+    """
+    img_ = np.array(img).copy()
+    h, w, c = img_.shape
+    signal_pct = 1 - noise_rate
+    mask = np.random.choice((0, 1, 2), size=(h, w, 1), p=[signal_pct, noise_rate/2., noise_rate/2.])
+    mask = np.repeat(mask, c, axis=2)
+    img_[mask == 1] = 255   # 盐噪声
+    img_[mask == 2] = 0     # 椒噪声
+    return Image.fromarray(img_.astype('uint8'))
+def NoiseGaussian(img, sigma):
+    """增加高斯噪声
+    传入:
+        img   :  原图
+        mean  :  均值默认0
+        sigma :  标准差
+    返回:
+        gaussian_out : 噪声处理后的图片
+    """
+    # 将图片灰度标准化
+    img_ = np.array(img).copy()
+    img_ = img_ / 255.0
+    # 产生高斯 noise
+    noise = np.random.normal(0, sigma, img_.shape)
+    # 将噪声和图片叠加
+    gaussian_out = img_ + noise
+    # 将超过 1 的置 1，低于 0 的置 0
+    gaussian_out = np.clip(gaussian_out, 0, 1)
+    # 将图片灰度范围的恢复为 0-255
+    gaussian_out = np.uint8(gaussian_out*255)
+    # 将噪声范围搞为 0-255
+    # noise = np.uint8(noise*255)
+    return Image.fromarray(gaussian_out)
+
+def DoNoiseGaussian(img, sigma):
+    """增加高斯噪声
+    传入:
+        img   :  原图
+        mean  :  均值默认0
+        sigma :  标准差
+    返回:
+        gaussian_out : 噪声处理后的图片
+    """
+    # 将图片灰度标准化
+    img_ = np.array(img).copy()
+    img_ = img_ / 255.0
+    # 产生高斯 noise
+    noise = np.random.normal(0, sigma, img_.shape)
+    # 将噪声和图片叠加
+    gaussian_out = img_ + noise
+    # 将超过 1 的置 1，低于 0 的置 0
+    gaussian_out = np.clip(gaussian_out, 0, 1)
+    # 将图片灰度范围的恢复为 0-255
+    gaussian_out = np.uint8(gaussian_out*255)
+    # 将噪声范围搞为 0-255
+    # noise = np.uint8(noise*255)
+    return Image.fromarray(gaussian_out)
+
+# def factor_list(factor_num):
+#     l = [
+#         'AutoContrast',
+#         'Invert',
+#         'Equalize', 
+#         'Solarize',
+#         'SolarizeAdd',
+#         'Posterize', 
+#         'Contrast',
+#         'Color',
+#         'Brightness',
+#         'Sharpness',
+#         'NoiseSalt',
+#         'NoiseGaussian',
+#     ]
+#     return l[:factor_num]  
+
+# def causal_list(factor_num):  # 16 oeprations and their ranges
+#     l = [
+#         (AutoContrast, 0, 100),
+#         (Invert, 0, 1),
+#         (Equalize, 0, 1),
+#         (Solarize, 0, 256),
+#         (SolarizeAdd, 0, 110),
+#         (Posterize, 0, 4),
+#         (Contrast, 0.1, 1.9),
+#         (Color, 0.1, 1.9),
+#         (Brightness, 0.1, 1.9),
+#         (Sharpness, 0.1, 1.9),
+#         (NoiseSalt,0.0,0.1),
+#         (NoiseGaussian,0.0,0.1),
+#     ]
+
+#     return l[:factor_num]
+
+
+# def factor_list(factor_num):
+#     l = [
+#         'ShearX',
+#         'ShearY',
+#         'Rotate',
+#         'Flip'
+#     ]
+#     return l[:factor_num]  
+
+# def causal_list(factor_num):  # 16 oeprations and their ranges
+#     l = [
+#         (ShearX, 0., 0.3),
+#         (ShearY, 0., 0.3),
+#         (Rotate, 0, 30),
+#         (Flip, 0, 1),
+#     ]
+
+#     return l[:factor_num]
+
+def factor_list(factor_num):
+    l = [
+        'ShearX',
+        'ShearY',
+        'AutoContrast',
+        'Invert',
+        'Equalize', 
+        'Solarize',
+        'SolarizeAdd',
+        'Posterize', 
+        'Contrast',
+        'Color',
+        'Brightness',
+        'Sharpness',
+        'NoiseSalt',
+        'NoiseGaussian',
+        'Rotate',
+        'Flip'
+    ]
+    return l[:factor_num]  
+
+def causal_list(factor_num):  # 16 oeprations and their ranges
+    l = [
+        (ShearX, 0., 0.3),
+        (ShearY, 0., 0.3),
+        (AutoContrast, 0, 100),
+        (Invert, 0, 1),
+        (Equalize, 0, 1),
+        (Solarize, 0, 256),
+        (SolarizeAdd, 0, 110),
+        (Posterize, 0, 4),
+        (Contrast, 0.1, 1.9),
+        (Color, 0.1, 1.9),
+        (Brightness, 0.1, 1.9),
+        (Sharpness, 0.1, 1.9),
+        (NoiseSalt,0.0,0.1),
+        (NoiseGaussian,0.0,0.1),
+        (Rotate, 0, 30),
+        (Flip, 0, 1),
+    ]
+
+    return l[:factor_num]
+
+class Lighting(object):
+    """Lighting noise(AlexNet - style PCA - based noise)"""
+
+    def __init__(self, alphastd, eigval, eigvec):
+        self.alphastd = alphastd
+        self.eigval = torch.Tensor(eigval)
+        self.eigvec = torch.Tensor(eigvec)
+
+    def __call__(self, img):
+        if self.alphastd == 0:
+            return img
+
+        alpha = img.new().resize_(3).normal_(0, self.alphastd)
+        rgb = self.eigvec.type_as(img).clone() \
+            .mul(alpha.view(1, 3).expand(3, 3)) \
+            .mul(self.eigval.view(1, 3).expand(3, 3)) \
+            .sum(1).squeeze()
+
+        return img.add(rgb.view(3, 1, 1).expand_as(img))
+
+
+class CutoutDefault(object):
+    """
+    Reference : https://github.com/quark0/darts/blob/master/cnn/utils.py
+    """
+    def __init__(self, length):
+        self.length = length
+
+    def __call__(self, img):
+        h, w = img.size(1), img.size(2)
+        mask = np.ones((h, w), np.float32)
+        y = np.random.randint(h)
+        x = np.random.randint(w)
+
+        y1 = np.clip(y - self.length // 2, 0, h)
+        y2 = np.clip(y + self.length // 2, 0, h)
+        x1 = np.clip(x - self.length // 2, 0, w)
+        x2 = np.clip(x + self.length // 2, 0, w)
+
+        mask[y1: y2, x1: x2] = 0.
+        mask = torch.from_numpy(mask)
+        mask = mask.expand_as(img)
+        img *= mask
+        return img
+
+
+class RandAugment_incausal:
+    def __init__(self, n, m, factor_num, randm=False, randn=False):
+        self.n = n
+        self.m = m      # [0, 30]
+        self.causal_list = causal_list(factor_num)
+        print("---------------------------%d factors-----------------"%(len(self.causal_list)))
+        self.randm = randm
+        self.randn = randn
+        self.factor_num = factor_num
+        print("randm:",self.randm)
+        print("randn:",self.randn)
+        print("n:",self.n)
+    def __call__(self, img):
+        # print("%d factors-----------------"%(len(self.causal_list)))
+        if self.randn:
+            self.n = random.randint(1,self.factor_num)
+        
+        ops = random.choices(self.causal_list, k=self.n)
+        if self.randm:
+            self.m = random.randint(0,30)
+        for op, minval, maxval in ops:
+            val = (float(self.m) / 30) * float(maxval - minval) + minval
+            # print("val:",val)
+            img = op(img, val)
+        return img
+class RandAugment_all:
+    def __init__(self, m, factor_num, randm=False):
+        self.m = m      # [0, 30]
+        self.causal_list = causal_list(factor_num)
+        print("---------------------------%d factors-----------------"%(len(self.causal_list)))
+        self.randm = randm
+        self.factor_num = factor_num
+
+    def __call__(self, img):
+        # print("%d factors-----------------"%(len(self.causal_list)))
+        factor_choice = np.random.randint(0,2,self.factor_num)
+        # ops = random.choices(self.causal_list, k=self.n)
+        if self.randm:
+            self.m = random.randint(0,30)
+        for index, (op, minval, maxval) in enumerate(self.causal_list):
+            if factor_choice[index] == 0:
+                continue
+            else:
+                val = (float(self.m) / 30) * float(maxval - minval) + minval
+                # print("val:",val)
+                img = op(img, val)
+        return img
+class RandAugment_incausal_label:
+    def __init__(self, n, m, factor_num, randm=False):
+        self.n = n
+        self.m = m      # [0, 30]
+        self.causal_list = causal_list(factor_num)
+        self.factor_num = factor_num
+        print("---------------------------%d factors-----------------"%(len(self.causal_list)))
+        self.randm = randm
+        print("randm:",self.randm)
+
+    def __call__(self, img):
+        # print("%d factors-----------------"%(len(self.causal_list)))
+        #op_labels = np.random.randint(0,self.factor_num-1,self.n)
+        op_labels = random.sample(range(0, self.factor_num), self.n)
+        ops = [li for index, li in enumerate(self.causal_list) if index in op_labels]
+        #ops = random.choices(self.causal_list, k=self.n)
+        # print(self.causal_list)
+        # print("op_labels:",op_labels)
+        # print("select_op:",ops)
+        if self.randm:
+            self.m = random.randint(0,30)
+        for op, minval, maxval in ops:
+            val = (float(self.m) / 30) * float(maxval - minval) + minval
+            # print("val:",val)
+            img = op(img, val)
+        return img, np.array(op_labels)
+class FactualAugment_incausal:
+    def __init__(self, m, factor_num, randm=False):
+        self.m = m
+        self.causal_list = causal_list(factor_num)
+        self.factor_list = factor_list(factor_num)
+        self.factor_num = factor_num
+        self.randm = randm
+        print("randm:",self.randm)
+    def __call__(self, img):
+        # ops = random.choices(self.causal_list, k=1)
+        if self.randm:
+            self.m = random.randint(0,30)
+        for index, (op, minval, maxval) in enumerate(self.causal_list):
+            val = (float(self.m) / 30) * float(maxval - minval) + minval
+            if index == 0:
+                imgs = np.array(op(img, val))
+            else:
+                imgs = np.concatenate((imgs, op(img, val)),-1)
+        # print("imgs",imgs.shape)
+        return imgs          
+class CounterfactualAugment_incausal:
+    def __init__(self,factor_num):
+        self.causal_list = causal_list(factor_num)
+        self.factor_list = factor_list(factor_num)
+        self.factor_num = factor_num
+    def __call__(self, img):
+        # index = 0
+        # b, c, h, w = img.shape
+        # imgs = torch.zeros(b*self.factor_num, c, h, w)    
+        # for b_ in range(32):
+        for index, (op, minval, maxval) in enumerate(self.causal_list):
+            op = eval('Do'+self.factor_list[index])
+            if index == 0:
+                imgs = np.array(op(img, maxval))
+            else:
+                imgs = np.concatenate((imgs, op(img, maxval)),-1)
+            # img = op(img, maxval)
+            # imgs[b_*factor_num+index] = op(img[b_], maxval)
+        return imgs
+class MultiCounterfactualAugment_incausal:
+    def __init__(self, factor_num, stride):
+        self.causal_list = causal_list(factor_num)
+        self.factor_list = factor_list(factor_num)
+        self.factor_num = factor_num
+        self.stride = stride
+
+    def __call__(self, img):
+        # index = 0
+        # b, c, h, w = img.shape
+        # imgs = torch.zeros(b*self.factor_num, c, h, w)    
+        # for b_ in range(32):
+        # 0,5,10,15,20,25,30
+        for index, (op, minval, maxval) in enumerate(self.causal_list):
+            op = eval('Do'+self.factor_list[index])
+            for i in range(0, 31, self.stride):
+                val = (float(i) / 30) * float(maxval - minval) + minval
+                if index == 0 and i == 0:
+                    imgs = np.array(op(img, val))
+                else:
+                    imgs = np.concatenate((imgs, op(img, val)),-1)
+            # img = op(img, maxval)
+            # imgs[b_*factor_num+index] = op(img[b_], maxval)
+        return imgs
+class MultiCounterfactualAugment:
+    def __init__(self, factor_num, stride=5):
+        self.causal_list = causal_list(factor_num)
+        self.factor_list = factor_list(factor_num)
+        self.factor_num = factor_num
+        self.stride = stride
+        self.var_num = len(list(range(0, 31, self.stride)))
+        print("stride:",stride)
+    def __call__(self, img):
+        # index = 0
+        b, c, h, w = img.shape
+        imgs = torch.zeros(b*self.factor_num*self.var_num, c, h, w)    
+        # for b_ in range(32):
+        # 0,5,10,15,20,25,30
+        # print(img.shape)
+        for b_ in range(b):
+            img0 = transforms.ToPILImage()(imgs[b_])
+            for index, (op, minval, maxval) in enumerate(self.causal_list):
+                op = eval('Do'+self.factor_list[index])
+                i_index = 0
+                for i in range(0, 31, self.stride):
+                    val = (float(i) / 30) * float(maxval - minval) + minval
+                    img1 = op(img0, val)
+                    img1 = transforms.ToTensor()(img1)
+                    #print(f'batch {b_} factor {index} stride {i} i_index {i_index} total {b_*self.factor_num*self.var_num+index*self.var_num+i_index}')
+                    imgs[b_*self.factor_num*self.var_num+index*self.var_num+i_index] = img1
+                    i_index = i_index + 1
+            # img = op(img, maxval)
+            # imgs[b_*factor_num+index] = op(img[b_], maxval)
+        return imgs
+
+
+class FactualAugment:
+    def __init__(self, m, factor_num, randm=False):
+        self.m = m
+        self.causal_list = causal_list(factor_num)
+        self.factor_list = factor_list(factor_num)
+        self.factor_num = factor_num
+        self.randm = randm
+        print("randm:",randm)
+    def __call__(self, img):
+        index = 0
+        b, c, h, w = img.shape
+        imgs = torch.zeros(b*self.factor_num, c, h, w)    
+
+        img = img.cpu()
+        for b_ in range(b):
+            imgs[b_*self.factor_num:(b_+1)*self.factor_num] = self.get_item(img[b_])
+        return imgs
+    def get_item(self, img):
+        index = 0
+        # print("input_dim:",img.shape)
+        c, h, w = img.shape
+        imgs = torch.zeros(self.factor_num, c, h, w)
+        # img = img.squeeze(0)
+        # print(img.shape)
+        img = transforms.ToPILImage()(img)
+        if self.randm:
+            self.m = random.randint(0,30)
+        for index, (op, minval, maxval) in enumerate(self.causal_list):     
+            op = eval(self.factor_list[index])
+            val = (float(self.m) / 30) * float(maxval - minval) + minval
+            img1 = op(img, val)
+            img1 = transforms.ToTensor()(img1)
+            imgs[index] = img1
+        return imgs 
+class CounterfactualAugment:
+    def __init__(self,factor_num):
+        self.causal_list = causal_list(factor_num)
+        self.factor_list = factor_list(factor_num)
+        self.factor_num = factor_num
+
+    def __call__(self, img):
+        index = 0
+        b, c, h, w = img.shape
+        imgs = torch.zeros(b*self.factor_num, c, h, w)    
+
+        img = img.cpu()
+        for b_ in range(b):
+            imgs[b_*self.factor_num:(b_+1)*self.factor_num] = self.get_item(img[b_])
+        return imgs
+    def get_item(self, img):
+        index = 0
+        c, h, w = img.shape
+        imgs = torch.ones(self.factor_num, c, h, w)
+        # img = img.squeeze(0)
+        img = transforms.ToPILImage()(img)
+        for index, (op, minval, maxval) in enumerate(self.causal_list):     
+            op = eval('Do'+self.factor_list[index])
+            img1 = op(img, maxval)
+            # img1.save('test'+str(index)+'.png')
+            img1 = transforms.ToTensor()(img1)
+            imgs[index] = img1
+        return imgs        
+
+class Avg_statistic:
+    def __init__(self):
+        self.do_list = do_list()
+        self.statistic_num = len(self.do_list)  
+        self.avg_val = np.zeros(self.statistic_num)
+        self.img_num = 0
+
+    def get_item(self,img):
+        # ops = self.statistic_list
+        do_index = 0
+        for op in self.do_list:
+            val=op(img)
+            self.avg_val[do_index] += val
+        self.img_num = self.img_num + 1
+
+    def compute_average(self):
+        self.avg_val = self.avg_val/self.img_num
+
+    def get_infor(self):
+        return self.avg_val, self.img_num
+
+
+
+
diff --git a/Meta-causal/code-withStyleAttack/tools/randaugment.py b/Meta-causal/code-withStyleAttack/tools/randaugment.py
new file mode 100644
index 0000000000000000000000000000000000000000..f3bbdf11541df078144fa0ced8d693d4c98507ad
--- /dev/null
+++ b/Meta-causal/code-withStyleAttack/tools/randaugment.py
@@ -0,0 +1,248 @@
+# code in this file is adpated from rpmcruz/autoaugment
+# https://github.com/rpmcruz/autoaugment/blob/master/transformations.py
+import random
+
+import PIL, PIL.ImageOps, PIL.ImageEnhance, PIL.ImageDraw
+import numpy as np
+import torch
+from PIL import Image
+
+
+def ShearX(img, v):  # [-0.3, 0.3]
+    assert -0.3 <= v <= 0.3
+    if random.random() > 0.5:
+        v = -v
+    return img.transform(img.size, PIL.Image.AFFINE, (1, v, 0, 0, 1, 0))
+
+
+def ShearY(img, v):  # [-0.3, 0.3]
+    assert -0.3 <= v <= 0.3
+    if random.random() > 0.5:
+        v = -v
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, 0, v, 1, 0))
+
+
+def TranslateX(img, v):  # [-150, 150] => percentage: [-0.45, 0.45]
+    assert -0.45 <= v <= 0.45
+    if random.random() > 0.5:
+        v = -v
+    v = v * img.size[0]
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, v, 0, 1, 0))
+
+
+def TranslateXabs(img, v):  # [-150, 150] => percentage: [-0.45, 0.45]
+    assert 0 <= v
+    if random.random() > 0.5:
+        v = -v
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, v, 0, 1, 0))
+
+
+def TranslateY(img, v):  # [-150, 150] => percentage: [-0.45, 0.45]
+    assert -0.45 <= v <= 0.45
+    if random.random() > 0.5:
+        v = -v
+    v = v * img.size[1]
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, 0, 0, 1, v))
+
+
+def TranslateYabs(img, v):  # [-150, 150] => percentage: [-0.45, 0.45]
+    assert 0 <= v
+    if random.random() > 0.5:
+        v = -v
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, 0, 0, 1, v))
+
+
+def Rotate(img, v):  # [-30, 30]
+    assert -30 <= v <= 30
+    if random.random() > 0.5:
+        v = -v
+    return img.rotate(v)
+
+
+def AutoContrast(img, _):
+    return PIL.ImageOps.autocontrast(img)
+
+
+def Invert(img, _):
+    return PIL.ImageOps.invert(img)
+
+
+def Equalize(img, _):
+    return PIL.ImageOps.equalize(img)
+
+
+def Flip(img, _):  # not from the paper
+    return PIL.ImageOps.mirror(img)
+
+
+def Solarize(img, v):  # [0, 256]
+    assert 0 <= v <= 256
+    return PIL.ImageOps.solarize(img, v)
+
+
+def SolarizeAdd(img, addition=0, threshold=128):
+    img_np = np.array(img).astype(np.int)
+    img_np = img_np + addition
+    img_np = np.clip(img_np, 0, 255)
+    img_np = img_np.astype(np.uint8)
+    img = Image.fromarray(img_np)
+    return PIL.ImageOps.solarize(img, threshold)
+
+
+def Posterize(img, v):  # [4, 8]
+    v = int(v)
+    v = max(1, v)
+    return PIL.ImageOps.posterize(img, v)
+
+
+def Contrast(img, v):  # [0.1,1.9]
+    assert 0.1 <= v <= 1.9
+    return PIL.ImageEnhance.Contrast(img).enhance(v)
+
+
+def Color(img, v):  # [0.1,1.9]
+    assert 0.1 <= v <= 1.9
+    return PIL.ImageEnhance.Color(img).enhance(v)
+
+
+def Brightness(img, v):  # [0.1,1.9]
+    assert 0.1 <= v <= 1.9
+    return PIL.ImageEnhance.Brightness(img).enhance(v)
+
+
+def Sharpness(img, v):  # [0.1,1.9]
+    assert 0.1 <= v <= 1.9
+    return PIL.ImageEnhance.Sharpness(img).enhance(v)
+
+
+def Cutout(img, v):  # [0, 60] => percentage: [0, 0.2]
+    assert 0.0 <= v <= 0.2
+    if v <= 0.:
+        return img
+
+    v = v * img.size[0]
+    return CutoutAbs(img, v)
+
+
+def CutoutAbs(img, v):  # [0, 60] => percentage: [0, 0.2]
+    # assert 0 <= v <= 20
+    if v < 0:
+        return img
+    w, h = img.size
+    x0 = np.random.uniform(w)
+    y0 = np.random.uniform(h)
+
+    x0 = int(max(0, x0 - v / 2.))
+    y0 = int(max(0, y0 - v / 2.))
+    x1 = min(w, x0 + v)
+    y1 = min(h, y0 + v)
+
+    xy = (x0, y0, x1, y1)
+    color = (125, 123, 114)
+    # color = (0, 0, 0)
+    img = img.copy()
+    PIL.ImageDraw.Draw(img).rectangle(xy, color)
+    return img
+
+
+def SamplePairing(imgs):  # [0, 0.4]
+    def f(img1, v):
+        i = np.random.choice(len(imgs))
+        img2 = PIL.Image.fromarray(imgs[i])
+        return PIL.Image.blend(img1, img2, v)
+
+    return f
+
+
+def Identity(img, v):
+    return img
+
+
+def augment_list():  # 16 oeprations and their ranges
+
+    # https://github.com/tensorflow/tpu/blob/8462d083dd89489a79e3200bcc8d4063bf362186/models/official/efficientnet/autoaugment.py#L505
+    l = [
+        (AutoContrast, 0, 1),
+        (Equalize, 0, 1),
+        (Invert, 0, 1),
+        (Rotate, 0, 30),
+        (Posterize, 0, 4),
+        (Solarize, 0, 256),
+        (SolarizeAdd, 0, 110),
+        (Color, 0.1, 1.9),
+        (Contrast, 0.1, 1.9),
+        (Brightness, 0.1, 1.9),
+        (Sharpness, 0.1, 1.9),
+        (ShearX, 0., 0.3),
+        (ShearY, 0., 0.3),
+        (CutoutAbs, 0, 40),
+        (TranslateXabs, 0., 100),
+        (TranslateYabs, 0., 100),
+    ]
+
+    return l
+
+
+class Lighting(object):
+    """Lighting noise(AlexNet - style PCA - based noise)"""
+
+    def __init__(self, alphastd, eigval, eigvec):
+        self.alphastd = alphastd
+        self.eigval = torch.Tensor(eigval)
+        self.eigvec = torch.Tensor(eigvec)
+
+    def __call__(self, img):
+        if self.alphastd == 0:
+            return img
+
+        alpha = img.new().resize_(3).normal_(0, self.alphastd)
+        rgb = self.eigvec.type_as(img).clone() \
+            .mul(alpha.view(1, 3).expand(3, 3)) \
+            .mul(self.eigval.view(1, 3).expand(3, 3)) \
+            .sum(1).squeeze()
+
+        return img.add(rgb.view(3, 1, 1).expand_as(img))
+
+
+class CutoutDefault(object):
+    """
+    Reference : https://github.com/quark0/darts/blob/master/cnn/utils.py
+    """
+    def __init__(self, length):
+        self.length = length
+
+    def __call__(self, img):
+        h, w = img.size(1), img.size(2)
+        mask = np.ones((h, w), np.float32)
+        y = np.random.randint(h)
+        x = np.random.randint(w)
+
+        y1 = np.clip(y - self.length // 2, 0, h)
+        y2 = np.clip(y + self.length // 2, 0, h)
+        x1 = np.clip(x - self.length // 2, 0, w)
+        x2 = np.clip(x + self.length // 2, 0, w)
+
+        mask[y1: y2, x1: x2] = 0.
+        mask = torch.from_numpy(mask)
+        mask = mask.expand_as(img)
+        img *= mask
+        return img
+
+
+class RandAugment:
+    def __init__(self, n, m, randm=False):
+        self.n = n
+        self.m = m      # [0, 30]
+        self.augment_list = augment_list()
+        self.randm = randm
+
+    def __call__(self, img):
+        ops = random.choices(self.augment_list, k=self.n)
+        if self.randm:
+            self.m = random.randint(0,30)
+        for op, minval, maxval in ops:
+            val = (float(self.m) / 30) * float(maxval - minval) + minval
+            # print("val:",val)
+            img = op(img, val)
+
+        return img
diff --git a/Meta-causal/code/56717.error b/Meta-causal/code/56717.error
new file mode 100644
index 0000000000000000000000000000000000000000..f4d95947c7a86339e1d04481c9ef0f88fee09876
--- /dev/null
+++ b/Meta-causal/code/56717.error
@@ -0,0 +1 @@
+run_my_joint_v13_test.sh: line 27: m}: command not found
diff --git a/Meta-causal/code/56717.log b/Meta-causal/code/56717.log
new file mode 100644
index 0000000000000000000000000000000000000000..342d449cbbc0cf96ab603cfcc9a39a8178c93297
--- /dev/null
+++ b/Meta-causal/code/56717.log
@@ -0,0 +1,334 @@
+/home/yuqian_fu
+{'gpu': '0', 'data': 'art_painting', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 5, 'factor_num': 16, 'epochs': 70, 'nbatch': 100, 'batchsize': 6, 'lr': 0.01, 'lr_scheduler': 'cosine', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_ReProduceMetaCausal', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 5
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_train.hdf5 torch.Size([1840, 3, 227, 227]) torch.Size([1840])
+--------------------------CA_multiple--------------------------
+---------------------------16 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_val.hdf5 torch.Size([208, 3, 227, 227]) torch.Size([208])
+-------------------------------------loading pretrain weights----------------------------------
+306
+0.01
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 396.56, cls_loss 6.7564 cls_loss_mapping 1.5193 cls_loss_causal 1.7521 re_mapping 1.0575 re_causal 1.0584 /// teacc 81.25 lr 0.00999497
+306
+0.009994965332706574
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 415.32, cls_loss 2.1970 cls_loss_mapping 0.9096 cls_loss_causal 1.4403 re_mapping 0.7024 re_causal 0.7051 /// teacc 83.65 lr 0.00997987
+306
+0.009979871469976196
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 457.96, cls_loss 1.3065 cls_loss_mapping 0.6322 cls_loss_causal 1.2780 re_mapping 0.6032 re_causal 0.6057 /// teacc 88.46 lr 0.00995475
+306
+0.009954748808839675
+changing lr
+epoch 3, time 451.75, cls_loss 0.5818 cls_loss_mapping 0.5055 cls_loss_causal 1.1465 re_mapping 0.5267 re_causal 0.5293 /// teacc 87.02 lr 0.00991965
+306
+0.009919647942993149
+changing lr
+epoch 4, time 451.48, cls_loss 0.3909 cls_loss_mapping 0.4012 cls_loss_causal 1.0889 re_mapping 0.4649 re_causal 0.4683 /// teacc 84.62 lr 0.00987464
+306
+0.009874639560909117
+changing lr
+epoch 5, time 441.59, cls_loss 0.3191 cls_loss_mapping 0.3555 cls_loss_causal 1.0670 re_mapping 0.3968 re_causal 0.4013 /// teacc 86.06 lr 0.00981981
+306
+0.009819814303479266
+changing lr
+epoch 6, time 432.93, cls_loss 0.1327 cls_loss_mapping 0.2760 cls_loss_causal 1.0002 re_mapping 0.3232 re_causal 0.3278 /// teacc 83.17 lr 0.00975528
+306
+0.009755282581475767
+changing lr
+epoch 7, time 444.85, cls_loss 0.0411 cls_loss_mapping 0.2236 cls_loss_causal 0.9368 re_mapping 0.2592 re_causal 0.2641 /// teacc 88.46 lr 0.00968117
+306
+0.009681174353198686
+changing lr
+epoch 8, time 448.36, cls_loss 0.0723 cls_loss_mapping 0.2492 cls_loss_causal 0.9911 re_mapping 0.2174 re_causal 0.2224 /// teacc 86.54 lr 0.00959764
+306
+0.009597638862757255
+changing lr
+epoch 9, time 446.26, cls_loss 0.0174 cls_loss_mapping 0.1853 cls_loss_causal 0.8733 re_mapping 0.1873 re_causal 0.1925 /// teacc 86.54 lr 0.00950484
+306
+0.009504844339512096
+changing lr
+---------------------saving model at epoch 10----------------------------------------------------
+epoch 10, time 457.12, cls_loss 0.0358 cls_loss_mapping 0.1781 cls_loss_causal 0.8735 re_mapping 0.1610 re_causal 0.1661 /// teacc 89.90 lr 0.00940298
+306
+0.009402977659283692
+changing lr
+epoch 11, time 443.50, cls_loss 0.0162 cls_loss_mapping 0.1514 cls_loss_causal 0.8453 re_mapping 0.1432 re_causal 0.1486 /// teacc 89.90 lr 0.00929224
+306
+0.009292243968009333
+changing lr
+---------------------saving model at epoch 12----------------------------------------------------
+epoch 12, time 453.53, cls_loss 0.0101 cls_loss_mapping 0.1383 cls_loss_causal 0.8002 re_mapping 0.1270 re_causal 0.1328 /// teacc 90.87 lr 0.00917287
+306
+0.009172866268606516
+changing lr
+epoch 13, time 466.47, cls_loss 0.0092 cls_loss_mapping 0.1432 cls_loss_causal 0.8412 re_mapping 0.1167 re_causal 0.1224 /// teacc 90.38 lr 0.00904508
+306
+0.00904508497187474
+changing lr
+epoch 14, time 448.78, cls_loss 0.0063 cls_loss_mapping 0.1207 cls_loss_causal 0.7912 re_mapping 0.1077 re_causal 0.1140 /// teacc 90.38 lr 0.00890916
+306
+0.008909157412340152
+changing lr
+epoch 15, time 442.01, cls_loss 0.0075 cls_loss_mapping 0.1148 cls_loss_causal 0.7640 re_mapping 0.0982 re_causal 0.1047 /// teacc 89.90 lr 0.00876536
+306
+0.00876535733001806
+changing lr
+epoch 16, time 451.70, cls_loss 0.0050 cls_loss_mapping 0.1000 cls_loss_causal 0.7562 re_mapping 0.0898 re_causal 0.0964 /// teacc 90.87 lr 0.00861397
+306
+0.008613974319136962
+changing lr
+epoch 17, time 454.36, cls_loss 0.0084 cls_loss_mapping 0.0986 cls_loss_causal 0.7422 re_mapping 0.0817 re_causal 0.0883 /// teacc 89.90 lr 0.00845531
+306
+0.008455313244934327
+changing lr
+epoch 18, time 450.70, cls_loss 0.0033 cls_loss_mapping 0.0951 cls_loss_causal 0.7426 re_mapping 0.0760 re_causal 0.0827 /// teacc 89.42 lr 0.00828969
+306
+0.008289693629698565
+changing lr
+epoch 19, time 456.56, cls_loss 0.0051 cls_loss_mapping 0.0938 cls_loss_causal 0.7288 re_mapping 0.0711 re_causal 0.0787 /// teacc 88.94 lr 0.00811745
+306
+0.00811744900929367
+changing lr
+epoch 20, time 444.31, cls_loss 0.0025 cls_loss_mapping 0.0920 cls_loss_causal 0.7432 re_mapping 0.0652 re_causal 0.0723 /// teacc 89.90 lr 0.00793893
+306
+0.007938926261462368
+changing lr
+epoch 21, time 436.20, cls_loss 0.0028 cls_loss_mapping 0.0782 cls_loss_causal 0.7226 re_mapping 0.0605 re_causal 0.0677 /// teacc 90.87 lr 0.00775448
+306
+0.007754484907260515
+changing lr
+epoch 22, time 447.42, cls_loss 0.0020 cls_loss_mapping 0.0778 cls_loss_causal 0.6694 re_mapping 0.0571 re_causal 0.0641 /// teacc 90.38 lr 0.00756450
+306
+0.007564496387029534
+changing lr
+epoch 23, time 443.40, cls_loss 0.0019 cls_loss_mapping 0.0766 cls_loss_causal 0.7606 re_mapping 0.0533 re_causal 0.0621 /// teacc 89.42 lr 0.00736934
+306
+0.007369343312364995
+changing lr
+epoch 24, time 439.80, cls_loss 0.0045 cls_loss_mapping 0.0782 cls_loss_causal 0.7261 re_mapping 0.0521 re_causal 0.0608 /// teacc 90.38 lr 0.00716942
+306
+0.0071694186955877925
+changing lr
+epoch 25, time 430.50, cls_loss 0.0020 cls_loss_mapping 0.0645 cls_loss_causal 0.7059 re_mapping 0.0500 re_causal 0.0593 /// teacc 90.87 lr 0.00696513
+306
+0.0069651251582696205
+changing lr
+epoch 26, time 444.21, cls_loss 0.0008 cls_loss_mapping 0.0529 cls_loss_causal 0.6660 re_mapping 0.0448 re_causal 0.0527 /// teacc 90.87 lr 0.00675687
+306
+0.006756874120406716
+changing lr
+epoch 27, time 451.19, cls_loss 0.0027 cls_loss_mapping 0.0633 cls_loss_causal 0.7457 re_mapping 0.0430 re_causal 0.0520 /// teacc 90.87 lr 0.00654508
+306
+0.00654508497187474
+changing lr
+---------------------saving model at epoch 28----------------------------------------------------
+epoch 28, time 444.91, cls_loss 0.0045 cls_loss_mapping 0.0630 cls_loss_causal 0.6839 re_mapping 0.0409 re_causal 0.0485 /// teacc 91.35 lr 0.00633018
+306
+0.006330184227833378
+changing lr
+epoch 29, time 454.38, cls_loss 0.0030 cls_loss_mapping 0.0528 cls_loss_causal 0.6373 re_mapping 0.0388 re_causal 0.0468 /// teacc 88.94 lr 0.00611260
+306
+0.006112604669781575
+changing lr
+epoch 30, time 455.36, cls_loss 0.0023 cls_loss_mapping 0.0479 cls_loss_causal 0.6459 re_mapping 0.0382 re_causal 0.0462 /// teacc 91.35 lr 0.00589278
+306
+0.005892784473993186
+changing lr
+epoch 31, time 447.61, cls_loss 0.0014 cls_loss_mapping 0.0532 cls_loss_causal 0.6553 re_mapping 0.0365 re_causal 0.0447 /// teacc 91.35 lr 0.00567117
+306
+0.00567116632908828
+changing lr
+epoch 32, time 455.74, cls_loss 0.0019 cls_loss_mapping 0.0470 cls_loss_causal 0.6156 re_mapping 0.0346 re_causal 0.0422 /// teacc 90.38 lr 0.00544820
+306
+0.00544819654451717
+changing lr
+epoch 33, time 458.62, cls_loss 0.0026 cls_loss_mapping 0.0475 cls_loss_causal 0.6128 re_mapping 0.0336 re_causal 0.0415 /// teacc 91.35 lr 0.00522432
+306
+0.005224324151752577
+changing lr
+epoch 34, time 443.89, cls_loss 0.0034 cls_loss_mapping 0.0503 cls_loss_causal 0.6216 re_mapping 0.0331 re_causal 0.0412 /// teacc 90.87 lr 0.00500000
+306
+0.005000000000000003
+changing lr
+---------------------saving model at epoch 35----------------------------------------------------
+epoch 35, time 474.23, cls_loss 0.0025 cls_loss_mapping 0.0398 cls_loss_causal 0.5884 re_mapping 0.0317 re_causal 0.0397 /// teacc 91.83 lr 0.00477568
+306
+0.004775675848247429
+changing lr
+epoch 36, time 456.46, cls_loss 0.0023 cls_loss_mapping 0.0434 cls_loss_causal 0.6319 re_mapping 0.0308 re_causal 0.0386 /// teacc 91.35 lr 0.00455180
+306
+0.004551803455482836
+changing lr
+epoch 37, time 460.36, cls_loss 0.0024 cls_loss_mapping 0.0376 cls_loss_causal 0.6052 re_mapping 0.0290 re_causal 0.0364 /// teacc 90.87 lr 0.00432883
+306
+0.004328833670911726
+changing lr
+epoch 38, time 456.58, cls_loss 0.0013 cls_loss_mapping 0.0368 cls_loss_causal 0.6265 re_mapping 0.0276 re_causal 0.0354 /// teacc 90.38 lr 0.00410722
+306
+0.0041072155260068206
+changing lr
+epoch 39, time 468.90, cls_loss 0.0019 cls_loss_mapping 0.0310 cls_loss_causal 0.6240 re_mapping 0.0264 re_causal 0.0344 /// teacc 90.87 lr 0.00388740
+306
+0.0038873953302184317
+changing lr
+epoch 40, time 457.96, cls_loss 0.0020 cls_loss_mapping 0.0328 cls_loss_causal 0.6230 re_mapping 0.0257 re_causal 0.0335 /// teacc 90.87 lr 0.00366982
+306
+0.003669815772166629
+changing lr
+---------------------saving model at epoch 41----------------------------------------------------
+epoch 41, time 469.29, cls_loss 0.0023 cls_loss_mapping 0.0376 cls_loss_causal 0.6061 re_mapping 0.0249 re_causal 0.0320 /// teacc 92.31 lr 0.00345492
+306
+0.0034549150281252667
+changing lr
+epoch 42, time 475.72, cls_loss 0.0025 cls_loss_mapping 0.0311 cls_loss_causal 0.6195 re_mapping 0.0243 re_causal 0.0322 /// teacc 90.87 lr 0.00324313
+306
+0.0032431258795932905
+changing lr
+epoch 43, time 450.85, cls_loss 0.0018 cls_loss_mapping 0.0341 cls_loss_causal 0.6223 re_mapping 0.0235 re_causal 0.0310 /// teacc 90.87 lr 0.00303487
+306
+0.0030348748417303863
+changing lr
+epoch 44, time 441.78, cls_loss 0.0019 cls_loss_mapping 0.0317 cls_loss_causal 0.6072 re_mapping 0.0228 re_causal 0.0304 /// teacc 90.38 lr 0.00283058
+306
+0.0028305813044122124
+changing lr
+---------------------saving model at epoch 45----------------------------------------------------
+epoch 45, time 462.98, cls_loss 0.0013 cls_loss_mapping 0.0307 cls_loss_causal 0.5641 re_mapping 0.0222 re_causal 0.0291 /// teacc 93.75 lr 0.00263066
+306
+0.0026306566876350096
+changing lr
+epoch 46, time 474.81, cls_loss 0.0028 cls_loss_mapping 0.0323 cls_loss_causal 0.6004 re_mapping 0.0218 re_causal 0.0287 /// teacc 91.83 lr 0.00243550
+306
+0.0024355036129704724
+changing lr
+epoch 47, time 465.56, cls_loss 0.0013 cls_loss_mapping 0.0291 cls_loss_causal 0.6082 re_mapping 0.0213 re_causal 0.0289 /// teacc 92.31 lr 0.00224552
+306
+0.00224551509273949
+changing lr
+epoch 48, time 458.33, cls_loss 0.0011 cls_loss_mapping 0.0269 cls_loss_causal 0.6051 re_mapping 0.0208 re_causal 0.0289 /// teacc 91.35 lr 0.00206107
+306
+0.002061073738537637
+changing lr
+epoch 49, time 450.51, cls_loss 0.0012 cls_loss_mapping 0.0242 cls_loss_causal 0.5558 re_mapping 0.0200 re_causal 0.0273 /// teacc 91.35 lr 0.00188255
+306
+0.0018825509907063344
+changing lr
+epoch 50, time 462.46, cls_loss 0.0009 cls_loss_mapping 0.0237 cls_loss_causal 0.5775 re_mapping 0.0194 re_causal 0.0261 /// teacc 90.38 lr 0.00171031
+306
+0.0017103063703014388
+changing lr
+epoch 51, time 458.67, cls_loss 0.0017 cls_loss_mapping 0.0239 cls_loss_causal 0.5359 re_mapping 0.0184 re_causal 0.0244 /// teacc 91.35 lr 0.00154469
+306
+0.0015446867550656784
+changing lr
+epoch 52, time 439.55, cls_loss 0.0016 cls_loss_mapping 0.0239 cls_loss_causal 0.5782 re_mapping 0.0180 re_causal 0.0248 /// teacc 92.31 lr 0.00138603
+306
+0.001386025680863044
+changing lr
+epoch 53, time 468.39, cls_loss 0.0011 cls_loss_mapping 0.0221 cls_loss_causal 0.5797 re_mapping 0.0174 re_causal 0.0241 /// teacc 90.38 lr 0.00123464
+306
+0.0012346426699819469
+changing lr
+epoch 54, time 478.52, cls_loss 0.0011 cls_loss_mapping 0.0208 cls_loss_causal 0.5323 re_mapping 0.0171 re_causal 0.0233 /// teacc 91.35 lr 0.00109084
+306
+0.0010908425876598518
+changing lr
+epoch 55, time 451.23, cls_loss 0.0018 cls_loss_mapping 0.0228 cls_loss_causal 0.5217 re_mapping 0.0167 re_causal 0.0227 /// teacc 91.35 lr 0.00095492
+306
+0.000954915028125264
+changing lr
+epoch 56, time 455.62, cls_loss 0.0008 cls_loss_mapping 0.0185 cls_loss_causal 0.5520 re_mapping 0.0165 re_causal 0.0225 /// teacc 90.87 lr 0.00082713
+306
+0.0008271337313934874
+changing lr
+epoch 57, time 455.64, cls_loss 0.0015 cls_loss_mapping 0.0242 cls_loss_causal 0.5776 re_mapping 0.0162 re_causal 0.0225 /// teacc 90.87 lr 0.00070776
+306
+0.00070775603199067
+changing lr
+epoch 58, time 446.78, cls_loss 0.0009 cls_loss_mapping 0.0185 cls_loss_causal 0.5541 re_mapping 0.0158 re_causal 0.0221 /// teacc 91.35 lr 0.00059702
+306
+0.0005970223407163104
+changing lr
+epoch 59, time 451.88, cls_loss 0.0025 cls_loss_mapping 0.0193 cls_loss_causal 0.5280 re_mapping 0.0156 re_causal 0.0217 /// teacc 92.31 lr 0.00049516
+306
+0.0004951556604879052
+changing lr
+epoch 60, time 459.80, cls_loss 0.0019 cls_loss_mapping 0.0191 cls_loss_causal 0.5650 re_mapping 0.0154 re_causal 0.0212 /// teacc 91.83 lr 0.00040236
+306
+0.00040236113724274745
+changing lr
+epoch 61, time 456.30, cls_loss 0.0013 cls_loss_mapping 0.0195 cls_loss_causal 0.5573 re_mapping 0.0151 re_causal 0.0209 /// teacc 90.87 lr 0.00031883
+306
+0.00031882564680131423
+changing lr
+epoch 62, time 461.25, cls_loss 0.0016 cls_loss_mapping 0.0184 cls_loss_causal 0.5320 re_mapping 0.0149 re_causal 0.0203 /// teacc 91.83 lr 0.00024472
+306
+0.0002447174185242325
+changing lr
+epoch 63, time 461.95, cls_loss 0.0025 cls_loss_mapping 0.0234 cls_loss_causal 0.5478 re_mapping 0.0148 re_causal 0.0203 /// teacc 91.35 lr 0.00018019
+306
+0.0001801856965207339
+changing lr
+epoch 64, time 443.04, cls_loss 0.0012 cls_loss_mapping 0.0208 cls_loss_causal 0.5022 re_mapping 0.0147 re_causal 0.0200 /// teacc 91.35 lr 0.00012536
+306
+0.000125360439090882
+changing lr
+epoch 65, time 454.35, cls_loss 0.0012 cls_loss_mapping 0.0176 cls_loss_causal 0.5745 re_mapping 0.0147 re_causal 0.0203 /// teacc 91.83 lr 0.00008035
+306
+8.03520570068517e-05
+changing lr
+epoch 66, time 462.74, cls_loss 0.0018 cls_loss_mapping 0.0228 cls_loss_causal 0.5579 re_mapping 0.0147 re_causal 0.0201 /// teacc 91.35 lr 0.00004525
+306
+4.5251191160326525e-05
+changing lr
+epoch 67, time 470.10, cls_loss 0.0012 cls_loss_mapping 0.0186 cls_loss_causal 0.5288 re_mapping 0.0147 re_causal 0.0205 /// teacc 92.31 lr 0.00002013
+306
+2.0128530023804673e-05
+changing lr
+epoch 68, time 446.31, cls_loss 0.0011 cls_loss_mapping 0.0165 cls_loss_causal 0.5339 re_mapping 0.0146 re_causal 0.0202 /// teacc 89.42 lr 0.00000503
+306
+5.034667293427056e-06
+changing lr
+epoch 69, time 458.08, cls_loss 0.0013 cls_loss_mapping 0.0148 cls_loss_causal 0.5422 re_mapping 0.0146 re_causal 0.0204 /// teacc 92.31 lr 0.00000000
+---------------------saving last model at epoch 69----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_ReProduceMetaCausal', 'source_domain': 'art_painting', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_ReProduceMetaCausal/art_painting_16factor_last_test_check.csv', 'factor_num': 16, 'epoch': 'last', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of last
+randm: False
+stride: 5
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+columns: ['art_painting', 'cartoon', 'photo', 'sketch']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+                     art_painting    cartoon      photo     sketch        Avg
+w/o do (original x)     99.169922  65.784983  95.209581  64.596589  75.197051
+    art_painting    cartoon      photo     sketch        Avg
+do     99.072266  64.803754  95.269461  64.342072  74.805096
diff --git a/Meta-causal/code/56718.error b/Meta-causal/code/56718.error
new file mode 100644
index 0000000000000000000000000000000000000000..f26c68e6c5fa980b508c7bd532627e6b75b149fa
--- /dev/null
+++ b/Meta-causal/code/56718.error
@@ -0,0 +1,2 @@
+bash: run_my_joint_v13_test.sh: No such file or directory
+srun: error: gcpl4-eu-1: task 0: Exited with exit code 127
diff --git a/Meta-causal/code/56718.log b/Meta-causal/code/56718.log
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/Meta-causal/code/56719.error b/Meta-causal/code/56719.error
new file mode 100644
index 0000000000000000000000000000000000000000..444e676738c3b4b1c880f3c832cec125757b1b1b
--- /dev/null
+++ b/Meta-causal/code/56719.error
@@ -0,0 +1,25 @@
+Traceback (most recent call last):
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code/main_test_digit_v13.py", line 142, in <module>
+    main()
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvapqvk3mmem/lib/python3.11/site-packages/click/core.py", line 1157, in __call__
+    return self.main(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvapqvk3mmem/lib/python3.11/site-packages/click/core.py", line 1078, in main
+    rv = self.invoke(ctx)
+         ^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvapqvk3mmem/lib/python3.11/site-packages/click/core.py", line 1434, in invoke
+    return ctx.invoke(self.callback, **ctx.params)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/scratch/yuqian_fu/micromamba/envs/auto-uvapqvk3mmem/lib/python3.11/site-packages/click/core.py", line 783, in invoke
+    return __callback(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code/main_test_digit_v13.py", line 28, in main
+    evaluate_digit(gpu, svroot, svpath, channels, factor_num, stride,epoch, eval_mapping)
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code/main_test_digit_v13.py", line 101, in evaluate_digit
+    teset = str2fun[data]('test', channels=channels)
+            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/home/yuqian_fu/Projects/CausalStyleAdv/Meta-causal/code/data_loader_joint_v3.py", line 722, in load_mnist_m
+    with open(path, 'rb') as f:
+         ^^^^^^^^^^^^^^^^
+FileNotFoundError: [Errno 2] No such file or directory: 'data/mnist_m-test.pkl'
+srun: error: gcpl4-eu-1: task 0: Exited with exit code 1
diff --git a/Meta-causal/code/56719.log b/Meta-causal/code/56719.log
new file mode 100644
index 0000000000000000000000000000000000000000..877231eeeaf1d132b8ddf33e5c8762b82226e64b
--- /dev/null
+++ b/Meta-causal/code/56719.log
@@ -0,0 +1,2066 @@
+/home/yuqian_fu
+{'gpu': '0', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 500, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_ReProduceMetaCausal', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 3
+--------------------------CA_multiple--------------------------
+---------------------------14 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+100
+0.0001
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 260.22, cls_loss 1.1168 cls_loss_mapping 1.7217 cls_loss_causal 2.1730 re_mapping 0.1107 re_causal 0.1210 /// teacc 88.60 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 265.91, cls_loss 0.3310 cls_loss_mapping 0.6635 cls_loss_causal 1.7775 re_mapping 0.1227 re_causal 0.1643 /// teacc 94.13 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 274.59, cls_loss 0.2190 cls_loss_mapping 0.3836 cls_loss_causal 1.5398 re_mapping 0.0889 re_causal 0.1349 /// teacc 95.73 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 274.87, cls_loss 0.1538 cls_loss_mapping 0.2464 cls_loss_causal 1.3205 re_mapping 0.0726 re_causal 0.1133 /// teacc 96.67 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 274.40, cls_loss 0.1333 cls_loss_mapping 0.2005 cls_loss_causal 1.2889 re_mapping 0.0565 re_causal 0.0967 /// teacc 96.76 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 5, time 273.58, cls_loss 0.1192 cls_loss_mapping 0.1777 cls_loss_causal 1.1780 re_mapping 0.0494 re_causal 0.0858 /// teacc 96.69 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 6----------------------------------------------------
+epoch 6, time 274.48, cls_loss 0.1015 cls_loss_mapping 0.1485 cls_loss_causal 1.1906 re_mapping 0.0407 re_causal 0.0792 /// teacc 97.65 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 7, time 273.51, cls_loss 0.0994 cls_loss_mapping 0.1401 cls_loss_causal 1.0640 re_mapping 0.0373 re_causal 0.0706 /// teacc 97.62 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 8----------------------------------------------------
+epoch 8, time 274.20, cls_loss 0.0851 cls_loss_mapping 0.1189 cls_loss_causal 1.0603 re_mapping 0.0328 re_causal 0.0659 /// teacc 97.97 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 9, time 273.45, cls_loss 0.0854 cls_loss_mapping 0.1226 cls_loss_causal 1.0207 re_mapping 0.0298 re_causal 0.0623 /// teacc 97.90 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 10----------------------------------------------------
+epoch 10, time 273.93, cls_loss 0.0650 cls_loss_mapping 0.0935 cls_loss_causal 0.9621 re_mapping 0.0281 re_causal 0.0602 /// teacc 98.02 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 11----------------------------------------------------
+epoch 11, time 274.43, cls_loss 0.0669 cls_loss_mapping 0.0951 cls_loss_causal 0.9560 re_mapping 0.0255 re_causal 0.0558 /// teacc 98.22 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 12----------------------------------------------------
+epoch 12, time 274.42, cls_loss 0.0667 cls_loss_mapping 0.0970 cls_loss_causal 0.9466 re_mapping 0.0245 re_causal 0.0554 /// teacc 98.28 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 13----------------------------------------------------
+epoch 13, time 273.96, cls_loss 0.0591 cls_loss_mapping 0.0844 cls_loss_causal 0.9433 re_mapping 0.0231 re_causal 0.0545 /// teacc 98.31 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 14----------------------------------------------------
+epoch 14, time 273.58, cls_loss 0.0548 cls_loss_mapping 0.0830 cls_loss_causal 0.8947 re_mapping 0.0220 re_causal 0.0519 /// teacc 98.41 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 15----------------------------------------------------
+epoch 15, time 269.38, cls_loss 0.0418 cls_loss_mapping 0.0628 cls_loss_causal 0.9005 re_mapping 0.0207 re_causal 0.0518 /// teacc 98.44 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 16----------------------------------------------------
+epoch 16, time 265.41, cls_loss 0.0544 cls_loss_mapping 0.0769 cls_loss_causal 0.8831 re_mapping 0.0197 re_causal 0.0493 /// teacc 98.48 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 17, time 261.91, cls_loss 0.0525 cls_loss_mapping 0.0776 cls_loss_causal 0.8870 re_mapping 0.0197 re_causal 0.0493 /// teacc 98.32 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 18----------------------------------------------------
+epoch 18, time 262.02, cls_loss 0.0382 cls_loss_mapping 0.0581 cls_loss_causal 0.8764 re_mapping 0.0184 re_causal 0.0472 /// teacc 98.51 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 19----------------------------------------------------
+epoch 19, time 262.11, cls_loss 0.0374 cls_loss_mapping 0.0573 cls_loss_causal 0.7987 re_mapping 0.0184 re_causal 0.0452 /// teacc 98.54 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 20, time 261.89, cls_loss 0.0342 cls_loss_mapping 0.0538 cls_loss_causal 0.7636 re_mapping 0.0178 re_causal 0.0453 /// teacc 98.52 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 21, time 261.79, cls_loss 0.0292 cls_loss_mapping 0.0457 cls_loss_causal 0.7961 re_mapping 0.0171 re_causal 0.0436 /// teacc 98.43 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 22, time 261.58, cls_loss 0.0277 cls_loss_mapping 0.0426 cls_loss_causal 0.8074 re_mapping 0.0162 re_causal 0.0421 /// teacc 98.49 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 23----------------------------------------------------
+epoch 23, time 262.62, cls_loss 0.0333 cls_loss_mapping 0.0530 cls_loss_causal 0.7916 re_mapping 0.0156 re_causal 0.0414 /// teacc 98.64 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 24, time 262.08, cls_loss 0.0296 cls_loss_mapping 0.0474 cls_loss_causal 0.7989 re_mapping 0.0151 re_causal 0.0402 /// teacc 98.45 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 25----------------------------------------------------
+epoch 25, time 263.12, cls_loss 0.0246 cls_loss_mapping 0.0418 cls_loss_causal 0.7816 re_mapping 0.0149 re_causal 0.0393 /// teacc 98.75 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 26----------------------------------------------------
+epoch 26, time 262.71, cls_loss 0.0229 cls_loss_mapping 0.0378 cls_loss_causal 0.7518 re_mapping 0.0141 re_causal 0.0374 /// teacc 98.77 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 27, time 261.78, cls_loss 0.0247 cls_loss_mapping 0.0419 cls_loss_causal 0.7570 re_mapping 0.0147 re_causal 0.0376 /// teacc 98.74 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 28, time 262.28, cls_loss 0.0212 cls_loss_mapping 0.0304 cls_loss_causal 0.7520 re_mapping 0.0141 re_causal 0.0367 /// teacc 98.77 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 29----------------------------------------------------
+epoch 29, time 262.94, cls_loss 0.0295 cls_loss_mapping 0.0448 cls_loss_causal 0.7504 re_mapping 0.0136 re_causal 0.0360 /// teacc 98.83 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 30, time 262.56, cls_loss 0.0240 cls_loss_mapping 0.0389 cls_loss_causal 0.7479 re_mapping 0.0136 re_causal 0.0364 /// teacc 98.76 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 31, time 262.55, cls_loss 0.0208 cls_loss_mapping 0.0348 cls_loss_causal 0.7169 re_mapping 0.0130 re_causal 0.0347 /// teacc 98.78 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 32, time 262.24, cls_loss 0.0193 cls_loss_mapping 0.0329 cls_loss_causal 0.6995 re_mapping 0.0122 re_causal 0.0327 /// teacc 98.66 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 33, time 262.86, cls_loss 0.0189 cls_loss_mapping 0.0334 cls_loss_causal 0.7307 re_mapping 0.0124 re_causal 0.0343 /// teacc 98.57 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 34----------------------------------------------------
+epoch 34, time 263.86, cls_loss 0.0187 cls_loss_mapping 0.0314 cls_loss_causal 0.7412 re_mapping 0.0121 re_causal 0.0325 /// teacc 98.88 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 35, time 262.90, cls_loss 0.0162 cls_loss_mapping 0.0290 cls_loss_causal 0.7096 re_mapping 0.0120 re_causal 0.0328 /// teacc 98.82 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 36, time 263.18, cls_loss 0.0130 cls_loss_mapping 0.0216 cls_loss_causal 0.6816 re_mapping 0.0117 re_causal 0.0312 /// teacc 98.71 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 37, time 263.13, cls_loss 0.0150 cls_loss_mapping 0.0245 cls_loss_causal 0.6711 re_mapping 0.0119 re_causal 0.0316 /// teacc 98.77 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 38, time 262.71, cls_loss 0.0171 cls_loss_mapping 0.0291 cls_loss_causal 0.6826 re_mapping 0.0114 re_causal 0.0303 /// teacc 98.84 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 39----------------------------------------------------
+epoch 39, time 263.42, cls_loss 0.0148 cls_loss_mapping 0.0251 cls_loss_causal 0.6789 re_mapping 0.0111 re_causal 0.0298 /// teacc 98.91 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 40----------------------------------------------------
+epoch 40, time 263.43, cls_loss 0.0165 cls_loss_mapping 0.0301 cls_loss_causal 0.6877 re_mapping 0.0113 re_causal 0.0297 /// teacc 98.95 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 41, time 262.57, cls_loss 0.0161 cls_loss_mapping 0.0290 cls_loss_causal 0.6867 re_mapping 0.0103 re_causal 0.0283 /// teacc 98.90 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 42, time 261.54, cls_loss 0.0124 cls_loss_mapping 0.0221 cls_loss_causal 0.6524 re_mapping 0.0104 re_causal 0.0276 /// teacc 98.78 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 43, time 261.64, cls_loss 0.0121 cls_loss_mapping 0.0236 cls_loss_causal 0.6499 re_mapping 0.0107 re_causal 0.0281 /// teacc 98.87 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 44, time 261.70, cls_loss 0.0126 cls_loss_mapping 0.0222 cls_loss_causal 0.6472 re_mapping 0.0107 re_causal 0.0277 /// teacc 98.82 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 45, time 262.23, cls_loss 0.0139 cls_loss_mapping 0.0248 cls_loss_causal 0.6458 re_mapping 0.0097 re_causal 0.0267 /// teacc 98.72 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 46, time 262.35, cls_loss 0.0128 cls_loss_mapping 0.0236 cls_loss_causal 0.6192 re_mapping 0.0103 re_causal 0.0264 /// teacc 98.77 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 47, time 262.98, cls_loss 0.0120 cls_loss_mapping 0.0198 cls_loss_causal 0.6455 re_mapping 0.0097 re_causal 0.0258 /// teacc 98.93 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 48, time 262.58, cls_loss 0.0116 cls_loss_mapping 0.0229 cls_loss_causal 0.6623 re_mapping 0.0099 re_causal 0.0264 /// teacc 98.84 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 49, time 262.10, cls_loss 0.0109 cls_loss_mapping 0.0222 cls_loss_causal 0.6632 re_mapping 0.0094 re_causal 0.0260 /// teacc 98.78 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 50, time 262.49, cls_loss 0.0107 cls_loss_mapping 0.0186 cls_loss_causal 0.6425 re_mapping 0.0094 re_causal 0.0260 /// teacc 98.74 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 51, time 261.98, cls_loss 0.0105 cls_loss_mapping 0.0196 cls_loss_causal 0.6062 re_mapping 0.0099 re_causal 0.0249 /// teacc 98.77 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 52----------------------------------------------------
+epoch 52, time 262.70, cls_loss 0.0123 cls_loss_mapping 0.0222 cls_loss_causal 0.6539 re_mapping 0.0090 re_causal 0.0243 /// teacc 98.99 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 53, time 262.04, cls_loss 0.0082 cls_loss_mapping 0.0165 cls_loss_causal 0.5830 re_mapping 0.0095 re_causal 0.0243 /// teacc 98.90 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 54, time 262.03, cls_loss 0.0134 cls_loss_mapping 0.0238 cls_loss_causal 0.6506 re_mapping 0.0092 re_causal 0.0241 /// teacc 98.78 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 55, time 262.23, cls_loss 0.0092 cls_loss_mapping 0.0175 cls_loss_causal 0.6151 re_mapping 0.0094 re_causal 0.0241 /// teacc 98.93 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 56, time 261.68, cls_loss 0.0083 cls_loss_mapping 0.0146 cls_loss_causal 0.6247 re_mapping 0.0093 re_causal 0.0250 /// teacc 98.78 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 57, time 262.04, cls_loss 0.0094 cls_loss_mapping 0.0173 cls_loss_causal 0.6450 re_mapping 0.0082 re_causal 0.0236 /// teacc 98.80 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 58, time 262.22, cls_loss 0.0082 cls_loss_mapping 0.0182 cls_loss_causal 0.5940 re_mapping 0.0090 re_causal 0.0236 /// teacc 98.76 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 59, time 261.98, cls_loss 0.0107 cls_loss_mapping 0.0187 cls_loss_causal 0.6018 re_mapping 0.0082 re_causal 0.0217 /// teacc 98.85 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 60, time 262.64, cls_loss 0.0096 cls_loss_mapping 0.0165 cls_loss_causal 0.6197 re_mapping 0.0079 re_causal 0.0227 /// teacc 98.84 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 61, time 262.62, cls_loss 0.0077 cls_loss_mapping 0.0133 cls_loss_causal 0.6104 re_mapping 0.0077 re_causal 0.0216 /// teacc 98.95 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 62, time 261.55, cls_loss 0.0094 cls_loss_mapping 0.0177 cls_loss_causal 0.6325 re_mapping 0.0077 re_causal 0.0211 /// teacc 98.84 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 63, time 261.66, cls_loss 0.0096 cls_loss_mapping 0.0173 cls_loss_causal 0.6390 re_mapping 0.0075 re_causal 0.0211 /// teacc 98.84 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 64, time 262.39, cls_loss 0.0089 cls_loss_mapping 0.0176 cls_loss_causal 0.6220 re_mapping 0.0080 re_causal 0.0211 /// teacc 98.96 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 65, time 262.81, cls_loss 0.0054 cls_loss_mapping 0.0089 cls_loss_causal 0.5919 re_mapping 0.0081 re_causal 0.0215 /// teacc 98.94 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 66, time 262.62, cls_loss 0.0072 cls_loss_mapping 0.0145 cls_loss_causal 0.5995 re_mapping 0.0079 re_causal 0.0213 /// teacc 98.80 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 67, time 262.54, cls_loss 0.0065 cls_loss_mapping 0.0115 cls_loss_causal 0.5839 re_mapping 0.0082 re_causal 0.0214 /// teacc 98.93 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 68, time 262.66, cls_loss 0.0082 cls_loss_mapping 0.0151 cls_loss_causal 0.6010 re_mapping 0.0072 re_causal 0.0203 /// teacc 98.68 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 69, time 262.04, cls_loss 0.0072 cls_loss_mapping 0.0131 cls_loss_causal 0.5964 re_mapping 0.0075 re_causal 0.0202 /// teacc 98.86 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 70, time 262.42, cls_loss 0.0068 cls_loss_mapping 0.0141 cls_loss_causal 0.6231 re_mapping 0.0076 re_causal 0.0214 /// teacc 98.96 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 71, time 261.65, cls_loss 0.0077 cls_loss_mapping 0.0151 cls_loss_causal 0.5752 re_mapping 0.0073 re_causal 0.0197 /// teacc 98.89 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 72, time 262.42, cls_loss 0.0077 cls_loss_mapping 0.0130 cls_loss_causal 0.5860 re_mapping 0.0073 re_causal 0.0197 /// teacc 98.95 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 73----------------------------------------------------
+epoch 73, time 263.56, cls_loss 0.0074 cls_loss_mapping 0.0145 cls_loss_causal 0.5783 re_mapping 0.0071 re_causal 0.0192 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 74, time 262.97, cls_loss 0.0064 cls_loss_mapping 0.0111 cls_loss_causal 0.5752 re_mapping 0.0073 re_causal 0.0198 /// teacc 98.91 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 75, time 262.29, cls_loss 0.0067 cls_loss_mapping 0.0128 cls_loss_causal 0.5738 re_mapping 0.0072 re_causal 0.0190 /// teacc 98.84 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 76, time 262.02, cls_loss 0.0060 cls_loss_mapping 0.0107 cls_loss_causal 0.5944 re_mapping 0.0071 re_causal 0.0198 /// teacc 98.93 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 77, time 262.25, cls_loss 0.0055 cls_loss_mapping 0.0086 cls_loss_causal 0.5748 re_mapping 0.0066 re_causal 0.0185 /// teacc 98.83 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 78, time 262.33, cls_loss 0.0048 cls_loss_mapping 0.0105 cls_loss_causal 0.5729 re_mapping 0.0071 re_causal 0.0200 /// teacc 98.86 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 79, time 262.67, cls_loss 0.0054 cls_loss_mapping 0.0086 cls_loss_causal 0.5782 re_mapping 0.0067 re_causal 0.0187 /// teacc 98.91 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 80, time 262.54, cls_loss 0.0048 cls_loss_mapping 0.0092 cls_loss_causal 0.5620 re_mapping 0.0067 re_causal 0.0185 /// teacc 99.01 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 81, time 262.50, cls_loss 0.0063 cls_loss_mapping 0.0131 cls_loss_causal 0.6240 re_mapping 0.0067 re_causal 0.0190 /// teacc 98.96 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 82, time 261.76, cls_loss 0.0077 cls_loss_mapping 0.0136 cls_loss_causal 0.5922 re_mapping 0.0067 re_causal 0.0178 /// teacc 98.97 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 83, time 262.17, cls_loss 0.0064 cls_loss_mapping 0.0120 cls_loss_causal 0.5514 re_mapping 0.0073 re_causal 0.0188 /// teacc 98.82 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 84, time 262.19, cls_loss 0.0056 cls_loss_mapping 0.0093 cls_loss_causal 0.5766 re_mapping 0.0065 re_causal 0.0180 /// teacc 98.85 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 85, time 262.14, cls_loss 0.0050 cls_loss_mapping 0.0080 cls_loss_causal 0.5528 re_mapping 0.0063 re_causal 0.0174 /// teacc 98.96 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 86, time 261.86, cls_loss 0.0051 cls_loss_mapping 0.0088 cls_loss_causal 0.5929 re_mapping 0.0063 re_causal 0.0178 /// teacc 98.92 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 87, time 261.74, cls_loss 0.0050 cls_loss_mapping 0.0087 cls_loss_causal 0.5941 re_mapping 0.0063 re_causal 0.0177 /// teacc 98.80 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 88, time 260.51, cls_loss 0.0048 cls_loss_mapping 0.0085 cls_loss_causal 0.5624 re_mapping 0.0064 re_causal 0.0177 /// teacc 98.88 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 89, time 250.06, cls_loss 0.0047 cls_loss_mapping 0.0084 cls_loss_causal 0.5650 re_mapping 0.0065 re_causal 0.0173 /// teacc 98.92 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 90, time 250.78, cls_loss 0.0049 cls_loss_mapping 0.0091 cls_loss_causal 0.5613 re_mapping 0.0060 re_causal 0.0167 /// teacc 98.88 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 91----------------------------------------------------
+epoch 91, time 251.20, cls_loss 0.0041 cls_loss_mapping 0.0070 cls_loss_causal 0.5382 re_mapping 0.0064 re_causal 0.0165 /// teacc 99.08 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 92, time 251.25, cls_loss 0.0051 cls_loss_mapping 0.0108 cls_loss_causal 0.6002 re_mapping 0.0059 re_causal 0.0168 /// teacc 98.89 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 93, time 250.57, cls_loss 0.0049 cls_loss_mapping 0.0096 cls_loss_causal 0.5548 re_mapping 0.0063 re_causal 0.0168 /// teacc 99.00 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 94, time 250.77, cls_loss 0.0047 cls_loss_mapping 0.0096 cls_loss_causal 0.5460 re_mapping 0.0063 re_causal 0.0163 /// teacc 98.93 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 95, time 250.37, cls_loss 0.0045 cls_loss_mapping 0.0074 cls_loss_causal 0.5265 re_mapping 0.0064 re_causal 0.0160 /// teacc 98.90 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 96, time 249.18, cls_loss 0.0037 cls_loss_mapping 0.0063 cls_loss_causal 0.5633 re_mapping 0.0062 re_causal 0.0172 /// teacc 98.82 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 97, time 249.34, cls_loss 0.0051 cls_loss_mapping 0.0080 cls_loss_causal 0.5467 re_mapping 0.0057 re_causal 0.0156 /// teacc 98.97 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 98, time 249.24, cls_loss 0.0043 cls_loss_mapping 0.0077 cls_loss_causal 0.5665 re_mapping 0.0061 re_causal 0.0163 /// teacc 99.08 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 99, time 247.66, cls_loss 0.0042 cls_loss_mapping 0.0055 cls_loss_causal 0.5559 re_mapping 0.0059 re_causal 0.0160 /// teacc 98.99 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 100, time 247.43, cls_loss 0.0039 cls_loss_mapping 0.0072 cls_loss_causal 0.5491 re_mapping 0.0059 re_causal 0.0159 /// teacc 98.90 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 101, time 247.17, cls_loss 0.0036 cls_loss_mapping 0.0062 cls_loss_causal 0.5947 re_mapping 0.0058 re_causal 0.0166 /// teacc 99.05 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 102, time 247.21, cls_loss 0.0041 cls_loss_mapping 0.0065 cls_loss_causal 0.5484 re_mapping 0.0057 re_causal 0.0155 /// teacc 98.97 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 103, time 247.20, cls_loss 0.0047 cls_loss_mapping 0.0077 cls_loss_causal 0.5315 re_mapping 0.0056 re_causal 0.0149 /// teacc 99.05 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 104, time 247.26, cls_loss 0.0047 cls_loss_mapping 0.0076 cls_loss_causal 0.5507 re_mapping 0.0055 re_causal 0.0148 /// teacc 99.07 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 105, time 247.09, cls_loss 0.0040 cls_loss_mapping 0.0063 cls_loss_causal 0.5417 re_mapping 0.0052 re_causal 0.0150 /// teacc 98.90 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 106, time 247.22, cls_loss 0.0046 cls_loss_mapping 0.0085 cls_loss_causal 0.5688 re_mapping 0.0053 re_causal 0.0154 /// teacc 98.98 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 107, time 247.40, cls_loss 0.0039 cls_loss_mapping 0.0085 cls_loss_causal 0.5396 re_mapping 0.0057 re_causal 0.0155 /// teacc 98.92 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 108, time 247.52, cls_loss 0.0047 cls_loss_mapping 0.0094 cls_loss_causal 0.5722 re_mapping 0.0056 re_causal 0.0150 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 109, time 247.28, cls_loss 0.0036 cls_loss_mapping 0.0055 cls_loss_causal 0.5219 re_mapping 0.0055 re_causal 0.0145 /// teacc 98.97 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 110, time 247.31, cls_loss 0.0033 cls_loss_mapping 0.0053 cls_loss_causal 0.5339 re_mapping 0.0056 re_causal 0.0153 /// teacc 98.91 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 111----------------------------------------------------
+epoch 111, time 248.20, cls_loss 0.0044 cls_loss_mapping 0.0070 cls_loss_causal 0.5686 re_mapping 0.0051 re_causal 0.0146 /// teacc 99.10 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 112, time 247.44, cls_loss 0.0037 cls_loss_mapping 0.0064 cls_loss_causal 0.5641 re_mapping 0.0053 re_causal 0.0150 /// teacc 99.09 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 113, time 247.39, cls_loss 0.0037 cls_loss_mapping 0.0063 cls_loss_causal 0.5414 re_mapping 0.0054 re_causal 0.0149 /// teacc 99.07 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 114, time 247.52, cls_loss 0.0039 cls_loss_mapping 0.0082 cls_loss_causal 0.5541 re_mapping 0.0051 re_causal 0.0144 /// teacc 98.98 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 115, time 247.69, cls_loss 0.0040 cls_loss_mapping 0.0066 cls_loss_causal 0.5456 re_mapping 0.0054 re_causal 0.0145 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 116, time 247.22, cls_loss 0.0031 cls_loss_mapping 0.0053 cls_loss_causal 0.5168 re_mapping 0.0053 re_causal 0.0145 /// teacc 98.99 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 117----------------------------------------------------
+epoch 117, time 248.08, cls_loss 0.0053 cls_loss_mapping 0.0090 cls_loss_causal 0.5568 re_mapping 0.0053 re_causal 0.0148 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 118, time 247.60, cls_loss 0.0033 cls_loss_mapping 0.0064 cls_loss_causal 0.5252 re_mapping 0.0052 re_causal 0.0147 /// teacc 98.92 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 119, time 247.65, cls_loss 0.0033 cls_loss_mapping 0.0068 cls_loss_causal 0.5163 re_mapping 0.0053 re_causal 0.0149 /// teacc 98.97 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 120----------------------------------------------------
+epoch 120, time 249.12, cls_loss 0.0041 cls_loss_mapping 0.0073 cls_loss_causal 0.5428 re_mapping 0.0048 re_causal 0.0140 /// teacc 99.16 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 121, time 247.46, cls_loss 0.0038 cls_loss_mapping 0.0055 cls_loss_causal 0.5502 re_mapping 0.0047 re_causal 0.0134 /// teacc 99.10 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 122, time 247.34, cls_loss 0.0040 cls_loss_mapping 0.0070 cls_loss_causal 0.5413 re_mapping 0.0049 re_causal 0.0141 /// teacc 99.03 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 123, time 247.75, cls_loss 0.0029 cls_loss_mapping 0.0051 cls_loss_causal 0.5293 re_mapping 0.0052 re_causal 0.0145 /// teacc 98.99 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 124, time 247.49, cls_loss 0.0039 cls_loss_mapping 0.0059 cls_loss_causal 0.5299 re_mapping 0.0048 re_causal 0.0137 /// teacc 98.99 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 125, time 247.82, cls_loss 0.0035 cls_loss_mapping 0.0055 cls_loss_causal 0.5164 re_mapping 0.0052 re_causal 0.0143 /// teacc 99.09 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 126, time 247.56, cls_loss 0.0033 cls_loss_mapping 0.0056 cls_loss_causal 0.5298 re_mapping 0.0050 re_causal 0.0141 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 127, time 247.90, cls_loss 0.0032 cls_loss_mapping 0.0058 cls_loss_causal 0.5069 re_mapping 0.0051 re_causal 0.0140 /// teacc 99.02 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 128, time 247.44, cls_loss 0.0035 cls_loss_mapping 0.0061 cls_loss_causal 0.5469 re_mapping 0.0046 re_causal 0.0133 /// teacc 98.98 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 129, time 247.22, cls_loss 0.0035 cls_loss_mapping 0.0046 cls_loss_causal 0.5124 re_mapping 0.0049 re_causal 0.0131 /// teacc 98.99 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 130, time 247.53, cls_loss 0.0041 cls_loss_mapping 0.0070 cls_loss_causal 0.5574 re_mapping 0.0048 re_causal 0.0133 /// teacc 99.10 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 131, time 247.26, cls_loss 0.0034 cls_loss_mapping 0.0052 cls_loss_causal 0.5246 re_mapping 0.0049 re_causal 0.0135 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 132, time 247.37, cls_loss 0.0034 cls_loss_mapping 0.0064 cls_loss_causal 0.5529 re_mapping 0.0047 re_causal 0.0142 /// teacc 99.07 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 133, time 247.41, cls_loss 0.0035 cls_loss_mapping 0.0043 cls_loss_causal 0.5204 re_mapping 0.0046 re_causal 0.0126 /// teacc 98.99 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 134, time 247.49, cls_loss 0.0033 cls_loss_mapping 0.0055 cls_loss_causal 0.5262 re_mapping 0.0045 re_causal 0.0127 /// teacc 99.00 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 135, time 247.43, cls_loss 0.0031 cls_loss_mapping 0.0054 cls_loss_causal 0.5655 re_mapping 0.0046 re_causal 0.0132 /// teacc 99.07 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 136, time 247.17, cls_loss 0.0030 cls_loss_mapping 0.0045 cls_loss_causal 0.5369 re_mapping 0.0046 re_causal 0.0129 /// teacc 99.13 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 137----------------------------------------------------
+epoch 137, time 247.90, cls_loss 0.0025 cls_loss_mapping 0.0044 cls_loss_causal 0.4877 re_mapping 0.0049 re_causal 0.0136 /// teacc 99.17 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 138, time 247.42, cls_loss 0.0034 cls_loss_mapping 0.0051 cls_loss_causal 0.5592 re_mapping 0.0045 re_causal 0.0132 /// teacc 99.00 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 139, time 247.30, cls_loss 0.0035 cls_loss_mapping 0.0068 cls_loss_causal 0.4932 re_mapping 0.0048 re_causal 0.0133 /// teacc 99.07 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 140, time 247.43, cls_loss 0.0030 cls_loss_mapping 0.0041 cls_loss_causal 0.5293 re_mapping 0.0046 re_causal 0.0132 /// teacc 99.05 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 141, time 247.95, cls_loss 0.0024 cls_loss_mapping 0.0036 cls_loss_causal 0.5366 re_mapping 0.0045 re_causal 0.0134 /// teacc 99.10 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 142, time 247.33, cls_loss 0.0033 cls_loss_mapping 0.0058 cls_loss_causal 0.5003 re_mapping 0.0042 re_causal 0.0122 /// teacc 99.17 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 143, time 247.18, cls_loss 0.0030 cls_loss_mapping 0.0053 cls_loss_causal 0.5321 re_mapping 0.0044 re_causal 0.0128 /// teacc 99.17 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 144, time 247.52, cls_loss 0.0032 cls_loss_mapping 0.0051 cls_loss_causal 0.4899 re_mapping 0.0044 re_causal 0.0121 /// teacc 99.01 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 145, time 247.52, cls_loss 0.0025 cls_loss_mapping 0.0044 cls_loss_causal 0.5202 re_mapping 0.0047 re_causal 0.0134 /// teacc 98.98 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 146, time 248.01, cls_loss 0.0027 cls_loss_mapping 0.0047 cls_loss_causal 0.4945 re_mapping 0.0044 re_causal 0.0126 /// teacc 99.02 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 147, time 247.07, cls_loss 0.0025 cls_loss_mapping 0.0037 cls_loss_causal 0.5273 re_mapping 0.0047 re_causal 0.0129 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 148, time 247.44, cls_loss 0.0029 cls_loss_mapping 0.0042 cls_loss_causal 0.5309 re_mapping 0.0046 re_causal 0.0126 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 149, time 246.82, cls_loss 0.0030 cls_loss_mapping 0.0043 cls_loss_causal 0.5280 re_mapping 0.0042 re_causal 0.0121 /// teacc 99.10 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 150, time 247.07, cls_loss 0.0025 cls_loss_mapping 0.0038 cls_loss_causal 0.5050 re_mapping 0.0042 re_causal 0.0121 /// teacc 99.11 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 151, time 247.12, cls_loss 0.0030 cls_loss_mapping 0.0058 cls_loss_causal 0.5175 re_mapping 0.0042 re_causal 0.0118 /// teacc 99.17 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 152, time 247.31, cls_loss 0.0028 cls_loss_mapping 0.0039 cls_loss_causal 0.5003 re_mapping 0.0041 re_causal 0.0114 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 153, time 247.30, cls_loss 0.0027 cls_loss_mapping 0.0047 cls_loss_causal 0.5100 re_mapping 0.0043 re_causal 0.0120 /// teacc 98.99 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 154, time 247.18, cls_loss 0.0028 cls_loss_mapping 0.0035 cls_loss_causal 0.5038 re_mapping 0.0042 re_causal 0.0119 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 155, time 247.28, cls_loss 0.0030 cls_loss_mapping 0.0046 cls_loss_causal 0.5092 re_mapping 0.0045 re_causal 0.0121 /// teacc 99.08 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 156, time 247.53, cls_loss 0.0050 cls_loss_mapping 0.0085 cls_loss_causal 0.5153 re_mapping 0.0044 re_causal 0.0121 /// teacc 98.89 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 157, time 247.52, cls_loss 0.0027 cls_loss_mapping 0.0043 cls_loss_causal 0.5363 re_mapping 0.0044 re_causal 0.0125 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 158, time 247.53, cls_loss 0.0020 cls_loss_mapping 0.0042 cls_loss_causal 0.4788 re_mapping 0.0043 re_causal 0.0124 /// teacc 99.01 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 159, time 247.44, cls_loss 0.0027 cls_loss_mapping 0.0053 cls_loss_causal 0.5289 re_mapping 0.0040 re_causal 0.0117 /// teacc 98.99 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 160, time 247.25, cls_loss 0.0031 cls_loss_mapping 0.0043 cls_loss_causal 0.4845 re_mapping 0.0040 re_causal 0.0103 /// teacc 99.03 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 161, time 247.20, cls_loss 0.0023 cls_loss_mapping 0.0031 cls_loss_causal 0.5342 re_mapping 0.0042 re_causal 0.0119 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 162, time 247.36, cls_loss 0.0022 cls_loss_mapping 0.0035 cls_loss_causal 0.5377 re_mapping 0.0041 re_causal 0.0118 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 163, time 247.20, cls_loss 0.0019 cls_loss_mapping 0.0034 cls_loss_causal 0.5306 re_mapping 0.0040 re_causal 0.0121 /// teacc 99.10 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 164, time 247.35, cls_loss 0.0021 cls_loss_mapping 0.0041 cls_loss_causal 0.5117 re_mapping 0.0042 re_causal 0.0119 /// teacc 98.96 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 165, time 247.03, cls_loss 0.0026 cls_loss_mapping 0.0040 cls_loss_causal 0.5038 re_mapping 0.0040 re_causal 0.0114 /// teacc 98.93 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 166, time 247.07, cls_loss 0.0025 cls_loss_mapping 0.0041 cls_loss_causal 0.5101 re_mapping 0.0042 re_causal 0.0118 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 167, time 247.31, cls_loss 0.0023 cls_loss_mapping 0.0034 cls_loss_causal 0.5069 re_mapping 0.0042 re_causal 0.0115 /// teacc 98.95 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 168, time 247.20, cls_loss 0.0025 cls_loss_mapping 0.0036 cls_loss_causal 0.5038 re_mapping 0.0041 re_causal 0.0114 /// teacc 98.97 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 169, time 247.25, cls_loss 0.0029 cls_loss_mapping 0.0037 cls_loss_causal 0.5111 re_mapping 0.0041 re_causal 0.0109 /// teacc 99.10 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 170, time 247.40, cls_loss 0.0030 cls_loss_mapping 0.0044 cls_loss_causal 0.5222 re_mapping 0.0040 re_causal 0.0112 /// teacc 99.00 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 171, time 247.19, cls_loss 0.0022 cls_loss_mapping 0.0039 cls_loss_causal 0.5095 re_mapping 0.0039 re_causal 0.0115 /// teacc 99.09 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 172, time 247.11, cls_loss 0.0023 cls_loss_mapping 0.0030 cls_loss_causal 0.5020 re_mapping 0.0040 re_causal 0.0114 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 173, time 246.80, cls_loss 0.0024 cls_loss_mapping 0.0035 cls_loss_causal 0.5326 re_mapping 0.0038 re_causal 0.0111 /// teacc 98.99 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 174, time 247.13, cls_loss 0.0024 cls_loss_mapping 0.0026 cls_loss_causal 0.5236 re_mapping 0.0039 re_causal 0.0113 /// teacc 99.07 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 175, time 247.24, cls_loss 0.0022 cls_loss_mapping 0.0039 cls_loss_causal 0.4945 re_mapping 0.0037 re_causal 0.0106 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 176, time 247.09, cls_loss 0.0024 cls_loss_mapping 0.0042 cls_loss_causal 0.5163 re_mapping 0.0039 re_causal 0.0114 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 177, time 246.73, cls_loss 0.0025 cls_loss_mapping 0.0033 cls_loss_causal 0.5106 re_mapping 0.0037 re_causal 0.0110 /// teacc 99.02 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 178, time 247.11, cls_loss 0.0022 cls_loss_mapping 0.0025 cls_loss_causal 0.4798 re_mapping 0.0040 re_causal 0.0111 /// teacc 99.02 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 179, time 246.93, cls_loss 0.0022 cls_loss_mapping 0.0039 cls_loss_causal 0.5108 re_mapping 0.0040 re_causal 0.0114 /// teacc 99.05 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 180, time 247.21, cls_loss 0.0030 cls_loss_mapping 0.0037 cls_loss_causal 0.5233 re_mapping 0.0038 re_causal 0.0109 /// teacc 99.11 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 181, time 247.09, cls_loss 0.0021 cls_loss_mapping 0.0035 cls_loss_causal 0.5065 re_mapping 0.0039 re_causal 0.0113 /// teacc 99.03 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 182, time 246.91, cls_loss 0.0024 cls_loss_mapping 0.0037 cls_loss_causal 0.5588 re_mapping 0.0037 re_causal 0.0114 /// teacc 99.05 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 183, time 247.64, cls_loss 0.0026 cls_loss_mapping 0.0037 cls_loss_causal 0.5331 re_mapping 0.0037 re_causal 0.0107 /// teacc 99.13 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 184, time 247.11, cls_loss 0.0022 cls_loss_mapping 0.0037 cls_loss_causal 0.5064 re_mapping 0.0039 re_causal 0.0110 /// teacc 98.91 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 185, time 247.25, cls_loss 0.0025 cls_loss_mapping 0.0035 cls_loss_causal 0.4997 re_mapping 0.0038 re_causal 0.0109 /// teacc 99.10 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 186, time 247.56, cls_loss 0.0023 cls_loss_mapping 0.0033 cls_loss_causal 0.5319 re_mapping 0.0038 re_causal 0.0112 /// teacc 99.13 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 187, time 246.96, cls_loss 0.0027 cls_loss_mapping 0.0039 cls_loss_causal 0.5077 re_mapping 0.0035 re_causal 0.0098 /// teacc 99.09 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 188, time 247.08, cls_loss 0.0018 cls_loss_mapping 0.0029 cls_loss_causal 0.4799 re_mapping 0.0039 re_causal 0.0109 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 189, time 247.25, cls_loss 0.0017 cls_loss_mapping 0.0028 cls_loss_causal 0.4788 re_mapping 0.0040 re_causal 0.0112 /// teacc 99.01 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 190, time 246.87, cls_loss 0.0025 cls_loss_mapping 0.0032 cls_loss_causal 0.4994 re_mapping 0.0035 re_causal 0.0103 /// teacc 99.05 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 191, time 247.17, cls_loss 0.0023 cls_loss_mapping 0.0034 cls_loss_causal 0.4759 re_mapping 0.0039 re_causal 0.0106 /// teacc 99.00 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 192, time 246.82, cls_loss 0.0022 cls_loss_mapping 0.0030 cls_loss_causal 0.5043 re_mapping 0.0039 re_causal 0.0108 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 193, time 247.13, cls_loss 0.0025 cls_loss_mapping 0.0043 cls_loss_causal 0.5180 re_mapping 0.0035 re_causal 0.0103 /// teacc 98.95 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 194, time 246.74, cls_loss 0.0021 cls_loss_mapping 0.0038 cls_loss_causal 0.5164 re_mapping 0.0037 re_causal 0.0113 /// teacc 99.02 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 195, time 246.90, cls_loss 0.0028 cls_loss_mapping 0.0044 cls_loss_causal 0.5003 re_mapping 0.0037 re_causal 0.0105 /// teacc 98.97 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 196, time 246.96, cls_loss 0.0024 cls_loss_mapping 0.0043 cls_loss_causal 0.5004 re_mapping 0.0037 re_causal 0.0107 /// teacc 99.09 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 197, time 247.11, cls_loss 0.0020 cls_loss_mapping 0.0031 cls_loss_causal 0.4946 re_mapping 0.0038 re_causal 0.0107 /// teacc 99.07 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 198, time 247.15, cls_loss 0.0018 cls_loss_mapping 0.0033 cls_loss_causal 0.5043 re_mapping 0.0036 re_causal 0.0107 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 199, time 246.86, cls_loss 0.0023 cls_loss_mapping 0.0034 cls_loss_causal 0.4853 re_mapping 0.0036 re_causal 0.0102 /// teacc 99.05 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 200, time 247.43, cls_loss 0.0021 cls_loss_mapping 0.0037 cls_loss_causal 0.4856 re_mapping 0.0034 re_causal 0.0103 /// teacc 98.98 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 201, time 247.24, cls_loss 0.0019 cls_loss_mapping 0.0023 cls_loss_causal 0.5071 re_mapping 0.0035 re_causal 0.0105 /// teacc 99.09 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 202, time 247.65, cls_loss 0.0021 cls_loss_mapping 0.0034 cls_loss_causal 0.5178 re_mapping 0.0035 re_causal 0.0104 /// teacc 99.11 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 203, time 247.52, cls_loss 0.0020 cls_loss_mapping 0.0023 cls_loss_causal 0.4825 re_mapping 0.0033 re_causal 0.0094 /// teacc 99.09 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 204, time 247.32, cls_loss 0.0018 cls_loss_mapping 0.0021 cls_loss_causal 0.4940 re_mapping 0.0036 re_causal 0.0101 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 205, time 247.61, cls_loss 0.0022 cls_loss_mapping 0.0036 cls_loss_causal 0.5107 re_mapping 0.0039 re_causal 0.0105 /// teacc 99.14 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 206, time 247.53, cls_loss 0.0020 cls_loss_mapping 0.0030 cls_loss_causal 0.4936 re_mapping 0.0036 re_causal 0.0099 /// teacc 99.13 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 207, time 247.27, cls_loss 0.0024 cls_loss_mapping 0.0033 cls_loss_causal 0.4938 re_mapping 0.0033 re_causal 0.0095 /// teacc 98.94 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 208, time 247.31, cls_loss 0.0020 cls_loss_mapping 0.0024 cls_loss_causal 0.4524 re_mapping 0.0035 re_causal 0.0101 /// teacc 99.03 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 209, time 247.73, cls_loss 0.0017 cls_loss_mapping 0.0022 cls_loss_causal 0.4973 re_mapping 0.0035 re_causal 0.0105 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 210, time 247.40, cls_loss 0.0020 cls_loss_mapping 0.0023 cls_loss_causal 0.4702 re_mapping 0.0036 re_causal 0.0100 /// teacc 99.10 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 211, time 246.89, cls_loss 0.0018 cls_loss_mapping 0.0024 cls_loss_causal 0.5196 re_mapping 0.0034 re_causal 0.0102 /// teacc 99.03 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 212, time 247.35, cls_loss 0.0021 cls_loss_mapping 0.0034 cls_loss_causal 0.4901 re_mapping 0.0034 re_causal 0.0096 /// teacc 99.13 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 213, time 247.22, cls_loss 0.0019 cls_loss_mapping 0.0034 cls_loss_causal 0.5019 re_mapping 0.0033 re_causal 0.0098 /// teacc 99.10 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 214, time 247.39, cls_loss 0.0014 cls_loss_mapping 0.0017 cls_loss_causal 0.4779 re_mapping 0.0034 re_causal 0.0100 /// teacc 99.05 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 215, time 247.27, cls_loss 0.0024 cls_loss_mapping 0.0040 cls_loss_causal 0.4916 re_mapping 0.0033 re_causal 0.0095 /// teacc 98.99 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 216, time 247.37, cls_loss 0.0016 cls_loss_mapping 0.0017 cls_loss_causal 0.4976 re_mapping 0.0033 re_causal 0.0097 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 217, time 247.45, cls_loss 0.0023 cls_loss_mapping 0.0035 cls_loss_causal 0.4677 re_mapping 0.0034 re_causal 0.0095 /// teacc 99.11 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 218, time 247.74, cls_loss 0.0020 cls_loss_mapping 0.0023 cls_loss_causal 0.4740 re_mapping 0.0033 re_causal 0.0098 /// teacc 99.00 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 219, time 247.00, cls_loss 0.0020 cls_loss_mapping 0.0024 cls_loss_causal 0.4902 re_mapping 0.0032 re_causal 0.0095 /// teacc 99.05 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 220, time 247.26, cls_loss 0.0015 cls_loss_mapping 0.0015 cls_loss_causal 0.4984 re_mapping 0.0033 re_causal 0.0100 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 221, time 247.21, cls_loss 0.0018 cls_loss_mapping 0.0018 cls_loss_causal 0.4791 re_mapping 0.0030 re_causal 0.0091 /// teacc 99.16 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 222, time 247.27, cls_loss 0.0019 cls_loss_mapping 0.0025 cls_loss_causal 0.4897 re_mapping 0.0031 re_causal 0.0093 /// teacc 99.13 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 223, time 247.18, cls_loss 0.0022 cls_loss_mapping 0.0027 cls_loss_causal 0.5187 re_mapping 0.0031 re_causal 0.0093 /// teacc 99.03 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 224, time 247.18, cls_loss 0.0020 cls_loss_mapping 0.0025 cls_loss_causal 0.4952 re_mapping 0.0032 re_causal 0.0093 /// teacc 99.08 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 225, time 247.25, cls_loss 0.0021 cls_loss_mapping 0.0027 cls_loss_causal 0.4951 re_mapping 0.0033 re_causal 0.0095 /// teacc 99.03 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 226, time 247.42, cls_loss 0.0015 cls_loss_mapping 0.0017 cls_loss_causal 0.5013 re_mapping 0.0031 re_causal 0.0092 /// teacc 99.07 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 227, time 248.14, cls_loss 0.0016 cls_loss_mapping 0.0030 cls_loss_causal 0.5144 re_mapping 0.0032 re_causal 0.0098 /// teacc 99.13 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 228, time 247.56, cls_loss 0.0020 cls_loss_mapping 0.0027 cls_loss_causal 0.5000 re_mapping 0.0032 re_causal 0.0094 /// teacc 99.11 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 229----------------------------------------------------
+epoch 229, time 247.85, cls_loss 0.0016 cls_loss_mapping 0.0028 cls_loss_causal 0.5045 re_mapping 0.0033 re_causal 0.0098 /// teacc 99.21 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 230, time 247.45, cls_loss 0.0020 cls_loss_mapping 0.0033 cls_loss_causal 0.5028 re_mapping 0.0032 re_causal 0.0097 /// teacc 99.01 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 231, time 247.60, cls_loss 0.0024 cls_loss_mapping 0.0033 cls_loss_causal 0.5090 re_mapping 0.0031 re_causal 0.0092 /// teacc 99.02 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 232, time 247.14, cls_loss 0.0024 cls_loss_mapping 0.0037 cls_loss_causal 0.4987 re_mapping 0.0032 re_causal 0.0093 /// teacc 99.18 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 233, time 247.34, cls_loss 0.0015 cls_loss_mapping 0.0025 cls_loss_causal 0.5306 re_mapping 0.0032 re_causal 0.0099 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 234, time 247.70, cls_loss 0.0018 cls_loss_mapping 0.0023 cls_loss_causal 0.4880 re_mapping 0.0031 re_causal 0.0092 /// teacc 99.08 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 235, time 247.42, cls_loss 0.0017 cls_loss_mapping 0.0020 cls_loss_causal 0.4734 re_mapping 0.0030 re_causal 0.0088 /// teacc 99.10 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 236, time 248.01, cls_loss 0.0018 cls_loss_mapping 0.0024 cls_loss_causal 0.4746 re_mapping 0.0032 re_causal 0.0093 /// teacc 99.05 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 237, time 247.40, cls_loss 0.0016 cls_loss_mapping 0.0021 cls_loss_causal 0.4826 re_mapping 0.0029 re_causal 0.0088 /// teacc 99.07 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 238, time 247.38, cls_loss 0.0017 cls_loss_mapping 0.0016 cls_loss_causal 0.5047 re_mapping 0.0030 re_causal 0.0090 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 239, time 248.73, cls_loss 0.0017 cls_loss_mapping 0.0022 cls_loss_causal 0.5064 re_mapping 0.0030 re_causal 0.0092 /// teacc 99.14 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 240, time 248.15, cls_loss 0.0018 cls_loss_mapping 0.0034 cls_loss_causal 0.5029 re_mapping 0.0031 re_causal 0.0095 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 241, time 247.23, cls_loss 0.0017 cls_loss_mapping 0.0023 cls_loss_causal 0.4986 re_mapping 0.0032 re_causal 0.0096 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 242, time 247.18, cls_loss 0.0017 cls_loss_mapping 0.0026 cls_loss_causal 0.4912 re_mapping 0.0032 re_causal 0.0095 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 243, time 247.37, cls_loss 0.0017 cls_loss_mapping 0.0024 cls_loss_causal 0.4714 re_mapping 0.0031 re_causal 0.0092 /// teacc 99.10 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 244, time 247.36, cls_loss 0.0018 cls_loss_mapping 0.0030 cls_loss_causal 0.4707 re_mapping 0.0031 re_causal 0.0091 /// teacc 99.10 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 245, time 247.07, cls_loss 0.0016 cls_loss_mapping 0.0027 cls_loss_causal 0.4907 re_mapping 0.0032 re_causal 0.0098 /// teacc 99.03 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 246, time 247.63, cls_loss 0.0017 cls_loss_mapping 0.0039 cls_loss_causal 0.5042 re_mapping 0.0032 re_causal 0.0098 /// teacc 99.16 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 247, time 247.28, cls_loss 0.0026 cls_loss_mapping 0.0037 cls_loss_causal 0.4860 re_mapping 0.0031 re_causal 0.0089 /// teacc 99.11 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 248, time 247.15, cls_loss 0.0021 cls_loss_mapping 0.0031 cls_loss_causal 0.4790 re_mapping 0.0033 re_causal 0.0095 /// teacc 99.10 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 249, time 247.23, cls_loss 0.0018 cls_loss_mapping 0.0023 cls_loss_causal 0.4878 re_mapping 0.0031 re_causal 0.0088 /// teacc 99.16 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 250, time 247.02, cls_loss 0.0015 cls_loss_mapping 0.0016 cls_loss_causal 0.4962 re_mapping 0.0029 re_causal 0.0089 /// teacc 99.14 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 251, time 247.51, cls_loss 0.0018 cls_loss_mapping 0.0028 cls_loss_causal 0.4979 re_mapping 0.0030 re_causal 0.0088 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 252, time 247.35, cls_loss 0.0020 cls_loss_mapping 0.0024 cls_loss_causal 0.4525 re_mapping 0.0031 re_causal 0.0088 /// teacc 99.08 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 253, time 247.04, cls_loss 0.0017 cls_loss_mapping 0.0022 cls_loss_causal 0.4552 re_mapping 0.0030 re_causal 0.0087 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 254, time 247.26, cls_loss 0.0022 cls_loss_mapping 0.0036 cls_loss_causal 0.4710 re_mapping 0.0030 re_causal 0.0089 /// teacc 99.02 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 255, time 247.16, cls_loss 0.0011 cls_loss_mapping 0.0015 cls_loss_causal 0.4512 re_mapping 0.0031 re_causal 0.0091 /// teacc 99.02 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 256, time 247.38, cls_loss 0.0018 cls_loss_mapping 0.0023 cls_loss_causal 0.4975 re_mapping 0.0028 re_causal 0.0086 /// teacc 98.97 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 257, time 247.20, cls_loss 0.0016 cls_loss_mapping 0.0018 cls_loss_causal 0.4632 re_mapping 0.0032 re_causal 0.0094 /// teacc 99.02 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 258, time 247.12, cls_loss 0.0015 cls_loss_mapping 0.0023 cls_loss_causal 0.4664 re_mapping 0.0032 re_causal 0.0091 /// teacc 98.95 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 259, time 247.32, cls_loss 0.0018 cls_loss_mapping 0.0025 cls_loss_causal 0.4997 re_mapping 0.0029 re_causal 0.0087 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 260, time 247.19, cls_loss 0.0014 cls_loss_mapping 0.0020 cls_loss_causal 0.4738 re_mapping 0.0029 re_causal 0.0088 /// teacc 99.07 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 261, time 246.87, cls_loss 0.0014 cls_loss_mapping 0.0020 cls_loss_causal 0.4996 re_mapping 0.0032 re_causal 0.0095 /// teacc 99.00 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 262, time 246.91, cls_loss 0.0015 cls_loss_mapping 0.0022 cls_loss_causal 0.5120 re_mapping 0.0029 re_causal 0.0092 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 263, time 247.18, cls_loss 0.0016 cls_loss_mapping 0.0025 cls_loss_causal 0.4762 re_mapping 0.0031 re_causal 0.0087 /// teacc 99.10 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 264, time 246.94, cls_loss 0.0015 cls_loss_mapping 0.0019 cls_loss_causal 0.4728 re_mapping 0.0031 re_causal 0.0092 /// teacc 99.05 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 265, time 246.92, cls_loss 0.0017 cls_loss_mapping 0.0016 cls_loss_causal 0.4729 re_mapping 0.0029 re_causal 0.0082 /// teacc 99.03 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 266, time 246.97, cls_loss 0.0015 cls_loss_mapping 0.0022 cls_loss_causal 0.4830 re_mapping 0.0027 re_causal 0.0083 /// teacc 99.09 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 267, time 247.19, cls_loss 0.0016 cls_loss_mapping 0.0028 cls_loss_causal 0.4905 re_mapping 0.0031 re_causal 0.0092 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 268, time 247.41, cls_loss 0.0014 cls_loss_mapping 0.0023 cls_loss_causal 0.4688 re_mapping 0.0031 re_causal 0.0091 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 269, time 247.14, cls_loss 0.0021 cls_loss_mapping 0.0027 cls_loss_causal 0.5079 re_mapping 0.0030 re_causal 0.0088 /// teacc 99.18 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 270, time 247.08, cls_loss 0.0015 cls_loss_mapping 0.0023 cls_loss_causal 0.4751 re_mapping 0.0029 re_causal 0.0087 /// teacc 99.09 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 271, time 247.23, cls_loss 0.0015 cls_loss_mapping 0.0029 cls_loss_causal 0.4807 re_mapping 0.0029 re_causal 0.0087 /// teacc 98.91 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 272, time 247.25, cls_loss 0.0021 cls_loss_mapping 0.0029 cls_loss_causal 0.4811 re_mapping 0.0029 re_causal 0.0085 /// teacc 99.11 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 273, time 247.12, cls_loss 0.0015 cls_loss_mapping 0.0020 cls_loss_causal 0.4693 re_mapping 0.0030 re_causal 0.0088 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 274, time 247.52, cls_loss 0.0018 cls_loss_mapping 0.0019 cls_loss_causal 0.4625 re_mapping 0.0030 re_causal 0.0081 /// teacc 99.03 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 275, time 247.32, cls_loss 0.0013 cls_loss_mapping 0.0015 cls_loss_causal 0.4594 re_mapping 0.0030 re_causal 0.0086 /// teacc 99.14 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 276, time 247.31, cls_loss 0.0013 cls_loss_mapping 0.0030 cls_loss_causal 0.4717 re_mapping 0.0030 re_causal 0.0090 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 277, time 247.59, cls_loss 0.0021 cls_loss_mapping 0.0022 cls_loss_causal 0.4800 re_mapping 0.0029 re_causal 0.0084 /// teacc 99.10 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 278, time 247.25, cls_loss 0.0015 cls_loss_mapping 0.0017 cls_loss_causal 0.4832 re_mapping 0.0028 re_causal 0.0087 /// teacc 99.07 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 279, time 247.30, cls_loss 0.0013 cls_loss_mapping 0.0019 cls_loss_causal 0.4871 re_mapping 0.0030 re_causal 0.0091 /// teacc 99.17 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 280----------------------------------------------------
+epoch 280, time 248.43, cls_loss 0.0016 cls_loss_mapping 0.0017 cls_loss_causal 0.4657 re_mapping 0.0030 re_causal 0.0084 /// teacc 99.26 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 281, time 247.76, cls_loss 0.0014 cls_loss_mapping 0.0018 cls_loss_causal 0.4639 re_mapping 0.0029 re_causal 0.0085 /// teacc 99.25 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 282, time 247.74, cls_loss 0.0014 cls_loss_mapping 0.0019 cls_loss_causal 0.4466 re_mapping 0.0029 re_causal 0.0082 /// teacc 99.11 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 283, time 247.60, cls_loss 0.0010 cls_loss_mapping 0.0015 cls_loss_causal 0.4532 re_mapping 0.0030 re_causal 0.0089 /// teacc 99.02 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 284, time 247.58, cls_loss 0.0020 cls_loss_mapping 0.0031 cls_loss_causal 0.4614 re_mapping 0.0029 re_causal 0.0086 /// teacc 99.05 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 285, time 247.57, cls_loss 0.0022 cls_loss_mapping 0.0026 cls_loss_causal 0.5009 re_mapping 0.0026 re_causal 0.0077 /// teacc 99.00 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 286, time 247.67, cls_loss 0.0017 cls_loss_mapping 0.0019 cls_loss_causal 0.4442 re_mapping 0.0027 re_causal 0.0079 /// teacc 99.15 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 287, time 247.52, cls_loss 0.0018 cls_loss_mapping 0.0041 cls_loss_causal 0.4619 re_mapping 0.0029 re_causal 0.0083 /// teacc 99.17 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 288, time 246.94, cls_loss 0.0012 cls_loss_mapping 0.0019 cls_loss_causal 0.4668 re_mapping 0.0030 re_causal 0.0090 /// teacc 99.11 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 289, time 247.41, cls_loss 0.0016 cls_loss_mapping 0.0026 cls_loss_causal 0.4698 re_mapping 0.0027 re_causal 0.0083 /// teacc 99.16 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 290, time 247.31, cls_loss 0.0016 cls_loss_mapping 0.0021 cls_loss_causal 0.4558 re_mapping 0.0027 re_causal 0.0079 /// teacc 99.09 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 291, time 247.85, cls_loss 0.0013 cls_loss_mapping 0.0014 cls_loss_causal 0.4896 re_mapping 0.0030 re_causal 0.0089 /// teacc 99.07 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 292, time 247.58, cls_loss 0.0018 cls_loss_mapping 0.0017 cls_loss_causal 0.4845 re_mapping 0.0025 re_causal 0.0075 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 293, time 246.85, cls_loss 0.0018 cls_loss_mapping 0.0019 cls_loss_causal 0.4797 re_mapping 0.0025 re_causal 0.0074 /// teacc 99.02 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 294, time 247.06, cls_loss 0.0015 cls_loss_mapping 0.0020 cls_loss_causal 0.4528 re_mapping 0.0029 re_causal 0.0080 /// teacc 99.13 lr 0.00010000
+100
+0.0001
+changing lr
+---------------------saving model at epoch 295----------------------------------------------------
+epoch 295, time 248.20, cls_loss 0.0011 cls_loss_mapping 0.0018 cls_loss_causal 0.4663 re_mapping 0.0029 re_causal 0.0085 /// teacc 99.27 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 296, time 247.05, cls_loss 0.0011 cls_loss_mapping 0.0014 cls_loss_causal 0.4457 re_mapping 0.0027 re_causal 0.0079 /// teacc 99.19 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 297, time 247.01, cls_loss 0.0011 cls_loss_mapping 0.0019 cls_loss_causal 0.4646 re_mapping 0.0027 re_causal 0.0083 /// teacc 99.09 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 298, time 247.03, cls_loss 0.0011 cls_loss_mapping 0.0016 cls_loss_causal 0.4582 re_mapping 0.0027 re_causal 0.0081 /// teacc 99.02 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 299, time 247.08, cls_loss 0.0015 cls_loss_mapping 0.0017 cls_loss_causal 0.4958 re_mapping 0.0026 re_causal 0.0083 /// teacc 99.07 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 300, time 247.04, cls_loss 0.0012 cls_loss_mapping 0.0012 cls_loss_causal 0.4689 re_mapping 0.0026 re_causal 0.0079 /// teacc 99.09 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 301, time 247.00, cls_loss 0.0016 cls_loss_mapping 0.0018 cls_loss_causal 0.4784 re_mapping 0.0027 re_causal 0.0083 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 302, time 246.87, cls_loss 0.0014 cls_loss_mapping 0.0022 cls_loss_causal 0.4964 re_mapping 0.0026 re_causal 0.0082 /// teacc 99.14 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 303, time 246.97, cls_loss 0.0014 cls_loss_mapping 0.0016 cls_loss_causal 0.4547 re_mapping 0.0027 re_causal 0.0077 /// teacc 99.03 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 304, time 246.93, cls_loss 0.0012 cls_loss_mapping 0.0017 cls_loss_causal 0.4448 re_mapping 0.0027 re_causal 0.0081 /// teacc 99.13 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 305, time 247.00, cls_loss 0.0011 cls_loss_mapping 0.0009 cls_loss_causal 0.4617 re_mapping 0.0027 re_causal 0.0080 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 306, time 246.97, cls_loss 0.0012 cls_loss_mapping 0.0018 cls_loss_causal 0.4790 re_mapping 0.0027 re_causal 0.0085 /// teacc 99.02 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 307, time 247.08, cls_loss 0.0013 cls_loss_mapping 0.0018 cls_loss_causal 0.4900 re_mapping 0.0026 re_causal 0.0081 /// teacc 99.10 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 308, time 246.70, cls_loss 0.0013 cls_loss_mapping 0.0018 cls_loss_causal 0.4600 re_mapping 0.0026 re_causal 0.0078 /// teacc 99.03 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 309, time 246.77, cls_loss 0.0014 cls_loss_mapping 0.0018 cls_loss_causal 0.4756 re_mapping 0.0027 re_causal 0.0082 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 310, time 247.15, cls_loss 0.0016 cls_loss_mapping 0.0029 cls_loss_causal 0.4717 re_mapping 0.0028 re_causal 0.0082 /// teacc 99.07 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 311, time 247.54, cls_loss 0.0015 cls_loss_mapping 0.0022 cls_loss_causal 0.4607 re_mapping 0.0027 re_causal 0.0078 /// teacc 99.09 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 312, time 247.41, cls_loss 0.0014 cls_loss_mapping 0.0017 cls_loss_causal 0.4517 re_mapping 0.0027 re_causal 0.0080 /// teacc 99.07 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 313, time 247.18, cls_loss 0.0010 cls_loss_mapping 0.0012 cls_loss_causal 0.4551 re_mapping 0.0026 re_causal 0.0080 /// teacc 99.16 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 314, time 247.40, cls_loss 0.0012 cls_loss_mapping 0.0013 cls_loss_causal 0.4355 re_mapping 0.0028 re_causal 0.0079 /// teacc 99.05 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 315, time 247.58, cls_loss 0.0015 cls_loss_mapping 0.0020 cls_loss_causal 0.4555 re_mapping 0.0026 re_causal 0.0075 /// teacc 99.05 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 316, time 247.22, cls_loss 0.0014 cls_loss_mapping 0.0023 cls_loss_causal 0.4448 re_mapping 0.0026 re_causal 0.0075 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 317, time 247.06, cls_loss 0.0017 cls_loss_mapping 0.0022 cls_loss_causal 0.4914 re_mapping 0.0027 re_causal 0.0078 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 318, time 246.94, cls_loss 0.0012 cls_loss_mapping 0.0016 cls_loss_causal 0.4779 re_mapping 0.0027 re_causal 0.0080 /// teacc 99.03 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 319, time 247.06, cls_loss 0.0013 cls_loss_mapping 0.0015 cls_loss_causal 0.4348 re_mapping 0.0026 re_causal 0.0077 /// teacc 99.10 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 320, time 247.23, cls_loss 0.0015 cls_loss_mapping 0.0018 cls_loss_causal 0.4390 re_mapping 0.0025 re_causal 0.0074 /// teacc 99.05 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 321, time 246.84, cls_loss 0.0013 cls_loss_mapping 0.0018 cls_loss_causal 0.4578 re_mapping 0.0024 re_causal 0.0075 /// teacc 99.07 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 322, time 247.00, cls_loss 0.0012 cls_loss_mapping 0.0021 cls_loss_causal 0.4698 re_mapping 0.0026 re_causal 0.0079 /// teacc 99.00 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 323, time 247.23, cls_loss 0.0012 cls_loss_mapping 0.0017 cls_loss_causal 0.4447 re_mapping 0.0027 re_causal 0.0079 /// teacc 99.08 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 324, time 246.90, cls_loss 0.0016 cls_loss_mapping 0.0016 cls_loss_causal 0.4695 re_mapping 0.0028 re_causal 0.0077 /// teacc 99.05 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 325, time 246.85, cls_loss 0.0016 cls_loss_mapping 0.0019 cls_loss_causal 0.4536 re_mapping 0.0027 re_causal 0.0078 /// teacc 99.17 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 326, time 247.13, cls_loss 0.0018 cls_loss_mapping 0.0017 cls_loss_causal 0.4503 re_mapping 0.0026 re_causal 0.0073 /// teacc 99.03 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 327, time 246.92, cls_loss 0.0014 cls_loss_mapping 0.0014 cls_loss_causal 0.4610 re_mapping 0.0027 re_causal 0.0078 /// teacc 98.96 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 328, time 247.01, cls_loss 0.0014 cls_loss_mapping 0.0022 cls_loss_causal 0.4952 re_mapping 0.0026 re_causal 0.0081 /// teacc 99.17 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 329, time 247.26, cls_loss 0.0012 cls_loss_mapping 0.0013 cls_loss_causal 0.4556 re_mapping 0.0026 re_causal 0.0079 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 330, time 247.18, cls_loss 0.0014 cls_loss_mapping 0.0017 cls_loss_causal 0.4647 re_mapping 0.0024 re_causal 0.0073 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 331, time 247.30, cls_loss 0.0012 cls_loss_mapping 0.0017 cls_loss_causal 0.4686 re_mapping 0.0027 re_causal 0.0082 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 332, time 247.31, cls_loss 0.0012 cls_loss_mapping 0.0011 cls_loss_causal 0.4722 re_mapping 0.0024 re_causal 0.0076 /// teacc 99.00 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 333, time 247.49, cls_loss 0.0013 cls_loss_mapping 0.0019 cls_loss_causal 0.4423 re_mapping 0.0026 re_causal 0.0077 /// teacc 98.98 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 334, time 247.27, cls_loss 0.0013 cls_loss_mapping 0.0014 cls_loss_causal 0.4602 re_mapping 0.0023 re_causal 0.0074 /// teacc 98.98 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 335, time 247.17, cls_loss 0.0011 cls_loss_mapping 0.0018 cls_loss_causal 0.4384 re_mapping 0.0026 re_causal 0.0077 /// teacc 99.14 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 336, time 247.21, cls_loss 0.0021 cls_loss_mapping 0.0031 cls_loss_causal 0.4611 re_mapping 0.0024 re_causal 0.0076 /// teacc 99.20 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 337, time 247.10, cls_loss 0.0013 cls_loss_mapping 0.0014 cls_loss_causal 0.4444 re_mapping 0.0025 re_causal 0.0077 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 338, time 247.26, cls_loss 0.0010 cls_loss_mapping 0.0011 cls_loss_causal 0.4533 re_mapping 0.0023 re_causal 0.0076 /// teacc 99.13 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 339, time 247.32, cls_loss 0.0014 cls_loss_mapping 0.0020 cls_loss_causal 0.4566 re_mapping 0.0024 re_causal 0.0076 /// teacc 99.11 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 340, time 247.16, cls_loss 0.0010 cls_loss_mapping 0.0010 cls_loss_causal 0.4598 re_mapping 0.0026 re_causal 0.0080 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 341, time 247.15, cls_loss 0.0012 cls_loss_mapping 0.0015 cls_loss_causal 0.4526 re_mapping 0.0026 re_causal 0.0077 /// teacc 99.03 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 342, time 247.51, cls_loss 0.0011 cls_loss_mapping 0.0013 cls_loss_causal 0.5016 re_mapping 0.0026 re_causal 0.0084 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 343, time 247.38, cls_loss 0.0015 cls_loss_mapping 0.0015 cls_loss_causal 0.4960 re_mapping 0.0025 re_causal 0.0076 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 344, time 247.23, cls_loss 0.0013 cls_loss_mapping 0.0020 cls_loss_causal 0.4559 re_mapping 0.0024 re_causal 0.0072 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 345, time 247.50, cls_loss 0.0012 cls_loss_mapping 0.0015 cls_loss_causal 0.4610 re_mapping 0.0026 re_causal 0.0080 /// teacc 99.03 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 346, time 247.38, cls_loss 0.0017 cls_loss_mapping 0.0023 cls_loss_causal 0.4869 re_mapping 0.0025 re_causal 0.0075 /// teacc 98.91 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 347, time 247.37, cls_loss 0.0012 cls_loss_mapping 0.0014 cls_loss_causal 0.4465 re_mapping 0.0025 re_causal 0.0076 /// teacc 99.02 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 348, time 247.38, cls_loss 0.0013 cls_loss_mapping 0.0014 cls_loss_causal 0.4634 re_mapping 0.0026 re_causal 0.0077 /// teacc 98.95 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 349, time 247.41, cls_loss 0.0014 cls_loss_mapping 0.0017 cls_loss_causal 0.4596 re_mapping 0.0025 re_causal 0.0073 /// teacc 99.05 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 350, time 246.99, cls_loss 0.0013 cls_loss_mapping 0.0013 cls_loss_causal 0.4557 re_mapping 0.0024 re_causal 0.0072 /// teacc 99.11 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 351, time 247.25, cls_loss 0.0012 cls_loss_mapping 0.0014 cls_loss_causal 0.4623 re_mapping 0.0025 re_causal 0.0075 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 352, time 247.18, cls_loss 0.0016 cls_loss_mapping 0.0016 cls_loss_causal 0.4614 re_mapping 0.0025 re_causal 0.0074 /// teacc 99.15 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 353, time 246.88, cls_loss 0.0011 cls_loss_mapping 0.0014 cls_loss_causal 0.4559 re_mapping 0.0026 re_causal 0.0080 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 354, time 247.59, cls_loss 0.0008 cls_loss_mapping 0.0011 cls_loss_causal 0.4315 re_mapping 0.0025 re_causal 0.0079 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 355, time 247.21, cls_loss 0.0013 cls_loss_mapping 0.0017 cls_loss_causal 0.4696 re_mapping 0.0025 re_causal 0.0078 /// teacc 99.17 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 356, time 247.56, cls_loss 0.0017 cls_loss_mapping 0.0026 cls_loss_causal 0.4666 re_mapping 0.0025 re_causal 0.0077 /// teacc 99.02 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 357, time 247.29, cls_loss 0.0010 cls_loss_mapping 0.0014 cls_loss_causal 0.4475 re_mapping 0.0024 re_causal 0.0075 /// teacc 99.13 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 358, time 247.22, cls_loss 0.0011 cls_loss_mapping 0.0014 cls_loss_causal 0.4710 re_mapping 0.0025 re_causal 0.0077 /// teacc 99.17 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 359, time 247.26, cls_loss 0.0011 cls_loss_mapping 0.0012 cls_loss_causal 0.4392 re_mapping 0.0024 re_causal 0.0073 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 360, time 247.41, cls_loss 0.0011 cls_loss_mapping 0.0013 cls_loss_causal 0.4256 re_mapping 0.0024 re_causal 0.0071 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 361, time 247.29, cls_loss 0.0011 cls_loss_mapping 0.0011 cls_loss_causal 0.4301 re_mapping 0.0024 re_causal 0.0072 /// teacc 99.03 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 362, time 247.23, cls_loss 0.0012 cls_loss_mapping 0.0020 cls_loss_causal 0.4589 re_mapping 0.0024 re_causal 0.0072 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 363, time 247.09, cls_loss 0.0012 cls_loss_mapping 0.0018 cls_loss_causal 0.4652 re_mapping 0.0026 re_causal 0.0077 /// teacc 99.02 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 364, time 246.92, cls_loss 0.0014 cls_loss_mapping 0.0011 cls_loss_causal 0.4869 re_mapping 0.0024 re_causal 0.0071 /// teacc 99.02 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 365, time 247.20, cls_loss 0.0020 cls_loss_mapping 0.0026 cls_loss_causal 0.4712 re_mapping 0.0024 re_causal 0.0072 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 366, time 247.23, cls_loss 0.0011 cls_loss_mapping 0.0017 cls_loss_causal 0.4724 re_mapping 0.0025 re_causal 0.0078 /// teacc 99.08 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 367, time 247.13, cls_loss 0.0015 cls_loss_mapping 0.0021 cls_loss_causal 0.4755 re_mapping 0.0023 re_causal 0.0072 /// teacc 99.08 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 368, time 247.27, cls_loss 0.0020 cls_loss_mapping 0.0022 cls_loss_causal 0.4718 re_mapping 0.0024 re_causal 0.0073 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 369, time 247.12, cls_loss 0.0019 cls_loss_mapping 0.0024 cls_loss_causal 0.4716 re_mapping 0.0025 re_causal 0.0074 /// teacc 99.00 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 370, time 246.83, cls_loss 0.0014 cls_loss_mapping 0.0017 cls_loss_causal 0.4717 re_mapping 0.0026 re_causal 0.0074 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 371, time 246.80, cls_loss 0.0009 cls_loss_mapping 0.0011 cls_loss_causal 0.4637 re_mapping 0.0024 re_causal 0.0076 /// teacc 99.11 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 372, time 246.84, cls_loss 0.0010 cls_loss_mapping 0.0013 cls_loss_causal 0.4744 re_mapping 0.0026 re_causal 0.0080 /// teacc 99.01 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 373, time 246.58, cls_loss 0.0011 cls_loss_mapping 0.0014 cls_loss_causal 0.4420 re_mapping 0.0024 re_causal 0.0071 /// teacc 99.03 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 374, time 246.67, cls_loss 0.0012 cls_loss_mapping 0.0014 cls_loss_causal 0.4422 re_mapping 0.0024 re_causal 0.0072 /// teacc 99.01 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 375, time 246.70, cls_loss 0.0011 cls_loss_mapping 0.0012 cls_loss_causal 0.4266 re_mapping 0.0024 re_causal 0.0072 /// teacc 98.94 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 376, time 247.08, cls_loss 0.0013 cls_loss_mapping 0.0017 cls_loss_causal 0.4453 re_mapping 0.0023 re_causal 0.0071 /// teacc 98.97 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 377, time 247.12, cls_loss 0.0011 cls_loss_mapping 0.0016 cls_loss_causal 0.4735 re_mapping 0.0024 re_causal 0.0076 /// teacc 99.01 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 378, time 247.23, cls_loss 0.0013 cls_loss_mapping 0.0014 cls_loss_causal 0.4365 re_mapping 0.0022 re_causal 0.0070 /// teacc 99.05 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 379, time 247.06, cls_loss 0.0012 cls_loss_mapping 0.0018 cls_loss_causal 0.4635 re_mapping 0.0023 re_causal 0.0070 /// teacc 99.01 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 380, time 247.45, cls_loss 0.0008 cls_loss_mapping 0.0011 cls_loss_causal 0.4711 re_mapping 0.0024 re_causal 0.0078 /// teacc 98.98 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 381, time 247.57, cls_loss 0.0011 cls_loss_mapping 0.0013 cls_loss_causal 0.4574 re_mapping 0.0022 re_causal 0.0069 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 382, time 247.44, cls_loss 0.0013 cls_loss_mapping 0.0023 cls_loss_causal 0.4559 re_mapping 0.0024 re_causal 0.0072 /// teacc 99.07 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 383, time 247.33, cls_loss 0.0013 cls_loss_mapping 0.0031 cls_loss_causal 0.4570 re_mapping 0.0026 re_causal 0.0074 /// teacc 98.99 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 384, time 247.28, cls_loss 0.0020 cls_loss_mapping 0.0025 cls_loss_causal 0.4635 re_mapping 0.0024 re_causal 0.0074 /// teacc 98.94 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 385, time 247.44, cls_loss 0.0013 cls_loss_mapping 0.0017 cls_loss_causal 0.4457 re_mapping 0.0024 re_causal 0.0070 /// teacc 99.00 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 386, time 247.08, cls_loss 0.0013 cls_loss_mapping 0.0015 cls_loss_causal 0.4753 re_mapping 0.0022 re_causal 0.0070 /// teacc 99.05 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 387, time 247.01, cls_loss 0.0013 cls_loss_mapping 0.0018 cls_loss_causal 0.4634 re_mapping 0.0025 re_causal 0.0076 /// teacc 99.02 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 388, time 247.20, cls_loss 0.0011 cls_loss_mapping 0.0015 cls_loss_causal 0.4897 re_mapping 0.0023 re_causal 0.0072 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 389, time 247.17, cls_loss 0.0012 cls_loss_mapping 0.0020 cls_loss_causal 0.4658 re_mapping 0.0022 re_causal 0.0068 /// teacc 99.04 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 390, time 247.07, cls_loss 0.0011 cls_loss_mapping 0.0015 cls_loss_causal 0.4615 re_mapping 0.0023 re_causal 0.0072 /// teacc 99.13 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 391, time 247.09, cls_loss 0.0013 cls_loss_mapping 0.0020 cls_loss_causal 0.4522 re_mapping 0.0022 re_causal 0.0068 /// teacc 99.10 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 392, time 247.11, cls_loss 0.0011 cls_loss_mapping 0.0015 cls_loss_causal 0.4690 re_mapping 0.0023 re_causal 0.0074 /// teacc 99.09 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 393, time 246.80, cls_loss 0.0009 cls_loss_mapping 0.0013 cls_loss_causal 0.4457 re_mapping 0.0024 re_causal 0.0075 /// teacc 99.14 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 394, time 247.16, cls_loss 0.0011 cls_loss_mapping 0.0013 cls_loss_causal 0.4379 re_mapping 0.0024 re_causal 0.0072 /// teacc 99.01 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 395, time 247.64, cls_loss 0.0012 cls_loss_mapping 0.0014 cls_loss_causal 0.4345 re_mapping 0.0024 re_causal 0.0074 /// teacc 99.12 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 396, time 247.37, cls_loss 0.0011 cls_loss_mapping 0.0015 cls_loss_causal 0.4401 re_mapping 0.0024 re_causal 0.0072 /// teacc 99.07 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 397, time 247.54, cls_loss 0.0011 cls_loss_mapping 0.0015 cls_loss_causal 0.4345 re_mapping 0.0022 re_causal 0.0070 /// teacc 99.06 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 398, time 247.34, cls_loss 0.0010 cls_loss_mapping 0.0011 cls_loss_causal 0.4310 re_mapping 0.0023 re_causal 0.0071 /// teacc 99.16 lr 0.00010000
+100
+0.0001
+changing lr
+epoch 399, time 246.86, cls_loss 0.0008 cls_loss_mapping 0.0010 cls_loss_causal 0.4484 re_mapping 0.0023 re_causal 0.0074 /// teacc 99.11 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 400, time 247.11, cls_loss 0.0010 cls_loss_mapping 0.0015 cls_loss_causal 0.4272 re_mapping 0.0023 re_causal 0.0071 /// teacc 99.14 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 401, time 247.02, cls_loss 0.0009 cls_loss_mapping 0.0009 cls_loss_causal 0.4241 re_mapping 0.0022 re_causal 0.0068 /// teacc 99.22 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 402, time 247.20, cls_loss 0.0009 cls_loss_mapping 0.0007 cls_loss_causal 0.4582 re_mapping 0.0020 re_causal 0.0069 /// teacc 99.17 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 403, time 247.43, cls_loss 0.0009 cls_loss_mapping 0.0007 cls_loss_causal 0.4785 re_mapping 0.0020 re_causal 0.0071 /// teacc 99.22 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 404, time 246.87, cls_loss 0.0009 cls_loss_mapping 0.0006 cls_loss_causal 0.4336 re_mapping 0.0020 re_causal 0.0066 /// teacc 99.22 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 405, time 247.03, cls_loss 0.0008 cls_loss_mapping 0.0005 cls_loss_causal 0.4119 re_mapping 0.0019 re_causal 0.0066 /// teacc 99.18 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 406, time 247.20, cls_loss 0.0009 cls_loss_mapping 0.0006 cls_loss_causal 0.4492 re_mapping 0.0020 re_causal 0.0067 /// teacc 99.19 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 407, time 247.14, cls_loss 0.0008 cls_loss_mapping 0.0005 cls_loss_causal 0.4428 re_mapping 0.0019 re_causal 0.0067 /// teacc 99.21 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 408, time 246.95, cls_loss 0.0008 cls_loss_mapping 0.0006 cls_loss_causal 0.4292 re_mapping 0.0019 re_causal 0.0065 /// teacc 99.19 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 409, time 247.07, cls_loss 0.0009 cls_loss_mapping 0.0006 cls_loss_causal 0.4267 re_mapping 0.0019 re_causal 0.0063 /// teacc 99.21 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 410, time 246.79, cls_loss 0.0008 cls_loss_mapping 0.0005 cls_loss_causal 0.4532 re_mapping 0.0019 re_causal 0.0067 /// teacc 99.20 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 411, time 247.28, cls_loss 0.0008 cls_loss_mapping 0.0005 cls_loss_causal 0.4191 re_mapping 0.0018 re_causal 0.0065 /// teacc 99.22 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 412, time 247.11, cls_loss 0.0007 cls_loss_mapping 0.0005 cls_loss_causal 0.4227 re_mapping 0.0019 re_causal 0.0066 /// teacc 99.24 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 413, time 247.24, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4239 re_mapping 0.0019 re_causal 0.0067 /// teacc 99.24 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 414, time 246.99, cls_loss 0.0008 cls_loss_mapping 0.0005 cls_loss_causal 0.4236 re_mapping 0.0018 re_causal 0.0064 /// teacc 99.25 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 415, time 247.09, cls_loss 0.0008 cls_loss_mapping 0.0005 cls_loss_causal 0.4173 re_mapping 0.0018 re_causal 0.0064 /// teacc 99.22 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 416, time 246.96, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4130 re_mapping 0.0019 re_causal 0.0066 /// teacc 99.25 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 417, time 247.21, cls_loss 0.0008 cls_loss_mapping 0.0005 cls_loss_causal 0.4219 re_mapping 0.0018 re_causal 0.0064 /// teacc 99.23 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 418, time 247.16, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4107 re_mapping 0.0018 re_causal 0.0064 /// teacc 99.26 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 419, time 247.16, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4217 re_mapping 0.0018 re_causal 0.0064 /// teacc 99.21 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 420, time 247.03, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4252 re_mapping 0.0017 re_causal 0.0063 /// teacc 99.22 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 421, time 246.83, cls_loss 0.0008 cls_loss_mapping 0.0005 cls_loss_causal 0.4170 re_mapping 0.0017 re_causal 0.0063 /// teacc 99.23 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 422, time 247.05, cls_loss 0.0007 cls_loss_mapping 0.0005 cls_loss_causal 0.4611 re_mapping 0.0017 re_causal 0.0067 /// teacc 99.22 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 423, time 247.12, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4178 re_mapping 0.0017 re_causal 0.0064 /// teacc 99.23 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 424, time 246.46, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4336 re_mapping 0.0017 re_causal 0.0063 /// teacc 99.24 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 425, time 246.57, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4000 re_mapping 0.0017 re_causal 0.0060 /// teacc 99.24 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 426, time 246.61, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4221 re_mapping 0.0017 re_causal 0.0062 /// teacc 99.24 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 427, time 246.74, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4261 re_mapping 0.0016 re_causal 0.0063 /// teacc 99.24 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 428, time 247.08, cls_loss 0.0008 cls_loss_mapping 0.0005 cls_loss_causal 0.4231 re_mapping 0.0017 re_causal 0.0062 /// teacc 99.20 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 429, time 247.14, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4139 re_mapping 0.0016 re_causal 0.0061 /// teacc 99.22 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 430, time 247.05, cls_loss 0.0008 cls_loss_mapping 0.0005 cls_loss_causal 0.4485 re_mapping 0.0016 re_causal 0.0062 /// teacc 99.22 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 431, time 246.93, cls_loss 0.0008 cls_loss_mapping 0.0005 cls_loss_causal 0.3967 re_mapping 0.0016 re_causal 0.0059 /// teacc 99.21 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 432, time 246.91, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4022 re_mapping 0.0016 re_causal 0.0060 /// teacc 99.25 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 433, time 246.92, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4053 re_mapping 0.0016 re_causal 0.0062 /// teacc 99.25 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 434, time 246.75, cls_loss 0.0006 cls_loss_mapping 0.0003 cls_loss_causal 0.4163 re_mapping 0.0017 re_causal 0.0063 /// teacc 99.24 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 435, time 247.10, cls_loss 0.0007 cls_loss_mapping 0.0003 cls_loss_causal 0.4253 re_mapping 0.0016 re_causal 0.0062 /// teacc 99.20 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 436, time 247.14, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4303 re_mapping 0.0016 re_causal 0.0060 /// teacc 99.20 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 437, time 246.97, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4144 re_mapping 0.0016 re_causal 0.0060 /// teacc 99.23 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 438, time 247.00, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4147 re_mapping 0.0016 re_causal 0.0062 /// teacc 99.25 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 439, time 247.17, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4282 re_mapping 0.0016 re_causal 0.0063 /// teacc 99.25 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 440, time 246.86, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.3817 re_mapping 0.0016 re_causal 0.0060 /// teacc 99.21 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 441, time 246.73, cls_loss 0.0007 cls_loss_mapping 0.0003 cls_loss_causal 0.4127 re_mapping 0.0016 re_causal 0.0061 /// teacc 99.24 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 442, time 247.03, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4147 re_mapping 0.0016 re_causal 0.0061 /// teacc 99.24 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 443, time 247.06, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4173 re_mapping 0.0016 re_causal 0.0062 /// teacc 99.26 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 444, time 246.70, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4060 re_mapping 0.0016 re_causal 0.0060 /// teacc 99.27 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 445, time 246.69, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.3875 re_mapping 0.0016 re_causal 0.0061 /// teacc 99.25 lr 0.00001000
+100
+1e-05
+changing lr
+---------------------saving model at epoch 446----------------------------------------------------
+epoch 446, time 247.46, cls_loss 0.0006 cls_loss_mapping 0.0003 cls_loss_causal 0.4331 re_mapping 0.0016 re_causal 0.0063 /// teacc 99.28 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 447, time 246.73, cls_loss 0.0006 cls_loss_mapping 0.0003 cls_loss_causal 0.4148 re_mapping 0.0016 re_causal 0.0063 /// teacc 99.28 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 448, time 247.05, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4421 re_mapping 0.0016 re_causal 0.0062 /// teacc 99.26 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 449, time 246.60, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.3929 re_mapping 0.0015 re_causal 0.0059 /// teacc 99.27 lr 0.00001000
+100
+1e-05
+changing lr
+---------------------saving model at epoch 450----------------------------------------------------
+epoch 450, time 247.44, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4173 re_mapping 0.0016 re_causal 0.0060 /// teacc 99.31 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 451, time 246.85, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4352 re_mapping 0.0016 re_causal 0.0062 /// teacc 99.26 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 452, time 246.56, cls_loss 0.0008 cls_loss_mapping 0.0005 cls_loss_causal 0.4248 re_mapping 0.0015 re_causal 0.0058 /// teacc 99.27 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 453, time 246.71, cls_loss 0.0008 cls_loss_mapping 0.0005 cls_loss_causal 0.4208 re_mapping 0.0015 re_causal 0.0059 /// teacc 99.23 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 454, time 247.02, cls_loss 0.0009 cls_loss_mapping 0.0005 cls_loss_causal 0.4349 re_mapping 0.0015 re_causal 0.0059 /// teacc 99.22 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 455, time 246.71, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4133 re_mapping 0.0015 re_causal 0.0059 /// teacc 99.26 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 456, time 246.84, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4097 re_mapping 0.0015 re_causal 0.0060 /// teacc 99.25 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 457, time 246.87, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.3905 re_mapping 0.0015 re_causal 0.0058 /// teacc 99.26 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 458, time 246.86, cls_loss 0.0007 cls_loss_mapping 0.0003 cls_loss_causal 0.3884 re_mapping 0.0016 re_causal 0.0060 /// teacc 99.25 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 459, time 246.68, cls_loss 0.0006 cls_loss_mapping 0.0003 cls_loss_causal 0.3983 re_mapping 0.0016 re_causal 0.0060 /// teacc 99.25 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 460, time 246.95, cls_loss 0.0006 cls_loss_mapping 0.0004 cls_loss_causal 0.4410 re_mapping 0.0016 re_causal 0.0062 /// teacc 99.23 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 461, time 246.76, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4042 re_mapping 0.0015 re_causal 0.0059 /// teacc 99.26 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 462, time 247.25, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4222 re_mapping 0.0016 re_causal 0.0060 /// teacc 99.27 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 463, time 247.13, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4288 re_mapping 0.0015 re_causal 0.0057 /// teacc 99.26 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 464, time 247.10, cls_loss 0.0010 cls_loss_mapping 0.0005 cls_loss_causal 0.4350 re_mapping 0.0015 re_causal 0.0057 /// teacc 99.23 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 465, time 247.08, cls_loss 0.0009 cls_loss_mapping 0.0005 cls_loss_causal 0.4409 re_mapping 0.0014 re_causal 0.0057 /// teacc 99.29 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 466, time 246.90, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.3901 re_mapping 0.0015 re_causal 0.0056 /// teacc 99.28 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 467, time 247.04, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4076 re_mapping 0.0015 re_causal 0.0057 /// teacc 99.27 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 468, time 246.84, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.3978 re_mapping 0.0015 re_causal 0.0056 /// teacc 99.28 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 469, time 246.98, cls_loss 0.0008 cls_loss_mapping 0.0005 cls_loss_causal 0.4259 re_mapping 0.0015 re_causal 0.0057 /// teacc 99.23 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 470, time 246.99, cls_loss 0.0009 cls_loss_mapping 0.0005 cls_loss_causal 0.4459 re_mapping 0.0014 re_causal 0.0056 /// teacc 99.26 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 471, time 247.05, cls_loss 0.0009 cls_loss_mapping 0.0005 cls_loss_causal 0.4229 re_mapping 0.0014 re_causal 0.0056 /// teacc 99.24 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 472, time 246.98, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4319 re_mapping 0.0014 re_causal 0.0058 /// teacc 99.25 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 473, time 246.98, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4292 re_mapping 0.0014 re_causal 0.0058 /// teacc 99.23 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 474, time 247.17, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4197 re_mapping 0.0015 re_causal 0.0059 /// teacc 99.27 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 475, time 247.03, cls_loss 0.0007 cls_loss_mapping 0.0003 cls_loss_causal 0.3734 re_mapping 0.0015 re_causal 0.0057 /// teacc 99.29 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 476, time 247.30, cls_loss 0.0006 cls_loss_mapping 0.0003 cls_loss_causal 0.3885 re_mapping 0.0015 re_causal 0.0059 /// teacc 99.28 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 477, time 248.54, cls_loss 0.0007 cls_loss_mapping 0.0003 cls_loss_causal 0.4097 re_mapping 0.0015 re_causal 0.0059 /// teacc 99.24 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 478, time 247.02, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4113 re_mapping 0.0014 re_causal 0.0057 /// teacc 99.23 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 479, time 247.12, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.3727 re_mapping 0.0014 re_causal 0.0054 /// teacc 99.25 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 480, time 246.85, cls_loss 0.0007 cls_loss_mapping 0.0003 cls_loss_causal 0.4400 re_mapping 0.0015 re_causal 0.0060 /// teacc 99.26 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 481, time 246.83, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4142 re_mapping 0.0015 re_causal 0.0058 /// teacc 99.22 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 482, time 246.97, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4060 re_mapping 0.0014 re_causal 0.0056 /// teacc 99.24 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 483, time 246.78, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4004 re_mapping 0.0014 re_causal 0.0055 /// teacc 99.26 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 484, time 246.96, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4422 re_mapping 0.0015 re_causal 0.0058 /// teacc 99.28 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 485, time 246.70, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.3912 re_mapping 0.0014 re_causal 0.0055 /// teacc 99.27 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 486, time 247.02, cls_loss 0.0006 cls_loss_mapping 0.0003 cls_loss_causal 0.3976 re_mapping 0.0014 re_causal 0.0056 /// teacc 99.26 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 487, time 246.77, cls_loss 0.0006 cls_loss_mapping 0.0003 cls_loss_causal 0.4313 re_mapping 0.0015 re_causal 0.0060 /// teacc 99.26 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 488, time 246.95, cls_loss 0.0007 cls_loss_mapping 0.0003 cls_loss_causal 0.4221 re_mapping 0.0015 re_causal 0.0059 /// teacc 99.27 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 489, time 246.76, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4082 re_mapping 0.0014 re_causal 0.0056 /// teacc 99.25 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 490, time 246.83, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4112 re_mapping 0.0014 re_causal 0.0056 /// teacc 99.21 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 491, time 246.79, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.3886 re_mapping 0.0015 re_causal 0.0055 /// teacc 99.21 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 492, time 246.78, cls_loss 0.0006 cls_loss_mapping 0.0003 cls_loss_causal 0.4168 re_mapping 0.0015 re_causal 0.0058 /// teacc 99.21 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 493, time 246.88, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4221 re_mapping 0.0014 re_causal 0.0057 /// teacc 99.20 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 494, time 246.71, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4312 re_mapping 0.0015 re_causal 0.0058 /// teacc 99.19 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 495, time 246.90, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.4413 re_mapping 0.0014 re_causal 0.0059 /// teacc 99.21 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 496, time 246.63, cls_loss 0.0009 cls_loss_mapping 0.0004 cls_loss_causal 0.4036 re_mapping 0.0014 re_causal 0.0056 /// teacc 99.22 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 497, time 246.91, cls_loss 0.0009 cls_loss_mapping 0.0004 cls_loss_causal 0.4220 re_mapping 0.0014 re_causal 0.0057 /// teacc 99.18 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 498, time 247.19, cls_loss 0.0008 cls_loss_mapping 0.0004 cls_loss_causal 0.4161 re_mapping 0.0014 re_causal 0.0056 /// teacc 99.17 lr 0.00001000
+100
+1e-05
+changing lr
+epoch 499, time 247.07, cls_loss 0.0007 cls_loss_mapping 0.0004 cls_loss_causal 0.3912 re_mapping 0.0014 re_causal 0.0056 /// teacc 99.19 lr 0.00001000
+---------------------saving last model at epoch 499----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_ReProduceMetaCausal', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3_ReProduceMetaCausal/14factor_best.csv', 'channels': 3, 'factor_num': 14, 'stride': 3, 'epoch': 'best', 'eval_mapping': True}
+loading weight of best
+randm: False
+stride: 3
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+loading weight of best
+Using downloaded and verified file: /home/yuqian_fu/.pytorch/SVHN/test_32x32.mat
diff --git a/Meta-causal/code/56720.error b/Meta-causal/code/56720.error
new file mode 100644
index 0000000000000000000000000000000000000000..4c741962fda5fd145618ae7373555295b05ff9de
--- /dev/null
+++ b/Meta-causal/code/56720.error
@@ -0,0 +1 @@
+run_my_joint_v13_test.sh: line 28: andn}: command not found
diff --git a/Meta-causal/code/56720.log b/Meta-causal/code/56720.log
new file mode 100644
index 0000000000000000000000000000000000000000..5e281586589ea1303704167b5264e28ec7b696f5
--- /dev/null
+++ b/Meta-causal/code/56720.log
@@ -0,0 +1,336 @@
+/home/yuqian_fu
+{'gpu': '0', 'data': 'cartoon', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 5, 'factor_num': 16, 'epochs': 70, 'nbatch': 100, 'batchsize': 6, 'lr': 0.01, 'lr_scheduler': 'cosine', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//cartoon/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_ReProduceMetaCausal', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 5
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_train.hdf5 torch.Size([2107, 3, 227, 227]) torch.Size([2107])
+--------------------------CA_multiple--------------------------
+---------------------------16 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_val.hdf5 torch.Size([237, 3, 227, 227]) torch.Size([237])
+-------------------------------------loading pretrain weights----------------------------------
+351
+0.01
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 500.68, cls_loss 5.0126 cls_loss_mapping 1.4019 cls_loss_causal 1.7210 re_mapping 1.0578 re_causal 1.0584 /// teacc 83.12 lr 0.00999497
+351
+0.009994965332706574
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 530.56, cls_loss 2.0306 cls_loss_mapping 0.7946 cls_loss_causal 1.3288 re_mapping 0.6527 re_causal 0.6538 /// teacc 87.76 lr 0.00997987
+351
+0.009979871469976196
+changing lr
+---------------------saving model at epoch 2----------------------------------------------------
+epoch 2, time 536.46, cls_loss 0.6382 cls_loss_mapping 0.4834 cls_loss_causal 1.1278 re_mapping 0.3952 re_causal 0.3957 /// teacc 91.98 lr 0.00995475
+351
+0.009954748808839675
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 514.73, cls_loss 0.2115 cls_loss_mapping 0.3043 cls_loss_causal 0.9479 re_mapping 0.2605 re_causal 0.2608 /// teacc 92.41 lr 0.00991965
+351
+0.009919647942993149
+changing lr
+epoch 4, time 518.58, cls_loss 0.1048 cls_loss_mapping 0.2504 cls_loss_causal 0.8913 re_mapping 0.2075 re_causal 0.2080 /// teacc 92.41 lr 0.00987464
+351
+0.009874639560909117
+changing lr
+---------------------saving model at epoch 5----------------------------------------------------
+epoch 5, time 522.88, cls_loss 0.0517 cls_loss_mapping 0.2038 cls_loss_causal 0.8571 re_mapping 0.1746 re_causal 0.1753 /// teacc 95.36 lr 0.00981981
+351
+0.009819814303479266
+changing lr
+epoch 6, time 515.51, cls_loss 0.0244 cls_loss_mapping 0.1830 cls_loss_causal 0.7905 re_mapping 0.1502 re_causal 0.1512 /// teacc 94.51 lr 0.00975528
+351
+0.009755282581475767
+changing lr
+epoch 7, time 516.68, cls_loss 0.0226 cls_loss_mapping 0.1536 cls_loss_causal 0.7386 re_mapping 0.1335 re_causal 0.1347 /// teacc 94.94 lr 0.00968117
+351
+0.009681174353198686
+changing lr
+epoch 8, time 512.83, cls_loss 0.0311 cls_loss_mapping 0.1488 cls_loss_causal 0.7284 re_mapping 0.1200 re_causal 0.1218 /// teacc 91.56 lr 0.00959764
+351
+0.009597638862757255
+changing lr
+---------------------saving model at epoch 9----------------------------------------------------
+epoch 9, time 515.75, cls_loss 0.0257 cls_loss_mapping 0.1258 cls_loss_causal 0.7038 re_mapping 0.1090 re_causal 0.1110 /// teacc 95.78 lr 0.00950484
+351
+0.009504844339512096
+changing lr
+epoch 10, time 508.97, cls_loss 0.0086 cls_loss_mapping 0.1049 cls_loss_causal 0.7078 re_mapping 0.0973 re_causal 0.0997 /// teacc 94.09 lr 0.00940298
+351
+0.009402977659283692
+changing lr
+epoch 11, time 522.72, cls_loss 0.0121 cls_loss_mapping 0.1017 cls_loss_causal 0.6880 re_mapping 0.0899 re_causal 0.0929 /// teacc 95.36 lr 0.00929224
+351
+0.009292243968009333
+changing lr
+epoch 12, time 511.13, cls_loss 0.0138 cls_loss_mapping 0.0946 cls_loss_causal 0.7011 re_mapping 0.0820 re_causal 0.0855 /// teacc 94.94 lr 0.00917287
+351
+0.009172866268606516
+changing lr
+epoch 13, time 522.62, cls_loss 0.0104 cls_loss_mapping 0.0844 cls_loss_causal 0.6675 re_mapping 0.0747 re_causal 0.0784 /// teacc 94.51 lr 0.00904508
+351
+0.00904508497187474
+changing lr
+epoch 14, time 530.18, cls_loss 0.0122 cls_loss_mapping 0.0736 cls_loss_causal 0.6363 re_mapping 0.0698 re_causal 0.0745 /// teacc 95.78 lr 0.00890916
+351
+0.008909157412340152
+changing lr
+epoch 15, time 513.03, cls_loss 0.0108 cls_loss_mapping 0.0735 cls_loss_causal 0.6055 re_mapping 0.0623 re_causal 0.0673 /// teacc 94.94 lr 0.00876536
+351
+0.00876535733001806
+changing lr
+---------------------saving model at epoch 16----------------------------------------------------
+epoch 16, time 515.62, cls_loss 0.0097 cls_loss_mapping 0.0626 cls_loss_causal 0.6328 re_mapping 0.0572 re_causal 0.0629 /// teacc 97.05 lr 0.00861397
+351
+0.008613974319136962
+changing lr
+epoch 17, time 534.26, cls_loss 0.0145 cls_loss_mapping 0.0706 cls_loss_causal 0.6484 re_mapping 0.0533 re_causal 0.0603 /// teacc 96.20 lr 0.00845531
+351
+0.008455313244934327
+changing lr
+epoch 18, time 532.03, cls_loss 0.0106 cls_loss_mapping 0.0571 cls_loss_causal 0.5705 re_mapping 0.0492 re_causal 0.0567 /// teacc 96.62 lr 0.00828969
+351
+0.008289693629698565
+changing lr
+epoch 19, time 518.07, cls_loss 0.0076 cls_loss_mapping 0.0474 cls_loss_causal 0.5525 re_mapping 0.0441 re_causal 0.0513 /// teacc 95.78 lr 0.00811745
+351
+0.00811744900929367
+changing lr
+epoch 20, time 530.26, cls_loss 0.0081 cls_loss_mapping 0.0546 cls_loss_causal 0.5926 re_mapping 0.0409 re_causal 0.0491 /// teacc 97.05 lr 0.00793893
+351
+0.007938926261462368
+changing lr
+epoch 21, time 534.00, cls_loss 0.0104 cls_loss_mapping 0.0511 cls_loss_causal 0.5469 re_mapping 0.0373 re_causal 0.0451 /// teacc 95.78 lr 0.00775448
+351
+0.007754484907260515
+changing lr
+epoch 22, time 534.87, cls_loss 0.0148 cls_loss_mapping 0.0474 cls_loss_causal 0.5694 re_mapping 0.0353 re_causal 0.0430 /// teacc 95.36 lr 0.00756450
+351
+0.007564496387029534
+changing lr
+epoch 23, time 515.04, cls_loss 0.0053 cls_loss_mapping 0.0395 cls_loss_causal 0.5557 re_mapping 0.0324 re_causal 0.0409 /// teacc 96.62 lr 0.00736934
+351
+0.007369343312364995
+changing lr
+epoch 24, time 527.73, cls_loss 0.0083 cls_loss_mapping 0.0487 cls_loss_causal 0.5594 re_mapping 0.0306 re_causal 0.0402 /// teacc 94.94 lr 0.00716942
+351
+0.0071694186955877925
+changing lr
+epoch 25, time 521.10, cls_loss 0.0080 cls_loss_mapping 0.0392 cls_loss_causal 0.5600 re_mapping 0.0291 re_causal 0.0390 /// teacc 97.05 lr 0.00696513
+351
+0.0069651251582696205
+changing lr
+epoch 26, time 528.30, cls_loss 0.0054 cls_loss_mapping 0.0316 cls_loss_causal 0.5380 re_mapping 0.0270 re_causal 0.0366 /// teacc 96.20 lr 0.00675687
+351
+0.006756874120406716
+changing lr
+epoch 27, time 526.16, cls_loss 0.0075 cls_loss_mapping 0.0354 cls_loss_causal 0.5384 re_mapping 0.0251 re_causal 0.0347 /// teacc 97.05 lr 0.00654508
+351
+0.00654508497187474
+changing lr
+epoch 28, time 520.46, cls_loss 0.0066 cls_loss_mapping 0.0281 cls_loss_causal 0.5043 re_mapping 0.0240 re_causal 0.0354 /// teacc 96.62 lr 0.00633018
+351
+0.006330184227833378
+changing lr
+epoch 29, time 536.80, cls_loss 0.0074 cls_loss_mapping 0.0305 cls_loss_causal 0.5296 re_mapping 0.0227 re_causal 0.0341 /// teacc 95.78 lr 0.00611260
+351
+0.006112604669781575
+changing lr
+epoch 30, time 530.96, cls_loss 0.0062 cls_loss_mapping 0.0301 cls_loss_causal 0.5251 re_mapping 0.0214 re_causal 0.0317 /// teacc 96.20 lr 0.00589278
+351
+0.005892784473993186
+changing lr
+epoch 31, time 528.74, cls_loss 0.0051 cls_loss_mapping 0.0263 cls_loss_causal 0.5350 re_mapping 0.0205 re_causal 0.0317 /// teacc 96.20 lr 0.00567117
+351
+0.00567116632908828
+changing lr
+---------------------saving model at epoch 32----------------------------------------------------
+epoch 32, time 517.42, cls_loss 0.0051 cls_loss_mapping 0.0225 cls_loss_causal 0.5060 re_mapping 0.0197 re_causal 0.0305 /// teacc 97.47 lr 0.00544820
+351
+0.00544819654451717
+changing lr
+---------------------saving model at epoch 33----------------------------------------------------
+epoch 33, time 532.29, cls_loss 0.0050 cls_loss_mapping 0.0196 cls_loss_causal 0.5099 re_mapping 0.0185 re_causal 0.0291 /// teacc 97.89 lr 0.00522432
+351
+0.005224324151752577
+changing lr
+epoch 34, time 521.23, cls_loss 0.0079 cls_loss_mapping 0.0235 cls_loss_causal 0.5058 re_mapping 0.0177 re_causal 0.0285 /// teacc 97.89 lr 0.00500000
+351
+0.005000000000000003
+changing lr
+epoch 35, time 521.42, cls_loss 0.0054 cls_loss_mapping 0.0236 cls_loss_causal 0.4683 re_mapping 0.0178 re_causal 0.0281 /// teacc 97.05 lr 0.00477568
+351
+0.004775675848247429
+changing lr
+epoch 36, time 526.29, cls_loss 0.0057 cls_loss_mapping 0.0231 cls_loss_causal 0.5159 re_mapping 0.0172 re_causal 0.0278 /// teacc 97.05 lr 0.00455180
+351
+0.004551803455482836
+changing lr
+epoch 37, time 535.59, cls_loss 0.0063 cls_loss_mapping 0.0199 cls_loss_causal 0.4658 re_mapping 0.0163 re_causal 0.0267 /// teacc 97.47 lr 0.00432883
+351
+0.004328833670911726
+changing lr
+epoch 38, time 512.58, cls_loss 0.0045 cls_loss_mapping 0.0199 cls_loss_causal 0.4925 re_mapping 0.0155 re_causal 0.0258 /// teacc 97.05 lr 0.00410722
+351
+0.0041072155260068206
+changing lr
+epoch 39, time 532.69, cls_loss 0.0056 cls_loss_mapping 0.0220 cls_loss_causal 0.4772 re_mapping 0.0150 re_causal 0.0253 /// teacc 97.47 lr 0.00388740
+351
+0.0038873953302184317
+changing lr
+epoch 40, time 536.18, cls_loss 0.0044 cls_loss_mapping 0.0185 cls_loss_causal 0.4992 re_mapping 0.0146 re_causal 0.0241 /// teacc 97.47 lr 0.00366982
+351
+0.003669815772166629
+changing lr
+epoch 41, time 531.87, cls_loss 0.0044 cls_loss_mapping 0.0147 cls_loss_causal 0.4840 re_mapping 0.0144 re_causal 0.0246 /// teacc 97.89 lr 0.00345492
+351
+0.0034549150281252667
+changing lr
+---------------------saving model at epoch 42----------------------------------------------------
+epoch 42, time 509.65, cls_loss 0.0045 cls_loss_mapping 0.0164 cls_loss_causal 0.4600 re_mapping 0.0136 re_causal 0.0224 /// teacc 98.31 lr 0.00324313
+351
+0.0032431258795932905
+changing lr
+epoch 43, time 520.56, cls_loss 0.0051 cls_loss_mapping 0.0169 cls_loss_causal 0.5021 re_mapping 0.0137 re_causal 0.0235 /// teacc 97.47 lr 0.00303487
+351
+0.0030348748417303863
+changing lr
+---------------------saving model at epoch 44----------------------------------------------------
+epoch 44, time 532.35, cls_loss 0.0042 cls_loss_mapping 0.0153 cls_loss_causal 0.4512 re_mapping 0.0131 re_causal 0.0230 /// teacc 98.73 lr 0.00283058
+351
+0.0028305813044122124
+changing lr
+epoch 45, time 523.83, cls_loss 0.0053 cls_loss_mapping 0.0159 cls_loss_causal 0.4523 re_mapping 0.0130 re_causal 0.0219 /// teacc 97.89 lr 0.00263066
+351
+0.0026306566876350096
+changing lr
+epoch 46, time 536.05, cls_loss 0.0050 cls_loss_mapping 0.0148 cls_loss_causal 0.4521 re_mapping 0.0125 re_causal 0.0215 /// teacc 96.62 lr 0.00243550
+351
+0.0024355036129704724
+changing lr
+epoch 47, time 509.13, cls_loss 0.0043 cls_loss_mapping 0.0159 cls_loss_causal 0.4864 re_mapping 0.0121 re_causal 0.0214 /// teacc 97.89 lr 0.00224552
+351
+0.00224551509273949
+changing lr
+epoch 48, time 524.58, cls_loss 0.0037 cls_loss_mapping 0.0109 cls_loss_causal 0.4474 re_mapping 0.0120 re_causal 0.0208 /// teacc 98.31 lr 0.00206107
+351
+0.002061073738537637
+changing lr
+epoch 49, time 517.27, cls_loss 0.0033 cls_loss_mapping 0.0125 cls_loss_causal 0.4527 re_mapping 0.0117 re_causal 0.0205 /// teacc 97.89 lr 0.00188255
+351
+0.0018825509907063344
+changing lr
+epoch 50, time 516.76, cls_loss 0.0039 cls_loss_mapping 0.0142 cls_loss_causal 0.4602 re_mapping 0.0116 re_causal 0.0204 /// teacc 97.47 lr 0.00171031
+351
+0.0017103063703014388
+changing lr
+epoch 51, time 513.81, cls_loss 0.0025 cls_loss_mapping 0.0098 cls_loss_causal 0.4081 re_mapping 0.0116 re_causal 0.0197 /// teacc 98.31 lr 0.00154469
+351
+0.0015446867550656784
+changing lr
+epoch 52, time 514.01, cls_loss 0.0042 cls_loss_mapping 0.0125 cls_loss_causal 0.4603 re_mapping 0.0114 re_causal 0.0195 /// teacc 97.89 lr 0.00138603
+351
+0.001386025680863044
+changing lr
+epoch 53, time 524.35, cls_loss 0.0051 cls_loss_mapping 0.0127 cls_loss_causal 0.4572 re_mapping 0.0111 re_causal 0.0193 /// teacc 97.89 lr 0.00123464
+351
+0.0012346426699819469
+changing lr
+epoch 54, time 514.44, cls_loss 0.0044 cls_loss_mapping 0.0127 cls_loss_causal 0.4353 re_mapping 0.0111 re_causal 0.0187 /// teacc 97.47 lr 0.00109084
+351
+0.0010908425876598518
+changing lr
+epoch 55, time 522.77, cls_loss 0.0037 cls_loss_mapping 0.0112 cls_loss_causal 0.4375 re_mapping 0.0109 re_causal 0.0188 /// teacc 98.31 lr 0.00095492
+351
+0.000954915028125264
+changing lr
+epoch 56, time 523.02, cls_loss 0.0041 cls_loss_mapping 0.0109 cls_loss_causal 0.4403 re_mapping 0.0108 re_causal 0.0186 /// teacc 97.05 lr 0.00082713
+351
+0.0008271337313934874
+changing lr
+epoch 57, time 527.11, cls_loss 0.0028 cls_loss_mapping 0.0091 cls_loss_causal 0.4157 re_mapping 0.0108 re_causal 0.0176 /// teacc 97.47 lr 0.00070776
+351
+0.00070775603199067
+changing lr
+epoch 58, time 504.49, cls_loss 0.0031 cls_loss_mapping 0.0086 cls_loss_causal 0.4095 re_mapping 0.0108 re_causal 0.0171 /// teacc 97.89 lr 0.00059702
+351
+0.0005970223407163104
+changing lr
+epoch 59, time 497.53, cls_loss 0.0053 cls_loss_mapping 0.0115 cls_loss_causal 0.4429 re_mapping 0.0105 re_causal 0.0172 /// teacc 97.05 lr 0.00049516
+351
+0.0004951556604879052
+changing lr
+epoch 60, time 507.85, cls_loss 0.0043 cls_loss_mapping 0.0108 cls_loss_causal 0.4240 re_mapping 0.0103 re_causal 0.0166 /// teacc 98.31 lr 0.00040236
+351
+0.00040236113724274745
+changing lr
+epoch 61, time 489.10, cls_loss 0.0040 cls_loss_mapping 0.0104 cls_loss_causal 0.4613 re_mapping 0.0103 re_causal 0.0175 /// teacc 97.05 lr 0.00031883
+351
+0.00031882564680131423
+changing lr
+epoch 62, time 487.44, cls_loss 0.0040 cls_loss_mapping 0.0101 cls_loss_causal 0.4445 re_mapping 0.0102 re_causal 0.0167 /// teacc 98.31 lr 0.00024472
+351
+0.0002447174185242325
+changing lr
+epoch 63, time 492.60, cls_loss 0.0030 cls_loss_mapping 0.0067 cls_loss_causal 0.3786 re_mapping 0.0102 re_causal 0.0165 /// teacc 97.89 lr 0.00018019
+351
+0.0001801856965207339
+changing lr
+epoch 64, time 493.59, cls_loss 0.0040 cls_loss_mapping 0.0106 cls_loss_causal 0.4459 re_mapping 0.0101 re_causal 0.0165 /// teacc 96.62 lr 0.00012536
+351
+0.000125360439090882
+changing lr
+epoch 65, time 485.22, cls_loss 0.0051 cls_loss_mapping 0.0094 cls_loss_causal 0.4355 re_mapping 0.0101 re_causal 0.0162 /// teacc 97.47 lr 0.00008035
+351
+8.03520570068517e-05
+changing lr
+epoch 66, time 475.77, cls_loss 0.0036 cls_loss_mapping 0.0086 cls_loss_causal 0.4274 re_mapping 0.0101 re_causal 0.0165 /// teacc 97.89 lr 0.00004525
+351
+4.5251191160326525e-05
+changing lr
+epoch 67, time 483.43, cls_loss 0.0043 cls_loss_mapping 0.0107 cls_loss_causal 0.4531 re_mapping 0.0102 re_causal 0.0168 /// teacc 96.62 lr 0.00002013
+351
+2.0128530023804673e-05
+changing lr
+epoch 68, time 484.93, cls_loss 0.0030 cls_loss_mapping 0.0073 cls_loss_causal 0.4376 re_mapping 0.0102 re_causal 0.0166 /// teacc 97.89 lr 0.00000503
+351
+5.034667293427056e-06
+changing lr
+epoch 69, time 479.93, cls_loss 0.0041 cls_loss_mapping 0.0089 cls_loss_causal 0.4412 re_mapping 0.0100 re_causal 0.0165 /// teacc 96.20 lr 0.00000000
+---------------------saving last model at epoch 69----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//cartoon/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_ReProduceMetaCausal', 'source_domain': 'cartoon', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//cartoon/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_ReProduceMetaCausal/cartoon_16factor_last_test_check.csv', 'factor_num': 16, 'epoch': 'last', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of last
+randm: False
+stride: 5
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+columns: ['cartoon', 'art_painting', 'photo', 'sketch']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+                       cartoon  art_painting      photo     sketch        Avg
+w/o do (original x)  99.616041     76.806641  89.700599  72.613897  79.707045
+      cartoon  art_painting      photo     sketch        Avg
+do  99.573379     75.537109  89.760479  73.631967  79.643185
diff --git a/Meta-causal/code/56721.error b/Meta-causal/code/56721.error
new file mode 100644
index 0000000000000000000000000000000000000000..fd313270a3ba847b383c7eb4ae546600fd872b6a
--- /dev/null
+++ b/Meta-causal/code/56721.error
@@ -0,0 +1 @@
+run_my_joint_v13_test.sh: line 29: de: command not found
diff --git a/Meta-causal/code/56721.log b/Meta-causal/code/56721.log
new file mode 100644
index 0000000000000000000000000000000000000000..e0e3660d35bfb4347dcbaf5d7e601b60419518bc
--- /dev/null
+++ b/Meta-causal/code/56721.log
@@ -0,0 +1,329 @@
+/home/yuqian_fu
+{'gpu': '0', 'data': 'photo', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 5, 'factor_num': 16, 'epochs': 70, 'nbatch': 100, 'batchsize': 6, 'lr': 0.01, 'lr_scheduler': 'cosine', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//photo/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_ReProduceMetaCausal', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 5
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_train.hdf5 torch.Size([1499, 3, 227, 227]) torch.Size([1499])
+--------------------------CA_multiple--------------------------
+---------------------------16 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_val.hdf5 torch.Size([171, 3, 227, 227]) torch.Size([171])
+-------------------------------------loading pretrain weights----------------------------------
+249
+0.01
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 330.26, cls_loss 2.1901 cls_loss_mapping 1.0966 cls_loss_causal 1.5411 re_mapping 1.2660 re_causal 1.2689 /// teacc 95.32 lr 0.00999497
+249
+0.009994965332706574
+changing lr
+epoch 1, time 329.57, cls_loss 1.1155 cls_loss_mapping 0.7787 cls_loss_causal 1.4901 re_mapping 0.9558 re_causal 0.9646 /// teacc 93.57 lr 0.00997987
+249
+0.009979871469976196
+changing lr
+epoch 2, time 330.39, cls_loss 0.9288 cls_loss_mapping 0.7032 cls_loss_causal 1.4747 re_mapping 0.7723 re_causal 0.7847 /// teacc 75.44 lr 0.00995475
+249
+0.009954748808839675
+changing lr
+epoch 3, time 328.90, cls_loss 1.2627 cls_loss_mapping 0.6321 cls_loss_causal 1.5390 re_mapping 0.6502 re_causal 0.6690 /// teacc 85.96 lr 0.00991965
+249
+0.009919647942993149
+changing lr
+epoch 4, time 327.35, cls_loss 0.9500 cls_loss_mapping 0.7241 cls_loss_causal 1.5912 re_mapping 0.6164 re_causal 0.6345 /// teacc 93.57 lr 0.00987464
+249
+0.009874639560909117
+changing lr
+epoch 5, time 326.62, cls_loss 1.4824 cls_loss_mapping 0.9000 cls_loss_causal 1.6461 re_mapping 0.5127 re_causal 0.5278 /// teacc 79.53 lr 0.00981981
+249
+0.009819814303479266
+changing lr
+epoch 6, time 329.86, cls_loss 0.5391 cls_loss_mapping 0.6994 cls_loss_causal 1.5297 re_mapping 0.4445 re_causal 0.4580 /// teacc 91.23 lr 0.00975528
+249
+0.009755282581475767
+changing lr
+epoch 7, time 326.96, cls_loss 0.4282 cls_loss_mapping 0.7985 cls_loss_causal 1.5762 re_mapping 0.4031 re_causal 0.4239 /// teacc 90.06 lr 0.00968117
+249
+0.009681174353198686
+changing lr
+epoch 8, time 324.18, cls_loss 0.4582 cls_loss_mapping 0.6437 cls_loss_causal 1.4929 re_mapping 0.3704 re_causal 0.4016 /// teacc 92.40 lr 0.00959764
+249
+0.009597638862757255
+changing lr
+epoch 9, time 329.22, cls_loss 0.4196 cls_loss_mapping 0.6434 cls_loss_causal 1.5206 re_mapping 0.3366 re_causal 0.3732 /// teacc 91.23 lr 0.00950484
+249
+0.009504844339512096
+changing lr
+epoch 10, time 326.22, cls_loss 0.6899 cls_loss_mapping 0.6931 cls_loss_causal 1.4531 re_mapping 0.3138 re_causal 0.3465 /// teacc 91.81 lr 0.00940298
+249
+0.009402977659283692
+changing lr
+epoch 11, time 332.53, cls_loss 0.2100 cls_loss_mapping 0.5305 cls_loss_causal 1.2812 re_mapping 0.2652 re_causal 0.3015 /// teacc 94.15 lr 0.00929224
+249
+0.009292243968009333
+changing lr
+epoch 12, time 328.24, cls_loss 1.9157 cls_loss_mapping 1.1807 cls_loss_causal 1.8542 re_mapping 0.2875 re_causal 0.3153 /// teacc 81.29 lr 0.00917287
+249
+0.009172866268606516
+changing lr
+epoch 13, time 330.89, cls_loss 0.5559 cls_loss_mapping 0.9412 cls_loss_causal 1.5863 re_mapping 0.2804 re_causal 0.3010 /// teacc 88.30 lr 0.00904508
+249
+0.00904508497187474
+changing lr
+epoch 14, time 327.08, cls_loss 0.2945 cls_loss_mapping 0.7027 cls_loss_causal 1.4399 re_mapping 0.2493 re_causal 0.2637 /// teacc 89.47 lr 0.00890916
+249
+0.008909157412340152
+changing lr
+epoch 15, time 327.50, cls_loss 0.1556 cls_loss_mapping 0.5735 cls_loss_causal 1.3348 re_mapping 0.2367 re_causal 0.2499 /// teacc 90.64 lr 0.00876536
+249
+0.00876535733001806
+changing lr
+epoch 16, time 325.93, cls_loss 0.5865 cls_loss_mapping 0.6469 cls_loss_causal 1.4535 re_mapping 0.2249 re_causal 0.2442 /// teacc 83.63 lr 0.00861397
+249
+0.008613974319136962
+changing lr
+epoch 17, time 325.67, cls_loss 0.2541 cls_loss_mapping 0.5530 cls_loss_causal 1.3152 re_mapping 0.1981 re_causal 0.2108 /// teacc 90.64 lr 0.00845531
+249
+0.008455313244934327
+changing lr
+epoch 18, time 328.07, cls_loss 0.1021 cls_loss_mapping 0.4746 cls_loss_causal 1.2840 re_mapping 0.1724 re_causal 0.1940 /// teacc 91.81 lr 0.00828969
+249
+0.008289693629698565
+changing lr
+epoch 19, time 327.66, cls_loss 0.2583 cls_loss_mapping 0.4658 cls_loss_causal 1.3477 re_mapping 0.1511 re_causal 0.1725 /// teacc 85.38 lr 0.00811745
+249
+0.00811744900929367
+changing lr
+epoch 20, time 330.32, cls_loss 0.2436 cls_loss_mapping 0.4640 cls_loss_causal 1.2885 re_mapping 0.1358 re_causal 0.1612 /// teacc 89.47 lr 0.00793893
+249
+0.007938926261462368
+changing lr
+epoch 21, time 327.13, cls_loss 0.0809 cls_loss_mapping 0.3624 cls_loss_causal 1.1645 re_mapping 0.1276 re_causal 0.1497 /// teacc 92.40 lr 0.00775448
+249
+0.007754484907260515
+changing lr
+---------------------saving model at epoch 22----------------------------------------------------
+epoch 22, time 327.51, cls_loss 0.0782 cls_loss_mapping 0.2983 cls_loss_causal 1.0244 re_mapping 0.1161 re_causal 0.1302 /// teacc 95.91 lr 0.00756450
+249
+0.007564496387029534
+changing lr
+epoch 23, time 328.44, cls_loss 0.0508 cls_loss_mapping 0.2665 cls_loss_causal 1.0062 re_mapping 0.1035 re_causal 0.1238 /// teacc 92.40 lr 0.00736934
+249
+0.007369343312364995
+changing lr
+epoch 24, time 326.85, cls_loss 0.0439 cls_loss_mapping 0.2489 cls_loss_causal 0.9377 re_mapping 0.0935 re_causal 0.1083 /// teacc 93.57 lr 0.00716942
+249
+0.0071694186955877925
+changing lr
+epoch 25, time 328.40, cls_loss 0.0447 cls_loss_mapping 0.2510 cls_loss_causal 0.9697 re_mapping 0.0891 re_causal 0.1042 /// teacc 95.32 lr 0.00696513
+249
+0.0069651251582696205
+changing lr
+epoch 26, time 326.49, cls_loss 0.0183 cls_loss_mapping 0.2090 cls_loss_causal 0.9070 re_mapping 0.0889 re_causal 0.1054 /// teacc 94.15 lr 0.00675687
+249
+0.006756874120406716
+changing lr
+epoch 27, time 329.18, cls_loss 0.0199 cls_loss_mapping 0.2252 cls_loss_causal 0.9563 re_mapping 0.0849 re_causal 0.1040 /// teacc 92.40 lr 0.00654508
+249
+0.00654508497187474
+changing lr
+epoch 28, time 331.00, cls_loss 0.0349 cls_loss_mapping 0.1811 cls_loss_causal 0.8829 re_mapping 0.0737 re_causal 0.0947 /// teacc 94.15 lr 0.00633018
+249
+0.006330184227833378
+changing lr
+epoch 29, time 330.93, cls_loss 0.0173 cls_loss_mapping 0.1582 cls_loss_causal 0.8307 re_mapping 0.0685 re_causal 0.0870 /// teacc 95.91 lr 0.00611260
+249
+0.006112604669781575
+changing lr
+---------------------saving model at epoch 30----------------------------------------------------
+epoch 30, time 333.04, cls_loss 0.0136 cls_loss_mapping 0.1520 cls_loss_causal 0.8025 re_mapping 0.0632 re_causal 0.0809 /// teacc 97.08 lr 0.00589278
+249
+0.005892784473993186
+changing lr
+epoch 31, time 328.71, cls_loss 0.0093 cls_loss_mapping 0.1464 cls_loss_causal 0.7705 re_mapping 0.0664 re_causal 0.0860 /// teacc 95.32 lr 0.00567117
+249
+0.00567116632908828
+changing lr
+epoch 32, time 331.65, cls_loss 0.0048 cls_loss_mapping 0.1322 cls_loss_causal 0.7072 re_mapping 0.0552 re_causal 0.0736 /// teacc 95.32 lr 0.00544820
+249
+0.00544819654451717
+changing lr
+---------------------saving model at epoch 33----------------------------------------------------
+epoch 33, time 331.93, cls_loss 0.0196 cls_loss_mapping 0.1406 cls_loss_causal 0.7016 re_mapping 0.0551 re_causal 0.0790 /// teacc 97.66 lr 0.00522432
+249
+0.005224324151752577
+changing lr
+epoch 34, time 326.51, cls_loss 0.0110 cls_loss_mapping 0.1272 cls_loss_causal 0.7379 re_mapping 0.0532 re_causal 0.0753 /// teacc 95.91 lr 0.00500000
+249
+0.005000000000000003
+changing lr
+epoch 35, time 326.79, cls_loss 0.0039 cls_loss_mapping 0.1204 cls_loss_causal 0.7016 re_mapping 0.0500 re_causal 0.0750 /// teacc 96.49 lr 0.00477568
+249
+0.004775675848247429
+changing lr
+epoch 36, time 328.75, cls_loss 0.0098 cls_loss_mapping 0.1122 cls_loss_causal 0.6372 re_mapping 0.0458 re_causal 0.0661 /// teacc 95.32 lr 0.00455180
+249
+0.004551803455482836
+changing lr
+epoch 37, time 333.82, cls_loss 0.0088 cls_loss_mapping 0.1083 cls_loss_causal 0.6648 re_mapping 0.0459 re_causal 0.0701 /// teacc 95.91 lr 0.00432883
+249
+0.004328833670911726
+changing lr
+epoch 38, time 328.36, cls_loss 0.0111 cls_loss_mapping 0.1082 cls_loss_causal 0.6774 re_mapping 0.0479 re_causal 0.0716 /// teacc 94.74 lr 0.00410722
+249
+0.0041072155260068206
+changing lr
+epoch 39, time 329.81, cls_loss 0.0019 cls_loss_mapping 0.0890 cls_loss_causal 0.6447 re_mapping 0.0461 re_causal 0.0699 /// teacc 95.32 lr 0.00388740
+249
+0.0038873953302184317
+changing lr
+epoch 40, time 329.55, cls_loss 0.0031 cls_loss_mapping 0.0853 cls_loss_causal 0.5882 re_mapping 0.0445 re_causal 0.0632 /// teacc 94.74 lr 0.00366982
+249
+0.003669815772166629
+changing lr
+epoch 41, time 330.31, cls_loss 0.0050 cls_loss_mapping 0.0811 cls_loss_causal 0.5662 re_mapping 0.0384 re_causal 0.0568 /// teacc 95.32 lr 0.00345492
+249
+0.0034549150281252667
+changing lr
+epoch 42, time 333.18, cls_loss 0.0062 cls_loss_mapping 0.0839 cls_loss_causal 0.6104 re_mapping 0.0375 re_causal 0.0582 /// teacc 95.91 lr 0.00324313
+249
+0.0032431258795932905
+changing lr
+epoch 43, time 329.10, cls_loss 0.0014 cls_loss_mapping 0.0792 cls_loss_causal 0.5998 re_mapping 0.0385 re_causal 0.0578 /// teacc 96.49 lr 0.00303487
+249
+0.0030348748417303863
+changing lr
+epoch 44, time 327.44, cls_loss 0.0038 cls_loss_mapping 0.0816 cls_loss_causal 0.5993 re_mapping 0.0363 re_causal 0.0564 /// teacc 96.49 lr 0.00283058
+249
+0.0028305813044122124
+changing lr
+epoch 45, time 328.69, cls_loss 0.0064 cls_loss_mapping 0.0724 cls_loss_causal 0.5434 re_mapping 0.0350 re_causal 0.0566 /// teacc 97.08 lr 0.00263066
+249
+0.0026306566876350096
+changing lr
+epoch 46, time 329.11, cls_loss 0.0036 cls_loss_mapping 0.0732 cls_loss_causal 0.6550 re_mapping 0.0336 re_causal 0.0560 /// teacc 97.66 lr 0.00243550
+249
+0.0024355036129704724
+changing lr
+epoch 47, time 330.95, cls_loss 0.0028 cls_loss_mapping 0.0696 cls_loss_causal 0.5213 re_mapping 0.0347 re_causal 0.0540 /// teacc 95.32 lr 0.00224552
+249
+0.00224551509273949
+changing lr
+epoch 48, time 329.49, cls_loss 0.0022 cls_loss_mapping 0.0614 cls_loss_causal 0.5186 re_mapping 0.0319 re_causal 0.0531 /// teacc 97.08 lr 0.00206107
+249
+0.002061073738537637
+changing lr
+epoch 49, time 327.39, cls_loss 0.0030 cls_loss_mapping 0.0631 cls_loss_causal 0.5368 re_mapping 0.0315 re_causal 0.0477 /// teacc 97.08 lr 0.00188255
+249
+0.0018825509907063344
+changing lr
+epoch 50, time 330.68, cls_loss 0.0025 cls_loss_mapping 0.0624 cls_loss_causal 0.5418 re_mapping 0.0308 re_causal 0.0501 /// teacc 95.91 lr 0.00171031
+249
+0.0017103063703014388
+changing lr
+epoch 51, time 331.11, cls_loss 0.0024 cls_loss_mapping 0.0666 cls_loss_causal 0.6219 re_mapping 0.0303 re_causal 0.0463 /// teacc 94.15 lr 0.00154469
+249
+0.0015446867550656784
+changing lr
+epoch 52, time 329.80, cls_loss 0.0037 cls_loss_mapping 0.0624 cls_loss_causal 0.5204 re_mapping 0.0305 re_causal 0.0459 /// teacc 95.91 lr 0.00138603
+249
+0.001386025680863044
+changing lr
+epoch 53, time 330.30, cls_loss 0.0021 cls_loss_mapping 0.0573 cls_loss_causal 0.4976 re_mapping 0.0330 re_causal 0.0522 /// teacc 96.49 lr 0.00123464
+249
+0.0012346426699819469
+changing lr
+epoch 54, time 328.15, cls_loss 0.0037 cls_loss_mapping 0.0636 cls_loss_causal 0.5476 re_mapping 0.0300 re_causal 0.0478 /// teacc 94.74 lr 0.00109084
+249
+0.0010908425876598518
+changing lr
+epoch 55, time 330.82, cls_loss 0.0019 cls_loss_mapping 0.0573 cls_loss_causal 0.4965 re_mapping 0.0298 re_causal 0.0464 /// teacc 94.74 lr 0.00095492
+249
+0.000954915028125264
+changing lr
+epoch 56, time 327.34, cls_loss 0.0026 cls_loss_mapping 0.0569 cls_loss_causal 0.5251 re_mapping 0.0303 re_causal 0.0466 /// teacc 95.91 lr 0.00082713
+249
+0.0008271337313934874
+changing lr
+epoch 57, time 333.58, cls_loss 0.0042 cls_loss_mapping 0.0546 cls_loss_causal 0.5309 re_mapping 0.0287 re_causal 0.0428 /// teacc 95.32 lr 0.00070776
+249
+0.00070775603199067
+changing lr
+epoch 58, time 328.86, cls_loss 0.0031 cls_loss_mapping 0.0587 cls_loss_causal 0.5149 re_mapping 0.0288 re_causal 0.0456 /// teacc 96.49 lr 0.00059702
+249
+0.0005970223407163104
+changing lr
+epoch 59, time 328.86, cls_loss 0.0046 cls_loss_mapping 0.0559 cls_loss_causal 0.5242 re_mapping 0.0292 re_causal 0.0461 /// teacc 95.32 lr 0.00049516
+249
+0.0004951556604879052
+changing lr
+epoch 60, time 329.33, cls_loss 0.0035 cls_loss_mapping 0.0531 cls_loss_causal 0.5105 re_mapping 0.0286 re_causal 0.0415 /// teacc 94.74 lr 0.00040236
+249
+0.00040236113724274745
+changing lr
+epoch 61, time 329.57, cls_loss 0.0024 cls_loss_mapping 0.0552 cls_loss_causal 0.5395 re_mapping 0.0269 re_causal 0.0440 /// teacc 95.91 lr 0.00031883
+249
+0.00031882564680131423
+changing lr
+epoch 62, time 333.79, cls_loss 0.0025 cls_loss_mapping 0.0505 cls_loss_causal 0.5307 re_mapping 0.0257 re_causal 0.0430 /// teacc 95.32 lr 0.00024472
+249
+0.0002447174185242325
+changing lr
+epoch 63, time 325.49, cls_loss 0.0033 cls_loss_mapping 0.0561 cls_loss_causal 0.5009 re_mapping 0.0285 re_causal 0.0429 /// teacc 96.49 lr 0.00018019
+249
+0.0001801856965207339
+changing lr
+epoch 64, time 325.60, cls_loss 0.0020 cls_loss_mapping 0.0478 cls_loss_causal 0.5195 re_mapping 0.0274 re_causal 0.0416 /// teacc 95.32 lr 0.00012536
+249
+0.000125360439090882
+changing lr
+epoch 65, time 329.45, cls_loss 0.0022 cls_loss_mapping 0.0502 cls_loss_causal 0.4924 re_mapping 0.0274 re_causal 0.0425 /// teacc 94.15 lr 0.00008035
+249
+8.03520570068517e-05
+changing lr
+epoch 66, time 331.82, cls_loss 0.0036 cls_loss_mapping 0.0536 cls_loss_causal 0.5226 re_mapping 0.0276 re_causal 0.0429 /// teacc 95.91 lr 0.00004525
+249
+4.5251191160326525e-05
+changing lr
+epoch 67, time 328.42, cls_loss 0.0030 cls_loss_mapping 0.0563 cls_loss_causal 0.5390 re_mapping 0.0282 re_causal 0.0435 /// teacc 95.32 lr 0.00002013
+249
+2.0128530023804673e-05
+changing lr
+epoch 68, time 331.35, cls_loss 0.0034 cls_loss_mapping 0.0501 cls_loss_causal 0.5100 re_mapping 0.0269 re_causal 0.0424 /// teacc 95.32 lr 0.00000503
+249
+5.034667293427056e-06
+changing lr
+epoch 69, time 332.59, cls_loss 0.0023 cls_loss_mapping 0.0540 cls_loss_causal 0.5166 re_mapping 0.0279 re_causal 0.0451 /// teacc 97.08 lr 0.00000000
+---------------------saving last model at epoch 69----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//photo/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_ReProduceMetaCausal', 'source_domain': 'photo', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//photo/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_ReProduceMetaCausal/photo_16factor_last_test_check.csv', 'factor_num': 16, 'epoch': 'last', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of last
+randm: False
+stride: 5
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+columns: ['photo', 'art_painting', 'cartoon', 'sketch']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+                         photo  art_painting    cartoon     sketch        Avg
+w/o do (original x)  99.700599     60.253906  43.515358  57.724612  53.831292
+        photo  art_painting    cartoon    sketch        Avg
+do  99.760479      60.15625  49.274744  60.57521  56.668735
diff --git a/Meta-causal/code/56722.error b/Meta-causal/code/56722.error
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/Meta-causal/code/56722.log b/Meta-causal/code/56722.log
new file mode 100644
index 0000000000000000000000000000000000000000..7f87ef44ae593d26a6c9da1bc6c04bcc59b5b290
--- /dev/null
+++ b/Meta-causal/code/56722.log
@@ -0,0 +1,333 @@
+/home/yuqian_fu
+{'gpu': '0', 'data': 'sketch', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 5, 'factor_num': 16, 'epochs': 70, 'nbatch': 100, 'batchsize': 6, 'lr': 0.01, 'lr_scheduler': 'cosine', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_ReProduceMetaCausal', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
+stride: 5
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_train.hdf5 torch.Size([3531, 3, 227, 227]) torch.Size([3531])
+--------------------------CA_multiple--------------------------
+---------------------------16 factors-----------------
+randm: True
+randn: True
+n: 3
+randm: False
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_val.hdf5 torch.Size([398, 3, 227, 227]) torch.Size([398])
+-------------------------------------loading pretrain weights----------------------------------
+588
+0.01
+changing lr
+---------------------saving model at epoch 0----------------------------------------------------
+epoch 0, time 845.95, cls_loss 3.6738 cls_loss_mapping 1.1243 cls_loss_causal 1.4459 re_mapping 0.6948 re_causal 0.6950 /// teacc 87.69 lr 0.00999497
+588
+0.009994965332706574
+changing lr
+---------------------saving model at epoch 1----------------------------------------------------
+epoch 1, time 854.64, cls_loss 0.5577 cls_loss_mapping 0.4581 cls_loss_causal 1.0021 re_mapping 0.2545 re_causal 0.2541 /// teacc 90.20 lr 0.00997987
+588
+0.009979871469976196
+changing lr
+epoch 2, time 878.75, cls_loss 0.1988 cls_loss_mapping 0.2884 cls_loss_causal 0.8433 re_mapping 0.1588 re_causal 0.1584 /// teacc 89.70 lr 0.00995475
+588
+0.009954748808839675
+changing lr
+---------------------saving model at epoch 3----------------------------------------------------
+epoch 3, time 892.14, cls_loss 0.1337 cls_loss_mapping 0.2165 cls_loss_causal 0.7708 re_mapping 0.1261 re_causal 0.1263 /// teacc 92.96 lr 0.00991965
+588
+0.009919647942993149
+changing lr
+---------------------saving model at epoch 4----------------------------------------------------
+epoch 4, time 852.27, cls_loss 0.0720 cls_loss_mapping 0.1604 cls_loss_causal 0.6995 re_mapping 0.1031 re_causal 0.1040 /// teacc 93.22 lr 0.00987464
+588
+0.009874639560909117
+changing lr
+---------------------saving model at epoch 5----------------------------------------------------
+epoch 5, time 847.00, cls_loss 0.0390 cls_loss_mapping 0.1253 cls_loss_causal 0.6512 re_mapping 0.0839 re_causal 0.0858 /// teacc 93.72 lr 0.00981981
+588
+0.009819814303479266
+changing lr
+epoch 6, time 868.82, cls_loss 0.0280 cls_loss_mapping 0.1074 cls_loss_causal 0.6153 re_mapping 0.0698 re_causal 0.0724 /// teacc 92.46 lr 0.00975528
+588
+0.009755282581475767
+changing lr
+---------------------saving model at epoch 7----------------------------------------------------
+epoch 7, time 845.22, cls_loss 0.0251 cls_loss_mapping 0.0936 cls_loss_causal 0.5946 re_mapping 0.0582 re_causal 0.0616 /// teacc 93.97 lr 0.00968117
+588
+0.009681174353198686
+changing lr
+epoch 8, time 850.90, cls_loss 0.0209 cls_loss_mapping 0.0815 cls_loss_causal 0.5643 re_mapping 0.0500 re_causal 0.0549 /// teacc 92.71 lr 0.00959764
+588
+0.009597638862757255
+changing lr
+---------------------saving model at epoch 9----------------------------------------------------
+epoch 9, time 861.45, cls_loss 0.0196 cls_loss_mapping 0.0758 cls_loss_causal 0.5799 re_mapping 0.0425 re_causal 0.0492 /// teacc 94.97 lr 0.00950484
+588
+0.009504844339512096
+changing lr
+epoch 10, time 887.24, cls_loss 0.0124 cls_loss_mapping 0.0557 cls_loss_causal 0.5474 re_mapping 0.0349 re_causal 0.0424 /// teacc 94.22 lr 0.00940298
+588
+0.009402977659283692
+changing lr
+epoch 11, time 860.82, cls_loss 0.0155 cls_loss_mapping 0.0521 cls_loss_causal 0.5327 re_mapping 0.0303 re_causal 0.0397 /// teacc 92.96 lr 0.00929224
+588
+0.009292243968009333
+changing lr
+epoch 12, time 882.17, cls_loss 0.0122 cls_loss_mapping 0.0491 cls_loss_causal 0.5306 re_mapping 0.0254 re_causal 0.0353 /// teacc 92.46 lr 0.00917287
+588
+0.009172866268606516
+changing lr
+epoch 13, time 886.31, cls_loss 0.0123 cls_loss_mapping 0.0488 cls_loss_causal 0.5114 re_mapping 0.0231 re_causal 0.0341 /// teacc 93.97 lr 0.00904508
+588
+0.00904508497187474
+changing lr
+epoch 14, time 860.16, cls_loss 0.0097 cls_loss_mapping 0.0391 cls_loss_causal 0.5384 re_mapping 0.0201 re_causal 0.0320 /// teacc 94.47 lr 0.00890916
+588
+0.008909157412340152
+changing lr
+epoch 15, time 851.33, cls_loss 0.0083 cls_loss_mapping 0.0374 cls_loss_causal 0.4965 re_mapping 0.0180 re_causal 0.0299 /// teacc 92.71 lr 0.00876536
+588
+0.00876535733001806
+changing lr
+epoch 16, time 856.91, cls_loss 0.0087 cls_loss_mapping 0.0368 cls_loss_causal 0.4716 re_mapping 0.0163 re_causal 0.0278 /// teacc 91.96 lr 0.00861397
+588
+0.008613974319136962
+changing lr
+epoch 17, time 881.17, cls_loss 0.0070 cls_loss_mapping 0.0307 cls_loss_causal 0.4890 re_mapping 0.0146 re_causal 0.0269 /// teacc 93.47 lr 0.00845531
+588
+0.008455313244934327
+changing lr
+epoch 18, time 868.14, cls_loss 0.0060 cls_loss_mapping 0.0262 cls_loss_causal 0.4835 re_mapping 0.0132 re_causal 0.0256 /// teacc 93.47 lr 0.00828969
+588
+0.008289693629698565
+changing lr
+epoch 19, time 883.13, cls_loss 0.0067 cls_loss_mapping 0.0258 cls_loss_causal 0.4667 re_mapping 0.0123 re_causal 0.0250 /// teacc 93.72 lr 0.00811745
+588
+0.00811744900929367
+changing lr
+epoch 20, time 884.58, cls_loss 0.0064 cls_loss_mapping 0.0251 cls_loss_causal 0.4629 re_mapping 0.0117 re_causal 0.0239 /// teacc 94.72 lr 0.00793893
+588
+0.007938926261462368
+changing lr
+epoch 21, time 875.05, cls_loss 0.0051 cls_loss_mapping 0.0202 cls_loss_causal 0.4715 re_mapping 0.0107 re_causal 0.0234 /// teacc 92.46 lr 0.00775448
+588
+0.007754484907260515
+changing lr
+epoch 22, time 896.60, cls_loss 0.0054 cls_loss_mapping 0.0194 cls_loss_causal 0.4351 re_mapping 0.0099 re_causal 0.0214 /// teacc 94.97 lr 0.00756450
+588
+0.007564496387029534
+changing lr
+epoch 23, time 860.93, cls_loss 0.0049 cls_loss_mapping 0.0175 cls_loss_causal 0.4279 re_mapping 0.0094 re_causal 0.0210 /// teacc 92.71 lr 0.00736934
+588
+0.007369343312364995
+changing lr
+epoch 24, time 870.01, cls_loss 0.0046 cls_loss_mapping 0.0183 cls_loss_causal 0.4499 re_mapping 0.0094 re_causal 0.0216 /// teacc 94.22 lr 0.00716942
+588
+0.0071694186955877925
+changing lr
+epoch 25, time 881.12, cls_loss 0.0059 cls_loss_mapping 0.0212 cls_loss_causal 0.4502 re_mapping 0.0092 re_causal 0.0210 /// teacc 94.22 lr 0.00696513
+588
+0.0069651251582696205
+changing lr
+epoch 26, time 883.73, cls_loss 0.0052 cls_loss_mapping 0.0151 cls_loss_causal 0.4330 re_mapping 0.0088 re_causal 0.0207 /// teacc 94.47 lr 0.00675687
+588
+0.006756874120406716
+changing lr
+epoch 27, time 876.67, cls_loss 0.0050 cls_loss_mapping 0.0183 cls_loss_causal 0.4334 re_mapping 0.0082 re_causal 0.0200 /// teacc 93.22 lr 0.00654508
+588
+0.00654508497187474
+changing lr
+epoch 28, time 849.09, cls_loss 0.0067 cls_loss_mapping 0.0154 cls_loss_causal 0.4283 re_mapping 0.0084 re_causal 0.0204 /// teacc 93.47 lr 0.00633018
+588
+0.006330184227833378
+changing lr
+epoch 29, time 851.32, cls_loss 0.0044 cls_loss_mapping 0.0147 cls_loss_causal 0.3901 re_mapping 0.0077 re_causal 0.0185 /// teacc 92.96 lr 0.00611260
+588
+0.006112604669781575
+changing lr
+epoch 30, time 854.67, cls_loss 0.0034 cls_loss_mapping 0.0126 cls_loss_causal 0.4241 re_mapping 0.0076 re_causal 0.0193 /// teacc 93.72 lr 0.00589278
+588
+0.005892784473993186
+changing lr
+epoch 31, time 861.52, cls_loss 0.0048 cls_loss_mapping 0.0151 cls_loss_causal 0.4106 re_mapping 0.0072 re_causal 0.0186 /// teacc 93.22 lr 0.00567117
+588
+0.00567116632908828
+changing lr
+epoch 32, time 886.70, cls_loss 0.0034 cls_loss_mapping 0.0119 cls_loss_causal 0.4174 re_mapping 0.0070 re_causal 0.0183 /// teacc 93.72 lr 0.00544820
+588
+0.00544819654451717
+changing lr
+epoch 33, time 865.62, cls_loss 0.0038 cls_loss_mapping 0.0111 cls_loss_causal 0.4096 re_mapping 0.0068 re_causal 0.0178 /// teacc 92.96 lr 0.00522432
+588
+0.005224324151752577
+changing lr
+epoch 34, time 853.80, cls_loss 0.0039 cls_loss_mapping 0.0117 cls_loss_causal 0.4176 re_mapping 0.0066 re_causal 0.0176 /// teacc 93.22 lr 0.00500000
+588
+0.005000000000000003
+changing lr
+epoch 35, time 873.63, cls_loss 0.0043 cls_loss_mapping 0.0126 cls_loss_causal 0.4324 re_mapping 0.0065 re_causal 0.0176 /// teacc 93.22 lr 0.00477568
+588
+0.004775675848247429
+changing lr
+epoch 36, time 847.64, cls_loss 0.0035 cls_loss_mapping 0.0099 cls_loss_causal 0.4156 re_mapping 0.0062 re_causal 0.0166 /// teacc 93.72 lr 0.00455180
+588
+0.004551803455482836
+changing lr
+epoch 37, time 821.88, cls_loss 0.0038 cls_loss_mapping 0.0099 cls_loss_causal 0.4130 re_mapping 0.0059 re_causal 0.0165 /// teacc 94.22 lr 0.00432883
+588
+0.004328833670911726
+changing lr
+epoch 38, time 833.52, cls_loss 0.0039 cls_loss_mapping 0.0113 cls_loss_causal 0.3887 re_mapping 0.0059 re_causal 0.0166 /// teacc 94.97 lr 0.00410722
+588
+0.0041072155260068206
+changing lr
+epoch 39, time 803.24, cls_loss 0.0032 cls_loss_mapping 0.0079 cls_loss_causal 0.4193 re_mapping 0.0058 re_causal 0.0165 /// teacc 94.72 lr 0.00388740
+588
+0.0038873953302184317
+changing lr
+epoch 40, time 810.38, cls_loss 0.0034 cls_loss_mapping 0.0082 cls_loss_causal 0.3832 re_mapping 0.0056 re_causal 0.0154 /// teacc 93.47 lr 0.00366982
+588
+0.003669815772166629
+changing lr
+epoch 41, time 798.30, cls_loss 0.0038 cls_loss_mapping 0.0093 cls_loss_causal 0.3853 re_mapping 0.0054 re_causal 0.0152 /// teacc 93.72 lr 0.00345492
+588
+0.0034549150281252667
+changing lr
+epoch 42, time 770.71, cls_loss 0.0038 cls_loss_mapping 0.0078 cls_loss_causal 0.4206 re_mapping 0.0052 re_causal 0.0155 /// teacc 93.22 lr 0.00324313
+588
+0.0032431258795932905
+changing lr
+epoch 43, time 769.73, cls_loss 0.0032 cls_loss_mapping 0.0085 cls_loss_causal 0.3786 re_mapping 0.0052 re_causal 0.0147 /// teacc 94.22 lr 0.00303487
+588
+0.0030348748417303863
+changing lr
+epoch 44, time 781.30, cls_loss 0.0030 cls_loss_mapping 0.0066 cls_loss_causal 0.3762 re_mapping 0.0052 re_causal 0.0141 /// teacc 92.96 lr 0.00283058
+588
+0.0028305813044122124
+changing lr
+epoch 45, time 763.23, cls_loss 0.0028 cls_loss_mapping 0.0060 cls_loss_causal 0.3935 re_mapping 0.0050 re_causal 0.0143 /// teacc 93.97 lr 0.00263066
+588
+0.0026306566876350096
+changing lr
+epoch 46, time 756.78, cls_loss 0.0030 cls_loss_mapping 0.0072 cls_loss_causal 0.3847 re_mapping 0.0049 re_causal 0.0141 /// teacc 94.47 lr 0.00243550
+588
+0.0024355036129704724
+changing lr
+epoch 47, time 753.45, cls_loss 0.0027 cls_loss_mapping 0.0062 cls_loss_causal 0.3732 re_mapping 0.0048 re_causal 0.0134 /// teacc 93.72 lr 0.00224552
+588
+0.00224551509273949
+changing lr
+epoch 48, time 753.93, cls_loss 0.0029 cls_loss_mapping 0.0050 cls_loss_causal 0.3621 re_mapping 0.0047 re_causal 0.0131 /// teacc 94.22 lr 0.00206107
+588
+0.002061073738537637
+changing lr
+epoch 49, time 760.37, cls_loss 0.0028 cls_loss_mapping 0.0057 cls_loss_causal 0.3736 re_mapping 0.0048 re_causal 0.0132 /// teacc 93.47 lr 0.00188255
+588
+0.0018825509907063344
+changing lr
+---------------------saving model at epoch 50----------------------------------------------------
+epoch 50, time 761.62, cls_loss 0.0025 cls_loss_mapping 0.0047 cls_loss_causal 0.3886 re_mapping 0.0047 re_causal 0.0133 /// teacc 95.48 lr 0.00171031
+588
+0.0017103063703014388
+changing lr
+epoch 51, time 757.83, cls_loss 0.0026 cls_loss_mapping 0.0051 cls_loss_causal 0.3723 re_mapping 0.0047 re_causal 0.0131 /// teacc 92.21 lr 0.00154469
+588
+0.0015446867550656784
+changing lr
+epoch 52, time 756.68, cls_loss 0.0027 cls_loss_mapping 0.0047 cls_loss_causal 0.3874 re_mapping 0.0046 re_causal 0.0131 /// teacc 92.71 lr 0.00138603
+588
+0.001386025680863044
+changing lr
+epoch 53, time 758.80, cls_loss 0.0027 cls_loss_mapping 0.0049 cls_loss_causal 0.3915 re_mapping 0.0046 re_causal 0.0130 /// teacc 93.72 lr 0.00123464
+588
+0.0012346426699819469
+changing lr
+epoch 54, time 754.88, cls_loss 0.0026 cls_loss_mapping 0.0049 cls_loss_causal 0.3825 re_mapping 0.0045 re_causal 0.0130 /// teacc 94.22 lr 0.00109084
+588
+0.0010908425876598518
+changing lr
+epoch 55, time 758.50, cls_loss 0.0030 cls_loss_mapping 0.0050 cls_loss_causal 0.3839 re_mapping 0.0045 re_causal 0.0126 /// teacc 93.22 lr 0.00095492
+588
+0.000954915028125264
+changing lr
+epoch 56, time 757.06, cls_loss 0.0025 cls_loss_mapping 0.0044 cls_loss_causal 0.3577 re_mapping 0.0045 re_causal 0.0122 /// teacc 94.22 lr 0.00082713
+588
+0.0008271337313934874
+changing lr
+epoch 57, time 758.09, cls_loss 0.0023 cls_loss_mapping 0.0046 cls_loss_causal 0.3461 re_mapping 0.0046 re_causal 0.0118 /// teacc 93.47 lr 0.00070776
+588
+0.00070775603199067
+changing lr
+epoch 58, time 760.13, cls_loss 0.0023 cls_loss_mapping 0.0039 cls_loss_causal 0.3523 re_mapping 0.0046 re_causal 0.0118 /// teacc 94.47 lr 0.00059702
+588
+0.0005970223407163104
+changing lr
+epoch 59, time 756.85, cls_loss 0.0021 cls_loss_mapping 0.0035 cls_loss_causal 0.3762 re_mapping 0.0045 re_causal 0.0121 /// teacc 93.22 lr 0.00049516
+588
+0.0004951556604879052
+changing lr
+epoch 60, time 754.41, cls_loss 0.0023 cls_loss_mapping 0.0041 cls_loss_causal 0.3579 re_mapping 0.0044 re_causal 0.0115 /// teacc 92.71 lr 0.00040236
+588
+0.00040236113724274745
+changing lr
+epoch 61, time 758.79, cls_loss 0.0026 cls_loss_mapping 0.0042 cls_loss_causal 0.3682 re_mapping 0.0044 re_causal 0.0114 /// teacc 93.72 lr 0.00031883
+588
+0.00031882564680131423
+changing lr
+epoch 62, time 752.52, cls_loss 0.0025 cls_loss_mapping 0.0039 cls_loss_causal 0.3746 re_mapping 0.0044 re_causal 0.0117 /// teacc 92.46 lr 0.00024472
+588
+0.0002447174185242325
+changing lr
+epoch 63, time 758.14, cls_loss 0.0025 cls_loss_mapping 0.0034 cls_loss_causal 0.3751 re_mapping 0.0044 re_causal 0.0115 /// teacc 93.72 lr 0.00018019
+588
+0.0001801856965207339
+changing lr
+epoch 64, time 751.51, cls_loss 0.0024 cls_loss_mapping 0.0034 cls_loss_causal 0.3590 re_mapping 0.0044 re_causal 0.0114 /// teacc 93.47 lr 0.00012536
+588
+0.000125360439090882
+changing lr
+epoch 65, time 760.25, cls_loss 0.0030 cls_loss_mapping 0.0049 cls_loss_causal 0.3519 re_mapping 0.0044 re_causal 0.0112 /// teacc 93.97 lr 0.00008035
+588
+8.03520570068517e-05
+changing lr
+epoch 66, time 759.68, cls_loss 0.0023 cls_loss_mapping 0.0036 cls_loss_causal 0.3571 re_mapping 0.0044 re_causal 0.0114 /// teacc 92.96 lr 0.00004525
+588
+4.5251191160326525e-05
+changing lr
+epoch 67, time 758.83, cls_loss 0.0025 cls_loss_mapping 0.0043 cls_loss_causal 0.3541 re_mapping 0.0044 re_causal 0.0113 /// teacc 92.21 lr 0.00002013
+588
+2.0128530023804673e-05
+changing lr
+epoch 68, time 755.82, cls_loss 0.0021 cls_loss_mapping 0.0032 cls_loss_causal 0.3385 re_mapping 0.0044 re_causal 0.0113 /// teacc 93.22 lr 0.00000503
+588
+5.034667293427056e-06
+changing lr
+epoch 69, time 757.80, cls_loss 0.0027 cls_loss_mapping 0.0040 cls_loss_causal 0.3563 re_mapping 0.0044 re_causal 0.0113 /// teacc 93.22 lr 0.00000000
+---------------------saving last model at epoch 69----------------------------------------------------
+/home/yuqian_fu
+{'gpu': '0', 'svroot': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_ReProduceMetaCausal', 'source_domain': 'sketch', 'svpath': '/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS//sketch/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5_ReProduceMetaCausal/sketch_16factor_last_test_check.csv', 'factor_num': 16, 'epoch': 'last', 'stride': 5, 'eval_mapping': False, 'network': 'resnet18'}
+-------------------------------------loading pretrain weights----------------------------------
+loading weight of last
+randm: False
+stride: 5
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+loading weight of last
+columns: ['sketch', 'art_painting', 'cartoon', 'photo']
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/sketch_test.hdf5 torch.Size([3929, 3, 227, 227]) torch.Size([3929])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/art_painting_test.hdf5 torch.Size([2048, 3, 227, 227]) torch.Size([2048])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/cartoon_test.hdf5 torch.Size([2344, 3, 227, 227]) torch.Size([2344])
+/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/photo_test.hdf5 torch.Size([1670, 3, 227, 227]) torch.Size([1670])
+                        sketch  art_painting    cartoon      photo        Avg
+w/o do (original x)  99.312802     55.029297  67.491468  57.964072  60.161612
+       sketch  art_painting   cartoon      photo        Avg
+do  99.312802     49.804688  63.90785  55.449102  56.387213
diff --git a/Meta-causal/code/data_loader_joint_v3.py b/Meta-causal/code/data_loader_joint_v3.py
new file mode 100644
index 0000000000000000000000000000000000000000..dd2de2de850d89657507ff9a0e348c94c0e070d0
--- /dev/null
+++ b/Meta-causal/code/data_loader_joint_v3.py
@@ -0,0 +1,743 @@
+''' Digit 实验
+'''
+import torch
+import torch.nn.functional as F
+from torch.utils.data import Dataset, TensorDataset
+from torchvision import transforms
+from torchvision.datasets import MNIST, SVHN, CIFAR10, STL10, USPS
+
+import os
+import pickle
+import numpy as np
+import h5py
+#import cv2
+from scipy.io import loadmat
+from PIL import Image
+
+from tools.autoaugment import SVHNPolicy, CIFAR10Policy
+from tools.randaugment import RandAugment
+from tools.causalaugment_v3 import RandAugment_incausal, FactualAugment_incausal, CounterfactualAugment_incausal, MultiCounterfactualAugment_incausal
+
+class myTensorDataset(Dataset):
+    def __init__(self, x, y, transform=None, transform2=None, transform3=None, twox=False):
+        self.x = x
+        self.y = y
+        self.transform = transform
+        self.transform2 = transform2
+        self.transform3 = transform3
+        self.twox = twox
+    def __len__(self):
+        return len(self.x)
+    def __getitem__(self, index):
+        x = self.x[index]
+        y = self.y[index]
+        c, h, w =x.shape
+        # print("x.shape:",x.shape)
+        if self.transform is not None:
+            x_RA = self.transform(x)
+            # print("x_RA.shape:",x_RA.shape)
+            if self.transform3 is not None:
+                x_CA = self.transform3(x_RA)
+                x_CA = x_CA.reshape(-1,c,h,w)
+                # print("x_CA.shape:",x_CA.shape)           
+                if self.transform2 is not None:
+                    x_FA = self.transform2(x)
+                    # x_FA = x_FA.view(c,13,h,w)
+                    x_FA = x_FA.reshape(-1,c,h,w)
+                    # print("x_FA_in getitem.shape:",x_FA.shape)
+                    # print("x_FA.shape:",x_FA.shape)
+                    return (x, x_RA, x_FA, x_CA), y
+                else:
+                    return (x, x_RA, x_CA), y
+            else:
+                if self.transform2 is not None:
+                    x_FA = self.transform2(x)
+                    x_FA = x_FA.reshape(-1,c,h,w)
+                    return (x, x_RA, x_FA), y
+                else:
+                    if self.twox:
+                        return (x, x_RA), y
+                    else:
+                        return  x_RA, y
+
+HOME = os.environ['HOME']
+print(HOME)
+def resize_imgs(x, size):
+    ''' 目前只能处理单通道 
+        x [n, 28, 28]
+        size int
+    '''
+    resize_x = np.zeros([x.shape[0], size, size])
+    for i, im in enumerate(x):
+        im = Image.fromarray(im)
+        im = im.resize([size, size], Image.ANTIALIAS)
+        resize_x[i] = np.asarray(im)
+    return resize_x
+
+def load_mnist(split='train', translate=None, twox=False, ntr=None, autoaug=None, factor_num=16, randm=False,randn=False,channels=3,n=3,stride=5):
+    '''
+        autoaug == 'AA', AutoAugment
+                   'FastAA', Fast AutoAugment
+                   'RA', RandAugment
+        channels == 3 默认返回 rgb 3通道图像
+                    1 返回单通道图像
+    '''
+    #path = f'data/mnist-{split}.pkl'
+    path = f'/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/minst-{split}.pkl'
+    if not os.path.exists(path):
+        dataset = MNIST(f'{HOME}/.pytorch/MNIST', train=(split=='train'), download=True)
+        x, y = dataset.data, dataset.targets
+        if split=='train':
+            x, y = x[0:10000], y[0:10000]
+        x = torch.tensor(resize_imgs(x.numpy(), 32))
+        x = (x.float()/255.).unsqueeze(1).repeat(1,3,1,1)
+        with open(path, 'wb') as f:
+            pickle.dump([x, y], f)
+    with open(path, 'rb') as f:
+        # print("reading!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!")
+        x, y = pickle.load(f)
+        if channels == 1:
+            x = x[:,0:1,:,:]
+    
+    if ntr is not None:
+        x, y = x[0:ntr], y[0:ntr]
+    
+    # 如果没有数据增强
+    if (translate is None) and (autoaug is None):
+        dataset = TensorDataset(x, y)
+        return dataset
+    
+    # 数据增强管道
+    transform = [transforms.ToPILImage()]
+    transform_single_factor = [transforms.ToPILImage()]
+    if autoaug == 'CA' or autoaug == 'CA_multiple':
+        transform_CA = [transforms.ToPILImage()]
+    if translate is not None:
+        transform.append(transforms.RandomAffine(0, [translate, translate]))
+        transform_single_factor.append(transforms.RandomAffine(0, [translate, translate]))
+        if autoaug == 'CA' or autoaug == 'CA_multiple':
+            transform_CA.append(transforms.RandomAffine(0, [translate, translate]))
+    if autoaug is not None:
+        if autoaug == 'CA':
+            print("--------------------------CA--------------------------")
+            print("n:",n)
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(CounterfactualAugment_incausal(factor_num))
+        elif autoaug == 'CA_multiple':
+            print("--------------------------CA_multiple--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(MultiCounterfactualAugment_incausal(factor_num, stride))
+        elif autoaug == 'Ours_A':
+            print("--------------------------Ours_Augment--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+
+    transform.append(transforms.ToTensor())
+    transform = transforms.Compose(transform)
+    transform_single_factor.append(transforms.ToTensor())
+    transform_single_factor = transforms.Compose(transform_single_factor)
+    if autoaug == 'CA' or autoaug == 'CA_multiple':
+        transform_CA.append(transforms.ToTensor())
+        transform_CA = transforms.Compose(transform_CA)
+        dataset = myTensorDataset(x, y, transform=transform, transform2=transform_single_factor, transform3=transform_CA,twox=twox)
+    else:
+        dataset = myTensorDataset(x, y, transform=transform, transform2=transform_single_factor, twox=twox)
+    # print(x.shape)
+    # print(y.shape)
+    return dataset
+
+def load_cifar10(split='train', translate=None, twox=False, autoaug=None, factor_num=16, randm=False,randn=False,channels=3,n=3,stride=5):
+    dataset = CIFAR10(f'{HOME}/.pytorch/CIFAR10', train=(split=='train'), download=True)
+    x, y = dataset.data, dataset.targets
+    x = x.transpose(0,3,1,2)
+    x, y = torch.tensor(x), torch.tensor(y)
+    x = x.float()/255.
+    print(x.shape,y.shape)
+    if (translate is None) and (autoaug is None):
+        dataset = TensorDataset(x, y)
+        return dataset
+    #x.transpose(0,3,1,2)
+    
+    # 数据增强管道
+    transform = [transforms.ToPILImage()]
+    transform_single_factor = [transforms.ToPILImage()]
+    if autoaug == 'CA' or autoaug == 'CA_multiple':
+        transform_CA = [transforms.ToPILImage()]
+    if translate is not None:
+        transform.append(transforms.RandomAffine(0, [translate, translate]))
+        transform_single_factor.append(transforms.RandomAffine(0, [translate, translate]))
+        if autoaug == 'CA' or autoaug == 'CA_multiple':
+            transform_CA.append(transforms.RandomAffine(0, [translate, translate]))
+    if autoaug is not None:
+        if autoaug == 'CA':
+            print("--------------------------CA--------------------------")
+            print("n:",n)
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(CounterfactualAugment_incausal(factor_num))
+        elif autoaug == 'CA_multiple':
+            print("--------------------------CA_multiple--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(MultiCounterfactualAugment_incausal(factor_num, stride))
+        elif autoaug == 'Ours_A':
+            print("--------------------------Ours_Augment--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+
+    transform.append(transforms.ToTensor())
+    transform = transforms.Compose(transform)
+    transform_single_factor.append(transforms.ToTensor())
+    transform_single_factor = transforms.Compose(transform_single_factor)
+    if autoaug == 'CA' or autoaug == 'CA_multiple':
+        transform_CA.append(transforms.ToTensor())
+        transform_CA = transforms.Compose(transform_CA)
+        dataset = myTensorDataset(x, y, transform=transform, transform2=transform_single_factor, transform3=transform_CA,twox=twox)
+    else:
+        dataset = myTensorDataset(x, y, transform=transform, transform2=transform_single_factor, twox=twox)
+    # print(x.shape)
+    # print(y.shape)
+    return dataset
+def load_IMG(task='S-U', translate=None, twox=False, autoaug=None, factor_num=16, randm=False,randn=False,channels=3,n=3,stride=5):
+    # path = f'data/img2vid/{domain}/stanford40_12.npz'
+    if task == 'S-U':
+        path = f'data/img2vid/{task}/stanford40_12.npz'
+    elif task == 'E-H':
+        path = f'data/img2vid/{task}/EAD50_13.npz'
+    print(path)
+    dataset = np.load(path)
+    x, y = dataset['x'], dataset['y']
+    b, g, r = np.split(x,3,axis=-1)
+    x = np.concatenate((r,g,b),axis=-1)
+    x = x.transpose(0,3,1,2)
+    x, y = torch.tensor(x), torch.tensor(y, dtype=torch.long)
+    x = x.float()/255.
+    print(path,x.shape,y.shape)
+    # for i in range(20):
+    #     img_temp = transforms.ToPILImage()(x[i])
+    #     img_temp.save('data/PACS/debug_images/img_pil_'+domain+'_'+split+'_'+str(i)+'.png')    
+    if (translate is None) and (autoaug is None):
+        dataset = TensorDataset(x, y)
+        return dataset
+    #x.transpose(0,3,1,2)
+    
+    # 数据增强管道
+    transform = [transforms.ToPILImage()]
+    if autoaug != 'CA_multiple_noSingle':
+        transform_single_factor = [transforms.ToPILImage()]
+    if autoaug == 'CA' or autoaug == 'CA_multiple' or autoaug == 'CA_multiple_noSingle':
+        transform_CA = [transforms.ToPILImage()]
+    if translate is not None:
+        transform.append(transforms.RandomAffine(0, [translate, translate]))
+        if autoaug != 'CA_multiple_noSingle':
+            transform_single_factor.append(transforms.RandomAffine(0, [translate, translate]))
+        if autoaug == 'CA' or autoaug == 'CA_multiple' or autoaug == 'CA_multiple_noSingle':
+            transform_CA.append(transforms.RandomAffine(0, [translate, translate]))
+    if autoaug is not None:
+        if autoaug == 'CA':
+            print("--------------------------CA--------------------------")
+            print("n:",n)
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(CounterfactualAugment_incausal(factor_num))
+        elif autoaug == 'CA_multiple':
+            print("--------------------------CA_multiple--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(MultiCounterfactualAugment_incausal(factor_num, stride))
+        elif autoaug == 'CA_multiple_noSingle':
+            print("--------------------------CA_multiple_noSingle--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            # transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(MultiCounterfactualAugment_incausal(factor_num, stride))
+        elif autoaug == 'Ours_A':
+            print("--------------------------Ours_Augment--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+
+    transform.append(transforms.ToTensor())
+    transform = transforms.Compose(transform)
+    if autoaug != 'CA_multiple_noSingle':
+        transform_single_factor.append(transforms.ToTensor())
+        transform_single_factor = transforms.Compose(transform_single_factor)
+    if autoaug == 'CA' or autoaug == 'CA_multiple':
+        transform_CA.append(transforms.ToTensor())
+        transform_CA = transforms.Compose(transform_CA)
+        dataset = myTensorDataset(x, y, transform=transform, transform2=transform_single_factor, transform3=transform_CA,twox=twox)
+    elif autoaug == 'CA_multiple_noSingle':
+        transform_CA.append(transforms.ToTensor())
+        transform_CA = transforms.Compose(transform_CA)
+        dataset = myTensorDataset(x, y, transform=transform, transform3=transform_CA,twox=twox)
+    else:
+        dataset = myTensorDataset(x, y, transform=transform, transform2=transform_single_factor, twox=twox)
+    # print(x.shape)
+    # print(y.shape)
+    return dataset
+
+def load_VID(task='S-U',split='1'):
+    if task == 'S-U':
+        path = f'data/img2vid/{task}/ucf101_12_frame_sample8_{split}.npz'
+    elif task == 'E-H':
+        path = f'data/img2vid/{task}/hmdb51_13_frame_sample8_{split}.npz'
+    dataset = np.load(path)
+    print(path)
+    x, y = dataset['x'], dataset['y']
+    b, g, r = np.split(x,3,axis=-1)
+    x = np.concatenate((r,g,b),axis=-1)
+    x = x.transpose(0,3,1,2)
+    x, y = torch.tensor(x), torch.tensor(y, dtype=torch.long)
+    x = x.float()/255.
+    print(path,x.shape,y.shape)
+    # for i in range(20):
+    #     img_temp = transforms.ToPILImage()(x[i])
+    #     img_temp.save('data/PACS/debug_images/img_pil_'+domain+'_'+split+'_'+str(i)+'.png')    
+    dataset = TensorDataset(x, y)
+    return dataset
+
+def load_pacs(domain='photo', split='train', translate=None, twox=False, autoaug=None, factor_num=16, randm=False,randn=False,channels=3,n=3,stride=5):
+    #path = f'data/PACS/{domain}_{split}.hdf5'
+    path = f'/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/{domain}_{split}.hdf5'
+    dataset = h5py.File(path, 'r')
+    x, y = dataset['images'], dataset['labels']
+    #for i in range(20):
+    #    cv2.imwrite('data/PACS/debug_images/img_cv2_'+domain+'_'+split+'_'+str(i)+'.png', x[i])
+    b, g, r = np.split(x,3,axis=-1)
+    x = np.concatenate((r,g,b),axis=-1)
+    x = x.transpose(0,3,1,2)
+    x, y = torch.tensor(x), torch.tensor(y, dtype=torch.long)
+    y = y - 1
+    x = x.float()/255.
+    print(path,x.shape,y.shape)
+    # for i in range(20):
+    #     img_temp = transforms.ToPILImage()(x[i])
+    #     img_temp.save('data/PACS/debug_images/img_pil_'+domain+'_'+split+'_'+str(i)+'.png')    
+    if (translate is None) and (autoaug is None):
+        dataset = TensorDataset(x, y)
+        return dataset
+    #x.transpose(0,3,1,2)
+    
+    # 数据增强管道
+    transform = [transforms.ToPILImage()]
+    if autoaug != 'CA_multiple_noSingle':
+        transform_single_factor = [transforms.ToPILImage()]
+    if autoaug == 'CA' or autoaug == 'CA_multiple' or autoaug == 'CA_multiple_noSingle':
+        transform_CA = [transforms.ToPILImage()]
+    if translate is not None:
+        transform.append(transforms.RandomAffine(0, [translate, translate]))
+        if autoaug != 'CA_multiple_noSingle':
+            transform_single_factor.append(transforms.RandomAffine(0, [translate, translate]))
+        if autoaug == 'CA' or autoaug == 'CA_multiple' or autoaug == 'CA_multiple_noSingle':
+            transform_CA.append(transforms.RandomAffine(0, [translate, translate]))
+    if autoaug is not None:
+        if autoaug == 'CA':
+            print("--------------------------CA--------------------------")
+            print("n:",n)
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(CounterfactualAugment_incausal(factor_num))
+        elif autoaug == 'CA_multiple':
+            print("--------------------------CA_multiple--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(MultiCounterfactualAugment_incausal(factor_num, stride))
+        elif autoaug == 'CA_multiple_noSingle':
+            print("--------------------------CA_multiple_noSingle--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            # transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(MultiCounterfactualAugment_incausal(factor_num, stride))
+        elif autoaug == 'Ours_A':
+            print("--------------------------Ours_Augment--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+
+    transform.append(transforms.ToTensor())
+    transform = transforms.Compose(transform)
+    if autoaug != 'CA_multiple_noSingle':
+        transform_single_factor.append(transforms.ToTensor())
+        transform_single_factor = transforms.Compose(transform_single_factor)
+    if autoaug == 'CA' or autoaug == 'CA_multiple':
+        transform_CA.append(transforms.ToTensor())
+        transform_CA = transforms.Compose(transform_CA)
+        dataset = myTensorDataset(x, y, transform=transform, transform2=transform_single_factor, transform3=transform_CA,twox=twox)
+    elif autoaug == 'CA_multiple_noSingle':
+        transform_CA.append(transforms.ToTensor())
+        transform_CA = transforms.Compose(transform_CA)
+        dataset = myTensorDataset(x, y, transform=transform, transform3=transform_CA,twox=twox)
+    else:
+        dataset = myTensorDataset(x, y, transform=transform, transform2=transform_single_factor, twox=twox)
+    # print(x.shape)
+    # print(y.shape)
+    return dataset
+
+def read_dataset(domain, split):
+    path = f'/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/PACS/{domain}_{split}.hdf5'
+    dataset = h5py.File(path, 'r')
+    x_temp, y_temp = dataset['images'], dataset['labels']
+    b, g, r = np.split(x_temp,3,axis=-1)
+    x_temp = np.concatenate((r,g,b),axis=-1)
+    x_temp = x_temp.transpose(0,3,1,2)
+    x_temp, y_temp = torch.tensor(x_temp), torch.tensor(y_temp, dtype=torch.long)
+    y_temp = y_temp - 1
+    x_temp = x_temp.float()/255.
+    return x_temp, y_temp
+
+def load_pacs_multi(target_domain=['photo'], split='train', translate=None, twox=False, autoaug=None, factor_num=16, randm=False,randn=False,channels=3,n=3,stride=5):
+    domains = ['art_painting', 'cartoon', 'photo', 'sketch']
+    source_domain = [i for i in domains if i != target_domain]
+    for i in range(len(source_domain)):
+        x_temp, y_temp = read_dataset(source_domain[i],split=split)
+        print(x_temp.shape,y_temp.shape)
+        if i == 0:
+            x = x_temp.clone()
+            y = y_temp.clone()
+        else:
+            x = torch.cat([x,x_temp],0)
+            y = torch.cat([y,y_temp],0)
+    print(x.shape,y.shape)
+    if (translate is None) and (autoaug is None):
+        dataset = TensorDataset(x, y)
+        return dataset
+    #x.transpose(0,3,1,2)
+    
+    # 数据增强管道
+    transform = [transforms.ToPILImage()]
+    if autoaug != 'CA_multiple_noSingle':
+        transform_single_factor = [transforms.ToPILImage()]
+    if autoaug == 'CA' or autoaug == 'CA_multiple' or autoaug == 'CA_multiple_noSingle':
+        transform_CA = [transforms.ToPILImage()]
+    if translate is not None:
+        transform.append(transforms.RandomAffine(0, [translate, translate]))
+        if autoaug != 'CA_multiple_noSingle':
+            transform_single_factor.append(transforms.RandomAffine(0, [translate, translate]))
+        if autoaug == 'CA' or autoaug == 'CA_multiple' or autoaug == 'CA_multiple_noSingle':
+            transform_CA.append(transforms.RandomAffine(0, [translate, translate]))
+    if autoaug is not None:
+        if autoaug == 'CA':
+            print("--------------------------CA--------------------------")
+            print("n:",n)
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(CounterfactualAugment_incausal(factor_num))
+        elif autoaug == 'CA_multiple':
+            print("--------------------------CA_multiple--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(MultiCounterfactualAugment_incausal(factor_num, stride))
+        elif autoaug == 'CA_multiple_noSingle':
+            print("--------------------------CA_multiple_noSingle--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            # transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+            transform_CA.append(MultiCounterfactualAugment_incausal(factor_num, stride))
+        elif autoaug == 'Ours_A':
+            print("--------------------------Ours_Augment--------------------------")
+            transform.append(RandAugment_incausal(n,4,factor_num, randm=randm,randn=randn))
+            transform_single_factor.append(FactualAugment_incausal(4, factor_num, randm=False))
+
+    transform.append(transforms.ToTensor())
+    transform = transforms.Compose(transform)
+    if autoaug != 'CA_multiple_noSingle':
+        transform_single_factor.append(transforms.ToTensor())
+        transform_single_factor = transforms.Compose(transform_single_factor)
+    if autoaug == 'CA' or autoaug == 'CA_multiple':
+        transform_CA.append(transforms.ToTensor())
+        transform_CA = transforms.Compose(transform_CA)
+        dataset = myTensorDataset(x, y, transform=transform, transform2=transform_single_factor, transform3=transform_CA,twox=twox)
+    elif autoaug == 'CA_multiple_noSingle':
+        transform_CA.append(transforms.ToTensor())
+        transform_CA = transforms.Compose(transform_CA)
+        dataset = myTensorDataset(x, y, transform=transform, transform3=transform_CA,twox=twox)
+    else:
+        dataset = myTensorDataset(x, y, transform=transform, transform2=transform_single_factor, twox=twox)
+    # print(x.shape)
+    # print(y.shape)
+    return dataset
+
+
+def load_cifar10_c_level1(dataroot):
+    path = f'/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/cifar10_c_level1.pkl'
+    if not os.path.exists(path):
+        print("genenrating cifar10_c_level1")
+        labels = np.load(os.path.join(dataroot, 'labels.npy'))
+        y_single = labels[0:10000]
+        x = torch.zeros((190000,3,32,32))
+        for j in range(19):
+            if j == 0:
+                y = y_single
+            else:
+                y = np.hstack((y,y_single))
+        index = 0 
+        for filename in os.listdir(dataroot):
+            if filename=='labels.npy':
+                continue
+            else:
+                imgs = np.load(os.path.join(dataroot,filename))
+                imgs = imgs.transpose(0,3,1,2)
+                imgs = torch.tensor(imgs)
+                imgs = imgs.float()/255.
+                print(imgs.shape)
+                x[index*10000:(index+1)*10000] = imgs[0:10000]
+                index = index + 1
+        y = torch.tensor(y)                              
+        with open(path, 'wb') as f:
+            pickle.dump([x, y], f)
+    else:
+        print("reading cifar10_c_level1")
+        with open(path, 'rb') as f:
+            x, y = pickle.load(f)
+    dataset = TensorDataset(x, y)        
+    return dataset
+def load_cifar10_c_level2(dataroot):
+    path = f'/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/cifar10_c_level2.pkl'
+    if not os.path.exists(path):
+        print("genenrating cifar10_c_level2")
+        labels = np.load(os.path.join(dataroot, 'labels.npy'))
+        y_single = labels[0:10000]
+        x = torch.zeros((190000,3,32,32))
+        for j in range(19):
+            if j == 0:
+                y = y_single
+            else:
+                y = np.hstack((y,y_single))
+        index = 0 
+        for filename in os.listdir(dataroot):
+            if filename=='labels.npy':
+                continue
+            else:
+                imgs = np.load(os.path.join(dataroot,filename))
+                imgs = imgs.transpose(0,3,1,2)
+                imgs = torch.tensor(imgs)
+                imgs = imgs.float()/255.
+                print(imgs.shape)
+                x[index*10000:(index+1)*10000] = imgs[10000:20000]
+                index = index + 1
+        y = torch.tensor(y)                              
+        with open(path, 'wb') as f:
+            pickle.dump([x, y], f)
+    else:
+        print("reading cifar10_c_level2")
+        with open(path, 'rb') as f:
+            x, y = pickle.load(f)
+    dataset = TensorDataset(x, y)        
+    return dataset
+def load_cifar10_c_level3(dataroot):
+    path = f'/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/cifar10_c_level3.pkl'
+    if not os.path.exists(path):
+        print("generating cifar10_c_level3")
+        labels = np.load(os.path.join(dataroot, 'labels.npy'))
+        y_single = labels[0:10000]
+        x = torch.zeros((190000,3,32,32))
+        for j in range(19):
+            if j == 0:
+                y = y_single
+            else:
+                y = np.hstack((y,y_single))
+        index = 0 
+        for filename in os.listdir(dataroot):
+            if filename=='labels.npy':
+                continue
+            else:
+                imgs = np.load(os.path.join(dataroot,filename))
+                imgs = imgs.transpose(0,3,1,2)
+                imgs = torch.tensor(imgs)
+                imgs = imgs.float()/255.
+                print(imgs.shape)
+                x[index*10000:(index+1)*10000] = imgs[20000:30000]
+                index = index + 1
+        y = torch.tensor(y)                              
+        with open(path, 'wb') as f:
+            pickle.dump([x, y], f)
+    else:
+        print("reading cifar10_c_level3")
+        with open(path, 'rb') as f:
+            x, y = pickle.load(f)
+    dataset = TensorDataset(x, y)        
+    return dataset
+def load_cifar10_c_level4(dataroot):
+    path = f'/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/cifar10_c_level4.pkl'
+    if not os.path.exists(path):
+        print("genenrating cifar10_c_level4")
+        labels = np.load(os.path.join(dataroot, 'labels.npy'))
+        y_single = labels[0:10000]
+        x = torch.zeros((190000,3,32,32))
+        for j in range(19):
+            if j == 0:
+                y = y_single
+            else:
+                y = np.hstack((y,y_single))
+        index = 0 
+        for filename in os.listdir(dataroot):
+            if filename=='labels.npy':
+                continue
+            else:
+                imgs = np.load(os.path.join(dataroot,filename))
+                imgs = imgs.transpose(0,3,1,2)
+                imgs = torch.tensor(imgs)
+                imgs = imgs.float()/255.
+                print(imgs.shape)
+                x[index*10000:(index+1)*10000] = imgs[30000:40000]
+                index = index + 1
+        y = torch.tensor(y)                              
+        with open(path, 'wb') as f:
+            pickle.dump([x, y], f)
+    else:
+        print("reading cifar10_c_level4")
+        with open(path, 'rb') as f:
+            x, y = pickle.load(f)
+    dataset = TensorDataset(x, y)        
+    return dataset
+def load_cifar10_c_level5(dataroot):
+    path = f'/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/cifar10_c_level5.pkl'
+    if not os.path.exists(path):
+        print("genenrating cifar10_c_level5")
+        labels = np.load(os.path.join(dataroot, 'labels.npy'))
+        y_single = labels[0:10000]
+        x = torch.zeros((190000,3,32,32))
+        for j in range(19):
+            if j == 0:
+                y = y_single
+            else:
+                y = np.hstack((y,y_single))
+        index = 0 
+        for filename in os.listdir(dataroot):
+            if filename=='labels.npy':
+                continue
+            else:
+                imgs = np.load(os.path.join(dataroot,filename))
+                imgs = imgs.transpose(0,3,1,2)
+                imgs = torch.tensor(imgs)
+                imgs = imgs.float()/255.
+                print(imgs.shape)
+                x[index*10000:(index+1)*10000] = imgs[40000:50000]
+                index = index + 1
+        y = torch.tensor(y)                              
+        with open(path, 'wb') as f:
+            pickle.dump([x, y], f)
+    else:
+        print("reading cifar10_c_level5")
+        with open(path, 'rb') as f:
+            x, y = pickle.load(f)
+    dataset = TensorDataset(x, y)        
+    return dataset
+def load_cifar10_c(dataroot):
+    y = np.load(os.path.join(dataroot, 'labels.npy'))
+    print("y.shape:",y.shape)
+    y_single = y[0:10000]
+    x1 = torch.zeros((190000,3,32,32))
+    x2 = torch.zeros((190000,3,32,32))
+    x3 = torch.zeros((190000,3,32,32))
+    x4 = torch.zeros((190000,3,32,32))
+    x5 = torch.zeros((190000,3,32,32))
+    for j in range(19):
+        if j == 0:
+            y_total = y_single
+        else:
+            y_total = np.hstack((y_total,y_single))
+    print("y_total.shape:",y_total.shape)
+    index = 0 
+    for filename in os.listdir(dataroot):
+        if filename=='labels.npy':
+            continue
+        else:
+            x = np.load(os.path.join(dataroot,filename))
+            x = x.transpose(0,3,1,2)
+            x = torch.tensor(x)
+            x = x.float()/255.
+            print(x.shape)
+            x1[index*10000:(index+1)*10000] = x[0:10000]
+            x2[index*10000:(index+1)*10000] = x[10000:20000]
+            x3[index*10000:(index+1)*10000] = x[20000:30000]
+            x4[index*10000:(index+1)*10000] = x[30000:40000]
+            x5[index*10000:(index+1)*10000] = x[40000:50000]
+            index = index + 1
+    # x1, x2, x3, x4, x5, y_total = torch.tensor(x1), torch.tensor(x2), torch.tensor(x3),\
+                                    # torch.tensor(x4),torch.tensor(x5),torch.tensor(y_total)
+    y_total = torch.tensor(y_total)                              
+    dataset1 = TensorDataset(x1, y_total)
+    dataset2 = TensorDataset(x2, y_total)
+    dataset3 = TensorDataset(x3, y_total)
+    dataset4 = TensorDataset(x4, y_total)
+    dataset5 = TensorDataset(x5, y_total)
+    return dataset1,dataset2,dataset3,dataset4,dataset5
+
+def load_cifar10_c_class(dataroot,CORRUPTIONS):
+    y = np.load(os.path.join(dataroot, 'labels.npy'))
+    y_single = y[0:10000]
+    y_single = torch.tensor(y_single) 
+    print("y.shape:",y.shape)
+    x = np.load(os.path.join(dataroot,CORRUPTIONS+'.npy'))
+    print("loading data of",os.path.join(dataroot,CORRUPTIONS+'.npy'))
+    x = x.transpose(0,3,1,2)
+    x = torch.tensor(x)
+    x = x.float()/255.
+    dataset = []
+    for i in range(5):
+        x_single = x[i*10000:(i+1)*10000]
+        dataset.append(TensorDataset(x_single, y_single))
+    return dataset
+
+def load_usps(split='train', channels=3):
+    path = f'/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/usps-{split}.pkl'
+    if not os.path.exists(path):
+        dataset = USPS(f'{HOME}/.pytorch/USPS', train=(split=='train'), download=True)
+        x, y = dataset.data, dataset.targets
+        x = torch.tensor(resize_imgs(x, 32))
+        x = (x.float()/255.).unsqueeze(1).repeat(1,3,1,1)
+        y = torch.tensor(y)
+        with open(path, 'wb') as f:
+            pickle.dump([x, y], f)
+    with open(path, 'rb') as f:
+        x, y = pickle.load(f)
+        if channels == 1:
+            x = x[:,0:1,:,:]
+    dataset = TensorDataset(x, y)
+    return dataset
+
+def load_svhn(split='train', channels=3):
+    dataset = SVHN(f'{HOME}/.pytorch/SVHN', split=split, download=True)
+    x, y = dataset.data, dataset.labels
+    x = x.astype('float32')/255.
+    x, y = torch.tensor(x), torch.tensor(y)
+    if channels == 1:
+        x = x.mean(1, keepdim=True)
+    dataset = TensorDataset(x, y)
+    return dataset
+
+
+def load_syndigit(split='train', channels=3):
+    path = f'/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/synth_{split}_32x32.mat'
+    data = loadmat(path)
+    x, y = data['X'], data['y']
+    x = np.transpose(x, [3, 2, 0, 1]).astype('float32')/255.
+    y = y.squeeze()
+    x, y = torch.tensor(x), torch.tensor(y)
+    if channels == 1:
+        x = x.mean(1, keepdim=True)
+    dataset = TensorDataset(x, y)
+    return dataset
+
+def load_mnist_m(split='train', channels=3):
+    path = f'/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/data/mnist_m-{split}.pkl'
+    with open(path, 'rb') as f:
+        x, y = pickle.load(f)
+        x, y = torch.tensor(x.astype('float32')/255.), torch.tensor(y)
+        if channels==1:
+            x = x.mean(1, keepdim=True)
+    dataset = TensorDataset(x, y)
+    return dataset
+
+if __name__=='__main__':
+    dataset = load_mnist(split='train')
+    print('mnist train', len(dataset))
+    dataset = load_mnist('test')
+    print('mnist test', len(dataset))
+    dataset = load_mnist_m('test')
+    print('mnsit_m test', len(dataset))
+    dataset = load_svhn(split='test')
+    print('svhn', len(dataset))
+    dataset = load_usps(split='test')
+    print('usps', len(dataset))
+    dataset = load_syndigit(split='test')
+    print('syndigit', len(dataset))
+
diff --git a/Meta-causal/code/env.yaml b/Meta-causal/code/env.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..b0bd424fb7c5aa818f10a82173549eb0dd3199c7
--- /dev/null
+++ b/Meta-causal/code/env.yaml
@@ -0,0 +1,119 @@
+name: Py3.7_torch1.8
+channels:
+  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
+  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
+  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
+  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
+  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
+  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
+  - conda-forge
+  - bioconda
+  - defaults
+dependencies:
+  - _libgcc_mutex=0.1=main
+  - asn1crypto=1.2.0=py37_0
+  - blas=1.0=mkl
+  - bottleneck=1.3.2=py37heb32a55_1
+  - bzip2=1.0.8=h7b6447c_0
+  - ca-certificates=2021.10.8=ha878542_0
+  - cairo=1.14.12=h8948797_3
+  - certifi=2021.10.8=py37h89c1867_1
+  - cffi=1.13.0=py37h2e261b9_0
+  - chardet=3.0.4=py37_1003
+  - click=8.0.3=pyhd3eb1b0_0
+  - conda-package-handling=1.6.0=py37h7b6447c_0
+  - cryptography=2.8=py37h1ba5d50_0
+  - ffmpeg=4.0=hcdf2ecd_0
+  - fontconfig=2.13.0=h9420a91_0
+  - freeglut=3.0.0=hf484d3e_5
+  - freetype=2.11.0=h70c0345_0
+  - glib=2.63.1=h5a9c865_0
+  - graphite2=1.3.14=h23475e2_0
+  - h5py=2.8.0=py37h3010b51_1003
+  - harfbuzz=1.8.8=hffaf4a1_0
+  - hdf5=1.10.2=hba1933b_1
+  - icu=58.2=he6710b0_3
+  - idna=2.8=py37_0
+  - intel-openmp=2021.3.0=h06a4308_3350
+  - jasper=2.0.14=hd8c5072_2
+  - jpeg=9d=h7f8727e_0
+  - libedit=3.1.20181209=hc058e9b_0
+  - libffi=3.2.1=hd88cf55_4
+  - libgcc-ng=9.1.0=hdf63c60_0
+  - libgfortran-ng=7.5.0=ha8ba4b0_17
+  - libgfortran4=7.5.0=ha8ba4b0_17
+  - libglu=9.0.0=hf484d3e_1
+  - libopencv=3.4.2=hb342d67_1
+  - libopus=1.3.1=h7b6447c_0
+  - libpng=1.6.37=hbc83047_0
+  - libprotobuf=3.17.2=h4ff587b_1
+  - libstdcxx-ng=9.1.0=hdf63c60_0
+  - libtiff=4.1.0=h2733197_0
+  - libuuid=1.0.3=h7f8727e_2
+  - libvpx=1.7.0=h439df22_0
+  - libxcb=1.14=h7b6447c_0
+  - libxml2=2.9.9=hea5a465_1
+  - mkl=2021.3.0=h06a4308_520
+  - mkl-service=2.4.0=py37h7f8727e_0
+  - mkl_fft=1.3.1=py37hd3c417c_0
+  - mkl_random=1.2.2=py37h51133e4_0
+  - ncurses=6.1=he6710b0_1
+  - numexpr=2.7.3=py37h22e1b3c_1
+  - numpy-base=1.21.2=py37h79a1101_0
+  - opencv=3.4.2=py37h6fd60c2_1
+  - openssl=1.1.1h=h516909a_0
+  - pandas=1.3.3=py37h8c16a72_0
+  - pcre=8.45=h295c915_0
+  - pip=19.3.1=py37_0
+  - pixman=0.40.0=h7f8727e_1
+  - protobuf=3.17.2=py37h295c915_0
+  - py-opencv=3.4.2=py37hb342d67_1
+  - pycosat=0.6.3=py37h14c3975_0
+  - pycparser=2.19=py37_0
+  - pyopenssl=19.0.0=py37_0
+  - pysocks=1.7.1=py37_0
+  - python=3.7.4=h265db76_1
+  - python-dateutil=2.8.2=pyhd3eb1b0_0
+  - python_abi=3.7=2_cp37m
+  - pytz=2021.3=pyhd3eb1b0_0
+  - readline=7.0=h7b6447c_5
+  - requests=2.22.0=py37_0
+  - ruamel_yaml=0.15.46=py37h14c3975_0
+  - scipy=1.7.1=py37h292c36d_2
+  - setuptools=41.4.0=py37_0
+  - six=1.12.0=py37_0
+  - sqlite=3.30.0=h7b6447c_0
+  - tensorboardx=2.2=pyhd3eb1b0_0
+  - tk=8.6.8=hbc83047_0
+  - tqdm=4.36.1=py_0
+  - urllib3=1.24.2=py37_0
+  - wheel=0.33.6=py37_0
+  - xz=5.2.4=h14c3975_4
+  - yaml=0.1.7=had09818_2
+  - zlib=1.2.11=h7b6447c_3
+  - zstd=1.3.7=h0b5b093_0
+  - pip:
+    - absl-py==1.0.0
+    - cachetools==4.2.4
+    - conda-pack==0.6.0
+    - google-auth==2.3.3
+    - google-auth-oauthlib==0.4.6
+    - grpcio==1.42.0
+    - importlib-metadata==4.8.2
+    - markdown==3.3.6
+    - numpy==1.21.3
+    - oauthlib==3.1.1
+    - pillow==8.4.0
+    - pyasn1==0.4.8
+    - pyasn1-modules==0.2.8
+    - requests-oauthlib==1.3.0
+    - rsa==4.8
+    - tensorboard==2.7.0
+    - tensorboard-data-server==0.6.1
+    - tensorboard-plugin-wit==1.8.0
+    - torch==1.8.1+cu111
+    - torchvision==0.9.1+cu111
+    - typing-extensions==3.10.0.2
+    - werkzeug==2.0.2
+    - zipp==3.6.0
+prefix: /home/chenjin/miniconda3/envs/Py3.7_torch1.8
diff --git a/Meta-causal/code/main_my_joint_v13_auto.py b/Meta-causal/code/main_my_joint_v13_auto.py
new file mode 100644
index 0000000000000000000000000000000000000000..c1b572ceb4a3b6aee91675c82c6c316757a92792
--- /dev/null
+++ b/Meta-causal/code/main_my_joint_v13_auto.py
@@ -0,0 +1,568 @@
+
+'''
+训练 base 模型
+'''
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+import itertools
+from torch import optim
+from torch.utils.data import DataLoader, RandomSampler
+from torchvision import models
+from torchvision.datasets import CIFAR10
+from torchvision.utils import make_grid
+import torchvision.transforms as transforms
+from tensorboardX import SummaryWriter
+from torch.cuda.amp import autocast,GradScaler
+
+import os
+import click
+import time
+import numpy as np
+
+from network import mnist_net_my as mnist_net
+from network import wideresnet as wideresnet
+from network import resnet as resnet
+from network import adaptor_v2
+
+from tools import causalaugment_v3 as causalaugment
+import data_loader_joint_v3 as data_loader
+# from utils import set_requires_grad
+
+HOME = os.environ['HOME']
+
+@click.command()
+@click.option('--gpu', type=str, default='0', help='选择gpu')
+@click.option('--data', type=str, default='mnist', help='数据集名称')
+@click.option('--ntr', type=int, default=None, help='选择训练集前ntr个样本')
+@click.option('--translate', type=float, default=None, help='随机平移数据增强')
+@click.option('--autoaug', type=str, default=None, help='AA FastAA RA')
+@click.option('--n', type=int, default=3, help='选择多少个factor生成RA')
+@click.option('--stride', type=int, default=5, help='if autoaug==CA_multiple, stride is used')
+@click.option('--factor_num', type=int, default=16, help='the first n factors')
+@click.option('--epochs', type=int, default=100)
+@click.option('--nbatch', type=int, default=100, help='每个epoch中batch的数量')
+@click.option('--batchsize', type=int, default=128, help='每个batch中样本的数量')
+@click.option('--lr', type=float, default=1e-3)
+@click.option('--lr_scheduler', type=str, default='none', help='是否选择学习率衰减策略')
+@click.option('--svroot', type=str, default='./saved', help='项目文件保存路径')
+@click.option('--clsadapt', type=bool, default=True, help='映射后是否用分类损失')
+@click.option('--lambda_causal', type=float, default=1, help='the weight of reconstruction during mapping and causal ')
+@click.option('--lambda_re', type=float, default=1, help='the weight of reconstruction during mapping and causal ')
+@click.option('--randm', type=bool, default=True, help='m取值是否randm')
+@click.option('--randn', type=bool, default=False, help='原始特征是否detach')
+@click.option('--network', type=str, default='resnet18', help='项目文件保存路径')
+def experiment(gpu, data, ntr, translate, autoaug,n,stride, factor_num, epochs, nbatch, batchsize, lr, lr_scheduler, svroot, clsadapt, lambda_causal,lambda_re,randm,randn,network):
+    
+    settings = locals().copy()
+    print(settings)
+
+    # 全局设置
+    os.environ['CUDA_VISIBLE_DEVICES'] = gpu
+    if not os.path.exists(svroot):
+        os.makedirs(svroot)
+    log_file = open(svroot+os.sep+'log.log',"w")
+    log_file.write(str(settings)+'\n')
+    writer = SummaryWriter(svroot)
+    CA = causalaugment.MultiCounterfactualAugment(factor_num,stride)   
+    # FA = causalaugment.FactualAugment(m=4, factor_num=factor_num, randm=True)
+    # 加载数据集和模型
+    if data in ['mnist', 'mnist_t']: 
+        if data == 'mnist':
+            trset = data_loader.load_mnist('train', translate=translate,twox=True, ntr=ntr, factor_num=factor_num,autoaug=autoaug,randm=randm,randn=randn,n=n,stride=stride)
+        elif data == 'mnist_t':
+            trset = data_loader.load_mnist_t('train', translate=translate, ntr=ntr)
+        teset = data_loader.load_mnist('test')
+        trloader = DataLoader(trset, batch_size=batchsize, num_workers=0, \
+                sampler=RandomSampler(trset, True, nbatch*batchsize))
+        teloader = DataLoader(teset, batch_size=batchsize, num_workers=0, shuffle=False)
+        cls_net = mnist_net.ConvNet().cuda()
+        AdaptNet = []
+        parameter_list = []
+        for i in range(factor_num):
+            mapping = adaptor_v2.mapping(1024,512,1024,2).cuda()
+            AdaptNet.append(mapping)
+            parameter_list.append({'params':mapping.parameters(),'lr':lr})
+        if autoaug == 'CA_multiple':
+            var_num = len(list(range(0, 31, stride)))
+            E_to_W = adaptor_v2.effect_to_weight(10,100,1).cuda()
+        else:
+            E_to_W = adaptor_v2.effect_to_weight(10,100,1).cuda()
+        parameter_list.append({'params':cls_net.parameters(),'lr':lr})
+        parameter_list.append({'params':E_to_W.parameters(),'lr':lr})
+        #print("---------------------------------------------------------------------------------------")
+        opt = optim.Adam(parameter_list, lr=lr)
+        if lr_scheduler == 'cosine':
+            scheduler = optim.lr_scheduler.CosineAnnealingLR(opt, epochs)
+        elif lr_scheduler == 'Exp':
+            scheduler = optim.lr_scheduler.ExponentialLR(opt, gamma=0.95) 
+        elif lr_scheduler == 'Step':
+            scheduler = optim.lr_scheduler.StepLR(opt, step_size=int(epochs*0.8))
+        # print("------------------------------------opt_mapping---------------------------------------------------")
+        # for param_group in opt_mapping.param_groups:
+        #     print(param_group.keys())
+        #     # print(type(param_group))
+        #     print([type(value) for value in param_group.values()])
+        #     print('lr: ',param_group['lr'])
+
+        # print("------------------------------------opt_causal---------------------------------------------------")
+        # for param_group in opt_causal.param_groups:
+        #     print(param_group.keys())
+        #     # print(type(param_group))
+        #     print([type(value) for value in param_group.values()])
+        #     print('lr: ',param_group['lr'])
+    
+    elif data == 'cifar10':
+        # 加载数据集
+        trset = data_loader.load_cifar10(split='train',twox=True, factor_num=factor_num,autoaug=autoaug,randm=randm,randn=randn,n=n,stride=stride)
+        teset = data_loader.load_cifar10(split='test')
+        trloader = DataLoader(trset, batch_size=batchsize, num_workers=4, shuffle=True, drop_last=True)
+        teloader = DataLoader(teset, batch_size=batchsize, num_workers=4, shuffle=False)
+        cls_net = wideresnet.WideResNet(16, 10, 4).cuda()
+        # cls_opt = optim.SGD(cls_net.parameters(), lr=lr, momentum=0.9, nesterov=True, weight_decay=5e-4)
+        AdaptNet = []
+        parameter_list = []
+        for i in range(factor_num):
+            mapping = adaptor_v2.mapping(256,512,256,4).cuda()
+            AdaptNet.append(mapping)
+            parameter_list.append({'params':mapping.parameters(),'lr':lr})
+        if autoaug == 'CA_multiple':
+            var_num = len(list(range(0, 31, stride)))
+            E_to_W = adaptor_v2.effect_to_weight(10,100,1).cuda()
+        else:
+            E_to_W = adaptor_v2.effect_to_weight(10,100,1).cuda()
+        parameter_list.append({'params':cls_net.parameters(),'lr':lr})
+        parameter_list.append({'params':E_to_W.parameters(),'lr':lr})
+        #print("---------------------------------------------------------------------------------------")
+        # opt = optim.Adam(parameter_list)
+        opt = optim.SGD(parameter_list, lr=lr, momentum=0.9, nesterov=True, weight_decay=5e-4)
+        if lr_scheduler == 'cosine':
+            scheduler = optim.lr_scheduler.CosineAnnealingLR(opt, epochs)
+        elif lr_scheduler == 'Exp':
+            scheduler = optim.lr_scheduler.ExponentialLR(opt, gamma=0.95)
+        elif lr_scheduler == 'Step':
+            scheduler = optim.lr_scheduler.StepLR(opt, step_size=int(epochs*0.8))
+    elif data in ['art_painting', 'cartoon', 'photo', 'sketch']:
+        # 加载数据集
+        trset = data_loader.load_pacs(domain=data, split='train', twox=True, factor_num=factor_num,autoaug=autoaug,randm=randm,randn=randn,n=n,stride=stride)
+        teset = data_loader.load_pacs(domain=data, split='val')
+        trloader = DataLoader(trset, batch_size=batchsize, num_workers=4, shuffle=True, drop_last=True)
+        teloader = DataLoader(teset, batch_size=batchsize, num_workers=4, shuffle=False)
+        if network == 'resnet18':
+            cls_net = resnet.resnet18(classes=7,c_dim=2048).cuda()
+            input_dim = 2048
+            # for param in cls_net.features.parameters():
+            #     param.requires_grad = False
+            # for name, parms in cls_net.named_parameters():  
+            #     print('-->name:', name)
+            #     print('-->grad_requirs:',parms.requires_grad)
+        # cls_opt = optim.SGD(cls_net.parameters(), lr=lr, momentum=0.9, nesterov=True, weight_decay=5e-4)
+        # print(cls_net.state_dict())
+
+        classifier_param = list(map(id, cls_net.class_classifier.parameters()))
+        backbone_param  =  filter(lambda p: id(p) not in classifier_param and p.requires_grad, cls_net.parameters())
+        AdaptNet = []
+        parameter_list = []
+        for i in range(factor_num):
+            mapping = adaptor_v2.mapping(input_dim,1024,input_dim,4).cuda()
+            AdaptNet.append(mapping)
+            parameter_list.append({'params':mapping.parameters(),'lr':lr})
+        if autoaug == 'CA_multiple':
+            var_num = len(list(range(0, 31, stride)))
+            E_to_W = adaptor_v2.effect_to_weight(7,70,1).cuda()
+        else:
+            E_to_W = adaptor_v2.effect_to_weight(7,70,1).cuda()
+        parameter_list.append({'params':backbone_param,'lr':0.01*lr})
+        parameter_list.append({'params':cls_net.class_classifier.parameters(),'lr':lr})
+        parameter_list.append({'params':E_to_W.parameters(),'lr':lr})
+        #print("---------------------------------------------------------------------------------------")
+        # opt = optim.Adam(parameter_list)
+
+        opt = optim.SGD(parameter_list, momentum=0.9, nesterov=True, weight_decay=5e-4)
+        if lr_scheduler == 'cosine':
+            scheduler = optim.lr_scheduler.CosineAnnealingLR(opt, epochs)
+        elif lr_scheduler == 'Exp':
+            scheduler = optim.lr_scheduler.ExponentialLR(opt, gamma=0.99999) 
+        elif lr_scheduler == 'Step':
+            scheduler = optim.lr_scheduler.StepLR(opt, step_size=15)
+    elif 'synthia' in data:
+        # 加载数据集
+        branch = data.split('_')[1]
+        trset = data_loader.load_synthia(branch)
+        trloader = DataLoader(trset, batch_size=batchsize, num_workers=8, shuffle=True)
+        teloader = DataLoader(trset, batch_size=batchsize, num_workers=8, shuffle=True)
+        imsize = [192, 320]
+        nclass = 14
+        # 加载模型
+        cls_net = fcn.FCN_resnet50(nclass=nclass).cuda()
+        cls_opt = optim.Adam(cls_net.parameters(), lr=lr)#, weight_decay=1e-4) # 对于synthia 加上weigh_decay会掉1-2个点
+        if lr_scheduler == 'cosine':
+            scheduler = optim.lr_scheduler.CosineAnnealingLR(cls_opt, epochs*len(trloader))
+    
+    cls_criterion = nn.CrossEntropyLoss()
+    adapt_criterion = nn.MSELoss()
+    # 开始训练
+    best_acc = 0
+    best_acc_t = 0
+    scaler = GradScaler()
+    for epoch in range(epochs):
+        t1 = time.time() 
+        loss_list = []
+        cls_net.train()
+        # unloader = transforms.ToPILImage()
+        print(len(trloader))
+        for i, (x_four,y) in enumerate(trloader):
+            b_sample_num = y.size(0)
+            x, x_RA, x_FA, x_CA, y = x_four[0].cuda(), x_four[1].cuda(), x_four[2].cuda(), x_four[3].cuda(), y.cuda()
+            b, c, h, w = x.shape
+            # x_FA_ = x_FA.transpose(1,2)
+            x_FA = x_FA.reshape(b*factor_num, c, h, w)
+            x_CA = x_CA.reshape(b*factor_num*var_num, c, h, w)
+            #learning mapping
+            y_repeat = y.unsqueeze(0).reshape(b_sample_num,1).repeat((1,factor_num)).reshape(1,b_sample_num*factor_num).squeeze()
+            # x_FA = FA(x).cuda().detach()
+            # x_CA = CA(x_RA).cuda().detach()
+            with autocast():
+                p,f = cls_net(x)
+                # print("x.shape:",x.shape)
+                # print("x_FA.shape:",x_FA.shape)
+                _,f_FA = cls_net(x_FA)
+                p_RA,f_RA = cls_net(x_RA)
+                p_CA,_ = cls_net(x_CA)
+                # print("f.shape:",f.shape)
+                # print("f_FA.shape:",f_FA.shape)
+                #learning mapping
+                f_repeat = f.repeat((1,factor_num)).reshape(f_FA.shape)
+                f_adapt = torch.zeros(f_FA.shape).cuda()
+                for b in range(b_sample_num):
+                    for j in range(factor_num):
+                        f_adapt[b*factor_num+j] = AdaptNet[j](f_FA[b*factor_num+j])
+                p_adapt = cls_net(f_adapt, mode='c')
+
+                #learning causality
+                if autoaug == 'CA_multiple':
+                    p_RA_repeat = p_RA.repeat((1,factor_num*var_num)).reshape(p_CA.shape)
+                    effect_context = p_RA_repeat - p_CA
+                    effect_context = effect_context.reshape(b_sample_num,factor_num,var_num,-1)
+                    effect_context = effect_context.mean(axis=2).reshape(b_sample_num*factor_num,-1)
+                    # print("effect_context.shape:",effect_context.shape)
+                else:
+                    p_RA_repeat = p_RA.repeat((1,factor_num)).reshape(p_CA.shape)
+                    effect_context = p_RA_repeat - p_CA
+                weight = E_to_W(effect_context)
+                # weight = E_to_W(effect_context.detach())
+                weight = weight.reshape(b_sample_num,factor_num)
+                alphas = F.softmax(weight,dim=1)
+                
+                f_adapt_RA = torch.zeros(f_RA.shape).cuda()
+                for b in range(b_sample_num):
+                    for j in range(factor_num):
+                        f_adapt_RA[b] = f_adapt_RA[b]+ alphas[b,j]*AdaptNet[j](f_RA[b])     
+                p_adapt_RA = cls_net(f_adapt_RA, mode='c')
+                
+                cls_loss = cls_criterion(p, y)
+                re_mapping = adapt_criterion(f_adapt,f_repeat) 
+                re_causal = adapt_criterion(f_adapt_RA,f)                
+                cls_loss_mapping = cls_criterion(p_adapt, y_repeat)
+                cls_loss_causal = cls_criterion(p_adapt_RA, y)
+
+                loss = cls_loss + cls_loss_mapping + lambda_re*re_mapping + lambda_causal*(lambda_re*re_causal + cls_loss_causal)
+
+            opt.zero_grad()            
+            scaler.scale(loss).backward()
+            scaler.step(opt)
+            scaler.update()
+            loss_list.append([cls_loss.item(), cls_loss_mapping.item(),cls_loss_causal.item(), re_mapping.item(), re_causal.item()])
+            
+            # 调整学习率
+        if lr_scheduler in ['cosine', 'Exp', 'Step']:
+            writer.add_scalar('scalar/lr', opt.param_groups[0]["lr"], epoch)
+            print(opt.param_groups[0]["lr"])
+            print("changing lr")
+            scheduler.step()
+        cls_loss, cls_loss_mapping, cls_loss_causal, re_mapping, re_causal = np.mean(loss_list, 0)    
+
+        # 测试，并保存最优模型
+        cls_net.eval()
+        if data in ['mnist', 'mnist_t', 'cifar10', 'mnistvis', 'art_painting', 'cartoon', 'photo', 'sketch']:
+            teacc = evaluate(cls_net, teloader)
+
+        elif 'synthia' in data:
+            teacc = evaluate_seg(cls_net, teloader, nclass) # 这里算的其实是 miou
+
+        if best_acc < teacc:
+            print(f'---------------------saving model at epoch {epoch}----------------------------------------------------')
+            log_file.write(f'saving model at epoch {epoch}\n')
+
+            best_acc = teacc
+            torch.save(cls_net.state_dict(),os.path.join(svroot, 'best_cls_net.pkl'))
+            for j in range(factor_num):
+                torch.save(AdaptNet[j].state_dict(),os.path.join(svroot, 'best_mapping_'+str(j)+'.pkl'))
+            torch.save(E_to_W.state_dict(), os.path.join(svroot, 'best_E_to_W.pkl'))
+
+        # 保存日志
+        t2 = time.time()
+        print(f'epoch {epoch}, time {t2-t1:.2f}, cls_loss {cls_loss:.4f} cls_loss_mapping {cls_loss_mapping:.4f} cls_loss_causal {cls_loss_causal:.4f} re_mapping {re_mapping:.4f} re_causal {re_causal:.4f} /// teacc {teacc:2.2f} lr {opt.param_groups[0]["lr"]:.8f}')
+        log_file.write(f'epoch {epoch}, time {t2-t1:.2f}, cls_loss {cls_loss:.4f} cls_loss_mapping {cls_loss_mapping:.4f} cls_loss_causal {cls_loss_causal:.4f} re_mapping {re_mapping:.4f} re_causal {re_causal:.4f} /// teacc {teacc:2.2f} lr {opt.param_groups[0]["lr"]:.8f} \n')
+        writer.add_scalar('scalar/cls_loss', cls_loss, epoch)
+        writer.add_scalar('scalar/cls_loss_mapping', cls_loss_mapping, epoch)
+        writer.add_scalar('scalar/cls_loss_causal', cls_loss_causal, epoch)
+        writer.add_scalar('scalar/re_mapping', re_mapping, epoch)
+        writer.add_scalar('scalar/re_causal', re_causal, epoch)
+        writer.add_scalar('scalar/teacc', teacc, epoch)
+    print(f'---------------------saving last model at epoch {epoch}----------------------------------------------------')
+    log_file.write(f'saving last model at epoch {epoch}\n')
+    torch.save(cls_net.state_dict(),os.path.join(svroot, 'last_cls_net.pkl'))
+    for j in range(factor_num):
+        torch.save(AdaptNet[j].state_dict(),os.path.join(svroot, 'last_mapping_'+str(j)+'.pkl'))
+    torch.save(E_to_W.state_dict(), os.path.join(svroot, 'last_E_to_W.pkl'))
+
+    writer.close()
+def evalute_pacs(source_domain,cls_net,CA,AdaptNet,E_to_W):
+    cls_net.eval()
+    data_total = ['art_painting', 'cartoon', 'photo', 'sketch']
+    target = [i for i in data_total if i!=source_domain]
+    acc_CA = np.zeros(len(target))
+    for idx, data in enumerate(target):
+        teset = data_loader.load_pacs(data, 'test')
+        teloader = DataLoader(teset, batch_size=6, num_workers=0)
+        # 计算评价指标
+        acc_CA[idx] = evaluate_causal(cls_net, teloader, CA, AdaptNet, E_to_W)
+    acc_avg_CA = sum(acc_CA)/len(target)
+    return acc_avg_CA,acc_CA
+
+
+def evaluate(net, teloader):
+    ps = []
+    ys = []
+    for i,(x1, y1) in enumerate(teloader):
+        with torch.no_grad():
+            x1 = x1.cuda()
+            p1,_ = net(x1, mode='fc')
+            p1 = p1.argmax(dim=1)
+            ps.append(p1.detach().cpu().numpy())
+            ys.append(y1.numpy())
+    # 计算评价指标
+    ps = np.concatenate(ps)
+    ys = np.concatenate(ys)
+    acc = np.mean(ys==ps)*100
+    return acc
+def extract_feature(net, teloader, savedir):
+    ps = []
+    ys = []
+    for i,(x1, y1) in enumerate(teloader):
+        img_class = y1[0].cpu().numpy()
+        save_path = os.path.join(savedir,str(img_class))
+        if not os.path.exists(save_path):
+            os.makedirs(save_path)
+
+        with torch.no_grad():
+            x1 = x1.cuda()
+            p1,f1 = net(x1, mode='fc')
+            save_name = save_path+os.sep+str(i)+'.npy'
+            np.save(save_name,f1.cpu())
+            p1 = p1.argmax(dim=1)
+            ps.append(p1.detach().cpu().numpy())
+            ys.append(y1.numpy())
+    # 计算评价指标
+    ps = np.concatenate(ps)
+    ys = np.concatenate(ys)
+    acc = np.mean(ys==ps)*100
+    return acc
+
+def evaluate_causal(net, teloader, CA, AdaptNet, E_to_W):
+    ps = []
+    ys = []
+    p_orig = []
+    y_orig = []
+    for i,(x1, y1) in enumerate(teloader):
+        b_sample_num = x1.size(0)
+        with torch.no_grad():
+            x1 = x1.cuda()
+            p1,f_x1 = net(x1, mode='fc')
+            x1_CA = CA(x1).cuda()
+            p1_CA,_ = net(x1_CA, mode='fc')
+            p1_repeat = p1.repeat((1,CA.factor_num*CA.var_num)).reshape(p1_CA.shape)
+            effect_context = p1_repeat - p1_CA
+            effect_context = effect_context.reshape(b_sample_num,CA.factor_num,CA.var_num,-1)
+            effect_context = effect_context.mean(axis=2).reshape(b_sample_num*CA.factor_num,-1)
+            weight = E_to_W(effect_context)
+            weight = weight.reshape(b_sample_num,CA.factor_num)
+            alphas = F.softmax(weight,dim=1)
+            f_adapt = torch.zeros(f_x1.shape).cuda()
+            for b in range(b_sample_num):
+                for j in range(CA.factor_num):
+                    f_adapt[b] = f_adapt[b]+ alphas[b,j]*AdaptNet[j](f_x1[b])
+            p_adapt = net(f_adapt, mode='c')
+            p_adapt = p_adapt.argmax(dim=1)
+            ps.append(p_adapt.detach().cpu().numpy())
+            ys.append(y1.numpy())
+    # 计算评价指标
+    ps = np.concatenate(ps)
+    ys = np.concatenate(ys)
+    acc = np.mean(ys==ps)*100
+    return acc
+
+def extract_feature_do(net, teloader, CA, AdaptNet, E_to_W, savedir_base, savedir,source_flag):
+    ps = []
+    ys = []
+    for i,(x1, y1) in enumerate(teloader):
+        img_class = y1[0].cpu().numpy()
+        save_path_base = os.path.join(savedir_base,str(img_class))
+        save_path = os.path.join(savedir,str(img_class))
+        if not os.path.exists(save_path_base):
+            os.makedirs(save_path_base)
+        if not os.path.exists(save_path):
+            os.makedirs(save_path)
+        b_sample_num = x1.size(0)
+        with torch.no_grad():
+            x1 = x1.cuda()
+            p1,f_x1 = net(x1, mode='fc')
+            save_name_base = save_path_base+os.sep+str(i)+'_base.npy'
+            print(save_name_base)
+            np.save(save_name_base,f_x1.cpu())            
+            x1_CA = CA(x1).cuda()
+            p1_CA,_ = net(x1_CA, mode='fc')
+            p1_repeat = p1.repeat((1,CA.factor_num*CA.var_num)).reshape(p1_CA.shape)
+            effect_context = p1_repeat - p1_CA
+            effect_context = effect_context.reshape(b_sample_num,CA.factor_num,CA.var_num,-1)
+            effect_context = effect_context.mean(axis=2).reshape(b_sample_num*CA.factor_num,-1)
+            weight = E_to_W(effect_context)
+            weight = weight.reshape(b_sample_num,CA.factor_num)
+            alphas = F.softmax(weight,dim=1)
+            f_adapt = torch.zeros(f_x1.shape).cuda()
+            for b in range(b_sample_num):
+                for j in range(CA.factor_num):
+                    f_adapt[b] = f_adapt[b]+ alphas[b,j]*AdaptNet[j](f_x1[b])
+            if not source_flag:
+                save_name = save_path+os.sep+str(i)+'.npy'
+                print(save_name)
+                np.save(save_name,f_adapt.cpu())
+            p_adapt = net(f_adapt, mode='c')
+            p_adapt = p_adapt.argmax(dim=1)
+            ps.append(p_adapt.detach().cpu().numpy())
+            ys.append(y1.numpy())
+    # 计算评价指标
+    ps = np.concatenate(ps)
+    ys = np.concatenate(ys)
+    acc = np.mean(ys==ps)*100
+    return acc
+
+
+def evaluate_mapping(net, teloader, FA, AdaptNet, source=False):
+    correct, count = 0, 0
+    ps = []
+    ys = []
+    pt = []
+    yt = []
+    factor_num = FA.factor_num
+    for j in range(factor_num):
+        ps.append([])
+        ys.append([])
+        pt.append([])
+        yt.append([])
+    ps.append([])
+    ys.append([])   
+    # print(len(ps),len(ys))
+    for i,(x1, y1) in enumerate(teloader):
+        with torch.no_grad():
+            x1 = x1.cuda()
+            b = x1.size(0)
+            if source:
+                x_FA = FA(x1).cuda()
+                _, f = net(x_FA, mode='fc')
+                p,_ = net(x1, mode='fc')
+                p = p.argmax(dim=1)
+                ps[-1].append(p.detach().cpu().numpy())
+                ys[-1].append(y1.numpy())
+            else:
+                p, f = net(x1, mode='fc')
+                f = f.repeat((1,factor_num)).reshape((-1,f.size(1)))         
+                p = p.argmax(dim=1)
+                ps[-1].append(p.detach().cpu().numpy())
+                ys[-1].append(y1.numpy())
+            for b_ in range(b):
+                for j in range(factor_num):
+                    f_adapt = AdaptNet[j](f[b_*factor_num+j])
+                    #f_adapt = torch.mm(AdaptNet[j].W1,f_FA[b_*factor_num+j].unsqueeze(1)).squeeze()
+                    p1 = net(f_adapt, mode='c')
+                    p1 = p1.argmax(dim=0)
+                    ps[j].append(p1.detach().cpu())
+                    ys[j].append(y1[b_])
+                    p1_t = net(f[b_*factor_num+j], mode='c')
+                    # print("p1_t.shape:",p1_t.shape)
+                    p1_t = p1_t.argmax(dim=0)
+                    pt[j].append(p1_t.detach().cpu())
+                    yt[j].append(y1[b_])
+    # 计算评价指标
+    acc = np.zeros(factor_num+1)
+    acc_t = np.zeros(factor_num+1)
+    for j in range(factor_num):
+        pred = torch.stack(ps[j])
+        label = torch.stack(ys[j])
+        acc[j] = (pred==label).sum()/float(len(ys[j]))*100
+        predt = torch.stack(pt[j])
+        labelt = torch.stack(yt[j])
+        acc_t[j] = (predt==labelt).sum()/float(len(yt[j]))*100
+    pred = np.concatenate(ps[-1])
+    label = np.concatenate(ys[-1])
+    acc[-1] = np.mean(pred==label)*100
+    # print("acc:",acc)
+    return acc, acc_t
+def evaluate_causal_with_entropy(net, teloader, CA, AdaptNet):
+    ps = []
+    ys = []
+    for i,(x1, y1) in enumerate(teloader):
+        b_sample_num = x1.size(0)
+        with torch.no_grad():
+            x1 = x1.cuda()
+            p1,f_x1 = net(x1, mode='fc')
+            
+            x1_CA = CA(x1).cuda()
+            p1_CA, _ = net(x1_CA, mode='fc')
+            p1_repeat = p1.repeat((1,CA.factor_num*CA.var_num)).reshape(p1_CA.shape)
+            effect_context = p1_repeat - p1_CA
+            effect_context = effect_context.reshape(b_sample_num,CA.factor_num,CA.var_num,-1)
+            effect_context = effect_context.mean(axis=2).reshape(b_sample_num*CA.factor_num,-1)
+            effect_context = F.softmax(effect_context,dim=1)
+            # weight = calc_ent(effect_context)
+            weight = torch.sum(-effect_context*(torch.log2(effect_context)),dim=1)
+            weight = weight.reshape(b_sample_num,CA.factor_num)
+            alphas = F.softmax(-weight,dim=1)
+            f_adapt = torch.zeros(f_x1.shape).cuda()
+            for b in range(b_sample_num):
+                for j in range(CA.factor_num):
+                    f_adapt[b] = f_adapt[b]+ alphas[b,j]*AdaptNet[j](f_x1[b]) 
+            p_adapt = net(f_adapt, mode='c')
+            p_adapt = p_adapt.argmax(dim=1)
+            ps.append(p_adapt.detach().cpu().numpy())
+            ys.append(y1.numpy())
+    # 计算评价指标
+    ps = np.concatenate(ps)
+    ys = np.concatenate(ys)
+    acc = np.mean(ys==ps)*100
+    return acc
+def evaluate_causal_with_average(net, teloader, factor_num, AdaptNet):
+    ps = []
+    ys = []
+    for i,(x1, y1) in enumerate(teloader):
+        b_sample_num = x1.size(0)
+        with torch.no_grad():
+            x1 = x1.cuda()
+            p1,f_x1 = net(x1, mode='fc')
+            f_adapt = torch.zeros(f_x1.shape).cuda()
+            for b in range(b_sample_num):
+                for j in range(factor_num):
+                    f_adapt[b] = f_adapt[b]+ float(1/factor_num)*AdaptNet[j](f_x1[b]) 
+            p_adapt = net(f_adapt, mode='c')
+            p_adapt = p_adapt.argmax(dim=1)
+            ps.append(p_adapt.detach().cpu().numpy())
+            ys.append(y1.numpy())
+    # 计算评价指标
+    ps = np.concatenate(ps)
+    ys = np.concatenate(ys)
+    acc = np.mean(ys==ps)*100
+    return acc
+if __name__=='__main__':
+    experiment()
\ No newline at end of file
diff --git a/Meta-causal/code/main_test_digit_v13.py b/Meta-causal/code/main_test_digit_v13.py
new file mode 100644
index 0000000000000000000000000000000000000000..ffe683c3846ddf8ce34a4d834d089b6868e19dcc
--- /dev/null
+++ b/Meta-causal/code/main_test_digit_v13.py
@@ -0,0 +1,143 @@
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from torch.utils.data import DataLoader
+
+import os
+import numpy as np
+import click
+import pandas as pd
+
+from network import mnist_net_my as mnist_net
+from network import adaptor_v2
+from tools import causalaugment_v3 as causalaugment
+from main_my_joint_v13_auto import evaluate,evaluate_causal,evaluate_causal_with_entropy,evaluate_mapping,evaluate_causal_with_average
+import data_loader_joint_v3 as data_loader
+
+@click.command()
+@click.option('--gpu', type=str, default='0', help='选择GPU编号')
+@click.option('--svroot', type=str, default='./saved')
+@click.option('--svpath', type=str, default=None, help='保存日志的路径')
+@click.option('--channels', type=int, default=3)
+@click.option('--factor_num', type=int, default=16)
+@click.option('--stride', type=int, default=16)
+@click.option('--epoch', type=str, default='best')
+@click.option('--eval_mapping', type=bool, default=True, help='是否查看mapping学习效果')
+def main(gpu, svroot, svpath, channels, factor_num,stride, epoch, eval_mapping):
+    evaluate_digit(gpu, svroot, svpath, channels, factor_num, stride,epoch, eval_mapping)
+    
+def evaluate_digit(gpu, svroot, svpath, channels=3, factor_num=16,stride=5,epoch='best', eval_mapping=True):
+    settings = locals().copy()
+    print(settings)
+    os.environ['CUDA_VISIBLE_DEVICES'] = gpu
+
+    # 加载分类模型
+    if channels == 3:
+        cls_net = mnist_net.ConvNet().cuda()
+    elif channels == 1:
+        cls_net = mnist_net.ConvNet(imdim=channels).cuda()
+    if epoch == 'best':
+        print("loading weight of %s"%(epoch))
+        saved_weight = torch.load(os.path.join(svroot, 'best_cls_net.pkl'))
+    elif epoch == 'last':
+        print("loading weight of %s"%(epoch))
+        saved_weight = torch.load(os.path.join(svroot, 'last_cls_net.pkl'))
+    cls_net.load_state_dict(saved_weight)
+    #cls_net.eval()
+    # 加载adaptation模型   
+    FA = causalaugment.FactualAugment(m=4, factor_num=factor_num)
+    CA = causalaugment.MultiCounterfactualAugment(factor_num,stride) 
+    # Color_mapping = adaptor.mapping().cuda()
+    # Contrast_mapping = adaptor.mapping().cuda()
+    # Brightness_mapping = adaptor.mapping().cuda()
+    AdaptNet = []
+    parameter_list = []
+    for i in range(factor_num):
+        if epoch == 'best':
+            print("loading weight of %s"%(epoch))
+            saved_weight = torch.load(os.path.join(svroot, 'best_mapping_'+str(i)+'.pkl'))
+        elif epoch == 'last':
+            print("loading weight of %s"%(epoch))
+            saved_weight = torch.load(os.path.join(svroot, 'last_mapping_'+str(i)+'.pkl'))
+        # saved_weight = torch.load(os.path.join(svroot, 'best_mapping_'+str(i)+'.pkl'))
+        mapping = adaptor_v2.mapping(1024,512,1024,2).cuda()
+        mapping.load_state_dict(saved_weight)
+        AdaptNet.append(mapping)
+    if epoch == 'best':
+        print("loading weight of %s"%(epoch))
+        saved_weight = torch.load(os.path.join(svroot, 'best_E_to_W.pkl'))
+    elif epoch == 'last':
+        print("loading weight of %s"%(epoch))
+        saved_weight = torch.load(os.path.join(svroot, 'last_E_to_W.pkl'))
+
+    E_to_W = adaptor_v2.effect_to_weight(10,100,1).cuda()
+    # Color_mapping.load_state_dict(saved_weight['Color_mapping'])
+    # Contrast_mapping.load_state_dict(saved_weight['Contrast_mapping'])
+    # Brightness_mapping.load_state_dict(saved_weight['Brightness_mapping'])
+    # saved_weight = torch.load(os.path.join(svroot, 'best_E_to_W.pkl'))
+    E_to_W.load_state_dict(saved_weight)
+
+    # 测试
+    str2fun = { 
+        'mnist': data_loader.load_mnist,
+        'mnist_m': data_loader.load_mnist_m,
+        'usps': data_loader.load_usps,
+        'svhn': data_loader.load_svhn,
+        'syndigit': data_loader.load_syndigit,
+        }   
+    columns = ['mnist', 'svhn', 'mnist_m', 'syndigit','usps']
+    target = ['svhn', 'mnist_m', 'syndigit','usps']
+    if eval_mapping:
+        index = FA.factor_list
+        index.append('w/o do (original x)')
+    else:
+        index = ['w/o do (original x)']
+    index_ours = ['do']
+    data_result = {}
+    data_result_ours = {}
+    cls_net.eval()
+    for idx, data in enumerate(columns):
+        teset = str2fun[data]('test', channels=channels)
+        teloader = DataLoader(teset, batch_size=8, num_workers=0)
+        # 计算评价指标
+        acc_CA = evaluate_causal(cls_net, teloader, CA, AdaptNet, E_to_W)
+        data_result_ours[data] = acc_CA
+        #最后一维度是原始数据
+        if eval_mapping:
+            if data == 'mnist':
+                teacc_FA_aftermapping, acc_FA = evaluate_mapping(cls_net, teloader, FA, AdaptNet, source=True)
+                acc_avg = np.zeros(teacc_FA_aftermapping.shape)
+                acc_avg_CA = np.zeros(acc_CA.shape)
+            else:
+                teacc_FA_aftermapping, acc_FA = evaluate_mapping(cls_net, teloader, FA, AdaptNet, source=False)
+                acc_avg = acc_avg + teacc_FA_aftermapping
+                acc_avg_CA = acc_avg_CA + acc_CA
+            data_result[data]=teacc_FA_aftermapping
+            data_result[data+'_FA'] = acc_FA
+        else:
+            teacc = evaluate(cls_net, teloader)
+            if data == 'mnist':
+                acc_avg = np.zeros(teacc.shape)
+                acc_avg_CA = np.zeros(acc_CA.shape)
+            else:
+                acc_avg = acc_avg + teacc
+                acc_avg_CA = acc_avg_CA + acc_CA
+            data_result[data] = teacc         
+    acc_avg = acc_avg/float(len(target))
+    acc_avg_CA = acc_avg_CA/float(len(target))
+    
+    data_result['Avg'] = acc_avg
+    data_result_ours['Avg'] = acc_avg_CA
+
+    df = pd.DataFrame(data_result,index = index)
+    df_ours = pd.DataFrame(data_result_ours,index = index_ours)
+    print(df)
+    print(df_ours)       
+    if svpath is not None:
+        df.to_csv(svpath)
+        df_ours.to_csv(svpath, mode='a')
+
+if __name__=='__main__':
+    main()
+
diff --git a/Meta-causal/code/main_test_pacs_v13.py b/Meta-causal/code/main_test_pacs_v13.py
new file mode 100644
index 0000000000000000000000000000000000000000..e671f80903d98050eee7ea006ccc3abfdd2c5f44
--- /dev/null
+++ b/Meta-causal/code/main_test_pacs_v13.py
@@ -0,0 +1,139 @@
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from torch.utils.data import DataLoader
+
+import os
+import numpy as np
+import click
+import pandas as pd
+
+from network import resnet as resnet
+from network import adaptor_v2
+from tools import causalaugment_v3 as causalaugment
+from main_my_joint_v13_auto import evaluate,evaluate_causal,evaluate_causal_with_entropy,evaluate_mapping,evaluate_causal_with_average
+import data_loader_joint_v3 as data_loader
+
+@click.command()
+@click.option('--gpu', type=str, default='0', help='选择GPU编号')
+@click.option('--svroot', type=str, default='./saved')
+@click.option('--source_domain', type=str, default='art_painting', help='source domain')
+@click.option('--svpath', type=str, default=None, help='保存日志的路径')
+@click.option('--factor_num', type=int, default=16)
+@click.option('--epoch', type=str, default='best')
+@click.option('--stride', type=int, default=5)
+@click.option('--eval_mapping', type=bool, default=False, help='是否查看mapping学习效果')
+@click.option('--network', type=str, default='resnet18', help='项目文件保存路径')
+def main(gpu, svroot, source_domain, svpath, factor_num, epoch, stride,eval_mapping, network):
+    evaluate_pacs(gpu, svroot, source_domain, svpath, factor_num, epoch, stride,eval_mapping, network)
+    
+def evaluate_pacs(gpu, svroot, source_domain, svpath, factor_num=16, epoch='best', stride=5,eval_mapping=False, network='resnet18'):
+    settings = locals().copy()
+    print(settings)
+    os.environ['CUDA_VISIBLE_DEVICES'] = gpu
+
+    # 加载分类模型
+    if network == 'resnet18':
+        cls_net = resnet.resnet18(classes=7,c_dim=2048).cuda()
+        input_dim = 2048
+    if epoch == 'best':
+        print("loading weight of %s"%(epoch))
+        saved_weight = torch.load(os.path.join(svroot, 'best_cls_net.pkl'))
+    elif epoch == 'last':
+        print("loading weight of %s"%(epoch))
+        saved_weight = torch.load(os.path.join(svroot, 'last_cls_net.pkl'))
+    cls_net.load_state_dict(saved_weight)
+    cls_net.eval()
+    # 加载adaptation模型
+    FA = causalaugment.FactualAugment(m=4, factor_num=factor_num)
+    CA = causalaugment.MultiCounterfactualAugment(factor_num,stride) 
+    AdaptNet = []
+    parameter_list = []
+    for i in range(factor_num):
+        if epoch == 'best':
+            print("loading weight of %s"%(epoch))
+            saved_weight = torch.load(os.path.join(svroot, 'best_mapping_'+str(i)+'.pkl'))
+        elif epoch == 'last':
+            print("loading weight of %s"%(epoch))
+            saved_weight = torch.load(os.path.join(svroot, 'last_mapping_'+str(i)+'.pkl'))
+        # saved_weight = torch.load(os.path.join(svroot, 'best_mapping_'+str(i)+'.pkl'))
+        mapping = adaptor_v2.mapping(input_dim,1024,input_dim,4).cuda()
+        mapping.load_state_dict(saved_weight)
+        AdaptNet.append(mapping)
+    if epoch == 'best':
+        print("loading weight of %s"%(epoch))
+        saved_weight = torch.load(os.path.join(svroot, 'best_E_to_W.pkl'))
+    elif epoch == 'last':
+        print("loading weight of %s"%(epoch))
+        saved_weight = torch.load(os.path.join(svroot, 'last_E_to_W.pkl'))
+    E_to_W = adaptor_v2.effect_to_weight(7,70,1).cuda()
+    # Color_mapping.load_state_dict(saved_weight['Color_mapping'])
+    # Contrast_mapping.load_state_dict(saved_weight['Contrast_mapping'])
+    # Brightness_mapping.load_state_dict(saved_weight['Brightness_mapping'])
+    # saved_weight = torch.load(os.path.join(svroot, 'best_E_to_W.pkl'))
+    E_to_W.load_state_dict(saved_weight)
+
+    # 测试
+    # str2fun = { 
+    #     'art_painting': data_loader.load_pacs,
+    #     'cartoon': data_loader.load_pacs,
+    #     'photo': data_loader.load_pacs,
+    #     'sketch': data_loader.load_pacs,
+    #     }   
+    columns = ['art_painting', 'cartoon', 'photo', 'sketch']
+    target = [i for i in columns if i!=source_domain]
+    columns = [source_domain] + target
+    print("columns:",columns)
+    if eval_mapping:
+        index = FA.factor_list
+        index.append('w/o do (original x)')
+    else:
+        index = ['w/o do (original x)']
+    index_ours = ['do']
+    data_result = {}
+    data_result_ours = {}
+
+    for idx, data in enumerate(columns):
+        teset = data_loader.load_pacs(data, 'test')
+        teloader = DataLoader(teset, batch_size=4, num_workers=0)
+        # 计算评价指标
+        acc_CA = evaluate_causal(cls_net, teloader, CA, AdaptNet, E_to_W)
+        data_result_ours[data] = acc_CA
+        #最后一维度是原始数据
+        if eval_mapping:
+            if data == source_domain:
+                teacc_FA_aftermapping, acc_FA = evaluate_mapping(cls_net, teloader, FA, AdaptNet, source=True)
+                acc_avg = np.zeros(teacc_FA_aftermapping.shape)
+                acc_avg_CA = np.zeros(acc_CA.shape)
+            else:
+                teacc_FA_aftermapping, acc_FA = evaluate_mapping(cls_net, teloader, FA, AdaptNet, source=False)
+                acc_avg = acc_avg + teacc_FA_aftermapping
+                acc_avg_CA = acc_avg_CA + acc_CA
+            data_result[data]=teacc_FA_aftermapping
+            data_result[data+'_FA'] = acc_FA
+        else:
+            teacc = evaluate(cls_net, teloader)
+            if data == source_domain:
+                acc_avg = np.zeros(teacc.shape)
+                acc_avg_CA = np.zeros(acc_CA.shape)
+            else:
+                acc_avg = acc_avg + teacc
+                acc_avg_CA = acc_avg_CA + acc_CA
+            data_result[data] = teacc        
+    acc_avg = acc_avg/float(len(target))
+    acc_avg_CA = acc_avg_CA/float(len(target))
+    
+    data_result['Avg'] = acc_avg
+    data_result_ours['Avg'] = acc_avg_CA
+
+    df = pd.DataFrame(data_result,index = index)
+    df_ours = pd.DataFrame(data_result_ours,index = index_ours)
+    print(df)
+    print(df_ours)       
+    if svpath is not None:
+        df.to_csv(svpath)
+        df_ours.to_csv(svpath, mode='a')
+if __name__=='__main__':
+    main()
+
diff --git a/Meta-causal/code/network/adaptor_v2.py b/Meta-causal/code/network/adaptor_v2.py
new file mode 100644
index 0000000000000000000000000000000000000000..ce47dbd1a24f9e2f741d8a82061b62b86d3dba41
--- /dev/null
+++ b/Meta-causal/code/network/adaptor_v2.py
@@ -0,0 +1,63 @@
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+import numpy as np
+
+class mapping(nn.Module):
+    def __init__(self, input_dim=1024, hidden_dim = 512, out_dim=1024, layernum=4):
+        ''' 
+        '''
+        super().__init__()
+        self.layernum = layernum
+        if layernum == 4:
+            self.fc1 = nn.Linear(input_dim, hidden_dim)
+            self.fc2 = nn.Linear(hidden_dim, hidden_dim)
+            self.fc3 = nn.Linear(hidden_dim, hidden_dim)
+            self.fc4 = nn.Linear(hidden_dim, out_dim)
+        elif layernum == 2:
+            self.fc1 = nn.Linear(input_dim, hidden_dim)
+            self.fc2 = nn.Linear(hidden_dim, out_dim)            
+        self.relu = nn.ReLU(inplace=True)
+
+    def forward(self, x): 
+        ''' x '''
+        if self.layernum == 4:
+            x = self.relu(self.fc1(x))
+            x = self.relu(self.fc2(x))
+            x = self.relu(self.fc3(x))
+            x = self.fc4(x)
+        elif self.layernum == 2:
+            x = self.relu(self.fc1(x))
+            x = self.fc2(x)            
+        return x
+
+
+class effect_to_weight(nn.Module):
+    def __init__(self, input_dim = 512, hidden_dim = 256, out_dim = 1, layernum=2, hidden_dim2 = 128):
+        ''' 
+        '''
+        super().__init__()
+        
+        self.layernum = layernum
+        if layernum == 2:
+            self.fc1 = nn.Linear(input_dim, hidden_dim)
+            self.fc2 = nn.Linear(hidden_dim, out_dim)
+        elif layernum == 3:
+            self.fc1 = nn.Linear(input_dim, hidden_dim)
+            self.fc2 = nn.Linear(hidden_dim, hidden_dim2)            
+            self.fc3 = nn.Linear(hidden_dim2, out_dim)  
+        self.relu = nn.ReLU(inplace=True)
+
+    def forward(self, x): 
+        ''' x '''
+        if self.layernum == 2:
+            x = self.relu(self.fc1(x))
+            x = self.fc2(x)
+        else:
+            x = self.relu(self.fc1(x))
+            x = self.relu(self.fc2(x))
+            x = self.fc3(x)
+        return x
+
+
diff --git a/Meta-causal/code/network/mnist_net_my.py b/Meta-causal/code/network/mnist_net_my.py
new file mode 100644
index 0000000000000000000000000000000000000000..15e2e677280fdd2211b559f9f1bafd2fb66b5ef4
--- /dev/null
+++ b/Meta-causal/code/network/mnist_net_my.py
@@ -0,0 +1,104 @@
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+
+class ConvNet(nn.Module):
+    ''' 网络结构和cvpr2020的 M-ADA 方法一致 '''
+    def __init__(self, imdim=3):
+        super(ConvNet, self).__init__()
+
+        self.conv1 = nn.Conv2d(imdim, 64, kernel_size=5, stride=1, padding=0)
+        self.mp = nn.MaxPool2d(2)
+        self.relu1 = nn.ReLU(inplace=True)
+        self.conv2 = nn.Conv2d(64, 128, kernel_size=5, stride=1, padding=0)
+        self.relu2 = nn.ReLU(inplace=True)
+        self.fc1 = nn.Linear(128*5*5, 1024)
+        self.relu3 = nn.ReLU(inplace=True)
+        self.fc2 = nn.Linear(1024, 1024)
+        self.relu4 = nn.ReLU(inplace=True)
+        
+        self.cls_head_src = nn.Linear(1024, 10)
+        # self.cls_head_tgt = nn.Linear(1024, 10)
+        # self.pro_head = nn.Linear(1024, 128)
+
+    def forward(self, x, mode='fc'):
+        if mode == 'c':
+            out4 = self.relu4(x)
+            p = self.cls_head_src(out4)
+            return p
+        elif mode == 'fc':
+            in_size = x.size(0)
+            out1 = self.mp(self.relu1(self.conv1(x)))
+            out2 = self.mp(self.relu2(self.conv2(out1)))
+            out2 = out2.view(in_size, -1)
+            out3 = self.relu3(self.fc1(out2))
+            out4_worelu = self.fc2(out3)
+            out4 = self.relu4(out4_worelu)
+            p = self.cls_head_src(out4)
+            return p, out4_worelu
+
+        # if mode == 'test':
+        #     p = self.cls_head_src(out4)
+        #     return p
+        # elif mode == 'train':
+        #     p = self.cls_head_src(out4)
+        #     # z = self.pro_head(out4)
+        #     # z = F.normalize(z)
+        #     return p,out4_worelu
+        # elif mode == 'p_f':
+        #     p = self.cls_head_src(out4)
+        #     return p, out4
+        #elif mode == 'target':
+        #    p = self.cls_head_tgt(out4)
+        #    z = self.pro_head(out4)
+        #    z = F.normalize(z)
+        #    return p,z
+    
+class ConvNetVis(nn.Module):
+    ''' 方便可视化，特征提取器输出2-d特征
+    '''
+    def __init__(self, imdim=3):
+        super(ConvNetVis, self).__init__()
+
+        self.conv1 = nn.Conv2d(imdim, 64, kernel_size=5, stride=1, padding=0)
+        self.mp = nn.MaxPool2d(2)
+        self.relu1 = nn.ReLU(inplace=True)
+        self.conv2 = nn.Conv2d(64, 128, kernel_size=5, stride=1, padding=0)
+        self.relu2 = nn.ReLU(inplace=True)
+        self.fc1 = nn.Linear(128*5*5, 1024)
+        self.relu3 = nn.ReLU(inplace=True)
+        self.fc2 = nn.Linear(1024, 2)
+        self.relu4 = nn.ReLU(inplace=True)
+        
+        self.cls_head_src = nn.Linear(2, 10)
+        self.cls_head_tgt = nn.Linear(2, 10)
+        self.pro_head = nn.Linear(2, 128)
+
+    def forward(self, x, mode='test'):
+
+        in_size = x.size(0)
+        out1 = self.mp(self.relu1(self.conv1(x)))
+        out2 = self.mp(self.relu2(self.conv2(out1)))
+        out2 = out2.view(in_size, -1)
+        out3 = self.relu3(self.fc1(out2))
+        out4 = self.relu4(self.fc2(out3))
+        
+        if mode == 'test':
+            p = self.cls_head_src(out4)
+            return p
+        elif mode == 'train':
+            p = self.cls_head_src(out4)
+            z = self.pro_head(out4)
+            z = F.normalize(z)
+            return p,z
+        elif mode == 'p_f':
+            p = self.cls_head_src(out4)
+            return p, out4
+        #elif mode == 'target':
+        #    p = self.cls_head_tgt(out4)
+        #    z = self.pro_head(out4)
+        #    z = F.normalize(z)
+        #    return p,z
+    
+
diff --git a/Meta-causal/code/network/resnet.py b/Meta-causal/code/network/resnet.py
new file mode 100644
index 0000000000000000000000000000000000000000..925410b6cc064aba01d1f86efa8eb7fdd592ecee
--- /dev/null
+++ b/Meta-causal/code/network/resnet.py
@@ -0,0 +1,101 @@
+from torch import nn
+from torch.utils import model_zoo
+#from torchvision.models.resnet import BasicBlock, model_urls, Bottleneck
+from torchvision.models.resnet import BasicBlock, Bottleneck
+
+import torch
+import ssl
+# from torch import nn as nn
+# from utils.util import *
+
+ssl._create_default_https_context = ssl._create_unverified_context
+
+all = ['ResNet', 'resnet18', 'resnet34', 'resnet50', 'resnet101','resnet152']
+
+model_urls = {
+'resnet18': 'https://download.pytorch.org/models/resnet18-5c106cde.pth',
+'resnet34': 'https://download.pytorch.org/models/resnet34-333f7ec4.pth',
+'resnet50': 'https://download.pytorch.org/models/resnet50-19c8e357.pth',
+'resnet101': 'https://download.pytorch.org/models/resnet101-5d3b4d8f.pth',
+'resnet152': 'https://download.pytorch.org/models/resnet152-b121ed2d.pth',
+}
+
+
+class ResNet(nn.Module):
+    def __init__(self, block, layers,classes=7,c_dim=512):
+        self.inplanes = 64
+        super(ResNet, self).__init__()
+        self.conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3,
+                               bias=False)
+        self.bn1 = nn.BatchNorm2d(64)
+        self.relu = nn.ReLU(inplace=True)
+        self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)
+        self.layer1 = self._make_layer(block, 64, layers[0])
+        self.layer2 = self._make_layer(block, 128, layers[1], stride=2)
+        self.layer3 = self._make_layer(block, 256, layers[2], stride=2)
+        self.layer4 = self._make_layer(block, 512, layers[3], stride=2)
+        self.avgpool = nn.AvgPool2d(7, stride=1)
+        self.class_classifier = nn.Linear(c_dim, classes)
+        for m in self.modules():
+            if isinstance(m, nn.Conv2d):
+                nn.init.kaiming_normal_(m.weight, mode='fan_out', nonlinearity='relu')
+            elif isinstance(m, nn.BatchNorm2d):
+                nn.init.constant_(m.weight, 1)
+                nn.init.constant_(m.bias, 0)
+
+    def _make_layer(self, block, planes, blocks, stride=1):
+        downsample = None
+        if stride != 1 or self.inplanes != planes * block.expansion:
+            downsample = nn.Sequential(
+                nn.Conv2d(self.inplanes, planes * block.expansion,
+                          kernel_size=1, stride=stride, bias=False),
+                nn.BatchNorm2d(planes * block.expansion),
+            )
+
+        layers = []
+        layers.append(block(self.inplanes, planes, stride, downsample))
+        self.inplanes = planes * block.expansion
+        for i in range(1, blocks):
+            layers.append(block(self.inplanes, planes))
+
+        return nn.Sequential(*layers)
+    def forward(self, x, mode='fc'):
+        if mode == 'c':
+            return self.class_classifier(x)
+        else:
+            x = self.conv1(x)
+            x = self.bn1(x)
+            x = self.relu(x)
+            x = self.maxpool(x)
+
+            x = self.layer1(x)
+            x = self.layer2(x)
+            x = self.layer3(x)
+            x = self.layer4(x)
+            x = self.avgpool(x)
+            x = x.view(x.size(0), -1)
+            # print("x.shape:",x.shape)
+            return self.class_classifier(x), x
+
+
+def resnet18(pretrained=True, **kwargs):
+    """Constructs a ResNet-18 model.
+    Args:
+        pretrained (bool): If True, returns a model pre-trained on ImageNet
+    """
+    model = ResNet(BasicBlock, [2, 2, 2, 2], **kwargs)
+    if pretrained:
+        print("-------------------------------------loading pretrain weights----------------------------------")
+        model.load_state_dict(model_zoo.load_url(model_urls['resnet18']), strict=False)
+    return model
+
+def resnet50(pretrained=True, **kwargs):
+    """Constructs a ResNet-50 model.
+    Args:
+        pretrained (bool): If True, returns a model pre-trained on ImageNet
+    """
+    model = ResNet(Bottleneck, [3, 4, 6, 3], **kwargs)
+    if pretrained:
+        print("-------------------------------------loading pretrain weights----------------------------------")
+        model.load_state_dict(model_zoo.load_url(model_urls['resnet50']), strict=False)
+    return model
diff --git a/Meta-causal/code/network/wideresnet.py b/Meta-causal/code/network/wideresnet.py
new file mode 100644
index 0000000000000000000000000000000000000000..1ca130a5f278c3b63f43b589db6ebd18d6e91593
--- /dev/null
+++ b/Meta-causal/code/network/wideresnet.py
@@ -0,0 +1,86 @@
+import math
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+
+
+class BasicBlock(nn.Module):
+    def __init__(self, in_planes, out_planes, stride, dropRate=0.0):
+        super(BasicBlock, self).__init__()
+        self.bn1 = nn.BatchNorm2d(in_planes)
+        self.relu1 = nn.ReLU(inplace=True)
+        self.conv1 = nn.Conv2d(in_planes, out_planes, kernel_size=3, stride=stride,
+                               padding=1, bias=False)
+        self.bn2 = nn.BatchNorm2d(out_planes)
+        self.relu2 = nn.ReLU(inplace=True)
+        self.conv2 = nn.Conv2d(out_planes, out_planes, kernel_size=3, stride=1,
+                               padding=1, bias=False)
+        self.droprate = dropRate
+        self.equalInOut = (in_planes == out_planes)
+        self.convShortcut = (not self.equalInOut) and nn.Conv2d(in_planes, out_planes, kernel_size=1, stride=stride,
+                               padding=0, bias=False) or None
+    def forward(self, x):
+        if not self.equalInOut:
+            x = self.relu1(self.bn1(x))
+        else:
+            out = self.relu1(self.bn1(x))
+        out = self.relu2(self.bn2(self.conv1(out if self.equalInOut else x)))
+        if self.droprate > 0:
+            out = F.dropout(out, p=self.droprate, training=self.training)
+        out = self.conv2(out)
+        return torch.add(x if self.equalInOut else self.convShortcut(x), out)
+
+class NetworkBlock(nn.Module):
+    def __init__(self, nb_layers, in_planes, out_planes, block, stride, dropRate=0.0):
+        super(NetworkBlock, self).__init__()
+        self.layer = self._make_layer(block, in_planes, out_planes, nb_layers, stride, dropRate)
+    def _make_layer(self, block, in_planes, out_planes, nb_layers, stride, dropRate):
+        layers = []
+        for i in range(int(nb_layers)):
+            layers.append(block(i == 0 and in_planes or out_planes, out_planes, i == 0 and stride or 1, dropRate))
+        return nn.Sequential(*layers)
+    def forward(self, x):
+        return self.layer(x)
+
+class WideResNet(nn.Module):
+    def __init__(self, depth, num_classes, widen_factor=1, dropRate=0.0):
+        super(WideResNet, self).__init__()
+        nChannels = [16, 16*widen_factor, 32*widen_factor, 64*widen_factor]
+        assert((depth - 4) % 6 == 0)
+        n = (depth - 4) / 6
+        block = BasicBlock
+        # 1st conv before any network block
+        self.conv1 = nn.Conv2d(3, nChannels[0], kernel_size=3, stride=1,
+                               padding=1, bias=False)
+        # 1st block
+        self.block1 = NetworkBlock(n, nChannels[0], nChannels[1], block, 1, dropRate)
+        # 2nd block
+        self.block2 = NetworkBlock(n, nChannels[1], nChannels[2], block, 2, dropRate)
+        # 3rd block
+        self.block3 = NetworkBlock(n, nChannels[2], nChannels[3], block, 2, dropRate)
+        # global average pooling and classifier
+        self.bn1 = nn.BatchNorm2d(nChannels[3])
+        self.relu = nn.ReLU(inplace=True)
+        self.fc = nn.Linear(nChannels[3], num_classes)
+        self.nChannels = nChannels[3]
+
+        for m in self.modules():
+            if isinstance(m, nn.Conv2d):
+                nn.init.kaiming_normal_(m.weight, mode='fan_out', nonlinearity='relu')
+            elif isinstance(m, nn.BatchNorm2d):
+                m.weight.data.fill_(1)
+                m.bias.data.zero_()
+            elif isinstance(m, nn.Linear):
+                m.bias.data.zero_()
+    def forward(self, x, mode='fc'):
+        if mode == 'c':
+            return self.fc(x)
+        else:
+            out = self.conv1(x)
+            out = self.block1(out)
+            out = self.block2(out)
+            out = self.block3(out)
+            out = self.relu(self.bn1(out))
+            out = F.avg_pool2d(out, 8)
+            out = out.view(-1, self.nChannels)
+            return self.fc(out), out
diff --git a/Meta-causal/code/run_PACS/run_my_joint_v13_test.sh b/Meta-causal/code/run_PACS/run_my_joint_v13_test.sh
new file mode 100644
index 0000000000000000000000000000000000000000..4cc6202fbc2602b146fd3ec25521a7383e60248a
--- /dev/null
+++ b/Meta-causal/code/run_PACS/run_my_joint_v13_test.sh
@@ -0,0 +1,39 @@
+
+# $1 gpuid
+# $2 runid
+
+# base方法
+cd ..
+epochs=70
+clsadapt=True
+lr=0.01
+factor_num=16
+lr_scheduler=cosine
+lambda_causal=1
+lambda_re=1
+batchsize=6
+stride=5
+randm=True
+randn=True
+autoaug=CA_multiple
+network=resnet18
+UniqueExpName=ReProduceMetaCausal
+
+root=/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-PACS/
+#data=art_painting
+#data=cartoon
+#data=photo
+data=sketch
+svroot=$root/${data}/${autoaug}_${factor_num}fa_v2_ep${epochs}_lr${lr}_${lr_scheduler}_base0.01_bs${batchsize}_lamCa_${lambda_causal}_lamRe${lambda_re}_adt4_cls1_EW2_70_rm${randm}_rn${randn}_str${stride}_${UniqueExpName}
+
+#python3 main_my_joint_v13_auto.py --gpu $1 --data ${data} --epochs $epochs --autoaug $autoaug --lambda_causal ${lambda_causal} --lambda_re ${lambda_re} --lr $lr --svroot $svroot --clsadapt $clsadapt --factor_num $factor_num --lr_scheduler ${lr_scheduler} --batchsize ${batchsize} --network ${network} --randm ${randm} --randn ${randn} --stride ${stride}
+
+test_epoch=best
+python3 main_test_pacs_v13.py --gpu $1 --source_domain $data --svroot $svroot --svpath $svroot/${data}_${factor_num}factor_${test_epoch}_test_check.csv --factor_num $factor_num --epoch $test_epoch \
+									--network ${network} --stride ${stride}
+
+
+
+
+
+
diff --git a/Meta-causal/code/run_digits/run_my_joint_test.sh b/Meta-causal/code/run_digits/run_my_joint_test.sh
new file mode 100644
index 0000000000000000000000000000000000000000..93d3b0700388d4d274f60f805669b9a559cb6e38
--- /dev/null
+++ b/Meta-causal/code/run_digits/run_my_joint_test.sh
@@ -0,0 +1,35 @@
+
+# $1 gpuid
+
+cd ..
+epochs=500
+clsadapt=True
+lr=1e-4
+lr_scheduler=Step
+factor_num=14
+#test_epoch=best
+test_epoch=last
+lambda_causal=1
+lambda_re=1
+batchsize=32
+stride=3
+randm=True
+randn=True
+autoaug=CA_multiple
+UniqueExpName=ReProduceMetaCausal
+
+
+root=/data/work-gcp-europe-west4-a/yuqian_fu/datasets/SingleSourceDG/saved-digit
+svroot=$root/${autoaug}_${factor_num}fa_all_ep${epochs}_lr${lr}_lr_scheduler${lr_scheduler}0.8_bs${batchsize}_lamCa_${lambda_causal}_lamRe_${lambda_re}_cls1_adt2_EW2_100_rm${randm}_rn${randn}_str${stride}_${UniqueExpName}
+
+#python3 main_my_joint_v13_auto.py --gpu $1 --data mnist --epochs $epochs --autoaug $autoaug --lambda_causal ${lambda_causal} --lambda_re ${lambda_re} --lr $lr --lr_scheduler $lr_scheduler --svroot $svroot --clsadapt $clsadapt --factor_num $factor_num --batchsize ${batchsize} --randm ${randm} --randn ${randn} --stride ${stride}
+
+python3 main_test_digit_v13.py --gpu $1 --svroot $svroot --svpath $svroot/${factor_num}factor_${test_epoch}.csv --factor_num $factor_num --epoch $test_epoch \
+									--stride ${stride}
+
+
+
+
+
+
+
diff --git a/Meta-causal/code/run_digits/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/art_painting_16factor_last_test_check.csv b/Meta-causal/code/run_digits/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/art_painting_16factor_last_test_check.csv
new file mode 100644
index 0000000000000000000000000000000000000000..0770500f310525fc23467dd4e63d812f74b78ffc
--- /dev/null
+++ b/Meta-causal/code/run_digits/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/art_painting_16factor_last_test_check.csv
@@ -0,0 +1,4 @@
+,art_painting,cartoon,photo,sketch,Avg
+w/o do (original x),98.92578125,67.61945392491468,94.67065868263474,71.69763298549249,77.99591519768063
+,art_painting,cartoon,photo,sketch,Avg
+do,99.0234375,65.61433447098976,95.1497005988024,70.65411046067702,77.13938184348973
diff --git a/Meta-causal/code/run_digits/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/last_E_to_W.pkl b/Meta-causal/code/run_digits/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/last_E_to_W.pkl
new file mode 100644
index 0000000000000000000000000000000000000000..ce7963c5715838bd6cd4e5ce703ba15c045ad50e
--- /dev/null
+++ b/Meta-causal/code/run_digits/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/last_E_to_W.pkl
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c358d11a7d411a03dd882a7c61ba3fdf2756b8d6103f4ce417af8ba547d72c28
+size 4243
diff --git a/Meta-causal/code/run_digits/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/last_cls_net.pkl b/Meta-causal/code/run_digits/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/last_cls_net.pkl
new file mode 100644
index 0000000000000000000000000000000000000000..8d63f5c6bc13fb241bef0a5170ea3106c7ccca25
--- /dev/null
+++ b/Meta-causal/code/run_digits/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/last_cls_net.pkl
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:28f92eb28b9b902797d43492e74605652ad7c7db42b65d66d9b94237ab103fbd
+size 44844729
diff --git a/Meta-causal/code/run_digits/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/last_mapping_0.pkl b/Meta-causal/code/run_digits/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/last_mapping_0.pkl
new file mode 100644
index 0000000000000000000000000000000000000000..b270f1c6b36a77be4740368618b2da3bb101f268
--- /dev/null
+++ b/Meta-causal/code/run_digits/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/last_mapping_0.pkl
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1abf2abe4e5df3d56315d11f0b59904ef92af11213b51fd9a17f244e994ae610
+size 25189303
diff --git a/Meta-causal/code/run_digits/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/last_mapping_1.pkl b/Meta-causal/code/run_digits/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/last_mapping_1.pkl
new file mode 100644
index 0000000000000000000000000000000000000000..e6d94a20ce0588bbbd1fb84e433233ac73173c7d
--- /dev/null
+++ b/Meta-causal/code/run_digits/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/last_mapping_1.pkl
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:089f78530f6f4a4c505e96ce81f7f29570c848aa8c56341b5bdf4e07793a3c8a
+size 25189303
diff --git a/Meta-causal/code/run_digits/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/last_mapping_10.pkl b/Meta-causal/code/run_digits/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/last_mapping_10.pkl
new file mode 100644
index 0000000000000000000000000000000000000000..1e55dd9203712d4ea8d491df3cc3361b75913720
--- /dev/null
+++ b/Meta-causal/code/run_digits/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/last_mapping_10.pkl
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2c4f047a7dafc4c491679a156df62bd8e701923fd4a2b5acf00260061604450e
+size 25189303
diff --git a/Meta-causal/code/run_digits/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/last_mapping_11.pkl b/Meta-causal/code/run_digits/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/last_mapping_11.pkl
new file mode 100644
index 0000000000000000000000000000000000000000..6ef2aa4f01320ff85eda149380b2fa451d4dd8c8
--- /dev/null
+++ b/Meta-causal/code/run_digits/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/last_mapping_11.pkl
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:44d0650c82b3c77494af2714c74ddfb9604c17e1e57756bf9bb555bbddc0fde1
+size 11534336
diff --git a/Meta-causal/code/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/events.out.tfevents.1719926752.hala b/Meta-causal/code/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/events.out.tfevents.1719926752.hala
new file mode 100644
index 0000000000000000000000000000000000000000..aa44ae0c513b57a8501e9bb1af27dc442b72f7d7
--- /dev/null
+++ b/Meta-causal/code/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/events.out.tfevents.1719926752.hala
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a44a49f0a1b3c59b9763c67ea85708ef8b56cae5fe4336f0383f5f71ba0dac84
+size 40
diff --git a/Meta-causal/code/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/log.log b/Meta-causal/code/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/log.log
new file mode 100644
index 0000000000000000000000000000000000000000..f26feaaef352ae5821e49b7fbc4b1720f8735f38
--- /dev/null
+++ b/Meta-causal/code/saved-PACS/art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5/log.log
@@ -0,0 +1 @@
+{'gpu': '0', 'data': 'art_painting', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 5, 'factor_num': 16, 'epochs': 70, 'nbatch': 100, 'batchsize': 6, 'lr': 0.01, 'lr_scheduler': 'cosine', 'svroot': 'saved-PACS//art_painting/CA_multiple_16fa_v2_ep70_lr0.01_cosine_base0.01_bs6_lamCa_1_lamRe1_adt4_cls1_EW2_70_rmTrue_rnTrue_str5', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
diff --git a/Meta-causal/code/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/events.out.tfevents.1719925086.hala b/Meta-causal/code/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/events.out.tfevents.1719925086.hala
new file mode 100644
index 0000000000000000000000000000000000000000..5ec21b3afdf0e11651cc768f4f55ea6269b887f5
--- /dev/null
+++ b/Meta-causal/code/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/events.out.tfevents.1719925086.hala
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7946f93077ec2136f75fc090a5762ce810be71cc78d5201e8a671217a678c563
+size 40
diff --git a/Meta-causal/code/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/events.out.tfevents.1719925314.hala b/Meta-causal/code/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/events.out.tfevents.1719925314.hala
new file mode 100644
index 0000000000000000000000000000000000000000..620f9ba109e77ed90b7676c138933f814245e7f1
--- /dev/null
+++ b/Meta-causal/code/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/events.out.tfevents.1719925314.hala
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b2021c61739fbe1f9c066067b4e5903d8d2d6c1c44865e1e9c61449eb3d90327
+size 40
diff --git a/Meta-causal/code/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/events.out.tfevents.1719925652.hala b/Meta-causal/code/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/events.out.tfevents.1719925652.hala
new file mode 100644
index 0000000000000000000000000000000000000000..3144b1448112cff1aa0c26e0d825b50698f41d65
--- /dev/null
+++ b/Meta-causal/code/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/events.out.tfevents.1719925652.hala
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fafb4b17d350157735eb6174ff44bafcea7ab8bf86948df3421447ef45ffcae3
+size 40
diff --git a/Meta-causal/code/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/log.log b/Meta-causal/code/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/log.log
new file mode 100644
index 0000000000000000000000000000000000000000..f4c211545f0d2b537d3dcf980579f604a33419a7
--- /dev/null
+++ b/Meta-causal/code/saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3/log.log
@@ -0,0 +1 @@
+{'gpu': '0çç', 'data': 'mnist', 'ntr': None, 'translate': None, 'autoaug': 'CA_multiple', 'n': 3, 'stride': 3, 'factor_num': 14, 'epochs': 500, 'nbatch': 100, 'batchsize': 32, 'lr': 0.0001, 'lr_scheduler': 'Step', 'svroot': 'saved-digit/CA_multiple_14fa_all_ep500_lr1e-4_lr_schedulerStep0.8_bs32_lamCa_1_lamRe_1_cls1_adt2_EW2_100_rmTrue_rnTrue_str3', 'clsadapt': True, 'lambda_causal': 1.0, 'lambda_re': 1.0, 'randm': True, 'randn': True, 'network': 'resnet18'}
diff --git a/Meta-causal/code/submit_digits.sh b/Meta-causal/code/submit_digits.sh
new file mode 100644
index 0000000000000000000000000000000000000000..7a1824ca5314d87ecb2eb8caa14e677e07fbd37e
--- /dev/null
+++ b/Meta-causal/code/submit_digits.sh
@@ -0,0 +1,22 @@
+#!/bin/bash
+#SBATCH --job-name=metatrainRN
+#SBATCH --nodes=1               # Request 1 node
+#SBATCH --ntasks=1              # Number of tasks (total)
+#SBATCH --cpus-per-task=8       # Number of CPU cores (threads) per task
+#SBATCH --mem-per-cpu=4G        # Memory limit per CPU core (there is no --mem-per-task)
+#SBATCH --time=36:00:00         # Job timeout
+#SBATCH --gpus-per-node=l4-24g:1
+#SBATCH --nodelist=gcpl4-eu-1
+#SBATCH --output=%j.log      # Redirect stdout to a log file
+#SBATCH --error=%j.error     # Redirect stderr to a separate error log file
+
+srun --nodes 1 --ntasks-per-node 1 -- \
+mkenv -f ../env_mc.yml -- \
+sh -c "cd run_digits
+bash run_my_joint_test.sh 0
+"
+
+
+
+
+
diff --git a/Meta-causal/code/submit_pacs.sh b/Meta-causal/code/submit_pacs.sh
new file mode 100644
index 0000000000000000000000000000000000000000..9625e061ddd513d6896b9e7f1f735aab3e4b1ce1
--- /dev/null
+++ b/Meta-causal/code/submit_pacs.sh
@@ -0,0 +1,22 @@
+#!/bin/bash
+#SBATCH --job-name=metatrainRN
+#SBATCH --nodes=1               # Request 1 node
+#SBATCH --ntasks=1              # Number of tasks (total)
+#SBATCH --cpus-per-task=8       # Number of CPU cores (threads) per task
+#SBATCH --mem-per-cpu=4G        # Memory limit per CPU core (there is no --mem-per-task)
+#SBATCH --time=36:00:00         # Job timeout
+#SBATCH --gpus-per-node=l4-24g:1
+#SBATCH --nodelist=gcpl4-eu-1
+#SBATCH --output=%j.log      # Redirect stdout to a log file
+#SBATCH --error=%j.error     # Redirect stderr to a separate error log file
+
+srun --nodes 1 --ntasks-per-node 1 -- \
+mkenv -f ../env_mc.yml -- \
+sh -c "cd run_PACS
+bash run_my_joint_v13_test.sh 0
+"
+
+
+
+
+
diff --git a/Meta-causal/code/tools/autoaugment.py b/Meta-causal/code/tools/autoaugment.py
new file mode 100644
index 0000000000000000000000000000000000000000..76c6bc4ebd5c59b76a58a8dca196f22d41fbf114
--- /dev/null
+++ b/Meta-causal/code/tools/autoaugment.py
@@ -0,0 +1,234 @@
+from PIL import Image, ImageEnhance, ImageOps
+import numpy as np
+import random
+
+
+class ImageNetPolicy(object):
+    """ Randomly choose one of the best 24 Sub-policies on ImageNet.
+
+        Example:
+        >>> policy = ImageNetPolicy()
+        >>> transformed = policy(image)
+
+        Example as a PyTorch Transform:
+        >>> transform=transforms.Compose([
+        >>>     transforms.Resize(256),
+        >>>     ImageNetPolicy(),
+        >>>     transforms.ToTensor()])
+    """
+    def __init__(self, fillcolor=(128, 128, 128)):
+        self.policies = [
+            SubPolicy(0.4, "posterize", 8, 0.6, "rotate", 9, fillcolor),
+            SubPolicy(0.6, "solarize", 5, 0.6, "autocontrast", 5, fillcolor),
+            SubPolicy(0.8, "equalize", 8, 0.6, "equalize", 3, fillcolor),
+            SubPolicy(0.6, "posterize", 7, 0.6, "posterize", 6, fillcolor),
+            SubPolicy(0.4, "equalize", 7, 0.2, "solarize", 4, fillcolor),
+
+            SubPolicy(0.4, "equalize", 4, 0.8, "rotate", 8, fillcolor),
+            SubPolicy(0.6, "solarize", 3, 0.6, "equalize", 7, fillcolor),
+            SubPolicy(0.8, "posterize", 5, 1.0, "equalize", 2, fillcolor),
+            SubPolicy(0.2, "rotate", 3, 0.6, "solarize", 8, fillcolor),
+            SubPolicy(0.6, "equalize", 8, 0.4, "posterize", 6, fillcolor),
+
+            SubPolicy(0.8, "rotate", 8, 0.4, "color", 0, fillcolor),
+            SubPolicy(0.4, "rotate", 9, 0.6, "equalize", 2, fillcolor),
+            SubPolicy(0.0, "equalize", 7, 0.8, "equalize", 8, fillcolor),
+            SubPolicy(0.6, "invert", 4, 1.0, "equalize", 8, fillcolor),
+            SubPolicy(0.6, "color", 4, 1.0, "contrast", 8, fillcolor),
+
+            SubPolicy(0.8, "rotate", 8, 1.0, "color", 2, fillcolor),
+            SubPolicy(0.8, "color", 8, 0.8, "solarize", 7, fillcolor),
+            SubPolicy(0.4, "sharpness", 7, 0.6, "invert", 8, fillcolor),
+            SubPolicy(0.6, "shearX", 5, 1.0, "equalize", 9, fillcolor),
+            SubPolicy(0.4, "color", 0, 0.6, "equalize", 3, fillcolor),
+
+            SubPolicy(0.4, "equalize", 7, 0.2, "solarize", 4, fillcolor),
+            SubPolicy(0.6, "solarize", 5, 0.6, "autocontrast", 5, fillcolor),
+            SubPolicy(0.6, "invert", 4, 1.0, "equalize", 8, fillcolor),
+            SubPolicy(0.6, "color", 4, 1.0, "contrast", 8, fillcolor),
+            SubPolicy(0.8, "equalize", 8, 0.6, "equalize", 3, fillcolor)
+        ]
+
+
+    def __call__(self, img):
+        policy_idx = random.randint(0, len(self.policies) - 1)
+        return self.policies[policy_idx](img)
+
+    def __repr__(self):
+        return "AutoAugment ImageNet Policy"
+
+
+class CIFAR10Policy(object):
+    """ Randomly choose one of the best 25 Sub-policies on CIFAR10.
+
+        Example:
+        >>> policy = CIFAR10Policy()
+        >>> transformed = policy(image)
+
+        Example as a PyTorch Transform:
+        >>> transform=transforms.Compose([
+        >>>     transforms.Resize(256),
+        >>>     CIFAR10Policy(),
+        >>>     transforms.ToTensor()])
+    """
+    def __init__(self, fillcolor=(128, 128, 128)):
+        self.policies = [
+            SubPolicy(0.1, "invert", 7, 0.2, "contrast", 6, fillcolor),
+            SubPolicy(0.7, "rotate", 2, 0.3, "translateX", 9, fillcolor),
+            SubPolicy(0.8, "sharpness", 1, 0.9, "sharpness", 3, fillcolor),
+            SubPolicy(0.5, "shearY", 8, 0.7, "translateY", 9, fillcolor),
+            SubPolicy(0.5, "autocontrast", 8, 0.9, "equalize", 2, fillcolor),
+
+            SubPolicy(0.2, "shearY", 7, 0.3, "posterize", 7, fillcolor),
+            SubPolicy(0.4, "color", 3, 0.6, "brightness", 7, fillcolor),
+            SubPolicy(0.3, "sharpness", 9, 0.7, "brightness", 9, fillcolor),
+            SubPolicy(0.6, "equalize", 5, 0.5, "equalize", 1, fillcolor),
+            SubPolicy(0.6, "contrast", 7, 0.6, "sharpness", 5, fillcolor),
+
+            SubPolicy(0.7, "color", 7, 0.5, "translateX", 8, fillcolor),
+            SubPolicy(0.3, "equalize", 7, 0.4, "autocontrast", 8, fillcolor),
+            SubPolicy(0.4, "translateY", 3, 0.2, "sharpness", 6, fillcolor),
+            SubPolicy(0.9, "brightness", 6, 0.2, "color", 8, fillcolor),
+            SubPolicy(0.5, "solarize", 2, 0.0, "invert", 3, fillcolor),
+
+            SubPolicy(0.2, "equalize", 0, 0.6, "autocontrast", 0, fillcolor),
+            SubPolicy(0.2, "equalize", 8, 0.6, "equalize", 4, fillcolor),
+            SubPolicy(0.9, "color", 9, 0.6, "equalize", 6, fillcolor),
+            SubPolicy(0.8, "autocontrast", 4, 0.2, "solarize", 8, fillcolor),
+            SubPolicy(0.1, "brightness", 3, 0.7, "color", 0, fillcolor),
+
+            SubPolicy(0.4, "solarize", 5, 0.9, "autocontrast", 3, fillcolor),
+            SubPolicy(0.9, "translateY", 9, 0.7, "translateY", 9, fillcolor),
+            SubPolicy(0.9, "autocontrast", 2, 0.8, "solarize", 3, fillcolor),
+            SubPolicy(0.8, "equalize", 8, 0.1, "invert", 3, fillcolor),
+            SubPolicy(0.7, "translateY", 9, 0.9, "autocontrast", 1, fillcolor)
+        ]
+
+
+    def __call__(self, img):
+        policy_idx = random.randint(0, len(self.policies) - 1)
+        return self.policies[policy_idx](img)
+
+    def __repr__(self):
+        return "AutoAugment CIFAR10 Policy"
+
+
+class SVHNPolicy(object):
+    """ Randomly choose one of the best 25 Sub-policies on SVHN.
+
+        Example:
+        >>> policy = SVHNPolicy()
+        >>> transformed = policy(image)
+
+        Example as a PyTorch Transform:
+        >>> transform=transforms.Compose([
+        >>>     transforms.Resize(256),
+        >>>     SVHNPolicy(),
+        >>>     transforms.ToTensor()])
+    """
+    def __init__(self, fillcolor=(128, 128, 128)):
+        self.policies = [
+            SubPolicy(0.9, "shearX", 4, 0.2, "invert", 3, fillcolor),
+            SubPolicy(0.9, "shearY", 8, 0.7, "invert", 5, fillcolor),
+            SubPolicy(0.6, "equalize", 5, 0.6, "solarize", 6, fillcolor),
+            SubPolicy(0.9, "invert", 3, 0.6, "equalize", 3, fillcolor),
+            SubPolicy(0.6, "equalize", 1, 0.9, "rotate", 3, fillcolor),
+
+            SubPolicy(0.9, "shearX", 4, 0.8, "autocontrast", 3, fillcolor),
+            SubPolicy(0.9, "shearY", 8, 0.4, "invert", 5, fillcolor),
+            SubPolicy(0.9, "shearY", 5, 0.2, "solarize", 6, fillcolor),
+            SubPolicy(0.9, "invert", 6, 0.8, "autocontrast", 1, fillcolor),
+            SubPolicy(0.6, "equalize", 3, 0.9, "rotate", 3, fillcolor),
+
+            SubPolicy(0.9, "shearX", 4, 0.3, "solarize", 3, fillcolor),
+            SubPolicy(0.8, "shearY", 8, 0.7, "invert", 4, fillcolor),
+            SubPolicy(0.9, "equalize", 5, 0.6, "translateY", 6, fillcolor),
+            SubPolicy(0.9, "invert", 4, 0.6, "equalize", 7, fillcolor),
+            SubPolicy(0.3, "contrast", 3, 0.8, "rotate", 4, fillcolor),
+
+            SubPolicy(0.8, "invert", 5, 0.0, "translateY", 2, fillcolor),
+            SubPolicy(0.7, "shearY", 6, 0.4, "solarize", 8, fillcolor),
+            SubPolicy(0.6, "invert", 4, 0.8, "rotate", 4, fillcolor),
+            SubPolicy(0.3, "shearY", 7, 0.9, "translateX", 3, fillcolor),
+            SubPolicy(0.1, "shearX", 6, 0.6, "invert", 5, fillcolor),
+
+            SubPolicy(0.7, "solarize", 2, 0.6, "translateY", 7, fillcolor),
+            SubPolicy(0.8, "shearY", 4, 0.8, "invert", 8, fillcolor),
+            SubPolicy(0.7, "shearX", 9, 0.8, "translateY", 3, fillcolor),
+            SubPolicy(0.8, "shearY", 5, 0.7, "autocontrast", 3, fillcolor),
+            SubPolicy(0.7, "shearX", 2, 0.1, "invert", 5, fillcolor)
+        ]
+
+
+    def __call__(self, img):
+        policy_idx = random.randint(0, len(self.policies) - 1)
+        return self.policies[policy_idx](img)
+
+    def __repr__(self):
+        return "AutoAugment SVHN Policy"
+
+
+class SubPolicy(object):
+    def __init__(self, p1, operation1, magnitude_idx1, p2, operation2, magnitude_idx2, fillcolor=(128, 128, 128)):
+        ranges = {
+            "shearX": np.linspace(0, 0.3, 10),
+            "shearY": np.linspace(0, 0.3, 10),
+            "translateX": np.linspace(0, 150 / 331, 10),
+            "translateY": np.linspace(0, 150 / 331, 10),
+            "rotate": np.linspace(0, 30, 10),
+            "color": np.linspace(0.0, 0.9, 10),
+            "posterize": np.round(np.linspace(8, 4, 10), 0).astype(np.int),
+            "solarize": np.linspace(256, 0, 10),
+            "contrast": np.linspace(0.0, 0.9, 10),
+            "sharpness": np.linspace(0.0, 0.9, 10),
+            "brightness": np.linspace(0.0, 0.9, 10),
+            "autocontrast": [0] * 10,
+            "equalize": [0] * 10,
+            "invert": [0] * 10
+        }
+
+        # from https://stackoverflow.com/questions/5252170/specify-image-filling-color-when-rotating-in-python-with-pil-and-setting-expand
+        def rotate_with_fill(img, magnitude):
+            rot = img.convert("RGBA").rotate(magnitude)
+            return Image.composite(rot, Image.new("RGBA", rot.size, (128,) * 4), rot).convert(img.mode)
+
+        func = {
+            "shearX": lambda img, magnitude: img.transform(
+                img.size, Image.AFFINE, (1, magnitude * random.choice([-1, 1]), 0, 0, 1, 0),
+                Image.BICUBIC, fillcolor=fillcolor),
+            "shearY": lambda img, magnitude: img.transform(
+                img.size, Image.AFFINE, (1, 0, 0, magnitude * random.choice([-1, 1]), 1, 0),
+                Image.BICUBIC, fillcolor=fillcolor),
+            "translateX": lambda img, magnitude: img.transform(
+                img.size, Image.AFFINE, (1, 0, magnitude * img.size[0] * random.choice([-1, 1]), 0, 1, 0),
+                fillcolor=fillcolor),
+            "translateY": lambda img, magnitude: img.transform(
+                img.size, Image.AFFINE, (1, 0, 0, 0, 1, magnitude * img.size[1] * random.choice([-1, 1])),
+                fillcolor=fillcolor),
+            "rotate": lambda img, magnitude: rotate_with_fill(img, magnitude),
+            "color": lambda img, magnitude: ImageEnhance.Color(img).enhance(1 + magnitude * random.choice([-1, 1])),
+            "posterize": lambda img, magnitude: ImageOps.posterize(img, magnitude),
+            "solarize": lambda img, magnitude: ImageOps.solarize(img, magnitude),
+            "contrast": lambda img, magnitude: ImageEnhance.Contrast(img).enhance(
+                1 + magnitude * random.choice([-1, 1])),
+            "sharpness": lambda img, magnitude: ImageEnhance.Sharpness(img).enhance(
+                1 + magnitude * random.choice([-1, 1])),
+            "brightness": lambda img, magnitude: ImageEnhance.Brightness(img).enhance(
+                1 + magnitude * random.choice([-1, 1])),
+            "autocontrast": lambda img, magnitude: ImageOps.autocontrast(img),
+            "equalize": lambda img, magnitude: ImageOps.equalize(img),
+            "invert": lambda img, magnitude: ImageOps.invert(img)
+        }
+
+        self.p1 = p1
+        self.operation1 = func[operation1]
+        self.magnitude1 = ranges[operation1][magnitude_idx1]
+        self.p2 = p2
+        self.operation2 = func[operation2]
+        self.magnitude2 = ranges[operation2][magnitude_idx2]
+
+
+    def __call__(self, img):
+        if random.random() < self.p1: img = self.operation1(img, self.magnitude1)
+        if random.random() < self.p2: img = self.operation2(img, self.magnitude2)
+        return img
\ No newline at end of file
diff --git a/Meta-causal/code/tools/causalaugment_v3.py b/Meta-causal/code/tools/causalaugment_v3.py
new file mode 100644
index 0000000000000000000000000000000000000000..a375b7ebe5a83c3dba5b88f48f23a4326dec77e1
--- /dev/null
+++ b/Meta-causal/code/tools/causalaugment_v3.py
@@ -0,0 +1,694 @@
+# code in this file is adpated from rpmcruz/autoaugment
+# https://github.com/rpmcruz/autoaugment/blob/master/transformations.py
+import random
+
+import PIL, PIL.ImageOps, PIL.ImageEnhance, PIL.ImageDraw
+import numpy as np
+import torch
+from PIL import Image,ImageStat
+#import cv2
+from torchvision import transforms
+
+# def tensor2img(tensor):
+#     transform = transforms.Compose()
+
+def ShearX(img, v):  # [-0.3, 0.3]
+    assert -0.3 <= v <= 0.3
+    if random.random() > 0.5:
+        v = -v
+    return img.transform(img.size, PIL.Image.AFFINE, (1, v, 0, 0, 1, 0))
+
+def DoShearX(img, v):  # [-0.3, 0.3]
+    return img.transform(img.size, PIL.Image.AFFINE, (1, v, 0, 0, 1, 0))
+
+def ShearY(img, v):  # [-0.3, 0.3]
+    assert -0.3 <= v <= 0.3
+    if random.random() > 0.5:
+        v = -v
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, 0, v, 1, 0))
+
+def DoShearY(img, v):  # [-0.3, 0.3]
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, 0, v, 1, 0))
+
+def TranslateX(img, v):  # [-150, 150] => percentage: [-0.45, 0.45]
+    assert -0.45 <= v <= 0.45
+    if random.random() > 0.5:
+        v = -v
+    v = v * img.size[0]
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, v, 0, 1, 0))
+
+def TranslateXabs(img, v):  # [-150, 150] => percentage: [-0.45, 0.45]
+    assert 0 <= v
+    if random.random() > 0.5:
+        v = -v
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, v, 0, 1, 0))
+def DoTranslateXabs(img, v):  # [-150, 150] => percentage: [-0.45, 0.45]
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, v, 0, 1, 0))
+
+def TranslateY(img, v):  # [-150, 150] => percentage: [-0.45, 0.45]
+    assert -0.45 <= v <= 0.45
+    if random.random() > 0.5:
+        v = -v
+    v = v * img.size[1]
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, 0, 0, 1, v))
+
+
+def TranslateYabs(img, v):  # [-150, 150] => percentage: [-0.45, 0.45]
+    assert 0 <= v
+    if random.random() > 0.5:
+        v = -v
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, 0, 0, 1, v))
+def DoTranslateYabs(img, v):  # [-150, 150] => percentage: [-0.45, 0.45]
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, 0, 0, 1, v))
+
+def Rotate(img, v):  # [-30, 30]
+    assert -30 <= v <= 30
+    if random.random() > 0.5:
+        v = -v
+    return img.rotate(v)
+def DoRotate(img, v):  # [-30, 30]
+    return img.rotate(v)
+
+
+def AutoContrast(img, v):
+    return PIL.ImageOps.autocontrast(img, v)
+def DoAutoContrast(img, v):
+    return PIL.ImageOps.autocontrast(img, v)
+
+def Invert(img, _):
+    return PIL.ImageOps.invert(img)
+def DoInvert(img, _):
+    return PIL.ImageOps.invert(img)
+
+
+def Equalize(img, _):
+    return PIL.ImageOps.equalize(img)
+def DoEqualize(img, _):
+    return PIL.ImageOps.equalize(img)
+
+def Flip(img, _):  # not from the paper
+    return PIL.ImageOps.mirror(img)
+
+def DoFlip(img, _):  # not from the paper
+    return PIL.ImageOps.mirror(img)
+
+
+def Solarize(img, v):  # [0, 256]
+    assert 0 <= v <= 256
+    return PIL.ImageOps.solarize(img, v)
+def DoSolarize(img, v):  # [0, 256]
+    return PIL.ImageOps.solarize(img, v)
+
+def SolarizeAdd(img, addition=0, threshold=128):
+    #img_np = np.array(img).astype(np.int)
+    img_np = np.array(img).astype(np.int32)
+    img_np = img_np + addition
+    img_np = np.clip(img_np, 0, 255)
+    img_np = img_np.astype(np.uint8)
+    img = Image.fromarray(img_np)
+    return PIL.ImageOps.solarize(img, threshold)
+def DoSolarizeAdd(img, addition=0, threshold=128):
+    #img_np = np.array(img).astype(np.int)
+    img_np = np.array(img).astype(np.int32)
+    img_np = img_np + addition
+    img_np = np.clip(img_np, 0, 255)
+    img_np = img_np.astype(np.uint8)
+    img = Image.fromarray(img_np)
+    return PIL.ImageOps.solarize(img, threshold)
+
+def Posterize(img, v):  # [4, 8]
+    v = int(v)
+    v = max(1, v)
+    return PIL.ImageOps.posterize(img, v)
+def DoPosterize(img, v):  # [4, 8]
+    v = int(v)
+    v = max(1, v)
+    return PIL.ImageOps.posterize(img, v)
+
+
+def Contrast(img, v):  # [0.1,1.9]
+    assert 0.1 <= v <= 1.9
+    return PIL.ImageEnhance.Contrast(img).enhance(v)
+
+def DoContrast(img, v):
+    return PIL.ImageEnhance.Contrast(img).enhance(v)
+
+def Color(img, v):  # [0.1,1.9]
+    assert 0.1 <= v <= 1.9
+    return PIL.ImageEnhance.Color(img).enhance(v)
+
+def DoColor(img, v):
+    stat =ImageStat.Stat(img)
+    return PIL.ImageEnhance.Color(img).enhance(v)
+
+
+def Brightness(img, v):  # [0.1,1.9]
+    assert 0.1 <= v <= 1.9
+    return PIL.ImageEnhance.Brightness(img).enhance(v)
+
+def DoBrightness(img, v):  # obtain the brightness of image
+    return PIL.ImageEnhance.Brightness(img).enhance(v)
+
+
+def Sharpness(img, v):  # [0.1,1.9]
+    assert 0.1 <= v <= 1.9
+    return PIL.ImageEnhance.Sharpness(img).enhance(v)
+
+def DoSharpness(img, v):
+    return PIL.ImageEnhance.Sharpness(img).enhance(v)
+
+def Cutout(img, v):  # [0, 60] => percentage: [0, 0.2]
+    assert 0.0 <= v <= 0.2
+    if v <= 0.:
+        return img
+
+    v = v * img.size[0]
+    return CutoutAbs(img, v)
+
+
+def CutoutAbs(img, v):  # [0, 60] => percentage: [0, 0.2]
+    # assert 0 <= v <= 20
+    if v < 0:
+        return img
+    w, h = img.size
+    x0 = np.random.uniform(w)
+    y0 = np.random.uniform(h)
+
+    x0 = int(max(0, x0 - v / 2.))
+    y0 = int(max(0, y0 - v / 2.))
+    x1 = min(w, x0 + v)
+    y1 = min(h, y0 + v)
+
+    xy = (x0, y0, x1, y1)
+    color = (125, 123, 114)
+    # color = (0, 0, 0)
+    img = img.copy()
+    PIL.ImageDraw.Draw(img).rectangle(xy, color)
+    return img
+def DoCutoutAbs(img, v):  # [0, 60] => percentage: [0, 0.2]
+    # assert 0 <= v <= 20
+    if v < 0:
+        return img
+    w, h = img.size
+    x0 = np.random.uniform(w)
+    y0 = np.random.uniform(h)
+
+    x0 = int(max(0, x0 - v / 2.))
+    y0 = int(max(0, y0 - v / 2.))
+    x1 = min(w, x0 + v)
+    y1 = min(h, y0 + v)
+
+    xy = (x0, y0, x1, y1)
+    color = (125, 123, 114)
+    # color = (0, 0, 0)
+    img = img.copy()
+    PIL.ImageDraw.Draw(img).rectangle(xy, color)
+    return img
+
+
+def SamplePairing(imgs):  # [0, 0.4]
+    def f(img1, v):
+        i = np.random.choice(len(imgs))
+        img2 = PIL.Image.fromarray(imgs[i])
+        return PIL.Image.blend(img1, img2, v)
+
+    return f
+
+
+def Identity(img, v):
+    return img
+
+def NoiseSalt(img, noise_rate):
+    """增加椒盐噪声
+    args:
+        noise_rate (float): noise rate
+    """
+    img_ = np.array(img).copy()
+    h, w, c = img_.shape
+    signal_pct = 1 - noise_rate
+    mask = np.random.choice((0, 1, 2), size=(h, w, 1), p=[signal_pct, noise_rate/2., noise_rate/2.])
+    mask = np.repeat(mask, c, axis=2)
+    img_[mask == 1] = 255   # 盐噪声
+    img_[mask == 2] = 0     # 椒噪声
+    return Image.fromarray(img_.astype('uint8'))
+
+def DoNoiseSalt(img, noise_rate):
+    """增加椒盐噪声
+    args:
+        noise_rate (float): noise rate
+    """
+    img_ = np.array(img).copy()
+    h, w, c = img_.shape
+    signal_pct = 1 - noise_rate
+    mask = np.random.choice((0, 1, 2), size=(h, w, 1), p=[signal_pct, noise_rate/2., noise_rate/2.])
+    mask = np.repeat(mask, c, axis=2)
+    img_[mask == 1] = 255   # 盐噪声
+    img_[mask == 2] = 0     # 椒噪声
+    return Image.fromarray(img_.astype('uint8'))
+def NoiseGaussian(img, sigma):
+    """增加高斯噪声
+    传入:
+        img   :  原图
+        mean  :  均值默认0
+        sigma :  标准差
+    返回:
+        gaussian_out : 噪声处理后的图片
+    """
+    # 将图片灰度标准化
+    img_ = np.array(img).copy()
+    img_ = img_ / 255.0
+    # 产生高斯 noise
+    noise = np.random.normal(0, sigma, img_.shape)
+    # 将噪声和图片叠加
+    gaussian_out = img_ + noise
+    # 将超过 1 的置 1，低于 0 的置 0
+    gaussian_out = np.clip(gaussian_out, 0, 1)
+    # 将图片灰度范围的恢复为 0-255
+    gaussian_out = np.uint8(gaussian_out*255)
+    # 将噪声范围搞为 0-255
+    # noise = np.uint8(noise*255)
+    return Image.fromarray(gaussian_out)
+
+def DoNoiseGaussian(img, sigma):
+    """增加高斯噪声
+    传入:
+        img   :  原图
+        mean  :  均值默认0
+        sigma :  标准差
+    返回:
+        gaussian_out : 噪声处理后的图片
+    """
+    # 将图片灰度标准化
+    img_ = np.array(img).copy()
+    img_ = img_ / 255.0
+    # 产生高斯 noise
+    noise = np.random.normal(0, sigma, img_.shape)
+    # 将噪声和图片叠加
+    gaussian_out = img_ + noise
+    # 将超过 1 的置 1，低于 0 的置 0
+    gaussian_out = np.clip(gaussian_out, 0, 1)
+    # 将图片灰度范围的恢复为 0-255
+    gaussian_out = np.uint8(gaussian_out*255)
+    # 将噪声范围搞为 0-255
+    # noise = np.uint8(noise*255)
+    return Image.fromarray(gaussian_out)
+
+# def factor_list(factor_num):
+#     l = [
+#         'AutoContrast',
+#         'Invert',
+#         'Equalize', 
+#         'Solarize',
+#         'SolarizeAdd',
+#         'Posterize', 
+#         'Contrast',
+#         'Color',
+#         'Brightness',
+#         'Sharpness',
+#         'NoiseSalt',
+#         'NoiseGaussian',
+#     ]
+#     return l[:factor_num]  
+
+# def causal_list(factor_num):  # 16 oeprations and their ranges
+#     l = [
+#         (AutoContrast, 0, 100),
+#         (Invert, 0, 1),
+#         (Equalize, 0, 1),
+#         (Solarize, 0, 256),
+#         (SolarizeAdd, 0, 110),
+#         (Posterize, 0, 4),
+#         (Contrast, 0.1, 1.9),
+#         (Color, 0.1, 1.9),
+#         (Brightness, 0.1, 1.9),
+#         (Sharpness, 0.1, 1.9),
+#         (NoiseSalt,0.0,0.1),
+#         (NoiseGaussian,0.0,0.1),
+#     ]
+
+#     return l[:factor_num]
+
+
+# def factor_list(factor_num):
+#     l = [
+#         'ShearX',
+#         'ShearY',
+#         'Rotate',
+#         'Flip'
+#     ]
+#     return l[:factor_num]  
+
+# def causal_list(factor_num):  # 16 oeprations and their ranges
+#     l = [
+#         (ShearX, 0., 0.3),
+#         (ShearY, 0., 0.3),
+#         (Rotate, 0, 30),
+#         (Flip, 0, 1),
+#     ]
+
+#     return l[:factor_num]
+
+def factor_list(factor_num):
+    l = [
+        'ShearX',
+        'ShearY',
+        'AutoContrast',
+        'Invert',
+        'Equalize', 
+        'Solarize',
+        'SolarizeAdd',
+        'Posterize', 
+        'Contrast',
+        'Color',
+        'Brightness',
+        'Sharpness',
+        'NoiseSalt',
+        'NoiseGaussian',
+        'Rotate',
+        'Flip'
+    ]
+    return l[:factor_num]  
+
+def causal_list(factor_num):  # 16 oeprations and their ranges
+    l = [
+        (ShearX, 0., 0.3),
+        (ShearY, 0., 0.3),
+        (AutoContrast, 0, 100),
+        (Invert, 0, 1),
+        (Equalize, 0, 1),
+        (Solarize, 0, 256),
+        (SolarizeAdd, 0, 110),
+        (Posterize, 0, 4),
+        (Contrast, 0.1, 1.9),
+        (Color, 0.1, 1.9),
+        (Brightness, 0.1, 1.9),
+        (Sharpness, 0.1, 1.9),
+        (NoiseSalt,0.0,0.1),
+        (NoiseGaussian,0.0,0.1),
+        (Rotate, 0, 30),
+        (Flip, 0, 1),
+    ]
+
+    return l[:factor_num]
+
+class Lighting(object):
+    """Lighting noise(AlexNet - style PCA - based noise)"""
+
+    def __init__(self, alphastd, eigval, eigvec):
+        self.alphastd = alphastd
+        self.eigval = torch.Tensor(eigval)
+        self.eigvec = torch.Tensor(eigvec)
+
+    def __call__(self, img):
+        if self.alphastd == 0:
+            return img
+
+        alpha = img.new().resize_(3).normal_(0, self.alphastd)
+        rgb = self.eigvec.type_as(img).clone() \
+            .mul(alpha.view(1, 3).expand(3, 3)) \
+            .mul(self.eigval.view(1, 3).expand(3, 3)) \
+            .sum(1).squeeze()
+
+        return img.add(rgb.view(3, 1, 1).expand_as(img))
+
+
+class CutoutDefault(object):
+    """
+    Reference : https://github.com/quark0/darts/blob/master/cnn/utils.py
+    """
+    def __init__(self, length):
+        self.length = length
+
+    def __call__(self, img):
+        h, w = img.size(1), img.size(2)
+        mask = np.ones((h, w), np.float32)
+        y = np.random.randint(h)
+        x = np.random.randint(w)
+
+        y1 = np.clip(y - self.length // 2, 0, h)
+        y2 = np.clip(y + self.length // 2, 0, h)
+        x1 = np.clip(x - self.length // 2, 0, w)
+        x2 = np.clip(x + self.length // 2, 0, w)
+
+        mask[y1: y2, x1: x2] = 0.
+        mask = torch.from_numpy(mask)
+        mask = mask.expand_as(img)
+        img *= mask
+        return img
+
+
+class RandAugment_incausal:
+    def __init__(self, n, m, factor_num, randm=False, randn=False):
+        self.n = n
+        self.m = m      # [0, 30]
+        self.causal_list = causal_list(factor_num)
+        print("---------------------------%d factors-----------------"%(len(self.causal_list)))
+        self.randm = randm
+        self.randn = randn
+        self.factor_num = factor_num
+        print("randm:",self.randm)
+        print("randn:",self.randn)
+        print("n:",self.n)
+    def __call__(self, img):
+        # print("%d factors-----------------"%(len(self.causal_list)))
+        if self.randn:
+            self.n = random.randint(1,self.factor_num)
+        
+        ops = random.choices(self.causal_list, k=self.n)
+        if self.randm:
+            self.m = random.randint(0,30)
+        for op, minval, maxval in ops:
+            val = (float(self.m) / 30) * float(maxval - minval) + minval
+            # print("val:",val)
+            img = op(img, val)
+        return img
+class RandAugment_all:
+    def __init__(self, m, factor_num, randm=False):
+        self.m = m      # [0, 30]
+        self.causal_list = causal_list(factor_num)
+        print("---------------------------%d factors-----------------"%(len(self.causal_list)))
+        self.randm = randm
+        self.factor_num = factor_num
+
+    def __call__(self, img):
+        # print("%d factors-----------------"%(len(self.causal_list)))
+        factor_choice = np.random.randint(0,2,self.factor_num)
+        # ops = random.choices(self.causal_list, k=self.n)
+        if self.randm:
+            self.m = random.randint(0,30)
+        for index, (op, minval, maxval) in enumerate(self.causal_list):
+            if factor_choice[index] == 0:
+                continue
+            else:
+                val = (float(self.m) / 30) * float(maxval - minval) + minval
+                # print("val:",val)
+                img = op(img, val)
+        return img
+class RandAugment_incausal_label:
+    def __init__(self, n, m, factor_num, randm=False):
+        self.n = n
+        self.m = m      # [0, 30]
+        self.causal_list = causal_list(factor_num)
+        self.factor_num = factor_num
+        print("---------------------------%d factors-----------------"%(len(self.causal_list)))
+        self.randm = randm
+        print("randm:",self.randm)
+
+    def __call__(self, img):
+        # print("%d factors-----------------"%(len(self.causal_list)))
+        #op_labels = np.random.randint(0,self.factor_num-1,self.n)
+        op_labels = random.sample(range(0, self.factor_num), self.n)
+        ops = [li for index, li in enumerate(self.causal_list) if index in op_labels]
+        #ops = random.choices(self.causal_list, k=self.n)
+        # print(self.causal_list)
+        # print("op_labels:",op_labels)
+        # print("select_op:",ops)
+        if self.randm:
+            self.m = random.randint(0,30)
+        for op, minval, maxval in ops:
+            val = (float(self.m) / 30) * float(maxval - minval) + minval
+            # print("val:",val)
+            img = op(img, val)
+        return img, np.array(op_labels)
+class FactualAugment_incausal:
+    def __init__(self, m, factor_num, randm=False):
+        self.m = m
+        self.causal_list = causal_list(factor_num)
+        self.factor_list = factor_list(factor_num)
+        self.factor_num = factor_num
+        self.randm = randm
+        print("randm:",self.randm)
+    def __call__(self, img):
+        # ops = random.choices(self.causal_list, k=1)
+        if self.randm:
+            self.m = random.randint(0,30)
+        for index, (op, minval, maxval) in enumerate(self.causal_list):
+            val = (float(self.m) / 30) * float(maxval - minval) + minval
+            if index == 0:
+                imgs = np.array(op(img, val))
+            else:
+                imgs = np.concatenate((imgs, op(img, val)),-1)
+        # print("imgs",imgs.shape)
+        return imgs          
+class CounterfactualAugment_incausal:
+    def __init__(self,factor_num):
+        self.causal_list = causal_list(factor_num)
+        self.factor_list = factor_list(factor_num)
+        self.factor_num = factor_num
+    def __call__(self, img):
+        # index = 0
+        # b, c, h, w = img.shape
+        # imgs = torch.zeros(b*self.factor_num, c, h, w)    
+        # for b_ in range(32):
+        for index, (op, minval, maxval) in enumerate(self.causal_list):
+            op = eval('Do'+self.factor_list[index])
+            if index == 0:
+                imgs = np.array(op(img, maxval))
+            else:
+                imgs = np.concatenate((imgs, op(img, maxval)),-1)
+            # img = op(img, maxval)
+            # imgs[b_*factor_num+index] = op(img[b_], maxval)
+        return imgs
+class MultiCounterfactualAugment_incausal:
+    def __init__(self, factor_num, stride):
+        self.causal_list = causal_list(factor_num)
+        self.factor_list = factor_list(factor_num)
+        self.factor_num = factor_num
+        self.stride = stride
+
+    def __call__(self, img):
+        # index = 0
+        # b, c, h, w = img.shape
+        # imgs = torch.zeros(b*self.factor_num, c, h, w)    
+        # for b_ in range(32):
+        # 0,5,10,15,20,25,30
+        for index, (op, minval, maxval) in enumerate(self.causal_list):
+            op = eval('Do'+self.factor_list[index])
+            for i in range(0, 31, self.stride):
+                val = (float(i) / 30) * float(maxval - minval) + minval
+                if index == 0 and i == 0:
+                    imgs = np.array(op(img, val))
+                else:
+                    imgs = np.concatenate((imgs, op(img, val)),-1)
+            # img = op(img, maxval)
+            # imgs[b_*factor_num+index] = op(img[b_], maxval)
+        return imgs
+class MultiCounterfactualAugment:
+    def __init__(self, factor_num, stride=5):
+        self.causal_list = causal_list(factor_num)
+        self.factor_list = factor_list(factor_num)
+        self.factor_num = factor_num
+        self.stride = stride
+        self.var_num = len(list(range(0, 31, self.stride)))
+        print("stride:",stride)
+    def __call__(self, img):
+        # index = 0
+        b, c, h, w = img.shape
+        imgs = torch.zeros(b*self.factor_num*self.var_num, c, h, w)    
+        # for b_ in range(32):
+        # 0,5,10,15,20,25,30
+        # print(img.shape)
+        for b_ in range(b):
+            img0 = transforms.ToPILImage()(imgs[b_])
+            for index, (op, minval, maxval) in enumerate(self.causal_list):
+                op = eval('Do'+self.factor_list[index])
+                i_index = 0
+                for i in range(0, 31, self.stride):
+                    val = (float(i) / 30) * float(maxval - minval) + minval
+                    img1 = op(img0, val)
+                    img1 = transforms.ToTensor()(img1)
+                    #print(f'batch {b_} factor {index} stride {i} i_index {i_index} total {b_*self.factor_num*self.var_num+index*self.var_num+i_index}')
+                    imgs[b_*self.factor_num*self.var_num+index*self.var_num+i_index] = img1
+                    i_index = i_index + 1
+            # img = op(img, maxval)
+            # imgs[b_*factor_num+index] = op(img[b_], maxval)
+        return imgs
+
+
+class FactualAugment:
+    def __init__(self, m, factor_num, randm=False):
+        self.m = m
+        self.causal_list = causal_list(factor_num)
+        self.factor_list = factor_list(factor_num)
+        self.factor_num = factor_num
+        self.randm = randm
+        print("randm:",randm)
+    def __call__(self, img):
+        index = 0
+        b, c, h, w = img.shape
+        imgs = torch.zeros(b*self.factor_num, c, h, w)    
+
+        img = img.cpu()
+        for b_ in range(b):
+            imgs[b_*self.factor_num:(b_+1)*self.factor_num] = self.get_item(img[b_])
+        return imgs
+    def get_item(self, img):
+        index = 0
+        # print("input_dim:",img.shape)
+        c, h, w = img.shape
+        imgs = torch.zeros(self.factor_num, c, h, w)
+        # img = img.squeeze(0)
+        # print(img.shape)
+        img = transforms.ToPILImage()(img)
+        if self.randm:
+            self.m = random.randint(0,30)
+        for index, (op, minval, maxval) in enumerate(self.causal_list):     
+            op = eval(self.factor_list[index])
+            val = (float(self.m) / 30) * float(maxval - minval) + minval
+            img1 = op(img, val)
+            img1 = transforms.ToTensor()(img1)
+            imgs[index] = img1
+        return imgs 
+class CounterfactualAugment:
+    def __init__(self,factor_num):
+        self.causal_list = causal_list(factor_num)
+        self.factor_list = factor_list(factor_num)
+        self.factor_num = factor_num
+
+    def __call__(self, img):
+        index = 0
+        b, c, h, w = img.shape
+        imgs = torch.zeros(b*self.factor_num, c, h, w)    
+
+        img = img.cpu()
+        for b_ in range(b):
+            imgs[b_*self.factor_num:(b_+1)*self.factor_num] = self.get_item(img[b_])
+        return imgs
+    def get_item(self, img):
+        index = 0
+        c, h, w = img.shape
+        imgs = torch.ones(self.factor_num, c, h, w)
+        # img = img.squeeze(0)
+        img = transforms.ToPILImage()(img)
+        for index, (op, minval, maxval) in enumerate(self.causal_list):     
+            op = eval('Do'+self.factor_list[index])
+            img1 = op(img, maxval)
+            # img1.save('test'+str(index)+'.png')
+            img1 = transforms.ToTensor()(img1)
+            imgs[index] = img1
+        return imgs        
+
+class Avg_statistic:
+    def __init__(self):
+        self.do_list = do_list()
+        self.statistic_num = len(self.do_list)  
+        self.avg_val = np.zeros(self.statistic_num)
+        self.img_num = 0
+
+    def get_item(self,img):
+        # ops = self.statistic_list
+        do_index = 0
+        for op in self.do_list:
+            val=op(img)
+            self.avg_val[do_index] += val
+        self.img_num = self.img_num + 1
+
+    def compute_average(self):
+        self.avg_val = self.avg_val/self.img_num
+
+    def get_infor(self):
+        return self.avg_val, self.img_num
+
+
+
+
diff --git a/Meta-causal/code/tools/randaugment.py b/Meta-causal/code/tools/randaugment.py
new file mode 100644
index 0000000000000000000000000000000000000000..f3bbdf11541df078144fa0ced8d693d4c98507ad
--- /dev/null
+++ b/Meta-causal/code/tools/randaugment.py
@@ -0,0 +1,248 @@
+# code in this file is adpated from rpmcruz/autoaugment
+# https://github.com/rpmcruz/autoaugment/blob/master/transformations.py
+import random
+
+import PIL, PIL.ImageOps, PIL.ImageEnhance, PIL.ImageDraw
+import numpy as np
+import torch
+from PIL import Image
+
+
+def ShearX(img, v):  # [-0.3, 0.3]
+    assert -0.3 <= v <= 0.3
+    if random.random() > 0.5:
+        v = -v
+    return img.transform(img.size, PIL.Image.AFFINE, (1, v, 0, 0, 1, 0))
+
+
+def ShearY(img, v):  # [-0.3, 0.3]
+    assert -0.3 <= v <= 0.3
+    if random.random() > 0.5:
+        v = -v
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, 0, v, 1, 0))
+
+
+def TranslateX(img, v):  # [-150, 150] => percentage: [-0.45, 0.45]
+    assert -0.45 <= v <= 0.45
+    if random.random() > 0.5:
+        v = -v
+    v = v * img.size[0]
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, v, 0, 1, 0))
+
+
+def TranslateXabs(img, v):  # [-150, 150] => percentage: [-0.45, 0.45]
+    assert 0 <= v
+    if random.random() > 0.5:
+        v = -v
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, v, 0, 1, 0))
+
+
+def TranslateY(img, v):  # [-150, 150] => percentage: [-0.45, 0.45]
+    assert -0.45 <= v <= 0.45
+    if random.random() > 0.5:
+        v = -v
+    v = v * img.size[1]
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, 0, 0, 1, v))
+
+
+def TranslateYabs(img, v):  # [-150, 150] => percentage: [-0.45, 0.45]
+    assert 0 <= v
+    if random.random() > 0.5:
+        v = -v
+    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, 0, 0, 1, v))
+
+
+def Rotate(img, v):  # [-30, 30]
+    assert -30 <= v <= 30
+    if random.random() > 0.5:
+        v = -v
+    return img.rotate(v)
+
+
+def AutoContrast(img, _):
+    return PIL.ImageOps.autocontrast(img)
+
+
+def Invert(img, _):
+    return PIL.ImageOps.invert(img)
+
+
+def Equalize(img, _):
+    return PIL.ImageOps.equalize(img)
+
+
+def Flip(img, _):  # not from the paper
+    return PIL.ImageOps.mirror(img)
+
+
+def Solarize(img, v):  # [0, 256]
+    assert 0 <= v <= 256
+    return PIL.ImageOps.solarize(img, v)
+
+
+def SolarizeAdd(img, addition=0, threshold=128):
+    img_np = np.array(img).astype(np.int)
+    img_np = img_np + addition
+    img_np = np.clip(img_np, 0, 255)
+    img_np = img_np.astype(np.uint8)
+    img = Image.fromarray(img_np)
+    return PIL.ImageOps.solarize(img, threshold)
+
+
+def Posterize(img, v):  # [4, 8]
+    v = int(v)
+    v = max(1, v)
+    return PIL.ImageOps.posterize(img, v)
+
+
+def Contrast(img, v):  # [0.1,1.9]
+    assert 0.1 <= v <= 1.9
+    return PIL.ImageEnhance.Contrast(img).enhance(v)
+
+
+def Color(img, v):  # [0.1,1.9]
+    assert 0.1 <= v <= 1.9
+    return PIL.ImageEnhance.Color(img).enhance(v)
+
+
+def Brightness(img, v):  # [0.1,1.9]
+    assert 0.1 <= v <= 1.9
+    return PIL.ImageEnhance.Brightness(img).enhance(v)
+
+
+def Sharpness(img, v):  # [0.1,1.9]
+    assert 0.1 <= v <= 1.9
+    return PIL.ImageEnhance.Sharpness(img).enhance(v)
+
+
+def Cutout(img, v):  # [0, 60] => percentage: [0, 0.2]
+    assert 0.0 <= v <= 0.2
+    if v <= 0.:
+        return img
+
+    v = v * img.size[0]
+    return CutoutAbs(img, v)
+
+
+def CutoutAbs(img, v):  # [0, 60] => percentage: [0, 0.2]
+    # assert 0 <= v <= 20
+    if v < 0:
+        return img
+    w, h = img.size
+    x0 = np.random.uniform(w)
+    y0 = np.random.uniform(h)
+
+    x0 = int(max(0, x0 - v / 2.))
+    y0 = int(max(0, y0 - v / 2.))
+    x1 = min(w, x0 + v)
+    y1 = min(h, y0 + v)
+
+    xy = (x0, y0, x1, y1)
+    color = (125, 123, 114)
+    # color = (0, 0, 0)
+    img = img.copy()
+    PIL.ImageDraw.Draw(img).rectangle(xy, color)
+    return img
+
+
+def SamplePairing(imgs):  # [0, 0.4]
+    def f(img1, v):
+        i = np.random.choice(len(imgs))
+        img2 = PIL.Image.fromarray(imgs[i])
+        return PIL.Image.blend(img1, img2, v)
+
+    return f
+
+
+def Identity(img, v):
+    return img
+
+
+def augment_list():  # 16 oeprations and their ranges
+
+    # https://github.com/tensorflow/tpu/blob/8462d083dd89489a79e3200bcc8d4063bf362186/models/official/efficientnet/autoaugment.py#L505
+    l = [
+        (AutoContrast, 0, 1),
+        (Equalize, 0, 1),
+        (Invert, 0, 1),
+        (Rotate, 0, 30),
+        (Posterize, 0, 4),
+        (Solarize, 0, 256),
+        (SolarizeAdd, 0, 110),
+        (Color, 0.1, 1.9),
+        (Contrast, 0.1, 1.9),
+        (Brightness, 0.1, 1.9),
+        (Sharpness, 0.1, 1.9),
+        (ShearX, 0., 0.3),
+        (ShearY, 0., 0.3),
+        (CutoutAbs, 0, 40),
+        (TranslateXabs, 0., 100),
+        (TranslateYabs, 0., 100),
+    ]
+
+    return l
+
+
+class Lighting(object):
+    """Lighting noise(AlexNet - style PCA - based noise)"""
+
+    def __init__(self, alphastd, eigval, eigvec):
+        self.alphastd = alphastd
+        self.eigval = torch.Tensor(eigval)
+        self.eigvec = torch.Tensor(eigvec)
+
+    def __call__(self, img):
+        if self.alphastd == 0:
+            return img
+
+        alpha = img.new().resize_(3).normal_(0, self.alphastd)
+        rgb = self.eigvec.type_as(img).clone() \
+            .mul(alpha.view(1, 3).expand(3, 3)) \
+            .mul(self.eigval.view(1, 3).expand(3, 3)) \
+            .sum(1).squeeze()
+
+        return img.add(rgb.view(3, 1, 1).expand_as(img))
+
+
+class CutoutDefault(object):
+    """
+    Reference : https://github.com/quark0/darts/blob/master/cnn/utils.py
+    """
+    def __init__(self, length):
+        self.length = length
+
+    def __call__(self, img):
+        h, w = img.size(1), img.size(2)
+        mask = np.ones((h, w), np.float32)
+        y = np.random.randint(h)
+        x = np.random.randint(w)
+
+        y1 = np.clip(y - self.length // 2, 0, h)
+        y2 = np.clip(y + self.length // 2, 0, h)
+        x1 = np.clip(x - self.length // 2, 0, w)
+        x2 = np.clip(x + self.length // 2, 0, w)
+
+        mask[y1: y2, x1: x2] = 0.
+        mask = torch.from_numpy(mask)
+        mask = mask.expand_as(img)
+        img *= mask
+        return img
+
+
+class RandAugment:
+    def __init__(self, n, m, randm=False):
+        self.n = n
+        self.m = m      # [0, 30]
+        self.augment_list = augment_list()
+        self.randm = randm
+
+    def __call__(self, img):
+        ops = random.choices(self.augment_list, k=self.n)
+        if self.randm:
+            self.m = random.randint(0,30)
+        for op, minval, maxval in ops:
+            val = (float(self.m) / 30) * float(maxval - minval) + minval
+            # print("val:",val)
+            img = op(img, val)
+
+        return img
diff --git a/Meta-causal/env_mc.yml b/Meta-causal/env_mc.yml
new file mode 100644
index 0000000000000000000000000000000000000000..f57a97c20b545aceafecd9ec08c6cbb55038a01f
--- /dev/null
+++ b/Meta-causal/env_mc.yml
@@ -0,0 +1,22 @@
+name: py36
+channels:
+  - pytorch
+  - nvidia
+  - conda-forge
+dependencies:
+  - python=3.11.*
+  - torchvision
+  - pandas
+  - pip
+  - pytorch-cuda=12.1
+  - click
+  - pip:
+    - scipy>=1.3.2
+    - tensorboardX>=1.4
+    - h5py>=2.9.0
+    - tensorboard
+    - timm
+    - opencv-python==4.5.5.62
+    - ml-collections
+    - numpy
+
diff --git a/Meta-causal/metacaEnv.yml b/Meta-causal/metacaEnv.yml
new file mode 100644
index 0000000000000000000000000000000000000000..b0bd424fb7c5aa818f10a82173549eb0dd3199c7
--- /dev/null
+++ b/Meta-causal/metacaEnv.yml
@@ -0,0 +1,119 @@
+name: Py3.7_torch1.8
+channels:
+  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
+  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
+  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
+  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
+  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
+  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
+  - conda-forge
+  - bioconda
+  - defaults
+dependencies:
+  - _libgcc_mutex=0.1=main
+  - asn1crypto=1.2.0=py37_0
+  - blas=1.0=mkl
+  - bottleneck=1.3.2=py37heb32a55_1
+  - bzip2=1.0.8=h7b6447c_0
+  - ca-certificates=2021.10.8=ha878542_0
+  - cairo=1.14.12=h8948797_3
+  - certifi=2021.10.8=py37h89c1867_1
+  - cffi=1.13.0=py37h2e261b9_0
+  - chardet=3.0.4=py37_1003
+  - click=8.0.3=pyhd3eb1b0_0
+  - conda-package-handling=1.6.0=py37h7b6447c_0
+  - cryptography=2.8=py37h1ba5d50_0
+  - ffmpeg=4.0=hcdf2ecd_0
+  - fontconfig=2.13.0=h9420a91_0
+  - freeglut=3.0.0=hf484d3e_5
+  - freetype=2.11.0=h70c0345_0
+  - glib=2.63.1=h5a9c865_0
+  - graphite2=1.3.14=h23475e2_0
+  - h5py=2.8.0=py37h3010b51_1003
+  - harfbuzz=1.8.8=hffaf4a1_0
+  - hdf5=1.10.2=hba1933b_1
+  - icu=58.2=he6710b0_3
+  - idna=2.8=py37_0
+  - intel-openmp=2021.3.0=h06a4308_3350
+  - jasper=2.0.14=hd8c5072_2
+  - jpeg=9d=h7f8727e_0
+  - libedit=3.1.20181209=hc058e9b_0
+  - libffi=3.2.1=hd88cf55_4
+  - libgcc-ng=9.1.0=hdf63c60_0
+  - libgfortran-ng=7.5.0=ha8ba4b0_17
+  - libgfortran4=7.5.0=ha8ba4b0_17
+  - libglu=9.0.0=hf484d3e_1
+  - libopencv=3.4.2=hb342d67_1
+  - libopus=1.3.1=h7b6447c_0
+  - libpng=1.6.37=hbc83047_0
+  - libprotobuf=3.17.2=h4ff587b_1
+  - libstdcxx-ng=9.1.0=hdf63c60_0
+  - libtiff=4.1.0=h2733197_0
+  - libuuid=1.0.3=h7f8727e_2
+  - libvpx=1.7.0=h439df22_0
+  - libxcb=1.14=h7b6447c_0
+  - libxml2=2.9.9=hea5a465_1
+  - mkl=2021.3.0=h06a4308_520
+  - mkl-service=2.4.0=py37h7f8727e_0
+  - mkl_fft=1.3.1=py37hd3c417c_0
+  - mkl_random=1.2.2=py37h51133e4_0
+  - ncurses=6.1=he6710b0_1
+  - numexpr=2.7.3=py37h22e1b3c_1
+  - numpy-base=1.21.2=py37h79a1101_0
+  - opencv=3.4.2=py37h6fd60c2_1
+  - openssl=1.1.1h=h516909a_0
+  - pandas=1.3.3=py37h8c16a72_0
+  - pcre=8.45=h295c915_0
+  - pip=19.3.1=py37_0
+  - pixman=0.40.0=h7f8727e_1
+  - protobuf=3.17.2=py37h295c915_0
+  - py-opencv=3.4.2=py37hb342d67_1
+  - pycosat=0.6.3=py37h14c3975_0
+  - pycparser=2.19=py37_0
+  - pyopenssl=19.0.0=py37_0
+  - pysocks=1.7.1=py37_0
+  - python=3.7.4=h265db76_1
+  - python-dateutil=2.8.2=pyhd3eb1b0_0
+  - python_abi=3.7=2_cp37m
+  - pytz=2021.3=pyhd3eb1b0_0
+  - readline=7.0=h7b6447c_5
+  - requests=2.22.0=py37_0
+  - ruamel_yaml=0.15.46=py37h14c3975_0
+  - scipy=1.7.1=py37h292c36d_2
+  - setuptools=41.4.0=py37_0
+  - six=1.12.0=py37_0
+  - sqlite=3.30.0=h7b6447c_0
+  - tensorboardx=2.2=pyhd3eb1b0_0
+  - tk=8.6.8=hbc83047_0
+  - tqdm=4.36.1=py_0
+  - urllib3=1.24.2=py37_0
+  - wheel=0.33.6=py37_0
+  - xz=5.2.4=h14c3975_4
+  - yaml=0.1.7=had09818_2
+  - zlib=1.2.11=h7b6447c_3
+  - zstd=1.3.7=h0b5b093_0
+  - pip:
+    - absl-py==1.0.0
+    - cachetools==4.2.4
+    - conda-pack==0.6.0
+    - google-auth==2.3.3
+    - google-auth-oauthlib==0.4.6
+    - grpcio==1.42.0
+    - importlib-metadata==4.8.2
+    - markdown==3.3.6
+    - numpy==1.21.3
+    - oauthlib==3.1.1
+    - pillow==8.4.0
+    - pyasn1==0.4.8
+    - pyasn1-modules==0.2.8
+    - requests-oauthlib==1.3.0
+    - rsa==4.8
+    - tensorboard==2.7.0
+    - tensorboard-data-server==0.6.1
+    - tensorboard-plugin-wit==1.8.0
+    - torch==1.8.1+cu111
+    - torchvision==0.9.1+cu111
+    - typing-extensions==3.10.0.2
+    - werkzeug==2.0.2
+    - zipp==3.6.0
+prefix: /home/chenjin/miniconda3/envs/Py3.7_torch1.8
diff --git a/Meta-causal/readme.md b/Meta-causal/readme.md
new file mode 100644
index 0000000000000000000000000000000000000000..e796ef747933d931c5f825afd689e43953ff640b
--- /dev/null
+++ b/Meta-causal/readme.md
@@ -0,0 +1,33 @@
+# Meta-causal
+
+The code for **Meta-causal Learning for Single Domain Generalization [CVPR2023]**. Our code is based on the method of PDEN(https://github.com/lileicv/PDEN/).
+
+### Dataset
+
+- Download the data and model from [Baidu Cloud Disk](https://pan.baidu.com/s/14pdVbNAHWKeC4AE7QqtFmw) (password:pxvt ). 
+- Place the dataset files in the path `./data/` and the model files in the path `./`
+
+### Environment
+
+Please refer to `env.yaml`
+
+### Train and Test
+- For digit, run the command `bash run_my_joint_test.sh 0` under the path `./run_digits/` .
+- For PACS, when using art_painting as the source domain, run the command `bash run_my_joint_v13_test.sh 0` under the path `./run_PACS/` .
+
+### If this code is helpful, please cite our paper
+
+```
+@InProceedings{Chen_2023_CVPR,
+    author    = {Chen, Jin and Gao, Zhi and Wu, Xinxiao and Luo, Jiebo},
+    title     = {Meta-Causal Learning for Single Domain Generalization},
+    booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
+    month     = {June},
+    year      = {2023},
+    pages     = {7683-7692}
+}
+```
+
+### Contact
+gaozhi_2017@126.com
+
diff --git a/config_bscdfsl_dir.py b/config_bscdfsl_dir.py
new file mode 100644
index 0000000000000000000000000000000000000000..828669d5221bf05d03c5bb670f636af7196a3513
--- /dev/null
+++ b/config_bscdfsl_dir.py
@@ -0,0 +1,4 @@
+EuroSAT_path = "/scratch/yuqian_fu/Data/CDFSL/EuroSAT"
+ChestX_path = "/scratch/yuqian_fu/Data/CDFSL/ChestX"
+CropDisease_path = "/scratch/yuqian_fu/Data/CDFSL/CropDisease"
+ISIC_path = "/scratch/yuqian_fu/Data/CDFSL/ISIC"
diff --git a/env.yml b/env.yml
new file mode 100644
index 0000000000000000000000000000000000000000..559c7e06ec8499c78a67528b2907b658adebbddf
--- /dev/null
+++ b/env.yml
@@ -0,0 +1,23 @@
+name: py36
+channels:
+  - pytorch
+  - nvidia
+  - conda-forge
+dependencies:
+  - python=3.11.*
+  - numpy
+  - pytorch
+  - torchvision
+  - pandas
+  - pip
+  - pytorch-cuda=12.1
+  - pip:
+    - scipy>=1.3.2
+    - tensorboardX>=1.4
+    - h5py>=2.9.0
+    - tensorboard
+    - timm
+    - opencv-python==4.5.5.62
+    - ml-collections
+
+
diff --git a/finetune_StyleAdv_RN.py b/finetune_StyleAdv_RN.py
new file mode 100644
index 0000000000000000000000000000000000000000..8d615b447381fdfb9f2a772207c2b1a23fd475d4
--- /dev/null
+++ b/finetune_StyleAdv_RN.py
@@ -0,0 +1,114 @@
+import os
+import numpy as np
+import torch
+import torch.nn as nn
+import torch.optim
+import random
+from options import parse_args
+from utils.PSG import PseudoSampleGenerator
+from methods.backbone_multiblock import model_dict
+from methods.StyleAdv_RN_GNN import StyleAdvGNN
+from data.datamgr import SetDataManager
+from data import ISIC_few_shot, EuroSAT_few_shot, CropDisease_few_shot, Chest_few_shot
+
+def finetune(novel_loader, n_pseudo=75, n_way=5, n_support=5):
+    iter_num = len(novel_loader)
+    acc_all = []
+
+    checkpoint_dir = '%s/checkpoints/%s/best_model.tar' % (params.save_dir, params.resume_dir)
+    state = torch.load(checkpoint_dir)['state']
+    for ti, (x, _) in enumerate(novel_loader):  # x:(5, 20, 3, 224, 224)
+        model = StyleAdvGNN(model_dict[params.model], n_way=n_way, n_support=n_support).cuda()
+        model.load_state_dict(state, strict = True)
+        x = x.cuda()
+        # Finetune components initialization
+        xs = x[:, :n_support].reshape(-1, *x.size()[2:])  # (25, 3, 224, 224)
+        pseudo_q_genrator = PseudoSampleGenerator(n_way, n_support, n_pseudo)
+        loss_fun = nn.CrossEntropyLoss().cuda()
+        #opt = torch.optim.Adam(model.parameters())
+        opt = torch.optim.Adam(model.parameters(), lr = 0.005)
+        #opt = torch.optim.Adam(model.parameters(), lr=0.0005)  #lr version 2
+        #opt = torch.optim.Adam(model.parameters(), lr=5e-5) #lr version3, for cvpr2023
+        # Finetune process
+        n_query = n_pseudo//n_way
+        pseudo_set_y = torch.from_numpy(np.repeat(range(n_way), n_query)).cuda()
+        model.n_query = n_query
+        model.train()
+        for epoch in range(params.finetune_epoch):
+            opt.zero_grad()
+            pseudo_set = pseudo_q_genrator.generate(xs)  # (5, n_support+n_query, 3, 224, 224)
+            scores = model.set_forward(pseudo_set)  # (5*n_query, 5)
+            loss = loss_fun(scores, pseudo_set_y)
+            loss.backward()
+            opt.step()
+            del pseudo_set, scores, loss
+        torch.cuda.empty_cache()
+        # Inference process
+        n_query = x.size(1) - n_support
+        model.n_query = n_query
+        yq = np.repeat(range(n_way), n_query)
+        with torch.no_grad():
+            scores = model.set_forward(x)  # (80, 5)
+            _, topk_labels = scores.data.topk(1, 1, True, True)
+            topk_ind = topk_labels.cpu().numpy()  # (80, 1)
+            top1_correct = np.sum(topk_ind[:,0]==yq)
+            acc = top1_correct*100./(n_way*n_query)
+            acc_all.append(acc)
+        del scores, topk_labels
+        torch.cuda.empty_cache()
+        print('Task %d : %4.2f%%, mean Acc: %4.2f'%(ti, acc, np.mean(np.array(acc_all))))
+
+    acc_all = np.asarray(acc_all)
+    acc_mean = np.mean(acc_all)
+    acc_std = np.std(acc_all)
+    print('Test Acc = %4.2f +- %4.2f%%'%(acc_mean, 1.96*acc_std/np.sqrt(iter_num)))
+
+if __name__=='__main__':
+    seed = 0
+    print("set seed = %d" % seed)
+    random.seed(seed)
+    np.random.seed(seed)
+    torch.manual_seed(seed)
+    torch.cuda.manual_seed_all(seed)
+    torch.backends.cudnn.deterministic = True
+    torch.backends.cudnn.benchmark = False
+
+    params = parse_args('train')
+
+    image_size = 224
+    iter_num = 1000
+    n_query = 16
+    n_pseudo = 75  
+
+    print('Loading target dataset!:', params.testset)
+    if params.testset in ['cub', 'cars', 'places', 'plantae']:
+      novel_file = os.path.join(params.data_dir, params.testset, 'novel.json')
+      datamgr = SetDataManager(image_size, n_query=n_query, n_way=params.test_n_way, n_support=params.n_shot, n_eposide=iter_num)
+      novel_loader = datamgr.get_data_loader(novel_file, aug=False)
+    
+    else:
+      few_shot_params = dict(n_way = params.test_n_way , n_support = params.n_shot)
+      if params.testset in ["ISIC"]:
+        datamgr         = ISIC_few_shot.SetDataManager(image_size, n_eposide = iter_num, n_query = n_query, **few_shot_params)
+        novel_loader     = datamgr.get_data_loader(aug = False )
+
+      elif params.testset in ["EuroSAT"]:
+        datamgr         = EuroSAT_few_shot.SetDataManager(image_size, n_eposide = iter_num, n_query = n_query, **few_shot_params)
+        novel_loader     = datamgr.get_data_loader(aug = False )
+
+      elif params.testset in ["CropDisease"]:
+        datamgr         = CropDisease_few_shot.SetDataManager(image_size, n_eposide = iter_num, n_query = n_query, **few_shot_params)
+        novel_loader     = datamgr.get_data_loader(aug = False )
+
+      elif params.testset in ["ChestX"]:
+        datamgr         = Chest_few_shot.SetDataManager(image_size,  n_eposide = iter_num, n_query = n_query, **few_shot_params)
+        novel_loader     = datamgr.get_data_loader(aug = False )
+
+    import time
+    #start = time.clock()
+    start =time.perf_counter()
+    finetune(novel_loader, n_pseudo=n_pseudo, n_way=params.test_n_way, n_support=params.n_shot)
+    #end = time.clock()
+    end = time.perf_counter()
+    print('Running time: %s Seconds: %s Min: %s Min per epoch'%(end-start, (end-start)/60, (end-start)/60/iter_num))
+    
diff --git a/finetune_StyleAdv_ViT.py b/finetune_StyleAdv_ViT.py
new file mode 100644
index 0000000000000000000000000000000000000000..51a3f2e0d27611bcd02be675bc2e8b647df5868e
--- /dev/null
+++ b/finetune_StyleAdv_ViT.py
@@ -0,0 +1,233 @@
+import os
+import numpy as np
+import torch
+import torch.nn as nn
+import torch.optim
+import random
+from methods.backbone import model_dict
+from data.datamgr import SetDataManager
+from options import parse_args
+#from methods.matchingnet import MatchingNet
+#from methods.relationnet import RelationNet
+#from methods.protonet import ProtoNet
+#from methods.gnnnet import GnnNet
+#from methods.tpn import TPN
+#from PSG import PseudoSampleGenerator
+from utils.PSG import PseudoSampleGenerator
+
+from data import ISIC_few_shot, EuroSAT_few_shot, CropDisease_few_shot, Chest_few_shot
+
+#from cvpr2023_startup_20221026 import *
+#from cvpr2023_load_models_20221102 import load_ViTsmall
+from methods.load_ViT_models import load_ViTsmall
+#from models.pmf_protonet import ProtoNet
+#from methods.pmf_protonet import ProtoNet
+from methods.protonet import ProtoNet
+
+#PMF_metatrained = False
+PMF_metatrained = True
+FINAL_FEAT_DIM = 384
+FINETUNE_ALL = True
+#FINETUNE_ALL = False
+
+#tune_lr = 0.01
+#tune_lr = 0.001
+#tune_lr = 0.0001
+tune_lr = 5e-5
+
+def load_model():
+  vit_model = load_ViTsmall()
+  model = ProtoNet(vit_model)
+
+  if PMF_metatrained:
+    #pmf_pretrained_ckp = 'outputs/20221103-styleAdv_metatrain_vit_protonet_trainEpoch20_exp0_lr0/checkpoint.pth'
+    #pmf_pretrained_ckp = 'outputs/20221103-styleAdv_metatrain_vit_protonet_trainEpoch20_exp1_lr1/checkpoint.pth'
+    #pmf_pretrained_ckp = 'outputs/20221103-styleAdv_metatrain_vit_protonet_trainEpoch20_exp2_lr2/checkpoint.pth'
+    #pmf_pretrained_ckp = 'outputs/20221103-styleAdv_metatrain_vit_protonet_trainEpoch20_exp3_lr3/checkpoint.pth'
+
+    # 1shot
+    #pmf_pretrained_ckp = 'outputs/20221106-styleAdv_metatrain_vit_protonet_trainEpoch20_1shot_exp0_lr0_saveBestPth/checkpoint.pth'
+    pmf_pretrained_ckp = 'output/20221106-styleAdv_metatrain_vit_protonet_trainEpoch20_1shot_exp2_lr2_saveBestPth/checkpoint.pth'
+    #pmf_pretrained_ckp = 'outputs/20221106-styleAdv_metatrain_vit_protonet_trainEpoch20_1shot_exp0_lr0_saveBestPth_PthreDot4/checkpoint.pth'
+    #pmf_pretrained_ckp = 'outputs/20221106-styleAdv_metatrain_vit_protonet_trainEpoch20_1shot_exp2_lr2_saveBestPth_PthreDot4/checkpoint.pth'
+ 
+    #pmf_pretrained_ckp = 'outputs/20221106-withoutstyleAdv_metatrain_vit_protonet_exp0_1shot/best.pth'
+    
+    state_pmf = torch.load(pmf_pretrained_ckp)['model']
+    
+    #
+    state_new = state_pmf
+    state_keys = list(state_pmf.keys())
+    for i, key in enumerate(state_keys):
+      if 'feature.' in key:
+        newkey = key.replace("feature.","backbone.")
+        state_new[newkey] = state_pmf.pop(key)
+      if 'classifier.' in key:
+        state_new.pop(key)
+      else:
+        pass
+    model.load_state_dict(state_new)
+  model.train().cuda()
+  return model
+
+
+def set_forward_ViTProtonet(model, x):
+        n_way = x.size()[0]
+        n_query = 15
+        n_support = x.size()[1] - n_query
+
+        SupportTensor = x[:, :n_support, :, :, :]
+        QueryTensor = x[:, n_support:, :, :, :]
+        SupportLabel = torch.from_numpy(np.repeat(range(n_way), n_support)).cuda()
+        QueryLabel = torch.from_numpy(np.repeat(range(n_way), n_query)).cuda()
+
+        SupportTensor = SupportTensor.contiguous().view(-1, n_way*n_support, 3, 224, 224)
+        QueryTensor = QueryTensor.contiguous().view(-1, n_way*n_query, 3, 224, 224)
+        SupportLabel = SupportLabel.contiguous().view(-1, n_way*n_support)
+        QueryLabel = QueryLabel.contiguous().view(-1,  n_way*n_query)
+        #print(SupportTensor.size(), SupportLabel.size(), QueryTensor.size())
+        output = model(SupportTensor, SupportLabel, QueryTensor)
+        output = output.view(n_way*n_query,n_way)
+        return output
+
+def finetune(novel_loader, n_pseudo=75, n_way=5, n_support=5):
+    iter_num = len(novel_loader)
+    acc_all = []
+
+    #checkpoint_dir = '%s/checkpoints/%s/best_model.tar' % (params.save_dir, params.name)
+    #checkpoint_dir = '%s/checkpoints/%s/best_model.tar' % (params.save_dir, params.resume_dir)
+    #state = torch.load(checkpoint_dir)['state']
+    for ti, (x, _) in enumerate(novel_loader):  # x:(5, 20, 3, 224, 224)
+        '''
+        # Model
+        if params.method == 'MatchingNet':
+            model = MatchingNet(model_dict[params.model], n_way=n_way, n_support=n_support).cuda()
+        elif params.method == 'RelationNet':
+            model = RelationNet(model_dict[params.model], n_way=n_way, n_support=n_support).cuda()
+        elif params.method == 'ProtoNet':
+            model = ProtoNet(model_dict[params.model], n_way=n_way, n_support=n_support).cuda()
+        elif params.method == 'GNN':
+            model = GnnNet(model_dict[params.model], n_way=n_way, n_support=n_support).cuda()
+        elif params.method == 'TPN':
+            model = TPN(model_dict[params.model], n_way=n_way, n_support=n_support).cuda()
+        else:
+            print("Please specify the method!")
+            assert (False)
+        # Update model
+        if 'FWT' in params.name:
+            model_params = model.state_dict()
+            pretrained_dict = {k: v for k, v in state.items() if k in model_params}
+            model_params.update(pretrained_dict)
+            model.load_state_dict(model_params)
+        else:
+            model.load_state_dict(state, strict = False)
+        '''
+        model = load_model()
+        x = x.cuda()
+        # Finetune components initialization
+        xs = x[:, :n_support].reshape(-1, *x.size()[2:])  # (25, 3, 224, 224)
+        #print('xs:', xs.size())
+        pseudo_q_genrator = PseudoSampleGenerator(n_way, n_support, n_pseudo)
+        loss_fun = nn.CrossEntropyLoss().cuda()
+        #opt = torch.optim.Adam(model.parameters())
+        #opt = torch.optim.Adam(model.parameters(), lr=0.0005)  #lr version 2
+        opt = torch.optim.SGD(model.parameters(), lr = tune_lr, momentum=0.9, weight_decay=0,) #pmf opt
+
+        # Finetune process
+        n_query = n_pseudo//n_way
+        pseudo_set_y = torch.from_numpy(np.repeat(range(n_way), n_query)).cuda()
+        model.n_query = n_query
+        model.train()
+        for epoch in range(params.finetune_epoch):
+            opt.zero_grad()
+            pseudo_set = pseudo_q_genrator.generate(xs)  # (5, n_support+n_query, 3, 224, 224)
+            #scores = model.set_forward(pseudo_set)  # (5*n_query, 5)
+            scores = set_forward_ViTProtonet(model, pseudo_set)
+            loss = loss_fun(scores, pseudo_set_y)
+            loss.backward()
+            opt.step()
+            del pseudo_set, scores, loss
+        torch.cuda.empty_cache()
+
+        # Inference process
+        n_query = x.size(1) - n_support
+        model.n_query = n_query
+        yq = np.repeat(range(n_way), n_query)
+        with torch.no_grad():
+            #scores = model.set_forward(x)  # (80, 5)
+            scores = set_forward_ViTProtonet(model, x)
+            _, topk_labels = scores.data.topk(1, 1, True, True)
+            topk_ind = topk_labels.cpu().numpy()  # (80, 1)
+            top1_correct = np.sum(topk_ind[:,0]==yq)
+            acc = top1_correct*100./(n_way*n_query)
+            acc_all.append(acc)
+        del scores, topk_labels
+        torch.cuda.empty_cache()
+        #print('Task %d : %4.2f%%'%(ti, acc))
+        #print('Task %d : %4.2f%%, mean Acc: %4.2f'%(ti, acc, np.mean(np.array(acc_all))))
+        if(ti%50==0):
+          print('Task %d : %4.2f%%, mean Acc: %4.2f'%(ti, acc, np.mean(np.array(acc_all))))
+
+    acc_all = np.asarray(acc_all)
+    acc_mean = np.mean(acc_all)
+    acc_std = np.std(acc_all)
+    print('Test Acc = %4.2f +- %4.2f%%'%(acc_mean, 1.96*acc_std/np.sqrt(iter_num)))
+
+def run_single_testset(params):
+    seed = 0
+    #print("set seed = %d" % seed)
+    random.seed(seed)
+    np.random.seed(seed)
+    torch.manual_seed(seed)
+    torch.cuda.manual_seed_all(seed)
+    torch.backends.cudnn.deterministic = True
+    torch.backends.cudnn.benchmark = False
+
+    #np.random.seed(10)
+    #params = parse_args('train')
+
+    #params = parse_args()
+
+    image_size = 224
+    iter_num = 1000
+    n_query = 15
+    n_pseudo = 75
+    #print('n_pseudo: ', n_pseudo)
+
+    print('Loading target dataset!:', params.testset)
+    if params.testset in ['cub', 'cars', 'places', 'plantae']:
+      novel_file = os.path.join(params.data_dir, params.testset, 'novel.json')
+      datamgr = SetDataManager(image_size, n_query=n_query, n_way=params.test_n_way, n_support=params.n_shot, n_eposide=iter_num)
+      novel_loader = datamgr.get_data_loader(novel_file, aug=False)
+    
+    else:
+      few_shot_params = dict(n_way = params.test_n_way , n_support = params.n_shot)
+      if params.testset in ["ISIC"]:
+        datamgr         = ISIC_few_shot.SetDataManager(image_size, n_eposide = iter_num, n_query = n_query, **few_shot_params)
+        novel_loader     = datamgr.get_data_loader(aug = False )
+
+      elif params.testset in ["EuroSAT"]:
+        datamgr         = EuroSAT_few_shot.SetDataManager(image_size, n_eposide = iter_num, n_query = n_query, **few_shot_params)
+        novel_loader     = datamgr.get_data_loader(aug = False )
+
+      elif params.testset in ["CropDisease"]:
+        datamgr         = CropDisease_few_shot.SetDataManager(image_size, n_eposide = iter_num, n_query = n_query, **few_shot_params)
+        novel_loader     = datamgr.get_data_loader(aug = False )
+
+      elif params.testset in ["ChestX"]:
+        datamgr         = Chest_few_shot.SetDataManager(image_size,  n_eposide = iter_num, n_query = n_query, **few_shot_params)
+        novel_loader     = datamgr.get_data_loader(aug = False )
+
+    finetune(novel_loader, n_pseudo=n_pseudo, n_way=params.test_n_way, n_support=params.n_shot)
+
+if __name__=='__main__':
+    params = parse_args(script='train')
+    #for tmp_testset in ['cub', 'cars', 'places', 'plantae', 'ChestX', 'ISIC', 'EuroSAT', 'CropDisease']:
+    #for tmp_testset in ['EuroSAT', 'CropDisease']:
+    #for tmp_testset in ['CropDisease']:
+    #for tmp_testset in ['EuroSAT', 'plantae']:
+    #for tmp_testset in ['ISIC']:
+    #for tmp_testset in ['ChestX', 'ISIC']:
+    for tmp_testset in ['EuroSAT']:
+      params.testset = tmp_testset
+      run_single_testset(params)
diff --git a/gdown.yml b/gdown.yml
new file mode 100644
index 0000000000000000000000000000000000000000..7b692c34eb3dc1232e7d0cead95740a5483ead99
--- /dev/null
+++ b/gdown.yml
@@ -0,0 +1,11 @@
+name: gdown
+channels:
+  - nvidia
+  - conda-forge
+dependencies:
+  - python=3.11.*
+  - pip
+  - pip:
+    - gdown
+
+
diff --git a/kaggle.yml b/kaggle.yml
new file mode 100644
index 0000000000000000000000000000000000000000..bbb5d0efdf182c6d7d4da86bfcc21dcbbd3cebc6
--- /dev/null
+++ b/kaggle.yml
@@ -0,0 +1,11 @@
+name: kaggle
+channels:
+  - nvidia
+  - conda-forge
+dependencies:
+  - python=3.11.*
+  - pip
+  - pip:
+    - kaggle
+
+
diff --git a/metatrain_CausalStyle_RN.py b/metatrain_CausalStyle_RN.py
new file mode 100644
index 0000000000000000000000000000000000000000..13215867c0866c1bf44ceb7ca9ee009c4f6f7b1c
--- /dev/null
+++ b/metatrain_CausalStyle_RN.py
@@ -0,0 +1,163 @@
+import numpy as np
+import torch
+import torch.optim
+import os
+import random 
+
+from methods import backbone
+from methods.backbone_multiblock import model_dict
+from data.datamgr import SimpleDataManager, SetDataManager
+#from methods.StyleAdv_RN_GNN import StyleAdvGNN
+from methods.CausalStyle_RN_GNN import CausalStyleGNN
+
+from options import parse_args, get_resume_file, load_warmup_state
+from test_function_fwt_benchmark import test_bestmodel
+from test_function_bscdfsl_benchmark import test_bestmodel_bscdfsl
+
+
+def train(base_loader, val_loader,  model, start_epoch, stop_epoch, params):
+
+  # get optimizer and checkpoint path
+  optimizer = torch.optim.Adam(model.parameters())
+  if not os.path.isdir(params.checkpoint_dir):
+    os.makedirs(params.checkpoint_dir)
+
+  # for validation
+  max_acc = 0
+  total_it = 0
+
+  # start
+  for epoch in range(start_epoch, stop_epoch):
+    model.train()
+    total_it = model.train_loop(epoch, base_loader, optimizer, total_it) #model are called by reference, no need to return
+    model.eval()
+
+    acc = model.test_loop( val_loader)
+    if acc > max_acc :
+      print("best model! save...")
+      max_acc = acc
+      outfile = os.path.join(params.checkpoint_dir, 'best_model.tar')
+      torch.save({'epoch':epoch, 'state':model.state_dict()}, outfile)
+    else:
+      print("GG! best accuracy {:f}".format(max_acc))
+
+    #if ((epoch + 1) % params.save_freq==0) or (epoch==stop_epoch-1):
+    if(epoch == stop_epoch-1):
+      outfile = os.path.join(params.checkpoint_dir, '{:d}.tar'.format(epoch))
+      torch.save({'epoch':epoch, 'state':model.state_dict()}, outfile)
+
+  return model
+
+
+def record_test_result(params):
+  acc_file_path = os.path.join(params.checkpoint_dir, 'acc.txt')
+  acc_file = open(acc_file_path,'w')
+  epoch_id = -1
+  print('epoch', epoch_id, 'miniImagenet:', 'cub:', 'cars:', 'places:', 'plantae:', file = acc_file)
+  name = params.name
+  n_shot = params.n_shot
+  method = params.method
+  #test_bestmodel(acc_file, name, method, 'miniImagenet', n_shot, epoch_id)
+  test_bestmodel(acc_file, name, method, 'cub', n_shot, epoch_id)
+  test_bestmodel(acc_file, name, method, 'cars', n_shot, epoch_id)
+  test_bestmodel(acc_file, name, method, 'places', n_shot, epoch_id)
+  test_bestmodel(acc_file, name, method, 'plantae', n_shot, epoch_id)
+
+  acc_file.close()
+  return
+
+
+def record_test_result_bscdfsl(params):
+  print('hhhhhhh testing for bscdfsl')
+  acc_file_path = os.path.join(params.checkpoint_dir, 'acc_bscdfsl.txt')
+  acc_file = open(acc_file_path,'w')
+  epoch_id = -1
+  print('epoch', epoch_id, 'ChestX:', 'ISIC:', 'EuroSAT:', 'CropDisease', file = acc_file)
+  name = params.name
+  n_shot = params.n_shot
+  method = params.method
+  test_bestmodel_bscdfsl(acc_file, name, method, 'ChestX', n_shot, epoch_id)
+  test_bestmodel_bscdfsl(acc_file, name, method, 'ISIC', n_shot, epoch_id)
+  test_bestmodel_bscdfsl(acc_file, name, method, 'EuroSAT', n_shot, epoch_id)
+  test_bestmodel_bscdfsl(acc_file, name, method, 'CropDisease', n_shot, epoch_id)
+
+  acc_file.close()
+  return
+
+
+# --- main function ---
+if __name__=='__main__':
+  #fix seed 
+  seed = 0
+  print("set seed = %d" % seed)
+  random.seed(seed)
+  np.random.seed(seed)
+  torch.manual_seed(seed)
+  torch.cuda.manual_seed_all(seed)
+  torch.backends.cudnn.deterministic = True
+  torch.backends.cudnn.benchmark = False
+
+  # parser argument
+  params = parse_args('train')
+
+  # output and tensorboard dir
+  params.tf_dir = '%s/log/%s'%(params.save_dir, params.name)
+  params.checkpoint_dir = '%s/checkpoints/%s'%(params.save_dir, params.name)
+  if not os.path.isdir(params.checkpoint_dir):
+    os.makedirs(params.checkpoint_dir)
+
+  # dataloader
+  print('\n--- prepare dataloader ---')
+  print('  train with single seen domain {}'.format(params.dataset))
+  base_file  = os.path.join(params.data_dir, params.dataset, 'base.json')
+  val_file   = os.path.join(params.data_dir, params.dataset, 'val.json')
+
+  # model
+  print('\n--- build model ---')
+  image_size = 224
+  
+  #if test_n_way is smaller than train_n_way, reduce n_query to keep batch size small
+  n_query = max(1, int(16* params.test_n_way/params.train_n_way))
+
+  train_few_shot_params    = dict(n_way = params.train_n_way, n_support = params.n_shot)
+  base_datamgr            = SetDataManager(image_size, n_query = n_query,  **train_few_shot_params)
+  base_loader             = base_datamgr.get_data_loader( base_file , aug = params.train_aug )
+
+  test_few_shot_params     = dict(n_way = params.test_n_way, n_support = params.n_shot)
+  val_datamgr             = SetDataManager(image_size, n_query = n_query, **test_few_shot_params)
+  val_loader              = val_datamgr.get_data_loader( val_file, aug = False)
+
+  model           = CausalStyleGNN( model_dict[params.model], tf_path=params.tf_dir, **train_few_shot_params)
+  model = model.cuda()
+
+  # load model
+  start_epoch = params.start_epoch
+  stop_epoch = params.stop_epoch
+  if params.resume != '':
+    resume_file = get_resume_file('%s/checkpoints/%s'%(params.save_dir, params.resume), params.resume_epoch)
+    if resume_file is not None:
+      tmp = torch.load(resume_file)
+      start_epoch = tmp['epoch']+1
+      model.load_state_dict(tmp['state'])
+      print('  resume the training with at {} epoch (model file {})'.format(start_epoch, params.resume))
+  else:
+    if params.warmup == 'gg3b0':
+      raise Exception('Must provide the pre-trained feature encoder file using --warmup option!')
+    state = load_warmup_state('%s/checkpoints/%s'%(params.save_dir, params.warmup), params.method)
+    model.feature.load_state_dict(state, strict=False)
+
+  import time
+  #start =time.clock()
+  start =time.perf_counter()
+  # training
+  print('\n--- start the training ---')
+  model = train(base_loader, val_loader, model, start_epoch, stop_epoch, params)
+  #end=time.clock()
+  end =time.perf_counter()
+  print('Running time: %s Seconds: %s Min: %s Min per epoch'%(end-start, (end-start)/60, (end-start)/60/params.stop_epoch))
+
+  # testing
+  record_test_result(params)
+  # testing bscdfsl
+  record_test_result_bscdfsl(params)
+
diff --git a/metatrain_StyleAdv_RN.py b/metatrain_StyleAdv_RN.py
new file mode 100644
index 0000000000000000000000000000000000000000..97af228ae70f8e77d87abc2cbbc5eff0763ab3d7
--- /dev/null
+++ b/metatrain_StyleAdv_RN.py
@@ -0,0 +1,162 @@
+import numpy as np
+import torch
+import torch.optim
+import os
+import random 
+
+from methods import backbone
+from methods.backbone_multiblock import model_dict
+from data.datamgr import SimpleDataManager, SetDataManager
+from methods.StyleAdv_RN_GNN import StyleAdvGNN
+
+from options import parse_args, get_resume_file, load_warmup_state
+from test_function_fwt_benchmark import test_bestmodel
+from test_function_bscdfsl_benchmark import test_bestmodel_bscdfsl
+
+
+def train(base_loader, val_loader,  model, start_epoch, stop_epoch, params):
+
+  # get optimizer and checkpoint path
+  optimizer = torch.optim.Adam(model.parameters())
+  if not os.path.isdir(params.checkpoint_dir):
+    os.makedirs(params.checkpoint_dir)
+
+  # for validation
+  max_acc = 0
+  total_it = 0
+
+  # start
+  for epoch in range(start_epoch, stop_epoch):
+    model.train()
+    total_it = model.train_loop(epoch, base_loader, optimizer, total_it) #model are called by reference, no need to return
+    model.eval()
+
+    acc = model.test_loop( val_loader)
+    if acc > max_acc :
+      print("best model! save...")
+      max_acc = acc
+      outfile = os.path.join(params.checkpoint_dir, 'best_model.tar')
+      torch.save({'epoch':epoch, 'state':model.state_dict()}, outfile)
+    else:
+      print("GG! best accuracy {:f}".format(max_acc))
+
+    #if ((epoch + 1) % params.save_freq==0) or (epoch==stop_epoch-1):
+    if(epoch == stop_epoch-1):
+      outfile = os.path.join(params.checkpoint_dir, '{:d}.tar'.format(epoch))
+      torch.save({'epoch':epoch, 'state':model.state_dict()}, outfile)
+
+  return model
+
+
+def record_test_result(params):
+  acc_file_path = os.path.join(params.checkpoint_dir, 'acc.txt')
+  acc_file = open(acc_file_path,'w')
+  epoch_id = -1
+  print('epoch', epoch_id, 'miniImagenet:', 'cub:', 'cars:', 'places:', 'plantae:', file = acc_file)
+  name = params.name
+  n_shot = params.n_shot
+  method = params.method
+  test_bestmodel(acc_file, name, method, 'miniImagenet', n_shot, epoch_id)
+  test_bestmodel(acc_file, name, method, 'cub', n_shot, epoch_id)
+  test_bestmodel(acc_file, name, method, 'cars', n_shot, epoch_id)
+  test_bestmodel(acc_file, name, method, 'places', n_shot, epoch_id)
+  test_bestmodel(acc_file, name, method, 'plantae', n_shot, epoch_id)
+
+  acc_file.close()
+  return
+
+
+def record_test_result_bscdfsl(params):
+  print('hhhhhhh testing for bscdfsl')
+  acc_file_path = os.path.join(params.checkpoint_dir, 'acc_bscdfsl.txt')
+  acc_file = open(acc_file_path,'w')
+  epoch_id = -1
+  print('epoch', epoch_id, 'ChestX:', 'ISIC:', 'EuroSAT:', 'CropDisease', file = acc_file)
+  name = params.name
+  n_shot = params.n_shot
+  method = params.method
+  test_bestmodel_bscdfsl(acc_file, name, method, 'ChestX', n_shot, epoch_id)
+  test_bestmodel_bscdfsl(acc_file, name, method, 'ISIC', n_shot, epoch_id)
+  test_bestmodel_bscdfsl(acc_file, name, method, 'EuroSAT', n_shot, epoch_id)
+  test_bestmodel_bscdfsl(acc_file, name, method, 'CropDisease', n_shot, epoch_id)
+
+  acc_file.close()
+  return
+
+
+# --- main function ---
+if __name__=='__main__':
+  #fix seed 
+  seed = 0
+  print("set seed = %d" % seed)
+  random.seed(seed)
+  np.random.seed(seed)
+  torch.manual_seed(seed)
+  torch.cuda.manual_seed_all(seed)
+  torch.backends.cudnn.deterministic = True
+  torch.backends.cudnn.benchmark = False
+
+  # parser argument
+  params = parse_args('train')
+
+  # output and tensorboard dir
+  params.tf_dir = '%s/log/%s'%(params.save_dir, params.name)
+  params.checkpoint_dir = '%s/checkpoints/%s'%(params.save_dir, params.name)
+  if not os.path.isdir(params.checkpoint_dir):
+    os.makedirs(params.checkpoint_dir)
+
+  # dataloader
+  print('\n--- prepare dataloader ---')
+  print('  train with single seen domain {}'.format(params.dataset))
+  base_file  = os.path.join(params.data_dir, params.dataset, 'base.json')
+  val_file   = os.path.join(params.data_dir, params.dataset, 'val.json')
+
+  # model
+  print('\n--- build model ---')
+  image_size = 224
+  
+  #if test_n_way is smaller than train_n_way, reduce n_query to keep batch size small
+  n_query = max(1, int(16* params.test_n_way/params.train_n_way))
+
+  train_few_shot_params    = dict(n_way = params.train_n_way, n_support = params.n_shot)
+  base_datamgr            = SetDataManager(image_size, n_query = n_query,  **train_few_shot_params)
+  base_loader             = base_datamgr.get_data_loader( base_file , aug = params.train_aug )
+
+  test_few_shot_params     = dict(n_way = params.test_n_way, n_support = params.n_shot)
+  val_datamgr             = SetDataManager(image_size, n_query = n_query, **test_few_shot_params)
+  val_loader              = val_datamgr.get_data_loader( val_file, aug = False)
+
+  model           = StyleAdvGNN( model_dict[params.model], tf_path=params.tf_dir, **train_few_shot_params)
+  model = model.cuda()
+
+  # load model
+  start_epoch = params.start_epoch
+  stop_epoch = params.stop_epoch
+  if params.resume != '':
+    resume_file = get_resume_file('%s/checkpoints/%s'%(params.save_dir, params.resume), params.resume_epoch)
+    if resume_file is not None:
+      tmp = torch.load(resume_file)
+      start_epoch = tmp['epoch']+1
+      model.load_state_dict(tmp['state'])
+      print('  resume the training with at {} epoch (model file {})'.format(start_epoch, params.resume))
+  else:
+    if params.warmup == 'gg3b0':
+      raise Exception('Must provide the pre-trained feature encoder file using --warmup option!')
+    state = load_warmup_state('%s/checkpoints/%s'%(params.save_dir, params.warmup), params.method)
+    model.feature.load_state_dict(state, strict=False)
+
+  import time
+  #start =time.clock()
+  start =time.perf_counter()
+  # training
+  print('\n--- start the training ---')
+  model = train(base_loader, val_loader, model, start_epoch, stop_epoch, params)
+  #end=time.clock()
+  end =time.perf_counter()
+  print('Running time: %s Seconds: %s Min: %s Min per epoch'%(end-start, (end-start)/60, (end-start)/60/params.stop_epoch))
+
+  # testing
+  #record_test_result(params)
+  # testing bscdfsl
+  #record_test_result_bscdfsl(params)
+
diff --git a/metatrain_StyleAdv_ViT.py b/metatrain_StyleAdv_ViT.py
new file mode 100644
index 0000000000000000000000000000000000000000..6fe4c4765d9448a37f53607411e1f36c71be3c51
--- /dev/null
+++ b/metatrain_StyleAdv_ViT.py
@@ -0,0 +1,240 @@
+import sys
+import datetime
+import random
+import numpy as np
+import time
+import torch
+import torch.backends.cudnn as cudnn
+import json
+
+from pathlib import Path
+from torch.utils.tensorboard import SummaryWriter
+
+from timm.data import Mixup
+from timm.loss import LabelSmoothingCrossEntropy, SoftTargetCrossEntropy
+from timm.scheduler import create_scheduler
+from timm.optim import create_optimizer
+from timm.utils import NativeScaler, get_state_dict, ModelEma
+
+#from models.pmf_engine import train_one_epoch, evaluate
+#from models.pmf_engine_styleAdv_20221102 import train_one_epoch_styleAdv, evaluate  
+#from methods.pmf_engine_styleAdv_20221102 import train_one_epoch_styleAdv, evaluate  
+from methods.engine_StyleAdv_ViT import train_one_epoch_styleAdv, evaluate
+#import pmf_utils.deit_util as utils
+import utils.deit_util as utils
+#from pmf_datasets import get_loaders
+#from pmf_datasets import get_loaders_withGlobalID
+from data.pmf_datasets import get_loaders_withGlobalID
+#from pmf_utils.args import get_args_parser
+from utils.args import get_args_parser
+#from models import get_model
+#from methods.cvpr2023_load_models_20221102 import get_model
+from methods.load_ViT_models import get_model
+
+#lr_classifier = 5e-5
+#lr_classifier = 0.01
+lr_classifier = 0.001
+#lr_classifier = 0.0001
+
+def main(args):
+    utils.init_distributed_mode(args)
+
+    print(args)
+    device = torch.device(args.device)
+
+    # fix the seed for reproducibility
+    seed = args.seed + utils.get_rank()
+    args.seed = seed
+    torch.manual_seed(seed)
+    np.random.seed(seed)
+    random.seed(seed)
+
+    cudnn.benchmark = True
+
+    output_dir = Path(args.output_dir)
+    if utils.is_main_process():
+        output_dir.mkdir(parents=True, exist_ok=True)
+        with (output_dir / "log.txt").open("a") as f:
+            f.write(" ".join(sys.argv) + "\n")
+
+    ##############################################
+    # Data loaders
+    num_tasks = utils.get_world_size()
+    global_rank = utils.get_rank()
+    data_loader_train, data_loader_val = get_loaders_withGlobalID(args, num_tasks, global_rank)
+
+    ##############################################
+    # Mixup regularization (by default OFF)
+    mixup_fn = None
+    mixup_active = args.mixup > 0 or args.cutmix > 0. or args.cutmix_minmax is not None
+    if mixup_active:
+        mixup_fn = Mixup(
+            mixup_alpha=args.mixup, cutmix_alpha=args.cutmix, cutmix_minmax=args.cutmix_minmax,
+            prob=args.mixup_prob, switch_prob=args.mixup_switch_prob, mode=args.mixup_mode,
+            label_smoothing=args.smoothing, num_classes=args.nClsEpisode)
+
+    ##############################################
+    # Model
+    print(f"Creating model: ProtoNet {args.arch}")
+    model = get_model(backbone = 'vit_small', classifier='protonet', styleAdv=True)
+    #model = get_model(args)
+    model.to(device)
+
+    model_ema = None # (by default OFF)
+    if args.model_ema:
+        # Important to create EMA model after cuda(), DP wrapper, and AMP but before SyncBN and DDP wrapper
+        model_ema = ModelEma(
+            model,
+            decay=args.model_ema_decay,
+            device='cpu' if args.model_ema_force_cpu else '',
+            resume='')
+
+    model_without_ddp = model
+    if args.distributed:
+        model = torch.nn.parallel.DistributedDataParallel(model, device_ids=[args.gpu],
+                                                          find_unused_parameters=args.unused_params)
+        model_without_ddp = model.module
+    n_parameters = sum(p.numel() for p in model.parameters() if p.requires_grad)
+    print('number of params:', n_parameters)
+
+    ##############################################
+    # Optimizer & scheduler & criterion
+    if args.fp16:
+        scale = 1 / 8 # the default lr is for 8 GPUs
+        linear_scaled_lr = args.lr * utils.get_world_size() * scale
+        args.lr = linear_scaled_lr
+
+    loss_scaler = NativeScaler() if args.fp16 else None
+
+    #optimizer = create_optimizer(args, model_without_ddp)
+    '''
+    optimizer = torch.optim.SGD(
+        [p for p in model_without_ddp.parameters() if p.requires_grad],
+        args.lr,
+        momentum=args.momentum,
+        weight_decay=0, # no weight decay for fine-tuning
+    )
+    '''
+    optimizer = torch.optim.SGD(
+        [ {'params': p for p in model_without_ddp.feature.parameters() if p.requires_grad},
+          {'params': model_without_ddp.classifier.parameters(), 'lr': lr_classifier}],
+        args.lr,
+        momentum=args.momentum,
+        weight_decay=0, # no weight decay for fine-tuning
+    )
+    lr_scheduler, _ = create_scheduler(args, optimizer)
+
+    if args.mixup > 0.:
+        # smoothing is handled with mixup label transform
+        criterion = SoftTargetCrossEntropy()
+    elif args.smoothing:
+        criterion = LabelSmoothingCrossEntropy(smoothing=args.smoothing)
+    else:
+        criterion = torch.nn.CrossEntropyLoss()
+
+    ##############################################
+    # Resume training from ckpt (model, optimizer, lr_scheduler, epoch, model_ema, scaler)
+    if args.resume:
+        if args.resume.startswith('https'):
+            checkpoint = torch.hub.load_state_dict_from_url(
+                args.resume, map_location='cpu', check_hash=True)
+        else:
+            checkpoint = torch.load(args.resume, map_location='cpu')
+
+        model_without_ddp.load_state_dict(checkpoint['model'])
+
+        if not args.eval and 'optimizer' in checkpoint and 'lr_scheduler' in checkpoint and 'epoch' in checkpoint:
+            optimizer.load_state_dict(checkpoint['optimizer'])
+            lr_scheduler.load_state_dict(checkpoint['lr_scheduler'])
+            args.start_epoch = checkpoint['epoch'] + 1
+            if args.model_ema:
+                utils._load_checkpoint_for_ema(model_ema, checkpoint['model_ema'])
+            if 'scaler' in checkpoint:
+                loss_scaler.load_state_dict(checkpoint['scaler'])
+
+        print(f'Resume from {args.resume} at epoch {args.start_epoch}.')
+
+
+    ##############################################
+    # Test
+    test_stats = evaluate(data_loader_val, model, criterion, device, args.seed+10000)
+    print(f"Accuracy of the network on dataset_val: {test_stats['acc1']:.1f}%")
+    if args.output_dir and utils.is_main_process():
+        test_stats['epoch'] = -1
+        with (output_dir / "log.txt").open("a") as f:
+            f.write(json.dumps(test_stats) + "\n")
+
+    if args.eval:
+        return
+
+    ##############################################
+    # Training
+    if utils.is_main_process():
+        writer = SummaryWriter(log_dir=str(output_dir))
+    else:
+        writer = None
+
+    print(f"Start training for {args.epochs} epochs")
+    start_time = time.time()
+    #max_accuracy = test_stats['acc1']
+    max_accuracy = 0.0
+
+    for epoch in range(args.start_epoch, args.epochs):
+        print('args.start_epoch:', args.start_epoch, 'args.epochs:', args.epochs, 'tmp epoch:', epoch)
+        train_stats = train_one_epoch_styleAdv(
+            data_loader_train, model, criterion, optimizer, epoch, device,
+            loss_scaler, args.fp16, args.clip_grad, model_ema, mixup_fn, writer,
+            set_training_mode=False  # TODO: may need eval mode for finetuning
+        )
+
+        lr_scheduler.step(epoch)
+
+        test_stats = evaluate(data_loader_val, model, criterion, device, args.seed+10000)
+
+        log_stats = {**{f'train_{k}': v for k, v in train_stats.items()},
+                     **{f'test_{k}': v for k, v in test_stats.items()},
+                     'epoch': epoch,
+                     'n_parameters': n_parameters}
+
+        if args.output_dir:
+            checkpoint_paths = [output_dir / 'checkpoint.pth', output_dir / 'best.pth']
+            for checkpoint_path in checkpoint_paths:
+                state_dict = {
+                    'model': model_without_ddp.state_dict(),
+                    'optimizer': optimizer.state_dict(),
+                    'lr_scheduler': lr_scheduler.state_dict(),
+                    'epoch': epoch,
+                    'model_ema': get_state_dict(model_ema) if args.model_ema else None,
+                    'args': args,
+                }
+                if loss_scaler is not None:
+                    state_dict['scalar'] = loss_scaler.state_dict()
+                utils.save_on_master(state_dict, checkpoint_path)
+
+                if test_stats["acc1"] <= max_accuracy:
+                    break # do not save best.pth
+
+        print(f"Accuracy of the network on dataset_val: {test_stats['acc1']:.1f}%")
+        max_accuracy = max(max_accuracy, test_stats["acc1"])
+        print(f'Max accuracy: {max_accuracy:.2f}%')
+
+        if args.output_dir and utils.is_main_process():
+            log_stats['best_test_acc'] = max_accuracy
+            with (output_dir / "log.txt").open("a") as f:
+                f.write(json.dumps(log_stats) + "\n")
+
+    total_time = time.time() - start_time
+    total_time_str = str(datetime.timedelta(seconds=int(total_time)))
+    print('Training time {}'.format(total_time_str))
+
+    if utils.is_main_process():
+        writer.close()
+        import tables
+        tables.file._open_files.close_all()
+
+
+if __name__ == '__main__':
+    parser = get_args_parser()
+    args = parser.parse_args()
+
+    main(args)
diff --git a/methods/CausalStyle_RN_GNN.py b/methods/CausalStyle_RN_GNN.py
new file mode 100644
index 0000000000000000000000000000000000000000..c4aa132ea4e586c8e0f83168bc66eb5713027c3a
--- /dev/null
+++ b/methods/CausalStyle_RN_GNN.py
@@ -0,0 +1,368 @@
+import torch
+import torch.nn as nn
+import numpy as np
+import random
+
+from methods.gnn import GNN_nl
+from methods import backbone_multiblock
+from methods.tool_func import *
+#from methods.meta_template_StyleAdv_RN_GNN import MetaTemplate
+from methods.meta_template_CausalStyle_RN_GNN import MetaTemplate
+
+
+class CausalStyleGNN(MetaTemplate):
+  maml=False
+  def __init__(self, model_func,  n_way, n_support, tf_path=None):
+    super(CausalStyleGNN, self).__init__(model_func, n_way, n_support, tf_path=tf_path)
+
+    # loss function
+    self.loss_fn = nn.CrossEntropyLoss()
+
+    # metric function
+    self.fc = nn.Sequential(nn.Linear(self.feat_dim, 128), nn.BatchNorm1d(128, track_running_stats=False)) if not self.maml else nn.Sequential(backbone.Linear_fw(self.feat_dim, 128), backbone.BatchNorm1d_fw(128, track_running_stats=False))
+    self.gnn = GNN_nl(128 + self.n_way, 96, self.n_way)
+
+    # for global classifier
+    self.method = 'GnnNet'
+    self.classifier = nn.Linear(self.feature.final_feat_dim, 64)
+
+    # for global domain noises
+    mean = 0
+    std = 0.1
+    #std = 0.05
+    #std = 0.02
+    # domains as gaussian noise
+    #domains = torch.randn((85,512)) * std + mean  #fixed version
+    #domains = nn.Parameter(torch.randn((85,512)) * std + mean) #learnable version
+    domains = nn.Parameter(torch.randn((85,512))) #learnable version but not with gauss
+    self.domains = domains.cuda()
+
+    # fix label for training the metric function   1*nw(1 + ns)*nw
+    support_label = torch.from_numpy(np.repeat(range(self.n_way), self.n_support)).unsqueeze(1)
+    support_label = torch.zeros(self.n_way*self.n_support, self.n_way).scatter(1, support_label, 1).view(self.n_way, self.n_support, self.n_way)
+    support_label = torch.cat([support_label, torch.zeros(self.n_way, 1, n_way)], dim=1)
+    self.support_label = support_label.view(1, -1, self.n_way)
+
+  def cuda(self):
+    self.feature.cuda()
+    self.fc.cuda()
+    self.gnn.cuda()
+    self.classifier.cuda()
+    self.support_label = self.support_label.cuda()
+    return self
+
+  def set_forward(self,x,is_feature=False):
+    x = x.cuda()
+
+    if is_feature:
+      # reshape the feature tensor: n_way * n_s + 15 * f
+      assert(x.size(1) == self.n_support + 15)
+      z = self.fc(x.view(-1, *x.size()[2:]))
+      z = z.view(self.n_way, -1, z.size(1))
+    else:
+      # get feature using encoder
+      x = x.view(-1, *x.size()[2:])
+      z = self.fc(self.feature(x))
+      z = z.view(self.n_way, -1, z.size(1))
+
+    # stack the feature for metric function: n_way * n_s + n_q * f -> n_q * [1 * n_way(n_s + 1) * f]
+    z_stack = [torch.cat([z[:, :self.n_support], z[:, self.n_support + i:self.n_support + i + 1]], dim=1).view(1, -1, z.size(2)) for i in range(self.n_query)]
+    assert(z_stack[0].size(1) == self.n_way*(self.n_support + 1))
+    scores = self.forward_gnn(z_stack)
+    return scores
+
+
+
+  def forward_gnn(self, zs):
+    # gnn inp: n_q * n_way(n_s + 1) * f
+    nodes = torch.cat([torch.cat([z, self.support_label], dim=2) for z in zs], dim=0)
+    scores = self.gnn(nodes)
+
+    # n_q * n_way(n_s + 1) * n_way -> (n_way * n_q) * n_way
+    scores = scores.view(self.n_query, self.n_way, self.n_support + 1, self.n_way)[:, :, -1].permute(1, 0, 2).contiguous().view(-1, self.n_way)
+    return scores
+
+
+  def set_forward_loss(self, x):
+    y_query = torch.from_numpy(np.repeat(range( self.n_way ), self.n_query))
+    y_query = y_query.cuda()
+    scores = self.set_forward(x)
+    loss = self.loss_fn(scores, y_query)
+    return scores, loss
+
+
+  def adversarial_attack_Incre(self, x_ori, y_ori, epsilon_list):
+    x_ori = x_ori.cuda()
+    y_ori = y_ori.cuda()
+    x_size = x_ori.size()
+    x_ori = x_ori.view(x_size[0]*x_size[1], x_size[2], x_size[3], x_size[4])
+    y_ori = y_ori.view(x_size[0]*x_size[1])
+
+    # if not adv, set defalut = 'None'
+    adv_style_mean_block1, adv_style_std_block1 = 'None', 'None'
+    adv_style_mean_block2, adv_style_std_block2 = 'None', 'None'
+    adv_style_mean_block3, adv_style_std_block3 = 'None', 'None'
+
+    # forward and set the grad = True
+    blocklist = 'block123'
+    
+    if('1' in blocklist and epsilon_list[0] != 0 ):
+      # forward block1
+      x_ori_block1 = self.feature.forward_block1(x_ori)
+      feat_size_block1 = x_ori_block1.size()
+      ori_style_mean_block1, ori_style_std_block1 = calc_mean_std(x_ori_block1)
+      # set them as learnable parameters
+      ori_style_mean_block1  = torch.nn.Parameter(ori_style_mean_block1)
+      ori_style_std_block1 = torch.nn.Parameter(ori_style_std_block1)
+      ori_style_mean_block1.requires_grad_()
+      ori_style_std_block1.requires_grad_()
+      # contain ori_style_mean_block1 in the graph 
+      x_normalized_block1 = (x_ori_block1 - ori_style_mean_block1.detach().expand(feat_size_block1)) / ori_style_std_block1.detach().expand(feat_size_block1)
+      x_ori_block1 = x_normalized_block1 * ori_style_std_block1.expand(feat_size_block1) + ori_style_mean_block1.expand(feat_size_block1)
+      
+      # pass the rest model
+      x_ori_block2 = self.feature.forward_block2(x_ori_block1)
+      x_ori_block3 = self.feature.forward_block3(x_ori_block2)
+      x_ori_block4 = self.feature.forward_block4(x_ori_block3)
+      x_ori_fea = self.feature.forward_rest(x_ori_block4)
+      x_ori_output = self.classifier.forward(x_ori_fea)
+    
+      # calculate initial pred, loss and acc
+      ori_pred = x_ori_output.max(1, keepdim=True)[1]
+      ori_loss = self.loss_fn(x_ori_output, y_ori)
+      ori_acc = (ori_pred == y_ori).type(torch.float).sum().item() / y_ori.size()[0]
+
+      # zero all the existing gradients
+      self.feature.zero_grad()
+      self.classifier.zero_grad()
+   
+      # backward loss
+      ori_loss.backward()
+
+      # collect datagrad
+      grad_ori_style_mean_block1 = ori_style_mean_block1.grad.detach()
+      grad_ori_style_std_block1 = ori_style_std_block1.grad.detach()
+    
+      # fgsm style attack
+      index = torch.randint(0, len(epsilon_list), (1, ))[0]
+      epsilon = epsilon_list[index]
+
+      adv_style_mean_block1 = fgsm_attack(ori_style_mean_block1, epsilon, grad_ori_style_mean_block1)
+      adv_style_std_block1 = fgsm_attack(ori_style_std_block1, epsilon, grad_ori_style_std_block1)
+
+    # add zero_grad
+    self.feature.zero_grad()
+    self.classifier.zero_grad()
+
+    if('2' in blocklist and epsilon_list[1] != 0):
+      # forward block1
+      x_ori_block1 = self.feature.forward_block1(x_ori)
+      # update adv_block1
+      x_adv_block1 = changeNewAdvStyle(x_ori_block1, adv_style_mean_block1, adv_style_std_block1, p_thred=0)
+      # forward block2
+      x_ori_block2 = self.feature.forward_block2(x_adv_block1) 
+      # calculate mean and std
+      feat_size_block2 = x_ori_block2.size()
+      ori_style_mean_block2, ori_style_std_block2 = calc_mean_std(x_ori_block2)
+      # set them as learnable parameters
+      ori_style_mean_block2  = torch.nn.Parameter(ori_style_mean_block2)
+      ori_style_std_block2 = torch.nn.Parameter(ori_style_std_block2)
+      ori_style_mean_block2.requires_grad_()
+      ori_style_std_block2.requires_grad_()
+      # contain ori_style_mean_block1 in the graph 
+      x_normalized_block2 = (x_ori_block2 - ori_style_mean_block2.detach().expand(feat_size_block2)) / ori_style_std_block2.detach().expand(feat_size_block2)
+      x_ori_block2 = x_normalized_block2 * ori_style_std_block2.expand(feat_size_block2) + ori_style_mean_block2.expand(feat_size_block2)
+      # pass the rest model
+      x_ori_block3 = self.feature.forward_block3(x_ori_block2)
+      x_ori_block4 = self.feature.forward_block4(x_ori_block3)
+      x_ori_fea = self.feature.forward_rest(x_ori_block4)
+      x_ori_output = self.classifier.forward(x_ori_fea)
+      # calculate initial pred, loss and acc
+      ori_pred = x_ori_output.max(1, keepdim=True)[1]
+      ori_loss = self.loss_fn(x_ori_output, y_ori)
+      ori_acc = (ori_pred == y_ori).type(torch.float).sum().item() / y_ori.size()[0]
+      # zero all the existing gradients
+      self.feature.zero_grad()
+      self.classifier.zero_grad()
+      # backward loss
+      ori_loss.backward()
+      # collect datagrad
+      grad_ori_style_mean_block2 = ori_style_mean_block2.grad.detach()
+      grad_ori_style_std_block2 = ori_style_std_block2.grad.detach()
+      # fgsm style attack
+      index = torch.randint(0, len(epsilon_list), (1, ))[0]
+      epsilon = epsilon_list[index]
+      adv_style_mean_block2 = fgsm_attack(ori_style_mean_block2, epsilon, grad_ori_style_mean_block2)
+      adv_style_std_block2 = fgsm_attack(ori_style_std_block2, epsilon, grad_ori_style_std_block2)
+
+    # add zero_grad
+    self.feature.zero_grad()
+    self.classifier.zero_grad()
+
+    if('3' in blocklist and epsilon_list[2] != 0):
+      # forward block1, block2, block3
+      x_ori_block1 = self.feature.forward_block1(x_ori)
+      x_adv_block1 = changeNewAdvStyle(x_ori_block1, adv_style_mean_block1, adv_style_std_block1, p_thred=0)
+      x_ori_block2 = self.feature.forward_block2(x_adv_block1)
+      x_adv_block2 = changeNewAdvStyle(x_ori_block2, adv_style_mean_block2, adv_style_std_block2, p_thred=0)
+      x_ori_block3 = self.feature.forward_block3(x_adv_block2)
+      # calculate mean and std
+      feat_size_block3 = x_ori_block3.size()
+      ori_style_mean_block3, ori_style_std_block3 = calc_mean_std(x_ori_block3)
+      # set them as learnable parameters
+      ori_style_mean_block3  = torch.nn.Parameter(ori_style_mean_block3)
+      ori_style_std_block3 = torch.nn.Parameter(ori_style_std_block3)
+      ori_style_mean_block3.requires_grad_()
+      ori_style_std_block3.requires_grad_()
+      # contain ori_style_mean_block3 in the graph 
+      x_normalized_block3 = (x_ori_block3 - ori_style_mean_block3.detach().expand(feat_size_block3)) / ori_style_std_block3.detach().expand(feat_size_block3)
+      x_ori_block3 = x_normalized_block3 * ori_style_std_block3.expand(feat_size_block3) + ori_style_mean_block3.expand(feat_size_block3)
+      # pass the rest model
+      x_ori_block4 = self.feature.forward_block4(x_ori_block3)
+      x_ori_fea = self.feature.forward_rest(x_ori_block4)
+      x_ori_output = self.classifier.forward(x_ori_fea)
+      # calculate initial pred, loss and acc
+      ori_pred = x_ori_output.max(1, keepdim=True)[1]
+      ori_loss = self.loss_fn(x_ori_output, y_ori)
+      ori_acc = (ori_pred == y_ori).type(torch.float).sum().item() / y_ori.size()[0]
+      # zero all the existing gradients
+      self.feature.zero_grad()
+      self.classifier.zero_grad()
+      # backward loss
+      ori_loss.backward()
+      # collect datagrad
+      grad_ori_style_mean_block3 = ori_style_mean_block3.grad.detach()
+      grad_ori_style_std_block3 = ori_style_std_block3.grad.detach()
+      # fgsm style attack
+      index = torch.randint(0, len(epsilon_list), (1, ))[0]
+      epsilon = epsilon_list[index]
+      adv_style_mean_block3 = fgsm_attack(ori_style_mean_block3, epsilon, grad_ori_style_mean_block3)
+      adv_style_std_block3 = fgsm_attack(ori_style_std_block3, epsilon, grad_ori_style_std_block3)
+
+    return adv_style_mean_block1, adv_style_std_block1, adv_style_mean_block2, adv_style_std_block2, adv_style_mean_block3, adv_style_std_block3 
+    
+  
+  def set_statues_of_modules(self, flag):
+    if(flag=='eval'):
+      self.feature.eval()
+      self.fc.eval()
+      self.gnn.eval()
+      self.classifier.eval()
+    elif(flag=='train'):
+      self.feature.train()
+      self.fc.train()
+      self.gnn.train()
+      self.classifier.train()
+    return 
+   
+
+
+  def perturb_via_latent_domains_v1(self, ori_fea):
+    '''
+    add local gaussion noises
+    '''
+    #print('ori_fea:', ori_fea.size())  #ori_fea: torch.Size([85, 512])
+    mean = 0
+    std = 0.1
+    #std = 0.05
+    #std = 0.02
+    # domains as gaussian noise
+    domains = torch.randn(ori_fea.size()) * std + mean
+    domains = domains.cuda()
+    dom_fea = ori_fea + domains
+    return dom_fea
+  
+  def perturb_via_latent_domains_v2(self, ori_fea):
+    dom_fea = ori_fea + self.domains
+    return dom_fea
+
+  def set_forward_loss_CausalStyle(self, x_ori, global_y, epsilon_list):
+    ##################################################################
+    # 0. first cp x_adv from x_ori
+    x_adv = x_ori
+
+    ##################################################################
+    # 1. styleAdv
+    self.set_statues_of_modules('eval') 
+
+    adv_style_mean_block1, adv_style_std_block1, adv_style_mean_block2, adv_style_std_block2, adv_style_mean_block3, adv_style_std_block3 = self.adversarial_attack_Incre(x_ori, global_y, epsilon_list)
+ 
+    self.feature.zero_grad()
+    self.fc.zero_grad()
+    self.classifier.zero_grad()
+    self.gnn.zero_grad()
+
+    #################################################################
+    # 2. forward and get loss
+    self.set_statues_of_modules('train')
+
+    # define y_query for FSL
+    y_query = torch.from_numpy(np.repeat(range( self.n_way ), self.n_query))
+    y_query = y_query.cuda()
+
+    # forward x_ori 
+    x_ori = x_ori.cuda()
+    x_size = x_ori.size()
+    x_ori = x_ori.view(x_size[0]*x_size[1], x_size[2], x_size[3], x_size[4])
+    global_y = global_y.view(x_size[0]*x_size[1]).cuda()
+    x_ori_block1 = self.feature.forward_block1(x_ori)
+    x_ori_block2 = self.feature.forward_block2(x_ori_block1)
+    x_ori_block3 = self.feature.forward_block3(x_ori_block2)
+    x_ori_block4 = self.feature.forward_block4(x_ori_block3)
+    x_ori_fea = self.feature.forward_rest(x_ori_block4)
+
+    # ori cls global loss    
+    scores_cls_ori = self.classifier.forward(x_ori_fea)
+    loss_cls_ori = self.loss_fn(scores_cls_ori, global_y)
+    acc_cls_ori = ( scores_cls_ori.max(1, keepdim=True)[1]  == global_y ).type(torch.float).sum().item() / global_y.size()[0]
+
+    # ori FSL scores and losses
+    x_ori_z = self.fc(x_ori_fea)
+    x_ori_z = x_ori_z.view(self.n_way, -1, x_ori_z.size(1))
+    x_ori_z_stack = [torch.cat([x_ori_z[:, :self.n_support], x_ori_z[:, self.n_support + i:self.n_support + i + 1]], dim=1).view(1, -1, x_ori_z.size(2)) for i in range(self.n_query)]
+    assert(x_ori_z_stack[0].size(1) == self.n_way*(self.n_support + 1))
+    scores_fsl_ori = self.forward_gnn(x_ori_z_stack)
+    loss_fsl_ori = self.loss_fn(scores_fsl_ori, y_query)
+
+    # apply domain perturb
+    #x_dom_fea = self.perturb_via_latent_domains_v1(x_ori_fea)
+    x_dom_fea = self.perturb_via_latent_domains_v2(x_ori_fea)
+
+    # forward x_dom
+    x_dom_z = self.fc(x_dom_fea)
+    x_dom_z = x_dom_z.view(self.n_way, -1, x_dom_z.size(1))
+    x_dom_z_stack = [torch.cat([x_dom_z[:, :self.n_support], x_dom_z[:, self.n_support + i:self.n_support + i + 1]], dim=1).view(1, -1, x_dom_z.size(2)) for i in range(self.n_query)]
+    assert(x_dom_z_stack[0].size(1) == self.n_way*(self.n_support + 1))
+    scores_fsl_dom = self.forward_gnn(x_dom_z_stack)
+    loss_fsl_dom = self.loss_fn(scores_fsl_dom, y_query)
+
+
+    # forward x_adv
+    x_adv = x_adv.cuda()
+    x_adv = x_adv.view(x_size[0]*x_size[1], x_size[2], x_size[3], x_size[4])
+    x_adv_block1 = self.feature.forward_block1(x_adv)
+
+    x_adv_block1_newStyle = changeNewAdvStyle(x_adv_block1, adv_style_mean_block1, adv_style_std_block1, p_thred = P_THRED) 
+    x_adv_block2 = self.feature.forward_block2(x_adv_block1_newStyle)
+    x_adv_block2_newStyle = changeNewAdvStyle(x_adv_block2, adv_style_mean_block2, adv_style_std_block2, p_thred = P_THRED)
+    x_adv_block3 = self.feature.forward_block3(x_adv_block2_newStyle)
+    x_adv_block3_newStyle = changeNewAdvStyle(x_adv_block3, adv_style_mean_block3, adv_style_std_block3, p_thred = P_THRED)
+    x_adv_block4 = self.feature.forward_block4(x_adv_block3_newStyle)
+    x_adv_fea = self.feature.forward_rest(x_adv_block4)
+   
+    # adv cls gloabl loss
+    scores_cls_adv = self.classifier.forward(x_adv_fea)
+    loss_cls_adv = self.loss_fn(scores_cls_adv, global_y)
+    acc_cls_adv = ( scores_cls_adv.max(1, keepdim=True)[1]  == global_y ).type(torch.float).sum().item() / global_y.size()[0]
+
+    # adv FSL scores and losses
+    x_adv_z = self.fc(x_adv_fea)
+    x_adv_z = x_adv_z.view(self.n_way, -1, x_adv_z.size(1))
+    x_adv_z_stack = [torch.cat([x_adv_z[:, :self.n_support], x_adv_z[:, self.n_support + i:self.n_support + i + 1]], dim=1).view(1, -1, x_adv_z.size(2)) for i in range(self.n_query)]
+    assert(x_adv_z_stack[0].size(1) == self.n_way*(self.n_support + 1))
+    scores_fsl_adv = self.forward_gnn(x_adv_z_stack)
+    loss_fsl_adv = self.loss_fn(scores_fsl_adv, y_query)
+
+    #print('scores_fsl_adv:', scores_fsl_adv.mean(), 'loss_fsl_adv:', loss_fsl_adv, 'scores_cls_adv:', scores_cls_adv.mean(), 'loss_cls_adv:', loss_cls_adv)
+    #return scores_fsl_ori, loss_fsl_ori, scores_cls_ori, loss_cls_ori, scores_fsl_adv, loss_fsl_adv, scores_cls_adv, loss_cls_adv
+    return scores_fsl_ori, loss_fsl_ori, scores_cls_ori, loss_cls_ori, scores_fsl_adv, loss_fsl_adv, scores_cls_adv, loss_cls_adv, scores_fsl_dom, loss_fsl_dom
diff --git a/methods/StyleAdv_RN_GNN.py b/methods/StyleAdv_RN_GNN.py
new file mode 100644
index 0000000000000000000000000000000000000000..97f75018413cf43bffdc2a0098f5a13a276ece06
--- /dev/null
+++ b/methods/StyleAdv_RN_GNN.py
@@ -0,0 +1,322 @@
+import torch
+import torch.nn as nn
+import numpy as np
+import random
+
+from methods.gnn import GNN_nl
+from methods import backbone_multiblock
+from methods.tool_func import *
+from methods.meta_template_StyleAdv_RN_GNN import MetaTemplate
+
+
+class StyleAdvGNN(MetaTemplate):
+  maml=False
+  def __init__(self, model_func,  n_way, n_support, tf_path=None):
+    super(StyleAdvGNN, self).__init__(model_func, n_way, n_support, tf_path=tf_path)
+
+    # loss function
+    self.loss_fn = nn.CrossEntropyLoss()
+
+    # metric function
+    self.fc = nn.Sequential(nn.Linear(self.feat_dim, 128), nn.BatchNorm1d(128, track_running_stats=False)) if not self.maml else nn.Sequential(backbone.Linear_fw(self.feat_dim, 128), backbone.BatchNorm1d_fw(128, track_running_stats=False))
+    self.gnn = GNN_nl(128 + self.n_way, 96, self.n_way)
+
+    # for global classifier
+    self.method = 'GnnNet'
+    self.classifier = nn.Linear(self.feature.final_feat_dim, 64)
+
+    # fix label for training the metric function   1*nw(1 + ns)*nw
+    support_label = torch.from_numpy(np.repeat(range(self.n_way), self.n_support)).unsqueeze(1)
+    support_label = torch.zeros(self.n_way*self.n_support, self.n_way).scatter(1, support_label, 1).view(self.n_way, self.n_support, self.n_way)
+    support_label = torch.cat([support_label, torch.zeros(self.n_way, 1, n_way)], dim=1)
+    self.support_label = support_label.view(1, -1, self.n_way)
+
+  def cuda(self):
+    self.feature.cuda()
+    self.fc.cuda()
+    self.gnn.cuda()
+    self.classifier.cuda()
+    self.support_label = self.support_label.cuda()
+    return self
+
+  def set_forward(self,x,is_feature=False):
+    x = x.cuda()
+
+    if is_feature:
+      # reshape the feature tensor: n_way * n_s + 15 * f
+      assert(x.size(1) == self.n_support + 15)
+      z = self.fc(x.view(-1, *x.size()[2:]))
+      z = z.view(self.n_way, -1, z.size(1))
+    else:
+      # get feature using encoder
+      x = x.view(-1, *x.size()[2:])
+      z = self.fc(self.feature(x))
+      z = z.view(self.n_way, -1, z.size(1))
+
+    # stack the feature for metric function: n_way * n_s + n_q * f -> n_q * [1 * n_way(n_s + 1) * f]
+    z_stack = [torch.cat([z[:, :self.n_support], z[:, self.n_support + i:self.n_support + i + 1]], dim=1).view(1, -1, z.size(2)) for i in range(self.n_query)]
+    assert(z_stack[0].size(1) == self.n_way*(self.n_support + 1))
+    scores = self.forward_gnn(z_stack)
+    return scores
+
+
+
+  def forward_gnn(self, zs):
+    # gnn inp: n_q * n_way(n_s + 1) * f
+    nodes = torch.cat([torch.cat([z, self.support_label], dim=2) for z in zs], dim=0)
+    scores = self.gnn(nodes)
+
+    # n_q * n_way(n_s + 1) * n_way -> (n_way * n_q) * n_way
+    scores = scores.view(self.n_query, self.n_way, self.n_support + 1, self.n_way)[:, :, -1].permute(1, 0, 2).contiguous().view(-1, self.n_way)
+    return scores
+
+
+  def set_forward_loss(self, x):
+    y_query = torch.from_numpy(np.repeat(range( self.n_way ), self.n_query))
+    y_query = y_query.cuda()
+    scores = self.set_forward(x)
+    loss = self.loss_fn(scores, y_query)
+    return scores, loss
+
+
+  def adversarial_attack_Incre(self, x_ori, y_ori, epsilon_list):
+    x_ori = x_ori.cuda()
+    y_ori = y_ori.cuda()
+    x_size = x_ori.size()
+    x_ori = x_ori.view(x_size[0]*x_size[1], x_size[2], x_size[3], x_size[4])
+    y_ori = y_ori.view(x_size[0]*x_size[1])
+
+    # if not adv, set defalut = 'None'
+    adv_style_mean_block1, adv_style_std_block1 = 'None', 'None'
+    adv_style_mean_block2, adv_style_std_block2 = 'None', 'None'
+    adv_style_mean_block3, adv_style_std_block3 = 'None', 'None'
+
+    # forward and set the grad = True
+    blocklist = 'block123'
+    
+    if('1' in blocklist and epsilon_list[0] != 0 ):
+      # forward block1
+      x_ori_block1 = self.feature.forward_block1(x_ori)
+      feat_size_block1 = x_ori_block1.size()
+      ori_style_mean_block1, ori_style_std_block1 = calc_mean_std(x_ori_block1)
+      # set them as learnable parameters
+      ori_style_mean_block1  = torch.nn.Parameter(ori_style_mean_block1)
+      ori_style_std_block1 = torch.nn.Parameter(ori_style_std_block1)
+      ori_style_mean_block1.requires_grad_()
+      ori_style_std_block1.requires_grad_()
+      # contain ori_style_mean_block1 in the graph 
+      x_normalized_block1 = (x_ori_block1 - ori_style_mean_block1.detach().expand(feat_size_block1)) / ori_style_std_block1.detach().expand(feat_size_block1)
+      x_ori_block1 = x_normalized_block1 * ori_style_std_block1.expand(feat_size_block1) + ori_style_mean_block1.expand(feat_size_block1)
+      
+      # pass the rest model
+      x_ori_block2 = self.feature.forward_block2(x_ori_block1)
+      x_ori_block3 = self.feature.forward_block3(x_ori_block2)
+      x_ori_block4 = self.feature.forward_block4(x_ori_block3)
+      x_ori_fea = self.feature.forward_rest(x_ori_block4)
+      x_ori_output = self.classifier.forward(x_ori_fea)
+    
+      # calculate initial pred, loss and acc
+      ori_pred = x_ori_output.max(1, keepdim=True)[1]
+      ori_loss = self.loss_fn(x_ori_output, y_ori)
+      ori_acc = (ori_pred == y_ori).type(torch.float).sum().item() / y_ori.size()[0]
+
+      # zero all the existing gradients
+      self.feature.zero_grad()
+      self.classifier.zero_grad()
+   
+      # backward loss
+      ori_loss.backward()
+
+      # collect datagrad
+      grad_ori_style_mean_block1 = ori_style_mean_block1.grad.detach()
+      grad_ori_style_std_block1 = ori_style_std_block1.grad.detach()
+    
+      # fgsm style attack
+      index = torch.randint(0, len(epsilon_list), (1, ))[0]
+      epsilon = epsilon_list[index]
+
+      adv_style_mean_block1 = fgsm_attack(ori_style_mean_block1, epsilon, grad_ori_style_mean_block1)
+      adv_style_std_block1 = fgsm_attack(ori_style_std_block1, epsilon, grad_ori_style_std_block1)
+
+    # add zero_grad
+    self.feature.zero_grad()
+    self.classifier.zero_grad()
+
+    if('2' in blocklist and epsilon_list[1] != 0):
+      # forward block1
+      x_ori_block1 = self.feature.forward_block1(x_ori)
+      # update adv_block1
+      x_adv_block1 = changeNewAdvStyle(x_ori_block1, adv_style_mean_block1, adv_style_std_block1, p_thred=0)
+      # forward block2
+      x_ori_block2 = self.feature.forward_block2(x_adv_block1) 
+      # calculate mean and std
+      feat_size_block2 = x_ori_block2.size()
+      ori_style_mean_block2, ori_style_std_block2 = calc_mean_std(x_ori_block2)
+      # set them as learnable parameters
+      ori_style_mean_block2  = torch.nn.Parameter(ori_style_mean_block2)
+      ori_style_std_block2 = torch.nn.Parameter(ori_style_std_block2)
+      ori_style_mean_block2.requires_grad_()
+      ori_style_std_block2.requires_grad_()
+      # contain ori_style_mean_block1 in the graph 
+      x_normalized_block2 = (x_ori_block2 - ori_style_mean_block2.detach().expand(feat_size_block2)) / ori_style_std_block2.detach().expand(feat_size_block2)
+      x_ori_block2 = x_normalized_block2 * ori_style_std_block2.expand(feat_size_block2) + ori_style_mean_block2.expand(feat_size_block2)
+      # pass the rest model
+      x_ori_block3 = self.feature.forward_block3(x_ori_block2)
+      x_ori_block4 = self.feature.forward_block4(x_ori_block3)
+      x_ori_fea = self.feature.forward_rest(x_ori_block4)
+      x_ori_output = self.classifier.forward(x_ori_fea)
+      # calculate initial pred, loss and acc
+      ori_pred = x_ori_output.max(1, keepdim=True)[1]
+      ori_loss = self.loss_fn(x_ori_output, y_ori)
+      ori_acc = (ori_pred == y_ori).type(torch.float).sum().item() / y_ori.size()[0]
+      # zero all the existing gradients
+      self.feature.zero_grad()
+      self.classifier.zero_grad()
+      # backward loss
+      ori_loss.backward()
+      # collect datagrad
+      grad_ori_style_mean_block2 = ori_style_mean_block2.grad.detach()
+      grad_ori_style_std_block2 = ori_style_std_block2.grad.detach()
+      # fgsm style attack
+      index = torch.randint(0, len(epsilon_list), (1, ))[0]
+      epsilon = epsilon_list[index]
+      adv_style_mean_block2 = fgsm_attack(ori_style_mean_block2, epsilon, grad_ori_style_mean_block2)
+      adv_style_std_block2 = fgsm_attack(ori_style_std_block2, epsilon, grad_ori_style_std_block2)
+
+    # add zero_grad
+    self.feature.zero_grad()
+    self.classifier.zero_grad()
+
+    if('3' in blocklist and epsilon_list[2] != 0):
+      # forward block1, block2, block3
+      x_ori_block1 = self.feature.forward_block1(x_ori)
+      x_adv_block1 = changeNewAdvStyle(x_ori_block1, adv_style_mean_block1, adv_style_std_block1, p_thred=0)
+      x_ori_block2 = self.feature.forward_block2(x_adv_block1)
+      x_adv_block2 = changeNewAdvStyle(x_ori_block2, adv_style_mean_block2, adv_style_std_block2, p_thred=0)
+      x_ori_block3 = self.feature.forward_block3(x_adv_block2)
+      # calculate mean and std
+      feat_size_block3 = x_ori_block3.size()
+      ori_style_mean_block3, ori_style_std_block3 = calc_mean_std(x_ori_block3)
+      # set them as learnable parameters
+      ori_style_mean_block3  = torch.nn.Parameter(ori_style_mean_block3)
+      ori_style_std_block3 = torch.nn.Parameter(ori_style_std_block3)
+      ori_style_mean_block3.requires_grad_()
+      ori_style_std_block3.requires_grad_()
+      # contain ori_style_mean_block3 in the graph 
+      x_normalized_block3 = (x_ori_block3 - ori_style_mean_block3.detach().expand(feat_size_block3)) / ori_style_std_block3.detach().expand(feat_size_block3)
+      x_ori_block3 = x_normalized_block3 * ori_style_std_block3.expand(feat_size_block3) + ori_style_mean_block3.expand(feat_size_block3)
+      # pass the rest model
+      x_ori_block4 = self.feature.forward_block4(x_ori_block3)
+      x_ori_fea = self.feature.forward_rest(x_ori_block4)
+      x_ori_output = self.classifier.forward(x_ori_fea)
+      # calculate initial pred, loss and acc
+      ori_pred = x_ori_output.max(1, keepdim=True)[1]
+      ori_loss = self.loss_fn(x_ori_output, y_ori)
+      ori_acc = (ori_pred == y_ori).type(torch.float).sum().item() / y_ori.size()[0]
+      # zero all the existing gradients
+      self.feature.zero_grad()
+      self.classifier.zero_grad()
+      # backward loss
+      ori_loss.backward()
+      # collect datagrad
+      grad_ori_style_mean_block3 = ori_style_mean_block3.grad.detach()
+      grad_ori_style_std_block3 = ori_style_std_block3.grad.detach()
+      # fgsm style attack
+      index = torch.randint(0, len(epsilon_list), (1, ))[0]
+      epsilon = epsilon_list[index]
+      adv_style_mean_block3 = fgsm_attack(ori_style_mean_block3, epsilon, grad_ori_style_mean_block3)
+      adv_style_std_block3 = fgsm_attack(ori_style_std_block3, epsilon, grad_ori_style_std_block3)
+
+    return adv_style_mean_block1, adv_style_std_block1, adv_style_mean_block2, adv_style_std_block2, adv_style_mean_block3, adv_style_std_block3 
+    
+  
+  def set_statues_of_modules(self, flag):
+    if(flag=='eval'):
+      self.feature.eval()
+      self.fc.eval()
+      self.gnn.eval()
+      self.classifier.eval()
+    elif(flag=='train'):
+      self.feature.train()
+      self.fc.train()
+      self.gnn.train()
+      self.classifier.train()
+    return 
+   
+
+  def set_forward_loss_StyAdv(self, x_ori, global_y, epsilon_list):
+    ##################################################################
+    # 0. first cp x_adv from x_ori
+    x_adv = x_ori
+
+    ##################################################################
+    # 1. styleAdv
+    self.set_statues_of_modules('eval') 
+
+    adv_style_mean_block1, adv_style_std_block1, adv_style_mean_block2, adv_style_std_block2, adv_style_mean_block3, adv_style_std_block3 = self.adversarial_attack_Incre(x_ori, global_y, epsilon_list)
+ 
+    self.feature.zero_grad()
+    self.fc.zero_grad()
+    self.classifier.zero_grad()
+    self.gnn.zero_grad()
+
+    #################################################################
+    # 2. forward and get loss
+    self.set_statues_of_modules('train')
+
+    # define y_query for FSL
+    y_query = torch.from_numpy(np.repeat(range( self.n_way ), self.n_query))
+    y_query = y_query.cuda()
+
+    # forward x_ori 
+    x_ori = x_ori.cuda()
+    x_size = x_ori.size()
+    x_ori = x_ori.view(x_size[0]*x_size[1], x_size[2], x_size[3], x_size[4])
+    global_y = global_y.view(x_size[0]*x_size[1]).cuda()
+    x_ori_block1 = self.feature.forward_block1(x_ori)
+    x_ori_block2 = self.feature.forward_block2(x_ori_block1)
+    x_ori_block3 = self.feature.forward_block3(x_ori_block2)
+    x_ori_block4 = self.feature.forward_block4(x_ori_block3)
+    x_ori_fea = self.feature.forward_rest(x_ori_block4)
+
+    # ori cls global loss    
+    scores_cls_ori = self.classifier.forward(x_ori_fea)
+    loss_cls_ori = self.loss_fn(scores_cls_ori, global_y)
+    acc_cls_ori = ( scores_cls_ori.max(1, keepdim=True)[1]  == global_y ).type(torch.float).sum().item() / global_y.size()[0]
+
+    # ori FSL scores and losses
+    x_ori_z = self.fc(x_ori_fea)
+    x_ori_z = x_ori_z.view(self.n_way, -1, x_ori_z.size(1))
+    x_ori_z_stack = [torch.cat([x_ori_z[:, :self.n_support], x_ori_z[:, self.n_support + i:self.n_support + i + 1]], dim=1).view(1, -1, x_ori_z.size(2)) for i in range(self.n_query)]
+    assert(x_ori_z_stack[0].size(1) == self.n_way*(self.n_support + 1))
+    scores_fsl_ori = self.forward_gnn(x_ori_z_stack)
+    loss_fsl_ori = self.loss_fn(scores_fsl_ori, y_query)
+
+    # forward x_adv
+    x_adv = x_adv.cuda()
+    x_adv = x_adv.view(x_size[0]*x_size[1], x_size[2], x_size[3], x_size[4])
+    x_adv_block1 = self.feature.forward_block1(x_adv)
+
+    x_adv_block1_newStyle = changeNewAdvStyle(x_adv_block1, adv_style_mean_block1, adv_style_std_block1, p_thred = P_THRED) 
+    x_adv_block2 = self.feature.forward_block2(x_adv_block1_newStyle)
+    x_adv_block2_newStyle = changeNewAdvStyle(x_adv_block2, adv_style_mean_block2, adv_style_std_block2, p_thred = P_THRED)
+    x_adv_block3 = self.feature.forward_block3(x_adv_block2_newStyle)
+    x_adv_block3_newStyle = changeNewAdvStyle(x_adv_block3, adv_style_mean_block3, adv_style_std_block3, p_thred = P_THRED)
+    x_adv_block4 = self.feature.forward_block4(x_adv_block3_newStyle)
+    x_adv_fea = self.feature.forward_rest(x_adv_block4)
+   
+    # adv cls gloabl loss
+    scores_cls_adv = self.classifier.forward(x_adv_fea)
+    loss_cls_adv = self.loss_fn(scores_cls_adv, global_y)
+    acc_cls_adv = ( scores_cls_adv.max(1, keepdim=True)[1]  == global_y ).type(torch.float).sum().item() / global_y.size()[0]
+
+    # adv FSL scores and losses
+    x_adv_z = self.fc(x_adv_fea)
+    x_adv_z = x_adv_z.view(self.n_way, -1, x_adv_z.size(1))
+    x_adv_z_stack = [torch.cat([x_adv_z[:, :self.n_support], x_adv_z[:, self.n_support + i:self.n_support + i + 1]], dim=1).view(1, -1, x_adv_z.size(2)) for i in range(self.n_query)]
+    assert(x_adv_z_stack[0].size(1) == self.n_way*(self.n_support + 1))
+    scores_fsl_adv = self.forward_gnn(x_adv_z_stack)
+    loss_fsl_adv = self.loss_fn(scores_fsl_adv, y_query)
+
+    #print('scores_fsl_adv:', scores_fsl_adv.mean(), 'loss_fsl_adv:', loss_fsl_adv, 'scores_cls_adv:', scores_cls_adv.mean(), 'loss_cls_adv:', loss_cls_adv)
+    return scores_fsl_ori, loss_fsl_ori, scores_cls_ori, loss_cls_ori, scores_fsl_adv, loss_fsl_adv, scores_cls_adv, loss_cls_adv
diff --git a/methods/StyleAdv_ViT_protonet.py b/methods/StyleAdv_ViT_protonet.py
new file mode 100644
index 0000000000000000000000000000000000000000..2ca270bd774f82c6eaf94ce69df0aefaa5e9f877
--- /dev/null
+++ b/methods/StyleAdv_ViT_protonet.py
@@ -0,0 +1,357 @@
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+import numpy as np
+
+from methods.tool_func import *
+
+
+def preprocessing(x_fea):
+  # x_fea: [B, 197, 384] --> x_cls_fea [B, 1, 384], x_patch_fea [B, 384, 14, 14]
+  B, num, dim = x_fea.size()[0], x_fea.size()[1], x_fea.size()[2]
+  x_cls_fea = x_fea[:, :1, :]
+  x_patch_fea = x_fea[:,1:, :]
+  x_patch_fea = x_patch_fea.contiguous().view(B,dim,num-1).view(B, dim, 14, 14)
+  return x_cls_fea, x_patch_fea
+
+def postprocessing(x_cls_fea, x_patch_fea):
+  # x_cls_fea [B, 1, 384], x_patch_fea [B, 384, 14, 14] --> x_fea: [B, 197, 384] 
+  B, num, dim = x_patch_fea.size()[0], x_patch_fea.size()[2]*x_patch_fea.size()[3]+1, x_patch_fea.size()[1]
+  x_patch_fea = x_patch_fea.contiguous().view(B,dim,num-1).view(B,num-1,dim)
+  x_fea = torch.cat((x_cls_fea, x_patch_fea), 1)
+  return x_fea
+
+def changeNewAdvStyle_ViT(vit_fea, new_styleAug_mean, new_styleAug_std, p_thred):
+    if(new_styleAug_mean=='None'):
+      return vit_fea
+
+    #final
+    p = np.random.uniform()
+    if( p < p_thred):
+      return vit_fea
+
+    cls_fea, input_fea = preprocessing(vit_fea)
+    feat_size = input_fea.size()
+    ori_style_mean, ori_style_std = calc_mean_std(input_fea)
+    #print('ori mean:', ori_style_mean.mean(), 'ori std:',  ori_style_std.mean())
+    #print('adv mean:', new_styleAug_mean.mean(), 'adv std:', new_styleAug_std.mean())
+    #print('mean diff:', new_styleAug_mean.mean() - ori_style_mean.mean(), 'std diff:', new_styleAug_std.mean() - ori_style_std.mean())
+    normalized_fea = (input_fea - ori_style_mean.expand(feat_size)) / ori_style_std.expand(feat_size)
+    styleAug_fea  = normalized_fea * new_styleAug_std.expand(feat_size) + new_styleAug_mean.expand(feat_size)
+    styleAug_fea_vit = postprocessing(cls_fea, styleAug_fea)
+    return styleAug_fea_vit
+
+class ProtoNet(nn.Module):
+    def __init__(self, backbone):
+        super().__init__()
+
+        # bias & scale of cosine classifier
+        self.bias = nn.Parameter(torch.FloatTensor(1).fill_(0), requires_grad=True)
+        self.scale_cls = nn.Parameter(torch.FloatTensor(1).fill_(10), requires_grad=True)
+
+        # backbone
+        self.feature = backbone
+        final_feat_dim = 384
+        self.classifier = nn.Linear(final_feat_dim, 64)
+
+        self.loss_fn = nn.CrossEntropyLoss()
+
+    def cos_classifier(self, w, f):
+        """
+        w.shape = B, nC, d
+        f.shape = B, M, d
+        """
+        f = F.normalize(f, p=2, dim=f.dim()-1, eps=1e-12)
+        w = F.normalize(w, p=2, dim=w.dim()-1, eps=1e-12)
+
+        cls_scores = f @ w.transpose(1, 2) # B, M, nC
+        cls_scores = self.scale_cls * (cls_scores + self.bias)
+        return cls_scores
+
+    def forward(self, supp_x, supp_y, x):
+        """
+        supp_x.shape = [B, nSupp, C, H, W]
+        supp_y.shape = [B, nSupp]
+        x.shape = [B, nQry, C, H, W]
+        """
+        num_classes = supp_y.max() + 1 # NOTE: assume B==1
+        B, nSupp, C, H, W = supp_x.shape
+        supp_f = self.feature.forward(supp_x.contiguous().view(-1, C, H, W))
+        supp_f = supp_f.view(B, nSupp, -1)
+        supp_y_1hot = F.one_hot(supp_y, num_classes).transpose(1, 2) # B, nC, nSupp
+
+        # B, nC, nSupp x B, nSupp, d = B, nC, d
+        prototypes = torch.bmm(supp_y_1hot.float(), supp_f)
+        prototypes = prototypes / supp_y_1hot.sum(dim=2, keepdim=True) # NOTE: may div 0 if some classes got 0 images
+
+        feat = self.feature.forward(x.view(-1, C, H, W))
+        feat = feat.view(B, x.shape[1], -1) # B, nQry, d
+
+        logits = self.cos_classifier(prototypes, feat) # B, nQry, nC
+        return logits
+
+    def set_statues_of_modules(self, flag):
+      if(flag=='eval'):
+        self.feature.eval()
+        self.classifier.eval()
+        #self.scale_cls.eval()
+        #self.bias.eval()
+      elif(flag=='train'):
+        self.feature.train()
+        self.classifier.train()
+        #self.scale_cls.train()
+        #self.bias.train()
+      return
+
+
+    def forward_protonet(self, episode_f,supp_y, B, nSupp, nQuery, num_classes):
+        #print('episode_f:', episode_f.size())
+        episode_f = episode_f.view(num_classes, nSupp + nQuery, -1)
+        #print('episode_f:', episode_f.size())
+        fea_dim = episode_f.size()[-1]
+        supp_f = episode_f[:, :nSupp, :].contiguous().view(-1, fea_dim).unsqueeze(0)
+        query_f = episode_f[:, nSupp:, :].contiguous().view(-1, fea_dim).unsqueeze(0)
+        supp_y_1hot = F.one_hot(supp_y, num_classes).transpose(1, 2) # B, nC, nSupp
+        # B, nC, nSupp x B, nSupp, d = B, nC, d
+        prototypes = torch.bmm(supp_y_1hot.float(), supp_f)
+        prototypes = prototypes / supp_y_1hot.sum(dim=2, keepdim=True) # NOTE: may div 0 if some classes got 0 images
+        logits = self.cos_classifier(prototypes, query_f) # B, nQry, nC
+        return logits
+
+    def adversarial_attack_Incre(self, x_ori, y_ori, epsilon_list):
+      x_ori = x_ori.cuda()
+      y_ori = y_ori.cuda()
+      x_size = x_ori.size()
+      x_ori = x_ori.view(x_size[0]*x_size[1], x_size[2], x_size[3], x_size[4])
+      y_ori = y_ori.view(x_size[0]*x_size[1])
+
+      # if not adv, set defalut = 'None'
+      adv_style_mean_block1, adv_style_std_block1 = 'None', 'None'
+      adv_style_mean_block2, adv_style_std_block2 = 'None', 'None'
+      adv_style_mean_block3, adv_style_std_block3 = 'None', 'None'
+
+      # forward and set the grad = True
+      blocklist = 'block123'
+
+      if('1' in blocklist and epsilon_list[0] != 0 ):
+        x_ori_block1 = self.feature.forward_block1(x_ori)
+        x_ori_block1_cls, x_ori_block1_P = preprocessing(x_ori_block1)
+        feat_size_block1 = x_ori_block1_P.size()
+        #print('x_ori_block1:', x_ori_block1.size(), x_ori_block1_P.size())
+        ori_style_mean_block1, ori_style_std_block1 = calc_mean_std(x_ori_block1_P)
+        # set them as learnable parameters
+        ori_style_mean_block1  = torch.nn.Parameter(ori_style_mean_block1)
+        ori_style_std_block1 = torch.nn.Parameter(ori_style_std_block1)
+        ori_style_mean_block1.requires_grad_()
+        ori_style_std_block1.requires_grad_()
+        # contain ori_style_mean_block1 in the graph 
+        x_normalized_block1 = (x_ori_block1_P - ori_style_mean_block1.detach().expand(feat_size_block1)) / ori_style_std_block1.detach().expand(feat_size_block1)
+        x_ori_block1_P = x_normalized_block1 * ori_style_std_block1.expand(feat_size_block1) + ori_style_mean_block1.expand(feat_size_block1)
+        x_ori_block1 = postprocessing(x_ori_block1_cls, x_ori_block1_P)
+        #print('x_ori_block1:', x_ori_block1.size())
+
+        # pass the rest model
+        x_ori_block2 = self.feature.forward_block2(x_ori_block1)
+        x_ori_block3 = self.feature.forward_block3(x_ori_block2)
+        x_ori_block4 = self.feature.forward_block4(x_ori_block3)
+        x_ori_fea = self.feature.forward_rest(x_ori_block4)
+        x_ori_output = self.classifier.forward(x_ori_fea)
+
+        # calculate initial pred, loss and acc
+        ori_pred = x_ori_output.max(1, keepdim=True)[1]
+        ori_loss = self.loss_fn(x_ori_output, y_ori)
+        ori_acc = (ori_pred == y_ori).type(torch.float).sum().item() / y_ori.size()[0]
+
+        # zero all the existing gradients
+        self.feature.zero_grad()
+        self.classifier.zero_grad()
+
+        # backward loss
+        ori_loss.backward()
+
+        # collect datagrad
+        grad_ori_style_mean_block1 = ori_style_mean_block1.grad.detach()
+        grad_ori_style_std_block1 = ori_style_std_block1.grad.detach()
+
+        # fgsm style attack
+        index = torch.randint(0, len(epsilon_list), (1, ))[0]
+        epsilon = epsilon_list[index]
+
+        adv_style_mean_block1 = fgsm_attack(ori_style_mean_block1, epsilon, grad_ori_style_mean_block1)
+        adv_style_std_block1 = fgsm_attack(ori_style_std_block1, epsilon, grad_ori_style_std_block1)
+
+      # add zero_grad
+      self.feature.zero_grad()
+      self.classifier.zero_grad()
+
+      if('2' in blocklist and epsilon_list[1] != 0):
+        x_ori_block1 = self.feature.forward_block1(x_ori)
+        # update adv_block1
+        x_adv_block1 = changeNewAdvStyle_ViT(x_ori_block1, adv_style_mean_block1, adv_style_std_block1, p_thred=0)
+        # forward block2
+        x_ori_block2 = self.feature.forward_block2(x_adv_block1)
+        # calculate mean and std
+        x_ori_block2_cls , x_ori_block2_P = preprocessing(x_ori_block2)
+        feat_size_block2 = x_ori_block2_P.size()
+        ori_style_mean_block2, ori_style_std_block2 = calc_mean_std(x_ori_block2_P)
+        # set them as learnable parameters
+        ori_style_mean_block2  = torch.nn.Parameter(ori_style_mean_block2)
+        ori_style_std_block2 = torch.nn.Parameter(ori_style_std_block2)
+        ori_style_mean_block2.requires_grad_()
+        ori_style_std_block2.requires_grad_()
+        # contain ori_style_mean_block1 in the graph 
+        x_normalized_block2 = (x_ori_block2_P - ori_style_mean_block2.detach().expand(feat_size_block2)) / ori_style_std_block2.detach().expand(feat_size_block2)
+        x_ori_block2_P = x_normalized_block2 * ori_style_std_block2.expand(feat_size_block2) + ori_style_mean_block2.expand(feat_size_block2)
+        x_ori_block2 = postprocessing(x_ori_block2_cls, x_ori_block2_P)
+        # pass the rest model
+        x_ori_block3 = self.feature.forward_block3(x_ori_block2)
+        x_ori_block4 = self.feature.forward_block4(x_ori_block3)
+        x_ori_fea = self.feature.forward_rest(x_ori_block4)
+        x_ori_output = self.classifier.forward(x_ori_fea)
+        # calculate initial pred, loss and acc
+        ori_pred = x_ori_output.max(1, keepdim=True)[1]
+        ori_loss = self.loss_fn(x_ori_output, y_ori)
+        ori_acc = (ori_pred == y_ori).type(torch.float).sum().item() / y_ori.size()[0]
+        #print('ori_pred:', ori_pred, 'ori_loss:', ori_loss, 'ori_acc:', ori_acc)
+        # zero all the existing gradients
+        self.feature.zero_grad()
+        self.classifier.zero_grad()
+        # backward loss
+        ori_loss.backward()
+        # collect datagrad
+        grad_ori_style_mean_block2 = ori_style_mean_block2.grad.detach()
+        grad_ori_style_std_block2 = ori_style_std_block2.grad.detach()
+        # fgsm style attack
+        index = torch.randint(0, len(epsilon_list), (1, ))[0]
+        epsilon = epsilon_list[index]
+        adv_style_mean_block2 = fgsm_attack(ori_style_mean_block2, epsilon, grad_ori_style_mean_block2)
+        adv_style_std_block2 = fgsm_attack(ori_style_std_block2, epsilon, grad_ori_style_std_block2)
+        #print('adv_style_mean_block2:', adv_style_mean_block2.size(), 'adv_style_std_block2:', adv_style_std_block2.size()) 
+
+      # add zero_grad
+      self.feature.zero_grad()
+      self.classifier.zero_grad()
+
+      if('3' in blocklist and epsilon_list[2] != 0):
+        x_ori_block1 = self.feature.forward_block1(x_ori)
+        x_adv_block1 = changeNewAdvStyle_ViT(x_ori_block1, adv_style_mean_block1, adv_style_std_block1, p_thred=0)
+        x_ori_block2 = self.feature.forward_block2(x_adv_block1)
+        x_adv_block2 = changeNewAdvStyle_ViT(x_ori_block2, adv_style_mean_block2, adv_style_std_block2, p_thred=0)
+        x_ori_block3 = self.feature.forward_block3(x_adv_block2)
+        x_ori_block3_cls, x_ori_block3_P = preprocessing(x_ori_block3)
+        # calculate mean and std
+        feat_size_block3 = x_ori_block3_P.size()
+        ori_style_mean_block3, ori_style_std_block3 = calc_mean_std(x_ori_block3_P)
+        # set them as learnable parameters
+        ori_style_mean_block3  = torch.nn.Parameter(ori_style_mean_block3)
+        ori_style_std_block3 = torch.nn.Parameter(ori_style_std_block3)
+        ori_style_mean_block3.requires_grad_()
+        ori_style_std_block3.requires_grad_()
+        # contain ori_style_mean_block3 in the graph 
+        x_normalized_block3 = (x_ori_block3_P - ori_style_mean_block3.detach().expand(feat_size_block3)) / ori_style_std_block3.detach().expand(feat_size_block3)
+        x_ori_block3_P = x_normalized_block3 * ori_style_std_block3.expand(feat_size_block3) + ori_style_mean_block3.expand(feat_size_block3)
+        x_ori_block3 = postprocessing(x_ori_block3_cls, x_ori_block3_P)
+        # pass the rest model
+        x_ori_block4 = self.feature.forward_block4(x_ori_block3)
+        x_ori_fea = self.feature.forward_rest(x_ori_block4)
+        x_ori_output = self.classifier.forward(x_ori_fea)
+        # calculate initial pred, loss and acc
+        ori_pred = x_ori_output.max(1, keepdim=True)[1]
+        ori_loss = self.loss_fn(x_ori_output, y_ori)
+        ori_acc = (ori_pred == y_ori).type(torch.float).sum().item() / y_ori.size()[0]
+        # zero all the existing gradients
+        self.feature.zero_grad()
+        self.classifier.zero_grad()
+        # backward loss
+        ori_loss.backward()
+        # collect datagrad
+        grad_ori_style_mean_block3 = ori_style_mean_block3.grad.detach()
+        grad_ori_style_std_block3 = ori_style_std_block3.grad.detach()
+        # fgsm style attack
+        index = torch.randint(0, len(epsilon_list), (1, ))[0]
+        epsilon = epsilon_list[index]
+        adv_style_mean_block3 = fgsm_attack(ori_style_mean_block3, epsilon, grad_ori_style_mean_block3)
+        adv_style_std_block3 = fgsm_attack(ori_style_std_block3, epsilon, grad_ori_style_std_block3)
+      return adv_style_mean_block1, adv_style_std_block1, adv_style_mean_block2, adv_style_std_block2, adv_style_mean_block3, adv_style_std_block3
+
+
+
+
+    def set_forward_loss_StyAdv(self, SupportTensor,QueryTensor,SupportLabel, QueryLabel, GlobalID_S,GlobalID_Q, epsilon_list):
+        ##################################################################
+        '''
+        supp_x.shape = [B, nSupp, C, H, W]
+        supp_y.shape = [B, nSupp]
+        x.shape = [B, nQry, C, H, W]
+
+        # to tacke the input data
+        x_ori: [5, 21, 3, 224, 224], global_y: [5, 21]
+        '''
+        # to resize as x_ori: torch.Size([5, 21, 3, 224, 224]) global_y: torch.Size([5, 21])
+        B = SupportTensor.size()[0]
+        num_classes = SupportLabel.max() + 1 # NOTE: assume B==1 
+        SupportTensor = SupportTensor.squeeze().view(num_classes, -1, 3, 224, 224)
+        QueryTensor = QueryTensor.squeeze().view(num_classes, -1, 3, 224, 224)
+        nSupp = SupportTensor.size()[1]
+        nQuery = QueryTensor.size()[1]
+        
+        x_ori = torch.cat((SupportTensor, QueryTensor), dim=1)
+        global_y = torch.cat((GlobalID_S.view(num_classes, nSupp), GlobalID_Q.view(num_classes, nQuery)), dim=1)
+        #print('x_ori:', x_ori.size(), 'global_y:', global_y.size())
+        ##################################################################
+
+        # 0. first cp x_adv from x_ori
+        x_adv = x_ori
+
+        # 1. styleAdv
+        self.set_statues_of_modules('eval')
+        adv_style_mean_block1, adv_style_std_block1, adv_style_mean_block2, adv_style_std_block2, adv_style_mean_block3, adv_style_std_block3 = self.adversarial_attack_Incre(x_ori, global_y, epsilon_list)
+        self.feature.zero_grad()
+        self.classifier.zero_grad()
+           
+        # 2. forward and get loss
+        self.set_statues_of_modules('train')
+        x_ori = x_ori.cuda()
+        x_size = x_ori.size()
+        x_ori = x_ori.view(num_classes*(nSupp+nQuery), 3, 224, 224)
+        global_y = global_y.view(num_classes*(nSupp+nQuery)).cuda()
+        x_ori_block1 = self.feature.forward_block1(x_ori)
+        x_ori_block2 = self.feature.forward_block2(x_ori_block1)
+        x_ori_block3 = self.feature.forward_block3(x_ori_block2)
+        x_ori_block4 = self.feature.forward_block4(x_ori_block3)
+        x_ori_fea = self.feature.forward_rest(x_ori_block4)
+
+        # 3. ori cls global loss    
+        scores_cls_ori = self.classifier.forward(x_ori_fea)
+        loss_cls_ori = self.loss_fn(scores_cls_ori, global_y)
+
+        # 4. ori FSL scores and losses
+        scores_fsl_ori = self.forward_protonet(x_ori_fea, SupportLabel,B, nSupp, nQuery, num_classes)
+        scores_fsl_ori = scores_fsl_ori.view(num_classes*nQuery, -1)
+        QueryLabel = QueryLabel.view(-1)
+        loss_fsl_ori = self.loss_fn(scores_fsl_ori, QueryLabel)
+      
+        # 5. forward StyleAdv
+        x_adv = x_adv.cuda()
+        x_adv = x_adv.view(x_size[0]*x_size[1], x_size[2], x_size[3], x_size[4])
+        x_adv_block1 = self.feature.forward_block1(x_adv)
+        x_adv_block1_newStyle = changeNewAdvStyle_ViT(x_adv_block1, adv_style_mean_block1, adv_style_std_block1, p_thred = P_THRED)
+        x_adv_block2 = self.feature.forward_block2(x_adv_block1_newStyle)
+        x_adv_block2_newStyle = changeNewAdvStyle_ViT(x_adv_block2, adv_style_mean_block2, adv_style_std_block2, p_thred = P_THRED)
+        x_adv_block3 = self.feature.forward_block3(x_adv_block2_newStyle)
+        x_adv_block3_newStyle = changeNewAdvStyle_ViT(x_adv_block3, adv_style_mean_block3, adv_style_std_block3, p_thred = P_THRED)
+        x_adv_block4 = self.feature.forward_block4(x_adv_block3_newStyle)
+        x_adv_fea = self.feature.forward_rest(x_adv_block4)
+
+        # 6. adv cls gloabl loss
+        scores_cls_adv = self.classifier.forward(x_adv_fea)
+        loss_cls_adv = self.loss_fn(scores_cls_adv, global_y)
+  
+        # 7. adv FSL scores and losses
+        scores_fsl_adv = self.forward_protonet(x_adv_fea, SupportLabel,B, nSupp, nQuery, num_classes)
+        scores_fsl_adv = scores_fsl_adv.view(num_classes*nQuery, -1)
+        loss_fsl_adv = self.loss_fn(scores_fsl_adv, QueryLabel)
+             
+        return scores_fsl_ori, loss_fsl_ori, scores_cls_ori, loss_cls_ori, scores_fsl_adv, loss_fsl_adv, scores_cls_adv, loss_cls_adv
+
+
diff --git a/methods/ViT.py b/methods/ViT.py
new file mode 100644
index 0000000000000000000000000000000000000000..b58099e1dddea9d1ae4de4f9e678864e655ab277
--- /dev/null
+++ b/methods/ViT.py
@@ -0,0 +1,284 @@
+import torch
+import torch.nn as nn
+
+import math
+from functools import partial
+from .model_utils import trunc_normal_
+
+
+def drop_path(x, drop_prob: float = 0., training: bool = False):
+    if drop_prob == 0. or not training:
+        return x
+    keep_prob = 1 - drop_prob
+    shape = (x.shape[0],) + (1,) * (x.ndim - 1)  # work with diff dim tensors, not just 2D ConvNets
+    random_tensor = keep_prob + torch.rand(shape, dtype=x.dtype, device=x.device)
+    random_tensor.floor_()  # binarize
+    output = x.div(keep_prob) * random_tensor
+    return output
+
+
+class DropPath(nn.Module):
+    """Drop paths (Stochastic Depth) per sample  (when applied in main path of residual blocks).
+    """
+    def __init__(self, drop_prob=None):
+        super(DropPath, self).__init__()
+        self.drop_prob = drop_prob
+
+    def forward(self, x):
+        return drop_path(x, self.drop_prob, self.training)
+
+
+class Mlp(nn.Module):
+    def __init__(self, in_features, hidden_features=None, out_features=None, act_layer=nn.GELU, drop=0.):
+        super().__init__()
+        out_features = out_features or in_features
+        hidden_features = hidden_features or in_features
+        self.fc1 = nn.Linear(in_features, hidden_features)
+        self.act = act_layer()
+        self.fc2 = nn.Linear(hidden_features, out_features)
+        self.drop = nn.Dropout(drop)
+
+    def forward(self, x):
+        x = self.fc1(x)
+        x = self.act(x)
+        x = self.drop(x)
+        x = self.fc2(x)
+        x = self.drop(x)
+        return x
+
+
+class Attention(nn.Module):
+    def __init__(self, dim, num_heads=8, qkv_bias=False, qk_scale=None, attn_drop=0., proj_drop=0.):
+        super().__init__()
+        self.num_heads = num_heads
+        head_dim = dim // num_heads
+        self.scale = qk_scale or head_dim ** -0.5
+
+        self.qkv = nn.Linear(dim, dim * 3, bias=qkv_bias)
+        self.attn_drop = nn.Dropout(attn_drop)
+        self.proj = nn.Linear(dim, dim)
+        self.proj_drop = nn.Dropout(proj_drop)
+
+    def forward(self, x):
+        B, N, C = x.shape
+        qkv = self.qkv(x).reshape(B, N, 3, self.num_heads, C // self.num_heads).permute(2, 0, 3, 1, 4)
+        q, k, v = qkv[0], qkv[1], qkv[2]
+
+        attn = (q @ k.transpose(-2, -1)) * self.scale
+        attn = attn.softmax(dim=-1)
+        attn = self.attn_drop(attn)
+
+        x = (attn @ v).transpose(1, 2).reshape(B, N, C)
+        x = self.proj(x)
+        x = self.proj_drop(x)
+        return x, attn
+
+
+class Block(nn.Module):
+    def __init__(self, dim, num_heads, mlp_ratio=4., qkv_bias=False, qk_scale=None, drop=0., attn_drop=0.,
+                 drop_path=0., act_layer=nn.GELU, norm_layer=nn.LayerNorm):
+        super().__init__()
+        self.norm1 = norm_layer(dim)
+        self.attn = Attention(
+            dim, num_heads=num_heads, qkv_bias=qkv_bias, qk_scale=qk_scale, attn_drop=attn_drop, proj_drop=drop)
+        self.drop_path = DropPath(drop_path) if drop_path > 0. else nn.Identity()
+        self.norm2 = norm_layer(dim)
+        mlp_hidden_dim = int(dim * mlp_ratio)
+        self.mlp = Mlp(in_features=dim, hidden_features=mlp_hidden_dim, act_layer=act_layer, drop=drop)
+
+    def forward(self, x, return_attention=False):
+        y, attn = self.attn(self.norm1(x))
+        if return_attention:
+            return attn
+        x = x + self.drop_path(y)
+        x = x + self.drop_path(self.mlp(self.norm2(x)))
+        return x
+
+
+class PatchEmbed(nn.Module):
+    """ Image to Patch Embedding
+    """
+    def __init__(self, img_size=224, patch_size=16, in_chans=3, embed_dim=768):
+        super().__init__()
+        num_patches = (img_size // patch_size) * (img_size // patch_size)
+        self.img_size = img_size
+        self.patch_size = patch_size
+        self.num_patches = num_patches
+
+        self.proj = nn.Conv2d(in_chans, embed_dim, kernel_size=patch_size, stride=patch_size)
+
+    def forward(self, x):
+        B, C, H, W = x.shape
+        x = self.proj(x).flatten(2).transpose(1, 2)
+        return x
+
+
+class VisionTransformer(nn.Module):
+    """ Vision Transformer """
+    def __init__(self, img_size=[224], patch_size=16, in_chans=3, num_classes=0, embed_dim=768, depth=12,
+                 num_heads=12, mlp_ratio=4., qkv_bias=False, qk_scale=None, drop_rate=0., attn_drop_rate=0.,
+                 drop_path_rate=0., norm_layer=nn.LayerNorm, **kwargs):
+        super().__init__()
+        self.num_features = self.embed_dim = embed_dim
+
+        self.patch_embed = PatchEmbed(
+            img_size=img_size[0], patch_size=patch_size, in_chans=in_chans, embed_dim=embed_dim)
+        num_patches = self.patch_embed.num_patches
+
+        self.cls_token = nn.Parameter(torch.zeros(1, 1, embed_dim))
+        self.pos_embed = nn.Parameter(torch.zeros(1, num_patches + 1, embed_dim))
+        self.pos_drop = nn.Dropout(p=drop_rate)
+
+        dpr = [x.item() for x in torch.linspace(0, drop_path_rate, depth)]  # stochastic depth decay rule
+        self.blocks = nn.ModuleList([
+            Block(
+                dim=embed_dim, num_heads=num_heads, mlp_ratio=mlp_ratio, qkv_bias=qkv_bias, qk_scale=qk_scale,
+                drop=drop_rate, attn_drop=attn_drop_rate, drop_path=dpr[i], norm_layer=norm_layer)
+            for i in range(depth)])
+        self.norm = norm_layer(embed_dim)
+
+        # Classifier head
+        self.head = nn.Linear(embed_dim, num_classes) if num_classes > 0 else nn.Identity()
+
+        trunc_normal_(self.pos_embed, std=.02)
+        trunc_normal_(self.cls_token, std=.02)
+        self.apply(self._init_weights)
+
+    def _init_weights(self, m):
+        if isinstance(m, nn.Linear):
+            trunc_normal_(m.weight, std=.02)
+            if isinstance(m, nn.Linear) and m.bias is not None:
+                nn.init.constant_(m.bias, 0)
+        elif isinstance(m, nn.LayerNorm):
+            nn.init.constant_(m.bias, 0)
+            nn.init.constant_(m.weight, 1.0)
+
+    def interpolate_pos_encoding(self, x, w, h):
+        npatch = x.shape[1] - 1
+        N = self.pos_embed.shape[1] - 1
+        if npatch == N and w == h:
+            return self.pos_embed
+        class_pos_embed = self.pos_embed[:, 0]
+        patch_pos_embed = self.pos_embed[:, 1:]
+        dim = x.shape[-1]
+        w0 = w // self.patch_embed.patch_size
+        h0 = h // self.patch_embed.patch_size
+        # we add a small number to avoid floating point error in the interpolation
+        # see discussion at https://github.com/facebookresearch/dino/issues/8
+        w0, h0 = w0 + 0.1, h0 + 0.1
+        patch_pos_embed = nn.functional.interpolate(
+            patch_pos_embed.reshape(1, int(math.sqrt(N)), int(math.sqrt(N)), dim).permute(0, 3, 1, 2),
+            scale_factor=(w0 / math.sqrt(N), h0 / math.sqrt(N)),
+            mode='bicubic',
+            align_corners=False,
+            recompute_scale_factor=False
+        )
+        assert int(w0) == patch_pos_embed.shape[-2] and int(h0) == patch_pos_embed.shape[-1]
+        patch_pos_embed = patch_pos_embed.permute(0, 2, 3, 1).view(1, -1, dim)
+        return torch.cat((class_pos_embed.unsqueeze(0), patch_pos_embed), dim=1)
+
+    def prepare_tokens(self, x, ada_token=None):
+        B, nc, w, h = x.shape
+        x = self.patch_embed(x)  # patch linear embedding
+
+        # add the [CLS] token to the embed patch tokens
+        cls_tokens = self.cls_token.expand(B, -1, -1)
+        x = torch.cat((cls_tokens, x), dim=1)
+
+        # add positional encoding to each token
+        x = x + self.interpolate_pos_encoding(x, w, h)
+
+        if ada_token is not None:
+            ada_tokens = ada_token.expand(B, -1, -1) # B, p, d
+            x = torch.cat((x, ada_tokens), dim=1)
+
+        return self.pos_drop(x)
+
+    def forward(self, x, ada_token=None, use_patches=False):
+        #print('1:', x.size())
+        x = self.prepare_tokens(x, ada_token)
+        #print('2:', x.size())
+        for blk in self.blocks:
+            x = blk(x)
+            #print('blk:', x.size())
+        #print('3:', x.size())
+        x = self.norm(x)
+        #print('x:', x.size())
+
+        if use_patches:
+            return x[:, 1:]
+        else:
+            return x[:, 0]
+
+    def forward_block1(self, x, ada_token=None, use_patches=False):
+        x = self.prepare_tokens(x, ada_token)
+        num_units = len(self.blocks)//4
+        for blk in self.blocks[:num_units]:
+          x = blk(x)
+        return x
+
+    def forward_block2(self, x, ada_token=None, use_patches=False):
+        num_units = len(self.blocks)//4
+        for blk in self.blocks[num_units:2*num_units]:
+          x = blk(x)
+        return x
+
+    def forward_block3(self, x, ada_token=None, use_patches=False):
+        num_units = len(self.blocks)//4
+        for blk in self.blocks[2*num_units:3*num_units]:
+          x = blk(x)
+        return x
+
+    def forward_block4(self, x, ada_token=None, use_patches=False):
+        num_units = len(self.blocks)//4
+        for blk in self.blocks[3*num_units:]:
+          x = blk(x)
+        return x
+
+    def forward_rest(self, x, ada_token=None, use_patches=False):
+        x = self.norm(x)
+        if use_patches:
+            return x[:, 1:]
+        else:
+            return x[:, 0]
+
+
+    def get_last_selfattention(self, x):
+        x = self.prepare_tokens(x)
+        for i, blk in enumerate(self.blocks):
+            if i < len(self.blocks) - 1:
+                x = blk(x)
+            else:
+                # return attention of the last block
+                return blk(x, return_attention=True)
+
+    def get_intermediate_layers(self, x, n=1):
+        x = self.prepare_tokens(x)
+        # we return the output tokens from the `n` last blocks
+        output = []
+        for i, blk in enumerate(self.blocks):
+            x = blk(x)
+            if len(self.blocks) - i <= n:
+                output.append(self.norm(x))
+        return output
+
+
+def vit_tiny(patch_size=16, **kwargs):
+    model = VisionTransformer(
+        patch_size=patch_size, embed_dim=192, depth=12, num_heads=3, mlp_ratio=4,
+        qkv_bias=True, norm_layer=partial(nn.LayerNorm, eps=1e-6), **kwargs)
+    return model
+
+
+def vit_small(patch_size=16, **kwargs):
+    model = VisionTransformer(
+        patch_size=patch_size, embed_dim=384, depth=12, num_heads=6, mlp_ratio=4,
+        qkv_bias=True, norm_layer=partial(nn.LayerNorm, eps=1e-6), **kwargs)
+    return model
+
+
+def vit_base(patch_size=16, **kwargs):
+    model = VisionTransformer(
+        patch_size=patch_size, embed_dim=768, depth=12, num_heads=12, mlp_ratio=4,
+        qkv_bias=True, norm_layer=partial(nn.LayerNorm, eps=1e-6), **kwargs)
+    return model
diff --git a/methods/backbone.py b/methods/backbone.py
new file mode 100644
index 0000000000000000000000000000000000000000..c82eb6508cf25032dcaa3942ce847b82097b40af
--- /dev/null
+++ b/methods/backbone.py
@@ -0,0 +1,465 @@
+# This code is modified from https://github.com/facebookresearch/low-shot-shrink-hallucinate
+
+import torch
+import torch.nn as nn
+import math
+import torch.nn.functional as F
+from torch.nn.utils import weight_norm
+
+# --- gaussian initialize ---
+def init_layer(L):
+  # Initialization using fan-in
+  if isinstance(L, nn.Conv2d):
+    n = L.kernel_size[0]*L.kernel_size[1]*L.out_channels
+    L.weight.data.normal_(0,math.sqrt(2.0/float(n)))
+  elif isinstance(L, nn.BatchNorm2d):
+    L.weight.data.fill_(1)
+    L.bias.data.fill_(0)
+
+class distLinear(nn.Module):
+  def __init__(self, indim, outdim):
+    super(distLinear, self).__init__()
+    self.L = weight_norm(nn.Linear(indim, outdim, bias=False), name='weight', dim=0)
+    self.relu = nn.ReLU()
+
+  def forward(self, x):
+    x_norm = torch.norm(x, p=2, dim =1).unsqueeze(1).expand_as(x)
+    x_normalized = x.div(x_norm + 0.00001)
+    L_norm = torch.norm(self.L.weight.data, p=2, dim =1).unsqueeze(1).expand_as(self.L.weight.data)
+    self.L.weight.data = self.L.weight.data.div(L_norm + 0.00001)
+    cos_dist = self.L(x_normalized)
+    scores = 10 * cos_dist
+    return scores
+
+# --- flatten tensor ---
+class Flatten(nn.Module):
+  def __init__(self):
+    super(Flatten, self).__init__()
+
+  def forward(self, x):
+    return x.view(x.size(0), -1)
+
+# --- LSTMCell module for matchingnet ---
+class LSTMCell(nn.Module):
+  maml = False
+  def __init__(self, input_size, hidden_size, bias=True):
+    super(LSTMCell, self).__init__()
+    self.input_size = input_size
+    self.hidden_size = hidden_size
+    self.bias = bias
+    if self.maml:
+      self.x2h = Linear_fw(input_size, 4 * hidden_size, bias=bias)
+      self.h2h = Linear_fw(hidden_size, 4 * hidden_size, bias=bias)
+    else:
+      self.x2h = nn.Linear(input_size, 4 * hidden_size, bias=bias)
+      self.h2h = nn.Linear(hidden_size, 4 * hidden_size, bias=bias)
+    self.reset_parameters()
+
+  def reset_parameters(self):
+    std = 1.0 / math.sqrt(self.hidden_size)
+    for w in self.parameters():
+      w.data.uniform_(-std, std)
+
+  def forward(self, x, hidden=None):
+    if hidden is None:
+      hx = torch.zeors_like(x)
+      cx = torch.zeros_like(x)
+    else:
+      hx, cx = hidden
+
+    gates = self.x2h(x) + self.h2h(hx)
+    ingate, forgetgate, cellgate, outgate = torch.split(gates, self.hidden_size, dim=1)
+
+    ingate = torch.sigmoid(ingate)
+    forgetgate = torch.sigmoid(forgetgate)
+    cellgate = torch.tanh(cellgate)
+    outgate = torch.sigmoid(outgate)
+
+    cy = torch.mul(cx, forgetgate) +  torch.mul(ingate, cellgate)
+    hy = torch.mul(outgate, torch.tanh(cy))
+    return (hy, cy)
+
+# --- LSTM module for matchingnet ---
+class LSTM(nn.Module):
+  def __init__(self, input_size, hidden_size, num_layers=1, bias=True, batch_first=False, bidirectional=False):
+    super(LSTM, self).__init__()
+
+    self.input_size = input_size
+    self.hidden_size = hidden_size
+    self.num_layers = num_layers
+    self.bias = bias
+    self.batch_first = batch_first
+    self.num_directions = 2 if bidirectional else 1
+    assert(self.num_layers == 1)
+
+    self.lstm = LSTMCell(input_size, hidden_size, self.bias)
+
+  def forward(self, x, hidden=None):
+    # swap axis if batch first
+    if self.batch_first:
+      x = x.permute(1, 0 ,2)
+
+    # hidden state
+    if hidden is None:
+      h0 = torch.zeros(self.num_directions, x.size(1), self.hidden_size, dtype=x.dtype, device=x.device)
+      c0 = torch.zeros(self.num_directions, x.size(1), self.hidden_size, dtype=x.dtype, device=x.device)
+    else:
+      h0, c0 = hidden
+
+    # forward
+    outs = []
+    hn = h0[0]
+    cn = c0[0]
+    for seq in range(x.size(0)):
+      hn, cn = self.lstm(x[seq], (hn, cn))
+      outs.append(hn.unsqueeze(0))
+    outs = torch.cat(outs, dim=0)
+
+    # reverse foward
+    if self.num_directions == 2:
+      outs_reverse = []
+      hn = h0[1]
+      cn = c0[1]
+      for seq in range(x.size(0)):
+        seq = x.size(1) - 1 - seq
+        hn, cn = self.lstm(x[seq], (hn, cn))
+        outs_reverse.append(hn.unsqueeze(0))
+      outs_reverse = torch.cat(outs_reverse, dim=0)
+      outs = torch.cat([outs, outs_reverse], dim=2)
+
+    # swap axis if batch first
+    if self.batch_first:
+      outs = outs.permute(1, 0, 2)
+    return outs
+
+# --- Linear module ---
+class Linear_fw(nn.Linear): #used in MAML to forward input with fast weight
+  def __init__(self, in_features, out_features, bias=True):
+    super(Linear_fw, self).__init__(in_features, out_features, bias=bias)
+    self.weight.fast = None #Lazy hack to add fast weight link
+    self.bias.fast = None
+
+  def forward(self, x):
+    if self.weight.fast is not None and self.bias.fast is not None:
+      out = F.linear(x, self.weight.fast, self.bias.fast)
+    else:
+      out = super(Linear_fw, self).forward(x)
+    return out
+
+# --- Conv2d module ---
+class Conv2d_fw(nn.Conv2d): #used in MAML to forward input with fast weight
+  def __init__(self, in_channels, out_channels, kernel_size, stride=1,padding=0, bias = True):
+    super(Conv2d_fw, self).__init__(in_channels, out_channels, kernel_size, stride=stride, padding=padding, bias=bias)
+    self.weight.fast = None
+    if not self.bias is None:
+      self.bias.fast = None
+
+  def forward(self, x):
+    if self.bias is None:
+      if self.weight.fast is not None:
+        out = F.conv2d(x, self.weight.fast, None, stride= self.stride, padding=self.padding)
+      else:
+        out = super(Conv2d_fw, self).forward(x)
+    else:
+      if self.weight.fast is not None and self.bias.fast is not None:
+        out = F.conv2d(x, self.weight.fast, self.bias.fast, stride= self.stride, padding=self.padding)
+      else:
+        out = super(Conv2d_fw, self).forward(x)
+    return out
+
+# --- softplus module ---
+def softplus(x):
+  return torch.nn.functional.softplus(x, beta=100)
+
+# --- feature-wise transformation layer ---
+class FeatureWiseTransformation2d_fw(nn.BatchNorm2d):
+  feature_augment = False
+  def __init__(self, num_features, momentum=0.1, track_running_stats=True):
+    super(FeatureWiseTransformation2d_fw, self).__init__(num_features, momentum=momentum, track_running_stats=track_running_stats)
+    self.weight.fast = None
+    self.bias.fast = None
+    if self.track_running_stats:
+      self.register_buffer('running_mean', torch.zeros(num_features))
+      self.register_buffer('running_var', torch.zeros(num_features))
+    if self.feature_augment: # initialize {gamma, beta} with {0.3, 0.5}
+      self.gamma = torch.nn.Parameter(torch.ones(1, num_features, 1, 1)*0.3)
+      self.beta  = torch.nn.Parameter(torch.ones(1, num_features, 1, 1)*0.5)
+    self.reset_parameters()
+
+  def reset_running_stats(self):
+    if self.track_running_stats:
+      self.running_mean.zero_()
+      self.running_var.fill_(1)
+
+  def forward(self, x, step=0):
+    if self.weight.fast is not None and self.bias.fast is not None:
+      weight = self.weight.fast
+      bias = self.bias.fast
+    else:
+      weight = self.weight
+      bias = self.bias
+    if self.track_running_stats:
+      out = F.batch_norm(x, self.running_mean, self.running_var, weight, bias, training=self.training, momentum=self.momentum)
+    else:
+      out = F.batch_norm(x, torch.zeros_like(x), torch.ones_like(x), weight, bias, training=True, momentum=1)
+
+    # apply feature-wise transformation
+    if self.feature_augment and self.training:
+      gamma = (1 + torch.randn(1, self.num_features, 1, 1, dtype=self.gamma.dtype, device=self.gamma.device)*softplus(self.gamma)).expand_as(out)
+      beta = (torch.randn(1, self.num_features, 1, 1, dtype=self.beta.dtype, device=self.beta.device)*softplus(self.beta)).expand_as(out)
+      out = gamma*out + beta
+    return out
+
+# --- BatchNorm2d ---
+class BatchNorm2d_fw(nn.BatchNorm2d):
+  def __init__(self, num_features, momentum=0.1, track_running_stats=True):
+    super(BatchNorm2d_fw, self).__init__(num_features, momentum=momentum, track_running_stats=track_running_stats)
+    self.weight.fast = None
+    self.bias.fast = None
+    if self.track_running_stats:
+      self.register_buffer('running_mean', torch.zeros(num_features))
+      self.register_buffer('running_var', torch.zeros(num_features))
+    self.reset_parameters()
+
+  def reset_running_stats(self):
+    if self.track_running_stats:
+      self.running_mean.zero_()
+      self.running_var.fill_(1)
+
+  def forward(self, x, step=0):
+    if self.weight.fast is not None and self.bias.fast is not None:
+      weight = self.weight.fast
+      bias = self.bias.fast
+    else:
+      weight = self.weight
+      bias = self.bias
+    if self.track_running_stats:
+      out = F.batch_norm(x, self.running_mean, self.running_var, weight, bias, training=self.training, momentum=self.momentum)
+    else:
+      out = F.batch_norm(x, torch.zeros(x.size(1), dtype=x.dtype, device=x.device), torch.ones(x.size(1), dtype=x.dtype, device=x.device), weight, bias, training=True, momentum=1)
+    return out
+
+# --- BatchNorm1d ---
+class BatchNorm1d_fw(nn.BatchNorm1d):
+  def __init__(self, num_features, momentum=0.1, track_running_stats=True):
+    super(BatchNorm1d_fw, self).__init__(num_features, momentum=momentum, track_running_stats=track_running_stats)
+    self.weight.fast = None
+    self.bias.fast = None
+    if self.track_running_stats:
+      self.register_buffer('running_mean', torch.zeros(num_features))
+      self.register_buffer('running_var', torch.zeros(num_features))
+    self.reset_parameters()
+
+  def reset_running_stats(self):
+    if self.track_running_stats:
+      self.running_mean.zero_()
+      self.running_var.fill_(1)
+
+  def forward(self, x, step=0):
+    if self.weight.fast is not None and self.bias.fast is not None:
+      weight = self.weight.fast
+      bias = self.bias.fast
+    else:
+      weight = self.weight
+      bias = self.bias
+    if self.track_running_stats:
+      out = F.batch_norm(x, self.running_mean, self.running_var, weight, bias, training=self.training, momentum=self.momentum)
+    else:
+      out = F.batch_norm(x, torch.zeros(x.size(1), dtype=x.dtype, device=x.device), torch.ones(x.size(1), dtype=x.dtype, device=x.device), weight, bias, training=True, momentum=1)
+    return out
+
+# --- Simple Conv Block ---
+class ConvBlock(nn.Module):
+  maml = False
+  def __init__(self, indim, outdim, pool = True, padding = 1):
+    super(ConvBlock, self).__init__()
+    self.indim  = indim
+    self.outdim = outdim
+    if self.maml:
+      self.C = Conv2d_fw(indim, outdim, 3, padding = padding)
+      self.BN = FeatureWiseTransformation2d_fw(outdim)
+    else:
+      self.C = nn.Conv2d(indim, outdim, 3, padding= padding)
+      self.BN = nn.BatchNorm2d(outdim)
+    self.relu = nn.ReLU(inplace=True)
+
+    self.parametrized_layers = [self.C, self.BN, self.relu]
+    if pool:
+      self.pool = nn.MaxPool2d(2)
+      self.parametrized_layers.append(self.pool)
+
+    for layer in self.parametrized_layers:
+      init_layer(layer)
+    self.trunk = nn.Sequential(*self.parametrized_layers)
+
+  def forward(self,x):
+    out = self.trunk(x)
+    return out
+
+# --- Simple ResNet Block ---
+class SimpleBlock(nn.Module):
+  maml = False
+  def __init__(self, indim, outdim, half_res, leaky=False):
+    super(SimpleBlock, self).__init__()
+    self.indim = indim
+    self.outdim = outdim
+    if self.maml:
+      self.C1 = Conv2d_fw(indim, outdim, kernel_size=3, stride=2 if half_res else 1, padding=1, bias=False)
+      self.BN1 = BatchNorm2d_fw(outdim)
+      self.C2 = Conv2d_fw(outdim, outdim,kernel_size=3, padding=1,bias=False)
+      self.BN2 = FeatureWiseTransformation2d_fw(outdim) # feature-wise transformation at the end of each residual block
+    else:
+      self.C1 = nn.Conv2d(indim, outdim, kernel_size=3, stride=2 if half_res else 1, padding=1, bias=False)
+      self.BN1 = nn.BatchNorm2d(outdim)
+      self.C2 = nn.Conv2d(outdim, outdim,kernel_size=3, padding=1,bias=False)
+      self.BN2 = nn.BatchNorm2d(outdim)
+    self.relu1 = nn.ReLU(inplace=True) if not leaky else nn.LeakyReLU(0.2, inplace=True)
+    self.relu2 = nn.ReLU(inplace=True) if not leaky else nn.LeakyReLU(0.2, inplace=True)
+
+    self.parametrized_layers = [self.C1, self.C2, self.BN1, self.BN2]
+
+    self.half_res = half_res
+
+    # if the input number of channels is not equal to the output, then need a 1x1 convolution
+    if indim!=outdim:
+      if self.maml:
+        self.shortcut = Conv2d_fw(indim, outdim, 1, 2 if half_res else 1, bias=False)
+        self.BNshortcut = FeatureWiseTransformation2d_fw(outdim)
+      else:
+        self.shortcut = nn.Conv2d(indim, outdim, 1, 2 if half_res else 1, bias=False)
+        self.BNshortcut = nn.BatchNorm2d(outdim)
+
+      self.parametrized_layers.append(self.shortcut)
+      self.parametrized_layers.append(self.BNshortcut)
+      self.shortcut_type = '1x1'
+    else:
+      self.shortcut_type = 'identity'
+
+    for layer in self.parametrized_layers:
+      init_layer(layer)
+
+  def forward(self, x):
+    out = self.C1(x)
+    out = self.BN1(out)
+    out = self.relu1(out)
+    out = self.C2(out)
+    out = self.BN2(out)
+    short_out = x if self.shortcut_type == 'identity' else self.BNshortcut(self.shortcut(x))
+    out = out + short_out
+    out = self.relu2(out)
+    return out
+
+# --- ConvNet module ---
+class ConvNet(nn.Module):
+  def __init__(self, depth, flatten = True):
+    super(ConvNet,self).__init__()
+    self.grads = []
+    self.fmaps = []
+    trunk = []
+    for i in range(depth):
+      indim = 3 if i == 0 else 64
+      outdim = 64
+      B = ConvBlock(indim, outdim, pool = ( i <4 ) ) #only pooling for fist 4 layers
+      trunk.append(B)
+
+    if flatten:
+      trunk.append(Flatten())
+
+    self.trunk = nn.Sequential(*trunk)
+    self.final_feat_dim = 1600
+
+  def forward(self,x):
+    out = self.trunk(x)
+    return out
+
+# --- ConvNetNopool module ---
+class ConvNetNopool(nn.Module): #Relation net use a 4 layer conv with pooling in only first two layers, else no pooling
+  def __init__(self, depth):
+    super(ConvNetNopool,self).__init__()
+    self.grads = []
+    self.fmaps = []
+    trunk = []
+    for i in range(depth):
+      indim = 3 if i == 0 else 64
+      outdim = 64
+      B = ConvBlock(indim, outdim, pool = ( i in [0,1] ), padding = 0 if i in[0,1] else 1  ) #only first two layer has pooling and no padding
+      trunk.append(B)
+
+    self.trunk = nn.Sequential(*trunk)
+    self.final_feat_dim = [64,19,19]
+
+  def forward(self,x):
+    out = self.trunk(x)
+    return out
+
+# --- ResNet module ---
+class ResNet(nn.Module):
+  maml = False
+  print('backbone:', 'maml:', maml)
+  def __init__(self,block,list_of_num_layers, list_of_out_dims, flatten=True, leakyrelu=False):
+    # list_of_num_layers specifies number of layers in each stage
+    # list_of_out_dims specifies number of output channel for each stage
+    super(ResNet,self).__init__()
+    self.grads = []
+    self.fmaps = []
+    assert len(list_of_num_layers)==4, 'Can have only four stages'
+    if self.maml:
+      conv1 = Conv2d_fw(3, 64, kernel_size=7, stride=2, padding=3, bias=False)
+      bn1 = BatchNorm2d_fw(64)
+    else:
+      conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3, bias=False)
+      bn1 = nn.BatchNorm2d(64)
+
+    relu = nn.ReLU(inplace=True) if not leakyrelu else nn.LeakyReLU(0.2, inplace=True)
+    pool1 = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)
+
+    init_layer(conv1)
+    init_layer(bn1)
+
+    trunk = [conv1, bn1, relu, pool1]
+
+    indim = 64
+    for i in range(4):
+      for j in range(list_of_num_layers[i]):
+        half_res = (i>=1) and (j==0)
+        B = block(indim, list_of_out_dims[i], half_res, leaky=leakyrelu)
+        trunk.append(B)
+        indim = list_of_out_dims[i]
+
+    if flatten:
+      avgpool = nn.AvgPool2d(7)
+      trunk.append(avgpool)
+      trunk.append(Flatten())
+      self.final_feat_dim = indim
+    else:
+      self.final_feat_dim = [ indim, 7, 7]
+
+    self.trunk = nn.Sequential(*trunk)
+
+  def forward(self,x):
+    out = self.trunk(x)
+    return out
+
+# --- Conv networks ---
+def Conv4():
+    return ConvNet(4)
+def Conv6():
+    return ConvNet(6)
+def Conv4NP():
+    return ConvNetNopool(4)
+def Conv6NP():
+    return ConvNetNopool(6)
+
+# --- ResNet networks ---
+def ResNet10(flatten=True, leakyrelu=False):
+    return ResNet(SimpleBlock, [1,1,1,1],[64,128,256,512], flatten, leakyrelu)
+def ResNet18(flatten=True, leakyrelu=False):
+    return ResNet(SimpleBlock, [2,2,2,2],[64,128,256,512], flatten, leakyrelu)
+def ResNet34(flatten=True, leakyrelu=False):
+    return ResNet(SimpleBlock, [3,4,6,3],[64,128,256,512], flatten, leakyrelu)
+
+model_dict = dict(Conv4 = Conv4,
+                  Conv6 = Conv6,
+                  ResNet10 = ResNet10,
+                  ResNet18 = ResNet18,
+                  ResNet34 = ResNet34)
diff --git a/methods/backbone_multiblock.py b/methods/backbone_multiblock.py
new file mode 100644
index 0000000000000000000000000000000000000000..607e2938767a913b24426014be2ea4dd8da2ef9d
--- /dev/null
+++ b/methods/backbone_multiblock.py
@@ -0,0 +1,593 @@
+# This code is modified from https://github.com/facebookresearch/low-shot-shrink-hallucinate
+
+import torch
+import torch.nn as nn
+import math
+import torch.nn.functional as F
+from torch.nn.utils import weight_norm
+
+# --- gaussian initialize ---
+def init_layer(L):
+  # Initialization using fan-in
+  if isinstance(L, nn.Conv2d):
+    n = L.kernel_size[0]*L.kernel_size[1]*L.out_channels
+    L.weight.data.normal_(0,math.sqrt(2.0/float(n)))
+  elif isinstance(L, nn.BatchNorm2d):
+    L.weight.data.fill_(1)
+    L.bias.data.fill_(0)
+
+class distLinear(nn.Module):
+  def __init__(self, indim, outdim):
+    super(distLinear, self).__init__()
+    self.L = weight_norm(nn.Linear(indim, outdim, bias=False), name='weight', dim=0)
+    self.relu = nn.ReLU()
+
+  def forward(self, x):
+    x_norm = torch.norm(x, p=2, dim =1).unsqueeze(1).expand_as(x)
+    x_normalized = x.div(x_norm + 0.00001)
+    L_norm = torch.norm(self.L.weight.data, p=2, dim =1).unsqueeze(1).expand_as(self.L.weight.data)
+    self.L.weight.data = self.L.weight.data.div(L_norm + 0.00001)
+    cos_dist = self.L(x_normalized)
+    scores = 10 * cos_dist
+    return scores
+
+# --- flatten tensor ---
+class Flatten(nn.Module):
+  def __init__(self):
+    super(Flatten, self).__init__()
+
+  def forward(self, x):
+    return x.view(x.size(0), -1)
+
+# --- LSTMCell module for matchingnet ---
+class LSTMCell(nn.Module):
+  maml = False
+  def __init__(self, input_size, hidden_size, bias=True):
+    super(LSTMCell, self).__init__()
+    self.input_size = input_size
+    self.hidden_size = hidden_size
+    self.bias = bias
+    if self.maml:
+      self.x2h = Linear_fw(input_size, 4 * hidden_size, bias=bias)
+      self.h2h = Linear_fw(hidden_size, 4 * hidden_size, bias=bias)
+    else:
+      self.x2h = nn.Linear(input_size, 4 * hidden_size, bias=bias)
+      self.h2h = nn.Linear(hidden_size, 4 * hidden_size, bias=bias)
+    self.reset_parameters()
+
+  def reset_parameters(self):
+    std = 1.0 / math.sqrt(self.hidden_size)
+    for w in self.parameters():
+      w.data.uniform_(-std, std)
+
+  def forward(self, x, hidden=None):
+    if hidden is None:
+      hx = torch.zeors_like(x)
+      cx = torch.zeros_like(x)
+    else:
+      hx, cx = hidden
+
+    gates = self.x2h(x) + self.h2h(hx)
+    ingate, forgetgate, cellgate, outgate = torch.split(gates, self.hidden_size, dim=1)
+
+    ingate = torch.sigmoid(ingate)
+    forgetgate = torch.sigmoid(forgetgate)
+    cellgate = torch.tanh(cellgate)
+    outgate = torch.sigmoid(outgate)
+
+    cy = torch.mul(cx, forgetgate) +  torch.mul(ingate, cellgate)
+    hy = torch.mul(outgate, torch.tanh(cy))
+    return (hy, cy)
+
+# --- LSTM module for matchingnet ---
+class LSTM(nn.Module):
+  def __init__(self, input_size, hidden_size, num_layers=1, bias=True, batch_first=False, bidirectional=False):
+    super(LSTM, self).__init__()
+
+    self.input_size = input_size
+    self.hidden_size = hidden_size
+    self.num_layers = num_layers
+    self.bias = bias
+    self.batch_first = batch_first
+    self.num_directions = 2 if bidirectional else 1
+    assert(self.num_layers == 1)
+
+    self.lstm = LSTMCell(input_size, hidden_size, self.bias)
+
+  def forward(self, x, hidden=None):
+    # swap axis if batch first
+    if self.batch_first:
+      x = x.permute(1, 0 ,2)
+
+    # hidden state
+    if hidden is None:
+      h0 = torch.zeros(self.num_directions, x.size(1), self.hidden_size, dtype=x.dtype, device=x.device)
+      c0 = torch.zeros(self.num_directions, x.size(1), self.hidden_size, dtype=x.dtype, device=x.device)
+    else:
+      h0, c0 = hidden
+
+    # forward
+    outs = []
+    hn = h0[0]
+    cn = c0[0]
+    for seq in range(x.size(0)):
+      hn, cn = self.lstm(x[seq], (hn, cn))
+      outs.append(hn.unsqueeze(0))
+    outs = torch.cat(outs, dim=0)
+
+    # reverse foward
+    if self.num_directions == 2:
+      outs_reverse = []
+      hn = h0[1]
+      cn = c0[1]
+      for seq in range(x.size(0)):
+        seq = x.size(1) - 1 - seq
+        hn, cn = self.lstm(x[seq], (hn, cn))
+        outs_reverse.append(hn.unsqueeze(0))
+      outs_reverse = torch.cat(outs_reverse, dim=0)
+      outs = torch.cat([outs, outs_reverse], dim=2)
+
+    # swap axis if batch first
+    if self.batch_first:
+      outs = outs.permute(1, 0, 2)
+    return outs
+
+# --- Linear module ---
+class Linear_fw(nn.Linear): #used in MAML to forward input with fast weight
+  def __init__(self, in_features, out_features, bias=True):
+    super(Linear_fw, self).__init__(in_features, out_features, bias=bias)
+    self.weight.fast = None #Lazy hack to add fast weight link
+    self.bias.fast = None
+
+  def forward(self, x):
+    if self.weight.fast is not None and self.bias.fast is not None:
+      out = F.linear(x, self.weight.fast, self.bias.fast)
+    else:
+      out = super(Linear_fw, self).forward(x)
+    return out
+
+# --- Conv2d module ---
+class Conv2d_fw(nn.Conv2d): #used in MAML to forward input with fast weight
+  def __init__(self, in_channels, out_channels, kernel_size, stride=1,padding=0, bias = True):
+    super(Conv2d_fw, self).__init__(in_channels, out_channels, kernel_size, stride=stride, padding=padding, bias=bias)
+    self.weight.fast = None
+    if not self.bias is None:
+      self.bias.fast = None
+
+  def forward(self, x):
+    if self.bias is None:
+      if self.weight.fast is not None:
+        out = F.conv2d(x, self.weight.fast, None, stride= self.stride, padding=self.padding)
+      else:
+        out = super(Conv2d_fw, self).forward(x)
+    else:
+      if self.weight.fast is not None and self.bias.fast is not None:
+        out = F.conv2d(x, self.weight.fast, self.bias.fast, stride= self.stride, padding=self.padding)
+      else:
+        out = super(Conv2d_fw, self).forward(x)
+    return out
+
+# --- softplus module ---
+def softplus(x):
+  return torch.nn.functional.softplus(x, beta=100)
+
+# --- feature-wise transformation layer ---
+class FeatureWiseTransformation2d_fw(nn.BatchNorm2d):
+  feature_augment = False
+  def __init__(self, num_features, momentum=0.1, track_running_stats=True):
+    super(FeatureWiseTransformation2d_fw, self).__init__(num_features, momentum=momentum, track_running_stats=track_running_stats)
+    self.weight.fast = None
+    self.bias.fast = None
+    if self.track_running_stats:
+      self.register_buffer('running_mean', torch.zeros(num_features))
+      self.register_buffer('running_var', torch.zeros(num_features))
+    if self.feature_augment: # initialize {gamma, beta} with {0.3, 0.5}
+      self.gamma = torch.nn.Parameter(torch.ones(1, num_features, 1, 1)*0.3)
+      self.beta  = torch.nn.Parameter(torch.ones(1, num_features, 1, 1)*0.5)
+    self.reset_parameters()
+
+  def reset_running_stats(self):
+    if self.track_running_stats:
+      self.running_mean.zero_()
+      self.running_var.fill_(1)
+
+  def forward(self, x, step=0):
+    if self.weight.fast is not None and self.bias.fast is not None:
+      weight = self.weight.fast
+      bias = self.bias.fast
+    else:
+      weight = self.weight
+      bias = self.bias
+    if self.track_running_stats:
+      out = F.batch_norm(x, self.running_mean, self.running_var, weight, bias, training=self.training, momentum=self.momentum)
+    else:
+      out = F.batch_norm(x, torch.zeros_like(x), torch.ones_like(x), weight, bias, training=True, momentum=1)
+
+    # apply feature-wise transformation
+    if self.feature_augment and self.training:
+      gamma = (1 + torch.randn(1, self.num_features, 1, 1, dtype=self.gamma.dtype, device=self.gamma.device)*softplus(self.gamma)).expand_as(out)
+      beta = (torch.randn(1, self.num_features, 1, 1, dtype=self.beta.dtype, device=self.beta.device)*softplus(self.beta)).expand_as(out)
+      out = gamma*out + beta
+    return out
+
+# --- BatchNorm2d ---
+class BatchNorm2d_fw(nn.BatchNorm2d):
+  def __init__(self, num_features, momentum=0.1, track_running_stats=True):
+    super(BatchNorm2d_fw, self).__init__(num_features, momentum=momentum, track_running_stats=track_running_stats)
+    self.weight.fast = None
+    self.bias.fast = None
+    if self.track_running_stats:
+      self.register_buffer('running_mean', torch.zeros(num_features))
+      self.register_buffer('running_var', torch.zeros(num_features))
+    self.reset_parameters()
+
+  def reset_running_stats(self):
+    if self.track_running_stats:
+      self.running_mean.zero_()
+      self.running_var.fill_(1)
+
+  def forward(self, x, step=0):
+    if self.weight.fast is not None and self.bias.fast is not None:
+      weight = self.weight.fast
+      bias = self.bias.fast
+    else:
+      weight = self.weight
+      bias = self.bias
+    if self.track_running_stats:
+      out = F.batch_norm(x, self.running_mean, self.running_var, weight, bias, training=self.training, momentum=self.momentum)
+    else:
+      out = F.batch_norm(x, torch.zeros(x.size(1), dtype=x.dtype, device=x.device), torch.ones(x.size(1), dtype=x.dtype, device=x.device), weight, bias, training=True, momentum=1)
+    return out
+
+# --- BatchNorm1d ---
+class BatchNorm1d_fw(nn.BatchNorm1d):
+  def __init__(self, num_features, momentum=0.1, track_running_stats=True):
+    super(BatchNorm1d_fw, self).__init__(num_features, momentum=momentum, track_running_stats=track_running_stats)
+    self.weight.fast = None
+    self.bias.fast = None
+    if self.track_running_stats:
+      self.register_buffer('running_mean', torch.zeros(num_features))
+      self.register_buffer('running_var', torch.zeros(num_features))
+    self.reset_parameters()
+
+  def reset_running_stats(self):
+    if self.track_running_stats:
+      self.running_mean.zero_()
+      self.running_var.fill_(1)
+
+  def forward(self, x, step=0):
+    if self.weight.fast is not None and self.bias.fast is not None:
+      weight = self.weight.fast
+      bias = self.bias.fast
+    else:
+      weight = self.weight
+      bias = self.bias
+    if self.track_running_stats:
+      out = F.batch_norm(x, self.running_mean, self.running_var, weight, bias, training=self.training, momentum=self.momentum)
+    else:
+      out = F.batch_norm(x, torch.zeros(x.size(1), dtype=x.dtype, device=x.device), torch.ones(x.size(1), dtype=x.dtype, device=x.device), weight, bias, training=True, momentum=1)
+    return out
+
+# --- Simple Conv Block ---
+class ConvBlock(nn.Module):
+  maml = False
+  def __init__(self, indim, outdim, pool = True, padding = 1):
+    super(ConvBlock, self).__init__()
+    self.indim  = indim
+    self.outdim = outdim
+    if self.maml:
+      self.C = Conv2d_fw(indim, outdim, 3, padding = padding)
+      self.BN = FeatureWiseTransformation2d_fw(outdim)
+    else:
+      self.C = nn.Conv2d(indim, outdim, 3, padding= padding)
+      self.BN = nn.BatchNorm2d(outdim)
+    self.relu = nn.ReLU(inplace=True)
+
+    self.parametrized_layers = [self.C, self.BN, self.relu]
+    if pool:
+      self.pool = nn.MaxPool2d(2)
+      self.parametrized_layers.append(self.pool)
+
+    for layer in self.parametrized_layers:
+      init_layer(layer)
+    self.trunk = nn.Sequential(*self.parametrized_layers)
+
+  def forward(self,x):
+    out = self.trunk(x)
+    return out
+
+# --- Simple ResNet Block ---
+class SimpleBlock(nn.Module):
+  maml = False
+  def __init__(self, indim, outdim, half_res, leaky=False):
+    super(SimpleBlock, self).__init__()
+    self.indim = indim
+    self.outdim = outdim
+    if self.maml:
+      self.C1 = Conv2d_fw(indim, outdim, kernel_size=3, stride=2 if half_res else 1, padding=1, bias=False)
+      self.BN1 = BatchNorm2d_fw(outdim)
+      self.C2 = Conv2d_fw(outdim, outdim,kernel_size=3, padding=1,bias=False)
+      self.BN2 = FeatureWiseTransformation2d_fw(outdim) # feature-wise transformation at the end of each residual block
+    else:
+      self.C1 = nn.Conv2d(indim, outdim, kernel_size=3, stride=2 if half_res else 1, padding=1, bias=False)
+      self.BN1 = nn.BatchNorm2d(outdim)
+      self.C2 = nn.Conv2d(outdim, outdim,kernel_size=3, padding=1,bias=False)
+      self.BN2 = nn.BatchNorm2d(outdim)
+    self.relu1 = nn.ReLU(inplace=True) if not leaky else nn.LeakyReLU(0.2, inplace=True)
+    self.relu2 = nn.ReLU(inplace=True) if not leaky else nn.LeakyReLU(0.2, inplace=True)
+
+    self.parametrized_layers = [self.C1, self.C2, self.BN1, self.BN2]
+
+    self.half_res = half_res
+
+    # if the input number of channels is not equal to the output, then need a 1x1 convolution
+    if indim!=outdim:
+      if self.maml:
+        self.shortcut = Conv2d_fw(indim, outdim, 1, 2 if half_res else 1, bias=False)
+        self.BNshortcut = FeatureWiseTransformation2d_fw(outdim)
+      else:
+        self.shortcut = nn.Conv2d(indim, outdim, 1, 2 if half_res else 1, bias=False)
+        self.BNshortcut = nn.BatchNorm2d(outdim)
+
+      self.parametrized_layers.append(self.shortcut)
+      self.parametrized_layers.append(self.BNshortcut)
+      self.shortcut_type = '1x1'
+    else:
+      self.shortcut_type = 'identity'
+
+    for layer in self.parametrized_layers:
+      init_layer(layer)
+
+  def forward(self, x):
+    out = self.C1(x)
+    out = self.BN1(out)
+    out = self.relu1(out)
+    out = self.C2(out)
+    out = self.BN2(out)
+    short_out = x if self.shortcut_type == 'identity' else self.BNshortcut(self.shortcut(x))
+    out = out + short_out
+    out = self.relu2(out)
+    return out
+
+# --- ConvNet module ---
+class ConvNet(nn.Module):
+  def __init__(self, depth, flatten = True):
+    super(ConvNet,self).__init__()
+    self.grads = []
+    self.fmaps = []
+    trunk = []
+    for i in range(depth):
+      indim = 3 if i == 0 else 64
+      outdim = 64
+      B = ConvBlock(indim, outdim, pool = ( i <4 ) ) #only pooling for fist 4 layers
+      trunk.append(B)
+
+    if flatten:
+      trunk.append(Flatten())
+
+    self.trunk = nn.Sequential(*trunk)
+    self.final_feat_dim = 1600
+
+  def forward(self,x):
+    out = self.trunk(x)
+    return out
+
+# --- ConvNetNopool module ---
+class ConvNetNopool(nn.Module): #Relation net use a 4 layer conv with pooling in only first two layers, else no pooling
+  def __init__(self, depth):
+    super(ConvNetNopool,self).__init__()
+    self.grads = []
+    self.fmaps = []
+    trunk = []
+    for i in range(depth):
+      indim = 3 if i == 0 else 64
+      outdim = 64
+      B = ConvBlock(indim, outdim, pool = ( i in [0,1] ), padding = 0 if i in[0,1] else 1  ) #only first two layer has pooling and no padding
+      trunk.append(B)
+
+    self.trunk = nn.Sequential(*trunk)
+    self.final_feat_dim = [64,19,19]
+
+  def forward(self,x):
+    out = self.trunk(x)
+    return out
+
+# --- ResNet module ---
+class ResNet(nn.Module):
+  maml = False
+  def __init__(self,block,list_of_num_layers, list_of_out_dims, flatten=True, leakyrelu=False):
+    # list_of_num_layers specifies number of layers in each stage
+    # list_of_out_dims specifies number of output channel for each stage
+    super(ResNet,self).__init__()
+    self.grads = []
+    self.fmaps = []
+    assert len(list_of_num_layers)==4, 'Can have only four stages'
+    if self.maml:
+      conv1 = Conv2d_fw(3, 64, kernel_size=7, stride=2, padding=3, bias=False)
+      bn1 = BatchNorm2d_fw(64)
+    else:
+      conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3, bias=False)
+      bn1 = nn.BatchNorm2d(64)
+
+    relu = nn.ReLU(inplace=True) if not leakyrelu else nn.LeakyReLU(0.2, inplace=True)
+    pool1 = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)
+
+    init_layer(conv1)
+    init_layer(bn1)
+
+    trunk = [conv1, bn1, relu, pool1]
+
+    indim = 64
+    for i in range(4):
+      for j in range(list_of_num_layers[i]):
+        half_res = (i>=1) and (j==0)
+        B = block(indim, list_of_out_dims[i], half_res, leaky=leakyrelu)
+        trunk.append(B)
+        indim = list_of_out_dims[i]
+
+    if flatten:
+      avgpool = nn.AvgPool2d(7)
+      trunk.append(avgpool)
+      trunk.append(Flatten())
+      self.final_feat_dim = indim
+    else:
+      self.final_feat_dim = [ indim, 7, 7]
+
+    self.trunk = nn.Sequential(*trunk)
+
+  def forward(self,x):
+    out = self.trunk(x)
+    return out
+
+
+  def forward_block1(self, x):
+    out = self.trunk[:5](x)
+    return out
+ 
+  def forward_block2(self, x):
+    out = self.trunk[5:6](x)
+    return out
+
+  def forward_block3(self, x):
+    out = self.trunk[6:7](x)
+    return out
+
+  def forward_block4(self, x):
+    out = self.trunk[7:8](x)
+    return out
+  ''' 
+  def forward_block5(self, x):
+    out = self.trunk[8:](x)
+    return out
+  '''
+  def forward_rest(self,x):
+    out = self.trunk[8:](x)
+    return out
+
+# ----ResNet-multi module ---------------
+class ResNet_Multi(nn.Module):
+  maml = False
+  def __init__(self,block,list_of_num_layers, list_of_out_dims, flatten=True, leakyrelu=False):
+    # list_of_num_layers specifies number of layers in each stage
+    # list_of_out_dims specifies number of output channel for each stage
+    super(ResNet_Multi,self).__init__()
+    self.grads = []
+    self.fmaps = []
+    assert len(list_of_num_layers)==4, 'Can have only four stages'
+    if self.maml:
+      conv1 = Conv2d_fw(3, 64, kernel_size=7, stride=2, padding=3, bias=False)
+      bn1 = BatchNorm2d_fw(64)
+    else:
+      conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3, bias=False)
+      bn1 = nn.BatchNorm2d(64)
+
+    relu = nn.ReLU(inplace=True) if not leakyrelu else nn.LeakyReLU(0.2, inplace=True)
+    pool1 = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)
+
+    init_layer(conv1)
+    init_layer(bn1)
+
+    trunk = [conv1, bn1, relu, pool1]
+
+    indim = 64
+    for i in range(4):
+      for j in range(list_of_num_layers[i]):
+        half_res = (i>=1) and (j==0)
+        B = block(indim, list_of_out_dims[i], half_res, leaky=leakyrelu)
+        trunk.append(B)
+        indim = list_of_out_dims[i]
+
+    if flatten:
+      avgpool = nn.AvgPool2d(7)
+      trunk.append(avgpool)
+      trunk.append(Flatten())
+      self.final_feat_dim = indim
+    else:
+      self.final_feat_dim = [ indim, 7, 7]
+
+    self.trunk = nn.Sequential(*trunk)
+    
+  def forward(self,x):
+    #out = self.trunk(x)
+    layer1 = self.trunk[:5](x)
+    #print('layer1:', layer1.size())
+    layer2 = self.trunk[5:6](layer1)
+    #print('layer2:', layer2.size())
+    layer3 = self.trunk[6:7](layer2)
+    #print('layer3:', layer3.size())
+    layer4 = self.trunk[7:8](layer3)
+    #print('layer4:', layer4.size())
+    out = self.trunk[8:](layer4)
+    #print('out:', out.size())
+    return layer1, layer2, layer3, layer4, out
+
+
+# --- Conv networks ---
+def Conv4():
+    return ConvNet(4)
+def Conv6():
+    return ConvNet(6)
+def Conv4NP():
+    return ConvNetNopool(4)
+def Conv6NP():
+    return ConvNetNopool(6)
+
+# --- ResNet networks ---
+def ResNet10(flatten=True, leakyrelu=False):
+    print('backbone:', 'return resnet10')
+    return ResNet(SimpleBlock, [1,1,1,1],[64,128,256,512], flatten, leakyrelu)
+def ResNet10_Multi(flatten=True, leakyrelu=False):
+    print('this is resnet10-multi')
+    return ResNet_Multi(SimpleBlock, [1,1,1,1],[64,128,256,512], flatten, leakyrelu)
+def ResNet18(flatten=True, leakyrelu=False):
+    return ResNet(SimpleBlock, [2,2,2,2],[64,128,256,512], flatten, leakyrelu)
+def ResNet34(flatten=True, leakyrelu=False):
+    return ResNet(SimpleBlock, [3,4,6,3],[64,128,256,512], flatten, leakyrelu)
+
+model_dict = dict(Conv4 = Conv4,
+                  Conv6 = Conv6,
+                  ResNet10 = ResNet10,
+                  ResNet10_Multi = ResNet10_Multi,
+                  ResNet18 = ResNet18,
+                  ResNet34 = ResNet34)
+
+
+if __name__ == '__main__':
+    model_func = model_dict['ResNet10']
+    net = model_func(flatten = True, leakyrelu= False)    
+    from torch.autograd import Variable
+    x = Variable(torch.randn([16,3,224,224]))
+    out = net(x)
+    print(out.size())
+
+    # ---------------- multi ResNet
+    model_func_2 = model_dict['ResNet10_Multi']
+    net2 = model_func_2(flatten = True, leakyrelu = False)
+    layer1, layer2, layer3, layer4, out2 = net2(x)
+    print('net-multi:', layer1.size(), layer2.size(), layer3.size(), layer4.size(), out2.size())
+   
+
+ 
+    print('------------------')
+    model_func = model_dict['ResNet10']
+    net = model_func(flatten = True, leakyrelu= False)
+    from torch.autograd import Variable
+    x = Variable(torch.randn([16,3,224,224]))
+    out = net(x)
+    print(out.size())
+
+    print(net)
+    block1 = net.forward_block1(x)
+    print('block1:', block1.size())
+  
+    block2 = net.forward_block2(block1)
+    print('block2:', block2.size())
+ 
+    block3 = net.forward_block3(block2)
+    print('block3:', block3.size())
+
+    block4 = net.forward_block4(block3)
+    print('block4:', block4.size())
+
+    block5 = net.forward_block5(block4)
+    print('block5:', block5.size())
diff --git a/methods/engine_StyleAdv_ViT.py b/methods/engine_StyleAdv_ViT.py
new file mode 100644
index 0000000000000000000000000000000000000000..17a0f590aba2f3901bc618c2299bf10a6b929bee
--- /dev/null
+++ b/methods/engine_StyleAdv_ViT.py
@@ -0,0 +1,196 @@
+import math
+import sys
+import warnings
+from typing import Iterable, Optional
+
+import torch
+from torch.utils.tensorboard import SummaryWriter
+
+from timm.data import Mixup
+from timm.utils import accuracy, ModelEma
+
+#import pmf_utils.deit_util as utils
+#from pmf_utils import AverageMeter, to_device
+from utils import AverageMeter, to_device
+import utils.deit_util as utils
+
+import numpy as np
+
+#from methods.meta_template_StyleAdvIncrem_v10_epsilonFromList_RandomStartFGSM_20220501 import consistency_loss
+#from methods.meta_template_StyleAdv_RN_GNN import consistency_loss
+from methods.tool_func import consistency_loss
+
+def train_one_epoch_styleAdv(data_loader: Iterable,
+                    model: torch.nn.Module,
+                    criterion: torch.nn.Module,
+                    optimizer: torch.optim.Optimizer,
+                    epoch: int,
+                    device: torch.device,
+                    loss_scaler = None,
+                    fp16: bool = False,
+                    max_norm: float = 0, # clip_grad
+                    model_ema: Optional[ModelEma] = None,
+                    mixup_fn: Optional[Mixup] = None,
+                    writer: Optional[SummaryWriter] = None,
+                    set_training_mode=True):
+
+    global_step = epoch * len(data_loader)
+
+    metric_logger = utils.MetricLogger(delimiter="  ")
+    metric_logger.add_meter('lr', utils.SmoothedValue(window_size=1, fmt='{value:.6f}'))
+    metric_logger.add_meter('n_ways', utils.SmoothedValue(window_size=1, fmt='{value:d}'))
+    metric_logger.add_meter('n_imgs', utils.SmoothedValue(window_size=1, fmt='{value:d}'))
+    header = 'Epoch: [{}]'.format(epoch)
+    print_freq = 10
+
+    model.train(set_training_mode)
+
+    for batch in metric_logger.log_every(data_loader, print_freq, header):
+        batch = to_device(batch, device)
+        SupportTensor, SupportLabel, QueryTensor, QueryLabel, GlobalID_S, GlobalID_Q = batch
+        #print('SupportTensor:', SupportTensor.size(), 'SupportLabel:', SupportLabel, 'x:', x.size(), 'y:', y.size())
+
+        epsilon_list = [0.8, 0.08, 0.008] 
+        # forward
+        with torch.cuda.amp.autocast(fp16):
+            #output = model(SupportTensor, SupportLabel, x)
+            scores_fsl_ori, loss_fsl_ori, scores_cls_ori, loss_cls_ori, scores_fsl_adv, loss_fsl_adv, scores_cls_adv, loss_cls_adv = model.set_forward_loss_StyAdv(SupportTensor,QueryTensor,SupportLabel, QueryLabel, GlobalID_S,GlobalID_Q, epsilon_list) 
+        if(scores_fsl_ori.equal(scores_fsl_adv)):
+          loss_fsl_KL = 0
+        else:
+          loss_fsl_KL = consistency_loss(scores_fsl_ori, scores_fsl_adv, 'KL3')
+        if(scores_cls_ori.equal(scores_cls_adv)):
+          loss_cls_KL = 0
+        else:
+          loss_cls_KL = consistency_loss(scores_cls_ori, scores_cls_adv,'KL3')
+
+        k1, k2, k3, k4, k5, k6 = 1, 1, 1, 1, 0, 0
+        loss = k1 * loss_fsl_ori + k2 * loss_fsl_adv + k3 * loss_fsl_KL + k4 * loss_cls_ori + k5 * loss_cls_adv + k6 * loss_cls_KL
+        #print('loss_fsl_ori:', loss_fsl_ori, 'loss_fsl_adv:', loss_fsl_adv, 'loss_fsl_KL:', loss_fsl_KL, 'loss_cls_ori:', loss_cls_ori, 'loss_cls_adv:',loss_cls_adv, 'loss_cls_adv')
+        #output = output.view(QueryTensor.shape[0] * QueryTensor.shape[1], -1)
+        #QueryLabel = QueryLabel.view(-1)
+        #loss = criterion(output, QueryLabel)
+        loss_value = loss.item()
+
+        if not math.isfinite(loss_value):
+            print("Loss is {}, stopping training".format(loss_value))
+            sys.exit(1)
+
+        optimizer.zero_grad()
+
+        if fp16:
+            # this attribute is added by timm on one optimizer (adahessian)
+            is_second_order = hasattr(optimizer, 'is_second_order') and optimizer.is_second_order
+            loss_scaler(loss, optimizer, clip_grad=max_norm,
+                        parameters=model.parameters(), create_graph=is_second_order)
+        else:
+            loss.backward()
+            optimizer.step()
+
+        torch.cuda.synchronize()
+        if model_ema is not None:
+            model_ema.update(model)
+
+        lr = optimizer.param_groups[0]["lr"]
+        metric_logger.update(loss=loss_value)
+        metric_logger.update(lr=lr)
+        metric_logger.update(n_ways=SupportLabel.max()+1)
+        metric_logger.update(n_imgs=SupportTensor.shape[1] + QueryTensor.shape[1])
+
+        # tensorboard
+        if utils.is_main_process() and global_step % print_freq == 0:
+            writer.add_scalar("train/loss", scalar_value=loss_value, global_step=global_step)
+            writer.add_scalar("train/lr", scalar_value=lr, global_step=global_step)
+
+        global_step += 1
+
+    # gather the stats from all processes
+    metric_logger.synchronize_between_processes()
+    print("Averaged stats:", metric_logger)
+    return {k: meter.global_avg for k, meter in metric_logger.meters.items()}
+
+
+def evaluate(data_loaders, model, criterion, device, seed=None, ep=None):
+    if isinstance(data_loaders, dict):
+        test_stats_lst = {}
+        test_stats_glb = {}
+
+        for j, (source, data_loader) in enumerate(data_loaders.items()):
+            print(f'* Evaluating {source}:')
+            seed_j = seed + j if seed else None
+            test_stats = _evaluate(data_loader, model, criterion, device, seed_j)
+            test_stats_lst[source] = test_stats
+            test_stats_glb[source] = test_stats['acc1']
+
+        # apart from individual's acc1, accumulate metrics over all domains to compute mean
+        for k in test_stats_lst[source].keys():
+            test_stats_glb[k] = torch.tensor([test_stats[k] for test_stats in test_stats_lst.values()]).mean().item()
+
+        return test_stats_glb
+    elif isinstance(data_loaders, torch.utils.data.DataLoader): # when args.eval = True
+        return _evaluate(data_loaders, model, criterion, device, seed, ep)
+    else:
+        warnings.warn(f'The structure of {data_loaders} is not recognizable.')
+        return _evaluate(data_loaders, model, criterion, device, seed)
+
+
+@torch.no_grad()
+def _evaluate(data_loader, model, criterion, device, seed=None, ep=None):
+    metric_logger = utils.MetricLogger(delimiter="  ")
+    metric_logger.add_meter('n_ways', utils.SmoothedValue(window_size=1, fmt='{value:d}'))
+    metric_logger.add_meter('n_imgs', utils.SmoothedValue(window_size=1, fmt='{value:d}'))
+    metric_logger.add_meter('acc1', utils.SmoothedValue(window_size=len(data_loader.dataset)))
+    metric_logger.add_meter('acc5', utils.SmoothedValue(window_size=len(data_loader.dataset)))
+    # added for debug
+    #metric_logger.add_meter('loss', utils.SmoothedValue(window_size=len(data_loader.dataset)))
+    header = 'Test:'
+
+    # switch to evaluation mode
+    model.eval()
+
+    if seed is not None:
+        data_loader.generator.manual_seed(seed)
+
+    for ii, batch in enumerate(metric_logger.log_every(data_loader, 10, header)):
+        if ep is not None:
+            if ii > ep:
+                break
+
+        batch = to_device(batch, device)
+        SupportTensor, SupportLabel, x, y = batch
+        #print('SupportTensor:', SupportTensor.size(), 'SupportLabel:', SupportLabel, 'x:', x.size(), 'y:', y.size())
+
+        # compute output
+        with torch.cuda.amp.autocast():
+            output = model(SupportTensor, SupportLabel, x)
+
+        output = output.view(x.shape[0] * x.shape[1], -1)
+        y = y.view(-1)
+        loss = criterion(output, y)
+        acc1, acc5 = accuracy(output, y, topk=(1, 5))
+
+        batch_size = x.shape[0]
+        metric_logger.update(loss=loss.item())
+        # for debug
+        #metric_logger.meters['loss'].update(loss.item(), n=batch_size)
+        metric_logger.meters['acc1'].update(acc1.item(), n=batch_size)
+        metric_logger.meters['acc5'].update(acc5.item(), n=batch_size)
+        metric_logger.update(n_ways=SupportLabel.max()+1)
+        metric_logger.update(n_imgs=SupportTensor.shape[1] + x.shape[1])
+
+    # gather the stats from all processes
+    metric_logger.synchronize_between_processes()
+
+    # initial
+    #print('* Acc@1 {top1.global_avg:.3f} Acc@5 {top5.global_avg:.3f} loss {losses.global_avg:.3f}'
+    #      .format(top1=metric_logger.acc1, top5=metric_logger.acc5, losses=metric_logger.loss))
+ 
+    ret_dict = {k: meter.global_avg for k, meter in metric_logger.meters.items()}
+    ret_dict['acc_std'] = metric_logger.meters['acc1'].std
+    print('ret dict:', ret_dict['acc_std'], metric_logger.meters['acc1'], metric_logger.meters['acc1'].std)
+
+    ''' 
+    # debug for test BSCDFSL
+    ret_dict['acc_std'] = metric_logger.meters['acc1'].std
+    '''
+    return ret_dict
diff --git a/methods/gnn.py b/methods/gnn.py
new file mode 100644
index 0000000000000000000000000000000000000000..1a33229918e2aef099cf87d634067befe061d555
--- /dev/null
+++ b/methods/gnn.py
@@ -0,0 +1,167 @@
+# This code is modified from https://github.com/vgsatorras/few-shot-gnn/blob/master/models/gnn_iclr.py
+
+import torch
+import torch.nn as nn
+from torch.autograd import Variable
+import torch.nn.functional as F
+from methods.backbone import Linear_fw, Conv2d_fw, BatchNorm2d_fw, BatchNorm1d_fw
+
+if torch.cuda.is_available():
+  dtype = torch.cuda.FloatTensor
+  dtype_l = torch.cuda.LongTensor
+else:
+  dtype = torch.FloatTensor
+  dtype_l = torch.cuda.LongTensor
+
+def gmul(input):
+  W, x = input
+  # x is a tensor of size (bs, N, num_features)
+  # W is a tensor of size (bs, N, N, J)
+  #x_size = x.size()
+  W_size = W.size()
+  N = W_size[-2]
+  W = W.split(1, 3)
+  W = torch.cat(W, 1).squeeze(3) # W is now a tensor of size (bs, J*N, N)
+  output = torch.bmm(W, x) # output has size (bs, J*N, num_features)
+  output = output.split(N, 1)
+  output = torch.cat(output, 2) # output has size (bs, N, J*num_features)
+  return output
+
+class Gconv(nn.Module):
+  maml = False
+  def __init__(self, nf_input, nf_output, J, bn_bool=True):
+    super(Gconv, self).__init__()
+    self.J = J
+    self.num_inputs = J*nf_input
+    self.num_outputs = nf_output
+    self.fc = nn.Linear(self.num_inputs, self.num_outputs) if not self.maml else Linear_fw(self.num_inputs, self.num_outputs)
+
+    self.bn_bool = bn_bool
+    if self.bn_bool:
+      self.bn = nn.BatchNorm1d(self.num_outputs, track_running_stats=False) if not self.maml else BatchNorm1d_fw(self.num_outputs, track_running_stats=False)
+
+  def forward(self, input):
+    W = input[0]
+    x = gmul(input) # out has size (bs, N, num_inputs)
+    #if self.J == 1:
+    #    x = torch.abs(x)
+    x_size = x.size()
+    x = x.contiguous()
+    x = x.view(-1, self.num_inputs)
+    x = self.fc(x) # has size (bs*N, num_outputs)
+
+    if self.bn_bool:
+      x = self.bn(x)
+    x = x.view(*x_size[:-1], self.num_outputs)
+    return W, x
+
+class Wcompute(nn.Module):
+  maml = False
+  def __init__(self, input_features, nf, operator='J2', activation='softmax', ratio=[2,2,1,1], num_operators=1, drop=False):
+    super(Wcompute, self).__init__()
+    self.num_features = nf
+    self.operator = operator
+    self.conv2d_1 = nn.Conv2d(input_features, int(nf * ratio[0]), 1, stride=1) if not self.maml else Conv2d_fw(input_features, int(nf * ratio[0]), 1, stride=1)
+    self.bn_1 = nn.BatchNorm2d(int(nf * ratio[0]), track_running_stats=False) if not self.maml else BatchNorm2d_fw(int(nf * ratio[0]), track_running_stats=False)
+    self.drop = drop
+    if self.drop:
+      self.dropout = nn.Dropout(0.3)
+    self.conv2d_2 = nn.Conv2d(int(nf * ratio[0]), int(nf * ratio[1]), 1, stride=1) if not self.maml else Conv2d_fw(int(nf * ratio[0]), int(nf * ratio[1]), 1, stride=1)
+    self.bn_2 = nn.BatchNorm2d(int(nf * ratio[1]), track_running_stats=False) if not self.maml else BatchNorm2d_fw(int(nf * ratio[1]), track_running_stats=False)
+    self.conv2d_3 = nn.Conv2d(int(nf * ratio[1]), nf*ratio[2], 1, stride=1) if not self.maml else Conv2d_fw(int(nf * ratio[1]), nf*ratio[2], 1, stride=1)
+    self.bn_3 = nn.BatchNorm2d(nf*ratio[2], track_running_stats=False) if not self.maml else BatchNorm2d_fw(nf*ratio[2], track_running_stats=False)
+    self.conv2d_4 = nn.Conv2d(nf*ratio[2], nf*ratio[3], 1, stride=1) if not self.maml else Conv2d_fw(nf*ratio[2], nf*ratio[3], 1, stride=1)
+    self.bn_4 = nn.BatchNorm2d(nf*ratio[3], track_running_stats=False) if not self.maml else BatchNorm2d_fw(nf*ratio[3], track_running_stats=False)
+    self.conv2d_last = nn.Conv2d(nf, num_operators, 1, stride=1) if not self.maml else Conv2d_fw(nf, num_operators, 1, stride=1)
+    self.activation = activation
+
+  def forward(self, x, W_id):
+    W1 = x.unsqueeze(2)
+    W2 = torch.transpose(W1, 1, 2) #size: bs x N x N x num_features
+    W_new = torch.abs(W1 - W2) #size: bs x N x N x num_features
+    W_new = torch.transpose(W_new, 1, 3) #size: bs x num_features x N x N
+
+    W_new = self.conv2d_1(W_new)
+    W_new = self.bn_1(W_new)
+    W_new = F.leaky_relu(W_new)
+    if self.drop:
+      W_new = self.dropout(W_new)
+
+    W_new = self.conv2d_2(W_new)
+    W_new = self.bn_2(W_new)
+    W_new = F.leaky_relu(W_new)
+
+    W_new = self.conv2d_3(W_new)
+    W_new = self.bn_3(W_new)
+    W_new = F.leaky_relu(W_new)
+
+    W_new = self.conv2d_4(W_new)
+    W_new = self.bn_4(W_new)
+    W_new = F.leaky_relu(W_new)
+
+    W_new = self.conv2d_last(W_new)
+    W_new = torch.transpose(W_new, 1, 3) #size: bs x N x N x 1
+
+    if self.activation == 'softmax':
+      W_new = W_new - W_id.expand_as(W_new) * 1e8
+      W_new = torch.transpose(W_new, 2, 3)
+      # Applying Softmax
+      W_new = W_new.contiguous()
+      W_new_size = W_new.size()
+      W_new = W_new.view(-1, W_new.size(3))
+      W_new = F.softmax(W_new, dim=1)
+      W_new = W_new.view(W_new_size)
+      # Softmax applied
+      W_new = torch.transpose(W_new, 2, 3)
+
+    elif self.activation == 'sigmoid':
+      W_new = F.sigmoid(W_new)
+      W_new *= (1 - W_id)
+    elif self.activation == 'none':
+      W_new *= (1 - W_id)
+    else:
+      raise (NotImplementedError)
+
+    if self.operator == 'laplace':
+      W_new = W_id - W_new
+    elif self.operator == 'J2':
+      W_new = torch.cat([W_id, W_new], 3)
+    else:
+      raise(NotImplementedError)
+
+    return W_new
+
+class GNN_nl(nn.Module):
+  def __init__(self, input_features, nf, train_N_way):
+    super(GNN_nl, self).__init__()
+    self.input_features = input_features
+    self.nf = nf
+    self.num_layers = 2
+
+    for i in range(self.num_layers):
+      if i == 0:
+        module_w = Wcompute(self.input_features, nf, operator='J2', activation='softmax', ratio=[2, 2, 1, 1])
+        module_l = Gconv(self.input_features, int(nf / 2), 2)
+      else:
+        module_w = Wcompute(self.input_features + int(nf / 2) * i, nf, operator='J2', activation='softmax', ratio=[2, 2, 1, 1])
+        module_l = Gconv(self.input_features + int(nf / 2) * i, int(nf / 2), 2)
+      self.add_module('layer_w{}'.format(i), module_w)
+      self.add_module('layer_l{}'.format(i), module_l)
+
+    self.w_comp_last = Wcompute(self.input_features + int(self.nf / 2) * self.num_layers, nf, operator='J2', activation='softmax', ratio=[2, 2, 1, 1])
+    self.layer_last = Gconv(self.input_features + int(self.nf / 2) * self.num_layers, train_N_way, 2, bn_bool=False)
+
+  def forward(self, x):
+    W_init = torch.eye(x.size(1), device=x.device).unsqueeze(0).repeat(x.size(0), 1, 1).unsqueeze(3)
+
+    for i in range(self.num_layers):
+      Wi = self._modules['layer_w{}'.format(i)](x, W_init)
+      #print('Wi:', Wi.size())
+
+      x_new = F.leaky_relu(self._modules['layer_l{}'.format(i)]([Wi, x])[1])
+      x = torch.cat([x, x_new], 2)
+
+    Wl=self.w_comp_last(x, W_init)
+    out = self.layer_last([Wl, x])[1]
+
+    return out
diff --git a/methods/gnnnet.py b/methods/gnnnet.py
new file mode 100644
index 0000000000000000000000000000000000000000..f74135f15f6e073ed1dcac650a004df21575e102
--- /dev/null
+++ b/methods/gnnnet.py
@@ -0,0 +1,75 @@
+import torch
+import torch.nn as nn
+import numpy as np
+from methods.meta_template import MetaTemplate
+from methods.gnn import GNN_nl
+from methods import backbone
+
+class GnnNet(MetaTemplate):
+  maml=False
+  def __init__(self, model_func,  n_way, n_support, tf_path=None):
+    super(GnnNet, self).__init__(model_func, n_way, n_support, tf_path=tf_path)
+
+    # loss function
+    self.loss_fn = nn.CrossEntropyLoss()
+
+    # metric function
+    self.fc = nn.Sequential(nn.Linear(self.feat_dim, 128), nn.BatchNorm1d(128, track_running_stats=False)) if not self.maml else nn.Sequential(backbone.Linear_fw(self.feat_dim, 128), backbone.BatchNorm1d_fw(128, track_running_stats=False))
+    self.gnn = GNN_nl(128 + self.n_way, 96, self.n_way)
+    self.method = 'GnnNet'
+
+    # fix label for training the metric function   1*nw(1 + ns)*nw
+    support_label = torch.from_numpy(np.repeat(range(self.n_way), self.n_support)).unsqueeze(1)
+    support_label = torch.zeros(self.n_way*self.n_support, self.n_way).scatter(1, support_label, 1).view(self.n_way, self.n_support, self.n_way)
+    support_label = torch.cat([support_label, torch.zeros(self.n_way, 1, n_way)], dim=1)
+    self.support_label = support_label.view(1, -1, self.n_way)
+
+  def cuda(self):
+    self.feature.cuda()
+    self.fc.cuda()
+    self.gnn.cuda()
+    self.support_label = self.support_label.cuda()
+    return self
+
+  def set_forward(self,x,is_feature=False):
+    x = x.cuda()
+
+    if is_feature:
+      # reshape the feature tensor: n_way * n_s + 15 * f
+      assert(x.size(1) == self.n_support + 15)
+      z = self.fc(x.view(-1, *x.size()[2:]))
+      z = z.view(self.n_way, -1, z.size(1))
+    else:
+      # get feature using encoder
+      x = x.view(-1, *x.size()[2:])
+      z = self.fc(self.feature(x))
+      z = z.view(self.n_way, -1, z.size(1))
+    #print('z:', z.size())
+    # stack the feature for metric function: n_way * n_s + n_q * f -> n_q * [1 * n_way(n_s + 1) * f]
+    z_stack = [torch.cat([z[:, :self.n_support], z[:, self.n_support + i:self.n_support + i + 1]], dim=1).view(1, -1, z.size(2)) for i in range(self.n_query)]
+    assert(z_stack[0].size(1) == self.n_way*(self.n_support + 1))
+    #print('z_stack:', 'len:', len(z_stack), 'z_stack[0]:', z_stack[0].size())
+    scores = self.forward_gnn(z_stack)
+    return scores
+
+  def forward_gnn(self, zs):
+    # gnn inp: n_q * n_way(n_s + 1) * f
+    nodes = torch.cat([torch.cat([z, self.support_label], dim=2) for z in zs], dim=0)
+    #print('nodes:', nodes.size())
+    scores = self.gnn(nodes)
+
+    # n_q * n_way(n_s + 1) * n_way -> (n_way * n_q) * n_way
+    scores = scores.view(self.n_query, self.n_way, self.n_support + 1, self.n_way)[:, :, -1].permute(1, 0, 2).contiguous().view(-1, self.n_way)
+    return scores
+
+  def set_forward_loss(self, x):
+    #print('gnnnet:', 'set forward loss:')
+    #print('1: x:', x.size())
+    y_query = torch.from_numpy(np.repeat(range( self.n_way ), self.n_query))
+    #print('2: y_query:', y_query)
+    y_query = y_query.cuda()
+    scores = self.set_forward(x)
+    #print('3: scores:', scores.size())
+    loss = self.loss_fn(scores, y_query)
+    #print('4: loss:', loss)
+    return scores, loss
diff --git a/methods/load_ViT_models.py b/methods/load_ViT_models.py
new file mode 100644
index 0000000000000000000000000000000000000000..30f9d612e88ce03c87559a0476c08e90edd7bb27
--- /dev/null
+++ b/methods/load_ViT_models.py
@@ -0,0 +1,94 @@
+import torch
+#from models import vision_transformer as vit
+#from models import vision_transformer_multiBlocks_20221030 as vit
+#from methods import vision_transformer_multiBlocks_20221030 as vit
+from methods import ViT as vit
+#import vision_transformer_multiBlocks_20221030 as vit
+#from models.pmf_protonet import ProtoNet
+#from methods.pmf_protonet import ProtoNet
+from methods.protonet import ProtoNet
+#from pmf_protonet import ProtoNet
+#from models.cvpr2023_gnnnet_20221102 import GnnNet
+#from methods.cvpr2023_gnnnet_20221102 import GnnNet
+#from cvpr2023_gnnnet_20221102 import GnnNet
+
+def load_ViTsmall(no_pretrain=False):
+  model = vit.__dict__['vit_small'](patch_size=16, num_classes=0)
+  if(not no_pretrain):
+    url = "dino_deitsmall16_pretrain/dino_deitsmall16_pretrain.pth"
+    state_dict = torch.hub.load_state_dict_from_url(url="https://dl.fbaipublicfiles.com/dino/" + url)
+    model.load_state_dict(state_dict, strict=True)
+    #print('Pretrained weights found at {}'.format(url))
+  #print('model defined.')
+  return model
+
+def load_ViTbase(no_pretrain=False):
+  model = vit.__dict__['vit_base'](patch_size=16, num_classes=0)
+  if(not no_pretrain):
+    url = "dino_vitbase16_pretrain/dino_vitbase16_pretrain.pth"
+    state_dict = torch.hub.load_state_dict_from_url(url="https://dl.fbaipublicfiles.com/dino/" + url)
+    model.load_state_dict(state_dict, strict=True)
+    print('Pretrained weights found at {}'.format(url))
+  print('model defined.')
+  return model
+
+
+def load_ResNet50(no_pretrain=False):
+  from torchvision.models.resnet import resnet50
+  pretrained = not no_pretrain
+  model = resnet50(pretrained=pretrained)
+  model.fc = torch.nn.Identity()
+  print('model defined.')
+  return model
+
+def load_ResNet50_dino(no_pretrain=False):
+  from torchvision.models.resnet import resnet50
+  model = resnet50(pretrained=False)
+  model.fc = torch.nn.Identity()
+  if not no_pretrain:
+    state_dict = torch.hub.load_state_dict_from_url(url="https://dl.fbaipublicfiles.com/dino/dino_resnet50_pretrain/dino_resnet50_pretrain.pth",map_location="cpu",)
+    model.load_state_dict(state_dict, strict=False)
+  return model
+
+def load_ResNet50_clip(no_pretrain=False):
+  from models import clip
+  model, _ = clip.load('RN50', 'cpu')
+  return model
+
+
+def get_model(backbone='vit_small', classifier='protonet', args=None, styleAdv=False):
+  if(backbone=='vit_small' and classifier == 'protonet'):
+    extractor = load_ViTsmall()
+    if(not styleAdv):
+      #from models.pmf_protonet import ProtoNet
+      from methods.protonet import ProtoNet
+      model = ProtoNet(extractor)
+    else:
+      #from models.pmf_protonet_metatrain_vit_protonet_20221102 import ProtoNet
+      #from methods.pmf_protonet_metatrain_vit_protonet_20221102 import ProtoNet
+      from methods.StyleAdv_ViT_protonet import ProtoNet
+      model = ProtoNet(extractor)
+
+  if(backbone=='resnet50' and classifier == 'protonet'):
+    extractor = load_ResNet50_dino()
+    model = ProtoNet(extractor)
+
+  if(backbone=='vit_small' and classifier == 'gnnnet'):
+    extractor = load_ViTsmall()
+    model = GnnNet(extractor, backbone_flag='vit_small', n_way = 5, n_support = args.nSupport)
+
+  if(backbone=='resnet50' and classifier == 'gnnnet'):
+    extractor = load_ResNet50_dino()
+    model = GnnNet(extractor, backbone_flag='resnet50', n_way = 5, n_support = args.nSupport)
+  return model
+
+
+
+
+if __name__ == '__main__':
+  input = torch.randn(16, 3, 224, 224)
+  print('input:', input.size())
+  model = load_ViTsmall()
+  out = model(input)
+  print('out:', out.size())
+
diff --git a/methods/meta_template.py b/methods/meta_template.py
new file mode 100644
index 0000000000000000000000000000000000000000..a8bf030366a7b3b220b69cc45b365e313f60d3fd
--- /dev/null
+++ b/methods/meta_template.py
@@ -0,0 +1,92 @@
+import torch.nn as nn
+import numpy as np
+from abc import abstractmethod
+from tensorboardX import SummaryWriter
+print('Ori meta template.')
+class MetaTemplate(nn.Module):
+  def __init__(self, model_func, n_way, n_support, flatten=True, leakyrelu=False, tf_path=None, change_way=True):
+    super(MetaTemplate, self).__init__()
+    self.n_way      = n_way
+    self.n_support  = n_support
+    self.n_query    = -1 #(change depends on input)
+    self.feature    = model_func(flatten=flatten, leakyrelu=leakyrelu)
+    self.feat_dim   = self.feature.final_feat_dim
+    self.change_way = change_way  #some methods allow different_way classification during training and test
+    self.tf_writer = SummaryWriter(log_dir=tf_path) if tf_path is not None else None
+
+  @abstractmethod
+  def set_forward(self,x,is_feature):
+    pass
+
+  @abstractmethod
+  def set_forward_loss(self, x):
+    pass
+
+  def forward(self,x):
+    out  = self.feature.forward(x)
+    return out
+
+  def parse_feature(self,x,is_feature):
+    x = x.cuda()
+    if is_feature:
+      z_all = x
+    else:
+      x           = x.contiguous().view( self.n_way * (self.n_support + self.n_query), *x.size()[2:])
+      z_all       = self.feature.forward(x)
+      z_all       = z_all.view( self.n_way, self.n_support + self.n_query, -1)
+    z_support   = z_all[:, :self.n_support]
+    z_query     = z_all[:, self.n_support:]
+
+    return z_support, z_query
+
+  def correct(self, x):
+    scores, loss = self.set_forward_loss(x)
+    y_query = np.repeat(range( self.n_way ), self.n_query )
+
+    topk_scores, topk_labels = scores.data.topk(1, 1, True, True)
+    topk_ind = topk_labels.cpu().numpy()
+    top1_correct = np.sum(topk_ind[:,0] == y_query)
+    return float(top1_correct), len(y_query), loss.item()*len(y_query)
+
+  def train_loop(self, epoch, train_loader, optimizer, total_it):
+    print_freq = len(train_loader) // 10
+    avg_loss=0
+    for i, (x,_ ) in enumerate(train_loader):
+      self.n_query = x.size(1) - self.n_support
+      if self.change_way:
+        self.n_way  = x.size(0)
+      optimizer.zero_grad()
+      _, loss = self.set_forward_loss(x)
+      loss.backward()
+      optimizer.step()
+      avg_loss = avg_loss+loss.item()
+
+      if (i + 1) % print_freq==0:
+        print('Epoch {:d} | Batch {:d}/{:d} | Loss {:f}'.format(epoch, i + 1, len(train_loader), avg_loss/float(i+1)))
+      if (total_it + 1) % 10 == 0 and self.tf_writer is not None:
+        self.tf_writer.add_scalar(self.method + '/query_loss', loss.item(), total_it + 1)
+      total_it += 1
+    return total_it
+
+  def test_loop(self, test_loader, record = None):
+    loss = 0.
+    count = 0
+    acc_all = []
+
+    iter_num = len(test_loader)
+    for i, (x,_) in enumerate(test_loader):
+      self.n_query = x.size(1) - self.n_support
+      if self.change_way:
+        self.n_way  = x.size(0)
+      correct_this, count_this, loss_this = self.correct(x)
+      acc_all.append(correct_this/ count_this*100  )
+      loss += loss_this
+      count += count_this
+
+    acc_all  = np.asarray(acc_all)
+    acc_mean = np.mean(acc_all)
+    acc_std  = np.std(acc_all)
+    print('--- %d Loss = %.6f ---' %(iter_num,  loss/count))
+    print('--- %d Test Acc = %4.2f%% +- %4.2f%% ---' %(iter_num,  acc_mean, 1.96* acc_std/np.sqrt(iter_num)))
+
+    return acc_mean
diff --git a/methods/meta_template_CausalStyle_RN_GNN.py b/methods/meta_template_CausalStyle_RN_GNN.py
new file mode 100644
index 0000000000000000000000000000000000000000..e2391d502e52163ee422e80e9c6d46a87efa6103
--- /dev/null
+++ b/methods/meta_template_CausalStyle_RN_GNN.py
@@ -0,0 +1,138 @@
+import torch.nn as nn
+import torch
+import numpy as np
+from abc import abstractmethod
+from tensorboardX import SummaryWriter
+import torch.nn.functional as F
+from methods.tool_func import consistency_loss
+
+print("hi this is causal style")
+
+class MetaTemplate(nn.Module):
+  def __init__(self, model_func, n_way, n_support, flatten=True, leakyrelu=False, tf_path=None, change_way=True):
+    super(MetaTemplate, self).__init__()
+    self.n_way      = n_way
+    self.n_support  = n_support
+    self.n_query    = -1 #(change depends on input)
+    self.feature    = model_func(flatten=flatten, leakyrelu=leakyrelu)
+    self.feat_dim   = self.feature.final_feat_dim
+    self.change_way = change_way  #some methods allow different_way classification during training and test
+    self.tf_writer = SummaryWriter(log_dir=tf_path) if tf_path is not None else None
+
+  @abstractmethod
+  def set_forward(self,x,is_feature):
+    pass
+
+  @abstractmethod
+  def set_forward_loss(self, x):
+    pass
+
+  def forward(self,x):
+    out  = self.feature.forward(x)
+    return out
+
+  def parse_feature(self,x,is_feature):
+    x = x.cuda()
+    if is_feature:
+      z_all = x
+    else:
+      x           = x.contiguous().view( self.n_way * (self.n_support + self.n_query), *x.size()[2:])
+      z_all       = self.feature.forward(x)
+      z_all       = z_all.view( self.n_way, self.n_support + self.n_query, -1)
+    z_support   = z_all[:, :self.n_support]
+    z_query     = z_all[:, self.n_support:]
+
+    return z_support, z_query
+
+  def correct(self, x):
+    scores, loss = self.set_forward_loss(x)
+    y_query = np.repeat(range( self.n_way ), self.n_query )
+
+    topk_scores, topk_labels = scores.data.topk(1, 1, True, True)
+    topk_ind = topk_labels.cpu().numpy()
+    top1_correct = np.sum(topk_ind[:,0] == y_query)
+    return float(top1_correct), len(y_query), loss.item()*len(y_query)
+
+
+  def train_loop(self, epoch, train_loader_ori,  optimizer, total_it):
+    print_freq = len(train_loader_ori) // 10
+    avg_loss=0
+    for i, (x_ori, global_y ) in enumerate(train_loader_ori):
+      self.n_query = x_ori.size(1) - self.n_support
+      if self.change_way:
+        self.n_way  = x_ori.size(0)
+      optimizer.zero_grad()
+
+      epsilon_list = [0.8, 0.08, 0.008]
+
+      scores_fsl_ori, loss_fsl_ori, scores_cls_ori, loss_cls_ori, scores_fsl_adv, loss_fsl_adv, scores_cls_adv, loss_cls_adv, scores_fsl_x, loss_fsl_x = self.set_forward_loss_CausalStyle(x_ori, global_y, epsilon_list)
+
+      # consistency loss between initial and styleAdv
+      if(scores_fsl_ori.equal(scores_fsl_adv)):
+        loss_fsl_KL = 0
+      else:
+        loss_fsl_KL = consistency_loss(scores_fsl_ori, scores_fsl_adv, 'KL3')
+      
+      if(scores_cls_ori.equal(scores_cls_adv)):
+        loss_cls_KL = 0
+      else:
+        loss_cls_KL = consistency_loss(scores_cls_ori, scores_cls_adv,'KL3')
+
+      # consistency loss between initial and x
+      if(scores_fsl_ori.equal(scores_fsl_x)):
+        loss_fsl_KL_x = 0
+      else:
+        loss_fsl_KL_x = consistency_loss(scores_fsl_ori, scores_fsl_x, 'KL3')
+      
+  
+      # final loss 
+      #k1, k2, k3, k4, k5, k6 = 1, 1, 1, 1, 0, 0     
+      #loss = k1 * loss_fsl_ori + k2 * loss_fsl_adv + k3 * loss_fsl_KL + k4 * loss_cls_ori + k5 * loss_cls_adv + k6 * loss_cls_KL
+      
+      print('loss_fsl_x:', loss_fsl_x, 'loss_fsl_KL_x:', loss_fsl_KL_x)
+      loss = loss_fsl_ori + loss_fsl_adv + loss_fsl_KL + loss_cls_ori + loss_fsl_x + loss_fsl_KL_x
+      
+      loss.backward()
+      optimizer.step()
+      avg_loss = avg_loss+loss.item()
+
+      if (i + 1) % print_freq==0:
+        print('Epoch {:d} | Batch {:d}/{:d} | Loss {:f}'.format(epoch, i + 1, len(train_loader_ori), avg_loss/float(i+1)))
+      if (total_it + 1) % 10 == 0 and self.tf_writer is not None:
+        self.tf_writer.add_scalar('loss_fsl_ori:', loss_fsl_ori.item(), total_it +1)
+        self.tf_writer.add_scalar('loss_fsl_adv:', loss_fsl_adv.item(), total_it +1)
+        self.tf_writer.add_scalar('loss_fsl_x:', loss_fsl_adv.item(), total_it +1)
+        #self.tf_writer.add_scalar('loss_fsl_KL:', loss_fsl_KL.item(), total_it +1)
+        self.tf_writer.add_scalar('loss_cls_ori:', loss_cls_ori.item(), total_it +1)
+        #self.tf_writer.add_scalar('loss_cls_adv:', loss_cls_adv.item(), total_it +1)
+        self.tf_writer.add_scalar('loss_fsl_Kl:', loss_fsl_KL, total_it +1)
+        self.tf_writer.add_scalar('loss_fsl_Kl_x:', loss_fsl_KL_x, total_it +1)
+        self.tf_writer.add_scalar('total_loss:', loss.item(), total_it +1)
+        # intial
+        self.tf_writer.add_scalar(self.method + '/query_loss', loss.item(), total_it + 1)
+         
+      total_it += 1
+    return total_it
+
+  def test_loop(self, test_loader, record = None):
+    loss = 0.
+    count = 0
+    acc_all = []
+
+    iter_num = len(test_loader)
+    for i, (x,_) in enumerate(test_loader):
+      self.n_query = x.size(1) - self.n_support
+      if self.change_way:
+        self.n_way  = x.size(0)
+      correct_this, count_this, loss_this = self.correct(x)
+      acc_all.append(correct_this/ count_this*100  )
+      loss += loss_this
+      count += count_this
+
+    acc_all  = np.asarray(acc_all)
+    acc_mean = np.mean(acc_all)
+    acc_std  = np.std(acc_all)
+    print('--- %d Loss = %.6f ---' %(iter_num,  loss/count))
+    print('--- %d Test Acc = %4.2f%% +- %4.2f%% ---' %(iter_num,  acc_mean, 1.96* acc_std/np.sqrt(iter_num)))
+
+    return acc_mean
diff --git a/methods/meta_template_StyleAdv_RN_GNN.py b/methods/meta_template_StyleAdv_RN_GNN.py
new file mode 100644
index 0000000000000000000000000000000000000000..b0915645228d1f6126fdaafa1d29115bc589e23e
--- /dev/null
+++ b/methods/meta_template_StyleAdv_RN_GNN.py
@@ -0,0 +1,126 @@
+import torch.nn as nn
+import torch
+import numpy as np
+from abc import abstractmethod
+from tensorboardX import SummaryWriter
+import torch.nn.functional as F
+from methods.tool_func import consistency_loss
+
+ 
+class MetaTemplate(nn.Module):
+  def __init__(self, model_func, n_way, n_support, flatten=True, leakyrelu=False, tf_path=None, change_way=True):
+    super(MetaTemplate, self).__init__()
+    self.n_way      = n_way
+    self.n_support  = n_support
+    self.n_query    = -1 #(change depends on input)
+    self.feature    = model_func(flatten=flatten, leakyrelu=leakyrelu)
+    self.feat_dim   = self.feature.final_feat_dim
+    self.change_way = change_way  #some methods allow different_way classification during training and test
+    self.tf_writer = SummaryWriter(log_dir=tf_path) if tf_path is not None else None
+
+  @abstractmethod
+  def set_forward(self,x,is_feature):
+    pass
+
+  @abstractmethod
+  def set_forward_loss(self, x):
+    pass
+
+  def forward(self,x):
+    out  = self.feature.forward(x)
+    return out
+
+  def parse_feature(self,x,is_feature):
+    x = x.cuda()
+    if is_feature:
+      z_all = x
+    else:
+      x           = x.contiguous().view( self.n_way * (self.n_support + self.n_query), *x.size()[2:])
+      z_all       = self.feature.forward(x)
+      z_all       = z_all.view( self.n_way, self.n_support + self.n_query, -1)
+    z_support   = z_all[:, :self.n_support]
+    z_query     = z_all[:, self.n_support:]
+
+    return z_support, z_query
+
+  def correct(self, x):
+    scores, loss = self.set_forward_loss(x)
+    y_query = np.repeat(range( self.n_way ), self.n_query )
+
+    topk_scores, topk_labels = scores.data.topk(1, 1, True, True)
+    topk_ind = topk_labels.cpu().numpy()
+    top1_correct = np.sum(topk_ind[:,0] == y_query)
+    return float(top1_correct), len(y_query), loss.item()*len(y_query)
+
+
+  def train_loop(self, epoch, train_loader_ori,  optimizer, total_it):
+    print_freq = len(train_loader_ori) // 10
+    avg_loss=0
+    for i, (x_ori, global_y ) in enumerate(train_loader_ori):
+      self.n_query = x_ori.size(1) - self.n_support
+      if self.change_way:
+        self.n_way  = x_ori.size(0)
+      optimizer.zero_grad()
+
+      epsilon_list = [0.8, 0.08, 0.008]
+
+      scores_fsl_ori, loss_fsl_ori, scores_cls_ori, loss_cls_ori, scores_fsl_adv, loss_fsl_adv, scores_cls_adv, loss_cls_adv = self.set_forward_loss_StyAdv(x_ori, global_y, epsilon_list)
+
+      # consistency loss between initial and styleAdv
+      if(scores_fsl_ori.equal(scores_fsl_adv)):
+        loss_fsl_KL = 0
+      else:
+        loss_fsl_KL = consistency_loss(scores_fsl_ori, scores_fsl_adv, 'KL3')
+      
+      if(scores_cls_ori.equal(scores_cls_adv)):
+        loss_cls_KL = 0
+      else:
+        loss_cls_KL = consistency_loss(scores_cls_ori, scores_cls_adv,'KL3')
+      
+  
+      # final loss 
+      k1, k2, k3, k4, k5, k6 = 1, 1, 1, 1, 0, 0     
+      loss = k1 * loss_fsl_ori + k2 * loss_fsl_adv + k3 * loss_fsl_KL + k4 * loss_cls_ori + k5 * loss_cls_adv + k6 * loss_cls_KL
+      #loss = loss_fsl_ori
+      loss.backward()
+      optimizer.step()
+      avg_loss = avg_loss+loss.item()
+
+      if (i + 1) % print_freq==0:
+        print('Epoch {:d} | Batch {:d}/{:d} | Loss {:f}'.format(epoch, i + 1, len(train_loader_ori), avg_loss/float(i+1)))
+      if (total_it + 1) % 10 == 0 and self.tf_writer is not None:
+        self.tf_writer.add_scalar('loss_fsl_ori:', loss_fsl_ori.item(), total_it +1)
+        self.tf_writer.add_scalar('loss_fsl_adv:', loss_fsl_adv.item(), total_it +1)
+        #self.tf_writer.add_scalar('loss_fsl_KL:', loss_fsl_KL.item(), total_it +1)
+        self.tf_writer.add_scalar('loss_cls_ori:', loss_cls_ori.item(), total_it +1)
+        self.tf_writer.add_scalar('loss_cls_adv:', loss_cls_adv.item(), total_it +1)
+        #self.tf_writer.add_scalar('loss_cls_Kl:', loss_cls_KL.item(), total_it +1)
+        self.tf_writer.add_scalar('total_loss:', loss.item(), total_it +1)
+        # intial
+        self.tf_writer.add_scalar(self.method + '/query_loss', loss.item(), total_it + 1)
+         
+      total_it += 1
+    return total_it
+
+  def test_loop(self, test_loader, record = None):
+    loss = 0.
+    count = 0
+    acc_all = []
+
+    iter_num = len(test_loader)
+    for i, (x,_) in enumerate(test_loader):
+      self.n_query = x.size(1) - self.n_support
+      if self.change_way:
+        self.n_way  = x.size(0)
+      correct_this, count_this, loss_this = self.correct(x)
+      acc_all.append(correct_this/ count_this*100  )
+      loss += loss_this
+      count += count_this
+
+    acc_all  = np.asarray(acc_all)
+    acc_mean = np.mean(acc_all)
+    acc_std  = np.std(acc_all)
+    print('--- %d Loss = %.6f ---' %(iter_num,  loss/count))
+    print('--- %d Test Acc = %4.2f%% +- %4.2f%% ---' %(iter_num,  acc_mean, 1.96* acc_std/np.sqrt(iter_num)))
+
+    return acc_mean
diff --git a/methods/model_utils.py b/methods/model_utils.py
new file mode 100644
index 0000000000000000000000000000000000000000..0ed25646780b6ddf9a8c582e82f6ef55e333abcc
--- /dev/null
+++ b/methods/model_utils.py
@@ -0,0 +1,238 @@
+import math
+import torch
+import warnings
+import ml_collections
+import random
+import torch.nn.functional as F
+
+
+def DiffAugment(x, types=[], prob = 0.5, detach=True):
+    """
+    x.shape = B, C, H, W
+    """
+    if random.random() < prob:
+        with torch.set_grad_enabled(not detach):
+            x = random_hflip(x, prob=0.5)
+            for p in types:
+                for f in AUGMENT_FNS[p]:
+                    x = f(x)
+            x = x.contiguous()
+    return x
+
+
+def random_hflip(tensor, prob):
+    if prob > random.random():
+        return tensor
+    return torch.flip(tensor, dims=(3,))
+
+def rand_brightness(x):
+    x = x + (torch.rand(x.size(0), 1, 1, 1, dtype=x.dtype, device=x.device) - 0.5)
+    return x
+
+def rand_saturation(x):
+    x_mean = x.mean(dim=1, keepdim=True)
+    x = (x - x_mean) * (torch.rand(x.size(0), 1, 1, 1, dtype=x.dtype, device=x.device) * 2) + x_mean
+    return x
+
+def rand_contrast(x):
+    x_mean = x.mean(dim=[1, 2, 3], keepdim=True)
+    x = (x - x_mean) * (torch.rand(x.size(0), 1, 1, 1, dtype=x.dtype, device=x.device) + 0.5) + x_mean
+    return x
+
+def rand_translation(x, ratio=0.125):
+    shift_x, shift_y = int(x.size(2) * ratio + 0.5), int(x.size(3) * ratio + 0.5)
+    translation_x = torch.randint(-shift_x, shift_x + 1, size=[x.size(0), 1, 1], device=x.device)
+    translation_y = torch.randint(-shift_y, shift_y + 1, size=[x.size(0), 1, 1], device=x.device)
+    grid_batch, grid_x, grid_y = torch.meshgrid(
+        torch.arange(x.size(0), dtype=torch.long, device=x.device),
+        torch.arange(x.size(2), dtype=torch.long, device=x.device),
+        torch.arange(x.size(3), dtype=torch.long, device=x.device),
+    )
+    grid_x = torch.clamp(grid_x + translation_x + 1, 0, x.size(2) + 1)
+    grid_y = torch.clamp(grid_y + translation_y + 1, 0, x.size(3) + 1)
+    x_pad = F.pad(x, [1, 1, 1, 1, 0, 0, 0, 0])
+    x = x_pad.permute(0, 2, 3, 1).contiguous()[grid_batch, grid_x, grid_y].permute(0, 3, 1, 2)
+    return x
+
+def rand_offset(x, ratio=1, ratio_h=1, ratio_v=1):
+    w, h = x.size(2), x.size(3)
+
+    imgs = []
+    for img in x.unbind(dim = 0):
+        max_h = int(w * ratio * ratio_h)
+        max_v = int(h * ratio * ratio_v)
+
+        value_h = random.randint(0, max_h) * 2 - max_h
+        value_v = random.randint(0, max_v) * 2 - max_v
+
+        if abs(value_h) > 0:
+            img = torch.roll(img, value_h, 2)
+
+        if abs(value_v) > 0:
+            img = torch.roll(img, value_v, 1)
+
+        imgs.append(img)
+
+    return torch.stack(imgs)
+
+def rand_offset_h(x, ratio=1):
+    return rand_offset(x, ratio=1, ratio_h=ratio, ratio_v=0)
+
+def rand_offset_v(x, ratio=1):
+    return rand_offset(x, ratio=1, ratio_h=0, ratio_v=ratio)
+
+def rand_cutout(x, ratio=0.5):
+    cutout_size = int(x.size(2) * ratio + 0.5), int(x.size(3) * ratio + 0.5)
+    offset_x = torch.randint(0, x.size(2) + (1 - cutout_size[0] % 2), size=[x.size(0), 1, 1], device=x.device)
+    offset_y = torch.randint(0, x.size(3) + (1 - cutout_size[1] % 2), size=[x.size(0), 1, 1], device=x.device)
+    grid_batch, grid_x, grid_y = torch.meshgrid(
+        torch.arange(x.size(0), dtype=torch.long, device=x.device),
+        torch.arange(cutout_size[0], dtype=torch.long, device=x.device),
+        torch.arange(cutout_size[1], dtype=torch.long, device=x.device),
+    )
+    grid_x = torch.clamp(grid_x + offset_x - cutout_size[0] // 2, min=0, max=x.size(2) - 1)
+    grid_y = torch.clamp(grid_y + offset_y - cutout_size[1] // 2, min=0, max=x.size(3) - 1)
+    mask = torch.ones(x.size(0), x.size(2), x.size(3), dtype=x.dtype, device=x.device)
+    mask[grid_batch, grid_x, grid_y] = 0
+    x = x * mask.unsqueeze(1)
+    return x
+
+
+AUGMENT_FNS = {
+    'color': [rand_brightness, rand_saturation, rand_contrast],
+    'offset': [rand_offset],
+    'offset_h': [rand_offset_h],
+    'offset_v': [rand_offset_v],
+    'translation': [rand_translation],
+    'cutout': [rand_cutout],
+}
+
+
+def _no_grad_trunc_normal_(tensor, mean, std, a, b):
+    # Cut & paste from PyTorch official master until it's in a few official releases - RW
+    # Method based on https://people.sc.fsu.edu/~jburkardt/presentations/truncated_normal.pdf
+    def norm_cdf(x):
+        # Computes standard normal cumulative distribution function
+        return (1. + math.erf(x / math.sqrt(2.))) / 2.
+
+    if (mean < a - 2 * std) or (mean > b + 2 * std):
+        warnings.warn("mean is more than 2 std from [a, b] in nn.init.trunc_normal_. "
+                      "The distribution of values may be incorrect.",
+                      stacklevel=2)
+
+    with torch.no_grad():
+        # Values are generated by using a truncated uniform distribution and
+        # then using the inverse CDF for the normal distribution.
+        # Get upper and lower cdf values
+        l = norm_cdf((a - mean) / std)
+        u = norm_cdf((b - mean) / std)
+
+        # Uniformly fill tensor with values from [l, u], then translate to
+        # [2l-1, 2u-1].
+        tensor.uniform_(2 * l - 1, 2 * u - 1)
+
+        # Use inverse cdf transform for normal distribution to get truncated
+        # standard normal
+        tensor.erfinv_()
+
+        # Transform to proper mean, std
+        tensor.mul_(std * math.sqrt(2.))
+        tensor.add_(mean)
+
+        # Clamp to ensure it's in the proper range
+        tensor.clamp_(min=a, max=b)
+        return tensor
+
+
+def trunc_normal_(tensor, mean=0., std=1., a=-2., b=2.):
+    # type: (Tensor, float, float, float, float) -> Tensor
+    return _no_grad_trunc_normal_(tensor, mean, std, a, b)
+
+
+def get_testing():
+    """Returns a minimal configuration for testing."""
+    config = ml_collections.ConfigDict()
+    config.patches = ml_collections.ConfigDict({'size': (16, 16)})
+    config.hidden_size = 1
+    config.transformer = ml_collections.ConfigDict()
+    config.transformer.mlp_dim = 1
+    config.transformer.num_heads = 1
+    config.transformer.num_layers = 1
+    config.transformer.attention_dropout_rate = 0.0
+    config.transformer.dropout_rate = 0.1
+    config.classifier = 'token'
+    config.representation_size = None
+    return config
+
+
+def get_b16_config():
+    """Returns the ViT-B/16 configuration."""
+    config = ml_collections.ConfigDict()
+    config.patches = ml_collections.ConfigDict({'size': (16, 16)})
+    config.hidden_size = 768
+    config.transformer = ml_collections.ConfigDict()
+    config.transformer.mlp_dim = 3072
+    config.transformer.num_heads = 12
+    config.transformer.num_layers = 12
+    config.transformer.attention_dropout_rate = 0.0
+    config.transformer.dropout_rate = 0.1
+    config.classifier = 'token'
+    config.representation_size = None
+    return config
+
+
+def get_r50_b16_config():
+    """Returns the Resnet50 + ViT-B/16 configuration."""
+    config = get_b16_config()
+    del config.patches.size
+    config.patches.grid = (14, 14)
+    config.resnet = ml_collections.ConfigDict()
+    config.resnet.num_layers = (3, 4, 9)
+    config.resnet.width_factor = 1
+    return config
+
+
+def get_b32_config():
+    """Returns the ViT-B/32 configuration."""
+    config = get_b16_config()
+    config.patches.size = (32, 32)
+    return config
+
+
+def get_l16_config():
+    """Returns the ViT-L/16 configuration."""
+    config = ml_collections.ConfigDict()
+    config.patches = ml_collections.ConfigDict({'size': (16, 16)})
+    config.hidden_size = 1024
+    config.transformer = ml_collections.ConfigDict()
+    config.transformer.mlp_dim = 4096
+    config.transformer.num_heads = 16
+    config.transformer.num_layers = 24
+    config.transformer.attention_dropout_rate = 0.0
+    config.transformer.dropout_rate = 0.1
+    config.classifier = 'token'
+    config.representation_size = None
+    return config
+
+
+def get_l32_config():
+    """Returns the ViT-L/32 configuration."""
+    config = get_l16_config()
+    config.patches.size = (32, 32)
+    return config
+
+
+def get_h14_config():
+    """Returns the ViT-L/16 configuration."""
+    config = ml_collections.ConfigDict()
+    config.patches = ml_collections.ConfigDict({'size': (14, 14)})
+    config.hidden_size = 1280
+    config.transformer = ml_collections.ConfigDict()
+    config.transformer.mlp_dim = 5120
+    config.transformer.num_heads = 16
+    config.transformer.num_layers = 32
+    config.transformer.attention_dropout_rate = 0.0
+    config.transformer.dropout_rate = 0.1
+    config.classifier = 'token'
+    config.representation_size = None
+    return config
diff --git a/methods/protonet.py b/methods/protonet.py
new file mode 100644
index 0000000000000000000000000000000000000000..15e1ceb9776a40a059469fdbe4d66771478e3738
--- /dev/null
+++ b/methods/protonet.py
@@ -0,0 +1,57 @@
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+
+
+class ProtoNet(nn.Module):
+    def __init__(self, backbone):
+        super().__init__()
+
+        # bias & scale of cosine classifier
+        self.bias = nn.Parameter(torch.FloatTensor(1).fill_(0), requires_grad=True)
+        self.scale_cls = nn.Parameter(torch.FloatTensor(1).fill_(10), requires_grad=True)
+
+        # backbone
+        self.backbone = backbone
+
+    def cos_classifier(self, w, f):
+        """
+        w.shape = B, nC, d
+        f.shape = B, M, d
+        """
+        f = F.normalize(f, p=2, dim=f.dim()-1, eps=1e-12)
+        w = F.normalize(w, p=2, dim=w.dim()-1, eps=1e-12)
+
+        cls_scores = f @ w.transpose(1, 2) # B, M, nC
+        cls_scores = self.scale_cls * (cls_scores + self.bias)
+        return cls_scores
+
+    def forward(self, supp_x, supp_y, x):
+        """
+        supp_x.shape = [B, nSupp, C, H, W]
+        supp_y.shape = [B, nSupp]
+        x.shape = [B, nQry, C, H, W]
+        """
+        num_classes = supp_y.max() + 1 # NOTE: assume B==1
+        B, nSupp, C, H, W = supp_x.shape
+        supp_f = self.backbone.forward(supp_x.contiguous().view(-1, C, H, W))
+        '''
+        # for test vit_multiBlock (equals to forward())
+        supp_f = self.backbone.forward_block1(supp_x.contiguous().view(-1, C, H, W))
+        supp_f =  self.backbone.forward_block2(supp_f)
+        supp_f =  self.backbone.forward_block3(supp_f)
+        supp_f =  self.backbone.forward_block4(supp_f)
+        supp_f =  self.backbone.forward_rest(supp_f)
+        '''
+        supp_f = supp_f.view(B, nSupp, -1)
+        supp_y_1hot = F.one_hot(supp_y, num_classes).transpose(1, 2) # B, nC, nSupp
+
+        # B, nC, nSupp x B, nSupp, d = B, nC, d
+        prototypes = torch.bmm(supp_y_1hot.float(), supp_f)
+        prototypes = prototypes / supp_y_1hot.sum(dim=2, keepdim=True) # NOTE: may div 0 if some classes got 0 images
+
+        feat = self.backbone.forward(x.view(-1, C, H, W))
+        feat = feat.view(B, x.shape[1], -1) # B, nQry, d
+
+        logits = self.cos_classifier(prototypes, feat) # B, nQry, nC
+        return logits
diff --git a/methods/tool_func.py b/methods/tool_func.py
new file mode 100644
index 0000000000000000000000000000000000000000..92f7761dc8daaac4c1e184b10d0768fd752739ac
--- /dev/null
+++ b/methods/tool_func.py
@@ -0,0 +1,68 @@
+
+import torch
+import torch.nn as nn
+import random
+import numpy as np
+import torch.nn.functional as F
+
+EPS=0.00001
+#P_THRED = 0.2
+P_THRED = 0.4
+START_EPS = 16/255
+
+def calc_mean_std(feat, eps=1e-5):
+    # eps is a small value added to the variance to avoid divide-by-zero.
+    size = feat.size()
+    assert (len(size) == 4)
+    N, C = size[:2]
+    feat_var = feat.view(N, C, -1).var(dim=2) + eps
+    feat_std = feat_var.sqrt().view(N, C, 1, 1)
+    feat_mean = feat.view(N, C, -1).mean(dim=2).view(N, C, 1, 1)
+    return feat_mean, feat_std
+
+def fgsm_attack(init_input, epsilon, data_grad):
+    # random start init_input
+    init_input = init_input + torch.empty_like(init_input).uniform_(START_EPS, START_EPS)
+
+    sign_data_grad = data_grad.sign()
+    adv_input = init_input + epsilon*sign_data_grad
+    return adv_input
+
+def changeNewAdvStyle(input_fea, new_styleAug_mean, new_styleAug_std, p_thred):
+    if(new_styleAug_mean=='None'):
+        return input_fea
+    
+    p = np.random.uniform()
+    if( p < p_thred):
+        return input_fea
+
+    feat_size = input_fea.size()
+    ori_style_mean, ori_style_std = calc_mean_std(input_fea)
+    normalized_fea = (input_fea - ori_style_mean.expand(feat_size)) / ori_style_std.expand(feat_size)
+    styleAug_fea  = normalized_fea * new_styleAug_std.expand(feat_size) + new_styleAug_mean.expand(feat_size)
+    return styleAug_fea
+
+def consistency_loss(scoresM1, scoresM2, type='euclidean'):
+    if(type=='euclidean'):
+        avg_pro = (scoresM1 + scoresM2)/2.0
+        matrix1 = torch.sqrt(torch.sum((scoresM1 - avg_pro)**2,dim=1))
+        matrix2 = torch.sqrt(torch.sum((scoresM2 - avg_pro)**2,dim=1))
+        dis1 = torch.mean(matrix1)
+        dis2 = torch.mean(matrix2)
+        dis = (dis1+dis2)/2.0
+    elif(type=='KL1'):
+        avg_pro = (scoresM1 + scoresM2)/2.0
+        matrix1 = torch.sum( F.softmax(scoresM1,dim=-1) * (F.log_softmax(scoresM1, dim=-1) - F.log_softmax(avg_pro,dim=-1)), 1)
+        matrix2 = torch.sum( F.softmax(scoresM2,dim=-1) * (F.log_softmax(scoresM2, dim=-1) - F.log_softmax(avg_pro,dim=-1)), 1)
+        dis1 = torch.mean(matrix1)
+        dis2 = torch.mean(matrix2)
+        dis = (dis1+dis2)/2.0
+    elif(type=='KL2'):
+        matrix = torch.sum( F.softmax(scoresM2,dim=-1) * (F.log_softmax(scoresM2, dim=-1) - F.log_softmax(scoresM1,dim=-1)), 1)
+        dis = torch.mean(matrix)
+    elif(type=='KL3'):
+        matrix = torch.sum( F.softmax(scoresM1,dim=-1) * (F.log_softmax(scoresM1, dim=-1) - F.log_softmax(scoresM2,dim=-1)), 1)
+        dis = torch.mean(matrix)
+    else:
+        return
+    return dis
diff --git a/options.py b/options.py
new file mode 100644
index 0000000000000000000000000000000000000000..f7b4bb9ccb6ffb1a9cf57ae1970d10d4e12be975
--- /dev/null
+++ b/options.py
@@ -0,0 +1,126 @@
+import numpy as np
+import os
+import glob
+import torch
+import argparse
+
+def parse_args(script):
+  parser = argparse.ArgumentParser(description= 'few-shot script %s' %(script))
+  parser.add_argument('--dataset', default='multi', help='miniImagenet/cub/cars/places/plantae, specify multi for training with multiple domains')
+  parser.add_argument('--testset', default='cub', help='cub/cars/places/plantae, valid only when dataset=multi')
+  parser.add_argument('--model', default='ResNet10', help='model: Conv{4|6} / ResNet{10|18|34}') # we use ResNet10 in the paper
+  parser.add_argument('--method', default='baseline',   help='baseline/baseline++/protonet/matchingnet/relationnet{_softmax}/gnnnet')
+  parser.add_argument('--train_n_way' , default=5, type=int,  help='class num to classify for training')
+  parser.add_argument('--test_n_way'  , default=5, type=int,  help='class num to classify for testing (validation) ')
+  parser.add_argument('--n_shot'      , default=5, type=int,  help='number of labeled data in each class, same as n_support')
+  parser.add_argument('--train_aug'   , action='store_true',  help='perform data augmentation or not during training ')
+  parser.add_argument('--name'        , default='tmp', type=str, help='')
+  parser.add_argument('--save_dir'    , default='./output', type=str, help='')
+  #parser.add_argument('--data_dir'    , default='./filelists', type=str, help='')
+  parser.add_argument('--data_dir'    , default='/scratch/yuqian_fu/Data/CDFSL/', type=str, help='')
+
+  # for finetuning
+  parser.add_argument('--finetune_epoch', default=50, type=int, help='')
+  parser.add_argument('--resume_dir', default='Pretrain', type=str, help='continue from previous trained model with largest epoch')
+  
+  if script == 'train':
+    #parser.add_argument('--num_classes' , default=200, type=int, help='total number of classes in softmax, only used in baseline')
+    # bug fixed
+    parser.add_argument('--num_classes' , default=64, type=int, help='total number of classes in softmax, only used in baseline')
+    parser.add_argument('--save_freq'   , default=100, type=int, help='Save frequency')
+    parser.add_argument('--target_set', default='cub', help='cub/cars/places/plantae, use the extremely labeled target data')
+    parser.add_argument('--target_num_label', default=5, type=int, help='number of labeled target base images per class')
+    parser.add_argument('--start_epoch' , default=0, type=int,help ='Starting epoch')
+    parser.add_argument('--stop_epoch'  , default=200, type=int, help ='Stopping epoch')
+    parser.add_argument('--resume'      , default='', type=str, help='continue from previous trained model with largest epoch')
+    parser.add_argument('--resume_epoch', default=-1, type=int, help='')
+    parser.add_argument('--warmup'      , default='gg3b0', type=str, help='continue from baseline, neglected if resume is true')
+  elif script == 'test':
+    parser.add_argument('--split'       , default='novel', help='base/val/novel')
+    parser.add_argument('--save_epoch', default=400, type=int,help ='load the model trained in x epoch, use the best model if x is -1')
+    parser.add_argument('--warmup'      , default='gg3bo', type = str, help = 'just for insert the test function into the training.')
+    #parser.add_argument(''--target_set', default='cub', help='
+    parser.add_argument('--stop_epoch'  , default=400, type=int, help ='Stopping epoch')
+
+  else:
+    raise ValueError('Unknown script')
+
+  return parser.parse_args()
+
+def get_assigned_file(checkpoint_dir,num):
+  assign_file = os.path.join(checkpoint_dir, '{:d}.tar'.format(num))
+  return assign_file
+
+def get_resume_file(checkpoint_dir, resume_epoch=-1):
+  filelist = glob.glob(os.path.join(checkpoint_dir, '*.tar'))
+  if len(filelist) == 0:
+    return None
+
+  filelist =  [ x  for x in filelist if os.path.basename(x) != 'best_model.tar' ]
+  epochs = np.array([int(os.path.splitext(os.path.basename(x))[0]) for x in filelist])
+  max_epoch = np.max(epochs)
+  epoch = max_epoch if resume_epoch == -1 else resume_epoch
+  resume_file = os.path.join(checkpoint_dir, '{:d}.tar'.format(epoch))
+  return resume_file
+
+def get_best_file(checkpoint_dir):
+  best_file = os.path.join(checkpoint_dir, 'best_model.tar')
+  if os.path.isfile(best_file):
+    return best_file
+  else:
+    return get_resume_file(checkpoint_dir)
+
+def load_warmup_state(filename, method):
+  print('  load pre-trained model file: {}'.format(filename))
+  warmup_resume_file = get_resume_file(filename)
+  print(' warmup_resume_file:', warmup_resume_file)
+  tmp = torch.load(warmup_resume_file)
+  if tmp is not None:
+    state = tmp['state']
+    state_keys = list(state.keys())
+    for i, key in enumerate(state_keys):
+      if 'relationnet' in method and "feature." in key:
+        newkey = key.replace("feature.","")
+        state[newkey] = state.pop(key)
+      elif method == 'gnnnet' and 'feature.' in key:
+        newkey = key.replace("feature.","")
+        state[newkey] = state.pop(key)
+      elif method == 'matchingnet' and 'feature.' in key and '.7.' not in key:
+        newkey = key.replace("feature.","")
+        state[newkey] = state.pop(key)
+      elif method == 'tpn' and 'feature.' in key:
+        newkey = key.replace("feature.","")
+        state[newkey] = state.pop(key)
+      else:
+        state.pop(key)
+  else:
+    raise ValueError(' No pre-trained encoder file found!')
+  return state
+
+
+
+# added in 20210110
+def load_warmup_state_speci(filename, method):
+  print('  load pre-trained model file: {}'.format(filename))
+  #warmup_resume_file = get_resume_file(filename)
+  warmup_resume_file = filename
+  print(' warmup_resume_file:', warmup_resume_file)
+  tmp = torch.load(warmup_resume_file)
+  if tmp is not None:
+    state = tmp['state']
+    state_keys = list(state.keys())
+    for i, key in enumerate(state_keys):
+      if 'relationnet' in method and "feature." in key:
+        newkey = key.replace("feature.","")
+        state[newkey] = state.pop(key)
+      elif method == 'gnnnet' and 'feature.' in key:
+        newkey = key.replace("feature.","")
+        state[newkey] = state.pop(key)
+      elif method == 'matchingnet' and 'feature.' in key and '.7.' not in key:
+        newkey = key.replace("feature.","")
+        state[newkey] = state.pop(key)
+      else:
+        state.pop(key)
+  else:
+    raise ValueError(' No pre-trained encoder file found!')
+  return state
diff --git a/tackle_dataset.py b/tackle_dataset.py
new file mode 100644
index 0000000000000000000000000000000000000000..de8152636b164857e8e148178e87904f2c30c751
--- /dev/null
+++ b/tackle_dataset.py
@@ -0,0 +1,204 @@
+import os
+import json
+
+mini_global_path = '/scratch/yuqian_fu/Data/CDFSL/miniImagenet/'
+
+#imagenet base
+def miniImg(flag='test'):
+    file_path = mini_global_path + flag + '.json'
+    with open(file_path, 'r') as file:
+        data = json.load(file)
+
+    print(data.keys())
+    image_names = data['image_names']
+    lengthes = len(image_names)
+    print(lengthes)
+
+    for i in range(lengthes):
+        print(image_names[i])
+        splits = image_names[i].split('\n')
+        print(splits)
+        if (flag == 'novel'):
+            new_line = mini_global_path + 'test' + '/n' + splits[-2] + '/n' + splits[-1]
+        else:
+            new_line = mini_global_path + flag + '/n' + splits[-2] + '/n' + splits[-1]
+        print(new_line)
+        if os.path.exists(new_line):
+            pass
+        else:
+            print('file:', new_line, 'does not exist!')
+            break
+        data['image_names'][i] = new_line
+
+    with open(file_path, 'w') as file:
+        json.dump(data, file, indent=4)
+
+
+    with open(file_path, 'r') as file:
+        data = json.load(file)
+
+    for i in range(lengthes):
+        print(data['image_names'][i])
+    return
+
+
+#cub 
+mini_global_path_cub = '/scratch/yuqian_fu/Data/CDFSL/cub/'
+def cub(flag='base'):
+    file_path = mini_global_path_cub + flag + '.json'
+    with open(file_path, 'r') as file:
+        data = json.load(file)
+
+    print(data.keys())
+    image_names = data['image_names']
+    lengthes = len(image_names)
+    print(lengthes)
+
+    for i in range(lengthes):
+        print(image_names[i])
+        new_line = image_names[i].replace('/wy_test/qiuxingyu/CrossDomainFewShot/filelists/cub/', mini_global_path_cub)
+        print(new_line)
+        if os.path.exists(new_line):
+            pass
+        else:
+            print('file:', new_line, 'does not exist!')
+            break
+        data['image_names'][i] = new_line
+
+    with open(file_path, 'w') as file:
+        json.dump(data, file, indent=4)
+
+    with open(file_path, 'r') as file:
+        data = json.load(file)
+    for i in range(lengthes):
+        print(data['image_names'][i])
+    return
+
+#cars 
+mini_global_path_cars = '/scratch/yuqian_fu/Data/CDFSL/cars/'
+def cars(flag='base'):
+    file_path = mini_global_path_cars + flag + '.json'
+    with open(file_path, 'r') as file:
+        data = json.load(file)
+
+    print(data.keys())
+    image_names = data['image_names']
+    lengthes = len(image_names)
+    print(lengthes)
+
+    for i in range(lengthes):
+        print(image_names[i])
+        new_line = image_names[i].replace('/wy_test/qiuxingyu/CrossDomainFewShot/filelists/cars/', mini_global_path_cars)
+        print(new_line)
+        if os.path.exists(new_line):
+            pass
+        else:
+            print('file:', new_line, 'does not exist!')
+            break
+        data['image_names'][i] = new_line
+
+    with open(file_path, 'w') as file:
+        json.dump(data, file, indent=4)
+
+    with open(file_path, 'r') as file:
+        data = json.load(file)
+    for i in range(lengthes):
+        print(data['image_names'][i])
+    return
+   
+
+
+#places
+#mini_global_path_places = '/scratch/yuqian_fu/Data/CDFSL/places365_standard/'
+mini_global_path_places = '/scratch/yuqian_fu/Data/CDFSL/places/'
+def places(flag='base'):
+    file_path = mini_global_path_places + flag + '.json'
+    with open(file_path, 'r') as file:
+        data = json.load(file)
+
+    print(data.keys())
+    image_names = data['image_names']
+    lengthes = len(image_names)
+    print(lengthes)
+
+    for i in range(lengthes):
+        print(image_names[i])
+        #new_line = image_names[i].replace('/wy_test/qiuxingyu/CrossDomainFewShot/filelists/places/source/places365_standard/', mini_global_path_places)
+        new_line = image_names[i].replace('places365_standard', 'places')
+        print(new_line)
+        if os.path.exists(new_line):
+            pass
+        else:
+            print('file:', new_line, 'does not exist!')
+            break
+        data['image_names'][i] = new_line
+
+    with open(file_path, 'w') as file:
+        json.dump(data, file, indent=4)
+
+    with open(file_path, 'r') as file:
+        data = json.load(file)
+    for i in range(lengthes):
+        print(data['image_names'][i])
+    return
+
+#places
+#mini_global_path_places = '/scratch/yuqian_fu/Data/CDFSL/places365_standard/'
+mini_global_path_plantae = '/scratch/yuqian_fu/Data/CDFSL/plantae/'
+def plantae(flag='base'):
+    file_path = mini_global_path_plantae + flag + '.json'
+    with open(file_path, 'r') as file:
+        data = json.load(file)
+
+    print(data.keys())
+    image_names = data['image_names']
+    lengthes = len(image_names)
+    print(lengthes)
+
+    for i in range(lengthes):
+        print(image_names[i])
+        #new_line = image_names[i].replace('/wy_test/qiuxingyu/CrossDomainFewShot/filelists/places/source/places365_standard/', mini_global_path_places)
+        new_line = image_names[i].replace('Plantae', 'plantae')
+        print(new_line)
+        if os.path.exists(new_line):
+            pass
+        else:
+            print('file:', new_line, 'does not exist!')
+            break
+        data['image_names'][i] = new_line
+
+    with open(file_path, 'w') as file:
+        json.dump(data, file, indent=4)
+
+    with open(file_path, 'r') as file:
+        data = json.load(file)
+    for i in range(lengthes):
+        print(data['image_names'][i])
+    return
+
+
+
+if __name__ == '__main__':
+    #miniImg(flag='base')
+    #miniImg(flag='val')
+    #miniImg(flag='novel')
+
+    # cub(flag='base')
+    # cub(flag='val')
+    # cub(flag='novel')
+
+    # cars(flag='base')
+    # cars(flag='val')
+    # cars(flag='novel')
+
+    # places(flag='base')
+    # places(flag='val')
+    # places(flag='novel')
+
+    plantae(flag='base')
+    plantae(flag='val')
+    plantae(flag='novel')
+    
+
+
+
diff --git a/test.py b/test.py
new file mode 100644
index 0000000000000000000000000000000000000000..7c22cd5c891c3b76259a9b50d8c112d2ded9ca7e
--- /dev/null
+++ b/test.py
@@ -0,0 +1,82 @@
+import numpy as np
+import torch
+import torch.optim
+import os
+import random
+
+from methods import backbone
+from methods.backbone_multiblock import model_dict
+from data.datamgr import SimpleDataManager, SetDataManager
+from methods.StyleAdv_RN_GNN import StyleAdvGNN
+
+from options import parse_args, get_resume_file, load_warmup_state
+from test_function_fwt_benchmark import test_bestmodel
+from test_function_bscdfsl_benchmark import test_bestmodel_bscdfsl
+
+
+def record_test_result(params):
+    acc_file_path = "tmp2.txt"
+    acc_file = open(acc_file_path, "w")
+    epoch_id = -1
+    print(
+        "epoch",
+        epoch_id,
+        "miniImagenet:",
+        "cub:",
+        "cars:",
+        "places:",
+        "plantae:",
+        file=acc_file,
+    )
+    name = params.name
+    n_shot = params.n_shot
+    method = params.method
+    test_bestmodel(acc_file, name, method, "miniImagenet", n_shot, epoch_id)
+    # test_bestmodel(acc_file, name, method, 'cub', n_shot, epoch_id)
+    # test_bestmodel(acc_file, name, method, 'cars', n_shot, epoch_id)
+    # test_bestmodel(acc_file, name, method, 'places', n_shot, epoch_id)
+    # test_bestmodel(acc_file, name, method, 'plantae', n_shot, epoch_id)
+
+    acc_file.close()
+    return
+
+
+def record_test_result_bscdfsl(params):
+    print("hhhhhhh testing for bscdfsl")
+    acc_file_path = "tmp_bscdfsl2.txt"
+    acc_file = open(acc_file_path, "w")
+    epoch_id = -1
+    print(
+        "epoch", epoch_id, "ChestX:", "ISIC:", "EuroSAT:", "CropDisease", file=acc_file
+    )
+    name = params.name
+    n_shot = params.n_shot
+    method = params.method
+    # test_bestmodel_bscdfsl(acc_file, name, method, 'ChestX', n_shot, epoch_id)
+    # test_bestmodel_bscdfsl(acc_file, name, method, 'ISIC', n_shot, epoch_id)
+    test_bestmodel_bscdfsl(acc_file, name, method, "EuroSAT", n_shot, epoch_id)
+    # test_bestmodel_bscdfsl(acc_file, name, method, 'CropDisease', n_shot, epoch_id)
+
+    acc_file.close()
+    return
+
+
+# --- main function ---
+if __name__ == "__main__":
+    # fix seed
+    seed = 0
+    print("set seed = %d" % seed)
+    random.seed(seed)
+    np.random.seed(seed)
+    torch.manual_seed(seed)
+    torch.cuda.manual_seed_all(seed)
+    torch.backends.cudnn.deterministic = True
+    torch.backends.cudnn.benchmark = False
+
+    # parser argument
+    params = parse_args("train")
+
+    # testing
+    # record_test_result(params)
+    # testing bscdfsl
+    record_test_result_bscdfsl(params)
diff --git a/test_function_bscdfsl_benchmark.py b/test_function_bscdfsl_benchmark.py
new file mode 100644
index 0000000000000000000000000000000000000000..1bac7157c0014d75f006fdcce314e2d22397bdc4
--- /dev/null
+++ b/test_function_bscdfsl_benchmark.py
@@ -0,0 +1,188 @@
+import torch
+import os
+import h5py
+import random
+import numpy as np
+from options import parse_args, get_best_file, get_assigned_file
+import data.feature_loader as feat_loader
+from data.datamgr import SimpleDataManager
+from data import ISIC_few_shot, EuroSAT_few_shot, CropDisease_few_shot, Chest_few_shot
+from methods.backbone_multiblock import model_dict
+from methods.StyleAdv_RN_GNN import StyleAdvGNN
+
+# extract and save image features
+def save_features(model, data_loader, featurefile):
+  f = h5py.File(featurefile, 'w')
+  max_count = len(data_loader)*data_loader.batch_size
+  all_labels = f.create_dataset('all_labels',(max_count,), dtype='i')
+  all_feats=None
+  count=0
+  for i, (x,y) in enumerate(data_loader):
+    if (i % 10) == 0:
+      print('    {:d}/{:d}'.format(i, len(data_loader)))
+    x = x.cuda()
+    feats = model(x)
+    if all_feats is None:
+      all_feats = f.create_dataset('all_feats', [max_count] + list( feats.size()[1:]) , dtype='f')
+    all_feats[count:count+feats.size(0)] = feats.data.cpu().numpy()
+    all_labels[count:count+feats.size(0)] = y.cpu().numpy()
+    count = count + feats.size(0)
+
+  count_var = f.create_dataset('count', (1,), dtype='i')
+  count_var[0] = count
+  f.close()
+
+# evaluate using features
+def feature_evaluation(cl_data_file, model, n_way = 5, n_support = 5, n_query = 15):
+  class_list = cl_data_file.keys()
+  class_list = list(class_list)
+  select_class = random.sample(class_list,n_way)
+  z_all  = []
+  for cl in select_class:
+    img_feat = cl_data_file[cl]
+    perm_ids = np.random.permutation(len(img_feat)).tolist()
+    z_all.append( [ np.squeeze( img_feat[perm_ids[i]]) for i in range(n_support+n_query) ] )
+  z_all = torch.from_numpy(np.array(z_all) )
+
+  model.n_query = n_query
+  scores  = model.set_forward(z_all, is_feature = True)
+  pred = scores.data.cpu().numpy().argmax(axis = 1)
+  y = np.repeat(range( n_way ), n_query )
+  acc = np.mean(pred == y)*100
+  return acc
+
+
+
+def test_bestmodel_bscdfsl(acc_file, name, method, dataset,n_shot, save_epoch=-1):
+  # parse argument
+  params = parse_args('test')
+  params.n_shot = n_shot
+  params.dataset = dataset
+  params.method = method
+  params.name = name
+  params.save_epoch = save_epoch  #-1 = best
+  print('Testing! {} shots on {} dataset with {} epochs of {}({})'.format(params.n_shot, params.dataset, params.save_epoch, params.name, params.method))
+  remove_featurefile = True
+
+  print('\nStage 1: saving features')
+  # dataset
+  print('  build dataset')
+  image_size = 224
+  split = params.split
+  if(params.dataset in ["miniImagenet", "cub", "cars", "places", "plantae"]):
+    loadfile = os.path.join(params.data_dir, params.dataset, split + '.json')
+    print('load file:', loadfile)
+    datamgr         = SimpleDataManager(image_size, batch_size = 64)
+    data_loader      = datamgr.get_data_loader(loadfile, aug = False)
+
+  else:
+    if params.dataset in ["ISIC"]:
+        datamgr         = ISIC_few_shot.SimpleDataManager(image_size, batch_size = 64)
+        data_loader     = datamgr.get_data_loader(aug = False )
+
+    elif params.dataset in ["EuroSAT"]:
+        datamgr         = EuroSAT_few_shot.SimpleDataManager(image_size, batch_size = 64)
+        data_loader     = datamgr.get_data_loader(aug = False )
+
+    elif params.dataset in ["CropDisease"]:
+        datamgr         = CropDisease_few_shot.SimpleDataManager(image_size, batch_size = 64)
+        data_loader     = datamgr.get_data_loader(aug = False )
+
+    elif params.dataset in ["ChestX"]:
+        datamgr         = Chest_few_shot.SimpleDataManager(image_size, batch_size = 64)
+        data_loader     = datamgr.get_data_loader(aug = False )
+
+
+  print('  build feature encoder')
+  # feature encoder
+  checkpoint_dir = '%s/checkpoints/%s'%(params.save_dir, params.name)
+  if params.save_epoch != -1:
+    modelfile   = get_assigned_file(checkpoint_dir,params.save_epoch)
+  else:
+    modelfile   = get_best_file(checkpoint_dir)
+  model = model_dict[params.model]()
+  model = model.cuda()
+  tmp = torch.load(modelfile)
+  try:
+    state = tmp['state']
+  except KeyError:
+    state = tmp['model_state']
+  except:
+    raise
+  state_keys = list(state.keys())
+  print('state_keys:', state_keys, len(state_keys))
+  for i, key in enumerate(state_keys):
+    if "feature." in key and not 'gamma' in key and not 'beta' in key:
+      newkey = key.replace("feature.","")
+      state[newkey] = state.pop(key)
+    else:
+      state.pop(key)
+  print('state keys:', list(state.keys()), len(list(state.keys())))
+
+  model.load_state_dict(state)
+  model.eval()
+
+  # save feature file
+  print('  extract and save features...')
+  if params.save_epoch != -1:
+    featurefile = os.path.join( checkpoint_dir.replace("checkpoints","features"), split + "_" + str(params.save_epoch)+ ".hdf5")
+  else:
+    featurefile = os.path.join( checkpoint_dir.replace("checkpoints","features"), split + ".hdf5")
+  dirname = os.path.dirname(featurefile)
+  if not os.path.isdir(dirname):
+    os.makedirs(dirname)
+  save_features(model, data_loader, featurefile)
+
+  print('\nStage 2: evaluate')
+  acc_all = []
+  iter_num = 1000
+  few_shot_params = dict(n_way = params.test_n_way , n_support = params.n_shot)
+  # model
+  print('  build metric-based model')
+  model = StyleAdvGNN( model_dict[params.model], **few_shot_params)
+  model = model.cuda()
+  model.eval()
+
+  # load model
+  checkpoint_dir = '%s/checkpoints/%s'%(params.save_dir, params.name)
+  if params.save_epoch != -1:
+    modelfile = get_assigned_file(checkpoint_dir, params.save_epoch)
+  else:
+    modelfile = get_best_file(checkpoint_dir)
+  if modelfile is not None:
+    tmp = torch.load(modelfile)
+    try:
+      model.load_state_dict(tmp['state'])
+    except RuntimeError:
+      print('warning! RuntimeError when load_state_dict()!')
+      model.load_state_dict(tmp['state'], strict=False)
+    except KeyError:
+      for k in tmp['model_state']:   ##### revise latter
+        if 'running' in k:
+          tmp['model_state'][k] = tmp['model_state'][k].squeeze()
+      model.load_state_dict(tmp['model_state'], strict=False)
+    except:
+      raise
+
+  # load feature file
+  print('  load saved feature file')
+  cl_data_file = feat_loader.init_loader(featurefile)
+  #print('cl_data_file:', cl_data_file)
+
+  # start evaluate
+  print('  evaluate')
+  for i in range(iter_num):
+    acc = feature_evaluation(cl_data_file, model, n_query=15, **few_shot_params)
+    acc_all.append(acc)
+
+  # statics
+  print('  get statics')
+  acc_all = np.asarray(acc_all)
+  acc_mean = np.mean(acc_all)
+  acc_std = np.std(acc_all)
+  print('  %d test iterations: Acc = %4.2f%% +- %4.2f%%' %(iter_num, acc_mean, 1.96* acc_std/np.sqrt(iter_num)))
+  print('  %d test iterations: Acc = %4.2f%% +- %4.2f%%' %(iter_num, acc_mean, 1.96* acc_std/np.sqrt(iter_num)), file = acc_file)
+
+  # remove feature files [optional]
+  if remove_featurefile:
+    os.remove(featurefile)
diff --git a/test_function_bscdfsl_benchmark2.py b/test_function_bscdfsl_benchmark2.py
new file mode 100644
index 0000000000000000000000000000000000000000..9601865dc5ece3306e23122181abe9d074702d07
--- /dev/null
+++ b/test_function_bscdfsl_benchmark2.py
@@ -0,0 +1,226 @@
+import torch
+import os
+import h5py
+
+from methods import backbone
+from methods.backbone import model_dict
+from data.datamgr import SimpleDataManager
+from options import parse_args, get_best_file, get_assigned_file
+
+#from methods.protonet import ProtoNet
+#from methods.matchingnet import MatchingNet
+from methods.gnnnet import GnnNet
+#from methods.relationnet import RelationNet
+import data.feature_loader as feat_loader
+import random
+import numpy as np
+
+from data import ISIC_few_shot, EuroSAT_few_shot, CropDisease_few_shot, Chest_few_shot
+
+# extract and save image features
+def save_features(model, data_loader, featurefile):
+  f = h5py.File(featurefile, 'w')
+  max_count = len(data_loader)*data_loader.batch_size
+  all_labels = f.create_dataset('all_labels',(max_count,), dtype='i')
+  all_feats=None
+  count=0
+  for i, (x,y) in enumerate(data_loader):
+    if (i % 10) == 0:
+      print('    {:d}/{:d}'.format(i, len(data_loader)))
+    x = x.cuda()
+    feats = model(x)
+    if all_feats is None:
+      all_feats = f.create_dataset('all_feats', [max_count] + list( feats.size()[1:]) , dtype='f')
+    all_feats[count:count+feats.size(0)] = feats.data.cpu().numpy()
+    all_labels[count:count+feats.size(0)] = y.cpu().numpy()
+    count = count + feats.size(0)
+
+  count_var = f.create_dataset('count', (1,), dtype='i')
+  count_var[0] = count
+  f.close()
+
+# evaluate using features
+def feature_evaluation(cl_data_file, model, n_way = 5, n_support = 5, n_query = 15):
+  class_list = cl_data_file.keys()
+  select_class = random.sample(class_list,n_way)
+  z_all  = []
+  for cl in select_class:
+    img_feat = cl_data_file[cl]
+    perm_ids = np.random.permutation(len(img_feat)).tolist()
+    z_all.append( [ np.squeeze( img_feat[perm_ids[i]]) for i in range(n_support+n_query) ] )
+  z_all = torch.from_numpy(np.array(z_all) )
+
+  model.n_query = n_query
+  scores  = model.set_forward(z_all, is_feature = True)
+  pred = scores.data.cpu().numpy().argmax(axis = 1)
+  y = np.repeat(range( n_way ), n_query )
+  acc = np.mean(pred == y)*100
+  return acc
+
+
+
+def test_bestmodel_bscdfsl(acc_file, name, method, dataset,n_shot, save_epoch=-1):
+  # parse argument
+  print('hi, test model 1')
+  params = parse_args('test')
+  print (' hi, test model 2')
+  params.n_shot = n_shot
+  params.dataset = dataset
+  params.method = method
+  params.name = name
+  params.save_epoch = save_epoch  #-1 = best
+  print('Testing! {} shots on {} dataset with {} epochs of {}({})'.format(params.n_shot, params.dataset, params.save_epoch, params.name, params.method))
+  remove_featurefile = True
+
+  print('\nStage 1: saving features')
+  # dataset
+  print('  build dataset')
+  if 'Conv' in params.model:
+    image_size = 84
+  else:
+    image_size = 224
+
+  split = params.split
+  print(split)
+  if(params.dataset in ["miniImagenet", "cub", "cars", "places", "plantae"]):
+    loadfile = os.path.join(params.data_dir, params.dataset, split + '.json')
+    print('load file:', loadfile)
+    datamgr         = SimpleDataManager(image_size, batch_size = 64)
+    data_loader      = datamgr.get_data_loader(loadfile, aug = False)
+
+  else:
+    if params.dataset in ["ISIC"]:
+        datamgr         = ISIC_few_shot.SimpleDataManager(image_size, batch_size = 64)
+        data_loader     = datamgr.get_data_loader(aug = False )
+
+    elif params.dataset in ["EuroSAT"]:
+
+        datamgr         = EuroSAT_few_shot.SimpleDataManager(image_size, batch_size = 64)
+        data_loader     = datamgr.get_data_loader(aug = False )
+
+    elif params.dataset in ["CropDisease"]:
+        datamgr         = CropDisease_few_shot.SimpleDataManager(image_size, batch_size = 64)
+        data_loader     = datamgr.get_data_loader(aug = False )
+
+    elif params.dataset in ["ChestX"]:
+        datamgr         = Chest_few_shot.SimpleDataManager(image_size, batch_size = 64)
+        data_loader     = datamgr.get_data_loader(aug = False )
+
+
+  print('  build feature encoder')
+  # feature encoder
+  checkpoint_dir = '%s/checkpoints/%s'%(params.save_dir, params.name)
+  if params.save_epoch != -1:
+    modelfile   = get_assigned_file(checkpoint_dir,params.save_epoch)
+  else:
+    modelfile   = get_best_file(checkpoint_dir)
+  if params.method in ['relationnet', 'relationnet_softmax']:
+    if params.model == 'Conv4':
+      model = backbone.Conv4NP()
+    elif params.model == 'Conv6':
+      model = backbone.Conv6NP()
+    else:
+      model = model_dict[params.model]( flatten = False )
+  else:
+    model = model_dict[params.model]()
+  model = model.cuda()
+  tmp = torch.load(modelfile)
+  try:
+    state = tmp['state']
+  except KeyError:
+    state = tmp['model_state']
+  except:
+    raise
+  state_keys = list(state.keys())
+  print('state_keys:', state_keys, len(state_keys))
+  for i, key in enumerate(state_keys):
+    if "feature." in key and not 'gamma' in key and not 'beta' in key:
+      newkey = key.replace("feature.","")
+      state[newkey] = state.pop(key)
+    else:
+      state.pop(key)
+  print('state keys:', list(state.keys()), len(list(state.keys())))
+
+  model.load_state_dict(state)
+  model.eval()
+
+  # save feature file
+  print('  extract and save features...')
+  if params.save_epoch != -1:
+    featurefile = os.path.join( checkpoint_dir.replace("checkpoints","features"), split + "_" + str(params.save_epoch)+ ".hdf5")
+  else:
+    featurefile = os.path.join( checkpoint_dir.replace("checkpoints","features"), split + ".hdf5")
+  dirname = os.path.dirname(featurefile)
+  if not os.path.isdir(dirname):
+    os.makedirs(dirname)
+  save_features(model, data_loader, featurefile)
+
+  print('\nStage 2: evaluate')
+  acc_all = []
+  iter_num = 1000
+  few_shot_params = dict(n_way = params.test_n_way , n_support = params.n_shot)
+  # model
+  print('  build metric-based model')
+  if params.method == 'protonet':
+    model = ProtoNet( model_dict[params.model], **few_shot_params)
+  elif params.method == 'matchingnet':
+    model = MatchingNet( model_dict[params.model], **few_shot_params )
+  elif params.method == 'gnnnet':
+    model = GnnNet( model_dict[params.model], **few_shot_params)
+  elif params.method in ['relationnet', 'relationnet_softmax']:
+    if params.model == 'Conv4':
+      feature_model = backbone.Conv4NP
+    elif params.model == 'Conv6':
+      feature_model = backbone.Conv6NP
+    else:
+      feature_model = model_dict[params.model]
+    loss_type = 'mse' if params.method == 'relationnet' else 'softmax'
+    model = RelationNet( feature_model, loss_type = loss_type , **few_shot_params )
+  else:
+    raise ValueError('Unknown method')
+  model = model.cuda()
+  model.eval()
+
+  # load model
+  checkpoint_dir = '%s/checkpoints/%s'%(params.save_dir, params.name)
+  if params.save_epoch != -1:
+    modelfile = get_assigned_file(checkpoint_dir, params.save_epoch)
+  else:
+    modelfile = get_best_file(checkpoint_dir)
+  if modelfile is not None:
+    tmp = torch.load(modelfile)
+    try:
+      model.load_state_dict(tmp['state'])
+    except RuntimeError:
+      print('warning! RuntimeError when load_state_dict()!')
+      model.load_state_dict(tmp['state'], strict=False)
+    except KeyError:
+      for k in tmp['model_state']:   ##### revise latter
+        if 'running' in k:
+          tmp['model_state'][k] = tmp['model_state'][k].squeeze()
+      model.load_state_dict(tmp['model_state'], strict=False)
+    except:
+      raise
+
+  # load feature file
+  print('  load saved feature file')
+  cl_data_file = feat_loader.init_loader(featurefile)
+  #print('cl_data_file:', cl_data_file)
+
+  # start evaluate
+  print('  evaluate')
+  for i in range(iter_num):
+    acc = feature_evaluation(cl_data_file, model, n_query=15, **few_shot_params)
+    acc_all.append(acc)
+
+  # statics
+  print('  get statics')
+  acc_all = np.asarray(acc_all)
+  acc_mean = np.mean(acc_all)
+  acc_std = np.std(acc_all)
+  print('  %d test iterations: Acc = %4.2f%% +- %4.2f%%' %(iter_num, acc_mean, 1.96* acc_std/np.sqrt(iter_num)))
+  print('  %d test iterations: Acc = %4.2f%% +- %4.2f%%' %(iter_num, acc_mean, 1.96* acc_std/np.sqrt(iter_num)), file = acc_file)
+
+  # remove feature files [optional]
+  if remove_featurefile:
+    os.remove(featurefile)
diff --git a/test_function_fwt_benchmark.py b/test_function_fwt_benchmark.py
new file mode 100644
index 0000000000000000000000000000000000000000..cd70727b5b59b2186e8e06197355e024b5f1d272
--- /dev/null
+++ b/test_function_fwt_benchmark.py
@@ -0,0 +1,176 @@
+import torch
+import os
+import h5py
+
+#from methods import backbone
+#from methods.backbone import model_dict
+from methods.backbone_multiblock import model_dict
+from data.datamgr import SimpleDataManager
+from options import parse_args, get_best_file, get_assigned_file
+
+#from methods.gnnnet import GnnNet
+from methods.StyleAdv_RN_GNN import StyleAdvGNN
+import data.feature_loader as feat_loader
+import random
+import numpy as np
+
+# extract and save image features
+def save_features(model, data_loader, featurefile):
+  f = h5py.File(featurefile, 'w')
+  max_count = len(data_loader)*data_loader.batch_size
+  all_labels = f.create_dataset('all_labels',(max_count,), dtype='i')
+  all_feats=None
+  count=0
+  for i, (x,y) in enumerate(data_loader):
+    if (i % 10) == 0:
+      print('    {:d}/{:d}'.format(i, len(data_loader)))
+    x = x.cuda()
+    feats = model(x)
+    if all_feats is None:
+      all_feats = f.create_dataset('all_feats', [max_count] + list( feats.size()[1:]) , dtype='f')
+    all_feats[count:count+feats.size(0)] = feats.data.cpu().numpy()
+    all_labels[count:count+feats.size(0)] = y.cpu().numpy()
+    count = count + feats.size(0)
+
+  count_var = f.create_dataset('count', (1,), dtype='i')
+  count_var[0] = count
+  f.close()
+
+# evaluate using features
+def feature_evaluation(cl_data_file, model, n_way = 5, n_support = 5, n_query = 15):
+  
+  class_list = cl_data_file.keys()
+  class_list = list(class_list)
+  select_class = random.sample(class_list,n_way)
+  z_all  = []
+  for cl in select_class:
+    img_feat = cl_data_file[cl]
+    perm_ids = np.random.permutation(len(img_feat)).tolist()
+    z_all.append( [ np.squeeze( img_feat[perm_ids[i]]) for i in range(n_support+n_query) ] )
+  z_all = torch.from_numpy(np.array(z_all) )
+  #print('z_all:', z_all.size())
+
+  model.n_query = n_query
+  scores  = model.set_forward(z_all, is_feature = True)
+  pred = scores.data.cpu().numpy().argmax(axis = 1)
+  y = np.repeat(range( n_way ), n_query )
+  acc = np.mean(pred == y)*100
+  return acc
+
+
+
+def test_bestmodel(acc_file, name, method, dataset,n_shot, save_epoch=-1):
+  # parse argument
+  params = parse_args('test')
+  params.n_shot = n_shot
+  params.dataset = dataset
+  params.method = method
+  params.name = name
+  params.save_epoch = save_epoch  #-1 = best
+  print('Testing! {} shots on {} dataset with {} epochs of {}({})'.format(params.n_shot, params.dataset, params.save_epoch, params.name, params.method))
+  remove_featurefile = True
+
+  print('\nStage 1: saving features')
+  # dataset
+  print('  build dataset')
+  image_size = 224
+  split = params.split
+  loadfile = os.path.join(params.data_dir, params.dataset, split + '.json')
+  print('load file:', loadfile)
+  datamgr         = SimpleDataManager(image_size, batch_size = 64)
+  data_loader      = datamgr.get_data_loader(loadfile, aug = False)
+
+  print('  build feature encoder')
+  # feature encoder
+  checkpoint_dir = '%s/checkpoints/%s'%(params.save_dir, params.name)
+  if params.save_epoch != -1:
+    modelfile   = get_assigned_file(checkpoint_dir,params.save_epoch)
+  else:
+    modelfile   = get_best_file(checkpoint_dir)
+  print(modelfile)
+  model = model_dict[params.model]()
+  model = model.cuda()
+  tmp = torch.load(modelfile)
+  try:
+    state = tmp['state']
+  except KeyError:
+    state = tmp['model_state']
+  except:
+    raise
+  state_keys = list(state.keys())
+  print('state_keys:', state_keys, len(state_keys))
+  for i, key in enumerate(state_keys):
+    if "feature." in key and not 'gamma' in key and not 'beta' in key:
+      newkey = key.replace("feature.","")
+      state[newkey] = state.pop(key)
+    else:
+      state.pop(key)
+  print('state keys:', list(state.keys()), len(list(state.keys())))
+
+  model.load_state_dict(state)
+  model.eval()
+
+  # save feature file
+  print('  extract and save features...')
+  if params.save_epoch != -1:
+    featurefile = os.path.join( checkpoint_dir.replace("checkpoints","features"), split + "_" + str(params.save_epoch)+ ".hdf5")
+  else:
+    featurefile = os.path.join( checkpoint_dir.replace("checkpoints","features"), split + ".hdf5")
+  dirname = os.path.dirname(featurefile)
+  if not os.path.isdir(dirname):
+    os.makedirs(dirname)
+  save_features(model, data_loader, featurefile)
+
+  print('\nStage 2: evaluate')
+  acc_all = []
+  iter_num = 1000
+  few_shot_params = dict(n_way = params.test_n_way , n_support = params.n_shot)
+  # model
+  print('  build metric-based model')
+  #model = GnnNet( model_dict[params.model], **few_shot_params)
+  model = StyleAdvGNN(model_dict[params.model], **few_shot_params)
+  model = model.cuda()
+  model.eval()
+
+  # load model
+  checkpoint_dir = '%s/checkpoints/%s'%(params.save_dir, params.name)
+  if params.save_epoch != -1:
+    modelfile = get_assigned_file(checkpoint_dir, params.save_epoch)
+  else:
+    modelfile = get_best_file(checkpoint_dir)
+  if modelfile is not None:
+    tmp = torch.load(modelfile)
+    try:
+      model.load_state_dict(tmp['state'])
+    except RuntimeError:
+      print('warning! RuntimeError when load_state_dict()!')
+      model.load_state_dict(tmp['state'], strict=False)
+    except KeyError:
+      for k in tmp['model_state']:   ##### revise latter
+        if 'running' in k:
+          tmp['model_state'][k] = tmp['model_state'][k].squeeze()
+      model.load_state_dict(tmp['model_state'], strict=False)
+    except:
+      raise
+
+  # load feature file
+  print('  load saved feature file')
+  cl_data_file = feat_loader.init_loader(featurefile)
+
+  # start evaluate
+  print('  evaluate')
+  for i in range(iter_num):
+    acc = feature_evaluation(cl_data_file, model, n_query=15, **few_shot_params)
+    acc_all.append(acc)
+
+  # statics
+  print('  get statics')
+  acc_all = np.asarray(acc_all)
+  acc_mean = np.mean(acc_all)
+  acc_std = np.std(acc_all)
+  print('  %d test iterations: Acc = %4.2f%% +- %4.2f%%' %(iter_num, acc_mean, 1.96* acc_std/np.sqrt(iter_num)))
+  print('  %d test iterations: Acc = %4.2f%% +- %4.2f%%' %(iter_num, acc_mean, 1.96* acc_std/np.sqrt(iter_num)), file = acc_file)
+
+  # remove feature files [optional]
+  if remove_featurefile:
+    os.remove(featurefile)
diff --git a/test_function_fwt_benchmark2.py b/test_function_fwt_benchmark2.py
new file mode 100644
index 0000000000000000000000000000000000000000..5d5b4b689e5a3aef32f7a462a9c8f4f5fe73bafe
--- /dev/null
+++ b/test_function_fwt_benchmark2.py
@@ -0,0 +1,211 @@
+import torch
+import os
+import h5py
+
+from methods import backbone
+from methods.backbone import model_dict
+from data.datamgr import SimpleDataManager
+from options import parse_args, get_best_file, get_assigned_file
+
+#from methods.protonet import ProtoNet
+#from methods.matchingnet import MatchingNet
+from methods.gnnnet import GnnNet
+#from methods.relationnet import RelationNet
+#from methods.tpn import TPN
+import data.feature_loader as feat_loader
+import random
+import numpy as np
+
+# extract and save image features
+def save_features(model, data_loader, featurefile):
+  f = h5py.File(featurefile, 'w')
+  max_count = len(data_loader)*data_loader.batch_size
+  all_labels = f.create_dataset('all_labels',(max_count,), dtype='i')
+  all_feats=None
+  count=0
+  for i, (x,y) in enumerate(data_loader):
+    if (i % 10) == 0:
+      print('    {:d}/{:d}'.format(i, len(data_loader)))
+    x = x.cuda()
+    feats = model(x)
+    if all_feats is None:
+      all_feats = f.create_dataset('all_feats', [max_count] + list( feats.size()[1:]) , dtype='f')
+    all_feats[count:count+feats.size(0)] = feats.data.cpu().numpy()
+    all_labels[count:count+feats.size(0)] = y.cpu().numpy()
+    count = count + feats.size(0)
+
+  count_var = f.create_dataset('count', (1,), dtype='i')
+  count_var[0] = count
+  f.close()
+
+# evaluate using features
+def feature_evaluation(cl_data_file, model, n_way = 5, n_support = 5, n_query = 15):
+  class_list = cl_data_file.keys()
+  select_class = random.sample(class_list,n_way)
+  z_all  = []
+  for cl in select_class:
+    img_feat = cl_data_file[cl]
+    perm_ids = np.random.permutation(len(img_feat)).tolist()
+    z_all.append( [ np.squeeze( img_feat[perm_ids[i]]) for i in range(n_support+n_query) ] )
+  z_all = torch.from_numpy(np.array(z_all) )
+  #print('z_all:', z_all.size())
+
+  model.n_query = n_query
+  scores  = model.set_forward(z_all, is_feature = True)
+  pred = scores.data.cpu().numpy().argmax(axis = 1)
+  y = np.repeat(range( n_way ), n_query )
+  acc = np.mean(pred == y)*100
+  return acc
+
+
+
+def test_bestmodel(acc_file, name, method, dataset,n_shot, save_epoch=-1):
+  # parse argument
+  print('hi, test model 1')
+  params = parse_args('test')
+  print (' hi, test model 2')
+  params.n_shot = n_shot
+  params.dataset = dataset
+  params.method = method
+  params.name = name
+  params.save_epoch = save_epoch  #-1 = best
+  print('Testing! {} shots on {} dataset with {} epochs of {}({})'.format(params.n_shot, params.dataset, params.save_epoch, params.name, params.method))
+  remove_featurefile = True
+
+  print('\nStage 1: saving features')
+  # dataset
+  print('  build dataset')
+  if 'Conv' in params.model:
+    image_size = 84
+  else:
+    image_size = 224
+  split = params.split
+  loadfile = os.path.join(params.data_dir, params.dataset, split + '.json')
+  print('load file:', loadfile)
+  datamgr         = SimpleDataManager(image_size, batch_size = 64)
+  data_loader      = datamgr.get_data_loader(loadfile, aug = False)
+
+  print('  build feature encoder')
+  # feature encoder
+  checkpoint_dir = '%s/checkpoints/%s'%(params.save_dir, params.name)
+  if params.save_epoch != -1:
+    modelfile   = get_assigned_file(checkpoint_dir,params.save_epoch)
+  else:
+    modelfile   = get_best_file(checkpoint_dir)
+  if params.method in ['relationnet', 'relationnet_softmax','tpn']:
+    if params.model == 'Conv4':
+      model = backbone.Conv4NP()
+    elif params.model == 'Conv6':
+      model = backbone.Conv6NP()
+    else:
+      model = model_dict[params.model]( flatten = False )
+  else:
+    model = model_dict[params.model]()
+  model = model.cuda()
+  tmp = torch.load(modelfile)
+  try:
+    state = tmp['state']
+  except KeyError:
+    state = tmp['model_state']
+  except:
+    raise
+  state_keys = list(state.keys())
+  print('state_keys:', state_keys, len(state_keys))
+  for i, key in enumerate(state_keys):
+    if "feature." in key and not 'gamma' in key and not 'beta' in key:
+      newkey = key.replace("feature.","")
+      state[newkey] = state.pop(key)
+    else:
+      state.pop(key)
+  print('state keys:', list(state.keys()), len(list(state.keys())))
+
+  model.load_state_dict(state)
+  if( params.method != 'tpn'):
+    model.eval()
+
+  # save feature file
+  print('  extract and save features...')
+  if params.save_epoch != -1:
+    featurefile = os.path.join( checkpoint_dir.replace("checkpoints","features"), split + "_" + str(params.save_epoch)+ ".hdf5")
+  else:
+    featurefile = os.path.join( checkpoint_dir.replace("checkpoints","features"), split + ".hdf5")
+  dirname = os.path.dirname(featurefile)
+  if not os.path.isdir(dirname):
+    os.makedirs(dirname)
+  save_features(model, data_loader, featurefile)
+
+  print('\nStage 2: evaluate')
+  acc_all = []
+  iter_num = 1000
+  few_shot_params = dict(n_way = params.test_n_way , n_support = params.n_shot)
+  # model
+  print('  build metric-based model')
+  if params.method == 'protonet':
+    model = ProtoNet( model_dict[params.model], **few_shot_params)
+  elif params.method == 'matchingnet':
+    model = MatchingNet( model_dict[params.model], **few_shot_params )
+  elif params.method == 'gnnnet':
+    model = GnnNet( model_dict[params.model], **few_shot_params)
+  elif params.method in ['relationnet', 'relationnet_softmax']:
+    if params.model == 'Conv4':
+      feature_model = backbone.Conv4NP
+    elif params.model == 'Conv6':
+      feature_model = backbone.Conv6NP
+    else:
+      feature_model = model_dict[params.model]
+    loss_type = 'mse' if params.method == 'relationnet' else 'softmax'
+    model = RelationNet( feature_model, loss_type = loss_type , **few_shot_params )
+  elif params.method == 'tpn':
+    model = TPN( model_dict[params.model], **few_shot_params)
+    #backbone = model_dict[params.model](flatten=False)
+    #model = TPN(backbone, **few_shot_params)
+  else:
+    raise ValueError('Unknown method')
+  model = model.cuda()
+
+  if( params.method != 'tpn'):
+    model.eval()
+
+  # load model
+  checkpoint_dir = '%s/checkpoints/%s'%(params.save_dir, params.name)
+  if params.save_epoch != -1:
+    modelfile = get_assigned_file(checkpoint_dir, params.save_epoch)
+  else:
+    modelfile = get_best_file(checkpoint_dir)
+  if modelfile is not None:
+    tmp = torch.load(modelfile)
+    try:
+      model.load_state_dict(tmp['state'])
+    except RuntimeError:
+      print('warning! RuntimeError when load_state_dict()!')
+      model.load_state_dict(tmp['state'], strict=False)
+    except KeyError:
+      for k in tmp['model_state']:   ##### revise latter
+        if 'running' in k:
+          tmp['model_state'][k] = tmp['model_state'][k].squeeze()
+      model.load_state_dict(tmp['model_state'], strict=False)
+    except:
+      raise
+
+  # load feature file
+  print('  load saved feature file')
+  cl_data_file = feat_loader.init_loader(featurefile)
+  #print('cl_data_file:', cl_data_file)
+
+  # start evaluate
+  print('  evaluate')
+  for i in range(iter_num):
+    acc = feature_evaluation(cl_data_file, model, n_query=15, **few_shot_params)
+    acc_all.append(acc)
+
+  # statics
+  print('  get statics')
+  acc_all = np.asarray(acc_all)
+  acc_mean = np.mean(acc_all)
+  acc_std = np.std(acc_all)
+  print('  %d test iterations: Acc = %4.2f%% +- %4.2f%%' %(iter_num, acc_mean, 1.96* acc_std/np.sqrt(iter_num)))
+  print('  %d test iterations: Acc = %4.2f%% +- %4.2f%%' %(iter_num, acc_mean, 1.96* acc_std/np.sqrt(iter_num)), file = acc_file)
+
+  # remove feature files [optional]
+  if remove_featurefile:
+    os.remove(featurefile)
diff --git a/tmp.txt b/tmp.txt
new file mode 100644
index 0000000000000000000000000000000000000000..6d06227ad8275023b53cc3f30a83be4f294109f4
--- /dev/null
+++ b/tmp.txt
@@ -0,0 +1,6 @@
+epoch -1 miniImagenet: cub: cars: places: plantae:
+  1000 test iterations: Acc = 67.36% +- 0.80%
+  1000 test iterations: Acc = 48.34% +- 0.70%
+  1000 test iterations: Acc = 34.30% +- 0.59%
+  1000 test iterations: Acc = 58.53% +- 0.80%
+  1000 test iterations: Acc = 41.29% +- 0.66%
diff --git a/tmp2.txt b/tmp2.txt
new file mode 100644
index 0000000000000000000000000000000000000000..0bb334f0c779571649dce2dde3a0c97001ed3b48
--- /dev/null
+++ b/tmp2.txt
@@ -0,0 +1,2 @@
+epoch -1 miniImagenet: cub: cars: places: plantae:
+  1000 test iterations: Acc = 67.36% +- 0.80%
diff --git a/tmp_bscdfsl.txt b/tmp_bscdfsl.txt
new file mode 100644
index 0000000000000000000000000000000000000000..b10a3c9a626ff98f3858548788c576c0d0b2bcd8
--- /dev/null
+++ b/tmp_bscdfsl.txt
@@ -0,0 +1,5 @@
+epoch -1 ChestX: ISIC: EuroSAT: CropDisease
+  1000 test iterations: Acc = 22.19% +- 0.35%
+  1000 test iterations: Acc = 34.22% +- 0.56%
+  1000 test iterations: Acc = 70.66% +- 0.84%
+  1000 test iterations: Acc = 73.82% +- 0.75%
diff --git a/tmp_bscdfsl2.txt b/tmp_bscdfsl2.txt
new file mode 100644
index 0000000000000000000000000000000000000000..de30e4b9b03dde7fddb0be2fd7f748bf45ae2c7f
--- /dev/null
+++ b/tmp_bscdfsl2.txt
@@ -0,0 +1,2 @@
+epoch -1 ChestX: ISIC: EuroSAT: CropDisease
+  1000 test iterations: Acc = 70.69% +- 0.85%
diff --git a/utils/PSG.py b/utils/PSG.py
new file mode 100644
index 0000000000000000000000000000000000000000..863265cac2cdacd9fe4cdbe421b8b7ccf6995e39
--- /dev/null
+++ b/utils/PSG.py
@@ -0,0 +1,94 @@
+import torch
+import torchvision.transforms as transforms
+import random
+
+def gamma_correction(x, gamma):
+    minv = torch.min(x)
+    x = x - minv
+
+    maxv = torch.max(x)
+    x = x / maxv
+
+    x = x**gamma
+    x = x * maxv + minv
+    return x
+
+def random_aug(x):
+    #print('x1:', x.size())
+    # gamma correction
+    if random.random() <= 0.3:
+        gamma = random.uniform(1.0, 1.5)
+        x = gamma_correction(x, gamma)
+    # random erasing with mean value
+    mean_v = tuple(x.view(x.size(0), -1).mean(-1))
+    re = transforms.RandomErasing(p=0.5, value=mean_v)
+    x = re(x)
+    # color channel shuffle
+    if random.random() <= 0.3:
+        l = [0,1,2]
+        random.shuffle(l)
+        x_c = torch.zeros_like(x)
+        x_c[l] = x
+        x = x_c
+    # horizontal flip or vertical flip
+    if random.random() <= 0.5:
+        if random.random() <= 0.5:
+            x = torch.flip(x, [1])
+        else:
+            x = torch.flip(x, [2])
+    # rotate 90, 180 or 270 degree
+    if random.random() <= 0.5:
+        degree = [90, 180, 270]
+        d = random.choice(degree)
+        x = torch.rot90(x, d//90, [1, 2])
+    #print('x2:', x.size())
+    return x
+
+class PseudoSampleGenerator(object):
+    def __init__(self, n_way, n_support, n_pseudo):
+        super(PseudoSampleGenerator, self).__init__()
+        self.n_way = n_way
+        self.n_support = n_support
+        self.n_pseudo = n_pseudo
+        self.n_pseudo_per_way = self.n_pseudo//self.n_way
+
+    def generate(self, support_set):  # (5*n_support, 3, 224, 224)
+        #default ATA: 1-shot/5-shot
+        if(self.n_support<=5):
+          times = self.n_pseudo//(self.n_way*self.n_support)+1
+          psedo_list = []
+          for i in range(support_set.size(0)):
+            psedo_list.append(support_set[i])
+            for j in range(1, times):
+                cur_x = support_set[i]
+                cur_x = random_aug(cur_x)
+                psedo_list.append(cur_x)
+          psedo_set = torch.stack(psedo_list)
+          #print('psedo_set:', psedo_set.size())
+          psedo_set = psedo_set.reshape([self.n_way, self.n_pseudo_per_way+ self.n_support]+list(psedo_set.size()[1:]))
+
+        # adapt ata to 20/50 shots
+        else: 
+          #random select 15 support images from 20/50shot
+          support_set = support_set.view(self.n_way, self.n_support, 3, 224, 224)
+          #print('support_set:', support_set.size())
+          perm = torch.randperm(self.n_support)
+          idx = perm[:15]
+          #print('idx:', idx)
+          selected_support_set = support_set[:, idx, :, :, :]
+          #print('selected_support_set:', selected_support_set.size())
+          selected_support_set = selected_support_set.view(self.n_way*15, 3, 224, 224)             
+          # use the selected_support_set to generate pesudo query
+          times =1 
+          psedo_query_list = []
+          for i in range(selected_support_set.size(0)):
+            for j in range(0, times):
+              cur_x = selected_support_set[i]
+              cur_x = random_aug(cur_x)
+              psedo_query_list.append(cur_x)
+          psedo_query_list = torch.stack(psedo_query_list)
+          psedo_query_set = psedo_query_list.view(self.n_way, 15, 3, 224, 224)
+          #print('psedo_query_set:', psedo_query_set.size())
+          psedo_set = torch.cat((support_set, psedo_query_set), dim = 1)
+          #print("psedo_set:", psedo_set.size())
+        return psedo_set
diff --git a/utils/__init__.py b/utils/__init__.py
new file mode 100644
index 0000000000000000000000000000000000000000..d12c02d894b95820ad7fa7a575717eb7cafb5095
--- /dev/null
+++ b/utils/__init__.py
@@ -0,0 +1,65 @@
+import os
+import torch
+import numpy as np
+import random
+import collections
+
+
+class AverageMeter(object):
+    """Computes and stores the average and current value"""
+    def __init__(self):
+        self.reset()
+
+    def reset(self):
+        self.val = 0
+        self.avg = 0
+        self.sum = 0
+        self.count = 0
+
+    def update(self, val, n=1):
+        self.val = val
+        self.sum += val * n
+        self.count += n
+        self.avg = self.sum / self.count
+
+
+def simple_accuracy(preds, labels):
+    return (preds == labels).mean()
+
+
+def save_model(args, model):
+    model_to_save = model.module if hasattr(model, 'module') else model
+    model_checkpoint = os.path.join(args.output_dir, "%s_checkpoint.bin" % args.name)
+    torch.save(model_to_save.state_dict(), model_checkpoint)
+
+
+def load_model(args, model):
+    model_to_save = model.module if hasattr(model, 'module') else model
+    model_checkpoint = os.path.join(args.output_dir, "%s_checkpoint.bin" % args.name)
+    model.load_state_dict(torch.load(model_checkpoint, map_location='cpu'))
+
+
+def count_parameters(model):
+    params = sum(p.numel() for p in model.parameters() if p.requires_grad)
+    return params/1000000
+
+
+def set_seed(args):
+    random.seed(args.seed)
+    np.random.seed(args.seed)
+    torch.manual_seed(args.seed)
+    if args.gpus > 0:
+        torch.cuda.manual_seed_all(args.seed)
+
+
+def to_device(input, device):
+    if torch.is_tensor(input):
+        return input.to(device=device, non_blocking=True)
+    elif isinstance(input, str):
+        return input
+    elif isinstance(input, collections.Mapping):
+        return {k: to_device(sample, device=device) for k, sample in input.items()}
+    elif isinstance(input, collections.Sequence):
+        return [to_device(sample, device=device) for sample in input]
+    else:
+        raise TypeError("Input must contain tensor, dict or list, found {type(input)}")
diff --git a/utils/args.py b/utils/args.py
new file mode 100644
index 0000000000000000000000000000000000000000..3a491eca1c1183ce23df644e4b49fd85a9c013e5
--- /dev/null
+++ b/utils/args.py
@@ -0,0 +1,231 @@
+import argparse
+import numpy as np
+
+
+def get_args_parser():
+    parser = argparse.ArgumentParser('Few-shot learning script', add_help=False)
+    # General
+    parser.add_argument('--batch-size', default=1, type=int)
+    parser.add_argument('--num_classes', default=1000, type=int)
+    parser.add_argument('--epochs', default=100, type=int)
+    parser.add_argument('--fp16', action='store_true',
+                        help="Whether to use 16-bit float precision instead of 32-bit")
+    parser.set_defaults(fp16=True)
+    parser.add_argument('--output_dir', default='output/tmp',
+                        help='path where to save, empty for no saving')
+    parser.add_argument('--device', default='cuda',
+                        help='cuda:gpu_id for single GPU training')
+    parser.add_argument('--seed', default=0, type=int)
+
+    # Dataset parameters
+    parser.add_argument('--data-path', default='/datasets01/imagenet_full_size/061417/', type=str,
+                        help='dataset path')
+    parser.add_argument('--pretrained-checkpoint-path', default='.', type=str,
+                        help='path which contains the directories pretrained_ckpts and pretrained_ckpts_converted')
+    parser.add_argument("--dataset", choices=["cifar_fs_elite", "cifar_fs", "mini_imagenet",
+                                              "meta_dataset", "meta_dataset_h5", "imagenet_h5",
+                                              "full_meta_dataset", "imagewise_meta_dataset"],
+                        default="cifar_fs",
+                        help="Which few-shot dataset.")
+
+    # Few-shot parameters (Mini-ImageNet & CIFAR-FS)
+    parser.add_argument("--nClsEpisode", default=5, type=int,
+                        help="Number of categories in each episode.")
+    parser.add_argument("--nSupport", default=1, type=int,
+                        help="Number of samples per category in the support set.")
+    parser.add_argument("--nQuery", default=15, type=int,
+                        help="Number of samples per category in the query set.")
+    parser.add_argument("--nValEpisode", default=120, type=int,
+                        help="Number of episodes for validation.")
+    parser.add_argument("--nEpisode", default=2000, type=int,
+                        help="Number of episodes for training / testing.")
+
+    # MetaDataset parameters
+    parser.add_argument('--image_size', type=int, default=128,
+                        help='Images will be resized to this value')
+    parser.add_argument('--base_sources', nargs="+", default=['aircraft', 'cu_birds', 'dtd', 'fungi', 'ilsvrc_2012', 'omniglot', 'quickdraw', 'vgg_flower'],
+                        help='List of datasets to use for training')
+    parser.add_argument('--val_sources', nargs="+", default=['aircraft', 'cu_birds', 'dtd', 'fungi', 'ilsvrc_2012', 'omniglot', 'quickdraw', 'vgg_flower'],
+                        help='List of datasets to use for validation')
+    parser.add_argument('--test_sources', nargs="+", default=['traffic_sign', 'mscoco', 'ilsvrc_2012', 'omniglot', 'aircraft', 'cu_birds', 'dtd', 'quickdraw', 'fungi', 'vgg_flower'],
+                        help='List of datasets to use for meta-testing')
+    parser.add_argument('--shuffle', type=bool, default=True,
+                        help='Whether or not to shuffle data for TFRecordDataset')
+    parser.add_argument('--train_transforms', nargs="+", default=['random_resized_crop', 'jitter', 'random_flip', 'to_tensor', 'normalize'],
+                        help='Transforms applied to training data',)
+    parser.add_argument('--test_transforms', nargs="+", default=['resize', 'center_crop', 'to_tensor', 'normalize'],
+                        help='Transforms applied to test data',)
+    parser.add_argument('--num_ways', type=int, default=None,
+                        help='Set it if you want a fixed # of ways per task')
+    parser.add_argument('--num_support', type=int, default=None,
+                        help='Set it if you want a fixed # of support samples per class')
+    parser.add_argument('--num_query', type=int, default=None,
+                        help='Set it if you want a fixed # of query samples per class')
+    parser.add_argument('--min_ways', type=int, default=5,
+                        help='Minimum # of ways per task')
+    parser.add_argument('--max_ways_upper_bound', type=int, default=50,
+                        help='Maximum # of ways per task')
+    parser.add_argument('--max_num_query', type=int, default=10,
+                        help='Maximum # of query samples')
+    parser.add_argument('--max_support_set_size', type=int, default=500,
+                        help='Maximum # of support samples')
+    parser.add_argument('--max_support_size_contrib_per_class', type=int, default=100,
+                        help='Maximum # of support samples per class')
+    parser.add_argument('--min_examples_in_class', type=int, default=0,
+                        help='Classes that have less samples will be skipped')
+    parser.add_argument('--min_log_weight', type=float, default=np.log(0.5),
+                        help='Do not touch, used to randomly sample support set')
+    parser.add_argument('--max_log_weight', type=float, default=np.log(2),
+                        help='Do not touch, used to randomly sample support set')
+    parser.add_argument('--ignore_bilevel_ontology', action='store_true',
+                        help='Whether or not to use superclass for BiLevel datasets (e.g Omniglot)')
+    parser.add_argument('--ignore_dag_ontology', action='store_true',
+                        help='Whether to ignore ImageNet DAG ontology when sampling \
+                              classes from it. This has no effect if ImageNet is not  \
+                              part of the benchmark.')
+    parser.add_argument('--ignore_hierarchy_probability', type=float, default=0.,
+                        help='if using a hierarchy, this flag makes the sampler \
+                              ignore the hierarchy for this proportion of episodes \
+                              and instead sample categories uniformly.')
+
+    # CDFSL parameters
+    parser.add_argument('--test_n_way'  , default=5, type=int,  help='class num to classify for testing (validation) ')
+    parser.add_argument('--n_shot'      , default=5, type=int,  help='number of labeled data in each class, same as n_support')
+    parser.add_argument('--cdfsl_domains', nargs="+", default=['EuroSAT', 'ISIC', 'CropDisease', 'ChestX'], help='CDFSL datasets')
+
+    # Model params
+    parser.add_argument('--arch', default='dino_base_patch16_224', type=str,
+                        help='Architecture of the backbone.')
+    parser.add_argument('--patch_size', default=16, type=int, help='Patch resolution of the model.')
+    parser.add_argument('--pretrained_weights', default='', type=str, help="Path to pretrained weights to evaluate.")
+    parser.add_argument("--checkpoint_key", default="teacher", type=str, help='Key to use in the checkpoint (example: "teacher")')
+    parser.add_argument('--unused_params', action='store_true')
+    parser.add_argument('--no-pretrain', action='store_true')
+
+    # Deployment params
+    parser.add_argument("--deploy", type=str, default="vanilla",
+                        help="Which few-shot model to be deployed for meta-testing.")
+    parser.add_argument('--num_adapters', default=1, type=int, help='Number of adapter tokens')
+    parser.add_argument('--ada_steps', default=40, type=int, help='Number of feature adaptation steps')
+    parser.add_argument('--ada_lr', default=5e-2, type=float, help='Learning rate of feature adaptation')
+    parser.add_argument('--aug_prob', default=0.9, type=float, help='Probability of applying data augmentation during meta-testing')
+    parser.add_argument('--aug_types', nargs="+", default=['color', 'translation'],
+                        help='color, offset, offset_h, offset_v, translation, cutout')
+
+    # Other model parameters
+    parser.add_argument('--img-size', default=224, type=int, help='images input size')
+
+    parser.add_argument('--drop', type=float, default=0.0, metavar='PCT',
+                        help='Dropout rate (default: 0.)')
+    parser.add_argument('--drop-path', type=float, default=0.1, metavar='PCT',
+                        help='Drop path rate (default: 0.1)')
+
+    parser.add_argument('--model-ema', action='store_true')
+    parser.add_argument('--no-model-ema', action='store_false', dest='model_ema')
+    parser.set_defaults(model_ema=False)
+    parser.add_argument('--model-ema-decay', type=float, default=0.99996, help='')
+    parser.add_argument('--model-ema-force-cpu', action='store_true', default=False, help='')
+
+    # Optimizer parameters
+    parser.add_argument('--opt', default='adamw', type=str, metavar='OPTIMIZER',
+                        help='Optimizer (default: "adamw"')
+    parser.add_argument('--opt-eps', default=1e-8, type=float, metavar='EPSILON',
+                        help='Optimizer Epsilon (default: 1e-8)')
+    parser.add_argument('--opt-betas', default=None, type=float, nargs='+', metavar='BETA',
+                        help='Optimizer Betas (default: None, use opt default)')
+    parser.add_argument('--clip-grad', type=float, default=None, metavar='NORM',
+                        help='Clip gradient norm (default: None, no clipping)')
+    parser.add_argument('--momentum', type=float, default=0.9, metavar='M',
+                        help='SGD momentum (default: 0.9)')
+    parser.add_argument('--weight-decay', type=float, default=0.05,
+                        help='weight decay (default: 0.05)')
+
+    # Learning rate schedule parameters
+    parser.add_argument('--sched', default='cosine', type=str, metavar='SCHEDULER',
+                        help='LR scheduler (default: "cosine"')
+    parser.add_argument('--lr', type=float, default=5e-5, metavar='LR',
+                        help='learning rate (default: 5e-4)')
+    parser.add_argument('--lr-noise', type=float, nargs='+', default=None, metavar='pct, pct',
+                        help='learning rate noise on/off epoch percentages')
+    parser.add_argument('--lr-noise-pct', type=float, default=0.67, metavar='PERCENT',
+                        help='learning rate noise limit percent (default: 0.67)')
+    parser.add_argument('--lr-noise-std', type=float, default=1.0, metavar='STDDEV',
+                        help='learning rate noise std-dev (default: 1.0)')
+    parser.add_argument('--warmup-lr', type=float, default=1e-6, metavar='LR',
+                        help='warmup learning rate (default: 1e-6)')
+    parser.add_argument('--min-lr', type=float, default=1e-6, metavar='LR',
+                        help='lower lr bound for cyclic schedulers that hit 0 (1e-5)')
+
+    parser.add_argument('--decay-epochs', type=float, default=30, metavar='N',
+                        help='epoch interval to decay LR (step scheduler)')
+    parser.add_argument('--warmup-epochs', type=int, default=5, metavar='N',
+                        help='epochs to warmup LR, if scheduler supports')
+    parser.add_argument('--cooldown-epochs', type=int, default=10, metavar='N',
+                        help='epochs to cooldown LR at min_lr, after cyclic schedule ends')
+    parser.add_argument('--patience-epochs', type=int, default=10, metavar='N',
+                        help='patience epochs for Plateau LR scheduler (default: 10')
+    parser.add_argument('--decay-rate', '--dr', type=float, default=0.1, metavar='RATE',
+                        help='LR decay rate (default: 0.1)')
+
+    # Augmentation parameters
+    parser.add_argument('--color-jitter', type=float, default=0.4, metavar='PCT',
+                        help='Color jitter factor (default: 0.4)')
+    parser.add_argument('--aa', type=str, default='rand-m9-mstd0.5-inc1', metavar='NAME',
+                        help='Use AutoAugment policy. "v0" or "original". " + \
+                             "(default: rand-m9-mstd0.5-inc1)'),
+    parser.add_argument('--smoothing', type=float, default=0.0, help='Label smoothing (default: 0.1)')
+    parser.add_argument('--train-interpolation', type=str, default='bicubic',
+                        help='Training interpolation (random, bilinear, bicubic default: "bicubic")')
+
+    parser.add_argument('--repeated-aug', action='store_true')
+
+    # * Random Erase params
+    parser.add_argument('--reprob', type=float, default=0.25, metavar='PCT',
+                        help='Random erase prob (default: 0.25)')
+    parser.add_argument('--remode', type=str, default='pixel',
+                        help='Random erase mode (default: "pixel")')
+    parser.add_argument('--recount', type=int, default=1,
+                        help='Random erase count (default: 1)')
+    parser.add_argument('--resplit', action='store_true', default=False,
+                        help='Do not random erase first (clean) augmentation split')
+
+    # * Mixup params
+    parser.add_argument('--mixup', type=float, default=0.,
+                        help='mixup alpha, mixup enabled if > 0. (default: 0.8)')
+    parser.add_argument('--cutmix', type=float, default=0.,
+                        help='cutmix alpha, cutmix enabled if > 0. (default: 1.0)')
+    parser.add_argument('--cutmix-minmax', type=float, nargs='+', default=None,
+                        help='cutmix min/max ratio, overrides alpha and enables cutmix if set (default: None)')
+    parser.add_argument('--mixup-prob', type=float, default=1.0,
+                        help='Probability of performing mixup or cutmix when either/both is enabled')
+    parser.add_argument('--mixup-switch-prob', type=float, default=0.5,
+                        help='Probability of switching to cutmix when both mixup and cutmix enabled')
+    parser.add_argument('--mixup-mode', type=str, default='batch',
+                        help='How to apply mixup/cutmix params. Per "batch", "pair", or "elem"')
+
+    # Distillation parameters
+    parser.add_argument('--teacher-model', default='regnety_160', type=str, metavar='MODEL',
+                        help='Name of teacher model to train (default: "regnety_160"')
+    parser.add_argument('--teacher-path', type=str, default='')
+    parser.add_argument('--distillation-type', default='none', choices=['none', 'soft', 'hard'], type=str, help="")
+    parser.add_argument('--distillation-alpha', default=0.5, type=float, help="")
+    parser.add_argument('--distillation-tau', default=1.0, type=float, help="")
+
+    # Misc
+    parser.add_argument('--resume', default='', help='resume from checkpoint')
+    parser.add_argument('--start_epoch', default=0, type=int, metavar='N',
+                        help='start epoch')
+    parser.add_argument('--eval', action='store_true', help='Perform evaluation only')
+    parser.add_argument('--dist-eval', action='store_true', default=False, help='Enabling distributed evaluation')
+    parser.add_argument('--num_workers', default=10, type=int)
+    parser.add_argument('--pin-mem', action='store_true',
+                        help='Pin CPU memory in DataLoader for more efficient (sometimes) transfer to GPU.')
+    parser.add_argument('--no-pin-mem', action='store_false', dest='pin_mem',
+                        help='')
+    parser.set_defaults(pin_mem=True)
+
+    # distributed training parameters
+    parser.add_argument('--world_size', default=1, type=int,
+                        help='number of distributed processes')
+    parser.add_argument('--dist_url', default='env://', help='url used to set up distributed training')
+    return parser
diff --git a/utils/deit_util.py b/utils/deit_util.py
new file mode 100644
index 0000000000000000000000000000000000000000..f12e92787bfd7f91bc9d1891f952ffa19727d35f
--- /dev/null
+++ b/utils/deit_util.py
@@ -0,0 +1,246 @@
+# Copyright (c) 2015-present, Facebook, Inc.
+# All rights reserved.
+"""
+Misc functions, including distributed helpers.
+
+Mostly copy-paste from torchvision references.
+"""
+import io
+import os
+import time
+from collections import defaultdict, deque
+import datetime
+
+import torch
+import torch.distributed as dist
+
+
+class SmoothedValue(object):
+    """Track a series of values and provide access to smoothed values over a
+    window or the global series average.
+    """
+
+    def __init__(self, window_size=20, fmt=None):
+        if fmt is None:
+            fmt = "{median:.4f} ({global_avg:.4f})"
+        self.deque = deque(maxlen=window_size)
+        self.total = 0.0
+        self.count = 0
+        self.fmt = fmt
+
+    def update(self, value, n=1):
+        self.deque.append(value)
+        self.count += n
+        self.total += value * n
+
+    def synchronize_between_processes(self):
+        """
+        Warning: does not synchronize the deque!
+        """
+        if not is_dist_avail_and_initialized():
+            return
+        t = torch.tensor([self.count, self.total], dtype=torch.float64, device='cuda')
+        dist.barrier()
+        dist.all_reduce(t)
+        t = t.tolist()
+        self.count = int(t[0])
+        self.total = t[1]
+
+    @property
+    def median(self):
+        d = torch.tensor(list(self.deque))
+        return d.median().item()
+
+    @property
+    def avg(self):
+        d = torch.tensor(list(self.deque), dtype=torch.float32)
+        return d.mean().item()
+
+    @property
+    def std(self):
+        d = torch.tensor(list(self.deque), dtype=torch.float32)
+        return d.std().item()
+
+    @property
+    def global_avg(self):
+        return self.total / self.count
+
+    @property
+    def max(self):
+        return max(self.deque)
+
+    @property
+    def value(self):
+        return self.deque[-1]
+
+    def __str__(self):
+        return self.fmt.format(
+            median=self.median,
+            avg=self.avg,
+            global_avg=self.global_avg,
+            max=self.max,
+            value=self.value)
+
+
+class MetricLogger(object):
+    def __init__(self, delimiter="\t"):
+        self.meters = defaultdict(SmoothedValue)
+        self.delimiter = delimiter
+
+    def update(self, **kwargs):
+        for k, v in kwargs.items():
+            if isinstance(v, torch.Tensor):
+                v = v.item()
+            assert isinstance(v, (float, int))
+            self.meters[k].update(v)
+
+    def __getattr__(self, attr):
+        if attr in self.meters:
+            return self.meters[attr]
+        if attr in self.__dict__:
+            return self.__dict__[attr]
+        raise AttributeError("'{}' object has no attribute '{}'".format(
+            type(self).__name__, attr))
+
+    def __str__(self):
+        loss_str = []
+        for name, meter in self.meters.items():
+            loss_str.append(
+                "{}: {}".format(name, str(meter))
+            )
+        return self.delimiter.join(loss_str)
+
+    def synchronize_between_processes(self):
+        for meter in self.meters.values():
+            meter.synchronize_between_processes()
+
+    def add_meter(self, name, meter):
+        self.meters[name] = meter
+
+    def log_every(self, iterable, print_freq, header=None):
+        i = 0
+        if not header:
+            header = ''
+        start_time = time.time()
+        end = time.time()
+        iter_time = SmoothedValue(fmt='{avg:.4f}')
+        data_time = SmoothedValue(fmt='{avg:.4f}')
+        space_fmt = ':' + str(len(str(len(iterable)))) + 'd'
+        log_msg = [
+            header,
+            '[{0' + space_fmt + '}/{1}]',
+            'eta: {eta}',
+            '{meters}',
+            'time: {time}',
+            'data: {data}'
+        ]
+        if torch.cuda.is_available():
+            log_msg.append('max mem: {memory:.0f}')
+        log_msg = self.delimiter.join(log_msg)
+        MB = 1024.0 * 1024.0
+        for obj in iterable:
+            data_time.update(time.time() - end)
+            yield obj
+            iter_time.update(time.time() - end)
+            if i % print_freq == 0 or i == len(iterable) - 1:
+                eta_seconds = iter_time.global_avg * (len(iterable) - i)
+                eta_string = str(datetime.timedelta(seconds=int(eta_seconds)))
+                if torch.cuda.is_available():
+                    print(log_msg.format(
+                        i, len(iterable), eta=eta_string,
+                        meters=str(self),
+                        time=str(iter_time), data=str(data_time),
+                        memory=torch.cuda.max_memory_allocated() / MB))
+                else:
+                    print(log_msg.format(
+                        i, len(iterable), eta=eta_string,
+                        meters=str(self),
+                        time=str(iter_time), data=str(data_time)))
+            i += 1
+            end = time.time()
+        total_time = time.time() - start_time
+        total_time_str = str(datetime.timedelta(seconds=int(total_time)))
+        print('{} Total time: {} ({:.4f} s / it)'.format(
+            header, total_time_str, total_time / len(iterable)))
+
+
+def _load_checkpoint_for_ema(model_ema, checkpoint):
+    """
+    Workaround for ModelEma._load_checkpoint to accept an already-loaded object
+    """
+    mem_file = io.BytesIO()
+    torch.save(checkpoint, mem_file)
+    mem_file.seek(0)
+    model_ema._load_checkpoint(mem_file)
+
+
+def setup_for_distributed(is_master):
+    """
+    This function disables printing when not in master process
+    """
+    import builtins as __builtin__
+    builtin_print = __builtin__.print
+
+    def print(*args, **kwargs):
+        force = kwargs.pop('force', False)
+        if is_master or force:
+            builtin_print(*args, **kwargs)
+
+    __builtin__.print = print
+
+
+def is_dist_avail_and_initialized():
+    if not dist.is_available():
+        return False
+    if not dist.is_initialized():
+        return False
+    return True
+
+
+def get_world_size():
+    if not is_dist_avail_and_initialized():
+        return 1
+    return dist.get_world_size()
+
+
+def get_rank():
+    if not is_dist_avail_and_initialized():
+        return 0
+    return dist.get_rank()
+
+
+def is_main_process():
+    return get_rank() == 0
+
+
+def save_on_master(*args, **kwargs):
+    if is_main_process():
+        torch.save(*args, **kwargs)
+
+
+def init_distributed_mode(args):
+    if args.device != 'cuda':
+        print('Not using distributed mode')
+        args.distributed = False
+        return
+
+    if 'RANK' in os.environ and 'WORLD_SIZE' in os.environ:
+        args.rank = int(os.environ["RANK"])
+        args.world_size = int(os.environ['WORLD_SIZE'])
+        args.gpu = int(os.environ['LOCAL_RANK'])
+    elif 'SLURM_PROCID' in os.environ:
+        args.rank = int(os.environ['SLURM_PROCID'])
+        args.gpu = args.rank % torch.cuda.device_count()
+
+    args.distributed = True
+
+    args.dist_backend = 'nccl'
+    print('| distributed init (rank {}): {}'.format(
+        args.rank, args.dist_url), flush=True)
+    torch.distributed.init_process_group(backend=args.dist_backend, init_method=args.dist_url,
+                                         world_size=args.world_size, rank=args.rank)
+
+    #torch.distributed.barrier()
+    torch.distributed.barrier(device_ids=[args.gpu])
+    torch.cuda.set_device(args.gpu)
+    setup_for_distributed(args.rank == 0)
diff --git a/utils/dino_utils.py b/utils/dino_utils.py
new file mode 100644
index 0000000000000000000000000000000000000000..53b51175caf4c898e47839dbc0c3042c929f47b9
--- /dev/null
+++ b/utils/dino_utils.py
@@ -0,0 +1,578 @@
+# Copyright (c) Facebook, Inc. and its affiliates.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""
+Misc functions.
+
+Mostly copy-paste from torchvision references or other public repos like DETR:
+https://github.com/facebookresearch/detr/blob/master/util/misc.py
+"""
+import os
+import sys
+import time
+import math
+import random
+import datetime
+import subprocess
+from collections import defaultdict, deque
+
+import numpy as np
+import torch
+from torch import nn
+import torch.distributed as dist
+from PIL import ImageFilter, ImageOps
+
+
+class GaussianBlur(object):
+    """
+    Apply Gaussian Blur to the PIL image.
+    """
+    def __init__(self, p=0.5, radius_min=0.1, radius_max=2.):
+        self.prob = p
+        self.radius_min = radius_min
+        self.radius_max = radius_max
+
+    def __call__(self, img):
+        do_it = random.random() <= self.prob
+        if not do_it:
+            return img
+
+        return img.filter(
+            ImageFilter.GaussianBlur(
+                radius=random.uniform(self.radius_min, self.radius_max)
+            )
+        )
+
+
+class Solarization(object):
+    """
+    Apply Solarization to the PIL image.
+    """
+    def __init__(self, p):
+        self.p = p
+
+    def __call__(self, img):
+        if random.random() < self.p:
+            return ImageOps.solarize(img)
+        else:
+            return img
+
+
+def load_pretrained_weights(model, pretrained_weights, checkpoint_key, model_name, patch_size):
+    if os.path.isfile(pretrained_weights):
+        state_dict = torch.load(pretrained_weights, map_location="cpu")
+        if checkpoint_key is not None and checkpoint_key in state_dict:
+            print(f"Take key {checkpoint_key} in provided checkpoint dict")
+            state_dict = state_dict[checkpoint_key]
+        # remove `module.` prefix
+        state_dict = {k.replace("module.", ""): v for k, v in state_dict.items()}
+        # remove `backbone.` prefix induced by multicrop wrapper
+        state_dict = {k.replace("backbone.", ""): v for k, v in state_dict.items()}
+        msg = model.load_state_dict(state_dict, strict=False)
+        print('Pretrained weights found at {} and loaded with msg: {}'.format(pretrained_weights, msg))
+    else:
+        print("Please use the `--pretrained_weights` argument to indicate the path of the checkpoint to evaluate.")
+        url = None
+        if model_name == "vit_small" and patch_size == 16:
+            url = "dino_deitsmall16_pretrain/dino_deitsmall16_pretrain.pth"
+        elif model_name == "vit_small" and patch_size == 8:
+            url = "dino_deitsmall8_pretrain/dino_deitsmall8_pretrain.pth"
+        elif model_name == "vit_base" and patch_size == 16:
+            url = "dino_vitbase16_pretrain/dino_vitbase16_pretrain.pth"
+        elif model_name == "vit_base" and patch_size == 8:
+            url = "dino_vitbase8_pretrain/dino_vitbase8_pretrain.pth"
+        if url is not None:
+            print("Since no pretrained weights have been provided, we load the reference pretrained DINO weights.")
+            state_dict = torch.hub.load_state_dict_from_url(url="https://dl.fbaipublicfiles.com/dino/" + url)
+            model.load_state_dict(state_dict, strict=True)
+        else:
+            print("There is no reference weights available for this model => We use random weights.")
+
+
+def clip_gradients(model, clip):
+    norms = []
+    for name, p in model.named_parameters():
+        if p.grad is not None:
+            param_norm = p.grad.data.norm(2)
+            norms.append(param_norm.item())
+            clip_coef = clip / (param_norm + 1e-6)
+            if clip_coef < 1:
+                p.grad.data.mul_(clip_coef)
+    return norms
+
+
+def cancel_gradients_last_layer(epoch, model, freeze_last_layer):
+    if epoch >= freeze_last_layer:
+        return
+    for n, p in model.named_parameters():
+        if "last_layer" in n:
+            p.grad = None
+
+
+def restart_from_checkpoint(ckp_path, run_variables=None, **kwargs):
+    """
+    Re-start from checkpoint
+    """
+    if not os.path.isfile(ckp_path):
+        return
+    print("Found checkpoint at {}".format(ckp_path))
+
+    # open checkpoint file
+    checkpoint = torch.load(ckp_path, map_location="cpu")
+
+    # key is what to look for in the checkpoint file
+    # value is the object to load
+    # example: {'state_dict': model}
+    for key, value in kwargs.items():
+        if key in checkpoint and value is not None:
+            try:
+                msg = value.load_state_dict(checkpoint[key], strict=False)
+                print("=> loaded {} from checkpoint '{}' with msg {}".format(key, ckp_path, msg))
+            except TypeError:
+                try:
+                    msg = value.load_state_dict(checkpoint[key])
+                    print("=> loaded {} from checkpoint '{}'".format(key, ckp_path))
+                except ValueError:
+                    print("=> failed to load {} from checkpoint '{}'".format(key, ckp_path))
+        else:
+            print("=> failed to load {} from checkpoint '{}'".format(key, ckp_path))
+
+    # re load variable important for the run
+    if run_variables is not None:
+        for var_name in run_variables:
+            if var_name in checkpoint:
+                run_variables[var_name] = checkpoint[var_name]
+
+
+def cosine_scheduler(base_value, final_value, epochs, niter_per_ep, warmup_epochs=0, start_warmup_value=0):
+    warmup_schedule = np.array([])
+    warmup_iters = warmup_epochs * niter_per_ep
+    if warmup_epochs > 0:
+        warmup_schedule = np.linspace(start_warmup_value, base_value, warmup_iters)
+
+    iters = np.arange(epochs * niter_per_ep - warmup_iters)
+    schedule = final_value + 0.5 * (base_value - final_value) * (1 + np.cos(np.pi * iters / len(iters)))
+
+    schedule = np.concatenate((warmup_schedule, schedule))
+    assert len(schedule) == epochs * niter_per_ep
+    return schedule
+
+
+def bool_flag(s):
+    """
+    Parse boolean arguments from the command line.
+    """
+    FALSY_STRINGS = {"off", "false", "0"}
+    TRUTHY_STRINGS = {"on", "true", "1"}
+    if s.lower() in FALSY_STRINGS:
+        return False
+    elif s.lower() in TRUTHY_STRINGS:
+        return True
+    else:
+        raise argparse.ArgumentTypeError("invalid value for a boolean flag")
+
+
+def fix_random_seeds(seed=31):
+    """
+    Fix random seeds.
+    """
+    torch.manual_seed(seed)
+    torch.cuda.manual_seed_all(seed)
+    np.random.seed(seed)
+
+
+class SmoothedValue(object):
+    """Track a series of values and provide access to smoothed values over a
+    window or the global series average.
+    """
+
+    def __init__(self, window_size=20, fmt=None):
+        if fmt is None:
+            fmt = "{median:.6f} ({global_avg:.6f})"
+        self.deque = deque(maxlen=window_size)
+        self.total = 0.0
+        self.count = 0
+        self.fmt = fmt
+
+    def update(self, value, n=1):
+        self.deque.append(value)
+        self.count += n
+        self.total += value * n
+
+    def synchronize_between_processes(self):
+        """
+        Warning: does not synchronize the deque!
+        """
+        if not is_dist_avail_and_initialized():
+            return
+        t = torch.tensor([self.count, self.total], dtype=torch.float64, device='cuda')
+        dist.barrier()
+        dist.all_reduce(t)
+        t = t.tolist()
+        self.count = int(t[0])
+        self.total = t[1]
+
+    @property
+    def median(self):
+        d = torch.tensor(list(self.deque))
+        return d.median().item()
+
+    @property
+    def avg(self):
+        d = torch.tensor(list(self.deque), dtype=torch.float32)
+        return d.mean().item()
+
+    @property
+    def global_avg(self):
+        return self.total / self.count
+
+    @property
+    def max(self):
+        return max(self.deque)
+
+    @property
+    def value(self):
+        return self.deque[-1]
+
+    def __str__(self):
+        return self.fmt.format(
+            median=self.median,
+            avg=self.avg,
+            global_avg=self.global_avg,
+            max=self.max,
+            value=self.value)
+
+
+def reduce_dict(input_dict, average=True):
+    """
+    Args:
+        input_dict (dict): all the values will be reduced
+        average (bool): whether to do average or sum
+    Reduce the values in the dictionary from all processes so that all processes
+    have the averaged results. Returns a dict with the same fields as
+    input_dict, after reduction.
+    """
+    world_size = get_world_size()
+    if world_size < 2:
+        return input_dict
+    with torch.no_grad():
+        names = []
+        values = []
+        # sort the keys so that they are consistent across processes
+        for k in sorted(input_dict.keys()):
+            names.append(k)
+            values.append(input_dict[k])
+        values = torch.stack(values, dim=0)
+        dist.all_reduce(values)
+        if average:
+            values /= world_size
+        reduced_dict = {k: v for k, v in zip(names, values)}
+    return reduced_dict
+
+
+class MetricLogger(object):
+    def __init__(self, delimiter="\t"):
+        self.meters = defaultdict(SmoothedValue)
+        self.delimiter = delimiter
+
+    def update(self, **kwargs):
+        for k, v in kwargs.items():
+            if isinstance(v, torch.Tensor):
+                v = v.item()
+            assert isinstance(v, (float, int))
+            self.meters[k].update(v)
+
+    def __getattr__(self, attr):
+        if attr in self.meters:
+            return self.meters[attr]
+        if attr in self.__dict__:
+            return self.__dict__[attr]
+        raise AttributeError("'{}' object has no attribute '{}'".format(
+            type(self).__name__, attr))
+
+    def __str__(self):
+        loss_str = []
+        for name, meter in self.meters.items():
+            loss_str.append(
+                "{}: {}".format(name, str(meter))
+            )
+        return self.delimiter.join(loss_str)
+
+    def synchronize_between_processes(self):
+        for meter in self.meters.values():
+            meter.synchronize_between_processes()
+
+    def add_meter(self, name, meter):
+        self.meters[name] = meter
+
+    def log_every(self, iterable, print_freq, header=None):
+        i = 0
+        if not header:
+            header = ''
+        start_time = time.time()
+        end = time.time()
+        iter_time = SmoothedValue(fmt='{avg:.6f}')
+        data_time = SmoothedValue(fmt='{avg:.6f}')
+        space_fmt = ':' + str(len(str(len(iterable)))) + 'd'
+        if torch.cuda.is_available():
+            log_msg = self.delimiter.join([
+                header,
+                '[{0' + space_fmt + '}/{1}]',
+                'eta: {eta}',
+                '{meters}',
+                'time: {time}',
+                'data: {data}',
+                'max mem: {memory:.0f}'
+            ])
+        else:
+            log_msg = self.delimiter.join([
+                header,
+                '[{0' + space_fmt + '}/{1}]',
+                'eta: {eta}',
+                '{meters}',
+                'time: {time}',
+                'data: {data}'
+            ])
+        MB = 1024.0 * 1024.0
+        for obj in iterable:
+            data_time.update(time.time() - end)
+            yield obj
+            iter_time.update(time.time() - end)
+            if i % print_freq == 0 or i == len(iterable) - 1:
+                eta_seconds = iter_time.global_avg * (len(iterable) - i)
+                eta_string = str(datetime.timedelta(seconds=int(eta_seconds)))
+                if torch.cuda.is_available():
+                    print(log_msg.format(
+                        i, len(iterable), eta=eta_string,
+                        meters=str(self),
+                        time=str(iter_time), data=str(data_time),
+                        memory=torch.cuda.max_memory_allocated() / MB))
+                else:
+                    print(log_msg.format(
+                        i, len(iterable), eta=eta_string,
+                        meters=str(self),
+                        time=str(iter_time), data=str(data_time)))
+            i += 1
+            end = time.time()
+        total_time = time.time() - start_time
+        total_time_str = str(datetime.timedelta(seconds=int(total_time)))
+        print('{} Total time: {} ({:.6f} s / it)'.format(
+            header, total_time_str, total_time / len(iterable)))
+
+
+def get_sha():
+    cwd = os.path.dirname(os.path.abspath(__file__))
+
+    def _run(command):
+        return subprocess.check_output(command, cwd=cwd).decode('ascii').strip()
+    sha = 'N/A'
+    diff = "clean"
+    branch = 'N/A'
+    try:
+        sha = _run(['git', 'rev-parse', 'HEAD'])
+        subprocess.check_output(['git', 'diff'], cwd=cwd)
+        diff = _run(['git', 'diff-index', 'HEAD'])
+        diff = "has uncommited changes" if diff else "clean"
+        branch = _run(['git', 'rev-parse', '--abbrev-ref', 'HEAD'])
+    except Exception:
+        pass
+    message = f"sha: {sha}, status: {diff}, branch: {branch}"
+    return message
+
+
+def is_dist_avail_and_initialized():
+    if not dist.is_available():
+        return False
+    if not dist.is_initialized():
+        return False
+    return True
+
+
+def get_world_size():
+    if not is_dist_avail_and_initialized():
+        return 1
+    return dist.get_world_size()
+
+
+def get_rank():
+    if not is_dist_avail_and_initialized():
+        return 0
+    return dist.get_rank()
+
+
+def is_main_process():
+    return get_rank() == 0
+
+
+def save_on_master(*args, **kwargs):
+    if is_main_process():
+        torch.save(*args, **kwargs)
+
+
+def setup_for_distributed(is_master):
+    """
+    This function disables printing when not in master process
+    """
+    import builtins as __builtin__
+    builtin_print = __builtin__.print
+
+    def print(*args, **kwargs):
+        force = kwargs.pop('force', False)
+        if is_master or force:
+            builtin_print(*args, **kwargs)
+
+    __builtin__.print = print
+
+
+def init_distributed_mode(args):
+    # launched with torch.distributed.launch
+    if 'RANK' in os.environ and 'WORLD_SIZE' in os.environ:
+        args.rank = int(os.environ["RANK"])
+        args.world_size = int(os.environ['WORLD_SIZE'])
+        args.gpu = int(os.environ['LOCAL_RANK'])
+    # launched with submitit on a slurm cluster
+    elif 'SLURM_PROCID' in os.environ:
+        args.rank = int(os.environ['SLURM_PROCID'])
+        args.gpu = args.rank % torch.cuda.device_count()
+    # launched naively with `python main_dino.py`
+    # we manually add MASTER_ADDR and MASTER_PORT to env variables
+    elif torch.cuda.is_available():
+        print('Will run the code on one GPU.')
+        args.rank, args.gpu, args.world_size = 0, 0, 1
+        os.environ['MASTER_ADDR'] = '127.0.0.1'
+        os.environ['MASTER_PORT'] = '29500'
+    else:
+        print('Does not support training without GPU.')
+        sys.exit(1)
+
+    dist.init_process_group(
+        backend="nccl",
+        init_method=args.dist_url,
+        world_size=args.world_size,
+        rank=args.rank,
+    )
+
+    torch.cuda.set_device(args.gpu)
+    print('| distributed init (rank {}): {}'.format(
+        args.rank, args.dist_url), flush=True)
+    dist.barrier()
+    setup_for_distributed(args.rank == 0)
+
+
+def accuracy(output, target, topk=(1,)):
+    """Computes the accuracy over the k top predictions for the specified values of k"""
+    maxk = max(topk)
+    batch_size = target.size(0)
+    _, pred = output.topk(maxk, 1, True, True)
+    pred = pred.t()
+    correct = pred.eq(target.reshape(1, -1).expand_as(pred))
+    return [correct[:k].reshape(-1).float().sum(0) * 100. / batch_size for k in topk]
+
+
+class LARS(torch.optim.Optimizer):
+    """
+    Almost copy-paste from https://github.com/facebookresearch/barlowtwins/blob/main/main.py
+    """
+    def __init__(self, params, lr=0, weight_decay=0, momentum=0.9, eta=0.001,
+                 weight_decay_filter=None, lars_adaptation_filter=None):
+        defaults = dict(lr=lr, weight_decay=weight_decay, momentum=momentum,
+                        eta=eta, weight_decay_filter=weight_decay_filter,
+                        lars_adaptation_filter=lars_adaptation_filter)
+        super().__init__(params, defaults)
+
+    @torch.no_grad()
+    def step(self):
+        for g in self.param_groups:
+            for p in g['params']:
+                dp = p.grad
+
+                if dp is None:
+                    continue
+
+                if p.ndim != 1:
+                    dp = dp.add(p, alpha=g['weight_decay'])
+
+                if p.ndim != 1:
+                    param_norm = torch.norm(p)
+                    update_norm = torch.norm(dp)
+                    one = torch.ones_like(param_norm)
+                    q = torch.where(param_norm > 0.,
+                                    torch.where(update_norm > 0,
+                                                (g['eta'] * param_norm / update_norm), one), one)
+                    dp = dp.mul(q)
+
+                param_state = self.state[p]
+                if 'mu' not in param_state:
+                    param_state['mu'] = torch.zeros_like(p)
+                mu = param_state['mu']
+                mu.mul_(g['momentum']).add_(dp)
+
+                p.add_(mu, alpha=-g['lr'])
+
+
+class MultiCropWrapper(nn.Module):
+    """
+    Perform forward pass separately on each resolution input.
+    The inputs corresponding to a single resolution are clubbed and single
+    forward is run on the same resolution inputs. Hence we do several
+    forward passes = number of different resolutions used. We then
+    concatenate all the output features and run the head forward on these
+    concatenated features.
+    """
+    def __init__(self, backbone, head):
+        super(MultiCropWrapper, self).__init__()
+        # disable layers dedicated to ImageNet labels classification
+        backbone.fc, backbone.head = nn.Identity(), nn.Identity()
+        self.backbone = backbone
+        self.head = head
+
+    def forward(self, x):
+        # convert to list
+        if not isinstance(x, list):
+            x = [x]
+        idx_crops = torch.cumsum(torch.unique_consecutive(
+            torch.tensor([inp.shape[-1] for inp in x]),
+            return_counts=True,
+        )[1], 0)
+        start_idx = 0
+        for end_idx in idx_crops:
+            _out = self.backbone(torch.cat(x[start_idx: end_idx]))
+            if start_idx == 0:
+                output = _out
+            else:
+                output = torch.cat((output, _out))
+            start_idx = end_idx
+        # Run the head forward on the concatenated features.
+        return self.head(output)
+
+
+def get_params_groups(model):
+    regularized = []
+    not_regularized = []
+    for name, param in model.named_parameters():
+        if not param.requires_grad:
+            continue
+        # we do not regularize biases nor Norm parameters
+        if name.endswith(".bias") or len(param.shape) == 1:
+            not_regularized.append(param)
+        else:
+            regularized.append(param)
+    return [{'params': regularized}, {'params': not_regularized, 'weight_decay': 0.}]
+
+
+def has_batchnorms(model):
+    bn_types = (nn.BatchNorm1d, nn.BatchNorm2d, nn.BatchNorm3d, nn.SyncBatchNorm)
+    for name, module in model.named_modules():
+        if isinstance(module, bn_types):
+            return True
+    return False
diff --git a/utils/dist_util.py b/utils/dist_util.py
new file mode 100644
index 0000000000000000000000000000000000000000..f98d4847608b836607c9b942284da736e37afe67
--- /dev/null
+++ b/utils/dist_util.py
@@ -0,0 +1,97 @@
+import io
+import os
+
+import torch
+import torch.distributed as dist
+
+
+def _load_checkpoint_for_ema(model_ema, checkpoint):
+    """
+    Workaround for ModelEma._load_checkpoint to accept an already-loaded object
+    """
+    mem_file = io.BytesIO()
+    torch.save(checkpoint, mem_file)
+    mem_file.seek(0)
+    model_ema._load_checkpoint(mem_file)
+
+
+def setup_for_distributed(is_master):
+    """
+    This function disables printing when not in master process
+    """
+    import builtins as __builtin__
+    builtin_print = __builtin__.print
+
+    def print(*args, **kwargs):
+        force = kwargs.pop('force', False)
+        if is_master or force:
+            builtin_print(*args, **kwargs)
+
+    __builtin__.print = print
+
+
+def is_dist_avail_and_initialized():
+    if not dist.is_available():
+        return False
+    if not dist.is_initialized():
+        return False
+    return True
+
+
+def get_world_size():
+    if not is_dist_avail_and_initialized():
+        return 1
+    return dist.get_world_size()
+
+
+def get_rank():
+    if not is_dist_avail_and_initialized():
+        return 0
+    return dist.get_rank()
+
+
+def is_main_process():
+    return get_rank() == 0
+
+
+def save_on_master(*args, **kwargs):
+    if is_main_process():
+        torch.save(*args, **kwargs)
+
+
+def init_distributed_mode(args):
+    if 'RANK' in os.environ and 'WORLD_SIZE' in os.environ:
+        args.rank = int(os.environ["RANK"])
+        args.world_size = int(os.environ['WORLD_SIZE'])
+        args.gpu = int(os.environ['LOCAL_RANK'])
+    elif 'SLURM_PROCID' in os.environ:
+        args.rank = int(os.environ['SLURM_PROCID'])
+        args.gpu = args.rank % torch.cuda.device_count()
+    else:
+        print('Not using distributed mode')
+        args.distributed = False
+        return
+
+    args.distributed = True
+
+    torch.cuda.set_device(args.gpu)
+    args.dist_backend = 'nccl'
+    print('| distributed init (rank {}): {}'.format(
+        args.rank, args.dist_url), flush=True)
+    torch.distributed.init_process_group(backend=args.dist_backend, init_method=args.dist_url,
+                                         world_size=args.world_size, rank=args.rank)
+    torch.distributed.barrier()
+    setup_for_distributed(args.rank == 0)
+
+
+def format_step(step):
+    if isinstance(step, str):
+        return step
+    s = ""
+    if len(step) > 0:
+        s += "Training Epoch: {} ".format(step[0])
+    if len(step) > 1:
+        s += "Training Iteration: {} ".format(step[1])
+    if len(step) > 2:
+        s += "Validation Iteration: {} ".format(step[2])
+    return s
diff --git a/utils/scheduler.py b/utils/scheduler.py
new file mode 100644
index 0000000000000000000000000000000000000000..9daaf6e7ebca8a0de1477b66cd431981ef1f1461
--- /dev/null
+++ b/utils/scheduler.py
@@ -0,0 +1,63 @@
+import logging
+import math
+
+from torch.optim.lr_scheduler import LambdaLR
+
+logger = logging.getLogger(__name__)
+
+class ConstantLRSchedule(LambdaLR):
+    """ Constant learning rate schedule.
+    """
+    def __init__(self, optimizer, last_epoch=-1):
+        super(ConstantLRSchedule, self).__init__(optimizer, lambda _: 1.0, last_epoch=last_epoch)
+
+
+class WarmupConstantSchedule(LambdaLR):
+    """ Linear warmup and then constant.
+        Linearly increases learning rate schedule from 0 to 1 over `warmup_steps` training steps.
+        Keeps learning rate schedule equal to 1. after warmup_steps.
+    """
+    def __init__(self, optimizer, warmup_steps, last_epoch=-1):
+        self.warmup_steps = warmup_steps
+        super(WarmupConstantSchedule, self).__init__(optimizer, self.lr_lambda, last_epoch=last_epoch)
+
+    def lr_lambda(self, step):
+        if step < self.warmup_steps:
+            return float(step) / float(max(1.0, self.warmup_steps))
+        return 1.
+
+
+class WarmupLinearSchedule(LambdaLR):
+    """ Linear warmup and then linear decay.
+        Linearly increases learning rate from 0 to 1 over `warmup_steps` training steps.
+        Linearly decreases learning rate from 1. to 0. over remaining `t_total - warmup_steps` steps.
+    """
+    def __init__(self, optimizer, warmup_steps, t_total, last_epoch=-1):
+        self.warmup_steps = warmup_steps
+        self.t_total = t_total
+        super(WarmupLinearSchedule, self).__init__(optimizer, self.lr_lambda, last_epoch=last_epoch)
+
+    def lr_lambda(self, step):
+        if step < self.warmup_steps:
+            return float(step) / float(max(1, self.warmup_steps))
+        return max(0.0, float(self.t_total - step) / float(max(1.0, self.t_total - self.warmup_steps)))
+
+
+class WarmupCosineSchedule(LambdaLR):
+    """ Linear warmup and then cosine decay.
+        Linearly increases learning rate from 0 to 1 over `warmup_steps` training steps.
+        Decreases learning rate from 1. to 0. over remaining `t_total - warmup_steps` steps following a cosine curve.
+        If `cycles` (default=0.5) is different from default, learning rate follows cosine function after warmup.
+    """
+    def __init__(self, optimizer, warmup_steps, t_total, cycles=.5, last_epoch=-1):
+        self.warmup_steps = warmup_steps
+        self.t_total = t_total
+        self.cycles = cycles
+        super(WarmupCosineSchedule, self).__init__(optimizer, self.lr_lambda, last_epoch=last_epoch)
+
+    def lr_lambda(self, step):
+        if step < self.warmup_steps:
+            return float(step) / float(max(1.0, self.warmup_steps))
+        # progress after warmup
+        progress = float(step - self.warmup_steps) / float(max(1, self.t_total - self.warmup_steps))
+        return max(0.0, 0.5 * (1. + math.cos(math.pi * float(self.cycles) * 2.0 * progress)))
diff --git a/write_plantae_filelist.py b/write_plantae_filelist.py
new file mode 100644
index 0000000000000000000000000000000000000000..619fd6b6ee6bc2880071461e28ea7a47481ee2e6
--- /dev/null
+++ b/write_plantae_filelist.py
@@ -0,0 +1,76 @@
+import numpy as np
+from os import listdir
+from os.path import isfile, isdir, join
+import os
+#import json
+import random
+from subprocess import call
+
+cwd = '/home/yuqian_fu/Data/CDFSL/Plantae'
+source_path = cwd
+data_path = join(cwd,'images')
+if not os.path.exists(data_path):
+    os.makedirs(data_path)
+savedir = './'
+dataset_list = ['base','val','novel']
+
+
+folder_list = [f for f in listdir(source_path) if isdir(join(source_path, f))]
+#folder_list.sort()
+folder_list_count = np.array([len(listdir(join(source_path, f))) for f in folder_list])
+folder_list_idx = np.argsort(folder_list_count)
+folder_list = np.array(folder_list)[folder_list_idx[-200:]].tolist()
+label_dict = dict(zip(folder_list,range(0,len(folder_list))))
+
+classfile_list_all = []
+
+for i, folder in enumerate(folder_list):
+    source_folder_path = join(source_path, folder)
+    folder_path = join(data_path, folder)
+    classfile_list_all.append( [ cf for cf in listdir(source_folder_path) if (isfile(join(source_folder_path,cf)) and cf[0] != '.')])
+    random.shuffle(classfile_list_all[i])
+    classfile_list_all[i] = classfile_list_all[i][:min(len(classfile_list_all[i]), 600)]
+
+    call('mkdir ' + folder_path, shell=True)
+    for cf in classfile_list_all[i]:
+      call('cp ' + join(source_folder_path, cf) + ' ' + join(folder_path, cf), shell=True)
+    classfile_list_all[i] = [join(folder_path, cf) for cf in classfile_list_all[i]]
+
+for dataset in dataset_list:
+    file_list = []
+    label_list = []
+    for i, classfile_list in enumerate(classfile_list_all):
+        if 'base' in dataset:
+            if (i%2 == 0):
+                file_list = file_list + classfile_list
+                label_list = label_list + np.repeat(i, len(classfile_list)).tolist()
+        if 'val' in dataset:
+            if (i%4 == 1):
+                file_list = file_list + classfile_list
+                label_list = label_list + np.repeat(i, len(classfile_list)).tolist()
+        if 'novel' in dataset:
+            if (i%4 == 3):
+                file_list = file_list + classfile_list
+                label_list = label_list + np.repeat(i, len(classfile_list)).tolist()
+
+    fo = open(savedir + dataset + ".json", "w")
+    fo.write('{"label_names": [')
+    fo.writelines(['"%s",' % item  for item in folder_list])
+    fo.seek(0, os.SEEK_END)
+    fo.seek(fo.tell()-1, os.SEEK_SET)
+    fo.write('],')
+
+    fo.write('"image_names": [')
+    fo.writelines(['"%s",' % item  for item in file_list])
+    fo.seek(0, os.SEEK_END)
+    fo.seek(fo.tell()-1, os.SEEK_SET)
+    fo.write('],')
+
+    fo.write('"image_labels": [')
+    fo.writelines(['%d,' % item  for item in label_list])
+    fo.seek(0, os.SEEK_END)
+    fo.seek(fo.tell()-1, os.SEEK_SET)
+    fo.write(']}')
+
+    fo.close()
+    print("%s -OK" %dataset)
\ No newline at end of file